CN104572650A - 浏览器智能阅读实现方法、装置及其终端 - Google Patents
浏览器智能阅读实现方法、装置及其终端 Download PDFInfo
- Publication number
- CN104572650A CN104572650A CN201310474508.0A CN201310474508A CN104572650A CN 104572650 A CN104572650 A CN 104572650A CN 201310474508 A CN201310474508 A CN 201310474508A CN 104572650 A CN104572650 A CN 104572650A
- Authority
- CN
- China
- Prior art keywords
- nextpage
- page
- label
- link information
- true
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种浏览器智能阅读实现方法、装置及其终端,所述方法包括:依据预先设置在当前页面中检索候选下页标签的链接信息,并选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;依据所述真实下页标签的链接信息预加载下页页面;获得下页页面的正文内容并将其拼接至该当前页面。本发明通过对比候选下页标签的链接地址与当前页面的连接地址的相似度智能判别并准确地检索到下文页面的链接地址,从而提取下页页面的正文内容并拼接,从而可以极大地提高用户的阅读体验。
Description
技术领域
本发明涉及浏览器技术领域,具体而言,涉及一种浏览器智能阅读实现方法、装置及其终端。
背景技术
随着无线通讯技术和互联网技术的飞速发展,目前在移动终端(例如,智能手机)上采用浏览器上网的用户也越来越多。
为了提高用户的浏览器使用体验,各设备或方案提供商针对浏览器的各项功能也提出了多种改进方案,其中之一的阅读模式便是用于方便用户浏览多页新闻或者小说类网页而提出的一种浏览器附加功能。通过该阅读模式功能,浏览器可以自动将具有多页的新闻或小说类网页的正文内容拼接在一起,以供用户轻松地浏览,从而帮助用户省去了频繁翻页的操作,并且无需用户长时间多频次的等待下页加载的过程。
然而,本发明的发明人经研究发现,当前在浏览器上实现上述阅读模式,主要还存在以下一些问题亟待解决:
第一、现有的浏览器支持的阅读模式只是简单地通过搜索“下一页”等类似的文本标签,并基于这些文本标签来查找该网页之后下页的链接地址。但在实际情况之下,此类文本标签在当前网页中可能不止存在一个,也有可能存在较多的类似标签,因此容易导致错找或漏找真实的下页链接地址,以致无法正确地加载下页内容。
第二、现有的浏览器支持的阅读模式在提取下页的正文内容时,往往都是提取整个网页的内容,例如其加载的内容同时还包括该当前页面以前/以后节点的所有节点内容。
除此之外,该现有技术在提取已加载的页面的正文内容时,对于各个页面中重复的部分往往会重复提取,一则加大了处理能力的开销,二则一定程度上影响了用户的阅读体验。
发明内容
为了解决上述现有技术中的至少一个问题,本发明实施例的目的在于提供一种浏览器智能阅读实现方法、装置及其终端,其通过对比候选下页标签的链接地址与当前页面的连接地址的相似度智能判别并准确地检索到下文页面的链接地址,从而提取下页页面的正文内容并拼接,从而可以极大地提高用户的阅读体验。
为了达到本发明的目的,本发明采用以下技术方案实现:
一种浏览器智能阅读实现方法,包括:
依据预先设置在当前页面中检索候选下页标签的链接信息,并选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
依据所述真实下页标签的链接信息预加载下页页面;
获得下页页面的正文内容并将其拼接至该当前页面。
优选地,所述预先设置为至少一个下页加载鉴别符或自动触发加载策略,所述下页加载鉴别符至少定义了通过预定手势触发下页页面预加载或通过垂直滚动条的位置触发下页页面预加载,所述自动触发加载策略定义了至少一种通过预先配置的触发规则自动触发下页页面预加载。
优选地,所述通过预定手势触发下页页面预加载包括:
检测与触敏屏的接触;
当所述接触的轨迹延伸方向符合预定手势时,即触发下页页面预加载。
优选地,所述通过垂直滚动条的位置触发下页页面预加载包括:
检测垂直滚动条的当前位置;
当所述当前位置与预定的触发位置相匹配时,即触发下页页面预加载。
优选地,从候选下页标签中选择真实下页标签包括:
检索当前页面中所有候选下页标签的链接信息;
采用以下数学式计算各候选下页标签的链接信息与当前页面链接信息的相似度S:
S=T/N,其中,T为各候选下页标签的链接信息与当前页面链接信息在相同位置上具有相同字符的个数,所述N为当前页面链接信息的字符个数;
选取相似度最大且超出预定阈值的候选下页标签作为真实下页标签。
优选地,依据所述真实下页标签的链接信息获得下页页面的正文内容包括:
分别获取在文档对象模型DOM树中当前页面以及真实下页页面的所有的节点集合,并将真实下页页面中与当前页面属性相同的节点予以滤除;
计算真实下页页面之中余下节点所包含正文的长度,并将正文长度最长的节点作为该真实下页页面的正文节点,并依据该正文节点获取下页页面的正文内容。
一种浏览器智能阅读实现装置,其包括:
触发检索模块,用于依据预先设置在当前页面中检索候选下页标签的链接信息;
主控模块,用于在候选下页标签中选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
网页预加载模块,用于依据所述真实下页标签的链接信息预加载下页页面;
正文提取模块,用于获得下页页面的正文内容;
内容拼接模块,用于将所述下页页面的正文内容拼接至该当前页面。
优选地,所述预先设置为至少一个下页加载鉴别符或自动触发加载策略,所述下页加载鉴别符至少定义了通过预定手势触发下页页面预加载或通过垂直滚动条的位置触发下页页面预加载,所述自动触发加载策略定义了至少一种通过预先配置的触发规则自动触发下页页面预加载。
优选地,所述触发检索模块包括:
第一检测模块,用于检测与触敏屏的接触;
第一触发模块,用于当所述接触的轨迹延伸方向符合预定手势时,即触发下页页面加载。
优选地,所述触发检索模块包括:
第二检测模块,用于检测垂直滚动条的当前位置;
第二触发模块,用于当所述当前位置与预定的触发位置相匹配时,即触发下页页面预加载。
优选地,所述主控模块包括:
检索模块,用于检索当前页面中所有候选下页标签的链接信息;
计算模块,用于采用以下数学式计算各候选下页标签的链接信息与当前页面链接信息的相似度S:
S=T/N,其中,T为各候选下页标签的链接信息与当前页面链接信息在相同位置上具有相同字符的个数,所述N为当前页面链接信息的字符个数;
判断模块,用于选取相似度最大且超出预定阈值的候选下页标签作为真实下页标签。
优选地,所述正文提取模块包括:
过滤模块,用于分别获取在文档对象模型DOM树中当前页面以及真实下页页面的所有的节点集合,并将真实下页页面中与当前页面属性相同的节点予以滤除;
提取模块,用于计算真实下页页面之中余下节点所包含正文的长度,并将正文长度最长的节点作为该真实下页页面的正文节点,并依据该正文节点获取下页页面的正文内容。
一种终端,其包括如上所述的浏览器智能阅读实现装置,所述装置包括:
触发检索模块,用于依据预先设置在当前页面中检索候选下页标签的链接信息;
主控模块,用于在候选下页标签中选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
网页预加载模块,用于依据所述真实下页标签的链接信息预加载下页页面;
正文提取模块,用于获得下页页面的正文内容;
内容拼接模块,用于将所述下页页面的正文内容拼接至该当前页面。
通过上述本发明的技术方案可以看出,本发明通过对比候选下页标签的链接地址与当前页面的连接地址的相似度智能判别并准确地检索到下文页面的链接地址,从而提取下页页面的正文内容并拼接,从而可以极大地提高用户的阅读体验。采用本发明提供的浏览器智能阅读模式,其可以自动将具有多页的新闻和小说类网页正文内容拼接在一起以供用户轻松地浏览,而无需用户进行频繁地翻页操作以及等待下页加载的过程。
附图说明
图1是本发明实施例提供的浏览器智能阅读实现方法流程示意图;
图2是本发明实施例提供的通过预定手势触发下页页面预加载的流程示意图;
图3是本发明实施例提供的通过垂直滚动条的位置触发下页页面预加载的流程示意图;
图4是本发明实施例提供的从候选下页标签中选择真实下页标签的流程示意图;
图5是本发明实施例提供的依据所述真实下页标签的链接信息获得下页页面的正文内容的流程示意图;
图6是本发明实施例提供的浏览器智能阅读实现装置结构示意图;
图7是本发明一实施例提供的触发检索模块结构示意图;
图8是本发明另一实施例提供的触发检索模块结构示意图;
图9是本发明实施例提供的主控模块结构示意图;
图10是本发明实施例提供的正文提取模块结构示意图。
本发明目的的实现、功能特点及优异效果,下面将结合具体实施例以及附图做进一步的说明。
具体实施方式
下面结合附图和具体实施例对本发明所述技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图1所示,本发明实施例提供的一种浏览器智能阅读实现方法,包括如下步骤:
S10、依据预先设置在当前页面中检索候选下页标签的链接信息,并选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
S20、依据所述真实下页标签的链接信息预加载下页页面;
S30、获得下页页面的正文内容并将其拼接至该当前页面。
在本实施例中,所述预先设置为至少一个下页加载鉴别符或自动触发加载策略,所述下页加载鉴别符至少定义了通过预定手势触发下页页面预加载或通过垂直滚动条的位置触发下页页面预加载,所述自动触发加载策略定义了至少一种通过预先配置的触发规则自动触发下页页面预加载。除此之外,其他本领域内被公知的可以用于触发进行下页页面加载的技术同样可以被定义至所述下页加载鉴别符,本文对此不一一予以述及。
另外,除了由用户触发检索候选下页标签之外,还可以采取其他不由用户触发而直接进入该功能的实现方式(即自动触发加载策略),例如在某些实施例中,用户只要打开浏览器,系统即自动检索候选下页标签以及后续的下页页面正文拼接功能即自动开启。又或者,在另外一些实施例中,所述自动触发加载策略可以被预先配置为在用户开启浏览器并且当前有可用网络时即开启自动检索候选下页标签功能,所述自动触发加载策略可依据具体情形而由本领域内的技术人员根据其普遍掌握的知识而进行具体设计,本文对此不作一一细述。
例如,一种实施方式中,如图2所示,所述通过预定手势触发下页页面预加载包括:
S01、检测与触敏屏的接触;
S02、当所述接触的轨迹延伸方向符合预定手势时,即触发下页页面预加载。
或者,另一种实施方式中,如图3所示,所述通过垂直滚动条的位置触发下页页面预加载包括:
S03、检测垂直滚动条的当前位置;
S04、当所述当前位置与预定的触发位置相匹配时,即触发下页页面预加载。
本实施例中,如图4所示,从候选下页标签中选择真实下页标签包括:
S101、检索当前页面中所有候选下页标签的链接信息;
S102、采用以下数学式计算各候选下页标签的链接信息与当前页面链接信息的相似度S:
S=T/N,其中,T为各候选下页标签的链接信息与当前页面链接信息在相同位置上具有相同字符的个数,所述N为当前页面链接信息的字符个数;
S103、选取相似度最大且超出预定阈值的候选下页标签作为真实下页标签。
本实施例中,如图5所示,依据所述真实下页标签的链接信息获得下页页面的正文内容包括:
S301、分别获取在文档对象模型DOM树中当前页面以及真实下页页面的所有的节点集合,并将真实下页页面中与当前页面属性相同的节点予以滤除;
S302、计算真实下页页面之中余下节点所包含正文的长度,并将正文长度最长的节点作为该真实下页页面的正文节点,并依据该正文节点获取下页页面的正文内容。
例如,本发明的一个实施例中,所述浏览器智能阅读实现方法包括:
步骤100:判断当前网页垂直滚动条坐标位置是否到达本页正文的末端,如果未达到则退出,否则进入下一步骤;
步骤110:在当前网页范围中检索下页标签的链接地址(其具体检索步骤见后续步骤200至步骤230),如果没有检索到下页的链接地址,则退出,否则进入下一步骤;
步骤120:依据上一步骤得到的下页链接地址在后台发起网页下载流程,将下载成功的下页网页数据准备好;
步骤130:将下载成功的下页网页数据中的正文内容提取出来(其正文提取具体步骤见后续步骤300至步骤350);
步骤140:将下页正文内容拼接到当前网页正文的下方;
步骤150:重新进入步骤100,开始进行新的下页的检索、下载、提取和拼接过程。
通过上述步骤,随着用户操控调整垂直滚动条,下页页面的正文内容就自动拼接在当前网页页面的正文下方,省去了用户频繁翻页和等待下页加载过程。
接下来具体再说明下以上步骤中的两个关键环节:下页链接地址的检索以及正文内容的提取。下面分别予以说明之。
对于所述步骤110,在当前网页范围中检索下页标签的链接地址的步骤包括:
步骤200:在当前页面中检索所有的链接节点,即标签<a>节点集合;
步骤210:在标签a节点集合中筛选出含有“下页文本集合”元素之一的候选节点,其中,“下页文本集合”主要包含但不限于以下文本属性的链接节点:下页、下一页、next等等;
步骤220:将候选节点的链接地址与当前页面链接地址进行相似度计算,其计算公式为:
相似度值=两个地址相同位置上字符相同的个数/当前页面连接地址的字符个数
步骤230:将相似度值最高且超出一定阈值(例如,80%)的候选节点作为当前页面的下页节点,并提取出其相应的链接地址。
经过上述步骤的处理,就可将当前页面的下页页面的链接地址准确地提取出来,避免了常规方法造成的错选和漏选。
对于所述步骤130,将下载成功的下页网页数据中的正文内容提取出来的步骤包括:
步骤300:输入当前页面和下页页面内容,查找到当前页面的下页节点,得到在DOM树中位于该节点前面的所有节点集合;
步骤310:在该集合中筛选出可能包含正文内容的候选节点标签,例如,<h*>、<t>、<b>等;
步骤320:将上述步骤中得到候选节点依次在下页页面中查找,如果发现两个网页中有标签和标签属性完全相同的节点就滤除掉该节点。
对于该步骤320,举一采取手机阅读新华网页的例子作为说明:
某新闻第一页即当前网页源码主要内容如下:
<h3class="title">首都机场爆炸案嫌犯被公诉</h3>
<div class="meta">
<span>发布时间:2013年08月29日11:34</span>
</div>
<div class="content">
<p>首都机场爆炸案犯罪嫌疑人冀中星被朝阳检察院提起公诉</p>
<p>北京市朝阳区人民检察院于2013年8月29日以涉嫌爆炸罪对首都机场爆炸案犯罪嫌疑人冀中星依法提起公诉。</p>
<p>经依法审查查明:冀中星于2013年7月20日携带自制爆炸装置,自山东省居住地乘长途汽车独自来京,当晚18时许至北京首都国际机场三号航站楼二层国际旅客到达B出口处,引爆自制爆炸装置,造成其本人重伤,同时造成一名民警轻微伤。爆炸现场秩序混乱,国际旅客到达出口通道紧急关闭。后冀中星被公安机关当场查获。</p>
</div>
其第二页即下页页面预加载后,其网页源码主要内容如下:
<h3class="title">首都机场爆炸案嫌犯被公诉</h3>
<div class="meta">
<span>发布时间:2013年08月29日11:34</span>
</div>
<div class="content">
<p>《中华人民共和国刑法》第一百一十四条规定,“放火、决水、爆炸以及投放毒害性、放射性、传染病病原体等物质或者以其他危险方法危害公共安全,尚未造成严重后果的,处三年以上十年以下有期徒刑。”</p>
</div>
</div>
很显然,在这两个页面中,标题和发布时间等都是重复内容,通过第一页各个节点与第二页节点标签比对,发现第一页的节点<h3class="title">首都机场爆炸案嫌犯被公诉</h3>以及<div class="meta"><span>发布时间:2013年08月29日11:34</span></div>其标签名和标签中的内容与第二页中对应内容都是完全一样,因此将这些节点滤掉,剩下第二页正文标签对应的内容如下:
<div class="content">
<p>《中华人民共和国刑法》第一百一十四条规定,“放火、决水、爆炸以及投放毒害性、放射性、传染病病原体等物质或者以其他危险方法危害公共安全,尚未造成严重后果的,处三年以上十年以下有期徒刑。”</p>
</div>
步骤330:计算剩下各个候选节点标签包含正文的长度;
步骤340:将以上正文长度最长的标签节点作为该下页页面的正文节点,得到该标签对应的ID或类名。在实际情况之下,如果该标签ID或类名为空,则取该节点父节点的对应的ID或类名,依次类推,直到找到为止;
步骤350:通过上步骤得到的标签ID或类名在下页网页中找到对应的正文标签节点,然后从标签节点中提取出下页的正文内容以作为网页拼接使用。
通过上述步骤处理,可以自动将下页新闻或小说类网页中的正文部分很干净地提取出来以拼接在当前网页的正文下方,最大地避免其他节点内容的重复干扰,让用户可以很清爽地阅读整个新闻或则小说的内容,从而让用户获得极佳的阅读体验。
如图6所示,本发明实施例还提供了一种浏览器智能阅读实现装置,其包括:
触发检索模块10,用于依据预先设置在当前页面中检索候选下页标签的链接信息;
主控模块20,用于在候选下页标签中选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
网页预加载模块30,用于依据所述真实下页标签的链接信息预加载下页页面;
正文提取模块40,用于获得下页页面的正文内容;
内容拼接模块50,用于将所述下页页面的正文内容拼接至该当前页面。
本实施例中,所述预先设置为至少一个下页加载鉴别符或自动触发加载策略,所述下页加载鉴别符至少定义了通过预定手势触发下页页面预加载或通过垂直滚动条的位置触发下页页面预加载,所述自动触发加载策略定义了至少一种通过预先配置的触发规则自动触发下页页面预加载。
例如,一种实施方式中,如图7所示,所述触发检索模块10包括:
第一检测模块101,用于检测与触敏屏的接触;
第一触发模块102,用于当所述接触的轨迹延伸方向符合预定手势时,即触发下页页面加载。
或者,另一种实施方式中,如图8所示,所述触发检索模块包括:
第二检测模块103,用于检测垂直滚动条的当前位置;
第二触发模块104,用于当所述当前位置与预定的触发位置相匹配时,即触发下页页面预加载。
本实施例中,如图9所示,所述主控模块20包括:
检索模块201,用于检索当前页面中所有候选下页标签的链接信息;
计算模块202,用于采用以下数学式计算各候选下页标签的链接信息与当前页面链接信息的相似度S:
S=T/N,其中,T为各候选下页标签的链接信息与当前页面链接信息在相同位置上具有相同字符的个数,所述N为当前页面链接信息的字符个数;
判断模块203,用于选取相似度最大且超出预定阈值的候选下页标签作为真实下页标签。
本实施例中,如图10所示,所述正文提取模块40包括:
过滤模块401,用于分别获取在文档对象模型DOM树中当前页面以及真实下页页面的所有的节点集合,并将真实下页页面中与当前页面属性相同的节点予以滤除;
提取模块402,用于计算真实下页页面之中余下节点所包含正文的长度,并将正文长度最长的节点作为该真实下页页面的正文节点,并依据该正文节点获取下页页面的正文内容。
本发明实施例还提供了一种终端,其包括如上所述的浏览器智能阅读实现装置,继续参考图6,所述装置包括:
触发检索模块10,用于依据预先设置在当前页面中检索候选下页标签的链接信息;
主控模块20,用于在候选下页标签中选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
网页预加载模块30,用于依据所述真实下页标签的链接信息预加载下页页面;
正文提取模块40,用于获得下页页面的正文内容;
内容拼接模块50,用于将所述下页页面的正文内容拼接至该当前页面。
同样地,所述预先设置为至少一个下页加载鉴别符或自动触发加载策略,所述下页加载鉴别符至少定义了通过预定手势触发下页页面预加载或通过垂直滚动条的位置触发下页页面预加载,所述自动触发加载策略定义了至少一种通过预先配置的触发规则自动触发下页页面预加载。对于所述浏览器智能阅读实现装置的详细内容可一并参考上文所述,这里对其不再进行重复赘述。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (13)
1.一种浏览器智能阅读实现方法,其特征在于,包括:
依据预先设置在当前页面中检索候选下页标签的链接信息,并选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
依据所述真实下页标签的链接信息预加载下页页面;
获得下页页面的正文内容并将其拼接至该当前页面。
2.如权利要求1所述的浏览器智能阅读实现方法,其特征在于,所述预先设置为至少一个下页加载鉴别符或自动触发加载策略,所述下页加载鉴别符至少定义了通过预定手势触发下页页面预加载或通过垂直滚动条的位置触发下页页面预加载,所述自动触发加载策略定义了至少一种通过预先配置的触发规则自动触发下页页面预加载。
3.如权利要求2所述的浏览器智能阅读实现方法,其特征在于,所述通过预定手势触发下页页面预加载包括:
检测与触敏屏的接触;
当所述接触的轨迹延伸方向符合预定手势时,即触发下页页面预加载。
4.如权利要求2所述的浏览器智能阅读实现方法,其特征在于,所述通过垂直滚动条的位置触发下页页面预加载包括:
检测垂直滚动条的当前位置;
当所述当前位置与预定的触发位置相匹配时,即触发下页页面预加载。
5.如权利要求1至4中任意一项所述的浏览器智能阅读实现方法,其特征在于,从候选下页标签中选择真实下页标签包括:
检索当前页面中所有候选下页标签的链接信息;
采用以下数学式计算各候选下页标签的链接信息与当前页面链接信息的相似度S:
S=T/N,其中,T为各候选下页标签的链接信息与当前页面链接信息在相同位置上具有相同字符的个数,所述N为当前页面链接信息的字符个数;
选取相似度最大且超出预定阈值的候选下页标签作为真实下页标签。
6.如权利要求5所述的浏览器智能阅读实现方法,其特征在于,依据所述真实下页标签的链接信息获得下页页面的正文内容包括:
分别获取在文档对象模型DOM树中当前页面以及真实下页页面的所有的节点集合,并将真实下页页面中与当前页面属性相同的节点予以滤除;
计算真实下页页面之中余下节点所包含正文的长度,并将正文长度最长的节点作为该真实下页页面的正文节点,并依据该正文节点获取下页页面的正文内容。
7.一种浏览器智能阅读实现装置,其特征在于,包括:
触发检索模块,用于依据预先设置在当前页面中检索候选下页标签的链接信息;
主控模块,用于在候选下页标签中选择与当前页面链接信息相似度最大的候选下页标签作为真实下页标签;
网页预加载模块,用于依据所述真实下页标签的链接信息预加载下页页面;
正文提取模块,用于获得下页页面的正文内容;
内容拼接模块,用于将所述下页页面的正文内容拼接至该当前页面。
8.如权利要求7所述的浏览器智能阅读实现装置,其特征在于,所述预先设置为至少一个下页加载鉴别符或自动触发加载策略,所述下页加载鉴别符至少定义了通过预定手势触发下页页面预加载或通过垂直滚动条的位置触发下页页面预加载,所述自动触发加载策略定义了至少一种通过预先配置的触发规则自动触发下页页面预加载。
9.如权利要求8所述的浏览器智能阅读实现装置,其特征在于,所述触发检索模块包括:
第一检测模块,用于检测与触敏屏的接触;
第一触发模块,用于当所述接触的轨迹延伸方向符合预定手势时,即触发下页页面加载。
10.如权利要求8所述的浏览器智能阅读实现装置,其特征在于,所述触发检索模块包括:
第二检测模块,用于检测垂直滚动条的当前位置;
第二触发模块,用于当所述当前位置与预定的触发位置相匹配时,即触发下页页面预加载。
11.如权利要求7至10中任意一项所述的浏览器智能阅读实现装置,其特征在于,所述主控模块包括:
检索模块,用于检索当前页面中所有候选下页标签的链接信息;
计算模块,用于采用以下数学式计算各候选下页标签的链接信息与当前页面链接信息的相似度S:
S=T/N,其中,T为各候选下页标签的链接信息与当前页面链接信息在相同位置上具有相同字符的个数,所述N为当前页面链接信息的字符个数;
判断模块,用于选取相似度最大且超出预定阈值的候选下页标签作为真实下页标签。
12.如权利要求11所述的浏览器智能阅读实现装置,其特征在于,所述正文提取模块包括:
过滤模块,用于分别获取在文档对象模型DOM树中当前页面以及真实下页页面的所有的节点集合,并将真实下页页面中与当前页面属性相同的节点予以滤除;
提取模块,用于计算真实下页页面之中余下节点所包含正文的长度,并将正文长度最长的节点作为该真实下页页面的正文节点,并依据该正文节点获取下页页面的正文内容。
13.一种终端,其特征在于,包括如权利要求7-12任一权利要求所述的浏览器智能阅读实现装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310474508.0A CN104572650A (zh) | 2013-10-11 | 2013-10-11 | 浏览器智能阅读实现方法、装置及其终端 |
EP14794157.9A EP3057002A4 (en) | 2013-10-11 | 2014-04-15 | METHOD, DEVICE, DEVICE AND COMPUTER MEMORY MEDIUM FOR CARRYING OUT INTELLIGENT READING OF A BROWSER |
US15/028,507 US9892099B2 (en) | 2013-10-11 | 2014-04-15 | Intelligent reading for accessing multi-page data from a web browser |
PCT/CN2014/075428 WO2014180227A1 (zh) | 2013-10-11 | 2014-04-15 | 浏览器智能阅读实现方法、装置、终端及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310474508.0A CN104572650A (zh) | 2013-10-11 | 2013-10-11 | 浏览器智能阅读实现方法、装置及其终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104572650A true CN104572650A (zh) | 2015-04-29 |
Family
ID=51866695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310474508.0A Pending CN104572650A (zh) | 2013-10-11 | 2013-10-11 | 浏览器智能阅读实现方法、装置及其终端 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9892099B2 (zh) |
EP (1) | EP3057002A4 (zh) |
CN (1) | CN104572650A (zh) |
WO (1) | WO2014180227A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820722A (zh) * | 2015-05-26 | 2015-08-05 | 广州神马移动信息科技有限公司 | 页面展示方法和装置 |
CN105302913A (zh) * | 2015-11-12 | 2016-02-03 | 北京奇虎科技有限公司 | 网络小说章节列表评估方法及装置 |
CN107656933A (zh) * | 2016-07-25 | 2018-02-02 | 中兴通讯股份有限公司 | 一种语音播报方法及装置 |
CN108108377A (zh) * | 2016-11-24 | 2018-06-01 | 广州市动景计算机科技有限公司 | 浏览器页面跳转方法、装置及终端设备 |
CN108363815A (zh) * | 2015-07-20 | 2018-08-03 | 广州市动景计算机科技有限公司 | 一种网页页面的预读取方法、装置及智能终端设备 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120461B1 (en) | 2014-11-06 | 2021-09-14 | Capital One Services, Llc | Passive user-generated coupon submission |
US11068921B1 (en) | 2014-11-06 | 2021-07-20 | Capital One Services, Llc | Automated testing of multiple on-line coupons |
WO2017062678A1 (en) * | 2015-10-07 | 2017-04-13 | Impossible Ventures, LLC | Automated extraction of data from web pages |
US11205188B1 (en) | 2017-06-07 | 2021-12-21 | Capital One Services, Llc | Automatically presenting e-commerce offers based on browse history |
CN109086366B (zh) * | 2018-07-20 | 2024-05-10 | 腾讯科技(武汉)有限公司 | 浏览器中的推荐新闻显示方法、装置、设备及存储介质 |
CN110390044B (zh) * | 2019-06-11 | 2024-03-19 | 平安科技(深圳)有限公司 | 一种相似网络页面的搜索方法及设备 |
CN110765382B (zh) * | 2019-10-14 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 图片读物加载方法、装置、存储介质和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866362A (zh) * | 2010-07-01 | 2010-10-20 | 优视科技有限公司 | 移动通讯设备终端的自动定位页面主要内容的方法及系统 |
CN102222086A (zh) * | 2011-05-18 | 2011-10-19 | 广州市动景计算机科技有限公司 | 基于移动终端的网页阅读方法、网页阅读装置及移动终端 |
CN102841900A (zh) * | 2011-06-23 | 2012-12-26 | 腾讯科技(深圳)有限公司 | 页面处理方法和装置 |
WO2013028081A1 (en) * | 2011-08-23 | 2013-02-28 | Opera Software Asa | Page based navigation and presentation of web content |
CN103118081A (zh) * | 2013-01-18 | 2013-05-22 | 北京奇虎科技有限公司 | 预加载浏览器中浏览页面的服务器、客户端、系统和方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1108685C (zh) | 1997-08-06 | 2003-05-14 | 塔奇勇公司 | 预取对象的分布系统和方法 |
JP2001242980A (ja) | 2000-03-02 | 2001-09-07 | Yasufumi Mase | 情報表示システム |
US8015259B2 (en) | 2002-09-10 | 2011-09-06 | Alan Earl Swahn | Multi-window internet search with webpage preload |
US8200992B2 (en) | 2007-09-24 | 2012-06-12 | Cognitive Electronics, Inc. | Parallel processing computer systems with reduced power consumption and methods for providing the same |
US9395884B2 (en) * | 2008-09-24 | 2016-07-19 | Sap Se | Method and system for navigating between pages |
KR101010285B1 (ko) * | 2008-11-21 | 2011-01-24 | 삼성전자주식회사 | 단말기의 웹 페이지 히스토리 운용 방법 및 장치 |
CN102314450B (zh) * | 2010-06-30 | 2014-11-26 | 国际商业机器公司 | 用于增强网页浏览的方法和设备 |
US8812977B2 (en) * | 2010-08-12 | 2014-08-19 | Salesforce.Com, Inc. | Accessing multi-page data using a page index in a scrollbar |
CN101968708A (zh) | 2010-09-19 | 2011-02-09 | 优视科技有限公司 | 触摸式移动终端浏览器自动翻页的方法及系统 |
US20120198342A1 (en) * | 2011-01-28 | 2012-08-02 | International Business Machines Corporation | Automatic generation of task scripts from web browsing interaction history |
US20140082484A1 (en) * | 2012-09-20 | 2014-03-20 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for obtaining information |
CN102982181B (zh) | 2012-12-18 | 2016-09-28 | 北京奇虎科技有限公司 | 一种在浏览器侧展现网页数据的方法及装置 |
-
2013
- 2013-10-11 CN CN201310474508.0A patent/CN104572650A/zh active Pending
-
2014
- 2014-04-15 EP EP14794157.9A patent/EP3057002A4/en not_active Ceased
- 2014-04-15 WO PCT/CN2014/075428 patent/WO2014180227A1/zh active Application Filing
- 2014-04-15 US US15/028,507 patent/US9892099B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866362A (zh) * | 2010-07-01 | 2010-10-20 | 优视科技有限公司 | 移动通讯设备终端的自动定位页面主要内容的方法及系统 |
CN102222086A (zh) * | 2011-05-18 | 2011-10-19 | 广州市动景计算机科技有限公司 | 基于移动终端的网页阅读方法、网页阅读装置及移动终端 |
CN102841900A (zh) * | 2011-06-23 | 2012-12-26 | 腾讯科技(深圳)有限公司 | 页面处理方法和装置 |
WO2013028081A1 (en) * | 2011-08-23 | 2013-02-28 | Opera Software Asa | Page based navigation and presentation of web content |
CN103118081A (zh) * | 2013-01-18 | 2013-05-22 | 北京奇虎科技有限公司 | 预加载浏览器中浏览页面的服务器、客户端、系统和方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820722A (zh) * | 2015-05-26 | 2015-08-05 | 广州神马移动信息科技有限公司 | 页面展示方法和装置 |
CN108363815A (zh) * | 2015-07-20 | 2018-08-03 | 广州市动景计算机科技有限公司 | 一种网页页面的预读取方法、装置及智能终端设备 |
CN108363815B (zh) * | 2015-07-20 | 2021-08-24 | 阿里巴巴(中国)有限公司 | 一种网页页面的预读取方法、装置及智能终端设备 |
CN105302913A (zh) * | 2015-11-12 | 2016-02-03 | 北京奇虎科技有限公司 | 网络小说章节列表评估方法及装置 |
CN105302913B (zh) * | 2015-11-12 | 2018-09-18 | 北京奇虎科技有限公司 | 网络小说章节列表评估方法及装置 |
CN107656933A (zh) * | 2016-07-25 | 2018-02-02 | 中兴通讯股份有限公司 | 一种语音播报方法及装置 |
CN108108377A (zh) * | 2016-11-24 | 2018-06-01 | 广州市动景计算机科技有限公司 | 浏览器页面跳转方法、装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3057002A4 (en) | 2016-11-02 |
WO2014180227A1 (zh) | 2014-11-13 |
US9892099B2 (en) | 2018-02-13 |
EP3057002A1 (en) | 2016-08-17 |
US20160253295A1 (en) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572650A (zh) | 浏览器智能阅读实现方法、装置及其终端 | |
CN109614482B (zh) | 标签的处理方法、装置、电子设备及存储介质 | |
CN103810425B (zh) | 恶意网址的检测方法及装置 | |
CN103020266B (zh) | 对网页文本内容进行提取的方法和装置 | |
JP2013510368A (ja) | テキストフィルタリングの方法およびシステム | |
CN104462509A (zh) | 垃圾评论检测方法及装置 | |
CN105631051A (zh) | 基于文字识别的移动增强现实阅读方法及其阅读系统 | |
CN104035999A (zh) | 基于家长个性化推荐管控的安全网络浏览系统 | |
CN112199526B (zh) | 一种多媒体内容发布的方法、装置、电子设备及存储介质 | |
CN105975557A (zh) | 应用于电子设备的题目搜索方法及装置 | |
CN102981902A (zh) | 基于智能移动终端的屏保方法及其智能移动终端 | |
CN105930486A (zh) | 大数据的快速搜索方法及装置 | |
CN105975554B (zh) | 基于移动终端的大数据搜索方法及装置 | |
CN105930487B (zh) | 应用于移动终端的题目搜索方法及装置 | |
CN102629251A (zh) | 一种网页信息显示方法和装置 | |
CN105938496A (zh) | 网页内容提取方法及装置 | |
CN106897289A (zh) | 信息搜索的优化方法及装置 | |
CN103853777B (zh) | 通过关键字访问网站的方法及装置 | |
CN103475673A (zh) | 钓鱼网站识别方法、装置及客户端 | |
CN106550084B (zh) | 通讯录号码格式处理方法、系统及其设备 | |
CN105653941A (zh) | 一种启发式检测钓鱼网站的方法及系统 | |
CN105120046A (zh) | 一种根据新增号码的备注信息创建通讯录的方法及装置 | |
CN105955586A (zh) | 一种在终端上显示关键词的释义的方法和装置 | |
CN105447194B (zh) | 一种文件搜索方法及终端 | |
CN105893559A (zh) | 一种数据推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150429 |
|
RJ01 | Rejection of invention patent application after publication |