CN103294781B - 一种用于处理页面数据的方法与设备 - Google Patents

一种用于处理页面数据的方法与设备 Download PDF

Info

Publication number
CN103294781B
CN103294781B CN201310177865.0A CN201310177865A CN103294781B CN 103294781 B CN103294781 B CN 103294781B CN 201310177865 A CN201310177865 A CN 201310177865A CN 103294781 B CN103294781 B CN 103294781B
Authority
CN
China
Prior art keywords
node
page
training
target pages
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310177865.0A
Other languages
English (en)
Other versions
CN103294781A (zh
Inventor
罗威
陈铭敏
邓天生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310177865.0A priority Critical patent/CN103294781B/zh
Publication of CN103294781A publication Critical patent/CN103294781A/zh
Application granted granted Critical
Publication of CN103294781B publication Critical patent/CN103294781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的目的是提供一种用于处理页面数据的方法与设备,具体地,获取待处理的目标页面;根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;根据所述节点属性信息,对所述页面节点进行相应的数据处理。其中,与现有技术相比,本发明通过根据与待处理的目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息,进而根据所述节点属性信息,对所述页面节点进行相应的数据处理,实现了根据页面类型对应的多个属性分类模型来提取页面数据,不依赖于页面类型的站点数,提高了提取页面数据的效率。

Description

一种用于处理页面数据的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于处理页面数据的技术。
背景技术
互联网的飞速发展为人们提供了大量的信息和资源,人们通常利用搜索引擎从海量互联网信息中进行信息搜索,如通过搜索引擎经网络爬虫抓取网页。然而,搜索引擎抓取到的网页中的页面数据通常需要被处理以满足特定需要,如提取网页中符合需要的页面数据如页面结构化数据等、对提取的页面数据进行数据分析等方面。现有的通过为每个站点单独配置提取器(wrapper)来提取网页中的页面数据,而不同类型的页面如小说、新闻、论坛等包括多个站点,对于相同页面类型的不同站点,需为其配置不同的提取器,该以站点为粒度配置提取器的方法不仅无法兼容新的站点,稳定性较差,而且需要花费大量人力物力成本,还降低了提取页面数据的效率。
发明内容
本发明的目的是提供一种用于处理页面数据的方法与设备。
根据本发明的一个方面,提供了一种用于处理页面数据的方法,其中,该方法包括以下步骤:
a获取待处理的目标页面;
b根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;
c根据所述节点属性信息,对所述页面节点进行相应的数据处理。
根据本发明的另一个方面,还提供了一种用于处理页面数据的处理设备,其中,该处理设备包括:
页面获取装置,用于获取待处理的目标页面;
节点属性确定装置,用于根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;
处理装置,用于根据所述节点属性信息,对所述页面节点进行相应的数据处理。
根据本发明的又一个方面,还提供了一种计算机设备,包括前述根据本发明另一个方面的用于处理页面数据的处理设备。
根据本发明的又一个方面,还提供了一种搜索引擎,包括如前述根据本发明另一个方面的用于处理页面数据的处理设备。
根据本发明的再一个方面,还提供了一种搜索引擎插件,包括如前述根据本发明另一个方面的用于处理页面数据的处理设备。
根据本发明的还一个方面,还提供了一种浏览器,包括如前述根据本发明另一个方面的用于处理页面数据的处理设备。
根据本发明的还一个方面,还提供了一种浏览器插件,包括如前述根据本发明另一个方面的用于处理页面数据的处理设备。
与现有技术相比,本发明通过根据与待处理的目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息,进而根据所述节点属性信息,对所述页面节点进行相应的数据处理,实现了根据页面类型对应的多个属性分类模型来提取页面数据,不依赖于页面类型的站点数,提高了提取页面数据的效率。而且,本发明还可根据与训练页面的页面类型相对应的属性分类模型,确定与所述训练页面的页面类型相对应的页面结构模板,以根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据,从而进一步地优化目标页面的摘要数据并提升用户获取信息的效率。此外,本发明还可根据所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,以获得所述目标页面所对应的页面数据,并将其作为页面优选信息提供给访问所述目标页面的目标应用,从而更近一步地提高了提取页面数据的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于处理页面数据的设备示意图;
图2示出根据本发明一个方面的用于处理页面数据的根据节点属性信息对页面节点进行数据处理得到的页面数据示意图;
图3示出根据本发明一个优选实施例的用于处理页面数据的设备示意图;
图4示出根据本发明另一个方面的用于处理页面数据的方法流程图;
图5示出根据本发明一个优选实施例的用于处理页面数据的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于处理页面数据的处理设备1,其中,处理设备1包括页面获取装置11、节点属性确定装置12和处理装置13。具体地,页面获取装置11获取待处理的目标页面;节点属性确定装置12根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;处理装置13根据所述节点属性信息,对所述页面节点进行相应的数据处理。在此,处理设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述处理设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,页面获取装置11通过诸如新闻网站、小说网站、视频网站或论坛网站等第三方设备提供的应用程序接口(API),获取待处理的目标页面;或者通过JSP、ASP等动态网页技术,获取用户通过用户设备输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待处理的目标页面;或者通过http、https等约定通信方式,获取待处理的目标页面。其中,所述目标页面包括但不限于以下至少任一项:1)新闻页面;2)小说页面;3)视频页面;4)论坛页面,本领域技术人员应能理解上述目标页面仅为举例,其他现有的或今后可能出现的目标页面如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,用户在浏览器地址栏中输入网址http://news.sina.com.cn/,按Enter键,页面获取装置11通过诸如新闻网站等第三方设备提供的应用程序接口(API)获取到与该网址http://news.sina.com.cn/相对应的网页。再如,用户通过其用户设备如PC机在搜索引擎的搜索栏中输入关键词“水浒小说”,点击搜索按钮,页面获取装置11通过JSP或ASP等动态网页技术,从该PC机获取到该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个搜索结果,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”(http://www.readnovel.com/book/73145/)、“水浒传-全文阅读-全文下载-小说文学-电子书”(http://www.du8.com/books/sepalak.shtml),作为待处理的目标页面。
本领域技术人员应能理解上述获取待处理的目标页面的方式仅为举例,其他现有的或今后可能出现的获取待处理的目标页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
节点属性确定装置12根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息。在此,所述页面类型包括但不限于以下至少任一项:1)新闻类型;2)小说类型;3)视频类型;4)论坛类型。在此,所述属性分类模型与节点属性信息相对应,用于识别页面节点的节点属性信息,每种类型页面包括多个节点属性信息,每一节点属性信息对应于一属性分类模型,其中,所述节点属性信息具有特定的性质,如节点属性的取值、节点属性在网页中的形态等,以区别于网页中的其他节点属性信息和页面数据,对于不同页面类型的页面,具有不同的节点属性信息,如对于新闻类型页面,其节点属性信息包括如主题、内容、发表时间、编辑、来源媒体等;再如,对于小说类型页面,其节点属性信息包括如标题、作者、更新时间、内容简介、类型、更新状态、标签、最新章节、VIP章节、VIP章节更新时间等;又如,对于视频类型页面,其节点属性信息包括如主题、视频长度、简介、视频清晰度、视频长度、发布时间、点击量、上传作者等;还如,对于论坛类型页面,其节点属性信息包括如主题、内容、发贴时间、帖子作者等。本领域技术人员应能理解上述页面类型、属性分类模型和节点属性信息仅为举例,其他现有的或今后可能出现的页面类型或属性分类模型或节点属性信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,节点属性确定装置12首先通过html parser对页面获取装置11获取的所述目标页面进行解析,获得该目标页面的HTML标签顺序和属性,然后将该HTML标签转化为对应DOM树的节点,从而得到该目标页面中的页面节点。例如,假设目标获取装置11获取的目标页面web1为“铁骨最新章节,全文阅读,铁骨txt下载---就爱网”(http://www.92txt.net/bookinfo/343.html),则节点属性确定装置12通过html parser对该目标页面进行解析,得到如下HTML源码:
则节点属性确定装置12可从上述HTML源码中获得该目标页面的HTML标签顺序和属性,如标题标签<title>、文档主体标签<body>等,然后将该HTML标签转化为对应DOM树的节点。
接着,节点属性确定装置12通过诸如所述目标页面对应的URL的相关特征信息如URL的具体内容,确定所述目标页面的页面类型。例如,假设页面获取装置11获取到的目标页面的URL为http://news.sina.com.cn/,则节点属性确定装置12根据http://news.sina.com.cn/的具体内容中包含的URL相关特征信息如news来确定该目标网页的页面类型为新闻类型。
优选地,节点属性确定装置12还可根据页面获取装置11获取的所述目标页面是否满足预定的类型判断规则,确定所述目标页面的页面类型;
其中,所述预定的类型判断规则包括以下至少任一项:
-当所述目标页面所对应的URL属于页面类型数据库时,根据所述页面类型数据库确定所述目标页面的页面类型;
-当存在与所述目标页面所对应的URL相似的参考页面时,根据所述参考页面的页面类型确定所述目标页面的页面类型;
-当所述目标页面所对应的URL包括URL相关特征信息时,根据所述URL相关特征信息确定所述目标页面的页面类型。
例如,当所述预定的类型判断规则包括所述目标页面所对应的URL属于页面类型数据库,节点属性确定装置12确定所述目标页面的页面类型时,假设页面获取装置11获取到的目标页面对应的URL为http://news.163.com/12/0604/02/834D02M300014AED.html,节点属性确定装置12通过计算该URL的URL Pattern,得到页面http://news.163.com/12/0604/02/834D02M300014AED.html的URL Pattern为http://news\.163\.com/[0-9]+/[0-9]+/[0-9]+/[0-9a-zA-Z]+\.html,基于该URL Pattern,在页面类型数据库如新闻库中匹配查询,得到新闻库中包含值为http://news\.163\.com/[0-9]+/[0-9]+/[0-9]+/[0-9a-zA-Z]+\.html的数据,则节点属性确定装置12判断页面http://news.163.com/12/0604/02/834D02M300014AED.html的页面类型为新闻类型。又如,当所述预定的类型判断规则包括存在与所述目标页面所对应的URL相似的参考页面,节点属性确定装置12确定所述目标页面的页面类型时,假设页面获取装置11获取到的目标页面为http://news.sina.com.cn/china/,则节点属性确定装置12通过根据与目标页面http://news.sina.com.cn/china/相似的参考页面如http://news.sina.com.cn/的页面类型如新闻类型,判断目标页面http://news.sina.com.cn/china/的页面类型为新闻类型。
还如,当所述目标页面所对应的URL包括URL相关特征信息,节点属性确定装置12确定所述目标页面的页面类型时,在此,所述URL相关特征信息包括但不限于以下至少任一项:1)URL具体内容,即组成URL的全部内容,如URL组成中包含的协议类型、主机名、路径及文件名等;2)URL后缀,即URL组成中结尾处的字符,如htm、html、shtml、asp、jsp、php等;3)URL深度,即URL的目录层次、页面链接之间的链接深度等;4)URL模式,即由多个已标注页面类型的页面进行聚类所得到的对应页面类型的URL模式。假设页面获取装置11获取到的目标页面的URL为http://www.92txt.net/bookinfo/343.html,则节点属性确定装置12根据http://www.92txt.net/bookinfo/343.html的具体内容中包含的URL相关特征信息如bookinfo来确定该目标网页的页面类型为小说类型,本领域技术人员应能理解上述URL相关特征信息仅为举例,其他现有的或今后可能出现的URL相关特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解上述确定所述目标页面的页面类型的方式仅为举例,其他现有的或今后可能出现的确定所述目标页面的页面类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解,节点属性确定装置12还可以根据上述预定的类型判断规则的任意组合,来确定所述目标页面的页面类型。
本领域技术人员应能理解上述预定的类型判断规则仅为举例,其他现有的或今后可能出现的预定的类型判断规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,节点属性确定装置12根据所述目标页面中的页面节点的节点特征向量,基于与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息,如将页面节点的节点特征向量代入所述多个属性分类模型,根据该页面节点的节点特征向量的取值来判断该页面节点的节点属性信息,如以一组决策树T1、T2,...,Tn表示所述多个属性分类模型,每一决策树通过页面节点的节点特征向量的取值判断是否满足该决策树对应的节点属性信息所具有的特征信息,进而得到相应判断结果,如“是”或“否”,从而确定所述节点属性信息。在此,所述节点特征向量包括但不限于以下至少任一项特征分量:1)文本特征:节点属性本身及其在网页中出现位置附近的文本,通常有一定特殊性,具体地,可包括三类:a)节点属性自身文本特征:节点属性自身含有的特定描述文字,例如“地名”属性,通常内容中含有“市”、“区”等表明地域属性的关键词,可作为该属性的文本特征;b)节点属性pattern特征:节点属性满足特定文本串的模式,例如“时间”属性,日期通常遵从年-月-日或月/日/年的格式,转换成正则表达式为\d{4}-\d{1,2}-\d{1,2}和\d{1,2}∧d{1,2}∧d{4},可将节点属性与正则表达式匹配度作为pattern特征;c)节点属性前文本特征:节点属性的前和/或后含有的特定文本描述,例如“价格”属性,前面有时含有“价格:”等明确标识,后面跟随“元”等计量单位文字,均可作为该属性的文本特征;2)统计特征:对节点属性的一些统计信息进行计算,如文字长度、文本重复度、变化率、特殊符号数量等,例如,对于节点属性的变化率,表示同一节点属性在基于相同模板生成的网页上,同样位置的节点间变化的幅度,在此,可通过将基于相同模板生成的网页按DOM树结构对齐,然后统计节点属性所对应的节点的文本变化的数量来获得。在此,以节点属性的变化率为例进行说明:如对于“标题”、“作者”等在不同页面上所对应的页面位置通常都不同的节点属性,其统计特征如变化率通常不为0,而对于“站点导航”、“广告”等在不同页面上所对应的页面位置通常不易变化的节点属性,其统计特征如变化率很有可能为0,因此根据节点属性的变化率可确定节点是目标属性节点还是页面固有的“导航”、“广告”等节点;3)DOM树结构特征:从DOM树角度,提取一些节点属性所对应节点的结构特征,如树深度、重复度、子节点数量等,例如,对于节点的树深度,通常结构化数据在DOM树上位于叶子节点或较深层的节点,而树深度在DOM树构建时即可计算得到。在此,以节点的树深度为例进行说明:如对于“标题”、“作者”等节点属性,由于其节点内容是文本,在dom树中必定是叶子节点,通常在dom树较深的地方,而其他一些用于排版的table div等节点则要浅一些,因此根据节点的树深度可确定节点是目标属性节点还是其他的排版节点;4)属性关系特征:单个节点属性本身能获取的特征总是有限的,这时需要引入属性间的前后关系特征,加强印证,例如,“作者”通常跟在“标题”之后,则对每一个候选页面节点,是否跟在“标题”节点之后,将作为判断该页面节点的节点属性信息是否是“作者”的重要特征。本领域技术人员应能理解上述节点特征向量仅为举例,其他现有的或今后可能出现的节点特征向量如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,节点属性确定装置12可将从上述源码中获得的该目标页面web1的HTML标签转化为对应DOM树的节点,如假设标签<span style=″font-size:16px;font-weight:bold;line-height:149%″>铁骨</span>对应的DOM树节点为D1,标签<td width=″25%″>作&nbsp;&nbsp;&nbsp;者:天子</td>对应的DOM树节点为D1’,节点D1’跟在节点D1之后,则节点D1’对应的节点特征向量可表示为TA1′={自身文本特征:作者:天子;属性关系特征:位于“标题”对应的节点D1之后},则节点属性确定装置12根据节点D1’对应的节点特征向量TA1′确定节点D1’对应的节点属性信息为“作者”,类似地,节点属性确定装置12可得到目标页面http://www.92txt.net/bookinfo/343.html中的其他页面节点的节点属性信息如标签<td>最后更新:2013-04-01</td>对应的DOM树节点的节点属性信息为“更新时间”等。
本领域技术人员应能理解上述确定所述目标页面中的页面节点的节点属性信息的方式仅为举例,其他现有的或今后可能出现的确定所述目标页面中的页面节点的节点属性信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
处理装置13根据所述节点属性信息,对所述页面节点进行相应的数据处理。在此,所述数据处理包括但不限于如:1)提取所述页面节点中与所述节点属性信息相对应的页面数据,如页面结构化数据:2)将该页面数据进行转换处理,以获得可直接运用的数据格式,在此,所述数据格式包括但不限于如文本、时间、地址、媒体等,如对于文本格式数据,可直接将多个节点内容拼接,并进行内容过滤;再如,对于时间格式数据,可将其转换为年月日格式;又如,对于地址格式数据,可将其转换为省市区街道的格式。例如,接上例,处理装置13将节点属性确定装置12确定的所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,得到如图2所示的页面结构化数据。
本领域技术人员应能理解上述数据处理的方式仅为举例,其他现有的或今后可能出现的数据处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
处理设备1的各个装置之间是持续不断工作的。具体地,页面获取装置11持续获取待处理的目标页面;节点属性确定装置12持续根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;处理装置13持续根据所述节点属性信息,对所述页面节点进行相应的数据处理。在此,本领域技术人员应能理解“持续”是指处理设备1的各个装置之间持续不断地进行目标页面的获取、节点属性信息的确定及对页面节点进行相应的数据处理,直至处理设备1在较长时间内停止目标页面的获取。
优选地,节点属性确定装置12包括筛选单元(未示出)和节点属性确定单元(未示出)。具体地,筛选单元基于预定节点筛选规则,对所述目标页面对应的DOM树节点进行筛选处理,以获得所述页面节点;节点属性确定单元根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,确定所述节点属性信息。
具体地,筛选单元首先对所述目标页面进行HTML解析,获得所述目标页面对应的DOM树节点;然后,再基于预定节点筛选规则,对所述目标页面对应的DOM树节点进行筛选处理,以获得所述页面节点。在此,所述预定节点筛选规则包括以下至少任一项:1)根据所述目标页面的DOM树节点的节点类型信息,对所述目标页面的DOM树节点进行筛选处理,其中,所述节点类型信息表示节点对应的HTML标签的功能,如标题标签<title>、段落标签<p>、主体标签<body>等。例如,对于HTML文本格式化标签如定义粗体文本标签<b>、定义斜字体标签<i>等,其不影响页面的页面内容,可删除此标签所对应的DOM树节点;2)根据所述目标页面的DOM树节点的节点深度信息,对所述目标页面的DOM树节点进行筛选处理,如当所述目标页面的DOM树节点如D1为叶子节点时或其所对应的节点深度满足预定阈值时,保留该DOM树节点D1,否则从所述目标页面的DOM树节点中删除该DOM树节点D1;3)根据所述目标页面的DOM树节点的子节点是否含有文本信息,对所述目标页面的DOM树节点进行筛选处理。例如,假设目标获取装置11获取的目标页面web1为“铁骨最新章节,全文阅读,铁骨txt下载---就爱网”(http://www.92txt.net/bookinfo/343.html),假设筛选单元对该目标页面web1进行HTML解析,得到其所对应的DOM树节点对应的标签中包括标签<td width=″80%″align=″center″valign=″middle″>,该标签定义HTML表格中的标准单元格,则筛选单元可将该标签<td width=″80%″align=″center″valign=″middle″>对应的DOM树节点从该目标页面web1对应的DOM树节点中删除,以获得所述页面节点;再如,接上例,假设筛选单元对目标页面web1进行HTML解析,得到如上所述的HTML源码,并将从上述源码中获得的该目标页面web1的HTML标签转化为对应DOM树的节点,例如标签<td width=″25%″>类&nbsp;&nbsp;&nbsp;别:历史军事</td>对应的DOM树节点如D2为叶子节点,则筛选单元将DOM树节点D2保留,并将D2作为所述页面节点。
本领域技术人员应能理解上述对所述目标页面对应的DOM树节点进行筛选处理的方式仅为举例,其他现有的或今后可能出现的对所述目标页面对应的DOM树节点进行筛选处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
节点属性确定单元根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,确定所述节点属性信息。在此,节点属性确定单元根据所述页面节点的节点特征向量确定所述节点属性信息的方式与图1实施例中节点属性确定装置12根据所述页面节点的节点特征向量确定所述节点属性信息的方式相同或相似,为简明起见,故此处不再赘述,并通过引用的方式包含于此。
更优选地,节点属性确定单元还可首先根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,判断所述页面节点所对应的候选节点属性信息;然后,根据与所述目标页面的页面类型相对应的属性连通模型,对所述候选节点属性信息进行筛选处理,以获得所述节点属性信息。在此,所述属性连通模型用于描述页面节点属性信息之间的先后顺序,对于不同页面类型的页面,具有不同的属性连通模型,如对于新闻类型页面,其包括的节点属性信息如主题、内容、发表时间、编辑、来源媒体等之间的先后顺序为主题、发表时间、来源媒体、内容、编辑;如对于小说类型页面,节点属性信息“作者”通常位于节点属性信息“标题”之后;再如,对于视频类型页面,其包括的节点属性信息如主题、视频长度、简介、视频清晰度、视频长度、发布时间、点击量、上传作者等之间的先后顺序为主题、上传作者、发布时间、简介、视频长度、视频清晰度、点击量;还如,对于论坛类型页面,其包括的节点属性信息如主题、内容、发贴时间、帖子作者等之间的先后顺序为:主题、帖子作者1、发帖时间1、帖子内容1、帖子作者2、发帖时间2、帖子内容2等依次循环。
具体地,节点属性确定单元还可首先根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,判断所述页面节点所对应的候选节点属性信息。在此,节点属性确定单元根据所述页面节点的节点特征向量判断所述页面节点所对应的候选节点属性信息的方式与图1实施例中节点属性确定装置12根据所述页面节点的节点特征向量确定所述节点属性信息的方式相同或相似,为简明起见,故此处不再赘述,并通过引用的方式包含于此。
然后,节点属性确定单元根据与所述目标页面的页面类型相对应的属性连通模型,对所述候选节点属性信息进行筛选处理,以获得所述节点属性信息。例如,假设目标获取装置11获取的目标页面web1为“铁骨最新章节,全文阅读,铁骨txt下载---就爱网”(http://www.92txt.net/bookinfo/343.html),而筛选单元对目标页面web1进行HTML解析,得到如上所述的HTML源码,而节点属性确定单元首先根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,得到所述页面节点所对应的候选节点属性信息如:①得到标签<span style=″font-size:16px;font-weight:bold;line-height:149%″>铁骨</span>对应的DOM树节点如D1所对应的节点属性信息为“标题”;②标签<li><a href=″http://www.92txt.net/bookinfo/8889.html″target=″_blank″>北洋1917</a></li>对应的DOM树节点如D3所对应的节点属性信息也为“标题”,但该DOM树节点D3其后没有节点属性信息为“作者”的节点;③标签<td>最后更新:2013-04-01</td>对应的DOM树节点的节点属性信息为“更新时间”等,而目标页面web1所对应的页面类型为小说类型,则节点属性确定单元根据与小说类型页面相对应的属性连通模型,如节点属性信息“作者”通常位于节点属性信息“标题”之后,因DOM树节点D3其后没有节点属性信息为“作者”的节点,则节点属性确定单元将DOM树节点D3所对应的节点属性信息“标题”从所述候选节点属性信息中删除,以获得所述节点属性信息。
本领域技术人员应能理解上述对所述候选节点属性信息进行筛选处理的方式仅为举例,其他现有的或今后可能出现的对所述候选节点属性信息进行筛选处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,处理装置13还可根据所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,以获得所述目标页面所对应的页面数据。在此,所述页面数据包括但不限于如结构化数据、非结构化数据等。例如,接上例,处理装置13将节点属性确定单元获得的所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,得到如图2所示的页面结构化数据。在此,本发明实现了快速提取页面数据的有益效果。
更优选地,处理设备1还包括第二提供装置(未示出)。具体地,第二提供装置通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将所述目标页面所对应的页面数据作为页面优选信息提供给访问所述目标页面的目标应用。例如,接上例,第二提供装置将处理装置13获得的如图2所示的页面结构化数据作为页面优选信息首先提供给访问所述目标页面的目标应用,如搜索引擎、浏览器等,然后由该目标应用将该页面优选信息展示给用户,如用户的用户设备,供用户浏览。
优选地,可将上述用于处理页面数据的处理设备1,与现有搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎包括但不限于如Google公司的Google搜索引擎、百度公司的baidu搜索引擎等。
优选地,可将上述用于处理页面数据的处理设备1,与现有搜索引擎插件相结合,构成一种新的搜索引擎插件,现有的包括但不限于如Google公司的Google ToolBar、百度公司的百度搜霸、微软公司的MSN ToolBar等搜索引擎插件。
在另一优选实施例中,可将上述用于处理页面数据的处理设备1,与现有的浏览器相结合,构成一种新的浏览器,现有的浏览器包括例如Microsoft公司的IE浏览器、Netscape公司的Netscape浏览器、Mozilla公司的Firefox浏览器、Google公司的Chrome浏览器、遨游公司的Maxthon浏览器、Opera公司的opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览器等。
在另一优选实施例中,可将上述用于处理页面数据的处理设备1,与现有的浏览器插件相结合,构成一种新的浏览器插件,现有的浏览器插件包括如Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等。
图3示出根据本发明一个优选实施例的用于处理页面数据的设备示意图,其中,处理设备1包括页面获取装置11’、节点属性确定装置12’、处理装置13’、数据获取装置14’、训练节点确定装置15’和分类模型训练装置16’。具体地,数据获取装置14’获取已标注节点属性的多个页面节点训练数据,以将所述多个页面节点训练数据所对应的页面作为训练页面,其中,所述训练页面具有相同页面类型;训练节点确定装置15’确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点;分类模型训练装置16’根据所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型;页面获取装置11’获取待处理的目标页面;节点属性确定装置12’根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;处理装置13’根据所述节点属性信息,对所述页面节点进行相应的数据处理。其中,页面获取装置11’、节点属性确定装置12’和处理装置13’与图1所示对应装置相同或相似,故在此处不再赘述,并通过引用的方式包含于此。
具体地,数据获取装置14’通过提供页面节点训练数据的设备的应用程序接口(APP),获取已标注节点属性的多个页面节点训练数据,以将所述多个页面节点训练数据所对应的页面作为训练页面,其中,所述训练页面具有相同页面类型;或者,首先通过调用诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取多个具有相同页面类型的页面,以此作为训练页面,然后通过预定页面内容信息提取模板提取该训练页面的页面节点及其对应的页面内容信息,以作为所述节点训练数据。例如,假设服务器server中存储有已标注节点属性的页面节点训练数据I至IV,如下表1所示,其中,该页面节点训练数据I至IV所对应的页面具有相同页面类型如小说类型,表1中标注的节点属性包括标题、作者、简介、状态、类型、最新章节及更新时间:
表1
则数据获取装置14’通过服务器server提供的应用程序接口(API),便可获取到如上述表1所示的已标注节点属性的页面节点训练数据I至IV,并将该多个页面节点训练数据I至IV所对应的页面作为训练页面,如页面节点训练数据I所对应的页面url I(http://www.92txt.net/bookinfo/7883.html)、节点训练数据II所对应的训练页面url II(http://www.readnovel.com/novel/73144/23.html)、节点训练数据III所对应的训练页面url III(http://bookapp.book.qq.com/origin/book/?workid=2535291),以及节点训练数据IV所对应的训练页面url IV(http://vip.book.sohu.com/book/125320/)作为训练页面,其中,所述训练页面具有相同页面类型如小说类型。
本领域技术人员应能理解上述获取所述页面节点训练数据的方式仅为举例,其他现有的或今后可能出现的获取所述页面节点训练数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
训练节点确定装置15’确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点,如将所述页面节点训练数据对应的训练页面中文本与该页面节点训练数据的文本相似度最大的文本作对应的DOM树节点作为所述训练节点。在此,所述训练节点包括所述训练页面的DOM树节点。具体地,训练节点确定装置15’首先通过对所述页面节点训练数据所对应的训练页面进行HTML解析,获得该训练页面对应的DOM树节点及其对应的节点内容;然后,通过语义分析、文本比较等方式,确定所述页面节点训练数据所对应的训练页面中节点内容与该页面节点训练数据的文本的相似度;然后,根据所述相似度,确定该页面节点训练数据在其对应的训练页面中所对应的训练节点,如将该页面节点训练数据对应的训练页面中节点内容与该页面节点训练数据的文本相似度最大的节点内容所对应的DOM树节点作为所述训练节点。例如,以表1中的页面节点训练数据I为例进行说明,训练节点确定装置15’通过对页面节点训练数据I所对应的页面url I进行HTML解析,发现页面url I中HTML标签:<span style=“font-size:16px;font-weight:bold;line-height:149%”>亿万交易:邪少,请慢用</span>对应的文本内容与页面节点训练数据I中节点属性为“标题”对应的文本内容的相似度最大,则训练节点确定装置15’将HTML标签:<span style=“font-size:16px;font-weight:bold;line-height:149%”>亿万交易:邪少,请慢用</span>对应的DOM树节点如train-D1作为页面节点训练数据I中节点属性为“标题”在页面url I中对应的训练节点,类似地,训练节点确定装置15’可确定页面节点训练数据I中其他各个节点属性在对应训练页面url I中对应的训练节点。
本领域技术人员应能理解上述确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点的方式仅为举例,其他现有的或今后可能出现的确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
分类模型训练装置16’根据所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。所获得的与所述训练页面的页面类型相对应的属性分类模型可供节点属性确定装置12’用于根据与所述目标页面的页面类型相对应的多个属性分类模型,以确定所述目标页面中的页面节点的节点属性信息。具体,所获得的与所述训练页面的页面类型相对应的属性分类模型可保存于处理设备1的存储器或缓存中,也可保存于与处理设备1通过网络相连的其他设备中,如服务器。在此,所述预定训练规则包括以下至少任一项:1)对所述多个页面节点训练数据所对应的训练节点进行逻辑回归分析,获得与所述页面类型相对应的属性分类模型;2)对所述多个页面节点训练数据所对应的训练节点进行随机森林分析,获得与所述页面类型相对应的属性分类模型。例如,接上例,假设训练节点确定装置15’确定上述表1中页面节点训练数据I至IV各自标注为“标题”的节点属性在对应训练页面中的训练节点分别为train-D1至train-D4,即页面节点训练数据I中标注为“标题”的节点属性在其对应训练页面url I中的训练节点为train-D1,页面节点训练数据II中标注为“标题”的节点属性在其对应训练页面urlII中的训练节点为train-D2,页面节点训练数据III中标注为“标题”的节点属性在其对应训练页面urlIII中的训练节点为train-D3,页面节点训练数据IV中标注为“标题”的节点属性在其对应训练页面urlIV中的训练节点为train-D4,则分类模型训练装置16’根据训练节点train-D1至train-D4的节点特征向量,结合训练节点train-D1至train-D4的负例节点的节点特征向量,如将训练页面url I至urlIV的DOM树节点中所有包含文本的DOM树节点作为候选负辅助节点如candidate-node1至candidate-node n,然后,将训练节点train-D1至train-D4及其分别在相应训练页面url I至urlIV中的上下级节点从候选负辅助节点candidate-node1至candidate-node n中删除,得到候选负辅助节点集合candidate-node-set,从该候选负辅助节点集合candidate-node-set中随机选取节点来作为训练节点train-D1至train-D4的负例节点,如训练节点train-D1至train-D4对应的负例节点分别为negatives-train-D1至negatives-train-D4,对训练节点train-D1至train-D4及其对应的负例节点negatives-train-D1至negatives-train-D4进行逻辑回归分析,或随机森林分析,获得小说类型页面中与节点属性为“标题”相对应的属性分类模型如novel-model-title,类似地,分类模型训练装置16’还可得到小说类型页面中其他节点属性如作者、简介、状态、类型、最新章节及更新时间等各自所对应的属性分类模型。在此,本发明采用随机森林分析,实现了所述属性分类模型的分类效果相对于其他分析方法如在分类准确率等方面具有分类效果较好的有益效果,如通过统计发现相对逻辑回归在准确率上有3%到5%的优势。
本领域技术人员应能理解上述获得所述属性分类模型的方式仅为举例,其他现有的或今后可能出现的获得所述属性分类模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,处理设备1还包括连通模型确定装置(未示出)。具体地,连通模型确定装置根据所述训练节点,以及所述训练页面,如根据所述训练节点在所述训练页面中的先后顺序,首先确定所述训练节点所对应的节点训练数据对应的节点属性在所述训练页面中的先后顺序,然后,再根据该先后顺序,确定与所述训练页面的页面类型相对应的属性连通模型。例如,如上述表1所示,对于小说类型页面,连通模型确定装置通过统计节点训练数据I至IV中已标注节点属性如“简介”与节点属性“作者”在节点训练数据I至IV各自对应的训练页面urlI至urlIV中对应的训练节点先后顺序,发现节点属性“简介”在各训练页面url I至urlIV中的训练节点均位于节点属性“标题”在各训练页面url I至urlIV中的训练节点,则对于小说类型页面,连通模型确定装置确定其对应的属性连通模型中节点属性“简介”位于节点属性“标题”之后,类似地,连通模型确定装置可确定小说类型页面对应的属性连通模型中各个节点属性之间的先后顺序。
本领域技术人员应能理解上述确定所述属性连通模型的方式仅为举例,其他现有的或今后可能出现的确定所述属性连通模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,处理设备1还包括负例确定装置(未示出)和更新装置(未示出),具体地,负例确定装置确定所述训练节点所对应的负例节点;更新装置结合所述负例节点的节点特征向量,更新所述训练节点的节点特征向量;其中,分类模型训练装置16’根据更新后的所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。
具体地,负例确定装置确定所述训练节点所对应的负例节点。在此,所述负例节点对应的节点属性信息不同于其对应的训练节点的节点属性。例如,对于上述表1中标注为“标题”的节点属性,负例确定装置可首先对页面节点训练数据I至IV各自对应的训练页面url I至urlIV进行HTML解析,将训练页面url I至urlIV的DOM树节点中所有包含文本的DOM树节点作为候选负辅助节点如candidate-node1至candidate-node n,然后,负例确定装置将页面节点训练数据I至IV各自标注为“标题”的节点属性在对应训练页面url I至urlIV中的训练节点train-D1至train-D4,以及训练节点train-D1至train-D4分别在相应训练页面url I至url IV中的上下级节点从候选负辅助节点candidate-node1至candidate-node n中删除,得到候选负辅助节点集合candidate-node-set,接着,负例确定装置可从该候选负辅助节点集合candidate-node-set中随机选取节点,以此作为所述负例节点。
本领域技术人员应能理解上述确定所述训练节点所对应的负例节点的方式仅为举例,其他现有的或今后可能出现的确定所述训练节点所对应的负例节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更新装置结合所述负例节点的节点特征向量,更新所述训练节点的节点特征向量,如按照预定周期,预定更新规则如按天更新等,通过将所述负例节点的节点特征向量及所述训练节点的节点特征向量进行向量运算,或者,将所述负例节点的节点特征向量及所述训练节点的节点特征向量各自对应的特征分量进行组合,来更新所述训练节点的节点特征向量,例如,假设所述训练节点如train-D1的节点特征向量为T1,而负例确定装置确定该训练节点如train-D1所对应的负例节点negatives-train-D1的节点特征向量为T2,则更新装置可将向量T1与向量T2的向量分量组成多维特征向量作为训练节点如train-D1新的节点特征向量为T1′,例如,假设T1={x1;x2;x3},T2={y1;y2;y3},则 T 1 &prime; = x 1 x 2 x 3 y 1 y 2 y 3 .
本领域技术人员应能理解上述更新所述训练节点的节点特征向量的方式仅为举例,其他现有的或今后可能出现的更新所述训练节点的节点特征向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,分类模型训练装置16’根据更新后的所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。例如,接上例,分类模型训练装置16’将train-D1至train-D4作为正例节点,与负例确定装置确定的所述候选负辅助节点集合candidate-node-set中作为负例节点的部分节点,组成训练集,对该训练集进行逻辑回归分析,或随机森林分析,获得小说类型页面中与节点属性为“标题”相对应的属性分类模型如novel-model-title。在此,本发明在获得与所述训练页面的页面类型相对应的属性分类模型时,纳入所述训练节点对应的负例节点的节点特征向量,实现了使获得的所述属性分类模型更加精准的有益效果。
更优选地,负例确定装置还可首先将所述训练页面的DOM树节点中包含文本的DOM树节点作为候选负辅助节点;然后,根据所述候选负辅助节点,结合所述训练节点,确定所述负例节点。例如,对于上述表1中标注为“标题”的节点属性,负例确定装置可首先对页面节点训练数据I至IV各自对应的训练页面url I至urlIV进行HTML解析,将训练页面url I至urlIV的DOM树节点中所有包含文本的DOM树节点作为候选负辅助节点如candidate-node1至candidate-node n;然后,负例确定装置根据所述候选负辅助节点,结合所述训练节点,确定所述负例节点,如将页面节点训练数据I至IV各自标注为“标题”的节点属性在对应训练页面url I至url IV中的训练节点train-D1至train-D4,以及训练节点train-D1至train-D4分别在相应训练页面url I至url IV中的上下级节点从候选负辅助节点candidate-node1至candidate-node n中删除,得到候选负辅助节点集合candidate-node-set,并从该候选负辅助节点集合candidate-node-set中随机选取节点,以此作为所述负例节点。
优选地,处理设备1还包括模板确定装置(未示出),其中,处理设备1还包括摘要生成装置(未示出)和第一提供装置(未示出)。具体地,模板确定装置根据与所述训练页面的页面类型相对应的属性分类模型,确定与所述训练页面的页面类型相对应的页面结构模板;摘要生成装置根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据;第一提供装置将所述摘要数据提供给访问所述目标页面的目标应用。
具体地,模板确定装置根据与所述训练页面的页面类型相对应的属性分类模型,确定与所述训练页面的页面类型相对应的页面结构模板,如根据与所述训练页面的页面类型相对应的属性分类模型,确定该页面类型页面所包括的通用节点属性信息,从而根据该通用节点属性信息,获得所述页面结构模板。例如,假设分类模型训练装置16’获得小说类型页面中与节点属性为“标题”相对应的属性分类模型如novel-model-title,以及小说类型页面中其他节点属性信息如作者、简介、状态、类型、最新章节及更新时间等各自所对应的属性分类模型,则模板确定装置根据该等属性分类模型,确定小说页面类型页面所包括的通用节点属性信息如标题、作者、简介、状态、类型、最新章节及更新时间等,从而根据该通用节点属性信息,获得与小说类型页面相对应的页面结构模板。
摘要生成装置根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据。具体地,页面获取装置11’获取待处理一个或多个搜索结果,以此作为所述目标页面;摘要生成装置根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据。
具体地,页面获取装置11’通过诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取待处理一个或多个搜索结果;或者通过JSP等动态网页技术,获取用户输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待处理一个或多个搜索结果。例如,用户在搜索引擎搜索栏中输入关键词“三国演义诸葛亮小说”,搜索引擎根据该关键词,在网页数据库中进行匹配查询,得到与关键词“三国演义诸葛亮小说”相匹配的一个或多个搜索结果,如“三国演义之诸葛亮百度文库”、“浅析《三国演义》小说与电视剧本对诸葛亮人生悲剧的描述之别(zt)”、“点评《三国演义中的诸葛亮-优秀小说评论区-铁血小说论坛”,则页面获取装置11’通过搜索引擎提供的应用程序接口(API)获取搜索引擎所获得的该等搜索结果,作为待处理的一个或多个搜索结果。再如,用户在用户设备的搜索栏中输入关键词“水浒小说”,则页面获取装置11’通过JSP或ASP等动态网页技术,从用户设备获取该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个网站,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”、“水浒传小说在线阅读”,作为待处理的搜索结果。
接着,摘要生成装置根据所述页面结构模板,生成所述搜索结果所对应的摘要数据。例如,对于小说类型的页面结构模板,生成的摘要数据包括通用节点属性信息如标题、作者、简介、状态、类型、最新章节及更新时间等所对应的页面内容信息。
第一提供装置通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将摘要生成装置生成的所述摘要数据,首先提供给访问所述目标页面的目标应用,如搜索引擎、浏览器等,然后由该目标应用将该页面优选信息展示给用户,如用户的用户设备,供用户浏览。
图4示出根据本发明另一个方面的用于处理页面数据的方法流程图。
具体地,在步骤S1中,处理设备1获取待处理的目标页面;在步骤S2中,处理设备1根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;在步骤S3中,处理设备1根据所述节点属性信息,对所述页面节点进行相应的数据处理。在此,处理设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述处理设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,在步骤S1中,处理设备1通过诸如新闻网站、小说网站、视频网站或论坛网站等第三方设备提供的应用程序接口(API),获取待处理的目标页面;或者通过JSP、ASP等动态网页技术,获取用户通过用户设备输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待处理的目标页面;或者通过http、https等约定通信方式,获取待处理的目标页面。其中,所述目标页面包括但不限于以下至少任一项:1)新闻页面;2)小说页面;3)视频页面;4)论坛页面,本领域技术人员应能理解上述目标页面仅为举例,其他现有的或今后可能出现的目标页面如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,用户在浏览器地址栏中输入网址http://news.sina.com.cn/,按Enter键,在步骤S1中,处理设备1通过诸如新闻网站等第三方设备提供的应用程序接口(API)获取到与该网址http://news.sina.com.cn/相对应的网页。再如,用户通过其用户设备如PC机在搜索引擎的搜索栏中输入关键词“水浒小说”,点击搜索按钮,在步骤S1中,处理设备1通过JSP或ASP等动态网页技术,从该PC机获取到该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个搜索结果,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”(http://www.readnovel.com/book/73145/)、“水浒传-全文阅读-全文下载-小说文学-电子书”(http://www.du8.com/books/sepalak.shtml),作为待处理的目标页面。
本领域技术人员应能理解上述获取待处理的目标页面的方式仅为举例,其他现有的或今后可能出现的获取待处理的目标页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,处理设备1根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息。在此,所述页面类型包括但不限于以下至少任一项:1)新闻类型;2)小说类型;3)视频类型;4)论坛类型。在此,所述属性分类模型与节点属性信息相对应,用于识别页面节点的节点属性信息,每种类型页面包括多个节点属性信息,每一节点属性信息对应于一属性分类模型,其中,所述节点属性信息具有特定的性质,如节点属性的取值、节点属性在网页中的形态等,以区别于网页中的其他节点属性信息和页面数据,对于不同页面类型的页面,具有不同的节点属性信息,如对于新闻类型页面,其节点属性信息包括如主题、内容、发表时间、编辑、来源媒体等;再如,对于小说类型页面,其节点属性信息包括如标题、作者、更新时间、内容简介、类型、更新状态、标签、最新章节、VIP章节、VIP章节更新时间等;又如,对于视频类型页面,其节点属性信息包括如主题、视频长度、简介、视频清晰度、视频长度、发布时间、点击量、上传作者等;还如,对于论坛类型页面,其节点属性信息包括如主题、内容、发贴时间、帖子作者等。本领域技术人员应能理解上述页面类型、属性分类模型和节点属性信息仅为举例,其他现有的或今后可能出现的页面类型或属性分类模型或节点属性信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,在步骤S2中,处理设备1首先通过html parser对其在步骤S1中获取的所述目标页面进行解析,获得该目标页面的HTML标签顺序和属性,然后将该HTML标签转化为对应DOM树的节点,从而得到该目标页面中的页面节点。例如,假设在步骤S1中,处理设备1获取的目标页面web1为“铁骨最新章节,全文阅读,铁骨txt下载---就爱网”(http://www.92txt.net/bookinfo/343.html),则在步骤S2中,处理设备1通过html parser对该目标页面进行解析,得到如下HTML源码:
则在步骤S2中,处理设备1可从上述HTML源码中获得该目标页面的HTML标签顺序和属性,如标题标签<title>、文档主体标签<body>等,然后将该HTML标签转化为对应DOM树的节点。
接着,在步骤S2中,处理设备1通过诸如所述目标页面对应的URL的相关特征信息如URL的具体内容,确定所述目标页面的页面类型。例如,假设在步骤S1中,处理设备1获取到的目标页面的URL为http://news.sina.com.cn/,则在步骤S2中,处理设备1根据http://news.sina.com.cn/的具体内容中包含的URL相关特征信息如news来确定该目标网页的页面类型为新闻类型。
优选地,在步骤S2中,处理设备1还可根据其在步骤S1中获取的所述目标页面是否满足预定的类型判断规则,确定所述目标页面的页面类型;
其中,所述预定的类型判断规则包括以下至少任一项:
-当所述目标页面所对应的URL属于页面类型数据库时,根据所述页面类型数据库确定所述目标页面的页面类型;
-当存在与所述目标页面所对应的URL相似的参考页面时,根据所述参考页面的页面类型确定所述目标页面的页面类型;
-当所述目标页面所对应的URL包括URL相关特征信息时,根据所述URL相关特征信息确定所述目标页面的页面类型。
例如,当所述预定的类型判断规则包括所述目标页面所对应的URL属于页面类型数据库,在步骤S2中,处理设备1确定所述目标页面的页面类型时,假设在步骤S1中,处理设备1获取到的目标页面对应的URL为http://news.163.com/12/0604/02/834D02M300014AED.html,在步骤S2中,处理设备1通过计算该URL的URL Pattern,得到页面http://news.163.com/12/0604/02/834D02M300014AED.html的URL Pattern为http://news\.163\.com/[0-9]+/[0-9]+/[0-9]+/[0-9a-zA-Z]+\.html,基于该URL Pattern,在页面类型数据库如新闻库中匹配查询,得到新闻库中包含值为http://news\.163\.com/[0-9]+/[0-9]+/[0-9]+/[0-9a-zA-Z]+\.html的数据,则在步骤S2中,处理设备1判断页面http://news.163.com/12/0604/02/834D02M300014AED.html的页面类型为新闻类型。又如,当所述预定的类型判断规则包括存在与所述目标页面所对应的URL相似的参考页面,在步骤S2中,处理设备1确定所述目标页面的页面类型时,假设在步骤S1中,处理设备1获取到的目标页面为http://news.sina.com.cn/china/,则在步骤S2中,处理设备1通过根据与目标页面http://news.sina.com.cn/china/相似的参考页面如http://news.sina.com.cn/的页面类型如新闻类型,判断目标页面http://news.sina.com.cn/china/的页面类型为新闻类型。
还如,当所述目标页面所对应的URL包括URL相关特征信息,在步骤S2中,处理设备1确定所述目标页面的页面类型时,在此,所述URL相关特征信息包括但不限于以下至少任一项:1)URL具体内容,即组成URL的全部内容,如URL组成中包含的协议类型、主机名、路径及文件名等;2)URL后缀,即URL组成中结尾处的字符,如htm、html、shtml、asp、jsp、php等;3)URL深度,即URL的目录层次、页面链接之间的链接深度等;4)URL模式,即由多个已标注页面类型的页面进行聚类所得到的对应页面类型的URL模式。假设在步骤S1中,处理设备1获取到的目标页面的URL为http://www.92txt.net/bookinfo/343.html,则在步骤S2中,处理设备1根据http://www.92txt.net/bookinfo/343.html的具体内容中包含的URL相关特征信息如bookinfo来确定该目标网页的页面类型为小说类型,本领域技术人员应能理解上述URL相关特征信息仅为举例,其他现有的或今后可能出现的URL相关特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解上述确定所述目标页面的页面类型的方式仅为举例,其他现有的或今后可能出现的确定所述目标页面的页面类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解,在步骤S2中,处理设备1还可以根据上述预定的类型判断规则的任意组合,来确定所述目标页面的页面类型。
本领域技术人员应能理解上述预定的类型判断规则仅为举例,其他现有的或今后可能出现的预定的类型判断规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S2中,处理设备1根据所述目标页面中的页面节点的节点特征向量,基于与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息,如将页面节点的节点特征向量代入所述多个属性分类模型,根据该页面节点的节点特征向量的取值来判断该页面节点的节点属性信息,如以一组决策树T1、T2,...,Tn表示所述多个属性分类模型,每一决策树通过页面节点的节点特征向量的取值判断是否满足该决策树对应的节点属性信息所具有的特征信息,进而得到相应判断结果,如“是”或“否”,从而确定所述节点属性信息。在此,所述节点特征向量包括但不限于以下至少任一项特征分量:1)文本特征:节点属性本身及其在网页中出现位置附近的文本,通常有一定特殊性,具体地,可包括三类:a)节点属性自身文本特征:节点属性自身含有的特定描述文字,例如“地名”属性,通常内容中含有“市”、“区”等表明地域属性的关键词,可作为该属性的文本特征;b)节点属性pattern特征:节点属性满足特定文本串的模式,例如“时间”属性,日期通常遵从年-月-日或月/日/年的格式,转换成正则表达式为\d{4}-\d{1,2}-\d{1,2}和\d{1,2}∧d{1,2}∧d{4},可将节点属性与正则表达式匹配度作为pattern特征;c)节点属性前文本特征:节点属性的前和/或后含有的特定文本描述,例如“价格”属性,前面有时含有“价格:”等明确标识,后面跟随“元”等计量单位文字,均可作为该属性的文本特征;2)统计特征:对节点属性的一些统计信息进行计算,如文字长度、文本重复度、变化率、特殊符号数量等,例如,对于节点属性的变化率,表示同一节点属性在基于相同模板生成的网页上,同样位置的节点间变化的幅度,在此,可通过将基于相同模板生成的网页按DOM树结构对齐,然后统计节点属性所对应的节点的文本变化的数量来获得。在此,以节点属性的变化率为例进行说明:如对于“标题”、“作者”等在不同页面上所对应的页面位置通常都不同的节点属性,其统计特征如变化率通常不为0,而对于“站点导航”、“广告”等在不同页面上所对应的页面位置通常不易变化的节点属性,其统计特征如变化率很有可能为0,因此根据节点属性的变化率可确定节点是目标属性节点还是页面固有的“导航”、“广告”等节点;3)DOM树结构特征:从DOM树角度,提取一些节点属性所对应节点的结构特征,如树深度、重复度、子节点数量等,例如,对于节点的树深度,通常结构化数据在DOM树上位于叶子节点或较深层的节点,而树深度在DOM树构建时即可计算得到。在此,以节点的树深度为例进行说明:如对于“标题”、“作者”等节点属性,由于其节点内容是文本,在dom树中必定是叶子节点,通常在dom树较深的地方,而其他一些用于排版的table div等节点则要浅一些,因此根据节点的树深度可确定节点是目标属性节点还是其他的排版节点;4)属性关系特征:单个节点属性本身能获取的特征总是有限的,这时需要引入属性间的前后关系特征,加强印证,例如,“作者”通常跟在“标题”之后,则对每一个候选页面节点,是否跟在“标题”节点之后,将作为判断该页面节点的节点属性信息是否是“作者”的重要特征。本领域技术人员应能理解上述节点特征向量仅为举例,其他现有的或今后可能出现的节点特征向量如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,在步骤S2中,处理设备1可将从上述源码中获得的该目标页面web1的HTML标签转化为对应DOM树的节点,如假设标签<span style=″font-size:16px;font-weight:bold;line-height:149%″>铁骨</span>对应的DOM树节点为D1,标签<td width=″25%″>作&nbsp;&nbsp;&nbsp;者:天子</td>对应的DOM树节点为D1’,节点D1’跟在节点D1之后,则节点D1’对应的节点特征向量可表示为TA1′={自身文本特征:作者:天子;属性关系特征:位于“标题”对应的节点D1之后},则在步骤S2中,处理设备1根据节点D1’对应的节点特征向量TA1′确定节点D1’对应的节点属性信息为“作者”,类似地,在步骤S2中,处理设备1可得到目标页面http://www.92txt.net/bookinfo/343.html中的其他页面节点的节点属性信息如标签<td>最后更新:2013-04-01</td>对应的DOM树节点的节点属性信息为“更新时间”等。
本领域技术人员应能理解上述确定所述目标页面中的页面节点的节点属性信息的方式仅为举例,其他现有的或今后可能出现的确定所述目标页面中的页面节点的节点属性信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S3中,处理设备1根据所述节点属性信息,对所述页面节点进行相应的数据处理。在此,所述数据处理包括但不限于如:1)提取所述页面节点中与所述节点属性信息相对应的页面数据,如页面结构化数据:2)将该页面数据进行转换处理,以获得可直接运用的数据格式,在此,所述数据格式包括但不限于如文本、时间、地址、媒体等,如对于文本格式数据,可直接将多个节点内容拼接,并进行内容过滤;再如,对于时间格式数据,可将其转换为年月日格式;又如,对于地址格式数据,可将其转换为省市区街道的格式。例如,接上例,在步骤S3中,处理设备1将其在步骤S2中确定的所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,得到如图2所示的页面结构化数据。
本领域技术人员应能理解上述数据处理的方式仅为举例,其他现有的或今后可能出现的数据处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
处理设备1的各个步骤之间是持续不断工作的。具体地,在步骤S1中,处理设备1持续获取待处理的目标页面;在步骤S2中,处理设备1持续根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;在步骤S3中,处理设备1持续根据所述节点属性信息,对所述页面节点进行相应的数据处理。在此,本领域技术人员应能理解“持续”是指处理设备1的各个步骤之间持续不断地进行目标页面的获取、节点属性信息的确定及对页面节点进行相应的数据处理,直至处理设备1在较长时间内停止目标页面的获取。
优选地,步骤S2包括步骤S21(未示出)和步骤S22(未示出)。具体地,在步骤S21中,处理设备1基于预定节点筛选规则,对所述目标页面对应的DOM树节点进行筛选处理,以获得所述页面节点;在步骤S22中,处理设备1根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,确定所述节点属性信息。
具体地,在步骤S21中,处理设备1首先对所述目标页面进行HTML解析,获得所述目标页面对应的DOM树节点;然后,再基于预定节点筛选规则,对所述目标页面对应的DOM树节点进行筛选处理,以获得所述页面节点。在此,所述预定节点筛选规则包括以下至少任一项:1)根据所述目标页面的DOM树节点的节点类型信息,对所述目标页面的DOM树节点进行筛选处理,其中,所述节点类型信息表示节点对应的HTML标签的功能,如标题标签<title>、段落标签<p>、主体标签<body>等。例如,对于HTML文本格式化标签如定义粗体文本标签<b>、定义斜字体标签<i>等,其不影响页面的页面内容,可删除此标签所对应的DOM树节点;2)根据所述目标页面的DOM树节点的节点深度信息,对所述目标页面的DOM树节点进行筛选处理,如当所述目标页面的DOM树节点如D1为叶子节点时或其所对应的节点深度满足预定阈值时,保留该DOM树节点D1,否则从所述目标页面的DOM树节点中删除该DOM树节点D1;3)根据所述目标页面的DOM树节点的子节点是否含有文本信息,对所述目标页面的DOM树节点进行筛选处理。例如,假设在步骤S1中,处理设备1获取的目标页面web1为“铁骨最新章节,全文阅读,铁骨txt下载---就爱网”(http://www.92txt.net/bookinfo/343.html),假设在步骤S21中,处理设备1对该目标页面web1进行HTML解析,得到其所对应的DOM树节点对应的标签中包括标签<td width=″80%″align=″center″valign=″middle″>,该标签定义HTML表格中的标准单元格,则在步骤S21中,处理设备1可将该标签<td width=″80%″align=″center″valign=″middle″>对应的DOM树节点从该目标页面web1对应的DOM树节点中删除,以获得所述页面节点;再如,接上例,假设在步骤S21中,处理设备1对目标页面web1进行HTML解析,得到如上所述的HTML源码,并将从上述源码中获得的该目标页面web1的HTML标签转化为对应DOM树的节点,例如标签<td width=″25%″>类&nbsp;&nbsp;&nbsp;别:历史军事</td>对应的DOM树节点如D2为叶子节点,则在步骤S21中,处理设备1将DOM树节点D2保留,并将D2作为所述页面节点。
本领域技术人员应能理解上述对所述目标页面对应的DOM树节点进行筛选处理的方式仅为举例,其他现有的或今后可能出现的对所述目标页面对应的DOM树节点进行筛选处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S22中,处理设备1根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,确定所述节点属性信息。在此,在步骤S22中,处理设备1根据所述页面节点的节点特征向量确定所述节点属性信息的方式与图4实施例中在步骤S2中,处理设备1根据所述页面节点的节点特征向量确定所述节点属性信息的方式相同或相似,为简明起见,故此处不再赘述,并通过引用的方式包含于此。
更优选地,在步骤S22中,处理设备1还可首先根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,判断所述页面节点所对应的候选节点属性信息;然后,根据与所述目标页面的页面类型相对应的属性连通模型,对所述候选节点属性信息进行筛选处理,以获得所述节点属性信息。在此,所述属性连通模型用于描述页面节点属性信息之间的先后顺序,对于不同页面类型的页面,具有不同的属性连通模型,如对于新闻类型页面,其包括的节点属性信息如主题、内容、发表时间、编辑、来源媒体等之间的先后顺序为主题、发表时间、来源媒体、内容、编辑,如对于小说类型页面,节点属性信息“作者”通常位于节点属性信息“标题”之后;再如,对于视频类型页面,其包括的节点属性信息如主题、视频长度、简介、视频清晰度、视频长度、发布时间、点击量、上传作者等之间的先后顺序为主题、上传作者、发布时间、简介、视频长度、视频清晰度、点击量;还如,对于论坛类型页面,其包括的节点属性信息如主题、内容、发贴时间、帖子作者等之间的先后顺序为:主题、帖子作者1、发帖时间1、帖子内容1、帖子作者2、发帖时间2、帖子内容2等依次循环。
具体地,在步骤S22中,处理设备1还可首先根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,判断所述页面节点所对应的候选节点属性信息。在此,在步骤S22中,处理设备1根据所述页面节点的节点特征向量判断所述页面节点所对应的候选节点属性信息的方式与图4实施例中在步骤S2中,处理设备1根据所述页面节点的节点特征向量确定所述节点属性信息的方式相同或相似,为简明起见,故此处不再赘述,并通过引用的方式包含于此。
然后,在步骤S22中,处理设备1根据与所述目标页面的页面类型相对应的属性连通模型,对所述候选节点属性信息进行筛选处理,以获得所述节点属性信息。例如,假设在步骤S1中,处理设备1获取的目标页面web1为“铁骨最新章节,全文阅读,铁骨txt下载---就爱网”(http://www.92txt.net/bookinfo/343.html),而在步骤S21中,处理设备1对目标页面web1进行HTML解析,得到如上所述的HTML源码,而节点属性确定单元首先根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,得到所述页面节点所对应的候选节点属性信息如:①得到标签<span style=″font-size:16px;font-weight:bold;line-height:149%″>铁骨</span>对应的DOM树节点如D1所对应的节点属性信息为“标题”;②标签<li><a href=″http://www.92txt.net/bookinfo/8889.html″target=″_blank″>北洋1917</a></li>对应的DOM树节点如D3所对应的节点属性信息也为“标题”,但该DOM树节点D3其后没有节点属性信息为“作者”的节点;③标签<td>最后更新:2013-04-01</td>对应的DOM树节点的节点属性信息为“更新时间”等,而目标页面web1所对应的页面类型为小说类型,则在步骤S22中,处理设备1根据与小说类型页面相对应的属性连通模型,如节点属性信息“作者”通常位于节点属性信息“标题”之后,因DOM树节点D3其后没有节点属性信息为“作者”的节点,则在步骤S22中,处理设备1将DOM树节点D3所对应的节点属性信息“标题”从所述候选节点属性信息中删除,以获得所述节点属性信息。
本领域技术人员应能理解上述对所述候选节点属性信息进行筛选处理的方式仅为举例,其他现有的或今后可能出现的对所述候选节点属性信息进行筛选处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,在步骤S3中,处理设备1还可根据所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,以获得所述目标页面所对应的页面数据。在此,所述页面数据包括但不限于如结构化数据、非结构化数据等。例如,接上例,在步骤S3中,处理设备1将其在步骤S22中获得的所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,得到如图2所示的页面结构化数据。在此,本发明实现了快速提取页面数据的有益效果。
更优选地,处理设备1还包括步骤S7(未示出)。具体地,在步骤S7中,处理设备1通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将所述目标页面所对应的页面数据作为页面优选信息提供给访问所述目标页面的目标应用。例如,接上例,在步骤S7中,处理设备1将其在步骤S3中获得的如图2所示的页面结构化数据作为页面优选信息首先提供给访问所述目标页面的目标应用,如搜索引擎、浏览器等,然后由该目标应用将该页面优选信息展示给用户,如用户的用户设备,供用户浏览。
图5示出根据本发明一个优选实施例的用于处理页面数据的方法流程图。
其中,处理设备1包括步骤S1’、步骤S2’、步骤S3’、步骤S4’、步骤S5’和步骤S6’。具体地,在步骤S4’中,处理设备1获取已标注节点属性的多个页面节点训练数据,以将所述多个页面节点训练数据所对应的页面作为训练页面,其中,所述训练页面具有相同页面类型;在步骤S5’中,处理设备1确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点;在步骤S6’中,处理设备1根据所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型;在步骤S1’中,处理设备1获取待处理的目标页面;在步骤S2’中,处理设备1根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;在步骤S3’中,处理设备1根据所述节点属性信息,对所述页面节点进行相应的数据处理。其中,步骤S1’、步骤S2’和步骤S3’与图4所示对应步骤相同或相似,故在此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S4’中,处理设备1通过提供页面节点训练数据的设备的应用程序接口(APP),获取已标注节点属性的多个页面节点训练数据,以将所述多个页面节点训练数据所对应的页面作为训练页面,其中,所述训练页面具有相同页面类型;或者,首先通过调用诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取多个具有相同页面类型的页面,以此作为训练页面,然后通过预定页面内容信息提取模板提取该训练页面的页面节点及其对应的页面内容信息,以作为所述节点训练数据。例如,假设服务器server中存储有已标注节点属性的页面节点训练数据I至IV,如下表2所示,其中,该页面节点训练数据I至IV所对应的页面具有相同页面类型如小说类型,表2中标注的节点属性包括标题、作者、简介、状态、类型、最新章节及更新时间:
表2
则在步骤S4’中,处理设备1通过服务器server提供的应用程序接口(API),便可获取到如上述表1所示的已标注节点属性的页面节点训练数据I至IV,并将该多个页面节点训练数据I至IV所对应的页面作为训练页面,如页面节点训练数据I所对应的页面url I(http://www.92txt.net/bookinfo/7883.html)、节点训练数据II所对应的训练页面urlII(http://www.readnovel.com/novel/73144/23.html)、节点训练数据III所对应的训练页面url III(http://bookapp.book.qq.com/origin/book/?workid=2535291),以及节点训练数据IV所对应的训练页面url IV(http://vip.book.sohu.com/book/125320/)作为训练页面,其中,所述训练页面具有相同页面类型如小说类型。
本领域技术人员应能理解上述获取所述页面节点训练数据的方式仅为举例,其他现有的或今后可能出现的获取所述页面节点训练数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S5’中,处理设备1确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点,如将所述页面节点训练数据对应的训练页面中文本与该页面节点训练数据的文本相似度最大的文本作对应的DOM树节点作为所述训练节点。在此,所述训练节点包括所述训练页面的DOM树节点。具体地,在步骤S5’中,处理设备1首先通过对所述页面节点训练数据所对应的训练页面进行HTML解析,获得该训练页面对应的DOM树节点及其对应的节点内容;然后,通过语义分析、文本比较等方式,确定所述页面节点训练数据所对应的训练页面中节点内容与该页面节点训练数据的文本的相似度;然后,根据所述相似度,确定该页面节点训练数据在其对应的训练页面中所对应的训练节点,如将该页面节点训练数据对应的训练页面中节点内容与该页面节点训练数据的文本相似度最大的节点内容所对应的DOM树节点作为所述训练节点。例如,以表2中的页面节点训练数据I为例进行说明,在步骤S5’中,处理设备1通过对页面节点训练数据I所对应的页面url I进行HTML解析,发现页面url I中HTML标签:<span style=“font-size:16px;font-weight:bold;line-height:149%”>亿万交易:邪少,请慢用</span>对应的文本内容与页面节点训练数据I中节点属性为“标题”对应的文本内容的相似度最大,则在步骤S5’中,处理设备1将HTML标签:<spanstyle=“font-size:16px;font-weight:bold;line-height:149%”>亿万交易:邪少,请慢用</span>对应的DOM树节点如train-D1作为页面节点训练数据I中节点属性为“标题”在页面urlI中对应的训练节点,类似地,在步骤S5’中,处理设备1可确定页面节点训练数据I中其他各个节点属性在对应训练页面url I中对应的训练节点。
本领域技术人员应能理解上述确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点的方式仅为举例,其他现有的或今后可能出现的确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S6’中,处理设备1根据所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。所获得的与所述训练页面的页面类型相对应的属性分类模型可供在步骤S2’中,处理设备1用于根据与所述目标页面的页面类型相对应的多个属性分类模型,以确定所述目标页面中的页面节点的节点属性信息。具体,所获得的与所述训练页面的页面类型相对应的属性分类模型可保存于处理设备1的存储器或缓存中,也可保存于与处理设备1通过网络相连的其他设备中,如服务器。在此,所述预定训练规则包括以下至少任一项:1)对所述多个页面节点训练数据所对应的训练节点进行逻辑回归分析,获得与所述页面类型相对应的属性分类模型;2)对所述多个页面节点训练数据所对应的训练节点进行随机森林分析,获得与所述页面类型相对应的属性分类模型。例如,接上例,假设在步骤S5’中,处理设备1确定上述表2中页面节点训练数据I至IV各自标注为“标题”的节点属性在对应训练页面中的训练节点分别为train-D1至train-D4,即页面节点训练数据I中标注为“标题”的节点属性在其对应训练页面url I中的训练节点为train-D1,页面节点训练数据II中标注为“标题”的节点属性在其对应训练页面urlII中的训练节点为train-D2,页面节点训练数据III中标注为“标题”的节点属性在其对应训练页面urlIII中的训练节点为train-D3,页面节点训练数据IV中标注为“标题”的节点属性在其对应训练页面urlIV中的训练节点为train-D4,则在步骤S6’中,处理设备1根据训练节点train-D1至train-D4的节点特征向量,结合训练节点train-D1至train-D4的负例节点的节点特征向量,如将训练页面url I至urlIV的DOM树节点中所有包含文本的DOM树节点作为候选负辅助节点如candidate-node1至candidate-node n,然后,将训练节点train-D1至train-D4及其分别在相应训练页面url I至urlIV中的上下级节点从候选负辅助节点candidate-node1至candidate-node n中删除,得到候选负辅助节点集合candidate-node-set,从该候选负辅助节点集合candidate-node-set中随机选取节点来作为训练节点train-D1至train-D4的负例节点,如训练节点train-D1至train-D4对应的负例节点分别为negatives-train-D1至negatives-train-D4,对训练节点train-D1至train-D4及其对应的负例节点negatives-train-D1至negatives-train-D4进行逻辑回归分析,或随机森林分析,获得小说类型页面中与节点属性为“标题”相对应的属性分类模型如novel-model-title,类似地,在步骤S6’中,处理设备1还可得到小说类型页面中其他节点属性如作者、简介、状态、类型、最新章节及更新时间等各自所对应的属性分类模型。在此,本发明采用随机森林分析,实现了所述属性分类模型的分类效果相对于其他分析方法如在分类准确率等方面具有分类效果较好的有益效果,如通过统计发现相对逻辑回归在准确率上有3%到5%的优势。
本领域技术人员应能理解上述获得所述属性分类模型的方式仅为举例,其他现有的或今后可能出现的获得所述属性分类模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,处理设备1还包括步骤S8’(未示出)。具体地,在步骤S8’中,处理设备1根据所述训练节点,以及所述训练页面,如根据所述训练节点在所述训练页面中的先后顺序,首先确定所述训练节点所对应的节点训练数据对应的节点属性在所述训练页面中的先后顺序,然后,再根据该先后顺序,确定与所述训练页面的页面类型相对应的属性连通模型。例如,如上述表2所示,对于小说类型页面,在步骤S8’中,处理设备1通过统计节点训练数据I至IV中已标注节点属性如“简介”与节点属性“作者”在节点训练数据I至IV各自对应的训练页面urlI至urlIV中对应的训练节点先后顺序,发现节点属性“简介”在各训练页面url I至urlIV中的训练节点均位于节点属性“标题”在各训练页面url I至urlIV中的训练节点,则对于小说类型页面,在步骤S8’中,处理设备1确定其对应的属性连通模型中节点属性“简介”位于节点属性“标题”之后,类似地,在步骤S8’中,处理设备1可确定小说类型页面对应的属性连通模型中各个节点属性之间的先后顺序。
本领域技术人员应能理解上述确定所述属性连通模型的方式仅为举例,其他现有的或今后可能出现的确定所述属性连通模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,处理设备1还包括步骤S9’(未示出)和步骤S10’(未示出),具体地,在步骤S9’中,处理设备1确定所述训练节点所对应的负例节点;在步骤S10’中,处理设备1结合所述负例节点的节点特征向量,更新所述训练节点的节点特征向量;其中,在步骤S6’中,处理设备1根据更新后的所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。
具体地,在步骤S9’中,处理设备1确定所述训练节点所对应的负例节点。在此,所述负例节点对应的节点属性信息不同于其对应的训练节点的节点属性。例如,对于上述表2中标注为“标题”的节点属性,在步骤S9’中,处理设备1可首先对页面节点训练数据I至IV各自对应的训练页面url I至urlIV进行HTML解析,将训练页面url I至urlIV的DOM树节点中所有包含文本的DOM树节点作为候选负辅助节点如candidate-node1至candidate-node n,然后,在步骤S9’中,处理设备1将页面节点训练数据I至IV各自标注为“标题”的节点属性在对应训练页面url I至urlIV中的训练节点train-D1至train-D4,以及训练节点train-D1至train-D4分别在相应训练页面url I至urlIV中的上下级节点从候选负辅助节点candidate-node1至candidate-node n中删除,得到候选负辅助节点集合candidate-node-set,接着,在步骤S9’中,处理设备1可从该候选负辅助节点集合candidate-node-set中随机选取节点,以此作为所述负例节点。
本领域技术人员应能理解上述确定所述训练节点所对应的负例节点的方式仅为举例,其他现有的或今后可能出现的确定所述训练节点所对应的负例节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S10’中,处理设备1结合所述负例节点的节点特征向量,更新所述训练节点的节点特征向量,如按照预定周期,预定更新规则如按天更新等,通过将所述负例节点的节点特征向量及所述训练节点的节点特征向量进行向量运算,或者,将所述负例节点的节点特征向量及所述训练节点的节点特征向量各自对应的特征分量进行组合,来更新所述训练节点的节点特征向量,例如,假设所述训练节点如train-D1的节点特征向量为T1,而在步骤S9’中,处理设备1确定该训练节点如train-D1所对应的负例节点negatives-train-D1的节点特征向量为T2,则在步骤S10’中,处理设备1可将向量T1与向量T2的向量分量组成多维特征向量作为训练节点如train-D1新的节点特征向量为T1′,例如,假设T1={x1;x2;x3},T2={y1;y2;y3},则 T 1 &prime; = x 1 x 2 x 3 y 1 y 2 y 3 .
本领域技术人员应能理解上述更新所述训练节点的节点特征向量的方式仅为举例,其他现有的或今后可能出现的更新所述训练节点的节点特征向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S6’中,处理设备1根据更新后的所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。例如,接上例,在步骤S6’中,处理设备1将train-D1至train-D4作为正例节点,与其在步骤S9’中确定的所述候选负辅助节点集合candidate-node-set中作为负例节点的部分节点,组成训练集,对该训练集进行逻辑回归分析,或随机森林分析,获得小说类型页面中与节点属性为“标题”相对应的属性分类模型如novel-model-title。在此,本发明在获得与所述训练页面的页面类型相对应的属性分类模型时,纳入所述训练节点对应的负例节点的节点特征向量,实现了使获得的所述属性分类模型更加精准的有益效果。
更优选地,在步骤S9’中,处理设备1还可首先将所述训练页面的DOM树节点中包含文本的DOM树节点作为候选负辅助节点;然后,根据所述候选负辅助节点,结合所述训练节点,确定所述负例节点。例如,对于上述表2中标注为“标题”的节点属性,在步骤S9’中,处理设备1可首先对页面节点训练数据I至IV各自对应的训练页面urlI至urlIV进行HTML解析,将训练页面url I至urlIV的DOM树节点中所有包含文本的DOM树节点作为候选负辅助节点如candidate-node1至candidate-node n;然后,在步骤S9’中,处理设备1根据所述候选负辅助节点,结合所述训练节点,确定所述负例节点,如将页面节点训练数据I至IV各自标注为“标题”的节点属性在对应训练页面url I至urlIV中的训练节点train-D1至train-D4,以及训练节点train-D1至train-D4分别在相应训练页面url I至urlIV中的上下级节点从候选负辅助节点candidate-node1至candidate-node n中删除,得到候选负辅助节点集合candidate-node-set,并从该候选负辅助节点集合candidate-node-set中随机选取节点,以此作为所述负例节点。
优选地,处理设备1还包括步骤S11’(未示出),其中,处理设备1还包括步骤S12’(未示出)和步骤S13’(未示出)。具体地,在步骤S11’中,处理设备1根据与所述训练页面的页面类型相对应的属性分类模型,确定与所述训练页面的页面类型相对应的页面结构模板;在步骤S12’中,处理设备1根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据;在步骤S13’中,处理设备1将所述摘要数据提供给访问所述目标页面的目标应用。
具体地,在步骤S11’中,处理设备1根据与所述训练页面的页面类型相对应的属性分类模型,确定与所述训练页面的页面类型相对应的页面结构模板,如根据与所述训练页面的页面类型相对应的属性分类模型,确定该页面类型页面所包括的通用节点属性信息,从而根据该通用节点属性信息,获得所述页面结构模板。例如,假设在步骤S6’中,处理设备1获得小说类型页面中与节点属性为“标题”相对应的属性分类模型如novel-model-title,以及小说类型页面中其他节点属性信息如作者、简介、状态、类型、最新章节及更新时间等各自所对应的属性分类模型,则在步骤S11’中,处理设备1根据该等属性分类模型,确定小说页面类型页面所包括的通用节点属性信息如标题、作者、简介、状态、类型、最新章节及更新时间等,从而根据该通用节点属性信息,获得与小说类型页面相对应的页面结构模板。
在步骤S12’中,处理设备1根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据。具体地,在步骤S1’中,处理设备1获取待处理一个或多个搜索结果,以此作为所述目标页面;在步骤S12’中,处理设备1根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据。
具体地,在步骤S1’中,处理设备1通过诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取待处理一个或多个搜索结果;或者通过JSP等动态网页技术,获取用户输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待处理一个或多个搜索结果。例如,用户在搜索引擎搜索栏中输入关键词“三国演义诸葛亮小说”,搜索引擎根据该关键词,在网页数据库中进行匹配查询,得到与关键词“三国演义诸葛亮小说”相匹配的一个或多个搜索结果,如“三国演义之诸葛亮百度文库”、“浅析《三国演义》小说与电视剧本对诸葛亮人生悲剧的描述之别(zt)”、“点评《三国演义中的诸葛亮-优秀小说评论区-铁血小说论坛”,则在步骤S1’中,处理设备1通过搜索引擎提供的应用程序接口(API)获取搜索引擎所获得的该等搜索结果,作为待处理的一个或多个搜索结果。再如,用户在用户设备的搜索栏中输入关键词“水浒小说”,则在步骤S1’中,处理设备1通过JSP或ASP等动态网页技术,从用户设备获取该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个网站,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”、“水浒传小说在线阅读”,作为待处理的搜索结果。
接着,在步骤S12’中,处理设备1根据所述页面结构模板,生成所述搜索结果所对应的摘要数据。例如,对于小说类型的页面结构模板,生成的摘要数据包括通用节点属性信息如标题、作者、简介、状态、类型、最新章节及更新时间等所对应的页面内容信息。
在步骤S13’中,处理设备1通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将摘要生成装置生成的所述摘要数据,首先提供给访问所述目标页面的目标应用,如搜索引擎、浏览器等,然后由该目标应用将该页面优选信息展示给用户,如用户的用户设备,供用户浏览。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (23)

1.一种用于处理页面数据的方法,其中,该方法包括以下步骤:
获取已标注节点属性的多个页面节点训练数据,以将所述多个页面节点训练数据所对应的页面作为训练页面,其中,所述训练页面具有相同页面类型;
确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点;
m根据所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型;
其中,该方法还包括以下步骤:
a获取待处理的目标页面;
b根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;
c根据所述节点属性信息,对所述页面节点进行相应的数据处理。
2.根据权利要求1所述的方法,其中,所述步骤b包括:
基于预定节点筛选规则,对所述目标页面对应的DOM树节点进行筛选处理,以获得所述页面节点;
b1根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,确定所述节点属性信息。
3.根据权利要求2所述的方法,其中,所述步骤b1包括:
根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,判断所述页面节点所对应的候选节点属性信息;
根据与所述目标页面的页面类型相对应的属性连通模型,对所述候选节点属性信息进行筛选处理,以获得所述节点属性信息,其中,所述属性连通模型用于描述页面节点属性信息之间的先后顺序。
4.根据权利要求1所述的方法,其中,该方法还包括:
根据所述训练节点,以及所述训练页面,确定与所述训练页面的页面类型相对应的属性连通模型。
5.根据权利要求1所述的方法,其中,该方法还包括:
n确定所述训练节点所对应的负例节点;
结合所述负例节点的节点特征向量,更新所述训练节点的节点特征向量;
其中,所述步骤m包括:
根据更新后的所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。
6.根据权利要求5所述的方法,其中,所述步骤n包括:
将所述训练页面的DOM树节点中包含文本的DOM树节点作为候选负辅助节点;
根据所述候选负辅助节点,结合所述训练节点,确定所述负例节点。
7.根据权利要求1所述的方法,其中,该方法还包括:
根据与所述训练页面的页面类型相对应的属性分类模型,确定与所述训练页面的页面类型相对应的页面结构模板;
其中,该方法还包括:
根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据;
将所述摘要数据提供给访问所述目标页面的目标应用。
8.根据权利要求1至7中任一项所述的方法,其中,所述步骤c包括:
根据所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,以获得所述目标页面所对应的页面数据。
9.根据权利要求8所述的方法,其中,该方法还包括:
将所述目标页面所对应的页面数据作为页面优选信息提供给访问所述目标页面的目标应用。
10.一种用于处理页面数据的处理设备,其中,该处理设备包括:
数据获取装置,用于获取已标注节点属性的多个页面节点训练数据,以将所述多个页面节点训练数据所对应的页面作为训练页面,其中,所述训练页面具有相同页面类型;
训练节点确定装置,用于确定所述页面节点训练数据在对应的所述训练页面中所对应的训练节点;
分类模型训练装置,用于根据所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型;
其中,该设备还包括:
页面获取装置,用于获取待处理的目标页面;
节点属性确定装置,用于根据与所述目标页面的页面类型相对应的多个属性分类模型,确定所述目标页面中的页面节点的节点属性信息;
处理装置,用于根据所述节点属性信息,对所述页面节点进行相应的数据处理。
11.根据权利要求10所述的处理设备,其中,所述节点属性确定装置包括:
筛选单元,用于基于预定节点筛选规则,对所述目标页面对应的DOM树节点进行筛选处理,以获得所述页面节点;
节点属性确定单元,用于根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,确定所述节点属性信息。
12.根据权利要求11所述的处理设备,其中,所述节点属性确定单元用于:
根据所述页面节点的节点特征向量,结合与所述目标页面的页面类型相对应的多个属性分类模型,判断所述页面节点所对应的候选节点属性信息;
根据与所述目标页面的页面类型相对应的属性连通模型,对所述候选节点属性信息进行筛选处理,以获得所述节点属性信息,其中,所述属性连通模型用于描述页面节点属性信息之间的先后顺序。
13.根据权利要求10所述的处理设备,其中,该处理设备还包括:
连通模型确定装置,用于根据所述训练节点,以及所述训练页面,确定与所述训练页面的页面类型相对应的属性连通模型。
14.根据权利要求10所述的处理设备,其中,该处理设备还包括:
负例确定装置,用于确定所述训练节点所对应的负例节点;
更新装置,用于结合所述负例节点的节点特征向量,更新所述训练节点的节点特征向量;
其中,所述分类模型训练装置用于:
根据更新后的所述训练节点的节点特征向量,通过预定训练规则,以获得与所述训练页面的页面类型相对应的属性分类模型。
15.根据权利要求14所述的处理设备,其中,所述负例确定装置用于:
将所述训练页面的DOM树节点中包含文本的DOM树节点作为候选负辅助节点;
根据所述候选负辅助节点,结合所述训练节点,确定所述负例节点。
16.根据权利要求10所述的处理设备,其中,该处理设备还包括:
模板确定装置,用于根据与所述训练页面的页面类型相对应的属性分类模型,确定与所述训练页面的页面类型相对应的页面结构模板;
其中,该处理设备还包括:
摘要生成装置,用于根据与所述目标页面所对应的页面类型相对应的页面结构模板,生成所述目标页面所对应的摘要数据;
第一提供装置,用于将所述摘要数据提供给访问所述目标页面的目标应用。
17.根据权利要求10至16中任一项所述的处理设备,其中,所述处理装置用于:
根据所述节点属性信息,提取所述页面节点中与所述节点属性信息相对应的页面数据,以获得所述目标页面所对应的页面数据。
18.根据权利要求17所述的处理设备,其中,该处理设备还包括:
第二提供装置,用于将所述目标页面所对应的页面数据作为页面优选信息提供给访问所述目标页面的目标应用。
19.一种计算机设备,包括如权利要求10至18中任一项所述的处理设备。
20.一种搜索引擎,包括如权利要求10至18中任一项所述的处理设备。
21.一种搜索引擎插件,包括如权利要求10至18中任一项所述的处理设备。
22.一种浏览器,包括如权利要求10至18中任一项所述的处理设备。
23.一种浏览器插件,包括如权利要求10至18中任一项所述的处理设备。
CN201310177865.0A 2013-05-14 2013-05-14 一种用于处理页面数据的方法与设备 Active CN103294781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310177865.0A CN103294781B (zh) 2013-05-14 2013-05-14 一种用于处理页面数据的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310177865.0A CN103294781B (zh) 2013-05-14 2013-05-14 一种用于处理页面数据的方法与设备

Publications (2)

Publication Number Publication Date
CN103294781A CN103294781A (zh) 2013-09-11
CN103294781B true CN103294781B (zh) 2016-12-28

Family

ID=49095643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310177865.0A Active CN103294781B (zh) 2013-05-14 2013-05-14 一种用于处理页面数据的方法与设备

Country Status (1)

Country Link
CN (1) CN103294781B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914545B (zh) * 2014-04-08 2018-09-07 百度在线网络技术(北京)有限公司 搜索展现方法及装置
CN103955529B (zh) * 2014-05-12 2018-05-01 中国科学院计算机网络信息中心 一种互联网信息搜索聚合呈现方法
CN104268167A (zh) * 2014-09-10 2015-01-07 北京优特捷信息技术有限公司 一种处理时间序列数据的方法及装置
CN104486154B (zh) * 2014-12-12 2017-12-19 北京国双科技有限公司 数据的导入方法和装置
CN106570017A (zh) * 2015-10-09 2017-04-19 北大方正集团有限公司 一种数据缓存方法及系统
CN105512296B (zh) * 2015-12-11 2019-01-22 宁波中青华云新媒体科技有限公司 基于网页差异的网页分析方法及系统
CN107678808A (zh) * 2016-08-02 2018-02-09 阿里巴巴集团控股有限公司 页面信息选取方案生成方法及装置
CN107679038B (zh) * 2017-10-16 2021-05-28 鼎富智能科技有限公司 一种文本段落的抽取方法及装置
CN107729481B (zh) * 2017-10-16 2020-10-13 鼎富智能科技有限公司 一种自定义规则的文本信息抽取结果筛选方法及装置
CN107562732B (zh) * 2017-10-26 2022-06-14 北京康夫子健康技术有限公司 电子病历的处理方法及系统
CN108875060B (zh) * 2018-06-29 2021-02-26 成都市映潮科技股份有限公司 一种网站识别方法及识别系统
CN109190769B (zh) * 2018-08-21 2021-12-24 深圳点宽网络科技有限公司 一种基于区块链的人工智能训练方法
CN110377884B (zh) * 2019-06-13 2023-03-24 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN110276001B (zh) * 2019-06-20 2021-10-08 北京百度网讯科技有限公司 盘点页识别方法、装置、计算设备和介质
KR102565950B1 (ko) * 2020-02-27 2023-08-10 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체
CN111353112A (zh) * 2020-02-27 2020-06-30 百度在线网络技术(北京)有限公司 页面处理方法、装置、电子设备和计算机可读介质
CN115460433A (zh) * 2021-06-08 2022-12-09 京东方科技集团股份有限公司 一种视频处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN102681994A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种网页信息抽取方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
CN102651002B (zh) * 2011-02-28 2017-08-11 深圳市世纪光速信息技术有限公司 一种网页信息抽取方法及其系统
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
CN102314494B (zh) * 2011-08-24 2014-04-02 百度在线网络技术(北京)有限公司 一种用于处理网页内容的方法和设备
CN102982161A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 网页信息的获取方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681994A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种网页信息抽取方法及系统
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备

Also Published As

Publication number Publication date
CN103294781A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
CN103294781B (zh) 一种用于处理页面数据的方法与设备
US7814089B1 (en) System and method for presenting categorized content on a site using programmatic and manual selection of content items
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN103955529B (zh) 一种互联网信息搜索聚合呈现方法
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
Gunjan et al. Search engine optimization with Google
CN105930469A (zh) 基于Hadoop的个性化旅游推荐系统及方法
CN103544178A (zh) 一种用于提供与目标页面相对应的重构页面的方法和设备
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
US20150287047A1 (en) Extracting Information from Chain-Store Websites
Chuang et al. Enabling maps/location searches on mobile devices: Constructing a POI database via focused crawling and information extraction
CN103678412A (zh) 一种文档检索的方法及装置
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
CN107301195A (zh) 生成用于搜索内容的分类模型方法、装置和数据处理系统
Du et al. Managing knowledge on the Web–Extracting ontology from HTML Web
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN102314494A (zh) 一种用于处理网页内容的方法和设备
Akhtar et al. An Efficient Mechanism for Product Data Extraction from E-Commerce Websites.
US20170235835A1 (en) Information identification and extraction
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
Cruz et al. Semantic extraction of geographic data from web tables for big data integration
Kayed et al. Postal address extraction from the web: A comprehensive survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant