CN103544176B - 用于生成多个页面所对应的页面结构模板的方法和设备 - Google Patents

用于生成多个页面所对应的页面结构模板的方法和设备 Download PDF

Info

Publication number
CN103544176B
CN103544176B CN201210244912.4A CN201210244912A CN103544176B CN 103544176 B CN103544176 B CN 103544176B CN 201210244912 A CN201210244912 A CN 201210244912A CN 103544176 B CN103544176 B CN 103544176B
Authority
CN
China
Prior art keywords
page
trained
node
cluster
structure template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210244912.4A
Other languages
English (en)
Other versions
CN103544176A (zh
Inventor
李楠
张建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210244912.4A priority Critical patent/CN103544176B/zh
Publication of CN103544176A publication Critical patent/CN103544176A/zh
Application granted granted Critical
Publication of CN103544176B publication Critical patent/CN103544176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Abstract

本发明的目的是提供一种用于生成多个页面所对应的页面结构模板的生成设备。具体地,获取多个训练页面;根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得相应的页面簇;根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树;识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。与现有技术相比,本发明通过根据训练页面的页面结构特征,对多个训练页面进行聚类,获得相应的页面簇,确定页面簇所对应的页面公共树,进而通过识别页面公共树中节点的节点属性信息来生成相应页面结构模板,提高了提取页面信息的效率和页面结构模板的稳定性,进一步提升了用户的浏览体验。

Description

用于生成多个页面所对应的页面结构模板的方法和设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于生成多个页面所对应的页面结构模板的技术。
背景技术
互联网的飞速发展为人们提供了大量的信息和资源,人们通常利用搜索引擎从海量互联网信息中进行信息搜索,通常,搜索引擎将经网络爬虫抓取到的数据按一定模板展现在网页中,用户通过用户终端便可进行浏览。然而,当用户使用用户终端进行网页浏览时,现有的通过为每个页面单独配置模板以提取网页中符合需要的主体内容和网页元素,来获得适合用户终端展现的页面。但当原始页面的样式布局发生变化时,需重新为该原始页面重新配置模板,原来配置的模板稳定性差,不仅浪费了大量人力物力,而且还降低了提取页面信息的效率,影响了用户的浏览体验。
发明内容
本发明的目的是提供一种用于生成多个页面所对应的页面结构模板的方法与设备。
根据本发明的一个方面,提供了一种用于生成多个页面所对应的页面结构模板的方法,该方法包括以下步骤:
a获取多个训练页面;
b根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;
c根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;
d识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
根据本发明的另一方面,还提供了一种用于生成多个页面所对应的页面结构模板的生成设备,该生成设备包括:
页面获取装置,用于获取多个训练页面;
聚类装置,用于根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;
公共树确定装置,用于根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;
模板确定装置,用于识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
根据本发明的又一个方面,还提供了一种搜索引擎,包括如前述根据本发明另一个方面的用于生成多个页面所对应的页面结构模板的生成设备。
根据本发明的再一个方面,还提供了一种搜索引擎插件,包括如前述根据本发明另一个方面的用于生成多个页面所对应的页面结构模板的生成设备。
与现有技术相比,本发明通过根据训练页面的页面结构特征,对所述多个训练页面进行聚类处理,获得与所述多个训练页面相对应的一个或多个页面簇,确定所述页面簇所对应的页面公共树,进而通过识别所述页面公共树中节点的节点属性信息来生成相应页面结构模板,实现了自动化地根据页面结构模板来提取页面中的页面信息,提高了提取页面信息的效率和页面结构模板的稳定性,并进一步提升了用户的浏览体验。而且,本发明还可以通过页面结构模板生成与搜索结果相对应的摘要数据,从而进一步地优化搜索结果的摘要数据并提升用户获取信息的效率,减少不必要的通信流量。此外,本发明还可根据与查询序列相对应的页面结构模板,确定所述搜索结果的优先级,以进一步地提高用户获取信息的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于生成多个页面所对应的页面结构模板的设备示意图;
图2示出根据本发明一个优选实施例的用于生成多个页面所对应的页面结构模板的设备示意图;
图3示出根据本发明另一个优选实施例的用于生成多个页面所对应的页面结构模板的设备示意图;
图4示出根据本发明另一个方面的用于生成多个页面所对应的页面结构模板的方法流程图;
图5示出根据本发明一个优选实施例的用于生成多个页面所对应的页面结构模板的方法流程图;
图6示出根据本发明另一个优选实施例的用于生成多个页面所对应的页面结构模板的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于生成多个页面所对应的页面结构模板的生成设备1。其中,生成设备1包括页面获取装置11、聚类装置12、公共树确定装置13和模板确定装置14。具体地,页面获取装置11获取多个训练页面;聚类装置12根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;公共树确定装置13根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;模板确定装置14识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。在此,生成设备1包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述生成设备1仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,页面获取装置11通过调用诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取多个训练页面;或者通过诸如网络爬虫(web crawler)、聚焦爬虫等,按照一定的抓取策略,抓取和下载来自同一站点互联网网页,或来自同一站点与某一特定主题内容相关的网页,以此作为训练页面;或者通过用户的访问日志获取多个训练页面,在此,所述多个训练页面包括:1)源于同一个网站的网页,如http://www.sina.com.cn/,http://news.sina.com.cn/等;2)基于同一第三方开发工具建立的网站,如基于如Discuz建立的论坛、SNS等。例如,假设希望获取来自同一站点sina的新闻网页时,页面获取装置11通过网络爬虫抓取到国内新闻http://news.sina.com.cn/china/、深度报道http://news.sina.com.cn/report/、国际新闻http://news.sina.com.cn/world/等相关新闻网页,作为训练页面。又如,假设希望获取来自同一站点sina的与某一特定主题内容如文学名著网页时,页面获取装置11通过聚焦爬虫抓取到sina/小说/世界名著下的《基督山伯爵》http://vip.book.sina.com.cn/book/index_81300.html网页、《海明威短片小说集》http://vip.book.sina.com.cn/book/index_179856.html等相关网页,作为训练页面。
本领域技术人员应能理解上述获取多个训练页面的方式仅为举例,其他现有的或今后可能出现的获取多个训练页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
聚类装置12根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面,在此,所述页面结构特征包括但不限于以下至少任一项:1)所述训练页面的超文本结构特征,如HTML标签的顺序和属性;2)所述训练页面的视觉信息特征;3)所述训练页面的DOM树结构。例如,假设页面获取装置11获取到的所述多个训练页面包括:
I:sina新闻首页http://news.sina.com.cn/,
II:sina国内新闻http://news.sina.com.cn/china/,
III:sina国际新闻http://news.sina.com.cn/world/,
IV:sina体育新闻http://sports.sina.com.cn/,
V:sina/读书/小说馆/世界名著/《基督山伯爵》http://vip.book.sina.com.cn/book/index_81300.html,
VI:sina/读书/图书连载/小说/乡土小说/《平凡的世界》http://vip.book.sina.com.cn/book/index_86819.html。
聚类装置12首先根据页面获取装置11获取得到的所述多个训练页面的HTML标签,提取所述多个训练页面的所述页面结构特征;或者基于分析正则表达式匹配方法所述训练页面的CSS样式,提取所述多个训练页面的所述页面视觉结构特征,如页面导航块、主体内容块等。例如,接上例,聚类装置12通过html parser对页面获取装置11获取的训练页面I至VI进行解析,来获取训练页面I至VI的HTML标签顺序和属性等的HTML结构特征。又如,还接上例,聚类装置12通过html parser对页面获取装置11获取的训练页面I至VI进行解析,将HTML标签转化为对应DOM树的节点,删除每棵树中节点名字和属性都相同的节点,从而生成各自的简单DOM树,从而获得训练页面I至VI的DOM树结构。还如,仍接上例,聚类装置12通过分析页面获取装置11获取的训练页面I至VI的CSS样式,来获取训练页面I至VI的页面视觉结构特征。
本领域技术人员应能理解上述提取所述多个训练页面的所述页面结构特征的方式仅为举例,其他现有的或今后可能出现的提取所述多个训练页面的所述页面结构特征的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,聚类装置12根据提取的所述页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面,在此,对所述多个训练页面进行聚类处理的方式包括但不限于以下至少任一项:
1)根据所述训练页面具有的HTML标签顺序和属性均相同的HTML标签数目,对所述多个训练页面进行聚类处理。例如,假设聚类装置12对训练页面I至VI的提取的所述页面结构特征包括训练页面I至IV具有的HTML标签顺序和属性均相同的HTML标签数目为15,超过预定阈值如10,训练页面V和VI具有的HTML标签顺序和属性均相同的HTML标签数目为12,超过预定阈值如10,训练页面I至IV中任一页面与训练页面V和VI中任一页面之间HTML标签顺序和属性均相同的HTML标签数目为0,低于预定阈值如10,则聚类装置12对训练页面I至IV进行聚类,归入同一所述页面簇A,对训练页面V和VI进行聚类,归入另一所述页面簇B。
2)根据所述训练页面所对应的DOM树中是否具有相同XPath的节点,对所述多个训练页面进行聚类处理。例如,假设聚类装置12对训练页面I至VI的提取的所述页面结构特征包括如训练页面I至IV所对应的DOM树中具有相同XPath的节点,训练页面V和VI所对应的DOM树中具有相同XPath的节点,训练页面I至VI中任一页面所对应的DOM树与训练页面V和VI中任一页面所对应的DOM树中无相同XPath的节点,则聚类装置12对训练页面I至VI进行聚类,归入同一所述页面簇A,如新闻式页面簇,该新闻式页面簇通常包括栏目、图片、动画及若干标题链接,对训练页面V和VI进行聚类,归入另一所述页面簇B,如正文式页面簇,该正文式页面簇通常只包含文章具体内容及章节目录及翻页链接。
3)根据所述训练页面所对应的文档对象模型之间的相似度,对所述多个训练页面进行聚类处理。具体地,聚类装置12可通过WuuYang于1991年简单树匹配算法来计算所述训练页面所对应的文档对象模型之间的相似度,然后根据所述相似度,对所述多个训练页面进行聚类处理。例如,聚类装置12根据简单树匹配算法,即通过动态规划计算两颗树的最大匹配节点的个数,进而得到两颗树之间的相似度,假设聚类装置12根据简单树匹配算法,得到训练页面I至VI所对应的DOM树之间的最大匹配节点的个数为8,训练页面V和VI所对应的DOM树之间的最大匹配节点的个数为6,训练页面I至VI中任一页面所对应的DOM树与训练页面V和VI中任一页面所对应的DOM树之间的最大匹配节点的个数为0,根据最大匹配节点数目计算相似度,如根据公式
进行计算,其中,TreeMatching(T1,T2)表示两棵树间的最大匹配节点的个数,|T1|与|T2|分别表示两棵树的节点的个数,假设经计算,聚类装置12得到的训练页面I至VI所对应的DOM树间的相似度为0.85,训练页面V和VI所对应的DOM树间的相似度为0.75,超过预定阈值0.6,则聚类装置12对训练页面I至V进行聚类,归入同一所述页面簇A,对训练页面V和VI进行聚类,归入另一所述页面簇B。又如,聚类装置12还可首先比较两棵树所对应的根节点是否匹配,若不匹配,则两棵树的最大匹配点数为零,则说明两棵树不相似,若匹配,接着再比较两棵树的叶子节点的两个属性如节点名称和节点的属性特征是否相同,若节点的节点名称和节点的属性特征均相同,则两个节点相同,若两个节点的任何一个属性不相同,则该两个节点不相同。
本领域技术人员应能理解上述对所述多个训练页面进行聚类处理的方式仅为举例,其他现有的或今后可能出现的对所述多个训练页面进行聚类处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解上述获得页面簇的方式仅为举例,其他现有的或今后可能出现的获得页面簇的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,聚类装置12还可根据预定的初始页面结构模板,从所述训练页面中提取优选页面结构特征;然后根据所述训练页面的优选页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面。例如,聚类装置12还可根据预定的初始页面结构模板,从所述训练页面中提取优选页面结构特征,如对于小说类型页面,对页面中的文本部分、章节目录感兴趣,而对页面中的图片、动画、广告等部分不感兴趣,则聚类装置12从小说类型的训练页面中提取的优选页面结构特征包括页面中的<body>标签对应的文本内容、<a>标签对应的链接;又如,对于摘要搜索,可能对搜索结果中的摘要部分感兴趣,而对页面中的链接、图片、广告等部分不感兴趣,则聚类装置12从搜索结果对应的页面中提取的优选页面结构特征包括页面中的<body>标签对应的文本内容、<p>标签对应的段落描述;再如,对于垂直搜索中,可能对搜索结果对应页面中的结构化数据如页面中包括的多条同类信息如手机商品的链接及概述,则聚类装置12从搜索结果对应的页面中提取的优选页面结构特征包括页面中的<a>标签对应的链接、<p>标签对应的段落描述等。
本领域技术人员应能理解上述从所述训练页面中提取优选页面结构特征的方式仅为举例,其他现有的或今后可能出现的从所述训练页面中提取优选页面结构特征的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,聚类装置12根据所述训练页面的优选页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面。
接着,公共树确定装置13根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面。具体地,公共树确定装置13首先通过所述页面簇中所包括的所述训练页面,确定与所述页面簇相对应的具有公共节点路径的DOM树节点,然后基于该具有公共节点路径的DOM树节点,生成所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面。例如,公共树确定装置13分别解析聚类装置12获得的所述页面簇A和所述页面簇B所包括的所述训练页面,得到所述训练页面I至VI所对应的DOM树中节点名称和节点XPath均相同的节点A1-An,所述训练页面V和VI所对应的DOM树中节点名称和节点XPath均相同的节点B1-Bn,公共树确定装置13分别根据该节点名称和节点XPath均相同的节点A1-An和B1-Bn,生成相应DOM-A及DOM-B,以此作为与所述页面簇A相对应的页面公共树如Common-DOM-A,与所述页面簇B相对应的页面公共树如Common-DOM-B。
本领域技术人员应能理解上述确定所述公共树的方式仅为举例,其他现有的或今后可能出现的确定所述公共树的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
模板确定装置14识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。具体地,模板确定装置14通过根据对所述页面公共树所对应的所述页面簇中包括的所述训练页面的节点进行统计分析,得到所述页面公共树中节点的节点属性信息,从而获得与所述页面簇相对应的页面结构模板。接上例,模板确定装置14对公共树确定装置13确定的所述页面公共树Common-DOM-A对应的所述页面簇A中包括的所述训练页面I至VI的节点所对应的节点属性进行统计分析,如统计所述训练页面I至VI中包括的节点所具有的节点属性信息,得到所述页面公共树Common-DOM-A中所包括的节点A1-An的节点属性信息,从而根据该节点属性信息,获得与所述页面簇A相对应的页面结构模板。又如,模板确定装置14还可根据公共树确定装置13确定的所述页面公共树Common-DOM-A中包括的节点A1-An,在节点属性信息库中进行匹配查询,以获得所述页面公共树Common-DOM-A中包括的节点A1-An的节点属性信息,从而根据该节点属性信息,获得与所述页面簇A相对应的页面结构模板。在此,所述节点属性信息库可位于生成设备1中,还可位于与生成设备1通过网络相连的设备中,如网络服务器。
本领域技术人员应能理解上述识别所述页面公共树中节点的节点属性信息的方式仅为举例,其他现有的或今后可能出现的识别所述页面公共树中节点的节点属性信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
生成设备1的各个装置之间是持续不断工作的。具体地,页面获取装置11持续获取多个训练页面;聚类装置12持续根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;公共树确定装置13持续根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;模板确定装置14持续识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。在此,本领域技术人员应理解“持续”是指生成设备1的各装置分别不断进行训练页面的获取、页面簇的获得、页面公共树的确定及页面结构模板的确定,直至该提供设备1在较长时间内停止训练页面的获取。
优选地,生成设备1还包括检测装置(未示出)和更新装置(未示出)。具体地,检测装置检测是否满足更新所述页面结构模板的更新触发条件;当满足所述更新触发条件时,更新装置更新所述页面结构模板;其中,所述更新触发条件包括以下至少任一项:
-所述训练页面的页面内容结构特征发生变化;
-所述训练页面的页面分块特征发生变化;
-所述训练页面的文档对象模型发生变化;
-所述训练页面的文档对象模型节点路径发生变化。
例如,当所述更新触发条件包括所述训练页面的页面内容结构特征发生变化,检测装置检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面中的页面主体内容部分的在所述训练页面中的页面位置发生变化,如从左侧区域移至右侧区域,或者从中间移至顶部,或者所述训练页面中增加了新的页面元素如图片、动画等,则检测装置检测满足更新所述页面结构模板的更新触发条件。又如,当所述更新触发条件包括所述训练页面的页面分块特征发生变化,检测装置检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面的页面分块特征如视觉特征、HTML标签分块、及相应页面分块的块信息如块位置特征、字体格式信息、块大小特征及统计信息(如图片数、超链接数、文本长度、段落位置、段落数、表格数等)发生变化,则检测装置满足更新所述页面结构模板的更新触发条件。还如,当所述更新触发条件包括所述训练页面的文档对象模型发生变化,检测装置检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面的页面HTML标签的位置、数量、种类等发生变化时,检测装置检测满足更新所述页面结构模板的更新触发条件。再如,当所述更新触发条件包括所述训练页面的文档对象模型节点路径发生变化,检测装置检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面的HTML标签的位置、HTML标签之间的引用关系等发生变化时,检测装置检测满足更新所述页面结构模板的更新触发条件。
本领域技术人员应能理解,检测装置还可以根据上述更新触发条件的任意组合,来检测是否满足更新所述页面结构模板的更新触发条件。
本领域技术人员应能理解上述更新触发条件仅为举例,其他现有的或今后可能出现的更新触发条件如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,当满足所述更新触发条件时,更新装置更新所述页面结构模板。例如,当满足所述训练页面的页面内容结构特征发生变化的所述更新触发条件时,如所述训练页面中的页面主体内容部分从左侧区域更改为右侧区域,则更新装置更新所述页面结构模板,如更新所述页面结构模板中与页面主体内容部分对应的DOM树节点的位置。又如,当满足所述训练页面的页面分块特征发生变化的所述更新触发条件时,如所述训练页面的页面分块特征如视觉特征如字体颜色、字体大小、字体类型等发生变化,更新装置自动更新所述页面结构模板。还如,当满足所述训练页面的文档对象模型发生变化时,如所述训练页面对应的HTML标签的位置、属性、名称发生变化,则更新装置更新所述页面结构模板,如更新所述页面结构模板对应的DOM树结构。再如,当满足所述训练页面的文档对象模型节点路径发生变化时,如所述训练页面的HTML标签的位置、HTML标签之间的引用关系发生变化,则更新装置更新所述页面结构模板,如自动更新所述页面结构模板对应的DOM树结构。
优选地,生成设备1还包括第二获取装置(未示出)、数据生成装置(未示出)和第二提供装置(未示出)。具体地,第二获取装置获取待提供给用户的一个或多个搜索结果;数据生成装置根据所述页面结构模板,生成所述搜索结果所对应的摘要数据;第二提供装置将所述摘要数据提供给该用户。
具体地,第二获取装置通过诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取待提供给用户的一个或多个搜索结果;或者通过JSP等动态网页技术,获取用户输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待提供给用户的一个或多个搜索结果。例如,用户在搜索引擎搜索栏中输入关键词“三国演义诸葛亮小说”,搜索引擎根据该关键词,在网页数据库中进行匹配查询,得到与关键词“三国演义诸葛亮小说”相匹配的一个或多个搜索结果,如“三国演义之诸葛亮百度文库”、“浅析《三国演义》小说与电视剧本对诸葛亮人生悲剧的描述之别(zt)”、“点评《三国演义中的诸葛亮-优秀小说评论区-铁血小说论坛”,则第二获取装置通过搜索引擎提供的应用程序接口(API)获取搜索引擎所获得的该等搜索结果,作为待提供给用户的一个或多个搜索结果。再如,用户在用户设备的搜索栏中输入关键词“水浒小说”,则第二获取装置通过JSP或ASP等动态网页技术,从用户设备获取该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个网站,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”、“水浒传小说在线阅读”,作为待提供给用户的搜索结果。
本领域技术人员应能理解上述获取待提供给用户的一个或多个搜索结果的方式仅为举例,其他现有的或今后可能出现的获取待提供给用户的一个或多个搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,数据生成装置根据所述页面结构模板,生成所述搜索结果所对应的摘要数据。例如,对于小说类型的页面结构模板,生成的摘要数据包括去除图片、广告链接等文本主题;对于新闻类型的页面结构模板,生成的摘要数据包括来自不同网站的对应搜索结果的主体内容的合并抽取。
第二提供装置将数据生成装置生成所述搜索结果所对应的摘要数据,通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供至所述用户,如该用户的用户设备,供用户浏览。
优选地,生成设备1还包括第三获取装置(未示出)、优先级确定装置(未示出)和第三提供装置(未示出)。具体地,第三获取装置获取与所述用户输入的查询序列相对应的一个或多个搜索结果;优先级确定装置根据与所述查询序列相对应的所述页面结构模板,确定所述搜索结果的优先级;第三提供装置根据所述优先级,将所述一个或多个目标搜索结果提供给所述用户。
具体地,第三获取装置获取与所述用户输入的查询序列相对应的一个或多个搜索结果,在此,第三获取装置获取与所述用户输入的查询序列相对应的一个或多个搜索结果的方式与第二获取装置获取待提供给用户的一个或多个搜索结果的方式相同或相似,为简明起见,在此不再赘述,并以引用的方式包含于此。
接着,优先级确定装置根据与所述查询序列相对应的所述页面结构模板,确定所述搜索结果的优先级。具体地,优先级确定装置首先通过诸如统计与所述查询序列相对应的一个或多个搜索结果所对应的所述页面结构模板,根据所述统计信息,确定与所述查询序列相对应的所述页面结构模板,然后根据确定的与所述查询序列相对应的所述页面结构模板与所述搜索结果的匹配度,确定所述搜索结果的优先级。在此,确定所述匹配度的方法包括但不限于以下至少任一项:1)根据所述页面结构模板与所述搜索结果的DOM树间的相似度;2)根据所述页面结构模板与所述搜索结果所具有的相同的页面标签的数目;3)根据所述页面结构模板与所述搜索结果所具有的相同XPath的节点的数目。在此,优先级确定装置确定与所述查询序列相对应的所述页面结构模板与所述搜索结果的匹配度的方法与聚类装置12对所述多个页面进行聚类处理的方法相同或相似,为简明起见,在此不再赘述,并以引用的方式包含于此。
例如,假设第三获取装置获取的与所述用户输入的查询序列“水浒小说”相对应的一个或多个搜索结果包括(1):“水浒传txt下载、水浒传全文阅读-《小说阅读网》”;(2)“水浒传小说在线阅读”;(3):“水浒传施耐庵综合文化读书频道新浪网”,假设优先级确定装置确定的与所述查询序列“水浒小说”相对应的所述页面结构模板包括小说类型的所述页面结构模板,则优先级确定装置确定的该小说类型的所述页面结构与搜索结果(1)、(2)与(3)的匹配度分别为0.9、0.95和0.8,则搜索结果(1)、(2)与(3)的优先级顺序为(2)、(1)、(3)。
本领域技术人员应能理解上述确定与所述查询序列相对应的所述页面结构模板的方式仅为举例,其他现有的或今后可能出现的确定与所述查询序列相对应的所述页面结构模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解上述确定所述搜索结果的优先级的方式仅为举例,其他现有的或今后可能出现的确定所述搜索结果的优先级的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
第三提供装置根据所述优先级,将所述一个或多个目标搜索结果,通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供给所述用户,如该用户的用户设备,供用户浏览。
图2示出根据本发明一个优选实施例的用于生成多个页面所对应的页面结构模板的设备示意图,其中,生成设备1包括页面获取装置21、聚类装置22、公共树确定装置23、模板确定装置24和模型确定装置25。具体地,页面获取装置21获取多个训练页面;聚类装置22根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;公共树确定装置23根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;模型确定装置25根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;模板确定装置24根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。在此,页面获取装置21、聚类装置22、公共树确定装置23与图1所对应实施例中的对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,模型确定装置25根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;
其中,所述预定训练规则包括以下至少任一项:
-对所述多个页面节点训练数据进行贝叶斯估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行最大似然估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行支持向量机模型分析,获得所述节点属性识别模型。
例如,假设已标注的多个页面节点训练数据包括页面节点的节点名称与节点属性如class、id、style及title及节点的语料标注等信息,则模型确定装置25根据该已标注的所述训练数据,通过对所述多个页面节点训练数据进行贝叶斯估计分析,或者通过对所述多个页面节点训练数据进行最大似然估计分析,或者对所述多个页面节点训练数据进行支持向量机模型分析,来获得所述节点属性识别模型。
本领域技术人员应能理解上述获得节点属性识别模型的方式仅为举例,其他现有的或今后可能出现的获得节点属性识别模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,模板确定装置24根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。例如,假设聚类装置22获得的所述页面簇为小说类型的所述页面簇,而公共树确定装置23确定的与该小说类型的所述页面簇相对应的所述页面公共树中节点包括标题标签<h1>-<h6>、文档主体标签<body>、段落标签<p>及链接标签<a>,则模板确定装置24根据模型确定装置25确定的所述节点属性识别模型,识别所述页面公共树中包括的节点如标题标签<h1>-<h6>、文档主体标签<body>、段落标签<p>及链接标签<a>所对应的节点属性信息,从而根据该节点属性信息,生成与所述页面簇相对应的页面结构模板。
在一个优选实施例中(参考图2),其中,模型确定装置25包括数据获取单元(未示出)、第一提取单元(未示出)和模型识别单元(未示出)。以下参考图2对该优选实施例进行描述:具体地,页面获取装置21获取多个训练页面;聚类装置22根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;公共树确定装置23根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;数据获取单元获取已标注的所述多个页面节点训练数据;第一提取单元提取所述多个页面节点训练数据的语义语料特征;模型识别单元根据所述语义语料特征,通过所述预定训练规则,以获得所述节点属性识别模型;模板确定装置24根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。其中,页面获取装置21、聚类装置22、公共树确定装置23和模板确定装置24与图2所对应的前述实施例中对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,数据获取单元通过诸如对多个页面对应的HTML文档解析,获取已标注的所述多个页面节点训练数据,如所述多个页面节点对应的已标注的词语、词性、网页来源、网页发表时间、作者、栏目名称、关键字、相同主题文章链接、标题、正文等信息。例如,数据获取单元通过对页面http://vip.book.sina.com.cn/book/index_179856.html对应的HTML文档进行解析,获得以下已标注的页面节点训练数据:
<p>本书是海明威的短篇小说集,收录了《老人与海》、《乞力马扎罗的雪》等11部海明威最脍炙人口的作品。《老人与海》讲述了古巴老渔夫桑提亚哥在连续八十四天没捕到鱼的情况下,终于独自钓上了一条大马林鱼,但这条鱼实在太大,把他的小船在海上拖了三天才筋疲力尽,被他杀死,并绑在小船的一边,在归程中一再遭到鲨鱼的袭击,回港时只剩下鱼头鱼尾和一条脊骨。这虽然是一个故事简单、篇幅不大的作品,但含义丰富,很多教师把它作为英雄主义教育的教材,推荐给广大学生,使之成为经久不衰的畅销书。
</p>
<div class=″bookintro″id=″box_bookintro″>
<p>本作品一经出版就得到了评论家们一致好评,使海明威获得了1953年度的普利策奖和1954年度的诺贝尔文学奖。本书所选的11部短篇小说也是他所有短篇小说中的精华。
</p>
</div>
<a class=″goexpand″id=″goexpand″onclick=″expand_intro.start();″>更多简介...</a>
本领域技术人员应能理解上述获取已标注的所述多个页面节点训练数据的方式仅为举例,其他现有的或今后可能出现的获取已标注的所述多个页面节点训练数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,第一提取单元提取所述多个页面节点训练数据的语义语料特征。例如,第一提取单元通过自然语言处理,提取数据获取单元获取的所述多个页面节点训练数据的语义语料特征,如所述多个页面节点训练数据的关键词、该关键词所对应的HTML标签的名称及标签属性等,接上例,则第一提取单元提取的所述多个页面节点训练数据的语义语料特征包括关键词“《老人与海》简介”对应标签为<p>,关键词“获奖”对应标签为<p>,标签<a>的属性为class、id等。
本领域技术人员应能理解上述提取所述多个页面节点训练数据的语义语料特征的方式仅为举例,其他现有的或今后可能出现的提取所述多个页面节点训练数据的语义语料特征的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
模型识别单元根据所述语义语料特征,通过所述预定训练规则,以获得所述节点属性识别模型。例如,模型识别单元根据第一提取单元提取的所述语义语料特征,通过对所述多个页面节点训练数据进行贝叶斯估计分析,通过或者对所述多个页面节点训练数据进行最大似然估计分析,来获得所述节点属性识别模型。
在一个优选实施例中(参考图2),其中,模板确定装置24包括第二提取单元(未示出)和模板确定单元(未示出)。以下参考图2对该优选实施例进行描述:具体地,页面获取装置21获取多个训练页面;聚类装置22根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;公共树确定装置23根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;模型确定装置25根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;第二提取单元提取所述页面公共树中节点的节点语义语料特征;模板确定单元根据所述节点属性识别模型,基于所述节点语义语料特征,确定所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。其中,页面获取装置21、聚类装置22、公共树确定装置23和模型确定装置25与图2所对应的前述实施例中对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,第二提取单元提取所述页面公共树中节点的节点语义语料特征,在此,第二提取单元提取所述页面公共树中节点的节点语义语料特征的方法与第一提取单元提取所述多个页面节点训练数据的语义语料特征的方法相同或类似,为简明起见,此处不再赘述,并通过引用的方式包含于此。
接着,模板确定单元根据所述节点属性识别模型,基于所述节点语义语料特征,确定所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。例如,假设第二提取单元提取的所述页面公共树中节点的节点语义语料特征包括所述页面公共树的节点的节点名称、节点属性及对应节点的语义关键词等信息,而模型确定装置25确定的所述节点属性识别模型中包括节点名称、节点属性及对应节点的语义关键词的对应关系,则模板确定单元基于第二提取单元提取的所述节点语义语料特征,根据所述节点属性识别模型,查询得到所述页面公共树中节点的节点属性信息,从而根据该节点属性信息,生成与所述页面簇相对应的页面结构模板。
图3示出根据本发明另一个优选实施例的用于生成多个页面所对应的页面结构模板的设备示意图,其中,生成设备1包括页面获取装置31、聚类装置32、公共树确定装置33、模板确定装置34、第一获取装置36、抽取装置37和第一提供装置38。具体地,页面获取装置31获取多个训练页面;聚类装置32根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;公共树确定装置33根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;模板确定装置34识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板;第一获取装置36获取待提供给用户的目标页面;抽取装置37根据所述页面结构模板,抽取所述目标页面的页面优选信息;第一提供装置38将所述页面优选信息提供给该用户。在此,页面获取装置31、聚类装置32、公共树确定装置33、模板确定装置34与图1所对应实施例中的对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,第一获取装置36获取待提供给用户的目标页面,在此,第一获取装置36获取待提供给用户的目标页面的方式与图1中第二获取装置获取待提供给用户的一个或多个搜索结果的方式相同或相似,为简明起见,在此不再赘述,并以引用的方式包含于此。
抽取装置37根据所述页面结构模板,抽取所述目标页面的页面优选信息。例如,假设第一获取装置36获取的所述目标页面包括与用户输入的查询序列“水浒小说”相对应的搜索结果如“水浒传施耐庵综合文化读书频道新浪网”,而模板确定装置34确定的小说类型的所述页面结构模板中的页面优选信息包括抽取小说页面的正文、小说作者、小说目录、小说章节链接,则抽取装置37根据模板确定装置34确定的该小说类型的所述页面结构模板,抽取的所述目标页面“水浒传施耐庵综合文化读书频道新浪网”的页面优选信息包括《水浒传》正文、作者施耐庵、《水浒传》目录、《水浒传》章节链接。
本领域技术人员应能理解上述抽取所述目标页面的页面优选信息的方式仅为举例,其他现有的或今后可能出现的抽取所述目标页面的页面优选信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,第一提供装置38将所述页面优选信息,通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供至所述用户,如该用户的用户设备,供用户浏览。
优选地,生成设备1还包括优选确定装置(未示出),具体地,优选确定装置根据所述目标页面,确定与所述目标页面相对应的优选的所述页面结构模板;抽取装置37根据所述优选的所述页面结构模板,抽取所述目标页面的所述页面优选信息。
具体地,优选确定装置根据所述目标页面,根据与所述目标页面属于同一站点的参考页面对应的参考页面结构模板,将该参考页面结构模板作为与所述目标页面相对应的优选的所述页面结构模板;或者,根据与所述目标页面属于同一建站工具如discuz、phpwind建立的参考页面对应的参考页面结构模板,将该参考页面结构模板作为与所述目标页面相对应的优选的所述页面结构模板。例如,假设第一获取装置36获取的所述目标页面包括与用户输入的查询序列“水浒小说”相对应的搜索结果如“水浒传施耐庵综合文化读书频道新浪网”,该目标页面与前述页面V和VI属于来自同一站点sina且同属小说类型的页面,则优选确定装置根据前述页面V和VI对应的小说类型的页面结构模板,其包括小说名称、小说作者、内容简介、更新时间、小说目录、章节链接等,确定的与该目标页面相对应的优选的所述页面结构模板为上述小说类型的页面结构模板。
本领域技术人员应能理解上述确定所述优选的所述页面结构模板的方式仅为举例,其他现有的或今后可能出现的确定所述优选的所述页面结构模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,抽取装置37根据所述优选的所述页面结构模板,抽取所述目标页面的所述页面优选信息,例如,接上例,抽取装置37根据优选确定装置确定的所述优选的所述页面结构模板,抽取的所述目标页面“水浒传施耐庵综合文化读书频道新浪网”的页面优选信息包括“小说名称:《水浒传》”、“小说作者:施耐庵”、内容简介、更新时间“2004-08-11 00:00:00”、《水浒传》目录、《水浒传》章节链接。
在另一优选实施例中,可将上述生成多个页面所对应的页面结构模板的生成设备1,与现有的搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎包括如Google公司的Google搜索引擎、百度公司的baidu搜索引擎等。
在另一优选实施例中,可将上述生成多个页面所对应的页面结构模板的生成设备1,与现有的搜索引擎插件相结合,构成一种新的搜索引擎插件,现有的搜索引擎插件包括如Google公司的Google ToolBar、百度公司的百度搜霸、微软公司的MSN ToolBar等。
图4示出根据本发明另一个方面的用于生成多个页面所对应的页面结构模板的方法流程图。
具体地,在步骤S401中,生成设备1获取多个训练页面;在步骤S402中,生成设备1根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;在步骤S403中,生成设备1根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;在步骤S404中,生成设备1识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。在此,生成设备1包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述生成设备1仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,在步骤S401中,生成设备1通过调用诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取多个训练页面;或者通过诸如网络爬虫(web crawler)、聚焦爬虫等,按照一定的抓取策略,抓取和下载来自同一站点互联网网页,或来自同一站点与某一特定主题内容相关的网页,以此作为训练页面;或者通过用户的访问日志获取多个训练页面,在此,所述多个训练页面包括:1)源于同一个网站的网页,如http://www.sina.com.cn/,http://news.sina.com.cn/等;2)基于同一第三方开发工具建立的网站,如基于如Discuz建立的论坛、SNS等。例如,假设希望获取来自同一站点sina的新闻网页时,在步骤S401中,生成设备1通过网络爬虫抓取到国内新闻http://news.sina.com.cn/china/、深度报道http://news.sina.com.cn/report/、国际新闻http://news.sina.com.cn/world/等相关新闻网页,作为训练页面。又如,假设希望获取来自同一站点sina的与某一特定主题内容如文学名著网页时,在步骤S401中,生成设备1通过聚焦爬虫抓取到sina/小说/世界名著下的《基督山伯爵》http://vip.book.sina.com.cn/book/index_81300.html网页、《海明威短片小说集》http://vip.book.sina.com.cn/book/index_179856.html等相关网页,作为训练页面。
本领域技术人员应能理解上述获取多个训练页面的方式仅为举例,其他现有的或今后可能出现的获取多个训练页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S402中,生成设备1根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面,在此,所述页面结构特征包括但不限于以下至少任一项:1)所述训练页面的超文本结构特征,如HTML标签的顺序和属性;2)所述训练页面的视觉信息特征;3)所述训练页面的DOM树结构。例如,假设在步骤S401中,生成设备1获取到的所述多个训练页面包括:
I:sina新闻首页http://news.sina.com.cn/,
II:sina国内新闻http://news.sina.com.cn/china/,
III:sina国际新闻http://news.sina.com.cn/world/,
IV:sina体育新闻http://sports.sina.com.cn/,
V:sina/读书/小说馆/世界名著/《基督山伯爵》http://vip.book.sina.com.cn/book/index_81300.html,
VI:sina/读书/图书连载/小说/乡土小说/《平凡的世界》http://vip.book.sina.com.cn/book/index_86819.html。
在步骤S402中,生成设备1首先根据其在步骤S401中获取得到的所述多个训练页面的HTML标签,提取所述多个训练页面的所述页面结构特征;或者基于分析正则表达式匹配方法所述训练页面的CSS样式,提取所述多个训练页面的所述页面视觉结构特征,如页面导航块、主体内容块等。例如,接上例,在步骤S402中,生成设备1通过html parser对其在步骤S401中获取的训练页面I至VI进行解析,来获取训练页面I至VI的HTML标签顺序和属性等的HTML结构特征。又如,还接上例,在步骤S402中,生成设备1通过html parser对其在步骤S401中获取的训练页面I至VI进行解析,将HTML标签转化为对应DOM树的节点,删除每棵树中节点名字和属性都相同的节点,从而生成各自的简单DOM树,从而获得训练页面I至VI的DOM树结构。还如,仍接上例,在步骤S402中,生成设备1通过分析其在步骤S401中获取的训练页面I至VI的CSS样式,来获取训练页面I至VI的页面视觉结构特征。
本领域技术人员应能理解上述提取所述多个训练页面的所述页面结构特征的方式仅为举例,其他现有的或今后可能出现的提取所述多个训练页面的所述页面结构特征的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S402中,生成设备1根据提取的所述页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面,在此,对所述多个训练页面进行聚类处理的方式包括但不限于以下至少任一项:
1)根据所述训练页面具有的HTML标签顺序和属性均相同的HTML标签数目,对所述多个训练页面进行聚类处理。例如,假设在步骤S402中,生成设备1对训练页面I至VI的提取的所述页面结构特征包括训练页面I至IV具有的HTML标签顺序和属性均相同的HTML标签数目为15,超过预定阈值如10,训练页面V和VI具有的HTML标签顺序和属性均相同的HTML标签数目为12,超过预定阈值如10,训练页面I至IV中任一页面与训练页面V和VI中任一页面之间HTML标签顺序和属性均相同的HTML标签数目为0,低于预定阈值如10,则在步骤S402中,生成设备1对训练页面I至IV进行聚类,归入同一所述页面簇A,对训练页面V和VI进行聚类,归入另一所述页面簇B。
2)根据所述训练页面所对应的DOM树中是否具有相同XPath的节点,对所述多个训练页面进行聚类处理。例如,假设在步骤S402中,生成设备1对训练页面I至VI的提取的所述页面结构特征包括如训练页面I至IV所对应的DOM树中具有相同XPath的节点,训练页面V和VI所对应的DOM树中具有相同XPath的节点,训练页面I至VI中任一页面所对应的DOM树与训练页面V和VI中任一页面所对应的DOM树中无相同XPath的节点,则在步骤S402中,生成设备1对训练页面I至VI进行聚类,归入同一所述页面簇A,如新闻式页面簇,该新闻式页面簇通常包括栏目、图片、动画及若干标题链接,对训练页面V和VI进行聚类,归入另一所述页面簇B,如正文式页面簇,该正文式页面簇通常只包含文章具体内容及章节目录及翻页链接。
3)根据所述训练页面所对应的文档对象模型之间的相似度,对所述多个训练页面进行聚类处理。具体地,在步骤S402中,生成设备1可通过Wuu Yang于1991年简单树匹配算法来计算所述训练页面所对应的文档对象模型之间的相似度,然后根据所述相似度,对所述多个训练页面进行聚类处理。例如,在步骤S402中,生成设备1根据简单树匹配算法,即通过动态规划计算两颗树的最大匹配节点的个数,进而得到两颗树之间的相似度,假设在步骤S402中,生成设备1根据简单树匹配算法,得到训练页面I至VI所对应的DOM树之间的最大匹配节点的个数为8,训练页面V和VI所对应的DOM树之间的最大匹配节点的个数为6,训练页面I至VI中任一页面所对应的DOM树与训练页面V和VI中任一页面所对应的DOM树之间的最大匹配节点的个数为0,根据最大匹配节点数目计算相似度,如根据公式
进行计算,其中,TreeMatching(T1,T2)表示两棵树间的最大匹配节点的个数,|T1|与|T2|分别表示两棵树的节点的个数,假设经计算,在步骤S402中,生成设备1得到的训练页面I至VI所对应的DOM树间的相似度为0.85,训练页面V和VI所对应的DOM树间的相似度为0.75,超过预定阈值0.6,则在步骤S402中,生成设备1对训练页面I至V进行聚类,归入同一所述页面簇A,对训练页面V和VI进行聚类,归入另一所述页面簇B。又如,在步骤S402中,生成设备1还可首先比较两棵树所对应的根节点是否匹配,若不匹配,则两棵树的最大匹配点数为零,则说明两棵树不相似,若匹配,接着再比较两棵树的叶子节点的两个属性如节点名称和节点的属性特征是否相同,若节点的节点名称和节点的属性特征均相同,则两个节点相同,若两个节点的任何一个属性不相同,则该两个节点不相同。
本领域技术人员应能理解上述对所述多个训练页面进行聚类处理的方式仅为举例,其他现有的或今后可能出现的对所述多个训练页面进行聚类处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解上述获得页面簇的方式仅为举例,其他现有的或今后可能出现的获得页面簇的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,在步骤S402中,生成设备1还可根据预定的初始页面结构模板,从所述训练页面中提取优选页面结构特征;然后根据所述训练页面的优选页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面。例如,在步骤S402中,生成设备1还可根据预定的初始页面结构模板,从所述训练页面中提取优选页面结构特征,如对于小说类型页面,对页面中的文本部分、章节目录感兴趣,而对页面中的图片、动画、广告等部分不感兴趣,则在步骤S402中,生成设备1从小说类型的训练页面中提取的优选页面结构特征包括页面中的<body>标签对应的文本内容、<a>标签对应的链接;又如,对于摘要搜索,可能对搜索结果中的摘要部分感兴趣,而对页面中的链接、图片、广告等部分不感兴趣,则在步骤S402中,生成设备1从搜索结果对应的页面中提取的优选页面结构特征包括页面中的<body>标签对应的文本内容、<p>标签对应的段落描述;再如,对于垂直搜索中,可能对搜索结果对应页面中的结构化数据如页面中包括的多条同类信息如手机商品的链接及概述,则在步骤S402中,生成设备1从搜索结果对应的页面中提取的优选页面结构特征包括页面中的<a>标签对应的链接、<p>标签对应的段落描述等。
本领域技术人员应能理解上述从所述训练页面中提取优选页面结构特征的方式仅为举例,其他现有的或今后可能出现的从所述训练页面中提取优选页面结构特征的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S402中,生成设备1根据所述训练页面的优选页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面。
接着,在步骤S403中,生成设备1根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面。具体地,在步骤S403中,生成设备1首先通过所述页面簇中所包括的所述训练页面,确定与所述页面簇相对应的具有公共节点路径的DOM树节点,然后基于该具有公共节点路径的DOM树节点,生成所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面。例如,在步骤S403中,生成设备1分别解析其在步骤S402中获得的所述页面簇A和所述页面簇B所包括的所述训练页面,得到所述训练页面I至VI所对应的DOM树中节点名称和节点XPath均相同的节点A1-An,所述训练页面V和VI所对应的DOM树中节点名称和节点XPath均相同的节点B1-Bn,在步骤S403中,生成设备1分别根据该节点名称和节点XPath均相同的节点A1-An和B1-Bn,生成相应DOM-A及DOM-B,以此作为与所述页面簇A相对应的页面公共树如Common-DOM-A,与所述页面簇B相对应的页面公共树如Common-DOM-B。
本领域技术人员应能理解上述确定所述公共树的方式仅为举例,其他现有的或今后可能出现的确定所述公共树的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S404中,生成设备1识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。具体地,在步骤S404中,生成设备1通过根据对所述页面公共树所对应的所述页面簇中包括的所述训练页面的节点进行统计分析,得到所述页面公共树中节点的节点属性信息,从而获得与所述页面簇相对应的页面结构模板。接上例,在步骤S404中,生成设备1对其在步骤S403中确定的所述页面公共树Common-DOM-A对应的所述页面簇A中包括的所述训练页面I至VI的节点所对应的节点属性进行统计分析,如统计所述训练页面I至VI中包括的节点所具有的节点属性信息,得到所述页面公共树Common-DOM-A中所包括的节点A1-An的节点属性信息,从而根据该节点属性信息,获得与所述页面簇A相对应的页面结构模板。又如,在步骤S404中,生成设备1还可根据其在步骤S403中确定的所述页面公共树Common-DOM-A中包括的节点A1-An,在节点属性信息库中进行匹配查询,以获得所述页面公共树Common-DOM-A中包括的节点A1-An的节点属性信息,从而根据该节点属性信息,获得与所述页面簇A相对应的页面结构模板。在此,所述节点属性信息库可位于生成设备1中,还可位于与生成设备1通过网络相连的设备中,如网络服务器。
本领域技术人员应能理解上述识别所述页面公共树中节点的节点属性信息的方式仅为举例,其他现有的或今后可能出现的识别所述页面公共树中节点的节点属性信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
生成设备1的各个步骤之间是持续不断工作的。具体地,在步骤S401中,生成设备1持续获取多个训练页面;在步骤S402中,生成设备1持续根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;在步骤S403中,生成设备1持续根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;在步骤S404中,生成设备1持续识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。在此,本领域技术人员应理解“持续”是指生成设备1的各步骤分别不断进行训练页面的获取、页面簇的获得、页面公共树的确定及页面结构模板的确定,直至该提供设备1在较长时间内停止训练页面的获取。
优选地,生成设备1还包括步骤S409(未示出)和步骤S410(未示出)。具体地,在步骤S409中,生成设备1检测是否满足更新所述页面结构模板的更新触发条件;当满足所述更新触发条件时,在步骤S410中,生成设备1更新所述页面结构模板;其中,所述更新触发条件包括以下至少任一项:
-所述训练页面的页面内容结构特征发生变化;
-所述训练页面的页面分块特征发生变化;
-所述训练页面的文档对象模型发生变化;
-所述训练页面的文档对象模型节点路径发生变化。
例如,当所述更新触发条件包括所述训练页面的页面内容结构特征发生变化,在步骤S409中,生成设备1检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面中的页面主体内容部分的在所述训练页面中的页面位置发生变化,如从左侧区域移至右侧区域,或者从中间移至顶部,或者所述训练页面中增加了新的页面元素如图片、动画等,则在步骤S409中,生成设备1检测满足更新所述页面结构模板的更新触发条件。又如,当所述更新触发条件包括所述训练页面的页面分块特征发生变化,在步骤S409中,生成设备1检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面的页面分块特征如视觉特征、HTML标签分块、及相应页面分块的块信息如块位置特征、字体格式信息、块大小特征及统计信息(如图片数、超链接数、文本长度、段落位置、段落数、表格数等)发生变化,则在步骤S409中,生成设备1满足更新所述页面结构模板的更新触发条件。还如,当所述更新触发条件包括所述训练页面的文档对象模型发生变化,在步骤S409中,生成设备1检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面的页面HTML标签的位置、数量、种类等发生变化时,在步骤S409中,生成设备1检测满足更新所述页面结构模板的更新触发条件。再如,当所述更新触发条件包括所述训练页面的文档对象模型节点路径发生变化,在步骤S409中,生成设备1检测是否满足更新所述页面结构模板的更新触发条件时,如所述训练页面的HTML标签的位置、HTML标签之间的引用关系等发生变化时,在步骤S409中,生成设备1检测满足更新所述页面结构模板的更新触发条件。
本领域技术人员应能理解,在步骤S409中,生成设备1还可以根据上述更新触发条件的任意组合,来检测是否满足更新所述页面结构模板的更新触发条件。
本领域技术人员应能理解上述更新触发条件仅为举例,其他现有的或今后可能出现的更新触发条件如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,当满足所述更新触发条件时,在步骤S410中,生成设备1更新所述页面结构模板。例如,当满足所述训练页面的页面内容结构特征发生变化的所述更新触发条件时,如所述训练页面中的页面主体内容部分从左侧区域更改为右侧区域,则在步骤S410中,生成设备1更新所述页面结构模板,如更新所述页面结构模板中与页面主体内容部分对应的DOM树节点的位置。又如,当满足所述训练页面的页面分块特征发生变化的所述更新触发条件时,如所述训练页面的页面分块特征如视觉特征如字体颜色、字体大小、字体类型等发生变化,在步骤S410中,生成设备1自动更新所述页面结构模板。还如,当满足所述训练页面的文档对象模型发生变化时,如所述训练页面对应的HTML标签的位置、属性、名称发生变化,则在步骤S410中,生成设备1更新所述页面结构模板,如更新所述页面结构模板对应的DOM树结构。再如,当满足所述训练页面的文档对象模型节点路径发生变化时,如所述训练页面的HTML标签的位置、HTML标签之间的引用关系发生变化,则更新装置更新所述页面结构模板,如自动更新所述页面结构模板对应的DOM树结构。
优选地,生成设备1还包括步骤S411(未示出)、步骤S412(未示出)和步骤S413(未示出)。具体地,在步骤S411中,生成设备1获取待提供给用户的一个或多个搜索结果;在步骤S412中,生成设备1根据所述页面结构模板,生成所述搜索结果所对应的摘要数据;在步骤S413中,生成设备1将所述摘要数据提供给该用户。
具体地,在步骤S411中,生成设备1通过诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取待提供给用户的一个或多个搜索结果;或者通过JSP等动态网页技术,获取用户输入的查询序列,再将该查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该查询序列相对应的搜索结果,以作为待提供给用户的一个或多个搜索结果。例如,用户在搜索引擎搜索栏中输入关键词“三国演义诸葛亮小说”,搜索引擎根据该关键词,在网页数据库中进行匹配查询,得到与关键词“三国演义诸葛亮小说”相匹配的一个或多个搜索结果,如“三国演义之诸葛亮百度文库”、“浅析《三国演义》小说与电视剧本对诸葛亮人生悲剧的描述之别(zt)”、“点评《三国演义中的诸葛亮-优秀小说评论区-铁血小说论坛”,则在步骤S411中,生成设备1通过搜索引擎提供的应用程序接口(API)获取搜索引擎所获得的该等搜索结果,作为待提供给用户的一个或多个搜索结果。再如,用户在用户设备的搜索栏中输入关键词“水浒小说”,在步骤S411中,生成设备1通过JSP或ASP等动态网页技术,从用户设备获取该用户输入的查询序列,并基于该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据关键词“水浒小说”匹配查询得到的与关键词“水浒小说”相匹配的一个或多个网站,如“水浒传txt下载、水浒传全文阅读-《小说阅读网》”、“水浒传小说在线阅读”,作为待提供给用户的搜索结果。
本领域技术人员应能理解上述获取待提供给用户的一个或多个搜索结果的方式仅为举例,其他现有的或今后可能出现的获取待提供给用户的一个或多个搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S412中,生成设备1根据所述页面结构模板,生成所述搜索结果所对应的摘要数据。例如,对于小说类型的页面结构模板,生成的摘要数据包括去除图片、广告链接等文本主题;对于新闻类型的页面结构模板,生成的摘要数据包括来自不同网站的对应搜索结果的主体内容的合并抽取。
在步骤S413中,生成设备1将数据生成装置生成所述搜索结果所对应的摘要数据,通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供至所述用户,如该用户的用户设备,供用户浏览。
优选地,生成设备1还包括步骤S414(未示出)、步骤S415(未示出)和步骤S416(未示出)。具体地,在步骤S414中,生成设备1获取与所述用户输入的查询序列相对应的一个或多个搜索结果;在步骤S415中,生成设备1根据与所述查询序列相对应的所述页面结构模板,确定所述搜索结果的优先级;在步骤S416中,生成设备1根据所述优先级,将所述一个或多个目标搜索结果提供给所述用户。
具体地,在步骤S414中,生成设备1获取与所述用户输入的查询序列相对应的一个或多个搜索结果,在此,在步骤S414中,生成设备1获取与所述用户输入的查询序列相对应的一个或多个搜索结果的方式与在步骤S411中,生成设备1获取待提供给用户的一个或多个搜索结果的方式相同或相似,为简明起见,在此不再赘述,并以引用的方式包含于此。
接着,在步骤S415中,生成设备1根据与所述查询序列相对应的所述页面结构模板,确定所述搜索结果的优先级。具体地,在步骤S415中,生成设备1首先通过诸如统计与所述查询序列相对应的一个或多个搜索结果所对应的所述页面结构模板,根据所述统计信息,确定与所述查询序列相对应的所述页面结构模板,然后根据确定的与所述查询序列相对应的所述页面结构模板与所述搜索结果的匹配度,确定所述搜索结果的优先级。在此,确定所述匹配度的方法包括但不限于以下至少任一项:1)根据所述页面结构模板与所述搜索结果的DOM树间的相似度;2)根据所述页面结构模板与所述搜索结果所具有的相同的页面标签的数目;3)根据所述页面结构模板与所述搜索结果所具有的相同XPath的节点的数目。在此,在步骤S415中,生成设备1确定与所述查询序列相对应的所述页面结构模板与所述搜索结果的匹配度的方法与在步骤S402中,生成设备1对所述多个页面进行聚类处理的方法相同或相似,为简明起见,在此不再赘述,并以引用的方式包含于此。
例如,假设在步骤S414中,生成设备1获取的与所述用户输入的查询序列“水浒小说”相对应的一个或多个搜索结果包括(1):“水浒传txt下载、水浒传全文阅读-《小说阅读网》”;(2)“水浒传小说在线阅读”;(3):“水浒传施耐庵综合文化读书频道新浪网”,假设在步骤S415中,生成设备1确定的与所述查询序列“水浒小说”相对应的所述页面结构模板包括小说类型的所述页面结构模板,则在步骤S415中,生成设备1确定的该小说类型的所述页面结构与搜索结果(1)、(2)与(3)的匹配度分别为0.9、0.95和0.8,则搜索结果(1)、(2)与(3)的优先级顺序为(2)、(1)、(3)。
本领域技术人员应能理解上述确定与所述查询序列相对应的所述页面结构模板的方式仅为举例,其他现有的或今后可能出现的确定与所述查询序列相对应的所述页面结构模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员应能理解上述确定所述搜索结果的优先级的方式仅为举例,其他现有的或今后可能出现的确定所述搜索结果的优先级的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S416中,生成设备1根据所述优先级,将所述一个或多个目标搜索结果,通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供给所述用户,如该用户的用户设备,供用户浏览。
图5示出根据本发明一个优选实施例的用于生成多个页面所对应的页面结构模板的方法流程图。
具体地,在步骤S501中,生成设备1获取多个训练页面;在步骤S502中,生成设备1根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;在步骤S503中,生成设备1根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;在步骤S505中,生成设备1根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;在步骤S504中,生成设备1根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。在此,步骤S501、步骤S502、步骤S503与图3所对应实施例中的对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S505中,生成设备1根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;
其中,所述预定训练规则包括以下至少任一项:
-对所述多个页面节点训练数据进行贝叶斯估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行最大似然估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行支持向量机模型分析,获得所述节点属性识别模型。
例如,假设已标注的多个页面节点训练数据包括页面节点的节点名称与节点属性如class、id、style及title及节点的语料标注等信息,则在步骤S505中,生成设备1根据该已标注的所述训练数据,通过对所述多个页面节点训练数据进行贝叶斯估计分析,或者通过对所述多个页面节点训练数据进行最大似然估计分析,或者对所述多个页面节点训练数据进行支持向量机模型分析,来获得所述节点属性识别模型。
本领域技术人员应能理解上述获得节点属性识别模型的方式仅为举例,其他现有的或今后可能出现的获得节点属性识别模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S504中,生成设备1根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。例如,假设在步骤S502中,生成设备1获得的所述页面簇为小说类型的所述页面簇,而在步骤S503中,生成设备1确定的与该小说类型的所述页面簇相对应的所述页面公共树中节点包括标题标签<h1>-<h6>、文档主体标签<body>、段落标签<p>及链接标签<a>,则在步骤S504中,生成设备1根据其在步骤S505中确定的所述节点属性识别模型,识别所述页面公共树中包括的节点如标题标签<h1>-<h6>、文档主体标签<body>、段落标签<p>及链接标签<a>所对应的节点属性信息,从而根据该节点属性信息,生成与所述页面簇相对应的页面结构模板。
在一个优选实施例中(参考图5),其中,步骤S505包括步骤S5051(未示出)、步骤S5052(未示出)和步骤S5053(未示出)。以下参考图5对该优选实施例进行描述:具体地,在步骤S501中,生成设备1获取多个训练页面;在步骤S502中,生成设备1根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;在步骤S503中,生成设备1根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;在步骤S5051中,生成设备1获取已标注的所述多个页面节点训练数据;在步骤S5052中,生成设备1第一提取单元提取所述多个页面节点训练数据的语义语料特征;在步骤S5053中,生成设备1模型识别单元根据所述语义语料特征,通过所述预定训练规则,以获得所述节点属性识别模型;在步骤S504中,生成设备1根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。其中,步骤S501、步骤S502、步骤S503和步骤S504与图5所对应的前述实施例中对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S5051中,生成设备1通过诸如对多个页面对应的HTML文档解析,获取已标注的所述多个页面节点训练数据,如所述多个页面节点对应的已标注的词语、词性、网页来源、网页发表时间、作者、栏目名称、关键字、相同主题文章链接、标题、正文等信息。例如,在步骤S5051中,生成设备1通过对页面http://vip.book.sina.com.cn/book/index_179856.html对应的HTML文档进行解析,获得以下已标注的页面节点训练数据:
<p>本书是海明威的短篇小说集,收录了《老人与海》、《乞力马扎罗的雪》等11部海明威最脍炙人口的作品。《老人与海》讲述了古巴老渔夫桑提亚哥在连续八十四天没捕到鱼的情况下,终于独自钓上了一条大马林鱼,但这条鱼实在太大,把他的小船在海上拖了三天才筋疲力尽,被他杀死,并绑在小船的一边,在归程中一再遭到鲨鱼的袭击,回港时只剩下鱼头鱼尾和一条脊骨。这虽然是一个故事简单、篇幅不大的作品,但含义丰富,很多教师把它作为英雄主义教育的教材,推荐给广大学生,使之成为经久不衰的畅销书。
</p>
<div class=″bookintro″id=″box_bookintro″>
<p>本作品一经出版就得到了评论家们一致好评,使海明威获得了1953年度的普利策奖和1954年度的诺贝尔文学奖。本书所选的11部短篇小说也是他所有短篇小说中的精华。
</p>
</div>
<a class=″goexpan d″id=″goexpand″onclick=″expand_intro.start();″>更多简介...</a>
本领域技术人员应能理解上述获取已标注的所述多个页面节点训练数据的方式仅为举例,其他现有的或今后可能出现的获取已标注的所述多个页面节点训练数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S5052中,生成设备1提取所述多个页面节点训练数据的语义语料特征。例如,在步骤S5052中,生成设备1通过自然语言处理,提取其在步骤S5051中获取的所述多个页面节点训练数据的语义语料特征,如所述多个页面节点训练数据的关键词、该关键词所对应的HTML标签的名称及标签属性等,接上例,则在步骤S5052中,生成设备1提取的所述多个页面节点训练数据的语义语料特征包括关键词“《老人与海》简介”对应标签为<p>,关键词“获奖”对应标签为<p>,标签<a>的属性为class、id等。
本领域技术人员应能理解上述提取所述多个页面节点训练数据的语义语料特征的方式仅为举例,其他现有的或今后可能出现的提取所述多个页面节点训练数据的语义语料特征的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S5053中,生成设备1根据所述语义语料特征,通过所述预定训练规则,以获得所述节点属性识别模型。例如,在步骤S5053中,生成设备1根据其在步骤S5052中提取的所述语义语料特征,通过对所述多个页面节点训练数据进行贝叶斯估计分析,通过或者对所述多个页面节点训练数据进行最大似然估计分析,来获得所述节点属性识别模型。
在一个优选实施例中(参考图5),其中,步骤S504包括步骤S5041(未示出)和步骤S5042(未示出)。以下参考图5对该优选实施例进行描述:具体地,在步骤S501中,生成设备1获取多个训练页面;在步骤S502中,生成设备1根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;在步骤S503中,生成设备1根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;在步骤S505中,生成设备1根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;在步骤S5041中,生成设备1提取所述页面公共树中节点的节点语义语料特征;在步骤S5042中,生成设备1根据所述节点属性识别模型,基于所述节点语义语料特征,确定所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。其中,步骤S501、步骤S502、步骤S503和步骤S505与图5所对应的前述实施例中对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S5041中,生成设备1提取所述页面公共树中节点的节点语义语料特征,在此,在步骤S5041中,生成设备1提取所述页面公共树中节点的节点语义语料特征的方法与其在步骤S5052提取所述多个页面节点训练数据的语义语料特征的方法相同或类似,为简明起见,此处不再赘述,并通过引用的方式包含于此。
接着,在步骤S5042中,生成设备1根据所述节点属性识别模型,基于所述节点语义语料特征,确定所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。例如,假设在步骤S5041中,生成设备1提取的所述页面公共树中节点的节点语义语料特征包括所述页面公共树的节点的节点名称、节点属性及对应节点的语义关键词等信息,而在步骤S505中,生成设备1确定的所述节点属性识别模型中包括节点名称、节点属性及对应节点的语义关键词的对应关系,则在步骤S5042中,生成设备1基于第二提取单元提取的所述节点语义语料特征,根据所述节点属性识别模型,查询得到所述页面公共树中节点的节点属性信息,从而根据该节点属性信息,生成与所述页面簇相对应的页面结构模板。
图6示出根据本发明另一个优选实施例的用于生成多个页面所对应的页面结构模板的方法流程图。
具体地,在步骤S601中,生成设备1获取多个训练页面;在步骤S602中,生成设备1根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;在步骤S603中,生成设备1根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;在步骤S604中,生成设备1识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板;在步骤S606中,生成设备1获取待提供给用户的目标页面;在步骤S607中,生成设备1根据所述页面结构模板,抽取所述目标页面的页面优选信息;在步骤S608中,生成设备1将所述页面优选信息提供给该用户。在此,步骤S601、步骤S602、步骤S603、步骤S604与图4所对应实施例中的对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S601中,生成设备1获取待提供给用户的目标页面,在此,在步骤S601中,生成设备1获取待提供给用户的目标页面的方式与图4中在步骤S411中,生成设备1获取待提供给用户的一个或多个搜索结果的方式相同或相似,为简明起见,在此不再赘述,并以引用的方式包含于此。
在步骤S607中,生成设备1根据所述页面结构模板,抽取所述目标页面的页面优选信息。例如,假设在步骤S606中,生成设备1获取的所述目标页面包括与用户输入的查询序列“水浒小说”相对应的搜索结果如“水浒传施耐庵综合文化读书频道新浪网”,而在步骤S604中,生成设备1确定的小说类型的所述页面结构模板中的页面优选信息包括抽取小说页面的正文、小说作者、小说目录、小说章节链接,则在步骤S607中,生成设备1根据其在步骤S604中确定的该小说类型的所述页面结构模板,抽取的所述目标页面“水浒传施耐庵综合文化读书频道新浪网”的页面优选信息包括《水浒传》正文、作者施耐庵、《水浒传》目录、《水浒传》章节链接。
本领域技术人员应能理解上述抽取所述目标页面的页面优选信息的方式仅为举例,其他现有的或今后可能出现的抽取所述目标页面的页面优选信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S608中,生成设备1将所述页面优选信息,通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供至所述用户,如该用户的用户设备,供用户浏览。
优选地,生成设备1还包括步骤S617(未示出),具体地,在步骤S617中,生成设备1根据所述目标页面,确定与所述目标页面相对应的优选的所述页面结构模板;在步骤S607中,生成设备1根据所述优选的所述页面结构模板,抽取所述目标页面的所述页面优选信息。
具体地,在步骤S617中,生成设备1根据所述目标页面,根据与所述目标页面属于同一站点的参考页面对应的参考页面结构模板,将该参考页面结构模板作为与所述目标页面相对应的优选的所述页面结构模板;或者,根据与所述目标页面属于同一建站工具如discuz、phpwind建立的参考页面对应的参考页面结构模板,将该参考页面结构模板作为与所述目标页面相对应的优选的所述页面结构模板。例如,假设在步骤S606中,生成设备1获取的所述目标页面包括与用户输入的查询序列“水浒小说”相对应的搜索结果如“水浒传施耐庵综合文化读书频道新浪网”,该目标页面与前述页面V和VI属于来自同一站点sina且同属小说类型的页面,则在步骤S617中,生成设备1根据前述页面V和VI对应的小说类型的页面结构模板,其包括小说名称、小说作者、内容简介、更新时间、小说目录、章节链接等,确定的与该目标页面相对应的优选的所述页面结构模板为上述小说类型的页面结构模板。
本领域技术人员应能理解上述确定所述优选的所述页面结构模板的方式仅为举例,其他现有的或今后可能出现的确定所述优选的所述页面结构模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S607中,生成设备1根据所述优选的所述页面结构模板,抽取所述目标页面的所述页面优选信息,例如,接上例,在步骤S607中,生成设备1根据其在步骤S617中确定的所述优选的所述页面结构模板,抽取的所述目标页面“水浒传施耐庵综合文化读书频道新浪网”的页面优选信息包括“小说名称:《水浒传》”、“小说作者:施耐庵”、内容简介、更新时间“2004-08-11 00:00:00”、《水浒传》目录、《水浒传》章节链接。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种用于生成多个页面所对应的页面结构模板的方法,其中,该方法包括以下步骤:
a获取多个训练页面;
b根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;
c根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;
d识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
2.根据权利要求1所述的方法,其中,该方法还包括:
x根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;
其中,所述预定训练规则包括以下至少任一项:
-对所述多个页面节点训练数据进行贝叶斯估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行最大似然估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行支持向量机模型分析,获得所述节点属性识别模型;
其中,所述步骤d包括:
-根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
3.根据权利要求2所述的方法,其中,所述步骤x包括:
-获取已标注的所述多个页面节点训练数据;
-提取所述多个页面节点训练数据的语义语料特征;
-根据所述语义语料特征,通过所述预定训练规则,以获得所述节点属性识别模型。
4.根据权利要求2或3所述的方法,其中,所述步骤d包括:
-提取所述页面公共树中节点的节点语义语料特征;
-根据所述节点属性识别模型,基于所述节点语义语料特征,确定所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
5.根据权利要求1至3中任一项所述的方法,其中,所述步骤b包括:
-根据预定的初始页面结构模板,从所述训练页面中提取优选页面结构特征;
-根据所述训练页面的优选页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面。
6.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-检测是否满足更新所述页面结构模板的更新触发条件;
-当满足所述更新触发条件时,更新所述页面结构模板;
其中,所述更新触发条件包括以下至少任一项:
-所述训练页面的页面内容结构特征发生变化;
-所述训练页面的页面分块特征发生变化;
-所述训练页面的文档对象模型发生变化;
-所述训练页面的文档对象模型节点路径发生变化。
7.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-获取待提供给用户的目标页面;
m根据所述页面结构模板,抽取所述目标页面的页面优选信息;
-将所述页面优选信息提供给该用户。
8.根据权利要求7所述的方法,其中,该方法还包括:
-根据所述目标页面,确定与所述目标页面相对应的优选的所述页面结构模板;
其中,所述步骤m包括:
-根据所述优选的所述页面结构模板,抽取所述目标页面的所述页面优选信息。
9.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-获取待提供给用户的一个或多个搜索结果;
n根据所述页面结构模板,生成所述搜索结果所对应的摘要数据;
-将所述摘要数据提供给该用户。
10.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-获取与所述用户输入的查询序列相对应的一个或多个搜索结果;
-根据与所述查询序列相对应的所述页面结构模板,确定所述搜索结果的优先级;
-根据所述优先级,将所述一个或多个目标搜索结果提供给所述用户。
11.一种用于生成多个页面所对应的页面结构模板的生成设备,其中,该生成设备包括:
页面获取装置,用于获取多个训练页面;
聚类装置,用于根据所述训练页面的页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面;
公共树确定装置,用于根据所述页面簇中所包括的所述训练页面,确定所述页面簇所对应的页面公共树,其中,所述页面公共树包含于所述页面簇中的每一个训练页面;
模板确定装置,用于识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
12.根据权利要求11所述的生成设备,其中,该生成设备还包括:
模型确定装置,用于根据已标注的多个页面节点训练数据,通过预定训练规则,以获得节点属性识别模型;
其中,所述预定训练规则包括以下至少任一项:
-对所述多个页面节点训练数据进行贝叶斯估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行最大似然估计分析,获得所述节点属性识别模型;
-对所述多个页面节点训练数据进行支持向量机模型分析,获得所述节点属性识别模型;
其中,所述模板确定装置用于:
-根据所述节点属性识别模型,识别所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
13.根据权利要求12所述的生成设备,其中,所述模型确定装置包括:
数据获取单元,用于获取已标注的所述多个页面节点训练数据;
第一提取单元,用于提取所述多个页面节点训练数据的语义语料特征;
模型识别单元,用于根据所述语义语料特征,通过所述预定训练规则,以获得所述节点属性识别模型。
14.根据权利要求12或13所述的生成设备,其中,所述模板确定装置包括:
第二提取单元,用于提取所述页面公共树中节点的节点语义语料特征;
模板确定单元,用于根据所述节点属性识别模型,基于所述节点语义语料特征,确定所述页面公共树中节点的节点属性信息,以获得与所述页面簇相对应的页面结构模板。
15.根据权利要求11至13中任一项所述的生成设备,其中,所述聚类装置用于:
-根据预定的初始页面结构模板,从所述训练页面中提取优选页面结构特征;
-根据所述训练页面的优选页面结构特征,对所述多个训练页面进行聚类处理,以获得与所述多个训练页面相对应的一个或多个页面簇,其中,所述页面簇至少包括一个所述训练页面。
16.根据权利要求11至13中任一项所述的生成设备,其中,该生成设备还包括:
检测装置,用于检测是否满足更新所述页面结构模板的更新触发条件;
更新装置,用于当满足所述更新触发条件时,更新所述页面结构模板;
其中,所述更新触发条件包括以下至少任一项:
-所述训练页面的页面内容结构特征发生变化;
-所述训练页面的页面分块特征发生变化;
-所述训练页面的文档对象模型发生变化;
-所述训练页面的文档对象模型节点路径发生变化。
17.根据权利要求11至13中任一项所述的生成设备,其中,该生成设备还包括:
第一获取装置,用于获取待提供给用户的目标页面;
抽取装置,用于根据所述页面结构模板,抽取所述目标页面的页面优选信息;
第一提供装置,用于将所述页面优选信息提供给该用户。
18.根据权利要求17所述的生成设备,其中,该生成设备还包括:
优选确定装置,用于根据所述目标页面,确定与所述目标页面相对应的优选的所述页面结构模板;
其中,所述抽取装置用于:
-根据所述优选的所述页面结构模板,抽取所述目标页面的所述页面优选信息。
19.根据权利要求11至13中任一项所述的生成设备,其中,该生成设备还包括:
第二获取装置,用于获取待提供给用户的一个或多个搜索结果;
数据生成装置,用于根据所述页面结构模板,生成所述搜索结果所对应的摘要数据;
第二提供装置,用于将所述摘要数据提供给该用户。
20.根据权利要求11至13中任一项所述的生成设备,其中,该生成设备还包括:
第三获取装置,用于获取与所述用户输入的查询序列相对应的一个或多个搜索结果;
优先级确定装置,用于根据与所述查询序列相对应的所述页面结构模板,确定所述搜索结果的优先级;
第三提供装置,用于根据所述优先级,将所述一个或多个目标搜索结果提供给所述用户。
21.一种搜索引擎,包括如权利要求11至20中任一项所述的用于生成多个页面所对应的页面结构模板的装置。
22.一种搜索引擎插件,包括如权利要求11至20中任一项所述的用于生成多个页面所对应的页面结构模板的装置。
CN201210244912.4A 2012-07-13 2012-07-13 用于生成多个页面所对应的页面结构模板的方法和设备 Active CN103544176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210244912.4A CN103544176B (zh) 2012-07-13 2012-07-13 用于生成多个页面所对应的页面结构模板的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210244912.4A CN103544176B (zh) 2012-07-13 2012-07-13 用于生成多个页面所对应的页面结构模板的方法和设备

Publications (2)

Publication Number Publication Date
CN103544176A CN103544176A (zh) 2014-01-29
CN103544176B true CN103544176B (zh) 2018-08-10

Family

ID=49967639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210244912.4A Active CN103544176B (zh) 2012-07-13 2012-07-13 用于生成多个页面所对应的页面结构模板的方法和设备

Country Status (1)

Country Link
CN (1) CN103544176B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11868851B2 (en) * 2015-03-11 2024-01-09 Symphonyai Sensa Llc Systems and methods for predicting outcomes using a prediction learning model

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914523A (zh) * 2014-03-24 2014-07-09 小米科技有限责任公司 页面回退控制方法及装置
US9679076B2 (en) 2014-03-24 2017-06-13 Xiaomi Inc. Method and device for controlling page rollback
CN103955529B (zh) * 2014-05-12 2018-05-01 中国科学院计算机网络信息中心 一种互联网信息搜索聚合呈现方法
CN105718451A (zh) * 2014-12-01 2016-06-29 上海斐讯数据通信技术有限公司 浏览器多个页面公用弹出模块的方法
CN104503988B (zh) * 2014-12-03 2018-10-16 百度在线网络技术(北京)有限公司 搜索方法及装置
CN105095416B (zh) * 2015-07-13 2018-12-07 北京奇虎科技有限公司 一种在搜索中实现内容推广的方法和装置
CN105094940B (zh) * 2015-07-23 2018-05-25 天津橙子科技有限公司 针对HTMLElement的CSS选择器最短路径反查方法
CN105468688B (zh) * 2015-11-17 2020-04-28 百度在线网络技术(北京)有限公司 一种站点模板的处理方法及装置
CN107294750B (zh) * 2016-04-01 2020-10-30 阿里巴巴集团控股有限公司 一种云集群能自识别的分布配置管理方法和装置
CN105955984A (zh) * 2016-04-19 2016-09-21 中国银联股份有限公司 基于爬虫模式的网络数据搜索方法
CN107678808A (zh) * 2016-08-02 2018-02-09 阿里巴巴集团控股有限公司 页面信息选取方案生成方法及装置
CN106445559A (zh) * 2016-10-21 2017-02-22 用友网络科技股份有限公司 一种通过视图化模板解决页面差异化的装置及方法
CN108090076B (zh) * 2016-11-22 2021-01-22 北京国双科技有限公司 页面文字处理方法及装置
CN108090104B (zh) * 2016-11-23 2023-05-02 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN107463372B (zh) * 2017-07-07 2020-10-13 北京小米移动软件有限公司 一种数据驱动的页面更新方法和装置
CN109582886B (zh) * 2018-11-02 2022-05-10 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备
CN109670133B (zh) * 2018-12-22 2021-04-02 网宿科技股份有限公司 一种页面的公共组件的确定方法、服务器及存储介质
CN109901835B (zh) * 2019-01-25 2020-09-04 北京三快在线科技有限公司 布局元素的方法、装置、设备及存储介质
CN111488541B (zh) * 2019-01-29 2024-03-15 深圳市茁壮网络股份有限公司 一种专区生成、实体请求方法及装置
CN109885545A (zh) * 2019-02-02 2019-06-14 华为技术有限公司 存储、查询日志信息的方法、装置
CN110209391B (zh) * 2019-05-28 2023-06-20 北京金山安全软件有限公司 一种插件包生成方法、装置、电子设备及可读存储介质
CN110390038B (zh) * 2019-07-25 2021-10-15 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质
CN111125483B (zh) * 2019-12-17 2023-06-27 湖南星汉数智科技有限公司 网页数据抽取模板生成方法、装置、计算机装置及存储介质
CN111178218B (zh) * 2019-12-23 2023-07-04 北京中广上洋科技股份有限公司 一种基于人脸识别的多特征联合视频追踪方法及系统
CN111475699B (zh) * 2020-03-07 2023-09-08 咪咕文化科技有限公司 网站数据爬取方法和装置、电子设备、及可读存储介质
CN111666526B (zh) * 2020-06-17 2023-05-12 广州市百果园信息技术有限公司 页面生成方法、装置、设备及存储介质
CN113485695A (zh) * 2021-07-07 2021-10-08 上海中通吉网络技术有限公司 一种前端页面生成方法
CN113485782A (zh) * 2021-07-29 2021-10-08 北京百度网讯科技有限公司 页面数据获取方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694668A (zh) * 2009-09-29 2010-04-14 百度在线网络技术(北京)有限公司 网页结构相似性确定方法及装置
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和系统
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和系统
CN101694668A (zh) * 2009-09-29 2010-04-14 百度在线网络技术(北京)有限公司 网页结构相似性确定方法及装置
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11868851B2 (en) * 2015-03-11 2024-01-09 Symphonyai Sensa Llc Systems and methods for predicting outcomes using a prediction learning model

Also Published As

Publication number Publication date
CN103544176A (zh) 2014-01-29

Similar Documents

Publication Publication Date Title
CN103544176B (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN101288067B (zh) 从电子文档组装、提取和配置内容的方法和装置
CN103544178B (zh) 一种用于提供与目标页面相对应的重构页面的方法和设备
TWI695277B (zh) 自動化網站資料蒐集方法
CN105095394B (zh) 网页生成方法和装置
CN107220386A (zh) 信息推送方法和装置
US9569541B2 (en) Evaluating preferences of content on a webpage
CN103955529B (zh) 一种互联网信息搜索聚合呈现方法
CN103631794B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN106776860A (zh) 一种搜索摘要生成方法及装置
CN107463592A (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
JP4878591B2 (ja) コンテンツ検索装置、コンテンツ検索方法、プログラムおよび記録媒体
CN104050243B (zh) 一种将搜索与社交相结合的网络搜索方法及其系统
US20160299911A1 (en) Processing search queries and generating a search result page including search object related information
CN106537387A (zh) 检索/存储与事件相关联的图像
CN102004805B (zh) 基于最大相似性匹配的网页去噪系统及其去噪方法
CN110110218A (zh) 一种身份关联方法及终端
US20160335358A1 (en) Processing search queries and generating a search result page including search object related information
CN107590288A (zh) 用于抽取网页图文块的方法和装置
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
CN106383857A (zh) 一种信息处理方法及电子设备
CN103631944B (zh) 一种基于内容相似的网页分割方法
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant