CN109948015A

CN109948015A - 一种元搜索列表结果抽取方法及系统

Info

Publication number: CN109948015A
Application number: CN201710880652.2A
Authority: CN
Inventors: 齐保元; 周美林; 李鹏; 王斌
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2019-06-28
Anticipated expiration: 2037-09-26
Also published as: CN109948015B

Abstract

本发明提供一种元搜索列表结果抽取方法，步骤包括：获取元搜索检索结果的网页源代码；对所述网页源代码基于XPATH解析，确定检索结果区域和扩展区域的XPATH路径，抽取列表项信息和扩展信息；如果基于XPATH解析失败，则对所述网页源代码基于统计信息规则提取列表项信息，并基于启发式规则提取扩展信息；将所述抽取的列表项信息和扩展信息作为抽取结果进行封装，组成用于元搜索的数据结构。本发明还提供一种元搜索列表结果抽取系统。

Description

一种元搜索列表结果抽取方法及系统

技术领域

本发明涉及网络信息处理技术领域，尤其涉及基于元搜索引擎的数据采集领域，是一种元搜索查询结果列表的自动抽取方法，实现了更精准的元搜索列表数据获取的方法和系统。

背景技术

搜索引擎按功能划分，可分为独立搜索引擎和元搜索引擎。独立搜索引擎包括谷歌、百度等，元搜索引擎包括webcrawler等。在独立搜索引擎中，用户提交的查询词只在该引擎的数据库内进行检索，而元搜索引擎会将搜索请求发送至多个独立搜索引擎，并搜集各独立搜索引擎返回的结果进行去重排序显示给用户。

针对元搜索引擎的数据采集首先模拟用户行为输入搜索查询词，再对元搜索引擎返回的查询结果列表进行链接解析和信息提取，其他工作还包括网页去重、网页正文抽取、采集任务配置等。

元搜索检索结果列表网页作为一种特殊的网页，具有与普通网页不同的特点，主要表现在区域不固定性和结果数量的不确定性。

现有网页信息抽取主要有三种方式：一种是基于网页的HTML标签提取，此种方式的优点是比较能够准确地识别出非常规的网页结构中的网页正文，但是HTML内容的不完整或者不规整，都会导致标签无法正常匹配。另一种是基于文档对象模型(DOM,DocumentObjectModel)的分割法，该方法通过找出网页HTML文档里的特定标签，利用标签项将HTML文档表示成一个DOM树的结构，然后根据特定标签包括Heading、Table、Paragraph和List等来提取有效的树结点数据。但是，在许多情况下，DOM不是用来表示网页列表结构的，所以利用该方法不能构建完整的树结构，不完备的解析树同样会造成节点的判断出错。还有一种基于模板的方式需要耗费人工去匹配模板，消耗大量的人力物力，并且对于新出现的网站或者网站改版的反应不及时，造成内容的提取失败。

以上三种抽取方式不适用于网页信息尤其是元搜索检索结果网页的列表抽取。

发明内容

本发明的目的在于提供一种元搜索列表结果抽取方法及系统，能够自动从列表中提取信息，以辅助信息的搜集，同时提高列表内容抽取的效率和准确性，且减少人工成本。

为达到上述目的，本发明采用如下技术方案：

一种元搜索列表结果抽取方法，步骤包括：

获取元搜索检索结果的网页源代码；

对所述网页源代码基于XPATH解析，确定检索结果区域和扩展区域的XPATH路径，抽取列表项信息和扩展信息；

如果基于XPATH解析失败，则对所述网页源代码基于统计信息规则提取列表项信息，并基于启发式规则提取扩展信息；

将所述抽取的列表项信息和扩展信息作为抽取结果进行封装，组成用于元搜索的数据结构。

进一步地，所述网页源代码包括基于关键词检索的网页结果。

进一步地，基于XPATH解析时，利用不同的符号运算来对多个检索结果进行调节融合，对列表项信息进行相对位置的转化。

进一步地，所述列表项信息包括列表项的标题、摘要信息、链接地址、快照地址、收录时间。

进一步地，所述扩展信息包括相关结果总数、相关搜索列表、翻页列表。

进一步地，基于启发式规则抽取扩展信息的步骤包括：

如果所在html区域内包含的链接小于2，且含有“结果”字符串，则进行数字提取，以确定所述相关结果总数；

如果所在html区域内包含的链接大于2，且含有“相关搜索”字符串，则提取所有链接的锚文本作为相关的搜索词，以确定所述相关搜索词；

如果所在html区域内包含的链接大于2，且含有“一页”字符串，则提取所有链接以及链接地址的锚文本作为翻页列表信息，以确定所述翻页列表。

进一步地，所述统计规则包括：

将网页解析成一个DOM树结构；

对于所述DOM树结构的每一个节点，记录其直接子节点列表，记为表格；

按照所述表格中每个节点信息对应的所述子节点列表的大小，从大到小排序；

根据用户自定义的列表，过滤掉不可能是列表父节点的项；

如果所述表格的项符合条件要求，则过滤掉，否则，取出该项对应的子列表；

对所述子列表进行遍历，对该子列表中的第一级进行标签判断，确定属性并抽取出相对应的值，该值即所述列表项信息。

一种元搜索列表内容抽取系统，包括：

数据获取模块，用于获取元搜索检索结果的网页源代码；

XPATH抽取模块，用于从网页中确定目标区域的XPATH路径；

基于XPATH的信息提取模块，用于根据网页所属的元搜索来调用相对应的XPATH解析，提取出相对应的列表项信息和扩展信息；

基于统计的信息抽取模块，用于根据启发式规则抽取扩展信息，及根据统计规则抽取列表项信息。

本发明提出了基于XPATH与基于启发式和统计规则相结合的列表抽取方法，确定XPATH路径能够从网页中精确定位目标区域(检索结果区域和扩展区域)；统计规则根据DOM树的统计信息自动推断并抽取出列表项中的属性值。本方法结合了路径选择与自动推断技术，既保证了准确性又提高了灵活性，完成元搜索列表内容的结果抽取。与传统的方法相比，本方法的过程采用可视化技术，操作难度较低，定位准确；自动推断自动根据DOM树结构中的元素进行统计，通过合理假设，定位目标位置。

附图说明

图1是本发明的一种元搜索列表内容抽取方法流程图。

图2是基于统计规则的列表项信息抽取方法示意图。

图3A是元搜索列表结果的实例图。

图3B为图3A对应格式html图。

图4A为使用统计信息规则抽取信息的实例图。

图4B为图4A对应的DOM结构图。

图4C为图4B的子节点列表项信息展开图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种元搜索列表内容抽取方法，如图1所示，包括四个步骤：

1、获取元搜索检索结果的网页源代码：

通过搜索引擎提供的API触发检索请求，随后搜索引擎会返回相应搜索结果的网页源代码，如在百度搜索引擎中查询“计算机”这个关键词，请求的URL为：http://www.baidu.com/s？wd＝计算机，其中“wd＝”后面对应的词就是用户的关键词，有的搜索引擎还会提供更加复杂的检索逻辑。这部分网页源代码将作为后续步骤信息抽取的输入。

2、基于XPATH解析检索结果列表项信息和扩展信息：

确定需要提取的元素信息，这些元素是用户感兴趣的内容，并且兼容信息系统的数据输入格式，主要包含扩展信息和列表项信息：扩展信息包括相关结果总数、相关搜索列表、翻页列表，列表项信息包括列表项的标题、摘要信息、链接地址、快照地址、收录时间。

基于XPATH的区域内容拣选：

1)确定检索结果区域和扩展区域这两大区域的XPATH路径，该检索结果区域是包含检索结果列表项信息的区域，该扩展区域是包括扩展信息的区域，该扩展信息用以辅助元搜索检索，如翻页检索；

2)定位检索结果区域中的各列表项信息，这些信息是每个检索结果的具体条目信息；

3)综合多个检索页面的结果进行调节，由于不同的检索结果可能包含的内容稍有差别，如有的包含图片，有的包含更多级别的列表等，这就需要不同的符号运算来进行结果融合；另外，由于列表项信息通过浏览器获取的是全路径，需要进行相对位置的转化。

以下是本步骤3基于XPATH路径拣选的实例。

对于这类结果展现形式比较单一的元搜索结果列表，可通过结合人工拣选定位元素，从而快速获得列表中每一条元素的XPATH路径。如图3A和图3B所示，框内的搜索结果形式完全一致，并且在列表结果中id呈递增序列，如第5条检索结果区域块XPATH路径为“//*[@id＝"5"]”，同样地，对于每个区域内的列表项元素信息亦可进行XPATH快速定位，如标题XPATH路径“//*[@id＝"5"]/h3/a”、摘要XPATH路径“//*[@id＝"5"]/div/div[2]/div[1]”、图片XPATH路径“//*[@id＝"5"]/div/div[1]/a/img”、链接XPATH路径“//*[@id＝"5"]/div/div[2]/div[2]/a[1]”等等。若使用传统的基于DOM结构方法抽取列表项元素，则需要分析路径及规则及定义正则表达式来匹配相应路径，较为繁琐。

3、基于统计规则和启发式规则的信息抽取，适用于上述步骤解析失败的情况：

根据启发式规则抽取扩展信息，包括：

确定“相关结果总数”，如果所在html区域内包含的链接小于2，且含有“结果”字符串，则进行数字提取，如果失败返回0；

确定“相关搜索词”，如果所在html区域内包含的链接大于2，且含有“相关搜索”字符串，则提取所有链接的锚文本作为相关的搜索词；

确定“翻页列表”，如果该html区域内包含的链接大于2，且包含有“一页”字符串，则提取所有链接以及链接地址的锚文本作为翻页列表信息。

根据统计信息规则抽取列表项信息，确定列表区域并且进行列表项信息的抽取，如图2所示，包括：

1)DOM组装：

将网页解析成一个DOM树结构；

2)子节点列表抽取：

遍历DOM树结构，对于每一个节点node，记录其直接子节点列表childList，记为表格parentTable；

按照parentTable中每个node节点信息对应的子节点列表childList的大小从大到小排序；

3)子列表过滤：

黑名单过滤：根据用户自定义的列表blackList，过滤掉不可能是列表父节点的项；

条件过滤：遍历parentTable，根据预定义条件过滤掉符合要求的项，可在过滤前自定义抽取对象的范围，对于不符合要求的项，取出该项对应的子列表；

4)元素提取：

对子列表进行遍历，对于该子列表中的第一级进行标签判断，确定属性，并抽取出相对应的值，该值即所述列表项信息。

以下是对本步骤3的基于统计规则抽取信息的实例：

对于诸如聚合结果等部分搜索结果展现形式不同的列表结果，可通过统计规则抽取列表信息，以下是一个实例：搜索“计算机”返回结果列表中有一条是相关信息的聚合项，其XPATH与普通搜素结果列表项略有差异。“计算机的最新相关信息”节点下有5个子节点，分别是“计算机行业投资机会报告:智能计算芯片需求旺盛颇具”、“计算机:ITSM造就SaaS巨头公司迈向全方位企业级服务”等，如图4A所示。在DOM结构中表现为c-container下有h3根节点和5个class为c-row的子节点，如图4B所示。展开c-row子节点可获得标题、链接、来源信息，如图4C所示。

4、对上述抽取结果进行封装，组成元搜索有用的数据结构。

本实施例还提供一种元搜索列表内容抽取系统，包括：

数据获取模块，用于获取元搜索检索结果的网页源代码；

XPATH抽取模块，用于从网页中确定目标区域的XPATH路径；

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种元搜索列表结果抽取方法，步骤包括：

获取元搜索检索结果的网页源代码；

2.根据权利要求1所述的方法，其特征在于，所述网页源代码包括基于关键词检索的网页结果。

3.根据权利要求1所述的方法，其特征在于，基于XPATH解析时，利用不同的符号运算来对多个检索结果进行调节融合，对列表项信息进行相对位置的转化。

4.根据权利要求1所述的方法，其特征在于，所述列表项信息包括列表项的标题、摘要信息、链接地址、快照地址、收录时间。

5.根据权利要求1所述的方法，其特征在于，所述扩展信息包括相关结果总数、相关搜索列表、翻页列表。

6.根据权利要求5所述的方法，其特征在于，基于启发式规则抽取扩展信息的步骤包括：

7.根据权利要求1所述的方法，其特征在于，所述统计规则包括：

将网页解析成一个DOM树结构；

根据用户自定义的列表，过滤掉不可能是列表父节点的项；

如果所述表格的项符合条件要求，则过滤掉，否则取出该项对应的子列表；

对所述子列表中的第一级进行标签判断，确定属性并抽取出相对应的值，该值即所述列表项信息。

8.一种元搜索列表内容抽取系统，包括：

数据获取模块，用于获取元搜索检索结果的网页源代码；

XPATH抽取模块，用于从网页中确定目标区域的XPATH路径；