CN105824966A

CN105824966A - 基于结构相似网页集的信息抽取方法

Info

Publication number: CN105824966A
Application number: CN201610204047.9A
Authority: CN
Inventors: 任龙; 王儒敬; 王伟; 汪六三
Original assignee: Anhui Z-Hope Technology Co Ltd; Wuxi Zhongke Funong Internet Of Things Technology Co Ltd; Jiangsu IoT Research and Development Center
Current assignee: Anhui Z-Hope Technology Co Ltd; Wuxi Zhongke Funong Internet Of Things Technology Co Ltd; Jiangsu IoT Research and Development Center
Priority date: 2016-04-01
Filing date: 2016-04-01
Publication date: 2016-08-03

Abstract

本发明涉及了一种基于结构相似网页集的信息抽取方法，分为去噪阶段，匹配阶段以及信息抽取阶段。去噪阶段负责将相似网页集中的网页规范，使得相似网页集中的网页完全符合W3C的XHTML标准。在进入匹配阶段后，从网页集中随机选择两个网页，比较两个网页DOM树中不匹配的部分；会出现三种不匹配状态，分别对三种不匹配状态加以处理，生成一个包装器。在信息抽取阶段，用包装器抽取相似网页集中的数据，生成一个XML文件，保存着从相似网页集中得到的数据。本发明的优点是：基于相似网页的信息抽取可以根据相似网页结构相似性的特点自动生成包装器，不需要人工参与以及先验知识的指导，适用于数据比较密集型的网页，能够很好地从相似网页集中生成数据。

Description

基于结构相似网页集的信息抽取方法

技术领域

本发明涉及数据抽取技术，具体是一种不需要先验知识，能够自动从结构相似网页集中生成包装器并抽取数据的方法。

背景技术

随着互联网的快速发展，特别是进入Web2.0时代，网络中的存储的数据逐渐向服务器端转移，保存在后台数据库中，而网页大多以模板或者列表的形式展示这些数据，比如各大门户网站的新闻，博客，又或者搜索引擎(例如谷歌，百度)某个关键词的搜索结果等。这些数据一般存在于结构比较相似的网页集中，如何从这些结构相似的网页集中获取这些结构化程度高,质量比较好的信息已经成为信息抽取领域研究的热点性问题。

传统的方法中一般采用半自动化的方法生成包装器，然后抽取数据。所谓的半自动化，指的是通过人工的方式分析网页的结构，通过标注的方式告知应用程序哪些是需要抽取的信息。这种方式的缺点是，需要大量的人工参与以及先验知识的指导。

万维网的飞速发展，人工指导的信息抽取已严重限制了Web信息抽取的效率。由此，自动化抽取信息抽取工具开始出现。其中比较有代表性的一种是基于视觉特征的VIPS(vision-basedpagesegmentation)算法。算法首先要找出页面中所有类似〈table〉〈p〉〈hr〉〈ul〉等分隔符，把页面分成了各个视觉信息块。在分割区域时充分利用了字体大小、背景颜色、空白区域等视觉特征，并总结出以下几条规则:

(a)类似〈hr〉等标签通常用于分隔不同的主题，因此如果一个区域内包含〈hr〉标签，那么倾向于分割这个区域；

(b)如果一个区域的背景色与其内部子区域的背景色不同，则分割这个区域；

(c)如果一个区域内大部分节点都是文本类型，则不再分割这个区域。

这能在一定程度上满足复杂页面对算法的要求，但由于视觉特征的复杂性和网页设计的多样性且存在许多不符合规范的页面，这种基于视觉的信息抽取技术在实施过程中依然存在许多的问题，比如页面元素之间距离的计算以及对不符合规范的页面以及色彩差异不大的页面处理效果不佳。因此，对于密集数据型网页迫切需要一种自动化工具能够自动化抽取网页中的高质量的数据。

发明内容

本发明的目的是克服现有技术的不足，提出一种基于结构相似网页集的信息抽取方法，能够基于DOM树结构进行信息抽取，该方法通过比较结构相似的两个网页匹配与不匹配，自动化生成一个信息抽取包装器，进而抽取结构相似网页集中所包含的的数据。本发明不仅在信息抽取的召回率和准确率都有不错的表现，在效率上也有很大的提升。

为了实现上述目的，本发明包括以下三个阶段：

(1)去噪阶段，负责将相似网页集中的网页规范，经过去噪处理，使得相似网页集中的网页完全符合XHTML规范；

(2)匹配阶段，随机从相似网页集中选取两个网页，分别对网页中的每一行加以标记，逐行比较两个网页DOM树中不匹配的部分，分别对三种不匹配情况加以处理，最终生成一个包装器，所述三种不匹配情况是指：字符串不匹配情况、作为可选项的标签不匹配情况、作为迭代项的标签不匹配情况；

(3)信息抽取阶段，用匹配阶段生成的包装器抽取相似网页集中每个网页的数据，最终生成一个XML文件，该文件中保存着从相似网页集中得到的数据。

具体的，经过去噪阶段，网页中每一个标签都是闭合的，所有标签的标签名和属性名称都要小写；所有的属性必须要双引号包裹起来。

在匹配阶段，根据每一行是否匹配，会出现三种不匹配情况：

所述字符串不匹配是指标签匹配但是标签包裹的文本不一致，这种情况下认为文本是需要抽取的数据；对这种情况，需要对该标签加以标记，代表需要抽取该标签中包裹的文本；

所述作为可选项的标签不匹配是指，标签不匹配中，有一种状况是某一个标签可能存在，也可能不存在，在正则表达式中用“？”号表示可能存在；

所述作为迭代项的标签不匹配是指，当网页中存在迭代时，对于迭代块在正则表达式中用“+”号表示。

在信息抽取阶段，在所述XML文件中，对于字符串不匹配的地方都是一个属性标签，属性名以字母的形式表现出来，并且具有嵌套结构，整个XML文档结构是以一颗树的形式存在，层层嵌套。

本发明的优点是：

1.基于结构相似的两个网页的DOM比较，所得到的包装器是自动生成的，不需要人工的参与，节省了大量的人力成本。

2.在生成自动化信息抽取包装器的过程中不需要先验知识的指导，能够广泛应用于各个领域。

3.以前的信息抽取方式都是针对一个页面生成包装器，本发明需要两个相似的页面比较得出包装器，抽取结果更加准确。

附图说明

图1是信息抽取流程图。

图2显示了不匹配时的三种状态。

具体实施方式

本发明通过相似网页的DOM不匹配的元素动态生成包装器，再根据包装器抽取相似网页中的来源于动态数据源的数据，最终将抽取结果保存在一个XML文件中。

如图1所示，本发明的技术方案包括三个步骤：去噪阶段，匹配阶段以及信息抽取阶段。去噪阶段主要是将不遵循W3C规范化的HTML网页转换成严格按照W3C规范的XHTML网页，经过去噪阶段的处理，相似网页集中的网页均被转化为规范的网页。

匹配阶段主要用于生成包装器。在该阶段中从经过去噪处理的相似网页集中随机选取两个网页，经过匹配后生成包装器。匹配的过程中主要存在三种不匹配情况：字符串不匹配，作为可选项的标签不匹配，作为迭代项的标签不匹配。字符串不匹配指的是在标签匹配的情况下，标签中的文本不一致，对于这种情况，我们认为不一致的文本就是我们要抽取的信息；作为可选项的标签不匹配指的是当标签不匹配的情况下，可能出现此标签是可能存在也可能不存在的，即正则表达式中的“？”符号；作为迭代项的标签不匹配指的是这个标签及其包裹的内容本身是一个迭代块，在HTML文本中可以连续出现一次或多次。经过匹配阶段后，会生成一个包装器。

以下结合附图和实施例对本发明做进一步说明。

1)去噪阶段

由于浏览器的宽容性，开发者在编写HTML代码的时候并没有严格按照XHTML的规范，所以生成抽取规则的第一步则是将HTML文档规划化以便生成DOM树。在该阶段处理完成后，一般规范后的网页满足以下特点：(1).严格遵循XHTML规范；(2).标签是闭合的。在该阶段的处理过程中，可以借助一些一些开源的工具，如Jtidy工具。

2)匹配阶段

在匹配阶段，从已经经过规范化处理的相似网页集中随机选择两个网页。其中一个作为Wrapper(包装器),另外一个作为Sample(样本)。举例，如图2所示的两个网页源代码。在经过去噪阶段的处理后，网页代码中的每一行都被打上标识号。在逐行比较的过程中，会遇到以下三种不匹配情况：

一.字符串不匹配。在从上至下解析网页的过程中，在比较至03行的时候，会遇到第一种不匹配的情况—字符串匹配。当遇到字符串不匹配时，一般认为该字符串即为我们要抽取的信息，对于该字符串用特殊的标记标识。

二、作为可选项的标签不匹配。该种情形的出现出现在Wrapper中的第五行<Table>标签和Sample中的第五行<IMG>标签；当出现这种标签不匹配情况的时候，首先把<Table>标签及其包裹内容当作可选项，则发现<Table>标签的下一个标签</Html>与<IMG>仍然不匹配，则此时如果假设<IMG>标签为一个可选项标签，此时却发现<IMG>标签的下一个<Table>标签与<Wrapper>中的<Table>标签匹配，出现这种情形则说明<IMG>标签为一个可选项标签。

三、作为迭代项的标签不匹配。当解析到Wrapper中的第14行的<Table>标签时，会与Sample的第15行<TR>标签不匹配，这种情况下存在着图中我们用矩形勾选出的迭代块。此迭代块在包装器中用“+”号包裹。

在标签不匹配的时候，可能是此标签可能是可选项时的情况，也可能是作为迭代块情况。一般，我们总是先考虑是否可以作为迭代块标签，如果发现不是迭代块标签，再考虑是否可以作为可选项标签处理。匹配后所生成的包装器如下：

3)信息抽取阶段

在信息抽取阶段，主要是利用第二阶段生成的包装器，抽取相似网页集中的数据。信息抽取阶段最终生成一个XML文件，该文件中保存着从相似网页集中得到的数据。

在所述XML文件中，对于字符串不匹配的地方都是一个属性标签，属性名以字母的形式表现出来，并且具有嵌套结构，整个XML文档结构是以一颗树的形式存在，层层嵌套。

下面一个表格是一些实验数据：

由表中数据可以看出，该发明在信息抽取的性能方面以及信息抽取结果上，都有很不错的表现。

Claims

1.基于结构相似网页集的信息抽取方法，其特征是，包括以下三个阶段：

（1）去噪阶段，负责将相似网页集中的网页规范，经过去噪处理，使得相似网页集中的网页完全符合XHTML规范；

（2）匹配阶段，随机从相似网页集中选取两个网页，分别对网页中的每一行加以标记，逐行比较两个网页DOM树中不匹配的部分，分别对三种不匹配情况加以处理，最终生成一个包装器，所述三种不匹配情况是指：字符串不匹配情况、作为可选项的标签不匹配情况、作为迭代项的标签不匹配情况；

（3）信息抽取阶段，用匹配阶段生成的包装器抽取相似网页集中每个网页的数据，最终生成一个XML文件，该文件中保存着从相似网页集中得到的数据。

2.根据权利要求1所述的基于结构相似网页集的信息抽取方法，其特征在于:经过去噪阶段，网页中每一个标签都是闭合的，所有标签的标签名和属性名称都要小写；所有的属性必须要双引号包裹起来。

3.根据权利要求1所述的基于结构相似网页集的信息抽取方法，其特征于:在匹配阶段，根据每一行是否匹配，会出现三种不匹配情况：

4.根据权利要求1所述的基于结构相似网页集的信息抽取方法，其特征在于:在信息抽取阶段，在所述XML文件中，对于字符串不匹配的地方都是一个属性标签，属性名以字母的形式表现出来，并且具有嵌套结构，整个XML文件结构是一颗树的形式存在，层层嵌套。