CN104462540B

CN104462540B - 网页信息抽取方法

Info

Publication number: CN104462540B
Application number: CN201410818097.7A
Authority: CN
Inventors: 脱立恒; 董微; 刘学; 陆世亮
Original assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2018-03-30
Anticipated expiration: 2034-12-24
Also published as: CN104462540A

Abstract

本发明涉及一种网页信息抽取方法，该方法包括：对网页Web的页面数据建立DOM树，从DOM树中递归选取包含所有待抽取信息的节点子树，选取节点子树中所有待抽取信息的属性节点的路径、值节点的路径和最小的子树，将最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点；将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径，生成属性坐标和值坐标，根据相对特征坐标系的原点、属性坐标和值坐标定位待抽取信息；将属性坐标和值坐标作为待抽取信息的抽取规则，所有待抽取信息的抽取规则组成Web的抽取规则集合并生成包装器；通过包装器的抽取规则的属性坐标和值坐标，定位待抽取信息的属性和值，并抽取Web信息。

Description

网页信息抽取方法

技术领域

本发明涉及网页技术领域，特别涉及一种网页信息抽取方法。

背景技术

伴随着互联网及应用和服务的普及，网上信息量以指数级增长，海量的数据使用户遭遇了选择困难的问题。用户搜索到的信息很大一部分是不感兴趣的或是不相关的。因此，采集互联网上的数据，收集用户感兴趣的内容，抽取有用信息将其集成结构化数据，呈现给用户的相关技术变得十分重要。Web页面具有动态异构性的特点，Web页面会随着时间的变化发生动态改变，且不同的网站之前具有异构性的特点，因此从不同的Web页面中抽取有用的信息也具有相当的难度，且耗时。

发明内容

本发明的目的是提供了一种网页信息抽取方法，提高网页信息抽取的准确率和效率。

为实现上述目的，本发明提供了一种网页信息抽取方法，所述方法包括：

对网页Web的页面数据建立文档对象模型DOM树，从所述DOM树中递归选取包含所有待抽取信息的节点子树，选取所述节点子树中所述所有待抽取信息的属性节点的路径、值节点的路径和最小的子树，将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点；

将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径，生成属性坐标和值坐标，根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息，其中所述所有待抽取信息包括所述待抽取信息；

将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则，其中，不同的待抽取信息训练出的抽取规则不同，所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器；

通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值，并抽取Web信息。

进一步地，所述方法还包括：构建所述HTML标签相对特征坐标系：

将所述所有待抽取信息中的第一个待抽取信息的属性或值所在HTML标签的相关节点作为训练坐标原点；

在以所述训练坐标原点为根节点的子树中查找所述待抽取信息的属性和值；

当所述训练坐标原点不能定位所述所有待抽取信息的属性和值时，更新所述训练坐标原点，将所述训练坐标原点的父节点作为更新后的训练坐标原点；

当所述训练坐标原点能定位所述所有待抽取信息的属性和值时，将所述所有待抽取信息中的每个待抽取信息的属性和值所在标签到当前训练坐标原点的路径作为所述每个待抽取信息的属性坐标和值坐标，所述每个待抽取信息的属性坐标和值坐标组成的坐标系构建所述HTML标签相对特征坐标系。

进一步地，所述方法还包括：在满足所述抽取规则的准确率和召回率阈值的情况下，同类Web页面数据生成的包装器最小，所述包装器中的抽取规则所定位的标签的路径最短。

进一步地，在所述通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值之前，所述方法还包括：

定位所述待抽取信息的抽取坐标原点，根据所述训练坐标原点的文本特征和正则表达式匹配，查找出所述抽取坐标原点所在标签。

进一步地，所述抽取Web信息具体包括：

对所述Web建立HTML标签相对特征坐标系；

对所述Web中的所述待抽取信息建立属性坐标和值坐标；

利用训练集中的网页修正所述待抽取信息的属性坐标和值坐标，使得所述待抽取信息的属性坐标和值坐标能够定位到固定阈值比例的待抽取信息，并将所述待抽取信息的属性坐标和值坐标作为所述待抽取信息的抽取规则；

对于同类的Web页面数据，将所有待抽取信息的属性坐标和值坐标对组合，并构成同类的Web页面数据的包装器；

通过所述坐标原点的文本特征和正则表达式，查找出所述坐标原点的标签，当所述包装器中的抽取规则定位到的属性坐标与所述待抽取信息的属性一致时，则所述包装器中的抽取规则定位到的值坐标为所述待抽取信息。

进一步地，所述抽取Web信息具体还包括：

对于不同类的Web页面数据，将所有待抽取信息的属性坐标和值坐标对组合，并构成不同类的Web页面数据的包装器集合。

本发明提供的网页信息抽取方法，对网页Web的页面数据建立文档对象模型DOM树，从所述DOM树中递归选取包含所有待抽取信息的节点子树，将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点；将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径，生成属性坐标和值坐标，根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息；将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则，所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器；通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值，并抽取Web信息。该方法利用双向定位法抽取Web信息，可以降低抽取信息错误率，提高抽取的准确性；同时相对特征坐标系的使用，极大的减少了构造Web页面的DOM树所需要花费的时间，提高信息抽取效率。

附图说明

图1为本发明实施例提供的网页信息抽取方法流程图；

图2为本发明实施例提供的网页信息抽取方法结构示意图；

图3为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图；

图4为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图；

图5为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图；

图6为本发明实施例提供的包装器训练流程图；

图7为本发明实施例提供的信息抽取的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

下面以图1为例详细说明本发明实施例提供的网页信息抽取方法，Web信息抽取方法的流程主要包括包装器训练和信息抽取的流程。图1为本发明实施例提供的网页信息抽取方法流程图，图2为本发明实施例提供的网页信息抽取方法结构示意图。结合图1和图2所示，该方法包括如下步骤：

步骤S101、对网页Web的页面数据建立文档对象模型DOM树，从所述DOM树中递归选取包含所有待抽取信息的节点子树，选取所述节点子树中所述所有待抽取信息的属性节点的路径、值节点的路径和最小的子树，将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点；

其中，构建所述HTML标签相对特征坐标系具体包括以下步骤：

步骤21、将所述所有待抽取信息中的第一个待抽取信息的属性或值所在HTML标签的相关节点作为训练坐标原点；

步骤22、在以所述训练坐标原点为根节点的子树中查找所述待抽取信息的属性和值；

步骤23、当所述训练坐标原点不能定位所述所有待抽取信息的属性和值时，更新所述训练坐标原点，将所述训练坐标原点的父节点作为更新后的训练坐标原点；

具体地，当训练坐标原点不能定位所有待抽取信息的属性和值时，循环执行步骤23，直到训练坐标原点能定位所有待抽取信息的属性和值。例如，当训练坐标原点c不能定位所有待抽取信息的属性和值时，更新训练坐标原点c，将训练坐标原点c的父节点d作为更新后的训练坐标原点；如果新的训练坐标原点d也不能定位所有待抽取信息的属性和值时，再次更新训练坐标原点d，将训练坐标原点d的父节点e作为更新后的训练坐标原点；以此类推，直到训练坐标原点能定位所有待抽取信息的属性和值，再进行步骤24。

步骤24、当所述训练坐标原点能定位所述所有待抽取信息的属性和值时，将所述所有待抽取信息中的每个待抽取信息的属性和值所在标签到当前训练坐标原点的路径作为所述每个待抽取信息的属性坐标和值坐标，所述每个待抽取信息的属性坐标和值坐标组成的坐标系构建所述HTML标签相对特征坐标系。

步骤S102、将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径，生成属性坐标和值坐标，根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息，其中所述所有待抽取信息包括所述待抽取信息；

具体地，DOM树中元素标签中的属性与值存在三种关系，图3、4和5为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图，具体地，如图3所示，元素由混合式内容构成，抽取信息需定位到抽取信息的父节点；如图4所示，元素由混合式内容构成，抽取信息需定位到抽取信息的子节点；如图5所示，元素由子元素构成，抽取信息需定位到抽取信息的兄弟节点。

步骤S103、将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则，其中，不同的待抽取信息训练出的抽取规则不同，所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器；

包装器训练模块，通过对训练集进行训练，查找所有待抽取信息所在DOM树中的子树，构建HTML标签相对特征坐标系，构造坐标系的坐标原点，并训练得到属性和值所在DOM子树的路径作为HTML标签相对特征坐标系中的固定坐标，两个坐标即为抽取该属性值的抽取规则，多个抽取规则组合在一起组成包装器。

为更好地理解上述方法，以一个具体的流程对上述步骤101-步骤103的执行过程进行说明。

如图6所示的包装器训练流程图，步骤101-步骤103描述的包装器训练流程图具体包括以下步骤：

步骤201、训练开始

步骤202、选择训练集中的一个网页，输入到包装器训练模块；

步骤203、对该网页建立DOM树；

步骤204、将第一个抽取属性所在DOM树的节点作为坐标原点；

步骤205、将坐标原点的父节点作为坐标原点；

步骤206、测试所有其他待抽取信息节点是否在该原点子树上，如果都在，执行步骤207，否则，执行步骤205；

步骤207、计算所有待抽取信息的元数据属性相对于坐标原点的XPath路径作为坐标，构建了基于属性的相对坐标系；

步骤208、以属性建立的坐标原点作为原点，计算在其所在子树所有待抽取信息的值相对于坐标原点的XPath路径作为坐标，构建基于值的相对坐标系；

步骤209、分析所有训练集中的网页，使用XPath路径提取属性和值，验证属性坐标和值坐标提取信息是否能够满足召回率和精确度达到阈值0.99，如果已经达到，则执行步骤210，否则执行步骤202；

步骤210、将坐标原点的文本以及所有抽取信息的属性坐标和值坐标组合成包装器输出到信息抽取模块；

步骤211、训练结束。

上述步骤201-步骤211是步骤101-步骤103的具体化，等同于步骤101-步骤103。

步骤S104、通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值，并抽取Web信息。

信息抽取模块，利用包装器训练模块训练出的包装器，使用每条规则中的两个坐标，定位待抽取属性和值，进行Web信息抽取，对两种坐标系下抽取的值进行比较。

可选地，在所述通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值之前，还包括：定位所述待抽取信息的抽取坐标原点，根据所述训练坐标原点的文本特征和正则表达式匹配，查找出所述抽取坐标原点所在标签。

其中，抽取Web信息具体包括以下步骤：

步骤31、对所述Web建立HTML标签相对特征坐标系；

步骤32、对所述Web中的所述待抽取信息建立属性坐标和值坐标；

步骤33、利用训练集中的网页修正所述待抽取信息的属性坐标和值坐标，使得所述待抽取信息的属性坐标和值坐标能够定位到固定阈值比例的待抽取信息，并将所述待抽取信息的属性坐标和值坐标作为所述待抽取信息的抽取规则；

步骤34、对于同类的Web页面数据，将所有待抽取信息的属性坐标和值坐标对组合，并构成同类的Web页面数据的包装器；

进一步地，对于不同类的Web页面数据，将所有待抽取信息的属性坐标和值坐标对组合，并构成不同类的Web页面数据的包装器集合。

步骤35、通过所述坐标原点的文本特征和正则表达式，查找出所述坐标原点的标签，当所述包装器中的抽取规则定位到的属性坐标与所述待抽取信息的属性一致时，则所述包装器中的抽取规则定位到的值坐标为所述待抽取信息。

为更好地理解上述方法，以一个具体的流程对上述步骤104的执行过程进行说明。

如图7所示，信息抽取的流程具体包括以下步骤：

步骤301、抽取开始；

步骤302、取待抽取信息的Web页面；

步骤303、取对应包装器的属性坐标和值坐标对集合；

步骤304、取坐标原点的文本，通过正则表达式定位该原点；

步骤305、使用每条规则中的两个坐标，双向定位待抽取属性和值；

步骤306、两个坐标都能定位到数据，并且属性与待抽取信息一致；如果满足以上条件，执行步骤307，否则，执行步骤308.

步骤307、定位到的信息，即为需要抽取的信息，对所以待抽取信息，进行步骤303到步骤308；

步骤308、待抽取信息抽取失败，对于必须抽取的信息，产生告警，对于不重要的抽取信息，忽略继续抽取；

步骤309、抽取结束。

上述步骤301-步骤309是步骤104的具体化，等同于步骤104。

进一步地，在满足所述抽取规则的准确率和召回率阈值的情况下，同类Web页面数据生成的包装器最小，所述包装器中的抽取规则所定位的标签的路径最短。

本发明实施例提供的网页信息抽取方法，对网页Web的页面数据建立文档对象模型DOM树，从所述DOM树中递归选取包含所有待抽取信息的节点子树，将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点；将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径，生成属性坐标和值坐标，根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息；将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则，所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器；通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值，并抽取Web信息。降低抽取信息错误率，提高抽取的准确性；极大的减少了构造Web页面的DOM树所需要花费的时间，提高信息抽取效率。

因此，本发明提供的网页信息抽取方法，利用双向定位法抽取Web信息，可以降低抽取信息错误率，提高抽取的准确性；同时相对特征坐标系的使用，极大的减少了构造Web页面的DOM树所需要花费的时间，提高信息抽取效率。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页信息抽取方法，其特征在于，所述方法包括：

通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值，并抽取Web信息；所述抽取Web信息具体包括：

对所述Web建立HTML标签相对特征坐标系；

对所述Web中的所述待抽取信息建立属性坐标和值坐标；

通过所述坐标原点的文本特征和正则表达式，查找出所述坐标原点的标签，当所述包装器中的抽取规则定位到的属性坐标与所述待抽取信息的属性一致时，则所述包装器中的抽取规则定位到的值坐标为所述待抽取信息；所述方法还包括：构建所述HTML标签相对特征坐标系：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在满足所述抽取规则的准确率和召回率阈值的情况下，同类Web页面数据生成的包装器最小，所述包装器中的抽取规则所定位的标签的路径最短。

3.根据权利要求1所述的方法，其特征在于，在所述通过所述包装器的抽取规则的属性坐标和值坐标，定位所述待抽取信息的属性和值之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述抽取Web信息具体还包括：