CN107943929A

CN107943929A - 基于dom树抽象的包装器自动生成方法

Info

Publication number: CN107943929A
Application number: CN201711172974.8A
Authority: CN
Inventors: 陈星�; 张佳俊; 王洲; 王一洲
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-04-20
Anticipated expiration: 2037-11-22
Also published as: CN107943929B

Abstract

本发明涉及一种基于DOM树抽象的包装器自动生成方法。包装器生成阶段：用户输入网页集合，得到DOM树集合；而后，对DOM树进行合并，遍历DOM树对相同标签的子节点进行合并，并且针对每个节点进行路径特征标注，最终将DOM树集合转化为合并树集合；对合并树集合进行抽象操作得到抽象树，并将抽象树存入数据库中；根据配置文档确定结构化数据在合并树中的路径特征，将对应的路径特征经过处理后写入文档中，生成包装器；结构化数据抽取阶段：将待抽取的目标网页解析成DOM树，与抽象树进行匹配确定目标网页是否为包装器对应的类型网页；读取配置文档中的路径对目标DOM树进行抽取。本发明不仅能实现自动化生产包装器，并且在准确率和时间性能上也有较好的表现。

Description

基于DOM树抽象的包装器自动生成方法

技术领域

本发明属于云计算领域，具体涉及一种基于DOM树抽象的包装器自动生成方法。

背景技术

传统的包装器都由人工定义，要为不同类型的页面制作不同的包装器，因此包装器的维护是一个很大的开销，一旦原来的页面风格变了，原来的包装器也就需要重新定义。因此，目前主流的研究趋势是包装器的自动生成，本申请提出一种可行的基于DOM树抽象的包装器自动生成技术。该技术主要有两个部分组成：第一，目标类型网页的DOM树抽象；第二，目标节点的特征获取和定位。运用该技术可以对多种类型的网页实现包装器的自动生成。针对5个网站进行了实验，实验结果表明该方法的可行性和有效性。

发明内容

本发明的目的在于提供一种基于DOM树抽象的包装器自动生成方法，该方法不仅能实现自动化生产包装器，并且在准确率和时间性能上也有较好的表现。

为实现上述目的，本发明的技术方案是：一种基于DOM树抽象的包装器自动生成方法，包括如下步骤，

步骤S1、包装器生成阶段：

步骤S11、用户输入网页集合，通过网页预处理去除源码中的杂质信息，并解析成DOM树，得到DOM树集合；

步骤S12、对DOM树进行合并，遍历DOM树对相同标签的子节点进行合并，并且针对每个节点进行路径特征标注，最终将DOM树集合转化为合并树集合；

步骤S13、对合并树集合进行抽象操作得到抽象树，并将抽象树存入数据库中；

步骤S14、根据配置文档确定结构化数据在合并树中的路径特征，将对应的路径特征经过处理后写入文档中，生成包装器；

步骤S2、结构化数据抽取阶段：

步骤S21、将待抽取的目标网页解析成DOM树；

步骤S22、将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页；

步骤S23、读取配置文档中的路径对目标DOM树进行抽取。

在本发明一实施例中，所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合，具体的CombinerTree算法实现如下：

(1)设child[n₀]为DOM树T_i的根节点vi子节点；

(2)输入节点vi，若vi存在子节点，则获取vi的子节点并存入child[n₀]；

(3)对child[n₀]中的所有子节点进行两两判断：

假设选取的两个vi的子节点为k、h，若k≠h，并且k的标签＝h的标签，则获取子节点h的子节点并存入temp[m]中；而后，将temp[m]添加为子节点k的子节点，移除子节点h；

(4)再次获取vi的子节点并存入child[n₁]，设ai为child[n₁]中的第i个节点，i＝0,1,2,……对所有节点ai判断执行步骤(2)-(4)的操作，输出合并树T_i；

(5)对所有DOM树执行步骤(1)-(4)的操作，输出合并树集合D＝{T₁,T₂,…,T_n}。

在本发明一实施例中，所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树，具体的AbstractTree算法实现如下：

(1)输入合并树集合D＝{T₁,T₂,…,T_n}；

(2)将T₁转化成抽象树的数据结构，并存入T_i；

(3)对于每个T_j∈{T₂,…,T_n}进行判断：

(3.1)获取T_i的根节点并存入v_i0，获取T_j的根节点并存入v_j0；

(3.2)对v_i0与v_j0递归执行比较操作：

(3.2.1)获取v_i0的子节点并存入child_i[n]，获取v_j0的子节点并存入child_j[m]；

(3.2.2)对于每个节点k∈child_j[m]进行判断：若child_i[n]中不存在节点与k对应，将节点k添加为v_i0的子节点，同时更新child_i[n]；

(3.2.3)依此类推，对v_i0的子节点与v_j0的子节点，v_i0的子节点的子节点与v_j0的子节点的子节点，……递归执行比较操作。

相较于现有技术，本发明具有以下有益效果：

本发明方法不仅能实现自动化生产包装器，并且在准确率和时间性能上也有较好的表现。该方法在构造DOM树时，以标签作为节点标志，所有构造所需的时间较少，并且能够很好的利用DOM树的树形结构表示原页面标签的嵌套和层次关系。在对于DOM树的抽象中，对DOM树进行了剪枝，也保证了DOM树的最简，从而减少了存储资源的利用，本文分析了将严格的节点路径作为节点位置特征的缺陷，因此将采用合并树的路径作为节点位置特征，能够实现每个节点存在唯一标识，并且能够适应网页的细微变化。定位目标信息位置时，每个节点的唯一性使得能够准确的获取目标信息特征，并通过特征总结判断所需获取的节点其位置特点是否满足某种规律分布，然后在目标网页中依据总结的规律依此输出节点信息。在抽取目标内容时，运用目标节点的特征，理想情况下能在O(n)的情况下就能找到对象信息。

附图说明

图1为节点路径对比图。

图2为本发明将DOM转换为合并树的示意图。

图3为本发明将合并树集合转化为抽象树的示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明一种基于DOM树抽象的包装器自动生成方法，包括如下步骤，

步骤S1、包装器生成阶段：

步骤S2、结构化数据抽取阶段：

步骤S21、将待抽取的目标网页解析成DOM树；

步骤S23、读取配置文档中的路径对目标DOM树进行抽取。

所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合，具体的CombinerTree算法实现如下：

(1)设child[n₀]为DOM树T_i的根节点vi子节点；

(3)对child[n₀]中的所有子节点进行两两判断：

所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树，具体的AbstractTree算法实现如下：

(1)输入合并树集合D＝{T₁,T₂,…,T_n}；

(2)将T₁转化成抽象树的数据结构，并存入T_i；

(3)对于每个T_j∈{T₂,…,T_n}进行判断：

(3.1)获取T_i的根节点并存入v_i0，获取T_j的根节点并存入v_j0；

(3.2)对v_i0与v_j0递归执行比较操作：

以下为本发明的一具体实现实例。

1方法概览

全自动化包装器的结构化数据抽取由3个模块组成，分别是网页预处理模块、DOM树抽象模块和节点定位模块。其过程可分为两个阶段包装器生成阶段和结构化数据抽取阶段。包装器生成阶段可分为四个步骤：1、用户输入网页集合，通过网页预处理去除源码中的杂质信息，并解析成DOM树，得到DOM树集合。2、对DOM树进行合并，遍历DOM树对相同标签的子节点进行合并并且针对每个节点进行路径特征标注，最终将DOM树集合转化为合并树集合。3、对合并树集合进行抽象操作得到抽象树，并将抽象树存入数据库中。4、根据配置文档确定结构化数据在合并树中的路径特征，将对应的路径特征经过处理后写入文档中，生成包装器。结构化数据抽取阶段是根据包装器进行数据抽取，首先将抽取的目标网页解析成DOM树。然后，将DOM树与抽象树进行匹配确定目标网页是否为包装器对应的类型网页。最后，读取配置文档中的路径对目标DOM树进行抽取。

2DOM树抽象模块

2.1节点位置特征与合并树

节点位置特征可以是标签路径，也可以是标签其他的特征。在Web信息抽取技术中节点位置特征占有重要地位。在包装器中常用的节点位置特征是标签节点在网页DOM树中的路径，如节点路径p1:body[0]/div[1]/div[0]/p[0]，p1路径中的数值代表该节点在兄弟节点中的次序，这种路径确实能够唯一定位到DOM树中的特定节点，然而在这条路径中，只要任意一个div节点在其兄弟节点的顺序发生变化，那么就会导致路径定位到其他节点。如图1所示，在DOM树T1和T2之间仅仅相差一个节点p，然而路径p1在T2中却找不到对应的节点。事实上，在实验中出现图1的情况是很常见的，这些细微的结构变化导致了节点位置特征失效。

在上文中分析了严格的节点路径所带来的问题，利用在兄弟节点中的顺序来定位标签节点反而导致准确率的下降。然而，如果简单地去除路径中的序号，会导致相同的路径定位到不同的节点，例如：body/div/div/p对应的节点可以有多个。为此，本发明提出了合并树，在其合并的过程中抛弃了与兄弟节点的联系，保留与父亲节点的联系，并在叶子节点采用数组的形式保留节点的内容，使得路径能够唯一定位到合并树中的节点，如图2所示。本发明定了合并树如下：

定义.T_k是一颗以v₀为根的合并树，对于任意的节点v∈V，若v_k0,v_k1,…,v_kn有相同的父节点v_k。则Tag(v_ki)≠Tag(v_kj)，i≠j，0<＝i,j<＝n。

通过算法1可以将DOM树转化为合并树：

算法1中函数CombinerTree是一个递归函数，在前序遍历DOM树的过程中完成节点的合并。节点合并是将兄弟节点中相同标签的节点合并成一个节点，并且这个节点包含了所有的子节点。如图2为网页对应DOM树转化为合并树的过程。

2.2抽象树

因在合并树的基础上本发明结合RoadRunner原理，提出了抽象树。抽象树实际上是一个通用的模板，根据这个模板来确定目标网页对应的类型。抽象是由合并树通过比对生成的。本发明定义抽象树的节点为：

定义.给定抽象树T的一个节点v₀，那么该节点可表示为一个四元组v＝<p,t,c,r>，其中p表示v₀的路径，在抽象树中路径可以唯一表示该节点，t表示该节点对应的标签，c表示子节点的引用集合，r表示对应子节点的关系集合，r有两种表示方式：+，？。其中’+’表示所有的合并树都具有该节点，’？’表示只有部分合并树具有该节点。

算法2为抽象树的生成算法：

算法2中函数Compare是一个递归函数，在前序遍历DOM树的过程中完成节点的比对。若节点在抽象树中不存在则添加节点，并设置其关系为’？’，表示可能不存在。如图3为合并树转化为抽象树的过程。

3目标节点定位

传统处理多目标抽取的方式是在配置文档中直接列出样本网页中所有需要抽取的目标实例的数据，也就是存在多个<bean>。若页面中存在20个商品信息，则在配置文档中必须有明确20个<bean>实例，否则在对目标网页进行抽取是就可能会发生遗漏，并且当目标网页存在更多的实例时只会抽取出前20个。

本发明基于前人在抽取多目标类型网页中的结构化数据时所采用的方法，提出了一种路径规律总结方法，使得用户不必在配置文档中详细列出该网页中所有的实例，就能够抽取出目标网页中的所有实例。前人利用多目标网页中的实例对应的网页结构必定存在重复这个原理，来自动化抽取网页中的结构化数据，例如，每个商品都是一个独立的模块，并且模块中的结构是一样的，因此它们路径一定会存在规律。在正常的DOM树结构中，这个规律会表现在路径中的div块上，每个div块包含一个商品实例，并且这些div块有相同的父节点。在合并树中，因为对节点进行合并，所以这个规律会反映在叶子节点的顺序上，例如：第一款商品的价格路径为p:body/div/div/p[0]，第二款商品的价格路径为p:body/div/div/p[3]，第三款商品的价格路径为p:body/div/div/p[6]。显然，在合并树中价格在叶子上的次序是呈线性关系。因此，本发明利用算法3来对多目标结构化数据的路径进行归并。

算法3是路径归并算法，用来求得参数a,b对应的值。输入是网页中不同实例的相同属性对应在合并树路经集合P。函数getSequenceNumber获取路径中叶子节点的内容序号，并将其排序输出。

在通过2.1节可以得到目标网页DOM树，在同一类型网页中，相同类型属性的节点特征是相同的，即所在位置相同。所以在同一类型网页中通过查找实例信息在DOM树模板中的位置对应的特征作为抽取规则，能够在满足DOM树模板的该类型网页的DOM树中获取目标信息。

目标网页DOM树结合上节得到的实例信息的位置特征作为抽取规则，就能够获取目标网页中所需要的目标信息。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于DOM树抽象的包装器自动生成方法，其特征在于：包括如下步骤，

步骤S1、包装器生成阶段：

步骤S2、结构化数据抽取阶段：

步骤S21、将待抽取的目标网页解析成DOM树；

步骤S23、读取配置文档中的路径对目标DOM树进行抽取。

2.根据权利要求1所述的基于DOM树抽象的包装器自动生成方法，其特征在于：所述步骤S12采用CombinerTree算法实现将DOM树集合转化为合并树集合，具体的CombinerTree算法实现如下：

(1)设child[n₀]为DOM树T_i的根节点vi子节点；

(3)对child[n₀]中的所有子节点进行两两判断：

3.根据权利要求1所述的基于DOM树抽象的包装器自动生成方法，其特征在于：所述步骤S13采用AbstractTree算法实现将合并树集合进行抽象操作得到抽象树，具体的AbstractTree算法实现如下：

(1)输入合并树集合D＝{T₁,T₂,…,T_n}；

(2)将T₁转化成抽象树的数据结构，并存入T_i；

(3)对于每个T_j∈{T₂,…,T_n}进行判断：

(3.1)获取T_i的根节点并存入v_i0，获取T_j的根节点并存入v_j0；

(3.2)对v_i0与v_j0递归执行比较操作：