CN101727461B

CN101727461B - 一种网页的正文抽取方法

Info

Publication number: CN101727461B
Application number: CN2008102237919A
Authority: CN
Inventors: 郭岩; 丁国栋; 张刚
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-10-13
Filing date: 2008-10-13
Publication date: 2012-11-21
Anticipated expiration: 2028-10-13
Also published as: CN101727461A

Abstract

本发明提供一种网页的正文抽取方法，包括下列步骤：1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作；2)从承载最长段落的节点集合中任选一个节点，从所选节点回溯至所述DOM树的根节点，计算各个节点的父节点及其子树与该节点及其子树承载的文本的标点符号的数量的差值，顺序构成增量序列；3)在所述增量序列中查找第一个0值的增量，或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量；4)如果查找到所述增量，则确定该增量的对应节点及其子树所承载的文本是网页的正文；5)如果未查找到所述增量，则确定根节点及其子树所承载的文本是网页的正文。本发明抽取精度高，实现速度快，维护代价低且适应性好。

Description

一种网页的正文抽取方法

技术领域

本发明涉及网络信息抽取技术领域，特别是一种网页的正文抽取方法。

背景技术

网络的飞速发展带来了海量的网络信息，如何抽取所需要的网络信息越来越被人们所关注。网络信息抽取是指从网页这样的半结构化文档中抽取出结构化信息。这些网页往往由服务器端的应用程序自动生成。网络信息抽取而生成的结构化信息为网络挖掘、网络检索等重要网络应用提供了最基础的分析数据。因此，网络信息抽取方法的研究具有非常重要的现实意义。

网络信息抽取的对象可以分为两大类：一类是抽取网页中的特定知识，即特定领域、特定网站、或特定格式的信息，如商品信息等；另一类是抽取网页中的内容，即主题内容或兴趣区域等。本发明的一种网页的正文抽取方法属于后一类。

互联网上的很多网页主要由这几类信息组成：导航信息、网页标题、网页正文、广告信息、版权信息和相关链接等。其中，网页要表达的信息主要集中在网页标题和网页正文中，尤其是网页正文中。因此，信息检索、自动分类、话题跟踪、机器翻译和文本摘要等重要的网络信息处理应用主要关注网页中的标题和正文，尤其是正文。然而，导航信息、广告信息、版权信息和相关链接等噪音信息在很大程度上干扰了网页信息的利用效果。例如，这些噪音信息会影响信息检索的效率、导致信息检索准确率的下降等。因此，如何快速准确地从网页中抽取出正文，去除噪音信息，提高网页的信息质量，已经成为信息检索等重要网络信息处理系统的必不可少的基础工作。

现有网页正文的抽取方法从使用的技术角度可以分为以下几类：

基于包装器的网页正文抽取方法：包装器是一段程序，它根据一定的信息模式识别规则，从特定的信息源中抽取相关内容。由于网页结构的复杂性及不规范性，一个包装器的实现一般只能针对一个信息源。而要处理的网页往往来自大量的不同信息源，如果采用这类方法，包装器的生成和维护代价是巨大的。因此，这类方法对于网页的正文抽取是不合适的。

基于数据挖掘的网页正文抽取方法：这类方法把数据挖掘的一些技术(如决策树、聚类、分类等技术)应用到对网页的正文抽取中。这类方法往往能够获得较高的抽取准确率，但普遍存在着需要人工标注、算法复杂度高的缺点。要处理的网页往往是大规模的，如果采用这类方法，在抽取效率方面往往不能满足需求。

基于统计的网页正文抽取方法：这类方法不需要针对不同的数据源构造不同的包装器，适应性比较好。现有的基于统计的网页正文抽取方法往往采用以下两种思路：

一种思路是：首先将网页中的内容按照一定标准分成若干内容块；然后根据一些启发式信息从所有内容块中识别出真正包含正文的信息块，剔除噪音块。

另一种思路是：首先将网页表达成一棵树，如文档对象模型(documentobject model，DOM)树、标签树、语义DOM树等。然后根据一些启发式信息对树中的噪音节点进行过滤或剪枝，具体的，遍历树中的所有节点，对每个节点用事先预定好的启发式规则(或标准)来衡量，看该节点是否承载正文的节点；如果是，则保留该节点；如果不是，则将该节点标识为噪音节点(表示废除该节点，称为过滤)或从树中砍掉以该节点为根的子树(称为剪枝)。最后树中保留的节点所承载的文本就是要抽取的正文。

采用以上两种思路的基于统计的网页正文抽取方法普遍存在以下不足：

方法中通常需要使用阈值来帮助剔除噪音信息，这就大大削弱了方法的适应性。大多数方法都采用单一阈值，但是，因为要处理的网页往往来自不同的信息源，且这些信息源往往是异构的，所以要想对每个信息源都能获得最好的抽取结果，用单一的阈值显然是不合理的，会影响抽取的精确度。有的方法提供了阈值学习机制，从而能够动态调整阈值，但这显然又增加了整个抽取方法的复杂度，降低了抽取速度。

有的方法为了剔除噪音信息，使用了一些视觉特征，例如字体大小、背景颜色、区域的坐标、位置等。但网页设计的复杂性，加上要处理的网页往往来自不同的信息源，且这些信息源往往是异构的，导致需要人工不断总结调整可利用的具有共性的视觉特征，这就增加了整个抽取方法的复杂度，并且在一定程度上影响了抽取的精度。

大多数方法为了剔除噪音信息，使用了一些网页布局特征(如超文本标记语言(Hypertext Markup Language，HTML)标签等)和内容特征(如文字长度、链接数量、图片数量等)。这些方法未能充分利用网页在结构和内容上的特征。例如有些方法在从树中查找承载正文的节点时，采用对树中的节点进行过滤或剪枝的方案。这样的操作往往没有考虑树中节点之间的组织关系，尤其是承载正文的节点之间的组织关系。由于没有充分利用网页本质上的特征，导致这些方法在对大量不同信息源的大规模数据进行抽取时，无法在抽取精度、抽取速度、方法的适应性、灵活度等方面同时满足实际需求。

发明内容

本发明要解决的技术问题是提供一种网页的正文抽取方法，能够满足处理来自大量不同信息源的大规模数据的实际需求，其抽取精度高、抽取速度快、维护代价极低，方法的适应性、灵活度高。

为实现上述目的，根据本发明的一个方面，提供了一种网页的正文抽取方法，包括下列步骤：

1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作；

2)从承载最长段落的节点集合中任选一个节点n₁，从所选节点n₁回溯至所述DOM树的根节点n_m，计算所述所选节点的父节点n₂及其子树与所述所选节点n₁及其子树承载的文本的标点符号的数量的差值d₂，依此类推，直到计算所述根节点及其子树与所述根节点的子节点及其子树承载的文本的标点符号的数量的增量d_m，顺序构成增量序列；

3)在所述增量序列中查找第一个0值的增量d_p，或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量d_q；

4)如果查找到所述增量d_p或所述增量d_q，则确定所述增量d_p的对应节点n_p-1及其子树或所述增量d_q的对应节点n_q-1及其各自的子树所承载的文本是网页的正文；

5)如果未查找到所述增量d_p或所述增量d_q，则确定所述根节点n_m及其子树所承载的文本是网页的正文。

其中，所述步骤1)包括：

11)对于每个特征节点，由所述特征节点及其子树承载的文本作为当前段落；

12)顺次判断所述特征节点前面的兄弟节点，如果所述前面的兄弟节点是特征节点，将所述前面的兄弟节点及其子树承载的文本合并到当前段落，直到所述前面的兄弟节点不是特征节点；顺次判断所述特征节点后面的兄弟节点，如果所述后面的兄弟节点是特征节点，将所述后面的兄弟节点及其子树承载的文本合并到当前段落，直到所述后面的兄弟节点不是特征节点；

13)统计所述合并后的段落的长度。

其中，所述步骤13)可以包括：

132)判断所述合并后的段落的标点符号数量是否为0；

134)对于标点符号数量不为0的所述合并后的段落，统计所述合并后的段落的长度。

其中，所述步骤13)可以包括：

132)判断所述合并后的段落的标点符号数量是否为0；

其中，所述DOM树的节点具有“已处理”属性，用于标识所述节点是否进行了所述合并段落操作。

其中，所述特征节点是标签名不为“script”和“style”的父节点或标签名为p，br，h1，h2，h3，h4，h5，h6，strong，em，br，b，i，tt，font的节点。

其中，所述标点符号包括：逗号和句号。

其中，所述标点符号是全角格式或半角格式。

本发明充分利用了网页在结构和内容方面的本质特征，抽取精度高；

该特征简单直观，实现速度快；抽取过程无需人工干预，维护代价低；而且适应性好。

附图说明

图1是根据本发明一个具体实施例的网页的正文抽取方法的流程图；

图2是根据本发明一个具体实施例的合并段落步骤的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种网页的正文抽取方法进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

要抽取的网页承载了很多信息，包括正文标题、正文来源、正文发布时间、正文、作者等信息，以及其他一些噪音信息，如导航信息、广告信息、版权信息和相关链接等。优选的，网页中的诸如导航信息等的噪音信息中标点符号(尤其是逗号和句号)较少甚至没有，而正文信息中的标点符号(尤其是逗号和句号)则较多。例如，新闻网页，包括新闻标题、新闻来源、新闻分布时间、新闻正文和撰写新闻的作者等信息，且在新闻正文中标点符号较多，其它信息部分标点符号则较少。

文档对象模型(DOM)是W3C制定的标准接口规范。可以用DOM模型将一个网页的组织结构描述成一棵树，通常称为DOM树。树中的每个节点是一个对象。DOM树不仅描述了网页的结构，还定义了节点对象的行为。即可以利用对象的方法和属性，方便地对树中的节点和内容作动态操作，如访问、修改、添加和删除等。根据本发明一个具体实施例，基于DOM树对网页进行正文抽取。将一个网页转化成DOM树后，诸如正文的网页中的内容，就包含在树中的一些节点中。当然，诸如导航信息等噪音信息的网页中的其他内容，也包含在一些节点中。

在对根据本发明一个具体实施例的方法做详细说明前，首先对所涉及的相关概念进行说明。

“特征节点”：文本节点的标签名不为“script”和“style”的父节点；或标签名为p，br，h1，h2，h3，h4，h5，h6，strong，em，br，b，i，tt，font的节点。本领域技术人员可以理解上述标签名是标准的HTML标签。

“段落”：若干相邻的互为兄弟的特征节点共同承载的文本。对于任意一个特征节点，可以实行“合并段落”操作，从而获得该特征节点及其子树所承载的文本所属的最大段落。在下文中，将这个最大段落称为“该特征节点相应的段落”。

“正文总节点”：DOM树中存在一个具有如下特征节点，该节点及其子树承载且只承载了正文的所有部分。即除了正文，没有承载其他任何内容(如广告信息等噪音信息等)；且该节点的任何子节点及其子树都不能够承载正文的所有部分。

“文本节点集合”：DOM树中存在多个具有如下特征的节点集合：集合中的所有节点为特征节点，且在DOM树中位于同一层，且相邻；即集合中的节点为相邻的兄弟节点；集合中的所有节点共同承载的文本集合是网页内容的一个段落，其可能是正文的一部分，也可能是导航信息等噪音信息的一部分。

“正文初节点集”：在所有的“文本节点集合”中存在一个具有如下特征节点集合，该集合中的所有节点共同承载的段落是正文的一部分；在所有“文本节点集合”各自承载的段落中，“正文初节点集”承载的段落的文本长度最长，也即文本字符数最多。

基于以上概念，根据本发明的一个具体实施例从DOM树中首先找到“正文初节点集”，然后从“正文初节点集”开始回溯，根据启发式规则找到“正文总节点”，继而获得正文。如图1所示，该具体实施例包括如下步骤：

为输入页面建立DOM树，并将DOM树中的所有节点的“已处理”属性置为0。

遍历树中所有节点，当遇到“已处理”属性为0的特征节点时，进行合并段落的操作，获得所有段落。

其中，对一个特征节点实行合并段落的操作具体包括如下13个步骤：

SS1.将该特征节点及其子树承载的文本作为当前段落，将该节点的“已处理”属性置为1；

SS2.考察DOM树中，位于该特征节点前面的兄弟节点是否为特征节点；如果是，则转步骤SS3；否则，转步骤SS4；

SS3.将该兄弟节点及其子树承载的所有文本和当前段落合并，构成一个新的段落，作为当前段落，将该兄弟节点的“已处理”属性置为1，转SS5；

SS4.考察DOM树中，位于该特征节点后面的兄弟节点是否为特征节点，如果是，则转步骤SS6；否则，转步骤SS8；

SS5.继续考察DOM树中，位于该兄弟节点前面的兄弟节点是否为特征节点；如果是，则转步骤SS3；否则，转步骤SS4；

SS6.将该兄弟节点及其子树承载的所有文本和当前的段落合并，构成一个新的段落，作为当前段落，将该兄弟节点的“已处理”属性置为1；

SS7.继续考察DOM树中，位于该兄弟节点后面的兄弟节点是否为特征节点；如果是，则转步骤SS6；否则，转步骤SS8；

SS8.将当前段落作为合并后的段落；

SS10.忽略此合并后的段落；转步骤SS13；

SS11.统计合并后的段落中的标点符号数量，其中标点符号包括全角格式或半角格式的逗号和句号，考察统计结果是否为0；如果是，转步骤SS10；否则转步骤SS12；

SS12.统计合并后的段落的文本长度(即字符数)；

SS13.合并段落的操作结束。

从所有段落中选择具有最长文本的段落，该段落中的标点符号的数量记为t₁；共同承载该段落的所有节点(必定是若干相邻的、且互为兄弟的特征节点)构成“正文初节点集”，从集合中任选一个节点，记为n₁；

从节点n₁开始回溯直至根节点，假设依次找到的祖先节点记为n_i，其中i＝2，3，...；即n_j为n_j-1的父节点，其中j＝2，3，...；回溯过程中，统计n_i及其子树承载的文本中的标点符号的数量，记为t_i，其中i＝2，3，...；回溯过程中，计算从节点n_j-1到n_j所承载的文本中标点符号的数量的增量，记为d_j＝t_j-t_j-1，其中i＝2，3，...；这里设d₁＝-1；构成增量序列d₁d₂d₃...；

在增量序列d₁d₂d₃...中，找满足以下任一条件的K值：

A)d_K为序列中出现的第1个0值；

B)d_K为序列中出现的第1个低谷值，即满足以下条件：

d₁≤d₂≤...≤d_K-1，d_K-1>d_K，且d_K≤d_K+1；

如果找到K值，则将节点n_K-1作为“正文总节点”，该节点及其子树所承载的文本即为网页中的正文；否则，将根节点作为“正文总节点”，该根节点及其子树所承载的文本即为网页中的正文。

通过上面对本发明具体实施方式的描述，可见本发明产生的有益技术效果是：

1)本发明充分利用了网页在结构和内容方面的本质特征(如DOM树中“正文总节点”、“正文初节点集”的存在，正文中标点符号多的特点，承载正文的节点之间的组织结构等)，从而能够准确地定位到正文，使得抽取的召回率可高达100％，平均准确率可高达95％。从而使本发明在抽取精度方面满足了处理来自大量不同信息源的大规模数据的实际需求。

2)本发明思路直观、简单，抽取过程中使用的都是网页在结构和内容方面最简单、最容易获得的特征，使得抽取的平均速度可高达10页/秒。从而在抽取速度方面满足了处理来自大量不同信息源的大规模数据的实际需求。

3)本发明是全自动的抽取方法，抽取过程中无需人工任何干预，维护代价几乎为零。因此在维护代价方面满足了处理来自大量不同信息源的大规模数据的实际需求。

4)本发明具有良好的适应性，表现如下：

本发明是一种基于统计的网页正文抽取方法，不需要针对不同的数据源构造不同的包装器；

本发明在抽取过程中，使用的网页在结构和内容方面的特征大多与语言无关，这使得本发明的方法能够适应于多种语言，例如中文、英文、德文、法文、俄文等；

本发明的方法没有通过使用阈值来帮助剔除噪音信息，使得本发明的方法有足够的灵活性来处理各种异构信息源的情况；

有些正文中掺杂了过多的图片、链接，使得正文被打碎成片段，不容易被完整地抽取出来。很多正文抽取方法都处理不好这样的情况，本发明的方法采用了合并段落、回溯查找承载正文的节点等策略，从而可以快速而准取地抽取到完整的正文；

很多正文抽取方法都只能处理这样的情况：所有正文都由DOM树中的一个标签为table的节点及其子树所承载。而本发明的方法则没有这样的限制；

有些正文由于过短，不容易从噪音信息中被识别并抽取出来。很多正文抽取方法都处理不好这样的情况，本发明的方法采用了合并段落、利用正文中标点符号的特点过滤噪音信息等策略，可以快速且准确地识别并抽取正文。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种网页的正文抽取方法，包括下列步骤：

1）将为所述网页建立的DOM树中的所有特征节点进行合并段落操作；

2）从承载最长段落的节点集合中任选一个节点n₁，从所选节点n₁回溯至所述DOM树的根节点n_m，计算所述所选节点的父节点n₂及其子树与所述所选节点n₁及其子树承载的文本的标点符号的数量的差值d₂，依此类推，直到计算所述根节点及其子树与所述根节点的子节点及其子树承载的文本的标点符号的数量的增量d_m，顺序构成增量序列；

3）在所述增量序列中查找第一个0值的增量d_p，或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量d_q；

4）如果查找到所述增量d_p或所述增量d_q，则确定所述增量d_p的对应节点n_p－1及其子树或所述增量d_q的对应节点n_q－1及其各自的子树所承载的文本是网页的正文；

5）如果未查找到所述增量d_p或所述增量d_q，则确定所述根节点n_m及其子树所承载的文本是网页的正文。

2.根据权利要求1所述的方法，其特征在于，所述步骤1）包括：

11）对于每个特征节点，由所述特征节点及其子树承载的文本作为当前段落；

12）顺次判断所述特征节点前面的兄弟节点，如果所述前面的兄弟节点是特征节点，将所述前面的兄弟节点及其子树承载的文本合并到当前段落，直到所述前面的兄弟节点不是特征节点；顺次判断所述特征节点后面的兄弟节点，如果所述后面的兄弟节点是特征节点，将所述后面的兄弟节点及其子树承载的文本合并到当前段落，直到所述后面的兄弟节点不是特征节点；

13）统计所述合并后的段落的长度。

3.根据权利要求2所述的方法，其特征在于，所述步骤13）包括：

131）判断所述合并后的段落是否包含指定关键词；

133）对于不包含所述指定关键词的所述合并后的段落，统计所述合并后的段落的长度。

4.根据权利要求2所述的方法，其特征在于，所述步骤13）包括：

132）判断所述合并后的段落的标点符号数量是否为0；

134）对于标点符号数量不为0的所述合并后的段落，统计所述合并后的段落的长度。

5.根据权利要求2所述的方法，其特征在于，所述步骤13）包括：

131）判断所述合并后的段落是否包含指定关键词；

132）判断所述合并后的段落的标点符号数量是否为0；

135）对于不包含所述指定关键词且标点符号数量不为0的所述合并后的段落，统计所述合并后的段落的长度。

6.根据权利要求1所述的方法，其特征在于，所述DOM树的节点具有用于标识所述节点是否进行了所述合并段落操作的属性。

7.根据权利要求1所述的方法，其特征在于，所述特征节点是用于承载文本的节点。

8.根据权利要求1至7任一所述的方法，其特征在于，所述标点符号包括：逗号和句号。

9.根据权利要求8所述的方法，其特征在于，所述标点符号是全角格式或半角格式。