CN103714176A

CN103714176A - 基于最大文本密度的网页正文抽取方法

Info

Publication number: CN103714176A
Application number: CN201410007832.6A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 丁志军; 王鹏伟; 何源; 夏琳娟
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-01-08
Filing date: 2014-01-08
Publication date: 2014-04-09

Abstract

本发明涉及一种基于最大文本密度的网页正文提取方法，其具体步骤如下：步骤一、网页预处理：处理字符编码、网页规范化；步骤二、将网页解析成一棵DOM树，并根据特定标签，将网页中的“标签文本块”抽取出来；步骤三，计算最大文本密度；步骤四，抽取正文；待所有标签文本块都处理完毕后，按照计算出的文本密度进行排序，选取文本密度值最大的标签，此标签及其嵌套的子标签的内容即是正文文本块，去标签之后得到正文文本。本发明是基于统计的使用最大文本密度的网页正文提取算法，其算法复杂度低，具有普适性，而且对于结构复杂的网页也有不错的效果。

Description

基于最大文本密度的网页正文抽取方法

技术领域

本发明涉及基于互联网的信息处理, 为网络信息抽取及应用。

背景技术

随着时代的发展，万维网已经成为人们获取信息的一个重要来源。用户通常使用浏览器直接查看网页，此外，还有许多基于互联网的信息处理工作（如信息搜索、数据挖掘、机器翻译等），也是以网页的信息内容为基础数据来进行开展的。但是，现在互联网上的网页的正文信息经常被广告链接、导航条、版权信息等“网页噪音”所包围。如何准确、高效地提取网页的正文信息已经成为当前网络信息抽取及应用的一个重要课题，具有很高的应用价值和实践意义。

目前，关于网页正文提取的方法主要可以分为基于统计、基于DOM结构、基于网页分块以及基于模版等方法。

基于统计的网页正文抽取方法，通过寻找包含中文字符数量最大的节点，来提取网页正文，实现简单，而且不需要样本学习，能大大提高正文抽取的速度。基于DOM的Web抽取技术，是将网页中某些具有意义的特定标签提取出来，将HTML文档表示成一个DOM树的结构，再根据这些特定标签来提取出树中有效的节点数据。基于网页分块的方法是将呈现给用户的Web页面划分成几个语义块，分析每个块在这个页面的重要程度，来找出网页的正文内容。基于模版的方法是一种传统的网页抽取方法，这种方法使用包装器或网页模版规则将符合规则的信息从网页信息源中提取出来。

针对搜索引擎需要自动生成网页摘要的功能要求，面对互联网中多样化、复杂化、非规范化的网页构成形式，需要一个具有通用性的网页正文提取算法。而已有的上述方法不能够很好的适应这种环境要求。基于统计的方法具有一定的普遍性，但现有的方法准确率有限。基于DOM结构和基于网页分块的方法主要是对HTML标签进行分析，而现在网页趋于复杂化和非规范化，简单地通过HTML语义来解读网页内容在很多情况下不适用。基于模版的方法只能针对某一类特定格式信息源，而构建它所需的信息模式识别知识的获取是一个费时费力的工作，目前互联网网页越来越多样化和可定制化，这种方法不具备通用性。

发明内容

网页是由各式各样的文本构成的，按网页标记划分，有内容文本、脚本文本、锚文本、标签文本等；而内容文本中，从作用上来看, 网页上的文字主要有两种: 正文内容、无关内容。正文内容: 用户浏览一个页面所要获取的主要信息。无关内容: 经常用于标识网站功能的词语,与网页正文内容无关,如“版权”、“声明”、“搜索”、“首页”、“帮助”等。一般我们认为导航条上的文字、相关链接上的文字都属于无关文字。这些不同类型的文本组合在一起，构成了内容丰富的网页，而将这些文字区别开来，分析它们在标签文本块中的比例，就形成了文本密度值。发现，文本密度值对网页正文的提取具有重要意义，利用它们，可以有效地消除网页噪音，精确地识别出正文文本。

本发明的目的在于克服现有技术的不足，更加精准的提取网页正文。通过对大量的网页代码的观察发现，正文文本中往往只包含少量的HTML代码，而噪声文本往往包含大量的超链接，或者是被各种HTML标签分割。根据这种特性，本文提出一种根据文本密度来提取网页正文段的思想。

本发明技术方案表征为：

一种基于最大文本密度的网页正文提取方法，其具体步骤如下：

步骤一、网页预处理：

(1) 处理字符编码

设定编码方式GBK(包含简体中文和繁体中文)、BG2312(简体中文)、BIG-5(繁体中文)、UTF-8，UTF-16、UNICODE。在HTML文档里，编码方式是这样定义的：

<html>

<head>

</head>

</html>

charset属性定义了网页的编码方式。为了防止网页出现乱码, 在网页预处理阶段，将获取的网页文件的默认编码转为UTF-8字符编码，如果不能从网页中获取相关编码信息，就对其进行强制转换为UTF-8字符编码。

(2)网页规范化

根据HTML文档的基本语法要求，确保关闭打开的标签、所有的属性值必须用双引号括起来、完成特殊字符的转义三种情况。

步骤二、将网页解析成一棵DOM树，并根据特定标签，将网页中的“标签文本块”抽取出来。

（1）定义1（标签文本块）在网页的DOM树中，容器标签如<div>、<table>、<tr>、<td>、<th>、<ul>、<li>、<dl>、<dt>、<dd>、<p>等之间的文本内容（不包含标签本身）成为一个“标签文本块”，标签文本块之间可嵌套，即一个标签文本块内可包含若干个子标签文本块。把含有正文内容的标签文本块称为正文文本块，将不含有正文内容的标签文本块称为噪音文本块。

（2）删除网页中与正文抽取不相关的信息

经过对大量网页的分析后，发现网页的正文部分往往位于<div>、<table>或者<tbody>、<p>等此类标记中，因此，删除网页中与正文抽取不相关的信息如：注释、JavaScript代码等等，以便下一步的提取工作。

（3）对每个标签文本块进行分析，判断其是否属于正文内容文本块。

定义2(文本密度值)：在一个标签文本块中，其中的文本在整个标签文本块的长度(包括标签)所占的比值。判断正文文本块的算法中涉及到的文本密度Density，对于一个标签文本块A 来说，它的计算公式可表示为：

Figure 2014100078326100002DEST_PATH_IMAGE002

当遇到正文内容较短情况时，给PlainTextLength赋予更大的权重，得到衍生公式：

Figure 2014100078326100002DEST_PATH_IMAGE004

步骤三，计算最大文本密度：

以递归方式遍历所有标签文本块，对于一个标签文本块来说，只有当它的子文本块全部处理完毕后，才处理本标签文本块。

步骤四，抽取正文：

待所有标签文本块都处理完毕后，按照计算出的文本密度进行排序，选取文本密度值最大的标签，此标签及其嵌套的子标签的内容即是正文文本块，去标签之后得到正文文本。

本发明是基于统计的使用最大文本密度的网页正文提取算法，其算法复杂度低，具有普适性，而且对于结构复杂的网页也有不错的效果。与现有技术相比，本发明技术方案的创新点及其有益效果：

1.在正文抽取中对最大文本密度方法提出新的定义。

2.提出了一个更准确的最大文本密度定义，提高了准确率。

3.能更好的为数据挖掘和摘要生成提供服务。

4.为相关网络信息服务系统实现奠定基础。

附图说明

图1基于最大文本密度的网页正文提取流程示意图。

具体实施方式

如图1所示，基于最大文本密度的网页正文提取方法的具体步骤如下：

1、网页预处理

(1) 字符编码问题

常见的编码方式有GBK(包含简体中文和繁体中文)、BG2312(简体中文)、BIG-5(繁体中文)、UTF-8，UTF-16、UNICODE。在HTML文档里，编码方式是这样定义的：

<html>

</html>

charset属性定义了网页的编码方式。为了防止网页出现乱码, 在网页预处理阶段，将获取的网页文件的默认编码转为UTF-8字符编码，如果不能从网页中获取相关编码信息，就尝试对其进行强制转换为UTF-8字符编码。

(2)网页规范化

现在有些Web站点上的HTML代码格式是不规范的，这样不利于网页DOM树的形成，所以首先必须进行网页规范化处理。

根据HTML文档的基本语法要求，HTML代码不符合语法及修正常见情况有以下几种：

第一种：标签没有关闭

打开的标签必须关闭，例如<p>we are champion<p>，当然还有另一种关闭方式，适用于没有标签体的情况，如：<br/>。

第二种：属性值没有使用单引号或双引号包含

例如：<img height=’80’ />，所有的属性值必须用双引号括起来。

第三种：特殊字符没有转义

如“<”用“&lt"表示，“>”用“&gt”表示。

一般我们可以采用过滤软件修复被破坏的结构，并产生一个结构良好的 HTML文档。

2、将网页解析成一棵DOM树，并根据特定标签，将网页中的“标签文本块”抽取出来。

（2）删除网页中与正文抽取不相关的信息

基于对各类网页的观察和分析，有如下结论：

定义2(文本密度值)：在一个标签文本块中，其中的文本在整个标签文本块的长度(包括标签)所占的比值。

a) 广告、友情链接、目录以及导航等的“网页噪音”往往以“超级链接

（Hyperlinks）”的形式存在，且与正文内容分属不同的标签文本块；而正文内容中则很少出现大段连续的超级链接，即使在信息互相引用较多的维基百科（Wikipedia）上，正文内容中的超级链接也不会占到很大比例。可以认为，在一个标签文本块的文字内容中，标签文本块中文字内容所占的比例越大，则该标签文本块中的文字内容属于正文文本块的几率就越大。

b) 在一个网页上，无关文本用来表示功能或提示，无关文本通常字数较少，，且与正文文本分属不同的标签文本块，且无关文本的长度在包含它的标签文本块的总长度中所占的比例也比较小。可以认为，在一个文本块中，文本密度值越大，该文本块属于正文文本块的几率就越大。

根据以上结论，判断正文文本块的算法中涉及到的文本密度Density，对于一个标签文本块A 来说，它的计算公式可表示为：

在实验中发现，公式(1)大部分情况下对正文的描述能力较好，但是当遇到正文内容较短情况时，标签长度对Density有较大干扰，因此尝试给PlainTextLength赋予更大的权重，得到衍生公式：

通过实验发现，

Figure 2014100078326100002DEST_PATH_IMAGE006

对网页正文能较好描述。

计算最大文本密度的方法：以递归方式遍历所有标签文本块，对于一个标签文本块来说，只有当它的子文本块全部处理完毕后，才处理本标签文本块。