CN103853760B

CN103853760B - 一种网页正文内容提取方法和装置

Info

Publication number: CN103853760B
Application number: CN201210508772.7A
Authority: CN
Inventors: 毛雅琴; 张远; 田冬; 吴淑燕
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2012-12-03
Filing date: 2012-12-03
Publication date: 2017-05-03
Anticipated expiration: 2032-12-03
Also published as: CN103853760A

Abstract

本发明公开了一种网页正文内容提取方法和装置，其中，该方法包括：将待提取的网页文档解析成文档对象模型树结构，将网页对应的文档对象模型树的叶子节点组成节点集合；查找节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点；将叶子节点归并到所述父节点，将具有相同父节点的叶子节点归并；若归并后的节点集合中的叶子节点满足设定条件，将叶子节点所包含的区域确定为网页正文内容所在区域；在确定的网页正文内容所在区域中去除网页标签，提取网页正文内容。本发明能够迅速有效的定位HTML页面中正文所在的区域，并将其与噪音内容分离出来，提高获取正文内容信息的效率。

Description

一种网页正文内容提取方法和装置

技术领域

本发明涉及通信领域中互联网技术领域，具体地，涉及网页正文内容提取方法及装置。

背景技术

随着Internet的迅速发展，互联网已成为人们获取信息、与人交流、共享信息的重要方式，如何更准确、更快捷、更全面的检索Web上的有用信息已成为研究热点。我们日常浏览的网页除了主题内容之外，还含有大量诸如导航信息、版权信息、广告信息、相关链接等与主题无关的内容，我们称之为“噪音”内容。这些噪音内容的存在影响并导致了检索效率和准确率的降低。

对于网页正文的提取，现有技术中有三大类主流方案：

1、基于模板的网页正文提取方法。此种方法认为同类网页具有相同的HTML结构特征和或相似的DOM树结构，通过为不同类型网页制定“模板”来提取网页正文内容。此方法通过包装器（wrapper）来提取网页中的正文数据，包装器是一个程序，该程序根据网页的布局特征制定相应的提取规则制成“模板”，解析出正文在页面中的位置。

2、基于统计的网页正文提取方法。该方法采用统计学原理对网页特征进行分析，统计每个节点文本密度（文本长度与HTML代码长度比值）并计算出文本密度区分阈值，根据文本密度与文本密度区分阈值比较结果判断该节点是否是正文节点（大于密度区分阈值的为正文节点），将所有正文节点文本连接起来即形成正文。

3、基于视觉特征的网页正文提取方法。该方法利用网页的视觉特征和DOM数结构，采用逐层迭代的方法将网页分解成正文块，对得到的正文块运用VIPS算法得到完整的语义块，在此基础上提取正文内容。

经过归纳整理，与本发明相近的技术方案如下：

申请号为201110326226的专利“基于统计回溯定位的网页正文提取方法和装置”。此发明公开了一种正文提取方法和装置，方法包括：按行分析网页，统计每行的纯文本长度并按降序排列，从纯文本长度最长的文本节点开始依次回溯，将与该文本节点具有相同特征值的所有文本节点放到一个节点组中，计算该节点组的文本集中度，取文本集中度最高的节点组作为目标节点组，将目标节点组中的纯文本率大于某一阈值的目标节点定为正文的候选节点。

申请号为201010553327的专利“基于DIV位置的网页正文抽取方法和装置”。发明利用HTML页面在DOM树中的DIV块信息重新构建DIV块，保留重新构建DIV块中的原子DIV块（原子DIV块为除其本身之外不包含任何其他DIV块的DIV块），对每个原子DIV块进行参数分析，分析过程为：从多个原子DIV块中查找出横向宽度大于预定宽度的原子DIV块，从查找出的横向宽度大于预定宽度的原子DIV块中找出面积最大的DIV块作为所述包含网页正文的DIV块。根据分析结果选取出包含网页正文DIV块后，对包含网页正文的DIV块进行内容提取，以获取网页正文。

综合以上分析，对于目前主流的三大类网页正文提取方法和技术方案，其缺点和局限性如下：

1、基于模板的网页正文提取方法的实现简单，对于特定类型网页的提取速率和准确度较高，但此方法最大的缺点和局限在于通用性和重用性差。由于网页种类繁多、结构复杂且不规范，而一个包装器的实现一般针对特定类型网页且编写过程复杂，如果待提取的信息规模较大且来自很多类信息源，就需要编写很多个包装器，这样显然是不实际的。当某一类页面的结构发生变化时，原有的包装器就失效，需要重新编写。因此，包装器的前期编写和后续维护是一项需要耗费大量时间和精力的工作。

2、基于统计的网页正文提取方法由于只是将所有文本密度大于文本密度区分阈值的正文节点的文本连接起来，其局限性在于容易漏掉一些文本较少的节点，适合于新闻类文本篇幅较长的网页，对于论坛类网页的提取效果不是很明显。

3、基于视觉特征的网页正文提取方法需要经过多次的迭代，最后需要语义块的合并，过程较为复杂，实现难度较大，并且网页视觉信息的提取也需要耗费大量时间和精力。

发明内容

本发明是为了克服现有技术中网页正文内容提取效率较低的缺陷，根据本发明的一个方面，提出一种网页正文内容提取方法。

根据本发明实施例的网页正文内容提取方法，包括：

将待提取的网页文档解析成文档对象模型树结构，将网页对应的文档对象模型树的叶子节点组成节点集合；

查找所述节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点；

将叶子节点归并到父节点，将具有相同父节点的叶子节点归并；

若归并后的节点集合中的叶子节点满足设定条件，将叶子节点所包含的区域确定为网页正文内容所在区域；

在确定的网页正文内容所在区域中去除网页标签，提取网页正文内容。

本发明是为了克服现有技术中网页正文内容提取效率较低的缺陷，根据本发明的另一个方面，提出一种网页正文内容提取装置。

根据本发明实施例的网页正文内容提取装置，包括：

网页解析模块，用于将待提取的网页文档解析成文档对象模型树结构；

正文区域发现模块，用于将网页对应的文档对象模型树的叶子节点组成节点集合，查找节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点，将叶子节点归并到所述父节点，将具有相同父节点的叶子节点归并，若归并后的所述节点集合中的叶子节点满足设定条件，将叶子节点所包含的区域确定为网页正文内容所在区域；

正文提取模块，用于在确定的网页正文内容所在区域中去除网页标签，提取网页正文内容。

本发明的网页正文内容提取方法和装置，能够迅速有效的定位HTML页面中正文所在的区域，并将其与噪音内容分离出来，提高获取正文内容信息的效率；可适应多种类型页面正文的提取，不需要针对特定类型的网页制作相应模板，内容提取的准确性提高，通用性较强。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明网页正文内容提取装置的结构示意图；

图2为本发明网页正文内容提取方法的流程示意图；

图3为本发明网页正文内容提取装置中的正文区域发现模块的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明技术方案的基本原理：

（1）本发明提供的网页正文内容提取方法和装置基于HTML DOM树，DOM是DocumentObject Model（文档对象模型）的缩写，基于DOM的分析器将网页文档转换成一个对象模型的集合（以节点树形式表示，称DOM树）。

（2）根据DOM树的特征可知：正文必定分布在DOM树的叶子节点上，但并不是所有的叶子节点都包含正文；包含网页全部正文的区域必定是DOM树中的一个子树，且这个区域应该是最小区域，即包含所有正文叶子节点的最小子树，假设为T。包含正文的叶子节点从最底层逐层向上归并，最终会汇集到这个最小子树T的根节点，包含正文的叶子节点数目在上述归并过程中的某一时刻会急剧减少，这个减少的比例一般大于设定值y。这个最小子树T的根节点即为我们所求，其所包含的区域即为正文所在区域。

（3）根据（2），我们给定一个经验得到的阈值x，包含正文的叶子节点其文本长度都会大于这个阈值，统计DOM树所有叶子节点的文本长度，由此可以将文本长度小于阈值x的一部分叶子节点作为非正文叶子节点排除，将剩下的叶子节点组成候选集合A。对集合A中的叶子节点，从最底层逐层向上归并，每一次归并后叶子节点数目将会少于或等于归并前的数目。在归并过程中：如果出现所有节点都归于一个节点时，可认为这个节点就是所求最小子树T的根节点；如果出现节点数目急剧减少（减少比例大于阈值y，即M2<(M1/y)），可认为此时归并后的节点包含最小子树T的根节点，统计各节点在原DOM树中对应子树所包含的文本长度，文本长度最长的节点就是所求最小子树T的根节点；否则继续下一轮归并。

（4）从DOM树中取出（3）中得到的根节点所包含的区域，从中提取出相应的正文文本。

根据本发明实施例，提供了一种网页正文内容提取方法，如图2所示，包括：

步骤201：将待提取的网页文档通过网页解析模块解析成DOM树结构；

步骤203：针对网页对应的DOM树，在所有叶子节点中，提取出文本长度大于预设阈值x的叶子节点组成节点集合A，统计节点集合A中叶子节点总数M1及各叶子节点在DOM树中所处的层数，假设最深层数为第N层；

步骤205：取出节点集合A中层数最深的叶子节点（第N层），对于这一层的每一个叶子节点，分别查找其在DOM树中对应的父节点，将叶子节点向上归并到父节点，以父节点作为第N-1层的叶子节点，具有相同父节点的叶子节点归并为一个节点；

经过本轮归并，节点集合A中叶子节点总数变为M2，M2≤M1，最深层数变为N-1。

步骤207：若M2=1，即节点集合A中所有叶子节点归并为1个，则将该叶子节点所包含区域确定为网页中正文内容所在的区域；

步骤209：若M2>1，则判断本轮归并后集合A中叶子节点数目减少情况是否满足M2<(M1/y)，y为前文提到的设定值：

若是，则计算归并后节点集合A中各叶子节点在原DOM树中对应子树所包含的文本长度，将文本长度最长的节点包含区域确认为网页中正文内容所在区域；

若否，则转至步骤205进行下一轮的归并。

步骤211：确定了网页中正文内容所在区域后，通过正文提取模块去除网页标签，从而提取出网页正文。

本发明的网页正文内容提取方法，能够迅速有效的定位HTML页面中正文所在的区域，并将其与噪音内容分离出来，提高获取正文内容信息的效率；可适应多种类型页面正文的提取，不需要针对特定类型的网页制作相应模板，内容提取的准确性提高，通用性较强。

本发明的网页正文内容提取方法，能够较好的解决正文文本长度较短的网页的抓取，如论坛、微博等，准确率较高；能够较好的保留正文的段落章节关系，不会将所有正文抽取为一段文字，便于二次编辑；可以在节点的归并过程中识别出节点类型，如链接、样式表、js代码等，及时去掉该节点有助于减少对正文内容提取的干扰，提高了正文内容提取的准确率。

根据本发明实施例，提供了一种网页正文内容提取装置，如图1所示，包括：

正文区域发现模块，用于将网页对应的文档对象模型树的叶子节点组成节点集合，查找节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点，将叶子节点归并到所述父节点，将具有相同父节点的叶子节点归并，若归并后的节点集合中的叶子节点满足设定条件，将叶子节点所包含的区域确定为网页正文内容所在区域；

其中，正文区域发现模块包括：

集合组成子模块，用于将网页对应的文档对象模型树的叶子节点组成节点集合；

父节点查找子模块，用于查找节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点；

节点归并子模块，用于将叶子节点归并到父节点，将具有相同父节点的叶子节点归并；

正文确定子模块，用于若归并后的节点集合中的叶子节点满足设定条件，将叶子节点所包含的区域确定为网页正文内容所在区域。

其中，正文确定子模块，具体用于若具有相同父节点的叶子节点归并后的节点数量为1，则将叶子节点所包含的区域确定为网页正文内容所在区域。

其中，正文确定子模块，具体还用于若具有相同父节点的叶子节点归并后的节点数量大于1，在叶子节点数量满足设定阈值的状态下，则计算归并后节点集合中各叶子节点在文档对象模型树中所包含的文本长度，将文本长度最长的叶子节点所包含的区域确定为网页正文内容所在区域。

其中，叶子节点数量满足设定阈值具体包括：叶子节点数量满足M2<(M1/y)，其中，M1为归并前的叶子节点总数，M2为归并后的叶子节点总数，y为设定值。

其中，如果叶子节点数量不满足设定阈值，还包括：

父节点查找子模块，还用于将父节点作为节点集合上一层中新的叶子节点，查找新叶子节点在文档对象模型树中对应的父节点；

节点归并子模块，还用于将新叶子节点归并到所述父节点，将具有相同父节点的新叶子节点归并。

本发明的网页正文内容提取装置，能够迅速有效的定位HTML页面中正文所在的区域，并将其与噪音内容分离出来，提高获取正文内容信息的效率；可适应多种类型页面正文的提取，不需要针对特定类型的网页制作相应模板，内容提取的准确性提高，通用性较强。

本发明的网页正文内容提取装置，能够较好的解决正文文本长度较短的网页的抓取，如论坛、微博等，准确率较高；能够较好的保留正文的段落章节关系，不会将所有正文抽取为一段文字，便于二次编辑；可以在节点的归并过程中识别出节点类型，如链接、样式表、js代码等，及时去掉该节点有助于减少对正文内容提取的干扰，提高了正文内容提取的准确率。

本发明能有多种不同形式的具体实施方式，上面以图1-图3为例结合附图对本发明的技术方案作举例说明，这并不意味着本发明所应用的具体实例只能局限在特定的流程或实施例结构中，本领域的普通技术人员应当了解，上文所提供的具体实施方案只是多种优选用法中的一些示例，任何体现本发明权利要求的实施方式均应在本发明技术方案所要求保护的范围之内。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页正文内容提取方法，其特征在于，包括：

查找所述节点集合中层数最深的叶子节点在所述文档对象模型树中对应的父节点；

将所述叶子节点归并到所述父节点，将具有相同父节点的叶子节点归并；

若归并后的所述节点集合中的叶子节点满足设定条件，将所述叶子节点所包含的区域确定为网页正文内容所在区域；

在确定的所述网页正文内容所在区域中去除网页标签，提取网页正文内容；

所述若归并后的所述节点集合中的叶子节点满足设定条件，将所述叶子节点所包含的区域确定为网页正文内容所在区域具体还包括：

若所述具有相同父节点的叶子节点归并后的节点数量大于1，在所述叶子节点数量满足设定阈值的状态下，则计算归并后节点集合中各叶子节点在所述文档对象模型树中所包含的文本长度，将文本长度最长的叶子节点所包含的区域确定为网页正文内容所在区域；

所述叶子节点数量满足设定阈值具体包括：所述叶子节点数量满足M2<(M1/y)，其中，所述M1为归并前的叶子节点总数，所述M2为归并后的叶子节点总数，y为设定值。

2.根据权利要求1所述的方法，其特征在于，所述若归并后的所述节点集合中的叶子节点满足设定条件，将所述叶子节点所包含的区域确定为网页正文内容所在区域具体包括：

若所述具有相同父节点的叶子节点归并后的节点数量为1，则将所述叶子节点所包含的区域确定为网页正文内容所在区域。

3.根据权利要求1所述的方法，其特征在于，如果所述叶子节点数量不满足设定阈值，包括：

将所述父节点作为节点集合上一层中新的叶子节点，继续对具有相同父节点的所述新叶子节点归并。

4.一种网页正文内容提取装置，其特征在于，包括：

正文区域发现模块，用于将网页对应的文档对象模型树的叶子节点组成节点集合，查找所述节点集合中层数最深的叶子节点在所述文档对象模型树中对应的父节点，将所述叶子节点归并到所述父节点，将具有相同父节点的叶子节点归并，若归并后的所述节点集合中的叶子节点满足设定条件，将所述叶子节点所包含的区域确定为网页正文内容所在区域；

正文提取模块，用于在确定的所述网页正文内容所在区域中去除网页标签，提取网页正文内容；

所述正文区域发现模块包括：

父节点查找子模块，用于查找所述节点集合中层数最深的叶子节点在所述文档对象模型树中对应的父节点；

节点归并子模块，用于将所述叶子节点归并到所述父节点，将具有相同父节点的叶子节点归并；

正文确定子模块，用于若归并后的所述节点集合中的叶子节点满足设定条件，将所述叶子节点所包含的区域确定为网页正文内容所在区域；

所述正文确定子模块，具体还用于若所述具有相同父节点的叶子节点归并后的节点数量大于1，在所述叶子节点数量满足设定阈值的状态下，则计算归并后节点集合中各叶子节点在所述文档对象模型树中所包含的文本长度，将文本长度最长的叶子节点所包含的区域确定为网页正文内容所在区域；

5.根据权利要求4所述的装置，其特征在于，所述正文确定子模块，具体用于若所述具有相同父节点的叶子节点归并后的节点数量为1，则将所述叶子节点所包含的区域确定为网页正文内容所在区域。

6.根据权利要求4所述的装置，其特征在于，如果所述叶子节点数量不满足设定阈值，还包括：

父节点查找子模块，还用于将所述父节点作为节点集合上一层中新的叶子节点，查找所述新叶子节点在所述文档对象模型树中对应的父节点；

节点归并子模块，还用于将所述新叶子节点归并到所述父节点，将具有相同父节点的新叶子节点归并。