CN109543126B

CN109543126B - 基于块文字占比的网页正文信息提取方法

Info

Publication number: CN109543126B
Application number: CN201811377444.1A
Authority: CN
Inventors: 刘婵; 唐军
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2022-04-29
Anticipated expiration: 2038-11-19
Also published as: CN109543126A

Abstract

本发明涉及信息提取技术，其公开了一种基于块文字占比的网页正文信息提取方法，解决传统技术中的提取方案容易受到HTML是否良构、网页正文和广告文字占比等的影响以及不能兼顾提取准确性和提取效率的问题。该方法包括以下步骤：步骤1、将网页文件读入字符串中，遍历字符串，对其中的字符进行大小写统一处理；步骤2、删除与主题信息无关的标签内容；步骤3、根据标签配对从字符串中取出head和body两部分；步骤4、在head部分中查找并提取网页正文标题字符串；步骤5、进行网页分块；步骤6、清洗无关的内容块；步骤7、计算每个内容块在全文中的占比，并排序；步骤8、进行标题匹配，确定正文块位置；步骤9、从正文块中提取网页正文。

Description

基于块文字占比的网页正文信息提取方法

技术领域

本发明涉及信息提取技术，具体涉及一种基于块文字占比的网页正文信息提取方法。

背景技术

互联网中有大量以HTML形式存储的网页，准确识别与有效提取包含在网页中的正文内容是Web数据挖掘的重要基础工作之一。这些HTML网页中往往包含很多噪音数据，如广告、网站信息、图片、超链接等。用户浏览的网页是经过浏览器处理后的网页，且用户可以通过视觉分块，准确地找到网页正文所在位置。然而，在程序自动处理过程中，网页文档中的噪音数据会严重影响处理效果。因此，研究和探索各种高效、实用的Web网页正文数据提取技术对于Web数据挖掘具有非常重要的意义。

目前有多种网页信息提取技术。文献[1][2]中使用的基于Dom树的网页正文提取技术首先利用开源包处理HTML，更正其中错误或者不规范的地方，根据处理后的较为规范的HTML建立Dom树，然后递归遍历Dom树，在Dom解析树上应用算法来抽取网页正文。这种方法实现简单，准确性较高，但对HTML是否良构要求较高，且树的建立和遍历时空复杂度高。

文献[3]中公开的基于网页聚类的正文信息提取方法中，认为网站内部的网页大多都是由一套相同内容模板生成的。首先基于网页的结构特征对网页进行聚类，然后面向相似网页集合的正文位置特征生成。该方法受到网页结构限制，且聚类算法处理复杂度高，算法参数配置也容易影响提取结果。

文献[4][5]公开的基于视觉的网页正文提取算法中，充分利用网页的框架信息和视觉信息，从用户的观察角度来分析网页的结构，模拟人的眼睛识别语义内容的过程并结合Dom树进行分析。这种方法对于结构较为复杂，正文内容分散的网页可以提高提取的准确性，但算法需要多次迭代，且依赖于浏览器的内核代码，在通用性和可扩展性方面稍有不足。

综上，现有技术中的网页正文信息提取方法，容易受到HTML是否良构、网页正文和广告文字占比等的影响，一些复杂算法在提取准确性提高的同时牺牲了一定的提取效率，及无法兼顾提取准确性和提取效率。

参考文献

[1]周建；汤进；罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化2013(10):229-232.

[2]常红要,朱征宇,陈烨,等.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24).

[3]基于网页聚类的正文信息提取方法王一洲；陈星；戴远飞小型微型计算机系统2018(1):111-115.

[4]沈怡涛.基于视觉特征和文本结构分析的中文网页自动摘要技术研究[D].华东师范大学,2014.

[5]安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010(3):38-41.

发明内容

本发明所要解决的技术问题是：提出一种基于块文字占比的网页正文信息提取方法，解决传统技术中的提取方案容易受到HTML是否良构、网页正文和广告文字占比等的影响以及不能兼顾提取准确性和提取效率的问题。

本发明解决上述技术问题所采用的技术方案是：

基于块文字占比的网页正文信息提取方法，包括以下步骤：

步骤1、将网页文件读入字符串中，遍历字符串，对其中的字符进行大小写统一处理；

步骤2、删除与主题信息无关的标签内容；

步骤3、根据标签配对从字符串中取出head和body两部分；

步骤4、在head部分中查找并提取网页正文标题字符串；

步骤5、进行网页分块；

步骤6、清洗无关的内容块；

步骤7、计算每个内容块在全文中的占比，并排序；

步骤8、进行标题匹配，确定正文块位置；

步骤9、从正文块中提取网页正文。

作为进一步优化，步骤1中，所述对其中的字符进行大小写统一处理，具体为：

对字符串进行遍历，将其中的大写英文字符统一转换为小写英文字符。

作为进一步优化，步骤2中，所述与主题信息无关的标签内容，具体包括：

定义客户端脚本的<script>标签、用于定义HTML文档样式信息的<style>标签、定义文档与外部资源关系的<link>标签和用于注释的<！-->标签等。

作为进一步优化，步骤3中，所述根据标签配对从字符串中取出head和body部分，具体包括：

取标签“<head”和“</head>”之间的所有内容，作为网页的head部分；取标签“<body”和“</body>”之间的所有内容作为网页的body部分。

作为进一步优化，步骤4中，所述在head部分中查找并提取网页正文标题字符串，具体包括：

提取网页标题时，定义常用分隔符号集合R，首先提取<title>标签中的内容，使用常用分隔符号集合对这部分文本进行分割，分割后得到一个字符串数组S，取S中的第一个字符串作为当前网页文档的网页正文标题并存储。

作为进一步优化，步骤5中，所述网页分块的具体方式包括：

将网页文档中每个<div>标签和<table>标签内部的内容作为一个内容块，对各个内容块分别进行存储。

作为进一步优化，步骤6中，所述清洗无关的内容块，具体包括：

将包含常见非正文内容关键词的块从结果集中剔除；计算出各个内容块中中文文本字符数、超链接文本字符数和字符总数，将超链接文本字符数占比大于阈值的块从结果集中剔除。

作为进一步优化，步骤7中，所述计算每个正文块在全文中的占比并排序，具体包括：

对网页文档总的字符数量进行统计，并计算每个内容块中中文文本字符数在整个网页文档字符数中所占比例p_n(n＝1,2,3...)，按比例从高到低对所有内容块进行排序。

作为进一步优化，步骤8中，所述进行标题匹配，确定正文块位置，具体包括：

标题匹配：在对内容块排序后，取内容块列表里中文字符数占比居于前5的内容块，将其内容依次与获取到的网页正文标题字符串进行匹配：假设网页正文标题字符串长度为h1，在网页内容块中查找与网页正文标题匹配的最大公共字符串，此字符串长度为h2，定义网页正文标题相似率为：p＝h2/h1；

确定正文块位置：取p的阈值为70％，在中文字符数占比居于前5的内容块中，若只存在一个p>70％的内容块，则取该块作为网页正文内容块；若存在多个p>70％的内容块，说明在网页布局时，使用了多个块级元素嵌套的格式，因此在判定时，取其中p_n值较小的一块作为网页正文内容块。

作为进一步优化，步骤9中，所述从正文块中提取网页正文，具体包括：

在确定正文块位置后，对正文块中内容进行分析处理：

使用正则表达式匹配各类型标签，并对不同标签内容按照以下规则进行处理：

对于块级元素标签，以换行符替代；

对于超链接a标签，取其上一级标签，若上一级标签所含所有超链接文本在普通文本中占比不超过50％，则保留超链接标签中的文本，只删除标签，否则将标签及其链接文字均删除；

对于图片img标签，删除标签中所有内容；

对于其它标签，删除标签本身；

完成节点的遍历后，使用正则表达式将取出的正文文本中所有非常规的符号删除，并对换行符进行去重，最终输出网页正文内容，存储于txt格式的文档中。

本发明的有益效果是：

该方法首先对网页文档进行分块，并按网页块文字占比进行排序，结合主题信息确定网页正文内容块，然后根据正文内容块中HTML标记提取正文文字并添加格式控制，对一些广告文字占比大于正文文字占比的情况也能做到精确提取，从而避免受到网页正文和广告文字占比等的影响，对HTML是否良构要求也低；并且，本发明对正文中超链接文本添加判定条件，尽可能减少对超链接的误判，保证正文提取的准确性，具有较强的实用性；此外，由于本发明是基于块文字占比实现正文信息提取，相比基于结构树解析的正文提取方法需要在Dom树的建立和遍历花费较多时间而言，能够极大提高提取效率。

附图说明

图1为本发明的网页正文信息提取方法的具体实现流程图。

具体实施方式

HTML元素中的元素通常可以分为块级元素和内联元素，其中，块级元素通常位于一个独立的行中。在网页布局中，通常使用<div>标签和<table>标签对网页进行分块。

大多数网页的布局方式是将网页分为几个块，各块中集中放置同一类信息，如正文块中放置网页正文信息，导航块中放置链接到网站各功能模块的导航，扩展阅读模块中放置与当前网页相关的网页链接，广告块中放置广告内容等。

在主题型网页中，正文信息是成堆出现的，从视觉上看是处在一个内容块中，称为网页正文内容块。

在网页正文内容块中，正文部分的一大特征为包含网页标题，而正文文字数量在整个网页中的文字数量占比普遍占优。

由此，本发明提出一种基于块文字占比的网页正文信息提取方法，该方法的主要思想是：将网页主体部分划分为多个内容块，对每个内容块中的文字占比进行计算与排序，依据排序结果和从网页头部取得的网页标题信息，获取文字数量占比较大的几个网页块，根据块文字与网页正文标题联合生成标题相似率指标，根据指标确认网页正文所在位置并进行提取。最后根据块中HTML标记提取正文文字并添加格式控制，最终输出一个完整的、纯文本形式的网页正文内容，存储于txt格式的文档中。

在网页正文信息提取时的主要过程包括以下几个部分：

1.网页文档预处理：

首先，是删除其中与主题信息无关的元素，如用于定义客户端脚本的<script>标签、用于定义HTML文档样式信息的<style>标签、定义文档与外部资源关系的<link>标签、用于注释的<！-->标签等。分析HTML文档时，可以使用XML解析包将HTML文档解析为HTMLDom后依次分析其节点，但这种方法对HTML的结构要求较高，且效率较低。为提高分析效率，HTML文档标签的匹配使用正则表达式进行。

然后，将网页划分为head和body两部分，以便后续分别进行分析。

2.获取网页标题：

网页文档的头部描述了文档的各种属性和信息，包括文档的标题、在Web中的位置以及和其他文档的关系等。绝大多数文档头部包含的数据都不会真正作为内容显示给读者。

<title>标签定义文档的标题，它是head部分中唯一必需的元素。除了<title>标签外，其他标签的内容对网页标题的判断均无价值，分析过程中直接忽略。

网页标题是对一个网页的高度概括，一般来说，为了在搜索引擎检索结果中获得排名优势，网页的标题包括网页正文标题、栏目名称和网站信息，它们之间用连接符号相连，如“<title>欧盟将加大埃博拉疫情防控力度--国际--人民网</title>”。也有一些网站直接使用网页正文标题作为网页标题。不论网页标题采用何种格式，大部分情况下网页正文标题部分都是必不可少的，且位于网页标题的开头部分。

提取网页标题时，定义常用分隔符号集合R。首先提取<title>标签中的内容，使用常用分隔符号集合对这部分文本进行分割。分割后得到一个字符串数组S。取S中的第一个字符串作为当前网页文档的网页标题并存储。

3.确定网页正文块：

通过以下几个步骤对网页正文块位置进行确定：

①分块：

将网页文档中每个<div>标签和<table>标签内部的内容作为一个内容块，各个内容块分别进行存储。

②清洗：

③排序：

④标题匹配：

排序后，取内容块列表里中文字符数占比居于前5的内容块，将其内容依次与获取到的网页正文标题字符串进行匹配。假设网页正文标题字符串长度为h1。在网页内容块中查找与网页正文标题匹配的最大公共字符串，此字符串长度为h2。定义网页正文标题相似率为：p＝h2/h1。

⑤确定正文块位置：

取p的阈值为70％，在中文字符数占比居于前5的内容块中，若只存在一个p>70％的内容块，则取该块作为网页正文内容块；若存在多个p>70％的内容块，说明在网页布局时，使用了多个块级元素嵌套的格式，因此在判定时，取其中p_n值较小的一块作为网页正文内容块。

4.提取网页正文：

找到网页正文内容块后，对块中内容进行分析处理。使用正则表达式匹配各类型标签，并对不同标签内容按照以下规则进行处理：

①块级元素标签，在网页中，块级元素标签的展示方式为：每个块级元素默认换行，因此，将所有块级元素标签以换行符替代。

②超链接a标签，取其上一级标签，若上一级标签所含所有超链接文本在普通文本中占比不超过50％，则保留超链接标签中的文本，只删除标签，否则将标签及其链接文字均删除。

③图片img标签，本发明的目的是提取网页中的正文文字，因此删除img标签中的所有内容。

④其它标签，删除标签本身。

完成节点的遍历后，使用正则表达式将取出的正文文本中所有非常规的符号删除，并对换行符进行去重，以清除处理块级元素标签时引入的重复换行。最终输出一个完整的、纯文本形式的网页正文内容，存储于txt格式的文档中。

在具体实现上，如图1所示，本发明中的网页正文信息提取方法采用以下步骤：

步骤1、将网页文件读入字符串中，遍历字符串，对其中的字符进行大小写统一处理：

将网页文件web_page.html读入字符串web_page_string中。由于html大小写不敏感，为保证后续处理的一致性，对web_page_string字符串进行遍历，将其中的大写英文字符统一转换为小写英文字符。

步骤2、删除与主题信息无关的标签内容：

与主题信息无关的标签内容主要包含<script>标签、<style>标签、<link>标签、<！-->标签等。例如，删除<script>标签内容时，遍历web_page_string字符串，找到开始标签字符串“<script”和结束标签字符串“</script>”在整个字符串中出现的位置，并在完成遍历后，将所有相邻的开始标签和结束标签，及其中的所有内容删除。循环执行相邻开始和结束标签的删除，直到整个字符串web_page_string中不再包含“<script”和“</script>”字符串为止。

步骤3、根据标签配对从字符串中取出head和body两部分：

网页的head部分，被标签“<head”和“</head>”包围起来，所以取这两个标签之间的所有内容，存储到字符串web_head_string中；同理，网页的body部分，被标签“<body”和“</body>”包围起来，所以取这两个标签之间的所有内容，存储到字符串web_body_string中。

步骤4、在head部分中查找并提取网页正文标题字符串：

字符串web_head_string中，网页正文标题存储在标签“<title”和“</title>”之间。将这部分内容提取出来，存储到字符串web_title_string中。定义常用分隔符号集合R，其中包含常用的标题分割字符串，例如“-”“_”“”等。使用R对字符串web_title_string进行分割。分割后得到一个字符串数组S。取S中的第一个字符串S[0]作为当前网页文档的网页标题并存到web_title_string。

步骤5、进行网页分块：

在web_body_string字符串中从左到右查找字符串“<div”、“</div>”和字符串“<table”、“</table>”所在位置的索引值，并将查到的所有索引值按顺序分别存储到两个二维数组div[2][i]和table[2][j]中，其中，数组第一行存储标签类型，开始标签存储为1，结束标签存储为0；数组第二行存储标签所在位置的索引值。

所有标签匹配完毕后，取二维数组第一行中相邻的1和0所对应的索引值，在body字符串中根据索引值截取字符串，将字符串追加到字符串数组B中。成功得到一个内容块后，删除其在二维数组中对应的列。循环操作直至二维数据为空。此时每个网页的每个块都作为一个元素存储于字符串数组B中。

步骤6、清洗无关的内容块：

本步骤根据两个规则进行清洗：

规则二，在规则一过滤之后，统计数组B中所有字符总数body_char_num、数组B中每个元素的字符总数block_char_num[n]、数组B中超链接文本字符总数body_a_num、数组B中每个元素的超链接文本字符总数block_a_num[n]、数组B中中文字符总数body_chn_num、数组B中每个元素的中文字符总数block_chn_num[n]。其中，超链接文本的判断规则regexp_a为“<a(.*？)</a>”。定义超链接文本字符数占比a_percent[n]＝block_a_num[n]/block_char_num[n]。设定一个超链接文字占比的阈值，假设将阈值设置为80％，将每个a_percent[n]与阈值80％进行对比，若a_percent[n]>80％，将其从字符串数据B中删除。

步骤7、计算每个内容块在全文中的占比，并排序：

由于在第6步中统计了全文中文字符数和每个块的中文字符数，据此计算每个块的中文字符，在全文所占比例chn_percent[n]，按比例从高到低对所有内容块进行排序。chn_percent[n]的计算方式如下：

chn_percent[n]＝block_chn_num[n]/body_chn_num

步骤8、进行标题匹配，确定正文块位置：

排序后，取p[n]比居于前5的内容块,存到字符串数组C[5]，将其内容依次与获取到的网页正文标题字符串web_title_string进行匹配。假设web_title_string长度为h1。在C[n]中查找与web_title_string匹配的最大公共字符串public_title_string，此字符串长度为h2。定义网页正文标题相似率为：title_pub_percent＝h2/h1。取title_pub_percent的阈值为70％，在C[5]中，若只存在一个title_pub_percent>70％的元素，则取该块作为网页正文内容块；若存在多个p>70％的内容块，取其中title_pub_percent值较小的一块作为网页正文内容块。将确认出来的正文块C[n]存到字符串main_string中。

步骤9、从正文块中提取网页正文：

使用正则表达式regexp_tag匹配main_string中各类型标签，对不同标签内容按照以下规则进行处理：块级元素标签，如p、h1、div、table等，以换行符替代。超链接a标签，取其上一级标签，若上一级标签所含所有超链接文本在普通文本中占比不超过50％，则保留超链接标签中的文本，只删除标签，否则将标签及其链接文字均删除。删除img标签中的所有内容。其他标签，删除标签本身。完成节点的遍历后，使用正则表达式将取出的正文文本中所有非常规的符号删除，并对换行符进行去重。最终输出一个完整的、纯文本形式的网页正文内容，将处理后的main_string字符串内容存储于txt格式的文档中。

实施例：

分别采用本发明中提出的基于块文字占比的网页正文信息提取方法、基于标记窗的方法、基于结构树解析的正文提取方法三种方案，以百度新闻(http://news.baidu.com/)、新浪新闻(http://news.sina.com.cn/)、搜狐新闻(http://news.sohu.com/)三个网页为起始页，爬取起始页中所有新闻链接指向的新闻网页，经去重等整理工作后作为实验数据集。实验数据集共包含1000个网页，内容涉及新闻、科技、军事、娱乐等多个领域，网页来源包括人民网、法制网、新华网、海外网等几十个网站。多领域和多来源的网页保证了实验数据集中网页的布局和网页细节描述方式的多样化。

三种方案的效果比对：准确率方面，本文提出的基于文字占比的方法提取准确率在97％左右，高于基于标记窗的方法的94％，与基于结构树解析的正文提取方法持平。从提取所需平均时间来看，基于结构树解析的正文提取方法在Dom树的建立和遍历上较为复杂，所需时间较长(平均所需时间260ms)，而基于文字占比的方法平均仅需40ms，在提取效率上更具优势。

Claims

1.基于块文字占比的网页正文信息提取方法，其特征在于，包括以下步骤：

步骤2、删除与主题信息无关的标签内容；

步骤3、根据标签配对从字符串中取出head和body两部分；

步骤4、在head部分中查找并提取网页正文标题字符串；

步骤5、进行网页分块；

步骤6、清洗无关的内容块；

步骤7、计算每个内容块在全文中的占比，并排序；

步骤8、进行标题匹配，确定正文块位置；

步骤9、从正文块中提取网页正文；

步骤6中，所述清洗无关的内容块，具体包括：

将包含常见非正文内容关键词的块从结果集中剔除；计算出各个内容块中中文文本字符数、超链接文本字符数和字符总数，将超链接文本字符数占比大于阈值的块从结果集中剔除；

步骤7中，所述计算每个正文块在全文中的占比并排序，具体包括：

对网页文档总的字符数量进行统计，并计算每个内容块中中文文本字符数在整个网页文档字符数中所占比例p_n(n＝1,2,3...)，按比例从高到低对所有内容块进行排序；

步骤8中，所述进行标题匹配，确定正文块位置，具体包括：

确定正文块位置：取p的阈值为70％，在中文字符数占比居于前5的内容块中，若只存在一个p>70％的内容块，则取该块作为网页正文内容块；若存在多个p>70％的内容块，说明在网页布局时，使用了多个块级元素嵌套的格式，因此在判定时，取其中p_n值较小的一块作为网页正文内容块；

步骤9中，所述从正文块中提取网页正文，具体包括：

在确定正文块位置后，对正文块中内容进行分析处理：

对于块级元素标签，以换行符替代；

对于图片img标签，删除标签中所有内容；

对于其它标签，删除标签本身；

2.如权利要求1所述的基于块文字占比的网页正文信息提取方法，其特征在于，步骤1中，所述对其中的字符进行大小写统一处理，具体为：

3.如权利要求1所述的基于块文字占比的网页正文信息提取方法，其特征在于，步骤2中，所述与主题信息无关的标签内容，具体包括：

定义客户端脚本的<script>标签、用于定义HTML文档样式信息的<style>标签、定义文档与外部资源关系的<link>标签和用于注释的<！-->标签。

4.如权利要求1所述的基于块文字占比的网页正文信息提取方法，其特征在于，步骤3中，所述根据标签配对从字符串中取出head和body部分，具体包括：

5.如权利要求1所述的基于块文字占比的网页正文信息提取方法，其特征在于，步骤4中，所述在head部分中查找并提取网页正文标题字符串，具体包括：

6.如权利要求1所述的基于块文字占比的网页正文信息提取方法，其特征在于，步骤5中，所述网页分块的具体方式包括：