CN105022803B

CN105022803B - 一种提取网页正文内容的方法及系统

Info

Publication number: CN105022803B
Application number: CN201510381617.7A
Authority: CN
Inventors: 吴远辉
Original assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Current assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority date: 2015-07-01
Filing date: 2015-07-01
Publication date: 2018-05-15
Anticipated expiration: 2035-07-01
Also published as: CN105022803A

Abstract

本发明公开了一种提取网页正文内容的方法及系统，该方法包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取。本发明通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息，可广泛应用于网页正文内容抽取领域中。

Description

一种提取网页正文内容的方法及系统

技术领域

本发明涉及计算机应用和信息抽取领域，特别是一种提取网页正文内容的方法及系统。

背景技术

名词解释：

HTML：Hyper Text Markup Language，超文本标记语言；

PHP：Hypertext Preprocessor，超文本预处理语言；

SSI：Server Side Include，服务器端嵌入；

SHTML：使用SSI的HTML文件扩展名；

JS脚本：全称为javascript，是一种由Netscape的LiveScript发展而来的脚本语言，主要目的是为了解决服务器终端语言遗留的速度问题；

CSS样式：层叠样式表，一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言；

meta标签：在网页的HTML源代码中，位于头部，用来描述一个HTML网页文档的属性，例如作者、日期、关键词、网页描述等。

UL/LI：UL、LI是使用CSS布局页面时常用的元素。

随着互联网及其技术的迅猛发展，网络上的信息呈爆炸式增长。网络已经成为人类有史以来最为庞大的数据库，而网页已经成为Internet上最重要的信息资源。很多基于互联网的信息处理工作例如信息搜索、数据挖掘、机器翻译等，是以纯文本格式的信息内容为基础数据开展的而一般做舆情分析、文本挖掘，都会涉及到网页正文内容提取。对于分析、挖掘而言，有价值的信息是正文部分，大多数情况下，为了便于分析，需要将网页中和正文不相关的部分剔除。但是，在目前的互联网环境下，HTML是当前WEB上数据存在的主要格式，而HTML着重于数据的表现，HTML标签不带有语义，缺乏对数据的描述。将一个HTML形式的信息转换成有利用价值的文本格式信息，方便后续的信息处理，是极为关键的技术问题。一个web网页中的内容除了包括与主题有关的正文信息以外，还存在一些与主题无关的导航链接、广告链接和版权声明等噪音信息，这些噪音增加了正文内容的自动抽取难度。

目前，关于网页正文提取从大方向上主要可分为基于包装器的方法、网页视觉特征分块的方法两类。一、基于包装器的方法：利用包装器提取网页正文是一种提出较早，也较为流行的方法，例如网页模板抽取方法。它的原理是通过构建包装器或网页模板规则，将符合规则的信息从网页信息源中提取出来。但是该方法只能针对某一类特定格式信息源，而构建它所需的信息模式识别知识的获取是一个费时费力的工作，在目前的互联网网页越来越多样化和可定制化的趋势下，使用模板解析网页正文往往不能适应新网页的正文抽取，需要人工干预，工作量大，代价很高，这种方法不通用。二、网页视觉特征分块方法：在视觉上，一个HTML网页的页面可以划分为若干个区域，同一个区域内包含相近的内容，我们把一个区域称为一个内容块，然后对内容块进行取舍抽取正文内容。这些内容块中，有的包含了正文内容，而有的则包含着噪音内容，例如广告等。但是这种方法，由于视觉特征的复杂性，很难有一个通用的规则集。除此之外，该算法还需要保存大量的视觉信息，其处理性能随着页面的复杂度急剧下降，面对日益复杂的页面，处理效果往往不能令人满意。

总的来说，现有的方法要么算法流程过于简单，只能针对特定标签的网页风格进行内容提取，工作量大，效率不高；要么算法复杂度过高，对复杂多变的网页，处理效果不理想。

发明内容

为了解决上述的技术问题，本发明的目的是提供一种提取网页正文内容的方法，本发明的目的是提供一种提取网页正文内容的系统。

本发明解决其技术问题所采用的技术方案是：

一种提取网页正文内容的方法，包括：

S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；

S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；

S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；

S4、对待分析网页的HTML源码进行正文内容抽取。

进一步，所述步骤S2，包括：

S21、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息；

S22、依次对比待分析网页和预设对比网页的HTML源码的每一行，并标记每行的对比结果属性为相同或不同；

S23、根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组。

进一步，所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。

进一步，所述步骤S23，其具体为：

以待分析网页的HTML源码的行数为基准，根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，先遍历每一个不同行，再遍历每一个相同行，进而形成包含对比结果属性的数组。

进一步，所述步骤S3所述根据相同性对比结果，判断待分析网页是否为列表导航网页类型的步骤，其具体为：

获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签后，判断剩余内容中的中文字数是否大于预设的最大中文字数阈值，若是，则判断待分析网页为内容类型页面，反之，判断待分析网页为列表导航网页类型。

进一步，所述步骤S4，包括：

S41、根据相同性对比结果，依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块，获得文本信息块数组；

S42、分别对每个文本信息块进行分析并抽取内容信息块；

S43、依序合并内容信息块，并添加段落标记，形成正文内容。

进一步，所述步骤S42，其具体为：

对每个文本信息块，判断是否存在某一行的标点符号的数量大于1，或者含有段落标签、表格标签或图像标签，且该行与其下一行的标点符号的总数量大于3、中文总字数大于10或其下一行含有段落标签或图像标签，则将该行到文本信息块的尾部的内容作为内容信息块。

本发明解决其技术问题所采用的另一技术方案是：

一种提取网页正文内容的系统，包括：

加载模块，用于加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；

行对比模块，用于按行比较待分析网页和预设对比网页的HTML源码的相同性；

判断模块，用于根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行抽取模块；

抽取模块，用于对待分析网页的HTML源码进行正文内容抽取。

进一步，所述行对比模块，包括：

第一子模块，用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息；

第二子模块，用于依次对比待分析网页和预设对比网页的HTML源码的每一行，并标记每行的对比结果属性为相同或不同；

第三子模块，用于根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组。

进一步，所述抽取模块，包括：

第四子模块，用于根据相同性对比结果，依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块，获得文本信息块数组；

第五子模块，用于分别对每个文本信息块进行分析并抽取内容信息块；

第六子模块，用于依序合并内容信息块，并添加段落标记，形成正文内容。

本发明的有益效果是：本发明的一种提取网页正文内容的方法，包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取。本方法通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息。

本发明的另一有益效果是：一种提取网页正文内容的系统，包括：加载模块，用于加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；行对比模块，用于按行比较待分析网页和预设对比网页的HTML源码的相同性；判断模块，用于根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行抽取模块；抽取模块，用于对待分析网页的HTML源码进行正文内容抽取。本系统通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明的一种提取网页正文内容的方法的流程图；

图2是本发明的一种提取网页正文内容的方法的步骤S2的详细流程图；

图3是本发明的一种提取网页正文内容的方法的步骤S4的详细流程图。

具体实施方式

参照图1，本发明提供了一种提取网页正文内容的方法，包括：

S4、对待分析网页的HTML源码进行正文内容抽取。

进一步作为优选的实施方式，参照图2，所述步骤S2，包括：

进一步作为优选的实施方式，所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。

进一步作为优选的实施方式，所述步骤S23，其具体为：

进一步作为优选的实施方式，所述步骤S3所述根据相同性对比结果，判断待分析网页是否为列表导航网页类型的步骤，其具体为：

进一步作为优选的实施方式，参照图3，所述步骤S4，包括：

S42、分别对每个文本信息块进行分析并抽取内容信息块；

进一步作为优选的实施方式，所述步骤S42，其具体为：

本发明还提供了一种提取网页正文内容的系统，包括：

抽取模块，用于对待分析网页的HTML源码进行正文内容抽取。

进一步作为优选的实施方式，所述行对比模块，包括：

进一步作为优选的实施方式，所述抽取模块，包括：

以下结合具体实施例对本发明做详细说明。

实施例一

参照图1，一种提取网页正文内容的方法，包括：

S1、加载待分析网页的HTML源码，记为HTML_1，同时加载预设对比网页的HTML源码，记为HTML_0。

其中，一个包含有HTML源码的HTML文件，也可以是PHP、SHTML文件等，例如，打开任意一个网页，右键点击“查看网页源代码”，则显示该网页的页面的HTML源码。HTML源码一般是由外部爬虫功能提供的。

S2、按行比较待分析网页和预设对比网页的HTML源码的相同性，即按行比较HTML_1和HTML_0的相同性，参照图2，本步骤包括步骤S21~S23：

S21、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息；即分别对HTML_0、HTML_1的源码去除掉与正文无关的噪音信息，正文无关的噪音信息包括JS脚本、CSS样式、meta标签、注释以及UL/LI等列表型标签；

S22、依次对比待分析网页和预设对比网页的HTML源码的每一行，标志出它们的相同内容的行以及不同内容的行，并标记每行的对比结果属性为相同或不同；例如标志不同之处在HTML_1中的起始行、在HTML_0中的起始行等；

S23、根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组；提供给后续操作步骤使用。本步骤具体为：

以待分析网页的HTML源码的行数为基准，根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，先遍历每一个不同行，再遍历余下的每一个相同行，进而形成包含对比结果属性的数组。

根据相同性对比结果，判断待分析网页是否为列表导航网页类型的步骤，其具体为：

获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签（即<A>标签）后，判断剩余内容中的中文字数是否大于预设的最大中文字数阈值，若是，则判断待分析网页为内容类型页面，反之，判断待分析网页为列表导航网页类型。

S4、对待分析网页的HTML源码进行正文内容抽取，参照图3，本步骤包括步骤S41~S43：

S41、根据相同性对比结果，依序分别将待分析网页的HTML源码HTML_1中的连续不同行生成文本信息块，获得文本信息块数组；例如HTML_1中第4、5、6行的对比结果属性都被标记为不同，则将这三行生成文本信息块。

S42、分别对每个文本信息块进行分析并抽取内容信息块，具体为：对每个文本信息块，判断是否存在某一行的标点符号的数量大于阈值1，或者含有段落标签、表格标签或图像标签（<p>、</p>、<td>、</td>、<img>等标签），且该行与其下一行的标点符号的总数量大于阈值3、中文总字数大于10或其下一行含有段落标签（p标签）或图像标签（img标签），则将该行到文本信息块的尾部的内容作为内容信息块；

本方法通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息。不需要针对目标网页群进行配置抽取模板，节省维护成本。

实施例二

本实施例是与实施例一一一对应的软系统：

一种提取网页正文内容的系统，包括：

抽取模块，用于对待分析网页的HTML源码进行正文内容抽取。

行对比模块，包括：

抽取模块，包括：

本系统通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息。不需要针对目标网页群进行配置抽取模板，节省维护成本。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种提取网页正文内容的方法，其特征在于，包括：

S4、对待分析网页的HTML源码进行正文内容抽取；

所述步骤S2，包括S21～S23：

S23、根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组；

所述步骤S4，包括：

S42、分别对每个文本信息块进行分析并抽取内容信息块；

2.根据权利要求1所述的一种提取网页正文内容的方法，其特征在于，所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。

3.根据权利要求1所述的一种提取网页正文内容的方法，其特征在于，所述步骤S23，其具体为：

4.根据权利要求1所述的一种提取网页正文内容的方法，其特征在于，所述步骤S3所述根据相同性对比结果，判断待分析网页是否为列表导航网页类型的步骤，其具体为：

5.根据权利要求1所述的一种提取网页正文内容的方法，其特征在于，所述步骤S42，其具体为：

6.一种提取网页正文内容的系统，其特征在于，包括：

抽取模块，用于对待分析网页的HTML源码进行正文内容抽取；所述行对比模块，包括：

第三子模块，用于根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组；

所述抽取模块，包括：