CN106547851A

CN106547851A - 基于模糊序列模式发掘的网页内容提取方法

Info

Publication number: CN106547851A
Application number: CN201610911400.7A
Authority: CN
Inventors: 黄瑞章; 黄庭; 刘博伟; 闫盈盈; 陈功; 王振军; 朱坤; 钟文良
Original assignee: Guizhou Farming Technology Co Ltd; Guizhou University
Current assignee: Guizhou Farming Technology Co Ltd; Guizhou University
Priority date: 2016-10-19
Filing date: 2016-10-19
Publication date: 2017-03-29
Anticipated expiration: 2036-10-19
Also published as: CN106547851B

Abstract

本发明公开了一种基于模糊序列模式发掘的网页内容提取方法。本发明针对网页内容提取问题，通过相同内容块内容在超文本标记语言中距离较近，不同内容块的内容相距较远的原理，针对网页上的每一个内容模块，分别用一个行文字长度序列的方式来表示，同时越是功能性模块模糊度越低，信息越丰富的内容模块序列模糊度越高。针对不同网站，利用少量给定网页进行训练，得到模糊序列模式，对于来自同一个网站的新页面将利用模糊序列模式来进行匹配，得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性，同时能够将不同类型的内容分开提取。

Description

基于模糊序列模式发掘的网页内容提取方法

技术领域

本发明涉及互联网信息处理技术领域，尤其是一种基于模糊序列模式发掘的网页内容提取方法。

背景技术

随着互联网使用的增加，网页上的信息逐渐成为了最为重要的信息来源之一。例如舆情分析、社交网络分析等应用需要从大量的网页上有效迅速获取合适的内容信息来做进一步的分析，但是网页本身除了包含内容的文字之外还包括网页标签、为了方便用户浏览的导航栏和广告等噪音信息。如何合理的从网页中提取有效的内容以得到规整的信息供后续的分析应用，网页内容提取方法正是在这样的使用场景下应运而生。

网页内容提取是指从超文本标记语言(HTML,Hyper Mark-up Language)中，去除导航栏、广告、版权等和正文无关的噪音信息，将正文以及和正文相关的内容提取出来，网页内容提取是网页数据分析应用中不可或缺的步骤之一。

现有技术中提取网页内容的方法主要包括基于视觉特征的提取方法、基于超文本标记语言结构树的提取方法和基于网页内容文本的提取方法：

1.基于视觉特征的提取方法：

首先根据字体、字号、颜色、空白信息等奖网页划分成不同的视觉信息块，然后分析每个信息块的视觉特征规律，判断该视觉信息块是否为网页的正文内容。

上述基于视觉特征的提取方法主要根据网页的视觉特征来提取正文，而有时正文和其他信息的界限并不准确，提取准确度较低。另外，网络技术不断发展，不同的网页格式越来越丰富，有些用来分析视觉特征的标记特征无法获取或获取不准确，因此采用基于视觉特征的网页内容提取方法提取正文内容时准确性较低。

2.基于超文本标记语言结构树的提取方法：

此方法利用所有的超文本标记将网页构建为一棵标记树，其中每一个标记都是其中的一个节点。所有的网页内容将落在所有的叶子节点上，此方法通过分析一系列页面结构相同的页面，从所有构建的标记树中提取最大公共子树作为页面的模板。当需要从新的页面抽取正文时，新页面构建的标记树去除最大公共子树即为正文内容。

上述基于超文本标记语言结构树的提取方法主要根据网页结构来提取正文，而在提取最大公共子树的过程中需要耗费大量的计算资源，计算时间较长，而且一旦网页结构发生变化此方法就不能获得好的效果，因此采用基于超文本标记语言结构树的网页内容提取方法提取正文内容效率并不高。

3.基于网页内容文本的提取方法：

此方法认为网页中一般文本最多或者说文本密度最高的部分应该是正文内容，通过去除网页中所有的超文本标记语言，统计其中文本的数量，把其中文字最多的部分当做网页的正文内容。

上述的基于网页内容文本的提取方法主要根据网页的内容来提取网页正文，然而有很多页面正文和非正文之间文本数量的变化并不明显，正文文本数量少于非正文文本数时，正文的提取准确度性较低而且只能找到正文，并不能找到和正文相关的其他有效信息并将其分离。

由上可见，现有技术的网页内容提取技术，存在提取准确度较低，提取内容单一的问题。

发明内容

本发明的目的是：提供了一种基于模糊序列模式发掘的网页内容提取方法，它能够显著提高内容提取的准确性，同时能够将不同类型的内容分开提取，以克服现有技术不足。

本发明是这样实现的：基于模糊序列模式发掘的网页内容提取方法，包括如下步骤：

1)从给定的训练网页集合中提取模糊序列模式；

2)根据发掘出的模糊序列模式确定不同模糊序列模式对应的网页内容。

步骤1)所述的提取模糊序列模式具体如下：

1.1)先将训练网页集网页序列化表示；

1.2)将序列化后的网页进行分段；

1.3)根据给定模糊度，在网页分段中发掘模糊序列模式；

1.4)对剩余网页分段进行调整，调整模糊度，重复步骤1.2)及步骤1.3)，直至模糊度大于给定模糊度阈值、或者没有剩余网页分段；

3、根据权利要去要求2所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：步骤1.1)所述的将训练网页集网页序列化表示具体是：对给定的网页进行规范化处理，去除规范化处理后的网页中网页标记标签，统计每一行的文字个数，按照行顺序将每一行的文字长度组合成有序序列，完成对给定网页的序列化表示。

步骤1.2)所述的将序列化后的网页进行分段具体是：

1.2.1)将给定序列化处理后的网页序列作为一个网页段；

1.2.2)将段中行文字长度为零的行作为间距，寻找段中行间距最大既最多连续长度为零行的起止行号；

1.2.3)再根据最大行间距的起止行号将给定段切成两段加入到段集合中；

1.2.4)遍历段集合中所有段，并重复上述步骤1.2.2)及步骤1.2.3)，直至找到的最大行距小于给定行间距阈值或者给定段中的行间距均匀分布。

步骤1.3)所述的在网页分段中发掘模糊序列模式具体是：寻找给定训练网页集的每个页面中在当前模糊度下出现在训练网页集中每个页面的段称之为频繁段，根据频繁出现的段生成当前模糊度下的频繁模糊序列。

所述的根据频繁出现的段生成当前模糊度下的频繁模糊序列，具体包括：根据当前模糊度，将所有频繁段中的每一个行文字长度分别进行一次减去和加上模糊度，得到最小行文字长度与最大行文字长度的区间，利用该区间替代段中对应的行文字长度项；将所有在当前模糊度下能够匹配的频繁段相互之间做交集，得到一个段，其中每一项对应着所有匹配频繁段中对应项行文字长度区间的交集；当前模糊度和做交集操作之后得到的段结合在一起，获得根据频繁出现的段生成当前模糊度下的频繁模糊序列。

步骤1.4)中所述的对剩余网页分段进行调整具体是：给定模糊度调整步长，模糊度相应增加；对于所有未被匹配的非频繁段，将段中每一项的最小行文字长度减少模糊度调整步长，最大行文字长度增加模糊度调整步长，得到新的段。

所述的步骤2)中根据发掘出的模糊序列模式确定不同模糊序列模式对应的网页内容具体为：将需匹配的网页进行规范化预处理、序列化表示并进行分段，得到网页分段集合；对于每一分段，寻找给定模糊序列模式中模糊度最小的匹配模式，则该分段对应的内容应为匹配模式对应的内容类型，若分段不存在任何一个匹配的模式，则认为该分段为正文内容。

所述匹配具体为：长度相同的段中，每一个对应项的最小最大行文字长度区间存在相互重合，称为两个段匹配。

由于采用了上述技术方案，与现有技术相比，本发明针对网页内容提取问题，通过相同内容块内容在超文本标记语言中距离较近，不同内容块的内容相距较远的原理，针对网页上的每一个内容模块，分别用一个行文字长度序列的方式来表示，同时越是功能性模块模糊度越低，信息越丰富的内容模块序列模糊度越高。针对不同网站，利用少量给定网页进行训练，得到模糊序列模式，对于来自同一个网站的新页面将利用模糊序列模式来进行匹配，得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性，同时能够将不同类型的内容分开提取。本发明简单易行，使用效果好。

附图说明

图1为本发明实施例中，网页内容提取方法流程示意图；

图2为本发明实施例中，模糊序列模式提取流程示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明，但不作为对本发明的任何限制

本发明的实施例：基于模糊序列模式发掘的网页内容提取方法，如图1所示，为本发明实施例中网页内容提取方法流程图，其具体处理流程如下：

步骤11，从给定的网页训练集中发掘出模糊序列模式集合。

步骤12，将需提取网页内容的网页进行序列化表示并分段。

1)去除网页超文本标记语言中所有的标签和代码，只剩下文本内容。

2)统计每一行文本长度，初始化行长度项[l_min,l_max]，行长度项为行文字长度区间，初始化最大长度和最小长度均为行文字长度。所有的项按行顺序排列得到网页的序列化表示，如表1所示是一段网页超文本标记语言和对应的序列化表示。

表1

超文本标记语言	对应序列化表示
		<figcaption class＝"...">	I₁＝[0,0]
<span class＝"...">Image caption</span>	I₂＝[2,2]
		<span class＝"...">Dr.Fox...trade deals</span>	I₃＝[16,16]
</figcaption>	I₄＝[0,0]
		</div>	I₅＝[0,0]

3)网页序列作为最大段，针对所有的段，寻找段中行长度为零的最长连续子序列即最大行间距的起止行号，根据行号分割该段，直至剩余所有段中行间距均相等或者剩余所有段中的最大行间距小于预设阈值。

步骤13，针对分段处理后得到的分段集合中的每一个分段，尝试在步骤11所发掘的模糊序列模式集合中寻找匹配模式。

步骤14，如果分段存在匹配模式，针对所有能够匹配上的模糊序列模式，取模糊度最小的匹配序列，说明该分段符合匹配模式的内容类型予以提取。若不存在匹配模式则说明该分段应作为正文内容提取。

步骤15，若网页分段剩余则结束，仍有分段剩余则重复步骤13-15。

如图2所示，为步骤11模糊序列模式提取流程示意图，其具体处理流程如下。

步骤21、22，如步骤12操作对给定的训练网页集合中的网页进行规范化和序列化表示以及分段。

步骤23，从规定网页训练集合的所有分段中寻找模糊序列模式。

1)针对不同网页中的每一个分段，统计其在当前模糊度下在多少个网页中出现过，如果出现次数大于预设阈值则认定该分段为当前模糊度下的频繁分段。

2)对当前模糊度下相同长度的频繁分段进行合并操作，定义当前模糊度f，则分段中的每一项为[l_min-f,l_max+f]，如果两个分段其中每一项行文字长度区间都存在重合，我们称之为模糊匹配，则取每一项的交集生成新的分段，作为当前模糊度下的模糊序列模式。

3)从训练网页分段集合中删除所有能和步骤2)生成的模糊序列模式匹配的分段。

步骤24，调整训练网页分段集合中剩余的分段。

1)定义模糊度调整幅度r，模糊度f+r。

2)训练网页分段集合中剩余的所有分段中的每一项调整行文本长度区间至[l_min-f-r,l_max+f+r]。

步骤25，如无剩余训练网页分段或者模糊度大于预设阈值则结束，否则重复步骤23-25。

为了测试本发明所述的网页内容提取方法的有效性，从网易新闻随机抓取20个网页，选取其中3个页面作为训练网页集剩下17个网页作为测试数据集。表2所示为通过步骤21-25从3个训练网页中提取的模糊序列模式示例。

表2

模糊度	模糊序列模式数量	模糊序列模式示例
			0	130	(0；<[2；2]；[3；3]；[3；3]；[2；2]；[4；4]；[1；1]>)
2	15	(2；<[3；7]；[5；9]；[22；26]；[20；24]；[20；24]；[22；26]>)
			4	12	(4；<[0；8]；[18；21]；[14；21]；[10；18]；[18；25]>)

利用如表2所示的从训练网页集中提取的带有不同模糊度的模糊序列模式去剩余的测试网页中做网页内容匹配，如表3所示为测试网页匹配出的网页内容。

表3

从表3中可以发现通过本发明可以匹配出目标网页中不同类型的网页内容并得到较好的效果，表4所示为在此测试用例中提取网页正文内容和相关链接时本发明达到的提取精确度和召回率值以及F1值(越高越好)，可见本发明阐述的方法可以很好的利用从少部分页面中提取的模糊序列模式去提取同类型网页中不同类型的网页内容并得到较高的精确度和召回率，具有很高的实际应用价值。

表4

提取内容	精确度	召回率	F1值
				网页正文	100％	99.46％	99.72％
相关链接	100％	99.07％	99.53％

以上所述，仅是本发明的较佳实例而已，并非对本发明做任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于模糊序列模式发掘的网页内容提取方法，其特征在于：包括如下步骤：

1)从给定的训练网页集合中提取模糊序列模式；

2.根据权利要去要求1所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：步骤1)所述的提取模糊序列模式具体如下：

1.1)先将训练网页集网页序列化表示；

1.2)将序列化后的网页进行分段；

1.3)根据给定模糊度，在网页分段中发掘模糊序列模式；

1.4)对剩余网页分段进行调整，调整模糊度，重复步骤1.2)及步骤1.3)，直至模糊度大于给定模糊度阈值、或者没有剩余网页分段。

3.根据权利要去要求2所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：步骤1.1)所述的将训练网页集网页序列化表示具体是：对给定的网页进行规范化处理，去除规范化处理后的网页中网页标记标签，统计每一行的文字个数，按照行顺序将每一行的文字长度组合成有序序列，完成对给定网页的序列化表示。

4.根据权利要去要求2所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：步骤1.2)所述的将序列化后的网页进行分段具体是：

1.2.1)将给定序列化处理后的网页序列作为一个网页段；

5.根据权利要去要求2所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：步骤1.3)所述的在网页分段中发掘模糊序列模式具体是：寻找给定训练网页集的每个页面中在当前模糊度下出现在训练网页集中每个页面的段称之为频繁段，根据频繁出现的段生成当前模糊度下的频繁模糊序列。

6.根据权利要去要求5所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：所述的根据频繁出现的段生成当前模糊度下的频繁模糊序列，具体包括：根据当前模糊度，将所有频繁段中的每一个行文字长度分别进行一次减去和加上模糊度，得到最小行文字长度与最大行文字长度的区间，利用该区间替代段中对应的行文字长度项；将所有在当前模糊度下能够匹配的频繁段相互之间做交集，得到一个段，其中每一项对应着所有匹配频繁段中对应项行文字长度区间的交集；当前模糊度和做交集操作之后得到的段结合在一起，获得根据频繁出现的段生成当前模糊度下的频繁模糊序列。

7.根据权利要去要求2所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：步骤1.4)中所述的对剩余网页分段进行调整具体是：给定模糊度调整步长，模糊度相应增加；对于所有未被匹配的非频繁段，将段中每一项的最小行文字长度减少模糊度调整步长，最大行文字长度增加模糊度调整步长，得到新的段。

8.根据权利要去要求1所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：所述的步骤2)中根据发掘出的模糊序列模式确定不同模糊序列模式对应的网页内容具体为：将需匹配的网页进行规范化预处理、序列化表示并进行分段，得到网页分段集合；对于每一分段，寻找给定模糊序列模式中模糊度最小的匹配模式，则该分段对应的内容应为匹配模式对应的内容类型，若分段不存在任何一个匹配的模式，则认为该分段为正文内容。

9.根据权利要去要求6、7或8所述的基于模糊序列模式发掘的网页内容提取方法，其特征在于：所述匹配具体为：长度相同的段中，每一个对应项的最小最大行文字长度区间存在相互重合，称为两个段匹配。