CN103942335B

CN103942335B - 一种针对网页结构变化的不间断爬虫系统构建方法

Info

Publication number: CN103942335B
Application number: CN201410190386.7A
Authority: CN
Inventors: 刘金硕; 张智; 邓娟; 邓莹莹; 陈嘉敏; 彭映月; 李亚波; 徐亚渤
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2014-05-07
Filing date: 2014-05-07
Publication date: 2017-04-26
Anticipated expiration: 2034-05-07
Also published as: CN103942335A

Abstract

本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法，本发明在数据抽取的过程中，并不依赖于具体的标签节点，而是通过计算的方法来寻找目标节点；利用节点剪枝和相似哈希的方法锁定标题节点；然后，迭代计算相关节点的上下文主题相关度值TTR，得到目标抽取模块的节点；最后，使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取，在库匹配的过程中，使用了库动态增长的方法；同时，在目标抽取节点下的剩余节点中，过滤掉所有噪声节点，便得到网页文本的正文信息；本发明提供的技术方法主要应用于舆情监测系统中，对其他用途的网络爬虫具有一定参考价值。

Description

一种针对网页结构变化的不间断爬虫系统构建方法

技术领域

本发明涉及一种爬虫系统构建方法，具体的为一种针对网页结构变化的不间断爬虫系统构建方法。

背景技术

网络爬虫是各种搜索引擎能够实现的先驱技术，大数据时代的来临以及互联网技术的飞速发展，使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战，高效率且不间断工作的网络爬虫成为Web信息挖掘的研究热点。

目前，网络爬虫基本上都是基于页面结构实现数据获取的。通过获取网页文档，将网页文档解析成DOM树的形式，根据DOM树的规则，HTML文档中的所有元素都用节点来表示。根据DOM树构建抽取规则，实现数据抽取。在数据抽取的过程中，由于网页信息源的异构性，为了不损失抽取精度，需要针对每个网站都构造相应的抽取规则。这样爬虫的覆盖率会十分低，极大地限制了网络资源获取的可能性。基于DOM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率。但是，在数据抽取的时候会依赖该页面具体的标签节点，一旦对应的页面结构发生变化或者出现新的标签节点命名规则，不但使爬虫获取不到正确的数据，还会进一步导致爬虫停止数据获取的工作。

如何在利用DOM树规则快速抽取数据的便利性、针对异构信息源构建通用的抽取规则以及保证爬虫在页面结构动态变化的时候能够不间断工作，目前在本领域尚未出现解决的方法。

发明内容

本发明为了解决上述的技术问题，提出了一种针对网页结构变化的不间断爬虫系统构建方法。

本发明的技术方案是：一种针对网页结构变化的不间断爬虫系统构建方法，包括如下步骤：

步骤1，爬虫根据用户自定义数据抽取的入口地址，获取对应的HTML页面，并调用HTML解析器将HTML页面解析成DOM树；

步骤2，构造一个网页节点剪枝器，对网页文档节点剪枝，过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点；

步骤3，抽取特定节点<title|TITLE>下的内容，计算该内容所有词的特征值，并映射为16位的信息指纹，根据相似哈希的计算方法计算该内容的相似哈希值T；然后，自上至下逐个对剪枝后的其他节点进行相同处理，获取对应的相似哈希值Ni；比对T与Ni，差值小于阈值的节点即为目标抽取文本的标题节点；

步骤4，设定标题节点为起始节点，自底向上迭代计算各节点的上下文主题相关度值TTR，找到TTR值最大的节点，该节点即为目标抽取模块节点；相关度值TTR的计算公式为：

其中，TTR(n_i)表示当前节点的上下文主题相关度，ContentCount(n_i)表示当前节点下的字符数，ContentCount(Pn_i)则表示当前节点的父节点下的字符数；

步骤5，根据确定的目标抽取模块，分别利用正则表达式和库匹配方法实现对目标节点下发布时间以及新闻来源字段的提取，库匹配流程实现信息发布源数据库的动态增长；最后，提取大块的正文文本内容。

所述的步骤2中，对于超链接节点的剪枝处理通过下述公式计算：

其中，LinkContent(i)表示当前节点下超链接文本的字符数，Content(i)则表示当前节点下所有的字符数；如果E(i)＝1，则是与文本无关的纯超链接节点，在数据抽取的时候直接过滤掉，否则不做处理。

本发明的有益效果是：一种针对网页结构变化的不间断爬虫系统构建方法，在数据抽取的过程中，并不依赖于具体的标签节点，而是通过计算的方法来寻找目标节点。利用节点剪枝和相似哈希的方法锁定标题节点。然后，迭代计算相关节点的上下文主题相关度值TTR，得到目标抽取模块的节点。最后，使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取，在库匹配的过程中，使用了库动态增长的方法。同时，在目标抽取节点下的剩余节点中，过滤掉所有噪声节点，便得到网页文本的正文信息。本发明提供的技术方法主要应用于舆情监测系统中，对其他用途的网络爬虫具有一定参考价值。

附图说明

图1为本发明的系统构建方法流程图；

图2为信息发布源的库动态增长流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

1.如图1所示，用户自定义获取数据的目标网站的入口地址文件，爬虫读取该文件。在实施例中，爬虫根据提供的入口网址，获取该入口下所有的页面；并调用HTML解析器将页面解析成DOM树的形式，包含元素节点、文本节点、属性节点和注释节点。

2.构造一个网页节点剪枝器，对网页文档节点剪枝，过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点；对JavaScript、CSS标签节点采取直接过滤掉的办法，这些标签全部都是文本主题无关的内容。对于超链接节点的剪枝处理通过下述公式计算：

3.经过剪枝后，整个文档的节点数量下降到一定水平。接下来，基于相似哈希的方法来锁定文本标题所在的节点。具体的方法是：抽取特定节点<title|TITLE>下的内容，计算该内容所有词的特征值，并映射为16位的信息指纹，根据相似哈希的计算方法计算该内容的相似哈希值T；然后，自上至下逐个对剪枝后的其他节点进行相同处理，获取对应的相似哈希值Ni；比对T与Ni，差值小于一定阈值的节点即为目标抽取文本的标题节点。

4.计算和分析得到标题所在的节点之后，可以知道该节点位于目标抽取模块之内，设定标题节点为起始节点，自底向上迭代计算各节点的上下文主题相关度值TTR，其计算公式为：

其中，TTR(n_i)表示当前节点的上下文主题相关度，ContentCount(n_i)表示当前节点下的字符数，ContentCount(Pn_i)则表示当前节点的父节点下的字符数。由网页结构的特征可以得出，当节点TTR值最大的时候，该节点即为包含正文、标题在内的目标抽取节点。

5.以新浪、腾讯、网易等各大门户网站的新闻信息为例，目标抽取节点即按照步骤4计算出来的某一个DIV标签节点，新闻的发布时间以及信息来源位于目标抽取节点下的子节点中。由于时间有一定的格式，利用正则表达式的匹配方法能够快速锁定和抽取对应信息。如：2014年4月24日10:31，包括年月日时分，用对应的正则表达式：[0-9]{4}-[0-9]{1,2}-[0-9]{1,2}[0-9]{1,2}:[0-9]{1,2}来匹配该内容，定义覆盖所有可能时间格式的正则匹配式，应对异构网页源的所有时间数据。新闻来源信息同样位于目标抽取节点的某一个子节点中，该信息从文本角度上来说没有特别的格式或者特征，但是对应一定的信息发布源。所以建立对应的信息发布源库，人工添加一定的信息发布源；同时如图2所示，每次在新闻来源字段抽取的时候，都会与信息发布源库进行匹配，如果匹配成功，则保留对应的节点标签值，并将新闻来源字段存入到信息发布源数据库；如果在库中匹配不到新闻来源字段，则根据相同的目标抽取节点的标签值以及新闻来源节点的标签值来确定要抽取的内容，同样将对应的信息存入到信息发布源数据库，实现库的动态增长。

在实施例中，标题节点的父节点即为目标抽取节点，标题、新闻来源以及发布时间等字段都被成功抽取之后，目标抽取节点中除正文文本之外的节点都是噪声节点，过滤掉所有的JS、CSS以及超链接节点，即得到正文的文本内容。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种针对网页结构变化的不间断爬虫系统构建方法，其特征在于，包括如下步骤：

T T R (n_{i}) = \frac{C o n t e n t C o u n t (n_{i})}{C o n t e n t C o u n t ({Pn}_{i})}

步骤5，根据确定的目标抽取模块，分别利用正则表达式和库匹配方法实现对目标抽取模块节点下发布时间以及新闻来源字段的提取，库匹配流程实现信息发布源数据库的动态增长；最后，提取大块的正文文本内容。

2.根据权利要求1所述的一种针对网页结构变化的不间断爬虫系统构建方法，

其特征于：所述的步骤2中，对于超链接节点的剪枝处理通过下述公式计算；

E (i) = \frac{L i n k C o n t e n t (i)}{C o n t e n t (i)}