CN101694658B

CN101694658B - 基于新闻去重的网页爬虫的构建方法

Info

Publication number: CN101694658B
Application number: CN2009101535883A
Authority: CN
Inventors: 卜佳俊; 李辉; 陈伟; 陈纯; 梁雄君
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2009-10-20
Filing date: 2009-10-20
Publication date: 2012-07-04
Anticipated expiration: 2029-10-20
Also published as: CN101694658A

Abstract

基于新闻去重的网页爬虫的构建方法，包括以下步骤：构造解析器解析新闻网页；构建新闻集；设定网页之间的相似度的阈值；将当前抓取的新闻网页与新闻集进行比对，判断相似度是否高于阈值；若低于阈值，则将当前网页加入新闻集中；若高于阈值，则舍弃该新闻，抓取下一个网页；抓取当前网页的URL，判断此URL是否指向新闻网页，若是，判断此URL是否被访问过；若否，则舍弃；若此URL已被访问过，则舍弃此URL；若此URL未被访问过，则存入待访问队列；从待访问队列中依次提取URL进行访问；重复执行上述步骤。本发明的优点是：算法效率高，避免抓取重复内容的网页，资源浪费小，数据维护方便。

Description

基于新闻去重的网页爬虫的构建方法

技术领域

本发明涉及一种网页爬虫的构建方法，特别是一种基于新闻去重的网页爬虫的构件方法。

背景技术

在这个信息爆炸的时代，网络媒体以其快速的新闻发布，广泛的新闻传播而逐渐取代电视，报纸等传统媒体成为现在主流的新闻传播方式。

当前的几大新闻门户网站：“新浪网”、“新华网”、“网易”都拥有自己强大的新闻采访、编辑和发布团队，每天的新闻发布数量达到数千条。新闻网站一般涵盖了各个类别的新闻：国内新闻、国际新闻、社会新闻、娱乐新闻、军事新闻、体育新闻、财经新闻、科技新闻等。同时每个新闻门户也都有各自的特色，比如“新华网”的时政新闻，“新浪网”的体育新闻，“网易”的社会新闻。因此，整合多个新闻门户网站的新闻可以让用户得到更全面，更丰富，更具有特色的新闻资讯。

如何有效地提取网络中的信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但通用性搜索引擎存在以下的局限性：

1、通用搜索引擎的目标是获得尽可能大的网络覆盖率，这就进一步加深了有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾。

2、网络数据的形式丰富、网络技术不断发展，图片、数据库、音频/视频等不同形式的数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好的发现和获取。

3、通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

4、不同领域、不同北京的用户具有不同的检索目的、需求，通用搜索引擎返回的结果包含大量的用户不关心的信息。

为解决上述缺点，一种定向抓取相关网页资源的网页爬虫应运而生。网络爬虫是一个自动提取网页的程序，它可以自动地从网络中抓取网页，是搜索引擎的重要组成。其工作原理是：网页爬虫从初始设定的一个或者多个初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前网页上抽取新的URL，然后根据网页分析算法过滤掉与主题无关的连接，保留有用的连接并将其放入等待访问的URL队列中，直到满足一定的停止条件。采用网页爬虫可以对多个数据源同时进行抓取。

以新闻信息为例，说明网络爬虫存在的缺点：1、由于每个新闻网站的对新闻的发布是，可能是相同的文章的复制，也可能是关于同一件事不同的网站发布了不同的文章，网页爬虫在抓取数据时，很可能将这些重复的信息也抓取进来，不仅浪费网络资源，存储资源，而且对今后的数据维护造成极大的麻烦。2、网页中有大量的URL都是指向与新闻无关的无效信息，如广告、博客、导航网页等，若爬虫将这些URL也抓取进来，也会造成网络资源、存储资源的浪费，以后后续维护的困难。3、现有的网页爬虫是先将网页抓取、下载后再进行有效性分析，大量的无关网页将被下载，浪费有限的存储资源。4、随着网页抓取量的增多，无关网页被下载再进行分析过滤，造成算法的效率低下。

发明内容

为克服现有技术的算法效率低下，容易抓取重复内容的网页，资源浪费大，数据维护困难的缺点，本发明提供了一种算法效率高，避免抓取重复内容的网页，资源浪费小，数据维护方便的基于新闻去重的网页爬虫的构建方法。

基于新闻去重的网页爬虫的构建方法，包括以下步骤：

1)、构造能将网页中的新闻的标题和内容抽取出来的解析器，用所述的解析器解析新闻网页；

2)、构建新闻网页的集合形成新闻集；设定当前抓取的网页与新闻集中的新闻网页之间的相似度的阈值，所述的相似度以内容的重复程度来表征；

3)、将当前抓取的新闻网页与所述的新闻集进行比对，判断它们之间的相似度是否高于所述的阈值；

4)、若相似度低于所述的阈值，则将当前网页加入新闻集中，若相似度高于所述的阈值，则舍弃该新闻，抓取下一个网页；

5)、抓取当前网页的URL，判断此URL是否指向新闻网页，若URL不指向新闻网页，则舍弃此URL；若是指向新闻网页，则与存储有已访问过的URL的已访问队列进行比对，判断此URL是否被访问过；

6)、若此URL存在于所述的已访问队列中，则舍弃此URL；若此URL不存在于所述的已访问队列中，则将此URL存入一待访问队列中；

7)、从待访问队列中依次提取URL进行访问；

8)、重复执行步骤1-9。

进一步，所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成，所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容。

进一步，所述的步骤(3)由以下步骤组成：

(3.1)将新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重；

(3.2)根据经验，选取该文本中N个权重最高的关键词构成(关键词，权重)的集合C＝{(t₁，w₁)，(t₂，w₂)，(t₃，w₃)，……(t_N，w_N)}，

其中：t_i：第i个关键词；w_i：第i个关键词的权重；

(3.3)将集合C中的元素根据权重w_i进行从大到小的排序；将新闻集中的每个子集C_i中的元素根据其关键词的权重进行从大到小的排序；设定C与C_i之间的相似度的阈值，所述的相似度由两集合中具有相同排序位置的关键词个数来表征；

(3.4)将集合C与新闻集中的每个C_i进行比对，判断它们的相似度是否高于所述的阈值；若高于所述的阈值，则认为C为重复新闻；若低于所述的阈值，则认为C为非重复新闻；

(3.5)将非重复新闻加入新闻集中。

进一步，若经(3.4)判断集合C为非重复新闻，则将新闻内容文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重，再一次顺序执行(3.2)到(3.4)；若此次判断仍然为非重复新闻，再将此新闻加入新闻集中。

进一步，所述的步骤(5)中的判断URL是否指向新闻网页包括以下步骤：

(5.1)从作为数据源的各大网站批量抓取新闻网页的URL作为训练集，采用划分聚类算法对这些URL进行聚类，将具有相同URL格式的聚成一类；

(5.2)构造能根据URL的格式特征得出其正则表达式的URL解析器，用所述的URL解析器对每个类别的URL的格式特征进行学习，获得每个类别的正则表达式；

(5.3)用所述的URL解析器解析当前抓取网页的URL，判断该网页是否具有新闻网页的URL的格式特征；若是，则认为此URL为指向新闻网页的URL；若否，则认为此URL指向新闻以外的其它网页，将此URL舍弃。

本发明的技术构思是：在网络爬虫抓取网页之前进行重复数据过滤，避免重复数据的下载，减少了爬虫需要抓取的数据量，节约了存储资源；爬虫在抓取URL时，先判断URL是否指向有效信息，将无关网页的URL过滤，保证了爬取数据的纯净度与准确性，即下载下来的均为有效网页，算法的效率高，网络资源的消耗有效降低，存储资源的浪费少；由于只需存储有效信息即可，数据的存储量降低，后续的数据维护的困难度降低。

本发明的优点是：算法效率高，避免抓取重复内容的网页，资源浪费小，数据维护方便。

附图说明

图1为本发明的总的流程图

图2为当前抓取的新闻与新闻集中各新闻比对的流程图

图3为另一种当前抓取的新闻与新闻集中各新闻比对的流程图

图4为判断URL是否被访问过的流程图

具体实施方式

实施例一

参照附图1、2、4

基于新闻去重的网页爬虫的构建方法，包括以下步骤：

1、基于新闻去重的网页爬虫的构建方法，包括以下步骤：

其中：t_i：第i个关键词；w_i：第i个关键词的权重；

(3.5)将非重复新闻加入新闻集中。

7)、从待访问队列中依次提取URL进行访问；

8)、重复执行步骤1-9。

所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成，所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容。

实施例二

参照附图1、3、4

本实施例与实施例一的区别之处在于：若经(3.4)判断集合C为非重复新闻，则将新闻正文文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重，再一次顺序执行(3.2)到(3.4)；若此次判断仍然为非重复新闻，再将此新闻加入新闻集中。其余相同。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于新闻去重的网页爬虫的构建方法，包括以下步骤：

1)、构造能将网页中的新闻的标题和内容抽取出来的解析器，用所述的解析器解析新闻网页，所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成，所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容；

2)、构建新闻网页的集合形成新闻集；

3)、将当前抓取的新闻网页与所述的新闻集进行比对，其中步骤3)具体包括：

(3.1)将当前抓取的新闻网页的新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重；

(3.2)选取该文本中N个权重最高的关键词构成(关键词，权重)的集合C＝{(t₁，w₁)，(t₂，w₂)，(t₃，w₃)，……，(t_i，w_i)，……(t_N，w_N)}，

其中：t_i：第i个关键词；w_i：第i个关键词的权重；

(3.3)将集合C中的元素根据权重w_i进行从大到小的排序；将新闻集中的每个子集C_i中的元素根据其关键词的权重进行从大到小的排序；设定C与C_i之间的相似度阈值，所述的相似度由两集合的具有相同排序位置的关键词个数来表征；

(3.4)将集合C与新闻集中的每个C_i进行比对，判断它们的相似度是否高于所述相似度阈值；只要C与任意一个C_i的相似度高于所述相似度阈值，则认为C为重复新闻；若C与每个C_i的相似度都低于所述相似度阈值，则认为C为非重复新闻；

(3.5)将非重复新闻加入新闻集中；

4)、若当前抓取的新闻网页为非重复新闻，则将当前网页加入新闻集中，进入步骤5)；若当前抓取的新闻网页为重复新闻，则舍弃该新闻，抓取下一个新闻网页，然后重复执行步骤4)之前的步骤；

5)、抓取当前抓取的新闻网页的URL，判断此URL是否指向新闻网页，若URL不指向新闻网页，则舍弃此URL；若是指向新闻网页，则与存储有已访问过的URL的已访问队列进行比对，判断此URL是否被访问过，其中步骤5)中判断URL是否指向新闻网页具体包括：

(5.3)用所述的URL解析器解析当前抓取网页的URL，判断该网页是否具有新闻网页的URL的格式特征；若是，则认为此URL为指向新闻网页的URL；若否，则认为此URL指向新闻以外的其它网页，将此URL舍弃；

7)、从待访问队列中依次提取URL进行访问；

8)、重复执行步骤1)-7)。

2.如权利要求1所述的基于新闻去重的网页爬虫的构建方法，其特征在于：若经(3.4)判断集合C为非重复新闻，则将当前抓取的新闻网页的新闻内容文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重，再一次顺序执行(3.2)到(3.4)；若此次判断仍然为非重复新闻，再将此新闻加入新闻集中。