CN102314463A

CN102314463A - 分布式爬虫系统及其提取网页数据的方法

Info

Publication number: CN102314463A
Application number: CN2010102246718A
Authority: CN
Inventors: 贾海禄
Original assignee: Beijing Ruixin Online System Tech Co Ltd
Current assignee: Beijing Ruixin Online System Tech Co Ltd
Priority date: 2010-07-07
Filing date: 2010-07-07
Publication date: 2012-01-11

Abstract

本发明公开了一种分布式爬虫系统及其提取网页数据的方法，该系统包括爬虫服务器，用于发布未处理URL队列，并对所述分布式爬虫系统进行逻辑控制；消息队列服务器，用于从所述爬虫服务器接收URL队列，并将所述URL队列向所述下载端发送；至少一个下载端，用于根据从所述消息队列服务器中接收的URL队列下载网页，并将下载的网页数据发送至所述爬虫服务器；URL过滤器，用于对所述爬虫服务器收到的网页数据进行排重。本发明的爬虫服务器不需要知道下载端的实现，爬虫服务器将任务发给消息队列服务器，并等待任务结果的返回即可，逻辑控制和下载任务的分离，让分布式爬虫系统的启动、管理、容错都变的简单许多。

Description

分布式爬虫系统及其提取网页数据的方法

技术领域

本发明涉及计算机数据挖掘技术，特别是涉及一种分布式爬虫系统及其提取网页数据的方法。

背景技术

搜索引擎作为网络信息搜寻的工具，它以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务。1994年，爬虫程序被应用到索引程序中，Yahoo、Google等相继出现。但至今，功能再强大的搜索引擎都仍然存在信息丢失、更新率不高、精确率不高等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。

在这种情况下定向抓取相关网页资源的主题爬虫应运而生。主题爬虫又称为聚焦爬虫，为自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。作为一种智能的Web爬虫，它的基本工作过程与一般的爬虫是相似的。与一般爬虫不同的是，主题爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

目前无论对于一般爬虫还是主题爬虫，大部分研究都是专注于爬虫的搜索策略和相关度分析方面，在这些方面也已取得相当多的进展。而面对越来越庞大的网络资源，提高爬虫程序的速度已成为当前搜索领域的一个焦点问题，但现有的爬虫程序显然不能满足高速爬取的需求。

发明内容

有鉴于此，本发明提出一种分布式爬虫系统及其提取网页数据的方法，以提高网页爬取速度。

本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种分布式爬虫系统，包括爬虫服务器、消息队列服务器、至少一个下载端和统一资源定位符URL过滤器，其中，所述爬虫服务器，用于发布未处理URL队列，并对所述分布式爬虫系统进行逻辑控制；所述消息队列服务器，用于从所述爬虫服务器接收URL队列，并将所述URL队列向所述下载端发送；所述下载端，用于根据从所述消息队列服务器中接收的URL队列下载网页，并将下载的网页数据发送至所述爬虫服务器；以及所述URL过滤器，用于对所述爬虫服务器收到的网页数据进行排重。

本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

前述的分布式爬虫系统，所述消息队列服务器向所述下载端下达URL队列或根据所述下载端的请求向其提供URL队列。

前述的分布式爬虫系统，还包括本地文件子系统，用于存储所述爬虫服务器收到的所述网页数据。

前述的分布式爬虫系统，还包括分布式文件子系统，用于同步所述本地文件子系统中的网页数据。

前述的分布式爬虫系统，所述URL过滤器为基于二进制数组bitSet的过滤器。

前述的分布式爬虫系统，还包括监控端，用于监控和管理所述爬虫服务器。

本发明的目的及解决其技术问题另外还采用以下技术方案来实现。依据本发明提出的一种提取网页数据的方法，其基于前述的系统，包括以下步骤：S1.爬虫服务器发布未处理URL队列；S2.所述消息队列服务器接收所述URL队列并将其发送到至少一个下载端；S3.所述下载端根据接收的URL队列下载网页，并将下载的网页数据发送至所述爬虫服务器；以及S4.对所述爬虫服务器收到的网页数据进行排重。

前述的提取网页数据的方法，所述步骤S1中，爬虫服务器发布的未处理URL队列包括种子URL队列；所述步骤S3中，所述下载端下载的网页数据包括种子URL对应页面上的超链接URL。

前述的提取网页数据的方法，步骤S4具体为：S411.爬虫服务器从超链接URL中取出一条URL数据；S412.爬虫服务器判断该URL数据是否与其最近最少使用LRU缓存中的数据一致，若不一致，则执行步骤S413，若一致，则抛弃该URL数据并执行步骤S411；S413.URL过滤器对所述URL数据进行排重，若排重未命中，则执行步骤S51，若排重命中，则抛弃该URL数据并执行步骤S411；步骤S4之后包括步骤S51：将排重通过的URL数据放入所述爬虫服务器的未处理URL队列中并执行步骤S411。

由上述技术方案可知，本发明的实施例通过采用分布式爬虫系统，具有以下有益效果：

本发明的爬虫服务器不需要知道下载端的实现，爬虫服务器将任务发给消息队列服务器，并等待任务结果的返回即可。逻辑控制和下载任务的分离，让分布式爬虫系统的启动、管理、容错都变的简单许多。

爬虫服务器不需要知道有多少个下载端在下载，不需要去管理下载端，这使得整个结构非常容易扩展。在网络环境允许的情况，如果想获取更快的爬取速度，可以实时的增加一个下载端，而不需要更改原来的系统，也不需要重新启动原来的系统，就可以让系统拥有更强大的抓取能力，这样就解决了在系统实时运行时想增加抓取能力的问题。

通过以下参照附图对优选实施例的说明，本发明的上述以及其它目的、特征和优点将更加明显。

附图说明

图1为本发明分布式爬虫系统一实施例的结构示意图；

图2为基于本发明分布式爬虫系统的提取网页数据方法一实施例的流程图；

图3为本发明提取网页数据方法一具体实施例的流程图。

具体实施方式

下面将详细描述本发明的具体实施例。应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。

本发明将现有技术中的爬虫程序以分布式爬虫系统来实现，总的来说，该分布式爬虫系统中的爬虫服务器实现整个系统的逻辑控制，系统中的至少一个下载端进行具体的任务处理，利用这种爬虫服务器和下载端分离的架构来构成分布式爬虫系统。

请参阅图1所示，其为本发明提出的分布式爬虫系统1一实施例的结构示意图，分布式爬虫系统1包括爬虫服务器11、消息队列服务器12、至少一个下载端13以及URL(Uniform Resource Locator，统一资源定位符)过滤器14。

爬虫服务器11是整个系统的核心部分，用于发布未处理URL队列，并对该分布式爬虫系统1的其余各部分进行逻辑控制。其控制分布式爬虫系统1爬虫策略的实现，实现爬虫的主要逻辑，并协同、调度系统其他部分以完成爬虫的流程。

具体地，爬虫服务器11内可存储未处理URL队列、处理中的URL队列以及已处理URL队列，能够实现发布未处理URL队列、接收返回的已处理的URL队列，并可提供有系统管理界面。

消息队列服务器12，其作为爬虫服务器11和下载端13之间的中转站，用于从爬虫服务器11接收URL队列，以便于下载端13获取。

下载端13用于根据从消息队列服务器12中接收的URL队列下载网页，并将下载的网页数据发送至爬虫服务器11。

具体地说，消息队列服务器12可主动向下载端13下达需抓取的URL队列；也可以在收到下载端13的请求后，向发请求的下载端13提供URL队列。

需要说明的是，下载端13可使用现有技术中的网页抓取方式，本发明不就抓取的具体细节加以说明，仅就发明对现有技术的改进之处加以描述。

URL过滤器14，用于对爬虫服务器11收到的网页数据进行排重。

由于Internet上的网页中重复的URL很多，没有排重，爬虫就会永无休止的重复抓取。排重服务确保每个URL任务只被执行一次。

URL过滤器14可为现有技术中的过滤器，但由于对网页排重的需要，现有技术中的过滤器都需要对过滤内容进行存储，以判断是否需要过滤。每次过滤判断需要去查找是否内容已经存在然后做出判断，如果没有存在需要再进行一次存储操作。这些过滤器的缺点是查询存储操作执行速度较慢，需要额外的存储空间。

在本实施例中，优选基于bitSet的过滤器。基于bitSet的过滤器的基本原理为：

由于过滤器只需要对待过滤的内容是否存在做出一个“是”或“非”的二值判断，并不需要获取内容，因此基于bitSet的过滤器并不将数据存储。基于bitSet的过滤器是将数据通过一定的哈希方法映射成一个二进制数组bitSet中的几个点，这样，待过滤的内容经由该哈希算法映射成二进制数组bitSet中的几个点后，若发现相同的位置已经被置位，则说明该内容已经存在，便可将该内容过滤掉。

采用本实施例的分布式爬虫系统，爬虫服务器11不需要知道下载端13的实现，爬虫服务器11将任务发给消息队列服务器12，并等待任务结果的返回即可。逻辑控制和下载任务的分离，让分布式爬虫系统1的启动、管理、容错都变的简单许多。

此外，爬虫服务器11不需要知道有多少个下载端在下载，不需要去管理下载端，这使得整个结构非常容易扩展。在网络环境允许的情况，如果想获取更快的爬取速度，可以实时的增加一个下载端，而不需要更改原来的系统，也不需要重新启动原来的系统，就可以让系统拥有更强大的抓取能力，这样就解决了在系统实时运行时想提高抓取能力的问题。

爬虫服务器11收到下载端13发送的网页数据后，可将其存储在本地文件子系统16中，该本地文件子系统可为单独的计算机，但由于互联网的网页数据相当庞大，单机的本地文件子系统16有时并不能满足这样庞大的存储需求，因此，可进一步将本地文件子系统16中网页数据同步到基于客户机/服务器模式的分布式文件子系统17中，以确保所有的网页数据都能有效的存储。

分布式爬虫系统1还可包括监控端15，其用于监控和管理爬虫服务器11的状态，以保证系统的正常运行。

在现有的爬虫程序中，监控端并不单独存在。本发明将监控端15与爬虫服务器11分离，能够减少系统的耦合性。监控的功能分离出来之后，一是降低爬虫服务器11的复杂性，二是可以在分布式爬虫系统1运行的同时修改监控端15以达到特定的控制管理目的。

本领域及技术人员可以理解，本实施例中提出的分布式爬虫系统可作为一般爬虫系统，也可作为主题爬虫系统。

本发明还提出了一种提取网页数据的方法，该方法基于上述分布式爬虫系统，请参阅图2所示，本方法包括以下步骤：

S1：爬虫服务器发布未处理URL队列；

S2：消息队列服务器接收URL队列并将其发送到至少一个下载端；

S3：下载端根据接收的URL队列下载网页，并将下载的网页数据发送至爬虫服务器；

S4：对所述爬虫服务器收到的网页数据进行排重。

上述步骤的具体实现，可采用与上述分布式爬虫系统实施例中相同的实施方式，在此不再赘述。

请参阅图3所示，其为本发明提取网页数据的方法一具体实施例的示意图，本实施例是将本发明的分布式爬虫系统作为主题爬虫系统的应用，具体包括以下步骤：

S11：爬虫服务器发布种子URL队列；

具体地，爬虫服务器将种子URL放入未处理URL队列中，以向消息队列服务器发布。

S21：消息队列服务器从服务器的未处理URL队列中接收URL队列，并将其发送到至少一个下载端；

这时，爬虫服务器会将消息队列服务器接收的URL队列标记为处理中。

S31：下载端根据接收的URL队列下载网页，并将下载的网页数据发送至所述爬虫服务器，该网页数据中包括种子URL对应页面上的超链接URL；

爬虫服务器会根据收到的网页数据，将相应的URL队列标记为已处理。

本领域技术人员知道，主题爬虫的爬行过程可以看作是一个有选择性的遍历Web图的过程，它从一组种子URL出发，沿着Web页面上的超链接不断爬行并下载网页。

由于本发明中的下载端执行爬行并下载网页的功能，因此其下载的网页数据中可能会包括有种子URL对应页面上的超链接URL，若存在有超链接URL，则这些超链接的URL置于URLList(URL列表)中，这样，网页数据中的超链接的URL实际上是以URLList的形式返回至爬虫服务器。

S41：对所述爬虫服务器收到的网页数据进行排重；

在本实施例中，主要针对URLList中的数据进行排重，以避免超链接URL重复。

对URLList中的数据进行排重的具体过程可包括：

S411：爬虫服务器从超链接URL中取出一条URL数据；

S412：爬虫服务器判断该URL数据是否与其LRU(least recently used，最近最少使用)缓存中的数据一致，若不一致，则执行步骤S413，若一致，则抛弃该URL数据并执行步骤S411；

这里，LRU缓存设于服务器的内存中，如果该URL数据与LRU缓存中的数据一致，说明最近下载过该URL数据，则抛弃该URL数据，并执行步骤S411来重新取出一条URL数据。

S413：URL过滤器对该URL数据进行排重，若排重未命中，则执行步骤S51，若排重命中，则抛弃该URL数据并执行步骤S411；

URL过滤器对URL数据的排重可采用与前述分布式爬虫系统实施例中相同的实施方式，在此不再赘述。

S51：将排重通过的URL数据放入爬虫服务器的未处理URL队列中，以进行基于此URL的网页抓取，并执行步骤S411来提取下一条URL数据。

虽然已参照几个典型实施例描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施例不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种分布式爬虫系统，其特征在于，包括爬虫服务器、消息队列服务器、至少一个下载端和统一资源定位符URL过滤器，其中，

所述爬虫服务器，用于发布未处理URL队列，并对所述分布式爬虫系统进行逻辑控制；

所述消息队列服务器，用于从所述爬虫服务器接收URL队列，并将所述URL队列向所述下载端发送；

所述下载端，用于根据从所述消息队列服务器中接收的URL队列下载网页，并将下载的网页数据发送至所述爬虫服务器；以及

所述URL过滤器，用于对所述爬虫服务器收到的网页数据进行排重。

2.根据权利要求1所述的分布式爬虫系统，其特征在于，所述消息队列服务器向所述下载端下达URL队列或根据所述下载端的请求向其提供URL队列。

3.根据权利要求1所述的分布式爬虫系统，其特征在于，还包括本地文件子系统，用于存储所述爬虫服务器收到的所述网页数据。

4.根据权利要求3所述的分布式爬虫系统，其特征在于，还包括分布式文件子系统，用于同步所述本地文件子系统中的网页数据。

5.根据权利要求1所述的分布式爬虫系统，其特征在于，还包括监控端，用于监控和管理所述爬虫服务器。

6.根据权利要求1-5中任一项权利要求所述的分布式爬虫系统，其特征在于，所述URL过滤器为基于二进制数组bitSet的过滤器。

7.一种提取网页数据的方法，其特征在于，其基于权利要求1所述的系统，包括以下步骤：

S1.爬虫服务器发布未处理URL队列；

S2.所述消息队列服务器接收URL队列并将其发送到至少一个下载端；

S3.所述下载端根据接收的URL队列下载网页，并将下载的网页数据发送至所述爬虫服务器；以及

S4.对所述爬虫服务器收到的网页数据进行排重。

8.根据权利要求7所述的提取网页数据的方法，其特征在于，

所述步骤S1中，爬虫服务器发布的未处理URL队列包括种子URL队列；

所述步骤S3中，所述下载端下载的网页数据包括种子URL对应页面上的超链接URL。

9.根据权利要求8所述的提取网页数据的方法，其特征在于，步骤S4具体为：

S411.爬虫服务器从超链接URL中取出一条URL数据；

S412.爬虫服务器判断该URL数据是否与其最近最少使用LRU缓存中的数据一致，若不一致，则执行步骤S413，若一致，则抛弃该URL数据并执行步骤S411；

S413.URL过滤器对所述URL数据进行排重，若排重未命中，则执行步骤S51，若排重命中，则抛弃该URL数据并执行步骤S411；

步骤S4之后包括步骤S51：

将排重通过的URL数据放入所述爬虫服务器的未处理URL队列中并执行步骤S411。