CN105515815B

CN105515815B - 一种基于Heritrix爬虫的分布式采集方法及系统

Info

Publication number: CN105515815B
Application number: CN201410555223.4A
Authority: CN
Inventors: 张东升; 王艳玲; 彭威; 李波; 景晓军; 沈智杰; 唐新民
Original assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd
Current assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2018-11-06
Anticipated expiration: 2034-10-17
Also published as: CN105515815A

Abstract

本发明公开了一种基于Heritrix爬虫的分布式采集方法及系统，包括以下步骤：设置一个管理服务模块以及多个发布的Heritrix节点，管理服务模块监听到Heritrix节点信息后自动加入该节点并进行管理，初始种子以及节点任务，分配任务并生成配置文件；管理服务模块获取实际种子，Heritrix从实际种子的配置文件中获取实际种子，并从实际种子采集实际种子对应网页上生成的链接以及该链接对应的附加信息，Heritrix自动判别并抽取出满足条件的链接生成初始种子队列，Heritrix节点从初始种子获得实际种子信息，并解析其附加信息实施本发明的有益效果是，本申请有效实现了Heritrix的分布式采集，有效提高了系统工作系能。

Description

一种基于Heritrix爬虫的分布式采集方法及系统

技术领域

本发明属于计算机互联网方面，涉及互联网网页式爬虫采集及监控领域，尤其涉及一种基于Heritrix爬虫的分布式采集方法及系统。

背景技术

目前互联网搜索引擎存在广告、垃圾网站和死链接过多问题，如搜索网页链接打开后却标示着“该链接已被删除”的信息或“请尝试其他链接”等提示。其次，中文网站检索的更新频率慢，一般每隔两至四周才由“蜘蛛”程序重新爬取；其自身系统数据库庞大，也造成数据的更新速度无法大幅度提高，从而影响检索性能的时效性。另外，互联网搜索引擎不能根据用户个性化需求进行定制功能；比如：只检索某个网站前三层URL(互联网上标准资源的地址) 中的新闻视频信息，视频数据不能包含电影、电视剧等。

究其原因，是由于网络结构系统性能过低。目前各类开源网络爬虫大多都采用集中式网络结构设计：在一台服务器上给定初始URL集合，通过爬虫主体程序多个线程分别获取URL，将URL对应的html页面获取到本地进行分析，页面内容提取模块将提取可供检索的信息，URL提取模块提取新的指向其他页面的链接，经过一系统处理并保存供后续继续爬取。当系统数据规模到达一定程度(如网页数达到亿级别)时，这种架构模式的单机服务器硬件性能问题就突显出来了。

为了缓解上述问题，互联网档案馆和北欧国家图书馆联合开发出了 Heritrix。是一个由java开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。Heritrix它的执行是递归进行的，主要包括以下几个步骤： (1)获取预设的一个URL；(2)获取该URL的采集地址集；(3)解析采集地址集，并进行归档；(4)从中选择出相关的URL，并加入预设URL队列。Heritrix由一些核心类与可插件模块构成，核心类可以配置，满足实际配置需求，插件模块可任由第三方模块取代，可以不断的被其感兴趣的第三方改进，已成为一个比较成熟的开源爬虫，并被广泛使用。

在面向监管类系统中，一般的爬虫在设计上功能显得都比较臃肿。在监管系统中，爬取的范围是明确的，爬取的内容是明确的，爬取的频率基本是固定的。同样基于链的发现，而不需要遵循正常爬虫的协议，无需给出链的分值、无需建立内容索引，但需要对目标页面进行结构化抽取，并存入指定的数据库、索引库、分布式文件系统等持久化环境中。这种近乎镜像全站的爬取方法， Heritrix有着得天独厚的优越性条件，但Heritrix目前无法完好支持分布式采集与调度。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述Heritrix目前无法完好支持分布式采集与调度缺陷，本发明对插件模块进行了改进，提供一种基于 Heritrix爬虫的分布式采集方法及其系统。

根据本发明的第一方面，本发明提供了一种基于Heritrix爬虫的分布式采集方法,包括以下步骤：设置一个管理服务模块，并设置多个发布的Heritrix节点，所述管理服务模块为一个Heritrix节点管理的网页系统；通过UDP协议将所述的多个Heritrix节点广播到获取的初始种子所在的网段，管理服务模块监听到Heritrix节点信息后自动加入该节点并进行管理，管理服务模块获取初始种子以及节点任务，所述的种子为预置或者是来自于初始种子队列；管理服务模块获取节点任务，指定将任务建立到具体节点或者是全部节点上，管理服务模块通过调用Heritrix的应用程序编程接口API在发布的Heritrix节点上生成配置节点和任务信息的配置文件管理服务模块根据Heritrix节点任务生成并获取管理服务模块获取的初始种子对应网页上的实际种子；Heritrix节点从初始种子获得实际种子信息，并解析实际种子的附加信息；Heritrix从实际种子的配置文件中获取实际种子，并采集实际种子对应网页上生成的链接以及该链接对应的附加信息，Heritrix自动判别并抽取出满足条件的链接生成初始种子队列，所述附加信息包括采集层次、采集周期、节点分布、是否动态代理、子域名数量限定、正则配置。

在本发明所述的方法中，采集实际种子对应网页上生成的链接以及该链接对应的附加信息步骤，包括：对实际种子是否使用动态代理进行判别后下载网页，若为动态代理，则从管理服务模块获取动态代理地址信息，并动态随机设定一个代理地址，将采集到的信息进行字段抽取，根据种子设定的正则信息进行抽取，所述正则信息包括作者、标题、内容、来源、发布时间。

在本发明所述的方法中，还通过扩展Heritrix采集过程的生命周期监听，将监听到的状态进行判断，若采集结束,则自动重启任务，并且管理服务模块从Heritrix获取本轮采集状况，该任务重启后，管理服务模块将从初始种子队列获取下一轮初始种子进行采集，所述的采集情况包括：采集各种子的开始时间、结束时间、扫描网页数量、持久化数量、下载字节数。

在本发明所述的方法中，还监控Heritrix的运行状态，并提供Heritrix运行状态信息。

进一步的，在本发明所述的方法中，通过检查节点的心跳是否超时，若超时，在重置分配到该节点的种子，使其分配到正常工作的节点上。

根据本发明的第二方面，本发明提供一种基于Heritrix爬虫的分布式采集系统，还包括管理服务模块以及节点广播模块，所述的节点广播模块用于将多个发布的Heritrix节点通过UDP协议广播到获取的初始种子所在的网段，所述的管理服务模块为一个Heritrix节点管理的网页系统，包括：节点处理单元：用于获取初始种子，并在监听到节点广播模块广播的多个发布的Heritrix节点信息后自动加入该节点并进行管理；任务配置单元：用于获取节点任务并将任务指定到将任务建立到具体节点或者是全部节点上，通过调用Heritrix的应用程序编程接口API在发布的Heritrix节点上生成配置节点和任务信息的配置文件；生成获取单元：用于根据Heritrix节点任务对管理服务模块获取的初始种子对应网页上生成链接，并获取此链接，还用于控制Heritrix节点从初始种子获得实际种子信息，并解析实际种子的附加信息。

在本发明所述的系统中，管理服务模块还包括动态代理单元，所述的动态代理单元随机生成动态代理地址，并提供给Heritrix，并对实际种子是否使用动态代理进行判别后下载网页，若是，则从管理服务模块获取动态代理地址信息，并动态随机设定一个代理地址，将采集到的信息进行字段抽取，根据种子设定的正则信息进行抽取，所述动态代理地址为管理服务模块随机生成，所述正则信息包括作者、标题、内容、来源、发布时间。

在本发明所述的系统中，还包括任务重启模块，所述任务重启模块用于扩展Heritrix采集过程的生命周期监听，将监听到的状态进行判断，若采集结束,则自动重启任务，并且管理服务模块从Heritrix获取本轮采集状况，该任务重启后，管理服务模块将从初始种子队列获取下一轮初始种子进行采集。

在本发明所述的系统中，还包括实时监控模块，所述实时监控模块用于监控Heritrix的运行状态，并提供Heritrix运行状态信息。

在本发明所述的系统中，还包括节点监听模块，所述的节点监听模块用于检测节点的心跳，当心跳超时，则重新分配到该节点的种子，使其分配到正常的节点上。

实施本发明具有以下有益效果：

通过增加一个Heritrix节点管理的网页系统，并设置多个发布的Heritrix 节点，通过UDP协议将所述的多个Heritrix节点广播到获取的初始种子所在的网段，管理服务模块监听到后加入所述的多个Heritrix节点并进行管理，使 Heritrix扩展为分布式方式，有效的提高了系统的性能。

通过检查节点的心跳是否超时，若超时，在重置分配到该节点的种子，使其分配到正常工作的节点上，避免了种子分配到无法正常工作的节点上而无法完成爬取，进一步提高了系统的性能。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为基于本发明采集方法的实施例的采集过程基本交互流程图；

图2为基于本发明采集方法的实施例的实时监控与节点监听示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图1所示，在本发明的一种基于Heritrix爬虫的分布式采集方法及系统第一实施例中，系统包括Heritrix、管理服务模块、节点广播模块以及任务重启模块15。在图1中，两条虚线的中间部分为Heritrix的处理流程，虚线的左边为任务重启模块及其处理流程，虚线的右边为任务管理模块及其主要处理流程。管理服务模块为一个Heritrix节点管理的网页系统，用于对Heritrix进行设置与管理。节点广播模块(图1中未给出)于将多个发布的Heritrix节点通过UDP协议广播到获取的初始种子所在的网段。由于Heritrix本身完成一个任务后并不会自动进行下一个任务，此处设置任务重启模块，通过扩展 Heritrix采集过程的生命周期监听，将监听到的状态进行判断，若本轮任务采集结束,则向管理服务模块报告本轮采集状况，并自动重启任务。任务重启后，管理服务模块将从初始种子队列获取下一个初始种子重新开始采集。

上述的管理服务模块包括：节点处理单元11、任务配置单元12、生成获取单元13、动态代理单元14。节点处理单元用于获取初始种子，Heritrix 程序刚运行时，需要手动设置初始种子，设置的位置可以是管理服务器上，也可以是在Heritrix程序中，再次进行任务的种子直接从初始种子队列中获取，而无需手动设置，初始种子队列在程序执行任务过程中产生。本发明中程序会加入设置多个发布的Heritrix节点并通过UDP协议将所述的多个Heritrix节点广播到获取的初始种子所在的网段后，管理服务器能够监听到添加的Heritrix节点信息，自动加入Heritrix节点到管理服务单元并进行管理，Heritrix节点的数量至少为2个。当该系统接收到节点任务指令后，任务配置单元用于获取节点任务并将任务指定到将任务建立到具体节点或者是全部节点上，通过调用 Heritrix的应用程序编程接口API在发布的Heritrix节点上生成配置节点和任务信息的配置文件。这里关键是在配置文件中固定初始种子为管理服务上的动态生成种子链接Restful地址，并在初始种子参数上配置节点与任务信息。 Restful地址是指满足约束条件和原则的地址。生成获取单元是根据 Heritrix节点任务对管理服务模块获取的初始种子对应网页上生成链接，并获取此链接，此链接即为实际种子。生成获取单元还控制Heritrix节点从初始种子获得实际种子信息，并解析实际种子的附加信息。Heritrix原本的工作流程是：获取预设的一个URL(初始种子 )；获取该URL的采集地址集；解析采集地址集，并进行归档；从中选择出相关的URL，并加入预设URL队列，通过本发明，在上述步骤的基础上将获取的该URL的采集地址集作为实际种子，Heritrix 在实际种子的基础上进行采集，相当于在原来的步骤上增加了一个步骤。动态代理单元随机生成动态代理地址，并提供给Heritrix。Heritrix 本身可以设置代理地址，而其设置数量仅仅为一个，此处通过动态代理单元随机生成一批代理地址，提供给Heritrix使用，使Heritrix 摆脱了只有一个代理地址的限制。

该系统的具体工作流程包括:

S1、设置一个管理服务模块，并设置多个发布的Heritrix节点，所述管理服务模块为一个Heritrix节点管理的网页系统，节点的数量至少为两个；

S2、通过UDP协议将所述的多个Heritrix节点广播到获取的初始种子所在的网段，此过程的完成有节点广播模块完成，管理服务模块监听到Heritrix 节点信息后自动加入该节点并进行管理，管理服务模块获取初始种子，所述的种子为预置或者是来自于初始种子队列；

S3、通过在管理服务器上增加节点任务，管理服务器指定将任务建立到部分节点或者是全部节点上，同时管理服务模块通过调用Heritrix的应用程序编程接口API在发布的Heritrix节点上生成配置节点和任务信息的配置文件，任务建立后，管理服务模块可以自由调度这些任务的启停。

S4、管理服务模块根据Heritrix节点任务生成并获取管理服务模块获取的初始种子对应网页上链接，此链接即为实际种子；

S5、Heritrix节点从初始种子获得实际种子信息，并解析实际种子的附加信息；

S6、Heritrix从实际种子的配置文件中获取实际种子，并采集实际种子对应网页上生成的链接以及该链接对应的附加信息，对该种子是否使用动态代理进行判别后下载网页，若为动态代理，则从管理服务模块获取动态代理地址信息，并动态随机设定一个代理地址，将采集到的信息进行字段抽取，根据该种子设定的正则信息进行抽取，抽取的工作由Heritrix规则引擎完成， Heritrix自动判别并抽取出满足条件的链接生成初始种子队列，所述的附加信息包括采集层次、采集周期、节点分布、是否动态代理、子域名数量限定、正则配置；

S7、将抽取后的数据进行保存，保存的位置包括数据库、索引库、NoSQL、分布式文件系统等持久化环境。数据保存后，本轮采集任务；

S8、一轮采集任务结束后，Heritrix任务本身不会自动重启，提供过扩展Heritrix采集过程的生命周期监听，将监听到的状态进行判断，若采集结束, 自动重启任务，并且管理服务模块从Heritrix获取本轮采集状况，该任务重启后，管理服务模块将从初始种子队列获取下一轮初始种子进行采集，所述的采集情况包括：采集各种子的开始时间、结束时间、扫描网页数量、持久化数量、下载字节数。任务重启后，管理服务模块将从初始种子队列获取下一个初始种子重新开始采集。

在图2示出的本发明的一种基于Heritrix爬虫的分布式采集方法及系统第二实施例中，其与图1中所述的系统的区别仅在于图2中系统包含实时监控模块21和节点监听模块22。其中，实时监控模块用于监控Heritrix的运行状态，并提供Heritrix运行状态信息，这些运行信息可能包括：Heritrix任务进度、Heritrix完成任务所需时间、Heritrix程序本身参数的设置情况以及文件访问中所产生的任何错误代码等信息，用户可以通过此模块实时了解 Heritrix运行状况。节点监听模块用于检测Heritrix节点的心跳，当检测到节点的心跳超时时，则重新分配到该节点的种子，使其分配到其它正常的节点上，提高任务的完成效率，从而提高系统性能。

本系统的工作步骤与图1所述系统相似，其区别仅在于还包括：

S9、监控Heritrix的运行状态信息，并提供Heritrix运行状态信息，这些状态信息包括：Heritrix任务进度、Heritrix完成任务所需时间、Heritrix 程序本身参数的设置情况以及文件访问中所产生的任何错误代码。Heritrix 的运行状态信息显示在管理服务模块，用户可以在服务管理模块支持查看这些信息。Heritrix的运行状态信息也可以用弹窗的形式提供，用户需要查看这些信息时，只需要点击查看的功能按钮即可通过弹窗查看。

S10、检测Heritrix节点的心跳，当检测到节点的心跳超时时，则重新分配到该节点的种子，使其分配到正常的节点上。保证任务不会因为

在一实施例中，管理服务模块不包含动态处理单元，Heritrix运行时只使用预设的唯一代理地址。此时，步骤S5中不需要对该种子是否使用动态代理进行判别，系统直接下载该网页并进行后续的处理。

在另一实施例中，管理服务模块中不包含任务重启单元，Heritrix本轮采集结束后，任务不会自动重启，管理服务模块从Heritrix获取本轮采集状况。此时若需要进行下一个任务，则需要在Heritrxi的操作页面中进行操作，从而进行下一个任务。

在上述实施例中，管理服务模块、实时监控模块、状态监听模块等模块均只设置了一组，在其他实施例中，可以还可以设置备用的模块，在主模块不能正常工作时，系统能够使用备用模块保证系统的正常工作。

Heritrix原本的工作流程包括：获取预设的一个URL；获取该URL的采集地址集；解析采集地址集，并进行归档；从中选择出相关的URL，并加入预设URL 队列，通过本发明，在上述步骤的基础上

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于Heritrix爬虫的分布式采集方法,其特征在于包括以下步骤：

设置一个管理服务模块，并设置多个发布的Heritrix节点，所述管理服务模块为一个Heritrix节点管理的网页系统；

通过UDP协议将所述的多个Heritrix节点广播到获取的初始种子所在的网段，管理服务模块监听到Heritrix节点信息后自动加入该节点并进行管理，管理服务模块获取初始种子以及节点任务，所述的种子为预置或者是来自于初始种子队列；

管理服务模块获取节点任务，指定将任务建立到部分节点或者是全部节点上，管理服务模块通过调用Heritrix的应用程序编程接口API在发布的Heritrix节点上生成配置节点和任务信息的配置文件；

管理服务模块根据Heritrix节点任务生成并获取管理服务模块获取的初始种子对应网页上的实际种子；

Heritrix节点从初始种子获得实际种子信息，并解析实际种子的附加信息；

Heritrix从配置文件中获取实际种子，并采集实际种子对应网页上生成的链接以及该链接对应的附加信息，Heritrix自动判别并抽取出满足条件的链接生成初始种子队列，所述附加信息包括采集层次、采集周期、节点分布、是否动态代理、子域名数量限定、正则信息。

2.如权利要求1所述的采集方法,其特征在于，所述的从实际种子采集实际种子对应网页上生成的链接以及该链接对应的附加信息，包括：对实际种子是否使用动态代理进行判别后下载网页，若为动态代理，则从管理服务模块获取动态代理地址信息，并动态随机设定一个代理地址，将采集到的信息进行字段抽取，根据种子设定的正则信息进行抽取，所述正则信息包括作者、标题、内容、来源、发布时间。

3.如权利要求1至2任意一项所述的采集方法，其特征在于还包括：扩展Heritrix采集过程的生命周期监听，将监听到的状态进行判断，若采集结束,则自动重启任务，并且管理服务模块从Heritrix获取本轮采集状况，该任务重启后，管理服务模块将从初始种子队列获取下一轮初始种子进行采集，所述的采集情况包括：采集各种子的开始时间、结束时间、扫描网页数量、持久化数量、下载字节数。

4.如权利要求1至2任意一项所述的采集方法，其特征在于还包括:检查节点的心跳是否超时，若超时，在重置分配到该节点的种子，使其分配到正常工作的节点上。

5.如权利要求1至2任意一项所述的采集方法，其特征在于还包括:监控Heritrix的运行状态，并提供Heritrix运行状态信息。

6.一种基于Heritrix爬虫的分布式采集的系统，包括Heritrix,其特征在于还包括管理服务模块以及节点广播模块，所述的节点广播模块用于将多个发布的Heritrix节点通过UDP协议广播到获取的初始种子所在的网段，所述的管理服务模块为一个Heritrix节点管理的网页系统，包括：

节点处理单元：用于获取初始种子，并在监听到节点广播模块广播的多个发布的Heritrix节点信息后自动加入该节点并进行管理；

任务配置单元：用于获取节点任务并将任务指定到将任务建立到部分节点或者是全部节点上，通过调用Heritrix的应用程序编程接口API在发布的Heritrix节点上生成配置节点和任务信息的配置文件；

生成获取单元：用于根据Heritrix节点任务在管理服务模块获取的初始种子对应网页上生成链接，并获取此链接，还用于控制Heritrix节点从初始种子获得实际种子信息，并解析实际种子的附加信息。

7.如权利要求6所述的系统，其特征在于所述的管理服务模块还包括动态代理单元，所述的动态代理单元随机生成动态代理地址，并提供给Heritrix，并对实际种子是否使用动态代理进行判别后下载网页，若是，则从管理服务模块获取动态代理地址信息，并动态随机设定一个代理地址，将采集到的信息进行字段抽取，根据种子设定的正则信息进行抽取，所述动态代理地址为管理服务模块随机生成，所述正则信息包括作者、标题、内容、来源、发布时间。

8.如权利要求6至7任一项所述的系统，其特征在于还包括任务重启模块，所述任务重启模块用于扩展Heritrix采集过程的生命周期监听，将监听到的状态进行判断，并且管理服务模块从Heritrix获取本轮采集状况，该任务重启后，管理服务模块将从初始种子队列获取下一轮初始种子进行采集。

9.如权利要求6至7任一项所述的系统，其特征在于还包括实时监控模块，所述实时监控模块用于监控Heritrix的运行状态，并提供Heritrix运行状态信息。

10.如权利要求6至7任一项所述的系统，其特征在于还包括节点监听模块，所述的节点监听模块用于检测Heritrix节点的心跳，当心跳超时，则重新分配到该节点的种子，使其分配到正常的节点上。