CN106874487A

CN106874487A - 一种分布式爬虫管理系统及其方法

Info

Publication number: CN106874487A
Application number: CN201710092369.3A
Authority: CN
Inventors: 刘希; 陈进宝; 刘光辉
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2017-06-20
Anticipated expiration: 2037-02-21
Also published as: CN106874487B

Abstract

本发明公开一种分布式爬虫管理系统，包括：用于系统登录和数据展示的主页展示模块；创建项目和对项目进行管理的项目管理模块；对项目爬虫进行部署和管理的爬虫管理模块；对爬虫数据进行监控管理的数据管理模块；对爬虫节点进行管理的节点管理模块和对用户的爬虫进行代理管理的代理管理模块，其中，所述爬虫节点为从云平台上申请的虚拟机。此外，本发明还提供一种分布式爬虫管理方法。本发明的分布式爬虫管理系统能够提供反爬解决方案以及爬虫和数据的管理与分析，从而为企业或个人提供安全、高效的数据爬取解决方案。

Description

一种分布式爬虫管理系统及其方法

技术领域

本发明涉及一种分布式爬虫管理系统和方法，具体涉及一种能够对爬虫和爬虫爬取的数据进行管理与分析的分布式爬虫管理系统及其方法。

背景技术

传统爬虫管理方式去互联网上爬取数据会被一些网站的反爬机制屏蔽掉，导致爬虫开发人员辛辛苦苦开发出来的爬虫爬取不到有用的数据，即使调整爬虫后过一段时间又不能正常爬取数据，反复的修改，对于企业来说既费时间又费金钱，对于开发人员来说重复单调的工作没有任何意义。

因此，亟待提供一种能够对爬虫及其爬取的数据进行有效管理和分析的方案。

发明内容

为解决上述技术问题，本发明提供一种分布式爬虫管理系统，该系统是一个功能强大的爬虫管理平台，主要提供防反爬解决方案以及爬虫和数据的管理与分析，为企业(或个人)提供安全、高效的数据爬取解决方案。

本发明采用的技术方案为：

本发明的实施例提供一种分布式爬虫管理系统，包括：主页展示模块，包括登录单元和数据展示单元，所述登录单元为用户访问分布式爬虫管理系统提供接口，用户通过在所述登录单元中输入相应的身份验证信息来访问所述分布式爬虫管理系统，所述数据展示单元用于展示与爬虫相关的数据；项目管理模块，基于用户的指令创建项目，为所创建的项目分配相关的项目爬虫，并导入项目爬虫的任务源，以及对项目和项目爬虫进行管理；爬虫管理模块，基于用户的指令，将用户编辑好的爬虫程序通过上传爬虫入口添加到分布式爬虫管理系统中，基于项目信息中的爬虫策略对爬虫进行部署，并对爬虫的运行状况进行管理；

数据管理模块，对项目爬虫爬取到的数据进行监控和统计管理，并将统计后的信息通过数据展示单元进行可视化展示；节点管理模块，基于数据管理模块统计的信息对爬虫所运行的节点进行管理，以确保每个爬虫运行在相对应的爬虫节点上，所述爬虫节点为从云平台上申请的虚拟机；日志管理模块，用于对用户的操作行为进行监控记录；代理管理模块，基于需要代理管理的用户的授权，对授权用户的爬虫任务进行代理管理。

可选地，所述爬虫管理模块通过设置反爬虫机制来对爬虫进行部署和管理，其中，所述反爬虫机制包括：基于用户指令，向云平台申请多个IP地址，在爬虫执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个IP地址来访问被限制访问的网站。

可选地，当使用更换的IP地址访问被限制访问的网站后，增加当前延迟下载的时间或者减小网页下载并发数。

可选地，所述节点管理模块包括动态调整爬虫节点数的爬虫节点调整单元和监控爬虫节点的爬虫节点监控单元；所述爬虫节点调整单元周期性检测是否需要增加爬虫节点或者减少爬虫节点，如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都超过上限阈值，则增加爬虫节点；如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都小于下限阈值，则减少爬虫节点；当前爬虫任务量基于下述公式来确定：

其中，P为当前爬虫任务量，P＝1表示当前爬虫节点数量不能满足爬虫任务需求，需要增加爬虫节点，P＝-1表示爬虫系统所拥有的爬虫节点数量远远高于实际爬虫任务需求，需要减少爬虫节点，c表示当前爬虫任务数，u_i表示第i个爬虫任务的待抓取URL数，n表示当前处于运行状态的爬虫节点数，Fmax表示上限阈值，Fmin表示下限阈值。

可选地，所述爬虫节点监控单元周期性检测爬虫节点发送的心跳包，如果在连续的多个周期内，在预定的时间内都没有收到某个爬虫节点发送的心跳包，则判定该爬虫节点已宕机。

可选地，所述预设的多个周期为5个周期。

可选地，所述数据展示单元用于展示如下信息：项目总数、节点总数、爬虫程序总数、爬虫实例总数、爬取页面任务总量、完成页面爬虫数量、爬取数据总量、爬取数据节点利用率、爬虫节点主机名、爬虫节点IP、爬虫节点是否处于任务抓取状态和爬虫节点是否正常。

本发明的另一实施例提供一种分布式爬虫管理方法，包括：在主页展示模块的登录单元中输入相应的身份验证信息来访问所述分布式爬虫管理系统，并在主页展示模块的数据展示单元中展示与爬虫相关的数据；在项目管理模块中输入创建项目的指令来创建项目，为所创建的项目分配相关的项目爬虫，并导入项目爬虫的任务源，以及对项目和项目爬虫进行管理；在爬虫管理模块中将编辑好的爬虫程序通过上传爬虫入口添加到分布式爬虫管理系统中，并基于项目信息中的爬虫策略对爬虫进行部署，并对爬虫的运行状况进行管理；在数据管理模块中对项目爬虫爬取到的数据进行监控和统计管理，并将统计后的信息通过数据展示单元进行可视化展示；在节点管理模块中基于数据管理模块统计的信息对爬虫所运行的节点进行管理，以确保每个爬虫运行在相对应的爬虫节点上，所述爬虫节点为从云平台上申请的虚拟机；在日志管理模块中对用户的操作行为进行监控记录；在代理管理模块中对需求代理管理的用户的爬虫任务进行代理管理。

可选地，在所述爬虫管理模块中设置反爬虫机制来对爬虫进行部署和管理，其中，所述反爬虫机制包括：基于用户指令，向云平台申请多个IP地址，在爬虫执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个IP地址来访问被限制访问的网站。

可选地，在所述节点管理模块的爬虫节点调整单元中周期性检测是否需要增加爬虫节点或者减少爬虫节点，如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都超过上限阈值，则增加爬虫节点；如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都小于下限阈值，则减少爬虫节点；当前爬虫任务量基于下述公式来确定：

可选地，在所述节点管理模块的爬虫节点监控单元中周期性检测爬虫节点发送的心跳包，如果在连续的多个周期内，在预定的时间内都没有收到某个爬虫节点发送的心跳包，则判定该爬虫节点已宕机。

可选地，所述预设的多个周期为5个周期。

可选地，在所述数据展示单元中展示如下信息：项目总数、节点总数、爬虫程序总数、爬虫实例总数、爬取页面任务总量、完成页面爬虫数量、爬取数据总量、爬取数据节点利用率、爬虫节点主机名、爬虫节点IP、爬虫节点是否处于任务抓取状态和爬虫节点是否正常。

与现有技术相比，本发明的分布式爬虫管理系统将网络爬虫构建在云平台上，从云平台上申请虚拟机作为爬虫节点，因此能够满足高效率抓取网页的同时提高资源的利用率。此外，能够对爬虫的爬取状况进行实时监控和管理，能够最优化爬虫配置，减少资源的浪费。

附图说明

图1为本发明的分布式爬虫管理系统的框架图。

图2为本发明的分布式爬虫管理方法的流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为本发明的分布式爬虫管理系统的框架图。图2为本发明的分布式爬虫管理方法的流程图。

【实施例1】

如图1所示，本实施例提供一种分布式爬虫管理系统，该分布式爬虫管理系统包括主页展示模块1、项目管理模块2、爬虫管理模块3、数据管理模块4、节点管理模块5和代理管理模块7。

其中，主页展示模块1包括登录单元和数据展示单元，所述登录单元为用户访问分布式爬虫管理系统提供接口，用户通过在登录单元中输入相应的身份验证信息来访问所述分布式爬虫管理系统，数据展示单元用于展示与爬虫相关的数据。具体地，当需要进行爬虫任务时，用户可基于在分布式爬虫管理系统注册的账户和密码通过登录单元登录到系统中，以访问系统并进行相关操作，用户可以使用任何一款主流网络浏览器访问分布式爬虫管理系统。登录单元对用户登录的次数和设置密码有限制，以有效地管理用户，合理利用资源。数据展示单元主要展示爬虫任务的运行状态，包括项目总数、节点总数、爬虫程序总数、爬虫实例总数、爬取页面任务总量、完成页面爬虫数量、系统爬取数据总量、爬取数据节点利用率、爬虫节点主机名、爬虫节点IP、爬虫节点是否处于任务抓取状态和爬虫节点是否正常等，数据展示单元可基于Metronic前端框架进行开发，主要使用HTML、jQuery和AngularJS进行表现层的实现。

项目管理模块2用于基于用户的指令创建项目，为所创建的项目分配相关的项目爬虫，并导入项目爬虫的任务源，以及对项目和项目爬虫进行管理。项目爬虫的任务源来自用户编辑的用户程序。可基于用户的指令对项目进行新增、修改、删除、查询，对项目爬虫进行新增、修改、删除、查询以及对项目爬虫的任务源进行导入、导出和启动、暂停、停止、重启项目爬虫等操作。项目管理模块中的所有数据将会保存在基于MySQL的数据库中。

爬虫管理模块3用于基于用户的指令，将用户编辑好的爬虫程序通过上传爬虫入口添加到分布式爬虫管理系统中，基于项目管理模块中的项目信息中的爬虫策略对爬虫进行部署，并对爬虫的运行状况进行管理，主要包括爬虫的新增、修改、删除、查询和测试爬虫启动、暂停、停止等。当用户新创建一个爬虫任务后，此任务只是将抓取任务记录到MySQL数据库中，并没有进行实际的抓取工作，需要进行“开始”这个操作后，才开始此次的抓取工作；“编辑”这个操作是方便用户更改爬虫任务的配置信息，更改爬虫任务的配置信息后，下次就可以按照更改后的配置信息来执行抓取任务；“删除”操作是删除用户不需要的抓取任务，将会删除保存在MySQL数据库及Redis数据库中相关的数据。

在爬虫基于爬虫任务指令爬取任务从网页下载数据的过程中，需要考虑某些网站设置的对网站服务器进行频繁访问的反爬虫软件，因此，需要对爬虫进行部署和爬虫的运行状况进行实时管理。目前当某些网站检测有爬虫软件正在频繁的获取其服务器上的数据时，将会对此爬虫软件做出限制，从而使得爬虫软件不能获取到所需的数据。为了防止网络爬虫被某些网站限制，采用的措施通常有动态设置UserAgent、禁用cookies、延迟下载、减小并发数和使用代理，但是目前很多大型网站都是针对IP地址来设置反爬虫机制的，如果网站检测到同一个IP地址在短时间内过于频繁的访问该网站，将会限制此IP地址在一段时间内不能正常访问该网站。因此，最理想的解决办法就是拥有足够多的IP地址，本发明的爬虫管理模块通过设置反爬虫机制来对爬虫进行部署和管理，所述反爬虫机制包括：基于用户指令，向云平台申请多个IP地址，在爬虫执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个，使用该选择的IP地址来访问被限制访问的网站。具体地，如果当前使用的IP地址被禁用，就选择备用的IP地址。而在云平台上有大量的IP地址，这些IP地址也是可以被当成一种资源供用户使用，用户可以按需向云平台申请一定量的IP地址，在执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个，使用此IP地址来访问该网站，以此来应对网站的反爬虫问题。当使用更换的IP地址后，可适当增加当前延迟下载的时间或者减小网页下载并发数，以防此IP地址再次被限制。

数据管理模块4用于将项目爬虫爬取到的数据进行监控和统计管理，并将统计后数据通过数据展示单元进行可视化展示。具体地，数据管理模块以列表形式显示所有爬虫任务信息，其中显示的内容主要包括任务名称、任务开始时间、任务结束时间、总的URL数、已下载页面数、出错页面数和任务运行状态，这些信息主要是从MySQL数据库的crawler_task表中读取的。用户可在数据管理模块中进行数据上传、下载、删除和查询等操作。

节点管理模块5用于基于数据管理模块统计的信息对爬虫所运行的节点进行管理，以确保每个爬虫运行在相对应的爬虫节点上，所述爬虫节点为从云平台上申请的虚拟机。本发明的分布式爬虫管理系统的网络爬虫支持多任务，即在同一时刻可运行多个不同的抓取任务，由于用户需求不同，可能在某一段时间内需要执行大量的抓取任务，而在其他时候只执行较少的抓取任务，因而抓取任务量是动态变化的。传统的分布式网络爬虫为了使得在爬虫任务量较大的情况下也能高效率的抓取网页，通常采用较多的服务器来部署爬虫系统，但是当爬虫任务量较小时，各个服务器的资源利用率很小。本发明的网络爬虫构建在云平台上，从云平台上申请虚拟机作为爬虫节点，云平台提供的虚拟机资源通过简单的操作就能很容易获取到，因此为了在满足高效率抓取网页的同时提高资源的利用率，本发明将根据当前爬虫任务量来动态的调节爬虫节点数量。虚拟机管理结构主要包括预警机制和虚拟机池，预警机制是判断当前爬虫任务量是否达到增加或减少爬虫节点数量的条件，虚拟机池是为了减少申请虚拟机的时间而设置的一个缓冲池。此外，由于分布式网络爬虫需要部署在多台机器上，在爬取的过程中很可能会出现爬虫节点因为一些故障而宕机的情况。另外，对于抓取数据的量较大时，可能会增加新的爬行节点。因此，为了能够处理这样动态增加或移除爬虫节点的问题，需要对所有爬虫节点的运行状态进行监控及其管理。节点管理模块5通过Web页面显示当前所有爬虫节点的运行状态，显示的信息包括爬虫节点主机名、爬虫节点IP、爬虫任务数、爬虫节点是否处于任务抓取状态和爬虫节点是否正常，这些信息主要是从MySQL数据库的worker_node表中读取的。该模块涉及到心跳和发送心跳，控制节点上的接收心跳模块负责接收所有爬虫节点的心跳信息并将其保存到MySQL库中，发送心跳模块是运行在爬虫节点上的，它负责向控制节点发送心跳信息。为此，节点管理模块5可包括动态调整爬虫节点数的爬虫节点调整单元和监控爬虫节点的爬虫节点监控单元。

其中，所述爬虫节点调整单元周期性检测是否需要增加爬虫节点或者减少爬虫节点，如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都超过上限阈值，则增加爬虫节点；如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都小于下限阈值，则减少爬虫节点；当前爬虫任务量基于下述公式来确定：

其中，P为当前爬虫任务量，P＝1表示当前爬虫节点数量不能满足爬虫任务需求，需要增加爬虫节点，P＝-1表示爬虫系统所拥有的爬虫节点数量远远高于实际爬虫任务需求，需要减少爬虫节点，c表示当前爬虫任务数，u_i表示第i个爬虫任务的待抓取URL数，n表示当前处于运行状态的爬虫节点数，Fmax表示上限阈值，Fmin表示下限阈值。即在本发明中，网络爬虫会周期性的检测是否需要进行增加或减少爬虫节点，而且确定需要增加或减少爬虫节点不仅仅是根据一个周期内的爬虫任务执行情况来作判断，而是根据多个周期内的执行情况来进行判断。本文考虑5个周期，如果连续5个周期内都需要增加或减少爬虫节点数量就真正向云平台申请虚拟机。

所述爬虫节点监控单元周期性检测爬虫节点发送的心跳包，如果在连续的多个周期内，在预定的时间内都没有收到某个爬虫节点发送的心跳包，则判定该爬虫节点已宕机。具体地，爬虫节点监控单元如果在T时间内没有收到爬虫节点发送过来的心跳包就认为该爬虫节点已宕机。T的选择依赖于当前网络状况、爬行虫点处理能力等多种不定因素，若T设置过大，会导致不能及时反映当前爬虫节点状态；T设置过小，会提高判断的效率，同时也会增加误判的可能性。对于在实际的应用中，可能会出现网络丢包、闪断和网络拥塞等情况，因此通常认为连续多次丢失心跳包才确定该节点发生了故障。

日志管理模块6用于对用户的操作行为进行监控记录。以便系统管理员可以清楚的知道哪个用户进行了什么操作，包括查询、删除与批量删除等操作，日志管理只有系统管理员能够对其进行操作。当日志管理模块中记录的信息显示系统错误导致平台无法正常运行时，由系统管理人员通过系统重启及人工修复的方式，从系统备份进行恢复。

代理管理模块7用于基于用户的授权，对该用户的爬虫任务进行代理管理。例如，某用户委托系统管理员代为管理其爬虫任务，则系统管理员可基于该授权来对其爬虫任务进行管理，包括新增、修改、删除和查询代理等操作。

需要注意的是，本发明的分布式爬虫管理系统中的各模块之间是松散耦合的，通过接口来实现个模块之间的互联。此外，本发明的分布式爬虫管理系统采用数据缓存中间件Redis来保存爬虫任务和进行任务去重。为保证数据的安全性，本发明主要通过下述方式来保证MySQL数据库的安全性：1.平台架构安全策略；2.用户身份验证管理；3.数据库访问对象的控制策略。

1.平台架构安全策略

平台架构规定只有通过持久层来访问数据库，通过持久层的框架将数据库存储从服务层中分离出来，很好的限制了数据库的访问入口，为整个平台提供一个高层、统一、安全和并发的数据持久机制。完成对各种数据进行持久化的编程工作，并为系统业务逻辑层提供服务。简化数据增、删、改、查等功能的开发过程，继承延续J2EE特有的可伸缩性和可扩展性。

2.用户身份验证管理

MySQL数据库主要是用自身的User Table来作身份认证，数据库把用户访问权限表的信息都放在一个叫做mysql自带的数据库里，并且每个用户的密码还通过加密方式加密后才存入数据表的。每当用户企图访问数据库时，服务器会通过输入的用户名和密码与自带mysql库中的USER表中的数据作对比，如果能够匹配成功，方能通过身份验证，允许用户成功登录数据库。

3.数据库访问对象的控制策略

对于公司内部，数据库的安全可以通过用户管理来实现，把能够直接对数据库进行管理和访问操作的用户分为4个级别：

(1)超级管理员

具有root权限，一个数据库实例有且只有一个超级管理员，它能够全面掌管所有库所有表的所有权限。

(2)一级管理员

权限低于超级管理员，针对需求可以对数据库实例中若干个数据库拥有所有权限。

(3)二级管理员

权限低于一级管理员，针对需求可以对数据库实例中某一个数据库拥有所有权限。

(4)普通用户

权限低于二级管理员，针对需求可以对数据库实例中某一个或者多个数据库拥有查看数据的权限。

因此，通过为直接访问数据库的内部人员制定用户等级，控制权限大小，可以很好的控制用户在数据库中的各种行为，达到安全便捷访问数据库的目的。

【实施例2】

如图2所示，本实施例提供一种分布式爬虫管理方法，所述方法包括：系统登录和数据展示；项目创建和管理；爬虫部署和管理；爬虫数据监控和管理；爬虫节点管理；用户操作行为监控记录；爬虫任务代理管理。以下对这些内容进行详细介绍。

系统登录和数据展示

系统登录和数据展示包括在主页展示模块的登录单元中输入相应的身份验证信息来访问所述分布式爬虫管理系统，并在主页展示模块的数据展示单元中展示与爬虫相关的数据。具体地，当需要进行爬虫任务时，用户可基于在分布式爬虫管理系统注册的账户和密码通过登录单元登录到系统中，以访问系统并进行相关操作，用户可以使用任何一款主流网络浏览器访问分布式爬虫管理系统。登录单元对用户登录的次数和设置密码有限制，以有效地管理用户，合理利用资源。数据展示单元主要展示爬虫任务的运行状态，包括项目总数、节点总数、爬虫程序总数、爬虫实例总数、爬取页面任务总量、完成页面爬虫数量、系统爬取数据总量、爬取数据节点利用率、爬虫节点主机名、爬虫节点IP、爬虫节点是否处于任务抓取状态和爬虫节点是否正常等，数据展示单元可基于Metronic前端框架进行开发，主要使用HTML、jQuery和AngularJS进行表现层的实现。

项目创建和管理

项目创建和管理包括在项目管理模块中输入创建项目的指令来创建项目，为所创建的项目分配相关的项目爬虫，并导入项目爬虫的任务源，以及对项目和项目爬虫进行管理。项目爬虫的任务源来自用户编辑的用户程序。可基于用户的指令对项目进行新增、修改、删除、查询，对项目爬虫进行新增、修改、删除、查询以及对项目爬虫的任务源进行导入、导出和启动、暂停、停止、重启项目爬虫等操作。项目管理模块中的所有数据将会保存在基于MySQL的数据库中。

爬虫部署和管理

爬虫部署和管理包括在爬虫管理模块中将编辑好的爬虫程序通过上传爬虫入口添加到分布式爬虫管理系统中，并基于项目信息中的爬虫策略对爬虫进行部署，并对爬虫的运行状况进行管理。主要包括爬虫的新增、修改、删除、查询和测试爬虫启动、暂停、停止等。当用户新创建一个爬虫任务后，此任务只是将抓取任务记录到MySQL数据库中，并没有进行实际的抓取工作，需要进行“开始”这个操作后，才开始此次的抓取工作；“编辑”这个操作是方便用户更改爬虫任务的配置信息，更改爬虫任务的配置信息后，下次就可以按照更改后的配置信息来执行抓取任务；“删除”操作是删除用户不需要的抓取任务，将会删除保存在MySQL数据库及Redis数据库中相关的数据。

在爬虫基于爬虫任务指令爬取任务从网页下载数据的过程中，需要考虑某些网站设置的对网站服务器进行频繁访问的反爬虫软件，因此，需要对爬虫进行部署和爬虫的运行状况进行实时管理。目前当某些网站检测有爬虫软件正在频繁的获取其服务器上的数据时，将会对此爬虫软件做出限制，从而使得爬虫软件不能获取到所需的数据。为了防止网络爬虫被某些网站限制，采用的措施通常有动态设置UserAgent、禁用cookies、延迟下载、减小并发数和使用代理，但是目前很多大型网站都是针对IP地址来设置反爬虫机制的，如果网站检测到同一个IP地址在短时间内过于频繁的访问该网站，将会限制此IP地址在一段时间内不能正常访问该网站。因此，最理想的解决办法就是拥有足够多的IP地址，本发明通过设置反爬虫机制来对爬虫进行部署和管理，所述反爬虫机制包括：基于用户指令，向云平台申请多个IP地址，在爬虫执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个，使用该选择的IP地址来访问被限制访问的网站。具体地，如果当前使用的IP地址被禁用，就选择备用的IP地址。而在云平台上有大量的IP地址，这些IP地址也是可以被当成一种资源供用户使用，用户可以按需向云平台申请一定量的IP地址，在执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个，使用此IP地址来访问该网站，以此来应对网站的反爬虫问题。当使用更换的IP地址后，可适当增加当前延迟下载的时间或者减小网页下载并发数，以防此IP地址再次被限制。

爬虫数据监控和管理

爬虫数据监控和管理包括在数据管理模块中对项目爬虫爬取到的数据进行监控和统计管理，并将统计后的信息通过数据展示单元进行可视化展示。具体地，数据管理模块以列表形式显示所有爬虫任务信息，其中显示的内容主要包括任务名称、任务开始时间、任务结束时间、总的URL数、已下载页面数、出错页面数和任务运行状态，这些信息主要是从MySQL数据库的crawler_task表中读取的。用户可在数据管理模块中进行数据上传、下载、删除和查询等操作。

爬虫节点管理

爬虫节点管理包括在节点管理模块中基于数据管理模块统计的信息对爬虫所运行的节点进行管理，以确保每个爬虫运行在相对应的爬虫节点上，所述爬虫节点为从云平台上申请的虚拟机。本发明的分布式爬虫管理方法用于管理多任务的网络爬虫，即在同一时刻可运行多个不同的抓取任务，由于用户需求不同，可能在某一段时间内需要执行大量的抓取任务，而在其他时候只执行较少的抓取任务，因而抓取任务量是动态变化的。传统的分布式网络爬虫为了使得在爬虫任务量较大的情况下也能高效率的抓取网页，通常采用较多的服务器来部署爬虫系统，但是当爬虫任务量较小时，各个服务器的资源利用率很小。本发明的网络爬虫构建在云平台上，从云平台上申请虚拟机作为爬虫节点，云平台提供的虚拟机资源通过简单的操作就能很容易获取到，因此为了在满足高效率抓取网页的同时提高资源的利用率，本发明将根据当前爬虫任务量来动态的调节爬虫节点数量。虚拟机管理结构主要包括预警机制和虚拟机池，预警机制是判断当前爬虫任务量是否达到增加或减少爬虫节点数量的条件，虚拟机池是为了减少申请虚拟机的时间而设置的一个缓冲池。此外，由于分布式网络爬虫需要部署在多台机器上，在爬取的过程中很可能会出现爬虫节点因为一些故障而宕机的情况。另外，对于抓取数据的量较大时，可能会增加新的爬行节点。因此，为了能够处理这样动态增加或移除爬虫节点的问题，需要对所有爬虫节点的运行状态进行监控及其管理。节点管理模块5通过Web页面显示当前所有爬虫节点的运行状态，显示的信息包括爬虫节点主机名、爬虫节点IP、爬虫任务数、爬虫节点是否处于任务抓取状态和爬虫节点是否正常，这些信息主要是从MySQL数据库的worker_node表中读取的。该模块涉及到心跳和发送心跳，控制节点上的接收心跳模块负责接收所有爬虫节点的心跳信息并将其保存到MySQL库中，发送心跳模块是运行在爬虫节点上的，它负责向控制节点发送心跳信息。为此，节点管理模块中的爬虫节点调整单元周期性检测是否需要增加爬虫节点或者减少爬虫节点，如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都超过上限阈值，则增加爬虫节点；如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都小于下限阈值，则减少爬虫节点；当前爬虫任务量基于下述公式来确定：

此外，节点管理模块中的爬虫节点监控单元周期性检测爬虫节点发送的心跳包，如果在连续的多个周期内，在预定的时间内都没有收到某个爬虫节点发送的心跳包，则判定该爬虫节点已宕机。具体地，爬虫节点监控单元如果在T时间内没有收到爬虫节点发送过来的心跳包就认为该爬虫节点已宕机。T的选择依赖于当前网络状况、爬行虫点处理能力等多种不定因素，若T设置过大，会导致不能及时反映当前爬虫节点状态；T设置过小，会提高判断的效率，同时也会增加误判的可能性。对于在实际的应用中，可能会出现网络丢包、闪断和网络拥塞等情况，因此通常认为连续多次丢失心跳包才确定该节点发生了故障。

用户操作行为监控记录

用户操作行为监控记录包括在日志管理模块中对用户的操作行为进行监控记录，以便系统管理员可以清楚的知道哪个用户进行了什么操作，包括查询、删除与批量删除等操作，日志管理只有系统管理员能够对其进行操作。当日志管理模块中记录的信息显示系统错误导致平台无法正常运行时，由系统管理人员通过系统重启及人工修复的方式，从系统备份进行恢复。

爬虫任务代理管理

爬虫任务代理管理包括在代理管理模块中对需求代理管理的用户的爬虫任务进行代理管理。例如，某用户委托系统管理员代为管理其爬虫任务，则系统管理员可基于该授权来对其爬虫任务进行管理，包括新增、修改、删除和查询代理等操作。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种分布式爬虫管理系统，其特征在于，包括：

主页展示模块，包括登录单元和数据展示单元，所述登录单元为用户访问分布式爬虫管理系统提供接口，用户通过在所述登录单元中输入相应的身份验证信息来访问所述分布式爬虫管理系统，所述数据展示单元用于展示与爬虫相关的数据；

项目管理模块，基于用户的指令创建项目，为所创建的项目分配相关的项目爬虫，并导入项目爬虫的任务源，以及对项目和项目爬虫进行管理；

爬虫管理模块，基于用户的指令，将用户编辑好的爬虫程序通过上传爬虫入口添加到分布式爬虫管理系统中，基于项目信息中的爬虫策略对爬虫进行部署，并对爬虫的运行状况进行管理；

数据管理模块，对项目爬虫爬取到的数据进行监控和统计管理，并将统计后的信息通过数据展示单元进行可视化展示；

节点管理模块，基于数据管理模块统计的信息对爬虫所运行的节点进行管理，以确保每个爬虫运行在相对应的爬虫节点上，所述爬虫节点为从云平台上申请的虚拟机；

日志管理模块，用于对用户的操作行为进行监控记录；

代理管理模块，基于需要代理管理的用户的授权，对授权用户的爬虫任务进行代理管理。

2.根据权利要求1所述的分布式爬虫管理系统，其特征在于，所述爬虫管理模块通过设置反爬虫机制来对爬虫进行部署和管理，其中，所述反爬虫机制包括：基于用户指令，向云平台申请多个IP地址，在爬虫执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个IP地址来访问被限制访问的网站。

3.根据权利要求2所述的分布式爬虫管理系统，其特征在于，当使用更换的IP地址访问被限制访问的网站后，增加当前延迟下载的时间或者减小网页下载并发数。

4.根据权利要求1所述的分布式爬虫管理系统，其特征在于，所述节点管理模块包括动态调整爬虫节点数的爬虫节点调整单元和监控爬虫节点的爬虫节点监控单元；

所述爬虫节点调整单元周期性检测是否需要增加爬虫节点或者减少爬虫节点，如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都超过上限阈值，则增加爬虫节点；如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都小于下限阈值，则减少爬虫节点；

当前爬虫任务量基于下述公式来确定：

P = \{\begin{matrix} 1, & i f & (\frac{Σ_{i = 1}^{C} u_{i}}{n} > F_{\max}) \\ - 1, & i f & (\frac{Σ_{i = 1}^{C} u_{i}}{n} < F_{\min}) \end{matrix}

5.根据权利要求4所述的分布式爬虫管理系统，其特征在于，所述爬虫节点监控单元周期性检测爬虫节点发送的心跳包，如果在连续的多个周期内，在预定的时间内都没有收到某个爬虫节点发送的心跳包，则判定该爬虫节点已宕机。

6.根据权利要求4或5所述的分布式爬虫管理系统，其特征在于，所述预设的多个周期为5个周期。

7.根据权利要求1所述的分布式爬虫管理系统，其特征在于，所述数据展示单元用于展示如下信息：项目总数、节点总数、爬虫程序总数、爬虫实例总数、爬取页面任务总量、完成页面爬虫数量、爬取数据总量、爬取数据节点利用率、爬虫节点主机名、爬虫节点IP、爬虫节点是否处于任务抓取状态和爬虫节点是否正常。

8.一种分布式爬虫管理方法，其特征在于，包括：

在主页展示模块的登录单元中输入相应的身份验证信息来访问所述分布式爬虫管理系统，并在主页展示模块的数据展示单元中展示与爬虫相关的数据；

在项目管理模块中输入创建项目的指令来创建项目，为所创建的项目分配相关的项目爬虫，并导入项目爬虫的任务源，以及对项目和项目爬虫进行管理；

在爬虫管理模块中将编辑好的爬虫程序通过上传爬虫入口添加到分布式爬虫管理系统中，并基于项目信息中的爬虫策略对爬虫进行部署，并对爬虫的运行状况进行管理；

在数据管理模块中对项目爬虫爬取到的数据进行监控和统计管理，并将统计后的信息通过数据展示单元进行可视化展示；

在节点管理模块中基于数据管理模块统计的信息对爬虫所运行的节点进行管理，以确保每个爬虫运行在相对应的爬虫节点上，所述爬虫节点为从云平台上申请的虚拟机；

在日志管理模块中对用户的操作行为进行监控记录；

在代理管理模块中对需求代理管理的用户的爬虫任务进行代理管理。

9.根据权利要求8所述的分布式爬虫管理方法，其特征在于，在所述爬虫管理模块中设置反爬虫机制来对爬虫进行部署和管理，其中，所述反爬虫机制包括：基于用户指令，向云平台申请多个IP地址，在爬虫执行爬虫任务的过程中如果被所访问的网站限制，则从申请的多个IP地址中选择一个IP地址来访问被限制访问的网站。

10.根据权利要求9所述的分布式爬虫管理方法，其特征在于，当使用更换的IP地址访问被限制访问的网站后，增加当前延迟下载的时间或者减小网页下载并发数。

11.根据权利要求8所述的分布式爬虫管理方法，其特征在于，在所述节点管理模块的爬虫节点调整单元中周期性检测是否需要增加爬虫节点或者减少爬虫节点，如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都超过上限阈值，则增加爬虫节点；如果在预设的多个周期内，每个周期内检测的当前爬虫任务量都小于下限阈值，则减少爬虫节点；

当前爬虫任务量基于下述公式来确定：

P = \{\begin{matrix} 1, & i f & (\frac{Σ_{i = 1}^{C} u_{i}}{n} > F_{\max}) \\ - 1, & i f & (\frac{Σ_{i = 1}^{C} u_{i}}{n} < F_{\min}) \end{matrix}

12.根据权利要求8所述的分布式爬虫管理方法，其特征在于，在所述节点管理模块的爬虫节点监控单元中周期性检测爬虫节点发送的心跳包，如果在连续的多个周期内，在预定的时间内都没有收到某个爬虫节点发送的心跳包，则判定该爬虫节点已宕机。

13.根据权利要求11或12所述的分布式爬虫管理方法，其特征在于，所述预设的多个周期为5个周期。

14.根据权利要求8所述的分布式爬虫管理方法，其特征在于，在所述数据展示单元中展示如下信息：项目总数、节点总数、爬虫程序总数、爬虫实例总数、爬取页面任务总量、完成页面爬虫数量、爬取数据总量、爬取数据节点利用率、爬虫节点主机名、爬虫节点IP、爬虫节点是否处于任务抓取状态和爬虫节点是否正常。