CN103559219B

CN103559219B - 分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点

Info

Publication number: CN103559219B
Application number: CN201310491887.4A
Authority: CN
Inventors: 周东
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2013-10-18
Filing date: 2013-10-18
Publication date: 2016-12-07
Anticipated expiration: 2033-10-18
Also published as: CN103559219A

Abstract

本发明公开分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点，调度方法包括：抓取任务发送步骤，为多个抓取网络信息的抓取节点生成至少一个包括至少一个种子的抓取任务，向每个抓取节点发送对应的抓取任务；抓取任务修正步骤，接收到多个抓取节点发送的快照数据，根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，执行抓取任务发送步骤。本发明由于快照数据描述了抓取节点对抓取任务的执行情况，因此调度端能够清楚知道每个抓取节点的抓取任务的执行情况，从而能够选择一个最优的分配方案。从而大大提供抓取节点的资源利用率。

Description

分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点

技术领域

本发明涉及网络爬虫相关技术领域，特别是分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点。

背景技术

随着互联网信息的爆炸式增长，出现了越来越多以获取大量信息为基础的应用软件，如搜索引擎、电子商务比价系统、舆情系统等。其中，网络爬虫是这些应用不可缺少的重要底层组成部分。而对于大数据量互联网信息，单节点爬虫的抓取无法满足现实的需求，于是分布式网络爬虫应运而生。

分布式网络爬虫由多个爬虫节点组成，按照通信方式不同可分为主从模式、自治模式与混合模式。其中主从模式方式，是指由一台主机作为调度端负责所有运行网络爬虫的主机进行管理，爬虫端（或者称抓取节点）只需要从调度端那里接收抓取任务，并把新生成抓取任务提交给调度端再分配就可以了，在这个过程中不必与其他爬虫通信，这种方式实现简单明晰且有利于管理。

现有的主从模式分布式网络爬虫抓取任务调度方法主要集中在如下二种：

（1）按照时间与节点均等分配抓取任务。步骤S101，调度端首先从数据库里读取保存的初始种子，生成一定数量待抓取的抓取任务（其中一个抓取任务包含多个待抓取的种子），然后平均分配到每个爬虫端。步骤S102，爬虫端根据分配的抓取任务开始抓取网页内容，同时将生成新待抓取的种子传到调度端。步骤S103，调度端预估一个抓取任务分配间隔时间，按照间隔时间回到步骤S101，对待抓取的种子URL再次生成抓取任务，然后均等分配到每个抓取端。整个过程不断循环执行。工作流程图如图1所示。

（2）按照抓取端抓取任务完成通知，批量分配抓取任务。步骤S201，调度端首次从数据库里读取保存的初始种子，生成一定数量待抓取的抓取任务，然后批量均等分配到每个爬虫端。步骤S202，每个爬虫端根据分配的抓取任务开始执行，同时将抓取的网页内容生成的种子传回调度端。步骤S203，一个爬虫端节点完成调度端分配的全部抓取任务之后，将通知调度端抓取任务抓取完成。步骤S204，调度端接收到某个节点的抓取任务完成消息之后，再生成批量抓取任务分配给该节点。如此，不断的循环性，直到所有的种子抓取完成。工作流程图如图2所示。

现有的两种主从模式分布式抓取任务调度方法都能够满足分布式多节点协同方式抓取数据，适合多目标网站大数据量的抓取，但是这两种方法都存在一定的缺陷。

对于第一种按照时间与节点均等分配抓取任务方法，该方法主要是根据经验预估一个间隔时间，然后每经过这个间隔时间就生成确定数量的抓取任务，然后均等分配到每个节点。这个方法最大的优点就是逻辑简单明晰，可以快速实现，但是存在如下缺点：第一，该方法中的抓取任务分配间隔时间与抓取端机器性能、网络状况及不同目标网站有很大关系，如果这个间隔时间较小，抓取的时候有很多抓取端还未完成抓取任务的同时，新的一批抓取任务又被分配过来，就造成排队等待，降低抓取效率；如果这个间隔时间较大，抓取端完成了被分配的抓取任务，但是调度端抓取任务还没有分配过来，就造成了资源浪费。同时每个爬虫端，因网络状况、不同目标网站URL地址及机器性能不同，虽然首次分配时间点是一致的，但是抓取任务完成时间点也不尽相同。所以不管间隔时间设置多少，总会存在一部分低效并且浪费资源的爬虫端节点。第二，该方法均等分配给每个节点的抓取任务数及每个抓取任务包含的种子数都是人工预估或根据经验值来确定的，所以，同样因无法充分考虑不同节点的网络状况、性能状况，目标网站不同及抓取任务执行情况的不同，造成效率低，资源浪费的弊端。第三，调度端与爬虫端的交互性不够强，调度端只管按时分配抓取任务，爬虫端如果在某个目标网站抓取出现诸如被封等异常，调度端无法及时感应到，最终导致整体数据抓取异常。所以，这种方法容错性不强。

对于第二种按照抓取端抓取任务完成通知，批量分配抓取任务方法，该方法是根据每个节点抓取任务是否完成的情况来通知调度端再分配抓取任务。该方法具备一定的学习能力，调度端可以被爬虫端主动告知，然后再分配抓取任务，不需要预估抓取任务分配间隔时间。一定程度上提升了爬虫的效率，但是同样提升的还不够，依然存在如下缺点：第一，效率较低并且资源浪费的缺点。爬虫端每次完成被分配的批量抓取任务，才通知调度已完成，然后再接受调度端分配过来的抓取任务，这种情况下就造成爬虫端多抓取任务执行一直处于不饱和状态，因为爬虫端的多抓取任务执行是多线程并发的，首次分配过来的抓取任务，其抓取任务数在执行的过程中随着时间逐渐减少，直到为0(此时每个抓取任务全部执行完)，所以只有首次是饱和的，直到抓取任务数为0的中间这段时间造成资源利用率越来越低，所以整体上降低了分布式爬虫的效率。第二，容错性较差。爬虫端每次是在抓取任务完成时会给调度端发送信息，但是如果爬虫端出现某个目标网站的抓取异常，如被封、抓取目标网站服务器挂掉、网络请求失败等异常。此时，抓取任务完成如否的状态是无法充分向调度端及时传达其他详细信息的，如果继续分配抓取任务，因出现异常后续的抓取任务执行是无效的。如果一直不分配抓取任务，爬虫端资源就一直空闲着，资源就得不到充分利用。

发明内容

基于此，有必要针对现有分布式网络爬虫抓取任务调度方法容易导致爬虫节点资源利用率不高的技术问题，提供分布式网络爬虫抓取任务调度方法、调度装置及抓取节点。

一种分布式网络爬虫抓取任务调度方法，包括：

抓取任务发送步骤，为多个抓取网络信息的抓取节点生成至少一个包括至少一个种子的抓取任务，向每个抓取节点发送对应的抓取任务，所述种子为目标网站的网络地址，所述抓取任务用于所述抓取节点的线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

抓取任务修正步骤，接收到多个抓取节点发送的快照数据，根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，执行抓取任务发送步骤，每个所述快照数据由所述抓取节点每隔预设时间生成，且所述快照数据描述所述抓取节点对所述抓取任务的执行情况。

一种分布式网络爬虫抓取任务调度装置，包括：

抓取任务发送模块，用于为多个抓取网络信息的抓取节点生成至少一个包括至少一个种子的抓取任务，向每个抓取节点发送对应的抓取任务，所述种子为目标网站的网络地址，所述抓取任务用于所述抓取节点的线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

抓取任务修正模块，用于接收到多个抓取节点发送的快照数据，根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，执行抓取任务发送模块，每个所述快照数据由所述抓取节点每隔预设时间生成，且所述快照数据描述所述抓取节点对所述抓取任务的执行情况。

一种分布式网络爬虫抓取任务调度方法，包括：

抓取任务接收步骤，从调度端设备获取至少一个由调度端设备生成且包括至少一个种子的抓取任务，所述种子为目标网站的网络地址，采用线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

快照数据发送步骤，每隔预设时间生成快照数据并发送到调度端设备，所述快照数据描述所述抓取节点对所述抓取任务的执行情况，用于调度端设备确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量。

一种分布式网络爬虫抓取任务抓取节点，包括：

抓取任务接收模块，用于从调度端设备获取至少一个由调度端设备生成且包括至少一个种子的抓取任务，所述种子为目标网站的网络地址，采用线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

快照数据发送模块，用于每隔预设时间生成快照数据并发送到调度端设备，所述快照数据描述所述抓取节点对所述抓取任务的执行情况，用于调度端设备确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量。

本发明通过在抓取节点向调度端返回描述抓取节点对抓取任务的执5行情况的快照数据，则调度端可以综合多个抓取节点的快照数据，从而确定下一次抓取任务的分配方案，由于快照数据描述了抓取节点对抓取任务的执行情况，因此调度端能够清楚知道每个抓取节点的抓取任务的执行情况，从而能够选择一个最优的分配方案。从而大大提供抓取节点的资源利用率。

附图说明

图1为现有第一种分布式网络爬虫抓取任务调度方法的工作流程图；

图2为现有第二组分布式网络爬虫抓取任务调度方法的工作流程图；

图3为本发明一种分布式网络爬虫抓取任务调度方法的工作流程图；

图4为本发明其中一个例子的工作流程图；

图5为本发明一种分布式网络爬虫抓取任务调度装置的结构模块图；

图6为本发明另一种分布式网络爬虫抓取任务调度方法的工作流程图；

图7为本发明一种分布式网络爬虫抓取任务抓取节点的结构模块图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图3所述为本发明一种分布式网络爬虫抓取任务调度方法的工作流程图，包括：

抓取任务发送步骤S301，为多个抓取网络信息的抓取节点生成至少一个包括至少一个种子的抓取任务，向每个抓取节点发送对应的抓取任务，所述种子为目标网站的网络地址，所述抓取任务用于所述抓取节点的线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

抓取任务修正步骤S302，接收到多个抓取节点发送的快照数据，根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，执行抓取任务发送步骤S301，每个所述快照数据由所述抓取节点每隔预设时间生成，且所述快照数据描述所述抓取节点对所述抓取任务的执行情况。

其中，目标网站由运行本发明一种分布式网络爬虫抓取任务调度方法的调度端设备（也可以简称为：调度端）预先确定，即为需要抓取的目标网站。种子为目标网站的网络地址，网络地址优选可以采用URL方式标识，目标网站为一个或者多个，同时一个目标网站有一个或多个不同的种子，即不同的网络地址。例如，对于同样是jd.com的网站，其可以包括多个网络地址，例如，www.jd.com、channel.jd.com/fashion.html、channel.jd.com/chaoshi.html等。

在步骤S301中，调度端设备向每个抓取节点（也可以称为爬虫端）发送至少一个抓取任务，在抓取节点接收后，采用抓取节点的线程运行抓取任务，每个线程运行一个抓取任务，因此，当抓取任务为多个时，抓取节点采用多线程运行多个抓取任务。

在步骤S302中，抓取节点定时向调度端设备发送快照数据，从而修正每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，在再次执行步骤S301时，将修正后的抓取任务发送到抓取节点。由于快照数据描述了所述抓取节点对所述抓取任务的执行情况，因此调度端设备根据多个抓取节点的快照数据重新修正每个抓取节点的抓取任务，从而大大提高抓取节点的资源利用率。

在其中一个实施例中，所述快照数据包括：所述抓取节点的节点标识、所述抓取节点抓取任务的总数量、所述抓取节点未完成的抓取任务的数量、所述抓取节点未完成的种子的数量，以及所述抓取节点未完成的种子所属目标网站的目标网站标识；

对接收到的快照数据，采用如下方式确定每个抓取节点的抓取任务数量：计算每个抓取节点的抓取任务需求数为抓取节点抓取任务的总数量减去抓取节点未完成的抓取任务的数量；按照抓取任务需求数从高到低进行排序，向抓取任务需求数高的抓取节点发送的抓取任务数量大于向抓取任务需求数低的抓取节点发送的抓取任务数量；

对接收到的快照数据，采用如下方式确定每个抓取任务所包括的每个目标网站的种子的数量：根据多个抓取节点发送的快照数据所包括的未完成的种子的数量，以及未完成的种子所属目标网站的目标网站标识计算每个目标网站的未完成的种子的数量作为目标网站需求数；按照目标网站需求数从高到低进行排序，抓取任务所包括的目标网站需求数高的目标网站的种子的数量大于目标网站需求数低的目标网站的种子的数量。

抓取任务需求数反映了抓取节点的渴望程度，具有更高的抓取任务需求数的抓取节点其对抓取任务的渴望程度越高，因此为其分配更多的抓取任务。从而尽量使得所有抓取节点上运行着相同数量的抓取任务。

目标网站需求数根据多个抓取节点发送的快照数据所包括的未完成的种子的数量，以及未完成的种子所属目标网站的目标网站标识计算得到，所属目标网站相同的未完成的种子的数量的总和，即为每个目标网站的未完成的种子的数量，其反映了目标网站的的渴望程度，具有更高的目标网站需求数的目标网站其对抓取任务的渴望程度越高，因此为其分配更多的抓取任务，从而使得每个抓取任务包含的不同网站的种子数尽量一致。

在其中一个实施例中，所述快照数据包括所述抓取节点的节点标识、所述抓取节点抓取出现异常的种子的数量，以及所述抓取节点抓取出现异常的种子所属目标网站的目标网站标识；

对接收到的快照数据，采用如下方式确定每个抓取任务所包括的每个目标网站的种子的数量：根据每个抓取节点发送的所述抓取节点抓取出现异常的种子的数量，以及所述抓取节点抓取出现异常的种子所属目标网站的目标网站标识，确定每个抓取节点抓取每个目标网站出现异常的种子的数量作为对应抓取节点对应目标网站的抓取异常种子数，如果所述抓取异常种子数超过预设阈值，则减少所述抓取异常种子数对应抓取节点的对应目标网站的种子的数量。

所属目标网站相同的抓取出现异常的种子数量，即该抓取节点抓取对应目标网站出现异常的种子的数量，以此作为对应抓取节点对应目标网站的抓取异常种子数。当该抓取异常种子数超过预设阈值，则表示该抓取节点很可能被该目标网站封禁，因此，减少抓取异常种子数对应抓取节点的对应目标网站的种子的数量，以提高抓取节点的资源利用率。

在其中一个实施例中，在首次执行抓取任务发送步骤时，所述抓取任务采用如下方式生成：

为所述抓取任务设定对应的最大种子数，且如果所述最大种子数大于或等于所述目标网站的总数量，则所述抓取任务所包括的种子所对应的待抓网站的数量与所述目标网站的总数量相等，如果所述最大种子数小于所述目标网站的总数量，则所述抓取任务所包括的种子所对应的目标网站各不相同。

本实施例使得每个抓取任务最大程度上包含的是不同目标网站的种子，这样将会保证给抓取节点发送抓取任务之后，一个抓取节点（只有一个对外ip）执行抓取任务的时候，可以同时多线程请求抓取多个不同的目标网站，“稀释”了同一个目标网站同一个抓取节点同时请求抓取的次数，避免了爬虫行为被目标网站识别定位为不友好行为。

如图4所示为本发明一个例子的工作流程图，包括：

步骤S401：调度端抓取任务分配数据准备。如果调度端是首次抓取任务分配，其根据已确定的需要抓取的目标网站URL入口种子，来生成抓取任务。目标网站为一个或者多个，同时一个目标网站有一个或者多个URL入口种子。如果非首次，每个目标网站可调度的种子数据较大，这些种子都是从爬虫端（抓取节点）抓取并传递过来而保存的。种子数据将存于数据库中，调度端每生成一个抓取任务，将从数据库中读取一定数量的种子（数量为人工定义），一个抓取任务包含该数量的全部种子。调度端将会生成多个抓取任务，并且每个抓取任务最大程度上包含的是不同目标网站的种子，这样将会保证后续给抓取节点分配抓取任务之后，一个抓取节点（只有一个对外ip）执行抓取任务的时候，可以同时多线程请求抓取多个不同的目标网站，“稀释”了同一个目标网站同一个抓取节点同时请求抓取的次数，避免了爬虫行为被目标网站识别定位为不友好行为。

步骤S401：按策略执行调度端抓取任务分配。如果是首次分配抓取任务，调度端根据现有的多爬虫端节点，每个抓取节点按照固定最大可分配数来分配抓取任务；如果非首次分配抓取任务，将按照抓取节点的快照按需分配，按需分配策略如下：

调度端首次将生成的抓取任务按一定数量分别分配到每个抓取节点，每个抓取节点采用多线程执行抓取任务，一个抓取任务由多个不同目标网站的种子组成。在抓取节点每隔一个间隔时间，如10秒，产生一个快照，该快照记录下该抓取节点唯一标识、总抓取任务数、每个抓取任务的id、剩余待抓取种子数、抓取出现异常的种子数及所有剩余待抓取种子所属网站id及出现异常的种子所属网站id。快照被封装成一个消息实时地传递给调度端，调度端根据传递过来的消息，统计并计算出每个抓取节点的抓取任务需求数记为M（抓取节点的总抓取任务数-抓取节点的剩下抓取任务数）、每个目标网站的URL需求数记为N（未完成种子数的总量）、每个目标网站对应每个抓取节点的抓取异常种子数记为S，然后根据每个抓取节点的抓取任务需求数M（渴望值更高），进行排序，按需求高低先后分配种子，不同目标网站的种子数分配参考每个目标网站的URL需求数N，同样按照需求进行分配。同时，根据每个目标网站每个抓取节点的抓取异常种子数S，定义一个阈值（百分比，不同节点），如果S大于某个阈值，就代表抓取出现异常，此时少分配或者不分配该抓取节点该弥补网站的种子，转为人工处理异常。

抓取任务生成和分配应遵守如下几个原则：第一，防封原则。每个抓取任务生成应尽量包含多个不同网站的种子。第二，网站公平原则。每个抓取任务包含的不同网站的种子数应尽量一致。第三，抓取任务均衡原则。尽量使所有节点上运行着相同数量的抓取任务。

步骤S403：抓取节点数据抓取与快照生成。第一，数据抓取与种子回传。抓取节点根据分配过来的抓取任务，根据每一个种子，执行下载与解析，衍生出新的种子并解析出需要抓取的内容，然后回传给调度端。第二，生成抓取任务快照与网站快照。对每个抓取节点接收调度端分配过来多个抓取任务，记录下每个抓取任务的id，实行多线程执行，一个线程执行一个抓取任务。一个抓取任务对应多个种子，多个种子的下载与解析也采用多线程执行。对一个节点所有抓取任务的执行，间隔一个时间生成一个快照，记录下所有抓取任务的执行情况，如该抓取节点唯一标识、总抓取任务数、每个抓取任务的id、剩余待抓取种子数、抓取出现异常的种子数及所有剩余待抓取种子所属网站id及出现异常的种子所属网站id。然后将该快照封装成消息传递给调度端。

步骤S404：调度端数据保存与抓取任务再分配。调度端接收每个抓取节点传递过来的信息，包括三部分，第一部分为需要抓取的网页信息，第二部分为爬虫端衍生出来的新种子URL信息，第三部分为快照。对于第一部分信息，根据爬虫的上层应用需求，存储到数据库或者文件，也或者通过消息传递给应用层作为最终处理。对于第二部分新生种子信息，存储到数据库中，等待再次被调度，第三部分用于调度策略，回到步骤S402。

如图5所示为本发明一种分布式网络爬虫抓取任务调度装置的结构模块图，包括：

抓取任务发送模块501，用于为多个抓取网络信息的抓取节点生成至少一个包括至少一个种子的抓取任务，向每个抓取节点发送对应的抓取任务，所述种子为目标网站的网络地址，所述抓取任务用于所述抓取节点的线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

抓取任务修正模块502，用于接收到多个抓取节点发送的快照数据，根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，执行抓取任务发送模块501，每个所述快照数据由所述抓取节点每隔预设时间生成，且所述快照数据描述所述抓取节点对所述抓取任务的执行情况。

在其中一个实施例中，在首次执行抓取任务发送模块时，所述抓取任务采用如下方式生成：

如图6所示为本发明一种分布式网络爬虫抓取任务调度方法的工作流程图，包括：

抓取任务接收步骤601，从调度端设备获取至少一个由调度端设备生成且包括至少一个种子的抓取任务，所述种子为目标网站的网络地址，采用线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

快照数据发送步骤602，每隔预设时间生成快照数据并发送到调度端设备，所述快照数据描述所述抓取节点对所述抓取任务的执行情况，用于调度端设备确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量。

本实施例为抓取节点的工作流程图，其与调度端设备的工作流程图一一对应，在此不予赘述。

在其中一个实施例中，所述快照数据包括：节点标识、抓取任务的总数量、未完成的抓取任务的数量、未完成的种子的数量，以及未完成的种子所属目标网站的目标网站标识；

所述调度端设备对接收到的快照数据，采用如下方式确定每个抓取节点的抓取任务数量：计算每个抓取节点的抓取任务需求数为抓取节点抓取任务的总数量减去抓取节点未完成的抓取任务的数量；按照抓取任务需求数从高到低进行排序，向抓取任务需求数高的抓取节点发送的抓取任务数量大于向抓取任务需求数低的抓取节点发送的抓取任务数量；

所述调度端设备对接收到的快照数据，采用如下方式确定每个抓取任务所包括的每个目标网站的种子的数量：根据多个抓取节点发送的快照数据所包括的未完成的种子的数量，以及未完成的种子所属目标网站的目标网站标识计算每个目标网站的未完成的种子的数量作为目标网站需求数；按照目标网站需求数从高到低进行排序，抓取任务所包括的目标网站需求数高的目标网站的种子的数量大于目标网站需求数低的目标网站的种子的数量。

在其中一个实施例中，，所述快照数据包括节点标识、抓取出现异常的种子的数量，以及抓取出现异常的种子所属目标网站的目标网站标识；

所述调度端设备对接收到的快照数据，采用如下方式确定每个抓取任务所包括的每个目标网站的种子的数量：根据每个抓取节点发送的所述抓取节点抓取出现异常的种子的数量，以及所述抓取节点抓取出现异常的种子所属目标网站的目标网站标识，确定每个抓取节点抓取每个目标网站出现异常的种子的数量作为对应抓取节点对应目标网站的抓取异常种子数，如果所述抓取异常种子数超过预设阈值，则减少所述抓取异常种子数对应抓取节点的对应目标网站的种子的数量。

在其中一个实施例中，所述调度端设备在首次生成抓取任务时，所述抓取任务采用如下方式生成：

如图7所示为本发明一种分布式网络爬虫抓取任务抓取节点的结构模块图，包括：

抓取任务接收模块701，用于从调度端设备获取至少一个由调度端设备生成且包括至少一个种子的抓取任务，所述种子为目标网站的网络地址，采用线程从所述抓取任务所包括的每个种子下载并解析出抓取内容；

快照数据发送模块702，用于每隔预设时间生成快照数据并发送到调度端设备，所述快照数据描述所述抓取节点对所述抓取任务的执行情况，用于调度端设备确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量。

在其中一个实施例中，所述快照数据包括节点标识、抓取出现异常的种子的数量，以及抓取出现异常的种子所属目标网站的目标网站标识；

在调度端设备首次生成抓取任务时，所述抓取任务采用如下方式生成：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种分布式网络爬虫抓取任务调度方法，其特征在于，包括：

抓取任务修正步骤，接收到多个抓取节点发送的快照数据，根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，执行抓取任务发送步骤，每个所述快照数据由所述抓取节点每隔预设时间生成，且所述快照数据描述所述抓取节点对所述抓取任务的执行情况；

所述快照数据包括：所述抓取节点的节点标识、所述抓取节点抓取任务的总数量、所述抓取节点未完成的抓取任务的数量、所述抓取节点未完成的种子的数量，以及所述抓取节点未完成的种子所属目标网站的目标网站标识。

2.根据权利要求1所述的分布式网络爬虫抓取任务调度方法，其特征在于，对接收到的快照数据，采用如下方式确定每个抓取节点的抓取任务数量：计算每个抓取节点的抓取任务需求数为抓取节点抓取任务的总数量减去抓取节点未完成的抓取任务的数量；按照抓取任务需求数从高到低进行排序，向抓取任务需求数高的抓取节点发送的抓取任务数量大于向抓取任务需求数低的抓取节点发送的抓取任务数量；

3.根据权利要求1所述的分布式网络爬虫抓取任务调度方法，其特征在于，所述快照数据包括所述抓取节点的节点标识、所述抓取节点抓取出现异常的种子的数量，以及所述抓取节点抓取出现异常的种子所属目标网站的目标网站标识；

4.根据权利要求1所述的分布式网络爬虫抓取任务调度方法，其特征在于，在首次执行抓取任务发送步骤时，所述抓取任务采用如下方式生成：

5.一种分布式网络爬虫抓取任务调度装置，其特征在于，包括：

抓取任务修正模块，用于接收到多个抓取节点发送的快照数据，根据多个所述抓取节点的快照数据确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量，执行抓取任务发送模块，每个所述快照数据由所述抓取节点每隔预设时间生成，且所述快照数据描述所述抓取节点对所述抓取任务的执行情况；

6.根据权利要求5所述的分布式网络爬虫抓取任务调度装置，其特征在于，对接收到的快照数据，采用如下方式确定每个抓取节点的抓取任务数量：计算每个抓取节点的抓取任务需求数为抓取节点抓取任务的总数量减去抓取节点未完成的抓取任务的数量；按照抓取任务需求数从高到低进行排序，向抓取任务需求数高的抓取节点发送的抓取任务数量大于向抓取任务需求数低的抓取节点发送的抓取任务数量；

7.根据权利要求5所述的分布式网络爬虫抓取任务调度装置，其特征在于，所述快照数据包括所述抓取节点的节点标识、所述抓取节点抓取出现异常的种子的数量，以及所述抓取节点抓取出现异常的种子所属目标网站的目标网站标识；

8.根据权利要求5所述的分布式网络爬虫抓取任务调度装置，其特征在于，在首次执行抓取任务发送模块时，所述抓取任务采用如下方式生成：

9.一种分布式网络爬虫抓取任务调度方法，其特征在于，包括：

快照数据发送步骤，每隔预设时间生成快照数据并发送到调度端设备，所述快照数据描述所述抓取节点对所述抓取任务的执行情况，用于调度端设备确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量；

10.根据权利要求9所述的分布式网络爬虫抓取任务调度方法，其特征在于，

11.根据权利要求9所述的分布式网络爬虫抓取任务调度方法，其特征在于，所述快照数据包括节点标识、抓取出现异常的种子的数量，以及抓取出现异常的种子所属目标网站的目标网站标识；

12.根据权利要求9所述的分布式网络爬虫抓取任务调度方法，其特征在于，所述调度端设备在首次生成抓取任务时，所述抓取任务采用如下方式生成：

13.一种分布式网络爬虫抓取任务抓取节点，其特征在于，包括：

快照数据发送模块，用于每隔预设时间生成快照数据并发送到调度端设备，所述快照数据描述所述抓取节点对所述抓取任务的执行情况，用于调度端设备确定发送到每个抓取节点的抓取任务数量，以及每个抓取任务所包括的每个目标网站的种子的数量；

14.根据权利要求13所述的分布式网络爬虫抓取任务抓取节点，其特征在于，所述调度端设备对接收到的快照数据，采用如下方式确定每个抓取节点的抓取任务数量：计算每个抓取节点的抓取任务需求数为抓取节点抓取任务的总数量减去抓取节点未完成的抓取任务的数量；按照抓取任务需求数从高到低进行排序，向抓取任务需求数高的抓取节点发送的抓取任务数量大于向抓取任务需求数低的抓取节点发送的抓取任务数量；

15.根据权利要求13所述的分布式网络爬虫抓取任务抓取节点，其特征在于，所述快照数据包括节点标识、抓取出现异常的种子的数量，以及抓取出现异常的种子所属目标网站的目标网站标识；

16.根据权利要求13所述的分布式网络爬虫抓取任务抓取节点，其特征在于，在调度端设备首次生成抓取任务时，所述抓取任务采用如下方式生成：