CN107066569A

CN107066569A - 一种分布式网络爬虫系统及信息爬取的方法

Info

Publication number: CN107066569A
Application number: CN201710222875.XA
Authority: CN
Inventors: 高靖宇; 刘科科; 李武昭
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2017-08-18

Abstract

本发明公开了一种分布式网络爬虫系统及信息爬取的方法，系统包括若干控制节点和若干爬取节点；所有节点根据网络距离进行分组，网络距离在预算范围内的节点被分为一组；每组设有一个控制节点，其余为爬取节点；同一分组的控制节点和爬取节点之间为主从关系，所有的控制节点组成一个对等式网络，共同控制整个系统的运行。本发明能根据爬取列表，动态分配爬取任务，实现多个节点并行爬取海量数据，是一种成本低廉、性能高效的分布式网络爬虫系统。

Description

一种分布式网络爬虫系统及信息爬取的方法

技术领域

本发明属于计算机网络领域，特别是涉及一种新型的分布式爬虫系统及信息爬取的方法。

背景技术

随着互联网技术的发展，互联网上的站点越来越多，信息量非常巨大。人们迫切需要一种手段去挖掘其中有用的信息，爬虫技术应运而生。基于单机的爬虫抓取能力有限，难以应对复杂多变的网络信息，这促使了基于分布式系统网络爬虫技术的实现。

现有的分布式爬虫系统架构大致分为主从式和对等式两种。主从式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理，爬虫只需要从控制节点那里接收任务，并把新生成任务提交给控制节点就可以了，在这个过程中不必与其他爬虫通信，这种方式实现简单利于管理；对等式是指系统中没有协调者，所有爬虫地位相等，但是各自负担一部分URL抓取工作，由于没有控制节点的存在，此时由爬虫自己判断哪个URL需要自己抓取或者由别的爬虫抓取，这种架构的稳定性比主从式高。

然而，上述两种架构存在诸多缺点：对于主从式而言，因为控制节点承担很多管理任务，同时待抓取URL队列数量巨大，所以控制节点容易成为整个系统的瓶颈；整个系统的稳定性完全依赖于控制节点，一旦控制节点出现故障，整个系统将无法使用；此外，系统瓶颈在于控制节点，当爬取节点数目到达一定阈值后，系统的整体性能不升反降。对于对等式，由于任意两个节点之间都会通信，当网络较大、节点分布广、节点网络距离较远时，节点之间的网络速度则会成为系统的瓶颈，而且节点之间过多通信会浪费系统的性能；如果在抓取过程中某台服务器宕机，或者新加入一台抓取服务器，则每台抓取服务器的取模算法都得更新。

发明内容

为了解决主从式架构稳定性低、规模不易扩展，对等式架构效率低下、资源占用较多的问题，本发明提供了一种新型的分布式爬虫系统及信息爬取的方法。

本发明的系统所采用的技术方式是：一种分布式网络爬虫系统，其特征在于：包括若干控制节点和若干爬取节点；所有节点根据网络距离进行分组，网络距离在预算范围内的节点被分为一组；每组设有一个控制节点，其余为爬取节点；同一分组的控制节点和爬取节点之间为主从关系，所有的控制节点组成一个对等式网络，共同控制整个系统的运行。

本发明的方法所采用的技术方案是：一种信息爬取的方法，其特征在于，包括以下步骤：

步骤1：对分布式网络爬虫系统进行分组；

步骤2：任务分配；

步骤3：任务执行。

本发明具有以下几个优点：

1、控制节点间的端对端架构，保证了整个系统的稳定性，某个节点出现问题不会导致整个系统出现故障；

2、小组内部采取主从式架构，可以减少对网络流量等资源的占用，节省成本；

3、系统具有一定的自我修复性，容错性较高。

附图说明

图1：为本发明实施例的系统架构图；

图2：为本发明实施例的方法任务分配流程图；

图3：为本发明实施例的方法任务执行流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种分布式网络爬虫系统，包括若干控制节点和爬取节点，通过一定方法将所有节点分组，分组依据主要为网络环境，网络距离较近的节点被分为一组，每组设有一个控制节点，其余为爬取节点；同一分组的控制节点和爬取节点之间为主从关系，所有的控制节点组成一个对等式网络，共同控制整个系统的运行。这样，从功能上来说，整个系统可以分为A，B两个部分。A部分为各个小组间的控制节点组成的对等式网络，B部分由一个小组内的控制节点和爬行节点组成的主从式网络。

下面具体介绍A，B两个部分。

A部分：所有的控制节点共同控制整个系统的运行，每个控制节点的地位是平等的，它们之间通过网络相互通信，当其中某个控制节点出现问题时，如果组内节点数目大于预设值，可以从组内重新选出一个节点作为控制节点，否则，将该组内的爬取节点分配至与其网络距离最近的控制节点，从而保证系统的稳定性。

划分小组后，对于小组内部，由于节点网络距离较近，网络环境可以近似认为相同，小组内部分配任务时不用考虑小组的网络状态，只需考虑小组的负载状况；在为小组分配任务时，各个控制节点会根据自身小组的网络状况和整体负载决定接收任务或者将任务转发至更合适的控制节点。

B部分：一个小组内的架构类似于主从模式。控制节点从对等式网络中得到URL爬取列表之后，负责小组内部的任务调度和节点状态监控。组内任务分配时，要考虑各个节点的爬取节点的运行状态，包括内存，网络吞吐量，当前任务量等信息。此外，控制节点会定期对爬取节点进行监测，并处理可能发生的异常情况。此外，控制节点负责小组内部的日志记录，当出现异常时，会尝试处理并将异常及处理情况通知管理员。

本发明提供的一种信息爬取的方法，包括以下步骤：

步骤1：对分布式网络爬虫系统进行分组；

获取所有节点的状态信息，包括节点的IP、节点间数据报的TTL和网络时延。然后按照一定的权重对上述数据做归一化处理，对归一化后的数据进行K均值聚类，步骤如下：

a.从n个数据对象任意选择k个对象作为初始聚类中心；

b.根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

c.重新计算每个(有变化)聚类的均值(中心对象)；

d.循环bc直到每个聚类不再发生变化为止。

循环bc直到每个聚类不再发生变化为止。

上述算法得到的聚类结果可以保证类内方差最小，类间方差最大。

步骤2：任务分配；请见图2，其具体实现包括以下子步骤：

步骤2.1：通过给定URL种子和配置文件生成URL列表，具体如下：URL种子一般为网站的域名，配置文件中含有URL列表的生成规则，首先根据URL种子和配置文件获取初始页面，然后使用正则表达式和XPATH对页面进行解析，并根据配置文件选出所需爬取列表。

步骤2.2：控制节点从URL数据库中获取待爬取的URL列表；

步骤2.3：对每一个URL做一致性哈希，一致性哈希将URL进行哈希，映射为一个范围在0到2³²之问的某个数值；并确定每个控制节点的职责范围；

步骤2.4：控制节点判断任务是否属于本组；

若是，则执行下述步骤2.6；

若否，则执行下述步骤2.4；

步骤2.5：控制节点将任务转发至其他控制节点；

步骤2.6：判断任务是否转发成功；

若是，则执行下述步骤2.6；

若否，则回转执行上述步骤2.4；

步骤2.7：控制节点将该任务加入本组的URL队列。

本实施例，假设2号抓取服务器接收到了某个URL，经过哈希值计算后，2号服务器知道在自己的管辖范围内，于是自己将其加入本组的URL队列。在此之后，2号服务器收到了另一个这个域名，经过哈希计算，可知是3号服务器负责的范围，于是将这个URL转发给3号服务器。如果3号服务器死机，那么2号服务器得不到回应，于是知道3号服务器出了状况，此时顺时针按照环的大小顺序查找，将URL转发给第一个碰到的服务器，即1号服务器。

这样的任务分配策略较为简单，占用资源少。

步骤3：任务执行；请见图3，其具体实现过程是：

小组内部采用主从模式，控制节点负责对组内整体状态的监控以及任务分配。当有新任务时，控制节点对任务进行评测，得到任务量的大小，目标URL到爬虫节点的距离，并结合爬虫节点的运行状况，分配任务到不同的爬虫节点上，确保任务可以分配到最合适的爬虫节点上并做到负载均衡。

在具体实施时，对于爬行节点，按照一定规则把Web页面集合划分为多个任务子集。然后把每个子集的任务分配到对应爬行节点进行处理。系统中有个节点专门负责任务分配，称为中央节点(即控制节点)。每当一个采集进程完成任务后，中央节点把下一个待分配的任务子集分配给该节点进行处理。当有节点在采集过程中发现有不属于自己任务子集的任务时，就会把该任务提交给中央节点，由它来决定把该任务分配给哪个节点。

本系统主要功能有：

1、通过给定的种子URL生成爬取列表；

以链家网为例，如果要获取链接网武汉地区所有二手房信息的URL列表，可以通过以下方式生成：

(1)提供种子URL，此处为网站域名wh.liajia.com

(2)使用正则表达式提供生成规则，例如此处是ershoufang/pg100(二手房/100页)。

(3)获取页面内容并解析，利用种子URL和生成规则生成URL列表并存入数据库。

url(http://wh.lianjia.com/ershoufang/104100395958.html)即为需要进一步爬取的内容。

2、可以动态添加或去除爬去节点或者控制节点；

动态添加的节点仅作为爬取节点被分配至和它具有最近网络距离的控制节点，无需重新进行任务分配；

动态移除爬取节点或者爬取节点出现故障时，小组内部任务分配时自动忽略该节点。

动态移除控制节点或者控制节点出现故障时，如果组内节点数目较多，可以从组内重新选出一个节点作为控制节点，否则，将该组内的爬取节点分配至与其网络距离最近的控制节点

3、动态分配任务给各个节点，实现高效的爬取；

4、使用分布式储存方案，提高安全性，降低成本。

使用hadoop的HDFS分布式文件系统可以对爬取的数据进行冗余储存，保证了数据的安全性，把数据丢失的可能性降到最低。数据默认存3份，存储在廉价的机器上，适合大数据的处理。当用户向HDFS文件系统上传一个新文件时，默认情况下，客户端会将文件切成64MB大小的数据块，且系统会自动将每个数据块复制成3个副本，按照部署在上HDFS的副本存放策略放置副本。HDFS保存多个副本，并通过将其存放在不同的机架上来提供容错机制，当副本丢失或宕机时自动恢复。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种分布式网络爬虫系统，其特征在于：包括若干控制节点和若干爬取节点；所有节点根据网络距离进行分组，网络距离在预算范围内的节点被分为一组；每组设有一个控制节点，其余为爬取节点；同一分组的控制节点和爬取节点之间为主从关系，所有的控制节点组成一个对等式网络，共同控制整个系统的运行。

2.根据权利要求1所述的分布式网络爬虫系统，其特征在于：所有的控制节点组成一个对等式网络，每个控制节点的地位是平等的，它们之间通过网络相互通信；当其中某个控制节点出现问题时，如果组内节点数目大于预设值，则从组内重新选出一个节点作为控制节点，否则，将该组内的爬取节点分配至与其网络距离最近的控制节点，从而保证系统的稳定性。

3.根据权利要求1所述的分布式网络爬虫系统，其特征在于：划分小组后，在为小组分配任务时，仅需考虑小组的负载状况；各个控制节点会根据自身小组的网络状况和负载决定接收任务或者将任务转发至更合适的小组。

4.根据权利要求1所述的分布式网络爬虫系统，其特征在于：小组内部任务分配时，需要考虑各个爬取节点的运行状态，包括内存、网络吞吐量、当前任务量。

5.根据权利要求1所述的分布式网络爬虫系统，其特征在于：小组内部的控制节点会定期对小组内部的爬取节点进行监测，并处理可能发生的异常情况。

6.一种利用权利要求1所述的分布式网络爬虫系统进行信息爬取的方法，其特征在于，包括以下步骤：

步骤1：对分布式网络爬虫系统进行分组；

步骤2：任务分配；

步骤3：任务执行。

7.根据权利要求6所述的方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：获取所有节点的状态信息，包括节点的IP、节点间数据报的TTL和网络时延；

步骤1.2：按照一定的权重对上述数据做归一化处理，对归一化后的数据进行K均值聚类，步骤如下：

a.从n个数据对象任意选择k个对象作为初始聚类中心；

b.根据每个聚类对象的均值，计算每个对象与均值的距离；并根据最小距离重新对相应对象进行划分；

c.重新计算每个聚类的均值；

d.循环执行步骤b-c直到每个聚类不再发生变化为止。

8.根据权利要求6所述的方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：控制节点从URL数据库中获取待爬取的URL列表；

步骤2.2：对每一个URL做一致性哈希，一致性哈希将URL进行哈希，映射为一个范围在0到2³²之问的某个数值；并确定每个控制节点的职责范围；

步骤2.3：控制节点判断任务是否属于本组；

若是，则执行下述步骤2.6；

若否，则执行下述步骤2.4；

步骤2.4：控制节点将任务转发至其他控制节点；

步骤2.5：判断任务是否转发成功；

若是，则执行下述步骤2.6；

若否，则回转执行上述步骤2.4；

步骤2.6：控制节点将该任务加入本组的URL队列。

9.根据权利要求8所述的方法，其特征在于：步骤2.2中，将哈希值范围首尾相接，即认为数值0和最大值重合，这样可以将其看做有序的环状队列，从数值0开始，沿着环的时针方向，哈希值逐渐增大，自到环的结尾；而某个抓取服务器则负责这个环状序列的一个片段，即落在某个哈希区间内的URL都由该服务器负责下载，这样即可确定每个控制节点的职责范围。

10.根据权利要求6所述的方法，其特征在于：步骤3的具体实现过程为，当有新任务时，控制节点对任务进行评测，得到任务量的大小，目标URL到爬虫节点的距离，并结合爬虫节点的运行状况，分配任务到不同的爬虫节点上，确保任务可以分配到最合适的爬虫节点上并做到负载均衡。