CN103873597B

CN103873597B - 分布式网页下载方法和系统

Info

Publication number: CN103873597B
Application number: CN201410149901.7A
Authority: CN
Inventors: 何培林; 汤伟宾; 陈晨; 章正道; 林胜通
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2014-04-15
Filing date: 2014-04-15
Publication date: 2017-10-10
Anticipated expiration: 2034-04-15
Also published as: CN103873597A

Abstract

本发明提供了一种分布式网页下载方法和系统，所述方法包括：网络爬虫向任务调度服务单元发送网页下载请求；所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，下载相应的网页数据，保存至所述任务调度服务单元的第二消息队列；所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。本发明基于双消息队列的点对点分布式网页下载方式，可利用分散在各处的可上网机器来抓取网页，准实时响应网页下载请求，可有效的突破网站对并发下载请求的限制。

Description

分布式网页下载方法和系统

技术领域

本发明涉及计算机网络技术领域，特别地，涉及一种分布式网页下载方法和系统。

背景技术

分布式网页下载系统包含多个网络爬虫，每个网络爬虫都需要从互联网抓取网页数据并保存起来。所有的这些网络爬虫可能分布在不同的地理位置，根据其分散的程度不同，网络爬虫系统可以分为两大类：一类是基于局域网的分布式网络爬虫系统；另一类是基于广域网的分布式网络爬虫系统。

在网页抓取项目中通常最缺的是IP地址资源，大多数网站，特别是特定领域的，如微博等，对抓取端会做限制，如同一IP地址的并发请求限制、一段时间内同一IP地址的访问次数限制等等。

综上，不管基于上述何种机制，都需要突破网站对网络爬虫系统的IP限制，但IP资源往往是比较有限的，无法实现有效、快速下载网页的目标。

发明内容

本发明提供一种分布式网页下载方法，用于解决现有网页下载系统因IP地址资源有限造成的无法有效下载网页的问题。

本发明还提供了一种分布式网页下载系统，以保证上述方法在实际中的应用。

为了解决上述问题，本发明公开了一种分布式网页下载方法，执行所述方法的系统包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述方法包括：所述网络爬虫向任务调度服务单元发送网页下载请求，所述下载请求参数包括所述网页的URL地址；所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，根据所述URL地址下载相应的网页数据，保存至所述任务调度服务单元的第二消息队列；所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。

优选的，在所述网络爬虫向任务调度服务单元发送网页下载请求步骤之前，还包括：所述网络爬虫向任务调度服务单元发起TCP连接，并保持连接，直至收到任务调度服务单元返回对应的网页数据。

优选的，所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，具体包括：判断所述第一消息队列是否为空；若是，则循环等待直至所述第一消息队列不为空；否则，所述任务调度服务单元从第一消息队列读取一个网页下载请求，并返回给所述上网客户端。

优选的，所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫，具体包括：所述任务调度服务单元监听第二消息队列的状态，当有新的网页数据保存至第二消息队列时，读取该新的网页数据，并返回至请求网页下载的相应网络爬虫。

优选的，向任务调度服务单元发起获取网页下载请求的上网客户端具有空闲的网络连接资源。

依据本发明的另一优选实施例，还公开了一种分布式网页下载系统，包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述任务调度服务单元与所述上网客户端通过因特网连接，其中：所述网络爬虫用于向任务调度服务单元发送网页下载请求，以及接收所述任务调度服务单元返回的网页数据；所述下载请求参数包括所述网页的URL地址；所述上网客户端用于从所述任务调度服务单元的第一消息队列获取一个网页下载请求，根据所述URL地址通过互联网下载相应的网页数据，并保存至所述任务调度服务单元的第二消息队列；所述任务调度服务单元用于接收所述网络爬虫发送的网页下载请求，并保存至第一消息队列；以及，将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。

优选的，所述网络爬虫具体包括：连接子单元，用于向任务调度服务单元发起TCP连接；下载请求子单元，用于向任务调度服务单元发送网页下载请求；数据接收子单元，用于接收任务调度服务单元返回的对应网页数据，并在网页数据接收完成后断开所述网络爬虫与任务调度服务单元的连接。

优选的，所述任务调度服务单元具体包括：第一消息队列，用于接收并保存所述网络爬虫发送的网页下载请求；第二消息队列，用于接收并保存所述上网客户端下载的网页数据；队列监控子单元，用于监听所述第二消息队列的状态，当有新的网页数据保存至第二消息队列时，读取该新的网页数据，并返回至请求网页下载的相应网络爬虫。

优选的，所述上网客户端具体包括：任务获取子单元，用于判断所述第一消息队列的状态；当第一消息队列不为空时，请求所述任务调度服务单元从第一消息队列读取一个网页下载请求；当第一消息队列为空时，循环等待直至所述第一消息队列不为空；下载子单元，用于根据所述任务获取子单元获取的网页下载请求中包括的URL地址通过互联网下载相应的网页数据，并保存至所述任务调度服务单元的第二消息队列。

优选的，所述上网客户端还包括网络监控子单元，用于监控所述上网客户端网络状态；当所述上网客户端具有空闲的网络连接资源时，调度所述任务获取子单元和下载子单元执行相应的任务获取和网页下载功能。

与现有技术相比，本发明具有以下优点：

本发明优选实施例采用基于双消息队列的点对点（P2P）分布式网页下载方式，可以利用分散在各处的可上网机器（有空闲网络资源的服务器或个人电脑）来抓取网页，准实时响应网页下载请求，可有效的突破各类网站对并发请求的限制；且上网机器及网络爬虫端的可扩展性强，适合于大规模的分布式网页下载系统应用。

基于发明优选实施例方案，从网络爬虫发起URL请求至获得HTML网页数据，一般耗时不超过2秒，实时响应性能高，完全不影响实际业务。

附图说明

图1为本发明分布式网页下载方法一实施例的流程图；

图2为本发明分布式网页下载系统一实施例的结构示意图；

图3为图2所示的分布式网页下载系统实施例的业务逻辑示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

方法实施例：

参照图1，示出了本发明分布式网页下载方法一实施例的流程，执行本方法实施例的系统包括有网络爬虫、任务调度服务单元以及连接于互联网上的上网客户端（包括个人电脑、网络服务器等）；本优选方法实施例包括以下步骤：

步骤S101：网络爬虫向任务调度服务单元发送网页下载请求；

在本优选实施例中，为提高网页下载能力，设置2个以上请求从互联网抓取并保存网页数据的网络爬虫。

在上述网页下载请求中，请求参数包括待下载网页的URL地址、网络传输协议（如http协议或https协议）等。

在具体实现本发明方案时，网络爬虫可以与任务调度服务单元部署在同一局域网中，也可以部署在不同的网络中；网络爬虫与任务调度服务单元可以长连接，也可以在需要下载网页数据时临时建立连接。

对于在需要下载网页数据时临时建立连接的方案，在步骤S101之前，需要先建立网络爬虫与任务调度服务单元之间的网络连接（如TCP连接），并保持连接，直至收到任务调度服务单元返回对应的网页数据。

步骤S102：任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；

在本优选实施例中，第一消息队列（即URL消息队列）可以采用先进先出（FIFO）的队列存储结构，也可以采用后进先出（LIFO）的堆栈存储结构，还可以环形链表存储结构或其他的存储结构。

为保证后续流程中将网页数据返回至相应的网络爬虫（即发出该网页下载请求的网络爬虫），在将网页下载请求保存至第一消息队列之前，首先生成一个唯一标识（如可取该URL的MD5值作为唯一标识，也可以采用其他计算方式），并建立该唯一标识符与网络爬虫、URL参数的关联关系。

步骤S103：上网客户端从任务调度服务单元的第一消息队列获取一个网页下载请求；

为克服各类网站或网络服务器对每个IP发出的并发请求的限制，执行本方法实施例的系统设置2个以上具有不同IP地址的上网客户端，优选设置2个以上分布在不同地理位置的上网客户端。

该网页下载请求获取方法具体包括：

步骤S103-1：判断所述第一消息队列是否为空；若是，转步骤S103-1循环等待；否则，转步骤S103-2；

步骤S103-2：任务调度服务单元从第一消息队列读取一个网页下载请求，并返回给上述发出任务获取请求的上网客户端。

在进一步的优选实施例中，为了避免对上网客户端正常业务的影响，在步骤S103之前，还包括如下判断过程：

判断当前上网客户端是否具有空闲的网络连接资源，若是，则执行后续的任务获取及网页下载过程，否则，直接结束流程。

步骤S104：上网客户端从因特网下载相应的网页数据，保存至任务调度服务单元的第二消息队列；

上网客户端根据网页下载请求中所包括的URL地址参数，从上网客户端本地请求并下载相应的网页数据（html数据）；然后，将下载的网页数据发送并保存至任务调度服务单元设置的第二消息队列（即html消息队列）中。

为保证后续流程中将网页数据返回至相应的网络爬虫，构造key-value对象放在内存备用（将URL唯一标识作为key值，返回的HTML网页数据作为value）。

步骤S105：任务调度服务单元将第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。

任务调度服务单元监听上述第二消息队列的状态，当有新的网页数据保存至第二消息队列时，读取并将该新的网页数据返回至请求网页下载的相应网络爬虫。

对于前述的各方法实施例，为了描述简单，故将其都表述为一系列的动作组合，但是本领域的技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为根据本发明，某些步骤可以采用其他顺序或同时执行；其次，本领域技术人员也应该知悉，上述方法实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

系统实施例：

参照图2，示出了本发明分布式网页下载系统一实施例的结构框图，包括任务调度服务单元22、2个以上的网络爬虫21以及2个以上分布在不同地理位置具有不同IP地址的上网客户端23，任务调度服务单元22与上网客户端23通过因特网20连接，其中：

网络爬虫21具体包括：下载请求子单元21-1，用于向任务调度服务单元22发送网页下载请求；以及，数据接收子单元21-2，用于接收任务调度服务单元22返回的网页数据；

在上述的网页下载请求中，下载请求参数包括有待下载网页的URL地址；

在具体实施时，网络爬虫21与任务调度服务单元22可以部署在同一局域网中，并建立长连接；也可以部署在不同的网络中，并根据需要临时建立连接。

对于在需要下载网页数据时临时建立连接的方案，网络爬虫21还包括：连接子单元21-3，用于向任务调度服务单元22发起TCP连接，并保持该连接；此时，数据接收子单元21-2收到任务调度服务单元22返回对应的网页数据后，断开网络爬虫21与任务调度服务单元22的连接。

任务调度服务单元22具体包括：第一消息队列22-1，用于接收并保存网络爬虫21发送的网页下载请求；第二消息队列22-2，用于接收并保存上网客户端23下载的网页数据；以及，队列监控子单元22-3，用于监听第二消息队列22-2的状态，当有新的网页数据保存至第二消息队列时，读取该新的网页数据，并返回至请求网页下载的相应网络爬虫21。

上网客户端23具体包括：任务获取子单元23-1，用于从任务调度服务单元22的第一消息队列22-1获取网页下载请求；以及，下载子单元23-2，用于根据网页下载请求所包括的URL地址通过互联网20下载相应的网页数据，并保存至任务调度服务单元22设置的第二消息队列22-2。

任务获取子单元23-1实现方法具体为：判断第一消息队列22-1的状态；当第一消息队列22-1不为空时，请求任务调度服务单元22从第一消息队列22-1中读取一个网页下载请求；当第一消息队列22-1为空时，循环等待直至第一消息队列22-1不为空。

在进一步的系统实施例中，上网客户端23还包括：网络监控子单元23-3，用于监控上网客户端23网络状态；当上网客户端23具有空闲的网络连接资源时，调度任务获取子单元23-1和下载子单元23-2执行相应的任务获取和网页下载功能。

参照图3，示出了上述分布式网页下载系统实施例的业务逻辑示意图，其业务执行过程包括：

1、爬虫发起TCP连接，将URL发送给调度主服务，保持连接，等待回应；

2、调度主服务计算URL的特征值（如可取其MD5值作为特征值，也可以采用其他计算方式）作为唯一标识，一起发送至消息队列；

3、上网客户端主动请求URL消息队列，如果URL消息队列不为空，则返回一个URL任务给上网客户端；否则等待直至URL消息队列不为空；在获取一个URL后，上网客户端在本地发起HTTP请求，然后将请求返回的HTML网页及对应URL的唯一标识（URL特征值）发送至HTML消息队列；

4、调度主服务主动监听HTML消息队列，一旦有新的消息入队，立即读出,否则继续等待直至HTML消息队列不为空为止。

5、调度主服务通过URL唯一标识检索内存，发现某TCP连接发起的URL对应特征的HTML网页数据已经返回，立即将该HTML网页数据发送给网络爬虫；至此，完成了整个网络爬虫请求过程。

需要说明的是，上述系统实施例属于优选实施例，所涉及的单元并不一定是本发明所必须的。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于本发明的系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种分布式网页下载方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种分布式网页下载方法，其特征在于，执行所述方法的系统包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述方法包括：

所述网络爬虫向任务调度服务单元发送网页下载请求，所述下载请求包括所述网页的URL地址；

所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列；

所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，根据所述URL地址下载相应的网页数据，保存至所述任务调度服务单元的第二消息队列；

所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。

2.如权利要求1所述的方法，其特征在于，在所述网络爬虫向任务调度服务单元发送网页下载请求步骤之前，还包括：

所述网络爬虫向任务调度服务单元发起TCP连接，并保持连接，直至收到任务调度服务单元返回对应的网页数据。

3.如权利要求1所述的方法，其特征在于，所述上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求，具体包括：

判断所述第一消息队列是否为空；

若是，则循环等待直至所述第一消息队列不为空；否则，所述任务调度服务单元从第一消息队列读取一个网页下载请求，并返回给所述上网客户端。

4.如权利要求1所述的方法，其特征在于，所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫，具体包括：

所述任务调度服务单元监听第二消息队列的状态，当有新的网页数据保存至第二消息队列时，读取该新的网页数据，并返回至请求网页下载的相应网络爬虫。

5.如权利要求1所述的方法，其特征在于，向任务调度服务单元发起获取网页下载请求的上网客户端具有空闲的网络连接资源。

6.一种分布式网页下载系统，其特征在于，包括任务调度服务单元、2个以上的网络爬虫以及2个以上分布在不同地理位置具有不同IP地址的上网客户端，所述任务调度服务单元与所述上网客户端通过因特网连接，其中：

所述网络爬虫用于向任务调度服务单元发送网页下载请求，以及接收所述任务调度服务单元返回的网页数据；所述下载请求包括所述网页的URL地址；

所述上网客户端用于从所述任务调度服务单元的第一消息队列获取一个网页下载请求，根据所述URL地址通过互联网下载相应的网页数据，并保存至所述任务调度服务单元的第二消息队列；

所述任务调度服务单元用于接收所述网络爬虫发送的网页下载请求，并保存至第一消息队列；以及，将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。

7.如权利要求6所述的系统，其特征在于，所述网络爬虫具体包括：

连接子单元，用于向任务调度服务单元发起TCP连接；

下载请求子单元，用于向任务调度服务单元发送网页下载请求；

数据接收子单元，用于接收任务调度服务单元返回的对应网页数据，并在网页数据接收完成后断开所述网络爬虫与任务调度服务单元的连接。

8.如权利要求6所述的系统，其特征在于，所述任务调度服务单元具体包括：

第一消息队列，用于接收并保存所述网络爬虫发送的网页下载请求；

第二消息队列，用于接收并保存所述上网客户端下载的网页数据；

队列监控子单元，用于监听所述第二消息队列的状态，当有新的网页数据保存至第二消息队列时，读取该新的网页数据，并返回至请求网页下载的相应网络爬虫。

9.如权利要求6所述的系统，其特征在于，所述上网客户端具体包括：

任务获取子单元，用于判断所述第一消息队列的状态；当第一消息队列不为空时，请求所述任务调度服务单元从第一消息队列读取一个网页下载请求；当第一消息队列为空时，循环等待直至所述第一消息队列不为空；

下载子单元，用于根据所述任务获取子单元获取的网页下载请求中包括的URL地址通过互联网下载相应的网页数据，并保存至所述任务调度服务单元的第二消息队列。

10.如权利要求9所述的系统，其特征在于，所述上网客户端还包括网络监控子单元，用于监控所述上网客户端网络状态；当所述上网客户端具有空闲的网络连接资源时，调度所述任务获取子单元和下载子单元执行相应的任务获取和网页下载功能。