CN102480524B

CN102480524B - 一种网页爬虫协作方法

Info

Publication number: CN102480524B
Application number: CN201110375264.1A
Authority: CN
Inventors: 王劲林; 王玲芳; 邓峰; 齐向东
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2010-11-26
Filing date: 2011-11-23
Publication date: 2014-09-10
Anticipated expiration: 2031-11-23
Also published as: CN102480524A

Abstract

本发明公开了提供一种网页爬虫协作方法，所述的方法步骤如下：首先，爬虫节点依据在线时间段形成若干采集组，所有的各采集组能实现一个周期的连续在线；然后，采集组间通过消息交换的方法采集网页；最后，所有的采集组协作存储被采集的网页。所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。消息交换的方法可采用：各采集组形成一个路由网络，节点依据路由信息表将信令或消息发送到另一个采集组；其中，所述路由网络中的路由协议可采用IP网络路由中的路由协议，或对等网络中的各种DHT协议；或采用中心控制消息交换方法。本发明可解决采集设备中心化面临的带宽问题和网页的海量存储问题，解决P2P采集的时间可持续问题。

Description

一种网页爬虫协作方法

技术领域

本发明涉及信息网络技术领域，特别涉及一种网页爬虫协作方法。

背景技术

如今互联网搜索引擎成为人们日常生活不可或缺的一种工具，如谷歌、百度、搜狗、人民搜索等。搜索资讯、学习、疑难问题解答、广告等等，搜索引擎业务渗透到生活的方方面面。在搜索引擎中，至关重要的一步是相关信息的采集获取，在互联网上则典型地体现为网页的采集。

网页的采集经历了几个阶段。第一个阶段是单主机采集阶段，这是典型的中心处理方式；第二个阶段是多台主机协作的集群采集阶段，其特征表现为这些主机处于一个IDC机房或高速互联的网络之中，其间通信不会成为问题，同时各主机是长在线的，有一台控制主机；第三个阶段是相距较远的多台主机协作的P2P采集阶段，其特征表现为这些主机是由相关机构无偿奉献的，意图促进对等协作，主机呈现长时间在线特征，没有中心控制点。

上述三个阶段除第一个阶段处在第二阶段、第三阶段之前、由于明显的单机处理能力等缺陷而被淘汰之外，第二、三阶段是并行的，是由两种主导思路决定的，严格说来是分布式网页采集的两种实现比较合适，集群采集是由公司主导的，其目的是靠搜索得来的信息赢利，P2P采集是P2P搜索引擎的基础，完全是一种社会化网络行为，其作用在于抵消公司主导搜索引擎的弊端。

另外，随着用户终端资源能力的日益增强，其资源在开机的大部分时间内处于空闲运行状态，浪费非常严重；同时这些终端的在线呈现不同的周期性特征(例如日(day)周期、周(week)周期)，在线时长则一般随用户不同而呈现准常数周期变化。

在现有技术中，由一台主机负责一定范围内(如IP地址或域名某个区段内网站内容采集)的网页爬取和更新，并通过存储接口存储在本地、集中式存储或分布式系统内。

上述集群采集方法面临采集带宽大量消耗、经费以及网页的海量存储问题，P2P采集又面临利他用途的可持续问题。

发明内容

本发明的目的在于，为克服目前采集设备中心化面临的带宽问题和网页的海量存储问题，同时将利他和利已用户相结合，解决P2P采集的可持续问题，从而提供一种网页爬虫协作方法。

为实现上述目的，本发明提供一种网页爬虫协作方法，该方法用于多种网络环境下存在大量网页爬虫情况下的协作方法，所述的方法步骤如下：

步骤1，将一设定周期中某段时间同时在线的爬虫节点划分为一采集组，且各爬虫节点被划分的所有采集组的在线时间段相连接能实现一个周期的连续在线。

步骤2，以所述采集组为单位进行网页采集，且各采集组间还通过消息交换的方法协作实现设定周期内对网页内容的不间断采集。

步骤3，所述每个采集组内的若干爬虫节点协作存储该采集组所采集的网页。

其中，所述采集组包含两个以上的采集节点。2、根据权利要求1所述的网页爬虫协作方法，其特征在于，所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。

上述技术方案中，所述消息交换方法为：各采集组形成一个路由网络，节点依据路由信息表将信令或消息发送到另一个采集组；其中，所述路由网络中的路由协议可采用IP网络路由中的路由协议，或对等网络中的各种DHT协议。

所述消息交换方法为：中心控制消息交换方法，该方法的发送消息的节点向其所在网络的中心控制节点询问目的采集组对应的ID信息，在得到该信息后，以此信息为目的地发送消息。

所述协作存储为：被采集的网页在与该采集节点位于同一采集组内的各爬虫节点上分别保存被采集网页的副本，所述各副本存储节点能单独针对所存储的网页验证是否最新，并执行更新；或由所有副本存储节点中的一个代表节点对网页验证是否最新，并通知其他存储该网页的副本节点执行更新或将被采集的网页直接发送到副本存放节点。

所述步骤1进一步包含如下步骤：

爬虫节点上线后，向管理服务器注册，之后每隔一定时间，管理服务器轮询各爬虫节点设备，查询其在线状态；管理服务器依据爬虫节点的在线信息将所有爬虫节点划分成若干采集组；管理服务器将各采集组的信息反馈到爬虫节点，各爬虫节点依据该信息自组成网；其中，所述爬虫节点的信息包含该节点所在网络和/或在线历史信息。

与目前网页采集的方法相比，本发明具有下列优点：(1)将中心化采集的带宽负担分摊到各采集节点，使其可节省大量带宽费用；(2)将网页的中心化存储划分为分布式存储，节省了中心节点的存储费用；(3)将利他和利已用户相结合，使网页采集系统具有可持续发展能力。本发明提出利用上述大量终端资源实现网页采集的一种方法，解决采集设备中心化面临的带宽问题和网页的海量存储问题，同时将利他和利已用户相结合，解决P2P采集的时间可持续问题。

附图说明

图1是本发明的采集组内节点间在线时段间的关系示意图；

图2是本发明的采集组间通信的环状路由示意图；

图3是本发明的某个时段内采集组内节点维护网页的冗余关系图；

图4是本发明实施例提供的利用本发明网页爬虫协作方法进行网页采集的系统示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的描述。

本发明提供的一种网页爬虫协作方法，所述的方法步骤如下：

首先，爬虫节点依据在线时间段形成若干采集组，所有的采集组能实现一个周期的连续在线；然后，采集组间通过消息交换的方法采集网页；最后，所有的采集组协作存储被采集的网页。

所述的采集组采用散布于多个网络的数个爬虫节点，依据在线时间特征，形成在一定时间周期上呈现在线时间互补并全覆盖的节点集合。

所述的消息交换的方法包含：节点依据路由信息表将信令或消息发送到另一个采集组或中心控制消息交换的方式将消息从一个采集组传到另一个采集组。

所述的被采集网页在一个采集组内要存储一个副本。

为达到上述发明目的，本发明提供的网页爬虫协作方法包括：网页爬虫节点形成采集组的方法、采集组间消息交换的方法和被采集网页的存储方法。

其中，网页爬虫节点形成采集组的方法指散布于多个网络的数个爬虫节点，依据在线时间特征，形成在一定周期(比如星期(week))上在线时间呈现互补、全覆盖的节点集合。这样的节点集合构成一个采集组，并被分配一个采集组ID，该采集组ID可以是配置的，也可以是自动生成的。

其中，采集组间消息交换的方法指一个采集组中的一个节点将信令或消息发送到另一个采集组的方法。采集组间交换消息的方法有两种：(1)各采集组形成一个路由网络，其中路由网络中的路由协议可采用IP网络路由中的相关路由协议，如OSPF、RIP等，或对等网络中的各种DHT协议，如CHORD、KAD、CAN等。节点依据路由信息表将信令或消息发送到另一个采集组，这有点类似定向组播的方法。(2)中心控制消息交换方法，指要发送消息的节点向中心控制节点询问目的采集组ID对应的信息(比如IP地址等)，在得到该信息后，以此信息为目的地发送消息。

其中，被采集网页的存储方法指在一个采集组内各采集点间的存储方法。在形成采集组时，针对任意一个时间段，都要有两个或以上的节点保持存活状态，被采集的网页在这些节点上都要保持一个副本，各节点可单独针对所存储的网页验证是否最新，并执行更新；或由一个代表节点对网页验证是否最新，并通知其他存储该网页的节点执行更新或将网页直接发送到这些节点。

实施例1

参考图4网页爬虫的协作采集系统简图，本实施例提供的网页爬虫协作方法包括如下步骤：

1)计算设备上线后，向管理服务器注册；之后每隔一定时间(比如30秒)，管理服务器轮询各计算设备，查询在线状态；

2)管理服务器依据计算设备的信息(如所在网络、在线历史)划分成若干采集组(比如，以周(7天)为周期，则采集组数＝168/采集组在线时间长度)；

3)管理服务器将各采集组的信息发送到计算设备，各计算设备依据该信息自组成网；

4)每个采集组负责一定范围内网页的采集(比如依据域名.com、.edu等)，并在网页分析过程中将不由本采集组负责采集的网页标识发送到对应采集组，这里利用的是采集组间消息交换的方法；另外，若要覆盖全时段范围的采集，则需要每个采集组负责采集所有网页；

5)网页被采集后，在本采集组内同时至少有两个存活节点，这些节点都要存储被采集的网页；各节点可单独针对所存储的网页验证是否最新，并执行更新；或由一个代表节点对网页验证是否最新，并通知其他存储该网页的节点执行更新或将网页直接发送到这些节点。

如上步骤1-2是网页爬虫节点形成采集组的方法，步骤3-4是采集组间消息交换的方法，步骤5是被采集网页的存储方法。

下面结合图4，说明网页爬虫协作方法。如图4所示，本发明提供一个网页爬虫协作采集系统简图：在这里我们仅示意给出两个网络——网络1和网络2，每个网络有4种不同计算设备，同时系统中还有一台管理服务器。

假定网络1和网络2中的计算设备上线后，各计算设备向管理服务器注册，之后管理服务器轮询设备状态；据此统计得出如图1所示的设备在线规律，该图中所示的采集组1的2台示意的计算节点在预设的7天周期的时间段上从t1到t2的子时间段均在线，其中的采集组1的在线时间段取2台计算节点在线时间段的交集；并将各设备分成两个采集组——采集组1和采集组2，这两个采集组可以实现一个周期(7天)的连续在线。假设采集组1负责采集网站1，并在所采集到的网页分析时，发现网站2，且网站2不是本采集组的采集任务，则其中一个计算设备将采集网站2的任务依据采集组间消息交换的方法(见图2)发送到采集组2。

在采集网页i后，采集组1中的计算节点1将网页i发往该组内的计算节点2(它们是计算节点1的备份节点)，由计算节点2存储网页i，这样达到冗余存储的目的，见图3。在这里，网页i的更新可由计算节点1负责，并将更新通知计算节点2。

需要说明的是，以上介绍的本发明的实施方案而并非限制。本领域的技术人员应当理解，任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围内。

Claims

1.一种网页爬虫协作方法，用于多种网络环境下存在大量网页爬虫情况下的协作，所述的方法步骤如下：

步骤1，将一设定周期中某段时间同时在线的爬虫节点划分为一采集组，且各爬虫节点被划分的所有采集组的在线时间段相连接能实现一个周期的连续在线；

步骤2，以所述采集组为单位进行网页采集，且各采集组间还通过消息交换的方法协作实现设定周期内对网页内容的不间断采集；

步骤3，所述每个采集组内的若干爬虫节点协作存储该采集组所采集的网页；

其中，所述采集组包含两个以上的采集节点。

2.根据权利要求1所述的网页爬虫协作方法，其特征在于，所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。

3.根据权利要求1所述的网页爬虫协作方法，其特征在于，所述消息交换方法为：各采集组形成一个路由网络，节点依据路由信息表将信令或消息发送到另一个采集组；

其中，所述路由网络中的路由协议可采用IP网络路由中的路由协议，或对等网络中的各种DHT协议。

4.根据权利要求1所述的网页爬虫协作方法，其特征在于，所述消息交换方法为：中心控制消息交换方法，该方法的发送消息的节点向其所在网络的中心控制节点询问目的采集组对应的ID信息，在得到该信息后，以此信息为目的地发送消息。

5.根据权利要求1所述的网页爬虫协作方法，其特征在于，所述协作存储为：被采集的网页在与该采集节点位于同一采集组内的各爬虫节点上分别保存被采集网页的副本，所述各副本存储节点能单独针对所存储的网页验证是否最新，并执行更新；或由所有副本存储节点中的一个代表节点对网页验证是否最新，并通知其他存储该网页的副本节点执行更新或将被采集的网页直接发送到副本存放节点。

6.根据权利要求1所述的网页爬虫协作方法，其特征在于，所述步骤1进一步包含如下步骤：

爬虫节点上线后，向管理服务器注册，之后每隔一定时间，管理服务器轮询各爬虫节点设备，查询其在线状态；

管理服务器依据爬虫节点的在线信息将所有爬虫节点划分成若干采集组；

管理服务器将各采集组的信息反馈到爬虫节点，各爬虫节点依据该信息自组成网；

其中，所述爬虫节点的信息包含该节点所在网络和/或在线历史信息。