CN102480524B - 一种网页爬虫协作方法 - Google Patents

一种网页爬虫协作方法 Download PDF

Info

Publication number
CN102480524B
CN102480524B CN201110375264.1A CN201110375264A CN102480524B CN 102480524 B CN102480524 B CN 102480524B CN 201110375264 A CN201110375264 A CN 201110375264A CN 102480524 B CN102480524 B CN 102480524B
Authority
CN
China
Prior art keywords
node
collection group
collection
information
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110375264.1A
Other languages
English (en)
Other versions
CN102480524A (zh
Inventor
王劲林
王玲芳
邓峰
齐向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201110375264.1A priority Critical patent/CN102480524B/zh
Publication of CN102480524A publication Critical patent/CN102480524A/zh
Application granted granted Critical
Publication of CN102480524B publication Critical patent/CN102480524B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了提供一种网页爬虫协作方法,所述的方法步骤如下:首先,爬虫节点依据在线时间段形成若干采集组,所有的各采集组能实现一个周期的连续在线;然后,采集组间通过消息交换的方法采集网页;最后,所有的采集组协作存储被采集的网页。所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。消息交换的方法可采用:各采集组形成一个路由网络,节点依据路由信息表将信令或消息发送到另一个采集组;其中,所述路由网络中的路由协议可采用IP网络路由中的路由协议,或对等网络中的各种DHT协议;或采用中心控制消息交换方法。本发明可解决采集设备中心化面临的带宽问题和网页的海量存储问题,解决P2P采集的时间可持续问题。

Description

一种网页爬虫协作方法
技术领域
本发明涉及信息网络技术领域,特别涉及一种网页爬虫协作方法。
背景技术
如今互联网搜索引擎成为人们日常生活不可或缺的一种工具,如谷歌、百度、搜狗、人民搜索等。搜索资讯、学习、疑难问题解答、广告等等,搜索引擎业务渗透到生活的方方面面。在搜索引擎中,至关重要的一步是相关信息的采集获取,在互联网上则典型地体现为网页的采集。
网页的采集经历了几个阶段。第一个阶段是单主机采集阶段,这是典型的中心处理方式;第二个阶段是多台主机协作的集群采集阶段,其特征表现为这些主机处于一个IDC机房或高速互联的网络之中,其间通信不会成为问题,同时各主机是长在线的,有一台控制主机;第三个阶段是相距较远的多台主机协作的P2P采集阶段,其特征表现为这些主机是由相关机构无偿奉献的,意图促进对等协作,主机呈现长时间在线特征,没有中心控制点。
上述三个阶段除第一个阶段处在第二阶段、第三阶段之前、由于明显的单机处理能力等缺陷而被淘汰之外,第二、三阶段是并行的,是由两种主导思路决定的,严格说来是分布式网页采集的两种实现比较合适,集群采集是由公司主导的,其目的是靠搜索得来的信息赢利,P2P采集是P2P搜索引擎的基础,完全是一种社会化网络行为,其作用在于抵消公司主导搜索引擎的弊端。
另外,随着用户终端资源能力的日益增强,其资源在开机的大部分时间内处于空闲运行状态,浪费非常严重;同时这些终端的在线呈现不同的周期性特征(例如日(day)周期、周(week)周期),在线时长则一般随用户不同而呈现准常数周期变化。
在现有技术中,由一台主机负责一定范围内(如IP地址或域名某个区段内网站内容采集)的网页爬取和更新,并通过存储接口存储在本地、集中式存储或分布式系统内。
上述集群采集方法面临采集带宽大量消耗、经费以及网页的海量存储问题,P2P采集又面临利他用途的可持续问题。
发明内容
本发明的目的在于,为克服目前采集设备中心化面临的带宽问题和网页的海量存储问题,同时将利他和利已用户相结合,解决P2P采集的可持续问题,从而提供一种网页爬虫协作方法。
为实现上述目的,本发明提供一种网页爬虫协作方法,该方法用于多种网络环境下存在大量网页爬虫情况下的协作方法,所述的方法步骤如下:
步骤1,将一设定周期中某段时间同时在线的爬虫节点划分为一采集组,且各爬虫节点被划分的所有采集组的在线时间段相连接能实现一个周期的连续在线。
步骤2,以所述采集组为单位进行网页采集,且各采集组间还通过消息交换的方法协作实现设定周期内对网页内容的不间断采集。
步骤3,所述每个采集组内的若干爬虫节点协作存储该采集组所采集的网页。
其中,所述采集组包含两个以上的采集节点。2、根据权利要求1所述的网页爬虫协作方法,其特征在于,所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。
上述技术方案中,所述消息交换方法为:各采集组形成一个路由网络,节点依据路由信息表将信令或消息发送到另一个采集组;其中,所述路由网络中的路由协议可采用IP网络路由中的路由协议,或对等网络中的各种DHT协议。
所述消息交换方法为:中心控制消息交换方法,该方法的发送消息的节点向其所在网络的中心控制节点询问目的采集组对应的ID信息,在得到该信息后,以此信息为目的地发送消息。
所述协作存储为:被采集的网页在与该采集节点位于同一采集组内的各爬虫节点上分别保存被采集网页的副本,所述各副本存储节点能单独针对所存储的网页验证是否最新,并执行更新;或由所有副本存储节点中的一个代表节点对网页验证是否最新,并通知其他存储该网页的副本节点执行更新或将被采集的网页直接发送到副本存放节点。
所述步骤1进一步包含如下步骤:
爬虫节点上线后,向管理服务器注册,之后每隔一定时间,管理服务器轮询各爬虫节点设备,查询其在线状态;管理服务器依据爬虫节点的在线信息将所有爬虫节点划分成若干采集组;管理服务器将各采集组的信息反馈到爬虫节点,各爬虫节点依据该信息自组成网;其中,所述爬虫节点的信息包含该节点所在网络和/或在线历史信息。
与目前网页采集的方法相比,本发明具有下列优点:(1)将中心化采集的带宽负担分摊到各采集节点,使其可节省大量带宽费用;(2)将网页的中心化存储划分为分布式存储,节省了中心节点的存储费用;(3)将利他和利已用户相结合,使网页采集系统具有可持续发展能力。本发明提出利用上述大量终端资源实现网页采集的一种方法,解决采集设备中心化面临的带宽问题和网页的海量存储问题,同时将利他和利已用户相结合,解决P2P采集的时间可持续问题。
附图说明
图1是本发明的采集组内节点间在线时段间的关系示意图;
图2是本发明的采集组间通信的环状路由示意图;
图3是本发明的某个时段内采集组内节点维护网页的冗余关系图;
图4是本发明实施例提供的利用本发明网页爬虫协作方法进行网页采集的系统示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的描述。
本发明提供的一种网页爬虫协作方法,所述的方法步骤如下:
首先,爬虫节点依据在线时间段形成若干采集组,所有的采集组能实现一个周期的连续在线;然后,采集组间通过消息交换的方法采集网页;最后,所有的采集组协作存储被采集的网页。
所述的采集组采用散布于多个网络的数个爬虫节点,依据在线时间特征,形成在一定时间周期上呈现在线时间互补并全覆盖的节点集合。
所述的消息交换的方法包含:节点依据路由信息表将信令或消息发送到另一个采集组或中心控制消息交换的方式将消息从一个采集组传到另一个采集组。
所述的被采集网页在一个采集组内要存储一个副本。
为达到上述发明目的,本发明提供的网页爬虫协作方法包括:网页爬虫节点形成采集组的方法、采集组间消息交换的方法和被采集网页的存储方法。
其中,网页爬虫节点形成采集组的方法指散布于多个网络的数个爬虫节点,依据在线时间特征,形成在一定周期(比如星期(week))上在线时间呈现互补、全覆盖的节点集合。这样的节点集合构成一个采集组,并被分配一个采集组ID,该采集组ID可以是配置的,也可以是自动生成的。
其中,采集组间消息交换的方法指一个采集组中的一个节点将信令或消息发送到另一个采集组的方法。采集组间交换消息的方法有两种:(1)各采集组形成一个路由网络,其中路由网络中的路由协议可采用IP网络路由中的相关路由协议,如OSPF、RIP等,或对等网络中的各种DHT协议,如CHORD、KAD、CAN等。节点依据路由信息表将信令或消息发送到另一个采集组,这有点类似定向组播的方法。(2)中心控制消息交换方法,指要发送消息的节点向中心控制节点询问目的采集组ID对应的信息(比如IP地址等),在得到该信息后,以此信息为目的地发送消息。
其中,被采集网页的存储方法指在一个采集组内各采集点间的存储方法。在形成采集组时,针对任意一个时间段,都要有两个或以上的节点保持存活状态,被采集的网页在这些节点上都要保持一个副本,各节点可单独针对所存储的网页验证是否最新,并执行更新;或由一个代表节点对网页验证是否最新,并通知其他存储该网页的节点执行更新或将网页直接发送到这些节点。
实施例1
参考图4网页爬虫的协作采集系统简图,本实施例提供的网页爬虫协作方法包括如下步骤:
1)计算设备上线后,向管理服务器注册;之后每隔一定时间(比如30秒),管理服务器轮询各计算设备,查询在线状态;
2)管理服务器依据计算设备的信息(如所在网络、在线历史)划分成若干采集组(比如,以周(7天)为周期,则采集组数=168/采集组在线时间长度);
3)管理服务器将各采集组的信息发送到计算设备,各计算设备依据该信息自组成网;
4)每个采集组负责一定范围内网页的采集(比如依据域名.com、.edu等),并在网页分析过程中将不由本采集组负责采集的网页标识发送到对应采集组,这里利用的是采集组间消息交换的方法;另外,若要覆盖全时段范围的采集,则需要每个采集组负责采集所有网页;
5)网页被采集后,在本采集组内同时至少有两个存活节点,这些节点都要存储被采集的网页;各节点可单独针对所存储的网页验证是否最新,并执行更新;或由一个代表节点对网页验证是否最新,并通知其他存储该网页的节点执行更新或将网页直接发送到这些节点。
如上步骤1-2是网页爬虫节点形成采集组的方法,步骤3-4是采集组间消息交换的方法,步骤5是被采集网页的存储方法。
下面结合图4,说明网页爬虫协作方法。如图4所示,本发明提供一个网页爬虫协作采集系统简图:在这里我们仅示意给出两个网络——网络1和网络2,每个网络有4种不同计算设备,同时系统中还有一台管理服务器。
假定网络1和网络2中的计算设备上线后,各计算设备向管理服务器注册,之后管理服务器轮询设备状态;据此统计得出如图1所示的设备在线规律,该图中所示的采集组1的2台示意的计算节点在预设的7天周期的时间段上从t1到t2的子时间段均在线,其中的采集组1的在线时间段取2台计算节点在线时间段的交集;并将各设备分成两个采集组——采集组1和采集组2,这两个采集组可以实现一个周期(7天)的连续在线。假设采集组1负责采集网站1,并在所采集到的网页分析时,发现网站2,且网站2不是本采集组的采集任务,则其中一个计算设备将采集网站2的任务依据采集组间消息交换的方法(见图2)发送到采集组2。
在采集网页i后,采集组1中的计算节点1将网页i发往该组内的计算节点2(它们是计算节点1的备份节点),由计算节点2存储网页i,这样达到冗余存储的目的,见图3。在这里,网页i的更新可由计算节点1负责,并将更新通知计算节点2。
需要说明的是,以上介绍的本发明的实施方案而并非限制。本领域的技术人员应当理解,任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。

Claims (6)

1.一种网页爬虫协作方法,用于多种网络环境下存在大量网页爬虫情况下的协作,所述的方法步骤如下:
步骤1,将一设定周期中某段时间同时在线的爬虫节点划分为一采集组,且各爬虫节点被划分的所有采集组的在线时间段相连接能实现一个周期的连续在线;
步骤2,以所述采集组为单位进行网页采集,且各采集组间还通过消息交换的方法协作实现设定周期内对网页内容的不间断采集;
步骤3,所述每个采集组内的若干爬虫节点协作存储该采集组所采集的网页;
其中,所述采集组包含两个以上的采集节点。
2.根据权利要求1所述的网页爬虫协作方法,其特征在于,所述每个采集组采用自动生成或配置的方式得到对应于该采集组的ID号。
3.根据权利要求1所述的网页爬虫协作方法,其特征在于,所述消息交换方法为:各采集组形成一个路由网络,节点依据路由信息表将信令或消息发送到另一个采集组;
其中,所述路由网络中的路由协议可采用IP网络路由中的路由协议,或对等网络中的各种DHT协议。
4.根据权利要求1所述的网页爬虫协作方法,其特征在于,所述消息交换方法为:中心控制消息交换方法,该方法的发送消息的节点向其所在网络的中心控制节点询问目的采集组对应的ID信息,在得到该信息后,以此信息为目的地发送消息。
5.根据权利要求1所述的网页爬虫协作方法,其特征在于,所述协作存储为:被采集的网页在与该采集节点位于同一采集组内的各爬虫节点上分别保存被采集网页的副本,所述各副本存储节点能单独针对所存储的网页验证是否最新,并执行更新;或由所有副本存储节点中的一个代表节点对网页验证是否最新,并通知其他存储该网页的副本节点执行更新或将被采集的网页直接发送到副本存放节点。
6.根据权利要求1所述的网页爬虫协作方法,其特征在于,所述步骤1进一步包含如下步骤:
爬虫节点上线后,向管理服务器注册,之后每隔一定时间,管理服务器轮询各爬虫节点设备,查询其在线状态;
管理服务器依据爬虫节点的在线信息将所有爬虫节点划分成若干采集组;
管理服务器将各采集组的信息反馈到爬虫节点,各爬虫节点依据该信息自组成网;
其中,所述爬虫节点的信息包含该节点所在网络和/或在线历史信息。
CN201110375264.1A 2010-11-26 2011-11-23 一种网页爬虫协作方法 Expired - Fee Related CN102480524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110375264.1A CN102480524B (zh) 2010-11-26 2011-11-23 一种网页爬虫协作方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010567854.X 2010-11-26
CN201010567854 2010-11-26
CN201110375264.1A CN102480524B (zh) 2010-11-26 2011-11-23 一种网页爬虫协作方法

Publications (2)

Publication Number Publication Date
CN102480524A CN102480524A (zh) 2012-05-30
CN102480524B true CN102480524B (zh) 2014-09-10

Family

ID=46093003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110375264.1A Expired - Fee Related CN102480524B (zh) 2010-11-26 2011-11-23 一种网页爬虫协作方法

Country Status (1)

Country Link
CN (1) CN102480524B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2790479C (en) * 2012-09-24 2020-12-15 Ibm Canada Limited - Ibm Canada Limitee Partitioning a search space for distributed crawling
CN106484886A (zh) * 2016-10-17 2017-03-08 金蝶软件(中国)有限公司 一种数据采集的方法及其相关设备
CN106776934B (zh) * 2016-11-30 2021-03-26 努比亚技术有限公司 一种移动终端及网络爬虫的实现方法
CN112380418B (zh) * 2020-12-31 2021-07-16 金服软件(广州)有限公司 一种基于网络爬虫的数据处理方法、系统及云平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601528A (zh) * 2003-09-25 2005-03-30 微软公司 用于基于客户机的web蠕动的系统和方法
CN1680938A (zh) * 2004-02-12 2005-10-12 微软公司 决策论web爬行探测和预测网页改变
CN1716255A (zh) * 2004-07-01 2006-01-04 微软公司 通过使用页类别信息分散搜索引擎结果
CN101764807A (zh) * 2009-12-16 2010-06-30 北京邮电大学 基于元搜索引擎的多源下载互联网资源的装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601528A (zh) * 2003-09-25 2005-03-30 微软公司 用于基于客户机的web蠕动的系统和方法
CN1680938A (zh) * 2004-02-12 2005-10-12 微软公司 决策论web爬行探测和预测网页改变
CN1716255A (zh) * 2004-07-01 2006-01-04 微软公司 通过使用页类别信息分散搜索引擎结果
CN101764807A (zh) * 2009-12-16 2010-06-30 北京邮电大学 基于元搜索引擎的多源下载互联网资源的装置及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
分布式网络爬虫系统的任务调度策略改进;吴小惠;《上饶师范学院学报》;20100630;第30卷(第3期);第3-5部分,附图2 *
叶允明等.《分布式Web Crawler的研究:结构、算法和策略》.《电子学报》.2002,(第12A期), *
吴小惠.分布式网络爬虫系统的任务调度策略改进.《上饶师范学院学报》.2010,第30卷(第3期),

Also Published As

Publication number Publication date
CN102480524A (zh) 2012-05-30

Similar Documents

Publication Publication Date Title
US9961164B2 (en) DNS overriding-based methods of accelerating content delivery
CN105407180B (zh) 服务器的消息推送方法和装置
CN101854338B (zh) 订户设备及其订阅管理方法、实时通信方法和系统
US9130970B2 (en) Systems for accelerating content delivery via DNS overriding
CN101729412B (zh) 地理信息服务的分布式层次集群方法和系统
CN102783090A (zh) 用于多核系统中的对象速率限制的系统和方法
Zhao et al. Dynatops: A dynamic topic-based publish/subscribe architecture
CN1954559A (zh) 网络节点群集的冗余路由能力
CN1992666A (zh) 虚拟专用网络发布-订制多播服务
CN102882762A (zh) 一种在多页面间同步聊天状态信息的方法及系统
CN101741885A (zh) 分布式系统及分布式系统处理任务流的方法
CN102143237A (zh) 一种基于网格的互联网内容分发方法和系统
CN102480524B (zh) 一种网页爬虫协作方法
CN103248645A (zh) Bt离线数据下载系统及方法
Xu et al. Scaling microblogging services with divergent traffic demands
CN103166980A (zh) 互联网数据拉取方法和系统
CN106357723A (zh) 一种基于云主机的多集群缓存信息同步系统和方法
CN109525590A (zh) 数据包的传输方法及装置
CN103259866A (zh) 一种多点传输dns区文件的方法和系统
CN110740355A (zh) 设备监测方法、装置、电子设备及存储介质
CN102291458B (zh) 一种p2p服务器架构方法
CN103457976A (zh) 数据下载方法和系统
CN109831473A (zh) 物流服务提供方法及设备
CN102037711A (zh) 在对等网络中限制存储消息
CN102497402B (zh) 一种内容注入方法及系统、内容分发方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140910

Termination date: 20171123