CN102902669A

CN102902669A - 基于互联网系统的分布式信息抓取方法

Info

Publication number: CN102902669A
Application number: CN2011102060639A
Authority: CN
Inventors: 吴志祥; 张海龙; 马和平; 王专; 吴剑; 郭凤林; 王晓钟; 庞绍进
Original assignee: Tongcheng Network Technology Co Ltd
Current assignee: Tongcheng Network Technology Co Ltd
Priority date: 2011-07-22
Filing date: 2011-07-22
Publication date: 2013-01-30
Anticipated expiration: 2031-07-22
Also published as: CN102902669B

Abstract

本发明涉及一种基于互联网系统的分布式信息抓取方法，将爬虫分布在两台或是两台以上的机器上，按照定制的管理机制同时负责抓取网络上的信息，由中央主机控制各抓取机器的抓取方向，然后将各抓取机器得到的数据进行整理汇总，形成有用的信息或是数据，放到索引库或是数据库中，其特点是：爬虫在同一个局域网里运行，通过高速网络连接相互通信；所述的爬虫通过同一个网络去访问外部互联网，下载网页；所有的网络负载都集中在爬虫所在的那个局域网的出口上；爬虫工作方式包括主从模式、自治模式与混合模式。由此，更方便的网络抓取，信息抓取速度快，效率高，容错性好。同时，升级方便，方便维护。再者可以自由添加减少爬虫机器。

Description

基于互联网系统的分布式信息抓取方法

技术领域

本发明涉及一种信息抓取方法，尤其涉及一种基于互联网系统的分布式信息抓取方法。

背景技术

1、什么是信息抓取，网络爬虫及其发展

信息抓取是将需要的信息从其它网站中抓取出来保存到设计的数据库中的过程，又称网络爬虫、网页蜘蛛、网络机器人，是搜索引擎的重要组成部分。它是一个自动抓取网页内容的程序，为搜索引擎从因特上快速批量下载处理网页。传统的网页爬虫是从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件，才结束抓取进程。

2、什么是分布式抓取，及其分类，体系结构

随着互联网信息的数据量成指数级增长，现有网络爬虫信息采集的速度越来越不能满足实际应用的需要。即使大型的信息采集系统对 Web的覆盖率也只有 30－40％，刷新一遍已经采集的页面常常需要数周到一个月的时间。解决这一问题的最好的办法是用分布式方式来进行网页信息采集。分布式网络爬虫可以看成由多个集中式网络爬虫组合而成。分布式系统中的每个节点都可以看作一个集中式网络爬虫。多个网络爬虫共同运行，肯定会涉及到各个节点间相互通信。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提供一种基于互联网系统的分布式信息抓取方法

本发明的目的通过以下技术方案来实现：

基于互联网系统的分布式信息抓取方法，将爬虫分布在两台或是两台以上的主机上，按照定制的管理机制同时负责抓取网络上的信息，由中央主机控制各抓取机器的抓取方向，然后将各抓取机器得到的数据进行整理汇总，形成有用的信息或是数据，放到索引库或是数据库中，其中：所述的爬虫在同一个局域网里运行，通过高速网络连接相互通信；所述的爬虫通过同一个网络去访问外部互联网，下载网页；所有的网络负载都集中在爬虫所在的那个局域网的出口上；所述的爬虫工作方式包括主从模式、自治模式与混合模式。

上述的基于互联网系统的分布式信息抓取方法，其中：所述的主从模式是由一台主机作为控制节点负责所有运行爬虫的主机进行管理，爬虫从控制节点接收任务，并把新生成任务提交给控制节点，且不与其他爬虫通信；所述的控制节点与所有爬虫进行通信，采用一个地址列表来保存系统中所有爬虫的信息；当系统中的爬虫数量发生变化时，协调者需要更新地址列表里的数据，这一过程对于系统中的爬虫是透明的。

进一步地，上述的基于互联网系统的分布式信息抓取方法，其中：所述的自治模式为，系统中没有协调者，所有的爬虫都必须相互通信，自治模式的通信方式使用全连接通信或环形通信。

更进一步地，上述的基于互联网系统的分布式信息抓取方法，其中：所述的全连接通信是指所用爬虫都相互发送信息，每个爬虫会维护一个地址列表，表中存储着整个系统中所有爬虫的位置，每次通信时直接把数据发送给需要此数据的爬虫；当系统中的爬虫数量发生变化时，每个爬虫的地址列表都需要进行更新。

更进一步地，上述的基于互联网系统的分布式信息抓取方法，其中：所述的环形通信是指爬虫在逻辑上构成一个环形网，数据在环上按顺时针或逆时针单向传输，每个爬虫的地址列表中只保存其前驱和后继的信息；爬虫接收到数据之后判断数据是否是发送给自己的，如果数据不是发送给自己的，就把数据转发给后继；如果数据是发送给自己的，就不再发送；设整个系统中有n个爬虫，当系统中的爬虫数量发生变化时，系统中只有n-1个爬虫的地址列表需要进行更新。

更进一步地，上述的基于互联网系统的分布式信息抓取方法，其中：所述的混合模式为爬虫相互通信，同时都具有任务分配功能；至少有一个特殊爬虫，该特殊爬虫主要对已经经过爬虫任务分配后无法分配的任务进行集中分配；所述的特殊爬虫需除了保存自己采集范围的地址列表外，还保存需要进行集中分配的地址列表。

更进一步地，上述的基于互联网系统的分布式信息抓取方法，其中：所述的主机是指能够运行抓取程序的计算机，包括普通pc机或是服务器。

再进一步地，上述的基于互联网系统的分布式信息抓取方法，其中：所述定制的管理机制为任务控制分发机制，各抓取机器每隔一段时间，将收集来的URL传送到中央主机的URL列表库里，再由中央主机来分发抓取的URL链接。

本发明技术方案的优点主要体现在：分布式信息抓取可以比传统的爬虫可以提供更快，更方便的网络抓取，其优点有如下几点：1、信息抓取速度快，效率高，容错性好；2、升级方便；3、插件管理，方便维护；4、系统可以自由添加减少爬虫机器。

附图说明

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。这些附图当中，

图1是主从模式爬虫工作方式示意图；

图2是自治模式爬虫工作方式示意图；

图3是混合模式爬虫工作方式示意图。

具体实施方式

〖实施例一〗

基于互联网系统的分布式信息抓取方法，将爬虫分布在两台或是两台以上的普通pc机中，按照定制的管理机制同时负责抓取网络上的信息，由中央主机控制各抓取机器的抓取方向，然后将各抓取机器得到的数据进行整理汇总，形成有用的信息或是数据，放到索引库或是数据库中，其特别之处在于：本发明所采用的爬虫在同一个局域网里运行，通过高速网络连接相互通信。具体来说，所述的爬虫通过同一个网络去访问外部互联网，下载网页。同时，所有的网络负载都集中在爬虫所在的那个局域网的出口上。

进一步来看，本发明所采用的爬虫工作方式为主从模式，即如图1所示。其由一台主机作为控制节点负责所有运行爬虫的主机进行管理，爬虫从控制节点接收任务，并把新生成任务提交给控制节点，且不与其他爬虫通信。

图1中，控制节点与爬行节点的关系是爬虫节点依附于控制节点，是主从关系，爬虫节点每隔一段时间就主动报告其抓取情况和进程，也可以向中央主机请求抓取任务，如果减少爬行节点，则应将爬行节点抓取的数据上传到中央主机上，这个工作可以由控制节点完成，也可以由爬行节点完成。完成数据的上传，爬行节点可以退出爬虫，控制节点也关闭这个机器的连接。新添加爬行节点时，爬虫节点应主动向配置的中央主机发送心跳信息，并报告自身的情况，中央主机在接收到新的心跳时，判断处理后新分配任务给抓取机器进行抓取。如果爬行节点在没有完成数据上传的情况就发生宕机，或其它不可恢复的情况，中央主机与其失去联系，此时中央主机在一段时间内检测多次仍不能有效沟通的情况，中央主机则认为该爬行节点发生故障，应将其从爬行机器列表中关闭，根据任务分配列表，提取到分配给该爬行节点的任务, 重新放到待抓取url库里,重新分发给其它抓取机器进行抓取。

再进一步来看，控制节点与所有爬虫进行通信，采用一个地址列表来保存系统中所有爬虫的信息；当系统中的爬虫数量发生变化时，协调者需要更新地址列表里的数据，这一过程对于系统中的爬虫是透明的。

就本实施例来看，所采用的定制的管理机制为任务控制分发机制，其为了能够有效避免各抓取机器产生重复性的抓取，需要各抓取机器抓提取得来的新url地址收集，每隔一段时间（比如五分钟），将收集来的URL传送到中央主机的URL列表库里，再由中央主机来分发抓取的URL链接，各抓取机器只能抓取中央主机分配下来的url。

具体来说就算是抓取机器新抓取提取得来的url，除非是以属于分配下的url同域名下的网址，其它则不能自行分配抓取，必须上传到中央主机，由其中央主机分配抓取任务。并且，中央主机每隔一段时间，查看url库里的新的url，分发给各抓取机器，并作记录。同时，各抓取机器不断的检测其机器上的url库，如果一旦有新url插入时就开始其抓取，如此往复，以不断的抓取新识别的网址信息，完成抓取；如果抓取机器里待抓取网址列表为空，则向中央主机请求抓取任务，在中央主机分配给抓取任务之前，抓取机器只能等待中央主机分发新的抓取任务。换句话说，中央主机为了提高各抓取机器的效率，应根据各抓取机器的性能情况,带宽速度等综合情况考虑，分配好相应抓取机器的抓取强度，以提高抓取机器的效率。

同时，中央主机在分配url抓取任务时，以域名为分隔点。同一个域名的url尽量分配在同一个抓取机器上进行，这样抓取机器在抓取时，如果新发现的url地址就属于该域名下，则这抓取机器不向中央主机报告直接抓取新发现的网页，当新发现的网址不属于分配下来的域名段时，抓取机器该向中央主机报告其新发现的url。之后，由中央主机分配url具体由哪个抓取机器负责抓取，各抓取机器最后向中央主机己抓取的url列表，数量，体积，抓取时间。这样，为以后更新提供依据，中央主机也同时积累URL域名库，以供下一次更新时的初始爬虫入口。

〖实施例二〗

基于互联网系统的分布式信息抓取方法，将爬虫分布在两台或是两台以上的是服务器上，按照定制的管理机制同时负责抓取网络上的信息，由中央主机控制各抓取机器的抓取方向，然后将各抓取机器得到的数据进行整理汇总，形成有用的信息或是数据，放到索引库或是数据库中，其特别之处在于：本发明所采用的爬虫在同一个局域网里运行，通过高速网络连接相互通信。具体来说，所述的爬虫通过同一个网络去访问外部互联网，下载网页。同时，所有的网络负载都集中在爬虫所在的那个局域网的出口上。

进一步来看，本发明所采用的爬虫工作方式为自治模式，即如图2所示。该系统中没有协调者，所有的爬虫都必须相互通信，自治模式的通信方式使用全连接通信或环形通信。

图2中，控制节点与爬行节点的关系是爬虫节点依附于控制节点，是主从关系，爬虫节点每隔一段时间就主动报告其抓取情况和进程，也可以向中央主机请求抓取任务，如果减少爬行节点，则应将爬行节点抓取的数据上传到中央主机上，这个工作可以由控制节点完成，也可以由爬行节点完成。完成数据的上传，爬行节点可以退出爬虫，控制节点也关闭这个机器的连接。新添加爬行节点时，爬虫节点应主动向配置的中央主机发送心跳信息，并报告自身的情况，中央主机在接收到新的心跳时，判断处理后新分配任务给抓取机器进行抓取。如果爬行节点在没有完成数据上传的情况就发生宕机，或其它不可恢复的情况，中央主机与其失去联系，此时中央主机在一段时间内检测多次仍不能有效沟通的情况，中央主机则认为该爬行节点发生故障，应将其从爬行机器列表中关闭，根据任务分配列表，提取到分配给该爬行节点的任务, 重新放到待抓取url库里,重新分发给其它抓取机器进行抓取。

具体来说，全连接通信是指所用爬虫都相互发送信息，每个爬虫会维护一个地址列表，表中存储着整个系统中所有爬虫的位置，每次通信时直接把数据发送给需要此数据的爬虫。当系统中的爬虫数量发生变化时，每个爬虫的地址列表都需要进行更新。同时，关于环形通信是指爬虫在逻辑上构成一个环形网，数据在环上按顺时针或逆时针单向传输，每个爬虫的地址列表中只保存其前驱和后继的信息。爬虫接收到数据之后判断数据是否是发送给自己的，如果数据不是发送给自己的，就把数据转发给后继。如果数据是发送给自己的，就不再发送。并且，可以设整个系统中有n个爬虫，当系统中的爬虫数量发生变化时，系统中只有n-1个爬虫的地址列表需要进行更新。

本实施例采用的定制的管理机制与实施例一雷同，在此不在赘述。

〖实施例三〗

基于互联网系统的分布式信息抓取方法，将爬虫分布在两台或是两台以上的主机上，所述的主机是指能够运行抓取程序的计算机，包括普通pc机或是服务器。

按照定制的管理机制同时负责抓取网络上的信息，由中央主机控制各抓取机器的抓取方向，然后将各抓取机器得到的数据进行整理汇总，形成有用的信息或是数据，放到索引库或是数据库中，其特别之处在于：本发明所采用的爬虫在同一个局域网里运行，通过高速网络连接相互通信。具体来说，所述的爬虫通过同一个网络去访问外部互联网，下载网页。同时，所有的网络负载都集中在爬虫所在的那个局域网的出口上。

进一步来看，本发明所采用的爬虫工作方式为混合模式，即如图3所示。具体来说，该方式所采用的为爬虫相互通信，同时都具有任务分配功能。并且，在所述的爬虫中至少有一个特殊爬虫，该特殊爬虫主要对已经经过爬虫任务分配后无法分配的任务进行集中分配；所述的特殊爬虫需除了保存自己采集范围的地址列表外，还保存需要进行集中分配的地址列表。

通过上述的文字表述可以看出，采用本发明后，分布式信息抓取可以比传统的爬虫可以提供更快，更方便的网络抓取，其优点有如下几点：1、信息抓取速度快，效率高，容错性好；2、升级方便；3、插件管理，方便维护；4、系统可以自由添加减少爬虫机器。

Claims

1.基于互联网系统的分布式信息抓取方法，将爬虫分布在两台或是两台以上的主机上，按照定制的管理机制同时负责抓取网络上的信息，由中央主机控制各抓取机器的抓取方向，然后将各抓取机器得到的数据进行整理汇总，形成有用的信息或是数据，放到索引库或是数据库中，其特征在于：所述的爬虫在同一个局域网里运行，通过高速网络连接相互通信；所述的爬虫通过同一个网络去访问外部互联网，下载网页；所有的网络负载都集中在爬虫所在的那个局域网的出口上；所述的爬虫工作方式包括主从模式、自治模式与混合模式。

2.根据权利要求1所述的基于互联网系统的分布式信息抓取方法，其特征在于：所述的主从模式是由一台主机作为控制节点负责所有运行爬虫的主机进行管理，爬虫从控制节点接收任务，并把新生成任务提交给控制节点，且不与其他爬虫通信；所述的控制节点与所有爬虫进行通信，采用一个地址列表来保存系统中所有爬虫的信息；当系统中的爬虫数量发生变化时，协调者需要更新地址列表里的数据，这一过程对于系统中的爬虫是透明的。

3.根据权利要求1所述的基于互联网系统的分布式信息抓取方法，其特征在于：所述的自治模式为，系统中没有协调者，所有的爬虫都必须相互通信，自治模式的通信方式使用全连接通信或环形通信。

4.根据权利要求3所述的基于互联网系统的分布式信息抓取方法，其特征在于：所述的全连接通信是指所用爬虫都相互发送信息，每个爬虫会维护一个地址列表，表中存储着整个系统中所有爬虫的位置，每次通信时直接把数据发送给需要此数据的爬虫；当系统中的爬虫数量发生变化时，每个爬虫的地址列表都需要进行更新。

5.根据权利要求3所述的基于互联网系统的分布式信息抓取方法，其特征在于：所述的环形通信是指爬虫在逻辑上构成一个环形网，数据在环上按顺时针或逆时针单向传输，每个爬虫的地址列表中只保存其前驱和后继的信息；爬虫接收到数据之后判断数据是否是发送给自己的，如果数据不是发送给自己的，就把数据转发给后继；如果数据是发送给自己的，就不再发送；设整个系统中有n个爬虫，当系统中的爬虫数量发生变化时，系统中只有n-1个爬虫的地址列表需要进行更新。

6.根据权利要求1所述的基于互联网系统的分布式信息抓取方法，其特征在于：所述的混合模式为爬虫相互通信，同时都具有任务分配功能；至少有一个特殊爬虫，该特殊爬虫主要对已经经过爬虫任务分配后无法分配的任务进行集中分配；所述的特殊爬虫需除了保存自己采集范围的地址列表外，还保存需要进行集中分配的地址列表。

7.根据权利要求1所述的基于互联网系统的分布式信息抓取方法，其特征在于：所述的主机是指能够运行抓取程序的计算机，包括普通pc机或是服务器。

8.根据权利要求1所述的基于互联网系统的分布式信息抓取方法，其特征在于：所述定制的管理机制为任务控制分发机制，各抓取机器每隔一段时间，将收集来的URL传送到中央主机的URL列表库里，再由中央主机来分发抓取的URL链接。