CN102902669A - 基于互联网系统的分布式信息抓取方法 - Google Patents

基于互联网系统的分布式信息抓取方法 Download PDF

Info

Publication number
CN102902669A
CN102902669A CN2011102060639A CN201110206063A CN102902669A CN 102902669 A CN102902669 A CN 102902669A CN 2011102060639 A CN2011102060639 A CN 2011102060639A CN 201110206063 A CN201110206063 A CN 201110206063A CN 102902669 A CN102902669 A CN 102902669A
Authority
CN
China
Prior art keywords
reptile
data
internet
machine
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102060639A
Other languages
English (en)
Other versions
CN102902669B (zh
Inventor
吴志祥
张海龙
马和平
王专
吴剑
郭凤林
王晓钟
庞绍进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongcheng Network Technology Co Ltd
Original Assignee
Tongcheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongcheng Network Technology Co Ltd filed Critical Tongcheng Network Technology Co Ltd
Priority to CN201110206063.9A priority Critical patent/CN102902669B/zh
Publication of CN102902669A publication Critical patent/CN102902669A/zh
Application granted granted Critical
Publication of CN102902669B publication Critical patent/CN102902669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的机器上,按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其特点是:爬虫在同一个局域网里运行,通过高速网络连接相互通信;所述的爬虫通过同一个网络去访问外部互联网,下载网页;所有的网络负载都集中在爬虫所在的那个局域网的出口上;爬虫工作方式包括主从模式、自治模式与混合模式。由此,更方便的网络抓取,信息抓取速度快,效率高,容错性好。同时,升级方便,方便维护。再者可以自由添加减少爬虫机器。

Description

基于互联网系统的分布式信息抓取方法
技术领域
本发明涉及一种信息抓取方法,尤其涉及一种基于互联网系统的分布式信息抓取方法。
背景技术
1、什么是信息抓取, 网络爬虫及其发展
信息抓取是将需要的信息从其它网站中抓取出来保存到设计的数据库中的过程,又称网络爬虫、网页蜘蛛、网络机器人,是搜索引擎的重要组成部分。它是一个自动抓取网页内容的程序,为搜索引擎从因特上快速批量下载处理网页。传统的网页爬虫是从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,才结束抓取进程。
2、什么是分布式抓取,及其分类,体系结构
随着互联网信息的数据量成指数级增长,现有网络爬虫信息采集的速度越来越不能满足实际应用的需要。即使大型的信息采集系统对 Web的覆盖率也只有 30-40%,刷新一遍已经采集的页面常常需要数周到一个月的时间。解决这一问题的最好的办法是用分布式方式来进行网页信息采集。分布式网络爬虫可以看成由多个集中式网络爬虫组合而成。分布式系统中的每个节点都可以看作一个集中式网络爬虫。多个网络爬虫共同运行,肯定会涉及到各个节点间相互通信。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于互联网系统的分布式信息抓取方法
本发明的目的通过以下技术方案来实现:
基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的主机上,按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其中:所述的爬虫在同一个局域网里运行,通过高速网络连接相互通信;所述的爬虫通过同一个网络去访问外部互联网,下载网页;所有的网络负载都集中在爬虫所在的那个局域网的出口上;所述的爬虫工作方式包括主从模式、自治模式与混合模式。
上述的基于互联网系统的分布式信息抓取方法,其中:所述的主从模式是由一台主机作为控制节点负责所有运行爬虫的主机进行管理,爬虫从控制节点接收任务,并把新生成任务提交给控制节点,且不与其他爬虫通信;所述的控制节点与所有爬虫进行通信,采用一个地址列表来保存系统中所有爬虫的信息;当系统中的爬虫数量发生变化时,协调者需要更新地址列表里的数据,这一过程对于系统中的爬虫是透明的。
进一步地,上述的基于互联网系统的分布式信息抓取方法,其中:所述的自治模式为,系统中没有协调者,所有的爬虫都必须相互通信,自治模式的通信方式使用全连接通信或环形通信。
更进一步地,上述的基于互联网系统的分布式信息抓取方法,其中:所述的全连接通信是指所用爬虫都相互发送信息,每个爬虫会维护一个地址列表,表中存储着整个系统中所有爬虫的位置,每次通信时直接把数据发送给需要此数据的爬虫;当系统中的爬虫数量发生变化时,每个爬虫的地址列表都需要进行更新。
更进一步地,上述的基于互联网系统的分布式信息抓取方法,其中:所述的环形通信是指爬虫在逻辑上构成一个环形网,数据在环上按顺时针或逆时针单向传输,每个爬虫的地址列表中只保存其前驱和后继的信息;爬虫接收到数据之后判断数据是否是发送给自己的,如果数据不是发送给自己的,就把数据转发给后继;如果数据是发送给自己的,就不再发送;设整个系统中有n个爬虫,当系统中的爬虫数量发生变化时,系统中只有n-1个爬虫的地址列表需要进行更新。
更进一步地,上述的基于互联网系统的分布式信息抓取方法,其中:所述的混合模式为爬虫相互通信,同时都具有任务分配功能;至少有一个特殊爬虫,该特殊爬虫主要对已经经过爬虫任务分配后无法分配的任务进行集中分配;所述的特殊爬虫需除了保存自己采集范围的地址列表外,还保存需要进行集中分配的地址列表。
更进一步地,上述的基于互联网系统的分布式信息抓取方法,其中:所述的主机是指能够运行抓取程序的计算机,包括普通pc机或是服务器。
再进一步地,上述的基于互联网系统的分布式信息抓取方法,其中:所述定制的管理机制为任务控制分发机制,各抓取机器每隔一段时间,将收集来的URL传送到中央主机的URL列表库里,再由中央主机来分发抓取的URL链接。
本发明技术方案的优点主要体现在:分布式信息抓取可以比传统的爬虫可以提供更快,更方便的网络抓取,其优点有如下几点:1、信息抓取速度快,效率高,容错性好;2、升级方便;3、插件管理,方便维护;4、系统可以自由添加减少爬虫机器。
附图说明
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。这些附图当中,
图1是主从模式爬虫工作方式示意图;
图2是自治模式爬虫工作方式示意图;
图3是混合模式爬虫工作方式示意图。
具体实施方式
〖实施例一〗
基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的普通pc机中,按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其特别之处在于:本发明所采用的爬虫在同一个局域网里运行,通过高速网络连接相互通信。具体来说,所述的爬虫通过同一个网络去访问外部互联网,下载网页。同时,所有的网络负载都集中在爬虫所在的那个局域网的出口上。
进一步来看,本发明所采用的爬虫工作方式为主从模式,即如图1所示。其由一台主机作为控制节点负责所有运行爬虫的主机进行管理,爬虫从控制节点接收任务,并把新生成任务提交给控制节点,且不与其他爬虫通信。
图1中,控制节点与爬行节点的关系是爬虫节点依附于控制节点,是主从关系,爬虫节点每隔一段时间就主动报告其抓取情况和进程,也可以向中央主机请求抓取任务,如果减少爬行节点,则应将爬行节点抓取的数据上传到中央主机上,这个工作可以由控制节点完成,也可以由爬行节点完成。完成数据的上传,爬行节点可以退出爬虫,控制节点也关闭这个机器的连接。新添加爬行节点时,爬虫节点应主动向配置的中央主机发送心跳信息,并报告自身的情况,中央主机在接收到新的心跳时,判断处理后新分配任务给抓取机器进行抓取。如果爬行节点在没有完成数据上传的情况就发生宕机,或其它不可恢复的情况,中央主机与其失去联系,此时中央主机在一段时间内检测多次仍不能有效沟通的情况,中央主机则认为该爬行节点发生故障,应将其从爬行机器列表中关闭,根据任务分配列表,提取到分配给该爬行节点的任务, 重新放到待抓取url库里,重新分发给其它抓取机器进行抓取。
再进一步来看,控制节点与所有爬虫进行通信,采用一个地址列表来保存系统中所有爬虫的信息;当系统中的爬虫数量发生变化时,协调者需要更新地址列表里的数据,这一过程对于系统中的爬虫是透明的。
就本实施例来看,所采用的定制的管理机制为任务控制分发机制,其为了能够有效避免各抓取机器产生重复性的抓取,需要各抓取机器抓提取得来的新url地址收集,每隔一段时间(比如五分钟),将收集来的URL传送到中央主机的URL列表库里,再由中央主机来分发抓取的URL链接,各抓取机器只能抓取中央主机分配下来的url。
具体来说就算是抓取机器新抓取提取得来的url,除非是以属于分配下的url同域名下的网址,其它则不能自行分配抓取,必须上传到中央主机,由其中央主机分配抓取任务。并且,中央主机每隔一段时间,查看url库里的新的url,分发给各抓取机器,并作记录。同时,各抓取机器不断的检测其机器上的url库,如果一旦有新url插入时就开始其抓取,如此往复,以不断的抓取新识别的网址信息,完成抓取;如果抓取机器里待抓取网址列表为空,则向中央主机请求抓取任务,在中央主机分配给抓取任务之前,抓取机器只能等待中央主机分发新的抓取任务。换句话说,中央主机为了提高各抓取机器的效率,应根据各抓取机器的性能情况,带宽速度等综合情况考虑,分配好相应抓取机器的抓取强度,以提高抓取机器的效率。
同时,中央主机在分配url抓取任务时,以域名为分隔点。同一个域名的url尽量分配在同一个抓取机器上进行,这样抓取机器在抓取时,如果新发现的url地址就属于该域名下,则这抓取机器不向中央主机报告直接抓取新发现的网页,当新发现的网址不属于分配下来的域名段时,抓取机器该向中央主机报告其新发现的url。之后,由中央主机分配url具体由哪个抓取机器负责抓取,各抓取机器最后向中央主机己抓取的url列表,数量,体积,抓取时间。这样,为以后更新提供依据,中央主机也同时积累URL域名库,以供下一次更新时的初始爬虫入口。
〖实施例二〗
基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的是服务器上,按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其特别之处在于:本发明所采用的爬虫在同一个局域网里运行,通过高速网络连接相互通信。具体来说,所述的爬虫通过同一个网络去访问外部互联网,下载网页。同时,所有的网络负载都集中在爬虫所在的那个局域网的出口上。
进一步来看,本发明所采用的爬虫工作方式为自治模式,即如图2所示。该系统中没有协调者,所有的爬虫都必须相互通信,自治模式的通信方式使用全连接通信或环形通信。
图2中,控制节点与爬行节点的关系是爬虫节点依附于控制节点,是主从关系,爬虫节点每隔一段时间就主动报告其抓取情况和进程,也可以向中央主机请求抓取任务,如果减少爬行节点,则应将爬行节点抓取的数据上传到中央主机上,这个工作可以由控制节点完成,也可以由爬行节点完成。完成数据的上传,爬行节点可以退出爬虫,控制节点也关闭这个机器的连接。新添加爬行节点时,爬虫节点应主动向配置的中央主机发送心跳信息,并报告自身的情况,中央主机在接收到新的心跳时,判断处理后新分配任务给抓取机器进行抓取。如果爬行节点在没有完成数据上传的情况就发生宕机,或其它不可恢复的情况,中央主机与其失去联系,此时中央主机在一段时间内检测多次仍不能有效沟通的情况,中央主机则认为该爬行节点发生故障,应将其从爬行机器列表中关闭,根据任务分配列表,提取到分配给该爬行节点的任务, 重新放到待抓取url库里,重新分发给其它抓取机器进行抓取。
具体来说,全连接通信是指所用爬虫都相互发送信息,每个爬虫会维护一个地址列表,表中存储着整个系统中所有爬虫的位置,每次通信时直接把数据发送给需要此数据的爬虫。当系统中的爬虫数量发生变化时,每个爬虫的地址列表都需要进行更新。同时,关于环形通信是指爬虫在逻辑上构成一个环形网,数据在环上按顺时针或逆时针单向传输,每个爬虫的地址列表中只保存其前驱和后继的信息。爬虫接收到数据之后判断数据是否是发送给自己的,如果数据不是发送给自己的,就把数据转发给后继。如果数据是发送给自己的,就不再发送。并且,可以设整个系统中有n个爬虫,当系统中的爬虫数量发生变化时,系统中只有n-1个爬虫的地址列表需要进行更新。
本实施例采用的定制的管理机制与实施例一雷同,在此不在赘述。
〖实施例三〗
基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的主机上, 所述的主机是指能够运行抓取程序的计算机,包括普通pc机或是服务器。
按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其特别之处在于:本发明所采用的爬虫在同一个局域网里运行,通过高速网络连接相互通信。具体来说,所述的爬虫通过同一个网络去访问外部互联网,下载网页。同时,所有的网络负载都集中在爬虫所在的那个局域网的出口上。
进一步来看,本发明所采用的爬虫工作方式为混合模式,即如图3所示。具体来说,该方式所采用的为爬虫相互通信,同时都具有任务分配功能。并且,在所述的爬虫中至少有一个特殊爬虫,该特殊爬虫主要对已经经过爬虫任务分配后无法分配的任务进行集中分配;所述的特殊爬虫需除了保存自己采集范围的地址列表外,还保存需要进行集中分配的地址列表。
本实施例采用的定制的管理机制与实施例一雷同,在此不在赘述。
通过上述的文字表述可以看出,采用本发明后,分布式信息抓取可以比传统的爬虫可以提供更快,更方便的网络抓取,其优点有如下几点:1、信息抓取速度快,效率高,容错性好;2、升级方便;3、插件管理,方便维护;4、系统可以自由添加减少爬虫机器。

Claims (8)

1.基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的主机上,按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其特征在于:所述的爬虫在同一个局域网里运行,通过高速网络连接相互通信;所述的爬虫通过同一个网络去访问外部互联网,下载网页;所有的网络负载都集中在爬虫所在的那个局域网的出口上;所述的爬虫工作方式包括主从模式、自治模式与混合模式。
2.根据权利要求1所述的基于互联网系统的分布式信息抓取方法,其特征在于:所述的主从模式是由一台主机作为控制节点负责所有运行爬虫的主机进行管理,爬虫从控制节点接收任务,并把新生成任务提交给控制节点,且不与其他爬虫通信;所述的控制节点与所有爬虫进行通信,采用一个地址列表来保存系统中所有爬虫的信息;当系统中的爬虫数量发生变化时,协调者需要更新地址列表里的数据,这一过程对于系统中的爬虫是透明的。
3.根据权利要求1所述的基于互联网系统的分布式信息抓取方法,其特征在于:所述的自治模式为,系统中没有协调者,所有的爬虫都必须相互通信,自治模式的通信方式使用全连接通信或环形通信。
4.根据权利要求3所述的基于互联网系统的分布式信息抓取方法,其特征在于:所述的全连接通信是指所用爬虫都相互发送信息,每个爬虫会维护一个地址列表,表中存储着整个系统中所有爬虫的位置,每次通信时直接把数据发送给需要此数据的爬虫;当系统中的爬虫数量发生变化时,每个爬虫的地址列表都需要进行更新。
5.根据权利要求3所述的基于互联网系统的分布式信息抓取方法,其特征在于:所述的环形通信是指爬虫在逻辑上构成一个环形网,数据在环上按顺时针或逆时针单向传输,每个爬虫的地址列表中只保存其前驱和后继的信息;爬虫接收到数据之后判断数据是否是发送给自己的,如果数据不是发送给自己的,就把数据转发给后继;如果数据是发送给自己的,就不再发送;设整个系统中有n个爬虫,当系统中的爬虫数量发生变化时,系统中只有n-1个爬虫的地址列表需要进行更新。
6.根据权利要求1所述的基于互联网系统的分布式信息抓取方法,其特征在于:所述的混合模式为爬虫相互通信,同时都具有任务分配功能;至少有一个特殊爬虫,该特殊爬虫主要对已经经过爬虫任务分配后无法分配的任务进行集中分配;所述的特殊爬虫需除了保存自己采集范围的地址列表外,还保存需要进行集中分配的地址列表。
7.根据权利要求1所述的基于互联网系统的分布式信息抓取方法,其特征在于:所述的主机是指能够运行抓取程序的计算机,包括普通pc机或是服务器。
8.根据权利要求1所述的基于互联网系统的分布式信息抓取方法,其特征在于:所述定制的管理机制为任务控制分发机制,各抓取机器每隔一段时间,将收集来的URL传送到中央主机的URL列表库里,再由中央主机来分发抓取的URL链接。
CN201110206063.9A 2011-07-22 2011-07-22 基于互联网系统的分布式信息抓取方法 Active CN102902669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110206063.9A CN102902669B (zh) 2011-07-22 2011-07-22 基于互联网系统的分布式信息抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110206063.9A CN102902669B (zh) 2011-07-22 2011-07-22 基于互联网系统的分布式信息抓取方法

Publications (2)

Publication Number Publication Date
CN102902669A true CN102902669A (zh) 2013-01-30
CN102902669B CN102902669B (zh) 2016-08-17

Family

ID=47574909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110206063.9A Active CN102902669B (zh) 2011-07-22 2011-07-22 基于互联网系统的分布式信息抓取方法

Country Status (1)

Country Link
CN (1) CN102902669B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491165A (zh) * 2013-09-22 2014-01-01 复旦大学 自动检测屏蔽的通用分布式爬虫系统
CN103997524A (zh) * 2014-05-21 2014-08-20 浪潮电子信息产业股份有限公司 高可用、高可扩展、分布式的模块化网络爬虫
CN104866555A (zh) * 2015-05-15 2015-08-26 浪潮软件集团有限公司 一种基于网络爬虫的自动化采集方法
CN105515815A (zh) * 2014-10-17 2016-04-20 任子行网络技术股份有限公司 一种基于Heritrix爬虫的分布式采集方法及系统
CN106294393A (zh) * 2015-05-20 2017-01-04 天脉聚源(北京)科技有限公司 一种网络搜索的方法和系统
CN106339385A (zh) * 2015-07-08 2017-01-18 阿里巴巴集团控股有限公司 抓取网页的系统、网页抓取节点分配方法、抓取网页的方法
CN106502802A (zh) * 2016-10-12 2017-03-15 山东浪潮云服务信息科技有限公司 一种基于Avro RPC传输的分布式云端并发采集方法
CN106874284A (zh) * 2015-12-11 2017-06-20 北京金山安全软件有限公司 信息抓取方法、装置、中央控制节点设备及分布式系统
CN107066530A (zh) * 2017-03-01 2017-08-18 苏州朗动网络科技有限公司 一种数据刷新系统及数据刷新方法
CN107241319A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN110059235A (zh) * 2018-12-19 2019-07-26 远光软件股份有限公司 一种党建信息资源抓取、分发、推送方法和系统
CN111522654A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 分布式爬虫的调度处理方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴小惠: "《分布式网络爬虫系统的任务调度策略改进》", 《上饶师范学院学报》 *
苏旋: "《分布式网络爬虫技术的研究与实现》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491165B (zh) * 2013-09-22 2017-04-12 复旦大学 自动检测屏蔽的通用分布式爬虫系统
CN103491165A (zh) * 2013-09-22 2014-01-01 复旦大学 自动检测屏蔽的通用分布式爬虫系统
CN103997524A (zh) * 2014-05-21 2014-08-20 浪潮电子信息产业股份有限公司 高可用、高可扩展、分布式的模块化网络爬虫
CN105515815B (zh) * 2014-10-17 2018-11-06 任子行网络技术股份有限公司 一种基于Heritrix爬虫的分布式采集方法及系统
CN105515815A (zh) * 2014-10-17 2016-04-20 任子行网络技术股份有限公司 一种基于Heritrix爬虫的分布式采集方法及系统
CN104866555A (zh) * 2015-05-15 2015-08-26 浪潮软件集团有限公司 一种基于网络爬虫的自动化采集方法
CN106294393A (zh) * 2015-05-20 2017-01-04 天脉聚源(北京)科技有限公司 一种网络搜索的方法和系统
CN106339385A (zh) * 2015-07-08 2017-01-18 阿里巴巴集团控股有限公司 抓取网页的系统、网页抓取节点分配方法、抓取网页的方法
CN106339385B (zh) * 2015-07-08 2020-06-16 阿里巴巴集团控股有限公司 抓取网页的系统、网页抓取节点分配方法、抓取网页的方法
CN106874284A (zh) * 2015-12-11 2017-06-20 北京金山安全软件有限公司 信息抓取方法、装置、中央控制节点设备及分布式系统
CN106502802A (zh) * 2016-10-12 2017-03-15 山东浪潮云服务信息科技有限公司 一种基于Avro RPC传输的分布式云端并发采集方法
CN107066530A (zh) * 2017-03-01 2017-08-18 苏州朗动网络科技有限公司 一种数据刷新系统及数据刷新方法
CN107241319A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN107241319B (zh) * 2017-05-26 2020-06-02 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN110059235A (zh) * 2018-12-19 2019-07-26 远光软件股份有限公司 一种党建信息资源抓取、分发、推送方法和系统
CN111522654A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 分布式爬虫的调度处理方法、装置及设备

Also Published As

Publication number Publication date
CN102902669B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN102902669A (zh) 基于互联网系统的分布式信息抓取方法
CN106126346B (zh) 一种大规模分布式数据采集系统及方法
CN101252471B (zh) 一种分布式自动化测试系统及其方法
CN104852845B (zh) 一种物联网智能网关
CN104699736B (zh) 一种分布式的基于可移动设备的大规模数据采集系统及方法
CN105635283A (zh) 一种云制造服务的组织管理和使用方法和系统
CN103439629A (zh) 基于数据网格的配电网故障诊断系统
CN102236340B (zh) 一种多设备管理方法和装置
CN104506348A (zh) 一种自动化发现并配置监控对象的方法
CN108009258A (zh) 一种可在线配置的数据采集与分析平台
CN101753404A (zh) 网络资源的下载方法
CN103199968A (zh) 一种消息的发送方法和系统
CN101702121A (zh) Windows系统中程序网络流速控制装置
CN113900794A (zh) 一种工业数据采集平台及方法
CN106375480A (zh) 一种基于分布式系统的电能数据实时采集系统及方法
CN101552734A (zh) 非自动多出口路由选择方法
CN103795575A (zh) 一种面向多数据中心的系统监控方法
CN103546572A (zh) 一种云存储装置以及多云存储联网系统和方法
CN103488697B (zh) 能自动收集和交换碎片化商业信息的系统及移动终端
CN101945138B (zh) 一种利用移动Agent实现鲜花订单智能处理的系统
CN102148702B (zh) 一种使用网络配置协议进行网络管理的方法
CN104410511A (zh) 一种服务器管理方法及系统
CN106777265A (zh) 一种业务数据的处理方法及装置
CN106570011A (zh) 一种分布式爬虫url种子分发方法、调度节点及抓取节点
KR20130068248A (ko) 군집 로봇의 네트워크 토폴로지 구성 방법과 라우팅 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant