CN107562541A - 一种负载均衡分布式的爬虫方法、爬虫系统 - Google Patents

一种负载均衡分布式的爬虫方法、爬虫系统 Download PDF

Info

Publication number
CN107562541A
CN107562541A CN201710790708.5A CN201710790708A CN107562541A CN 107562541 A CN107562541 A CN 107562541A CN 201710790708 A CN201710790708 A CN 201710790708A CN 107562541 A CN107562541 A CN 107562541A
Authority
CN
China
Prior art keywords
reptile
task
node
acquisition node
crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710790708.5A
Other languages
English (en)
Other versions
CN107562541B (zh
Inventor
曾伟英
霍智杰
徐国坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kejie Tong Mdt Infotech Ltd
Original Assignee
Guangdong Kejie Tong Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Kejie Tong Mdt Infotech Ltd filed Critical Guangdong Kejie Tong Mdt Infotech Ltd
Priority to CN201710790708.5A priority Critical patent/CN107562541B/zh
Publication of CN107562541A publication Critical patent/CN107562541A/zh
Application granted granted Critical
Publication of CN107562541B publication Critical patent/CN107562541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种负载均衡分布式的爬虫方法、爬虫系统,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点,包括系统分布式爬虫负载均衡过程:所述主服务器将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行。对各个所述爬虫采集节点的节点状态信息进行监控和分析,从而所述主服务器可及时对所述爬虫采集节点进行调配,避免出现部分爬虫采集节点处于空载状态,提高爬虫采集节点的整体利用率,减少资源浪费。

Description

一种负载均衡分布式的爬虫方法、爬虫系统
技术领域
本发明涉及网络搜索领域,尤其涉及一种负载均衡分布式的爬虫方法、爬虫系统。
背景技术
目前的分布式爬虫中各个节点都只是负责单一的任务。当某一个单一任务需要等待另一个任务完成的时候,负责处理这个单一任务的节点就可能出现空闲情况,造成大量的资源浪费,搜索速度降低。因此,必须想出一种方法解决这种资源浪费的瓶颈情况,让分布式集群机器都处于一个合理利用资源的环境,让各个机器节点都能各司其职。
发明内容
本发明的目的在于提出一种可及时对所述爬虫采集节点进行调配,避免出现部分爬虫采集节点处于空载状态,提高爬虫采集节点的整体利用率,减少资源浪费的负载均衡分布式的爬虫方法、爬虫系统。
为达此目的,本发明采用以下技术方案:
一种负载均衡分布式的爬虫方法,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点,包括系统分布式爬虫负载均衡过程:
步骤A:所述主服务器将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;
步骤B:所述主服务器把请求页面任务和分析页面任务分发给不同的所述爬虫服务器,所述爬虫服务器再把自身接收到的任务分派给各个所述爬虫采集节点并对各个所述爬虫采集节点的节点状态信息进行监控;
步骤C:所述爬虫服务器收集并反馈各个所述爬虫采集节点的节点状态信息到所述主服务器;
步骤D:所述主服务器接收并分析所述爬虫服务器反馈的节点状态信息;若分析到所述爬虫采集节点的节点状态信息为空载状态,则所述主服务器调度任务给该爬虫采集节点。
优选地,所述步骤B中的爬虫服务器监控方法包括:
首先,各个所述爬虫采集节点执行被分派的任务,并发送自身的节点状态信息到对应的所述爬虫服务器;
然后,所述爬虫服务器对接收到的所述节点状态信息进行整理,并将整理后的所述节点状态信息实时发送至所述主服务器。
优选地,所述步骤D中所述主服务器分析调度方法包括:
首先,所述主服务器对接收到的多个所述节点状态信息进行整理;
然后,所述主服务器通过整理后的所述节点状态信息分析对应的爬虫采集节点是否处于空闲状态:
若不是则分析下一个所述节点状态信息;
若是则进一步分析所述爬虫采集节点原先负责的任务是请求页面任务还是分析页面任务:
若所述爬虫采集节点原先负责请求页面任务,则分配分析页面任务给所述爬虫采集节点;
若所述爬虫采集节点原先负责分析页面任务,则分配请求页面任务给所述爬虫采集节点。
优选地,还包括控制爬虫采集节点数量过程:
首先,所述主服务器对爬虫任务的分配情况进行检测;
若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点的节点状态信息:
若分析到存在若干个所述爬虫采集节点处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点;
若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点;
若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点的数量直至所有爬虫任务均被分配为止。
优选地,还包括重复分配过程:
所述主服务器将同一个请求页面任务或分析页面任务分配给多个爬虫服务器。
优选地,使用所述负载均衡分布式的爬虫方法的爬虫系统,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点;
所述主服务器被配置为:
将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;
把请求页面任务和分析页面任务分发给不同的所述爬虫服务器;
和接收并分析所述爬虫服务器反馈的节点状态信息;若分析到所述爬虫采集节点的节点状态信息为空载状态,则所述主服务器调度任务给该爬虫采集节点;
所述爬虫服务器被配置为:
把自身接收到的任务分派给各个所述爬虫采集节点并对各个所述爬虫采集节点的节点状态信息进行监控;
和收集并反馈各个所述爬虫采集节点的节点状态信息到所述主服务器;
所述爬虫采集节点被配置为:
执行被分派的任务,并发送自身的节点状态信息到所述爬虫服务器。
优选地,所述爬虫服务器还被配置为:
对接收到的所述节点状态信息进行整理,并将整理后的所述节点状态信息实时发送至所述主服务器。
优选地,所述主服务器还被配置为:
对接收到的多个所述节点状态信息进行整理;
通过整理后的所述节点状态信息分析对应的爬虫采集节点是否处于空闲状态:
若不是则分析下一个所述节点状态信息;
若是则进一步分析所述爬虫采集节点原先负责的任务是请求页面任务还是分析页面任务:
若所述爬虫采集节点原先负责请求页面任务,则分配分析页面任务给所述爬虫采集节点;
若所述爬虫采集节点原先负责分析页面任务,则分配请求页面任务给所述爬虫采集节点。
优选地,所述主服务器还被配置为:
对爬虫任务的分配情况进行检测;
若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点的节点状态信息:
若分析到存在若干个所述爬虫采集节点处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点;
若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点;
若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点的数量直至所有爬虫任务均被分配为止。
优选地,所述主服务器还被配置为:
将同一个请求页面任务或分析页面任务分配给多个爬虫服务器。
先通过主服务器将多个爬虫任务分配给其下属的多个爬虫服务器,所述爬虫服务器再将接收到的爬虫任务分配给其下属的多个爬虫采集节点。爬虫任务分解成请求页面任务和分析页面任务,爬虫采集节点循环交替进行请求页面任务和分析页面任务,提高分配灵活性和处理速度。对各个所述爬虫采集节点的节点状态信息进行监控和分析,从而所述主服务器可及时对所述爬虫采集节点进行调配,避免出现部分爬虫采集节点处于空载状态,提高爬虫采集节点的整体利用率,减少资源浪费。
附图说明
附图对本发明做进一步说明,但附图中的内容不构成对本发明的任何限制。
图1是本发明其中一个实施例的系统分布式爬虫负载均衡交互图;
图2是本发明其中一个实施例的爬虫服务器监控交互图;
图3是本发明其中一个实施例的主服务器分析调度流程图;
图4是本发明其中一个实施例的主服务器重复分配流程图。
其中:主服务器1;爬虫服务器2;爬虫采集节点3。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本实施例的负载均衡分布式的爬虫方法,如图1所示,包括主服务器1和多个与主服务器1互通的爬虫服务器2,每个所述爬虫服务器2的下游设置多个爬虫采集节点3,包括系统分布式爬虫负载均衡过程:
步骤A:所述主服务器1将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;
步骤B:所述主服务器1把请求页面任务和分析页面任务分发给不同的所述爬虫服务器2,所述爬虫服务器2再把自身接收到的任务分派给各个所述爬虫采集节点3并对各个所述爬虫采集节点3的节点状态信息进行监控;
步骤C:所述爬虫服务器2收集并反馈各个所述爬虫采集节点3的节点状态信息到所述主服务器1;
步骤D:所述主服务器1接收并分析所述爬虫服务器2反馈的节点状态信息;若分析到所述爬虫采集节点3的节点状态信息为空载状态,则所述主服务器1调度任务给该爬虫采集节点3。
所述负载均衡分布式的爬虫方法先通过主服务器1将多个爬虫任务分配给其下属的多个爬虫服务器2,所述爬虫服务器2再将接收到的爬虫任务分配给其下属的多个爬虫采集节点3。爬虫任务分解成请求页面任务和分析页面任务,爬虫采集节点3循环交替进行请求页面任务和分析页面任务,提高分配灵活性和处理速度。对各个所述爬虫采集节点3的节点状态信息进行监控和分析,从而所述主服务器1可及时对所述爬虫采集节点3进行调配,避免出现部分爬虫采集节点3处于空载状态,提高爬虫采集节点3的整体利用率,减少资源浪费。
优选地,如图2所示,所述步骤B中的爬虫服务器2监控方法包括:
首先,各个所述爬虫采集节点3执行被分派的任务,并发送自身的节点状态信息到对应的所述爬虫服务器2;然后,所述爬虫服务器2对接收到的所述节点状态信息进行整理,并将整理后的所述节点状态信息实时发送至所述主服务器1。这样的类似事件驱动的爬虫服务器2监控方法让主服务器1不再处于被动监控的局面,让所述节点状态信息更加实时化,更加准确,确保每一个所述节点状态信息能够及时被主服务器1监控到,以便主服务器1及时对爬虫服务器2做出任务调度,不会出现资源浪费的情况。
优选地,如图3所示,所述步骤D中所述主服务器1分析调度方法包括:
首先,所述主服务器1对接收到的多个所述节点状态信息进行整理;
然后,所述主服务器1通过整理后的所述节点状态信息分析对应的爬虫采集节点3是否处于空闲状态:
若不是则分析下一个所述节点状态信息;
若是则进一步分析所述爬虫采集节点3原先负责的任务是请求页面任务还是分析页面任务:
若所述爬虫采集节点3原先负责请求页面任务,则分配分析页面任务给所述爬虫采集节点3;
若所述爬虫采集节点3原先负责分析页面任务,则分配请求页面任务给所述爬虫采集节点3。
主服务器1把收集回来的节点状态信息加以分析,假如发现了有待爬取的节点状态信息时,就会针对不同节点状态信息发布新的不同的任务指令给该爬虫服务器2,做到合理发送新的任务指令给各个爬虫服务器2,让整个系统处于满负载的情况运行,合理利用好所有的资源。
优选地,如图4所示,还包括控制爬虫采集节点数量过程:
首先,所述主服务器1对爬虫任务的分配情况进行检测;
若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点3的节点状态信息:
若分析到存在若干个所述爬虫采集节点3处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点3;
若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点3的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点3;
若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点3的数量直至所有爬虫任务均被分配为止。
控制爬虫采集节点3的数量让整个系统具备了可伸缩性,可根据实际的运维情况合理配置适当的爬虫采集节点3。对于爬虫采集节点3的数量大于爬虫任务数量的情况,可对爬虫采集节点3进行删减;对于爬虫采集节点3的数量小于爬虫任务数量的情况,可对爬虫采集节点3进行增加。从而合理调配资源,提高资源利用率。
优选地,还包括重复分配过程:所述主服务器1将同一个请求页面任务或分析页面任务分配给多个爬虫服务器2。每个爬虫采集节点3当能被很好地处理而不影响其他不相关的部分或整个系统时。所述主服务器1将同一个请求页面任务或分析页面任务分配给多个爬虫服务器2,在多个爬虫采集节点3上提供重复的服务,有助于将单个爬虫采集节点3处理失败的影响控制在最小范围内,它可以显著提高系统在出现部分故障时的可靠性。
优选地,如图1所示,所述负载均衡分布式的爬虫系统,包括主服务器1和多个与主服务器1互通的爬虫服务器2,每个所述爬虫服务器2的下游设置多个爬虫采集节点3;
所述主服务器1被配置为:
将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;
把请求页面任务和分析页面任务分发给不同的所述爬虫服务器2;
和接收并分析所述爬虫服务器2反馈的节点状态信息;若分析到所述爬虫采集节点3的节点状态信息为空载状态,则所述主服务器1调度任务给该爬虫采集节点3;
所述爬虫服务器2被配置为:
把自身接收到的任务分派给各个所述爬虫采集节点3并对各个所述爬虫采集节点3的节点状态信息进行监控;
和收集并反馈各个所述爬虫采集节点3的节点状态信息到所述主服务器1;
所述爬虫采集节点3被配置为:
执行被分派的任务,并发送自身的节点状态信息到所述爬虫服务器2。
所述负载均衡分布式的爬虫系统先通过主服务器1将多个爬虫任务分配给其下属的多个爬虫服务器2,所述爬虫服务器2再将接收到的爬虫任务分配给其下属的多个爬虫采集节点3。爬虫任务分解成请求页面任务和分析页面任务,爬虫采集节点3循环交替进行请求页面任务和分析页面任务,提高分配灵活性和处理速度。对各个所述爬虫采集节点3的节点状态信息进行监控和分析,从而所述主服务器1可及时对所述爬虫采集节点3进行调配,避免出现部分爬虫采集节点3处于空载状态,提高爬虫采集节点3的整体利用率,减少资源浪费。
优选地,如图2所示,所述爬虫服务器2还被配置为:对接收到的所述节点状态信息进行整理,并将整理后的所述节点状态信息实时发送至所述主服务器1。所述爬虫服务器2实时发送节点状态信息,让主服务器1不再处于被动监控的局面,让所述节点状态信息更加实时化,更加准确,确保每一个所述节点状态信息能够及时被主服务器1监控到,以便主服务器1及时对爬虫服务器2做出任务调度,不会出现资源浪费的情况。
优选地,所述主服务器1还被配置为:
对接收到的多个所述节点状态信息进行整理;
通过整理后的所述节点状态信息分析对应的爬虫采集节点3是否处于空闲状态:
若不是则分析下一个所述节点状态信息;
若是则进一步分析所述爬虫采集节点3原先负责的任务是请求页面任务还是分析页面任务:
若所述爬虫采集节点3原先负责请求页面任务,则分配分析页面任务给所述爬虫采集节点3;
若所述爬虫采集节点3原先负责分析页面任务,则分配请求页面任务给所述爬虫采集节点3。
主服务器1把收集回来的节点状态信息加以分析,假如发现了有待爬取的节点状态信息时,就会针对不同节点状态信息发布新的不同的任务指令给该爬虫服务器2,做到合理发送新的任务指令给各个爬虫服务器2,让整个系统处于满负载的情况运行,合理利用好所有的资源。
优选地,所述主服务器1还被配置为:
对爬虫任务的分配情况进行检测;
若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点3的节点状态信息:
若分析到存在若干个所述爬虫采集节点3处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点3;
若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点3的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点3;
若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点3的数量直至所有爬虫任务均被分配为止。
控制爬虫采集节点3的数量让整个系统具备了可伸缩性,可根据实际的运维情况合理配置适当的爬虫采集节点3。对于爬虫采集节点3的数量大于爬虫任务数量的情况,可对爬虫采集节点3进行删减;对于爬虫采集节点3的数量小于爬虫任务数量的情况,可对爬虫采集节点3进行增加。从而合理调配资源,提高资源利用率。
优选地,所述主服务器1还被配置为:将同一个请求页面任务或分析页面任务分配给多个爬虫服务器2。每个爬虫采集节点3当能被很好地处理而不影响其他不相关的部分或整个系统时。所述主服务器1将同一个请求页面任务或分析页面任务分配给多个爬虫服务器2,在多个爬虫采集节点3上提供重复的服务,有助于将单个爬虫采集节点3处理失败的影响控制在最小范围内,它可以显著提高系统在出现部分故障时的可靠性。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (10)

1.一种负载均衡分布式的爬虫方法,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点,其特征在于,包括系统分布式爬虫负载均衡过程:
步骤A:所述主服务器将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;
步骤B:所述主服务器把请求页面任务和分析页面任务分发给不同的所述爬虫服务器,所述爬虫服务器再把自身接收到的任务分派给各个所述爬虫采集节点并对各个所述爬虫采集节点的节点状态信息进行监控;
步骤C:所述爬虫服务器收集并反馈各个所述爬虫采集节点的节点状态信息到所述主服务器;
步骤D:所述主服务器接收并分析所述爬虫服务器反馈的节点状态信息;若分析到所述爬虫采集节点的节点状态信息为空载状态,则所述主服务器调度任务给该爬虫采集节点。
2.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于,所述步骤B中的爬虫服务器监控方法包括:
首先,各个所述爬虫采集节点执行被分派的任务,并发送自身的节点状态信息到对应的所述爬虫服务器;
然后,所述爬虫服务器对接收到的所述节点状态信息进行整理,并将整理后的所述节点状态信息实时发送至所述主服务器。
3.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于,所述步骤D中所述主服务器分析调度方法包括:
首先,所述主服务器对接收到的多个所述节点状态信息进行整理;
然后,所述主服务器通过整理后的所述节点状态信息分析对应的爬虫采集节点是否处于空闲状态:
若不是则分析下一个所述节点状态信息;
若是则进一步分析所述爬虫采集节点原先负责的任务是请求页面任务还是分析页面任务:
若所述爬虫采集节点原先负责请求页面任务,则分配分析页面任务给所述爬虫采集节点;
若所述爬虫采集节点原先负责分析页面任务,则分配请求页面任务给所述爬虫采集节点。
4.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于,还包括控制爬虫采集节点数量过程:
首先,所述主服务器对爬虫任务的分配情况进行检测;
若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点的节点状态信息:
若分析到存在若干个所述爬虫采集节点处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点;
若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点;
若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点的数量直至所有爬虫任务均被分配为止。
5.根据权利要求1所述的负载均衡分布式的爬虫方法,其特征在于,还包括重复分配过程:
所述主服务器将同一个请求页面任务或分析页面任务分配给多个爬虫服务器。
6.使用权利要求1所述的负载均衡分布式的爬虫方法的爬虫系统,包括主服务器和多个与主服务器互通的爬虫服务器,每个所述爬虫服务器的下游设置多个爬虫采集节点,其特征在于:
所述主服务器被配置为:
将一个爬虫任务分解成请求页面任务和分析页面任务,请求页面任务和分析页面任务之间循环交替进行;
把请求页面任务和分析页面任务分发给不同的所述爬虫服务器;
和接收并分析所述爬虫服务器反馈的节点状态信息;若分析到所述爬虫采集节点的节点状态信息为空载状态,则所述主服务器调度任务给该爬虫采集节点;
所述爬虫服务器被配置为:
把自身接收到的任务分派给各个所述爬虫采集节点并对各个所述爬虫采集节点的节点状态信息进行监控;
和收集并反馈各个所述爬虫采集节点的节点状态信息到所述主服务器;
所述爬虫采集节点被配置为:
执行被分派的任务,并发送自身的节点状态信息到所述爬虫服务器。
7.根据权利要求6所述的负载均衡分布式的爬虫系统,其特征在于,所述爬虫服务器还被配置为:
对接收到的所述节点状态信息进行整理,并将整理后的所述节点状态信息实时发送至所述主服务器。
8.根据权利要求6所述的负载均衡分布式的爬虫系统,其特征在于,所述主服务器还被配置为:
对接收到的多个所述节点状态信息进行整理;
通过整理后的所述节点状态信息分析对应的爬虫采集节点是否处于空闲状态:
若不是则分析下一个所述节点状态信息;
若是则进一步分析所述爬虫采集节点原先负责的任务是请求页面任务还是分析页面任务:
若所述爬虫采集节点原先负责请求页面任务,则分配分析页面任务给所述爬虫采集节点;
若所述爬虫采集节点原先负责分析页面任务,则分配请求页面任务给所述爬虫采集节点。
9.根据权利要求6所述的负载均衡分布式的爬虫系统,其特征在于,所述主服务器还被配置为:
对爬虫任务的分配情况进行检测;
若检测到所有爬虫任务均被分配,则进一步分析各个爬虫采集节点的节点状态信息:
若分析到存在若干个所述爬虫采集节点处于空闲状态或请求页面任务状态,则删除这些处于空闲状态或请求页面任务状态的爬虫采集节点;
若检测有若干个所有爬虫任务未被分配,则进一步分析各个爬虫采集节点的节点状态信息,然后将未分配的爬虫任务分析调度至处于空闲状态的爬虫采集节点;
若分析调度完后仍有若干个所有爬虫任务未被分配,则增加爬虫采集节点的数量直至所有爬虫任务均被分配为止。
10.根据权利要求6所述的负载均衡分布式的爬虫系统,其特征在于,所述主服务器还被配置为:
将同一个请求页面任务或分析页面任务分配给多个爬虫服务器。
CN201710790708.5A 2017-09-05 2017-09-05 一种负载均衡分布式的爬虫方法、爬虫系统 Active CN107562541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710790708.5A CN107562541B (zh) 2017-09-05 2017-09-05 一种负载均衡分布式的爬虫方法、爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710790708.5A CN107562541B (zh) 2017-09-05 2017-09-05 一种负载均衡分布式的爬虫方法、爬虫系统

Publications (2)

Publication Number Publication Date
CN107562541A true CN107562541A (zh) 2018-01-09
CN107562541B CN107562541B (zh) 2020-08-11

Family

ID=60979054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710790708.5A Active CN107562541B (zh) 2017-09-05 2017-09-05 一种负载均衡分布式的爬虫方法、爬虫系统

Country Status (1)

Country Link
CN (1) CN107562541B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712503A (zh) * 2018-05-30 2018-10-26 南京邮电大学 一种网络负载均衡的多代理分布式爬虫系统和方法
CN110333980A (zh) * 2019-05-24 2019-10-15 深圳壹账通智能科技有限公司 网络爬虫系统的测试方法及装置、存储介质、电子设备
CN110442766A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 网页数据采集方法、装置、设备及存储介质
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法
CN110928688A (zh) * 2019-11-29 2020-03-27 电子科技大学 一种分布式爬虫任务的调度系统及方法
CN110968755A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 一种爬取数据的方法及装置
CN111522654A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 分布式爬虫的调度处理方法、装置及设备
CN113312216A (zh) * 2021-05-31 2021-08-27 中电福富信息科技有限公司 一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182085B1 (en) * 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
CN103997524A (zh) * 2014-05-21 2014-08-20 浪潮电子信息产业股份有限公司 高可用、高可扩展、分布式的模块化网络爬虫
CN105447097A (zh) * 2015-11-10 2016-03-30 北京北信源软件股份有限公司 数据采集方法及系统
CN106021608A (zh) * 2016-06-22 2016-10-12 广东亿迅科技有限公司 一种分布式爬虫系统及其实现方法
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182085B1 (en) * 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
CN103997524A (zh) * 2014-05-21 2014-08-20 浪潮电子信息产业股份有限公司 高可用、高可扩展、分布式的模块化网络爬虫
CN105447097A (zh) * 2015-11-10 2016-03-30 北京北信源软件股份有限公司 数据采集方法及系统
CN106021608A (zh) * 2016-06-22 2016-10-12 广东亿迅科技有限公司 一种分布式爬虫系统及其实现方法
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712503A (zh) * 2018-05-30 2018-10-26 南京邮电大学 一种网络负载均衡的多代理分布式爬虫系统和方法
CN108712503B (zh) * 2018-05-30 2021-06-22 南京邮电大学 一种网络负载均衡的多代理分布式爬虫系统和方法
CN110968755A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 一种爬取数据的方法及装置
CN110333980A (zh) * 2019-05-24 2019-10-15 深圳壹账通智能科技有限公司 网络爬虫系统的测试方法及装置、存储介质、电子设备
WO2020238131A1 (zh) * 2019-05-24 2020-12-03 深圳壹账通智能科技有限公司 网络爬虫系统的测试方法及装置、存储介质、电子设备
CN110442766A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 网页数据采集方法、装置、设备及存储介质
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法
CN110516139B (zh) * 2019-09-05 2023-07-07 上海携程商务有限公司 爬虫系统及方法
CN110928688A (zh) * 2019-11-29 2020-03-27 电子科技大学 一种分布式爬虫任务的调度系统及方法
CN111522654A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 分布式爬虫的调度处理方法、装置及设备
CN113312216A (zh) * 2021-05-31 2021-08-27 中电福富信息科技有限公司 一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法

Also Published As

Publication number Publication date
CN107562541B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN107562541A (zh) 一种负载均衡分布式的爬虫方法、爬虫系统
CN107705045A (zh) 一种基于云‑站‑点架构的生产物流智能配送agv系统及其应用
CN107580023A (zh) 一种动态调整任务分配的流处理作业调度方法及系统
CN101958804B (zh) 提升告警处理效率的方法、服务器及系统
CN106790706B (zh) 一种数据资源优化的方法、平台及系统
CN107707377A (zh) 一种分析网络节点可用性的方法及系统
CN103631650A (zh) 用于it运维系统的采集调度方法
CN104268056A (zh) 基于复杂事件处理的面向cps应用的实时监控系统及方法
CN105049509A (zh) 一种集群调度方法、负载均衡器以及集群系统
CN102236340A (zh) 一种多设备管理方法和装置
CN106131227A (zh) 负载平衡方法、元数据服务器系统及负载平衡系统
CN106357473B (zh) 分布式多机系统、控制方法及控制装置
CN105084140A (zh) 一种循环间隔分配的电梯召梯等候时间的优化方法与装置
CN103634132A (zh) 用于it运维平台的高效采集系统
CN106034047B (zh) 数据处理方法及装置
CN107070720A (zh) 云平台异常事件的监控及自动处理的方法和框架
CN105110111B (zh) 电梯群运行曲线生成系统和方法、电梯群控系统
CN112850387B (zh) 一种电梯状态采集与诊断系统及方法
CN104635506A (zh) 一种半导体生产线搬运系统设备仿真方法
CN105872055A (zh) 网络分布部署计算机系统的在线监控方法及系统
CN106407004A (zh) 一种用于远程集中计量的任务调度装置及调度方法
CN109032809A (zh) 基于遥感影像存储位置的异构并行调度系统
CN107220114A (zh) 基于资源统一调度的分布式资源调度方法
CN105740054A (zh) 一种虚拟机管理方法及装置
CN103514036A (zh) 一种用于事件触发和批量处理的调度系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant