CN106941537B - 一种负载均衡方法及装置 - Google Patents

一种负载均衡方法及装置 Download PDF

Info

Publication number
CN106941537B
CN106941537B CN201710312362.8A CN201710312362A CN106941537B CN 106941537 B CN106941537 B CN 106941537B CN 201710312362 A CN201710312362 A CN 201710312362A CN 106941537 B CN106941537 B CN 106941537B
Authority
CN
China
Prior art keywords
downloading
target
download
machine
target site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710312362.8A
Other languages
English (en)
Other versions
CN106941537A (zh
Inventor
张煜苒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710312362.8A priority Critical patent/CN106941537B/zh
Publication of CN106941537A publication Critical patent/CN106941537A/zh
Application granted granted Critical
Publication of CN106941537B publication Critical patent/CN106941537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1031Controlling of the operation of servers by a load balancer, e.g. adding or removing servers that serve requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了一种负载均衡方法及装置,所述方法包括:根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。本发明实施例提供的方案中,根据各下载机对各站点的实际下载状态,以实现各个站点在各个下载机之间的均衡分配,这样减少了整个分布式爬虫系统的无效下载量以及下载重试次数,从而提高分布式爬虫系统的下载效率。

Description

一种负载均衡方法及装置
技术领域
本发明涉及系统服务技术领域,特别是涉及一种负载均衡方法及装置。
背景技术
爬虫系统是按照一定的规则下载互联网中各站点待爬取的链接,以此为用户提供链接数据,而目前大部分用户采用分布式爬虫系统以提高对各站点的访问量,其中,分布式爬虫系统包括了多个下载机和负载资源分配的管理机,用于对各站点待爬取的链接进行下载,并且为了均衡下载,现有技术中采用通用的负载均衡算法将各站点待爬取的大量链接分配给每一个下载机,以此保证各个站点的链接在各个下载机之间分配均衡。
然而,在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:,现有技术中通用的负载均衡算法仅仅是从数量上将各站点平均分配给各下载机,而各下载机的下载能力、对各站点的连续下载时间等是不一样的,当下载机的下载能力降低或者下载机的连续下载时间过长被反爬时,即被禁止爬取链接时,可能会使得已分配的站点的链接下载失败,这样导致了整个分布式爬虫系统的无效下载量以及下载重试次数的增加,从而降低了整个分布式爬虫系统的下载效率。
发明内容
本发明实施例的目的在于提供一种负载均衡方法及装置,以实现各个站点在各个下载机之间的均衡分配,从而提高分布式爬虫系统的下载效率。具体技术方案如下:
第一方面,本发明实施例提供了一种负载均衡方法,应用于管理机,所述方法包括:
根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;
根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;
如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。
可选地,所述下载信息包括以下信息中的至少一种:下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果。
可选地,所述目标下载状态包括以下中的至少一种:连续下载时间、下载量、平均下载延迟以及下载失败率。
可选地,所述根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机的步骤,包括:
判断所述下载失败率是否大于预设失败率阈值;
若不大于所述预设失败率阈值,判断所述平均下载延迟是否大于预设下载延迟阈值;
若不大于所述预设下载延迟阈值,判断所述连续下载时间是否大于预设连续下载时间阈值;
若不大于所述预设连续下载时间阈值,判断所述下载量是否大于预设下载量阈值;
若不大于所述预设下载量阈值,则确定继续将该目标站点分配给该目标下载机。
可选地,所述调整所述目标站点与所述目标下载机之间的分配关系的步骤,包括:
若所述下载失败率大于所述预设失败率阈值,将所述目标站点移除,并将该目标站点标记为被移除状态;
或者,若所述平均下载延迟大于所述预设下载延迟阈值,将所述目标站点移除,并将该目标站点标记为被移除状态;
或者,若所述连续下载时间大于所述预设连续下载时间阈值,将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点;
或者,若所述下载量大于所述预设下载量阈值,将该目标站点标记为需要添加下载机。
可选地,所述将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点的步骤之后,还包括:
当所述目标站点没有被分配给任何下载机时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机,所述总下载量为下载机对所分配给该下载机的站点的下载量之和。
可选地,所述将该目标站点标记为需要添加下载机的步骤之后,还包括:
将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
可选地,所述方法还包括:
监控所述目标站点的下载量,其中,下载量包括已完成的下载量和未完成的待下载量;
当所述目标站点的所述待下载量大于预设站点下载量阈值时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
可选地,所述根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机的步骤,包括:
根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机,其中,所述目标站点为初始站点,所述初始站点为分配给各下载机的站点,并且所述初始站点的个数为满足如下公式的最小整数:
x·d≥s
其中,x为初始站点个数,d为下载机个数,s为待分配站点个数。
第二方面,本发明实施例提供了一种负载均衡装置,应用于管理机,所述装置包括:
确定模块,用于根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;
判断模块,用于根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;
调整模块,用于在所述判断模块的判断结果为否时,调整所述目标站点与所述目标下载机之间的分配关系。
可选地,所述下载信息包括以下信息中的至少一种:下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果。
可选地,所述目标下载状态包括以下中的至少一种:连续下载时间、下载量、平均下载延迟以及下载失败率。
可选地,所述判断模块包括:
第三判断子模块,用于判断所述下载失败率是否大于预设失败率阈值;
第四判断子模块,用于在所述第三判断子模块的判断结果为否时,判断所述平均下载延迟是否大于预设下载延迟阈值;
第五判断子模块,用于在所述第四判断子模块的判断结果为否时,判断所述连续下载时间是否大于预设连续下载时间阈值;
第六判断子模块,用于在所述第五判断子模块的判断结果为否时,判断所述下载量是否大于预设下载量阈值;
确定子模块,用于在所述第六判断子模块的判断结果为否时,确定继续将该目标站点分配给该目标下载机。
可选地,所述调整模块包括:
第一标记子模块,用于在所述第三判断子模块的判断结果为是时,将所述目标站点移除,并将该目标站点标记为被移除状态;或者,
第二标记子模块,用于在所述第四判断子模块的判断结果为是时,将所述目标站点移除,并将该目标站点标记为被移除状态;或者,
第三标记子模块,用于在所述第五判断子模块的判断结果为是时,将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点;或者,
第四标记子模块,用于在所述第六判断子模块的判断结果为是时,将该目标站点标记为需要添加下载机。
可选地,所述调整模块还包括:
第一分配子模块,用于当所述目标站点没有被分配给任何下载机时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机,所述总下载量为下载机对所分配给该下载机的站点的下载量之和。
可选地,所述调整模块还包括:
第二分配子模块,用于将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
可选地,所述装置还包括:
监控模块,用于监控所述目标站点的下载量,其中,下载量包括已完成的下载量和未完成的待下载量;
第三分配模块,用于当所述目标站点的所述待下载量大于预设站点下载量阈值时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
可选地,所述判断模块包括:
第二判断子模块,用于根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机,其中,所述目标站点为初始站点,所述初始站点为分配给各下载机的站点,并且所述初始站点的个数为满足如下公式的最小整数:
x·d≥s
其中,x为初始站点个数,d为下载机个数,s为待分配站点个数。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的负载均衡方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的负载均衡方法。
本发明实施例提供的技术方案中,根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。本发明实施例提供的方案中,根据各下载机对各站点的实际下载状态,以实现各个站点在各个下载机之间的均衡分配,这样减少了整个分布式爬虫系统的无效下载量以及下载重试次数,从而提高分布式爬虫系统的下载效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种负载均衡方法的一种流程图;
图2为本发明实施例提供的一种负载均衡方法的另一种流程图;
图3为本发明实施例提供的一种负载均衡装置的一种结构示意图;
图4为本发明实施例提供的一种负载均衡装置的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了实现各个站点在各个下载机之间的均衡分配,从而提高分布式爬虫系统的下载效率,本发明实施例提供了一种负载均衡方法及装置。
下面首先对本发明提供的一种负载均衡方法进行介绍。
本发明实施例提供的一种负载均衡方法针对于分布式爬虫系统进行介绍,当然,可以理解的是,本发明实施例还可以用于其他负载均衡的分布式系统服务中。
本发明实施例的执行主体为管理机,该管理机可以收集站点以及下载机的相关信息,并对分布式爬虫系统中各站点的待下载链接进行分配,分配给相应的各个下载机。
如图1所示,本发明实施例提供的一种负载均衡方法,包括如下步骤:
S101,根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态。
当目标下载机从目标站点每下载一次链接时,都会收集到该次下载相关的下载信息,其中,下载信息可以包括以下信息中的至少一种:下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果。
其中,状态码和链接的解析结果可以用来表示链接下载是否成功,其中,链接的解析结果可以直观地表示出链接解析失败或成功,状态码是指每个链接解析时,服务器所分配的3位数代码;示例地,状态码200表示链接解析正常,状态码301表示链接所对应的网页被永久的移动到新位置,状态码404表示链接所对应的网页未找到等等。
一种情况,收集的下载信息可以包括全部的信息:下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果,例如,目标下载机对目标站点的某一次下载的下载信息为:下载开始时间点为10:00,下载链接大小为512kb,下载耗时100ms,状态码为200,链接的解析结果为成功。
另一种情况,收集的下载信息可以仅包括部分信息,此时,所包括的部分信息可以是上述5种类型的信息中的任意几种,例如,当下载信息仅包括四种类型的信息时,可以为:下载开始时间点、下载链接大小、下载耗时和状态码;当下载信息仅包括两种类型的信息时,可以为:下载耗时和状态码;或者,包括的两种类型的信息为:下载开始时间点和下载链接大小;等等。当然,下载信息还可以仅包括一种类型的信息:下载开始时间点、下载链接大小、下载耗时、状态码、链接的解析结果中的任意一项信息。
管理机收集目标下载机对目标站点的下载信息可以是实时、并且是持续地收集,根据所收集到的目标下载机对目标站点的下载信息,可以确定当前情况下,目标下载机对目标站点的目标下载状态。
其中,目标下载状态可以包括以下中的至少一种:连续下载时间、下载量、平均下载延迟以及下载失败率。并且,不同种类的目标下载状态均是由不同种类的下载信息分别确定的。以下分别就4种不同的目标下载状态进行介绍:
第一种,连续下载时间可以定义为:b-time与e-time之间的差值,其中,e-time为离当前时间点最近的一次下载的下载开始时间点,b-time为预设时间间隔内离当前时间点最远的一次下载的下载开始时间点,并且,预设时间间隔以e-time为时间终点,其中,预设时间间隔可以是用户自定义设定。示例地,预设时间间隔为4秒,离当前时间点最近的一次下载的下载开始时间点为10分18秒,那么e-time为10分18秒,以10分18秒为起点依次向前寻找下载开始时间点,并且在不超过4秒的范围内,即在10分14秒至10分18秒的范围内,寻找数值标示最小的下载开始时间点作为b-time,此时,10分15秒为数值标示最小的下载开始时间点,则b-time为10分15秒,那么最后的结论是:连续下载时间为3秒。
第二种,下载量可以定义为:在连续下载时间内,目标下载机在目标站点下载的下载链接大小之和。即可以理解为,在连续下载时间从b-time到e-time的时间范围内,目标下载机在目标站点下载的所有下载链接大小之和。示例地,b-time为10分15秒,e-time为10分18秒,在10分15秒至10分18秒的连续下载时间范围内目标下载机在目标站点进行了10次的链接下载,并且,每一次的下载链接大小为500kb,那么,在10分15秒至10分18秒的连续下载时间内,目标下载机对目标站点的下载量为5000kb。
第三种,平均下载延时可以定义为:当连续下载时间内,目标下载机在目标站点进行下载时的下载耗时的平均值。其中,一种实现方式为:对连续下载时间内的所有下载进行下载耗时的平均值计算。
另一种实现方式为:预先设定次数阈值为x,当连续下载时间内的下载次数不小于x时,可以随机选取x次的下载进行下载耗时的平均值计算,例如,设定的x为10次,在连续下载时间内的下载次数为15次,则从15次下载中随机选取10次的下载进行下载耗时的平均值计算,从而得到平均下载延时;而当连续下载时间内的下载次数小于设定的x时,或者,在连续下载时间内下载次数为0时,则此时,平均下载延时保持上一次的结果不变化。当然,可以理解的是,当连续下载时间内的下载次数不小于x时,除了上述实施例中采用的随机选取的方式,还可以采用其他合理的选取方式,例如,选取离当前时间点最近的x次下载进行平均下载延时计算,或者,选取离当前时间点最远的x次下载进行平均下载延时计算。
第四种,下载失败率可以定义为:当连续下载时间内,目标下载机对目标站点的下载失败率。其中,根据下载信息中的状态码和链接的解析结果,可以将下载失败定义为:链接的解析结果为失败,或者,状态码大于或等于400时。
下载失败率在上述定义的基础上,一种实现方式为:对连续下载时间内的所有下载进行下载失败率的计算。另一种实现方式为:预先设定次数阈值Y,当连续下载时间内的下载次数不小于Y时,可以随机选取Y次的下载进行下载失败率的计算,例如,若设定的Y为10次,在连续下载时间内的下载次数为15次,则从15次下载中随机选取10次的下载进行下载失败率的计算;而当连续下载时间内的下载次数小于设定的Y时,或者,在连续下载时间内下载次数为0时,则此时,下载失败率保持上一次的结果不变化。当然,可以理解的是,当连续下载时间内的下载次数不小于Y时,除了上述实施例中采用的随机选取的方式,还可以采用其他合理的选取方式,例如,选取离当前时间点最近的Y次下载进行下载失败率的计算,或者,选取离当前时间点最远的Y次下载进行下载失败率的计算。
需要说明的是,下载信息可以仅包括部分、甚至仅一种类型的信息,目标下载状态也可以仅包括部分、甚至仅一种下载状态,但是,因为目标下载状态是依据下载信息得到的,例如,连续下载时间是根据下载开始时间点得到的,下载量是根据下载开始时间点和下载链接大小得到的;所以,当目标下载状态仅包括部分下载状态时,那么,下载信息必然要包括能得到该部分下载状态的相应的信息。示例地,当目标下载状态包括连续下载时间和下载量,那么,下载信息则必然要包括下载开始时间以及下载链接大小。
在一种实施方式中,在根据下载信息确定目标下载机对目标站点的目标下载状态时,设定预设时间点,在预设时间点确定目标下载状态。具体地,根据目标下载机对目标站点的固定QPS(Query Per Second,每秒查询率),设定预设时间点,例如,可以设定为以每秒一次的频率来统计确认目标下载机对目标站点的目标下载状态。
在另一种实施方式中,管理机还可以与下载机中心通信连接,其中,下载机中心用来存储各个下载机对各个站点的下载状态。当管理机根据下载信息确定出目标下载机对目标站点的最新的目标下载状态之后,便对下载机中心存储的目标下载机对目标站点的下载状态进行更新,更新为最新确定出的目标下载状态。
S102,根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机。
在一种实施方式中,在根据实际的目标下载状态来分配各个站点之前,管理机会根据当前站点的数量,来为各个下载机分配初始站点,其中,每个下载机初始站点的个数为满足如下公式的最小整数:
x·d≥s (公式1)
其中,x为每个下载机所分配的初始站点个数,d为当前下载机的总数量,s为当前待分配站点的总数量。这样,可以将站点平均分配给各个下载机,从而使得各下载机的下载量从数量上是均衡的。
除了上述分配方式外,分配给各下载机的初始站点可以是从待分配站点中随机选取,还可以是根据排序的方式依次选取,以及其他合理的选取方式都是可行的。并且,对于一个站点,可以仅分配给一个下载机作为初始站点,还可以同时分配给多个下载机,作为多个下载机的初始站点。
示例地,分布式爬虫系统中当前待分配站点的总数量为6,当前下载机的总数量为3,根据公式1可知,每个下载机所分配的初始站点个数x≥2,x取最小整数2,那么每个下载机分配2个初始站点。每个下载机所对应的2个初始站点可以从待分配的6个站点中随机选取。
示例地,分布式爬虫系统中当前待分配站点的总数量为7,当前下载机的总数量为3,根据公式1可知,每个下载机所分配的初始站点个数x≥2.3,x取最小整数3,此时每个下载机分配3个初始站点。那么可以通过排序的方式选取初始站点,将待分配的7个站点编号:站点1、站点2、站点3、站点4、站点5、站点6、站点7,将3个下载机编号为:下载机1、下载机2、下载机3,根据计算得到每个下载机需分配3个初始站点,因此,可以将站点1、站点2、站点3分配给下载机1作为初始站点,将站点4、站点5、站点6分配给下载机2作为初始站点,将站点7、下载机1、下载机2分配给下载机3作为初始站点。
在各个下载机分配到相应的初始站点后,可以根据下载机与所分配的各初始站点相对应的下载状态,分别判断是否继续将各初始站点分配给该下载机。例如,分配给下载机1的初始站点分别为:站点1、站点2,下载机1对站点1的下载状态为状态1,下载机1对站点2的下载状态为状态2,那么,根据状态1判断是否继续将站点1分配给下载机1,根据状态2判断是否继续将站点2分配给下载机1。
在另一种实施方式中,可以在预设时间点,根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机。其中,预设时间点可以是用户自定义设定的,若用户需要负载均衡更精确,那么可以将时间间隔设置的小一些,更加频繁地进行负载均衡策略的计算。示例地,在为下载机分配初始站点之后,以每秒一次的频率,根据当前的目标下载状态,判断是否继续将目标站点分配给目标下载机。预设时间点的实施方式,用户可以根据爬虫系统的运行状态进行设定,避免了系统负载压力过大的问题。
S103,如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。
其中,调整目标站点与所述目标下载机之间的分配关系可以是:可以是解除目标站点与所述目标下载机之间的分配关系,此时,目标下载机不能再从目标站点下载链接;还可以是目标站点与目标下载机继续保持分配关系,但是同时目标站点需要添加新的下载机。
当然,还可以有其他的调整方式,在此不一一列举。具体的调整方式通过以下实施例进行详细介绍,在此不作详述。
S104,如果需要继续将所述目标站点分配给所述目标下载机,保持所述目标站点与所述目标下载机之间的分配关系。
在S102的判断结果是保持目标站点与目标下载机之间的分配关系后,目标下载机便可以继续从目标站点下载链接,直到下一次判断是否需要继续将目标站点分配给目标下载机。
本发明实施例提供的技术方案中,根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。本发明实施例提供的方案中,根据各下载机对各站点的实际下载状态,以实现各个站点在各个下载机之间的均衡分配,这样减少了整个分布式爬虫系统的无效下载量以及下载重试次数,从而提高分布式爬虫系统的下载效率。
为了实现各个站点在各个下载机之间的均衡分配,本发明实施例还提供一种负载均衡方法。
对于上述步骤S102:根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机。在一种具体实施方式中,下载信息包括下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果,目标下载状态包括:连续下载时间、下载量、平均下载延迟以及下载失败率。并且,依次对各个目标下载状态分别进行判断,其中,进行判断的先后顺序可以是用户自定义设定的。
在本实施例中,采用的顺序为:先判断下载失败率,再判断平均下载延时,再判断连续下载时间,最后判断下载量。这样的判断顺序是根据下载状态的影响程度大小排列的:下载失败率是相对重要的影响因素,即使目标下载机对目标站点的下载量再大、连续下载时间再长,但是下载失败率很高的情况下,也会导致无效下载量以及下载重试次数的增加,从而也无法提高下载效率,因此本实施例中首先对下载失败率进行判断,将下载失败率过高的站点从下载机移除,这样保证了各下载机对所分配的各站点的下载失败率比较低;平均下载延时的判断则保证了目标下载机从目标站点每次进行下载时,平均下载延时过长,而影响了下载效率;连续下载时间过长时会导致下载机被反爬,这也是影响下载机下载效率的重要因素;最后判断的下载量,相对于下载失败率、平均下载延时以及连续下载时间来说,对下载效率的影响程度相对来说不是很大。由此,根据影响程度由大到小的顺序分别进行判断可以更精确的将站点分配给各下载机,从而提高整个分布式爬虫系统的下载效率。
如图2所示,本发明实施例提供的一种负载均衡方法,上述步骤S102可以包括如下步骤:
S201,判断所述下载失败率是否大于预设失败率阈值。
其中,预设失败率阈值可以是用户根据需求自定义设定,当需要下载效率更高时,可以将预设失败率阈值设置的比较低,从而保证目标下载机对目标站点的下载失败率很低的时候才会保持分配关系。那么,当目标下载机对目标站点的下载失败率不大于预设失败率阈值时,执行S202。
一种实施方式中,当目标下载机对目标站点的下载失败率大于预设失败率阈值时,则执行步骤S206,将所述目标站点移除,并将该目标站点标记为被移除状态。当目标站点标记为被移除状态后,目标下载机便不能再从该目标站点上下载链接。
示例地,预设失败率阈值设定为50%,那么当目标下载机对目标站点的下载失败率不大于50%时,执行S202,当目标下载机对目标站点的下载失败率大于50%时,则将所述目标站点移除,并将该目标站点标记为被移除状态。
S202,若不大于所述预设失败率阈值,判断所述平均下载延迟是否大于预设下载延迟阈值。
在下载失败率不大于预设失败率阈值的情况下,继续对平均下载延时进行判断,其中,预设下载延时阈值可以是用户根据需求自定义设定,因为平均下载延时过长会影响下载效率,当需要下载效率更高时,可以将预设下载延时阈值设置的比较低,从而保证目标下载机对目标站点的平均下载延时比较低的时候才会保持分配关系。那么,当目标下载机对目标站点的平均下载延时不大于预设下载延时阈值时,执行S203。
一种实施方式中,当目标下载机对目标站点的平均下载延时大于预设下载延时阈值时,则执行步骤S206,将所述目标站点移除,并将该目标站点标记为被移除状态。
示例地,预设下载延时阈值设定为1分钟,当目标下载机对目标站点的平均下载延时不大于1分钟时,执行S203,当目标下载机对目标站点的平均下载延时大于1分钟时,则将所述目标站点移除,并将该目标站点标记为被移除状态。
S203,若不大于所述预设下载延迟阈值,判断所述连续下载时间是否大于预设连续下载时间阈值。
在平均下载延时不大于预设下载延时阈值的情况下,继续对连续下载时间进行判断,其中,预设连续下载时间阈值可以是用户根据需求自定义设定,当需要下载效率更高时,可以将预设连续下载时间阈值设置的比较低,从而保证目标下载机对目标站点的连续下载时间比较低的时候才会保持分配关系。那么,当目标下载机对目标站点的连续下载时间不大于预设连续下载时间阈值时,执行S204。
一种实施方式中,当目标下载机对目标站点的连续下载时间大于预设连续下载时间阈值时,则执行步骤S207,将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点。当目标站点标记为被移除状态后,目标下载机此时便不能再从该目标站点上下载链接,但同时,管理机可以确定该目标下载机对目标站点下次连续下载时间的开始时间点。
示例地,预设连续下载时间阈值设定为1h,当目标下载机对目标站点的连续下载时间不大于1h时,执行S204,当目标下载机对目标站点的连续下载时间大于1h时,则将该目标站点标记为被移除状态,并确定该目标下载机对目标站点的下次连续下载时间的开始时间点为3h后。
在上述实施方式的基础上,当确定目标下载机对目标站点的下次连续下载时间的开始时间点之后,目标站点没有被分配给任何下载机,此时,可以将所述目标站点分配给该目标下载机以外的总下载量最小的下载机,其中,总下载量为下载机对所分配给该下载机的站点的下载量之和。这样,使得各下载机的下载量的均衡分配。
例如,目标站点为站点1,此时没有被分配给任何下载机,目标下载机为下载机1,除此之外还有下载机2、下载机3和下载机4,其中,下载机2的总下载量为8M,下载机3的总下载量为10M,下载机4的总下载量为12M,因此,可以将该目标站点分配给下载机2。
S204,若不大于所述预设连续下载时间阈值,判断所述下载量是否大于预设下载量阈值。
在连续下载时间不大于预设连续下载时间阈值的情况下,继续对下载量进行判断,其中,预设下载量阈值可以是用户根据需求自定义设定,例如,预设下载量阈值可以设定为平均下载量,利用如下公式计算得到:
Figure BDA0001287496260000151
其中,x为目标下载机所分配的站点个数,Q为x个站点的总下载量,
Figure BDA0001287496260000152
为平均下载量,其中,x为正整数,Q和
Figure BDA0001287496260000153
均为正数。
为了保证下载效率更高,并且不会因为目标下载机对目标站点的下载量过大而导致目标下载机的运行缓慢,可以将预设下载量阈值设置的比较合适,当目标下载机对目标站点的下载量不大于预设连续下载时间阈值时,执行S205,从而使得目标下载机与目标站点继续保持分配关系。
一种实施方式中,当目标下载机对目标站点的下载量大于预设下载量阈值时,则执行步骤S208,将该目标站点标记为需要添加下载机。此时,可以将该目标站点同时分配给多个下载机,保证每个所分配的下载机对该目标站点的下载量不大于相应的预设下载量阈值。
示例地,预设下载量阈值设定为10M,当目标下载机对目标站点的下载量不大于10M时,执行S205,当目标下载机对目标站点的下载量大于10M时,则将该目标站点标记为需要添加下载机。
在上述实施方式的基础上,当目标站点标记为需要添加下载机之后,将该目标站点分配给目标下载机以外的总下载量最小的下载机。这样,多个下载机可以同时下载该目标站点的链接,从而可以减少目标下载机对目标站点的下载量,使得下载量在合适的值。
示例地,目标站点为站点1,此时站点1被标记为需要添加下载机,目标下载机为下载机1,除此之外还有下载机2和下载机3,其中,下载机2的总下载量为18M,下载机3的总下载量为5M,因此,可以将该站点1分配给下载机3,以使得下载机1对站点1的下载量减少。
S205,若不大于所述预设下载量阈值,则确定继续将该目标站点分配给该目标下载机。
在下载量不大于预设下载量阈值的情况下,则可以确定继续将该目标站点分配给该目标下载机,此时,目标下载机可以从该目标站点下载链接。
在一种实施方式中,管理机还可以监控目标站点的下载量,其中,包括该目标站点已完成的下载量和未完成的待下载量。当目标站点的待下载量大于预设站点下载量阈值时,将目标站点分配给目标下载机以外的总下载量最小的下载机,其中,预设站点下载量阈值可以是用户自定义设定的。示例地,目标下载机以外的下载机1的总下载量为13M,下载机2的总下载量为10M,预设站点下载量阈值为20M,而当目标站点的待下载量为30M时,则将该目标站点分配给下载机2。并且,管理机还可以发现新站点,继而将该新站点分配给相应的下载机进行链接下载,管理机在已拥有的站点上不断地进行链接下载,同时还发现新站点,这样,保证了爬虫系统的持续性,即使在某些站点被反爬,但仍然能从发现的新站点下载海量的链接。
本发明实施例提供的技术方案中,根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。本发明实施例提供的方案中,根据各下载机对各站点的实际下载状态,以实现各个站点在各个下载机之间的均衡分配,这样减少了整个分布式爬虫系统的无效下载量以及下载重试次数,从而提高分布式爬虫系统的下载效率。
相应于上述提供的方法实施例,本发明实施例还提供一种负载均衡装置,应用于管理机,如图3所示,所述装置包括:
确定模块310,用于根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;
判断模块320,用于根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机;
调整模块330,用于在所述判断模块的判断结果为否时,调整所述目标站点与所述目标下载机之间的分配关系。
可选地,一种实施方式中,所述装置还可以包括:
更新模块,用于将下载机中心存储的所述目标下载机对所述目标站点的下载状态更新为所述目标下载状态,所述下载机中心存储各下载机对各站点的下载状态。
可选地,一种实施方式中,所述判断模块320可以包括:
第一判断子模块,用于在预设时间点,根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机。
可选地,一种实施方式中,所述判断模块320可以包括:
第二判断子模块,用于根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机,其中,所述目标站点为初始站点,所述初始站点为分配给各下载机的站点,并且所述初始站点的个数为满足如下公式的最小整数:
x·d≥s (公式3)
其中,x为初始站点个数,d为下载机个数,s为待分配站点个数。
可选地,一种实施方式中,所述下载信息包括以下信息中的至少一种:下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果。
可选地,一种实施方式中,所述目标下载状态包括以下中的至少一种:连续下载时间、下载量、平均下载延迟以及下载失败率。
本发明实施例提供的技术方案中,根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。本发明实施例提供的方案中,根据各下载机对各站点的实际下载状态,以实现各个站点在各个下载机之间的均衡分配,这样减少了整个分布式爬虫系统的无效下载量以及下载重试次数,从而提高分布式爬虫系统的下载效率。
如图4所示,本实施例提供的一种负载均衡装置,在图3的基础上,所述判断模块320包括:
第三判断子模块410,用于判断所述下载失败率是否大于预设失败率阈值;
第四判断子模块420,用于在所述第三判断子模块的判断结果为否时,判断所述平均下载延迟是否大于预设下载延迟阈值;
第五判断子模块430,用于在所述第四判断子模块的判断结果为否时,判断所述连续下载时间是否大于预设连续下载时间阈值;
第六判断子模块440,用于在所述第五判断子模块的判断结果为否时,判断所述下载量是否大于预设下载量阈值;
确定子模块450,用于在所述第六判断子模块的判断结果为否时,则确定继续将该目标站点分配给该目标下载机。
可选地,一种实施方式中,所述调整模块330包括:
第一标记子模块460,用于在所述第三判断子模块的判断结果为是时,将所述目标站点移除,并将该目标站点标记为被移除状态;
第二标记子模块470,用于在所述第四判断子模块的判断结果为是时,将所述目标站点移除,并将该目标站点标记为被移除状态;
第三标记子模块480,用于在所述第五判断子模块的判断结果为是时,将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点;
第四标记子模块490,用于在所述第六判断子模块的判断结果为是时,将该目标站点标记为需要添加下载机。
可选地,一种实施方式中,所述调整模块330还可以包括:
第一分配子模块,用于当所述目标站点没有被分配给任何下载机时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机,所述总下载量为下载机对所分配给该下载机的站点的下载量之和。
可选地,一种实施方式中,所述调整模块330还可以包括:
第二分配子模块,用于将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
可选地,一种实施方式中,所述装置还可以包括:
监控模块,用于监控所述目标站点的下载量,其中,下载量包括已完成的下载量和未完成的待下载量;
第三分配模块,用于当所述目标站点的所述待下载量大于预设站点下载量阈值时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
本发明实施例提供的技术方案中,根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系。本发明实施例提供的方案中,根据各下载机对各站点的实际下载状态,以实现各个站点在各个下载机之间的均衡分配,这样减少了整个分布式爬虫系统的无效下载量以及下载重试次数,从而提高分布式爬虫系统的下载效率。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述地比较简单,相关之处参见方法实施例的部分说明即可。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的负载均衡方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的负载均衡方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种负载均衡方法,其特征在于,应用于管理机,所述方法包括:
根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;
根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;
如果不需要继续将所述目标站点分配给所述目标下载机,调整所述目标站点与所述目标下载机之间的分配关系;
所述下载信息包括以下信息中的至少一种:下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果;
所述目标下载状态包括以下中的至少一种:连续下载时间、下载量、平均下载延迟以及下载失败率;
所述根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机的步骤,包括:
判断所述下载失败率是否大于预设失败率阈值;
若不大于所述预设失败率阈值,判断所述平均下载延迟是否大于预设下载延迟阈值;
若不大于所述预设下载延迟阈值,判断所述连续下载时间是否大于预设连续下载时间阈值;
若不大于所述预设连续下载时间阈值,判断所述下载量是否大于预设下载量阈值;
若不大于所述预设下载量阈值,则确定继续将该目标站点分配给该目标下载机;
所述调整所述目标站点与所述目标下载机之间的分配关系的步骤,包括:
若所述下载失败率大于所述预设失败率阈值,将所述目标站点移除,并将该目标站点标记为被移除状态;
或者,若所述平均下载延迟大于所述预设下载延迟阈值,将所述目标站点移除,并将该目标站点标记为被移除状态;
或者,若所述连续下载时间大于所述预设连续下载时间阈值,将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点;
或者,若所述下载量大于所述预设下载量阈值,将该目标站点标记为需要添加下载机。
2.根据权利要求1所述的方法,其特征在于,所述将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点的步骤之后,还包括:
当所述目标站点没有被分配给任何下载机时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机,所述总下载量为下载机对所分配给该下载机的站点的下载量之和。
3.根据权利要求1所述的方法,其特征在于,所述将该目标站点标记为需要添加下载机的步骤之后,还包括:
将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
监控所述目标站点的下载量,其中,下载量包括已完成的下载量和未完成的待下载量;
当所述目标站点的所述待下载量大于预设站点下载量阈值时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机的步骤,包括:
根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机,其中,所述目标站点为初始站点,所述初始站点为分配给各下载机的站点,并且所述初始站点的个数为满足如下公式的最小整数:
x·d≥s
其中,x为初始站点个数,d为下载机个数,s为待分配站点个数。
6.一种负载均衡装置,其特征在于,应用于管理机,所述装置包括:
确定模块,用于根据已收集的目标下载机对目标站点的下载信息,确定所述目标下载机对所述目标站点的目标下载状态;
判断模块,用于根据所述目标下载状态,判断是否需要继续将所述目标站点分配给所述目标下载机;
调整模块,用于在所述判断模块的判断结果为否时,调整所述目标站点与所述目标下载机之间的分配关系;
所述下载信息包括以下信息中的至少一种:下载开始时间点、下载链接大小、下载耗时、状态码和链接的解析结果;
所述目标下载状态包括以下中的至少一种:连续下载时间、下载量、平均下载延迟以及下载失败率;
所述判断模块包括:
第三判断子模块,用于判断所述下载失败率是否大于预设失败率阈值;
第四判断子模块,用于在所述第三判断子模块的判断结果为否时,判断所述平均下载延迟是否大于预设下载延迟阈值;
第五判断子模块,用于在所述第四判断子模块的判断结果为否时,判断所述连续下载时间是否大于预设连续下载时间阈值;
第六判断子模块,用于在所述第五判断子模块的判断结果为否时,判断所述下载量是否大于预设下载量阈值;
确定子模块,用于在所述第六判断子模块的判断结果为否时,确定继续将该目标站点分配给该目标下载机;
所述调整模块包括:
第一标记子模块,用于在所述第三判断子模块的判断结果为是时,将所述目标站点移除,并将该目标站点标记为被移除状态;或者,
第二标记子模块,用于在所述第四判断子模块的判断结果为是时,将所述目标站点移除,并将该目标站点标记为被移除状态;或者,
第三标记子模块,用于在所述第五判断子模块的判断结果为是时,将该目标站点标记为被移除状态,并确定所述目标下载机对所述目标站点的下次连续下载时间的开始时间点;或者,
第四标记子模块,用于在所述第六判断子模块的判断结果为是时,将该目标站点标记为需要添加下载机。
7.根据权利要求6所述的装置,其特征在于,所述调整模块还包括:
第一分配子模块,用于当所述目标站点没有被分配给任何下载机时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机,所述总下载量为下载机对所分配给该下载机的站点的下载量之和。
8.根据权利要求6所述的装置,其特征在于,所述调整模块还包括:
第二分配子模块,用于将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述装置还包括:
监控模块,用于监控所述目标站点的下载量,其中,下载量包括已完成的下载量和未完成的待下载量;
第三分配模块,用于当所述目标站点的所述待下载量大于预设站点下载量阈值时,将所述目标站点分配给所述目标下载机以外的总下载量最小的下载机。
10.根据权利要求6所述的装置,其特征在于,所述判断模块包括:
第二判断子模块,用于根据所述目标下载状态,判断是否继续将所述目标站点分配给所述目标下载机,其中,所述目标站点为初始站点,所述初始站点为分配给各下载机的站点,并且所述初始站点的个数为满足如下公式的最小整数:
x·d≥s
其中,x为初始站点个数,d为下载机个数,s为待分配站点个数。
CN201710312362.8A 2017-05-05 2017-05-05 一种负载均衡方法及装置 Active CN106941537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710312362.8A CN106941537B (zh) 2017-05-05 2017-05-05 一种负载均衡方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710312362.8A CN106941537B (zh) 2017-05-05 2017-05-05 一种负载均衡方法及装置

Publications (2)

Publication Number Publication Date
CN106941537A CN106941537A (zh) 2017-07-11
CN106941537B true CN106941537B (zh) 2020-08-07

Family

ID=59463944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710312362.8A Active CN106941537B (zh) 2017-05-05 2017-05-05 一种负载均衡方法及装置

Country Status (1)

Country Link
CN (1) CN106941537B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107589991A (zh) * 2017-10-31 2018-01-16 麦格创科技(深圳)有限公司 分布式系统的网页分配方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN103067521A (zh) * 2013-01-08 2013-04-24 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
CN103559083A (zh) * 2013-10-11 2014-02-05 北京奇虎科技有限公司 网页爬取任务调度方法与任务调度器
CN105991699A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种互联网爬虫的分布式下载系统
CN106534284A (zh) * 2016-10-26 2017-03-22 航天恒星科技有限公司 一种分布式系统中资源负载均衡方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN103067521A (zh) * 2013-01-08 2013-04-24 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
CN103559083A (zh) * 2013-10-11 2014-02-05 北京奇虎科技有限公司 网页爬取任务调度方法与任务调度器
CN105991699A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种互联网爬虫的分布式下载系统
CN106534284A (zh) * 2016-10-26 2017-03-22 航天恒星科技有限公司 一种分布式系统中资源负载均衡方法及装置

Also Published As

Publication number Publication date
CN106941537A (zh) 2017-07-11

Similar Documents

Publication Publication Date Title
CN107026907A (zh) 一种负载均衡方法、负载均衡器及负载均衡系统
CN103281367A (zh) 一种负载均衡方法及装置
CN107329820B (zh) 一种用于集群系统的任务处理方法及装置
CN112565940B (zh) 一种光纤网络的光纤路径规划方法和装置
CN103699443B (zh) 任务分发方法及扫描器
CN110795217B (zh) 一种基于资源管理平台的任务分配方法及系统
CN112214288B (zh) 基于Kubernetes集群的Pod调度方法、装置、设备和介质
RU2006138637A (ru) Устройство управления распределением полос, способ управления распределением полос и программа управления распределением полос
CN106941537B (zh) 一种负载均衡方法及装置
KR20160073892A (ko) 사용자 서비스 품질 기반 클라우드 오토 스케일링 장치 및 그 방법
CN110990497A (zh) 一种基于区块链的信息处理方法及装置、设备、存储介质
CN111752924A (zh) 一种数据库迁移方法、系统及存储介质
CN109962947A (zh) 一种对等网络中的任务分配方法及装置
CN106209415A (zh) 一种虚拟网络映射方法及系统
CN110609735A (zh) 任务管理方法、设备和计算机程序产品
CN113037791A (zh) 运维方法和系统、计算机可读存储介质
CN109144690B (zh) 任务处理方法和装置
CN113010418B (zh) 一种渐进式灰度发布方法及装置
CN106487910B (zh) 一种内容分发网络创建方法
CN116896550A (zh) 一种降低服务器压力的软件更新方法、系统和存储介质
CN105243078A (zh) 一种文件资源的分发方法、系统和装置
CN110266711B (zh) 区块链节点的数据上链方法、装置、系统及区块链节点
CN115168017B (zh) 一种任务调度云平台及其任务调度方法
CN108600354B (zh) 系统响应时间波动抑制方法和系统
CN104320455A (zh) 一种数据分发方法、服务器及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant