CN110147271B - 提升爬虫代理质量的方法、装置及计算机可读存储介质 - Google Patents

提升爬虫代理质量的方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110147271B
CN110147271B CN201910403144.4A CN201910403144A CN110147271B CN 110147271 B CN110147271 B CN 110147271B CN 201910403144 A CN201910403144 A CN 201910403144A CN 110147271 B CN110147271 B CN 110147271B
Authority
CN
China
Prior art keywords
agent
pool
proxy
pools
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910403144.4A
Other languages
English (en)
Other versions
CN110147271A (zh
Inventor
刘希龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Bajie Media Co ltd
Original Assignee
Chongqing Bajie Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Bajie Media Co ltd filed Critical Chongqing Bajie Media Co ltd
Priority to CN201910403144.4A priority Critical patent/CN110147271B/zh
Publication of CN110147271A publication Critical patent/CN110147271A/zh
Application granted granted Critical
Publication of CN110147271B publication Critical patent/CN110147271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种提升爬虫代理质量的方法、装置及计算机可读存储介质,所述提升爬虫代理质量的方法包括:为若干代理池设置不同优先级;基于代理池优先级及其使用率来进行代理池的调用。本发明通过对代理池合理分级,将代理按照优质程度分类放入代理池中,并根据代理池的代理使用率进行代理池切换,实现网络代理的有效管理,将优质代理的使用率提升到最大化,提高爬虫程序的网络资源获取效率;检测代理的可用状态,保证其请求的成功性,排除不可于用的代理,一定程度上减少了对于网络资源的占用,降低网络请求对目标服务器的伤害。

Description

提升爬虫代理质量的方法、装置及计算机可读存储介质
技术领域
本发明涉及计算机软件领域,具体涉及一种提升爬虫代理质量的方法、装置及计算机可读存储介质。
背景技术
在迅速发展的互联网时代,用户通过网络爬虫高效的采集公开的网络数据,但是大批量的网络爬虫对网络数据的不断采集,对网络资源占用特别大,给正常的网站服务器带来很大压力。因此,很多网站采用了反扒技术,不允许同一ip地址对网站进行高频率的请求,限制爬虫程序的访问速度。为了应对反扒技术,爬虫程序开始使用代理请求目标服务器来下载正常的网页。
现有技术中大都采用通用的代理池供给爬虫程序调用。网络爬虫是一种网络浏览机器人,每次爬虫程序请求代理池分发一个新的代理,爬虫接收分发的代理后直接向目标服务器请求网络资源,无法辨识代理的质量和可使用状态,造成大量爬虫的请求失败,失败后还是频繁的继续请求,造成网络和服务器资源的大部分浪费。
因此,如何保证代理的高使用状态和高质量,对代理池合理分级,提高爬虫网络资源获取的成功率,减少对目标服务器的伤害,是目前需要解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供一种提升爬虫代理质量的方法,包括以下步骤:
为若干代理池设置不同优先级;
基于代理池优先级及其使用率来进行代理池的调用。
可选地,所述为若干代理池设置不同优先级具体包括:
设置N个不同优先级的代理池。
可选地,在所述设置N个不同优先级的代理池之后,还包括:
设置与所述代理池一一对应的时间区间。
可选地,所述方法还包括:
获取网络代理,通过当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功。
可选地,若请求成功,则获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中.
可选地,若请求不成功,则将当前网络代理放入废弃代理池;
可选地,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
可选地,优先级越高的代理池,设置的时间区间越小。
可选地,根据返回状态判断网络资源是否请求成功的具体方法为,检测返回状态码是否为200至206的任一值,如果是,则请求成功,如果不是,则请求失败。
可选地,按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体方法为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换至下一优先级代理池进行代理池调用。
可选地,所述检测代理池的代理使用率的具体方法为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
可选的,代理使用阈值设定为85%。
本发明提出一种提升爬虫代理质量的装置,包括:
N个不同优先级的代理池,每个代理池具有一一对应的时间区间;
资源请求模块,用于获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功,将代理送至代理判决模块,若请求失败,将代理放入废弃代理池;
代理池调用模块,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
可选地,所述系统还包括:
废弃代理池,用于存储网络资源请求失败的代理。
可选地,所述系统还包括:
代理质量判定模块,用于获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中。
可选地,所述越高优先级的代理池,设置时间区间越小。
可选地,所述资源请求模块根据返回状态判断网络资源是否请求成功的具体为,检测返回状态码是否为200至206的任一数值,如果是则请求成功,不是则请求失败。
可选地,所述代理池调用模块按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储提升爬虫代理质量程序,所述提升爬虫代理质量程序被执行时实现如上所述的提升爬虫代理质量方法的步骤。
本发明的有益效果体现在:通过对代理池合理分级,将代理按照优质程度分类放入代理池中,并根据代理池的代理使用率进行代理池切换,实现网络代理的有效管理,将优质代理的使用率提升到最大化,提高爬虫程序的网络资源获取效率;检测代理的可用状态,保证其请求的成功性,排除不可于用的代理,一定程度上减少了对于网络资源的占用,降低网络请求对目标服务器的伤害。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明某一个实施例公开的一种提升爬虫代理质量的方法;
图2为本发明另一个实施例公开的一种提升爬虫代理质量的方法;
图3为本发明一个实施例公开的一种提升爬虫代理质量的装置;
图4为本发明一个实施例优选的提升爬虫代理质量的流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,本发明提出一种提升爬虫代理质量的方法,包括以下步骤:
为若干代理池设置不同优先级;
基于代理池优先级及其使用率来进行代理池的调用。
如图2所示,本发明提出一种提升爬虫代理质量的方法,包括以下步骤:
步骤S1,设置N个不同优先级的代理池,设置与代理池一一对应的时间区间;
本发明中,首先设置N个代理池,N为大于等于1的自然数。对N个代理池按优先级进行合理分级,越高优先级的代理池存储越优质的网络代理,爬虫按代理池的优先级顺序由高到低调用各代理池,提取并使用代理池中网络代理。以此方式爬虫优先提取优质代理。本发明根据网络代理的获取网络资源总占用时间来判断代理优质程度,从而放入不同优先级的代理池中,用于后续爬虫的使用。获取网络资源总占用时间为:网络代理从发出网络资源请求到获取网络资源的总占用时间。
本发明每个代理池设置唯一对应的时间区间,且时间区间范围不重叠、交叉,便于后续将各网络代理根据其代理获取网络资源的占用时间与时间区间的关系,放入唯一对应的代理池中。具体的,当代理获取网络资源的总占用时间在某一时间区间范围内,则认定该代理在该时间区间对应的代理池中,将该代理放入代理池。
优选的,所述步骤S1中,越高优先级的代理池,设置时间区间越小。
本发明中,可以设置最高优先级的代理池时间区间为大于0ms且小于等于70ms,第二优先级代理池的时间区间设置为大于70ms且小于等于100ms。
步骤S2,获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功转入步骤S3,若请求失败转入步骤S4;
优选的,所述步骤S2中,根据返回状态判断网络资源是否请求成功的具体方法为,检测返回状态码是否为200~206的任一数值,如果是则请求成功,不是则请求失败。
本发明中,根据网络请求所返回的状态码确定网络资源是否请求成功。状态码为200~206为请求成功码。
步骤S3,获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中,转入步骤S5;
本发明中,将各网络代理从发出网络资源请求到成功获取网络资源的总占用时间与时间区间做比较,当网络代理的占用时间落入其中某一代理池对应的时间区间范围内,则将该代理放入该代理池中。
步骤S4,将当前网络代理放入废弃代理池;
步骤S5,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
优选的,步骤S5中,按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体方法为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
本发明中,爬虫按照代理池优先级顺序,保证优质代理的高可用性。先调用最高优先级的代理池,当最高优先级的代理池的代理使用率超过了代理使用阈值,则按照优先级顺序顺位调用下一代理池,以此方式轮询,实现代理池负载均衡,保证优质代理的高可用性。
优选的,检测代理池的代理使用率的具体方法为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
优选的,代理使用阈值设定为85%。
具体的,代理使用率的具体算法为:代理使用率=(代理池总代理容量-代理池剩余代理数量)/代理池总代理容量。
如图3所示,本发明提出一种提升爬虫代理质量的装置,包括:
N个不同优先级的代理池,每个代理池具有一一对应的时间区间;
废弃代理池,用于存储网络资源请求失败的代理;
本发明中,设置N个代理池,N为大于等于1的自然数。对N个代理池按优先级进行合理分级,越高优先级的代理池存储越优质的网络代理,爬虫按代理池的优先级顺序由高到低调用各代理池,提取并使用代理池中网络代理。以此方式爬虫优先提取优质代理。本发明根据网络代理的获取网络资源总占用时间来判断代理优质程度,从而放入不同优先级的代理池中,用于后续爬虫的使用。获取网络资源总占用时间为:网络代理从发出网络资源请求到获取网络资源的总占用时间。
本发明每个代理池设置唯一对应的时间区间,且时间区间范围不重叠、交叉,便于后续将各网络代理根据其代理获取网络资源的占用时间与时间区间的关系,放入唯一对应的代理池中。具体的,当代理获取网络资源的总占用时间在某一时间区间范围内,则认定该代理在该时间区间对应的代理池中,将该代理放入代理池。
优选的,越高优先级的代理池,设置时间区间越小。
本发明中,可以设置最高优先级的代理池时间区间为大于0ms且小于等于70ms,第二优先级代理池的时间区间设置为大于70ms且小于等于100ms。最高优先级代理池的时间区间整体小于第二优先级代理池的时间区间。
本发明中,对于请求网络资源失败的代理,放到废弃代理池中,不予使用。
资源请求模块,用于获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功,将代理送至代理判决模块,若请求失败,将代理放入废弃代理池;
优选的,所述资源请求模块根据返回状态判断网络资源是否请求成功的具体为,检测返回状态码是否为200~206的任一数值,如果是则请求成功,不是则请求失败。
本发明中,资源请求模块连接代理判决模块和废弃代理池模块,资源请求模块获取网络代理,根据网络请求所返回的状态码确定网络资源是否请求成功。状态码为200~206均为请求成功码。
代理质量判定模块,用于获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中;
本发明中,代理质量判定模块连接资源请求模块,接收网络代理,进行代理质量判定。将各网络代理从发出网络资源请求到成功获取网络资源的总占用时间与时间区间做比较,当网络代理的占用时间落入其中某一代理池对应的时间区间范围内,则将该代理放入该代理池中。当网络代理占用时间越少,代理质量越高,对应越小的时间区间内,将把该网络代理对应放到更高优先级的代理池中。
代理池调用模块,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
优选的,所述代理池调用模块按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
本发明中,当网络代理根据其占用时间放入对应的代理池后,代理池调用模块按照代理池优先级顺序进行代理池调用,保证优质代理具有高可用性。先调用最高优先级的代理池,同时检测最高优先级代理池的代理使用率。当最高优先级的代理池的代理使用率超过了代理使用阈值,则按照优先级顺序顺位调用下一代理池,以此方式轮询,实现各代理池负载均衡,保证优质代理的高可用性。代理池调用模块具体为爬虫程序进行代理池调用和切换,并使用高质量的代理。
优选的,代理池调用模块检测代理池的代理使用率的具体为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
优选的,代理使用阈值设定为85%。
具体的,代理使用率的具体算法为:代理使用率=(代理池总代理容量-代理池剩余代理数量)/代理池总代理容量。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储提升爬虫代理质量程序,所述提升爬虫代理质量程序被执行时实现如下步骤:
步骤S1,设置N个不同优先级的代理池,设置与代理池一一对应的时间区间;
步骤S2,获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功转入步骤S3,若请求失败转入步骤S4;
步骤S3,获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中,转入步骤S5;
步骤S4,将当前网络代理放入废弃代理池;
步骤S5,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
可选的,步骤S1中,越高优先级的代理池,设置时间区间越小。
可选的,步骤S2中,根据返回状态判断网络资源是否请求成功的具体方法为,检测返回状态码是否为200~206的任一值,如果是则请求成功,不是则请求失败。
可选的,步骤S5中,按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体方法为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
可选的,检测代理池的代理使用率的具体方法为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
可选的,代理使用阈值设定为85%。
本发明计算机可读存储介质的具体实施例与上述提高爬虫代理质量方法的各具体实施例基本相同,在此不作赘述。
为了更好的理解发明内容,本发明还给出优选方案实施例。如图4所示,设置三个不同优先级的代理池,用于存放不同优质程度的网络代理,帮助爬虫对优质代理的优先调用。设置优先级最高的一级代理池,优先级其次二级代理池,优先级最低的备选代理池。
本发明中,设置各代理池一一对应的时间区间,各时间区间不重叠交叉,如:将一级代理池的时间区间设置为大于0ms且小于等于70ms;二级代理池的时间区间为大于70ms且小于等于100ms;备选代理池的阈值设置为大于100ms。
本发明中,首先获取一个代理,将该当前网络代理进行网络资源请求,查看返回状态,如果返回状态为200~206的任一值,则代表网络资源请求成功。接着获取当前代理从开始请求网络资源到成功获取网络资源的总占用时间,用于判断代理的优质程度,代理的总占用时间越少代理越优质。如果返回状态为请求失败,则将当前代理放入废弃代理池中。
本发明中,判断当前网络代理的占用时间在一级代理池对应时间区间内,若是,则将当前网络代理放入一级代理池,即将最优质代理放在一级代理池中;若不是,判断当前网络代理的占用时间在二级代理池对应时间区间内,若是,则将当前网络代理放入二级代理池;若不是,则将当前网络代理放入备选代理池。
本发明中,当代理放入代理池后,爬虫按照优先级顺序调用代理池,优先调用一级代理池,使用代理池中代理,并检测一级代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用一级代理池;切换为调用二级代理池,并检测二级代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用二级代理池;切换为调用备选代理池,并检测备选代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用备选代理池;切换为调用一级代理池。以此方式轮询,实现代理池资源的负载均衡,保证优质代理的高可用性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (9)

1.一种提升爬虫代理质量的方法,包括以下步骤:
为若干代理池设置不同优先级;
基于代理池优先级及其使用率来进行代理池的调用;
设置三个不同优先级的代理池,用于存放不同优质程度的网络代理,设置优先级最高的一级代理池,优先级其次二级代理池,优先级最低的备选代理池;
设置与所述代理池一一对应的时间区间;
判断当前网络代理的占用时间在一级代理池对应时间区间内,若是,则将当前网络代理放入一级代理池;若不是,判断当前网络代理的占用时间在二级代理池对应时间区间内,若是,则将当前网络代理放入二级代理池;若不是,则将当前网络代理放入备选代理池;
当代理放入代理池后,爬虫按照优先级顺序调用代理池,优先调用一级代理池,使用代理池中代理,并检测一级代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用一级代理池;切换为调用二级代理池,并检测二级代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用二级代理池;切换为调用备选代理池,并检测备选代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用备选代理池;切换为调用一级代理池。
2.如权利要求1所述的一种提升爬虫代理质量的方法,其特征在于,还包括:在设置三个不同优先级的代理池之后,还包括:
设置与所述代理池一一对应的时间区间。
3.如权利要求2所述的一种提升爬虫代理质量的方法,其特征在于,所述方法还包括:
获取网络代理,通过当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功。
4.如权利要求3所述的一种提升爬虫代理质量的方法,其特征在于,若请求成功,则获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中。
5.一种提升爬虫代理质量的装置,其特征在于,包括:
N个不同优先级的代理池,每个代理池具有一一对应的时间区间;
资源请求模块,用于获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功,将代理送至代理判决模块,若请求失败,将代理放入废弃代理池;
代理池调用模块,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
6.如权利要求5所述的一种提升爬虫代理质量的装置,其特征在于,越高优先级的代理池,设置时间区间越小。
7.如权利要求6所述的一种提升爬虫代理质量的装置,其特征在于,所述资源请求模块根据返回状态判断网络资源是否请求成功的具体为,检测返回状态码是否为200至206的任一数值,如果是则请求成功,不是则请求失败。
8.如权利要求7所述的一种提升爬虫代理质量的装置,其特征在于,所述代理池调用模块按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储提升爬虫代理质量程序,所述提升爬虫代理质量程序被执行时实现如权利要求1至4中任一项所述的提升爬虫代理质量方法的步骤。
CN201910403144.4A 2019-05-15 2019-05-15 提升爬虫代理质量的方法、装置及计算机可读存储介质 Active CN110147271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910403144.4A CN110147271B (zh) 2019-05-15 2019-05-15 提升爬虫代理质量的方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910403144.4A CN110147271B (zh) 2019-05-15 2019-05-15 提升爬虫代理质量的方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110147271A CN110147271A (zh) 2019-08-20
CN110147271B true CN110147271B (zh) 2020-04-28

Family

ID=67595453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910403144.4A Active CN110147271B (zh) 2019-05-15 2019-05-15 提升爬虫代理质量的方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110147271B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560604B2 (en) 2009-10-08 2013-10-15 Hola Networks Ltd. System and method for providing faster and more efficient data communication
US9241044B2 (en) 2013-08-28 2016-01-19 Hola Networks, Ltd. System and method for improving internet communication by using intermediate nodes
US11057446B2 (en) 2015-05-14 2021-07-06 Bright Data Ltd. System and method for streaming content from multiple servers
EP4311204A3 (en) 2017-08-28 2024-04-10 Bright Data Ltd. Method for improving content fetching by selecting tunnel devices
LT3780547T (lt) 2019-02-25 2023-03-10 Bright Data Ltd. Turinio parsisiuntimo, naudojant url bandymų mechanizmą, sistema ir būdas
EP4030318A1 (en) 2019-04-02 2022-07-20 Bright Data Ltd. System and method for managing non-direct url fetching service
US10637956B1 (en) 2019-10-01 2020-04-28 Metacluster It, Uab Smart proxy rotator
CN111522654A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 分布式爬虫的调度处理方法、装置及设备
CN111488507B (zh) * 2020-04-09 2023-05-23 西安影视数据评估中心有限公司 一种网络代理的优选方法
CN112671945A (zh) * 2020-12-21 2021-04-16 深圳壹账通智能科技有限公司 管理ip代理池的方法、装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN103902386A (zh) * 2014-04-11 2014-07-02 复旦大学 一种基于连接代理优化管理的多线程网络爬虫处理方法
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置
CN106547793A (zh) * 2015-09-22 2017-03-29 北京国双科技有限公司 获取代理服务器地址的方法和装置
CN107169006A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种管理爬虫代理的方法及装置
CN107395782A (zh) * 2017-07-19 2017-11-24 北京理工大学 一种基于代理池的ip限制受控源信息抓取方法
CN107800684A (zh) * 2017-09-20 2018-03-13 贵州白山云科技有限公司 一种低频爬虫识别方法及装置
CN107832355A (zh) * 2017-10-23 2018-03-23 北京金堤科技有限公司 一种爬虫程序的代理获取的方法及装置
CN108345642A (zh) * 2018-01-12 2018-07-31 深圳壹账通智能科技有限公司 采用代理ip爬取网站数据的方法、存储介质和服务器
CN108551452A (zh) * 2018-04-18 2018-09-18 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN108924199A (zh) * 2018-06-21 2018-11-30 中山英迈锐信息技术有限公司 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备
CN109274782A (zh) * 2018-08-24 2019-01-25 北京创鑫旅程网络技术有限公司 一种采集网站数据的方法及装置
CN109743411A (zh) * 2018-12-10 2019-05-10 厦门市美亚柏科信息股份有限公司 一种在分布式环境下动态调度ip代理池的方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066153A1 (en) * 2010-08-18 2012-03-15 Psi Systems, Inc. Shipping label kiosk

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN103902386A (zh) * 2014-04-11 2014-07-02 复旦大学 一种基于连接代理优化管理的多线程网络爬虫处理方法
CN106547793A (zh) * 2015-09-22 2017-03-29 北京国双科技有限公司 获取代理服务器地址的方法和装置
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置
CN107169006A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种管理爬虫代理的方法及装置
CN107395782A (zh) * 2017-07-19 2017-11-24 北京理工大学 一种基于代理池的ip限制受控源信息抓取方法
CN107800684A (zh) * 2017-09-20 2018-03-13 贵州白山云科技有限公司 一种低频爬虫识别方法及装置
CN107832355A (zh) * 2017-10-23 2018-03-23 北京金堤科技有限公司 一种爬虫程序的代理获取的方法及装置
CN108345642A (zh) * 2018-01-12 2018-07-31 深圳壹账通智能科技有限公司 采用代理ip爬取网站数据的方法、存储介质和服务器
CN108551452A (zh) * 2018-04-18 2018-09-18 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN108924199A (zh) * 2018-06-21 2018-11-30 中山英迈锐信息技术有限公司 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备
CN109274782A (zh) * 2018-08-24 2019-01-25 北京创鑫旅程网络技术有限公司 一种采集网站数据的方法及装置
CN109743411A (zh) * 2018-12-10 2019-05-10 厦门市美亚柏科信息股份有限公司 一种在分布式环境下动态调度ip代理池的方法、装置及存储介质

Also Published As

Publication number Publication date
CN110147271A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147271B (zh) 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN106533805B (zh) 一种微服务请求处理方法、微服务控制器及微服务架构
US9532359B2 (en) Resource allocation method and device
CN109491788B (zh) 一种虚拟化平台负载均衡实现方法及装置
CN107995286B (zh) 基于dubbo平台的服务自动启停方法、服务器及存储介质
CN111030945A (zh) 容灾方法、容灾网关、存储介质、装置以及系统
CN110234140B (zh) 一种通信方法、装置、实体及存储介质
US8458702B1 (en) Method for implementing user space up-calls on java virtual machine before/after garbage collection
CN110933136A (zh) 一种服务节点选择方法、装置、设备及可读存储介质
CN103746934A (zh) 一种cdn带宽平衡的方法、cdn控制中心及系统
CN104980472A (zh) 网络访问量的控制方法及装置
EP4287023A1 (en) Service processing method and device
CN106412079B (zh) 请求处理方法及系统
CN112416594A (zh) 一种微服务分配方法、电子设备和计算机存储介质
KR20230073315A (ko) 리소스 스케줄링 방법 및 시스템, 전자 디바이스, 그리고 컴퓨터 판독 가능 저장 매체
US11159608B2 (en) Method and control node for managing cloud resources in a communications network
CN117032987A (zh) 分布式任务调度方法、系统、设备及计算机可读介质
CN102123452A (zh) 一种资源的管理方法和设备
CN114285903B (zh) 请求处理方法、装置、系统及电子设备
CN108882296B (zh) 一种处理报文的方法及装置
CN111162952A (zh) 一种设备容错方法及装置
CN115643276A (zh) 数据传输方法、装置、系统与计算机可读存储介质
CN111556142B (zh) 服务调用方法、装置及系统
CN110413436B (zh) 一种故障处理方法及装置
CN103746968A (zh) 一种cdn服务器摘除方法、cdn控制中心及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant