CN110147271A - 提升爬虫代理质量的方法、装置及计算机可读存储介质 - Google Patents
提升爬虫代理质量的方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110147271A CN110147271A CN201910403144.4A CN201910403144A CN110147271A CN 110147271 A CN110147271 A CN 110147271A CN 201910403144 A CN201910403144 A CN 201910403144A CN 110147271 A CN110147271 A CN 110147271A
- Authority
- CN
- China
- Prior art keywords
- agent
- agent pool
- pool
- agency
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提升爬虫代理质量的方法、装置及计算机可读存储介质,所述提升爬虫代理质量的方法包括:为若干代理池设置不同优先级;基于代理池优先级及其使用率来进行代理池的调用。本发明通过对代理池合理分级,将代理按照优质程度分类放入代理池中,并根据代理池的代理使用率进行代理池切换,实现网络代理的有效管理,将优质代理的使用率提升到最大化,提高爬虫程序的网络资源获取效率;检测代理的可用状态,保证其请求的成功性,排除不可于用的代理,一定程度上减少了对于网络资源的占用,降低网络请求对目标服务器的伤害。
Description
技术领域
本发明涉及计算机软件领域,具体涉及一种提升爬虫代理质量的方法、装置及计算机可读存储介质。
背景技术
在迅速发展的互联网时代,用户通过网络爬虫高效的采集公开的网络数据,但是大批量的网络爬虫对网络数据的不断采集,对网络资源占用特别大,给正常的网站服务器带来很大压力。因此,很多网站采用了反扒技术,不允许同一ip地址对网站进行高频率的请求,限制爬虫程序的访问速度。为了应对反扒技术,爬虫程序开始使用代理请求目标服务器来下载正常的网页。
现有技术中大都采用通用的代理池供给爬虫程序调用。网络爬虫是一种网络浏览机器人,每次爬虫程序请求代理池分发一个新的代理,爬虫接收分发的代理后直接向目标服务器请求网络资源,无法辨识代理的质量和可使用状态,造成大量爬虫的请求失败,失败后还是频繁的继续请求,造成网络和服务器资源的大部分浪费。
因此,如何保证代理的高使用状态和高质量,对代理池合理分级,提高爬虫网络资源获取的成功率,减少对目标服务器的伤害,是目前需要解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供一种提升爬虫代理质量的方法,包括以下步骤:
为若干代理池设置不同优先级;
基于代理池优先级及其使用率来进行代理池的调用。
可选地,所述为若干代理池设置不同优先级具体包括:
设置N个不同优先级的代理池。
可选地,在所述设置N个不同优先级的代理池之后,还包括:
设置与所述代理池一一对应的时间区间。
可选地,所述方法还包括:
获取网络代理,通过当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功。
可选地,若请求成功,则获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中.
可选地,若请求不成功,则将当前网络代理放入废弃代理池;
可选地,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
可选地,优先级越高的代理池,设置的时间区间越小。
可选地,根据返回状态判断网络资源是否请求成功的具体方法为,检测返回状态码是否为200至206的任一值,如果是,则请求成功,如果不是,则请求失败。
可选地,按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体方法为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换至下一优先级代理池进行代理池调用。
可选地,所述检测代理池的代理使用率的具体方法为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
可选的,代理使用阈值设定为85%。
本发明提出一种提升爬虫代理质量的装置,包括:
N个不同优先级的代理池,每个代理池具有一一对应的时间区间;
资源请求模块,用于获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功,将代理送至代理判决模块,若请求失败,将代理放入废弃代理池;
代理池调用模块,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
可选地,所述系统还包括:
废弃代理池,用于存储网络资源请求失败的代理。
可选地,所述系统还包括:
代理质量判定模块,用于获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中。
可选地,所述越高优先级的代理池,设置时间区间越小。
可选地,所述资源请求模块根据返回状态判断网络资源是否请求成功的具体为,检测返回状态码是否为200至206的任一数值,如果是则请求成功,不是则请求失败。
可选地,所述代理池调用模块按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储提升爬虫代理质量程序,所述提升爬虫代理质量程序被执行时实现如上所述的提升爬虫代理质量方法的步骤。
本发明的有益效果体现在:通过对代理池合理分级,将代理按照优质程度分类放入代理池中,并根据代理池的代理使用率进行代理池切换,实现网络代理的有效管理,将优质代理的使用率提升到最大化,提高爬虫程序的网络资源获取效率;检测代理的可用状态,保证其请求的成功性,排除不可于用的代理,一定程度上减少了对于网络资源的占用,降低网络请求对目标服务器的伤害。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明某一个实施例公开的一种提升爬虫代理质量的方法;
图2为本发明另一个实施例公开的一种提升爬虫代理质量的方法;
图3为本发明一个实施例公开的一种提升爬虫代理质量的装置;
图4为本发明一个实施例优选的提升爬虫代理质量的流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,本发明提出一种提升爬虫代理质量的方法,包括以下步骤:
为若干代理池设置不同优先级;
基于代理池优先级及其使用率来进行代理池的调用。
如图2所示,本发明提出一种提升爬虫代理质量的方法,包括以下步骤:
步骤S1,设置N个不同优先级的代理池,设置与代理池一一对应的时间区间;
本发明中,首先设置N个代理池,N为大于等于1的自然数。对N个代理池按优先级进行合理分级,越高优先级的代理池存储越优质的网络代理,爬虫按代理池的优先级顺序由高到低调用各代理池,提取并使用代理池中网络代理。以此方式爬虫优先提取优质代理。本发明根据网络代理的获取网络资源总占用时间来判断代理优质程度,从而放入不同优先级的代理池中,用于后续爬虫的使用。获取网络资源总占用时间为:网络代理从发出网络资源请求到获取网络资源的总占用时间。
本发明每个代理池设置唯一对应的时间区间,且时间区间范围不重叠、交叉,便于后续将各网络代理根据其代理获取网络资源的占用时间与时间区间的关系,放入唯一对应的代理池中。具体的,当代理获取网络资源的总占用时间在某一时间区间范围内,则认定该代理在该时间区间对应的代理池中,将该代理放入代理池。
优选的,所述步骤S1中,越高优先级的代理池,设置时间区间越小。
本发明中,可以设置最高优先级的代理池时间区间为大于0ms且小于等于70ms,第二优先级代理池的时间区间设置为大于70ms且小于等于100ms。
步骤S2,获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功转入步骤S3,若请求失败转入步骤S4;
优选的,所述步骤S2中,根据返回状态判断网络资源是否请求成功的具体方法为,检测返回状态码是否为200~206的任一数值,如果是则请求成功,不是则请求失败。
本发明中,根据网络请求所返回的状态码确定网络资源是否请求成功。状态码为200~206为请求成功码。
步骤S3,获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中,转入步骤S5;
本发明中,将各网络代理从发出网络资源请求到成功获取网络资源的总占用时间与时间区间做比较,当网络代理的占用时间落入其中某一代理池对应的时间区间范围内,则将该代理放入该代理池中。
步骤S4,将当前网络代理放入废弃代理池;
步骤S5,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
优选的,步骤S5中,按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体方法为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
本发明中,爬虫按照代理池优先级顺序,保证优质代理的高可用性。先调用最高优先级的代理池,当最高优先级的代理池的代理使用率超过了代理使用阈值,则按照优先级顺序顺位调用下一代理池,以此方式轮询,实现代理池负载均衡,保证优质代理的高可用性。
优选的,检测代理池的代理使用率的具体方法为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
优选的,代理使用阈值设定为85%。
具体的,代理使用率的具体算法为:代理使用率=(代理池总代理容量-代理池剩余代理数量)/代理池总代理容量。
如图3所示,本发明提出一种提升爬虫代理质量的装置,包括:
N个不同优先级的代理池,每个代理池具有一一对应的时间区间;
废弃代理池,用于存储网络资源请求失败的代理;
本发明中,设置N个代理池,N为大于等于1的自然数。对N个代理池按优先级进行合理分级,越高优先级的代理池存储越优质的网络代理,爬虫按代理池的优先级顺序由高到低调用各代理池,提取并使用代理池中网络代理。以此方式爬虫优先提取优质代理。本发明根据网络代理的获取网络资源总占用时间来判断代理优质程度,从而放入不同优先级的代理池中,用于后续爬虫的使用。获取网络资源总占用时间为:网络代理从发出网络资源请求到获取网络资源的总占用时间。
本发明每个代理池设置唯一对应的时间区间,且时间区间范围不重叠、交叉,便于后续将各网络代理根据其代理获取网络资源的占用时间与时间区间的关系,放入唯一对应的代理池中。具体的,当代理获取网络资源的总占用时间在某一时间区间范围内,则认定该代理在该时间区间对应的代理池中,将该代理放入代理池。
优选的,越高优先级的代理池,设置时间区间越小。
本发明中,可以设置最高优先级的代理池时间区间为大于0ms且小于等于70ms,第二优先级代理池的时间区间设置为大于70ms且小于等于100ms。最高优先级代理池的时间区间整体小于第二优先级代理池的时间区间。
本发明中,对于请求网络资源失败的代理,放到废弃代理池中,不予使用。
资源请求模块,用于获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功,将代理送至代理判决模块,若请求失败,将代理放入废弃代理池;
优选的,所述资源请求模块根据返回状态判断网络资源是否请求成功的具体为,检测返回状态码是否为200~206的任一数值,如果是则请求成功,不是则请求失败。
本发明中,资源请求模块连接代理判决模块和废弃代理池模块,资源请求模块获取网络代理,根据网络请求所返回的状态码确定网络资源是否请求成功。状态码为200~206均为请求成功码。
代理质量判定模块,用于获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中;
本发明中,代理质量判定模块连接资源请求模块,接收网络代理,进行代理质量判定。将各网络代理从发出网络资源请求到成功获取网络资源的总占用时间与时间区间做比较,当网络代理的占用时间落入其中某一代理池对应的时间区间范围内,则将该代理放入该代理池中。当网络代理占用时间越少,代理质量越高,对应越小的时间区间内,将把该网络代理对应放到更高优先级的代理池中。
代理池调用模块,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
优选的,所述代理池调用模块按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
本发明中,当网络代理根据其占用时间放入对应的代理池后,代理池调用模块按照代理池优先级顺序进行代理池调用,保证优质代理具有高可用性。先调用最高优先级的代理池,同时检测最高优先级代理池的代理使用率。当最高优先级的代理池的代理使用率超过了代理使用阈值,则按照优先级顺序顺位调用下一代理池,以此方式轮询,实现各代理池负载均衡,保证优质代理的高可用性。代理池调用模块具体为爬虫程序进行代理池调用和切换,并使用高质量的代理。
优选的,代理池调用模块检测代理池的代理使用率的具体为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
优选的,代理使用阈值设定为85%。
具体的,代理使用率的具体算法为:代理使用率=(代理池总代理容量-代理池剩余代理数量)/代理池总代理容量。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储提升爬虫代理质量程序,所述提升爬虫代理质量程序被执行时实现如下步骤:
步骤S1,设置N个不同优先级的代理池,设置与代理池一一对应的时间区间;
步骤S2,获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功转入步骤S3,若请求失败转入步骤S4;
步骤S3,获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中,转入步骤S5;
步骤S4,将当前网络代理放入废弃代理池;
步骤S5,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
可选的,步骤S1中,越高优先级的代理池,设置时间区间越小。
可选的,步骤S2中,根据返回状态判断网络资源是否请求成功的具体方法为,检测返回状态码是否为200~206的任一值,如果是则请求成功,不是则请求失败。
可选的,步骤S5中,按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体方法为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
可选的,检测代理池的代理使用率的具体方法为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
可选的,代理使用阈值设定为85%。
本发明计算机可读存储介质的具体实施例与上述提高爬虫代理质量方法的各具体实施例基本相同,在此不作赘述。
为了更好的理解发明内容,本发明还给出优选方案实施例。如图4所示,设置三个不同优先级的代理池,用于存放不同优质程度的网络代理,帮助爬虫对优质代理的优先调用。设置优先级最高的一级代理池,优先级其次二级代理池,优先级最低的备选代理池。
本发明中,设置各代理池一一对应的时间区间,各时间区间不重叠交叉,如:将一级代理池的时间区间设置为大于0ms且小于等于70ms;二级代理池的时间区间为大于70ms且小于等于100ms;备选代理池的阈值设置为大于100ms。
本发明中,首先获取一个代理,将该当前网络代理进行网络资源请求,查看返回状态,如果返回状态为200~206的任一值,则代表网络资源请求成功。接着获取当前代理从开始请求网络资源到成功获取网络资源的总占用时间,用于判断代理的优质程度,代理的总占用时间越少代理越优质。如果返回状态为请求失败,则将当前代理放入废弃代理池中。
本发明中,判断当前网络代理的占用时间在一级代理池对应时间区间内,若是,则将当前网络代理放入一级代理池,即将最优质代理放在一级代理池中;若不是,判断当前网络代理的占用时间在二级代理池对应时间区间内,若是,则将当前网络代理放入二级代理池;若不是,则将当前网络代理放入备选代理池。
本发明中,当代理放入代理池后,爬虫按照优先级顺序调用代理池,优先调用一级代理池,使用代理池中代理,并检测一级代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用一级代理池;切换为调用二级代理池,并检测二级代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用二级代理池;切换为调用备选代理池,并检测备选代理池的代理使用率,当使用率超过使用率阈值时,爬虫停止调用备选代理池;切换为调用一级代理池。以此方式轮询,实现代理池资源的负载均衡,保证优质代理的高可用性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种提升爬虫代理质量的方法,包括以下步骤:
为若干代理池设置不同优先级;
基于代理池优先级及其使用率来进行代理池的调用。
2.如权利要求1所述的一种提升爬虫代理质量的方法,其特征在于,所述为若干代理池设置不同优先级具体包括:
设置N个不同优先级的代理池。
3.如权利要求2所述的一种提升爬虫代理质量的方法,其特征在于,在所述设置N个不同优先级的代理池之后,还包括:
设置与所述代理池一一对应的时间区间。
4.如权利要求3所述的一种提升爬虫代理质量的方法,其特征在于,所述方法还包括:
获取网络代理,通过当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功。
5.如权利要求4所述的一种提升爬虫代理质量的方法,其特征在于,若请求成功,则获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中。
6.一种提升爬虫代理质量的装置,其特征在于,包括:
N个不同优先级的代理池,每个代理池具有一一对应的时间区间;
资源请求模块,用于获取网络代理,将当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功,若请求成功,将代理送至代理判决模块,若请求失败,将代理放入废弃代理池;
代理池调用模块,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
7.如权利要求6所述的一种提升爬虫代理质量的装置,其特征在于,所述越高优先级的代理池,设置时间区间越小。
8.如权利要求6所述的一种提升爬虫代理质量的装置,其特征在于,所述资源请求模块根据返回状态判断网络资源是否请求成功的具体为,检测返回状态码是否为200至206的任一数值,如果是则请求成功,不是则请求失败。
9.如权利要求6所述的一种提升爬虫代理质量的装置,其特征在于,所述代理池调用模块按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换调用下一优先级的代理池。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储提升爬虫代理质量程序,所述提升爬虫代理质量程序被执行时实现如权利要求1至5中任一项所述的提升爬虫代理质量方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910403144.4A CN110147271B (zh) | 2019-05-15 | 2019-05-15 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910403144.4A CN110147271B (zh) | 2019-05-15 | 2019-05-15 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147271A true CN110147271A (zh) | 2019-08-20 |
CN110147271B CN110147271B (zh) | 2020-04-28 |
Family
ID=67595453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910403144.4A Active CN110147271B (zh) | 2019-05-15 | 2019-05-15 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147271B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488507A (zh) * | 2020-04-09 | 2020-08-04 | 西安影视数据评估中心有限公司 | 一种网络代理的优选方法 |
CN111522654A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 分布式爬虫的调度处理方法、装置及设备 |
CN112671945A (zh) * | 2020-12-21 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
EP3900240B1 (en) | 2019-10-01 | 2022-05-18 | Metacluster LT, UAB | Smart proxy rotator |
US11595496B2 (en) | 2013-08-28 | 2023-02-28 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11611607B2 (en) | 2009-10-08 | 2023-03-21 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11657110B2 (en) | 2019-02-25 | 2023-05-23 | Bright Data Ltd. | System and method for URL fetching retry mechanism |
US11711233B2 (en) | 2017-08-28 | 2023-07-25 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11757961B2 (en) | 2015-05-14 | 2023-09-12 | Bright Data Ltd. | System and method for streaming content from multiple servers |
US11902253B2 (en) | 2019-04-02 | 2024-02-13 | Bright Data Ltd. | System and method for managing non-direct URL fetching service |
US12101372B2 (en) | 2023-11-20 | 2024-09-24 | Bright Data Ltd. | System providing faster and more efficient data communication |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120066153A1 (en) * | 2010-08-18 | 2012-03-15 | Psi Systems, Inc. | Shipping label kiosk |
CN103533097A (zh) * | 2013-10-10 | 2014-01-22 | 北京京东尚科信息技术有限公司 | 一种网络爬虫下载解析方法及装置 |
CN103902386A (zh) * | 2014-04-11 | 2014-07-02 | 复旦大学 | 一种基于连接代理优化管理的多线程网络爬虫处理方法 |
CN105335511A (zh) * | 2015-10-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 网页的访问方法及装置 |
CN106547793A (zh) * | 2015-09-22 | 2017-03-29 | 北京国双科技有限公司 | 获取代理服务器地址的方法和装置 |
CN107169006A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种管理爬虫代理的方法及装置 |
CN107395782A (zh) * | 2017-07-19 | 2017-11-24 | 北京理工大学 | 一种基于代理池的ip限制受控源信息抓取方法 |
CN107800684A (zh) * | 2017-09-20 | 2018-03-13 | 贵州白山云科技有限公司 | 一种低频爬虫识别方法及装置 |
CN107832355A (zh) * | 2017-10-23 | 2018-03-23 | 北京金堤科技有限公司 | 一种爬虫程序的代理获取的方法及装置 |
CN108345642A (zh) * | 2018-01-12 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
CN108551452A (zh) * | 2018-04-18 | 2018-09-18 | 平安科技(深圳)有限公司 | 网络爬虫方法、终端及存储介质 |
CN108924199A (zh) * | 2018-06-21 | 2018-11-30 | 中山英迈锐信息技术有限公司 | 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备 |
CN109274782A (zh) * | 2018-08-24 | 2019-01-25 | 北京创鑫旅程网络技术有限公司 | 一种采集网站数据的方法及装置 |
CN109743411A (zh) * | 2018-12-10 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 一种在分布式环境下动态调度ip代理池的方法、装置及存储介质 |
-
2019
- 2019-05-15 CN CN201910403144.4A patent/CN110147271B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120066153A1 (en) * | 2010-08-18 | 2012-03-15 | Psi Systems, Inc. | Shipping label kiosk |
CN103533097A (zh) * | 2013-10-10 | 2014-01-22 | 北京京东尚科信息技术有限公司 | 一种网络爬虫下载解析方法及装置 |
CN103902386A (zh) * | 2014-04-11 | 2014-07-02 | 复旦大学 | 一种基于连接代理优化管理的多线程网络爬虫处理方法 |
CN106547793A (zh) * | 2015-09-22 | 2017-03-29 | 北京国双科技有限公司 | 获取代理服务器地址的方法和装置 |
CN105335511A (zh) * | 2015-10-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 网页的访问方法及装置 |
CN107169006A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种管理爬虫代理的方法及装置 |
CN107395782A (zh) * | 2017-07-19 | 2017-11-24 | 北京理工大学 | 一种基于代理池的ip限制受控源信息抓取方法 |
CN107800684A (zh) * | 2017-09-20 | 2018-03-13 | 贵州白山云科技有限公司 | 一种低频爬虫识别方法及装置 |
CN107832355A (zh) * | 2017-10-23 | 2018-03-23 | 北京金堤科技有限公司 | 一种爬虫程序的代理获取的方法及装置 |
CN108345642A (zh) * | 2018-01-12 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
CN108551452A (zh) * | 2018-04-18 | 2018-09-18 | 平安科技(深圳)有限公司 | 网络爬虫方法、终端及存储介质 |
CN108924199A (zh) * | 2018-06-21 | 2018-11-30 | 中山英迈锐信息技术有限公司 | 爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备 |
CN109274782A (zh) * | 2018-08-24 | 2019-01-25 | 北京创鑫旅程网络技术有限公司 | 一种采集网站数据的方法及装置 |
CN109743411A (zh) * | 2018-12-10 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 一种在分布式环境下动态调度ip代理池的方法、装置及存储介质 |
Cited By (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11888922B2 (en) | 2009-10-08 | 2024-01-30 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11700295B2 (en) | 2009-10-08 | 2023-07-11 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11811848B2 (en) | 2009-10-08 | 2023-11-07 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12095843B2 (en) | 2009-10-08 | 2024-09-17 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11956299B2 (en) | 2009-10-08 | 2024-04-09 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11611607B2 (en) | 2009-10-08 | 2023-03-21 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11616826B2 (en) | 2009-10-08 | 2023-03-28 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11659018B2 (en) | 2009-10-08 | 2023-05-23 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11659017B2 (en) | 2009-10-08 | 2023-05-23 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11949729B2 (en) | 2009-10-08 | 2024-04-02 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12081612B2 (en) | 2009-10-08 | 2024-09-03 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11671476B2 (en) | 2009-10-08 | 2023-06-06 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11811849B2 (en) | 2009-10-08 | 2023-11-07 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12095840B2 (en) | 2009-10-08 | 2024-09-17 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11916993B2 (en) | 2009-10-08 | 2024-02-27 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11838119B2 (en) | 2009-10-08 | 2023-12-05 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11811850B2 (en) | 2009-10-08 | 2023-11-07 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11902351B2 (en) | 2009-10-08 | 2024-02-13 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12021916B2 (en) | 2009-10-08 | 2024-06-25 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12003568B2 (en) | 2009-10-08 | 2024-06-04 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11962636B2 (en) | 2009-10-08 | 2024-04-16 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12021914B2 (en) | 2009-10-08 | 2024-06-25 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11888921B2 (en) | 2009-10-08 | 2024-01-30 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12003569B2 (en) | 2009-10-08 | 2024-06-04 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11770435B2 (en) | 2009-10-08 | 2023-09-26 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12003566B2 (en) | 2009-10-08 | 2024-06-04 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12095841B2 (en) | 2009-10-08 | 2024-09-17 | Bright Data Ltd. | System providing faster and more efficient data communication |
US12003567B2 (en) | 2009-10-08 | 2024-06-04 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11876853B2 (en) | 2009-10-08 | 2024-01-16 | Bright Data Ltd. | System providing faster and more efficient data communication |
US11677856B2 (en) | 2013-08-28 | 2023-06-13 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11838388B2 (en) | 2013-08-28 | 2023-12-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11838386B2 (en) | 2013-08-28 | 2023-12-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12010196B2 (en) | 2013-08-28 | 2024-06-11 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11870874B2 (en) | 2013-08-28 | 2024-01-09 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11985212B2 (en) | 2013-08-28 | 2024-05-14 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11949755B2 (en) | 2013-08-28 | 2024-04-02 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11799985B2 (en) | 2013-08-28 | 2023-10-24 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12021944B2 (en) | 2013-08-28 | 2024-06-25 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11758018B2 (en) | 2013-08-28 | 2023-09-12 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12021946B2 (en) | 2013-08-28 | 2024-06-25 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12003605B2 (en) | 2013-08-28 | 2024-06-04 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11729297B2 (en) | 2013-08-28 | 2023-08-15 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12021945B2 (en) | 2013-08-28 | 2024-06-25 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11902400B2 (en) | 2013-08-28 | 2024-02-13 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12069148B2 (en) | 2013-08-28 | 2024-08-20 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11689639B2 (en) | 2013-08-28 | 2023-06-27 | Bright Data Ltd. | System and method for improving Internet communication by using intermediate nodes |
US11924307B2 (en) | 2013-08-28 | 2024-03-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11924306B2 (en) | 2013-08-28 | 2024-03-05 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11949756B2 (en) | 2013-08-28 | 2024-04-02 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12069150B2 (en) | 2013-08-28 | 2024-08-20 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US12088684B2 (en) | 2013-08-28 | 2024-09-10 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11985210B2 (en) | 2013-08-28 | 2024-05-14 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11595496B2 (en) | 2013-08-28 | 2023-02-28 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11979475B2 (en) | 2013-08-28 | 2024-05-07 | Bright Data Ltd. | System and method for improving internet communication by using intermediate nodes |
US11757961B2 (en) | 2015-05-14 | 2023-09-12 | Bright Data Ltd. | System and method for streaming content from multiple servers |
US12003562B2 (en) | 2015-05-14 | 2024-06-04 | Bright Data Ltd. | System and method for streaming content from multiple servers |
US12088651B2 (en) | 2015-05-14 | 2024-09-10 | Bright Data Ltd. | System and method for streaming content from multiple servers |
US11729012B2 (en) | 2017-08-28 | 2023-08-15 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11711233B2 (en) | 2017-08-28 | 2023-07-25 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11979249B2 (en) | 2017-08-28 | 2024-05-07 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11729013B2 (en) | 2017-08-28 | 2023-08-15 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11902044B2 (en) | 2017-08-28 | 2024-02-13 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11888639B2 (en) | 2017-08-28 | 2024-01-30 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11888638B2 (en) | 2017-08-28 | 2024-01-30 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11876612B2 (en) | 2017-08-28 | 2024-01-16 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11979250B2 (en) | 2017-08-28 | 2024-05-07 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11863339B2 (en) | 2017-08-28 | 2024-01-02 | Bright Data Ltd. | System and method for monitoring status of intermediate devices |
US11962430B2 (en) | 2017-08-28 | 2024-04-16 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11764987B2 (en) | 2017-08-28 | 2023-09-19 | Bright Data Ltd. | System and method for monitoring proxy devices and selecting therefrom |
US12034559B2 (en) | 2017-08-28 | 2024-07-09 | Bright Data Ltd. | System and method for selecting and using a proxy device |
US11757674B2 (en) | 2017-08-28 | 2023-09-12 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US11909547B2 (en) | 2017-08-28 | 2024-02-20 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US12057958B2 (en) | 2017-08-28 | 2024-08-06 | Bright Data Ltd. | System and method for improving content fetching by using an appliance as a proxy device |
US11956094B2 (en) | 2017-08-28 | 2024-04-09 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US12040910B2 (en) | 2017-08-28 | 2024-07-16 | Bright Data Ltd. | Content fetching by mobile device selected based on battery changing level |
US12047191B2 (en) | 2017-08-28 | 2024-07-23 | Bright Data Ltd. | System and method for improving content fetching by selecting tunnel devices |
US12056202B2 (en) | 2019-02-25 | 2024-08-06 | Bright Data Ltd. | System and method for URL fetching retry mechanism |
US11675866B2 (en) | 2019-02-25 | 2023-06-13 | Bright Data Ltd. | System and method for URL fetching retry mechanism |
US11657110B2 (en) | 2019-02-25 | 2023-05-23 | Bright Data Ltd. | System and method for URL fetching retry mechanism |
US12069029B2 (en) | 2019-04-02 | 2024-08-20 | Bright Data Ltd. | System and method for managing non-direct URL fetching service |
US12010101B2 (en) | 2019-04-02 | 2024-06-11 | Bright Data Ltd. | System and method for managing non-direct URL fetching service |
US11902253B2 (en) | 2019-04-02 | 2024-02-13 | Bright Data Ltd. | System and method for managing non-direct URL fetching service |
EP3900240B1 (en) | 2019-10-01 | 2022-05-18 | Metacluster LT, UAB | Smart proxy rotator |
CN111522654A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 分布式爬虫的调度处理方法、装置及设备 |
CN111488507A (zh) * | 2020-04-09 | 2020-08-04 | 西安影视数据评估中心有限公司 | 一种网络代理的优选方法 |
CN111488507B (zh) * | 2020-04-09 | 2023-05-23 | 西安影视数据评估中心有限公司 | 一种网络代理的优选方法 |
CN112671945A (zh) * | 2020-12-21 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
US12101372B2 (en) | 2023-11-20 | 2024-09-24 | Bright Data Ltd. | System providing faster and more efficient data communication |
Also Published As
Publication number | Publication date |
---|---|
CN110147271B (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147271A (zh) | 提升爬虫代理质量的方法、装置及计算机可读存储介质 | |
CN103902646B (zh) | 一种分布式任务管理系统与方法 | |
CN109146671A (zh) | 风控方法、装置及计算机可读存储介质 | |
CN106846041A (zh) | 优惠券的发放方法及系统 | |
CN104699529B (zh) | 一种信息获取方法及装置 | |
CN104484222A (zh) | 一种基于混合遗传算法的虚拟机调度方法 | |
CN106845678A (zh) | 一种电力通信备件资源全网一体化动态调配方法及装置 | |
CN106529914A (zh) | 一种自动催费方法及装置 | |
CN109992392A (zh) | 一种资源部署方法、装置及资源服务器 | |
Freire et al. | A self-adapting latency/power tradeoff model for replicated search engines | |
CN106933822A (zh) | 一种内容推荐方法及装置 | |
CN107846614B (zh) | 一种视频流量调度方法、装置及电子设备 | |
CN102843369B (zh) | Ui界面的网络访问方法和系统 | |
CN104283934B (zh) | 一种基于可靠性预测的web服务推送方法、装置及服务器 | |
CN106470218A (zh) | 一种网络平台下资源内容回收的方法和装置 | |
CN112606717A (zh) | 共享充电桩的控制方法、装置、存储介质及处理器 | |
CN114331446B (zh) | 区块链的链外服务实现方法、装置、设备和介质 | |
CN111078735A (zh) | 一种查询请求处理方法及装置 | |
CN110995519B (zh) | 一种负载均衡方法及装置 | |
CN114416343A (zh) | 基于最大熵逆强化学习的无服务器计算资源配置方法 | |
CN106357798A (zh) | Portal页面中媒体文件的存储及获取方法、云控制器及终端 | |
CN113742187A (zh) | 应用系统的容量预测方法、装置、设备及存储介质 | |
CN111444184A (zh) | 数据存储方法、存储调度服务器、电子设备及存储介质 | |
CN109615919A (zh) | 虚拟停车场用户管理方法、服务器和计算机可读存储介质 | |
CN111126738A (zh) | 一种互联网微信社群管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |