CN111756850B - 一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统 - Google Patents

一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统 Download PDF

Info

Publication number
CN111756850B
CN111756850B CN202010604567.5A CN202010604567A CN111756850B CN 111756850 B CN111756850 B CN 111756850B CN 202010604567 A CN202010604567 A CN 202010604567A CN 111756850 B CN111756850 B CN 111756850B
Authority
CN
China
Prior art keywords
time
proxy
level
agent
interval time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010604567.5A
Other languages
English (en)
Other versions
CN111756850A (zh
Inventor
范晓忻
文章
吴广良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3golden Beijing Information Technology Co ltd
Original Assignee
3golden Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3golden Beijing Information Technology Co ltd filed Critical 3golden Beijing Information Technology Co ltd
Priority to CN202010604567.5A priority Critical patent/CN111756850B/zh
Publication of CN111756850A publication Critical patent/CN111756850A/zh
Application granted granted Critical
Publication of CN111756850B publication Critical patent/CN111756850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/62Establishing a time schedule for servicing the requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种服务于互联网数据采集的代理IP请求频率自动调整方法,包括如下步骤:根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间。本发明的技术方案可以控制不同优劣程度的代理IP的请求访问频率;将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用;从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。

Description

一种服务于互联网数据采集的代理IP请求频率自动调整方法 及系统
技术领域
本发明数据检索领域,特别涉及一种服务于互联网数据采集的代理IP请求频率自动调整方法。
背景技术
在互联网数据采集技术中,搭建IP代理池并使用不同的代理IP轮流进行爬取为常见技术。然而,公网代理具有不稳定和时效性差的特性,因此有必要对代理的使用进行优先级排序。CN 107957999 A,主要目的在于保证大部分使用的代理IP有效并多次利用,并在已有的代理IP失效时,通过动态获取新的代理IP,进行筛选替换失效的代理IP,但是其无法控制不同优劣程度的代理IP的请求访问频率,无法在代理可用状态下最大限度使用代理。
发明内容
为了解决本发明所提出的技术问题,本发明一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整方法,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率,提高单位时间内优质代理的使用率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。
本发明另外一方面提供了一种服务于互联网数据采集的代理IP请求频率自动调整系统,所述系统配配置为:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间。本发明的有益效果在于,可以控制不同优劣程度的代理IP的请求访问频率;将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用;从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。
附图说明
图1.快速达到极限间隔时间示意图;
图2.自动频率调整流程图。
具体实施方式
在一些服务于互联网数据采集的代理IP请求频率自动调整方法的实施例中,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间t来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率f;
其中,间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间;代理IP的请求访问频率f与间隔时间T的关系满足:f=1/T。
在一些实施例中,代理IP属性包括但不限于等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种。
等级名称level_name根据代理的下载时间划分;等级level是等级名称的数字表示,比如1、2、3、4、5;间隔时间wait_time是代理的实时等待时间;最后访问时间last_time是代理最新的使用时间,该代理下次使用时间大于等于last_time+wait_time;代理类型proxy_type分为公网代理和稳定代理;网站名websit是代理对应的网站名称;原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间,在一些实施例中,所述原始间隔时间为常量,根据本发明的构思选择的计算该常量的算法均在本发明的保护范围之内。
在一些实施例中,当实时等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2 (式1)
其中,N极限表示是指每个等级的最大间隔时间,n表示原始间隔时间,L表示根据当前的下载时间t划分的等级数值(为大于1的自然数,其中数字越小等级越高)。当前等待时间N,是当前代理的实时等待时间,用N表示。
在另外一些实施例中,代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。
在这些实施例中,当实时等待时间N小于极限间隔时间时,所述间隔时间T的调整过程的公式表示为:
Figure GDA0003367397390000041
其中,N表示实时等待时间,s为系数且0<s<1,优选的为0.1,C表示当前等级次数。
下面一些实施例进一步对本发明进行说明。
在这些实施例中,先明确两个时间:1.间隔时间,是代理从上次使用完毕到下次使用开始的中间时间。2.下载时间,是代理实际发出一个请求到接受返回结果的时间。本发明实施例中调整请求频率的目的之一是将好用的的代理的访问频率加大,将不好用的代理的访问频率减小或不使用。这样做的目的是从宏观上减少垃圾代理的使用时间,从而增加单位时间内代理的任务下载量,提高爬虫的效率。
在这些实施例中,为了达到实时控制代理IP的间隔时间T的目的,需要给代理IP添加如下所示属性,如表1所示:
表1代理IP添加的属性列表
level_name 等级名称
level 等级
level_count 等级计数
wait_time 间隔时间
last_time 最后访问时间
proxy_type 代理类型
websit 网站名
origin_wait_time 原始间隔时间
其中,【等级名称】根据代理的【下载时间】划分;【等级】是等级名称的数字表示;【等级计数】是当前等级下的连续访问次数;【间隔时间】是代理的实时【等待时间】;【最后访问时间】是代理最新的使用时间;【代理类型】分为公网代理和稳定代理;【网站名】是代理对应的网站名称;【原始间隔时间】是《网站访问频率测试》得到的最佳【等待时间】。
在这些实施例中,根据代理IP的属性,通过监控代理IP当前的【下载时间】来实时调整其【间隔时间】,从而控制不同优劣程度的代理的请求访问频率。计算方式如表2所示:
表2:计算方式
等级 等级数值L 等级对应下载时间 极限间隔时间 当前间隔时间 当前等级次数 时间增加减少幅度
正常 1 0s-1s n+(L-1)^2 N C (0.1*C^2)s or 0s or 无穷大
稍慢 2 1s-2s n+(L-1)^2 N C (0.1*C^2)s or 0s or 无穷大
3 2s-4s n+(L-1)^2 N C (0.1*C^2)s or 0s or 无穷大
很慢 4 4s-8s n+(L-1)^2 N C (0.1*C^2)s or 0s or 无穷大
失效 5 8s-失败 无限大 N C 无穷大
参考表2可知,字段组成含义如下:
等级,分为正常、稍慢、慢、慢和失效;
等级数值L,对应等级分别用1、2、3、4、5表示,变量设为L。
等级对应下载时间,0s-1s、1s-2s、2s-4s、4s-8s、8s-失败。
极限间隔时间,是指每个等级的最大间隔时间,假设原始间隔时间是n,则当前等级的最大间隔时间为n+(L-1)2,如果等级是失效,则间隔时间设置为无限大。
当前间隔时间,是当前代理的等待时间,用N表示。
当前等级次数,是在当前的等级下,连续请求的次数,等级改变则重新计数。
时间增加减少幅度,是根据每次下载时间和当前等级次数计算的频率调整幅度。调整包括如下情况:
(1)代理IP可用并且未达到极限间隔时间:代理IP的【等待时间】调整为N+0.1s*C2
(2)代理IP可用并且等级升高:代理IP的【等待时间】调整为N+0.1s*C2
(3)代理IP可用并且等级降低:代理IP的【等待时间】调整为N-0.1s*C2
(4)代理IP可用并且间隔时间等于极限讲个时间:代理IP的【等待时间】不变
(5)代理IP不可用:代理IP的【等待时间】设置为无穷大。
在这些实施例中,频率调整涉及两个计算公式仅以解释如下。
1.极限间隔时间=n+(L-1)2
因为代理IP是循环高频率使用的,因此过多的使用低下载率的代理IP会对整体的下载速度产生不好的影响。随着下载时间的递增,对速度的影响也越来越大。一次在设置间隔时间的时候使用指数递增的方式,如此尽量较少对低质量代理IP的使用,而又能在IP不足的情况下有效的利用低质量代理IP。
2.间隔时间调整幅度=0.1s*C2
设置0.1s的基数是防止间隔时间剧烈波动,同时使用指数相乘的方式,根据变量C的变化情况(连续次数)。能确保不同等级间波动幅度较小,同一等级中却可以快速达到极限值。
其中,参考图1所示,基于本发明实施例的方法的自动频率调整流程可以包括多种形式,下面示例流程并不作为对本发明的保护范围的限定。如图2所示,服务器开始后,请求频率测试结果设置各个代理的原始间隔时间,初始化代理,生成代理库;客户端从代理库获得代理,客户端使用代理后请求反馈代理使用情况(包括下载时间等),根据反馈的信息,计算代理频率(包括更新代理等级、间隔时间等),判断代理等级是否是失效,如果失效则丢弃,否则返回代理库。
本说明书中描述的主题的实施方式和功能性操作可以在以下中实施:数字电子电路,有形实施的计算机软件或者固件,计算机硬件,包括本说明书中公开的结构及其结构等同体,或者上述中的一者以上的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序,即,一个或多个有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块,用以被数据处理设备执行或者控制数据处理设备的操作。
作为替代或者附加,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电信号、光信号或者电磁信号,上述信号被生成为编码信息以传递到用数据处理设备执行的适当的接收器设备。计算机存储介质可以是机器可读存储装置、机器可读的存储基片、随机或者串行存取存储器装置或者上述装置中的一种或多种的组合。

Claims (7)

1.一种服务于互联网数据采集的代理IP请求频率自动调整方法,其特征在于,包括如下步骤:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间;
所述代理IP属性包括等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种;所述等级名称level_name根据代理的下载时间划分;所述等级level是等级名称的数字表示;所述间隔时间wait_time是代理的实时等待时间;所述最后访问时间last_time是代理最新的使用时间;所述代理类型proxy_type分为公网代理和稳定代理;所述网站名websit是代理对应的网站名称;所述原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间。
2.如权利要求1所述的方法,其特征在于,当等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2 (式1)
其中,N极限表示是指每个等级的最大间隔时间;n表示原始间隔时间;L表示等级数值,为大于1的自然数,其中数字越小等级越高。
3.如权利要求2所述的方法,其特征在于,所述代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。
4.如权利要求3所述的方法,其特征在于,当等待时间N小于极限间隔时间时,所述间隔时间T的调整过程的公式表示为:
Figure DEST_PATH_IMAGE001
(式2)
其中,N表示当前代理的等待时间,s为系数且0<s<1,C表示当前等级次数。
5.一种服务于互联网数据采集的代理IP请求频率自动调整系统,其特征在于,所述系统包括至少一个处理器;以及存储器,其存储有指令,当通过至少一个处理器来执行该指令时,所述系统被配置为:
根据代理IP属性,通过监控代理IP当前的下载时间来实时调整其间隔时间T,从而控制不同优劣程度的代理IP的请求访问频率;
所述间隔时间T是代理从上次使用完毕到下次使用开始的中间时间;所述下载时间是代理IP实际发出一个请求到接受返回结果的时间;
所述代理IP属性包括等级名称level_name、等级level、间隔时间wait_time、最后访问时间last_time、代理类型proxy_type、网站名websit、原始间隔时间origin_wait_time中的一种或多种;
所述等级名称level_name根据代理的下载时间划分;所述等级level是等级名称的数字表示;所述间隔时间wait_time是代理的实时等待时间;所述最后访问时间last_time是代理最新的使用时间;所述代理类型proxy_type分为公网代理和稳定代理;所述网站名websit是代理对应的网站名称;所述原始间隔时间origin_wait_time是网站访问频率测试得到的最佳等待时间。
6.如权利要求5所述的系统,其特征在于,所述系统被配置为:
当等待时间N等于极限间隔时间时,所述间隔时间T按照极限间隔时间调整,所述极限间隔时间表示公式为:
T=N极限=n+(L-1)2 (式1)
其中,N极限表示是指每个等级的最大间隔时间;n表示原始间隔时间;L表示等级数值,为大于1的自然数,其中数字越小等级越高。
7.如权利要求6所述的系统,其特征在于,所述系统被配置为:
所述代理IP属性还包括等级计数level_count,所述等级计数level_count是当前等级下的连续访问次数。
当等待时间N小于极限间隔时间时,所述间隔时间T的调整过程的公式表示为:
Figure 356880DEST_PATH_IMAGE001
(式2)
其中,N表示当前代理的等待时间,s为系数且0<s<1,C示当前等级次数。
CN202010604567.5A 2020-06-29 2020-06-29 一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统 Active CN111756850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604567.5A CN111756850B (zh) 2020-06-29 2020-06-29 一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604567.5A CN111756850B (zh) 2020-06-29 2020-06-29 一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统

Publications (2)

Publication Number Publication Date
CN111756850A CN111756850A (zh) 2020-10-09
CN111756850B true CN111756850B (zh) 2022-01-18

Family

ID=72677951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604567.5A Active CN111756850B (zh) 2020-06-29 2020-06-29 一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统

Country Status (1)

Country Link
CN (1) CN111756850B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1816203A (zh) * 2005-02-01 2006-08-09 华为技术有限公司 移动网络中均衡家乡代理负载的实现方法
CN102624920A (zh) * 2012-03-31 2012-08-01 奇智软件(北京)有限公司 一种通过代理服务器进行访问的方法及装置
CN102968719A (zh) * 2012-11-07 2013-03-13 东莞宇龙通信科技有限公司 支付服务器、终端和支付通道接入方法
CN107832355A (zh) * 2017-10-23 2018-03-23 北京金堤科技有限公司 一种爬虫程序的代理获取的方法及装置
CN108712503A (zh) * 2018-05-30 2018-10-26 南京邮电大学 一种网络负载均衡的多代理分布式爬虫系统和方法
CN109274782A (zh) * 2018-08-24 2019-01-25 北京创鑫旅程网络技术有限公司 一种采集网站数据的方法及装置
CN109905472A (zh) * 2019-02-21 2019-06-18 上海富数科技有限公司 自适应网络代理系统及基于神经网络进行权值调整的方法
CN110149419A (zh) * 2019-05-23 2019-08-20 上海睿翎法律咨询服务有限公司 基于ip的高效爬虫方法
CN110637464A (zh) * 2017-05-17 2019-12-31 谷歌有限责任公司 至少部分地基于图像数据来确定用于执行动作的代理

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1716665B1 (en) * 2004-02-18 2009-05-27 Telefonaktiebolaget LM Ericsson (publ) Method and device for reliable broadcast
CN101014947A (zh) * 2004-04-30 2007-08-08 移动网络有限公司 一种关于流内容的自适应速率切换的装置、系统和方法
CN101399707A (zh) * 2008-11-20 2009-04-01 北京邮电大学 一种基于信誉度选择互联网服务的方法及装置
CN102867252B (zh) * 2012-09-14 2016-05-04 东莞宇龙通信科技有限公司 支付服务器和支付通道获取方法
EP3304462A1 (en) * 2015-06-02 2018-04-11 Liveperson Inc. Dynamic communication routing based on consistency weighting and routing rules
CN105872094B (zh) * 2016-05-31 2019-01-01 山东大学 一种基于soa的服务机器人云平台接口系统及方法
US10154431B2 (en) * 2016-09-27 2018-12-11 Verizon Patent And Licensing Inc. Congestion mitigation based on user device and base station condition information
CN108075934B (zh) * 2016-11-15 2021-05-25 腾讯科技(深圳)有限公司 一种网络质量监控方法、装置及系统
CN109729044B (zh) * 2017-10-30 2022-01-14 北京宸瑞科技股份有限公司 一种通用的互联网数据采集反反爬系统及方法
CN108512929B (zh) * 2018-04-11 2021-10-22 维沃移动通信有限公司 一种代理服务器设置方法及移动终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1816203A (zh) * 2005-02-01 2006-08-09 华为技术有限公司 移动网络中均衡家乡代理负载的实现方法
CN102624920A (zh) * 2012-03-31 2012-08-01 奇智软件(北京)有限公司 一种通过代理服务器进行访问的方法及装置
CN102968719A (zh) * 2012-11-07 2013-03-13 东莞宇龙通信科技有限公司 支付服务器、终端和支付通道接入方法
CN110637464A (zh) * 2017-05-17 2019-12-31 谷歌有限责任公司 至少部分地基于图像数据来确定用于执行动作的代理
CN107832355A (zh) * 2017-10-23 2018-03-23 北京金堤科技有限公司 一种爬虫程序的代理获取的方法及装置
CN108712503A (zh) * 2018-05-30 2018-10-26 南京邮电大学 一种网络负载均衡的多代理分布式爬虫系统和方法
CN109274782A (zh) * 2018-08-24 2019-01-25 北京创鑫旅程网络技术有限公司 一种采集网站数据的方法及装置
CN109905472A (zh) * 2019-02-21 2019-06-18 上海富数科技有限公司 自适应网络代理系统及基于神经网络进行权值调整的方法
CN110149419A (zh) * 2019-05-23 2019-08-20 上海睿翎法律咨询服务有限公司 基于ip的高效爬虫方法

Also Published As

Publication number Publication date
CN111756850A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US8510374B2 (en) Polling protocol for automatic load limiting
CN110365765B (zh) 一种缓存服务器的带宽调度方法及装置
CN113110933B (zh) 一种具有Nginx负载均衡技术的系统
US20030229760A1 (en) Storage-assisted quality of service (QoS)
US20150199281A1 (en) Apparatus and method for meeting performance metrics for users in file systems
CN109190070A (zh) 一种数据处理方法、装置、系统及应用服务器
US9729603B2 (en) Content stream delivery using variable cache replacement granularity
CN106648456A (zh) 基于用户访问量以及预测机制的动态副本文件访问方法
CN113472852A (zh) 一种cdn节点的回源方法、装置及设备
WO2016044329A1 (en) Real-time, low memory estimation of unique client computers communicating with a server computer
US9875040B2 (en) Assigning read requests based on busyness of devices
CN111756850B (zh) 一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统
CN113094392A (zh) 数据缓存的方法和装置
CN112631963B (zh) 缓存数据管理方法、装置、设备及存储介质
CN106612329B (zh) 一种缓存方法及装置
CN117376133A (zh) 基于机器学习的流量融合云加速方法及平台
US10182057B1 (en) Highly scalable fine grained rate limiting
CN113268329A (zh) 一种请求调度方法、装置及存储介质
CN110874314A (zh) 压测方法、装置、设备和介质
US10320874B2 (en) Site-based server selection
KR20210139431A (ko) 복수 개의 콘텐츠 전송 네트워크와 통신할 수 있는 클라이언트 디바이스에 의하여 데이터 세그멘트를 획득하기 위한 방법
CN115515188A (zh) 流量控制方法、装置、电子设备及存储介质
CN109120480B (zh) 基于数据中心的链路优化方法及装置
CN111865722B (zh) 一种节点健康状态检测及处理方法
CN111193760B (zh) 一种信息发送方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant