CN112671945A - 管理ip代理池的方法、装置、计算机设备及存储介质 - Google Patents
管理ip代理池的方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112671945A CN112671945A CN202011519476.8A CN202011519476A CN112671945A CN 112671945 A CN112671945 A CN 112671945A CN 202011519476 A CN202011519476 A CN 202011519476A CN 112671945 A CN112671945 A CN 112671945A
- Authority
- CN
- China
- Prior art keywords
- head
- queue
- proxy
- client
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004044 response Effects 0.000 claims abstract description 57
- 238000001514 detection method Methods 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 11
- 230000000903 blocking effect Effects 0.000 abstract description 5
- 230000009193 crawling Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及数据爬取领域,尤其涉及一种管理IP代理池的方法、装置、计算机设备及存储介质,其方法包括:接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值,若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端,接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。本发明实现了IP负载的均衡性和使高质量的代理IP的得到充分利用,同时,避免了同一个代理IP被多个客户端同时使用而造成的卡顿或者被封禁的情况,从而提高了代理池中代理IP的稳定性和有效性。
Description
技术领域
本发明涉及数据爬取领域,尤其涉及一种管理IP代理池的方法、装置、计算机设备及存储介质。
背景技术
随着互联网的高速发展,网络信息越来越丰富且多元化,对信息获取效率的要求也随之提高。通常情况下,短时间内单一IP频繁的访问同一网站去获取信息会导致IP被封锁而不能访问,这时需要使用代理IP去访问获取信息。
目前,有大量公开的免费代理IP和付费代理IP可供选择,但是这些代理IP通常因为被其他人使用来访问同样的目标网站被封锁,或者代理服务器突然发生故障,不能访问获取信息。这些代理IP的不稳定和有效性低,直接影响了信息获取的效率。
发明内容
基于此,有必要针对上述技术不足,提供一种管理IP代理池的方法、装置、计算机设备及存储介质,以解决代理IP不稳定和有效性低的问题。
一种管理IP代理池的方法,包括:
接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值;
若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端;
接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
一种管理IP代理池的装置,包括:
响应时间判断模块,用于接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值;
队首IP发送模块,用于若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端;
队首IP移动模块,用于接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述一种管理IP代理池的方法。
第四方面,本发明提供一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述一种管理IP代理池的方法。
本发明提供的一种管理IP代理池的方法、装置、计算机设备及存储介质,通过接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值,实现了IP负载的均衡性。基于若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端,实现了高质量的代理IP的充分利用,从本质上提高了客户端所获得的代理IP的质量。基于接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置,实现了一定时间内同一个代理IP只被客户端获取到一次。通过上述方法,本发明既实现了IP负载的均衡性,又实现了高质量的代理IP的充分利用,从本质上提高了客户端所获得的代理IP的质量。此外,本发明也实现了一定时间内同一个代理IP只被客户端获取到一次,避免了同一个代理IP被多个客户端同时使用而造成的卡顿或被封锁的情况,从而更进一步的保证了代理IP的稳定性和有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中方法的一应用环境示意图;
图2是本发明一实施例中一种管理IP代理池的方法的一流程示意图;
图3是本发明一实施例中一种管理IP代理池的方法的一流程示意图;
图4是本发明一实施例中一种管理IP代理池的方法的一流程示意图;
图5是本发明一实施例中一种管理IP代理池的装置的一流程示意图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的一种管理IP代理池的方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种管理IP代理池的方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值。
可理解地,客户端是指为客户提供服务的程序。IP使用请求是指客户端发出的调用代理IP的请求。轮询原则包括每次接收到客户端的IP使用请求时,总是先调取IP队列处于队首位置的队首IP,此时,原来处于IP队列第二顺序位的第二IP自动补充到队首位置成为队首IP。响应时间是指代理IP对特定测试链接发出请求到接收到响应结果的时间。特定检测链接是指特定链接的一个稳定的页面。预设阈值可以根据实际需要进行设置,例如,可以是一个低于10秒的值。
在具体实施例中,如图3所示,所述接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值,具体包括如下步骤:
S101、接收M个客户端的IP使用请求;
S102、获取代理池中的前M个IP队列,每个所述客户端匹配一个所述IP队列;
S103、根据轮询原则分别调取各个所述IP队列处于队首位置的队首IP;
S104、分别判断各个所述队首IP的响应时间是否低于所述预设阈值。
具体的,IP队列中包含的都是有效的代理IP,且多个IP队列并列存在于代理池中,每个IP队列包含多个有效代理IP。当有M个客户端同时向调度中心发出IP使用请求时,调度中心调取代理池中的前M个IP队列每个IP队列处于队首位置的队首IP,分别判断对应的队首IP的响应时间是否低于预设阈值。其中,M个客户端同时向调度中心发出IP使用请求包含同一个客户端向调度中心一次性发出多个IP使用请求的情况。可理解的,调度中心是用于调节IP调用工作的单元。
在步骤S101-S104中,接收M个客户端的IP使用请求,获取代理池中的前M个IP队列,每个所述客户端匹配一个所述IP队列,保证代理IP的均衡性。根据轮询原则分别调取各个所述IP队列处于队首位置的队首IP;分别判断各个所述队首IP的响应时间是否低于所述预设阈值,实现了高质量的代理IP的充分利用。
S20、若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端。
客户端在接收到队首IP后,使用队首IP对目标网站进行访问,根据访问的结果将反馈信息发送给调度中心。反馈信息包含客户端使用接收的队首IP的结果,其结果有成功和失败两种情况。若队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户。
可选的,在S10之后,即接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值之后,还包括:
S201、若队首IP的响应时间高于预设阈值,则将队首IP移动至IP队列的队尾位置,并重新调取IP队列处于队首位置的队首IP。
若队首IP的响应时间高于预设阈值,则将队首IP移动至IP队列的队尾位置,原来处于IP队列第二顺序位的第二IP自动补充到队首位置成为队首IP,并重新调取IP队列处于队首位置的队首IP,判断队首IP的响应时间是否低于预设阈值。
在步骤S201中,若队首IP的响应时间高于预设阈值,则将队首IP移动至IP队列的队尾位置,并重新调取IP队列处于队首位置的队首IP,重新调取队首IP,保证高质量代理IP被调用。
S30、接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
当调度中心接收到客户端返回的队首IP请求成功的反馈信息时,将队首IP移动至IP队列的队尾位置。
当调度中心接收客户端返回的队首IP请求失败的反馈信息时,将队首IP加入进黑名单,重新调取IP队列处于队首位置的队首IP,判断队首IP的响应时间是否低于预设阈值。
另外,若客户端在使用队首IP的过程中出现失败的情况时,客户端向调度中心发送请求失败的反馈信息,当调度中心接收客户端返回的队首IP请求失败的反馈信息时将队首IP加入进黑名单,重新调取IP队列处于队首位置的队首IP,判断队首IP的响应时间是否低于预设阈值。
在本实施例中,通过接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值,实现了IP负载的均衡性。基于若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端,实现了高质量的代理IP的充分利用,从本质上提高了客户端所获得的代理IP的质量。基于接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置,实现了一定时间内同一个代理IP只被客户端获取到一次。通过上述方法,本发明既实现了IP负载的均衡性,又实现了高质量的代理IP的充分利用,从本质上提高了客户端所获得的代理IP的质量。此外,本发明也实现了一定时间内同一个代理IP只被客户端获取到一次,避免了同一个代理IP被多个客户端同时使用而造成的卡顿或被封锁的情况,从而更进一步的保证了代理IP的稳定性和有效性。
可选的,在一实施例中,如图4所示,步骤S10之前,即接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值之前,还包括:
S11、从代理网站抓取未筛选的代理IP,将所述未筛选的代理IP存储在临时数据库。
代理网站是指包含大量公开的免费代理IP和付费的代理IP的网站。临时数据库是指用来存储从代理网站抓取下来的未筛选的代理IP的存储器。代理IP可以是免费公开代理IP也可以是付费代理IP,代理IP的形式都是IP加端口。尽量从不同来源抓取所诉代理IP,抓取成功之后将未筛选的代理IP保存到临时数据库。
抓取有一定的讲究,一般不同网站的IP源更新间隔不同,优选的,可以设置定时抓取,让定时任务和对应网站的更新间隔保持一致。这样不会漏掉每次更新的代理源,不会因为频繁访问网站对其正常运行造成太大的压力,当服务器资源有限的时候,也不会出现任务大量堆积的情况。
S12、对所述临时数据库中的所述未筛选的代理IP进行筛选,将筛选出的匿名且尚未存储于预设数据库的代理IP添加在所述预设数据库中。
预设数据库负责存储从临时数据库中筛选出的匿名且尚未存储于预设数据库的代理IP。若未筛选的代理IP为匿名代理IP且尚未存储于预设数据库,则添加未筛选的代理IP进预设数据库;若未筛选的代理IP为匿名代理IP且已存储于预设数据库中,则不添加未筛选的代理IP进预设数据库;若未筛选的代理IP为非匿名代理IP且尚未存储与预设数据中,则不添加未筛选的代理IP进预设数据库且将对应的代理IP加入黑名单。
可选的,步骤S12,在一实施例中,即所述将筛选出的匿名且尚未存储于预设数据库的代理IP添加在所述预设数据库中,具体步骤如下,
S121、对临时数据库中的未筛选的代理IP进行筛选,筛选出匿名且尚未存储于预设数据库的代理IP;
S122、若未筛选的代理IP为匿名代理IP、且尚未存储于预设数据库,则添加未筛选的代理IP进预设数据库。
步骤S121-S122中,对临时数据库中的未筛选的代理IP进行筛选,筛选出匿名且尚未存储于预设数据库的代理IP,去除了不是匿名的代理IP,保证了代理IP的匿名性,避免了预设数据库的代理IP被重复存储,节省了储存空间的同时减少了同一个代理IP被多次获取的机会。若未筛选的代理IP为匿名代理IP、且尚未存储于预设数据库,则添加未筛选的代理IP进预设数据库,保留匿名且尚未存储于预设数据库的代理IP。
S13、通过检测链接,检测所述预设数据库中的代理IP,判断所述代理IP的有效性。
设置一个检测链接,定时对预设数据库中的代理IP进行检测。考虑到同一个代理IP对不同链接,它的代理效果可能完全不同,导致检测结果不准确。所以,检测链接应该是固定链接的一个稳定的页面,以保证测试的公平性。通过特定链接对预设数据库中添加的代理IP进行一次检测,并记录对应的代理IP的检测结果、响应时间以及检测时间。当代理IP的检测时间与系统当前时间的间隔达到预设值,则对对应的代理IP进行下一次检测。检测结果是指使用预设数据库中的代理IP对检测链接进行访问所得到的结果,结果包含可用和不可用两种情况。
根据检测结果,对代理IP的有效性进行一个判断。具体的,根据检测结果给对应的代理IP进行分数标识,预设分数初始值为N0,当检测结果为可用则分数标识为N0+1,当检测结果为不可用则分数标识为N0-1。当分数标识小于等于最低阈值时,表示代理IP无效,立刻从数据库中删除并记录进黑名单。当分数标识大于最低阈值时,表示代理IP有效,分数标识越大,表示代理IP越有效。
由于检测链接是特定链接的一个稳定的页面,通过定时检测预设数据库中的代理IP排除了同一个代理IP对不同链接的代理效果可能完全不同的这种情况的影响,从而保证了检测的公平性,能得到更为准确的检测结果,实质性的提高了代理IP的稳定性和有效性。
S14、将预设数据库中的具有有效性的代理IP组成若干IP队列。
可理解的,具有有效性的代理IP是通过S13的方法获得并存在于预设数据库中的有效代理IP。将预设数据库中的具有有效性的代理IP组成若干IP队列,具体的,每个处于IP队列队首位置的代理IP为队首IP,处于IP队列第二顺序位的代理IP为第二IP,以此类推,一个IP队列包含多个具有有效性的代理IP。
在本实施例中,从代理网站抓取未筛选的代理IP,将所述未筛选的代理IP存储在临时数据库,抓取的定时性减轻了因为频繁访问网站对其正常运行造成的压力。对所述临时数据库中的所述未筛选的代理IP进行筛选,将筛选出的匿名且尚未存储于预设数据库的代理IP添加在所述预设数据库中,筛选出匿名代理IP,且排除了重复的代理IP。通过检测链接,检测所述预设数据库中的代理IP,判断所述代理IP的有效性,保证了代理IP的有效性。将预设数据库中的具有有效性的代理IP组成若干IP队列,使得具有有效性的IP可以被有序调取。
可选的,步骤S20之后,即所述若所述队首IP的响应时间低于或等于预设阈值,则将所述队首IP发送给所述客户端之后,还包括:
S21、接收客户端返回的所述队首IP请求失败的反馈信息,将队首IP加入黑名单;
当调度中心接收客户端返回的队首IP请求失败的反馈信息时,将队首IP加入黑名单,重新调取IP队列处于队首位置的队首IP(原来处于IP队列第二顺序位的第二IP自动补充到队首位置成为队首IP),判断队首IP的响应时间是否低于预设阈值。
S22、在预设时间周期内,从代理网站抓取未筛选的代理IP,若所述未筛选的代理IP已存在所述黑名单中,则忽略所述未筛选的代理IP。
当从代理网站抓取未筛选的代理IP时,若未筛选的代理IP已存在于黑名单中,则忽略对应的未筛选的代理IP,不进行抓取。预设时间周期可以是一个不高于10分钟的时间周期,当存储在黑名单中的代理IP的存储时间超过预设周期时,则从黑名单中释放出对应的代理IP。
在步骤S21-S22中,接收客户端返回的所述队首IP请求失败的反馈信息,将队首IP加入黑名单,将请求失败的队首IP加入黑名单。在预设时间周期内,从代理网站抓取未筛选的代理IP,若所述未筛选的代理IP已存在所述黑名单中,则忽略所述未筛选的代理IP,减少抓取工作,可以减轻服务器的运行压力。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种管理IP代理池的装置,该管理IP代理池的装置与上述实施例中管理IP代理池的方法一一对应。如图5所示,该管理IP代理池的装置包括响应时间判断模块10、队首IP发送模块20和队首IP移动模块30。各功能模块详细说明如下:
响应时间判断模块10,用于接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值;
队首IP发送模块20,用于若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端;
队首IP移动模块30,用于接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
优选地,该管理IP代理池的装置还包括临时数据库模块、预设数据库模块、检测模块、队列模块。
临时数据库模块,用于存储从代理网站抓取的未筛选的代理IP;
预设数据库模块,用于存储对所述临时数据库中的所述未筛选的代理IP进行筛选,筛选出的匿名且尚未存储于预设数据库的代理IP;
检测模块,用于通过检测链接,检测所述预设数据库中的代理IP,判断所述代理IP的有效性;
队列模块,用于将预设数据库中的具有有效性的代理IP组成若干IP队列。
响应时间判断模块10包括IP使用请求单元、IP队列获取单元、队首IP调取单元、响应时间判断单元。
IP使用请求单元,用于接收M个客户端的IP使用请求;
IP队列获取单元,用于获取代理池中的前M个IP队列,每个所述客户端匹配一个所述IP队列;
队首IP调取单元,用于根据轮询原则分别调取各个所述IP队列处于队首位置的队首IP;
响应时间判断单元,用于分别判断各个所述队首IP的响应时间是否低于所述预设阈值。
优选地,该管理IP代理池的装置还包括重新调取模块。
重新调取模块,用于若队首IP的响应时间高于预设阈值,则将队首IP移动至所述IP队列的队尾位置,并重新调取IP队列当前处于队首位置的代理IP。
优选地,该管理IP代理池的装置还包括黑名单模块、黑名单处理模块。
黑名单模块,用于接收客户端返回的所述队首IP请求失败的反馈信息,将队首IP加入黑名单。
黑名单处理模块,在预设时间周期内,从代理网站抓取未筛选的代理IP,若所述未筛选的代理IP已存在所述黑名单中,则忽略所述未筛选的代理IP。
优选地,预设数据库模块还包括筛选单元、添加代理IP单元。
筛选单元,用于对临时数据库中的未筛选的代理IP进行筛选,筛选出匿名且尚未存储于预设数据库的代理IP;
添加代理IP单元,用于若未筛选的代理IP为匿名代理IP、且尚未存储于预设数据库,则添加未筛选的代理IP进预设数据库。
关于一种管理IP代理池的装置的具体限定可以参见上文中对于一种管理IP代理池的方法的限定,在此不再赘述。上述一种管理IP代理池的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储一种管理IP代理池的方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种一种管理IP代理池的方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值;
若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端;
接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值;
若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端;
接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种管理IP代理池的方法,其特征在于,包括:
接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值;
若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端;
接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
2.如权利要求1所述的管理IP代理池的方法,其特征在于,在所述接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值之前,还包括:
从代理网站抓取未筛选的代理IP,将所述未筛选的代理IP存储在临时数据库;
对所述临时数据库中的所述未筛选的代理IP进行筛选,将筛选出的匿名且尚未存储于预设数据库的代理IP添加在所述预设数据库中;
通过检测链接,检测所述预设数据库中的代理IP,判断所述代理IP的有效性;
将预设数据库中的具有有效性的代理IP组成若干IP队列。
3.如权利要求1所述的管理IP代理池的方法,其特征在于,所述接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值,包括:
接收M个客户端的IP使用请求;
获取代理池中的前M个IP队列,每个所述客户端匹配一个所述IP队列;
根据轮询原则分别调取各个所述IP队列处于队首位置的队首IP;
分别判断各个所述队首IP的响应时间是否低于所述预设阈值。
4.如权利要求1所述的管理IP代理池的方法,其特征在于,在所述接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值之后,还包括:
若队首IP的响应时间高于预设阈值,则将队首IP移动至所述IP队列的队尾位置,并调取IP队列当前处于队首位置的代理IP。
5.如权利要求1所述的管理IP代理池的方法,其特征在于,在所述若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端之后,还包括:
接收客户端返回的所述队首IP请求失败的反馈信息,将队首IP加入黑名单;
在预设时间周期内,从代理网站抓取未筛选的代理IP,若所述未筛选的代理IP已存在所述黑名单中,则忽略所述未筛选的代理IP。
6.如权利要求2所述的管理IP代理池的方法,其特征在于,所述将筛选出的匿名且尚未存储于预设数据库的代理IP添加在所述预设数据库中,包括:
对临时数据库中的未筛选的代理IP进行筛选,筛选出匿名且尚未存储于预设数据库的代理IP;
若未筛选的代理IP为匿名代理IP、且尚未存储于预设数据库,则添加未筛选的代理IP进预设数据库。
7.一种管理IP代理池的装置,其特征在于,包括:
响应时间判断模块,用于接收到客户端的IP使用请求,根据轮询原则调取IP队列处于队首位置的队首IP,判断所述队首IP的响应时间是否低于预设阈值;
队首IP发送模块,用于若所述队首IP的响应时间低于或等于预设阈值,则将队首IP发送给客户端;
队首IP移动模块,用于接收客户端返回的所述队首IP请求成功的反馈信息,将队首IP移动至所述IP队列的队尾位置。
8.如权利要求7所述的管理IP代理池的装置,其特征在于,所述管理IP代理池的装置还包括:
IP使用请求单元,用于接收M个客户端的IP使用请求;
IP队列获取单元,用于获取代理池中的前M个IP队列,每个所述客户端匹配一个所述IP队列;
队首IP调取单元,用于根据轮询原则分别调取各个所述IP队列处于队首位置的队首IP;
响应时间判断单元,用于分别判断各个所述队首IP的响应时间是否低于所述预设阈值。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述管理IP代理池的方法。
10.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至6中任一项所述管理IP代理池的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011519476.8A CN112671945A (zh) | 2020-12-21 | 2020-12-21 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
PCT/CN2021/124374 WO2022134768A1 (zh) | 2020-12-21 | 2021-10-18 | 管理 ip 代理池的方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011519476.8A CN112671945A (zh) | 2020-12-21 | 2020-12-21 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112671945A true CN112671945A (zh) | 2021-04-16 |
Family
ID=75406866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011519476.8A Pending CN112671945A (zh) | 2020-12-21 | 2020-12-21 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112671945A (zh) |
WO (1) | WO2022134768A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022134768A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 管理 ip 代理池的方法、装置、计算机设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115396509A (zh) * | 2022-08-09 | 2022-11-25 | 上海宝创网络科技有限公司 | 一种基于IPv6网络代理服务的处理访问受限的方法及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6842906B1 (en) * | 1999-08-31 | 2005-01-11 | Accenture Llp | System and method for a refreshable proxy pool in a communication services patterns environment |
US20110246688A1 (en) * | 2010-04-01 | 2011-10-06 | Irwin Vaz | Memory arbitration to ensure low latency for high priority memory requests |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
CN107395782A (zh) * | 2017-07-19 | 2017-11-24 | 北京理工大学 | 一种基于代理池的ip限制受控源信息抓取方法 |
US20170374197A1 (en) * | 2016-06-27 | 2017-12-28 | Interactive Intelligence Group, Inc. | Technologies for scaling call center support staff |
CN108345642A (zh) * | 2018-01-12 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
CN110147271A (zh) * | 2019-05-15 | 2019-08-20 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN110149419A (zh) * | 2019-05-23 | 2019-08-20 | 上海睿翎法律咨询服务有限公司 | 基于ip的高效爬虫方法 |
CN111741141A (zh) * | 2020-06-15 | 2020-10-02 | 重庆帮企科技集团有限公司 | 一种高效ip代理池的实现方法、系统及数据获取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109743411B (zh) * | 2018-12-10 | 2022-03-01 | 厦门市美亚柏科信息股份有限公司 | 一种在分布式环境下动态调度ip代理池的方法、装置及存储介质 |
CN112671945A (zh) * | 2020-12-21 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-21 CN CN202011519476.8A patent/CN112671945A/zh active Pending
-
2021
- 2021-10-18 WO PCT/CN2021/124374 patent/WO2022134768A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6842906B1 (en) * | 1999-08-31 | 2005-01-11 | Accenture Llp | System and method for a refreshable proxy pool in a communication services patterns environment |
US20110246688A1 (en) * | 2010-04-01 | 2011-10-06 | Irwin Vaz | Memory arbitration to ensure low latency for high priority memory requests |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
US20170374197A1 (en) * | 2016-06-27 | 2017-12-28 | Interactive Intelligence Group, Inc. | Technologies for scaling call center support staff |
CN107395782A (zh) * | 2017-07-19 | 2017-11-24 | 北京理工大学 | 一种基于代理池的ip限制受控源信息抓取方法 |
CN108345642A (zh) * | 2018-01-12 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
CN110147271A (zh) * | 2019-05-15 | 2019-08-20 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN110149419A (zh) * | 2019-05-23 | 2019-08-20 | 上海睿翎法律咨询服务有限公司 | 基于ip的高效爬虫方法 |
CN111741141A (zh) * | 2020-06-15 | 2020-10-02 | 重庆帮企科技集团有限公司 | 一种高效ip代理池的实现方法、系统及数据获取方法 |
Non-Patent Citations (2)
Title |
---|
RESOLVEWANG: "haipproxy高可用核心策略", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/34213022》 * |
RESOLVEWANG: "如何设计一个优秀的代理IP池", 《HTTPS://WWW.ZHIHU.COM/QUESTION/40473529》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022134768A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 管理 ip 代理池的方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022134768A1 (zh) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110535777B (zh) | 访问请求控制方法、装置、电子设备以及可读存储介质 | |
CN110996352A (zh) | 一种流量控制方法、装置、计算机设备及存储介质 | |
CN109634730B (zh) | 任务调度方法、装置、计算机设备和存储介质 | |
CN108848037A (zh) | 业务请求处理方法、装置、计算机设备和存储介质 | |
CN110532025B (zh) | 基于微服务架构的数据处理方法、装置、设备及存储介质 | |
CN111490963B (zh) | 基于quic协议栈的数据处理方法、系统、设备及存储介质 | |
CN108446172B (zh) | 数据调取方法、装置、计算机设备和存储介质 | |
CN112671945A (zh) | 管理ip代理池的方法、装置、计算机设备及存储介质 | |
CN114189525B (zh) | 服务请求方法、装置和电子设备 | |
CN113709247A (zh) | 资源获取方法、装置、系统、电子设备及存储介质 | |
CN111159233A (zh) | 分布式缓存方法、系统、计算机设备以及存储介质 | |
CN111314241B (zh) | 一种任务调度方法及调度系统 | |
CN114281263A (zh) | 容器集群管理系统的存储资源处理方法、系统和设备 | |
CN110838987B (zh) | 队列限流方法、存储介质 | |
CN108664343B (zh) | 一种微服务的有状态调用方法及装置 | |
US20140201750A1 (en) | Service provider class application scalability and high availability and processing prioritization using a weighted load distributor and throttle middleware | |
US11360871B1 (en) | Automatic optimization and hardening of application images | |
CN115017538A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN114422530A (zh) | 流量控制方法、装置和计算机设备和存储介质 | |
CN113746918A (zh) | 超文本传输协议代理方法及系统 | |
CN114490681A (zh) | 服务请求响应方法、装置以及服务器集群 | |
CN114040378A (zh) | 应用的编排方法、装置、计算机设备和存储介质 | |
CN112612848A (zh) | 数据实时同步的方法及装置、系统、电子设备、存储介质 | |
CN115037753B (zh) | 消息通知方法和系统 | |
CN113704274B (zh) | 一种数据的读取方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40049344 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20231229 |
|
AD01 | Patent right deemed abandoned |