CN113923260A - 一种对代理环境进行处理的方法、装置、终端及存储介质 - Google Patents
一种对代理环境进行处理的方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN113923260A CN113923260A CN202111144823.8A CN202111144823A CN113923260A CN 113923260 A CN113923260 A CN 113923260A CN 202111144823 A CN202111144823 A CN 202111144823A CN 113923260 A CN113923260 A CN 113923260A
- Authority
- CN
- China
- Prior art keywords
- environment
- agent
- current
- proxy
- target website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000012545 processing Methods 0.000 title claims abstract description 62
- 230000008569 process Effects 0.000 claims abstract description 26
- 230000004044 response Effects 0.000 claims description 90
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003862 health status Effects 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000004064 recycling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000009191 jumping Effects 0.000 description 3
- 230000001681 protective effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000008260 defense mechanism Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000012729 immediate-release (IR) formulation Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Landscapes
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种对代理环境进行处理的方法,并公开了该方法对应的装置、终端及存储介质。其中对代理环境进行处理的方法包括获取来自客户端的访问请求,确定所述访问请求的类型,如果是新请求则从可用代理队列分配一个IP,如果是旧请求则直接使用上次使用的代理环境,减少了随机选择过程中所需的时间;同时利用可用代理队列管理方法以及可复用代理环境队列管理方法确保获取的代理环境具有相当高可靠程度。并通过灰名单机制提高了并发可控性。
Description
技术领域
本发明涉及计算机应用设计领域,特别涉及一种对代理环境进行处理的方法、装置、终端及存储介质。
背景技术
任何网络在建设的时候,一般会采取保护性的措施,这些保护措施当中,最常见的一种保护措施,就是限制每个IP的访问频率,也就是说,单位时间内一个IP在目标网站上获取的信息是非常有限的。
但是在采集网络数据的时候,目标网络的这种保护机制就会导致信息的获取效率不高,难以将目标网站上的信息进行全面的采集。
为了解决这种采集网络数据过程中出现的问题,现有技术通常采用IP代理池的方法或随机隧道代理的方法。但是现有的方案中,往往存在管理效率较低、连接速度不理想、线程不安全等一系列问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种对代理环境进行处理的方法,能够提供一种高并发可控性且处理迅速的方案。本发明还提出一种对代理环境进行处理的设备、终端及存储介质。
根据本发明的第一方面实施例的对代理环境进行处理的方法,其特征在于,包括以下步骤:
在获取来自客户端的访问请求时,确定所述访问请求的类型;
根据所述访问请求的类型确定适用于所述访问请求的当前代理环境;
基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理。
根据本发明实施例的对代理环境进行处理的方法,至少具有如下有益效果:能够在接收访问请求的时候,分辨出访问请求的类型,做出针对性的处理,减少了随机选择的过程,能够提高整个方法的效率;同时通过目标网站的响应消息判断代理环境的质量,能够在重复使用过程中优先使用更优质的代理,从而获得更好的使用体验。
根据本发明的一些实施例,所述根据所述访问请求的类型确定适用于所述访问请求的当前代理环境的步骤,具体包括:
如果所述访问请求的来源客户端从未发送过访问请求,则确定所述访问请求将要访问的目标网站,从所述目标网站对应的可复用代理环境队列中获取可用的代理环境作为当前代理环境;
如果所述访问请求的来源客户端曾经发送过访问请求,则使用所述来源客户端上次发送访问请求时的旧代理环境作为当前代理环境。
根据本发明的一些实施例,所述基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理的步骤,具体包括:
依据所述目标网站的响应消息判断所述当前代理环境是否适用于所述目标网站;如果所述当前代理环境适用于所述目标网站,则将所述当前代理环境保存至所述目标网站对应的可复用代理环境队列;
如果所述当前代理环境不适用于所述目标网站,则检测所述当前代理环境的自身状态并依据检测结果对应处理所述当前代理环境。
根据本发明的一些实施例,所述基于所述当前代理环境向目标网站发送所述访问请求的步骤中,还包括:
将所述当前代理环境写入灰名单中,并在预定的释放时间后将所述当前代理环境从所述灰名单中移除,其中,被写入所述灰名单中的代理环境将被设置为不可用,被移除所述灰名单的代理环境将被重新设置为可用。
根据本发明的一些实施例,所述如果所述访问请求的来源客户端从未发送过访问请求,则确定所述访问请求将要访问的目标网站,从所述目标网站对应的可复用代理环境队列中获取可用的代理环境作为当前代理环境的步骤,还包括:
如果所述可复用代理环境队列中没有可用的代理环境,则从可用代理队列中选择不在黑名单或灰名单当中的代理,作为当前代理环境,其中所述黑名单中记录有不适用于所述目标网站的代理,所述灰名单中记录有正在被使用的代理。
根据本发明的一些实施例,所述依据所述目标网站的响应消息判断所述当前代理环境是否适用于目标网站的步骤中,包括:
如果所述响应消息中的响应状态码是环境失效状态码,则判定所述当前代理环境不适用于所述目标网站;
如果无法通过所述当前代理环境与所述目标网站建立连接,则判定所述当前代理环境不适用于所述目标网站;
如果能够通过所述当前代理环境与所述目标网站建立连接,但接收所述目标网站的响应超时,则判定所述当前代理环境不适用于所述目标网站;
如果所述响应消息中的响应状态码是服务器异常状态码,则判定所述当前代理环境不适用于所述目标网站;
其余情况,则判断所述当前代理环境适用于所述目标网站。
根据本发明的一些实施例,所述如果所述当前代理环境不适用于所述目标网站,则检测所述当前代理环境的自身状态并依据检测结果对应处理所述当前代理环境的步骤,具体包括:
通过所述当前代理环境访问公网服务器;
如果所述当前代理环境能够访问公网服务器,则不处理;
如果所述当前代理环境无法与公网服务器建立网络连接,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境成功与公网服务器建立网络连接,但接收服务器响应超时,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境与公网服务器建立网络连接后,响应状态码出现异常状态码,则将所述当前代理环境从可用代理队列中删除并写入黑名单。
根据本发明的一些实施例,所述基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理的步骤后,还包括步骤:
收集所述当前代理环境的使用情况信息;其中,当前代理环境的使用情况信息,包括:代理IP地址、响应时间、目标服务器响应状态码、目标服务器域名、请求的url地址中的一项或多项。
根据本发明的一些实施例,所述方法在所述基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理的步骤后,还包括步骤:
生成用于识别所述访问请求的类型的唯一识别信息,返回至客户端。
根据本发明的一些实施例,所述可用代理队列的获取方式,包括以下步骤:从第三方代理商获取来源代理并置入代理池;
确定代理池中每个所述来源代理的响应速度级别;
使用每个所述来源代理的响应速度级别作为存储优先级,将所述来源代理定时存储到可用代理队列当中。
根据本发明的一些实施例,所述方法还包括剔除所述代理池中不可用的来源代理的步骤,具体包括:
将来源代理与公网服务器进行连接;
如果所述来源代理无法与公网服务器建立连接,则从代理池中删除所述来源代理;如果所述来源代理与公网服务器建立连接超时,则从代理池中删除所述来源代理;如果所述来源代理与公网服务器建立连接后出现异常相应状态码,则从代理池中删除所述来源代理。
根据本申请的一些实施例,所述方法还包括定期清理超出预设的有效时间的来源代理。
根据本申请的一些实施例,所述方法还包括:
定期检测可复用代理环境队列中每个代理环境的健康状态,并依据所述健康状态处理每个代理环境。
根据本申请第二方面实施例的对代理环境进行处理的装置,其特征在于,包括:请求类型分辨模块,能够在获取来自客户端的访问请求时,确定所述访问请求的类型;
代理环境分配模块,能够根据所述访问请求的类型确定适用于所述访问请求的当前代理环境;
访问结果回收模块,能够基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理。
根据本发明实施例的对代理环境进行处理的装置,至少具有如下有益效果:所述装置能够在获取访问请求的时候,分辨出访问请求的类型,做出针对性的处理,减少了随机选择的过程,能够提高整个装置的运行效率;同时通过目标网站的响应消息判断代理环境的质量,能够在重复使用过程中优先使用更优质的代理,从而获得更好的使用体验。
根据本申请的一些实施例,所述代理环境分配模块,在判断出所述访问请求的来源客户端从未发送过访问请求,则确定所述访问请求将要访问的目标网站,从所述目标网站对应的可复用代理环境队列中获取可用的代理环境作为当前代理环境;
如果所述代理环境分配模块在判断出所述访问请求的来源客户端曾经发送过访问请求,则将所述来源客户端上次发送访问请求时的旧代理环境作为当前代理环境。
根据本申请的一些实施例,所述访问结果回收模块包括:
访问结果判断元件,能够依据所述目标网站的响应消息判断所述当前代理环境是否适用于所述目标网站;
代理环境回收元件,如果所述当前代理环境适用于所述目标网站,则将所述当前代理环境保存至所述目标网站对应的可复用代理环境队列;如果所述当前代理环境不适用于所述目标网站,则检测所述当前代理环境的自身状态并依据检测结果对应处理所述当前代理环境。
根据本申请的一些实施例,所述访问结果回收模块还能够将所述当前代理环境写入灰名单中,并在预定的释放时间后将所述当前代理环境从所述灰名单中移除,其中,被写入所述灰名单中的代理环境将被设置为不可用,被移除所述灰名单的代理环境将被重新设置为可用。
根据本申请的一些实施例,所述代理环境分配模块在判断访问请求对应的来源客户端曾经发送过访问请求的时候,且可复用代理环境队列没有可用的代理环境,能够从可用代理队列中选择不在黑名单或灰名单当中的代理,作为当前代理环境,其中所述黑名单中记录有不适用于所述目标网站的代理,所述灰名单中记录有正在被使用的代理。
根据本申请的一些实施例,所述访问结果判断元件在判断当前代理环境是否适用于当前网站时,具体的判断过程包括:
如果所述响应消息中的响应状态码是环境失效状态码,则判定所述当前代理环境不适用于所述目标网站;
如果无法通过所述当前代理环境与所述目标网站建立连接,则判定所述当前代理环境不适用于所述目标网站;
如果能够通过所述当前代理环境与所述目标网站建立连接,但接收所述目标网站的响应超时,则判定所述当前代理环境不适用于所述目标网站;
如果所述响应消息中的响应状态码是服务器异常状态码,则判定所述当前代理环境不适用于所述目标网站;
其余情况,则判断所述当前代理环境适用于所述目标网站。
根据本申请的一些实施例,所述代理环境回收元件具有代理环境验证单元,所述代理环境验证单元在判断当前代理环境不适用于所述目标网站的时候,能够通过所述当前代理环境访问公网服务器;
如果所述当前代理环境能够访问公网服务器,则不处理;
如果所述当前代理环境无法与公网服务器建立网络连接,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境成功与公网服务器建立网络连接,但接收服务器响应超时,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境与公网服务器建立网络连接后,响应状态码出现异常状态码,则将所述当前代理环境从可用代理队列中删除并写入黑名单。
根据本申请的一些实施例,所述装置还包括:
信息收集模块,能够收集所述当前代理环境的使用情况信息;其中,当前代理环境的使用情况信息,包括:代理IP地址、响应时间、目标服务器响应状态码、目标服务器域名、请求的url地址中的一项或多项。
根据本申请的一些实施例,所述装置还包括:
头文件生成模块,能够生成用于识别所述访问请求的类型的唯一识别信息,返回至客户端。
根据本申请的一些实施例,所述装置还包括可用代理队列获取模块,所述模块包括:
代理置入元件,能够从第三方代理商获取来源代理并置入代理池;
代理测试元件,能够确定代理池中每个所述来源代理的响应速度级别;
代理整理元件,能够使用每个所述来源代理的响应速度级别作为存储优先级,将所述来源代理定时存储到可用代理队列当中。
根据本申请第三方面实施例的终端,其特征在于,所述终端包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时以实现上述对代理环境进行处理的方法。
根据本申请的第四方面实施例的计算机可读存储介质,其特征在于,所述介质存储有计算机可执行指令,该计算机可执行指令用于以执行上述对代理环境进行处理的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一的对代理环境进行处理的方法的步骤示意图;
图2为本发明实施例二的对代理环境进行处理的方法的步骤示意图;
图3为本发明实施例三的对代理环境进行处理的方法步骤示意图;
图4为本发明实施例四的对代理环境进行处理的方法的步骤示意图;
图5为本发明实施例五的对代理环境进行处理的方法的步骤示意图;
图6为本发明实施例提供的一种对代理环境进行处理的装置的框图结构示意图。。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的文字表示相同或类似的程序或具有相同或类似功能的程序。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在使用爬虫程序获取公开网站的数据时,会因为网站本身的防御机制,限制单个IP进行使用,进而导致爬虫程序无法顺利获取数据。所以为了能够让爬虫程序顺利的运行,需要通过代理IP对目标网站进行爬取。
当使用大量代理的时候,由于每个代理本身的连接速度与状态不同,所以需要对代理进行统一管理。但是现有的方案中,管理大量代理IP的方式效率较低,且在多个请求同时发生的时候,可能会出现线程安全问题。
为了解决现有技术中存在的问题,现提出一种对代理环境进行处理的方法。
实施例一、
参照图1,该方法至少包括以下这些步骤:
步骤S100、在获取来自客户端的访问请求时,确定所述访问请求的类型。
当在接收到来自客户端对目标网站的访问请求的时候,根据头文件确定该访问请求对应的客户端是否曾经发送过请求。
步骤S200、根据所述访问请求的类型确定适用于所述访问请求的当前代理环境。
如果访问请求对应的来源客户端从未发送过请求,则从目标网站对应的可复用代理环境队列中随机选取一个代理环境作为当前代理环境。
如果访问请求对应的来源客户端曾经发送过请求,则给来源客户端分配其上次使用过的代理环境。
步骤S300、基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理。
利用当前代理环境访问目标网站,如果目标网站返回的页面响应正常,则说明当前代理环境可用,将当前代理环境放回可复用代理环境队列。
如果目标网站返回的页面响应不正常,则说明当前代理环境对于目标网站不可用,需要检测不可用的原因。如果是因为代理本身失效,则删除当前代理环境,如果是目标网站将代理环境屏蔽,则将当前代理环境从目标网站的可复用代理环境队列移除。
实施例二、
参照图2,在实施例一的基础上,进行更详细的说明,该方法包括以下步骤:步骤S100、在获取来自客户端的访问请求时,确定所述访问请求的类型。
当需要使用代理的客户端发送访问请求的时候,需要先确定该请求属于新请求还是旧请求。具体的确定方式,可以通过客户端发送请求的头文件来确定,如果是新请求则头文件中不包含以往的代理环境;同理,如果是旧请求,则头文件中包含以往的代理环境。
其中,访问请求主要是HTTP请求。头文件以token的形式呈现,包含了唯一的字符串。能够根据该token识别出与上次请求对应的代理环境,从而分配给客户端。token的生成过程在后文中有所描述。
步骤S200、根据所述访问请求的类型确定适用于所述访问请求的当前代理环境。该步骤具体包括:
步骤S201、如果所述访问请求对应的客户端从未发送过访问请求,确定所述访问请求将要访问的目标网站,从所述目标网站对应的可复用代理环境队列中获取可用的代理环境作为当前代理环境。
其中,所述可复用代理环境能够为客户端访问所述目标网站的时候,提供事先存储好的可用的代理环境,后文中还提到了一种较优的实施例,说明了如何对可复用代理环境进行管理。
通过头文件识别出访问请求对应的客户端从未发送过请求的时候,从可复用代理环境队列中随机选取可用的代理环境。
其中,当前代理环境包括:代理、网页cookie、token数据。将他们放在一起,才能够访问目标服务器。可以理解到的是,代理环境中包含的具体的信息与目标网站的逻辑相关,因为不同的目标网站,在进行访问的时候需要携带的数据是不同的,代理环境也会因为目标网站的不同,而有所改变,不过其本质都是为了访问目标服务器的一种网络环境。
然后将当前代理环境存储至可复用代理环境队列当中。下次再访问的时候直接调取这个代理环境。
根据本申请一些较优的实施例,可用代理队列中的代理按照连接速度被分级成至少三级,包括优质代理,中端代理和劣质代理;在选取代理的时候优先选择优质和中端的,这样能够提升客户端请求代理后的连接速度。
进一步地,在给客户端分配好当前代理环境的同时,还需要将所述当前代理环境对应的代理置入灰名单当中,优选的,还需要将时间信息以时间戳的方式记录在灰名单当中。
将代理置入灰名单能够保证代理不会同时被多个客户端使用,保证了连接的可靠性以及速度。
根据本申请另一些较优的实施例,当可复用代理队列中没有能使用的代理环境的时候,从可用代理队列取出一个不在灰名单或黑名单中的代理作为当前代理环境。当有大量客户端同时请求网络连接的时候,可能会导致可复用代理环境队列为空,为了满足处理业务需求,通过上述方式,牺牲一定的准确率,换取更高的处理效率。
步骤S202、如果所述访问请求的来源客户端曾经发送过访问请求,则使用所述来源客户端上次发送访问请求时的旧代理环境作为当前代理环境。
根据访问请求头文件当中的token,找到与其对应的唯一的代理环境,则直接将这个代理环境分配给客户端。
这么做能够直接给旧请求分配之前使用过的旧代理环境,能够减少随机选择并判断的过程,并且避免因为代理IP不可用造成的效率降低的问题。
根据本申请一些较优的实施例。在将旧的代理环境分配给客户端后,将所述旧的代理环境置入灰名单当中,然后重置其释放时间。这样做能够保证线程安全,避免同一个代理被多个客户端同时使用。进一步地,重置释放时间指的是更新所述旧代理环境的时间戳,这样释放程序在识别代理环境的时候不会误操作,将其释放。
步骤S300、基于当前代理环境向目标网站发送访问请求,并根据来自目标网站的响应消息对当前代理环境进行处理。
根据步骤S200当中确定的当前代理环境,访问目标网站,然后接收目标网站返回的响应。依据响应信息进行处理的过程,可以分为:
步骤S301、依据所述目标网站的响应消息判断所述当前代理环境是否适用于所述目标网站。
如果网站返回的响应状态码出现403、521等环境失效状态码,则判定当前代理环境不适用于目标网站,跳转至步骤S303;
如果无法通过当前代理环境与服务器建立连接,判定当前代理环境为不适用于目标网站,跳转至步骤S303;
如果能够利用当前代理环境与目标服务器建立连接,但接收目标服务器响应超时,判定当前代理环境不适用于目标网站,跳转至步骤S303;
如果响应状态码出现500、502、503等服务器异常状态码等,判定当前代理环境不适用于目标网站,跳转至步骤S303。
其他条件下,则认定当前代理环境适用于目标网站,跳转至步骤S302。
步骤S302、如果当前代理环境适用于目标网站,则将所述当前代理环境保存至目标网站对应的可复用代理环境队列。
如果当前代理环境适用于目标网站,说明当前代理环境可以用于访问目标网站,将目标网站与当前代理环境存储至可复用代理环境队列当中,方便其他客户端在请求的时候进行使用。这样能够减少判断的过程,提供一种快速的代理IP分配方法。
步骤S303、如果当前代理环境不适用于目标网站,则检测所述当前代理环境的自身状态并依据检测结果对应处理当前代理环境。
当在步骤S302中,确认了当前代理环境不适用于目标网站,则需要判定不适用的原因,因为代理无法访问服务器的原因可以是多样的,既可以是被目标网站禁止了,也可以是代理本身出现了问题。
检测连接状况,通过所述当前代理环境访问公网服务器。
如果当前代理环境可以访问公网服务器,则说明该代理环境本身没问题,是被目标网站屏蔽了;
如果当前代理环境无法与公网服务器建立网络链接,则说明该代理死亡,将该代理从可用代理环境队列中删除,写入黑名单;
如果当前代理环境成功与公网服务器建立连接,但接收服务器响应超时,则判定该代理死亡,从可用代理环境队列删除,写入黑名单;
如果当前代理环境与公网服务器建立网络连接后,响应状态码出现异常状态码,则判定该代理死亡,从可用代理环境队列中删除,写入黑名单。
可以理解到的是,所谓公网服务器,指的是绝大多数时间能够访问的权威服务器,例如百度(http://www.baidu.com)等知名搜索引擎。且在访问公网的时候,还可以同时访问多个公网服务器,减少误判的可能性。
步骤S304、将所述当前代理环境在灰名单当中的释放时间改为三秒。
当收到目标网站的响应结果的时候,说明客户端已经完成了访问,则需要将代理环境从灰名单中释放,方便其他客户端对代理环境进行使用。
进一步地,设置3秒的释放时间,而不是立即释放的原因,是如果立刻进行释放,且该客户端还想使用该代理,与此同时,其他客户端也发来了请求,且这些客户端曾经使用过当前代理环境,可能会导致两个客户端使用相同的代理,这样无法保证并发事件的可控性,提高了连接的质量。
实施例三、
参照图3,在实施例一的基础上,该方法还包括:
步骤S400、收集所述当前代理环境的使用情况信息。
所谓的使用情况信息,包括代理IP地址、响应时间、目标服务器响应状态码、目标服务器域名、请求的url地址中的一项或者多项。这些信息能够用于显示所有代理的运行环境,用于对整个方法的运行状态进行数据分析。
步骤S500、生成唯一识别信息,返回至客户端。
在本实施例当中,以token的形式,在响应头的方法夹带在目标网站的响应结果中,返回给客户端。
客户端在接收到数据的时候,会将这唯一识别信息保存起来,这样在客户端重复发送同目标网站的访问请求的时候,就可以根据所述唯一识别信息,确认访问请求属于旧请求,直接分配旧的代理环境,降低了逻辑判断过程与代理IP测试过程,增强了整个方法的效率。
可以理解到的是,token作为本领域常用的手段,其本质就是一种能作为唯一标识的字符串,其目的是为了建立代理环境与客户端的对应关系,方便客户端再次请求的时候找到以前使用过的代理环境。本领域的技术人员可以轻易的理解到,其实现方法不能被限制成token这种形式。
实施例二和三,描述了对代理环境进行处理的方法,其中包括两个关键的队列:可用代理队列、与可复用代理环境队列。
为了能够增加上述方法的效率,对可用代理队列、可复用代理环境队列进行管理,同样也是非常重要的。
实施例四、
参照图4,本实施例提供了一种对代理环境进行处理的方法,在实施例三的基础上,增加了一种对可用代理队列进行管理的过程,可以理解到的是,由于该过程与对代理环境进行处理的过程往往同时进行,所以不具有明显的先后步骤。所述对可用代理队列进行管理的过程,包括:
步骤A100、从第三方代理商获取来源代理并置入代理池。
将来自第三方代理商的来源代理环境,整合在一起,作为代理池。代理池中放有很多代理IP。因为有些时候,代理商提供的IP不能保证全部都可用,所以为了增加使用代理时候连接速度,需要对代理进行进一步的筛选。
步骤A200、剔除代理池中不可用的来源代理。
来源代理环境不一定全部都可用,所以为了增加选取代理IP时的可靠性需要剔除不可用的来源代理环境。
具体判定过程如下:
将来源代理与公网服务器进行连接;
如果来源代理无法与公网服务器建立连接,则从代理池中删除该来源代理;
如果来源代理与公网服务器建立连接超时,则从代理池中删除该来源代理;
如果来源代理与公网服务器建立连接后出现异常相应状态码,则从代理池中删除该来源代理。
步骤A300、确定代理池中每个所述来源代理的响应速度级别。
将来源代理按照连接公网的相应速度进行排序;
响应时间为小于1000毫秒,则判定所述来源代理为优质代理;
响应时间大于1000毫秒小于3000毫秒,则判定所述来源代理为中端代理;
响应时间大于3000毫秒,则判定所述来源代理为劣质代理。
此处设置的秒数是指按照经验设定的一个数值,通常来说,三秒内能够响应的代理,是连接速度较好的,大于三秒的往往质量较差。
步骤A400、使用每个所述来源代理的响应速度级别作为存储优先级,将所述来源代理定时存储到可用代理队列当中。
根据本申请一些较优的实施例,在将来源代理写入可用代理队列的时候,会优先选择优质代理和中端代理,只有在代理的数量无法满足需求的时候,才会将劣质代理放入可用代理队列。这样能够减少劣质代理在可用代理队列的占比。
能够尽可能避免劣质代理造成的访问效率降低的问题。
步骤A500、定时清理过期代理。
来源代理的有效时间是有限的。每个来源代理都会有一个与其对应的时间戳,根据时间戳能够判定来源代理放入代理池的时间。利用当前时间与时间戳能够判断来源代理放入代理池的时长。当来源代理超过了预设的有效时间,则将来源代理从代理池当中清除,这样能够减少代理池当中过期代理的量,提高代理池的可维护性。
实施例五、
参照图5,本实施例提供在实施例一的基础上,提供了一种对代理环境进行处理的方法,与实施例四相似,该方法也是与对代理环境进行处理的方法同步发生,不具有明显的先后顺序。该方法包括:
步骤B100、从可用代理队列中选取可用代理作为可复用代理环境队列。
从可用代理队列中,找出不在灰名单和黑名单当中的部分,随机挑选一个,访问目标网站,根据访问结果进行判断:
如果能够建立连接,且响应代码正常,则说明该代理可以访问目标网站。
将该代理保存至所述目标网站对应的可复用代理环境队列当中。
如果不能建立连接或者响应代码为异常响应代码,则说明该代理无法访问目标网站。
步骤B200、定期检测可复用代理环境队列中每个代理环境的健康状态,并依据所述健康状态处理每个代理环境。
检测健康状态的过程,与实施例一当中的步骤S301和S302相似,包括:
从可复用代理环境队列中获取目标服务器的代理环境,作为当前代理环境;利用当前代理环境与所述目标服务器建立网络连接;
如果无法与目标服务器建立连接,则判定当前代理环境死亡,将所述当前代理环境从代理池与可复用代理环境队列中删除,并将当前代理环境写入黑名单;
如果成功与目标服务器建立连接,但响应超时,则判定所述当前代理环境死亡,从代理池中删除并写入黑名单;
如果成功与目标服务器建立连接,但响应代码为环境失效状态码,则将当前代理环境从可复用代理环境队列中移除,并将代理写入黑名单。
上述五个实施例,实施例一、二和三描述了对代理环境进行处理的方法。实施例四公开了上述方法中,可用代理队列管理方法。实施例五公开了上述方法中,可复用代理环境队列管理方法。
参照图6,本申请又一实施例提供了一种对代理环境进行处理的装置,其特征在于,该装置20包括请求类型分辨模块201、代理环境分配模块202、访问结果回收模块203:
请求类型分辨模块201,能够在获取来自客户端的访问请求时,确定所述访问请求的类型;
代理环境分配模块202,能够根据所述访问请求的类型确定适用于所述访问请求的当前代理环境;
访问结果回收模块203,能够基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理。
进一步地,所述代理环境分配模块202,在判断出所述访问请求的来源客户端从未发送过访问请求,则确定所述访问请求将要访问的目标网站,从所述目标网站对应的可复用代理环境队列中获取可用的代理环境作为当前代理环境;
如果所述代理环境分配模块202在判断出所述访问请求的来源客户端曾经发送过访问请求,则将所述来源客户端上次发送访问请求时的旧代理环境作为当前代理环境。
进一步地,所述访问结果回收模块203包括:
访问结果判断元件,能够依据所述目标网站的响应消息判断所述当前代理环境是否适用于所述目标网站;
代理环境回收元件,如果所述当前代理环境适用于所述目标网站,则将所述当前代理环境保存至所述目标网站对应的可复用代理环境队列;如果所述当前代理环境不适用于所述目标网站,则检测所述当前代理环境的自身状态并依据检测结果对应处理所述当前代理环境。
进一步地,所述访问结果回收模块203还能够将所述当前代理环境写入灰名单中,并在预定的释放时间后将所述当前代理环境从所述灰名单中移除,其中,被写入所述灰名单中的代理环境将被设置为不可用,被移除所述灰名单的代理环境将被重新设置为可用。
进一步地,所述代理环境分配模块202在判断访问请求对应的来源客户端曾经发送过访问请求的时候,且可复用代理环境队列没有可用的代理环境,能够从可用代理队列中选择不在黑名单或灰名单当中的代理,作为当前代理环境,其中所述黑名单中记录有不适用于所述目标网站的代理,所述灰名单中记录有正在被使用的代理。
进一步地,所述访问结果判断元件在判断当前代理环境是否适用于当前网站时,具体的判断过程包括:
如果所述响应消息中的响应状态码是环境失效状态码,则判定所述当前代理环境不适用于所述目标网站;
如果无法通过所述当前代理环境与所述目标网站建立连接,则判定所述当前代理环境不适用于所述目标网站;
如果能够通过所述当前代理环境与所述目标网站建立连接,但接收所述目标网站的响应超时,则判定所述当前代理环境不适用于所述目标网站;
如果所述响应消息中的响应状态码是服务器异常状态码,则判定所述当前代理环境不适用于所述目标网站;
其余情况,则判断所述当前代理环境适用于所述目标网站。
进一步地,所述代理环境回收元件具有代理环境验证单元,所述代理环境验证单元在判断当前代理环境不适用于所述目标网站的时候,能够通过所述当前代理环境访问公网服务器;
如果所述当前代理环境能够访问公网服务器,则不处理;
如果所述当前代理环境无法与公网服务器建立网络连接,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境成功与公网服务器建立网络连接,但接收服务器响应超时,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境与公网服务器建立网络连接后,响应状态码出现异常状态码,则将所述当前代理环境从可用代理队列中删除并写入黑名单。
进一步地,所述装置还包括:
信息收集模块,能够收集所述当前代理环境的使用情况信息;其中,当前代理环境的使用情况信息,包括:代理IP地址、响应时间、目标服务器响应状态码、目标服务器域名、请求的url地址中的一项或多项。
进一步地,所述装置还包括:
头文件生成模块,能够生成用于识别所述访问请求的类型的唯一识别信息,返回至客户端。
进一步地,所述装置还包括可用代理队列获取模块,所述模块包括:
代理置入元件,能够从第三方代理商获取来源代理并置入代理池;
代理测试元件,能够确定代理池中每个所述来源代理的响应速度级别;
代理整理元件,能够使用每个所述来源代理的响应速度级别作为存储优先级,将所述来源代理定时存储到可用代理队列当中。
本申请又一实施例提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时以实现上述对代理环境进行处理的方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现图1~图5的方法的任意几种。
本申请实施例通过对代理环境进行处理,能够识别来自客户端请求的类型,从而将旧的请求直接分配预先存好的代理环境,减少了该怎么选择代理环境的过程。并且在分配代理的时候,通过从预先维护好的可用代理队列中进行选择,能够提高分配给客户端的代理IP的可靠性。
本申请又一实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述图1所示的对代理环境进行处理的方法。以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (16)
1.一种对代理环境进行处理的方法,其特征在于,包括以下步骤:
在获取来自客户端的访问请求时,确定所述访问请求的类型;
根据所述访问请求的类型确定适用于所述访问请求的当前代理环境;
基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理。
2.根据权利要求1所述的对代理环境进行处理的方法,其特征在于,所述根据所述访问请求的类型确定适用于所述访问请求的当前代理环境的步骤,具体包括:
如果所述访问请求的来源客户端从未发送过访问请求,则确定所述访问请求将要访问的目标网站,从所述目标网站对应的可复用代理环境队列中获取可用的代理环境作为当前代理环境;
如果所述访问请求的来源客户端曾经发送过访问请求,则使用所述来源客户端上次发送访问请求时的旧代理环境作为当前代理环境。
3.根据权利要求1所述的对代理环境进行处理的方法,其特征在于,所述基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理的步骤,具体包括:
依据所述目标网站的响应消息判断所述当前代理环境是否适用于所述目标网站;
如果所述当前代理环境适用于所述目标网站,则将所述当前代理环境保存至所述目标网站对应的可复用代理环境队列;
如果所述当前代理环境不适用于所述目标网站,则检测所述当前代理环境的自身状态并依据检测结果对应处理所述当前代理环境。
4.根据权利要求1所述的对代理环境进行处理的方法,其特征在于,所述基于所述当前代理环境向目标网站发送所述访问请求的步骤中,还包括:
将所述当前代理环境写入灰名单中,并在预定的释放时间后将所述当前代理环境从所述灰名单中移除,其中,被写入所述灰名单中的代理环境将被设置为不可用,被移除所述灰名单的代理环境将被重新设置为可用。
5.根据权利要求2所述的对代理环境进行处理的方法,其特征在于,所述如果所述访问请求的来源客户端从未发送过访问请求,则确定所述访问请求将要访问的目标网站,从所述目标网站对应的可复用代理环境队列中获取可用的代理环境作为当前代理环境的步骤,还包括:
如果所述可复用代理环境队列中没有可用的代理环境,则从可用代理队列中选择不在黑名单或灰名单当中的代理,作为当前代理环境,其中所述黑名单中记录有不适用于所述目标网站的代理,所述灰名单中记录有正在被使用的代理。
6.根据权利要求3所述的对代理环境进行处理的方法,其特征在于,所述依据所述目标网站的响应消息判断所述当前代理环境是否适用于目标网站的步骤中,包括:
如果所述响应消息中的响应状态码是环境失效状态码,则判定所述当前代理环境不适用于所述目标网站;
如果无法通过所述当前代理环境与所述目标网站建立连接,则判定所述当前代理环境不适用于所述目标网站;
如果能够通过所述当前代理环境与所述目标网站建立连接,但接收所述目标网站的响应超时,则判定所述当前代理环境不适用于所述目标网站;
如果所述响应消息中的响应状态码是服务器异常状态码,则判定所述当前代理环境不适用于所述目标网站;
其余情况,则判断所述当前代理环境适用于所述目标网站。
7.根据权利要求3所述的对代理环境进行处理的方法,其特征在于,所述如果所述当前代理环境不适用于所述目标网站,则检测所述当前代理环境的自身状态并依据检测结果对应处理所述当前代理环境的步骤,具体包括:
通过所述当前代理环境访问公网服务器;
如果所述当前代理环境能够访问公网服务器,则不处理;
如果所述当前代理环境无法与公网服务器建立网络连接,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境成功与公网服务器建立网络连接,但接收服务器响应超时,则将所述当前代理环境从可用代理队列中删除并写入黑名单;
如果所述当前代理环境与公网服务器建立网络连接后,响应状态码出现异常状态码,则将所述当前代理环境从可用代理队列中删除并写入黑名单。
8.根据权利要求1所述的对代理环境进行处理的方法,其特征在于,所述基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理的步骤后,还包括步骤:
收集所述当前代理环境的使用情况信息;其中,当前代理环境的使用情况信息,包括:代理IP地址、响应时间、目标服务器响应状态码、目标服务器域名、请求的url地址中的一项或多项。
9.根据权利要求1所述的对代理环境进行处理的方法,其特征在于,所述方法在所述基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理的步骤后,还包括步骤:
生成用于识别所述访问请求的类型的唯一识别信息,返回至客户端。
10.根据权利要求5所述的对代理环境进行处理的方法,其特征在于,所述可用代理队列的获取方式,包括以下步骤:
从第三方代理商获取来源代理并置入代理池;
确定代理池中每个所述来源代理的响应速度级别;
使用每个所述来源代理的响应速度级别作为存储优先级,将所述来源代理定时存储到可用代理队列当中。
11.根据权利要求10所述的对代理环境进行处理的方法,其特征在于,所述方法还包括剔除所述代理池中不可用的来源代理的步骤,具体包括:
将来源代理与公网服务器进行连接;
如果所述来源代理无法与公网服务器建立连接,则从代理池中删除所述来源代理;
如果所述来源代理与公网服务器建立连接超时,则从代理池中删除所述来源代理;
如果所述来源代理与公网服务器建立连接后出现异常相应状态码,则从代理池中删除所述来源代理。
12.根据权利要求10所述的对代理环境进行处理的方法,其特征在于,所述方法还包括定期清理超出预设的有效时间的来源代理。
13.根据权利要求2所述的一种对代理环境进行处理的方法,所述方法还包括:
定期检测可复用代理环境队列中每个代理环境的健康状态,并依据所述健康状态处理每个代理环境。
14.一种对代理环境进行处理的装置,其特征在于,包括:
请求类型分辨模块,能够在获取来自客户端的访问请求时,确定所述访问请求的类型;
代理环境分配模块,能够根据所述访问请求的类型确定适用于所述访问请求的当前代理环境;
访问结果回收模块,能够基于所述当前代理环境向目标网站发送所述访问请求,并根据来自所述目标网站的响应消息对所述当前代理环境进行处理。
15.一种终端,包括:存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要1至13中任一项所述的方法。
16.一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144823.8A CN113923260B (zh) | 2021-09-28 | 2021-09-28 | 一种对代理环境进行处理的方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144823.8A CN113923260B (zh) | 2021-09-28 | 2021-09-28 | 一种对代理环境进行处理的方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113923260A true CN113923260A (zh) | 2022-01-11 |
CN113923260B CN113923260B (zh) | 2024-01-09 |
Family
ID=79236580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111144823.8A Active CN113923260B (zh) | 2021-09-28 | 2021-09-28 | 一种对代理环境进行处理的方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113923260B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6332163B1 (en) * | 1999-09-01 | 2001-12-18 | Accenture, Llp | Method for providing communication services over a computer network system |
US20050257258A1 (en) * | 2004-05-14 | 2005-11-17 | International Business Machines Corporation | Information processing apparatus, information system, proxy processing method, and program and recording medium therefor |
JP2006031438A (ja) * | 2004-07-16 | 2006-02-02 | Canon Inc | 画像処理装置の拡張制御装置におけるWebアクセスコントロール |
CN101287013A (zh) * | 2008-05-30 | 2008-10-15 | 杭州华三通信技术有限公司 | 一种更新Web页面的方法和Web代理设备 |
US20110093944A1 (en) * | 2005-12-13 | 2011-04-21 | Chaim Spielman | Detecting anomalous web proxy activity |
CN102624920A (zh) * | 2012-03-31 | 2012-08-01 | 奇智软件(北京)有限公司 | 一种通过代理服务器进行访问的方法及装置 |
US9736260B2 (en) * | 2012-06-21 | 2017-08-15 | Cisco Technology, Inc. | Redirecting from a cloud service to a third party website to save costs without sacrificing security |
WO2018001144A1 (zh) * | 2016-06-30 | 2018-01-04 | 中兴通讯股份有限公司 | 基站、访问请求的响应方法、装置及系统 |
CN107957999A (zh) * | 2016-10-14 | 2018-04-24 | 北京国双科技有限公司 | 一种网络爬虫获取网站数据的方法及装置 |
CN108345642A (zh) * | 2018-01-12 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
CN108616525A (zh) * | 2018-04-16 | 2018-10-02 | 深圳市小满科技有限公司 | 网站访问方法和装置、电子设备及存储介质 |
CN110851753A (zh) * | 2019-11-07 | 2020-02-28 | 亿企赢网络科技有限公司 | 一种网站的访问方法、装置、设备及存储介质 |
CN111611512A (zh) * | 2019-02-25 | 2020-09-01 | 北京国双科技有限公司 | 一种网络代理的质量评估方法、装置、存储介质及处理器 |
CN111666465A (zh) * | 2019-03-06 | 2020-09-15 | 上海晶赞融宣科技有限公司 | 爬取数据的方法及装置、存储介质、终端 |
CN112688983A (zh) * | 2019-10-18 | 2021-04-20 | 顺丰科技有限公司 | 代理权限管理装置、终端设备及存储介质 |
CN113905092A (zh) * | 2021-09-28 | 2022-01-07 | 盐城金堤科技有限公司 | 一种确定可复用代理队列的方法、装置、终端及存储介质 |
-
2021
- 2021-09-28 CN CN202111144823.8A patent/CN113923260B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6332163B1 (en) * | 1999-09-01 | 2001-12-18 | Accenture, Llp | Method for providing communication services over a computer network system |
US20050257258A1 (en) * | 2004-05-14 | 2005-11-17 | International Business Machines Corporation | Information processing apparatus, information system, proxy processing method, and program and recording medium therefor |
JP2006031438A (ja) * | 2004-07-16 | 2006-02-02 | Canon Inc | 画像処理装置の拡張制御装置におけるWebアクセスコントロール |
US20110093944A1 (en) * | 2005-12-13 | 2011-04-21 | Chaim Spielman | Detecting anomalous web proxy activity |
CN101287013A (zh) * | 2008-05-30 | 2008-10-15 | 杭州华三通信技术有限公司 | 一种更新Web页面的方法和Web代理设备 |
CN102624920A (zh) * | 2012-03-31 | 2012-08-01 | 奇智软件(北京)有限公司 | 一种通过代理服务器进行访问的方法及装置 |
US9736260B2 (en) * | 2012-06-21 | 2017-08-15 | Cisco Technology, Inc. | Redirecting from a cloud service to a third party website to save costs without sacrificing security |
EP3481033A1 (en) * | 2016-06-30 | 2019-05-08 | ZTE Corporation | Base station, and method, apparatus and system for responding to access request |
WO2018001144A1 (zh) * | 2016-06-30 | 2018-01-04 | 中兴通讯股份有限公司 | 基站、访问请求的响应方法、装置及系统 |
CN107957999A (zh) * | 2016-10-14 | 2018-04-24 | 北京国双科技有限公司 | 一种网络爬虫获取网站数据的方法及装置 |
CN108345642A (zh) * | 2018-01-12 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
CN108616525A (zh) * | 2018-04-16 | 2018-10-02 | 深圳市小满科技有限公司 | 网站访问方法和装置、电子设备及存储介质 |
CN111611512A (zh) * | 2019-02-25 | 2020-09-01 | 北京国双科技有限公司 | 一种网络代理的质量评估方法、装置、存储介质及处理器 |
CN111666465A (zh) * | 2019-03-06 | 2020-09-15 | 上海晶赞融宣科技有限公司 | 爬取数据的方法及装置、存储介质、终端 |
CN112688983A (zh) * | 2019-10-18 | 2021-04-20 | 顺丰科技有限公司 | 代理权限管理装置、终端设备及存储介质 |
CN110851753A (zh) * | 2019-11-07 | 2020-02-28 | 亿企赢网络科技有限公司 | 一种网站的访问方法、装置、设备及存储介质 |
CN113905092A (zh) * | 2021-09-28 | 2022-01-07 | 盐城金堤科技有限公司 | 一种确定可复用代理队列的方法、装置、终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
琚兴空: "基于隐马尔科夫模型的网络爬虫检测算法仿真", 计算机与现代化 * |
Also Published As
Publication number | Publication date |
---|---|
CN113923260B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109302498B (zh) | 一种网络资源访问方法及装置 | |
US10587650B2 (en) | Communications security | |
CN111625841B (zh) | 一种病毒处理方法、装置及设备 | |
CN110457223B (zh) | 灰度测试引流方法、装置、代理服务器及可读存储介质 | |
CN111835790B (zh) | 一种风险识别方法、装置及系统 | |
KR20190015327A (ko) | 서버가 공격받는 것을 막기 위한 방법 및 디바이스 | |
CN112738172A (zh) | 区块链节点的管理方法、装置、计算机设备和存储介质 | |
CN108650123B (zh) | 故障信息记录方法、装置、设备和存储介质 | |
CN113315853B (zh) | 一种云防护节点调度方法、系统及存储介质 | |
CN113905092B (zh) | 一种确定可复用代理队列的方法、装置、终端及存储介质 | |
CN112231698B (zh) | 一种攻击检测方法、装置及存储介质 | |
CN113676365B (zh) | 一种访问请求的处理方法、装置及电子设备 | |
CN109413022A (zh) | 一种基于用户行为检测http flood攻击的方法和装置 | |
CN111741141A (zh) | 一种高效ip代理池的实现方法、系统及数据获取方法 | |
CN112511535A (zh) | 一种设备检测方法、装置、设备及存储介质 | |
CN113923260B (zh) | 一种对代理环境进行处理的方法、装置、终端及存储介质 | |
CN111885088A (zh) | 基于区块链的日志监测方法及装置 | |
CN110113187B (zh) | 一种配置更新方法、装置、配置服务器及配置系统 | |
CN112929347B (zh) | 一种限频方法、装置、设备及介质 | |
CN106878247B (zh) | 一种攻击识别方法和装置 | |
CN113032188B (zh) | 确定主服务器的方法、装置、服务器及存储介质 | |
CN112118228B (zh) | 一种弹幕数据处理方法、用户端和弹幕服务器 | |
CN107454018B (zh) | 报文缓存管理器异常的处理方法及装置 | |
CN114944951B (zh) | 一种请求的处理方法及装置、拟态设备、存储介质 | |
CN110430118B (zh) | 账单邮件管理方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230731 Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000 Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd. Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province Applicant before: Yancheng Jindi Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |