CN111611512A - 一种网络代理的质量评估方法、装置、存储介质及处理器 - Google Patents

一种网络代理的质量评估方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN111611512A
CN111611512A CN201910138367.2A CN201910138367A CN111611512A CN 111611512 A CN111611512 A CN 111611512A CN 201910138367 A CN201910138367 A CN 201910138367A CN 111611512 A CN111611512 A CN 111611512A
Authority
CN
China
Prior art keywords
network
agent
agents
network agents
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910138367.2A
Other languages
English (en)
Other versions
CN111611512B (zh
Inventor
武玉博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201910138367.2A priority Critical patent/CN111611512B/zh
Publication of CN111611512A publication Critical patent/CN111611512A/zh
Application granted granted Critical
Publication of CN111611512B publication Critical patent/CN111611512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络代理的质量评估方法和装置。所述方法包括:获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,根据代理使用结果,对目标网络代理的质量进行评估,其中,多个目标网络代理包括:优先级不同的多个网络代理,多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高,实现了在数据爬取的过程中,较多使用质量高的网络代理,较少使用质量低的网络代理,减少了质量高的网络代理因使用频率过高而被列入黑名单的机会,同时避免了质量低的网络代理的质量提升后无法被发现的问题,使得网络代理总体上得到更加均衡的使用,继而提高了爬取网络数据的效率。

Description

一种网络代理的质量评估方法、装置、存储介质及处理器
技术领域
本发明涉及数据处理技术领域,特别是涉及一种网络代理的质量评估方法、一种网络代理的质量评估装置、一种存储介质及一种处理器。
背景技术
随着网络技术的迅速发展,网络成为大量信息的载体,为了解决抓取网页资源的问题,爬虫应运而生。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
但是许多站点为了防止网络爬虫所带来的系统压力,会在服务器上针对访问者设置访问频率的限制,还会判断访问者是否为网络爬虫,并将判断为网络爬虫的访问者列入黑名单,以阻止其频繁访问。
为了应对反爬虫技术,爬虫可以使用网络代理来伪装成更多的客户端,绕开目标站点针对客户端访问频率的限制,由网络代理实现网页下载,但目前网络代理的来源通常是从网络代理服务商获取,但是网络代理服务商并不能掌握网络代理真实的可用性情况,甚至有些网络代理已经被站点列入黑名单,导致爬虫无法高效的爬取到所需的网络数据。
发明内容
鉴于上述问题,提出了一种网络代理的质量评估方法、装置、存储介质及处理器,以解决爬虫无法高效的爬取到所需的网络数据的问题。
依据本发明的一个方面,提供了一种网络代理的质量评估方法,包括:
获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
根据所述代理使用结果,对所述目标网络代理的质量进行评估。
可选地,所述优先级不同的多个网络代理存储于不同的网络代理池中,在所述获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果之前,所述方法还包括:
按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理;和/或,
采用所述目标网络代理在所述目标站点上进行数据爬取。
可选地,同一网络代理池中存储的网络代理的优先级相同,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;
根据所述总数量和所述占比,计算每个优先级的网络代理的数量;
根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理。
可选地,所述优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,所述第一优先级高于所述第二优先级,所述第一优先级的网络代理存储于第一网络代理池中,所述第二优先级的网络代理存储于第二网络代理池中,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;
根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;
从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。
可选地,所述多个目标网络代理中还包括:优先级未知的网络代理,所述优先级未知的网络代理存储于第三网络代理池中,在计算第二优先级的网络代理的第二数量之后,所述方法还包括:
判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;
如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;
如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选择第一数量的网络代理,从所述第二网络代理池中选择全部的网络代理,以及从所述第三网络代理池中选择数量等于所述差值的网络代理。
可选地,在从所述不同的网络代理池中选择所述优先级不同的多个网络代理之后,所述方法还包括:
对每个网络代理的选择次数进行计数,并将所述计数结果存储至所述网络代理池中;
所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
从所述不同的网络代理池中分别获取每个网络代理的选择次数;
在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,以便从所述不同的网络代理池中选择所述优先级不同的多个网络代理。
可选地,所述根据所述代理使用结果,对所述目标网络代理的质量进行评估,包括:
根据所述多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分;
在所述根据所述代理使用结果,对所述目标网络代理的质量进行评估之后,所述方法还包括:
记录每个网络代理的质量评分;
每隔预设时间间隔,根据所述质量评分计算对应的网络代理的质量总分;
根据所述质量总分对所述网络代理的优先级进行调整。
可选地,所述根据所述质量总分对所述网络代理的优先级进行调整,包括:
将质量总分达到预设分值的网络代理分配至优先级高的网络代理池中,将质量总分未达到预设分值的网络代理分配至优先级低的网络代理池中。
可选地,所述代理使用结果包括以下至少一种:网络代理是否可用、HTTP状态码、数据长度、处理时长。
依据本发明的另一个方面,提供了一种网络代理的质量评估装置,包括:
结果获取模块,用于获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
评估模块,用于根据所述代理使用结果,对所述目标网络代理的质量进行评估。
可选地,所述优先级不同的多个网络代理存储于不同的网络代理池中,所述装置还包括:
代理选择模块,用于在所述获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果之前,按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理;和/或,
爬取模块,用于采用所述目标网络代理在所述目标站点上进行数据爬取。
可选地,同一网络代理池中存储的网络代理的优先级相同,所述代理选择模块包括:
占比确定子模块,用于确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;
数量计算子模块,用于根据所述总数量和所述占比,计算每个优先级的网络代理的数量;
代理选择子模块,用于根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理。
可选地,所述优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,所述第一优先级高于所述第二优先级,所述第一优先级的网络代理存储于第一网络代理池中,所述第二优先级的网络代理存储于第二网络代理池中,所述代理选择模块包括:
数量确定子模块,用于确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;
数量计算子模块,用于根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;
代理选择子模块,用于从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。
可选地,所述多个目标网络代理还包括:优先级未知的网络代理,所述优先级未知的网络代理存储于第三网络代理池中,所述装置还包括:
数量判断模块,用于在计算第二优先级的网络代理的第二数量之后,判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;
第一选择模块,用于如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;
第二选择模块,用于如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选择第一数量的网络代理,从所述第二网络代理池中选择全部的网络代理,以及从所述第三网络代理池中选择数量等于所述差值的网络代理。
可选地,所述装置还包括:
存储模块,用于在从所述不同的网络代理池中选择所述优先级不同的多个网络代理之后,对每个网络代理的选择次数进行计数,并将所述计数结果存储至所述网络代理池中;
所述代理选择模块包括:
次数获取子模块,用于从所述不同的网络代理池中分别获取每个网络代理的选择次数;
顺序选择子模块,用于在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,以便从所述不同的网络代理池中选择所述优先级不同的多个网络代理。
可选地,所述评估模块包括:
评分子模块,用于根据所述多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分;
所述装置还包括:
评分记录子模块,用于在所述根据所述代理使用结果,对所述目标网络代理的质量进行评估之后,记录每个网络代理的质量评分;
总分计算子模块,用于每隔预设时间间隔,根据所述质量评分计算对应的网络代理的质量总分;
优先级调整子模块,用于根据所述质量总分对所述网络代理的优先级进行调整。
可选地,所述优先级调整子模块包括:
分配单元,用于将质量总分达到预设分值的网络代理分配至优先级高的网络代理池中,将质量总分未达到预设分值的网络代理分配至优先级低的网络代理池中。
可选地,所述代理使用结果包括以下至少一种:网络代理是否可用、HTTP状态码、数据长度、处理时长。
依据本发明的另一个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如上述的一个或多个方法。
依据本发明的另一个方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上述的一个或多个方法。
综上所述,依据本发明实施例,通过获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,根据所述代理使用结果,对所述目标网络代理的质量进行评估,其中,多个目标网络代理包括:优先级不同的多个网络代理,多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高,实现了在数据爬取的过程中,较多使用质量高的网络代理,较少使用质量低的网络代理,减少了质量高的网络代理因使用频率过高而被列入黑名单的机会,同时避免了质量低的网络代理的质量提升后无法被发现的问题,使得网络代理总体上得到更加均衡的使用,继而提高了爬取网络数据的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一中的一种网络代理的质量评估方法的流程图;
图2示出了本发明实施例二中的一种网络代理的质量评估方法的流程图;
图3示出了本发明实施例三中的一种网络代理的质量评估装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例一中的一种网络代理的质量评估方法的流程图,具体可以包括:
步骤101,获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高。
在本发明实施例中,网络代理是指用于代理爬虫程序从网络上爬取数据的服务器或服务器集群。对于爬虫程序来说,网络代理可以按照站点划分,每个站点对应有网络代理的名单,爬虫程序对目标站点进行数据爬取时,可以从网络代理的名单中选取出多个网络代理,记为目标网络代理,进行数据爬取。例如,爬虫进程从网络代理名单中不断获取网络代理的地址,并向获取的网络代理发起请求,借助网络代理来实现网页下载,爬取所需的数据。
在本发明实施例中,网络代理的质量可以通过优先级进行表征,网络代理的质量与优先级之间存在正相关关系,因此,每个网络代理都存在一定的优先级,优先级越高的网络代理的质量越高,反之,优先级越低的网络代理的质量越低。网络代理的质量用于评估网络代理爬取数据的能力,质量越高表示网络代理爬取数据的能力越强,质量越低表示网络代理爬取数据的能力越弱,例如,网络代理的质量可以具体通过质量评分进行评估,当目标站点禁止网络代理访问相应数据时,对该网络代理的质量评分进行减分,当目标站点禁止网络代理进行链接跳转时,对该网络代理的质量评分进行减分。网络代理的质量具体可以有任意适用的形式,本发明实施例对此不做限制。
在本发明实施例中,在进行多个目标网络代理选择时,可以按照优先级高的网络代理的数量大于优先级低的网络代理的数量的原则进行选择,从而使得优先级高的网络代理和优先级低的网络代理都可以被使用,既保证了优先级高的网络代理可以较多的使用,在保证数据爬取结果的情况下,又避免了优先级低的网络代理的质量提升后无法被发现的问题,为不同优先级的网络代理分别提供使用机会。
在本发明实施例中,目标网络代理在爬取数据时可以返回代理使用结果,代理使用结果包括要爬取的网络地址、网络代理是否可用、目标站点的服务器返回的HTTP状态码、服务器返回的数据长度、整个网络请求消耗的处理时长等,或者其他任意适用的有关使用代理爬取数据的信息,本发明实施例对此不做限制。
步骤102,根据所述代理使用结果,对所述目标网络代理的质量进行评估。
在本发明实施例中,可以根据代理使用结果对目标网络代理的质量进行评估,其中,对目标网络代理的质量进行评估时,可以根据需要设置相应的评估规则,例如,设置一套通用规则,也可以针对目标站点定制规则。
根据所述代理使用结果,对所述目标网络代理的质量进行评估的一种实现方式可以包括:根据多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分,例如,当代理使用结果中网络代理为不可用时,对该网络代理的质量评分进行扣除,得到网络代理的质量评分,具体可以采用任意适用的方式评估质量,本发明实施例对此不做限制。
综上所述,依据本发明实施例,通过获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,根据所述代理使用结果,对所述目标网络代理的质量进行评估,其中,多个目标网络代理包括:优先级不同的多个网络代理,多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高,实现了在数据爬取的过程中,较多使用质量高的网络代理,较少使用质量低的网络代理,减少了质量高的网络代理因使用频率过高而被列入黑名单的机会,同时避免了质量低的网络代理的质量提升后无法被发现的问题,使得网络代理总体上得到更加均衡的使用,继而提高了爬取网络数据的效率。
实施例二
参照图2,示出了本发明实施例二中的一种网络代理的质量评估方法的流程图,具体可以包括:
步骤201,按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理。
其中,步骤201与实施例一的步骤进行组合可以形成一个实施例,该实施例在实施例一的基础上,提供了一种从网络代理池中如何选择网络代理的方法,从而保证所选择的网络代理能够满足相应的优先级要求。
在本发明实施例中,优先级不同的多个网络代理存储于不同的网络代理池中,例如,针对不同的站点分别划分代理池,针对每个站点域名对应维护一个优先级高的网络代理池和一个优先级低的网络代理池,当然还可以维护一个由优先级未知的网络代理组成的网络代理池。其中,优先级不同的多个网络代理,既可以为每个网络代理的优先级互不相同,也可以为若干网络代理的优先级相同,而剩余网络代理的优先级与之不同,无论何种情况下,多个网络代理中至少存在两个不同优先级的网络代理。
在本发明实施例中,每个网络代理池包括至少一个网络代理,网络代理池对应有优先级,可以将历史上爬取数据时质量较高的网络代理划入优先级较高的网络代理池,将质量较低的网络代理划入优先级较低的网络代理池。在一个实施例中,同一网络代理池中存储的网络代理的优先级可以相同,此时,网络代理池的优先级与其中存储的网络代理的优先级相同;在另外一个实施例中,一个网络代理池中存储的网络代理的优先级可以完全不同或者部分不同,该种情况下,网络代理池的优先级可以根据其中存储的网络代理的优先级综合确定。
在本发明实施例中,按照预设规则,可以从不同的多个网络代理池中选取优先级不同的多个目标网络代理,例如,按照预设数量比例,分别从具有优先级的多个网络代理池和优先级未知的网络代理池中,选取所述目标网络代理;获取网络代理的历史使用次数,按照所述网络代理的历史使用次数从小到大的顺序,确定在所属的网络代理池中选取目标网络代理的排序,从而保证在同一网络代理池中使用次数越少的网络代理,越优先被选择,具体可以根据实际需要设置任意适用的预设规则,本发明实施例对此不做限制。
在本发明实施例中,可选地,同一网络代理池中存储的网络代理的优先级相同,按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理的一种实现方式可以包括:确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;根据所述总数量和所述占比,计算每个优先级的网络代理的数量;根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理。
为了确保多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,可以预先设置每个优先级的网络代理的占比,优先级高的网络代理占比高,优先级低的网络代理占比低。先确定待选择网络代理的总数量,即需要选择的网络代理的总数量,以及每个优先级的网络代理的占比,那么根据总数量和占比,就可以计算出每个优先级的网络代理的数量,然后再根据每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理。例如,确定待选择的网络代理的总数量为10个,优先级高的网络代理的占比为60%,优先级低的网络代理的占比为40%,则可以计算出优先级高的网络代理的数量为10*60%=6个,优先级低的网络代理的数量为10*40%=4个。
在本发明实施例中,可选地,优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,第一优先级高于第二优先级,第一优先级的网络代理存储于第一网络代理池中,第二优先级的网络代理存储于第二网络代理池中。对应的,按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理的另一种实现方式可以包括:确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。
由于待选择的网络代理的总数量和第一优先级的网络代理的第一数量确定,两个数据相减就可以得到第二优先级的网络代理的第二数量,只要确保第一数量超过总数量的一半,即可以实现多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量。从第一网络代理池中选择第一数量的网络代理后,剩余部分从第二网络代理池中选择第二数量的网络代理,即可以完成网络代理的选择。例如,确定的待选择的网络代理的总数量为10个,且第一优先级的网络代理的数量为6个,则可以计算出第二优先级的网络代理的数量=10-6=4个。
在本发明实施例中,可选地,多个目标网络代理还包括:优先级未知的网络代理,优先级未知的网络代理存储于第三网络代理池中。在计算第二优先级的网络代理的第二数量之后,所述方法还包括:判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选择第一数量的网络代理,从所述第二网络代理池中选择全部的网络代理,以及从所述第三网络代理池中选择数量等于所述差值的网络代理。
需要说明的是,网络代理的优先级往往在网络代理被使用一段时间后才能确定,当有新的网络代理可使用时,此时网络代理的优先级未知,可以将优先级未知的网络代理存储于第三网络代理池中。在进行网络代理选用时,优先从已经评估过优先级(优先级已知)的网络代理池中选择,当优先级已知的网络代理无法满足数量要求时,优先级未知的网络代理可以作为替补被选择。例如,可以先从优先级高的网络代理池中选择,然后再从优先级低的网络代理池中选择,如果优先级低的网络代理池中存储的网络代理的数量不够,此时还可以从优先级未知的网络代理池中进行选择。
在本发明的另外一个实施例中,可以在上一实施例的基础上,当计算得到第二网络代理的数量后,判断第二网络代理池中存储的网络代理的数量是否小于第二数量,如果不小于,则意味着已知优先级的网络代理数量能够满足需要,此时可以从第一网络代理池和第二网络代理池中选择网络代理即可,但如果第二网络代理池中存储的网络代理的数量小于第二数量,则意味着已知优先级的网络代理数量无法满足需要,此时可以由第三网络代理池中的网络代理补充,补充的数量可以计算第二数量与第二网络代理池中存储的网络代理的数量的差值确定,然后从第一网络代理池中选择第一数量的网络代理,从第二网络代理池中选择全部的网络代理,以及从第三网络代理池中选择数量等于差值的网络代理。例如,确定的待选择的网络代理的总数量为10个,且需要选择的第一优先级的网络代理的数量为6个(假设第一网络代理池中存储的网络代理数量大于6个),则可以计算拟选择的第二网络代理的数量=10-6=4个,但是如果第二网络代理池中存储的网络代理只有3个,则可以判断第二网络代理池中的网络代理数量无法满足需求,需要从优先级未知的第三网络代理池中补选网络代理,并且补选的数量为:4-3=1个。
在本发明实施例中,可选地,在从不同的网络代理池中选择优先级不同的多个网络代理之后,还可以包括:对每个网络代理的选择次数进行计数,并将计数结果存储至网络代理池中;按照预设规则从不同的网络代理池中选择优先级不同的多个网络代理的一种实现方式可以包括:从不同的网络代理池中分别获取每个网络代理的选择次数;在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,以便从不同的网络代理池中选择优先级不同的多个网络代理。
网络代理池中每个网络代理配置了选择次数计数器,网络代理每次被爬虫选取,选择次数计数器就会加1。在选取目标网络代理时,从不同的网络代理池中分别获取每个网络代理的选择次数,在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,即优先选择那些选择次数少的网络代理,后选择那些选择次数多的网络代理,避免同一网络代理使用过于频繁,而被列入黑名单,以便从不同的网络代理池中选择优先级不同的多个网络代理。
步骤202,采用所述目标网络代理在所述目标站点上进行数据爬取。
步骤202与实施例一的步骤组合可以得到另外一个实施例,该实施例在实施例一的基础上,提供了一种采用选择的目标网络代理在目标站点上进行数据爬取的方法,以便得到代理使用结果。
在本发明实施例中,此步骤的具体实现方式可以参见前述实施例中的描述,此处不另赘述。
步骤203,获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高。
在本发明实施例中,可选地,代理使用结果包括以下至少一种:网络状态信息、HTTP状态码、数据长度、处理时长。其中,数据长度是目标站点的服务器返回的数据长度,处理时长可以是整个网络请求消耗的处理时长。
步骤204,根据所述多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分。
在本发明实施例中,评估网络代理的质量的一种实现方式是对网络代理进行质量评分,在目标网络代理爬取数据的过程中,不断获取到代理使用结果,根据代理使用结果,对网络代理进行质量评分。
例如:代理使用结果中HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。它由RFC 2616规范定义的,并得到RFC 2518、RFC 2817、RFC2295、RFC 2774、RFC 4918等规范扩展。可以根据设定的评分规则,根据返回状态码的不同给出不同的评分,例如:返回HTTP状态码在[200,300)之间时状态评分为“+N分”,在[400-500)之间状态评分为“-N分”,返回HTTP状态码为403时状态评分为“-S分”(403表示服务器禁止代理节点访问相应资源),当爬取任务配置禁止客户端链接跳转时,返回的HTTP状态码在[300,400)之间时状态评分为“-M分”。针对某某新闻站点定制规则,返回HTTP状态码为205时状态评分为“-Q分”,其中,M、N、S、Q指代对应的分值。最终,汇总通用规则和定制规则得分之和,得到本次网络代理的质量评分。
步骤205,记录每个网络代理的质量评分。
步骤206,每隔预设时间间隔,根据所述质量评分计算对应的网络代理的质量总分。
在本发明实施例中,每隔预设时间间隔,可以根据每个网络代理的质量评分计算对应的网络代理的质量总分,由于质量总分是更长的一段时间对网络代理的质量的评估,因此,质量总分更能综合、准确地反映网络代理的质量,能够有效避免单次网络代理的使用结果异常,即刻对网络代理优先级调整,而产生的问题。
在另外的实施例中,也可以根据记录质量评分的次数间隔,根据质量评分计算网络代理的质量总分。例如,每当记录质量评分的次数达到预设次数时,可以计算一次质量总分。
步骤207,根据所述质量总分对所述网络代理的优先级进行调整。
在本发明实施例中,根据质量总分可以调整网络代理的优先级,原则上,质量总分越高,将网络代理的优先级调整得越高,质量总分越低,将网络代理的优先级调整得越低,使得爬取数据的同时网络代理的优先级得到不断优化。需要说明的是,该实施例中,既可以每个质量总分对应一个优先级,也可以按照质量总分的分值范围设定优先级,质量总分在一定分值范围内的可以对应同一优先级。
在本发明实施例中,可选地,根据所述质量总分对所述网络代理的优先级进行调整的一种实现方式可以包括:将质量总分达到预设分值的网络代理分配至优先级高的网络代理池中,将质量总分未达到预设分值的网络代理分配至优先级低的网络代理池中。
例如,各个网络代理池对应有预设分值,根据质量总分和各个网络代理池对应的预设分值,调整目标网络代理的优先级时,质量总分高于预设分值,则将目标网络代理分配到优先级高的网络代理池,低于预设分值,则将目标网络代理分配到优先级低的网络代理池。
综上所述,依据本发明实施例,通过按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,采用所述目标网络代理在所述目标站点上进行数据爬取,获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,根据所述多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分,其中,多个目标网络代理包括:优先级不同的多个网络代理,多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高,实现了在数据爬取的过程中,较多使用质量高的网络代理,较少使用质量低的网络代理,减少了质量高的网络代理因使用频率过高而被列入黑名单的机会,同时避免了质量低的网络代理的质量提升后无法被发现的问题,使得网络代理总体上得到更加均衡的使用,继而提高了爬取网络数据的效率。
进一步,通过记录每个网络代理的质量评分,每隔预设时间间隔,根据所述质量评分计算对应的网络代理的质量总分,根据所述质量总分对所述网络代理的优先级进行调整,使得爬取数据的同时网络代理的优先级得到不断优化。
进一步,通过对每个网络代理的选择次数进行计数,并将计数结果存储至网络代理池中,从不同的网络代理池中分别获取每个网络代理的选择次数;在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,避免同一个代理节点因使用过于频繁易被列入黑名单的问题。
实施例三
参照图3,示出了本发明实施例三中的一种网络代理的质量评估装置的结构框图,具体可以包括:
结果获取模块301,用于获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
评估模块302,用于根据所述代理使用结果,对所述目标网络代理的质量进行评估。
在本发明实施例中,可选地,所述优先级不同的多个网络代理存储于不同的网络代理池中,所述装置还包括:
代理选择模块,用于在所述获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果之前,按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理;和/或,
爬取模块,用于采用所述目标网络代理在所述目标站点上进行数据爬取。
在本发明实施例中,可选地,同一网络代理池中存储的网络代理的优先级相同,所述代理选择模块包括:
占比确定子模块,用于确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;
数量计算子模块,用于根据所述总数量和所述占比,计算每个优先级的网络代理的数量;
代理选择子模块,用于根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理。
在本发明实施例中,可选地,所述优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,所述第一优先级高于所述第二优先级,所述第一优先级的网络代理存储于第一网络代理池中,所述第二优先级的网络代理存储于第二网络代理池中,所述代理选择模块包括:
数量确定子模块,用于确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;
数量计算子模块,用于根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;
代理选择子模块,用于从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。
在本发明实施例中,可选地,所述多个目标网络代理中还包括:优先级未知的网络代理,所述优先级未知的网络代理存储于第三网络代理池中,所述装置还包括:
数量判断模块,用于在计算第二优先级的网络代理的第二数量之后,判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;
第一选择模块,用于如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;
第二选择模块,用于如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选择第一数量的网络代理,从所述第二网络代理池中选择全部的网络代理,以及从所述第三网络代理池中选择数量等于所述差值的网络代理。
在本发明实施例中,可选地,所述装置还包括:
存储模块,用于在从所述不同的网络代理池中选择所述优先级不同的多个网络代理之后,对每个网络代理的选择次数进行计数,并将所述计数结果存储至所述网络代理池中;
所述代理选择模块包括:
次数获取子模块,用于从所述不同的网络代理池中分别获取每个网络代理的选择次数;
顺序选择子模块,用于在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,以便从所述不同的网络代理池中选择所述优先级不同的多个网络代理。
在本发明实施例中,可选地,所述评估模块包括:
评分子模块,用于根据所述多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分;
所述装置还包括:
评分记录子模块,用于在所述根据所述代理使用结果,对所述目标网络代理的质量进行评估之后,记录每个网络代理的质量评分;
总分计算子模块,用于每隔预设时间间隔,根据所述质量评分计算对应的网络代理的质量总分;
优先级调整子模块,用于根据所述质量总分对所述网络代理的优先级进行调整。
在本发明实施例中,可选地,所述优先级调整子模块包括:
分配单元,用于将质量总分达到预设分值的网络代理分配至优先级高的网络代理池中,将质量总分未达到预设分值的网络代理分配至优先级低的网络代理池中。
在本发明实施例中,可选地,所述代理使用结果包括以下至少一种:网络代理是否可用、HTTP状态码、数据长度、处理时长。
综上所述,依据本发明实施例,通过获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,根据所述代理使用结果,对所述目标网络代理的质量进行评估,其中,多个目标网络代理包括:优先级不同的多个网络代理,多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高,实现了在数据爬取的过程中,较多使用质量高的网络代理,较少使用质量低的网络代理,减少了质量高的网络代理因使用频率过高而被列入黑名单的机会,同时避免了质量低的网络代理的质量提升后无法被发现的问题,使得网络代理总体上得到更加均衡的使用,继而提高了爬取网络数据的效率。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
所述用户信息修改装置包括处理器和存储器,上述模块以及子模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,根据所述代理使用结果,对所述目标网络代理的质量进行评估,其中,多个目标网络代理包括:优先级不同的多个网络代理,多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高,实现了在数据爬取的过程中,较多使用质量高的网络代理,较少使用质量低的网络代理,减少了质量高的网络代理因使用频率过高而被列入黑名单的机会,同时避免了质量低的网络代理的质量提升后无法被发现的问题,使得网络代理总体上得到更加均衡的使用,继而提高了爬取网络数据的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述网络代理的质量评估方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述网络代理的质量评估方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
根据所述代理使用结果,对所述目标网络代理的质量进行评估。
可选地,所述优先级不同的多个网络代理存储于不同的网络代理池中,在所述获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果之前,所述方法还包括:
按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理;和/或,
采用所述目标网络代理在所述目标站点上进行数据爬取。
可选地,同一网络代理池中存储的网络代理的优先级相同,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;
根据所述总数量和所述占比,计算每个优先级的网络代理的数量;
根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理。
可选地,所述优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,所述第一优先级高于所述第二优先级,所述第一优先级的网络代理存储于第一网络代理池中,所述第二优先级的网络代理存储于第二网络代理池中,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;
根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;
从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。
可选地,所述多个目标网络代理中还包括:优先级未知的网络代理,所述优先级未知的网络代理存储于第三网络代理池中,在计算第二优先级的网络代理的第二数量之后,所述方法还包括:
判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;
如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;
如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选择第一数量的网络代理,从所述第二网络代理池中选择全部的网络代理,以及从所述第三网络代理池中选择数量等于所述差值的网络代理。
可选地,在从所述不同的网络代理池中选择所述优先级不同的多个网络代理之后,所述方法还包括:
对每个网络代理的选择次数进行计数,并将所述计数结果存储至所述网络代理池中;
所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
从所述不同的网络代理池中分别获取每个网络代理的选择次数;
在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,以便从所述不同的网络代理池中选择所述优先级不同的多个网络代理。
可选地,所述根据所述代理使用结果,对所述目标网络代理的质量进行评估,包括:
根据所述多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分;
在所述根据所述代理使用结果,对所述目标网络代理的质量进行评估之后,所述方法还包括:
记录每个网络代理的质量评分;
每隔预设时间间隔,根据所述质量评分计算对应的网络代理的质量总分;
根据所述质量总分对所述网络代理的优先级进行调整。
可选地,所述根据所述质量总分对所述网络代理的优先级进行调整,包括:
将质量总分达到预设分值的网络代理分配至优先级高的网络代理池中,将质量总分未达到预设分值的网络代理分配至优先级低的网络代理池中。
可选地,所述代理使用结果包括以下至少一种:网络代理是否可用、HTTP状态码、数据长度、处理时长。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种网络代理的质量评估方法,其特征在于,包括:
获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
根据所述代理使用结果,对所述目标网络代理的质量进行评估。
2.根据权利要求1所述的方法,其特征在于,所述优先级不同的多个网络代理存储于不同的网络代理池中,在所述获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果之前,所述方法还包括:
按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理;和/或,
采用所述目标网络代理在所述目标站点上进行数据爬取。
3.根据权利要求2所述的方法,其特征在于,同一网络代理池中存储的网络代理的优先级相同,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及每个优先级的网络代理的占比;
根据所述总数量和所述占比,计算每个优先级的网络代理的数量;
根据所述每个优先级的网络代理的数量,从存储对应优先级的网络代理池中分别选择相应数量的网络代理;和/或,
所述优先级不同的多个网络代理包括:第一优先级的网络代理和第二优先级的网络代理,所述第一优先级高于所述第二优先级,所述第一优先级的网络代理存储于第一网络代理池中,所述第二优先级的网络代理存储于第二网络代理池中,所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
确定待选择的网络代理的总数量,以及第一优先级的网络代理的第一数量;
根据所述总数量和所述第一数量,计算第二优先级的网络代理的第二数量;
从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理。
4.根据权利要求3所述的方法,其特征在于,所述多个目标网络代理中还包括:优先级未知的网络代理,所述优先级未知的网络代理存储于第三网络代理池中,在计算第二优先级的网络代理的第二数量之后,所述方法还包括:
判断所述第二网络代理池中存储的网络代理的数量是否小于所述第二数量;
如果不小于,则转入执行从所述第一网络代理池中选择第一数量的网络代理,以及从所述第二网络代理池中选择第二数量的网络代理的步骤;
如果小于,则计算所述第二数量与所述第二网络代理池中存储的网络代理的数量的差值,并从所述第一网络代理池中选择第一数量的网络代理,从所述第二网络代理池中选择全部的网络代理,以及从所述第三网络代理池中选择数量等于所述差值的网络代理。
5.根据权利要求2至4任一项所述的方法,其特征在于,在从所述不同的网络代理池中选择所述优先级不同的多个网络代理之后,所述方法还包括:
对每个网络代理的选择次数进行计数,并将所述计数结果存储至所述网络代理池中;和/或,
所述按照预设规则从所述不同的网络代理池中选择所述优先级不同的多个网络代理,包括:
从所述不同的网络代理池中分别获取每个网络代理的选择次数;
在同一网络代理池中按照每个网络代理的选择次数由少至多的顺序进行网络代理的选择,以便从所述不同的网络代理池中选择所述优先级不同的多个网络代理。
6.根据权利要求2所述的方法,其特征在于,所述根据所述代理使用结果,对所述目标网络代理的质量进行评估,包括:
根据所述多个目标网络代理中每个网络代理的代理使用结果,对相应的网络代理进行质量评分;
在所述根据所述代理使用结果,对所述目标网络代理的质量进行评估之后,所述方法还包括:
记录每个网络代理的质量评分;
每隔预设时间间隔,根据所述质量评分计算对应的网络代理的质量总分;
根据所述质量总分对所述网络代理的优先级进行调整。
7.根据权利要求6所述的方法,其特征在于,所述根据所述质量总分对所述网络代理的优先级进行调整,包括:
将质量总分达到预设分值的网络代理分配至优先级高的网络代理池中,将质量总分未达到预设分值的网络代理分配至优先级低的网络代理池中;
和/或,
所述代理使用结果包括以下至少一种:网络代理是否可用、HTTP状态码、数据长度、处理时长。
8.一种网络代理的质量评估装置,其特征在于,包括:
结果获取模块,用于获取采用多个目标网络代理在目标站点上进行数据爬取时的代理使用结果,所述多个目标网络代理包括:优先级不同的多个网络代理,所述多个目标网络代理中优先级高的网络代理的数量大于优先级低的网络代理的数量,且优先级越高的网络代理的质量越高;
评估模块,用于根据所述代理使用结果,对所述目标网络代理的质量进行评估。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至7所述的一个或多个方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1至7所述的一个或多个方法。
CN201910138367.2A 2019-02-25 2019-02-25 一种网络代理的质量评估方法、装置、存储介质及处理器 Active CN111611512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910138367.2A CN111611512B (zh) 2019-02-25 2019-02-25 一种网络代理的质量评估方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910138367.2A CN111611512B (zh) 2019-02-25 2019-02-25 一种网络代理的质量评估方法、装置、存储介质及处理器

Publications (2)

Publication Number Publication Date
CN111611512A true CN111611512A (zh) 2020-09-01
CN111611512B CN111611512B (zh) 2023-04-07

Family

ID=72200146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910138367.2A Active CN111611512B (zh) 2019-02-25 2019-02-25 一种网络代理的质量评估方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN111611512B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11184458B1 (en) 2021-03-30 2021-11-23 Teso LT, UAB Proxy selection by monitoring quality and available capacity
CN113923260A (zh) * 2021-09-28 2022-01-11 盐城金堤科技有限公司 一种对代理环境进行处理的方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192190A1 (en) * 2005-12-06 2007-08-16 Authenticlick Method and system for scoring quality of traffic to network sites
CN101145969A (zh) * 2007-10-25 2008-03-19 中兴通讯股份有限公司 一种减少网元上报告警数量的方法及系统
CN101449284A (zh) * 2006-03-20 2009-06-03 乔耳·贝尔曼 使用互相关的流量参数对至网络站点的流量质量进行的评分
CN103546505A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 将页面分块按优先级顺序显示的方法、系统及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192190A1 (en) * 2005-12-06 2007-08-16 Authenticlick Method and system for scoring quality of traffic to network sites
CN101449284A (zh) * 2006-03-20 2009-06-03 乔耳·贝尔曼 使用互相关的流量参数对至网络站点的流量质量进行的评分
CN101145969A (zh) * 2007-10-25 2008-03-19 中兴通讯股份有限公司 一种减少网元上报告警数量的方法及系统
CN103546505A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 将页面分块按优先级顺序显示的方法、系统及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11184458B1 (en) 2021-03-30 2021-11-23 Teso LT, UAB Proxy selection by monitoring quality and available capacity
US11297158B1 (en) 2021-03-30 2022-04-05 Teso LT, UAB Proxy selection by monitoring quality and available capacity
US11388253B1 (en) 2021-03-30 2022-07-12 Teso LT, UAB Proxy selection by monitoring quality and available capacity
US11463537B1 (en) 2021-03-30 2022-10-04 Teso LT, UAB Proxy selection by monitoring quality and available capacity
US11606438B2 (en) 2021-03-30 2023-03-14 Oxylabs, Uab Proxy selection by monitoring quality and available capacity
US11817946B2 (en) 2021-03-30 2023-11-14 Oxylabs, Uab Proxy selection by monitoring quality and available capacity
CN113923260A (zh) * 2021-09-28 2022-01-11 盐城金堤科技有限公司 一种对代理环境进行处理的方法、装置、终端及存储介质
CN113923260B (zh) * 2021-09-28 2024-01-09 盐城天眼察微科技有限公司 一种对代理环境进行处理的方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN111611512B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110768912B (zh) Api网关限流方法及装置
CN106959925B (zh) 一种版本测试方法及装置
CN111611512B (zh) 一种网络代理的质量评估方法、装置、存储介质及处理器
CN109391512A (zh) 一种服务发布方法、装置及电子设备
CN110806971A (zh) 一种版本测试方法、装置及电子设备
CN113794690A (zh) 数据处理方法、装置、非易失性存储介质及处理器
CN112583780B (zh) 使用代理ip访问网站数据的方法、装置、系统和设备
CN110334012B (zh) 一种风险评估方法及装置
Sabar et al. A variable local search based memetic algorithm for the load balancing problem in cloud computing
CN107948234B (zh) 数据的处理方法及装置
CN110020074B (zh) 确定网页流失率的方法及装置
CN110941787A (zh) 一种页面重定向方法及装置
CN111769984A (zh) 区块链网络中添加节点的方法及区块链系统
CN109597743B (zh) 页面圈选方法、点击量统计方法及相关设备
US20230161634A1 (en) Mapping an application signature to designated cloud resources
CN110782276B (zh) 一种访问分流策略干扰判断方法、装置及电子设备
CN105763508B (zh) 一种数据访问方法和应用服务器
CN110889065A (zh) 页面停留时长确定方法、装置与设备
CN110620703A (zh) 一种基于http的服务节点状态确定方法
CN111881400B (zh) 网页跳转路径确定方法及装置
CN114244805A (zh) 一种域名配置方法及设备
CN113905092A (zh) 一种确定可复用代理队列的方法、装置、终端及存储介质
CN110991945B (zh) 设备备件的信息处理方法及装置、存储介质和处理器
CN110968817A (zh) 一种页面内容检测方法、装置及系统
CN113553193B (zh) 一种镜像数据审计分配处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant