CN107169006A - 一种管理爬虫代理的方法及装置 - Google Patents

一种管理爬虫代理的方法及装置 Download PDF

Info

Publication number
CN107169006A
CN107169006A CN201710208203.3A CN201710208203A CN107169006A CN 107169006 A CN107169006 A CN 107169006A CN 201710208203 A CN201710208203 A CN 201710208203A CN 107169006 A CN107169006 A CN 107169006A
Authority
CN
China
Prior art keywords
agency
updated
instruction
increased
newly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710208203.3A
Other languages
English (en)
Inventor
帅伟良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710208203.3A priority Critical patent/CN107169006A/zh
Publication of CN107169006A publication Critical patent/CN107169006A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了一种管理爬虫代理的方法及装置,其中,所述方法包括:获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息,添加待新增代理的代理信息,并添加待新增代理到代理池;获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息,删除待删除代理的代理信息,并删除代理池中的待删除代理。本发明实施例提供的一种管理爬虫代理的方法及装置,通过在有待更新代理时,及时更新待更新代理的代理信息,并更新待更新代理到代理池,保证代理池中的代理都是可用代理,消除代理的改变对进程采集信息的影响。

Description

一种管理爬虫代理的方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种管理爬虫代理的方法及装置。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,为了有效地提取并利用这些信息,网络爬虫应用而生。网络爬虫(又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
然而,许多网站为了防止网络爬虫所带来的系统压力,采取了反爬虫技术,不允许爬虫进行高频率的数据采集。目前,为了应对反爬虫技术,进程可以向代理发起请求,由代理实现网页下载,如此,网站则不能检测到真正采集网页的机器,其中,代理是指可以用于实现网页下载的服务器。
现有技术中,为了实现使用代理更高效地采集所需要的信息,往往都是建立代理池,进程通过从代理池中不断获取代理,并且向获取的代理发起请求,来实现网页下载,采集所需要的信息。
但是,现有技术并没有对代理池中的代理进行有效管理,在代理池中的代理改变时,不能及时反馈给进程,例如:在代理池中有新增加的代理时,现有技术不能及时将新增加的代理反馈给进程,进程获取不到新增加的代理;在代理池中有不可用的代理时,进程获取到该不可用的代理后,不能进行网页下载。这样就会影响进程采集信息。
发明内容
本发明实施例的目的在于提供一种管理爬虫代理的方法及装置,以实现及时更新代理,消除代理的改变对进程采集信息的影响。具体技术方案如下:
第一方面,本发明实施例提供了一种管理爬虫代理的方法,该方法包括:
获取并根据携带有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的IP地址、待更新代理的名称及待更新代理的端口,待更新代理的指令为待新增代理的指令和/或待删除代理的指令;
更新待更新代理的代理信息,并更新待更新代理到代理池。
可选的,所述获取并根据携带有待更新代理的指令,得到待更新代理的代理信息,包括:
获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的IP地址、待新增代理的名称及待新增代理的端口;
相应的,所述更新待更新代理的代理信息,并更新待更新代理到代理池,包括:
添加待新增代理的代理信息,并添加待新增代理到代理池。
可选的,在所述获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息之后,本发明实施例的管理爬虫代理的方法还包括:
根据待新增代理的代理信息,向待新增代理发送下载第一指定内容的第一下载指令;
在待新增代理根据第一下载指令成功下载第一指定内容时,则待新增代理为可用代理;
相应的,所述添加待新增代理的代理信息,并添加待新增代理到代理池,包括:
在待新增代理为可用代理时,添加可用代理的代理信息,并添加可用代理到代理池。
可选的,所述获取并根据携带有待更新代理的指令,得到待更新代理的代理信息,包括:
获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息,其中,待删除代理的代理信息至少包括:待删除代理的IP地址、待删除代理的名称及待删除代理的端口;
相应的,所述更新待更新代理的代理信息,并更新待更新代理到代理池,包括:
删除待删除代理的代理信息,并删除代理池中的待删除代理。
可选的,在所述获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息之前,本发明实施例的管理爬虫代理的方法还包括:
周期性的获取代理池中第一代理的代理信息,并根据第一代理的代理信息,向第一代理发送下载第二指定内容的第二下载指令,其中,第一代理为代理池中的任一个代理;
在第一代理根据第二下载指令不能下载第二指定内容时,则该第一代理为待删除代理。
另一方面,本发明实施例还提供了一种管理爬虫代理的装置,该装置包括:
获取模块,用于获取并根据携带有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的IP地址、待更新代理的名称及待更新代理的端口,待更新代理的指令为待新增代理的指令和/或待删除代理的指令;
更新模块,用于更新待更新代理的代理信息,并更新待更新代理到代理池。
可选的,所述获取模块,具体用于:
获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的IP地址、待新增代理的名称及待新增代理的端口;
相应的,所述更新模块,具体用于:
添加待新增代理的代理信息,并添加待新增代理到代理池。
可选的,在所述获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息之后,本发明实施例的管理爬虫代理的装置还包括:
健康检查模块,用于根据待新增代理的代理信息,向待新增代理发送下载第一指定内容的第一下载指令;
在待新增代理根据第一下载指令成功下载第一指定内容时,则待新增代理为可用代理;
相应的,所述更新模块,还具体用于:
在待新增代理为可用代理时,添加可用代理的代理信息,并添加可用代理到代理池。
可选的,所述获取模块,还具体用于:
获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息,其中,待删除代理的代理信息至少包括:待删除代理的IP地址、待删除代理的名称及待删除代理的端口;
相应的,所述更新模块,还具体用于:
删除待删除代理的代理信息,并删除代理池中的待删除代理。
可选的,在所述获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息之前,本发明实施例的管理爬虫代理的装置还包括:
待删除代理检查模块,用于周期性的获取代理池中第一代理的代理信息,并根据第一代理的代理信息,向第一代理发送下载第二指定内容的第二下载指令,其中,第一代理为代理池中的任一个代理;
在第一代理根据第二下载指令不能下载第二指定内容时,则该第一代理为待删除代理。
本发明实施例提供的一种管理爬虫代理的方法及装置,通过在有待更新代理时,及时更新待更新代理的代理信息,并更新待更新代理到代理池,保证代理池中的代理都是可用代理,消除代理的改变对进程采集信息的影响。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种管理爬虫代理的方法的第一种实施方式的流程图;
图2为本发明实施例的一种管理爬虫代理的方法的第二种实施方式的流程图;
图3为本发明实施例的一种管理爬虫代理的方法的第三种实施方式的流程图;
图4为本发明实施例的一种管理爬虫代理的方法的第四种实施方式的流程图;
图5为本发明实施例的一种管理爬虫代理的方法的第五种实施方式的流程图;
图6为本发明实施例的一种管理爬虫代理的装置的结构图;
图7为本发明实施例的一种管理爬虫代理的装置的应用系统图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术存在的问题,本发明实施例提供了一种管理爬虫代理的方法及装置,以实现及时更新代理,消除代理的改变对进程采集信息的影响。
下面,首先对本发明实施例提供的一种管理爬虫代理的方法进行介绍,如图1所示,为本发明实施例的一种管理爬虫代理的方法的第一种实施方式的流程图,所述的方法可以包括:
S101,获取并根据携带有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的IP地址、待更新代理的名称及待更新代理的端口,待更新代理的指令为待新增代理的指令和/或待删除代理的指令;
代理是指可以用于实现网页下载的服务器,
具体地,该待更新代理包括自建代理和商业购买的代理,对于自建代理,该携带有待更新代理的指令来自于自建代理集群,对于商业购买的代理,该携带有待更新代理的指令来自于商业购买的代理集群,其中,自建代理的方法为现有技术,此处不再赘述。
自建代理在建立成功以后,都是可用的,生命周期较长,而商业购买的代理,在购买后,并不能保证所有购买的代理都是可用的,并且购买的代理的生命周期也不同,因此,在这里将自建代理与商业购买的代理进行分开运维,能够减少运维的复杂度。
S102,更新待更新代理的代理信息,并更新待更新代理到代理池。
具体地,在步骤S101中得到待更新代理的代理信息后,首先更新本发明实施例的待更新代理的代理信息,然后发送更新指令到代理池,更新代理池中的该待更新代理。
需要说明的是,代理池为保存有各个代理的代理信息的表项或集合。
本发明实施例提供的一种管理爬虫代理的方法,通过在有待更新代理时,及时更新待更新代理的代理信息,并更新待更新代理到代理池,保证代理池中的代理都是可用代理,消除代理的改变对进程采集信息的影响。
具体地,本发明实施例的一种管理爬虫代理的方法,可以应用于代理注册中心,该代理注册中心用于维护和管理代理池,具体地,该代理注册中心可以使用zookeeper集群构建。为了更好的说明本发明实施例,下面将以代理注册中心为例进行说明。
在第一种实施方式中,待更新代理的指令为待新增代理的指令和/或待删除代理的指令,那么,在待更新代理的指令为待新增代理的指令时,可以通过图2所示的实施方式进行管理,如图2所示,为本发明实施例的一种管理爬虫代理的方法的第二种实施方式的流程图;该方法可以包括:
S201,获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的IP地址、待新增代理的名称及待新增代理的端口;
在该待新增代理为自建代理时,自建代理集群发送携带有该自建代理信息的更新指令,具体地,该待新增代理的指令中包含有该待新增代理的代理信息,因此,代理注册中心可以获取到该待新增代理的代理信息。
S202,添加待新增代理的代理信息,并添加待新增代理到代理池。
在代理注册中心获取到该待新增代理的代理信息后,将该待新增代理的代理信息注册到代理注册中心,具体地,注册到代理注册中心的方法为:将该待新增代理的代理信息添加到代理注册中心相应的路径下。在注册成功后,发送携带有该待新增代理的代理信息的更新指令给代理改变触发进程,该进程用于发送携带有该待新增代理的代理信息的添加指令给代理池,将该待新增代理的代理信息也添加到代理池中。
通过本发明实施例提供的一种管理爬虫代理的方法,能够及时得到待新增的代理,并将该待新增代理添加到代理池,能够使得进程在使用代理池中的代理采集信息时,能够及时得到最新的代理,从而消除代理的改变对进程采集信息的影响。
由于自建代理在注册时都是可以使用的,因此,在该待新增代理为自建代理时,可以使用上述实施方式。为了保证添加到代理池中的代理都是可用的,消除代理的改变对进程采集信息的影响,下面,介绍本发明实施例提供的一种管理爬虫代理的方法的第三种实施方式,如图3所示,为本发明实施例的一种管理爬虫代理的方法的第三种实施方式的流程图,该方法可以包括:
S301,获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的IP地址、待新增代理的名称及待新增代理的端口;
S302,根据待新增代理的代理信息,向待新增代理发送下载第一指定内容的第一下载指令;
S303,在待新增代理根据第一下载指令成功下载第一指定内容时,则待新增代理为可用代理;
S304,在待新增代理为可用代理时,添加可用代理的代理信息,并添加可用代理到代理池。
需要说明的是,该第一指定内容为在检查该待新增代理是否为可用代理时,选择的内容,可以包括:网页、信息、视频等内容。
通过本发明实施例,能够保证添加到代理池中的商用代理都是可以使用的代理,进一步消除代理的改变对进程采集信息的影响。
在第一种实施方式中,待更新代理的指令为待新增代理的指令和/或待删除代理的指令,那么,在待更新代理的指令为待删除代理的指令时,可以通过图4所示的实施方式进行管理,如图4所示,为本发明实施例的一种管理爬虫代理的方法的第四种实施方式的流程图;该方法可以包括:
S401,获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息,其中,待删除代理的代理信息至少包括:待删除代理的IP地址、待删除代理的名称及待删除代理的端口;
S402,删除待删除代理的代理信息,并删除代理池中的待删除代理。
需要说明的是,该待删除代理的指令可以来自于自建代理集群、商业购买的代理集群或者代理池。
具体地,这里以代理注册中心为例进行说明,在代理注册中心获取到该待删除代理的代理信息后,将该待删除代理的代理信息从代理注册中心删除,具体地,删除的方法为:从代理注册中心的相应路径下删除该待删除代理。在代理注册中心删除后,发送携带有该待删除代理的代理信息的更新指令给代理改变触发进程,该进程用于发送携带有该待删除代理的代理信息的添加指令给代理池,将该待删除代理的代理信息从代理池中删除。
通过本发明实施例提供的一种管理爬虫代理的方法,能够及时得到待删除的代理,并将该待删除代理从代理池中删除,能够使得进程在使用代理池中的代理采集信息时,不使用该待删除的代理,从而消除代理的改变对进程采集信息的影响。
具体地,在所述获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息之前,本发明实施例的管理爬虫代理的方法还包括:
周期性的获取代理池中第一代理的代理信息,并根据第一代理的代理信息,向第一代理发送下载第二指定内容的第二下载指令,其中,第一代理为代理池中的任一个代理;
在第一代理根据第二下载指令不能下载第二指定内容时,则该第一代理为待删除代理。
需要说明的是,该第二指定内容为在检查第一代理是否为待删除代理时选择的内容,可以包括:网页、信息、视频等内容。为了降低实施本发明实施例的难度,该第二指定内容可以与第一指定内容相同。
应当理解的是,获取代理池中第一代理的代理信息的周期是根据实际需要进行设置的。
通过本发明实施例,能够及时删除代理池中的不可用代理,保证代理池中的代理都是可以使用的代理,进一步消除代理的改变对进程采集信息的影响。
需要说明的是,在该待更新代理的指令为待新增代理的指令和待删除代理的指令时,可以同时通过上述的实施方式来实现,可以相互参考,这里不再赘述。
另外,本发明实施例还提供了一种管理爬虫代理的方法,如图5所示,为本发明实施例的一种管理爬虫代理的方法的第五种实施方式的流程图,该方法可以包括:
S501,获取并根据携带有待新增代理的指令,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的IP地址、待新增代理的名称及待新增代理的端口;
S502,添加待新增代理的代理信息,并添加待新增代理到代理池;
S503,周期性的获取代理池中第一代理的代理信息,并根据第一代理的代理信息,向第一代理发送下载第二指定内容的第二下载指令,其中,第一代理为代理池中的任一个代理;
S504,在第一代理根据第二下载指令不能下载第二指定内容时,则该第一代理为待删除代理;
S505,获取并根据携带有待删除代理的指令,得到待删除代理的代理信息,其中,待删除代理的代理信息至少包括:待删除代理的IP地址、待删除代理的名称及待删除代理的端口;
S506,删除待删除代理的代理信息,并删除代理池中的待删除代理。
相应于上述方法实施例,本发明实施例提供了一种管理爬虫代理的装置,如图6所示,为本发明实施例的一种管理爬虫代理的装置的结构图,该装置可以包括:
获取模块601,用于获取并根据携带有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的IP地址、待更新代理的名称及待更新代理的端口,待更新代理的指令为待新增代理的指令和/或待删除代理的指令;
更新模块602,用于更新待更新代理的代理信息,并更新待更新代理到代理池。
本发明实施例提供的一种管理爬虫代理的装置,通过在有待更新代理时,及时更新待更新代理的代理信息,并更新待更新代理到代理池,保证代理池中的代理都是可用代理,消除代理的改变对进程采集信息的影响。
具体地,所述获取模块601,具体用于:
获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的IP地址、待新增代理的名称及待新增代理的端口;
相应的,所述更新模块602,具体用于:
添加待新增代理的代理信息,并添加待新增代理到代理池。
具体地,在所述获取并根据携带有待更新代理的指令,在待更新代理的指令为待新增代理的指令时,得到待新增代理的代理信息之后,本发明实施例的管理爬虫代理的装置还包括:
健康检查模块,用于根据待新增代理的代理信息,向待新增代理发送下载第一指定内容的第一下载指令;
在待新增代理根据第一下载指令成功下载第一指定内容时,则待新增代理为可用代理;
相应的,所述更新模块602,还具体用于:
在待新增代理为可用代理时,添加可用代理的代理信息,并添加可用代理到代理池。
具体地,所述获取模块601,还具体用于:
获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息,其中,待删除代理的代理信息至少包括:待删除代理的IP地址、待删除代理的名称及待删除代理的端口;
相应的,所述更新模块602,还具体用于:
删除待删除代理的代理信息,并删除代理池中的待删除代理。
具体地,在所述获取并根据携带有待更新代理的指令,在待更新代理的指令为待删除代理的指令时,得到待删除代理的代理信息之前,本发明实施例的管理爬虫代理的装置还包括:
待删除代理检查模块,用于周期性的获取代理池中第一代理的代理信息,并根据第一代理的代理信息,向第一代理发送下载第二指定内容的第二下载指令,其中,第一代理为代理池中的任一个代理;
在第一代理根据第二下载指令不能下载第二指定内容时,则该第一代理为待删除代理。
如图7所示,为本发明实施例的一种管理爬虫代理的装置的应用系统图,该系统可以包括:
代理模块701、代理注册中心702、健康检查模块703、待删除代理检查模块704、代理改变触发模块705、代理更新模块706,代理池707,其中代理注册中心702包括:获取模块601和更新模块602。
代理注册中心702用于获取代理模块701中的自建代理,或者获取代理模块701中商业购买的代理,或者获取代理池707中的待删除代理;在代理注册中心702获取代理模块701中商业购买的代理时,为了保证添加到代理池707中的新增代理都是可用代理,通过健康检查模块703对商业购买的代理进行检查,只有在商业购买的代理是可用代理时,才将该商业购买的代理添加到代理池707中。
具体的添加方式为:代理注册中心702中的更新模块602根据获取模块601获取的待添加代理的代理信息,添加该待添加代理的代理信息到代理注册中心702中,并发送该待添加代理的代理信息到代理改变触发模块705,代理改变触发模块705产生并发送携带有该待添加代理的代理信息的添加指令到代理更新模块706,代理更新模块706根据该添加指令将该待添加代理的代理信息添加到代理池707中。
在将代理模块701中的代理添加到代理池707中后,待删除代理检查模块704会周期性的检查代理池707中是否有待删除代理,在代理池707中有待删除代理时,代理注册中心702中的更新模块602删除代理注册中心702中的该待删除代理的代理信息,并发送该待删除代理的代理信息给代理改变触发模块705,代理改变触发模块705产生并发送携带有该待删除代理的代理信息的删除指令给代理更新模块706,代理更新模块706根据该删除指令将该待删除代理的代理信息从代理池707中删除。
需要说明的是,本发明实施例的装置是应用上述管理爬虫代理的方法的装置,则上述管理爬虫代理的方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台服务端设备(可以是计算机、服务器或者网络设备等)执行本发明各个实施例所述的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种管理爬虫代理的方法,其特征在于,所述方法包括:
获取并根据携带有待更新代理的指令,得到所述待更新代理的代理信息,其中,所述待更新代理的代理信息至少包括:所述待更新代理的IP地址、所述待更新代理的名称及所述待更新代理的端口,所述待更新代理的指令为待新增代理的指令和/或待删除代理的指令;
更新所述待更新代理的代理信息,并更新所述待更新代理到代理池。
2.根据权利要求1所述的管理爬虫代理的方法,其特征在于,所述获取并根据携带有待更新代理的指令,得到所述待更新代理的代理信息,包括:
获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待新增代理的指令时,得到所述待新增代理的代理信息,其中,所述待新增代理的代理信息至少包括:所述待新增代理的IP地址、所述待新增代理的名称及所述待新增代理的端口;
相应的,所述更新所述待更新代理的代理信息,并更新所述待更新代理到代理池,包括:
添加所述待新增代理的代理信息,并添加所述待新增代理到所述代理池。
3.根据权利要求2所述的管理爬虫代理的方法,其特征在于,在所述获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待新增代理的指令时,得到所述待新增代理的代理信息之后,所述的管理爬虫代理的方法还包括:
根据所述待新增代理的代理信息,向所述待新增代理发送下载第一指定内容的第一下载指令;
在所述待新增代理根据所述第一下载指令成功下载所述第一指定内容时,则所述待新增代理为可用代理;
相应的,所述添加所述待新增代理的代理信息,并添加所述待新增代理到所述代理池,包括:
在所述待新增代理为可用代理时,添加所述可用代理的代理信息,并添加所述可用代理到所述代理池。
4.根据权利要求1所述的管理爬虫代理的方法,其特征在于,所述获取并根据携带有待更新代理的指令,得到所述待更新代理的代理信息,包括:
获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待删除代理的指令时,得到所述待删除代理的代理信息,其中,所述待删除代理的代理信息至少包括:所述待删除代理的IP地址、所述待删除代理的名称及所述待删除代理的端口;
相应的,所述更新所述待更新代理的代理信息,并更新所述待更新代理到代理池,包括:
删除所述待删除代理的代理信息,并删除所述代理池中的所述待删除代理。
5.根据权利要求4所述的管理爬虫代理的方法,其特征在于,在所述获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待删除代理的指令时,得到所述待删除代理的代理信息之前,所述的管理爬虫代理的方法还包括:
周期性的获取所述代理池中第一代理的代理信息,并根据所述第一代理的代理信息,向所述第一代理发送下载第二指定内容的第二下载指令,其中,所述第一代理为所述代理池中的任一个代理;
在所述第一代理根据所述第二下载指令不能下载所述第二指定内容时,则所述第一代理为待删除代理。
6.一种管理爬虫代理的装置,其特征在于,所述装置包括:
获取模块,用于获取并根据携带有待更新代理的指令,得到所述待更新代理的代理信息,其中,所述待更新代理的代理信息至少包括:所述待更新代理的IP地址、所述待更新代理的名称及所述待更新代理的端口,所述待更新代理的指令为待新增代理的指令和/或待删除代理的指令;
更新模块,用于更新所述待更新代理的代理信息,并更新所述待更新代理到代理池。
7.根据权利要求6所述的管理爬虫代理的装置,其特征在于,所述获取模块,具体用于:
获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待新增代理的指令时,得到所述待新增代理的代理信息,其中,所述待新增代理的代理信息至少包括:所述待新增代理的IP地址、所述待新增代理的名称及所述待新增代理的端口;
相应的,所述更新模块,具体用于:
添加所述待新增代理的代理信息,并添加所述待新增代理到所述代理池。
8.根据权利要求7所述的管理爬虫代理的装置,其特征在于,在所述获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待新增代理的指令时,得到所述待新增代理的代理信息之后,所述的管理爬虫代理的装置还包括:
健康检查模块,用于根据所述待新增代理的代理信息,向所述待新增代理发送下载第一指定内容的第一下载指令;
在所述待新增代理根据所述第一下载指令成功下载所述第一指定内容时,则所述待新增代理为可用代理;
相应的,所述更新模块,还具体用于:
在所述待新增代理为可用代理时,添加所述可用代理的代理信息,并添加所述可用代理到所述代理池。
9.根据权利要求6所述的管理爬虫代理的装置,其特征在于,所述获取模块,还具体用于:
获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待删除代理的指令时,得到所述待删除代理的代理信息,其中,所述待删除代理的代理信息至少包括:所述待删除代理的IP地址、所述待删除代理的名称及所述待删除代理的端口;
相应的,所述更新模块,还具体用于:
删除所述待删除代理的代理信息,并删除所述代理池中的所述待删除代理。
10.根据权利要求9所述的管理爬虫代理的装置,其特征在于,在所述获取并根据携带有所述待更新代理的指令,在所述待更新代理的指令为所述待删除代理的指令时,得到所述待删除代理的代理信息之前,所述的管理爬虫代理的装置还包括:
待删除代理检查模块,用于周期性的获取所述代理池中第一代理的代理信息,并根据所述第一代理的代理信息,向所述第一代理发送下载第二指定内容的第二下载指令,其中,所述第一代理为所述代理池中的任一个代理;
在所述第一代理根据所述第二下载指令不能下载所述第二指定内容时,则所述第一代理为待删除代理。
CN201710208203.3A 2017-03-31 2017-03-31 一种管理爬虫代理的方法及装置 Pending CN107169006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710208203.3A CN107169006A (zh) 2017-03-31 2017-03-31 一种管理爬虫代理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710208203.3A CN107169006A (zh) 2017-03-31 2017-03-31 一种管理爬虫代理的方法及装置

Publications (1)

Publication Number Publication Date
CN107169006A true CN107169006A (zh) 2017-09-15

Family

ID=59849184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710208203.3A Pending CN107169006A (zh) 2017-03-31 2017-03-31 一种管理爬虫代理的方法及装置

Country Status (1)

Country Link
CN (1) CN107169006A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107635026A (zh) * 2017-09-26 2018-01-26 马上消费金融股份有限公司 一种获取ip的方法及装置
CN107832355A (zh) * 2017-10-23 2018-03-23 北京金堤科技有限公司 一种爬虫程序的代理获取的方法及装置
CN108551452A (zh) * 2018-04-18 2018-09-18 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN110147271A (zh) * 2019-05-15 2019-08-20 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102313A (zh) * 2007-06-21 2008-01-09 潘晓梅 自动更换代理服务器的网络下载系统及方法
CN104462570A (zh) * 2014-12-26 2015-03-25 小米科技有限责任公司 网页内容获取方法及装置
CN105740384A (zh) * 2016-01-27 2016-07-06 浪潮软件集团有限公司 一种爬虫代理自动切换方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102313A (zh) * 2007-06-21 2008-01-09 潘晓梅 自动更换代理服务器的网络下载系统及方法
CN104462570A (zh) * 2014-12-26 2015-03-25 小米科技有限责任公司 网页内容获取方法及装置
CN105740384A (zh) * 2016-01-27 2016-07-06 浪潮软件集团有限公司 一种爬虫代理自动切换方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107635026A (zh) * 2017-09-26 2018-01-26 马上消费金融股份有限公司 一种获取ip的方法及装置
CN107635026B (zh) * 2017-09-26 2019-01-22 马上消费金融股份有限公司 一种获取ip的方法及装置
CN107832355A (zh) * 2017-10-23 2018-03-23 北京金堤科技有限公司 一种爬虫程序的代理获取的方法及装置
CN107832355B (zh) * 2017-10-23 2019-03-26 北京金堤科技有限公司 一种爬虫程序的代理获取的方法及装置
CN108551452A (zh) * 2018-04-18 2018-09-18 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN108551452B (zh) * 2018-04-18 2021-01-08 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN110147271A (zh) * 2019-05-15 2019-08-20 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN110147271B (zh) * 2019-05-15 2020-04-28 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107169006A (zh) 一种管理爬虫代理的方法及装置
US11171859B2 (en) Large-scale node configuration management for MAAS platform
US8571040B2 (en) Apparatus, method, manufacture, and system for providing network services from building blocks
CN108833163A (zh) Linux虚拟服务器的创建方法、装置、计算机设备及存储介质
CN108491236A (zh) 一种插件加载方法、装置及计算机可读存储介质
CN106528200A (zh) 一种基于docker compose的持续集成方法及装置
CN106951451A (zh) 一种网页内容提取方法、装置及计算设备
Moreland The purpose of multilateralism, A framework for democracies in a geopolitically competitive world
CN107391775A (zh) 一种通用的网络爬虫模型实现方法及系统
CN104182685A (zh) 一种用于java web应用的xss防御方法及组件
CN104699499B (zh) 一种异构终端软件升级方法
CN109902247A (zh) 一种页面渲染的方法、装置及电子设备
CN104717286B (zh) 数据处理方法、终端、服务器和系统
CN102857575B (zh) 一种互联网资源的下载方法及系统
CN105991668B (zh) 一种cdn文件更新方法及装置
GB2505204A (en) Implementing data load protocols with protocol conversion at a proxy device
CN105959779A (zh) 一种机顶盒更新卫星频点的方法及装置
CN107038174A (zh) 用于数据系统的数据同步方法和装置
CN104462223B (zh) 一种基于对等网络模式的网页浏览方法和装置
CN107038175B (zh) 虚拟资源对象发送方法和装置
Ichimaru et al. Effects of gamma-oryzanol on gastric lesions and small intestinal propulsive activity in mice
CN108268508A (zh) Url去重方法及装置
CN109460531A (zh) 网页管理方法、装置及智能终端
CN106034110B (zh) 访问链路生成方法及装置
CN108429694A (zh) 一种无线路由器及基于无线路由器的app运行方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170915