CN108345642A - 采用代理ip爬取网站数据的方法、存储介质和服务器 - Google Patents
采用代理ip爬取网站数据的方法、存储介质和服务器 Download PDFInfo
- Publication number
- CN108345642A CN108345642A CN201810029619.3A CN201810029619A CN108345642A CN 108345642 A CN108345642 A CN 108345642A CN 201810029619 A CN201810029619 A CN 201810029619A CN 108345642 A CN108345642 A CN 108345642A
- Authority
- CN
- China
- Prior art keywords
- agent
- website
- data
- targeted website
- crawled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了一种采用代理IP爬取网站数据的方法、存储介质和服务器,用于解决爬取网站数据时代理IP容易被封的问题。本发明提供的方法包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及采用代理IP爬取网站数据的方法、存储介质和服务器。
背景技术
在互联网环境中,数据是非常重要的一种资产,爬虫系统则是有效获取数据的重要途径之一。
目前,很多网站采取了反爬虫技术,使用同一个IP去爬取网站数据,往往很容易被网站识别拉到黑名单中,从而不能继续爬取网站数据。此时,若想继续获取该网站的数据,采用代理IP访问网站进行数据爬取是有效的途径之一。
然而,反复采用相同的代理IP爬取网站数据,同样会导致该网站将该代理IP拉入黑名单中,对网站数据的爬取极其不利。
发明内容
本发明实施例提供了一种采用代理IP爬取网站数据的方法、存储介质和服务器,能够保证爬取网站数据的代理IP来源的可靠性,避免反复采用相同的代理IP爬取数据导致代理IP被封的情况。
第一方面,提供了一种采用代理IP爬取网站数据的方法,包括:
确定待爬取数据的目标网站;
根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;
从筛选出的所述各个代理IP中选取一个代理IP;
采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
确定待爬取数据的目标网站;
根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;
从筛选出的所述各个代理IP中选取一个代理IP;
采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
确定待爬取数据的目标网站;
根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;
从筛选出的所述各个代理IP中选取一个代理IP;
采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,首先,确定待爬取数据的目标网站;然后,根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;接着,从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;再之,从筛选出的所述各个代理IP中选取一个代理IP;最后,采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。在本发明实施例中,由于IP地址池中包括多个互不相同的代理IP,执行当前数据爬取任务时,从中筛选出合适的各个代理IP后,再选取一个代理IP进行访问和爬取数据,因此,不仅保证了爬取网站数据的代理IP来源的可靠性,而且避免了反复采用相同的代理IP爬取数据导致代理IP被封的情况,有利于爬取网站数据的顺利进行。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种采用代理IP爬取网站数据的方法一个实施例流程图;
图2为本发明实施例中一种采用代理IP爬取网站数据的方法在一个应用场景下预先收集归类代理IP的流程示意图;
图3为本发明实施例中一种采用代理IP爬取网站数据的方法步骤104在一个应用场景下的流程示意图;
图4为本发明实施例中一种采用代理IP爬取网站数据的装置一个实施例结构图;
图5为本发明一实施例提供的服务器的示意图。
具体实施方式
本发明实施例提供了一种采用代理IP爬取网站数据的方法、存储介质和服务器,用于解决爬取网站数据时代理IP容易被封的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种采用代理IP爬取网站数据的方法一个实施例包括:
101、确定待爬取数据的目标网站;
本实施例的执行主体可以是终端设备或者服务器,优选地,本实施例中的执行主体为一服务器。
可以理解的是,服务器在爬取数据之前,首先需要确定本次数据爬取任务所针对的网站,即上述的目标网站。
优选地,在执行下述步骤102之前,服务器可以先采用本地IP尝试访问该目标网站,如果失败(比如本地IP已被拉黑名单),再采用代理IP进行访问,这样不仅更加方便,而且有利于保护代理IP的有效性。具体包括:首先,采用本地IP访问所述目标网站;若采用本地IP访问所述目标网站成功,则执行本次数据爬取任务;若采用本地IP访问所述目标网站失败,则执行下述步骤102。
102、根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
可以理解的是,不同的目标网站一般具有不同的属性信息,比如,某个网站的服务器地址在广东省深圳市,另一个网站的服务器地址在江苏省南京市。可知,对这两个网站进行访问时,若采用的代理IP的所在地在深圳市,则该代理IP访问前一个网站的响应速度往往远快于后一个网站的响应速度。
因此,服务器可以预先对各个代理IP进行分类,具体分类方法在下述内容描述。分类后,服务器上预设有各个IP分类,这些IP分类预先设置有各自使用的网站的属性信息,以便于在确定IP分类时,可以根据网站的属性信息快速筛选出使用的IP分类。举例说明,可以某个IP分类(记为分类A)预设的属性信息为“深圳市”,即表示该分类A适用于服务器地址位于深圳市的目标网站,因此,当该目标网站的属性信息中记载其服务器地址为“广东省深圳市”时,服务器即可确定该分类A为适用于该目标网站的IP分类。
103、从IP地址池中筛选出属于确定的所述IP分类的各个代理IP;
需要说明的是,服务器上设有IP地址池,该IP地址池包括多个预先收集、归类、且互不相同的代理IP,当需要筛选代理IP时,从IP地址池中筛选出属于上述步骤102确定的IP分类的各个代理IP。
进一步地,如图2所示,所述IP地址池中的各个代理IP可以通过以下步骤预先收集、归类:
201、从提供代理IP的网站上爬取各个代理IP;
202、采用爬取到的所述各个代理IP分别访问指定网站;
203、记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;
204、根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。
对于上述步骤201,在目前市面上有许多提供代理IP的网站,尤其是提供免费代理IP的网站,这些网站的代理IP一般都可以正常使用,因此,服务器可以从这些网站上爬取到各个代理IP,完成代理IP的收集工作。具体地,可以采用scrapy框架+xpath爬取各个网站提供的免费代理IP。
对于上述步骤202和203,在收集到这些代理IP之后,可以先测试这些代理IP的各个属性项,比如IP所在地、响应速度、过滤能力或隐匿属性等,以便于后续对这些代理IP进行分类。需要注意的是,有些提供代理IP的网站上,在提供代理IP的同时,也会一并提供这些代理IP的属性项的值,因此服务器直接从网站上获取代理IP的这些属性值即可。
当需要测试代理IP的属性值时,可以要求测试的代理IP分别访问指定网站,在访问过程中进行属性项的测试。优选地,由于在实际使用过程中,待爬取数据的目标网站往往是固定的几个,因此,测试时的该指定网站可以是固定的几个目标网站中的一个。
对于上述步骤204,在记录下各个代理IP的属性项的属性值后,可以根据记录的属性值对各个代理IP进行归类。其中,归类的标准可以根据实际情况需要而定,此处不做具体限定。
为便于理解,通过以下两种分类方式举例说明如下:
第一种分类方式:在把所有代理IP均对各个目标网站(选取目标网站作为指定网站)分别进行访问测试,获取各个代理IP对各个目标网站的响应速度,然后针对一个目标网站,根据响应速度分别对各个代理IP进行分类,比如,速度在8-10之间的代理IP定义为优质IP,速度4-7之间的代理IP地址定义为普通IP,速度3以下的代理IP定义为劣质IP。可以知道的是,针对不同的目标网站会对应有不同的分类,这是因为,本方案是采用这些代理IP爬取这些目标网站数据的,而目标网站的数量有限,且往往一段时间固定不变,因此针对各个目标网站的响应速度进行分类,更有利于在实际使用过程中有针对性的选取代理IP。
第二种分类方式:在爬取代理IP的同时,获取这些代理IP的隐匿属性。隐匿属性包括高匿和透明,高匿代理IP是指不容易被目标网站反向得知真实地址的代理IP、透明代理IP是指容易被目标网站反向得知真实地址的代理IP。代理IP的隐匿属性可以由代理IP的来源网站提供。在分类时,同样可以将IP地址池中的代理IP分为高匿IP和透明IP两种。
优选地,IP地址池中的各个代理IP各属性项的属性值可以以结构化的形式存储的数据库中的一张表里,包括IP所在地、响应速度、过滤能力等等,都作为表中的一个字段。对响应速度、过滤能力等较模糊的字段进行量化,比如对响应速度来说,响应速度范围定义为0-10,10代表响应速度最快,以此来判断每个代理IP的响应速度(可向指定网站以代理IP发送请求,根据请求响应时间来判断响应速度)。具体地,也可以将IP地址池中的各个代理IP以Mysql数据库的格式进行存储,以便于后续进行IP地址的查询和管理。
进一步地,还可以定时检测IP地址池中的代理IP的有效性,利用代理ip请求指定网站,若该指定网站反馈响应消息,则确定该代理IP为有效的代理IP,反之,则确定该代理IP为失效的代理IP。根据确定的结果,将IP地址池中的失效代理IP及时清理掉,以保持IP地址池的可用性。
另外,对于IP地址池,服务器还可以不断扩大IP地址池的容量,即增加IP地址池中的代理IP数量,这样可以使得IP地址池的实用性更高。
104、从筛选出的所述各个代理IP中选取一个代理IP;
可以理解的是,可以认为筛选出的所述各个代理IP均是适用于当前的目标网站的,因此,从中选取的一个代理IP,同样适用于当前目标网站。
进一步地,如图3所示,步骤104可以包括:
301、按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表;
302、选取所述代理IP列表中排行第一的代理IP;
对于上述步骤301,可以采用以下两种方式(方式A和方式B)中的任一种对筛选出的所述各个代理IP进行排序:
方式A:按照确定的所述IP分类预先指定的代理IP的属性项对筛选出的所述各个代理IP进行排序,组成代理IP列表,所述属性项包括响应速度、过滤能力或隐匿属性。可以理解的是,服务器可以预先设定各个IP分类指定的代理IP的属性项,一般来说,指定的属性项代表该IP分类所最关心、最重视的一项属性。例如,某个“深圳市”的IP分类预先指定的属性项为“响应速度”,因此,根据筛选出的各个代理IP的各自的响应速度从快到慢对这些代理IP进行排序,排序后组成该代理IP列表。方式A的好处是,可以使得响应速度最快的代理IP优先被选取,然后采用该响应速度最快的代理IP访问目标网站并爬取数据,提高爬取数据的效率。
方式B:对筛选出的所述各个代理IP进行随机排序,组成代理IP列表。方式B的好处在于,列表中的各个代理IP的顺序是随机的,不存在固定规律,在采用代理IP访问目标网站时,更不容易被目标网站察觉而拉入黑名单。
对于上述步骤302,在组成代理IP列表之后,选取该代理IP列表中排行第一的代理IP。
105、采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
在选取出代理IP之后,即可采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
进一步地,为了进一步提高代理IP的安全性,减少目标网站察觉代理IP、拉入黑名单的可能性,本实施例还可以采用切换代理IP的方式来实现。具体地,采用下述方式一和方式二中的任一种方式处理:
方式一:在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。比如,每十分钟重新选取另一个本次数据爬取任务中未被选取过的代理IP,切换重新选取的代理IP来访问目标网站,可以减少目标网站监测到服务器的爬取动作的可能性。
方式二:在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。比如,针对一个目标网站爬取数据时,可以每爬取1G的数据后,重新选取另一个本次数据爬取任务中未被选取过的代理IP,切换重新选取的代理IP来访问目标网站,也可以减少目标网站监测到服务器的爬取动作的可能性。
需要注意的是,在实际应用中,上述方式一和方式二可以单独采用,也可以结合在一起采用,本实施例不作限定。
另外,对于上述方式一和/或方式二,若本实施例在之前将筛选出的所述各个代理IP组成了代理IP列表,则在方式一和/或方式二的步骤中,所述从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP具体为:从所述代理IP列表中选取下一个代理IP作为替换代理IP。
本实施例中,首先,确定待爬取数据的目标网站;然后,根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;接着,从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;再之,从筛选出的所述各个代理IP中选取一个代理IP;最后,采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。在本实施例中,由于IP地址池中包括多个互不相同的代理IP,执行当前数据爬取任务时,从中筛选出合适的各个代理IP后,再选取一个代理IP进行访问和爬取数据,因此,不仅保证了爬取网站数据的代理IP来源的可靠性,而且避免了反复采用相同的代理IP爬取数据导致代理IP被封的情况,有利于爬取网站数据的顺利进行。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种采用代理IP爬取网站数据的方法,下面将对一种采用代理IP爬取网站数据的装置进行详细描述。
图4示出了本发明实施例中一种采用代理IP爬取网站数据的装置一个实施例结构图。
本实施例中,一种采用代理IP爬取网站数据的装置包括:
目标网站确定模块401,用于确定待爬取数据的目标网站;
分类确定模块402,用于根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
代理IP筛选模块403,用于从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;
代理IP选取模块404,用于从筛选出的所述各个代理IP中选取一个代理IP;
访问模块405,用于采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
进一步地,所述IP地址池中的各个代理IP可以通过以下模块预先收集、归类:
IP爬取模块,用于从提供代理IP的网站上爬取各个代理IP;
代理访问模块,用于采用爬取到的所述各个代理IP分别访问指定网站;
属性值记录模块,用于记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;
IP归类模块,用于根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。
进一步地,所述采用代理IP爬取网站数据的装置还可以包括:
第一IP切换模块,用于在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务;
或
第二IP切换模块,用于在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。
进一步地,所述代理IP选取模块可以包括:
IP列表组成单元,用于按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表;
第一IP选取单元,用于选取所述代理IP列表中排行第一的代理IP;
所述第一IP切换模块包括:第一替换IP选取单元,用于每间隔预设时长从所述代理IP列表中选取下一个代理IP作为替换代理IP;
所述第二IP切换模块包括:第二替换IP选取单元,用于在每爬取预设数据量后从所述代理IP列表中选取下一个代理IP作为替换代理IP。
进一步地,所述IP列表组成单元可以包括:
属性项排序子单元,用于按照确定的所述IP分类预先指定的代理IP的属性项对筛选出的所述各个代理IP进行排序,组成代理IP列表,所述属性项包括响应速度、过滤能力或隐匿属性;
或
随机排序子单元,用于对筛选出的所述各个代理IP进行随机排序,组成代理IP列表。
进一步地,所述采用代理IP爬取网站数据的装置还可以包括:
本地IP访问模块,用于采用本地IP访问所述目标网站;
任务执行模块,用于若所述本地IP访问模块访问成功,则执行本次数据爬取任务;
触发模块,用于若所述本地IP访问模块访问失败,则触发所述分类确定模块。
图5是本发明一实施例提供的服务器的示意图。如图5所示,该实施例的服务器5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52,例如执行上述采用代理IP爬取网站数据的方法的程序。所述处理器50执行所述计算机可读指令52时实现上述各个采用代理IP爬取网站数据的方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至405的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令的指令段,该指令段用于描述所述计算机可读指令52在所述服务器5中的执行过程。
所述服务器5可以是本地服务器、云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是服务器5的示例,并不构成对服务器5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述服务器5的内部存储单元,例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备,例如所述服务器5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种采用代理IP爬取网站数据的方法,其特征在于,包括:
确定待爬取数据的目标网站;
根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;
从筛选出的所述各个代理IP中选取一个代理IP;
采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
2.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,所述IP地址池中的各个代理IP通过以下步骤预先收集、归类:
从提供代理IP的网站上爬取各个代理IP;
采用爬取到的所述各个代理IP分别访问指定网站;
记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;
根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。
3.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,还包括:
在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务;
或
在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。
4.根据权利要求3所述的采用代理IP爬取网站数据的方法,其特征在于,所述从筛选出的所述各个代理IP中选取一个代理IP包括:
按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表;
选取所述代理IP列表中排行第一的代理IP;
所述从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP具体为:从所述代理IP列表中选取下一个代理IP作为替换代理IP。
5.根据权利要求4所述的采用代理IP爬取网站数据的方法,其特征在于,所述按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表包括:
按照确定的所述IP分类预先指定的代理IP的属性项对筛选出的所述各个代理IP进行排序,组成代理IP列表,所述属性项包括响应速度、过滤能力或隐匿属性;
或
对筛选出的所述各个代理IP进行随机排序,组成代理IP列表。
6.根据权利要求1至5中任一项所述的采用代理IP爬取网站数据的方法,其特征在于,在根据所述目标网站的属性信息确定适用于所述目标网站的IP分类之前,还包括:
采用本地IP访问所述目标网站;
若采用本地IP访问所述目标网站成功,则执行本次数据爬取任务;
若采用本地IP访问所述目标网站失败,则执行所述根据所述目标网站的属性信息确定适用于所述目标网站的IP分类的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述采用代理IP爬取网站数据的方法的步骤。
8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
确定待爬取数据的目标网站;
根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;
从筛选出的所述各个代理IP中选取一个代理IP;
采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。
9.根据权利要求8所述的服务器,其特征在于,所述IP地址池中的各个代理IP通过以下步骤预先收集、归类:
从提供代理IP的网站上爬取各个代理IP;
采用爬取到的所述各个代理IP分别访问指定网站;
记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;
根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。
10.根据权利要求8或9所述的服务器,其特征在于,还包括:
在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务;
或
在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810029619.3A CN108345642B (zh) | 2018-01-12 | 2018-01-12 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810029619.3A CN108345642B (zh) | 2018-01-12 | 2018-01-12 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108345642A true CN108345642A (zh) | 2018-07-31 |
CN108345642B CN108345642B (zh) | 2020-10-16 |
Family
ID=62960537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810029619.3A Active CN108345642B (zh) | 2018-01-12 | 2018-01-12 | 采用代理ip爬取网站数据的方法、存储介质和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345642B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109274782A (zh) * | 2018-08-24 | 2019-01-25 | 北京创鑫旅程网络技术有限公司 | 一种采集网站数据的方法及装置 |
CN109413153A (zh) * | 2018-09-26 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN109508422A (zh) * | 2018-12-05 | 2019-03-22 | 南京邮电大学 | 多线程智能调度的高匿爬虫系统 |
CN110062025A (zh) * | 2019-03-14 | 2019-07-26 | 深圳绿米联创科技有限公司 | 数据采集的方法、装置、服务器及存储介质 |
CN110147271A (zh) * | 2019-05-15 | 2019-08-20 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN110149419A (zh) * | 2019-05-23 | 2019-08-20 | 上海睿翎法律咨询服务有限公司 | 基于ip的高效爬虫方法 |
CN110677510A (zh) * | 2019-09-11 | 2020-01-10 | 苏州朗动网络科技有限公司 | Ip代理池的管理方法、设备和存储介质 |
CN110765025A (zh) * | 2019-10-31 | 2020-02-07 | 北京东软望海科技有限公司 | 测试方法、装置、计算机设备及存储介质 |
CN110798470A (zh) * | 2019-10-31 | 2020-02-14 | 北京金堤科技有限公司 | 代理ip地址管理方法及系统 |
CN110995691A (zh) * | 2019-11-28 | 2020-04-10 | 佛山科学技术学院 | 一种获取网页数据的方法及系统 |
CN111125478A (zh) * | 2018-10-30 | 2020-05-08 | 北京国双科技有限公司 | 数据的爬取方法及装置 |
CN111641664A (zh) * | 2019-03-01 | 2020-09-08 | 北京京东尚科信息技术有限公司 | 一种爬虫设备业务请求方法、装置和系统 |
CN111753162A (zh) * | 2020-06-29 | 2020-10-09 | 平安国际智慧城市科技股份有限公司 | 数据爬取方法、装置、服务器及存储介质 |
CN111859076A (zh) * | 2020-07-31 | 2020-10-30 | 平安健康保险股份有限公司 | 数据爬取方法、装置、计算机设备及计算机可读存储介质 |
CN112217873A (zh) * | 2020-09-16 | 2021-01-12 | 北京爱知之星科技股份有限公司 | 设备共享方法、相关设备及存储介质 |
WO2021022689A1 (zh) * | 2019-08-05 | 2021-02-11 | 苏州闻道网络科技股份有限公司 | 一种信息采集方法和装置 |
CN112383513A (zh) * | 2020-10-27 | 2021-02-19 | 杭州数梦工场科技有限公司 | 基于代理ip地址池的爬虫行为检测方法、装置及存储介质 |
CN112671945A (zh) * | 2020-12-21 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
CN113422777A (zh) * | 2021-06-28 | 2021-09-21 | 安天科技集团股份有限公司 | 基于白名单的渗透测试方法、装置、计算设备及存储介质 |
CN113905092A (zh) * | 2021-09-28 | 2022-01-07 | 盐城金堤科技有限公司 | 一种确定可复用代理队列的方法、装置、终端及存储介质 |
CN113923260A (zh) * | 2021-09-28 | 2022-01-11 | 盐城金堤科技有限公司 | 一种对代理环境进行处理的方法、装置、终端及存储介质 |
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN115314462A (zh) * | 2022-08-09 | 2022-11-08 | 上海宝创网络科技有限公司 | 基于IPv6网络代理服务的高并发访问的处理方法及设备 |
WO2023097748A1 (zh) * | 2021-11-30 | 2023-06-08 | 同程网络科技股份有限公司 | 一种流量代理方法、系统、智能终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350355A1 (en) * | 2014-11-25 | 2016-12-01 | Yahoo! Inc. | Method and System for Analyzing a User Agent String |
CN107105071A (zh) * | 2017-05-05 | 2017-08-29 | 北京京东金融科技控股有限公司 | Ip调用方法及装置、存储介质、电子设备 |
-
2018
- 2018-01-12 CN CN201810029619.3A patent/CN108345642B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350355A1 (en) * | 2014-11-25 | 2016-12-01 | Yahoo! Inc. | Method and System for Analyzing a User Agent String |
CN107105071A (zh) * | 2017-05-05 | 2017-08-29 | 北京京东金融科技控股有限公司 | Ip调用方法及装置、存储介质、电子设备 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109274782A (zh) * | 2018-08-24 | 2019-01-25 | 北京创鑫旅程网络技术有限公司 | 一种采集网站数据的方法及装置 |
CN109413153A (zh) * | 2018-09-26 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN109413153B (zh) * | 2018-09-26 | 2022-09-02 | 深圳壹账通智能科技有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN111125478A (zh) * | 2018-10-30 | 2020-05-08 | 北京国双科技有限公司 | 数据的爬取方法及装置 |
CN111125478B (zh) * | 2018-10-30 | 2023-05-12 | 北京国双科技有限公司 | 数据的爬取方法及装置 |
CN109508422A (zh) * | 2018-12-05 | 2019-03-22 | 南京邮电大学 | 多线程智能调度的高匿爬虫系统 |
CN111641664B (zh) * | 2019-03-01 | 2023-12-05 | 北京京东尚科信息技术有限公司 | 一种爬虫设备业务请求方法、装置、系统和存储介质 |
CN111641664A (zh) * | 2019-03-01 | 2020-09-08 | 北京京东尚科信息技术有限公司 | 一种爬虫设备业务请求方法、装置和系统 |
CN110062025B (zh) * | 2019-03-14 | 2022-09-09 | 深圳绿米联创科技有限公司 | 数据采集的方法、装置、服务器及存储介质 |
CN110062025A (zh) * | 2019-03-14 | 2019-07-26 | 深圳绿米联创科技有限公司 | 数据采集的方法、装置、服务器及存储介质 |
CN110147271A (zh) * | 2019-05-15 | 2019-08-20 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN110147271B (zh) * | 2019-05-15 | 2020-04-28 | 重庆八戒传媒有限公司 | 提升爬虫代理质量的方法、装置及计算机可读存储介质 |
CN110149419A (zh) * | 2019-05-23 | 2019-08-20 | 上海睿翎法律咨询服务有限公司 | 基于ip的高效爬虫方法 |
WO2021022689A1 (zh) * | 2019-08-05 | 2021-02-11 | 苏州闻道网络科技股份有限公司 | 一种信息采集方法和装置 |
CN110677510A (zh) * | 2019-09-11 | 2020-01-10 | 苏州朗动网络科技有限公司 | Ip代理池的管理方法、设备和存储介质 |
CN110798470A (zh) * | 2019-10-31 | 2020-02-14 | 北京金堤科技有限公司 | 代理ip地址管理方法及系统 |
CN110765025A (zh) * | 2019-10-31 | 2020-02-07 | 北京东软望海科技有限公司 | 测试方法、装置、计算机设备及存储介质 |
CN110995691A (zh) * | 2019-11-28 | 2020-04-10 | 佛山科学技术学院 | 一种获取网页数据的方法及系统 |
CN111753162A (zh) * | 2020-06-29 | 2020-10-09 | 平安国际智慧城市科技股份有限公司 | 数据爬取方法、装置、服务器及存储介质 |
CN111859076A (zh) * | 2020-07-31 | 2020-10-30 | 平安健康保险股份有限公司 | 数据爬取方法、装置、计算机设备及计算机可读存储介质 |
CN111859076B (zh) * | 2020-07-31 | 2024-04-02 | 平安健康保险股份有限公司 | 数据爬取方法、装置、计算机设备及计算机可读存储介质 |
CN112217873A (zh) * | 2020-09-16 | 2021-01-12 | 北京爱知之星科技股份有限公司 | 设备共享方法、相关设备及存储介质 |
CN112217873B (zh) * | 2020-09-16 | 2024-02-02 | 北京爱知之星科技股份有限公司 | 设备共享方法、相关设备及存储介质 |
CN112383513A (zh) * | 2020-10-27 | 2021-02-19 | 杭州数梦工场科技有限公司 | 基于代理ip地址池的爬虫行为检测方法、装置及存储介质 |
CN112671945A (zh) * | 2020-12-21 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 管理ip代理池的方法、装置、计算机设备及存储介质 |
CN113422777B (zh) * | 2021-06-28 | 2022-08-19 | 安天科技集团股份有限公司 | 基于白名单的渗透测试方法、装置、计算设备及存储介质 |
CN113422777A (zh) * | 2021-06-28 | 2021-09-21 | 安天科技集团股份有限公司 | 基于白名单的渗透测试方法、装置、计算设备及存储介质 |
CN113905092A (zh) * | 2021-09-28 | 2022-01-07 | 盐城金堤科技有限公司 | 一种确定可复用代理队列的方法、装置、终端及存储介质 |
CN113923260A (zh) * | 2021-09-28 | 2022-01-11 | 盐城金堤科技有限公司 | 一种对代理环境进行处理的方法、装置、终端及存储介质 |
CN113905092B (zh) * | 2021-09-28 | 2024-03-22 | 盐城天眼察微科技有限公司 | 一种确定可复用代理队列的方法、装置、终端及存储介质 |
CN113923260B (zh) * | 2021-09-28 | 2024-01-09 | 盐城天眼察微科技有限公司 | 一种对代理环境进行处理的方法、装置、终端及存储介质 |
WO2023097748A1 (zh) * | 2021-11-30 | 2023-06-08 | 同程网络科技股份有限公司 | 一种流量代理方法、系统、智能终端及存储介质 |
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN115314462A (zh) * | 2022-08-09 | 2022-11-08 | 上海宝创网络科技有限公司 | 基于IPv6网络代理服务的高并发访问的处理方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108345642B (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345642A (zh) | 采用代理ip爬取网站数据的方法、存储介质和服务器 | |
US10834123B2 (en) | Generating data clusters | |
AU2017202873B2 (en) | Efficient query processing using histograms in a columnar database | |
CN107563757B (zh) | 数据风险识别的方法及装置 | |
CN108510311A (zh) | 一种确定营销方案的方法、装置及电子设备 | |
CN109299334B (zh) | 一种知识图谱的数据处理方法及装置 | |
CN113722520B (zh) | 图数据的查询方法及装置 | |
CN104750826B (zh) | 一种结构化数据资源元数据自动甄别与动态注册方法 | |
US10733244B2 (en) | Data retrieval system | |
CN108616525A (zh) | 网站访问方法和装置、电子设备及存储介质 | |
CN108664549A (zh) | 一种大数据处理系统、方法和装置 | |
CN112241495A (zh) | 页面更新方法 | |
CN111784468B (zh) | 一种账户关联方法、装置及电子设备 | |
CN109918429A (zh) | 基于Redis的Spark数据处理方法及系统 | |
CN106021492A (zh) | 一种对表格数据进行转存的方法及装置 | |
US20230273924A1 (en) | Trimming blackhole clusters | |
CN106649374B (zh) | 导航标签排序的方法及装置 | |
CN114490833B (zh) | 一种图计算结果可视化方法和系统 | |
CN115238194A (zh) | 书籍推荐方法、计算设备及计算机存储介质 | |
US9971978B2 (en) | Event-based data management method and device | |
CN112116427A (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
CN107025615B (zh) | 一种基于学习跟踪模型的学习情况统计方法 | |
CN112202581A (zh) | 群组加入方法、装置以及电子设备 | |
CN105912736A (zh) | 一种统一资源定位符url分类方法及装置 | |
CN111475698A (zh) | 筛选页面生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1257525 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |