CN109274782B - 一种采集网站数据的方法及装置 - Google Patents

一种采集网站数据的方法及装置 Download PDF

Info

Publication number
CN109274782B
CN109274782B CN201810972454.3A CN201810972454A CN109274782B CN 109274782 B CN109274782 B CN 109274782B CN 201810972454 A CN201810972454 A CN 201810972454A CN 109274782 B CN109274782 B CN 109274782B
Authority
CN
China
Prior art keywords
proxy
available
acquisition node
node
available proxy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810972454.3A
Other languages
English (en)
Other versions
CN109274782A (zh
Inventor
魏林强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chuangxin Journey Network Technology Co ltd
Original Assignee
Beijing Chuangxin Journey Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chuangxin Journey Network Technology Co ltd filed Critical Beijing Chuangxin Journey Network Technology Co ltd
Priority to CN201810972454.3A priority Critical patent/CN109274782B/zh
Publication of CN109274782A publication Critical patent/CN109274782A/zh
Application granted granted Critical
Publication of CN109274782B publication Critical patent/CN109274782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/50Address allocation
    • H04L61/5007Internet protocol [IP] addresses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/50Address allocation
    • H04L61/5061Pools of addresses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种采集网站数据的方法及装置,在该方法中,确定与目标源网站绑定的采集结点,所述采集结点用于调用代理IP采集网站数据;在所述采集结点维护的可用代理IP列表中调用可用代理IP,所述采集结点维护的可用代理IP列表是预先确定并存储的;利用调用的所述可用代理IP,采集所述目标源网站数据。通过本发明可保证使用有效代理IP采集数据,提高网站数据的采集效率。

Description

一种采集网站数据的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种采集网站数据的方法及装置。
背景技术
随着互联网技术的发展,网站数据的采集对于互联网信息的筛选显得尤为重要。
在目前广泛应用的网站数据采集方法中,一种较为常用的方法是从代理IP服务商处获取代理网际互联协议(Internet Protocol,IP),并利用代理IP采集网站数据。
目前利用代理IP采集网站数据时,常规的做法是直接使用代理IP对目标源网站进行数据采集。若发现该代理IP不能使用,则更换新的代理IP进行数据采集。然而,在实际的网站数据采集过程中,并不只是针对一个目标源网站进行数据采集,采集的目标源网站很多,并且不同的目标源网站对代理IP的限制规则也不同(例如不同目标源网站的封禁IP处理规则不同),故不同目标源网站的可用代理IP和不可用代理IP也是不同的。若在数据采集过程中,盲目的使用代理IP对需要采集数据的各目标源网站尝试进行数据采集,可能会出现重复调取不可用代理IP进行数据采集的情况,导致网站数据采集效率比较低。
发明内容
本发明实施例提供一种采集网站数据的方法及装置,以提高网站数据的采集效率。
本发明的一个方面提供了一种采集网站数据的方法,该方法包括确定与目标源网站绑定的采集结点,所述采集结点用于调用代理IP采集网站数据;在所述采集结点维护的可用代理IP列表中调用可用代理IP,所述采集结点维护的可用代理IP列表是预先确定并存储的;利用调用的所述可用代理IP,采集所述目标源网站数据。
本发明的另一方面提供了一种采集网站数据的装置,该装置包括采集结点确定单元、可用代理IP存储单元、可用代理IP调用单元和目标源网站数据采集单元。采集结点确定单元,用于确定与目标源网站绑定的采集结点,所述采集结点用于调用代理IP采集网站数据;可用代理IP存储单元,用于预先确定并存储所述采集结点维护的可用代理IP列表;可用代理IP调用单元,用于在所述采集结点维护的可用代理IP列表中调用可用代理IP;目标源网站数据采集单元,用于利用调用的所述可用代理IP,采集所述目标源网站数据。
本发明的又一方面提供了一种服务器,所述服务器包括:存储器,配置用于存储指令;以及处理器,配置用于调用所述指令执行本发明的上述方面涉及的采集网站数据的方法。
本发明的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行本发明的上述方面涉及的采集网站数据的方法。
本发明提供的采集网站数据的方法及装置,确定与目标源网站绑定的采集结点,并利用从所述采集结点维护的可用代理IP列表中调用的可用代理IP采集所述目标源网站数据,能够保证使用有效代理IP采集数据,避免使用很多针对目标源网站无效的代理IP进行网站数据的采集,进而可提高网站数据的采集效率。
附图说明
图1是本发明实施例涉及的一种采集网站数据的方法流程示意图;
图2是本发明实施例涉及的另一种采集网站数据的方法流程示意图;
图3是本发明实施例涉及的预先创建代理IP资源总池的方法流程示意图;
图4是本发明实施例涉及的确定与目标源网站绑定的结点的方法流程示意图;
图5是本发明实施例涉及的一种采集网站数据的装置的结构示意图;
图6是本发明实施例涉及的另一种采集网站数据的装置的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
本发明实施例提供的采集网站数据的方法可以针对特定目标源网站而执行。在一些实施方式中,本发明实施例提供的采集网站数据的方法可以在第三方提供者的服务器上执行。例如,服务器可以是本地服务器或者云服务器。
图1所示为本发明实施例提供的一种采集网站数据的方法100。如图1所示,本发明实施例提供的采集网站数据的方法100包括步骤S101-S103。
S101:确定与目标源网站绑定的采集结点。
本发明实施例中涉及的采集结点用于调用代理IP,以采集网站数据,采集结点可以理解为是一个针对某个网站爬虫时对用于爬虫的代理IP进行管理的工具,采集结点可以获取到针对该网站的代理IP,并预先确定可用代理IP列表和封禁代理IP列表,保存和维护针对该网站的可用代理IP列表,以及封禁代理IP的列表。
其中,可用代理IP列表中保存的可用代理IP可以理解为是能够访问目标源网站的代理IP。封禁代理IP列表中保存的封禁代理IP可以理解为是目标源网站反抓取程序识别出的抓取代理IP并进行封禁的,这些封禁的代理IP是无法访问目标源网站的。
本发明实施例中,采集结点与目标源网站绑定,可以理解为是目标源网站与采集结点之间具有一一对应关系,针对一个目标源网站的数据使用同一个采集结点采集。
S102:在采集结点维护的可用代理IP列表中调用可用代理IP。
本发明实施例中,可以提供向业务方提供代理IP的接口,使该代理IP的接口调用可用代理IP。其中,通过代理IP的接口调用可用代理IP时可调用代理IP的IP地址和端口号。
S103:利用调用的可用代理IP,采集目标源网站数据。
本发明实施例中采集结点与目标源网站绑定,并调用可用代理IP进行数据采集,能够保证使用有效代理IP采集数据,提高数据采集率。并且由于采集结点与目标源网站绑定,可以使得针对同一目标源网站的代理IP通过同一采集结点调用,并针对不同的目标源网站,有可能同一个代理IP被调用来爬虫。例如当不同部门想要对同一网站进行爬虫时,会通过该网站绑定的同一个采集结点进行,并不再单独建立采集结点,可以提高使用可用代理IP采集网站数据的有效比例,避免过多的试错,一定程度上提高了抓取效率和质量。
本发明实施例以下将结合实际应用对上述采集网站数据的实施方法进行说明。
一种可能的实施方式中,本发明实施例可预先创建代理IP资源总池,在该预先创建的代理IP资源总池中存储代理IP。进一步的,可从预先创建的代理IP资源总池中获取代理IP,并预先确定并存储采集结点所维护的可用代理IP列表和封禁代理IP列表。
如图2所示,本发明实施例另一实施方式中提供了一种采集网站数据的方法200。参阅图2所示,该采集网站数据的方法200包括如下步骤:
S201:预先创建代理IP资源总池。
本发明实施例中可采用图3所示的方式预先创建代理IP资源总池。参阅图3所示:
S2011:获取代理IP。
本发明实施例中可从服务器代理商提供的访问接口中获取可用代理IP数据,并确定获取到的代理IP数量。一种可能的实施方式中,本发明实施例中可设置定时进程程序,定时从服务器代理商提供的访问接口中获取代理IP数据,例如每分钟或者每几分钟从服务器代理商提供的访问接口中获取代理IP数据。
S2012:当获取的代理IP数量达到设定阈值后,验证获取的代理IP的高匿名性和可用性。
一种可能的实施方式中,若设置定时进程程序,定时从服务器代理商提供的访问接口中获取代理IP数据,则可当每次定时进程程序获取到一定数量(可根据实际需要设定阈值,例如可根据资源情况设定该阈值)的代理IP后,验证获取代理IP的高匿名性和可用性。
其中,具有高匿名性的代理IP不改变客户机的请求,这样在服务器看来就像有个真正的客户机(浏览器)在访问它,这时客户机的真实IP是隐藏的,服务器端不会认为我们使用了代理。
一种可能的示例中,可采用如下方式验证代理IP的高匿名性和可用性:在实验网站服务器部署验证的网址,网址通过服务端语言提供支持,当使用代理IP模拟网络请求访问该验证的网址时,该网址会识别并返回访问者的IP地址,如果能够返回IP地址,则表示当前代理IP可用,并且如果返回的IP是代理IP地址,则表示该代理IP是具有高匿名性的可用代理IP,如果返回的是访问者的真实IP地址,则该代理IP不是具有高匿名性的可用代理IP。本发明实施例后续将具有高匿名性和可用性的代理IP简称为高匿可用代理IP。
S2013:存储验证通过的高匿可用代理IP,形成代理IP资源总池。
本发明实施例中获取通过验证的高匿可用代理IP,并存储验证通过的高匿可用代理IP,形成代理IP资源总池。可能的示例中,本发明实施例中在代理IP资源总池中存储验证通过的高匿可用代理IP时,可存储验证通过的高匿可用代理IP的IP地址以及端口号。
S202:从预先创建的代理IP资源总池中获取高匿可用代理IP。
本发明实施例中,可从代理IP资源总池中获取通过验证的高匿可用代理IP,以确定采集结点维护的可用代理IP。
一种可能的实施方式中,本发明实施例中为了节省存储资源,可控制从预先创建的代理IP资源总池中获取高匿可用代理IP数量。例如本发明实施例中可预先配置采集结点维护的可用代理IP数量的最大值和最小值。当采集结点维护的可用代理IP列表中存储的可用代理IP数量小于预先配置的可用代理IP数量最小值时,从预先创建的代理IP资源总池中获取高匿可用代理IP;当采集结点维护的可用代理IP列表中存储的可用代理IP数量大于预先配置的可用代理IP数量最大值时,停止从预先创建的代理IP资源总池中获取高匿可用代理IP。
S203:根据获取的高匿可用代理IP,预先确定并存储采集结点维护的可用代理IP列表和封禁代理IP列表。
一种可能的实施方式中,本发明实施例中采集结点可分别存储并维护可用代理IP列表和封禁代理IP列表。本发明实施例中采集结点存储可用代理IP列表时可采用诸如Redis的有序集合(Sorted Sets)存储可用代理IP列表。本发明实施例中采集结点存储封禁代理IP列表时可采用诸如Redis的哈希(hash)结构存储封禁代理IP列表。采用Redis的hash结构存储封禁代理IP列表有助于从代理IP资源总池获取代理IP时的对比,即如果获取到的代理IP已经存储在了封禁代理IP列表中,则该代理IP将不会存储至可用代理IP列表中。
本发明实施例中由采集结点维护针对与该采集结点绑定的目标源网站的可用代理IP列表和封禁代理IP列表,并与预先创建的代理IP资源总池进行通信,以获取代理IP,使得针对不同目标源网站有单独的采集结点进行代理IP的管理。并且通过针对不同目标源网站采用不同的采集结点进行可用代理IP列表和封禁代理IP列表的维护,可避免在代理IP资源总池中将针对某一网站的封禁代理IP删除,进而可避免代理IP资源浪费。例如,当针对网站1的代理IP被封禁后,将其记录在针对该网站1的采集结点维护的封禁代理IP列表中,该封禁代理IP不再被该网站1的结点使用,但代理IP资源总池中还保留有该封禁代理IP,并非在代理IP资源池中将封禁代理IP删除,可以被其他网站的采集结点使用,提高代理IP资源的有效利用。
由于代理IP本身是具有生命周期和时效性的,故为了进一步保证采集结点维护的代理IP为可用代理IP,可对从代理IP资源总池获取的高匿可用代理IP再次进行高匿性和可用性验证。本发明实施例中根据获取的所述高匿可用代理IP,预先确定所述采集结点维护的可用代理IP列表,包括:
判断获取的高匿可用代理IP是否存在于采集结点维护的封禁代理IP列表中;若获取的高匿可用代理IP不存在于采集结点维护的封禁代理IP列表中,则验证获取的高匿可用代理IP有效性,其中该有效性可以理解为判断高匿可用代理IP是否仍为高匿可用代理IP,即判断是否高匿可用代理IP是否继续可用;若获取的高匿可用代理IP有效(高匿可用代理IP可用),则将获取的高匿可用代理IP,确定为采集结点的可用代理IP,并存储至采集结点维护的可用代理IP列表中。若验证获取的高匿可用代理IP无效(高匿可用代理IP不可用),则将该无效的高匿可用代理IP存储至采集结点维护的封禁代理IP列表中。
S204:确定与目标源网站绑定的采集结点。
本发明实施例中当业务方需要采集目标源网站数据时,可确定目标源网站,然后获取该目标源网站的一级域名,通过该一级域名唯一标识与目标源网站绑定的采集结点。若首次对该目标源网站进行数据采集,可使用目标源网站的一级域名注册生成与目标源网站绑定的采集结点。若为非首次对该目标源网站进行数据采集,则可调用已有的该目标源网站一级域名标识的采集结点。
一种可能的实施方式中,本发明实施例中可采用图4所示的方式确定与目标源网站绑定的结点,参阅图4所示,该方法包括:
S2041:获取目标源网站的一级域名。
本发明实施例中确定了采集数据的目标源网站后,可通过截取输入域名的一级域名,获取目标源网站的一级域名。
S2042:判断是否已存在获取到的一级域名标识的采集结点。
S2043:若存在所述一级域名标识的采集结点,则将所述一级域名标识的采集结点,确定为与所述目标源网站绑定的采集结点。
由于针对同一目标源网站可能有不同的业务方进行数据采集,若已存在目标源网站一级域名标识的采集结点,则可直接利用采集结点进行数据采集,以实现多个业务多目标源采集数据时的采集结点共享,提高代理IP的利用率。
S2044:若不存在所述一级域名标识的采集结点,则生成并保存所述一级域名标识的采集结点,将生成的采集结点确定为与所述目标源网站绑定的采集结点。
一种可能的实施方式中,本发明实施例中可设计采集结点生成程序(接口),在需要生成采集结点时,调用该采集结点生成程序生成采集结点。
本发明实施例以下以一个具体的例子对上述确定目标源网站的采集结点的实施过程进行举例说明。假设业务A(代理IP使用方,以下统称为业务A)需要对目标源网站H1,H2(以下统称为源H1,源H2)进行数据采集。源H1,源H2为首次被进行数据采集,则需要进行采集结点的注册生成。首先对源H1的采集结点的生成过程进行说明,本发明实施例中可调用采集结点生成程序(接口),将源H1的域名作为参数,截取源H1的域名中的一级域名,生成该源H1的一级域名标识的采集结点,保存该源H1的一级域名标识的采集结点,则后续可通过该源H1的一级域名标识的采集结点进行源H1的数据采集。源H2的一级域名标识的采集结点的生成方法和源H1的一级域名标识的采集结点的生成方法类似,不同之处仅在于作为输入参数的一级域名不同。通过上述方法,已存在源H1的一级域名标识的采集结点和源H2的一级域名标识的采集结点。
当另外一个新的业务B,也有需求要采集源H2的数据,此时已存在源H2的一级域名标识的采集结点,故可直接利用源H2的一级域名标识的采集结点进行数据采集,实现多个业务多目标源采集数据时的结点共享,从而提高网站数据采集的效率。
S205:在采集结点维护的可用代理IP列表中调用可用代理IP。
其中,S205可采用上述调用可用代理IP的实施方式。
S206:监控可用代理IP列表中各可用代理IP的调用次数。
本发明实施例中,采集结点在维护可用代理IP列表时,还可监控并存储可用代理IP列表中各可用代理IP的调用次数。可能的示例中,本发明实施例中可采用Redis的有序集合(Sorted Sets)存储可用代理IP被调用的次数。若当前代理IP被调用,则当前代理IP被调用次数加1。由于当代理IP被调用后Redis的有序集合存储的该代理IP被调用的次数将加1,因此,采集结点维护的可用代理IP列表也可以理解为是一个动态变化的可用代理IP列表。
本发明实施例中S206为可选步骤。
一种可能的实施方式,若确定所述采集结点维护的可用代理IP列表之后,执行S206监控了可用代理IP列表中各可用代理IP的调用次数,则本发明实施例中S205在采集结点维护的可用代理IP列表中调用可用代理IP可采用如下方式:
按照可用代理IP列表中各可用代理IP的调用次数,确定各可用代理IP的调用优先级,其中,调用次数低的可用代理IP的调用优先级高于调用次数高的用代理IP的调用优先级;按照可用代理IP的调用优先级从高到低的顺序,在采集结点维护的可用代理IP列表中调用可用代理IP。
一种可能的实施方式中,本发明实施例中采用Redis的有序集合(Sorted Sets)存储可用代理IP被调用的次数时,利用有序集合的特性,可有利于对可用代理IP列表中各可用代理IP按照被调用次数进行优先级排序,并且在调用可用代理IP时可根据可用代理IP列表中各代理IP使用情况进行调用,比如优先调用被调用次数最少的代理IP给业务方进行网站数据采集,可减少被采集的目标源网站封禁的可能。
S207:利用调用的可用代理IP,采集目标源网站数据。
本发明实施例中,当生成与目标源网站绑定的采集结点后,可在没有需求通过该采集结点调用代理IP采集网站数据时,暂时停止该采集结点调用代理IP采集网站数据。暂时停止采集结点调用代理IP采集网站数据可以通过暂时停止维护可用代理IP列表实现,其中,暂时停止维护可用代理IP列表,可以是暂时将采集结点维护的可用代理IP列表清空,并暂时停止从代理IP资源池获取新的代理IP。通过上述暂时停止采集结点调用代理IP采集网站数据的实施方式,可以暂时性减少从IP资源代理总池请求代理IP所占用的资源,一定程度上节省资源占用。
一种可能的实施方式中,本发明实施例中还可监控并保存采集结点的服务状态,所述服务状态包括服务中或服务停止。所述采集结点的服务状态为服务中时表征采集结点处于维护代理IP列表和封禁代理IP列表的状态,即可以通过该采集结点调用可用代理IP并进行数据采集。所述采集结点的服务状态为服务停止时表征采集结点处于停止维护代理IP列表和封禁代理IP列表的状态,停止维护代理IP列表和封禁代理IP列表的状态下表征暂时不能通过该采集结点调用可用代理IP并进行数据采集。
一种可能的实施方式中,本发明实施例中可设置采集结点服务监控进程,进行采集结点服务状态的监控。本发明实施例中在当前时间和可用代理IP最后一次调用时间之间的差值大于或等于设定阈值时间时,可设置采集结点的服务状态为服务停止。在当前时间和可用代理IP最后一次调用时间之间的差值小于所述设定阈值时间时,可设置采集结点的服务状态为服务中。例如在阈值时间(比如2小时)内有业务方在调用,则设置该采集结点的服务状态为服务中,如果超过阈值时间没有业务方调用,则设置该采集结点的服务状态为服务停止。
可以理解的是,本发明实施例中若采用了对采集结点服务状态的监控,则在S2043步骤中,可能会出现已存在的一级域名标识的采集结点处于服务停止的服务状态,此种情况下,本发明实施例中,在确定采集结点时,若确定存在一级域名标识的采集结点,则确定所述采集结点的服务状态,若所述采集结点的服务状态为服务停止,则启动所述采集结点的服务,并监控所述采集结点的服务状态。
本发明实施例提供的采集网站数据的方法,确定与目标源网站绑定的采集结点,并利用从采集结点维护的可用代理IP列表中调用的可用代理IP采集所述目标源网站数据,能够保证使用有效代理IP采集数据,避免使用很多针对目标源网站无效的代理IP进行网站数据的采集,进而可提高网站数据的采集效率。
基于相同的发明构思,本发明实施例还提供了一种采集网站数据的装置。
如图5所示,本发明实施例提供了一种采集网站数据的装置500,该采集网站数据的装置500包括采集结点确定单元501、可用代理IP存储单元502、可用代理IP调用单元503和目标源网站数据采集单元504。
采集结点确定单元501,用于确定与目标源网站绑定的采集结点,所述采集结点用于调用代理IP采集网站数据。可用代理IP存储单元502,用于预先确定并存储所述采集结点维护的可用代理IP列表。可用代理IP调用单元503,用于在所述采集结点维护的可用代理IP列表中调用可用代理IP。目标源网站数据采集单元504,用于利用调用的所述可用代理IP,采集所述目标源网站数据。
一种可能的实施方式中,采集网站数据的装置500还包括代理IP资源总池创建单元505和高匿可用代理IP验证单元507。代理IP资源总池创建单元505,用于在所述采集结点维护的可用代理IP列表中调用可用代理IP之前,预先创建代理IP资源总池,所述代理IP资源总池中存储有高匿可用代理IP。可用代理IP存储单元502,用于从预先创建的代理IP资源总池中获取高匿可用代理IP,并根据获取的高匿可用代理IP,预先确定并存储采集结点维护的可用代理IP列表。封禁代理IP存储单元506,用于从预先创建的代理IP资源总池中获取高匿可用代理IP,并根据获取的所述高匿可用代理IP,预先确定并存储采集结点维护的封禁代理IP列表。
另一种可能的实施方式中,采集网站数据的装置500还包括封禁代理IP存储单元506。高匿可用代理IP验证单元507,用于判断获取的高匿可用代理IP是否存在于所述采集结点维护的封禁代理IP列表中;若确定获取的所述高匿可用代理IP不存在于所述采集结点维护的封禁代理IP列表中,则验证获取的所述高匿可用代理IP的有效性;若所述高匿可用代理IP验证单元507确定获取的所述高匿可用代理IP有效,则所述可用代理IP存储单元502将获取的所述高匿可用代理IP,确定为所述采集结点的可用代理IP,并存储至所述采集结点维护的可用代理IP列表中。
进一步的,所述封禁代理IP存储单元506还用于:若所述高匿可用代理IP验证单元507验证获取的所述高匿可用代理IP无效,则将该无效的高匿可用代理IP存储至所述采集结点维护的封禁代理IP列表中。
又一种可能的实施方式中,可用代理IP存储单元502还用于:在确定所述采集结点维护的可用代理IP列表之后,监控所述可用代理IP列表中各可用代理IP的调用次数。
所述可用代理IP调用单元503采用如下方式在所述采集结点维护的可用代理IP列表中调用可用代理IP:按照可用代理IP列表中各可用代理IP的调用次数,确定各可用代理IP的调用优先级,其中,调用次数低的可用代理IP的调用优先级高于调用次数高的用代理IP的调用优先级;按照可用代理IP的调用优先级从高到低的顺序,在所述采集结点维护的可用代理IP列表中调用可用代理IP。
又一种可能的实施方式中,可用代理IP存储单元502可采用如下方式从预先创建的代理IP资源总池中获取高匿可用代理IP:
当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量小于预先配置的可用代理IP数量最小值时,从预先创建的代理IP资源总池中获取高匿可用代理IP;当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量大于预先配置的可用代理IP数量最大值时,停止从预先创建的代理IP资源总池中获取高匿可用代理IP。
又一种可能的实施方式中,采集网站数据的装置500还包括可用代理IP服务状态监控单元508。可用代理IP服务状态监控单元508,用于在采集结点确定单元501确定目标源网站的采集结点之后,监控并保存所述采集结点的服务状态,所述服务状态包括服务中或服务停止。其中,在当前时间和可用代理IP最后一次调用时间之间的差值大于或等于设定阈值时间时,所述采集结点的服务状态为服务停止,所述采集结点的服务状态为服务停止时表征所述采集结点处于停止维护代理IP列表和封禁代理IP列表的状态。在当前时间和可用代理IP最后一次调用时间之间的差值小于所述设定阈值时间时,所述采集结点的服务状态为服务中,所述采集结点的服务状态为服务中时表征所述采集结点处于维护代理IP列表和封禁代理IP列表的状态。
一种可能的实施方式中,所述采集结点确定单元501可采用如下方式确定与目标源网站绑定的结点:
获取所述目标源网站的一级域名,所述一级域名唯一标识所述目标源网站绑定的采集结点;判断是否已存在所述一级域名标识的采集结点;若存在所述一级域名标识的采集结点,则将所述一级域名标识的采集结点,确定为与所述目标源网站绑定的采集结点;若不存在所述一级域名标识的采集结点,则生成并保存所述一级域名标识的采集结点,将生成的采集结点确定为与所述目标源网站绑定的采集结点。
进一步的,所述可用代理IP服务状态监控单元508,还用于:
若所述采集结点确定单元501确定存在所述一级域名标识的采集结点,确定所述采集结点的服务状态,所述服务状态包括服务中或服务停止;若所述采集结点的服务状态为服务停止,则启动所述采集结点的服务,并监控所述采集结点的服务状态。
可以理解的是,本发明实施例中涉及的采集网站数据的装置500中的各个模块单元所实现的功能与上文描述的用于采集网站数据的方法中的步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。
进一步可以理解的是,本发明实施例上述涉及的采集网站数据的装置500的结构(包括的各模块单元的名称、连接关系)仅是进行示意性说明,该基于与本发明实施例涉及的采集网站数据方法相同发明构思所提供的采集网站数据的装置的结构并不局限于图5所示的结构,也不局限于包括上述涉及的模块单元,还可能包括其它的模块单元,或者上述涉及的模块单元可进一步进行细分。
作为一种示例,本发明实施例给出图6所示的采集网站数据的装置600的结构,该采集网站数据的装置600可以理解为是采集网站数据的装置500的变形结构,一种可能的实施方式中,采集网站数据的装置600包括结点管理服务子系统、结点子系统和代理IP资源总池。
其中,一种可能的示例中,结点管理服务子系统主要用于确定与目标源网站绑定的采集结点、管理采集结点并利用采集结点调用可用代理IP等。结点管理服务子系统可包括结点注册模块、结点管理模块和结点服务模块。其中,结点注册模块主要用于生成与目标源网站绑定的采集结点,功能类似采集结点确定单元的功能。结点管理模块主要用于监控并保存所述采集结点的服务状态,功能类似可用代理IP服务状态监控单元。结点服务模块主要用于调用可用代理IP,功能类似可用代理IP调用单元。
一种可能的示例中,结点子系统主要用于从代理IP资源总池中获取可用代理IP,并存储维护可用代理IP列表、封禁代理IP列表,并对从代理IP资源总池中获取的可用代理IP进行有效性验证。结点子系统可包括结点配置模块、可用代理IP存储模块、封禁代理IP存储模块和结点维护的代理IP可用性验证模块等。其中,结点配置模块可用于预先配置可用代理IP存储模块中存储的可用代理IP的数量最大值和数量最小值。可用代理IP存储模块,用于预先确定并存储所述采集结点维护的可用代理IP列表,功能类似于可用代理IP存储单元。封禁代理IP存储模块,用于预先确定并存储所述采集结点维护的封禁代理IP列表,功能类似于封禁代理IP存储单元。结点维护的代理IP可用性验证模块,主要用于对从代理IP资源总池中获取的可用代理IP进行有效性验证,功能类似高匿可用代理IP验证单元。
一种可能的示例中,代理IP资源总池用于预先创建建代理IP资源总池,包括获取代理IP,验证代理IP的高匿名性和可用性,存储验证通过的高匿可用代理IP。代理IP资源总池可包括数据获取模块、可用性验证模块和存储模块。其中,数据获取模块主要用于从代理IP提供商处获取代理IP。可用性验证模块,主要用于验证从代理IP提供商处获取的代理IP的高匿名性和可用性。存储模块主要用于存储验证通过的高匿可用代理IP。代理IP资源总池的功能类似代理IP资源总池创建单元。
采集网站数据的装置600中涉及的各模块单元的功能实现以及模块单元之间的通信交互可参照上述方法实施例以及采集网站数据的装置500的相应描述,在此不再赘述。
在一些实施方式中,本发明实施例还提供了一种服务器,该服务器包括存储器以及处理器。存储器配置用于存储指令。处理器配置用于调用指令执行上文所述的任何方法。
在一些实施方式中,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令。计算机可执行指令在由处理器执行时,执行上文所述的任何方法。
在一些实施方式中,本发明还提供了以下技术方案:
方案1:一种采集网站数据的方法,包括:
确定与目标源网站绑定的采集结点,所述采集结点用于调用代理网际互联协议IP采集网站数据;在所述采集结点维护的可用代理IP列表中调用可用代理IP,所述采集结点维护的可用代理IP列表是预先确定并存储的;利用调用的所述可用代理IP,采集所述目标源网站数据。
方案2:根据方案1所述的方法,在所述采集结点维护的可用代理IP列表中调用可用代理IP之前,所述方法还包括:
预先创建代理IP资源总池,所述代理IP资源总池中存储有高匿可用代理IP;从预先创建的代理IP资源总池中获取高匿可用代理IP;根据获取的所述高匿可用代理IP,预先确定并存储所述采集结点维护的可用代理IP列表和封禁代理IP列表。
方案3:根据方案2所述的方法,其中,根据获取的所述高匿可用代理IP,预先确定所述采集结点维护的可用代理IP列表,包括:
判断获取的所述高匿可用代理IP是否存在于所述采集结点维护的封禁代理IP列表中;若获取的所述高匿可用代理IP不存在于所述采集结点维护的封禁代理IP列表中,则验证获取的所述高匿可用代理IP的有效性;若获取的所述高匿可用代理IP有效,则将获取的所述高匿可用代理IP,确定为所述采集结点的可用代理IP,并存储至所述采集结点维护的可用代理IP列表中。
方案4:根据方案3所述的方法,所述方法还包括:
若验证获取的所述高匿可用代理IP无效,则将该无效的高匿可用代理IP存储至所述采集结点维护的封禁代理IP列表中。
方案5:根据方案2所述的方法,确定所述采集结点维护的可用代理IP列表之后,所述方法还包括:监控所述可用代理IP列表中各可用代理IP的调用次数;
在所述采集结点维护的可用代理IP列表中调用可用代理IP,包括:
按照可用代理IP列表中各可用代理IP的调用次数,确定各可用代理IP的调用优先级,其中,调用次数低的可用代理IP的调用优先级高于调用次数高的用代理IP的调用优先级;按照可用代理IP的调用优先级从高到低的顺序,在所述采集结点维护的可用代理IP列表中调用可用代理IP。
方案6:根据方案2所述的方法,从预先创建的代理IP资源总池中获取高匿可用代理IP,包括:
当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量小于预先配置的可用代理IP数量最小值时,从预先创建的代理IP资源总池中获取高匿可用代理IP;当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量大于预先配置的可用代理IP数量最大值时,停止从预先创建的代理IP资源总池中获取高匿可用代理IP。
方案7:根据方案1所述的方法,确定目标源网站的采集结点之后,所述方法还包括:
监控并保存所述采集结点的服务状态,所述服务状态包括服务中或服务停止;其中,在当前时间和可用代理IP最后一次调用时间之间的差值大于或等于设定阈值时间时,所述采集结点的服务状态为服务停止,所述采集结点的服务状态为服务停止时表征所述采集结点处于停止维护代理IP列表和封禁代理IP列表的状态;在当前时间和可用代理IP最后一次调用时间之间的差值小于所述设定阈值时间时,所述采集结点的服务状态为服务中,所述采集结点的服务状态为服务中时表征所述采集结点处于维护代理IP列表和封禁代理IP列表的状态。
方案8:根据方案1或方案7所述的方法,所述确定与目标源网站绑定的结点,包括:
获取所述目标源网站的一级域名,所述一级域名唯一标识所述目标源网站绑定的采集结点;判断是否已存在所述一级域名标识的采集结点;若存在所述一级域名标识的采集结点,则将所述一级域名标识的采集结点,确定为与所述目标源网站绑定的采集结点;若不存在所述一级域名标识的采集结点,则生成并保存所述一级域名标识的采集结点,将生成的采集结点确定为与所述目标源网站绑定的采集结点。
方案9:根据方案8所述的方法,所述方法还包括:
若存在所述一级域名标识的采集结点,确定所述采集结点的服务状态,所述服务状态包括服务中或服务停止;若所述采集结点的服务状态为服务停止,则启动所述采集结点的服务,并监控所述采集结点的服务状态。
方案10:一种采集网站数据的装置,包括:
采集结点确定单元,用于确定与目标源网站绑定的采集结点,所述采集结点用于调用代理网际互联协议IP采集网站数据;可用代理IP存储单元,用于预先确定并存储所述采集结点维护的可用代理IP列表;可用代理IP调用单元,用于在所述采集结点维护的可用代理IP列表中调用可用代理IP;目标源网站数据采集单元,用于利用调用的所述可用代理IP,采集所述目标源网站数据。
方案11:根据方案10所述的装置,所述装置还包括代理IP资源总池创建单元和封禁代理IP存储单元,所述代理IP资源总池创建单元,用于在所述采集结点维护的可用代理IP列表中调用可用代理IP之前,预先创建代理IP资源总池,所述代理IP资源总池中存储有高匿可用代理IP;所述可用代理IP存储单元,用于从预先创建的代理IP资源总池中获取高匿可用代理IP,并根据获取的所述高匿可用代理IP,预先确定并存储所述采集结点维护的可用代理IP列表;所述封禁代理IP存储单元,用于从预先创建的代理IP资源总池中获取高匿可用代理IP,并根据获取的所述高匿可用代理IP,预先确定并存储所述采集结点维护的封禁代理IP列表。
方案12:根据方案11所述的装置,所述装置还包括高匿可用代理IP验证单元;所述高匿可用代理IP验证单元,用于判断获取的所述高匿可用代理IP是否存在于所述采集结点维护的封禁代理IP列表中;若确定获取的所述高匿可用代理IP不存在于所述采集结点维护的封禁代理IP列表中,则验证获取的所述高匿可用代理IP的有效性;若所述高匿可用代理IP验证单元确定获取的所述高匿可用代理IP有效,则所述可用代理IP存储单元将获取的所述高匿可用代理IP,确定为所述采集结点的可用代理IP,并存储至所述采集结点维护的可用代理IP列表中。
方案13:根据方案12所述的装置,所述封禁代理IP存储单元还用于:若所述高匿可用代理IP验证单元验证获取的所述高匿可用代理IP无效,则将该无效的高匿可用代理IP存储至所述采集结点维护的封禁代理IP列表中。
方案14:根据方案11所述的装置,在所述可用代理IP存储单元还用于:
在确定所述采集结点维护的可用代理IP列表之后,监控所述可用代理IP列表中各可用代理IP的调用次数;所述可用代理IP调用单元采用如下方式在所述采集结点维护的可用代理IP列表中调用可用代理IP:按照可用代理IP列表中各可用代理IP的调用次数,确定各可用代理IP的调用优先级,其中,调用次数低的可用代理IP的调用优先级高于调用次数高的用代理IP的调用优先级;按照可用代理IP的调用优先级从高到低的顺序,在所述采集结点维护的可用代理IP列表中调用可用代理IP。
方案15:根据方案11所述的装置,所述可用代理IP存储单元采用如下方式从预先创建的代理IP资源总池中获取高匿可用代理IP:
当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量小于预先配置的可用代理IP数量最小值时,从预先创建的代理IP资源总池中获取高匿可用代理IP;当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量大于预先配置的可用代理IP数量最大值时,停止从预先创建的代理IP资源总池中获取高匿可用代理IP。
方案16:根据方案10所述的装置,所述装置还包括可用代理IP服务状态监控单元,所述可用代理IP服务状态监控单元,用于在采集结点确定单元确定目标源网站的采集结点之后,监控并保存所述采集结点的服务状态,所述服务状态包括服务中或服务停止;其中,在当前时间和可用代理IP最后一次调用时间之间的差值大于或等于设定阈值时间时,所述采集结点的服务状态为服务停止,所述采集结点的服务状态为服务停止时表征所述采集结点处于停止维护代理IP列表和封禁代理IP列表的状态;在当前时间和可用代理IP最后一次调用时间之间的差值小于所述设定阈值时间时,所述采集结点的服务状态为服务中,所述采集结点的服务状态为服务中时表征所述采集结点处于维护代理IP列表和封禁代理IP列表的状态。
方案17:根据方案10或方案16所述的装置,所述采集结点确定单元采用如下方式确定与目标源网站绑定的结点:
获取所述目标源网站的一级域名,所述一级域名唯一标识所述目标源网站绑定的采集结点;判断是否已存在所述一级域名标识的采集结点;若存在所述一级域名标识的采集结点,则将所述一级域名标识的采集结点,确定为与所述目标源网站绑定的采集结点;若不存在所述一级域名标识的采集结点,则生成并保存所述一级域名标识的采集结点,将生成的采集结点确定为与所述目标源网站绑定的采集结点。
方案18:根据方案17所述的装置,所述装置还包括可用代理IP服务状态监控单元,所述可用代理IP服务状态监控单元,用于:若所述采集结点确定单元确定存在所述一级域名标识的采集结点,确定所述采集结点的服务状态,所述服务状态包括服务中或服务停止;若所述采集结点的服务状态为服务停止,则启动所述采集结点的服务,并监控所述采集结点的服务状态。
方案19:一种服务器,所述服务器包括:
存储器,配置用于存储指令;以及处理器,配置用于调用所述指令执行方案1-方案9中任一项所述的采集网站数据的方法。
方案20:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行方案1-方案9中任一项所述的采集网站数据的方法。
可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明实施例涉及的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims (18)

1.一种采集网站数据的方法,其中,包括:
确定与目标源网站绑定的采集结点,所述采集结点用于调用代理网际互联协议IP采集网站数据;
监控并保存所述采集结点的服务状态,所述服务状态包括服务中或服务停止;
其中,在当前时间和可用代理IP最后一次调用时间之间的差值大于或等于设定阈值时间时,所述采集结点的服务状态为服务停止,所述采集结点的服务状态为服务停止时表征所述采集结点处于停止维护代理IP列表和封禁代理IP列表的状态;
在当前时间和可用代理IP最后一次调用时间之间的差值小于所述设定阈值时间时,所述采集结点的服务状态为服务中,所述采集结点的服务状态为服务中时表征所述采集结点处于维护代理IP列表和封禁代理IP列表的状态;
在所述采集结点维护的可用代理IP列表中调用可用代理IP,所述采集结点维护的可用代理IP列表是预先确定并存储的;
利用调用的所述可用代理IP,采集所述目标源网站数据。
2.根据权利要求1所述的方法,其中,在所述采集结点维护的可用代理IP列表中调用可用代理IP之前,所述方法还包括:
预先创建代理IP资源总池,所述代理IP资源总池中存储有高匿可用代理IP;
从预先创建的代理IP资源总池中获取高匿可用代理IP;
根据获取的所述高匿可用代理IP,预先确定并存储所述采集结点维护的可用代理IP列表和封禁代理IP列表。
3.根据权利要求2所述的方法,其中,根据获取的所述高匿可用代理IP,预先确定所述采集结点维护的可用代理IP列表,包括:
判断获取的所述高匿可用代理IP是否存在于所述采集结点维护的封禁代理IP列表中;
若获取的所述高匿可用代理IP不存在于所述采集结点维护的封禁代理IP列表中,则验证获取的所述高匿可用代理IP的有效性;
若获取的所述高匿可用代理IP有效,则将获取的所述高匿可用代理IP,确定为所述采集结点的可用代理IP,并存储至所述采集结点维护的可用代理IP列表中。
4.根据权利要求3所述的方法,其中,所述方法还包括:
若验证获取的所述高匿可用代理IP无效,则将该无效的高匿可用代理IP存储至所述采集结点维护的封禁代理IP列表中。
5.根据权利要求2所述的方法,其中,确定所述采集结点维护的可用代理IP列表之后,所述方法还包括:
监控所述可用代理IP列表中各可用代理IP的调用次数;
在所述采集结点维护的可用代理IP列表中调用可用代理IP,包括:
按照可用代理IP列表中各可用代理IP的调用次数,确定各可用代理IP的调用优先级,其中,调用次数低的可用代理IP的调用优先级高于调用次数高的用代理IP的调用优先级;
按照可用代理IP的调用优先级从高到低的顺序,在所述采集结点维护的可用代理IP列表中调用可用代理IP。
6.根据权利要求2所述的方法,其中,从预先创建的代理IP资源总池中获取高匿可用代理IP,包括:
当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量小于预先配置的可用代理IP数量最小值时,从预先创建的代理IP资源总池中获取高匿可用代理IP;
当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量大于预先配置的可用代理IP数量最大值时,停止从预先创建的代理IP资源总池中获取高匿可用代理IP。
7.根据权利要求1所述的方法,其中,所述确定与目标源网站绑定的结点,包括:
获取所述目标源网站的一级域名,所述一级域名唯一标识所述目标源网站绑定的采集结点;
判断是否已存在所述一级域名标识的采集结点;
若存在所述一级域名标识的采集结点,则将所述一级域名标识的采集结点,确定为与所述目标源网站绑定的采集结点;
若不存在所述一级域名标识的采集结点,则生成并保存所述一级域名标识的采集结点,将生成的采集结点确定为与所述目标源网站绑定的采集结点。
8.根据权利要求7所述的方法,其中,所述方法还包括:
若存在所述一级域名标识的采集结点,确定所述采集结点的服务状态,所述服务状态包括服务中或服务停止;
若所述采集结点的服务状态为服务停止,则启动所述采集结点的服务,并监控所述采集结点的服务状态。
9.一种采集网站数据的装置,其中,包括:
采集结点确定单元,用于确定与目标源网站绑定的采集结点,所述采集结点用于调用代理网际互联协议IP采集网站数据;
可用代理IP服务状态监控单元,用于在采集结点确定单元确定目标源网站的采集结点之后,监控并保存所述采集结点的服务状态,所述服务状态包括服务中或服务停止;
其中,在当前时间和可用代理IP最后一次调用时间之间的差值大于或等于设定阈值时间时,所述采集结点的服务状态为服务停止,所述采集结点的服务状态为服务停止时表征所述采集结点处于停止维护代理IP列表和封禁代理IP列表的状态;
在当前时间和可用代理IP最后一次调用时间之间的差值小于所述设定阈值时间时,所述采集结点的服务状态为服务中,所述采集结点的服务状态为服务中时表征所述采集结点处于维护代理IP列表和封禁代理IP列表的状态;
可用代理IP存储单元,用于预先确定并存储所述采集结点维护的可用代理IP列表;
可用代理IP调用单元,用于在所述采集结点维护的可用代理IP列表中调用可用代理IP;
目标源网站数据采集单元,用于利用调用的所述可用代理IP,采集所述目标源网站数据。
10.根据权利要求9所述的装置,所述装置还包括代理IP资源总池创建单元和封禁代理IP存储单元,所述代理IP资源总池创建单元用于:
在所述采集结点维护的可用代理IP列表中调用可用代理IP之前,预先创建代理IP资源总池,所述代理IP资源总池中存储有高匿可用代理IP;
所述可用代理IP存储单元用于:从预先创建的代理IP资源总池中获取高匿可用代理IP,并根据获取的所述高匿可用代理IP,预先确定并存储所述采集结点维护的可用代理IP列表;
所述封禁代理IP存储单元,用于从预先创建的代理IP资源总池中获取高匿可用代理IP,并根据获取的所述高匿可用代理IP,预先确定并存储所述采集结点维护的封禁代理IP列表。
11.根据权利要求10所述的装置,所述装置还包括高匿可用代理IP验证单元,所述高匿可用代理IP验证单元用于:
判断获取的所述高匿可用代理IP是否存在于所述采集结点维护的封禁代理IP列表中;
若确定获取的所述高匿可用代理IP不存在于所述采集结点维护的封禁代理IP列表中,则验证获取的所述高匿可用代理IP的有效性;
若所述高匿可用代理IP验证单元确定获取的所述高匿可用代理IP有效,则所述可用代理IP存储单元将获取的所述高匿可用代理IP,确定为所述采集结点的可用代理IP,并存储至所述采集结点维护的可用代理IP列表中。
12.根据权利要求11所述的装置,所述封禁代理IP存储单元还用于:若所述高匿可用代理IP验证单元验证获取的所述高匿可用代理IP无效,则将该无效的高匿可用代理IP存储至所述采集结点维护的封禁代理IP列表中。
13.根据权利要求10所述的装置,在确定所述采集结点维护的可用代理IP列表之后,所述可用代理IP存储单元还用于:
监控所述可用代理IP列表中各可用代理IP的调用次数;
所述可用代理IP调用单元采用如下方式在所述采集结点维护的可用代理IP列表中调用可用代理IP:按照可用代理IP列表中各可用代理IP的调用次数,确定各可用代理IP的调用优先级,其中,调用次数低的可用代理IP的调用优先级高于调用次数高的用代理IP的调用优先级;
按照可用代理IP的调用优先级从高到低的顺序,在所述采集结点维护的可用代理IP列表中调用可用代理IP。
14.根据权利要求10所述的装置,所述可用代理IP存储单元采用如下方式从预先创建的代理IP资源总池中获取高匿可用代理IP:
当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量小于预先配置的可用代理IP数量最小值时,从预先创建的代理IP资源总池中获取高匿可用代理IP;
当所述采集结点维护的可用代理IP列表中存储的可用代理IP数量大于预先配置的可用代理IP数量最大值时,停止从预先创建的代理IP资源总池中获取高匿可用代理IP。
15.根据权利要求9所述的装置,所述采集结点确定单元采用如下方式确定与目标源网站绑定的结点:
获取所述目标源网站的一级域名,所述一级域名唯一标识所述目标源网站绑定的采集结点;
判断是否已存在所述一级域名标识的采集结点;
若存在所述一级域名标识的采集结点,则将所述一级域名标识的采集结点,确定为与所述目标源网站绑定的采集结点;
若不存在所述一级域名标识的采集结点,则生成并保存所述一级域名标识的采集结点,将生成的采集结点确定为与所述目标源网站绑定的采集结点。
16.根据权利要求15所述的装置,所述装置还包括可用代理IP服务状态监控单元,所述可用代理IP服务状态监控单元,用于:
若所述采集结点确定单元确定存在所述一级域名标识的采集结点,确定所述采集结点的服务状态,所述服务状态包括服务中或服务停止;
若所述采集结点的服务状态为服务停止,则启动所述采集结点的服务,并监控所述采集结点的服务状态。
17.一种服务器,所述服务器包括:
存储器,配置用于存储指令;以及处理器,配置用于调用所述指令执行权利要求1-8中任一项所述的采集网站数据的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-8中任一项所述的采集网站数据的方法。
CN201810972454.3A 2018-08-24 2018-08-24 一种采集网站数据的方法及装置 Active CN109274782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810972454.3A CN109274782B (zh) 2018-08-24 2018-08-24 一种采集网站数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810972454.3A CN109274782B (zh) 2018-08-24 2018-08-24 一种采集网站数据的方法及装置

Publications (2)

Publication Number Publication Date
CN109274782A CN109274782A (zh) 2019-01-25
CN109274782B true CN109274782B (zh) 2020-04-10

Family

ID=65154588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810972454.3A Active CN109274782B (zh) 2018-08-24 2018-08-24 一种采集网站数据的方法及装置

Country Status (1)

Country Link
CN (1) CN109274782B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110034979A (zh) * 2019-04-23 2019-07-19 恒安嘉新(北京)科技股份公司 一种代理资源监测方法、装置、电子设备及存储介质
CN110147271B (zh) * 2019-05-15 2020-04-28 重庆八戒传媒有限公司 提升爬虫代理质量的方法、装置及计算机可读存储介质
CN110149419A (zh) * 2019-05-23 2019-08-20 上海睿翎法律咨询服务有限公司 基于ip的高效爬虫方法
CN111683163A (zh) * 2020-06-11 2020-09-18 杭州安恒信息技术股份有限公司 代理ip地址分配方法、装置、计算机设备和可读存储介质
CN111756850B (zh) * 2020-06-29 2022-01-18 金电联行(北京)信息技术有限公司 一种服务于互联网数据采集的代理ip请求频率自动调整方法及系统
CN112217873B (zh) * 2020-09-16 2024-02-02 北京爱知之星科技股份有限公司 设备共享方法、相关设备及存储介质
CN112822306B (zh) * 2021-02-03 2022-07-29 深圳前海微众银行股份有限公司 代理ip动态管理方法、设备及计算机可读存储介质
CN114390094A (zh) * 2022-01-12 2022-04-22 广州启生信息技术有限公司 一种二级正向代理的实现方法和装置
CN114428635A (zh) * 2022-04-06 2022-05-03 杭州未名信科科技有限公司 一种数据采集方法、装置、电子设备及存储介质
CN117714537B (zh) * 2024-02-06 2024-04-16 湖南四方天箭信息科技有限公司 一种访问方法、装置、终端和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107580052A (zh) * 2017-09-07 2018-01-12 翼果(深圳)科技有限公司 自演进的网络自适应爬虫方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953868B2 (en) * 2007-01-31 2011-05-31 International Business Machines Corporation Method and system for preventing web crawling detection
CN103678311B (zh) * 2012-08-31 2018-11-13 腾讯科技(深圳)有限公司 基于中转模式的网页访问方法及系统、抓取路径服务器
CN103914568B (zh) * 2014-04-24 2017-05-03 厦门市美亚柏科信息股份有限公司 调度http代理的方法和装置
CN106534244B (zh) * 2015-09-14 2020-01-17 中国移动通信集团公司 一种代理资源的调度方法及装置
CN107957999A (zh) * 2016-10-14 2018-04-24 北京国双科技有限公司 一种网络爬虫获取网站数据的方法及装置
CN108345642B (zh) * 2018-01-12 2020-10-16 深圳壹账通智能科技有限公司 采用代理ip爬取网站数据的方法、存储介质和服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107580052A (zh) * 2017-09-07 2018-01-12 翼果(深圳)科技有限公司 自演进的网络自适应爬虫方法及系统

Also Published As

Publication number Publication date
CN109274782A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109274782B (zh) 一种采集网站数据的方法及装置
CN110191063B (zh) 服务请求的处理方法、装置、设备及存储介质
US9253265B2 (en) Hot pluggable extensions for access management system
CN111277432B (zh) 配置信息更新方法、装置、电子设备及存储介质
CN111585887B (zh) 基于多个网络的通信方法、装置、电子设备及存储介质
CN103810444B (zh) 一种云计算平台中多租户应用隔离的方法和系统
CN108370328B (zh) 一种nfv mano策略描述符的管理方法及装置
CN109617932B (zh) 用于处理数据的方法和装置
EP3488584A1 (en) Usage tracking in hybrid cloud computing systems
CN111262839A (zh) 一种漏洞扫描方法、管理设备、节点和存储介质
CN108427619B (zh) 日志管理方法、装置、计算设备及存储介质
CN113220723A (zh) 一种流量控制方法、装置、计算机设备及存储介质
US20190303542A1 (en) Global License Spanning Multiple Timezones in a Rate-Based System
US7738866B2 (en) System and method of waste management
US20100218202A1 (en) Method and Apparatus for Case-Based Service Composition
CN115686813A (zh) 一种资源调度方法、装置、电子设备和存储介质
CN109413117B (zh) 分布式数据计算方法、装置、服务器及计算机存储介质
CN112054919B (zh) 容器集群无状态下的id生成方法、装置、存储介质及系统
CN113254227B (zh) 跨数据中心的远程方法调用的方法、系统
CN112860398A (zh) 基于规则引擎的数据处理方法、装置、设备及介质
WO2016000303A1 (zh) 一种资源分配方法、系统及计算机存储介质
CN109976896B (zh) 业务排重处理方法和装置
CN106936643B (zh) 一种设备联动方法以及终端设备
CN115225645B (zh) 一种服务更新方法、装置、系统和存储介质
CN113489738B (zh) 一种宽带账号的违规处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant