CN105681478A - 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 - Google Patents
通过对网络资源调度提高网络爬虫抓取效率的方法和装置 Download PDFInfo
- Publication number
- CN105681478A CN105681478A CN201610240607.6A CN201610240607A CN105681478A CN 105681478 A CN105681478 A CN 105681478A CN 201610240607 A CN201610240607 A CN 201610240607A CN 105681478 A CN105681478 A CN 105681478A
- Authority
- CN
- China
- Prior art keywords
- network
- rmi
- network line
- reptile
- unimpeded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
公开了通过对网络资源调度提高网络爬虫抓取效率的方法和装置。其通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够使爬虫数据的抓取效率提高,不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。
Description
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置。
背景技术
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软必应,百度等等,几乎每个大型门户网站都有自己的搜索引擎,现在的爬虫工具特别多,已知的开源爬虫框架就有几十种不等。一般来说,企业级别的网络爬虫一般是部署在集群上面,通过不同的网络线路出口,并行地从互联网上下载所需的信息。
各个网站为了保护自己的网站不被恶意攻击,都会有自己的请求和响应策略。一般来说,目标网站则根据访问频率,浏览网页速度,cookies等因素来封锁线路,同时也会根据账户登录状态,输入验证码是否正确,Flash封装,Ajax混淆,JS加密,图片验证,CSS混淆等技术来保护自己的网站。然而这样一些因素会导致爬虫不能正常爬取。其中,最主要的因素就是网络线路的封锁,很多目标网站会对在一段时间频繁请求的爬虫采取完全封锁的策略。这样便误封锁了一部分爬虫的正常爬取。人工的监控成本也很大,不知道线路何时被封锁了,何时被解封,以至于不能迅速反应。而数据的抓取是一个长期连续的过程,如不能及时地应对目标网站的封锁策略,并立即采取应对策略,那么爬虫的抓取质量和效率则是很低的。
发明内容
有鉴于此,本发明提供一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其能够使爬虫数据的抓取效率大大提高,并且不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁,从而更加适于实用。
为了达到上述第一个目的,本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的方法技术方案如下:
本发明提供的通过网络爬虫抓取网络数据的方法包括以下步骤:
从RMI远程爬虫客户端接收请求参数,并进行封装识别;
把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
对各个网络线路进行优选,得到畅通的网络线路;
通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端;
所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。
本发明提供的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置还可采用以下技术措施进一步实现。
作为优选,所述对各个网络线路进行优选,得到畅通的网络线路包括根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。
作为优选,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
作为优选,所述对各个网络线路进行优选,得到畅通的网络线路包括选择速度最快的网络线路作为畅通的网络线路。
作为优选,当所有网络线路都被目标网站封锁时,所述对各个网络线路进行优选,得到畅通的网络线路包括通过软路由直接控制,重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
为了达到上述第二个目的,本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置的技术方案如下:
本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置包括RMI远程爬虫客户端请求接收端口、参数发送单元、选择单元、HTTP网络资源封装处理单元、网络资源发送端口、设置单元、数据爬取和解析单元,
所述RMI远程爬虫客户端请求接收端口用于从RMI远程爬虫客户端接收请求参数,并进行封装识别;
所述参数发送单元用于把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
所述选择单元用于对各个网络线路进行优选,得到畅通的网络线路;
所述HTTP网络资源封装处理单元通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
所述网络资源发送端口用于通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端;
所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,通过所述设置单元对网络线路和HTTP请求进行设置,并通过所述数据爬取和解析单元进行数据的爬取和解析。
本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置还可采用以下技术措施进一步实现。
作为优选,所述一种通过对网络资源调度来提高网络爬虫抓取效率的装置还包括统计单元,所述统计单元用于根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。
作为优选,所述通过网络爬虫还包括判断单元,所述判断单元用于判断当所述RMI远程爬虫客户端是否需要使用代理服务器,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
作为优选,所述选择单元用于选择速度最快的网络线路作为畅通的网络线路。
作为优选,所述通过网络爬虫抓取网络数据的装置还包括软路由,当所有网络线路都被目标网站封锁时,所述软路由用于重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
本发明提供的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够独立运行,耦合度低,占用资源少,响应迅速,并且,
a.准确度高,本发明所提供的数据都经过了相关的验证和优选策略过滤,以确保提供的网络资源精准有效;
b.响应及时,本发明除特殊情况外,是7×24小时无人监守实时运行;
c.高灵活性,本发明基于RMI远程方法调用,可以灵活配置,在网络畅通的情况下,可以实时请求相应的网络资源;
d.拓展性强,本发明可以根据需求进行功能扩展,可以加入各种优选策略和各种高难度高耗时的计算,与爬虫独立开,以不影响爬虫的爬取效率;
e.高容错性,本发明可以在网络线路出问题的时候,自动测试,直至选择出正确的线路,以保证爬虫线路的畅通;
f.高吞吐量,本发明通过对线路负载情况、线路带宽大小以及访问延迟的综合考虑,优选出最佳线路。保证了线路的可用性,极大地提高了线路的吞吐量。
通过使用本发明提供的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,能够使爬虫数据的抓取效率大大提高,并且不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一提供的一种通过对网络资源调度来提高网络爬虫抓取效率的方法的步骤概括流程图;
图2为本发明实施例二提供的一种通过对网络资源调度来提高网络爬虫抓取效率的方法的步骤流程图;
图3为本发明实施例一提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置的信号流向关系示意图。
具体实施方式
本发明为解决现有技术存在的问题,提供一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其能够使爬虫数据的抓取效率大大提高,并且不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁,从而更加适于实用。
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的通过网络爬虫抓取网络数据的方法和装置,其具体实施方式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,具体的理解为:可以同时包含有A与B,可以单独存在A,也可以单独存在B,能够具备上述三种任一种情况。
参见附图1,本发明提供的通过网络爬虫抓取网络数据的方法包括以下步骤:
步骤S1:从RMI远程爬虫客户端接收请求参数,并进行封装识别;
步骤S2:把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
步骤S3:对各个网络线路进行优选,得到畅通的网络线路;
步骤S4:通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
步骤S5:通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;
步骤S6:RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置(比如设置user-agent等),并进行数据的爬取和解析。
本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的方法通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够独立运行,耦合度低,占用资源少,响应迅速,并且,
a.准确度高,本发明所提供的数据都经过了相关的验证和优选策略过滤,以确保提供的网络资源精准有效;
b.响应及时,本发明除特殊情况外,是7×24小时无人监守实时运行;
c.高灵活性,本发明基于RMI远程方法调用,可以灵活配置,在网络畅通的情况下,可以实时请求相应的网络资源;
d.拓展性强,本发明可以根据需求进行功能扩展,可以加入各种优选策略和各种高难度高耗时的计算,与爬虫独立开,以不影响爬虫的爬取效率;
e.高容错性,本发明可以在网络线路出问题的时候,自动测试,直至选择出正确的线路,以保证爬虫线路的畅通;
f.高吞吐量,本发明通过对线路负载情况、线路带宽大小以及访问延迟的综合考虑,优选出最佳线路。保证了线路的可用性,极大地提高了线路的吞吐量。
通过使用本发明提供的通过网络爬虫抓取网络数据的方法和装置,能够使爬虫数据的抓取效率大大提高,并且不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。
其中,对各个网络线路进行优选,得到畅通的网络线路包括根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为畅通的网络线路。
参见附图2,其中,当RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
其中,对各个网络线路进行优选,得到畅通的网络线路包括选择速度最快的网络线路作为畅通的网络线路。
其中,当所有网络线路都被目标网站封锁时,对各个网络线路进行优选,得到畅通的网络线路包括通过软路由直接控制,重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
参见附图3,本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置包括RMI远程爬虫客户端请求接收端口、参数发送单元、选择单元、HTTP网络资源封装处理单元、网络资源发送端口、设置单元、数据爬取和解析单元,
RMI远程爬虫客户端请求接收端口用于从RMI远程爬虫客户端接收请求参数,并进行封装识别;
参数发送单元用于把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
选择单元用于对各个网络线路进行优选,得到畅通的网络线路;
HTTP网络资源封装处理单元通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
网络资源发送端口用于通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;
RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,通过设置单元对网络线路和HTTP请求进行设置,并通过数据爬取和解析单元进行网络数据的爬取和解析。
本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的装置利用RMI远程爬虫客户端请求接收端口,通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;利用参数发送单元,把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;利用选择单元,对各个网络线路进行优选,得到畅通的网络线路;利用HTTP网络资源封装处理单元,通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;利用网络资源发送端口,通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,利用设置单元,对网络线路和HTTP请求进行设置,并利用数据爬取和解析单元进行数据的爬取和解析。其能够独立运行,耦合度低,占用资源少,响应迅速,并且,
a.准确度高,本发明所提供的数据都经过了相关的验证和优选策略过滤,以确保提供的网络资源精准有效;
b.响应及时,本发明除特殊情况外,是7×24小时无人监守实时运行;
c.高灵活性,本发明基于RMI远程方法调用,可以灵活配置,在网络畅通的情况下,可以实时请求相应的网络资源;
d.拓展性强,本发明可以根据需求进行功能扩展,可以加入各种优选策略和各种高难度高耗时的计算,与爬虫独立开,以不影响爬虫的爬取效率;
e.高容错性,本发明可以在网络线路出问题的时候,自动测试,直至选择出正确的线路,以保证爬虫线路的畅通;
f.高吞吐量,本发明通过对线路负载情况、线路带宽大小以及访问延迟的综合考虑,优选出最佳线路。保证了线路的可用性,极大地提高了线路的吞吐量。
通过使用本发明提供的通过网络爬虫抓取网络数据的方法和装置,能够使爬虫数据的抓取效率大大提高,并且不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。
其中,通过一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置还包括统计单元,统计单元用于根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为畅通的网络线路。
其中,通过网络爬虫还包括判断单元,判断单元用于判断当RMI远程爬虫客户端是否需要使用代理服务器,当RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
其中,选择单元用于选择速度最快的网络线路作为畅通的网络线路。
其中,通过网络爬虫抓取网络数据的装置还包括软路由,当所有网络线路都被目标网站封锁时,软路由用于重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
实施例
本实施例中,原版的系统使用Java语言实现,基于Java1.5开发。推荐使用双核CPU,4GB以上配置。机器无特殊要求,只要支持Java虚拟机即可。
本发明接受的输入数据来自网络爬虫组件所传输过来的请求参数,其请求的参数主要分为请求组件的ID和需要请求的网络资源参数。
本发明的输入格式为JSON格式,由于数据在各个系统之间传输并且在程序里面传输的数据内容不确定。这里对输入的JSON数据的相关字段做举例说明:
(1)dest:字符串类型请求参数,表示具体执行同一个特定任务的爬虫组件名称,如:ShopSimpleCrawler(淘宝店铺信息爬虫);
(2)proxyType:字符串类型请求参数,表示爬虫所需要的代理服务器类型,具体类型可以根据业务需求进行拓展。如:general(普通可用代理);
(3)bProxy:布尔类型请求参数,标识爬虫是否需要使用代理服务器,如果不使用代理就会根据计算出的最优网络宽带返回网关值。
(4)bVpn:布尔类型请求参数,标识爬虫是否要走VPN线路,目前的VPN线路能够快速响应国外的网站和相关国内禁止访问的网站。可以根据业务需求拓展不同的VPN连接。如果选择使用VPN,则返回专门走VPN线路的网关值。
本发明的输出即返回一个NetInterface类所封装的网络信息资源,以供网络爬虫使用。输出格式主要通过一个NetInterface类来实现,该类属性的说明如下:
以下对各个属性进行简要说明以及相关数据举例:
(1)gateway:网关值,如:192.168.2.1
(2)ip:代理服务器IP,如:117.136.234.12
(3)port:代理服务器访问端口,如:83
(4)bHttpProxy:表示是否使用代理,如:true
(5)isNeedCredentail:表示代理是否需要验证,如:true
(6)username:代理服务需要验证时的用户名,如:admin
(7)password:代理服务需要验证时的密码,如:123456
本发明采用的算法以及相关流程逻辑如下:
(1)第一步:通过远程调用接口接收参数,并进行分析,如果要请求代理服务器则到第二步,如果不需要请求代理服务器则到第三步;
(2)第二步:首先从数据库或者网站获取未经验证的代理服务器资源,然后验证是否能成功访问不同的网站,并把验证成功的代理服务器加入到可用的队列里面,以供遍历使用。然后到第三步;
(3)第三步:根据目前爬虫使用的ADSL线路的情况,根据本身的网络带宽、网络线路的延迟以及正在被爬虫使用的负载数量,先分析是否要重播ADSL线路,其次通过负载均衡计算出目前最优(负载较低,带宽较宽,延迟低)的一条ADSL线路。然后到第四步;
(4)第四步:通过远程调用的接口返回Interface数据,该数据对基本的数据类型String,以及int进行封装,同时按照需求对HTTP请求参数进行封装。
本发明与网络爬虫组件进行通信的接口为IRemote接口,其中,NetInterface是对基本数据类型String和int的封装,封装网关参数、代理服务器相关参数、HTTP请求头相关参数等。以下对该接口进行说明:
(1)publicNetInterfaceapplyGateway(String):传入的参数为String类型的请求参数,返回值为网络资源NetInterface。该方法主要适用于爬虫第一次申请网络资源;
(2)publicNetInterfacereapplyGateway(String,NetInterface):传入的参数为String类型的请求参数和当前使用的NetInterface,返回值为网络资源NetInterface。该方法的主要功能是,当爬虫第一次申请网络资源失效时,重新申请新的网络资源,并把失效的资源放入定时清理的失效队列中以供检测;
(3)publicvoidreleaseGateway(String,NetInterface)传入的参数为String类型的请求参数和当前使用的NetInterface。该方法的主要功能是当不需要进行网络通信时,释放当前网络资源,避免频繁占用线路,同时也实时更新ADSL线路的负载情况。
此外,本发明提供的通过网络爬虫抓取网络数据的方法和装置还可以通过其他编程语言实现,比如C++,C#等编程语言实现。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,包括以下步骤:
从RMI远程爬虫客户端接收请求参数,并进行封装识别;
把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
对各个网络线路进行优选,得到畅通的网络线路;
通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端;
所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。
2.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,所述对各个网络线路进行优选,得到畅通的网络线路包括根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。
3.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
4.根据权利要求3所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,所述对各个网络线路进行优选,得到畅通的网络线路包括选择网络延迟低、速度最快的网络线路作为畅通的网络线路。
5.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的方法,其特征在于,当所有网络线路都被目标网站封锁时,所述对各个网络线路进行优选,得到畅通的网络线路包括通过软路由直接控制,重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
6.一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其特征在于,包括RMI远程爬虫客户端请求接收端口、参数发送单元、选择单元、HTTP网络资源封装处理单元、网络资源发送端口、设置单元、数据爬取和解析单元。
所述RMI远程爬虫客户端请求接收端口用于从RMI远程爬虫客户端接收请求参数,并进行封装识别;
所述参数发送单元用于把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
所述选择单元用于对各个网络线路进行优选,得到畅通的网络线路;
所述HTTP网络资源封装处理单元通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
所述网络资源发送端口用于通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端;
所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,通过所述设置单元对网络线路和HTTP请求进行设置,并通过所述数据爬取和解析单元进行数据的爬取和解析。
7.根据权利要求1所述的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其特征在于,还包括统计单元,所述统计单元用于根据当前的爬虫调用负载情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。
8.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的装置,其特征在于,还包括判断单元,所述判断单元用于判断当所述RMI远程爬虫客户端是否需要使用代理服务器,当所述RMI远程爬虫客户端需要使用代理服务器时,在把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑的步骤和对各个网络线路进行优选,得到畅通的网络线路之间,还包括有效代理服务器调度的步骤。
9.根据权利要求8所述的一种通过对网络资源调度来提高网络爬虫抓取效率的装置,其特征在于,所述选择单元用于选择速度最快的网络线路作为畅通的网络线路。
10.根据权利要求1所述的一种通过对网络资源调度来提高网络爬虫抓取效率的装置,其特征在于,还包括软路由,当所有网络线路都被目标网站封锁时,所述软路由用于重播所有网络线路获取另外的公网IP,直至能够选择畅通的线路为止,作为畅通的网络线路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610240607.6A CN105681478B (zh) | 2016-04-19 | 2016-04-19 | 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610240607.6A CN105681478B (zh) | 2016-04-19 | 2016-04-19 | 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105681478A true CN105681478A (zh) | 2016-06-15 |
CN105681478B CN105681478B (zh) | 2019-01-22 |
Family
ID=56310112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610240607.6A Active CN105681478B (zh) | 2016-04-19 | 2016-04-19 | 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105681478B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241319A (zh) * | 2017-05-26 | 2017-10-10 | 山东省科学院情报研究所 | 基于vpn的分布式网络爬虫系统及调度方法 |
CN108900623A (zh) * | 2018-07-11 | 2018-11-27 | 邦尼集团有限公司 | 一种基于动态ip的网页正文获取方法及装置 |
CN109743411A (zh) * | 2018-12-10 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 一种在分布式环境下动态调度ip代理池的方法、装置及存储介质 |
CN111104575A (zh) * | 2018-10-29 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 数据抓取方法、装置及电子设备 |
US11297637B2 (en) | 2016-11-04 | 2022-04-05 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for data transmission based on uplink grant, and terminal device thereof |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040025055A1 (en) * | 2002-07-31 | 2004-02-05 | Hewlett-Packard Development Company, L.P. | Online recognition of robots |
CN101931635A (zh) * | 2009-06-18 | 2010-12-29 | 北京搜狗科技发展有限公司 | 网络资源访问方法及代理装置 |
CN102469132A (zh) * | 2010-11-15 | 2012-05-23 | 北大方正集团有限公司 | 从网站中多个不同ip的服务器抓取网页的方法及系统 |
CN103491165A (zh) * | 2013-09-22 | 2014-01-01 | 复旦大学 | 自动检测屏蔽的通用分布式爬虫系统 |
CN103533097A (zh) * | 2013-10-10 | 2014-01-22 | 北京京东尚科信息技术有限公司 | 一种网络爬虫下载解析方法及装置 |
CN103581328A (zh) * | 2013-11-14 | 2014-02-12 | 广州品唯软件有限公司 | 产品属性数据的获取方法和系统 |
-
2016
- 2016-04-19 CN CN201610240607.6A patent/CN105681478B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040025055A1 (en) * | 2002-07-31 | 2004-02-05 | Hewlett-Packard Development Company, L.P. | Online recognition of robots |
CN101931635A (zh) * | 2009-06-18 | 2010-12-29 | 北京搜狗科技发展有限公司 | 网络资源访问方法及代理装置 |
CN102469132A (zh) * | 2010-11-15 | 2012-05-23 | 北大方正集团有限公司 | 从网站中多个不同ip的服务器抓取网页的方法及系统 |
CN103491165A (zh) * | 2013-09-22 | 2014-01-01 | 复旦大学 | 自动检测屏蔽的通用分布式爬虫系统 |
CN103533097A (zh) * | 2013-10-10 | 2014-01-22 | 北京京东尚科信息技术有限公司 | 一种网络爬虫下载解析方法及装置 |
CN103581328A (zh) * | 2013-11-14 | 2014-02-12 | 广州品唯软件有限公司 | 产品属性数据的获取方法和系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11297637B2 (en) | 2016-11-04 | 2022-04-05 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for data transmission based on uplink grant, and terminal device thereof |
CN107241319A (zh) * | 2017-05-26 | 2017-10-10 | 山东省科学院情报研究所 | 基于vpn的分布式网络爬虫系统及调度方法 |
CN107241319B (zh) * | 2017-05-26 | 2020-06-02 | 山东省科学院情报研究所 | 基于vpn的分布式网络爬虫系统及调度方法 |
CN108900623A (zh) * | 2018-07-11 | 2018-11-27 | 邦尼集团有限公司 | 一种基于动态ip的网页正文获取方法及装置 |
CN108900623B (zh) * | 2018-07-11 | 2022-02-01 | 邦尼集团有限公司 | 一种基于动态ip的网页正文获取方法及装置 |
CN111104575A (zh) * | 2018-10-29 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 数据抓取方法、装置及电子设备 |
CN111104575B (zh) * | 2018-10-29 | 2023-05-05 | 阿里巴巴集团控股有限公司 | 数据抓取方法、装置及电子设备 |
CN109743411A (zh) * | 2018-12-10 | 2019-05-10 | 厦门市美亚柏科信息股份有限公司 | 一种在分布式环境下动态调度ip代理池的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105681478B (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11159558B2 (en) | Mobile risk assessment | |
US10904277B1 (en) | Threat intelligence system measuring network threat levels | |
CN105681478A (zh) | 通过对网络资源调度提高网络爬虫抓取效率的方法和装置 | |
CN104536890B (zh) | 测试系统、方法和装置 | |
CN104219316A (zh) | 一种分布式系统中的调用请求处理方法及装置 | |
CN108270882A (zh) | 域名的解析方法和装置、存储介质、电子装置 | |
CN102055813A (zh) | 一种网络应用的访问控制方法及其装置 | |
CN103023906A (zh) | 针对远程过程调用协议进行状态跟踪的方法及系统 | |
CN105610993B (zh) | 一种域名解析方法、装置及系统 | |
CN104363251A (zh) | 网站安全检测方法与装置 | |
JP6050162B2 (ja) | 接続先情報抽出装置、接続先情報抽出方法、及び接続先情報抽出プログラム | |
CN104967644A (zh) | 消息推送方法、装置及系统 | |
CN104378389A (zh) | 网站安全检测方法与装置 | |
CN104363252A (zh) | 网站安全检测方法与装置 | |
CN110413329A (zh) | Iot设备远程调试方法、装置及系统 | |
Petroulakis et al. | Reactive security for SDN/NFV‐enabled industrial networks leveraging service function chaining | |
US20170359360A1 (en) | System and method for gathering botnet cyber intelligence | |
Eryonucu et al. | Sybil-based attacks on google maps or how to forge the image of city life | |
US11394687B2 (en) | Fully qualified domain name (FQDN) determination | |
CN107239689B (zh) | 一种基于众包的验证信息的识别方法及系统 | |
CN109618004A (zh) | 一种报文转发方法及装置 | |
CN109194706A (zh) | 网络资源拨测方法及终端 | |
US10747525B2 (en) | Distribution of a software upgrade via a network | |
CN114793171B (zh) | 访问请求的拦截方法、装置、存储介质及电子装置 | |
CN110321287A (zh) | 一种服务器功能的检测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200619 Address after: Room 1301, building 8, Xincheng science and Technology Park, No. 588, yueluxi West Avenue, Changsha high tech Development Zone, Changsha City, Hunan Province Patentee after: Hunan Sifang Tianjian Information Technology Co., Ltd Address before: 100055, room 1, building 248, 1401 Guang'an Avenue, Xicheng District, Beijing Patentee before: BEIJING GAODIG INFORMATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |