CN108241665A - 一种数据处理方法和客户端设备 - Google Patents

一种数据处理方法和客户端设备 Download PDF

Info

Publication number
CN108241665A
CN108241665A CN201611216634.6A CN201611216634A CN108241665A CN 108241665 A CN108241665 A CN 108241665A CN 201611216634 A CN201611216634 A CN 201611216634A CN 108241665 A CN108241665 A CN 108241665A
Authority
CN
China
Prior art keywords
request
time window
traveling time
target
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611216634.6A
Other languages
English (en)
Other versions
CN108241665B (zh
Inventor
何熠皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611216634.6A priority Critical patent/CN108241665B/zh
Publication of CN108241665A publication Critical patent/CN108241665A/zh
Application granted granted Critical
Publication of CN108241665B publication Critical patent/CN108241665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明实施例提供了一种数据处理方法和客户端设备,可以使客户端设备灵活选用不同的爬取速度,提高爬取效率。本发明实施例的方法包括:客户端设备获取目标爬取任务;所述客户端设备获取当前移动时间窗口的请求数,所述当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口;所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度。

Description

一种数据处理方法和客户端设备
技术领域
本发明涉及客户端领域,尤其涉及一种数据处理方法和客户端设备。
背景技术
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,网络爬虫在爬取网站时,往往会遇到对请求速度有限制的网站,一般来说,若网络爬虫所在的IP在移动时间窗口内的请求数大于移动时间窗口允许的最大请求数,则网站将采取反爬虫措施,造成爬取失败。
现有技术中,为了解决上述问题,可以对网络爬虫进行限速,根据移动时间窗口的时长和移动时间窗口允许的最大请求数,可以得到在连续发送请求的情况下,最小的固定时间时隔,网络爬虫按照固定时间间隔向网站发送请求,可以避免上述问题。
然而,在一些应用场合,用户往往会发起一些零碎的,请求数量不多,但是实时性要求比较高的爬取任务,由于这些任务的开始时刻与上一次爬取任务的结束时刻之间存在时间间隔,而且数量不多,即使在很短的时间内将所有请求都发送出去,也不会超出移动时间窗口的限制,这时,如果还是采用固定时间间隔的方式,将降低爬取的效率。
发明内容
本发明实施例提供了一种数据处理方法和客户端设备,可以使客户端设备灵活选用不同的爬取速度,提高爬取效率。
有鉴于此,本发明实施例提供了一种数据处理方法,包括:
客户端设备获取目标爬取任务;
所述客户端设备获取当前移动时间窗口的请求数,所述当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口;
所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度。
在一些可能的实现方式中,所述客户端设备获取当前移动时间窗口的请求数包括:
所述客户端设备判断所述当前时刻与第一结束移动时间窗口的结束时刻之间的间隔是否大于或等于单位个移动时间窗口的时长,所述第一结束移动时间窗口为所述客户端设备执行最后一个爬取任务对应的移动时间窗口;
若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔大于或等于所述单位个移动时间窗口的时长,则所述客户端设备确定所述当前移动时间窗口的请求数为零;
若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔小于所述单位个移动时间窗口的时长,则所述客户端设备按照第一预置公式计算所述当前移动时间窗口的请求数。
在一些可能的实现方式中,若所述客户端设备确定所述当前移动时间窗口的请求数为零,所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度包括:
所述客户端设备判断所述目标爬取任务的请求数是否大于所述移动时间窗口允许的最大请求数;
若所述目标爬取任务的请求数大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照第一间隔发送所述目标爬取任务的全部请求,所述第一间隔由所述移动时间窗口的时长和所述移动时间窗口允许的最大请求数确定;
若所述目标爬取任务的请求数不大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照非间隔模式发送所述目标爬取任务的全部请求。
在一些可能的实现方式中,若所述目标爬取任务的请求数不大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照非间隔模式发送所述目标爬取任务的全部请求之后,还包括:
所述客户端设备将所述目标爬取任务的开始时刻设置为第二结束移动时间窗口的开始时刻;
所述客户端设备将所述目标爬取任务的结束时刻设置为所述第二结束移动时间窗口的结束时刻;
所述客户端设备将所述目标爬取任务的请求数设置为所述第二结束移动时间窗口的请求数。
在一些可能的实现方式中,若所述客户端设备按照第一预置公式计算所述当前移动时间窗口的请求数,所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度包括:
所述客户端设备判断所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和是否大于所述移动时间窗口允许的最大请求数;
若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和不大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照所述非间隔模式发送所述目标爬取任务的全部请求。
在一些可能的实现方式中,若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和不大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照所述非间隔模式发送所述目标爬取任务的全部请求之后,还包括:
所述客户端设备将所述目标爬取任务的结束时刻设置为第三结束移动时间窗口的结束时刻;
所述客户端设备将相比所述目标爬取任务的结束时刻提前单位个所述移动时间窗口的时长的时刻设置为所述第三结束移动时间窗口的开始时刻;
所述客户端设备将所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和设置为所述第三结束移动时间窗口的请求数。
在一些可能的实现方式中,所述客户端设备判断所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和是否大于所述移动时间窗口允许的最大请求数之后,还包括:
若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照第二预置公式计算第二间隔,所述第二间隔小于所述第一间隔;
所述客户端设备按照所述第二间隔发送目标数值个所述目标爬取任务的请求,所述目标数值为所述移动时间窗口允许的最大请求数与所述当前移动时间窗口的请求数的差值;
所述客户端设备将所述目标爬取任务剩余的请求作为下一个目标爬取任务继续执行,直至所述目标爬取任务的全部请求发送完毕。
在一些可能的实现方式中,所述客户端设备按照所述第二间隔发送目标数值个所述目标爬取任务的请求之后,所述客户端设备将所述目标爬取任务剩余的请求作为下一个目标爬取任务继续执行之前,还包括:
所述客户端设备将所述当前时刻设置为第四结束移动时间窗口的开始时刻;
所述客户端设备将相比所述当前时刻延后单位个所述移动时间窗口的时长的时刻设置为所述第四结束移动时间窗口的结束时刻;
所述客户端设备将所述目标数值设置为所述第四结束移动时间窗口的请求数。
在一些可能的实现方式中,所述第一预置公式为:
k′=(c/(t2-t1))*(T-(n-t2))
所述k′为所述当前移动时间窗口的请求数;
所述T为所述移动时间窗口的时长;
所述c为所述第一结束移动时间窗口的请求数;
所述t1为所述第一结束移动时间窗口的起始时刻;
所述t2为所述第一结束移动时间窗口的结束时刻;
所述n为所述当前时刻。
在一些可能的实现方式中,所述第二预置公式为:
I′=(t2+T-n)/(K-k′)
所述I′为所述第二间隔;
所述t2为所述第一结束移动时间窗口的结束时刻;
所述k′为所述当前移动时间窗口的请求数;
所述T为所述移动时间窗口的时长;
所述n为所述当前时刻;
所述K为所述移动时间窗口允许的最大请求数。
本发明实施例还提供了一种客户端设备,包括:
第一获取单元,用于获取目标爬取任务;
第二获取单元,用于获取当前移动时间窗口的请求数,所述当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口;
调节单元,用于根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度。
在一些可能的实现方式中,所述第二获取单元包括:
第一判断模块,用于判断所述当前时刻与第一结束移动时间窗口的结束时刻之间的间隔是否大于或等于单位个移动时间窗口的时长,所述第一结束移动时间窗口为所述客户端设备执行最后一个爬取任务对应的移动时间窗口;
确定模块,用于若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔大于或等于所述单位个移动时间窗口的时长,则确定所述当前移动时间窗口的请求数为零;
第一计算模块,用于若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔小于所述单位个移动时间窗口的时长,则按照第一预置公式计算所述当前移动时间窗口的请求数。
在一些可能的实现方式中,若所述确定模块确定所述当前移动时间窗口的请求数为零,所述调节单元包括:
第二判断模块,用于判断所述目标爬取任务的请求数是否大于所述移动时间窗口允许的最大请求数;
第一发送模块,用于若所述目标爬取任务的请求数大于所述移动时间窗口允许的最大请求数,则按照第一间隔发送所述目标爬取任务的全部请求,所述第一间隔由所述移动时间窗口的时长和所述移动时间窗口允许的最大请求数确定;
第二发送模块,用于若所述目标爬取任务的请求数不大于所述移动时间窗口允许的最大请求数,则按照非间隔模式发送所述目标爬取任务的全部请求。
在一些可能的实现方式中,若所述目标爬取任务的请求数不大于所述移动时间窗口允许的最大请求数,则按照非间隔模式发送所述目标爬取任务的全部请求,所述客户端设备还包括:
第一设置单元,用于将所述目标爬取任务的开始时刻设置为第二结束移动时间窗口的开始时刻;
第二设置单元,用于将所述目标爬取任务的结束时刻设置为所述第二结束移动时间窗口的结束时刻;
第三设置单元,用于将所述目标爬取任务的请求数设置为所述第二结束移动时间窗口的请求数。
在一些可能的实现方式中,若所述第一计算模块按照所述第一预置公式计算所述当前移动时间窗口的请求数,所述调节单元包括:
第三判断模块,用于判断所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和是否大于所述移动时间窗口允许的最大请求数;
第三发送模块,用于若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和不大于所述移动时间窗口允许的最大请求数,则按照所述非间隔模式发送所述目标爬取任务的全部请求。
在一些可能的实现方式中,若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和不大于所述移动时间窗口允许的最大请求数,则按照所述非间隔模式发送所述目标爬取任务的全部请求,所述客户端设备还包括:
第四设置单元,用于将所述目标爬取任务的结束时刻设置为第三结束移动时间窗口的结束时刻;
第五设置单元,用于将相比所述目标爬取任务的结束时刻提前单位个所述移动时间窗口的时长的时刻设置为所述第三结束移动时间窗口的开始时刻;
第六设置单元,用于将所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和设置为所述第三结束移动时间窗口的请求数。
在一些可能的实现方式中,所述调节单元还包括:
第二计算模块,用于若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和大于所述移动时间窗口允许的最大请求数,则按照第二预置公式计算第二间隔,所述第二间隔小于所述第一间隔;
第四发送模块,用于按照所述第二间隔发送目标数值个所述目标爬取任务的请求,所述目标数值为所述移动时间窗口允许的最大请求数与所述当前移动时间窗口的请求数的差值;
循环单元,用于将所述目标爬取任务剩余的请求作为下一个目标爬取任务继续执行,直至所述目标爬取任务的全部请求发送完毕。
在一些可能的实现方式中,若所述第四发送模块按照所述第二间隔发送目标数值个所述目标爬取任务的请求,所述客户端设备还包括:
第七设置单元,用于将所述当前时刻设置为第四结束移动时间窗口的开始时刻;
第八设置单元,用于将相比所述当前时刻延后单位个所述移动时间窗口的时长的时刻设置为所述第四结束移动时间窗口的结束时刻;
第九设置单元,用于将所述目标数值设置为所述第四结束移动时间窗口的请求数。
在一些可能的实现方式中,所述第一预置公式为:
k′=(c/(t2-t1))*(T-(n-t2))
所述k′为所述当前移动时间窗口的请求数;
所述T为所述移动时间窗口的时长;
所述c为所述第一结束移动时间窗口的请求数;
所述t1为所述第一结束移动时间窗口的起始时刻;
所述t2为所述第一结束移动时间窗口的结束时刻;
所述n为所述当前时刻。
在一些可能的实现方式中,所述第二预置公式为:
I′=(t2+T-n)/(K-k′)
所述I′为所述第二间隔;
所述t2为所述第一结束移动时间窗口的结束时刻;
所述k′为所述当前移动时间窗口的请求数;
所述T为所述移动时间窗口的时长;
所述n为所述当前时刻;
所述K为所述移动时间窗口允许的最大请求数。
本发明实施例还提供了一种客户端设备,包括:
输入装置、输出装置、处理器和存储器;
通过调用所述存储器存储的操作指令,所述处理器用于执行如下步骤:
获取目标爬取任务;
获取当前移动时间窗口的请求数,所述当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口;
根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,客户端设备获取目标爬取任务,客户端设备获取当前移动时间窗口的请求数,并根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,可以使客户端设备根据不同的情况灵活选用不同的爬取速度,提高爬取效率。
附图说明
图1为本发明实施例方法的一个实施例流程图;
图2为本发明实施例方法的另一个实施例流程图;
图3是本发明实施例客户端设备的一个实施例的结构示意图;
图4是本发明实施例客户端设备的另一个实施例的结构示意图;
图5是本发明实施例客户端设备的另一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种数据处理方法和客户端设备,可以使客户端设备灵活选用不同的爬取速度,提高爬取效率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,网络爬虫在爬取网站时,往往会遇到对请求速度有限制的网站,一般来说,网站往往是通过移动时间窗口来限制网络爬虫的速度,所谓移动时间窗口,也叫时间窗,就是对数据集进行截取,提取时间窗内的数据来进行处理,若网络爬虫所在的IP在移动时间窗口内的请求数大于移动时间窗口允许的最大请求数,则网站将采取反爬虫措施,在移动时间窗口的限制下,采用固定时间间隔的方式进行爬取,固然可以解决上述问题,但是在某些应用场合,用户往往会发起一些零碎的,请求数量不多,但是实时性要求比较高的爬取任务,这时如果还是采用固定时间间隔的方式,将降低爬取的效率,为此,本发明实施例提供了一种数据处理方法和客户端设备,可以使客户端设备灵活选用不同的爬取速度,提高爬取效率。
请参阅图1,本发明实施例方法的一个实施例,包括:
101、客户端设备获取目标爬取任务。
目标爬取任务可以是用户输入的爬取任务,也可以是客户端设备根据设置生成的爬取任务,此处不做太多限定,可以理解的是,目标爬取任务包括至少一个爬取请求。
102、客户端设备获取当前移动时间窗口的请求数。
当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口,客户端设备获取当前移动时间窗口已发送的请求数。
103、客户端设备根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度。
请求发送速度包括按预置的时间间隔发送请求,或者按非间隔模式发送请求,非间隔模式又分为串行模式和并行模式,串行模式指发完一个请求后立即发送下一个请求,并行模式是指同时发送多个请求,此处不做太多限定。
本实施例中,客户端设备获取目标爬取任务,客户端设备获取当前移动时间窗口的请求数,并根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,可以使客户端设备根据不同的情况灵活选用不同的爬取速度,提高爬取效率。
请参阅图2,本发明实施例方法的另一个实施例,包括:
201、客户端设备获取目标爬取任务。
步骤201与步骤101类似,不再赘述。
202、客户端设备判断当前时刻与第一结束移动时间窗口的结束时刻之间的间隔是否大于或等于单位个移动时间窗口的时长。
客户端设备执行完一个爬取任务后,根据预置的规则记录结束移动时间窗口的开始时刻和结束时刻,以及结束移动时间窗口的请求数,第一结束移动时间窗口为到当前时刻为止,客户端设备执行最后一个爬取任务对应的移动时间窗口。
若当前时刻与第一结束移动时间窗口的结束时刻之间的间隔大于或等于单位个移动时间窗口的时长,则客户端设备执行步骤203和205。
若当前时刻与第一结束移动时间窗口的结束时刻之间的间隔小于单位个移动时间窗口的时长,则客户端设备执行步骤204和211。
203、客户端设备确定当前移动时间窗口的请求数为零。
当前时刻与第一结束移动时间窗口的结束时刻之间的间隔大于或等于单位个移动时间窗口的时长,表示当前移动时间窗口并没有发送请求,故请求数为零。
204、客户端设备按照第一预置公式计算当前移动时间窗口的请求数。
当前时刻与第一结束移动时间窗口的结束时刻之间的间隔大于或等于单位个移动时间窗口的时长,表示当前移动时间窗口发送了请求,可以按照第一预置公式计算当前移动时间窗口的请求数。
需要说明的是,假设爬取的请求间隔为均匀的,第一预置公式可以包括:
k′=(c/(t2-t1))*(T-(n-t2))
k′为当前移动时间窗口的请求数;
T为移动时间窗口的时长;
c为第一结束移动时间窗口的请求数;
t1为第一结束移动时间窗口的起始时刻;
t2为第一结束移动时间窗口的结束时刻;
n为当前时刻。
还需要说明的是,以上公式仅为一个示例,实际实现中也可以使用方法进行计算,或对以上公式进行变形,此处不做太多限定。
205、客户端设备判断目标爬取任务的请求数是否大于移动时间窗口允许的最大请求数;
若目标爬取任务的请求数大于移动时间窗口允许的最大请求数,则执行步骤206至209。
若目标爬取任务的请求数不大于移动时间窗口允许的最大请求数,则执行步骤210。
206、客户端设备按照第一间隔发送目标爬取任务的全部请求。
第一间隔由移动时间窗口的时长和移动时间窗口允许的最大请求数确定,可以由移动时间窗口允许的最大请求数确定除以移动时间窗口的时长得到第一间隔。
207、客户端设备将目标爬取任务的开始时刻设置为第二结束移动时间窗口的开始时刻。
208、客户端设备将目标爬取任务的结束时刻设置为第二结束移动时间窗口的结束时刻。
209、客户端设备将目标爬取任务的请求数设置为第二结束移动时间窗口的请求数。
客户端设备在执行完目标爬取任务后,都会记录结束移动时间窗口的开始时刻,结束时刻和请求数,可以理解的是,根据步骤207和208设置的第二结束移动时间窗口的开始时刻和结束时刻之间的时长,并不一定等于单位个移动时间窗口的时长。
210、客户端设备按照非间隔模式发送目标爬取任务的全部请求。
若目标爬取任务的请求数不大于移动时间窗口允许的最大请求数,说明目标爬取任务的请求全部发送完,也不会超出移动时间窗口的限制,可以选择非间隔模式发送目标爬取任务的全部请求。
还需要说明的是,除了使用非间隔模式外,客户端设备也可以预置小于第一间隔的时间间隔发送目标爬取任务,此处不做太多限定。
211、客户端设备判断当前移动时间窗口的请求数与目标爬取任务的请求数之和是否大于移动时间窗口允许的最大请求数。
若当前移动时间窗口的请求数与目标爬取任务的请求数之和不大于移动时间窗口允许的最大请求数,执行步骤212至215。
若当前移动时间窗口的请求数与目标爬取任务的请求数之和大于移动时间窗口允许的最大请求数,执行步骤216至221。
212、客户端设备按照非间隔模式发送目标爬取任务的全部请求。
步骤212与步骤210类似,不再赘述。
213、客户端设备将目标爬取任务的结束时刻设置为第三结束移动时间窗口的结束时刻。
214、客户端设备将相比目标爬取任务的结束时刻提前单位个移动时间窗口的时长的时刻设置为第三结束移动时间窗口的开始时刻。
215、客户端设备将当前移动时间窗口的请求数与目标爬取任务的请求数之和设置为第三结束移动时间窗口的请求数。
216、客户端设备按照第二预置公式计算第二间隔。
第二间隔小于第一间隔,第二预置公式可以包括:
I′=(t2+T-n)/(K-k′)
I′为第二间隔;
t2为第一结束移动时间窗口的结束时刻;
k′为当前移动时间窗口的请求数;
T为移动时间窗口的时长;
n为当前时刻;
K为移动时间窗口允许的最大请求数。
217、客户端设备按照第二间隔发送目标数值个目标爬取任务的请求。
目标数值为移动时间窗口允许的最大请求数与当前移动时间窗口的请求数的差值。
218、客户端设备将当前时刻设置为第四结束移动时间窗口的开始时刻。
219、客户端设备将相比当前时刻延后单位个移动时间窗口的时长的时刻设置为第四结束移动时间窗口的结束时刻。
220、客户端设备将目标数值设置为第四结束移动时间窗口的请求数。
221、客户端设备将目标爬取任务剩余的请求作为下一个目标爬取任务继续执行,直至目标爬取任务的全部请求发送完毕。
下一个目标爬取任务可以回到步骤201继续执行,也可以根据客户端的设置,在已知下一个目标爬取任务的开始时刻与第四结束移动时间窗口的结束时刻之间的间隔小于单位个移动时间窗口的时长的情况下,直接回到步骤204继续执行,此处不做太多限定。
本实施例中,客户端设备获取目标爬取任务,客户端设备获取当前移动时间窗口的请求数,并根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,可以使客户端设备根据不同的情况灵活选用不同的爬取速度,提高爬取效率。
其次,本实施例中,细化了如何获取当前移动时间窗口的请求数,以及如何根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求速度,并区分了多种情况进行详细说明,进一步完善了方案的实施方式。
最后,本实施例还提供第一预置公式和第二预置公式来计算当前移动时间窗口的请求数和第二间隔,丰富了本发明实施例的实现方式。
以上是对本发明实施例方法的实施例的介绍,下面将从装置的角度对本发明实施例进行详细的说明。
请参阅图3,本发明实施例客户端设备的一个实施例包括:
第一获取单元301,用于获取目标爬取任务,具体可用于执行图1的步骤101,不再赘述。
第二获取单元302,用于获取当前移动时间窗口的请求数,具体可用于执行图1的步骤102,不再赘述。
调节单元303,用于根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,具体可用于执行图1的步骤103,不再赘述。
本实施例中,第一获取单元301获取目标爬取任务,第二获取单元302获取当前移动时间窗口的请求数,调节单元303根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,可以使客户端设备根据不同的情况灵活调节目标爬取任务的请求发送速度,提高爬取效率。
请参阅图4,本发明实施例客户端设备的另一个实施例包括:
第一获取单元401,用于获取目标爬取任务,具体可用于执行图2的步骤101,不再赘述。
第二获取单元402,用于获取当前移动时间窗口的请求数,具体地,第二获取单元402包括:
第一判断模块4021,用于判断当前时刻与第一结束移动时间窗口的结束时刻之间的间隔是否大于或等于单位个移动时间窗口的时长,具体可用于执行图2的步骤202,不再赘述。
确定模块4022,用于若当前时刻与第一结束移动时间窗口的结束时刻之间的间隔大于或等于单位个移动时间窗口的时长,则确定当前移动时间窗口的请求数为零,具体可用于执行图2的步骤203,不再赘述。
第一计算模块4023,用于若当前时刻与第一结束移动时间窗口的结束时刻之间的间隔小于单位个移动时间窗口的时长,则按照第一预置公式计算当前移动时间窗口的请求数,具体可用于执行图2的步骤204,不再赘述。
调节单元403,用于根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,具体地,调节单元403包括:
第二判断模块40301,用于判断目标爬取任务的请求数是否大于移动时间窗口允许的最大请求数,具体可用于执行图2的步骤203,不再赘述。
第一发送模块40303,用于若目标爬取任务的请求数大于移动时间窗口允许的最大请求数,则按照第一间隔发送目标爬取任务的全部请求,具体可用于执行图2的步骤210,不再赘述。
第二发送模块40302,用于若目标爬取任务的请求数不大于移动时间窗口允许的最大请求数,则按照非间隔模式发送目标爬取任务的全部请求,具体可用于执行图2的步骤206,不再赘述。
第三判断模块40304,用于判断当前移动时间窗口的请求数与目标爬取任务的请求数之和是否大于移动时间窗口允许的最大请求数,具体可用于执行图2的步骤211,不再赘述。
第三发送模块40305,用于若当前移动时间窗口的请求数与目标爬取任务的请求数之和不大于移动时间窗口允许的最大请求数,则按照非间隔模式发送目标爬取任务的全部请求,具体可用于执行图2的步骤212,不再赘述。
第二计算模块40306,用于若当前移动时间窗口的请求数与目标爬取任务的请求数之和大于移动时间窗口允许的最大请求数,则按照第二预置公式计算第二间隔,具体可用于执行图2的步骤216,不再赘述。
第四发送模块40307,用于按照第二间隔发送目标数值个目标爬取任务的请求,具体可用于执行图2的步骤217,不再赘述。
第一设置单元404,用于将目标爬取任务的开始时刻设置为第二结束移动时间窗口的开始时刻,具体可用于执行图2的步骤207,不再赘述。
第二设置单元405,用于将目标爬取任务的结束时刻设置为第二结束移动时间窗口的结束时刻,具体可用于执行图2的步骤208,不再赘述。
第三设置单元406,用于将目标爬取任务的请求数设置为第二结束移动时间窗口的请求数,具体可用于执行图2的步骤209,不再赘述。
第四设置单元407,用于将目标爬取任务的结束时刻设置为第三结束移动时间窗口的结束时刻,具体可用于执行图2的步骤213,不再赘述。
第五设置单元408,用于将相比目标爬取任务的结束时刻提前单位个移动时间窗口的时长的时刻设置为第三结束移动时间窗口的开始时刻,具体可用于执行图2的步骤214,不再赘述。
第六设置单元409,用于将当前移动时间窗口的请求数与目标爬取任务的请求数之和设置为第三结束移动时间窗口的请求数,具体可用于执行图2的步骤215,不再赘述。
第七设置单元410,用于将当前时刻设置为第四结束移动时间窗口的开始时刻,具体可用于执行图2的步骤218,不再赘述。
第八设置单元411,用于将相比当前时刻延后单位个移动时间窗口的时长的时刻设置为第四结束移动时间窗口的结束时刻,具体可用于执行图2的步骤219,不再赘述。
第九设置单元412,用于将目标数值设置为第四结束移动时间窗口的请求数,具体可用于执行图2的步骤220,不再赘述。
循环单元413,用于将目标爬取任务剩余的请求作为下一个目标爬取任务继续执行,直至目标爬取任务的全部请求发送完毕,具体可用于执行图2的步骤221,不再赘述。
本实施例中,客户端设备获取目标爬取任务,客户端设备获取当前移动时间窗口的请求数,并根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,可以使客户端设备根据不同的情况灵活选用不同的爬取速度,提高爬取效率。
其次,本实施例中,细化了如何获取当前移动时间窗口的请求数,以及如何根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求速度,并区分了多种情况进行详细说明,进一步完善了方案的实施方式。
最后,本实施例还提供第一预置公式和第二预置公式来计算当前移动时间窗口的请求数和第二间隔,丰富了本发明实施例的实现方式。
以上从模块化功能实体的角度对本发明实施例中的客户端设备进行描述,下面从硬件处理的角度对本发明实施例的客户端设备进行描述。
请参阅图5,本发明实施例中客户端设备的另一实施例包括:
输入装置501、输出装置502、处理器503和存储器504(其中客户端设备的处理器801的数量可以一个或多个,图5中以一个处理器501为例)。在本发明的一些实施例中,输入装置501、输出装置502、处理器503和存储器504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
其中,通过调用存储器504存储的操作指令,处理器503用于执行如下步骤:
获取目标爬取任务;
获取当前移动时间窗口的请求数,当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口;
根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度。
本实施例中,客户端设备获取目标爬取任务,客户端设备获取当前移动时间窗口的请求数,并根据当前移动时间窗口的请求数和目标爬取任务的请求数调节目标爬取任务的请求发送速度,可以使客户端设备根据不同的情况灵活选用不同的爬取速度,提高爬取效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
客户端设备获取目标爬取任务;
所述客户端设备获取当前移动时间窗口的请求数,所述当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口;
所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度。
2.根据权利要求1所述的数据处理方法,其特征在于,所述客户端设备获取当前移动时间窗口的请求数包括:
所述客户端设备判断所述当前时刻与第一结束移动时间窗口的结束时刻之间的间隔是否大于或等于单位个移动时间窗口的时长,所述第一结束移动时间窗口为所述客户端设备执行最后一个爬取任务对应的移动时间窗口;
若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔大于或等于所述单位个移动时间窗口的时长,则所述客户端设备确定所述当前移动时间窗口的请求数为零;
若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔小于所述单位个移动时间窗口的时长,则所述客户端设备按照第一预置公式计算所述当前移动时间窗口的请求数。
3.根据权利要求2所述的数据处理方法,其特征在于,若所述客户端设备确定所述当前移动时间窗口的请求数为零,所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度包括:
所述客户端设备判断所述目标爬取任务的请求数是否大于所述移动时间窗口允许的最大请求数;
若所述目标爬取任务的请求数大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照第一间隔发送所述目标爬取任务的全部请求,所述第一间隔由所述移动时间窗口的时长和所述移动时间窗口允许的最大请求数确定;
若所述目标爬取任务的请求数不大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照非间隔模式发送所述目标爬取任务的全部请求。
4.根据权利要求2所述的数据处理方法,其特征在于,若所述客户端设备按照第一预置公式计算所述当前移动时间窗口的请求数,所述客户端设备根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度包括:
所述客户端设备判断所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和是否大于所述移动时间窗口允许的最大请求数;
若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和不大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照所述非间隔模式发送所述目标爬取任务的全部请求。
5.根据权利要求4所述的数据处理方法,其特征在于,所述客户端设备判断所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和是否大于所述移动时间窗口允许的最大请求数之后,还包括:
若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和大于所述移动时间窗口允许的最大请求数,则所述客户端设备按照第二预置公式计算第二间隔,所述第二间隔小于所述第一间隔;
所述客户端设备按照所述第二间隔发送目标数值个所述目标爬取任务的请求,所述目标数值为所述移动时间窗口允许的最大请求数与所述当前移动时间窗口的请求数的差值;
所述客户端设备将所述目标爬取任务剩余的请求作为下一个目标爬取任务继续执行,直至所述目标爬取任务的全部请求发送完毕。
6.一种客户端设备,其特征在于,包括:
第一获取单元,用于获取目标爬取任务;
第二获取单元,用于获取当前移动时间窗口的请求数,所述当前移动时间窗口为以当前时刻作为结束时刻的移动时间窗口;
调节单元,用于根据所述当前移动时间窗口的请求数和所述目标爬取任务的请求数调节所述目标爬取任务的请求发送速度。
7.根据权利要求6所述的客户端设备,其特征在于,所述第二获取单元包括:
第一判断模块,用于判断所述当前时刻与第一结束移动时间窗口的结束时刻之间的间隔是否大于或等于单位个移动时间窗口的时长,所述第一结束移动时间窗口为所述客户端设备执行最后一个爬取任务对应的移动时间窗口;
确定模块,用于若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔大于或等于所述单位个移动时间窗口的时长,则确定所述当前移动时间窗口的请求数为零;
第一计算模块,用于若所述当前时刻与所述第一结束移动时间窗口的结束时刻之间的间隔小于所述单位个移动时间窗口的时长,则按照第一预置公式计算所述当前移动时间窗口的请求数。
8.根据权利要求7所述的客户端设备,其特征在于,若所述确定模块确定所述当前移动时间窗口的请求数为零,所述调节单元包括:
第二判断模块,用于判断所述目标爬取任务的请求数是否大于所述移动时间窗口允许的最大请求数;
第一发送模块,用于若所述目标爬取任务的请求数大于所述移动时间窗口允许的最大请求数,则按照第一间隔发送所述目标爬取任务的全部请求,所述第一间隔由所述移动时间窗口的时长和所述移动时间窗口允许的最大请求数确定;
第二发送模块,用于若所述目标爬取任务的请求数不大于所述移动时间窗口允许的最大请求数,则按照非间隔模式发送所述目标爬取任务的全部请求。
9.根据权利要求7所述的客户端设备,其特征在于,若所述第一计算模块按照所述第一预置公式计算所述当前移动时间窗口的请求数,所述调节单元包括:
第三判断模块,用于判断所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和是否大于所述移动时间窗口允许的最大请求数;
第三发送模块,用于若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和不大于所述移动时间窗口允许的最大请求数,则按照所述非间隔模式发送所述目标爬取任务的全部请求。
10.根据权利要求9所述的客户端设备,其特征在于,所述调节单元还包括:
第二计算模块,用于若所述当前移动时间窗口的请求数与所述目标爬取任务的请求数之和大于所述移动时间窗口允许的最大请求数,则按照第二预置公式计算第二间隔,所述第二间隔小于所述第一间隔;
第四发送模块,用于按照所述第二间隔发送目标数值个所述目标爬取任务的请求,所述目标数值为所述移动时间窗口允许的最大请求数与所述当前移动时间窗口的请求数的差值;
循环单元,用于将所述目标爬取任务剩余的请求作为下一个目标爬取任务继续执行,直至所述目标爬取任务的全部请求发送完毕。
CN201611216634.6A 2016-12-23 2016-12-23 一种数据处理方法和客户端设备 Active CN108241665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611216634.6A CN108241665B (zh) 2016-12-23 2016-12-23 一种数据处理方法和客户端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611216634.6A CN108241665B (zh) 2016-12-23 2016-12-23 一种数据处理方法和客户端设备

Publications (2)

Publication Number Publication Date
CN108241665A true CN108241665A (zh) 2018-07-03
CN108241665B CN108241665B (zh) 2022-03-25

Family

ID=62704882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611216634.6A Active CN108241665B (zh) 2016-12-23 2016-12-23 一种数据处理方法和客户端设备

Country Status (1)

Country Link
CN (1) CN108241665B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273077A (zh) * 2018-10-08 2019-01-25 北京万东医疗科技股份有限公司 数据处理方法、装置及智能设备
CN112819624A (zh) * 2021-02-01 2021-05-18 上交所技术有限责任公司 一种适用于证券交易系统的低时延分布式流控方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514301A (zh) * 2013-10-24 2014-01-15 深圳市同洲电子股份有限公司 分布式网络爬虫任务调度的方法及系统
US20150161257A1 (en) * 2013-12-11 2015-06-11 Ebay Inc. Web crawler optimization system
US20150242508A1 (en) * 2005-05-31 2015-08-27 Google Inc. Web Crawler Scheduler that Utilizes Sitemaps from Websites
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242508A1 (en) * 2005-05-31 2015-08-27 Google Inc. Web Crawler Scheduler that Utilizes Sitemaps from Websites
CN103514301A (zh) * 2013-10-24 2014-01-15 深圳市同洲电子股份有限公司 分布式网络爬虫任务调度的方法及系统
US20150161257A1 (en) * 2013-12-11 2015-06-11 Ebay Inc. Web crawler optimization system
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273077A (zh) * 2018-10-08 2019-01-25 北京万东医疗科技股份有限公司 数据处理方法、装置及智能设备
CN112819624A (zh) * 2021-02-01 2021-05-18 上交所技术有限责任公司 一种适用于证券交易系统的低时延分布式流控方法
CN112819624B (zh) * 2021-02-01 2024-04-16 上交所技术有限责任公司 一种适用于证券交易系统的低时延分布式流控方法

Also Published As

Publication number Publication date
CN108241665B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN104978601B (zh) 神经网络模型训练系统和方法
US20180247352A1 (en) Chatbot order submission
TWI547817B (zh) 叢集運算架構的資源規劃方法、系統及裝置
EP2182670A1 (en) A method and apparatus for tracking clock source
US10366342B2 (en) Generation of a boosted ensemble of segmented scorecard models
WO2020172825A1 (zh) 一种确定传输策略的方法及装置
JP2004511834A5 (zh)
CN108509615B (zh) 基于抽签机制的共识建立方法、装置及可读存储介质
CN104123360A (zh) 一种应用推荐数据获取方法、装置、电子设备及系统
KR102584292B1 (ko) 조정 가능한 수의 트랜잭션 블록 및 복수의 중간 블록을 포함하는 블록을 가진 블록체인의 생성
CN101542484A (zh) 比较文件的内容标识符的装置
CN112884136A (zh) 耦合神经网络有界聚类投影同步调节控制方法及系统
CN112801301B (zh) 异步计算方法、装置、设备、存储介质及程序产品
CN109885424B (zh) 一种数据备份方法、装置及计算机设备
CN108241665A (zh) 一种数据处理方法和客户端设备
CN103593543B (zh) 一种更新p2p网络用户主观行为分析模型参数的方法及系统
Cook et al. Scalable attack graph generation
WO2015088557A1 (en) Data stream processing based on a boundary parameter
CN109145053A (zh) 数据处理方法和装置、客户端、服务器
CN112148350A (zh) 作品远程版本管理方法、电子设备以及计算机存储介质
EP3499378A1 (en) Method and system of sharing product data in a collaborative environment
CN111368413B (zh) 一种服装生产计划跟踪管理方法及系统
CN109324801A (zh) 算法下载方法、设备以及相关产品
CN108958917A (zh) 云计算的任务调度方法及系统
CN105447065A (zh) 一种产生社交媒体时间轴结构数据的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant