CN108614841B - 时间间隔的调整方法和装置 - Google Patents

时间间隔的调整方法和装置 Download PDF

Info

Publication number
CN108614841B
CN108614841B CN201611148705.3A CN201611148705A CN108614841B CN 108614841 B CN108614841 B CN 108614841B CN 201611148705 A CN201611148705 A CN 201611148705A CN 108614841 B CN108614841 B CN 108614841B
Authority
CN
China
Prior art keywords
crawling
time interval
adjusted
current
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611148705.3A
Other languages
English (en)
Other versions
CN108614841A (zh
Inventor
李鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611148705.3A priority Critical patent/CN108614841B/zh
Publication of CN108614841A publication Critical patent/CN108614841A/zh
Application granted granted Critical
Publication of CN108614841B publication Critical patent/CN108614841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种时间间隔的调整方法和装置。其中,该方法包括:提取目标网站在预设周期内的历史爬取记录;根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔。本发明解决了由于无法依据爬取目标对象的数量灵活调节爬取间隔且修改配置只能人工手动修改,导致爬取时间间隔的修改效率和精度低的技术问题。

Description

时间间隔的调整方法和装置
技术领域
本发明涉及互联网技术应用领域,具体而言,涉及一种时间间隔的调整方法和装置。
背景技术
随着大数据时代的来临,如何高效准确的获取数据成为了互联网行业逐渐关注的问题。
其中,网络爬虫技术的日趋成熟,在大数据方面,爬虫通过爬取网页获取关键数据,这里在爬虫系统中,在实现数据爬取的过程中存在众多需要爬取的目标网站或网页,由于每个目标都会更新,所以会存在重复爬取同一个目标的情况,但是又因为每个目标的内容更新时间与更新内容的多少无法确定,所以无法确定每个目标重复爬取时间的间隔,现状是为每个目标配置对应的爬取间隔,每隔特定的时间就会进行一次爬取。如果想修改爬取时间间隔,只能手动修改配置。
由上可知,如果目标网站数量一直在增涨,在万或者更高数量级时手动修改的效率太低,人工成本过高;其次,人工操作存在一定几率的误操作;只能根据经验来调整,由于每个目标的更新频率不同,对于数量众多的目标,无法确定每个目标调整后的爬取时间间隔。
针对上述由于无法依据爬取目标对象的数量灵活调节爬取间隔且修改配置只能人工手动修改,导致爬取间隔的修改效率和精度低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种时间间隔的调整方法和装置,以至少解决由于无法依据爬取目标对象的数量灵活调节爬取间隔且修改配置只能人工手动修改,导致爬取时间间隔的修改效率和精度低的技术问题。
根据本发明实施例的一个方面,提供了一种时间间隔的调整方法,包括:提取目标网站在预设周期内的历史爬取记录;根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔。
可选的,提取目标网站在预设周期内的历史爬取记录包括:获取目标网站在预设周期中N个单位时间的历史爬取记录,其中,历史爬取记录至少包括:每个单位时间的爬取量以及每个单位时间中的爬取时间间隔,N为整数,N大于1。
进一步地,可选的,根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔包括:解析历史爬取记录中的每个单位时间的爬取量,计算N个单位时间的爬取量的平均值;计算N个单位时间中第N个单位时间的爬取量与平均值的比值,依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔。
可选的,在依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔之前,上述时间间隔的调整方法还包括:判断平均值是否为零,在平均值为零的情况下,将预设最大爬取时间间隔确定为调整后的爬取时间间隔。
进一步地,可选的,依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔包括:在平均值不等于零的情况下,判断比值是否大于预设阈值;在比值大于预设阈值的情况下,依据第一预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔小于当前爬取时间间隔;在比值小于预设阈值的情况下,依据第二预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔大于当前爬取时间间隔。
根据本发明实施例的另一方面,还提供了一种时间间隔的调整装置,包括:提取模块,用于提取目标网站在预设周期内的历史爬取记录;计算模块,用于根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;调整模块,用于依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔。
可选的,提取模块包括:获取单元,用于获取目标网站在预设周期中N个单位时间的历史爬取记录,其中,历史爬取记录至少包括:每个单位时间的爬取量以及每个单位时间中的爬取时间间隔,N为整数,N大于1。
进一步地,可选的,计算模块包括:解析单元,用于解析历史爬取记录中的每个单位时间的爬取量,计算N个单位时间的爬取量的平均值;计算单元,用于计算N个单位时间中第N个单位时间的爬取量与平均值的比值,依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔。
可选的,上述时间间隔的调整装置还包括:判断模块,用于在依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔之前,判断平均值是否为零,在平均值为零的情况下,将预设最大爬取时间间隔确定为调整后的爬取时间间隔。
进一步地,可选的,计算单元包括:判断子单元,用于在平均值不等于零的情况下,判断比值是否大于预设阈值;第一计算子单元,用于在比值大于预设阈值的情况下,依据第一预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔小于当前爬取时间间隔;第二计算子单元,用于在比值小于预设阈值的情况下,依据第二预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔大于当前爬取时间间隔。
在本发明实施例中,通过提取目标网站在预设周期内的历史爬取记录;根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔,达到了提升爬取时间间隔修改效率的目的,从而实现了提升爬取时间间隔的修改效率和精度的技术效果,进而解决了由于无法依据爬取目标对象的数量灵活调节爬取间隔且修改配置只能人工手动修改,导致爬取时间间隔的修改效率和精度低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的时间间隔的调整方法的流程示意图;
图2是根据本发明实施例的一种时间间隔的调整方法的流程示意图;
图3是根据本发明实施例的时间间隔的调整装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
根据本发明实施例,提供了一种时间间隔的调整方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的时间间隔的调整方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,提取目标网站在预设周期内的历史爬取记录;
步骤S104,根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;
步骤S106,依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔。
结合步骤S102至步骤S106,本申请实施例提供的时间间隔的调整方法可以适用于网页爬虫在爬取数据中对爬取时间间隔的调整,在实现过程中先在预设周期内提取每个目标网站的历史爬取记录;依据历史爬取记录和当前爬取时间间隔通过预设是否进行计算,得到能够用于依据历史爬取记录动态调整当前爬取时间间隔,以达到提升爬取数据效率和精度。
例如,假设X网站的每日爬取量为x,该x值低于预设期望的爬取量,如果依旧按照最初爬取时间间隔进行爬取,将会对系统资源造成浪费,即,造成“低待爬取资源高消耗系统资源”的问题,如果能够对该X网站的历史爬取记录进行分析,得到该X网站的每日爬取量x太低,就依据该情况延长爬取时间间隔,由于X网站的每日爬取量太低,则说明该X网站的爬取量在后续时间里爬取量的趋势不会有明显改变,那么延长该X网站的爬取时间间隔节省出来的系统资源就可以用于每日爬取量高,且系统资源不够用的网站进行爬取,从而达到动态调整每个目标网站爬取时间间隔的目的。
本申请实施例提供的时间间隔的调整方法中,通过提取目标网站在预设周期内的历史爬取记录;根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔,达到了提升爬取时间间隔修改效率的目的,从而实现了提升爬取时间间隔的修改效率和精度的技术效果,进而解决了由于无法依据爬取目标对象的数量灵活调节爬取间隔且修改配置只能人工手动修改,导致爬取时间间隔的修改效率和精度低的技术问题。
可选的,步骤S102中提取目标网站在预设周期内的历史爬取记录包括:
Step1,获取目标网站在预设周期中N个单位时间的历史爬取记录,其中,历史爬取记录至少包括:每个单位时间的爬取量以及每个单位时间中的爬取时间间隔,N为整数,N大于1。
具体的,在本申请实施例提供的时间间隔的调整方法中,该预设周期可以设定为一个星期(7天),一个月,一个季度、半年或一年,对应上述不同情况下的预设周期,假设以一个星期为例,在一个星期7天中提取每个目标网站在这7天的历史爬取记录,由此可以得到这7天的历史爬取记录包括:每天每个目标网站的爬取量和每天的爬取时间间隔;
例如,以表1为示例进行说明,竖行为每个目标网站,横行为7天时间,具体如下:
表1
Figure BDA0001179369200000061
其中,表1中的(M1,M2,…,M7)为网站1的一个星期(周一至周日,7天)的爬取量,3为该网站1在一天24小时里每3小时爬取一次;同理,网站2的历史爬取记录为一星期7天每天每4个小时爬取一次,得到7天的爬取量(Q1,Q2,…,Q7);网站N的历史爬取记录为一星期7天每天每6个小时爬取一次,得到7天的爬取量(S1,S2,…,S7)。
以上表1所示的N个网站的7天的历史爬取仅为本申请实施例提供的时间间隔的调整方法的示例,以实现本申请实施例提供的时间间隔的调整方法为准,具体不做限定。
进一步地,可选的,步骤S104中根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔包括:
Step1,解析历史爬取记录中的每个单位时间的爬取量,计算N个单位时间的爬取量的平均值;
Step2,计算N个单位时间中第N个单位时间的爬取量与平均值的比值,依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔。
结合上述步骤S104中Step1和Step2,第一步,计算每个目标网站历史爬取记录中N个单位时间的爬取量的平均值,然后将第N个单位时间的爬取量与该平均值进行比较,得到一个比值,并通过该比值调整当前爬取时间间隔。
具体的,基于上述步骤S102中Step1的举例,网站1、网站2、…、网站N7天的爬取量的平均值可以为:
网站1:A1=(M1+M2+…+M7)/7;
网站2:A2=(Q1+Q2+…+Q7)/7;
网站N:AN=(S1+S2+…+S7)/7;
每个目标网站中第7天的爬取量与平均值的比值为:
网站1:B1=M7/A1;
网站2:B2=Q7/A2;
网站N:BN=S7/AN;
最后,依据B1,B2,……,BN分别调整网站1、网站2、…、网站N的当前的爬取时间间隔G1,G2,……,GN(其中Gi为爬取时间间隔,i取值1,2,…,N),得到调整后的爬取时间间隔G’1,G’2,……,G’N。
可选的,在步骤S104中的Step2中依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔之前,本申请实施例提供的时间间隔的调整方法还包括:
Step2’,判断平均值是否为零,在平均值为零的情况下,将预设最大爬取时间间隔确定为调整后的爬取时间间隔。
具体的,基于上述步骤S104中的Step1和Step2,在依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔之前,假设上述A1,A2,…,AN中的任一一个平均值为0,则将最大爬取时间间隔Gmax作为调整后的爬取时间间隔分配给网站1、网站2、…、或网站N。
进一步地,可选的,步骤S104中的Step2中依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔包括:
步骤A,在平均值不等于零的情况下,判断比值是否大于预设阈值;
步骤B,在比值大于预设阈值的情况下,依据第一预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔小于当前爬取时间间隔;
步骤C,在比值小于预设阈值的情况下,依据第二预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔大于当前爬取时间间隔。
具体的,结合步骤A至步骤C,本申请实施例提供的时间间隔的调整方法依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔具体如下:
方案一:在平均值不为0的情况下,判断比值是否大于预设阈值M(M>1);若该比值大于M,则依据比值与M之间的差值对应的比例,缩减当前爬取时间间隔;若该比值小于M,则依据比值与M之间的差值对应的比例,扩大当前爬取时间间隔;
基于上述步骤S102至步骤S104的示例具体如下:
在网站1、网站2、…、网站N对应的比值为B1,B2,……,BN的情况下,若B1>M,B2>M,……,BN>M,则B1–M=C1,B2–M=C2,……,BN–M=CN,C1,C2,……,CN对应比例为L1,L2,……,LN,依据比例L1,L2,……,LN缩小网站1、网站2、…、网站N的当前爬取时间间隔G1,G2,……,GN,得到调整后的爬取时间间隔G’1=G1-L1,G’2=G2-L2,……,G’N=GN-LN;
同理,若B1<M,B2<M,……,BN<M,则得到调整后的爬取时间间隔G’1=G1+L1,G’2=G2+L2,……,G’N=GN+LN。
方案二:在平均值不为0的情况下,判断比值是否大于预设阈值M(M>1);若该比值大于M,则缩减当前爬取时间间隔为预设值1;若该比值小于M,则扩大当前爬取时间间隔为预设值2;
即,在网站1、网站2、…、网站N对应的比值为B1,B2,……,BN的情况下,若B1>M,B2>M,……,BN>M,则得到调整后的爬取时间间隔G’1=预设值1,G’2=预设值1,……,G’N=预设值1;
同理,若B1<M,B2<M,……,BN<M,则得到调整后的爬取时间间隔G’1=预设值2,G’2=预设值2,……,G’N=预设值2。上述预设值1和预设值2可以为历史调整爬取时间间隔的数值,即,依据不同判断结果预先配置的数值。
这里需要说明的是上述举例均为实现本申请实施例提供的时间间隔的调整方法为准,具体不做限定。
综上,本申请实施例提供的时间间隔的调整方法如下:
Step1,针对每个目标网站,获取每个目标网站的最近N天爬取量和现在的爬取时间间隔;
Step2,通过特定的算法,根据每个目标网站的最近N天爬取量和现有爬取时间间隔来计算调整后的爬取时间间隔;
Step3,更新每个通过Step2计算出的爬取时间和原有爬取时间间隔不同的目标网站的爬取时间间隔。
由上可知,如图2所示,图2是根据本发明实施例的一种时间间隔的调整方法的流程示意图,本申请实施例提供的时间间隔的调整方法具体如下:
首先,在Step1中,获取每个目标网站的最近N天的爬取量和爬取时间间隔;
每个目标网站的每天的爬取量和爬取时间间隔都存储在系统中,通过访问对应的存储结构中的数据获得每个目标前N天的每天的爬取量和爬取时间间隔;
其次,在Step2中,对每个目标近N(N>1)天的数据量进行分析;
计算每个目标前N-1天的爬取量的平均值Ave,然后根据平均值和最近一次的爬取量Last做比较,如果Ave一直为0,则直接调整为最大爬取时间间隔Max,否则根据Last/Ave的结果进行判断,如果结果大于M(M>1),则调小对应的爬取时间间隔;如果结果小于M(M<1),则调大对应的爬取时间间隔。
最后,Step3,根据Step2中计算得到的每个目标的结果,更新每个目标网站的爬取间隔。
本申请实施例提供的时间间隔的调整方法通过分析前N天每个目标网站的爬取量,通过一定的算法来实现动态调整每个目标的爬取时间间隔,由程序自动完成,减少了人力成本,降低了出错的几率,通过特定算法计算每个目标的新的爬取时间间隔。
实施例二
图3是根据本发明实施例的时间间隔的调整装置的结构示意图,如图3所示,该装置包括:提取模块32、计算模块34和调整模块36,其中,
提取模块32,用于提取目标网站在预设周期内的历史爬取记录;计算模块34,用于根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;调整模块36,用于依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔。
本申请实施例提供的时间间隔的调整方法中,通过提取目标网站在预设周期内的历史爬取记录;根据历史爬取记录和目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;依据调整后的爬取时间间隔替换目标网站的当前爬取时间间隔,达到了提升爬取时间间隔修改效率的目的,从而实现了提升爬取时间间隔的修改效率和精度的技术效果,进而解决了由于无法依据爬取目标对象的数量灵活调节爬取间隔且修改配置只能人工手动修改,导致爬取时间间隔的修改效率和精度低的技术问题。
可选的,提取模块32包括:获取单元,用于获取目标网站在预设周期中N个单位时间的历史爬取记录,其中,历史爬取记录至少包括:每个单位时间的爬取量以及每个单位时间中的爬取时间间隔,N为整数,N大于1。
进一步地,可选的,计算模块34包括:解析单元,用于解析历史爬取记录中的每个单位时间的爬取量,计算N个单位时间的爬取量的平均值;计算单元,用于计算N个单位时间中第N个单位时间的爬取量与平均值的比值,依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔。
可选的,本申请实施例提供的时间间隔的调整装置还包括:判断模块,用于在依据比值调整当前爬取时间间隔,得到调整后的爬取时间间隔之前,判断平均值是否为零,在平均值为零的情况下,将预设最大爬取时间间隔确定为调整后的爬取时间间隔。
进一步地,可选的,计算单元包括:判断子单元,用于在平均值不等于零的情况下,判断比值是否大于预设阈值;第一计算子单元,用于在比值大于预设阈值的情况下,依据第一预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔小于当前爬取时间间隔;第二计算子单元,用于在比值小于预设阈值的情况下,依据第二预设条件调整当前爬取时间间隔,得到调整后的爬取时间间隔,其中,调整后的爬取时间间隔大于当前爬取时间间隔。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种时间间隔的调整方法,其特征在于,包括:
提取目标网站在预设周期内的历史爬取记录;
根据所述历史爬取记录和所述目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;
依据所述调整后的爬取时间间隔替换所述目标网站的当前爬取时间间隔;
所述提取目标网站在预设周期内的历史爬取记录包括:获取所述目标网站在所述预设周期中N个单位时间的所述历史爬取记录,其中,所述历史爬取记录至少包括:每个单位时间的爬取量以及所述每个单位时间中的爬取时间间隔,N为整数,N大于1;
所述根据所述历史爬取记录和所述目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔包括:解析所述历史爬取记录中的所述每个单位时间的爬取量,计算所述N个单位时间的爬取量的平均值;计算所述N个单位时间中第N个单位时间的爬取量与所述平均值的比值,依据所述比值调整所述当前爬取时间间隔,得到调整后的爬取时间间隔。
2.根据权利要求1所述的方法,其特征在于,在所述依据所述比值调整所述当前爬取时间间隔,得到调整后的爬取时间间隔之前,所述方法还包括:
判断所述平均值是否为零,在所述平均值为零的情况下,将预设最大爬取时间间隔确定为所述调整后的爬取时间间隔。
3.根据权利要求2所述的方法,其特征在于,所述依据所述比值调整所述当前爬取时间间隔,得到调整后的爬取时间间隔包括:
在所述平均值不等于零的情况下,判断所述比值是否大于预设阈值;
在所述比值大于所述预设阈值的情况下,依据第一预设条件调整所述当前爬取时间间隔,得到所述调整后的爬取时间间隔,其中,所述调整后的爬取时间间隔小于所述当前爬取时间间隔;
在所述比值小于所述预设阈值的情况下,依据第二预设条件调整所述当前爬取时间间隔,得到所述调整后的爬取时间间隔,其中,所述调整后的爬取时间间隔大于所述当前爬取时间间隔。
4.一种时间间隔的调整装置,其特征在于,包括:
提取模块,用于提取目标网站在预设周期内的历史爬取记录;
计算模块,用于根据所述历史爬取记录和所述目标网站的当前爬取时间间隔通过预设算法进行计算,得到调整后的爬取时间间隔;
调整模块,用于依据所述调整后的爬取时间间隔替换所述目标网站的当前爬取时间间隔;
所述提取模块包括:获取单元,用于获取所述目标网站在所述预设周期中N个单位时间的所述历史爬取记录,其中,所述历史爬取记录至少包括:每个单位时间的爬取量以及所述每个单位时间中的爬取时间间隔,N为整数,N大于1;
所述计算模块包括:解析单元,用于解析所述历史爬取记录中的所述每个单位时间的爬取量,计算所述N个单位时间的爬取量的平均值;计算单元,用于计算所述N个单位时间中第N个单位时间的爬取量与所述平均值的比值,依据所述比值调整所述当前爬取时间间隔,得到调整后的爬取时间间隔。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
判断模块,用于在所述依据所述比值调整所述当前爬取时间间隔,得到调整后的爬取时间间隔之前,判断所述平均值是否为零,在所述平均值为零的情况下,将预设最大爬取时间间隔确定为所述调整后的爬取时间间隔。
6.根据权利要求5所述的装置,其特征在于,所述计算单元包括:
判断子单元,用于在所述平均值不等于零的情况下,判断所述比值是否大于预设阈值;
第一计算子单元,用于在所述比值大于所述预设阈值的情况下,依据第一预设条件调整所述当前爬取时间间隔,得到所述调整后的爬取时间间隔,其中,所述调整后的爬取时间间隔小于所述当前爬取时间间隔;
第二计算子单元,用于在所述比值小于所述预设阈值的情况下,依据第二预设条件调整所述当前爬取时间间隔,得到所述调整后的爬取时间间隔,其中,所述调整后的爬取时间间隔大于所述当前爬取时间间隔。
CN201611148705.3A 2016-12-13 2016-12-13 时间间隔的调整方法和装置 Active CN108614841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611148705.3A CN108614841B (zh) 2016-12-13 2016-12-13 时间间隔的调整方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611148705.3A CN108614841B (zh) 2016-12-13 2016-12-13 时间间隔的调整方法和装置

Publications (2)

Publication Number Publication Date
CN108614841A CN108614841A (zh) 2018-10-02
CN108614841B true CN108614841B (zh) 2021-09-07

Family

ID=63657934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611148705.3A Active CN108614841B (zh) 2016-12-13 2016-12-13 时间间隔的调整方法和装置

Country Status (1)

Country Link
CN (1) CN108614841B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413050B (zh) * 2018-10-05 2020-11-24 国网湖南省电力有限公司 一种访问速率自适应的互联网漏洞信息采集方法及系统
CN112100472B (zh) * 2020-09-11 2023-11-28 深圳市科盾科技有限公司 爬虫调度方法、装置、终端设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184253A (zh) * 2011-05-30 2011-09-14 北京搜狗科技发展有限公司 对网络资源进行抓取及更新消息推送的方法及系统
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103945278A (zh) * 2013-01-21 2014-07-23 中国科学院声学研究所 一种视频内容及内容源爬取方法
CN104182552A (zh) * 2014-08-08 2014-12-03 北京大学 一种自适应的传感器数据抓取方法及装置
CN106021391A (zh) * 2016-05-11 2016-10-12 广东工业大学 基于Storm的产品评论信息实时采集方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176985B (zh) * 2011-12-20 2016-06-29 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
US10558630B2 (en) * 2014-08-08 2020-02-11 International Business Machines Corporation Enhancing textual searches with executables

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184253A (zh) * 2011-05-30 2011-09-14 北京搜狗科技发展有限公司 对网络资源进行抓取及更新消息推送的方法及系统
CN103945278A (zh) * 2013-01-21 2014-07-23 中国科学院声学研究所 一种视频内容及内容源爬取方法
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN104182552A (zh) * 2014-08-08 2014-12-03 北京大学 一种自适应的传感器数据抓取方法及装置
CN106021391A (zh) * 2016-05-11 2016-10-12 广东工业大学 基于Storm的产品评论信息实时采集方法

Also Published As

Publication number Publication date
CN108614841A (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN106850750B (zh) 一种实时推送信息的方法和装置
CN104750503A (zh) 桌面图标调整方法与系统
CN110210898B (zh) 基于用户行为的广告推送方法、装置和设备
CN110019072B (zh) 基于实时数据的ab实验方法及系统
US9600559B2 (en) Data processing for database aggregation operation
US10394772B2 (en) Database capacity estimation for database sizing
CN108614841B (zh) 时间间隔的调整方法和装置
WO2012019001A2 (en) Returning estimated value of search keywords of entire account
CN109688422B (zh) 一种视频处理的方法及装置
CN106874293A (zh) 一种数据处理方法及装置
CN106933905B (zh) 网页访问数据的监测方法和装置
CN104462462A (zh) 基于业务变化频度的数据仓库建模方法和建模装置
CN111414395B (zh) 数据处理方法、系统和计算机设备
CN106484702B (zh) 目标网页访问量的展示方法和装置
CN111339064A (zh) 数据倾斜矫正方法、装置及计算机可读存储介质
CN110851758A (zh) 一种网页访客数量统计方法及装置
CN109949090A (zh) 客户推荐方法、装置、电子设备及介质
CN110837907A (zh) 一种预测波次订单量的方法和装置
CN110968679A (zh) 数据查询方法及装置
CN111131393B (zh) 用户活跃度数据统计方法、电子装置及存储介质
CN109063201B (zh) 一种基于混合存储方案的impala在线交互式查询方法
CN107844509B (zh) 网站内容层级的处理方法及装置
CN112783980A (zh) 数据同步处理方法、装置、电子设备以及计算机可读介质
CN108241708B (zh) 媒体名称的处理方法及装置
CN110704523A (zh) 数据导出方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant