CN112100472A - 爬虫调度方法、装置、终端设备和可读存储介质 - Google Patents

爬虫调度方法、装置、终端设备和可读存储介质 Download PDF

Info

Publication number
CN112100472A
CN112100472A CN202010955778.3A CN202010955778A CN112100472A CN 112100472 A CN112100472 A CN 112100472A CN 202010955778 A CN202010955778 A CN 202010955778A CN 112100472 A CN112100472 A CN 112100472A
Authority
CN
China
Prior art keywords
time
mapping
crawler
scheduling
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010955778.3A
Other languages
English (en)
Other versions
CN112100472B (zh
Inventor
夏凯军
鄢宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Kedun Technology Co ltd
Original Assignee
Shenzhen Kedun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Kedun Technology Co ltd filed Critical Shenzhen Kedun Technology Co ltd
Priority to CN202010955778.3A priority Critical patent/CN112100472B/zh
Publication of CN112100472A publication Critical patent/CN112100472A/zh
Application granted granted Critical
Publication of CN112100472B publication Critical patent/CN112100472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例公开了爬虫调度方法、装置、终端设备和可读存储介质,该方法包括在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间;根据目标网页的更新情况确定爬虫下次调度的映射时间间隔;根据当前映射时间和映射时间间隔确定爬虫下次调度的下次调度映射时间;将下次调度映射时间映射至实际时间轴上以确定对应的下次调度实际时间;根据下次调度实际时间调度爬虫。本实施例的技术方案通过更新距离映射时间轴与实际时间轴之间的映射关系,将爬虫的调度时间与网页更新速度之间的关系进行量化,有效避免爬虫资源过度浪费,保证对网页更新的数据进行及时的爬取。

Description

爬虫调度方法、装置、终端设备和可读存储介质
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种爬虫调度方法、装置、终端设备和可读存储介质。
背景技术
现有爬虫任务调度系统,一般都是针对每个网页设定一个固定调度频率,由调度系统设置的定时任务根据每个网站设定的固定频率来做调度采集。但是,对于更新频率不高的网页,以固定频率调度爬虫采集数据,导致采集重复率比较高,浪费数据采集资源。
发明内容
鉴于上述问题,本发明提出一种爬虫调度方法、装置、终端设备和可读存储介质。
本发明的一个实施例提出一种爬虫调度方法,该方法包括:
在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;
根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;
根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;
将所述下次调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;
根据所述下次调度实际时间调度所述爬虫。
上述的爬虫调度方法,所述更新距离映射时间轴通过以下方法预先设置:
将预设周期内的实际时间轴分为预设r个单位实际时间段;
每一单位实际时间段通过预设的映射公式映射至所述更新距离映射时间轴;
所述映射公式如下:
Figure BDA0002678524520000021
xi表示第i个单位时间段内新增的有效信息数,X表示所述周期T内新增的有效信息总数,Δpi表示第i个单位时间段映射至所述更新距离映射时间轴上对应的更新距离映射时间段。
上述的爬虫调度方法,所述当前映射时间根据以下公式计算:
Figure BDA0002678524520000022
f(pn)表示所述当前映射时间,pk和pk+1分别表示单位实际时间Tk和单位实际时间Tk+1在所述更新距离映射时间轴上的对应更新距离映射时间,T0~t表示当前实际时间,T0~t位于单位实际时间Tk和单位实际时间Tk+1范围内。
上述的爬虫调度方法,所述映射时间间隔根据以下公式计算:
Figure BDA0002678524520000023
Δf(pn)表示所述映射时间间隔,Xmax表示所述爬虫n次爬取中单次最大爬取数目,Tn表示n次爬取总时间,Xm表示n次爬取中第m次爬取到的有效爬取数目,a表示预设的误差参数。
上述的爬虫调度方法,所述下次调度映射时间对应的下次调度实际时间根据以下公式计算:
Figure BDA0002678524520000031
f(p)=f(pn)+Δf(pn),f(t)表示所述下次调度实际时间,f(p)表示所述下次调度映射时间,f(p)位于更新距离映射时间pl和更新距离映射时间pl+1范围内,Tl和Tl+1分别表示更新距离映射时间pl和更新距离映射时间pl+1在所述实际时间轴上的对应单位实际时间。
上述的爬虫调度方法,还包括:
在调度爬虫爬取所述目标网页的数据时,将所述数据添加至爬虫队列中,以使爬虫从爬虫队列中爬取数据,所述爬虫的数目和所述爬虫队列的数目为多个。
本发明的另一个实施例提出一种爬虫调度装置,该装置包括:
当前映射时间确定模块,用于在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;
映射时间间隔确定模块,用于根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;
下次调度映射时间确定模块,用于根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;
下次调度实际时间确定模块,用于将所述调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;
爬虫调度模块,用于根据所述下次调度实际时间调度所述爬虫。
进一步的,上述的爬虫调度装置,所述更新距离映射时间轴通过以下方法预先设置:
将预设周期内的实际时间轴分为预设r个单位时间段;每一单位时间段通过预设的映射公式映射至所述更新距离映射时间轴;所述映射公式如下:
Figure BDA0002678524520000041
xi表示第i个单位时间段内新增的有效信息数,X表示所述周期T内新增的有效信息总数,Δpi表示第i个单位时间段映射至所述更新距离映射时间轴上对应的更新距离映射时间段。
本发明实施例涉及一种终端设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器上运行时执行本发明实施例所述的爬虫调度方法。
本发明实施例涉及一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行本发明实施例所述的爬虫调度方法。
本发明在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;将所述下次调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;根据所述下次调度实际时间调度所述爬虫。本发明的技术方案通过预先根据目标网页的更新情况将实际时间轴构造更新距离映射时间轴,将爬虫的调度时间与网页更新情况进行关联,通过更新距离映射时间轴与实际时间轴之间的映射关系,将爬虫的调度时间与网页更新速度之间的关系进行量化,根据网页更新速度合理调度爬虫。将网页更新频率与爬虫的调度时间进行量化关联,不仅有效避免爬虫资源过度浪费,还可以保证对网页更新的数据进行及时的爬取。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例提供的一种爬虫调度方法的流程示意图;
图2示出了本发明实施例提供的一种更新距离映射时间轴与实际坐标轴对照关系图;
图3示出了本发明实施例提供的另一种爬虫调度方法的流程示意图;
图4示出了本发明实施例提供的一种爬虫调度装置的结构示意图。
主要元件符号说明:
1-爬虫调度装置;100-当前映射时间确定模块;200-映射时间间隔确定模块;300-下次调度映射时间确定模块;400-下次调度实际时间确定模块;500-爬虫调度模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
本发明通过预先根据目标网页的更新情况将实际时间轴构造更新距离映射时间轴,将爬虫的调度时间与网页更新情况进行关联,通过更新距离映射时间轴与实际时间轴之间的映射关系,将爬虫的调度时间与网页更新速度之间的关系进行量化,根据网页更新速度合理调度爬虫。根据目标网页的更新情况将实际时间轴映射成更新距离映射时间轴,在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间;根据所述目标网页的更新情况确定爬虫下次调度的映射时间间隔;根据当前映射时间和映射时间间隔确定所述爬虫下次调度的下次调度映射时间;将调度映射时间映射至实际时间轴上以确定对应的下次调度实际时间;根据下次调度实际时间调度所述爬虫。
实施例1
本实施例,参见图1,示出了一种爬虫调度方法,该方法包括:
S100:在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定。
目标网页的更新情况与目标网页的更新频率有关,更新频率通过爬虫在一段时间T内分n次采集目标网页,X为爬虫n次采集目标网页累计新增信息数,故目标网页的更新频率f=X/T,目标网页更新周期t=T/X。进一步的,考虑到目标网页在一天24小时内更新频率是不断变化的,可以取爬虫在一天24小时中n次爬取目标网页累计新增信息总数X(或某一个时间段内采集到的累计新增数),然后将一天24小时按照每60分钟为24个单位时间段,统计ΔT1、ΔT2、ΔT3...ΔT24各个单位时间段内的目标网页新增数xi,故各个单位时间段ΔT1、ΔT2、ΔT3...ΔT24可以通过目标网页的更新情况对应映射得到更新距离映射时间段Δp1、Δp2、Δp3...Δp24,进一步的,可以通过更新距离映射时间段确定映射时间点p1、p2、p3...p24,以根据映射时间点p1、p2、p3...p24构造更新距离映射时间轴。
进一步的,在调度爬虫爬取目标网页的数据时,可以将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间。示范性的,若当前实际时间是T1,对应的当前映射时间是p1;若当前实际时间位于T2~T3范围内,对应的当前映射时间是位于p2~p3范围内。
S200:根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔。
可以理解,爬虫下次调度的映射时间间隔根据所述目标网页的更新情况确定,映射时间间隔与更新距离映射时间轴为同一维度,映射时间间隔可以根据目标网页的更新频率获得。
S300:根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间。
爬虫下次调度的下次调度映射时间等于当前映射时间加上映射时间间隔,可以理解,根据目标网页的更新情况确定的映射时间间隔、当前映射时间以及下次调度映射时间均位于更新距离映射时间轴。
S400:将所述下次调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间。
将下次调度映射时间映射至实际时间轴上,在实际时间轴上确定对应的下次调度实际时间。
S500:根据所述下次调度实际时间调度所述爬虫。
根据实际时间轴上对应的下次调度实际时间调度爬虫,当到达下次调度实际时间时,调度爬虫爬取目标网页的数据。
本实施例在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;将所述下次调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;根据所述下次调度实际时间调度所述爬虫。本实施例的技术方案通过预先根据目标网页的更新情况将实际时间轴构造更新距离映射时间轴,将爬虫的调度时间与网页更新情况进行关联,通过更新距离映射时间轴与实际时间轴之间的映射关系,将爬虫的调度时间与网页更新速度之间的关系进行量化,根据网页更新速度合理调度爬虫。将网页更新频率与爬虫的调度时间进行量化关联,不仅有效避免爬虫资源过度浪费,还可以保证对网页更新的数据进行及时的爬取。
实施例2
进一步的,更新距离映射时间轴可以通过以下方法预先设置:
将预设周期内的实际时间轴分为预设r个单位时间段;每一单位时间段通过预设的映射公式映射至所述更新距离映射时间轴;所述映射公式如下:
Figure BDA0002678524520000091
xi表示第i个单位时间段ΔTi内新增的有效信息数,X表示所述周期T内新增的有效信息总数,Δpi表示第i个单位时间段ΔTi映射至所述更新距离映射时间轴上对应的更新距离映射时间段,i≤r。
示范性的,将一天24小时的实际时间轴分为24个单位时间段,周期T=1440分钟,目标网页1440分钟内爬取到累计新增的有效信息总数X为168条,统计各个单位时间段ΔT1=0分钟~60分钟、ΔT2=60分钟~120分钟、ΔT3=120分钟~180分钟...ΔT24=1380分钟~1440分钟对应的新增的有效信息数x1=4、x2=10、x3=7...x24=7,故目标网页各个单位时间段ΔT1、ΔT2、ΔT3...ΔT24映射至所述更新距离映射时间轴上对应的更新距离映射时间段Δp1、Δp2、Δp3...Δp24依次如下所示:
Δp1=4/168×1440≈34分钟、Δp2=10/168×1440≈85分钟、Δp3=7/168×1440=60分钟...Δp24=7/168×1440=60分钟。可以理解,ΔT1、ΔT2、ΔT3...ΔT24映射至更新距离映射时间轴上后,间隔范围发生变化,更新频率快的单位时间段对应的更新距离映射时间段的范围较大,更新频率慢的单位时间段对应的更新距离映射时间段的范围较小,相应的,更新距离映射时间轴可以延长更新频率快的单位时间段,缩小更新频率慢的单位时间段,以保证爬虫在更新频率快的单位时间段可以多次被调度,爬取到更多的有效数据,爬虫在更新频率慢的单位时间段减少调度次数,避免爬虫资源浪费。
进一步的,如图2所示,P轴代表更新距离映射时间轴,T轴代表实际时间轴,在更新距离映射时间轴上,p0=0、p1=p0+Δp1=34分钟、p2=p1+Δp2=119分钟、p3=p2+Δp3=179分钟...p24=p23+Δp24=1440分钟。
进一步的,当前映射时间可以根据以下公式计算:
Figure BDA0002678524520000101
f(pn)表示所述当前映射时间,pk和pk+1分别表示单位实际时间Tk和单位实际时间Tk+1在所述更新距离映射时间轴上的对应更新距离映射时间,T0~t表示当前实际时间,T0~t位于单位实际时间Tk和单位实际时间Tk+1范围内。可以理解,若当前实际时间T0~t=Tk,则当前实际时间T0~t对应的当前映射时间为pk;若当前实际时间T0~t=Tk+1,则当前实际时间T0~t对应的当前映射时间为pk+1
示范性的,如图2所示,T0~t表示当前实际时间,若T0~t=75分钟,T0~t=75分钟位于单位实际时间Tk=60分钟和单位实际时间Tk+1=120分钟的范围内,Tk=60分钟和Tk+1=120分钟分别对应的更新距离映射时间pk=34分钟和pk+1=119分钟,则当前实际时间T0~t=75分钟对应的当前映射时间f(pn)=34+(75-60)×(119-34)/(120-60)≈55分钟。可以理解,实际时间轴上的当前实际时间T0~t=75对应的更新距离映射时间轴上的当前映射时间f(pn)≈55分钟。
进一步的,映射时间间隔可以根据以下公式计算:
Figure BDA0002678524520000102
Δf(pn)表示所述映射时间间隔,Xmax表示所述爬虫n次爬取中单次最大爬取数目,Tn表示n次爬取总时间,Xm表示n次爬取中第m次爬取到的有效爬取数目,a表示预设的误差参数。
示范性的,若爬虫n次爬取中单次最大爬取数目Xmax=10,n次爬取总时间Tn=1440分钟,n次爬取到的有效爬取总数目
Figure BDA0002678524520000111
误差参数=30%,误差参数30%表示爬虫在n次爬取到的有效爬取总数目存在30%的遗漏,则Δf(pn)=10×1440/(1+30%)×168≈65分钟,1440/(1+30%)×168表示目标网页每更新一条数据的更新时间,更新一条数据的更新时间乘以单次最大爬取数目表示爬虫下次调度时可以获取最多更新数据的映射时间间隔,可以保证爬虫的每次调度都可以获取到最多更新数据,避免爬虫资源浪费。可以理解,爬虫在第n次爬取目标网页获得数据后,可以在更新距离映射时间轴上确定下次调度爬虫的映射时间间隔Δf(pn)≈65分钟。
进一步的,在更新距离映射时间轴上,下次调度映射时间f(p)=当前映射时间+映射时间间隔=f(pn)+Δf(pn)=55+65=120分钟。
进一步的,下次调度映射时间对应的下次调度实际时间根据以下公式计算:
Figure BDA0002678524520000112
f(p)=f(pn)+Δf(pn),f(t)表示所述下次调度实际时间,f(p)表示所述下次调度映射时间,f(p)位于更新距离映射时间pl和更新距离映射时间pl+1范围内,Tl和Tl+1分别表示更新距离映射时间pl和更新距离映射时间pl+1在所述实际时间轴上的对应单位实际时间。可以理解,若下次调度映射时间f(p)=pl,则下次调度映射时间f(p)对应的下次调度实际时间为Tl,若下次调度映射时间f(p)=pl+1,则下次调度映射时间f(p)对应的当前映射时间为Tl+1
示范性的,如图2所示,下次调度映射时间f(p)=120分钟,位于更新距离映射时间pl=119分钟和更新距离映射时间pl+1=179分钟的范围内,更新距离映射时间pl=119分钟和更新距离映射时间pl+1=179分钟在实际时间轴上的对应单位实际时间分别为Tl=120分钟和Tl+1=180分钟,则f(t)=120+(120-119)×(180-120)/(179-119)=121分钟。当实际时间到达121分钟时,调度爬虫爬取目标网页的数据。可以理解,若实际时间轴的原点T0=00:00,则f(t)=121分钟对应am02:01,当实际时间到达am02:01时,调度爬虫。
进一步的,可以定期对更新距离映射时间轴进行更新,以保证在目标网页的更新频率发生变化时,爬虫的调度时间可以及时适应新的更新频率,保证爬虫的有效调用。
实施例3
本实施例,提供一种分布式爬虫任务调度系统,包括调度器、任务队列、爬虫和网源库,调度器,用于根据目标网页的更新情况调度爬虫爬取数据;任务队列,用于存放待爬取网页的URL;爬虫,用于数据提取、URL提取;网源库,用于存储各个目标网页的调度时间。
爬虫任务调度分为两个阶段,第一阶段是爬虫数据采集阶段,进行网站历史更新情况的积累,例如,可以在一个星期或更长时间段内,以一个小时为时间间隔循环访问目标网站,统计出各个时间间隔、各个时间间隔对应的有效采集数目以及该时间段内有效采集信息总数X,根据统计出的各个时间间隔、各个时间间隔对应的有效采集数目xi以及该时间段内有效采集信息总数X预先构造更新距离映射时间轴。
第二个阶段,爬虫调度的正式运行阶段,这个阶段爬虫会根据各个网页的更新频率调整自身的爬行频率,参见图3,示出了另一种爬虫调度方法包括以下步骤:
S10:根据网源库中各个目标网页的调度时间,将到期的网页URL加入待爬取的任务队列中。
S20:爬虫从待爬取的任务队列中取出网页URL,通过解析任务解析数据,并对网页URL进行去重处理。
S30:根据爬虫第n次采集到的数据,调整单次最大爬取数目Xmax、爬取总时间Tn以及n次爬取到的有效爬取总数目
Figure BDA0002678524520000131
以计算映射时间间隔。
S40:根据映射时间间隔和当前映射时间计算下次调度映射时间,并将下次调度映射时间映射至实际时间轴以确定爬虫下次调度的实际时间。
S50:将网页下次调度的实际时间更新至网源库中,等待下次调度。
实施例4
本实施例,参见图4,示出了一种爬虫调度装置1包括:当前映射时间确定模块100、映射时间间隔确定模块200、下次调度映射时间确定模块300、下次调度实际时间确定模块400和爬虫调度模块500。
当前映射时间确定模块100,用于在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;映射时间间隔确定模块200,用于根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;下次调度映射时间确定模块300,用于根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;下次调度实际时间确定模块400,用于将所述调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;爬虫调度模块500,用于根据所述下次调度实际时间调度所述爬虫。
更新距离映射时间轴通过以下方法预先设置:
将预设周期内的实际时间轴分为预设r个单位时间段;每一单位时间段通过预设的映射公式映射至所述更新距离映射时间轴;
所述映射公式如下:
Figure BDA0002678524520000141
xi表示第i个单位时间段ΔTi内新增的有效信息数,X表示所述周期T内新增的有效信息总数,Δpi表示第i个单位时间段ΔTi映射至所述更新距离映射时间轴上对应的更新距离映射时间段,i≤r。
本实施例爬虫调度装置1通过当前映射时间确定模块100、映射时间间隔确定模块200、下次调度映射时间确定模块300、下次调度实际时间确定模块400和爬虫调度模块500的配合使用,用于执行上述实施例所述的爬虫调度方法,上述实施例所涉及的实施方案以及有益效果在本实施例中同样适用,在此不再赘述。
可以理解,本发明实施例涉及一种终端设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器上运行时执行本发明实施例所述的爬虫调度方法。
可以理解,本发明实施例涉及一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行本发明实施例所述的爬虫调度方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种爬虫调度方法,其特征在于,该方法包括:
在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;
根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;
根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;
将所述下次调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;
根据所述下次调度实际时间调度所述爬虫。
2.根据权利要求1所述的爬虫调度方法,其特征在于,所述更新距离映射时间轴通过以下方法预先设置:
将预设周期内的实际时间轴分为预设r个单位时间段;
每一单位时间段通过预设的映射公式映射至所述更新距离映射时间轴;
所述映射公式如下:
Figure FDA0002678524510000011
xi表示第i个单位时间段内新增的有效信息数,X表示所述周期T内新增的有效信息总数,Δpi表示第i个单位时间段映射至所述更新距离映射时间轴上对应的更新距离映射时间段。
3.根据权利要求2所述的爬虫调度方法,其特征在于,所述当前映射时间根据以下公式计算:
Figure FDA0002678524510000021
f(pn)表示所述当前映射时间,pk和pk+1分别表示单位实际时间Tk和单位实际时间Tk+1在所述更新距离映射时间轴上的对应更新距离映射时间,T0~t表示当前实际时间,T0~t位于单位实际时间Tk和单位实际时间Tk+1范围内。
4.根据权利要求3所述的爬虫调度方法,其特征在于,所述映射时间间隔根据以下公式计算:
Figure FDA0002678524510000022
Δf(pn)表示所述映射时间间隔,Xmax表示所述爬虫n次爬取中单次最大爬取数目,Tn表示n次爬取总时间,Xm表示n次爬取中第m次爬取到的有效爬取数目,a表示预设的误差参数。
5.根据权利要求4所述的爬虫调度方法,其特征在于,所述下次调度映射时间对应的下次调度实际时间根据以下公式计算:
Figure FDA0002678524510000023
f(p)=f(pn)+Δf(pn),f(t)表示所述下次调度实际时间,f(p)表示所述下次调度映射时间,f(p)位于更新距离映射时间pl和更新距离映射时间pl+1范围内,Tl和Tl+1分别表示更新距离映射时间pl和更新距离映射时间pl+1在所述实际时间轴上的对应单位实际时间。
6.根据权利要求1所述的爬虫调度方法,其特征在于,还包括:
在调度爬虫爬取所述目标网页的数据时,将所述数据添加至爬虫队列中,以使爬虫从爬虫队列中爬取数据,所述爬虫的数目和所述爬虫队列的数目为多个。
7.一种爬虫调度装置,其特征在于,该装置包括:
当前映射时间确定模块,用于在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;
映射时间间隔确定模块,用于根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;
下次调度映射时间确定模块,用于根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;
下次调度实际时间确定模块,用于将所述调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;
爬虫调度模块,用于根据所述下次调度实际时间调度所述爬虫。
8.根据权利要求7所述的爬虫调度装置,其特征在于,所述更新距离映射时间轴通过以下方法预先设置:
将预设周期内的实际时间轴分为预设r个单位时间段;
每一单位时间段通过预设的映射公式映射至所述更新距离映射时间轴;
所述映射公式如下:
Figure FDA0002678524510000031
xi表示第i个单位时间段内新增的有效信息数,X表示所述周期T内新增的有效信息总数,Δpi表示第i个单位时间段映射至所述更新距离映射时间轴上对应的更新距离映射时间段。
9.一种终端设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至6任一项所述的爬虫调度方法。
10.一种可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至6任一项所述的爬虫调度方法。
CN202010955778.3A 2020-09-11 2020-09-11 爬虫调度方法、装置、终端设备和可读存储介质 Active CN112100472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010955778.3A CN112100472B (zh) 2020-09-11 2020-09-11 爬虫调度方法、装置、终端设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010955778.3A CN112100472B (zh) 2020-09-11 2020-09-11 爬虫调度方法、装置、终端设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112100472A true CN112100472A (zh) 2020-12-18
CN112100472B CN112100472B (zh) 2023-11-28

Family

ID=73752448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010955778.3A Active CN112100472B (zh) 2020-09-11 2020-09-11 爬虫调度方法、装置、终端设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112100472B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821705A (zh) * 2021-08-30 2021-12-21 湖南大学 网页内容的获取方法、终端设备及可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187925A (zh) * 2006-11-17 2008-05-28 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103970787A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种增量更新与爬取技术
CN105912552A (zh) * 2015-12-23 2016-08-31 乐视网信息技术(北京)股份有限公司 网页视频抓取的方法及网页视频抓取的终端设备
CN106611005A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
CN108614841A (zh) * 2016-12-13 2018-10-02 北京国双科技有限公司 时间间隔的调整方法和装置
CN109670101A (zh) * 2018-12-28 2019-04-23 北京奇安信科技有限公司 爬虫调度方法、装置、电子设备及存储介质
CN109948026A (zh) * 2019-03-28 2019-06-28 深信服科技股份有限公司 一种网页数据爬取方法、装置、设备及介质
CN109977285A (zh) * 2019-03-21 2019-07-05 中南大学 一种面向Deep Web的自适应增量数据采集方法
CN110008393A (zh) * 2018-12-29 2019-07-12 义语智能科技(上海)有限公司 一种用于获取网站信息的方法及设备
CN110086592A (zh) * 2019-05-17 2019-08-02 智慧足迹数据科技有限公司 基于虚拟时间轴的数据处理方法、装置及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187925A (zh) * 2006-11-17 2008-05-28 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN103970787A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种增量更新与爬取技术
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN106611005A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
CN105912552A (zh) * 2015-12-23 2016-08-31 乐视网信息技术(北京)股份有限公司 网页视频抓取的方法及网页视频抓取的终端设备
WO2017107449A1 (zh) * 2015-12-23 2017-06-29 乐视控股(北京)有限公司 网页视频抓取的方法及网页视频抓取的装置
CN108614841A (zh) * 2016-12-13 2018-10-02 北京国双科技有限公司 时间间隔的调整方法和装置
CN109670101A (zh) * 2018-12-28 2019-04-23 北京奇安信科技有限公司 爬虫调度方法、装置、电子设备及存储介质
CN110008393A (zh) * 2018-12-29 2019-07-12 义语智能科技(上海)有限公司 一种用于获取网站信息的方法及设备
CN109977285A (zh) * 2019-03-21 2019-07-05 中南大学 一种面向Deep Web的自适应增量数据采集方法
CN109948026A (zh) * 2019-03-28 2019-06-28 深信服科技股份有限公司 一种网页数据爬取方法、装置、设备及介质
CN110086592A (zh) * 2019-05-17 2019-08-02 智慧足迹数据科技有限公司 基于虚拟时间轴的数据处理方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUI GUO 等: "Parallelizing the extraction of fresh information from online social networks", 《FUTURE GENERATION COMPUTER SYSTEMS》, vol. 59, pages 33 - 46 *
刘志明 等: "舆情监测系统中信息采集模块的设计与实现", 《南华大学学报(自然科学版)》, vol. 29, no. 02, pages 102 - 107 *
刘泽华 等: "基于Scrapy技术的分布式爬虫的设计与优化", 《信息技术与信息化》, no. 1, pages 121 - 126 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821705A (zh) * 2021-08-30 2021-12-21 湖南大学 网页内容的获取方法、终端设备及可读存储介质
CN113821705B (zh) * 2021-08-30 2024-02-20 湖南大学 网页内容的获取方法、终端设备及可读存储介质

Also Published As

Publication number Publication date
CN112100472B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
US11683396B2 (en) Efficient context monitoring
JP6911670B2 (ja) 情報提供プログラム、情報提供装置および情報提供方法
US20100023408A1 (en) Automated campaign reconciliation
EP3281125B1 (en) Event processing system paging
EP3093760A1 (en) Device and method
US9292336B1 (en) Systems and methods providing optimization data
CN108243032B (zh) 一种服务等级信息的获取方法、装置及设备
EP3117395B1 (en) Analytics-based update of digital content
CN105337783B (zh) 监测通信设备非正常消耗流量的方法及装置
CN110766232B (zh) 动态预测方法及其系统
CN112100472A (zh) 爬虫调度方法、装置、终端设备和可读存储介质
CN111158999A (zh) 一种格式化时间的计算方法和装置
CN108595685B (zh) 一种数据处理方法及装置
CN112131005B (zh) 一种资源调整策略确定方法和装置
JP2011192224A (ja) 数値計算装置、方法及びプログラム
CN111459987A (zh) 一种更新缓存的方法及装置
CN114579157A (zh) 一种应用更新方法、装置、计算机设备及存储介质
CN112448855B (zh) 区块链系统参数更新方法和系统
CN114818247A (zh) 一种基于氢原子钟漂移预测的原子时计算方法和装置
CN109285035B (zh) 预测应用留存数据的方法、装置、设备及存储介质
CN112509164A (zh) 一种出勤打卡方法、装置、设备和存储介质
US11663210B2 (en) Data pattern analysis optimizer, and method of data pattern analysis optimization processing
CN117033160B (zh) 一种数据采集设备故障时间的预测方法
CN111913805B (zh) 一种cpu利用率计算方法及装置
CN117785418A (zh) 一种实例调度方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant