CN109670101B - 爬虫调度方法、装置、电子设备及存储介质 - Google Patents

爬虫调度方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109670101B
CN109670101B CN201811631616.3A CN201811631616A CN109670101B CN 109670101 B CN109670101 B CN 109670101B CN 201811631616 A CN201811631616 A CN 201811631616A CN 109670101 B CN109670101 B CN 109670101B
Authority
CN
China
Prior art keywords
crawled
scheduling
data parameters
crawler
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811631616.3A
Other languages
English (en)
Other versions
CN109670101A (zh
Inventor
陈劲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN201811631616.3A priority Critical patent/CN109670101B/zh
Publication of CN109670101A publication Critical patent/CN109670101A/zh
Application granted granted Critical
Publication of CN109670101B publication Critical patent/CN109670101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种爬虫调度方法,应用于计算机技术领域,包括:获取待爬取的网页的数据参数,按照时间序列,计算所述数据参数的统计量,基于该统计量,统计量包括次数、均值、方差、协方差和自回归系数。通过逻辑回归算法和FTRL算法,确定下一次爬取该网页的数据参数的调度时间,根据该调度时间,更新调度任务队列。本发明还公开了一种爬虫调度装置、电子设备及存储介质,可提升爬虫的抓取效率。

Description

爬虫调度方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种爬虫调度方法、装置、电子设备及存储介质。
背景技术
随着互联网信息的爆炸式增长,传统的网络爬虫采集数据的方式已经逐渐显示出劣势。现有爬虫技术,通常使用人工规则,制定爬取站点的权重,从而分配相应的爬虫资源,采用定期轮询的方式进行抓取,爬取效率低。
发明内容
本发明的主要目的在于提供一种爬虫调度方法、装置、电子设备及存储介质,可提高爬虫的爬取效率。
为实现上述目的,本发明实施例第一方面提供一种爬虫调度方法,包括:
获取待爬取的网页的数据参数;
按照时间序列,计算所述数据参数的统计量,所述统计量包括次数、均值、方差、协方差和自回归系数;
基于所述统计量,通过逻辑回归算法和FTRL算法,确定下一次爬取所述网页的数据参数的调度时间;
根据所述调度时间,更新调度任务队列,所述调度任务队列包括待爬取资源和所述待爬取资源对应的调度时间。
所述获取待爬取的网页的数据参数包括:
获取待爬取网站的链接地址信息;
根据所述链接地址信息,从服务器中下载所述待爬取网站的数据参数。
所述数据参数包括链接地址、返回码、数据大小、内容更新时间、资源类别、页面语言和网站地域中任意一项或者多项。
所述获取待爬取的网页的数据参数之后,包括:
将所述数据参数存储在预设数据库中。
本发明实施例第二方面提供一种爬虫调度装置,包括:
获取模块,用于获取待爬取的网页的数据参数;
计算模块,用于按照时间序列,计算所述数据参数的统计量,所述统计量包括次数、均值、方差、协方差和自回归系数;
确定模块,用于基于所述统计量,通过逻辑回归算法和FTRL算法,确定下一次爬取所述网页的数据参数的调度时间;
更新模块,用于根据所述调度时间,更新调度任务队列,所述调度任务队列包括待爬取资源和所述待爬取资源对应的调度时间。
所述获取模块包括:
获取子模块,用于获取待爬取网站的链接地址信息;
下载模块,用于根据所述链接地址信息,从服务器中下载所述待爬取网站的数据参数。
所述数据参数包括链接地址、返回码、数据大小、内容更新时间、资源类别、页面语言和网站地域中任意一项或者多项。
所述装置还包括:
存储模块,用于将所述数据参数存储在预设数据库中。
本发明实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明实施例第一方面提供的爬虫调度方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的爬虫调度方法。
从上述本发明实施例可知,本发明提供的爬虫调度方法、装置、电子设备及存储介质,获取待爬取的网页的数据参数,按照时间序列,计算所述数据参数的统计量,基于该统计量,统计量包括次数、均值、方差、协方差和自回归系数。通过逻辑回归算法和FTRL算法,确定下一次爬取该网页的数据参数的调度时间,根据该调度时间,更新调度任务队列,可提升爬虫的抓取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的爬虫调度方法的流程示意图;
图2为本发明又一实施例提供的爬虫调度装置的结构示意图;
图3示出了一种电子设备的硬件结构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明第一实施例提供的爬虫调度方法的流程示意图,该方法可应用于电子设备中,电子设备包括:手机、平板电脑(Portable Android Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,该方法主要包括以下步骤:
S101、获取待爬取的网页的数据参数;
获取待爬取网站的链接地址信息。待爬取网站的链接地址,例如文件下载链接或者新闻列表页链接等。
根据该链接地址信息,从服务器中下载该待爬取网站的数据参数。可理解的,该服务器内存储有爬虫爬取的所有数据参数信息,即大数据服务器。示例性的,该服务器可以是kafka集群。
该数据参数包括链接地址、返回码、数据大小、内容更新时间、资源类别、页面语言和网站地域中任意一项或者多项。
进一步地,可将获取的数据参数存储在预设数据库中。示例性的,该数据库可以是mongo时序数据库。
S102、按照时间序列,计算该数据参数的统计量;
该统计量包括次数、均值、方差、协方差和自回归系数。
S103、基于该统计量,通过逻辑回归算法和FTRL算法,确定下一次爬取网页的数据参数的调度时间;
以这些数据参数为基本特征数据,使用逻辑回归算法和FTRL算法,来实时预测调整对每一下载资源下一次爬取的调度时间。
其中,逻辑回归算法是是一种广义的线性回归分析模型,也称对数几率回归。
FTRL是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。
S104、根据该调度时间,更新调度任务队列。
调度任务队列包括待爬取资源和待爬取资源对应的调度时间,当该待爬取资源对应的调度时间改变后,在调度任务队列中相应的改变该调度时间。
在本发明实施例中,获取待爬取的网页的数据参数,按照时间序列,计算所述数据参数的统计量,基于该统计量,统计量包括次数、均值、方差、协方差和自回归系数。通过逻辑回归算法和FTRL算法,确定下一次爬取该网页的数据参数的调度时间,根据该调度时间,更新调度任务队列,可提升爬虫的抓取效率。
请参阅图2,图2是本发明又一实施例提供的爬虫调度装置的结构示意图,该装置可内置于电子设备中,该装置主要包括:
获取模块201、计算模块202、确定模块203和更新模块204。
获取模块201,用于获取待爬取的网页的数据参数。
进一步地,获取模块201包括:
获取子模块,用于获取待爬取网站的链接地址信息,待爬取网站的链接地址,例如文件下载链接或者新闻列表页链接等。
下载模块,用于根据链接地址信息,从服务器中下载待爬取网站的数据参数。可理解的,该服务器内存储有爬虫爬取的所有数据参数信息,即大数据服务器。示例性的,该服务器可以是kafka集群。
其中,数据参数包括链接地址、返回码、数据大小、内容更新时间、资源类别、页面语言和网站地域中任意一项或者多项。
计算模块202,用于按照时间序列,计算数据参数的统计量,统计量包括次数、均值、方差、协方差和自回归系数。
确定模块203,用于基于该统计量,通过逻辑回归算法和FTRL算法,确定下一次爬取该网页的数据参数的调度时间。
其中,逻辑回归算法是是一种广义的线性回归分析模型,也称对数几率回归。
FTRL是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。
更新模块204,用于根据该调度时间,更新调度任务队列。
调度任务队列包括待爬取资源和所述待爬取资源对应的调度时间。
进一步地,该装置还包括:
存储模块,用于将数据参数存储在预设数据库中。示例性的,该数据库可以是mongo时序数据库。
在本发明实施例中,获取待爬取的网页的数据参数,按照时间序列,计算所述数据参数的统计量,基于该统计量,统计量包括次数、均值、方差、协方差和自回归系数。通过逻辑回归算法和FTRL算法,确定下一次爬取该网页的数据参数的调度时间,根据该调度时间,更新调度任务队列,可提升爬虫的抓取效率。
请参见图3,图3示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器31、处理器32及存储在存储器31上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的爬虫调度方法。
进一步地,该电子设备还包括:
至少一个输入设备33;至少一个输出设备34。
上述存储器31、处理器32输入设备33和输出设备34通过总线35连接。
其中,输入设备33具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备34具体可为显示屏。
存储器31可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器31用于存储一组可执行程序代码,处理器32与存储器31耦合。
进一步地,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的爬虫调度方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的爬虫调度方法、装置、电子设备及存储介质的描述,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种爬虫调度方法,其特征在于,包括:
获取待爬取的网页的数据参数;所述数据参数包括链接地址、返回码、数据大小、内容更新时间、资源类别、页面语言和网站地域中任意多项;
按照时间序列,计算所述数据参数的统计量,所述统计量包括次数、均值、方差、协方差和自回归系数;
基于所述统计量,通过逻辑回归算法和FTRL算法,确定下一次爬取所述网页的数据参数的调度时间;
根据所述调度时间,更新调度任务队列,所述调度任务队列包括待爬取资源和所述待爬取资源对应的调度时间。
2.根据权利要求1所述的爬虫调度方法,其特征在于,所述获取待爬取的网页的数据参数包括:
获取待爬取网站的链接地址信息;
根据所述链接地址信息,从服务器中下载所述待爬取网站的数据参数。
3.根据权利要求1所述的爬虫调度方法,其特征在于,所述获取待爬取的网页的数据参数之后,包括:
将所述数据参数存储在预设数据库中。
4.一种爬虫调度装置,其特征在于,包括:
获取模块,用于获取待爬取的网页的数据参数,所述数据参数包括链接地址、返回码、数据大小、内容更新时间、资源类别、页面语言和网站地域中任意多项;
计算模块,用于按照时间序列,计算所述数据参数的统计量,所述统计量包括次数、均值、方差、协方差和自回归系数;
确定模块,用于基于所述统计量,通过逻辑回归算法和FTRL算法,确定下一次爬取所述网页的数据参数的调度时间;
更新模块,用于根据所述调度时间,更新调度任务队列,所述调度任务队列包括待爬取资源和所述待爬取资源对应的调度时间。
5.根据权利要求4所述的爬虫调度装置,其特征在于,所述获取模块包括:
获取子模块,用于获取待爬取网站的链接地址信息;
下载模块,用于根据所述链接地址信息,从服务器中下载所述待爬取网站的数据参数。
6.根据权利要求5所述的爬虫调度装置,其特征在于,所述装置还包括:
存储模块,用于将所述数据参数存储在预设数据库中。
7.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至3中的任一项所述的爬虫调度方法中的各个步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至3中的任一项所述的爬虫调度方法中的各个步骤。
CN201811631616.3A 2018-12-28 2018-12-28 爬虫调度方法、装置、电子设备及存储介质 Active CN109670101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811631616.3A CN109670101B (zh) 2018-12-28 2018-12-28 爬虫调度方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811631616.3A CN109670101B (zh) 2018-12-28 2018-12-28 爬虫调度方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109670101A CN109670101A (zh) 2019-04-23
CN109670101B true CN109670101B (zh) 2021-01-26

Family

ID=66146566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811631616.3A Active CN109670101B (zh) 2018-12-28 2018-12-28 爬虫调度方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109670101B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532453B (zh) * 2019-08-12 2022-07-22 北京智游网安科技有限公司 一种调整爬虫更新频率的方法、存储介质及爬虫服务器
CN111444412B (zh) * 2020-04-03 2023-06-16 北京明朝万达科技股份有限公司 网络爬虫任务的调度方法及装置
CN111753162A (zh) * 2020-06-29 2020-10-09 平安国际智慧城市科技股份有限公司 数据爬取方法、装置、服务器及存储介质
CN112100472B (zh) * 2020-09-11 2023-11-28 深圳市科盾科技有限公司 爬虫调度方法、装置、终端设备和可读存储介质
CN112231538B (zh) * 2020-12-15 2021-05-14 中移(苏州)软件技术有限公司 更新调度任务队列的方法及装置、设备、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8196176B2 (en) * 2007-04-18 2012-06-05 Ca, Inc. System and method for identifying a cookie as a privacy threat
CN103176985B (zh) * 2011-12-20 2016-06-29 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103176983B (zh) * 2011-12-20 2016-04-27 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN106611005B (zh) * 2015-10-26 2020-04-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
CN107590188B (zh) * 2017-08-08 2020-02-14 杭州灵皓科技有限公司 一种自动化垂直细分领域的爬虫爬取方法及其管理系统

Also Published As

Publication number Publication date
CN109670101A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109670101B (zh) 爬虫调度方法、装置、电子设备及存储介质
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
CN106250464B (zh) 排序模型的训练方法及装置
JP5916959B2 (ja) 動的データ取得方法およびシステム
CN108021708B (zh) 内容推荐方法、装置与计算机可读存储介质
US10095695B2 (en) Dynamically determining the relatedness of web objects
CN111459993B (zh) 基于行为分析的配置更新方法、装置、设备及存储介质
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
CN103605848A (zh) 路径分析方法和装置
US20120166412A1 (en) Super-clustering for efficient information extraction
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN103544271B (zh) 一种浏览器中加载图片处理窗口的方法和装置
KR101494795B1 (ko) 문서를 매트릭스로 표현하는 방법
CN111489196B (zh) 基于深度学习网络的预测方法、装置、电子设备及介质
CN110990701B (zh) 书籍搜索方法、计算设备及计算机存储介质
CN111191242A (zh) 漏洞信息确定方法、装置、计算机可读存储介质及设备
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN102929978B (zh) 基于输入前缀的下拉提示系统
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
US9002818B2 (en) Calculating a content subset
CN112597760A (zh) 文档中的领域词提取方法和装置
CN112395510A (zh) 基于活跃度确定目标用户的方法和装置
CN112016017A (zh) 确定特征数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: Qianxin Technology Group Co., Ltd.

Address before: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant before: BEIJING QI'ANXIN SCIENCE & TECHNOLOGY CO., LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant