CN114547411A - 爬虫爬取时间调整方法、装置、计算机设备以及存储介质 - Google Patents

爬虫爬取时间调整方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN114547411A
CN114547411A CN202011353410.6A CN202011353410A CN114547411A CN 114547411 A CN114547411 A CN 114547411A CN 202011353410 A CN202011353410 A CN 202011353410A CN 114547411 A CN114547411 A CN 114547411A
Authority
CN
China
Prior art keywords
time
target
page
period
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011353410.6A
Other languages
English (en)
Inventor
曾庆维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN202011353410.6A priority Critical patent/CN114547411A/zh
Publication of CN114547411A publication Critical patent/CN114547411A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种爬虫爬取时间调整方法、装置、计算机设备以及存储介质,所述方法包括:获取目标网站在预设周期时段内的页面更新时间,所述预设周期时段包括至少两个周期间隔的目标时段,所述目标时段包括第一时段和第二时段;基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量;基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间。采用本方法,可使爬虫在最短的间隔时间内及时获取到目标网站的已更新信息,从而提高了爬虫的信息爬取时效性,更降低了爬虫带宽资源的浪费。

Description

爬虫爬取时间调整方法、装置、计算机设备以及存储介质
技术领域
本申请涉及互联网技术领域,具体涉及一种爬虫爬取时间调整方法、装置、计算机设备以及存储介质。
背景技术
网络爬虫(又称为网页追逐者),是一种按照一定规则,自动抓取网页信息的程序或脚本。在网络爬虫的工作时间中设置间隔时间,是一种既能够避免爬虫资源浪费,又能促使爬虫及时爬取到网页信息的有效途径。
传统的爬虫时间设置方法,通常会参考实际业务需求而设置固定时间段,例如,设置每天上午10点爬一次或每个小时爬一次,又或是考虑待爬取网页的实际页面更新量与预设页面更新量之间的差距,来将其原有爬虫间隔时间调至更大或更小。然而,无论是第一种方式还是第二种方式,均有可能存在待爬取网页的网页信息已更新,但爬虫未及时爬取到,而导致信息更新延误的情况。
因此,现有的爬虫时间设置方法存在因爬虫间隔时间设置不合理而导致信息爬取时效性不高的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种爬虫爬取时间调整方法、装置、计算机设备以及存储介质,用以合理调整爬虫的爬取时间,进而提高网络爬虫的信息爬取时效性。
第一方面,本申请提供一种爬虫爬取时间调整方法,所述方法包括:
获取目标网站在预设周期时段内的页面更新时间,所述预设周期时段包括至少两个周期间隔的目标时段,所述目标时段包括第一时段和第二时段;
基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量;
基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间。
在本申请一些实施例中,所述获取目标网站在预设周期时段内的页面更新时间的步骤,包括:
获取所述目标网站在第一目标时段内的页面更新时间,所述第一目标时段为第一预设时间中的目标时段;
获取所述目标网站在第二目标时段内的页面更新时间,所述第二目标时段为第二预设时间中的目标时段,所述第一预设时间和所述第二预设时间为两个周期间隔的预设时间;
确定所述第一目标时段内的页面更新时间,以及所述第二目标时段内的页面更新时间,作为所述预设周期时段内的页面更新时间。
在本申请一些实施例中,所述预设周期时段包括周期间隔的第一目标时段和第二目标时段,所述基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量的步骤,包括:
基于所述第一目标时段和所述第二目标时段各自对应的页面更新时间,确定所述第一目标时段对应的第一时间集合,以及所述第二目标时段对应的第二时间集合;
统计所述第一时间集合和所述第二时间集合中的时间数量,得到所述第一目标时段对应的第一页面更新量,和所述第二目标时段对应的第二页面更数量;
基于各所述目标时段包括的第一时段和第二时段,对所述第一页面更新量和所述第二页面更新量进行拆分处理,得到所述目标网站在各所述第一时段内的页面更新数量,以及在各所述第二时段内的页面更新数量。
在本申请一些实施例中,所述基于各所述目标时段包括的第一时段和第二时段,对所述第一页面更新量和所述第二页面更新量进行拆分处理,得到所述目标网站在各所述第一时段内的页面更新数量,以及在各所述第二时段内的页面更新数量的步骤,包括:
基于所述第一目标时段包括的第一时段和第二时段,对所述第一页面更新量进行拆分处理,得到所述第一目标时段中第一时段对应的第三页面更新量,以及所述第一目标时段中第二时段对应的第四页面更新量;
基于所述第二目标时段包括的第一时段和第二时段,对所述第二页面更新量进行拆分处理,得到所述第二目标时段中第一时段对应的第五页面更新量,以及所述第二目标时段中第二时段对应的第六页面更新量;
确定所述第三页面更新量和所述第五页面更新量,作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第四页面更新量和所述第六页面更新量,作为所述目标网站在各所述第二时段内的页面更新数量。
在本申请一些实施例中,所述预设周期时段还包括与所述第一目标时段和所述第二目标时段周期间隔的第三目标时段,所述方法还包括:
基于所述第三目标时段对应的页面更新时间,确定所述第三目标时段对应的第三时间集合;
统计所述第三时间集合中的时间数量,得到所述第三目标时段对应的第三页面更新量;
基于所述第三目标时段包括的第一时段和第二时段,对所述第三页面更新量进行拆分处理,得到所述第三目标时段中第一时段对应的第七页面更新量,以及所述第三目标时段中第二时段对应的第八页面更新量;
确定所述第七页面更新量作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第八页面更新量作为所述目标网站在各所述第二时段内的页面更新数量。
在本申请一些实施例中,所述基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间的步骤,包括:
基于各所述第一时段内的页面更新数量,获取第一平均更新数量,并基于各所述第二时段内的页面更新数量,获取第二平均更新数量;
获取所述第一平均更新数量与所述第二平均更新数量之间的比值,作为时间调整比值;
若所述时间调整比值大于或等于预设的时间调整阈值,则对所述目标网站的爬虫爬取时间进行调整,确定所述爬虫爬取时间的二分之一时间,作为所述调整后的爬虫爬取时间。
在本申请一些实施例中,所述基于各所述第一时段内的页面更新数量,获取第一平均更新数量,并基于各所述第二时段内的页面更新数量,获取第二平均更新数量的步骤,包括:
确定各所述预设周期时段对应预设的衰减系数;
基于所述衰减系数,对各所述第一时段内的页面更新数量进行加权求和处理,得到所述第一时段对应的第一页面更新总量;
基于所述衰减系数,对各所述第二时段内的页面更新数量进行加权求和处理,得到所述第二时段对应的第二页面更新总量;
获取所述第一页面更新总量和所述第二页面更新总量的平均数量,对应得到所述第一平均更新数量和所述第二平均更新数量。
第二方面,本申请提供一种爬虫爬取时间调整装置,所述装置包括:
时间获取模块,用于获取目标网站在预设周期时段内的页面更新时间,所述预设周期时段包括至少两个周期间隔的目标时段,所述目标时段包括第一时段和第二时段;
时间分析模块,用于基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量;
时间调整模块,用于基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间。
第三方面,本申请还提供一种服务器,所述服务器包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的爬虫爬取时间调整方法。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的爬虫爬取时间调整方法中的步骤。
上述爬虫爬取时间调整方法、装置、计算机设备以及存储介质,通过获取目标网站在预设周期时段内的页面更新时间,来统计目标网站在不同时段内的页面更新数量,即可得到目标网站在各第一时段内的页面更新数量,以及在各第二时段内的页面更新数量,进而以此分析目标网站在一个目标时段内,前半个时段与后半个时段之间页面更新数量的占比情况,最终利用该占比情况来调整爬虫的爬取时间,使得爬虫可在最短的间隔时间内及时获取到目标网站的已更新信息,从而提高爬虫的信息爬取时效性,更降低了爬虫带宽资源的浪费。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中爬虫爬取时间调整方法的流程示意图;
图2是本申请实施例中页面更新时间获取步骤的流程示意图;
图3是本申请实施例中页面更新数量统计步骤的流程示意图;
图4是本申请实施例中页面更新量拆分步骤的流程示意图;
图5是本申请实施例中另一个页面更新数量统计步骤的流程示意图;
图6是本申请实施例中爬虫爬取时间调整步骤的流程示意图;
图7是本申请实施例中平均更新数量获取步骤的流程示意图;
图8是本申请实施例中爬虫爬取时间调整装置的结构示意图;
图9是本申请实施例中计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请的描述中,“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
在本申请实施例中,需要说明的是,本申请提供的爬虫爬取时间调整方法由于是在计算机设备中执行,各计算机设备的处理对象均以数据或信息的形式存在,例如页面更新时间,实质为页面更新时间信息,可以理解的是,后续实施例中若提及时段、尺寸、数量、位置等,均为对应的数据存在,以便计算机设备进行处理,具体此处不作赘述。
在一个实施例中,如图1所示,提供了一种爬虫爬取时间调整方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以是既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端具体可以是台式终端或移动终端,终端具体还可以是手机、平板电脑、笔记本电脑等中的一种。服务器可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(CloudComputing)的大量计算机或网络服务器构成。
本实施例主要以该方法应用于服务器来举例说明,该爬虫爬取时间调整方法具体包括步骤S101~步骤S103,具体如下:
S101,获取目标网站在预设周期时段内的页面更新时间,所述预设周期时段包括至少两个周期间隔的目标时段,所述目标时段包括第一时段和第二时段。
其中,目标网站是指网络爬虫当前待爬取网页更新情况的网站目标,由于各个网站在更新其网页时均存在一个对应的页面更新时间,因此在调整爬虫针对于目标网站的爬取时间之前,可获取目标网站在预设周期时段内的页面更新时间,来分析爬虫针对该目标网站已更新页面的爬取时间应当如何调整。
其中,目标时段可以是以秒、分、小时、日、月等为时段的时间段,在本申请实施例中选取的目标时段是以小时为时段的时间段,例如,10点至11点(10点-11点)为一个目标时段。第一时段和第二时段构成目标时段,因此第一时段和第二时段可以取任何比例,仅需确保两者之和为目标时段,例如,目标时段为10点-11点,则第一时段为10点-10点20分时,第二时段为10点20分-11点;又例如,目标时段为10点-11点,则第一时段为10点-10点30分时,第二时段为10点30分-11点。预设周期时段则是包括至少两个周期间隔的目标时段,例如,当包括两个周期间隔的目标时段时,可以是9月22日的10点-11点和9月29日的10点-11点,9月22日和9月29日为时隔一周的两个日期,则其对应的目标时段是周期间隔的;又例如,当包括三个周期间隔的目标时段时,可以是9月22日的10点-11点、9月29日的10点-11点以及10月6日的10点-11点。
其中,页面更新时间是指网站页面更新的时间点,页面更新时间取决于网站方工作人员的页面更新操作时间点,例如,工作人员A在2020年1月1日上午9点,对目标网站abc.com操作更新的一个页面,则其页面更新时间为2020/1/1/09:00。
具体地,获取目标网站其页面更新时间的执行主体可以是服务器,也可以是终端,还可以是介于终端与服务器之间的第三方平台、系统等,具体本实施例不作限定。但需说明的是,由于本申请提出可通过分析历史数据,来及时调整爬虫当前的爬取时间,因此有关页面更新时间的数据应包括多个周期时段的数据,而周期时段的选取可依据实际应用需求设定,每个目标时段对应的页面更新时间数据构成一份数据。本实施例中涉及的页面更新时间获取步骤将在下文详细说明。
例如,以T=1小时作为网络爬虫的初始间隔时间,得到的页面更新数据包括:(2020-10-06,10-11,100,[10:01,10:02,10:03,10:03,10:03,10:04……]),其中的“2020-10-06”表示为爬虫的爬取日期、“10-11”表示为页面更新的时间段、“100”表示为该时间段内的页面更新数量,而“[……]”中的各个时间点则表示为页面更新时间。此时,页面更新数据至少还应包括:(2020-09-29,10-11,90,[10:01,10:02,10:03,10:03,10:03,10:04……]),由包含历史数据的两份页面更新数据作为后续分析依据,可用以调整爬虫的爬取时间。
在一个实施例中,如图2所示,本步骤包括:S201,获取所述目标网站在第一目标时段内的页面更新时间,所述第一目标时段为第一预设时间中的目标时段;S202,获取所述目标网站在第二目标时段内的页面更新时间,所述第二目标时段为第二预设时间中的目标时段,所述第一预设时间和所述第二预设时间为两个周期间隔的预设时间;S203,确定所述第一目标时段内的页面更新时间,以及所述第二目标时段内的页面更新时间,作为所述预设周期时段内的页面更新时间。
其中,第一目标时段是第一预设时间中的目标时段,第一预设时间可以是服务器/终端的设备当前时间,也可以是设备历史时间,例如,2020年10月6日。第二目标时段是第二预设时间中的目标时段,与第一目标时段相同的是两者所述目标时段为同一个时段,例如10点-11点所涵盖的一个小时时段,与第一目标时段不同的是其第二预设时间是与第一预设时间存在周期间隔的时间,而非取自第一预设时间,例如,2020年9月29日。可以理解的是,第二预设时间也可以是服务器/终端的设备当前时间或设备历史时间,具体本实施例不作限定,可以实际业务需求设定。
具体地,服务器获得的页面更新时间,可包括目标网站在第一目标时段内的页面更新时间,以及在第二目标时段内的页面更新时间。分析两个时段内的页面更新时间,即可解析出过去一段时间内目标网站的页面更新趋势,进而利用该页面更新趋势调整爬虫针对该目标网站的爬取时间,使之尽可能在时效性和带宽之间取得一个平衡。
例如,第一目标时段(2020-10-06,10-11)内的页面更新时间为:[10:01,10:02,10:03,10:03,10:03,10:04……],第二目标时段(2020-09-29,10-11)内的页面更新时间为[10:01,10:02,10:03,10:03,10:03,10:04……]。
S102,基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量。
具体地,页面更新数量可由页面更新时间统计得到,即统计出目标网站在预设周期时段内的页面更新时间有多少,即可得到目标网站在各个周期时段内的页面更新数量,而周期时段包括至少两个周期间隔的目标时段,各个目标时段均可分为第一时段和第二时段,因此可将第一时段和第二时段之间的边界作为基准,将整个目标时段对应的页面更新数量进行拆分,即可得到目标网站在各第一时段和各第二时段内的页面更新数量。又或者是,获取到目标网站在预设周期时段内的页面更新时间之后,基于第一时段和第二时段之间的时间分界点,分别统计目标网站在各第一时段和第二时段内的页面更新数量,此时目标时段内总的页面更新数量,为对应第一时段和第二时段内页面更新数量之和。本实施例中页面更新数量在各时段内的获取步骤将在下文详细说明。但此时需要说明的是,各个目标时段所包括的第一时段和第二时段,应该是起止时间点相同的时段。
例如,多个周期间隔的目标时段为10点-11点,若此时设定第一时段为“10点-10点30分”、第二时段为“10点30分-11点”,则所有目标时段包括的第一时段均为“10点-10点30分”、所有目标时段包括的第一时段均为“10点30分-11点”。
在一个实施例中,如图3所示,所述预设周期时段包括周期间隔的第一目标时段和第二目标时段,本步骤包括:S301,基于所述第一目标时段和所述第二目标时段各自对应的页面更新时间,确定所述第一目标时段对应的第一时间集合,以及所述第二目标时段对应的第二时间集合;S302,统计所述第一时间集合和所述第二时间集合中的时间数量,得到所述第一目标时段对应的第一页面更新量,和所述第二目标时段对应的第二页面更数量;S303,基于各所述目标时段包括的第一时段和第二时段,对所述第一页面更新量和所述第二页面更新量进行拆分处理,得到所述目标网站在各所述第一时段内的页面更新数量,以及在各所述第二时段内的页面更新数量。
其中,基于上述实施例中的说明,第一目标时段为(2020-10-06,10-11)时,第一目标时段对应的第一时间集合可以为:[10:01,10:02,10:03,10:03,10:03,10:04……];第二目标时段为(2020-09-29,10-11)时,第二目标时段对应的第二时间集合可以为:[10:01,10:02,10:03,10:03,10:03,10:04……]。可以理解的是,上述时间集合所包括的具体时间点(页面更新时间)仅仅是一种示例,实际情况取决于目标网站实际的页面更新时间,而服务器此时获取到的各个目标时段对应的页面更新时间是以数组的形式存在并存储,可能存在相同的页面更新时间,也可能存在不相同的页面更新时间,需要关注分析的仅仅是各个数组中的元素数量。
具体地,当预设周期时段包括周期间隔的第一目标时段和第二目标时段时,服务器可分别获取目标网站在第一目标时段内的页面更新时间,以及目标网站在第二目标时段内的页面更新时间,来构成各个目标时段对应的时间集合。分析各个时间集合所包括的时间数量,即可得到各个目标时段对应的页面更新量,而该页面更新量可通过上文所述页面更新数据中的某个数据呈现。例如,在页面更新数据:(2020-10-06,10-11,100,[10:01,10:02,10:03,10:03,10:03,10:04……])中,“100”表示为该第一目标时间段(2020-10-06,10-11)内的页面更新数量。
更具体地,统计得到第一目标时段对应的第一页面更新量,和第二目标时段对应的第二页面更数量之后,即可根据当前所设定对第一目标时段和第二目标时段中第一时段和第二时段的划分,分别对第一页面更新量和第二页面更新量进行拆分处理,即可得到目标网站在两个第一时段内的页面更新数量,以及目标网站在两个第二时段内的页面更新数量。本实施例中涉及的页面更新量划分步骤将在下文进行详细说明。
在一个实施例中,如图4所示,所述基于各所述目标时段包括的第一时段和第二时段,对所述第一页面更新量和所述第二页面更新量进行拆分处理,得到所述目标网站在各所述第一时段内的页面更新数量,以及在各所述第二时段内的页面更新数量的步骤,包括:S401,基于所述第一目标时段包括的第一时段和第二时段,对所述第一页面更新量进行拆分处理,得到所述第一目标时段中第一时段对应的第三页面更新量,以及所述第一目标时段中第二时段对应的第四页面更新量;S402,基于所述第二目标时段包括的第一时段和第二时段,对所述第二页面更新量进行拆分处理,得到所述第二目标时段中第一时段对应的第五页面更新量,以及所述第二目标时段中第二时段对应的第六页面更新量;S403,确定所述第三页面更新量和所述第五页面更新量,作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第四页面更新量和所述第六页面更新量,作为所述目标网站在各所述第二时段内的页面更新数量。
其中,第三页面更新量是指第一页面更新量中的部分页面更新量,该部分页面更新量是第一目标时段中第一时段对应的页面更新量,例如,第一页面更新量为“100”,则第三页面更新量可以是小于“100”的部分页面更新量,具体部分数目取决于第一目标时段中的第一时段。
其中,第四页面更新量是指第一页面更新量中的部分页面更新量,该部分页面更新量是第一目标时段中第二时段对应的页面更新量,例如,第一页面更新量为“100”,则第四页面更新量可以是小于“100”的部分页面更新量,具体部分数目取决于第一目标时段中的第二时段。
其中,第五页面更新量是指第二页面更新量中的部分页面更新量,该部分页面更新量是第二目标时段中第一时段对应的页面更新量,例如,第二页面更新量为“90”,则第五页面更新量可以是小于“90”的部分页面更新量,具体部分数目取决于第二目标时段中的第一时段。
其中,第六页面更新量是指第二页面更新量中的部分页面更新量,该部分页面更新量是第二目标时段中第二时段对应的页面更新量,例如,第二页面更新量为“90”,则第六页面更新量可以是小于“90”的部分页面更新量,具体部分数目取决于第二目标时段中的第二时段。
具体地,分析如何调整爬虫的爬取时间,需分析目标网站在各个时段内的页面更新数量,以此获取目标网站在历史时段内的页面更新趋势,并以历史时段内的页面更新趋势作为爬虫爬取时间的调整依据,将网络爬虫的爬取时间调至最佳,使得爬虫可在最短的间隔时间内高效且及时获取到目标网站已更新的网站页面。由此,服务器在得到第一目标时段对应的第一页面更新量,和第二目标时段对应的第二页面更数量之后,即可根据第一目标时段所包括的第一时段和第二时段、第二目标时段所包括的第一时段和第二时段,分别对第一页面更新量和第二页面更新量进行拆分,来获取第一页面更新量中的第三页面更新量、第四页面更新量,获取第二页面更新量中的第五页面更新量、第六页面更新量。此时,第三页面更新量、第四页面更新量、第五页面更新量以及第六页面更新量,均为目标网站在最小时段内的页面更新量,分析此类相对于第一/第二页面更新量更小的页面更新量,即为分析网络爬虫当前的初始间隔时间是否还可再次压缩,以此获取更精确的间隔时间,得到可使信息爬取时效性提高的爬虫爬取时间。
例如,第一目标时段(2020-10-06,10-11)内的页面更新时间为:[10:01,10:02,10:03,10:03,10:03,10:04……],第二目标时段(2020-09-29,10-11)内的页面更新时间为[10:01,10:02,10:03,10:03,10:03,10:04……];第一目标时段对应的第一页面更新量为“100”、第二目标时段对应的第二页面更新量为“90”。第一目标时段和第二目标时段的第一时段均为“10点-10点30分”、第一目标时段和第二目标时段的第二时段均为“10点30分-11点”。则基于第一目标时段和第二目标时段内,第一时段和第二时段各自对应的页面更新时间进行数量统计,即可得到第三页面更新量为“80”、第四页面更新量为“20”、第五页面更新量为“60”、第六页面更新量为“30”。
在一个实施例中,如图5所示,所述预设周期时段还包括与所述第一目标时段和所述第二目标时段周期间隔的第三目标时段,上述实施例说明的方法还包括:S501,基于所述第三目标时段对应的页面更新时间,确定所述第三目标时段对应的第三时间集合;S502,统计所述第三时间集合中的时间数量,得到所述第三目标时段对应的第三页面更新量;S503,基于所述第三目标时段包括的第一时段和第二时段,对所述第三页面更新量进行拆分处理,得到所述第三目标时段中第一时段对应的第七页面更新量,以及所述第三目标时段中第二时段对应的第八页面更新量;S504,确定所述第七页面更新量作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第八页面更新量作为所述目标网站在各所述第二时段内的页面更新数量。
其中,第三目标时段是第三预设时间中的目标时段,第三预设时间与上文所述第一预设时间和第二预设时间性质相同,即可以是服务器/终端的设备当前时间,也可以是设备历史时间,例如,2020年9月22日,则第三目标时段可以是2020年9月22日的10点至11点,表示为(2020-09-22,10-11)。
具体地,分析第三目标时段内目标网站的页面更新量,可参照上文所述分析第一目标时段、第二目标时段的步骤。由于在上述实施例中已强调分析如何调整爬虫爬取时间,需分析目标网站在过去一段历史时段内的页面更新趋势,该历史时段可以包括当前时段以及与当前时段周期间隔的同一历史时段,即预设周期时段所包括的至少两个周期时段的目标时段,而上述实施例已详细说明当此周期时段包括两个周期间隔的目标时段时,应分析这两个目标时段中各个第一时段和第二时段对应的页面更新量,并以该页面更新量作为时间调整分析依据调整爬虫爬取时间,但不应仅限于只有两个目标时段的情况。因此,本实施例中提出预设周期时段还包括与第一目标时段和所述第二目标时段周期间隔的第三目标时段,并利用第三目标时段参与第一目标时段和第二目标时段的分析,可以提升目标网站其页面更新趋势的识别准确率,进而使得最终爬取时间设定的准确性更高。
更具体地,上述实施例中已详细说明了如何基于第一/第二目标时段的页面更新时间,获取各自对应的时间集合,并基于时间集合统计获取各个目标时段对应的页面更新量,进而获取各目标时段中第一时段和第二时段分别对应的页面更新量。而本实施例中涉及的第三目标时段分析原理相同,因此在本实施例中不再赘述。但需说明的是,第三目标时段包括的第一时段和第二时段,与第一/第二目标时段包括的第一时段和第二时段均为相同时段,即具有相同的起止时间点。
进一步地,在实际应用中,服务器最终可得目标网站在至少三个第一时段内的页面更新数量,如第三页面更新量、第五页面更新量以及第七页面更新量,还可得到目标网站在至少三个第二时段内的页面更新数量,如第四页面更新量、第六页面更新量以及第八页面更新量。
S103,基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间。
具体地,服务器分析得到目标网站各第一时段内的页面更新数量,以及在各第二时段内的页面更新数量之后,即可基于各时段内页面更新数量的占比情况,对目标网站的爬虫爬取时间进行调整,即调整爬虫的初始间隔时间,以获取最佳的间隔时间,如调整后的爬虫爬取时间,帮助爬虫更高效地获取到目标网站的已更新页面。本实施例中涉及的爬虫爬取时间调整步骤将在下文详细说明。
在一个实施例中,如图6所示,本步骤包括:S601,基于各所述第一时段内的页面更新数量,获取第一平均更新数量,并基于各所述第二时段内的页面更新数量,获取第二平均更新数量;S602,获取所述第一平均更新数量与所述第二平均更新数量之间的比值,作为时间调整比值;S603,若所述时间调整比值大于或等于预设的时间调整阈值,则对所述目标网站的爬虫爬取时间进行调整,确定所述爬虫爬取时间的二分之一时间,作为所述调整后的爬虫爬取时间。
其中,第一平均更新数量是各个第一时段对应的页面更新数量的平均值,例如,基于上述实施例的说明,当第一时段包括第一目标时段和第二目标时段内的第一时段时,第三页面更新量和第五页面更新量是各个第一时段对应的页面更新数量,而第三页面更新量为“80”、第五页面更新量为“60”,则此时的第一平均更新数量为“70”。
其中,第二平均更新数量是各个第二时段对应的页面更新数量的平均值,例如,基于上述实施例的说明,当第二时段包括第一目标时段和第二目标时段内的第二时段时,第四页面更新量和第六页面更新量是各个第二时段对应的页面更新数量,而第四页面更新量为“20”、第六页面更新量为“30”,则此时的第二平均更新数量为“25”。
其中,预设的时间调整阈值可根据实际业务需求设定,例如,2、3、4。但需说明的是,该时间调整阈值不应为1,若设置为1,则前半个小时有64个页面更新,后半个小时有63个页面更新,实际此时的爬虫爬取时间不需要调整,但是服务器会因计算超过了阈值而调整爬虫爬取时间。
具体地,服务器分析得到各个第一时段对应的第一平均更新数量,以及各个第二时段对应的第二平均更新数量之后,即可计算第一平均更新数量与第二平均更新数量之间的比值,得到目标网站在第一时段和第二时段这两个时段内的页面更新数量占比,即作为时间调整比值。若时间调整比值大于或等于预设的时间调整阈值,则表示目标网站在第一时段内的页面更新数量多于其在第二时段内的页面更新数量,初始间隔时间所控制的页面更新数量已经不再平衡,爬虫应相对于第二时段在第一时段内更多次的爬取目标网页。故此,服务器可对爬虫爬取时间进行调整,即将爬虫爬取网页的初始间隔时间调整为其原有的二分之一,如T=1/2T,作为调整后的爬虫爬取时间。
可以理解的是,虽然本实施例说明的是第一平均更新数量与第二平均更新数量之间的比值,将与时间调整阈值进行比较,但实际还可以是第二平均更新数量与第一平均更新数量之间的比值与时间调整阈值进行比较,原理不变。
例如,第一平均更新数量为“70”、第二平均更新数量为“25”,第一平均更新数量与所述第二平均更新数量之间的比值为“2.8”,若此时的时间调整阈值为“2”,则爬虫爬取时间需要被调整,即其初始间隔时间T=1,调整之前的爬虫爬取时间为10点和11点,调整后的爬虫爬取时间为10点、10点30分、11点。
在一个实施例中,如图7所示,所述基于各所述第一时段内的页面更新数量,获取第一平均更新数量,并基于各所述第二时段内的页面更新数量,获取第二平均更新数量的步骤,包括:S701,确定各所述预设周期时段对应预设的衰减系数;S702,基于所述衰减系数,对各所述第一时段内的页面更新数量进行加权求和处理,得到所述第一时段对应的第一页面更新总量;S703,基于所述衰减系数,对各所述第二时段内的页面更新数量进行加权求和处理,得到所述第二时段对应的第二页面更新总量;S704,获取所述第一页面更新总量和所述第二页面更新总量的平均数量,对应得到所述第一平均更新数量和所述第二平均更新数量。
其中,衰减系数是作用于页面更新数量的加权系数,其大小取决于历史数据的时间距离设备当前时间的大小,例如,距离设备当前时间一周之前的目标时段的衰减系数为0.9,而距离设备当前时间两周之前的目标时段的衰减系数为0.8,以此类推。
具体地,上一个实施例中已详细说明如何基于各第一时段和第二时段内的页面更新数量,获取第一平均更新数量和第二平均更新数量,本实施例中提供的方案与之存在不同的是,计算各个时段对应的平均更新数量之前,各第一时段或第二时段的页面更新数量还需累计上其对应预设的衰减系数,该衰减系数在上文已解释说明是各个作用于页面更新数量的加权系数,具体是作用于目标时段内页面更新数量的加权系数,即不同目标时段对应存在一个加权系数,其大小取决于距离设备当前时间的时长。
例如,若第一目标时段是服务器的设备当前时间,则其对应预设的衰减系数为1、而第二目标时段距离第一目标时段有一周的时长,因此其对应的衰减系数可以是0.9,以此类推得到第三目标时段对应的衰减系数为0.8。此时,若各第一时段内的页面更新数量包括第三页面更新量“80”、第五页面更新量“60”和第七页面更新量“70”,则目标网站在第一时段对应的第一页面更新总量为:(80+60*0.9+70*0.8)=190;若各第二时段内的页面更新数量包括第四页面更新量“20”、第六页面更新量“30”和第八页面更新量“20”,则目标网站在第二时段对应的第二页面更新总量为:(20+30*0.9+20*0.8)=63。
更具体地,服务器基于各预设周期时段对应预设的衰减系数,计算得到目标网站在第一时段对应的第一页面更新总量,以及在第二时段对应的第二页面更新总量之后,即可根据参与总量计算的页面更新量的数量,计算第一平均更新数量和第二平均更新数量。
例如,第一页面更新总量为“190”,参与该计算的页面更新量有3个,则第一平均更新数量为:190/3≈63;第二页面更新总量为“63”,参与该计算的页面更新量有3个,则第二平均更新数量为:63/3≈21。
上述爬虫爬取时间调整方法,通过获取目标网站在预设周期时段内的页面更新时间,来统计目标网站在不同时段内的页面更新数量,即可得到目标网站在各第一时段内的页面更新数量,以及在各第二时段内的页面更新数量,进而以此分析目标网站在一个目标时段内,前半个时段与后半个时段之间页面更新数量的占比情况,最终利用该占比情况来调整爬虫的爬取时间,使得爬虫可在最短的间隔时间内及时获取到目标网站的已更新信息,从而提高爬虫的信息爬取时效性,更降低了爬虫带宽资源的浪费。
为了使本领域技术人员充分理解本申请提出的爬虫爬取时间调整方案,本申请还提供一种应用场景,该应用场景应用上述的爬虫爬取时间调整方法。具体地,该爬虫爬取时间调整方法在该应用场景中的应用将进行如下说明:
由于现有爬虫大多都是通过固定的时间段去爬取目标网站,而这种方法常常无法适用于某些时效场景,例如极端情况下,目标网站在10点-11点期间更新了100个页面,但其中有99个页面都是10点01分更新的,剩余一个页面是10点59分更新的,那么传统的信息爬取方法可能仅会考虑某个时间段内的更新页面总数量,而不会考虑该时间段内页面更新时间点,从而单纯利用如下公式:X:(N/D)=T':T,来调整爬虫爬取时间。
其中,X代表目标网站的正常平均更新量,N代表目标网站在时间D内的总更新量,D代表爬虫的爬取时间,T代表爬虫爬取信息的初始间隔时间,而此时目标网站的正常平均更新量为“100”,时间D内的实际平均更新量(N/D)为“150”,初始间隔时间为60min(分钟),则100:150=T':60min,调整后的间隔时间T'=40min。也即是说,传统的信息爬取方法不会调整爬虫的爬取策略,针对上述100个页面的更新情况,由于在固定时段内页面更新量不变,因此其无法处理。
而本申请提出的方法是针对一个固定时段内两个子时段时间的页面更新量占比情况,来调整爬虫爬取时间,因此必然会调整爬取策略,不断的缩短爬虫爬取信息的间隔时间,不会出现目标网站在10点01分更新的数据,服务器到11点才去爬取,大大提高爬取时效性。
例如,网络爬虫针对目标网站abc.com设置执行爬取操作的初始间隔时间为1小时,而其当前获取到10点-11点期间的页面更新数据,经过分析,得到目标网站在前半个小时更新了63个页面,后半个小时更新了21个页面,超过阈值(假设阈值为2),那么对于前半个小时需再做一个假设拆分,后半个小时也需再做一个假设拆分。由于此前的目标时段已拆分为30分钟一次,因此此后的目标时段将被拆分为15分钟一次,得到目标网站在前15分钟更新了30个页面,后15分钟更新了33个页面,低于阈值,那么前半个小时就不做拆分了。而后半个小时中,前15分钟更新了16个页面,后15分钟更新了5个页面,超过阈值,因此后半个小时确定设置成15分钟一次。然后再看前7.5分钟和后7.5分钟的页面数,直至无法拆分。最终,可得在原有初始间隔时间中,调整后的间隔时间为10点30分爬一次、10点45分爬一次。
本实施例中,通过获取目标网站在预设周期时段内的页面更新时间,来统计目标网站在不同时段内的页面更新数量,即可得到目标网站在各第一时段内的页面更新数量,以及在各第二时段内的页面更新数量,进而以此分析目标网站在一个目标时段内,前半个时段与后半个时段之间页面更新数量的占比情况,最终利用该占比情况来调整爬虫的爬取时间,使得爬虫可在最短的间隔时间内及时获取到目标网站的已更新信息,从而提高爬虫的信息爬取时效性,更降低了爬虫带宽资源的浪费。
为了更好实施本申请实施例中爬虫爬取时间调整方法,在爬虫爬取时间调整方法基础之上,本申请实施例中还提供一种爬虫爬取时间调整装置,如图8所示,所述爬虫爬取时间调整装置800包括:
时间获取模块810,用于获取目标网站在预设周期时段内的页面更新时间,所述预设周期时段包括至少两个周期间隔的目标时段,所述目标时段包括第一时段和第二时段;
时间分析模块820,用于基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量;
时间调整模块830,用于基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间。
在本申请一些实施例中,时间获取模块810还用于获取所述目标网站在第一目标时段内的页面更新时间,所述第一目标时段为第一预设时间中的目标时段;获取所述目标网站在第二目标时段内的页面更新时间,所述第二目标时段为第二预设时间中的目标时段,所述第一预设时间和所述第二预设时间为两个周期间隔的预设时间;确定所述第一目标时段内的页面更新时间,以及所述第二目标时段内的页面更新时间,作为所述预设周期时段内的页面更新时间。
在本申请一些实施例中,所述预设周期时段包括周期间隔的第一目标时段和第二目标时段,时间分析模块820还用于基于所述第一目标时段和所述第二目标时段各自对应的页面更新时间,确定所述第一目标时段对应的第一时间集合,以及所述第二目标时段对应的第二时间集合;统计所述第一时间集合和所述第二时间集合中的时间数量,得到所述第一目标时段对应的第一页面更新量,和所述第二目标时段对应的第二页面更数量;基于各所述目标时段包括的第一时段和第二时段,对所述第一页面更新量和所述第二页面更新量进行拆分处理,得到所述目标网站在各所述第一时段内的页面更新数量,以及在各所述第二时段内的页面更新数量。
在本申请一些实施例中,时间分析模块820还用于基于所述第一目标时段包括的第一时段和第二时段,对所述第一页面更新量进行拆分处理,得到所述第一目标时段中第一时段对应的第三页面更新量,以及所述第一目标时段中第二时段对应的第四页面更新量;基于所述第二目标时段包括的第一时段和第二时段,对所述第二页面更新量进行拆分处理,得到所述第二目标时段中第一时段对应的第五页面更新量,以及所述第二目标时段中第二时段对应的第六页面更新量;确定所述第三页面更新量和所述第五页面更新量,作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第四页面更新量和所述第六页面更新量,作为所述目标网站在各所述第二时段内的页面更新数量。
在本申请一些实施例中,时间分析模块820还用于基于所述第三目标时段对应的页面更新时间,确定所述第三目标时段对应的第三时间集合;统计所述第三时间集合中的时间数量,得到所述第三目标时段对应的第三页面更新量;基于所述第三目标时段包括的第一时段和第二时段,对所述第三页面更新量进行拆分处理,得到所述第三目标时段中第一时段对应的第七页面更新量,以及所述第三目标时段中第二时段对应的第八页面更新量;确定所述第七页面更新量作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第八页面更新量作为所述目标网站在各所述第二时段内的页面更新数量。
在本申请一些实施例中,时间调整模块830还用于基于各所述第一时段内的页面更新数量,获取第一平均更新数量,并基于各所述第二时段内的页面更新数量,获取第二平均更新数量;获取所述第一平均更新数量与所述第二平均更新数量之间的比值,作为时间调整比值;若所述时间调整比值大于或等于预设的时间调整阈值,则对所述目标网站的爬虫爬取时间进行调整,确定所述爬虫爬取时间的二分之一时间,作为所述调整后的爬虫爬取时间。
在本申请一些实施例中,时间调整模块830还用于确定各所述预设周期时段对应预设的衰减系数;基于所述衰减系数,对各所述第一时段内的页面更新数量进行加权求和处理,得到所述第一时段对应的第一页面更新总量;基于所述衰减系数,对各所述第二时段内的页面更新数量进行加权求和处理,得到所述第二时段对应的第二页面更新总量;获取所述第一页面更新总量和所述第二页面更新总量的平均数量,对应得到所述第一平均更新数量和所述第二平均更新数量。
上述实施例中,通过获取目标网站在预设周期时段内的页面更新时间,来统计目标网站在不同时段内的页面更新数量,即可得到目标网站在各第一时段内的页面更新数量,以及在各第二时段内的页面更新数量,进而以此分析目标网站在一个目标时段内,前半个时段与后半个时段之间页面更新数量的占比情况,最终利用该占比情况来调整爬虫的爬取时间,使得爬虫可在最短的间隔时间内及时获取到目标网站的已更新信息,从而提高爬虫的信息爬取时效性,更降低了爬虫带宽资源的浪费。
在本申请一些实施例中,爬虫爬取时间调整装置800可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该爬虫爬取时间调整装置800的各个程序模块,比如,图8所示的时间获取模块810、时间分析模块820以及时间调整模块830。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的爬虫爬取时间调整方法中的步骤。
例如,图9所示的计算机设备可以通过如图8所示的爬虫爬取时间调整装置800中的时间获取模块810执行步骤S101。计算机设备可通过时间分析模块820执行步骤S102。计算机设备可通过时间调整模块830执行步骤S103。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种爬虫爬取时间调整方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请一些实施例中,提供了一种计算机设备,包括一个或多个处理器;存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述爬虫爬取时间调整方法的步骤。此处爬虫爬取时间调整方法的步骤可以是上述各个实施例的爬虫爬取时间调整方法中的步骤。
在本申请一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器进行加载,使得处理器执行上述爬虫爬取时间调整方法的步骤。此处爬虫爬取时间调整方法的步骤可以是上述各个实施例的爬虫爬取时间调整方法中的步骤。
以上对本申请实施例所提供的一种爬虫爬取时间调整方法、装置、计算机设备以及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种爬虫爬取时间调整方法,其特征在于,所述方法包括:
获取目标网站在预设周期时段内的页面更新时间,所述预设周期时段包括至少两个周期间隔的目标时段,所述目标时段包括第一时段和第二时段;
基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量;
基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间。
2.如权利要求1所述的爬虫爬取时间调整方法,其特征在于,所述获取目标网站在预设周期时段内的页面更新时间的步骤,包括:
获取所述目标网站在第一目标时段内的页面更新时间,所述第一目标时段为第一预设时间中的目标时段;
获取所述目标网站在第二目标时段内的页面更新时间,所述第二目标时段为第二预设时间中的目标时段,所述第一预设时间和所述第二预设时间为两个周期间隔的预设时间;
确定所述第一目标时段内的页面更新时间,以及所述第二目标时段内的页面更新时间,作为所述预设周期时段内的页面更新时间。
3.如权利要求1所述的爬虫爬取时间调整方法,其特征在于,所述预设周期时段包括周期间隔的第一目标时段和第二目标时段,所述基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量的步骤,包括:
基于所述第一目标时段和所述第二目标时段各自对应的页面更新时间,确定所述第一目标时段对应的第一时间集合,以及所述第二目标时段对应的第二时间集合;
统计所述第一时间集合和所述第二时间集合中的时间数量,得到所述第一目标时段对应的第一页面更新量,和所述第二目标时段对应的第二页面更数量;
基于各所述目标时段包括的第一时段和第二时段,对所述第一页面更新量和所述第二页面更新量进行拆分处理,得到所述目标网站在各所述第一时段内的页面更新数量,以及在各所述第二时段内的页面更新数量。
4.如权利要求3所述的爬虫爬取时间调整方法,其特征在于,所述基于各所述目标时段包括的第一时段和第二时段,对所述第一页面更新量和所述第二页面更新量进行拆分处理,得到所述目标网站在各所述第一时段内的页面更新数量,以及在各所述第二时段内的页面更新数量的步骤,包括:
基于所述第一目标时段包括的第一时段和第二时段,对所述第一页面更新量进行拆分处理,得到所述第一目标时段中第一时段对应的第三页面更新量,以及所述第一目标时段中第二时段对应的第四页面更新量;
基于所述第二目标时段包括的第一时段和第二时段,对所述第二页面更新量进行拆分处理,得到所述第二目标时段中第一时段对应的第五页面更新量,以及所述第二目标时段中第二时段对应的第六页面更新量;
确定所述第三页面更新量和所述第五页面更新量,作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第四页面更新量和所述第六页面更新量,作为所述目标网站在各所述第二时段内的页面更新数量。
5.如权利要求3或4所述的爬虫爬取时间调整方法,其特征在于,所述预设周期时段还包括与所述第一目标时段和所述第二目标时段周期间隔的第三目标时段,所述方法还包括:
基于所述第三目标时段对应的页面更新时间,确定所述第三目标时段对应的第三时间集合;
统计所述第三时间集合中的时间数量,得到所述第三目标时段对应的第三页面更新量;
基于所述第三目标时段包括的第一时段和第二时段,对所述第三页面更新量进行拆分处理,得到所述第三目标时段中第一时段对应的第七页面更新量,以及所述第三目标时段中第二时段对应的第八页面更新量;
确定所述第七页面更新量作为所述目标网站在各所述第一时段内的页面更新数量,并确定所述第八页面更新量作为所述目标网站在各所述第二时段内的页面更新数量。
6.如权利要求1所述的爬虫爬取时间调整方法,其特征在于,所述基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间的步骤,包括:
基于各所述第一时段内的页面更新数量,获取第一平均更新数量,并基于各所述第二时段内的页面更新数量,获取第二平均更新数量;
获取所述第一平均更新数量与所述第二平均更新数量之间的比值,作为时间调整比值;
若所述时间调整比值大于或等于预设的时间调整阈值,则对所述目标网站的爬虫爬取时间进行调整,确定所述爬虫爬取时间的二分之一时间,作为所述调整后的爬虫爬取时间。
7.如权利要求6所述的爬虫爬取时间调整方法,其特征在于,所述基于各所述第一时段内的页面更新数量,获取第一平均更新数量,并基于各所述第二时段内的页面更新数量,获取第二平均更新数量的步骤,包括:
确定各所述预设周期时段对应预设的衰减系数;
基于所述衰减系数,对各所述第一时段内的页面更新数量进行加权求和处理,得到所述第一时段对应的第一页面更新总量;
基于所述衰减系数,对各所述第二时段内的页面更新数量进行加权求和处理,得到所述第二时段对应的第二页面更新总量;
获取所述第一页面更新总量和所述第二页面更新总量的平均数量,对应得到所述第一平均更新数量和所述第二平均更新数量。
8.一种爬虫爬取时间调整装置,其特征在于,所述装置包括:
时间获取模块,用于获取目标网站在预设周期时段内的页面更新时间,所述预设周期时段包括至少两个周期间隔的目标时段,所述目标时段包括第一时段和第二时段;
时间分析模块,用于基于所述页面更新时间,统计所述目标网站在各所述第一时段内的页面更新数量,以及所述目标网站在各所述第二时段内的页面更新数量;
时间调整模块,用于基于各所述第一时段内的页面更新数量和各所述第二时段内的页面更新数量,对所述目标网站的爬虫爬取时间进行调整,得到调整后的爬虫爬取时间。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的爬虫爬取时间调整方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的爬虫爬取时间调整方法中的步骤。
CN202011353410.6A 2020-11-27 2020-11-27 爬虫爬取时间调整方法、装置、计算机设备以及存储介质 Pending CN114547411A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011353410.6A CN114547411A (zh) 2020-11-27 2020-11-27 爬虫爬取时间调整方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011353410.6A CN114547411A (zh) 2020-11-27 2020-11-27 爬虫爬取时间调整方法、装置、计算机设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114547411A true CN114547411A (zh) 2022-05-27

Family

ID=81667891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011353410.6A Pending CN114547411A (zh) 2020-11-27 2020-11-27 爬虫爬取时间调整方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114547411A (zh)

Similar Documents

Publication Publication Date Title
US11550821B2 (en) Adaptive resource allocation method and apparatus
CN111324471B (zh) 服务调整方法、装置、设备及存储介质
US8606905B1 (en) Automated determination of system scalability and scalability constraint factors
CN107911399B (zh) 一种基于负载预测的弹性伸缩方法及系统
US20220058696A1 (en) System and method to selectively update supplemental content rendered in placement regions of a rendered page
CN114095567B (zh) 数据访问请求的处理方法、装置、计算机设备及介质
US10242102B2 (en) Network crawling prioritization
WO2022082892A1 (zh) 大数据分析方法、系统、计算机设备及其存储介质
CN112506619A (zh) 作业处理方法、装置、电子设备、存储介质和程序产品
US20180095440A1 (en) Non-transitory computer-readable storage medium, activation control method, and activation control device
US9501321B1 (en) Weighted service requests throttling
CN117555913A (zh) 基于第三方平台的对象数据更新方法和装置
CN114547411A (zh) 爬虫爬取时间调整方法、装置、计算机设备以及存储介质
CN117118698A (zh) 一种元数据服务器的访问限流方法、装置及设备
CN113176937B (zh) 任务处理方法、装置和电子设备
CN111581544A (zh) 搜索结果优化方法、装置、计算机设备及存储介质
WO2011056706A1 (en) Systems and methods for dynamic historical browsing
CN115086194A (zh) 云应用的数据传输方法、计算设备及计算机存储介质
CN114186845A (zh) 定时执行指标计算任务的方法和装置
CN112966849B (zh) 件量预测模型的建立方法、装置以及设备
CN117992316A (zh) 异常监控方法、装置、计算机设备及计算机可读存储介质
CN113900823A (zh) 服务器数据查询请求的负载均衡方法、装置及电子设备
CN118264917A (zh) 曝光调整方法、装置和电子设备
CN115271981A (zh) 业务资源处理方法、装置、电子设备及存储介质
CN117421091A (zh) 资源利用率的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination