CN115329179B - 数据采集资源量控制方法、装置、设备及存储介质 - Google Patents

数据采集资源量控制方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115329179B
CN115329179B CN202211256657.5A CN202211256657A CN115329179B CN 115329179 B CN115329179 B CN 115329179B CN 202211256657 A CN202211256657 A CN 202211256657A CN 115329179 B CN115329179 B CN 115329179B
Authority
CN
China
Prior art keywords
acquisition
period
data
historical
heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211256657.5A
Other languages
English (en)
Other versions
CN115329179A (zh
Inventor
魏永强
陈录城
盛国军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaos Digital Technology Qingdao Co ltd
Karos Iot Technology Co ltd
Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Original Assignee
Haier Digital Technology Qingdao Co Ltd
Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Haier Cosmo IoT Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haier Digital Technology Qingdao Co Ltd, Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd, Haier Cosmo IoT Technology Co Ltd filed Critical Haier Digital Technology Qingdao Co Ltd
Priority to CN202211256657.5A priority Critical patent/CN115329179B/zh
Publication of CN115329179A publication Critical patent/CN115329179A/zh
Application granted granted Critical
Publication of CN115329179B publication Critical patent/CN115329179B/zh
Priority to PCT/CN2023/106837 priority patent/WO2024078070A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种数据采集资源量控制方法、装置、设备及存储介质,属于互联网信息技术领域,该方法包括:获取任一采集对象预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取各历史采集周期及本采集周期的分配资源数;根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态;根据匹配的数据量、数据浏览量、采集数据量、期望采集周期,计算任一采集对象的综合热度;根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及当前分配资源数,确定任一采集对象的目标资源数;分配目标资源数的资源获取任一采集对象的数据。本申请解决了获取的数据时效性差的问题。

Description

数据采集资源量控制方法、装置、设备及存储介质
技术领域
本发明属于互联网信息技术领域,具体涉及一种数据采集资源量控制方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,以及经济、文化的信息化的逐渐加深,人们希望更快的获得重要事件的相关资讯。
现有技术中,为了获取新鲜的资讯等数据,通常采用固定的资源获取指定网站中数据的方式获取热度较高的资讯数据。
然而,发明人发现现有技术至少存在如下技术问题:由于各网站的数据会随时变化,所以采用固定的资源获取指定网站中的数据会导致获取的数据不是最新数据,存在时效性差的问题。
发明内容
本申请提供一种数据采集资源量控制方法、装置、设备及存储介质,用以解决获取的数据时效性差的问题。
第一方面,本发明提供一种数据采集资源量控制方法,包括:
获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期;根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态;根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度;根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数;分配目标资源数的资源获取任一采集对象的数据。
在一种可能的实现方式中,根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态,包括:将任一采集对象的至少一个历史采集周期的平均值减去期望采集周期,得到周期差值;若周期差值与期望采集周期的比值大于或等于第一预设值,则将任一采集对象的采集状态确定为破线状态;若周期差值与期望采集周期的比值小于或等于第二预设值,则将任一采集对象的采集状态确定为空闲状态;若周期差值与期望采集周期的比值小于第一预设值且大于第二预设值,则将任一采集对象的采集状态确定为正常状态。
在一种可能的实现方式中,根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度,包括:根据匹配的数据量、数据浏览量及采集数据量,计算任一采集对象的历史热度;将预设个数的历史采集周期确定为一个记录周期;将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量,其中第一记录周期为当前时间之前的第N个记录周期,其中N为正整数;将第二记录周期结束时的采集数据量减第二记录周期开始时的采集数据量,得到第二记录周期的采集数据量,第二记录周期为当前时间之前的第N+1个记录周期;将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量;将新增数据量除以期望采集周期并取对数,得到任一采集对象的实际热度;将历史热度及实际热度以预设方式分别映射进预设区间内,得到映射历史热度及映射实际热度;将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度。
在一种可能的实现方式中,根据匹配的数据量、浏览量及采集数据量,计算任一采集对象的历史热度,采用的公式如下:
式中, 表示任一采集对象的历史热度,表示采集数据中匹配的数据量,表示采集数据的数据浏览量,表示采集数据量,A、B、C均表示常数,log表示取对数。
在一种可能的实现方式中,根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数,包括:将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比;将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值;根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差;若任一采集对象的采集状态为破线状态,则将任一采集对象的分配资源数与资源数差相加,得到任一采集对象的目标资源数;若任一采集对象的采集状态为空闲状态,则将任一采集对象的分配资源数与资源数差相减,得到任一采集对象的目标资源数。
在一种可能的实现方式中,根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差,采用的公式如下:
式中,表示资源数差,表示所有采集对象的超限热度值中的最大值,表示所有采集对象的超限热度值中的最小值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期,D、E、F、G均表示常数,log表示取对数。
在一种可能的实现方式中,在以目标资源数的资源获取任一采集对象的数据之后,还包括:将新的历史采集周期与期望采集周期相减得到新的周期差值;若新的周期差值与期望采集周期的比值小于预设比值,则将目标资源数作为固定资源数,以采用固定资源数的资源获取任一采集对象的数据;若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤;若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量小于预设值,则输出错误报告。
第二方面,本申请还提供了一种数据采集资源量控制装置,包括:第一获取模块,用于获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期;第一确定模块,用于根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态;计算模块,用于根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度;第二确定模块,用于根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数;第二获取模块,用于分配目标资源数的资源获取任一采集对象的数据。
第三方面,本申请还提供了一种电子设备,包括:处理器,以及与处理器通信连接的存储器;存储器存储计算机执行指令;处理器执行存储器存储的计算机执行指令,使得处理器执行如如第一方面描述的数据采集资源量控制方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面描述的数据采集资源量控制方法。
本申请提供的数据采集资源量控制方法、装置、设备及存储介质,通过获取采集对象的历史采集周期、分配资源数和采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,根据期望采集周期及至少一个历史采集周期,确定采集对象的采集状态,由匹配的数据量、浏览量、采集数据量、期望采集周期计算采集对象的综合热度,并根据采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,得到目标资源数,并分配目标资源数的资源获取任一采集对象的数据。由于采用了采集对象的采集状态、综合热度更新了获取采集对象的数据所使用的资源数,所以提高了获得的数据的时效性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的数据采集资源量控制方法的应用场景示意图;
图2为本申请实施例提供的数据采集资源量控制方法的流程示意图;
图3为本申请实施例提供的数据采集资源量控制装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
随着计算机技术的快速发展,计算机计算能力逐渐增加,经济文化信息已可以通过互联网进行传播,人们希望通过互联网快速的获取热点信息。
当前,现有技术中获取热点信息的方法,通常是采用固定的资源获取指定网站或接口的数据的方式获取热度较高的资讯数据。但是,发明人发现现有技术有以下技术问题:由于各网站或接口中的数据会随时变化,所以采用固定的资源获取资讯数据会导致获取的数据可能不是高热度的数据,造成得到的数据时效性差的问题。
针对上述技术问题,发明人提出如下技术构思:通过采集对象的历史采集周期及期望采集周期,确定采集对象的采集状态,并计算采集对象的综合热度,由采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定采集对象的目标资源数,分配与目标资源数等量的资源获取采集对象的数据。
本申请应用于对数据采集资源量控制的场景中。本申请的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
图1为本申请实施例提供的数据采集资源量控制方法的应用场景示意图。如图1,该场景中,包括:第一服务器101以及第二服务器102。
服务器101及服务器102均可以是单独的服务器,也可以是由多个服务器组成的集群。服务器101与服务器102之间的连接方式可以是通讯连接。
在具体实现过程中,第一服务器101用于从第二服务器102获取采集对象的数据,以及通过采集对象的历史采集周期及期望采集周期,确定采集对象的采集状态,并计算采集对象的综合热度,由采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定采集对象的目标资源数,分配与目标资源数等量的资源获取采集对象的数据。
可以理解的是,本申请实施例示意的结构并不构成对数据采集资源量控制方法的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的数据采集资源量控制方法的流程示意图。本申请实施例的执行主体可以是图1中的服务器101,也可以是电脑和/或手机等,本实施例对此不作特别限制。如图2所示,该方法包括:
S201:获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期。
其中,采集网址得到的采集数据会被标记采集的时间或存储在有对应时间标记的文件夹中。由采集数据和对应的时间,可以得到预设时间内采集得到的数据,预设时间内采集得到的数据的数量为采集数据量。采集数据中与预设热点匹配的数据量可以是预先在所有采集数据中查找与预设热点匹配的数据,并结合采集数据对应的时间,得到预设时间内匹配的数据,将预设时间内匹配的数据的数量作为匹配的数据量。采集得到的数据浏览量,可以是采集目标对应的所有采集数据在预设时间内被浏览的次数,可以通过实时记录被浏览的次数,并将预设时间的结束时的浏览次数确定为第一浏次数,将预设时间的起始时的浏览次数确定为第二浏览次数,将第一浏次数减去第二浏览次数得到预设时间内被浏览的次数。各历史采集周期及本采集周期的分配资源数,可以是预先计算得到并储存在存储单元中的也可以是每个历史采集周期的开始时记录在存储单元中的,分配资源数可以是采集使用的资源数。
在本步骤中,获取的数据都可以是采集数据时或采集数据中存储在表格中的,也可以是以其他格式存储的。获取任一采集对象对应的历史采集周期,可以是从存储单元中获取采集对象对应的历史采集时间,可以完整获取一次采集对象所使用的采集时间为一个历史采集周期。采集数据可以是采集得到的网址中的内容,例如:网址中的字符、图像、视频、音频等。本采集周期的分配资源数为上一次计算得到的目标资源数,在上一次计算得到目标资源数后,可以进行储存,储存时会将目标资源数与采集对象关联,读取采集对象对应的上一次计算得到的目标资源数就可以作为本采集周期的分配资源数。预设热点可以是由地点、时间、人物及事件中的一种或多种词汇组成的关键词逻辑表达式,与预设热点匹配的采集数据,可以是符合这个关键词逻辑表达式的采集数据,或可以由关键词逻辑表达式查询到的采集数据,相应地,采集数据中匹配的数据量可以是符合这个关键词逻辑表达式的数据量,或采集数据中可以由关键词逻辑表达式查询到的数据量。采集得到的数据可以输入独立的数据系统进行展示,并接收客户端的浏览,浏览的次数为数据浏览量,采集得到的数据浏览量,可以是采集对象对应的所有采集得到的数据的总浏览量。
历史采集周期例如:上一次采集使用时间为5分钟,则上一历史采集周期为5分钟。本采集周期之前的第3个采集周期使用的时间为1小时,则本采集周期之前的第3个采集周期为1小时。预设时间例如一天、三天、一周、两周或一个月等。
S202:根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态。
在本步骤中,每个采集对象的期望采集周期都可以不同。在预设个数的采集周期内,若期望采集周期小于历史采集周期的平均值,且差值超过预设值,则将采集对象的状态确定为破线状态,若期望采集周期大于历史采集周期的平均值,且差值超过预设值,则将采集对象的状态确定为空闲状态。
S203:根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度。
在本步骤中,可以是将预设时间内的匹配的数据量、浏览量、采集数据量及期望采集周期输入预设公式得到任一采集对象的综合热度。
具体地,可以是将预设时间内的匹配的数据量、浏览量及采集数据量输入第一预设公式,得到采集对象的历史热度。将新增数据量及期望采集周期数输入第二预设公式,得到实际热度。将历史热度及实际热度输入第三预设公式,得到综合热度。
其中,采集数据量为一段时间(预设的时间段、至少一个采集周期或至少一个记录周期)内采集得到的数据量,新增数据量为两段时间采集得到的数据量的差。
S204:根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数。
在本步骤中,可以是将任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数输入预设的目标资源数计算公式,得到目标资源数。可以是周期性找到采集状态符合预设标准的采集对象,并改变其目标资源数。
S205:分配目标资源数的资源获取任一采集对象的数据。
在本步骤中,可以是调用数量为目标资源数的资源,获取上述任一采集对象的数据。
从上述实施例的描述可知,本申请实施例通过获取采集对象的历史采集周期、分配资源数和采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,根据期望采集周期及至少一个历史采集周期,确定采集对象的采集状态,由匹配的数据量、浏览量、采集数据量、期望采集周期计算采集对象的综合热度,并根据采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,得到目标资源数,并分配目标资源数的资源获取任一采集对象的数据。由于采用了采集对象的采集状态、综合热度更新了获取采集对象的数据所使用的资源数,所以提高了获得的数据的时效性。
在一种可能的实现方式中,上述步骤S202中,根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态,包括:
S2021:将任一采集对象的至少一个历史采集周期的平均值减去期望采集周期,得到周期差值。
在本步骤中,若只取一个历史采集周期,则历史采集周期的平均值就是这个历史采集周期的长度,若取至少两个历史采集周期,则平均值例如将2个、3个或5个等的历史采集周期取平均得到平均值。将得到的平均值减去期望采集周期,得到周期差值。本步骤采用的历史采集周期的数量可以是预设的。
例如,当前取最近的2个历史采集周期分别为2分钟、3分钟,则平均值为2分30秒,期望采集周期为2分钟,则周期差值为30秒。当前取3个历史采集周期分别为1小时、2小时、1.5小时,则平均值为1.5小时,期望采集周期为2小时,则周期差值为-0.5小时。
S2022:若周期差值与期望采集周期的比值大于或等于第一预设值,则将任一采集对象的采集状态确定为破线状态。
在本步骤中,周期差值与期望采集周期的比值可以是采用周期差值除以期望采集周期。第一预设值可以是小数、百分数等。
例如,周期差值为30秒,期望采集周期为2分钟,则比值为25%,若第一预设值为20%,则采集状态确定为破线状态。
其中,第一预设值还可以是0.19、24%等,本申请对此不作特殊限制。
S2023:若周期差值与期望采集周期的比值小于或等于第二预设值,则将任一采集对象的采集状态确定为空闲状态。
在本步骤中,第二预设值可以是上述第一预设值乘-1,也可以与上述第一预设值无关。
例如,周期差值为-0.5小时,期望采集周期为2小时,则比值为-25%,若第二预设值为-20%,则将采集状态确定为空闲状态。其中第二预设值还可以是其他数值,例如-0.17、-15%等,本申请对此不作特殊限制。
S2024:若周期差值与期望采集周期的比值小于第一预设值且大于第二预设值,则将任一采集对象的采集状态确定为正常状态。
在本步骤中,比值的计算方法与S2022、S2023类似,在这里不再赘述。
例如,比值为2%,第一预设值为10%,第二预设值为-15%,则比值小于第一预设值且大于第二预设值,将对应的采集状态确定为正常状态。又例如,比值为-2%,第一预设值为5%,第二预设值为-10%,则比值小于第一预设值且大于第二预设值,将对应的采集状态确定为正常状态。
从上述实施例的描述可知,本申请实施例通过将采集对象的预设个历史采集周期的平均值减去期望采集周期,得到周期差值,并将周期差值与第一预设值和第二预设之的大小作比较,在大于或等于第一预设值的情况下将采集状态确定为破线状态,在小于或等于第二预设值的情况下将采集状态确定为空闲状态,在大于第二预设值且小于第一预设值的情况下将采集状态确定为正常状态,实现了由历史采集周期的平均值及预设采集周期大小,得到采集对象的采集状态的效果,便于后续根据采集状态变更采集使用的资源数。
在一种可能的实现方式中,在上述步骤S203中,根据预设时间内的匹配的数据量、浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度,包括:
S2031:根据匹配的数据量、数据浏览量及采集数据量,计算任一采集对象的历史热度。
本步骤可以是将预设时间内匹配的数据量、数据浏览量及采集数据量输入预设的公式,得到任一采集对象的历史热度。
在一种可能的实现方式中,本步骤采用的公式如下:
式中,表示任一采集对象的历史热度,表示匹配的数据量,表示采集数据的数据浏览量,表示采集数据量,A、B、C均表示常数,log表示取对数。本公式可以是上述第一预设公式。
S2032:将预设个数的历史采集周期确定为一个记录周期。
在本步骤中,预设个数可以是3个,也可以是2个、5个等。
S2033:将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量,其中第一记录周期为当前时间之前的第N个记录周期,其中N为正整数。
其中,开始时可以是开始采集时,结束时可以是采集完成时,在记录周期开始时间对应的采集数据量可以为零,也可以为已有采集数据的数据量,由于在第一记录周期中进行了数据采集,结束时的采集数据量相对开始时的采集数据量会有所增加,从而通过将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量。
例如,第一记录周期结束时的采集数据量为600条,第一记录周期开始时的采集数据量为500条,则第一记录周期的采集数据量为100条。又例如,第一记录周期结束时的采集数据量为30条,第一记录周期开始时的采集数据量为5条,则第一记录周期的采集数据量为25条。
S2034:将第二记录周期结束时的采集数据量减第二记录周期开始时的采集数据量,得到第二记录周期的采集数据量,第二记录周期为当前时间之前的第N+1个记录周期。
本步骤与上述步骤S2033类似,在这里不再赘述。
S2035:将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量,其中第一记录周期为当前时间之前的第N个记录周期,第二记录周期为当前时间之前的第N+1个记录周期,其中N为正整数。新增数据量可以是记录周期的平均新增数据量。
在本步骤中,第一记录周期可以是当前时间之前的第1个记录周期,即最接近当前时间的记录周期,也可以是其他的记录周期。采集数据量可以在数据库中查询得到。若第N个记录周期为最近的记录周期,则第N+1个记录周期为第N个记录周期的前一个记录周期。记录周期的数据量为历史采集周期的数据量的和,与当前采集周期的数据量无关。
S2036:将新增数据量除以期望采集周期并取对数,得到任一采集对象的实际热度。
在本步骤中,可以是将平均新增数据量除以期望采集周期,得到数据增速,将增速取对数,得到实际热度。平均新增数据量可以是一个记录周期或几个记录周期内的平均新增数据量。
本步骤采用的公式如下:
其中,表示实际热度,log表示取对数, avg表示平均新增数据量,表示期望采集周期。本公式可以是上述第二预设公式。
S2037:将历史热度及实际热度以预设方式分别映射进预设区间内,得到映射历史热度及映射实际热度。
在本步骤中,可以是将历史热度输入预设的映射函数,得到映射历史热度,将实际热度输入预设的映射函数,得到映射实际热度。输入映射函数的还可以有所有采集目标对应的热度的最小值和热度的最大值,此时热度可以是历史热度也可以是实际热度。映射函数原理依据范围限定函数scale(hot,minTarget,maxTarget),将hot限定在minTarget和maxTarget之间,其中hot表示历史热度或实际热度,minTarget表示映射范围的最小值,maxTarget表示映射范围的最大值。
其中映射函数如下:
式中,表示映射历史热度或映射实际热度,表示历史热度或实际热度,表示所有历史热度或实际热度中的最大值,表示所有历史热度或实际热度中的最小值,H、I表示常数。历史热度或实际热度中的最大值或最小值,应与输入的历史热度或实际热度相对应。本公式可以是上述第三预设公式。
在上述加权求和的公式中,H可表示映射范围的最小值,I可以表示映射范围的最大值。例如H取1,I取100。
在一种可能的实现方式中,若采集对象没有历史热度,则按照预先标定的重要等级映射至固定范围,得到映射历史热度。
例如,采集对象的等级可以分为1至5,5个等级,可以映射至20至100得到映射历史热度。等级1可以映射为20、等级2映射为40、等级3映射为60等,也可以是采用预设的函数关系,将等级输入函数,得到映射历史热度。
S2038:将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度。
在本步骤中,可以是将映射历史热度与第一权重系数相乘,得到权重历史热度,将映射实际热度与第二权重系数相乘,得到权重实际热度,将权重历史热度与权重实际热度相加,得到综合热度。
其中第一权重系数可以为0.4、0.35、0.3等,第二权重系数可以为0.6、0.65、0.7等,第一权重系数与第二权重系数的和可以为1。综合热度越高说明数据越重要、实时流量可能较高。
在一种可能的实现方式中,将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度,采用的公式如下:
其中, 表示任一采集对象的综合热度, 表示映射实际热度,表示映射历史热度,表示权重系数。
从上述实施例的描述可知,本申请实施例通过将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量,根据新增数据量及期望采集周期,得到实际热度,并将实际热度及历史热度映射后,确定了综合热度,可以综合考虑采集对象的历史热度和实际热度,使后续得到的目标资源数更加符合数据热度,从而增加数据时效性
在一种可能的实现方式中,在上述步骤S204中,根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数,包括:
S2041:将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比。
在本步骤中,历史采集周期,可以是上述S2021中的历史采集周期的平均值,也可以是预设第X个历史采集周期。
S2042:将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值。
上述S2041和S2042,可以是采用如下公式综合表示:
式中,V表示超限热度值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期。
S2043:根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差。
在一种可能的实现方式中,本步骤采用的公式如下:
式中,表示资源数差,表示所有采集对象的超限热度值中的最大值,表示所有采集对象的超限热度值中的最小值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期,D、E、F、G均表示常数,log表示取对数。
式中,D、E可依据系统资源和待抓取对象量级估算调整,D例如1,E例如10,F、G例如1,F、G也可以取相对较小的数值,例如取二者较小值的百分之一、取二者较小值的十分之一等。
在一种可能的实现方式中,计算得到资源数差后还可以取整。
S2044:若任一采集对象的采集状态为破线状态,则将任一采集对象的分配资源数与资源数差相加,得到任一采集对象的目标资源数。
在本步骤中,例如,采集状态为破线状态,分配资源数为7,资源数差为2,则目标资源数为9。又例如,采集状态为破线状态,分配资源数为9,资源数差为3,则目标资源数为12。还例如,采集状态为破线状态,分配资源数为5,资源数差为1,则目标资源数为6。
S2045:若任一采集对象的采集状态为空闲状态,则将任一采集对象的分配资源数与资源数差相减,得到任一采集对象的目标资源数。
在本步骤中,例如,采集状态为空闲状态,分配资源数为7,资源数差为2,则目标资源数为5。又例如,采集状态为破线状态,分配资源数为9,资源数差为3,则目标资源数为6。还例如,采集状态为破线状态,分配资源数为4,资源数差为1,则目标资源数为3。
在一种可能的实现方式中,上述步骤S2041至S2045可以是周期性执行的。
从上述实施例的描述可知,本申请实施例通过将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比,将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值。根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,计算得到资源数差,并根据采集对象的采集状态将分配资源数与资源数差相加或相减,得到任一采集对象的目标资源数,实现增加破线状态的采集对象使用的资源数,将综合热度高且超时严重的目标优先给予更多的资源分配调整,降低空闲状态的采集对象使用的资源数,将综合热度低且不会超时的目标优先给予更少的资源分配调整。
在一种可能的实现方式中,在上述步骤S205,分配目标资源数的资源获取任一采集对象的数据之后,还包括:
S206:将新的历史采集周期与期望采集周期相减得到新的周期差值。
在本步骤中,新的历史采集周期可以是在采用目标资源数的资源获取数据时,获取一次使用的时间,也可以是多次采用目标资源数的资源获取数据的平均使用时间。
S207:若新的周期差值与期望采集周期的比值小于预设比值,则将目标资源数作为固定资源数,以采用固定资源数的资源获取任一采集对象的数据。
在本步骤中,预设比值例如10%、5%、0.02等,本申请对此不作特殊限制。得到固定资源数后,可以不再执行调整目标资源数的步骤。
S208:若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤。
在本步骤中,调整目标资源数的步骤可以是上述步骤S201至S205。可以在达到上述步骤S207的条件时停止重复执行步骤S201至S205。预设个周期内采集对象的新增数据量,可以是预设个周期中任一个周期的新增数据量,也可以是预设个周期的平均新增数据量。
S209:若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量小于预设值,则输出错误报告。
本步骤与上述步骤S208类似,在这里不再赘述。错误报告可以是文字报告,也可以是预设的提示信息。
从上述实施例的描述可知,本申请实施例通过将新的历史采集周期与期望采集周期作差,得到周期差值,可以反应周期延长或缩短的变化量,在周期差值与期望周期的比值小于预设比值时,将目标资源数作为固定资源数,并在后续采用固定资源数的资源获取数据,若比值大于或等于预设比值,且预设个周期内新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤,若比值大于或等于预设比值,且新增数据量小于预设值,则输出错误报告。实现在目标资源数与采集对象匹配时,使用目标资源数的资源进行数据采集,采集对象的数据增加较多时,调整目标资源数,在采集对象的数据增加较少,但新的周期用时比原有的历史采集周期更长时,确定为出错,输出错误报告以提示用户进行人工排查。
在一种可能的实现方式中,本申请的资源可以是线程,也可以是带宽、内存、处理器占用量等。本申请中的采集对象、综合热度、分配资源数、期望采集周期、平均新增数据量、历史采集周期和/或任务状态等,可以是以表格形式存储的,称为基线表,通过周期扫描基线表,进行目标资源数的调整,基线表例如表1。
表1 基线表(示意)
图3为本申请实施例提供的数据采集资源量控制装置的结构示意图。如图3所示,数据采集资源量控制装置300,包括:第一获取模块301、第一确定模块302、计算模块303、第二确定模块304及第二获取模块305。
第一获取模块301,用于获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中采集对象包括网址,采集数据包括采集得到的网址中的内容,历史采集周期为本采集周期以前的任一采集周期。
第一确定模块302,用于根据预设的期望采集周期及至少一个历史采集周期,确定任一采集对象的采集状态。
计算模块303,用于根据匹配的数据量、数据浏览量、采集数据量及期望采集周期,计算任一采集对象的综合热度。
第二确定模块304,用于根据任一采集对象的采集状态、历史采集周期、期望采集周期、综合热度及分配资源数,确定任一采集对象的目标资源数。
第二获取模块305,用于分配目标资源数的资源获取任一采集对象的数据。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的实现方式中,第一确定模块302,具体用于将任一采集对象的至少一个历史采集周期的平均值减去期望采集周期,得到周期差值。若周期差值与期望采集周期的比值大于或等于第一预设值,则将任一采集对象的采集状态确定为破线状态。若周期差值与期望采集周期的比值小于或等于第二预设值,则将任一采集对象的采集状态确定为空闲状态。若周期差值与期望采集周期的比值小于第一预设值且大于第二预设值,则将任一采集对象的采集状态确定为正常状态。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的实现方式中,计算模块303,具体用于根据匹配的数据量、数据浏览量及采集数据量,计算任一采集对象的历史热度。将预设个数的历史采集周期确定为一个记录周期。将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量,其中第一记录周期为当前时间之前的第N个记录周期,其中N为正整数。将第二记录周期结束时的采集数据量减第二记录周期开始时的采集数据量,得到第二记录周期的采集数据量,第二记录周期为当前时间之前的第N+1个记录周期;将第一记录周期的采集数据量减第二记录周期的采集数据量,得到新增数据量。将新增数据量除以期望采集周期并取对数,得到任一采集对象的实际热度。将历史热度及实际热度以预设方式分别映射进预设区间内,得到映射历史热度及映射实际热度。将映射历史热度和映射实际热度加权求和,得到任一采集对象的综合热度。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的实现方式中计算模块303,根据匹配的数据量、浏览量及采集数据量,计算任一采集对象的历史热度,采用的公式如下:
式中,表示任一采集对象的历史热度,表示匹配的数据量,表示数据浏览量,表示采集数据量,A、B、C均表示常数,log表示取对数。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的实现方式中,第二确定模块304,具体用于将各采集对象的历史采集周期除以期望采集周期,得到各采集对象的时间超限比。将各采集对象的综合热度与时间超限比相乘得到乘积,并取乘积的对数,得到各采集对象的超限热度值。根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差。若任一采集对象的采集状态为破线状态,则将任一采集对象的分配资源数与资源数差相加,得到任一采集对象的目标资源数。若任一采集对象的采集状态为空闲状态,则将任一采集对象的分配资源数与资源数差相减,得到任一采集对象的目标资源数。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的实现方式中,第二确定模块304,根据任一采集对象的综合热度、历史采集周期、期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差,采用的公式如下:
式中,表示资源数差,表示所有采集对象的超限热度值中的最大值,表示所有采集对象的超限热度值中的最小值,表示任一采集对象的综合热度,表示历史采集周期,表示期望采集周期,D、E、F、G均表示常数,log表示取对数。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的实现方式中,数据采集资源量控制装置300,还包括:差值获取模块306、第三确定模块307、资源调整模块308及报告输出模块309。
差值获取模块306,用于将新的历史采集周期与期望采集周期相减得到新的周期差值。
第三确定模块307,用于若新的周期差值与期望采集周期的比值小于预设比值,则将目标资源数作为固定资源数,以采用固定资源数的资源获取任一采集对象的数据。
资源调整模块308,用于若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤。
报告输出模块309,用于若新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内任一采集对象的新增数据量小于预设值,则输出错误报告。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
为了实现上述实施例,本申请实施例还提供了一种电子设备。
参考图4,其示出了适于用来实现本申请实施例的电子设备400的结构示意图,该电子设备400可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(Read Only Memory ,简称ROM)402中的程序或者从存储装置408加载到随机访问存储器(Random Access Memory ,简称RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(Liquid CrystalDisplay ,简称LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本申请实施例的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读存储介质可以是计算机可读信号介质或者计算机存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network ,简称LAN)或广域网(Wide Area Network ,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该模块本身的限定,例如,第一确定模块还可以被描述为“任一采集对象的采集状态确定模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现上述任一实施例中的数据采集资源量控制方法的技术方案,其实现原理以及有益效果与数据采集资源量控制方法的实现原理及有益效果类似,可参见数据采集资源量控制方法的实现原理及有益效果,此处不再进行赘述。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的数据采集资源量控制方法的技术方案,其实现原理以及有益效果与数据采集资源量控制方法的实现原理及有益效果类似,可参见数据采集资源量控制方法的实现原理及有益效果,此处不再进行赘述。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种数据采集资源量控制方法,其特征在于,包括:
获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取所述任一采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中所述采集对象包括网址,所述采集数据包括采集得到的网址中的内容,所述历史采集周期为本采集周期以前的任一采集周期;
根据预设的期望采集周期及至少一个所述历史采集周期,确定所述任一采集对象的采集状态;
根据所述匹配的数据量、所述数据浏览量、所述采集数据量及所述期望采集周期,计算所述任一采集对象的综合热度;
根据任一采集对象的所述采集状态、所述历史采集周期、所述期望采集周期、所述综合热度及所述分配资源数,确定任一采集对象的目标资源数;
分配所述目标资源数的资源获取所述任一采集对象的数据。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的期望采集周期及至少一个所述历史采集周期,确定所述任一采集对象的采集状态,包括:
将任一采集对象的至少一个所述历史采集周期的平均值减去所述期望采集周期,得到周期差值;
若所述周期差值与所述期望采集周期的比值大于或等于第一预设值,则将所述任一采集对象的采集状态确定为破线状态;
若所述周期差值与所述期望采集周期的比值小于或等于第二预设值,则将所述任一采集对象的采集状态确定为空闲状态;
若所述周期差值与所述期望采集周期的比值小于所述第一预设值且大于所述第二预设值,则将所述任一采集对象的采集状态确定为正常状态。
3.根据权利要求1所述的方法,其特征在于,所述根据所述匹配的数据量、所述数据浏览量、所述采集数据量及所述期望采集周期,计算所述任一采集对象的综合热度,包括:
根据所述匹配的数据量、所述数据浏览量及所述采集数据量,计算所述任一采集对象的历史热度;
将预设个数的所述历史采集周期确定为一个记录周期;
将第一记录周期结束时的采集数据量减第一记录周期开始时的采集数据量,得到第一记录周期的采集数据量,其中所述第一记录周期为当前时间之前的第N个记录周期,其中N为正整数;
将第二记录周期结束时的采集数据量减第二记录周期开始时的采集数据量,得到第二记录周期的采集数据量,所述第二记录周期为当前时间之前的第N+1个记录周期;
将所述第一记录周期的采集数据量减所述第二记录周期的采集数据量,得到新增数据量;
将所述新增数据量除以所述期望采集周期并取对数,得到所述任一采集对象的实际热度;
将所述历史热度及所述实际热度以预设方式分别映射进预设区间内,得到映射历史热度及映射实际热度;
将所述映射历史热度和所述映射实际热度加权求和,得到所述任一采集对象的综合热度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述匹配的数据量、所述数据浏览量及所述采集数据量,计算所述任一采集对象的历史热度,采用的公式如下:
式中,表示所述任一采集对象的历史热度,表示所述匹配的数据量,表示所述数据浏览量,表示所述采集数据量,A、B、C均表示常数,log表示取对数。
5.根据权利要求2所述的方法,其特征在于,所述根据任一采集对象的所述采集状态、所述历史采集周期、所述期望采集周期、所述综合热度及所述分配资源数,确定任一采集对象的目标资源数,包括:
将各采集对象的所述历史采集周期除以所述期望采集周期,得到所述各采集对象的时间超限比;
将各采集对象的所述综合热度与所述时间超限比相乘得到乘积,并取所述乘积的对数,得到所述各采集对象的超限热度值;
根据所述任一采集对象的所述综合热度、所述历史采集周期、所述期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差;
若任一采集对象的采集状态为所述破线状态,则将所述任一采集对象的所述分配资源数与所述资源数差相加,得到所述任一采集对象的目标资源数;
若所述任一采集对象的采集状态为所述空闲状态,则将所述任一采集对象的所述分配资源数与所述资源数差相减,得到所述任一采集对象的目标资源数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述任一采集对象的所述综合热度、所述历史采集周期、所述期望采集周期及所有采集对象的超限热度值中的最大值和最小值,确定资源数差,采用的公式如下:
式中,表示所述资源数差,表示所有采集对象的超限热度值中的最大值,表示所有采集对象的超限热度值中的最小值,表示所述任一采集对象的所述综合热度,表示所述历史采集周期,表示所述期望采集周期,D、E、F、G均表示常数,log表示取对数。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述分配所述目标资源数的资源获取所述任一采集对象的数据之后,还包括:
将新的历史采集周期与所述期望采集周期相减得到新的周期差值;
若所述新的周期差值与期望采集周期的比值小于预设比值,则将所述目标资源数作为固定资源数,以采用所述固定资源数的资源获取所述任一采集对象的数据;
若所述新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内所述任一采集对象的新增数据量大于或等于预设值,则重复执行调整目标资源数的步骤;
若所述新的周期差值与期望采集周期的比值大于或等于预设比值,且在预设个周期内所述任一采集对象的新增数据量小于预设值,则输出错误报告。
8.一种数据采集资源量控制装置,其特征在于,包括:
第一获取模块,用于获取任一采集对象对应的预设时间内的采集数据量、采集数据中与预设热点匹配的数据量及采集得到的数据浏览量,并读取采集对象对应的预先存储的各历史采集周期及本采集周期的分配资源数,其中所述采集对象包括网址,所述采集数据包括采集得到的网址中的内容,所述历史采集周期为本采集周期以前的任一采集周期;
第一确定模块,用于根据预设的期望采集周期及至少一个所述历史采集周期,确定所述任一采集对象的采集状态;
计算模块,用于根据所述匹配的数据量、所述数据浏览量、所述采集数据量及所述期望采集周期,计算所述任一采集对象的综合热度;
第二确定模块,用于根据任一采集对象的所述采集状态、所述历史采集周期、所述期望采集周期、所述综合热度及所述分配资源数,确定任一采集对象的目标资源数;
第二获取模块,用于分配所述目标资源数的资源获取所述任一采集对象的数据。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至7中任一项所述的数据采集资源量控制方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的数据采集资源量控制方法。
CN202211256657.5A 2022-10-14 2022-10-14 数据采集资源量控制方法、装置、设备及存储介质 Active CN115329179B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211256657.5A CN115329179B (zh) 2022-10-14 2022-10-14 数据采集资源量控制方法、装置、设备及存储介质
PCT/CN2023/106837 WO2024078070A1 (zh) 2022-10-14 2023-07-11 数据采集资源量控制方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211256657.5A CN115329179B (zh) 2022-10-14 2022-10-14 数据采集资源量控制方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115329179A CN115329179A (zh) 2022-11-11
CN115329179B true CN115329179B (zh) 2023-04-28

Family

ID=83914108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211256657.5A Active CN115329179B (zh) 2022-10-14 2022-10-14 数据采集资源量控制方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN115329179B (zh)
WO (1) WO2024078070A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329179B (zh) * 2022-10-14 2023-04-28 卡奥斯工业智能研究院(青岛)有限公司 数据采集资源量控制方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011076486A1 (en) * 2009-12-23 2011-06-30 International Business Machines Corporation A method and system for dynamic workload allocation in a computing center which optimizes the overall energy consumption
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN105677489A (zh) * 2016-03-04 2016-06-15 山东大学 离散流处理模型下批次间隔大小的动态设置系统及方法
CN106649865A (zh) * 2016-12-31 2017-05-10 深圳市优必选科技有限公司 一种分布式服务器系统及数据处理方法
WO2019109797A1 (zh) * 2017-12-05 2019-06-13 Oppo广东移动通信有限公司 网页资源的获取方法、装置、终端及存储介质
WO2019205804A1 (zh) * 2018-04-23 2019-10-31 中兴通讯股份有限公司 网页预下载方法及装置、存储介质和电子装置
CN111881343A (zh) * 2020-07-07 2020-11-03 Oppo广东移动通信有限公司 信息推送方法、装置、电子设备及计算机可读存储介质
CN113660699A (zh) * 2021-06-30 2021-11-16 齐喝彩(常熟)信息科技有限公司 一种智能集群联网方法、装置及电子设备
CN114780579A (zh) * 2022-05-05 2022-07-22 卡奥斯工业智能研究院(青岛)有限公司 基于工业互联网的数据查找方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287684A1 (en) * 2008-05-14 2009-11-19 Bennett James D Historical internet
US8856321B2 (en) * 2011-03-31 2014-10-07 International Business Machines Corporation System to improve operation of a data center with heterogeneous computing clouds
US8782031B2 (en) * 2011-08-09 2014-07-15 Microsoft Corporation Optimizing web crawling with user history
CN105912552A (zh) * 2015-12-23 2016-08-31 乐视网信息技术(北京)股份有限公司 网页视频抓取的方法及网页视频抓取的终端设备
WO2019180489A1 (en) * 2018-03-21 2019-09-26 Pratik Sharma Frequency based distributed web crawling
CN109388736A (zh) * 2018-09-21 2019-02-26 真相网络科技(北京)有限公司 爬虫系统中的响应调度方法
CN112019451B (zh) * 2019-05-29 2023-11-21 中国移动通信集团安徽有限公司 带宽分配方法、调试网元、本地缓存服务器及计算设备
CN113536085B (zh) * 2021-06-23 2023-05-19 西华大学 基于组合预测法的主题词搜索爬虫调度方法及其系统
CN115329179B (zh) * 2022-10-14 2023-04-28 卡奥斯工业智能研究院(青岛)有限公司 数据采集资源量控制方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011076486A1 (en) * 2009-12-23 2011-06-30 International Business Machines Corporation A method and system for dynamic workload allocation in a computing center which optimizes the overall energy consumption
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN105677489A (zh) * 2016-03-04 2016-06-15 山东大学 离散流处理模型下批次间隔大小的动态设置系统及方法
CN106649865A (zh) * 2016-12-31 2017-05-10 深圳市优必选科技有限公司 一种分布式服务器系统及数据处理方法
WO2019109797A1 (zh) * 2017-12-05 2019-06-13 Oppo广东移动通信有限公司 网页资源的获取方法、装置、终端及存储介质
WO2019205804A1 (zh) * 2018-04-23 2019-10-31 中兴通讯股份有限公司 网页预下载方法及装置、存储介质和电子装置
CN111881343A (zh) * 2020-07-07 2020-11-03 Oppo广东移动通信有限公司 信息推送方法、装置、电子设备及计算机可读存储介质
CN113660699A (zh) * 2021-06-30 2021-11-16 齐喝彩(常熟)信息科技有限公司 一种智能集群联网方法、装置及电子设备
CN114780579A (zh) * 2022-05-05 2022-07-22 卡奥斯工业智能研究院(青岛)有限公司 基于工业互联网的数据查找方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"智能制造车间中数控机床数据采集与监控系统研究与开发";邢嘉路;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20190515;第B022-574页 *
基于用户历史瓦片浏览记录的兴趣点智能搜索方法优化研究;丛杨等;《地理信息世界》;20190425(第02期);第100-103页 *
网络资源的多层监测方法与实现;张寅生等;《计算机与数字工程》;20090920(第09期);第151-154页 *

Also Published As

Publication number Publication date
CN115329179A (zh) 2022-11-11
WO2024078070A1 (zh) 2024-04-18

Similar Documents

Publication Publication Date Title
CN109299348B (zh) 一种数据查询方法、装置、电子设备及存储介质
CN110704751B (zh) 数据处理方法、装置、电子设备及存储介质
JP2020173778A (ja) リソースの割り当て方法、装置、電子設備、コンピュータ可読媒体およびコンピュータプログラム
CN110765354B (zh) 信息的推送方法、装置、电子设备及存储介质
CN115329179B (zh) 数据采集资源量控制方法、装置、设备及存储介质
CN111985831A (zh) 云计算资源的调度方法、装置、计算机设备及存储介质
CN113159453A (zh) 资源数据预测方法、装置、设备及存储介质
CN111857518A (zh) 图像编辑操作的撤销方法、装置、电子设备及介质
CN111414568B (zh) 一种信息展示方法、装置、电子设备及存储介质
CN116541174A (zh) 存储设备容量处理方法、装置、设备及存储介质
CN116594568A (zh) 一种数据存储方法、装置、电子设备及存储介质
CN116433388A (zh) 数据存储资源划分方法、装置、电子设备和计算机介质
CN112019406B (zh) 流量监控方法、装置、电子设备和计算机可读介质
CN113760178A (zh) 缓存数据处理方法、装置、电子设备和计算机可读介质
CN114257521A (zh) 流量预测方法、装置、电子设备和存储介质
CN113867643A (zh) 数据存储方法、装置、设备及存储介质
CN112100159A (zh) 数据处理方法、装置、电子设备和计算机可读介质
CN112163176A (zh) 数据存储方法、装置、电子设备和计算机可读介质
CN112416989A (zh) 互联网演艺经纪人平台的管理方法、装置及电子设备
CN112073202B (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN116757443B (zh) 新型配电网电力线损率预测方法、装置、电子设备和介质
CN110633115A (zh) 一种任务分发方法、装置、电子设备及存储介质
CN113077351A (zh) 应用于保险行业的信息推送方法、装置、电子设备和介质
CN118195390A (zh) 数据配置方法、装置、电子设备及存储介质
CN117421180A (zh) 一种数据资源健康维护方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 266000 No. 1, Minshan Road, Qingdao area, China (Shandong) pilot Free Trade Zone, Qingdao, Shandong

Patentee after: CAOS industrial Intelligence Research Institute (Qingdao) Co.,Ltd.

Patentee after: Karos IoT Technology Co.,Ltd.

Patentee after: Haier digital technology (Qingdao) Co.,Ltd.

Address before: 266000 No. 1, Minshan Road, Qingdao area, China (Shandong) pilot Free Trade Zone, Qingdao, Shandong

Patentee before: CAOS industrial Intelligence Research Institute (Qingdao) Co.,Ltd.

Patentee before: Haier Kaos IOT Technology Co.,Ltd.

Patentee before: Haier digital technology (Qingdao) Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 266000 No. 1, Minshan Road, Qingdao area, China (Shandong) pilot Free Trade Zone, Qingdao, Shandong

Patentee after: CAOS industrial Intelligence Research Institute (Qingdao) Co.,Ltd.

Patentee after: Karos IoT Technology Co.,Ltd.

Patentee after: Kaos Digital Technology (Qingdao) Co.,Ltd.

Address before: 266000 No. 1, Minshan Road, Qingdao area, China (Shandong) pilot Free Trade Zone, Qingdao, Shandong

Patentee before: CAOS industrial Intelligence Research Institute (Qingdao) Co.,Ltd.

Patentee before: Karos IoT Technology Co.,Ltd.

Patentee before: Haier digital technology (Qingdao) Co.,Ltd.

CP01 Change in the name or title of a patent holder