CN110096311B - 流式计算中聚合时间的评估方法、装置、设备及存储介质 - Google Patents

流式计算中聚合时间的评估方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110096311B
CN110096311B CN201910205511.XA CN201910205511A CN110096311B CN 110096311 B CN110096311 B CN 110096311B CN 201910205511 A CN201910205511 A CN 201910205511A CN 110096311 B CN110096311 B CN 110096311B
Authority
CN
China
Prior art keywords
aggregation
time
data
amount
data density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910205511.XA
Other languages
English (en)
Other versions
CN110096311A (zh
Inventor
赵环宇
李帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910205511.XA priority Critical patent/CN110096311B/zh
Publication of CN110096311A publication Critical patent/CN110096311A/zh
Application granted granted Critical
Publication of CN110096311B publication Critical patent/CN110096311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3867Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种流式计算中聚合时间的评估方法、装置、电子设备及存储介质。该方法包括:建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比;获取系统每秒可承受的最大写入量;根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值。本申请实施例不再依赖于人工对聚合时间进行评估,可以根据系统每秒可承受的最大写入量和历史数据得到聚合时间的值,提高了聚合时间的评估准确性,提高了流式计算系统的稳定性,并提高了聚合时间的评估效率,节省了人力。

Description

流式计算中聚合时间的评估方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别是涉及一种流式计算中聚合时间的评估方法、装置、电子设备及存储介质。
背景技术
流式计算是要处理一个无限延伸的数据流的计算。这样的场景下,流式计算永远无法计算全部的数据。
为了能对无限延伸的数据流进行计算,流式计算通常会将数据聚合一段时间,然后再发送给下游进行计算和存储。聚合时间成为了影响流式计算的一个重要指标。聚合时间过短,对下游的写压力就大;聚合时间过长,业务延迟就大。
现有技术中,对于聚合时间的设置为人为经验预估。人工调整聚合时间费时费力,每次上线一种新的业务,都需要人为的干预聚合时间的设置。而且人工预估聚合时间易不准确,人工预估失误易对下游造成不必要的写压力,从而对整个计算系统的稳定性产生不良影响。
发明内容
本申请实施例提供一种流式计算中聚合时间的评估方法、装置、电子设备及存储介质,有助于提升聚合时间的准确性并提高聚合时间的评估效率。
为了解决上述问题,第一方面,本申请实施例提供了一种流式计算中聚合时间的评估方法,包括:
建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比;
获取系统每秒可承受的最大写入量;
根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值。
第二方面,本申请实施例提供了一种流式计算中聚合时间的评估装置,包括:
对应关系建立模块,用于建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比;
系统写入量获取模块,用于获取系统每秒可承受的最大写入量;
聚合时间确定模块,用于根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的流式计算中聚合时间的评估方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的流式计算中聚合时间的评估方法的步骤。
本申请实施例公开的流式计算中聚合时间的评估方法、装置、电子设备及存储介质,通过建立数据密度与流式计算中的聚合时间的对应关系,数据密度为聚合后数据量与聚合前数据量之比,获取系统每秒可承受的最大写入量,根据所述对应关系和历史数据,当数据密度与聚合时间内的最大写入量之积等于系统每秒可承受的最大写入量时,确定聚合时间的值,不再依赖于人工对聚合时间进行评估,可以根据系统每秒可承受的最大写入量和历史数据得到聚合时间的值,提高了聚合时间的评估准确性,提高了流式计算系统的稳定性,并提高了聚合时间的评估效率,节省了人力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种流式计算中聚合时间的评估方法的流程图;
图2是本申请实施例中的数据密度随着聚合时间的变化规律示意图;
图3是本申请实施例二提供的一种流式计算中聚合时间的评估方法的流程图;
图4是本申请实施例中的确定聚合时间的值的流程图;
图5是本申请实施例中的对聚合时间进行二分查找时的计算过程示意图;
图6是本申请实施例三提供的一种流式计算中聚合时间的评估装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1是本申请实施例一提供的一种流式计算中聚合时间的评估方法的流程图,如图1所示,该方法具体包括如下步骤:
步骤110,建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比。
其中,流式计算经常要针对指定纬度(如门店纬度或用户纬度等)的数据进行聚合计算,进行聚合计算时需要将数据按照指定纬度聚合,聚合后相同纬度的多条数据聚合成了一条。例如,在门店纬度,聚合计算可以是统计每个门店的用户访问量或者下单量等;在用户纬度,聚合计算可以是统计每个用户的访问量等。
针对指定纬度的数据,一次事件的发生产生一个待聚合的数据,如一次用户请求产生一个用户请求数据,而待聚合的事件的发生是相互独立的,因此,在时间区间[t,t+τ]发生的事件的数目的概率分布符合泊松过程,通过公式表示如下:
Figure BDA0001998843670000041
其中,τ代表时间间隔,λ代表在单位时间间隔内事件发生的次数,λτ代表在时间间隔τ内事件发生的次数,k代表事件发生的次数,P[N(t+τ)-N(t)=k]代表在时间区间[t,t+τ]内事件发生k次的概率。
数据密度为聚合后数据量与聚合前数据量之比,用于描述聚合后数据量与聚合前数据量的关系。聚合后数据量和聚合前数据量的概率分布分别符合泊松过程,在样本总量确定的情况下,可通过上述概率分布得到聚合后数据量与聚合时间τ的对应关系,以及聚合前数据量与聚合时间τ的对应关系,由于数据密度为聚合后数据量与聚合前数据量之比,因此可以得到数据密度与流式计算中的聚合时间的对应关系。
示例性的,聚合计算是统计用户的访问量,则聚合前数据量为用户的访问记录,即一次用户请求产生一次访问记录,聚合后数据量则是将相同用户的多条记录聚合为一条。例如,一个用户在一个时间段内访问了10次,则产生10次访问记录,而进行聚合计算后,则只有一条记录,即该用户对应的访问量为10。
在本申请的一些实施例中,所述聚合前数据量和聚合后数据量的概率分布分别符合泊松过程;所述建立数据密度与流式计算中的聚合时间的对应关系的步骤,包括:根据历史数据,确定聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数和聚合后样本总量;根据所述聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数和聚合后样本总量以及预先建立的数据密度模型,建立数据密度与所述聚合时间的对应关系;其中,所述预先建立的数据密度模型是根据聚合前数据量的概率分布所符合的泊松过程和聚合后数据量的概率分布所符合的泊松过程确定的。
其中,所述预先建立的数据密度模型包括聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数、聚合后样本总量和聚合时间这五个参数,这五个参数均为未知量,从而将确定的聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数和聚合后样本总量这四个参数的值代入该预先建立的数据密度模型中,得到数据密度与聚合时间的对应关系。
在本申请的一些实施例中,所述数据密度与所述聚合时间的对应关系通过下述公式表示:
Figure BDA0001998843670000051
其中,τ表示聚合时间,ρ(τ)表示聚合时间内的数据密度,N1为聚合后样本总量,N2为聚合前样本总量,λ1表示聚合后单位时间间隔内事件发生次数,λ2表示聚合前单位时间间隔内事件发生次数,α=(λ12)k,k表示事件发生次数,即聚合时间内的数据量。
聚合前数据量的概率分布和聚合后的概率分布分别符合泊松过程。数据量预估公式为:P[k]×N,则聚合后数据量可表示为P1[k]×N1,聚合前数据量可表示为P2[k]×N2,则
Figure BDA0001998843670000052
令α=(λ12)k,则
Figure BDA0001998843670000053
上述数据密度的公式即为预先建立的数据密度模型,在上述数据密度的公式中,除τ外,其他参数通过历史数据都可以得到,在通过历史数据得到其他参数的值后,数据密度就只与聚合时间τ有关了,因此,得到了数据密度与聚合时间的对应关系。
根据待聚合的指定纬度的数据,获取对应的历史数据,并对历史数据进行统计,可以确定事件发生次数k、聚合前单位时间间隔内事件发生次数λ2、聚合前样本总量N2、聚合后单位时间间隔内事件发生次数λ2和聚合后样本总量N1。从而根据上述数据密度的公式,可以建立数据密度ρ(τ)与聚合时间τ的对应关系。在确定事件发生次数k时,可以根据历史数据中的一个指定时间段,将该指定时间段的事件发生次数作为所述k的值,或者,还可以是根据历史数据中的多个指定时间段的事件发生次数,求取平均值,作为k的值。针对聚合前样本总量和聚合后样本总量,一般会保持一段时间(例如一个月)不变,因此,可以根据预定的统计周期进行统计,例如一个月统计一次。例如,聚合计算是统计用户的访问量时,聚合前样本总量可以是聚合时间内的请求数据总量,聚合后样本总量是总的用户数。
数据密度ρ(τ)随着聚合时间τ的变化规律如图2所示,即随着聚合时间τ的延长,数据密度ρ(τ)呈指数形式减小,存在一个最佳的聚合时间,使得数据密度达到理想数据密度。
步骤120,获取系统每秒可承受的最大写入量。
系统是指的流式计算系统,系统每秒可承受的最大写入量是一个定值。
步骤130,根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值。
其中,聚合时间内的最大写入量是一个定值,可以通过历史数据得到,可以是历史数据中的一个最大值,例如是历史数据中的某一秒的最大值。
当数据密度与聚合时间内的最大写入量之积等于系统每秒可承受的最大写入量时,此时的聚合时间的值为最佳值。在聚合时间给定时,可通过历史数据得到聚合时间内的最大写入量。因此,可通过对聚合时间进行查找的方式来确定聚合时间的值。可以根据系统最大延时时间,确定聚合时间的查找区间,从该区间中对聚合时间进行查找,当针对一个查找到的聚合时间的值,数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定此时所述聚合时间的值,此时聚合时间的值为流式计算中的聚合时间的最佳值。
在针对指定纬度的数据,需要确定聚合时间时,可以执行步骤130的操作,来确定聚合时间的值。例如,需要确定聚合时间可以是到达评估聚合时间的触发时间,如在一天内的设定时间对聚合时间进行评估,设定时间可以是流式计算系统的空闲时间。
本申请实施例提供的流式计算中的聚合时间的评估方法,通过建立数据密度与流式计算中的聚合时间的对应关系,数据密度为聚合后数据量与聚合前数据量之比,获取系统每秒可承受的最大写入量,根据所述对应关系和历史数据,当数据密度与聚合时间内的最大写入量之积等于系统每秒可承受的最大写入量时,确定聚合时间的值,不再依赖于人工对聚合时间进行评估,可以根据系统每秒可承受的最大写入量和历史数据得到聚合时间的值,提高了聚合时间的评估准确性,提高了流式计算系统的稳定性,并提高了聚合时间的评估效率,节省了人力。
实施例二
图3是本申请实施例二提供的一种流式计算中聚合时间的评估方法的流程图,如图3所示,该方法具体包括如下步骤:
步骤310,建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比。
本步骤的具体内容与上述实施例中的步骤110的具体内容相同,这里不再赘述。
步骤320,获取系统每秒可承受的最大写入量。
本步骤的具体内容与上述实施例中的步骤120的具体内容相同,这里不再赘述。
步骤330,根据系统最大延时时间,建立所述聚合时间的二分查找区间。
其中,系统最大延时时间是系统允许的最大延时时间,例如,可以是1分钟。
假设系统最大延时时间为T,则建立的聚合时间的二分查找区间为(0,T]。
步骤340,根据所述对应关系和历史数据,基于所述二分查找区间对所述聚合时间进行二分查找,以使得所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并确定所述聚合时间的值。
在本申请的一些实施例中,如图4所示,所述根据所述对应关系和历史数据,基于所述二分查找区间对所述聚合时间进行二分查找,以使得所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并确定所述聚合时间的值的步骤,可以包括如下步骤:
步骤341,基于所述二分查找区间,生成延迟时间。
其中,二分查找也称折半查找,它是一种效率较高的查找方法。但是,折半查找要求线性表必须采用顺序存储结构,而且表中元素按关键字有序排列。
在首次进行二分查找时,可以从二分查找区间中随机选取一个值,作为延迟时间,后续生成延迟时间时,可以选取二分查找区间中的中间值作为延迟时间。
步骤342,根据所述延迟时间及历史数据,确定所述延迟时间内的最大写入量和所述数据密度。
根据延迟时间,查询历史数据,确定延迟时间内的最大写入量。将所述延迟时间带入上述数据密度的公式中,可以确定数据密度的值。
步骤343,判断所述数据密度与所述延迟时间内的最大写入量之积是否等于所述系统每秒可承受的最大写入量,如果判断结果为是,则执行步骤344,如果判断结果为否,则执行步骤345。
假设系统每秒可承受的最大写入量为
Figure BDA0001998843670000081
延迟时间τ内的最大写入量为
Figure BDA0001998843670000082
则三者关系为
Figure BDA0001998843670000083
Figure BDA0001998843670000084
Figure BDA0001998843670000085
则系统无法承受,因此,当
Figure BDA0001998843670000086
时,τ的值为聚合时间的最佳值。
步骤344,二分查找结束,将所述延迟时间作为所述聚合时间的值。
步骤345,基于判断结果,重新生成二分查找区间,并循环执行上述步骤341-步骤345。
图5是本申请实施例中的对聚合时间进行二分查找时的计算过程示意图,如图5所示,在通过二分查找区间生成延迟时间后,基于延迟时间和历史数据确定延迟时间内的最大写入量和数据密度,并判断数据密度与延迟时间内的最大写入量之积是否符合期望,即是否与系统每秒可承受的最大写入量相等,在判断结果为是时,输出延迟时间的值,作为聚合时间的值,在判断结果为否时,重新生成二分查找区间,并进行上述的判断。
在本申请的一些实施例中,所述基于判断结果,重新生成二分查找区间,并循环执行上述确定延迟时间及判断的操作,直至所述数据密度与所述延迟时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并将所述延迟时间作为所述聚合时间的值的步骤,包括:若所述数据密度与所述延迟时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,则二分查找结束,将所述延迟时间作为所述聚合时间的值;若所述数据密度与所述延迟时间内的最大写入量之积小于所述系统每秒可承受的最大写入量,则重新生成以所述二分查找区间的下限作为下限和所述延迟时间作为上限的二分查找区间,并循环执行上述确定延迟时间及判断的操作;若所述数据密度与所述延迟时间内的最大写入量之积大于所述系统每秒可承受的最大写入量,则重新生成以所述二分查找区间的上限作为上限和所述延迟时间作为下限的二分查找区间,并循环执行上述确定延迟时间及判断的操作。
本申请实施例提供的流式计算中聚合时间的评估方法,在上述实施例的基础上,通过根据系统最大延时时间,建立聚合时间的二分查找区间,根据所述对应关系和历史数据,基于所述二分查找区间对聚合时间进行二分查找,以使得数据密度与聚合时间内的最大写入量之积等于系统每秒可承受的最大写入量,并确定聚合时间的值,通过二分查找来确定聚合时间的值,可以进一步提高聚合时间的评估效率。
实施例三
图6是本申请实施例三提供的一种流式计算中聚合时间的评估装置的结构框图,如图6所示,所述装置包括:
对应关系建立模块610,用于建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比;
系统写入量获取模块620,用于获取系统每秒可承受的最大写入量;
聚合时间确定模块630,用于根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值。
可选的,所述聚合前数据量和聚合后数据量的概率分布分别符合泊松过程;
所述对应关系建立模块包括:
相关数据确定单元,用于根据历史数据,确定聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数和聚合后样本总量;
对应关系建立单元,用于根据所述聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数、聚合后样本总量以及预先建立的数据密度模型,建立数据密度与所述聚合时间的对应关系;
其中,所述预先建立的数据密度模型是根据聚合前数据量的概率分布所符合的泊松过程和聚合后数据量的概率分布所符合的泊松过程建立的。
可选的,所述数据密度与所述聚合时间的对应关系通过下述公式表示:
Figure BDA0001998843670000101
其中,τ表示聚合时间,ρ(τ)表示聚合时间内的数据密度,N1为聚合后样本总量,N2为聚合前样本总量,λ1表示聚合后单位时间间隔内事件发生次数,λ2表示聚合前单位时间间隔内事件发生次数,α=(λ12)k,k表示聚合时间内的数据量。
可选的,所述聚合时间确定模块包括:
查找区间建立单元,用于根据系统最大延时时间,建立所述聚合时间的二分查找区间;
聚合时间确定单元,用于根据所述对应关系和历史数据,基于所述二分查找区间对所述聚合时间进行二分查找,以使得所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并确定所述聚合时间的值。
可选的,所述聚合时间确定单元包括:
延迟时间生成子单元,用于基于所述二分查找区间,生成延迟时间;
数据确定子单元,用于根据所述延迟时间及历史数据,确定所述延迟时间内的最大写入量和所述数据密度;
判断子单元,用于判断所述数据密度与所述延迟时间内的最大写入量之积是否等于所述系统每秒可承受的最大写入量;
调整子单元,用于基于判断结果,重新生成二分查找区间,并循环执行上述确定延迟时间及判断的操作,直至所述数据密度与所述延迟时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并将所述延迟时间作为所述聚合时间的值。
可选的,所述调整子单元具体用于:
若所述数据密度与所述延迟时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,则二分查找结束,将所述延迟时间作为所述聚合时间的值;
若所述数据密度与所述延迟时间内的最大写入量之积小于所述系统每秒可承受的最大写入量,则重新生成以所述二分查找区间的下限作为下限和所述延迟时间作为上限的二分查找区间,并循环执行上述确定延迟时间及判断的操作;
若所述数据密度与所述延迟时间内的最大写入量之积大于所述系统每秒可承受的最大写入量,则重新生成以所述二分查找区间的上限作为上限和所述延迟时间作为下限的二分查找区间,并循环执行上述确定延迟时间及判断的操作。
本申请实施例提供的流式计算中聚合时间的评估装置,用于实现本申请实施例中所述的流式计算中聚合时间的评估方法的各步骤,装置的各模块的具体实施方式参见相应步骤,此处不再赘述。
本申请实施例公开的流式计算中聚合时间的评估装置,通过建立数据密度与流式计算中的聚合时间的对应关系,数据密度为聚合后数据量与聚合前数据量之比,获取系统每秒可承受的最大写入量,根据所述对应关系和历史数据,当数据密度与聚合时间内的最大写入量之积等于系统每秒可承受的最大写入量时,确定聚合时间的值,不再依赖于人工对聚合时间进行评估,可以根据系统每秒可承受的最大写入量和历史数据得到聚合时间的值,提高了聚合时间的评估准确性,提高了流式计算系统的稳定性,并提高了聚合时间的评估效率,节省了人力。
相应的,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的流式计算中聚合时间的评估方法。所述电子设备可以为服务器、PC机、移动终端、个人数字助理、平板电脑等。
本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的流式计算中聚合时间的评估方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请实施例提供的一种流式计算中聚合时间的评估方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (10)

1.一种流式计算中聚合时间的评估方法,其特征在于,包括:
建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比;
获取系统每秒可承受的最大写入量;
根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值;
其中,所述历史数据为一定聚合时间内指定纬度下的待聚合数据的集合。
2.根据权利要求1所述的方法,其特征在于,所述聚合前数据量和聚合后数据量的概率分布分别符合泊松过程;
所述建立数据密度与流式计算中的聚合时间的对应关系的步骤,包括:
根据历史数据,确定聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数和聚合后样本总量;
根据所述聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数、聚合后样本总量以及预先建立的数据密度模型,建立数据密度与所述聚合时间的对应关系;
其中,所述预先建立的数据密度模型是根据聚合前数据量的概率分布所符合的泊松过程和聚合后数据量的概率分布所符合的泊松过程建立的。
3.根据权利要求2所述的方法,其特征在于,所述数据密度与所述聚合时间的对应关系通过下述公式表示:
Figure FDA0002868005880000011
其中,τ表示聚合时间,ρ(τ)表示聚合时间内的数据密度,N1为聚合后样本总量,N2为聚合前样本总量,λ1表示聚合后单位时间间隔内事件发生次数,λ2表示聚合前单位时间间隔内事件发生次数,α=(λ12)k,k表示聚合时间内的数据量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值的步骤,包括:
根据系统最大延时时间,建立所述聚合时间的二分查找区间;
根据所述对应关系和历史数据,基于所述二分查找区间对所述聚合时间进行二分查找,以使得所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并确定所述聚合时间的值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述对应关系和历史数据,基于所述二分查找区间对所述聚合时间进行二分查找,以使得所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并确定所述聚合时间的值的步骤,包括:
基于所述二分查找区间,生成延迟时间;
根据所述延迟时间及历史数据,确定所述延迟时间内的最大写入量和所述数据密度;
判断所述数据密度与所述延迟时间内的最大写入量之积是否等于所述系统每秒可承受的最大写入量;
基于判断结果,重新生成二分查找区间,并循环执行上述确定延迟时间及判断的操作,直至所述数据密度与所述延迟时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并将所述延迟时间作为所述聚合时间的值。
6.根据权利要求5所述的方法,其特征在于,所述基于判断结果,重新生成二分查找区间,并循环执行上述确定延迟时间及判断的操作,直至所述数据密度与所述延迟时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,并将所述延迟时间作为所述聚合时间的值的步骤,包括:
若所述数据密度与所述延迟时间内的最大写入量之积等于所述系统每秒可承受的最大写入量,则二分查找结束,将所述延迟时间作为所述聚合时间的值;
若所述数据密度与所述延迟时间内的最大写入量之积小于所述系统每秒可承受的最大写入量,则重新生成以所述二分查找区间的下限作为下限和所述延迟时间作为上限的二分查找区间,并循环执行上述确定延迟时间及判断的操作;
若所述数据密度与所述延迟时间内的最大写入量之积大于所述系统每秒可承受的最大写入量,则重新生成以所述二分查找区间的上限作为上限和所述延迟时间作为下限的二分查找区间,并循环执行上述确定延迟时间及判断的操作。
7.一种流式计算中聚合时间的评估装置,其特征在于,包括:
对应关系建立模块,用于建立数据密度与流式计算中的聚合时间的对应关系,所述数据密度为聚合后数据量与聚合前数据量之比;
系统写入量获取模块,用于获取系统每秒可承受的最大写入量;
聚合时间确定模块,用于根据所述对应关系和历史数据,当所述数据密度与所述聚合时间内的最大写入量之积等于所述系统每秒可承受的最大写入量时,确定所述聚合时间的值;
其中,所述历史数据为一定聚合时间内指定纬度下的待聚合数据的集合。
8.根据权利要求7所述的装置,其特征在于,所述聚合前数据量和聚合后数据量的概率分布分别符合泊松过程;
所述对应关系建立模块包括:
相关数据确定单元,用于根据历史数据,确定聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数和聚合后样本总量;
对应关系建立单元,用于根据所述聚合前数据量的概率分布、聚合后数据量的概率分布、所述聚合前单位时间间隔内事件发生次数、聚合前样本总量、聚合后单位时间间隔内事件发生次数和聚合后样本总量,建立数据密度与所述聚合时间的对应关系。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的流式计算中聚合时间的评估方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任意一项所述的流式计算中聚合时间的评估方法的步骤。
CN201910205511.XA 2019-03-18 2019-03-18 流式计算中聚合时间的评估方法、装置、设备及存储介质 Active CN110096311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910205511.XA CN110096311B (zh) 2019-03-18 2019-03-18 流式计算中聚合时间的评估方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910205511.XA CN110096311B (zh) 2019-03-18 2019-03-18 流式计算中聚合时间的评估方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110096311A CN110096311A (zh) 2019-08-06
CN110096311B true CN110096311B (zh) 2021-05-25

Family

ID=67443381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910205511.XA Active CN110096311B (zh) 2019-03-18 2019-03-18 流式计算中聚合时间的评估方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110096311B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291082B (zh) * 2020-01-20 2023-10-31 北京百度网讯科技有限公司 数据聚合处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8194552B1 (en) * 2005-02-18 2012-06-05 Sprint Communications Company L.P. System and method for trace replay using parallelized streams
CN102833160A (zh) * 2012-08-17 2012-12-19 北京航空航天大学 基于接触预测的大规模移动容迟网络分簇路由方法及其系统
CN107086929A (zh) * 2017-04-16 2017-08-22 北京工业大学 一种基于排队建模的批量流式计算系统性能保障方法
CN107208158A (zh) * 2015-02-27 2017-09-26 赛卢拉研究公司 空间上可寻址的分子条形编码
CN108108488A (zh) * 2018-01-12 2018-06-01 中译语通科技股份有限公司 基于流式计算的数据统计分析方法及系统、计算机程序
CN108737483A (zh) * 2017-04-24 2018-11-02 百度在线网络技术(北京)有限公司 一种基于流式计算的数据连通率实时计算方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271422B2 (en) * 2008-11-29 2012-09-18 At&T Intellectual Property I, Lp Systems and methods for detecting and coordinating changes in lexical items

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8194552B1 (en) * 2005-02-18 2012-06-05 Sprint Communications Company L.P. System and method for trace replay using parallelized streams
CN102833160A (zh) * 2012-08-17 2012-12-19 北京航空航天大学 基于接触预测的大规模移动容迟网络分簇路由方法及其系统
CN107208158A (zh) * 2015-02-27 2017-09-26 赛卢拉研究公司 空间上可寻址的分子条形编码
CN107086929A (zh) * 2017-04-16 2017-08-22 北京工业大学 一种基于排队建模的批量流式计算系统性能保障方法
CN108737483A (zh) * 2017-04-24 2018-11-02 百度在线网络技术(北京)有限公司 一种基于流式计算的数据连通率实时计算方法及装置
CN108108488A (zh) * 2018-01-12 2018-06-01 中译语通科技股份有限公司 基于流式计算的数据统计分析方法及系统、计算机程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于大数据的电动汽车集群可调度容量多时间尺度预测方法的研究;岳友;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20170615;C042-559 *

Also Published As

Publication number Publication date
CN110096311A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
JP6949045B2 (ja) 分散クラスタ型訓練方法及び装置
WO2019223443A1 (zh) 数据库配置参数处理方法、装置、计算机设备和存储介质
US8538938B2 (en) Interactive proof to validate outsourced data stream processing
CN110493065B (zh) 一种云中心运维的告警关联度分析方法及系统
CN111753016B (zh) 数据处理方法、装置、系统及计算机可读存储介质
CN106817314B (zh) 大数据采集方法、装置以及系统
CN108390775B (zh) 一种基于spice的用户体验质量评价方法及系统
CN107329881B (zh) 应用系统性能测试方法及装置、计算机设备及存储介质
CN110661727A (zh) 数据传输优化方法、装置、计算机设备和存储介质
CN109407997B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN110096311B (zh) 流式计算中聚合时间的评估方法、装置、设备及存储介质
CN111512283A (zh) 数据库中的基数估算
WO2024119746A1 (zh) 一种数据存储的方法、装置、电子设备以及存储介质
CN104102646B (zh) 数据处理的方法、装置及系统
CN110858912A (zh) 流媒体缓存方法和系统、缓存策略服务器、流服务节点
CN109213965B (zh) 一种系统容量预测方法、计算机可读存储介质及终端设备
CN110968790A (zh) 基于大数据的潜在客户智能推荐方法、设备和存储介质
CN110134575B (zh) 一种服务器集群的服务能力计算方法及装置
CN109347691B (zh) 一种用于Web服务的数据采样方法、装置及设备
CN113254734B (zh) 点击模型确定方法、搜索方法、装置、服务器及介质
CN109344049B (zh) 测试数据处理系统的方法和装置
CN113298115A (zh) 基于聚类的用户分组方法、装置、设备和存储介质
CN111026622A (zh) 测试被测系统最大服务请求量的方法及装置
CN108712303A (zh) 一种云平台的尾延迟测评系统和方法
CN114816770B (zh) 一种衡量计算机服务压力状态的通用系统及实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant