CN111522845B - 一种基于时间序列预测的流计算系统水印发放方法 - Google Patents

一种基于时间序列预测的流计算系统水印发放方法 Download PDF

Info

Publication number
CN111522845B
CN111522845B CN202010267667.3A CN202010267667A CN111522845B CN 111522845 B CN111522845 B CN 111522845B CN 202010267667 A CN202010267667 A CN 202010267667A CN 111522845 B CN111522845 B CN 111522845B
Authority
CN
China
Prior art keywords
data
time
late
watermark
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010267667.3A
Other languages
English (en)
Other versions
CN111522845A (zh
Inventor
杨海龙
宋阳
李云春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010267667.3A priority Critical patent/CN111522845B/zh
Publication of CN111522845A publication Critical patent/CN111522845A/zh
Application granted granted Critical
Publication of CN111522845B publication Critical patent/CN111522845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提出了一种基于时间序列预测的流计算框架水印发放策略。包括如下步骤:步骤(1)使用时间窗口将数据流中的数据切分成多组有界的数据,提取两类数据作为模型输入传给预测器;步骤(2)根据业务场景选择不同的类型的预测器,训练出来用于预测未来数据乱序率的预测器;步骤(3)将新的数据流使用时间窗口切片成有界数据;步骤(4)在流数据处理系统中嵌入监控器,用来监控流数据;步骤(5)依据预测器预测的数据乱序程度和监控器获得数据迟到率,动态的调整水印的发放;步骤(6)监控器同时监控数据的乱序程度,对预测器进行调整和更新。本发明根据不同的流数据场景自适应的调整水印发放的时机和频率,保证流计算系统在及时响应请求的同时保证数据丢弃率保持在调低的水平。

Description

一种基于时间序列预测的流计算系统水印发放方法
技术领域
本发明涉及大数据应用和大数据流计算领域,具体的涉及一种基于时间序列预测的流计算系统水印发放方法。
背景技术
随着大数据技术的发展,在日常商业运营中,无边界、大规模流数据越来越普遍。例如,网站日志、手机应用统计、银行交易记录。对这些流数据的处理需求也越来越复杂,比如按事件发生时间序列处理数据并实时响应给客户,在这样的场景下,对结果的响应速度有较高的要求。
一些流计算系统开始大规模的被应用到工业界,这些框架基于谷歌提出的Dataflow模型,对无边界的大规模数据源,允许开发人员按照数据本身的特征进行窗口计算,得到基于事件发生时间的有序结果,并能在准确性,延迟程度和处理成本之间调整。随着流计算系统的广泛应用,针对这类流计算系统的性能优化也就变得尤为重要。
流计算系统平台的特点是处理的数据流是无边界的数据,它使用窗口将无界数据流划分为有界数据,因此,窗口计算是流计算的核心。数据倾斜是分布式领域常见的问题,而在基于时间窗口的实时流计算系统中,数据倾斜有了新的表现形式,即事件时间倾斜。
因为现实生活中的事件发生的事件往往是无序的,而流计算系统会对特定时间窗口内的数据进行计算,针对某一窗口中延迟到达的事件,流计算系统会采用水印机制等待延迟事件到达,流计算系统会依据水印时间进行窗口计算。在流计算平台中事件时间表示事件产生的时间,而处理时间表示事件被流计算系统处理的时间。本发明用tp(e)表示事件的处理时间,te(e)表示事件时间,那么tp(e)-te(e)代表系统的等待时间。这种等待延迟会极大的影响流计算系统的实时响应,因此合理的水印发放方法,会保证流计算系统的实时性和准确性。
当前流计算系统水印发放方法存在的问题:
在流计算系统中,水印决定着窗口计算何时被触发,一般水印的值会根据当前系统接收到的事件的te(e)来设定,为了等待延迟到达的事件,水印会延迟一个delay时间才发放,但是传统的水印发放方法不能动态的调整delay,所以会造成不必要的等待,降低响应速度。为了保证窗口计算的实时性和准确性,所以需要设计合适的水印发放方法。这样窗口才能在保证在响应延迟较低的情况下不会丢弃过多的数据。常见的水印发放方法通常是基于周期性和启发式的。不能针对数据流的变化进行自适应的调整。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于时间序列预测模型的水印发放方法,可以依据应用场景的特征调整水印发放。同时能够依据场景变换来更新预测模型。
本发明技术解决方案:一种基于时间序列预测的流计算系统水印发放方法,包括如下步骤:
步骤(1)使用时间窗口将数据流中的数据切分成多组有界的数据,从每组数据中提取数据共有的数据属性作为特征向量,将每组窗口的乱序率作为标签,提取这两类数据作为模型输入传给预测器,其中特征向量分为两类:
第一类:数据流中数据特征比较单一,则依据历史的数据乱序率作为窗口数据特征向量,使用p表示历史时间序列长度,o(Wint)表示时间窗口t的数据乱序率,使用
Figure GDA0003601609960000021
Figure GDA0003601609960000022
表示过去p个时间窗口的数据乱序率序列,对于窗口Wint,
Figure GDA0003601609960000023
就是其特征向量;
第二类:数据流中的数据包括多种自带特征并且数据乱序率和特征密切相关的场景,则从时间窗口的时间戳中提取时间戳所在时间特性,包括月份,日期,星期,小时,分钟,以及根据业务场景获取到的其他数据特征,因此对于特定的时间窗口使用:
Figure GDA0003601609960000024
作为窗口Wint的特征向量。
步骤(2)根据业务场景选择不同的类型的预测器,使用步骤(1)产成的特征向量,训练出来用于预测未来数据乱序率的预测器;
步骤(3)将新的数据流使用时间窗口切片成有界数据;
步骤(4)在流数据处理系统中嵌入监控器,用来监控流数据;
步骤(5)依据预测器预测的数据乱序程度和监控器获得数据迟到率,动态的调整水印的发放;
步骤(6)监控器同时监控数据的乱序程度,比较和预测值的差值,当差值大于阈值时,会对预测器进行调整和更新。
进一步的,所述步骤(1)中的数据乱序率,窗口内的数据乱序程度作为预测器将要预测的值,用于描述一个窗口内数据的乱序程度,对于流数据中的一个元素e,定义函数te(e)表示事件时间,即元素实际发生的时间,定义函数tp(e)表示处理时间,即事件被系统观察到的时间;在真实场景下,因为共享资源限制,以及数据本身的特性,导致流数据中的一个元素的te(e)和tp(e)存在偏差,所以数据流中会出现乱序到达的现象,数据乱序率disorder的计算为一个时间窗口内乱序到达的数据在窗口内总数据的占比。
进一步的,步骤(2)根据业务场景选择不同的类型的预测器,是根据窗口特征向量进行选择的:
对于第一类特征向量:单一数据特征向量场景预测依赖于历史信息,选择长短期记忆网络LSTM作为预测模型,其能够学习到长期的依赖关系,LSTM包括一个专门进行记忆的存储单元,这个存储单元由多个门神经元保护使得LSTM既能学到长期的依赖关系也能处理短期依赖关系;
对于第二类特征向量:数据流中的数据包括多种自带特征并且数据乱序率和特征密切相关的场景,使用Xgboost分类回归模型,其将多个弱分类器集成在一起,形成一个强分类器;Xgboost采用提升树模型,将多个树模型集成在一起,形成一个强分类器,而所用到的树模型则是CART回归树模型。
进一步的,步骤(5)的水印发放方法依赖于预测器的预测值,和数据流中的数据迟到率Rlate和平均迟到时间Tlate,数据迟到率用来描述计算结果的准确性,当迟到率低于阈值时认为计算结果趋近于真实结果;平均迟到时间用来描述一段时间内的网络延迟状况,选取p个窗口时间内的数据进行计算,也就是计算p*twin内数据的数据迟到率和数据迟到时间。使用集合
Figure GDA0003601609960000034
表示指定时间内到达的数据,n为数据的个数;使用函数wm(e)表示当事件e到达系统时,系统产生的最新水印值,数据迟到率Rlate和平均迟到时间Tlate计算公式如下:
Figure GDA0003601609960000031
Figure GDA0003601609960000032
Figure GDA0003601609960000033
进一步的,步骤(5)具体包括以下步骤:
(5-1)系统开始运行时,记录一个系统启动时间tstart,设置水印发放延迟delay为0,使用threshold来描述系统能够容忍的数据迟到率;
(5-2)每当接收到一个流数据e,计算该数据的系统处理时间tp(e)。当tp(e)-tstart≤TwarmUp时,直接依据te(e)生成水印,同时计算平均迟到时间Tlate表示启动阶段的网络延迟状况,继续执行步骤(5-2);当tp(e)-tstart>TwarmUp时,执行步骤(5-3);
(5-3)更新平均迟到时间Tlate,从流数据e提取事件时间戳计算和上一次将水印发放延迟delay设置为0的差值,如果差值大于p*twin则更新delay为0,并记下此时的时间戳;
(5-4)对于流数据e,使用特征向量提取器提取流数据e的特征向量
Figure GDA0003601609960000041
(5-5)时间序列预测器使用步骤(5-4)提取出的特征向量
Figure GDA0003601609960000042
预测出此时数据流中的数据乱序率disorder;
(5-6)调用系统监控器提供的监控系统迟到率函数monitorLateEle函数获取到目前系统的数据迟到率Rlate
(5-7)当Rlate≤threshold时,如果在步骤(5-5)预测的数据乱序率disorder≤threshold,设置水印延迟时间delay=(threshold-disorder)*Tlate,如果disorder>threshold,设置水印延迟时间delay=delay-(1-disorder)*Tlate;发放值为te(e)-delay的水印;执行步骤(5-2);
(5-8)当Rlate>threshold时,如果在步骤(5-5)预测的数据乱序率disorder≤threshold,设置水印延迟时间delay=delay+disorder*Tlate,如果disorder>threshold,设置水印延迟时间delay=Tlate;发放值为te(e)-delay的水印;执行步骤(5-2)。
进一步的,所述步骤(6)中实时调整时间序列预测模型;
真实场景的数据流特征会有周期性的变化,使用监控器监控程序执行期间数据的乱序程度计算和时间序列预测模型产生的预测值的差值,当在一段时间内差值持续性的大于一定阈值时,监控器开始记录数据流的乱序度,并重新训练时间序列预测模型。用心的时间序列预测模型替代旧的时间序列预测模型。
本发明与现有技术相比的优点在于:
(1)本发明的自适应的水印发放方法会依据应用场景进行水印的自适应调整,对不同时间段的数据流做不同的处理,加快窗口计算的响应速度。
(2)本发明中的监控器会监控时间序列预测模型的预测结果,对时间序列预测模型进行调整,保证预测结果的准确性。
附图说明
图1为实现本发明基于时间序列预测模型的水印发放方法的系统架构示意图;
图2为本发明基于时间序列预测模型的水印发放方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1为实现本发明基于时间序列预测模型的水印发放方法的系统架构示意图,系统监控模块用于监控流数据的乱序率变换和窗口计算的准确度,用于训练离线预测模型和为水印发放模块提供发放依据,流数据特征提取模块用于提取流数据中的数据特征,用于乱序率的预测和模型的训练,时间序列预测模块用于预测该时间段的数据乱序率,自适应水印发放模块用于决策水印的发放。
图2为本发明基于时间序列预测模型的水印发放方法的流程图。详细流程包括步骤(1)-(6):
步骤(1)从历史数据中提取流数据特征;
从流数据中提取的数据特征包括窗口内数据特征向量和窗口内的数据乱序率。使用时间窗口将数据流中的数据切分成多组有界的数据,从每组数据中提取数据共有的数据属性作为特征向量,将每组窗口的乱序率作为标签,将这两类数据作为模型输入传给预测模型。其中窗口数据特征向量的提取根据不同的业务场景会有不同的类型,可以分为两类:
第一类:当数据流中数据特征比较单一时,这时候我们只能依据历史的数据乱序率作为窗口数据特征向量,我们使用p表示历史时间序列长度,o(Wint)表示时间窗口t的数据乱序率,所以我们使用
Figure GDA0003601609960000051
表示过去p个时间窗口的数据乱序率序列,对于窗口Wint,
Figure GDA0003601609960000052
就是他的特征向量。
第二类:在数据流中的数据自带特征较多并且数据乱序率和特征密切相关的场景,我们可以从时间窗口的时间戳中提取时间戳所在的月份,日期,星期,以及根据业务场景获取到的其他数据特征,因此对于特定的时间窗口我们可以使用:
Figure GDA0003601609960000053
作为窗口Wint的特征向量。
其中数据乱序率disorder,用于描述一个窗口内数据的乱序程度,对于流数据中的一个元素e,我们定义函数te(e)表示事件时间,即元素实际发生的时间,定义函数tp(e)表示处理时间,即事件被系统观察到的时间。在真实场景下,因为共享资源限制(网络拥塞,网络分区,CPU争用),以及数据本身的特性,导致流数据中的一个元素的te(e)和tp(e)存在偏差,所以数据流中会出现乱序到达的现象,例如有流数据中有2个元素e1和e2,其中e1在e2之前创建,即te(e1)<te(e2),但是因为网络原因最后tp(e1)>tp(e2),就出现了乱序到达。数据乱序率disorder的计算为一个时间窗口内乱序到达的数据在窗口内总数据的占比。
步骤(2)训练时间序列预测模型;
根据业务场景选择不同的类型的预测模型,使用步骤(1)产成的输入向量,训练出来可以预测未来数据乱序率的预测模型。步骤(2)的预测模型的选择,依赖于权利要求3产生的特征向量。
对于第一种特征向量:单一数据特征向量场景预测依赖于历史信息,我们选择LSTM作为预测模型,LSTM全称为长短期记忆网络,能够学习到长期的依赖关系,因为LSTM会有一个专门进行记忆的存储单元,这个存储单元由一些门神经元保护。保证了LSTM既能学到长期的依赖关系也能处理短期依赖关系。
对于第二种特征向量:数据流中的数据自带特征较多并且数据乱序率和特征密切相关的场景,使用Xgboost分类回归模型,Xgboost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器。因为Xgboost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型。
步骤(3)当程序开始运行时,将新的数据流使用时间窗口切片成有界数据。
流数据属于无界数据,我们使用较大的时间窗口对数据流进行切分,较大的时间窗口有较为明显数据特征,也能更好的监控到数据的波动。
步骤(4)在流系统框架中嵌入触发器,用来监控程序的运行结果。
监控器用来监控程序运行期间计算窗口的准确性和响应时间,为自适应水印发放方法提供调整依据,流计算系统中提供了触发器的接口,每当应用程序的计算窗口被触发时,流计算系统会把触发窗口计算的水印以及被触发的窗口起始和截止时间传递给触发器,触发器通过收集各种触发信息监控系统的执行状况。
步骤(5)使用自适应水印发放方法发放水印;
水印发放方法依赖于预测模型的预测值,和数据流中的数据迟到率Rlate和平均迟到时间Tlate,数据迟到率用来描述计算结果的准确性,当迟到率较低的时候可以认为计算结果趋近于真实结果。平均迟到时间用来描述一段时间内的网络延迟状况。假设我们选取p个窗口时间内的数据进行计算。也就是计算p*twin内数据的数据迟到率和数据迟到时间。因为指定时间内到达的数据量不同,我们使用集合
Figure GDA0003601609960000071
表示指定时间内到达的数据。我们使用函数wm(e)表示当事件e到达系统时,系统产生的最新水印值。那么数据迟到率Rlate和平均迟到时间Tlate计算公式如下:
Figure GDA0003601609960000072
Figure GDA0003601609960000073
Figure GDA0003601609960000074
其中步骤(5)具体包括以下步骤:
(5-1)当程序开始运行时,记录一个系统启动时间tstart,设置水印发放延迟delay为0,使用threshold来描述系统可以容忍的数据迟到率。
(5-2)每当接收到一个流数据e,计算该数据的系统处理时间tp(e)。当tp(e)-tstart≤TwarmUp时,直接依据te(e)生成水印,同时计算平均迟到时间Tlate表示启动阶段的网络延迟状况,继续执行步骤(5-2);当tp(e)-tstart>TwarmUp时,执行步骤(5-3)。
(5-3)更新平均迟到时间Tlate,从流数据e提取事件时间戳计算和上一次将水印发放延迟delay设置为0的差值,如果差值大于p*twin则更新delay为0,并记下此时的时间戳。
(5-4)对于流数据e,我们使用特征向量提取器提取流数据e的特征向量
Figure GDA0003601609960000075
(5-5)时间序列预测器使用步骤(5-4)提取出的特征向量
Figure GDA0003601609960000076
预测出此时数据流中的数据乱序率disorder。
(5-6)调用系统监控器提供的monitorLateEle函数获取到目前系统的数据迟到率Rlate
(5-7)当Rlate≤threshold时,如果在步骤(5-5)预测的数据乱序率disorder≤threshold,设置水印延迟时间delay=(threshold-disorder)*Tlate,如果disorder>threshold,设置水印延迟时间delay=delay-(1-disorder)*Tlate。发放值为te(e)-delay的水印。执行步骤(5-2)。
(5-8)当Rlate>threshold时,如果在步骤(5-5)预测的数据乱序率disorder≤threshold,设置水印延迟时间delay=delay+disorder*Tlate,如果disorder>threshold,设置水印延迟时间delay=Tlate。发放值为te(e)-delay的水印。执行步骤(5-2)。
步骤(6)实时调整时间序列预测模型;
真实场景的数据流特征会有周期性的变化,使用监控器监控程序执行期间数据的乱序程度计算和时间序列预测器产生的预测值的差值,当在一段时间内差值持续性的大于一定阈值时,监控器开始记录数据流的乱序度,并重新训练时间序列预测模型。用新的时间序列预测模型替代旧的时间序列预测模型。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于时间序列预测的流计算系统水印发放方法,其特征在于,包括如下步骤:
步骤(1)使用时间窗口将数据流中的数据切分成多组有界的数据,从每组数据中提取数据共有的数据属性作为特征向量,将每组窗口的乱序率作为标签,提取这两类数据作为模型输入传给预测器,其中特征向量分为两类:
第一类:数据流中数据特征比较单一,则依据历史的数据乱序率作为窗口数据特征向量,使用p表示历史时间序列长度,o(Wint)表示时间窗口t的数据乱序率,使用
Figure FDA0003601609950000011
Figure FDA0003601609950000012
表示过去p个时间窗口的数据乱序率序列,对于窗口Wint,
Figure FDA0003601609950000013
就是其特征向量;
第二类:数据流中的数据包括多种自带特征并且数据乱序率和特征密切相关的场景,则从时间窗口的时间戳中提取时间戳所在时间特性,包括月份,日期,星期,小时,分钟,以及根据业务场景获取到的其他数据特征,因此对于特定的时间窗口使用:
Figure FDA0003601609950000014
作为窗口Wint的特征向量;
步骤(2)根据业务场景选择不同的类型的预测器,使用步骤(1)产成的特征向量,训练出来用于预测未来数据乱序率的预测器;
步骤(3)将新的数据流使用时间窗口切片成有界数据;
步骤(4)在流数据处理系统中嵌入监控器,用来监控流数据;
步骤(5)依据预测器预测的数据乱序程度和监控器获得数据迟到率,动态的调整水印的发放;
步骤(6)监控器同时监控数据的乱序程度,比较和预测值的差值,当差值大于阈值时,会对预测器进行调整和更新。
2.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法,其特征在于:
所述步骤(1)中的数据乱序率,窗口内的数据乱序程度作为预测器将要预测的值,用于描述一个窗口内数据的乱序程度,对于流数据中的一个元素e,定义函数te(e)表示事件时间,即元素实际发生的时间,定义函数tp(e)表示处理时间,即事件被系统观察到的时间;在真实场景下,因为共享资源限制,以及数据本身的特性,导致流数据中的一个元素的te(e)和tp(e)存在偏差,所以数据流中会出现乱序到达的现象,数据乱序率disorder的计算为一个时间窗口内乱序到达的数据在窗口内总数据的占比。
3.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法,其特征在于:
步骤(2)根据业务场景选择不同的类型的预测器,是根据窗口特征向量进行选择的:
对于第一类特征向量:单一数据特征向量场景预测依赖于历史信息,选择长短期记忆网络LSTM作为预测模型,其能够学习到长期的依赖关系,LSTM包括一个专门进行记忆的存储单元,这个存储单元由多个门神经元保护使得LSTM既能学到长期的依赖关系也能处理短期依赖关系;
对于第二类特征向量:数据流中的数据包括多种自带特征并且数据乱序率和特征密切相关的场景,使用Xgboost分类回归模型,其将多个弱分类器集成在一起,形成一个强分类器;Xgboost采用提升树模型,将多个树模型集成在一起,形成一个强分类器,而所用到的树模型则是CART回归树模型。
4.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法,其特征在于:
步骤(5)的水印发放方法依赖于预测器的预测值,和数据流中的数据迟到率Rlate和平均迟到时间Tlate,数据迟到率用来描述计算结果的准确性,当迟到率低于阈值时认为计算结果趋近于真实结果;平均迟到时间用来描述一段时间内的网络延迟状况,选取p个窗口时间内的数据进行计算,也就是计算p*twin内数据的数据迟到率和数据迟到时间;使用集合
Figure FDA0003601609950000021
表示指定时间内到达的数据,n为数据的个数;使用函数wm(e)表示当事件e到达系统时,系统产生的最新水印值,数据迟到率Rlate和平均迟到时间Tlate计算公式如下:
Figure FDA0003601609950000022
Figure FDA0003601609950000023
Figure FDA0003601609950000024
5.根据权利要求4所述的一种基于时间序列预测的流计算系统水印发放方法,其特征在于:步骤(5)具体包括以下步骤:
(5-1)系统开始运行时,记录一个系统启动时间tstart,设置水印发放延迟delay为0,使用threshold来描述系统能够容忍的数据迟到率;
(5-2)每当接收到一个流数据e,计算该数据的系统处理时间tp(e),当tp(e)-tstart≤TwarmUp时,直接依据te(e)生成水印,同时计算平均迟到时间Tlate表示启动阶段的网络延迟状况,继续执行步骤(5-2);当tp(e)-tstart>TwarmUp时,执行步骤(5-3);
(5-3)更新平均迟到时间Tlate,从流数据e提取事件时间戳计算和上一次将水印发放延迟delay设置为0的差值,如果差值大于p*twin则更新delay为0,并记下此时的时间戳;
(5-4)对于流数据e,使用特征向量提取器提取流数据e的特征向量
Figure FDA0003601609950000031
(5-5)时间序列预测器使用步骤(5-4)提取出的特征向量
Figure FDA0003601609950000032
预测出此时数据流中的数据乱序率disorder;
(5-6)调用系统监控器提供的监控系统迟到率函数monitorLateEle函数获取到目前系统的数据迟到率Rlate
(5-7)当Rlate≤threshold时,如果在步骤(5-5)预测的数据乱序率disorder≤threshold,设置水印延迟时间delay=(threshold-disorder)*Tlate,如果disorder>threshold,设置水印延迟时间delay=delay-(1-disorder)*Tlate;发放值为te(e)-delay的水印;执行步骤(5-2);
(5-8)当Rlate>threshold时,如果在步骤(5-5)预测的数据乱序率disorder≤threshold,设置水印延迟时间delay=delay+disorder*Tlate,如果disorder>threshold,设置水印延迟时间delay=Tlate;发放值为te(e)-delay的水印;执行步骤(5-2)。
6.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法,其特征在于:
对于真实场景,数据流特征有周期性的变化,使用监控器监控程序执行期间数据的乱序程度计算和时间序列预测模型产生的预测值的差值,当在一段时间内差值持续性的大于一定阈值时,监控器开始记录数据流的乱序度,并重新训练时间序列预测模型,用新的时间序列预测模型替代旧的时间序列预测模型。
CN202010267667.3A 2020-04-08 2020-04-08 一种基于时间序列预测的流计算系统水印发放方法 Active CN111522845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010267667.3A CN111522845B (zh) 2020-04-08 2020-04-08 一种基于时间序列预测的流计算系统水印发放方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010267667.3A CN111522845B (zh) 2020-04-08 2020-04-08 一种基于时间序列预测的流计算系统水印发放方法

Publications (2)

Publication Number Publication Date
CN111522845A CN111522845A (zh) 2020-08-11
CN111522845B true CN111522845B (zh) 2022-07-01

Family

ID=71901970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010267667.3A Active CN111522845B (zh) 2020-04-08 2020-04-08 一种基于时间序列预测的流计算系统水印发放方法

Country Status (1)

Country Link
CN (1) CN111522845B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569122B (zh) * 2021-09-27 2021-12-10 武大吉奥信息技术有限公司 一种地图瓦片数据爬虫的识别方法及系统
CN115687428B (zh) * 2022-12-29 2023-04-07 中建三局信息科技有限公司 乱序数据延迟水位线动态自适应生成方法、系统及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071983A (zh) * 2015-07-16 2015-11-18 清华大学 一种面向云计算在线业务的异常负载检测方法
CN109460301A (zh) * 2018-09-07 2019-03-12 中南大学 一种流数据负载的弹性资源配置方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965830B2 (en) * 2012-05-17 2015-02-24 Xerox Corporation Systems and methods for self-adaptive episode mining under the threshold using delay estimation and temporal division

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071983A (zh) * 2015-07-16 2015-11-18 清华大学 一种面向云计算在线业务的异常负载检测方法
CN109460301A (zh) * 2018-09-07 2019-03-12 中南大学 一种流数据负载的弹性资源配置方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bubble-flux: precise online QoS management for increased utilization in warehouse scale computers;Hailong Yang et al.;《ISCA "13: Proceedings of the 40th Annual International Symposium on Computer Architecture》;20130623;607-618 *
灰预测与时间序列模型在航天器故障预测中的应用;杨海龙等;《计算机测量与控制》;20110131;第19卷(第1期);第111-113页 *

Also Published As

Publication number Publication date
CN111522845A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN108537544B (zh) 一种交易系统实时监控方法及其监控系统
US10452467B2 (en) Automatic model-based computing environment performance monitoring
CN111522845B (zh) 一种基于时间序列预测的流计算系统水印发放方法
CN112118143B (zh) 流量预测模型训练方法、流量预测方法、装置、设备及介质
US20100131952A1 (en) Assistance In Performing Action Responsive To Detected Event
US20160275411A1 (en) Hybrid active learning for non-stationary streaming data with asynchronous labeling
US20130346441A1 (en) Stream data processing server and a non-transitory computer-readable storage medium storing a stream data processing program
CN115576534B (zh) 原子服务的编排方法、装置、电子设备及存储介质
Zhang et al. A serverless cloud-fog platform for dnn-based video analytics with incremental learning
CN115378948A (zh) 一种基于深度学习的服务器负载预测方法
CN114095032B (zh) 基于Flink和RVR的数据流压缩方法、边缘计算系统及存储介质
WO2022251004A1 (en) Hierarchical neural network-based root cause analysis for distributed computing systems
CN112749041A (zh) 虚拟化网络功能备份策略自决策方法、装置及计算设备
CN108268351A (zh) 一种进程运行状态精确监控方法及系统
CN117193992A (zh) 模型训练方法、任务调度方法、装置以及计算机存储介质
US20230083476A1 (en) Method and system for retrieving video segment by a sementic query
Song et al. Adaptive watermark generation mechanism based on time series prediction for stream processing
Minh et al. Parallel workload modeling with realistic characteristics
CN110888739A (zh) 延迟任务的分布式处理方法与装置
CN113076181B (zh) 一种数据处理流程优化方法、系统及存储介质
CN115640359A (zh) 一种消息同步的控制方法、装置、电子设备及存储介质
KR20200015301A (ko) 동적 탐지모듈 선택을 위한 객체 탐지 장치 및 그 방법
CN113269554A (zh) 数据对比方法、系统以及存储介质
US20240055004A1 (en) Methods and systems for propagating a stopping condition in a distributed multiple-producer, multiple-consumer system
US11908023B1 (en) Method and system for generating user interfaces to prompt users to perform an activity in a software application based on transaction time analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant