CN111522845B

CN111522845B - 一种基于时间序列预测的流计算系统水印发放方法

Info

Publication number: CN111522845B
Application number: CN202010267667.3A
Authority: CN
Inventors: 杨海龙; 宋阳; 李云春
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2022-07-01
Anticipated expiration: 2040-04-08
Also published as: CN111522845A

Abstract

本发明提出了一种基于时间序列预测的流计算框架水印发放策略。包括如下步骤：步骤(1)使用时间窗口将数据流中的数据切分成多组有界的数据，提取两类数据作为模型输入传给预测器；步骤(2)根据业务场景选择不同的类型的预测器，训练出来用于预测未来数据乱序率的预测器；步骤(3)将新的数据流使用时间窗口切片成有界数据；步骤(4)在流数据处理系统中嵌入监控器，用来监控流数据；步骤(5)依据预测器预测的数据乱序程度和监控器获得数据迟到率，动态的调整水印的发放；步骤(6)监控器同时监控数据的乱序程度，对预测器进行调整和更新。本发明根据不同的流数据场景自适应的调整水印发放的时机和频率，保证流计算系统在及时响应请求的同时保证数据丢弃率保持在调低的水平。

Description

一种基于时间序列预测的流计算系统水印发放方法

技术领域

本发明涉及大数据应用和大数据流计算领域，具体的涉及一种基于时间序列预测的流计算系统水印发放方法。

背景技术

随着大数据技术的发展，在日常商业运营中，无边界、大规模流数据越来越普遍。例如，网站日志、手机应用统计、银行交易记录。对这些流数据的处理需求也越来越复杂，比如按事件发生时间序列处理数据并实时响应给客户，在这样的场景下，对结果的响应速度有较高的要求。

一些流计算系统开始大规模的被应用到工业界，这些框架基于谷歌提出的Dataflow模型，对无边界的大规模数据源，允许开发人员按照数据本身的特征进行窗口计算，得到基于事件发生时间的有序结果，并能在准确性，延迟程度和处理成本之间调整。随着流计算系统的广泛应用，针对这类流计算系统的性能优化也就变得尤为重要。

流计算系统平台的特点是处理的数据流是无边界的数据，它使用窗口将无界数据流划分为有界数据，因此，窗口计算是流计算的核心。数据倾斜是分布式领域常见的问题，而在基于时间窗口的实时流计算系统中，数据倾斜有了新的表现形式，即事件时间倾斜。

因为现实生活中的事件发生的事件往往是无序的，而流计算系统会对特定时间窗口内的数据进行计算，针对某一窗口中延迟到达的事件，流计算系统会采用水印机制等待延迟事件到达，流计算系统会依据水印时间进行窗口计算。在流计算平台中事件时间表示事件产生的时间，而处理时间表示事件被流计算系统处理的时间。本发明用tp(e)表示事件的处理时间，te(e)表示事件时间，那么tp(e)-te(e)代表系统的等待时间。这种等待延迟会极大的影响流计算系统的实时响应，因此合理的水印发放方法，会保证流计算系统的实时性和准确性。

当前流计算系统水印发放方法存在的问题：

在流计算系统中，水印决定着窗口计算何时被触发，一般水印的值会根据当前系统接收到的事件的te(e)来设定，为了等待延迟到达的事件，水印会延迟一个delay时间才发放，但是传统的水印发放方法不能动态的调整delay，所以会造成不必要的等待，降低响应速度。为了保证窗口计算的实时性和准确性，所以需要设计合适的水印发放方法。这样窗口才能在保证在响应延迟较低的情况下不会丢弃过多的数据。常见的水印发放方法通常是基于周期性和启发式的。不能针对数据流的变化进行自适应的调整。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于时间序列预测模型的水印发放方法，可以依据应用场景的特征调整水印发放。同时能够依据场景变换来更新预测模型。

本发明技术解决方案：一种基于时间序列预测的流计算系统水印发放方法，包括如下步骤：

步骤(1)使用时间窗口将数据流中的数据切分成多组有界的数据，从每组数据中提取数据共有的数据属性作为特征向量，将每组窗口的乱序率作为标签，提取这两类数据作为模型输入传给预测器，其中特征向量分为两类：

第一类：数据流中数据特征比较单一，则依据历史的数据乱序率作为窗口数据特征向量，使用p表示历史时间序列长度，o(Win_t)表示时间窗口t的数据乱序率，使用

表示过去p个时间窗口的数据乱序率序列，对于窗口Win_t,

就是其特征向量；

第二类：数据流中的数据包括多种自带特征并且数据乱序率和特征密切相关的场景，则从时间窗口的时间戳中提取时间戳所在时间特性，包括月份，日期，星期，小时，分钟，以及根据业务场景获取到的其他数据特征，因此对于特定的时间窗口使用：

作为窗口Win_t的特征向量。

步骤(2)根据业务场景选择不同的类型的预测器，使用步骤(1)产成的特征向量，训练出来用于预测未来数据乱序率的预测器；

步骤(3)将新的数据流使用时间窗口切片成有界数据；

步骤(4)在流数据处理系统中嵌入监控器，用来监控流数据；

步骤(5)依据预测器预测的数据乱序程度和监控器获得数据迟到率，动态的调整水印的发放；

步骤(6)监控器同时监控数据的乱序程度，比较和预测值的差值，当差值大于阈值时，会对预测器进行调整和更新。

进一步的，所述步骤(1)中的数据乱序率，窗口内的数据乱序程度作为预测器将要预测的值，用于描述一个窗口内数据的乱序程度，对于流数据中的一个元素e，定义函数te(e)表示事件时间，即元素实际发生的时间，定义函数tp(e)表示处理时间，即事件被系统观察到的时间；在真实场景下，因为共享资源限制，以及数据本身的特性，导致流数据中的一个元素的te(e)和tp(e)存在偏差，所以数据流中会出现乱序到达的现象，数据乱序率disorder的计算为一个时间窗口内乱序到达的数据在窗口内总数据的占比。

进一步的，步骤(2)根据业务场景选择不同的类型的预测器，是根据窗口特征向量进行选择的：

对于第一类特征向量：单一数据特征向量场景预测依赖于历史信息，选择长短期记忆网络LSTM作为预测模型，其能够学习到长期的依赖关系，LSTM包括一个专门进行记忆的存储单元，这个存储单元由多个门神经元保护使得LSTM既能学到长期的依赖关系也能处理短期依赖关系；

对于第二类特征向量：数据流中的数据包括多种自带特征并且数据乱序率和特征密切相关的场景，使用Xgboost分类回归模型，其将多个弱分类器集成在一起，形成一个强分类器；Xgboost采用提升树模型，将多个树模型集成在一起，形成一个强分类器，而所用到的树模型则是CART回归树模型。

进一步的，步骤(5)的水印发放方法依赖于预测器的预测值，和数据流中的数据迟到率R_late和平均迟到时间T_late，数据迟到率用来描述计算结果的准确性，当迟到率低于阈值时认为计算结果趋近于真实结果；平均迟到时间用来描述一段时间内的网络延迟状况，选取p个窗口时间内的数据进行计算，也就是计算p*t_win内数据的数据迟到率和数据迟到时间。使用集合

表示指定时间内到达的数据，n为数据的个数；使用函数wm(e)表示当事件e到达系统时，系统产生的最新水印值，数据迟到率R_late和平均迟到时间T_late计算公式如下：

进一步的，步骤(5)具体包括以下步骤：

(5-1)系统开始运行时，记录一个系统启动时间t_start，设置水印发放延迟delay为0,使用threshold来描述系统能够容忍的数据迟到率；

(5-2)每当接收到一个流数据e，计算该数据的系统处理时间tp(e)。当tp(e)-t_start≤T_warmUp时，直接依据t_e(e)生成水印，同时计算平均迟到时间T_late表示启动阶段的网络延迟状况，继续执行步骤(5-2)；当tp(e)-t_start＞T_warmUp时，执行步骤(5-3)；

(5-3)更新平均迟到时间T_late，从流数据e提取事件时间戳计算和上一次将水印发放延迟delay设置为0的差值，如果差值大于p*t_win则更新delay为0，并记下此时的时间戳；

(5-4)对于流数据e，使用特征向量提取器提取流数据e的特征向量

(5-5)时间序列预测器使用步骤(5-4)提取出的特征向量

预测出此时数据流中的数据乱序率disorder；

(5-6)调用系统监控器提供的监控系统迟到率函数monitorLateEle函数获取到目前系统的数据迟到率R_late；

(5-7)当R_late≤threshold时，如果在步骤(5-5)预测的数据乱序率disorder≤threshold，设置水印延迟时间delay＝(threshold-disorder)*T_late，如果disorder＞threshold，设置水印延迟时间delay＝delay-(1-disorder)*T_late；发放值为te(e)-delay的水印；执行步骤(5-2)；

(5-8)当R_late＞threshold时，如果在步骤(5-5)预测的数据乱序率disorder≤threshold，设置水印延迟时间delay＝delay+disorder*T_late，如果disorder＞threshold，设置水印延迟时间delay＝T_late；发放值为te(e)-delay的水印；执行步骤(5-2)。

进一步的，所述步骤(6)中实时调整时间序列预测模型；

真实场景的数据流特征会有周期性的变化，使用监控器监控程序执行期间数据的乱序程度计算和时间序列预测模型产生的预测值的差值，当在一段时间内差值持续性的大于一定阈值时，监控器开始记录数据流的乱序度，并重新训练时间序列预测模型。用心的时间序列预测模型替代旧的时间序列预测模型。

本发明与现有技术相比的优点在于：

(1)本发明的自适应的水印发放方法会依据应用场景进行水印的自适应调整，对不同时间段的数据流做不同的处理，加快窗口计算的响应速度。

(2)本发明中的监控器会监控时间序列预测模型的预测结果，对时间序列预测模型进行调整，保证预测结果的准确性。

附图说明

图1为实现本发明基于时间序列预测模型的水印发放方法的系统架构示意图；

图2为本发明基于时间序列预测模型的水印发放方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1为实现本发明基于时间序列预测模型的水印发放方法的系统架构示意图，系统监控模块用于监控流数据的乱序率变换和窗口计算的准确度，用于训练离线预测模型和为水印发放模块提供发放依据，流数据特征提取模块用于提取流数据中的数据特征，用于乱序率的预测和模型的训练，时间序列预测模块用于预测该时间段的数据乱序率，自适应水印发放模块用于决策水印的发放。

图2为本发明基于时间序列预测模型的水印发放方法的流程图。详细流程包括步骤(1)-(6)：

步骤(1)从历史数据中提取流数据特征；

从流数据中提取的数据特征包括窗口内数据特征向量和窗口内的数据乱序率。使用时间窗口将数据流中的数据切分成多组有界的数据，从每组数据中提取数据共有的数据属性作为特征向量，将每组窗口的乱序率作为标签，将这两类数据作为模型输入传给预测模型。其中窗口数据特征向量的提取根据不同的业务场景会有不同的类型，可以分为两类：

第一类：当数据流中数据特征比较单一时，这时候我们只能依据历史的数据乱序率作为窗口数据特征向量，我们使用p表示历史时间序列长度，o(Win_t)表示时间窗口t的数据乱序率，所以我们使用

表示过去p个时间窗口的数据乱序率序列，对于窗口Win_t,

就是他的特征向量。

第二类：在数据流中的数据自带特征较多并且数据乱序率和特征密切相关的场景，我们可以从时间窗口的时间戳中提取时间戳所在的月份，日期，星期，以及根据业务场景获取到的其他数据特征，因此对于特定的时间窗口我们可以使用：

作为窗口Win_t的特征向量。

其中数据乱序率disorder，用于描述一个窗口内数据的乱序程度，对于流数据中的一个元素e,我们定义函数te(e)表示事件时间，即元素实际发生的时间，定义函数tp(e)表示处理时间，即事件被系统观察到的时间。在真实场景下，因为共享资源限制(网络拥塞，网络分区,CPU争用)，以及数据本身的特性，导致流数据中的一个元素的te(e)和tp(e)存在偏差，所以数据流中会出现乱序到达的现象，例如有流数据中有2个元素e₁和e₂，其中e₁在e₂之前创建，即te(e₁)＜te(e₂)，但是因为网络原因最后tp(e₁)＞tp(e₂)，就出现了乱序到达。数据乱序率disorder的计算为一个时间窗口内乱序到达的数据在窗口内总数据的占比。

步骤(2)训练时间序列预测模型；

根据业务场景选择不同的类型的预测模型，使用步骤(1)产成的输入向量，训练出来可以预测未来数据乱序率的预测模型。步骤(2)的预测模型的选择，依赖于权利要求3产生的特征向量。

对于第一种特征向量：单一数据特征向量场景预测依赖于历史信息，我们选择LSTM作为预测模型，LSTM全称为长短期记忆网络，能够学习到长期的依赖关系，因为LSTM会有一个专门进行记忆的存储单元，这个存储单元由一些门神经元保护。保证了LSTM既能学到长期的依赖关系也能处理短期依赖关系。

对于第二种特征向量：数据流中的数据自带特征较多并且数据乱序率和特征密切相关的场景，使用Xgboost分类回归模型，Xgboost是Boosting算法的其中一种，Boosting算法的思想是将许多弱分类器集成在一起，形成一个强分类器。因为Xgboost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。

步骤(3)当程序开始运行时，将新的数据流使用时间窗口切片成有界数据。

流数据属于无界数据，我们使用较大的时间窗口对数据流进行切分，较大的时间窗口有较为明显数据特征，也能更好的监控到数据的波动。

步骤(4)在流系统框架中嵌入触发器，用来监控程序的运行结果。

监控器用来监控程序运行期间计算窗口的准确性和响应时间，为自适应水印发放方法提供调整依据，流计算系统中提供了触发器的接口，每当应用程序的计算窗口被触发时，流计算系统会把触发窗口计算的水印以及被触发的窗口起始和截止时间传递给触发器，触发器通过收集各种触发信息监控系统的执行状况。

步骤(5)使用自适应水印发放方法发放水印；

水印发放方法依赖于预测模型的预测值，和数据流中的数据迟到率R_late和平均迟到时间T_late，数据迟到率用来描述计算结果的准确性，当迟到率较低的时候可以认为计算结果趋近于真实结果。平均迟到时间用来描述一段时间内的网络延迟状况。假设我们选取p个窗口时间内的数据进行计算。也就是计算p*t_win内数据的数据迟到率和数据迟到时间。因为指定时间内到达的数据量不同，我们使用集合

表示指定时间内到达的数据。我们使用函数wm(e)表示当事件e到达系统时，系统产生的最新水印值。那么数据迟到率R_late和平均迟到时间T_late计算公式如下：

其中步骤(5)具体包括以下步骤：

(5-1)当程序开始运行时，记录一个系统启动时间t_start，设置水印发放延迟delay为0,使用threshold来描述系统可以容忍的数据迟到率。

(5-2)每当接收到一个流数据e，计算该数据的系统处理时间tp(e)。当tp(e)-t_start≤T_warmUp时，直接依据t_e(e)生成水印，同时计算平均迟到时间T_late表示启动阶段的网络延迟状况，继续执行步骤(5-2)；当tp(e)-t_start＞T_warmUp时，执行步骤(5-3)。

(5-3)更新平均迟到时间T_late，从流数据e提取事件时间戳计算和上一次将水印发放延迟delay设置为0的差值，如果差值大于p*t_win则更新delay为0，并记下此时的时间戳。

(5-4)对于流数据e，我们使用特征向量提取器提取流数据e的特征向量

(5-5)时间序列预测器使用步骤(5-4)提取出的特征向量

预测出此时数据流中的数据乱序率disorder。

(5-6)调用系统监控器提供的monitorLateEle函数获取到目前系统的数据迟到率R_late。

(5-7)当R_late≤threshold时，如果在步骤(5-5)预测的数据乱序率disorder≤threshold，设置水印延迟时间delay＝(threshold-disorder)*T_late，如果disorder＞threshold，设置水印延迟时间delay＝delay-(1-disorder)*T_late。发放值为te(e)-delay的水印。执行步骤(5-2)。

(5-8)当R_late＞threshold时，如果在步骤(5-5)预测的数据乱序率disorder≤threshold，设置水印延迟时间delay＝delay+disorder*T_late，如果disorder＞threshold，设置水印延迟时间delay＝T_late。发放值为te(e)-delay的水印。执行步骤(5-2)。

步骤(6)实时调整时间序列预测模型；

真实场景的数据流特征会有周期性的变化，使用监控器监控程序执行期间数据的乱序程度计算和时间序列预测器产生的预测值的差值，当在一段时间内差值持续性的大于一定阈值时，监控器开始记录数据流的乱序度，并重新训练时间序列预测模型。用新的时间序列预测模型替代旧的时间序列预测模型。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于时间序列预测的流计算系统水印发放方法，其特征在于，包括如下步骤：

表示过去p个时间窗口的数据乱序率序列，对于窗口Win_t,

就是其特征向量；

作为窗口Win_t的特征向量；

步骤(3)将新的数据流使用时间窗口切片成有界数据；

步骤(4)在流数据处理系统中嵌入监控器，用来监控流数据；

2.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法，其特征在于：

所述步骤(1)中的数据乱序率，窗口内的数据乱序程度作为预测器将要预测的值，用于描述一个窗口内数据的乱序程度，对于流数据中的一个元素e，定义函数te(e)表示事件时间，即元素实际发生的时间，定义函数tp(e)表示处理时间，即事件被系统观察到的时间；在真实场景下，因为共享资源限制，以及数据本身的特性，导致流数据中的一个元素的te(e)和tp(e)存在偏差，所以数据流中会出现乱序到达的现象，数据乱序率disorder的计算为一个时间窗口内乱序到达的数据在窗口内总数据的占比。

3.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法，其特征在于：

步骤(2)根据业务场景选择不同的类型的预测器，是根据窗口特征向量进行选择的：

4.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法，其特征在于：

步骤(5)的水印发放方法依赖于预测器的预测值，和数据流中的数据迟到率R_late和平均迟到时间T_late，数据迟到率用来描述计算结果的准确性，当迟到率低于阈值时认为计算结果趋近于真实结果；平均迟到时间用来描述一段时间内的网络延迟状况，选取p个窗口时间内的数据进行计算，也就是计算p*t_win内数据的数据迟到率和数据迟到时间；使用集合

5.根据权利要求4所述的一种基于时间序列预测的流计算系统水印发放方法，其特征在于：步骤(5)具体包括以下步骤：

(5-2)每当接收到一个流数据e，计算该数据的系统处理时间tp(e)，当tp(e)-t_start≤T_warmUp时，直接依据te(e)生成水印，同时计算平均迟到时间T_late表示启动阶段的网络延迟状况，继续执行步骤(5-2)；当tp(e)-t_start>T_warmUp时，执行步骤(5-3)；

(5-5)时间序列预测器使用步骤(5-4)提取出的特征向量

预测出此时数据流中的数据乱序率disorder；

(5-7)当R_late≤threshold时，如果在步骤(5-5)预测的数据乱序率disorder≤threshold，设置水印延迟时间delay＝(threshold-disorder)*T_late，如果disorder>threshold，设置水印延迟时间delay＝delay-(1-disorder)*T_late；发放值为te(e)-delay的水印；执行步骤(5-2)；

(5-8)当R_late>threshold时，如果在步骤(5-5)预测的数据乱序率disorder≤threshold，设置水印延迟时间delay＝delay+disorder*T_late，如果disorder>threshold，设置水印延迟时间delay＝T_late；发放值为te(e)-delay的水印；执行步骤(5-2)。

6.根据权利要求1所述的一种基于时间序列预测的流计算系统水印发放方法，其特征在于：

对于真实场景，数据流特征有周期性的变化，使用监控器监控程序执行期间数据的乱序程度计算和时间序列预测模型产生的预测值的差值，当在一段时间内差值持续性的大于一定阈值时，监控器开始记录数据流的乱序度，并重新训练时间序列预测模型，用新的时间序列预测模型替代旧的时间序列预测模型。