CN113392137A

CN113392137A - 基于双窗口机制的多变量时间序列数据预测模型

Info

Publication number: CN113392137A
Application number: CN202110491150.7A
Authority: CN
Inventors: 黄益攀; 樊谨; 章柯; 陈金华; 汪森; 陈柏平
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-09-14

Abstract

本发明公开了一种基于双窗口机制的多变量时间序列数据预测模型。包括短序列处理模块和长序列处理模块；其中，所述短序列处理模块用于处理短时间序列数据，并从中提取出平稳的近期信息；所述长序列处理模块用于处理长时间序列数据，并从中提取出周期性、季节性的长期信息。最后将两部分结合起来，从而兼具近期信息和长期规律，得到更好的预测结果。本发明有效利用长时间序列数据从而提高时间序列预测准确率。本发明系统在所有数据集中都得到了最好的RMSE和MAE。这说明本发明确实因为融合了长序列和短序列各自的特点而优于单纯使用短序列的模型。且本发明拥有比DARNN和TCN更强的预测能力，更适用于需要高准确率而不是低时间花费的场合。

Description

基于双窗口机制的多变量时间序列数据预测模型

技术领域

本发明属于人工智能、深度学习、时序数据分析和预测领域，是一种基于双窗口机制的多变量时间序列预测方法。

背景技术

大数据时代，时间序列数据出现在生活中的各个角落。时间序列预测算法变得越来越重要，在气候、经济、能源消耗等领域都发挥着巨大的作用。

在大部分场景下，时间序列数据都是多变量的，这些变量之间存在着空间上和时间上的关联，而找出变量之间的关联就是时间序列预测算法的普遍做法。人工智能在时间预测任务上一直发挥着举重若轻的作用，例如ARIMA、循环神经网络(RNN)、长短时记忆网络(LSTM)等都是常用于时间序列预测的方法。ARIMA作为一个使用广泛的时间序列预测算法，在很多领域都证明了有效性，例如股票价格预测等。但是ARIMA只能捕捉线性关系且只能应用于稳定的时序数据，难以用来预测复杂的时序数据，尤其是多变量数据。循环神经网络(RNN)可以捕捉非线性关系，但是存在着梯度消失的问题，难以获取时序数据的长期依赖性，当需要处理的时间序列长度变大时，预测效果会逐渐变差。而长短时记忆网络(LSTM)缓解了RNN的梯度消失问题，并由此发展出了许多针对于时间序列预测的模型，例如编码器解码器网络(Encoder-Decoder)。Encoder-Decoder网络在时间序列分类和预测任务上都十分出色，尤其是基于注意力机制机制的Encoder-Decoder网络。基于注意力机制的Encoder-Decoder网络不仅可以获取多个时间序列之间的时间和空间关联，也能找到原始数据中更重要的部分并加大权重，这使得模型更加容易归纳时间序列数据的变化规律。

在这其中，DARNN是目前时间序列预测的最优算法之一，DARNN使用双阶段的注意力机制获取多变量之间的空间和时间联系。但是DARNN是基于RNN的深度神经网络，同样存在RNN的问题，即预测准确率随着时间序列长度变长而变差。时间序列的长度代表着序列中蕴藏的信息量的多少，越长的时间序列就能带给模型更多的经验和信息。但是由于RNN的局限性，我们没有办法完全利用长时间序列，甚至反而会对预测产生反作用。这是因为在时间序列长度足够大的时候，前面时间步的信息会被后面时间步信息覆盖。

如何有效利用长时间序列数据从而提高时间序列预测准确率，这是一个需要得到解决的问题。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于深度模型框架和双窗口机制的时间序列预测网络DWNet(Dual-Window Deep Neural Network)。本发明包括两个平行的处理模块，分别为长窗口处理模块和短窗口处理模块；短窗口处理模块基于Encoder-Decoder网络，并且在Encoder和Decoder部分分别加入了注意力模块；长窗口模块基于新兴的时序建模模型——时域卷积网络(TCN)。

本发明解决其技术问题所采用的技术方案如下：

基于双窗口机制的多变量时间序列数据预测模型，其特征在于，包括短序列处理模块和长序列处理模块；其中，所述短序列处理模块用于处理短时间序列数据，并从中提取出平稳的近期信息；所述长序列处理模块用于处理长时间序列数据，并从中提取出周期性、季节性的长期信息。

所述双窗口机制是指对于一份预测数据样本，采用两种不同的窗口大小，使得一份数据样本能够提供两种信息：近期信息和长期信息；近期信息中包含着时间序列数据近期的趋势、值的大小和周期；长期信息中包含着所有的历史信息；最后两种信息结合起来得到预测值。

所述短序列处理模块包括Encoder网络和Decoder网络；其中Encoder网络由LSTM单元和空间注意力模块组成，用于对原始数据进行编码并提取出序列之间的空间关系；Decoder网络由LSTM单元和时间注意力模块组成，用于对Encoder网络处理得到的数据进行解码，提取出序列之间的时间关系。

所述长序列处理模块由TCN网络实现，用于从长时间序列中得到长期信息。

所述的双窗口机制的具体实现如下：

设两种不同的窗口长度T_l和T_s，其中T_l>T_s；将多变量外生序列定义为

从X中分割出

n为外生序列的维度；其中X₁作为长序列，X₂作为短序列；其中

表示第i个长外生序列，

表示第i个短序列序列，

表示在t时刻n个外生序列的向量；用

来表示目标序列；

给定外生序列和目标序列的值，即

和

通过以下公式预测出目标序列下一个时间步的值：

其中F(.)是深度神经网络需要学习到的非线性函数。

所述的短序列处理模块的具体实现如下：

Encoder网络的输入数据是短序列

对于

使用Encoder网络中的空间注意力模块来获取外生序列之间的空间关联，公式如下：

其中

和

是Encoder中需要学习的参数；

和

是Encoder中的LSTM单元在t-1时刻的隐藏层状态和细胞层状态，分别存储着近期记忆和远期记忆；p是Encoder的隐藏层层数，

是在t时刻通过对第i个外生序列重要性的计算得出的注意力权重；得到注意力权重之后，能够得到中间参数：

t时刻的隐藏层状态就可以根据以下公式计算得出：

在该公式中，是Encoder中的LSTM单元；在t时刻，空间注意力模块根据前一个时间点的隐藏层状态计算得出各外生序列的注意力权重，再根据参数

的外生序列计算时间t时的隐藏层状态，这样不断循环，直到处理完所有时间点；

Decoder网络的输入是Encoder网络中计算得出的各时间点上的隐藏层状态和目标序列；Decoder网络需要从各时间点的数据中提取出时间关联，并得出预测结果；Decoder网络使用时间注意力机制，时间点t上的注意力权重根据先前的Decoder的隐藏层状态和细胞状态来计算，公式如下：

其中

和

是Decoder中需要学习的参数；

和

分别是Decoder中的LSTM单元在t-1时刻的隐藏层状态和细胞状态；q是Decoder的隐藏层层数，

是Decoder的注意力权重，用于显示在t-1时刻第i个Decoder隐藏层状态的重要性；根据注意力权重得出中间向量，公式如下：

中间向量是t时刻，所有分配权重过的Encoder隐藏层状态之和；然后我们使用中间向量求出下一个时间点的Decoder隐藏层状态，公式如下：

h′_t＝f_d(h′_t-1,[c_t:y_t]) (9)

其中f_d是Decoder中的LSTM单元。

所述的长序列处理模块的具体实现如下：

长时间序列处理模块的输入是时间点从1到T_l的时序数据；为了使预测时间点之后的数据不应该影响预测结果；TCN使用因果卷积防止信息的泄露；同时为扩大视野域，TCN使用了空洞卷积；

对于长外生序列

和卷积核g:(g₀,g₁,...,g_k-1)，TCN在t时刻的元素的值由以下公式计算得出：

在该公式中，

是膨胀因子，用来控制卷积操作的间隔，k是卷积核大小；

TCN使用残差块，每隔若干层就把前面层和当前层结合。

基于双窗口机制的多变量时间序列数据预测方法，包括以下步骤：

步骤1：收集大量历史的时间序列数据，并将数据划分为指定时间步长的多个数据样本；

步骤2：将数据样本输入到系统中，经过反向传播算法训练模型的参数；

步骤3：将需要进行预测的时间序列数据输入到模型之中，并得到预测值。

本发明有益效果如下：

本发明有效利用长时间序列数据从而提高时间序列预测准确率。

本发明系统在所有数据集中都得到了最好的RMSE和MAE。这说明本发明确实因为融合了长序列和短序列各自的特点而优于单纯使用短序列的模型。且本发明拥有比DARNN和TCN更强的预测能力，更适用于需要高准确率而不是低时间花费的场合。

附图说明

图1：DWNet模型框架图；

图2：DWNet与多种方法在不同数据集中的比较；

图3：不同方法每10个迭代所花费的时间；

具体实施方式

本发明在现有时间序列预测方法的局限性的基础上，设计了一种基于双窗口机制的深度时间序列预测模型DWNet。我们在Pytorch深度学习框架中实现了DWNet。为了测试DWNet在时间序列预测任务中的性能，我们将在3个公开数据集和1个自己收集的人类运动数据集上与现有的时间序列预测方法进行比较。

1.1符号说明和问题陈述

在本文中，有两种不同的窗口大小T_l和T_s，其中T_l>T_s。我们将多变量外生序列定义为

我们从X中分割出

n为外生序列的维度。其中X₁作为长序列，X₂作为短序列。其中

表示第i个长外生序列，

表示第i个短序列序列，

表示在时间t时n个外生序列的向量。我们用

来表示目标序列。

给定之前的外生序列和目标序列的值，即

和

我们通过以下公式预测出目标序列下一个时间步的值：

其中F(.)是深度神经网络需要学习到的非线性函数。

1.2模型介绍

图1展示了DWNet网络的总体框架。模型的输入分为两个部分，时间窗口步数为T_l的长多变量时间序列和时间窗口步数为T_s的短多变量时间序列，其中短序列是长序列的尾部部分(图1显示了2个序列之间的关系)。长序列经过TCN进行处理，获取相较于短序列更详尽的历史信息。而短序列先后通过Encoder和Decoder的处理，获取距离预测时间点最近的局部信息。最后，将长时间序列的历史信息和短时间序列的局部信息进行结合，得到了所需要的预测目标值。

1.2.1长时间序列处理模块

我们通过TCN来处理长序列数据并获取长期依赖，因为TCN能够并行地处理时间序列数据，并且参数量相对于RNN等循环神经网络更少。由于这两个特性，TCN可以非常快速地处理长时间序列，提高效率。另外，TCN中不存在之前时间步的信息被后面时间步覆盖的问题，当时间窗口过大时，TCN可以保证信息的完整性。在DWNet中，长时间序列处理模块的输入是时间点从1到T_l的时序数据。在时序数据分析中，我们不能允许未来的信息泄露到过去这样的情况发生。例如，预测任务中，预测时间点之后的数据不应该影响预测结果。为此，TCN使用了因果卷积防止信息的泄露。为了扩大视野域，TCN使用了空洞卷积，对于长外生序列

和卷积核g:(g₀,g₁,...,g_k-1)，TCN在时间点t的元素的值由以下公式计算得出：

在该公式中，d是膨胀因子，用来控制卷积操作的间隔，k是卷积核大小。

神经网络的深度越深，就越容易发生梯度爆炸和梯度消失，TCN使用了残差块，每隔若干层，就把前面层和当前层结合。残差连接使得网络能够跨层传输信息，提高了提取特征的效率。

1.2.2短时间序列处理模块

短序列处理模块基于Encoder-Decoder网络，Encoder-Decoder网络分为Encoder和Decoder两个部分，在这个两个部分中分别使用了空间注意力机制和时间注意力机制来强调短序列中的重要信息。Encoder模块的输入数据是短序列

对于

我们使用Encoder中的空间注意力模块来获取外生序列之间的空间关联，公式如下：

其中

和

是Encoder中需要学习的参数。

和

是Encoder中的LSTM单元在时间点t-1时的隐藏层状态和细胞状态，分别存储着近期记忆和远期记忆。p是Encoder的隐藏层层数，

是在时间点t时通过对第i个外生序列重要性的计算得出的注意力权重。在我们得到注意力权重之后，我们可以得到：

时间点t的隐藏层状态就可以根据以下公式计算得出：

在该公式中，是Encoder中的LSTM单元。在时间t时，空间注意力模块根据前一个时间点的隐藏层状态计算得出各外生序列的重要系数，再根据分配过权重的外生序列计算时间t时的隐藏层状态，这样不断循环，直到处理完所有时间点。

Decoder模块的输入是Encoder模块中计算得出的各时间点上的隐藏层状态和目标序列。Decoder模块需要从各时间点的数据中提取出时间关联，并得出预测结果。Decoder模块中使用了时间注意力机制，和Encoder一样，时间点t上的注意力权重也是根据先前的Decoder的隐藏层状态和细胞状态来计算，公式如下：

其中

和

是Decoder中需要学习的参数。

和

分别是Decoder中的LSTM单元在时间点t-1时的隐藏层状态和细胞状态。q是Decoder的隐藏层层数，

是注意力权重，可以显示在时间点t-1时第i个Decoder隐藏层状态的重要性。我们可以根据注意力权重，得出中间向量，公式如下：

中间向量是时间点t时，所有分配权重过的Encoder隐藏层状态之和。然后我们可以使用中间向量求出下一个时间点的Decoder隐藏层状态，公式如下：

h′_t＝f_d(h′_t-1,[c_t:y_t])

其中f_d是Decoder中的LSTM单元。

1.2.3模型训练

图1显示了预测值是由两部分共同决定的。我们结合了Decoder模块的输出

和TCN的输出

用以下公式来预测

其中和是需要学习的参数。m是每一层的隐藏单元的数量。我们使用反向传播算法来训练DWNet网络，使用Adam优化方法来最小化预测值和真实值之间的均方误差(MSE)，公式如下：

其中θ是需要学习的参数。

进一步的，所述的TCN网络能够并行处理时间序列，并且参数量比常用于时序建模的LSTM网络少了几个数量级，因此长序列模块可以以非常迅速的速度处理长时间序列。另外，TCN网络由于并行处理的特性，规避了长序列中前面时间步数据被后面时间步数据覆盖的问题，这使得长序列处理模块可以获得完整稳定的长期信息。

实施例1：

1数据集和baseline方法

使用的数据集包含了运动、能源、气候和医药领域，在实验中我们将把数据集按照4：1的比例分为训练集和测试集。4个数据集简单介绍分别如下：

Human Sports：是由10位性别、身高、体重各不相同的志愿者进行包含了包括深蹲、步行、开合跳、高抬腿等多个人类运动采集的数据。通过佩戴在手臂和大腿上的4个可穿戴式传感器，每50毫秒记录一次各自的XYZ轴的角速度和加速度。在本次实验中，我们把合加速度作为目标序列，把剩余的作为外生序列。我们只使用其中一位志愿者深蹲的数据，并把前8800个数据点作为训练集，后2200个数据集作为测试集。

SML 2010：这是一个用于室内温度预测的公开数据集。该数据集的数据是由监控系统采集到的，包含了接近40天的数据。每分钟对数据进行一次采样，以15分钟的平均值对数据进行计算和上传。在本次实验中，我们把室内温度作为目标序列，并且挑选了15个外生序列。我们把前1971个数据点作为训练集，之后的493个数据点作为测试集。

Appliances energy：这是一个用于家电能耗预测的公开数据集。这个数据集每10分钟一次，一共采集了4到5个月。房屋气温和湿度由无线传感器采集，每3.3分钟采集一次，10分钟取一次平均值。能耗数据每10分钟用m-bus能量计记录一次。气象数据是从最近的气象站下载得到。在本次实验中，我们把能耗作为目标序列，并选取了X个外生序列。我们把前15548个数据点作为训练集，之后的3887个数据点作为测试集。

EEG(Steady-state Visual Evoked Potential Signals):这是一个用于分类和回归的公开数据集。这个数据集由30位执行稳态视觉诱发电位的脑计算机接口的受试者组成，每一位受试者会有多组数据，我们仅使用其中的一组。这个数据集一共有16个特征，其中14个是电极信号，它们是根据国际标准命名的，剩余两个是时域和一个称为插值的信号，通常为0.在本次实验中，我们取电极O1作为目标序列，其余特征作为外生序列，并把前7542个数据点作为训练集，之后的1886个数据点作为测试集

我们选取了8个方法作为DWNet的对照组，包含了传统的统计模型和达到当前最好预测效果的深度神经网络方法。以下是这些方法的简介：

ARIMA：统计模型之一，是著名的用于时间序列预测的方法

LSTM：比起RNN，LSTM使用门机制有选择的让一部分信息进入，解决了梯度消失的问题

Encoder-Decoder：通过LSTM把序列编码为固定长度的向量，再通过另一个LSTM解码

Spatio-Attn：在Encoder-Decoder的基础上，添加了一个注意力机制在Encoder模块，用来获取原始数据的空间相关性

Temp-Attn：在Encoder-Decoder的基础上，添加了一个注意力机制在Decoder模块，用来获取隐含层的时间相关性

TCN：改进了CNN，为了使模型适用于时间序列，使用了扩张卷积，从而能获得更大的感受野

DARNN：在Encoder-Decoder的基础上，在两个模块分别添加了注意力机制，前者获取原始数据的空间关联，后者获取隐含层的时间关联

DSTP-RNN-I：达到目前的最好效果的方法之一。改进了DARNN，又添加了一个注意力机制，在Encoder两个阶段的注意力机制中，可以获得更加稳定的权重，可以在长时间序列的预测任务中获得更好的效果

2评价指标

在实验中，我们采用均方根误差(root mean squared error，RMSE)和平均绝对误差(mean absolute error，MAE)这两种评价指标。这两种评价指标都是尺度相关并且广泛应用于时序数据预测。其中RMSE对于过于糟糕的预测结果有着更强的反馈，而MAE则是对所有的结果一视同仁，糟糕的预测不会让MAE的分数过高。所以同时使用这两种不同的评价指标可以在实验中，更详细地显示出我们的模型在时序数据预测方面的效果。

假设y_t是时间点t的真实值，而

是时间点t上的预测值，RMSE被定义为：

MAE被定义为：

3实验结果

在实验中，我们将T_s设为16，T_l设为128。为了保证公平性，我们对baseline方法在两种时间窗口大小情况下都进行了实验，得到结果如图2。

在图2中，我们可以观察到DWNet在所有数据集中都得到了最好的RMSE和MAE。这说明DWNet确实因为融合了长序列和短序列各自的特点而优于单纯使用短序列的模型。ARIMA在4个数据集上都表现得很差，这正是因为ARIMA无法捕捉非线性关系且没有考虑到外生序列之间的空间联系。Encoder-Decoder网络在4个数据集上都表现的比LSTM优越，这说明Encoder-Decoder网络确实比普通的LSTM网络更容易获取数据的时序依赖性。基于注意力机制的Encoder-Decoder网络例如Input-Attn、Temp-Attn在4个数据集上都优于普通的Encoder-Decoder网络，因为注意力机制更容易获取原始数据中比较重要的特征。在这其中DARNN和DSTP在4个数据集上都有着不错的表现，但是于其他encoder-Decoder网络一样，时间步数为128时的预测效果都比时间步数为16时的预测效果差，而这正是Encoder-Decoder网络的弊端。TCN作为一个新兴的序列建模模型，在4个数据集上的表现十分不稳定。TCN在Human Sports上甚至表现得比DSTP好，但是在另外3个数据集，尤其是EEG上，表现得不尽如人意。

模型的时间效率同样是一个需要考虑的评价指标。在这个部分，我们比较了DWNet和几个baseline方法的时间效率。在实验中，我们将T＝16，T_l＝128，T_s＝16，其他参数固定不变。我们在Human Sports和EEG这两个数据集上进行训练，并记录了10次epoch所需要花费的时间(单位为秒)，结果如图3。我们可以观察到随着注意力模块的增加，模型所花费的时间也逐渐增加。InputAttn和TempAttn只有一个注意力模块，TempAttn训练时间略高于InputAttn，但都远远少于有两个注意力模块的DARNN。DSTP在Encoder部分有两个注意力模块，在Decoder部分有一个注意力模块，因此训练时间大于DARNN。TCN因为参数量少和并行处理的特性，在时间上具有非常大的优势，在两个数据集上都花费了最少的时间。而DWNet中有两个注意力模块，还有一个长序列处理模块(由TCN实现)，在时间效率上不如DARNN，更不用说TCN，但是DWNet拥有比DARNN和TCN更强的预测能力，更适用于需要高准确率而不是低时间花费的场合。

Claims

1.基于双窗口机制的多变量时间序列数据预测模型，其特征在于，包括短序列处理模块和长序列处理模块；其中，所述短序列处理模块用于处理短时间序列数据，并从中提取出平稳的近期信息；所述长序列处理模块用于处理长时间序列数据，并从中提取出周期性、季节性的长期信息。

2.根据权利要求1所述的基于双窗口机制的多变量时间序列数据预测模型，其特征在于所述双窗口机制是指对于一份预测数据样本，采用两种不同的窗口大小，使得一份数据样本能够提供两种信息：近期信息和长期信息；近期信息中包含着时间序列数据近期的趋势、值的大小和周期；长期信息中包含着所有的历史信息；最后两种信息结合起来得到预测值。

3.根据权利要求1所述的基于双窗口机制的多变量时间序列数据预测模型，其特征在于所述短序列处理模块包括Encoder网络和Decoder网络；其中Encoder网络由LSTM单元和空间注意力模块组成，用于对原始数据进行编码并提取出序列之间的空间关系；Decoder网络由LSTM单元和时间注意力模块组成，用于对Encoder网络处理得到的数据进行解码，提取出序列之间的时间关系。

4.根据权利要求1所述的基于双窗口机制的多变量时间序列数据预测模型，其特征在于所述长序列处理模块由TCN网络实现，用于从长时间序列中得到长期信息。

5.根据权利要求2所述的基于双窗口机制的多变量时间序列数据预测模型，其特征在于双窗口机制的具体实现如下：