CN112561165A

CN112561165A - 一种基于组合模型的多维时序数据预测方法

Info

Publication number: CN112561165A
Application number: CN202011490201.6A
Authority: CN
Inventors: 周宇; 陈霖
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-26

Abstract

本发明公开一种基于组合模型的多维时序数据预测方法。具体步骤是：对时序数据进行平稳性检验，观察其中是否存在周期重复模式，探索数据的可预测性；通过滑动窗口的方式批量采集样本，形成<特征，标签>的数据对；将采集样本中的特征部分分别输入到双通道神经网络和支持向量机(SVM)中；借鉴注意力(Attention)机制对两个通道的输出向量加权融合；计算最终输出与标签之间的平均绝对误差，并以此作为损失函数训练网络的内部参数；在结果融合部分根据模型的R方评价指标选取最佳比例进行线性融合。在不同领域的两个数据集上进行测试，预测的拟合程度分别能够达到98.36％和92.50％，对比传统和前沿模型都占有优势。因此该模型能够高效解决多维时序数据预测问题。

Description

一种基于组合模型的多维时序数据预测方法

技术领域

本发明属于数据挖掘领域，该发明主要涉及时序数据分析、机器学习、深度学习等技术，主要能够实现多维时序数据的单步预测和滚动多步预测。

技术背景

近年来，在数据挖掘领域中时间序列数据得到了广泛的关注和研究。时间序列数据是一类特殊的随时间变化的数据，它由分布在各个应用领域中的传感器通过长时间的测量和记录获得，比如股市、天气、销售、电网等。时间序列分析分为很多方面，比如时间序列的分割、聚类、相似性检索、预测等。在所有时间序列分析的任务中，预测任务具有更广泛的应用前景和作用，如：可以帮助企业或个人更好地进行决策，对设备未来可能发生的故障进行提前预警等，具有非常重要的现实意义。

现实生活中的时序数据通常在每个时间点含有多个特征，各个特征之间可能存在一定的相关性，共同构成了每个时间点的数据信息，因此使用多维时间序列进行预测可以获得更多的信息。因此，本课题重点关注多维时序数据的预测问题，研究目的在于希望在传统模型的基础上加以改进创新，提出更加有效的预测方法。

传统的预测方法多数基于单个模型进行预测，依靠手动建立时间依赖关系来探索历史数据中的相关模式。由于现实中的时间序列存在数据量大，维度高、非线性等特点，传统模型的预测效果往往较差，基于机器学习的回归方法能够捕获非线性数据的规律性特征。随着大数据时代的到来，基于神经网络的方法得到快速发展。这些模型各有优势，但各自都都存在不足，比如传统模型只能对于线性数据进行建模，一些机器学习模型在大数据量的情况下表现较差，神经网络模型虽然适用于大数据量的学习，但是容易出现梯度消失或梯度爆炸等现象，实际泛化能力也较弱。为了综合各个模型的优势，将重点聚焦于组合模型的构建是非常有必要的，希望通过合理的组合机制，将时间序列的输入流入多个模型，再通过合适的融合机制将结果融合为模型的最终结果。

根据不同模型的特点，大致可以分为线性模型、非线性模型和组合模型三类。传统的时间序列预测模型多数属于线性模型，如：Holt-Winters，ARIMA等，主要是在确定模型参数的基础上对其进行求解，然后使用求解好的模型进行预测。Box和Jenkins提出的“Box-Jenkins方法”使用差分的方式来构建平稳的时间序列，通过偏自相关系数PACF和自相关系数ACF来检验数据的平稳性。ARIMA模型结合了自回归模型和移动平均模型对平稳的时间序列进行建模。近年来，基于神经网络模型的深度学习技术得到快速发展。循环神经网络(RNN)是一种包含自连接的神经网络(NN)。和前馈神经网络不同的是，RNN的隐含状态将现在的输入和之前的时间内部状态映射到新的输出，从而让神经网络有了记忆能力，能够捕获序列数据中的时序信息。LSTM的提出解决了RNN不能保持长期依赖的问题，它通过引入记忆单元和存储单元来有选择地存储历史信息并保持长期信息。因此，RNN和LSTM被广泛应用于序列数据的学习中，如语音识别、自然语言处理等。

注意力(Attention)机制在机器翻译任务中由Bahdanau等于2014年首次提出。他们提出了一种编码器解码器结构来对原句子进行编码，并且在解码器阶段使用Attention机制来决定应该关注原句子的哪些部分来产生目标单词。也有研究者在其它模型上使用了Attention机制，Qin等人于2017年在IJCAI上提出了基于双阶段注意力机制的DA-RNN模型，该模型在传统的循环神经网络的输入和输出部分加入了Attention机制。Fan等人于2019年在KDD上针对多范围时间序列数据预测提出了一个端到端的深度学习框架，其中引入了时间注意力机制，以更好地捕获历史数据中对预测未来有用的潜在模式。为了综合各个模型的优势，Lai等人于2017年在SIGIR上提出了LSTNet组合模型。先通过卷积神经网络(CNN)来提取变量间的局部依赖模式，然后使用RNN来发现时间序列趋势中的长期模式。为了解决神经网络的规模不敏感问题，还在原有模型基础上并列使用了传统的自回归模型，使得预测效果有了显著提升。

发明内容：

针对于上述现有技术的不足，本发明的目的在于能够充分挖掘多维时序数据中存在的重复模式，提升多维时序数据的预测效果。具体的技术方案如下：

(1)对时序数据进行平稳性检验，绘制时序数据目标维度的折线图和自相关函数图，观察其中是否存在周期重复模式，探索数据的可预测性；

(2)数据集依据6∶2∶2的比例按时间顺序划分为训练集、验证集和测试集，并对不同维度的数据按照训练集的均值和方差分别进行归一化处理；

(3)通过滑动窗口的方式批量采集样本，形成<特征，标签>的数据对，样本采集均以单个时间步作为采集单位，通过过去5个时间步的数据预测当前的数据；

(4)将采集样本中的特征部分分别输入到双通道神经网络和支持向量机(SVM)中；

(5)其中通过卷积神经网络(CNN，Convolutional Neural Network)通道得到一个长度为256的向量；

(6)同时通过双向LSTM(Long Short-Term Memory)网络通道并结合注意力(Attention)机制，得到一个长度为256的向量；

(7)借鉴注意力(Attention)机制对两个通道的输出向量加权融合为一个输出向量，并通过全连接网络映射成一个输出；

(8)计算最终输出与标签之间的平均绝对误差，并以此作为优化值进行反向传播，训练网络的内部参数；

(9)在双通道神经网络和支持向量机(SVM)的结果融合部分根据模型的R方评价指标选取最佳比例进行线性融合。

进一步地，所述步骤(1)中，平稳性代表了某种程度上的时间平移不变性，如果时间序列的性质随着时间的偏移不发生明显的变化，则认为时间序列是平稳的。这里通过计算预测维度的方差和进行ADF检验来检验时间序列的平稳性。方差使用无偏估计，计算方式如下：

自相关函数，也称为序列相关函数，反映了时间序列与其自身的延迟副本之间的相关关系随延迟阶数的变化情况，实践中使用无偏估计量来计算自相关系数。定义如下，其中X_t代表某个时间点的数据，μ是均值，σ²是方差：

进一步地，所述步骤(2)中，归一化指均值方差归一化，即将所有数据的均值变为0方差变为1，目的是消除不同维度数据量纲的影响，同时也降低了离群值对模型整体的影响。

进一步地，所述步骤(3)中，滑动窗口指特征样本采集的范围，根据实际情况事先进行指定。

进一步地，所述步骤(4)中，双通道神经网络是由CNN和双向LSTM并列组成的神经网络，用于组合序列中的局部依赖和长期依赖信息。SVM是机器学习中一种处理分类问题的监督学习算法，这里使用其拓展方式以解决回归问题。SVM思想的本质是求解一个线性约束的凸二次优化问题，它将输入变量映射到高维空间，使得模型具有对非线性时间序列的拟合能力。

进一步地，所述步骤(5)中，CNN是一个基于卷积操作的深度学习模型，包含多个卷积核，用于提取序列数据的局部特征，该模型能够将任意结构的二维序列压缩成固定长度的向量。

进一步地，所述步骤(6)中，LSTM是一种长短期记忆人工神经网络，双向LSTM能够同时捕获序列数据两个方向的信息。Attention机制是可以关注到双向LSTM每个时间步输出的一种加权机制。

进一步地，所述步骤(7)中，对两个通道的输出向量加权是一种借鉴了Attention机制的加权方式，可以同时关注到两个通道的输出向量。

进一步地，所述步骤(8)中，平均绝对误差的计算方式如下，其中n为测试样本的总数，y_i和

分别为每个测试样本的真实值和预测值：

进一步地，所述步骤(9)中，如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(9)中，R方是衡量模型对数据拟合程度的一种指标，计算方式如下，其中n为测试样本的总数，y_i和

分别为每个测试样本的真实值和预测值：

附图说明

图1是组合模型示意图

图2是Dataset1进阀温度自相关系数图

图3是Dataset2河流流量自相关系数图

图4是Dataset1不同α的R方结果图

图5是Dataset2不同α的R方结果图

具体实施方式

为了方便本领域技术人员的理解，下面结合摘要附图对本发明做进一步的解释说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，多维时序数据预测包括如下内容：

(1)数据可预测性的探索

本发明需要用到两个数据集。数据集Dataset1是某电网内冷水系统各项指标的真实数据。该数据集的时间区间是从2017年12月到2019年7月，每半个小时采集一次，包含4个维度的特征，分别是进阀温度、出阀温度、进阀压力和冷却水电导率。其中进阀温度是关键性指标，可以通过预测进阀温度的变化来对系统可能发生的故障进行预警。另一个数据集来源于Rob Hyndman创建的时间序列库(TSDL)。本发明选择了其中一个数据集Dataset2，代表了saugeen河每日水流量。时间从1915年1月到1985年1月，每天采集一次。采用数据集中所有的维度作为特征，预测目标为其中一个维度。

为了分析时间序列的可预测性，首先对其平稳性进行检验。平稳性代表了某种程度上的时间平移不变性，如果时间序列的性质随着时间的偏移不发生明显的变化，则认为时间序列是平稳的。在两个数据集上分别计算预测维度的方差并进行ADF检验。ADF检验的目的是判断序列是否存在单位根：如果序列平稳，就不存在单位根。ADF检验的原假设是存在单位根，只要ADF检验值小于1％水平下的数字就可以显著的拒绝原假设。如表1所示，从ADF值来看，两个数据集都是平稳的，但Dataset1由于方差更小，预计预测效果也会更好。绘制自相关函数图如图2和图3所示，从图中可以看出，两个数据集均存在一定的周期性重复模式，其中Dataset1的周期性更明显，而Dataset2则周期性较弱。这些观察对于之后不同数据集实验结果的分析有重要的参考价值。理论上如果数据中存在更好的周期重复模式，模型将取得更好的预测结果，之后将通过对比实验验证这一点。如果根据观察数据中不存在周期重复模式，则预测结果不可信。

(2)样本的采集

本发明关注多维时间序列预测，即每个时间步的数据是一个包含多个特征的向量，表示每个时间步的数据含有多个维度的特征。但数据中每个维度的时间序列位于不同的范围，首先需要对它们分别进行均值方差归一化处理。然后通过滑动窗口的方式批量采集样本，形成的特征样本格式为

其中T代表滑动窗口的长度，即需要关注过去多少时间步，x_T代表当前时间点的数据向量，n代表每个时间步向量的维数。样本的目标数据可以用

表示，其中h代表目标是当前时间点h时间步以后的数据。

对于多步预测的情况，可以用滚动预测的方式预测未来一系列目标维度的数据点，即使用(x₂，x₃，...，x_T+1)的真实数据获得y_T+h+1的数据。这是因为预测结果存在偏差，使用预测数据取代真实数据会导致预测结果的偏差逐渐变大。一般情况下，滑动窗口的长度T和目标数据的延迟步数h由实际环境的要求选定。

(3)双通道神经网络

经过样本采集之后，窗口在多维时序数据上的一次滑动会产生一个矩阵，由此原先的多维时序数据将会被转化成一个矩阵序列，将该序列作为双通道神经网络的输入。双通道神经网络由卷积神经网络和循环神经网络并列组成。卷积神经网络不包含池化层，目的是提取输入变量间存在的局部依赖。它包含多个长度为ω并且高度为n(n为每个时间步的维度数量)的卷积核。第k个卷积核扫过输入矩阵X并且产生

h_k＝RELU(W_k*X+b_k)

其中*代表卷积操作，输出h_k是一个向量，长度为卷积操作生成的长度，记为T。输出矩阵大小为d_c×T，其中d_c代表卷积核的个数，随后通过展平和全连接操作将输出矩阵映射成一个长度为256的向量。

循环神经网络部分利用了时间序列的顺序敏感性，使用双向LSTM来捕获按正序和逆序两个方向上的长期依赖，然后将它们的表示合并在一起。双向LSTM能够捕捉到可能被单向LSTM忽略的模式。其中LSTM引入了一个新的跨越多个时间步的数据流，携带着跨越时间步的信息，具体公式如下：

z＝tanh(W_z[h_t-1，x_t])

i＝sigmoid(W_t[h_t-1，x_t])

f＝sigmoid(W_f[h_t-1，x_t])

o＝sigmoid(W_o[h_t-1，x_t])

c_t＝f·c_t-1+i·z

h_t＝o·tanh c_t

其中x_t和h_t-1分别代表当前时刻的输入和上一时刻的输出，第一个公式代表模型当前的输入值，接下来为输入门、遗忘门和输出门，之后的公式表示对状态的更新，最后一个公式代表模型当前的输出值。W_z、W_i、W_f、W_o是模型需要求解的4个参数矩阵。

整个双向LSTM的计算可以形式化如下：

(4)Attention机制

双向LSTM部分只是将预测的结果融合在最后的一个输出中，但是从人脑观察事物的行为来看，我们通常会将注意力集中在事物的某些局部而不是整体。在时间序列预测中也存在这样的问题，所以在输出部分引入Attention机制来有选择性地关注每个时间步的输出信息。本发明设计的Attention机制的公式如下：

e_t＝W_eh_t

其中h_t是每个循环单元的输出，e_t是每个h_t对应的权重，将权重经过softmax归一化得到a_t。然后将每个循环单元的输出h_t和对应的权重a_t相乘后相加得到最终的结果c_t。最后将c_t连接到全连接层得到最终的预测结果。W_e是模型需要求解的参数。

类似的结构也被用在了双通道神经网络的融合部分。通过卷积神经网络和循环神经网络分别得到一个长度为256的向量，使用Attention层将两个输入向量转化为一个长度为256的向量作为输出。最后，整个双通道神经网络通过全连接层将长度为256的向量映射成一个值作为最终输出。

(5)SVM模型

时序数据预测处理的是连续变化的数据，本质属于机器学习中的回归问题。支持向量机(SVM)是一种监督学习算法，可以用来解决回归问题。支持向量回归(SVR)思想的本质是求解一个线性约束的凸二次优化问题，它将输入变量映射到高维空间，使得模型具有对非线性时间序列的拟合能力。模型求解可以用核函数代替点积运算，从而提高运算性能，这里使用了高斯(RBF)核。

(6)融合方式

通过上述两个部分的预测分别得到两个结果，分别记为p和q。不同模型由于考虑问题的角度不同，预测结果存在一定的差异，我们需要选择合适的融合方式。在分类问题中，一种简单的思路是使用少数服从多数的投票方法。如果需要考虑不同算法对于结果的权重，则需要得到分类结果的概率值。在本发明方法的回归问题中，可以使用加权求和这样的线性组合方法，根据模型的评价指标选取其中的最优值作为整体模型最终的预测结果。公式如下：

o＝αp+(1-α)q

其中α代表p对应的权值，另一个值q对应的权值设置为1-α，以确保两者相加为1。o代表融合层对两个向量加权后的输出。

以下采用实验的方式来体现本发明方法的性能。

实验使用(1)中提及的两个数据集，模型的超参数如表2所示。首先对本发明方法最后融合部分涉及的α值进行选取，选取范围从0到1，步长设置为0.1。将不同α对应的R方结果绘制折线图如图4和图5所示，分别代表两个数据集的结果。从图中可以看出，在Dataset1中α选取0.6效果最好，在Dataset2中α选取0效果最好。接着将本发明方法和传统的统计模型ARMA和基于一阶差分的ARIMA进行对比。ARMA和ARIMA模型都属于单一输出模型，需要独立训练n个模型，即对于n个输出变量的每一个都要训练一个模型。MogLSTM是2020年发表在ICLR(深度学习顶会)上的新模型，是Mogrifier LSTM的简写形式。作者在自然语言处理领域提出了一种语言无关的方法来改进循环神经网络，并在一些非自然语言处理领域也获得了更好的结果。它从现有的LSTM的缺陷出发，创新地提出mogrify计算方式，将原本相互独立的当前输入和上一步的隐含状态进行了交互运算，丰富了模型的输入表示，提升了LSTM的性能。时间序列和自然语言处理领域的文本序列都属于序列信息，MogLSTM同样可以用于时序数据预测任务。所以，本发明方法还将与MogLSTM作对比，进一步体现本发明方法的优势。

实验在两个测试数据集上分别计算R方的值，结果见表3和表4。从表中可以看出，本发明提出的组合模型在两个数据集上的预测效果均优于传统模型。对于两个数据集上的性能差异，从表中可以看出，传统的ARMA模型和ARIMA模型能够表现出较好的性能，但是在数据具有复杂周期重复模式的情况下不如神经网络模型表现得好，因为神经网络模型能捕获非线性数据，而实际生活中的数据往往是非线性的。对原始数据做了一阶差分的ARIMA模型相较于ARMA模型使用了更加平稳的原始数据，从图中可以看出性能有所提升。MogLSTM模型虽然在Dataset1中表现优于传统模型，但在Dataset2中表现较差，说明其在具有不同周期重复模式的数据集上性能不稳定，会出现较大的偏差。综合来看，本发明方法的泛化能力更强，对于不同种类的数据集表现较为稳定。

从两个数据集的对比结果来看，Dataset1上的预测效果整体比Dataset2好。正如(1)中分析的那样，可以看出使用周期性重复模式更明显的时间序列数据进行预测更能发挥本发明方法的优势。同时也证明了本发明方法可以更好地学习历史数据中存在的规律。

为了验证本发明方法设计的性能，在组合模型CombNet中去除某些组件，进行了消融研究。首先，将去除或替换某些组件后的模型命名如下：

● Combw/oSVM：CombNet模型去除SVM部分。

● Combw/oSVM_CNN：CombNet模型去除SVM部分和双通道神经网络中的CNN部分。

● Combw/oCNN：CombNet模型去除双通道神经网络中的CNN部分。

● SVM：CombNet去除双通道神经网络部分，只保留SVM部分。

● CombNet-GRU：将双通道神经网络的LSTM部分替换成GRU。

● CombNet-max：将双通道神经网络Attention融合部分替换成最大池化操作。

测试结果使用R方指标进行评价，如表5和表6所示。从图中可以看出，本发明方法在两个数据集上都获得了最好的结果。SVM部分在Dataset1中有提升模型整体性能的作用。去除双通道神经网络的CNN部分后，模型性能出现较大程度的下滑，表明CNN部分在提取序列数据中的局部信息方面有重要作用。LSTM使用GRU替换后性能有所下降，说明使用计算量更少的GRU在获得更快的训练速度的同时，也存在欠拟合的情况。融合部分使用最大池化替换后性能有所下降，综合来看，使用Attention机制的融合方式效果更好。

综合来看，这样的消融研究清晰地证实了本发明方法的高效性。所有的部分对于整体模型的高效性均存在贡献。

表1 数据集统计信息

表2 超参数

表3 对比实验Dataset1测试集拟合程度

表4 对比实验Dataset2测试集拟合程度

表5 消融研究Dataset1测试集拟合程度

表6 消融研究Dataset2测试集拟合程度

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于组合模型的的多维时序数据预测方法，其特征在于包括如下步骤：

2.所述的一种多维时序数据预测方法，其特征在于，所述步骤(1)中，平稳性代表了某种程度上的时间平移不变性，如果时间序列的性质随着时间的偏移不发生明显的变化，则认为时间序列是平稳的。这里通过计算预测维度的方差和进行ADF检验来检验时间序列的平稳性。方差使用无偏估计，计算方式如下：

3.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(2)中，归一化指均值方差归一化，即将所有数据的均值变为0方差变为1，目的是消除不同维度数据量纲的影响，同时也降低了离群值对模型整体的影响。

4.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(3)中，滑动窗口指特征样本采集的范围，根据实际情况事先进行指定。

5.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(4)中，双通道神经网络是由CNN和双向LSTM并列组成的神经网络，用于组合序列中的局部依赖和长期依赖信息。SVM是机器学习中一种处理分类问题的监督学习算法，这里使用其拓展方式以解决回归问题。SVM思想的本质是求解一个线性约束的凸二次优化问题，它将输入变量映射到高维空间，使得模型具有对非线性时间序列的拟合能力。

6.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(5)中，CNN是一个基于卷积操作的深度学习模型，包含多个卷积核，用于提取序列数据的局部特征，该模型能够将任意结构的二维序列压缩成固定长度的向量。

7.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(6)中，LSTM是一种长短期记忆人工神经网络，双向LSTM能够同时捕获序列数据两个方向的信息。Attention机制是可以关注到双向LSTM每个时间步输出的一种加权机制。

8.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(7)中，对两个通道的输出向量加权是一种借鉴了Attention机制的加权方式，可以同时关注到两个通道的输出向量。

9.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(8)中，平均绝对误差的计算方式如下，其中n为测试样本的总数，y_i和

分别为每个测试样本的真实值和预测值：

10.如权利要求1所述的一种多维时序数据预测方法，其特征在于，所述步骤(9)中，R方是衡量模型对数据拟合程度的一种指标，计算方式如下，其中n为测试样本的总数，y_i和

分别为每个测试样本的真实值和预测值：