CN114841072A

CN114841072A - 一种基于差分融合Transformer的时序预测方法

Info

Publication number: CN114841072A
Application number: CN202210524328.8A
Authority: CN
Inventors: 杜圣东; 李本涵; 李天瑞; 方勇; 胡节; 苏敏; 唐楷
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2022-04-02
Filing date: 2022-05-13
Publication date: 2022-08-02

Abstract

本发明涉公开一种基于差分融合Transformer的时序预测方法，该方法利用编码器解码器结构，在经典Transformer架构的基础上设计了差分层、近邻注意力机制、滑动融合机制和残差层；具体来说，通过差分层和近邻注意力机制来提取和聚焦时序数据相邻时间点的特征差异，滑动融合机制融合了每个时间点的各种非线性特征，并能有效提取多变量时间序列中的多粒度关键特征，核心组件还包括一维卷积和LSTM融合残差层，以进一步学习各时序数据时间点之间的相互依赖关系，提升了模型对复杂多变量时序数据的深度特征学习能力。该方法相比于现有方法具有稳定性好、预测精度高、泛化能力强等特点。

Description

一种基于差分融合Transformer的时序预测方法

技术领域

本发明涉及一种基于差分融合Transformer的时序预测方法，属于时间序列预测技术领域。

背景技术

近年来，随着物联网的快速应用以及大数据与人工智能的飞速发展，对智慧城市交通运营和维护正朝着自主化、规模化、智能化的方向迈进。在城市时空数据量爆炸式增长的今天，传统的管理方式已经无法满足数字化时代的业务需求，因此亟需开发更加自主、高效的技术方案来优化交通资源、提高资源的可用性与稳定性。需要对各种时序数据进行持续的测量和监控，通过对各项时序变量的预测，可以及时发现时序趋势并进行预警和提前采取管理措施。因此，在智慧城市与交通智能运维领域中，对多变量时序数据的深度学习及预测具有十分重要的意义。

对于一般时序预测模型可以分为两类，一类是统计学习模型，一类是基于深度学习的预测模型。

基于统计学习的预测模型是根据传统数学方法或者浅层机器学习来提取参数序列特征并做出预测。参考文献[1]何兴平,耿远松,郭志伟,王婷,段守胜.基于差分自回归移动平均模型的电气设备温度预测[J].自动化与仪器仪表,2016(12):96-98.DOI:10.14016/j.cnki.1001-9227.2016.12.096.利用非平稳时间序列的差分自回归移动平均模型ARIMA来描述设备温度的变化，但其只能用于数据量小、参数不多的特定场景，不具备普遍性。参考文献[2]武兵,林健,熊晓燕.基于支持向量回归的多参数设备故障预测方法[J].振动.测试与诊断,2012,32(05):791-795.利用支持向量回归模型(SVR)对热连轧生产线盾构机的多个参数进行预测，并通过预测结果分析可能存在的故障，为管理者提供可靠依据。然而，SVR属于浅层机器学习模型，不适合大规模序列数据的学习。

基于深度学习的预测模型相比于传统方法，能够更充分地学习到时间依赖，并适用于大样本时序数据的及时性预测。参考文献[3]W.Zhang et al.,"LSTM-BasedAnalysisofIndustrial IoT Equipment,"in IEEEAccess,vol.6,pp.23551-23560,2018.将长短时记忆网络(LSTM)应用于时序数据预测。该模型有效降低了数据处理的复杂性，提高了LSTM的准确性。此外，该模型还提出了一种最优参数搜索的方法来提高预测精度。但是，该模型不能有效提取全局信息，对时序数据深度特征学习不够充分。

参考文献[4]J.Li,X.Li and D.He,"ADirectedAcyclic GraphNetworkCombinedWith CNN and LSTM forRemaining Useful Life Prediction,"in IEEEAccess,vol.7,pp.75464-75475,2019,doi:10.1109/ACCESS.2019.2919566.提出了一种结合长短期记忆(LSTM)和卷积神经网络(CNN)的有向无环图网络来进行时序预测。该方法通过以一个步长滑动的时间窗口(TW)来生成一个短期序列，避免使用单个时间戳时，在同一个训练批次中填充信号对预测能力带来的消极影响。

综上所述，现有的时序数据预测方法，仍然存在对全局的把控能力不强、对时间依赖的学习不充分、泛化性不好等缺点。针对上述关键问题，本发明设计了一种基于差分融合Transformer的时序预测方法。

发明内容

本发明主要是克服现有技术中的不足之处，提出一种基于差分融合Transformer的时序预测方法，该方法利用编码器解码器结构，在经典Transformer架构的基础上设计了差分层、近邻注意力机制层、滑动融合机制层和残差层。

具体来说，通过差分层和近邻注意力机制来提取和聚焦序列相邻时间点的特征差异，滑动融合机制融合了每个时间点的各种非线性特征，并能有效提取多变量序列数据中的多粒度关键特征，核心组件还包括一维卷积和LSTM融合残差层，以进一步学习各序列时间点之间的相互依赖关系，提升了模型对复杂多变量时序序列的深度特征学习能力，该方法相比于现有方法具有稳定性好、预测精度高、泛化能力强等特点。

本发明解决上述技术问题所提供的技术方案是：一种基于差分融合Transformer的时序预测方法，包括以下步骤：

步骤S1、对时序数据进行预处理；

步骤S2、对预处理后的数据进行归一化处理，并将归一化处理后的数据划分为训练集和测试集；

步骤S3、在设定好批处理样本数batch_size之后，依次从训练集取出batch_size大小的样本数，经Shifted处理后，将其分割为3个相邻的部分，该部分包括前向部分、训练中心、后向部分，并引入相邻两个部分的差值作为参数预测模型的共同输入；

步骤S4、对模型输入进行输入Embedding和位置编码，并将输入Embedding和位置编码的结果相加得到转换后的输出h_F,C,B、D_F,B；

步骤S5、将转换后的输出h_F,C,B、D_F,B输入到预测模型的编码器Encoder部分；

步骤S51、近邻注意力机制层：首先使用线性映射向h_C发出查询得到

之后分别从h_F和h_B得到

最后从h_C得到

使用Transformer中的自注意力公式，得到训练中心相对于近邻的注意力A_F,B；采用Transformer中的多头注意力机制得到最终的输出；

步骤S52、滑动融合机制层：将h_C、D_F,B、A_F,B三类矩阵的集合Φ在每一时间点进行提取和融合，得到

之后将其转置并对同一时间点的三个不同维度进行线性加权，以Sigmoid函数进行激活，并对加权结果在d_model维度上提取相对重要性，再与下一时间点的加权结果在对应位置上相乘，得到

最后将其转置并在时间点方向上合并，得到滑动融合机制的输出

步骤S53、残差层：使用一维卷积神经网络Conv1d对c_F,B提取每个时间点的特征，设置卷积核的大小为3，步长为3，卷积核的数量代表提取后每个时间点的特征维数，将卷积结果输入多个LSTM层，输出结果与残差e_F,B相加，作为TransformerEncoderLayer的输入；

其中Transformer Encoder Layer采用与Transformer编码器相同的结构，将其与滑动融合机制层和残差层连接，此处残差层中卷积核的大小为2，步长为2，最终得到本模型编码器的输出；

步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后，输入到MaskedMulti-headAttention，其输出经Add&Norm之后，输入到一个Multi-headAttention层，同时，将编码器的输出也传递给同一个Multi-head Attention层，再通过一个线性映射，得到最后的输出；

步骤S7、根据损失函数Loss对预测模型进行迭代更新训练，直至训练条件终止，生成训练好的预测模型，可用于预测未来时刻的时序值。

进一步的技术方案是，所述步骤S1中的具体工程为：对收集到的数据进行异常值处理和缺失值填补，构建多变量序列数据集

其中L为参数序列总长度，d为参与模型的总变量数。

进一步的技术方案是，所述步骤S2中使用Min-Max归一化方法。

进一步的技术方案是，所述S2中的计算公式为：

式中：

为归一化后属性i在t时刻的值，

为归一化前属性i在t时刻的值，min{x_i}为属性i的最小值，max{x_i}为属性i的最大值。

进一步的技术方案是，所述步骤S3中的分割步骤为：

记N＝batchsize+2，输入部分为

分割后的结果为{x^(j)|X_j:N-3+j,j∈{1,2,3}}，再x⁽²⁾将作为训练中心，x⁽¹⁾和x⁽³⁾分别为前向部分和后向部分。

进一步的技术方案是，所述步骤S4中输入Embedding：采用线性映射将输入矩阵映射到d_model维度；位置编码：采用Transformer中的PositionalEncoding。

进一步的技术方案是，所述步骤S4中的求和公式为：

h_F,C,B＝x^(j)W_j+PE(x^(j)W_j),j∈{1,2,3}

D_F＝(x⁽²⁾-x⁽¹⁾)W_F+PE((x⁽²⁾-x⁽¹⁾)W_F)

D_B＝(x⁽²⁾-x⁽³⁾)W_B+PE((x⁽²⁾-x⁽³⁾)W_B)

式中：x⁽¹⁾,x⁽²⁾,x⁽³⁾分别为差分后的前向部分、训练中心、后向部分；W_j,W_F,W_B均为输入Embedding中的线性映射矩阵；PE为Transformer中的位置编码功能。

进一步的技术方案是，所述步骤S51中训练中心相对于近邻的注意力A_F,B为：

多头注意力的计算公式为：

MultiHead(Q_F,B,K_F,B,V_F,B)＝Concat(head₁,...,head_p)W^O

式中：d_attn为近邻注意力机制中的映射维度。

进一步的技术方案是，所述步骤S52中的计算公式为：

c^(t)＝Concat(Φ^(t))

f^(t)＝(c^(t))^TW^(t)⊙s^(t-1)

s^(t)＝σ((c^(t-1))^TW^(t-1))

e＝Concat(f^(t))^T

式中：Φ^(t)为h_C、D_F,B、A_F,B三类矩阵在t时刻的集合；c^(t)为该集合的拼接矩阵；W^(t)为t时刻的权重矩阵；s^(t)表示t时刻各维度的相对重要性；⊙表示在矩阵的对应位置相乘；f^(t)为对应相乘后的输出；σ为激活函数，在本方法中选用Sigmoid函数；e为f^(t)转置后的拼接矩阵，是滑动融合机制的最终输出。

进一步的技术方案是，所述步骤S7中损失函数Loss为：

式中：m为样本数，y_i为真实数据，

为预测数据。

进一步的技术方案是，所述步骤S7中采用下降的学习率，其计算公式为：

lrate_(epoch)＝lrate_(epoch-1)×0.95^epoch

式中：lrate_(epoch)为当前训练的学习率；lrate_(epoch-1)为当前上一次训练的学习率；epoch为当前的训练次数。

本发明具有以下有益效果：

一、首次提出了利用差分层来解决时序数据学习训练过程中批次间的不连续性问题，同时根据差分形式，提出了一种新的近邻注意力机制，使得模型对时间序列数据连续段的差异更加敏感，并更有效地学习序列的变化特征；

二、提出了滑动融合机制来融合由差分和近邻注意力机制生成的各种矩阵，由此数据可以参与到编码和解码，并且不会丢失重要信息；滑动融合机制中包含一个激活函数，该函数用于在模型维度方向提取重要性特征，同时加入非线性因素，使得模型能够更有效地学习时序数据的非线性相关特征，同时提升模型对复杂多变量序列的深度学习能力；

三、使用结合了一维卷积神经网络和LSTM的残差层进一步学习多变量序列的相互依赖关系特征，同时避免由于神经网络层数增加导致的梯度爆炸和消失问题，增强了模型的深层训练能力和泛化能力。

附图说明

图1是本方法的总体架构图；

图2是多头注意力机制、近邻注意力机制以及滑动融合机制的原理图；

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种基于差分融合Transformer的时序预测方法，包括以下步骤：

步骤S1、对时序数据进行预处理；

对收集到的数据进行异常值处理和缺失值填补，构建多变量序列数据集

其中L为时序总长度，d为参与模型的总变量数；本数据集以其中一个变量的未来时序值为预测对象，以所有多变量时序数据为特征输入；

步骤S2、对数据预处理后得到的多变量序列数据集

进行归一化，使用Min-Max归一化方法，其中取数据集的前70％为训练集，后30％为测试集；

计算公式为：

式中：

为归一化后属性i在t时刻的值，

步骤S3、在设定好批处理样本数batch size之后，依次从训练集取出batch size大小的样本数，经Shifted处理后，将其分割为3个相邻的部分，记N＝batch_size+2，输入部分为

分割后的结果为{x^(j)|X_j:N-3+j,j∈{1,2,3}}，再x⁽²⁾将作为训练中心，x⁽¹⁾和x⁽³⁾分别为前向部分和后向部分；

步骤S4、对模型输入进行输入Embedding和位置编码；

输入Embedding：采用线性映射将输入矩阵映射到d_model维度；

位置编码(PE)：采用Transformer中的Positional Encoding，计算公式如下：

其中，

并将输入Embedding和位置编码的结果相加得到转换后的输出h_F,C,B、D_F,B；

h_F,C,B＝x^(j)W_j+PE(x^(j)W_j),j∈{1,2,3}

D_F＝(x⁽²⁾-x⁽¹⁾)W_F+PE((x⁽²⁾-x⁽¹⁾)W_F)

D_B＝(x⁽²⁾-x⁽³⁾)W_B+PE((x⁽²⁾-x⁽³⁾)W_B)

式中：x⁽¹⁾,x⁽²⁾,x⁽³⁾分别为差分后的前向部分、训练中心、后向部分；W_j,W_F,W_B均为输入Embedding中的线性映射矩阵；PE为Transformer中的位置编码功能；

步骤S5、将转换后的输出h_F,C,B、D_F,B输入到参数预测模型的编码器Encoder部分；

之后分别从h_F和h_B得到

最后从h_C得到

用Transformer中的自注意力公式，得到训练中心相对于近邻的注意力

采用Transformer中的多头注意力机制得到最终的输出，其中的计算公式为：

MultiHead(Q_F,B,K_F,B,V_F,B)＝Concat(head₁,...,head_p)W^O

式中：d_attn为近邻注意力机制中的映射维度；

该方法的计算公式为：

c^(t)＝Concat(Φ^(t))

f^(t)＝(c^(t))^TW^(t)⊙s^(t-1)

s^(t)＝σ((c^(t-1))^TW^(t-1))

e＝Concat(f^(t))^T

式中：Φ^(t)为h_C、D_F,B、A_F,B三类矩阵在t时刻的集合；c^(t)为该集合的拼接矩阵；W^(t)为t时刻的权重矩阵；s^(t)表示t时刻各维度的相对重要性；⊙表示在矩阵的对应位置相乘；f^(t)为对应相乘后的输出；σ为激活函数；在本方法中选用Sigmoid函数；e为f^(t)转置后的拼接矩阵，是滑动融合机制的最终输出；

步骤S53、残差层：使用一维卷积神经网络Conv1d对c_F,B提取每个时间点的特征，设置卷积核的大小为3，步长为3，卷积核的数量代表提取后每个时间点的特征维数，将卷积结果输入多个LSTM层，输出结果与残差e_F,B相加，作为Transformer Encoder Layer的输入；

步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后，输入到Masked Multi-head Attention，其输出经Add&Norm之后，输入到一个Multi-headAttention层，同时，将编码器的输出也传递给同一个Multi-head Attention层，再通过一个线性映射，得到最后的输出；

将预测值和真实值进行损失函数Loss计算，损失函数采用MSE，计算公式如下：

式中：m为样本数，y_i为真实数据，

为预测数据；

步骤S7、根据损失函数Loss对参数预测模型进行迭代更新训练，直至训练条件终止(达到模型迭代次数或因Loss不下降而触发早停机制)，生成训练好的时序预测模型，可用于预测未来时刻的时序值。

在模型训练的过程中，采用下降的学习率，计算公式如下：

lrate_(epoch)＝lrate_(epoch-1)×0.95^epoch

仿真实验

为了验证一种基于差分融合Transformer的时序预测方法的有效性，进行了基于真实数据集的多变量参数序列预测实验。实验环境采用Python开发语言和Pytorch深度学习框架。此外，本方法将与ARIMA、RNN、LSTM、GRU、Transformer以及Informer进行比较，上述方法的简要说明如下：

ARIMA：差分整合移动平均自回归(ARIMA)是时间序列预测的经典统计学方法，其通过计算当前值与历史值的线性关系来对变量自身进行预测。

RNN：循环神经网络(RNN)能够对当前时间点之前的信息进行记忆并应用到当前的输出计算中。相比于前馈神经网络，RNN能够学习到上下文的关联，因此被广泛应用于时序预测。

LSTM：长短期记忆网络(LSTM)是一种特殊的RNN，主要解决了RNN在长序列训练过程中的梯度消失和梯度爆炸问题，相较于普通RNN在更长的序列中有更好的表现。

GRU：门控循环单元网络(GRU)是LSTM的一种变体，其优化了LSTM的内部结构，使得计算复杂度降低。

Transformer：Transformer采用编码器解码器结构，通过自注意力挖掘数据之间的关联，从而学习到重要特征。该方法被广泛应用于自然语言处理、时间序列预测和计算机视觉等领域。

Informer：在Transformer架构的基础上，Informer采用ProbSparse自注意力机制，有效降低了时间复杂度和内存使用，并使模型拥有了处理长时间序列的能力。

将MAE、RMSE作为模型误差分析指标，用于评估各种方法的预测性能，误差指标计算公式如下：

其中，m为样本数，y_i为真实数据，

为预测数据。

实验一：

本实验数据集来源于传感器采集的时序数据集。该数据集以5分钟为采样点，包含了多变量时序特征信息。使用所有序列特征数据建模来预测未来单变量的时序值，采用MAE、RMSE三个作为评价指标。实验结果如表1所示。

表1各方法预测效果对比数据

表2基于差分融合Transformer模型的消融分析数据

从表1可见，在时序变量的预测中，本方法在MAE、RMSE两个评价指标方面均优于对比模型。

对比表1和表2可见，差分层、近邻注意力机制、滑动融合机制以及残差层均对提高时序模型预测能力做出了贡献，其中差分层、近邻注意力机制、滑动融合机制占主导作用。

综上，本方法相较于现有方法具有更好的预测性能，MAE、RMSE预测误差最小。

以上所述，并非对本发明作任何形式上的限制，虽然本发明已通过上述实施例揭示，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于差分融合Transformer的时序预测方法，其特征在于，包括以下步骤：

步骤S1、对多变量时序数据进行预处理；

之后分别从h_F和h_B得到

最后从h_C得到

步骤S7、根据损失函数Loss对参数预测模型进行迭代更新训练，直至训练条件终止，生成训练好的预测模型，可用于预测未来时刻的时序值。

2.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S1中的具体工程为：对收集到的时序序列数据进行异常值处理和缺失值填补，构建多变量序列数据集

其中L为参数序列总长度，d为参与模型的总变量数。

3.根据权利要求2所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S2中使用Min-Max归一化方法。

4.根据权利要求3所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述S2中的计算公式为：

式中：

为归一化后属性i在t时刻的值，

5.根据权利要求3所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S3中的分割步骤为：

记N＝batchsize+2，输入部分为

6.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S4中输入Embedding：采用线性映射将输入矩阵映射到d_model维度；位置编码：采用Transformer中的Positional Encoding。

7.根据权利要求6所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S4中的求和公式为：

h_F,C,B＝x^(j)W_j+PE(x^(j)W_j),j∈{1,2,3}

D_F＝(x⁽²⁾-x⁽¹⁾)W_F+PE((x⁽²⁾-x⁽¹⁾)W_F)

D_B＝(x⁽²⁾-x⁽³⁾)W_B+PE((x⁽²⁾-x⁽³⁾)W_B)

式中：x⁽¹⁾,x⁽²⁾,x⁽³⁾分别为差分后的前向部分、训练中心、后向部分；W_j,W_F,W_B为输入Embedding中的线性映射矩阵，PE为Transformer中的位置编码功能。

8.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S52中的计算公式为：

c^(t)＝Concat(Φ^(t))

f^(t)＝(c^(t))^TW^(t)⊙s^(t-1)

s^(t)＝σ((c^(t-1))^TW^(t-1))

e＝Concat(f^(t))^T

式中：Φ^(t)为h_C、D_F,B、A_F,B三类矩阵在t时刻的集合；c^(t)为该集合的拼接矩阵；W^(t)为t时刻的权重矩阵；s^(t)表示t时刻各维度的相对重要性；⊙表示在矩阵的对应位置相乘；f^(t)为对应相乘后的输出；σ为激活函数；e为f^(t)转置后的拼接矩阵，是滑动融合机制的最终输出。

9.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S7中损失函数Loss为：

式中：m为样本数，y_i为真实数据，

为预测数据。

10.根据权利要求9所述的一种基于差分融合Transformer的时序预测方法，其特征在于，所述步骤S7中采用下降的学习率，其计算公式为：

lrate_(epoch)＝lrate_(epoch-1)×0.95^epoch