CN114841072A - 一种基于差分融合Transformer的时序预测方法 - Google Patents

一种基于差分融合Transformer的时序预测方法 Download PDF

Info

Publication number
CN114841072A
CN114841072A CN202210524328.8A CN202210524328A CN114841072A CN 114841072 A CN114841072 A CN 114841072A CN 202210524328 A CN202210524328 A CN 202210524328A CN 114841072 A CN114841072 A CN 114841072A
Authority
CN
China
Prior art keywords
fusion
time
layer
training
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210524328.8A
Other languages
English (en)
Inventor
杜圣东
李本涵
李天瑞
方勇
胡节
苏敏
唐楷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Publication of CN114841072A publication Critical patent/CN114841072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉公开一种基于差分融合Transformer的时序预测方法,该方法利用编码器解码器结构,在经典Transformer架构的基础上设计了差分层、近邻注意力机制、滑动融合机制和残差层;具体来说,通过差分层和近邻注意力机制来提取和聚焦时序数据相邻时间点的特征差异,滑动融合机制融合了每个时间点的各种非线性特征,并能有效提取多变量时间序列中的多粒度关键特征,核心组件还包括一维卷积和LSTM融合残差层,以进一步学习各时序数据时间点之间的相互依赖关系,提升了模型对复杂多变量时序数据的深度特征学习能力。该方法相比于现有方法具有稳定性好、预测精度高、泛化能力强等特点。

Description

一种基于差分融合Transformer的时序预测方法
技术领域
本发明涉及一种基于差分融合Transformer的时序预测方法,属于时间序列预测技术领域。
背景技术
近年来,随着物联网的快速应用以及大数据与人工智能的飞速发展,对智慧城市交通运营和维护正朝着自主化、规模化、智能化的方向迈进。在城市时空数据量爆炸式增长的今天,传统的管理方式已经无法满足数字化时代的业务需求,因此亟需开发更加自主、高效的技术方案来优化交通资源、提高资源的可用性与稳定性。需要对各种时序数据进行持续的测量和监控,通过对各项时序变量的预测,可以及时发现时序趋势并进行预警和提前采取管理措施。因此,在智慧城市与交通智能运维领域中,对多变量时序数据的深度学习及预测具有十分重要的意义。
对于一般时序预测模型可以分为两类,一类是统计学习模型,一类是基于深度学习的预测模型。
基于统计学习的预测模型是根据传统数学方法或者浅层机器学习来提取参数序列特征并做出预测。参考文献[1]何兴平,耿远松,郭志伟,王婷,段守胜.基于差分自回归移动平均模型的电气设备温度预测[J].自动化与仪器仪表,2016(12):96-98.DOI:10.14016/j.cnki.1001-9227.2016.12.096.利用非平稳时间序列的差分自回归移动平均模型ARIMA来描述设备温度的变化,但其只能用于数据量小、参数不多的特定场景,不具备普遍性。参考文献[2]武兵,林健,熊晓燕.基于支持向量回归的多参数设备故障预测方法[J].振动.测试与诊断,2012,32(05):791-795.利用支持向量回归模型(SVR)对热连轧生产线盾构机的多个参数进行预测,并通过预测结果分析可能存在的故障,为管理者提供可靠依据。然而,SVR属于浅层机器学习模型,不适合大规模序列数据的学习。
基于深度学习的预测模型相比于传统方法,能够更充分地学习到时间依赖,并适用于大样本时序数据的及时性预测。参考文献[3]W.Zhang et al.,"LSTM-BasedAnalysisofIndustrial IoT Equipment,"in IEEEAccess,vol.6,pp.23551-23560,2018.将长短时记忆网络(LSTM)应用于时序数据预测。该模型有效降低了数据处理的复杂性,提高了LSTM的准确性。此外,该模型还提出了一种最优参数搜索的方法来提高预测精度。但是,该模型不能有效提取全局信息,对时序数据深度特征学习不够充分。
参考文献[4]J.Li,X.Li and D.He,"ADirectedAcyclic GraphNetworkCombinedWith CNN and LSTM forRemaining Useful Life Prediction,"in IEEEAccess,vol.7,pp.75464-75475,2019,doi:10.1109/ACCESS.2019.2919566.提出了一种结合长短期记忆(LSTM)和卷积神经网络(CNN)的有向无环图网络来进行时序预测。该方法通过以一个步长滑动的时间窗口(TW)来生成一个短期序列,避免使用单个时间戳时,在同一个训练批次中填充信号对预测能力带来的消极影响。
综上所述,现有的时序数据预测方法,仍然存在对全局的把控能力不强、对时间依赖的学习不充分、泛化性不好等缺点。针对上述关键问题,本发明设计了一种基于差分融合Transformer的时序预测方法。
发明内容
本发明主要是克服现有技术中的不足之处,提出一种基于差分融合Transformer的时序预测方法,该方法利用编码器解码器结构,在经典Transformer架构的基础上设计了差分层、近邻注意力机制层、滑动融合机制层和残差层。
具体来说,通过差分层和近邻注意力机制来提取和聚焦序列相邻时间点的特征差异,滑动融合机制融合了每个时间点的各种非线性特征,并能有效提取多变量序列数据中的多粒度关键特征,核心组件还包括一维卷积和LSTM融合残差层,以进一步学习各序列时间点之间的相互依赖关系,提升了模型对复杂多变量时序序列的深度特征学习能力,该方法相比于现有方法具有稳定性好、预测精度高、泛化能力强等特点。
本发明解决上述技术问题所提供的技术方案是:一种基于差分融合Transformer的时序预测方法,包括以下步骤:
步骤S1、对时序数据进行预处理;
步骤S2、对预处理后的数据进行归一化处理,并将归一化处理后的数据划分为训练集和测试集;
步骤S3、在设定好批处理样本数batch_size之后,依次从训练集取出batch_size大小的样本数,经Shifted处理后,将其分割为3个相邻的部分,该部分包括前向部分、训练中心、后向部分,并引入相邻两个部分的差值作为参数预测模型的共同输入;
步骤S4、对模型输入进行输入Embedding和位置编码,并将输入Embedding和位置编码的结果相加得到转换后的输出hF,C,B、DF,B
步骤S5、将转换后的输出hF,C,B、DF,B输入到预测模型的编码器Encoder部分;
步骤S51、近邻注意力机制层:首先使用线性映射向hC发出查询得到
Figure BDA0003643467550000031
之后分别从hF和hB得到
Figure BDA0003643467550000032
最后从hC得到
Figure BDA0003643467550000033
使用Transformer中的自注意力公式,得到训练中心相对于近邻的注意力AF,B;采用Transformer中的多头注意力机制得到最终的输出;
步骤S52、滑动融合机制层:将hC、DF,B、AF,B三类矩阵的集合Φ在每一时间点进行提取和融合,得到
Figure BDA0003643467550000041
之后将其转置并对同一时间点的三个不同维度进行线性加权,以Sigmoid函数进行激活,并对加权结果在dmodel维度上提取相对重要性,再与下一时间点的加权结果在对应位置上相乘,得到
Figure BDA0003643467550000042
最后将其转置并在时间点方向上合并,得到滑动融合机制的输出
Figure BDA0003643467550000043
步骤S53、残差层:使用一维卷积神经网络Conv1d对cF,B提取每个时间点的特征,设置卷积核的大小为3,步长为3,卷积核的数量代表提取后每个时间点的特征维数,将卷积结果输入多个LSTM层,输出结果与残差eF,B相加,作为TransformerEncoderLayer的输入;
其中Transformer Encoder Layer采用与Transformer编码器相同的结构,将其与滑动融合机制层和残差层连接,此处残差层中卷积核的大小为2,步长为2,最终得到本模型编码器的输出;
步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后,输入到MaskedMulti-headAttention,其输出经Add&Norm之后,输入到一个Multi-headAttention层,同时,将编码器的输出也传递给同一个Multi-head Attention层,再通过一个线性映射,得到最后的输出;
步骤S7、根据损失函数Loss对预测模型进行迭代更新训练,直至训练条件终止,生成训练好的预测模型,可用于预测未来时刻的时序值。
进一步的技术方案是,所述步骤S1中的具体工程为:对收集到的数据进行异常值处理和缺失值填补,构建多变量序列数据集
Figure BDA0003643467550000044
其中L为参数序列总长度,d为参与模型的总变量数。
进一步的技术方案是,所述步骤S2中使用Min-Max归一化方法。
进一步的技术方案是,所述S2中的计算公式为:
Figure BDA0003643467550000051
式中:
Figure BDA0003643467550000052
为归一化后属性i在t时刻的值,
Figure BDA0003643467550000053
为归一化前属性i在t时刻的值,min{xi}为属性i的最小值,max{xi}为属性i的最大值。
进一步的技术方案是,所述步骤S3中的分割步骤为:
记N=batchsize+2,输入部分为
Figure BDA0003643467550000054
分割后的结果为{x(j)|Xj:N-3+j,j∈{1,2,3}},再x(2)将作为训练中心,x(1)和x(3)分别为前向部分和后向部分。
进一步的技术方案是,所述步骤S4中输入Embedding:采用线性映射将输入矩阵映射到dmodel维度;位置编码:采用Transformer中的PositionalEncoding。
进一步的技术方案是,所述步骤S4中的求和公式为:
hF,C,B=x(j)Wj+PE(x(j)Wj),j∈{1,2,3}
DF=(x(2)-x(1))WF+PE((x(2)-x(1))WF)
DB=(x(2)-x(3))WB+PE((x(2)-x(3))WB)
式中:x(1),x(2),x(3)分别为差分后的前向部分、训练中心、后向部分;Wj,WF,WB均为输入Embedding中的线性映射矩阵;PE为Transformer中的位置编码功能。
进一步的技术方案是,所述步骤S51中训练中心相对于近邻的注意力AF,B为:
Figure BDA0003643467550000055
多头注意力的计算公式为:
MultiHead(QF,B,KF,B,VF,B)=Concat(head1,...,headp)WO
Figure BDA0003643467550000061
式中:dattn为近邻注意力机制中的映射维度。
进一步的技术方案是,所述步骤S52中的计算公式为:
c(t)=Concat(Φ(t))
f(t)=(c(t))TW(t)⊙s(t-1)
s(t)=σ((c(t-1))TW(t-1))
e=Concat(f(t))T
式中:Φ(t)为hC、DF,B、AF,B三类矩阵在t时刻的集合;c(t)为该集合的拼接矩阵;W(t)为t时刻的权重矩阵;s(t)表示t时刻各维度的相对重要性;⊙表示在矩阵的对应位置相乘;f(t)为对应相乘后的输出;σ为激活函数,在本方法中选用Sigmoid函数;e为f(t)转置后的拼接矩阵,是滑动融合机制的最终输出。
进一步的技术方案是,所述步骤S7中损失函数Loss为:
Figure BDA0003643467550000062
式中:m为样本数,yi为真实数据,
Figure BDA0003643467550000063
为预测数据。
进一步的技术方案是,所述步骤S7中采用下降的学习率,其计算公式为:
lrate(epoch)=lrate(epoch-1)×0.95epoch
式中:lrate(epoch)为当前训练的学习率;lrate(epoch-1)为当前上一次训练的学习率;epoch为当前的训练次数。
本发明具有以下有益效果:
一、首次提出了利用差分层来解决时序数据学习训练过程中批次间的不连续性问题,同时根据差分形式,提出了一种新的近邻注意力机制,使得模型对时间序列数据连续段的差异更加敏感,并更有效地学习序列的变化特征;
二、提出了滑动融合机制来融合由差分和近邻注意力机制生成的各种矩阵,由此数据可以参与到编码和解码,并且不会丢失重要信息;滑动融合机制中包含一个激活函数,该函数用于在模型维度方向提取重要性特征,同时加入非线性因素,使得模型能够更有效地学习时序数据的非线性相关特征,同时提升模型对复杂多变量序列的深度学习能力;
三、使用结合了一维卷积神经网络和LSTM的残差层进一步学习多变量序列的相互依赖关系特征,同时避免由于神经网络层数增加导致的梯度爆炸和消失问题,增强了模型的深层训练能力和泛化能力。
附图说明
图1是本方法的总体架构图;
图2是多头注意力机制、近邻注意力机制以及滑动融合机制的原理图;
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种基于差分融合Transformer的时序预测方法,包括以下步骤:
步骤S1、对时序数据进行预处理;
对收集到的数据进行异常值处理和缺失值填补,构建多变量序列数据集
Figure BDA0003643467550000071
其中L为时序总长度,d为参与模型的总变量数;本数据集以其中一个变量的未来时序值为预测对象,以所有多变量时序数据为特征输入;
步骤S2、对数据预处理后得到的多变量序列数据集
Figure BDA0003643467550000072
进行归一化,使用Min-Max归一化方法,其中取数据集的前70%为训练集,后30%为测试集;
计算公式为:
Figure BDA0003643467550000081
式中:
Figure BDA0003643467550000082
为归一化后属性i在t时刻的值,
Figure BDA0003643467550000083
为归一化前属性i在t时刻的值,min{xi}为属性i的最小值,max{xi}为属性i的最大值。
步骤S3、在设定好批处理样本数batch size之后,依次从训练集取出batch size大小的样本数,经Shifted处理后,将其分割为3个相邻的部分,记N=batch_size+2,输入部分为
Figure BDA0003643467550000084
分割后的结果为{x(j)|Xj:N-3+j,j∈{1,2,3}},再x(2)将作为训练中心,x(1)和x(3)分别为前向部分和后向部分;
步骤S4、对模型输入进行输入Embedding和位置编码;
输入Embedding:采用线性映射将输入矩阵映射到dmodel维度;
位置编码(PE):采用Transformer中的Positional Encoding,计算公式如下:
Figure BDA0003643467550000085
Figure BDA0003643467550000086
其中,
Figure BDA0003643467550000087
并将输入Embedding和位置编码的结果相加得到转换后的输出hF,C,B、DF,B
hF,C,B=x(j)Wj+PE(x(j)Wj),j∈{1,2,3}
DF=(x(2)-x(1))WF+PE((x(2)-x(1))WF)
DB=(x(2)-x(3))WB+PE((x(2)-x(3))WB)
式中:x(1),x(2),x(3)分别为差分后的前向部分、训练中心、后向部分;Wj,WF,WB均为输入Embedding中的线性映射矩阵;PE为Transformer中的位置编码功能;
步骤S5、将转换后的输出hF,C,B、DF,B输入到参数预测模型的编码器Encoder部分;
步骤S51、近邻注意力机制层:首先使用线性映射向hC发出查询得到
Figure BDA0003643467550000098
之后分别从hF和hB得到
Figure BDA0003643467550000091
最后从hC得到
Figure BDA0003643467550000092
用Transformer中的自注意力公式,得到训练中心相对于近邻的注意力
Figure BDA0003643467550000093
采用Transformer中的多头注意力机制得到最终的输出,其中的计算公式为:
MultiHead(QF,B,KF,B,VF,B)=Concat(head1,...,headp)WO
Figure BDA0003643467550000094
式中:dattn为近邻注意力机制中的映射维度;
步骤S52、滑动融合机制层:将hC、DF,B、AF,B三类矩阵的集合Φ在每一时间点进行提取和融合,得到
Figure BDA0003643467550000095
之后将其转置并对同一时间点的三个不同维度进行线性加权,以Sigmoid函数进行激活,并对加权结果在dmodel维度上提取相对重要性,再与下一时间点的加权结果在对应位置上相乘,得到
Figure BDA0003643467550000096
最后将其转置并在时间点方向上合并,得到滑动融合机制的输出
Figure BDA0003643467550000097
该方法的计算公式为:
c(t)=Concat(Φ(t))
f(t)=(c(t))TW(t)⊙s(t-1)
s(t)=σ((c(t-1))TW(t-1))
e=Concat(f(t))T
式中:Φ(t)为hC、DF,B、AF,B三类矩阵在t时刻的集合;c(t)为该集合的拼接矩阵;W(t)为t时刻的权重矩阵;s(t)表示t时刻各维度的相对重要性;⊙表示在矩阵的对应位置相乘;f(t)为对应相乘后的输出;σ为激活函数;在本方法中选用Sigmoid函数;e为f(t)转置后的拼接矩阵,是滑动融合机制的最终输出;
步骤S53、残差层:使用一维卷积神经网络Conv1d对cF,B提取每个时间点的特征,设置卷积核的大小为3,步长为3,卷积核的数量代表提取后每个时间点的特征维数,将卷积结果输入多个LSTM层,输出结果与残差eF,B相加,作为Transformer Encoder Layer的输入;
其中Transformer Encoder Layer采用与Transformer编码器相同的结构,将其与滑动融合机制层和残差层连接,此处残差层中卷积核的大小为2,步长为2,最终得到本模型编码器的输出;
步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后,输入到Masked Multi-head Attention,其输出经Add&Norm之后,输入到一个Multi-headAttention层,同时,将编码器的输出也传递给同一个Multi-head Attention层,再通过一个线性映射,得到最后的输出;
将预测值和真实值进行损失函数Loss计算,损失函数采用MSE,计算公式如下:
Figure BDA0003643467550000101
式中:m为样本数,yi为真实数据,
Figure BDA0003643467550000102
为预测数据;
步骤S7、根据损失函数Loss对参数预测模型进行迭代更新训练,直至训练条件终止(达到模型迭代次数或因Loss不下降而触发早停机制),生成训练好的时序预测模型,可用于预测未来时刻的时序值。
在模型训练的过程中,采用下降的学习率,计算公式如下:
lrate(epoch)=lrate(epoch-1)×0.95epoch
式中:lrate(epoch)为当前训练的学习率;lrate(epoch-1)为当前上一次训练的学习率;epoch为当前的训练次数。
仿真实验
为了验证一种基于差分融合Transformer的时序预测方法的有效性,进行了基于真实数据集的多变量参数序列预测实验。实验环境采用Python开发语言和Pytorch深度学习框架。此外,本方法将与ARIMA、RNN、LSTM、GRU、Transformer以及Informer进行比较,上述方法的简要说明如下:
ARIMA:差分整合移动平均自回归(ARIMA)是时间序列预测的经典统计学方法,其通过计算当前值与历史值的线性关系来对变量自身进行预测。
RNN:循环神经网络(RNN)能够对当前时间点之前的信息进行记忆并应用到当前的输出计算中。相比于前馈神经网络,RNN能够学习到上下文的关联,因此被广泛应用于时序预测。
LSTM:长短期记忆网络(LSTM)是一种特殊的RNN,主要解决了RNN在长序列训练过程中的梯度消失和梯度爆炸问题,相较于普通RNN在更长的序列中有更好的表现。
GRU:门控循环单元网络(GRU)是LSTM的一种变体,其优化了LSTM的内部结构,使得计算复杂度降低。
Transformer:Transformer采用编码器解码器结构,通过自注意力挖掘数据之间的关联,从而学习到重要特征。该方法被广泛应用于自然语言处理、时间序列预测和计算机视觉等领域。
Informer:在Transformer架构的基础上,Informer采用ProbSparse自注意力机制,有效降低了时间复杂度和内存使用,并使模型拥有了处理长时间序列的能力。
将MAE、RMSE作为模型误差分析指标,用于评估各种方法的预测性能,误差指标计算公式如下:
Figure BDA0003643467550000121
Figure BDA0003643467550000122
其中,m为样本数,yi为真实数据,
Figure BDA0003643467550000123
为预测数据。
实验一:
本实验数据集来源于传感器采集的时序数据集。该数据集以5分钟为采样点,包含了多变量时序特征信息。使用所有序列特征数据建模来预测未来单变量的时序值,采用MAE、RMSE三个作为评价指标。实验结果如表1所示。
表1各方法预测效果对比数据
Figure BDA0003643467550000124
表2基于差分融合Transformer模型的消融分析数据
Figure BDA0003643467550000125
Figure BDA0003643467550000131
从表1可见,在时序变量的预测中,本方法在MAE、RMSE两个评价指标方面均优于对比模型。
对比表1和表2可见,差分层、近邻注意力机制、滑动融合机制以及残差层均对提高时序模型预测能力做出了贡献,其中差分层、近邻注意力机制、滑动融合机制占主导作用。
综上,本方法相较于现有方法具有更好的预测性能,MAE、RMSE预测误差最小。
以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于差分融合Transformer的时序预测方法,其特征在于,包括以下步骤:
步骤S1、对多变量时序数据进行预处理;
步骤S2、对预处理后的数据进行归一化处理,并将归一化处理后的数据划分为训练集和测试集;
步骤S3、在设定好批处理样本数batch_size之后,依次从训练集取出batch_size大小的样本数,经Shifted处理后,将其分割为3个相邻的部分,该部分包括前向部分、训练中心、后向部分,并引入相邻两个部分的差值作为参数预测模型的共同输入;
步骤S4、对模型输入进行输入Embedding和位置编码,并将输入Embedding和位置编码的结果相加得到转换后的输出hF,C,B、DF,B
步骤S5、将转换后的输出hF,C,B、DF,B输入到预测模型的编码器Encoder部分;
步骤S51、近邻注意力机制层:首先使用线性映射向hC发出查询得到
Figure FDA0003643467540000011
之后分别从hF和hB得到
Figure FDA0003643467540000012
最后从hC得到
Figure FDA0003643467540000013
使用Transformer中的自注意力公式,得到训练中心相对于近邻的注意力AF,B;采用Transformer中的多头注意力机制得到最终的输出;
步骤S52、滑动融合机制层:将hC、DF,B、AF,B三类矩阵的集合Φ在每一时间点进行提取和融合,得到
Figure FDA0003643467540000014
之后将其转置并对同一时间点的三个不同维度进行线性加权,以Sigmoid函数进行激活,并对加权结果在dmodel维度上提取相对重要性,再与下一时间点的加权结果在对应位置上相乘,得到
Figure FDA0003643467540000015
最后将其转置并在时间点方向上合并,得到滑动融合机制的输出
Figure FDA0003643467540000016
步骤S53、残差层:使用一维卷积神经网络Conv1d对cF,B提取每个时间点的特征,设置卷积核的大小为3,步长为3,卷积核的数量代表提取后每个时间点的特征维数,将卷积结果输入多个LSTM层,输出结果与残差eF,B相加,作为Transformer Encoder Layer的输入;
其中Transformer Encoder Layer采用与Transformer编码器相同的结构,将其与滑动融合机制层和残差层连接,此处残差层中卷积核的大小为2,步长为2,最终得到本模型编码器的输出;
步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后,输入到Masked Multi-head Attention,其输出经Add&Norm之后,输入到一个Multi-headAttention层,同时,将编码器的输出也传递给同一个Multi-head Attention层,再通过一个线性映射,得到最后的输出;
步骤S7、根据损失函数Loss对参数预测模型进行迭代更新训练,直至训练条件终止,生成训练好的预测模型,可用于预测未来时刻的时序值。
2.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S1中的具体工程为:对收集到的时序序列数据进行异常值处理和缺失值填补,构建多变量序列数据集
Figure FDA0003643467540000021
其中L为参数序列总长度,d为参与模型的总变量数。
3.根据权利要求2所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S2中使用Min-Max归一化方法。
4.根据权利要求3所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述S2中的计算公式为:
Figure FDA0003643467540000022
式中:
Figure FDA0003643467540000023
为归一化后属性i在t时刻的值,
Figure FDA0003643467540000024
为归一化前属性i在t时刻的值,min{xi}为属性i的最小值,max{xi}为属性i的最大值。
5.根据权利要求3所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S3中的分割步骤为:
记N=batchsize+2,输入部分为
Figure FDA0003643467540000031
分割后的结果为{x(j)|Xj:N-3+j,j∈{1,2,3}},再x(2)将作为训练中心,x(1)和x(3)分别为前向部分和后向部分。
6.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S4中输入Embedding:采用线性映射将输入矩阵映射到dmodel维度;位置编码:采用Transformer中的Positional Encoding。
7.根据权利要求6所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S4中的求和公式为:
hF,C,B=x(j)Wj+PE(x(j)Wj),j∈{1,2,3}
DF=(x(2)-x(1))WF+PE((x(2)-x(1))WF)
DB=(x(2)-x(3))WB+PE((x(2)-x(3))WB)
式中:x(1),x(2),x(3)分别为差分后的前向部分、训练中心、后向部分;Wj,WF,WB为输入Embedding中的线性映射矩阵,PE为Transformer中的位置编码功能。
8.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S52中的计算公式为:
c(t)=Concat(Φ(t))
f(t)=(c(t))TW(t)⊙s(t-1)
s(t)=σ((c(t-1))TW(t-1))
e=Concat(f(t))T
式中:Φ(t)为hC、DF,B、AF,B三类矩阵在t时刻的集合;c(t)为该集合的拼接矩阵;W(t)为t时刻的权重矩阵;s(t)表示t时刻各维度的相对重要性;⊙表示在矩阵的对应位置相乘;f(t)为对应相乘后的输出;σ为激活函数;e为f(t)转置后的拼接矩阵,是滑动融合机制的最终输出。
9.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S7中损失函数Loss为:
Figure FDA0003643467540000041
式中:m为样本数,yi为真实数据,
Figure FDA0003643467540000042
为预测数据。
10.根据权利要求9所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S7中采用下降的学习率,其计算公式为:
lrate(epoch)=lrate(epoch-1)×0.95epoch
式中:lrate(epoch)为当前训练的学习率;lrate(epoch-1)为当前上一次训练的学习率;epoch为当前的训练次数。
CN202210524328.8A 2022-04-02 2022-05-13 一种基于差分融合Transformer的时序预测方法 Pending CN114841072A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022103504847 2022-04-02
CN202210350484 2022-04-02

Publications (1)

Publication Number Publication Date
CN114841072A true CN114841072A (zh) 2022-08-02

Family

ID=82569234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210524328.8A Pending CN114841072A (zh) 2022-04-02 2022-05-13 一种基于差分融合Transformer的时序预测方法

Country Status (1)

Country Link
CN (1) CN114841072A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115834310A (zh) * 2023-02-15 2023-03-21 四川轻化工大学 一种基于LGTransformer的通信信号调制识别方法
CN116127720A (zh) * 2022-12-21 2023-05-16 华能南京燃机发电有限公司 一种基于改进Transformer的燃气轮机故障诊断方法
CN116756531A (zh) * 2023-08-23 2023-09-15 北京科技大学 一种面向模型交互联动的带钢热连轧过程监控方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127720A (zh) * 2022-12-21 2023-05-16 华能南京燃机发电有限公司 一种基于改进Transformer的燃气轮机故障诊断方法
CN116127720B (zh) * 2022-12-21 2024-01-16 华能南京燃机发电有限公司 一种基于改进Transformer的燃气轮机故障诊断方法
CN115834310A (zh) * 2023-02-15 2023-03-21 四川轻化工大学 一种基于LGTransformer的通信信号调制识别方法
CN116756531A (zh) * 2023-08-23 2023-09-15 北京科技大学 一种面向模型交互联动的带钢热连轧过程监控方法和装置
CN116756531B (zh) * 2023-08-23 2023-10-13 北京科技大学 一种面向模型交互联动的带钢热连轧过程监控方法和装置

Similar Documents

Publication Publication Date Title
CN114841072A (zh) 一种基于差分融合Transformer的时序预测方法
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN112966714B (zh) 一种边缘时序数据异常检测和网络可编程控制方法
CN115688035A (zh) 一种基于自监督学习的时序电力数据异常检测方法
Tan et al. Network fault prediction based on CNN-LSTM hybrid neural network
CN111832825A (zh) 融合长短期记忆网络和极限学习机的风电预测方法及系统
Tan et al. Multi-node load forecasting based on multi-task learning with modal feature extraction
CN115168443A (zh) 一种基于gcn-lstm和注意力机制的异常检测方法及系统
Wang et al. Remaining useful life estimation of aircraft engines using a joint deep learning model based on TCNN and transformer
CN110956309A (zh) 基于crf和lstm的流程活动预测方法
CN114399066A (zh) 基于弱监督学习的机械设备预知性维护系统和维护方法
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
CN114169091A (zh) 工程机械部件剩余寿命的预测模型建立方法及预测方法
CN112241802A (zh) 一种风电功率的区间预测方法
Chen et al. Remaining useful life prediction of turbofan engine based on temporal convolutional networks optimized by genetic algorithm
Shi et al. A dual attention LSTM lightweight model based on exponential smoothing for remaining useful life prediction
CN116910049A (zh) 基于mdan的电力负荷数据缺失值填充模型及其构建方法
CN115660198B (zh) 滚动轴承剩余使用寿命预测方法
CN116737943A (zh) 面向新闻领域的时序知识图谱链路预测方法
Wu et al. Custom machine learning architectures: towards realtime anomaly detection for flight testing
Zhang et al. A traffic flow-forecasting model based on multi-head spatio–temporal attention and adaptive graph convolutional networks
Zhao et al. A Hybrid Time Series Model based on Dilated Conv1D and LSTM with Applications to PM2. 5 Forecasting.
CN114841063A (zh) 一种基于深度学习的航空发动机剩余寿命预测方法
CN117454762B (zh) Markov-神经网络的穿煤隧道掌子面瓦斯浓度预测方法
Zhang et al. Distance-Based Embedding Learning for Remaining Useful Life Estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220802