CN114841072A - 一种基于差分融合Transformer的时序预测方法 - Google Patents
一种基于差分融合Transformer的时序预测方法 Download PDFInfo
- Publication number
- CN114841072A CN114841072A CN202210524328.8A CN202210524328A CN114841072A CN 114841072 A CN114841072 A CN 114841072A CN 202210524328 A CN202210524328 A CN 202210524328A CN 114841072 A CN114841072 A CN 114841072A
- Authority
- CN
- China
- Prior art keywords
- fusion
- time
- layer
- training
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 229910052731 fluorine Inorganic materials 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 125000001153 fluoro group Chemical group F* 0.000 claims 1
- 239000008358 core component Substances 0.000 abstract description 2
- 238000013461 design Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉公开一种基于差分融合Transformer的时序预测方法,该方法利用编码器解码器结构,在经典Transformer架构的基础上设计了差分层、近邻注意力机制、滑动融合机制和残差层;具体来说,通过差分层和近邻注意力机制来提取和聚焦时序数据相邻时间点的特征差异,滑动融合机制融合了每个时间点的各种非线性特征,并能有效提取多变量时间序列中的多粒度关键特征,核心组件还包括一维卷积和LSTM融合残差层,以进一步学习各时序数据时间点之间的相互依赖关系,提升了模型对复杂多变量时序数据的深度特征学习能力。该方法相比于现有方法具有稳定性好、预测精度高、泛化能力强等特点。
Description
技术领域
本发明涉及一种基于差分融合Transformer的时序预测方法,属于时间序列预测技术领域。
背景技术
近年来,随着物联网的快速应用以及大数据与人工智能的飞速发展,对智慧城市交通运营和维护正朝着自主化、规模化、智能化的方向迈进。在城市时空数据量爆炸式增长的今天,传统的管理方式已经无法满足数字化时代的业务需求,因此亟需开发更加自主、高效的技术方案来优化交通资源、提高资源的可用性与稳定性。需要对各种时序数据进行持续的测量和监控,通过对各项时序变量的预测,可以及时发现时序趋势并进行预警和提前采取管理措施。因此,在智慧城市与交通智能运维领域中,对多变量时序数据的深度学习及预测具有十分重要的意义。
对于一般时序预测模型可以分为两类,一类是统计学习模型,一类是基于深度学习的预测模型。
基于统计学习的预测模型是根据传统数学方法或者浅层机器学习来提取参数序列特征并做出预测。参考文献[1]何兴平,耿远松,郭志伟,王婷,段守胜.基于差分自回归移动平均模型的电气设备温度预测[J].自动化与仪器仪表,2016(12):96-98.DOI:10.14016/j.cnki.1001-9227.2016.12.096.利用非平稳时间序列的差分自回归移动平均模型ARIMA来描述设备温度的变化,但其只能用于数据量小、参数不多的特定场景,不具备普遍性。参考文献[2]武兵,林健,熊晓燕.基于支持向量回归的多参数设备故障预测方法[J].振动.测试与诊断,2012,32(05):791-795.利用支持向量回归模型(SVR)对热连轧生产线盾构机的多个参数进行预测,并通过预测结果分析可能存在的故障,为管理者提供可靠依据。然而,SVR属于浅层机器学习模型,不适合大规模序列数据的学习。
基于深度学习的预测模型相比于传统方法,能够更充分地学习到时间依赖,并适用于大样本时序数据的及时性预测。参考文献[3]W.Zhang et al.,"LSTM-BasedAnalysisofIndustrial IoT Equipment,"in IEEEAccess,vol.6,pp.23551-23560,2018.将长短时记忆网络(LSTM)应用于时序数据预测。该模型有效降低了数据处理的复杂性,提高了LSTM的准确性。此外,该模型还提出了一种最优参数搜索的方法来提高预测精度。但是,该模型不能有效提取全局信息,对时序数据深度特征学习不够充分。
参考文献[4]J.Li,X.Li and D.He,"ADirectedAcyclic GraphNetworkCombinedWith CNN and LSTM forRemaining Useful Life Prediction,"in IEEEAccess,vol.7,pp.75464-75475,2019,doi:10.1109/ACCESS.2019.2919566.提出了一种结合长短期记忆(LSTM)和卷积神经网络(CNN)的有向无环图网络来进行时序预测。该方法通过以一个步长滑动的时间窗口(TW)来生成一个短期序列,避免使用单个时间戳时,在同一个训练批次中填充信号对预测能力带来的消极影响。
综上所述,现有的时序数据预测方法,仍然存在对全局的把控能力不强、对时间依赖的学习不充分、泛化性不好等缺点。针对上述关键问题,本发明设计了一种基于差分融合Transformer的时序预测方法。
发明内容
本发明主要是克服现有技术中的不足之处,提出一种基于差分融合Transformer的时序预测方法,该方法利用编码器解码器结构,在经典Transformer架构的基础上设计了差分层、近邻注意力机制层、滑动融合机制层和残差层。
具体来说,通过差分层和近邻注意力机制来提取和聚焦序列相邻时间点的特征差异,滑动融合机制融合了每个时间点的各种非线性特征,并能有效提取多变量序列数据中的多粒度关键特征,核心组件还包括一维卷积和LSTM融合残差层,以进一步学习各序列时间点之间的相互依赖关系,提升了模型对复杂多变量时序序列的深度特征学习能力,该方法相比于现有方法具有稳定性好、预测精度高、泛化能力强等特点。
本发明解决上述技术问题所提供的技术方案是:一种基于差分融合Transformer的时序预测方法,包括以下步骤:
步骤S1、对时序数据进行预处理;
步骤S2、对预处理后的数据进行归一化处理,并将归一化处理后的数据划分为训练集和测试集;
步骤S3、在设定好批处理样本数batch_size之后,依次从训练集取出batch_size大小的样本数,经Shifted处理后,将其分割为3个相邻的部分,该部分包括前向部分、训练中心、后向部分,并引入相邻两个部分的差值作为参数预测模型的共同输入;
步骤S4、对模型输入进行输入Embedding和位置编码,并将输入Embedding和位置编码的结果相加得到转换后的输出hF,C,B、DF,B;
步骤S5、将转换后的输出hF,C,B、DF,B输入到预测模型的编码器Encoder部分;
步骤S51、近邻注意力机制层:首先使用线性映射向hC发出查询得到之后分别从hF和hB得到最后从hC得到使用Transformer中的自注意力公式,得到训练中心相对于近邻的注意力AF,B;采用Transformer中的多头注意力机制得到最终的输出;
步骤S52、滑动融合机制层:将hC、DF,B、AF,B三类矩阵的集合Φ在每一时间点进行提取和融合,得到之后将其转置并对同一时间点的三个不同维度进行线性加权,以Sigmoid函数进行激活,并对加权结果在dmodel维度上提取相对重要性,再与下一时间点的加权结果在对应位置上相乘,得到最后将其转置并在时间点方向上合并,得到滑动融合机制的输出
步骤S53、残差层:使用一维卷积神经网络Conv1d对cF,B提取每个时间点的特征,设置卷积核的大小为3,步长为3,卷积核的数量代表提取后每个时间点的特征维数,将卷积结果输入多个LSTM层,输出结果与残差eF,B相加,作为TransformerEncoderLayer的输入;
其中Transformer Encoder Layer采用与Transformer编码器相同的结构,将其与滑动融合机制层和残差层连接,此处残差层中卷积核的大小为2,步长为2,最终得到本模型编码器的输出;
步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后,输入到MaskedMulti-headAttention,其输出经Add&Norm之后,输入到一个Multi-headAttention层,同时,将编码器的输出也传递给同一个Multi-head Attention层,再通过一个线性映射,得到最后的输出;
步骤S7、根据损失函数Loss对预测模型进行迭代更新训练,直至训练条件终止,生成训练好的预测模型,可用于预测未来时刻的时序值。
进一步的技术方案是,所述步骤S2中使用Min-Max归一化方法。
进一步的技术方案是,所述S2中的计算公式为:
进一步的技术方案是,所述步骤S3中的分割步骤为:
进一步的技术方案是,所述步骤S4中输入Embedding:采用线性映射将输入矩阵映射到dmodel维度;位置编码:采用Transformer中的PositionalEncoding。
进一步的技术方案是,所述步骤S4中的求和公式为:
hF,C,B=x(j)Wj+PE(x(j)Wj),j∈{1,2,3}
DF=(x(2)-x(1))WF+PE((x(2)-x(1))WF)
DB=(x(2)-x(3))WB+PE((x(2)-x(3))WB)
式中:x(1),x(2),x(3)分别为差分后的前向部分、训练中心、后向部分;Wj,WF,WB均为输入Embedding中的线性映射矩阵;PE为Transformer中的位置编码功能。
进一步的技术方案是,所述步骤S51中训练中心相对于近邻的注意力AF,B为:
多头注意力的计算公式为:
MultiHead(QF,B,KF,B,VF,B)=Concat(head1,...,headp)WO
式中:dattn为近邻注意力机制中的映射维度。
进一步的技术方案是,所述步骤S52中的计算公式为:
c(t)=Concat(Φ(t))
f(t)=(c(t))TW(t)⊙s(t-1)
s(t)=σ((c(t-1))TW(t-1))
e=Concat(f(t))T
式中:Φ(t)为hC、DF,B、AF,B三类矩阵在t时刻的集合;c(t)为该集合的拼接矩阵;W(t)为t时刻的权重矩阵;s(t)表示t时刻各维度的相对重要性;⊙表示在矩阵的对应位置相乘;f(t)为对应相乘后的输出;σ为激活函数,在本方法中选用Sigmoid函数;e为f(t)转置后的拼接矩阵,是滑动融合机制的最终输出。
进一步的技术方案是,所述步骤S7中损失函数Loss为:
进一步的技术方案是,所述步骤S7中采用下降的学习率,其计算公式为:
lrate(epoch)=lrate(epoch-1)×0.95epoch
式中:lrate(epoch)为当前训练的学习率;lrate(epoch-1)为当前上一次训练的学习率;epoch为当前的训练次数。
本发明具有以下有益效果:
一、首次提出了利用差分层来解决时序数据学习训练过程中批次间的不连续性问题,同时根据差分形式,提出了一种新的近邻注意力机制,使得模型对时间序列数据连续段的差异更加敏感,并更有效地学习序列的变化特征;
二、提出了滑动融合机制来融合由差分和近邻注意力机制生成的各种矩阵,由此数据可以参与到编码和解码,并且不会丢失重要信息;滑动融合机制中包含一个激活函数,该函数用于在模型维度方向提取重要性特征,同时加入非线性因素,使得模型能够更有效地学习时序数据的非线性相关特征,同时提升模型对复杂多变量序列的深度学习能力;
三、使用结合了一维卷积神经网络和LSTM的残差层进一步学习多变量序列的相互依赖关系特征,同时避免由于神经网络层数增加导致的梯度爆炸和消失问题,增强了模型的深层训练能力和泛化能力。
附图说明
图1是本方法的总体架构图;
图2是多头注意力机制、近邻注意力机制以及滑动融合机制的原理图;
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种基于差分融合Transformer的时序预测方法,包括以下步骤:
步骤S1、对时序数据进行预处理;
计算公式为:
步骤S3、在设定好批处理样本数batch size之后,依次从训练集取出batch size大小的样本数,经Shifted处理后,将其分割为3个相邻的部分,记N=batch_size+2,输入部分为分割后的结果为{x(j)|Xj:N-3+j,j∈{1,2,3}},再x(2)将作为训练中心,x(1)和x(3)分别为前向部分和后向部分;
步骤S4、对模型输入进行输入Embedding和位置编码;
输入Embedding:采用线性映射将输入矩阵映射到dmodel维度;
位置编码(PE):采用Transformer中的Positional Encoding,计算公式如下:
并将输入Embedding和位置编码的结果相加得到转换后的输出hF,C,B、DF,B;
hF,C,B=x(j)Wj+PE(x(j)Wj),j∈{1,2,3}
DF=(x(2)-x(1))WF+PE((x(2)-x(1))WF)
DB=(x(2)-x(3))WB+PE((x(2)-x(3))WB)
式中:x(1),x(2),x(3)分别为差分后的前向部分、训练中心、后向部分;Wj,WF,WB均为输入Embedding中的线性映射矩阵;PE为Transformer中的位置编码功能;
步骤S5、将转换后的输出hF,C,B、DF,B输入到参数预测模型的编码器Encoder部分;
步骤S51、近邻注意力机制层:首先使用线性映射向hC发出查询得到之后分别从hF和hB得到最后从hC得到用Transformer中的自注意力公式,得到训练中心相对于近邻的注意力采用Transformer中的多头注意力机制得到最终的输出,其中的计算公式为:
MultiHead(QF,B,KF,B,VF,B)=Concat(head1,...,headp)WO
式中:dattn为近邻注意力机制中的映射维度;
步骤S52、滑动融合机制层:将hC、DF,B、AF,B三类矩阵的集合Φ在每一时间点进行提取和融合,得到之后将其转置并对同一时间点的三个不同维度进行线性加权,以Sigmoid函数进行激活,并对加权结果在dmodel维度上提取相对重要性,再与下一时间点的加权结果在对应位置上相乘,得到最后将其转置并在时间点方向上合并,得到滑动融合机制的输出
该方法的计算公式为:
c(t)=Concat(Φ(t))
f(t)=(c(t))TW(t)⊙s(t-1)
s(t)=σ((c(t-1))TW(t-1))
e=Concat(f(t))T
式中:Φ(t)为hC、DF,B、AF,B三类矩阵在t时刻的集合;c(t)为该集合的拼接矩阵;W(t)为t时刻的权重矩阵;s(t)表示t时刻各维度的相对重要性;⊙表示在矩阵的对应位置相乘;f(t)为对应相乘后的输出;σ为激活函数;在本方法中选用Sigmoid函数;e为f(t)转置后的拼接矩阵,是滑动融合机制的最终输出;
步骤S53、残差层:使用一维卷积神经网络Conv1d对cF,B提取每个时间点的特征,设置卷积核的大小为3,步长为3,卷积核的数量代表提取后每个时间点的特征维数,将卷积结果输入多个LSTM层,输出结果与残差eF,B相加,作为Transformer Encoder Layer的输入;
其中Transformer Encoder Layer采用与Transformer编码器相同的结构,将其与滑动融合机制层和残差层连接,此处残差层中卷积核的大小为2,步长为2,最终得到本模型编码器的输出;
步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后,输入到Masked Multi-head Attention,其输出经Add&Norm之后,输入到一个Multi-headAttention层,同时,将编码器的输出也传递给同一个Multi-head Attention层,再通过一个线性映射,得到最后的输出;
将预测值和真实值进行损失函数Loss计算,损失函数采用MSE,计算公式如下:
步骤S7、根据损失函数Loss对参数预测模型进行迭代更新训练,直至训练条件终止(达到模型迭代次数或因Loss不下降而触发早停机制),生成训练好的时序预测模型,可用于预测未来时刻的时序值。
在模型训练的过程中,采用下降的学习率,计算公式如下:
lrate(epoch)=lrate(epoch-1)×0.95epoch
式中:lrate(epoch)为当前训练的学习率;lrate(epoch-1)为当前上一次训练的学习率;epoch为当前的训练次数。
仿真实验
为了验证一种基于差分融合Transformer的时序预测方法的有效性,进行了基于真实数据集的多变量参数序列预测实验。实验环境采用Python开发语言和Pytorch深度学习框架。此外,本方法将与ARIMA、RNN、LSTM、GRU、Transformer以及Informer进行比较,上述方法的简要说明如下:
ARIMA:差分整合移动平均自回归(ARIMA)是时间序列预测的经典统计学方法,其通过计算当前值与历史值的线性关系来对变量自身进行预测。
RNN:循环神经网络(RNN)能够对当前时间点之前的信息进行记忆并应用到当前的输出计算中。相比于前馈神经网络,RNN能够学习到上下文的关联,因此被广泛应用于时序预测。
LSTM:长短期记忆网络(LSTM)是一种特殊的RNN,主要解决了RNN在长序列训练过程中的梯度消失和梯度爆炸问题,相较于普通RNN在更长的序列中有更好的表现。
GRU:门控循环单元网络(GRU)是LSTM的一种变体,其优化了LSTM的内部结构,使得计算复杂度降低。
Transformer:Transformer采用编码器解码器结构,通过自注意力挖掘数据之间的关联,从而学习到重要特征。该方法被广泛应用于自然语言处理、时间序列预测和计算机视觉等领域。
Informer:在Transformer架构的基础上,Informer采用ProbSparse自注意力机制,有效降低了时间复杂度和内存使用,并使模型拥有了处理长时间序列的能力。
将MAE、RMSE作为模型误差分析指标,用于评估各种方法的预测性能,误差指标计算公式如下:
实验一:
本实验数据集来源于传感器采集的时序数据集。该数据集以5分钟为采样点,包含了多变量时序特征信息。使用所有序列特征数据建模来预测未来单变量的时序值,采用MAE、RMSE三个作为评价指标。实验结果如表1所示。
表1各方法预测效果对比数据
表2基于差分融合Transformer模型的消融分析数据
从表1可见,在时序变量的预测中,本方法在MAE、RMSE两个评价指标方面均优于对比模型。
对比表1和表2可见,差分层、近邻注意力机制、滑动融合机制以及残差层均对提高时序模型预测能力做出了贡献,其中差分层、近邻注意力机制、滑动融合机制占主导作用。
综上,本方法相较于现有方法具有更好的预测性能,MAE、RMSE预测误差最小。
以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种基于差分融合Transformer的时序预测方法,其特征在于,包括以下步骤:
步骤S1、对多变量时序数据进行预处理;
步骤S2、对预处理后的数据进行归一化处理,并将归一化处理后的数据划分为训练集和测试集;
步骤S3、在设定好批处理样本数batch_size之后,依次从训练集取出batch_size大小的样本数,经Shifted处理后,将其分割为3个相邻的部分,该部分包括前向部分、训练中心、后向部分,并引入相邻两个部分的差值作为参数预测模型的共同输入;
步骤S4、对模型输入进行输入Embedding和位置编码,并将输入Embedding和位置编码的结果相加得到转换后的输出hF,C,B、DF,B;
步骤S5、将转换后的输出hF,C,B、DF,B输入到预测模型的编码器Encoder部分;
步骤S51、近邻注意力机制层:首先使用线性映射向hC发出查询得到之后分别从hF和hB得到最后从hC得到使用Transformer中的自注意力公式,得到训练中心相对于近邻的注意力AF,B;采用Transformer中的多头注意力机制得到最终的输出;
步骤S52、滑动融合机制层:将hC、DF,B、AF,B三类矩阵的集合Φ在每一时间点进行提取和融合,得到之后将其转置并对同一时间点的三个不同维度进行线性加权,以Sigmoid函数进行激活,并对加权结果在dmodel维度上提取相对重要性,再与下一时间点的加权结果在对应位置上相乘,得到最后将其转置并在时间点方向上合并,得到滑动融合机制的输出
步骤S53、残差层:使用一维卷积神经网络Conv1d对cF,B提取每个时间点的特征,设置卷积核的大小为3,步长为3,卷积核的数量代表提取后每个时间点的特征维数,将卷积结果输入多个LSTM层,输出结果与残差eF,B相加,作为Transformer Encoder Layer的输入;
其中Transformer Encoder Layer采用与Transformer编码器相同的结构,将其与滑动融合机制层和残差层连接,此处残差层中卷积核的大小为2,步长为2,最终得到本模型编码器的输出;
步骤S6、将与输入到编码器相同的批处理样本数据经Embedding和位置编码后,输入到Masked Multi-head Attention,其输出经Add&Norm之后,输入到一个Multi-headAttention层,同时,将编码器的输出也传递给同一个Multi-head Attention层,再通过一个线性映射,得到最后的输出;
步骤S7、根据损失函数Loss对参数预测模型进行迭代更新训练,直至训练条件终止,生成训练好的预测模型,可用于预测未来时刻的时序值。
3.根据权利要求2所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S2中使用Min-Max归一化方法。
6.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S4中输入Embedding:采用线性映射将输入矩阵映射到dmodel维度;位置编码:采用Transformer中的Positional Encoding。
7.根据权利要求6所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S4中的求和公式为:
hF,C,B=x(j)Wj+PE(x(j)Wj),j∈{1,2,3}
DF=(x(2)-x(1))WF+PE((x(2)-x(1))WF)
DB=(x(2)-x(3))WB+PE((x(2)-x(3))WB)
式中:x(1),x(2),x(3)分别为差分后的前向部分、训练中心、后向部分;Wj,WF,WB为输入Embedding中的线性映射矩阵,PE为Transformer中的位置编码功能。
8.根据权利要求1所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S52中的计算公式为:
c(t)=Concat(Φ(t))
f(t)=(c(t))TW(t)⊙s(t-1)
s(t)=σ((c(t-1))TW(t-1))
e=Concat(f(t))T
式中:Φ(t)为hC、DF,B、AF,B三类矩阵在t时刻的集合;c(t)为该集合的拼接矩阵;W(t)为t时刻的权重矩阵;s(t)表示t时刻各维度的相对重要性;⊙表示在矩阵的对应位置相乘;f(t)为对应相乘后的输出;σ为激活函数;e为f(t)转置后的拼接矩阵,是滑动融合机制的最终输出。
10.根据权利要求9所述的一种基于差分融合Transformer的时序预测方法,其特征在于,所述步骤S7中采用下降的学习率,其计算公式为:
lrate(epoch)=lrate(epoch-1)×0.95epoch
式中:lrate(epoch)为当前训练的学习率;lrate(epoch-1)为当前上一次训练的学习率;epoch为当前的训练次数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022103504847 | 2022-04-02 | ||
CN202210350484 | 2022-04-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114841072A true CN114841072A (zh) | 2022-08-02 |
Family
ID=82569234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210524328.8A Pending CN114841072A (zh) | 2022-04-02 | 2022-05-13 | 一种基于差分融合Transformer的时序预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841072A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834310A (zh) * | 2023-02-15 | 2023-03-21 | 四川轻化工大学 | 一种基于LGTransformer的通信信号调制识别方法 |
CN116127720A (zh) * | 2022-12-21 | 2023-05-16 | 华能南京燃机发电有限公司 | 一种基于改进Transformer的燃气轮机故障诊断方法 |
CN116756531A (zh) * | 2023-08-23 | 2023-09-15 | 北京科技大学 | 一种面向模型交互联动的带钢热连轧过程监控方法和装置 |
-
2022
- 2022-05-13 CN CN202210524328.8A patent/CN114841072A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127720A (zh) * | 2022-12-21 | 2023-05-16 | 华能南京燃机发电有限公司 | 一种基于改进Transformer的燃气轮机故障诊断方法 |
CN116127720B (zh) * | 2022-12-21 | 2024-01-16 | 华能南京燃机发电有限公司 | 一种基于改进Transformer的燃气轮机故障诊断方法 |
CN115834310A (zh) * | 2023-02-15 | 2023-03-21 | 四川轻化工大学 | 一种基于LGTransformer的通信信号调制识别方法 |
CN116756531A (zh) * | 2023-08-23 | 2023-09-15 | 北京科技大学 | 一种面向模型交互联动的带钢热连轧过程监控方法和装置 |
CN116756531B (zh) * | 2023-08-23 | 2023-10-13 | 北京科技大学 | 一种面向模型交互联动的带钢热连轧过程监控方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114841072A (zh) | 一种基于差分融合Transformer的时序预测方法 | |
CN108876044B (zh) | 一种基于知识增强神经网络的线上内容流行度预测方法 | |
CN112966714B (zh) | 一种边缘时序数据异常检测和网络可编程控制方法 | |
CN115688035A (zh) | 一种基于自监督学习的时序电力数据异常检测方法 | |
Tan et al. | Network fault prediction based on CNN-LSTM hybrid neural network | |
CN111832825A (zh) | 融合长短期记忆网络和极限学习机的风电预测方法及系统 | |
Tan et al. | Multi-node load forecasting based on multi-task learning with modal feature extraction | |
CN115168443A (zh) | 一种基于gcn-lstm和注意力机制的异常检测方法及系统 | |
Wang et al. | Remaining useful life estimation of aircraft engines using a joint deep learning model based on TCNN and transformer | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN114399066A (zh) | 基于弱监督学习的机械设备预知性维护系统和维护方法 | |
CN113780003A (zh) | 时空数据变分编解码跨模态增强方法 | |
CN114169091A (zh) | 工程机械部件剩余寿命的预测模型建立方法及预测方法 | |
CN112241802A (zh) | 一种风电功率的区间预测方法 | |
Chen et al. | Remaining useful life prediction of turbofan engine based on temporal convolutional networks optimized by genetic algorithm | |
Shi et al. | A dual attention LSTM lightweight model based on exponential smoothing for remaining useful life prediction | |
CN116910049A (zh) | 基于mdan的电力负荷数据缺失值填充模型及其构建方法 | |
CN115660198B (zh) | 滚动轴承剩余使用寿命预测方法 | |
CN116737943A (zh) | 面向新闻领域的时序知识图谱链路预测方法 | |
Wu et al. | Custom machine learning architectures: towards realtime anomaly detection for flight testing | |
Zhang et al. | A traffic flow-forecasting model based on multi-head spatio–temporal attention and adaptive graph convolutional networks | |
Zhao et al. | A Hybrid Time Series Model based on Dilated Conv1D and LSTM with Applications to PM2. 5 Forecasting. | |
CN114841063A (zh) | 一种基于深度学习的航空发动机剩余寿命预测方法 | |
CN117454762B (zh) | Markov-神经网络的穿煤隧道掌子面瓦斯浓度预测方法 | |
Zhang et al. | Distance-Based Embedding Learning for Remaining Useful Life Estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220802 |