CN112733444A - 基于CycleGAN神经网络的多步长时间序列预测方法 - Google Patents
基于CycleGAN神经网络的多步长时间序列预测方法 Download PDFInfo
- Publication number
- CN112733444A CN112733444A CN202011643828.0A CN202011643828A CN112733444A CN 112733444 A CN112733444 A CN 112733444A CN 202011643828 A CN202011643828 A CN 202011643828A CN 112733444 A CN112733444 A CN 112733444A
- Authority
- CN
- China
- Prior art keywords
- data
- generator
- output
- discriminator
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- YDGMGEXADBMOMJ-LURJTMIESA-N N(g)-dimethylarginine Chemical compound CN(C)C(\N)=N\CCC[C@H](N)C(O)=O YDGMGEXADBMOMJ-LURJTMIESA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- YDGMGEXADBMOMJ-UHFFFAOYSA-N asymmetrical dimethylarginine Natural products CN(C)C(N)=NCCCC(N)C(O)=O YDGMGEXADBMOMJ-UHFFFAOYSA-N 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/12—Timing analysis or timing optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及时间序列预测领域,旨在提供一种基于CycleGAN神经网络的多步长时间序列预测方法。包括:构建数据集;搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;训练网络模型,依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;利用训练后的生成器进行预测,并输出预测结果。本发明利用神经网络技术进行多步时间序列预测,通过循环对抗训练可以捕捉数据的高维统计特性从而取得高精度的预测结果。相比于现有技术,适用于更多的数据集。
Description
技术领域
本发明涉及时间序列预测领域,特别涉及基于CycleGAN的多步长时间序列预测方法。
背景技术
时间序列预测在诸如经济、金融、能源、交通、医疗、气象,商业等多个领域中起关键作用。例如,预测未来的气温、能源消耗、商品的销量、交通的流量等。精准地预测这些数据将能够使人们做出更好的掌握先机,对人们的决策具有重要的指导意义。
现有的时间序列预测方法均存在一些缺陷。例如,ARIMA、STL以及结合了指数平滑法的传统的时间序列模型,难以捕捉到时间序列的高维非线性特征,难以对复杂的时间序列数据进行建模。机器学习的方法(如SVM、决策树、随机森林等方法)能够通过学习捕捉到信号特征从而取得更高的精度,但是依然需要进行复杂的特征工程,并且对于复杂时间的序列的预测能力依然不足。
基于神经网络的方法相比于传统方法能够更好地捕捉序列数据的高维特征。目前主流的方法包括基于循环神经网络RNN的方法。RNN包含学习的记忆单元,能够自动学习数据在时间上的依赖,被广泛应用在语音识别、机器翻译等领域。但是RNN的缺点十分明显,由于存在梯度消失和梯度爆炸等问题,无法捕获长时的时序依赖。基于RNN的改进,LSTM和GRU解决了上述问题。作为一种特殊的RNN,能使神经元在其管道中保持上下文记忆,同时又解决了梯度消失问题。然而LSTM和GRU在当前时刻的预测点在很大程度上取决于上一时刻的预测点,因此通常只对单步时间序列预测有效,而多步长的时间序列中如果前一时刻的预测出现误差而模型却无法感知,因此预测误差将会随着步长的增加而累积。
近年来注意力机制被广泛应用于深度学习中,能够让模型更好地捕获数据中的关键信息使得模型的学习能力得到增强。编码器解码器模型通过能够让模型具有更好的鲁棒性,将历史序列编码成固定长度的语义长度向量作为上下文,然后通过解码器进行解码输出。这种方式能够进行表征学习,有效提取数据的高维特征,通常结合上注意力机制进行学习训练,典型的结果就是著名的seq2seq-attn,在语音识别、自然语言处理等多个领域取得显著的成果。
基于卷积神经网络CNN的结构在图像识别领域大放异彩,近年来也被应用于序列预测问题,典型的代表是Wavenet和TCN,它通过膨胀卷积和残差连接的方式,保证了序列的因果性的同时避免了梯度消失问题;和基于LSTM的结构相比,具有更快的速度并且可并行训练。当然,基于CNN的神经网络也可以结合注意力机制和编码器解码器结构进行增强。
另一种比较著名的模型叫做长短期记忆网络LSTNET,它同时结合了CNN和RNN,利用CNN来捕捉序列的宏观特征,采用RNN来捕获短期依赖。此外还有结合堆栈自编码器进行表征学习的模型LSTM-SAE、基于生成对抗思想的TimeGAN等模型。
在分布稳定的数据中如语音等数据集中,采用基于CNN、LSTM等模型就可以有良好的表现。然而由于大多数时间序列数据具有高阶非平稳的特征,分布不断随着外在因素的变化而改变,如房价随着政策、人口、经济因素不断变化,上述的模型难以捕捉序列的高阶非平稳特征,并且对于额外特征与目标变量之间的依赖难以捕获。并且大多数的数据集样本数量较少,因而传统的模型及其容易过拟合。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于CycleGAN神经网络的多步长时间序列预测方法。
为解决上述技术问题,本发明采用的解决方案是:
提供一种基于CycleGAN神经网络的多步长时间序列预测方法,包括以下步骤:
(1)构建数据集
采用滑动窗口的形式构建数据集,并划分训练集和测试集,不设置验证集;
(2)搭建神经网络模型
搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;
所述两个生成器均采用Seq2Seq模块+attention模块的结构,其中一个生成器A用于根据历史数据来预测未来数据,另一个生成器B用于以未来数据还原历史数据;所述两个判别器均采用TCN结合全连接,用于判别生成器生成的模型是否符合真实分布;
(3)训练网络模型
依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;
(4)输出预测结果
利用训练后的生成器进行预测,并输出预测结果。
本发明中,所述步骤(1)中,在构建数据集时,将数据集处理成csv格式,待测目标变量置于第一列,连续特征置于待测目标之后,离散特征进行编码后置于连续特征之后;如果数据中有缺失值,则采用线性插值填充或相邻数据填充的方式来进行填充。
本发明中,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成,包括以下内容:
it=σ(Wi[ht-1,xt-1]+bi)
ft=σ(Wf[ht-1,xt-1]+bf)
ot=σ(Wo[ht-1,xt-1]+bo)
ht=ottanh(Ct)
其中,it ft,ot分别表示输入门、遗忘门和输出门,Ct表示细胞状态,为细胞状态候选值,Wi,Wf,Wo,Wc分别表示控制每个门输出的权值矩阵;bi,bf,bc,bo分别表示it,ft,Ct,和ot的偏置量;Ct-1表示上一层的细胞,xt-1表示当前的输入,ht-1表示上层的隐藏层输出;σ为sigmoid函数,tanh为激活函数,ht表示隐层输出。
本发明中,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述attention模块(注意力机制)具体包括以下内容:
Attention(Q,K,V)=A(Q,K)V
Output=A(Q,K)WO
其中Attention表示注意力函数,Output表示该模型最终输出,Softmax是概率分布函数,dattn是一个参数,用于对特征进行尺度上的归一化,K是存储特征的键,V是存储特征的值,Q是输入的查询特征。WO是网络输出的权重,KT是K的转置。
所述attention模块的输入来自Seq2Seq模块的LSTM编码器的隐藏层的输出;深度神经网络模型采用注意力机制来学习各个特征不同时间步之间的长期依赖关系;键是某个时间片段的键值,给定目标中某个元素的查询,通过计算查询Q和键的相似性,得到每个键对目标的权重系数,然后对目标进行加权求和,即得到最终Attention的值。
本发明中,将attention模块的输出和LSTM编码器的隐藏层的输出连接起来,作为LSTM解码器的历史状态的输入。
本发明中,所述步骤(2)中,所述判别器采用膨胀卷积结合残差连接的结构以实现TCN结合全连接,通过扩大卷积来提高感受野,并且层与层之间采用残差连接;具体包括以下内容:
其中,f是第i层的一维卷积核,x是第i层输入信号,i表示网络的当前层数,d称为空洞系数,表示该层的特征采样间隔,k表示卷积核的大小,s表示当前序列的初始位置。
本发明中,所述步骤(2)中,在搭建神经网络模型的过程中还包括对损失函数的应用,具体包括以下内容:
对抗损失:
循环一致性损失:
总的损失是对抗损失和循环一致性损失的结合:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F)
其中LGAN表示对抗损失函数,Lcyc表示循环一致性损失函数,G表示所述的生成器A,DY表示输出数据的判别器,也就是所述的判别器A,DX表示原始数据的判别器,也就是所述的判别器B,F表示所述的生成器B,E表示期望函数,||||1表示一范数,X表示输入的驱动数据,Y表示输出的预测数据,log是对数函数,λ表示自定义的比例系数,x~pdata(x)表示x的数据分布,y~pdata(y)表示y的数据分布。
本发明中,所述步骤(3)中,利用ADMA算法分别对生成器和判别器进行优化,生成器A和生成器B共享数;生成器和判别器进行交替训练,训练顺序为:生成器A--判别器A--生成器B--判别器B。
本发明中,所述步骤(4)中,在将训练数据输入生成器网络时,叠加上与数据相同维度的高斯分布噪声来提高模型的鲁棒性。
本发明可以采用开源的Pytorch网络框架来搭建深度神经网络模型,Pytorch是用Python编写的高级神经网络API,能够支持动态图计算从而能够实时进行调试。Pytorch的开发重点是支持快速的实验,能够以最小的时延把想法转换为实验结果。
与现有技术相比,本发明具有以下有益效果:
1、本发明利用神经网络技术进行多步时间序列预测,通过循环对抗训练可以捕捉数据的高维统计特性从而取得高精度的预测结果。
2、本发明相比于现有技术,适用于更多的数据集。
附图说明
图1为本发明的流程图;
图2为本发明的预测效果图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述。
本发明提供的基于CycleGAN神经网络的多步长时间序列预测方法,包括以下步骤:
(1)构建数据集
采用滑动窗口的形式构建数据集,并划分训练集和测试集;因时间序列通常数据量较少,并且分布随着时间改变,所以不设置验证集。训练集用于训练深度神经网络,测试集用于测试模型效果。
在构建数据集时,将数据集处理成csv格式,待测目标变量置于第一列,连续特征置于待测目标之后,离散特征进行编码后置于连续特征之后;如果数据中有缺失值,则采用线性插值填充或相邻数据填充的方式来进行填充。可以选择多种数据分解方式进行分解,如EWT变换和经验模态变换。
(2)搭建神经网络模型
搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;
所述两个生成器均采用Seq2Seq模块+attention模块的结构,其中一个生成器A用于根据历史数据来预测未来数据,另一个生成器B用于以未来数据还原历史数据;所述两个判别器均采用TCN结合全连接,用于判别生成器生成的模型是否符合真实分布;
Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成,包括以下内容:
it=σ(Wi[ht-1,xt-1]+bi)
ft=σ(Wf[ht-1,xt-1]+bf)
ot=σ(Wo[ht-1,xt-1]+bo)
ht=ottanh(Ct)
其中,it ft,ot分别表示输入门、遗忘门和输出门,Ct表示细胞状态,为细胞状态候选值,Wi,Wf,Wo,Wc分别表示控制每个门输出的权值矩阵;bi,bf,bc,bo分别表示it,ft,Ct,和ot的偏置量;Ct-1表示上一层的细胞,xt-1表示当前的输入,ht-1表示上层的隐藏层输出;σ为sigmoid函数,tanh为激活函数,ht表示隐层输出。
attention模块(注意力机制)具体包括以下内容:
Attention(Q,K,V)=A(Q,K)V
Output=A(Q,K)WO
其中Attention表示注意力函数,Output表示该模型最终输出,Softmax是概率分布函数;dattn是一个参数,用于对特征进行尺度上的归一化;K是存储特征的键,V是存储特征的值,Q是输入的查询特征;WO是网络输出的权重,KT是K的转置;
attention模块的输入来自Seq2Seq模块的LSTM编码器的隐藏层的输出;将attention模块的输出和LSTM编码器的隐藏层的输出连接起来,作为LSTM解码器的历史状态的输入。
深度神经网络模型采用注意力机制来学习各个特征不同时间步之间的长期依赖关系;键是某个时间片段的键值,给定目标中某个元素的查询,通过计算查询Q和键的相似性,得到每个键对目标的权重系数,然后对目标进行加权求和,即得到最终Attention的值。
判别器采用膨胀卷积结合残差连接的结构以实现TCN结合全连接,通过扩大卷积来提高感受野,并且层与层之间采用残差连接;具体包括以下内容:
其中,f是第i层的一维卷积核,x是第i层输入信号,i表示网络的当前层数;d称为空洞系数,表示该层的特征采样间隔;k表示卷积核的大小,s表示当前序列的初始位置。
在搭建神经网络模型的过程中,还包括对损失函数的应用,具体包括以下内容:
对抗损失:
循环一致性损失:
总的损失是对抗损失和循环一致性损失的结合:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F)
其中LGAN表示对抗损失函数,Lcyc表示循环一致性损失函数,G表示所述的生成器A;DY表示输出数据的判别器,也就是所述的判别器A;DX表示原始数据的判别器,也就是所述的判别器B;F表示所述的生成器B,E表示期望函数;||||1表示一范数;X表示输入的驱动数据,Y表示输出的预测数据;log是对数函数,λ表示自定义的比例系数,x~pdata(x)表示x的数据分布,y~pdata(y)表示y的数据分布。
(3)训练网络模型
依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;
利用ADMA算法分别对生成器和判别器进行优化,生成器A和生成器B共享数;生成器和判别器进行交替训练,训练顺序为:生成器A--判别器A--生成器B--判别器B。
(4)输出预测结果
利用训练后的生成器进行预测,并输出预测结果。在将训练数据输入生成器网络时,叠加上与数据相同维度的高斯分布噪声来提高模型的鲁棒性。
下面结合实施例子,对上述方法的具体应用进行示例说明:
该示例是针对ECG5000心电图集进行训练和预测。ECG5000数据集来源于UCR数据集,是时间序列预测领域的标准数据集。数据是以秒间隔的,总共包括5000个样本,训练采用其中4500的数据作为训练集,另外500个样本数据作为测试集。实验每个样本的时间长度为140秒,实验中采用前86秒的数据来预测后56秒的数据。
由于是标准数据集,所以无需进行数据清洗。首先对数据进行经验小波分解,获取原始数据的各个特征分量,然后构建神经网络模型。设置生成器A和生成器B参数共享。
首先训练生成器A,网络的输入为前84秒的心电数据,输出为后56秒的心电数据。
其次训练判别器A,用前84秒的心电数据结合上预测出来的56秒数据作为判别器的输入,为了识别出这是生成的假数据分布判别器的输出为全零的向量。然后往判别器输入140秒的真实数据,判别器输出是全一的向量,为了能够分辨出这是真实的数据。
然后训练生成器B,网络的输入为后56秒数据的,输出为前84秒的心电数据。
最后训练判别器B,用后56秒的心电数据结合上预测出来前84秒数据作为判别器的输入,为了识别出这是生成的假数据分布判别器的输出为全零的向量。然后往判别器输入140秒的真实数据,判别器输出是全一的向量,为了能够分辨出这是真实的数据。
从生成器A-判别器A-生成器B-判别器B的优化顺序总共迭代300次。
训练数据分批送入构建好的深度网络进行训练,生成器和判别器的初始学习率为0.001,设置LSTM的隐藏层神经元个数为360,batch_size为40,Dropout比率为0.2。采用层归一化来加速收敛。
最后训练结束后得到的生成器A即使我们需要的预测模型,评估指标采用MAE和SMAPE:
以下是基于CycleGAN的深度神经网络模在ECG5000上和几个经典的网络对比结果:
Seq2Seq | Lstnet | TCN | LSTM-SAE | CycleGAN | |
MAE | 0.360 | 0.669 | 0.793 | 0.938 | 0.290 |
SMAPE | 0.424 | 0.685 | 0.682 | 0.731 | 0.373 |
根据上述比对结果可以看出,本发明所提出的基于CycleGAN神经网络的时间序列预测系统,能够捕捉到驱动序列之间的相关性与高维统计特性,从而增强预测准确率;使用注意力机制加入生成器中,有效解决了由于输入序列过长而出现的信息丢失导致性能瓶颈的问。
以上所述实施例仅表达了本发明的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。
Claims (9)
1.一种基于CycleGAN神经网络的多步长时间序列预测方法,其特征在于,包括以下步骤:
(1)构建数据集
采用滑动窗口的形式构建数据集,并划分训练集和测试集,不设置验证集;
(2)搭建神经网络模型
搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;
所述两个生成器均采用Seq2Seq模块+attention模块的结构,其中一个生成器A用于根据历史数据来预测未来数据,另一个生成器B用于以未来数据还原历史数据;所述两个判别器均采用TCN结合全连接,用于判别生成器生成的模型是否符合真实分布;
(3)训练网络模型
依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;
(4)输出预测结果
利用训练后的生成器进行预测,并输出预测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,在构建数据集时,将数据集处理成csv格式,待测目标变量置于第一列,连续特征置于待测目标之后,离散特征进行编码后置于连续特征之后;如果数据中有缺失值,则采用线性插值填充或相邻数据填充的方式来进行填充。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成,包括以下内容:
it=σ(Wi[ht-1,xt-1]+bi)
ft=σ(Wf[ht-1,xt-1]+bf)
ot=σ(Wo[ht-1,xt-1]+bo)
ht=ottanh(Ct)
4.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述attention模块(注意力机制)具体包括以下内容:
Attention(Q,K,V)=A(Q,K)V
Output=A(Q,K)WO
其中Attention表示注意力函数,Output表示该模型最终输出,Softmax是概率分布函数;dattn是一个参数,用于对特征进行尺度上的归一化;K是存储特征的键,V是存储特征的值,Q是输入的查询特征;WO是网络输出的权重,KT是K的转置;
所述attention模块的输入来自Seq2Seq模块的LSTM编码器的隐藏层的输出;深度神经网络模型采用注意力机制来学习各个特征不同时间步之间的长期依赖关系;键是某个时间片段的键值,给定目标中某个元素的查询,通过计算查询Q和键V的相似性,得到每个键对目标的权重系数,然后对目标进行加权求和,即得到最终Attention的值。
5.根据权利要求4所述的方法,其特征在于,将attention模块的输出和LSTM编码器的隐藏层的输出连接起来,作为LSTM解码器的历史状态的输入。
7.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,在搭建神经网络模型的过程中还包括对损失函数的应用,具体包括以下内容:
对抗损失:
循环一致性损失:
总的损失是对抗损失和循环一致性损失的结合:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F)
其中LGAN表示对抗损失函数,Lcyc表示循环一致性损失函数,G表示所述的生成器A;DY表示输出数据的判别器,也就是所述的判别器A;DX表示原始数据的判别器,也就是所述的判别器B;F表示所述的生成器B,E表示期望函数;|| ||1表示一范数;X表示输入的驱动数据,Y表示输出的预测数据;log是对数函数,λ表示自定义的比例系数,x~pdata(x)表示x的数据分布,y~pdata(y)表示y的数据分布。
8.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,利用ADMA算法分别对生成器和判别器进行优化,生成器A和生成器B共享数;生成器和判别器进行交替训练,训练顺序为:生成器A--判别器A--生成器B--判别器B。
9.根据权利要求1所述的方法,其特征在于,所述步骤(4)中,在将训练数据输入生成器网络时,叠加上与数据相同维度的高斯分布噪声来提高模型的鲁棒性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643828.0A CN112733444A (zh) | 2020-12-30 | 2020-12-30 | 基于CycleGAN神经网络的多步长时间序列预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643828.0A CN112733444A (zh) | 2020-12-30 | 2020-12-30 | 基于CycleGAN神经网络的多步长时间序列预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112733444A true CN112733444A (zh) | 2021-04-30 |
Family
ID=75609279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011643828.0A Pending CN112733444A (zh) | 2020-12-30 | 2020-12-30 | 基于CycleGAN神经网络的多步长时间序列预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733444A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113180684A (zh) * | 2021-06-03 | 2021-07-30 | 哈尔滨理工大学 | 一种ⅱ导联心电信号分类方法 |
CN113311703A (zh) * | 2021-05-07 | 2021-08-27 | 华能青岛热电有限公司 | 智慧能源多能互动评价可视化系统及评价方法 |
CN113378655A (zh) * | 2021-05-24 | 2021-09-10 | 电子科技大学 | 一种基于深度神经网络的对抗性能量分解方法 |
CN113537586A (zh) * | 2021-07-12 | 2021-10-22 | 浙江大学 | 集成小波分解与深度神经网络的水质指标多步预测方法 |
CN113610212A (zh) * | 2021-07-05 | 2021-11-05 | 宜通世纪科技股份有限公司 | 一种多模态传感器数据的合成方法、装置及存储介质 |
CN113837002A (zh) * | 2021-08-18 | 2021-12-24 | 西安理工大学 | 基于改进TimeGan模型的小样本数据故障诊断方法 |
CN114254739A (zh) * | 2021-12-21 | 2022-03-29 | 南方电网数字电网研究院有限公司 | 多模态电力传感器的数据处理方法、装置和计算机设备 |
CN114545255A (zh) * | 2022-01-18 | 2022-05-27 | 广东工业大学 | 基于竞争型生成式对抗神经网络的锂电池soc估计方法 |
CN115288994A (zh) * | 2022-08-03 | 2022-11-04 | 西安安森智能仪器股份有限公司 | 一种基于改进dcgan的压缩机异常状态检测方法 |
CN115526300A (zh) * | 2022-11-14 | 2022-12-27 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
CN117275582A (zh) * | 2023-07-07 | 2023-12-22 | 上海逐药科技有限公司 | 氨基酸序列生成模型的构建以及蛋白质变体获得方法 |
-
2020
- 2020-12-30 CN CN202011643828.0A patent/CN112733444A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113311703A (zh) * | 2021-05-07 | 2021-08-27 | 华能青岛热电有限公司 | 智慧能源多能互动评价可视化系统及评价方法 |
CN113378655B (zh) * | 2021-05-24 | 2022-04-19 | 电子科技大学 | 一种基于深度神经网络的对抗性能量分解方法 |
CN113378655A (zh) * | 2021-05-24 | 2021-09-10 | 电子科技大学 | 一种基于深度神经网络的对抗性能量分解方法 |
CN113180684B (zh) * | 2021-06-03 | 2023-10-24 | 哈尔滨理工大学 | 一种ⅱ导联心电信号分类方法 |
CN113180684A (zh) * | 2021-06-03 | 2021-07-30 | 哈尔滨理工大学 | 一种ⅱ导联心电信号分类方法 |
CN113610212A (zh) * | 2021-07-05 | 2021-11-05 | 宜通世纪科技股份有限公司 | 一种多模态传感器数据的合成方法、装置及存储介质 |
CN113610212B (zh) * | 2021-07-05 | 2024-03-05 | 宜通世纪科技股份有限公司 | 一种多模态传感器数据的合成方法、装置及存储介质 |
CN113537586A (zh) * | 2021-07-12 | 2021-10-22 | 浙江大学 | 集成小波分解与深度神经网络的水质指标多步预测方法 |
CN113537586B (zh) * | 2021-07-12 | 2024-04-05 | 浙江大学 | 集成小波分解与深度神经网络的水质指标多步预测方法 |
CN113837002A (zh) * | 2021-08-18 | 2021-12-24 | 西安理工大学 | 基于改进TimeGan模型的小样本数据故障诊断方法 |
CN113837002B (zh) * | 2021-08-18 | 2024-04-23 | 西安理工大学 | 基于改进TimeGan模型的小样本数据故障诊断方法 |
CN114254739A (zh) * | 2021-12-21 | 2022-03-29 | 南方电网数字电网研究院有限公司 | 多模态电力传感器的数据处理方法、装置和计算机设备 |
CN114545255A (zh) * | 2022-01-18 | 2022-05-27 | 广东工业大学 | 基于竞争型生成式对抗神经网络的锂电池soc估计方法 |
CN115288994A (zh) * | 2022-08-03 | 2022-11-04 | 西安安森智能仪器股份有限公司 | 一种基于改进dcgan的压缩机异常状态检测方法 |
CN115288994B (zh) * | 2022-08-03 | 2024-01-19 | 西安安森智能仪器股份有限公司 | 一种基于改进dcgan的压缩机异常状态检测方法 |
CN115526300A (zh) * | 2022-11-14 | 2022-12-27 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
CN115526300B (zh) * | 2022-11-14 | 2023-06-02 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
CN117275582A (zh) * | 2023-07-07 | 2023-12-22 | 上海逐药科技有限公司 | 氨基酸序列生成模型的构建以及蛋白质变体获得方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733444A (zh) | 基于CycleGAN神经网络的多步长时间序列预测方法 | |
Sehovac et al. | Deep learning for load forecasting: Sequence to sequence recurrent neural networks with attention | |
Ma et al. | A hybrid attention-based deep learning approach for wind power prediction | |
Qin et al. | A dual-stage attention-based recurrent neural network for time series prediction | |
Gao et al. | Interpretable deep learning model for building energy consumption prediction based on attention mechanism | |
Liu et al. | Time series prediction based on temporal convolutional network | |
CN108879732B (zh) | 电力系统暂态稳定评估方法及装置 | |
CN111477220B (zh) | 一种面向家居口语环境的神经网络语音识别方法及系统 | |
CN111309909B (zh) | 一种基于混合模型的文本情感分类方法 | |
CN113591728A (zh) | 基于集成深度学习的电能质量扰动分类方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111222689A (zh) | 基于多尺度时间特征的lstm负荷预测方法、介质及电子装置 | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
Faraz et al. | Stock market prediction-by-prediction based on autoencoder long short-term memory networks | |
CN114490065A (zh) | 一种负载预测方法、装置及设备 | |
Osogami et al. | Bidirectional learning for time-series models with hidden units | |
CN115964932A (zh) | 基于EMD-BiLSTM-Attention机制变压器数字孪生模型的气体预测方法 | |
CN111881299A (zh) | 基于复制神经网络的离群事件检测与识别方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN115759343A (zh) | 一种基于e-lstm的用户电量预测方法和装置 | |
Yang et al. | A hybrid short-term load forecasting model based on catboost and lstm | |
Huang et al. | Research on deep learning-based financial risk prediction | |
Kumar et al. | Analysis of automated text generation using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |
|
RJ01 | Rejection of invention patent application after publication |