CN112733444A

CN112733444A - 基于CycleGAN神经网络的多步长时间序列预测方法

Info

Publication number: CN112733444A
Application number: CN202011643828.0A
Authority: CN
Inventors: 周利旺; 杜阳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-30

Abstract

本发明涉及时间序列预测领域，旨在提供一种基于CycleGAN神经网络的多步长时间序列预测方法。包括：构建数据集；搭建基于CycleGAN的深度神经网络模型，该模型具有成对的生成对抗网络结构，包括两个生成器和两个判别器；其中，生成器用来生成符合待预测的真实数据的分布，判别器用来判别生成的数据是否符合真实的数据分布；训练网络模型，依次交替训练生成器和判别器，使用误差进行反向传播以优化参数；利用训练后的生成器进行预测，并输出预测结果。本发明利用神经网络技术进行多步时间序列预测，通过循环对抗训练可以捕捉数据的高维统计特性从而取得高精度的预测结果。相比于现有技术，适用于更多的数据集。

Description

基于CycleGAN神经网络的多步长时间序列预测方法

技术领域

本发明涉及时间序列预测领域，特别涉及基于CycleGAN的多步长时间序列预测方法。

背景技术

时间序列预测在诸如经济、金融、能源、交通、医疗、气象，商业等多个领域中起关键作用。例如，预测未来的气温、能源消耗、商品的销量、交通的流量等。精准地预测这些数据将能够使人们做出更好的掌握先机，对人们的决策具有重要的指导意义。

现有的时间序列预测方法均存在一些缺陷。例如，ARIMA、STL以及结合了指数平滑法的传统的时间序列模型，难以捕捉到时间序列的高维非线性特征，难以对复杂的时间序列数据进行建模。机器学习的方法(如SVM、决策树、随机森林等方法)能够通过学习捕捉到信号特征从而取得更高的精度，但是依然需要进行复杂的特征工程，并且对于复杂时间的序列的预测能力依然不足。

基于神经网络的方法相比于传统方法能够更好地捕捉序列数据的高维特征。目前主流的方法包括基于循环神经网络RNN的方法。RNN包含学习的记忆单元，能够自动学习数据在时间上的依赖，被广泛应用在语音识别、机器翻译等领域。但是RNN的缺点十分明显，由于存在梯度消失和梯度爆炸等问题，无法捕获长时的时序依赖。基于RNN的改进，LSTM和GRU解决了上述问题。作为一种特殊的RNN，能使神经元在其管道中保持上下文记忆，同时又解决了梯度消失问题。然而LSTM和GRU在当前时刻的预测点在很大程度上取决于上一时刻的预测点，因此通常只对单步时间序列预测有效，而多步长的时间序列中如果前一时刻的预测出现误差而模型却无法感知，因此预测误差将会随着步长的增加而累积。

近年来注意力机制被广泛应用于深度学习中，能够让模型更好地捕获数据中的关键信息使得模型的学习能力得到增强。编码器解码器模型通过能够让模型具有更好的鲁棒性，将历史序列编码成固定长度的语义长度向量作为上下文，然后通过解码器进行解码输出。这种方式能够进行表征学习，有效提取数据的高维特征，通常结合上注意力机制进行学习训练，典型的结果就是著名的seq2seq-attn，在语音识别、自然语言处理等多个领域取得显著的成果。

基于卷积神经网络CNN的结构在图像识别领域大放异彩，近年来也被应用于序列预测问题，典型的代表是Wavenet和TCN，它通过膨胀卷积和残差连接的方式，保证了序列的因果性的同时避免了梯度消失问题；和基于LSTM的结构相比，具有更快的速度并且可并行训练。当然，基于CNN的神经网络也可以结合注意力机制和编码器解码器结构进行增强。

另一种比较著名的模型叫做长短期记忆网络LSTNET，它同时结合了CNN和RNN，利用CNN来捕捉序列的宏观特征，采用RNN来捕获短期依赖。此外还有结合堆栈自编码器进行表征学习的模型LSTM-SAE、基于生成对抗思想的TimeGAN等模型。

在分布稳定的数据中如语音等数据集中，采用基于CNN、LSTM等模型就可以有良好的表现。然而由于大多数时间序列数据具有高阶非平稳的特征，分布不断随着外在因素的变化而改变，如房价随着政策、人口、经济因素不断变化，上述的模型难以捕捉序列的高阶非平稳特征，并且对于额外特征与目标变量之间的依赖难以捕获。并且大多数的数据集样本数量较少，因而传统的模型及其容易过拟合。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种基于CycleGAN神经网络的多步长时间序列预测方法。

为解决上述技术问题，本发明采用的解决方案是：

提供一种基于CycleGAN神经网络的多步长时间序列预测方法，包括以下步骤：

(1)构建数据集

采用滑动窗口的形式构建数据集，并划分训练集和测试集，不设置验证集；

(2)搭建神经网络模型

搭建基于CycleGAN的深度神经网络模型，该模型具有成对的生成对抗网络结构，包括两个生成器和两个判别器；其中，生成器用来生成符合待预测的真实数据的分布，判别器用来判别生成的数据是否符合真实的数据分布；

所述两个生成器均采用Seq2Seq模块+attention模块的结构，其中一个生成器A用于根据历史数据来预测未来数据，另一个生成器B用于以未来数据还原历史数据；所述两个判别器均采用TCN结合全连接，用于判别生成器生成的模型是否符合真实分布；

(3)训练网络模型

依次交替训练生成器和判别器，使用误差进行反向传播以优化参数；

(4)输出预测结果

利用训练后的生成器进行预测，并输出预测结果。

本发明中，所述步骤(1)中，在构建数据集时，将数据集处理成csv格式，待测目标变量置于第一列，连续特征置于待测目标之后，离散特征进行编码后置于连续特征之后；如果数据中有缺失值，则采用线性插值填充或相邻数据填充的方式来进行填充。

本发明中，所述步骤(2)中，在生成器的Seq2Seq模块+attention模块结构中，所述Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成，包括以下内容：

i_t＝σ(W_i[h_t-1，x_t-1]+b_i)

f_t＝σ(W_f[h_t-1，x_t-1]+b_f)

o_t＝σ(W_o[h_t-1，x_t-1]+b_o)

h_t＝o_ttanh(C_t)

其中，i_t f_t，o_t分别表示输入门、遗忘门和输出门，C_t表示细胞状态，

为细胞状态候选值，W_i，W_f，W_o，W_c分别表示控制每个门输出的权值矩阵；b_i，b_f，b_c，b_o分别表示i_t，f_t，C_t，和o_t的偏置量；C_t-1表示上一层的细胞，x_t-1表示当前的输入，h_t-1表示上层的隐藏层输出；σ为sigmoid函数，tanh为激活函数，h_t表示隐层输出。

本发明中，所述步骤(2)中，在生成器的Seq2Seq模块+attention模块结构中，所述attention模块(注意力机制)具体包括以下内容：

Attention(Q，K，V)＝A(Q，K)V

Output＝A(Q，K)W^O

其中Attention表示注意力函数，Output表示该模型最终输出，Softmax是概率分布函数，d_attn是一个参数，用于对特征进行尺度上的归一化，K是存储特征的键，V是存储特征的值，Q是输入的查询特征。W^O是网络输出的权重，K^T是K的转置。

所述attention模块的输入来自Seq2Seq模块的LSTM编码器的隐藏层的输出；深度神经网络模型采用注意力机制来学习各个特征不同时间步之间的长期依赖关系；键是某个时间片段的键值，给定目标中某个元素的查询，通过计算查询Q和键的相似性，得到每个键对目标的权重系数，然后对目标进行加权求和，即得到最终Attention的值。

本发明中，将attention模块的输出和LSTM编码器的隐藏层的输出连接起来，作为LSTM解码器的历史状态的输入。

本发明中，所述步骤(2)中，所述判别器采用膨胀卷积结合残差连接的结构以实现TCN结合全连接，通过扩大卷积来提高感受野，并且层与层之间采用残差连接；具体包括以下内容：

其中，f是第i层的一维卷积核，x是第i层输入信号，i表示网络的当前层数，d称为空洞系数，表示该层的特征采样间隔，k表示卷积核的大小，s表示当前序列的初始位置。

本发明中，所述步骤(2)中，在搭建神经网络模型的过程中还包括对损失函数的应用，具体包括以下内容：

对抗损失：

循环一致性损失：

总的损失是对抗损失和循环一致性损失的结合：

L(G，F，D_X，D_Y)＝L_GAN(G，D_Y，X，Y)+L_GAN(F，D_X，Y，X)+λL_cyc(G，F)

其中L_GAN表示对抗损失函数，L_cyc表示循环一致性损失函数，G表示所述的生成器A，D_Y表示输出数据的判别器，也就是所述的判别器A，D_X表示原始数据的判别器，也就是所述的判别器B，F表示所述的生成器B，E表示期望函数，||||₁表示一范数，X表示输入的驱动数据，Y表示输出的预测数据，log是对数函数，λ表示自定义的比例系数，x～p_data(x)表示x的数据分布，y～p_data(y)表示y的数据分布。

本发明中，所述步骤(3)中，利用ADMA算法分别对生成器和判别器进行优化，生成器A和生成器B共享数；生成器和判别器进行交替训练，训练顺序为：生成器A--判别器A--生成器B--判别器B。

本发明中，所述步骤(4)中，在将训练数据输入生成器网络时，叠加上与数据相同维度的高斯分布噪声来提高模型的鲁棒性。

本发明可以采用开源的Pytorch网络框架来搭建深度神经网络模型，Pytorch是用Python编写的高级神经网络API，能够支持动态图计算从而能够实时进行调试。Pytorch的开发重点是支持快速的实验，能够以最小的时延把想法转换为实验结果。

与现有技术相比，本发明具有以下有益效果：

1、本发明利用神经网络技术进行多步时间序列预测，通过循环对抗训练可以捕捉数据的高维统计特性从而取得高精度的预测结果。

2、本发明相比于现有技术，适用于更多的数据集。

附图说明

图1为本发明的流程图；

图2为本发明的预测效果图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述。

本发明提供的基于CycleGAN神经网络的多步长时间序列预测方法，包括以下步骤：

(1)构建数据集

采用滑动窗口的形式构建数据集，并划分训练集和测试集；因时间序列通常数据量较少，并且分布随着时间改变，所以不设置验证集。训练集用于训练深度神经网络，测试集用于测试模型效果。

在构建数据集时，将数据集处理成csv格式，待测目标变量置于第一列，连续特征置于待测目标之后，离散特征进行编码后置于连续特征之后；如果数据中有缺失值，则采用线性插值填充或相邻数据填充的方式来进行填充。可以选择多种数据分解方式进行分解，如EWT变换和经验模态变换。

(2)搭建神经网络模型

Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成，包括以下内容：

i_t＝σ(W_i[h_t-1，x_t-1]+b_i)

f_t＝σ(W_f[h_t-1，x_t-1]+b_f)

o_t＝σ(W_o[h_t-1，x_t-1]+b_o)

h_t＝o_ttanh(C_t)

attention模块(注意力机制)具体包括以下内容：

Attention(Q，K，V)＝A(Q，K)V

Output＝A(Q，K)W^O

其中Attention表示注意力函数，Output表示该模型最终输出，Softmax是概率分布函数；d_attn是一个参数，用于对特征进行尺度上的归一化；K是存储特征的键，V是存储特征的值，Q是输入的查询特征；W^O是网络输出的权重，K^T是K的转置；

attention模块的输入来自Seq2Seq模块的LSTM编码器的隐藏层的输出；将attention模块的输出和LSTM编码器的隐藏层的输出连接起来，作为LSTM解码器的历史状态的输入。

深度神经网络模型采用注意力机制来学习各个特征不同时间步之间的长期依赖关系；键是某个时间片段的键值，给定目标中某个元素的查询，通过计算查询Q和键的相似性，得到每个键对目标的权重系数，然后对目标进行加权求和，即得到最终Attention的值。

判别器采用膨胀卷积结合残差连接的结构以实现TCN结合全连接，通过扩大卷积来提高感受野，并且层与层之间采用残差连接；具体包括以下内容：

其中，f是第i层的一维卷积核，x是第i层输入信号，i表示网络的当前层数；d称为空洞系数，表示该层的特征采样间隔；k表示卷积核的大小，s表示当前序列的初始位置。

在搭建神经网络模型的过程中，还包括对损失函数的应用，具体包括以下内容：

对抗损失：

循环一致性损失：

总的损失是对抗损失和循环一致性损失的结合：

其中L_GAN表示对抗损失函数，L_cyc表示循环一致性损失函数，G表示所述的生成器A；D_Y表示输出数据的判别器，也就是所述的判别器A；D_X表示原始数据的判别器，也就是所述的判别器B；F表示所述的生成器B，E表示期望函数；||||₁表示一范数；X表示输入的驱动数据，Y表示输出的预测数据；log是对数函数，λ表示自定义的比例系数，x～p_data(x)表示x的数据分布，y～p_data(y)表示y的数据分布。

(3)训练网络模型

利用ADMA算法分别对生成器和判别器进行优化，生成器A和生成器B共享数；生成器和判别器进行交替训练，训练顺序为：生成器A--判别器A--生成器B--判别器B。

(4)输出预测结果

利用训练后的生成器进行预测，并输出预测结果。在将训练数据输入生成器网络时，叠加上与数据相同维度的高斯分布噪声来提高模型的鲁棒性。

下面结合实施例子，对上述方法的具体应用进行示例说明：

该示例是针对ECG5000心电图集进行训练和预测。ECG5000数据集来源于UCR数据集，是时间序列预测领域的标准数据集。数据是以秒间隔的，总共包括5000个样本，训练采用其中4500的数据作为训练集，另外500个样本数据作为测试集。实验每个样本的时间长度为140秒，实验中采用前86秒的数据来预测后56秒的数据。

由于是标准数据集，所以无需进行数据清洗。首先对数据进行经验小波分解，获取原始数据的各个特征分量，然后构建神经网络模型。设置生成器A和生成器B参数共享。

首先训练生成器A，网络的输入为前84秒的心电数据，输出为后56秒的心电数据。

其次训练判别器A，用前84秒的心电数据结合上预测出来的56秒数据作为判别器的输入，为了识别出这是生成的假数据分布判别器的输出为全零的向量。然后往判别器输入140秒的真实数据，判别器输出是全一的向量，为了能够分辨出这是真实的数据。

然后训练生成器B，网络的输入为后56秒数据的，输出为前84秒的心电数据。

最后训练判别器B，用后56秒的心电数据结合上预测出来前84秒数据作为判别器的输入，为了识别出这是生成的假数据分布判别器的输出为全零的向量。然后往判别器输入140秒的真实数据，判别器输出是全一的向量，为了能够分辨出这是真实的数据。

从生成器A-判别器A-生成器B-判别器B的优化顺序总共迭代300次。

训练数据分批送入构建好的深度网络进行训练，生成器和判别器的初始学习率为0.001，设置LSTM的隐藏层神经元个数为360，batch_size为40，Dropout比率为0.2。采用层归一化来加速收敛。

最后训练结束后得到的生成器A即使我们需要的预测模型，评估指标采用MAE和SMAPE：

以下是基于CycleGAN的深度神经网络模在ECG5000上和几个经典的网络对比结果：

	Seq2Seq	Lstnet	TCN	LSTM-SAE	CycleGAN
						MAE	0.360	0.669	0.793	0.938	0.290
SMAPE	0.424	0.685	0.682	0.731	0.373

根据上述比对结果可以看出，本发明所提出的基于CycleGAN神经网络的时间序列预测系统，能够捕捉到驱动序列之间的相关性与高维统计特性，从而增强预测准确率；使用注意力机制加入生成器中，有效解决了由于输入序列过长而出现的信息丢失导致性能瓶颈的问。

以上所述实施例仅表达了本发明的一种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。

Claims

1.一种基于CycleGAN神经网络的多步长时间序列预测方法，其特征在于，包括以下步骤：

(1)构建数据集

(2)搭建神经网络模型

(3)训练网络模型

(4)输出预测结果

利用训练后的生成器进行预测，并输出预测结果。

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中，在构建数据集时，将数据集处理成csv格式，待测目标变量置于第一列，连续特征置于待测目标之后，离散特征进行编码后置于连续特征之后；如果数据中有缺失值，则采用线性插值填充或相邻数据填充的方式来进行填充。

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)中，在生成器的Seq2Seq模块+attention模块结构中，所述Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成，包括以下内容：

i_t＝σ(W_i[h_t-1，x_t-1]+b_i)

f_t＝σ(W_f[h_t-1，x_t-1]+b_f)

o_t＝σ(W_o[h_t-1，x_t-1]+b_o)

h_t＝o_ttanh(C_t)

4.根据权利要求1所述的方法，其特征在于，所述步骤(2)中，在生成器的Seq2Seq模块+attention模块结构中，所述attention模块(注意力机制)具体包括以下内容：

Attention(Q，K，V)＝A(Q，K)V

Output＝A(Q，K)W^O

所述attention模块的输入来自Seq2Seq模块的LSTM编码器的隐藏层的输出；深度神经网络模型采用注意力机制来学习各个特征不同时间步之间的长期依赖关系；键是某个时间片段的键值，给定目标中某个元素的查询，通过计算查询Q和键V的相似性，得到每个键对目标的权重系数，然后对目标进行加权求和，即得到最终Attention的值。

5.根据权利要求4所述的方法，其特征在于，将attention模块的输出和LSTM编码器的隐藏层的输出连接起来，作为LSTM解码器的历史状态的输入。

6.根据权利要求1所述的方法，其特征在于，所述步骤(2)中，所述判别器采用膨胀卷积结合残差连接的结构以实现TCN结合全连接，通过扩大卷积来提高感受野，并且层与层之间采用残差连接；具体包括以下内容：

7.根据权利要求1所述的方法，其特征在于，所述步骤(2)中，在搭建神经网络模型的过程中还包括对损失函数的应用，具体包括以下内容：

对抗损失：

循环一致性损失：

总的损失是对抗损失和循环一致性损失的结合：

其中L_GAN表示对抗损失函数，L_cyc表示循环一致性损失函数，G表示所述的生成器A；D_Y表示输出数据的判别器，也就是所述的判别器A；D_X表示原始数据的判别器，也就是所述的判别器B；F表示所述的生成器B，E表示期望函数；|| ||₁表示一范数；X表示输入的驱动数据，Y表示输出的预测数据；log是对数函数，λ表示自定义的比例系数，x～p_data(x)表示x的数据分布，y～p_data(y)表示y的数据分布。

8.根据权利要求1所述的方法，其特征在于，所述步骤(3)中，利用ADMA算法分别对生成器和判别器进行优化，生成器A和生成器B共享数；生成器和判别器进行交替训练，训练顺序为：生成器A--判别器A--生成器B--判别器B。

9.根据权利要求1所述的方法，其特征在于，所述步骤(4)中，在将训练数据输入生成器网络时，叠加上与数据相同维度的高斯分布噪声来提高模型的鲁棒性。