CN109829495B - 基于lstm和dcgan的时序性图像预测方法 - Google Patents

基于lstm和dcgan的时序性图像预测方法 Download PDF

Info

Publication number
CN109829495B
CN109829495B CN201910084351.8A CN201910084351A CN109829495B CN 109829495 B CN109829495 B CN 109829495B CN 201910084351 A CN201910084351 A CN 201910084351A CN 109829495 B CN109829495 B CN 109829495B
Authority
CN
China
Prior art keywords
lstm
dcgan
prediction
sequence
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910084351.8A
Other languages
English (en)
Other versions
CN109829495A (zh
Inventor
方巍
张飞鸿
丁叶文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201910084351.8A priority Critical patent/CN109829495B/zh
Publication of CN109829495A publication Critical patent/CN109829495A/zh
Application granted granted Critical
Publication of CN109829495B publication Critical patent/CN109829495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于LSTM和DCGAN的时序性图像预测方法,将DCGAN出色的特征捕捉能力与LSTM进行结合,可使得预测的图像数据可视化,便于直接观察;经过改进后的LSTM网络内部具有卷积特性,能直接学习到图像数据的二维空间特征;为减少其内部学习复杂度,将传统的输入图像改为输入特征;特征来源于DCGAN的提取,相对于原始图像在维度方面有了很大的简化,使得整体网络可控。本发明通过DCGAN很好的降低了特征维度,解决了高维不可计算的问题;改进后的LSTM能够更好地学习到时序性特征,从而实现更精确的预测;整体网络结构在连接方法上遵从栈式级联策略,为控制网络深度提供保障。本发明提出的时序性图像预测模型架构理论上适用于所有的时序性图像。

Description

基于LSTM和DCGAN的时序性图像预测方法
技术领域
本发明涉及时序性图像预测改进方法,尤其涉及一种基于LSTM和DCGAN的时序性图像预测方法。
背景技术
现阶段,图像识别与深度学习的结合已然成为计算机视觉方面的研究热点,但就目前的发展形势而言仍有很大的局限性,其最大程度表现在识别的对象是离散的、彼此无关的,且主要以分类为主。为更好的拓展相关业务需求,图像识别近期的发展侧重点已经放在了图像彼此相关联的时序性上。通过有效的学习可以预测未来指定时刻图像特征的变化,可将传统分类操作拓展到预测操作上了。时序性图像的研究可以在多种应用中受益,如短时强降雨预报、视频分类、行为识别等。
针对时序性数据的研究,过去有很多序列建模的算法被提出。其中,最著名的就是HMM隐马尔科夫模型。但HMM的计算量太大,即使使用动态规划Viterbi算法去实现,在状态过多的时候也会出现不可计算问题。幸运的是,上世纪80年代末循环神经网络(RNN)的理念被提出。RNN多用于时序数据的学习,它具有端到端可导、特定框架及可通过正则化的方法,如权重衰减、dropout机制、限制自由度等改善过拟合的特点。在过去的几年中,RNN在语音识别、语言建模、翻译、图片描述等问题上已经取得一定成功。但传统的RNN存在长期依赖问题(Long-Term Dependencies)。
之后,在1997年Hochreater和Schmidhuber提出了RNN的改进版本——长短期记忆神经网络LSTM,并在近期被Alex Graves进行了改良和推广。在很多问题上,基于LSTM的模型,有效解决了RNN存在的梯度消失和梯度爆炸以及长期记忆不足的问题。现如今LSTM已经在诸多领域得到应用和发展,如Cho et al在2014年提出了Gated Recurrent Unit(GRU),它将遗忘门和输入门合成了一个单一的更新门,同样混合了细胞状态和隐藏状态,最终的模型比标准的LSTM模型要简单。Yao等人提出Depth Gated RNN。Xingjian Shi,Z Chen等人提出了一种将卷积与LSTM相结合的新型网络,该模型可以同时学习到空间和时间上特征。Yaya Heryadi等人将Stacked LSTM和CNN-LSTM用于识别欺诈性交易信息。X Han等人利用双向LSTM实现帮客户找到最适合的穿着搭配方式。S Wang等人在FPGA上使用结构化压缩技术实现了高效的LSTM。J Li等人基于双向LSTM和序列采样来优化图像描述。
DCGAN出色的特征捕捉和生成能力在很多场景中得到了证实。DCGAN将GAN从多层感知机MLP结构扩展到CNN结构,摒弃池化层的同时还在卷积操作与激活函数之间加入BatchNormalization实现局部归一化,从而解决了网络模型在训练时梯度消失和梯度弥散等问题,保留了出色的生成数据能力和CNN特征提取的优点,使它在图像分析和处理能力上得到提升。它在celebA、LSUN和Google Image Net这种现实世界的真实大规模数据集上训练,结果令人满意。
发明内容
发明目的:针对以上问题,本发明提出一种基于LSTM和DCGAN的时序性图像预测方法,可有效提高图像预测的精确度。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于LSTM和DCGAN的时序性图像预测方法,包括步骤:
(1)构建DCGAN编码器,包括编码模块和解码模块,两个模块之间接入LSTM时序预测网络;
(2)对构建的编码器进行训练,前馈传播完成后,计算损失函数,对编码器进行整体参数调优;
(3)DCGAN编码器内部,编码模块、解码模块和LSTM的连接处都采用栈式级联策略;
(4)使用LSTM时序预测网络,针对输入的时间序列,进行未来时段输出序列预测。
进一步地,所述步骤1中,编码模块对收集的图像提取空间特征,LSTM时序预测网络对提取到的特征进行预测,解码模块对预测的结果进行图像复原。
进一步地,所述步骤2中,在编码器的损失函数中引入正则化概念优化算法;在网络训练过程中,采用学习率衰减策略加快训练速度。
进一步地,所述步骤3中,所述栈式级联策略对每一层网络进行单独训练,并将输出作为下一层的输入。
进一步地,所述步骤4具体为:
(4.1)由编码模块获取输入时间序列,将序列转化为固定大小状态向量,完成关于输入时间序列的时序特征提取,将整个输入序列的信息量保存在LSTM神经元的细胞状态St中;
(4.2)LSTM预测模块将上述神经元的细胞状态作为该模块细胞起始状态,输出未来时段的预测序列。
所述步骤4包括单帧预测和序列预测;单帧预测完成预测下一帧图像;序列预测输出固定时段的多个连续帧图像。
有益效果:本发明通过DCGAN很好的降低了特征维度,解决了高维不可计算的问题;改进后的LSTM能够更好地学习到时序性特征,从而实现更精确的预测;整体网络结构在连接方法上遵从栈式级联策略,为控制网络深度提供保障。本发明提出的时序性图像预测模型架构理论上适用于所有的时序性图像。
附图说明
图1是本发明方法流程图;
图2是编码器结构图;
图3是栈式级联结构图;
图4是单帧预测原理图;
图5是序列预测原理图;
图6是训练损失度比较图;
图7是编码器综合评测图;
图8是单帧预测训练比较图;
图9是序列预测损失度比较图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的基于LSTM和DCGAN的时序性图像预测方法,包括步骤:
(1)构建DCGAN编码器,包括编码模块和解码模块,两个模块之间接入学习时序图像的LSTM网络来预测特征分布;
在编码模块中,设计四层卷积、四层下采样的网络结构;解码模块中,采用四层反卷积和四层上采样;两个模块之间接入学习时序图像的LSTM网络来预测特征分布。如图1所示,首先收集图像,并将其输入到编码模块中提取空间特征;将提取到的特征输入到LSTM中进行预测,并将预测的结果经过解码模块进行图像复原。
训练编码器需要进行以下两步具体操作:前馈传播和整体参数调优。前馈传播即将图像输入到编码器中,经过相关操作最终得到复原的数据。在前馈传播完成后,就该通过误差反向传播算法对整个编码器进行微调。
假设有训练样本N(xσ,yσ),其中,σ∈[1,N],输入为
Figure BDA0001961264110000031
标准输出为
Figure BDA0001961264110000032
预测输出为
Figure BDA0001961264110000033
其中,输入xσ与标准输出yσ是一样的,为了区分两个不同的概念,故而使用不同的符号加以区分。预测输出与标准输出的损失函数由欧式距离来定义,如公式1所示。
Figure BDA0001961264110000034
(2)在网络结构设计上,采用栈式级联策略;DCGAN编码器内部,即编码模块、解码模块和LSTM的连接处都采用栈式级联策略,对每一层网络进行单独训练;
在网络结构设计上,采用栈式级联策略。这种策略能使每一层网络都可进行单独训练,相当于初始化了一个合理的数值。栈式级联使得每一层都能单独训练,可以保证降维特征的可控性。栈式级联可以理解为将复杂问题逐层降维,直接使用降维后的特征值进行二次训练,因此可以增加任意的层数。经过独立的训练,可以很容易地得到每一个中间层的值,将它们串联之后再进行网络调优。在本发明中,DCGAN编码器内部和LSTM连接处都采用了栈式级联策略。
如图2所示,针对第一个隐含层进行独立训练,得到原始输入的一阶特征表示h1。将h1作为输入,对其再一次进行独立编码训练,并同时获取二阶特征表示h2,第三层利用h2作为输入,训练生成高维数据。将这3个隐含层结合起来,就构成了栈式连接的编码器网络,如图3所示。除了最后一层外,每一层训练所依据的损失函数是由各层的预测输出与真实输入差值的平方定义的。
(3)优化算法,在编码器的损失函数中引入正则化概念;在之后的网络训练过程中,采用学习率衰减策略以加快训练速度;
为了使得模型具备较好泛化能力,避免过度拟合以达到良好的均衡性,引入了正则化概念。其中,L1、L2正则可分别表达为公式2和3:
L1(θ)=α∑ii|  (2)
Figure BDA0001961264110000041
正则项之前α是一个系数,θi可表示成每层权重的倒数,表示对于学习到过高权重的层,需降低其更新程度。相反,对于层中学习到过低的权重的结点反而要提高其更新程度,从而达到层中所有权值平摊任务的目的。因此,本发明在编码器的损失函数构建中,在损失函数后又加上了L2正则化式子,如公式4所示,其中,α设为0.0001。
Figure BDA0001961264110000042
在之后的网络训练过程中,采用学习率衰减策略以加快训练速度。原因是,如果学习率固定不变,当到了训练后期会导致梯度在收敛的附近摆动不定。较大的学习率会实现非常快的收敛,因此在初期会采用一个较大的值;到了后期,较小的学习率可以使得收敛步伐减小,避免结果摆动。学习率衰减策略可以表示为公式5。每当训练一定次数,学习率将会减少一点。其中,decay_rate为初始系数,epochi表示第i次训练,α0是初始学习率。
Figure BDA0001961264110000043
(4)使用LSTM时序预测网络,针对输入的时间序列,进行未来时段输出序列预测;
首先,由编码模块获取输入时间序列,进而将序列转化为固定大小状态向量,从而完成关于输入时间序列的时序特征提取,此时整个输入序列的信息量将会保存在LSTM神经元的细胞状态St中;之后,LSTM预测模块将上述神经元的细胞状态作为该模块细胞起始状态,输出未来时段的预测序列。
该细胞中包含三个门控,并通过每个时间步长来完成一次次权重更新,完整的梯度通过使用BPTT来进行计算。在构建预测雷达图像的LSTM模型中,本发明将原始的点乘计算方式转化为卷积相乘。在构建预测雷达图像的LSTM模型中,分为单帧预测和序列预测。单帧预测只完成预测下一帧图像;序列预测则要输出固定时段的多个连续帧图像。
单步预测原理如图4所示,假设有数据集X={x1,x2,…,xn},目的是通过前n-1个时序数据生成第n个数据。根据LSTM细胞结构,发现每一个细胞都有一个固定输出。可以将这个输出理解为对下一个时刻的预测,这样一来对于去掉最后一项的数据集X而言,网络输出的将会是一个新的预测序列
Figure BDA0001961264110000051
只需提取
Figure BDA0001961264110000052
中最后一个输出即可得到预测值,而网络的整体损失函数将被定义为
Figure BDA0001961264110000053
序列预测是在单帧预测的基础之上进行的,结构更加复杂,如图5所示。考虑到每张图片在经过一个LSTM网络后,其输出就是下一帧预测。理论上当t1时刻的图像经过n次更新后,会输出tn+1时刻的状态。假设根据数据集{x1,x2,…,xn-t},预测后面的时序序列图像,那么就需要原数据经过t层状态更新才可得到预测序列
Figure BDA0001961264110000054
因此需要将单步预测模型中的LSTM网络深度纵向增加,具体增加的深度按需求而定。
下面通过具体的实验将本发明的方法与现有技术进行性能对比。
先对图像特征提取和图像复原的神经网络进行训练。对图像进行编码和解码的DCGAN网络模块深度都设定为四层,并将公式4作为损失函数进行最小化训练。由于全局采用栈式级联策略,一旦产生较为精确的模型,该模型参数就会持久化,避免复原出效果不佳的图像。训练DCGAN的数据集不需要太多图像数据,在进行了50次批量训练后,模型接近收敛。
为了能够体现出本发明利用DCGAN进行编码、解码操作的优势,对比其他方法:稀疏自编码器和栈式自编码器。将这三种编码器的训练过程放在一起进行比较,如图6所示。其中,红色表示稀疏自编码器,绿线表示栈式自编码器,蓝线表示DCGAN编码器。而黑色的线则表示没有用栈式级联策略连接的DCGAN编码器,训练很不稳定。通过这张对比图,可以很清楚地看到DCGAN编码器与栈式级联策略相结合的优越性,它的损失是最低的。针对各个编码器所生成的图像,通过峰值信噪比、均方误差和结构相似性度量进行了综合比对。如图7所示,综合比对下发现DCGAN编码器最为优越。
在获得了健壮的编码模型后,就要通过LSTM预测雷达图像了。把训练集投入到DCGAN编码器中,图像的特征随后输入进LSTM。需要与3DCNN和ConvLSTM进行对比来显示本文中所提出方法的健壮性。首先进行单帧预测,这是对后面序列预测的一个可行性验证。如图8所示,训练批次为30次时,三者都进入了收敛震荡区。通过观察,在单帧预测训练环节,DCGANLSTM虽然占有优势,但与另外两个相差并不多。左侧为3DCNN训练过程,中间为ConvLSTM,右侧为DCGANLSTM。其中,横坐标表示迭代批次,纵坐标表示相似性。完成单帧预测后,就该进入序列预测实验了。按照上述提到的方法重新设置神经网络,在保留栈式级联策略的条件下增加网络深度。通过批量迭代了3000次后,得到了三种方法的误差分布图。如图9所示,发现3DCNN和ConvLSTM训练并不稳定,后期虽然基本收敛于一个范围内,但值域的震荡对于精确预测很不利。而DCGANLSTM误差分布则相对稳定很多,损失收敛于0.05左右。采用了栈式级联策略和学习率衰减策略两大优化方法对其进行优化,效果较为满意。

Claims (7)

1.一种基于LSTM和DCGAN的时序性图像预测方法,其特征在于,包括步骤:
(1)构建DCGAN编码器,包括编码模块和解码模块,两个模块之间接入LSTM时序预测网络;
(2)对构建的编码器进行训练,前馈传播完成后,计算损失函数,对编码器进行整体参数调优;
(3)DCGAN编码器内部,编码模块、解码模块和LSTM的连接处都采用栈式级联策略;
(4)使用LSTM时序预测网络,以DCGAN编码器中编码模块的输出,即编码模块提取到的输入时间序列的时序特征信息,作为LSTM时序预测网络的输入,进行未来时段输出序列预测。
2.根据权利要求1所述的基于LSTM和DCGAN的时序性图像预测方法,其特征在于,所述步骤1中,编码模块对收集的图像提取空间特征,LSTM时序预测网络对提取到的特征进行预测,解码模块对预测的结果进行图像复原。
3.根据权利要求1所述的基于LSTM和DCGAN的时序性图像预测方法,其特征在于,所述步骤2中,在编码器的损失函数中引入正则化概念优化算法。
4.根据权利要求1所述的基于LSTM和DCGAN的时序性图像预测方法,其特征在于,所述步骤2中,在网络训练过程中,采用学习率衰减策略加快训练速度。
5.根据权利要求1所述的基于LSTM和DCGAN的时序性图像预测方法,其特征在于,所述步骤3中,所述栈式级联策略对每一层网络进行单独训练,并将输出作为下一层的输入。
6.根据权利要求1所述的基于LSTM和DCGAN的时序性图像预测方法,其特征在于,所述步骤4具体为:
(4.1)由编码模块获取输入时间序列,将序列转化为固定大小状态向量,完成关于输入时间序列的时序特征提取,将整个输入序列的信息量保存在LSTM神经元的细胞状态St中;
(4.2)LSTM预测模块将上述神经元的细胞状态作为LSTM预测模块细胞起始状态,输出未来时段的预测序列。
7.根据权利要求1所述的基于LSTM和DCGAN的时序性图像预测方法,其特征在于,所述步骤4包括单帧预测和序列预测;单帧预测完成预测下一帧图像;序列预测输出固定时段的多个连续帧图像。
CN201910084351.8A 2019-01-29 2019-01-29 基于lstm和dcgan的时序性图像预测方法 Active CN109829495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910084351.8A CN109829495B (zh) 2019-01-29 2019-01-29 基于lstm和dcgan的时序性图像预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910084351.8A CN109829495B (zh) 2019-01-29 2019-01-29 基于lstm和dcgan的时序性图像预测方法

Publications (2)

Publication Number Publication Date
CN109829495A CN109829495A (zh) 2019-05-31
CN109829495B true CN109829495B (zh) 2023-04-07

Family

ID=66862759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910084351.8A Active CN109829495B (zh) 2019-01-29 2019-01-29 基于lstm和dcgan的时序性图像预测方法

Country Status (1)

Country Link
CN (1) CN109829495B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334654A (zh) * 2019-07-08 2019-10-15 北京地平线机器人技术研发有限公司 视频预测方法和装置、视频预测模型的训练方法及车辆
CN110490299B (zh) * 2019-07-25 2022-07-29 南京信息工程大学 基于状态变化微分的灵敏长短期记忆方法
CN110610194B (zh) * 2019-08-13 2022-08-05 清华大学 一种针对少量数据视频分类任务的数据增强方法
CN110647891B (zh) * 2019-09-17 2023-01-24 上海仪电(集团)有限公司中央研究院 基于cnn和自编码器时序数据特征自动提取方法及系统
CN111245673B (zh) * 2019-12-30 2022-03-25 浙江工商大学 一种基于图神经网络的sdn时延感知方法
CN111414852A (zh) * 2020-03-19 2020-07-14 驭势科技(南京)有限公司 图像预测及车辆行为规划方法、装置和系统及存储介质
CN112268564B (zh) * 2020-12-25 2021-03-02 中国人民解放军国防科技大学 一种无人机降落空间位置和姿态端到端估计方法
CN112967388A (zh) * 2021-03-31 2021-06-15 东莞中国科学院云计算产业技术创新与育成中心 三维时序图像神经网络模型的训练方法和装置
CN113378929B (zh) * 2021-06-11 2022-08-30 武汉大学 一种肺结节生长预测方法和计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017151757A1 (en) * 2016-03-01 2017-09-08 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Recurrent neural feedback model for automated image annotation
US11188813B2 (en) * 2017-03-01 2021-11-30 Stc.Unm Hybrid architecture system and method for high-dimensional sequence processing
WO2019019199A1 (en) * 2017-07-28 2019-01-31 Shenzhen United Imaging Healthcare Co., Ltd. SYSTEM AND METHOD FOR IMAGE CONVERSION
CN108596265B (zh) * 2018-05-02 2022-04-08 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
CN108665005B (zh) * 2018-05-16 2021-12-07 南京信息工程大学 一种利用dcgan提高基于cnn图像识别性能的方法

Also Published As

Publication number Publication date
CN109829495A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829495B (zh) 基于lstm和dcgan的时序性图像预测方法
Tjandra et al. Compressing recurrent neural network with tensor train
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
Ba et al. Do deep nets really need to be deep?
CN111310672A (zh) 基于时序多模型融合建模的视频情感识别方法、装置及介质
Fang et al. A new sequential image prediction method based on LSTM and DCGAN
CN110929092A (zh) 一种基于动态注意力机制的多事件视频描述方法
CN113905391A (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN112949828A (zh) 一种基于图学习的图卷积神经网络交通预测方法及系统
CN115273464A (zh) 一种基于改进的时空Transformer的交通流量预测方法
KR20220098991A (ko) 음성 신호에 기반한 감정 인식 장치 및 방법
Wang et al. A pseudoinverse incremental algorithm for fast training deep neural networks with application to spectra pattern recognition
CN114004383A (zh) 时间序列预测模型的训练方法、时间序列预测方法及装置
CN115032602A (zh) 一种基于多尺度卷积胶囊网络的雷达目标识别方法
CN115810351B (zh) 一种基于视听融合的管制员语音识别方法及装置
Zhang et al. Learning to search efficient densenet with layer-wise pruning
Datta et al. HYPER-SNN: Towards energy-efficient quantized deep spiking neural networks for hyperspectral image classification
Tao et al. An efficient and robust cloud-based deep learning with knowledge distillation
CN116912804A (zh) 一种高效的无锚框3-d目标检测及跟踪方法及模型
CN116777068A (zh) 一种基于因果Transformer的网络化数据预测方法
CN108959512B (zh) 一种基于属性增强注意力模型的图像描述网络及技术
CN112905599B (zh) 基于端到端的分布式深度哈希检索方法
CN115062754A (zh) 一种基于优化胶囊的雷达目标识别方法
Wilinski et al. Toward the border between neural and Markovian paradigms
CN116861962A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant