CN112418409A - 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 - Google Patents

一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 Download PDF

Info

Publication number
CN112418409A
CN112418409A CN202011464171.1A CN202011464171A CN112418409A CN 112418409 A CN112418409 A CN 112418409A CN 202011464171 A CN202011464171 A CN 202011464171A CN 112418409 A CN112418409 A CN 112418409A
Authority
CN
China
Prior art keywords
sequence
convolution
layer
encoder
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011464171.1A
Other languages
English (en)
Other versions
CN112418409B (zh
Inventor
方巍
庞林
易伟楠
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202011464171.1A priority Critical patent/CN112418409B/zh
Publication of CN112418409A publication Critical patent/CN112418409A/zh
Application granted granted Critical
Publication of CN112418409B publication Critical patent/CN112418409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法。涉及计算机预测领域,具体步骤:(1)、非对称卷积块高维特征提取器提取空间特征;(2)、嵌入注意力模块的ConvLSTM编码器‑解码器架构预测外推特征;(3)、特征结果反向重构;(4)、L1、L2正则化优化算法;(5)、预测时空序列图像。本发明通过多层卷积神经网络可以很好的提取时空序列数据的高维特征,以此作为模型的输入不仅解决了高维不可计算的问题还强调了空间关键信息;改进后的ConvLSTM能够更好的学习到时空特征实现更精准的外推;本发明适用于所有的时序性图像。

Description

一种利用注意力机制改进的卷积长短期记忆网络时空序列预 测方法
技术领域
本发明涉及计算机预测领域,具体涉及一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法。
背景技术
时空序列预测为一种基于深度学习的图像外推技术,它根据之前的N帧图片序列来预测未来M帧图像;现阶段,图像外推技术已广泛应用在气象降水雷电预测、交通流预测、视频预测、人类动作预测、机器人技术等领域,已然成为计算机视觉方面的研究热点,但就目前的技术仍有很大的局限性;一方面当目标发生快速变化时,应基于附近的帧而非远处的帧上生成将来的图像,这要求预测模型学习短期视频动态;另一方面当场景中的运动对象频繁纠缠在一起时,很难将它们分离到生成的帧中,这就要求预测模型提取在发生纠缠之前的上下文;因此,应该适应性地考虑短期和长期的视频关系;由于外推算法除了输入序列并不会获得理解序列内容的任何线索,在这种无监督的情况下学习的最大障碍是如何对图像演化进行准确建模从而学习序列中复杂的时间和空间关系,所以建立一个有效的时空序列预测模型仍然是一个富有挑战性的任务。
传统的RNN模型会导致严重的梯度爆炸和梯度消失问题并且无法很好的处理远距离依赖。为了缓解这些问题,并进一步优化RNN模型,1997年Hochreater和Schmidhuber提出了长短期记忆网络(LSTM)模型,通过注入门机制学习选择性的记忆重要信息和遗忘次要信息,提高了RNN模型性能;为了更好的将LSTM模型应用在图像序列上,2015年Xingjian Shi等人提出了一种将卷积结构与LSTM相结合的新型网络Convlutional LSTM(ConvLSTM),该模型可以同时学习到空间和时间上特征;2016年,Xingjian Shi等人继续提出了轨迹GRU来克服卷积结构的局部不变性;2017年Yunbo Wang等人对ConvLSTM的内部结构进行了改进,提出一种“之”字形网络PredRNN以有效利用横向和纵向信息。2018年又进一步对此进行了改进提出了PredRNN++,每个时间步和每一层之间有一个可适应的连接同时服务于长时和短时的路线,并提出Gradient Highway Unit用来防止长时导致的梯度消失;本发明为了解决长时信息丢失的问题在Encoder-Decoder架构中引入了Attention机制。
传统的编码器-解码器模型需要将所有输入序列压缩进一个固定大小的矢量中,这必然会造成大量关键信息的丢失从而影响模型性能,此外同等对待所有保留信息也是不合理的;2014年,Bahdanau D等人将注意力机制嵌入到编码器-解码器模型中,实现了从所有输入序列中学习提取关键信息,并强调重要信息和抑制不重要信息;2015年Luong M提出了局部注意力和全局注意力的概念,全局注意力机制需要所有的隐状态都参与计算上下文,而局部注意力通过预测位置向量来定位参与计算上下文向量的隐状态;2017年Chen L等人将通道注意力机制与空间注意力机制结合提出了SCA-CNN实现图像注释;本发明中设计了一种全局通道注意力机制嵌入到ConvLSTM编码器-解码器模型中。
发明内容
本发明公开了一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,构建了序列到序列的模型,用以解决时空序列预测过程中过多遗忘长时信息的缺点;注意力机制可以很好的根据前一步的输出来判断当前步的注意需求,从而学习强调重要的数据或抑制不重要的数据;该方法中设计的注意力机制为一种神经网络,可以很好的嵌入到ConvLSTM中,并且编码器的所有隐状态和解码器前一步的隐状态作为输入,克服了ConvLSTM编码器-解码器将所有输入序列压缩进一个固定大小的矢量的缺点;此外,注意力机制的“选择性”,为序列数据建立了权值和映射,从而让输入和输出能够联系起来,避免了算法的“黑箱性”。为了减少其内部学习复杂度,将传统的输入图像改为高维特征。特征来源于多层卷积网络的提取,相对于原始图像在维度方面有了很大的简化,使得整体网络可控。本发明有益的效果是:通过多层卷积神经网络可以很好的提取时空序列数据的高维特征,以此作为模型的输入不仅解决了高维不可计算的问题还强调了空间关键信息。改进后的ConvLSTM能够更好的学习到时空特征实现更精准的外推。本发明提出的时序性图像预测模型架构理论上适用于所有的时序性图像。
针对上述问题,本发明提供了一种基于注意力机制和ConvLSTM编码器-解码器的时空序列预测方法来,用以解决远距离信息依赖和外推默许的问题,提高了在时空序列数据集上外推的精度。
本发明的技术方案是:一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,具体步骤包括如下:
步骤(1.1)、非对称卷积块高维特征提取器提取空间特征:使用三层非对称卷积块,利用滑动窗口提取高维图像空间信息;
步骤(1.2)、嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征:将编码器输入当前步图片帧的高维特征和前一步的隐状态,输出当前步隐状态;使用解码器中接收整个编码器的输出并在每一步交由注意力模块获取上下文信息提供给当前步解码器预测外推特征;
步骤(1.3)、特征结果反向重构:进行特征图像的外推后,利用反卷积进行反向重构,将预测特征重构到原始大小;
步骤(1.4)、L1、L2正则化优化:降低学习到较高权重的层的更新程度,并提高学习到过低的权重的结点的更新程度,从而达到层中所有权值平摊任务的目的;
步骤(1.5)、预测时空序列图像:所有模型搭建完成后输入时空图像序列进行模型外推训练。
进一步的,在所述步骤(1.1)中,使用非对称卷积块高维特征提取器提取空间特征的具体操作方法如下:
(1.1.1)、首先将输入图像做归一化处理,将数值缩放到0到1之间,便于后续梯度的计算、加快收敛;
(1.1.2)、然后构建特征提取模块:使用由三个非对称卷积块堆叠而成的卷积网络,将标准方形卷积层替换为不对称卷积网络。
进一步的,在步骤(1.1.2)中,每一个非对称卷积块将三个分别具有正方形、水平和垂直卷积核的卷积分支的输出进行求和,由滑动窗口来提供一些具有不同内核大小的2D卷积可加性的结果;每个卷积块中三种内核大小分别为3×3、1×3和3×1,其接受相同的输入,并将输出相加再通过ReLU激活函数,得到的结果作为下一个卷积块的输入;其中,所述三个卷积块的通道数依次为64、96、128,跨步依次为2、2、1。
进一步的,在所述步骤(1.2)中,使用嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征的具体操作方法如下:
(1.2.1)、构建ConvLSTM编码器-解码器架构;
(1.2.2)、将注意力模块嵌入到该ConvLSTM编码器-解码器架构中,具体操作步骤如下:
首先,根据一个对齐模型计算ht与每个
Figure BDA0002833565530000031
的关联度etj,所述的对齐模型函数表示如下式所示:
Figure BDA0002833565530000032
其次,将关联度结果输入到softmax函数中,为每个
Figure BDA0002833565530000033
赋予权重,其公式表示如下:
Figure BDA0002833565530000034
再次,将权重与编码器的隐状态相乘,得到权重化的上下文向ct,其式如下:
Figure BDA0002833565530000041
最后,用该上下文向量更新前一步隐状态ht,作为当前步的输入,更新过程用公式表示为:
Figure BDA0002833565530000042
其中,σ为sigmoid函数,conv1、conv2为两个卷积网络,通过上下文向量ct和ht的重要性来更新输入当前步的隐状态
Figure BDA0002833565530000043
进一步的,在所述步骤(1.2.2)中,构建对齐模型
Figure BDA0002833565530000044
的具体步骤如下:设计一个全局通道注意力模块,首先,先分别为ht
Figure BDA0002833565530000045
的各个通道赋予权重;然后,将得到的结果相加输出对齐向量etj,期间,将维度先减小后增大,最后,减少模型的参数,提高模型的效率。
进一步的,在所述步骤(1.3)中,特征结果反向重构的具体方法如下:将注意力机制改进的ConvLSTM编码器-解码器的输出输入到一个由三层反卷积构成的重构网络中,将外推出的图像特征重构成原图的大小;其中,每一层反卷积重构网络都包含反卷积层、标准化层和LeakyReLU激活函数层;第一层反卷积的参数设置为卷积核大小为(3,3),通道数为128,跨步为2;第二层反卷积的参数设置为卷积核大小为(2,2),通道数为64,跨步为2,padding为1;第三层反卷积的参数设置为卷积核大小为(3,3),通道数为1,跨步为1,padding为1。
进一步的,在所述步骤(1.5)中,预测时空序列图像的具体步骤如下:
数据空间维度上为固定大小的空间区域表示为M×N个格点,每一个格点包含随着时间变化的C个测量;在任意时间点对该区域的观察使用一个矢量X∈RC×M×N表示,式中,R表示观察特征的区域;随时间变化的T个时间步的观察形成了一组动态序列,用矢量序列X1,X2…,XT这T帧数据表示;
所述的时空序列预测即根据所给出的前J帧数据外推出未来的K帧数据,其建模公式如下式所示:
Figure BDA0002833565530000046
进一步的,在根据前J帧数据外推未来K帧数据的时空序列预测外推步骤中,将外推序列和真实序列的损失函数定义为如下公式:
Figure BDA0002833565530000047
利用交叉验证作为训练、验证的策略,选择将均方误差MSE、平均绝对误差MAE作为检测模型得分的标准,所述方误差MSE、平均绝对误差MAE的公式分别为:
Figure BDA0002833565530000051
Figure BDA0002833565530000052
其中,输出y的下标有三种表示形式;分别表示训练过程的输出、样本标签和测试输出。
本发明设计了一种注意力机制结构嵌入到以ConvLSTM作为循环单元的外推模型中用以提高模型外推的准确率,缓解长时间预测中表现模糊的问题。
(1)、本发明研究的重点是高维时空序列图像,准确预测未来指定时段的图像变化趋势;由于输入数据量巨大极大影响模型性能,所以选择将高维图像特征作为输入;该模块使用的是由多个非对称卷积块堆叠而成的卷积网络,将标准方形卷积层替换为不对称卷积网络(ACNet),可以达到更高的准确性;实现增强模型对旋转失真的鲁棒性以及增强方形卷积核的中心骨架部分的能力;此外将该卷积结构堆叠多层增加了模型的感受野,将底层特征映射到高层特征的过程实现了关键信息的识别与提取;将重要空间信息作为输入相比于输入原图极大的减少了模型的参数,提高了模型的效率。
(2)、在网络结构设计上,采用序列到序列架构;这种编码器-解码器结构包含两部分,一部分负责对输入的信息进行编码,将输入转换为向量形式,然后由解码器对这个向量进行解码,还原为输出序列;本发明中所采用的ConvLSTM编码器-解码器结构就是编码器与解码器都是使用ConvLSTM算法;ConvLSTM的优势在于能够同时处理时间和空间信息,它可以将输入序列包含的信息保存在隐藏状态中,这样就提高了算法对于上下文的理解能力。
(3)、本发明设计了一种全局通道注意力模块,可以无缝的嵌入到ConvLSTM编码器-解码器中;由于在编码器的最后需要将所有的输入序列压缩进一个固定大小的隐向量中,而解码器也只能从这一个隐向量解码出输出序列,信息流传递过程中容量不变,但随着输入序列长度的增加所需要包含的信息也就越多,而新信息的加入无疑会“挤掉”旧信息;而不论是远距离的信息还是临近的信息对于生成序列的预测来说都是不可或缺的;所以本发明将所有输入时间步的隐状态输入到注意力模块中,具有全局性,即不论是“天涯”的信息还是“近邻”的信息都可作为外推模型的上下文信息;此外,为各个隐状态的通道赋予了不同的权重,由于不同的通道提取到不同的特征,模型可以通过学习权重来关注重要的特征;本发明所设计的嵌入到ConvLSTM编码器-解码器的注意力模块可以很大程度上提高模型预测精度,减少外推模糊的问题。
(4)、为了避免模型的过拟合以达到良好的均衡性,而引入损失函数的惩罚项——正则化;在Adam优化器中增加weight_decay来增加L2正则化,降低学习到较高权重的层的更新程度,并提高学习到过低的权重的结点的更新程度,从而达到层中所有权值平摊任务的目的;此外,为了防止模型梯度爆炸,在训练过程中加入了梯度裁剪,控制住梯度上限;在之后的网络训练过程中,采用了学习率衰减策略以加快训练速度。
本发明有益的效果是:(1)、本发明要解决的技术问题:本发明关注的问题主要是时空序列预测长期依赖问题并缓解随着预测时间的延长外推模糊的问题;
(2)、本发明相对应的技术方案:首先利用非对称卷积提取高层图像特征,并将此作为外推模型的输入;其次,通过将注意力机制引入到ConvLSTM中以克服信息流传递过程中关键信息的丢失,并针对不同的外推数据为所有编码信息赋予不同的权重,实现强调关键信息和抑制次要信息,同时能够以所有编码信息作为外推依据的技术特点在一定程度上缓解了外推模糊的问题;
(3)、本发明所能达到的效果:通过本发明得到的外推图像将具有更高的准确率和清晰度,在外推结果上更能够令人满意;我们通过MNIST移动数据集的合成方法合成了2000000个人造数据集,该数据集中的目标运动具有高度非线性和随机性,预测运动轨迹生成外推图像具有很大的难度;然后,以本发明中的外推模型通过输入10帧序列预测未来10帧连续图像,图像的分辨率均为64×64;训练过程中,为了防止过拟合而使用了L1+L2正则化的方法,batch size为20,将初始学习率设置为0.001,并在之后的训练过程中应用了学习率衰减策略;报告的所有结果都是经过训练的模型的直接输出,而未经过任何后期处理。本发明使用常见的评估指标MSE(使用像素空间中的完整图像和地面真实图像计算得出)来量化模型的性能。
附图说明
图1为本发明的结构流程图;
图2为本发明中高层特征提取模块图;
图3为本发明中ConvLSTM结构图;
图4为本发明中全局通道注意力模块结构图;
图5为本发明中嵌入注意力机制的ConvLSTM编码器-解码器模块架构图;
图6为本发明中序列预测原理图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所述;一种利用注意力(Attention)机制改进的卷积长短期记忆网络(Convolutional LSTM)时空序列预测方法,
其中,所述的注意力(Attention)机制是指:Attention机制模仿人类观察事物时的特点,将注意力聚焦在关键目标信息上,通过特殊的对齐模型为不同信息赋予不同的权重,从而实现强调重要信息和抑制不重要的信息。
所述的Convolutional LSTM时空序列:这里的Convolutional LSTM指的是一种采用卷积改进的长短期记忆网络(LSTM)的结构:ConvLSTM(Convolutional Long Short-TermMemory);时空序列预测指对具有时间性和空间性的高维数据进行合理外推,如短临降水预测的输入为具有空间性的雷达图像帧和具有时间性的雷达帧序列,通过所给出的雷达图像帧序列预测未来的雷达图像序列就属于时空序列预测。
其具体步骤包括如下:
步骤(1.1)、非对称卷积块高维特征提取器提取空间特征:使用三层非对称卷积块,利用滑动窗口提取高维图像空间信息;
在所述步骤(1.1)中,使用非对称卷积块高维特征提取器提取空间特征的具体操作方法如下:
(1.1.1)、首先将输入图像做归一化处理,将数值缩放到0到1之间,便于后续梯度的计算、加快收敛;
(1.1.2)、然后构建特征提取模块:使用由三个非对称卷积块堆叠而成的卷积网络,将标准方形卷积层替换为不对称卷积网络(ACNet);可以达到更高的准确性;实现增强模型对旋转失真的鲁棒性以及增强方形卷积核的中心骨架部分的能力;此外将该卷积结构堆叠多层增加了模型的感受野,将底层特征映射到高层特征的过程实现了关键信息的识别与提取;将重要空间信息作为输入相比于输入原图极大的减少了模型的参数,提高了模型的效率;每层卷积块后都加入了批量归一化层,保证每一层服从高斯分布,帮助稳定训练。
在步骤(1.1.2)中,每一个非对称卷积块将三个分别具有正方形、水平和垂直卷积核的卷积分支的输出进行求和,由滑动窗口来提供一些具有不同内核大小的2D卷积可加性的结果;每个卷积块中三种内核大小分别为3×3、1×3和3×1,其接受相同的输入,并将输出相加再通过ReLU激活函数,得到的结果作为下一个卷积块的输入,如图2所示;其中,所述三个卷积块的通道数依次为64、96、128,跨步依次为2、2、1。
步骤(1.2)、嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征:编码器输入当前步图片帧的高维特征和前一步的隐状态,输出当前步隐状态;解码器中接收整个编码器的输出并在每一步交由注意力模块获取上下文信息提供给当前步解码器预测外推特征;
在所述步骤(1.2)中,使用嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征的具体操作方法如下:
(1.2.1)、构建ConvLSTM编码器-解码器架构;本发明构建了一个以ConvLSTM为循环单元的编码器-解码器结构,并在解码器的输出层嵌入了注意力模块机制;这种编码器-解码器结构包含两部分,编码器负责对输入的信息进行编码,将输入转换为向量形式,然后由解码器对这个向量进行解码,还原为输出序列;本发明中编码器与解码器都是使用ConvLSTM算法,ConvLSTM的结构如图3所示,共三层,输入当前步图片帧的高维特征和前一步的隐状态,并将生成的当前步隐状态输入到下一时间步中,每一时间步共享同一个网络,不同层网络互相独立训练。在解码模块中,每一个输出时间步都将所有编码器的隐状态
Figure BDA0002833565530000081
(j∈[0,seqlen-1])和前一步解码器的隐状态ht作为输入;所有输入序列共享编码器的参数且所有输出序列共享解码器的参数;
(1.2.2)、将注意力模块嵌入到该ConvLSTM编码器-解码器架构中:为了克服将所有输入序列压缩进一个固定大小的矢量所导致的信息损失的缺陷而引入注意力机制,它将所有编码器的隐状态和解码器前一步的隐状态作为输入,实现了从所有输入序列中学习提取关键信息,并强调重要信息和抑制不重要信息;
首先,根据一个对齐模型计算ht与每个
Figure BDA0002833565530000082
的关联度etj,对齐模型函数表示如下:
Figure BDA0002833565530000083
其次,将关联度结果输入到softmax函数中,为每个
Figure BDA0002833565530000084
赋予权重,公式表示如下:
Figure BDA0002833565530000085
再次,将权重与编码器的隐状态相乘,得到权重化的上下文向ct,其式如下:
Figure BDA0002833565530000091
最后,用该上下文向量更新前一步隐状态ht,作为当前步的输入,更新过程用公式表示为:
Figure BDA0002833565530000092
其中,σ为sigmoid函数,conv1、conv2为两个卷积网络,通过上下文向量ct和ht的重要性来更新输入当前步的隐状态
Figure BDA0002833565530000093
该注意力机制ConvLSTM编码器-解码器的整体架构如图5所示。
在所述步骤(1.2.2)中,构建对齐模型
Figure BDA0002833565530000094
的具体方法如下:设计一个全局通道注意力模块,先分别为ht
Figure BDA0002833565530000095
的各个通道赋予权重,学习关键目标“在哪里”,然后将得到的结果相加输出对齐向量etj,期间,将维度先减小后增大,从而减少模型的参数,提高模型的效率;对齐模型的结构如图4所示。
步骤(1.3)、特征结果反向重构:进行了特征图像的外推后,利用反卷积进行反向重构,将预测特征重构到原始大小;
在所述步骤(1.3)中,特征结果反向重构的具体方法如下:将将注意力机制改进的ConvLSTM编码器-解码器的输出输入到一个由三层反卷积构成的重构网络中,将外推出的图像特征重构成原图的大小;其中,每一层反卷积重构网络都包含反卷积层、标准化层和LeakyReLU激活函数层;至此,该发明的端到端的模型结构已经介绍完毕,输入数据先后通过了高维特征提取模块、嵌入注意力的ConvLSTM编码器-解码器模块和反向重构模块;训练该模型需要进行前馈传播和整体反向调优;前馈传播即将图像输入到网络模型中,经过相关操作得到外推的数据;在前馈传播完成后,就通过误差反向传播算法对整个模型进行微调;
假设有训练样本N(xσ,yσ),其中σ∈[1,N],输入为
Figure BDA0002833565530000096
标准输出为
Figure BDA0002833565530000097
预测输出为
Figure BDA0002833565530000098
输入xσ和标准输出yσ共同组成一个连续的图像序列,oσ为yσ的预测值;预测输出与标准输出的损失函数由欧式距离来定义,如下式所示;通过最小化这个损失函数来使oσ与yσ无限接近,从而实现模型准确外推的能力。
Figure BDA0002833565530000099
其中,第一层反卷积的参数设置为卷积核大小为(3,3),通道数为128,跨步为2;第二层反卷积的参数设置为卷积核大小为(2,2),通道数为64,跨步为2,padding为1;第三层反卷积的参数设置为卷积核大小为(3,3),通道数为1,跨步为1,padding为1。
步骤(1.4)、L1、L2正则化优化(相关算法优化):为了使得模型具备较好泛化能力,避免过拟合以达到良好的均衡性,本发明引入了正则化概念;降低学习到较高权重的层的更新程度,并提高学习到过低的权重的结点的更新程度,从而达到层中所有权值平摊任务的目的;其中,L1、L2正则可分别表达式为:
L1(θ)=α∑ii|
Figure BDA0002833565530000101
正则项之前α是一个系数,θi可表示成每层权重的倒数;表示对于学习到过高权重的层,需降低其更新程度。相反,对于层中学习到过低的权重的结点反而要提高其更新程度,从而达到层中所有权值平摊任务的目的;本发明在编码器的损失函数构建中,在损失函数后又加上了L1正则化式子:
Figure BDA0002833565530000102
其中,α设为0.0001;同时选择Adam作为优化器,并通过设置weight decay部署L2正则化,同样,正则化系数设置为0.0001;
在之后的网络训练过程中,采用了学习率衰减策略以加快训练速度;较大的学习率会实现非常快的收敛,因此在初期会采用一个较大的值,同时避免陷入局部极小值;等训练到达一定的程度,过大的学习率可能在全局极小值附近来回跳页,导致梯度在收敛的附近摆动不定;所以较小的学习率可以使得收敛步伐减小,避免结果摆动;学习率衰减策略可以表示为:
Figure BDA0002833565530000103
每当训练轮数达到设定值,学习率将会减少一点;其中decay_rate为初始系数,epochi表示第i次训练,α0是初始学习率。
步骤(1.5)、预测时空序列图像:所有模型搭建完成后输入时空图像序列进行模型外推训练。
在所述步骤(1.5)中,预测时空序列图像的具体方法如下:
数据空间维度上为固定大小的空间区域表示为M×N个格点,每一个格点包含随着时间变化的C个测量;在任意时间点对该区域的观察使用一个矢量X∈RC×M×N表示,式中,R指观察特征的区域;随时间变化的T个时间步的观察形成了一组动态序列,用矢量序列X1,X2…,XT这T帧数据表示;时空序列预测就是根据给出之前的的J帧数据外推出未来最有可能的K帧数据,可以建模为公式:
Figure BDA0002833565530000104
输入序列在经本发明改进的ConvLSTM网络后,其输出就是预测序列;假设根据输入数据{Xt-J+1,…,Xt}预测后面的时序序列图{Xt+1,…,Xt+K},那么就需要原数据经过t层状态更新才可得到预测序列
Figure BDA0002833565530000111
进一步的,在根据前J帧数据外推未来K帧数据的时空序列预测外推步骤中,将损失函数定义为如下公式:
Figure BDA0002833565530000112
利用交叉验证作为训练、验证的策略,选择将均方误差MSE、平均绝对误差MAE作为检测模型得分的标准,所述方误差MSE、平均绝对误差MAE的公式分别为:
Figure BDA0002833565530000113
Figure BDA0002833565530000114
其中,输出y的下标有三种表示形式;分别表示训练过程的输出、样本标签和测试输出。
本网络对于高度非线性和随机性的序列图像具有一定的外推能力,这种模型以一种无监督的方式有效地提取图像中的语义,充分利用所有输入图像特征,较好改善长期依赖过程中外推模糊的问题;对于时空序列预测,在外推算法除了输入序列不会获得理解序列内容的任何线索的情况下,学习的最大障碍是如何以一种无监督的方式对图像演化进行准确建模从而学习序列中复杂的时间和空间关系,这就要求模型不但要具有很强的空间信息提取能力还需具备时间信息融合能力,并能在一定程度上缓解信息流传递过程中旧信息丢失的问题;本发明使用注意力机制改进ConvLSTM的方法来解决这一问题。
时空序列预测结果的改进对社会中一些专业领域起到促进的作用;譬如在对气象领域的端临降水预测、雷电预测、空气质量检测,以及交通流预测上,专业人员可借助时空序列外推结果生成气象数据,未来道路规划方法;这对专业人员的在各个领域的应用具有较好的启发和参考作用。
对于气象数据如多普勒雷达数据其自身的特点,其运动通常为非稳定的,除了会发生翻转、放缩、移动外还会发生自身的生成和消亡,这就增加了预测的难度;因此,需要注意力机制来提取“天涯”或是“近邻”的信息来把握总体的运动和生消规律;进一步可以修改已训练好的深度网络结构并进行Fine-tune等处理,以提升网络的迁移能力和泛化能力。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims (8)

1.一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,具体步骤包括如下:
步骤(1.1)、非对称卷积块高维特征提取器提取空间特征:使用三层非对称卷积块,利用滑动窗口提取高维图像空间信息;
步骤(1.2)、嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征:将编码器输入当前步图片帧的高维特征和前一步的隐状态,输出当前步隐状态;使用解码器中接收整个编码器的输出并在每一步交由注意力模块获取上下文信息提供给当前步解码器预测外推特征;
步骤(1.3)、特征结果反向重构:进行特征图像的外推后,利用反卷积进行反向重构,将预测特征重构到原始大小;
步骤(1.4)、L1、L2正则化优化:降低学习到较高权重的层的更新程度,并提高学习到过低的权重的结点的更新程度,从而达到层中所有权值平摊任务的目的;
步骤(1.5)、预测时空序列图像:所有模型搭建完成后输入时空图像序列进行模型外推训练。
2.根据权利要求1所述的一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,在所述步骤(1.1)中,使用非对称卷积块高维特征提取器提取空间特征的具体操作方法如下:
(1.1.1)、首先将输入图像做归一化处理,将数值缩放到0到1之间,便于后续梯度的计算、加快收敛;
(1.1.2)、然后构建特征提取模块:使用由三个非对称卷积块堆叠而成的卷积网络,将标准方形卷积层替换为不对称卷积网络。
3.根据权利要求2所述的一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,在步骤(1.1.2)中,每一个非对称卷积块将三个分别具有正方形、水平和垂直卷积核的卷积分支的输出进行求和,由滑动窗口来提供一些具有不同内核大小的2D卷积可加性的结果;每个卷积块中三种内核大小分别为3×3、1×3和3×1,其接受相同的输入,并将输出相加再通过ReLU激活函数,得到的结果作为下一个卷积块的输入;其中,所述三个卷积块的通道数依次为64、96、128,跨步依次为2、2、1。
4.根据权利要求1所述的一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,在所述步骤(1.2)中,使用嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征的具体操作方法如下:
(1.2.1)、构建ConvLSTM编码器-解码器架构;
(1.2.2)、将注意力模块嵌入到该ConvLSTM编码器-解码器架构中,具体操作步骤如下:
首先,根据一个对齐模型计算ht与每个
Figure FDA0002833565520000021
的关联度etj,所述的对齐模型函数表示如下式所示:
Figure FDA0002833565520000022
其次,将关联度结果输入到softmax函数中,为每个
Figure FDA0002833565520000023
赋予权重,其公式表示如下:
Figure FDA0002833565520000024
再次,将权重与编码器的隐状态相乘,得到权重化的上下文向ct,其式如下:
Figure FDA0002833565520000025
最后,用该上下文向量更新前一步隐状态ht,作为当前步的输入,更新过程用公式表示为:
Figure FDA0002833565520000026
其中,σ为sigmoid函数,conv1、conv2为两个卷积网络,通过上下文向量ct和ht的重要性来更新输入当前步的隐状态
Figure FDA0002833565520000027
5.根据权利要求4所述的一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,在所述步骤(1.2.2)中,构建对齐模型
Figure FDA0002833565520000028
的具体步骤如下:设计一个全局通道注意力模块,首先,先分别为ht
Figure FDA0002833565520000029
的各个通道赋予权重;然后,将得到的结果相加输出对齐向量etj,期间,将维度先减小后增大,最后,减少模型的参数,提高模型的效率。
6.根据权利要求1所述的一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,在所述步骤(1.3)中,特征结果反向重构的具体方法如下:将注意力机制改进的ConvLSTM编码器-解码器的输出输入到一个由三层反卷积构成的重构网络中,将外推出的图像特征重构成原图的大小;其中,每一层反卷积重构网络都包含反卷积层、标准化层和LeakyReLU激活函数层;第一层反卷积的参数设置为卷积核大小为(3,3),通道数为128,跨步为2;第二层反卷积的参数设置为卷积核大小为(2,2),通道数为64,跨步为2,padding为1;第三层反卷积的参数设置为卷积核大小为(3,3),通道数为1,跨步为1,padding为1。
7.根据权利要求1所述的一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,在所述步骤(1.5)中,预测时空序列图像的具体步骤如下:
数据空间维度上为固定大小的空间区域表示为M×N个格点,每一个格点包含随着时间变化的C个测量;在任意时间点对该区域的观察使用一个矢量X∈RC×M×N表示,式中,R表示观察特征的区域;随时间变化的T个时间步的观察形成了一组动态序列,用矢量序列X1,X2…,XT这T帧数据表示;
所述的时空序列预测即根据所给出的前J帧数据外推出未来的K帧数据,其建模公式如下式所示:
Figure FDA0002833565520000031
8.根据权利要求7所述的一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,在根据前J帧数据外推未来K帧数据的时空序列预测外推步骤中,将外推序列和真实序列的损失函数定义为如下公式:
Figure FDA0002833565520000032
利用交叉验证作为训练、验证的策略,选择将均方误差MSE、平均绝对误差MAE作为检测模型得分的标准,所述方误差MSE、平均绝对误差MAE的公式分别为:
Figure FDA0002833565520000033
Figure FDA0002833565520000034
其中,输出y的下标有三种表示形式;分别表示训练过程的输出、样本标签和测试输出。
CN202011464171.1A 2020-12-14 2020-12-14 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 Active CN112418409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011464171.1A CN112418409B (zh) 2020-12-14 2020-12-14 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011464171.1A CN112418409B (zh) 2020-12-14 2020-12-14 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法

Publications (2)

Publication Number Publication Date
CN112418409A true CN112418409A (zh) 2021-02-26
CN112418409B CN112418409B (zh) 2023-08-22

Family

ID=74775586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011464171.1A Active CN112418409B (zh) 2020-12-14 2020-12-14 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法

Country Status (1)

Country Link
CN (1) CN112418409B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967275A (zh) * 2021-03-29 2021-06-15 中国科学院深圳先进技术研究院 软组织运动预测方法、装置、终端设备及可读存储介质
CN113033411A (zh) * 2021-03-26 2021-06-25 北京理工大学 基于分割与注意力机制的地面语义认知方法
CN113139446A (zh) * 2021-04-12 2021-07-20 长安大学 一种端到端自动驾驶行为决策方法、系统及终端设备
CN113156958A (zh) * 2021-04-27 2021-07-23 东莞理工学院 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法
CN113191539A (zh) * 2021-04-15 2021-07-30 电子科技大学 一种基于异构图聚合网络的高密度复合场景轨迹预测方法
CN113313316A (zh) * 2021-06-11 2021-08-27 北京明略昭辉科技有限公司 预测数据的输出方法及装置、存储介质、电子设备
CN113312843A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种大型多变压器极限负载预测系统和装置
CN113327301A (zh) * 2021-05-25 2021-08-31 成都信息工程大学 基于深度类比网络在多维度雷达数据下的强对流外推方法及系统
CN113539232A (zh) * 2021-07-10 2021-10-22 东南大学 一种基于慕课语音数据集的语音合成方法
CN113592565A (zh) * 2021-09-09 2021-11-02 哈尔滨工业大学(威海) 一种电力系统节点重要度预测方法
CN113705546A (zh) * 2021-10-28 2021-11-26 武汉楚精灵医疗科技有限公司 干扰类别识别模型训练方法、识别方法、装置及电子设备
CN113723480A (zh) * 2021-08-18 2021-11-30 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN114298220A (zh) * 2021-12-28 2022-04-08 浙江大学 基于上下文注意力动态特征提取器的故障分类方法
CN116306790A (zh) * 2023-01-16 2023-06-23 西安电子科技大学 一种基于cnn-gru和注意力机制的近海船舶轨迹实时预测方法、系统、设备及介质
CN113156958B (zh) * 2021-04-27 2024-05-31 东莞理工学院 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN110717389A (zh) * 2019-09-02 2020-01-21 东南大学 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法
CN111553350A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的注意力机制文本识别方法
CN111860785A (zh) * 2020-07-24 2020-10-30 中山大学 基于注意力机制循环神经网络的时间序列预测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN110717389A (zh) * 2019-09-02 2020-01-21 东南大学 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法
CN111553350A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的注意力机制文本识别方法
CN111860785A (zh) * 2020-07-24 2020-10-30 中山大学 基于注意力机制循环神经网络的时间序列预测方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DONGJIE WANG 等: "DeepSTCL: A Deep Spatio-temporal ConvLSTM for Travel Demand Prediction", 《COMPUTER SCIENCE》, pages 1 - 8 *
LIANG ZHANG 等: "Attention in Convolutional LSTM for Gesture Recognition", 《NIPS\'18: PROCEEDINGS OF THE 32ND INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》, pages 1 - 10 *
WEI FANG 等: "AttEF: Convolutional LSTM Encoder- Forecaster with Attention Module for Precipitation Nowcasting", 《INTELLIGENT AUTOMATION & SOFT COMPUTING》, pages 1 - 22 *
庞 林: "基于注意力机制和深度时空融合网络的 雷达回波外推方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 136 - 1773 *
方巍 等: "基于 GCA-ConvLSTM 的短临降水雷达回波外推方法研究", 《暴雨灾害》, pages 1 - 11 *
方巍 等: "基于生成对抗网络和发散注意力机制的 无监督域适应行人重识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 1290 *
韩 皓 等: "基于注意力Seq2Seq 网络的高速公路 交织区车辆变道轨迹预测", 《中国公路学报》, pages 106 - 118 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033411A (zh) * 2021-03-26 2021-06-25 北京理工大学 基于分割与注意力机制的地面语义认知方法
CN112967275A (zh) * 2021-03-29 2021-06-15 中国科学院深圳先进技术研究院 软组织运动预测方法、装置、终端设备及可读存储介质
WO2022206036A1 (zh) * 2021-03-29 2022-10-06 中国科学院深圳先进技术研究院 软组织运动预测方法、装置、终端设备及可读存储介质
CN113139446A (zh) * 2021-04-12 2021-07-20 长安大学 一种端到端自动驾驶行为决策方法、系统及终端设备
CN113139446B (zh) * 2021-04-12 2024-02-06 长安大学 一种端到端自动驾驶行为决策方法、系统及终端设备
CN113191539B (zh) * 2021-04-15 2022-03-15 电子科技大学 一种基于异构图聚合网络的高密度复合场景轨迹预测方法
CN113191539A (zh) * 2021-04-15 2021-07-30 电子科技大学 一种基于异构图聚合网络的高密度复合场景轨迹预测方法
CN113156958A (zh) * 2021-04-27 2021-07-23 东莞理工学院 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法
CN113156958B (zh) * 2021-04-27 2024-05-31 东莞理工学院 基于卷积长短期记忆网络的自主移动机器人自监督学习及导航方法
CN113327301A (zh) * 2021-05-25 2021-08-31 成都信息工程大学 基于深度类比网络在多维度雷达数据下的强对流外推方法及系统
CN113312843A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种大型多变压器极限负载预测系统和装置
CN113312843B (zh) * 2021-05-28 2022-12-30 北京航空航天大学 一种大型多变压器极限负载预测系统和装置
CN113313316A (zh) * 2021-06-11 2021-08-27 北京明略昭辉科技有限公司 预测数据的输出方法及装置、存储介质、电子设备
CN113539232B (zh) * 2021-07-10 2024-05-14 东南大学 一种基于慕课语音数据集的语音合成方法
CN113539232A (zh) * 2021-07-10 2021-10-22 东南大学 一种基于慕课语音数据集的语音合成方法
CN113723480A (zh) * 2021-08-18 2021-11-30 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN113723480B (zh) * 2021-08-18 2024-03-05 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN113592565B (zh) * 2021-09-09 2023-05-02 哈尔滨工业大学(威海) 一种电力系统节点重要度预测方法
CN113592565A (zh) * 2021-09-09 2021-11-02 哈尔滨工业大学(威海) 一种电力系统节点重要度预测方法
CN113705546A (zh) * 2021-10-28 2021-11-26 武汉楚精灵医疗科技有限公司 干扰类别识别模型训练方法、识别方法、装置及电子设备
CN114298220A (zh) * 2021-12-28 2022-04-08 浙江大学 基于上下文注意力动态特征提取器的故障分类方法
CN116306790A (zh) * 2023-01-16 2023-06-23 西安电子科技大学 一种基于cnn-gru和注意力机制的近海船舶轨迹实时预测方法、系统、设备及介质
CN116306790B (zh) * 2023-01-16 2024-05-28 西安电子科技大学 一种基于cnn-gru和注意力机制的近海船舶轨迹实时预测方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112418409B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN112418409A (zh) 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法
CN108388900B (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN106407889B (zh) 基于光流图深度学习模型在视频中人体交互动作识别方法
CN110309732B (zh) 基于骨架视频的行为识别方法
CN112415521A (zh) 基于cgru的强时空特性雷达回波临近预报方法
CN113807318B (zh) 一种基于双流卷积神经网络和双向gru的动作识别方法
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN113255995A (zh) 一种空气污染预测方法
CN116524419B (zh) 基于时空解耦与自注意力差分lstm的视频预测方法、系统
CN113688765A (zh) 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN113344973A (zh) 一种基于时空正则化和特征可靠性评估的目标跟踪方法
Desai et al. Next frame prediction using ConvLSTM
CN115113165A (zh) 雷达回波外推方法、装置及系统
CN116660849A (zh) 基于自注意力机制的时空lstm网络雷达回波序列预测方法
CN114116944A (zh) 一种基于时间注意力卷积网络的轨迹预测方法及装置
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN114445465A (zh) 一种基于融合逆强化学习的轨迹预测方法
CN117665825A (zh) 一种雷达回波外推预报方法、系统及存储介质
Jiang et al. Cross-level reinforced attention network for person re-identification
CN116148864A (zh) 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法
US20230254230A1 (en) Processing a time-varying signal
CN116453025A (zh) 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法
CN116307224A (zh) 基于递归门控卷积和注意力机制改进的enso时空预测方法
CN115511858A (zh) 一种基于新型时序特征关系映射的视频质量评价方法
Chang et al. Stip: A spatiotemporal information-preserving and perception-augmented model for high-resolution video prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant