CN112488014A

CN112488014A - 基于门控循环单元的视频预测方法

Info

Publication number: CN112488014A
Application number: CN202011417210.2A
Authority: CN
Inventors: 陈龙; 邱林坤; 陈函
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-12
Anticipated expiration: 2040-12-04
Also published as: CN112488014B

Abstract

本发明涉及一种基于门控循环单元的视频预测方法，属于计算机领域。该方法包括以下步骤：1)数据处理。对收集的视频进行视频帧的提取；2)构建视频帧特征提取模型，该特征提取模型包括卷积神经网络、自动编码模块；3)搭建视频帧预测模型，输入待提取特征的视频，通过卷积神经网络和自动编码网络提取作为条件的连续视频帧的特征；4)将提取到的连续视频帧特征输入门控循环单元网络中进行后续连续视频帧的预测；5)以原始的视频帧和预测的视频帧进行损失计算，并对视频预测网络模型进行训练。与现有技术相比，本发明具有网络模型可以记住连续视频帧的时序特征和减少网络模型计算复杂度以及可以将帧解耦为前景和背景等优点。

Description

基于门控循环单元的视频预测方法

技术领域

本发明属于计算机领域，涉及基于门控循环单元的视频预测方法。

背景技术

视频预测是视觉智能中的高级任务，要求模型利用海量无标注自然数据去学习视频的内在表征。该任务通过机器学习模型，在视频质量改善、电影制作、视频监控、机器人决策、无人驾驶、视频理解等领域都有广泛的应用前景，因此近两年来得到快速发展，引起了国内外众多学者的研究兴趣。

目前，大部分学者主要使用深度学习方法来实现视频预测任务，最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征，再将视频特征送入预测对抗网络或自动编码网络去预测后续的视频帧。对于GAN,计算复杂度高，需要对预测器和鉴别器进行分别训练，同时GAN虽然可以预测清晰的内容，但是预测的内容于目标的相似度有很大的不同。对于AutoEncoder，可以预测和目标相近的内容，但是清晰度却比不上GAN。使用GRU可以减少计算复杂度，同时它可以解决长期记忆和反向传播中的梯度消失等问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于门控循环单元的视频预测方法。

为达到上述目的，本发明提供如下技术方案：

基于门控循环单元的视频预测方法，该方法包括以下步骤：

S1、数据处理阶段。使用构建视频数据处理模块，该模块将输入的各种格式视频根据输入的参数进行视频帧的提取；

S2、搭建视频特征提取模型，该视频特征提取模型使用卷积神经网络和视频特征自动编码网络。将待提取的视频输入视频特征提取模块，通过卷积神经网络和自动编码网络提取原始视频帧的相关特征；

S3、使用门控循环单元网络搭建视频预测模型。将提取的视频特征和原始的视频输入视频预测模型中，并对模型进行训练，让视频预测模型预测后续的视频帧；

S4、损失和参数优化。将预测的视频帧和对应的原始帧通过定义的损失函数进行损失计算，在通过反向传播进行参数和损失优化。直到优化到一定程度即损失值到达预期要求且不在继续下降时即可停止模型训练。

S5、可视化。将记录的损失函数通过画图来更直观的显示损失值的变化过程。将预测的视频帧也进行可视化，从视觉上来判断预测的视频帧是否到达预测要求。

可选的，所述的步骤S1具体包括：

S11、数据处理阶段需要借助多媒体处理工具FFMPEG，循环数据集中的每一个视频根据参数集ρ＝(I，R，F，S，O)进行视频帧的提取。其中I是视频所在路径，R表示每秒提取多少帧，F表示视频帧输出的格式，S表示视频帧输出的尺寸，O表示视频帧输出的路径。

S12、对提取到的视频帧数据集进行清洗，去除空帧、不清晰的帧等。再将数据进行加载，并对数据集进行打包和打乱等进一步操作。

可选的，所述的步骤S2具体包括：

S21、特征提取模块使用的是在提取特征和降维方面性能良好且不会发生权重爆炸的卷积AutoEncoder模型。在提取前景时使用的是VGG网络结构，该网络结构主要是由尺寸为3*3的卷积核的卷积神经网络和尺寸为2*2的池化核的最大池化层堆叠组成。背景提取使用的是残差网络结构，该网络有很多版本，特征提取中使用的是resnet50的残差网络。

S21、特征提取主要是提取可以表示输入视频的数字向量，特征提取模块使用卷积神经网络将输入的视频进行特征映射到特征值矩阵。特征值矩阵有两种，分别是128维的前景特征矩阵和10维的背景特征矩阵。

可选的，所述的步骤S3具体包括：

S31、使用循环神经网络中的门控循环单元网络来搭建视频预测网络，门控循环神经网络可以很好的解决网络反向传播中的梯度消失问题，所以GRU可以长期记忆输入数据的时序特征。对于GRU，是通过两个门控系统-重置门和更新门来对隐藏状态和输入数据进行控制。对于第一个GRU，在第i步时间，其第一GRU的隐藏层

的计算式为：

其中，x_i为第i时间步视频特征序列中的元素，

为第一GRU的第i-1时间步的隐藏层，GRU₁(*)表示第一门控循环控制单元。

根据权利一所述的一种基于门控循环单元的视频预测方法，其特征在于，所述的预测模块包括依次连接的第二个GRU对于第二个GRU和全连接网络。对于第二个GRU，其计算式为：

其中

为上一GRU在时间步i的输出信息，

为第二GRU的i-1时间步的隐藏层，

为第二个GRU的初始隐藏层，GRU₂(*)为第二个门控循环单元网络。

对于全连接层，其计算式为：

O＝tanh(W^f.h)

其中W^f为全连接层的权重矩阵，h为GRU的最终输出，tanh(*)是一种激活函数，将输入的值映射在[-1，1]之间。

可选的，所述的步骤S4具体包括：

S41、初始化模型的学习率，并使每轮训练的学习率递减，使用均方差损失函数对视频预测模型进行M轮优化；

S42、使用峰值信噪比和结构相似性度量方法来评估模型，其中PSNR的计算式为：

其中，MSE是生成帧和原始帧的均方差，MAX为生成帧的像素灰度值的最大值。

SSIM的计算式为：

其中，μ_R、μ_G分别为R和G的像素灰度值均值，σ_R、σ_G分别为R和G的像素灰度值的标准差，σ_RG表示R和G像素灰度值协方差，C1、C2为超参数，为了防止除数为0。

本发明的有益效果在于：

(1)设计出基于循环神经网络的视频预测方法，能够有效的保持视频的时序关系；

(2)设计出基于GRU的视频预测方法可以减少计算复杂度，节省网络计算时间；

(3)设计出基于GRU的视频预测方法可以很好的解决模型在训练过程中反向传播的梯度消失问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于门控循环单元的顺序执行图；

图2为门控循环单元的内部结构图；

图3为门控循环单元模型结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1～3所示，为基于门控循环单元的视频预测方法。

实施实例1

本实例中的数据集是Moving MNIST数据集，该数据集一共包含60000个训练样本和10000的测试样本。将视频中的前十帧输入到卷积Auto Encoder模型中，训练好的Encoder对视频进行特征提取，输出128维的前景特征矩阵和10维的背景特征矩阵。将提取的前景和背景特征进行拼接之后按X＝[x₁，x₂，...，x_k]的时间顺序输入第一个GRU(GRU₁)中。在时间i步，隐藏层

的计算式为：

其中，RGU内部的时间方式为：

r_t＝δ(W_irx_t+b_ir+W_hrh_t-1+b_hr)

z_t＝δ(W_izx_t+b_iz+W_hzh_t-1+b_hz)

n_t＝tanh(W_inx_t+b_in+r_t*(W_hnh_t-1+b_hn))

h_t＝(1-z_t)*n_t+z_t*h_t-1

其中r_t表示GRU的重置门，z_t表示GRU的更新门。

生成模块依次连接的第二个GRU(GRU2)、全连接网络。生成时间步i时的视频帧时，包括步骤：

将输出输入全连接层：

O＝tanh(W^f.h)

本实例中使用均方差损失函数对视频预测模型进行M轮训练，学习率lr初始化为5e-4。均方差损失函数具体表示为：

使用峰值信噪比和结构相似性度量方法来评估模型，其中PSNR的计算式为：

SSIM的计算式为：

实施实例2

本实例中使用的是KTH视频数据集，其中包含拳击、拍手、挥手、慢跑、跑、走路等六种动作。使用多媒体处理工具FFMPEG对KTH视频数据集进行按25帧/秒提取大小为128*128的视频帧，再将处理得到的视频数据划分为训练集、测试集。

特征提取。使用训练好的卷积Auto Encoder模型的中Encoder进行视频的特征提取主，特征提取模块将输出128维的前景特征矩阵和10维的背景特征矩阵。

将提取的视频特征和原始的视频输入视频预测模型中，并对模型进行训练，让视频预测模型预测后续的视频帧；

损失和参数优化。将预测的视频帧和对应的原始帧通过定义的损失函数进行损失计算，在通过反向传播进行参数和损失优化。直到优化到一定程度即损失值到达预期要求且不在继续下降时即可停止模型训练。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于门控循环单元的视频预测方法，其特征在于：该方法包括以下步骤：

S1、数据处理阶段；使用构建视频数据处理模块，该模块将输入的各种格式视频根据输入的参数进行视频帧的提取；

S2、搭建视频特征提取模型，该视频特征提取模型使用卷积神经网络和视频特征自动编码网络；将待提取的视频输入视频特征提取模块，通过卷积神经网络和自动编码网络提取原始视频帧的相关特征；

S3、使用门控循环单元网络搭建视频预测模型；将提取的视频特征和原始的视频输入视频预测模型中，并对模型进行训练，让视频预测模型预测后续的视频帧；

S4、损失和参数优化；将预测的视频帧和对应的原始帧通过定义的损失函数进行损失计算，在通过反向传播进行参数和损失优化；直到优化到一定程度即损失值到达预期要求且不在继续下降时即停止模型训练；

S5、可视化；将记录的损失函数通过画图来更直观的显示损失值的变化过程；将预测的视频帧也进行可视化，从视觉上来判断预测的视频帧是否到达预测要求。

2.根据权利要求1所述的基于门控循环单元的视频预测方法，其特征在于：所述的步骤S1具体包括：

S11、数据处理阶段需要借助多媒体处理工具FFMPEG，循环数据集中的每一个视频根据参数集ρ＝(I，R，F，S，O)进行视频帧的提取；其中I是视频所在路径，R表示每秒提取多少帧，F表示视频帧输出的格式，S表示视频帧输出的尺寸，O表示视频帧输出的路径；

S12、对提取到的视频帧数据集进行清洗，去除空帧和不清晰的帧；再将数据进行加载，并对数据集进行打包和打乱进一步操作。

3.根据权利要求1所述的基于门控循环单元的视频预测方法，其特征在于：所述的步骤S2具体包括：

S21、特征提取模块使用的是在提取特征和降维方面性能良好且不会发生权重爆炸的卷积Auto Encoder模型；在提取前景时使用的是VGG网络结构，该网络结构由尺寸为3*3的卷积核的卷积神经网络和尺寸为2*2的池化核的最大池化层堆叠组成；背景提取使用的是残差网络结构，该网络有很多版本，特征提取中使用的是resnet50的残差网络；

S21、特征提取提取表示输入视频的数字向量，特征提取模块使用卷积神经网络将输入的视频进行特征映射到特征值矩阵；特征值矩阵有两种，分别是128维的前景特征矩阵和10维的背景特征矩阵。

4.根据权利要求1所述的基于门控循环单元的视频预测方法，其特征在于：所述的步骤S3具体包括：

S31、使用循环神经网络中的门控循环单元网络来搭建视频预测网络，对于GRU，是通过两个门控系统-重置门和更新门来对隐藏状态和输入数据进行控制；对于第一个GRU，在第i步时间，其第一GRU的隐藏层