CN108184128A

CN108184128A - 基于深度神经网络的视频序列丢失帧预测恢复方法

Info

Publication number: CN108184128A
Application number: CN201810027925.3A
Authority: CN
Inventors: 李泽瑞; 杨钰潇; 杜晓冬; 吕文君
Original assignee: Anhui Youth Tiancheng Technology Co Ltd
Current assignee: Anhui Youth Tiancheng Technology Co Ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-06-19

Abstract

本发明提供的基于深度神经网络的视频序列丢失帧预测恢复方法，运用深度学习相关理论，利用深度卷积网络自动抽取图像特征以及LSTM长短时记忆网络对时间序列的记忆学习能力，用固定数量的视频帧图像数据作为训练样本训练该网络，进而进行视频序列中丢失帧的恢复预测，本发明极大程度上利用了视频帧图像的内在特征以及帧间图像的相似性与连贯性，提高了预测精度与效率，同时具有较强的泛化能力，具有一定的社会价值和现实意义。

Description

基于深度神经网络的视频序列丢失帧预测恢复方法

技术领域

本发明属于视频处理技术领域，涉及一种视频序列丢失帧预测恢复方法，具体是一种基于深度神经网络的视频序列丢失帧预测恢复方法

背景技术

视频往往需要传输，比如浏览在线视频以及监控图像的传输。实际情况中，由于受传输条件，视频的传输有时候会伴随着帧的丢失，为了提高得到视频的质量，往往会寻求一些办法来利用未丢失的帧来对这些丢失帧进行恢复重建。

现有的丢失帧恢复方法，大多利用高斯函数、光流、运动矢量等传统方法，以像素块为单位进行丢失帧的恢复预测，计算量大且像素块的选择需要人为选取，影响丢失帧的恢复准确度。

发明内容

本发明针对现有技术的不足，提供了一种基于深度神经网络的视频序列丢失帧预测恢复方法，利用深度学习方法强大的数据非线性逼近能力和自学习能力，准确预测视频传输过程中丢失帧的图像。

本发明的目的可以通过以下技术方案实现：

基于深度神经网络的视频序列丢失帧预测恢复方法，具体包括以下步骤：

步骤S1，收集视频序列中预定数量的连续视频帧图像，构造数据集；

步骤S2，构造基于卷积编码解码器的LSTM深度神经网络结构；

步骤S3，根据步骤S1构造的数据集，构造基于LSTM的深度神经网络结构的训练数据集、验证数据集和测试数据集；

步骤S4，将步骤S3中的训练数据集送入步骤S2中构造的基于卷积编码解码器的LSTM深度神经网络结构中，进行网络训练，然后采用步骤S3中的验证数据集和测试数据集对训练所得的参数进行调整，逐步提高预测精度；

步骤S5，将经过步骤S4中网络训练、验证、测试后的基于卷积编码解码器的LSTM深度神经网络结构作为视频序列丢失帧的预测恢复模型，将位于丢失帧之前的视频帧图像，输入基于卷积编码解码器的LSTM深度神经网络中，经过模型对输入数据的自主学习，最终可得到该丢失帧的预测恢复图像。

进一步地，所述步骤S1中将收集的连续视频帧图像的数目定为X，将每组视频帧的前X-1帧图像作为未丢失的视频帧，第X帧作为丢失帧，每个X帧图像相关的视频帧组合作为一个样本，共采集Y个样本。

进一步地，所述步骤S2中的基于卷积编码解码器的LSTM深度神经网络结构包括Encoder编码器、LSTM预测恢复层、Decoder解码器和skip-layer跨层结构四部分；

所述编码器Encoder对输入数据进行数据编码，输出到LSTM预测恢复层；

所述LSTM预测恢复层包含一层由长短时记忆单元组成的网络，输出预测的数据；

所述解码器Decoder对LSTM预测恢复层输出的数据进行数据解码；

所述skip-layer跨层结构作为编码器Encoder与解码器Decoder对应层间的连接通道。

进一步地，所述编码器Encoder包括M层卷积层和N层全连接层；

所述解码器Decoder与编码器Encoder的结构相对应，所述解码器Decoder首先是有N个矩阵变换层，之后是M个卷积层，按编码器Encoder从后向前的顺序依次排列；

所述解码器Decoder各卷积层的卷积核与编码器Encoder对应卷积层的卷积核相同。

进一步地，所述编码器Encoder第一个卷积层的输出与解码器Decoder最后一个卷积层的输入相连，所述编码器Encoder第二个卷积层的输出与解码器Decoder倒数第二个卷积层的输入相连，以此类推，所述编码器Encoder卷积层的输出分别汇入对应解码器Decoder卷积层的输入。

进一步地，所述步骤S3中，将数据集中的视频帧图像分为训练数据集、验证数据集和测试数据集三个数据集，三部分数据所占比例依次为P、Q、R，分别用于基于卷积编码解码器的LSTM深度神经网络的训练、验证和测试。

本发明的有益效果：本发明提供的基于深度神经网络的视频序列丢失帧预测恢复方法，运用深度学习相关理论，利用深度卷积网络自动抽取图像特征以及LSTM长短时记忆网络对时间序列的记忆学习能力，用固定数量的视频帧图像数据作为训练样本训练该网络，进而进行视频序列中丢失帧的恢复预测，本发明极大程度上利用了视频帧图像的内在特征以及帧间图像的相似性与连贯性，提高了预测精度与效率，同时具有较强的泛化能力，具有一定的社会价值和现实意义。

附图说明

图1是本发明的方法流程图。

图2是本发明基于卷积编码解码器的LSTM深度神经网络示意图。

图3是本发明Encoder编码器的示意图。

图4是本发明Decoder解码器的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于深度神经网络的视频序列丢失帧预测恢复方法，具体包括以下步骤：

步骤S1，收集视频序列中预定数量的连续视频帧图像，构造数据集。

其中，由于丢失帧的图像仅与其之前的少量视频帧图像相关，且距离越远关联性越小，所以本发明将收集的连续视频帧图像的数目定为X，将每组视频帧的前X-1帧图像作为未丢失的视频帧，第X帧作为丢失帧，每个X帧图像相关的视频帧组合作为一个样本，共采集Y个样本，优选的，X＝6，Y＝200000。

步骤S2，构造基于卷积编码解码器的LSTM深度神经网络结构。

其中，如图2所示，基于卷积编码解码器的LSTM深度神经网络结构包括Encoder编码器、LSTM预测恢复层、Decoder解码器和skip-layer跨层结构四部分。

其中，由深度卷积神经网络构成的编码器Encoder：如图3所示，随输入数据进行数据编码，输出到LSTM预测恢复层。编码器Encoder采用VGG19的部分网络结构，原VGG19总共19层，包括16层卷积层和3层全连接层，本发明采用其前16个卷积层和两层全连接层组成的网络结构。

其中，LSTM预测恢复层：包含一层由长短时记忆单元组成的网络，输出预测的数据。

其中，由深度反卷积神经网络构成的解码器Decoder：与编码器Encoder的结构相对应，对LSTM预测恢复层输出的数据进行数据解码。如图4所示，解码器Decoder首先是有两个矩阵变换层，之后是16个卷积层，按编码器Encoder从后向前的顺序依次排列，各卷积层的卷积核与编码器Encoder对应卷积层的卷积核相同。

其中，skip-layer跨层结构：是指编码器Encoder与解码器Decoder对应层间有直接的通道相连，即编码器Encoder第一个卷积层的输出与解码器Decoder最后一个卷积层的输入相连，编码器Encoder第二个卷积层的输出与解码器Decoder倒数第二个卷积层的输入相连，以此类推，编码器Encoder三个卷积层的输出分别汇入对应解码器Decoder三个卷积层的输入，这样的skip-layer跨层结构可以保留原始数据未被提取的特征，增加还原精确度，提高预测的准确性。

步骤S3，根据步骤S1构造的数据集，构造基于LSTM的深度神经网络结构的训练数据集、验证数据集和测试数据集。

根据步骤S1中构造的数据集，将所采集的数据分为训练、验证和测试三个数据集，三部分数据所占比例依次为P、Q、R，分别用于基于卷积编码解码器的LSTM深度神经网络的训练、验证和测试，优选P＝70％、Q＝10％、R＝20％。

步骤S4，将步骤S3中的训练数据集送入步骤S2中构造的基于卷积编码解码器的LSTM深度神经网络结构中，进行网络训练，然后采用步骤S3中的验证数据集和测试数据集对训练所得的参数进行调整，逐步提高预测精度。

步骤S4中，训练卷积神经网络时，首先要对卷积神经网络中的参数初始化，卷积层的卷积核用标准差为0.01的高斯函数初始化，偏置初始化为0；训练中采用随机梯度下降法，学习速率取0.001，权重衰减取0.0005，mini-batches大小为32。

训练LSTM网络时，同样使用随机梯度下降法，初始学习速率为10^-4，权重衰减取0.0005，mini-batches大小为32，反向传播的时间步长为40时间步，即每40K次迭代后学习速率除以10。微调在120K次迭代后停止。在训练的每一步过程中，依据交叉熵(crossentropy)准则计算误差向量，根据标准反向传播算法更新权重：

e(t)＝y(t)-y₀(t)

其中e(t)为误差值，y(t)为预测值，y₀(t)为实际真实值。

步骤S4中，训练数据集中的视频帧序列作为训练输入，验证数据集在网络训练的过程中每迭代1000次进行一次验证，最终比较test loss和train loss。当test loss不再降低时，终止网络训练，标志着用于视频序列丢失帧预测恢复的基于卷积编码解码器的LSTM深度神经网络训练完成。上述训练过程中，所有训练参数的取值均为优选值，可根据实际情况进行调整。

步骤S4中，测试数据集中的视频帧图像在基于卷积编码解码器的LSTM深度神经网络训练完成后进行输入，输出得预测的下一帧的图像，查看该结果与实际下一视频帧的差距，进而对神经网络中的参数进行调整，逐步提高预测精度。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.基于深度神经网络的视频序列丢失帧预测恢复方法，其特征在于，具体包括以下步骤：

步骤S2，构造基于卷积编码解码器的LSTM深度神经网络结构；

2.根据权利要求1所述的基于深度神经网络的视频序列丢失帧预测恢复方法，其特征在于，所述步骤S1中将收集的连续视频帧图像的数目定为X，将每组视频帧的前X-1帧图像作为未丢失的视频帧，第X帧作为丢失帧，每个X帧图像相关的视频帧组合作为一个样本，共采集Y个样本。

3.根据权利要求1所述的基于深度神经网络的视频序列丢失帧预测恢复方法，其特征在于，所述步骤S2中的基于卷积编码解码器的LSTM深度神经网络结构包括Encoder编码器、LSTM预测恢复层、Decoder解码器和skip-layer跨层结构四部分；

4.根据权利要求3所述的基于深度神经网络的视频序列丢失帧预测恢复方法，其特征在于，所述编码器Encoder包括M层卷积层和N层全连接层；

5.根据权利要求4所述的基于深度神经网络的视频序列丢失帧预测恢复方法，其特征在于，所述编码器Encoder第一个卷积层的输出与解码器Decoder最后一个卷积层的输入相连，所述编码器Encoder第二个卷积层的输出与解码器Decoder倒数第二个卷积层的输入相连，以此类推，所述编码器Encoder卷积层的输出分别汇入对应解码器Decoder卷积层的输入。

6.根据权利要求1所述的基于深度神经网络的视频序列丢失帧预测恢复方法，其特征在于，所述步骤S3中，将数据集中的视频帧图像分为训练数据集、验证数据集和测试数据集三个数据集，三部分数据所占比例依次为P、Q、R，分别用于基于卷积编码解码器的LSTM深度神经网络的训练、验证和测试。