CN108830812B

CN108830812B - 一种基于网格结构深度学习的视频高帧率重制方法

Info

Publication number: CN108830812B
Application number: CN201810601639.3A
Authority: CN
Inventors: 刘文哲; 李�根; 童同; 高钦泉
Original assignee: Fujian Imperial Vision Information Technology Co ltd
Current assignee: Fujian Imperial Vision Information Technology Co ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2021-08-31
Anticipated expiration: 2038-06-12
Also published as: CN108830812A

Abstract

本发明公开一种基于网格结构深度学习的视频高帧率重制方法，采用网格结构的方式估计到的三维像素流能够在各种运动量的运动场景中得到较为精准的结果。本发明的方法比现有的技术都更加鲁棒。为了进一步提高三维像素流的精度和高帧率重制的效果，本发明提出了一种卷积特征提取层与网格网络结构组合的方式。采用本发明的方法得到的高帧率重制的结果比其他现有技术，在合成帧的细节纹理更加细腻真实。

Description

一种基于网格结构深度学习的视频高帧率重制方法

技术领域

本发明涉及视频高帧率重制领域，尤其涉及一种基于网格结构深度学习的视频高帧率重制方法。

背景技术

视频高帧率重制是利用视频序列中的相邻帧的视频图像信息来估计其中间的关键帧，属于一个经典的图像处理问题。一般来说，视频高帧率重制算法可分为内插帧和外插帧。前者是利用连续两帧图像的信息来估计中间的关键帧；后者是利用视频序列中连续两帧视频图像信息来估计前一帧或者后一帧。

根据视频序列中的连续的视频图像信息，视频高帧率重制算法是合理地利用视频图像内容变化连续性和线性或非线性关系，估计出其中间的关键视频图像的方法。随着相关研究的深入进行，该算法已被广泛地应用于多个场景之中。比如，为了降低视频传输的数据量和节约带宽，可以先在传输前端有效地丢弃视频图像，随后在接收终端设备利用视频高帧率重制算法生成其对应的丢失帧，从而播放时达到比较流畅的视频画面。另外，因拍摄设备的硬件性能的限制，无法正常地拍摄运动量过于快的运动场景，从而导致视频图像失真或者模糊。因此，很多视频编辑软件将把产生运动模糊的视频图像进行高帧率重制的方式去除运动模糊，也能制作视频慢动作特效。

传统的视频高帧率重制算法通常先利用视频图像间的光流估计，然后利用光流变化信息对前、后帧视频图像进行扭曲变换，从而得到合成帧。Amersfoort J V等人提出了一种基于多尺度粗细光流估计网络的视频高帧率重制算法。通过该算法是合成效果依赖于光流估计的准确精度^[1]。一般情况下，在运动量比较大的场景中，很难提高光流估计的精准。为了减少光流的估计影响，Niklaus S等人提出了利用多个空域自适应卷积核对输入视频帧进行卷积操作，进而合成出中间帧^[2]的方法，该算法简化了高帧率重制的计算过程。虽然该算法提高了高帧率重制算法的性能，但是捕捉大运动量的信息需要较大的卷积核，因此，需要更大的内存空间。Mathieu M等人提出了一种基于多尺度卷积神经网络的端对端高帧率重制算法^[3]。Liu Z等人提出了一种基于编码器-解码器网络结构估计时间和空间的三维像素流信息，然后通过该像素流对视频图像进行重采样获得更加自然的中间帧^[4]。

虽然相关研究已经能够较好地对视频进行高帧率重制，但是还是存在一些问题。基于光流估计的高帧率重制算法对于具有运动模糊，快速运动的视频场景，很难估计到一个很精确的光流。此外，空域自适应卷积法对于具有遮挡物的视频场景，其表现性能不尽如人意，其合成结果通常会是模糊和错乱的。

由于利用编码器-解码器网络结构估计到的三维像素流不够精准，本发明借鉴了Fourure D等人网格网络的思想^[6]，提出了一个基于网格网络结构的三维像素流的估计方法。网格网络的结构能够使得不同分辨率的信息流相互连接，更好地学习不同尺度下的运动情况，从而得到一个更精准的三维像素流。

发明内容

本发明的目的在于提供一种基于网格结构深度学习的视频高帧率重制方法，显著的提高了合成帧的质量和效果。

本发明采用的技术方案是：

一种基于网格结构深度学习的视频高帧率重制方法，其包括如下步骤：

步骤1，把原始的图像先统一设置为H*W的大小，然后将图像归一化到[-1,1]区间内，最终形成包含N个图像的配对集

其中c∈{1,2,…,N}，H为图像高度，W为图像宽度，

和

分别是t时刻的前一帧和后一帧，

是t时刻的当前帧。

步骤2，将图像

和

分别执行初始阶段、特征提取阶段、特征融合阶段、三维像素流估计阶段、重采样阶段，最终获得一帧和

类似的图像；

所述步骤2具体包括以下步骤：

步骤2.1，初始阶段：将输入的图像

和

分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果

和

其计算公式是：

其中W₁和b₁分别是本发明的第一层网络的卷积权值参数和偏置参数，β是激活函数的调整系数；

步骤2.2，特征提取阶段：将初始阶段得到的特征

和

和

其计算公式是：

其中W₂和b₂分别是本发明的第二层网络的卷积权值参数和偏置参数，β是激活函数的调整系数；

步骤2.3，特征融合阶段：将特征提取阶段得到的两个特征

和

进行1次堆叠操作，其计算公式是：

步骤2.4，三维像素流估计阶段：将融合特征F₃作为输入特征F_i输入到网格网络中进行三维像素流估计，输入特征F_i经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后，得到估计到的三维像素流V；其计算公式如下：

V＝G(F_i) (10)

其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络；

进一步地，网格网络包括一输入横向卷积组、一输出横向卷积组、第一横向卷积组群、第二横向卷积组群和第三横向卷积组群，输入横向卷积组的输出端连接第一横向卷积组群的输入端，第一横向卷积组群的输出端连接输出横向卷积组，第一横向卷积组群、第二横向卷积组群和第三横向卷积组群均包括依次连接的5个横向卷积组，第一横向卷积组群的前三个横向卷积组的输入端分别通过依次连接的两个下采样卷积组一一对应输出至第三横向卷积组群的前三个横向卷积组的输入端，第三横向卷积组群的后三个横向卷积组的输出端分别各自通过依次连接的两个上采样卷积组一一对应输出至第一横向卷积组群的后三个横向卷积组的输出端，联通第一横向卷积组群的第一个横向卷积组输入端和第三横向卷积组群的第一个横向卷积组输入端的第一个下采样卷积组的输出端与第二横向卷积组群的输入端连接，联通第三横向卷积组群的最后一个横向卷积组输出端和第一横向卷积组群的最后一个横向卷积组输出端的第一个上采样卷积组的输出端与第二横向卷积组群的输出端连接。

进一步地，步骤2.4具体包括以下步骤：

步骤2.4.1，横向卷积组操作：将输入特征F_i进行2次激活函数运算和2次卷积运算，得到其对应的输出结果G_i+1，其计算公式是：

其中

和

分别是横向卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数，

和

分别是横向卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数，β是激活函数的调整系数；

步骤2.4.2，上采样卷积组操作：将输入特征F_i进行1次双线性插值，2次激活函数运算和2次卷积运算，得到其对应的输出结果R_i+2，其计算公式是：

R_i＝f(F_i) (6)

其中f是双线性插值，

和

分别是上采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数，

和

分别是上采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数，β是激活函数的调整系数；

步骤2.4.3，下采样卷积组操作：将输入特征F_i进行2次激活函数运算和2次卷积运算，得到其对应的输出结果S_i+1，其计算公式是：

其中

和

分别是下采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数(其中卷积的步长为2)，

和

分别是下采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数，β是激活函数的调整系数；

步骤2.4.4，网格网络操作：输入特征F_i经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后，得到估计到的三维像素流V。横向卷积组、下采样卷积组和上采样卷积组的操作如图2所示，最终呈现的是一个网格的结构。计算公式如下：

V＝G(F_i) (11)

其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络。

步骤2.5，重采样阶段：用三维像素流估计阶段得到的像素流V(V＝{Δx,Δy,Δz})对输入图像

和

进行重采样，得到插值的图像

其计算公式是：

其中，

代表图像

像素的x坐标，

代表图像

像素的y坐标，L代表的是双线性采样。

步骤3，将插值的图像

与真实的图像

进行比较，计算两幅图像之间的欧式距离；

步骤4，基于计算的欧式距离不断更新并优化获得最优的卷积权值参数和偏置参数；

当插值的图像

与其对应的原始图像

进行比较时没有获得预先设定的合成效果，则继续进行反向传播，利用梯度下降优化算法更新卷积权值参数和偏置参数，再执行步骤2-3；

当插值的图像

与其对应的原始图像

进行比较时已经获得预先设定的合成效果时，则停止反向传播，并最终求得步骤2所获得的卷积权值参数和偏置参数。

本发明采用以上技术方案，采用网格结构的方式估计到的三维像素流能够在各种运动量的运动场景中得到较为精准的结果。本发明的方法比现有的技术都更加鲁棒。为了进一步提高三维像素流的精度和高帧率重制的效果，本发明提出了一种卷积特征提取层与网格网络结构组合的方式。采用本发明的方法得到的高帧率重制的结果比其他现有技术，在合成帧的细节纹理更加细腻真实。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种基于网格结构深度学习的视频高帧率重制方法的原理示意图；

图2为本发明与现有视频高帧率重制技术在小运动量视频上处理的效果比较图；

图3为本发明与现有视频高帧率重制技术在中运动量视频上处理的效果比较图；

图4为本发明与现有视频高帧率重制技术在大运动量视频上处理的效果比较图。

具体实施方式

如图1-4之一所示，本发明公开了一种基于网格结构深度学习的视频高帧率重制方法，其分为以下几个步骤：

步骤0，训练数据库的图像挑选。本专利的训练数据集是采用UCF-101动作数据集^[5]，其涵盖了大约1万多个动作视频。我们将视频进行随机采样，选择高质量的并且具有明显运动量的视频帧(本发明的选择标准是认为PSNR大于35的为高质量图像)。最终选取24000组视频帧，每组由连续的三个图像组成。

步骤1，训练数据库的制作，将挑选好的训练数据的图像大小进行重新设置。把原始的图像先统一设置为H*W的大小，然后将图像归一化到[-1,1]区间内，最终形成包含N个图像的配对集

其中c∈{1,2,…,N}，H为图像高度，W为图像宽度，

和

分别是t时刻的前一帧和后一帧，

是t时刻的当前帧。

具体地，将图像高度H和图像宽度W统一设置为256*256的大小。

步骤2，将图像

和

类似的图像；

所述步骤2具体包括以下步骤：

步骤2.1，初始阶段：将输入的图像

和

和

其计算公式是：

其中W₁和b₁分别是本发明的第一层网络的卷积权值参数和偏置参数，β是激活函数的调整系数；这里的β是使用同一参数，一旦确定，皆使用这个值。

步骤2.2，特征提取阶段：将初始阶段得到的特征

和

和

其计算公式是：

步骤2.3，特征融合阶段：将特征提取阶段得到的两个特征

和

进行1次堆叠操作，其计算公式是：

步骤2.4，三维像素流估计阶段：将融合的特征输入到网格网络中，其具体步骤如下：

其中

和

和

R_i＝f(F_i) (6)

其中f是双线性插值，

和

和

其中

和

和

分别是下采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数，β是激活函数的调整系数；这里的β是使用同一参数，一旦确定，皆使用这个值。

V＝G(F_i) (10)

和

进行重采样，得到插值的图像

其计算公式是：

其中，

代表图像

像素的x坐标，

代表图像

像素的y坐标，L代表的是双线性采样。

步骤3，将插值的图像

与真实的图像

进行比较，计算两幅图像之间的欧式距离；

当插值的图像

与其对应的原始图像

当插值的图像

与其对应的原始图像

为了验证本发明的有效性，采用UCF-101动作数据集^[5]进行实验。该测试数据集包含400组图像对。本发明得到的视频高帧率重制效果与一些现有最新技术VoxelFlow^[4]进行比较。

本发明采用峰值信噪比(PSNR:Peak Signal to Noise Ratio)来衡量视频高帧率重制的性能。

高帧率重制算法	VoxelFlow	本发明(无特征提取层)	本发明
				PSNR	36.071	36.152	36.261

表1本发明与现有技术在UCF-101测试数据集的PSNR平均值比较

从表1中可以看出，本发明比现有技术中VoxelFlow的PSNR值提高了将近0.2dB。另外，从表1的最后两列可以看出，本发明采用的特征层面的融合方法比直接在原图像上融合的方法能估计提高了0.11dB。

从图2-4之一所示，的高帧率重制效果图也可以得出和表1的PSNR值所反映出来的一样的结论。图2展示的是三种算法在小运动量视频上处理后的效果图，由局部细节放大图可以看出，这三种方法对于小运动量的视频都能有较好的处理结果，但是从细节可以看出，本发明处理的效果更接近于原始中间帧的细节。图3展示的是三种算法在中运动量视频上处理后的效果图，

VoxelFlow对于中运动量的视频三维像素流估计不精准，因此导致合成的中间帧在运动细节上和真实中间帧有较大的出入。利用原始像素值进行估计三维像素流的效果不如利用高维卷积特征进行估计的效果来得好。通过卷积特征估计到的三维像素流合成出的结果在边缘轮廓上和真实中间帧的边缘轮廓更加相似，而利用原始像素值估计到的三维像素流合成的结果会出现一些模糊和多余的轮廓。图4展示的是三种算法在大运动量视频上处理后的效果图，Voxel Flow的方法无法胜任此类视频的操作，由图4可以看出，重制后的中间帧出现明显的失真现象；同时，采用本发明的无特征融合估计的三维像素流方法也会出现轻微模糊的现象。但是，基于卷积特征估计的三维像素流的方法在大运动量的视频上仍能得到与原始中间帧类似的结果。通过以上分析可以发现，本发明在存在不同尺度运动量的视频上都能够取得较为理想的重制效果。

本发明提出的基于网格结构深度学习的视频高帧率重制方法的创新性主要体现在两个方面：第一，本发明采用网格结构的方式估计到的三维像素流能够在各种运动量的运动场景中得到较为精准的结果。通过实验证明，本发明的方法比现有的技术都更加鲁棒。第二，为了进一步提高三维像素流的精度和高帧率重制的效果，本发明提出了一种卷积特征提取层与网格网络结构组合的方式。通过实验证明，采用本发明的方法得到的高帧率重制的结果比其他现有技术，在合成帧的细节纹理更加细腻真实。

[1]Amersfoort J V,Shi W,Acosta A,et al.Frame Interpolation withMulti-Scale Deep Loss Functions and Generative Adversarial Networks[J].2017.

[2]Niklaus S,Mai L,Liu F.Video Frame Interpolation via AdaptiveConvolution[J].2017:2270-2279.

[3]Mathieu M,Couprie C,Lecun Y.Deep multi-scale video predictionbeyond mean square error[C]//ICLR.2016.

[4]Liu Z,Yeh R A,Tang X,et al.Video Frame Synthesis Using Deep VoxelFlow[C]//IEEE International Conference on Computer Vision.IEEE ComputerSociety,2017:4473-4481.

[5]Soomro K,Zamir A R,Shah M.UCF101:A Dataset of 101Human ActionsClasses From Videos in The Wild[J].Computer Science,2012.

[6]Fourure D,Emonet R,Fromont E,et al.Residual Conv-Deconv GridNetwork for Semantic Segmentation[J].2017.

Claims

1.一种基于网格结构深度学习的视频高帧率重制方法，其特征在于：其包括如下步骤：

其中c∈{1,2,…,N}，H为图像高度，W为图像宽度，

和

分别是t时刻的前一帧和后一帧，

是t时刻的当前帧；

步骤2，将图像

和

分别执行初始阶段、特征提取阶段、特征融合阶段、三维像素流估计阶段、重采样阶段，获得一帧

的插值图像

所述步骤2具体包括以下步骤：

步骤2.1，初始阶段：将输入的图像

和

和

其计算公式是：

其中W₁和b₁分别是第一层网络的卷积权值参数和偏置参数，β是激活函数的调整系数；

步骤2.2，特征提取阶段：将初始阶段得到的特征

和

和

其计算公式是：

其中W₂和b₂分别是第二层网络的卷积权值参数和偏置参数，β是激活函数的调整系数；

步骤2.3，特征融合阶段：将特征提取阶段得到的两个特征

和

进行1次堆叠操作得到融合特征F₃，其计算公式是：

步骤2.4，三维像素流估计阶段：将融合特征F₃作为输入特征F_i输入到网格网络中进行三维像素流估计，网格网络包括一输入横向卷积组、一输出横向卷积组、第一横向卷积组群、第二横向卷积组群和第三横向卷积组群，输入横向卷积组的输出端连接第一横向卷积组群的输入端，第一横向卷积组群的输出端连接输出横向卷积组，第一横向卷积组群、第二横向卷积组群和第三横向卷积组群均包括依次连接的5个横向卷积组，第一横向卷积组群的前三个横向卷积组的输入端分别通过依次连接的两个下采样卷积组一一对应输出至第三横向卷积组群的前三个横向卷积组的输入端，第三横向卷积组群的后三个横向卷积组的输出端分别各自通过依次连接的两个上采样卷积组一一对应输出至第一横向卷积组群的后三个横向卷积组的输出端，联通第一横向卷积组群的第一个横向卷积组输入端和第三横向卷积组群的第一个横向卷积组输入端的第一个下采样卷积组的输出端与第二横向卷积组群的输入端连接，联通第三横向卷积组群的最后一个横向卷积组输出端和第一横向卷积组群的最后一个横向卷积组输出端的第一个上采样卷积组的输出端与第二横向卷积组群的输出端连接；输入特征F_i经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后，得到估计到的三维像素流V；其计算公式如下：

V＝G(F_i) (10)

步骤2.5，重采样阶段：用三维像素流估计阶段得到的像素流V，V＝{Δx,Δy,Δz}；对输入图像