CN109151474A

CN109151474A - 一种生成新视频帧的方法

Info

Publication number: CN109151474A
Application number: CN201810969162.4A
Authority: CN
Inventors: 颜波; 林楚铭; 谭伟敏; 马晨曦
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-01-04
Anticipated expiration: 2038-08-23
Also published as: CN109151474B

Abstract

本发明属于视频编辑技术领域，具体为一种生成新视频帧的方法。本发明方法利用视频前后帧之间的光流估计新生成的中间帧到视频前后帧之间的光流，并根据该光流值对前后帧进行相应逆插值处理生成新的中间视频帧。本发明使用视频前后帧之间的关联性结合多尺度的框架，从粗到细地预测新的视频帧。实验结果表明，本方法不仅生成了较高质量的中间视频帧，还保持了新视频的时间连贯性，达到快速的几乎实时的处理效果，因此相较于传统的视频插帧方法，本发明具有更现实的应用价值及更丰富的研究意义。

Description

一种生成新视频帧的方法

技术领域

本发明属于视频编辑技术领域，涉及一种视频插帧方法。

背景技术

传统的视频插帧技术基本是作为视频质量增强技术的研究分支。它是一门具有较高科学研究价值及较为广泛应用领域的现代视频处理技术。

视频帧数是衡量视频质量的重要指标，视频的帧数越多，视频包含的信息量越多，观看效果越平滑稳定。因此具有更多帧数的视频在各个领域都有着重要的应用及科研价值。但由于视频在采集、存储、传输过程中的条件限制，导致无法获得具有更多帧数的视频片段，通常获取具有更多帧视频的摄像设备成本很高，也占据大量内存，传输这样的视频更是浪费大量资源，因此在实际情况中许多应用并没有条件直接获取并利用原始的具有大量帧数的视频。

而视频插帧技术正是针对这一问题，采用了基于信号处理的方法来恢复视频中间帧，增加视频帧数，是一种有效提高视频性能、缓解现实困难的途径。并且该方法成本低，速度快，因此对高效的视频插帧技术的研究显得具有十分重要的现实意义。目前，通过从原始具有较少帧数的视频中生成更多新的视频帧的视频插帧技术在许多视频应用及研究领域如：帧速率转换 (例如，在广播标准之间)、生成慢动作视频、图像变形以及虚拟视图合成、可伸缩视频编码及分布式视频编码等领域都表现出了巨大的应用潜力。

传统的视频插帧方法是基于一个简单的插值模型，对原始视频中的前后相邻两帧进行插值，生成新的中间视频帧^[1-3]。但是这种插值模型简化了视频中的运动位移信息，导致插值出来的新视频帧具有不同程度的模糊及重影现象，带来了不好的视觉体验，因此传统的视频插值方法往往不能用于处理现实场景中的低帧率视频。为利用视频中的运动信息，出现了基于运动估计的视频插帧方法^[4,5]，该类方法首先执行视频间的运动估计生成运动场，再基于该运动场执行运动补偿生成新的中间视频帧。但此类方法需要分步处理无法实现端到端地生成新的视频帧，因此浪费了大量时间，效率较低。此外传统的哦运动估计方法往往不能准确估计出视频中存在的运动，导致运动误差的存在反而使生成的新视频帧效果更差。因此提出一种高效的端到端的视频插帧方法具有更大的现实意义及应用价值。

近年来，随着卷积神经网络(CNN)在计算机视觉领域的应用，出现了许多基于CNN的光流估计方法，实现了对视频中运动信息估计准确性的突破性发展，其中以PWCNET^[6]及FlowNet^[7]等方法最具代表性。这些方法通过使用CNN模型学习前后视频帧和真实光流信息间的映射关系来重建真实光流，实现了准确的运动估计效果。

随着卷积神经网络在光流估计领域实现不断提升的效果，更多的学者通过继续改进该网络结构并结合插值的方法在视频插帧的效果上得到不断突破。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种更具有实际应用价值的视频插帧方法，以生成新视频帧；它主要针对帧数有限的视频进行处理。

本发明提供一种生成新视频帧的方法，具体步骤如下：

(1)视频前后帧之间光流计算

将视频相邻前后两帧(I₁ ^H,W,I₂ ^H,W)输入到光流估计网络(记为PWCNET)中，学习出大小为原图分辨率四分之一大小的两帧之间的光流(f_1→2 ^H/4,W/4,f_2→1 ^H/4,W/4)；其中，H、W表示视频帧的高和宽，光流估计网络(PWCNET)采用论文[6]中的光流网络结构：

(2)多尺度光流估计

首先，将上一步输出的小尺度光流(f_1→2 ^H/4,W/4,f_2→1 ^H/4,W/4)与使用双线性插值方法下采样为原始视频四分之一大小的前后两帧视频(I₁ ^H/4,W/4,I₂ ^H/4,W/4)一起输入第一个子网络NET₁中，学习出在原始视频四分之一大小的新视频帧与前后两帧之间的光流(f_t→1 ^H/4,W/4,f_t→2 ^H/4,W/4)和对应遮罩(m₁ ^H/4,W/4,m₂ ^H/4,W/4)：

其次，将原始视频四分之一尺度下的光流(f_t→1 ^H/4,W/4,f_t→2 ^H/4,W/4)和对应遮罩(m₁ ^H ^/4,W/4,m₂ ^H/4,W/4)使用双线性插值方法上采样得到输出O^H/2,W/2：

将O^H/2,W/2与使用双线性插值方法下采样到原始视频二分之一大小的前后视频帧(I₁ ^H/2,W/2,I₂ ^H/2,W/2)一同输入第二个子网络NET₂中，将网络NET₂的输出与输入相加，学习出在原始视频二分之一大小的新视频帧与前后两帧间的光流(f_t→1 ^H/2,W/2,f_t→2 ^H/2,W/2)及其对应遮罩(m₁ ^H/2,W/2,m₂ ^H/2,W/2)：

最后，再将原始视频二分之一尺度下的光流(f_t→1 ^H/2,W/2,f_t→2 ^H/2,W/2)和对应遮罩(m₁ ^H/2,W/2,m₂ ^H/2,W/2)使用双线性插值方法上采样得到输出O^H,W：

将O^H,W与原始视频的前后帧(I₁ ^H,W,I₂ ^H,W)一同输入第三个子网络NET₃中，将网络NET₃的输入与输出相加，学习出与原始视频同样大小的新视频帧与前后两帧间的光流(f_t→1,f_t→2) 及其对应遮罩(m₁,m₂)：

f_t→1,f_t→2,m₁,m₂＝NET₃(I₁ ^H,W，I₂ ^H,W,O^H,W)+O^H,W。

(3)新视频帧的生成

根据上一步得到的新视频帧与前后两帧间的光流(f_t→1,f_t→2)，使用逆双线性插值的方法将前后视频帧(I₁,I₂)分别对齐到新的时间轴上，再用对应的遮罩(m₁,m₂)将对齐的两帧视频加权求和生成新的视频帧I_t：

I_t＝m₁BIW(I₁,f_t→1)+m₂BIW(I₂,f_t→2)。

本发明利用了从小尺度到大尺度逐步优化结果，每个子网络输出不同尺度的结果，从粗到细去预测和调整中间帧到前后两帧的光流以及遮罩；使不同尺度下的输出可以更准确地估计不同尺度的运动，从而为生成新视频帧提供更精确的运动信息，得到更好的视频插帧效果。

本发明步骤(1)中，所述光流估计网络(PWCNET)^[6]，包括一个空洞卷积层、5个大小为3×3的卷积层，具体处理流程如下：

将前后两帧视频帧(I₁,I₂)输入，首先分别经过一个空洞卷积层，生成特征(c₁，c₂)，并计算特征的相关性(cv)：

其中，c₁ ^L、c₂ ^L分别是特征c₁、c₂的向量形式，T为转置操作，N为特征向量(c₁ ^L、c₂ ^L)的长度；

最后，将cv输入5个大小为3×3的卷积层生成光流(f_1→2 ^H/4,W/4,f_2→1 ^H/4,W/4)，每个卷积层的特征数分别为128、128、96、64和32。

本发明步骤(2)中，所有子网络(包括NET₁、NET₂、NET₃)采用相同结构，记为NET，该NET的具体结构，包括依次排布的：6个大小为5×5的卷积层；一个大小为5×5、步幅为 2的去卷积层和一个大小为5×5的卷积层；一个大小为5×5、步幅为2的去卷积层和一个大小为5×5的卷积层；一个卷积层；其处理流程为：

将子网络(NET)的输入x经过6个大小为5×5的卷积层生成特征，记为f：

f＝Conv₆(Conv₅(...,Conv₁(x),...))

将f经一个大小为5×5、步幅为2的去卷积层、一个大小为5×5的卷积层生成特征，记为f₁：

f₁＝Conv(Deconv(f))

将f₁再经过一个大小为5×5、步幅为2的去卷积层和一个大小为5×5的卷积层生成特征，记为f₂：

f₂＝Conv(Deconv(f₁))

最后，将f₂输入最后一个卷积层，生成通道数为6的输出y；其中y的第一到第四通道表示当前尺度下的光流(f_t→1,f_t→2)，y的后两个通道则对应遮罩(m₁,m₂)：

y＝Conv₁(f₂)

f_t→1＝y(:,:,0:1)

f_t→2＝y(:,:,2:3)

m₁＝y(:,:,4)

m₂＝y(:,:,5)

本发明步骤(3)中，生成新的视频帧时，前后两帧经逆双线性插值得到的中间帧(I_1→t,I_2→t)：

I_1→t＝BIW(I₁,f_1→t)

I_2→t＝BIW(I₂,f_2→t)

使用子网络(NET)输出的遮罩(m₁,m₂)来加权相加插值后的中间帧(I_1→t,I_2→t)生成新视频帧I_t：

I_t＝m₁I_1→t+m₂I_2→t

此时，为了确保权重之和为1，：m₁(x,y)+m₂(x,y)＝1，添加softmax函数作为约束:

m₁,m₂＝softmax([m₁,m₂])

其中，softmax函数的具体形式为：

本发明在训练子网络(NET)时，将根据每一尺度下的子网络的输出生成的不同尺度的新视频帧(I_t ^H/s,W/s)分别使用L₁损失进行约束，最终网络的损失函数为三个不同尺度的损失相加，其中I_t ^H/s,W/s’表示真实的中间帧：

本发明的有益效果在于：本发明提出的方法不仅利用了视频前后帧之间结构及内容的相关信息准确地恢复中间视频帧的相关细节内容，还结合了多尺度的框架，从粗到细地预测新的视频帧与前后帧之间不同尺度下的运动光流，有效地保持了新视频时间上的连贯性。实验结果表明，本方法不仅生成了较高质量的中间视频帧，还实现了视频的运动连贯特性，同时达到快速的处理效果。

附图说明

图1为本发明的流程图。

图2为本方法采用的PWCNET^[6]的结构图。

图3为本方法中子网络(NET)的结构图。

图4为利用本方法将视频插帧的结果。

具体实施方式

对于一个具有有限视频帧数的视频片段，可以采用图1所介绍的方法实施。

具体实施方法是：

首先，将视频前后两帧(I₁,I₂)输入光流估计网络PWCNET^[6]中，分别经过一个空洞卷积层并计算生成的特征的相关性；最后，将cv输入5个大小为3×3、特征数分别为128、128、 96、64和32的卷积层生成光流(f_1→2 ^H/4,W/4,f_2→1 ^H/4,W/4)；使用双线性插值法下采样原视频(I₁ ^H/4,W/4,I₂ ^H/4,W/4)，再将其与光流(f_1→2 ^H/4,W/4,f_2→1 ^H/4,W/4)级联输入第一个子网络NET₁，学习出新视频帧与前后两帧之间的光流(f_t→1 ^H/4,W/4,f_t→2 ^H/4,W/4)及其对应遮罩(m₁ ^H/4,W/4,m₂ ^H ^/4,W/4)；

接着，将输出的小尺度光流(f_t→1 ^H/4,W/4,f_t→2 ^H/4,W/4)和遮罩(m₁ ^H/4,W/4,m₂ ^H/4,W/4)使用双线性插值法上采样(O^H/2,W/2)；将原视频前后帧使用双线性插值方法下采样到原始视频二分之一大小(I₁ ^H/2,W/2,I₂ ^H/2,W/2)，将其与O^H/2,W/2一同输入第二个子网络NET₂中，将网络NET₂的输出与输入相加，得到当前尺度的新视频帧与前后两帧间的光流(f_t→1 ^H/2,W/2,f_t→2 ^H/2,W/2)及其对应遮罩(m₁ ^H/2,W/2,m₂ ^H/2,W/2)；

然后再将上一步的输出光流(f_t→1 ^H/2,W/2,f_t→2 ^H/2,W/2)和遮罩(m₁ ^H/2,W/2,m₂ ^H/2,W/2)用双线性插值方法上采样得到输出O^H,W；将其与原始视频的前后帧(I₁ ^H,W,I₂ ^H,W)直接级联输入第三个子网络NET₃中，将网络NET₃的输入与输出相加，得到原始尺度的新视频帧与前后两帧间的光流(f_t→1,f_t→2)及遮罩(m₁,m₂)；

最后，根据得到的原始尺度下的新视频帧与前后两帧间的光流(f_t→1,f_t→2)使用逆双线性插值的方法将前后视频帧(I₁,I₂)分别对齐到新的时间轴上，再用对应的遮罩(m₁,m₂)将对齐的两帧视频加权求和产生新的视频帧I_t。

其中所有的子网络(NET₁、NET₂、NET₃)采用相同的结构如图3所示：

前后依次经过六个卷积层，一个去卷积层和一个卷积层，一个去卷积层和一个卷积层，最后一个卷积层。

图4为本方法的一个实验例子。如该图所示，(a)图是输入的受到噪声及模糊污染的低分辨率图像，是使用本发明方法重构出来的高分辨率图像，是真实的高分辨率图像。可以看出，本发明方法可以有效地恢复出原始高分辨率图像中的纹理及边缘信息，同时降低噪声干扰锐化模糊的细节；

参考文献：

[1]S.Baker,D.Scharstein,J.P.Lewis,S.Roth,M.J.Black,and R.Szeliski.Adatabase and evaluation methodology for optical flow.IJCV,92(1):1–31,2011.2,5,6,7,8

[2]A.Davis,M.Rubinstein,N.Wadhwa,G.J.Mysore,F.Durand,andW.T.Freeman.The visual microphone:passive recovery of sound from video.ACMTrans.Graph.,33(4):79,2014.

[3]B.K.P.Horn and B.G.Schunck.Determining optical flow.Artif.Intell.,17(1-3):185–203, 1981.

[4]Veselov A,Gilmutdinov M.Iterative hierarchical true motionestimation for temporal frame interpolation[C]//IEEE,International Workshopon Multimedia Signal Processing.IEEE,2014:1-6.

[5]B.-T.Choi,S.-H.Lee,and S.-J.Ko,“New frame rate up-conversion usingbi-directional motion estimation,”Consumer Electronics,IEEE Transactions on,vol.46,no.3,pp.603–609,Aug 2000.

[6]Sun D,Yang X,Liu M Y,et al.PWC-Net:CNNs for Optical Flow UsingPyramid,Warping,and Cost Volume[J].2017.(PWC)

[7]Dosovitskiy A,Fischery P,Ilg E,et al.FlowNet:Learning Optical Flowwith Convolutional Networks[J].2015:2758-2766.。

Claims

1.一种生成新的视频帧的方法，其特征在于，具体步骤如下：

(1)视频前后帧之间光流计算

将视频相邻前后两帧(I₁ ^H,W,I₂ ^H,W)输入到光流估计网络(PWCNET)中，学习出大小为原图分辨率四分之一大小的两帧之间的光流(f_1→2 ^H/4,W/4,f_2→1 ^H/4,W/4),其中，H、W表示视频帧的高和宽：

(2)多尺度光流估计

其次，将原始视频四分之一尺度下的光流(f_t→1 ^H/4,W/4,f_t→2 ^H/4,W/4)和对应遮罩(m₁ ^H/4,W/4,m₂ ^H/4,W/4)使用双线性插值方法上采样得到输出O^H/2,W/2：

然后，将O^H/2,W/2与使用双线性插值方法下采样到原始视频二分之一大小的前后视频帧(I₁ ^H/2,W/2,I₂ ^H/2,W/2)一同输入第二个子网络NET₂中，将网络NET₂的输出与输入相加，学习出在原始视频二分之一大小的新视频帧与前后两帧间的光流(f_t→1 ^H/2,W/2,f_t→2 ^H/2,W/2)及其对应遮罩(m₁ ^H/2,W/2,m₂ ^H/2,W/2)：

最后，再将原始视频二分之一尺度下的光流(f_t→1 ^H/2,W/2,f_t→2 ^H/2,W/2)和对应遮罩(m₁ ^H ^/2,W/2,m₂ ^H/2,W/2)使用双线性插值方法上采样得到输出O^H,W：

将O^H,W与原始视频的前后帧(I₁ ^H,W,I₂ ^H,W)一同输入第三个子网络NET₃中，将网络NET₃的输入与输出相加，学习出与原始视频同样大小的新视频帧与前后两帧间的光流(f_t→1,f_t→2)及其对应遮罩(m₁,m₂)：

(3)新视频帧的生成

I_t＝m₁BIW(I₁,f_t→1)+m₂BIW(I₂,f_t→2)。

2.根据权利要求1所述的生成新的视频帧的方法，其特征在于，步骤(1)中，所述光流估计网络(PWCNET)，包括一个空洞卷积层、5个大小为3×3的卷积层，具体处理流程如下：

最后，将cv输入5个大小为3×3的卷积层生成光流，每个卷积层的特征数分别为128、128、96、64和32。

3.根据权利要求1所述的生成新的视频帧的方法，其特征在于，步骤(2)中，所有子网络NET₁、NET₂、NET₃，采用相同结构，记为NET，该NET的具体结构，包括依次排布的：6个大小为5×5的卷积层；一个大小为5×5、步幅为2的去卷积层和一个大小为5×5的卷积层；一个大小为5×5、步幅为2的去卷积层和一个大小为5×5的卷积层；一个卷积层；其处理流程为：

将输入x经过6个大小为5×5的卷积层，生成特征，记为f：

f＝Conv₆(Conv₅(...,Conv₁(x),...))

将f经一个大小为5×5、步幅为2的去卷积层和一个大小为5×5的卷积层，生成特征，记为f₁：

f₁＝Conv(Deconv(f))

将f₁再经过一个大小为5×5、步幅为2的去卷积层和一个大小为5×5的卷积层，生成特征，记为f₂：

f₂＝Conv(Deconv(f₁))

y＝Conv₁(f₂)

f_t→1＝y(:,:,0:1)

f_t→2＝y(:,:,2:3)

m₁＝y(:,:,4)

m₂＝y(:,:,5)。

4.根据权利要求3所述的生成新的视频帧的方法，其特征在于，步骤(3)中，生成新的视频帧时，前后两帧经逆双线性插值得到的中间帧(I_1→t,I_2→t)：

I_1→t＝BIW(I₁,f_1→t)

I_2→t＝BIW(I₂,f_2→t)

使用子网络(NET)输出的遮罩(m₁,m₂)来加权相加插值后的中间帧(I_1→t,I_2→t)，生成新视频帧I_t：

I_t＝m₁I_1→t+m₂I_2→t

为了确保权重之和为1，即：m₁(x,y)+m₂(x,y)＝1，添加softmax函数作为约束:

m₁,m₂＝soft max([m₁,m₂])

softmax函数的具体形式为：

5.根据权利要求3所述的生成新的视频帧的方法，其特征在于，在训练子网络(NET)时，将根据每一尺度下的子网络的输出生成的不同尺度的新视频帧(I_t ^H/s,W/s)分别使用L₁损失进行约束，最终网络的损失函数为三个不同尺度的损失相加，其中I_t ^H/s,W/s’表示真实的中间帧：