CN114066730B

CN114066730B - 一种基于无监督对偶学习的视频插帧方法

Info

Publication number: CN114066730B
Application number: CN202111296659.2A
Authority: CN
Inventors: 李学龙; 赵斌; 张馥华
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-10-28
Anticipated expiration: 2041-11-04
Also published as: CN114066730A

Abstract

为了克服现有技术的不足，本发明提供一种基于无监督对偶学习的视频插帧方法。首先，对输入的视频训练数据集进行分组；然后，利用无监督的双向光流网络生成两帧图像的光流信息，并计算中间光流信息和初步的中间插帧图像；接着，利用细化光流模块生成细化的中间光流信息，并计算细化的中间插帧图像；最后，采用视频外插的方法，计算中间插帧图像到输入两帧图像的光流信息，再利用图像扭转方法合成得到新的输入帧，以新的输入帧做为监督信息训练整个网络，得到最终的插帧结果图像。本发明通过利用插帧方法生成高质量中间帧，再以其作为参考帧外推得到新的输入帧的方式，无需利用大量的高帧率视频集，计算简单。

Description

一种基于无监督对偶学习的视频插帧方法

技术领域

本发明属计算机视觉、视频处理技术领域，具体涉及一种基于无监督对偶学习的视频插帧方法。

背景技术

文献"H.Jiang,D.Sun,V.Jampani,M.Yang,E.Miller,and J.Kautz,Super Slomo:High Quality Estimation of Multiple Intermediate Frames for VideoInterpolation.IEEE Conference on Computer Vision and Pattern Recognition,2018,pp.9000-9008."提出了一种可以在连续两帧之间任意时间步长上生成中间帧的方法，针对物体的运动过程中存在遮挡，即前一帧的像素在后一帧中未必是可见的这一问题，设计了一个光流改善模块。该方法由两个步骤组成，光流估计和合成中间帧。首先使用一个双向光流网络生成所输入两帧之间的粗略的双向光流，以得到的粗略双向光流为基础估算出中间帧到输入的前后两帧间的粗略中间光流，之后通过图像扭转分别估算出相应的中间帧图像，然后将这些信息作为光流改善模块的输入，以中间帧到前后帧细化的光流以及相应的可见性流图为输出，再利用图像扭转方法合成最终的插帧结果。但是文献所提出的方法依赖大量的高帧率的视频数据集，且需要人工干预以及真实的中间帧作为监督信息来训练网络，计算量大，对硬件设备要求较高。

发明内容

为了克服现有技术的不足，本发明提供一种基于无监督对偶学习的视频插帧方法。首先，对输入的视频训练数据集进行分组；然后，利用无监督的双向光流网络生成两帧图像的光流信息，并计算得到中间光流信息和初步的中间插帧图像；接着，再利用细化光流模块生成细化的中间光流信息，并计算细化的中间插帧图像；最后，采用视频外插的方法，根据得到的中间插帧图像计算其到输入的两帧图像的光流信息，再利用图像扭转方法合成得到新的输入帧，以新的输入帧做为监督信息训练整个网络，直到网络参数epoch为300时，得到最终的插帧结果图像。本发明通过利用插帧方法生成高质量中间帧，再以其作为参考帧外推得到新的输入帧的方式，无需利用大量的高帧率视频集，计算简单。

一种基于无监督对偶学习的视频插帧方法，其特征体现在如下步骤中：

步骤1：使用Adobe240-fps视频数据集作为训练集，将其所有视频帧图像中的任意连续12帧图像作为一组数据；

步骤2：将步骤1得到的一组视频帧图像中的第1帧和第9帧图像，分别记为I_i和I_j，输入到无监督的双向光流网络U-Net₁中，输出得到双向光流信息F_i→j和F_j→i，其中，F_i→j表示从图像I_i到图像I_j的光流信息，F_j→i表示从图像I_j到图像I_i的光流信息；

所述的无监督的双向光流网络U-Net₁由编码器Encoder和解码器Decoder两部分组成，编码器Encoder包含五个模块，每个模块包含两个卷积层和一个池化层，第一个模块卷积层的卷积核大小为7*7、步长为1、填充步长为0，第二个模块卷积层的卷积核大小为5*5、步长为1、填充步长为0，其他模块卷积层的卷积核大小为3*3、步长为1、填充步长为0，每两个卷积层之间用Leaky ReLU激活函数连接，除了最后一个模块，每个模块对卷积层提取的图像特征进行平均池化，池化层的大小为7*7、步长为2、填充步长为3，将两帧图像输入到编码器Encoder，输出得到两帧图像的特征；解码器Decoder包含五个模块，每一个模块包含两个卷积层，卷积层的卷积核大小为3*3、步长为1、填充步长为0，将编码器Encoder输出的图像特征输入到解码器Decoder，输出得到光流信息；

步骤3：分别按下式计算得到中间光流信息

和

其中，将两帧图像I_i和I_j间的时间距离视为1，I_t表示这两帧图像之间t时刻的图像，t为1/2时刻、1/3时刻或1/4时刻；

表示从图像I_t到图像I_i的中间光流信息，

表示从图像I_t到图像I_j的中间光流信息；

步骤4：对图像I_i和中间光流信息

进行双线性插值，得到中间帧图像I_t→i；对图像I_j和中间光流信息

进行双线性插值，得到中间帧图像I_t→j；

步骤5：将图像I_i和I_j、双向光流信息F_i→j和F_j→i、中间光流信息

和

中间帧图像I_t→i和I_t→j输入到细化光流模块U-Net₂网络中，输出细化后的中间光流信息F_t→i、F_t→j，其中，F_t→i表示图像I_t到图像I_i的细化后的中间光流信息，F_t→j表示图像I_t到图像I_j的细化后的中间光流信息；

所述的细化光流模块U-Net₂网络包括编码器Encoder和解码器Decoder两部分组成，编码器Encoder包含五个模块，每个模块包含两个卷积层和一个池化层，每个卷积层的卷积核大小为3*3、步长为1、填充步长为0，每两个卷积层之间用Leaky ReLU激活函数连接，除了最后一个模块，每个模块对卷积层提取的图像特征进行平均池化，池化层的大小为7*7、步长为2、填充步长为3；解码器Decoder也包含五个模块，每个模块包含两个卷积层，每个卷积层的卷积核大小均为3*3、步长为1、填充步长为0；

步骤6：按下式计算得到细化后的中间帧图像

其中，

表示相乘，warp(·，·)表示对两幅输入图像进行双线性插值处理；V表示中间图像，按照下式计算得到：

V＝(1-t)C_t→i+tC_t→j (4)

其中，C_t→i表示图像I_t中的像素点在图像I_i中存在的概率值，C_t→j表示图像I_t中的像素点在图像I_j中存在的概率值，C_t→i和C_t→j的取值均在0～1之间；

步骤7：将原输入图像I_i和

I_j和

分别输入到无监督的双向光流网络U-Net₁，分别输出双向光流信息F^* _t→i、F^* _i→t和F^* _t→j、F^* _j→t，其中，F^* _t→i表示从图像

到图像I_i的光流信息，F^* _i→t表示从图像I_i到图像

的光流信息，F^* _t→j表示从图像

到图像I_j的光流信息，F^* _j→t表示从图像I_j到图像

的光流信息；

步骤8：分别按照下式计算得到细化后的双向光流信息F^* _j→i和F^* _i→j：

其中，F^* _j→i表示从图像I_j到图像I_i的细化光流信息，F^* _i→j表示从图像I_i到图像I_j的细化光流信息；

步骤9：对图像I_i和细化光流信息F^* _j→i进行双线性插值，得到新的图像I^* _i；对图像I_j和细化光流信息F^* _i→j进行双线性插值，得到新的图像I^* _j；

步骤10：返回步骤1对网络进行迭代训练，直到网络参数epoch达到300epoch，得到训练好的网络，并以此时得到的细化后的中间帧图像

作为最终插帧结果图像。

本发明的有益效果是：由于采用视频外插帧的方法得到新的输入帧，避免使用大量高帧率的视频数据集作为训练集，减少昂贵拍摄仪器的使用以及对专业摄影技术的要求。本发明方法的通用性和适用性更强，能够更好地适用于真实场景应用。

附图说明

图1是本发明的基于无监督对偶学习的视频插帧方法流程图；

图2是采用不同方法进行插帧处理得到的结果图像；

图中，(a)-PhaseNet方法插帧结果图像，(b)-SepConv方法插帧结果图像，(c)-AdaCof方法插帧结果图像，(d)-DVF方法插帧结果图像，(e)-Super SloMo方法插帧结果图像，(f)-本发明方法插帧结果图像。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于无监督对偶学习的视频插帧方法，其具体实现过程如下：

1、预处理训练集

使用Adobe240-fps视频数据集作为训练集，把视频的所有帧中任意连续12帧图像作为一组数据。Adobe240-fps数据集来自于S.Su等人在文献"S.Su,M.Delbracio,J.Wang,G.Sapiro,W.Heidrich,and O.Wang,"Deep video deblurring for hand-held cameras,"IEEE Conference on Computer Vision and Pattern Recognition,2017,pp.1279-1288."总包含了133个视频。

2、获得粗略的双向光流

从步骤1得到的一组视频帧图像中随机选取连续9帧图像中的第1帧和第9帧图像，分别记为I_i和I_j，输入到无监督的双向光流网络U-Net₁中，以获取粗略的双向光流信息F_i→j和F_j→i，其中，F_i→j表示从图像I_i到图像I_j的光流信息，F_j→i表示从图像I_j到图像I_i的光流信息。

无监督的双向光流网络U-Net₁由编码器Encoder和解码器Decoder两部分组成，U-Net₁网络由编码器Encoder和解码器Decoder两部分组成，编码器Encoder包含五个模块，每一个模块包含两个卷积层和一个池化层。考虑到两帧之间存在大的运动物体，第一个模块和第二个模块的卷积核选择使用大的卷积核。第一个模块卷积层的卷积核大小为7*7、步长为1、填充步长为0，第二个模块卷积层的卷积核大小为5*5、步长为1、填充步长为0，其他模块卷积层的卷积核大小为3*3、步长为1、填充步长为0，每两个卷积层之间用Leaky ReLU激活函数连接，除了最后一个模块，在每个模块最后对提取的图像特征进行平均池化，池化层的大小为7*7、步长为2、填充步长为3；将两帧图像输入到编码器Encoder，输出得到两帧图像的特征。解码器Decoder也包含五个模块，每一个模块包含两个卷积层。每个模块卷积层的卷积核大小均为3*3、步长为1、填充步长为0，将编码器Encoder的输出的图像特征输入到解码器Decoder，输出得到光流信息。

3、获得粗略的中间光流

分别按下式计算得到中间光流信息

和

其中，将输入的两帧图像I_i和I_j之间的时间距离视为1，I_t表示这两帧图像之间任意时刻t的图像，包括1/2时刻、1/3时刻、1/4时刻，I_t即为待插帧得到的图像。

表示从图像I_t到图像I_i的中间光流信息，

表示从图像I_t到图像I_j的中间光流信息。

4、获得粗略的中间帧

对图像I_i和中间光流信息

进行双线性插值，得到中间帧图像I_t→j。

5、细化双向中间光流

由于光流在运动边界附近并不是局部平滑的，为了减少运动边界附近导致合成图像质量下降的伪影，增加了一个光流细化模块，即U-Net₂网络，利用该网络可以得到细化后的中间光流信息。U-Net₂网络包括编码器Encoder和解码器Decoder两部分组成，编码器Encoder包含五个模块，每一个模块包含两个卷积层和一个池化层，每个卷积层的卷积核大小为3*3、步长为1、填充步长为0，每两个卷积层之间用Leaky ReLU激活函数连接，除了最后一个模块，在模块最后对提取的图像特征进行平均池化，池化层的大小为7*7、步长为2、填充步长为3；解码器Decoder也包含五个模块，每一个模块包含两个卷积层。每个卷积层的卷积核大小均为3*3、步长为1、填充步长为0。

将图像I_i和I_j、双向光流信息F_i→j和F_j→i、中间光流信息

和

中间帧图像I_t→i和I_t→j输入到U-Net₂网络中，输出细化后的中间光流信息F_t→i、F_t→j，其中，F_t→i表示细化后的图像I_t到图像I_i的中间光流信息，F_t→j表示细化后的图像I_t到图像I_j的中间光流信息。

6、获得细化的中间帧

按下式计算得到细化后的中间帧图像

其中，

V＝(1-t)C_t→i+tC_t→j (10)

其中，C_t→i表示图像I_t中的像素点在图像I_i中存在的概率值，C_t→j表示图像I_t中的像素点在图像I_j中存在的概率值，C_t→i和C_t→j的取值均在0～1之间。

7、获得新的中间光流

考虑到没有中间帧ground-truth作为监督信息，本发明采用视频外插的思想，通过I_i和

获取新的输入帧I^* _j，通过I_j和

获取新的输入帧I^* _i。将原输入图像I_i和

I_j和

分别输入到无监督的双向光流网络U-Net₁，分别输出输出双向光流信息F^* _t→i、F^* _i→t和F^* _t→j、F^* _j→t，其中，F^* _t→i表示从图像

到图像I_i的光流信息，F^* _i→t表示从图像I_i到图像

的光流信息，F^* _t→j表示从图像

到图像I_j的光流信息，F^* _j→t表示从图像I_j到图像

的光流信息。

8、获得新的双向光流

分别按照下式计算得到细化后的双向光流信息F^* _j→i和F^* _i→j：

其中，F^* _j→i表示从图像I_j到图像I_i的细化光流信息，F^* _i→j表示从图像I_i到图像I_j的细化光流信息。

9、获得新的输入帧

对图像I_i和细化光流信息F^* _j→i进行双线性插值，得到新的图像I^* _i；对图像I_j和细化光流信息F^* _i→j进行双线性插值，得到新的图像I^* _j。

10、获得最终的中间帧

返回步骤1对网络进行迭代训练，直到网络参数epoch达到300epoch，得到训练好的网络，并以此时得到的细化后的中间帧图像

作为最终插帧结果图像。

为验证本发明方法的有效性，在

i7-6800K@3.4GHz CPU、64G内存、NVIDIA GTX 1080Ti GPU、Ubuntu 14.10的操作环境下，基于Pytorch框架进行仿真实验。测试集使用了UCF101数据集和Vimeo-90K数据集。UCF101数据集来自于K.Soomro等人在文献"K.Soomro,A.R.Zamir,and M.Shah,"UCF101:A dataset of 101human actions classesfrom videos in the wild,"arXiv preprint arXiv:1212.0402,2012."包含了379组图片，每组包括连续的3帧图像，使用3帧中的前后两帧生成中间帧。Vimeo-90k数据集来自于T.Xue等人在文献"T.Xue,B.Chen,J.Wu,D.Wei,and W.T.Freeman,"Video enhancementwith task-oriented flow,"International Journal of Computer Vision,vol.127,no.8,pp.1106-1125,2019."包含了3782组图片，每组包含连续的3帧图像。

实验中选择5种已有方法和本发明方法进行效果对比，分别为：(1)文献"S.Meyer,A.McWilliams,A.Hornung,M.Gross,and C.Schroers.PhaseNet for Video FrameInterpolation.IEEE Conference on Computer Vision and Pattern Recognition,2018,pp.498-507."提出的基于相位的PhaseNet方法；(2)文献"S.Niklaus,L.Mai,andF.Liu.Video Frame Interpolation via Adaptive Separable Convolution.IEEEInternational Conference on Computer Vision,2017,pp.261-270."提出的基于卷积核的SepConv方法；(3)文献"H.Lee,T.Kim,T.Chung,D.Pak,Y.Ban,and S.Lee.AdaCoF:Adaptive Collaboration of Flows for Video Frame Interpolation.IEEE Conferenceon Computer Vision and Pattern Recognition,2020,pp.5316-5325."提出的基于卷积核的AdoCoF方法；(4)文献"H.Jiang,D.Sun,V.Jampani,M.Yang,E.Miller,andJ.Kautz.Super Slomo:High Quality Estimation of Multiple Intermediate Framesfor Video Interpolation.IEEE Conference on Computer Vision and PatternRecognition,2018,pp.9000-9008."提出的基于光流的DVF方法；(5)文献"Z.Liu,R.Yeh,X.Tang,Y.Liu,and A.Agarwala.Video Frame Synthesis Using Deep Voxel Flow.IEEEConference on Computer Vision and Pattern Recognition,2017,pp.4463–4471."提出的基于光流的Super SloMo方法。

分别计算PSNR和SSIM，作为生成中间帧图像的评价指标，表1是基于测试集UCF101和Vimeo-90K上测试的结果。可以看出，本发明的方法在UCF101数据集上SSIM指标达到了最优，在Vimeo-90k数据集上虽然没有超越Super SloMo方法，但是本发明并没有使用真实的中间帧作为监督信号，而是采取了视频外插的方法在生成的中间帧的基础上生成新的输入帧，本发明使用的训练集是有监督方法的六分之一，避免使用大量高帧率的视频数据集作为训练集，减少昂贵拍摄仪器的使用以及对专业摄影技术的要求。图2是基于UCF101数据集上得到的插帧结果图像。在视觉效果上，本发明的方法在UCF101数据集上生成的中间帧达到了最完整和最清晰的效果。

表1