CN109756690B

CN109756690B - 基于特征级别光流的轻量级视频插值方法

Info

Publication number: CN109756690B
Application number: CN201811569592.3A
Authority: CN
Inventors: 袁媛; 王�琦; 李昊鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-11-20
Anticipated expiration: 2038-12-21
Also published as: CN109756690A

Abstract

本发明公开了一种基于特征级别光流的轻量级视频插值方法，用于解决现有轻量级视频插值方法实用性差的技术问题。技术方案是首先对给定视频中连续的两帧图像作多尺度变换，采用特征级别的光流估计模块计算出本尺度下两帧之间正向光流和反向光流；根据正向光流和反向光流分别对两幅图像进行时序上的warp变换，得到两幅插值图像；对插值图像进行合并得到四维张量，利用三维卷积处理张量得到这个尺度下的插值图像；对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值，提高了视频插值的精度与速度。用1.03MB的网络模型取得平均32.439的峰值信噪比和0.886的结构相似度。

Description

基于特征级别光流的轻量级视频插值方法

技术领域

本发明涉及一种轻量级视频插值方法，特别涉及一种基于特征级别光流的轻量级视频插值方法。

背景技术

作为一个经典的视频处理和计算机视觉任务，视频插值生成两个连续帧之间的平滑过渡。给定两帧连续的图像，视频插值合成逼真的中间帧，达到补偿运动信息和丰富变化细节的目的。生成的图片和给定的帧在时间上构成连续一致的视频片段。

视频插值已经应用于若干领域，例如视频帧率转换、虚拟视图合成、视频时序超分辨率等。不同的视频播放标准需要不同的视频帧率。因此，当以更高标准播放时，必须对低帧率视频进行转换。给定一个对象相邻视角的图像，视频插值可以生成此对象新的虚拟视图，从而完善对象的描绘。此外，通过视频插值来增加帧率可以显着改善视频视觉效果。由于其广泛的应用，视频插值已经引起越来越多的研究人员的关注。

生成内插帧的标准方法涉及两个步骤：运动估计和像素值生成。建模运动的典型方法需要两帧之间精确的像素匹配(例如利用光流)，运动被认为是像素空间位移。基于光流的方法(文献“Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,and William TFreeman,Video enhancement with task oriented flow,arXiv,2017.”提出的TOFlow算法)有如下缺点：1)计算全局流的时间和内存消耗相对较高；2)由于遮挡和突然的亮度变化，估计的光流不准确。最近提出了另外一种建模运动的新想法，它将运动视为每个像素的颜色随时间的变化，这个思路是基于复可控金字塔中的相移。虽然它的低计算成本低，但其性能无法与光流的方法匹敌。此外，有些方法使用卷积运算来建模运动并以端到端的方式生成帧。实验证明这些基于卷积的方法对于视频插值任务十分有效并取得了更好的性能。然而，它们很难处理大尺度运动，他们的计算成本也不容忽视。

目前视频插值方法普遍存在插值结果不准确、消耗计算资源大等缺点，所以需要提出精度更高、计算资源消耗少的视频插值方法。

发明内容

为了克服现有轻量级视频插值方法实用性差的不足，本发明提供一种基于特征级别光流的轻量级视频插值方法。该方法首先对给定视频中连续的两帧图像，作多尺度变换得到不同尺度的图像输入，特征级别的光流估计模块精确计算出本尺度下两帧之间正向光流和反向光流；根据正向光流和反向光流分别对两幅图像进行时序上的warp变换，初步得到本尺度下两幅插值图像；对插值图像进行合并得到四维张量，然后利用三维卷积处理这个张量得到这个尺度下的插值图像；最后对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值，并且通过优化神经网络的损失函数，提高了视频插值的精度与速度，实用性好。

本发明解决其技术问题所采用的技术方案：一种基于特征级别光流的轻量级视频插值方法，其特点是包括以下步骤：

步骤一、给定视频中的任意两帧图像I¹,I²∈R^3×H×W，作1/2和1/4的尺度变换，用

表示第k幅图像在第s个尺度的变换图像，s＝0表示原图像。

步骤二、对尺度s下的两帧图像

进行特征级别的光流计算。首先分别进行两步卷积操作，

其中，C2D₁(·),C2D₂(·)表示二维卷积运算。得到三个级别的特征图

和

对每一级别的两幅特征图进行双向时序上的合并，

其中，l＝0,1,2，CAT(·，·)表示两幅特征图按照顺序的合并操作，H_s,W_s表示特征图在尺度s下的高和宽。

分别表示在尺度s下第l个级别的正向特征和反向特征。对两个四维张量特征图

作一系列三维卷积，最终得到双向光流图，

其中，l＝0,1,2，CNN(·)表示三维卷积神经网络。在尺度s下的正向光流和反向光流是在每个特征级别光流的加权平均，

其中，wMean(·)表示加权平均运算；

分别表示在尺度s下的正向光流和反向光流。

步骤三、对在尺度s下的图像

和双向光流

进行时序上的warp变换，得到两幅尺度s下的插值图像，

其中，Warp(·,·,·)表示利用光流对图像进行时序上的warp变换操作，

分别表示通过第一幅和第二幅图像得到的

尺度s下插值图像。对于尺度s下的两幅插值图像

得到尺度s下的最终的插值图像

其中，wMean(·)表示加权平均运算。

步骤四、对上述得到的多尺度插值图像

进行尺度统一，

其中，Upsample(·，·)表示对图像进行双线性插值上采样操作，第二个参数为上采样比率。最终的插值图像为三幅插值图像的加权平均，

本发明的有益效果是：该方法首先对给定视频中连续的两帧图像，作多尺度变换得到不同尺度的图像输入，特征级别的光流估计模块精确计算出本尺度下两帧之间正向光流和反向光流；根据正向光流和反向光流分别对两幅图像进行时序上的warp变换，初步得到本尺度下两幅插值图像；对插值图像进行合并得到四维张量，然后利用三维卷积处理这个张量得到这个尺度下的插值图像；最后对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值，并且通过优化神经网络的损失函数，提高了视频插值的精度与速度，用1.03MB的网络模型取得平均32.439的峰值信噪比和0.886的结构相似度。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于特征级别光流的轻量级视频插值方法中视频插值神经网络结构图。

图2是本发明基于特征级别光流的轻量级视频插值方法中特征级别的光流估计模块。

具体实施方式

参照图1-2。本发明基于特征级别光流的轻量级视频插值方法具体步骤如下：

表示第k幅图像在第s个尺度的变换图像，s＝0表示原图像。

步骤二、对尺度s下的两帧图像

进行特征级别的光流计算。首先分别进行两步卷积操作，

和

对每一级别的两幅特征图进行双向时序上的合并，

作一系列三维卷积，最终得到双向光流图，

其中，wMean(·)表示加权平均运算，权重由神经网络学得；

分别表示在尺度s下的正向光流和反向光流。

步骤三、对在尺度s下的图像

和双向光流

进行时序上的warp变换，得到两幅尺度s下的插值图像，

分别表示通过第一幅和第二幅图像得到的

尺度s下插值图像。对于尺度s下的两幅插值图像

得到尺度s下的最终的插值图像

其中，wMean(·)表示加权平均运算，权重由神经网络学得。

步骤四、对上述得到的多尺度插值图像

进行尺度统一，

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件。

本发明是在中央处理器为

i7-6800K 3.40GHz CPU、NVIDIA GeForce GTX1080GPU、Ubuntu操作系统上，运用Python软件、PyTorch深度学习框架进行仿真的。

仿真中使用的数据为Soomro等人在文献“Khurram Soomro,Amir Roshan Zamir,and Mubarak Shah,Ucf101:A dataset of 101 human actions classes from videos inthe wild,arXiv preprint arX iv:1212.0402,2012.”中提出的UCF-101数据集中的视频，随机取数据集中80％的视频作为训练集，剩余的20％视频作为测试集。

训练过程利用以下均方误差损失指导训练，

其中X,Y分别为生成的插值图像和真实的目标图像，(m,n)为像素的坐标。训练过程中的学习率为0.001，每两个训练轮回降低一半，共训练10个训练轮回。利用批自适应梯度下降算法优化网络参数，批大小设置为16。

2.仿真内容。

为了证明本发明的有效性，仿真实验对本发明提出的视频插值算法进行了对比实验。具体地，作为本发明的对比算法，仿真实验选择了Ilg等人在文献“Eddy Ilg,NikolausMayer,Tonmoy Saikia,Margret Keuper,Alexey Dosovitskiy,and Thomas Brox,Flownet2.0:Evolution of optical flow estimation with deep networks,in IEEEConference on Computer Vision and Pattern Recognition(CVPR),2017,vol.2.”中提出的FlowNet2、Xue等人在文献“Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,andWilliam T Freeman,Video enhancement with task oriented flow,arXiv,2017.”提出的TOFlow和Niklaus等人在文献“Simon Niklaus,Long Mai,and Feng Liu,Video frameinterpolation via adaptive separable convolution,in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017,pp.261–270.”提出的SepConv算法，对比指标包括峰值信噪比(PSNR)、结构相似度(SSIM)、运行时间和模型大小。对比结果如表1所示。

表1

方法	PSNR	SSIM	运行时间(ms)	模型大小(MB)
					FlowNet2	29.774	0.874	53.644	444.68
TOFlow	33.483	0.890	188.452	47.2
					SepConv	33.512	0.883	152.770	86.7
Ours	32.439	0.886	123.221	1.03

从表1可见，本发明的峰值信噪比和结构相似度TOFlow达到了相同的水平，这证明了本算法的有效性。但是本发明在运行时间和模型大小上明显优于其他算法，这说明本发明在实际应用中实用性较高，需要较少的计算资源并且计算速度更快。