CN109756690B - 基于特征级别光流的轻量级视频插值方法 - Google Patents

基于特征级别光流的轻量级视频插值方法 Download PDF

Info

Publication number
CN109756690B
CN109756690B CN201811569592.3A CN201811569592A CN109756690B CN 109756690 B CN109756690 B CN 109756690B CN 201811569592 A CN201811569592 A CN 201811569592A CN 109756690 B CN109756690 B CN 109756690B
Authority
CN
China
Prior art keywords
optical flow
scale
image
interpolation
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811569592.3A
Other languages
English (en)
Other versions
CN109756690A (zh
Inventor
袁媛
王�琦
李昊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201811569592.3A priority Critical patent/CN109756690B/zh
Publication of CN109756690A publication Critical patent/CN109756690A/zh
Application granted granted Critical
Publication of CN109756690B publication Critical patent/CN109756690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于特征级别光流的轻量级视频插值方法,用于解决现有轻量级视频插值方法实用性差的技术问题。技术方案是首先对给定视频中连续的两帧图像作多尺度变换,采用特征级别的光流估计模块计算出本尺度下两帧之间正向光流和反向光流;根据正向光流和反向光流分别对两幅图像进行时序上的warp变换,得到两幅插值图像;对插值图像进行合并得到四维张量,利用三维卷积处理张量得到这个尺度下的插值图像;对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值,提高了视频插值的精度与速度。用1.03MB的网络模型取得平均32.439的峰值信噪比和0.886的结构相似度。

Description

基于特征级别光流的轻量级视频插值方法
技术领域
本发明涉及一种轻量级视频插值方法,特别涉及一种基于特征级别光流的轻量级视频插值方法。
背景技术
作为一个经典的视频处理和计算机视觉任务,视频插值生成两个连续帧之间的平滑过渡。给定两帧连续的图像,视频插值合成逼真的中间帧,达到补偿运动信息和丰富变化细节的目的。生成的图片和给定的帧在时间上构成连续一致的视频片段。
视频插值已经应用于若干领域,例如视频帧率转换、虚拟视图合成、视频时序超分辨率等。不同的视频播放标准需要不同的视频帧率。因此,当以更高标准播放时,必须对低帧率视频进行转换。给定一个对象相邻视角的图像,视频插值可以生成此对象新的虚拟视图,从而完善对象的描绘。此外,通过视频插值来增加帧率可以显着改善视频视觉效果。由于其广泛的应用,视频插值已经引起越来越多的研究人员的关注。
生成内插帧的标准方法涉及两个步骤:运动估计和像素值生成。建模运动的典型方法需要两帧之间精确的像素匹配(例如利用光流),运动被认为是像素空间位移。基于光流的方法(文献“Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,and William TFreeman,Video enhancement with task oriented flow,arXiv,2017.”提出的TOFlow算法)有如下缺点:1)计算全局流的时间和内存消耗相对较高;2)由于遮挡和突然的亮度变化,估计的光流不准确。最近提出了另外一种建模运动的新想法,它将运动视为每个像素的颜色随时间的变化,这个思路是基于复可控金字塔中的相移。虽然它的低计算成本低,但其性能无法与光流的方法匹敌。此外,有些方法使用卷积运算来建模运动并以端到端的方式生成帧。实验证明这些基于卷积的方法对于视频插值任务十分有效并取得了更好的性能。然而,它们很难处理大尺度运动,他们的计算成本也不容忽视。
目前视频插值方法普遍存在插值结果不准确、消耗计算资源大等缺点,所以需要提出精度更高、计算资源消耗少的视频插值方法。
发明内容
为了克服现有轻量级视频插值方法实用性差的不足,本发明提供一种基于特征级别光流的轻量级视频插值方法。该方法首先对给定视频中连续的两帧图像,作多尺度变换得到不同尺度的图像输入,特征级别的光流估计模块精确计算出本尺度下两帧之间正向光流和反向光流;根据正向光流和反向光流分别对两幅图像进行时序上的warp变换,初步得到本尺度下两幅插值图像;对插值图像进行合并得到四维张量,然后利用三维卷积处理这个张量得到这个尺度下的插值图像;最后对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值,并且通过优化神经网络的损失函数,提高了视频插值的精度与速度,实用性好。
本发明解决其技术问题所采用的技术方案:一种基于特征级别光流的轻量级视频插值方法,其特点是包括以下步骤:
步骤一、给定视频中的任意两帧图像I1,I2∈R3×H×W,作1/2和1/4的尺度变换,用
Figure GDA0002659884040000021
表示第k幅图像在第s个尺度的变换图像,s=0表示原图像。
步骤二、对尺度s下的两帧图像
Figure GDA0002659884040000022
进行特征级别的光流计算。首先分别进行两步卷积操作,
Figure GDA0002659884040000023
Figure GDA0002659884040000024
其中,C2D1(·),C2D2(·)表示二维卷积运算。得到三个级别的特征图
Figure GDA0002659884040000025
Figure GDA0002659884040000026
Figure GDA0002659884040000027
对每一级别的两幅特征图进行双向时序上的合并,
Figure GDA0002659884040000028
Figure GDA0002659884040000029
其中,l=0,1,2,CAT(·,·)表示两幅特征图按照顺序的合并操作,Hs,Ws表示特征图在尺度s下的高和宽。
Figure GDA00026598840400000210
分别表示在尺度s下第l个级别的正向特征和反向特征。对两个四维张量特征图
Figure GDA00026598840400000211
作一系列三维卷积,最终得到双向光流图,
Figure GDA00026598840400000212
Figure GDA00026598840400000213
其中,l=0,1,2,CNN(·)表示三维卷积神经网络。在尺度s下的正向光流和反向光流是在每个特征级别光流的加权平均,
Figure GDA00026598840400000214
Figure GDA0002659884040000031
其中,wMean(·)表示加权平均运算;
Figure GDA0002659884040000032
分别表示在尺度s下的正向光流和反向光流。
步骤三、对在尺度s下的图像
Figure GDA0002659884040000033
和双向光流
Figure GDA0002659884040000034
进行时序上的warp变换,得到两幅尺度s下的插值图像,
Figure GDA0002659884040000035
Figure GDA0002659884040000036
其中,Warp(·,·,·)表示利用光流对图像进行时序上的warp变换操作,
Figure GDA0002659884040000037
分别表示通过第一幅和第二幅图像得到的
Figure GDA0002659884040000038
Figure GDA0002659884040000039
尺度s下插值图像。对于尺度s下的两幅插值图像
Figure GDA00026598840400000310
得到尺度s下的最终的插值图像
Figure GDA00026598840400000311
Figure GDA00026598840400000312
其中,wMean(·)表示加权平均运算。
步骤四、对上述得到的多尺度插值图像
Figure GDA00026598840400000313
进行尺度统一,
Figure GDA00026598840400000314
Figure GDA00026598840400000315
其中,Upsample(·,·)表示对图像进行双线性插值上采样操作,第二个参数为上采样比率。最终的插值图像为三幅插值图像的加权平均,
Figure GDA00026598840400000316
本发明的有益效果是:该方法首先对给定视频中连续的两帧图像,作多尺度变换得到不同尺度的图像输入,特征级别的光流估计模块精确计算出本尺度下两帧之间正向光流和反向光流;根据正向光流和反向光流分别对两幅图像进行时序上的warp变换,初步得到本尺度下两幅插值图像;对插值图像进行合并得到四维张量,然后利用三维卷积处理这个张量得到这个尺度下的插值图像;最后对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值,并且通过优化神经网络的损失函数,提高了视频插值的精度与速度,用1.03MB的网络模型取得平均32.439的峰值信噪比和0.886的结构相似度。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于特征级别光流的轻量级视频插值方法中视频插值神经网络结构图。
图2是本发明基于特征级别光流的轻量级视频插值方法中特征级别的光流估计模块。
具体实施方式
参照图1-2。本发明基于特征级别光流的轻量级视频插值方法具体步骤如下:
步骤一、给定视频中的任意两帧图像I1,I2∈R3×H×W,作1/2和1/4的尺度变换,用
Figure GDA0002659884040000041
表示第k幅图像在第s个尺度的变换图像,s=0表示原图像。
步骤二、对尺度s下的两帧图像
Figure GDA0002659884040000042
进行特征级别的光流计算。首先分别进行两步卷积操作,
Figure GDA0002659884040000043
Figure GDA0002659884040000044
其中,C2D1(·),C2D2(·)表示二维卷积运算。得到三个级别的特征图
Figure GDA0002659884040000045
Figure GDA0002659884040000046
Figure GDA0002659884040000047
对每一级别的两幅特征图进行双向时序上的合并,
Figure GDA0002659884040000048
Figure GDA0002659884040000049
其中,l=0,1,2,CAT(·,·)表示两幅特征图按照顺序的合并操作,Hs,Ws表示特征图在尺度s下的高和宽。
Figure GDA00026598840400000410
分别表示在尺度s下第l个级别的正向特征和反向特征。对两个四维张量特征图
Figure GDA00026598840400000411
作一系列三维卷积,最终得到双向光流图,
Figure GDA00026598840400000412
Figure GDA00026598840400000413
其中,l=0,1,2,CNN(·)表示三维卷积神经网络。在尺度s下的正向光流和反向光流是在每个特征级别光流的加权平均,
Figure GDA00026598840400000414
Figure GDA00026598840400000415
其中,wMean(·)表示加权平均运算,权重由神经网络学得;
Figure GDA00026598840400000416
分别表示在尺度s下的正向光流和反向光流。
步骤三、对在尺度s下的图像
Figure GDA0002659884040000051
和双向光流
Figure GDA0002659884040000052
进行时序上的warp变换,得到两幅尺度s下的插值图像,
Figure GDA0002659884040000053
Figure GDA0002659884040000054
其中,Warp(·,·,·)表示利用光流对图像进行时序上的warp变换操作,
Figure GDA0002659884040000055
分别表示通过第一幅和第二幅图像得到的
Figure GDA0002659884040000056
尺度s下插值图像。对于尺度s下的两幅插值图像
Figure GDA0002659884040000057
得到尺度s下的最终的插值图像
Figure GDA0002659884040000058
Figure GDA0002659884040000059
其中,wMean(·)表示加权平均运算,权重由神经网络学得。
步骤四、对上述得到的多尺度插值图像
Figure GDA00026598840400000510
进行尺度统一,
Figure GDA00026598840400000511
Figure GDA00026598840400000512
其中,Upsample(·,·)表示对图像进行双线性插值上采样操作,第二个参数为上采样比率。最终的插值图像为三幅插值图像的加权平均,
Figure GDA00026598840400000513
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件。
本发明是在中央处理器为
Figure GDA00026598840400000514
i7-6800K 3.40GHz CPU、NVIDIA GeForce GTX1080GPU、Ubuntu操作系统上,运用Python软件、PyTorch深度学习框架进行仿真的。
仿真中使用的数据为Soomro等人在文献“Khurram Soomro,Amir Roshan Zamir,and Mubarak Shah,Ucf101:A dataset of 101 human actions classes from videos inthe wild,arXiv preprint arX iv:1212.0402,2012.”中提出的UCF-101数据集中的视频,随机取数据集中80%的视频作为训练集,剩余的20%视频作为测试集。
训练过程利用以下均方误差损失指导训练,
Figure GDA00026598840400000515
其中X,Y分别为生成的插值图像和真实的目标图像,(m,n)为像素的坐标。训练过程中的学习率为0.001,每两个训练轮回降低一半,共训练10个训练轮回。利用批自适应梯度下降算法优化网络参数,批大小设置为16。
2.仿真内容。
为了证明本发明的有效性,仿真实验对本发明提出的视频插值算法进行了对比实验。具体地,作为本发明的对比算法,仿真实验选择了Ilg等人在文献“Eddy Ilg,NikolausMayer,Tonmoy Saikia,Margret Keuper,Alexey Dosovitskiy,and Thomas Brox,Flownet2.0:Evolution of optical flow estimation with deep networks,in IEEEConference on Computer Vision and Pattern Recognition(CVPR),2017,vol.2.”中提出的FlowNet2、Xue等人在文献“Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,andWilliam T Freeman,Video enhancement with task oriented flow,arXiv,2017.”提出的TOFlow和Niklaus等人在文献“Simon Niklaus,Long Mai,and Feng Liu,Video frameinterpolation via adaptive separable convolution,in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017,pp.261–270.”提出的SepConv算法,对比指标包括峰值信噪比(PSNR)、结构相似度(SSIM)、运行时间和模型大小。对比结果如表1所示。
表1
方法 PSNR SSIM 运行时间(ms) 模型大小(MB)
FlowNet2 29.774 0.874 53.644 444.68
TOFlow 33.483 0.890 188.452 47.2
SepConv 33.512 0.883 152.770 86.7
Ours 32.439 0.886 123.221 1.03
从表1可见,本发明的峰值信噪比和结构相似度TOFlow达到了相同的水平,这证明了本算法的有效性。但是本发明在运行时间和模型大小上明显优于其他算法,这说明本发明在实际应用中实用性较高,需要较少的计算资源并且计算速度更快。

Claims (1)

1.一种基于特征级别光流的轻量级视频插值方法,其特征在于包括以下步骤:
步骤一、给定视频中的任意两帧图像I1,I2∈R3×H×W,作1/2和1/4的尺度变换,用
Figure FDA0002659884030000011
表示第k幅图像在第s个尺度的变换图像,s=0表示原图像;
步骤二、对尺度s下的两帧图像
Figure FDA00026598840300000118
进行特征级别的光流计算;首先分别进行两步卷积操作,
Figure FDA0002659884030000012
Figure FDA0002659884030000013
其中,C2D1(·),C2D2(·)表示二维卷积运算;得到三个级别的特征图
Figure FDA0002659884030000014
(Fs 11,Fs 12)和(Fs 21,Fs 22);对每一级别的两幅特征图进行双向时序上的合并,
Figure FDA0002659884030000015
Figure FDA0002659884030000016
其中,l=0,1,2,CAT(·,·)表示两幅特征图按照顺序的合并操作,Hs,Ws表示特征图在尺度s下的高和宽;
Figure FDA0002659884030000017
分别表示在尺度s下第l个级别的正向特征和反向特征;对两个四维张量特征图
Figure FDA0002659884030000018
作一系列三维卷积,最终得到双向光流图,
Figure FDA0002659884030000019
Figure FDA00026598840300000110
其中,l=0,1,2,CNN(·)表示三维卷积神经网络;在尺度s下的正向光流和反向光流是在每个特征级别光流的加权平均,
Figure FDA00026598840300000111
Figure FDA00026598840300000112
其中,wMean(·)表示加权平均运算;
Figure FDA00026598840300000113
分别表示在尺度s下的正向光流和反向光流;
步骤三、对在尺度s下的图像
Figure FDA00026598840300000114
和双向光流
Figure FDA00026598840300000115
进行时序上的warp变换,得到两幅尺度s下的插值图像,
Figure FDA00026598840300000116
Figure FDA00026598840300000117
其中,Warp(·,·,·)表示利用光流对图像进行时序上的warp变换操作,
Figure FDA0002659884030000021
分别表示通过第一幅和第二幅图像得到的
Figure FDA0002659884030000022
尺度s下插值图像;对于尺度s下的两幅插值图像
Figure FDA0002659884030000023
得到尺度s下的最终的插值图像
Figure FDA0002659884030000024
Figure FDA0002659884030000025
其中,wMean(·)表示加权平均运算;
步骤四、对上述得到的多尺度插值图像
Figure FDA0002659884030000026
进行尺度统一,
Figure FDA0002659884030000027
Figure FDA0002659884030000028
其中,Upsample(·,·)表示对图像进行双线性插值上采样操作,第二个参数为上采样比率;最终的插值图像为三幅插值图像的加权平均,
Figure FDA0002659884030000029
CN201811569592.3A 2018-12-21 2018-12-21 基于特征级别光流的轻量级视频插值方法 Active CN109756690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811569592.3A CN109756690B (zh) 2018-12-21 2018-12-21 基于特征级别光流的轻量级视频插值方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811569592.3A CN109756690B (zh) 2018-12-21 2018-12-21 基于特征级别光流的轻量级视频插值方法

Publications (2)

Publication Number Publication Date
CN109756690A CN109756690A (zh) 2019-05-14
CN109756690B true CN109756690B (zh) 2020-11-20

Family

ID=66403021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811569592.3A Active CN109756690B (zh) 2018-12-21 2018-12-21 基于特征级别光流的轻量级视频插值方法

Country Status (1)

Country Link
CN (1) CN109756690B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111426284B (zh) * 2020-04-10 2021-10-19 山东师范大学 基于Brox光流估计的面形测量误差校正方法及系统
CN111626308B (zh) * 2020-04-22 2023-04-18 上海交通大学 一种基于轻量卷积神经网络的实时光流估计方法
CN113727141B (zh) * 2020-05-20 2023-05-12 富士通株式会社 视频帧的插值装置以及方法
CN111372087B (zh) * 2020-05-26 2020-08-28 深圳看到科技有限公司 全景视频插帧方法、装置及对应的存储介质
CN112184779A (zh) * 2020-09-17 2021-01-05 无锡安科迪智能技术有限公司 插帧图像处理方法及装置
CN112215174A (zh) * 2020-10-19 2021-01-12 江苏中讯通物联网技术有限公司 一种基于计算机视觉的环卫车辆状态分析方法
CN112584077B (zh) * 2020-12-11 2023-02-21 北京百度网讯科技有限公司 视频的插帧方法、装置及电子设备
CN112995715B (zh) * 2021-04-20 2021-09-03 腾讯科技(深圳)有限公司 视频插帧处理方法、装置、电子设备及存储介质
CN113111837B (zh) * 2021-04-25 2022-05-13 山东省人工智能研究院 基于多媒体语义解析的监控视频智能预警方法
CN113298728B (zh) * 2021-05-21 2023-01-24 中国科学院深圳先进技术研究院 一种视频优化方法、装置、终端设备及存储介质
CN114066730B (zh) * 2021-11-04 2022-10-28 西北工业大学 一种基于无监督对偶学习的视频插帧方法
CN114419107B (zh) * 2022-01-20 2024-01-30 中国人民解放军国防科技大学 视频光流提取加速方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101498532B1 (ko) * 2008-10-15 2015-03-04 스피넬라 아이피 홀딩스, 인코포레이티드 광학 흐름의 결정을 위한 디지털 처리 방법 및 시스템
US10430685B2 (en) * 2016-11-16 2019-10-01 Facebook, Inc. Deep multi-scale video prediction
CN107360426B (zh) * 2017-07-13 2020-04-10 福州大学 一种基于压缩感知的视频序列重构方法
CN108242062B (zh) * 2017-12-27 2023-06-30 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、系统、终端及介质
CN108830812B (zh) * 2018-06-12 2021-08-31 福建帝视信息科技有限公司 一种基于网格结构深度学习的视频高帧率重制方法

Also Published As

Publication number Publication date
CN109756690A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109756690B (zh) 基于特征级别光流的轻量级视频插值方法
Zhai et al. Optical flow and scene flow estimation: A survey
WO2020037965A1 (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN107679462B (zh) 一种基于小波的深度多特征融合分类方法
CN110298916B (zh) 一种基于合成深度数据的三维人体重建方法
CN113870124B (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN113052755A (zh) 一种基于深度学习的高分辨率图像智能化抠图方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN115018888A (zh) 一种基于Transformer的光流无监督估计方法
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
Ma et al. MS-RNN: A flexible multi-scale framework for spatiotemporal predictive learning
Lin et al. Efficient and high-quality monocular depth estimation via gated multi-scale network
Durasov et al. Double refinement network for efficient monocular depth estimation
CN114693744A (zh) 一种基于改进循环生成对抗网络的光流无监督估计方法
WO2020001046A1 (zh) 一种基于自适应层次化运动建模的视频预测方法
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
Kim et al. Latent transformations neural network for object view synthesis
Zhang et al. MFFE: multi-scale feature fusion enhanced net for image dehazing
Hou et al. Joint learning of image deblurring and depth estimation through adversarial multi-task network
Huang et al. Image style transfer for autonomous multi-robot systems
Zhai et al. SKFlow: optical flow estimation using selective kernel networks
CN109087247A (zh) 一种对立体图像进行超分的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant