CN109756690B - 基于特征级别光流的轻量级视频插值方法 - Google Patents
基于特征级别光流的轻量级视频插值方法 Download PDFInfo
- Publication number
- CN109756690B CN109756690B CN201811569592.3A CN201811569592A CN109756690B CN 109756690 B CN109756690 B CN 109756690B CN 201811569592 A CN201811569592 A CN 201811569592A CN 109756690 B CN109756690 B CN 109756690B
- Authority
- CN
- China
- Prior art keywords
- optical flow
- scale
- image
- interpolation
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于特征级别光流的轻量级视频插值方法,用于解决现有轻量级视频插值方法实用性差的技术问题。技术方案是首先对给定视频中连续的两帧图像作多尺度变换,采用特征级别的光流估计模块计算出本尺度下两帧之间正向光流和反向光流;根据正向光流和反向光流分别对两幅图像进行时序上的warp变换,得到两幅插值图像;对插值图像进行合并得到四维张量,利用三维卷积处理张量得到这个尺度下的插值图像;对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值,提高了视频插值的精度与速度。用1.03MB的网络模型取得平均32.439的峰值信噪比和0.886的结构相似度。
Description
技术领域
本发明涉及一种轻量级视频插值方法,特别涉及一种基于特征级别光流的轻量级视频插值方法。
背景技术
作为一个经典的视频处理和计算机视觉任务,视频插值生成两个连续帧之间的平滑过渡。给定两帧连续的图像,视频插值合成逼真的中间帧,达到补偿运动信息和丰富变化细节的目的。生成的图片和给定的帧在时间上构成连续一致的视频片段。
视频插值已经应用于若干领域,例如视频帧率转换、虚拟视图合成、视频时序超分辨率等。不同的视频播放标准需要不同的视频帧率。因此,当以更高标准播放时,必须对低帧率视频进行转换。给定一个对象相邻视角的图像,视频插值可以生成此对象新的虚拟视图,从而完善对象的描绘。此外,通过视频插值来增加帧率可以显着改善视频视觉效果。由于其广泛的应用,视频插值已经引起越来越多的研究人员的关注。
生成内插帧的标准方法涉及两个步骤:运动估计和像素值生成。建模运动的典型方法需要两帧之间精确的像素匹配(例如利用光流),运动被认为是像素空间位移。基于光流的方法(文献“Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,and William TFreeman,Video enhancement with task oriented flow,arXiv,2017.”提出的TOFlow算法)有如下缺点:1)计算全局流的时间和内存消耗相对较高;2)由于遮挡和突然的亮度变化,估计的光流不准确。最近提出了另外一种建模运动的新想法,它将运动视为每个像素的颜色随时间的变化,这个思路是基于复可控金字塔中的相移。虽然它的低计算成本低,但其性能无法与光流的方法匹敌。此外,有些方法使用卷积运算来建模运动并以端到端的方式生成帧。实验证明这些基于卷积的方法对于视频插值任务十分有效并取得了更好的性能。然而,它们很难处理大尺度运动,他们的计算成本也不容忽视。
目前视频插值方法普遍存在插值结果不准确、消耗计算资源大等缺点,所以需要提出精度更高、计算资源消耗少的视频插值方法。
发明内容
为了克服现有轻量级视频插值方法实用性差的不足,本发明提供一种基于特征级别光流的轻量级视频插值方法。该方法首先对给定视频中连续的两帧图像,作多尺度变换得到不同尺度的图像输入,特征级别的光流估计模块精确计算出本尺度下两帧之间正向光流和反向光流;根据正向光流和反向光流分别对两幅图像进行时序上的warp变换,初步得到本尺度下两幅插值图像;对插值图像进行合并得到四维张量,然后利用三维卷积处理这个张量得到这个尺度下的插值图像;最后对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值,并且通过优化神经网络的损失函数,提高了视频插值的精度与速度,实用性好。
本发明解决其技术问题所采用的技术方案:一种基于特征级别光流的轻量级视频插值方法,其特点是包括以下步骤:
其中,l=0,1,2,CAT(·,·)表示两幅特征图按照顺序的合并操作,Hs,Ws表示特征图在尺度s下的高和宽。分别表示在尺度s下第l个级别的正向特征和反向特征。对两个四维张量特征图作一系列三维卷积,最终得到双向光流图,
其中,l=0,1,2,CNN(·)表示三维卷积神经网络。在尺度s下的正向光流和反向光流是在每个特征级别光流的加权平均,
其中,wMean(·)表示加权平均运算。
其中,Upsample(·,·)表示对图像进行双线性插值上采样操作,第二个参数为上采样比率。最终的插值图像为三幅插值图像的加权平均,
本发明的有益效果是:该方法首先对给定视频中连续的两帧图像,作多尺度变换得到不同尺度的图像输入,特征级别的光流估计模块精确计算出本尺度下两帧之间正向光流和反向光流;根据正向光流和反向光流分别对两幅图像进行时序上的warp变换,初步得到本尺度下两幅插值图像;对插值图像进行合并得到四维张量,然后利用三维卷积处理这个张量得到这个尺度下的插值图像;最后对不同尺度的图像进行加权平均得到最终的插值图像。本发明利用特征级别的光流和多尺度融合技术进行视频插值,并且通过优化神经网络的损失函数,提高了视频插值的精度与速度,用1.03MB的网络模型取得平均32.439的峰值信噪比和0.886的结构相似度。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于特征级别光流的轻量级视频插值方法中视频插值神经网络结构图。
图2是本发明基于特征级别光流的轻量级视频插值方法中特征级别的光流估计模块。
具体实施方式
参照图1-2。本发明基于特征级别光流的轻量级视频插值方法具体步骤如下:
其中,l=0,1,2,CAT(·,·)表示两幅特征图按照顺序的合并操作,Hs,Ws表示特征图在尺度s下的高和宽。分别表示在尺度s下第l个级别的正向特征和反向特征。对两个四维张量特征图作一系列三维卷积,最终得到双向光流图,
其中,l=0,1,2,CNN(·)表示三维卷积神经网络。在尺度s下的正向光流和反向光流是在每个特征级别光流的加权平均,
其中,wMean(·)表示加权平均运算,权重由神经网络学得。
其中,Upsample(·,·)表示对图像进行双线性插值上采样操作,第二个参数为上采样比率。最终的插值图像为三幅插值图像的加权平均,
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件。
本发明是在中央处理器为i7-6800K 3.40GHz CPU、NVIDIA GeForce GTX1080GPU、Ubuntu操作系统上,运用Python软件、PyTorch深度学习框架进行仿真的。
仿真中使用的数据为Soomro等人在文献“Khurram Soomro,Amir Roshan Zamir,and Mubarak Shah,Ucf101:A dataset of 101 human actions classes from videos inthe wild,arXiv preprint arX iv:1212.0402,2012.”中提出的UCF-101数据集中的视频,随机取数据集中80%的视频作为训练集,剩余的20%视频作为测试集。
训练过程利用以下均方误差损失指导训练,
其中X,Y分别为生成的插值图像和真实的目标图像,(m,n)为像素的坐标。训练过程中的学习率为0.001,每两个训练轮回降低一半,共训练10个训练轮回。利用批自适应梯度下降算法优化网络参数,批大小设置为16。
2.仿真内容。
为了证明本发明的有效性,仿真实验对本发明提出的视频插值算法进行了对比实验。具体地,作为本发明的对比算法,仿真实验选择了Ilg等人在文献“Eddy Ilg,NikolausMayer,Tonmoy Saikia,Margret Keuper,Alexey Dosovitskiy,and Thomas Brox,Flownet2.0:Evolution of optical flow estimation with deep networks,in IEEEConference on Computer Vision and Pattern Recognition(CVPR),2017,vol.2.”中提出的FlowNet2、Xue等人在文献“Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,andWilliam T Freeman,Video enhancement with task oriented flow,arXiv,2017.”提出的TOFlow和Niklaus等人在文献“Simon Niklaus,Long Mai,and Feng Liu,Video frameinterpolation via adaptive separable convolution,in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017,pp.261–270.”提出的SepConv算法,对比指标包括峰值信噪比(PSNR)、结构相似度(SSIM)、运行时间和模型大小。对比结果如表1所示。
表1
方法 | PSNR | SSIM | 运行时间(ms) | 模型大小(MB) |
FlowNet2 | 29.774 | 0.874 | 53.644 | 444.68 |
TOFlow | 33.483 | 0.890 | 188.452 | 47.2 |
SepConv | 33.512 | 0.883 | 152.770 | 86.7 |
Ours | 32.439 | 0.886 | 123.221 | 1.03 |
从表1可见,本发明的峰值信噪比和结构相似度TOFlow达到了相同的水平,这证明了本算法的有效性。但是本发明在运行时间和模型大小上明显优于其他算法,这说明本发明在实际应用中实用性较高,需要较少的计算资源并且计算速度更快。
Claims (1)
1.一种基于特征级别光流的轻量级视频插值方法,其特征在于包括以下步骤:
其中,l=0,1,2,CAT(·,·)表示两幅特征图按照顺序的合并操作,Hs,Ws表示特征图在尺度s下的高和宽;分别表示在尺度s下第l个级别的正向特征和反向特征;对两个四维张量特征图作一系列三维卷积,最终得到双向光流图,
其中,l=0,1,2,CNN(·)表示三维卷积神经网络;在尺度s下的正向光流和反向光流是在每个特征级别光流的加权平均,
其中,wMean(·)表示加权平均运算;
其中,Upsample(·,·)表示对图像进行双线性插值上采样操作,第二个参数为上采样比率;最终的插值图像为三幅插值图像的加权平均,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811569592.3A CN109756690B (zh) | 2018-12-21 | 2018-12-21 | 基于特征级别光流的轻量级视频插值方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811569592.3A CN109756690B (zh) | 2018-12-21 | 2018-12-21 | 基于特征级别光流的轻量级视频插值方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109756690A CN109756690A (zh) | 2019-05-14 |
CN109756690B true CN109756690B (zh) | 2020-11-20 |
Family
ID=66403021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811569592.3A Active CN109756690B (zh) | 2018-12-21 | 2018-12-21 | 基于特征级别光流的轻量级视频插值方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109756690B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111426284B (zh) * | 2020-04-10 | 2021-10-19 | 山东师范大学 | 基于Brox光流估计的面形测量误差校正方法及系统 |
CN111626308B (zh) * | 2020-04-22 | 2023-04-18 | 上海交通大学 | 一种基于轻量卷积神经网络的实时光流估计方法 |
CN113727141B (zh) * | 2020-05-20 | 2023-05-12 | 富士通株式会社 | 视频帧的插值装置以及方法 |
CN111372087B (zh) * | 2020-05-26 | 2020-08-28 | 深圳看到科技有限公司 | 全景视频插帧方法、装置及对应的存储介质 |
CN112184779A (zh) * | 2020-09-17 | 2021-01-05 | 无锡安科迪智能技术有限公司 | 插帧图像处理方法及装置 |
CN112215174A (zh) * | 2020-10-19 | 2021-01-12 | 江苏中讯通物联网技术有限公司 | 一种基于计算机视觉的环卫车辆状态分析方法 |
CN112584077B (zh) * | 2020-12-11 | 2023-02-21 | 北京百度网讯科技有限公司 | 视频的插帧方法、装置及电子设备 |
CN112995715B (zh) * | 2021-04-20 | 2021-09-03 | 腾讯科技(深圳)有限公司 | 视频插帧处理方法、装置、电子设备及存储介质 |
CN113111837B (zh) * | 2021-04-25 | 2022-05-13 | 山东省人工智能研究院 | 基于多媒体语义解析的监控视频智能预警方法 |
CN113298728B (zh) * | 2021-05-21 | 2023-01-24 | 中国科学院深圳先进技术研究院 | 一种视频优化方法、装置、终端设备及存储介质 |
CN114066730B (zh) * | 2021-11-04 | 2022-10-28 | 西北工业大学 | 一种基于无监督对偶学习的视频插帧方法 |
CN114419107B (zh) * | 2022-01-20 | 2024-01-30 | 中国人民解放军国防科技大学 | 视频光流提取加速方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101498532B1 (ko) * | 2008-10-15 | 2015-03-04 | 스피넬라 아이피 홀딩스, 인코포레이티드 | 광학 흐름의 결정을 위한 디지털 처리 방법 및 시스템 |
US10430685B2 (en) * | 2016-11-16 | 2019-10-01 | Facebook, Inc. | Deep multi-scale video prediction |
CN107360426B (zh) * | 2017-07-13 | 2020-04-10 | 福州大学 | 一种基于压缩感知的视频序列重构方法 |
CN108242062B (zh) * | 2017-12-27 | 2023-06-30 | 北京纵目安驰智能科技有限公司 | 基于深度特征流的目标跟踪方法、系统、终端及介质 |
CN108830812B (zh) * | 2018-06-12 | 2021-08-31 | 福建帝视信息科技有限公司 | 一种基于网格结构深度学习的视频高帧率重制方法 |
-
2018
- 2018-12-21 CN CN201811569592.3A patent/CN109756690B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109756690A (zh) | 2019-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109756690B (zh) | 基于特征级别光流的轻量级视频插值方法 | |
Zhai et al. | Optical flow and scene flow estimation: A survey | |
WO2020037965A1 (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN107679462B (zh) | 一种基于小波的深度多特征融合分类方法 | |
CN110298916B (zh) | 一种基于合成深度数据的三维人体重建方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN115187638B (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN113052755A (zh) | 一种基于深度学习的高分辨率图像智能化抠图方法 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN115018888A (zh) | 一种基于Transformer的光流无监督估计方法 | |
Ubina et al. | Intelligent underwater stereo camera design for fish metric estimation using reliable object matching | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
Ma et al. | MS-RNN: A flexible multi-scale framework for spatiotemporal predictive learning | |
Lin et al. | Efficient and high-quality monocular depth estimation via gated multi-scale network | |
Durasov et al. | Double refinement network for efficient monocular depth estimation | |
CN114693744A (zh) | 一种基于改进循环生成对抗网络的光流无监督估计方法 | |
WO2020001046A1 (zh) | 一种基于自适应层次化运动建模的视频预测方法 | |
CN110889868A (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
Kim et al. | Latent transformations neural network for object view synthesis | |
Zhang et al. | MFFE: multi-scale feature fusion enhanced net for image dehazing | |
Hou et al. | Joint learning of image deblurring and depth estimation through adversarial multi-task network | |
Huang et al. | Image style transfer for autonomous multi-robot systems | |
Zhai et al. | SKFlow: optical flow estimation using selective kernel networks | |
CN109087247A (zh) | 一种对立体图像进行超分的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |