CN114066730B - 一种基于无监督对偶学习的视频插帧方法 - Google Patents

一种基于无监督对偶学习的视频插帧方法 Download PDF

Info

Publication number
CN114066730B
CN114066730B CN202111296659.2A CN202111296659A CN114066730B CN 114066730 B CN114066730 B CN 114066730B CN 202111296659 A CN202111296659 A CN 202111296659A CN 114066730 B CN114066730 B CN 114066730B
Authority
CN
China
Prior art keywords
image
optical flow
flow information
frame
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111296659.2A
Other languages
English (en)
Other versions
CN114066730A (zh
Inventor
李学龙
赵斌
张馥华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111296659.2A priority Critical patent/CN114066730B/zh
Publication of CN114066730A publication Critical patent/CN114066730A/zh
Application granted granted Critical
Publication of CN114066730B publication Critical patent/CN114066730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

为了克服现有技术的不足,本发明提供一种基于无监督对偶学习的视频插帧方法。首先,对输入的视频训练数据集进行分组;然后,利用无监督的双向光流网络生成两帧图像的光流信息,并计算中间光流信息和初步的中间插帧图像;接着,利用细化光流模块生成细化的中间光流信息,并计算细化的中间插帧图像;最后,采用视频外插的方法,计算中间插帧图像到输入两帧图像的光流信息,再利用图像扭转方法合成得到新的输入帧,以新的输入帧做为监督信息训练整个网络,得到最终的插帧结果图像。本发明通过利用插帧方法生成高质量中间帧,再以其作为参考帧外推得到新的输入帧的方式,无需利用大量的高帧率视频集,计算简单。

Description

一种基于无监督对偶学习的视频插帧方法
技术领域
本发明属计算机视觉、视频处理技术领域,具体涉及一种基于无监督对偶学习的视频插帧方法。
背景技术
文献"H.Jiang,D.Sun,V.Jampani,M.Yang,E.Miller,and J.Kautz,Super Slomo:High Quality Estimation of Multiple Intermediate Frames for VideoInterpolation.IEEE Conference on Computer Vision and Pattern Recognition,2018,pp.9000-9008."提出了一种可以在连续两帧之间任意时间步长上生成中间帧的方法,针对物体的运动过程中存在遮挡,即前一帧的像素在后一帧中未必是可见的这一问题,设计了一个光流改善模块。该方法由两个步骤组成,光流估计和合成中间帧。首先使用一个双向光流网络生成所输入两帧之间的粗略的双向光流,以得到的粗略双向光流为基础估算出中间帧到输入的前后两帧间的粗略中间光流,之后通过图像扭转分别估算出相应的中间帧图像,然后将这些信息作为光流改善模块的输入,以中间帧到前后帧细化的光流以及相应的可见性流图为输出,再利用图像扭转方法合成最终的插帧结果。但是文献所提出的方法依赖大量的高帧率的视频数据集,且需要人工干预以及真实的中间帧作为监督信息来训练网络,计算量大,对硬件设备要求较高。
发明内容
为了克服现有技术的不足,本发明提供一种基于无监督对偶学习的视频插帧方法。首先,对输入的视频训练数据集进行分组;然后,利用无监督的双向光流网络生成两帧图像的光流信息,并计算得到中间光流信息和初步的中间插帧图像;接着,再利用细化光流模块生成细化的中间光流信息,并计算细化的中间插帧图像;最后,采用视频外插的方法,根据得到的中间插帧图像计算其到输入的两帧图像的光流信息,再利用图像扭转方法合成得到新的输入帧,以新的输入帧做为监督信息训练整个网络,直到网络参数epoch为300时,得到最终的插帧结果图像。本发明通过利用插帧方法生成高质量中间帧,再以其作为参考帧外推得到新的输入帧的方式,无需利用大量的高帧率视频集,计算简单。
一种基于无监督对偶学习的视频插帧方法,其特征体现在如下步骤中:
步骤1:使用Adobe240-fps视频数据集作为训练集,将其所有视频帧图像中的任意连续12帧图像作为一组数据;
步骤2:将步骤1得到的一组视频帧图像中的第1帧和第9帧图像,分别记为Ii和Ij,输入到无监督的双向光流网络U-Net1中,输出得到双向光流信息Fi→j和Fj→i,其中,Fi→j表示从图像Ii到图像Ij的光流信息,Fj→i表示从图像Ij到图像Ii的光流信息;
所述的无监督的双向光流网络U-Net1由编码器Encoder和解码器Decoder两部分组成,编码器Encoder包含五个模块,每个模块包含两个卷积层和一个池化层,第一个模块卷积层的卷积核大小为7*7、步长为1、填充步长为0,第二个模块卷积层的卷积核大小为5*5、步长为1、填充步长为0,其他模块卷积层的卷积核大小为3*3、步长为1、填充步长为0,每两个卷积层之间用Leaky ReLU激活函数连接,除了最后一个模块,每个模块对卷积层提取的图像特征进行平均池化,池化层的大小为7*7、步长为2、填充步长为3,将两帧图像输入到编码器Encoder,输出得到两帧图像的特征;解码器Decoder包含五个模块,每一个模块包含两个卷积层,卷积层的卷积核大小为3*3、步长为1、填充步长为0,将编码器Encoder输出的图像特征输入到解码器Decoder,输出得到光流信息;
步骤3:分别按下式计算得到中间光流信息
Figure GDA0003846570620000021
Figure GDA0003846570620000022
Figure GDA0003846570620000023
Figure GDA0003846570620000024
其中,将两帧图像Ii和Ij间的时间距离视为1,It表示这两帧图像之间t时刻的图像,t为1/2时刻、1/3时刻或1/4时刻;
Figure GDA0003846570620000025
表示从图像It到图像Ii的中间光流信息,
Figure GDA0003846570620000026
表示从图像It到图像Ij的中间光流信息;
步骤4:对图像Ii和中间光流信息
Figure GDA0003846570620000027
进行双线性插值,得到中间帧图像It→i;对图像Ij和中间光流信息
Figure GDA0003846570620000028
进行双线性插值,得到中间帧图像It→j
步骤5:将图像Ii和Ij、双向光流信息Fi→j和Fj→i、中间光流信息
Figure GDA0003846570620000029
Figure GDA00038465706200000210
中间帧图像It→i和It→j输入到细化光流模块U-Net2网络中,输出细化后的中间光流信息Ft→i、Ft→j,其中,Ft→i表示图像It到图像Ii的细化后的中间光流信息,Ft→j表示图像It到图像Ij的细化后的中间光流信息;
所述的细化光流模块U-Net2网络包括编码器Encoder和解码器Decoder两部分组成,编码器Encoder包含五个模块,每个模块包含两个卷积层和一个池化层,每个卷积层的卷积核大小为3*3、步长为1、填充步长为0,每两个卷积层之间用Leaky ReLU激活函数连接,除了最后一个模块,每个模块对卷积层提取的图像特征进行平均池化,池化层的大小为7*7、步长为2、填充步长为3;解码器Decoder也包含五个模块,每个模块包含两个卷积层,每个卷积层的卷积核大小均为3*3、步长为1、填充步长为0;
步骤6:按下式计算得到细化后的中间帧图像
Figure GDA0003846570620000031
Figure GDA0003846570620000032
其中,
Figure GDA0003846570620000033
表示相乘,warp(·,·)表示对两幅输入图像进行双线性插值处理;V表示中间图像,按照下式计算得到:
V=(1-t)Ct→i+tCt→j (4)
其中,Ct→i表示图像It中的像素点在图像Ii中存在的概率值,Ct→j表示图像It中的像素点在图像Ij中存在的概率值,Ct→i和Ct→j的取值均在0~1之间;
步骤7:将原输入图像Ii
Figure GDA0003846570620000034
Ij
Figure GDA0003846570620000035
分别输入到无监督的双向光流网络U-Net1,分别输出双向光流信息F* t→i、F* i→t和F* t→j、F* j→t,其中,F* t→i表示从图像
Figure GDA0003846570620000036
到图像Ii的光流信息,F* i→t表示从图像Ii到图像
Figure GDA0003846570620000037
的光流信息,F* t→j表示从图像
Figure GDA0003846570620000038
到图像Ij的光流信息,F* j→t表示从图像Ij到图像
Figure GDA0003846570620000039
的光流信息;
步骤8:分别按照下式计算得到细化后的双向光流信息F* j→i和F* i→j
Figure GDA00038465706200000310
Figure GDA00038465706200000311
其中,F* j→i表示从图像Ij到图像Ii的细化光流信息,F* i→j表示从图像Ii到图像Ij的细化光流信息;
步骤9:对图像Ii和细化光流信息F* j→i进行双线性插值,得到新的图像I* i;对图像Ij和细化光流信息F* i→j进行双线性插值,得到新的图像I* j
步骤10:返回步骤1对网络进行迭代训练,直到网络参数epoch达到300epoch,得到训练好的网络,并以此时得到的细化后的中间帧图像
Figure GDA0003846570620000041
作为最终插帧结果图像。
本发明的有益效果是:由于采用视频外插帧的方法得到新的输入帧,避免使用大量高帧率的视频数据集作为训练集,减少昂贵拍摄仪器的使用以及对专业摄影技术的要求。本发明方法的通用性和适用性更强,能够更好地适用于真实场景应用。
附图说明
图1是本发明的基于无监督对偶学习的视频插帧方法流程图;
图2是采用不同方法进行插帧处理得到的结果图像;
图中,(a)-PhaseNet方法插帧结果图像,(b)-SepConv方法插帧结果图像,(c)-AdaCof方法插帧结果图像,(d)-DVF方法插帧结果图像,(e)-Super SloMo方法插帧结果图像,(f)-本发明方法插帧结果图像。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于无监督对偶学习的视频插帧方法,其具体实现过程如下:
1、预处理训练集
使用Adobe240-fps视频数据集作为训练集,把视频的所有帧中任意连续12帧图像作为一组数据。Adobe240-fps数据集来自于S.Su等人在文献"S.Su,M.Delbracio,J.Wang,G.Sapiro,W.Heidrich,and O.Wang,"Deep video deblurring for hand-held cameras,"IEEE Conference on Computer Vision and Pattern Recognition,2017,pp.1279-1288."总包含了133个视频。
2、获得粗略的双向光流
从步骤1得到的一组视频帧图像中随机选取连续9帧图像中的第1帧和第9帧图像,分别记为Ii和Ij,输入到无监督的双向光流网络U-Net1中,以获取粗略的双向光流信息Fi→j和Fj→i,其中,Fi→j表示从图像Ii到图像Ij的光流信息,Fj→i表示从图像Ij到图像Ii的光流信息。
无监督的双向光流网络U-Net1由编码器Encoder和解码器Decoder两部分组成,U-Net1网络由编码器Encoder和解码器Decoder两部分组成,编码器Encoder包含五个模块,每一个模块包含两个卷积层和一个池化层。考虑到两帧之间存在大的运动物体,第一个模块和第二个模块的卷积核选择使用大的卷积核。第一个模块卷积层的卷积核大小为7*7、步长为1、填充步长为0,第二个模块卷积层的卷积核大小为5*5、步长为1、填充步长为0,其他模块卷积层的卷积核大小为3*3、步长为1、填充步长为0,每两个卷积层之间用Leaky ReLU激活函数连接,除了最后一个模块,在每个模块最后对提取的图像特征进行平均池化,池化层的大小为7*7、步长为2、填充步长为3;将两帧图像输入到编码器Encoder,输出得到两帧图像的特征。解码器Decoder也包含五个模块,每一个模块包含两个卷积层。每个模块卷积层的卷积核大小均为3*3、步长为1、填充步长为0,将编码器Encoder的输出的图像特征输入到解码器Decoder,输出得到光流信息。
3、获得粗略的中间光流
分别按下式计算得到中间光流信息
Figure GDA0003846570620000051
Figure GDA0003846570620000052
Figure GDA0003846570620000053
Figure GDA0003846570620000054
其中,将输入的两帧图像Ii和Ij之间的时间距离视为1,It表示这两帧图像之间任意时刻t的图像,包括1/2时刻、1/3时刻、1/4时刻,It即为待插帧得到的图像。
Figure GDA0003846570620000055
表示从图像It到图像Ii的中间光流信息,
Figure GDA0003846570620000056
表示从图像It到图像Ij的中间光流信息。
4、获得粗略的中间帧
对图像Ii和中间光流信息
Figure GDA0003846570620000057
进行双线性插值,得到中间帧图像It→i;对图像Ij和中间光流信息
Figure GDA0003846570620000058
进行双线性插值,得到中间帧图像It→j
5、细化双向中间光流
由于光流在运动边界附近并不是局部平滑的,为了减少运动边界附近导致合成图像质量下降的伪影,增加了一个光流细化模块,即U-Net2网络,利用该网络可以得到细化后的中间光流信息。U-Net2网络包括编码器Encoder和解码器Decoder两部分组成,编码器Encoder包含五个模块,每一个模块包含两个卷积层和一个池化层,每个卷积层的卷积核大小为3*3、步长为1、填充步长为0,每两个卷积层之间用Leaky ReLU激活函数连接,除了最后一个模块,在模块最后对提取的图像特征进行平均池化,池化层的大小为7*7、步长为2、填充步长为3;解码器Decoder也包含五个模块,每一个模块包含两个卷积层。每个卷积层的卷积核大小均为3*3、步长为1、填充步长为0。
将图像Ii和Ij、双向光流信息Fi→j和Fj→i、中间光流信息
Figure GDA0003846570620000061
Figure GDA0003846570620000062
中间帧图像It→i和It→j输入到U-Net2网络中,输出细化后的中间光流信息Ft→i、Ft→j,其中,Ft→i表示细化后的图像It到图像Ii的中间光流信息,Ft→j表示细化后的图像It到图像Ij的中间光流信息。
6、获得细化的中间帧
按下式计算得到细化后的中间帧图像
Figure GDA0003846570620000063
Figure GDA0003846570620000064
其中,
Figure GDA0003846570620000065
表示相乘,warp(·,·)表示对两幅输入图像进行双线性插值处理;V表示中间图像,按照下式计算得到:
V=(1-t)Ct→i+tCt→j (10)
其中,Ct→i表示图像It中的像素点在图像Ii中存在的概率值,Ct→j表示图像It中的像素点在图像Ij中存在的概率值,Ct→i和Ct→j的取值均在0~1之间。
7、获得新的中间光流
考虑到没有中间帧ground-truth作为监督信息,本发明采用视频外插的思想,通过Ii
Figure GDA0003846570620000066
获取新的输入帧I* j,通过Ij
Figure GDA0003846570620000067
获取新的输入帧I* i。将原输入图像Ii
Figure GDA0003846570620000068
Ij
Figure GDA0003846570620000069
分别输入到无监督的双向光流网络U-Net1,分别输出输出双向光流信息F* t→i、F* i→t和F* t→j、F* j→t,其中,F* t→i表示从图像
Figure GDA00038465706200000610
到图像Ii的光流信息,F* i→t表示从图像Ii到图像
Figure GDA00038465706200000611
的光流信息,F* t→j表示从图像
Figure GDA00038465706200000612
到图像Ij的光流信息,F* j→t表示从图像Ij到图像
Figure GDA00038465706200000613
的光流信息。
8、获得新的双向光流
分别按照下式计算得到细化后的双向光流信息F* j→i和F* i→j
Figure GDA00038465706200000614
Figure GDA00038465706200000615
其中,F* j→i表示从图像Ij到图像Ii的细化光流信息,F* i→j表示从图像Ii到图像Ij的细化光流信息。
9、获得新的输入帧
对图像Ii和细化光流信息F* j→i进行双线性插值,得到新的图像I* i;对图像Ij和细化光流信息F* i→j进行双线性插值,得到新的图像I* j
10、获得最终的中间帧
返回步骤1对网络进行迭代训练,直到网络参数epoch达到300epoch,得到训练好的网络,并以此时得到的细化后的中间帧图像
Figure GDA0003846570620000071
作为最终插帧结果图像。
为验证本发明方法的有效性,在
Figure GDA0003846570620000072
i7-6800K@3.4GHz CPU、64G内存、NVIDIA GTX 1080Ti GPU、Ubuntu 14.10的操作环境下,基于Pytorch框架进行仿真实验。测试集使用了UCF101数据集和Vimeo-90K数据集。UCF101数据集来自于K.Soomro等人在文献"K.Soomro,A.R.Zamir,and M.Shah,"UCF101:A dataset of 101human actions classesfrom videos in the wild,"arXiv preprint arXiv:1212.0402,2012."包含了379组图片,每组包括连续的3帧图像,使用3帧中的前后两帧生成中间帧。Vimeo-90k数据集来自于T.Xue等人在文献"T.Xue,B.Chen,J.Wu,D.Wei,and W.T.Freeman,"Video enhancementwith task-oriented flow,"International Journal of Computer Vision,vol.127,no.8,pp.1106-1125,2019."包含了3782组图片,每组包含连续的3帧图像。
实验中选择5种已有方法和本发明方法进行效果对比,分别为:(1)文献"S.Meyer,A.McWilliams,A.Hornung,M.Gross,and C.Schroers.PhaseNet for Video FrameInterpolation.IEEE Conference on Computer Vision and Pattern Recognition,2018,pp.498-507."提出的基于相位的PhaseNet方法;(2)文献"S.Niklaus,L.Mai,andF.Liu.Video Frame Interpolation via Adaptive Separable Convolution.IEEEInternational Conference on Computer Vision,2017,pp.261-270."提出的基于卷积核的SepConv方法;(3)文献"H.Lee,T.Kim,T.Chung,D.Pak,Y.Ban,and S.Lee.AdaCoF:Adaptive Collaboration of Flows for Video Frame Interpolation.IEEE Conferenceon Computer Vision and Pattern Recognition,2020,pp.5316-5325."提出的基于卷积核的AdoCoF方法;(4)文献"H.Jiang,D.Sun,V.Jampani,M.Yang,E.Miller,andJ.Kautz.Super Slomo:High Quality Estimation of Multiple Intermediate Framesfor Video Interpolation.IEEE Conference on Computer Vision and PatternRecognition,2018,pp.9000-9008."提出的基于光流的DVF方法;(5)文献"Z.Liu,R.Yeh,X.Tang,Y.Liu,and A.Agarwala.Video Frame Synthesis Using Deep Voxel Flow.IEEEConference on Computer Vision and Pattern Recognition,2017,pp.4463–4471."提出的基于光流的Super SloMo方法。
分别计算PSNR和SSIM,作为生成中间帧图像的评价指标,表1是基于测试集UCF101和Vimeo-90K上测试的结果。可以看出,本发明的方法在UCF101数据集上SSIM指标达到了最优,在Vimeo-90k数据集上虽然没有超越Super SloMo方法,但是本发明并没有使用真实的中间帧作为监督信号,而是采取了视频外插的方法在生成的中间帧的基础上生成新的输入帧,本发明使用的训练集是有监督方法的六分之一,避免使用大量高帧率的视频数据集作为训练集,减少昂贵拍摄仪器的使用以及对专业摄影技术的要求。图2是基于UCF101数据集上得到的插帧结果图像。在视觉效果上,本发明的方法在UCF101数据集上生成的中间帧达到了最完整和最清晰的效果。
表1
Figure GDA0003846570620000081

Claims (1)

1.一种基于无监督对偶学习的视频插帧方法,其特征在于步骤如下:
步骤1:使用Adobe240-fps视频数据集作为训练集,将其所有视频帧图像中的任意连续12帧图像作为一组数据;
步骤2:从步骤1得到的一组视频帧图像中随机选取连续9帧图像中的第1帧和第9帧图像,分别记为Ii和Ij,输入到无监督的双向光流网络U-Net1中,输出得到双向光流信息Fi→j和Fj→i,其中,Fi→j表示从图像Ii到图像Ij的光流信息,Fj→i表示从图像Ij到图像Ii的光流信息;
所述的无监督的双向光流网络U-Net1由编码器Encoder和解码器Decoder两部分组成,编码器Encoder包含五个模块,每个模块包含两个卷积层和一个池化层,第一个模块卷积层的卷积核大小为7*7、步长为1、填充步长为0,第二个模块卷积层的卷积核大小为5*5、步长为1、填充步长为0,其他模块卷积层的卷积核大小为3*3、步长为1、填充步长为0,每两个卷积层之间用Leaky ReLU激活函数连接,除了最后一个模块,每个模块对卷积层提取的图像特征进行平均池化,池化层的大小为7*7、步长为2、填充步长为3,将两帧图像输入到编码器Encoder,输出得到两帧图像的特征;解码器Decoder包含五个模块,每一个模块包含两个卷积层,卷积层的卷积核大小为3*3、步长为1、填充步长为0,将编码器Encoder输出的图像特征输入到解码器Decoder,输出得到光流信息;
步骤3:分别按下式计算得到中间光流信息
Figure FDA0003846570610000011
Figure FDA0003846570610000012
Figure FDA0003846570610000013
Figure FDA0003846570610000014
其中,将两帧图像Ii和Ij间的时间距离视为1,It表示这两帧图像之间t时刻的图像,t为1/2时刻、1/3时刻或1/4时刻;
Figure FDA0003846570610000015
表示从图像It到图像Ii的中间光流信息,
Figure FDA0003846570610000016
表示从图像It到图像Ij的中间光流信息;
步骤4:对图像Ii和中间光流信息
Figure FDA0003846570610000017
进行双线性插值,得到中间帧图像It→i;对图像Ij和中间光流信息
Figure FDA0003846570610000018
进行双线性插值,得到中间帧图像It→j
步骤5:将图像Ii和Ij、双向光流信息Fi→j和Fj→i、中间光流信息
Figure FDA0003846570610000019
Figure FDA00038465706100000110
中间帧图像It→i和It→j输入到细化光流模块U-Net2网络中,输出细化后的中间光流信息Ft→i、Ft→j,其中,Ft→i表示图像It到图像Ii的细化后的中间光流信息,Ft→j表示图像It到图像Ij的细化后的中间光流信息;
所述的细化光流模块U-Net2网络包括编码器Encoder和解码器Decoder两部分组成,编码器Encoder包含五个模块,每个模块包含两个卷积层和一个池化层,每个卷积层的卷积核大小为3*3、步长为1、填充步长为0,每两个卷积层之间用Leaky ReLU激活函数连接,除了最后一个模块,每个模块对卷积层提取的图像特征进行平均池化,池化层的大小为7*7、步长为2、填充步长为3;解码器Decoder也包含五个模块,每个模块包含两个卷积层,每个卷积层的卷积核大小均为3*3、步长为1、填充步长为0;
步骤6:按下式计算得到细化后的中间帧图像
Figure FDA0003846570610000021
Figure FDA0003846570610000022
其中,
Figure FDA0003846570610000023
表示相乘,warp(·,·)表示对两幅输入图像进行双线性插值处理;V表示中间图像,按照下式计算得到:
V=(1-t)Ct→i+tCt→j (4)
其中,Ct→i表示图像It中的像素点在图像Ii中存在的概率值,Ct→j表示图像It中的像素点在图像Ij中存在的概率值,Ct→i和Ct→j的取值均在0~1之间;
步骤7:将原输入图像Ii
Figure FDA0003846570610000024
Ij
Figure FDA0003846570610000025
分别输入到无监督的双向光流网络U-Net1,分别输出双向光流信息F* t→i、F* i→t和F* t→j、F* j→t,其中,F* t→i表示从图像
Figure FDA0003846570610000026
到图像Ii的光流信息,F* i→t表示从图像Ii到图像
Figure FDA0003846570610000029
的光流信息,F* t→j表示从图像
Figure FDA00038465706100000210
到图像Ij的光流信息,F* j→t表示从图像Ij到图像
Figure FDA00038465706100000211
的光流信息;
步骤8:分别按照下式计算得到细化后的双向光流信息F* j→i和F* i→j
Figure FDA0003846570610000027
Figure FDA0003846570610000028
其中,F* j→i表示从图像Ij到图像Ii的细化光流信息,F* i→j表示从图像Ii到图像Ij的细化光流信息;
步骤9:对图像Ii和细化光流信息F* j→i进行双线性插值,得到新的图像I* i;对图像Ij和细化光流信息F* i→j进行双线性插值,得到新的图像I* j
步骤10:返回步骤1对网络进行迭代训练,直到网络参数epoch达到300epoch,得到训练好的网络,并以此时得到的细化后的中间帧图像
Figure FDA0003846570610000031
作为最终插帧结果图像。
CN202111296659.2A 2021-11-04 2021-11-04 一种基于无监督对偶学习的视频插帧方法 Active CN114066730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111296659.2A CN114066730B (zh) 2021-11-04 2021-11-04 一种基于无监督对偶学习的视频插帧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111296659.2A CN114066730B (zh) 2021-11-04 2021-11-04 一种基于无监督对偶学习的视频插帧方法

Publications (2)

Publication Number Publication Date
CN114066730A CN114066730A (zh) 2022-02-18
CN114066730B true CN114066730B (zh) 2022-10-28

Family

ID=80273921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111296659.2A Active CN114066730B (zh) 2021-11-04 2021-11-04 一种基于无监督对偶学习的视频插帧方法

Country Status (1)

Country Link
CN (1) CN114066730B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114640885B (zh) * 2022-02-24 2023-12-22 影石创新科技股份有限公司 视频插帧方法、训练方法、装置和电子设备
CN117082295B (zh) * 2023-09-21 2024-03-08 荣耀终端有限公司 图像流处理方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151474A (zh) * 2018-08-23 2019-01-04 复旦大学 一种生成新视频帧的方法
CN109756690A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于特征级别光流的轻量级视频插值方法
CN112040311A (zh) * 2020-07-24 2020-12-04 北京航空航天大学 视频图像补帧方法、装置、设备及可存储介质
CN112422870A (zh) * 2020-11-12 2021-02-26 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
CN112465725A (zh) * 2020-12-10 2021-03-09 西安交通大学 一种基于PWC-Net的红外图像帧率上转换方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10003768B2 (en) * 2016-09-28 2018-06-19 Gopro, Inc. Apparatus and methods for frame interpolation based on spatial considerations
US10776688B2 (en) * 2017-11-06 2020-09-15 Nvidia Corporation Multi-frame video interpolation using optical flow
KR102244187B1 (ko) * 2019-10-31 2021-04-26 한국과학기술원 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치
US11430138B2 (en) * 2020-03-05 2022-08-30 Huawei Technologies Co., Ltd. Systems and methods for multi-frame video frame interpolation
CN111583300B (zh) * 2020-04-23 2023-04-25 天津大学 一种基于富集目标形态变化更新模板的目标跟踪方法
CN112584077B (zh) * 2020-12-11 2023-02-21 北京百度网讯科技有限公司 视频的插帧方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151474A (zh) * 2018-08-23 2019-01-04 复旦大学 一种生成新视频帧的方法
CN109756690A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于特征级别光流的轻量级视频插值方法
CN112040311A (zh) * 2020-07-24 2020-12-04 北京航空航天大学 视频图像补帧方法、装置、设备及可存储介质
CN112422870A (zh) * 2020-11-12 2021-02-26 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
CN112465725A (zh) * 2020-12-10 2021-03-09 西安交通大学 一种基于PWC-Net的红外图像帧率上转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度体素流的模糊视频插帧方法;林传健等;《计算机应用》;20200331(第03期);全文 *

Also Published As

Publication number Publication date
CN114066730A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN110969577B (zh) 一种基于深度双重注意力网络的视频超分辨率重建方法
Yang et al. Sparse gradient regularized deep retinex network for robust low-light image enhancement
WO2021208122A1 (zh) 基于深度学习的视频盲去噪方法及装置
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN114066730B (zh) 一种基于无监督对偶学习的视频插帧方法
TW202134997A (zh) 用於對影像進行去雜訊的方法、用於擴充影像資料集的方法、以及使用者設備
CN111667424B (zh) 一种基于无监督的真实图像去噪方法
CN111179167A (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN112381866B (zh) 一种基于注意力机制的视频比特增强方法
CN111709896A (zh) 一种将ldr视频映射为hdr视频的方法和设备
CN111008938B (zh) 一种基于内容和连续性引导的实时多帧比特增强方法
CN116152120B (zh) 一种融合高低频特征信息的低光图像增强方法及装置
WO2023005140A1 (zh) 视频数据处理方法、装置、设备以及存储介质
CN113066022B (zh) 一种基于高效时空信息融合的视频比特增强方法
WO2023000179A1 (zh) 视频超分辨网络及视频超分辨、编解码处理方法、装置
CN113506224A (zh) 基于多尺度生成对抗网络的图像修复方法
CN113850718A (zh) 一种基于帧间特征对齐的视频同步时空超分方法
CN110211037B (zh) 一种基于多级稀疏字典学习的图像超分辨率方法
Lin et al. SMNet: synchronous multi-scale low light enhancement network with local and global concern
CN116703752A (zh) 融合近红外的Transformer结构的图像去雾方法及装置
Xu et al. Deep parametric 3d filters for joint video denoising and illumination enhancement in video super resolution
CN113034401B (zh) 视频去噪方法及装置、存储介质及电子设备
CN116228550A (zh) 一种基于生成对抗网络的图像自增强去雾算法
CN116977191A (zh) 画质提升模型的训练方法和视频会议系统画质的提升方法
Mao et al. Aggregating Global and Local Representations via Hybrid Transformer for Video Deraining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant