CN112422870B - 一种基于知识蒸馏的深度学习视频插帧方法 - Google Patents

一种基于知识蒸馏的深度学习视频插帧方法 Download PDF

Info

Publication number
CN112422870B
CN112422870B CN202011263428.7A CN202011263428A CN112422870B CN 112422870 B CN112422870 B CN 112422870B CN 202011263428 A CN202011263428 A CN 202011263428A CN 112422870 B CN112422870 B CN 112422870B
Authority
CN
China
Prior art keywords
frame
optical flow
network
interpolation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011263428.7A
Other languages
English (en)
Other versions
CN112422870A (zh
Inventor
颜波
谭伟敏
周诗力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202011263428.7A priority Critical patent/CN112422870B/zh
Publication of CN112422870A publication Critical patent/CN112422870A/zh
Application granted granted Critical
Publication of CN112422870B publication Critical patent/CN112422870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本发明属于数字视频智能处理技术领域,具体为一种基于知识蒸馏的深度学习视频插帧方法。本发明使用参考答案网络和插帧网络,具体步骤包括:将相邻帧和目标帧一起作为输入,训练参考答案网络,首先出估计帧之间的光流,最后通过光流重构目标帧;训练插帧网络,用参考答案网络的光流作为辅助的监督数据,完成蒸馏学习;其中,参考答案模型和插帧模型都包含两个子模块:光流模块和目标帧合成模块;本发明的优势在于训练时不需要昂贵的带有光流标注的数据集,只需要用常见的连续视频数据。实验结果表明,采用本发明的训练方式,插帧模型的性能能够得到明显提升。

Description

一种基于知识蒸馏的深度学习视频插帧方法
技术领域
本发明属于数字视频智能处理技术领域,涉及一种视频插帧的方法,更具体地说,涉及一种基于知识蒸馏的深度学习视频插帧方法。
背景技术
视频插帧是通过合并两个给定的相邻帧来生成一个或多个看不见的中间帧的任务。使用视频插帧方法,我们可以从任何连续视频片段中生成更高帧率的视频,这对许多实际应用很有帮助。首先,高帧率视频对人类感知更友好[1][2]。其次,帧插值有利于视频压缩,可以节省存储空间或网络传输带宽[3]。此外,帧插值还可用于其他一些应用场合,如:视角合成[4],视频去抖动[5],老电影修复[6]等。
视频插帧已经被广泛研究,并且学术和工业界已经提出了许多视频插帧方法。近年来,随着深度CNN(卷积神经网络)的提出,深度学习方法已成为计算机视觉和图像/视频处理领域的主流。许多基于深度学习的视频插帧方法都取得了令人印象深刻的性能。
视频插帧最常见的思路是使用光流合成中间帧。这些方法被称为基于流的帧插值方法。由于基于深度学习的光流估计模型[7][8]的快速发展,基于流的插帧方法也迅速发展。由于插帧的光流是一种特殊的光流,其模型需要特别训练,一类方法首先训练这种特殊光流模块[9][10]。这类方法有一个缺点:由于光流标注昂贵稀缺,能用于训练的光流数据集通常有很大局限性,不能代表各种不同视频的情况;同时现有的光流数据集非常庞大,使得训练光流网络耗时且麻烦。另有一类方法,利用现用光流模型估计相邻帧之间的流,然后通过前向扭曲(forward warping),将看不见的中间目标帧的流图或特征合成[11][12][13]。因为前向扭曲具有重叠和空洞等缺点,这类方法的插帧效果受到影响。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种不依赖光流数据集和现有的光流网络的基于知识蒸馏的深度学习视频插帧方法。本发明采用参考答案模型指导下的知识蒸馏,不仅降低了光流模块的训练难度,同时提升了插帧模型的整体性能。
本发明提出的基于知识蒸馏的深度学习视频插帧方法,如图1,其中,使用一个参考答案网络(教师模型)和一个插帧网络(学生模型),具体步骤为:
(1)将相邻帧和目标帧一起作为输入,训练参考答案网络,它首先估计帧之间的光流,最后通过光流重构目标帧;
(2)训练插帧网络,用步骤(1)中参考答案网络的光流作为辅助的监督数据,完成蒸馏学习。
本方法中提到的参考答案模型(教师模型)和插帧模型(学生模型)都包含两个子模块:
(1)光流模块,该模块用于从输入的帧中计算出目标帧到相邻两帧的光流。其过程为:首先进行编码,用一个特征提取器,提取出每一帧输入图片的多尺度特征;然后是在多尺度金字塔结构上进行由粗到细的光流估计,如图2,在金字塔的每一个层级中,具体流程为:使用上一个分辨率更低的层级的预测值进行双线性插值上采样,作为光流的初始值;利用初始光流将输入不同帧的对应层次特征进行扭曲(warping)对齐;利用局部cost volume(立体匹配成本)作为衡量对齐程度及偏差的一组特征;将原图、特征图、初始光流以及上述cost volume特征输入到由卷积层和ReLU组成的光流估计模块中,估计出更精细的光流。其中,参考答案模型和插帧模型的区别在于:参考答案模型已知作为光流起点的目标帧,所以可以使用现有的光流模型和参数作初始化;而插帧模型没有目标帧的输入,因此是一种特殊的光流估计任务。插帧模型的光流模块在上述光流模型的基础上增加了对称的结构。
(2)目标帧合成模块,使用上一个光流模块估计到的光流,合成目标帧。参考答案模型和插帧模型采用了完全一样模型结构。但为了说明本发明的训练方法的通用性,本发明采取了两种不同的目标帧合成模块结构。
第一种结构的原理如下公式:
Figure BDA0002775362910000021
其中,I1,I3为输入的第一帧和第三帧图像,V代表遮挡图,
Figure BDA0002775362910000022
为反向扭曲操作,fu→v代表从u帧到v帧的光流,
Figure BDA0002775362910000023
为插帧得到的中间帧,“*”、“+”分别为逐元素的乘法和加法运算。式(1)的含义为,直接使用光流将两个相邻帧对齐至目标帧位置,再通过遮挡图V来决定目标帧中的每个像素更参考哪一个相邻帧。为此,如图3,采用三个结构相同的由卷积层组成的细化模块来逐步地上采用并细化光流和遮挡图。
第二种结构的原理如下公式:
Figure BDA0002775362910000024
其中,Fu为第u帧的特征,CNN为一个卷积神经网络,其余同式(1)。式(2)的含义为,先从特征层面通过扭曲恢复中间帧的特征,然后使用一个解码卷积网络从特征重构出中间帧;如图4,所述解码卷积网络结构采用Grid-Net,使用三个尺度下的特征做输入,利用多个网格状连接的卷积块和上/下采样块,最终得到重构的中间帧RBG图像。
训练参考答案网络时,采用对中间帧的重构损失来约束网络的学习;具体的损失函数为拉普拉斯金字塔损失,其公式如下:
Figure BDA0002775362910000031
其中,
Figure BDA0002775362910000032
为估计的中间帧,Igt为实际的中间帧,Li(I)为图I的拉普拉斯金字塔的第i级,|*,*|1为L1范数。
对于第一种目标帧合成模块,由于光流和遮挡图是逐步细化和提升分辨率的,可以直接合成多尺度的目标帧,为此,
Figure BDA0002775362910000035
被添加到了多个尺度的合成结果上。
训练插帧网络时,除了上述重构损失,还将参考答案模型预测的光流当作一个额外的监督项,为光流添加蒸馏损失,公式如下:
Figure BDA0002775362910000033
其中,fu→v,tea为从第u帧到第v帧的参考答案模型预测的光流,fu→v,stu为从第u帧到第v帧的学生模型预测的光流,∈=0.01,q=0.4,其余同式(2);总的损失函数公式如下:
Figure BDA0002775362910000034
其中,λ初始设置为100,在训练过程中动态调整,具体是在训练进行30epoch、40epoch、50epoch时减半。
本发明的参考答案模型只出现在训练过程中,测试时只涉及插帧模型。因此,本发明的运行效率与现有的简单插帧模型相当。
本发明的有益效果在于:使用本发明的方式训练插帧模型时,不需要依赖于昂贵且局限性较大的光流数据集,而是通过知识蒸馏,可以直接从视频数据中学习到较理想的光流,从而更好地指导插帧。因此,本发明降低了插帧模型的训练成本。本发明还避免了使用前向扭曲,避免了由此产生的光流图中的空洞和重叠,进一步地提高了成品插帧模型的插帧效果。
附图说明
图1为本发明的网络框架图。
图2为本发明光流模型结构图(主要展示单层次的流程)。
图3为第一种中间帧生成模型结构图。
图4为第二种中间帧生成模型结构图。
图5为本发明的蒸馏训练模型与其他方案在插帧结果和光流图上的对比。
图6为本发明的蒸馏训练模型与现有插帧方法的对比。
具体实施方式
下面对本发明实施方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
采用图1中的模型训练方式,通过从参考答案模型中进行知识蒸馏来约束插帧模型的光流。具体步骤为:
(1)确定模型结构。参考答案模型的光流估计模块选择PWC-Net,学生插帧模型的光流模块选择本发明提出的如图2的光流模型。目标帧合成模块可以使用本发明提出的两种目标帧合成模块结构的任意一种,分别如图3和图4。但参考答案模型和学生模型选择的目标帧合成模块结构应当一致。
(2)准备训练数据集。推荐采用Vimeo-90k数据集[10]中的Triplet数据集,其包含了73171个连续三帧图像组成的三元组。在训练过程中采取数据增强策略:首先采用随机时序翻转,将第一帧和第三帧的位置随机调换;然后采取随机裁剪,从原图中裁剪出随机的256*256区域,三帧图像的裁剪区域需要一致;然后对图像内容采取随机的竖直、水平方向的翻转,同样的,三帧的翻转情况应该保持一致。
(3)端到端训练参考答案模型。此模型将相邻帧与目标帧都作为输入,先通过光流估计模块计算出以中间帧(第二帧)为起点的光流图,最后根据光流和相邻帧,通过目标帧合成模块重构出目标中间帧。使用PWC-Net的预训练参数作为光流模块的初始参数。训练时初始学习率设置为0.001,批大小(batch size)设为8,使用Adam优化器,损失函数设置为拉普拉斯金字塔损失函数。首先冻结光流模块部分的参数,对目标帧合成模块进行30个epoch的预训练,目的是预先对所有未初始化的参数进行热身初始化。然后解冻整个模型的参数,对参考答案模型进行70个epoch的训练,并在50epoch和60epoch时进行0.1倍衰减。
(4)然后端到端训练插帧模型(学生模型)。此模型同样是输入相邻帧,首先通过光流模块计算出以中间帧为起点的光流图,然后根据光流和相邻帧,通过目标帧合成模块重构出目标中间帧。不同于参考答案模型,学生模型的光流模型采用图2中的对称结构的网络,随机化初始参数。除了使用与训练参考答案模型时相同的拉普拉斯金字塔损失函数来约束生成的中间帧,还需要用一种知识蒸馏的形式,以参考答案模型的中间光流估计值来约束插帧模型的光流模块。蒸馏损失乘以系数λ后加入总损失之中。其他训练设置和步骤(1)中一样。此模型同样可以预先进行光流模块的预训练,需要使用如FlyingThings3D[14]的光流数据集。
(5)测试时,只需要加载和运行插帧网络(学生网络)即可。在显存能够接受的范围中,可以使用任意分辨率的两张同样大小的相邻帧作为模型输入。为了避免不同操作下采样时的目标分辨率不一致,可以预先对输入作padding(分辨率填充),将其分辨率调整至64的倍数。单次运行模型可以插出一帧图像,通过将一个视频的每相邻两帧作为输入,就可以将整个视频的帧率提升至两倍。如果需要得到更高帧率的视频,可以迭代地多次将视频送入本发明的插帧模型处理。
图5为本发明中的蒸馏训练方式和其他替代训练方式的可视化对比。第一行是插帧结果,后两行为对应的光流估计结果。可以看到,未使用本发明的蒸馏训练的前两个插帧模型,不能正确还原出在右侧运动的小球。而使用现有光流模型和前向扭曲进行对齐的第三个模型会产生多孔洞的不够完善的光流结果。与之相比,本发明得到的光流图和插帧结果图都是最完善的。
图6为本发明与一些现有方法插帧方法的结果对比。可以看到,最右侧一列中的本发明的两种不同模型都能恢复出优于其他方法的更加正确的结构。
参考文献
[1]Kuroki,Y.;Nishi,T.;Kobayashi,S.;Oyaizu,H.;andYoshimura,S.2007.Apsychophysical study of improvements in motion-image quality by using highframe rates.Journal of the Society for Information Display 15(1):61–68.
[2]Kuroki,Y.;Takahashi,H.;Kusakabe,M.;and Yamakoshi,K.-i.2014.Effectsof motion image stimuli with normal andhigh frame rates on EEG power spectra:comparison withcontinuous motion image stimuli.Journal of the SocietyforInformation Display 22(4):191–198.
[3]Wu,C.-Y.;Singhal,N.;and Krahenbuhl,P.2018.Videocompression throughimage interpolation.In Proceedingsof the European Conference on ComputerVision(ECCV),416–431.
[4]Shishido,H.;Harazaki,A.;Kameda,Y.;and Kitahara,I.2019.Smoothswitching method for asynchronous multipleviewpoint videos using frameinterpolation.Journal of VisualCommunication and Image Representation 62:68–76.
[5]Choi,J.;and Kweon,I.S.2020.Deep iterative frame interpolation forfull-frame videostabilization.ACM Transactions on Graphics(TOG)39(1):1–9.
[6]Xia,T.;Ding,Y.;Yu,B.;and Huang,X.2018.Patch-based frameinterpolation for old films via the guidance of motion paths.In NinthInternational Conference on Graphic and Image Processing(ICGIP 2017),volume10615,106154G.International Society for Optics and Photonics.
[7]Ranjan,A.;and Black,M.J.2017.Optical flow estimationusing aspatial pyramid network.In Proceedings of the IEEEConference on ComputerVision and Pattern Recognition,4161–4170.
[8]Sun,D.;Yang,X.;Liu,M.-Y.;and Kautz,J.2018.Pwcnet:Cnns for opticalflow usingpyramid,warping,and costvolume.In Proceedings of the IEEEConference on ComputerVision and Pattern Recognition,8934–8943.
[9]Liu,Z.;Yeh,R.A.;Tang,X.;Liu,Y.;and Agarwala,A.2017.Video framesynthesis usingdeep voxel flow.In Proceedings of the IEEE InternationalConference on ComputerVision,4463–4471.
[10]Xue,T.;Chen,B.;Wu,J.;Wei,D.;and Freeman,W.T.2019.Videoenhancement with task-oriented flow.InternationalJournal of Computer Vision127(8):1106–1125.
[11]Jiang,H.;Sun,D.;Jampani,V.;Yang,M.-H.;LearnedMiller,E.;and Kautz,J.2018.Super slomo:High qualityestimation of multiple intermediate frames forvideo interpolation.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,9000–9008.
[12]Niklaus,S.;and Liu,F.2018.Context-aware synthesis forvideo frameinterpolation.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,1701–1710.
[13]Niklaus,S.;and Liu,F.2020.Softmax Splatting for VideoFrameInterpolation.In Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,5437–5446.
[14]Mayer,N.;Ilg,E.;Hausser,P.;Fischer,P.;Cremers,D.;Dosovitskiy,A.;and Brox,T.2016.A large dataset to trainconvolutional networks for disparity,optical flow,and sceneflow estimation.In Proceedings of the IEEE conferenceoncomputer vision and pattern recognition,4040–4048.

Claims (4)

1.一种基于知识蒸馏的深度学习视频插帧方法,其特征在于,使用一个参考答案网络和一个插帧网络,具体步骤为:
(1)将相邻帧和目标帧一起作为输入,训练参考答案网络,首先估计出帧之间的光流,最后通过光流重构目标帧;
(2)训练插帧网络,用步骤(1)中参考答案网络的光流作为辅助的监督数据,完成蒸馏学习;
其中,所述参考答案网络和插帧网络都包含两个子模块:
(1)光流模块,该模块用于从输入的帧中计算出目标帧到相邻两帧的光流;其过程为:首先进行编码,用一个特征提取器,提取出每一帧输入图片的多尺度特征;然后是在多尺度金字塔结构上进行由粗到细的光流估计,在金字塔的每一个层级中,具体流程为:使用上一个分辨率更低的层级的预测值进行双线性插值上采样,作为光流的初始值;利用初始光流将输入不同帧的对应层次特征进行扭曲对齐;利用局部立体匹配成本作为衡量对齐程度及偏差的一组特征;将原图、特征图、初始光流以及上述立体匹配成本特征输入到由卷积层和线性整流函数组成的光流估计模块中,估计出更精细的光流;其中,参考答案网络和插帧网络的区别在于:参考答案网络已知作为光流起点的目标帧,所以使用现有的光流模型和参数作初始化;而插帧网络没有目标帧的输入,因此是一种特殊的光流估计任务;插帧网络的光流模块在上述光流模型的基础上增加了对称的结构;
(2)目标帧合成模块,使用上一个光流模块估计到的光流,合成目标帧。
2.根据权利要求1所述的基于知识蒸馏的深度学习视频插帧方法,其特征在于,所述的目标帧合成模块采用两种不同的结构;其中:
第一种结构的原理如下公式:
Figure FDA0003152453850000011
其中,I1,I3为输入的第一帧和第三帧图像,V代表遮挡图,
Figure FDA0003152453850000012
为反向扭曲操作,fu→v代表从u帧到v帧的光流,
Figure FDA0003152453850000013
为插帧得到的中间帧,*、+分别为逐元素的乘法和加法运算;式(1)的含义为,直接使用光流将两个相邻帧对齐至目标帧位置,再通过遮挡图V来决定目标帧中的每个像素更参考哪一个相邻帧;为此,采用三个结构相同的由卷积层组成的细化模块来逐步地上采样并细化光流和遮挡图;
第二种结构的原理如下公式:
Figure FDA0003152453850000014
其中,Fu为第u帧的特征,CNN为一个卷积神经网络,其余同式(1);式(2)的含义为,先从特征层面通过扭曲恢复中间帧的特征,然后使用一个解码卷积网络从特征重构出中间帧;所述解码卷积网络结构采用网格网,使用三个尺度下的特征做输入,利用多个网格状连接的卷积块和上/下采样块,最终得到重构的中间帧RBG图像。
3.根据权利要求2所述的基于知识蒸馏的深度学习视频插帧方法,其特征在于:
训练参考答案网络时,采用对中间帧的重构损失来约束网络的学习;具体的损失函数为拉普拉斯金字塔损失,其公式如下:
Figure FDA0003152453850000021
其中,
Figure FDA0003152453850000025
为估计的中间帧,Igt为实际的中间帧,Li(I)为拉普拉斯金字塔的第i级,|*,*|1为L1范数;
对于第一种目标帧合成模块,由于光流和遮挡图是逐步细化和提升分辨率的,可以直接合成多尺度的目标帧,为此,把
Figure FDA0003152453850000022
添加到多个尺度的合成结果上;
训练插帧网络时,除了上述重构损失,还将参考答案网络预测的光流当作一个额外的监督项,为光流添加蒸馏损失,公式如下:
Figure FDA0003152453850000023
其中,fu→v,tea为从第u帧到第v帧的参考答案网络预测的光流,fu→v,stu为从第u帧到第v帧的学生模型预测的光流,∈=0.01,q=0.4,其余同式(2);总的损失函数公式如下:
Figure FDA0003152453850000024
其中,λ初始设置为100,在训练过程中动态调整,具体是在训练进行30epoch、40epoch、50epoch时减半。
4.根据权利要求3所述的基于知识蒸馏的深度学习视频插帧方法,其特征在于,测试时只使用插帧网络。
CN202011263428.7A 2020-11-12 2020-11-12 一种基于知识蒸馏的深度学习视频插帧方法 Active CN112422870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011263428.7A CN112422870B (zh) 2020-11-12 2020-11-12 一种基于知识蒸馏的深度学习视频插帧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011263428.7A CN112422870B (zh) 2020-11-12 2020-11-12 一种基于知识蒸馏的深度学习视频插帧方法

Publications (2)

Publication Number Publication Date
CN112422870A CN112422870A (zh) 2021-02-26
CN112422870B true CN112422870B (zh) 2021-09-17

Family

ID=74831100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011263428.7A Active CN112422870B (zh) 2020-11-12 2020-11-12 一种基于知识蒸馏的深度学习视频插帧方法

Country Status (1)

Country Link
CN (1) CN112422870B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066730B (zh) * 2021-11-04 2022-10-28 西北工业大学 一种基于无监督对偶学习的视频插帧方法
CN114339409B (zh) * 2021-12-09 2023-06-20 腾讯科技(上海)有限公司 视频处理方法、装置、计算机设备及存储介质
CN114554248B (zh) * 2022-04-27 2022-08-02 杭州微帧信息科技有限公司 一种基于神经网络的视频插帧方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108989731A (zh) * 2018-08-09 2018-12-11 复旦大学 一种提高视频空间分辨率的方法
CN109905624A (zh) * 2019-03-01 2019-06-18 北京大学深圳研究生院 一种视频帧插值方法、装置及设备
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
CN110351511A (zh) * 2019-06-28 2019-10-18 上海交通大学 基于场景深度估计的视频帧率上变换系统及方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN110503128A (zh) * 2018-05-18 2019-11-26 百度(美国)有限责任公司 使用卷积生成对抗网络进行波形合成的谱图
CN111401406A (zh) * 2020-02-21 2020-07-10 华为技术有限公司 一种神经网络训练方法、视频帧处理方法以及相关设备
CN111709410A (zh) * 2020-08-20 2020-09-25 深兰人工智能芯片研究院(江苏)有限公司 一种强动态视频的行为识别方法
CN111898701A (zh) * 2020-08-13 2020-11-06 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235058B (zh) * 2018-01-12 2021-09-17 广州方硅信息技术有限公司 视频质量处理方法、存储介质和终端
US20200081431A1 (en) * 2018-09-07 2020-03-12 DoorDash, Inc. Video system with frame synthesis
CN109379550B (zh) * 2018-09-12 2020-04-17 上海交通大学 基于卷积神经网络的视频帧率上变换方法及系统
CN110139046B (zh) * 2019-05-05 2021-03-23 西安电子科技大学 一种基于张量的视频帧合成方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN110503128A (zh) * 2018-05-18 2019-11-26 百度(美国)有限责任公司 使用卷积生成对抗网络进行波形合成的谱图
CN108989731A (zh) * 2018-08-09 2018-12-11 复旦大学 一种提高视频空间分辨率的方法
CN109905624A (zh) * 2019-03-01 2019-06-18 北京大学深圳研究生院 一种视频帧插值方法、装置及设备
CN110351511A (zh) * 2019-06-28 2019-10-18 上海交通大学 基于场景深度估计的视频帧率上变换系统及方法
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN111401406A (zh) * 2020-02-21 2020-07-10 华为技术有限公司 一种神经网络训练方法、视频帧处理方法以及相关设备
CN111898701A (zh) * 2020-08-13 2020-11-06 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN111709410A (zh) * 2020-08-20 2020-09-25 深兰人工智能芯片研究院(江苏)有限公司 一种强动态视频的行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Distortion-Aware Multi-task Learning Framework for Fractional Interpolation in Video Coding;Liangwei Yu;《IEEE》;20201002;全文 *
An Analytical Study of CNN-based Video Frame Interpolation Techniques;Kshitija Pandya;《IEEE》;20200119;全文 *
深度神经网络知识蒸馏综述;韩宇;《计算机科学与应用》;20200930;第10卷(第9期);全文 *
超高清视频画质提升技术及其芯片化方案;高新波等;《重庆邮电大学学报(自然科学版)》;20201015(第05期);全文 *

Also Published As

Publication number Publication date
CN112422870A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
Xiao et al. Satellite video super-resolution via multiscale deformable convolution alignment and temporal grouping projection
CN112422870B (zh) 一种基于知识蒸馏的深度学习视频插帧方法
Ye et al. PMBANet: Progressive multi-branch aggregation network for scene depth super-resolution
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
Ancuti et al. Ntire 2019 image dehazing challenge report
CN111709895A (zh) 基于注意力机制的图像盲去模糊方法及系统
CN113139898B (zh) 基于频域分析和深度学习的光场图像超分辨率重建方法
Vasluianu et al. NTIRE 2023 image shadow removal challenge report
Yi et al. Efficient and accurate multi-scale topological network for single image dehazing
Yin et al. Visual attention dehazing network with multi-level features refinement and fusion
Zhu et al. Multi-stream fusion network with generalized smooth L 1 loss for single image dehazing
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
Chen et al. Image denoising via deep network based on edge enhancement
Zheng et al. Double-branch dehazing network based on self-calibrated attentional convolution
CN114926337A (zh) 基于CNN和Transformer混合网络的单幅图像超分辨率重建方法及系统
Liu et al. Efficient light field angular super-resolution with sub-aperture feature learning and macro-pixel upsampling
Tang et al. Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction
CN112598604A (zh) 一种盲脸复原方法及系统
CN116468605A (zh) 基于时空分层掩膜注意力融合的视频超分辨率重建方法
Han et al. MPDNet: An underwater image deblurring framework with stepwise feature refinement module
Wan et al. Progressive convolutional transformer for image restoration
CN116266336A (zh) 视频超分辨率重建方法、装置、计算设备及存储介质
CN115170921A (zh) 一种基于双边网格学习和边缘损失的双目立体匹配方法
CN112016456B (zh) 基于自适应反向投影深度学习的视频超分辨率方法及系统
Zhu et al. HDRD-Net: High-resolution detail-recovering image deraining network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant