CN112422870B

CN112422870B - 一种基于知识蒸馏的深度学习视频插帧方法

Info

Publication number: CN112422870B
Application number: CN202011263428.7A
Authority: CN
Inventors: 颜波; 谭伟敏; 周诗力
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-09-17
Anticipated expiration: 2040-11-12
Also published as: CN112422870A

Abstract

本发明属于数字视频智能处理技术领域，具体为一种基于知识蒸馏的深度学习视频插帧方法。本发明使用参考答案网络和插帧网络，具体步骤包括：将相邻帧和目标帧一起作为输入，训练参考答案网络，首先出估计帧之间的光流，最后通过光流重构目标帧；训练插帧网络，用参考答案网络的光流作为辅助的监督数据，完成蒸馏学习；其中，参考答案模型和插帧模型都包含两个子模块：光流模块和目标帧合成模块；本发明的优势在于训练时不需要昂贵的带有光流标注的数据集，只需要用常见的连续视频数据。实验结果表明，采用本发明的训练方式，插帧模型的性能能够得到明显提升。

Description

一种基于知识蒸馏的深度学习视频插帧方法

技术领域

本发明属于数字视频智能处理技术领域，涉及一种视频插帧的方法，更具体地说，涉及一种基于知识蒸馏的深度学习视频插帧方法。

背景技术

视频插帧是通过合并两个给定的相邻帧来生成一个或多个看不见的中间帧的任务。使用视频插帧方法，我们可以从任何连续视频片段中生成更高帧率的视频，这对许多实际应用很有帮助。首先，高帧率视频对人类感知更友好^[1][2]。其次，帧插值有利于视频压缩，可以节省存储空间或网络传输带宽^[3]。此外，帧插值还可用于其他一些应用场合，如：视角合成^[4]，视频去抖动^[5]，老电影修复^[6]等。

视频插帧已经被广泛研究，并且学术和工业界已经提出了许多视频插帧方法。近年来，随着深度CNN(卷积神经网络)的提出，深度学习方法已成为计算机视觉和图像/视频处理领域的主流。许多基于深度学习的视频插帧方法都取得了令人印象深刻的性能。

视频插帧最常见的思路是使用光流合成中间帧。这些方法被称为基于流的帧插值方法。由于基于深度学习的光流估计模型^[7][8]的快速发展，基于流的插帧方法也迅速发展。由于插帧的光流是一种特殊的光流，其模型需要特别训练，一类方法首先训练这种特殊光流模块^[9][10]。这类方法有一个缺点：由于光流标注昂贵稀缺，能用于训练的光流数据集通常有很大局限性，不能代表各种不同视频的情况；同时现有的光流数据集非常庞大，使得训练光流网络耗时且麻烦。另有一类方法，利用现用光流模型估计相邻帧之间的流，然后通过前向扭曲(forward warping)，将看不见的中间目标帧的流图或特征合成^[11][12][13]。因为前向扭曲具有重叠和空洞等缺点，这类方法的插帧效果受到影响。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种不依赖光流数据集和现有的光流网络的基于知识蒸馏的深度学习视频插帧方法。本发明采用参考答案模型指导下的知识蒸馏，不仅降低了光流模块的训练难度，同时提升了插帧模型的整体性能。

本发明提出的基于知识蒸馏的深度学习视频插帧方法，如图1，其中，使用一个参考答案网络(教师模型)和一个插帧网络(学生模型)，具体步骤为：

(1)将相邻帧和目标帧一起作为输入，训练参考答案网络，它首先估计帧之间的光流，最后通过光流重构目标帧；

(2)训练插帧网络，用步骤(1)中参考答案网络的光流作为辅助的监督数据，完成蒸馏学习。

本方法中提到的参考答案模型(教师模型)和插帧模型(学生模型)都包含两个子模块：

(1)光流模块，该模块用于从输入的帧中计算出目标帧到相邻两帧的光流。其过程为：首先进行编码，用一个特征提取器，提取出每一帧输入图片的多尺度特征；然后是在多尺度金字塔结构上进行由粗到细的光流估计，如图2，在金字塔的每一个层级中，具体流程为：使用上一个分辨率更低的层级的预测值进行双线性插值上采样，作为光流的初始值；利用初始光流将输入不同帧的对应层次特征进行扭曲(warping)对齐；利用局部cost volume(立体匹配成本)作为衡量对齐程度及偏差的一组特征；将原图、特征图、初始光流以及上述cost volume特征输入到由卷积层和ReLU组成的光流估计模块中，估计出更精细的光流。其中，参考答案模型和插帧模型的区别在于：参考答案模型已知作为光流起点的目标帧，所以可以使用现有的光流模型和参数作初始化；而插帧模型没有目标帧的输入，因此是一种特殊的光流估计任务。插帧模型的光流模块在上述光流模型的基础上增加了对称的结构。

(2)目标帧合成模块，使用上一个光流模块估计到的光流，合成目标帧。参考答案模型和插帧模型采用了完全一样模型结构。但为了说明本发明的训练方法的通用性，本发明采取了两种不同的目标帧合成模块结构。

第一种结构的原理如下公式：

其中，I₁,I₃为输入的第一帧和第三帧图像，V代表遮挡图，

为反向扭曲操作，f_u→v代表从u帧到v帧的光流，

为插帧得到的中间帧，“*”、“+”分别为逐元素的乘法和加法运算。式(1)的含义为，直接使用光流将两个相邻帧对齐至目标帧位置，再通过遮挡图V来决定目标帧中的每个像素更参考哪一个相邻帧。为此，如图3，采用三个结构相同的由卷积层组成的细化模块来逐步地上采用并细化光流和遮挡图。

第二种结构的原理如下公式：

其中，F_u为第u帧的特征，CNN为一个卷积神经网络，其余同式(1)。式(2)的含义为，先从特征层面通过扭曲恢复中间帧的特征，然后使用一个解码卷积网络从特征重构出中间帧；如图4，所述解码卷积网络结构采用Grid-Net，使用三个尺度下的特征做输入，利用多个网格状连接的卷积块和上/下采样块，最终得到重构的中间帧RBG图像。

训练参考答案网络时，采用对中间帧的重构损失来约束网络的学习；具体的损失函数为拉普拉斯金字塔损失，其公式如下：

其中，

为估计的中间帧，I_gt为实际的中间帧，Lⁱ(I)为图I的拉普拉斯金字塔的第i级，|*，*|₁为L1范数。

对于第一种目标帧合成模块，由于光流和遮挡图是逐步细化和提升分辨率的，可以直接合成多尺度的目标帧，为此，

被添加到了多个尺度的合成结果上。

训练插帧网络时，除了上述重构损失，还将参考答案模型预测的光流当作一个额外的监督项，为光流添加蒸馏损失，公式如下：

其中，f_u→v，tea为从第u帧到第v帧的参考答案模型预测的光流，f_u→v，stu为从第u帧到第v帧的学生模型预测的光流，∈＝0.01，q＝0.4，其余同式(2)；总的损失函数公式如下：

其中，λ初始设置为100，在训练过程中动态调整，具体是在训练进行30epoch、40epoch、50epoch时减半。

本发明的参考答案模型只出现在训练过程中，测试时只涉及插帧模型。因此，本发明的运行效率与现有的简单插帧模型相当。

本发明的有益效果在于：使用本发明的方式训练插帧模型时，不需要依赖于昂贵且局限性较大的光流数据集，而是通过知识蒸馏，可以直接从视频数据中学习到较理想的光流，从而更好地指导插帧。因此，本发明降低了插帧模型的训练成本。本发明还避免了使用前向扭曲，避免了由此产生的光流图中的空洞和重叠，进一步地提高了成品插帧模型的插帧效果。

附图说明

图1为本发明的网络框架图。

图2为本发明光流模型结构图(主要展示单层次的流程)。

图3为第一种中间帧生成模型结构图。

图4为第二种中间帧生成模型结构图。

图5为本发明的蒸馏训练模型与其他方案在插帧结果和光流图上的对比。

图6为本发明的蒸馏训练模型与现有插帧方法的对比。

具体实施方式

下面对本发明实施方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

采用图1中的模型训练方式，通过从参考答案模型中进行知识蒸馏来约束插帧模型的光流。具体步骤为：

(1)确定模型结构。参考答案模型的光流估计模块选择PWC-Net，学生插帧模型的光流模块选择本发明提出的如图2的光流模型。目标帧合成模块可以使用本发明提出的两种目标帧合成模块结构的任意一种，分别如图3和图4。但参考答案模型和学生模型选择的目标帧合成模块结构应当一致。

(2)准备训练数据集。推荐采用Vimeo-90k数据集^[10]中的Triplet数据集，其包含了73171个连续三帧图像组成的三元组。在训练过程中采取数据增强策略：首先采用随机时序翻转，将第一帧和第三帧的位置随机调换；然后采取随机裁剪，从原图中裁剪出随机的256*256区域，三帧图像的裁剪区域需要一致；然后对图像内容采取随机的竖直、水平方向的翻转，同样的，三帧的翻转情况应该保持一致。

(3)端到端训练参考答案模型。此模型将相邻帧与目标帧都作为输入，先通过光流估计模块计算出以中间帧(第二帧)为起点的光流图，最后根据光流和相邻帧，通过目标帧合成模块重构出目标中间帧。使用PWC-Net的预训练参数作为光流模块的初始参数。训练时初始学习率设置为0.001，批大小(batch size)设为8，使用Adam优化器，损失函数设置为拉普拉斯金字塔损失函数。首先冻结光流模块部分的参数，对目标帧合成模块进行30个epoch的预训练，目的是预先对所有未初始化的参数进行热身初始化。然后解冻整个模型的参数，对参考答案模型进行70个epoch的训练，并在50epoch和60epoch时进行0.1倍衰减。

(4)然后端到端训练插帧模型(学生模型)。此模型同样是输入相邻帧，首先通过光流模块计算出以中间帧为起点的光流图，然后根据光流和相邻帧，通过目标帧合成模块重构出目标中间帧。不同于参考答案模型，学生模型的光流模型采用图2中的对称结构的网络，随机化初始参数。除了使用与训练参考答案模型时相同的拉普拉斯金字塔损失函数来约束生成的中间帧，还需要用一种知识蒸馏的形式，以参考答案模型的中间光流估计值来约束插帧模型的光流模块。蒸馏损失乘以系数λ后加入总损失之中。其他训练设置和步骤(1)中一样。此模型同样可以预先进行光流模块的预训练，需要使用如FlyingThings3D^[14]的光流数据集。

(5)测试时，只需要加载和运行插帧网络(学生网络)即可。在显存能够接受的范围中，可以使用任意分辨率的两张同样大小的相邻帧作为模型输入。为了避免不同操作下采样时的目标分辨率不一致，可以预先对输入作padding(分辨率填充)，将其分辨率调整至64的倍数。单次运行模型可以插出一帧图像，通过将一个视频的每相邻两帧作为输入，就可以将整个视频的帧率提升至两倍。如果需要得到更高帧率的视频，可以迭代地多次将视频送入本发明的插帧模型处理。

图5为本发明中的蒸馏训练方式和其他替代训练方式的可视化对比。第一行是插帧结果，后两行为对应的光流估计结果。可以看到，未使用本发明的蒸馏训练的前两个插帧模型，不能正确还原出在右侧运动的小球。而使用现有光流模型和前向扭曲进行对齐的第三个模型会产生多孔洞的不够完善的光流结果。与之相比，本发明得到的光流图和插帧结果图都是最完善的。

图6为本发明与一些现有方法插帧方法的结果对比。可以看到，最右侧一列中的本发明的两种不同模型都能恢复出优于其他方法的更加正确的结构。

参考文献

[1]Kuroki,Y.；Nishi,T.；Kobayashi,S.；Oyaizu,H.；andYoshimura,S.2007.Apsychophysical study of improvements in motion-image quality by using highframe rates.Journal of the Society for Information Display 15(1):61–68.

[2]Kuroki,Y.；Takahashi,H.；Kusakabe,M.；and Yamakoshi,K.-i.2014.Effectsof motion image stimuli with normal andhigh frame rates on EEG power spectra:comparison withcontinuous motion image stimuli.Journal of the SocietyforInformation Display 22(4):191–198.

[3]Wu,C.-Y.；Singhal,N.；and Krahenbuhl,P.2018.Videocompression throughimage interpolation.In Proceedingsof the European Conference on ComputerVision(ECCV),416–431.

[4]Shishido,H.；Harazaki,A.；Kameda,Y.；and Kitahara,I.2019.Smoothswitching method for asynchronous multipleviewpoint videos using frameinterpolation.Journal of VisualCommunication and Image Representation 62:68–76.

[5]Choi,J.；and Kweon,I.S.2020.Deep iterative frame interpolation forfull-frame videostabilization.ACM Transactions on Graphics(TOG)39(1):1–9.

[6]Xia,T.；Ding,Y.；Yu,B.；and Huang,X.2018.Patch-based frameinterpolation for old films via the guidance of motion paths.In NinthInternational Conference on Graphic and Image Processing(ICGIP 2017),volume10615,106154G.International Society for Optics and Photonics.

[7]Ranjan,A.；and Black,M.J.2017.Optical flow estimationusing aspatial pyramid network.In Proceedings of the IEEEConference on ComputerVision and Pattern Recognition,4161–4170.

[8]Sun,D.；Yang,X.；Liu,M.-Y.；and Kautz,J.2018.Pwcnet:Cnns for opticalflow usingpyramid,warping,and costvolume.In Proceedings of the IEEEConference on ComputerVision and Pattern Recognition,8934–8943.

[9]Liu,Z.；Yeh,R.A.；Tang,X.；Liu,Y.；and Agarwala,A.2017.Video framesynthesis usingdeep voxel flow.In Proceedings of the IEEE InternationalConference on ComputerVision,4463–4471.

[10]Xue,T.；Chen,B.；Wu,J.；Wei,D.；and Freeman,W.T.2019.Videoenhancement with task-oriented flow.InternationalJournal of Computer Vision127(8):1106–1125.

[11]Jiang,H.；Sun,D.；Jampani,V.；Yang,M.-H.；LearnedMiller,E.；and Kautz,J.2018.Super slomo:High qualityestimation of multiple intermediate frames forvideo interpolation.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,9000–9008.

[12]Niklaus,S.；and Liu,F.2018.Context-aware synthesis forvideo frameinterpolation.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,1701–1710.

[13]Niklaus,S.；and Liu,F.2020.Softmax Splatting for VideoFrameInterpolation.In Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,5437–5446.

[14]Mayer,N.；Ilg,E.；Hausser,P.；Fischer,P.；Cremers,D.；Dosovitskiy,A.；and Brox,T.2016.A large dataset to trainconvolutional networks for disparity,optical flow,and sceneflow estimation.In Proceedings of the IEEE conferenceoncomputer vision and pattern recognition,4040–4048.

Claims

1.一种基于知识蒸馏的深度学习视频插帧方法，其特征在于，使用一个参考答案网络和一个插帧网络，具体步骤为：

(1)将相邻帧和目标帧一起作为输入，训练参考答案网络，首先估计出帧之间的光流，最后通过光流重构目标帧；

(2)训练插帧网络，用步骤(1)中参考答案网络的光流作为辅助的监督数据，完成蒸馏学习；

其中，所述参考答案网络和插帧网络都包含两个子模块：

(1)光流模块，该模块用于从输入的帧中计算出目标帧到相邻两帧的光流；其过程为：首先进行编码，用一个特征提取器，提取出每一帧输入图片的多尺度特征；然后是在多尺度金字塔结构上进行由粗到细的光流估计，在金字塔的每一个层级中，具体流程为：使用上一个分辨率更低的层级的预测值进行双线性插值上采样，作为光流的初始值；利用初始光流将输入不同帧的对应层次特征进行扭曲对齐；利用局部立体匹配成本作为衡量对齐程度及偏差的一组特征；将原图、特征图、初始光流以及上述立体匹配成本特征输入到由卷积层和线性整流函数组成的光流估计模块中，估计出更精细的光流；其中，参考答案网络和插帧网络的区别在于：参考答案网络已知作为光流起点的目标帧，所以使用现有的光流模型和参数作初始化；而插帧网络没有目标帧的输入，因此是一种特殊的光流估计任务；插帧网络的光流模块在上述光流模型的基础上增加了对称的结构；

(2)目标帧合成模块，使用上一个光流模块估计到的光流，合成目标帧。

2.根据权利要求1所述的基于知识蒸馏的深度学习视频插帧方法，其特征在于，所述的目标帧合成模块采用两种不同的结构；其中：

第一种结构的原理如下公式：

其中，I₁,I₃为输入的第一帧和第三帧图像，V代表遮挡图，

为反向扭曲操作，f_u→v代表从u帧到v帧的光流，

为插帧得到的中间帧，*、+分别为逐元素的乘法和加法运算；式(1)的含义为，直接使用光流将两个相邻帧对齐至目标帧位置，再通过遮挡图V来决定目标帧中的每个像素更参考哪一个相邻帧；为此，采用三个结构相同的由卷积层组成的细化模块来逐步地上采样并细化光流和遮挡图；

第二种结构的原理如下公式：

其中，F_u为第u帧的特征，CNN为一个卷积神经网络，其余同式(1)；式(2)的含义为，先从特征层面通过扭曲恢复中间帧的特征，然后使用一个解码卷积网络从特征重构出中间帧；所述解码卷积网络结构采用网格网，使用三个尺度下的特征做输入，利用多个网格状连接的卷积块和上/下采样块，最终得到重构的中间帧RBG图像。

3.根据权利要求2所述的基于知识蒸馏的深度学习视频插帧方法，其特征在于：

其中，

为估计的中间帧，I_gt为实际的中间帧，Lⁱ(I)为拉普拉斯金字塔的第i级，|*,*|₁为L1范数；

对于第一种目标帧合成模块，由于光流和遮挡图是逐步细化和提升分辨率的，可以直接合成多尺度的目标帧，为此，把

添加到多个尺度的合成结果上；

训练插帧网络时，除了上述重构损失，还将参考答案网络预测的光流当作一个额外的监督项，为光流添加蒸馏损失，公式如下：

其中，f_u→v,tea为从第u帧到第v帧的参考答案网络预测的光流，f_u→v,stu为从第u帧到第v帧的学生模型预测的光流，∈＝0.01,q＝0.4，其余同式(2)；总的损失函数公式如下：

4.根据权利要求3所述的基于知识蒸馏的深度学习视频插帧方法，其特征在于，测试时只使用插帧网络。