CN112188236A

CN112188236A - 视频插帧模型训练、视频插帧生成方法及相关装置

Info

Publication number: CN112188236A
Application number: CN201910585912.2A
Authority: CN
Inventors: 冀志龙; 侯琦; 张无名
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2021-01-05
Anticipated expiration: 2039-07-01
Also published as: CN112188236B

Abstract

本发明实施例提供了一种视频插帧模型训练、视频插帧生成方法及相关装置，视频插帧模型训练方法包括：获取训练数据，所述训练数据包括：均包括至少2级分辨率的训练标签帧、训练标签前帧和训练标签后帧；根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧，根据各级训练标签插帧和各级所述训练标签帧获取生成损失，根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数，得到训练后的所述视频插帧模型，直至所述生成损失达到损失阈值。本发明实施例所提供的视频插帧模型训练方法、视频插帧生成方法、装置、设备及介质，保证所生成的视频插帧具有较高的精度。

Description

视频插帧模型训练、视频插帧生成方法及相关装置

技术领域

本发明实施例涉及计算机领域，尤其涉及一种视频插帧模型训练方法、装置、设备及存储介质，以及一种视频插帧生成方法、装置、设备及存储介质。

背景技术

随着多媒体技术的发展，越来越多的人采用视频来记录信息，但是受到存储空间的限制，手机、普通的摄像机所录制的视频，单位时间内所包含的帧数相对较少，在对视频进行慢放时，没有办法还原太多的过渡细节，为此，可以通过高速摄像机进行视频的拍摄，但成本较高。

另一方面，对于剪辑的视频，由于缺少了一部分时间的视频，也会造成视频的连续性不够，从而造成视频播放时的画面跳变。

为了提高视频慢放或者剪辑视频播放时的质量，需要增加一部分视频帧，即生成视频插帧，以补充缺少的视频帧。

因此，如何保证所生成的视频插帧具有较高的精度，成为亟需解决的技术问题。

发明内容

本发明实施例解决的技术问题是提供一种视频插帧模型训练方法、装置、设备及存储介质，以及一种视频插帧生成方法、装置、设备及存储介质，以保证所生成的视频插帧具有较高的精度。

为解决上述问题，本发明实施例提供一种视频插帧模型训练方法，包括：

获取训练数据，所述训练数据包括：均包括至少2级分辨率的训练标签帧、训练标签前帧和训练标签后帧，且同一级的所述训练标签帧、所述训练标签前帧和所述训练标签后帧的分辨率相同；

根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧，根据各级训练标签插帧和各级所述训练标签帧获取生成损失，根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数，得到训练后的所述视频插帧模型，直至所述生成损失达到损失阈值。

为解决上述问题，本发明实施例还提供一种视频插帧生成方法，包括：

获取插帧数据，所述插帧数据包括：均包括至少2级分辨率的视频插帧前帧和视频插帧后帧，待插帧数量，视频插帧在所述插帧视频前帧和所述插帧视频后帧中的插帧位置；

根据插帧数据利用如前述任一项所述的训练后的视频插帧模型生成视频插帧。

为解决上述问题，本发明实施例还提供一种视频插帧模型训练装置，包括：

训练数据获取单元，适于获取训练数据，所述训练数据包括：均包括至少 2级分辨率的训练标签帧、训练标签前帧和训练标签后帧，且同一级的所述训练标签帧、所述训练标签前帧和所述训练标签后帧的分辨率相同；

训练后的视频插帧模型获取单元，适于根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧，根据各级训练标签插帧和各级所述训练标签帧获取生成损失，根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数，得到训练后的视频插帧模型，直至所述生成损失达到损失阈值。

为解决上述问题，本发明实施例还提供一种视频插帧的生成装置，包括：

插帧数据获取单元，适于获取插帧数据，所述插帧数据包括：均包括至少 2级分辨率的视频插帧前帧和视频插帧后帧，待插帧数量，视频插帧在所述插帧视频前帧和所述插帧视频后帧中的插帧位置；

视频插帧获取单元，适于根据插帧数据利用如前述的训练后的视频插帧模型生成视频插帧。

为解决上述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述的视频插帧模型训练方法。

为解决上述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于视频插帧模型训练的程序，以实现如前述的视频插帧模型训练方法。

为解决上述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述的视频插帧生成方法。

为解决上述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于视频插帧模型训练的程序，以实现如前述的视频插帧生成方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的视频插帧模型训练方法、装置、设备及存储介质，视频插帧模型训练方法，利用包括至少2级分辨率的训练标签前帧、训练标签后帧对视频插帧模型进行训练，获取至少2级训练标签插帧，然后利用获得的各级训练标签插帧与各级训练标签计算视频插帧模型的生成损失，并基于生成损失利用优化方法，调整视频插帧模型的模型参数。可以看出，本发明实施例所提供的视频插帧模型训练方法，一方面，利用包括至少两级分辨率的训练数据对视频插帧模型进行训练，并获取各级的训练标签插帧，通过至少2级分辨率进行获取的方式，可以提高对于所生成的训练标签插帧的准确性，另一方面，在进行视频插帧模型的损失计算时，也结合多级训练标签插帧与多级训练标签帧的损失获取，从而可以提高所获取的视频插帧模型的损失的准确性，以更为准确地调整模型参数，保证训练后的视频插帧模型所生成的视频插帧的精度。

可选方案中，本发明实施例所提供的视频插帧模型训练方法，当生成非最大级分辨率的训练标签插帧时，利用当前级的训练标签前帧图像特征和所述训练标签后帧图像特征获取当前级光流和当前级掩码，然后根据当前级分辨率的所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有相同当前级分辨率的所述训练标签插帧，而当需要生成的训练标签插帧时，对具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，对具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，然后根据所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有最大级分辨率的所述训练标签插帧；可以看出，本发明实施例所提供的视频插帧模型训练方法，利用具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，并利用具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，利用低分辨率的特征进行加工，产生高分辨率的图像，从而使得训练后的视频插帧模型能够在保证精度要求的同时，降低了对于硬件的要求和消耗，提高了视频插帧模型的性能和使用范围。

本发明实施例所提供的视频插帧生成方法、装置、设备及存储介质，本发明实施例所提供的视频插帧生成方法包括获取插帧数据，所述插帧数据包括：均包括至少2级分辨率的视频插帧前帧和视频插帧后帧，待插帧数量，视频插帧在所述插帧视频前帧和所述插帧视频后帧中的插帧位置；利用如前述的训练后的视频插帧模型生成视频插帧。可以看出，本发明实施例所提供的视频插帧生成方法，利用训练后的视频插帧模型生成视频插帧，由于训练后的视频插帧模型经过前述的视频插帧训练方法的训练调整，具有较高的准确性，从而可以保证通过其获得的视频插帧的精度。

附图说明

图1是本发明实施例所提供的视频插帧模型训练方法的一种流程示意图；

图2是本发明实施例所提供的视频插帧模型训练方法的利用视频插帧模型获取各级训练标签插帧步骤的流程示意图；

图3是本发明实施例所提供的视频插帧模型训练方法的获取当前级光流和当前级掩码步骤的流程示意图；

图4是本发明实施例所提供的视频插帧生成方法的一种流程示意图；

图5是本发明实施例所提供的视频插帧生成方法的根据插帧数据利用训练后的视频插帧模型生成视频插帧步骤的流程示意图；

图6是本发明实施例所提供的视频插帧模型训练装置的一框图；

图7是本发明实施例所提供的视频插帧的生成装置的一框图；

图8示出了本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中，为了提高视频慢放或者剪辑视频播放时的质量，需要生成视频插帧，但视频插帧的质量较低。

在一种方法中，基于图像处理技术，获取视频插帧，首先按照能量最小原则，迭代计算需要插帧的两帧图像之间的光流或者相位差，再根据光流或者相位差计算合成视频插帧图像，其中，光流是指两帧图像之间图像之中的像素点的位置变化向量。

通过上述方法获取视频插帧，由于需要进行迭代计算，因此，所需要的计算时间很长，CPU的占用过高，并且所生成的图像的精度较低，也无法处理背景复杂的场景以及需要插帧的两帧图像差别较大的场景。

为了提高视频插帧模型训练效果，本发明实施例提供了一种视频插帧模型训练方法、装置、设备及存储介质，以及一种视频插帧生成方法、装置、设备及存储介质。视频插帧模型训练方法包括：

根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧，根据各级训练标签插帧和各级所述训练标签帧获取生成损失，根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数，直至所述生成损失达到损失阈值。

这样，本发明实施例所提供的视频插帧模型训练方法，利用包括至少2级分辨率的训练标签前帧、训练标签后帧对视频插帧模型进行训练，获取至少2 级训练标签插帧，然后利用获得的各级训练标签插帧与各级训练标签计算视频插帧模型的生成损失，并基于生成损失利用优化方法，调整视频插帧模型的模型参数。

可以看出，本发明实施例所提供的视频插帧模型训练方法，一方面，利用包括至少两级分辨率的训练数据对视频插帧模型进行训练，并获取各级的训练标签插帧，通过至少2级分辨率进行获取的方式，可以提高对于所生成的训练标签插帧的准确性，另一方面，在进行视频插帧模型的损失计算时，也结合多级训练标签插帧与多级训练标签帧的损失获取，从而可以提高所获取的视频插帧模型的损失的准确性，以更为准确地调整模型参数，保证训练后的视频插帧模型所生成的视频插帧的精度。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明实施例所提供的视频插帧模型训练方法的一种流程示意图。

如图中所示，本发明实施例所提供的视频插帧模型训练方法包括以下步骤：

步骤S10：获取训练数据。

在进行视频插帧模型训练时，首先需要获取训练数据，具体地训练数据中的部分图像帧可以通过录制的视频数据获取。

容易理解的是，本文所述的训练标签帧、训练标签前帧和训练标签后帧是指在录制的视频数据中，三者的播放前后顺序为：从前到后依次为训练标签前帧、训练标签帧和训练标签后帧。

可以理解的是，通过录制的视频数据获取的训练标签前帧即为训练标签前帧中的训练标签前原始帧，通过录制的视频数据获取的训练标签帧即为训练标签帧中的训练标签原始帧，通过录制的视频数据获取的训练标签后帧即为训练标签后帧中的训练标签后原始帧。

为了获取各原始帧的训练数据，可以通过拆解视频数据获取所述训练标签原始帧、所述训练标签前原始帧和训练标签后原始帧，所述训练标签原始帧位于所述训练标签前原始帧和训练标签后原始帧之间的一帧，且所述训练标签前原始帧和训练标签后原始帧之间的间隔帧数小于预定帧数阈值。

在一种具体实施方式中，可以通过将视频数据按照帧数进行拆解，得到不同的图像帧组，其中训练标签前帧、训练标签后帧为图像帧组中的首帧和尾帧，而训练标签帧为位于图像帧组中的首帧和尾帧之间的一帧；当然，为了保证训练效果，图像帧组中所包含的图像帧的数量可以进行限定，训练标签帧可以为首帧和尾帧之间的任何一帧。

比如：当图像帧组包含3帧图像时，训练标签前帧为图像帧组的首帧，训练标签帧为图像帧组的中间帧，训练标签后帧为图像帧组的尾帧；当图像帧组包含5帧图像时，训练标签前帧为图像帧组的首帧，训练标签帧为图像帧组的中间3帧中的任何一帧，训练标签后帧为图像帧组的尾帧。

为了方便标记和计算，在一种具体实施方式中，可以将训练标签前帧(即图像帧组的首帧)的编号为0，则训练标签帧的编号为在录制视频中以训练标签前帧编号为0顺序向后编号的数字。比如：当图像帧组包含3帧图像时，训练标签前帧为0，训练标签帧的编号即为1；当图像帧组包含5帧图像时，训练标签前帧为0，训练标签帧的编号可以为1、2、3中的任何一个，当训练标签帧为训练标签前帧后的第一帧时，其编号为1，当训练标签帧为训练标签前帧后的第二帧时，其编号为2，当训练标签帧为训练标签前帧后的第三帧时，其编号为3。

由于训练标签前原始帧、训练标签原始帧和训练标签后原始帧来源于同一个录制视频数据，因此三者的分辨率相同。

基于录制的视频数据获取具有原始等级的分辨率的各帧图像后，即获取到训练标签前原始帧、训练标签原始帧和训练标签后原始帧后，还需要获取具有其他等级分辨率的各帧图像。

在一种具体实施方式中，为了减小运算量，提高处理效率，具有其他等级分辨率的各帧图像可以通过下采样的方式获取。在进行下采样前，可以设定下采样的级数，然后对训练标签前原始帧、训练标签原始帧和训练标签后原始帧分别进行下采样。

具体地，可以利用图像特征金字塔采样方法，首先设定下采样的级数，然后对训练标签前原始帧、训练标签原始帧和训练标签后原始帧利用插值方法进行下采样。

为了方便计算，可以以图像分辨率的1/2倍率进行至少1次递归下采样，得到采样后的图像帧，可以称为训练标签前采样帧、训练标签采样帧和训练标签后采样帧，结合具有原始等级的分辨率的各帧图像，就可以得到具有至少2 级分辨率的所述训练标签帧、所述训练标签前帧和所述训练标签后帧。可以理解的是，至少2级分辨率的所述训练标签帧包括训练标签原始帧和至少一级训练标签采样帧、至少2级分辨率的所述训练标签前帧包括训练标签前原始帧和至少一级训练标签前采样帧、至少2级分辨率的所述训练标签后帧包括训练标签后原始帧和至少一级训练标签后采样帧。

当然，图像下采样的倍率也可以为1/3、1/4等其他值，容易理解的是，采样倍率需要与视频插帧模型中的设置相匹配。

通过前述方法，即可获得均包括至少2级分辨率的训练标签帧、训练标签前帧和训练标签后帧，且同一级的所述训练标签帧、所述训练标签前帧和所述训练标签后帧的分辨率相同，并且训练标签前原始帧、训练标签原始帧和训练标签后原始帧即为具有最大级分辨率的训练图像帧。

步骤S11：根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧。

获取到各级训练标签前帧、各级训练标签帧和各级训练标签后帧后，根据训练标签前帧和训练标签后帧利用视频插帧模型获取各级训练标签插帧。

具体地，在一种具体实施方式中，为了提高所生成的各级训练标签插帧的准确性，同时降低运算量，请参考图2，图2是本发明实施例所提供的视频插帧模型训练方法的利用视频插帧模型获取各级训练标签插帧步骤的流程示意图。

如图中所示，在一种实施例中，本发明实施例所提供的视频插帧模型训练方法的利用视频插帧模型获取各级训练标签插帧的步骤可以包括以下步骤：

步骤S110：获取具有相同当前级分辨率的所述训练标签前帧、所述训练标签后帧、训练标签前帧图像特征和训练标签后帧图像特征。

各级训练标签前帧图像特征和各级训练标签后帧图像特征则可以通过视频插帧模型提取训练标签前帧和训练标签后帧的图像特征获取。

具体地，可以利用深度神经网络，提取具有最大级分辨率的所述训练标签前帧获取各级训练标签前帧图像特征，提取最大级分辨率的所述训练标签后帧获取各级训练标签后帧图像特征。

对于各级训练标签前帧和各级训练标签后帧则已通过步骤S10得到。

从而，根据当前的运算分辨率，从各级训练标签前帧、各级训练标签后帧、各级训练标签前帧图像特征和各级训练标签后帧图像特征中查找具有相同当前级分辨率的训练标签前帧、训练标签后帧、训练标签前帧图像特征和训练标签后帧图像特征。

可以理解的是，在实际运算过程中，先从最低级分辨率的训练标签前帧、训练标签后帧、训练标签前帧图像特征和训练标签后帧图像特征开始进行。

步骤S111：判断所述当前级分辨率是否为最大级分辨率，如果是，则执行步骤S115；如果否，则执行步骤S112。

根据当前级分辨率与最大级分辨率进行比较，如果小于最大级分辨率，则执行步骤S112，如果等于最大级分辨率，则执行步骤S115。

步骤S112：利用深度神经网络根据所述训练标签前帧图像特征和所述训练标签后帧图像特征获取当前级光流和当前级掩码。

步骤S113：根据所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有相同当前级分辨率的所述训练标签插帧。

具体地，可以利用图像插值的方法获取训练标签插帧。

在一种具体实施方式中，可以利用以下公式根据所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有相同当前级分辨率的所述训练标签插帧：

其中，m--分辨率等级数；

t—设训练标签前帧的编号为0时，训练标签帧的编号；

I_A--训练标签前帧；

I_B--训练标签后帧；

mask--当前级掩码；

F′_A→B--当前级光流

⊙为点乘；

g为图像插值方法。

具体地，图像插值方法可以为临近插值方法或者双线性插值方法。

步骤S114：按照分辨率等级更新所述当前级分辨率，转向执行步骤S110。

由于当前级分辨率小于最大级分辨率，所获得的训练标签插帧也不是最大级分辨率，还需要继续进行下一级训练标签插帧的获取，为此，进行当前级分辨率的更新，然后进行更新后的当前级分辨率的训练标签插帧的获取。

步骤S115：对具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，对具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码。

当当前级分辨率等于最大级分辨率时，则获取最大级分辨率的训练标签插帧。

为了减小运算量，最大级分辨率的当前级光流和当前级掩码通过分别对上一级光流和上一级掩码的上采样获取。

步骤S116：根据所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有相同当前级分辨率的所述训练标签插帧。

得到具有最大级分辨率的当前级光流和具有最大级分辨率的当前级掩码，则结合所述训练标签前帧、所述训练标签后帧获取具有相同当前级分辨率的所述训练标签插帧。

具体的获取方法可以参照步骤S114，在此不再赘述。

经过前述方法，即可获取到各级训练标签插帧，并且利用具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，并利用具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，利用低分辨率的特征进行加工，产生高分辨率的图像，可以降低对于硬件的要求和消耗。

为了进行视频插帧模型的训练，得到各级训练标签插帧后，还需要继续进行视频插帧模型准确性的评估和调整。

步骤S12：根据各级训练标签插帧和各级所述训练标签帧获取生成损失。

得到各级训练标签插帧后，利用训练标签插帧和训练标签帧之间的差别，就可以确定经视频插帧模型获取的训练标签插帧的准确性。

为了保证利用视频插帧模型的生成的插帧图像的精确性的判断，利用多级训练标签插帧和多级训练标签帧获取生成损失。

另一方面，在一种具体实施方式中，所述根据各级训练标签插帧和各级所述训练标签帧获取生成损失的步骤可以包括：

根据各级所述训练标签帧和各级所述训练标签插帧获取计算感知损失和均方误差损失；根据所述感知损失和均方误差损失计算所述生成损失，从而可以进一步地提高生成损失计算的准确性。

具体地，所述利用各级所述训练标签帧和各级所述训练标签插帧计算所述视频插帧模型的计算感知损失的步骤可以包括：

利用已训练好的VGG模型提取所述各级所述训练标签帧和各级所述训练标签插帧的图像特征；

利用以下公式计算所述感知损失：

其中：G(x)-训练标签插帧(训练标签采样插帧)的图像

y-训练标签帧(训练标签采样帧)的图像

Φ(x)-VGG模型

C_jH_jW_j-第j级的图像特征的分辨率。

在另一种具体实施方式中，所述利用各级所述训练标签帧和各级所述训练标签插帧计算所述视频插帧模型的计算均方误差损失的步骤可以包括：

运用以下公式，利用各级所述训练标签帧和各级所述训练标签插帧计算所述视频插帧模型的均方误差损失：

其中：G(x)-训练标签插帧(训练标签采样插帧)的图像

y-训练标签帧(训练标签采样帧)的图像

pix_num-图像的像素总数

分别得到感知损失和均方误差损失后，进一步根据所述感知损失和均方误差损失计算所述视频插值模型的生成损失，具体可以包括：

利用以下公式根据感知损失和均方误差损失计算所述视频插值模型的损失：

其中：λ_vgg-感知损失的权重系数。

可见，在计算视频插帧模型的生成损失时，可以结合各级训练视频插帧与训练标签帧的感知损失和均方误差损失，从而可以提高所获得的生成损失的准确性，进一步保证对于视频插帧模型参数调整的准确性。

步骤S13：判断所述生成损失是否达到损失阈值，如果否，则执行步骤S14，如果是，则执行步骤S15。

如果生成损失已经达到损失阈值，则证明视频插帧模型所获取的训练标签插帧已经与训练标签帧的差别在允许的范围内，即通过视频插帧模型所生成的视频插帧已经满足精度要求，可以使用。

如果生成损失还未达到损失阈值，则证明视频插帧模型所获取的训练标签插帧已经与训练标签帧的差别还未达到要求，二者差别较大，需要进一步对视频插帧模型的参数进行调整。

步骤S14：根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数。

具体可以利用SGD优化算法或者ADAM优化算法根据所述损失优化调整所述视频插帧模型的模型参数。

完成模型参数的优化调整后，再次执行步骤S11，再利用各级所述训练标签前帧和各级所述训练标签后帧对参数优化后的视频插帧模型进行训练。

步骤S15：得到训练后的所述视频插帧模型。

如果生成损失已经达到损失阈值，则完成视频插帧模型的训练，得到训练后的所述视频插帧模型，结束训练。

本发明实施例所提供的视频插帧模型训练方法、装置、设备及存储介质，视频插帧模型训练方法，利用包括至少2级分辨率的训练标签前帧、训练标签后帧对视频插帧模型进行训练，获取至少2级训练标签插帧，然后利用获得的各级训练标签插帧与各级训练标签计算视频插帧模型的生成损失，并基于生成损失利用优化方法，调整视频插帧模型的模型参数。

为了提高所获取的当前级光流和当前级掩码的精度，在一种具体实施方式中，可以充分利用上一级光流的结果，请参考图3，图3是本发明实施例所提供的视频插帧模型训练方法的获取当前级光流和当前级掩码步骤的流程示意图。

如图中所示，本发明实施例所提供的视频插帧模型训练方法的获取当前级光流和当前级掩码步骤可以包括以下步骤：

步骤S1120：获取具有低一级分辨率的上一级光流。

可以理解的是，如果当前级分辨率为最低一级时，则不存在上一级光流，此时上一级光流初始化为0；如果当前级分辨率为非最低一级时，则获取上一级分辨率的训练标签插帧获取时所获取到的上一级光流。

步骤S1121：对所述上一级光流进行上采样得到具有所述当前级分辨率的上一级采样光流。

由于上一级光流是基于上一级训练标签前帧图像特征和上一级训练标签后帧图像特征获取，因此上一级光流的分辨率与上一级训练标签前帧图像特征的分辨率相同，低于当前级分辨率。

根据当前级分辨率和上一级分辨率之间的倍率，对上一级光流进行上采样，从而得到上一级采样光流，上一级采样光流的分辨率为当前级分辨率，从而可以与当前级训练标签前帧图像特征或者当前级训练标签后帧图像特征进行运算。

步骤S1122：根据所述训练标签后帧图像特征与所述上一级采样光流，计算所述训练标签后帧到所述训练标签前帧的后帧转换图像特征。

得到上一级采样光流后，将具有当前级分辨率的训练标签后帧图像特征与上一级采样光流进行运算，得到训练标签后帧到所述训练标签前帧的后帧转换图像特征。

当然，在另一种具体实施方式中，也可以将具有当前级分辨率的训练标签前帧图像特征与上一级采样光流进行运算，得到训练标签前帧到所述训练标签后帧的前帧转换图像特征。

步骤S1123：计算所述训练标签前帧图像特征和所述后帧转换图像特征之间的前帧互相关特征。

具体地，可以利用以下公式计算所述训练标签前帧图像特征和所述后帧转换图像特征之间的前帧互相关特征：

其中，FA--训练标签前帧图像特征；

FB′--后帧转换图像特征；

<，>--卷积运算；

o--位移偏移；

k--互相关窗口大小。

当然，在另一种具体实施方式中，当获取到前帧转换图像特征时，可以计算所述训练标签后帧图像特征和所述前帧转换图像特征之间的前帧互相关特征，当然也可以利用上述公式进行计算。

步骤S1124：根据所述训练标签前帧图像特征和所述前帧互相关特征得到所述当前级光流和所述当前级掩码。

得到前帧互相关特征后，基于训练标签前帧图像特征和前帧互相关特征获取当前级光流和当前级掩码。

当然，如果根据前述步骤获取到后帧互相关特征，可以基于训练标签后帧图像特征和后帧互相关特征获取当前级光流和当前级掩码。

在一种具体实施方式中，当获取到前帧互相关特征时，可以通过以下步骤获取当前级光流和当前级掩码：

根据所述训练标签前帧图像特征和所述前帧互相关特征，利用深度神经网络，得到当前级融合特征、当前级中间光流和当前级中间掩码；

利用深度神经网络，根据所述当前级融合特征、当前级中间光流和当前级中间掩码获取当前级中间光流残差和当前级中间掩码残差；

计算所述当前级中间光流残差和所述当前级中间光流之和，得到所述当前级光流，计算所述当前级中间掩码和所述当前级中间掩码残差之和，得到所述当前级掩码。

利用当前级中间光流和当前级中间光流残差获取当前级光流，以及利用当前级中间掩码和当前级中间掩码残差获取当前级残差，提高了所获取的当前级光流和当前级残差的准确性。

当完成视频插帧模型的训练后，就可以利用训练后的视频插帧模型获取视频插帧，为此，本发明实施例还提供一种视频插帧生成方法，请参考图4，图4 是本发明实施例所提供的视频插帧生成方法的一种流程示意图。

如图4所示，本发明实施例所提供的视频插帧方法包括：

步骤S20：获取插帧数据，所述插帧数据包括：均包括至少2级分辨率的视频插帧前帧和视频插帧后帧，待插帧数量，视频插帧在所述插帧视频前帧和所述插帧视频后帧中的插帧位置。

可以理解的是，视频插帧前帧包括视频插帧前原始帧和基于视频插帧前原始帧进行至少1级下采样获取的视频插帧前原始采样帧；视频插帧后帧包括视频插帧后原始帧和基于视频插帧后原始帧基于至少1级下采样获取的视频插帧后原始采样帧。

其中，视频插帧前原始帧和视频插帧后原始帧通过视频获取。

待插帧数量是指设定的在视频插帧前原始帧和视频插帧后原始帧之间插入的图片帧的数量，视频插帧在所述插帧视频前帧和所述插帧视频后帧中的插帧位置是指，当前所需要插入的视频帧在视频插帧前原始帧和视频插帧后原始帧之间的位置，比如：将视频插帧前原始帧的编号设为0，待插帧数量设为3，插帧位置则可以为1、2、3种的任何一个。

当然，当待插帧数量为3时，需要运行3次本发明实施例所提供的视频插帧生成方法，才能够获取到3帧视频插帧，每运行一次，仅能获取到1帧，而具体哪一帧，则需要基于设定的插帧位置确定。

步骤S21：根据插帧数据利用上述的训练后的视频插帧模型生成视频插帧。

当所需要的插帧数据都获取到后，利用前述的训练后的视频插帧模型就可以生成视频插帧。

可以看出，本发明实施例所提供的视频插帧生成方法，利用训练后的视频插帧模型生成视频插帧，由于训练后的视频插帧模型经过前述的视频插帧训练方法的训练调整，具有较高的准确性，从而可以保证通过其获得的视频插帧的精度。

具体地，请参考图5，图5是本发明实施例所提供的视频插帧生成方法的根据插帧数据利用训练后的视频插帧模型生成视频插帧步骤的流程示意图。

在一种具体实施方式中，本发明实施例所提供的视频插帧生成方法的根据插帧数据利用训练后的视频插帧模型生成视频插帧步骤包括：

步骤S210：根据所述视频插帧前帧获取各级视频插帧前帧图像特征，根据所述视频插帧后帧获取各级视频插帧后帧图像特征。

具体地，利用卷积神经网络提取视频插帧前帧的图像特征，获取各级视频插帧前帧图像特征，利用卷积神经网络提取视频插帧后帧的图像特征，获取各级视频插帧后帧图像特征。

步骤S211：获取具有相同当前级分辨率的所述视频插帧前帧图像特征、所述视频插帧后帧图像特征、所述视频插帧前帧和所述视频插帧后帧。

步骤S211的具体内容可以参考图2所示的步骤S110的描述，在此不再赘述。

步骤S212：判断所述当前级分辨率是否为最大级分辨率，如果是，则执行步骤S213；如果是，则执行步骤S215。

步骤S212的具体内容可以参考图2所示的步骤S111的描述，在此不再赘述。

步骤S213：利用深度神经网络根据所述训练标签前帧图像特征和所述训练标签后帧图像特征获取当前级光流和当前级掩码。

可以理解的是，为了提高所得到的当前级光流和当前级掩码的精度，可以将上一级光流用于生成当前级光流和当前级掩码。

步骤S214：按照分辨率等级更新所述当前级分辨率，转向执行步骤S211。

步骤S214的具体内容可以参考图2所示的步骤S114的描述，在此不再赘述。

步骤S215：对具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，对具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码。

步骤S215的具体内容可以参考图2所示的步骤S115的描述，在此不再赘述。

步骤S216：根据所述视频插帧前帧、所述视频插帧后帧、所述最大级分辨率的当前级光流和所述最大级分辨率的当前级掩码，获取具有最大级分辨率的所述视频插帧。

得到最大级分辨率具有最大级分辨率的当前级光流和具有最大级分辨率的当前级掩码，则结合视频插帧前帧和视频插帧后帧，生成视频插帧。

利用本发明实施例所提供的视频插帧生成方法，即可获取到视频插帧，并且利用具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，并利用具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，利用低分辨率的特征进行加工，产生高分辨率的图像，可以降低对于硬件的要求和消耗。

下面对本发明实施例提供的视频插帧模型训练装置和视频插帧的生成装置进行介绍，下文描述的视频插帧模型训练装置和视频插帧的生成装置可以认为是，电子设备(如：PC)为分别实现本发明实施例提供的视频插帧模型训练方法和视频插帧生成方法所需设置的功能模块架构。下文描述的视频插帧模型训练装置和视频插帧的生成装置的内容，可分别与上文描述的视频插帧模型训练方法和视频插帧生成方法的内容相互对应参照。

图6是本发明实施例所提供的视频插帧模型训练装置的一框图，该视频插帧模型训练装置即可应用于客户端，也可应用于服务器端，参考图6，该视频插帧模型训练装置可以包括：

训练数据获取单元100，适于获取训练数据，所述训练数据包括：均包括至少2级分辨率的训练标签帧、训练标签前帧和训练标签后帧，且同一级的所述训练标签帧、所述训练标签前帧和所述训练标签后帧的分辨率相同；

训练后的视频插帧模型获取单元110，适于根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧，根据各级训练标签插帧和各级所述训练标签帧获取生成损失，根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数，得到训练后的视频插帧模型，直至所述生成损失达到损失阈值。

训练数据获取单元100可以利用插值法分别对具有相同分辨率的所述训练标签帧中的训练标签原始帧、所述训练标签前帧中的训练标签前原始帧和所述训练标签后帧中的训练标签后原始帧以图像分辨率的1/2倍率进行至少1次递归下采样，得到具有至少2级分辨率的所述训练标签帧、所述训练标签前帧和所述训练标签后帧。

当然可以通过拆解视频数据获取所述训练标签原始帧、所述训练标签前原始帧和训练标签后原始帧，所述训练标签原始帧位于所述训练标签前原始帧和训练标签后原始帧之间的一帧，且所述训练标签前原始帧和训练标签后原始帧之间的间隔帧数小于预定帧数阈值。

一方面，在一种具体实施方式中，可以通过以下步骤获取所述生成损失：

首先，根据各级所述训练标签帧和各级所述训练标签插帧获取计算感知损失和均方误差损失，然后，根据所述感知损失和均方误差损失计算所述生成损失，从而可以进一步地提高生成损失计算的准确性。

利用以下公式计算所述感知损失：

其中：G(x)-训练标签插帧(训练标签采样插帧)的图像

y-训练标签帧(训练标签采样帧)的图像

Φ(x)-VGG模型

C_jH_jW_j-第j级的图像特征的分辨率。

其中：G(x)-训练标签插帧(训练标签采样插帧)的图像

y-训练标签帧(训练标签采样帧)的图像

pix_num-图像的像素总数

其中：λ_vgg-感知损失的权重系数。

而根据生成损失对视频插帧模型进行优化时，具体可以利用SGD优化算法或者ADAM优化算法根据所述损失优化调整所述视频插帧模型的模型参数。

这样，本发明实施例所提供的视频插帧模型训练装置，训练数据获取单元100获取训练数据，所述训练数据包括：均包括至少2级分辨率的训练标签帧、训练标签前帧和训练标签后帧，且同一级的所述训练标签帧、所述训练标签前帧和所述训练标签后帧的分辨率相同，训练后的视频插帧模型获取单元110利用包括至少2级分辨率的训练标签前帧、训练标签后帧对视频插帧模型进行训练，获取至少2级训练标签插帧，然后利用获得的各级训练标签插帧与各级训练标签计算视频插帧模型的生成损失，并基于生成损失利用优化方法，调整视频插帧模型的模型参数，得到训练后的视频插帧模型。

可以看出，本发明实施例所提供的视频插帧模型训练装置，一方面，利用包括至少两级分辨率的训练数据对视频插帧模型进行训练，并获取各级的训练标签插帧，通过至少2级分辨率进行获取的方式，可以提高对于所生成的训练标签插帧的准确性，另一方面，在进行视频插帧模型的损失计算时，也结合多级训练标签插帧与多级训练标签帧的损失获取，从而可以提高所获取的视频插帧模型的损失的准确性，以更为准确地调整模型参数，保证训练后的视频插帧模型所生成的视频插帧的精度。

可选地，本发明实施例所提供的视频插帧模型训练装置的训练后的视频插帧模型获取单元110，适于根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧，根据各级训练标签插帧和各级所述训练标签帧获取生成损失，根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数，得到训练后的视频插帧模型，直至所述生成损失达到损失阈值，具体可以包括：

获取具有相同当前级分辨率的所述训练标签前帧、所述训练标签后帧、训练标签前帧图像特征和训练标签后帧图像特征；

当所述当前级分辨率低于最大级分辨率时，利用深度神经网络根据所述训练标签前帧图像特征和所述训练标签后帧图像特征获取当前级光流和当前级掩码，当所述当前级分辨率等于最大级分辨率时，对具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，对具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码；

根据所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有相同当前级分辨率的所述训练标签插帧，按照分辨率等级更新所述当前级分辨率，直至完成全部分辨率等级的所述训练标签插帧的获取，得到各级训练标签插帧。

其中，具体地，可以利用图像插值的方法获取训练标签插帧。

其中，m--分辨率等级数；

t—设训练标签前帧的编号为0时，训练标签帧的编号；

I_A--训练标签前帧；

I_B--训练标签后帧；

mask--当前级掩码；

F′_A→B--当前级光流

⊙为点乘；

g为图像插值方法。

本发明实施例所提供的视频插帧模型训练装置，当生成非最大级分辨率的训练标签插帧时，利用当前级的训练标签前帧图像特征和所述训练标签后帧图像特征获取当前级光流和当前级掩码，然后根据当前级分辨率的所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有相同当前级分辨率的所述训练标签插帧，而当需要生成的训练标签插帧时，对具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，对具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，然后根据所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有最大级分辨率的所述训练标签插帧；从而，利用具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，并利用具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，利用低分辨率的特征进行加工，产生高分辨率的图像，从而使得训练后的视频插帧模型能够在保证精度要求的同时，降低了对于硬件的要求和消耗，提高了视频插帧模型的性能和使用范围。

可选地，为了提高所获取的当前级光流和当前级掩码的精度，训练后的视频插帧模型获取单元110适于利用深度神经网络根据所述训练标签前帧图像特征和所述训练标签后帧图像特征获取当前级光流和当前级掩码，具体可以包括

获取具有低一级分辨率的上一级光流；

对所述上一级光流进行上采样得到具有所述当前级分辨率的上一级采样光流；

根据所述训练标签后帧图像特征与所述上一级采样光流，计算所述训练标签后帧到所述训练标签前帧的后帧转换图像特征；

计算所述训练标签前帧图像特征和所述后帧转换图像特征之间的前帧互相关特征；

根据所述训练标签前帧图像特征和所述前帧互相关特征得到所述当前级光流和所述当前级掩码。

其中，FA--训练标签前帧图像特征；

FB′--后帧转换图像特征；

<，>--卷积运算；

o--位移偏移；

k--互相关窗口大小。

进一步地，在一种具体实施方式中，当获取到前帧互相关特征时，可以通过以下步骤获取当前级光流和当前级掩码：

本发明实施例还提供一种视频插帧的生成装置，图7是本发明实施例所提供的视频插帧的生成装置的一框图，该视频插帧模型训练装置即可应用于客户端，也可应用于服务器端，参考图7，该视频插帧的生成装置可以包括：

插帧数据获取单元200，适于获取插帧数据，所述插帧数据包括：均包括至少2级分辨率的视频插帧前帧和视频插帧后帧，待插帧数量，视频插帧在所述插帧视频前帧和所述插帧视频后帧中的插帧位置；

视频插帧获取单元210，适于根据插帧数据利用如前述的训练后的视频插帧模型生成视频插帧。

可以理解的是，插帧数据获取单元200，所获取的插帧数据的视频插帧前帧包括视频插帧前原始帧和基于视频插帧前原始帧进行至少1级下采样获取的视频插帧前原始采样帧；视频插帧后帧包括视频插帧后原始帧和基于视频插帧后原始帧基于至少1级下采样获取的视频插帧后原始采样帧。

可见，本发明实施例所提供的视频插帧的生成装置，当插帧数据获取单元 200得到插帧数据后，视频插帧获取单元210利用本发明实施例所提供的视频插帧生成方法，即可获取到视频插帧，并且利用具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，并利用具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，利用低分辨率的特征进行加工，产生高分辨率的图像，可以降低对于硬件的要求和消耗。

在一种具体实施方式中，视频插帧获取单元210，适于利用如前述的训练视频插帧模型生成所述当前视频插帧，可以包括：

根据所述视频插帧前帧获取各级视频插帧前帧图像特征，根据所述视频插帧后帧获取各级视频插帧后帧图像特征；

获取具有相同当前级分辨率的所述视频插帧前帧图像特征、所述视频插帧后帧图像特征、所述视频插帧前帧和所述视频插帧后帧；

当所述当前级分辨率低于最大级分辨率时，利用深度神经网络根据所述视频插帧前帧图像特征和所述视频插帧后帧图像特征获取当前级光流和当前级掩码，当所述当前级分辨率等于最大级分辨率时，对具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，对具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码；

根据所述视频插帧前帧、所述视频插帧后帧、所述最大级分辨率的当前级光流和所述最大级分辨率的当前级掩码，获取具有最大级分辨率的所述视频插帧。

可见，本发明实施例所提供的视频插帧的生成装置，利用具有低一级分辨率的上一级光流进行上采样得到具有最大级分辨率的当前级光流，并利用具有低一级分辨率的上一级掩码进行上采样得到具有最大级分辨率的当前级掩码，利用低分辨率的特征进行加工，产生高分辨率的图像，可以降低对于硬件的要求和消耗。

本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的视频插帧模型训练方法或者视频插帧生成方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图8示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的视频插帧模型训练方法或者视频插帧生成方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的视频插帧模型训练方法或者视频插帧生成方法。

本发明实施例中，电子设备可以是能够进行视频插帧模型训练的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图8所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器 (non-volatilememory)，例如至少一个磁盘存储器。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如上所述视频插帧模型训练方法或者视频插帧生成方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令，当实现视频插帧模型训练方法时，一方面，利用包括至少两级分辨率的训练数据对视频插帧模型进行训练，并获取各级的训练标签插帧，通过至少2级分辨率进行获取的方式，可以提高对于所生成的训练标签插帧的准确性，另一方面，在进行视频插帧模型的损失计算时，也结合多级训练标签插帧与多级训练标签帧的损失获取，从而可以提高所获取的视频插帧模型的损失的准确性，以更为准确地调整模型参数，保证训练后的视频插帧模型所生成的视频插帧的精度。

本发明实施例所提供的存储介质所存储的计算机可执行指令，当实现视频插帧生成方法时，利用训练后的视频插帧模型生成视频插帧，由于训练后的视频插帧模型经过前述的视频插帧训练方法的训练调整，具有较高的准确性，从而可以保证通过其获得的视频插帧的精度。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种视频插帧模型训练方法，其特征在于，包括：

2.如权利要求1所述的视频插帧模型训练方法，其特征在于，所述根据所述训练数据利用所述视频插帧模型获取各级训练标签插帧的步骤包括：

3.如权利要求2所述的视频插帧模型训练方法，其特征在于，所述利用深度神经网络根据所述训练标签前帧图像特征和所述训练标签后帧图像特征获取当前级光流和当前级掩码的步骤包括：

获取具有低一级分辨率的上一级光流；

4.如权利要求3所述的视频插帧模型训练方法，其特征在于，利用以下公式计算所述训练标签前帧图像特征和所述后帧转换图像特征之间的前帧互相关特征：

其中，FA--训练标签前帧图像特征；

FB′--后帧转换图像特征；

<，>--卷积运算；

o--位移偏移；

k--互相关窗口大小。

5.如权利要求3所述的视频插帧模型训练方法，其特征在于，所述根据所述训练标签前帧图像特征和所述前帧互相关特征得到所述当前级光流和所述当前级掩码的步骤包括：

6.如权利要求5所述的视频插帧模型训练方法，其特征在于，利用以下公式根据所述训练标签前帧、所述训练标签后帧、所述当前级光流和所述当前级掩码，获取具有相同当前级分辨率的所述训练标签插帧：

其中，m--分辨率等级数；

t—设训练标签前帧的编号为0时，训练标签帧的编号；

I_A--训练标签前帧；

I_B--训练标签后帧；

mask--当前级掩码；

F′_A→B--当前级光流

⊙--点乘；

g--图像插值方法。

7.如权利要求1-6任一项所述的视频插帧模型训练方法，其特征在于，所述获取训练数据的步骤包括：

利用差值法分别对具有相同分辨率的所述训练标签帧中的训练标签原始帧、所述训练标签前帧中的训练标签前原始帧和所述训练标签后帧中的训练标签后原始帧以图像分辨率的1/2倍率进行至少1次递归下采样，得到具有至少2级分辨率的所述训练标签帧、所述训练标签前帧和所述训练标签后帧。

8.如权利要求7所述的视频插帧模型训练方法，其特征在于，还包括：

通过拆解视频数据获取所述训练标签原始帧、所述训练标签前原始帧和训练标签后原始帧，所述训练标签原始帧位于所述训练标签前原始帧和训练标签后原始帧之间的一帧，且所述训练标签前原始帧和训练标签后原始帧之间的间隔帧数小于预定帧数阈值。

9.如权利要求1-6任一项所述的视频插帧模型训练方法，其特征在于，所述根据各级训练标签插帧和各级所述训练标签帧获取生成损失的步骤包括：

根据各级所述训练标签帧和各级所述训练标签插帧获取计算感知损失和均方误差损失；

根据所述感知损失和均方误差损失计算所述生成损失。

10.一种视频插帧生成方法，其特征在于，包括：

根据插帧数据利用如权利要求1-9任一项所述的视频插帧模型训练方法训练后的视频插帧模型生成视频插帧。

11.如权利要求10所述的视频插帧生成方法，其特征在于，所述利用如权利要求1-9任一项所述的训练后的视频插帧模型生成视频插帧的步骤包括：

12.一种视频插帧模型训练装置，其特征在于，包括：

训练数据获取单元，适于获取训练数据，所述训练数据包括：均包括至少2级分辨率的训练标签帧、训练标签前帧和训练标签后帧，且同一级的所述训练标签帧、所述训练标签前帧和所述训练标签后帧的分辨率相同；

13.如权利要求12所述的视频插帧模型训练装置，其特征在于，所述训练后的视频插帧模型单元，适于根据各级所述训练标签前帧和各级所述训练标签后帧利用所述视频插帧模型获取各级训练标签插帧，根据各级训练标签插帧和各级所述训练标签帧获取生成损失，根据所述生成损失利用优化方法调整所述视频插帧模型的模型参数，得到训练后的视频插帧模型直至所述生成损失达到损失阈值，具体包括：

14.一种视频插帧的生成装置，其特征在于，包括：

插帧数据获取单元，适于获取插帧数据，所述插帧数据包括：均包括至少2级分辨率的视频插帧前帧和视频插帧后帧，待插帧数量，视频插帧在所述插帧视频前帧和所述插帧视频后帧中的插帧位置；

视频插帧获取单元，适于根据插帧数据利用如权利要求1-9任一项所述的视频插帧模型训练方法训练后的视频插帧模型生成视频插帧。

15.如权利要求14所述的视频插帧的生成装置，其特征在于，所述视频插帧获取单元，适于利用如权利要求1-9任一项所述的训练视频插帧模型生成所述当前视频插帧，具体包括：

16.一种设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-9任一项所述的视频插帧模型训练方法。

17.一种存储介质，其特征在于，所述存储介质存储有适于视频插帧模型训练的程序，以实现如权利要求1-9任一项述的视频插帧模型训练方法。

18.一种设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求10或11所述的视频插帧生成方法。

19.一种存储介质，其特征在于，所述存储介质存储有适于视频插帧模型训练的程序，以实现如权利要求10或11所述的视频插帧生成方法。