CN115941871A

CN115941871A - 视频插帧方法、装置、计算机设备和存储介质

Info

Publication number: CN115941871A
Application number: CN202211281235.3A
Authority: CN
Inventors: 盛泽煜; 胡思行; 蒋念娟; 沈小勇; 吕江波
Original assignee: Shenzhen Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-04-07

Abstract

本申请涉及一种视频插帧方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧；将基于第一视频帧、中间帧和第二视频帧得到的降采样后视频帧，输入至预先训练的尺度组合预测模型，得到预先训练的插帧模型的预测尺度组合信息；根据预测尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；将调整后的插帧模型对应作为预先训练的插帧模型，循环上述步骤，直到满足预设终止条件，并将满足预设终止条件时对应的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。采用本方法能够提高生成的中间帧质量。

Description

视频插帧方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种视频插帧方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机视觉技术的发展，人们对于视频帧率的要求也越来越高，因此，插帧技术在视频处理中也越来越重要。例如，可以通过视频插帧技术进行视频压缩，还可以进行视频慢动作处理，也可以通过视频插帧技术替换原视频中的坏帧。

传统技术中，通常根据相邻两个视频帧的光流来估算出两个视频帧之间的中间帧，但是，对视频帧内容涉及大幅度运动的中间帧进行光流合成，容易导致生成的中间帧损失视频细节，使得该生成的中间帧较为模糊、质量较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高生成的中间帧质量的视频插帧方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种视频插帧方法。所述方法包括：

将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到所述第一视频帧与所述第二视频帧之间的中间帧；

将基于所述第一视频帧、所述中间帧和所述第二视频帧得到的降采样后视频帧，输入至预先训练的尺度组合预测模型，得到所述预先训练的插帧模型的预测尺度组合信息；

根据所述预测尺度组合信息，对所述预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；

将所述调整后的插帧模型对应作为所述预先训练的插帧模型，并跳转至将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到所述第一视频帧与所述第二视频帧之间的中间帧的步骤，直到满足预设终止条件，并将满足所述预设终止条件时对应的中间帧，作为所述第一视频帧和所述第二视频帧之间的目标视频帧。

第二方面，本申请还提供了一种视频插帧装置。所述装置包括：

中间帧获取模块，用于将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到所述第一视频帧与所述第二视频帧之间的中间帧；

尺度组合预测模块，用于将基于所述第一视频帧、所述中间帧和所述第二视频帧得到的降采样后视频帧，输入至预先训练的尺度组合预测模型，得到所述预先训练的插帧模型的预测尺度组合信息；

插帧模型调整模块，用于根据所述预测尺度组合信息，对所述预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；

视频帧确定模块，用于将所述调整后的插帧模型对应作为所述预先训练的插帧模型，并跳转至将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到所述第一视频帧与所述第二视频帧之间的中间帧的步骤，直到满足预设终止条件，并将满足所述预设终止条件时对应的中间帧，作为所述第一视频帧和所述第二视频帧之间的目标视频帧。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述视频插帧方法、装置、计算机设备、存储介质和计算机程序产品，将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧；将基于第一视频帧、中间帧和第二视频帧得到的降采样后视频帧，输入至预先训练的尺度组合预测模型，得到预先训练的插帧模型的预测尺度组合信息；根据预测尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；将调整后的插帧模型对应作为预先训练的插帧模型，并跳转至将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧的步骤，直到满足预设终止条件，并将满足预设终止条件时对应的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。采用本方法，将降采样后的视频帧输入至预先训练的尺度组合预测模型，不仅实现了通过比第一视频帧、中间帧和第二视频帧尺寸更小的视频帧就得到了预测尺度组合信息，还能够降低预先训练的尺度组合预测模型的计算量，提高处理效率；通过预先训练的尺度组合预测模型来调整预先训练的插帧模型中的当前尺度组合信息，使得在视频帧的运动幅度较大和运动幅度较小的情况下，均能够很好的拟合出中间帧，从而提高了生成的目标中间帧的质量。

附图说明

图1为一个实施例中视频插帧方法的流程环境图；

图2为一个实施例中训练得到预先训练的插帧模型步骤的流程示意图；

图3为一个实施例中得到第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流步骤的流程示意图；

图4为另一个实施例中视频插帧方法的流程示意图；

图5为又一个实施例中视频插帧方法的流程示意图；

图6为一个实施例中待训练的插帧模型的结构示意图；

图7为一个实施例中预先训练的尺度组合预测模型的结构示意图；

图8为又一个实施例中视频插帧方法的原理示意图；

图9为一个实施例中视频插帧装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种视频插帧方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，第一视频帧和第二视频帧等视频帧可以是预先存储在服务器中的，也可以是终端设备发送到服务器中的。本实施例中，该方法包括以下步骤：

步骤S101，将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧。

其中，预先训练的插帧模型指的是用于生成第一视频帧与第二视频帧之间的中间帧的模型，该模型可以但不限于是卷积神经网络等多尺度的深度学习插帧模型。

其中，第一视频帧、中间帧和第二视频帧是视频中连续的三帧视频帧；第一视频帧指的是中间帧的前一帧视频帧；第二视频帧指的是中间帧的后一帧视频帧。

具体地，服务器在获取到目标视频中的第一视频帧和第二视频帧时，可以将第一视频帧和第二视频帧输入至预先训练的插帧模型，预先训练的插帧模型输出第一视频帧对应的第一光流和第二视频帧对应的第二光流；根据第一视频帧、第二视频帧、第一光流和第二光流，合成得到第一视频帧与第二视频帧之间的中间帧。其中，第一光流指的是中间帧向第一视频帧的光流，第二光流指的是中间帧向第二视频帧的光流。

步骤S102，将基于第一视频帧、中间帧和第二视频帧得到的降采样后视频帧，输入至预先训练的尺度组合预测模型，得到预先训练的插帧模型的预测尺度组合信息。

其中，预先训练的尺度组合预测模型指的是用于预测视频帧的缩放尺度的模型，该模型可以但不限于是强化学习模型。

具体地，服务器根据第一视频帧、中间帧和第二视频帧进行拼接，得到拼接后视频帧；对拼接后视频帧进行降采样处理，得到降采样后视频帧。将降采样后视频帧作为状态量输入到预先训练的尺度组合预测模型中，预先训练的尺度组合预测模型预测得到预测尺度组合信息。其中，预测尺度组合信息是由多个缩放尺度进行组合得到的。

步骤S103，根据预测尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型。

其中，在预先训练的插帧模型为初次生成第一视频帧与第二视频帧之间的中间帧时，即预先训练的尺度组合预测模型还未预测得到预先训练的插帧模型的预测尺度组合信息之前，预先训练的插帧模型的当前尺度组合信息可以是预先设置的，也可以是预先训练的插帧模型在训练过程中得到的经验值。

具体地，服务器在获取到预测尺度组合信息之后，可以将预测尺度组合信息输入到预先训练的插帧模型中，以便后续对预先训练的插帧模型中的当前尺度组合信息进行更新，进而得到调整后的插帧模型。其中，预测尺度组合信息中包含的缩放尺度的数量。

步骤S104，将调整后的插帧模型对应作为预先训练的插帧模型，并跳转至将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧的步骤，直到满足预设终止条件，并将满足预设终止条件时对应的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。

其中，目标视频帧指的是在预设终止条件内生成的质量最佳的第一视频帧和第二视频帧之间的视频帧。

具体地，服务器在获取调整后的插帧模型后，可以再次执行步骤S101，即将第一视频帧和第二视频帧输入到调整后的插帧模型中，来得到第一视频帧与第二视频帧之间的中间帧；然后再次执行步骤S102，来获取调整后的插帧模型的预测尺度组合信息；进而再次执行步骤S103，来更新调整后的插帧模型；循环执行上述步骤S101至步骤S103，直到满足预设终止条件。将满足预设终止条件时预先训练的插帧模型输出的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。

上述视频插帧方法中，将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧；将基于第一视频帧、中间帧和第二视频帧得到的降采样后视频帧，输入至预先训练的尺度组合预测模型，得到预先训练的插帧模型的预测尺度组合信息；根据预测尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；将调整后的插帧模型对应作为预先训练的插帧模型，并跳转至将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧的步骤，直到满足预设终止条件，并将满足预设终止条件时对应的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。采用本方法，将降采样后的视频帧输入至预先训练的尺度组合预测模型，不仅实现了通过比第一视频帧、中间帧和第二视频帧尺寸更小的视频帧就得到了预测尺度组合信息，还能够降低预先训练的尺度组合预测模型的计算量，提高处理效率；通过预先训练的尺度组合预测模型来调整预先训练的插帧模型中的当前尺度组合信息，使得在视频帧的运动幅度较大和运动幅度较小的情况下，均能够很好的拟合出中间帧，从而提高了生成的目标中间帧的质量。

在一个实施例中，如图2所示，预先训练的插帧模型可以通过如下方式训练得到：

步骤S201，将第一视频帧样本和第二视频帧样本输入至待训练的插帧模型，得到第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流。

其中，待训练的插帧模型包括第一光流残差预测模型、第二光流残差预测模型和光流残差修正网络。第一光流残差预测模型、第二光流残差预测模型和光流残差修正网络可以是由多层卷积神经网络的组合得到。

其中，第二光流残差预测模型中至少包含两个光流残差预测模型，这两个光流残差预测模型的模型参数不同，但是这两个光流残差预测模型的模型结构相同。例如，这两个光流残差预测模型可以是相同网络结构的卷积神经网络，但是这两个卷积神经网络分别使用了不同的超参数。

具体地，服务器从样本视频中提取到连续的三帧视频帧，标记为第一初始视频帧样本、实际初始中间帧样本和第二初始视频帧样本；对第一初始视频帧样本、实际初始中间帧样本和第二初始视频帧样本进行归一化处理，得到归一化后的第一初始视频帧样本、归一化后的实际初始中间帧样本和归一化后的第二初始视频帧样本；可以对归一化后的第一初始视频帧样本、归一化后的实际初始中间帧样本和归一化后的第二初始视频帧样本进行颜色通过颠倒处理、图像颠倒处理和切割处理，得到第一视频帧样本、实际初始中间帧样本和第二视频帧样本。

举例说明，从样本视频中提取到连续的三帧视频帧，标记为A、B和C，将三帧A、B和C除以255，归一化到0至1内。可以对归一化后的A、B和C的红绿蓝通道统一随机颠倒，可以对视频帧进行随机的上下左右颠倒，还可以随机切割一部分，最终得到第一视频帧样本、实际初始中间帧样本和第二视频帧样本用于训练待训练的插帧模型。

进一步地，服务器通过待训练的插帧模型中的第一光流残差预测模型，对第一视频帧样本、第二视频帧样本进行处理，得到第一视频帧样本对应的光流残差和第二视频帧样本对应的光流残差；进而通过两个模型参数不同、模型结构相同的第二光流残差预测模型，依次对第一视频帧样本、第二视频帧样本、第一视频帧样本对应的光流残差、第二视频帧样本对应的光流残差进行两次处理，最终得到第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流，以便能够得到更精确的目标光流。

步骤S202，根据第一视频帧样本、第二视频帧样本、第一视频帧样本与第二视频帧样本之间的实际中间帧样本、第一目标光流和第二目标光流，得到第一视频帧样本对应的第三目标光流和第二视频帧样本对应的第四目标光流。

其中，实际中间帧样本指的是第一视频帧样本与第二视频帧样本之间的真实中间帧。例如，目标视频中有三个连续的视频帧，分别是A、B和C，则A可以看作第一视频帧样本，C可以看作第二视频帧样本，B可以看作实际中间帧样本；根据上述步骤S101至步骤S104得到的B'可以看作A和C之间的目标中间帧。

其中，第三目标光流指的是光流残差修正网络在学习到实际中间帧样本的情况下预测的第一视频帧样本对应的光流；第四目标光流指的是光流残差修正网络在学习到实际中间帧样本的情况下预测的第二视频帧样本对应的光流。

具体地，服务器通过光流残差修正网络，对一视频帧样本、第二视频帧样本、第一视频帧样本与第二视频帧样本之间的实际中间帧样本、第一目标光流和第二目标光流进行处理，得到第一视频帧样本对应的第三目标光流和第二视频帧样本对应的第四目标光流。

步骤S203，根据第一视频帧样本、第二视频帧样本、实际中间帧样本、第一目标光流、第二目标光流、第三目标光流和第四目标光流，得到待训练的插帧模型的损失函数。

步骤S204，根据损失函数，对待训练的插帧模型进行迭代训练，得到预先训练的插帧模型。

具体地，服务器对第一视频帧样本、第二视频帧样本、实际中间帧样本、第一目标光流、第二目标光流、第三目标光流和第四目标光流进行正则化处理和拉普拉斯处理，得到待训练的插帧模型的损失函数，从而利用该损失函数对待训练的插帧模型中的第一光流残差预测模型、第二光流残差预测模型和光流残差修正网络进行梯度更新，得到预先训练的插帧模型。

本实施例中，通过第一光流残差预测模型，以及两个模型参数不同、模型结构相同的第二光流残差预测模型，依次对第一视频帧样本、第二视频帧样本、第一视频帧样本和第二视频帧样本进行处理，能够提高目标光流的准确度；通过第一视频帧样本、第二视频帧样本、实际中间帧样本，来对光流残差修正网络进行训练，使得光流残差修正网络能够学习到实际中间帧样本的情况下预测的第一视频帧样本和第二视频帧样本对应的光流，并根据光流残差修正网络学习到的光流残差计算损失函数，利用损失函数对待训练的插帧模型进行迭代训练，得到预先训练的插帧模型，大大提高了预先训练的插帧模型对光流残差的预测准确率，从而提高了目标中间帧的质量。

在一个实施例中，如图3所示，将第一视频帧样本和第二视频帧样本输入至待训练的插帧模型，得到第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流，具体包括如下内容：

步骤S301，根据待训练的插帧模型的预设尺度组合信息中的第一预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第一缩放样本和第二缩放样本。

步骤S302，将第一缩放样本和第二缩放样本，输入至待训练的插帧模型中的第一光流残差预测模型，得到第一缩放样本对应的第一初始光流残差和第二缩放样本对应的第二初始光流残差，并将第一初始光流残差作为第一初始光流和将第二初始光流残差作为第二初始光流。

其中，预设尺度组合信息包含待训练的插帧模型中各个模型对应的视频帧缩放尺度。例如，第一光流残差预测模型对应的第一预设尺度，第二光流残差预测模型(包含模型参数不同、模型结构相同的两个模型)对应的第二预设尺度和第三预设尺度。

具体地，服务器根据第一预设尺度，对第一视频帧样本进行缩放处理，得到第一缩放样本；根据第一预设尺度，对第二视频帧样本进行缩放处理，得到第二缩放样本；将第一缩放样本和第二缩放样本，输入至待训练的插帧模型中的第一光流残差预测模型，得到第一缩放样本对应的第一初始光流残差和第二缩放样本对应的第二初始光流残差；需要说明的是，除了电脑动画和一些特殊场景以外，无法获取视频帧的光流的真实值，所以可以将第一视频帧样本的光流和第二视频帧样本的光流均设置为0；将第一初始光流残差与第一视频帧样本的光流相加，得到第一初始光流，即第一初始光流等于第一初始光流残差；将第二初始光流残差与第二视频帧样本的光流相加，得到第二初始光流，即第二初始光流等于第二初始光流残差。

步骤S303，根据预设尺度组合信息中的第二预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第三缩放样本和第四缩放样本。

步骤S304，将第三缩放样本、第四缩放样本、第一初始光流和第二初始光流，输入至待训练的插帧模型中的第二光流残差预测模型，得到第一初始光流的第一更新光流残差和第二初始光流的第二更新光流残差；第一更新光流残差用于对第一初始光流进行更新，得到第一更新光流；第二更新光流残差用于对第二初始光流进行更新，得到第二更新光流。

具体地，服务器根据第二预设尺度，对第一视频帧样本进行缩放处理，得到第三缩放样本；根据第二预设尺度，对第二视频帧样本进行缩放处理，得到第四缩放样本；将第三缩放样本、第四缩放样本、第一初始光流和第二初始光流，输入至待训练的插帧模型中的一个第二光流残差预测模型，得到第一更新光流残差和第二更新光流残差；将第一初始光流与第一更新光流残差相加，得到第一更新光流；将第二初始光流与第二更新光流残差相加，得到第二更新光流。

步骤S305，根据预设尺度组合信息中的第三预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第五缩放样本和第六缩放样本。

步骤S306，将第五缩放样本、第六缩放样本、第一更新光流和第二更新光流，输入至第二光流残差预测模型，得到第一更新光流的第一目标光流残差和第二更新光流的第二目标光流残差。

步骤S307，根据第一目标光流残差和第二目标光流残差，对第一更新光流和第二更新光流进行对应更新，得到第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流。

需要说明的是，步骤S304和步骤S306中的第二光流残差预测模型是两个模型参数不同，但是模型结构相同的模型。此外，第一初始光流、第一更新光流和第一目标光流均是指中间帧向第一视频帧的光流；第二初始光流、第二更新光流和第二目标光流均是指中间帧向第二视频帧的光流。

具体地，服务器根据第三预设尺度，对第一视频帧样本进行缩放处理，得到第五缩放样本；根据第三预设尺度，对第二视频帧样本进行缩放处理，得到第六缩放样本；将第五缩放样本、第六缩放样本、第一更新光流和第二更新光流，输入至待训练的插帧模型中的另一个第二光流残差预测模型，得到第一目标光流残差和第二目标光流残差；将第一目标光流残差与第一更新光流相加，得到第一目标光流；将第二目标光流残差与第二更新光流相加，得到第二目标光流。其中，第三预设尺度可以设置为0，即对第一视频帧样本和第二视频帧样本不进行缩放处理。

本实施例中，通过待训练的插帧模型的预设尺度组合信息，对第一视频帧样本和第二视频帧样本进行缩放处理，在通过待训练的插帧模型中的各个模型对第一缩放样本和第二缩放样本进行光流残差预测，使得待训练的插帧模型学习到不同尺度下的视频帧，从而更好的拟合第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流，进而提高了预先训练的插帧模型对光流残差的预测准确率。

在一个实施例中，待训练的插帧模型还包括光流残差修正网络。上述步骤S202，根据第一视频帧样本、第二视频帧样本、第一视频帧样本与第二视频帧样本之间的实际中间帧样本、第一目标光流和第二目标光流，得到第一视频帧样本对应的第三目标光流和第二视频帧样本对应的第四目标光流，具体包括如下内容：将第一视频帧样本、第二视频帧样本、实际中间帧样本、第一目标光流、第二目标光流、第三目标光流和第四目标光流，输入至光流残差修正网络，得到第一目标光流对应的第三目标光流残差和第二目标光流对应的第四目标光流残差；根据第三目标光流残差和第四目标光流残差，对第一目标光流和第二目标光流进行对应更新，得到第一视频帧样本对应的第三目标光流和第二视频帧样本对应的第四目标光流。

具体地，服务器将第一视频帧样本、第二视频帧样本、实际中间帧样本、第一目标光流、第二目标光流、第三目标光流和第四目标光流，输入至光流残差修正网络进行光流残差预测，得到第三目标光流残差和第四目标光流残差；将第三目标光流残差与第一目标光流进行相加，得到第一视频帧样本对应的第三目标光流；将第四目标光流残差与第二目标光流进行相加，得到第二视频帧样本对应的第四目标光流。

本实施例中，通过将实际中间帧样本输入到光流残差修正网络中，使得光流残差修正网络能够学习到第一光流残差预测模型和第二光流残差预测模型没有学习到的知识，进而后续可以使用光流残差修正网络输出的第三目标光流和第四目标光流来构建损失函数反向指导第一光流残差预测模型和第二光流残差预测模型的学习，以提升预先训练的插帧模型的对光流残差的预测准确率。

在一个实施例中，上述步骤S203，根据第一视频帧样本、第二视频帧样本、实际中间帧样本、第一目标光流、第二目标光流、第三目标光流和第四目标光流，得到待训练的插帧模型的损失函数，具体包括如下内容：根据第一视频帧样本、第二视频帧样本、第一目标光流和第二目标光流，生成第一合成中间帧；根据第一视频帧样本、第二视频帧样本、第三目标光流和第四目标光流，生成第二合成中间帧；根据第一合成中间帧、第二合成中间帧和实际中间帧样本，得到待训练的插帧模型的损失函数。

具体地，服务器根据第一目标光流和第二目标光流，分别对第一视频帧样本和第二视频帧样本进行变形处理，得到变形后的第一视频帧样本和变形后的第二视频帧样本；将第一视频帧样本、第二视频帧样本、变形后的第一视频帧样本和变形后的第二视频帧样本，输入到中间帧融合模型中，得到中间帧融合模型输出的第一视频帧样本与第二视频帧样本之间的第一合成中间帧；服务器根据第三目标光流和第四目标光流，分别对第一视频帧样本、第二视频帧样本再次进行变形处理，得到再次变形后的第一视频帧样本和再次变形后的第二视频帧样本；将第一视频帧样本、第二视频帧样本、再次变形后的第一视频帧样本和再次变形后的第二视频帧样本，输入到中间帧融合模型中，得到中间帧融合模型输出的第一视频帧样本与第二视频帧样本之间的第二合成中间帧；根据第一合成中间帧、第二合成中间帧、实际中间帧样本，以及第一目标光流、第二目标光流、第三目标光流和第四目标光流，得到待训练的插帧模型的损失函数。

本实施例中，通过待训练的插帧模型中的第二光流残差预测模型输出的第一目标光流和第二目标光流，以及第一视频帧样本、第二视频帧样本，合成得到第一合成中间帧；通过待训练的插帧模型中的光流残差修正网络输出的第三目标光流和第四目标光流，以及第一视频帧样本、第二视频帧样本，合成得到第二合成中间帧；根据第一合成中间帧、第二合成中间帧和实际中间帧样本，来计算得到损失函数，进而利用该损失函数，以梯度反向传播的方式更新待训练的插帧模型中的各个模型的模型参数，以实现待训练的插帧模型的合理训练，进而得到预先训练的插帧模型。

在一个实施例中，根据第一合成中间帧、第二合成中间帧和实际中间帧样本，得到待训练的插帧模型的损失函数，具体包括如下内容：对第一合成中间帧和实际中间帧样本进行拉普拉斯变换处理，得到第一拉普拉斯结果；对第二合成中间帧和实际中间帧样本进行拉普拉斯变换处理，得到第二拉普拉斯结果；对第一目标光流和第三目标光流进行正则化处理，得到第一正则化结果；对第二目标光流和第四目标光流进行正则化处理，得到第二正则化结果；根据第一拉普拉斯结果、第二拉普拉斯结果、第一正则化结果和第二正则化结果，得到待训练的插帧模型的损失函数。

具体地，将第一拉普拉斯结果标记为Lap1，第一拉普拉斯结果的获取过程可以通过如下公式进行表示：

其中，

表示第一合成中间帧，G_t表示实际中间帧样本，lap()函数表示对lap()函数中的参数进行拉普拉斯变换处理。

将第二拉普拉斯结果标记为Lap2，第二拉普拉斯结果的获取过程可以通过如下公式进行表示：

其中，

表示第二合成中间帧。

将第一正则化结果标记为L1₁，第一正则化结果的获取过程可以通过如下公式进行表示：

L1₁＝L1(F′_t0，F_t0)

其中，F'_t0表示第三目标光流，F_t0表示第一目标光流，L1()函数表示对L1()函数中的参数进行正则化处理。

将第二正则化结果标记为L1₂，第二正则化结果的获取过程可以通过如下公式进行表示：

L1₂＝L1(F′_t1，F_t1)

其中，F'_t1表示第四目标光流，F_t1表示第二目标光流。

服务器将第一拉普拉斯结果、第二拉普拉斯结果、第一正则化结果和第二正则化结果进行相加，得到待训练的插帧模型的损失函数；将待训练的插帧模型的损失函数标记为Loss，待训练的插帧模型的损失函数可以通过如下公式进行表示：

本实施例中，通过损失函数，以梯度反向传播的方式更新待训练的插帧模型中的各个模型的模型参数，能够实现待训练的插帧模型的合理训练，进而得到预先训练的插帧模型。

在一个实施例中，预先训练的尺度组合预测模型通过如下方式训练得到：将第一视频帧样本和第二视频帧样本输入至预先训练的插帧模型，得到第一视频帧样本与第二视频帧样本之间的第一中间帧样本；将第一视频帧样本、第二视频帧样本和第一中间帧样本，输入至待训练的尺度组合预测模型，得到针对预先训练的插帧模型的训练尺度组合信息；根据训练尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；将第一视频帧样本和第二视频帧样本输入至调整后的插帧模型，得到第一视频帧样本与第二视频帧样本之间的第二中间帧样本；根据第一中间帧样本与第二中间帧样本之间的峰值信噪比或学习感知图像块相似度，对待训练的尺度组合预测模型进行修正，得到预先训练的尺度组合预测模型。

其中，预先训练的尺度组合预测模型可以是训练完成的强化学习模型。例如优势动作评论算法(Advantage Actor Critic，A2C)。

具体地，服务器将第一视频帧样本和第二视频帧样本输入至预先训练的插帧模型，得到预先训练的插帧模型中的另一个第二光流残差预测模型输出的第一视频帧样本对应的第一光流和第二视频帧样本对应第二光流；将第一视频帧样本、第二视频帧样本、第一光流和第二光流输入到中间帧融合模型中，得到第一视频帧样本与第二视频帧样本之间的第一中间帧样本；将第一视频帧样本、第二视频帧样本和第一中间帧样本，输入至待训练的尺度组合预测模型，得到针对预先训练的插帧模型的训练尺度组合信息；根据训练尺度组合信息，对预先训练的插帧模型中的当前尺度组合信息进行调整，得到调整后的插帧模型；将第一视频帧样本和第二视频帧样本输入至调整后的插帧模型，得到第一视频帧样本与第二视频帧样本之间的第二中间帧样本。

根据第一中间帧样本和真实中间帧样本，计算得到第一峰值信噪比；根据第二中间帧样本和真实中间帧样本，计算得到第二峰值信噪比；根据第一峰值信噪比与第二峰值信噪比之间的差值，得到损失值；或者，根据第一中间帧样本和真实中间帧样本，计算得到第一学习感知图像块相似度；根据第二中间帧样本和真实中间帧样本，计算得到第二学习感知图像块相似度；根据第一学习感知图像块相似度与第二学习感知图像块相似度之间的差值，得到损失值。其中，第一峰值信噪比指的是根据第一中间帧样本和真实中间帧样本计算得到的峰值信噪比(Peak signal-to-noise ratio，PSNR)，第二峰值信噪比指的是根据第二中间帧样本和真实中间帧样本计算得到峰值信噪比；第一学习感知图像块相似度指的是根据第一中间帧样本和真实中间帧样本计算得到学习感知图像块相似度(Learnedperceptual image patch similarity，LPIPS)，第二学习感知图像块相似度指的是根据第二中间帧样本和真实中间帧样本计算得到学习感知图像块相似度。

服务器预先设置预设训练数量条件，在检测到训练数量满足预设训练数量条件时，根据损失值对待训练的尺度组合预测模型进行梯度更新。例如，待训练的尺度组合预测模型能够使用多个线程并行处理多个视频帧，服务器预将batch size设置为1，当训练数量满足batch size的上限时，将各个线程上得到的损失值在0维上进行合并处理，得到合并后损失值，将合并后损失值输入到待训练的尺度组合预测模型中统一进行梯度更新。

本实施例中，由于在对待训练的插帧模型的训练过程中，对第一视频帧样本和第二视频帧样本进行了缩放处理，使得第一视频帧样本和第二视频帧样本的尺寸多数为224*224并且运动幅度不大，导致预先训练的插帧模型难以拟合运动幅度较大的中间帧，因而本实施例中对待训练的尺度组合预测模型进行训练，得到预先训练的尺度组合预测模型，通过预先训练的尺度组合预测模型来调整预先训练的插帧模型的当前尺度组合信息，从而使得在视频帧的运动幅度较大和运动幅度较小的情况下，预先训练的插帧模型均能够很好的拟合出中间帧，从而提高了生成的目标中间帧的质量。

在一个实施例中，上述步骤S101，将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧，具体包括如下内容：根据光流残差预测网络的当前尺度组合信息，对第一视频帧和第二视频帧进行缩放处理，得到缩放后的第一视频帧和缩放后的第二视频帧；将缩放后的第一视频帧和缩放后的第二视频帧，输入至预先训练的插帧模型，得到第一视频帧对应的第一光流和第二视频帧对应的第二光流；根据第一视频帧、第二视频帧、第一光流和第二光流，得到第一视频帧与第二视频帧之间的中间帧。

其中，第二光流残差预测模型中至少包含两个光流残差预测模型，这两个光流残差预测模型的模型参数不同，但是光流残差预测模型的模型结构相同。例如，这两个光流残差预测模型可以是相同网络结构的卷积神经网络，但是这两个模型分别使用了不同的超参数。

具体地，服务器在获取到目标视频中的第一视频帧和第二视频帧时，可以根据光流残差预测网络的当前尺度组合信息中的第一当前尺度，分别对第一视频帧和第二视频帧进行缩放处理，得到第一缩放视频帧和第二缩放视频帧；然后将第一缩放视频帧和第二缩放视频帧，输入至预先训练的插帧模型中的第一光流残差预测模型，得到第一缩放视频帧对应的第一初始光流残差和第二缩放视频帧对应的第二初始光流残差，并将第一初始光流残差作为第一初始光流和将第二初始光流残差作为第二初始光流。

根据当前尺度组合信息中的第二当前尺度，分别对第一视频帧和第二视频帧再次进行缩放处理，得到第三缩放视频帧和第四缩放视频帧；将第三缩放视频帧、第四缩放视频帧、第一初始光流和第二初始光流，输入至预先训练的插帧模型中的一个第二光流残差预测模型，得到第一初始光流的第一更新光流残差和第二初始光流的第二更新光流残差；将第一初始光流与第一更新光流残差相加，得到第一更新光流；将第二初始光流与第二更新光流残差相加，得到第二更新光流。

根据第三当前尺度，对第一视频帧进行缩放处理，得到第五缩放视频帧；根据第三当前尺度，对第二视频帧进行缩放处理，得到第六缩放视频帧；将第五缩放视频帧、第六缩放视频帧、第一更新光流和第二更新光流，输入至待训练的插帧模型中的另一个第二光流残差预测模型，得到第一光流残差和第二光流残差；将第一光流残差与第一更新光流相加，得到第一光流；将第二光流残差与第二更新光流相加，得到第二光流。其中，第三当前尺度可以设置为0，即对第一视频帧和第二视频帧不进行缩放处理。

将第一视频帧、第二视频帧、第一光流和第二光流输入到中间帧融合模型中，得到第一视频帧与第二视频帧之间的中间帧。

本实施例中，通过当前尺度组合信息对第一视频帧和第二视频帧进行缩放处理，得到缩放后的第一视频帧和缩放后的第二视频帧，能够对第一视频帧和第二视频帧的尺度进行合理调整，将缩放后的第一视频帧和缩放后的第二视频帧，输入至预先训练的插帧模型，得到第一视频帧对应的第一光流和第二视频帧对应的第二光流；根据第一视频帧、第二视频帧、第一光流和第二光流，得到第一视频帧与第二视频帧之间的中间帧，实现了中间帧的合理生成，并根据预先训练的尺度组合预测模型提供的预测尺度组合信息，能够对预先训练的插帧模型的当前尺度组合信息不断更新，大大提高了生成的中间帧的质量。

在一个实施例中，上述步骤S102中，基于第一视频帧、中间帧和第二视频帧得到的降采样后视频帧，具体包括如下内容：对第一视频帧、中间帧和第二视频帧进行颜色通道拼接处理，得到拼接后视频帧；对拼接后视频帧进行降采样处理，得到降采样后视频帧。

其中，拼接后视频帧的通道数量等于第一视频帧、中间帧和第二视频帧的通道数量之和。

具体地，服务器对第一视频帧、中间帧和第二视频帧在红绿蓝颜色通道上进行拼接处理，得到拼接后视频帧；对拼接后视频帧进行降采样处理，得到降采样后视频帧。其中，降采样处理的尺度包括但不限于是1/8、1/16和1/24。

举例说明，拼接后视频帧具有9个通道，服务器将拼接后视频帧降采样到拼接后视频帧的1/16，得到长宽为拼接后视频帧的长度的1/4，但是具有9个通道的降采样后视频帧。

本实施例中，通过对拼接后视频帧进行降采样处理，得到降采样后视频帧，以便减少预先训练的尺度组合预测模型对降采样后视频帧的计算量，从而减少了预先训练的尺度组合预测模型预测时间，提高了获取预测尺度组合信息的效率。

在一个实施例中，视频插帧方法还包括：通过预先训练的插帧模型对中间帧进行评估，得到中间帧的评估结果；在评估结果满足预设评估阈值的情况下，确认满足预设终止条件；或者，在获取中间帧的次数达到预设次数的情况下，确认满足预设终止条件。

具体地，服务器可以通过预先训练的插帧模型对输入的中间帧进行评估，得到中间帧的评估结果，例如，以网络黑盒的形式对比输入的第一视频帧、中间帧和第二视频帧的时空连贯性。在评估结果大于预设评估阈值时，确认满足预设终止条件。服务器还可以在确定得到中间帧的次数，在该次数大于或者等于预设次数时，确认满足预设终止条件。服务器确认满足预设终止条件时，输出当前得到的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。

在一个实施例中，如图4所示，提供了另一种视频插帧方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S401，根据光流残差预测网络的当前尺度组合信息，对所述第一视频帧和所述第二视频帧进行缩放处理，得到缩放后的第一视频帧和缩放后的第二视频帧。

步骤S402，将缩放后的第一视频帧和缩放后的第二视频帧，输入至预先训练的插帧模型，得到第一视频帧对应的第一光流和第二视频帧对应的第二光流。

步骤S403，根据第一视频帧、第二视频帧、第一光流和第二光流，得到第一视频帧与第二视频帧之间的中间帧。

步骤S404，对第一视频帧、中间帧和第二视频帧进行颜色通道拼接处理，得到拼接后视频帧；对拼接后视频帧进行降采样处理，得到降采样后视频帧。

步骤S405，将降采样后视频帧，输入至预先训练的尺度组合预测模型，得到预先训练的插帧模型的预测尺度组合信息。

步骤S406，根据预测尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；将调整后的插帧模型对应作为预先训练的插帧模型，并跳转至将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧的步骤，直到满足预设终止条件。

步骤S407，将满足预设终止条件时对应的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。

上述视频插帧方法，能够实现以下有益效果：将降采样后的视频帧输入至预先训练的尺度组合预测模型，不仅实现了通过比第一视频帧、中间帧和第二视频帧尺寸更小的视频帧就得到了预测尺度组合信息，还能够降低预先训练的尺度组合预测模型的计算量，提高处理效率；通过预先训练的尺度组合预测模型来调整预先训练的插帧模型中的当前尺度组合信息，使得在视频帧的运动幅度较大和运动幅度较小的情况下，均能够很好的拟合出中间帧，从而提高了生成的目标中间帧的质量。

为了更清晰阐明本公开实施例提供的视频插帧方法，以下以一个具体的实施例对该视频插帧方法进行具体说明。如图5所示，在一个实施例中，提供了又一种视频插帧方法，可以应用于服务器，可以分为模型训练过程和插帧过程，具体包括如下内容：

在模型训练过程中，包括：(1)图像预处理：从样本视频中提取到连续的三帧视频帧，标记为A、B和C，同时将三帧A、B和C除以255，归一化到0至1内。可以对归一化后的A、B和C的红绿蓝通道统一随机颠倒，可以对视频帧A、B和C进行随机的上下左右颠倒，还可以随机切割一部分，最终得到第一视频帧样本I₀、实际中间帧样本G_t和第二视频帧样本I₁。

(2)训练待训练的插帧模型：图6为待训练的插帧模型的结构示意图，如图6所示，待训练的插帧模型可以由第一光流残差预测模型、两个第二光流残差预测模型、光流残差修正网络和中间帧融合模型组成。第一光流残差预测模型、两个第二光流残差预测模型和光流残差修正网络可以是多层卷积神经网络的组合，进而待训练的插帧模型也可以通过卷积神经网络实现，并将训练待训练的插帧模型看作回归学习的过程。

具体地，第一预设尺度可以是1/4，则将I₀和I₁缩小四分之一后输入到第一光流残差预测模型，得到I₀的第一初始光流残差△FL_t0和I₁的第二初始光流残差△FL_t1；由于服务器在初始时未知I₀和I₁的光流FL_t0和FL_t1，则FL_t0和FL_t1均可设置为0，进而第一初始光流FL'_t0＝△FL_t0，第二初始光流FL'_t1＝△FL_t1。第二预设尺度可以是1/2，将I₀和I₁缩小二分之一后输入第二光流残差预测模型，并将FL'_t0和FL'_t1输入到第二光流残差预测模型，得到第一更新光流残差△FL'_t0和第二更新光流残差△FL'_t1，则第一更新光流为FL”_t0＝△FL'_t0+FL'_t0，第二更新光流为FL”_t1＝△FL'_t1+FL'_t1。第三预设尺度可以是0，则无需对I₀和I₁进行缩放处理，将I₀、I₁、FL”_t0和FL”_t1输入第二光流残差预测模型，得到第一目标光流残差△FL”_t0和第二目标光流残差△FL”_t1，则第一目标光流为F_t0＝△FL”_t0+FL”_t0，第二目标光流为F_t1＝△FL”_t1+FL”_t1。将I₀、I₁、F_t0和F_t1输入到中间帧融合模型中，得到第一合成中间帧

将I₀、I₁、F_t0、F_t1和G_t输入到光流残差修正网络中，得到△F'_t0和△F'_t1，则第三目标光流为F'_t0＝△F'_t0+F_t0，第四目标光流为F'_t1＝△F'_t1+F_t1。将I₀、I₁、F'_t0和F'_t1输入到中间帧融合模型中，得到第二合成中间帧

通过可以通过如下公式得到待训练的插帧模型的损失函数Loss：

通过损失函数Loss，以梯度反向传播的方式更新待训练的插帧模型中的各个模型的模型参数，得到预先训练的插帧模型。

(3)训练待训练的尺度组合预测模型：在步骤(2)中训练待训练的插帧模型时，采用的是第一视频帧样本I₀和第二视频帧样本I₁的逐级缩小1/4，1/2和不缩小的视频帧样本来训练待训练的插帧模型，由于视频帧样本普遍在224*224大小并且运动幅度不大，使得预先训练的插帧模型很难拟合运动幅度较大的中间帧，进而通过尺度组合预测模型来对预先训练的插帧模型中的当前尺度组合信息进行调整。图7为预先训练的尺度组合预测模型的结构示意图，如图7所示，将I₀、预先训练的插帧模型第i次输出的中间帧

和I₁输入到待训练的尺度组合预测模型中，得到预测尺度组合信息；根据该预测尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型和调整后的插帧模型第i+1次输出的中间帧

根据第i+1次输出的中间帧

和实际中间帧样本G_t，得到PSNR_i+1(或LPIPS_i+1)，再根据第i次输出的中间帧

和实际中间帧样本G_t，得到PSNR_i(或LPIPS_i)，通过PSNR_i减去PSNR_i+1(或者LPIPS_i减去LPIPS_i+1)得到损失值，用损失值去修正待训练的尺度组合预测模型，得到预先训练的尺度组合预测模型。

(4)生成模型文件：针对待训练的插帧模型和待训练的尺度组合预测模型的训练结束，得到预先训练的插帧模型和预先训练的尺度组合预测模型后，将预先训练的插帧模型和预先训练的尺度组合预测模型的必要信息保存起来生成模型文件。其中，必要信息包括预先训练的插帧模型和预先训练的尺度组合预测模型的模型参数。

图8为本实施例中的又一种视频插帧方法的原理示意图，如图8所示，在插帧过程中，包括：通过预先训练的插帧模型对第一视频帧M₀和M₁和第二视频帧进行处理，得到第一视频帧和第二视频帧之间的中间帧；其中，预先训练的插帧模型中的当前尺度组合信息为1/4，1/2，1倍(1倍就是原视频帧进入)。将M₀、

和M₁在RGB通道上进行拼接，然后降采样到原视频帧的16分之一，得到一个长宽变为原视频帧的1/4但是具有9个通道的状态量S。将S输入预先训练的尺度组合预测模型，得到预测尺度组合信息，这个预测尺度组合信息是多种缩放倍率的组合，这里包括1/16，1/8，1/4，1/2，1倍，预先训练的尺度组合预测模型会从这几个倍率里选择若干个进行组合，进而得到预测尺度组合信息。将得到的预测尺度组合信息重新输入到预先训练的插帧模型中的第一光流残差预测模型和两个第二光流残差预测模型中，得到调整后的插帧模型，获取调整后的插帧模型输出的新的中间帧

然后将M₀、

和M₁在RGB通道上进行拼接，然后降采样到原视频帧的16分之一，重新得到状态S并输入到预先训练的尺度组合预测模型中，得到新的预测尺度组合信息，循环本步骤，直到预先训练的尺度组合预测模型确认输入的中间帧满足预设视频帧条件，或者达到预先设置的最大循环次数时，输出当前这轮得到的中间帧作为目标中间帧。将第一视频帧、目标中间帧和第二视频帧作为第一视频帧和第二视频帧之间的最佳插帧组合。

在本实施例中，通过预先训练的尺度组合预测模型选择不同尺度的方法重新组合预先训练的插帧模型中的当前尺度组合信息，能够避免小幅度运动使用大尺度缩放丢失细节，大运动使用小尺度缩放无法拟合的问题，同时预先训练的尺度组合预测模型只需要原视频帧的1/16大小就能够准确输出预测尺度组合信息，在给定的循环此处内生成最佳中间帧，即得到最佳插帧组合。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频插帧方法的视频插帧装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频插帧装置实施例中的具体限定可以参见上文中对于视频插帧方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种视频插帧装置900，包括：中间帧获取模块901、尺度组合预测模块902、插帧模型调整模块903和视频帧确定模块904，其中：

中间帧获取模块901，用于将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧。

尺度组合预测模块902，用于将基于第一视频帧、中间帧和第二视频帧得到的降采样后视频帧，输入至预先训练的尺度组合预测模型，得到预先训练的插帧模型的预测尺度组合信息。

插帧模型调整模块903，用于根据预测尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型。

视频帧确定模块904，用于将调整后的插帧模型对应作为预先训练的插帧模型，并跳转至将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到第一视频帧与第二视频帧之间的中间帧的步骤，直到满足预设终止条件，并将满足预设终止条件时对应的中间帧，作为第一视频帧和第二视频帧之间的目标视频帧。

在一个实施例中，视频插帧装置900还包括插帧模型训练模块，用于将第一视频帧样本和第二视频帧样本输入至待训练的插帧模型，得到第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流；根据第一视频帧样本、第二视频帧样本、第一视频帧样本与第二视频帧样本之间的实际中间帧样本、第一目标光流和第二目标光流，得到第一视频帧样本对应的第三目标光流和第二视频帧样本对应的第四目标光流；根据第一视频帧样本、第二视频帧样本、实际中间帧样本、第一目标光流、第二目标光流、第三目标光流和第四目标光流，得到待训练的插帧模型的损失函数；根据损失函数，对待训练的插帧模型进行迭代训练，得到预先训练的插帧模型。

在一个实施例中，视频插帧装置900还包括第一光流获取模块，用于根据待训练的插帧模型的预设尺度组合信息中的第一预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第一缩放样本和第二缩放样本；将第一缩放样本和第二缩放样本，输入至待训练的插帧模型中的第一光流残差预测模型，得到第一缩放样本对应的第一初始光流残差和第二缩放样本对应的第二初始光流残差，并将第一初始光流残差作为第一初始光流和将第二初始光流残差作为第二初始光流；根据预设尺度组合信息中的第二预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第三缩放样本和第四缩放样本；将第三缩放样本、第四缩放样本、第一初始光流和第二初始光流，输入至待训练的插帧模型中的第二光流残差预测模型，得到第一初始光流的第一更新光流残差和第二初始光流的第二更新光流残差；第一更新光流残差用于对第一初始光流进行更新，得到第一更新光流；第二更新光流残差用于对第二初始光流进行更新，得到第二更新光流；根据预设尺度组合信息中的第三预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第五缩放样本和第六缩放样本；将第五缩放样本、第六缩放样本、第一更新光流和第二更新光流，输入至第二光流残差预测模型，得到第一更新光流的第一目标光流残差和第二更新光流的第二目标光流残差；根据第一目标光流残差和第二目标光流残差，对第一更新光流和第二更新光流进行对应更新，得到第一视频帧样本对应的第一目标光流和第二视频帧样本对应的第二目标光流。

在一个实施例中，待训练的插帧模型还包括光流残差修正网络；视频插帧装置900还包括第二光流获取模块，用于将第一视频帧样本、第二视频帧样本、实际中间帧样本、第一目标光流、第二目标光流、第三目标光流和第四目标光流，输入至光流残差修正网络，得到第一目标光流对应的第三目标光流残差和第二目标光流对应的第四目标光流残差；根据第三目标光流残差和第四目标光流残差，对第一目标光流和第二目标光流进行对应更新，得到第一视频帧样本对应的第三目标光流和第二视频帧样本对应的第四目标光流。

在一个实施例中，视频插帧装置900还包括损失函数获取模块，用于根据第一视频帧样本、第二视频帧样本、第一目标光流和第二目标光流，生成第一合成中间帧；根据第一视频帧样本、第二视频帧样本、第三目标光流和第四目标光流，生成第二合成中间帧；根据第一合成中间帧、第二合成中间帧和实际中间帧样本，得到待训练的插帧模型的损失函数。

在一个实施例中，视频插帧装置900还包括损失函数确定模块，用于对第一合成中间帧和实际中间帧样本进行拉普拉斯变换处理，得到第一拉普拉斯结果；对第二合成中间帧和实际中间帧样本进行拉普拉斯变换处理，得到第二拉普拉斯结果；对第一目标光流和第三目标光流进行正则化处理，得到第一正则化结果；对第二目标光流和第四目标光流进行正则化处理，得到第二正则化结果；根据第一拉普拉斯结果、第二拉普拉斯结果、第一正则化结果和第二正则化结果，得到待训练的插帧模型的损失函数。

在一个实施例中，视频插帧装置900还包括尺度组合预测模型训练模块，用于将第一视频帧样本和第二视频帧样本输入至预先训练的插帧模型，得到第一视频帧样本与第二视频帧样本之间的第一中间帧样本；将第一视频帧样本、第二视频帧样本和第一中间帧样本，输入至待训练的尺度组合预测模型，得到针对预先训练的插帧模型的训练尺度组合信息；根据训练尺度组合信息，对预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；将第一视频帧样本和第二视频帧样本输入至调整后的插帧模型，得到第一视频帧样本与第二视频帧样本之间的第二中间帧样本；根据第一中间帧样本与第二中间帧样本之间的峰值信噪比或学习感知图像块相似度，对待训练的尺度组合预测模型进行修正，得到预先训练的尺度组合预测模型。

在一个实施例中，中间帧获取模块901，还用于根据光流残差预测网络的当前尺度组合信息，对第一视频帧和第二视频帧进行缩放处理，得到缩放后的第一视频帧和缩放后的第二视频帧；将缩放后的第一视频帧和缩放后的第二视频帧，输入至预先训练的插帧模型，得到第一视频帧对应的第一光流和第二视频帧对应的第二光流；根据第一视频帧、第二视频帧、第一光流和第二光流，得到第一视频帧与第二视频帧之间的中间帧。

在一个实施例中，尺度组合预测模块902，还用于对第一视频帧、中间帧和第二视频帧进行颜色通道拼接处理，得到拼接后视频帧；对拼接后视频帧进行降采样处理，得到降采样后视频帧。

在一个实施例中，视频插帧装置900还包括终止条件确认模块，用于通过预先训练的插帧模型对中间帧进行评估，得到中间帧的评估结果；在评估结果满足预设评估阈值的情况下，确认满足预设终止条件；或者，在获取中间帧的次数达到预设次数的情况下，确认满足预设终止条件。

上述视频插帧装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第一视频帧、第二视频帧和中间帧等视频帧数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频插帧方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频插帧方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预先训练的插帧模型通过如下方式训练得到：

将第一视频帧样本和第二视频帧样本输入至待训练的插帧模型，得到所述第一视频帧样本对应的第一目标光流和所述第二视频帧样本对应的第二目标光流；

根据所述第一视频帧样本、所述第二视频帧样本、所述第一视频帧样本与第二视频帧样本之间的实际中间帧样本、所述第一目标光流和所述第二目标光流，得到所述第一视频帧样本对应的第三目标光流和所述第二视频帧样本对应的第四目标光流；

根据所述第一视频帧样本、所述第二视频帧样本、所述实际中间帧样本、所述第一目标光流、所述第二目标光流、所述第三目标光流和所述第四目标光流，得到所述待训练的插帧模型的损失函数；

根据所述损失函数，对所述待训练的插帧模型进行迭代训练，得到所述预先训练的插帧模型。

3.根据权利要求2所述的方法，其特征在于，所述将第一视频帧样本和第二视频帧样本输入至待训练的插帧模型，得到所述第一视频帧样本对应的第一目标光流和所述第二视频帧样本对应的第二目标光流，包括：

根据所述待训练的插帧模型的预设尺度组合信息中的第一预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第一缩放样本和第二缩放样本；

将所述第一缩放样本和所述第二缩放样本，输入至所述待训练的插帧模型中的第一光流残差预测模型，得到所述第一缩放样本对应的第一初始光流残差和所述第二缩放样本对应的第二初始光流残差，并将所述第一初始光流残差作为第一初始光流和将第二初始光流残差作为第二初始光流；

根据所述预设尺度组合信息中的第二预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第三缩放样本和第四缩放样本；

将所述第三缩放样本、所述第四缩放样本、所述第一初始光流和所述第二初始光流，输入至所述待训练的插帧模型中的第二光流残差预测模型，得到所述第一初始光流的第一更新光流残差和所述第二初始光流的第二更新光流残差；所述第一更新光流残差用于对所述第一初始光流进行更新，得到第一更新光流；所述第二更新光流残差用于对所述第二初始光流进行更新，得到第二更新光流；

根据所述预设尺度组合信息中的第三预设尺度，对第一视频帧样本和第二视频帧样本进行缩放处理，得到第五缩放样本和第六缩放样本；

将所述第五缩放样本、所述第六缩放样本、所述第一更新光流和所述第二更新光流，输入至所述第二光流残差预测模型，得到所述第一更新光流的第一目标光流残差和所述第二更新光流的第二目标光流残差；

根据所述第一目标光流残差和所述第二目标光流残差，对所述第一更新光流和所述第二更新光流进行对应更新，得到所述第一视频帧样本对应的第一目标光流和所述第二视频帧样本对应的第二目标光流。

4.根据权利要求2所述的方法，其特征在于，所述待训练的插帧模型还包括光流残差修正网络；

所述根据所述第一视频帧样本、所述第二视频帧样本、所述第一视频帧样本与第二视频帧样本之间的实际中间帧样本、所述第一目标光流和所述第二目标光流，得到所述第一视频帧样本对应的第三目标光流和所述第二视频帧样本对应的第四目标光流，包括：

将所述第一视频帧样本、所述第二视频帧样本、所述实际中间帧样本、所述第一目标光流、所述第二目标光流、所述第三目标光流和所述第四目标光流，输入至所述光流残差修正网络，得到所述第一目标光流对应的第三目标光流残差和所述第二目标光流对应的第四目标光流残差；

根据所述第三目标光流残差和所述第四目标光流残差，对所述第一目标光流和所述第二目标光流进行对应更新，得到所述第一视频帧样本对应的第三目标光流和所述第二视频帧样本对应的第四目标光流。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一视频帧样本、所述第二视频帧样本、所述实际中间帧样本、所述第一目标光流、所述第二目标光流、所述三目标光流和所述第四目标光流，得到所述待训练的插帧模型的损失函数，包括：

根据所述第一视频帧样本、所述第二视频帧样本、所述第一目标光流和所述第二目标光流，生成第一合成中间帧；

根据所述第一视频帧样本、所述第二视频帧样本、所述第三目标光流和所述第四目标光流，生成第二合成中间帧；

根据所述第一合成中间帧、所述第二合成中间帧和所述实际中间帧样本，得到所述待训练的插帧模型的损失函数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一合成中间帧、所述第二合成中间帧和所述实际中间帧样本，得到所述待训练的插帧模型的损失函数，包括：

对所述第一合成中间帧和所述实际中间帧样本进行拉普拉斯变换处理，得到第一拉普拉斯结果；

对所述第二合成中间帧和所述实际中间帧样本进行拉普拉斯变换处理，得到第二拉普拉斯结果；

对所述第一目标光流和所述第三目标光流进行正则化处理，得到第一正则化结果；

对所述第二目标光流和所述第四目标光流进行正则化处理，得到第二正则化结果；

根据所述第一拉普拉斯结果、所述第二拉普拉斯结果、所述第一正则化结果和第二正则化结果，得到所述待训练的插帧模型的损失函数。

7.根据权利要求1所述的方法，其特征在于，所述预先训练的尺度组合预测模型通过如下方式训练得到：

将第一视频帧样本和第二视频帧样本输入至所述预先训练的插帧模型，得到所述第一视频帧样本与所述第二视频帧样本之间的第一中间帧样本；

将所述第一视频帧样本、所述第二视频帧样本和所述第一中间帧样本，输入至待训练的尺度组合预测模型，得到针对所述预先训练的插帧模型的训练尺度组合信息；

根据所述训练尺度组合信息，对所述预先训练的插帧模型的当前尺度组合信息进行调整，得到调整后的插帧模型；

将所述第一视频帧样本和所述第二视频帧样本输入至所述调整后的插帧模型，得到所述第一视频帧样本与所述第二视频帧样本之间的第二中间帧样本；

根据所述第一中间帧样本与所述第二中间帧样本之间的峰值信噪比或学习感知图像块相似度，对所述待训练的尺度组合预测模型进行修正，得到所述预先训练的尺度组合预测模型。

8.根据权利要求1所述的方法，其特征在于，所述将第一视频帧和第二视频帧输入至预先训练的插帧模型，得到所述第一视频帧与所述第二视频帧之间的中间帧，包括：

根据光流残差预测网络的当前尺度组合信息，对所述第一视频帧和所述第二视频帧进行缩放处理，得到缩放后的第一视频帧和缩放后的第二视频帧；

将所述缩放后的第一视频帧和所述缩放后的第二视频帧，输入至所述预先训练的插帧模型，得到所述第一视频帧对应的第一光流和所述第二视频帧对应的第二光流；

根据所述第一视频帧、所述第二视频帧、所述第一光流和所述第二光流，得到所述第一视频帧与所述第二视频帧之间的中间帧。

9.根据权利要求1所述的方法，其特征在于，所述基于所述第一视频帧、所述中间帧和所述第二视频帧得到的降采样后视频帧，包括：

对所述第一视频帧、所述中间帧和所述第二视频帧进行颜色通道拼接处理，得到拼接后视频帧；

对所述拼接后视频帧进行降采样处理，得到所述降采样后视频帧。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述预先训练的插帧模型对所述中间帧进行评估，得到所述中间帧的评估结果；在所述评估结果满足预设评估阈值的情况下，确认满足所述预设终止条件；或者，

在获取中间帧的次数达到预设次数的情况下，确认满足所述预设终止条件。

11.一种视频插帧装置，其特征在于，所述装置包括：

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。