CN115866332B

CN115866332B - 一种视频帧插帧模型的处理方法、装置以及处理设备

Info

Publication number: CN115866332B
Application number: CN202211503076.7A
Authority: CN
Inventors: 李登实; 王前瑞; 陈澳雷; 高雨; 宋昊; 薛童; 朱晨倚
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2024-04-19
Anticipated expiration: 2042-11-28
Also published as: CN115866332A

Abstract

本申请提供了一种视频帧插帧模型的处理方法、装置以及处理设备，用于对视频帧插帧模型的训练提供一种新的训练架构，如此训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧，显著降低突兀感，可以获得更佳的滑流畅的视频播放体验。方法包括：获取样本集合，包括不同的样本视频，还包括不同的样本音频，不同的样本视频根据图像内容标注有对应的第一界标；提取不同的样本音频的MFCC；将MFCC送入BLSTM进行编码，以结合第一界标预测第二界标；提取界标差异特征；以不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的界标差异特征，训练神经网络模型预测相邻奇数视频帧之间的中间帧，得到视频帧插帧模型。

Description

一种视频帧插帧模型的处理方法、装置以及处理设备

技术领域

本申请涉及视频领域，具体涉及一种视频帧插帧模型的处理方法、装置以及处理设备。

背景技术

随着技术的发展，电视、平板或者手机等播放设备都能够支持更高帧率的视频，但受限于网络传输、拍摄丢帧或者后期编辑等技术原因，线上视频帧率与实际视频帧率差距较大，用户在观看视频时若处于实际视频帧率较低的情况，用户观感上会容易出现卡顿感，而为抵消实际视频帧率的卡顿感，在技术上，则裸使用视频插帧技术来提升视频的帧率，从而给用户带来丝滑流畅的视频播放体验。

所谓视频插帧技术，又可称为帧速率转换技术，是通过在原始视频的相邻帧中增加一帧或多帧，缩短帧与帧之间的显示时长跨度，从而提升视频的流畅度，达到更好的视觉感官效果。

而在现有技术的研究过程中，本申请发明人发现，现有的视频插帧技术存在插帧效果不稳定的情况，虽然帧率提高了，但是画面内容上却存在着异常，给用户带来突兀感，显然插帧精度并不是很好。

发明内容

本申请提供了一种视频帧插帧模型的处理方法、装置以及处理设备，用于对视频帧插帧模型的训练提供一种新颖的训练架构，如此训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧，显著降低突兀感，可以获得更佳的滑流畅的视频播放体验。

第一方面，本申请提供了一种视频帧插帧模型的处理方法，方法包括：

获取样本集合，其中，样本集合包括不同的样本视频，样本集合还包括不同的样本音频，不同的样本视频与不同的样本音频一一对应，不同的样本视频根据图像内容标注有对应的第一界标；

提取不同的样本音频的音频特征频谱包络MFCC；

将音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM进行编码，以结合第一界标预测第二界标；

提取第一界标与第二界标之间的差异，得到界标差异特征；

以不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的界标差异特征，训练神经网络模型预测相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，其中，视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测待插帧视频中的中间帧，以实现预设帧数的视频插帧效果。

第二方面，本申请提供了一种视频帧插帧模型的处理装置，装置包括：

获取单元，用于获取样本集合，其中，样本集合包括不同的样本视频，样本集合还包括不同的样本音频，不同的样本视频与不同的样本音频一一对应，不同的样本视频根据图像内容标注有对应的第一界标；

提取单元，用于提取不同的样本音频的音频特征频谱包络MFCC；

预测单元，用于将音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM进行编码，以结合第一界标预测第二界标；

提取单元，还用于提取第一界标与第二界标之间的差异，得到界标差异特征；

训练单元，用于以不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的界标差异特征，训练神经网络模型预测相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，其中，视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测待插帧视频中的中间帧，以实现预设帧数的视频插帧效果。

第三方面，本申请提供了一种处理设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请第一方面或者本申请第一方面任一种可能的实现方式提供的方法。

从以上内容可得出，本申请具有以下的有益效果：

针对于视频帧插帧需求，本申请在训练视频帧查询模型的过程中，除了关注了现有技术关注的画面特征(视频特征)，还关注了音频特征，通过将音频特征映射到界标上，可以更好地辅助视频帧的界标预测，从而在该新颖的训练架构下，训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧，显著降低突兀感，可以获得更佳的滑流畅的视频播放体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请视频帧插帧模型的处理方法的一种流程示意图；

图2为本申请模型训练架构的一种架构示意图；

图3为本申请视频帧插帧模型的处理装置的一种结构示意图；

图4为本申请处理设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

在介绍本申请提供的视频帧插帧模型的处理方法之前，首先介绍本申请所涉及的背景内容。

本申请提供的视频帧插帧模型的处理方法、装置以及计算机可读存储介质，可应用于处理设备，用于对视频帧插帧模型的训练提供一种新颖的训练架构，如此训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧，显著降低突兀感，可以获得更佳的滑流畅的视频播放体验。

本申请提及的视频帧插帧模型的处理方法，其执行主体可以为视频帧插帧模型的处理装置，或者集成了该视频帧插帧模型的处理装置的服务器、物理主机或者用户设备(User Equipment，UE)等不同类型的处理设备。其中，视频帧插帧模型的处理装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备，处理设备可以通过设备集群的方式设置。

在实际应用中，处理设备具体可以为技术支持方后台的设备，如此可以在后台进行模型的配置，并向相关的用户或者视频应用的运营方提供模型的支持，当然，在处理设备直接涉及到模型的应用即基于训练好的视频帧插帧模型来进行视频播放时，处理设备本身就可以是物理主机或者UE等用户侧的设备，直接在本地进行模型的训练及其应用。

下面，开始介绍本申请提供的视频帧插帧模型的处理方法。

首先，参阅图1，图1示出了本申请视频帧插帧模型的处理方法的一种流程示意图，本申请提供的视频帧插帧模型的处理方法，具体可包括如下步骤S101至步骤S105：

步骤S101，获取样本集合，其中，样本集合包括不同的样本视频，样本集合还包括不同的样本音频，不同的样本视频与不同的样本音频一一对应，不同的样本视频根据图像内容标注有对应的第一界标；

可以理解，对于视频帧插帧模型的训练，是从配置用于训练模型的样本集合开始的。

该样本集合，也可称为样本集，与现有技术类似的，样本集合中包括了不同的样本视频，对应视频帧插帧模型的处理对象，此外，需要注意的是，本申请是额外考虑结合音频来进行视频帧的插帧处理，因此，样本集合中还包括了不同的样本音频，对于该样本音频，显然，是与样本视频配套设置的。

样本音频可以是从样本视频中的音频内容提取得到，也可以是直接在样本视频的外部配置得到，配置样本音频的目的是在样本视频为模型的训练提供视频特征(画面特征)的基础上，继续为模型的训练提供音频特征的指导。

与现有技术类似的，样本视频根据图像内容标注有对应的界标，此处记为第一界标。

对于该第一界标，可以理解，为视频中不同对象的连续画面内容的分界标识，容易理解，视频帧插帧处理需要考虑画面的连续性还有流畅性，因此插入的中间帧在画面内容上需要和相邻的视频帧相适配，因此就需要界标进行插帧范围的界定。在界标的指导下，在合适的两视频帧中间插入既可以保持画面的连续性、流畅性，又可以扩充帧数的中间帧。

其中，该第一界标既可以是如现有技术进行配置的，如人工配置，也可以是在获取到样本视频时就已经完成配置了，具体是随样本视频的不同获取途经调整的。

而作为一种适于实用的实现方式，考虑到本申请是在视频特征的基础上，结合音频特征的指导来完成视频帧的插入，而音频特征尤其与画面中的人物有关，因此，第一界标具体则可以通过视频中的人脸图像特征进行配置。

在该场景中，界标具体可以为人脸图像上的68个关键点，其为2维坐标，反映在人脸图片中的位置，包括人脸轮廓、眼睛、鼻子和嘴巴中的关键点(如眼角，嘴角等)

可以理解，对于视频，尤其是演讲类视频，音频信息本身，与人物的面部表情以及唇部信息具有较高的关联性，因此可以考虑从人脸图像特征进行第一界标的配置，且人脸图像特征具有较高的辨识度，从而可以更好地将音频信息映射到界标上，将界标与视频帧融合，提升视频插帧的性能。

作为一个实例，样本集合的获取处理可以包括以下处理内容：

说话人数据集(样本音频)采用voxceleb2从样本视频中提取得到，该数据集的视频帧率为25fps，分辨率为224×224；

根据视频帧率(25fps)将1s视频拆分为25张图片；

使用人脸界标提取器，提取人脸界标；

将得到数据集(包括视频和音频)，80％作为训练数据集用于神经网络模型的训练，20％作为测试数据集用于神经网络模型的测试。

在训练的过程中为了提高模型的精度和准确性，还可以对样本数据进行数据增强的操作，包括将视频帧随机裁剪、缩放、镜像或者旋转等。

对应的，后面的数据处理，则是需要考虑如何提取出样本音频的音频特征，来帮助视频帧插帧模型的训练。

步骤S102，提取不同的样本音频的音频特征频谱包络MFCC；

在获取了样本集合后，则可以针对其中的样本音频，提取其音频特征频谱包络MFCC，MFCC即梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients)特征，其可以理解为是基于人耳听觉特性提出来的特征，它与Hz频率成非线性对应关系，MFCC利用它们之间的这种关系，计算得到的Hz频谱特征，为后面的音频特征处理提供数据依据。

作为又一个实例，在实际操作中，具体可以基于滑动窗提取MFCC的音频特征，其中滑动窗大小为25ms，步长为10ms，基于4个连续滑动窗提取的音频特征对应一个视频帧，其中提取的音频特征为前13维的MFCC。

步骤S103，将音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM进行编码，以结合第一界标预测第二界标；

在获得了样本音频的音频特征频谱包络MFCC后，则可以通过双向长短时记忆网络BLSTM进行界标的预测，可以理解，此处所进行界标预测是从音频维度出发，辅以前面样本视频配置的界标来进行的。

BLSTM，即双向长短时记忆网络(Bidirectional Long Short Term Memory)，长短时记忆网络LSTM非常适合用于对时序数据的建模，适用于捕捉上下文信息，而双向长短时记忆网络BLSTM由前向LSTM与后向LSTM组合而成，将输入数据分为前向和后向两个部分，这样不仅可以对历史信息建模处理，还可以对未来信息建模处理，对于上下文信息的捕捉效果更甚，如此可以在音频特征的基础上，很好地完成界标的预测。

具体的，对于双向长短时记忆网络BLSTM的界标预测，作为又一种适于实用的实现方式，可以配置为：

将音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM，以提取包含上下文信息的音频特征；

将包含上下文信息的音频特征与第一界标进行拼接，得到音频界标拼接结果；

将音频界标拼接结果送入多层感知器MLP中，以预测第二界标，其中，第二界标以预测的中间帧及其两个相邻帧的三个界标为单位进行配置。

容易看出，双向长短时记忆网络BLSTM是先将输入的音频特征频谱包络MFCC提取其包含了上下文信息的音频特征，再与前面样本视频已配置的第一界标进行拼接，再通过多层感知器MLP进行界标的具体预测处理。

其中，需要注意的是，通过多层感知器MLP对于界标的预测所得到的是三个界标，即每一组预测结果，包括了第一帧视频帧界标、中间帧视频帧界标以及第三帧视频帧界标，三者构成一个连续的视频帧段。

在该设置下，从人脸图像上提取界标为例，因为本申请认为人脸和声音存在关联关系，而人脸有较高的复杂性，包含背景、头发等与声音无关的部分，因此使用音频来完成界标的预测可以提高预测的准确性以及减少计算量，输入人脸界标相当于告诉网络原始的人脸的一些基本信息，通过多层感知器MLP将人脸界标与音频特征进行融合，预测得到与音频相符的界标。

步骤S104，提取第一界标与第二界标之间的差异，得到界标差异特征；

可以理解，第二界标，为从音频维度出发，在已知的、样本视频配置的第一界标的参考下预测的，相对于第一界标而言，两者会存在差异，而这就可以用来辅助训练视频帧插帧模型对于音频特征指导插入帧的预测效果。

因此，在获得了第一界标和第二界标的情况下，可以分析两者的差异，得到界标差异特征，为后面的模型训练提供精确的数据指导。

其中，应当理解，上面的处理，都是基于对应的，或者说基于指向同一对象同一时间点的音视频为处理单位进行处理的。

作为又一种适于实用的实现方式，界标差异特征的提取处理，具体可以包括：

通过卷积处理，提取第一界标以及第二界标的界标特征；

将第一界标的界标特征与第二界标的界标特征进行拼接，得到界标特征拼接结果；

对界标特征拼接结果使用反卷积以及Sigmoid激活函数进行处理，得到界标差异特征。

容易看出，对于界标的差异的识别，先从两种界标的界标特征开始处理，再通过拼接提供处理依据，再通过反卷积以及Sigmoid激活函数来完成差异特征的具体生成。

在得到第二界标之后，为了得到中间帧需要考虑其与其他帧的差异，而界标的差异值一定程度上反映了该差异，如界标是68个关键点的2维坐标，其大小与图片大小不一致，因此使用反卷积进行处理，使用Sigmoid激活函数可以将数据进行归一化，使其范围在0～1之间，反映了特征的权重，促进更高的处理精度。

步骤S105，以不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的界标差异特征，训练神经网络模型预测相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，其中，视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测待插帧视频中的中间帧，以实现预设帧数的视频插帧效果。

在完成训练模型用的输入数据，即样本视频和界标差异特征的配置后，则可以投入具体视频帧插帧模型的训练处理。

具体的，对于视频帧插帧模型的训练，其在每次的训练环节中，可以理解为，以样本视频中的相邻奇数视频帧为处理对象，预测相邻奇数视频帧之间可以插入的中间帧为目标，在相邻奇数视频帧本身的视频特征的基础上，用界标差异特征作为参考，来完成一次中间帧的预测处理。

其中，不同的视频帧可以通过数字标号来进行先后顺序的标识，如第一个视频帧可以用“0”进行标识，后面第三个视频帧、第五个视频帧…第N+1个视频帧，则可以用“2”、“4”…“N”进行标识；又如第一个视频帧可以用“1”进行标识，后面第三个视频帧、后面第三个视频帧、第五个视频帧…第N+1个视频帧，则可以用“3”、“5”…“N+1”进行标识。

视频帧插帧模型具体采用的神经网络模型的类型是可以随实际需要调整的，例如卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent NeuralNetwork，RNN)、深度信念网络(Deep Belief Network，DBN)、生成对抗网络(GenerativeAdversarial Nets，GAN)等类型的具体神经网络模型；类似的，其训练中所采用的损失函数也是可以随实际需要配置的。

其中，作为又一种适于实用的实现方式，模型的输入环节，还可涉及到编码处理，具体来说，神经网络模型输入不同的样本视频中的相邻奇数视频帧的过程中，可以包括：

将相邻奇数视频帧按照通道拼接，得到视频帧拼接结果；

使用UNet结构的图片编码器对视频帧拼接结果进行编码。

其中，该输入环节的编码处理，既可以是由模型的输入层进行处理，也可以是在模型外进行处理，通过编码处理来获得便于模型识别及其处理的数据形式。

在该设置中，具体使用了UNet图片编码器对图片进行处理，其每一层使用卷积进行处理，浅层卷积关注纹理等局部特征，深层网络关注全局特征，将不同层的特征进行融合，使网络在浅层特征和深层特征间自由选择，促进更高的处理精度。

类似的，前面涉及到BLSTM的应用，在前面阶段也可以涉及到编码处理。

作为又一种适于实用的实现方式，对于视频帧插帧模型的训练过程中涉及的损失函数，容易理解，中间帧的预测结果是以图片的形式存在的，对应的，损失函数可以包括图片损失函数，具体为：

其中，I_t为真实的中间帧图片，为预测的中间帧图片。

该图片损失函数，容易理解，用于约束模型最终生成的中间帧的准确性，如此通过训练网络不断缩小两者之间的差异，优化中间帧的预测效果。

此外，本申请针对具体涉及的界标，还可为其配置相对应的损失函数，具体的，视频帧插帧模型在训练过程中采用的损失函数可以包括界标损失函数，具体为：

其中，p_i,t为已知界标，为预测的界标，N为界标点的总数，N＝68，T为根据音频预测界标的总数，T＝3(对应上面提及的一组界标预测结果包括三个预测的界标)。

该界标损失函数，容易理解，用于约束通过音频生成界标的准确性，如此通过训练网络不断缩小两者之间的差异，优化中间帧的预测效果。

可以看出，在此处界标损失函数的设置下，本申请所涉及的模型训练范畴，还可以涉及到前面预测界标所依赖的相关网络的训练，如此为后面的视频帧插帧模型的训练提供更为精确的训练环境。

此外，在模型训练过程中，还可以采用其他类型的、现有的损失函数，具体可以随实际需要调整。

而在配置了两种或者两种以上的损失函数的情况下，则可以通过不同权重的设置，来量化出最终采用的损失函数计算结果，用来反向优化相关的模型采纳数，以提高最终中间帧的预测效果。

而神经网络模型的基础训练过程，作为又一种适于实用的实现方式，则可以包括：

将相邻奇数视频帧、相邻奇数视频帧对应的视频特征以及相邻奇数视频帧对应的界标差异特征按照通道进行拼接，并利用三个不同的子网络估计卷积核以及偏移量；

基于卷积核以及偏移量，对相邻奇数视频帧使用可变形卷积，其中，可变形卷积是指卷积核在每一个元素上额外增加一个参数方向参数(即偏移量)，这样卷积核就在采样像素点不变的情况下，卷积范围扩大；

使用另一个子网络，并使用Sigmoid激活函数得到权重；

根据权重，将两个预测的中间帧进行结合，得到最终预测的相邻奇数视频帧的中间帧，表示如下：

其中，I_t为最终预测的相邻奇数视频帧的中间帧，为根据相邻奇数视频帧中第一个视频帧预测得到的中间帧，/>为根据相邻奇数视频帧中第二个视频帧预测得到的中间帧，V为权重。

需要理解，直接通过网络预测卷积核，对图片进行卷积时，采样的是像素点周围方形区域的像素点，方形区域的像素点并与一定与目标像素点有较高的相关性，且方形区域范围较小，对于位置变化比较大的区域不能估计其位置，因此本申请添加了子网络估计偏移量，以找到与目标像素点更加相关的像素点，使用可变形卷积进行处理在采样像素点数量不变的情况下，可以有效扩大范围，促进更高的处理精度。

此外，在模型的训练过程中，还可在前期阶段设置到对模型的基础参数设置，如预先设置训练迭代次数(一种完成训练要求)、LSTM层数或者隐藏层维度等，作为一个实例，训练迭代次数为50次，LSTM层数为2，隐藏层维度为256。

而对于模型本身输出的中间帧的预测结果，还可以评估中间帧本身的图片质量，例如可以采用峰值信噪比(Peak Signal to Noise Ratio，PSNR)，峰值信噪比PSNR表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值，常用对数分贝单位来表示，峰值信噪比PSNR的值越大说明预测图片的质量越好，峰值信噪比PSNR具体可以使用以下公式计算：

其中，MSE为真实图像与预测图像之间的均方误差。

又例如，可以采用使用结构相似性(Structural Similarity，SSIM)评价训练模型输出的图像与原图像之间的结构相似性，结构相似性SSIM可以量化两幅图像的相似度，具体可以从图像组成的角度将结构信息定义为独立于亮度、对比度的、反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合，结构相似性SSIM的范围为0到1，值越大即表示预测图片的质量越好，当两张图像一模一样时，结构相似性SSIM的值等于1，结构相似性SSIM具体可以使用以下公式计算：

其中，x、y分别为两图像的像素值，，μ_x为x的平均值，μ_y为y的平均值，σ_x为x的方差，σ_y为y的方差，σ_xy为x和y的协方差，c₁＝(k₁L)²,c₁＝(k₁L)²为用来维持稳定的常数，L为像素值的动态范围，k₁＝0.01,k₁＝0.03。

可以理解，以上的评估参数，除了可以评估模型预测的中间帧的图片质量，也是可以作为具体的损失函数类型投入到模型训练过程中的。

为方便理解本申请的模型训练架构，还可以结合图2示出的本申请模型训练架构的一种架构示意图，来理解以上包括示例性实施例的整体方案内容。

而达到训练次数、训练时长、预测精度等预设的训练要求后，则可以完成模型的训练，此时的视频帧插帧模型则可以投入实际使用、实际应用。

对应的，本申请方法还可以包括：

获取待插帧视频；

将待插帧视频输入视频帧插帧模型，以使得视频帧插帧模型在输入的待插帧视频的基础上结合对应音频来预测待插帧视频中的中间帧；

获取待插帧视频插入中间帧后的目标视频。

其中，需要理解的是，在实际应用中，视频帧插帧模型是可以不用输入待插帧视频对应的音频的，视频帧插帧模型可以直接从待插帧视频中提取对应音频。

对于以上的方案内容，可以看出，针对于视频帧插帧需求，本申请在训练视频帧查询模型的过程中，除了关注了现有技术关注的画面特征(视频特征)，还关注了音频特征，通过将音频特征映射到界标上，可以更好地辅助视频帧的界标预测，从而在该新颖的训练架构下，训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧，显著降低突兀感，可以获得更佳的滑流畅的视频播放体验。

以上是本申请提供的视频帧插帧模型的处理方法的介绍，为便于更好的实施本申请提供的视频帧插帧模型的处理方法，本申请还从功能模块角度提供了一种视频帧插帧模型的处理装置。

参阅图3，图3为本申请视频帧插帧模型的处理装置的一种结构示意图，在本申请中，视频帧插帧模型的处理装置300具体可包括如下结构：

获取单元301，用于获取样本集合，其中，样本集合包括不同的样本视频，样本集合还包括不同的样本音频，不同的样本视频与不同的样本音频一一对应，不同的样本视频根据图像内容标注有对应的第一界标；

提取单元302，用于提取不同的样本音频的音频特征频谱包络MFCC；

预测单元303，用于将音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM进行编码，以结合第一界标预测第二界标；

提取单元302，还用于提取第一界标与第二界标之间的差异，得到界标差异特征；

训练单元304，用于以不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的界标差异特征，训练神经网络模型预测相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，其中，视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测待插帧视频中的中间帧，以实现预设帧数的视频插帧效果。

在一种示例性的实现方式中，第一界标具体通过视频中的人脸图像特征进行配置。

在又一种示例性的实现方式中，预测单元303，具体用于：

在又一种示例性的实现方式中，提取单元302，具体用于：

通过卷积处理，提取第一界标以及第二界标的界标特征；

在又一种示例性的实现方式中，视频帧插帧模型在训练过程中采用的损失函数包括图片损失函数，具体为：

其中，I_t为真实的中间帧图片，为预测的中间帧图片；

视频帧插帧模型在训练过程中采用的损失函数还包括界标损失函数，具体为：

其中，p_i,t为已知界标，为预测的界标，N为界标点的总数，N＝68，T为根据音频预测界标的总数，T＝3。

在又一种示例性的实现方式中，神经网络模型的训练过程，包括：

基于卷积核以及偏移量，对相邻奇数视频帧使用可变形卷积，其中，可变形卷积是指卷积核在每一个元素上额外增加一个参数方向参数；

使用另一个子网络，并使用Sigmoid激活函数得到权重；

在又一种示例性的实现方式中，神经网络模型输入不同的样本视频中的相邻奇数视频帧的过程中，包括：

将相邻奇数视频帧按照通道拼接，得到视频帧拼接结果；

使用UNet结构的图片编码器对视频帧拼接结果进行编码。

本申请还从硬件结构角度提供了一种处理设备，参阅图4，图4示出了本申请处理设备的一种结构示意图，具体的，本申请处理设备可包括处理器401、存储器402以及输入输出设备403，处理器401用于执行存储器402中存储的计算机程序时实现如图1对应实施例中视频帧插帧模型的处理方法的各步骤；或者，处理器401用于执行存储器402中存储的计算机程序时实现如图3对应实施例中各单元的功能，存储器402用于存储处理器401执行上述图1对应实施例中视频帧插帧模型的处理方法所需的计算机程序。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

处理设备可包括，但不仅限于处理器401、存储器402、输入输出设备403。本领域技术人员可以理解，示意仅仅是处理设备的示例，并不构成对处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如处理设备还可以包括网络接入设备、总线等，处理器401、存储器402、输入输出设备403等通过总线相连。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是处理设备的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器402可用于存储计算机程序和/或模块，处理器401通过运行或执行存储在存储器402内的计算机程序和/或模块，以及调用存储在存储器402内的数据，实现计算机装置的各种功能。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据处理设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器401用于执行存储器402中存储的计算机程序时，具体可实现以下功能：

提取不同的样本音频的音频特征频谱包络MFCC；

提取第一界标与第二界标之间的差异，得到界标差异特征；

以不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的界标差异特征，训练神经网络模型预测相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测待插帧视频中的中间帧，以实现预设帧数的视频插帧效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的视频帧插帧模型的处理装置、处理设备及其相应单元的具体工作过程，可以参考如图1对应实施例中视频帧插帧模型的处理方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1对应实施例中视频帧插帧模型的处理方法的步骤，具体操作可参考如图1对应实施例中视频帧插帧模型的处理方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1对应实施例中视频帧插帧模型的处理方法的步骤，因此，可以实现本申请如图1对应实施例中视频帧插帧模型的处理方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的视频帧插帧模型的处理方法、装置、处理设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频帧插帧模型的处理方法，其特征在于，所述方法包括：

获取样本集合，其中，所述样本集合包括不同的样本视频，所述样本集合还包括不同的样本音频，所述不同的样本视频与所述不同的样本音频一一对应，所述不同的样本视频根据图像内容标注有对应的第一界标；

提取所述不同的样本音频的音频特征频谱包络MFCC；

将所述音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM进行编码，以结合所述第一界标预测第二界标；

提取所述第一界标与所述第二界标之间的差异，得到界标差异特征；

以所述不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的所述界标差异特征，训练神经网络模型预测所述相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，其中，所述视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测所述待插帧视频中的中间帧，以实现预设帧数的视频插帧效果。

2.根据权利要求1所述的方法，其特征在于，所述第一界标具体通过视频中的人脸图像特征进行配置。

3.根据权利要求1所述的方法，其特征在于，所述将所述音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM，以结合所述第一界标预测第二界标，包括：

将所述音频特征频谱包络MFCC送入所述双向长短时记忆网络BLSTM，以提取包含上下文信息的音频特征；

将所述包含上下文信息的音频特征与所述第一界标进行拼接，得到音频界标拼接结果；

将所述音频界标拼接结果送入多层感知器MLP中，以预测所述第二界标，其中，所述第二界标以预测的中间帧及其两个相邻帧的三个界标为单位进行配置。

4.根据权利要求1所述的方法，其特征在于，所述提取所述第一界标与所述第二界标之间的差异，得到界标差异特征，包括：

通过卷积处理，提取所述第一界标以及所述第二界标的界标特征；

将所述第一界标的界标特征与所述第二界标的界标特征进行拼接，得到界标特征拼接结果；

对所述界标特征拼接结果使用反卷积以及Sigmoid激活函数进行处理，得到所述界标差异特征。

5.根据权利要求1所述的方法，其特征在于，所述视频帧插帧模型在训练过程中采用的损失函数包括图片损失函数，具体为：

其中，I_t为真实的中间帧图片，为预测的中间帧图片；

所述视频帧插帧模型在训练过程中采用的损失函数还包括界标损失函数，具体为：

6.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练过程，包括：

将所述相邻奇数视频帧、所述相邻奇数视频帧对应的视频特征以及所述相邻奇数视频帧对应的所述界标差异特征按照通道进行拼接，并利用三个不同的子网络估计卷积核以及偏移量；

基于所述卷积核以及所述偏移量，对所述相邻奇数视频帧使用可变形卷积，其中，所述可变形卷积是指卷积核在每一个元素上额外增加一个参数方向参数；

使用另一个子网络，并使用Sigmoid激活函数得到权重；

根据所述权重，将两个预测的中间帧进行结合，得到最终预测的所述相邻奇数视频帧的中间帧，表示如下：

其中，I_t为最终预测的所述相邻奇数视频帧的中间帧，为根据所述相邻奇数视频帧中第一个视频帧预测得到的中间帧，/>为根据所述相邻奇数视频帧中第二个视频帧预测得到的中间帧，V为所述权重。

7.根据权利要求1所述的方法，其特征在于，所述神经网络模型输入所述不同的样本视频中的相邻奇数视频帧的过程中，包括：

将所述相邻奇数视频帧按照通道拼接，得到视频帧拼接结果；

使用UNet结构的图片编码器对所述视频帧拼接结果进行编码。

8.一种视频帧插帧模型的处理装置，其特征在于，所述装置包括：

获取单元，用于获取样本集合，其中，所述样本集合包括不同的样本视频，所述样本集合还包括不同的样本音频，所述不同的样本视频与所述不同的样本音频一一对应，所述不同的样本视频根据图像内容标注有对应的第一界标；

提取单元，用于提取所述不同的样本音频的音频特征频谱包络MFCC；

预测单元，用于将所述音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM进行编码，以结合所述第一界标预测第二界标；

所述提取单元，还用于提取所述第一界标与所述第二界标之间的差异，得到界标差异特征；

训练单元，用于以所述不同的样本视频中的相邻奇数视频帧为基础，结合对应的视频特征以及对应的所述界标差异特征，训练神经网络模型预测所述相邻奇数视频帧之间的中间帧，完成模型训练后得到视频帧插帧模型，其中，所述视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测所述待插帧视频中的中间帧，以实现预设帧数的视频插帧效果。

9.一种处理设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的方法。