CN112584196A

CN112584196A - 视频插帧方法、装置及服务器

Info

Publication number: CN112584196A
Application number: CN201910947298.XA
Authority: CN
Inventors: 鲁方波; 樊鸿飞; 汪贤; 蔡媛
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-03-30

Abstract

本发明提供了一种视频插帧方法、装置及服务器；其中，该方法包括：基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧；确定前向参考帧和后向参考帧的帧相似度；根据帧相似度确定插帧方式；采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。本发明可以基于前向参考帧和后向参考帧的帧相似度灵活选择与参考帧更加匹配的插帧方式，因而视频插帧效果更加稳定，从而提高了用户的视频观看体验。

Description

视频插帧方法、装置及服务器

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种视频插帧方法、装置及服务器。

背景技术

相关技术中，在对较低帧率的视频进行插帧时，通常采用图像插值法、光流法或者深度学习法。采用图像插值法进行视频插帧时，如果块搜索效果不佳，会得到模糊的插帧图像；采用光流法进行视频插帧时，得到的插帧图像容易受到光线变化的影响，且插帧过程较为耗时；采用深度学习法进行视频插帧时，如果参考帧之间的运动较大，得到的插帧图像效果较差。总之，上述视频插帧方式插帧效果不稳定，影响用户的视频观看体验。

发明内容

有鉴于此，本发明的目的在于提供一种视频插帧方法、装置及服务器，以使视频插帧效果更加稳定，从而提高用户的视频观看体验。

第一方面，本发明实施例提供了一种视频插帧方法，该方法包括：基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧；确定前向参考帧和后向参考帧的帧相似度；根据帧相似度确定插帧方式；采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，确定前向参考帧和后向参考帧的帧相似度的步骤，包括：通过预先训练完成的特征提取网络，提取前向参考帧的第一特征向量和后向参考帧的第二特征向量；计算第一特征向量和第二特征向量的特征相似度；将特征相似度确定为前向参考帧和后向参考帧的帧相似度。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，提取前向参考帧的第一特征向量和后向参考帧的第二特征向量的步骤，包括：如果前向参考帧是视频帧序列中第一个视频帧，采用特征提取网络分别提取前向参考帧的第一特征向量和后向参考帧的第二特征向量；如果前向参考帧是视频帧序列中除第一个视频帧以外的视频帧，将上一个后向参考帧的第二特征向量作为当前的前向参考帧的第一特征向量；采用特征提取网络提取当前的后向参考帧的第二特征向量。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述特征提取网络包括依次连接的卷积特征提取模块、多尺度特征提取模块和全连接层；卷积特征提取模块用于对输入的视频帧进行卷积计算和平均池化计算，输出初始特征矩阵；多尺度特征提取模块用于通过预设的多种卷积核提取初始特征矩阵的多尺度特征，得到多尺度特征矩阵；全连接层用于对多尺度特征矩阵进行拉伸处理，得到输入的视频帧的特征向量。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，根据帧相似度确定插帧方式的步骤，包括：判断帧相似度是否高于预设的相似度阈值；根据判断结果确定插帧方式。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，根据判断结果确定插帧方式的步骤，包括：如果帧相似度高于预设的相似度阈值，确定插帧方式为：采用预先训练完成的插帧预测模型进行插帧处理；如果帧相似度低于或等于预设的相似度阈值，确定插帧方式为：采用光流法进行插帧处理。

第二方面，本发明实施例提供了一种视频插帧装置，该装置包括：参考帧确定模块，用于基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧；帧相似度确定模块，用于确定前向参考帧和后向参考帧的帧相似度；插帧方式确定模块，用于根据帧相似度确定插帧方式；插帧处理模块，用于采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述帧相似度确定模块包括：特征提取单元，用于通过预先训练完成的特征提取网络，提取前向参考帧的第一特征向量和后向参考帧的第二特征向量；特征相似度计算单元，用于计算第一特征向量和第二特征向量的特征相似度；特征相似度确定单元，用于将特征相似度确定为前向参考帧和后向参考帧的帧相似度。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述特征提取单元还用于：如果前向参考帧是视频帧序列中第一个视频帧，采用特征提取网络分别提取前向参考帧的第一特征向量和后向参考帧的第二特征向量；如果前向参考帧是视频帧序列中除第一个视频帧以外的视频帧，将上一个后向参考帧的第二特征向量作为当前的前向参考帧的第一特征向量；采用特征提取网络提取当前的后向参考帧的第二特征向量。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，上述插帧方式确定模块还用于：判断帧相似度是否高于预设的相似度阈值；根据判断结果确定插帧方式。

第三方面，本发明实施例还提供一种服务器，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述视频插帧方法。

第四方面，本发明实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述视频插帧方法。

本发明实施例带来了以下有益效果：

上述视频插帧方法、装置及服务器，首先基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧，然后确定前向参考帧和后向参考帧的帧相似度；进而根据帧相似度确定插帧方式，并采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。该方式可以基于前向参考帧和后向参考帧的帧相似度灵活选择与参考帧更加匹配的插帧方式，因而视频插帧效果更加稳定，从而提高了用户的视频观看体验。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频插帧方法的流程图；

图2为本发明实施例提供的另一种视频插帧方法的流程图；

图3为本发明实施例提供的一种特征提取网络的结构示意图；

图4为本发明实施例提供的一种特征提取网络的工作流程图；

图5为本发明实施例提供的一种特征提取网络中，Inception模块层的结构示意图；

图6为本发明实施例提供的另一种视频插帧方法的流程图；

图7为本发明实施例提供的一种视频插帧装置的结构示意图；

图8为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，首先对现有的视频源的帧率标准进行介绍。目前，无论是2D还是3D视频素材的拍摄，绝大多数仍然采用较低的帧率标准，比如电视媒介广泛采用25帧或者30帧，部分直播平台采用15帧的较低帧率进行视频拍摄和传输。例如，在户外拍摄视频，或者采用移动端拍摄视频时，由于网络带宽限制，通常采用降低帧率的视频进行传输，以降低视频传输码率，节省网络带宽。

然而，随着计算机视觉及多媒体技术的进步，数字媒体已逐步从低清向高清，甚至超高清4K方向(4K视频的分辨率可达到2160*4096)升级更新。因此，现有的视频源已经不能满足人们日益增长的对于视频观感的需求，因此需要通过增加高清视频的实时帧率来为用户提供更好的观看体验。通过在视频接收端进行实时插帧，可以避免原始视频帧率太低导致视频播放不流畅等问题。

目前的视频插帧方法主要包括三类：

第一类是基于图像插值的视频插帧方法；该方法通过在前后视频两帧之间使用块搜索及运动补偿得到中间帧，该方法操作简单，易于实现，但该方法由于块搜索效果不佳容易出现图像模糊及图像拖影问题。

第二类是基于光流估计的视频插帧方法，通过计算相邻两帧视频之间的光流矢量，再基于该运动矢量进行运动补偿，从而生成新的中间视频帧，按照光流矢量的计算方法又分为基于单向运动估计的插帧和基于双向运动估计的视频插帧。光流法的优点在于它无须了解场景的信息,就可以准确地检测识别运动目标位置，且在摄像机处于运动的情况下仍然适用，同时该方法不需要大批量标注样本作为先验知识；然而该方法对亮度改变较为敏感，光线变化极易影响识别效果，且算法较为耗时。

第三类方法是基于深度学习的视频插帧方法；该方法基于卷积神经网络(Convolutional Neural Network,CNN)的卷积结构提取相邻两帧的视频特征，然后采用一定的融合策略将相邻两帧的信息有机结合起来从而得到中间帧。该类方法大多采用端到端训练方法，算法的复杂度取决于卷积核的层数及卷积核的大小，在多数场景下都取得了不错的效果。然而该方法需要大批量的标注样本作为先验知识，对于运动较快，相邻帧差别较大时，为了尽可能捕获更大的空间视野，网络的卷积核通常会较大，这在一定程度上大大增加了算法运算量，而且由于卷积核太大，插帧结果往往存在一定的模糊。

考虑到上述视频插帧方式插帧效果不稳定，影响用户的视频观看体验的问题，本发明实施例提供了一种视频插帧方法、装置及服务器，该技术可以应用于各种视频源的视频插帧过程中，如2D视频、3D视频等。

首先，参见图1所示的一种视频插帧方法的流程图，该方法包括如下步骤：

步骤S100，基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧。

上述视频帧序列可以为按照一定顺序排列的多幅图像；当连续的图像变化每秒超过24帧画面时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，而是感受到了平滑连续的视觉效果，在这种情况下就形成了视频。在具体实施过程中，通常是采用视频插帧的方法增加实时帧率，即增加单位时间内播放的视频帧数量；因此，可以将视频帧序列的每相邻两幅图像分别作为前向参考帧和后向参考帧，也可以按照预设的间隔提取两个图像作为前向参考帧和后向参考帧，再在该前向参考帧和后向参考帧之间进行视频插帧，以增加帧率。通常，前向参考帧的播放时间早于后向参考帧的播放时间。

步骤S102，确定前向参考帧和后向参考帧的帧相似度。

由于前向参考帧和后向参考帧均为图像，对它们之间帧相似度的确定过程与两幅图像之间的相似度确定过程有一定的相通之处；因而可以采用相关技术中图像相似度的确定方式确定帧相似度。具体而言，可以计算前向参考帧和后向参考帧的结构相似性(structural similarityindex，SSIM)、余弦相似度或直方图相似度等，从而得到帧相似度。其中，结构相似性分别从亮度、对比度、结构三个方面度量图像相似性；余弦相似度的计算过程为把图像表示成一个向量，通过计算向量之间的余弦距离来表征两张图像的相似度；直方图相似度基于直方图描述图像中颜色的全局分布，确定两幅图像的相似度。

在实际实现时，可以根据插帧效果的实际需求，选择上述中的一种方式确定帧相似度，也可以选择上述中的多种方式进行计算，并采用赋予权重的方式得到最终的帧相似度。

步骤S104，根据帧相似度确定插帧方式。

上述插帧方式可以包括基于图像插值的视频插帧方法、基于光流估计的视频插帧方法及基于深度学习的视频插帧方法等等；各种插帧方式具有各自的特点，适用于不同相似度的两幅图像之间的插帧；如光流估计法对光线变化比较敏感，更适合相似度较低的两幅图像之间的插帧，如赛车视频、竞技比赛的视频及电竞游戏视频等；而深度学习法对于两幅图像之间的运动较大(即相似度较低)时，插帧得到的图像较为模糊，而在较小运动(即相似度较高)时，插帧得到的图像较为清晰，如主播视频、纪录片视频及访谈类节目视频等。

在具体实施过程中，可以设置若干个阈值，帧相似度位于某两个相邻阈值之间时，确定某种插帧方式对前向参考帧和后向参考帧进行插帧处理。作为示例，设置帧相似度的取值范围为[-1,1]，设置两个阈值分别为a，b(-1<a<b<1)；根据历史经验或实验数据可以确定，帧相似度的取值在[-1,a)范围内时，视频插帧方式A的插帧效果较好；帧相似度的取值在[a,b)范围内时，视频插帧方式B的插帧效果较好；帧相似度的取值在[b,1]范围内时，视频插帧方式C的插帧效果较好；则当帧相似度的取值在[-1,a)，[a,b)或[b,1]时，确定插帧方式为A，B或者C。

步骤S106，采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。

在具体实施过程中，采用已经确定的插帧方式，对前向参考帧和后向参考帧进行插帧处理。在插帧过程中，可以直接采用相关技术中的该插帧方式对应的流程进行处理；也可以根据待处理的前向参考帧和后向参考帧对相关技术中的插帧方式进行适应性调整，如对插帧方式的流程中的参数进行调整等，再进行插帧处理。

进一步地，可以继续执行确定当前的前向参考帧和后向参考帧的步骤，直至确定出的后向参考帧为视频帧序列中最后一个视频帧。

在对当前的前向参考帧和后向参考帧之间进行了插帧处理后，可以基于上述待处理的视频帧序列，重新确定前向参考帧和后向参考帧。作为示例，可以将当前的后向参考帧作为前向参考帧，将视频帧序列中位于当前的后向参考帧之后的某个视频帧作为后向参考帧，再次执行确定二者相似度，进而确定插帧方式，并进行插帧处理的步骤。当在插帧处理后，确定视频帧序列中不存在位于当前的后向参考帧后面的视频帧，即当前的后向参考帧为视频帧序列中最后一个视频帧时，结束上述视频插帧过程，此外，还可以以其他顺序进行视频插帧，但通常来说在插帧结束后，需要确保原有视频帧序列中，相邻的每两帧图像之间均进行了视频插帧。

在对整个视频帧序列均进行了插帧处理后，得到了新的视频帧序列，可以根据需求再继续对新的视频帧序列进行插帧处理，直至插帧处理后获得的视频帧序列满足预设的流畅度要求等。

上述视频插帧方法，首先基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧，然后确定前向参考帧和后向参考帧的帧相似度；进而根据帧相似度确定插帧方式，并采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。该方式可以基于前向参考帧和后向参考帧的帧相似度灵活选择与，确定参考帧更加匹配的插帧方式，因而采用该插帧方式进行插帧处理，可以有效地保证较好的视频插帧效果更加稳定，从而提高了用户的视频观看体验。

本发明实施例还提供另一种视频插帧方法，该方法在上述实施例所述方法的基础上实现；该方法重点描述了确定前向参考帧和后向参考帧的帧相似度的具体实现过程，该过程具体通过下述步骤S202-步骤S206实现；如图2所示，该方法包括如下步骤：

步骤S200，基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧。

步骤S202，通过预先训练完成的特征提取网络，提取前向参考帧的第一特征向量和后向参考帧的第二特征向量。

上述特征提取网络可以通过机器学习方法或卷积神经网络结构建立。在具体实施过程中，上述特征提取网络可以由依次连接的卷积特征提取模块、多尺度特征提取模块和全连接层构成，其结构示意图如图3所示；其中，卷积特征提取模块可以通过一个或多个卷积层、以及一个或多个池化层实现，该卷积特征提取模块用于对输入的视频帧进行卷积计算和平均池化计算，输出初始特征矩阵；多尺度特征提取模块可以通过Inception module层实现，或者通过具有不同卷积核的多个卷积层实现，该多尺度特征提取模块用于通过预设的多种卷积核提取初始特征矩阵的多尺度特征，得到多尺度特征矩阵；全连接层用于对多尺度特征矩阵进行拉伸处理，得到输入的视频帧的特征向量；具体地，全连接层可以对多尺度特征矩阵转换成一维特征，即上述输入的视频帧的特征向量。

另一种实现方式中，该特征提取网络共有7层，其中包括2个纯卷积层(conv)，2个平均池化层AvgPool，2个Inception module层，1个全连接层，其工作流程图如图4所示。该网络中，第一层为卷积层，该卷积层的卷积核大小可以设置为7x7，特征图个数可以为64，步长可以为1；第二层为池化层，该池化层可以采用平均池化的方式，步长可以为2；第三层为卷积层，该卷积层的卷积核大小可以设置为3x3，特征图个数可以为128，步长可以为1；第四层为池化层，该池化层可以采用平均池化的方式，步长可以为2；第五层为Inception模块层，特征图个数可以为128；第六层为Inception模块层，特征图个数可以为128；第七层为全连接层(fully-connected layer，简称FC层)，输出的特征图维数为500x1。

其中，第五层和第六层的Inception模块层如图5所示；Previous layer可以理解为上一层；例如，对于第五层的Inception模块层来说，上一层为池化层，对于第六层的Inception模块层来说，上一层为第五层的Inception模块层。Inception模块层包括4个卷积核大小为1x1的卷积层，1个卷积核大小为3x3的卷积层，1个卷积核大小为5x5的卷积层，1个大小为3x3的MaxPool及串联滤波器。

通过特征提取网络对图像进行特征向量提取前，通常需要对图像进行预处理；如输入上述特征提取网络的图像应为224*224*3的三通道图像。因此，对于任意大小图像在输入该网络之前，需要将尺寸调整至到224*224*3的固定尺寸大小，以便最终得到同等长度的特征向量，有利于进行后续处理。

在提取特征向量的过程中，如果前向参考帧是视频帧序列中第一个视频帧，采用特征提取网络分别提取前向参考帧的第一特征向量和后向参考帧的第二特征向量；如果前向参考帧是视频帧序列中除第一个视频帧以外的视频帧，可以将上一个后向参考帧的第二特征向量作为当前的前向参考帧的第一特征向量；采用特征提取网络提取当前的后向参考帧的第二特征向量。采用上述方式提取特征向量时，除了第一个视频帧和第二个视频帧之间插帧时需要提取两次特征向量外，每次插帧运算只需要计算一张图像的特征向量，减少了运算量，提高了处理速度。

步骤S204，计算第一特征向量和第二特征向量的特征相似度。

在具体实施过程中，可以采用余弦相似度、皮尔森相关系数等参数来表示特征相似度。当采用余弦相似度标识特征相似度时，假设通过上述特征提取网络提取前向参考帧的第一特征向量为F1，后向参考帧的第二特征向量为F2，可以通过下述公式计算特征向量F1和F2的相似度Similarity：

上述公式中，*表示乘法运算；·表示向量之间的点乘运算；‖ ‖表示求取向量长度的运算；n为向量维度；F1_i为第一特征向量F1的第i个分量；F2_i为第二特征向量F2的第i个分量。Similarity为计算的余弦相似度大小，计算得到的Similarity的取值范围通常为[0,1]。

步骤S206，将上述特征相似度确定为前向参考帧和后向参考帧的帧相似度；具体地，可以将上述Similiarity的取值作为前向参考帧和后向参考帧的帧相似度，则帧相似度的取值范围也为[0,1]。

步骤S208，根据帧相似度确定插帧方式。

步骤S210，采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。

步骤S212，判断后向参考帧是否为视频帧序列中最后一个视频帧；如果否，执行步骤S200；如果是，结束。

如果采用顺序的方式对视频帧序列每两帧图像之间进行插帧，当当前的后向参考帧为视频帧序列中的最后一个视频帧时，可以认为对整个视频帧序列的插帧处理已完成，则插帧过程结束；如果当前的后向参考帧不是视频帧序列中的最后一个视频帧，说明对整个视频帧序列的插帧处理仍未完成，则需要重复执行上述步骤S200至步骤S210，直至完成整个视频帧序列的插帧处理。

上述视频插帧方法，在确定了当前的前向参考帧和后向参考帧后，通过预先训练完成的特征提取网络，提取前向参考帧的第一特征向量和后向参考帧的第二特征向量，然后计算第一特征向量和第二特征向量的特征相似度，从而确定帧相似度及对应的插帧方式，并采用确定出的插帧方式进行插帧处理。该方式通过计算特征向量的特征相似度，选择了适合当前待插帧的参考帧的插帧方式，可以有效地保证的视频插帧效果。

本发明实施例还提供另一种视频插帧方法，该方法在上述实施例所述方法的基础上实现；该方法重点描述了根据帧相似度确定插帧方式的具体实现过程，该过程具体通过下述步骤S606及步骤S608实现；如图6所示，该方法包括如下步骤：

步骤S600，基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧。

步骤S602，确定前向参考帧和后向参考帧的帧相似度。

步骤S604，判断帧相似度是否高于预设的相似度阈值；如果是，执行步骤S606；如果否，执行步骤S608。

在具体实施过程中，在得到前向参考帧和后向参考帧的帧相似度后，可以根据帧相似度，将前向参考帧和后向参考帧的关系分为互为低相似度视频帧或互为高相似度视频帧。可以将相似度阈值设置为T，T的取值在帧相似度的取值范围之内。

例如，当采用余弦相似度Similarity来表示帧相似度时，由于余弦相似度Similarity的取值范围为[0,1]，则帧相似度的取值范围为如[0,1]，相似度阈值T的取值范围为(0,1)，如T可以取值0.9。判断帧相似度是否高于预设的相似度阈值，即判断Similarity是否大于T。

步骤S606，如果帧相似度高于预设的相似度阈值，确定插帧方式为：采用预先训练完成的插帧预测模型进行插帧处理。

具体地，如果余弦相似度Similarity大于T，表示相邻两帧之间相似度较高，确定前向参考帧和后向参考帧的关系分为互为高相似度视频帧。由于基于深度学习的视频插帧方法对相似度较高的相邻两帧之间的插帧处理效果更好，得到的图像较为清晰，且处理速度较快，因此可以采用基于深度学习方法训练得到的插帧预测模型进行插帧处理。

步骤S608，如果帧相似度低于或等于预设的相似度阈值，确定插帧方式为：采用光流法进行插帧处理。

具体地，如果余弦相似度Similarity小于或等于T，表示相邻两帧之间相似度较低，确定前向参考帧和后向参考帧的关系分为互为低相似度视频帧。由于基于光流估计的视频插帧方法对相似度较低的相邻两帧之间的插帧处理效果更好，得到的图像较为清晰，且处理速度较快，因此可以采用光流法进行插帧处理。

步骤S610，采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。

在具体过程中，当采用预先训练完成的插帧预测模型进行插帧处理时，将前向参考帧和后向参考帧输入到上述插帧预测模型后，即可得到待插入的视频帧；插帧预测模型可以基于神经网络结构建立，并通过大量的前向参考帧和后向参考帧样本进行不断迭代训练得到。当采用光流法进行插帧处理时，可以首先通过光流法计算得到前向参考帧和后向参考帧之间的双向运动矢量；再根据运动矢量在相邻两帧之间映射得到待插入的视频帧。

步骤S612，判断后向参考帧是否为视频帧序列中最后一个视频帧；如果否，执行步骤S600；如果是，结束。

在具体实施过程中，采用光流法、深度学习方法及本实施例上述视频插帧方法分别对秀场直播视频数据及运动类视频数据进行插帧处理，得到了如表1所示的插帧结果。

表1

在表1中，Live-show表示秀场直播视频数据；秀场直播视频的视频帧运动通常较慢，相邻的两帧图像的相似度较高；Sports表示运动类视频数据；运动类视频的视频帧运动较快，两帧图像的相似度较低。采用两种指标对插帧后得到的视频质量进行评价：其一，PSNR(Peak Signal to Noise Ratio)为峰值信噪比，一种评价图像的客观标准；PSNR值越大，表示失真越少，插入处理的效果越好；其二，SSIM(structural similarity index)为结构相似性，是一种衡量两幅图像相似度的指标，也可以作为衡量视频质量的标准；SSIM值越大，表示视频的质量越好。

从表1中可以看出，在Live-show视频数据上，采用光流法进行视频插帧后，视频的峰值信噪比为35.35，结构相似性为0.921；采用深度学习方法进行视频插帧后，视频的峰值信噪比为38.42，结构相似性为0.968；而采用本发明实施例提供的方法进行视频插帧后，视频的峰值信噪比为39.85，结构相似性为0.979；由此可知，采用深度学习方法进行插帧处理的效果优于采用光流法进行插帧处理的效果；而采用本发明实施例提供的方法进行视频插帧处理的效果优于采用深度学习方法进行插帧处理的效果。

而在运动类视频上，采用光流法进行视频插帧后，视频的峰值信噪比为35.33，结构相似性为0.935；采用深度学习方法进行视频插帧后，视频的峰值信噪比为34.76，结构相似性为0.897；而采用本发明实施例提供的方法进行视频插帧后，视频的峰值信噪比为36.22，结构相似性为0.948；由此可知，采用光流法进行插帧处理的效果优于采用深度学习进行插帧处理的效果；而采用本发明实施例提供的方法进行视频插帧处理的效果优于采用光流法进行插帧处理的效果。

基于上述实验数据可知，本发明实施例提供的视频插帧方法在视频帧相似度较大和相似度较小的场景下的插帧效果均优于比光流法和深度学习方法。

上述视频插帧方法，在前向参考帧和后向参考帧的帧相似度较高时，采用预先训练完成的插帧预测模型进行插帧；在前向参考帧和后向参考帧的帧相似度较低时，采用光流法进行插帧处理；该方式将光流法和深度学习方法的优缺点有机结合起来，充分利用各自算法的优势，极大提升了现有算法的性能及观感体验。此外，由于光流法较为耗时，该方式中只在运动较大时才使用光流法进行插帧运算，相比单独使用光流法效率更高。

本发明实施例还提供另一种视频插帧方法，该方法在上述实施例所述方法的基础上实现。相关技术主要采用光流法、插值法、深度学习方法中其中一种方法进行视频插帧，未考虑将多种方法的优缺点有机结合起来。而本发明实施例提供的方法通过计算相邻帧的相似度，在光流法和深度学习方法中确定一种合适的处理方法进行视频插帧；该方法具体包括如下步骤：

(1)选取相邻两帧图像作为参考帧，分别为前向参考帧和后向参考帧，使用预训练的特征提取骨干网络Net1对前向参考帧和后向参考帧进行特征提取得到特征向量，分别为F1和F2；其中，特征提取骨干网络的结构可参照图4。

在具体实施过程中，为减少重复计算，前一个相邻帧的F2可以作为后一个相邻帧的F1，这样除了首帧之外每次插帧运算只需要计算一张图像的特征向量即可。

(2)计算特征向量F1和F2的相似度，从而确定相邻两帧的相似程度；再根据相似程度将临近帧关系分为低相似度视频帧和高相似度视频帧。

相似度可以采用余弦相似度表示，如计算得到的余弦相似度用Similarity表示，相似度分割阈值设置为T，即Similarity<T表示相邻两帧之间相似度较低，Similarity>T表示相邻两帧之间相似度较高。

(3)对低相似度视频帧采用光流法进行视频插帧预测。采用光流估计方式计算相邻两帧的运动矢量，根据运动矢量在相邻两帧之间映射得到插入帧。

(4)对高相似度视频帧采用深度学习方法NET2(如SepConv网络，NET2包括但不限于SepConv网络)进行视频插帧预测，由此得到最终插帧后的视频序列。

在使用NET2进行插帧预测之前，需要对网络NET2进行模型训练，具体为将当前帧作为目标帧，当前帧的前后两帧作为输入数据，并送入到模型中，通过网络的不断迭代训练学习模型参数，从而对任意视频的相邻两帧数据通过训练的模型最终预测得到插入帧。

上述方法，首先选择相邻两帧图像作为参考帧，对参考帧使用特征提取骨干网络进行特征提取，得到参考帧的特征向量；然后计算两个特征向量的相似度，根据相似程度将临近帧关系分为低相似度视频帧和高相似度视频帧；对低相似度视频帧采用光流法进行视频插帧预测，对高相似度视频帧采用深度学习方法进行视频插帧预测，由此得到最终插帧后的视频序列；该方式有效利用两种算法的优点，大大提升了插帧精度和准确度。

对应于上述视频插帧方法实施例，本发明实施例提供了一种视频插帧装置，如图7所述，该装置包括：

参考帧确定模块700，用于基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧。

帧相似度确定模块702，用于确定前向参考帧和后向参考帧的帧相似度。

插帧方式确定模块704，用于根据帧相似度确定插帧方式。

插帧处理模块706，用于采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。

上述视频插帧装置，首先基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧，然后确定前向参考帧和后向参考帧的帧相似度；进而根据帧相似度确定插帧方式，并采用确定出的插帧方式，在前向参考帧和后向参考帧之间进行插帧处理。该方式可以基于前向参考帧和后向参考帧的帧相似度灵活选择与参考帧更加匹配的插帧方式，因而视频插帧效果更加稳定，从而提高了用户的视频观看体验。

具体地，上述帧相似度确定模块包括：特征提取单元，用于通过预先训练完成的特征提取网络，提取前向参考帧的第一特征向量和后向参考帧的第二特征向量；特征相似度计算单元，用于计算第一特征向量和第二特征向量的特征相似度；特征相似度确定单元，用于将特征相似度确定为前向参考帧和后向参考帧的帧相似度。

进一步地，上述特征提取单元还用于：如果前向参考帧是视频帧序列中第一个视频帧，采用特征提取网络分别提取前向参考帧的第一特征向量和后向参考帧的第二特征向量；如果前向参考帧是视频帧序列中除第一个视频帧以外的视频帧，将上一个后向参考帧的第二特征向量作为当前的前向参考帧的第一特征向量；采用特征提取网络提取当前的后向参考帧的第二特征向量。

进一步地，上述插帧方式确定模块还用于：判断帧相似度是否高于预设的相似度阈值；根据判断结果确定插帧方式。

本发明实施例所提供的视频插帧装置，其实现原理及产生的技术效果和前述视频插帧方法实施例相同，为简要描述，视频插帧装置实施例部分未提及之处，可参考前述视频插帧方法实施例中相应内容。

本发明实施例还提供了一种服务器，参见图8所示，该服务器包括处理器130和存储器131，该存储器131存储有能够被处理器130执行的机器可执行指令，该处理器130执行机器可执行指令以实现上述视频插帧方法。

进一步地，图8所示的服务器还包括总线132和通信接口133，处理器130、通信接口133和存储器131通过总线132连接。

其中，存储器131可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器130可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131，处理器130读取存储器131中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述视频插帧方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的视频插帧方法、装置和服务器的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频插帧方法，其特征在于，所述方法包括：

基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧；

确定所述前向参考帧和所述后向参考帧的帧相似度；

根据所述帧相似度确定插帧方式；

采用确定出的所述插帧方式，在所述前向参考帧和所述后向参考帧之间进行插帧处理。

2.根据权利要求1所述的方法，其特征在于，确定所述前向参考帧和所述后向参考帧的帧相似度的步骤，包括：

通过预先训练完成的特征提取网络，提取所述前向参考帧的第一特征向量和所述后向参考帧的第二特征向量；

计算所述第一特征向量和所述第二特征向量的特征相似度；

将所述特征相似度确定为所述前向参考帧和所述后向参考帧的帧相似度。

3.根据权利要求2所述的方法，其特征在于，提取所述前向参考帧的第一特征向量和所述后向参考帧的第二特征向量的步骤，包括：

如果所述前向参考帧是所述视频帧序列中第一个视频帧，采用所述特征提取网络分别提取所述前向参考帧的第一特征向量和所述后向参考帧的第二特征向量；

如果所述前向参考帧是所述视频帧序列中除所述第一个视频帧以外的视频帧，将上一个后向参考帧的第二特征向量作为当前的所述前向参考帧的第一特征向量；采用所述特征提取网络提取当前的后向参考帧的第二特征向量。

4.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括依次连接的卷积特征提取模块、多尺度特征提取模块和全连接层；

所述卷积特征提取模块用于对输入的视频帧进行卷积计算和平均池化计算，输出初始特征矩阵；

所述多尺度特征提取模块用于通过预设的多种卷积核提取所述初始特征矩阵的多尺度特征，得到多尺度特征矩阵；

所述全连接层用于对所述多尺度特征矩阵进行拉伸处理，得到所述输入的视频帧的特征向量。

5.根据权利要求1所述的方法，其特征在于，根据所述帧相似度确定插帧方式的步骤，包括：

判断所述帧相似度是否高于预设的相似度阈值；

根据判断结果确定插帧方式。

6.根据权利要求5所述的方法，其特征在于，根据判断结果确定插帧方式的步骤，包括：

如果所述帧相似度高于预设的相似度阈值，确定插帧方式为：采用预先训练完成的插帧预测模型进行插帧处理；

如果所述帧相似度低于或等于预设的相似度阈值，确定插帧方式为：采用光流法进行插帧处理。

7.一种视频插帧装置，其特征在于，所述装置包括：

参考帧确定模块，用于基于待处理的视频帧序列，确定当前的前向参考帧和后向参考帧；

帧相似度确定模块，用于确定所述前向参考帧和所述后向参考帧的帧相似度；

插帧方式确定模块，用于根据所述帧相似度确定插帧方式；

插帧处理模块，用于采用确定出的所述插帧方式，在所述前向参考帧和所述后向参考帧之间进行插帧处理。

8.根据权利要求7所述的装置，其特征在于，所述帧相似度确定模块包括：

特征提取单元，用于通过预先训练完成的特征提取网络，提取所述前向参考帧的第一特征向量和所述后向参考帧的第二特征向量；

特征相似度计算单元，用于计算所述第一特征向量和所述第二特征向量的特征相似度；

特征相似度确定单元，用于将所述特征相似度确定为所述前向参考帧和所述后向参考帧的帧相似度。

9.根据权利要求8所述的装置，其特征在于，所述特征提取单元还用于：

10.根据权利要求7所述的装置，其特征在于，所述插帧方式确定模块还用于：

判断所述帧相似度是否高于预设的相似度阈值；

根据判断结果确定插帧方式。

11.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至6任一项所述的视频插帧方法。

12.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1至6任一项所述的视频插帧方法。