CN109905624B

CN109905624B - 一种视频帧插值方法、装置及设备

Info

Publication number: CN109905624B
Application number: CN201910156565.1A
Authority: CN
Inventors: 王荣刚; 张浩贤; 王振宇; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-10-16
Anticipated expiration: 2039-03-01
Also published as: WO2020177108A1; US20210383169A1; CN109905624A; US11354541B2

Abstract

本说明书实施例公开了一种视频帧插值方法、装置及设备。方案包括：获取视频帧训练集合，视频帧训练集合包括偶数张连续视频帧和第一关键帧，第一关键帧为偶数张连续视频帧的中间帧；构建金字塔深度学习模型，金字塔深度学习模型包括多个卷积神经网络层，各卷积神经网络层用于生成不同分辨率的中间帧；将偶数张连续视频帧输入至金字塔深度学习模型中，生成第二关键帧；根据第二关键帧和第一关键帧修正金字塔深度学习模型；然后根据修正后的金字塔深度学习模型进行视频帧插值。本发明充分地挖掘了多帧之间的时空域信息，而且采取金字塔精进策略，有效地对运动信息，遮挡区域进行估计，极大提高了中间帧的质量。

Description

一种视频帧插值方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频帧插值方法、装置及设备。

背景技术

视频帧插值技术(超帧率技术)和相关应用正在快速发展，有着广泛的应用场景，诸如虚拟视点合成、视频帧率上转换、4K视频的转换以及慢动作视频转换等。由于这些应用均需要生成原来并不存在的视频中间帧，因此如何使得中间帧更真实、更合理是现实应用中的一个关键技术。

现有技术中，大部分视频中间帧的生成方法，首先计算相邻两帧之间的光流，然后根据光流对中间帧进行插值。这种方法极大地依赖于光流的质量，不然所生成的中间帧会产生明显人工痕迹。而且光流的计算需要复杂的优化过程，非常的耗时。新兴的基于深度学习的方法主要有两类：第一类方法直接利用卷积神经网络生成中间帧，以真实中间帧作为监督信息训练网络，但这类方法通常会导致模糊的结果；第二类方法利用卷积神经网络无监督地得到两帧之间的运动信息，然后根据这些运动信息对中间帧进行插值，同样以真实中间帧作为监督信息训练网络，这类方法虽然可以有效避免模糊结果，但往往依赖于精确的运动信息估计，遮挡区域估计等，但是现有技术并不存在精确估计运动信息和遮挡区域的方法。

发明内容

有鉴于此，本申请实施例提供了一种视频帧插值方法、装置及设备，用于提高。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种视频帧插值方法，包括：

获取视频帧训练集合，所述视频帧训练集合包括偶数张连续视频帧和第一关键帧，其中，所述第一关键帧为所述偶数张连续视频帧的中间帧；

构建金字塔深度学习模型，所述金字塔深度学习模型包括多个卷积神经网络层，各所述卷积神经网络层用于生成不同分辨率的中间帧；

将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，生成第二关键帧；

根据所述第二关键帧和所述第一关键帧修正所述金字塔深度学习模型，生成修正后的金字塔深度学习模型；

将待处理的多张视频帧输入至所述修正后的金字塔深度学习模型，生成所述多张视频帧的中间帧。

本说明书实施例提供的一种视频帧插值装置，包括：

视频帧训练集合获取模块，用于获取视频帧训练集合，所述视频帧训练集合包括偶数张连续视频帧和第一关键帧，其中，所述第一关键帧为所述偶数张连续视频帧的中间帧；

金字塔深度学习模型构建模块，用于构建金字塔深度学习模型，所述金字塔深度学习模型包括多个卷积神经网络层，各所述卷积神经网络层用于生成不同分辨率的中间帧；

第二关键帧生成模块，用于将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，生成第二关键帧；

金字塔深度学习模型修正模块，用于根据所述第二关键帧和所述第一关键帧修正所述金字塔深度学习模型，生成修正后的金字塔深度学习模型；

中间帧生成模块，用于将待处理的多张视频帧输入至所述修正后的金字塔深度学习模型，生成所述多张视频帧的中间帧。

本说明书实施例提供的一种视频帧插值设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

本发明采取金字塔深度学习模型，由低分辨率的视频帧合成低分辨率的视频中间帧，然后，金字塔的每一层在分辨率增加的同时，通过估计视频帧之间的残差运动信息来修正金字塔上一次得到的运动信息，最终合成对应分辨率中间帧，本发明采取金字塔精进策略，由粗到细，有效地对运动信息，遮挡区域进行估计，同时充分挖掘多帧之间的时空域信息，提高了中间帧的质量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种视频帧插值方法的流程示意图；

图2为本说明书实施例一的金字塔深度学习模型的结构示意图；

图3为金字塔各层中间帧到各视频帧的光流示意图；

图4为本说明书实施例二的金字塔深度学习模型的结构示意图；

图5为本说明书实施例提供的对应于图1的一种视频帧插值装置的结构示意图；

图6为本说明书实施例提供的对应于图1的一种视频帧插值设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书实施例提供的一种视频帧插值方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图1所示，该流程可以包括以下步骤：

步骤101：获取视频帧训练集合，所述视频帧训练集合包括偶数张连续视频帧和第一关键帧，其中，所述第一关键帧为所述偶数张连续视频帧的中间帧。

在本说明书实施例中，关键帧即为多个视频帧的中间帧。另外，本文中的“第一”“第二”等只是用来进行区分，并没有实际的意义。

在进行训练的时候，需要有大量的视频帧数据。每一组视频帧数据即为视频帧训练集合，视频帧训练集合中包括偶数张视频帧，最少为2张，4张及以上更佳。连续是指时间上连续，视频帧集合中有4张视频帧，则从时间顺序上，分别标记为视频帧1、视频帧2、视频帧3和视频帧4，而第一关键帧则位于视频帧2和视频帧3中间。训练的目的就是采用训练模型对视频帧1、视频帧2、视频帧3和视频帧4进行插值，得到视频帧2和视频帧3的中间帧(即第二关键帧)，然后与第一关键帧进行比较，从而来修正训练模型。

在进行训练视频帧数据选择时，可以在原来的视频帧数据中，选择连续的5帧视频帧，而将中间的一帧作为第一关键帧。

步骤102：构建金字塔深度学习模型，所述金字塔深度学习模型包括多个卷积神经网络层，各所述卷积神经网络层用于生成不同分辨率的中间帧。

在本说明书实施例中，金字塔深度学习模型包括多层，每层均可以根据输入多个视频帧生成中间帧，不同之处在于，每层输入的视频帧的分辨率不同，而生成的中间帧也是对应于输入的视频帧的分辨率的，而且，由低层到高层，分辨率是逐步升高的，以3层金字塔为例，第一层的分辨率为1/4，第二次的分辨率为1/2，第三层的分辨率为原分辨率。另外，金字塔的每层之间也不是独立存在的，低层分辨率的视频帧参数会用于高层分辨率的中间帧的计算。视频帧数据可以是运动信息、遮挡区域等。

卷积神经网络是一种带有卷积结构的深度神经网络，卷积结构可以减少深层网络占用的内存量，其三个关键的操作，其一是局部感受野，其二是权值共享，其三是pooling层，有效的减少了网络的参数个数，缓解了模型的过拟合问题。

卷积神经网络整体架构：卷积神经网络是一种多层的监督学习神经网络，隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节，通过频繁的迭代训练提高网络的精度。卷积神经网络的低隐层是由卷积层和最大池采样层交替组成，高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器，可以采用逻辑回归，Softmax回归甚至是支持向量机对输入图像进行分类。

卷积神经网络结构包括：卷积层，采样层，全链接层。每一层有多个特征图，每个特征图通过一种卷积滤波器提取输入的一种特征，每个特征图有多个神经元。

输入图像统计和滤波器进行卷积之后，提取该局部特征，一旦该局部特征被提取出来之后，它与其他特征的位置关系也随之确定下来了，每个神经元的输入和前一层的局部感受野相连，每个特征提取层都紧跟一个用来求局部平均与二次提取的计算层，也叫特征映射层，网络的每个计算层由多个特征映射平面组成，平面上所有的神经元的权重相等。

通常将输入层到隐藏层的映射称为一个特征映射，也就是通过卷积层得到特征提取层，经过pooling之后得到特征映射层。

卷积神经网络相比一般神经网络在图像理解中的优点在于：

1)网络结构能够较好的适应图像的结构；

2)同时进行特征提取和分类，使得特征提取有助于特征分类；

3)权值共享可以减少网络的训练参数，使得神经网络结构变得简单，适应性更强。

本发明的重点就在于，利用从粗到细的细化框架来充分利用多个连续框架之间的相关性，从而提高生产的中间帧的质量。

步骤103：将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，生成第二关键帧。

在本说明书实施例中，金字塔深度学习模型中的参数是预设好的，将偶数张连续视频帧按照每层的不同要求输入进去，每层都会对应输出一个不同分辨率的中间帧，这是经过金字塔深度学习模型计算的结果。

在本说明书实施例中，第二关键帧可以是一个视频帧，还可以是多个视频帧。

步骤104：根据所述第二关键帧和所述第一关键帧修正所述金字塔深度学习模型，生成修正后的金字塔深度学习模型。

在本说明书实施例中，将通过金字塔深度学习模型生成的视频中间帧，即第二关键帧，与真实的视频中间帧(即第一关键帧)进行对比，根据两者的差异去修正金字塔深度学习模型中的模型参数，直至通过修正后的金字塔深度学习模型生成的计算中间帧与真实中间帧的差异在设定的范围内。那么，则可以认为，金字塔深度学习模型已经训练完成。

步骤105：将待处理的多张视频帧输入至所述修正后的金字塔深度学习模型，生成所述多张视频帧的中间帧。

在本说明书实施例中，采用修正后的金字塔深度学习模型来进行视频帧插值，得到视频中间帧。

图1中的方法，通过采取金字塔深度学习模型，由低分辨率的视频帧合成低分辨率的视频中间帧，然后，金字塔的每一层在分辨率增加的同时，通过估计视频帧之间的残差运动信息来修正金字塔上一次得到的运动信息，最终合成对应分辨率中间帧，本发明采取金字塔精进策略，由粗到细，有效地对运动信息，遮挡区域进行估计，同时充分挖掘多帧之间的时空域信息，提高了中间帧的质量。

基于图1的方法，本说明书实施例还提供了该方法的一些具体实施方式，下面进行说明。

可选的，所述将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，具体包括：

根据预设规则确定所述金字塔深度学习模型中第一层输入的视频帧的第一分辨率；

根据所述第一分辨率对所述偶数张连续视频帧进行处理；

将处理后的偶数张连续视频帧输入至所述金字塔深度学习模型中的第一层，生成中间帧到各视频帧的光流集合和遮挡掩模集合；

根据所述光流集合和所述遮挡掩模集合生成所述第一层的计算中间帧；

根据所述第一层的计算中间帧和所述第一层对应分辨率的真实中间帧修正所述金字塔深度学习模型中的第一层的参数。

在本说明书实施例中，金字塔深度学习模型是有多层的，第一层与其他层的框架有所不同，定义第一层为金字塔的最顶层。这里着重介绍了金字塔第一层计算中间帧的方法。

首先，需要确定金字塔第一层输入的视频帧的分辨率，这可以根据金字塔的层数来确定，如果金字塔是两层，则第一层输入的视频帧的分辨率为1/2，第二层是原分辨率，如果金字塔是三层，则第一层输入的视频帧的分辨率为1/4，则第二层输入的视频帧的分辨率为1/2，则第三层输入的视频帧维原分辨率。那么，预设规则可以是：第一层分辨率为：1/2^(a-1)，其中，a为金字塔的总层数，第k层分辨率为：1/2^(a-k)。根据上述公式可以推知，8层的金字塔，第6层输入视频帧的分辨率为1/4。

确定了视频帧的分辨率，只需将偶数张连续视频帧经过下采样处理，得到对应分辨率的视频帧即可。然后根据输入的视频帧得到中间帧到各视频帧的共线光流集合以及遮挡掩膜集合，有多个视频帧，则共线光流集合以及遮挡掩膜集合中就对应有多少个光流矩阵和遮挡掩膜矩阵，最后根据上述内容得到对应分辨率的中间帧，即计算中间帧。

光流图代表了两帧间像素点的位移信息，(假设是第一帧到第二帧的光流图)光流图每一个像素位置(x，y)对应(Δx，Δy)，表示第一帧该像素位置的像素点经过(Δx，Δy)，移动至第二帧像素位置(x+Δx，y+Δy)。这里的光流变形就是指利用光流信息，将第二帧形变成第一帧。

第一层对应分辨率的真实中间帧，可以理解为将第一关键帧(原分辨率)经过降分辨率为第一层对应的分辨率的中间帧，如，第一层对应的分辨率为1/8，则，第一层对应分辨率的真实中间帧即为，将第一关键帧降为1/8分辨率的视频帧。然后根据计算中间帧和真实中间帧的差异，来修正第一层金字塔中的卷积神经网络层的参数，从而令计算中间帧和真实中间帧的差异降低最小。

可选的，根据预设规则确定所述金字塔深度学习模型中第K层输入的视频帧的第二分辨率，第K层输入的视频帧的分辨率高于第(K-1)层输入的视频帧的分辨率，所述金字塔深度学习模型的最后一层输入的视频帧的分辨率为原分辨率，K为大于等于2的自然数；

根据所述第二分辨率对所述偶数张连续视频帧进行处理，生成第K层输入的视频帧；

将第(K-1)层生成的光流集合中的各光流进行上采样2倍分辨率的插值，生成第一光流集合；

采用所述第一光流集合中的各光流对所述第K层输入的视频帧进行处理，生成第一变形图集合；

根据所述第一光流集合和所述第一变形图集合生成残差流集合和第K层的遮挡掩膜集合；

根据所述第一光流集合和所述残差流集合生成第K层的光流集合；

根据所述第K层的光流集合和所述第K层的遮挡掩模集合生成所述第K层的计算中间帧；

根据所述第K层的计算中间帧和所述第K层对应分辨率的真实中间帧修正所述金字塔深度学习模型中的第一层至第K层的参数。

上述内容，具体介绍了第2层及以上的金字塔计算生成中间帧的过程。与第一层金字塔的大部分相同，唯一的不同在于，光流集合的计算方式。

第K层的光流的计算采用第(K-1)层的光流经过上采样2倍分辨率的插值得到第K层分辨率的光流集合，然后通过第K层分辨率的光流将第K层输入的视频帧变形得到的变形图集合和遮挡掩膜集合，根据光流集合和变形图集合，输出残差流集合，残差流集合与第K层分辨率的光流集合相加得到第K层的光流集合，然后再根据第K层的光流集合和遮挡掩膜集合生成第K层的中间帧。

另外，需要说明的是，当第K层的计算中间帧和第K层对应分辨率的真实中间帧存在差异时，需要同时修正金字塔深度学习模型中的第一层至第K层的参数。这是因为，第K层在计算中间帧的过程中直接或间接用到了第一层至第K层金字塔的参数，所以需要同时进行修正。

本发明提供的方法通过金字塔顶层通过估计经下采样的小分辨率视频帧之间的运动信息、遮挡区域，合成小分辨率视频中间帧。然后，金字塔接下来的每一层在分辨率增加的同时，通过估计视频帧之间的残差运动信息来修正金字塔上一层得到的运动信息，合成对应分辨率视频中间帧。以此类推，最终得到精确的运动信息，合成原始分辨率视频中间帧。

可选的，所述根据所述第K层的光流集合和所述第K层的遮挡掩模集合生成所述第K层的计算中间帧，具体包括：

根据所述第K层输入的视频帧与所述第K层的光流集合中对应的光流变形，生成第二变形图集合；

根据所述第二变形图集合和所述第K层的遮挡掩模集合生成所述第K层的计算中间帧，具体包括：

采用以下公式计算所述第K层的计算中间帧：

其中，I_t,k表示第k层的计算中间帧，M_k，i表示第一变形图集合中相对于第i个变形图的遮挡掩模，w(I_k，i,F_k，i)表示第一变形图集合中的第i个变形图，

表示矩阵点乘运算。

可选的，所述根据所述第二分辨率对所述偶数张连续视频帧进行处理，具体包括：

采用特征提取器根据所述偶数张连续视频帧生成一张四维特征图；

将所述四维特征图在深度维度上进行拆分，再在通道维度上进行结合，生成三维特征图；

对所述三维特征图进行平均池化处理，生成第K层对应分辨率的特征图；

将所述偶数张连续视频帧进行下采样，生成第K层对应分辨率的输入视频帧集合；

将所述第K层对应分辨率的特征图和所述第K层对应分辨率的输入视频帧集合输入至所述金字塔深度学习模型中的第K层。

本说明书实施例中，还提供了一种基于三维卷积的特征提取器来挖掘多帧间时空域的上下文信息。具体为：采用3D U-net架构(3D U-net特征提取器)，该特征提取器以多张原分辨率的视频帧作为输入，输出4维特征图(多帧图片输入，输出一个特征图，4个维度是depth，height，width，channel)。4维特征图在深度维度上进行拆分，再在通道维度上进行结合，生成3维特征图(height，width，channel)(3D多帧上下文特征)。该3维特征图通过平均池化，变换为不同分辨率的特征图，并传入多帧金字塔深度学习精进框架中对应的层次，帮助其更好的利用多帧间的时空域信息。

3D U-net特征提取器由4层编码器和3层解码器组成。在编码器部分中，每层包含3×3×3卷积，接着是LeakyReLu(α＝0.1)和2×2×2最大池(除了第一个和最后一个层)。第一个汇集层的内核大小为1×2×2，目的是不过早合并时间信号。

在解码器部分中，每层由每个维度中两个步幅的3×3×3(解码器的最后一层的上卷积，仅在空间维度上有两个步幅)上卷积，以及3×3×3卷积组成。

上面的上卷积和卷积后面分别是LeakyReLu。因此，我们的提取器需要4×h×w×3(深度×高度×宽度×信道)体积作为输入和输出4×h×w×8特征图。通过在深度维度中分割输出并将它们堆叠在通道维度中，将输出转换为h×w×323D多帧上下文特征。如图1所示，3D多帧上下文特征被下采样通过平均汇集并在MPR框架的每个级别与第一层U-net堆叠。

将所述偶数张连续视频帧生成输入3D金字塔特征提取器中，生成一张四维特征图；；

采用步长为2的卷积对所述四维特征图进行处理，生成第K层对应分辨率的四维特征图；

对所述第K层对应分辨率的四维特征图在深度维度上进行拆分，再在通道维度上进行结合，生成第K层对应分辨率的三维特征图；

将所述第K层对应分辨率的三维特征图和所述第K层对应分辨率的输入视频帧集合输入至所述金字塔深度学习模型中的第K层。

本说明书实施例中，还提供了另一种基于三维卷积的特征提取器来挖掘多帧间时空域的上下文信息。这种特征提取器采用特征金字塔架构(3D金字塔特征提取器)，其金字塔每层均采用两层三维卷积来生成3维特征图(3D多帧上下文特征)，然后通过步长为2的卷积将特征层分辨率下降1/2。不同分辨率的特征图传入多帧金字塔深度学习精进框架中对应的层次，帮助其更好的利用多帧间的时空域信息。

可选的，所述根据所述第二关键帧和所述第一关键帧修正所述金字塔深度学习模型，具体包括：

提取所述第一关键帧的第一特征参数；

提取所述第二关键帧的第二特征参数；

根据所述第一特征参数和所述第二特征参数生成所述第一关键帧和所述第二关键帧的差异结果；

根据所述差异结果调整所述金字塔深度学习模型的权重参数。

在本说明书实施例中，

可选的，所述根据所述第K层的计算中间帧和所述第K层对应分辨率的真实中间帧修正所述金字塔深度学习模型中的第一层至第K层的参数，具体包括：

采用预训练网络的多层次卷积层提取所述计算中间帧的第三特征参数；其中，K的数值越大，所述多层次卷积层的层数越多；

采用所述预训练网络的多层次卷积层提取所述真实中间帧的第四特征参数；

采用L2范式比较所述第三特征参数和所述第四特征参数的差异，生成差异结果；

根据所述差异结果修正所述金字塔深度学习模型中的第一层至第K层的参数。

本说明书实施例还提供了一种多步感知损失函数来训练金字塔深度学习模型。具体为：对于低分辨率的金字塔层次，利用预训练网络的低层次卷积层(低层次卷积层得到的是边、线、角等低级的语义信息，而高层次卷积层可以得到更高级的语义信息，保留更多细节)来分别提取输出结果和真实值的特征，并通过L2范式比较两个特征之间的差异训练网络；随着金字塔层次分辨率的逐渐提高，则逐渐用预训练网络的更高层次卷积层来分别提取输出结果和真实值的特征，并通过L2范式比较两个特征之间的差异。通过大量数据训练(通过损失函数比较生成中间帧和真实中间帧的差异，其差异反向传播至网络中，修改网络的权重参数，使得生成中间帧和真实中间帧越来越逼近)。最终可得到以多帧作为输入，输出多帧之间中间帧的深度学习网络。

需要指出的是，低分辨率的中间帧更关注运动预测的准确性，因此，采用低层次的卷积层提取局部特征有效提高运动预测的精度；对于高分辨率的中间帧，逐步关注生成中间帧的质量和细节，因此，采用高层次的卷积层进行特征参数提取。

本发明提供了两种基于三维卷积的特征提取器(3D U-net特征提取器、3D金字塔特征提取器)来挖掘多帧间时空域的上下文信息，这些特征信息将会嵌入多帧金字塔深度学习精进框架对应的层次，帮助其更好的利用多帧间的时空域信息；本发明提供了一种多步感知损失函数来训练金字塔架构深度学习网络。对于低分辨率的金字塔层次，利用预训练网络的低层次卷积层来分别提取输出结果和真实值的特征，并通过L2范式比较两个特征之间的差异训练网络；随着金字塔层次分辨率的逐渐提高，则逐渐用预训练网络的更高层次卷积层来分别提取输出结果和真实值的特征。

本发明除了采取金字塔精进策略，还能以多帧(2帧或以上)视频帧作为输入，充分地利用多帧之间信息，有效解决遮挡、运动模糊等问题，提高合成中间帧的鲁棒性。

图2为本说明书实施例一的金字塔深度学习模型的结构示意图，如图2所示，P0、P1、P2分别是三层金字塔每一层对应得U-net卷积神经网络，conv代表卷积层。该实施例中，以四帧作为输入，生成第二帧与第三帧之间的中间帧。首先，定义四帧三层金字塔的深度学习精进框架。第0层金字塔以1/4下采样的四帧I_k＝0作为输入，输出共线光流集合F_k＝0以及遮挡掩模集合M_k＝0。共线光流如图3(左)所示。4张1/4下采样的视频帧经光流变形，生成4张1/4分辨率的变形图。变形图与对应的遮挡掩模相乘再相加，便得到1/4分辨率中间帧。第1层金字塔以1/2下采样的四帧I_k＝1、上一层的光流上采样后的结果u(F_k＝0)、以及通过光流u(F_k＝0)将视频帧I_k＝1变形得到的变形图集合w(I_k＝1,u(F_k＝0))，输出残差流集合f_k＝1和遮挡掩模集合M_k＝1。第1层的光流集合F_k＝1＝u(F_k＝0)+f_k＝1，经修正后的光流如图3(右)所示。该层的的1/2分辨率中间帧通过F_k＝1和M_k＝1同理可得。最后一层金字塔以原始的四帧I_k＝2、上一层的光流上采样后的结果u(F_k＝1)、以及通过光流u(F_k＝1)将视频帧I_k＝2变形得到的变形图集合w(I_k＝2,u(F_k＝1))，输出残差流集合f_k＝2和遮挡掩模集合M_k＝2。第一层的光流集合F_k＝2＝u(F_k＝1)+f_k＝2，最终的中间帧通过F_k＝2和M_k＝2求解得到。

该实施例采用3D U-net特征提取器，该特征提取器以4张原分辨率的视频帧作为输入，输出4维特征图。4维特征图在深度维度上进行拆分，再在通道维度上进行结合，生成3维特征图(3D多帧上下文特征)。该3维特征图通过平均池化，分别变换为不同分辨率的特征图，并传入上述4帧三层金字塔深度学习精进框架中对应的层次，帮助其更好的多帧间的时空域信息。特征提取过程嵌入于4帧三层金字塔深度学习精进框架的求解过程中。

真实的1/4、1/2以及原始分辨率的中间帧将作为金字塔每一层的监督信息。第0层金字塔，利用预训练网络VGG19的conv2_2卷积层来分别提取1/4分辨率的结果和真实值的特征，并通过L2范式比较两个特征之间的差异；第1层金字塔，利用预训练网络VGG19的conv3_2卷积层来分别提取1/2分辨率结果和真实值的特征，并通过L2范式比较两个特征之间的差异；第2层金字塔，利用预训练网络VGG19的conv4_3卷积层来分别提取最终结果和真实值的特征，并通过L2范式比较两个特征之间的差异。通过大量数据训练，最终可得到以4帧作为输入，输出第二帧和第三帧之间中间帧的深度学习网络。

图4为本说明书实施例二的金字塔深度学习模型的结构示意图，如图4所示，该实施例与实施例一不同的是：该实例采用3D金字塔特征提取器，该特征提取器以4张原分辨率的视频帧作为输入，其金字塔每层均采用两层三维卷积来生成3维特征图(3D多帧上下文特征)，然后通过步长为2的卷积将特征层分辨率下降1/2。不同分辨率的特征图传入4帧三层金字塔深度学习精进框架中对应的层次，帮助其更好的多帧间的时空域信息，如图4所示。特征提取过程嵌入于4帧三层金字塔深度学习精进框架的求解过程中。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图5为本说明书实施例提供的对应于图1的一种视频帧插值装置的结构示意图。如图5所示，该装置可以包括：

视频帧训练集合获取模块501，用于获取视频帧训练集合，所述视频帧训练集合包括偶数张连续视频帧和第一关键帧，其中，所述第一关键帧为所述偶数张连续视频帧的中间帧；

金字塔深度学习模型构建模块502，用于构建金字塔深度学习模型，所述金字塔深度学习模型包括多个卷积神经网络层，各所述卷积神经网络层用于生成不同分辨率的中间帧；

第二关键帧生成模块503，用于将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，生成第二关键帧；

金字塔深度学习模型修正模块504，用于根据所述第二关键帧和所述第一关键帧修正所述金字塔深度学习模型，生成修正后的金字塔深度学习模型；

中间帧生成模块505，用于将待处理的多张视频帧输入至所述修正后的金字塔深度学习模型，生成所述多张视频帧的中间帧。

可选的，第二关键帧生成模块503，具体可以包括：

第一分辨率确定单元，用于根据预设规则确定所述金字塔深度学习模型中第一层输入的视频帧的第一分辨率；

第一分辨率处理单元，用于根据所述第一分辨率对所述偶数张连续视频帧进行处理；

光流集合和遮挡掩模集合生成单元，用于将处理后的偶数张连续视频帧输入至所述金字塔深度学习模型中的第一层，生成中间帧到各视频帧的光流集合和遮挡掩模集合；

第一层的计算中间帧生成单元，用于根据所述光流集合和所述遮挡掩模集合生成所述第一层的计算中间帧；

第一参数修正单元，用于根据所述第一层的计算中间帧和所述第一层对应分辨率的真实中间帧修正所述金字塔深度学习模型中的第一层的参数。

可选的，第二关键帧生成模块503，具体还可以包括：

第二分辨率确定单元，用于根据预设规则确定所述金字塔深度学习模型中第K层输入的视频帧的第二分辨率，第K层输入的视频帧的分辨率高于第(K-1)层输入的视频帧的分辨率，所述金字塔深度学习模型的最后一层输入的视频帧的分辨率为原分辨率，K为大于等于2的自然数；

第二分辨率处理单元，用于根据所述第二分辨率对所述偶数张连续视频帧进行处理，生成第K层输入的视频帧；

第一光流集合生成单元，用于将第(K-1)层生成的光流集合中的各光流进行上采样2倍分辨率的插值，生成第一光流集合；

第一变形图集合生成单元，用于采用所述第一光流集合中的各光流对所述第K层输入的视频帧进行处理，生成第一变形图集合；

残差流集合和第K层的遮挡掩膜集合生成单元，用于根据所述第一光流集合和所述第一变形图集合生成残差流集合和第K层的遮挡掩膜集合；

第K层的光流集合生成单元，用于根据所述第一光流集合和所述残差流集合生成第K层的光流集合；

计算中间帧生成单元，用于根据所述第K层的光流集合和所述第K层的遮挡掩模集合生成所述第K层的计算中间帧；

第二参数修正单元，用于根据所述第K层的计算中间帧和所述第K层对应分辨率的真实中间帧修正所述金字塔深度学习模型中的第一层至第K层的参数。

可选的，所述计算中间帧生成单元，具体可以包括：

第二变形图集合生成子单元，用于根据所述第K层输入的视频帧与所述第K层的光流集合中对应的光流变形，生成第二变形图集合；

计算中间帧生成子单元，用于根据所述第二变形图集合和所述第K层的遮挡掩模集合生成所述第K层的计算中间帧。

可选的，所述计算中间帧生成子单元，具体可以用于：

采用以下公式计算所述第K层的计算中间帧：

表示矩阵点乘运算。

可选的，所述第二分辨率处理单元，具体可以包括：

第一特征提取子单元，用于采用特征提取器根据所述偶数张连续视频帧生成一张四维特征图；

三维特征图生成子单元，用于将所述四维特征图在深度维度上进行拆分，再在通道维度上进行结合，生成三维特征图；

平均池化处理子单元，用于对所述三维特征图进行平均池化处理，生成第K层对应分辨率的特征图；

第K层对应分辨率的输入视频帧生成子单元，用于将所述偶数张连续视频帧进行下采样，生成第K层对应分辨率的输入视频帧；

第一输入子单元，用于将所述第K层对应分辨率的特征图和所述第K层对应分辨率的输入视频帧集合输入至所述金字塔深度学习模型中的第K层。

可选的，所述第二分辨率处理单元，具体可以包括：

第二特征提取单元，用于将所述偶数张连续视频帧生成输入3D金字塔特征提取器中，生成一张四维特征图；

四维特征图处理单元，用于采用步长为2的卷积对所述三维特征图进行处理，生成第K层对应分辨率的四维特征图；

三维特征图处理单元，对所述第K层对应分辨率的四维特征图在深度维度上进行拆分，再在通道维度上进行结合，生成第K层对应分辨率的三维特征图；

下采样处理单元，用于将所述偶数张连续视频帧进行下采样，生成第K层对应分辨率的输入视频帧集合；

第二输入子单元，用于将所述第K层对应分辨率的三维特征图和所述第K层对应分辨率的输入视频帧集合输入至所述金字塔深度学习模型中的第K层。

可选的，所述金字塔深度学习模型修正模块504，具体可以包括：

第一特征参数提取单元，用于提取所述第一关键帧的第一特征参数；

第二特征参数提取单元，用于提取所述第二关键帧的第二特征参数；

差异结果生成单元，用于根据所述第一特征参数和所述第二特征参数生成所述第一关键帧和所述第二关键帧的差异结果；

权重参数调整单元，用于根据所述差异结果调整所述金字塔深度学习模型的权重参数。

可选的，所述第二参数修正单元，具体可以包括：

第三特征参数提取子单元，用于采用预训练网络的多层次卷积层提取所述计算中间帧的第三特征参数；其中，K的数值越大，所述多层次卷积层的层数越多；

第四特征参数提取子单元，用于采用所述预训练网络的多层次卷积层提取所述真实中间帧的第四特征参数；

差异结果生成子单元，用于采用L2范式比较所述第三特征参数和所述第四特征参数的差异，生成差异结果；

参数修正子单元，用于根据所述差异结果修正所述金字塔深度学习模型中的第一层至第K层的参数。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图6为本说明书实施例提供的对应于图1的一种视频帧插值设备的结构示意图。如图6所示，设备600可以包括：

至少一个处理器610；以及，

与所述至少一个处理器通信连接的存储器630；其中，

所述存储器630存储有可被所述至少一个处理器610执行的指令620，所述指令被所述至少一个处理器610执行，以使所述至少一个处理器610能够：

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频帧插值方法，其特征在于，包括：

将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，生成第二关键帧；通过金字塔深度学习模型，由低分辨率的视频帧合成低分辨率的视频中间帧，金字塔深度学习模型的每一层在分辨率增加的同时，通过估计视频帧之间的残差运动信息来修正上一层得到的运动信息，最终合成对应分辨率中间帧；

2.如权利要求1所述的方法，其特征在于，所述将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，具体包括：

根据所述第一分辨率对所述偶数张连续视频帧进行处理；

3.如权利要求1所述的方法，其特征在于，所述将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，具体包括：

根据预设规则确定所述金字塔深度学习模型中第K层输入的视频帧的第二分辨率，其中，第K层输入的视频帧的分辨率高于第(K-1)层输入的视频帧的分辨率，所述金字塔深度学习模型的最后一层输入的视频帧的分辨率为原分辨率，第K层输入的视频帧的分辨率高于第(K-1)层输入的视频帧的分辨率，所述金字塔深度学习模型的最后一层输入的视频帧的分辨率为原分辨率，K为大于等于2的自然数；

4.如权利要求3所述的方法，其特征在于，所述根据所述第K层的光流集合和所述第K层的遮挡掩模集合生成所述第K层的计算中间帧，具体包括：

根据所述第二变形图集合和所述第K层的遮挡掩模集合生成所述第K层的计算中间帧。

5.如权利要求4所述的方法，其特征在于，所述根据所述第二变形图集合和所述遮挡掩模集合生成所述第K层的计算中间帧，具体包括：

采用以下公式计算所述第K层的计算中间帧：

表示矩阵点乘运算。

6.如权利要求3所述的方法，其特征在于，所述根据所述第二分辨率对所述偶数张连续视频帧进行处理，具体包括：

7.如权利要求3所述的方法，其特征在于，所述根据所述第二分辨率对所述偶数张连续视频帧进行处理，具体包括：

将所述偶数张连续视频帧输入3D金字塔特征提取器中，生成一张四维特征图；

8.如权利要求1所述的方法，其特征在于，所述根据所述第二关键帧和所述第一关键帧修正所述金字塔深度学习模型，具体包括：

提取所述第一关键帧的第一特征参数；

提取所述第二关键帧的第二特征参数；

9.如权利要求3所述的方法，其特征在于，所述根据所述第K层的计算中间帧和所述第K层对应分辨率的真实中间帧修正所述金字塔深度学习模型中的第一层至第K层的参数，具体包括：

10.一种视频帧插值装置，其特征在于，包括：

第二关键帧生成模块，用于将所述偶数张连续视频帧输入至所述金字塔深度学习模型中，生成第二关键帧；通过金字塔深度学习模型，由低分辨率的视频帧合成低分辨率的视频中间帧，金字塔深度学习模型的每一层在分辨率增加的同时，通过估计视频帧之间的残差运动信息来修正上一层得到的运动信息，最终合成对应分辨率中间帧；

11.一种视频帧插值设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，