CN110351511A

CN110351511A - 基于场景深度估计的视频帧率上变换系统及方法

Info

Publication number: CN110351511A
Application number: CN201910575778.8A
Authority: CN
Inventors: 张小云; 包文博; 高志勇; 陈立
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-18

Abstract

本发明提供了一种基于场景深度估计的视频帧率上变换系统及方法，其中系统包括模块一：光流估计网络；模块二：场景深度估计网络；模块三：上下文提取网络；模块四：插值核估计网络；模块五：深度感知的光流场映射；模块六：自适应插值映射；模块七：中间帧生成网络；本发明利用场景深度估计，提供了在视频帧率上变换中针对暴露遮蔽问题的解决办法；本发明还利用深度学习技术，提供了一种能够被端到端训练的神经网络系统，使得系统能够在大量的无标签的视频数据上进行训练优化。

Description

基于场景深度估计的视频帧率上变换系统及方法

技术领域

本发明涉及视频帧率变换技术领域，具体地，涉及一种基于场景深度估计的视频帧率上变换系统及方法，尤其涉及一种基于深度学习技术的视频帧率上变换系统及方法。

背景技术

视频帧率上变换是一种将低帧率如24fps、30fps的视频上变换成高帧率如48fps、60fps的视频的技术。该技术的实现方法是在原始的低帧率视频每两帧图像之间插入一幅视觉上合理的新图像，从而提高视频的观赏体验。

如专利文献CN109640117A公开的一种视频插帧处理方法，利用拉格朗日插值法对视频进行插帧处理。读取数码视频，获取时长、速率、总帧数等视频信息，确定拉格朗日插值法的阶数并且构造范德蒙矩阵，根据该矩阵通过矩阵运算得到拉格朗日多项式的系数矩阵。根据视频总帧数确定被插区间在插值框架中的位置，给定相邻两帧间插入帧的数目，在相邻两帧间插入新的帧，确认插入帧在新视频中的序号，根据序号获取具有和所述插值框架同样项数的范德蒙矩阵来构造内插矩阵，根据内插矩阵获取新帧的图像，构造插帧变换进行插帧，直至完成全部插帧。

传统的视频插帧方法，主要依赖于对视频场景中的物体运动信息提取，合理估计物体运动到中间帧时刻时所在的位置和亮度。一般的，传统方法会采用光流估计即计算出两帧图像之间逐像素的匹配关系，得到逐像素的运动信息。根据该运动信息可以估计出中间帧的每个像素的取值。但是此类基于运动估计的视频插帧方法存在的一个严重缺陷就是，它们对处理不同运动物体之间的暴露、遮蔽问题能力不足。由于这些方法没有获取到不同物体之间的遮挡关系，所以在对中间帧插值时，当存在两个及以上不同物体运动到同一位置时，无法知道到底应该呈现哪一个物体的像素亮度。

本发明公开一种基于场景深度估计的的视频帧率上变换系统及方法。该方法利用深度学习工具估计出视频中的物体深度和运动信息，根据物体在场景中的深度值可以知道它们之间的相互遮挡关系，从而更全面地理解了运动场景，因此本发明能够提供更为准确的插帧结果。所提出的系统是一种能够被端到端训练、优化的插帧方法，能够从大量的视频训练数据中学习出高质量的视频。该系统可以取得显著优于传统基于运动估计的视频插帧方法。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于场景深度估计的视频帧率上变换系统及方法。

根据本发明提供的一种基于场景深度估计的视频帧率上变换系统，包括下列模块：

模块一：光流估计网络；

模块二：场景深度估计网络；

模块三：上下文提取网络；

模块四：插值核估计网络；

模块五：深度感知的光流场映射；

模块六：自适应插值映射；

模块七：中间帧生成网络；

所述模块一能够估计两帧图像之间的光流场；模块二能够估计两帧图像各自的深度信息；模块三能够提取两帧图像中逐像素的特征信息；模块四能够计算插值滤波器核，该插值滤波器核会被自适应插值映射用到；模块五能够将原始两帧图像之间的光流场映成为内插帧到原始帧之间的光流场；模块六根据输入的光流场和插值核，将待插值的信息如像素、像素上下文特征、场景深度等进行自适应映射，得到中间帧对应的信息；模块七对映射到中间帧的信息进行处理，得到最终的中间帧像素。

优选地，所述光流估计网络包括根据卷积神经网络构建的光流估计网络。

优选地，所述场景深度估计网络包括基于深度卷积网络构建的场景深度估计网络。

优选地，所述上下文提取网络包括根据深度卷积神经网络构建的上下文提取网络，其中卷积层是标准的卷积神经网络层。

优选地，所述插值核估计网络包括基于深度卷积网络构建的插值核估计网络，能够输出逐像素的插值核。

优选地，所述深度感知的光流场映射是一个可反向传播的网络层，该网络层在计算输出的光流场时，如果仅有一个光流矢量经过当前像素位置，则取该光流矢量的-1/2为输出结果；如果有多个0时刻的光流矢量F_0→1(y)经过当前t时刻的像素位置x，则计算这些矢量的加权得到当前位置的光流F_t→0(x)，加权公式如下所示：

其中加权系数w₀(y)为深度值D₀(y)的倒数，即：

其中集合的含义是，在宽度为W、高度为H像素空间中,在0时刻，如果一个像素y经过时间t以速度为F_0→1(y)的方式经过了x，则像素y成为集合S(x)的一个元素；

对于没有任何光流矢量经过的像素位置x,也就是说S(x)里面的元素个数为0，则取x邻域范围内最近的有有效值为输出结果。

优选地，所述自适应插值映射是一个可反向传播的网络层，能够将待映射的信息在光流场的指引下，在自适应插值核的作用下生成映射后的信息；

其中，所述待映射的信息包括像素、上下文特征以及场景深度中的任一种或任多种组合。

优选地，所述中间帧生成网络包括基于深度卷积网络构建的中间帧生成网络，能够生成最终的内插帧。

根据本发明提供的一种基于场景深度估计的视频帧率上变换方法，采用上述的基于场景深度估计的视频帧率上变换系统，包括如下步骤：

步骤一：将原始两帧参考图像输入到光流估计网络，得到第一个参考帧到第二个参考帧的光流场；

步骤二，将原始两帧参考图像交换顺序输入到光流估计网络，得到第二个参考帧到第一个参考帧的光流场；

步骤三，将两个参考帧分别输入到场景深度估计网络，得到两个参考帧各自对应的深度图；

步骤四，将两个参考帧分别输入到上下文提取网络，得到两个参考帧各自对应的特征信息；

步骤五，将两个参考帧分别输入到插值核估计网络，得到两个参考帧各自对应的插值核；

步骤六，将步骤一和步骤二的光流场和深度图输入到深度感知的光流场模块，得到两个参考帧各自对应的映射后的光流场；

步骤七，以步骤六、步骤五的光流场和插值核作为映射工具，将原始帧像素、步骤四的特征信息以及步骤三的场景深度映射到中间帧时刻，得到两个参考帧各自对应的、映射后的像素、特征和深度；

步骤八，将步骤七得到的映射后的信息输入到中间帧生成网络，得到中间帧。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的基于场景深度估计的视频帧率上变换方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供的基于场景深度估计的视频帧率上变换系统，具有系统可靠性高、泛用性强、变换效果好的优点；

2、本发明提供的基于场景深度估计的视频帧率上变换系统及方法，利用场景深度估计，提供了在视频帧率上变换中针对暴露遮蔽问题的解决办法；

3、本发明提供的基于场景深度估计的视频帧率上变换系统及方法，利用深度学习技术，提供了一种能够被端到端训练的神经网络系统，使得系统能够在大量的无标签的视频数据上进行训练优化。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的系统框图。

图2为本发明一实施例的上下文提取网络结构示意图。

图3为本发明一实施例的残差网络模块示意图。

图4为本发明一实施例的中间帧生成网络结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

模块一：光流估计网络；

模块二：场景深度估计网络；

模块三：上下文提取网络；

模块四：插值核估计网络；

模块五：深度感知的光流场映射；

模块六：自适应插值映射；

模块七：中间帧生成网络；

具体地，所述模块一能够估计两帧图像之间的光流场；模块二能够估计两帧图像各自的深度信息；模块三能够提取两帧图像中逐像素的特征信息；模块四能够计算插值滤波器核，该插值滤波器核会被自适应插值映射用到；模块五能够将原始两帧图像之间的光流场映成为内插帧到原始帧之间的光流场；模块六根据输入的光流场和插值核，将待插值的信息如像素、像素上下文特征、场景深度等进行自适应映射，得到中间帧对应的信息；模块七对映射到中间帧的信息进行处理，得到最终的中间帧像素。所述光流估计网络包括根据卷积神经网络构建的光流估计网络。所述场景深度估计网络包括基于深度卷积网络构建的场景深度估计网络。所述上下文提取网络包括根据深度卷积神经网络构建的上下文提取网络，其中卷积层是标准的卷积神经网络层。所述插值核估计网络包括基于深度卷积网络构建的插值核估计网络，能够输出逐像素的插值核。所述深度感知的光流场映射是一个可反向传播的网络层，该网络层在计算输出的光流场时，如果仅有一个光流矢量经过当前像素位置，则取该光流矢量的-1/2为输出结果；如果有多个0时刻的光流矢量F_0→1(y)经过当前t时刻的像素位置x，则计算这些矢量的加权得到当前位置的光流F_t→0(x)，加权公式如下所示：

其中加权系数w₀(y)为深度值D₀(y)的倒数，即：

对于没有任何光流矢量经过的像素位置x,也就是说S(x)里面的元素个数为0，则取x邻域范围内最近的有有效值为输出结果。所述自适应插值映射是一个可反向传播的网络层，能够将待映射的信息在光流场的指引下，在自适应插值核的作用下生成映射后的信息；

其中，所述待映射的信息包括像素、上下文特征以及场景深度中的任一种或任多种组合。所述中间帧生成网络包括基于深度卷积网络构建的中间帧生成网络，能够生成最终的内插帧。

进一步地，本发明优选例公开了一种基于场景深度估计的视频帧率上变换系统及方法，该系统包括一个光流估计模块，一个场景深度估计模块，一个上下文提取模块，一个插值核估计模块，一个深度感知的光流场映射模块，一个自适应映射模块和一个中间帧生成模块。对输入的视频，每次将连续的两帧图像作为参考帧输入到系统中，可以得到一幅中间帧图像。具体地，参考帧图像进入光流估计模块，得到两帧图像的光流场；进入场景深度估计模块，得到两帧图像的深度信息；进入上下文提取模块，得到两帧图像的上下文特征信息；进入插值核估计模块，得到插值核。光流场和深度信息经过深度感知的映射，可以得到映射后的光流场。映射后的光流场与插值核一起，可以将参考帧、上下文信息、深度信息等映射到中间帧所对应的时刻。最后这些映射后的信息通过中间帧生成模块处理得到所需的中间帧。本发明使用深度学习技术搭建整个基于场景深度估计的视频帧率上变换系统，可以利用大量的无标签视频数据训练得到最优的网络参数，在实际应用中可以达到显著优于现有的视频帧率上变换系统性能。

本发明优选例提供的一种基于场景深度估计的视频帧率上变换系统及方法，所述方法包括如下模块及步骤：

模块一：光流估计网络；

模块二：场景深度估计网络；

模块三：上下文提取网络；

模块四：插值核估计网络；

模块五：深度感知的光流场映射；

模块六：自适应插值映射；

模块七：中间帧生成网络。

模块一用于估计两帧图像之间的光流场。

模块二用于用于估计两帧图像各自的深度信息。

模块三用于提取两帧图像中逐像素的特征信息。

模块四用于计算插值滤波器核，它会被自适应插值映射用到。

模块五用于将原始两帧图像之间的光流场映成为内插帧到原始帧之间的光流场。

模块六根据输入的光流场和插值核，将待插值的信息如像素、像素上下文特征、场景深度等进行自适应映射，得到中间帧对应的信息。

模块七对映射到中间帧的信息进行处理，得到最终的中间帧像素。

光流估计网络是根据卷积神经网络构建而成。场景深度估计模块是基于深度卷积网络构建而成，可以输出逐像素的稠密的深度场。上下文提取网络是根据深度卷积神经网络构建而成。其网络的结构图如说明书附图2所示，其中卷积层是标准的卷积神经网络层。插值核估计网络是基于深度卷积网络构建而成，可以输出逐像素的插值核。深度感知的光流映射模块是一个可反向传播的网络层。该网络层在计算输出的光流场时，如果仅有一个光流矢量经过当前像素位置，则取该光流矢量的-1/2为输出结果；如果有多个0时刻的光流矢量F_0→1(y)经过当前t时刻的像素位置x，则计算这些矢量的加权得到，当前位置的光流F_0→t(x)加权公式如下所示：

其中加权系数w₀(y)为深度值D₀(y)的倒数，即：

其中集合该含义是，在宽度为W、高度为H像素空间中,在0时刻，如果一个像素y经过时间t以速度为F_0→1(y)的方式经过了x，则像素y成为集合S(x)的一个元素。对于没有任何光流矢量经过的像素位置x,也就是说S(x)里面的元素个数为0，则取x邻域范围内最近的有有效值为输出结果。

自适应插值映射是一个可反向传播的网络层，可以将待映射的信息如像素、上下文特征、场景深度，在光流场的指引下，在自适应插值核的作用下生成映射后的信息。中间帧生成网络是基于深度卷积网络构建而成，可以生成最终的内插帧。其网络的结构图如说明书附录4所示。

采用该系统进行视频插帧的步骤如下：

更进一步地，如图1所示，本实施例提供一种基于场景深度估计的视频帧率上变换系统及方法，包括如下模块及步骤：

该系统包括七个模块：光流估计模块，场景深度估计模块，上下文提取模块，插值核估计模块，深度感知的光流场映射模块，自适应映射模块，中间帧生成模块。

本实施例采用PWC-Net作为光流估计网络，它能够根据输入的两幅图像，估计出第一幅到第二幅的逐像素的运动矢量场；

本步骤中，通过得到反向的光流场，与步骤一中的正向的光流场一起作为后续插帧的输入；

本实施例采用HourGlass作为场景深度估计网络；

本实施例采用了残差网络结构用于构建上下文提取网络，最终输出的特征包含了三个层级的激活特征，其结构示意图见图2。

本实施例采用了U-Net网络结构用于构建插值核估计网络，它以两幅参考帧图像为输入，输出后续自适应插值网络所需的插值核；

本实施例采用深度的倒数作为光流场映射的加权系数，使得输出的光流值更靠近深度值更小也就是更靠近相机的物体的运动矢量；

步骤八，将步骤七得到的映射后的信息输入到中间帧生成网络，得到中间帧；

本实施例采用了残差网络结构用于构建中间帧生成网络，它包含3个残差模块，其网络结构如图3所示，网络最终输出3通道的RGB图像。

对于系统中的含有待训练参数的5个网络模块如光流估计网络、场景深度估计网络、上下文提取网络、插值核估计网络以及中间帧生成网络的参数的离线训练步骤如下：

步骤1)：随机抽取一段视频图像中的连续三帧图像，将它们缩放成分辨率为448x256的图像；

步骤2)：取三帧图像中的第一和第三帧为整个帧率上变换系统的输入，以第二帧图像为优化目标；

步骤3)：利用随机梯度下降算法对整个系统中的参数进行联合优化，损失函数设为网络系统输出的中间帧与第二帧图像的误差。

步骤3)中的优化方法是Adam优化方法。学习率设为10^-4，当训练损失不再下降时，降为10^-5。训练收敛后，保存参数，实际使用时直接加载使用即可。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于场景深度估计的视频帧率上变换系统，其特征在于，包括下列模块：

模块一：光流估计网络；

模块二：场景深度估计网络；

模块三：上下文提取网络；

模块四：插值核估计网络；

模块五：深度感知的光流场映射；

模块六：自适应插值映射；

模块七：中间帧生成网络；

2.根据权利要求1所述的基于场景深度估计的视频帧率上变换系统，其特征在于，所述光流估计网络包括根据卷积神经网络构建的光流估计网络。

3.根据权利要求1所述的基于场景深度估计的视频帧率上变换系统，其特征在于，所述场景深度估计网络包括基于深度卷积网络构建的场景深度估计网络。

4.根据权利要求1所述的基于场景深度估计的视频帧率上变换系统，其特征在于，所述上下文提取网络包括根据深度卷积神经网络构建的上下文提取网络，其中卷积层是标准的卷积神经网络层。

5.根据权利要求1所述的基于场景深度估计的视频帧率上变换系统，其特征在于，所述插值核估计网络包括基于深度卷积网络构建的插值核估计网络，能够输出逐像素的插值核。

6.根据权利要求1所述的基于场景深度估计的视频帧率上变换系统，其特征在于，所述深度感知的光流场映射是一个可反向传播的网络层，该网络层在计算输出的光流场时，如果仅有一个光流矢量经过当前像素位置，则取该光流矢量的-1/2为输出结果；如果有多个0时刻的光流矢量F_0→1(y)经过当前t时刻的像素位置x，则计算这些矢量的加权得到当前位置的光流F_t→0(x)，加权公式如下所示：

其中加权系数w₀(y)为深度值D₀(y)的倒数，即：

7.根据权利要求1所述的基于场景深度估计的视频帧率上变换系统，其特征在于，所述自适应插值映射是一个可反向传播的网络层，能够将待映射的信息在光流场的指引下，在自适应插值核的作用下生成映射后的信息；

8.根据权利要求1所述的基于场景深度估计的视频帧率上变换系统，其特征在于，所述中间帧生成网络包括基于深度卷积网络构建的中间帧生成网络，能够生成最终的内插帧。

9.一种基于场景深度估计的视频帧率上变换方法，其特征在于，采用权利要求1至8中任一项所述的基于场景深度估计的视频帧率上变换系统，包括如下步骤：

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求9所述的基于场景深度估计的视频帧率上变换方法的步骤。