CN108600655A

CN108600655A - 一种视频图像合成方法及装置

Info

Publication number: CN108600655A
Application number: CN201810325616.4A
Authority: CN
Inventors: 王国强; 张斌; 孙士杰; 陈学伟
Original assignee: Sight Margin (shanghai) Intelligent Technology Co Ltd
Current assignee: Sight Margin (shanghai) Intelligent Technology Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-09-28

Abstract

本发明公开一种视频帧合成方法及装置，属于图像处理技术领域。本发明的一种视频图像合成方法及装置，包括获取视频流中多帧原始视频图像，输入多帧原始视频图像到全卷积编码/解码器得到深度体素流，利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素，基于目标体素合成预测帧视频图像。本发明的一种视频图像合成方法及装置通过降低使用数据帧率来预测现有的帧，在数量和质量上比之前的方式得到改进。

Description

一种视频图像合成方法及装置

技术领域

本发明涉及一种视频图像合成方法及装置，属于图像处理领域中的模式识别领域。

背景技术

模式识别又称图形识别，是一门正在兴起的技术，它融入图像处理、计算机等许多领域的先进技术。它与人工智能、图像处理的研究有交叉关系，例如自适应性的模式识别系统应用于人工智能研究的景物理解，图像处理中的图像分析也应用模式识别技术。

我们通常观察到的视频是一系列复杂现象的组合，譬如物体迅速移动和发生形变、遮挡、灯光发生变化和相机移动等。视频的外观参数模型往往过于简单,无法准确地模拟、插补或推断视频。在视频和电影制作过程中，使用视频插值方法合成视频帧是一种非常普遍的方式。流行的商用插件Twixtor用于将视频重新取样到新的帧率,并且产生慢动作效果。与之相关的问题是视频推断，通过合成视频帧来预测视频图像的变化趋势.

这些问题的传统解决方案是估计帧与帧之间的光流,然后沿光流矢量进行插值或推断。当光流精确的时候，这种方法效果很好，相反当光流精度无法保证的时候，会产生明显的伪像。一种新的方法是使用卷积神经网络(CNNs)直接合成视频帧的RGB像素值，但是直接合成RGB值效果并不如基于光流的方法成功,最终合成的图像往往是模糊的。

发明内容

本发明的目的在于提供一种视频图像合成方法及装置，通过获取视频流中多帧原始视频图像，将多帧原始视频图像到全卷积编码/解码器得到深度体素流，之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素，最后基于目标体素合成预测帧视频图像，通过降低使用数据帧率来预测现有的帧，在数量和质量上比之前的方式得到改进。

本发明提供技术方案如下：

一方面，本发明提供了一种视频图像合成方法，包括：

获取视频流中多帧原始视频图像；

输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流；

利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样，得到目标体素；

基于所述目标体素合成预测帧视频图像。

根据本发明的一实施方式，所述获取视频流中多帧原始视频图像的步骤包括：

截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像；

其中，原始视频图像表示为X∈R^H×W×L，R表示视频图像帧，H,W,L分别表示高，宽和输入视频的帧数量，当L＝2时，L⁰表示第一帧原始视频图像，L¹表示第二帧原始视频图像。

根据本发明的另一实施方式，所述利用所述深度体素流和体积采样函

数对所述多帧原始视频图像进行采样，得到目标体素的步骤包括：

通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样，构造虚拟体素；

计算所述虚拟体素的八个顶点的整数位置；

通过所述体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。

根据本发明的另一实施方式，所述深度体素流表示为：其中，表示全卷积编码/解码器，θ是网络参数，是深度体素流F在二维网格的整数目标像素位置，第一帧和第二帧原始图像的绝对位置分别为L⁰＝(x-Δx，y-Δy)，L¹＝(x-Δx，y-Δy)。

根据本发明的另一实施方式，所述虚拟体素的八个顶点的整数位置分别为：

其中，是底部函数，定义插值的时间范围。

根据本发明的另一实施方式，所述目标体素表示为：

其中，为体积采样函数，W^ijk是三线重采样权。

根据本发明的另一实施方式，所述全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一反卷积层、第一双线性上采样层、第二反卷积层、第二双线性上采样层、第三反卷积层、第三双线性上采样层以及瓶颈层，所述第一、第二和第三卷积层与所述第一、第二和第三反卷积层分别对应跳跃连接，所述第一、第二和第三卷积层的卷积核大小分别为5×5，5×5和3×3，所述第一、第二和第三反卷积层的卷积核大小分别为3×3、5×5和5×5，所述瓶颈层通过内核大小为3×3的卷积连接。

另一方面，本发明还提供了一种视频图像合成装置，包括：

获取模块，用于获取视频流中多帧原始视频图像；

全卷积编码/解码器模块，用于输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流；

采样模块，用于利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样，得到目标体素；

合成模块，用于基于所述目标体素合成预测帧视频图像。

根据本发明的一实施方式，所述全卷积编码/解码器模块包括第一卷积层单元、第一池化层单元、第二卷积层单元、第二池化层单元、第三卷积层单元、第三池化层单元、第一反卷积层单元、第一双线性上采样层单元、第二反卷积层单元、第二双线性上采样层单元、第三反卷积层单元、第三双线性上采样层单元以及瓶颈层单元，所述第一、第二和第三卷积层单元与所述第一、第二和第三反卷积层单元分别对应跳跃连接，所述第一、第二和第三卷积层单元的卷积核大小分别为5×5，5×5和3×3，所述第一、第二和第三反卷积层单元的卷积核大小分别为3×3、5×5和5×5，所述瓶颈层单元通过内核大小为3×3的卷积连接。

根据本发明的另一实施方式，所述采样模块包括：

构造单元，用于通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样，构造虚拟体素；

计算单元，用于计算所述虚拟体素的八个顶点的整数位置；

生成单元，用于通过体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。

本发明的有益效果如下：

本发明的视频图像合成方法通过获取视频流中多帧原始视频图像，将多帧原始视频图像到全卷积编码/解码器得到深度体素流，之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素，最后基于目标体素合成预测帧视频图像。本发明实施例的视频图像合成方法可以以两帧或多帧图像作为输入，剩下的帧作为重建目标，通过视频体积内插值来对颜色进行采样，将任意大小的视频用作输入，通过全卷积编/解码器，最终合成预测的多步帧图像。本发明实施例的视频图像合成方法通过降低使用数据帧率来预测现有的帧，在数量和质量上比之前的方式得到改进。

附图说明

图1为本发明的一种视频图像合成方法的一个实施例的流程示意图；

图2为本发明的一种视频图像合成方法的另一个实施例的流程示意图；

图3为本发明的一种视频图像合成装置的一个实施例的结构框图；

图4为本发明的一种视频图像合成装置的另一个实施例的结构框图图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

一方面，如图1所示，本发明实施例提供了一种视频图像合成方法，包括：

步骤100：获取视频流中多帧原始视频图像；

步骤200：输入多帧原始视频图像到全卷积编码/解码器得到深度体素流；

深度体素流，是指一个端到端的全微分网络视频帧的合成，多帧原始视频图像到通过一个全卷积编码器/解码器预测深度体素流即三维体素流，体素流的空间分量表示从目标帧到下一帧的光流；该光流的负值用于识别前一帧中相应的位置即假设光流是局部线性的，并且在帧之间在时间上是对称的，体素流的时间分量是前一帧和下一帧之间的线性混合权重，以在目标帧中形成颜色。

步骤300：利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素；

步骤400：基于目标体素合成预测帧视频图像。

本发明实施例的视频图像合成方法通过获取视频流中多帧原始视频图像，将多帧原始视频图像到全卷积编码/解码器得到深度体素流，之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素，最后基于目标体素合成预测帧视频图像。本发明实施例的视频图像合成方法可以以两帧或多帧图像作为输入，剩下的帧作为重建目标，通过视频体积内插值来对颜色进行采样，将任意大小的视频用作输入，通过全卷积编/解码器，最终合成预测的多步帧图像。本发明实施例的视频图像合成方法可以应用在任何分辨率的视频图像帧,因为它是完全卷积，并产生显著的高质量的结果，大大优于光流和CNN的方法。本发明结果在数量上比现有的方法要好，在观看输出视频时，这种改进尤为明显，因为现有的量化指标在测量感知质量方面很差。因此，本发明实施例的视频图像合成方法通过降低使用数据帧率来预测现有的帧，在数量和质量上比之前的方式得到改进。

作为一个举例说明，如图2所示，本发明实施例的视频图像合成方法的步骤100包括：

步骤101：截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像；

作为另一个举例说明，如图2所示，本发明实施例的视频图像合成方法的步骤300包括：

步骤301：通过从第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样，构造虚拟体素；

步骤302：计算虚拟体素的八个顶点的整数位置；

步骤303：通过体积采样函数对虚拟体素进行三线性内插值生成目标体素。

通过从X计算的光流对齐的视频体积内插值来对颜色进行采样，给定相应位置(L⁰,L¹)的情况下，构造了该体积的虚拟体素，并利用体素拐角处的颜色进行三线性插值计算输出视频色素计算输入视频x中虚拟体素的八个顶点的整数位置。

作为另一个举例说明，本发明实施例的视频图像合成方法中深度体素流表示为：其中，表示全卷积编码/解码器，θ是网络参数，是深度体素流F在二维网格的整数目标像素位置，第一帧和第二帧原始图像的绝对位置分别为L⁰＝(x-Δx，y-Δy)，L¹＝(x-Δx，y-Δy)。深度体素流为二维运动场的联合建模和在前帧和后帧之间的掩膜选择，具体的可将F分离为F_motion＝(Δx，Δy)和F_nasj＝Δt。

作为另一个举例说明，本发明实施例的视频图像合成方法中虚拟体素的八个顶点的整数位置分别为：

其中，是底部函数，定义插值的时间范围。

作为另一个举例说明，本发明实施例的视频图像合成方法中目标体素表示为：

其中，为体积采样函数，W^ijk是三线重采样权。

通过对输入视频X进行三线性插值和根据其投影的虚拟体素，得到每个输出体素经观察时空相干性在输出体积中被保留，因为时间层的卷积允许保持局部相关性。本发明实施例的视频图像合成方法利用时间和空间上的一致性调整减少视觉上的伪影重建损失l₁和总变动(TV)的调整来实施连贯性。通过正则化对数据进行预处理，使得数据更便于我们的计算或获得更加泛化的结果，因此这些正则化是强加在网络的输出上的，所以它可以很容易地合并到反向传播方案中，最小化的总体目标函数是：

其中是所有帧三重集的生成集，N是它的基数，Y是要预测的目标帧。是体素流(x，y)分量上的总变项，λ1_是相应的正则化权。是体素流时间分量上的正则化项，权重为2。为了优化l₁范数，使用Charbonnier函数φ(x)＝(x²+∈²)^1/2作为近似值，设定λ₁＝0.01，λ₂＝0.005和∈＝0.001。用高斯分布初始化DVF中的权值，标准偏差为0.01。学习网络通过ADAM解决器实现，速率为0.0001，β₁＝0.9，β₂＝0.999，批处理大小为32，为了更快的收敛就使用批处理归一化。为了使深度体素流成为端到端完全可微的系统，定义关于深度体素流的梯度F＝(Δx，Δy，Δz)，这样，重建误差就可以通过体积采样层被反向传播。合成体素颜色的偏导数中Δx代表：

其中，E^i，j，k是错误重分配权Δx，同样可以计算和这是一种子可微抽样机制，允许损耗梯度回流到三维体素流F。这种采样机制可以有效地实现，只需查看每个输出体素的内核支持区域即可。

通过查看每个输出体的内核支持区域，就可以得到重建误差的梯度，这使得很难找到内核之外的大运动。因此，提出了一个多深度体素流(多尺度DVF)更好的编码动作大以及小的运动。设计一系列卷积编码解码器从粗尺度到细尺度分别对视频帧进行处理。在实验中，设置s₂＝64×64，s₁＝128×128，s₀＝256×256，在每一个标度k中，子网络在这种方法上预测三维体素流F_k。直观来说，动作大的运动在粗尺度sN中有一个相对较小的偏移矢量F_k。因此，子网络在较粗的尺度s_n，…，s₁中能够产生正确的多尺度体素流F_N，…，F₁，甚至更大的动作将这些多尺度体素流融合到网络中，以获得最终结果。融合是通过重采样和级联多尺度体素流到的最终解码器层进行的，该层具有所需的空间分辨率sx。然后，通过对熔断流场的进一步卷积，得到细尺度体素流F₀。多尺度DVF的网络结构将其表述为

由于每个子网络是完全可微的，多尺度的DVF也可以在每个尺度s_k中生成端到端重建损失

作为另一个举例说明，本发明实施例的视频图像合成方法的全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一反卷积层、第一双线性上采样层、第二反卷积层、第二双线性上采样层、第三反卷积层、第三双线性上采样层以及瓶颈层，第一、第二和第三卷积层与第一、第二和第三反卷积层分别对应跳跃连接，第一、第二和第三卷积层的卷积核大小分别为5×5，5×5和3×3，第一、第二和第三反卷积层的卷积核大小分别为3×3、5×5和5×5，瓶颈层通过内核大小为3×3的卷积连接。

本发明实施例的视频图像合成方法的全卷积编/解码器架构为三个卷积层、三个反卷积层和一个瓶颈层，可以将任意大小的视频用作输入。对于网络的编码器部分，每个处理单元都包含卷积和最大存储，卷积核大小分别为5×5，5×5和3×3，瓶颈层也是通过内核大小为3×3的卷积连接。对于解码部分，每个处理单元包含双线性上采样和卷积，卷积核大小分别为3×3、5×5和5×5。为了更好地保持空间信息，在相应的卷积层和反卷积层之间添加了跳跃连接，具体而言，在向前反馈之前，相应的反卷积层和卷积层是连在一起的。

另一方面，如图3所示，本发明实施例还提供了一种视频图像合成装置，包括：

获取模块10，用于获取视频流中多帧原始视频图像；

全卷积编码/解码器模块20，用于输入多帧原始视频图像到全卷积编码/解码器得到深度体素流；

采样模块30，用于利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素；

合成模块40，用于基于目标体素合成预测帧视频图像。

本发明实施例的视频图像合成装置通过获取模块获取视频流中多帧原始视频图像，全卷积编码/解码器模块将多帧原始视频图像到全卷积编码/解码器得到深度体素流，之后采样模块利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素，最后合成模块基于目标体素合成预测帧视频图像。本发明实施例的视频图像合成方法可以以两帧或多帧图像作为输入，剩下的帧作为重建目标，通过视频体积内插值来对颜色进行采样，将任意大小的视频用作输入，通过全卷积编/解码器，最终合成预测的多步帧图像。本发明实施例的视频图像合成方法通过降低使用数据帧率来预测现有的帧，在数量和质量上比之前的方式得到改进。

作为一个举例说明，本发明实施例的视频图像合成装置的中全卷积编码/解码器模块包括第一卷积层单元、第一池化层单元、第二卷积层单元、第二池化层单元、第三卷积层单元、第三池化层单元、第一反卷积层单元、第一双线性上采样层单元、第二反卷积层单元、第二双线性上采样层单元、第三反卷积层单元、第三双线性上采样层单元以及瓶颈层单元，第一、第二和第三卷积层单元与第一、第二和第三反卷积层单元分别对应跳跃连接，第一、第二和第三卷积层单元的卷积核大小分别为5×5，5×5和3×3，第一、第二和第三反卷积层单元的卷积核大小分别为3×3、5×5和5×5，瓶颈层单元通过内核大小为3×3的卷积连接。

作为另一个举例说明，如图3所示，本发明实施例的视频图像合成方法中采样模块包括：

构造单元31，用于通过从第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样，构造虚拟体素；

计算单元32，用于计算虚拟体素的八个顶点的整数位置；

生成单元33，用于通过体积采样函数对虚拟体素进行三线性内插值生成目标体素。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频图像合成方法，其特征在于，包括：

获取视频流中多帧原始视频图像；

基于所述目标体素合成预测帧视频图像。

2.根据权利要求1所述的一种视频图像合成方法，其特征在于，所述获取视频流中多帧原始视频图像的步骤包括：

3.根据权利要求2所述的一种视频图像合成方法，其特征在于，所述利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样，得到目标体素的步骤包括：

计算所述虚拟体素的八个顶点的整数位置；

4.根据权利要求3所述的一种视频图像合成方法，其特征在于，所述深度体素流表示为：其中，表示全卷积编码/解码器，θ是网络参数，是深度体素流F在二维网格的整数目标像素位置，第一帧和第二帧原始图像的绝对位置分别为L⁰＝(x-Δx，y-Δy)，L¹＝(x-Δx，y-Δy)。

5.根据权利要求4所述的一种视频图像合成方法，其特征在于，所述虚拟体素的八个顶点的整数位置分别为：

其中，是底部函数，定义插值的时间范围。

6.根据权利要求5所述的一种视频图像合成方法，其特征在于，所述目标体素表示为：

其中，为体积采样函数，W^ijk是三线重采样权。

7.根据权利要求1-6任一所述的一种视频图像合成方法，其特征在于，所述全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一反卷积层、第一双线性上采样层、第二反卷积层、第二双线性上采样层、第三反卷积层、第三双线性上采样层以及瓶颈层，所述第一、第二和第三卷积层与所述第一、第二和第三反卷积层分别对应跳跃连接，所述第一、第二和第三卷积层的卷积核大小分别为5×5，5×5和3×3，所述第一、第二和第三反卷积层的卷积核大小分别为3×3、5×5和5×5，所述瓶颈层通过内核大小为3×3的卷积连接。

8.一种视频图像合成装置，其特征在于，包括：

获取模块，用于获取视频流中多帧原始视频图像；

合成模块，用于基于所述目标体素合成预测帧视频图像。

9.根据权利要求8所述的一种视频图像合成装置，其特征在于，所述全卷积编码/解码器模块包括第一卷积层单元、第一池化层单元、第二卷积层单元、第二池化层单元、第三卷积层单元、第三池化层单元、第一反卷积层单元、第一双线性上采样层单元、第二反卷积层单元、第二双线性上采样层单元、第三反卷积层单元、第三双线性上采样层单元以及瓶颈层单元，所述第一、第二和第三卷积层单元与所述第一、第二和第三反卷积层单元分别对应跳跃连接，所述第一、第二和第三卷积层单元的卷积核大小分别为5×5，5×5和3×3，所述第一、第二和第三反卷积层单元的卷积核大小分别为3×3、5×5和5×5，所述瓶颈层单元通过内核大小为3×3的卷积连接。

10.根据权利要求8所述的一种视频图像合成方法，其特征在于，所述采样模块包括：

计算单元，用于计算所述虚拟体素的八个顶点的整数位置；