CN106504190A

CN106504190A - 一种基于3d卷积神经网络的立体视频生成方法

Info

Publication number: CN106504190A
Application number: CN201611243656.1A
Authority: CN
Inventors: 王勋; 竺乐庆; 王慧燕
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-03-15
Anticipated expiration: 2036-12-29
Also published as: CN106504190B

Abstract

本发明公开了一种基于3D卷积神经网络的立体视频生成方法，能将现有的2D视频源转换成能在3D立体显示设备上播放的立体视频。包括以下步骤：准备足够数量非动画3D电影作为训练数据，将3D视频源分离成左眼图像序列和右眼图像序列，删去片头、片尾及空白帧后，用模糊C均值聚类法对左眼图像序列进行镜头分割，并以镜头为单位组织训练文件，计算所有左眼图像序列的均值并将这些图像减去该均值，以右眼图像序列作为训练的目标。用这些训练数据训练所构造的3D卷积神经网络直到收敛。将需要转换成立体视频的2D视频源进行镜头分割并减去训练图像均值后输入到训练得到的3D卷积神经网络，将得到该2D视频的右眼视频图像序列，最终将两者合并成立体视频。

Description

一种基于3D卷积神经网络的立体视频生成方法

技术领域

本发明涉及一种立体视频生成方法，尤其涉及一种基于3D卷积神经网络的单目转双目立体视频生成方法。

背景技术

3D电影因其较强的真实感和沉浸感非常受观众们喜爱，近年来在电影市场中占了比较大的份额，在2010年至2014年间占据了北美票房总收入的14％～21％，此外，随着虚拟现实(VR)市场的出现，头戴显示设备也对3D内容产生了进一步的需求。

直接摄制成3D电影格式设备和制作成本都较高，从2D转制3D电影便成为一种更理想的选择。典型的专业转制过程通常先通过手动创建每一帧的深度图，然后用基于深度图的渲染算法来将原始的2D视频帧与深度图结合生成立体图像对。然而这样的过程依然昂贵且需要耗费高强度的人力操作。高昂的制作成本成为3D电影业大规模发展的主要绊脚石。

最近几年来，许多研究人员寻求通过已有的3D模型库、深度估计技术从单视频序列来制作生成3D视频的方法，目前深度信息的获取可通过硬件和软件两种途径。硬件获取深度信息的设备有激光测距仪和微软推出的3D体感摄像仪Kinect等。软件方法常见的主要有多视图立体法(multi-view stereo)、光度立体视觉法(photometric stereo)、色度成形法(shape from shading)、散焦推断法(depth from defocus)以及基于机器学习的方法等。适用于2D转制3D电影的主要是机器学习的方法，特别是近年来随着深度学习框架的广泛应用，该框架也被应用到深度估计中，如Eigen等首先用多尺度卷积神经网络(CNN)实现了一种端到端的单目图像深度估计，然而因为输出的结果尺寸受限，预测得到深度图比输入的原图像要小很多，长和宽都只有原图的1/16；后来，Eigen和Fergus对网络结构进行了改进，先对原来实现的CNN的输出进行上采样，再与原输入图像的卷积的结果连接后，进一步用多个卷积层处理，使得神经网络更深，而最后的输出深度图的分辨率更高。

然而上述方法得到的深度图仍存在轮廓不够清晰，分辨率低等问题，此外，因视角变化而产生的遮挡等不可见部分补全问题仍难以解决。

发明内容

本发明的目的在于针对现有技术的不足，提供一种单目转双目的立体视频生成方法，通过训练3D深度全卷积神经网络，达到将现有的2D视频源自动转换成能在3D设备上播放的立体视频。

本发明的目的是通过以下技术方案来实现的：一种基于3D卷积神经网络的立体视频生成方法，包括以下步骤：

准备训练数据，训练3D全卷积神经网络，将2D视频作为左眼视频输入训练得到的神经网络模型生成右眼视频，最后将左右眼视频合成3D视频输出。

训练数据通过网络下载，使用足够数量(至少20多部)非动画3D电影，所有视频首先分解为左眼视图和右眼视图两部分，并将片头、片尾、镜头过渡时可能出现的空白帧删去，这样可得到5000000帧左右的训练样本，丰富的训练样本将使训练得到的CNN有较强的泛化能力。

所构造的3D全卷积网络如图1所示，全网络由6个卷积层构成，前两个是3D卷积层，目的是充分利用时域相邻帧的信息，对左右眼视差引起的遮挡或局部位移造成右视图中出现部分不可见的空洞进行自动补全，这些不可见的空洞中内容很可能在邻近的帧中出现；3D卷积的示意图如图2所示，3D卷积层输出的每一个像素值由相邻3帧对应位置3×3区域内像素值与卷积滤波器卷积得到，时间窗宽度为3即对应3个3×3的卷积核，这3个卷积核的权值各不相同，但在时空窗口滑动过程中保持不变；后面4个卷积层为2D卷积层，通过若干步的非线性变换将输入的左眼视图变换成右眼视图。每一个卷积层的输出都经过ReLu函数激活后输入到下一层。3D卷积核的大小均为3×3×3，边缘未进行填零扩充(pad＝0)，步长为1(stride＝1)，由式(1)－式(3)知，经过一次3D卷积，时域和空间域的窗口宽度均将收缩2个单位；2D卷积核的大小均为3×3，每个边缘都扩充了一个单位(pad＝1)，步长为1(stride＝1)，由式(1)－式(3)知，经过每一个2D卷积层特征维度大小保持不变。

t1＝(t0+2*pad-kernel_size)/stride+1 (1)

w1＝(w0+2*pad-kernel_size)/stride+1 (2)

h1＝(h0+2*pad-kernel_size)/stride+1 (3)

这个3D卷积神经网络的最终输出为RGB三通道的彩色图像，在附图1和附图2中，每一帧实际都包含三个通道，不同通道对应不同的滤波器组，因此在图1中每个3D卷积层有3组3×3×3的卷积核，每个2D卷积层有3组3×3的卷积核。5帧3通道的RGB图像输入3D卷积神经网络最终输出1帧3通道的RGB图像。

总体而言，一个镜头的连续5帧左眼视图输入到网络将输出1帧右眼视图，且右眼视图长宽均比左眼视图收缩了4个单位，因此在训练网络时，仅将5帧输入的中间帧的实际右眼视图的中间区域与输出进行对齐求损失并反向传播调整网络参数。

由于时域相邻帧之间的相关性仅在同一镜头内存在，因此在训练网络阶段，输入给网络的左眼视频首先要进行镜头分割，以镜头为单位组织训练文件。本发明采用的镜头分割算法是基于模糊C均值聚类算法的。具体步骤如下：

首先将视频的每一帧图像从RGB(Red–Green–Blue)空间转换到YUV(亮度色度)空间，其转换公式如下：

计算每一帧YUV通道的颜色直方图，并按如下方法计算相邻帧的帧间差：

其中，m为UV通道的直方图区间数，n为Y通道的直方图区间数，m<n，H(f,k)表示帧f中落在第k区间的像素个数。

对视频的所有帧间差用模糊C均值聚类算法聚为三类：镜头变化类SC、疑似镜头变化类SSC、镜头不变类NSC。疑似镜头变化类是指难以判别镜头是否产生变化的那些帧。

模糊C均值聚类算法如下(该算法输入为视频相邻帧间差序列，输出为相邻帧类别)：

①初始化类别数c＝3和指数权重w＝1.5，将所有隶属度值μ_ik(i＝1,…,c,k＝1,…,n，此处n为帧间差序列的总数)赋为1/c；

②用(6)式计算c个聚类中心c_i，i＝1,…,c；

③用(7)式计算价值函数J，如果它小于某个确定的阀值，或它相对上次价值函数值的改变量小于某个阀值，则算法停止；

④用(8)式计算新的隶属度值μ_ik并返回步骤②。

对于疑似镜头变化类SSC的处理如下：如果两个连续的镜头变化帧SC(i)和SC(i+1)之间存在若干SSC帧SSC(k),k＝j,…,j+n-1,如果满足条件

H_SSC(k)≥0.25*[H_SC(i)+H_SC(i+1)] (9)

则认为帧SSC(k)为镜头变化产生处，其中H_SSC(k)表示SSC(k)的直方图帧间差，H_SC(i)+H_SC(i+1)表示SC(i)和SC(i+1)的直方图帧间差；当然，镜头是不会在两个相邻的帧连续产生变化的，因此，一部分满足式(9)条件的帧从中被剔除了。

计算训练样本中所有左眼视图的平均值，在训练时，输入到网络的左眼视图的每一帧需要减去该均值，同样，在用训练好的网络模型生成右眼视图时，输入的左眼视图也要减去该均值。

在图1中，用随机梯度下降法反向传播调整网络参数时，用均方差计算损失函数，即：

其中为3D卷积神经网络最后一层的输出，Y为最初参与3D卷积5个连续帧的中间帧对应的真实右眼视图，n为输出的像素点数量。训练网络通过最小化该损失函数实现，当训练过程中该损失函数收敛，则训练结束。

在图1中，在利用训练好的3D卷积神经网络模型通过输入左眼视图生成右眼视图时，需要对网络的最后一层输出在[0，255]区间内就近取整，取整的结果为3通道RGB图像，每一通道的灰阶为落在[0，255]区间内的整数值。

本发明的有益效果是：基于大数据集训练得到的深度卷积神经网络模型，由左眼视频自动生成右眼视频，最大可能减少立体视频制作过程中的人力参与，从而提高立体视频制作的效率，降低制作成本。

附图说明

图1：3D全卷积神经网络结构；

图2：3D卷积示意图，图中编号相同的卷积核共享权值。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步说明。

立体视频生成是在现有3D信号比较少的情况下出现的一种技术，它能将日常观看的2D电影或电视节目，通过运算自动产生出3D的显示效果。

如图1所示，本发明实施例所述一种基于3D卷积神经网络的立体视频生成方法，能够将现有的2D视频源作为左眼视频，通过3D卷积神经网络自动生成相应的右眼视频，然后将两者结合转换成可以在3D立体显示设备上播放的视频。

该方法包括以下步骤：

1)训练3D卷积神经网络。

为了防止在训练深度卷积神经网络时出现过拟合现象，需要准备足够数据的训练数据，本发明使用从网络上下载的20多部非动画3D电影作为训练数据，然后用FFmpeg命令将3D视频分离成左眼和右眼JPEG图像序列，在这些序列中删去片头片尾以及镜头切换中可能出现的空白帧。

所有的训练样本通过裁剪或缩放统一至同样的长宽，并计算出所有训练图像的均值。

用发明内容中所述的模糊C均值聚类方法对每一部电影分离的左眼JPEG图像序列进行镜头分割，然后将每个镜头的左眼图像减去均值作为训练时的输入数据，对应镜头右眼图像去掉头尾各两帧，切除上下左右每边各两像素作为训练目标，保存为HDF5格式文件。

用[0，0.01]区间内符合标准差为0.01的高斯分布的随机数初始化3D卷积神经网络的各层卷积核参数，各层初始学习率设置为0.01，每训练100000轮训练学习率减小为原来的1/10，动量设置为0.9。

用上述训练数据和参数设置训练如图1所示的3D卷积神经网络，当式(10)所计算的损失趋于收敛(即该损失与上一轮损失的相对变化量小于阈值，如0.01)或训练趟数超过1000000趟，则训练结束。

2)用训练获得的3D卷积神经网络模型由2D左眼视频生成右眼视频

将待转换的2D视频作为左眼视频，用与训练时相同的方法转换成图像序列、用模糊C均值聚类算法进行镜头分割、通过缩放或裁剪把图像转换成与训练图像一样大小，然后对每一帧减去训练图像的均值，以镜头为单位输入到3D卷积神经网络模型，因为最后一层卷积层的输出结果是浮点值类型，而我们需要得到的是灰阶为[0，255]的整数的三通道RGB图像，所以网络最后的输出通过[0，255]区间就近取整后才是预期的右眼视图，所谓就近取整，是指当该值v∈[0,255]时，则进行四舍五入，当v<0，则取0，当v>255时，则取255。每输入5帧左眼视图将生成中间的1帧右眼视图，生成过程在时域以步长为1滑动向前，这样，每个镜头除了前面2个初始帧和后面2个结束帧，其他帧都将得到其对应的右眼视图，每个镜头在视频编辑过程中损失4帧是可以接受的。

3)将左右眼视频合成为3D视频

用图1所示的网络从左眼视频生成右眼视频时，由于3D卷积层空间窗口的收缩，最后右眼视图的长宽都比左眼视图小4个像素，因此在合成之前先把左眼视图上下左右的边缘分别裁切去2个像素。这样就得到了2个视点生成的2路虚拟像点，合成2幅输入显示屏的视频源，最后根据显示屏的类型，从2幅视频源中按照相应的格式合成一输入视频源在显示屏上显示。

以上，仅为本发明的较佳实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应该以要得要求所界定的保护范围为准。

Claims

1.一种基于3D卷积神经网络的立体视频生成方法，其特征在于，包括以下步骤：

1)准备训练数据

通过网络下载足够数量非动画3D电影作为训练数据，分解为左眼视图和右眼视图两部分，并将片头、片尾、镜头过渡时可能出现的空白帧删去；

2)训练3D卷积神经网络

用步骤1)准备好的训练数据左眼视图作为输入，右眼视图作为目标训练构造的3D卷积神经网络，3D卷积神经网络包括6个卷积层，其中两层3D卷积，四层2D卷积，计算损失函数时，提取右眼视图中间与输出相同大小的区域与输出进行比对来反向调整网络参数；

3)利用训练完成的全卷积神经网络生成立体视频

把2D视频作为左眼视图输入到训练好的3D卷积神经网络，将网络的输出规整到0～255之间的整数，即将所有的输出值取为[0，255]区间内最邻近的整数，该结果即为生成的右眼视图，最后根据显示器特征将左右眼视频源合成一幅视频源输出到显示器上显示。

2.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法，其特征在于：

在所述步骤1)中，所述的训练样本首先需要进行镜头分割，因为只有同一镜头的视频帧之间才存在相关性，具体的镜头分割步骤如下：首先将视频的每一帧图像从RGB(Red–Green–Blue)空间转换到YUV(亮度色度)空间，其转换公式如下：

Y＝0.299+0.587+0.114

U＝0.492(B-Y) (1)

V＝0.877(R-Y)

\begin{matrix} x (f_{i}, f_{i + 1}) = Σ_{k = 1}^{n} | H^{Y} (f_{i}, k) - H^{Y} (f_{i + 1}, k) | + Σ_{k = 1}^{m} (| H^{U} (f_{i}, k) - H^{U} (f_{i + 1}, k) | + | H^{V} (f_{i}, k) - \\ H^{V} (f_{i + 1}, k) |) \end{matrix} - - - (2)

其中，m为UV通道的直方图区间数，n为Y通道的直方图区间数，m<n，H(f,k)表示帧f中落在第k区间的像素个数，基于这些直方图帧间差用模糊C均值聚类方法实现镜头分割。

3.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法，其特征在于：

在所述步骤1)中，所述的训练样本以镜头为单位组织成文件，计算训练样本中所有左眼视图的平均值，并将左眼视图的每一帧减去该均值。

4.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法，其特征在于：

在所述步骤2)中，所训练的3D卷积神经网络为全卷积神经网络，因为是没有全连接层的全卷积网络，因此对所处理的图像帧大小不敏感。

5.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法，其特征在于：

在所述步骤2)中，设计的网络结构中，3D卷积核的大小为3×3×3，2D卷积核大小为3×3，卷积步长均为1，3D卷积边缘不作填零扩充，2D卷积填零扩充以使卷积前后图像大小保持不变。每个卷积层的输出经过ReLu函数激活后输入到下一层。

6.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法，其特征在于：

在所述步骤2)中，设计的网络结构中，第一个3D卷积核的时间窗大小为t0＝5，即一次卷积将处理5帧图像，由(3)式，因pad＝0，stride＝1，kernel_size＝3，经3×3×3大小的卷积核卷积后输出的时间窗将缩小至t1＝3，再经过第二个3D卷积层，时间窗进一步缩小至1，后面的2D卷积都只对单帧图像处理。同理，由式(4)和式(5)可知，前两个3D卷积因pad＝0，长宽各缩小2，后面的2D卷积，因pad＝(kernel_size-1)/2，卷积前后长宽保持不变。

t1＝(t0+2*pad-kernel_size)/stride+1 (3)

w1＝(w0+2*pad-kernel_size)/stride+1 (4)

h1＝(h0+2*pad-kernel_size)/stride+1 (5)

7.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法，其特征在于：

在所述步骤2)中，设计的网络结构中，对每个镜头训练时在时域以步长为1滑动向前，因3D卷积存在时间域的收缩，因此计算损失时丢弃每个镜头目标视图(即右眼视图)的前面两帧和最后两帧。

8.根据权利要求1所述的基于3D卷积神经网络的立体视频生成方法，其特征在于：

在所述步骤2)中，训练网络过程中，在反向传播调整网络参数时，用均方差计算损失函数，即：

L (Y, \tilde{Y}) = \frac{1}{n} Σ_{i = 1}^{n} {({\tilde{Y}}_{i} - Y_{i})}^{2} - - - (6)

其中为3D卷积神经网络输出结果，Y为最初参与3D卷积5个连续帧的中间帧对应的真实右眼视图，n为输出的像素点数量。