CN105979244A

CN105979244A - 一种基于深度学习的2d图像转3d图像的方法及系统

Info

Publication number: CN105979244A
Application number: CN201610377597.0A
Authority: CN
Inventors: 赵天奇; 渠源; 张阳
Original assignee: Twelve Dimensional (beijing) Technology Co Ltd
Current assignee: Beijing cohesion Technology Co., Ltd.
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2016-09-28

Abstract

本发明提供了一种基于深度学习的2D图像转3D图像的方法及系统。该方法包括：获取2D单视差图像的像素单元信息；利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息；获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系；根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络；利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图；将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。本发明避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷，实现了自动将2D图像转换为3D图像。

Description

一种基于深度学习的2D图像转3D图像的方法及系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于深度学习的2D图像转3D图像的方法及系统。

背景技术

近年来，三维显示技术已经成为当前社会中的热点技术，被应用在生活的各种场景中。同时，由于3D技术的兴起，随之而来的2D图像转3D图像的需求也不断增加，但是，在将2D转3D的过程中，通常采用人工处理方式进行，由人工对图像帧进行roto分割、深度信息生成、人工补图等操作，人工将原始2d图像转成深度图像，需要roto后，把图像中的一个roto圈中内容加入深度信息，这个深度信息一般是靠感觉加入，因而深度生成结果倾向于生成深度的人的主观观看感受。对于商业成果的展示，经常要做多次检查及修正。同时，人工处理图像的成本过高。

在深度信息生成中，随着深度学习发展迅速，在各个领域都出现了令人欣喜的成果，越来越多的研究采用深度卷积神经网络(Convolutional Neural Networks，CNN)实现深度估计。传统的深度卷积神经网络如AlexNet，vggNet等都是全连接深度卷积神经网络，由卷积层和全连接层构成，通常都是将图像以标准尺寸作为输入，产生非空间排布输出。由于2D转3D目的是通过任意尺寸的单视差2D图像，自动生成3D深度信息图像，因此非空间排布的输出结果无法实现2D转3D的实际应用。

传统深度图像信息输入的应用中，通常是以双视差图像作为输入，输出是深度信息估计结果。但是，目前的2D转3D应用中，是通过输入单视差图片和深度图像信息，进行立体显示，所以此类应用无法实现2D转3D的需求。

发明内容

本发明所要解决的技术问题是：现有的人工由2D单视差图像生成深度图像结果不准确、成本高的问题。

为解决上述技术问题，本发明提出了一种基于深度学习的2D图像转3D图像的方法，该基于深度学习的2D图像转3D图像的方法包括：

获取2D单视差图像的像素单元信息；

利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息；

获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系；

根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络；

利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图；

将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。

可选地，所述获取2D单视差图像的像素单元信息包括：

将所述2D单视差图像分割为多个大小相同的像素块；

对各个像素块进行高斯模糊处理获取像素单元信息；

其中，所述像素单元信息包括各个像素块经过高斯模糊后的中心像素的深度值。

可选地，所述利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息包括：

利用VGG16深度卷积神经网络根据所述像素单元信息获取与所述2D单视差图像对应的多维度的特征图。

可选地，所述获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系包括：

利用线性条件随机场获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系。

可选地，所述根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络包括：

根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络的第二部分，经过前向传播、反向传播预训练所述多尺度深度全卷积神经网络的第二部分；

根据所述一元信息相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络，经过前向传播、反向传播微调整所述多尺度深度全卷积神经网络。

本发明还提出了一种基于深度学习的2D图像转3D图像的系统，该系统包括：

像素单元信息获取单元，用于获取2D单视差图像的像素单元信息；

一元信息获取单元，用于利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息；

相邻关系获取单元，用于获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系；

神经网络训练单元，用于根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络；

单元像素块预测单元，用于利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图；

3D图像获取单元，用于将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。

可选地，所述像素单元信息获取单元进一步用于：

将所述2D单视差图像分割为多个大小相同的像素块；

对各个像素块进行高斯模糊处理获取像素单元信息；

可选地，所述一元信息获取单元进一步用于:

可选地，所述相邻关系获取单元进一步用于：

可选地，所述神经网络训练单元进一步用于：

本发明提供的基于深度学习的2D图像转3D图像的方法及系统，基于传统深度卷积神经网络，构建出多尺度深度全卷积神经网络，基于单视差图像作为输入，进行深度信息估计，将深度信息输入着色器获取3D图像，避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷，实现了自动将2D图像转换为3D图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的基于深度学习的2D图像转3D图像的方法的流程示意图；

图2是本发明一个实施例的获取像素单元信息的原理图；

图3是本发明一个实施例的获取一元信息的原理图；

图4a是本发明一个实施例的预训练多尺度深度全卷积神经网络的效果图；

图4b是本发明一个实施例的微调整多尺度深度全卷积神经网络的效果图；

图5是本发明一个实施例的基于深度学习的2D图像转3D图像的系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例基于使用ImageNet图像数据库预训练好的VGG16模型进行开发，构造出全卷积深度神经网络，网络由七个卷积层构成，前五个卷积层直接采用VGG16模型中的前五层，添加了一些卷积层，以实现更深的全卷积神经网络。

图1是本发明一个实施例的基于深度学习的2D图像转3D图像的方法的流程示意图。如图1所示，本发明实施例方法包括：

S11：获取2D单视差图像的像素单元信息；

S12：利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息；

S13：获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系；

S14：根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络；

S15：利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图；

S16：将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。

本发明实施例的基于深度学习的2D图像转3D图像的方法，基于传统深度卷积神经网络，构建出多尺度深度全卷积神经网络，基于单视差图像作为输入，进行深度信息估计，将深度信息输入着色器获取3D图像，避免了现有的人工由2D单视差图像生成深度图像结果不准确、成本高的缺陷，实现了自动将2D图像转换为3D图像。

在本发明实施例的一种优选的实施方式中，与图1中的方法类似，步骤S11具体包括：

将所述2D单视差图像分割为多个大小相同的像素块；

对各个像素块进行高斯模糊处理获取像素单元信息；

图2是本发明一个实施例的获取像素单元信息的原理图。如图2所示，本发明实施例对于网络训练的目的是推断每个像素的深度在单个图像中描绘的一个场景，因此可以假设图像由大小均匀的像素区域构成。原始2D单视差图像大小比如是640×480(如图2中第一幅图)，按20×20的尺寸把原图像划分成相同大小的像素块(如图2中的第二幅图)，对各个像素块进行高斯模糊处理，再取各个像素块的中心像素的深度值，组成32×24的图像(如图2中的第三幅图)，由此得到一个方块深度值矩阵。

图1中的步骤S12具体包括：

生成一元信息的前部分网络结构(即多尺度深度全卷积神经网络的第一部分)由五个卷积层(conv)和最大池化层(Max-pooling)交替构成，如图2所示，具体流程如下：

第一层：卷积层conv_1，卷积核大小为3×3，步长stride为1；

第二层：最大池化层，池化区间为2×2，步长stride为2；

第三层：卷积层conv_2，卷积核大小为3×3，步长stride为1；

第四层：最大池化层，池化区间为2×2，步长stride为2；

第五层：卷积层conv_3，卷积核大小为3×3，步长stride为1；

第六层：最大池化层，池化区间为2×2，步长stride为2；

第七层：卷积层conv_4，卷积核大小为3×3，步长stride为1；

第八层：最大池化层，池化区间为2×2，步长stride为2；

第九层：卷积层conv_5，卷积核大小为3×3，步长stride为1；

第十层：最大池化层，池化区间为2×2，步长stride为2。

通过前部分全卷积神经网络，将尺寸为480×640，维度为3的输入图像提取为尺寸为32×42，维度为512的特征图。

图1中的步骤S13具体包括：

需要说明的是，本发明实施例将深度卷积神经网络与连续条件随机场(CRF)进行结合，解决了深度连续性问题。在对图像进行全卷积中，虽然每个像素单元都参与计算，但是相邻像素单元间的连续性并没有得到考虑。本发明考虑到马尔可夫独立性假设，其主要观点是，对一个节点，在给定他所连接的所有节点的前提下，他与外接是独立的。也就是说，一个像素单元的连续性只与和它相邻的像素单元有关系，和其他的像素单元的关系是独立的。因此，本发明基于隐马尔可夫模型的线性条件随机场(CRF)提取输入图像相邻像素单元的颜色直方图关系、luv色彩空间关系及纹理关系，作为多尺度的一个输入，解决每个像素单元和其相邻像素单元的特征连续性问题，构建出多尺度深度全卷积神经网络。

图1中的步骤S14具体包括：

后部分网络(即多尺度深度全卷积神经网络的第二部分)的具体结构如下：

第一层：卷积层conv_1，卷积核大小为3×3，步长stride为1；

第二层：卷积层conv_2，卷积核大小为3×3，步长stride为1；

第三层：单元像素池化层，将尺寸为32×42维度为512的输入向量合并成1344；

第四层：卷积层conv_3，卷积核大小为1×1，步长stride为1；

第五层：卷积层conv_4，卷积核大小为1×1，步长stride为1；

第六层：逻辑层logistic，把激活函数作为逻辑函数，如下式：

f(x)＝(1+e^-x)^-1

第七层：卷积层conv_5，卷积核大小为1×1，步长stride为1；

第八层：CRF损耗层。

本发明构建的多尺度深度全卷积神经网络基于反向传播算法，将训练分为预训练(Pretrain)和微调整训练(Finetune)两个部分，在预训练中，本发明实施例首先经过VGG16的卷积层，提取输入图像的一元信息，随后将一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系进行结合，传入后面的网络。这样在提取一元信息的网络中，不需要进行反向传递，节省了修改生成一元信息的网络的权重时间。而在微调整网络中，将原图作为输入，网络进行到一元特征阶段将其他特征信息与之结合，这样，在进行反向传播中，用来生成一元信息的网络部分权重也会被修正，很好的节省了整体训练时间，提高了训练效率。

本发明实施例采用60291张单视差图像及深度信息图作为训练集(train)，10000张单视差图像及深度信息图作为检验集(val)，经过预训练20轮(如图4a)，微调整训练15轮(如图4b)后，错误率(regressionerror)降到10以下，并没有发生过拟合现象。

本发明实施例网络训练中采用反向传播算法，在前向传播中，网络训练的误差采用平方误差代价函数进行评定，在取得总误差后，对误差进行平均，可以得到每轮的误差率。总误差的平均值计算公式如下：

E^{N} = \frac{1}{N} \cdot \frac{1}{2} \cdot Σ_{n = 1}^{N} Σ_{k = 1}^{c} {(t_{k}^{n} - y_{k})}^{2}

其中，c代表最终输出的像素单元总数，n代表训练的总轮数，由此表示第k个像素单元在第n轮的训练后深度值，y_k表示第k个像素单元输入时的深度值，E^N表示总误差的平均值。

因为在全部训练集上的误差只是每个训练样本的误差的总和，所以只讨论对于一个误差样本的反向传播，对于第n个样本的误差计算公式如下：

E^{n} = \frac{1}{2} Σ_{k = 1}^{c} {(t_{k}^{n} - y_{k})}^{2} = \frac{1}{2} | | t^{n} - y | |_{2}^{2}

一般，为了在梯度下降过程中增加收敛性，数据集数据先进性归一化处理。根据反向传播规则计算代价损失E关于网络中每一个权值的偏导数，偏导数的计算公式如下：

x^ε＝f(u^ε)

u^ε＝W^εx^ε-1+b^ε

在反向传播中，反向传播回来的误差可以看作是每个神经元的基的灵敏度，即b变化多少，误差会随着变化多少，也就是误差对基的变化率，即导数，计算公式如下：

\frac{\partial E}{\partial b} = \frac{\partial E}{\partial u} \cdot \frac{\partial u}{\partial b} = δ

通过在每一层的误差修正神经元的权重，实现权重更新。将更新后的权重保存为训练模型。由于所以也就是说基的灵敏度和误差E对一个节点的全部输入u的导数是相等的。由于输出层每个神经元的灵敏度不同，所以用点乘来修正神经元灵敏度；反向传播计算公式如下：

δ^ε＝(W^ε+1)δ^ε+1.*(u^ε)

最后，对每个神经元δ规则进行权值更新，即对给定的神经元，得到它的输入，然后用这个神经元的δ进行缩放。以向量形式表述为，对于第i层，误差对于该层每个权值的导数是该层的输入与该层灵敏度的叉乘。然后得到偏导数乘以一个负学习率就是该层的神经元的权值更新，对于每一个权值W都有一个特定的学习率η，计算公式如下：

\frac{\partial E}{\partial W^{l}} = x^{l - 1} {(δ^{l})}^{T}

{ΔW}^{l} = - η \frac{\partial E}{\partial W^{l}}

本发明实施例利用训练网络训练出的网络模型，将原始2D图像作为输入，从网络第一层开始逐层前进，直至网络最后一层，输出深度图。由于采用了单元像素块的方式进行深度预测，预测出的深度图像信息由尺寸相等的方块像素信息构成。在实际应用中，需要将单元像素块深度图转换成平滑连续的深度图像才能进行2D转3D应用。因此，在网络预测结束后，将单元像素块深度图输入着色器(Anat Levin研究的Colorization Using Optimization)进行转换，获得转换后的深度图像。

图5是本发明一个实施例的基于深度学习的2D图像转3D图像的系统的结构示意图。如图5所示，本发明实施例的系统包括：像素单元信息获取单元51、一元信息获取单元52、相邻关系获取单元53、神经网络训练单元54、单元像素块预测单元55和3D图像获取单元56；具体地：

像素单元信息获取单元51，用于获取2D单视差图像的像素单元信息；

一元信息获取单元52，用于利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息；

相邻关系获取单元53，用于获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系；

神经网络训练单元54，用于根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络；

单元像素块预测单元55，用于利用训练好的多尺度深度全卷积神经网络预测所述2D单视差图像的单元像素块深度图；

3D图像获取单元56，用于将所述单元像素块深度图输入着色器获取所述2D单视差图像对应的3D图像。

在一种可选的实施方式中，像素单元信息获取单元51进一步用于：

将所述2D单视差图像分割为多个大小相同的像素块；

对各个像素块进行高斯模糊处理获取像素单元信息；

进一步地，一元信息获取单元52用于:

进一步地，相邻关系获取单元53用于：

进一步地，神经网络训练单元54用于：

本实施例的基于深度学习的2D图像转3D图像的系统可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的2D图像转3D图像的方法，其特征在于，包括：

获取2D单视差图像的像素单元信息；

2.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法，其特征在于，所述获取2D单视差图像的像素单元信息包括：

将所述2D单视差图像分割为多个大小相同的像素块；

对各个像素块进行高斯模糊处理获取像素单元信息；

3.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法，其特征在于，所述利用VGG16深度卷积神经网络根据所述像素单元信息获取所述2D单视差图像的一元信息包括：

4.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法，其特征在于，所述获取所述2D单视差图像的相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系包括：

5.根据权利要求1所述的基于深度学习的2D图像转3D图像的方法，其特征在于，所述根据所述一元信息、相邻像素单元的颜色直方图关系、色彩空间关系和纹理关系训练多尺度深度全卷积神经网络包括：

6.一种基于深度学习的2D图像转3D图像的系统，其特征在于，包括：

7.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统，其特征在于，所述像素单元信息获取单元进一步用于：

将所述2D单视差图像分割为多个大小相同的像素块；

对各个像素块进行高斯模糊处理获取像素单元信息；

8.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统，其特征在于，所述一元信息获取单元进一步用于:

9.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统，其特征在于，所述相邻关系获取单元进一步用于：

10.根据权利要求6所述的基于深度学习的2D图像转3D图像的系统，其特征在于，所述神经网络训练单元进一步用于：