CN107492122A

CN107492122A - 一种基于多层深度平面的深度学习视差估计方法

Info

Publication number: CN107492122A
Application number: CN201710597329.4A
Authority: CN
Inventors: 胡勇; 陈鹏; 严柯; 王鹏; 桑新柱; 陈铎; 荆路友; 李超; 李永瑞
Original assignee: Shenzhen Advanced Video Info-Tech Co Ltd
Current assignee: Shenzhen Advanced Video Info-Tech Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-12-19

Abstract

本发明提供一种基于多层深度平面的深度学习视差估计方法，包括如下步骤：通过N层像素平移构建N层深度平面，所述N为大于1的自然数；通过网络搭建，得到每一层的视差图像的概率；每一层的视差图像概率求和。采用了深度学习网络求解视差，可以从数学上可以求解，以保证求取深度的结果最优。

Description

一种基于多层深度平面的深度学习视差估计方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于多层深度平面的深度学习视差估计方法。

背景技术

深度检测是计算机视觉中一个重要问题，利用两个摄像头得到左右图像，通过SAD等算法以检测出相关场景图像深度。两个内参相同的相机拍摄同一个三维物点P，矫正后，P分别成像在x_left和x_right上。将两相机光轴重叠，可以得到以下计算公式：

其中，d为视差，f为焦距，Z为深度，S为两光轴之间的距离。根据上式视差与深度成反比，视差越大，深度越小，物点越靠近摄像机。根据视差可以得到三维物点的深度，而按照深度反投影，就可以得到原始的三维场景。可见，视差的精确程度决定了三维深度的好坏。为了提高视差的精度，研究者们创建了一系列的方法，这些统称为视差估计方法。

对于传统的视差估计方法，如果采用最基本的SAD匹配，目前这些传统方法依旧存在较大的不准确性。目前，仍然没有一种精度较高的视差估计方法。

发明内容

本发明为了解决现有技术中视差估计方法精度不高问题，提供一种基于多层深度平面的深度学习视差估计方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种基于多层深度平面的深度学习视差估计方法，包括如下步骤：S1：通过N层像素平移构建N层深度平面，所述N为大于1的自然数；S2：通过网络搭建，得到每一层的视差图像的概率；S3：每一层的视差图像概率求和。

优选地，所述步骤S1中N的取值不大于图像宽度大小的25％。

优选地，所述步骤S2中网络搭建采用卷积层，所述卷积层为2-10个。

优选地，所述步骤S2中网络搭建输入6个特征，输出1个特征，每个卷积层的特征不超过128个，每个卷积核的大小不超过16*16。

优选地，所述步骤S3中视差图像概率求和的公式为：其中i是层数，p_i是第i层对应的视差图像的概率。

优选地，还包括采用ADAM对视差图像的概率进行梯度优化。

优选地，学习率的步长不大于0.01。

本发明的有益效果为：提供一种基于多层深度平面的深度学习视差估计方法，采用了深度学习网络求解视差，可以从数学上可以求解，以保证求取深度的结果最优。

附图说明

图1是本发明实施例1中基于多层深度平面的深度学习视差估计方法示意图。

图2是本发明实施例1中构建深度平面示意图。

图3是本发明实施例1的网络搭建示意图。

图4是本发明实施例1的又一个网络搭建示意图。

图5是本发明实施例1的再一个网络搭建示意图。

图6是本发明实施例1的第三个网络搭建示意图。

图7是本发明实施例1的迭代收敛效果示意图。

图8是本发明实施例1的又一个迭代收敛效果示意图。

图9是本发明实施例1的在一个迭代收敛效果示意图。

具体实施方式

下面结合附图通过具体实施例对本发明进行详细的介绍，以使更好的理解本发明，但下述实施例并不限制本发明范围。另外，需要说明的是，下述实施例中所提供的图示仅以示意方式说明本发明的基本构思，附图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的形状、数量及比例可为一种随意的改变，且其组件布局形态也可能更为复杂。

实施例1

如图1所示，本发明一种基于多层深度平面的深度学习视差估计方法，包括如下步骤：

(1)通过N层像素平移构建N层深度平面，N为大于1的自然数；

如图2所示，采用左右两个内参相同的相机拍摄同一个场景，右图内容相对于左图内容比较偏向于左边，所以将右图向左移动可以与左图相匹配。将左图堆叠为N层。右图每一个像素成为一张新图像并与其余图像堆叠，可以得到N层具有N个像素视差深度平面。

在本发明的一种变通实施例中，图像宽度大小为1920时，N的取值最大为480；当图像宽度为1080时，N的取值最大为270，N的取值不大于图像宽度大小的25％。

S2：通过网络搭建，得到每一层的视差图像的概率；

如图3所示，基于CNN原理搭建了一个学习深度的网络，里面主要采用卷积层，可以采用4个卷积层，每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联，具有6个特征的图像作为输入，第一个卷积层是6个特征变64个特征，卷积核为5*5；第二个卷积层为64个特征变32个特征，卷积核为3*3；第三个卷积层为32个特征变24个特征，卷积核为3*3；第四个卷积层为24个特征变1个特征，卷积核为3*3。

如图4所示，在本发明的又一个变通实施例中，搭建一个学习深度的网络，里面主要采用卷积层，可以采用2个卷积层，每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联，具有6个特征的图像作为输入，第一个卷积层是6个特征变128个特征，卷积核为5*5；第二个卷积层为128个特征变1个特征，卷积核为3*3。

如图5所示，在本发明的再一个变通实施例中，搭建一个学习深度的网络，里面主要采用卷积层，可以采用2个卷积层，每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联，具有6个特征的图像作为输入，第一个卷积层是6个特征变128个特征，卷积核为16*16；第二个卷积层为128个特征变1个特征，卷积核为9*9；作为一种变通，具有6个特征的图像作为输入，第一个卷积层是6个特征变128个特征，卷积核为5*5；第二个卷积层为128个特征变1个特征，卷积核为3*3。

如图6所示，在本发明的第三个变通实施例中，搭建一个学习深度的网络，里面主要采用卷积层，可以采用10个卷积层，每个卷积层后面都带有一个RELU层。左图RGB及右图RGB级联，具有6个特征的图像作为输入，第一个卷积层是6个特征变64个特征，卷积核为16*16；第二个卷积层为64个特征变56个特征，卷积核为12*12；第三个卷积层为56个特征变48个特征，卷积核为8*8；第四个卷积层为48个特征变40个特征，卷积核为5*5；第五个卷积层是40个特征变32个特征，卷积核为5*5；第六个卷积层为32个特征变24个特征，卷积核为5*5；第七个卷积层为24个特征变24个特征，卷积核为3*3；第八个卷积层为24个特征变16个特征，卷积核为3*3；第九个卷积层为16个特征变8个特征，卷积核为3*3；第十个卷积层为8个特征变1个特征，卷积核为3*3。

网络搭建输入6个特征，输出1个特征，每个卷积层的特征不超过128个，每个卷积核的大小不超过16*16。

(3)每一层的视差图像概率求和，视差图像概率求和的公式为：其中i是层数，p_i是第i层对应的视差图像的概率。每一个深度学习网络都可以处理一个深度平面得到相应概率。那么多层深度平面分别乘以当前视差并求和，则可以得到最终目标视差图像

(4)为了保证效果，本发明的方法还包括采用ADAM对视差图像的概率进行梯度优化。

在深度学习中，可以采用ADAM进行梯度优化，beta1为0.9，beta2为0.999。

如图7所示，学习率的步长为0.01时，收敛抖动过大，不易拟合。

如图8所示，学习率的步长为0.005是，收敛效果较好。

如图9所示，学习率的步长为0.0001时，收敛速度过慢。

本发明采用第一个深度学习网络计算的视差结果与标准视差图进行比较，错误率为17％，正确率83％；采用第二个深度学习网络，错误率为23％，正确率77％；采用第三个深度学习网络，错误率为25％，正确率75％；采用第四个深度学习网络，错误率为24％，正确率76％；相比而言，传统算法的错误率为75％，正确率为25％。视差求解的正确率提升明显。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于多层深度平面的深度学习视差估计方法，其特征在于，包括如下步骤：

S1：通过N层像素平移构建N层深度平面，所述N为大于1的自然数；

S2：通过网络搭建，得到每一层的视差图像的概率；

S3：每一层的视差图像概率求和。

2.如权利要求1所述的基于多层深度平面的深度学习视差估计方法，其特征在于，所述步骤S1中N的取值不大于图像宽度大小的25％。

3.如权利要求1所述的基于多层深度平面的深度学习视差估计方法，其特征在于，所述步骤S2中网络搭建采用卷积层，所述卷积层为2-10个。

4.如权利要求3所述的基于多层深度平面的深度学习视差估计方法，其特征在于，所述步骤S2中网络搭建输入6个特征，输出1个特征，每个卷积层的特征不超过128个，每个卷积核的大小不超过16*16。

5.如权利要求1所述的基于多层深度平面的深度学习视差估计方法，其特征在于，所述步骤S3中视差图像概率求和的公式为：其中i是层数，p_i是第i层对应的视差图像的概率。

6.如权利要求1所述的基于多层深度平面的深度学习视差估计方法，其特征在于，还包括采用ADAM对视差图像的概率进行梯度优化。

7.如权利要求5所述的基于多层深度平面的深度学习视差估计方法，其特征在于，学习率的步长不大于0.01。