CN106600650A

CN106600650A - 一种基于深度学习的双目视觉深度信息获取方法

Info

Publication number: CN106600650A
Application number: CN201611139279.7A
Authority: CN
Inventors: 时岭; 高勇
Original assignee: Hangzhou Blue Core Technology Co Ltd
Current assignee: Hangzhou Blue Core Technology Co Ltd
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-04-26

Abstract

本发明公开了一种基于深度学习的双目视觉深度信息获取方法，属于立体视觉技术领域，该方法包括以下步骤：步骤1：训练数据的获取；步骤2：标注原始数据集，生成训练数据；步骤3：对获取的图像和深度信息进行深度学习网络训练；步骤4：获得深度图输出；本发明是计算双目左右图像相互关联的亮度信息，利用大量的图像和深度信息进行训练和学习，获得双目图像的视差的数据模型，并在实际获取双目信息之后，根据训练的模型，快速准确的获得当前场景的立体信息，从而成功获取深度。该方法将深度获取的计算量转移到训练过程，硬件轻量化，无需激光与能量，成本较低，简单易用,方便进行扩展。本发明无需发出主动能量，且适用于室内和世外的场景。

Description

一种基于深度学习的双目视觉深度信息获取方法

技术领域

本发明属于立体视觉技术领域，尤其涉及一种基于深度学习的双目视觉深度信息获取方法。

背景技术

近年来，深度信息在传感器中获得了越来越多的应用。获取深度信息的技术主要有双目立体匹配、TOF(Time of Flight，飞行时间)、单目结构光、激光雷达等技术。这些技术可以为传感器增加额外的深度信息，在图像识别与处理、场景理解、VR、AR和机器人等领域有着广泛的应用。然而，当前市面上的主流产品依旧有各自的使用范围和局限性。比如，微软的Kinect(TOF)只能在室内和有限光照的室外场景中使用，而且距离的局限性较大；单目结构光技术需要发出主动能量，同样不适用于室外光照较强的场景；双目立体匹配技术属于计算机立体视觉领域，此技术虽然适用于室内和室外，然而在处理纹理缺失时效果不佳，而且存在精确定焦、计算时间等问题；激光雷达等设备价格相对昂贵，且大部分只能获取二维平面的深度信息。

发明内容

针对上述不足，本发明提供一种基于深度学习的双目视觉深度信息获取方法，本发明的核心是计算双目左右图像相互关联的亮度(色彩)信息，利用大量的图像和深度信息进行训练和学习，获得双目图像的视差的数据模型，并在实际获取双目信息之后，根据训练的模型，快速准确的获得当前场景的立体信息，从而成功获取深度。

为了达到上述目的，本发明所采用的技术方案如下：一种基于深度学习的双目视觉深度信息获取方法，包括如下步骤：

步骤1：训练数据的获取；

首先，获取N对双目视觉系统拍摄的图片对{Pⁱ|i＝1,2,…,N}，每个图片对Pⁱ包括左侧相机拍摄的左图和右侧相机拍摄的右图其中上标i代表图片次序；同时获取与每个图片对Pⁱ对应的深度图Dⁱ；将图片对和每个图片对Pⁱ对应的深度图构成原始的数据集{Pⁱ，Dⁱ|i＝1,2,…,N}；

步骤2：标注原始数据集，生成训练数据；

每幅深度图Dⁱ上选取M个特征像素点{DPⁱ(x^j,y^j,z^j)|j＝1,2,…,M}，并分别在左右图中找出其对应的像素点的坐标{PT_left(x^j,y^j),PT_right(x^j,y^j)|j＝1,2,…,M}；每个图像对Pⁱ上包含M组数据{DPⁱ(x^j,y^j,z^j),PT_left(x^j,y^j),PT_right(x^j,y^j)|j＝1,2,…,M}；总共的训练样本有M×N组；

步骤3：对获取的图像和深度信息进行深度学习网络训练；

利用M×N组数据{DPⁱ(x^j,y^j,z^j),PT_left(x^j,y^j),PT_right(x^j,y^j)|j＝1,2,…,M}以及原始的左右图像数据{Pⁱ|i＝1,2,…,N}，进行深度学习网络训练，得到网络模型Modelx；

以每个左右图对应点PT_left(x^j,y^j),PT_right(x^j,y^j)为中心，截取宽高分别为W_x,W_y的图片对，将截取的图片对与对应点的图像坐标作为深度学习网络输入，其对应的深度信息三维坐标{DPⁱ(x^j,y^j,z^j)|j＝1,2,…,M，i＝1,2,…,N}作为监督输出；

步骤4：获得深度图输出；

对双目相机拍摄的图片对以每个左右图对应点为中心，截取宽高分别为W_x,W_y的图片对，将截取的图片对与对应点的图像坐标CP_left(x,y),CP_right(x,y)输入到步骤(3)训练得到的网络模型Modelx中，从而获得对应的深度图输出。

进一步的，左右图对应点的确定方法如下：

从左图上任取一点，以该点位中心，切出n×n大小的图像片；采用NCC算法在右图中查找对应点；如果出现大于一个匹配峰值，加大n重新匹配，直至获取唯一的匹配峰值。

本发明的有益效果如下：本发明的核心是计算双目左右图像相互关联的亮度(色彩)信息，利用大量的图像和深度信息进行训练和学习，获得双目图像的视差的数据模型，并在实际获取双目信息之后，根据训练的模型，快速准确的获得当前场景的立体信息，从而成功获取深度。该方法利用深度学习获取深度信息，将深度获取的计算量转移到训练过程，硬件轻量化，无需激光与能量，成本较低，简单易用,方便进行扩展。本发明无需发出主动能量，且适用于室内和世外的场景。

附图说明

图1是双目相机和深度相机位置配置；

图2是深度图；

图3(a)是双目一侧输出图，图3(b)是双目另一侧输出图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

本实施例提供一种基于深度学习的双目立体信息获取方法，具体的实现方法如下步骤：步骤1：获取双目图片和深度图片。获取N对双目视觉系统拍摄的图片对{Pⁱ|i＝1,2,…,N}，每个图片对包括左侧相机拍摄的左图和右侧相机拍摄的右图其中上标i代表图片次序。同时获取每个图片对Pⁱ所对应的深度图Dⁱ。{Pⁱ，Dⁱ|i＝1,2,…,N}构成原始的数据集。

本发明采集数据的深度相机采用微软Kinect(采用TOF-飞行时间技术)。采集时尽可能和双目相机靠近，并且保证中心位置对齐，位置配置如图1所示，图中虚线为相机中心线，上方为双目相机，下方为深度相机Kinect，下方的三个圆孔从左至右依次是Kinect红外相机，彩色相机、激光投影。所拍摄的深度图和双目左右图例子如图2、图3(a)和图3(b)所示。

步骤2：标注原始数据集，生成训练数据。每幅深度图Dⁱ上选取M个特征像素点{DPⁱ(x^j,y^j,z^j)|j＝1,2,…,M}，(可以选择SIFT、FAST等特征)并分别在左右图中找出点DPⁱ(x^j,y^j,z^j)对应的像素点的二维坐标{PT_left(x^j,y^j),PT_right(x^j,y^j)|j＝1,2,…,M}。每个图像对上的M组数据{DPⁱ(x^j,y^j,z^j),PT_left(x^j,y^j),PT_right(x^j,y^j)|j＝1,2,…,M}。总共的训练样本有M×N组。

其中，确定这M个左右图和深度图点组采用自动方法完成，考虑到自动匹配点查找存在错误和失败，将利用RANSAC方法进行去噪，且对所有的点进行人工检查和校正错误；左右图和深度之间的点的对应关系参照文献[M]马颂德，张正友，计算机视觉，科学出版社，1998年1月中的第三章校准算法自动生成；M的大小可以根据总的图像对原始据量N来确定，以保证最终的训练数据M×N至少达到深度神经网络参数2倍以上的数量。

步骤3：利用M×N组输入具有代表性的像素数据{DPⁱ(x^j,y^j,z^j),PT_left(x^j,y^j),PT_right(x^j,y^j)|j＝1,2,…,M}以及原始的左右图数据，进行深度学习网络训练，得到网络模型Modelx；其中，以每个左右图对应点为中心，截取宽高分别为W_x,W_y的图片对，将截图的图片对和对应点的图像坐标作为深度学习网络输入，其对应的深度信息坐标{DPⁱ(x^j,y^j,z^j)|j＝1,2,…,M，i＝1,2,…,N}作为监督输出；W_x,W_y分别取图像的宽和高；左右图像片按零均值、单位方差的方法进行归一化，中心点在原始图像中的坐标也除以原始图像的宽和高，分别归一化到0到1之间。网络使用Caffe中的孪生网络(Siamese网络模型)进行训练，具体参考Caffe的使用说明，参见http://caffe.berkeleyvision.org/。

步骤4：基于步骤(3)训练得到的网络模型Modelx，输入一对双目相机拍摄的图片对，获得对应的深度图输出。

输入网络模型Modelx前，需要对双目相机拍摄的图片对进行下面处理：

以每个左右图对应点为中心，截取宽高分别为W_x,W_y的图片对，将截取的图片对和对应点的图像坐标CP_left(x,y),CP_right(x,y)，作为深度学习网络输入，输出即为该对对应点的空间坐标。其中，左右图对应点的确定方法为：从左图上任取一点，以该点位中心，切出n×n大小的图像片。本实例，n取9；采用NCC算法在右图中查找对应点，其中NCC参见文献：杨通钰，彭国华，基于NCC的图像匹配快速算法，现代电子技术书，2010，22期108－109页；如果出现大于一个匹配峰值，加大n重新匹配，直至获取唯一的匹配峰值；计算过程可采用GPU进行加速。

本发明双目采集到的左右图像数据采用的是灰度图信息，也可以采用RGB色彩图进行归一化训练。

Claims

1.一种基于深度学习的双目视觉深度信息获取方法，其特征在于，包括如下步骤：

步骤1：训练数据的获取；

首先，获取N对双目视觉系统拍摄的图片对{Pⁱ|i＝1,2,…,N}，每个图片对Pⁱ包括左侧相机拍摄的左图和右侧相机拍摄的右图其中上标i代表图片次序；同时获取与每个图片对Pⁱ对应的深度图Dⁱ；将图片对和每个图片对Pⁱ对应的深度图构成原始的数据集{Pⁱ，Dⁱ|i＝1,2,…,N}。

步骤2：标注原始数据集，生成训练数据；

每幅深度图Dⁱ上选取M个特征像素点{DPⁱ(x^j，y^j，z^j)|j＝1,2,…,M}，并分别在左右图中找出其对应的像素点的坐标{PT_left(x^j，y^j),PT_right(x^j，y^j)|j＝1,2,…,M}；每个图像对Pⁱ上包含M组数据{DPⁱ(x^j，y^j，z^j),PT_left(x^j，y^j),PT_right(x^j，y^j)|j＝1,2,…,M}；总共的训练样本有M×N组。

步骤3：对获取的图像和深度信息进行深度学习网络训练；

利用M×N组数据{DPⁱ(x^j，y^j，z^j),PT_left(x^j，y^j),PT_right(x^j，y^j)|j＝1,2,…,M}以及原始的左右图像数据{Pⁱ|i＝1,2,…,N}，进行深度学习网络训练，得到网络模型Modelx；

以每个左右图对应点PT_left(x^j，y^j),PT_right(x^j，y^j)为中心，截取宽高分别为W_x,W_y的图片对，将截取的图片对与对应点的图像坐标作为深度学习网络输入，其对应的深度信息三维坐标{DPⁱ(x^j，y^j，z^j)|j＝1,2,…,M，i＝1,2,…,N}作为监督输出。

步骤4：获得深度图输出；

2.根据权利要求1所述的基于深度学习的双目视觉深度信息获取方法，其特征在于，左右图对应点的确定方法如下：