CN106600650A - 一种基于深度学习的双目视觉深度信息获取方法 - Google Patents
一种基于深度学习的双目视觉深度信息获取方法 Download PDFInfo
- Publication number
- CN106600650A CN106600650A CN201611139279.7A CN201611139279A CN106600650A CN 106600650 A CN106600650 A CN 106600650A CN 201611139279 A CN201611139279 A CN 201611139279A CN 106600650 A CN106600650 A CN 106600650A
- Authority
- CN
- China
- Prior art keywords
- picture
- training
- image
- deep learning
- binocular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习的双目视觉深度信息获取方法,属于立体视觉技术领域,该方法包括以下步骤:步骤1:训练数据的获取;步骤2:标注原始数据集,生成训练数据;步骤3:对获取的图像和深度信息进行深度学习网络训练;步骤4:获得深度图输出;本发明是计算双目左右图像相互关联的亮度信息,利用大量的图像和深度信息进行训练和学习,获得双目图像的视差的数据模型,并在实际获取双目信息之后,根据训练的模型,快速准确的获得当前场景的立体信息,从而成功获取深度。该方法将深度获取的计算量转移到训练过程,硬件轻量化,无需激光与能量,成本较低,简单易用,方便进行扩展。本发明无需发出主动能量,且适用于室内和世外的场景。
Description
技术领域
本发明属于立体视觉技术领域,尤其涉及一种基于深度学习的双目视觉深度信息获取方法。
背景技术
近年来,深度信息在传感器中获得了越来越多的应用。获取深度信息的技术主要有双目立体匹配、TOF(Time of Flight,飞行时间)、单目结构光、激光雷达等技术。这些技术可以为传感器增加额外的深度信息,在图像识别与处理、场景理解、VR、AR和机器人等领域有着广泛的应用。然而,当前市面上的主流产品依旧有各自的使用范围和局限性。比如,微软的Kinect(TOF)只能在室内和有限光照的室外场景中使用,而且距离的局限性较大;单目结构光技术需要发出主动能量,同样不适用于室外光照较强的场景;双目立体匹配技术属于计算机立体视觉领域,此技术虽然适用于室内和室外,然而在处理纹理缺失时效果不佳,而且存在精确定焦、计算时间等问题;激光雷达等设备价格相对昂贵,且大部分只能获取二维平面的深度信息。
发明内容
针对上述不足,本发明提供一种基于深度学习的双目视觉深度信息获取方法,本发明的核心是计算双目左右图像相互关联的亮度(色彩)信息,利用大量的图像和深度信息进行训练和学习,获得双目图像的视差的数据模型,并在实际获取双目信息之后,根据训练的模型,快速准确的获得当前场景的立体信息,从而成功获取深度。
为了达到上述目的,本发明所采用的技术方案如下:一种基于深度学习的双目视觉深度信息获取方法,包括如下步骤:
步骤1:训练数据的获取;
首先,获取N对双目视觉系统拍摄的图片对{Pi|i=1,2,…,N},每个图片对Pi包括左侧相机拍摄的左图和右侧相机拍摄的右图其中上标i代表图片次序;同时获取与每个图片对Pi对应的深度图Di;将图片对和每个图片对Pi对应的深度图构成原始的数据集{Pi,Di|i=1,2,…,N};
步骤2:标注原始数据集,生成训练数据;
每幅深度图Di上选取M个特征像素点{DPi(xj,yj,zj)|j=1,2,…,M},并分别在左右图中 找出其对应的像素点的坐标{PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M};每个图像对Pi上包含M组数据{DPi(xj,yj,zj),PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M};总共的训练样本有M×N组;
步骤3:对获取的图像和深度信息进行深度学习网络训练;
利用M×N组数据{DPi(xj,yj,zj),PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M}以及原始的左右图像数据{Pi|i=1,2,…,N},进行深度学习网络训练,得到网络模型Modelx;
以每个左右图对应点PTleft(xj,yj),PTright(xj,yj)为中心,截取宽高分别为Wx,Wy的图片对,将截取的图片对与对应点的图像坐标 作为深度学习网络输入,其对应的深度信息三维坐标{DPi(xj,yj,zj)|j=1,2,…,M,i=1,2,…,N}作为监督输出;
步骤4:获得深度图输出;
对双目相机拍摄的图片对以每个左右图对应点为中心,截取宽高分别为Wx,Wy的图片对,将截取的图片对与对应点的图像坐标CPleft(x,y),CPright(x,y)输入到步骤(3)训练得到的网络模型Modelx中,从而获得对应的深度图输出。
进一步的,左右图对应点的确定方法如下:
从左图上任取一点,以该点位中心,切出n×n大小的图像片;采用NCC算法在右图中查找对应点;如果出现大于一个匹配峰值,加大n重新匹配,直至获取唯一的匹配峰值。
本发明的有益效果如下:本发明的核心是计算双目左右图像相互关联的亮度(色彩)信息,利用大量的图像和深度信息进行训练和学习,获得双目图像的视差的数据模型,并在实际获取双目信息之后,根据训练的模型,快速准确的获得当前场景的立体信息,从而成功获取深度。该方法利用深度学习获取深度信息,将深度获取的计算量转移到训练过程,硬件轻量化,无需激光与能量,成本较低,简单易用,方便进行扩展。本发明无需发出主动能量,且适用于室内和世外的场景。
附图说明
图1是双目相机和深度相机位置配置;
图2是深度图;
图3(a)是双目一侧输出图,图3(b)是双目另一侧输出图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
本实施例提供一种基于深度学习的双目立体信息获取方法,具体的实现方法如下步骤:步骤1:获取双目图片和深度图片。获取N对双目视觉系统拍摄的图片对{Pi|i=1,2,…,N},每个图片对包括左侧相机拍摄的左图和右侧相机拍摄的右图其中上标i代表图片次序。同时获取每个图片对Pi所对应的深度图Di。{Pi,Di|i=1,2,…,N}构成原始的数据集。
本发明采集数据的深度相机采用微软Kinect(采用TOF-飞行时间技术)。采集时尽可能和双目相机靠近,并且保证中心位置对齐,位置配置如图1所示,图中虚线为相机中心线,上方为双目相机,下方为深度相机Kinect,下方的三个圆孔从左至右依次是Kinect红外相机,彩色相机、激光投影。所拍摄的深度图和双目左右图例子如图2、图3(a)和图3(b)所示。
步骤2:标注原始数据集,生成训练数据。每幅深度图Di上选取M个特征像素点{DPi(xj,yj,zj)|j=1,2,…,M},(可以选择SIFT、FAST等特征)并分别在左右图中找出点DPi(xj,yj,zj)对应的像素点的二维坐标{PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M}。每个图像对上的M组数据{DPi(xj,yj,zj),PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M}。总共的训练样本有M×N组。
其中,确定这M个左右图和深度图点组采用自动方法完成,考虑到自动匹配点查找存在错误和失败,将利用RANSAC方法进行去噪,且对所有的点进行人工检查和校正错误;左右图和深度之间的点的对应关系参照文献[M]马颂德,张正友,计算机视觉,科学出版社,1998年1月中的第三章校准算法自动生成;M的大小可以根据总的图像对原始据量N来确定,以保证最终的训练数据M×N至少达到深度神经网络参数2倍以上的数量。
步骤3:利用M×N组输入具有代表性的像素数据{DPi(xj,yj,zj),PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M}以及原始的左右图数据,进行深度学习网络训练,得到网络模型Modelx;其中,以每个左右图对应点为中心,截取宽高分别为Wx,Wy的图片对,将截图的图片对和对应点的图像坐标 作为深度学习网络输入,其对应的深度信息坐标{DPi(xj,yj,zj)|j=1,2,…,M,i=1,2,…,N}作为监督输出;Wx,Wy分别取图像的宽和高;左右图像片按零均值、单位方差的方法进行归一化,中心点在原始图像中 的坐标也除以原始图像的宽和高,分别归一化到0到1之间。网络使用Caffe中的孪生网络(Siamese网络模型)进行训练,具体参考Caffe的使用说明,参见http://caffe.berkeleyvision.org/。
步骤4:基于步骤(3)训练得到的网络模型Modelx,输入一对双目相机拍摄的图片对,获得对应的深度图输出。
输入网络模型Modelx前,需要对双目相机拍摄的图片对进行下面处理:
以每个左右图对应点为中心,截取宽高分别为Wx,Wy的图片对,将截取的图片对和对应点的图像坐标CPleft(x,y),CPright(x,y),作为深度学习网络输入,输出即为该对对应点的空间坐标。其中,左右图对应点的确定方法为:从左图上任取一点,以该点位中心,切出n×n大小的图像片。本实例,n取9;采用NCC算法在右图中查找对应点,其中NCC参见文献:杨通钰,彭国华,基于NCC的图像匹配快速算法,现代电子技术书,2010,22期108-109页;如果出现大于一个匹配峰值,加大n重新匹配,直至获取唯一的匹配峰值;计算过程可采用GPU进行加速。
本发明双目采集到的左右图像数据采用的是灰度图信息,也可以采用RGB色彩图进行归一化训练。
Claims (2)
1.一种基于深度学习的双目视觉深度信息获取方法,其特征在于,包括如下步骤:
步骤1:训练数据的获取;
首先,获取N对双目视觉系统拍摄的图片对{Pi|i=1,2,…,N},每个图片对Pi包括左侧相机拍摄的左图和右侧相机拍摄的右图其中上标i代表图片次序;同时获取与每个图片对Pi对应的深度图Di;将图片对和每个图片对Pi对应的深度图构成原始的数据集{Pi,Di|i=1,2,…,N}。
步骤2:标注原始数据集,生成训练数据;
每幅深度图Di上选取M个特征像素点{DPi(xj,yj,zj)|j=1,2,…,M},并分别在左右图中找出其对应的像素点的坐标{PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M};每个图像对Pi上包含M组数据{DPi(xj,yj,zj),PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M};总共的训练样本有M×N组。
步骤3:对获取的图像和深度信息进行深度学习网络训练;
利用M×N组数据{DPi(xj,yj,zj),PTleft(xj,yj),PTright(xj,yj)|j=1,2,…,M}以及原始的左右图像数据{Pi|i=1,2,…,N},进行深度学习网络训练,得到网络模型Modelx;
以每个左右图对应点PTleft(xj,yj),PTright(xj,yj)为中心,截取宽高分别为Wx,Wy的图片对,将截取的图片对与对应点的图像坐标 作为深度学习网络输入,其对应的深度信息三维坐标{DPi(xj,yj,zj)|j=1,2,…,M,i=1,2,…,N}作为监督输出。
步骤4:获得深度图输出;
对双目相机拍摄的图片对以每个左右图对应点为中心,截取宽高分别为Wx,Wy的图片对,将截取的图片对与对应点的图像坐标CPleft(x,y),CPright(x,y)输入到步骤(3)训练得到的网络模型Modelx中,从而获得对应的深度图输出。
2.根据权利要求1所述的基于深度学习的双目视觉深度信息获取方法,其特征在于,左右图对应点的确定方法如下:
从左图上任取一点,以该点位中心,切出n×n大小的图像片;采用NCC算法在右图中查找对应点;如果出现大于一个匹配峰值,加大n重新匹配,直至获取唯一的匹配峰值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611139279.7A CN106600650A (zh) | 2016-12-12 | 2016-12-12 | 一种基于深度学习的双目视觉深度信息获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611139279.7A CN106600650A (zh) | 2016-12-12 | 2016-12-12 | 一种基于深度学习的双目视觉深度信息获取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106600650A true CN106600650A (zh) | 2017-04-26 |
Family
ID=58599428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611139279.7A Pending CN106600650A (zh) | 2016-12-12 | 2016-12-12 | 一种基于深度学习的双目视觉深度信息获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106600650A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992848A (zh) * | 2017-12-19 | 2018-05-04 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
CN108230384A (zh) * | 2017-11-28 | 2018-06-29 | 深圳市商汤科技有限公司 | 图像深度计算方法、装置、存储介质和电子设备 |
CN108537836A (zh) * | 2018-04-12 | 2018-09-14 | 维沃移动通信有限公司 | 一种深度数据获取方法及移动终端 |
CN108961328A (zh) * | 2017-11-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 单摄景深模型生成方法、生成装置及电子设备 |
CN109118532A (zh) * | 2017-06-23 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 视觉景深估计方法、装置、设备及存储介质 |
CN109146937A (zh) * | 2018-08-22 | 2019-01-04 | 广东电网有限责任公司 | 一种基于深度学习的电力巡检影像密集匹配方法 |
CN109472830A (zh) * | 2018-09-28 | 2019-03-15 | 中山大学 | 一种基于无监督学习的单目视觉定位方法 |
CN109615652A (zh) * | 2018-10-23 | 2019-04-12 | 西安交通大学 | 一种深度信息获取方法及装置 |
CN110207951A (zh) * | 2019-05-23 | 2019-09-06 | 北京航空航天大学 | 一种基于视觉的飞机线缆支架装配状态检测方法 |
WO2019192290A1 (zh) * | 2018-04-04 | 2019-10-10 | 腾讯科技(深圳)有限公司 | 一种深度信息确定的方法及相关装置 |
CN110378176A (zh) * | 2018-08-23 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 基于双目相机的物体标识方法、系统、设备和存储介质 |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN110618678A (zh) * | 2018-06-19 | 2019-12-27 | 辉达公司 | 自主机器应用中的行为引导路径规划 |
CN112098092A (zh) * | 2020-09-11 | 2020-12-18 | 北京航空航天大学 | 一种结合深度学习和机器视觉的滚动轴承振动测量方法 |
CN113014899A (zh) * | 2019-12-20 | 2021-06-22 | 杭州海康威视数字技术股份有限公司 | 一种双目图像的视差确定方法、装置及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156987A (zh) * | 2011-04-25 | 2011-08-17 | 深圳超多维光电子有限公司 | 获取场景深度信息的方法及装置 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
-
2016
- 2016-12-12 CN CN201611139279.7A patent/CN106600650A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156987A (zh) * | 2011-04-25 | 2011-08-17 | 深圳超多维光电子有限公司 | 获取场景深度信息的方法及装置 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
Non-Patent Citations (2)
Title |
---|
田维军等: "基于深度学习的无参考立体图像质量评价", 《计算机辅助设计与图形学学报》 * |
石波: "基于小波相位基元的机器人双目视觉深度信息获取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118532B (zh) * | 2017-06-23 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 视觉景深估计方法、装置、设备及存储介质 |
CN109118532A (zh) * | 2017-06-23 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 视觉景深估计方法、装置、设备及存储介质 |
CN108230384B (zh) * | 2017-11-28 | 2021-08-24 | 深圳市商汤科技有限公司 | 图像深度计算方法、装置、存储介质和电子设备 |
CN108230384A (zh) * | 2017-11-28 | 2018-06-29 | 深圳市商汤科技有限公司 | 图像深度计算方法、装置、存储介质和电子设备 |
CN108961328A (zh) * | 2017-11-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 单摄景深模型生成方法、生成装置及电子设备 |
CN107992848A (zh) * | 2017-12-19 | 2018-05-04 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
CN107992848B (zh) * | 2017-12-19 | 2020-09-25 | 北京小米移动软件有限公司 | 获取深度图像的方法、装置及计算机可读存储介质 |
WO2019192290A1 (zh) * | 2018-04-04 | 2019-10-10 | 腾讯科技(深圳)有限公司 | 一种深度信息确定的方法及相关装置 |
US11145078B2 (en) | 2018-04-04 | 2021-10-12 | Tencent Technology (Shenzhen) Company Limited | Depth information determining method and related apparatus |
CN108537836A (zh) * | 2018-04-12 | 2018-09-14 | 维沃移动通信有限公司 | 一种深度数据获取方法及移动终端 |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
US11966838B2 (en) | 2018-06-19 | 2024-04-23 | Nvidia Corporation | Behavior-guided path planning in autonomous machine applications |
CN110618678A (zh) * | 2018-06-19 | 2019-12-27 | 辉达公司 | 自主机器应用中的行为引导路径规划 |
CN109146937A (zh) * | 2018-08-22 | 2019-01-04 | 广东电网有限责任公司 | 一种基于深度学习的电力巡检影像密集匹配方法 |
CN110378176A (zh) * | 2018-08-23 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 基于双目相机的物体标识方法、系统、设备和存储介质 |
CN109472830A (zh) * | 2018-09-28 | 2019-03-15 | 中山大学 | 一种基于无监督学习的单目视觉定位方法 |
CN109615652A (zh) * | 2018-10-23 | 2019-04-12 | 西安交通大学 | 一种深度信息获取方法及装置 |
CN110207951B (zh) * | 2019-05-23 | 2020-09-08 | 北京航空航天大学 | 一种基于视觉的飞机线缆支架装配状态检测方法 |
CN110207951A (zh) * | 2019-05-23 | 2019-09-06 | 北京航空航天大学 | 一种基于视觉的飞机线缆支架装配状态检测方法 |
CN113014899A (zh) * | 2019-12-20 | 2021-06-22 | 杭州海康威视数字技术股份有限公司 | 一种双目图像的视差确定方法、装置及系统 |
CN112098092A (zh) * | 2020-09-11 | 2020-12-18 | 北京航空航天大学 | 一种结合深度学习和机器视觉的滚动轴承振动测量方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106600650A (zh) | 一种基于深度学习的双目视觉深度信息获取方法 | |
KR101761751B1 (ko) | 직접적인 기하학적 모델링이 행해지는 hmd 보정 | |
CN105279372B (zh) | 一种确定建筑物高度的方法和装置 | |
CN1241419C (zh) | 用于多视图合成的方法 | |
CN104036488B (zh) | 一种基于双目视觉的人体姿态动作研究方法 | |
CN113052835B (zh) | 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统 | |
CN109685913B (zh) | 基于计算机视觉定位的增强现实实现方法 | |
CN109191509A (zh) | 一种基于结构光的虚拟双目三维重建方法 | |
CN105654547B (zh) | 三维重建方法 | |
CN104599317A (zh) | 一种实现3d扫描建模功能的移动终端及方法 | |
CN108648264A (zh) | 基于运动恢复的水下场景重建方法及存储介质 | |
CN111027415B (zh) | 一种基于偏振图像的车辆检测方法 | |
CN109920000B (zh) | 一种基于多相机协同的无死角的增强现实方法 | |
CN111768449B (zh) | 一种双目视觉结合深度学习的物体抓取方法 | |
CN103971379B (zh) | 基于单摄像机等效双目立体视觉模型的泡沫立体特征提取方法 | |
CN110189294A (zh) | 基于深度可信度分析的rgb-d图像显著性检测方法 | |
CN114119739A (zh) | 一种基于双目视觉的手部关键点空间坐标获取方法 | |
CN103260043A (zh) | 基于学习的双目立体图像匹配方法及系统 | |
CN111047636B (zh) | 基于主动红外双目视觉的避障系统和避障方法 | |
CN107958489B (zh) | 一种曲面重建方法及装置 | |
CN104243970A (zh) | 基于立体视觉注意力机制和结构相似度的3d绘制图像的客观质量评价方法 | |
CN109218706B (zh) | 一种由单张图像生成立体视觉图像的方法 | |
CN108564654B (zh) | 三维大场景的画面进入方式 | |
CN108399630B (zh) | 一种复杂场景下感兴趣区域内目标快速测距方法 | |
WO2022115119A1 (en) | Three-dimensional (3d) facial feature tracking for autostereoscopic telepresence systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170426 |
|
RJ01 | Rejection of invention patent application after publication |