CN110766732A - 一种鲁棒的单相机深度图估计方法 - Google Patents

一种鲁棒的单相机深度图估计方法 Download PDF

Info

Publication number
CN110766732A
CN110766732A CN201911008204.9A CN201911008204A CN110766732A CN 110766732 A CN110766732 A CN 110766732A CN 201911008204 A CN201911008204 A CN 201911008204A CN 110766732 A CN110766732 A CN 110766732A
Authority
CN
China
Prior art keywords
monocular
layer
neural network
camera
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911008204.9A
Other languages
English (en)
Inventor
周科洋
李华兵
杨恺伦
项凯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Lingxiang Technology Co Ltd
Original Assignee
Hangzhou Lingxiang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Lingxiang Technology Co Ltd filed Critical Hangzhou Lingxiang Technology Co Ltd
Priority to CN201911008204.9A priority Critical patent/CN110766732A/zh
Publication of CN110766732A publication Critical patent/CN110766732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种鲁棒的单相机深度图估计方法,该方法输入双目相机采集的m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图,通过视差disparity与深度depth一一对应关系,最终得到单目深度预测图。该方法只需要单个RGB相机就能实时输出RGB图像对应的深度图信息,具有实时性高、针对不同场景鲁棒性好、不需要额外器件的优点。

Description

一种鲁棒的单相机深度图估计方法
技术领域
本发明属于预测深度技术、立体视觉技术、图像处理技术、计算机视觉技术领域,涉及一种使用单目相机的预测深度方法。
背景技术
深度信息作为图像的一个重要而基本的部分,是将二维平面信息转化成三维立体信息,进而重建高质量三维场景的一个重要线索。深度预测技术已经广泛应用于无人驾驶,立体视觉传感器,障碍物检测等领域。
深度信息一般需要双目或者多目相机获取不同视角的彩色图片对,通过匹配算法预测深度。但此方法存在一定缺点,例如需要控制收集彩色图对的所有相机具有相同的参数,也需要进行精确标定。同时,双目或者多目匹配的深度预测结果,还无法满足现有的精度和鲁棒性要求。此外,双目或者多目相机的预测深度装置,不适合集成化和小型化的应用场景。
发明内容
本发明的目的在于针对现有技术的不足,提供一种鲁棒的单目相机深度图估计方法。
本发明的目的是通过以下技术方案实现的:一种鲁棒的单目相机深度图估计方法,该方法为,将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图,通过视差disparity与深度depth一一对应关系:
Figure BDA0002243403610000011
最终得到单目深度预测图。其中,神经网络的训练过程如下:
1、使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像,其中m大于20000,采集图像过程需要在n个不同场景下进行采集,其中n大于30;双目相机的两摄像头连线应始终保持水平,且内部物理参数应完全相同。
2、利用双目相机采集的m对彩色图像进行神经网络模型训练。其中,神经网络模型输入为采集的彩色图像(分辨率为512×256),输出为对应单目视差预测。训练时,输入m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示,其中,最后一层(第18层)为输出的单目视差预测图。
层号 类型 输出特征图维数 输出特征图分辨率
1 下采样层 16 256×128
2 一维分解瓶颈层 16 256×128
3 一维分解瓶颈层 16 256×128
4 下采样层 64 128×64
5 一维分解瓶颈层 64 128×64
6 一维分解瓶颈层 64 128×64
7 下采样层 256 64×32
8 一维分解瓶颈层(扩张卷积率2) 256 64×32
9 一维分解瓶颈层(扩张卷积率4) 256 64×32
10 一维分解瓶颈层(扩张卷积率8) 256 64×32
11 一维分解瓶颈层(扩张卷积率16) 256 64×32
12a 第11层输出的原始特征图下采样 64 32×16
12b 第11层输出的原始特征图下采样 64 16×8
12c 第11层输出的原始特征图下采样 64 8×4
12d 第11层输出的原始特征图全局池化 64 1×1
12e 第12a-12d层的上采样和级联 256 64×32
13a 第3层输出的原始特征图全局池化 1 256×128
13b 第6层输出的原始特征图全局池化 1 128×64
14 第12e层上采样 64 128×64
15 第14层和第6层按第13b层加权求和 64 128×64
16 第15层上采样 16 256×128
17 第16层和第3层按第13a层加权求和 16 256×128
18 第17层上采样 1 512×256
进一步地,所述一维分解瓶颈层使用3×3卷积核与1×1扩张卷积核进行串联运算,运算结果与输入张量进行残差链接,最后采用线性整流函数ReLU作为激活函数,构成一维分解瓶颈层的整体。
进一步地,网络的8到11层的一维分解瓶颈层采用扩张卷积完成,扩张卷积率分别为2,4,8,16。
进一步地,所述下采样层通过使用3×3卷积和平均池化结果进行拼接,得到最终的下采样特征图。
进一步地,所述上采样层采用双线性插值与3×3卷积级联,得到最终的上采样特征图。
进一步地,网络的13a,13b层为所述全局池化层,通过Sigmoid激活函数归一化为0-1之间,最终作为加权权重来选择性传递原始特征图。
本发明相比以往的深度信息获取方式优势主要在于:
1、输出深度信息精度高、稠密度好。本发明采用了深度学习技术,通过神经网络来预测视差信息,进而得到与输入彩色RGB图像相同分辨率的深度信息。同时,本发明的神经网络结构设计为级联结构,并且加入了采用注意力机制控制的跳跃连接结构,使得最终得到精度和平滑度均表现较好的深度信息图。此外,本发明还可对匹配算法计算有误或较大噪声的区域进行有效的深度信息预测,从而支持高分辨率的深度信息输出。
2、输出深度信息鲁棒性好。本发明在神经网络训练方式中选择了非监督式训练。网络先输出视差信息作为过渡,最后得到预测的深度信息。本发明所使用的训练方式,能够更好地使网络学习到遮挡和透视关系,有效减少了过拟合的现象,在实际场景的RGB图像上也取得了较好的深度预测结果。
3、实时性高。本发明的神经网络模型采用了参数量较小的一维分解瓶颈层进行级联,用于对特征图的提取,节省了普通残差连接层带来的额外计算量,可以支持高实时性的深度信息预测。
4、采集数据成本小。本发明选择了非监督式训练,训练过程的数据集只需要左右RGB图像对,无需真实深度图。本发明对训练数据集的要求,降低了人工标注和额外数据的数量和要求,能够简化网络的训练过程。
5、价格低廉。本发明在实时单目相机深度信息预测时,只需要一个彩色相机和一个小型处理器,相比以往的深度信息获取方法需要多个彩色相机,节省了器件和成本。
附图说明
图1为彩色图;
图2为使用单目相机的预测深度图;
图3为使用双目相机的预测深度图;
图4为一维分解瓶颈层示意图;
图5为注意力机制控制的跳跃连接示意图;
图6为下采样层示意图。
具体实施方式
本发明涉及一种鲁棒的单相机深度图估计方法,该方法的核心在于一个神经网络模型,该神经网络模型训练过程中,根据左、右目的彩色图像和对应的左、右目视差预测,重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数。完成训练后,在预测过程中,只需输入单目彩色图像,网络即可输出对应的单目视差预测。神经网络模型通过以下方法获得:
①使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像,其中m大于20000,采集图像过程需要在n个不同场景下进行采集,其中n大于30;双目相机的两摄像头连线应始终保持水平,且内部物理参数应完全相同。
②利用双目相机采集的m对彩色图像进行神经网络模型训练。其中,神经网络模型输入为采集的彩色图像(分辨率为512×256),输出为对应单目视差预测。训练时,输入m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示,其中,最后一层(第18层)为输出的单目视差预测图。
其中所述一维分解瓶颈层如图4所示,使用3×3卷积核与1×1扩张卷积核进行串联运算,运算结果与输入张量进行残差链接,最后采用线性整流函数ReLU作为激活函数,构成一维分解瓶颈层的整体。这种结构可以保持较强的特征提取能力,同时有效降低参数量,加速网络推理过程。
其中所述网络的13a,13b层如图5所示,为所述全局池化层,通过Sigmoid激活函数归一化为0-1之间,最终作为加权权重来选择性传递原始特征图。这种结构可以促使网络学习有效的特征信息,降低网络过拟合的现象。
其中所述下采样层如图6所示,通过使用3×3卷积和平均池化结果进行拼接,得到最终的下采样特征图。这种结构可以融合原始输入信息和经卷积层学习后的信息,增强网络的学习能力。
其中所述上采样层采用双线性插值与3×3卷积级联,得到最终的上采样特征图。这种结构可以降低输出噪声,同时将预测图恢复至初始输入尺寸。
利用上述所得的单目视差预测图,通过视差disparity与深度depth一一对应关系:
Figure BDA0002243403610000052
最终得到单目深度预测图。
图1为RGB相机获取的单目彩色图,经本发明方法处理后得到的单目深度预测图如图2所示,对比传统匹配算法所生成的深度预测图(如图3所示),可认为本发明所述的单相机深度图估计方法更加准确、鲁棒。
本发明采用了深度学习技术,通过神经网络来预测视差信息,进而得到与输入彩色RGB图像相同分辨率的深度信息。同时,本发明的神经网络结构设计为级联结构,并且加入了采用注意力机制控制的跳跃连接结构,使得最终得到精度和平滑度均表现较好的深度信息图。此外,本发明所使用的训练方式,能够更好地使网络学习到遮挡和透视关系,有效减少了训练数据集上过拟合的现象,也降低了数据集的采集成本。

Claims (6)

1.一种鲁棒的单相机深度图估计方法,其特征为:将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图,通过视差disparity与深度depth一一对应关系:
Figure FDA0002243403600000011
最终得到单目深度预测图。其中,神经网络的训练过程如下:
①使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像,其中m大于20000,采集图像过程需要在n个不同场景下进行采集,其中n大于30;双目相机的两摄像头连线应始终保持水平,且内部物理参数应完全相同。
②利用双目相机采集的m对彩色图像进行神经网络模型训练。其中,神经网络模型输入为采集的彩色图像(分辨率为512×256),输出为对应单目视差预测。训练时,输入m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示,其中,最后一层(第18层)为输出的单目视差预测图。
Figure FDA0002243403600000012
Figure FDA0002243403600000021
2.根据权利要求1所述的方法,其特征为:所述一维分解瓶颈层使用3×3卷积核与1×1扩张卷积核进行串联运算,运算结果与输入张量进行残差链接,最后采用线性整流函数ReLU作为激活函数,构成一维分解瓶颈层的整体。
3.根据权利要求1所述的方法,其特征为:从8到11层的一维分解瓶颈层采用扩张卷积完成,扩张卷积率分别为2,4,8,16。
4.根据权利要求1所述的方法,其特征为:所述下采样层通过使用3×3卷积和平均池化结果进行拼接,得到最终的下采样特征图。
5.根据权利要求1所述的方法,其特征为:所述上采样层采用双线性插值与3×3卷积级联,得到最终的上采样特征图。
6.根据权利要求1所述的防范,其特征为:13a,13b层的全局池化层,通过Sigmoid激活函数归一化为0-1之间,最终作为加权权重来选择性传递原始特征图。
CN201911008204.9A 2019-10-22 2019-10-22 一种鲁棒的单相机深度图估计方法 Pending CN110766732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911008204.9A CN110766732A (zh) 2019-10-22 2019-10-22 一种鲁棒的单相机深度图估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911008204.9A CN110766732A (zh) 2019-10-22 2019-10-22 一种鲁棒的单相机深度图估计方法

Publications (1)

Publication Number Publication Date
CN110766732A true CN110766732A (zh) 2020-02-07

Family

ID=69332988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911008204.9A Pending CN110766732A (zh) 2019-10-22 2019-10-22 一种鲁棒的单相机深度图估计方法

Country Status (1)

Country Link
CN (1) CN110766732A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446328A (zh) * 2020-11-27 2021-03-05 汇纳科技股份有限公司 单目深度的估计系统、方法、设备及计算机可读存储介质
CN114677422A (zh) * 2022-02-14 2022-06-28 北京极感科技有限公司 深度信息生成方法、图像虚化方法和视频虚化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805937A (zh) * 2018-05-29 2018-11-13 浙江大学 一种单相机偏振信息预测方法
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
WO2019070299A1 (en) * 2017-10-04 2019-04-11 Google Llc DEPTH ESTIMATION USING A SINGLE CAMERA
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110322499A (zh) * 2019-07-09 2019-10-11 浙江科技学院 一种基于多层特征的单目图像深度估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019070299A1 (en) * 2017-10-04 2019-04-11 Google Llc DEPTH ESTIMATION USING A SINGLE CAMERA
CN108805937A (zh) * 2018-05-29 2018-11-13 浙江大学 一种单相机偏振信息预测方法
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110322499A (zh) * 2019-07-09 2019-10-11 浙江科技学院 一种基于多层特征的单目图像深度估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAOYU REN,ET AL: "Deep Robust Single Image Depth Estimation Neural Network Using Scene Understanding" *
TOBIAS KOCH,ET AL *
TOBIAS KOCH,ET AL: "Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue", 《ARXIV》 *
李耀宇;王宏民;张一帆;卢汉清;: "基于结构化深度学习的单目图像深度估计" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446328A (zh) * 2020-11-27 2021-03-05 汇纳科技股份有限公司 单目深度的估计系统、方法、设备及计算机可读存储介质
CN112446328B (zh) * 2020-11-27 2023-11-17 汇纳科技股份有限公司 单目深度的估计系统、方法、设备及计算机可读存储介质
CN114677422A (zh) * 2022-02-14 2022-06-28 北京极感科技有限公司 深度信息生成方法、图像虚化方法和视频虚化方法

Similar Documents

Publication Publication Date Title
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN112435282B (zh) 一种基于自适应候选视差预测网络的实时双目立体匹配方法
CN112308200B (zh) 神经网络的搜索方法及装置
CN112634341B (zh) 多视觉任务协同的深度估计模型的构建方法
US20180231871A1 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN115205489A (zh) 一种大场景下的三维重建方法、系统及装置
CN111508013B (zh) 立体匹配方法
CN113077505B (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN112750201B (zh) 三维重建方法及相关装置、设备
CN113592026A (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN113283525A (zh) 一种基于深度学习的图像匹配方法
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
CN112651423A (zh) 一种智能视觉系统
Zhou et al. Mvsalnet: Multi-view augmentation for rgb-d salient object detection
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN113963117A (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN110766732A (zh) 一种鲁棒的单相机深度图估计方法
CN113066018A (zh) 一种图像增强方法及相关装置
CN115035171A (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN117635801A (zh) 基于实时渲染可泛化神经辐射场的新视图合成方法及系统
WO2021057091A1 (zh) 视点图像处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination