CN110766732A

CN110766732A - 一种鲁棒的单相机深度图估计方法

Info

Publication number: CN110766732A
Application number: CN201911008204.9A
Authority: CN
Inventors: 周科洋; 李华兵; 杨恺伦; 项凯特
Original assignee: Hangzhou Lingxiang Technology Co Ltd
Current assignee: Hangzhou Lingxiang Technology Co Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-07

Abstract

本发明公开了一种鲁棒的单相机深度图估计方法，该方法输入双目相机采集的m对彩色图像中左、右目的彩色图像，得到对应的左、右目视差预测，再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图；通过与真实采集的右、左彩色视图比较误差，进而迭代优化网络参数得到训练完成的神经网络模型。将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图，通过视差disparity与深度depth一一对应关系，最终得到单目深度预测图。该方法只需要单个RGB相机就能实时输出RGB图像对应的深度图信息，具有实时性高、针对不同场景鲁棒性好、不需要额外器件的优点。

Description

一种鲁棒的单相机深度图估计方法

技术领域

本发明属于预测深度技术、立体视觉技术、图像处理技术、计算机视觉技术领域，涉及一种使用单目相机的预测深度方法。

背景技术

深度信息作为图像的一个重要而基本的部分，是将二维平面信息转化成三维立体信息，进而重建高质量三维场景的一个重要线索。深度预测技术已经广泛应用于无人驾驶，立体视觉传感器，障碍物检测等领域。

深度信息一般需要双目或者多目相机获取不同视角的彩色图片对，通过匹配算法预测深度。但此方法存在一定缺点，例如需要控制收集彩色图对的所有相机具有相同的参数，也需要进行精确标定。同时，双目或者多目匹配的深度预测结果，还无法满足现有的精度和鲁棒性要求。此外，双目或者多目相机的预测深度装置，不适合集成化和小型化的应用场景。

发明内容

本发明的目的在于针对现有技术的不足，提供一种鲁棒的单目相机深度图估计方法。

本发明的目的是通过以下技术方案实现的：一种鲁棒的单目相机深度图估计方法，该方法为，将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图，通过视差disparity与深度depth一一对应关系：

最终得到单目深度预测图。其中，神经网络的训练过程如下：

1、使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像，其中m大于20000，采集图像过程需要在n个不同场景下进行采集，其中n大于30；双目相机的两摄像头连线应始终保持水平，且内部物理参数应完全相同。

2、利用双目相机采集的m对彩色图像进行神经网络模型训练。其中，神经网络模型输入为采集的彩色图像(分辨率为512×256)，输出为对应单目视差预测。训练时，输入m对彩色图像中左、右目的彩色图像，得到对应的左、右目视差预测，再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图；通过与真实采集的右、左彩色视图比较误差，进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示，其中，最后一层(第18层)为输出的单目视差预测图。

层号	类型	输出特征图维数	输出特征图分辨率
				1	下采样层	16	256×128
2	一维分解瓶颈层	16	256×128
				3	一维分解瓶颈层	16	256×128
4	下采样层	64	128×64
				5	一维分解瓶颈层	64	128×64
6	一维分解瓶颈层	64	128×64
				7	下采样层	256	64×32
8	一维分解瓶颈层(扩张卷积率2)	256	64×32
				9	一维分解瓶颈层(扩张卷积率4)	256	64×32
10	一维分解瓶颈层(扩张卷积率8)	256	64×32
				11	一维分解瓶颈层(扩张卷积率16)	256	64×32
12a	第11层输出的原始特征图下采样	64	32×16
				12b	第11层输出的原始特征图下采样	64	16×8
12c	第11层输出的原始特征图下采样	64	8×4
				12d	第11层输出的原始特征图全局池化	64	1×1
12e	第12a-12d层的上采样和级联	256	64×32
				13a	第3层输出的原始特征图全局池化	1	256×128
13b	第6层输出的原始特征图全局池化	1	128×64
				14	第12e层上采样	64	128×64
15	第14层和第6层按第13b层加权求和	64	128×64
				16	第15层上采样	16	256×128
17	第16层和第3层按第13a层加权求和	16	256×128
				18	第17层上采样	1	512×256

进一步地，所述一维分解瓶颈层使用3×3卷积核与1×1扩张卷积核进行串联运算，运算结果与输入张量进行残差链接，最后采用线性整流函数ReLU作为激活函数，构成一维分解瓶颈层的整体。

进一步地，网络的8到11层的一维分解瓶颈层采用扩张卷积完成，扩张卷积率分别为2，4，8，16。

进一步地，所述下采样层通过使用3×3卷积和平均池化结果进行拼接，得到最终的下采样特征图。

进一步地，所述上采样层采用双线性插值与3×3卷积级联，得到最终的上采样特征图。

进一步地，网络的13a，13b层为所述全局池化层，通过Sigmoid激活函数归一化为0-1之间，最终作为加权权重来选择性传递原始特征图。

本发明相比以往的深度信息获取方式优势主要在于：

1、输出深度信息精度高、稠密度好。本发明采用了深度学习技术，通过神经网络来预测视差信息，进而得到与输入彩色RGB图像相同分辨率的深度信息。同时，本发明的神经网络结构设计为级联结构，并且加入了采用注意力机制控制的跳跃连接结构，使得最终得到精度和平滑度均表现较好的深度信息图。此外，本发明还可对匹配算法计算有误或较大噪声的区域进行有效的深度信息预测，从而支持高分辨率的深度信息输出。

2、输出深度信息鲁棒性好。本发明在神经网络训练方式中选择了非监督式训练。网络先输出视差信息作为过渡，最后得到预测的深度信息。本发明所使用的训练方式，能够更好地使网络学习到遮挡和透视关系，有效减少了过拟合的现象，在实际场景的RGB图像上也取得了较好的深度预测结果。

3、实时性高。本发明的神经网络模型采用了参数量较小的一维分解瓶颈层进行级联，用于对特征图的提取，节省了普通残差连接层带来的额外计算量，可以支持高实时性的深度信息预测。

4、采集数据成本小。本发明选择了非监督式训练，训练过程的数据集只需要左右RGB图像对，无需真实深度图。本发明对训练数据集的要求，降低了人工标注和额外数据的数量和要求，能够简化网络的训练过程。

5、价格低廉。本发明在实时单目相机深度信息预测时，只需要一个彩色相机和一个小型处理器，相比以往的深度信息获取方法需要多个彩色相机，节省了器件和成本。

附图说明

图1为彩色图；

图2为使用单目相机的预测深度图；

图3为使用双目相机的预测深度图；

图4为一维分解瓶颈层示意图；

图5为注意力机制控制的跳跃连接示意图；

图6为下采样层示意图。

具体实施方式

本发明涉及一种鲁棒的单相机深度图估计方法，该方法的核心在于一个神经网络模型，该神经网络模型训练过程中，根据左、右目的彩色图像和对应的左、右目视差预测，重建右、左目的彩色视图；通过与真实采集的右、左彩色视图比较误差，进而迭代优化网络参数。完成训练后，在预测过程中，只需输入单目彩色图像，网络即可输出对应的单目视差预测。神经网络模型通过以下方法获得：

①使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像，其中m大于20000，采集图像过程需要在n个不同场景下进行采集，其中n大于30；双目相机的两摄像头连线应始终保持水平，且内部物理参数应完全相同。

②利用双目相机采集的m对彩色图像进行神经网络模型训练。其中，神经网络模型输入为采集的彩色图像(分辨率为512×256)，输出为对应单目视差预测。训练时，输入m对彩色图像中左、右目的彩色图像，得到对应的左、右目视差预测，再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图；通过与真实采集的右、左彩色视图比较误差，进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示，其中，最后一层(第18层)为输出的单目视差预测图。

其中所述一维分解瓶颈层如图4所示，使用3×3卷积核与1×1扩张卷积核进行串联运算，运算结果与输入张量进行残差链接，最后采用线性整流函数ReLU作为激活函数，构成一维分解瓶颈层的整体。这种结构可以保持较强的特征提取能力，同时有效降低参数量，加速网络推理过程。

其中所述网络的13a，13b层如图5所示，为所述全局池化层，通过Sigmoid激活函数归一化为0-1之间，最终作为加权权重来选择性传递原始特征图。这种结构可以促使网络学习有效的特征信息，降低网络过拟合的现象。

其中所述下采样层如图6所示，通过使用3×3卷积和平均池化结果进行拼接，得到最终的下采样特征图。这种结构可以融合原始输入信息和经卷积层学习后的信息，增强网络的学习能力。

其中所述上采样层采用双线性插值与3×3卷积级联，得到最终的上采样特征图。这种结构可以降低输出噪声，同时将预测图恢复至初始输入尺寸。

利用上述所得的单目视差预测图，通过视差disparity与深度depth一一对应关系：

最终得到单目深度预测图。

图1为RGB相机获取的单目彩色图，经本发明方法处理后得到的单目深度预测图如图2所示，对比传统匹配算法所生成的深度预测图(如图3所示)，可认为本发明所述的单相机深度图估计方法更加准确、鲁棒。

本发明采用了深度学习技术，通过神经网络来预测视差信息，进而得到与输入彩色RGB图像相同分辨率的深度信息。同时，本发明的神经网络结构设计为级联结构，并且加入了采用注意力机制控制的跳跃连接结构，使得最终得到精度和平滑度均表现较好的深度信息图。此外，本发明所使用的训练方式，能够更好地使网络学习到遮挡和透视关系，有效减少了训练数据集上过拟合的现象，也降低了数据集的采集成本。

Claims

1.一种鲁棒的单相机深度图估计方法，其特征为：将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图，通过视差disparity与深度depth一一对应关系：

2.根据权利要求1所述的方法，其特征为：所述一维分解瓶颈层使用3×3卷积核与1×1扩张卷积核进行串联运算，运算结果与输入张量进行残差链接，最后采用线性整流函数ReLU作为激活函数，构成一维分解瓶颈层的整体。

3.根据权利要求1所述的方法，其特征为：从8到11层的一维分解瓶颈层采用扩张卷积完成，扩张卷积率分别为2，4，8，16。

4.根据权利要求1所述的方法，其特征为：所述下采样层通过使用3×3卷积和平均池化结果进行拼接，得到最终的下采样特征图。

5.根据权利要求1所述的方法，其特征为：所述上采样层采用双线性插值与3×3卷积级联，得到最终的上采样特征图。

6.根据权利要求1所述的防范，其特征为：13a，13b层的全局池化层，通过Sigmoid激活函数归一化为0-1之间，最终作为加权权重来选择性传递原始特征图。