CN110490919B

CN110490919B - 一种基于深度神经网络的单目视觉的深度估计方法

Info

Publication number: CN110490919B
Application number: CN201910603880.4A
Authority: CN
Inventors: 侯永宏; 李翔宇; 吴琦; 李岳阳; 郭子慧; 刘艳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2023-04-18
Anticipated expiration: 2039-07-05
Also published as: CN110490919A

Abstract

本发明公开了一种基于深度神经网络的单目视觉深度估计方法，步骤如下：1)构建多尺度深度估计网络，2)构建无监督训练方案，3)利用左、右视点间深度图及基线计算之间刚性流，通过刚性流之间的差异较大的区域得到左、右视点图像之间的遮挡区域。同时在计算损失函数过程中，将遮挡区域排除在损失函数计算之外；4)输入待训练双目立体视频中的一个视点视频，输出对应左、右视点深度图，通过最优化手段降低损失函数来训练模型，以至网络达到收敛。发明所提出的模型通过输入单视点视频序列输出高质量的深度图，训练过程不需要深度图的标签提高了模型的应用范围，通过去除双目立体序列之间的遮挡区域解决深度图的边缘模糊问题并提高估计精度。

Description

一种基于深度神经网络的单目视觉的深度估计方法

技术领域

本发明属于计算机视觉领域，涉及深度估计方法，具体来说是一种基于深度神经网络的单目视觉的深度估计方法。

背景技术

从图像中估计深度在计算机视觉领域具有悠久的历史，作为一项基础工作其在诸如3D场景重建、机器人、增强现实(Augmented Reality,AR)等领域都有重要的应用。针对输入的RGB图像，估计出其每像素点的深度值，得到深度图。

传统深度估计方法大多依赖于从运动中恢复结构(structure from motion)。然而该方法依赖于对感兴趣的场景进行多次观察这一假设，限制了深度估计的应用范围。随着近年来，深度学习与神经网络在计算机视觉任务中的卓越表现，研究学者们利用神经网络来从RGB输入中回归深度图，并且取得了很好的效果。利用深度学习来进行深度估计主要有2类：有监督深度估计与无监督深度估计。有监督深度估计需要带有深度标签的数据集对网络来训练，在真实世界环境中，深度标签比较难以获得。无监督方法通过对输入视图的重建来进行监督，不需要深度标签，更适用于真实世界数据集。

现有的无监督深度估计方法，通常忽视了输入图像之间的遮挡，导致估计出的深度图在边缘区域会出现深度模糊，极大降低了估计的精确度，不利于后续对深度图的利用。

发明内容

本发明提出了一种基于深度神经网络的单目视觉的深度估计方法，采用无监督训练方式，通过引入遮挡区域检测，去除深度估计过程中重建错误的像素点，解决深度估计的边缘模糊并且提高深度估计的精度。

本发明为解决其技术问题采用如下技术方案：

构建多尺度深度估计模型，主体采用编解码网络设计。

其中编码网络部分包含多组卷积神经网络，对输入的图片进行多尺度的特征提取。

解码网络部分，采用反卷积或者上采样卷积层与卷积层交替叠加的模式，来输出多尺度深度图。

同时在编解码部分层之间存在跳层连接，用来融合高低层特征。

输入双目立体视频的左单点视图I_l，深度网络同时输出左、右视图的深度D_l与D_r。同时利用左、右序列之间已知的基线运动T_l→r与T_r→l及相机内参K，可以得到左视图坐标p_l在右视图坐标上的投影p′_r，具体公式如下：

p′_r＝KT_l→rD_l(P_l)K^-1P_l

同理得到右视图在左视图上的坐标投影p′_l：

p′_l＝KT_r→lD_r(P_r)K^-1P_r

得到相应的投影坐标p′_r和p′_l后，可以分别利用投影坐标p′_r和右视图原图I_r利用可微分的双线性插值重建出左视图I′_l，同理获得重建出的右视图I′_r。通过构建原左、右视点图像和重建左、右视点图像之间的光度误差来构建基础监督损失L_pw。

其中L_pw为损失函数，SSIM()为结构相似度函数，I_l和I_r为输入的左、右视图，I′_l和I_r为重建的左、右视图。损失函数采用结构相似度和L1范数来共同计算多尺度下的误差。

在刚性场景假设下，利用上述的投影关系，可以计算左图到右图在图像2D平面上的运动即刚性流

具体公式如下：

其中K为相机内参，T_r→l为左、右视图之间的基线运动，D_l(P_l)为P_l坐标点处的深度，P_l为左视图上的坐标点。

同理可得右图到左图的刚性流

利用双线性插值由

重建得

由于左、右图之间的遮挡区域无法正确的进行投影，所以通过检查

与

之间差异较大的区域，可以检测到遮挡区域：

其中M_l为遮挡指示器，指明左视图中被遮挡的区域。(α，β)为预设的阈值，差异大于阈值范围的将会被当作遮挡区域。计算损失函数的过程中引入遮挡区域M_l和M_r：

其中L_pw为网络最终的损失函数，M_l和M_r分别代表着左右视图中被遮挡的部分，SSIM()为结构相似度函数，s为4个分辨率图像。

输入一定分辨率下的单目视频序列，输出多分辨率的深度图。同时利用最优化的手段对损失函数进行降低，直至降低至模型收敛，得到最优化的模型参数。

本发明的优点和有益效果如下：

1、本发明提出的一种单目视觉的深度估计方法，基于无监督深度学习，训练过程中不需要深度图标签，提高了其应用范围。

2、本发明在网络结构方面采用编解码结构，编码结构能够有效提取输入图像的高低层特征，在解码部分针对提取到的特征进行反卷积处理，跳层连接能够更好的融合高低层特征进行深度的预测。

3、本发明的遮挡区域检测能够有效的计算出双目左、右图像之间的遮挡区域，并且在计算损失函数过程中将其去除，解决了深度估计边缘模糊问题。

4、本发明的整体结构以端到端的形式进行训练与测试，训练过程中利用双目立体图像对保证恢复出的深度带有真实尺度，测试阶段采用单视点连续视频序列。整体框架可以通过预训练移植到各个应用环境。

附图说明

图1为本发明实例一种基于深度神经网络的单目视觉深度估计方法的网络结构图；

图2为本发明遮挡检测示意图；

图3为本发明深度估计结果图。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

本发明提出了一种基于深度神经网络的单目视觉的深度估计方法，采用无监督训练方式，通过引入遮挡检测机制，去除深度估计过程中重建错误的像素点。解决深度估计的边缘模糊并且提高深度估计的精度。

具体步骤如下：

1)构建多尺度深度估计网络，如图1所示，模型基于编解码网络结构设计，包含卷积层，反卷积层等；

本发明神经网络搭建主体采取编解码结构，其中编码部分为了更好的提取输入图像的特征，由十四个卷积层组成，其中两两一组，一共有7组卷积层，除去最初的两组卷积核大小为7*7、5*5，其余卷积层的卷积核大小均为3*3。解码网络部分由七层卷积层和七层反卷积层交替叠加，解码部分的所有层的卷积大小均为3*3。为了保留全局高级特征与局部低级特征，编解码部分采用不同尺度的跳层连接，网络先在低分辨率上输出深度图，然后加入低级细节信息逐渐过渡到高分辨率下的深度估计，其中4个尺度下的深度估计分辨率之间的缩放因子为2。模型所有层的激活函数都采用修正线性单元(Relu)。

2)构建无监督训练方案，输入双目立体视频中的其中一个视点视频，神经网络输出对应左、右视点的多尺度深度图。利用左、右视点深度图及双目相机基线分别从输入的左视点图像和右视点图像重建出右视点图像和左视点图像。利用输入左、右视点图像和重建的左、右视点图像之间的光度误差构建网络的监督损失函数；

本发明中由于需要双目立体视频对模型进行训练，于是采用公开的自动驾驶数据集KITTI，目前是国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。由于本发明的网络采用无监督方式进行训练，所以采用KITTI的raw数据划分，该数据划分包含42382组双目RGB图像对(不含有深度标签)。KITTI的数据原始分辨率为1242x375，为了减少模型的计算量，我们将图像缩小到512x256大小进行训练，并且对图像做随机增强，包含轻度的仿射变形、随机水平旋转、随机尺度抖动、随机对比度、亮度、饱和度和锐度等，提高数据量的同时也提高模型在过程中的泛化能力。

输入双目立体视频的左单点视图I_l，深度网络同时输出左、右视图的多尺度深度D_l与D_r。同时利用左、右序列之间已知的基线运动T_l→r与T_r→l及相机内参K，通过在左、右视图之间的相机坐标系及图像坐标的投影关系可以得到左视图坐标p_l在右视图坐标上的投影p′_r，具体公式如下：

p′_r＝KT_l→rD_l(P_l)K^-1P_l

其中公式是其次的矩阵计算。同理得到右视图在左视图上的坐标投影p′_l：

p′_l＝KT_r→lD_r(P_r)K^-1P_r

其中L_pw为损失函数，SSIM()为结构相似度函数，I_l和I_r为输入的左、右视图，I′_l和I_r为重建的左、右视图。。损失函数采用结构相似度和L1范数来共同计算多尺度下的误差。

3)利用左、右视点间深度图及基线计算之间刚性流，通过刚性流之间的差异较大的区域得到左、右视点图像之间的遮挡区域。同时在计算损失函数过程中，不计算遮挡区域的损失；

图2为本发明遮挡区域检测示意图

在刚性场景假设下(即场景中无动态物体)，利用上述的投影关系，可以计算左图到右图在图像2D平面上的运动即刚性流

具体公式如下：

同理可得右图到左图的刚性流

通过双线性插值可以重建左图到右图的刚性流

遮挡区域代表左图中的部分像素点在右图中没有所对应的像素点，在双目图像对中主要是由于双目相机的基线引起的。遮挡区域在左、右图投影的过程中会产生错误的匹配，体现在刚性流上就是

与

之间差异较大的区域。

通过

与

之间的一致性检测，我们可以得到与输入图像大小一致的遮挡指示器M_l，具体计算过程如下：

其中M_l为遮挡指示器，指明左视图中被遮挡的区域。其中(α，β)为预设的阈值，差异大于阈值范围的将会被当作遮挡区域。计算损失函数的过程中引入遮挡区域M_l和M_r：

4)输入待训练双目立体视频中的一个视点视频，输出对应左、右视点深度图，按照上述步骤构建损失函数，通过最优化手段降低损失函数来训练模型，以至网络达到收敛。

图3为本发明模型深度估计结果图

输入分辨率为256x512的单目视频序列，输出多分辨率的深度图。同时利用最优化的手段对损失函数进行降低，直至降低至模型收敛，得到最优化的模型参数。

本发明利用深度学习框架Tensorflow对模型进行训练优化。具体网络参数如下所示：

参数名	参数值
		优化器(optimizer)	<![CDATA[Adamβ<sub>1</sub>＝0.9,β<sub>2</sub>＝0.99.]]>
学习率(learningrate)	0.0002
		批处理大小(batch-size)	4
训练轮数(epoch)	50
		输入图像分辨率	256x512

深度模型在训练过程不断收敛损失函数，直至得到最优的模型。在测试阶段，本发明的深度模型输入为分辨率为256x512单目图像，可以输出分辨率为256x512、128x256、64x128、32x64这4中分辨率下的深度图。网络结构在KITTI真实数据集上进行训练，可以将收敛后的模型在其他真实数据集上进行微调直接进行深度估计，具备良好的泛化能力。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于深度神经网络的单目视觉的深度估计方法，其特征在于：以无监督深度学习方式构建多尺度深度估计网络，通过引入双目视频序列之间的刚性流来检测左、右视图之间的遮挡区域，并且在损失函数中去除遮挡区域对深度估计性能带来的负面影响；

包括如下步骤：

(1)构建多尺度深度估计网络；

(2)构建无监督训练方案；

(3)利用左、右视点间深度图及基线计算之间刚性流，通过刚性流之间的差异较大的区域得到左、右视点图像之间的遮挡区域，同时在计算损失函数过程中，将遮挡区域排除在损失函数计算之外；

(4)输入待训练双目立体视频中的一个视点视频，输出对应左、右视点深度图，按照上述步骤构建损失函数，通过最优化手段降低损失函数来训练模型，以至网络达到收敛；

步骤(3)具体为：

在刚性场景假设下，利用步骤(2)描述的投影关系，计算左图到右图在图像2D平面上的运动即刚性流

具体公式如下：

其中K为相机内参，T_l→r为左、右视图之间的基线运动，D_l(P_l)为P_l坐标点处的深度，P_l为左视图上的坐标点；

同理可得右图到左图的刚性流

利用双线性插值由

重建得

与

之间差异较大的区域，检测到遮挡区域：

其中M_l为遮挡指示器，指明左视图中被遮挡的区域，(α，β)为预设的阈值，差异大于阈值范围的将会被当作遮挡区域，计算损失函数的过程中引入遮挡区域M_l和M_r

2.根据权利要求1所述的基于深度神经网络的单目视觉深度估计方法，其特征在于：所述的多尺度深度估计网络采用编解码网络设计，其中编码网络部分包含多组卷积神经网络，对输入的图片进行多尺度的特征提取；解码网络部分，采用反卷积或者上采样卷积层与卷积层交替叠加的模式，来输出多尺度深度图；同时在编解码部分层之间存在跳层连接，融合高低层特征。

3.根据权利要求1所述的基于深度神经网络的单目视觉深度估计方法，其特征在于：构建无监督训练方案具体为：

输入双目立体视频的左单点视图I_l，深度网络同时输出左、右视图的深度D_l与D_r，同时利用左、右序列之间已知的基线运动T_l→r与T_r→l及相机内参K，得到左视图坐标P_l在右视图坐标上的投影p′_r：

p′_r＝KT_l→rD_l(P_l)K^-1P_l

同理得到右视图坐标P_r在左视图上的坐标投影p′_l：

p′_l＝KT_r→lD_r(P_r)K^-1P_r

得到相应的投影坐标p′_r和p′_l后，分别利用左视图投影坐标p′_r和右视图原图I_r利用可微分的双线性插值重建出左视图I′_l，同理获得重建出的右视图I′_r；通过构建原左、右视点图像和重建左、右视点图像之间的光度误差来构建基础监督损失函数L_pw；

其中L_pw为损失函数，SSIM()为结构相似度函数，I_l和I_r为输入的左、右视图，I′_l和I_r为重建的左、右视图，损失函数采用结构相似度和L1范数来共同计算多尺度下的误差。