CN111402310A

CN111402310A - 一种基于深度估计网络的单目图像深度估计方法及系统

Info

Publication number: CN111402310A
Application number: CN202010132201.2A
Authority: CN
Inventors: 张皓; 扈玲玲; 王祝萍; 黄超
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-10
Anticipated expiration: 2040-02-29
Also published as: CN111402310B

Abstract

本发明涉及一种基于深度估计网络的单目图像深度估计方法及系统，该方法具体为：构建深度估计网络，将目标图像输入训练好的深度估计网络，获得目标图像深度图；所述的训练过程中采用相机位姿估计步骤；所述的深度估计网络包括编码器和解码器，所述的编码器包括5层编码模块，每层编码模块基于ResNeXt50模型构建，所述的解码器包括5层包含跳跃连接的解码模块。与现有技术相比，本发明具有精度高、鲁棒性强等优点。

Description

一种基于深度估计网络的单目图像深度估计方法及系统

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种基于深度估计网络的单目图像深度估计方法及系统。

背景技术

在计算机视觉领域，对图像进行深度估计是一项不可或缺的基本任务，在基于视觉的同时定位与建图、三维场景重建、增强现实等领域起着十分重要的作用。传统的深度估计方法通常采用多视图几何的原理，根据场景中的多个视图间的差异，通过几何约束关系建立图像间的对应像素点的关系，从而从二维图像中恢复三维场景的深度及几何形状。由于需要人为的从图像中提取相应特征，建立对应匹配关系，从而得到图像的深度信息，计算量大且复杂。而随着深度学习的迅速发展，并与各个领域相结合后呈现出巨大的潜力和商业价值。深度学习在计算机视觉领域也表现出了强大的解析与表达能力，使得从单张图像中估计深度成为可能，基于深度学习的单目图像深度估计问题也成为近年来研究者们关注的热点之一。

但是，由于图像在成像过程中丢失了部分真实三维场景的信息，导致基于二维平面图像的计算机视觉技术存在固有的缺陷。并且由于现实场景的复杂性，存在动态物体的干扰，所导致的遮挡现象，使得网络不能很好的学习图像的特征，会丢失图像的一些特征信息，使得网络预测的深度存在准确度和清晰度问题。

现有技术也给出了一些解决方案，中国专利CN201810296143.X提出了一种利用深度学习对视频序列中单目视图深度估计优化方法，包括：通过一个深度估计神经网络对单目视图L进行深度估计，得到与L相同分辨率的深度图：将单目视图L与相邻帧的单目视图L作为位姿估计网络的输入，得到两帧视图间相机的相对位姿变化，其中，位姿变化包括相对位移和旋转；步骤S3：利用L的深度图，以及单目视图L与相邻帧的单目视图L的相对位姿变化对L进行重构，得到单目视图L重构后的视图L'；步骤S4：通过特定卷积神经网络VGG-16分别得到L和L'的特征图，利用特征图欧式距离上的对比及两视图像素级的误差，作为损失函数以优化深度估计神经网络和位姿估计网络，该专利避免了深度信息采集的高昂代价；

但该专利存在以下不足：

一是该专利最终获得的深度图与原视图图像分辨率相同，没有考虑图像的高维特征，使得其深度估计神经网络不能充分学习图像像素的深层特征，从而使得网络对图像上的弱纹理区域学习能力较弱；

二是该专利将特征图欧式距离上的对比以及两视图像素级的误差作为损失函数，但是没有考虑动态物体的干扰所导致的遮挡问题对网络训练的影响，而对于复杂环境来说，动态物体的干扰是不可避免的，由此导致网络训练的精度较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度估计网络的单目图像深度估计方法及系统。

本发明的目的可以通过以下技术方案来实现：

一种基于深度估计网络的单目图像深度估计方法，具体为：

将目标图像输入训练好的深度估计网络，获得目标图像深度图；

其中，所述的深度估计网络为U-net结构，包括编码器和解码器，所述的编码器包括5层编码模块，每层编码模块基于ResNeXt50模型构建，每层包含32路的残差模块融合组成。所述的解码器包括5层解码模块，每1层解码模块由上采样层和卷积层组成；

第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成，第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成，第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成，第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生，第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成，第2～5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。

进一步地，所述的训练过程中采用相机位姿估计步骤，具体为：

建立相机位姿估计网络，采集包含若干组图像序列的训练集，每组图像序列包含1张参考图I_t和多张对照图I_s，将图像序列输入深度估计网络获得I_t的深度图D_t和I_s的深度图D_s，将D_t和D_s输入位姿估计网络获取I_t与I_s的相机位姿转换关系T_t→s，根据T_t→s和像素点深度得到在D_t的像素点在D_s中对应的像素点，对I_s和D_s进行双线性采样获得合成参考图I_s→t和参考图像深度图D_s→t，根据I_t、I_s→t、D_s和D_s→t训练深度估计网络，根据I_t和D_s→t训练深度估计网络，获取深度估计网络的最优的模型权重，最后将任意的目标图像输入训练后的深度估计网络来生成精确性更高的全分辨率的目标图像深度图。

进一步地，所述的相机位姿估计网络包括编码结构，包括7层卷积模块和1层卷积层，其中每层卷积模块包括1层卷积层和1层ReLU激活层。

进一步地，所述的训练过程中采用的损失函数基于Charbonnier惩罚构建，包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数；

所述的一致性约束和几何一致性约束能够去除图像外点和噪声的干扰，提高模型的鲁棒性；

所述的Charbonnier惩罚函数为：

其中，∈为超参，a为0.45；

基于Charbonnier惩罚的重投影损失函数p_e(I_t,I_s)为：

其中，M为像素点总数；

基于Charbonnier惩罚的几何一致性损失函数L_depth为：

基于Charbonnier惩罚的深度图梯度平滑损失函数L_s为：

其中，

和

分别表示水平和竖直方向上的深度图梯度；

损失函数总体表达式为：

π_final＝α*p_e(I_t,I_s)+β*L_depth+γ*L_s

其中，α、β和γ为超参数。

进一步地，所述的D_t的获取过程为：

所述的I_t具有三通道，将I_t输入基于ResNeXt50模型构建的编码器，将3通道I_t分32个分支进行1x1、3x3和1x1的卷积操作，然后进行融合，逐步升维到64、256、512、1024和2048，学习I_t的不同尺度的深层抽象特征，获得分辨率分别为I_t分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图；在解码阶段，使用上采样-卷积的方式代替直接进行反卷积操作，避免了反卷积操作导致深度图出现的伪影现象，得到更稠密的像素点深度，引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作，当其余4种特征图的分辨率分别为I_t分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立I_t与D_t的映射关系，输出4种不同分辨率的D_t。使用跳跃连接利于获取更多的图像信息，实现多个特征图的线性组合，并且能够防止反向传播时出现梯度消失的问题；

所述的D_s的获取过程与D_t相同。

一种基于深度估计网络的单目图像深度估计系统，包括：

深度估计模块，用于建立深度估计网络并利用该网络输出目标图像的目标图像深度图、参考图I_t的深度图D_t和对照图I_s的深度图D_s；

位姿估计模块，用于建立相机位姿估计网络并利用该网络获取D_t和D_s的相机位姿转换关系T_t→s；

视图合成模块，用于根据T_t→s和像素点深度得到在D_t的像素点在D_s中对应的像素点，对I_s和D_s进行双线性采样获得合成参考图I_s→t和合成参考图像深度图D_s→t；

网络训练模块，用于采集包含若干组图像序列的训练集并根据I_t、I_s→t、D_s和D_s→t训练深度估计网络，每组图像序列包含1张I_t和多张I_s；

其中，所述的深度估计网络包括编码器和解码器，所述的编码器包括5层编码模块，每层编码模块基于ResNeXt50模型构建，由32路残差模块融合组成，所述的解码器包括5层解码模块，第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成，第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成，第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成，第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生，第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成，第2～5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图；

所述的相机位姿估计网络包括编码结构，包括7层卷积模块和1层卷积层，其中每层卷积模块包括1层卷积层和1层ReLU激活层。

所述的Charbonnier惩罚函数为：

其中，∈为超参，a为0.45；

基于Charbonnier惩罚的重投影损失函数p_e(I_t,I_s)为：

其中，M为像素点总数；

基于Charbonnier惩罚的几何一致性损失函数L_depth为：

基于Charbonnier惩罚的深度图梯度平滑损失函数L_s为：

其中，

和

分别表示水平和竖直方向上的深度图梯度；

损失函数总体表达式为：

π_final＝α*p_e(I_t,I_s)+β*L_depth+γ*L_s

其中，α、β和γ为超参数。

进一步地，所述的视图合成步骤具体为：根据T_t→s和像素点深度得到在D_t的像素点在D_s中对应的像素点，对I_s和D_s进行双线性采样获得I_s→t和D_s→t。

进一步地，所述的D_t的获取过程为：

将I_t输入基于ResNeXt50模型构建的编码器，所述的5层编码模块对应获得分辨率分别为I_t分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图；引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作，当其余4种特征图的分辨率分别为I_t分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立I_t与D_t的映射关系，输出4种不同分辨率的D_t，所述的D_s的获取过程与D_t相同。

与现有技术相比，本发明具有以如下有益效果：

(1)本发明采用U-net结构的深度估计网络，并结合相机位姿估计步骤对深度估计网络进行训练，不依赖于图像间的特征匹配来估计深度信息，精度高且成本低，深度估计网络为U-net结构，包括编码器和解码器，编码器包括5层编码模块，每层编码模块基于ResNeXt50模型构建，将输入分别分配到32路个残差模块，分别在每路残差模块进行图像特征学习，最后再把所有支路的结果融合作为输出，充分学习图像特征，网络精度高，解码器包括交叉设置的5层上采样模块和5层卷积模块，所述的解码模块包含跳跃连接，解决了梯度消失问题，能够输出不同分辨率的深度图供网络训练及优化使用，使得训练后的深度估计网络的精度更高；

(2)本发明基于Charbonnier惩罚构建无监督方式的损失函数进行训练，包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数，去除图像外点和噪声的干扰，提高模型的鲁棒性，输出的深度图像平滑性好，精度高；

(3)本发明通过位姿估计网络获取参考图和对照图的相机位姿转换关系，根据相机位姿转换关系和参照图深度图像中的像素点深度计算得到在对照图深度图像中相同像素点的对应信息，对对照图以及对照图深度图像进行双线性采样获得合成参考图以及合成参考图像深度图，通过构建图像间的差异作为以无监督方式训练网络的监督信号。从而避免了对场景真实深度值的获取；

(4)本发明将图像输入基于ResNeXt50模型构建的编码器，学习图像的不同尺度的深层抽象特征，获得分辨率分别为该图像分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图。在解码阶段，使用上采样加卷积的方式代替直接进行反卷积操作，避免了反卷积操作导致深度图出现的伪影现象，得到更稠密的像素点深度，引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作，当其余4种特征图的分辨率分别为原图像分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立图像与该图像深度图的映射关系，输出4种不同分辨率的图像深度图，跳跃连接利于获取更多的图像信息，实现多个特征图的线性组合，并且能够防止反向传播时出现梯度消失的问题，整体使得深度估计网络输出的深度图像精度高。

附图说明

图1为深度估计网络结构图；

图2为本发明的方法流程图；

图3为单个残差块结构图；

图4为每层编码模块结构图；

图5为目标图像；

图6为目标图像深度图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例一

一种基于深度估计网络的单目图像深度估计方法，如图2，具体为：

采集公开数据集KITTI并对其进行并对进行预处理和数据增强操作，生成包含多个图像序列＜I₁，I₂，…，I_N＞的训练集，每组图像序列包含1张参考图I_t和多张对照图I_s(1≤s≤N，s≠t)；

构建基于U-net结构的深度估计网络包括编码器和解码器，编码器基于ResNeXt50模型构建，对输入的图像升维以提取图像高维度特征，其网络框架如表1：

表1编码器框架表

其中，layer为卷积层数，Conv为卷积层，input为输入图像，Kernel代表卷积核，stride代表步长，C代表通道，chns代表输入输出通道数，output代表卷积层输出，max pool为最大池化层，如图3和图4，输入分辨率为192×640×3的单目图像，依次经过5个基于ResNext50模型的编码模块，并得到通道数分别为64、256、512、1024和2048的1/2、1/4、1/8和1/16分辨率的图像特征图。

通过解码器对特征图降维，建立特征图与深度图间的映射关系，获取图像深度图，解码器的结构如表2所示：

表2解码器框架表

其中，stage为输入对应的阶段，output为每一阶段输出分辨率，k为卷积核大小，s表示步长，upconv为解码阶段的卷积操作，iconv为每个解码模块的输入，disp为逆深度图，activation代表激活函数，ReLU、Sigmoid为每一阶段对应的激活函数；input为每一层对应的输入；

如图1和表2，所述的解码器包括5层解码模块，第1层解码模块Deconv5由第5层编码模块Enconv5依次连接卷积层和上采样层后与再与第4层编码模块Enconv4跳跃连接构成，第2层解码模块Deconv2由第1层解码模块Deconv1依次连接卷积层和上采样层后与再与第3层编码模块Enconv3跳跃连接构成，并且通过Sigmoid激活函数输出1/8分辨率的深度图disp4，第3层解码模块Deconv3由第2层解码模块Deconv2依次连接卷积层和上采样层后与再与第2层编码模块Enconv2跳跃连接构成，并且通过Sigmoid激活函数输出1/4分辨率的深度图disp3，第4层解码模块Deconv4由第3层解码模块Deconv3依次连接卷积层和上采样层后与再与第1层编码模块Enconv1构成跳跃连接产生，并且通过Sigmoid激活函数输出1/2分辨率的深度图disp2，第5层解码模块Deconv5由第4层解码模块Deconv4依次连接卷积层和上采样层构成，并且通过Sigmoid激活函数输出全分辨率的深度图disp1。

相机位姿估计网络结构如表3：

表3相机位姿估计网络结构表

其中，econv为位姿估计网络的每层，Input为每层的输入，位姿估计网络总共包含7层卷积模块和1层卷积层组成，其中每层卷积模块由卷积操作和ReLU激活函数组成，输入分辨率为192×640×3的图像对，最终通过位姿估计网络输出图像对间六自由度的相对位姿变换关系，包括位移关系和旋转关系。

将图像序列＜I₁，I₂，…，I_N＞输入深度估计网络获得I_t的深度图D_t和I_s的深度图D_s，将D_t和D_s输入位姿估计网络获取I_t与I_s的相机位姿转换关系T_t→s，根据T_t→s和像素点深度得到在D_t的像素点在D_s中对应的像素点，对I_s和D_s进行双线性采样获得合成参考图I_s→t和参考图像深度图D_s→t，根据I_t、I_s→t、D_s和D_s→t训练深度估计网络，根据I_t和D_s→t训练深度估计网络，获取深度估计网络的最优的模型权重，最后将任意的目标图像输入训练后的深度估计网络来生成精确性更高的全分辨率的目标图像深度图。

D_t的获取过程为：

I_t具有三通道，将I_t输入基于ResNeXt50模型构建的编码器，将3通道I_t分32个分支进行1x1、3x3和1x1的卷积操作，然后进行融合，逐步升维到64、256、512、1024和2048，学习I_t的不同尺度的深层抽象特征，获得分辨率分别为I_t分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图；利用上采样和卷积的操作代替直接进行反卷积操作避免了反卷积操作所导致的深度图出现的伪影现象，得到更稠密的像素点深度，引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作，当其余4种特征图的分辨率分别为I_t分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立I_t与D_t的映射关系，输出4种不同分辨率的D_t，跳跃连接利于获取更多的图像信息，实现多个特征图的线性组合，并且能够防止反向传播时出现梯度消失的问题，D_s的获取过程与D_t相同。

输入的目标图像如图5所示，输出的目标图像深度图如图6所示。

训练过程中采用的损失函数基于Charbonnier惩罚构建，包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数；

一致性约束和几何一致性约束能够去除图像外点和噪声的干扰，提高模型的鲁棒性；

Charbonnier惩罚函数为：

其中，∈为超参，设为0.001，当a<0.5时，该函数为非凸函数，当a>0.5时函数为凸函数，根据经验值，a为0.45；

基于Charbonnier惩罚的重投影损失函数p_e(I_t,I_s)为：

其中M为像素点总数；

基于Charbonnier惩罚的几何一致性损失函数L_depth为：

为了保证深度估计网络预测的目标图像的梯度平滑性，基于Charbonnier惩罚的深度图梯度平滑损失函数L_s为：

其中，

和

分别表示水平和竖直方向上的深度图梯度；

损失函数总体表达式为：

π_final＝α*p_e(I_t,I_s)+β*L_depth+γ*L_s

其中，α、β和γ为超参数。

实施例二

一种基于深度估计网络的单目图像深度估计系统，包括：

其中，所述的深度估计网络包括编码器和解码器，所述的编码器包括5层编码模块，每层编码模块基于ResNeXt50模型构建，所述的解码器包括交叉设置的5层上采样模块和5层与编码模块跳跃连接的反卷积模块。

编码器结构如表4所示：

表4编码器框架表

其中，layer为卷积层数，Conv为卷积层，input为输入图像，Kernel代表卷积核，stride代表步长，C代表通道，chns代表输入输出通道数，output代表卷积层输出，max pool为最大池化层，如图3和图4。输入分辨率为192×640×3的单目图像，依次经过5个基于ResNext50模型的编码模块，并得到通道数为64，256，512，1024，2048的1/2、1/4、1/8、1/16分辨率的图像特征图。

通过解码器对特征图降维，建立特征图与深度图间的映射关系，获取图像深度图，解码器的结构如表5所示：

表5解码器框架表

其中，stage为输入对应的阶段，output为每一阶段输出分辨率，k为卷积核大小，s表示步长，upconv为解码阶段的卷积操作，iconv为每个解码模块的输入(请补充)，disp为深度图，activation代表激活函数，ReLU和Sigmoid为每一阶段对应的激活函数，input为每一层对应的输入。

如图1和表5，所述的解码器包括5层解码模块，第1层解码模块Deconv5由第5层编码模块Enconv5依次连接卷积层和上采样层后与再与第4层编码模块Enconv4跳跃连接构成，第2层解码模块Deconv2由第1层解码模块Deconv1依次连接卷积层和上采样层后与再与第3层编码模块Enconv3跳跃连接构成，并且通过Sigmoid激活函数输出1/8分辨率的深度图disp4，第3层解码模块Deconv3由第2层解码模块Deconv2依次连接卷积层和上采样层后与再与第2层编码模块Enconv2跳跃连接构成，并且通过Sigmoid激活函数输出1/4分辨率的深度图disp3，第4层解码模块Deconv4由第3层解码模块Deconv3依次连接卷积层和上采样层后与再与第1层编码模块Enconv1构成跳跃连接产生，并且通过Sigmoid激活函数输出1/2分辨率的深度图disp2，第5层解码模块Deconv5由第4层解码模块Deconv4依次连接卷积层和上采样层构成，并且通过Sigmoid激活函数输出全分辨率的深度图disp1。

相机位姿估计网络结构如表6：

表6相机位姿估计网络结构表

其中，econv为位姿估计网络的每层，Input为每层的输入，位姿估计网络包括7层卷积模块和1层卷积层，每层卷积模块由卷积操作和ReLU激活函数组成，输入分辨率为192×640×3的图像对，最终通过位姿估计网络输出图像对间六自由度的相对位姿变换关系。

D_t的获取过程为：

I_t具有3通道，将I_t输入编码器，基于ResNeXt50模型构建的编码模块将3通道I_t分32个分支进行1x1、3x3和1x1的卷积操作，然后进行融合，逐步升维到64、256、512、1024和2048，学习I_t的不同尺度的深层抽象特征，获得分辨率分别为I_t分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图，利用上采样和卷积的操作代替直接进行反卷积操作避免了反卷积操作所导致的深度图出现的伪影现象，得到更稠密的像素点深度，引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作，当其余4种特征图的分辨率分别为I_t分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立I_t与D_t的映射关系，输出4种不同分辨率的D_t，跳跃连接利于获取更多的图像信息，实现多个特征图的线性组合，并且能够防止反向传播时出现梯度消失的问题，D_s的获取过程与D_t相同。

Charbonnier惩罚函数为：

其中，∈为超参，当a<0.5时，该函数为非凸函数，当a>0.5时函数为凸函数，根据经验值，a为0.45；

基于Charbonnier惩罚的重投影损失函数p_e(I_t,I_s)为：

其中M为像素点总数；

基于Charbonnier惩罚的几何一致性损失函数L_depth为：

其中，

和

分别表示水平和竖直方向上的深度图梯度；

损失函数总体表达式为：

π_final＝α*p_e(I_t,I_s)+β*L_depth+γ*L_s

其中，α、β和γ为超参数。

实施例一和实施例二提出了一种基于深度估计网络的单目图像深度估计方法及系统，采用U-net结构的深度估计网络，并结合相机位姿估计步骤对深度估计网络进行训练，不依赖于图像间的特征匹配来估计深度信息，精度高且成本低，解码模块包含跳跃连接，解决了梯度消失问题，能够输出不同分辨率的深度图供网络训练及优化使用，使得训练后的深度估计网络的精度更高，同时基于Charbonnier惩罚构建无监督方式的损失函数进行训练，包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数，去除图像外点和噪声的干扰，提高模型的鲁棒性，输出的深度图像平滑性好，精度高。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度估计网络的单目图像深度估计方法，具体为：构建深度估计网络，将目标图像输入训练好的深度估计网络，获得目标图像深度图；

所述的训练过程中采用相机位姿估计步骤；

其特征在于，所述的深度估计网络包括编码器和解码器，所述的编码器包括5层编码模块，每层编码模块基于ResNeXt50模型构建，所述的解码器包括5层包含跳跃连接的解码模块。

2.根据权利要求1所述的一种基于深度估计网络的单目图像深度估计方法，其特征在于，所述的相机位姿估计步骤具体为：

建立相机位姿估计网络，采集包含若干图像序列的训练集，每组图像序列包含1张参考图I_t和多张对照图I_s，将图像序列输入深度估计网络获得I_t深度图D_t和I_s深度图D_s，将D_t和D_s输入位姿估计网络获取I_t与I_s的相机位姿转换关系T_t→s，根据T_t→s和像素点深度得到在D_t的像素点在D_s中对应的像素点，对I_s和D_s进行双线性采样获得合成参考图I_s→t和合成参考图像深度图D_s→t，根据I_t、I_s→t、D_s和D_s→t训练深度估计网络。

3.根据权利要求2所述的一种基于深度估计网络的单目图像深度估计方法，其特征在于，所述的相机位姿估计网络包括7层卷积模块和1层卷积层，其中每个卷积模块包括1层卷积层和1层ReLU激活函数层。

4.根据权利要求2所述的一种基于深度估计网络的单目图像深度估计方法，其特征在于，所述的训练过程中采用的损失函数π_final的计算公式为：

π_final＝α*p_e(I_t,I_s)+β*L_depth+γ*L_s

其中，α、β和γ为超参数，p_e(I_t,I_s)为重投影损失函数，L_depth为几何一致性损失函数，L_s为深度图梯度平滑损失函数；

所述的p_e(I_t,I_s)的计算公式为：

其中，M为像素点总数；

所述的L_depth的计算公式为：

所述的L_s计算公式为：

其中，

和

分别表示水平和竖直方向上的深度图梯度。

5.根据权利要求1所述的一种基于深度估计网络的单目图像深度估计方法，其特征在于，第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成，第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成，第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成，第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生，第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成，第2～5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。

6.一种基于深度估计网络的单目图像深度估计系统，其特征在于，包括：

其中，所述的深度估计网络包括编码器和解码器，所述的编码器包括5层编码模块，每层编码模块基于ResNeXt50模型构建所述的解码器包括5层解码模块，每1层解码模块由上采样层和卷积层组成。

7.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计系统，其特征在于，所述的相机位姿估计网络包括7层卷积模块和1层卷积层，其中每层卷积模块包括1层卷积层和1层ReLU激活函数层。

8.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计系统，其特征在于，所述的训练过程中采用的损失函数π_final的计算公式为：

π_final＝α*p_e(I_t,I_s)+β*L_depth+γ*L_s

所述的p_e(I_t,I_s)的计算公式为：

其中，M为像素点总数；

所述的L_depth的计算公式为：

所述的L_s计算公式为：

其中，

和

分别表示水平和竖直方向上的深度图梯度。

9.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计系统，其特征在于，第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成，第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成，第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成，第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生，第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成，第2～5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。