CN116245927B

CN116245927B - 一种基于ConvDepth的自监督单目深度估计方法及系统

Info

Publication number: CN116245927B
Application number: CN202310116947.8A
Authority: CN
Inventors: 熊炜; 陈奕博; 田紫欣; 李婕; 李利荣; 宋海娜; 邹勤; 王松
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2024-01-16
Anticipated expiration: 2043-02-09
Also published as: CN116245927A

Abstract

本发明公开了一种基于ConvDepth的自监督单目深度估计方法及系统，本发明基于无结构单目视频的自监督单目深度估计，目标图像I_t经过depth网络生成视差图D_t(或深度图其中为D_t的倒数)；连续两帧图像(I_s,I_t)的堆叠采用Pose网络预测6D旋转和平移矩阵T_t→s；然后将目标图像反向warping，生成重建图像本发明基于运动结构恢复算法，极大程度的减少了训练网络的成本，具有极大的扩展性。本发明所提出的Depth网络结构，能够生成更加准确、细节更加丰富的深度图。本发明提出了鲁棒性自蒸馏损失，它更加准确的监督Depth网络的训练。本发明不仅将ConvNeXt骨干引入到自监督深度估计任务中，打破了现有技术中ResNet的“垄断”，而且设计了多层级细节增强模块和视差头，极大程度的激发了ConvNeXt骨干的潜力。

Description

一种基于ConvDepth的自监督单目深度估计方法及系统

技术领域

本发明属于数字图像处理、模式识别与机器学习技术、机器人以及自动驾驶技术领域，涉及一种自监督单目深度估计方法及系统，特别是涉及一种基于ConvDepth的自监督单目深度估计方法及系统。

背景技术

深度估计，顾名思义，就是利用一张或者多张、唯一或多个视角下的RGB图像，估计图像中每个像素相对拍摄源的距离。然而，图像是立体场景的投影，只捕获了平面信息，这无疑使得深度估计具有挑战性。现有的深度估计方法为基于运动结构恢复(SFM)的传统双目或多视角深度估计以及基于深度学习的单目或双目深度估计。传统的方法能够通过匹配用几何方法直接计算出深度，但匹配精度受图像质量的限制很大，并且精度不高。相对于传统算法，基于深度学习的方法不仅精度更高，而且场景约束条件更低，更有希望能够替代现有的传感器方案。基于深度学习的双目深度估计，利用双目相机，构建代价体积，通过视差回归的方法回归深度。基于深度学习的单目深度估计根据像素关系反映深度关系，拟合一个函数把RGB图像映射成深度图，从单张图片中估计出具体的深度，也是一个从二维到三维的过程。

基于深度学习的深度估计算法，在现阶段可分为有监督的深度估计和自监督的深度估计。所谓有监督和自监督方法的主要区别，在于是否拥有真值标签监督网络训练，对于KITTI数据集，这种标签是雷达传感器所捕获的离散的深度图。有监督的方法可以通过标签来监督网络进行训练，然而自监督的网络却是通过光度损失这种弱信号来监督模型的学习。

自我监督单目图像深度估计，因其固有的场景约束，使得训练变得困难。而且基于深度学习的方法，其网络的先进性和损失函数的优化程度依旧是影响模型的最重要的原因之一。现有的工作多聚焦于解决场景假设问题，对于深度网络的表征学习能力并没有太大的进展，这种网络结构的落后，直接导致了预测的深度图细节严重缺失。

发明内容

有的基于深度学习的自监督单目深度估计方法，常常存在预测的深度图细节丢失、轮廓变形以及深度模糊等问题。本发明所提出了一种基于ConvDepth的自监督单目深度估计方法及系统，从网络模型的设计端出发，设计出更加先进的网络结构，来预测出更加精准的深度图。本发明还就自监督学习的方法设计了一种新颖的损失函数，为减小错误的训练信号对模型的影响。

本发明的方法所采用的技术方案是：一种基于ConvDepth的自监督单目深度估计方法，包括以下步骤：

步骤1：目标图像I_t经过Depth网络生成视差图D_t或深度图其中，/>为D_t的倒数；

步骤2：连续两帧图像(I_s,I_t)的堆叠采用Pose网络预测6D旋转和平移矩阵T_t→s；

步骤3：将目标图像反向warping，生成重建图像

其中，K为相机内参矩阵，为I_t重建后的图像，x为2D空白网格点，interpolation为双线性插值方法，⊙表示逐像素相乘。

本发明的系统所采用的技术方案是：一种基于ConvDepth的自监督单目深度估计系统，包括以下模块：

模块1，用于目标图像I_t经过Depth网络生成视差图D_t或深度图其中，/>为D_t的倒数；

模块2，用于连续两帧图像(I_s,I_t)的堆叠采用Pose网络预测6D旋转和平移矩阵T_t→s；

模块3，用于将目标图像反向warping，生成重建图像

本发明提出了一种ConvDepth的自监督单目深度估计算法，与现有方法相比，本发明具有以下优点：

①无需真值标签即可训练网络。本发明基于运动结构恢复算法，仅从单个无结构连续帧单目视频就能训练深度网络，极大程度的减少了训练网络的成本，具有极大的扩展性。

②模型的精度更高。本发明所提出的Depth网络结构，更加关注于全局信息的提取以及局部细节的增强，与现有方法相比，能够生成更加准确、细节更加丰富的深度图。

③损失函数更优。与现有方法相比，本发明提出了鲁棒性自蒸馏损失，我们在自蒸馏损失的基础上增加了自蒸馏损失中伪标签的鲁棒性，它更加准确的监督Depth网络的训练。

④网络结构更为先进。本发明不仅将ConvNeXt骨干引入到自监督深度估计任务中，打破了现有技术中ResNet的“垄断”，而且设计了多层级细节增强模块和视差头，极大程度的激发了ConvNeXt骨干的潜力。

附图说明

图1为本发明实施例的方法原理框图；

图2为本发明实施例的Depth网络结构图；

图3为本发明实施例的Conv-Decoder层结构图；

图4为本发明实施例的Disparity Head层结构图；

图5为本发明实施例的实验效果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于ConvDepth的自监督单目深度估计方法，包括以下步骤：

步骤3：将目标图像反向warping，生成重建图像

重建图像会作为预测值与目标图像I_t进行逐像素残差运算，生成监督网络的弱信号。本实施例基线中的损失/>由光度损失/>和图像平滑损失/>所组成，共同组成弱监督信号。总损失如下公式所示：

其中，为预测的深度图，λ为/>和/>之间的加权系数。

光度损失由结构一致性损失(SSIM)损失和L₁损失所组成，如下公式所示：

其中，为/>和L₁之间的加权系数。

图像平滑损失如下所示：

其中，δ_x、δ_y分别为在图像的高度、宽度方向进行求导。

请见图2，本实施例的Depth网络，采用编码器-解码器结构，编码器为ConvNeXt骨干网络，解码器由Conv-Decoder层和Disparity Head层组成；

本实施例的ConvNeXt骨干网络由四层Stage组成，层数分别为(3,3,27,3)，每层的维度分别为(128,256,512,1024)；其中，第一层Stage由卷积核为4、步长为4的普通卷积，Layer Normalization(层归一化)以及ConvNeXt Block(ConvNeXt块)所组成；ConvNeXtBlock是类似ResNet中的基本块和对抗块，它同样继承了ResNet中的残差连接。具体的说，ConvNeXt Block首先将输入进过一个卷积核为7，填充为3的深度可分离卷积，之后经过层归一化和卷积核大小为1的普通卷积，然后经过GELU激活函数以及一层全连接层，最后进行残差连接；后三层Stage的操作大致相同，分别经过一层下采样层和同样的ConvNeXtBlock，其中下采样层由层归一化以及卷积核大小为2、步长为2的普通卷积组成；

请见图3，本实施例的Conv-Decoder层，分为4层Stage，每一层Stage层数为1，每一层中有相应的降维，每一个跳跃连接处均设置有一个可变行卷积ODConv1×1；每一层Stage输入都有两个，分别是上一层Stage的输出以及跳跃连接到编码器中的特征输出；首先特征输出经过由两层3×3的卷积所组成的残差连接Rsblock、1×1卷积embedding和SoftMax(Rsblock由两层3×3的卷积所组成的残差连接，embedding表示一个1×1卷积)所组成的特征注意力模块产生Att输出，同时将上一层的输出和特征输出进行逐像素相加产生Add输出，随后将Att和Add进行逐像素相乘并经过一个Rsblock生成Mul输出，最后将Mul输出和Add输出进行维度堆叠产生Cat输出，产生的Cat输出即为我们的多层级细节增强模块的输出；最后将Cat输出经过一层由ReLU函数激活的3×3卷积层Convblock(Convblock表示一层由ReLU函数激活的3×3卷积层)和上采样操作产生Conv-Decoder最终输出；

请见图4，本实施例的Disparity Head，将Conv-Decoder所产生的输出编译为视差图；Disparity Head由SoftMax激活函数、卷积核大小为3和填充为2的普通卷积、采样到原图尺寸的上采样以及视差回归所组成；其中视差回归将每一维度进行SoftMax并逐像素相乘相应维度的视差等级，最后将每一维度对应的像素点进行进行相加，生成大小为原图像尺寸，维度为1的视差图。

本发明探索了先进的网络结构对网络预测深度的能力的影响，为自监督单目深度估计重新设计了一个新颖的网络结构ConvDepth，它训练出的网络能够生成更加准确的精细的深度图。为减少错误信号对模型的影响，本发明还提出了一个新颖的损失函数，鲁棒性自蒸馏损失。

由于自监督所固有的假设，在某些场景下光度损失可能传递错误的监督信号，例如动态、无纹理和遮挡场景。为此本实施例设计一种鲁棒性自蒸馏损失代替光度损失中的L1损失作为网络的监督信号。该鲁棒性损失是许多损失函数常见的泛化，例如L1、L2、Geman-McClure、Welsch/Leclerc、Cauchy/Lorentzian and Charbonnier lossfunctions。在这种损失函数中，鲁棒性作为输入，可以让本实施例在合适的范围内自适应损失函数。

为增加伪标签的鲁棒性，训练过程中，将鲁棒性损失运用于Conv-Decoder的Stage4，即视差图D₀(Disp0)；对于Conv-Decoder的stage(1,2,3)，运用自蒸馏损失/>将鲁棒自蒸馏损失/>代替光度损失/>中的L1损失，可以极大程度上减少光度损失在某些场景下传递错误信号的可能。

鲁棒性损失由以下公式给出：

其中，α,c为自适应参数，其参数大小可以通过学习得到；

对于其他网络层，即分辨率不足输入分辨率的视差图D_1,2,3，对其进行上采样到原始输入图像分辨率，然后将D₀作为伪标签，对D_1,2,3进行自蒸馏；用D₀作为监督信号，对其他分辨率进行监控；为中间视差图提供更加正确的监督信号，防止在光度损失产生的弱信号中错误且重复的学习。本实施例用单尺度自蒸馏损失代替多尺度损失，能够产生更多对网络有用的监督信号。自蒸馏损失由以下公式表示为：

其中，D₀为Disp0，k为增益系数，当num_of_epoch<epoch_thr时，k＝epoch/epoch_thr，除此之外k＝1；num_of_epoch表示当前epoch，epoch_thr为epoch阈值，设置值为10；

则鲁棒自蒸馏损失为：

with:numscales＝4；

其中，numscales为输出尺度数量。

本实施例ConvNeXt的设计初衷是为了将纯粹的Convnet的构架进行“现代化”，来测试Convnets类型网络所能达到的极限。ConvNeXt的设计基于标准的ResNet(如ResNet50)，以构建一个分层次vision transformer。在Block设计方面，ConvNeXt采用了Inverted Bottleneck，并加大了卷积核的Kernel Sizes，采用了更加激进的深度可分离卷积，并增加了输入的通道，改用了GELU激活函数，用更少的层归一化。在整个网络层数，ConvNeXt沿用了Swim Transformer的层数设计，并类似将整个网络设计成4个stage，4个版本(T,S,B,L)。ConvNeXt在最终的ImageNet取得了优于ResNet的性能。

本实施例基于ConvNeXt骨干，设计了一种新颖的解码器。在原有解码器中，本实施例设计了一个能够关注局部细节和上下文细节的多层级细节增强模块MLDE。本实施例的模块包括特征注意力、特征融合、特征相乘和特征堆叠四个部分，对应encoder的四层stage，本实施例在解码器部分同样四层。本实施例沿用了U-net架构，分别将每一层stage，与对应的解码器进行跳跃连接。下列公式展示了本实施例解码器的架构：

Add＝feature[i]+x

Mul＝Rsblock(Add⊙Att)

Cat＝Concat(Add,Mul)

其中，feature[i]表示对应encoder的第i层stage经过一层OD卷积后的输出特征，x表示解码器第i-1层stage经过一层Convblock后的输出特征，Convblock表示一层由ReLU函数激活的3×3卷积层，Rsblock由两层3×3的卷积所组成的残差连接，embedding表示一个1×1卷积，表示模块之间的连接。以上表示解码器第i层的四个特征处理部分，其最终结果由以下公式表示：

out＝Convblock(cat)

out＝upsample(out),with:scale_factor＝2

其中，conv1×1由一层1×1的卷积组成，Convblock表示一层由ReLU函数激活的卷积层。

本实施例解码器的输出层连接一个disparity head用以回归视差，本实施例的视差回归的方法联合立体匹配的视差回归，将单个视差图的预测转换为视差图等级概率分布的预测，其回归方法公式如下所示：

其中，k为视差等级，将x在H×W上进行Softmax，disparity_level表示H×W大小的视差等级矩阵，⊙表示逐像素相乘。连接decoder输出的disparity head(DH)，如下公式所示：

其中，Conv3×3是一个3×3卷积，out为decoder输出，表示模块之间的连接，Head表示两层3×3的普通卷积。

需要补充的是，在encoder-decoder中每一个跳跃连接处，本实施例都加入了一个ODConv1×1。ODConv利用一种新的多维注意机制，以对等的方式沿着核空间的所有四个维度学习卷积核的四种类型的注意。ODConv学习到的这四种类型的注意是互补的，将它们逐步应用到相应的卷积核中，可以大大增强CNN基本卷积操作的特征提取能力。本实施例将ODConv运用到连接处，可以提升网络的特征提取能力和模型的泛化能力。

图5为实验结果展示，在现有基础上本实施例依次加入相应模块，可以看出本发明的效果明显优于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于ConvDepth的自监督单目深度估计方法，其特征在于，包括以下步骤：

所述Depth网络采用编码器-解码器结构，所述编码器为ConvNeXt骨干网络，所述解码器由Conv-Decoder层和Disparity Head层组成；

所述ConvNeXt骨干网络由四层Stage组成，层数分别为(3,3,27,3)，每层的维度分别为(128,256,512,1024)；其中，第一层Stage由卷积核为4、步长为4的普通卷积，LayerNormalization以及ConvNeXt Block所组成；所述ConvNeXt Block首先将输入经过一个卷积核为7，填充为3的深度可分离卷积，之后经过层归一化和卷积核大小为1的普通卷积，然后经过GELU激活函数以及一层全连接层，最后进行残差连接；后三层Stage，分别经过一层下采样层和ConvNeXt Block，其中下采样层由层归一化以及卷积核大小为2、步长为2的普通卷积组成；

所述Conv-Decoder层，分为4层Stage，每一层Stage层数为1，每一层中有相应的降维，每一个跳跃连接处均设置有一个可变行卷积ODConv1×1；每一层Stage输入都有两个，分别是上一层Stage的输出以及跳跃连接到编码器中的特征输出；首先特征输出经过由两层3×3的卷积所组成的残差连接Rsblock、1×1卷积embedding和SoftMax所组成的特征注意力模块产生Att输出，同时将上一层的输出和特征输出进行逐像素相加产生Add输出，随后将Att和Add进行逐像素相乘并经过一个Rsblock生成Mul输出，最后将Mul输出和Add输出进行维度堆叠产生Cat输出；最后将Cat输出经过一层由ReLU函数激活的3×3卷积层Convblock和上采样操作产生Conv-Decoder最终输出；

所述Disparity Head，将Conv-Decoder所产生的输出编译为视差图；所述DisparityHead由SoftMax激活函数、卷积核大小为3和填充为2的普通卷积、采样到原图尺寸的上采样以及视差回归所组成；其中视差回归将每一维度进行SoftMax并逐像素相乘相应维度的视差等级，最后将每一维度对应的像素点进行进行相加，生成大小为原图像尺寸，维度为1的视差图；

步骤3：将目标图像反向warping，生成重建图像

2.根据权利要求1所述的基于ConvDepth的自监督单目深度估计方法，其特征在于：步骤2中所述Pose网络为编码器-解码器结构，输入为连续两帧图像(I_s,I_t)的堆叠，网络的编码器为ResNet 18，解码器由一个卷积核为1的普通卷积、两个卷积核为3填充为1的普通卷积以及一个卷积核为1的普通卷积所组成，网络的输出为6D旋转平移矩阵T_t→s。

3.根据权利要求1所述的基于ConvDepth的自监督单目深度估计方法，其特征在于：所述Depth网络，是训练好的Depth网络；为增加伪标签的鲁棒性，训练过程中，将鲁棒性损失运用于Conv-Decoder的Stage4；对于Conv-Decoder的stage(1,2,3)，运用自蒸馏损失将鲁棒自蒸馏损失/>代替光度损失/>中的L1损失；

其中，

其中，α,c为自适应参数；

对于其他网络层，即分辨率不足输入分辨率的视差图D_1,2,3，对其进行上采样到原始输入图像分辨率，然后将D₀作为伪标签，对D_1,2,3进行自蒸馏；用D₀作为监督信号，对其他分辨率进行监控；自蒸馏损失由为：

其中，D₀为Disp0，k为增益系数，当num_of_epoch<epoch_thr时，k＝epoch/epoch_thr，除此之外k＝1；num_of_epoch表示当前epoch，epoch_thr为epoch阈值；

则鲁棒自蒸馏损失为：

其中，numscales为输出尺度数量。

4.根据权利要求1-3任意一项所述的基于ConvDepth的自监督单目深度估计方法，其特征在于：所述Depth网络，是训练好的Depth网络；训练过程中，将重建图像作为预测值与目标图像I_t进行逐像素残差运算，生成监督网络的弱信号；

训练中采用的总损失函数为：

其中，为预测的深度图，λ为/>和/>之间的加权系数；

光度损失由结构一致性损失SSIM损失和L₁损失所组成，如下公式所示：

其中，为/>和L₁之间的加权系数；

图像平滑损失如下所示：

其中，δ_x、δ_y分别为在图像的高度、宽度方向进行求导。

5.一种基于ConvDepth的自监督单目深度估计系统，其特征在于，包括以下模块：

模块3，用于将目标图像反向warping，生成重建图像