CN116258758A

CN116258758A - 基于注意力机制和多级代价体的双目深度估计方法及系统

Info

Publication number: CN116258758A
Application number: CN202310229341.5A
Authority: CN
Inventors: 谢鹏程; 叶鸣; 李巍华; 练秋酉; 刘畅; 卢仲康; 刘科明; 陈伟侠
Original assignee: Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd; South China University of Technology SCUT
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-06-13

Abstract

本发明公开了一种基于注意力机制和多级代价体的双目深度估计方法及系统，包括以下步骤：左右图像中提取1/2、1/4、1/8和原始尺度特征图；将左右1/8尺度特征图构建代价体，初步聚合得到初始深度图；超分辨上采样获得1/4尺度粗深度图，并基于通道注意力机制提取深度权重；使用1/4尺度特征图构建代价体，将深度权重作为初始激励指导聚合，输出1/4尺度优化深度图；重复上述步骤处理更高尺度信息，至输出所需尺度深度图；构建距离敏感的损失函数，模型训练并保存最优参数；加载预训练模型，输入图像和标定参数，输出深度图。本发明采用注意力机制高效聚合多级代价体，结合距离敏感的损失函数，有效平衡深度估计的速度和精度。

Description

基于注意力机制和多级代价体的双目深度估计方法及系统

技术领域

本发明涉及双目深度估计技术领域，具体涉及一种基于注意力机制和多级代价体的双目深度估计方法及系统。

背景技术

立体匹配是针对二维像素点进行三维重建、输出预测深度的一种技术，是几十年来的一个经典研究课题，传统上被描述为一个多阶段优化问题，包括匹配代价计算、代价聚合、视差优化和后处理。近年来，随着卷积神经网络的发展，立体匹配算法已经成为一项深度学习任务，并在各种立体匹配任务榜单中，基于深度学习的匹配算法在精度方面已完全超越了传统算法。

然而，目前立体匹配算法提供的深度估计仍存在一定局限性。为兼顾性能与速度，GwcNet、GCNet、AANet、PSMNet等先进立体匹配算法减少了三维卷积的使用，在低尺度代价体上进行代价聚合，采用一系列的上采样获得原始分辨率输出，中间虽然通过级联结构补充参考图像的高尺度特征，但深度是双目图像匹配得到的结果，单一图片特征的补充始终会导致部分信息的缺失。

另一方面，激光雷达的点云数据具有“近密远疏”的特点，导致由点云通过映射变换获得的深度图标签中，远距离的点远远少于近距离的点。以KITTI数据集为例(Menze M,Geiger A.Object scene flow for autonomous vehicles[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2015:3061-3070.)，平均每张深度图中0-10m范围内的深度值占比37％，超过80％有效像素深度值小于40m。而主流算法所用的SmoothL1损失函数将对不同距离误差进行同等惩罚，附近物体的微小误差与远处物体的巨大误差在全局层面上将近似相同，严重影响下游目标检测对远处物体的定位。

发明内容

为解决现有技术存在的缺陷与不足，以期在保证算法实时性的同时，充分利用双目图像的丰富特征信息，提高全局范围内深度估计的准确性，本发明提供一种基于注意力机制和多级代价体的双目深度估计方法，通过注意力机制代替部分三维卷积，实现高效聚合不同尺度的多级代价体，并改进当前损失函数的设计，以期能够更加灵活而鲁棒地应对实际应用场景的挑战。

本发明所提的技术方案是，基于注意力机制和多级代价体，搭建高效的深度激励模块，从低尺度深度图中提取激励权重指导高尺度代价体的聚合，并从实际场景采集的数据出发，设计距离加权损失函数，引导网络同时关注远近不同距离物体的细节信息。

一种基于注意力机制和多级代价体的双目深度估计方法，包括以下步骤：

步骤1、对采集的图像对进行预处理，通过特征提取模块提取多尺度特征图，包括1/2尺度、1/4尺度、1/8尺度和原始尺度；

步骤2、将左、右图像的1/8尺度特征图串联构建深度代价体，通过三维空洞卷积进行初步聚合，采用Soft-Argmin函数生成初始深度图；

步骤3、初始深度图经超分辨率上采样模块生成1/4尺度粗深度图，馈入引导子网络，生成后续步骤所需的深度权重图；

步骤4、使用1/4尺度特征图串联构建深度代价体，由步骤3中的深度权重图作为初始激励激发高尺度代价体中的几何特征，指导聚合，输出1/4尺度的优化深度图；

步骤5、重复步骤3、步骤4处理更高尺度下的特征图，直至输出所需尺度深度图；

步骤6、构建损失函数，划分深度区域并定义距离加权系数，分区计算深度与标签的加权损失值后求和取得总损失值，当模型训练过程中损失值收敛不再波动时，保存模型参数；

步骤7、加载预训练模型，输入预处理的双目图像和相应的相机标定参数后，模型将输出深度图。

进一步地，所述特征提取模块包括空洞卷积模块和标准卷积模块堆叠而成，其中空洞卷积模块用于扩大感受野，标准卷积模块无偏差的标准卷积用于重映射。

进一步地，空洞卷积模块包括5层空洞卷积，扩张率分别为1、2、4、8、1；标准卷积模块包括二维卷积、批归一化和LeakyRelu激活函数依次连接组成，其中使用无偏差二维卷积的标准卷积模块用于1/8、1/4和1/2尺度特征图的输出层，对特征进行重映射，便于后续操作对特征的复用。

进一步地，使用Soft-Argmin函数生成深度图的表达式如下：

其中，σ(·)是Softmax函数，

是经三维空洞卷积对代价体初步聚合后出的置信度向量，Z是输出深度图，/>

表示归一化后的置信度向量，G是超参数，代表了深度颗粒度，/>

表示了其中的深度颗粒度区间i对应的置信度向量，Z_max是预先设定好的最大深度。

进一步地，所述超分辨率上采样模块将初始深度图和左目1/8尺度特征图通过卷积层提取特征并沿通道拼接，拼接成的融合特征图经残差卷积层聚合后与初始深度图相加，得到精化初始深度图；采用双线性插值法将精化初始深度图上采样至1/4尺度后，与左目1/4尺度特征图融合，重复拼接操作进行精化，从而输出1/4尺度粗深度图，作为后续深度权重图的数据来源。

进一步地，所述残差卷积层包括多个残差模块和输出卷积层，每个残差模块中输入的特征经由多个二维卷积、批归一化、LeakyRelu激活函数依次处理后，与自身相加后再次通过LeakyRelu激活函数激活，激活的结果作为残差模块的输出，用于进一步聚合融合特征图的特征信息；输出卷积层采用卷积核为1×1的二维卷积，用于输出残差估计。

进一步地，所述引导子网络是基于注意力机制，使用五层二维卷积在1/4尺度粗深度图的每个位置为每个感兴趣的像素及其周围邻域计算自适应权重向量，并使用Sigmoid函数对通道向量归一化，映射到[0,1]的概率分布中，得到深度权重图，即1/4尺度下的激励引导权重，代表了高尺度下深度图对低尺度深度图的注意力依赖。

进一步地，1/4尺度的优化深度图生成过程，具体步骤包括：

首先，将1/4尺度的左、右图像特征图串联构建深度代价体，经一层三维空洞卷积进行简单融合后，由步骤3输出的深度权重图与步骤4构建的代价体进行广播乘法，以激发相应的几何特征，相当于在空间分布上对深度信息进行更新调整；

然后，沿深度维度将各通道上的代价求和，得到压缩维度后的深度残差图，并与步骤3上采样得到的1/4尺度粗深度图相加，得到最终的优化深度图。

进一步地，所述损失函数将整个深度范围划分为数个区域，计算每个区域内的距离加权系数，以及预测值与标签值的平均绝对误差，将距离加权系数和平均绝对误相乘表示该区域的损失值，将所有区域损失值求和作为最终用于反向传播的总损失值。

进一步地，所述距离加权系数ω_k如下：

其中，d_p表示预测值，d_g表示标签值，R_k表示所划分的深度区域，

表示该深度区域内像素点数量。

进一步地，所述损失函数

如下：

其中，ω_k表示距离加权系数，d_p表示预测值，d_g表示标签值，R_k表示所划分的深度区域，

表示该深度区域内像素点数量。

实现所述的一种基于注意力机制和多级代价体的双目深度估计方法的系统，包括：

图像采集与预处理模块，获取时间同步的左、右图像，对图像进行参数标定、极线校正和归一化预处理；

特征提取模块，用于利用标准卷积和空洞卷积，从预处理后的左、右图像中提取1/2尺度、1/4尺度和1/8尺度特征图；

深度激励模块，包含使用1/8尺度特征图，通过Soft-Argmin函数和超分辨上采样模块生成1/4尺度的初始深度图；以及基于通道注意力机制的引导子网络，从低尺度深度图提取自适应的深度激励权重，与高尺度特征图搭建的深度代价体进行加权精化，指导代价聚合；

模型训练模块，划分深度区域并定义距离加权系数，分区计算深度与标签的加权损失值后求和取得总损失值，当训练过程中损失值收敛不再波动时，保存模型参数；

模型测试模块，对相机进行标定，获得相机焦距和双目基线数据，将同一时刻同时曝光的双目图像输入预训练模型中，输出相同尺寸深度图。

本发明提供的基于注意力机制和多级代价体的双目深度估计方法及系统，与现有技术相比具有如下优点和有益效果：

(1)本发明采用了创新的网络架构，通过低尺度深度激励指导高尺度代价体的聚合，充分利用了左、右图像的特征信息，也避免了三维卷积的大量使用，在保证深度估计准确性的同时缓解了双目立体深度估计参数过多、实时性差的弊端，在NvidiaTitanXP显卡上可达到37Fps的实时运行效果，满足实际场景中的速度要求。

(2)本发明采用了创新的损失函数，针对激光雷达所获得的标签值具有“近密远疏”的特点，通过定义距离加权系数，按深度区域分区计算损失值的方式，提高网络对不同深度范围的敏感性，在全局范围内降低了预测误差，尤其在中远距离上，表现更为优异。

附图说明

图1是本实施例基于注意力机制和多级代价体的双目深度估计方法的算法流程图；

图2是本实施例基于注意力机制和多级代价体的双目深度估计方法的网络结构示意图；

图3是本实施例基于注意力机制和多级代价体的双目深度估计方法的ResBlock残差模块结构图；

图4是本实施例基于注意力机制和多级代价体的双目深度估计方法的深度引导激励模块示意图。

具体实施方式

下面结合附图和具体实施步骤对本发明进行详细说明。

如图1所示，本实施例提供一种基于注意力机制和多级代价体的双目深度估计方法，包括下属步骤：

S1、对双目视觉系统采集的原始图像进行标定和极线校正，并将像素值归一化到-1和1之间，之后输入特征提取模块，提取1/8尺度、1/4尺度、1/2尺度和原始尺度的特征图，左目各尺度特征图依次表示为F_l ⁸、F_l ⁴、F_l ²、F_l ¹，右目各尺度特征图依次表示为F_r ⁸、F_r ⁴、F_r ²、F_r ¹；

作为一种优选的实施例，所述特征提取模块由空洞卷积和标准卷积堆叠组成，其中需要注意的是空洞卷积用于扩大感受野，无偏差的标准卷积用于重映射共享特征，具体网络结构设计如表1所示。其中，BasicConv2D模块由一个卷积层、一个批归一化层以及一个LeakyRelu激活函数依次组成；ResBlock残差模块由两个卷积层、两个批归一化模块以及两个LeakyRelu激活函数采用残差连接方式组成，如图3所示，通过跳跃连接的方式实现深层网络的恒等映射，以此降级网络相关参数学习难度，可有效减少深度学习网络中的梯度消失问题，提高网络准确性和稳定性，并可加快网络训练速度，减少训练时间。

表1.特征提取模块网络结构

S2、将左、右图像的1/8尺度特征图串联构建深度代价体

通过三维空洞卷积进行初步聚合，采用Soft-Argmin函数得到初始深度图/>

S21、将1/8尺度的左、右目图像的特征图F_l ⁸和F_r ⁸在通道维度拼接融合，通过五层空洞三维卷积进行聚合，扩张率分别为1、1、2、2、1，扩大感受野，汇集更多全局上下文信息；

作为一种优选的实施例，代价体初步聚合都是仅使用5个三维卷积，相比其他立体匹配网络，所使用的数量极少，同时相比其他网络通过级联结构补充单一参考图像高尺度特征，本实例的方法充分利用了双目图像的信息，因此可以更好地实现深度估计在速度和精度上的平衡。

S22、使用Soft-Argmin函数计算深度图的表达式如下：

其中，σ(·)是Softmax函数，

是经三维空洞卷积对代价体初步聚合后输出的置信度向量，/>

表示归一化后的置信度向量，Z是输出深度图，G是超参数，代表深度颗粒度，/>

表示其中的深度颗粒度区间i对应的置信度向量，Z_max是预先设定好的最大深度。

S3、初始深度图

经超分辨率上采样模块插值生成1/4尺度粗深度图后馈入引导子网络，生成后续步骤所需的深度权重图；/>

S31、超分辨率上采样模块将初始深度图和左目1/8尺度特征图进一步通过卷积层提取特征并沿通道拼接，所组成的融合特征图经残差卷积层聚合后与初始深度图相加，补充了部分细节信息，修正了微小结构和目标边缘范围的深度，由此得到精化初始深度图。之后采用双线性插值法将精化初始深度图上采样至1/4尺度，与左目1/4尺度特征图融合，重复前述操作进行精化，从而输出1/4尺度粗深度图，作为后续深度权重图的数据来源。在这个过程中，多次复用特征提取模块输出的相应尺度左目特征图，这种共享特征的方式在降低计算量的同时，改善了梯度信息流的传递途径，类似于残差连接的思想，避免了深层网络出现梯度消息的问题。

在本实施例中，残差卷积层由多个残差模块和输出卷积层组成，在残差模块中输入的特征经由多个二维卷积、批归一化、LeakyRelu激活函数依次处理后，与自身相加后再次通过LeakyRelu激活函数激活，激活的结果作为模块的输出，可用于进一步聚合融合特征图的特征信息；输出卷积层采用卷积核为1×1的二维卷积，用于输出残差估计。该模块

S32、引导子网络基于注意力机制，使用五层二维卷积在1/4尺度粗深度图的每个位置通过2D逐点卷积进行计算，为每个感兴趣的像素及其周围邻域计算自适应权重向量F(i,j,:)，其中(i,j)为感兴趣像素在像素坐标系下的坐标。该向量代表了深度图中像素

邻域范围内的权重，其中μ为相机固有参数，表示像素坐标放缩倍数，单位为像素每米，/>

为感兴趣像素在图像坐标系下的坐标。为防止权重过大导致后续聚合失真，使用Sigmoid函数对通道向量F(i,j,:)归一化映射到[0,1]的概率分布中，如下所示：

其中，k表示通道维度，F_w(i,j,k)即为自适应权重向量F(i,j,:)在k通道下的分向量，F′(i,j,k)表示F_w(i,j,k)经Sigmoid函数归一化处理后的新权重向量。由此得到深度权重图F′，即1/4尺度下的激励引导权重，代表了高尺度深度图对低尺度深度图的注意力依赖。

S4、使用1/4尺度特征图构建深度代价体，由步骤3中的深度权重图作为初始激励激发高尺度代价体中的几何特征，指导聚合，输出1/4尺度的优化深度图

S41、将1/4尺度的左、右图像特征图

和/>

串联搭建深度代价体/>

经一层三维空洞卷积进行简单融合后，由步骤S3输出的深度权重图与代价体进行广播乘法，以激发相应的几何特征，相当于在空间分布上对深度信息进行更新调整；

S42、将精化调优后的深度代价体通过Softmax函数在深度维度上将置信度归一化，并沿深度维度方向加权求和，得到压缩维度后的深度残差图，进而与步骤3上采样得到的1/4尺度粗深度图相加，以完善细节信息，修正微小结构和边缘误差，得到最终优化的1/4尺度深度图

步骤S3和S4共同构成了深度引导激励模块(Depth Guided Excitation,简称DGE)，其结构如图4所示，图中上标s表示低尺度，上标μs表示高尺度，具体倍数为低尺度的μ倍，本实施例中μ＝2，F表示特征图，l、r分别表示左目、右目，C_depth表示深度代价体，d表示深度图，

表示深度残差图，/>

表示模块最终输出的优化深度图。该模块可生成高尺度的粗深度图，并计算个像素深度权重，用于激发高尺度代价体中相应的几何特征，指导代价体的聚合和优化，避免了其他算法中通过大量三维卷积实现代价聚合所造成的计算量增加，因此在深度估计的速度上大大提高。

S5、重复步骤S3、S4，处理1/2尺度下的特征图，输出原始尺度深度图

S6、构建损失函数，划分深度区域并定义距离加权系数，分区计算深度与标签的加权损失值后求和取得总损失值，当模型训练过程中损失值收敛不再波动时，保存模型参数；

步骤S6中的损失函数将整个深度范围(预先设置的最大深度估计范围，一般是80m，即只估计在0-80m范围的深度)划分为数个区域，计算每个区域内的距离加权系数，以及预测值与标签值的平均绝对误差，二者相乘表示该区域的损失值，将所有区域损失值求和作为最终用于反向传播的总损失值。

进一步地，所述距离加权系数ω_k具体公式如下：

所述损失函数

具体公式如下：

其中，d_p表示预测值，d_g表示标签值，R_k表示所划分的深度区域，N_Rk表示该深度区域内像素点数量。

具体而言，步骤S6的训练过程使用Adam优化器(β₁＝0.9，β₂＝0.999)进行端到端训练。整个数据集在数据预处理中进行标准化操作，图像被随机裁剪成H＝256，W＝512的大小。在虚拟训练数据集中，以0.001的恒定学习率训练了10epochs，然后在真实训练集图像上进行微调。微调过程设置为300epochs，初始学习率设置为0.001，当训练周期达到200时衰减为0.0001，整个过程中批次大小被设置为48。

S7、实际应用中，开启双目摄像头，获取图片并进行相机标定、极线校正和像素值归一化等预处理，之后加载进预训练模型，获取相同尺寸的深度图。

为了实现上述实施例，本发明还提供了一种基于注意力机制和多级代价体的双目深度估计系统，包括：

图像采集与预处理模块，获取时间同步的左、右图像，进行参数标定、极线校正和归一化等预处理；

深度激励模块，包含使用1/8尺度特征图，通过Soft-Argmin函数和超分辨率上采样模块生成1/4尺度的初始深度图；以及基于通道注意力机制的引导子网络，从低尺度深度图提取自适应的深度激励权重，与高尺度特征图搭建的深度代价体进行加权精化，指导代价聚合。

模型训练模块，划分深度区域并定义距离加权系数，分区计算深度与标签的加权损失值后求和取得总损失值，当训练过程中损失值收敛不再波动时，保存模型参数。

模型测试模块，对相机进行标定，获得相机焦距和双目基线等数据，将同一时刻同时曝光的双目图像输入预训练模型中，输出相同尺寸深度图。

为了实现上述实施例，本发明实施例还提供了一种电子设备，包括存储器、处理器、存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述程序时，实现所述的诊断方法。

为了实现上述实施例，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的诊断方法。

综上，本发明针对实际场景提出了一种基于注意力机制和多级代价体的双目深度估计方法及系统，采用了创新的网络架构，通过低尺度深度激励指导高尺度代价体的聚合，充分利用了左、右图像的特征信息，在保证深度估计准确性的同时缓解了双目立体匹配参数过多、实时性差的弊端，在NvidiaTitanXP显卡上可达到37Fps的实时运行效果，满足实际场景中的速度要求。同时，采用了创新的损失函数，针对激光雷达所获得的标签值具有“近密远疏”的特点，通过定义距离加权系数，按深度区域分区计算损失值的方式，提高网络对不同深度范围的敏感性，在全局范围内降低了预测误差，尤其在中远距离上，表现更为优异。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制和多级代价体的双目深度估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，所述特征提取模块包括空洞卷积模块和标准卷积模块堆叠而成，其中空洞卷积模块用于扩大感受野，标准卷积模块无偏差的标准卷积用于重映射。

3.根据权利要求2所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，空洞卷积模块包括5层空洞卷积，扩张率分别为1、2、4、8、1；标准卷积模块包括二维卷积、批归一化和LeakyRelu激活函数依次连接组成，其中使用无偏差二维卷积的标准卷积模块用于1/8、1/4和1/2尺度特征图的输出层，对特征进行重映射，便于后续操作对特征的复用。

4.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，使用Soft-Argmin函数生成深度图的表达式如下：

其中，σ(·)是Softmax函数，

是经三维空洞卷积对代价体初步聚合后出的置信度向量，/>

表示归一化后的置信度向量，Z是输出深度图，G是超参数，代表了深度颗粒度，/>

5.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，所述超分辨率上采样模块将初始深度图和左目1/8尺度特征图通过卷积层提取特征并沿通道拼接，拼接成的融合特征图经残差卷积层聚合后与初始深度图相加，得到精化初始深度图；采用双线性插值法将精化初始深度图上采样至1/4尺度后，与左目1/4尺度特征图融合，重复拼接操作进行精化，从而输出1/4尺度粗深度图，作为后续深度权重图的数据来源。

6.根据权利要求5所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，所述残差卷积层包括多个残差模块和输出卷积层，每个残差模块中输入的特征经由多个二维卷积、批归一化、LeakyRelu激活函数依次处理后，与自身相加后再次通过LeakyRelu激活函数激活，激活的结果作为残差模块的输出，用于进一步聚合融合特征图的特征信息；输出卷积层采用卷积核为1×1的二维卷积，用于输出残差估计。

7.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，所述引导子网络是基于注意力机制，使用五层二维卷积在1/4尺度粗深度图的每个位置为每个感兴趣的像素及其周围邻域计算自适应权重向量，并使用Sigmoid函数对通道向量归一化，映射到[0,1]的概率分布中，得到深度权重图，即1/4尺度下的激励引导权重，代表了高尺度下深度图对低尺度深度图的注意力依赖。

8.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，1/4尺度的优化深度图生成过程，具体步骤包括：

9.根据权利要求1～8任一项所述的基于注意力机制和多级代价体的双目深度估计方法，其特征在于，所述损失函数将整个深度范围划分为数个区域，计算每个区域内的距离加权系数，以及预测值与标签值的平均绝对误差，将距离加权系数和平均绝对误相乘表示该区域的损失值，将所有区域损失值求和作为最终用于反向传播的总损失值；

所述距离加权系数ω_k如下：

表示该深度区域内像素点数量；

所述损失函数

如下：

表示该深度区域内像素点数量。

10.实现权利要求9所述的一种基于注意力机制和多级代价体的双目深度估计方法的系统，其特征在于，包括：