CN116258758A - 基于注意力机制和多级代价体的双目深度估计方法及系统 - Google Patents

基于注意力机制和多级代价体的双目深度估计方法及系统 Download PDF

Info

Publication number
CN116258758A
CN116258758A CN202310229341.5A CN202310229341A CN116258758A CN 116258758 A CN116258758 A CN 116258758A CN 202310229341 A CN202310229341 A CN 202310229341A CN 116258758 A CN116258758 A CN 116258758A
Authority
CN
China
Prior art keywords
depth
scale
map
convolution
binocular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310229341.5A
Other languages
English (en)
Inventor
谢鹏程
叶鸣
李巍华
练秋酉
刘畅
卢仲康
刘科明
陈伟侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd
South China University of Technology SCUT
Original Assignee
Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd, South China University of Technology SCUT filed Critical Guangzhou Huagong Motor Vehicle Inspection Technology Co ltd
Priority to CN202310229341.5A priority Critical patent/CN116258758A/zh
Publication of CN116258758A publication Critical patent/CN116258758A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于注意力机制和多级代价体的双目深度估计方法及系统,包括以下步骤:左右图像中提取1/2、1/4、1/8和原始尺度特征图;将左右1/8尺度特征图构建代价体,初步聚合得到初始深度图;超分辨上采样获得1/4尺度粗深度图,并基于通道注意力机制提取深度权重;使用1/4尺度特征图构建代价体,将深度权重作为初始激励指导聚合,输出1/4尺度优化深度图;重复上述步骤处理更高尺度信息,至输出所需尺度深度图;构建距离敏感的损失函数,模型训练并保存最优参数;加载预训练模型,输入图像和标定参数,输出深度图。本发明采用注意力机制高效聚合多级代价体,结合距离敏感的损失函数,有效平衡深度估计的速度和精度。

Description

基于注意力机制和多级代价体的双目深度估计方法及系统
技术领域
本发明涉及双目深度估计技术领域,具体涉及一种基于注意力机制和多级代价体的双目深度估计方法及系统。
背景技术
立体匹配是针对二维像素点进行三维重建、输出预测深度的一种技术,是几十年来的一个经典研究课题,传统上被描述为一个多阶段优化问题,包括匹配代价计算、代价聚合、视差优化和后处理。近年来,随着卷积神经网络的发展,立体匹配算法已经成为一项深度学习任务,并在各种立体匹配任务榜单中,基于深度学习的匹配算法在精度方面已完全超越了传统算法。
然而,目前立体匹配算法提供的深度估计仍存在一定局限性。为兼顾性能与速度,GwcNet、GCNet、AANet、PSMNet等先进立体匹配算法减少了三维卷积的使用,在低尺度代价体上进行代价聚合,采用一系列的上采样获得原始分辨率输出,中间虽然通过级联结构补充参考图像的高尺度特征,但深度是双目图像匹配得到的结果,单一图片特征的补充始终会导致部分信息的缺失。
另一方面,激光雷达的点云数据具有“近密远疏”的特点,导致由点云通过映射变换获得的深度图标签中,远距离的点远远少于近距离的点。以KITTI数据集为例(Menze M,Geiger A.Object scene flow for autonomous vehicles[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2015:3061-3070.),平均每张深度图中0-10m范围内的深度值占比37%,超过80%有效像素深度值小于40m。而主流算法所用的SmoothL1损失函数将对不同距离误差进行同等惩罚,附近物体的微小误差与远处物体的巨大误差在全局层面上将近似相同,严重影响下游目标检测对远处物体的定位。
发明内容
为解决现有技术存在的缺陷与不足,以期在保证算法实时性的同时,充分利用双目图像的丰富特征信息,提高全局范围内深度估计的准确性,本发明提供一种基于注意力机制和多级代价体的双目深度估计方法,通过注意力机制代替部分三维卷积,实现高效聚合不同尺度的多级代价体,并改进当前损失函数的设计,以期能够更加灵活而鲁棒地应对实际应用场景的挑战。
本发明所提的技术方案是,基于注意力机制和多级代价体,搭建高效的深度激励模块,从低尺度深度图中提取激励权重指导高尺度代价体的聚合,并从实际场景采集的数据出发,设计距离加权损失函数,引导网络同时关注远近不同距离物体的细节信息。
一种基于注意力机制和多级代价体的双目深度估计方法,包括以下步骤:
步骤1、对采集的图像对进行预处理,通过特征提取模块提取多尺度特征图,包括1/2尺度、1/4尺度、1/8尺度和原始尺度;
步骤2、将左、右图像的1/8尺度特征图串联构建深度代价体,通过三维空洞卷积进行初步聚合,采用Soft-Argmin函数生成初始深度图;
步骤3、初始深度图经超分辨率上采样模块生成1/4尺度粗深度图,馈入引导子网络,生成后续步骤所需的深度权重图;
步骤4、使用1/4尺度特征图串联构建深度代价体,由步骤3中的深度权重图作为初始激励激发高尺度代价体中的几何特征,指导聚合,输出1/4尺度的优化深度图;
步骤5、重复步骤3、步骤4处理更高尺度下的特征图,直至输出所需尺度深度图;
步骤6、构建损失函数,划分深度区域并定义距离加权系数,分区计算深度与标签的加权损失值后求和取得总损失值,当模型训练过程中损失值收敛不再波动时,保存模型参数;
步骤7、加载预训练模型,输入预处理的双目图像和相应的相机标定参数后,模型将输出深度图。
进一步地,所述特征提取模块包括空洞卷积模块和标准卷积模块堆叠而成,其中空洞卷积模块用于扩大感受野,标准卷积模块无偏差的标准卷积用于重映射。
进一步地,空洞卷积模块包括5层空洞卷积,扩张率分别为1、2、4、8、1;标准卷积模块包括二维卷积、批归一化和LeakyRelu激活函数依次连接组成,其中使用无偏差二维卷积的标准卷积模块用于1/8、1/4和1/2尺度特征图的输出层,对特征进行重映射,便于后续操作对特征的复用。
进一步地,使用Soft-Argmin函数生成深度图的表达式如下:
Figure BDA0004119666470000021
Figure BDA0004119666470000022
其中,σ(·)是Softmax函数,
Figure BDA0004119666470000023
是经三维空洞卷积对代价体初步聚合后出的置信度向量,Z是输出深度图,/>
Figure BDA0004119666470000024
表示归一化后的置信度向量,G是超参数,代表了深度颗粒度,/>
Figure BDA0004119666470000025
表示了其中的深度颗粒度区间i对应的置信度向量,Zmax是预先设定好的最大深度。
进一步地,所述超分辨率上采样模块将初始深度图和左目1/8尺度特征图通过卷积层提取特征并沿通道拼接,拼接成的融合特征图经残差卷积层聚合后与初始深度图相加,得到精化初始深度图;采用双线性插值法将精化初始深度图上采样至1/4尺度后,与左目1/4尺度特征图融合,重复拼接操作进行精化,从而输出1/4尺度粗深度图,作为后续深度权重图的数据来源。
进一步地,所述残差卷积层包括多个残差模块和输出卷积层,每个残差模块中输入的特征经由多个二维卷积、批归一化、LeakyRelu激活函数依次处理后,与自身相加后再次通过LeakyRelu激活函数激活,激活的结果作为残差模块的输出,用于进一步聚合融合特征图的特征信息;输出卷积层采用卷积核为1×1的二维卷积,用于输出残差估计。
进一步地,所述引导子网络是基于注意力机制,使用五层二维卷积在1/4尺度粗深度图的每个位置为每个感兴趣的像素及其周围邻域计算自适应权重向量,并使用Sigmoid函数对通道向量归一化,映射到[0,1]的概率分布中,得到深度权重图,即1/4尺度下的激励引导权重,代表了高尺度下深度图对低尺度深度图的注意力依赖。
进一步地,1/4尺度的优化深度图生成过程,具体步骤包括:
首先,将1/4尺度的左、右图像特征图串联构建深度代价体,经一层三维空洞卷积进行简单融合后,由步骤3输出的深度权重图与步骤4构建的代价体进行广播乘法,以激发相应的几何特征,相当于在空间分布上对深度信息进行更新调整;
然后,沿深度维度将各通道上的代价求和,得到压缩维度后的深度残差图,并与步骤3上采样得到的1/4尺度粗深度图相加,得到最终的优化深度图。
进一步地,所述损失函数将整个深度范围划分为数个区域,计算每个区域内的距离加权系数,以及预测值与标签值的平均绝对误差,将距离加权系数和平均绝对误相乘表示该区域的损失值,将所有区域损失值求和作为最终用于反向传播的总损失值。
进一步地,所述距离加权系数ωk如下:
Figure BDA0004119666470000031
其中,dp表示预测值,dg表示标签值,Rk表示所划分的深度区域,
Figure BDA0004119666470000032
表示该深度区域内像素点数量。
进一步地,所述损失函数
Figure BDA0004119666470000042
如下:
Figure BDA0004119666470000041
其中,ωk表示距离加权系数,dp表示预测值,dg表示标签值,Rk表示所划分的深度区域,
Figure BDA0004119666470000043
表示该深度区域内像素点数量。
实现所述的一种基于注意力机制和多级代价体的双目深度估计方法的系统,包括:
图像采集与预处理模块,获取时间同步的左、右图像,对图像进行参数标定、极线校正和归一化预处理;
特征提取模块,用于利用标准卷积和空洞卷积,从预处理后的左、右图像中提取1/2尺度、1/4尺度和1/8尺度特征图;
深度激励模块,包含使用1/8尺度特征图,通过Soft-Argmin函数和超分辨上采样模块生成1/4尺度的初始深度图;以及基于通道注意力机制的引导子网络,从低尺度深度图提取自适应的深度激励权重,与高尺度特征图搭建的深度代价体进行加权精化,指导代价聚合;
模型训练模块,划分深度区域并定义距离加权系数,分区计算深度与标签的加权损失值后求和取得总损失值,当训练过程中损失值收敛不再波动时,保存模型参数;
模型测试模块,对相机进行标定,获得相机焦距和双目基线数据,将同一时刻同时曝光的双目图像输入预训练模型中,输出相同尺寸深度图。
本发明提供的基于注意力机制和多级代价体的双目深度估计方法及系统,与现有技术相比具有如下优点和有益效果:
(1)本发明采用了创新的网络架构,通过低尺度深度激励指导高尺度代价体的聚合,充分利用了左、右图像的特征信息,也避免了三维卷积的大量使用,在保证深度估计准确性的同时缓解了双目立体深度估计参数过多、实时性差的弊端,在NvidiaTitanXP显卡上可达到37Fps的实时运行效果,满足实际场景中的速度要求。
(2)本发明采用了创新的损失函数,针对激光雷达所获得的标签值具有“近密远疏”的特点,通过定义距离加权系数,按深度区域分区计算损失值的方式,提高网络对不同深度范围的敏感性,在全局范围内降低了预测误差,尤其在中远距离上,表现更为优异。
附图说明
图1是本实施例基于注意力机制和多级代价体的双目深度估计方法的算法流程图;
图2是本实施例基于注意力机制和多级代价体的双目深度估计方法的网络结构示意图;
图3是本实施例基于注意力机制和多级代价体的双目深度估计方法的ResBlock残差模块结构图;
图4是本实施例基于注意力机制和多级代价体的双目深度估计方法的深度引导激励模块示意图。
具体实施方式
下面结合附图和具体实施步骤对本发明进行详细说明。
如图1所示,本实施例提供一种基于注意力机制和多级代价体的双目深度估计方法,包括下属步骤:
S1、对双目视觉系统采集的原始图像进行标定和极线校正,并将像素值归一化到-1和1之间,之后输入特征提取模块,提取1/8尺度、1/4尺度、1/2尺度和原始尺度的特征图,左目各尺度特征图依次表示为Fl 8、Fl 4、Fl 2、Fl 1,右目各尺度特征图依次表示为Fr 8、Fr 4、Fr 2、Fr 1
作为一种优选的实施例,所述特征提取模块由空洞卷积和标准卷积堆叠组成,其中需要注意的是空洞卷积用于扩大感受野,无偏差的标准卷积用于重映射共享特征,具体网络结构设计如表1所示。其中,BasicConv2D模块由一个卷积层、一个批归一化层以及一个LeakyRelu激活函数依次组成;ResBlock残差模块由两个卷积层、两个批归一化模块以及两个LeakyRelu激活函数采用残差连接方式组成,如图3所示,通过跳跃连接的方式实现深层网络的恒等映射,以此降级网络相关参数学习难度,可有效减少深度学习网络中的梯度消失问题,提高网络准确性和稳定性,并可加快网络训练速度,减少训练时间。
表1.特征提取模块网络结构
Figure BDA0004119666470000051
Figure BDA0004119666470000061
S2、将左、右图像的1/8尺度特征图串联构建深度代价体
Figure BDA0004119666470000067
通过三维空洞卷积进行初步聚合,采用Soft-Argmin函数得到初始深度图/>
Figure BDA0004119666470000068
S21、将1/8尺度的左、右目图像的特征图Fl 8和Fr 8在通道维度拼接融合,通过五层空洞三维卷积进行聚合,扩张率分别为1、1、2、2、1,扩大感受野,汇集更多全局上下文信息;
作为一种优选的实施例,代价体初步聚合都是仅使用5个三维卷积,相比其他立体匹配网络,所使用的数量极少,同时相比其他网络通过级联结构补充单一参考图像高尺度特征,本实例的方法充分利用了双目图像的信息,因此可以更好地实现深度估计在速度和精度上的平衡。
S22、使用Soft-Argmin函数计算深度图的表达式如下:
Figure BDA0004119666470000062
其中,σ(·)是Softmax函数,
Figure BDA0004119666470000063
是经三维空洞卷积对代价体初步聚合后输出的置信度向量,/>
Figure BDA0004119666470000064
表示归一化后的置信度向量,Z是输出深度图,G是超参数,代表深度颗粒度,/>
Figure BDA0004119666470000065
表示其中的深度颗粒度区间i对应的置信度向量,Zmax是预先设定好的最大深度。
S3、初始深度图
Figure BDA0004119666470000066
经超分辨率上采样模块插值生成1/4尺度粗深度图后馈入引导子网络,生成后续步骤所需的深度权重图;/>
S31、超分辨率上采样模块将初始深度图和左目1/8尺度特征图进一步通过卷积层提取特征并沿通道拼接,所组成的融合特征图经残差卷积层聚合后与初始深度图相加,补充了部分细节信息,修正了微小结构和目标边缘范围的深度,由此得到精化初始深度图。之后采用双线性插值法将精化初始深度图上采样至1/4尺度,与左目1/4尺度特征图融合,重复前述操作进行精化,从而输出1/4尺度粗深度图,作为后续深度权重图的数据来源。在这个过程中,多次复用特征提取模块输出的相应尺度左目特征图,这种共享特征的方式在降低计算量的同时,改善了梯度信息流的传递途径,类似于残差连接的思想,避免了深层网络出现梯度消息的问题。
在本实施例中,残差卷积层由多个残差模块和输出卷积层组成,在残差模块中输入的特征经由多个二维卷积、批归一化、LeakyRelu激活函数依次处理后,与自身相加后再次通过LeakyRelu激活函数激活,激活的结果作为模块的输出,可用于进一步聚合融合特征图的特征信息;输出卷积层采用卷积核为1×1的二维卷积,用于输出残差估计。该模块
S32、引导子网络基于注意力机制,使用五层二维卷积在1/4尺度粗深度图的每个位置通过2D逐点卷积进行计算,为每个感兴趣的像素及其周围邻域计算自适应权重向量F(i,j,:),其中(i,j)为感兴趣像素在像素坐标系下的坐标。该向量代表了深度图中像素
Figure BDA0004119666470000071
邻域范围内的权重,其中μ为相机固有参数,表示像素坐标放缩倍数,单位为像素每米,/>
Figure BDA0004119666470000072
为感兴趣像素在图像坐标系下的坐标。为防止权重过大导致后续聚合失真,使用Sigmoid函数对通道向量F(i,j,:)归一化映射到[0,1]的概率分布中,如下所示:
Figure BDA0004119666470000073
其中,k表示通道维度,Fw(i,j,k)即为自适应权重向量F(i,j,:)在k通道下的分向量,F′(i,j,k)表示Fw(i,j,k)经Sigmoid函数归一化处理后的新权重向量。由此得到深度权重图F′,即1/4尺度下的激励引导权重,代表了高尺度深度图对低尺度深度图的注意力依赖。
S4、使用1/4尺度特征图构建深度代价体,由步骤3中的深度权重图作为初始激励激发高尺度代价体中的几何特征,指导聚合,输出1/4尺度的优化深度图
Figure BDA0004119666470000074
S41、将1/4尺度的左、右图像特征图
Figure BDA0004119666470000075
和/>
Figure BDA0004119666470000076
串联搭建深度代价体/>
Figure BDA0004119666470000077
经一层三维空洞卷积进行简单融合后,由步骤S3输出的深度权重图与代价体进行广播乘法,以激发相应的几何特征,相当于在空间分布上对深度信息进行更新调整;
S42、将精化调优后的深度代价体通过Softmax函数在深度维度上将置信度归一化,并沿深度维度方向加权求和,得到压缩维度后的深度残差图,进而与步骤3上采样得到的1/4尺度粗深度图相加,以完善细节信息,修正微小结构和边缘误差,得到最终优化的1/4尺度深度图
Figure BDA0004119666470000081
步骤S3和S4共同构成了深度引导激励模块(Depth Guided Excitation,简称DGE),其结构如图4所示,图中上标s表示低尺度,上标μs表示高尺度,具体倍数为低尺度的μ倍,本实施例中μ=2,F表示特征图,l、r分别表示左目、右目,Cdepth表示深度代价体,d表示深度图,
Figure BDA0004119666470000082
表示深度残差图,/>
Figure BDA0004119666470000083
表示模块最终输出的优化深度图。该模块可生成高尺度的粗深度图,并计算个像素深度权重,用于激发高尺度代价体中相应的几何特征,指导代价体的聚合和优化,避免了其他算法中通过大量三维卷积实现代价聚合所造成的计算量增加,因此在深度估计的速度上大大提高。
S5、重复步骤S3、S4,处理1/2尺度下的特征图,输出原始尺度深度图
Figure BDA0004119666470000084
S6、构建损失函数,划分深度区域并定义距离加权系数,分区计算深度与标签的加权损失值后求和取得总损失值,当模型训练过程中损失值收敛不再波动时,保存模型参数;
步骤S6中的损失函数将整个深度范围(预先设置的最大深度估计范围,一般是80m,即只估计在0-80m范围的深度)划分为数个区域,计算每个区域内的距离加权系数,以及预测值与标签值的平均绝对误差,二者相乘表示该区域的损失值,将所有区域损失值求和作为最终用于反向传播的总损失值。
进一步地,所述距离加权系数ωk具体公式如下:
Figure BDA0004119666470000085
所述损失函数
Figure BDA0004119666470000087
具体公式如下:
Figure BDA0004119666470000086
其中,dp表示预测值,dg表示标签值,Rk表示所划分的深度区域,NRk表示该深度区域内像素点数量。
具体而言,步骤S6的训练过程使用Adam优化器(β1=0.9,β2=0.999)进行端到端训练。整个数据集在数据预处理中进行标准化操作,图像被随机裁剪成H=256,W=512的大小。在虚拟训练数据集中,以0.001的恒定学习率训练了10epochs,然后在真实训练集图像上进行微调。微调过程设置为300epochs,初始学习率设置为0.001,当训练周期达到200时衰减为0.0001,整个过程中批次大小被设置为48。
S7、实际应用中,开启双目摄像头,获取图片并进行相机标定、极线校正和像素值归一化等预处理,之后加载进预训练模型,获取相同尺寸的深度图。
为了实现上述实施例,本发明还提供了一种基于注意力机制和多级代价体的双目深度估计系统,包括:
图像采集与预处理模块,获取时间同步的左、右图像,进行参数标定、极线校正和归一化等预处理;
特征提取模块,用于利用标准卷积和空洞卷积,从预处理后的左、右图像中提取1/2尺度、1/4尺度和1/8尺度特征图;
深度激励模块,包含使用1/8尺度特征图,通过Soft-Argmin函数和超分辨率上采样模块生成1/4尺度的初始深度图;以及基于通道注意力机制的引导子网络,从低尺度深度图提取自适应的深度激励权重,与高尺度特征图搭建的深度代价体进行加权精化,指导代价聚合。
模型训练模块,划分深度区域并定义距离加权系数,分区计算深度与标签的加权损失值后求和取得总损失值,当训练过程中损失值收敛不再波动时,保存模型参数。
模型测试模块,对相机进行标定,获得相机焦距和双目基线等数据,将同一时刻同时曝光的双目图像输入预训练模型中,输出相同尺寸深度图。
为了实现上述实施例,本发明实施例还提供了一种电子设备,包括存储器、处理器、存储在存储器上并可在处理器上运行的计算机程序,所述处理器运行所述程序时,实现所述的诊断方法。
为了实现上述实施例,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的诊断方法。
综上,本发明针对实际场景提出了一种基于注意力机制和多级代价体的双目深度估计方法及系统,采用了创新的网络架构,通过低尺度深度激励指导高尺度代价体的聚合,充分利用了左、右图像的特征信息,在保证深度估计准确性的同时缓解了双目立体匹配参数过多、实时性差的弊端,在NvidiaTitanXP显卡上可达到37Fps的实时运行效果,满足实际场景中的速度要求。同时,采用了创新的损失函数,针对激光雷达所获得的标签值具有“近密远疏”的特点,通过定义距离加权系数,按深度区域分区计算损失值的方式,提高网络对不同深度范围的敏感性,在全局范围内降低了预测误差,尤其在中远距离上,表现更为优异。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于注意力机制和多级代价体的双目深度估计方法,其特征在于,包括以下步骤:
步骤1、对采集的图像对进行预处理,通过特征提取模块提取多尺度特征图,包括1/2尺度、1/4尺度、1/8尺度和原始尺度;
步骤2、将左、右图像的1/8尺度特征图串联构建深度代价体,通过三维空洞卷积进行初步聚合,采用Soft-Argmin函数生成初始深度图;
步骤3、初始深度图经超分辨率上采样模块生成1/4尺度粗深度图,馈入引导子网络,生成后续步骤所需的深度权重图;
步骤4、使用1/4尺度特征图串联构建深度代价体,由步骤3中的深度权重图作为初始激励激发高尺度代价体中的几何特征,指导聚合,输出1/4尺度的优化深度图;
步骤5、重复步骤3、步骤4处理更高尺度下的特征图,直至输出所需尺度深度图;
步骤6、构建损失函数,划分深度区域并定义距离加权系数,分区计算深度与标签的加权损失值后求和取得总损失值,当模型训练过程中损失值收敛不再波动时,保存模型参数;
步骤7、加载预训练模型,输入预处理的双目图像和相应的相机标定参数后,模型将输出深度图。
2.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,所述特征提取模块包括空洞卷积模块和标准卷积模块堆叠而成,其中空洞卷积模块用于扩大感受野,标准卷积模块无偏差的标准卷积用于重映射。
3.根据权利要求2所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,空洞卷积模块包括5层空洞卷积,扩张率分别为1、2、4、8、1;标准卷积模块包括二维卷积、批归一化和LeakyRelu激活函数依次连接组成,其中使用无偏差二维卷积的标准卷积模块用于1/8、1/4和1/2尺度特征图的输出层,对特征进行重映射,便于后续操作对特征的复用。
4.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,使用Soft-Argmin函数生成深度图的表达式如下:
Figure FDA0004119666450000011
Figure FDA0004119666450000012
其中,σ(·)是Softmax函数,
Figure FDA0004119666450000013
是经三维空洞卷积对代价体初步聚合后出的置信度向量,/>
Figure FDA0004119666450000014
表示归一化后的置信度向量,Z是输出深度图,G是超参数,代表了深度颗粒度,/>
Figure FDA0004119666450000015
表示了其中的深度颗粒度区间i对应的置信度向量,Zmax是预先设定好的最大深度。
5.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,所述超分辨率上采样模块将初始深度图和左目1/8尺度特征图通过卷积层提取特征并沿通道拼接,拼接成的融合特征图经残差卷积层聚合后与初始深度图相加,得到精化初始深度图;采用双线性插值法将精化初始深度图上采样至1/4尺度后,与左目1/4尺度特征图融合,重复拼接操作进行精化,从而输出1/4尺度粗深度图,作为后续深度权重图的数据来源。
6.根据权利要求5所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,所述残差卷积层包括多个残差模块和输出卷积层,每个残差模块中输入的特征经由多个二维卷积、批归一化、LeakyRelu激活函数依次处理后,与自身相加后再次通过LeakyRelu激活函数激活,激活的结果作为残差模块的输出,用于进一步聚合融合特征图的特征信息;输出卷积层采用卷积核为1×1的二维卷积,用于输出残差估计。
7.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,所述引导子网络是基于注意力机制,使用五层二维卷积在1/4尺度粗深度图的每个位置为每个感兴趣的像素及其周围邻域计算自适应权重向量,并使用Sigmoid函数对通道向量归一化,映射到[0,1]的概率分布中,得到深度权重图,即1/4尺度下的激励引导权重,代表了高尺度下深度图对低尺度深度图的注意力依赖。
8.根据权利要求1所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,1/4尺度的优化深度图生成过程,具体步骤包括:
首先,将1/4尺度的左、右图像特征图串联构建深度代价体,经一层三维空洞卷积进行简单融合后,由步骤3输出的深度权重图与步骤4构建的代价体进行广播乘法,以激发相应的几何特征,相当于在空间分布上对深度信息进行更新调整;
然后,沿深度维度将各通道上的代价求和,得到压缩维度后的深度残差图,并与步骤3上采样得到的1/4尺度粗深度图相加,得到最终的优化深度图。
9.根据权利要求1~8任一项所述的基于注意力机制和多级代价体的双目深度估计方法,其特征在于,所述损失函数将整个深度范围划分为数个区域,计算每个区域内的距离加权系数,以及预测值与标签值的平均绝对误差,将距离加权系数和平均绝对误相乘表示该区域的损失值,将所有区域损失值求和作为最终用于反向传播的总损失值;
所述距离加权系数ωk如下:
Figure FDA0004119666450000031
其中,dp表示预测值,dg表示标签值,Rk表示所划分的深度区域,
Figure FDA0004119666450000032
表示该深度区域内像素点数量;
所述损失函数
Figure FDA0004119666450000033
如下:
Figure FDA0004119666450000034
其中,ωk表示距离加权系数,dp表示预测值,dg表示标签值,Rk表示所划分的深度区域,
Figure FDA0004119666450000035
表示该深度区域内像素点数量。
10.实现权利要求9所述的一种基于注意力机制和多级代价体的双目深度估计方法的系统,其特征在于,包括:
图像采集与预处理模块,获取时间同步的左、右图像,对图像进行参数标定、极线校正和归一化预处理;
特征提取模块,用于利用标准卷积和空洞卷积,从预处理后的左、右图像中提取1/2尺度、1/4尺度和1/8尺度特征图;
深度激励模块,包含使用1/8尺度特征图,通过Soft-Argmin函数和超分辨上采样模块生成1/4尺度的初始深度图;以及基于通道注意力机制的引导子网络,从低尺度深度图提取自适应的深度激励权重,与高尺度特征图搭建的深度代价体进行加权精化,指导代价聚合;
模型训练模块,划分深度区域并定义距离加权系数,分区计算深度与标签的加权损失值后求和取得总损失值,当训练过程中损失值收敛不再波动时,保存模型参数;
模型测试模块,对相机进行标定,获得相机焦距和双目基线数据,将同一时刻同时曝光的双目图像输入预训练模型中,输出相同尺寸深度图。
CN202310229341.5A 2023-03-09 2023-03-09 基于注意力机制和多级代价体的双目深度估计方法及系统 Pending CN116258758A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310229341.5A CN116258758A (zh) 2023-03-09 2023-03-09 基于注意力机制和多级代价体的双目深度估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310229341.5A CN116258758A (zh) 2023-03-09 2023-03-09 基于注意力机制和多级代价体的双目深度估计方法及系统

Publications (1)

Publication Number Publication Date
CN116258758A true CN116258758A (zh) 2023-06-13

Family

ID=86680743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310229341.5A Pending CN116258758A (zh) 2023-03-09 2023-03-09 基于注意力机制和多级代价体的双目深度估计方法及系统

Country Status (1)

Country Link
CN (1) CN116258758A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740162A (zh) * 2023-08-14 2023-09-12 东莞市爱培科技术有限公司 一种基于多尺度代价卷的立体匹配方法及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740162A (zh) * 2023-08-14 2023-09-12 东莞市爱培科技术有限公司 一种基于多尺度代价卷的立体匹配方法及计算机存储介质
CN116740162B (zh) * 2023-08-14 2023-11-14 东莞市爱培科技术有限公司 一种基于多尺度代价卷的立体匹配方法及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110533712B (zh) 一种基于卷积神经网络的双目立体匹配方法
CN107767413B (zh) 一种基于卷积神经网络的图像深度估计方法
US20210042954A1 (en) Binocular matching method and apparatus, device and storage medium
WO2019223382A1 (zh) 单目深度估计方法及其装置、设备和存储介质
CN111179314A (zh) 一种基于残差密集孪生网络的目标跟踪方法
CN111915660B (zh) 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN109377530A (zh) 一种基于深度神经网络的双目深度估计方法
CN111402311B (zh) 一种基于知识蒸馏的轻量级立体视差估计方法
CN106815594A (zh) 立体匹配方法及装置
EP3001382B1 (en) Method and apparatus for generating disparity map based on image frames photographed by stereo camera
CN116258758A (zh) 基于注意力机制和多级代价体的双目深度估计方法及系统
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
CN111553296B (zh) 一种基于fpga实现的二值神经网络立体视觉匹配方法
CN116402876A (zh) 双目深度估计方法、装置、嵌入式设备和可读存储介质
CN113283485A (zh) 目标检测方法及其模型的训练方法和相关装置及介质
CN113762267A (zh) 一种基于语义关联的多尺度双目立体匹配方法及装置
CN113763446A (zh) 一种基于引导信息的立体匹配方法
CN111127401A (zh) 一种基于深度学习的机器人立体视觉机械零件检测方法
CN108305281A (zh) 图像的校准方法、装置、存储介质、程序产品和电子设备
CN115511759A (zh) 一种基于级联特征交互的点云图像深度补全方法
CN116188893A (zh) 基于bev的图像检测模型训练及目标检测方法和装置
CN114742875A (zh) 基于多尺度特征提取和自适应聚合的双目立体匹配方法
CN113034666B (zh) 一种基于金字塔视差优化代价计算的立体匹配方法
CN115965961B (zh) 局部到全局的多模态融合方法、系统、设备及存储介质
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination