CN115035171A - 基于自注意力导向特征融合的自监督单目深度估计方法 - Google Patents
基于自注意力导向特征融合的自监督单目深度估计方法 Download PDFInfo
- Publication number
- CN115035171A CN115035171A CN202210606117.9A CN202210606117A CN115035171A CN 115035171 A CN115035171 A CN 115035171A CN 202210606117 A CN202210606117 A CN 202210606117A CN 115035171 A CN115035171 A CN 115035171A
- Authority
- CN
- China
- Prior art keywords
- attention
- depth estimation
- self
- module
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于注意力导向特征融合的自监督单目深度估计方法,本发明在编码器中加入通道自注意力模块用以捕获结构场景中更多的全局上下文信息,进而增强特征表示;在解码器中设计基于空间交叉注意力机制的特征融合模块,将增强的特征作为high‑level的特征来引导low‑level特征进一步校准解码器中的特征,以强调特定的语义信息,增强在非连续区域的特征表示能力;最后,解码器输出连接多层深度估计模块,以监督解码器中间层的结果,提高深度估计的精度,防止粗尺度上的估计误差累积并影响到细尺度上的估计,获得更加准确的深度图。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种基于注意力导向特征融合的自监督单目深度估计方法。
背景技术
单目图像深度估计在自动驾驶、三维重建、增强现实等计算机视觉任务中有着广泛且重要的应用。随着深度卷积神经网络(Convolutional Neural Networks,CNN)的发展,基于CNN的单目图像深度估计方法已经可以从单张图像直接获取准确的目标深度信息,即实际3D物体投射到2D图像中每个像素点与相机的距离。相比于使用深度传感器,如结构光或激光雷达等主动探测深度的方法,单目深度估计则不需要昂贵的设备,因此在实际应用中要更加便捷。
在单目深度估计任务中,根据是否需要真实深度信息可以进一步划分为全监督单目深度估计和自/无监督单目深度估计。尽管全监督的方法的精度较高,但由于该方法需要大量且多样的真实深度标签,在训练数据的准备中往往成本较高。近年来,自监督深度估计,作为一种重要且极具挑战性的方法,凭借其利用没有标签的视频或双目数据直接端到端的训练深度网络的优势成为研究的热点,并且取得了大量的研究成果。Monodepth2的提出也为自监督单目深度估计提供了一套较为完整的框架,有效解决了遮挡以及违反相机运动假设的像素点的深度估计问题。但是,该方法仍然存在许多不足。一方面,Monodepth2中没有充分利用图像中的语义信息,只是简单地使用CNN来获取输入图像的语义特征并隐式地学习场景结构信息,这些不够鲁棒的场景结构表示会导致全局上下文信息感知不完整。另一方面,跳跃连接作为U-Net网络中的重要结构,目的是在解码过程中恢复下采样丢失的信息,然而使用拼接来融合层之间的特征缺乏对局部细节的进一步处理,忽视了不同level特征中语义信息和空间信息之间的差异,因此使用跳跃连接来融合low-level特征和high-level特征所带来的增益是非常有限的。
发明内容
本发明的目的是提供一种基于注意力导向特征融合的自监督单目深度估计方法,解决了现有技术中存在的全局上下文信息感知不完整以及不同level特征融合不充分的问题。
本发明所采用的技术方案是:
基于注意力导向特征融合的自监督单目深度估计方法,其包括以下步骤:
步骤1,使用连续的视频帧或者双目图像作为数据集,将图片调整至同一大小后作为训练集进行数据增广;
步骤2,构建基于注意力导向特征融合的自监督单目深度估计框架,包括改进的深度估计网络和位姿估计网络:
改进的深度估计网络包括依次连接的编码器和解码器,所述编码器使用ResNet18,编码器的输出端连接解码器,解码器为5层结构,每层包含卷积以及上采样模块,其中第2、3、4、5层依次连接有空间交叉注意力模块以及深度估计模块;所述编码器的输出还连接通道自注意力模块,通道自注意力模块的输出分别与每个空间交叉注意力模块的输入连接;
步骤3,设计损失函数,采用数据增广后的训练集和验证集对基于注意力导向特征融合的自监督单目深度估计框架进行训练;
步骤4,输入待估计图片,采用训练好改进的深度估计网络对待估计图片进行深度估计输出结果。
本发明的特点还在于:
所述步骤1中的数据增广方法包括依次进行的随机水平翻转、随机亮度、对比度、饱和度以及色调抖动。
所述空间交叉注意力特征融合模块对输入的增强特征做如下操作:针对使用临近点插值的方式对其进行上采样到40×128分辨率,并通过1×1卷积转化为query特征:Query=Q(x)。针对X使用平均池化的方式也对其进行下采样到40×128分辨率,并使用1×1卷积得到key和value特征:Key=K(x)和Value=V(x),按矩阵乘法得到空间交叉注意力图最终获取融合特征F。
所述损失函数采用图像重投影损失和平滑度损失,公式分别为:
其中,Lph表示重投影损失,It和Is→t分别为t时刻的原始图像和重构图像,SSIM以3×3的像素窗口来计算图像的相似性,α和β为超参数;Ls表示平滑度损失,dt *为t时刻平均归一化深度的倒数;
为了解决遮挡的区域并剔除与相对相机运动静止的目标,在损失函数中使用最小重投影损失与auto-mask进行改进:
其中μ为auto-mask,[]内条件满足记为1,不满足为0;
则总损失函数L为:
其中S=4为层数,Lp为最小光度误差,μ为auto-mask,λ为平滑度损失的权值。
本发明的有益效果是:
本发明在编码器中加入通道自注意力模块用以捕获结构场景中更多的全局上下文信息,进而增强特征表示;在解码器中设计基于空间交叉注意力机制的特征融合模块,将增强的特征作为high-level的特征来引导low-level特征进一步校准解码器中的特征,以强调特定的语义信息,增强在非连续区域的特征表示能力;最后,解码器输出连接多层深度估计模块,以监督解码器中间层的结果,提高深度估计的精度,防止粗尺度上的估计误差累积并影响到细尺度上的估计,获得更加准确的深度图。
附图说明
图1是本发明的基于注意力导向特征融合的自监督单目深度估计算法的流程图;
图2是本发明的通道自注意力模块流程图;
图3是本发明的空间交叉注意力特征融合模块的流程图;
图4是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图;
图5是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图;
图6是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图;
图7是实施例1中采用本发明与Monodepth2方法对某一图片进行深度估计的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于注意力导向特征融合的自监督单目深度估计方法,如图1,包括以下步骤:
步骤1,使用KITTI作为数据集,将图片调整至同一大小后划分为训练集验证集和测试集;分别对训练集和验证集的数据进行数据增广;
步骤2,构建基于注意力导向特征融合的自监督单目深度估计框架,包括改进的深度估计网络和位姿估计网络:
改进的深度估计网络包括依次连接的编码器和解码器,编码器使用ResNet18,编码器的输出端连接解码器,解码器为5层结构,每层包含卷积以及上采样模块,其中第2、3、4、5层依次连接有空间交叉注意力模块以及深度估计模块;编码器的输出还连接通道自注意力模块,通道自注意力模块的输出分别与每个空间交叉注意力模块的输入连接;
步骤3,设计损失函数,采用数据增广后的训练集和验证集对基于注意力导向特征融合的自监督单目深度估计框架进行训练;
步骤4,输入待估计图片,采用训练好改进的深度估计网络对待估计图片进行深度估计输出结果。
其中步骤1中的数据增广方法如下:
步骤1.1:图像水平翻转;概率为0.5;
步骤1.2:图像对比度偏移,偏移系数范围为0.8~1.2;概率为0.5;
步骤1.3:图像亮度偏移,偏移系数范围为0.8~1.2;概率为0.5;
步骤1.4:图像饱和度偏移,偏移系数为0.8~1.2;概率为0.5。
步骤1.5:图像色调抖动,抖动系数为-0.1~0.1;概率为0.5。
其中步骤2中通道自注意力模块如图2,对输入的原始特征做如下操作:
在深度估计中,编码器输出的high-level特征图中每个值可以看作是一个特定区域的响应,通道自注意力模块的作用就是使每个通道图从所有其他通道图中捕获更多不同区域的响应,将从远处区域获得更多的相对深度信息,并显著增强对场景结构上下文信息的感知能力。
针对使用临近点插值的方式对其进行上采样到40×128分辨率,并通过1×1卷积转化为query特征:Query=Q(x)。针对X使用平均池化的方式也对其进行下采样到40×128分辨率,并使用1×1卷积得到key和value特征:Key=K(x)和Value=V(x)。按矩阵乘法得到空间交叉注意力图最终获取融合特征F,公式如下:
预测更锐利的边缘核心在于更好地处理局部细节,上述融合模块的优势在于引导网络清楚地认识所描述对象边界特征的类别和位置信息,这种融合high-level和low-level特征以对深度特征重新校准的操作可以自适应地在多尺度强调目标边缘地关键细节信息。
步骤2中的深度估计模块为依次连接的一个3×3卷积层和一个Sigmoid函数。
步骤2中的位姿估计网络的结构为:ResNet18作为编码器,并与位姿解码器连接。
步骤3中基于注意力导向特征融合的自监督单目深度估计框架采用图像重投影损失:假设一张t时刻的RGB图像为It,对应的深度图为Dt,利用已知相机内参K对It反投影到3D空间内,再根据估计的相机位姿Tt→s与s时刻的图像Is对3D空间的点进行重投影,可以得到重建的t时刻图像Is→t,并比较Is→t和It的相似性来计算损失函数。图像重投影损失包括结构相似性误差(Structural Similarity Index Measure,SSIM)和L1误差:
Is→t=Is<KTt→sDtK-1pt>
其中Lph表示重投影损失,pt表示It中的像素坐标,重建过程表示为<>,主要为双线性插值,SSIM以3×3的像素窗口来计算图像的相似性,α和β为超参数。
平滑度损失:为了获得密集的深度结果,需要使深度在局部上保持平滑,使用如下公式来惩罚边缘梯度过大的区域:
除此之外,为了处理遮挡像素以及违反相机运动假设的像素,分别在损失函数中使用最小重投影损失与auto-mask进行改进:
其中Lp为最小光度误差,μ为auto-mask,[]内条件满足记为1,不满足为0。
总损失函数的计算为:
其中S=4为层数,λ为平滑度损失的权值。
深度估计网络和位姿估计网络均采用Adam优化器进行训练,训练过程中,深度估计网络输入单张RGB图像输出对应的深度图,使用ResNet18为网络骨架利用卷积池化层进行逐级下采样,解码器部分利用卷积并逐级上采样,原始输入图像中的空间信息与图像中的边缘信息会逐渐恢复,并且使用跳跃连接结构,即解码器每层特征与对应编码器中的特征使用拼接的方式在通道上融合,提供多尺度层次信息,以达到更精细的效果。位姿估计网络是基于ResNet18设计,可以输入两张RGB图像估计6自由度相对位姿旋转和平移参数。
实施例1
本实施例使用KITTI作为主要数据,作为计算机视觉领域中的基本数据集,广泛应用于深度估计任务中。其包含由RGB相机捕获的200个街景视频,并带有对应的真实深度标签。本发明将去除静态帧作为预处理步骤,并且把数据划分3份:39810张图像作为训练集,4424张图像作为验证集以及697张图像为测试集。
本发明分别在视频序列(M)以及双目图像对(S)作为训练数据,按照Monodepth2中的方法进行归一化和数据增广,输入的图像被调整到320×1024分辨率。本发明使用1张Tesla V100显卡训练整个网络,并在训练过程中,使用Adam优化器训练迭代20次,每一批10张图片,初始学习率设置为10-4用于前15次迭代训练,之后降为10-5用于后续的训练。训练的序列由3张连续帧图像组成。在图像重投影损失中SSIM的权重α=0.85,L1的权重β=0.15,平滑度损失的权重λ=10-3。
综合以上的描述,表1和表2展示了本发明的方法与原Monodepth2在KITTI数据集上的测试结果,并使用绝对相对误差(AbsRel)、平方相对误差(SqRel)、均方根误差(RMSE)、对数均方根误差(RMSElog)以及不同阈值精确度(δ<1.25、δ<1.252和δ<1.253)描述测试结果的精度。可以发现不管使用视频序列还是双目图像对,相比Monodepth2本发明在所有指标上都由明显的提升,在M训练上,比较突出的是Abs Rel降低了9%,Sq Rel降低了11%以及δ<1.25上提高了1.6%。说明本发明的方法可以在Monodepth2为基础上获得更好的精度。
其中绝对相对误差(AbsRel)、平方相对误差(SqRel)、均方根误差(RMSE)、对数均方根误差(RMSElog)以及不同阈值精确度(δ<1.25、δ<1.252和δ<1.253)的计算公式为:
其中d和d*分别为预测的深度值和真实的深度值,D为图像中所有预测值的集合。
表1本发明方法与Monodepth2的对比结果(1)
表2本发明方法与Monodepth2的对比结果(2)
除此之外,图4~图7还展示了深度结果可视化的对比图,其中(a)为待估计图片、(b)为采用Monodepth2方法以M为训练数据进行估计的结果图,(c)在采用本发明方法预测的深度结果图,可以看出本发明模型的深度预测要更加准确,尤其是在目标边缘以及相对较细对象等细节预测上,更能看出本发明的优势。
Claims (6)
1.基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,包括以下步骤:
步骤1,使用连续的视频帧或者双目图像作为数据集,将图片调整至同一大小后作为训练集进行数据增广;
步骤2,构建基于注意力导向特征融合的自监督单目深度估计框架,包括改进的深度估计网络和位姿估计网络:
改进的深度估计网络包括依次连接的编码器和解码器,所述编码器使用ResNet18,编码器的输出端连接解码器,解码器为5层结构,每层包含卷积以及上采样模块,其中第2、3、4、5层依次连接有空间交叉注意力模块以及深度估计模块;所述编码器的输出还连接通道自注意力模块,通道自注意力模块的输出分别与每个空间交叉注意力模块的输入连接;
步骤3,设计损失函数,采用数据增广后的训练集和验证集对基于注意力导向特征融合的自监督单目深度估计框架进行训练;
步骤4,输入待估计图片,采用训练好改进的深度估计网络对待估计图片进行深度估计输出结果。
2.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,所述步骤1中的数据增广方法包括依次进行的随机水平翻转、随机亮度、对比度、饱和度以及色调抖动。
5.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,所述损失函数采用图像重投影损失和平滑度损失,公式分别为:
其中,Lph表示重投影损失,It和Is→t分别为t时刻的原始图像和重构图像,SSIM以3×3的像素窗口来计算图像的相似性,α和β为超参数;Ls表示平滑度损失,dt *为t时刻平均归一化深度的倒数;
为了解决遮挡的区域并剔除与相对相机运动静止的目标,在损失函数中使用最小重投影损失与auto-mask进行改进:
其中μ为auto-mask,[]内条件满足记为1,不满足为0;
则总损失函数L为:
其中,Lp为最小光度误差,μ为auto-mask,S=4为层数,λ为平滑度损失的权值。
6.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,深度估计网络和位姿估计网络均采用Adam优化器进行训练,训练过程中,深度估计网络输入单张RGB图像输出对应的深度图,使用ResNet18为网络骨架利用卷积池化层进行逐级下采样,解码器部分利用卷积并逐级上采样,原始输入图像中的空间信息与图像中的边缘信息会逐渐恢复,并且使用跳跃连接结构,即解码器每层特征与对应编码器中的特征使用拼接的方式在通道上融合,提供多尺度层次信息,以达到更精细的效果;位姿估计网络是基于ResNet18设计,可以输入两张RGB图像估计6自由度相对位姿旋转和平移参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210606117.9A CN115035171A (zh) | 2022-05-31 | 2022-05-31 | 基于自注意力导向特征融合的自监督单目深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210606117.9A CN115035171A (zh) | 2022-05-31 | 2022-05-31 | 基于自注意力导向特征融合的自监督单目深度估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035171A true CN115035171A (zh) | 2022-09-09 |
Family
ID=83123004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210606117.9A Pending CN115035171A (zh) | 2022-05-31 | 2022-05-31 | 基于自注意力导向特征融合的自监督单目深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035171A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258756A (zh) * | 2023-02-23 | 2023-06-13 | 齐鲁工业大学(山东省科学院) | 一种自监督单目深度估计方法及系统 |
CN116385665A (zh) * | 2023-06-02 | 2023-07-04 | 合肥吉麦智能装备有限公司 | 一种面向双模g臂x光机多视角x光图像三维重建方法 |
CN117726666A (zh) * | 2024-02-08 | 2024-03-19 | 北京邮电大学 | 跨相机单目图片度量深度估计方法、装置、设备及介质 |
-
2022
- 2022-05-31 CN CN202210606117.9A patent/CN115035171A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258756A (zh) * | 2023-02-23 | 2023-06-13 | 齐鲁工业大学(山东省科学院) | 一种自监督单目深度估计方法及系统 |
CN116258756B (zh) * | 2023-02-23 | 2024-03-08 | 齐鲁工业大学(山东省科学院) | 一种自监督单目深度估计方法及系统 |
CN116385665A (zh) * | 2023-06-02 | 2023-07-04 | 合肥吉麦智能装备有限公司 | 一种面向双模g臂x光机多视角x光图像三维重建方法 |
CN117726666A (zh) * | 2024-02-08 | 2024-03-19 | 北京邮电大学 | 跨相机单目图片度量深度估计方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782490B (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN110163246B (zh) | 基于卷积神经网络的单目光场图像无监督深度估计方法 | |
CN109064507B (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
US20210150747A1 (en) | Depth image generation method and device | |
CN112001960B (zh) | 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法 | |
CN111539887B (zh) | 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法 | |
CN115035171A (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN111105432B (zh) | 基于深度学习的无监督端到端的驾驶环境感知方法 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113313732A (zh) | 一种基于自监督学习的前视场景深度估计方法 | |
CN109903315B (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
CN113850900A (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
CN110942484A (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
CN115294282A (zh) | 三维场景重建中增强特征融合的单目深度估计系统及其方法 | |
CN115170915A (zh) | 一种基于端到端注意力网络的红外与可见光图像融合方法 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN115187638A (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN111369435B (zh) | 基于自适应稳定模型的彩色图像深度上采样方法及系统 | |
CN112270691A (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN111754561A (zh) | 基于自监督深度学习的光场图像深度恢复方法及系统 | |
CN115830090A (zh) | 一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法 | |
CN115423927A (zh) | 一种基于ViT的多视角3D重建方法及系统 | |
CN110766732A (zh) | 一种鲁棒的单相机深度图估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |