CN116485860A - 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 - Google Patents
一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 Download PDFInfo
- Publication number
- CN116485860A CN116485860A CN202310429798.0A CN202310429798A CN116485860A CN 116485860 A CN116485860 A CN 116485860A CN 202310429798 A CN202310429798 A CN 202310429798A CN 116485860 A CN116485860 A CN 116485860A
- Authority
- CN
- China
- Prior art keywords
- attention
- features
- scale
- feature
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 17
- 230000000750 progressive effect Effects 0.000 title claims abstract description 17
- 230000002776 aggregation Effects 0.000 title abstract description 7
- 238000004220 aggregation Methods 0.000 title abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 235000001275 Bouea macrophylla Nutrition 0.000 claims description 3
- 240000001160 Bouea macrophylla Species 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉图像处理领域,提出了一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,包括以下步骤:在编码器中首先使用预训练后的ResNet‑50网络从输入的RGB图像中逐渐提取多尺度的特征,之后添加Transformer模块帮助解决卷积神经网络有限的感受野问题,指导提取编码器最终的深度特征图;其次,在解码器中,通过提出的查询注意模块渐进式地交互查询和利用来自多尺度ResNet‑50卷积模块提取的不同区域特征以及Transformer模块提取的全局上下文信息特征,做到充分增强和融合空间信息的多样性和相关性,逐渐查询细化边缘特征。本文提出的查询交叉注意模块(QAM)既能够充分地利用卷积神经网络对空间相关性建模的归纳偏差又能够使用Transformer对全局关系建模从而获得更细粒度和密集的深度特征表示,生成高质量的深度预测图。
Description
技术领域:
本发明属于计算机视觉图像处理领域,具体来说,提出了一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法。
背景技术:
该部分的陈述仅仅是涉及了与发明相关的技术背景,并不必然构成现有技术。
基于单目图像的深度预测是光度学计算机视觉领域的一个重要研究课题。它的目标是从特定视角的图像中生成像素级别的深度图,给定输入RGB图像,深度预测模型生成密集的深度图(最佳彩色视图),深度图中的颜色对应于该像素的距离,黄色和蓝色分别表示远和近。这样的深度信息有助于更好地理解3D场景,并且还促进了许多计算机视觉任务,例如室内定位、同时定位和映射(SLAM)、自动驾驶场景等。通常,深度信息通过商业深度传感器(例如各种LiDAR设备和Kinect)来获得。但是,除了成本、操作技能要求高外,还存在分辨率低、感知距离短等缺点,限制了其广泛应用。由于RGB图像的广泛应用,从单目图像中提取深度图的方法受到了越来越多的关注。然而,这是一个具有挑战性的不适定问题,因为它存在固有的尺度模糊,这意味着无限数量的可能的深度图可以与图像相关联。受深度学习在图像分类、对象检测和语义分割方面的强大性能的启发,许多研究人员尝试使用深度学习技术来解决单目深度预测问题,并相继提出了基于卷积神经网络(CNN)、递归神经网络(RNN)和生成对抗网络(GAN)的各种网络架构。与传统方法相比,取得了明显的效果。
在过去的十年中,CNN卷积神经网络一直是用于深度预测的主流方法。基于CNN的模型严重依赖于纹理信息来识别场景和对象,输入的图像通过卷积通道逐渐进行down-sample捕获多尺度特性,同时扩大接受域。然而,down sampling有一定的缺点,比如有限的感受野会导致全局上下文信息会有一定的损失。相比之下,基于Transformer的模型在更大程度上使用形状信息来执行单目深度预测任务,Transformer中的self-attention机制可以捕获远程视觉依赖,同时在每个阶段提供全局接受域,有利于进行像素级别的预测任务。但是Transformer也存在一些缺点:纯Transformer主干网络模型的复杂度高,参数量大,并且需要大量的数据进行学习和推理,训练的时间和成本较高;在特征融合阶段,简单的跳跃连接方法将低分辨率语义丰富的解码器特征与较高分辨率、语义较弱的编码器特征融合来缓解缺乏全局接收域,但是对于保留局部细节,例如场景和对象的边缘、轮廓细节是比较有挑战性的。
发明内容:
为了解决上述问题,本发明提出一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,采用混合主干网络的编码器结构,尝试在解码器阶段使用查询注意模快QAM,使用基于窗口的交叉注意和自注意力机制帮助将解码器的长距离上下文信息融合到通过Concat拼接增强边缘信息的编码器的特征中。具体来说,在编码器特征融合中,Concat拼接上一级编码器的特征和解码器特征来细化场景和对象的局部边缘分布。QAM模块初始使用来自Transformer模块输出的具有最大全局信息的粗糙特征图获得初始查询矩阵Q,从ResNet模块输出的最低分辨率特征图获得键K矩阵和值V矩阵,在卷积运算之后,经过交叉注意和多头自注意机制获得初始解码器特征表示;之后,QAM模块中的交叉注意机制从解码器特征表示中获得查询Q矩阵,从处理后的编码器特征中获得键K矩阵和值V矩阵,使用基于Swin-Transformer的思想,将注意力限制到窗口中计算关注度降低模型的复杂度,采用从粗到细的策略自底向上地融合编码器特征将解码器特征查询细化到更精细的尺度。利用解码器特征映射和对应的编码器特征映射之间的自相似性,不仅可以定位不同场景和对象的目标,而且提取的目标的边缘轮廓细节信息也很丰富,在提高训练速度的同时提高模型的性能和预测深度图结果的精确度。
1.一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于,该算法包含以下步骤:
1)此单目深度预测算法利用在ImageNet上预先训练好的ResNet-50架构初始化编码器网络的骨干网络提取多尺度的特征。
2)使用ResNet主干网络得到的最后一层输出特征映射作为Transformer层的输入进行处理,有效地提取和聚合整个场景信息,增强骨干网络输出特征的全局性和相关性。
3)使用自下而上的方法,从最低分辨率的的输出特征图开始,逐渐进行上采样,使用交叉注意力机制和跳跃连接从相应尺度的编码器特征图中不断强化边缘细节,融合全局和局部特征,得到更精细的特征表示。
4)使用尺度不变损失Scale-Invariant loss(SILog)监督和训练网络模型,计算预测深度值与地面真实值之间的差。
2.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤1)具体方法是:
2.1)下载单目深度预测方向的开源数据集NYU Depth v2数据集和KITTI数据集,NYU Depth v2是一个包含120K RGB-Depth对的室内数据集,深度图的范围为0-10m,KITTI是一个室外数据集,由安装在移动车辆顶部的多个传感器捕获的61个场景的立体图像和3D扫描组成,深度图的上限是80m。
2.2)对于KITTI数据集,使用随机裁剪(Random Crop)对来自32个场景的原始图像随机裁剪出大小为352×704的子图像作为新样本进行训练网络,使用来自其余29个场景的697张原始图像进行测试。对于NYU Depth v2数据集,使用随机裁剪对来自249个场景的原始图像随机裁剪出大小为416×512的子图像作为新样本进行训练网络,使用215个场景中的654张原始图像进行测试。
2.3)使用ResNet-50的预训练权重初始化编码器中的ResNet主干网络,避免从头开始训练导致特征提取效率低下并且不精确的问题,节约计算资源,提高模型的训练速度,对输入的RGB图像进行提取初始多尺度特征,生成的特征表示为分辨率大小分别为原始图像的/>通道数分别为{64,128,256,512}。
3.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤2)具体方法是:
3.1)为了弥补CNN卷积神经网络感受野固有的局限性,本算法在ResNet主干网路后增加了线性Transformer模块共同构成混合的编码器结构,不仅能更好的提取图像的全局特征,也让网络结构更简单和高效。
3.2)在Transformer模块中,使用ViT-B/16作为主干网络完成最终的特征提取任务,将特征表示进行线性投影得到一个展开的二维序列/>后传入此模块做进一步的处理。Transformer层数、隐藏层和多头注意力的参数分别设置为12、768和12,每个Transformer层包含层归一化、多头自注意机制、残差连接、层归一化、MLP多层感知器和残差连接操作。
3.3)Transformer模块将场景的全局信息聚合到特征表示中,以得到大小为的查询注意模块的初始输入序列QI。
4.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤3)具体方法是:
4.1)构建查询注意模块QAM,对于深度预测像素级别的密集估计任务,粗糙的语义上下文特征和精细的细节对于提高预测的准确性都至关重要,该模块从最低的分辨率特征图开始,逐渐进行上采样,使用交叉注意机制和跳跃连接查询对应尺度经过交互残差连接后的编码器特征图来有效地融合全局上下文和局部边缘细节特征。
4.2)在查询注意模块QAM中,首先,给定查询特征映射和特定比例i的相应残差连接后的编码器特征Ei,在/>和Ei上都使用执行Di通道的3×3卷积,使得解码器特征生成的查询特征映射的通道数与编码器特征映射中的通道数相同。之后,使用MLP层获得的权重矩阵WQ,WK和WV从/>获得查询矩阵Q,从Ei获得键K矩阵和值V矩阵。为了提高模型训练的效率,使用类似于Swin Transformer的思想,将注意力限制在局部的窗口模块中,窗口大小设置为7×7。在注意力窗口w中,设Qw、Kw、Vw是对应的查询、键和值矩阵,具体来说,
其中B表示相对位置偏差。B是尺寸大小为w2×w2的可学习矩阵,表示每个查询和值对对应的相对位置编码,用来为每个窗口w计算注意力,然后根据每个窗口在Q中的各自空间位置进行重新排列。
然后,交叉注意模块查询的特征表示在多头自我注意层中彼此汇总信息,再使用MLP层进行聚合。在第i层查询特征映射和编码器的特征Ei的具体说明如下,
K=WK(LayerNorm(conv(Ei))) (3)
V=WV(LayerNorm(conv(Ei))) (4)
其中卷积核的通道数Di分别为{128,256,512,1028},查询注意模块中每一级的多头注意数目分为{4,8,16,32}。
4.3)在编码器中,查询注意模块QAM的初始输出分别是由Transformer主干的输出特征和ResNet主干提取的特征/>经过UpSample上采样到分辨率的两倍。
解码器的输出特征对应编码器的特征/>以及上采样后的Ei+1经过Concat拼接操作得到增强边缘细节的特征Ei。
其中i∈{1,2,3},通过关注不同尺度下的增强特征Ei与解码器的输出特征将初始特征映射逐渐融合边缘细节特征。
最后对得到的特征映射进行卷积降维、激活函数、卷积和Sigmoid激活函数将每个通道的权重归一化到0-1之间,进一步提取和融合特征。
5.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤4)具体方法是:
为了计算像素位置i出的预测输出深度di与地面真实深度di *之间的对数距离,本算法使用尺度不变损失Scale-Invariant loss(SILog)训练模型。SILog损失函数使用缩放因子考虑了每个像素周围像素的数量,从而更好地处理尺度变化。
其中,n表示图像中的像素数,λ=0.85,α=10。
附图说明
图1多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法流程图
图2模型整体架构图
图3Transformer模块细节图
图4QAM注意查询模块细节图
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实施例仅仅是本发明一部分实施例,而不是所有的实施例。基于本发明中的实施例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
本发明的流程框架如图1所示,一种多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法流程图,具体操作如下:
1.此单目深度预测算法利用在ImageNet上预先训练好的ResNet-50架构初始化编码器网络的骨干网络提取多尺度的特征。
1.1下载单目深度预测方向的开源数据集NYU Depth v2数据集和KITTI数据集,NYU Depth v2是一个包含120K RGB-Depth对的室内数据集,深度图的范围为0-10m,KITTI是一个室外数据集,由安装在移动车辆顶部的多个传感器捕获的61个场景的立体图像和3D扫描组成,深度图的上限是80m。
1.2对于KITTI数据集,使用随机裁剪(Random Crop)对来自32个场景的原始图像随机裁剪出大小为352×704的子图像作为新样本进行训练网络,使用来自其余29个场景的697张原始图像进行测试。对于NYU Depth v2数据集,使用随机裁剪对来自249个场景的原始图像随机裁剪出大小为416×512的子图像作为新样本进行训练网络,使用215个场景中的654张原始图像进行测试。
1.3使用ResNet-50的预训练权重初始化编码器中的ResNet主干网络,避免从头开始训练导致特征提取效率低下并且不精确的问题,节约计算资源,提高模型的训练速度,对输入的RGB图像进行提取初始多尺度特征,生成的特征表示为分辨率大小分别为原始图像的/>通道数分别为{64,128,256,512}。模型的整体架构如图2所示。
2.使用ResNet主干网络得到的最后一层输出特征映射作为Transformer层的输入进行处理,有效地提取和聚合整个场景信息,增强骨干网络输出特征的全局性和相关性。Transformer分支细节图如图3所示。
2.1为了弥补CNN卷积神经网络感受野固有的局限性,本算法在ResNet主干网路后增加了线性Transformer模块共同构成混合的编码器结构,不仅能更好的提取图像的全局特征,也让网络结构更简单和高效。
2.2在Transformer模块中,使用ViT-B/16作为主干网络完成最终的特征提取任务,将特征表示进行线性投影得到一个展开的二维序列/>后传入此模块做进一步的处理。Transformer层数、隐藏层和多头注意力的参数分别设置为12、768和12,每个Transformer层包含层归一化、多头自注意机制、残差连接、层归一化、MLP多层感知器和残差连接操作。
2.3Transformer模块将场景的全局信息聚合到特征表示中,以得到大小为的查询注意模块的初始输入序列QI。
3.使用自下而上的方法,从最低分辨率的输出特征图开始,逐渐进行上采样,使用交叉注意力机制和跳跃连接从相应尺度的编码器特征图中不断强化边缘细节,融合全局和局部特征,得到更精细的特征表示。QAM查询注意模块的细节如图4所示。
3.1构建查询注意模块QAM,对于深度预测像素级别的密集估计任务,粗糙的语义上下文特征和精细的细节对于提高预测的准确性都至关重要,该模块从最低的分辨率特征图开始,逐渐进行上采样,使用交叉注意机制和跳跃连接查询对应尺度经过交互连接后的编码器特征图来有效地融合全局上下文和局部边缘细节特征。
3.2在查询注意模块QAM中,首先,给定查询特征映射和特定比例i的相应连接后的编码器特征Ei,在/>和Ei上都使用执行Di通道的3×3卷积,使得解码器特征生成的查询特征映射的通道数与编码器特征映射中的通道数相同;之后,使用MLP层获得的权重矩阵WQ,WK和WV从/>获得查询矩阵Q,从Ei获得键K矩阵和值V矩阵。为了提高模型训练的效率,使用类似于Swin Transformer的思想,将注意力限制在局部的窗口模块中,窗口大小设置为7×7。在注意力窗口w中,设Qw、Kw、Vw是对应的查询、键和值矩阵,具体来说,
其中B表示相对位置偏差。B是尺寸大小为w2×w2的可学习矩阵,表示每个查询和值对对应的相对位置编码,用来为每个窗口w计算注意力,然后根据每个窗口在Q中的各自空间位置进行重新排列。
然后,交叉注意模块查询的特征表示在多头自我注意层中彼此汇总信息,再使用MLP层进行聚合。在第i层查询特征映射和编码器的特征Ei的具体说明如下,
K=WK(LayerNorm(conv(Ei))) (3)
V=WV(LayerNorm(conv(Ei))) (4)
其中卷积核的通道数Di分别为{128,256,512,1028},查询注意模块中每一级的多头注意数目分为{4,8,16,32}。
3.3在编码器中,查询注意模块QAM的初始输出分别是由Transformer主干的输出特征和ResNet主干提取的特征/>经过UpSample上采样到分辨率的两倍。
解码器的输出特征对应编码器的特征/>以及上采样后的Ei+1经过Concat拼接操作得到增强边缘细节的特征Ei。
其中i∈{1,2,3},通过关注不同尺度下的增强特征Ei与解码器的输出特征将初始特征映射逐渐融合边缘细节特征。
最后对得到的特征映射进行卷积降维、激活函数、卷积和Sigmoid激活函数将每个通道的权重归一化到0-1之间,进一步提取和融合特征。
4.为了计算像素位置i出的预测输出深度di与地面真实深度di *之间的对数距离,本算法使用尺度不变损失Scale-Invariant loss(SILog)训练模型。SILog损失函数使用缩放因子考虑了每个像素周围像素的数量,从而更好地处理尺度变化。
其中,n表示图像中的像素数,λ=0.85,α=10。
以上所述为本申请优选实施而以,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。
Claims (5)
1.一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于,该算法包含以下步骤:
1)此单目深度预测算法利用在ImageNet上预先训练好的ResNet-50架构初始化编码器网络的骨干网络提取多尺度的特征。
2)使用ResNet主干网络得到的最后一层输出特征映射作为Transformer层的输入进行处理,有效地提取和聚合整个场景信息,增强骨干网络输出特征的全局性和相关性。
3)使用自下而上的方法,从最低分辨率的的输出特征图开始,逐渐进行上采样,使用交叉注意力机制和跳跃连接从相应尺度的编码器特征图中不断强化边缘细节,融合全局和局部特征,得到更精细的特征表示。
4)使用尺度不变损失Scale-Invariant loss(SILog)监督和训练网络模型,计算预测深度值与地面真实值之间的差。
2.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤1)具体方法是:
2.1)下载单目深度预测方向的开源数据集NYU Depth v2数据集和KITTI数据集,NYUDepth v2是一个包含120K RGB-Depth对的室内数据集,深度图的范围为0-10m,KITTI是一个室外数据集,由安装在移动车辆顶部的多个传感器捕获的61个场景的立体图像和3D扫描组成,深度图的上限是80m。
2.2)对于KITTI数据集,使用随机裁剪(Random Crop)对来自32个场景的原始图像随机裁剪出大小为352×704的子图像作为新样本进行训练网络,使用来自其余29个场景的697张原始图像进行测试。对于NYU Depth v2数据集,使用随机裁剪对来自249个场景的原始图像随机裁剪出大小为416×512的子图像作为新样本进行训练网络,使用215个场景中的654张原始图像进行测试。
2.3)使用ResNet-50的预训练权重初始化编码器中的ResNet主干网络,避免从头开始训练导致特征提取效率低下并且不精确的问题,节约计算资源,提高模型的训练速度,对输入的RGB图像进行提取初始多尺度特征,生成的特征表示为分辨率大小分别为原始图像的/>通道数分别为{64,128,256,512}。
3.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤2)具体方法是:
3.1)为了弥补CNN卷积神经网络感受野固有的局限性,本算法在ResNet主干网路后增加了线性Transformer模块共同构成混合的编码器结构,不仅能更好的提取图像的全局特征,也让网络结构更简单和高效。
3.2)在Transformer模块中,使用ViT-B/16作为主干网络完成最终的特征提取任务,将特征表示进行线性投影得到一个展开的二维序列/>后传入此模块做进一步的处理。Transformer层数、隐藏层和多头注意力的参数分别设置为12、768和12,每个Transformer层包含层归一化、多头自注意机制、残差连接、层归一化、MLP多层感知器和残差连接操作。
3.3)Transformer模块将场景的全局信息聚合到特征表示中,以得到大小为的查询注意模块的初始输入序列QI。
4.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤3)具体方法是:
4.1)构建查询注意模块QAM,对于深度预测像素级别的密集估计任务,粗糙的语义上下文特征和精细的细节对于提高预测的准确性都至关重要,该模块从最低的分辨率特征图开始,逐渐进行上采样,使用交叉注意机制和跳跃连接查询对应尺度经过交互残差连接后的编码器特征图来有效地融合全局上下文和局部边缘细节特征。
4.2)在查询注意模块QAM中,首先,给定查询特征映射和特定比例i的相应残差连接后的编码器特征Ei,在/>和Ei上都使用执行Di通道的3×3卷积,使得解码器特征生成的查询特征映射的通道数与编码器特征映射中的通道数相同。之后,使用MLP层获得的权重矩阵WQ,WK和WV从/>获得查询矩阵Q,从Ei获得键K矩阵和值V矩阵。为了提高模型训练的效率,使用类似于Swin Transformer的思想,将注意力限制在局部的窗口模块中,窗口大小设置为7×7。在注意力窗口w中,设Qw、Kw、Vw是对应的查询、键和值矩阵,具体来说,
其中B表示相对位置偏差。B是尺寸大小为w2×w2的可学习矩阵,表示每个查询和值对对应的相对位置编码,用来为每个窗口w计算注意力,然后根据每个窗口在Q中的各自空间位置进行重新排列。
然后,交叉注意模块查询的特征表示在多头自我注意层中彼此汇总信息,再使用MLP层进行聚合。在第i层查询特征映射和编码器的特征Ei的具体说明如下,
K=WK(LayerNorm(conv(Ei))) (3)
V=WV(LayerNorm(conv(Ei))) (4)
其中卷积核的通道数Di分别为{128,256,512,1028},查询注意模块中每一级的多头注意数目分为{4,8,16,32}。
4.3)在编码器中,查询注意模块QAM的初始输出分别是由Transformer主干的输出特征和ResNet主干提取的特征/>经过UpSample上采样到分辨率的两倍。
解码器的输出特征对应编码器的特征/>以及上采样后的Ei+1经过Concat拼接操作得到增强边缘细节的特征Ei。
其中i∈{1,2,3},通过关注不同尺度下的增强特征Ei与解码器的输出特征将初始特征映射逐渐融合边缘细节特征。
最后对得到的特征映射进行卷积降维、激活函数、卷积和Sigmoid激活函数将每个通道的权重归一化到0-1之间,进一步提取和融合特征。
5.根据权利要求1所述的一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法,其特征在于:所述步骤4)具体方法是:
为了计算像素位置i出的预测输出深度di与地面真实深度di *之间的对数距离,本算法使用尺度不变损失Scale-Invariant loss(SILog)训练模型。SILog损失函数使用缩放因子考虑了每个像素周围像素的数量,从而更好地处理尺度变化。
其中,n表示图像中的像素数,λ=0.85,α=10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310429798.0A CN116485860A (zh) | 2023-04-18 | 2023-04-18 | 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310429798.0A CN116485860A (zh) | 2023-04-18 | 2023-04-18 | 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116485860A true CN116485860A (zh) | 2023-07-25 |
Family
ID=87216233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310429798.0A Pending CN116485860A (zh) | 2023-04-18 | 2023-04-18 | 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116485860A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036613A (zh) * | 2023-08-18 | 2023-11-10 | 武汉大学 | 一种基于多重感受野交融网络的偏振三维重建方法和系统 |
-
2023
- 2023-04-18 CN CN202310429798.0A patent/CN116485860A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036613A (zh) * | 2023-08-18 | 2023-11-10 | 武汉大学 | 一种基于多重感受野交融网络的偏振三维重建方法和系统 |
CN117036613B (zh) * | 2023-08-18 | 2024-04-02 | 武汉大学 | 一种基于多重感受野交融网络的偏振三维重建方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN109241982B (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
Gu et al. | Blind image quality assessment via learnable attention-based pooling | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN115082675B (zh) | 一种透明物体图像分割方法及系统 | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN112070174A (zh) | 一种基于深度学习的自然场景下文本检测方法 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN115346071A (zh) | 高置信局部特征与全局特征学习的图片分类方法及系统 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN116485860A (zh) | 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 | |
Zheng et al. | Feature pyramid of bi-directional stepped concatenation for small object detection | |
Wang et al. | Global contextual guided residual attention network for salient object detection | |
Cheng et al. | A survey on image semantic segmentation using deep learning techniques | |
Zheng et al. | Transformer-based hierarchical dynamic decoders for salient object detection | |
CN115578436A (zh) | 一种基于多级特征并行交互融合的单目深度预测方法 | |
CN114972851A (zh) | 一种基于遥感影像的船只目标智能检测方法 | |
Xu et al. | Salient object detection network with center pooling and distance-weighted affinity loss function | |
Lu et al. | GA-CSPN: generative adversarial monocular depth estimation with second-order convolutional spatial propagation network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |