CN116758130A - 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 - Google Patents
一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 Download PDFInfo
- Publication number
- CN116758130A CN116758130A CN202310755900.6A CN202310755900A CN116758130A CN 116758130 A CN116758130 A CN 116758130A CN 202310755900 A CN202310755900 A CN 202310755900A CN 116758130 A CN116758130 A CN 116758130A
- Authority
- CN
- China
- Prior art keywords
- feature
- decoder
- depth
- scale
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 title claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 230000009977 dual effect Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000010339 dilation Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 11
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000006698 induction Effects 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000013461 design Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机视觉领域中的一个基础研究课题,提出了一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,并构建了一种全新的编码器‑解码器框架。在编码器部分,本发明结合卷积神经网络与Transformer各自的优点,采用多路径结构在局部和全局区域同时进行推理,实现了精细和粗糙的多路径特征提取,获得了多样化的多尺度特征表示。特别地,空间金字塔池化模块(PSP)利用多尺度自适应池化操作来提取不同尺度下的语义信息,从而初始化解码器特征。在解码器部分,本发明引入了精心设计的编码器和解码器特征交互模块(EDFI),通过跳跃连接和双路径交叉自我注意机制,充分自适应地增强和融合全局上下文语义信息和精细的局部边缘信息。本发明充分利用了卷积神经网络的强大空间归纳和由Vision Transformer模型实现的全局信息推理,同时,结合灵活的轻量级解码器,本发明能够以更细粒度和更高的准确度完成深度预测。
Description
技术领域:
本发明属于计算机视觉图像处理领域,具体来说,提出了一种基于多路径特征提取和多尺度特征融合的单目深度预测方法。
背景技术:
该部分的陈述仅仅是涉及了与发明相关的技术背景,并不必然构成现有技术。
单目深度预测是是计算机视觉领域中长期以来一直受到积极研究的具有挑战性的基础课题。其任务是从给定输入的RGB彩色图像中,通过深度预测模型生成像素级别的密集深度图,深度图中包含图像中的场景相对于相机的距离信息。正确的像素场景深度信息对于完成更高级别的计算机视觉任务至关重要,包括三维重建、自动驾驶、3D目标检测和水下图像恢复等。通常,相比于成本和技术要求高的激光雷达相机设备,使用单目深度预测算法从单个图像直接预测场景深度是一种更具成本效益的方法。然而,由于单目深度预测问题固有的模糊性,传统方法通常会导致推理准确性低且概括性差,因此这是一个具有挑战性的不适定问题。近几年来,随着卷积神经网络(CNN)的出现,许多基于CNN的方法被广泛应用于深度预测任务。这些方法通常设计基于编码器-解码器的模型架构,并且显著提高了深度预测结果的准确性。
由于缺乏深度线索,充分利用长距离相关性(即对象间的距离关系)和局部信息(即对象内的一致性)对于准确的深度预测是至关重要的。研究人员通常在编码器阶段设计不同尺度的卷积算子扩大感受野,从粗到细捕获多尺度的特征,或者加入注意力机制来集成全局上下文信息。然而,具有有限感受野的卷积算子仍然难以充分捕获长距离相关性,这成为当前基于CNN卷积神经网络的深度预测方法的潜在瓶颈。相比于CNN,VisionTransformer(ViT)在像素级别的图像识别方面取得了巨大的成功,表现出在深度预测编码器上的优势,并引起了广泛的关注。得益于自我注意力机制,Transformer更擅长用全局感受野捕获长距离相关性,被认为比CNN表现更强的泛化能力,更类似于人类的认知过程。然而,在密集预测任务中,像素还必须理解局部信息。基于Transformer的编码器增加了网络的接收域,但在提取局部特征信息时可能缺乏空间归纳偏置,并丢失一些场景和对象的纹理信息,无法产生令人满意的性能。直接上采样到更高的分辨率和简单的融合会导致局部信息的丢失,因此,在解码器阶段,研究人员通过设计基于Transformer中自我注意力机制思想的跳跃连接方法,融合编码器和解码器阶段提取的多尺度特征信息来考虑和传递全局信息和本地局部信息,恢复图像的细节信息,产生精细的深度图。但是,这些框架在特征聚合阶段,会增加推理时的计算成本。因此,在实际的应用中,应考虑如何有效利用和结合CNN和Transformer的各自优点,提高模型性能的同时提高训练速度。
发明内容:
为了解决上述问题,本发明提出了一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,并构建了一种新颖的编码器和轻量级解码器结构。在编码器阶段,使用Multi-Path Vision Transformer(MPViT)作为骨干网络进行特征提取。MPViT由多尺度patch embedding(MS-PatchEmbed)和多路径Transformer(MP-Transformer)模块组成,构建了一个拥有四阶段的层次结构。每个阶段的输出特征用于生成不同尺度的特征图。在每个阶段的过程中,借鉴了CNN模型的思想,对patch embedding使用不同感受野的多尺度卷积核进行重叠卷积操作,产生具有相同分辨率的特征。然后,不同尺度的tokens被并行独立地传递到多个Transformer编码器中,执行全局自我关注和附加的卷积分支来保留局部信息。最后,将得到的特征进行聚合,保证在每一阶段保持语义上丰富且空间上精确的表示,通过在这种精细和粗糙的多层次特征提取,帮助实现更加准确的预测,提高模型的性能。在解码器阶段,提出一种轻量级的特征融合EDFI模块。该模块通过迭代上采样特征图,并利用自注意力机制有效地将解码器的长程全局信息编码融合到编码器提取的多尺度特征中。该过程从最低分辨率开始,向高分辨率移动。这种特征融合方式有助于将全局信息传递到高分辨率并保留局部信息特征,从而在提高训练速度的同时提高模型的性能和预测深度图结果的准确性。
1.一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于,该方法包含以下步骤:
1)此单目深度预测方法利用在ImageNet上预先训练好的Multi-Path VisionTransformer(MPViT)模型构建多尺度patch embedding和多路径特征提取结构,初始化编码器网络的骨干网络。
2)对MPViT主干网络得到的最后一层输出特征映射通过Pyramid Scene ParsingNetwork(PSP,空间金字塔池化模块)进行处理,获得不同尺度下的语义信息,有效地增强解码器初始输入特征的全局性和相关性。
3)使用自下而上的方法,从最低分辨率的输出特征图开始,通过迭代上采样操作,使用注意力机制和跳跃连接方法融合对应尺度的编码器和解码器特征图,进行多尺度局部特征和全局上下文信息聚合,预测更加精确的深度图。
4)使用尺度不变损失Scale-Invariant loss(SILog)训练和优化网络模型,计算预测深度值与真实深度值之间的差。
2.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤1)具体方法是:
2.1)下载单目深度预测方向的开源官方数据集NYU Depth v2数据集和KITTI数据集,NYU Depth v2提供了用640×480的像素分辨率捕获的不同室内场景的RGB图像和深度图,深度图的范围为0-10m,KITTI是由安装在移动车辆上的设备捕获的室外场景的立体图像和对应的3D激光扫描的数据集,深度图的上限是80m。
2.2)对于KITTI数据集,使用中心裁剪(Center crop)对来自26K的左视图图像的子集裁剪出大小为352×704的子图像作为样本用于训练和697个测试集图像测试网络。对于NYU Depth v2数据集,采用随机裁剪(Random crop)对包含50K的249个场景中的原始图像随机裁剪出大小为448×576的子图像训练网络,并在654张图像上进行测试。
2.3)下载并使用MPViT-Base的预训练权重文件初始化编码器中的MPViT骨干网络,避免从零开始训练导致特征图提取效率低下并且质量不高的问题,并且能够加快模型的训练速度,避免过拟合现象,提高模型的性能。
3.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤2)具体方法是:
3.1)MPViT主干网络首先对输入的RGB图像进行提取初始多尺度特征,生成的特征分别表示为分辨率大小分别为原始图像的/>通道数分别为{224,368,480,480}。
3.2)将包含场景中最重要细节也是最粗糙分辨率的尺度的特征图被作为输入传送到空间金字塔池化模块(PSP)中做进一步的处理。PSP模块使用多尺度自适应池化提取不同尺度下的语义信息,尺度的大小分别为{1×1,2×2,3×3,6×6}。
3.3)为了保持输出特征图的维度与输入特征图一致,在完成不同尺度的池化操作后,使用1×1卷积将特征图的维度变为输入特征图维度的然后,通过双线性插值法对这些特征图进行上采样,使其恢复到和输入特征图相同的尺寸,并执行Concat拼接操作将他们合并在一起,能够有效地聚合整个场景信息,并得到大小为/>的特征图,其中Nc1为512,H和W分别为输入特征图的高度和宽度。最后,为了进一步处理特征图并保持分辨率不变,本发明使用一个卷积层,将特征图的维度调整为128。
4.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤3)具体方法是:
4.1)对于密集预测任务,一个像素必须知道它是否位于一个物体的边界上,或者它是否属于一个共同表面上的一组像素,才能进行准确的预测。因此,本方法构建了一个轻量级并且有效地进行编码器和解码器特征交互的模块EDFI,自适应地选择和融合全局上下文语义信息和精细的本地局部信息。该模块从最低的分辨率特征图开始,向高分辨率移动。首先对编码器和解码器/>特征图都通过1×1卷积层将通道数改变为128,以方便匹配维度,然后使用双路径交叉注意机制和跳跃连接经过一系列卷积层,在不使用复杂的上采样方式和增加额外的注意力模块的情况下,增强学习丰富的全局上下文和局部边缘密集特征的能力。
4.2)在编码器和解码器特征交互模块EDFI中,首先,构建双路径交叉注意机制模块,自适应地关注重要位置。具体来说,
其中,i∈{1,2,3,4},WK,WQ和WV是权重矩阵,是经过卷积操作后大小为{Hi,Wi,Nc}的编码器特征映射,其中Nc为128,/>是对应尺度{Hi,Wi,Nc}的解码器特征映射,/>是两个特征沿着通道维度Concat拼接得到的特征,这里/>的大小为{Hi,Wi,2Nc},经过一层卷积后维度降低到Nc。
使用交叉协方差注意机制增强特征映射和/>具体来说,
其中,Attention(Q,K,V)=V·Softmax(QTK)。
然后,增加特征的非线性度,具体来说,
其中,LN表示层归一化操作,ReLU表示激活函数,conv1表示1×1卷积,DWConvr表示具有扩张率为r的3×3扩张卷积。
4.3)在解码器中,编码器和解码器特征交互模块EDFI的初始输入分别是由PSP模块的输出特征和MPViT骨干网络的最后一层输出特征/>然后经过UpSample上采样得到具体来说,
然后,通过融合不同尺度下的编码器特征与解码器的输出特征/>帮助初始特征映射逐渐增强全局的上下文信息以及局部连续性,具体来说,
这里,i∈{1,2,3}。
最后,对得到的解码器输出特征经过卷积、ReLU激活函数、卷积降维和Sigmoid激活函数操作,将每个通道的权重归一化到0-1之间,进一步提取和融合特征,预测深度图H×W×1,然后深度图乘以最大深度值(以米为单位)进行缩放。
5.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤4)具体方法是:
本发明使用尺度不变损失Scale-Invariant loss(SILog)优化和训练网络模型,计算像素位置i处的预测深度di与有效地面真实深度di *之间的对数距离。SILog损失函数将每个像素周围像素的数量用作缩放因子,更好地处理更小的对象,降低错误率。
这里,n表示图像中的像素数,λ=0.85,α=10。
附图说明
图1基于多路径特征提取和多尺度特征融合的单目深度预测方法流程图
图2MPViT骨干网络架构图
图3PSP模块细节图
图4编码器和解码器特征交互模块EDFI细节图
图5NYU Depth v2数据集上的结果对比表
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实施例仅仅是本发明一部分实施例,而不是所有的实施例。基于本发明中的实施例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
本发明的流程框架如图1所示,一种基于多路径特征提取和多尺度特征融合的单目深度预测方法流程图,具体操作如下:
1.此单目深度预测方法利用在ImageNet上预先训练好的Multi-Path VisionTransformer(MPViT)模型构建多尺度patch embedding和多路径特征提取结构,初始化编码器网络的骨干网络。
1.1下载单目深度预测方向的开源官方数据集NYU Depth v2数据集和KITTI数据集,NYU Depth v2提供了用640×480的像素分辨率捕获的不同室内场景的RGB图像和深度图,深度图的范围为0-10m,KITTI是由安装在移动车辆上的设备捕获的室外场景的立体图像和对应的3D激光扫描的数据集,深度图的上限是80m。
1.2对于KITTI数据集,使用中心裁剪(Center crop)对来自26K的左视图图像的子集裁剪出大小为352×704的子图像作为样本用于训练和697个测试集图像测试网络。对于NYU Depth v2数据集,采用随机裁剪(Random crop)对包含50K的249个场景中的原始图像随机裁剪出大小为448×576的子图像训练网络,并在654张图像上进行测试。
1.3下载并使用MPViT-Base的预训练权重文件初始化编码器中的MPViT骨干网络,避免从零开始训练导致特征图提取效率低下并且质量不高的问题,并且能够加快模型的训练速度,避免过拟合现象,提高模型的性能。网络的整体架构如图2所示。
2.对MPViT主干网络得到的最后一层输出特征映射通过Pyramid Scene ParsingNetwork(PSP,空间金字塔池化模块)进行处理,获得不同尺度下的语义信息,有效地增强解码器初始输入特征的全局性和相关性。PSP模块细节图如图3所示。
2.1MPViT主干网络首先对输入的RGB图像进行提取初始多尺度特征,生成的特征分别表示为分辨率大小分别为原始图像的/>通道数分别为{224,368,480,480}。
2.2将包含场景中最重要细节也是最粗糙分辨率的尺度的特征图被作为输入传送到空间金字塔池化模块(PSP)中做进一步的处理。PSP模块使用多尺度自适应池化提取不同尺度下的语义信息,尺度的大小分别为{1×1,2×2,3×3,6×6}。
2.3为了保持输出特征图的维度与输入特征图一致,在完成不同尺度的池化操作后,使用1×1卷积将特征图的维度变为输入特征图维度的然后,通过双线性插值法对这些特征图进行上采样,使其恢复到和输入特征图相同的尺寸,并执行Concat拼接操作将他们合并在一起,能够有效地聚合整个场景信息,并得到大小为/>的特征图,其中Nc1为512,H和W分别为输入特征图的高度和宽度。最后,为了进一步处理特征图并保持分辨率不变,本发明使用一个卷积层,将特征图的维度调整为128。
3.使用自下而上的方法,从最低分辨率的输出特征图开始,通过迭代上采样操作,使用注意力机制和跳跃连接方法融合对应尺度的编码器和解码器特征图,进行多尺度局部特征和全局上下文信息聚合,预测更加精确的深度图。编码器和解码器特征交互模块EDFI细节图如图4所示
3.1对于密集预测任务,一个像素必须知道它是否位于一个物体的边界上,或者它是否属于一个共同表面上的一组像素,才能进行准确的预测。因此,本方法构建了一个轻量级并且有效地进行编码器和解码器特征交互的模块EDFI,自适应地选择和融合全局上下文语义信息和精细的本地局部信息。该模块从最低的分辨率特征图开始,向高分辨率移动。首先对编码器和解码器/>特征图都通过1×1卷积层将通道数改变为128,以方便匹配维度,然后使用双路径交叉注意机制和跳跃连接经过一系列卷积层,在不使用复杂的上采样方式和增加额外的注意力模块的情况下,增强学习丰富的全局上下文和局部边缘密集特征的能力。
3.2在编码器和解码器特征交互模块EDFI中,首先,构建双路径交叉注意机制模块,自适应地关注重要位置。具体来说,
其中,i∈{1,2,3,4},WK,WQ和WV是权重矩阵,是经过卷积操作后大小为{Hi,Wi,Nc}的编码器特征映射,/>是对应尺度{Hi,Wi,Nc}的解码器特征映射,/>是两个特征沿着通道维度Concat拼接得到的特征,这里/>的大小为{Hi,Wi,2Nc},经过一层卷积后维度降低到Nc。
使用交叉协方差注意机制增强特征映射和/>具体来说,
其中,Attention(Q,K,V)=V·Softmax(QTK)。
然后,增加特征的非线性度,具体来说,
其中,LN表示层归一化操作,ReLU表示激活函数,conv1表示1×1卷积,DWConvr表示具有扩张率为r的3×3扩张卷积。
3.3在解码器中,编码器和解码器特征交互模块EDFI的初始输入分别是由PSP模块的输出特征和MPViT骨干网络的最后一层输出特征/>然后经过UpSample上采样得到具体来说,
然后,通过融合不同尺度下的编码器特征与解码器的输出特征/>帮助初始特征映射逐渐增强全局的上下文信息以及局部连续性,具体来说,
这里,i∈{1,2,3}。
最后,对得到的解码器输出特征经过卷积、ReLU激活函数、卷积降维和Sigmoid激活函数操作,将每个通道的权重归一化到0-1之间,进一步提取和融合特征,预测深度图H×W×1,然后深度图乘以最大深度值(以米为单位)进行缩放。
4.为本发明使用尺度不变损失Scale-Invariant loss(SILog)优化和训练网络模型,计算像素位置i处的预测深度di与有效地面真实深度di *之间的对数距离。SILog损失函数将每个像素周围像素的数量用作缩放因子,更好地处理更小的对象,降低错误率。
这里,n表示图像中的像素数,λ=0.85,α=10。本方法与其他单目深度预测方法在NYU Depth v2数据集上的结果对比表如图5所示。
以上所述为本申请优选实施而以,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。
Claims (5)
1.一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于,该方法包含以下步骤:
1)此单目深度预测方法利用在ImageNet上预先训练好的Multi-Path VisionTransformer(MPViT)模型构建多尺度patch embedding和多路径特征提取结构,初始化编码器网络的骨干网络。
2)对MPViT主干网络得到的最后一层输出特征映射通过Pyramid Scene ParsingNetwork(PSP,空间金字塔池化模块)进行处理,获得不同尺度下的语义信息,有效地增强解码器初始输入特征的全局性和相关性。
3)使用自下而上的方法,从最低分辨率的输出特征图开始,通过迭代上采样操作,使用注意力机制和跳跃连接方法融合对应尺度的编码器和解码器特征图,进行多尺度局部特征和全局上下文信息聚合,预测更加精确的深度图。
4)使用尺度不变损失Scale-Invariant loss(SILog)训练和优化网络模型,计算预测深度值与真实深度值之间的差。
2.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤1)具体方法是:
2.1)下载单目深度预测方向的开源官方数据集NYU Depth v2数据集和KITTI数据集,NYU Depth v2提供了用640×480的像素分辨率捕获的不同室内场景的RGB图像和深度图,深度图的范围为0-10m,KITTI是由安装在移动车辆上的设备捕获的室外场景的立体图像和对应的3D激光扫描的数据集,深度图的上限是80m。
2.2)对于KITTI数据集,使用中心裁剪(Center crop)对来自26K的左视图图像的子集裁剪出大小为352×704的子图像作为样本用于训练和697个测试集图像测试网络。对于NYUDepth v2数据集,采用随机裁剪(Random crop)对包含50K的249个场景中的原始图像随机裁剪出大小为448×576的子图像训练网络,并在654张图像上进行测试。
2.3)下载并使用MPViT-Base的预训练权重文件初始化编码器中的MPViT骨干网络,避免从零开始训练导致特征图提取效率低下并且质量不高的问题,并且能够加快模型的训练速度,避免过拟合现象,提高模型的性能。
3.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤2)具体方法是:
3.1)MPViT主干网络首先对输入的RGB图像进行提取初始多尺度特征,生成的特征分别表示为分辨率大小分别为原始图像的/>通道数分别为{224,368,480,480}。
3.2)将包含场景中最重要细节也是最粗糙分辨率的尺度的特征图被作为输入传送到空间金字塔池化模块(PSP)中做进一步的处理。PSP模块使用多尺度自适应池化提取不同尺度下的语义信息,尺度的大小分别为{1×1,2×2,3×3,6×6}。
3.3)为了保持输出特征图的维度与输入特征图一致,在完成不同尺度的池化操作后,使用1×1卷积将特征图的维度变为输入特征图维度的然后,通过双线性插值法对这些特征图进行上采样,使其恢复到和输入特征图相同的尺寸,并执行Concat拼接操作将他们合并在一起,能够有效地聚合整个场景信息,并得到大小为/>的特征图,其中Nc1为512,H和W分别为输入特征图的高度和宽度。最后,为了进一步处理特征图并保持分辨率不变,本发明使用一个卷积层,将特征图的维度调整为128。
4.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤3)具体方法是:
4.1)对于密集预测任务,一个像素必须知道它是否位于一个物体的边界上,或者它是否属于一个共同表面上的一组像素,才能进行准确的预测。因此,本方法构建了一个轻量级并且有效地进行编码器和解码器特征交互的模块EDFI,自适应地选择和融合全局上下文语义信息和精细的本地局部信息。该模块从最低的分辨率特征图开始,向高分辨率移动。首先对编码器和解码器/>特征图都通过1×1卷积层将通道数改变为128,以方便匹配维度,然后使用双路径交叉注意机制和跳跃连接经过一系列卷积层,在不使用复杂的上采样方式和增加额外的注意力模块的情况下,增强学习丰富的全局上下文和局部边缘密集特征的能力。
4.2)在编码器和解码器特征交互模块EDFI中,首先,构建双路径交叉注意机制模块,自适应地关注重要位置。具体来说,
其中,i∈{1,2,3,4},WK,WQ和WV是权重矩阵,是经过卷积操作后大小为{Hi,Wi,Nc}的编码器特征映射,其中Nc为128,/>是对应尺度{Hi,Wi,Nc}的解码器特征映射,/>是两个特征沿着通道维度Concat拼接得到的特征,这里/>的大小为{Hi,Wi,2Nc},经过一层卷积后维度降低到Nc。
使用交叉协方差注意机制增强特征映射和/>具体来说,
其中,Attention(Q,K,V)=V·Softmax(QT·K)。
然后,增加特征的非线性度,具体来说,
其中,LN表示层归一化操作,ReLU表示激活函数,conv1表示1×1卷积,DWConvr表示具有扩张率为r的3×3扩张卷积。
4.3)在解码器中,编码器和解码器特征交互模块EDFI的初始输入分别是由PSP模块的输出特征和MPViT骨干网络的最后一层输出特征/>然后经过UpSample上采样得到/>具体来说,
然后,通过融合不同尺度下的编码器特征与解码器的输出特征/>帮助初始特征映射逐渐增强全局的上下文信息以及局部连续性,具体来说,
这里,i∈{1,2,3}。
最后,对得到的解码器输出特征经过卷积、ReLU激活函数、卷积降维和Sigmoid激活函数操作,将每个通道的权重归一化到0-1之间,进一步提取和融合特征,预测深度图H×W×1,然后深度图乘以最大深度值(以米为单位)进行缩放。
5.根据权利要求1所述的一种基于多路径特征提取和多尺度特征融合的单目深度预测方法,其特征在于:所述步骤4)具体方法是:
本发明使用尺度不变损失Scale-Invariant loss(SILog)优化和训练网络模型,计算像素位置i处的预测深度di与有效地面真实深度di *之间的对数距离。SILog损失函数将每个像素周围像素的数量用作缩放因子,更好地处理更小的对象,降低错误率。
这里,n表示图像中的像素数,λ=0.85,α=10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310755900.6A CN116758130A (zh) | 2023-06-21 | 2023-06-21 | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310755900.6A CN116758130A (zh) | 2023-06-21 | 2023-06-21 | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758130A true CN116758130A (zh) | 2023-09-15 |
Family
ID=87960620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310755900.6A Pending CN116758130A (zh) | 2023-06-21 | 2023-06-21 | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758130A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409299A (zh) * | 2023-12-15 | 2024-01-16 | 武汉纺织大学 | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 |
CN117635986A (zh) * | 2023-11-27 | 2024-03-01 | 哈工大郑州研究院 | 一种适用大尺度场景下基于特征匹配网络的特征识别方法 |
CN117635645A (zh) * | 2023-12-08 | 2024-03-01 | 兰州交通大学 | 一种复杂稠密网络下的并置多尺度融合边缘检测模型 |
CN117743946A (zh) * | 2024-02-19 | 2024-03-22 | 山东大学 | 基于融合特征和组卷积ViT网络的信号类型识别方法及系统 |
CN117746233A (zh) * | 2023-12-08 | 2024-03-22 | 江苏海洋大学 | 一种水域无人清理船目标轻量化检测方法 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN118212637A (zh) * | 2024-05-17 | 2024-06-18 | 山东浪潮科学研究院有限公司 | 一种面向文字识别的图像质量自动评估方法及系统 |
-
2023
- 2023-06-21 CN CN202310755900.6A patent/CN116758130A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635986A (zh) * | 2023-11-27 | 2024-03-01 | 哈工大郑州研究院 | 一种适用大尺度场景下基于特征匹配网络的特征识别方法 |
CN117635645A (zh) * | 2023-12-08 | 2024-03-01 | 兰州交通大学 | 一种复杂稠密网络下的并置多尺度融合边缘检测模型 |
CN117746233A (zh) * | 2023-12-08 | 2024-03-22 | 江苏海洋大学 | 一种水域无人清理船目标轻量化检测方法 |
CN117635645B (zh) * | 2023-12-08 | 2024-06-04 | 兰州交通大学 | 一种复杂稠密网络下的并置多尺度融合边缘检测模型 |
CN117746233B (zh) * | 2023-12-08 | 2024-07-26 | 江苏海洋大学 | 一种水域无人清理船目标轻量化检测方法 |
CN117409299A (zh) * | 2023-12-15 | 2024-01-16 | 武汉纺织大学 | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 |
CN117409299B (zh) * | 2023-12-15 | 2024-03-05 | 武汉纺织大学 | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 |
CN117743946A (zh) * | 2024-02-19 | 2024-03-22 | 山东大学 | 基于融合特征和组卷积ViT网络的信号类型识别方法及系统 |
CN117743946B (zh) * | 2024-02-19 | 2024-04-30 | 山东大学 | 基于融合特征和组卷积ViT网络的信号类型识别方法及系统 |
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN117765378B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN118212637A (zh) * | 2024-05-17 | 2024-06-18 | 山东浪潮科学研究院有限公司 | 一种面向文字识别的图像质量自动评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lateef et al. | Survey on semantic segmentation using deep learning techniques | |
Wang et al. | SFNet-N: An improved SFNet algorithm for semantic segmentation of low-light autonomous driving road scenes | |
Tian et al. | Cctrans: Simplifying and improving crowd counting with transformer | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
de Queiroz Mendes et al. | On deep learning techniques to boost monocular depth estimation for autonomous navigation | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN110622169A (zh) | 用于视频中的动作识别的神经网络系统 | |
Zhang et al. | Transfer learning on efficientnet for remote sensing image classification | |
CN116485860A (zh) | 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法 | |
CN108537844A (zh) | 一种融合几何信息的视觉slam回环检测方法 | |
Shen et al. | Digging into uncertainty-based pseudo-label for robust stereo matching | |
CN113378897A (zh) | 基于神经网络的遥感图像分类方法、计算设备及存储介质 | |
CN114549567A (zh) | 基于全方位感知的伪装目标图像分割方法 | |
Mei et al. | Camouflaged object segmentation with omni perception | |
Ke et al. | Mdanet: Multi-modal deep aggregation network for depth completion | |
Cheng et al. | A survey on image semantic segmentation using deep learning techniques | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Indyk et al. | Monovan: Visual attention for self-supervised monocular depth estimation | |
Mao et al. | Stealing stable diffusion prior for robust monocular depth estimation | |
Li et al. | Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems | |
Chaturvedi et al. | Small object detection using retinanet with hybrid anchor box hyper tuning using interface of Bayesian mathematics | |
CN117218345A (zh) | 一种电力巡检图像语义分割方法 | |
Thompson et al. | D-Net: a generalised and optimised deep network for monocular depth estimation | |
AlDahoul et al. | RGB-D based multimodal convolutional neural networks for spacecraft recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |