CN116597135A - Rgb-d多模态语义分割方法 - Google Patents
Rgb-d多模态语义分割方法 Download PDFInfo
- Publication number
- CN116597135A CN116597135A CN202310283961.7A CN202310283961A CN116597135A CN 116597135 A CN116597135 A CN 116597135A CN 202310283961 A CN202310283961 A CN 202310283961A CN 116597135 A CN116597135 A CN 116597135A
- Authority
- CN
- China
- Prior art keywords
- depth
- features
- rgb
- representing
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 61
- 230000003993 interaction Effects 0.000 claims abstract description 42
- 238000012937 correction Methods 0.000 claims abstract description 39
- 230000002776 aggregation Effects 0.000 claims abstract description 30
- 238000004220 aggregation Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 12
- 101100201843 Cyprinus carpio rsph1 gene Proteins 0.000 claims description 10
- 101100328516 Mus musculus Cnpy2 gene Proteins 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 101100078097 Mus musculus Msmp gene Proteins 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- OAVCWZUKQIEFGG-UHFFFAOYSA-O 2-(5-methyl-2H-tetrazol-1-ium-1-yl)-1,3-thiazole Chemical compound CC1=NN=N[NH+]1C1=NC=CS1 OAVCWZUKQIEFGG-UHFFFAOYSA-O 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明针对RGB‑D语义分割中存在的多尺度问题和实时问题,提出了RGB‑D多模态语义分割方法。通过交换彩色图特征和深度图特征的查询向量,设计了自注意力多模态信息交互模块,实现了跨模态信息交互;并在此基础上设计了多模态通道注意力校正模块和多模态全局特征聚合模块。在主干网络对彩色图和深度图进行下采样后,多模态通道注意力校正模块在通道维度实现特征矫正,然后多模态全局特征聚合模块将矫正后的特征在空间维度实现特征聚合,最后输入特征金字塔解码器模块以进行最终的语义预测。本发明的有益效果是:有效解决不同场景中目标尺度差异大的问题、有效提升RGB‑D语义分割精度、可以同时保证RGB‑D语义分割的准确度和实时性的要求。
Description
技术领域
本发明属于计算机视觉、深度学习领域,具体涉及RGB-D多模态语义分割方法。
背景技术
图像语义分割是计算机视觉领域的重要任务之一,是一种有效的场景理解技术,其目的是为图像中的每个像素分配一个类别标签,并预测物体的位置和轮廓。语义分割已广泛应用于自动驾驶、机器人感知和自动导航等行业。近年来,基于彩色图像的语义分割方法得到了越来越多的关注,并在分割精度等方面取得了显著进展。目前的语义分割方法在某些情况下无法提取出高质量的特征,例如,当两个物体具有相似的颜色或纹理时,仅凭彩色图像无法准确区分。随着深度传感器的发展,深度信息作为彩色图像语义分割的一种重要辅助信息,相较于彩色图像,深度图像可以提供更为丰富的几何信息。因此研究RGB-D语义分割问题,探索有效的多模态信息融合方法,对计算机视觉应用领域具有重大意义。目前RGB-D语义分割方法主要面临以下问题:
(1)图像中不同物体之间的尺度差异很大,如何充分利用图像中的多尺度特征是一个关键问题。
(2)在实际应用中,不同的设备需要实时感知周围环境,RGB-D语义分割方法如何在高精度的前提下满足实时性能是另一个关键问题。
综上所述,针对以上问题,提出了RGB-D多模态语义分割方法,将Transformer引入RGB-D语义分割,利用Transformer在多模态领域的优势,实现了高精度的RGB-D语义分割,在解决多尺度问题的同时保持了较高的实时性。
发明内容
鉴于上述问题,本发明的目的在于提供RGB-D多模态语义分割方法。该方法通过改进Transformer中的多头注意力机制,在此基础上进行不同模态特征的矫正和融合,获得高精度分割结果的同时保留了较高实时性。
RGB-D多模态语义分割方法,包括以下步骤:
S1.设计自注意力多模态信息交互模块:所述自注意力多模态信息交互模块主要用于在通道维度和空间维度两个维度上实现彩色图和深度图之间的跨模态信息交互;
S2.建立基于RGB-D多模态语义分割模型:所述基于RGB-D多模态语义分割模型包括双流特征提取主干网络、多模态通道注意力校正模块、多模态全局特征聚合模块和特征金字塔解码器模块;所述多模态特征提取主干网络用于将彩色图和深度图两种模态分别进行特征提取,生成不同尺寸的特征图;多模态通道注意力校正模块用于对所述多模态特征提取主干网络生成的不同尺寸的特征图在通道维度进行特征矫正,生成通道矫正后的多模态特征;所述多模态全局特征聚合模块用于对所述多模态通道注意力校正模块生成的矫正后的多模态特征在空间维度上进行特征聚合;所述特征金字塔解码器模块用于对所述多模态全局特征聚合模块生成的聚合后的特征进行解码,实现二维语义分割区域的预测;
S3.进行基于RGB-D多模态语义分割模型训练:将彩色图和深度图和语义分割真实标签输入所述基于RGB-D多模态语义分割模型进行训练,得到训练后的基于RGB-D多模态语义分割模型。
进一步地,所述自注意力多模态信息交互模块,首先对输入的彩色特征和深度特征分别计算查询向量、键向量和值向量,其中三种向量的获取由全连接层完成,之后通过交换两种模态的查询向量,用一种模态的查询向量和另一种模态的键向量的转置进行矩阵乘法,计算出每一种模态的自注意力矩阵,再将得到的自注意力矩阵与值向量进行矩阵乘法,得到信息交互后的彩色特征和深度特征,最后通过一个全连接层获得最终的输出结果,实现跨模态的信息交互,以上操作用以下公式表示为:
RGBii,Depthii=FC(AttentionRGBVRGB,AttentionDepthVDepth)
式中,QDepth,KDepth,VDepth分别表示彩色特征的查询向量、键向量和值向量,QDepth,KDepth,VDepth分别表示深度特征的查询向量、键向量和值向量,dhead表示向量的维度,Softmax表示Softmax激活函数,AttentionRGB和AttentionDepth分别表示彩色特征和深度特征的自注意力矩阵,FC表示全连接层,RGBii和Depthii分别表示信息交互后的彩色特征和深度特征。
进一步地,所述基于RGB-D多模态语义分割模型由双流pvt_v2主干网络、四个多模态通道注意力校正模块和四个多模态全局特征聚合模块构成。所述双流pvt_v2主干网络分别提取彩色图和深度图的特征,并在每次下采样后将特征传入四个多模态通道注意力校正模块;所述四个多模态通道注意力校正模块对所述双流pvt_v2主干网络提取到的彩色特征和深度特征在通道维度进行特征矫正,并将矫正后的特征传入多模态全局特征聚合模块;所述四个多模态全局特征聚合模块对所述四个多模态通道注意力校正模块输出的矫正后的彩色特征和深度特征空间维度上进行特征聚合
进一步地,所述多模态通道注意力校正模块首先将彩色特征和深度特征通过不同大小的池化操作进行下采样,将池化结果展平后沿着第二个维度进行拼接,得到多尺度彩色特征和多尺度深度特征,然后通过全连接层将维度映射到更高的维度中,得到向量化的彩色特征和深度特征,将向量化的彩色特征和深度特征分别添加可学习的模态编码后传入Transformer模块中进行全局注意力建模,每个Transformer的计算过程可以用以下公式表示为:
zl=CMMHSA(LN(zt-1))+zl-1
zl=MLP(LN(zl))+zl
式中,zl表示第l个模块的输入,LN表示层归一化,CMMHSA表示所述自注意力多模态信息交互模块,MLP表示多层感知机;
最后,将建模后的结果通过多层感知机计算得到两种模态的通道注意力向量,将两种模态的通道注意力向量和两种模态的特征进行通道相乘后通过对应元素相加操作和对方模态特征进行融合实现多尺度通道注意力矫正,以上操作用以下公式表示为:
RGBmsf=Concat(Flatten(msap(RGBin)),Flatten(msmp(RGBin)))
Depthmsf=Concat(Flatten(msap(Depthin)),Flatten(msmp(Depthin)))
RGBtokenized,Depthtokenized=FC(RGBmsf,Depthmsf)
Wrgb,Wdepth=MLP(RGBcii,Depthcii)
式中,RGBin和Depthin分别表示彩色特征和深度特征,msmp和msap分别表示多尺度最大池化和多尺度平均池化,Concat表示合并操作,Flatten表示展平操作,RGBmsf和Depthmsf分别表示多尺度彩色特征和多尺度深度特征,RGBtokenized和Depthtokenized分别表示向量化的彩色特征和深度特征,RGBcii和Depthcii分别表示通道信息交互后的彩色特征和深度特征,MTErgb和MTEdepth分别表示彩色特征和深度特征的模态编码,Wrgb和Wdepth分别表示两种模态的通道注意力向量,MLP表示多层感知机,和/>分别表示对应元素相加和对应通道相乘,RGBrec和Depthrec分别表示多尺度注意力矫正后的彩色特征和深度特征。
进一步地,所述多模态全局特征聚合模块首先在特征图中嵌入位置信息和模态信息,通过一个卷积核大小为3×3,步长为l×1,填充大小为1×1的深度可分离卷积来引入位置信息,再通过残差连接与输入的特征进行对应相加,除了位置编码之外,还添加了可学习的模态编码,得到带有位置信息和模态信息的彩色特征和深度特征,然后通过所述自注意力多模态信息交互模块进行空间维度的信息交互,并与输入进行残差连接,同时引入空间缩减模块,通过键向量和值向量的共享机制来减小计算量,之后通过层归一化获得空间信息交互后的彩色特征和深度特征,最后通过一个1×1的卷积来将两种模态的特征图融合为一个单一特征图,此外,为了提升模型鲁棒性,将原始的特征图通过一个大小为3×3的深度可分离卷积获取局部特征,并通过残差连接与全局特征进行融合,再通过批归一化层获得最终的输出,上述计算过程可以用公式表示为:
Fglobal=Conv1×1(Concat(RGBsii,Depthsii))
式中,pme表示位置编码和模态编码,DWC3×3表示卷积核大小为3×3的深度可分离卷积,RGBpme和Depthpme表示经过位置编码和模态编码后的彩色特征和深度特征,SR表示空间缩减模块,RGBsii和Depthsii分别表示空间信息交互后的彩色特征和深度特征,Fglobal表示全局特征,Relu表示Relu激活函数,Flocal表示局部特征,BN表示批归一化层,Fout表示最终的输出。
与现有技术相比,本发明具有以下有益效果:
1、有效解决场景中目标尺度差异大的问题;
2、有效提升场景目标RGB-D语义分割精度;
3、基于Transformer的跨模态语义分割方法可以同时保证RGB-D语义分割的准确度和实时性的要求。
附图说明
图1是自注意力多模态信息交互模块结构。
图2是RGB-D多模态语义分割模型整体结构。
图3是多模态通道注意力校正模块结构。
图4是多模态全局特征聚合模块结构。
图5是原始彩色图片。
图6是原始深度图片。
图7是语义分割后的效果图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
RGB-D多模态语义分割方法,具体包括以下步骤:
S1.设计自注意力多模态信息交互模块:如附图1所示,自注意力多模态信息交互模块主要用于在通道维度和空间维度两个维度上实现彩色图和深度图之间的跨模态信息交互。
首先,对输入的彩色特征和深度特征分别计算查询向量、键向量和值向量,其中三种向量的获取由全连接层完成,之后通过交换两种模态的查询向量,用一种模态的查询向量和另一种模态的键向量的转置进行矩阵乘法,计算出每一种模态的自注意力矩阵,再将得到的自注意力矩阵与值向量进行矩阵乘法,得到信息交互后的彩色特征和深度特征,最后通过一个全连接层获得最终的输出结果,实现跨模态的信息交互,以上操作用以下公式表示为:
RGBii,Depthii=FC(AttentionRGBVRGB,AttentionDepthVDepth)
式中,QDepth,KDepth,VDepth分别表示彩色特征的查询向量、键向量和值向量,QDepth,KDepth,VDepth分别表示深度特征的查询向量、键向量和值向量,dhead表示向量的维度,Softmax表示Softmax激活函数,AttentionRGB和AttentionDepth分别表示彩色特征和深度特征的自注意力矩阵,FC表示全连接层,RGBii和Depthii分别表示信息交互后的彩色特征和深度特征。
S2.建立基于RGB-D多模态语义分割模型:如附图2所示,基于RGB-D多模态语义分割模型包括双流pvt_v2主干网络、多模态通道注意力校正模块、多模态全局特征聚合模块和特征金字塔解码器模块;双流pvt_v2主干网络分别提取彩色图和深度图的特征,并在每次下采样后将特征传入多模态通道注意力校正模块;多模态通道注意力校正模块对彩色特征和深度特征在通道维度进行特征矫正,并将矫正后的特征传入多模态全局特征聚合模块;多模态全局特征聚合模块对矫正后的彩色特征和深度特征空间维度上进行特征聚合;最后特征金字塔解码器模块用于对聚合后的特征进行解码,实现二维语义分割区域的预测。
如附图3所示,上述多模态通道注意力校正模块首先将彩色特征和深度特征通过不同大小的池化操作进行下采样,将池化结果展平后沿着第二个维度进行拼接,得到多尺度彩色特征和多尺度深度特征,然后通过全连接层将维度映射到更高的维度中,得到向量化的彩色特征和深度特征,将向量化的彩色特征和深度特征分别添加可学习的模态编码后传入Transformer模块中进行全局注意力建模,每个Transformer的计算过程可以用以下公式表示为:
zf=CMMHSA(LN(zl-1))+zl-1
zl=MLP(LN(zl))+zl
式中,其中zl表示第l个模块的输入,LN表示层归一化,CMMHSA表示自注意力多模态信息交互模块,MLP表示多层感知机;
最后,将建模后的结果通过多层感知机计算得到两种模态的通道注意力向量,将两种模态的通道注意力向量和两种模态的特征进行通道相乘后通过对应元素相加操作和对方模态特征进行融合实现多尺度通道注意力矫正,以上操作用以下公式表示为:
RGBmsf=Concat(Flatten(msap(RGBin)),Flatten(msmp(RGBin)))
Depthmsf=Concat(Flatten(msap(Depthin)),Flatten(msmp(Depthin)))
RGBtokenized,Depthtokenized=FC(RGBmsf,Depthmsf)
Wrgb,Wdepth=MLP(RGBcii,Depthcii)
式中,RGBin和Depthin分别表示彩色特征和深度特征,msmp和msap分别表示多尺度最大池化和多尺度平均池化,Concat表示合并操作,Flatten表示展平操作,RGBmsf和Depthmsf分别表示多尺度彩色特征和多尺度深度特征,RGBtokenized和Depthtokenized分别表示向量化的彩色特征和深度特征,RGBcii和Depthcii分别表示通道信息交互后的彩色特征和深度特征,MTErgb和MTEdepth分别表示彩色特征和深度特征的模态编码,Wrgb和Wdepth分别表示两种模态的通道注意力向量,MLP表示多层感知机,和/>分别表示对应元素相加和对应通道相乘,RGBrec和Depthrec分别表示多尺度注意力矫正后的彩色特征和深度特征;
如附图4所示,上述多模态全局特征聚合模块首先在特征图中嵌入位置信息和模态信息,通过一个卷积核大小为3×3,步长为1×1,填充大小为1×1的深度可分离卷积来引入位置信息,再通过残差连接与输入的特征进行对应相加,除了位置编码之外,还添加了可学习的模态编码,得到带有位置信息和模态信息的彩色特征和深度特征,然后通过权利要求1所述自注意力多模态信息交互模块进行空间维度的信息交互,并与输入进行残差连接,同时引入空间缩减模块,通过键向量和值向量的共享机制来减小计算量,之后通过层归一化获得空间信息交互后的彩色特征和深度特征,最后通过一个1×1的卷积来将两种模态的特征图融合为一个单一特征图,此外,为了提升模型鲁棒性,将原始的特征图通过一个大小为3×3的深度可分离卷积获取局部特征,并通过残差连接与全局特征进行融合,再通过批归一化层获得最终的输出,上述计算过程可以用公式表示为:
Fglobal=Conv1×1(Concat(RGBsii,Depthsii))
式中,pme表示位置编码和模态编码,DWC3×3表示卷积核大小为3×3的深度可分离卷积,RGBpme和Depthpme表示经过位置编码和模态编码后的彩色特征和深度特征,SR表示空间缩减模块,RGBsii和Depthsii分别表示空间信息交互后的彩色特征和深度特征,Fglobal表示全局特征,Relu表示Relu激活函数,Flocal表示局部特征,BN表示批归一化层,Fout表示最终的输出。
S3.进行基于RGB-D多模态语义分割模型训练:将彩色图和深度图输入所述基于RGB-D多模态语义分割模型中,和语义分割标签进行端到端的训练,选出最优的模型。最后将用于测试的数据输入最优模型,得到最终的分割效果。效果如附图5-7所示。
整个跨模态语义分割完整描述如下:
步骤1:将彩色图和深度图分辨率固定为640×480,并且进行翻转、剪裁、缩放等数据增强方法;
步骤2:将增强后的图片输入双流pvt_v2主干网络,分别提取彩色特征和深度特征,获得每次下采样后的不同尺寸大小的特征图;
步骤3:将每次下采样后得到的彩色特征和深度特征传入多模态通道注意力校正模块,多模态通道注意力校正模块对彩色特征和深度特征在通道维度进行特征矫正;再将矫正后的特征传入多模态全局特征聚合模块,多模态全局特征聚合模块对矫正后的彩色特征和深度特征空间维度上进行特征聚合;将聚合后的特征输入特征金字塔解码器模块,实现二维语义分割区域的预测。
Claims (3)
1.RGB-D多模态语义分割方法,其特征在于,包括如下步骤:
S1.设计自注意力多模态信息交互模块:所述自注意力多模态信息交互模块主要用于在通道维度和空间维度两个维度上实现彩色图和深度图之间的多模态信息交互;
S2.建立RGB-D多模态语义分割模型:所述RGB-D多模态语义分割模型包括双流特征提取主干网络、多模态通道注意力校正模块、多模态全局特征聚合模块和特征金字塔解码器模块;所述双流特征提取主干网络用于将彩色图和深度图两种模态分别进行特征提取,生成不同尺寸的特征图;多模态通道注意力校正模块用于对所述多模态特征提取主干网络生成的不同尺寸的特征图在通道维度进行特征校正,生成通道校正后的多模态特征;所述多模态全局特征聚合模块用于对所述多模态通道注意力校正模块生成的校正后的多模态特征在空间维度上进行特征聚合;所述特征金字塔解码器模块用于对所述多模态全局特征聚合模块生成的聚合后的特征进行解码,实现二维语义分割区域的预测;
S3.进行RGB-D多模态语义分割模型训练:将彩色图、深度图和语义分割真实标签输入所述RGB-D多模态语义分割模型进行训练,得到训练后的RGB-D多模态语义分割模型。
2.根据权利要求1所述的RGB-D多模态语义分割方法,其特征在于,所述自注意力多模态信息交互模块,在原始多头注意力模块基础上针对多模态数据进行了改进;
所述自注意力多模态信息交互模块,首先对输入的彩色特征和深度特征分别计算查询向量、键向量和值向量,其中三种向量的获取由全连接层完成,之后通过交换两种模态的查询向量,用一种模态的查询向量和另一种模态的键向量的转置进行矩阵乘法,计算出每一种模态的自注意力矩阵,再将得到的自注意力矩阵与值向量进行矩阵乘法,得到信息交互后的彩色特征和深度特征,最后通过一个全连接层获得最终的输出结果,实现跨模态的信息交互,以上操作用以下公式表示为:
RGBii,Depthii=FC(AttentionRGBVRGB,AttentionDepthVDepth)
式中,QDepth,KDepth,VDepth分别表示彩色特征的查询向量、键向量和值向量,QDepth,KDepth,VDepth分别表示深度特征的查询向量、键向量和值向量,dhead表示向量的维度,Softmax表示Softmax激活函数,AttentionRGB和AttentionDepth分别表示彩色特征和深度特征的自注意力矩阵,FC表示全连接层,RGBii和Depthii分别表示信息交互后的彩色特征和深度特征。
3.根据权利要求1所述RGB-D多模态语义分割模型,其特征在于,所述RGB-D多模态语义分割模型由双流pvt_v2主干网络、四个多模态通道注意力校正模块和四个多模态全局特征聚合模块构成;
所述双流pvt_v2主干网络分别提取彩色图和深度图的特征,并在每次下采样后将特征传入四个多模态通道注意力校正模块;所述四个多模态通道注意力校正模块对所述双流pvt_v2主干网络提取到的彩色特征和深度特征在通道维度进行特征校正,并将校正后的特征传入多模态全局特征聚合模块;所述四个多模态全局特征聚合模块对所述四个多模态通道注意力校正模块输出的校正后的彩色特征和深度特征空间维度上进行特征聚合;
所述多模态通道注意力校正模块首先将彩色特征和深度特征通过不同大小的池化操作进行下采样,将池化结果展平后沿着第二个维度进行拼接,得到多尺度彩色特征和多尺度深度特征,然后通过全连接层将维度映射到更高的维度中,得到向量化的彩色特征和深度特征,将向量化的彩色特征和深度特征分别添加可学习的模态编码后传入Transformer模块中进行全局注意力建模,每个Transformer的计算过程可以用以下公式表示为:
zl=CMMHSA(LN(zl-1))+zl-1
zl=MLP(LN(zl))+zl
式中,zl表示第l个模块的输入,LN表示层归一化,CMMHSA表示权利要求1所述自注意力多模态信息交互模块,MLP表示多层感知机;
最后,将建模后的结果通过多层感知机计算得到两种模态的通道注意力向量,将两种模态的通道注意力向量和两种模态的特征进行通道相乘后通过对应元素相加操作和对方模态特征进行融合实现多模态通道注意力校正模块,以上操作用以下公式表示为:
RGBmsf=Concat(Flatten(msap(RGBin)),Flatten(msap(RGBin)))
Depthmsf=Concat(Flatten(msap(Depthin)),Flatten(msmp(Depthin)))
RGBtokenized,Depthtokenized=FC(RGBmsf,Depthmsf)
Wrgb,Wdepth=MLP(RGBcii,Depthcii)
式中,RGBin和Depthin分别表示彩色特征和深度特征,msmp和msap分别表示多尺度最大池化和多尺度平均池化,Concat表示合并操作,Flatten表示展平操作,RGBmsf和Depthmsf分别表示多尺度彩色特征和多尺度深度特征,RGBtokenized和Depthtokenized分别表示向量化的彩色特征和深度特征,RGBcii和Depthcii分别表示通道信息交互后的彩色特征和深度特征,MTErgb和MTEdepth分别表示彩色特征和深度特征的模态编码,Wrgb和Wdepth分别表示两种模态的通道注意力向量,MLP表示多层感知机,和/>分别表示对应元素相加和对应通道相乘,RGBrec和Depthrec分别表示多尺度注意力校正后的彩色特征和深度特征;
所述多模态全局特征聚合模块首先在特征图中嵌入位置信息和模态信息,通过一个卷积核大小为3×3,步长为1×1,填充大小为1×1的深度可分离卷积来引入位置信息,再通过残差连接与输入的特征进行对应相加,除了位置编码之外,还添加了可学习的模态编码,得到带有位置信息和模态信息的彩色特征和深度特征,然后通过权利要求1所述自注意力多模态信息交互模块进行空间维度的信息交互,并与输入进行残差连接,同时引入空间缩减模块,通过键向量和值向量的共享机制来减小计算量,之后通过层归一化获得空间信息交互后的彩色特征和深度特征,最后通过一个1×1的卷积来将两种模态的特征图融合为一个单一特征图,此外,为了提升模型鲁棒性,将原始的特征图通过一个大小为3×3的深度可分离卷积获取局部特征,并通过残差连接与全局特征进行融合,再通过批归一化层获得最终的输出,上述计算过程可以用公式表示为:
Fglobal=Conv1×1(Concat(RGBsii,Depthsii))
Flocal=Conv1×1(Relu(DWC3×3(Conv1×1(Concat(RGBrec,Depthrec)))))
式中,pme表示位置编码和模态编码,BWC3×3表示卷积核大小为3×3的深度可分离卷积,RGBpme和Depthpme表示经过位置编码和模态编码后的彩色特征和深度特征,SR表示空间缩减模块,RGBsii和Depthsii分别表示空间信息交互后的彩色特征和深度特征,Fglobal表示全局特征,Relu表示Relu激活函数,Flocal表示局部特征,BN表示批归一化层,Fout表示最终的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310283961.7A CN116597135A (zh) | 2023-03-22 | 2023-03-22 | Rgb-d多模态语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310283961.7A CN116597135A (zh) | 2023-03-22 | 2023-03-22 | Rgb-d多模态语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597135A true CN116597135A (zh) | 2023-08-15 |
Family
ID=87592609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310283961.7A Pending CN116597135A (zh) | 2023-03-22 | 2023-03-22 | Rgb-d多模态语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597135A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649666A (zh) * | 2024-01-30 | 2024-03-05 | 中国海洋大学 | 一种基于动态多尺度信息查询的图像语义分割方法及系统 |
-
2023
- 2023-03-22 CN CN202310283961.7A patent/CN116597135A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649666A (zh) * | 2024-01-30 | 2024-03-05 | 中国海洋大学 | 一种基于动态多尺度信息查询的图像语义分割方法及系统 |
CN117649666B (zh) * | 2024-01-30 | 2024-04-26 | 中国海洋大学 | 一种基于动态多尺度信息查询的图像语义分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
Wang et al. | Multi-modal 3d object detection in autonomous driving: A survey and taxonomy | |
CN111354030B (zh) | 嵌入SENet单元的无监督单目图像深度图生成方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN112819080B (zh) | 一种高精度通用的三维点云识别方法 | |
CN115908517B (zh) | 一种基于对应点匹配矩阵优化的低重叠点云配准方法 | |
CN116597135A (zh) | Rgb-d多模态语义分割方法 | |
CN114298946B (zh) | 一种框架细节增强的深度学习点云补全方法 | |
Wang et al. | Flow-motion and depth network for monocular stereo and beyond | |
CN117218343A (zh) | 一种基于深度学习的语义部件姿态估计方法 | |
CN116092185A (zh) | 基于多视角特征交互融合的深度视频行为识别方法及系统 | |
CN116772820A (zh) | 一种基于slam和语义分割的局部细化建图系统及方法 | |
Lin et al. | Efficient and high-quality monocular depth estimation via gated multi-scale network | |
CN111832399B (zh) | 一种融合注意力机制的跨域道路航标配准算法 | |
CN113160315A (zh) | 一种基于对偶二次曲面数学模型的语义环境地图表征方法 | |
Huang et al. | Overview of LiDAR point cloud target detection methods based on deep learning | |
CN116433904A (zh) | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 | |
CN116485892A (zh) | 一种弱纹理物体的六自由度位姿估计方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
Liu et al. | Depth estimation of traffic scenes from image sequence using deep learning | |
CN113920317A (zh) | 基于可见光图像和低分辨率深度图像的语义分割方法 | |
Long et al. | Radar fusion monocular depth estimation based on dual attention | |
Zheng et al. | A Dual Encoder-Decoder Network for Self-supervised Monocular Depth Estimation | |
Sun et al. | Accurate deep direct geo-localization from ground imagery and phone-grade gps | |
Cui et al. | MMFusion: A Generalized Multi-Modal Fusion Detection Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |