CN116935178A - 一种基于多尺度空洞注意力的跨模态图像融合方法 - Google Patents
一种基于多尺度空洞注意力的跨模态图像融合方法 Download PDFInfo
- Publication number
- CN116935178A CN116935178A CN202310977101.3A CN202310977101A CN116935178A CN 116935178 A CN116935178 A CN 116935178A CN 202310977101 A CN202310977101 A CN 202310977101A CN 116935178 A CN116935178 A CN 116935178A
- Authority
- CN
- China
- Prior art keywords
- mode
- attention
- visible light
- infrared
- hole
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 230000000295 complement effect Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 26
- INOAASCWQMFJQA-UHFFFAOYSA-N 16-sulfanylhexadecanoic acid Chemical compound OC(=O)CCCCCCCCCCCCCCCS INOAASCWQMFJQA-UHFFFAOYSA-N 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0463—Neocognitrons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多尺度空洞注意力的跨模态图像融合方法,包括获取多组可见光‑红外图片对;构建双流网络;构建差分模态多尺度空洞注意力模块DFMDA;在构建的双流网络中插入三个构建的差分模态多尺度空洞注意力模块DFMDA;利用双流网络来提取可见光‑红外图片的分层特征;利用三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行多模态互补信息的增强,得到多尺度的语义信息;将差分模态多尺度空洞注意力模块DFMDA的输出多尺度跨模态图像特征相加进行图像融合。本发明解决了现有图像融合技术中存在的计算复杂、较少利用跨模态特征之间的信息,在处理夜晚等复杂环境图像时,鲁棒性较差的问题。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于多尺度空洞注意力的跨模态图像融合方法。
背景技术
由于不同模态的图像信息具有互补性,红外和可见光的融合已经广泛应用于目标检测,目标跟踪,行人重识别和语义分割。传统的图像融合技术主要采用高斯滤波、双边滤波和基于数据驱动的方法。这些方法通过数学变换将源图像转换到一个变换域,并设计相应的融合规则来实现图像融合。然而,存在的问题是这些方法计算复杂度高,难以实现更高的融合性能,无法满足实时计算机应用的要求。
随着深度学习的快速发展,图像融合正朝着基于数据驱动的方向进行研究,主要分为三类:基于自动编码器(AE)的方法、基于卷积神经网络(CNN)的方法(如PIAFusion、MBNet),以及基于生成对抗性网络(GAN)的方法(如FusionGan)。但这些方法都是基于卷积块实现的,感受野较小,无法对任意图像块之间的长程依赖性进行建模。
现有技术中,CFT使用Transformer块的自注意力机制能更好地融合图像信息,感受野大。但由于CFT使用全局感受野,导致二次计算成本增加,并且在图像融合任务中,对所有图像块之间的建模依赖性可能是多余的。同时CFT缺乏提取多尺度特征的能力,不能有效解决目标尺度变化问题,并且很少利用跨模态特征之间的信息,在处理夜晚等复杂环境图像时,鲁棒性较差。
发明内容
发明目的:本发明的目的是提供一种以提高网络提取多尺度语义信息能力,减少了自注意机制的冗余和计算量的基于多尺度空洞注意力的跨模态图像融合方法。
技术方案:为实现上述目的,本发明所述的一种基于多尺度空洞注意力的跨模态图像融合方法,包括以下步骤:
步骤S1:获取多组可见光-红外图片对;
步骤S2:利用YOLOV5的backbone网络结构构建双流网络;
步骤S3:构建差分模态多尺度空洞注意力模块DFMDA;
步骤S4:在构建的双流网络中插入三个构建的差分模态多尺度空洞注意力模块DFMDA;
步骤S5:利用步骤S4中的双流网络来提取可见光-红外图片的分层特征;
步骤S6:利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行多模态互补信息的增强,得到多尺度的语义信息;
步骤S7:将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加,得到不同尺度的跨模态融合图像特征。
步骤S1所述的获取多组可见光-红外图片对,其中每组图片对中可见光图片和红外图片的通道数相同。
步骤S2所述的利用YOLOV5的backbone构建双流网络,指构建可见光模态支路和红外模态支路,每条支路采用相同的YOLOV5的backbone网络结构,其中,Fr1、Fr2、Fr3、Fr4、Fr5五个特征提取层作为可见光模态支路,用来提取可见光模态特征Fr;Ft1、Ft2、Ft3、Ft4、Ft5五个特征提取层作为红外模态支路,用来提取红外模态特征Ft。
步骤S3所述的差分模态多尺度空洞注意力模块DFMDA包括特征差分结构和两个多尺度空洞注意力模块。
步骤S5所述的利用双流网络提取可见光-红外图片的分层特征,是指分别将可见光图片和红外图片输入到可见光模态支路和红外模态支路中,选取可见光模态支路的Fr1、Fr2特征提取层和红外模态支路的Ft1、Ft2特征提取层负责浅层阶段捕捉低级信息,选取可见光模态支路的Fr3、Fr4、Fr5特征提取层和红外模态支路的Ft3、Ft4、Ft5特征提取层负责提取高级语义信息。
步骤S6所述的利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行增强多模态互补特征,是指利用三个DFMDA分别处理可见光模态支路Fr2、Fr3、Fr4和红外模态支路Ft2、Ft3、Ft4的特征提取层提取的模态特征,输出的互补特征图再相加到源模态上,输出层分别是Fr3、Fr4、Fr5和Ft3、Ft4、Ft5,具体包括先利用DFMDA中差分结构得到相同层的模态差异特征,再利用DFMDA中两个多头空洞注意力模块MHDA对模态差异特征进行处理。
所述的利用差分结构得到相同层的模态差异特征,是指将深层特征层的可见光模态特征Fr和红外模态特征Ft输入到DFMDA中,通过红外模态特征Ft减去可见光模态特征Fr得到可见光模态差异特征通过可见光模态特征Fr减去红外模态特征Ft得到红外模态差异特征/>
所述的利用两个多头空洞注意力模块MHDA处理模态差异特征,是指利用两个多头空洞注意力模块MHDA分别处理可见光模态的差异特征和红外模态的差异特征/>其中两个MHDA的输入矩阵Q分别是差分结构的输出/>和/>输入矩阵K、V分别是可见光模态特征Fr和红外模态特征Ft;将两个MHDA的输出互补特征图,相加到另外的模态上,实现多模态的信息互补,具体过程为:
其中输出可见光模态特征Fr'和红外模态特征Ft'作为下一层深层特征层的输入;具体包括以下步骤:
步骤S301:所述多头空洞注意力模块MHDA是由多个空洞滑动窗口注意力DSWA组成,给定输入为可见光模态差分特征红外模态差分特征/>可见光模态特征Fr和红外模态特征Ft。
步骤S302:将Fr、Ft进行线性映射,并根据设定的多头的个数n进行划分,三个DFMDA模块的多头的个数n依次为4,8,16;在不同的注意力头部中,使用不同的空洞系数r执行空洞滑动窗口注意力DSWA,以获得每个头部的输出特征hi;n个hi被拼接到一起,再通过线性层映射进行特征聚合,得到特征图Y;
步骤S303:对特征图Y进行层归一化LayerNorm和多层感知机MLP操作,再与之前的输入进行残差连接,得到输出Z,输出Z是经过多头空洞注意力模块MHDA处理后的最终结果,其中MLP由两个线性层和一个GELU激活函数组成,具体过程为:
其中,ri是第i个头的膨胀率,Qj、Kj和Vj表示输入到第j个头中的特征图的切片,该特征图的切片采用矩阵的形式进行表达;Q1,K1,V1,Y1,Z1表示对可见光模态部分的计算输出的特征图,Q2,K2,V2,/>Y2,Z2表示对红外模态部分的计算输出的特征图;
步骤S302所述的在不同的注意力头部中,使用不同的空洞系数r执行空洞滑动窗口注意力DSWA,具体过程为:
空洞滑动窗口注意力DSWA采用滑动窗口的方式对所有查询矩阵Q进行自注意操作,给定空洞系数r,在以位置(a,b)为中心的大小为w×w的滑动窗口中,通过空洞系数r,查询向量Q会稀疏的选择周围的关键字矩阵K中的位置点qab来计算自注意力,DSWA公式表示为:
其中,输入Q,K,V∈RC×H×W,Q、K、V分别表示查询矩阵、关键字矩阵和值矩阵,三个矩阵的每一行表示单个的查询向量、关键字向量和值向量;C、H和W是输入矩阵Q、K、V的高度和宽度;Kr和Vr表示从关键字矩阵K和值矩阵V中,通过空洞系数r选择的键和值;
其中,Kr和Vr的坐标(a',b')的计算公式如下:
步骤S7所述的将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加,得到不同尺度的跨模态融合图像特征。是指将三个差分模态多尺度空洞注意力模块DFMDA的输出可见光和红外模态特征分别送入深层特征提取层Fr3、Fr4、Fr5和Ft3、Ft4、Ft5,特征提取层Fr3和Ft3的输出相加得到P3,特征提取层Fr4和Ft4的输出相加得到P4,特征提取层Fr5和Ft5输出相加得到P5,P3、P4、P5是不同尺度的跨模态图像融合特征。
有益效果:本发明具有如下优点:1、本方法中使用的差分结构能够显式地提取不同模态之间的差异特征,从而提高网络对来自另一模态图像特征的敏感性,增强多模态互补特征,提高了网络提取多尺度语义信息能力,同时也提高了对夜晚等复杂环境图像的特征提取能力;
2、本发明的多头空洞注意力模块MHDA对提取的分层特征中不同模态信息进行融合,可以有效聚合长短距离的局部特征,并有效地减少了自注意机制的冗余和计算量。
附图说明
图1为发明方法流程示意图;
图2为DFMDA网络结构示意图;
图3为三个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征处理流程示意图。
具体实施方式
下面结合实施例和附图对本发明的技术方案作详细说明。
如图1所示,本发明所述的一种基于多尺度空洞注意力的跨模态图像融合方法,包括以下步骤:
步骤S1:获取多组可见光-红外图片对;
步骤S2:利用YOLOV5的backbone网络结构构建双流网络;
步骤S3:构建差分模态多尺度空洞注意力模块DFMDA;
步骤S4:在构建的双流网络中插入三个构建的差分模态多尺度空洞注意力模块DFMDA;
步骤S5:利用步骤S4中的双流网络来提取可见光-红外图片的分层特征;
步骤S6:利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行多模态互补信息的增强,得到多尺度的语义信息;
步骤S7:将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加,得到不同尺度的跨模态融合图像特征。
步骤S1所述的获取多组可见光-红外图片对,其中每组图片对中可见光图片和红外图片的通道数相同。
步骤S2所述的利用YOLOV5的backbone构建双流网络,指构建可见光模态支路和红外模态支路,每条支路采用相同的YOLOV5的backbone网络结构,其中,Fr1、Fr2、Fr3、Fr4、Fr5五个特征提取层作为可见光模态支路,用来提取可见光模态特征Fr;Ft1、Ft2、Ft3、Ft4、Ft5五个特征提取层作为红外模态支路,用来提取红外模态特征Ft。
步骤S3所述的差分模态多尺度空洞注意力模块DFMDA包括特征差分结构和两个多尺度空洞注意力模块。
步骤S5所述的利用双流网络提取可见光-红外图片的分层特征,是指分别将可见光图片和红外图片输入到可见光模态支路和红外模态支路中,选取可见光模态支路的Fr1、Fr2特征提取层和红外模态支路的Ft1、Ft2特征提取层负责浅层阶段捕捉低级信息,选取可见光模态支路的Fr3、Fr4、Fr5特征提取层和红外模态支路的Ft3、Ft4、Ft5特征提取层负责提取高级语义信息。
步骤S6所述的利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行增强多模态互补特征,是指利用三个DFMDA分别处理可见光模态支路Fr2、Fr3、Fr4和红外模态支路Ft2、Ft3、Ft4的特征提取层提取的模态特征,输出的互补特征图再相加到源模态上,输出层分别是Fr3、Fr4、Fr5和Ft3、Ft4、Ft5,具体包括先利用DFMDA中差分结构得到相同层的模态差异特征,再利用DFMDA中两个多头空洞注意力模块MHDA对模态差异特征进行处理。
所述的利用差分结构得到相同层的模态差异特征,是指将深层特征层的可见光模态特征Fr和红外模态特征Ft输入到DFMDA中,通过红外模态特征Ft减去可见光模态特征Fr得到可见光模态差异特征通过可见光模态特征Fr减去红外模态特征Ft得到红外模态差异特征/>
所述的利用两个多头空洞注意力模块MHDA处理模态差异特征,是指利用两个多头空洞注意力模块MHDA分别处理可见光模态的差异特征和红外模态的差异特征/>其中两个MHDA的输入矩阵Q分别是差分结构的输出/>和/>输入矩阵K、V分别是可见光模态特征Fr和红外模态特征Ft;将两个MHDA的输出相加到另外的模态上,实现多模态的信息互补,如图2所示,为多头空洞注意力模块MHDA的结构,其工作过程为:
其中输出可见光模态特征Fr'和红外模态特征Ft'作为下一层深层特征层的输入,具体包括以下步骤:
步骤S301:所述多头空洞注意力模块MHDA是由多个空洞滑动窗口注意力DSWA组成,给定输入为可见光模态差分特征红外模态差分特征/>可见光模态特征Fr和红外模态特征Ft。
步骤S302:将Fr、Ft进行线性映射,并根据设定的多头的个数n进行划分,三个DFMDA模块的多头的个数n依次为4,8,16;在不同的注意力头部中,使用不同的空洞系数r执行空洞滑动窗口注意力DSWA,以获得每个头部的输出特征hi;n个hi被拼接到一起,再通过线性层映射进行特征聚合,得到特征图Y;
步骤S303:对特征图Y进行层归一化LayerNorm和多层感知机MLP操作,再与之前的输入进行残差连接,得到输出Z,输出Z是经过多头空洞注意力模块MHDA处理后的最终结果,其中MLP由两个线性层和一个GELU激活函数组成,具体过程为:
其中,ri是第i个头的膨胀率,Qj、Kj和Vj表示输入到第j个头中的特征图的切片,该特征图的切片采用矩阵的形式进行表达;Q1,K1,V1,Y1,Z1表示对可见光模态部分的计算输出的特征图,Q2,K2,V2,/>Y2,Z2表示对红外模态部分的计算输出的特征图;
步骤S302所述的在不同的注意力头部中,使用不同的空洞系数r执行空洞滑动窗口注意力DSWA,具体过程为:
空洞滑动窗口注意力DSWA采用滑动窗口的方式对所有查询矩阵Q进行自注意操作,给定空洞系数r,在以位置(a,b)为中心的大小为w×w的滑动窗口中,通过空洞系数r,查询向量Q会稀疏的选择周围的关键字矩阵K中的位置点qab来计算自注意力,DSWA公式表示为:
其中,输入Q,K,V∈RC×H×W,Q、K、V分别表示查询矩阵、关键字矩阵和值矩阵,三个矩阵的每一行表示单个的查询向量、关键字向量和值向量;C、H和W是输入矩阵Q、K、V的高度和宽度;Kr和Vr表示从关键字矩阵K和值矩阵V中,通过空洞系数r选择的键和值;
其中,Kr和Vr的坐标(a',b')的计算公式如下:
步骤S7所述的将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加,得到不同尺度的跨模态融合图像特征,是指将三个差分模态多尺度空洞注意力模块DFMDA的输出可见光和红外模态特征分别送入深层特征提取层Fr3、Fr4、Fr5和Ft3、Ft4、Ft5,特征提取层Fr3和Ft3的输出相加得到P3,特征提取层Fr4和Ft4的输出相加得到P4,特征提取层Fr5和Ft5输出相加得到P5,P3、P4、P5是不同尺度的跨模态图像融合特征。
如图3所示,为三个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征处理流程示意图。其中输入为可见光(RGB)和红外(Thermal)图片对,每个图片的长和宽都为640,通道数为3;经过浅层特征提取层Fr1和Ft1后,可见光-红外图片对长和宽变为320,通道数为64;经过浅层特征提取层Fr2和Ft2后,可见光-红外图片对长和宽变为160,通道数为128;将其输出的特征图输入到DFMDA,再经过深层特征提取层Fr3和Ft3后,输出的特征图的长和宽变为80,通道数为256;将得到的特征图输入到DFMDA,再经过深层特征提取层Fr4和Ft4后,输出的特征图的长和宽变为40,通道数为512;将得到的特征图输入到DFMDA,再经过深层特征提取层Fr5和Ft5后,输出的特征图的长和宽变为20,通道数为1024;Fr3、Fr4、Fr5和Ft3、Ft4、Ft5经过分层相加得到P3、P4、P5。
Claims (10)
1.一种基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,包括以下步骤:
步骤S1:获取多组可见光-红外图片对;
步骤S2:利用YOLOV5的backbone网络结构构建双流网络;
步骤S3:构建差分模态多尺度空洞注意力模块DFMDA;
步骤S4:在构建的双流网络中插入三个构建的差分模态多尺度空洞注意力模块DFMDA;
步骤S5:利用步骤S4中的双流网络来提取可见光-红外图片的分层特征;
步骤S6:利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行多模态互补信息的增强,得到多尺度的语义信息;
步骤S7:将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加,得到不同尺度的跨模态融合图像特征。
2.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,步骤S1所述的获取多组可见光-红外图片对,其中每组图片对中可见光图片和红外图片的通道数相同。
3.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,步骤S2所述的利用YOLOV5的backbone构建双流网络,指构建可见光模态支路和红外模态支路,每条支路采用相同的YOLOV5的backbone网络结构,其中,Fr1、Fr2、Fr3、Fr4、Fr5五个特征提取层作为可见光模态支路,用来提取可见光模态特征Fr;Ft1、Ft2、Ft3、Ft4、Ft5五个特征提取层作为红外模态支路,用来提取红外模态特征Ft。
4.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,步骤S3所述的差分模态多尺度空洞注意力模块DFMDA包括特征差分结构和两个多头空洞注意力模块MHDA。
5.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,步骤S5所述的利用双流网络提取可见光-红外图片的分层特征,是指分别将可见光图片和红外图片输入到可见光模态支路和红外模态支路中,选取可见光模态支路的Fr1、Fr2特征提取层和红外模态支路的Ft1、Ft2特征提取层负责浅层阶段捕捉低级信息,选取可见光模态支路的Fr3、Fr4、Fr5特征提取层和红外模态支路的Ft3、Ft4、Ft5特征提取层负责提取高级语义信息。
6.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,步骤S6所述的利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行增强多模态互补特征,是指利用三个DFMDA分别处理可见光模态支路Fr2、Fr3、Fr4和红外模态支路Ft2、Ft3、Ft4的特征提取层提取的模态特征,输出层分别是Fr3、Fr4、Fr5和Ft3、Ft4、Ft5,具体包括先利用DFMDA中差分结构得到相同层的模态差异特征,再利用DFMDA中两个多头空洞注意力模块MHDA对模态差异特征进行处理。
7.根据权利要求6所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,所述的利用差分结构得到相同层的模态差异特征,是指将深层特征层的可见光模态特征Fr和红外模态特征Ft输入到DFMDA中,通过红外模态特征Ft减去可见光模态特征Fr得到可见光模态差异特征通过可见光模态特征Fr减去红外模态特征Ft得到红外模态差异特征
8.根据权利要求6所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,所述的利用两个多头空洞注意力模块MHDA处理模态差异特征,是指利用两个多头空洞注意力模块MHDA分别处理可见光模态的差异特征和红外模态的差异特征/>其中两个MHDA的输入矩阵Q分别是差分结构的输出/>和/>输入矩阵K、V分别是可见光模态特征Fr和红外模态特征Ft;将两个MHDA的输出互补特征图,相加到另外的模态上,实现多模态的信息互补,具体过程为:
其中输出可见光模态特征Fr'和红外模态特征Ft'作为下一层深层特征层的输入;具体包括以下步骤:
步骤S301:所述多头空洞注意力模块MHDA是由多个空洞滑动窗口注意力DSWA组成,给定输入为可见光模态差分特征红外模态差分特征/>可见光模态特征Fr和红外模态特征Ft;
步骤S302:将Fr、Ft进行线性映射,并根据设定的多头的个数n进行划分,三个DFMDA模块的多头的个数n依次为4,8,16;在不同的注意力头部中,使用不同的空洞系数r执行空洞滑动窗口注意力DSWA,以获得每个头部的输出特征hi;n个hi被拼接到一起,再通过线性层映射进行特征聚合,得到特征图Y;
步骤S303:对特征图Y进行层归一化LayerNorm和多层感知机MLP操作,再与之前的输入进行残差连接,得到输出Z,输出Z是经过多头空洞注意力模块MHDA处理后的最终结果,其中MLP由两个线性层和一个GELU激活函数组成,具体过程为:
其中,ri是第i个头的膨胀率,Qj、Kj和Vj表示输入到第j个头中的特征图的切片,该特征图的切片采用矩阵的形式进行表达;Q1,K1,V1,Y1,Z1表示对可见光模态部分的计算输出的特征图,Q2,K2,V2,/>Y2,Z2表示对红外模态部分的计算输出的特征图。
9.根据权利要求7所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,步骤S302所述的在不同的注意力头部中,使用不同的空洞系数r执行空洞滑动窗口注意力DSWA,具体过程为:
空洞滑动窗口注意力DSWA采用滑动窗口的方式对所有查询矩阵Q进行自注意操作,给定空洞系数r,在以位置(a,b)为中心的大小为w×w的滑动窗口中,通过空洞系数r,查询向量Q会稀疏的选择周围的关键字矩阵K中的位置点qab来计算自注意力,DSWA公式表示为:
其中,输入Q,K,V∈RC×H×W,Q、K、V分别表示查询矩阵、关键字矩阵和值矩阵,三个矩阵的每一行表示单个的查询向量、关键字向量和值向量;C、H和W是输入矩阵Q、K、V的高度和宽度;Kr和Vr表示从关键字矩阵K和值矩阵V中,通过空洞系数r选择的键和值;
其中,Kr和Vr的坐标(a',b')的计算公式如下:
10.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法,其特征在于,步骤S7所述的将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加,得到不同尺度的跨模态融合图像特征,是指将三个差分模态多尺度空洞注意力模块DFMDA的输出可见光和红外模态特征分别送入深层特征提取层Fr3、Fr4、Fr5和Ft3、Ft4、Ft5,特征提取层Fr3和Ft3的输出相加得到P3,特征提取层Fr4和Ft4的输出相加得到P4,特征提取层Fr5和Ft5输出相加得到P5,P3、P4、P5是不同尺度的跨模态图像融合特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310977101.3A CN116935178A (zh) | 2023-08-04 | 2023-08-04 | 一种基于多尺度空洞注意力的跨模态图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310977101.3A CN116935178A (zh) | 2023-08-04 | 2023-08-04 | 一种基于多尺度空洞注意力的跨模态图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935178A true CN116935178A (zh) | 2023-10-24 |
Family
ID=88390772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310977101.3A Pending CN116935178A (zh) | 2023-08-04 | 2023-08-04 | 一种基于多尺度空洞注意力的跨模态图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935178A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893816A (zh) * | 2024-01-18 | 2024-04-16 | 安徽大学 | 一种分层次残差光谱空间卷积网络的高光谱图像分类方法 |
-
2023
- 2023-08-04 CN CN202310977101.3A patent/CN116935178A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893816A (zh) * | 2024-01-18 | 2024-04-16 | 安徽大学 | 一种分层次残差光谱空间卷积网络的高光谱图像分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
CN113628249B (zh) | 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 | |
CN112651262B (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN110929696A (zh) | 一种基于多模态注意与自适应融合的遥感图像语义分割方法 | |
CN117079139B (zh) | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 | |
CN116935178A (zh) | 一种基于多尺度空洞注意力的跨模态图像融合方法 | |
CN114170410A (zh) | 基于PointNet的图卷积与KNN搜索的点云零件级分割方法 | |
CN111832637B (zh) | 基于交替方向乘子法admm的分布式深度学习分类方法 | |
CN113516133A (zh) | 一种多模态图像分类方法及系统 | |
CN113962281A (zh) | 基于Siamese-RFB的无人机目标跟踪方法 | |
CN112418235A (zh) | 一种基于膨胀最近邻特征增强的点云语义分割方法 | |
CN114445442B (zh) | 基于非对称交叉融合的多光谱图像语义分割方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN117252904A (zh) | 基于长程空间感知与通道增强的目标跟踪方法与系统 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN113870312B (zh) | 基于孪生网络的单目标跟踪方法 | |
CN114445816A (zh) | 一种基于二维图像和三维点云的花粉分类方法 | |
CN112164065B (zh) | 一种基于轻量化卷积神经网络的实时图像语义分割方法 | |
CN116433451A (zh) | 基于全局上下文注意门优化水印分解网络的水印去除方法 | |
CN116740480A (zh) | 多模态图像融合目标跟踪方法 | |
CN116246109A (zh) | 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用 | |
CN115775214A (zh) | 一种基于多阶段分形组合的点云补全方法及系统 | |
CN116844004A (zh) | 一种面向数字孪生场景的点云自动语义化建模方法 | |
CN116485892A (zh) | 一种弱纹理物体的六自由度位姿估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |