CN116935178A

CN116935178A - 一种基于多尺度空洞注意力的跨模态图像融合方法

Info

Publication number: CN116935178A
Application number: CN202310977101.3A
Authority: CN
Inventors: 项靖; 姜明新; 杜强; 洪远; 黄俊闻; 王杰
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-10-24

Abstract

本发明公开了一种基于多尺度空洞注意力的跨模态图像融合方法，包括获取多组可见光‑红外图片对；构建双流网络；构建差分模态多尺度空洞注意力模块DFMDA；在构建的双流网络中插入三个构建的差分模态多尺度空洞注意力模块DFMDA；利用双流网络来提取可见光‑红外图片的分层特征；利用三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行多模态互补信息的增强，得到多尺度的语义信息；将差分模态多尺度空洞注意力模块DFMDA的输出多尺度跨模态图像特征相加进行图像融合。本发明解决了现有图像融合技术中存在的计算复杂、较少利用跨模态特征之间的信息，在处理夜晚等复杂环境图像时，鲁棒性较差的问题。

Description

一种基于多尺度空洞注意力的跨模态图像融合方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于多尺度空洞注意力的跨模态图像融合方法。

背景技术

由于不同模态的图像信息具有互补性，红外和可见光的融合已经广泛应用于目标检测，目标跟踪，行人重识别和语义分割。传统的图像融合技术主要采用高斯滤波、双边滤波和基于数据驱动的方法。这些方法通过数学变换将源图像转换到一个变换域，并设计相应的融合规则来实现图像融合。然而，存在的问题是这些方法计算复杂度高，难以实现更高的融合性能，无法满足实时计算机应用的要求。

随着深度学习的快速发展，图像融合正朝着基于数据驱动的方向进行研究，主要分为三类：基于自动编码器(AE)的方法、基于卷积神经网络(CNN)的方法(如PIAFusion、MBNet)，以及基于生成对抗性网络(GAN)的方法(如FusionGan)。但这些方法都是基于卷积块实现的，感受野较小，无法对任意图像块之间的长程依赖性进行建模。

现有技术中，CFT使用Transformer块的自注意力机制能更好地融合图像信息，感受野大。但由于CFT使用全局感受野，导致二次计算成本增加，并且在图像融合任务中，对所有图像块之间的建模依赖性可能是多余的。同时CFT缺乏提取多尺度特征的能力，不能有效解决目标尺度变化问题，并且很少利用跨模态特征之间的信息，在处理夜晚等复杂环境图像时，鲁棒性较差。

发明内容

发明目的：本发明的目的是提供一种以提高网络提取多尺度语义信息能力，减少了自注意机制的冗余和计算量的基于多尺度空洞注意力的跨模态图像融合方法。

技术方案：为实现上述目的，本发明所述的一种基于多尺度空洞注意力的跨模态图像融合方法，包括以下步骤：

步骤S1：获取多组可见光-红外图片对；

步骤S2：利用YOLOV5的backbone网络结构构建双流网络；

步骤S3：构建差分模态多尺度空洞注意力模块DFMDA；

步骤S4：在构建的双流网络中插入三个构建的差分模态多尺度空洞注意力模块DFMDA；

步骤S5：利用步骤S4中的双流网络来提取可见光-红外图片的分层特征；

步骤S6：利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行多模态互补信息的增强，得到多尺度的语义信息；

步骤S7：将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加，得到不同尺度的跨模态融合图像特征。

步骤S1所述的获取多组可见光-红外图片对，其中每组图片对中可见光图片和红外图片的通道数相同。

步骤S2所述的利用YOLOV5的backbone构建双流网络，指构建可见光模态支路和红外模态支路，每条支路采用相同的YOLOV5的backbone网络结构，其中，Fr1、Fr2、Fr3、Fr4、Fr5五个特征提取层作为可见光模态支路，用来提取可见光模态特征Fr；Ft1、Ft2、Ft3、Ft4、Ft5五个特征提取层作为红外模态支路，用来提取红外模态特征Ft。

步骤S3所述的差分模态多尺度空洞注意力模块DFMDA包括特征差分结构和两个多尺度空洞注意力模块。

步骤S5所述的利用双流网络提取可见光-红外图片的分层特征，是指分别将可见光图片和红外图片输入到可见光模态支路和红外模态支路中，选取可见光模态支路的Fr1、Fr2特征提取层和红外模态支路的Ft1、Ft2特征提取层负责浅层阶段捕捉低级信息，选取可见光模态支路的Fr3、Fr4、Fr5特征提取层和红外模态支路的Ft3、Ft4、Ft5特征提取层负责提取高级语义信息。

步骤S6所述的利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行增强多模态互补特征，是指利用三个DFMDA分别处理可见光模态支路Fr2、Fr3、Fr4和红外模态支路Ft2、Ft3、Ft4的特征提取层提取的模态特征，输出的互补特征图再相加到源模态上，输出层分别是Fr3、Fr4、Fr5和Ft3、Ft4、Ft5，具体包括先利用DFMDA中差分结构得到相同层的模态差异特征，再利用DFMDA中两个多头空洞注意力模块MHDA对模态差异特征进行处理。

所述的利用差分结构得到相同层的模态差异特征，是指将深层特征层的可见光模态特征Fr和红外模态特征Ft输入到DFMDA中，通过红外模态特征Ft减去可见光模态特征Fr得到可见光模态差异特征通过可见光模态特征Fr减去红外模态特征Ft得到红外模态差异特征/>

所述的利用两个多头空洞注意力模块MHDA处理模态差异特征，是指利用两个多头空洞注意力模块MHDA分别处理可见光模态的差异特征和红外模态的差异特征/>其中两个MHDA的输入矩阵Q分别是差分结构的输出/>和/>输入矩阵K、V分别是可见光模态特征Fr和红外模态特征Ft；将两个MHDA的输出互补特征图，相加到另外的模态上，实现多模态的信息互补，具体过程为：

其中输出可见光模态特征F_r'和红外模态特征F_t'作为下一层深层特征层的输入；具体包括以下步骤：

步骤S301：所述多头空洞注意力模块MHDA是由多个空洞滑动窗口注意力DSWA组成，给定输入为可见光模态差分特征红外模态差分特征/>可见光模态特征Fr和红外模态特征Ft。

步骤S302：将Fr、Ft进行线性映射，并根据设定的多头的个数n进行划分，三个DFMDA模块的多头的个数n依次为4，8，16；在不同的注意力头部中，使用不同的空洞系数r执行空洞滑动窗口注意力DSWA，以获得每个头部的输出特征h_i；n个h_i被拼接到一起，再通过线性层映射进行特征聚合，得到特征图Y；

步骤S303：对特征图Y进行层归一化LayerNorm和多层感知机MLP操作，再与之前的输入进行残差连接，得到输出Z，输出Z是经过多头空洞注意力模块MHDA处理后的最终结果，其中MLP由两个线性层和一个GELU激活函数组成，具体过程为：

其中，r_i是第i个头的膨胀率，Q_j、K_j和V_j表示输入到第j个头中的特征图的切片，该特征图的切片采用矩阵的形式进行表达；Q¹,K¹,V¹,Y¹,Z¹表示对可见光模态部分的计算输出的特征图，Q²,K²,V²,/>Y²,Z²表示对红外模态部分的计算输出的特征图；

步骤S302所述的在不同的注意力头部中，使用不同的空洞系数r执行空洞滑动窗口注意力DSWA，具体过程为：

空洞滑动窗口注意力DSWA采用滑动窗口的方式对所有查询矩阵Q进行自注意操作，给定空洞系数r，在以位置(a,b)为中心的大小为w×w的滑动窗口中，通过空洞系数r，查询向量Q会稀疏的选择周围的关键字矩阵K中的位置点q_ab来计算自注意力，DSWA公式表示为：

其中，输入Q,K,V∈R^C×H×W，Q、K、V分别表示查询矩阵、关键字矩阵和值矩阵，三个矩阵的每一行表示单个的查询向量、关键字向量和值向量；C、H和W是输入矩阵Q、K、V的高度和宽度；K_r和V_r表示从关键字矩阵K和值矩阵V中，通过空洞系数r选择的键和值；

其中，K_r和V_r的坐标(a',b')的计算公式如下：

步骤S7所述的将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加，得到不同尺度的跨模态融合图像特征。是指将三个差分模态多尺度空洞注意力模块DFMDA的输出可见光和红外模态特征分别送入深层特征提取层Fr3、Fr4、Fr5和Ft3、Ft4、Ft5，特征提取层Fr3和Ft3的输出相加得到P3，特征提取层Fr4和Ft4的输出相加得到P4，特征提取层Fr5和Ft5输出相加得到P5，P3、P4、P5是不同尺度的跨模态图像融合特征。

有益效果：本发明具有如下优点：1、本方法中使用的差分结构能够显式地提取不同模态之间的差异特征，从而提高网络对来自另一模态图像特征的敏感性，增强多模态互补特征，提高了网络提取多尺度语义信息能力，同时也提高了对夜晚等复杂环境图像的特征提取能力；

2、本发明的多头空洞注意力模块MHDA对提取的分层特征中不同模态信息进行融合，可以有效聚合长短距离的局部特征，并有效地减少了自注意机制的冗余和计算量。

附图说明

图1为发明方法流程示意图；

图2为DFMDA网络结构示意图；

图3为三个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征处理流程示意图。

具体实施方式

下面结合实施例和附图对本发明的技术方案作详细说明。

如图1所示，本发明所述的一种基于多尺度空洞注意力的跨模态图像融合方法，包括以下步骤：

步骤S1：获取多组可见光-红外图片对；

步骤S2：利用YOLOV5的backbone网络结构构建双流网络；

步骤S3：构建差分模态多尺度空洞注意力模块DFMDA；

所述的利用两个多头空洞注意力模块MHDA处理模态差异特征，是指利用两个多头空洞注意力模块MHDA分别处理可见光模态的差异特征和红外模态的差异特征/>其中两个MHDA的输入矩阵Q分别是差分结构的输出/>和/>输入矩阵K、V分别是可见光模态特征Fr和红外模态特征Ft；将两个MHDA的输出相加到另外的模态上，实现多模态的信息互补，如图2所示，为多头空洞注意力模块MHDA的结构，其工作过程为：

其中输出可见光模态特征F_r'和红外模态特征F_t'作为下一层深层特征层的输入，具体包括以下步骤：

其中，K_r和V_r的坐标(a',b')的计算公式如下：

步骤S7所述的将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加，得到不同尺度的跨模态融合图像特征，是指将三个差分模态多尺度空洞注意力模块DFMDA的输出可见光和红外模态特征分别送入深层特征提取层Fr3、Fr4、Fr5和Ft3、Ft4、Ft5，特征提取层Fr3和Ft3的输出相加得到P3，特征提取层Fr4和Ft4的输出相加得到P4，特征提取层Fr5和Ft5输出相加得到P5，P3、P4、P5是不同尺度的跨模态图像融合特征。

如图3所示，为三个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征处理流程示意图。其中输入为可见光(RGB)和红外(Thermal)图片对，每个图片的长和宽都为640，通道数为3；经过浅层特征提取层Fr1和Ft1后，可见光-红外图片对长和宽变为320，通道数为64；经过浅层特征提取层Fr2和Ft2后，可见光-红外图片对长和宽变为160，通道数为128；将其输出的特征图输入到DFMDA，再经过深层特征提取层Fr3和Ft3后，输出的特征图的长和宽变为80，通道数为256；将得到的特征图输入到DFMDA，再经过深层特征提取层Fr4和Ft4后，输出的特征图的长和宽变为40，通道数为512；将得到的特征图输入到DFMDA，再经过深层特征提取层Fr5和Ft5后，输出的特征图的长和宽变为20，通道数为1024；Fr3、Fr4、Fr5和Ft3、Ft4、Ft5经过分层相加得到P3、P4、P5。

Claims

1.一种基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，包括以下步骤：

步骤S1：获取多组可见光-红外图片对；

步骤S2：利用YOLOV5的backbone网络结构构建双流网络；

步骤S3：构建差分模态多尺度空洞注意力模块DFMDA；

2.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，步骤S1所述的获取多组可见光-红外图片对，其中每组图片对中可见光图片和红外图片的通道数相同。

3.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，步骤S2所述的利用YOLOV5的backbone构建双流网络，指构建可见光模态支路和红外模态支路，每条支路采用相同的YOLOV5的backbone网络结构，其中，Fr1、Fr2、Fr3、Fr4、Fr5五个特征提取层作为可见光模态支路，用来提取可见光模态特征Fr；Ft1、Ft2、Ft3、Ft4、Ft5五个特征提取层作为红外模态支路，用来提取红外模态特征Ft。

4.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，步骤S3所述的差分模态多尺度空洞注意力模块DFMDA包括特征差分结构和两个多头空洞注意力模块MHDA。

5.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，步骤S5所述的利用双流网络提取可见光-红外图片的分层特征，是指分别将可见光图片和红外图片输入到可见光模态支路和红外模态支路中，选取可见光模态支路的Fr1、Fr2特征提取层和红外模态支路的Ft1、Ft2特征提取层负责浅层阶段捕捉低级信息，选取可见光模态支路的Fr3、Fr4、Fr5特征提取层和红外模态支路的Ft3、Ft4、Ft5特征提取层负责提取高级语义信息。

6.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，步骤S6所述的利用步骤S4中的三个差分模态多尺度空洞注意力模块DFMDA对提取的分层特征进行增强多模态互补特征，是指利用三个DFMDA分别处理可见光模态支路Fr2、Fr3、Fr4和红外模态支路Ft2、Ft3、Ft4的特征提取层提取的模态特征，输出层分别是Fr3、Fr4、Fr5和Ft3、Ft4、Ft5，具体包括先利用DFMDA中差分结构得到相同层的模态差异特征，再利用DFMDA中两个多头空洞注意力模块MHDA对模态差异特征进行处理。

7.根据权利要求6所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，所述的利用差分结构得到相同层的模态差异特征，是指将深层特征层的可见光模态特征Fr和红外模态特征Ft输入到DFMDA中，通过红外模态特征Ft减去可见光模态特征Fr得到可见光模态差异特征通过可见光模态特征Fr减去红外模态特征Ft得到红外模态差异特征

8.根据权利要求6所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，所述的利用两个多头空洞注意力模块MHDA处理模态差异特征，是指利用两个多头空洞注意力模块MHDA分别处理可见光模态的差异特征和红外模态的差异特征/>其中两个MHDA的输入矩阵Q分别是差分结构的输出/>和/>输入矩阵K、V分别是可见光模态特征Fr和红外模态特征Ft；将两个MHDA的输出互补特征图，相加到另外的模态上，实现多模态的信息互补，具体过程为：

步骤S301：所述多头空洞注意力模块MHDA是由多个空洞滑动窗口注意力DSWA组成，给定输入为可见光模态差分特征红外模态差分特征/>可见光模态特征Fr和红外模态特征Ft；

其中，r_i是第i个头的膨胀率，Q_j、K_j和V_j表示输入到第j个头中的特征图的切片，该特征图的切片采用矩阵的形式进行表达；Q¹,K¹,V¹,Y¹,Z¹表示对可见光模态部分的计算输出的特征图，Q²,K²,V²,/>Y²,Z²表示对红外模态部分的计算输出的特征图。

9.根据权利要求7所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，步骤S302所述的在不同的注意力头部中，使用不同的空洞系数r执行空洞滑动窗口注意力DSWA，具体过程为：

其中，K_r和V_r的坐标(a',b')的计算公式如下：

10.根据权利要求1所述的基于多尺度空洞注意力的跨模态图像融合方法，其特征在于，步骤S7所述的将每个差分模态多尺度空洞注意力模块DFMDA对可见光和红外模态特征经过特征提取后的输出进行相加，得到不同尺度的跨模态融合图像特征，是指将三个差分模态多尺度空洞注意力模块DFMDA的输出可见光和红外模态特征分别送入深层特征提取层Fr3、Fr4、Fr5和Ft3、Ft4、Ft5，特征提取层Fr3和Ft3的输出相加得到P3，特征提取层Fr4和Ft4的输出相加得到P4，特征提取层Fr5和Ft5输出相加得到P5，P3、P4、P5是不同尺度的跨模态图像融合特征。