CN116071281A

CN116071281A - 一种基于特征信息交互的多模态图像融合方法

Info

Publication number: CN116071281A
Application number: CN202310165311.2A
Authority: CN
Inventors: 刘晓宋; 邱怀彬; 邸江磊; 秦玉文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-05

Abstract

本发明公开了一种基于特征信息交互的多模态图像融合方法，本发明用于解决现阶段图像融合技术面对复杂多模态图像时，特征信息之间缺乏内在联系与交互，导致融合图像场景出现失真的难题，本发明的图像融合方法先将多模态图像X₁和X₂作为卷积模块ConvM的输入，得到浅层特征图S₁和S₂，接着分别通过注意力模块AttenM1和卷积模块ConvM，得到中间层特征图M₁和M₂；随后对中间层特征图分别进行序列编码并乘以相应权重W^q，k，v，再将得到矩阵信息值互换后通过上述注意力和卷积模块，得到深层特征图D₁和D₂；将各层输出特征图进行拼接后，通过注意力模块AttenM2并由CNN网络重建得到多模态融合图像Y。本发明方法可实现对多模态图像的有效融合，具有信息交互性强、成像精度高等特点。

Description

一种基于特征信息交互的多模态图像融合方法

技术领域：

本发明涉及图像融合技术，具体涉及一种基于特征信息交互的多模态图像融合方法。

背景技术：

多模态图像融合是一种将来自不同传感器或不同成像模式相机捕获的多个源图像的互补信息进行组合以生成信息量更大图像的技术。由于受到单一类型传感器或单一成像模式相机的硬件限制，捕获的图像信息不能全面地表征成像场景，并且越来越无法满足智能识别和后续图像任务的需求，因此近年来多模态图像融合技术开始备受重视。

在不同模态成像的组合中，一对红外和可见光图像是最常见的，其中可见光图像包含丰富的纹理细节，但环境条件容易降低其质量，相比之下，红外图像受亮度、天气等环境变化影响小，但却带有噪声分量和较差的场景纹理，显然二者具有很好互补性，它们的融合结果能够显著提高图像处理和计算机视觉性能，目前被广泛用于各种领域，包括目标跟踪、医疗检测、自动驾驶等。

传统的融合技术大多基于信号处理的方法，需要较多计算资源，面对复杂多模态图像时，具有特征信息容易丢失、泛化能力弱等缺陷。近年来，深度学习已经显示出强大的特征表示能力，人们大多开始使用卷积神经网络和生成对抗网络进行红外和可见光图像的融合。然而在面对具有更复杂特征信息的多模态图像时，卷积神经网络中源图像的细节可能随着网络层加深而丢失，并且特征信息之间流动性不强、交互性差，导致融合结果可能包含可见和红外图像之间不平衡信息；基于生成对抗网络的算法是依赖于对抗学习来生成与源图像之一相似的融合图像，不同源图像之间的特征信息缺乏内在联系，所以融合结果可能缺乏另一源图像中的信息。因此，提出一个增强源图像之间特征信息的交互与联系的方法，尤其是针对图像全局与局部之间的信息、不同通道之间的信息、不同模态之间的信息的交互，对于提高多模态图像融合质量是十分必要的。

发明内容：

本发明的目的在于克服现有技术的不足，提供一种基于特征信息交互的多模态图像融合方法，所述图像融合方法可以实现对复杂多模态图像的有效融合，具有信息交互性强、成像精度高等特点。

本发明解决上述技术问题的技术方案是：

一种基于特征信息交互的多模态图像融合方法，包括以下步骤：

(S1)、使用多模态成像相机拍摄一组多模态图像X₁和X₂，分别作为卷积模块ConvM的输入，得到浅层特征图S1和S2；

(S2)、将浅层特征图S1和S2分别作为注意力模块AttenM1的输入，接着通过卷积模块ConvM，得到中间层特征图M₁和M₂；

(S3)、将中间层特征图M₁和M₂分别进行序列编码，乘以权重W^q，k，v分别得到对应的Q、K、V值，接着将两者的Q值和V值进行互换后解码重建回特征图M’₁和M’₂，作为注意力模块AttenM1的输入，并通过卷积模块ConvM得到深层特征图D₁和D₂；其中，获得深层特征图D₁和D₂的表达式为：

[M′₁，M′₂]＝[F(Q₂，K₁，V₂)，F(Q₁，K₂，V₁)] (2)

[D₁，D₂]＝[ConvM(AttenM1(M′₁)，ConvM(AttenM1(M′₂)] (3)

上式中，f(·)表示为序列编码函数，F(·)表示为解码重建函数；

(S4)、将上述步骤每层输出的特征图在通道上进行拼接，得到融合特征图F后接着通过注意力模块AttenM2并执行跳跃连接操作，最后由卷积神经网络CNN通过调整通道数重建得到多模态融合图像Y；

(S5)、将上述模块构建成一个多模态图像融合的端到端神经网络FNet，并将输出的多模态融合图像Y与输入的多模态图像X₁和X₂做损失函数Loss，计算Loss值的梯度做反向传播更新网络中各模块的参数，输入N组多模态图像到神经网络FNet中，训练神经网络FNet直至其Loss值达到收敛则停止更新参数。

优选的，在步骤(S1)中，所述多模态成像包括但不限于可见光成像、不同波段红外成像、偏振成像等。

优选的，在步骤(S1)中，所述卷积模块ConvM主要由两个卷积核为1*1的卷积层和卷积核为3*3的深度可分离卷积层组成，并执行跳跃连接构成残差结构；其中每个1*1卷积层后进行批量归一化，激活函数可采用S型激活函数、线性整流激活函数或高斯误差线性激活函数。

优选的，所述卷积核为3*3的深度可分离卷积层应在两个卷积核为1*1的卷积层中间，卷积层应设置相应的填充和步长系数，使卷积模块ConvM的输入图像和输出图像大小一致。

优选的，在步骤(S2)中，所述注意力模块AttenM1主要由余弦缩放的移动窗口多头自注意力和层归一化组成，并执行跳跃连接构成残差结构；其中余弦缩放的移动窗口多头自注意力表达式为：

上式中Q、K、V为注意力机制中的三个数值矩阵；B为相对位置偏差矩阵；α表示为可学习的标量，应满足α≥0.01，并且不在多头之间共享。

优选的，在步骤(S4)中，所述注意力模块AttenM2主要沿用旋转变换器的架构，其中窗口多头自注意力用池化层代替，移动窗口多头自注意力采用余弦缩放，多层感知机的层数应小于等于3，激活函数可采用线性整流激活函数或高斯误差线性激活函数。

优选的，所述移动窗口多头自注意力的窗口大小可设置为5*5、7*7或9*9，头的数量应小于等于5。

优选的，在步骤(S5)中，所述输入多模态图像的组数N应大于等于2000，且各组图像成像模式的组合应保持一致，组合包括但不限于可见光成像和短波红外成像、可见光成像和中波红外成像、可见光成像和长波红外成像、可见光成像和偏振成像。

优选的，在步骤(S5)中，所述损失函数Loss采用结构相似性度量SSIM损失函数和L2损失函数相结合的方式；其中损失函数Loss的表达式如下：

L_SSIM＝λ(1-SSIM(Y，X₁))+(1-λ)(1-SSIM(Y，X₂)) (5)

Loss＝αL_SSIM+L₂ (7)

上式中H和W分别为图像的高和宽，λ和α针对不同模态图像的输入可取不同的值，其中λ取值范围为0＜λ＜1，α取值范围为10≤α≤104。

本发明与现有技术相比具有以下的有益效果：

本发明的基于特征信息交互的多模态图像融合方法采用卷积模块ConvM提取输入图像在不同网络层产生的局部特征信息，不同网络层输出具有不同特点的图像信息，如浅层网络输出的特征分辨率高，具有更小的感受野，含有更多的细粒度信息，而深层网络输出的特征被压缩，感受野更大，蕴含着更为抽象的语义信息，后续将上述信息进行拼接，有利于增强不同网络层之间的交互与联系，并且部分特征信息还将引导下一层注意力模块AttenM1来获取图像的全局特征信息，增强不同层之间全局与局部特征信息的交互与联系，能够更好地提升图像融合的效果。

本发明所使用的卷积模块ConvM中采用的卷积核为1*1的卷积层可以对不同通道上的像素点进行线性组合，即可实现特征图升维或降维的功能，有利于增强图像在不同通道之间的特征信息交互和整合；采用的卷积核为3*3的深度可分离卷积是将一个完整的卷积运算分解为两步进行，有利于减少网络计参数量，提高运行效率和推理速度；采用的残差结构可以有效解决网络层加深时特征丢失的问题，充分保留有效的特征信息来实现后续融合任务质量的提高。

本发明的基于特征信息交互的多模态图像融合方法采用注意力模块AttenM1根据上层网络的局部特征信息的指导来学习图像中的全局特征信息，采用注意力模块AttenM2根据融合了各层不同模态图像的特征信息的指导来重建输出多模态融合图像，两个模块均采用了移动窗口多头自注意力机制，将特征信息在相邻的窗口中进行充分的交流与传递，并且在中间网络层注意力模块AttenM1的输入中，将不同模态特征图产生的Q、V值进行互换，都是旨在提高不同模态图像之间特征信息的交互性和流动性，克服现阶段图像融合技术因信息交互性差导致融合效果欠缺和场景失真的缺陷，进而更有利于实现多模态图像信息互补和高精度融合成像。

附图说明：

图1为本发明的基于特征信息交互的多模态图像融合方法的流程框图。

图2为本发明的基于特征信息交互的多模态图像融合方法的使用的卷积模块ConvM结构图。

图3为本发明的基于特征信息交互的多模态图像融合方法的使用的注意力模块AttenM1和AttenM2的结构图。

具体实施方式：

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1，本发明的基于特征信息交互的多模态图像融合方法包括以下步骤：

(S1)、使用多模态成像相机拍摄一组多模态图像X₁和X₂，分别作为卷积模块ConvM的输入，得到浅层特征图S₁和S₂；

(S2)、将浅层特征图S₁和S₂分别作为注意力模块AttenM1的输入，接着通过卷积模块ConvM，得到中间层特征图M₁和M₂；

[M′₁，M′₂]＝[F(Q₂，K₁，V₂)，F(Q₁，K₂，V₁)] (9)

[D₁，D₂]＝[ConvM(AttenM1(M′₁)，ConvM(AttenM1(M′₂)] (10)

(S5)、将上述模块构建成一个多模态图像融合的端到端神经网络FNet，并将输出的多模态融合图像Y与输入的多模态图像X₁和X₂做损失函数Loss，计算Loss值的梯度做反向传播更新网络中各模块的参数，输入N组多模态图像到神经网络FNet中，设置网络初始学习率为10^-3、动量为0.9、权重衰减为0.005和融合激活函数为tanh函数，并采用SGD优化器和Sobel梯度算子训练神经网络FNet，当训练轮次达到500论以上且损失函数Loss上下波动范围小于10^-4，则可认为训练达到近似收敛，停止更新网络模型参数；其中，训练神经网络Net采用的软件和硬件设备有：

Ubuntu 18.04.3的Linux操作系统、PyCharm编译环境Python 3.9编程语言，pytorch-cuda11.7深度学习应用库，GeForce 3060Ti显卡。

参见图1，所述输出的多模态融合图像Y与输入的多模态图像X₁和X₂做损失函数Loss是采用结构相似性度量SSIM损失函数和L₂损失函数相结合的方式；其中损失函数Loss的表达式如下：

L_SSIM＝λ(1--SSIM(Y，X₁))+(1-λ)(1-SSIM(Y，X₂)) (11)

Loss＝αL_SSIM+L₂ (13)

上式中H和W分别为图像的高和宽，其中λ取值为0.5、α取值为103。

参见图2，所述卷积模块ConvM主要由两个卷积核为1*1的卷积层和卷积核为3*3的深度可分离卷积层组成，并执行跳跃连接构成残差结构；其中每个1*1卷积层后进行批量归一化，激活函采用高斯误差线性激活函数。

参见图2，所述卷积核为3*3的深度可分离卷积层应在两个卷积核为1*1的卷积层中间，卷积层设置相应的填充和步长系数，使卷积模块ConvM的输入图像和输出图像大小一致。

参见图3，所述注意力模块AttenM1主要由余弦缩放的移动窗口多头自注意力和层归一化组成，并执行跳跃连接构成残差结构；其中余弦缩放的移动窗口多头自注意力表达式为：

参见图3，所述注意力模块AttenM2主要沿用旋转变换器的架构，其中窗口多头自注意力用池化层代替，移动窗口多头自注意力采用余弦缩放且窗口大小设置为7*7、头的数量设置为3，多层感知机的层数设置为2，激活函数采用高斯误差线性激活函数。

另外，本实施例中所述的不同成像模式包括可见光成像、不同波段红外成像和偏振成像。

另外，本实施例中所述所述神经网络FNet输入的多模态图像的组数N为3000，且各组图像成像模式的组合保持一致，组合分别选用了可见光成像和长波红外成像、可见光成像和偏振成像来进行两次实验。

以上所述仅是本发明的优选较佳的实施方式，本发明的保护范围并不仅局限于上述实施例的限制，凡属于本发明的精神实质和原理下的技术方案均属于本发明的保护范围。应当指出，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于特征信息交互的多模态图像融合方法，其特征在于，包括以下步骤：

(S3)、将中间层特征图M₁和M₂分别进行序列编码，乘以权重W^q，k，v分别得到对应的Q、K、V值，接着将两者的Q值和V值进行互换后解码重建回新特征图M’₁和M’₂，作为注意力模块AttenM1的输入，并通过卷积模块ConvM得到深层特征图D₁和D₂；其中，获得深层特征图D₁和D₂的表达式为：

[M′₁，M′₂]＝[F(Q₂，K₁，V₂)，F(Q₁，K₂，V₁)] (2)

[D₁，D₂]＝[ConvM(AttenM1(M′₁)，ConvM(AttenM1(M′₂)] (3)

2.根据权利要求1所述的基于特征信息交互的多模态图像融合方法，其特征在于，在步骤(S1)中，所述多模态成像包括但不限于可见光成像、不同波段红外成像、偏振成像等。

3.根据权利要求1所述的基于特征信息交互的多模态图像融合方法，其特征在于，在步骤(S1)中，所述卷积模块ConvM主要由两个卷积核为1*1的卷积层和卷积核为3*3的深度可分离卷积层组成，并执行跳跃连接构成残差结构；其中每个1*1卷积层后进行批量归一化，激活函数可采用S型激活函数、线性整流激活函数或高斯误差线性激活函数。

4.根据权利要求4所述的基于特征信息交互的多模态图像融合方法，其特征在于，所述3*3深度可分离卷积层应在两个1*1卷积层中间，卷积层应设置相应的填充和步长系数，使卷积模块ConvM的输入图像和输出图像大小一致。

5.根据权利要求1所述的基于特征信息交互的多模态图像融合方法，其特征在于，在步骤(S2)中，所述注意力模块AttenM1主要由余弦缩放的移动窗口多头自注意力和层归一化组成，并执行跳跃连接构成残差结构；其中余弦缩放的移动窗口多头自注意力表达式为：

6.根据权利要求1所述的基于特征信息交互的多模态图像融合方法，其特征在于，在步骤(S4)中，所述注意力模块AttenM2主要沿用旋转变换器的架构，其中窗口多头自注意力用池化层代替，移动窗口多头自注意力采用余弦缩放，多层感知机的层数应小于等于3，激活函数可采用线性整流激活函数或高斯误差线性激活函数。

7.根据权利要求6所述的基于特征信息交互的多模态图像融合方法，其特征在于，所述移动窗口多头自注意力的窗口大小可设置为5*5、7*7或9*9，头的数量应小于等于5。

8.根据权利要求1所述的基于特征信息交互的多模态图像融合方法，其特征在于，在步骤(S5)中，所述输入多模态图像的组数N应大于等于2000，且各组图像成像模式的组合应保持一致，组合包括但不限于可见光成像和短波红外成像、可见光成像和中波红外成像、可见光成像和长波红外成像、可见光成像和偏振成像。

9.根据权利要求1所述的基于特征信息交互的多模态图像融合方法，其特征在于，在步骤(S5)中，所述损失函数Loss采用结构相似性度量SSIM损失函数和L₂损失函数相结合的方式；其中损失函数Loss的表达式如下：

L_SSIM＝λ(1-SSIM(Y，X₁))+(1-λ)(1-SSIM(Y，X₂)) (5)

Loss＝αL_SSIM+L₂ (7)

上式中H和W分别为图像的高和宽，λ和α针对不同模态图像的输入可取不同的值，其中λ取值范围为0＜λ＜1，α取值范围为10≤α≤10⁴。