CN116664462A

CN116664462A - 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法

Info

Publication number: CN116664462A
Application number: CN202310568133.8A
Authority: CN
Inventors: 邸敬; 任莉; 廉敬; 杨燕; 郭文庆; 梁婵
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-29
Anticipated expiration: 2043-05-19
Also published as: CN116664462B

Abstract

本发明公开了一种基于MS‑DSC和I_CBAM的红外和可见光图像融合方法，属于图像融合技术领域，该方法采用MS‑DSC对已配准的源图像进行特征提取，既克服单一尺度特征提取不足，又分别考虑了图像区域中的通道信息和空间信息，在减少参数的同时增强了网络表达能力，能更准确的提取目标对象的特征信息，将提取的特征信息采用I_CBAM从通道和空间两方面对图像的显著信息聚焦，抑制无用通道信息确保在融合时所有的显著特征都可以被利用，提升融合质量。本发明采用的I_CBAM算法是对原有算法的进一步改进，不仅展现了注意力机制在图像处理中的独特优势，而且在保留显著特征信息的同时降低了模型复杂度，通过与其他算法相结合，实现了纹理细节和场景信息清晰化，提升了融合质量。

Description

一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法

技术领域

本发明涉及图像融合技术领域，特别涉及一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法。

背景技术

红外和可见光图像融合可以较好地挖掘被融合图像中的互补信息，得到更符合人眼或机器视觉特性的融合效果，对全天候检测、遥感、农业等其他应用具有重要的意义。红外图像能够捕捉热辐射信息并具有显著的对比度，可在背景中突出目标，但通常具有低分辨率和较差的纹理。相比之下，可见光图像包含丰富的细节信息并具有较高的分辨率，更符合人类视觉感知，但易受天气、照明等因素的影响。因此，在实际应用中，通常采用图像融合技术将红外和可见光图像融合，以对两者优势进行互补，从而得到特征明显、目标突出、细节丰富、高对比度清晰的图像。这种融合效果不仅可以更好地适应人眼的观察，也可以应用于军事侦察等领域，红外和可见光图像融合的目的是将不同成像原理所提供的信息优势提取并聚合，以获得具有完整场景表达能力的高质量融合图像，为全天候检测和其他任务提供更有效和全面的信息。

现有基于深度学习的图像融合面临的最大难题是缺乏用于监督学习的真值融合图像。为了解决这一难题，一些方法可以通过手动构造真值来解决，但通常不准确，导致特征提取不足，融合后的图像细节信息丢失、目标模糊、算法不稳定。为了提高融合质量，可采用无监督端到端图像融合算法，解决缺乏真值融合图像问题，红外和可见光图像融合技术升级的核心在于优化算法，提高算力以及提升融合质量。目前常用的红外和可见光图像融合算法大致分为两类：传统融合算法和基于深度学习的融合算法。传统融合算法通常在空间域或变换域设计活动水平测量和融合规则，利用相关的数学变换来实现融合。基于深度学习的融合算法通常通过构造目标函数来约束融合图像，以使其具有期望的分布特性。由于神经网络具有较强的非线性拟合能力，在图像融合方面具有较好的融合结果。红外和可见光图像融合的最终目的是利用经过训练的网络模型进行特征提取，无需手动制定人工水平和测量规则。通过选择适当的融合策略，将两幅或多幅图像的信息完整、清晰、全面地整合在一幅图像中。

本发明技术方案重点采用MS-DSC和I_CBAM的融合分解模型，与目前流行的图像融合算法相比，该算法的性能有了明显进步，通过MS-DSC算法不仅解决了单一尺度卷积核特征提取不足，原始特征无法保留等问题，而且减少了模型参数，提高了融合质量。I_CBAM算法在原有CBAM的基础上进一步展示了注意力机制在图像处理中的独特优势，能够捕获全局依赖关系，解决普通卷积只能感知局部信息，无法获得全局关联信息而使图像中的显著信息丢失。整体融合模型计算复杂度降低，速度快，融合效果好，实现了已有方法的优化和已有技术的升级。

发明内容

本发明目的就在于为了解决上述的问题，而提供一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法。

为实现上述目的，本发明采取的技术方案为：一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法，包含以下步骤：

S1:将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征，通过多尺度卷积层不会改变最初图像的大小，丰富图像特征，提升浅层特征信息提取范围，增加图像多尺度卷积结构；其对应公式如下：

F_j＝F_in*f_j (1)

F_out＝f_Concat(F₁,F₃,F₅,F₇) (2)

其中：F_in为输入特征图；*代表卷积操作；卷积核大小为f_j，j＝1,3,5,7；F_j代表不同卷积核操作的特征图；F_out为输出的特征图。

S2:对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取，先采用3×3卷积核进行每个通道独立空间卷积减少参数，再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度，最后选择LeakyRelu作为激活函数；

S3:对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块。

在通道注意力模块中将输入的特征图F(H×W×C)，H为特征图的高，W为特征图的宽，C为特征图的通道数，进行全局最大池化和平均池化，得到两个1×1×C的特征图，然后将其分别送入一个两层的神经网络(Multi-Layer Perception，MLP)，最后经element-wise加和操作和sigmoid激活后生成通道特征图Mc，在空间注意力模块中，将输入特征图F也经过最大池化和平均池化，得到两个H×W×1特征映射，然后对其进行基于通道的concat操作，并使用卷积核大小为3的空洞卷积降维，接着通过Sigmoid激活函数,得到最终的空间特征图M_S。最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图；其对应公式如下：

其中，F表示输入特征图，表示对应元素相乘，M_C(F)表示F经过通道注意力的输出权值，M_S(F)表示F经过空间注意力的输出权值；f _3×3dilat表示卷积核大小为3的扩张卷积；实验使用的扩张卷积的扩张率为2。/>和/>分别表示平均池化和最大池化；σ表示Sigmoid激活函数；W₀∈R^C/r×C，W₁∈R^C×C/r，W₀和W₁是MLP的权重，其共享两个输入，ReLU激活函数后跟W₀。

S4:将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合，得到融合图像；

S5:将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征，然后从一个3×3卷积组成的双通道中生成分解结果。

进一步地，设定整个融合过程的损失函数，根据网络架构分为融合损失L_sf和分解损失L_ds，其对应的公式如下:

L＝L_sf+L_dc (6)

其中，L代表总损失函数，L_sf融合损失，L_ds分解损失。

进一步地，融合损失由梯度损失函数和强度损失函数构成，其公式如下：

L_sf＝βL_grad+L_int (7)

其中，β用于平衡强度项和梯度项，设置β＝0.5，L_grad表示梯度信息，L_int为梯度信息。

进一步地，梯度损失中引入了自适应权重块，自适应权重块先利用一种线性平滑滤波——高斯低通滤波，减少噪声对权重块的影响，后通过基于梯度丰富度来评估源图像对应像素的优化目标，以便使融合图像中的纹理自适应的向源图像中的纹理靠近，其公式如下：

S_2i,j＝1-S_1i,j (10)

其中，i和j表示像素在第i行和第j列权重图，H和W代表图像的高度和宽度，I₁和I₂源图像，I_fused融合图像，|·|表示绝对值函数，为拉普拉斯算子，L(·)表示高斯低通滤波器函数，min(·)表示最小函数，符号(·)为符号函数。S(·)是由权重块基于源图像的梯度水平生成的权重图。

进一步地，强度损失通过改进Frobenius范数，它是矩阵中每一个位置的元素的平方和取平均数再开方，其作用是衡量一个矩阵的大小，即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离，有效调整融合图像和两个源图像之间的权重，迫使网络训练过程中选择更有效的信息。公式如下：

其中，H和W代表图像的高度和宽度，I_fused融合图像，I₁和I₂源图像。

进一步地，分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数，从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性。公式如下：

其中，I_{1_de}和I_{2_de}为分解结果，I₁和I₂为源图像。μ、σ分别为均值和标准差，C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。

与现有技术相比，本发明具有如下有益效果：

本发明技术方案重点采用MS-DSC和I_CBAM的融合分解模型，与目前流行的图像融合算法相比，该算法的性能有了明显进步，通过MS-DSC算法不仅解决了单一尺度卷积核特征提取不足，原始特征无法保留等问题，而且减少了模型参数，提高了融合质量。

I_CBAM算法在原有CBAM的基础上进一步展示了注意力机制在图像处理中的独特优势，能够捕获全局依赖关系，解决普通卷积只能感知局部信息，无法获得全局关联信息而是图像中的显著信息丢失，整体融合模型计算复杂度降低，速度快，融合效果好，实现了已有方法的优化和已有技术的升级。

附图说明

图1为本发明的红外和可见光图像融合方法流程图；

图2为本发明的场景一融合结果；

图3为本发明的场景二融合结果；

图4为本发明的场景三融合结果；

图5为本发明的场景四融合结果；

图6为本发明的场景五融合结果；

图7为本发明的场景六融合结果。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

图1为本发明实施例的红外和可见光图像融合方法流程图，如图1所示，根据本发明的红外和可见光图像融合方法，具体包括：

1)将已经配准好的红外和可见光图像分别使用7x7、5x5、3x3、1x1四种不同尺度的卷积核来提取红外和可见光图像中的不同感受野的特征，通过多尺度卷积层不会改变最初图像的大小，丰富图像特征，提升浅层特征信息提取范围，增加图像多尺度卷积结构；

Fj＝F_in*fj (1)

F_out＝f_Concat(F₁,F₃,F₅,F₇) (2)

2)对经过多尺度浅层特征提取的红外图像和可见光图像采用深度可分离卷积进行深层特征提取，先采用3×3卷积核进行每个通道独立空间卷积减少参数，再通过1×1卷积在不改变特征图本身尺寸的情况下加深网络深度，最后选择LeakyRelu作为激活函数；

3)对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块。在通道注意力模块中将输入的特征图F(H×W×C)，H为特征图的高，W为特征图的宽，C为特征图的通道数，进行全局最大池化和平均池化，得到两个1×1×C的特征图，然后将其分别送入一个两层的神经网络(Multi-LayerPerception，MLP),最后经element-wise加和操作和sigmoid激活后生成通道特征图，即Mc。在空间注意力模块中，将输入特征图F也经过最大池化和平均池化，得到两个H×W×1特征映射，然后对其进行基于通道的concat操作，并使用卷积核大小为3的空洞卷积降维，接着通过Sigmoid激活函数,得到最终的空间特征图，即M_S。最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图；

其中F表示输入特征图，表示对应元素相乘，M_C(F)表示F经过通道注意力的输出权值，M_S(F)表示F经过空间注意力的输出权值。f _3×3dilat表示卷积核大小为3的扩张卷积。实验使用的扩张卷积的扩张率为2。/>和/>分别表示平均池化和最大池化。σ表示Sigmoid激活函数，W₀∈R^C/r×C，W₁∈R^C×C/r。W₀和W₁是MLP的权重，其共享两个输入，ReLU激活函数后跟W₀。

4)将浅层特征、深层特征和经过I_CBAM注意力的特征图采用concat和1×1卷积策略进行融合，得到融合图像；

5)将融合的单幅图像先使用三个1×1、3×3、3×3卷积核组成的单通道从融合图像中提取特征，然后从一个3×3卷积组成的双通道中生成分解结果。

在上述整体步骤中设定整个融合过程的损失函数，根据网络架构分为融合损失L_sf和分解损失L_ds，其对应的公式如下:

L＝L_sf+L_dc (6)

其中，L代表总损失函数，L_sf融合损失，L_ds分解损失。

红外图像和可见光图像最基本的组成元素是像素，像素的强度可以表示整体亮度分布，像素之间的差异则可以表示图像中的纹理细节。因此，融合损失由梯度损失函数和强度损失函数构成，其公式如下：

L_sf＝βL_grad+L_int (7)

其中，β用于平衡强度项和梯度项。由于融合图像的主要强度信息来源于红外图像，为了使融合后的图像能够保持显著的对比度，设置β＝0.5。L_grad表示梯度信息，L_int为梯度信息。

梯度损失引入了自适应权重块，自适应权重块先利用一种线性平滑滤波——高斯低通滤波，尽可能的减少噪声对权重块的影响，后通过基于梯度丰富度来评估源图像对应像素的优化目标，以便使融合图像中的纹理自适应的向源图像中的纹理靠近，其公式如下：

S_2i,j＝1-S_1i,j (10)

其中，i和j表示像素在第i行和第j列权重图，H和W代表图像的高度和宽度，I₁和I₂源图像，I_fused融合图像，|·|表示绝对值函数，为拉普拉斯算子，L(·)表示高斯低通滤波器函数，min(·)表示最小函数，符号(·)为符号函数，S(·)是由权重块基于源图像的梯度水平生成的权重图。

强度损失通过改进Frobenius范数，它是矩阵中每一个位置的元素的平方和取平均数再开方，其作用是衡量一个矩阵的大小，即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离，有效调整融合图像和两个源图像之间的权重，迫使网络训练过程中选择更有效的信息。公式如下：

分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数，从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性。公式如下：

通过上述方法得出本实验的对比图为图1-7，本实验红外和可见光图像来自经典数据集——TNO，其中包含261对昼夜多光谱图像，挑选了六种不同场景的图像作为本实验的源图像，源图像中最大像素为620×450，最小像素为280×280。

为增强本文算法的可比性和有效性，本实验的对比算法为本发明图像融合算法一种基于MS-DSC和I_CBAM的红外和可见光图像融合算法、一种基于耦合字典学习(coupleddictionary learning，CDL)的新型多模态图像融合算法、一种基于卷积稀疏编码(convolutional sparse coding,CSC)和耦合特征学习(coupled feature learning,CFL)的CCFL红外和可光图像融合算法、一种基于显著性多尺度分解SMVIF红外和可见光图像融合算法、一种基于贝叶斯网络BF重建的红外和可见光图像融合算法、一种基于多级高斯曲率滤波(MLGCF)图像分解的红外和可见光图像融合算法、一种基于残差网络和零相位分量分析的红外和可见光图像融合算法、一种基于深度学习框架的红外和可见光图像融合算法。本实验的评价指标采用平均梯度(AG)、信息熵(EN)、标准差(STD)、改进空间频率(SF)、相关系数(CC)、基于视觉信息保真度(VIFF)、信噪比(SNR)、互信息(MI)、方差(Var)、互信息(MI)。AG通过计算灰度变化快慢的平均值反映图像的细节表征和纹理表征；EN通过计算融合结果的平均信息量衡量图像的丰富程度；SD通过计算灰度值和灰度均值之差反映图像中灰度值的分离情况，有助于计算对比度；SF通过计算空间域中图像灰度级活跃状况反映融合图像清晰度；MI是基于信息论的知识去计算融合后图像包含源图像多少信息量来衡量两幅图像之间的相似性；VIFF是表示与人眼主观特性一致的重要指标；SNR表示相对于有用信息具有较少的噪声；CC则是反映融合图像与源图像之间的相关程度。评价指标结果如表1到表8。我们根据性能指标的结果对8种算法进行了从低到高的排序。

表1EN评价指标结果

表2AG评价指标结果

表3SD评价指标结果

表4SF评价指标结果

表5MI评价指标结果

表6VIFF评价指标结果

表7SNR评价指标结果

表8CC评价指标结果

从表1到表8的客观评价指标可以看出，本发明的基于MS-DSC和I_CBAM的红外和可见光图像融合算法EN值高，说明融合结果信息量丰富；SF值高，说明融合结果清晰度高；AG值高，说明融合结果纹理和细节信息表征明显；SD值高，说明图像灰度值离散度高，图像携带的细节信息越丰富；VIFF值高，说明图像与人眼视觉特性一致；SNR值高说明融合结果中的有用信息得以保留，很少受到噪声的影响；CC值高说明源图像传递了很多重要特征，导致融合结果与其之间的相关性高。本算法MI评价指标略低于CDL、CCFL和BF方法，是由于本文使用concat和卷积融合策略在保存红外图像中的亮度信息的同时，并没有忽视可见光图像中的纹理信息。对于MI指标其侧重于均值法，也就是图像中的亮度信息，如果融合图像最终含有大量噪声，也会导致亮度信息增大，CDL、CCFL、BF方法其重点融合了红外信息而忽略可见光信息，使得在MI评价指标上达到最佳。其余七种评价指标都高于对比方法，这表明本发明方法图像融合后的图像效果好。

图2至图7为不同场景不同方法融合对比图，其中子图(a)和(b)为原始红外图像和可见光图像；子图(c)为一种基于耦合字典学习(coupled dictionary learning，CDL)的新型多模态图像融合算法；(d)为一种基于卷积稀疏编码(convolutional sparse coding,CSC)和耦合特征学习(coupled feature learning,CFL)的CCFL红外和可光图像融合算法；(e)为一种基于显著性多尺度分解SMVIF红外和可见光图像融合算法；(f)为一种基于贝叶斯网络BF重建的红外和可见光图像融合算法；(g)为一种基于多级高斯曲率滤波(MLGCF)图像分解的红外和可见光图像融合算法；(h)为一种基于残差网络和零相位分量分析的红外和可见光图像融合算法；(i)为一种基于深度学习框架的红外和可见光图像融合算法；(j)为本发明红外和可见光图像融合算法的结果图。综上所述，本发明方法得到的融合图像从主观感受和客观评价方面均明显好于其他融合算法，这表明本发明方法的实验效果更好。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法，其特征在于，包含以下步骤：

F_j＝F_in*f_j (1)

F_out＝f_Concat(F₁,F₃,F₅,F₇) (2)

其中：F_in为输入特征图；*代表卷积操作；卷积核大小为f_j，j＝1,3,5,7；F_j代表不同卷积核操作的特征图；F_out为输出的特征图；

S3:对深度可分离特征提取的深层红外和可见光特征经过I_CBAM注意力机制同时学习空间注意力模块和通道注意力模块；

在通道注意力模块中将输入的特征图F(H×W×C)，H为特征图的高，W为特征图的宽，C为特征图的通道数，进行全局最大池化和平均池化，得到两个1×1×C的特征图，然后将其分别送入一个两层的神经网络(Multi-Layer Perception，MLP)，最后经element-wise加和操作和sigmoid激活后生成通道特征图Mc，在空间注意力模块中，将输入特征图F也经过最大池化和平均池化，得到两个H×W×1特征映射，然后对其进行基于通道的concat操作，并使用卷积核大小为3的空洞卷积降维，接着通过Sigmoid激活函数,得到最终的空间特征图M_S；最后将经过通道注意力和空间注意力得到的特征图直接与原始输入特征图F加权得到最终的输出特征图；其对应公式如下：

其中，F表示输入特征图，表示对应元素相乘，M_C(F)表示F经过通道注意力的输出权值，M_S(F)表示F经过空间注意力的输出权值；f _3×3dilat表示卷积核大小为3的扩张卷积；实验使用的扩张卷积的扩张率为2；/>和/>分别表示平均池化和最大池化；σ表示Sigmoid激活函数；W₀∈R^C/r×C，W₁∈R^C×C/r，W₀和W₁是MLP的权重，其共享两个输入，ReLU激活函数后跟W₀；

2.根据权利要求1所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法，其特征在于，设定整个融合过程的损失函数，根据网络架构分为融合损失L_sf和分解损失L_ds，其对应的公式如下:

L＝L_sf+L_dc (6)

其中，L代表总损失函数，L_sf融合损失，L_ds分解损失。

3.根据权利要求2所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法，其特征在于，融合损失由梯度损失函数和强度损失函数构成，其公式如下：

L_sf＝βL_grad+L_int (7)

4.根据权利要求3所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法，其特征在于，梯度损失中引入了自适应权重块，自适应权重块先利用一种线性平滑滤波——高斯低通滤波，减少噪声对权重块的影响，后通过基于梯度丰富度来评估源图像对应像素的优化目标，以便使融合图像中的纹理自适应的向源图像中的纹理靠近，其公式如下：

S_2i,j＝1-S_1i,j (10)

其中，i和j表示像素在第i行和第j列权重图，H和W代表图像的高度和宽度，I₁和I₂源图像，I_fused融合图像，|·|表示绝对值函数，为拉普拉斯算子，L(·)表示高斯低通滤波器函数，min(·)表示最小函数，符号(·)为符号函数；S(·)是由权重块基于源图像的梯度水平生成的权重图。

5.根据权利要求2所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法，其特征在于，强度损失通过改进Frobenius范数，它是矩阵中每一个位置的元素的平方和取平均数再开方，其作用是衡量一个矩阵的大小，即通过衡量融合图像像素矩阵和源图像像素矩阵间的距离，有效调整融合图像和两个源图像之间的权重，迫使网络训练过程中选择更有效的信息，公式如下：

6.根据权利要求1所述的一种基于MS-DSC和I_CBAM的红外和可见光图像融合方法，其特征在于，分解损失选择结构相似性SSIM(Strucural similarity,SSIM)作为损失函数，从结构失真、对比度失真和亮度失真三方面计算融分解结果和源图像之间的结构相似性，公式如下：

其中，I_{1_de}和I_{2_de}为分解结果，I₁和I₂为源图像，μ、σ分别为均值和标准差，C1、C2、C3是三个常数以防止SSIM在训练过程中出现为0的情况。