CN116258936A

CN116258936A - 一种基于多尺度特征的红外与可见光图像融合方法

Info

Publication number: CN116258936A
Application number: CN202310382069.4A
Authority: CN
Inventors: 秦玉文; 陈展鹏; 谢俊; 邸江磊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-06-13

Abstract

本发明属于图像融合技术领域，提供了一种基于多尺度特征的红外与可见光图像融合方法。该方法包括以下步骤：(1)构建特征提取网络：使用多尺度分组卷积模块，从两种模态图像中提取多尺度多层次特征；(2)设计特征融合策略：利用空间和通道注意力，自适应融合两种模态图像的多层次特征；(3)构建图像重建网络：在所有层次的融合特征中建立跳跃连接，将多层次融合特征重建为融合图像；(4)设计损失函数：利用像素、梯度和结构相似度，计算两种模态图像和融合图像之间的损失。本发明克服了现有深度学习方法存在的不能有效提取多尺度特征和没有充分利用多层次特征的问题，可应用于智能驾驶、安全监控、遥感探测、医疗诊断等领域。

Description

一种基于多尺度特征的红外与可见光图像融合方法

技术领域：

本发明属于图像融合技术领域，具体涉及一种基于多尺度特征的红外与可见光图像融合方法。

背景技术：

图像融合技术的目的是将来自不同传感器的图像进行合成，从而产生信息更加丰富、更符合视觉感知的融合图像，以便进一步的信息分析和理解工作。红外传感器可以获取突出的目标区域信息，能够全天时全天候工作，但获得的图像通常缺乏细节信息。相反，可见光传感器可以获取丰富的纹理细节，但无法捕捉热辐射目标，容易受到光照条件和天气状况的影响。由于红外和可见光图像的成像原理不同，它们所提供的信息互补性较强，所以融合后的图像将具有更丰富的场景信息和更好的视觉效果。因此，图像融合技术可以提升红外和可见光传感器的探测能力，已被广泛应用于智能驾驶、安全监控、遥感探测、医疗诊断等领域。

目前，图像融合技术可以分为传统方法和深度学习方法。传统方法主要包括多尺度变换方法和稀疏表示方法。这些方法通常忽略不同模态图像的特征差异性，对它们采取相同方式进行特征提取，难免会影响图像的融合效果。同时，受限于人工设计的融合规则、高昂的计算复杂度等因素，传统方法难以在实际中应用。近年来，由于深度学习在图像处理领域上的出色表现，深度学习方法已成为图像融合任务中主流的研究方向。尽管深度学习方法取得了不错的效果，但还存在一些不足之处。其一，这些方法不能有效提取多尺度特征，而不同尺度的特征可以更好地表示不同目标的空间信息，缺乏多尺度特征容易导致融合图像细节缺失，影响图像的融合效果。其二，这些方法往往依赖于浅层特征，而忽略了不同层次特征的相关性，没有充分利用多层次特征，就会限制网络的表征能力，从而降低模型的泛化能力。

综上所述，需要提出一种能够有效提取多尺度特征和充分利用多层次特征的深度学习方法，来提高红外与可见光图像的融合效果。

发明内容：

本发明为了解决现有深度学习方法存在的不能有效提取多尺度特征和没有充分利用多层次特征的问题，提供了一种基于多尺度特征的红外与可见光图像融合方法。

本发明解决上述技术问题的技术方案如下：

一种基于多尺度特征的红外与可见光图像融合方法，包括以下步骤：

(S1)、构建特征提取网络：使用多尺度分组卷积模块，从两种模态图像中提取多尺度多层次特征。

(S2)、设计特征融合策略：利用空间和通道注意力，自适应融合两种模态图像的多层次特征。

(S3)、构建图像重建网络：在所有层次的融合特征中建立跳跃连接，将多层次融合特征重建为融合图像。

(S4)、设计损失函数：利用像素、梯度和结构相似度，计算两种模态图像和融合图像之间的损失。

优选地，上述的两种模态图像分别为红外和可见光图像。

优选地，在步骤(S1)中，上述的特征提取网络包含1个1×1卷积层Conv1和4个编码模块EB1、EB2、EB3、EB4。上述的编码模块各包含1个过渡层和1个MSConvFormer模块。上述的过渡层包含1个1×1卷积层和1个3×3卷积层。上述的MSConvFormer模块包含2个LN层、1个MSConv模块和1个MLP模块。上述的MSConv模块包含2个1×1卷积层和3个3×3卷积层。上述的MLP模块包含2个1×1卷积层。

优选地，在步骤(S2)中，上述的特征融合策略包括空间注意力融合和通道注意力融合。

优选地，在步骤(S3)中，上述的图像重建网络包含1个1×1卷积层Conv2，3个解码模块DB1、DB2、DB3，3个侧向层，6个上采样层和3个下采样层。上述的解码模块各包含1个3×3卷积层和1个1×1卷积层。上述的侧向层包含1个1×1卷积层。上述的上采样层包含1个双线性插值操作和1个1×1卷积层。上述的下采样层包含1个最大池化操作和1个1×1卷积层。

优选地，在步骤(S4)中，上述的损失函数包括像素损失、梯度损失和结构相似度损失，表达式为：

L_total＝α·L_pixel+β·L_grad+γ·L_ssim

其中，α、β和γ表示加权系数，用来调节三个损失的比例。

优选地，上述的像素损失、梯度损失和结构相似度损失的表达式分别为：

L_ssim＝1-(λ·SSIM(I_f，I_ir)+(1-λ)·SSIM(I_f，I_vi))

其中，I_f表示融合图像，I_ir表示红外图像，I_vi表示可见光图像，H和W分别表示图像的高和宽。max()表示取最大值，||·||₁表示L₁范数，

表示梯度算子，|·|表示取绝对值，SSIM()表示计算结构相似度。λ表示加权系数，用来调节两个SSIM损失的比例。

优选地，上述的特征提取网络的构建方式如下：

(1)将两种模态图像分别输入到上述的卷积层Conv1，将卷积层Conv1输出的特征输入到上述的编码模块EB1，将编码模块EB1输出的特征输入到编码模块EB2，将编码模块EB2输出的特征输入到编码模块EB3，将编码模块EB3输出的特征输入到编码模块EB4。

(2)将编码模块EB1、EB2、EB3、EB4输出的特征作为两种模态图像的多层次特征。

优选地，上述的MSConvFormer模块的构建方式如下：

首先将特征输入到第1个上述的LN层进行层归一化处理，再输入到上述的MSConv模块分组进行多尺度特征提取，并采用残差连接加上第1个LN层的输入；然后将相加的特征输入到第2个LN层进行层归一化处理，再输入到上述的MLP模块进行跨通道信息交互，并采用残差连接加上第2个LN层的输入。

优选地，上述的MSConv模块的构建方式如下：

首先将特征输入到第1个上述的1×1卷积层，然后将其输出的特征按通道拆分为4组，第1组特征不作处理，第2组特征输入到第1个上述的3×3卷积层，第2组输出的特征加上第3组特征后输入到第2个3×3卷积层，第3组输出的特征加上第4组特征后输入到第3个3×3卷积层，最后将第1、2、3、4组输出的特征按通道拼接后输入到第2个1×1卷积层。

优选地，上述的图像重建网络的构建方式如下：

(1)将上述的编码模块EB1、EB2输出的融合特征分别输入到第1、2个上述的下采样层，将编码模块EB3输出的融合特征输入到第1个上述的侧向层，将编码模块EB4输出的融合特征输入到第1个上述的上采样层，再将它们输出的特征按通道拼接后输入到上述的解码模块DB3。

(2)将编码模块EB1输出的融合特征输入到第2个下采样层，将编码模块EB2输出的融合特征输入到第2个侧向层，将解码模块DB3输出的特征和编码模块EB4输出的融合特征分别输入到第2、3个上采样层，再将它们输出的特征按通道拼接后输入到解码模块DB2。

(3)将编码模块EB1输出的融合特征输入到第3个侧向层，将解码模块DB2、DB3输出的特征和编码模块EB4输出的融合特征分别输入到第4、5、6个上采样层，再将它们输出的特征按通道拼接后输入到解码模块DB1。

(4)将解码模块DB1输出的特征输入到上述的卷积层Conv2，并将其输出的图像作为两种模态图像的融合图像。

本发明与现有技术相比，具有以下有益效果：

(1)本发明设计了一种多尺度分组卷积MSConvFormer模块。由于不同尺度的特征可以更好地表示不同目标的空间信息，如果缺乏多尺度特征，容易导致融合图像细节缺失。因此，该模块结合一种多尺度分组卷积MSConv模块和MetaFormer结构，从不同分组特征中获取不同感受野信息，不仅使特征提取网络能够有效提取多尺度特征，还能够减少模型的参数数量，从而提高图像的融合效果。

(2)本发明构建了一种多层次跳跃连接方式。由于浅层特征拥有丰富的细节信息，而深层特征蕴含抽象的语义信息，如果只依赖于浅层特征，而忽略了不同层次特征的相关性，就会限制网络的表征能力。因此，该方式通过在所有层次的融合特征中建立跳跃连接，不仅让图像重建网络可以充分利用多层次特征，还可以缩小各个层次特征的语义差距，从而提升模型的泛化能力。

附图说明：

图1为本发明所述方法的整体网络架构示意图；

图2为本发明所述方法的编码模块示意图；

图3为本发明所述方法的过渡层示意图；

图4为本发明所述方法的MSConvFormer模块示意图；

图5为本发明所述方法的MSConv模块示意图；

图6为本发明所述方法的MLP模块示意图；

图7为本发明所述方法的特征融合层示意图；

图8为本发明所述方法的解码模块示意图；

图9为本发明所述方法的侧向层示意图；

图10为本发明所述方法的上采样层示意图；

图11为本发明所述方法的下采样层示意图。

具体实施方式：

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例提供了一种基于多尺度特征的红外与可见光图像融合方法，包括以下步骤：

参见图1左侧区域，特征提取网络包含1个1×1卷积层Conv1和4个编码模块EB1、EB2、EB3、EB4。

具体地，上述的特征提取网络的构建方式如下：

上述的卷积层Conv1的输入通道数和输出通道数分别为1和8，步长为1，激活函数为ReLU。

参见图2，上述的编码模块各包含1个过渡层和1个MSConvFormer模块。编码模块EB1、EB2、EB3、EB4的输入通道数分别为8、16、32、64，输出通道数分别为16、32、64、128。

参见图3，上述的过渡层包含1个1×1卷积层和1个3×3卷积层。该1×1卷积层的输出通道数为其输入通道数的2倍，步长为1；该3×3卷积层的输出通道数与其输入通道数相同，位于编码模块EB1、EB2、EB3、EB4过渡层内的3×3卷积层的步长分别为1、2、2、2。该层内所有卷积层的激活函数为ReLU。

参见图4，上述的MSConvFormer模块包含2个LN层、1个MSConv模块和1个MLP模块。该模块的输出通道数与其输入通道数相同。

具体地，上述的MSConvFormer模块的构建方式如下：

参见图5，上述的MSConv模块包含2个1×1卷积层和3个3×3卷积层。该模块的输出通道数与其输入通道数相同，其中第1个1×1卷积层的输出通道数和第2个1×1卷积层的输入通道数设置为相同的4的倍数。该模块内所有卷积层的步长为1，激活函数为ReLU。

具体地，上述的MSConv模块的构建方式如下：

参见图6，上述的MLP模块包含2个1×1卷积层。该模块的输出通道数与其输入通道数相同，其中第1个1×1卷积层的输出通道数为其输入通道数的4倍。该模块内所有卷积层的步长为1，激活函数为ReLU。

参见图7，特征融合策略包括空间注意力融合和通道注意力融合。

具体地，上述特征融合策略的处理过程如下：

(1)将两种模态图像各个层次的特征

和/>

分别进行空间注意力融合，得到相应层次的空间注意力融合特征/>

首先，计算特征图内每个像素上所有通道的L₁范数，得到相应的空间全局特征图

和/>

表达式分别为：

然后，计算相应的空间加权图

和/>

表达式分别为：

最后，计算空间注意力融合特征

表达式为：

其中，m表示特征的层次，(i，j)表示像素的位置，||·||₁表示L₁范数。

(2)将两种模态图像各个层次的特征

和/>

分别进行通道注意力融合，得到相应层次的通道注意力融合特征/>

首先，计算特征图内每个通道上所有像素的平均值，得到相应的通道全局特征向量

和/>

表达式分别为：

然后，计算相应的通道加权向量

和/>

表达式分别为：

最后，计算通道注意力融合特征

表达式为：

/>

其中，m表示特征的层次，c表示通道的索引，avg()表示取平均值。

(3)将各个层次的空间和通道注意力融合特征

和/>

分别进行加权融合，得到最终相应层次的融合特征/>

表达式为：

参见图1右侧区域，图像重建网络包含1个1×1卷积层Conv2，3个解码模块DB1、DB2、DB3，3个侧向层，6个上采样层和3个下采样层。

具体地，上述的图像重建网络的构建方式如下：

上述的卷积层Conv2的输入通道数和输出通道数分别为16和1，步长为1，激活函数为ReLU。

参见图8，上述的解码模块各包含1个3×3卷积层和1个1×1卷积层。解码模块DB1、DB2、DB3的输入通道数均为128，输出通道数分别为16、32、64，其中3×3卷积层的输出通道数为其输入通道数的一半。解码模块内所有卷积层的步长为1，激活函数为ReLU。

参见图9，上述的侧向层包含1个1×1卷积层。参见图10，上述的上采样层包含1个双线性插值操作和1个1×1卷积层。参见图11，上述的下采样层包含1个最大池化操作和1个1×1卷积层。所有1×1卷积层的输出通道数为32，步长为1，激活函数为ReLU。

损失函数包括像素损失、梯度损失和结构相似度损失。

具体地，上述的损失函数的计算方式如下：

(1)计算两种模态图像和融合图像之间的像素损失L_pixel，表达式为：

(2)计算两种模态图像和融合图像之间的梯度损失L_grad，表达式为：

/>

(3)计算两种模态图像和融合图像之间的结构相似度损失L_ssim，表达式为：

L_ssim＝1-(λ·SSIM(I_f，I_ir)+(1-λ)·SSIM(I_f，I_vi))

(4)将像素损失、梯度损失和结构相似度损失进行加权求和，得到总损失L_total，表达式为：

L_total＝α·L_pixel+β·L_grad+γ·L_ssim

表示梯度算子，|·|表示取绝对值，SSIM()表示计算结构相似度。λ表示加权系数，用来调节两个SSIM损失的比例，默认值为0.5；α、β和γ表示加权系数，用来调节三个损失的比例，默认值分别为0.01、0.1和1。

(S5)、训练网络模型：采用RoadScene数据集，对网络模型进行训练。

具体地，模型训练的实施细节如下：

(1)图像预处理：对RoadScene数据集进行划分，随机选择200对图像作为训练集，另外21对图像作为验证集。训练时，先图像灰度范围转换为[0，1]，再将图像随机水平翻转，并裁剪或缩放为256×256。

(2)训练参数设置：初始学习率为1e-4，批次大小为4，迭代轮次为50，优化器为Adam，学习率调整策略为MultiStepLR。

(3)模型迭代训练：利用损失函数，计算两种模态图像和融合图像之间的损失，再反向传播损失梯度，迭代更新模型参数。

(4)模型参数保存：选择验证损失最小的迭代轮次，保存模型参数。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多尺度特征的红外与可见光图像融合方法，其特征在于，包括以下步骤：

(S1)、构建特征提取网络：使用多尺度分组卷积模块，从两种模态图像中提取多尺度多层次特征；

(S2)、设计特征融合策略：利用空间和通道注意力，自适应融合两种模态图像的多层次特征；

(S3)、构建图像重建网络：在所有层次的融合特征中建立跳跃连接，将多层次融合特征重建为融合图像；

2.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：所述的两种模态图像分别为红外和可见光图像。

3.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：在步骤(S1)中，所述的特征提取网络包含1个1×1卷积层Conv1和4个编码模块EB1、EB2、EB3、EB4；所述的编码模块各包含1个过渡层和1个MSConvFormer模块；所述的过渡层包含1个1×1卷积层和1个3×3卷积层；所述的MSConvFormer模块包含2个LN层、1个MSConv模块和1个MLP模块；所述的MSConv模块包含2个1×1卷积层和3个3×3卷积层；所述的MLP模块包含2个1×1卷积层。

4.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：在步骤(S2)中，所述的特征融合策略包括空间注意力融合和通道注意力融合。

5.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：在步骤(S3)中，所述的图像重建网络包含1个1×1卷积层Conv2，3个解码模块DB1、DB2、DB3，3个侧向层，6个上采样层和3个下采样层；所述的解码模块各包含1个3×3卷积层和1个1×1卷积层；所述的侧向层包含1个1×1卷积层；所述的上采样层包含1个双线性插值操作和1个1×1卷积层；所述的下采样层包含1个最大池化操作和1个1×1卷积层。

6.根据权利要求1所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：在步骤(S4)中，所述的损失函数包括像素损失、梯度损失和结构相似度损失，表达式为：

L_total＝α·L_pixel+β·L_grad+γ·L_ssim

其中，α、β和γ表示加权系数，用来调节三个损失的比例；

所述的像素损失、梯度损失和结构相似度损失的表达式分别为：

L_ssim＝1-(λ·SSIM(I_f，I_ir)+(1-λ)·SSIM(I_f，I_vi))

其中，I_f表示融合图像，I_ir表示红外图像，I_vi表示可见光图像，H和W分别表示图像的高和宽；max()表示取最大值，||·||₁表示L₁范数，

表示梯度算子，|·|表示取绝对值，SSIM()表算结构相似度；λ表示加权系数，用来调节两个SSIM损失的比例。

7.根据权利要求3所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：所述的特征提取网络的构建方式如下：

(1)将两种模态图像分别输入到所述的卷积层Conv1，将卷积层Conv1输出的特征输入到所述的编码模块EB1，将编码模块EB1输出的特征输入到编码模块EB2，将编码模块EB2输出的特征输入到编码模块EB3，将编码模块EB3输出的特征输入到编码模块EB4；

8.根据权利要求3所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：所述的MSConvFormer模块的构建方式如下：

首先将特征输入到第1个所述的LN层进行层归一化处理，再输入到所述的MSConv模块分组进行多尺度特征提取，并采用残差连接加上第1个LN层的输入；然后将相加的特征输入到第2个LN层进行层归一化处理，再输入到所述的MLP模块进行跨通道信息交互，并采用残差连接加上第2个LN层的输入。

9.根据权利要求3所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：所述的MSConv模块的构建方式如下：

首先将特征输入到第1个所述的1×1卷积层，然后将其输出的特征按通道拆分为4组，第1组特征不作处理，第2组特征输入到第1个所述的3×3卷积层，第2组输出的特征加上第3组特征后输入到第2个3×3卷积层，第3组输出的特征加上第4组特征后输入到第3个3×3卷积层，最后将第1、2、3、4组输出的特征按通道拼接后输入到第2个1×1卷积层。

10.根据权利要求5所述的一种基于多尺度特征的红外与可见光图像融合方法，其特征在于：所述的图像重建网络的构建方式如下：

(1)将所述的编码模块EB1、EB2输出的融合特征分别输入到第1、2个所述的下采样层，将编码模块EB3输出的融合特征输入到第1个所述的侧向层，将编码模块EB4输出的融合特征输入到第1个所述的上采样层，再将它们输出的特征按通道拼接后输入到所述的解码模块DB3；

(2)将编码模块EB1输出的融合特征输入到第2个下采样层，将编码模块EB2输出的融合特征输入到第2个侧向层，将解码模块DB3输出的特征和编码模块EB4输出的融合特征分别输入到第2、3个上采样层，再将它们输出的特征按通道拼接后输入到解码模块DB2；

(3)将编码模块EB1输出的融合特征输入到第3个侧向层，将解码模块DB2、DB3输出的特征和编码模块EB4输出的融合特征分别输入到第4、5、6个上采样层，再将它们输出的特征按通道拼接后输入到解码模块DB1；

(4)将解码模块DB1输出的特征输入到所述的卷积层Conv2，并将其输出的图像作为两种模态图像的融合图像。