CN116883303A

CN116883303A - 基于特征差分补偿与融合的红外与可见光图像融合方法

Info

Publication number: CN116883303A
Application number: CN202310870277.9A
Authority: CN
Inventors: 孙福明; 李茂月; 孙静; 王法胜; 李豪杰
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-13

Abstract

本发明公开一种基于特征差分补偿与融合的红外与可见光图像融合方法。本发明在特征提取阶段，使用CNN和Transfomer分别对红外与可见光图像进行编码。CNN模块用来提取图像像素强度分布信息，Transfomer模块用于提取图像细节纹理信息。设计跨模态差分补偿与融合模块，通过跨模态差分补偿模块提取各个阶段的互补信息，然后结合跨模态特征融合模块将互补信息整合到上下文全局信息中。利用跨模态差分补偿与融合模块构建一个渐进式差分融合解码器，通过渐进的方式将原图像不同模态和不同尺度的进行跨层特征融合，使得融合后的图像具有较强的热辐射信息和清晰的纹理信息；本发明的方法具有显著效果和显示出优异泛化能力。

Description

基于特征差分补偿与融合的红外与可见光图像融合方法

技术领域

本发明涉及图像融合技术领域，尤其涉及一种基于特征差分补偿与融合的红外与可见光图像融合方法。

背景技术

图像融合其目的是通过组合来自原图像的重要信息以生成信息丰富的融合图像。其中，红外和可见光图像融合以及医学图像融合是多模态图像融合的两个具有挑战性的子类别，红外和可见光图像融合以保留红外图像中的热辐射信息和可见光图像中的详细纹理信息的融合图像为目标。融合图像可以避免可见光图像对光照条件敏感以及红外图像噪声大、分辨率低的缺点。并根据一定的规则将它们融合成新的图像，使融合后的多模态图像可以提高目标信息的视觉感知能力和场景表示能力，从而更好地完成目标检测，跟踪，语义分割和多光谱行人识别等任务。

传统的融合方法有基于多尺度分解、基于稀疏表示的方法、基于总空间的方法、基于优化的方法和混合方法表示来表征源图像，然后根据不同的融合策略获得融合图像。虽然这些方法在许多融合任务中取得了良好的融合性能，但是缺点也非常显著，缺乏模态差异的理解，仅仅在固有的共同特征中进行融合以及依赖手工制作融合规则且越来越复杂。

近年来，由于深度网络强大的特征提取能力，提出了许多基于深度学习的图像融合方法。这些方法分为基于自动编码器(AE)的，基于卷积神经网络(CNN)的，基于生成对抗网络(GAN)的方法。它们通过在特征提取、特征融合和图像重建三个融合步骤中设计模块，融合规则等，以获得同时具有热辐射信息以及清晰纹理的融合图像。为了更彻底的获得的特征提取的信息，文献通过双路径网络来提取不同的信息。文献通过设计融合规则来融合不同模态的融合特征。文献通过跳跃连接将编码器输出的特征和解码器级联，以加强图像重建特征。

在以上方法中，存在三个缺点。首先，现有方法在进行特征提取时，往往只有最后一层输出作为原图像的提取的信息，且多数仅仅依赖于卷积运算来提取局部特征，而没有考虑它们的全局依赖性，不能有效地同时保持红外目标和可见光细节。其次，在对两幅输入原图像进行特征提取时，由于两种模态图像具有不同类型的特征，多数方法在进行特征融合时，往往忽略了是否可以提取和集成到不同模态间的互补特征。最后，多数方法在进行特征融合时，往往采取简单的拼接、相加等操作，没有一种能够克服语义不一致、有效集成不同规模特征、在各种网络场景中持续提高融合特征的质量的模块，使得上下文信息聚合尺度存在较大偏差。因此，有必要提出一种基于特征差分补偿与融合的红外与可见光图像融合方法，以解决上述问题。

发明内容

本发明的目的在于提供一种基于特征差分补偿与融合的红外与可见光图像融合方法，以解决现有图像融合方法往往不能有效地同时保持红外目标和可见光细节，忽略是否可以提取和集成到不同模态间的互补特征，上下文信息聚合尺度存在较大偏差的问题。

本发明提供一种基于特征差分补偿与融合的红外与可见光图像融合方法，包括：

使用CNN和Transformer编码器分别提取红外和可见光图像的多尺度特征；

将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合；

通过渐进式差分与融合解码模块，将最高级的跨模态差分补偿与融合模块的输出特征作为低一级跨模态差分补偿与融合模块的输入，连续地将低级模态特征融合进来，得到融合图像。

进一步地，使用CNN和Transformer编码器分别提取红外和可见光图像的多尺度特征，包括：

分别由基于CNN编码和基于Transfomer编码的特征编码器从可见光和红外原图像中提取浅层特征F_vi和F_ir；其中，使用基于CNN编码的特征编码器提取红外图像分支，同时采用基于RestormerBlock编码的特征编码器提取可见光图像分支，以获取图像的细节纹理信息和结构信息，表示为下式：

其中，和/>分别表示从红外和可见光图像中提取的深度特征，上标i＝0,1,2,3}对应第i层的输出特征；当i＝0时表示浅层提取的输出特征，当i＝1,2,3}表示分别通过CNN编码和Transfomer编码得到的3个阶段的多尺度特征；I_vi和I_ir分别表示可见光图像和红外图像；E(.)表示原图像。

进一步地，将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合的步骤中，跨模态差分补偿与融合模块包括跨模态差分补偿模块和跨模态特征融合模块，所述跨模态差分补偿模块定义为：

其中，表示逐元素求和，/>表示逐元素乘积，δ(·)表示Sigmod函数，Conv(.)表示卷积操作，GMP(·)和GAP(·)分别表示全局最大池化和全局平均池化；公式(2)表示经过全局最大池化，全局平均池化以及卷积后，通过sigmoid函数将这些注意力图归一化生成相互对应的注意力权重，补充特征乘以注意力权重，将结果与原始特征相加得到模态补充信息。

进一步地，将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合的步骤中，特征融合包括：

将对第四层的输出特征和/>进行融合，得到初始融合特征/>

将分别经过通道注意力和空间注意力得到初始融合注意力权重图，并通过信道相加获得初始权重图/>

使用Sigmoid函数归一化生成相互对应的注意力权重；

将所述注意力权重和分别相乘后进行融合，得到中间融合特征/>同时将/>作为下一个跨模态特征融合模块的输入。

进一步地，所述跨模态特征融合模块定义为：

其中，表示逐元素求和，/>表示逐元素乘积，p表示prelu激活函数，Conv(.)表示卷积操作，GMP(·)表示全局最大池化，/>表示中间融合特征，/>表示初始权重图，δ(·)表示Sigmod函数，/>和/>分别表示红外和可见外输出特征。

进一步地，所述方法还包括：

通过鉴别器区分融合结果和原图像，将两个相同的网络结构作为鉴别器，所述鉴别器由四个3×3卷积层组成，前三层卷积层后使用LeakyReLu作为激活函数，最后一层使用双曲正切函数。

进一步地，生成器损失，将其损失L_G表示为：

L_G＝λ₁L_content+λ₂L_ssim+λ₃L_adv (6)

其中，L_G表达总损失函数，L_content表示内容损失，L_adv和L_ssim分别表示对抗损失和结构相似性损失，参数λ₁、λ₂和λ₃为平衡参数。

进一步地，引入一个强度损失Lint来约束融合图像和原图像之间像素的相似性，强度损失L_int由等式7表示：

其中，I_f表示融合图像、I_vi和I_ir分别表示可见光图像和红外图像；||·||₁表示L1范数；Max(I_vi,I_ir)表示逐元素最大选择；

引入纹理损失L_text来辅助强度损失并将其表示为：

其中，表示表示Sobel算子用于检测图像中的纹理细节，利用它计算图像中的梯度变化；|·|表示取绝对值；max(.)表示最大值；

内容损失L_content由强度损失L_int和纹理损失L_text两部分组成，表示为：

L_content＝L_int+L_text (9)

定义相似性度量L_ssim如下：

L_ssim＝a(1-ssim(I_f,I_vi))+(1-a)(1-ssim(I_f,I_ir) (10)

其中，ssim(.)调式两个图像的结构相似性的平均距离，a为平衡参数；x_vi和x_ir分别表示可见光图像和红外图像；I_f表示融合图像，I_vi和I_ir分别表示可见光图像和红外图像；

L_adv表示生成器的损耗，定义为：

进一步地，定义2个鉴别器网络的损失函数和/>如下：

其中，第一项和第二项分别表示Wasserstein距离估计和梯度惩罚，λ₄是正则化参数；D_ir(.)和D_vi(.)分别表示红外光鉴别器和可见光鉴别器；||·||₂表示L2范数；N表示图像数量。

本发明的有益效果如下：本发明提供的一种基于特征差分补偿与融合的红外与可见光图像融合方法，由编码-特征融合-解码三个部分组成，在特征提取阶段，使用CNN和Transfomer分别对红外与可见光图像进行编码。其中，CNN模块被用来提取图像像素强度分布信息，Transfomer模块用于提取图像细节纹理信息。设计跨模态差分补偿与融合模块，通过跨模态差分补偿模块提取各个阶段的互补信息，然后结合跨模态特征融合模块将互补信息整合到上下文全局信息中。利用跨模态差分补偿与融合模块构建一个渐进式差分融合解码器，通过渐进的方式将原图像不同模态和不同尺度的进行跨层特征融合，使得融合后的图像具有较强的热辐射信息和清晰的纹理信息；本发明的方法具有显著效果和显示出优异泛化能力。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于特征差分补偿与融合的红外与可见光图像融合方法的流程图；

图2是红外与可见光图像融合总体框架图；

图3是跨模态差分补偿与融合模块图；

图4是在TNO数据集上的不同方法的可视化结果比较图；

图5是在MRSR数据集上的不同方法的可视化结果比较图；

图6是在LLVIP数据集上的不同方法的可视化结果比较图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合附图，详细说明本发明各实施例提供的技术方案。

请参阅图1至图3，本发明提供一种基于特征差分补偿与融合的红外与可见光图像融合方法，包括：

S101，使用CNN和Transformer编码器分别提取红外和可见光图像的多尺度特征。

具体地，在编码阶段，通过两个卷积层从可见光和红外原图像中提取浅层特征F_vi和F_ir；接着，分别由基于CNN编码的和基于Transfomer编码的特征编码器。具体来说，使用CNN来提取红外图像分支，这有助于提取全局上下文得语义信息，同时采用基于RestormerBlock来提取可见光图像分支，以获取图像得细节纹理信息和结构信息。将其表示为：

其中，和/>分别表示从红外和可见光图像中提取的深度特征，上标i＝0,1,2,3}对应第i层的输出特征；当i＝0时表示浅层提取的输出特征，当i＝1,2,3}表示分别通过CNN编码和Transfomer编码得到的3个阶段的多尺度特征。I_vi和I_ir分别表示可见光图像和红外图像；E(.)表示原图像。

本发明的网络总体框架是由一个生成器和两个鉴别器组成。生成器的目的是生成融合图像以欺骗鉴别器；鉴别器的作用为区分融合图像还是红外或可见光原图像；模型通过反复训练，使得融合结果趋近为原图像。

S102，将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合。

本发明设计了一个跨模态差分补偿与融合模块。该模块由两个部分组成，分别是跨模态差分补偿和跨模态特征融合模块。其中，跨模态差分补偿模块的核心思想是充分提取和合并多模态图像中的互补信息，而跨模态特征融合模块的核心思想是解决上下文和初始特征集成困难的问题，在注意力模块内将局部上下文信息加到全局上下文信息中。

1)跨模态差分补偿模块。由于不同模态的数据可能会有不完整或缺失的信息。因此通过从一个模态中提取缺失的信息，并将其补偿到其他模态中，从像素层面实现图像互补。因此，跨模态差分补偿模块可以被定义为：

其中，表示逐元素求和，/>表示逐元素乘积，δ(·)表示Sigmod函数，Conv(.)表示卷积操作，GMP(·)和GAP(·)分别表示全局最大池化和全局平均池化。公式(2)表示经过全局最大池化，全局平均池化以及卷积后，通过sigmoid函数将这些注意力图归一化生成相互对应的注意力权重，然后，补充特征乘以注意力权重，最后再将结果与原始特征相加得到模态补充信息。

2)跨模态特征融合模块。简单的初始特征整合方法作为输入对融合权重的质量有很大的影响。跨模态融合模块可以改善模型的性能，特别是在需要跨模态信息进行联合决策的任务中。通过融合不同模态的特征，模型可以更好地理解多模态输入之间的关系。本发明的模块基于空间和通道注意力机制，通过获取的权重图去衡量相尺度下的不同模态间的活动水平。

首先，将对第四层的输出特征和/>进行融合，得到初始融合特征/>然后将/>分别经过通道注意力和空间注意力得到初始融合注意力权重图，并通过信道相加获得初始权重图/>接着使用Sigmoid函数归一化生成相互对应的注意力权重，最后和/>分别相乘后进行融合，得到中间融合特征/>同时将/>作为下一个跨模态特征融合模块的输入。因此，跨模态特征融合模块可以被定义为：

S103，通过渐进式差分与融合解码模块，将最高级的跨模态差分补偿与融合模块的输出特征作为低一级跨模态差分补偿与融合模块的输入，连续地将低级模态特征融合进来，得到融合图像。

鉴别器被用于区分融合结果和原图像，本发明设计了两个相同的网络结构作为鉴别器。鉴别器由四个3×3卷积层组成，前三层卷积层后使用LeakyReLu作为激活函数，最后一层使用双曲正切(Tanh)函数。

本发明的模型包括一个生成器，一个红外鉴别器和一个可见光鉴别器，因此损失函数也由三部分组成。

1)生成器损失：在本发明中，使用内容、结构相似性和对抗损失来约束网络。因此，将其损失L_G表示为：

L_G＝λ₁L_content+λ₂L_ssim+λ₃L_adv (6)

2)对于内容损失，引入一个强度损失Lint来约束融合图像和原图像之间像素的相似性。因此，强度损失L_int由等式6表示。

其中，I_f表示融合图像、I_vi和I_ir分别表示可见光图像和红外图像；||·||₁表示L1范数；Max(I_vi,I_ir)表示逐元素最大选择。

同时，图像融合的目标之一是将源图像中的纹理细节整合到单个融合图像中。因此，为了保留更多模态的纹理信息，引入纹理损失L_text来辅助强度损失并将其表示为：

其中，表示表示Sobel算子用于检测图像中的纹理细节，利用它计算图像中的梯度变化；|·|表示取绝对值；max(.)表示最大值。

最终，内容损失L_content由强度损失L_int和纹理损失L_text两部分组成，表示为：

L_content＝L_int+L_text(9)

同时，本发明提出了一种基于融合图像和原图像结构相似性的约束融合算法，以保证融合图像的结构信息。定义相似性度量L_ssim如下：

L_ssim＝a(1-ssim(I_f,I_vi))+(1-a)(1-ssim(I_f,I_ir) (10)

其中，ssim(.)调式两个图像的结构相似性的平均距离，a为平衡参数；x_vi和x_ir分别表示可见光图像和红外图像；I_f表示融合图像，I_vi和I_ir分别表示可见光图像和红外图像。

L_adv表示生成器的损耗，本发明将其定义为：

3)鉴别器损失：鉴别器网络的损失函数旨在对源图像进行准确分类。因此，本发明定义2个鉴别器网络的损失函数和/>如下：

其中，第一项和第二项分别表示Wasserstein距离估计和梯度惩罚，并且λ₄是正则化参数；D_ir(.)和D_vi(.)分别表示红外光鉴别器和可见光鉴别器；||·||₂表示L2范数；N表示图像数量。

以下内容介绍数据集的构建，训练阶段和测试阶段的实验设置以及实现细节。此外，进行了消融实验，验证了所提出的算法的优越性。最后，比较了所提出的融合框架与其他现有算法的性能。

训练阶段和测试阶段：在训练阶段，从TNO数据集中选择25个图像对进行训练。为了扩展该数据集，将原始图像对划分为256×256，滑动步长为8，以实现图像数据增强。因此，可以获得总共18204个图像对。同时，本发明将epoch和batch大小设置为16和8，并采用Adam优化器更新网络参数。本发明将生成器和鉴别器的初始学习率设置为1×10-4和4×10-4。在鉴别器训练2次之后，在训练生成器。

在测试阶段，为了证明本发明方法的有效性，在TNO，RoadScence，MRSR进行定性和定量分析。选用以下9种代表性方法，即CUFD,GANMcc,ICA_fusion,Tardal,U2Fusion,swinfusion,CDDfuse,UNFusion,RFN-nest与本发明进行比较。在以下实验中，使用平均梯度AG、互信息MI、熵EN、空间频率SF、标准差SD、视觉信息保真度VIF、基于小波变换的特征互信息FMI_w和边缘信息QAB/F作为评价度量。

结果在TNO数据集上：

(1)定性分析。首先，展示了本发明的方法在TNO数据集上和上面提到的9种最先进的方法可视化结果在图4中。选用包括Natocamp，Kaptein1654和Kaptein_1123三组代表性图像。在第一行和第二行中，红色框的内容是栅栏旁边的人，绿色框是树的树冠。在第三行和第四行中，红色方框的内容是撑着油纸伞的人，绿色方框的内容是树的枝条。在第五行和第六行中，红色方框的内容是草坪旁的人。绿色方框的内容是落地窗。融合结果表明ICAFusion，RFN-Nest和U2Fusion能够较好的保持原图像的纹理细节，但减弱了红外目标的强度。CUFD，GANMcc和UNFusion能较好的保持原图像红外目标的强度，但是目标边缘模糊，缺乏可见细节。Tardal，SwinFsuion和CDDfuse具有良好的融合性能，但融合图像变白。造成这样的原因是由于TNO数据集主要包含白天的场景，上述方法采用包含白天和夜晚的MRSR数据集训练，并直接用于TNO数据集测试，使得融合图像的结果更倾向于保留可见光图像的强度。总体而言，本发明的方法既能保持可见光和红外伪装人体的清晰度，又能保持图像对比度符合人眼视觉系统的要求。

(2)定量分析。由于定性分析存在高度主观，且当两幅图像的差异不大时，人的视觉感知系统很难区别两幅图像的优劣成果。因此，本发明使用上述指标对不同的融合结果进行定量分析。从表1可以看出，本发明的融合结果在EN、MI、SD、VIF、FMI_w、QAB/F取得了最佳值，最佳度量MI、EN表明本发明将源图像中的大多数信息传递到融合图像。SD和VIF说明了本发明的融合结果具有较高的对比度信息和更加符合人类视觉感知能力。FMI_w和QAB/F表明本发明的融合将更多的特征以及边缘信息转移到了融合图像之中。另外本发明的AG和SF也取得了不错的成果。因此，同其他方法相比，本发明的方法具有较好的效果，也意味着本发明的方法更加注重对原图像的保护。

表1本发明的方法与其他方法在TNO数据集上得到的定量指标值。

泛化实验：为了验证本发明模型的泛化能力，本发明将TNO数据集上训练的融合模型，直接在MRSR和LLVIP数据集上测试。

1)MRSR数据集

(1)定性分析。在MRSR数据集上的不同方法的可视化结果如图5所示。分别是一张白天场景和一张夜晚场景。白天和夜晚场景的红色方框内容都是人，绿色方框内容是白天二楼的扶梯以及夜晚房屋外的窗户。融合结果表明CUFD、Tardal、SwinFusion、UNFusion、CDDfuse和本发明的方法可以显著目标信息和清晰的纹理细节。GANMcc、RFN-Nest和Tardal的细节信息在局部放大图中不明显。同时ICAFusion虽然目标信息和细节信息明显，但是存在和GANMcc、RFN-Nest、Tardal、U2Fusion一样亮度不充分的问题。本发明的方法可以展现显著目标以及丰富的纹理细节，同时融合图片的亮度也与可见光图像一致。

(2)定量分析。从表2可以看出，本发明的方法在MI、SF、SD、QAB/F四个最佳值表明了本发明的融合结果具有较高的对比度信息和更加符合人类视觉感知能力，这依赖于本发明的跨模态差分补偿与融合模块。AG、EN的次最佳值和VIF、FMI_w的第三最佳值。这四个指标在该数据集上下降，本发明认为是合理的，由于TNO数据集几乎都是白天的场景，缺乏夜间信息，而本发明的方法倾向保留白天的可见光图像强度信息，因此造成了部分融合图像的对比度下降。

表2本发明的方法与其他方法在MRSR数据集上得到的定量指标值

2)LLVIP数据集。

(1)定性分析。在LLVIP数据集上的不同方法的可视化结果如图6所示，从图6中可以看出，本发明方法得到的融合图片具有丰富的纹理细节和显著目标结构。在图6这组图片中，本发明的方法在局部放大图中，可以清晰的观察到墙壁和地板的层次，明显优于其他方法。其余方法，在纹理细节重建或者保留显著目标结构上效果并不理想，只能观察到薄弱的目标显著和细节纹理。

(2)定量分析。从表3的结果看出本发明的方法在多数指标上获得了最佳值。因此，通过在三个不同基准上的实验，本发明可以得出结论，本发明的方法融合性能具有很强的泛化能力。

表3本发明的方法与其他方法在LLVIP数据集上得到的定量指标值。

消融研究：通过消融实验验证了不同模块设计的合理性。本发明做了以下三组实验以验证本发明模型的有效性。采用VIF、MI、QAB/F、SF进行定量实验，实验组结果如表四所示。

(1)验证双分支编码网络。本发明设计了三个对比实验来验证本发明的方法。详情如下：(a)对红外和可见光图像都采取CNN编码，其他网络部分保持不变；(b)Transformer：对红外和可见光图像都使用Transformer编码，其他网络部分保持不变；(c)对可见光图像使用CNN编码，对红外图像使用Transformer编码，其他网络部分保持不变。

(2)验证所设计的跨模态差分补偿与融合模块。该模块由跨模态差分补偿模块和跨模态特征融合模块组成。为了验证模型的有效性，做了以下实验：(d)去掉跨模态特征融合模块，保留跨模态差分补偿模块；(e)去掉跨模态差分补偿模块，保留跨模态特征融合模块；(f)去掉跨模态差分补偿与融合模块。

(3)验证所采用的损失函数的合理性。本发明进行了三组实验，详情如下：(g)去掉ssim损失，保留强度损失和细节损失；(h)去掉强度损失保留结构相似度损失和细节损失；(i)去掉细节损失，保留强度损失和ssim损失。

表4消融实验在TNO数据集上

从表4本发明可以得出，使用CNN和Transformer作为特征提取器的融合模块的融合评价指标高于单独使用CNN或Transformer单分支作为特征提取器获得的融合结果指标。从侧面证实了在CNN模分支中引入变压器分支，加强了网络的特征提取能力。其次在融合和解码阶段使用CDCFM模块，有助于MI、SF、QAB/F、VIF的明显提升。说明了CDCFM模块可以有效的实现红外可见图像特征和深度特征的跨模态融合。最后，针对本文的损失函数，可以看出，本发明的损失函数相较于两两结合，本发明可以取得更好的效果。

本发明提出了一个基于生成对抗网络的跨模态红外与可见光图像融合网络，通过CNN和Transformer分支得到原图像像素强度和细节纹理映射特征。其次，本发明利用跨模态差分补偿与融合模块实现深度特征和图像互补信息的融合，并通过集成上下文特征，挖掘其中的多尺度信息。同时，本发明设计了一个渐近差分补偿融合解码器，在解码过程中逐级融合不同尺度的特征信息，以实现细节信息补充。广泛的比较和泛化实验表明，本发明的方法优于其他的最先进的竞争对手在主观效果和定量指标。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本发明提供的基于特征差分补偿与融合的红外与可见光图像融合方法各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：Read-OnlyMemory，简称：ROM)或随机存储记忆体(英文：RandomAccessMemory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，包括：

2.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，使用CNN和Transformer编码器分别提取红外和可见光图像的多尺度特征，包括：

其中，和/>分别表示从红外和可见光图像中提取的深度特征，上标i＝{0,1,2,3}对应第i层的输出特征；当i＝0时表示浅层提取的输出特征，当i＝{1,2,3}表示分别通过CNN编码和Transfomer编码得到的3个阶段的多尺度特征；I_vi和I_ir分别表示可见光图像和红外图像；E(.)表示原图像。

3.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合的步骤中，跨模态差分补偿与融合模块包括跨模态差分补偿模块和跨模态特征融合模块，所述跨模态差分补偿模块定义为：

4.如权利要求3所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合的步骤中，特征融合包括：

将对第四层的输出特征和/>进行融合，得到初始融合特征/>

使用Sigmoid函数归一化生成相互对应的注意力权重；

5.如权利要求4所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，所述跨模态特征融合模块定义为：

6.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，所述方法还包括：

7.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，生成器损失，将其损失L_G表示为：

L_G＝λ₁L_content+λ₂L_ssim+λ₃L_adv (6)

8.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，引入一个强度损失Lint来约束融合图像和原图像之间像素的相似性，强度损失L_int由等式7表示：

引入纹理损失L_text来辅助强度损失并将其表示为：

L_content＝L_int+L_text (9)

定义相似性度量L_ssim如下：

L_ssim＝a(1-ssim(I_f,I_vi))+(1-a)(1-ssim(I_f,I_ir) (10)

L_adv表示生成器的损耗，定义为：

9.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法，其特征在于，定义2个鉴别器网络的损失函数和/>如下：