CN116258658B

CN116258658B - 基于Swin Transformer的图像融合方法

Info

Publication number: CN116258658B
Application number: CN202310523548.3A
Authority: CN
Inventors: 翟翌; 宋宝平; 张越; 夏振阳
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-28
Anticipated expiration: 2043-05-11
Also published as: CN116258658A

Abstract

本发明公开了一种基于Swin Transformer的图像融合方法，涉及图像处理技术领域。本发明包括以下步骤：步骤S1、构建端对端神经网络，所述端对端神经网络包括生成器和判别器；步骤S2、构建生成器的损失函数以及判别器中鉴别器的损失函数；步骤S3、利用KAIST数据集的部分原始红外图像和原始可见光图像对端对端神经网络进行训练，得到端对端神经网络模型；步骤S4、测试步骤S3保存的端对端神经网络模型，输出最终融合图像。本发明所述图像融合方法能够解决现有基于自注意力Transformer图像融合方法无法有效提取多尺度特征，无法有效降低计算复杂度以及无法利用先验知识等问题。

Description

基于Swin Transformer的图像融合方法

技术领域

本发明属于计算机数字图像处理技术领域，具体涉及基于Swin Transformer的图像融合方法。

背景技术

红外传感器使用热辐射信息创建物体图像，即使在光线不足、恶劣天气和部分遮挡的情况下也能有效突出重要目标。然而，红外图像无法提供有关周围环境的足够细节，例如纹理细节、环境照明等。而可见光传感器更接近于人类感知颜色和纹理的方式，因为它们会收集从物体反射回来的光物体的表面信息。但是，可见光传感器容易遭受极端环境和遮挡的影响而丢失场景中的目标。

因此，通过将来自不同源图像的互补数据融合成单个融合图像以完全表征成像场景越来越受到人们的关注，目前融合图像在军事监视、目标检测和车辆夜间导航等领域已经进行了广泛的应用。根据融合原理，现有技术中的图像融合方法主要分为两种：一种是传统图像融合方法，另一种是基于深度学习的图像融合方法。

传统图像融合方法是通过测量空间或变换域中像素或区域的活动程度，按照预定的融合规则实现图像融合，比如基于多尺度变换的图像融合方法、基于稀疏表示的图像融合方法、基于显著性的融合方法等传统融合方法。尽管传统融合方法取得了巨大成功，但在融合性能提升方面却难以更进一步。这是因为传统融合方法使用固定的数学变换来提取特征，导致特征表示较弱，而且忽略了源图像之间的模态差异。此外，传统的融合方法不够细致，无法完整保留有效信息。为此，基于深度学习的融合方法逐渐被研发人员所关注。这主要是由于基于深度学习的融合方法可以使用网络分支进行差异特征提取，以获得更精确的特征，而且，基于深度学习的融合方法还可以通过学习更多由计划损失函数指导的逻辑特征融合策略来实现自适应特征的融合。

目前，基于深度学习的图像融合方法也大都能够产生较好的图像融合结果，比如，基于自动编码器（AE）的图像融合方法、基于卷积神经网络（CNN）的图像融合方法和基于生成对抗网络（ GAN）的图像融合方法等，但是，这些基于深度学习的融合方法仍然存在一些问题。比如，基于自动编码器（AE）的图像融合方法、基于卷积神经网络（CNN）的图像融合方法和基于生成对抗网络（GAN）的图像融合方法这些融合方法的基本构建块都是卷积层，但卷积层只能利用感受野内的相互作用，也就是说，使用这些现有的基于深度学习的融合方法无法利用图像融合过程中的远程依赖性，这意味着在进行图像融合时只能从局部角度合并补充信息，而不能实现全局信息聚合。为了解决上述问题，在图像融合领域已经开始通过使用基于自注意力Transformer来进行图像融合，但是该方法只能部分解决上述问题，仍有一些重大障碍需要克服。首先，目前的基于自注意力Transformer图像融合方法的图像融合技术很难提取多尺度特征，而多尺度特征对于生成更高质量的融合图像是非常重要的；其次，基于自注意力Transformer图像融合方法的自注意力总是在整个图像上计算，虽然全局建模是可行的，但其计算复杂度是随图像大小增加的平方倍，因此，当图像尺寸变大时，计算量的快速增加是压倒性的；此外，现有的基于Transformer的融合方法不能像基于卷积神经网络（CNN）的图像融合方法一样有效的利用先验知识。

为此，能够设计出一种既可有效提取多尺度特征，又可有效降低计算复杂度还可有效利用先验知识的基于Swin Transformer的图像融合方法是十分有必要的。

发明内容

本发明为了弥补现有技术的不足，提供了一种基于Swin Transformer的图像融合方法。

本发明是通过如下技术方案实现的：

一种基于Swin Transformer的图像融合方法，包括以下步骤：

步骤S1、构建端对端神经网络，其中，端对端神经网络包括生成器和判别器；

步骤S1-1、构建生成器，其中，生成器包括浅层特征提取模块、深层特征提取模块和关系图模块；其中，浅层特征提取模块用于对原始红外图像和原始可见光图像的拼接图像提取初始特征；深层特征提取模块用于对初始特征进行挖掘深层特征；关系图模块用于将深层特征上采样到与浅层特征提取模块提取到的初始特征相同的大小后，再与初始特征结合进行图像融合，获得融合图像。

步骤S1-2、构建判别器，其中，判别器包括Discriminator _ VIS鉴别器和Discriminator _ IR鉴别器。

步骤S2、构建生成器的损失函数以及判别器中鉴别器的损失函数；

步骤S3、利用KAIST数据集的部分原始红外图像和原始可见光图像对端对端神经网络进行训练，得到端对端神经网络模型：

步骤S4、测试步骤S3保存的端对端神经网络模型，输出最终融合图像。

优选地，步骤S1-1中，深层特征提取模块包括四个串行的STM模块，相邻的两个STM模块之间以及第四个STM模块之后均分别连接有一个残差块，每一个STM模块都由一个SwinTransformer block和一个卷积层构成，其中，Swin Transformer block的末尾连接卷积层，目的是增强特征。本申请中深层特征提取模块中STM模块的设置目的是能够实现局部注意力计算和跨窗口交互，残差块的设置目的是能够为特征聚合提供快捷方式。

优选地，步骤S2中，生成器的损失函数的构建方式具体如下：

为了反映融合图像与原始红外图像和原始可见光图像之间的结构相似性，也就是生成器的损失情况，本申请使用增强后的SSIM来作为生成器的损失函数，用于模拟生成器对图像融合过程中的信息丢失和失真。

由于方差能够反映融合图像与原始图像之间的对比度失真情况，也就是说，对比度高的区域更有可能捕捉到有利于人类视觉的信息。因此，本申请使用方差来计算初步融合图像与原始红外图像之间的对比度以及初步融合图像与原始可见光图像之间的对比度，方差的计算如式（1）所示。然后，利用计算原始红外图像或者原始可见光图像与初步融合图像之间的结构相似度，如公式（2）所示，而后再利用公式（3）计算生成器融合图像过程中的损失。

（1）

式（1）中，M和 N分别是初步融合图像、原始红外图像以及原始可见光图像在水平方向和垂直方向上的尺寸，µ表示初步融合图像的平均值，是原始红外图像或者原始可见光图像与初步融合图像的方差，/>为原始红外图像或者原始可见光图像上某点的对比度。

（2）

式（2）中，为原始红外图像或者原始可见光图像与初步融合图像的方差，/>和/>分别为原始红外图像和原始可见光图像，/>表示融合图像，W为融合图像按照图像大小为11×11分割后的图像块个数。

（3）

式（3）中，和/>分别为原始红外图像和原始可见光图像，/>表示融合图像，W为融合图像按照图像大小为11×11分割后的图像块个数。

优选地，本申请增强后的SSIM就是，是指在利用公式（2）计算结构相似度以及利用公式（3）计算图像融合损失的过程中均分别对初步融合图像、原始红外图像以及原始可见光图像进行了图像分割，然后对不同的图像块分别计算SSIM，即为/>，该上述设置的目的为了获得更准确的结构相似度。其中，分割图像时是按照图像大小为11×11，且从左上角逐渐向右下角移动对图像进行分割的。

优选地，步骤S2中，判别器中鉴别器的损失函数的构建方式具体如下：

本申请中采用平均绝对误差MAE作为判别器中鉴别器的损失函数。这是因为MAE对于任何输入值都具有稳健的梯度，并且不会导致梯度爆炸。此外，平均绝对误差对异常值具有更好的稳健性。平均绝对误差MAE的计算公式，如式（4）所示。

（4）

式（4）中，是 Discriminator _ VIS 鉴别器中改进后的 VGG16 网络提取的可见光图像的特征或者是Discriminator _ IR 鉴别器中改进后的 VGG16 网络提取的红外图像的特征，/>是Discriminator _ VIS 鉴别器或者 Discriminator _ IR 鉴别器中改进后的 VGG16 网络提取的初步融合图像的特征。

优选地，本申请中优化后的VGG16 网络模型是以现有技术中的VGG16网络为基础，将VGG16 网络模型的后三个卷积层依据KAIST数据集重新训练获得模型参数优化后的VGG16 网络模型。

优选地，步骤S3中利用KAIST数据集的25000对原始红外图像和原始可见光图像对端对端神经网络进行训练包括以下步骤：

步骤S3-1、在通道维度中将KAIST数据集中取出的25000对原始的可见光图像和与之相对应的原始的红外图像拼接在一起，然后将拼接得到的拼接图像输入浅层特征提取模块提取初始特征，本申请中浅层特征提取模块是通过现有技术中的卷积神经网络下采样四个卷积层来实现提取初始特征的；

步骤S3-2、将步骤S3-1提取出的初始特征输入生成器的深层特征提取模块以挖掘深层特征；

步骤S3-3、利用关系图模块对步骤S3-2中深层特征提取模块的最后一个STM模块的MLP 模块对输入的标准化结果进行非线性变换得到的特征B进行上采样到与浅层特征提取模块提取到的初始特征相同的大小，得到上采样特征；然后，将上采样特征与其相应的初始特征相乘以进行图像融合，得出初步融合特征；而后，将初步融合特征上采样到与原始图像相同的大小，得上采样融合特征，然后将得到的四个上采样融合特征进行叠加，即可得初步融合图像。

步骤S3-4、利用生成器的损失函数计算初步融合图像与原始图像之间的结构相似性，而后，将初步融合图像分别输入给判别器的Discriminator _ VIS鉴别器和Discriminator _ IR鉴别器，判别器的Discriminator _VIS鉴别器的VGG16网络对步骤S3-3得到的初步融合图像下采样第一层提取特征，而后计算该上述特征与步骤S3-3得到的初步融合图像之间的平均绝对误差MAE1以判别初步融合图像与原始可见光图像的差异；判别器的Discriminator _ IR鉴别器的VGG16网络对步骤S3-3得到的初步融合图像下采样第一层至第四层提取特征，而后计算该上述特征与步骤S3-3得到的初步融合图像之间的平均绝对误差MAE2以判别初步融合图像与原始红外图像的差异；然后依据结构相似性、平均绝对误差MAE1以及平均绝对误差MAE2的计算结果优化梯度并反向传播，更新生成器的模型参数；重复步骤S3-1到步骤S3-4，直到结构相似性、平均绝对误差MAE1以及平均绝对误差MAE2均收敛，图像融合过程结束，即生成器训练结束，得到训练好的生成器模型，本申请中端对端神经网络的训练仅是对生成器进行了训练，因此，生成器训练结束后，得到的由训练好的生成器模型和判别器构成的端对端神经网络即为训练好的端对端神经网络模型。

本申请步骤S3-1中利用KAIST数据集中25000对原始红外图像和原始可见光图像作为训练数据对端对端神经网络进行训练。其中，在对该上述端对端神经网络进行训练时，25000对原始红外图像和原始可见光图像的大小均被设置为256×256像素，学习率固定在0.0001，损失函数收敛时，迭代训练次数Epoch为20个。

优选地，步骤S3-2中将步骤S3-1提取出的初始特征输入生成器的深层特征提取模块以挖掘深层特征，具体步骤如下：

步骤S3-2-1、由于深层特征提取模块包括四个串行的STM模块，相邻的两个STM模块之间以及第四个STM模块之后均分别连接有一个残差块，每一个STM模块都由一个SwinTransformer block和一个卷积层构成，其中，Swin Transformer block的末尾连接卷积层。因此，初始特征输入深层特征提取模块时，实质就是初始特征会首先输入深层特征提取模块的第一个STM模块，此时，第一个STM模块中的Layernorm模块对初始特征进行标准化，得到特征图，然后将特征图输入基于窗口的多头自注意力模块WMSA中，多头自注意力模块WMSA先按照m×m大小对特征图进行图像分块，然后对每个图像分块分别计算自注意力，计算公式如式（5）所示；该上述设置中利用多头自注意力模块WMSA按照m×m大小对特征图进行图像分块可以有效利用局部先验知识；本申请中对图像分块进行self-attention计算是非常合理的，可以节省大量的计算资源，而且基本不会影响结果；

（5）

式（5）中，W-MSA表示使用常规窗口分区配置的基于窗口的多头自注意力，表示W-MSA 模块的输出特征，LN表示Layernorm 操作，/>表示上一个STM模块的输出特征。

步骤S3-2-2、将步骤S3-2-1获得的自注意力结果先输入到 Layernorm 模块中进行标准化，然后将标准化结果输入到 MLP 模块中对输入的标准化结果进行非线性变换，得到特征A，计算公式如式（6）所示，其中，LN表示Layernorm 操作，其作用是对每个样本的每个特征进行标准化，从而提高模型的稳定性和泛化能力；MLP模块用于对输入的标准化结果进行非线性变换，能够更好的捕捉不同位置的信息，以增强模型的表达能力；

（6）

式（6）中，是第一个MLP模块的输出特征，/>表示W-MSA 模块的输出特征。

步骤S3-2-3、将步骤S3-2-2得到的特征A输入到SW-MSA模块 (Shifted WindowsMulti-Head SelfAttention ) 后进行移动，而后对移动后的窗口内的自注意力进行计算，得移动后窗口内的自注意力，如此，便实现了窗口与窗口之间的信息交换，计算公式如式（7）所示，其中，SW-MSA模块为移动后的基于窗口的多头自注意力模块WMSA，LN表示Layernorm 操作，Layernorm 操作的作用是对每个样本的每个特征进行标准化，从而提高模型的稳定性和泛化能力，本申请中步骤S3-2-3的设置，目的是解决不同窗口之间无法交换信息的问题；

（7）

式（7）中，表示SW-MSA模块的输出特征，/>是第一个MLP模块的输出特征。

步骤S3-2-4、将步骤S3-2-3得到的移动后窗口内的自注意力结果输入 Layernorm模块进行标准化，然后再将该标准化结果输入MLP 模块对输入的标准化结果进行非线性变换，得到特征B，计算公式如式（8）所示；其中，MLP模块用于对输入标准化结果进行非线性变换，以增强模型的表达能力，LN表示Layernorm 操作，Layernorm 操作的作用是对每个样本的每个特征进行标准化，从而提高模型的稳定性和泛化能力；

（8）

式（8）中，表示SW-MSA模块的输出特征，/>是第二个 MLP 模块的输出特征。

步骤S3-2-5、将特征B中每个4*4的像素块划分为4个2*2像素的patch，然后将每个patch中相同位置像素给拼在一起就得到了4个小块的feature map，接着将这四个featuremap在深度方向进行拼接，然后在通过一个LayerNorm层，最后通过一个全连接层在特征B的深度方向做线性变化，将特征B的高和宽减半，深度翻倍，得到大块的feature map。本申请该步骤S3-2-5的设置实质就是采用类似于池化的补丁合并操作（下文中简称PatchMerging），该操作将相邻的小补丁（即小块的feature map）合成为更大的补丁（即大块的feature map），这使得合并后的大块的feature map能够感知四个小块的feature map的内容，从而增加其感知范围并使其能够捕获多尺度特征。

步骤S3-2-6、将S3-2-5得到的大块的feature map输入至与swin transformerblock块连接的卷积层中以增强特征，为以后浅层特征和深层特征的聚合奠定更好的基础；

该上述步骤S3-2-1至步骤S3-2-5均是通过第一个STM模块的swin transformerblock块实现的，该上述S3-2-1至步骤S3-2-6即为第一个STM模块进行挖掘深层特征的过程；

步骤S3-2-7、第二个STM模块和第三个STM模块均分别重复步骤S3-2-1至步骤S3-2-6的步骤，第四个STM模块重复步骤S3-2-1至步骤S3-2-4以及步骤S3-2-6的具体步骤，完成最终的深层特征的挖掘。

优选地，步骤S4中测试步骤S3-4保存的端对端神经网络模型，输出最终融合图像，包括如下具体步骤：加载步骤S3-3训练好的端对端神经网络模型，将RoadScene数据集输入到训练好的网络模型中，之后对测试的结果进行保存，得到最终融合图像。

有益技术效果

本发明的目的是提供一种基于Swin Transformer的图像融合方法，该方法提出的目的是解决现有基于自注意力Transformer图像融合方法无法有效提取多尺度特征，无法有效降低计算复杂度以及无法利用先验知识这些方面的问题，而且本申请还克服了基于自动编码器（AE）的图像融合方法、基于卷积神经网络（CNN）的图像融合方法和基于生成对抗网络（ GAN）的图像融合方法等图像融合方法在处理远程依赖方面的局限性。本申请中远程依赖指的是在一个序列中，某些元素之间存在较远的关联关系，需要跨越多个元素才能建立联系。由于CNN中的卷积操作只能捕获局部信息，很难建立全局图像的远程依赖。但是，本发明所提供的基于Swin Transformer的图像融合方法可以在步骤3-1生成器训练部分通过使用移位窗口方案对远程依赖进行建模，从而将具有远程依赖关系的信息传递给模型的每一层，实现对远程依赖的处理。此外，本申请为了更好地保留和增强融合图像中不同语义对象的模态特征（红外特征和可见光特征），本申请还利用了两个鉴别器（Discriminator _VIS鉴别器和Discriminator _ IR鉴别器）来对融合图像进行特征提取。

附图说明

图1是本发明基于Swin Transformer的图像融合方法的总体流程图；

图2是本发明基于Swin Transformer的图像融合方法中的Patch Merging结构示意图；

图3是本发明基于Swin Transformer的图像融合方法在RoadSence数据集上选取的其中一种场景的定性比较结果，其中，图(a)是未融合前的原始红外图像、图(b)是未融合前的原始可见光图像、图(c)是基于SDNet融合方法得到的融合图像、图(d)是基于RFN-Nest融合方法得到的融合图像、图(e)是基于FusionGAN融合方法得到的融合图像、图(f)是基于本发明所述的基于Swin Transformer的图像融合方法得到的融合图像；

图4是本发明基于Swin Transformer的图像融合方法在RoadSence数据集上选取的另一种场景的定性比较结果，其中，图(a)是未融合前的原始红外图像、图(b)是未融合前的原始可见光图像、图(c)是基于PIAFusion融合方法得到的融合图像、图(d)是基于DenseFuse融合方法得到的融合图像、图(e)是基于IFCNN方法得到的融合图像、图(f)是基于本发明所述的基于Swin Transformer的图像融合方法得到的融合图像。

具体实施方式

一种基于Swin Transformer的图像融合方法，包括以下步骤：

步骤S1-1、构建生成器，其中，生成器包括浅层特征提取模块、深层特征提取模块和关系图模块；其中，浅层特征提取模块用于对原始红外图像和原始可见光图像的拼接图像提取初始特征；深层特征提取模块用于对提取得到的初始特征分别进行挖掘深层特征；关系图模块用于将深层特征上采样到与浅层特征提取模块提取到的初始特征相同的大小后，再与初始特征结合进行图像融合，获得融合图像。其中，深层特征提取模块包括四个串行的STM模块，相邻的两个STM模块之间以及第四个STM模块之后均分别连接有一个残差块，每一个STM模块都由一个Swin Transformer block和一个卷积层构成，其中，SwinTransformer block的末尾连接卷积层，目的是增强特征。本申请中深层特征提取模块中STM模块的设置目的是能够实现局部注意力计算和跨窗口交互，残差块的设置目的是能够为特征聚合提供快捷方式。

步骤S2、构建生成器的损失函数以及判别器中鉴别器的损失函数：

其中，步骤S2中，生成器的损失函数的构建方式具体如下：

本申请增强后的SSIM就是，是指在利用公式（2）计算结构相似度以及利用公式（3）计算图像融合损失的过程中均分别对初步融合图像、原始红外图像以及原始可见光图像进行了图像分割，然后对不同的图像块分别计算SSIM，即为/>，该上述设置的目的为了获得更准确的结构相似度。其中，分割图像时是按照图像大小为11×11，且从左上角逐渐向右下角移动对图像进行分割的。

（1）

式（1）中，M 和 N 分别是初步融合图像、原始红外图像以及原始可见光图像在水平方向和垂直方向上的尺寸，µ 表示初步融合图像的平均值，是原始红外图像或者原始可见光图像与初步融合图像的方差，/>为原始红外图像或者原始可见光图像上某点的对比度。

（2）

（3）

其中，步骤S2中，判别器中鉴别器的损失函数的构建方式具体如下：

（4）

式（4）中，是Discriminator _ VIS 鉴别器中改进后的 VGG16 网络提取的可见光图像的特征或者是Discriminator _ IR 鉴别器中改进后的 VGG16 网络提取的红外图像的特征，/>是Discriminator _ VIS 鉴别器或者 Discriminator _ IR 鉴别器中改进后的 VGG16 网络提取的初步融合图像的特征。

本申请中优化后的VGG16 网络模型使用以现有技术中的VGG16网络为基础，将VGG16 网络模型的后三个卷积层依据KAIST数据集重新训练获得模型参数优化后的VGG16网络模型。

步骤S3、利用KAIST数据集的25000对原始红外图像和原始可见光图像对端对端神经网络进行训练，得到端对端神经网络模型：

步骤S3-1、在通道维度中将KAIST数据集中取出的25000对相对应的原始的可见光图像和原始的红外图像拼接在一起，由于本实施例中原始的可见光图像和原始的红外图像都是灰色的，因此本申请中通道维度为一维的通道维度，然后将拼接得到的拼接图像输入浅层特征提取模块提取初始特征，本申请中浅层特征提取模块是通过现有技术中的卷积神经网络下采样四个卷积层来实现提取初始特征的；

步骤S3-2、将步骤S3-1提取出的初始特征输入生成器的深层特征提取模块以挖掘深层特征，具体步骤如下：

（5）

（6）

（7）

（8）

步骤S3-2-5、将特征B中每个4*4的像素块划分为4个2*2像素的patch，然后将每个patch中相同位置像素给拼在一起就得到了4个小块的feature map，接着将这四个featuremap在深度方向进行拼接，然后在通过一个LayerNorm层，最后通过一个全连接层在特征B的深度方向做线性变化，将特征B的高和宽减半，深度翻倍，得到大块的feature map。本申请该步骤S3-2-5的设置实质就是采用类似于池化的补丁合并操作，该操作将相邻的小补丁（即小块的feature map）合成为更大的补丁（即大块的feature map），这使得合并后的大块的feature map能够感知四个小块的feature map的内容，从而增加其感知范围并使其能够捕获多尺度特征。

步骤S3-3、利用关系图模块对步骤S3-2-7中最后一个STM模块的MLP 模块对输入的标准化结果进行非线性变换得到的特征B进行上采样到与浅层特征提取模块提取到的初始特征相同的大小，得到上采样特征；然后，将上采样特征与其相应的初始特征相乘以进行图像融合，得出初步融合特征；而后，将初步融合特征上采样到与原始图像相同的大小，得上采样融合特征，然后将得到的四个上采样融合特征进行叠加，即可得初步融合图像。

步骤S4、测试步骤S3-3保存的端对端神经网络模型，输出最终融合图像。具体为：加载步骤S3-3训练好的端对端神经网络模型，将RoadScene数据集输入到训练好的网络模型中，之后对测试的结果进行保存，得到最终融合图像。

为了验证本发明相较于其他现有融合方法的优异效果，本申请还特地用RoadScene数据集分别对RP融合方法（出自于Image fusion by a ratio of low-passpyramid）、Wavelet融合方法（出自于Wavelets and image fusion）、DTCWT融合方法（出自于Pixel-and region-basedimage fusion with complex wavelets）、CVT融合方法（出自于Remote sensing image fusion using the curvelet transform）、MSVD融合方法（出自于Image fusion technique using multi-resolution singularvalue decomposition）、GTF融合方法（出自于Infrared and visible image

fusion via gradient transfer and total variation minimization）、DenseFuse融合方法（出自于Densefuse: A fusion approach to infrared andvisibleimages）、FusionGAN融合方法（出自于A generative adversarial network forinfrared and visible

image fusion）、TGFuse融合方法（出自于TGFuse: An Infrared and VisibleImage Fusion Approach Based on Transformerand Generative AdversarialNetwork）、IFCNN融合方法(出自于Ifcnn:A general image fusion framework based onconvolutional neural network)、PMGI融合方法（出自于Rethinking the imagefusion:A fast unified image fusion network based on proportional maintenance ofgradient and intensity）、U2Fusion融合方法（出自于U2fusion: A unifiedunsupervised image fusion network）、RFN-Nest融合方法（出自于Rfn-nest: Anend-to-end residual fusion network for infrared and visible images）、SDNet融合方法（出自于SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time ImageFusion）以及PIAFusion融合方法（出自于Piafusion: Aprogressive infrared andvisible image fusion network based on illumination aware）等图像融合方法进行测试，测试结果如表1所示。此外，表1中的Ours是指本申请所述的基于Swin Transformer的图像融合方法，表1中PSNR是指峰值信噪比（Peak Signal-to-Noise Ratio, PSNR），PSNR表征融合图像中峰值功率与噪声功率的比值，它能够从像素层面反映融合过程中的失真情况，EN是指信息熵（Entropy, EN），EN基于信息论计算融合图像中所包含的信息量，Q^AB/F是指基于边缘信息的指标（Q^AB/F），Q^AB/F用于测量从源图像转移到融合图像的边缘信息，SSIM是指结构相似性度量（Structural Similarity Index Measure, SSIM），SSIM用于对融合过程中的信息损失和失真进行建模，并以此反映融合图像与源图像之间的结构相似性，FMI_p是指像素特征互信息（MI for Pixel Features，FMI_p），MS-SSIM是指多尺度结构相似性度量（MS-SSIM），MS-SSIM能够在 SSIM的基础上，结合多个尺度下的结构相似度来综合评估融合图像的失真情况，本申请中在MS-SSIM的基础上结合多尺度结构相似性综合评价融合图像的畸变情况，VIF是指视觉保真度（Visual Information Fidelity, VIF），VIF基于自然场景统计和人类视觉系统（HSV）量化融合图像F与源图像X之间共享的信息量，FMI_w是指小波特征互信息（MI for Wavelet Transform，FMI_w）。

从表1中能够看出，本申请所述的图像融合方法在六个指标上表现最好，在其他两个指标上也排名第二或第三。具体来说，

1）本申请所述的图像融合方法的EN值最高，这说明本申请所述的图像融合方法获得了信息最丰富的融合图像；

2）本申请所述的图像融合方法的Q^AB/F和 FMI_p均最高，这表明本申请所述的图像融合方法从源图像中提取了最多的边缘信息和特征信息，并将其转移到融合图像中，而且，表1中还可以看出，本发明所述的图像融合方法的Q^AB/F相较于现有技术中图像融合方法最高的Q^AB/F提高了9.89个百分点；

3）本申请所述的图像融合方法的SSIM最高，这表明本申请所述的图像融合方法可以获得融合图像和源图像之间的最高结构相似性；

4）本申请所述的图像融合方法的MS-SSIM也最高，这说明本申请所述的图像融合方法能够有效地提取了每个尺度的特征；

5）本申请所述的图像融合方法的PSNR也最高，这说明着本申请所述的图像融合方法在融合过程中具有最少的信息失真。

综上，本申请所述的基于Swin Transformer的图像融合方法相较于其他现有技术中的图像融合方法在性能上有较高的提升，融合图像展现的信息相较于现有技术明显丰富，且获得融合图像和源图像之间的较高结构相似性。

Claims

1.一种基于Swin Transformer的图像融合方法，其特征在于：包括以下步骤：

步骤S1、构建端对端神经网络，所述端对端神经网络包括生成器和判别器，所述端对端神经网络的构建方式具体如下：

步骤S1-1、构建生成器，所述生成器包括浅层特征提取模块、深层特征提取模块和关系图模块；其中，浅层特征提取模块用于对原始红外图像和原始可见光图像的拼接图像提取初始特征；深层特征提取模块用于对初始特征进行挖掘深层特征；关系图模块用于将深层特征上采样到与浅层特征提取模块提取到的初始特征相同的大小后，再与初始特征结合进行图像融合，获得融合图像；步骤S1-1中，所述深层特征提取模块包括四个串行的STM模块，相邻的两个STM模块之间以及第四个STM模块之后均分别连接有一个残差块，每一个STM模块都由一个Swin Transformer block和一个卷积层构成，其中，Swin Transformer block的末尾连接卷积层；

步骤S1-2、构建判别器，其中，判别器包括Discriminator _ VIS鉴别器和Discriminator _ IR鉴别器；

步骤S3、利用KAIST数据集的部分原始红外图像和原始可见光图像对端对端神经网络进行训练，得到端对端神经网络模型；利用KAIST数据集中若干对原始红外图像和原始可见光图像对端对端神经网络进行训练，具体包括以下步骤：

步骤S3-1、在通道维度中将KAIST数据集中若干对原始红外图像和与之相对应的原始可见光图像拼接在一起，然后将拼接得到的拼接图像输入浅层特征提取模块提取初始特征；

步骤S3-3、利用关系图模块对步骤S3-2中深层特征提取模块的最后一个STM模块的MLP模块对输入的标准化结果进行非线性变换得到的特征B进行上采样到与浅层特征提取模块提取到的初始特征相同的大小，得到上采样特征；然后，将上采样特征与其相应的初始特征相乘以进行图像融合，得出初步融合特征；而后，将初步融合特征上采样到与原始图像相同的大小，得上采样融合特征，然后将得到的四个上采样融合特征进行叠加，即可得初步融合图像；

步骤S3-4、利用生成器的损失函数计算初步融合图像与原始图像之间的结构相似性，而后，将初步融合图像分别输入给判别器的Discriminator _ VIS鉴别器和Discriminator_ IR鉴别器，判别器的Discriminator _ VIS鉴别器的VGG16网络对步骤S3-3得到的初步融合图像下采样第一层提取特征，而后计算所述下采样第一层提取特征与步骤S3-3得到的初步融合图像之间的平均绝对误差MAE1以判别初步融合图像与原始可见光图像的差异；判别器的Discriminator _ IR鉴别器的VGG16网络对步骤S3-3得到的初步融合图像下采样第一层至第四层提取特征，而后计算所述下采样第一层至第四层提取特征与步骤S3-3得到的初步融合图像之间的平均绝对误差MAE2以判别初步融合图像与原始红外图像的差异；然后依据结构相似性、平均绝对误差MAE1以及平均绝对误差MAE2的计算结果优化梯度并反向传播，更新生成器的模型参数；重复步骤S3-1到步骤S3-4，直到结构相似性、平均绝对误差MAE1以及平均绝对误差MAE2均收敛，图像融合过程结束，得到训练好的生成器模型，由训练好的生成器模型以及判别器构成的端对端神经网络即为训练好的端对端神经网络模型；

其中，步骤S3-2中将步骤S3-1提取出的初始特征输入生成器的深层特征提取模块以挖掘深层特征，具体步骤如下：

步骤S3-2-1、将初始特征输入深层特征提取模块，初始特征会首先输入至深层特征提取模块的第一个STM模块，此时，第一个STM模块中的Layernorm模块对初始特征进行标准化，得到特征图，然后将特征图输入基于窗口的多头自注意力模块WMSA中，多头自注意力模块WMSA先按照m×m大小对特征图进行图像分块，然后对每个图像分块分别计算自注意力，计算公式如式（5）所示；

（5）

式（5）中，W-MSA表示使用常规窗口分区配置的基于窗口的多头自注意力，表示W-MSA 模块的输出特征，LN表示Layernorm 操作，/>表示上一个STM模块的输出特征；

步骤S3-2-2、将步骤S3-2-1获得的自注意力结果先输入到 Layernorm 模块中进行标准化，然后将标准化结果输入到 MLP 模块中对输入的标准化结果进行非线性变换，得到特征A，计算公式如式（6）所示，其中，LN表示Layernorm 操作，其作用是对每个样本的每个特征进行标准化；MLP模块用于对输入的标准化结果进行非线性变换；

（6）

式（6）中，是第一个MLP模块的输出特征，/>表示W-MSA 模块的输出特征；

步骤S3-2-3、将步骤S3-2-2得到的特征A输入到SW-MSA模块后进行移动，而后对移动后的窗口内的自注意力进行计算，得移动后窗口内的自注意力，计算公式如式（7）所示，其中，SW-MSA模块为移动后的基于窗口的多头自注意力模块WMSA，LN表示Layernorm 操作，Layernorm 操作的作用是对每个样本的每个特征进行标准化；

（7）

式（7）中，表示SW-MSA模块的输出特征，/>是第一个MLP模块的输出特征；

步骤S3-2-4、将步骤S3-2-3得到的移动后窗口内的自注意力结果输入 Layernorm模块进行标准化，然后再将该标准化结果输入MLP 模块对输入的标准化结果进行非线性变换，得到特征B，计算公式如式（8）所示；其中，MLP模块用于对输入标准化结果进行非线性变换，LN表示Layernorm 操作，Layernorm 操作的作用是对每个样本的每个特征进行标准化；

（8）

式（8）中，表示SW-MSA模块的输出特征，/>是第二个 MLP 模块的输出特征；

步骤S3-2-5、将特征B中每个4×4的像素块划分为4个2×2像素的patch，然后将每个patch中相同位置像素给拼在一起就得到了4个小块的feature map，接着将这四个featuremap在深度方向进行拼接，然后在通过一个LayerNorm层，最后通过一个全连接层在特征B的深度方向做线性变化，将特征B的高和宽减半，深度翻倍，得到大块的feature map；

步骤S3-2-6、将S3-2-5得到的大块的feature map输入至与swin transformer block块连接的卷积层中以增强特征，为以后浅层特征和深层特征的聚合奠定更好的基础；

该上述步骤S3-2-1至步骤S3-2-5均是通过第一个STM模块的swin transformer block块实现的，该上述S3-2-1至步骤S3-2-6即为第一个STM模块进行挖掘深层特征的过程；

步骤S3-2-7、第二个STM模块和第三个STM模块均分别重复步骤S3-2-1至步骤S3-2-6的步骤，第四个STM模块重复步骤S3-2-1至步骤S3-2-4以及步骤S3-2-6的具体步骤，完成最终的深层特征的挖掘；

2.根据权利要求1所述的基于Swin Transformer的图像融合方法，其特征在于：步骤S2中，生成器的损失函数的构建方式具体如下：

使用增强后的SSIM即来作为生成器的损失函数，用于模拟生成器对图像融合过程中的信息丢失和失真；使用方差来计算初步融合图像与原始红外图像之间的对比度以及初步融合图像与原始可见光图像之间的对比度，方差的计算如式（1）所示；然后，利用计算原始红外图像或者原始可见光图像与初步融合图像之间的结构相似度，如公式（2）所示，而后再利用公式（3）计算生成器融合图像过程中的损失；

（1）

式（1）中，M 和 N 分别是初步融合图像、原始红外图像以及原始可见光图像在水平方向和垂直方向上的尺寸，µ表示初步融合图像的平均值，是原始红外图像或者原始可见光图像与初步融合图像的方差，/>为原始红外图像或者原始可见光图像上某点的对比度；

（2）

式（2）中，为原始红外图像或者原始可见光图像与初步融合图像的方差，/>和/>分别为原始红外图像和原始可见光图像，/>表示融合图像，W为融合图像按照图像大小为11×11分割后的图像块个数；

（3）

3.根据权利要求2所述的基于Swin Transformer的图像融合方法，其特征在于：所述增强后的SSIM就是，是指在利用公式（2）计算结构相似度以及利用公式（3）计算图像融合损失的过程中均分别对初步融合图像、原始红外图像以及原始可见光图像进行了图像分割，然后对不同的图像块分别计算SSIM，即为/>；分割图像时，按照图像大小为11×11，且从左上角逐渐向右下角移动对图像进行分割的。

4.根据权利要求1所述的基于Swin Transformer的图像融合方法，其特征在于：步骤S2中，判别器中鉴别器的损失函数的构建方式具体如下：

采用平均绝对误差MAE作为判别器中鉴别器的损失函数，平均绝对误差MAE的计算公式，如式（4）所示；

（4）

式（4）中，是Discriminator _ VIS鉴别器中改进后的VGG16网络提取的可见光图像的特征或者是Discriminator _ IR鉴别器中改进后的VGG16网络提取的红外图像的特征，是Discriminator _ VIS鉴别器或者Discriminator _ IR鉴别器中改进后的VGG16网络提取的初步融合图像的特征。

5.根据权利要求4所述的基于Swin Transformer的图像融合方法，其特征在于：所述改进后的VGG16网络是以VGG16网络为基础，将VGG16网络的后三个卷积层依据KAIST数据集重新训练获得模型参数优化后的VGG16网络。

6.根据权利要求1所述的基于Swin Transformer的图像融合方法，其特征在于：步骤S4中测试步骤S3-4保存的端对端神经网络模型，输出最终融合图像，包括如下具体步骤：加载步骤S3-3训练好的端对端神经网络模型，将RoadScene数据集输入到训练好的网络模型中，之后对测试的结果进行保存，得到最终融合图像。