CN117314808A

CN117314808A - 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法

Info

Publication number: CN117314808A
Application number: CN202311218609.1A
Authority: CN
Inventors: 陆成; 刘雪明
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-29

Abstract

本发明公开了一种结合Transformer与CNN双编码器的红外与可见光图像融合方法，基于U‑Net框架，构建结合Transformer与CNN双编码器的红外与可见光图像融合模型，其中基于U‑Net框架的融合网络由双编码器和解码器组成，再利用训练集训练该模型；将红外图像、可见光图像输入到训练完成的结合Transformer与CNN双编码器的红外与可见光图像融合模型中，利用双编码器提取红外图像和可见光图像预融合的红外特征和可见光特征，并通过自上而下的方式进行特征表示；再利用解码器将特征表示映射到原始分辨率，通过自下而上的方式逐步融合图像特征，得到融合图像。本发明有效地将局部信息与全局信息相结合，提升融合图像质量，同时降低单一Transformer结构带来的计算复杂度。

Description

一种结合Transformer与CNN双编码器的红外与可见光图像融合方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种结合Transformer与CNN双编码器的红外与可见光图像融合方法。

背景技术

现有的图像融合方法主要分为两种：一种是传统融合方法，另一种是基于深度学习的图像融合方法。传统算法主要包括稀疏表示、多尺度变换、子空间和混合融合方法等，这些算法通常将图像分解为不同层级特征或依据图像特征建立稀疏矩阵，然后通过分解结果结合所设计的融合策略进行图像融合。虽然一定程度上能够保留源图像部分细节和突出目标，但源图像之间的模态差异使得传统方法手工设计越来越复杂，融合性能很难进一步提升，同时计算复杂度高，耗费时间长，并且容易忽略融合过程中的空间一致性，传统模型泛化性能较差。

现有的基于深度学习的图像融合方法融合性能较好，网络模型具有更强的特征提取能力。目前主要的融合模型分为CNN(Convolution Neural Network,卷积神经网络)和GAN(Generative Adversarial Network,生成对抗网络)。基于CNN和GAN的图像融合方法通过卷积层分别对红外图像和可见光图像进行特征提取，一定程度上保留了红外像素幅度和可见光细节信息，但卷积核提取的特征仅在当前位置有较强的区域相关性，未考虑长距离上下文信息的提取能力，并且融合图像的细节纹理信息提取不充分，无法从全局角度增强信息融合。针对现有的红外与图像融合方法存在的问题，很多学者通过使用Transformer来实现信息远程依赖性，这主要得益于它的自注意力机制和全局特征提取能力，但仅通过Transformer来提取特征需要很大计算资源。

发明内容

本发明所要解决的技术问题：提供一种结合Transformer与CNN双编码器的红外与可见光图像融合方法，将CNN与Transformer相结合，形成并行的双编码器结构，既能够关注局部上下文信息和全局信息，又能利用高效地计算优势训练网络模型，提升融合图像质量。

本发明为解决以上技术问题而采用以下技术方案：

本发明提出的一种结合Transformer与CNN双编码器的红外与可见光图像融合方法，包括：

S1、基于U-Net框架，构建结合Transformer与CNN双编码器的红外与可见光图像融合模型，其中该模型由双编码器和解码器组成。

S2、选定数据集，对其进行处理后得到训练集，利用训练集训练步骤S1中的结合Transformer与CNN双编码器的红外与可见光图像融合模型。

S3、将红外图像、可见光图像输入到训练完成的结合Transformer与CNN双编码器的红外与可见光图像融合模型中，利用双编码器提取红外图像和可见光图像预融合的红外特征和可见光特征，并通过自上而下的方式进行特征表示。

S4、利用解码器将步骤S3中的特征表示映射到原始分辨率，通过自下而上的方式逐步融合图像特征，得到融合图像。

进一步的，步骤S1中，构建结合Transformer与CNN双编码器的红外与可见光图像融合模型包括以下内容：

S101、构建双编码器：双编码器包括局部细节特征提取编码器和全局信息提取编码器。

其中，局部细节特征提取编码器包括依次连接的卷积层和四个特征提取块，卷积层由卷积核为4×4、步长为2、填充为1的卷积以及批量归一化、LeakyReLU串行连接构成，卷积层用于下采样操作，并调整输入图像的通道数和尺寸。

第一、二特征提取块由残差模块构成，第三、四特征提取块由残差模块和INN(Invertible Neural networks,可逆神经网络)串行连接构成，四个特征提取块输入的通道数分别为16、32、64、128，输出的通道数分别为32、64、128、256。

可逆神经网络包括三个可逆残差模块，其包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、激活函数(ReLU6)。

全局信息提取编码器包括四个通过串行方式连接的Transformer Layer，其输入的通道数分别为16、32、64、128，输出的通道数分别为32、64、128、256，第一、二、四Transformer Layer包括两层HAT(Hybrid Attention Transformer,混合注意力变换器)结构，其中，第一Transformer Layer的第一层包括通过串行方式连接的补丁嵌入操作、层归一化操作、W-MSA模块(Windows Multi-Head Self-Attention,窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络，第二层包括通过串行方式连接的层归一化操作、SW-MSA模块(Shift Windows Multi-Head Self-Attention,变换窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络。

第二、四Transformer Layer的第一层包括通过串行方式连接的补丁合并操作、层归一化操作、W-MSA模块(Windows Multi-Head Self-Attention,窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络，第二层包括通过串行方式连接的层归一化操作、SW-MSA模块(Shift Windows Multi-Head Self-Attention,变换窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络。

第三Transformer Layer包括六层混合注意力变换器结构，由第二TransformerLayer中的两层HAT(Hybrid Attention Transformer,混合注意力变换器)结构堆叠3次构成。

S102、构建解码器

解码器包括四个特征融合模块和重建模块；每个特征融合模块包括上采样操作，拼接操作，依次连接的卷积核为4×4、步长为2、填充为1的反卷积，BatchNorm操作，激活函数ReLU。

重建模块包括依次连接的上采样操作，卷积核为4×4的卷积、填充为1的卷积，填充操作，双曲正切函数函数(Tanh)。

S103、双编码器通过自上而下方式逐步下采样进行特征提取，解码器通过自下而上的方式将双编码器提取的特征逐步上采样进行融合并重建，构成结合Transformer与CNN双编码器的红外与可见光图像融合模型。

进一步的，步骤S1中，残差模块包括主路径和残差路径，主路径包含卷积核为1×1的卷积、BN、LeakyReLU激活函数、卷积核为3×3的卷积、卷积核为4×4的卷积；残差路径包括DSConv和卷积核为4×4的卷积。

进一步的，步骤S1中，局部-非局部注意力信息增强模块包括局部信息增强模块和非局部信息增强模块；其中局部信息增强模块包括拼接操作、全局平均池化、深度可分离卷积、Sigmoid函数、逐元素相乘操作和逐元素相乘操作；非局部信息增强模块包括LayerNorm操作和位置注意力模块。

进一步的，步骤S2中，训练结合Transformer与CNN双编码器的红外与可见光图像融合模型包括以下子步骤：

S201、从TNO数据集中选定m对图像作为数据集，将图像灰度值转为[-1,1]，利用h×w的窗口裁剪图像，步长设置为s，最终获得n对图像块作为训练集，其中，h表示图像的高，w表示图像的宽。

S202、采用结构相似性损失和对比损失监督结合Transformer与CNN双编码器的红外与可见光图像融合模型训练，获得最优网络参数，具体公式为：

L_total＝λ₁L_SSIM+λ₂L_patchNCE

其中，L_total表示损失函数，λ₁、λ₂表示超参数，L_SSIM表示结构相似性损失，L_patchNCE表示对比损失。

S203、根据训练集和损失函数L_total对初始的结合Transformer与CNN双编码器的红外与可见光图像融合模型进行训练，训练过程使用的Adam优化器更新网络模型参数，得到训练完成的结合Transformer与CNN双编码器的红外与可见光图像融合模型。

进一步的，步骤S3中，利用双编码器提取特征包括以下子步骤：

S301、将红外图像和可见光图像的灰度值转为[-1,1]，利用h×w的窗口裁剪图像，步长设置为s；

S302、将步骤S301中处理后的红外图像、可见光图像输入到双编码器，经过卷积层的下采样操作，调整该图像的通道数和尺寸；

S303、将步骤S302处理后的图像输入到四个特征提取块中，依次通过1×1的卷积、BN、LeakyReLU激活函数、卷积核为3×3的卷积、BN和卷积核为4×4的卷积操作后得到主路径中学习的卷积特征，再经过DSConv和卷积核为4×4的卷积卷积操作后得到补充信息特征，将卷积特征和补充信息特征相加后再经过LeakyReLU后得到信息增强特征；

S304、将步骤S303得到的信息增强特征输入到可逆神经网络中，将该特征在通道维度上被均分成/>和/>两部分，特征/>经过第一个可逆残差模块得到的特征/>与特征/>逐元素相加得到特征/>特征/>经过第二个可逆残差模块与特征/>逐元素相乘得到特征特征/>经过第三个可逆残差模块得到特征并与特征/>逐元素相加得到特征将特征/>和特征/>在通道维度上拼接得到输出特征/>具体公式为：

其中，C表示完整通道数，c表示完整通道数的一半，[1:c]表示当前特征通道数为1至c，[c+1:C]表示当前特征通道数为c+1至C，S表示CNN特征提取编码器，I表示任意映射符，k表示第k个可逆网络层数，R_n(n＝1,2,3)表示可逆残差模块，exp表示指数e。

最终输出红外局部细节特征和可见光局部细节特征。

可逆神经网络是通过可逆性设计让输入和输出特征的相互生成来防止信息丢失，符合融合图像中保留高频特征的目标。

S305、在第一Transformer Layer中，红外图像和可见光图像的特征分别经过补丁嵌入操作后，通过层归一化操作对该特征进行标准化，再将其中输入到W-MSA模块，按照设定好的窗口大小对图像进行分块，得到自注意力图，再经过局部-非局部注意力信息增强模块，得到局部-非局部注意力信息增强特征，将该增强特征逐元素相加经得到注意力特征F^l，经过层归一化操作操作后再经过FFN模块得到特征，将该特征与注意力特征相加得到第一层HAT结构的输出特征F^l+1；将输出特征F^l+1输入第二层HAT结构，经过补丁嵌入操作后，通过层归一化操作对特征进行标准化，经过标准化的特征输入到SW-MSA模块，SW-MSA模块按照设定好的窗口大小对图像进行分块，得到自注意力图，自注意力图再经过局部-非局部注意力信息增强模块，得到局部-非局部注意力信息增强特征，将局部-非局部注意力信息增强特征逐元素相加经得到注意力特征F^l+1，注意力特征经过层归一化操作后经过FFN模块得到的特征与注意力特征相加得到第一Transformer Layer的红外全局信息特征和可见光全局信息特征，具体公式为：

F^l＝LG(W-MSA(LN(F^l-1)))+F^l-1；

F₁ ^l＝FFN(LN(F^l))+F^l；

F^l+1＝LG(SW-MSA(LN(F₁ ^l)))+F₁ ^l；

F₁ ^l+1＝FFN(LN(F^l+1))+F^l+1；

其中，F^l-1表示红外图像和可见光图像的特征；F^l表示第一层HAT输出的特征；F^l+1表示红外全局信息特征和可见光全局信息特征；LG(•)表示局部-非局部信息增强操作；LN(•)表示层归一化操作，用于对每层特征归一化；W-MSA(•)表示窗口的多头自注意力模块；SW-MSA(•)表示移位窗口的多头自注意力模块操作，通过两个不同的多头自注意力机制提高窗口之间的信息交互能力，从而提升模型泛化性能。

S306、第二、三、四Transformer Layer重复步骤S305的内容，其中，第三Transformer Layer需重复三次后再输入第四Transformer Layer后输出红外与可见光的全局信息特征；

S307、将双编码器每个特征提取块与红外、可见光全局信息特征和红外、可见光局部细节特征对应模态逐元素相加得到四组预融合的红外特征和可见光特征。

进一步的，步骤S305中，局部-非局部注意力信息增强模块提取特征的具体内容为：

输入特征分别经过全局平均池化、深度可分离卷积、Sigmoid操作得到局部信息增强图，再与原输入特征经过逐元素相乘操作得到局部信息增强特征，其次，输入特征经过层归一化操作、位置注意力模块得到非局部信息增强特征，再与局部信息增强特征逐元素相加得到局部-非局部注意力信息增强特征，该模块通过将局部信息归纳偏置引入补充学习非局部信息特征，提升模型抗干扰能力同时增强细节信息提取能力。

进一步的，步骤S4中，利用解码器得到融合图像包括以下子步骤：

S401、将第四组预融合的红外特征和可见光特征拼接后，经过上采样操作后与第三组预融合的红外特征和可见光特征在通道维度上拼接得到第三组重建特征，将第三组重建特征经过上采样操作后与第二组预融合的红外特征和可见光特征在通道维度上拼接得到第二组重建特征，将第二组重建特征经过上采样操作后与第三组预融合的红外特征和可见光特征在通道维度上拼接得到重建特征。

S402、将步骤S401中的重建特征经过上采样操作、填充操作、4×4卷积操作、Tanh操作后最终得到重建的融合图像。

本发明采用以上技术方案，与现有技术相比，其显著技术效果如下：

1、本发明克服了基于卷积神经网络的图像融合方法和基于生成对抗网络的图像融合方法全局信息提取能力的局限性。

2、本发明在U-net框架下，将Transformer嵌入到CNN中，形成并行的双编码器结构，克服了CNN在全局建模方面的不足，有效地将局部信息与全局信息相结合，提升融合图像质量，同时降低单一Transformer结构带来的计算复杂度。

3、本发明在局部细节特征提取路径中引入可逆神经网络，通过可逆设计让输入和输出特征的相互生成来防止信息丢失，进一步提升高频局部细节特征提取能力。

4、本发明开发了局部-非局部信息增强模块，通过将局部信息归纳偏置引入补充学习非局部信息特征，提升模型抗干扰能力同时增强细节信息提取能力。

5、本发明融合效果相较于现有技术显著提升，模型抗干扰能力和泛化能力较好，可应用于多模态图像融合，对图像融合领域有很高应用价值。

附图说明

图1为本发明的整体实施流程图。

图2为局部细节特征提取路径中残差模块示意图。

图3为局部细节特征提取路径中可逆神经网络示意图。

图4为可逆神经网络中可逆残差模块示意图。

图5为全局信息提取路径中混合注意力变换器示意图。

图6为混合注意力变换器中局部-非局部注意力信息增强模块示意图。

图7为解码器中图像重建模块示意图。

图8为第一组图像(sandpath)的红外图像、可见光图像和各方法融合效果对比图。

图9为第二组图像(Kaptein_1123)的红外图像、可见光图像和各方法融合效果对比图。

图10为第三组图像(lake)的红外图像、可见光图像和各方法融合效果对比图。

具体实施方式

下面将结合说明书附图和具体实施方式对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种结合Transformer与CNN双编码器的红外与可见光图像融合方法，如图1所示，包括以下步骤：

S1、基于U-Net框架，构建结合Transformer与CNN双编码器的红外与可见光图像融合模型，其中基于U-Net框架的融合网络由双编码器和解码器组成，具体内容为：

第二、二特征提取块由残差模块构成，第三、四特征提取块由残差模块和INN(Invertible Neural networks,可逆神经网络)串行连接构成，四个特征提取块输入的通道数分别为16、32、64、128，输出的通道数分别为32、64、128、256。

如图2所示，残差模块包括主路径和残差路径，主路径包含卷积核为1×1的卷积、BN、LeakyReLU激活函数、卷积核为3×3的卷积、卷积核为4×4的卷积；残差路径包括DSConv和卷积核为4×4的卷积。

如图3、4所示，可逆神经网络包括三个可逆残差模块，其包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、激活函数(ReLU6)。

如图5所示，全局信息提取编码器包括四个通过串行方式连接的TransformerLayer，其输入的通道数分别为16、32、64、128，输出的通道数分别为32、64、128、256，第一、二、四Transformer Layer包括两层HAT(Hybrid Attention Transformer,混合注意力变换器)结构，其中，第一Transformer Layer的第一层包括通过串行方式连接的补丁嵌入操作、层归一化操作、W-MSA模块(Windows Multi-Head Self-Attention,窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络，第二层包括通过串行方式连接的层归一化操作、SW-MSA模块(Shift Windows Multi-Head Self-Attention,变换窗口多头自注意力)、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络。

其中，如图6所示，局部-非局部注意力信息增强模块包括局部信息增强模块和非局部信息增强模块；其中局部信息增强模块包括拼接操作、全局平均池化、深度可分离卷积、Sigmoid函数、逐元素相乘操作和逐元素相乘操作；非局部信息增强模块包括LayerNorm操作和位置注意力模块。

S102、构建解码器：

如图7所示，重建模块包括依次连接的上采样操作，卷积核为4×4的卷积、填充为1的卷积，填充操作，双曲正切函数函数(Tanh)。

S2、选定数据集，对其进行处理后得到训练集，利用训练集训练步骤S1中的结合Transformer与CNN双编码器的红外与可见光图像融合模型，具体内容为：

S201、从TNO数据集中选定32对图像作为数据集，将图像灰度值转为[-1,1]，利用128×128的窗口裁剪图像，步长设置为32，最终获得6184对图像块作为训练集。

L_total＝λ₁L_SSIM+λ₂L_patchNCE

其中，结构相似性损失能够在亮度、对比度、结构上评价融合图像的质量，其结构相似度表示为：

其中，μ表示像素均值；σ_xy表示协方差；σ表示方差；C₁、C₂是为了避免接近于零而设定的极小值，通常取0.01²、0.03²。

结构相似性损失表示为：

其中，I_x、I_y和I_f分别表示可见光图像、红外图像和融合图像；W表示滑动窗口，步幅为1；P_i表示像素i的值；m、n表示滑动窗口大小，本实施例设置为16×16。

对比损失表示为：

其中，k表示编码好的特征样本；k⁺表示与k相似的正样本；k^-表示与k不相似的负样本；τ表示温度系数，通常取τ＝0.07；S表示图像特征层中采样的位置数，其中s∈{1,2,...,S}；D^s表示通道空间上任一特征序列。

通过计算空间上某一区域与正负样本的相似度，有效地保留融合图像和源图像最相似的部分。

S203、根据训练集和损失函数L_total对初始的结合Transformer与CNN双编码器的红外与可见光图像融合模型进行训练，训练过程使用的Adam优化器更新网络模型参数，学习率设置为0.01，Epoch设置为30，Batchsize设置为24，得到训练完成的结合Transformer与CNN双编码器的红外与可见光图像融合模型。

S3、将红外图像、可见光图像输入到训练完成的结合Transformer与CNN双编码器的红外与可见光图像融合模型中，利用双编码器提取红外图像和可见光图像预融合的红外特征和可见光特征，并通过自上而下的方式进行特征表示，具体内容为：

S301、将红外图像和可见光图像的灰度值转为[-1,1]，利用128×128的窗口裁剪图像，步长设置为32。

S302、将步骤S301中处理后的红外图像、可见光图像输入到双编码器，经过卷积层的下采样操作，调整该图像的通道数和尺寸。

S303、将步骤S302处理后的图像输入到四个特征提取块中，依次通过1×1的卷积、BN、LeakyReLU激活函数、卷积核为3×3的卷积、BN和卷积核为4×4的卷积操作后得到主路径中学习的卷积特征，再经过DSConv和卷积核为4×4的卷积卷积操作后得到补充信息特征，将卷积特征和补充信息特征相加后再经过LeakyReLU后得到信息增强特征。

S304、将步骤S303得到的信息增强特征输入到可逆神经网络中，将该特征在通道维度上被均分成/>和/>两部分，特征/>经过第一个可逆残差模块得到的特征/>与特征/>逐元素相加得到特征/>特征/>经过第二个可逆残差模块与特征/>逐元素相乘得到特征/>特征/>经过第三个可逆残差模块得到特征/>并与特征逐元素相加得到特征/>将特征/>和特征/>在通道维度上拼接得到输出特征/>具体公式为：

最终输出红外局部细节特征和可见光局部细节特征。

F^l＝LG(W-MSA(LN(F^l-1)))+F^l-1；

F₁ ^l＝FFN(LN(F^l))+F^l；

F^l+1＝LG(SW-MSA(LN(F₁ ^l)))+F₁ ^l；

F₁ ^l+1＝FFN(LN(F^l+1))+F^l+1；

其中，F^l-1表示红外图像和可见光图像的特征；F^l表示第一层HAT输出的特征；F^l+1表示红外全局信息特征和可见光全局信息特征；LG(·)表示局部-非局部信息增强操作；LN(·)表示层归一化操作，用于对每层特征归一化；W-MSA(•)表示窗口的多头自注意力模块；SW-MSA(·)表示移位窗口的多头自注意力模块操作，通过两个不同的多头自注意力机制提高窗口之间的信息交互能力，从而提升模型泛化性能。

其中，局部-非局部注意力信息增强模块提取特征的具体内容为：输入特征分别经过全局平均池化、深度可分离卷积、Sigmoid操作得到局部信息增强图，再与原输入特征经过逐元素相乘操作得到局部信息增强特征，其次，输入特征经过层归一化操作、位置注意力模块得到非局部信息增强特征，再与局部信息增强特征逐元素相加得到局部-非局部注意力信息增强特征，该模块通过将局部信息归纳偏置引入补充学习非局部信息特征，提升模型抗干扰能力同时增强细节信息提取能力。

S306、第二、三、四Transformer Layer重复步骤S305的内容，其中，第三Transformer Layer需重复三次后再输入第四Transformer Layer后输出红外与可见光的全局信息特征。

S4、利用解码器将步骤S3中的特征表示映射到原始分辨率，通过自下而上的方式逐步融合图像特征，得到融合图像，具体内容为：

S401、如图7所示，将第四组预融合的红外特征和可见光特征拼接后，经过上采样操作后与第三组预融合的红外特征和可见光特征在通道维度上拼接得到第三组重建特征，将第三组重建特征经过上采样操作后与第二组预融合的红外特征和可见光特征在通道维度上拼接得到第二组重建特征，将第二组重建特征经过上采样操作后与第三组预融合的红外特征和可见光特征在通道维度上拼接得到重建特征。

进一步地，为验证通过上述方法训练得到的结合Transformer与CNN双编码器的红外与可见光图像融合模型的图像融合效果，本实施例还对训练好的结合Transformer与CNN双编码器的红外与可见光图像融合模型进行验证。

具体地，在测试阶段，从TNO数据集中选取了除训练集外的20组图像进行测试验证，对比方法选择7种典型方法，包括DenseFuse、U2Fusion、RFN-Nest、SEDRFuse、IFCNN、GANMcC、CSF。此外，定量评价指标采用信息熵(EN)、平均梯度(AG)，空间频率(SF)、互信息(MI)、标准差(SD)、视觉保真度(VIF)等6个指标，验证结果包括定性评价和定量评价两个方面。

定性评价：图8、9、10给出了三组典型图像(sandpath，Kaptein_1123和lake)的定性比较结果图。通过对比，可以发现本发明的融合方法具有三个优势。首先，对于典型的红外目标，如图8、9中的人，本发明的融合结果比其他方法具更高亮度热辐射信息，更清晰的边缘轮廓。其次，融合结果可以保留可见光图像中的纹理细节和背景信息。例如图8的树和背景的天空亮度，图10的长椅，本发明的融合方法相比其他方法能够保留更清晰细节信息和更明显的背景信息。最后，本发明既能出色地捕捉接近红外图像的显著目标，同时最大限度地保留地可见光图像中的纹理细节和背景特征，融合图像更加清晰、自然。与源图像和其他融合结果相比，本发明方法可以更好地保留突出的目标特征和丰富的场景细节信息，本发明的融合图像方法细粒度信息提取更加充分，图像对比度高，更符合人眼视觉效果。

定量评价：表1给出了TNO数据集的20组图像的客观比较结果。最优平均值和次优平均值分别用加粗和下划线标注。可以看出，本发明取得了EN、MI、SD、VIF、SF的最优平均值，指标AG为次优值，客观实验表明本发明方法比其他方法具有更好的融合性能。本发明所述的融合方法EN、MI取得做最优，这表明本发明融合图像高效地从源图像获取丰富的源图像信息，并有效地重建于融合图像，最大值SD表明本发明融合图像像素更分散，这表明本发明构造的混合变换器能够从局部和非局部两方面学习图像特征，提取图像细节信息，有效提高模型抗干扰能力。最大值VIF表明本发明的融合图像具有更好的视觉效果和更真实的人眼感受，这是由于本发明的融合方法采用Transformer嵌入到CNN中形成双编码器结构，能够提取全局信息和局部信息，能够自适应融合不同模态特征。本发明所述的融合图像方法的SF也是最优，这说明本发明构造的可逆神经网络能够从不同模态的图像中提取高频语义信息，一定成程度上防止输入和输出特征的相互生成来防止信息丢失。

表1TNO数据集的20组图像的定量比较结果

以上所述仅为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，包括：

S1、基于U-Net框架，构建结合Transformer与CNN双编码器的红外与可见光图像融合模型，其中该模型由双编码器和解码器组成；

S2、选定数据集，对其进行处理后得到训练集，利用训练集训练步骤S1中的结合Transformer与CNN双编码器的红外与可见光图像融合模型；

S3、将红外图像、可见光图像输入到训练完成的结合Transformer与CNN双编码器的红外与可见光图像融合模型中，利用双编码器提取红外图像和可见光图像预融合的红外特征和可见光特征，并通过自上而下的方式进行特征表示；

2.根据权利要求1所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，步骤S1中，构建结合Transformer与CNN双编码器的红外与可见光图像融合模型包括以下内容：

S101、构建双编码器：双编码器包括局部细节特征提取编码器和全局信息提取编码器；

其中，局部细节特征提取编码器包括依次连接的卷积层和四个特征提取块，卷积层由卷积核为4×4、步长为2、填充为1的卷积以及批量归一化、LeakyReLU串行连接构成，卷积层用于下采样操作，并调整输入图像的通道数和尺寸；

第一、二特征提取块由残差模块构成，第三、四特征提取块由残差模块和可逆神经网络串行连接构成，四个特征提取块输入的通道数分别为16、32、64、128，输出的通道数分别为32、64、128、256；

全局信息提取编码器包括四个通过串行方式连接的Transformer Layer，其输入的通道数分别为16、32、64、128，输出的通道数分别为32、64、128、256；

S102、构建解码器：解码器包括四个特征融合模块和重建模块；每个特征融合模块包括上采样操作，拼接操作，依次连接的卷积核为4×4、步长为2、填充为1的反卷积，BatchNorm操作，激活函数ReLU；

重建模块包括依次连接的上采样操作，卷积核为4×4的卷积、填充为1的卷积，填充操作，双曲正切函数函数；

3.根据权利要求2所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，残差模块包括主路径和残差路径，主路径包含卷积核为1×1的卷积、BN、LeakyReLU激活函数、卷积核为3×3的卷积、卷积核为4×4的卷积；残差路径包括DSConv和卷积核为4×4的卷积；

可逆神经网络包括三个可逆残差模块，其包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、激活函数ReLU6。

4.根据权利要求2所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，第一、二、四Transformer Layer包括两层混合注意力变换器结构，其中，第一Transformer Layer的第一层包括通过串行方式连接的补丁嵌入操作、层归一化操作、W-MSA模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络，第二层包括通过串行方式连接的层归一化操作、SW-MSA模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络；

第二、四Transformer Layer的第一层包括通过串行方式连接的补丁合并操作、层归一化操作、W-MSA模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络，第二层包括通过串行方式连接的层归一化操作、SW-MSA模块、局部-非局部注意力信息增强模块、层归一化操作和前馈神经网络；

第三Transformer Layer包括六层混合注意力变换器结构，由第二Transformer Layer中的两层混合注意力变换器结构堆叠3次构成。

5.根据权利要求4所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，局部-非局部注意力信息增强模块包括局部信息增强模块和非局部信息增强模块；其中局部信息增强模块包括拼接操作、全局平均池化、深度可分离卷积、Sigmoid函数、逐元素相乘操作和逐元素相乘操作；非局部信息增强模块包括LayerNorm操作和位置注意力模块。

6.根据权利要求1所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，步骤S2中，训练结合Transformer与CNN双编码器的红外与可见光图像融合模型包括以下子步骤：

S201、从TNO数据集中选定m对图像作为数据集，将图像灰度值转为[-1,1]，利用h×w的窗口裁剪图像，步长设置为s，最终获得n对图像块作为训练集，其中，h表示图像的高，w表示图像的宽；

L_total＝λ₁L_SSIM+λ₂L_patchNCE

其中，L_total表示损失函数，λ₁、λ₂表示超参数，L_SSIM表示结构相似性损失，L_patchNCE表示对比损失；

7.根据权利要求6所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，步骤S3中，利用双编码器提取特征包括以下子步骤：

S301、如步骤S201的操作内容对输入图像进行处理；

S304、将步骤S303得到的信息增强特征输入到可逆神经网络中，将该特征在通道维度上被均分成/>和/>两部分，特征/>经过第一个可逆残差模块得到的特征/>与特征/>逐元素相加得到特征/>特征/>经过第二个可逆残差模块与特征/>逐元素相乘得到特征特征/>经过第三个可逆残差模块得到特征并与特征/>逐元素相加得到特征/>将特征/>和特征/>在通道维度上拼接得到输出特征/>具体公式为：

其中，C表示完整通道数，c表示完整通道数的一半，[1:c]表示当前特征通道数为1至c，[c+1:C]表示当前特征通道数为c+1至C，S表示CNN特征提取编码器，I表示任意映射符，k表示第k个可逆网络层数，R_n(n＝1,2,3)表示可逆残差模块，exp表示指数e；

最终输出红外局部细节特征和可见光局部细节特征；

S305、在第一Transformer Layer中，红外图像和可见光图像的特征分别经过补丁嵌入操作后，通过层归一化操作对该特征进行标准化，再将其中输入到W-MSA模块，按照设定的窗口大小对图像进行分块，得到自注意力图，再经过局部-非局部注意力信息增强模块，得到局部-非局部注意力信息增强特征，将该增强特征逐元素相加经得到注意力特征F^l，经过层归一化操作操作后再经过FFN模块得到特征，将该特征与注意力特征相加得到第一层HAT结构的输出特征F^l+1；

将输出特征F^l+1输入第二层HAT结构，经过补丁嵌入操作后，通过层归一化操作对特征进行标准化，经过标准化的特征输入到SW-MSA模块，SW-MSA模块按照设定的窗口大小对图像进行分块，得到自注意力图，自注意力图再经过局部-非局部注意力信息增强模块，得到局部-非局部注意力信息增强特征，将局部-非局部注意力信息增强特征逐元素相加经得到注意力特征F^l+1，注意力特征经过层归一化操作后经过FFN模块得到的特征与注意力特征相加得到第一Transformer Layer的红外全局信息特征和可见光全局信息特征，具体公式为：

F^l＝LG(W-MSA(LN(F^l-1)))+F^l-1；

F₁ ^l＝FFN(LN(F^l))+F^l；

F^l+1＝LG(SW-MSA(LN(F₁ ^l)))+F₁ ^l；

F₁ ^l+1＝FFN(LN(F^l+1))+F^l+1；

其中，F^l-1表示红外图像和可见光图像的特征，F^l表示第一层HAT输出的特征，F^l+1表示红外全局信息特征和可见光全局信息特征，LG()表示局部-非局部信息增强操作，LN()表示层归一化操作，W-MSA()表示窗口的多头自注意力模块，SW-MSA()表示移位窗口的多头自注意力模块操作；

S306、第二、三、四Transformer Layer重复步骤S305的内容，其中，第三TransformerLayer需重复三次后再输入第四Transformer Layer后输出红外与可见光的全局信息特征；

8.根据权利要求7所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，步骤S305中，局部-非局部注意力信息增强模块提取特征的具体内容为：

输入特征分别经过全局平均池化、深度可分离卷积、Sigmoid操作得到局部信息增强图，再与原输入特征经过逐元素相乘操作得到局部信息增强特征；输入特征经过层归一化操作、位置注意力模块得到非局部信息增强特征，再与局部信息增强特征逐元素相加得到局部-非局部注意力信息增强特征。

9.根据权利要求1所述的结合Transformer与CNN双编码器的红外与可见光图像融合方法，其特征在于，步骤S4中，利用解码器得到融合图像包括以下子步骤：

S401、将第四组预融合的红外特征和可见光特征拼接后，经过上采样操作后与第三组预融合的红外特征和可见光特征在通道维度上拼接得到第三组重建特征，将第三组重建特征经过上采样操作后与第二组预融合的红外特征和可见光特征在通道维度上拼接得到第二组重建特征，将第二组重建特征经过上采样操作后与第三组预融合的红外特征和可见光特征在通道维度上拼接得到重建特征；