CN117274760A

CN117274760A - 一种基于多尺度混合变换器的红外与可见光图像融合方法

Info

Publication number: CN117274760A
Application number: CN202311388503.6A
Authority: CN
Inventors: 陆成; 刘雪明; 房威志; 陆康
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2023-12-22

Abstract

本发明公开了一种基于多尺度混合变换器的红外与可见光图像融合方法，包括以下步骤：构建基于多尺度混合变换器的红外与可见光图像融合模型框架；模型框架包括辅助编码器、主编码器和解码器；辅助编码器提取红外与可见光的全局信息，主编码器提取红外与可见光的局部上下文信息，辅助编码器引导主编码器融合全局和局部信息，使得融合图像包含多尺度的源图像特征；将多尺度的源图像特征输入到解码器中，完成图像重建。本发明通过多尺度混合变换器引导卷积神经网络进行融合图像特征重建，有效地捕捉低级空间特征和高级语义上下文，从局部和全局进行建模，融合图像的热辐射信息和纹理细节表现能力更强。

Description

一种基于多尺度混合变换器的红外与可见光图像融合方法

技术领域

本发明涉及一种基于多尺度混合变换器的红外与可见光图像融合方法，属于图像处理技术领域。

背景技术

目前，将可见光图像与红外图像融合，可以呈现出具有丰富纹理细节和高亮热辐射目标的图像，进而解决单个种类图像无法满足工程需求，通过图像融合方法以获取高质量、信息量的图像。该方法已经在目标识别、军事应用、医疗诊断等领域有着广阔的应用前景。

现有的红外和可见光图像融合技术主要分为传统融合方法和深度学习融合方法。传统融合方法主要分为多尺度变换等其他方法。2020年CHEN等提出一种基于多尺度低秩分解的红外与可见光图像融合方法，该方法通过多尺度、多层次的融合有效补偿图像信息，通过设计特定融合规则，提升图像融合效果。(陈潮起,孟祥超,邵枫,符冉迪.一种基于多尺度低秩分解的红外与可见光图像融合方法[J].光学学报,2020,40(11).)但这些传统方法挖掘图像复杂特征的能力有限，计算效率低，融合图像视觉效果较差。

此外，基于深度学习的方法在图像融合领域取得很好的效果，其主要分为基于卷积神经网络和基于生成对抗网络等其他方法。2021年LI等人提出一种用于红外与可见光图像融合的端到端的残差融合网络，通过两阶段方法分别训练编码器和中间融合层，由于仅使用卷积提取特征，在捕捉全局上下文信息方面缺乏效率，对于图像细粒度信息提取能力有限。(An end-to-end residual fusion network for infrared and visible images[J].Information Fusion,2021,73:72-86.)为解决此类问题，现有部分图像融合方法仅使用基于自注意力的变换器(Transformer)来建模全局信息。但大部分方法在使用自注意力的同时会削弱变换器全局建模能力，同时单一的多层感知机结构提取、聚合信息能力有限，未针对潜在的图像信息中多尺度信息进行建模，在建模局部信息时缺乏空间归纳偏置。

发明内容

本发明所要解决的问题是为了克服现有技术的缺陷，提供一种基于多尺度混合变换器的红外与可见光图像融合方法。

为解决上述问题，本发明一种基于多尺度混合变换器的红外与可见光图像融合方法，包括：

构建端到端的图像融合网络模型，其中，端到端的图像融合网络模型包括主编码器、辅助编码器和解码器。

所述辅助编码器，通过Transformer对全局远程依赖特征建模，用于提取输入的红外与可见光图像的全局信息特征；

所述主编码器，通过卷积在特定的感受野内提取上下文特征，用与提取输入的红外与可见光图像的局部信息；

所述解码器，将学习到的融合特征映射到原始分辨率，通过从底层到顶层逐步融合图像特征，得到融合图像；

进一步的，所述的辅助编码器包括，红外路径和可见光路径；

所述红外路径和可见光路径均包括阶段1,、阶段2、阶段3和阶段4，并且每个阶段依次连接；

进一步的，每个阶段的输入通道数和输出通道数分别为16,32,64,128和32,64,128,256；

所述4个阶段均包含下采样操作(patch embedding)和多尺度混合注意力模块(Multi-scale Hybrid Attention Block，MSHA)，红外和可见光图像分别输入进辅助编码器，依次经过每个阶段，分别得到全局红外信息特征和全局可见光信息特征；

进一步的，所述阶段1、2、4堆叠两次下采样和多尺度混合注意力模块，阶段3堆叠四次下采样和多尺度混合注意力模块；

所述下采样操作将输入特征的通道数转变为原来的两倍，将输入特征的高和宽转变为原来的一半；

所述多尺度混合注意力模块包括窗口多头自注意力模块(W-MSA)、变换窗口多头自注意力模块(SW-MSA)、通道和高的空间维度交互注意力模块、通道和宽的空间维度交互注意力模块、多尺度前馈网络和层归一化操作(Layernorm)；

窗口多头自注意力模块(W-MSA)、通道和高的空间维度交互注意力模块和通道和宽的空间维度交互注意力模块并行连接。第一次堆叠输入特征F^l-1经过层归一化后得到标准化的特征，再经过三重注意力与输入特征相加得到混合注意力特征图F^l，混合注意力特征图再依次经过层归一化操作和多尺度前馈网络得到的特征再与混合注意力特征图相加得到多尺度混合注意力特征H^l，计算公式可表示：

F^l＝W-MSA(L(F^l-1))+scale×(CW(L(F^l-1))+CH(L(F^l-1)))+F^l-1，

H^l＝MSFFN(LN(F^l))+F_l ^l ₁，

第二次堆叠，输入特征F₁ ^l-1经过层归一化后得到标准化的特征，再经过三重注意力与输入特征相加得到混合注意力特征图F₁ ^l，混合注意力特征图再依次经过层归一化操作和多尺度前馈网络得到的特征再与混合注意力特征图相加得到多尺度混合注意力特征H₁ ^l，计算公式可表示：

F₁ ^l＝SW-MSA(L(F₁ ^l-1))+scale×(CW(L(F₁ ^l-1))+CH(L(F₁ ^l-1)))+F₁ ^l-1，

H₁ ^l＝MSFFN(LN(F₁ ^l))+F₁ ^l，

其中W-MSA为窗口多头自注意力，SW-MSA为变换窗口多头自注意力，旨在捕获长距离依赖关系，获取高级语义特征，L为LayerNorm操作，旨在改善梯度传播，提高泛化能力，CW为通道和宽的空间维度交互注意力，CH为通道和高的空间维度交互注意力，两者皆强调的多维交互而不降低维度的重要性，消除了通道和权重之间的间接对应，MSFFN为多尺度前馈网络，旨在获取图像不同尺度的特征，获取更丰富的图像信息，scale为超参数，这里的scale为0.5，其中阶段3为4次堆叠即重复上述操作两次；

进一步的，所述通道和高的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作，输入特征F₁经过Permute操作变换H×C×W维度特征，接着在H维度上进行Z-Pool，再经过7×7卷积和批量归一化后，继续经过Sigmoid激活函数得到注意力图，将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F₂，计算可表示为：

F₂＝P(P(F₁)·Sig(Conv(Z(P(F₁)))))，

其中P为Permute操作，Z为Z-Pool操作，Sig为Sigmoid激活函数操作，Conv为卷积操作，该模块通过捕获通道和空间维度H之间的跨通道交互，增强空间信息交换能力，同时编码更精确的空间信息；

所述通道和宽的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作，输入特征F₃经过Permute操作变换W×H×C维度特征，接着在W维度上进行Z-Pool，再经过7×7卷积和批量归一化后，继续经过Sigmoid激活函数得到注意力图，将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F₄，计算可表示为：

F₄＝P(P(F₃)·Sig(Conv(Z(P(F₃)))))，

其中P为Permute操作，Z为Z-Pool操作，Sig为Sigmoid激活函数操作，Conv为卷积操作，该模块通过捕获通道和空间维度W之间的跨通道交互，增强空间信息交换能力，同时编码更精确的空间信息；

进一步的，所述多尺度前馈网络包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、卷积核为5×5的深度可分离卷积、ReLU激活函数、拼接操作，输入特征分别经过两个并行的不同尺度的分支，其中一个分支，1×1的卷积、3×3的深度可分离卷积和ReLU依次连接，另一个分支，1×1的卷积、5×5的深度可分离卷积和ReLU依次连接，输入特征F首先经过1×1的卷积核、3×3的深度可分离卷积和ReLU激活函数得到特征M₁，输入特征经过1×1的卷积核、5×5的深度可分离卷积和ReLU激活函数得到特征S₁，然后将得到两个特征进行拼接操作后，再分别经过3×3的深度可分离卷积和ReLU激活函数以及5×5的深度可分离卷积和ReLU激活函数得到特征M₂和S₂，将特征M₂和S₂进行拼接法操作后经过1×1的卷积再与输入特征逐元素相加得到多尺度特征MS，计算可表示为：

M₁＝R(DW₃(Conv₁(F)))

S₁＝R(DW₅(Conv₁(F))),

其中R为ReLU激活函数，DW为深度可分离卷积(卷积核分别为3×3和5×5)，获取更宽广感受野并减少计算量，Conv为1×1的卷积，Concat为通道拼接操作，为逐元素相加操作；

所述的主编码器包括红外路径和可见光路径；

进一步的，红外路径和可见光路径均包括卷积核为1×1的卷积、下采样操作、4个共享的梯度残差可逆神经网络模块和4个通道空间融合模块，在红外路径中，1×1卷积、下采样、第一梯度残差可逆神经网络模块、第一通道空间融合模块依次连接、第二梯度残差可逆神经网络模块、第二通道空间融合模块依次连接、第三梯度残差可逆神经网络模块、第三通道空间融合模块依次连接、第四梯度残差可逆神经网络模块、第四通道空间融合模块依次连接，可见光路径也同样连接；

输入红外与可见光图片分别经过1×1卷积、下采样后，再依次经过第一梯度残差可逆神经网络模块、第一通道空间融合模块依次连接、第二梯度残差可逆神经网络模块、第二通道空间融合模块依次连接、第三梯度残差可逆神经网络模块、第三通道空间融合模块依次连接、第四梯度残差可逆神经网络模块、第四通道空间融合模块得到与辅助编码中全局信息特征融合后的红外图像特征和可见光图像特征；

进一步的，梯度残差可逆神经网络模块的输入输出的通道数为16，32,64,128和32,64,128,256，其中，第四梯度残差可逆神经网络模块堆叠两次，其余均堆叠一次；

所述梯度残差可逆神经网络模块包括细粒度信息提取路径和边缘信息提取路径，细粒度信息提取路径包括卷积核为1×1的卷积、BN、卷积核为4×4的卷积、LeakyReLU激活函数和可逆神经网络，边缘信息路径包括深度可分离卷积(DWConv)和Scharr梯度算子，输入的红外与可见光特征先经过1×1的卷积、BN、LeakyReLU后，再经过可逆神经网络得到细粒度特征，其次，输入特征再经过深度可分离卷积和Scharr梯度算子得到边缘信息特征，两个特征相加再经过4×4的卷积和LeakyReLU激活函数后，最终分别输出红外局部信息特征和可见光局部信息特征；

进一步的，所述的可逆神经网络包括三个可逆残差模块，可逆残差模块包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、激活函数(ReLU6)和逐元素相加操作，输入特征按通道维度被分为相等的两部分F₁和F₂，其中一个部分经过1×1的卷积、ReLU6操作、卷积核为3×3的深度可分离卷积、ReLU6操作、1×1的卷积和ReLU6操作后，最终与原输入特征F₁通过逐元素相加操作后得到输出特征Y₁，其次，第一部分输出特征Y₁经过第二个可逆残差块得到的特征指数与第二部分F₂相乘得到的特征Y₁₂再与第二部分经过第三个残差模块得到的特征相加得到输出特征Y₂，计算可表示为：

Y₁＝IR(F₁)，Y₂＝IR(F₂)+Y₁₂，

其中，IR为可逆残差模块，通过可逆残差网络提取细节信息，提升模型高频信息提取能力；

所述通道空间融合模块包括通道注意力路径、空间注意力路径和信息聚合路径，输入局部信息经过空间注意力得到增强的局部细节特征，输入全局信息经过通道注意力增强全局信息，局部信息和全局信息经过Hadamard得到交互信息，有效地捕获全局和局部上下文信息；

所述通道注意力包括卷积核为1×1的卷积、ReLU激活函数和Sigmoid激活函数，输入特征依次经过1×1的卷积、ReLU激活函数、1×1的卷积和Sigmoid激活函数得到通道注意力图，通道注意力图再与输入特征逐元素相乘得到全局特征；

所述的空间注意力包括卷积核为7×7的卷积、平均池化操作、最大池化操作、拼接操作和Sigmoid激活函数，输入特征分别经过平均池化和最大池化操作后，将两者按通道维度拼接，再经过7×7的卷积和Sigmoid激活函数得到空间注意力图，空间注意力图再与输入特征逐元素相乘得到局部细节特征；

将局部细节特征、全局特征和交互特征进行拼接操作后得到局部-全局特征，主编码器一共可提取4组红外与可见光的局部-全局特征，将每组的红外与可见光的局部-全局特征拼接后，最终得到4组预融合特征；

进一步的，所述的解码器包括4个阶段，其每个阶段操作完全相同，每个阶段之间依次连接，每个阶段包括拼接操作、卷积核为4×4，步长为2，填充为1的反卷积、BatchNorm操作、激活函数ReLU，每个阶段中，输入特征经过反卷积、BatchNorm和ReLU激活函数后得到上采样后的特征；

首先将第四组预融合特征输入到第一个阶段，与第三组融合特征在通道维度上拼接得到融合特征，依次将第三组、第二组、第一组预融合融合特征经过第二、三、四阶段后得到最终的融合图像，其中第四阶段中的ReLU激活函数替换为Tanh；

进一步的，所述一种基于多尺度混合变换器的红外与可见光图像融合方法：

从TNO数据集中选定32对图像作为数据集，将图像灰度值转为[-1,1]，用128×128的窗口裁剪图像，步长设置为32，最终获得6184对图像块作为训练集；

设置损失函数L_total，表示为：

L_total＝λ₁L_SSIM+λ₂L_patchNCE

其中，λ₁、λ₂和λ₃均为超参数，L_SSIM为结构相似性损失，L_patchNCE为对比损失；

根据训练集和损失函数L_total对初始的基于多尺度混合变换器的红外与可见光图像融合模型进行训练，训练过程使用的Adam优化器更新网络模型参数，直到完成训练，得到训练好的基于多尺度混合变换器的红外与可见光图像融合模型。

本发明所达到的有益效果：

1、本发明克服卷积神经网络模型缺乏对长距离远程依赖特征进行建模，本发明将Transformer作为辅助编码器，卷积神经网络作为主编码器，保持对局部上下文信息的敏感性的同时补充学习全局信息，引导主编码器学习更加丰富的特征，模型泛化能力更好；

2、本发明开发了多尺度混合注意力模块(MSHA)，构造全新的多尺度混合变换器框架(MHformer)，同时引入通道和宽的空间维度交互注意力模块以及通道和高的空间维度交互注意力模块，捕获通道维度和空间维度之间的跨通道交互，以此消除自注意力带来边界模糊的影响，增强信息交换，编码更精确的空间信息；

3、本发明开发了多尺度前馈网络替代传统的多层感知机结构，依据图像多尺度信息聚合融合图像更丰富的特征，提升模型抗干扰能力，克服了一般Transformer对于多尺度信息提取不足的问题；

4、本发明开发了梯度残差可逆神经网络模块，通过可逆神经网络逐步提取图像的局部上下文信息和细粒度特征，通过梯度算子补充学习梯度幅度信息，以残差连接的方式整合两特征，提升边缘轮廓和细节表征能力；

5、本发明引入了通道空间融合模块，特征提取过程中，通过同时利用卷积神经网络和变换器的不同特性，使得融合能力表现更好更紧凑；

附图说明

图1为本发明所述方法的总体融合网络示意图；

图2为多尺度混合变换器结构示意图；

图3为通道和高的空间交互注意力模块结构示意图；

图4为通道和宽的空间交互注意力模块结构示意图；

图5为通道空间融合模块结构示意图；

图6为梯度残差可逆神经网络结构示意图；

图7为多尺度前馈网络结构示意图；

图8为第一组融合图像与源图像(2_men_in_front_of_house)的对比示意图；

图9为第二组融合图像与源图像(soldier_in_trench_1)的对比示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

一种基于多尺度混合变换器的红外与可见光图像融合方法，包括以下阶段：

S1，如图1所示，构建基于多尺度混合变换器的红外与可见光图像融合模型框架；模型框架主要由主编码器、辅助编码器和解码器组成；主编码器、辅助编码器均包含红外路径和可见光路径，通过主编码器提取红外与可见光的局部上下文信息，辅助编码器提取红外与可见光的全局信息，辅助编码器引导主编码器有效地融合全局和局部信息，使得融合图像包含更加丰富的源图像特征。

S11，如图1所示，构造辅助编码器。所述的辅助编码器包括，红外路径和可见光路径；

S12，如图2所示，构建多尺度混合变换器。所述多尺度混合注意力模块包括窗口多头自注意力模块(W-MSA)、变换窗口多头自注意力模块(SW-MSA)、通道和高的空间维度交互注意力模块、通道和宽的空间维度交互注意力模块、多尺度前馈网络和层归一化操作(Layernorm)；

F^l＝W-MSA(L(F^l-1))+scale×(CW(L(F^l-1))+CH(L(F^l-1)))+F^l-1，H^l＝MSFFN(LN(F^l))+F^l，

F₁ ^l＝SW-MSA(L(F₁ ^l-1))+scale×(CW(L(F₁ ^l-1))+CH(L(F₁ ^l-1)))+F₁ ^l-1，H₁ ^l＝MSFFN(LN(F₁ ^l))+F₁ ^l，

S13，如图3所示，构建通道和高的空间维度交互注意力模块。所述通道和高的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作，输入特征F₁经过Permute操作变换H×C×W维度特征，接着在H维度上进行Z-Pool，再经过7×7卷积和批量归一化后，继续经过Sigmoid激活函数得到注意力图，将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F₂，计算可表示为：

F₂＝P(P(F₁)·Sig(Conv(Z(P(F₁)))))，

S14，如图4所示，构建通道和宽的空间维度交互注意力模块。所述通道和宽的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化(Batch norm)和激活函数(Sigmoid)操作，输入特征F₃经过Permute操作变换W×H×C维度特征，接着在W维度上进行Z-Pool，再经过7×7卷积和批量归一化后，继续经过Sigmoid激活函数得到注意力图，将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F₄，计算可表示为：

F₄＝P(P(F₃)·Sig(Conv(Z(P(F₃)))))，

S15，如图7所示，构建多尺度前馈网络。所述多尺度前馈网络包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、卷积核为5×5的深度可分离卷积、ReLU激活函数、拼接操作，输入特征分别经过两个并行的不同尺度的分支，其中一个分支，1×1的卷积、3×3的深度可分离卷积和ReLU依次连接，另一个分支，1×1的卷积、5×5的深度可分离卷积和ReLU依次连接，输入特征F首先经过1×1的卷积核、3×3的深度可分离卷积和ReLU激活函数得到特征M₁，输入特征经过1×1的卷积核、5×5的深度可分离卷积和ReLU激活函数得到特征S₁，然后将得到两个特征进行拼接操作后，再分别经过3×3的深度可分离卷积和ReLU激活函数以及5×5的深度可分离卷积和ReLU激活函数得到特征M₂和S₂，将特征M₂和S₂进行拼接法操作后经过1×1的卷积再与输入特征逐元素相加得到多尺度特征MS，计算可表示为：

M₁＝R(DW₃(Conv₁(F)))

S₁＝R(DW₅(Conv₁(F))),

S2，如图1所示，构造主编码器，将S1中辅助编码器的全局信息引导进入主编码器进行有效融合。所述的主编码器包括红外路径和可见光路径；

S21，如图6所示，构造梯度残差可逆神经网络模块。所述梯度残差可逆神经网络模块包括细粒度信息提取路径和边缘信息提取路径，细粒度信息提取路径包括卷积核为1×1的卷积、BN、卷积核为4×4的卷积、LeakyReLU激活函数和可逆神经网络，边缘信息路径包括深度可分离卷积(DWConv)和Scharr梯度算子，输入的红外与可见光特征先经过1×1的卷积、BN、LeakyReLU后，再经过可逆神经网络得到细粒度特征，其次，输入特征再经过深度可分离卷积和Scharr梯度算子得到边缘信息特征，两个特征相加再经过4×4的卷积和LeakyReLU激活函数后，最终分别输出红外局部信息特征和可见光局部信息特征；

Y₁＝IR(F₁)，Y₂＝IR(F₂)+Y₁₂，

S22，如图5所示，构造通道空间融合模块。所述通道空间融合模块包括通道注意力路径、空间注意力路径和信息聚合路径，输入局部信息经过空间注意力得到增强的局部细节特征，输入全局信息经过通道注意力增强全局信息，局部信息和全局信息经过Hadamard得到交互信息，有效地捕获全局和局部上下文信息；

S3，如图1所示，构造解码器，将S2主编码器输出的结果输入到解码器中，完成图像重建。所述的解码器包括4个阶段，其每个阶段操作完全相同，每个阶段之间依次连接，每个阶段包括拼接操作、卷积核为4×4，步长为2，填充为1的反卷积、BatchNorm操作、激活函数ReLU，每个阶段中，输入特征经过反卷积、BatchNorm和ReLU激活函数后得到上采样后的特征；

首先将第四组预融合特征输入到第一个阶段，与第三组融合特征在通道维度上拼接得到融合特征，依次将第三组、第二组、第一组预融合融合特征经过第二、三、四阶段后得到最终的融合图像，其中第四阶段中的ReLU激活函数替换为Tanh双曲正切函数；

S4，网络模型训练。采用TNO图像作为训练数据集，对输入两种模态的源图像进行灰度化和数据增强的操作，采用结构相似度和对比损失对网络模型进行训练，得到网络模型的参数。

S41，数据集预处理。从TNO数据集中选定32对图像作为数据集，将图像灰度值转为[-1,1]，用128×128的窗口裁剪图像，步长设置为32，最终获得6184对图像块作为训练集。

S5，设置损失函数。损失函数公式可表示为

L_total＝λ₁L_SSIM+λ₂L_patchNCE，

其中，λ₁和λ₂均为超参数。

上述的结构相似性损失L_SSIM，结构相似度表示为

其中，μ表示像素均值，σ_xy表示协方差，σ表示方差。C₁、C₂是为了避免接近于零而设定的极小值，通常取0.01²、0.03²。L_SSIM表示为：

其中I_x、I_y和I_f分别表示可见光图像、红外图像和融合图像，W表示滑动窗口，步幅为1，P_i表示像素i的值，m、n表示滑动窗口大小，本发明将窗口设置为16×16。

上述的对比损失L_patchNCE表示为

其中k表示编码好的特征样本，k⁺表示与k相似的正样本，k^-表示与k不相似的负样本，τ表示温度系数，通常取τ＝0.07。S表示图像特征层中采样的位置数，其中s∈{1,2,...,S}，D^s表示通道空间上任一特征序列。通过计算空间上某一区域与正负样本的相似度，有效地保留融合图像和源图像最相似的部分。

其中，训练过程使用的Adam优化器更新网络模型参数，学习率设置为0.01，Epoch设置为30，Batchsize设置为22。

进一步地，为验证通过上述方法训练得到的基于多尺度混合变换器的红外与可见光图像的融合效果，本发明实施例还对训练好的基于多尺度混合变换器的红外与可见光图像融合模型从定量和定性两方面验证。

具体地，在测试阶段，从TNO中选取了除训练集外的20组图像进行测试验证，对比方法选择7种典型方法，包括DenseFuse、U2Fusion、RFN-Nest、SEDRFuse、IFCNN、GANMcC、CSF。此外，定量评价指标采用信息熵(EN)、平均梯度(AG)，空间频率(SF)、互信息(MI)、标准差(SD)、视觉保真度(VIF)等6个指标，验证结果包括定性评价和定量评价两个方面。

(1)定性评价。图8和图9给出了TNO的两组图片。通过对比，可以发现本发明有两个优势。本发明的融合图像能够更好地捕捉热辐射信息，人物的亮度对比红外图像很大程度地保留了，如图8和图9中人物目标。其次，本发明的融合图像能够较好地将可见光图像中的细节纹理和背景特征表现出来，例如图8中天空的亮度和灌丛纹理轮廓，例如图9中战壕顶端的颜色更接近可光，对红外信息的抗干扰能力更好，并且图像不存在伪影。最后，本发明的融合图像能够获取更丰富的源图像信息，有效地解决了单一传感器的局限性，融合图像更自然清晰。

(2)定量评价。表1给出了TNO数据集的20组图像的客观比较结果。最优平均值和次优平均值分别用加粗和下划线标注。可以看出，本发明取得了EN、MI、SD、AG、VIF、SF的最优平均值，最大值EN、MI表示本发明通道空间融合模块和多尺度前馈网络能够较好地融合能够从源图像中获取局部和全局信息，使得融合图像包含更丰富信息，最大值AG、SF、SD表明梯度残差可逆网络能够提取丰富的细节纹理信息，自注意力与两个空间交互模块能编码更精确的空间信息，最大值VIF表明本发明的融合图像有很好的视觉效果，图像更清晰、自然。本发明通过多尺度混合变换器引导卷积神经网络进行融合图像特征重建，有效地捕捉低级空间特征和高级语义上下文，从局部和全局进行建模，融合图像的热辐射信息和纹理细节表现能力更强。

表1TNO数据集的20组图像的定量比较结果

/>

Claims

1.一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，包括以下步骤：

构建基于多尺度混合变换器的红外与可见光图像融合模型框架；模型框架包括辅助编码器、主编码器和解码器；辅助编码器提取红外与可见光的全局信息，主编码器提取红外与可见光的局部上下文信息，辅助编码器引导主编码器融合全局和局部信息，使得融合图像包含多尺度的源图像特征；将多尺度的源图像特征输入到解码器中，完成图像重建。

2.根据权利要求1所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述辅助编码器包括四个阶段，四个阶段均包含下采样操作和多尺度混合注意力模块，红外和可见光图像分别输入进辅助编码器，依次经过四个阶段，分别得到全局红外信息特征和全局可见光信息特征；

阶段1、阶段2、阶段4堆叠两次下采样和多尺度混合注意力模块，阶段3堆叠四次下采样和多尺度混合注意力模块。

3.根据权利要求2所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述多尺度混合注意力模块包括窗口多头自注意力模块、变换窗口多头自注意力模块、通道和高的空间维度交互注意力模块、通道和宽的空间维度交互注意力模块、多尺度前馈网络和层归一化操作；窗口多头自注意力模块、通道和高的空间维度交互注意力模块和通道和宽的空间维度交互注意力模块并行连接；

所述阶段1、阶段2、阶段4堆叠两次包括：

第一次堆叠，输入特征F^l-1经过层归一化后得到标准化的特征，再经过三重注意力与输入特征相加得到混合注意力特征图F^l，混合注意力特征图F^l再依次经过层归一化操作和多尺度前馈网络，得到的特征再与混合注意力特征图F^l相加得到多尺度混合注意力特征H^l，公式表示为：

F^l＝W-MSA(L(F^l-1))+scale×(CW(L(F^l-1))+CH(L(F^l-1)))+F^l-1，

H^l＝MSFFN(LN(F^l))+F^l；

第二次堆叠，输入特征F₁ ^l-1经过层归一化后得到标准化的特征，再经过三重注意力与输入特征相加得到混合注意力特征图F₁ ^l，混合注意力特征图F₁ ^l再依次经过层归一化操作和多尺度前馈网络，得到的特征再与混合注意力特征图F₁ ^l相加得到多尺度混合注意力特征H₁ ^l，公式表示为：

H₁ ^l＝MSFFN(LN(F₁ ^l))+F₁ ^l；

其中W-MSA为窗口多头自注意力，SW-MSA为变换窗口多头自注意力，L为LayerNorm操作，CW为通道和宽的空间维度交互注意力，CH为通道和高的空间维度交互注意力，MSFFN为多尺度前馈网络，scale为超参数，所述阶段3为四次堆叠即重复上述操作两次。

4.根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述通道和高的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化和激活函数操作，输入特征F₁经过Permute操作变换H×C×W维度特征，接着在H维度上进行Z-Pool，再经过7×7卷积和批量归一化后，继续经过Sigmoid激活函数得到注意力图，将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F₂，公式表示为：

F₂＝P(P(F₁)·Sig(Conv(Z(P(F₁)))))，

其中P为Permute操作，Z为Z-Pool操作，Sig为Sigmoid激活函数操作，Conv为卷积操作。

5.根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述通道和宽的空间维度交互注意力模块包括Permute操作、Z-Pool操作、卷积核为7×7的卷积、批量归一化和激活函数操作，输入特征F₃经过Permute操作变换W×H×C维度特征，接着在W维度上进行Z-Pool，再经过7×7卷积和批量归一化后，继续经过Sigmoid激活函数得到注意力图，将注意力图与变换维度后的特征相乘在经过Permute操作转变维度得到C×H×W维度的空间交互注意力特征F₄，公式表示为：

F₄＝P(P(F₃)·Sig(Conv(Z(P(F₃)))))，

6.根据权利要求3所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述多尺度前馈网络包括卷积核为1×1的卷积、卷积核为3×3的深度可分离卷积、卷积核为5×5的深度可分离卷积、ReLU激活函数、拼接操作；输入特征分别经过两个并行的不同尺度的分支，其中一个分支，1×1的卷积、3×3的深度可分离卷积和ReLU依次连接，另一个分支，1×1的卷积、5×5的深度可分离卷积和ReLU依次连接，输入特征F首先经过1×1的卷积核、3×3的深度可分离卷积和ReLU激活函数得到特征M₁，输入特征经过1×1的卷积核、5×5的深度可分离卷积和ReLU激活函数得到特征S₁，然后将得到两个特征进行拼接操作后，再分别经过3×3的深度可分离卷积和ReLU激活函数以及5×5的深度可分离卷积和ReLU激活函数得到特征M₂和S₂，将特征M₂和S₂进行拼接法操作后经过1×1的卷积再与输入特征逐元素相加得到多尺度特征MS，公式表示为：

M₁＝R(DW₃(Conv₁(F)))

S₁＝R(DW₅(Conv₁(F)))

MS＝F⊕Conv₁(Concat(R(DW₃(Concat(M₁,S₁))),R(DW₅(Concat(M₁,S₁)))))，

其中R为ReLU激活函数，DW为深度可分离卷积，Conv为1×1的卷积，Concat为通道拼接操作，⊕为逐元素相加操作。

7.根据权利要求1所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述的主编码器包括红外路径和可见光路径；

红外路径和可见光路径均包括卷积核为1×1的卷积、下采样操作、四个共享的梯度残差可逆神经网络模块和四个通道空间融合模块；

输入红外与可见光图片分别经过1×1卷积、下采样后，再依次经过第一梯度残差可逆神经网络模块、第一通道空间融合模块、第二梯度残差可逆神经网络模块、第二通道空间融合模块、第三梯度残差可逆神经网络模块、第三通道空间融合模块、第四梯度残差可逆神经网络模块、第四通道空间融合模块得到与辅助编码器中全局信息特征融合后的红外图像特征和可见光图像特征。

8.根据权利要求7所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述梯度残差可逆神经网络模块包括细粒度信息提取路径和边缘信息提取路径，细粒度信息提取路径包括卷积核为1×1的卷积、BN、卷积核为4×4的卷积、LeakyReLU激活函数和可逆神经网络，边缘信息路径包括深度可分离卷积和Scharr梯度算子；输入的红外与可见光特征先经过1×1的卷积、BN、LeakyReLU后，再经过可逆神经网络得到细粒度特征，其次，输入特征再经过深度可分离卷积和Scharr梯度算子得到边缘信息特征，两个特征相加再经过4×4的卷积和LeakyReLU激活函数后，最终分别输出红外局部信息特征和可见光局部信息特征。

9.根据权利要求7所述的一种基于多尺度混合变换器的红外与可见光图像融合方法，其特征在于，所述通道空间融合模块包括通道注意力路径、空间注意力路径和信息聚合路径，输入局部信息经过空间注意力路径得到增强的局部细节特征，输入全局信息经过通道注意力路径得到增强的全局信息，局部信息和全局信息经过Hadamard得到交互特征，将局部细节特征、全局特征和交互特征进行拼接操作后得到局部-全局特征，主编码器提取红外与可见光的局部-全局特征，将每组的红外与可见光的局部-全局特征拼接后，得到预融合特征。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行权利要求1-9任一项所述的方法。