CN114693577A

CN114693577A - 一种基于Transformer的红外偏振图像融合方法

Info

Publication number: CN114693577A
Application number: CN202210417736.3A
Authority: CN
Inventors: 齐美彬; 李坤袁; 蒋建国; 杨艳芳; 李小红; 庄硕; 项厚宏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-01
Anticipated expiration: 2042-04-20
Also published as: CN114693577B

Abstract

本发明公开了一种基于Transformer的红外偏振图像融合方法，其步骤包括：1、对红外偏振图像进行预处理，降低偏振度图像中的噪声干扰；2、构建基于Transformer红外偏振图像融合网络；3、建立红外偏振图像与融合图像之间的损失函数；4、用红外强度与偏振度图像对融合网络进行训练，并用训练后的模型对待处理的红外偏振图像进行融合。本发明通过Transformer自注意力机制对偏振度图像的全局显著性特征进行提取，并能利用偏振度图像总变分约束损失，进一步提升网络性能，从而能有效提高红外偏振图像的融合效果。

Description

一种基于Transformer的红外偏振图像融合方法

技术领域

本发明属于计算机视觉、图像预处理和分析领域，具体的说是一种基于Transformer的红外偏振图像融合方法。

背景技术

红外成像技术依靠目标的温度差和热辐射率成像，成像结果会有明显的边缘、轮廓模糊，目标与背景的对比度偏低，视觉效果一般。而偏振图像由于其只保留某些特定方向入射光的特殊成像机制，从而可以获取目标与背景粗糙度、物质理化以及纹理特征等多维信息，目标的边缘轮廓特征更为显著，但由于偏振成像只保留了部分方向的光线，这导致偏振图像整体亮度偏低，原有红外图像背景细节信息丢失。这两种图像呈现出较强的信息互补性，因此可以采取有效的融合算法对红外强度与偏振度图像进行融合，融合后图像的信息量将会得到显著提升，从而增强红外成像系统的探测与识别能力。

当前红外偏振图像融合方法通常是利用现有的可见光与红外图像融合算法对红外强度与偏振度图像进行处理。传统的红外图像的融合算法主要可分为基于多尺度变换的方法和基于表示学习的方法。基于多尺度变换的图像融合算法主要是将源图像在空间域或频域上分解成不同尺度的子图像，然后选择恰当的融合规则在分解得到的相应尺度的子图像进行融合。而基于稀疏表示融合算法则先是通过一个过完备字典对输入数据进行稀疏编码来获得稀疏系数，利用过完备字典重构融合稀疏系数，得到融合后的图像。

深度学习是目前研究的热点内容，也逐渐应用到图像融合领域。当前基于深度学习的红外图像融合网络通常是利用现有的预训练网络模型进行特征提取，之后针对不同数据源特征设计不同的融合规则，再通过编解码网络恢复出融合后的图像。相比传统方法，基于深度学习的融合网络通过样本数据自身学习构建融合图像，使得网络中的参数与融合任务高度相关，模型具有更强的自适应性。此外，端到端的网络模型也使得融合效率进一步提高。

虽然在计算机视觉领域中，已经出现了一些性能出色的红外图像融合方法，但这些方法依然存在着不足之处：

1、传统基于多尺度变换的方法关键在于选取合适的变换域算法及融合规则，主要缺点在计算复杂度高，融合结果高度依赖于选取的多尺度变换方法。

2、基于稀疏表示的融合算法主要不足在于需要通过大量高质量的图像构建过完备字典，并且在数据量较多和源图像较复杂的情况下，该类算法融合效率较低。

3、基于深度学习的融合网络是以大量数据样本为基础的，有关红外图像和偏振图像融合任务的数据集难以被直接利用。偏振图像虽然包含目标场景的显著性信息，但亮度偏低，细节信息较少，当前现有的偏振图像融合网络缺少自注意力机制引导，不能有效地提取全局目标的显著性特征，导致红外偏振图像融合效果较差。同时，为了提高训练效率，现有的融合网络通常直接加载非偏数据集下的预训练权重，从而导致网络不能适应红外偏振图像的结构特性，无法提取有效的偏振信息。此外，基于深度学习的融合方法在对网络进行训练时，对输入图像施加相同的损失约束，这使得偏振图像中显著性信息缺失，网络的融合性能降低。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于Transformer的红外偏振图像融合方法，以期能通过Transformer的全局自注意力机制对偏振度图像全局目标的显著性特征进行处理，并能通过偏振度总变分约束提升网络性能，从而能有效提高红外偏振图像融合效果。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于Transformer的红外偏振图像融合方法的特点是按如下步骤进行：

步骤1、对红外偏振图像进行预处理；

步骤1.1、分别获取N组0°，60°，120°方向的红外偏振图像，并计算对应的N组偏振Stokes矢量{{I₁,Q₁,U₁}...,{I_n,Q_n,U_n},...,{I_N,Q_N,U_N}}，从而得到红外强度图像集合{I₁,...,I_n,...,I_N}和偏振度图像集合{P₁,...,P_n,...,P_N}，其中，I_n表示第n张红外强度图像也即第n组偏振Stokes矢量的第一分量，Q_n,U_n分别表示第n组偏振Stokes矢量的第二和第三分量，P_n表示第n张偏振度图像，且

步骤1.2、将第n张红外强度图像I_n作为引导图，并对第n张偏振度图像P_n进行导向滤波，从而得到第n张引导滤波后的图像G_n，进而得到引导滤波后的图像集合{G₁,...,G_n,...,G_N}；

步骤1.3、对偏振度图像集合{P₁,...,P_n,...,P_N}进行超像素分割，提取显著性目标区域：

利用k-means聚类方法对第n张偏振度图像P_n进行聚类，得到分割后的每个像素区域；

对任意一个像素区域的聚类中心与其相邻的像素区域进行距离度量，并将像素区域距离度量值作为相应相邻的像素区域的灰度值，从而获得第n张超像素分割后的图像Sg_n；

通过式(1)计算第n张超像素分割后的图像Sg_n中第j个像素点Sg_n(j)所对应的显著性像素值Sa_n(j)并归一化处理后，得到第j个像素点的灰度值Sa′_n(j)，从而得到归一化后的显著性图像Sa′_n：

式(1)中，θ表示常量系数，Sg_n(t)表示图像Sg_n中第t个像素点的灰度值，x_j,y_j、x_t,y_t分别表示第j个像素点、第t个像素点对应的像素坐标，j,t∈[1,T]，T为像素点总数；

步骤1.4、令显著性阈值δ＝|max(Sa′_n)-min(Sa′_n)|/τ，则第j个像素点的显著性目标权重

其中，max(Sa′_n)与min(Sa′_n)分别表示显著性图像Sa′_n中最大与最小灰度值，τ为常数；

通过式(2)对第n张引导滤波后的图像G_n的第j个像素点G_n(j)与第n张偏振度图像P_n的第j个像素点P_n(j)进行加权求和，从而获得第n张增强后的偏振度图像R_n的第j个像素点R_n(j)，进而得到增强后的偏振度图像集合{R₁,...,R_n,...,R_N}：

步骤2、构建红外偏振图像融合网络，包括：基于Transformer的Encoder编码模块、残差融合模块RFB、Decoder解码模块、输出模块；并将红外强度图像集合{I₁,...,I_n,...,I_N}与增强后的偏振度图像集合{R₁,...,R_n,...,R_N}一起输入融合网络中；

步骤2.1、基于Transformer的Encoder编码模块由M个多头自注意力块组成，并分别为SwinTB₁,...,SwinTB_m,...,SwinTB_M；其中，SwinTB_m表示第m级多头自注意力块，m＝1,2,...,M；所述第m级多头自注意力块依次由第m级合并采样层PatchMerge_m、第m级窗口多头自注意力层WMSL_m和第m级移位窗口多头自注意力层SWMSL_m构成；

所述第m级合并采样层PatchMerge_m由第m级滑窗层Unfold_m和第m级全连接层MLP_m组成；

所述第m级窗口多头自注意力层WMSL_m由第m级前归一化层LayerNorm1_m、第m级窗口多头计算单元WMSA_m、第m级后归一化层LayerNorm2_m和第m级窗口全连接层WMLP_m组成；

所述第m级移位窗口多头自注意力层SWMSL_m由第m级前归一化层LayerNorm3_m、第m级移位窗口多头计算单元SWMSA_m、第m级后归一化层LayerNorm4_m和第m级移位窗口全连接层SMLP_m组成；

当m＝1时，所述第n张红外强度图像I_n和增强后的偏振度图像R_n分别输入第m个多头自注意力块中；经过第m级自注意力块SwinTB_m的第m级合并采样层PatchMerge_m的第m级滑窗层Unfold_m的处理后相应输出尺寸为

的特征张量UfresultI_m与UfresultR_m，在分别经过第m级全连接层MLP_m的处理后相应输出尺寸为

的特征张量MlpresultI_m与MlpresultR_m；

所述特征张量MlpresultI_m与MlpresultR_m分别依次经过第m级窗口多头自注意力层WMSL_m的第m级前归一化层LayerNorm1_m和第m级窗口多头计算单元WMSA_m；由第m级窗口多头计算单元WMSA_m对归一化后的特征张量进行线性变换以及维度转置，得到特征维度为

的两个特征张量，再分别计算两个特征张量全局自注意力特征，相应得到维度为

的特征张量WSAresultI_m与WSAresultR_m，并对特征张量WSAresultI_m与WSAresultR_m分别进行线性变换调整通道数，输出维度为

的两个特征张量，再与第m级合并采样层PatchMerge_m的第m级全连接层MLP_m的输出进行残差连接，从而分别输出特征张量WSSresultI_m与WSSresultR_m；

所述特征张量WSSresultI_m与WSSresultR_m分别依次输入第m级后归一化层LayerNorm2_m和第m级窗口全连接层WMLP_m中进行处理后，分别输出特征张量WMLresultI_m与WMLresultR_m；

特征张量WMLresultI_m与第m级后归一化层LayerNorm2_m输入的特征张量WSSresultI_m进行残差连接，并输出尺寸为

的特征张量WMSLresultI_m；

特征张量WMLresultR_m与第m级后归一化层LayerNorm2_m输入的特征张量WSSresultR_m进行残差，并输出尺寸为

的特征张量WMSLresultR_m；其中，W,H为第m张红外强度图像I_m和增强后的偏振度图像R_m的宽和高，D_m为第m级多头自注意力块的输出通道数，S_m为第m级滑窗层Unfold_m的步长，h_m为第m级多头自注意力块中头的个数，d_m为第m级多头自注意力块隐藏层节点数，ω_m为第m级多头自注意力块中窗口的大小；

将第m级窗口多头自注意力层WMSL_m输出的特征张量WMSLresultI_m与WMSLresultR_m分别输入第m级移位窗口多头自注意力层SWMSL_m的第m级前归一化层LayerNorm3_m进行归一化处理后再分别经过第m级移位窗口多头计算单元SWMSA_m；

由第m级移位窗口多头计算单元SWMSA_m分别对输入的两个特征张量循环上移和左移

个像素点后再进行线性变换以及维度转置处理，得到的两个特征向量用于计算两个全局自注意力特征，相应得到两个特征张量并分别进行线性变换调整通道数，输出最终的两个特征张量；

第m级移位窗口多头计算单元SWMSA_m输出的最终两个特征张量分别与所述第m级窗口多头自注意力层WMSL_m的输出进行残差连接，输出特征张量SWSSresultI_m与SWSSresultR_m；再分别依次经过第m级后归一化层LayerNorm4_m与第m级移位窗口全连接层SMLP_m的处理后，得到输出特征张量SWMLresultI_m与SWMLresultR_m；

特征张量SWMLresultI_m与特征张量SWSSresultI_m进行残差连接，从而得到第m级多头自注意力块SwinTB_m输出的SwinTBresultI_m并作为所述基于Transformer的Encoder编码模块的一个输出；

特征张量SWMLresultR_m与特征张量SWSSresultR_m进行残差连接，从而得到第m级多头自注意力块SwinTB_m输出的特征张量SwinTBresultR_m并作为所述基于Transformer的Encoder编码模块的一个输出；

当m＝2,3,...,M时，将特征张量SwinTBresultI_m-1与SwinTBresultR_m-1作为第m级多头自注意力块SwinTB_m的输入，并得到相应输出的特征张量SwinTBresultI_m与SwinTBresultR_m；从而由第M级多头自注意力块SwinTB_M得到特征张量SwinTBresultI_M与SwinTBresultR_M；并与前M-1级多头自注意力块的输出共同作为所述基于Transformer的Encoder编码模块输出的两个特征张量集合，相应记为{SwinTBresultI₁,...,SwinTBresultI_m,...,SwinTBresultI_M}、{SwinTBresultR₁,...,SwinTBresultR_m,...,SwinTBresultR_M}；

步骤2.2、所述残差融合模块RFB由M个融合块组成，并分别为RFB₁,...,RFB_m,...,RFB_M；其中，RFB_m表示第m级融合块，m＝1,2,...,M；所述第m级融合块由第m级左支路特征层ConvL_m、第m级右支路特征层ConvR_m、第m级特征融合层ConvB_m和第m级残差特征层RESF_m构成；

所述第m级融合块RFB_m的第m级左支路特征层ConvL_m包括：L个二维卷积层Conv与L个ReLU激活函数层，其中，第l个二维卷积层的卷积核大小为k_l×k_l；l＝1,2,…,L；

所述第m级融合块RFB_m的第m级右支路特征层ConvR_m包括：L个二维卷积层Conv与L个ReLU激活函数层，其中，第l个二维卷积层的卷积核大小为k_l×k_l；l＝1,2,…,L；

所述第m级融合块RFB_m的第m级特征融合层ConvB_m包括：E个二维卷积层Conv与E个ReLU激活函数层，其中，第e个二维卷积层的卷积核大小为k_e×k_e；e＝1,2,…,E；

所述第m级融合块RFB_m的第m级残差特征层RESF_m包括：Z个二维卷积层Conv与Z个ReLU激活函数层，其中，第z个二维卷积层的卷积核大小为k_z×k_z；z＝1,2,…,Z；

将基于Transformer的Encoder编码模块的第m级多头自注意力块SwinTB_m输出的特征张量SwinTBresultI_m输入到所述第m级融合块RFB_m的第m级左支路特征层ConvL_m中进行处理，同时，第m级多头自注意力块SwinTB_m输出的特征张量SwinTBresultR_m输入到所述第m级融合块RFB_m的第m级右支路特征层ConvR_m中进行处理，并将输出的两个特征张量在通道维上进行串接后，送入第m级特征融合层ConvB_m中进行特征提取，输出特征张量BFresult_m；

将输入的特征张量SwinTBresultI_m与SwinTBresultR_m在通道维进行串接后，通过所述第m级融合块RFB_m的第m级残差特征层RESF_m进行特征提取，得到的结果再与所述特征张量BFresult_m进行残差连接后，获得所述第m级融合块RFB_m输出的特征张量RFBresult_m，从而由M个融合块RFB₁,...,RFB_m,...,RFB_M输出的特征张量集合{RFBresult₁,...,RFBresult_m,...,RFBresult_M}并作为残差融合模块RFB的输出；

步骤2.3、所述Decoder解码模块由多层二维卷积块{DB_m′,i|m′＝1,2,...,M-1；i＝1,2,...,M-m′}组成，其中，DB_m′,i表示第m′行第i列的多层二维卷积块，并包括：B个二维卷积层和B个ReLU激活函数层，其中，m′＝1,2,...,M-1，i＝1,2,...,M-m′，第b个二维卷积层的卷积核大小为k_b×k_b，b＝1,2,…,B；

当m′＝1,2,...,M-1，且i＝1时，所述残差融合模块RFB的第m′+1级融合块RFB_m′+1输出的特征张量RFBresult_m′+1经上采样操作，使得特征张量的尺寸变为输入的S_m′+1倍，并与第m′级融合块RFB_m′输出的特征张量RFBresult_m′进行串接后共同作为所述Decoder解码模块中第m′行第i列的多层二维卷积块DB_m′,i的输入，并由第m′行第i列的多层二维卷积块DB_m′,i输出特征张量DBresult_m′,i；

当m′＝1,2,...,M-2，且i＝2,...,M-m′时，所述Decoder解码模块中第m′+1行第i-1列的多层二维卷积块DB_m′+1,i-1输出的特征张量DBresult_m′+1,i-1经上采样操作，使得特征张量的尺寸变为输入的S_m′+1倍，从而得到特征张量DBupresult_m′+1,i-1；

之后将特征张量DBupresult_m′+1,i-1、所述残差融合模块RFB的第m′级融合块RFB_m′输出的特征张量RFBresult_m′以及所述Decoder解码模块的多层二维卷积块DB_m′,1,...,DB_m′,i-1输出的特征张量DBresult_m′,1,...,DBresult_m′,i-1进行串接，并共同作为所述Decoder解码模块的第m′行第i列的多层二维卷积块DB_m′,i的输入；从而由第m′行第i列的多层二维卷积块DB_m′,i输出DBresult_m′,i；从而由第1行第M-1列的多层二维卷积块DB_1,M-1输出特征张量DBresult_1,M-1并作为所述Decoder解码模块最终的输出；

步骤2.4：所述输出模块由单层卷积层组成，包括：一个卷积核大小为k_st×k_st的二维卷积和一个ReLU激活函数层；

所述特征张量DBresult_1,M-1经过所述输出模块的处理后输出第n张融合后的红外偏振图像F_n，从而得到融合后的红外偏振图像集合{F₁,...,F_n,...,F_N}；

步骤3、根据式(3)计算第n张红外强度图像I_n和增强后的偏振度图像R_n分别与融合后的红外偏振图像F_n之间的结构相似性损失

式(3)中，x_n表示第n张红外强度图像I_n或增强后的偏振度图像R_n；

表示滑窗尺寸为w时图像x_n中像素点的均值，

表示滑窗尺寸为w时图像F_n中像素点的均值，

表示滑窗尺寸为w时图像x_n中像素点的方差，

表示滑窗尺寸为w时图像F_n中像素点的方差，

表示滑窗尺寸为w时图像x_n和F_n中像素点的协方差，C₁,C₂均为常数；

利用式(4)构建第n张红外强度图像I_n、增强后的偏振度图像R_n与融合后的红外偏振图像F_n之间的多尺度结构相似性损失

式(4)中，

为红外强度图像I_n的权重系数，并由式(5)得到；|w|为多尺度窗口的个数；

式(5)中，g(x)＝max(x,η)表示方差阈值函数，g(x)中的x表示滑窗尺寸为w时图像I_n中像素点的方差

或图像R_n中像素点的方差

η为常数；

利用式(6)建立第n张增强后的偏振度图像R_n与融合后的红外偏振图像F_n之间的总变分损失

式(6)中，T_n(α_n,β_n)表示第n张增强后的偏振度图像R_n在坐标(α_n,β_n)处的像素点R_n(α_n,β_n)与融合后的红外偏振图像F_n在坐标(α_n,β_n)处的像素点F_n(α_n,β_n)的差值，并由式(7)得到；

T_n(α_n,β_n)＝R_n(α_n,β_n)-F_n(α_n,β_n) (7)

利用式(8)构建第n张红外强度图像I_n、增强后的偏振度图像R_n与融合后的红外偏振图像F_n之间的总损失函数Loss_n：

式(8)中，λ为加权系数；

步骤4、基于红外强度图像集合{I₁,...,I_n,...,I_N}与增强后的偏振度图像集合{R₁,...,R_n,...,R_N}，利用梯度下降算法对融合网络进行训练，并计算总损失函数Loss_n以更新网络参数，当训练迭代次数达到设定的次数时，停止训练，从而得到训练后的红外偏振图像融合模型，用于实现对红外强度与偏振度图像的融合。

与现有技术相比，本发明的有益效果在于：

1、本发明设计了一种基于Transformer的红外偏振图像融合网络，能有效提取偏振度图像的全局显著性特征，同时，利用偏振度图像的总变分去进一步约束损失函数，提升了网络的训练性能。因此，本发明比以往红外偏振图像融合方法的精度更高，是一种有效的偏振图像融合方法。

2、本发明针对红外偏振图像的结构特征，利用Transformer的全局自注意力机制，设计了一种图像编码模块，对偏振度图像的全局显著性特征进行提取，同时这种全局自注意力机制只在有限的窗口内进行计算，减轻了计算量，且特征张量的移位操作也使不同窗口之间可以进行信息交互，进一步提升了红外偏振图像的融合效果。

3、本发明在传统U-Net网络基础上，加入了多层二维卷积块改进图像解码模块，并在卷积块之间增加密集连接，深层结构可以向浅层结构传递监督信息。同时，本发明未使用预训练权重，而采用端到端训练，使得编解码网络更好地适应红外偏振图像特征。

3、为了使融合后的红外偏振图像保留原始偏振度图像边缘轮廓的梯度信息，本发明综合红外图像的多尺度结构相似性与偏振度图像的总变分约束作为损失函数训练网络，有效改善了网络性能，从而提高了图像融合效果。

附图说明

图1为本发明中红外偏振图像融合方法流程图；

图2为本发明中红外偏振图像预处理结果；

图3为本发明中红外偏振图像融合网络总结构图；

图4为本发明中基于Transformer的Encoder编码模块中多头自注意力块的结构图；

图5为本发明中残差融合模块RFB中融合块的结构图；

图6为本发明中Decoder解码模块的结构图；

图7为本发明方法消融实验对比结果图；

图8为本发明方法和其他图像融合方法的对比结果图。

具体实施方式

本实施例中，一种基于Transformer的红外偏振图像融合方法，如图1所示，是按如下步骤进行：

步骤1、对红外偏振图像进行预处理；

式(1)中，θ表示常量系数，Sg_n(t)表示图像Sg_n中第t个像素点的灰度值，x_j,y_j、x_t,y_t分别表示第j个像素点、第t个像素点对应的像素坐标，j,t∈[1,T]，T为像素点总数；本发明中红外强度与偏振度图像尺寸均为(448,448)，因此像素点总数T＝448×448,常量系数θ为0.001；

其中，max(Sa′_n)与min(Sa′_n)分别表示显著性图像Sa′_n中最大与最小灰度值，τ为常数；本发明中将τ设置为1.3对显著性图像进行阈值分割。

通过式(2)对第n张引导滤波后的图像G_n的第j个像素点G_n(j)与第n张偏振度图像P_n的第j个像素点P_n(j)进行加权求和，从而获得第n张增强后的偏振度图像R_n的第j个像素点R_n(j)，进而得到增强后的偏振度图像集合{R₁,...,R_n,...,R_N}：红外偏振图像预处理结果如图2所示，IR和DOLP分别为红外强度与偏振度图像，GF为以红外强度图像作为引导图，对偏振度图像进行引导滤波后的结果，由于受红外强度图像梯度的影响，引导滤波后偏振图像的显著性信息缺失。因此，通过对原始偏振度图像进行超像素分割，如图SP，并将超像素间的距离作为像素灰度值，阈值分割后获取显著性图SM，之后对显著性图像、原始偏振度图以及引导滤波后的偏振度图加权求和，从而得到增强后的偏振度图像。

步骤2、构建红外偏振图像融合网络，，网络结构如图3所示，包括：基于Transformer的Encoder编码模块、残差融合模块RFB、Decoder解码模块、输出模块；并将红外强度图像集合{I₁,...,I_n,...,I_N}与增强后的偏振度图像集合{R₁,...,R_n,...,R_N}一起输入融合网络中；

步骤2.1、基于Transformer的Encoder编码模块由M个多头自注意力块组成，并分别为SwinTB₁,...,SwinTB_m,...,SwinTB_M；其中，SwinTB_m表示第m级多头自注意力块，m＝1,2,...,M；第m级多头自注意力块依次由第m级合并采样层PatchMerge_m、第m级窗口多头自注意力层WMSL_m和第m级移位窗口多头自注意力层SWMSL_m构成，本实施例中，M＝4，第m级多头自注意力块SwinTB_m的结构如图4所示；

第m级合并采样层PatchMerge_m由第m级滑窗层Unfold_m和第m级全连接层MLP_m组成；

第m级窗口多头自注意力层WMSL_m由第m级前归一化层LayerNorm1_m、第m级窗口多头计算单元WMSA_m、第m级后归一化层LayerNorm2_m和第m级窗口全连接层WMLP_m组成；

第m级移位窗口多头自注意力层SWMSL_m由第m级前归一化层LayerNorm3_m、第m级移位窗口多头计算单元SWMSA_m、第m级后归一化层LayerNorm4_m和第m级移位窗口全连接层SMLP_m组成；

当m＝1时，第n张红外强度图像I_n和增强后的偏振度图像R_n分别输入第m个多头自注意力块中；经过第m级自注意力块SwinTB_m的第m级合并采样层PatchMerge_m的第m级滑窗层Unfold_m的处理后相应输出尺寸为

的特征张量MlpresultI_m与MlpresultR_m；

特征张量MlpresultI_m与MlpresultR_m分别依次经过第m级窗口多头自注意力层WMSL_m的第m级前归一化层LayerNorm1_m和第m级窗口多头计算单元WMSA_m；由第m级窗口多头计算单元WMSA_m对归一化后的特征张量进行线性变换以及维度转置，得到特征维度为

特征张量WSSresultI_m与WSSresultR_m分别依次输入第m级后归一化层LayerNorm2_m和第m级窗口全连接层WMLP_m中进行处理后，分别输出特征张量WMLresultI_m与WMLresultR_m；

的特征张量WMSLresultI_m；

的特征张量WMSLresultR_m；其中，W,H为第m张红外强度图像I_m和增强后的偏振度图像R_m的宽和高，D_m为第m级多头自注意力块的输出通道数，S_m为第m级滑窗层Unfold_m的步长，h_m为第m级多头自注意力块中头的个数，d_m为第m级多头自注意力块隐藏层节点数，ω_m为第m级多头自注意力块中窗口的大小；本实施例中，红外强度图像和增强后的偏振度图像的宽W＝448，高H＝448，第1级滑窗层Unfold_m的步长S₁＝1，第1级多头自注意力块的输出通道数D₁＝32，第1级多头自注意力块中头的个数h₁＝3，第1级多头自注意力块隐藏层节点数d₁＝32，第1级多头自注意力块中窗口的大小ω₁＝7；

第m级移位窗口多头计算单元SWMSA_m输出的最终两个特征张量分别与第m级窗口多头自注意力层WMSL_m的输出进行残差连接，输出特征张量SWSSresultI_m与SWSSresultR_m；再分别依次经过第m级后归一化层LayerNorm4_m与第m级移位窗口全连接层SMLP_m的处理后，得到输出特征张量SWMLresultI_m与SWMLresultR_m；

特征张量SWMLresultI_m与特征张量SWSSresultI_m进行残差连接，从而得到第m级多头自注意力块SwinTB_m输出的SwinTBresultI_m并作为基于Transformer的Encoder编码模块的一个输出；

特征张量SWMLresultR_m与特征张量SWSSresultR_m进行残差连接，从而得到第m级多头自注意力块SwinTB_m输出的特征张量SwinTBresultR_m并作为基于Transformer的Encoder编码模块的一个输出；

当m＝2,3,...,M时，将特征张量SwinTBresultI_m-1与SwinTBresultR_m-1作为第m级多头自注意力块SwinTB_m的输入，并得到相应输出的特征张量SwinTBresultI_m与SwinTBresultR_m；从而由第M级多头自注意力块SwinTB_M得到特征张量SwinTBresultI_M与SwinTBresultR_M；并与前M-1级多头自注意力块的输出共同作为基于Transformer的Encoder编码模块输出的两个特征张量集合，相应记为{SwinTBresultI₁,...,SwinTBresultI_m,...,SwinTBresultI_M}、{SwinTBresultR₁,...,SwinTBresultR_m,...,SwinTBresultR_M}；本实施例中，每级多头自注意力块中头的个数h_m均为3，每级多头自注意力块隐藏层节点数d_m均为32，每级多头自注意力块中窗口的大小ω_m均为7，每级滑窗层Unfold_m的步长S_m均为2，第2级多头自注意力块的输出通道数D₂为64，第3级多头自注意力块的输出通道数D₃为128，第4级多头自注意力块的输出通道数D₄为128；

步骤2.2、残差融合模块RFB由M个融合块组成，并分别为RFB₁,...,RFB_m,...,RFB_M；其中，RFB_m表示第m级融合块，m＝1,2,...,M；如图5所示，第m级融合块由第m级左支路特征层ConvL_m、第m级右支路特征层ConvR_m、第m级特征融合层ConvB_m和第m级残差特征层RESF_m构成；

第m级融合块RFB_m的第m级左支路特征层ConvL_m包括：L个二维卷积层Conv与L个ReLU激活函数层，其中，第l个二维卷积层的卷积核大小为k_l×k_l；l＝1,2,…,L；

第m级融合块RFB_m的第m级右支路特征层ConvR_m包括：L个二维卷积层Conv与L个ReLU激活函数层，其中，第l个二维卷积层的卷积核大小为k_l×k_l；l＝1,2,…,L；本实施例中，L＝1，k_l＝3，步长和填充均为1；

第m级融合块RFB_m的第m级特征融合层ConvB_m包括：E个二维卷积层Conv与E个ReLU激活函数层，其中，第e个二维卷积层的卷积核大小为k_e×k_e；e＝1,2,…,E；本实施例中，E＝3，当e＝1时，第1个二维卷积层的卷积核大小为1×1，步长为1，填充为0；当e＝2,3时，k_e＝3，步长和填充均为1；

第m级融合块RFB_m的第m级残差特征层RESF_m包括：Z个二维卷积层Conv与Z个ReLU激活函数层，其中，第z个二维卷积层的卷积核大小为k_z×k_z；z＝1,2,…,Z；本实施例中，Z＝1，二维卷积层的卷积核大小为k_z＝3，步长和填充均为1；

将基于Transformer的Encoder编码模块的第m级多头自注意力块SwinTB_m输出的特征张量SwinTBresultI_m输入到第m级融合块RFB_m的第m级左支路特征层ConvL_m中进行处理，同时，第m级多头自注意力块SwinTB_m输出的特征张量SwinTBresultR_m输入到第m级融合块RFB_m的第m级右支路特征层ConvR_m中进行处理，并将输出的两个特征张量在通道维上进行串接后，送入第m级特征融合层ConvB_m中进行特征提取，输出特征张量BFresult_m；

将输入的特征张量SwinTBresultI_m与SwinTBresultR_m在通道维进行串接后，通过第m级融合块RFB_m的第m级残差特征层RESF_m进行特征提取，得到的结果再与特征张量BFresult_m进行残差连接后，获得第m级融合块RFB_m输出的特征张量RFBresult_m，从而由M个融合块RFB₁,...,RFB_m,...,RFB_M输出的特征张量集合{RFBresult₁,...,RFBresult_m,...,RFBresult_M}并作为残差融合模块RFB的输出；

步骤2.3、Decoder解码模块由多层二维卷积块{DB_m′,i|m′＝1,2,...,M-1；i＝1,2,...,M-m′}组成，其中，DB_m′,i表示第m′行第i列的多层二维卷积块，并包括：B个二维卷积层和B个ReLU激活函数层，其中，m′＝1,2,...,M-1，i＝1,2,...,M-m′，第b个二维卷积层的卷积核大小为k_b×k_b，b＝1,2,…,B；本实施例中，Decoder解码模块结构如图6所示，B＝2，第1个二维卷积层的卷积核大小1×1，步长为1，填充为0；第2个二维卷积层的卷积核大小3×3，步长和填充均为1；

当m′＝1,2,...,M-1，且i＝1时，残差融合模块RFB的第m′+1级融合块RFB_m′+1输出的特征张量RFBresult_m′+1经上采样操作，使得特征张量的尺寸变为输入的S_m′+1倍，并与第m′级融合块RFB_m′输出的特征张量RFBresult_m′进行串接后共同作为Decoder解码模块中第m′行第i列的多层二维卷积块DB_m′,i的输入，并由第m′行第i列的多层二维卷积块DB_m′,i输出特征张量DBresult_m′,i；

当m′＝1,2,...,M-2，且i＝2,...,M-m′时，Decoder解码模块中第m′+1行第i-1列的多层二维卷积块DB_m′+1,i-1输出的特征张量DBresult_m′+1,i-1经上采样操作，使得特征张量的尺寸变为输入的S_m′+1倍，从而得到特征张量DBupresult_m′+1,i-1；

之后将特征张量DBupresult_m′+1,i-1、残差融合模块RFB的第m′级融合块RFB_m′输出的特征张量RFBresult_m′以及Decoder解码模块的多层二维卷积块DB_m′,1,...,DB_m′,i-1输出的特征张量DBresult_m′,1,...,DBresult_m′,i-1进行串接，并共同作为Decoder解码模块的第m′行第i列的多层二维卷积块DB_m′,i的输入；从而由第m′行第i列的多层二维卷积块DB_m′,i输出DBresult_m′,i；从而由第1行第M-1列的多层二维卷积块DB_1,M-1输出特征张量DBresult_1,M-1并作为Decoder解码模块最终的输出；

步骤2.4：输出模块由单层卷积层组成，包括：一个卷积核大小为k_st×k_st的二维卷积和一个ReLU激活函数层；本实施例中，k_st＝1，步长为1，填充为0；

特征张量DBresult_1,M-1经过输出模块的处理后输出第n张融合后的红外偏振图像F_n，从而得到融合后的红外偏振图像集合{F₁,...,F_n,...,F_N}；

表示滑窗尺寸为w时图像x_n中像素点的均值，

表示滑窗尺寸为w时图像F_n中像素点的均值，

表示滑窗尺寸为w时图像x_n中像素点的方差，

表示滑窗尺寸为w时图像F_n中像素点的方差，

式(4)中，

式(5)中，g(x)＝max(x,η)表示方差阈值函数，g(x)中x表示滑窗尺寸为w时图像I_n中像素点的方差

或图像R_n中像素点的方差

η为常数；

T_n(α_n,β_n)＝R_n(α_n,β_n)-F_n(α_n,β_n) (7)

式(8)中，λ为加权系数；在本实施例中，多尺度窗口的尺寸w∈{3,5,7,9,11}，C₁,C₂分别为0.0001和0.0009，总变分加权系数λ为0.1，η为0.0001。

步骤4、基于红外强度图像集合{I₁,...,I_n,...,I_N}与增强后的偏振度图像集合{R₁,...,R_n,...,R_N}，利用梯度下降算法对融合网络进行训练，并计算总损失函数Loss_n，用于更新网络参数，当训练迭代次数达到设定的次数时，停止训练，从而得到训练后的红外偏振图像融合模型，用于实现对红外强度与偏振度图像的融合。本实施例中，采用RMSProp优化器，随机提取LDDRS红外偏振道路场景数据集中1690组数据用于训练，211组用于验证，212组用于测试，迭代200次后停止训练；

表1消融实验结果对比

Methods	Nabf	Qab/f	SF	SSIM	Peilla	Qy	FMI
								Dense-Encoder	0.17894	0.43101	4.7581	0.63196	0.68465	0.56042	0.93078
Swin-T	0.12864	0.45111	5.2802	0.68618	0.74249	0.57511	0.93979
								Swin-T+TVLoss	0.07775	0.50275	5.0287	0.73532	0.78719	0.59692	0.94435

表2不同融合方法实验结果对比

Methods	Nabf	Qab/f	SF	Qy	Peilla	FMI
							NSST	0.15678	0.35599	2.3777	0.55814	0.68874	0.92542
MDLatLRR	0.13508	0.39082	2.4294	0.54608	0.73893	0.92848
							DIDFusion	0.21415	0.38092	4.4826	0.53506	0.62018	0.91372
RFN-Nest	<u>0.1187</u>	0.38547	3.0409	0.49573	0.70271	0.93202
							PFNet	0.12686	0.47681	4.6451	<u>0.58003</u>	<u>0.75699</u>	0.93257
SeAFusion	0.28027	<u>0.48193</u>	6.2655	0.58286	0.73071	<u>0.9345</u>
							Ours	0.07775	0.50275	<u>5.0287</u>	0.59692	0.78719	0.94435

本发明中红外偏振图像融合网络结构如图3所示，该网络利用Transformer的自注意力机制对偏振度图像的全局显著性特征进行提取，同时这种窗口多头自注意力机制只在窗口内进行，减轻了计算量，并且不同窗口之间的信息也能进行交互，从而显著提升红外偏振图像的融合效果。表1为本发明中针对网络结构与损失函数的消融实验结果对比。该实验先以经典的Dense-Net作为编码网络，仅通过多尺度结构相似性作为损失训练网络，并将其作为基准模型与本文方法进行对比。其中，Swin-T表示采用本发明中基于transformer的Encoder编码模块的实验结果，Swin-T+TVLoss表示加入偏振度总变分损失后的实验结果，Nabf表示融合结果的噪声水平，Qab/f表示基于梯度的融合指标，SF表示空间频率，SSIM表示结构相似性，Peilla表示显著性特征信息指标，Qy是自适应结构相似性指标，FMI为像素级的特征互信息。上述指标中Nabf越小则表示融合结果噪声干扰越小，融合效果越好，其余指标与融合性能呈正相关。图7为消融实验定性融合结果对比。消融实验结果表明，本发明利用transformer的全局自注意力机制与偏振度总变分损失可以有效提升网络的融合性能。

表2与图8为本发明与当前其他图像融合方法的估计结果对比。其中，Ours表示本发明的基于Transformer的图像融合方法；NSST为基于非下采样剪切波变换的方法；MDLatLRR为自适应多尺度分解融合方法；DIDFusion为基于图像背景与细节特征分解的编解码网络；RFN-Nest为基于残差融合的编解码网络，且对编解码网络进行预训练；PFNet是基于偏振图像的密集连接融合网络；SeAFusion是图像融合与分割联动的网络结构，即利用高级视觉任务来驱动图像融合。表2与图8实验结果表明，本发明在当前指标下，整体性能优于上述图像融合方法。