CN114862844A

CN114862844A - 一种基于特征融合的红外小目标检测方法

Info

Publication number: CN114862844A
Application number: CN202210661383.1A
Authority: CN
Inventors: 齐美彬; 刘柳; 庄硕; 刘一敏; 李坤袁
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-08-05
Anticipated expiration: 2042-06-13
Also published as: CN114862844B

Abstract

本发明公开了一种基于特征融合的红外小目标检测方法，其步骤包括：1、对红外图像进行预处理，避免在训练过程中过拟合；2、构建Transformer架构的神经网络分支提取图像特征；3、构建CNN架构的神经网络分支提取图像特征；4、构建特征融合模块将两个分支的特征进行融合；5、结合两种损失函数来优化模型。本发明利用Transformer分支、CNN分支和一个特征融合模块，可以学习与背景相对应的像素之间的长期依赖关系，融合局部细节特征和全局语义特征，从而实现更精确的目标检测，提升了网络的性能。

Description

一种基于特征融合的红外小目标检测方法

技术领域

本发明属于计算机视觉领域，具体地说是一种基于特征融合的红外小目标检测方法。

背景技术

在计算机视觉领域中，基于红外探测系统的红外弱小目标检测一直都是一个重要的课题和研究热点，具有较高的实际应用价值，可以广泛应用于海上监视、红外预警、红外制导、红外搜索、跟踪等实际场景中。然而，由于红外小目标缺乏如颜色和纹理这种易于区别的特征，且体积小，成像距离长，信噪比较低，在复杂多变的背景下很容易被噪声淹没，这使得它很难被发现。因此，高检测率、低虚警率的红外小目标检测算法仍然是实际应用的必然需求。

然而，在大多数实际应用的红外成像系统中，待检测目标与探测器之间的距离较远，使得红外目标占整幅红外图像的面积非常小，一般少于100个像素，加上背景复杂多变的特点，为检测带来困难。具体表现为以下几点：(1)目标可用特征少。由于目标尺寸小，总辐射能量小于背景的辐射能量，在图像中灰度分布多变，难以采用统一的数学模型进行描述；且不存在精细的纹理、形状等结构信息，使得传统可见光图像的目标检测方法无法直接用于红外弱小目标检测中。(2)图像的信噪比低。由于成像距离远，使得小目标与云层、海浪等的杂波和噪声有相似的特点，图像的信噪比低，目标信号几乎淹没在难以预测的背景中，更加难以检测。(3)成像环境复杂。在红外精确制导和预警方面，成像过程中往往伴随着烟雾和海波等，这对不同检测算法的鲁棒性提出了更高的要求。

为了解决上述问题，传统的基于单帧图像的红外小目标检测主要有基于滤波的方法、基于人类视觉系统(human visual system，HVS)的方法和基于低秩稀疏恢复的方法。基于滤波的检测方法是最早用于小目标检测的方法，该类算法主要利用设计的滤波器对红外图像背景进行估计，达到抑制背景的效果，或者利用目标、背景和杂波之间的频率差异，在频域内设计相应的滤波器将背景与杂波滤除；基于人类视觉系统的方法通过目标与背景的局部差异构建可以突出目标的显著图，进而实现对目标的检测；基于低秩稀疏恢复的方法利用频率特征差异实现目标检测，或者通过“滑窗”方式分块，分离出每个块的稀疏的目标特征，实现检测任务。但是这些传统方法只能在一定程度上起到抑制均匀背景的作用，不能解决复杂背景的问题，且检测率低，对于目标较暗且背景复杂的红外图像虚警率高，算法的鲁棒性较差。现有的基于CNN的方法通过改进卷积神经网络的特征提取框架来检测复杂背景下不同尺寸、低信噪比的小目标，相对传统算法来说鲁棒性更强，但是检测精度仍有提高空间。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于特征融合的红外小目标检测方法，从而能提升网络的检测性能以实现更精确的红外小目标检测。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于特征融合的红外小目标检测方法的特点是按如下步骤进行：

步骤1、对红外图像进行预处理；

步骤1.1、获取红外图像数据集并进行尺寸统一、裁剪、水平和垂直翻转的预处理后，得到处理后的红外图像数据集，记为{I_n|n＝1,2,…,N}；其中，I_n表示第n张红外图像；N表示红外图像数据集中的图像数量；

步骤2、构建Transformer架构的神经网络分支，并将所述处理后的红外图像数据集输入所述神经网络分支中；

步骤2.1、基于Transformer的神经网络分支由M个多头自注意力块组成，分别记为SwinTB₁,...,SwinTB_m,...,SwinTB_M；其中，SwinTB_m表示第m级多头自注意力块，m＝1,2,...,M；所述第m级多头自注意力块SwinTB_m依次由第m级合并采样层PatchMerging_m、第m级窗口多头自注意力层WMSL_m和第m级移位窗口多头自注意力层SWMSL_m构成；

所述第m级合并采样层PatchMerging_m由第m级划分窗口层DivW_m、第m级归一化层NL_m和第m级线性层Fc_m组成；

所述第m级窗口多头自注意力层WMSL_m由第m级前归一化层LN1_m、第m级窗口多头计算单元WMSA_m、第m级后归一化层LN2_m和第m级窗口全连接层WMLP_m组成；

所述第m级移位窗口多头自注意力层SWMSL_m由第m级前归一化层LN3_m、第m级移位窗口多头计算单元SWMSA_m、第m级后归一化层LN4_m和第m级移位窗口全连接层SMLP_m组成；

步骤2.2、当m＝1时，所述第n张红外图像I_n输入第m个多头自注意力块中，并经过第m 级自注意力块SwinTB_m的第m级合并采样层PatchMerging_m的处理后，输出合并特征张量RI_n,m；

所述合并特征张量RI_n,m经过第m级窗口多头自注意力层WMSL_m的第m级前归一化层LN1_m的处理，得到归一化后的特征张量再输入第m级窗口多头计算单元WMSA_m中进行线性变换和自注意力特征计算后；再与第m级合并采样层PatchMerging_m输出的合并特征张量RI_n,m进行残差连接，得到自注意力特征张量WRI_n,m；所述自注意力特征张量WRI_n,m依次输入第m级后归一化层LN2_m和第m级窗口全连接层WMLP_m中进行线性变换和通道数调整后，再与自身进行残差连接后得到残差特征张量WMRI_n,m；

所述残差特征张量WMRI_n,m经过第m级移位窗口多头自注意力层SWMSL_m的第m级前归一化层LN3_m的归一化处理后，再输入第m级移位窗口多头计算单元SWMSA_m中进行线性变换和窗口偏移的自注意力特征计算；然后与残差特征张量WMRI_n,m进行残差连接得到偏移自注意力特征张量SWRI_n,m；

所述偏移自注意力特征张量SWRI_n,m依次输入第m级后归一化层LN4_m和第m级窗口全连接层SWMLP_m中进行线性变换和通道数调整后，再与偏移自注意力特征张量SWRI_n,m自身进行残差连接并得到相应输出尺寸为

的第m个窗口特征张量SWMRI_n,m，并作为所述m级多头自注意力块SwinTB_m的输出特征张量；其中，W,H为第n张红外强度图像I_n的宽和高，C为第m级多头自注意力块的输出通道数，a为倍数，a＝2^(m-1)；

步骤2.3、当m＝2,3,...,M时，将第m-1个窗口特征张量SWMRI_m-1作为第m级多头自注意力块SwinTB_m的输入，并由第m级多头自注意力块SwinTB_m输出第m个窗口特征张量SWMRI_n,m，从而由第M级多头自注意力块SwinTB_M输出第M个窗口特征张量SWMRI_n,M，并作为Transformer的神经网络分支最终输出的窗口特征张量，记为SWMRI_n；

步骤3、构建CNN架构的网络分支，包括：下采样模块、中间模块以及上采样模块；并将所述处理后的红外图像数据集输入所述网络分支中；

步骤3.1、所述下采样模块由M个下采样块组成，M个下采样块分别为DSampleBlock₁,...,DSampleBlock_m,...,DSampleBlock_M；其中，DSampleBlock_m表示第m级下采样块，m＝1,2,...,M；所述第m级下采样块DSampleBlock_m由第m级最大池化层MaxPool2d_m和第m级多层卷积层nCov_m组成；

所述第m级多层卷积层nCov_m包括：X个二维卷积层，X个批量归一化层以及X个ReLU激活函数层，其中，第x个二维卷积层的卷积核大小为k_x，x＝1,2,…,X；

当m＝1时，所述第n张红外图像I_n输入第m级下采样模块DSampleBlock₁中的第m级最大池化层MaxPool2d_m和第m级多层卷积层nCov_m进行池化和卷积等处理，将特征张量的尺寸转变为输入的

倍后，输出特征张量DResult_n,m，其中，b表示缩放尺度系数；

当m＝2,3,...,M时，将特征张量DResult_n,m-1作为第m级下采样块DSampleBlock_m的输入，并由第m级多层卷积层nCov_m输出特征张量DResult_n,m；从而由第M级下采样块DSampleBlock_M输出所述下采样模块最终输出的特征张量DResult_n,M；

步骤3.2：所述中间模块是一个多层二维卷积层，依次包括：X个卷积核为k×k的二维卷积层、X个批量归一化层和X个ReLU激活函数；

所述特征张量DResult_n,M经过所述中间模块的处理后，输出第n个特征张量midResult_n；

步骤3.3：所述上采样模块由M个上采样块组成，M个上采样块分别记为USampleBlock₁,...,USampleBlock_m,...,USampleBlock_M；其中，USampleBlock_m表示第m级上采样模块；

所述第m级上采样块USampleBlock_m由第m级逆卷积层ConvTrans_m和第m级多层卷积层 nCov_m组成；所述第m级多层卷积层nCov_m包括：X个二维卷积层，X个批量归一化层以及 X个ReLU激活函数层，其中，第x个二维卷积层的卷积核大小为k_x，x＝1,2,…,X；

所述第n个特征图midResult_n输入第M级上采样块USampleBlock_M中的第m级逆卷积层 ConvTrans_m进行转置卷积，再经过第m级多层卷积层nCov_m的处理后得到输出特征张量UResult_n,M；

所述特征张量UResult_n,M与中间模块的输出midResult_n进行拼接形成跳跃连接后共同作为所述第M级多层二维卷积层Uconv2d_M的输入，并相应输出特征张量UCresult_n,M；

当m＝1,2,…,M-1时，下采样模块中第m级下采样块DSampleBlock_m的第m级多层卷积层nCov_m输出的特征张量DCresult_n,m和第m+1级上采样块USampleBlock_m+1中第m+1级第多层卷积层nCov_m+1输出的特征张量UCresult_n,m+1进行拼接形成跳跃连接后共同作为第m级多层卷积层nCov_m的输入；从而由第1级上采样块USampleBlock₁得到所述上采样模块最终输出的采样特征张量UI_n；

步骤4、构建特征融合模块，依次由全局平均池化层GAP、线性层、加权层和校准层组成；

步骤4.1、将所述Transformer的神经网络分支输出的窗口特征张量SWMRI_n和CNN架构的网络分支输出的采样特征张量UI_n分别作为特征融合模块的两个输入特征向量，并输入到全局平均池化层GAP中，先将输入特征向量中每个通道的特征图信息压缩，再将压缩后的信息累加得到空间压缩向量，其中，窗口特征张量SWMRI_n经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量TransI_n，采样特征张量UI_n经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量CNNI_n；

步骤4.2、所述向量TransI_n和向量CNNI_n分别通过线性层的展平和线性操作后得到向量 TransL_n和向量CNNL_n；

步骤4.3、加权层将所述向量TransI_n和向量CNNI_n分别乘以权值L₁和L₂后相加得到一个融合的特征权重TCWeight_n；

步骤4.4、校准层将所述融合特征权重TCWeight_n通过Sigmoid函数和升维处理后与所述 Transformer的神经网络分支输出的窗口特征张量SWMRI_n相乘，得到信息校准过后的特征张量TCResult_n，最后再通过一个Sigmoid激活函数得到模型最终的输出特征图x_n；

步骤5、损失函数的设计与迭代训练；

步骤5.1、利用式(8)和式(9)构建第n张图片的模型预测输出与第n张图片真实像素标签之间的交叉熵损失L_BCE(x,y)：

L_BCE(x,y)＝L＝{l₁,…,l_n,…,l_N}^T (8)

l_n＝-w_n[y_n·logx_n+(1-y_n)·log(1-x_n)] (9)

式(8)和式(9)中，l_n表示输入的第n张图片的交叉熵损失，x_n表示输入的第n张红外图像I_n的模型预测输出，y_n表示输入的第n张红外图像I_n的真实像素标签，w_n表示表示对loss中每个元素的加权权值；

步骤5.2、利用式(10)构建第n张红外图像I_n的模型预测输出x_n与第n张红外图像I_n真实像素标签y_n之间的Dice损失L_Dice：

L_Dice＝1-2|x_n∩y_n|/(|x_n|+|y_n|) (10)

步骤5.3、利用式(11)构建总体损失函数L：

L＝αL_BCE+βL_Dice (11)

式(11)中，α和β为自定义的两个平衡系数；

步骤5.4、基于红外图像数据集，利用梯度下降法对所述Transformer架构的神经网络分支和CNN架构的网络分支进行训练，并计算所述总体损失函数L，以更新网络参数，当迭代次数达到最大迭代次数epoch时，停止训练，从而得到最优红外小目标预测模型，用于对所输入的红外小目标数据集进行检测，并输出检测结果图。

与现有技术相比，本发明的有益效果在于：

1、本发明结合了Transformer自注意力模型，来捕获红外背景与目标之间的长期依赖关系，在红外图像强噪声背景下也能很好的将目标与背景分离，针对红外图像中小目标与背景杂波亮点相似的问题，自注意力机制能使模型更专注于定位小目标在图像中的位置，降低了虚警率，解决了现有的传统方法只能在一定程度上起到抑制均匀背景而不能处理复杂背景的问题。

2、本发明使用了CNN架构的神经网络，结合了多个下采样和上采样模块，映射出不同大小的特征图像，可以捕捉到具有不同尺度的特征信息，以应对目标尺寸小、可用特征少的问题，一定程度上提高了对不存在精细纹理、形状等结构信息的小目标的检测率。

3、本发明设计了一个特征融合模块来进行特征信息的融合以消除两个分支的差异，通过更好的融合局部细节特征和全局语义特征，使模型将注意力放在小目标的位置，从而实现了更精确的目标检测，提升了网络的性能。

附图说明

图1为本发明中红外小目标检测网络总结构图；

图2为本发明中SwinTB_m模块图；

图3为本发明中特征融合模块图。

具体实施方式

本实施例中，一种基于特征融合的红外小目标检测方法，是利用CNN和Transformer两个分支来分别提取小目标的特征信息，对杂波背景、目标大小和目标形状的变化具有较强的鲁棒性。如图1所示，其中，一个分支使用强大的分层Transformer来捕捉大范围的依赖关系，另一个分支使用U-Net的变体来提取小目标局部细节，最后，通过一个特征融合模块来重构从两个分支中提取的特征，从而实现精确的目标检测，缓解背景杂波的影响，具体的说，该方法是按如下步骤进行：

步骤1、对红外图像进行预处理；

步骤1.1、获取红外图像数据集并进行尺寸统一、裁剪、水平和垂直翻转的预处理后，得到处理后的红外图像数据集，记为{I_n|n＝1,2,…,N}；其中，I_n表示第n张红外图像；N表示红外图像数据集中的图像数量，本发明中将图像统一resize到384×384大小，输入通道为3；

步骤2、构建Transformer架构的神经网络分支，并将处理后的红外图像数据集输入神经网络分支中；

步骤2.1、基于Transformer的神经网络分支由M个多头自注意力块组成，分别记为SwinTB₁,...,SwinTB_m,...,SwinTB_M；其中，SwinTB_m表示第m级多头自注意力块，m＝1,2,...,M，如图2所示；第m级多头自注意力块SwinTB_m依次由第m级合并采样层PatchMerging_m、第m 级窗口多头自注意力层WMSL_m和第m级移位窗口多头自注意力层SWMSL_m构成，本实施例中， M＝4；

第m级合并采样层PatchMerging_m由第m级划分窗口层DivW_m、第m级归一化层NL_m和第m级线性层Fc_m组成，本实施例中，划分窗口大小设置为12；

第m级窗口多头自注意力层WMSL_m由第m级前归一化层LN1_m、第m级窗口多头计算单元WMSA_m、第m级后归一化层LN2_m和第m级窗口全连接层WMLP_m组成；

第m级移位窗口多头自注意力层SWMSL_m由第m级前归一化层LN3_m、第m级移位窗口多头计算单元SWMSA_m、第m级后归一化层LN4_m和第m级移位窗口全连接层SMLP_m组成，本实施例中，每一级中移位窗口多头计算单元的数值分别设置为4，8，16，32；

步骤2.2、当m＝1时，第n张红外图像I_n输入第m个多头自注意力块中，并经过第m级自注意力块SwinTB_m的第m级合并采样层PatchMerging_m的处理后，输出合并特征张量RI_n,m；

合并特征张量RI_n,m经过第m级窗口多头自注意力层WMSL_m的第m级前归一化层LN1_m的处理，得到归一化后的特征张量再输入第m级窗口多头计算单元WMSA_m中进行线性变换和自注意力特征计算后；再与第m级合并采样层PatchMerging_m输出的合并特征张量RI_n,m进行残差连接，得到自注意力特征张量WRI_n,m；自注意力特征张量WRI_n,m依次输入第m级后归一化层LN2_m和第m级窗口全连接层WMLP_m中进行线性变换和通道数调整后，再与自身进行残差连接后得到残差特征张量WMRI_n,m；

残差特征张量WMRI_n,m经过第m级移位窗口多头自注意力层SWMSL_m的第m级前归一化层LN3_m的归一化处理后，再输入第m级移位窗口多头计算单元SWMSA_m中进行线性变换和窗口偏移的自注意力特征计算；然后与残差特征张量WMRI_n,m进行残差连接得到偏移自注意力特征张量SWRI_n,m；

偏移自注意力特征张量SWRI_n,m依次输入第m级后归一化层LN4_m和第m级窗口全连接层SWMLP_m中进行线性变换和通道数调整后，再与偏移自注意力特征张量SWRI_n,m自身进行残差连接并得到相应输出尺寸为

的第m个窗口特征张量SWMRI_n,m，并作为m级多头自注意力块SwinTB_m的输出特征张量；其中，W,H为第n张红外强度图像I_n的宽和高， C为第m级多头自注意力块的输出通道数，a为倍数，a＝2^(m-1)；

步骤3、构建CNN架构的网络分支，包括：下采样模块、中间模块以及上采样模块；并将处理后的红外图像数据集输入网络分支中；

步骤3.1、下采样模块由M个下采样块组成，M个下采样块分别为DSampleBlock₁,...,DSampleBlock_m,...,DSampleBlock_M；其中，DSampleBlock_m表示第m级下采样块，m＝1,2,...,M；第m级下采样块DSampleBlock_m由第m级最大池化层MaxPool2d_m和第 m级多层卷积层nCov_m组成，本实施例中，M＝4；

第m级多层卷积层nCov_m包括：X个二维卷积层，X个批量归一化层以及X个ReLU激活函数层，其中，第x个二维卷积层的卷积核大小为k_x，x＝1,2,…,X，本实施例中，X＝2， k_x＝3；

当m＝1时，第n张红外图像I_n输入第m级下采样模块DSampleBlock₁中的第m级最大池化层MaxPool2d_m和第m级多层卷积层nCov_m进行池化和卷积等处理，将特征张量的尺寸转变为输入的

倍后，输出特征张量DResult_n,m，其中，b表示缩放尺度系数，本实施例中，b＝2，本实施例中，每级多层二维卷积层中每层卷积的卷积核为3×3，卷积步长为1，填充补零，第 1级到第4级的多层二维卷积层输出的特征图的通道数分别为64，128，256，512；

当m＝2,3,...,M时，将特征张量DResult_n,m-1作为第m级下采样块DSampleBlock_m的输入，并由第m级多层卷积层nCov_m输出特征张量DResult_n,m；从而由第M级下采样块DSampleBlock_M输出下采样模块最终输出的特征张量DResult_n,M；

步骤3.2：中间模块是一个多层二维卷积层，依次包括：X个卷积核为k×k的二维卷积层、X个批量归一化层和X个ReLU激活函数；

特征张量DResult_n,M经过中间模块的处理后，输出第n个特征张量midResult_n，本实施例中，中间层的输入通道数和输出通道数为512；

步骤3.3：上采样模块由M个上采样块组成，M个上采样块分别记为USampleBlock₁,...,USampleBlock_m,...,USampleBlock_M；其中，USampleBlock_m表示第m级上采样模块；

第m级上采样块USampleBlock_m由第m级逆卷积层ConvTrans_m和第m级多层卷积层nCov_m组成；第m级多层卷积层nCov_m包括：X个二维卷积层，X个批量归一化层以及X个 ReLU激活函数层，其中，第x个二维卷积层的卷积核大小为k_x，x＝1,2,…,X；

第n个特征图midResult_n输入第M级上采样块USampleBlock_M中的第m级逆卷积层ConvTrans_m进行转置卷积，再经过第m级多层卷积层nCov_m的处理得到输出特征张量UResult_n,M；

特征张量UResult_n,M与中间模块的输出midResult_n进行拼接形成跳跃连接后共同作为第 M级多层二维卷积层Uconv2d_M的输入，并相应输出特征张量UCresult_n,M；

当m＝1,2,...,M-1时，下采样模块中第m级下采样块DSampleBlock_m的第m级多层卷积层nCov_m输出的特征张量DCresult_n,m和第m+1级上采样块USampleBlock_m+1中第m+1级第多层卷积层nCov_m+1输出的特征张量UCresult_n,m+1进行拼接形成跳跃连接后共同作为第m级多层卷积层nCov_m的输入；从而由第1级上采样块USampleBlock₁得到上采样模块最终输出的采样特征张量UI_n，本实施例中，每级多层二维卷积层中每层卷积的卷积核为3×3，卷积步长为1，填充补零，第4级到第1级的多层二维卷积层输出的特征图的通道数分别为512，256，128， 64；

步骤4、构建特征融合模块，依次由全局平均池化层GAP、线性层、加权层和校准层组成，如图3所示；

步骤4.1、将Transformer的神经网络分支输出的窗口特征张量SWMRI_n和CNN架构的网络分支输出的采样特征张量UI_n分别作为特征融合模块的两个输入特征向量，并输入到全局平均池化层GAP中，先将输入特征向量中每个通道的特征图信息压缩，再将压缩后的信息累加得到空间压缩向量，其中，窗口特征张量SWMRI_n经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量TransI_n，采样特征张量UI_n经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量CNNI_n；

步骤4.2、向量TransI_n和向量CNNI_n分别通过线性层的展平和线性操作后得到向量TransL_n和向量CNNL_n；

步骤4.3、加权层将向量TransI_n和向量CNNI_n分别乘以权值L₁和L₂后相加得到一个融合的特征权重TCWeight_n；

步骤4.4、校准层将融合特征权重TCWeight_n通过Sigmoid函数和升维处理后与Transformer的神经网络分支输出的窗口特征张量SWMRI_n相乘，得到信息校准过后的特征张量TCResult_n，最后再通过一个Sigmoid激活函数得到模型最终的输出特征图x_n，本实施例中，模型的输出特征图尺寸还原到输入尺寸384×384，通道数为3；

步骤5、损失函数的设计与迭代训练；

L_BCE(x,y)＝L＝{l₁,…,l_n,…,l_N}^T (8)

l_n＝-w_n[y_n·logx_n+(1-y_n)·log(1-x_n)] (9)

式(8)和式(9)中，l_n表示输入的第n张图片的交叉熵损失，x_n表示输入的第n张图片的模型预测输出，y_n表示输入的第n张图片的真实像素标签，w_n表示表示对loss中每个元素的加权权值；

步骤5.2、利用式(10)构建构建第n张图片的模型预测输出与第n张图片真实像素标签之间的Dice损失L_Dice：

L_Dice＝1-2|x_n∩y_n|/(|x_n|+|y_n|) (10)

步骤5.3、利用式(11)构建总体损失函数L：

L＝αL_BCE+βL_Dice (11)

式(11)中，α和β为自定义的两个平衡系数，本实施例中，α和β都设置为0.5；

步骤5.4、基于红外图像数据集，利用梯度下降法对Transformer架构的神经网络分支和 CNN架构的网络分支进行训练，并计算总体损失函数L，以更新网络参数，当迭代次数达到最大迭代次数epoch时，停止训练，从而得到最优红外小目标预测模型，用于对所输入的红外小目标数据集进行检测，并输出检测结果图。本实施例中，epoch设置为300，batchsize设置为8，并使用初始学习率为0.001的Adam优化器来训练设计的模型。

综上所述，本发明将Transformer序列模型与CNN模型相结合，以增强捕获长期和大范围依赖性的能力。由于红外图像的信噪比较低，且小目标与背景杂波有很大的相似性，容易将待检测目标淹没。学习与背景相对应的像素之间的长期依赖关系至关重要，这有助于防止网络将像素误分类为背景，减少误报。同时在基于cnn的分支中，去掉了原来U-Net网络中的浅层跳跃连接部分，在优化网络的同时尽可能多地获取局部细节，更多的保留了小目标特征。同时，本发明为了解决Transformer分支和CNN解码器输出之间特征和语义不一致的问题，使用了一个特征融合模块来消除差异，融合局部细节特征和全局语义特征，从而实现了更精确的目标检测。

Claims

1.一种基于特征融合的红外小目标检测方法，其特征是按如下步骤进行：

步骤1、对红外图像进行预处理；

步骤2.2、当m＝1时，所述第n张红外图像I_n输入第m个多头自注意力块中，并经过第m级自注意力块SwinTB_m的第m级合并采样层PatchMerging_m的处理后，输出合并特征张量RI_n,m；

倍后，输出特征张量DResult_n,m，其中，b表示缩放尺度系数；

所述第m级上采样块USampleBlock_m由第m级逆卷积层ConvTrans_m和第m级多层卷积层nCov_m组成；所述第m级多层卷积层nCov_m包括：X个二维卷积层，X个批量归一化层以及X个ReLU激活函数层，其中，第x个二维卷积层的卷积核大小为k_x，x＝1,2,…,X；

所述第n个特征图midResult_n输入第M级上采样块USampleBlock_M中的第m级逆卷积层ConvTrans_m进行转置卷积，再经过第m级多层卷积层nCov_m的处理后得到输出特征张量UResult_n,M；

当m＝1,2,...,M-1时，下采样模块中第m级下采样块DSampleBlock_m的第m级多层卷积层nCov_m输出的特征张量DCresult_n,m和第m+1级上采样块USampleBlock_m+1中第m+1级第多层卷积层nCov_m+1输出的特征张量UCresult_n,m+1进行拼接形成跳跃连接后共同作为第m级多层卷积层nCov_m的输入；从而由第1级上采样块USampleBlock₁得到所述上采样模块最终输出的采样特征张量UI_n；

步骤4.2、所述向量TransI_n和向量CNNI_n分别通过线性层的展平和线性操作后得到向量TransL_n和向量CNNL_n；

步骤4.4、校准层将所述融合特征权重TCWeight_n通过Sigmoid函数和升维处理后与所述Transformer的神经网络分支输出的窗口特征张量SWMRI_n相乘，得到信息校准过后的特征张量TCResult_n，最后再通过一个Sigmoid激活函数得到模型最终的输出特征图x_n；

步骤5、损失函数的设计与迭代训练；

L_BCE(x,y)＝L＝{l₁,…,l_n,…,l_N}^T (8)

l_n＝-w_n[y_n·logx_n+(1-y_n)·log(1-x_n)] (9)

L_Dice＝1-2|x_n∩y_n|/(|x_n|+|y_n|) (10)

步骤5.3、利用式(11)构建总体损失函数L：

L＝αL_BCE+βL_Dice (11)

式(11)中，α和β为自定义的两个平衡系数；