CN116883912A

CN116883912A - 一种基于全局信息目标增强的红外弱小目标检测方法

Info

Publication number: CN116883912A
Application number: CN202310992117.1A
Authority: CN
Inventors: 宋琼; 郭晓东; 刘昱航; 刘思维
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-10-13

Abstract

本发明公开了一种基于全局信息目标增强的红外弱小目标检测方法，广泛应用于反无人机检测追踪、制导等各种领域，方法包括：获取红外弱小目标检测数据集，使用Unet和Swin Transformer混合的网络当作编码器以及解码器来进行特征提取，进行训练，通过选择用于语义分割任务的衡量预测结果和真实标签之间的相似度的Soft‑IoU作为损失函数，并添加并行全局信息提取模块来增强目标，引入注意力机制可以有效提高提高基于语义分割方法的目标检测准确率，使得红外弱小目标检测在虚警率和漏检率方面有了良好的表现。最终实现对小目标进行二值分类的检测。

Description

一种基于全局信息目标增强的红外弱小目标检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种UNet和Swin Transformer混合网络进行全局信息目标增强红外弱小目标检测方法。

背景技术

红外图像中的弱小目标检测是图像处理中的一个重要而又难度较大的问题。传统小目标检测方法主要有基于背景抑制的方法，基于人类视觉系统的方法以及基于低秩稀疏的方法。基于背景抑制的方法一般先通过滤波对背景进行估计，然后将原始图像与滤波得到的背景图像进行差分以突出小目标，最后对差分图像进行阈值分割，实现对小目标的检测，由于不同红外图像背景因素差异比较大，所以滤波的方法存在鲁棒性较低的问题，检测效果一般。基于人类视觉系统的方法利用小目标在局部区域具有显著性这一特性检测目标]，但是该方法在一些背景复杂，信噪比低的场景中，误检率比较高。基于低秩稀疏的方法利用小目标所占的像素少，背景所占像素多这一特性，认为目标属于稀疏分量而背景属于低秩分量，通过构建目标函数并优化求解分离出目标成分和背景成分，进而完成检测任务。求解低秩稀疏模型时需要对图像进行多次矩阵分解和优化迭代操作，计算量大，同时当目标较暗以及目标与背景边界相邻时，模型会把杂波信号当作目标，导致虚警率变高。

弱小目标像素较少,在复杂的红外图像背景下很难区分,传统的检测方法效果较差。深度学习方法可以自动学习红外图像的特征表示,对弱小目标检测有很好的效果。UNet是一种广泛用于图像语义分割和目标检测的深度学习网络结构。UNet包含编码器模块、瓶颈模块和解码器模块。编码器模块使用卷积层和池化层对输入图像进行下采样,以提取图像特征。瓶颈模块连接编码器模块和解码器模块,用于特征融合。解码器模块使用卷积层、上采样层和跳跃连接对特征图进行上采样,最终输出与输入图像同大小的属性图。UNet可以有效利用图像的空间信息,对弱小目标进行精细分割。相比于传统方法,基于UNet的深度学习方法有以下优点:可以自动学习红外图像的特征表示,不需要人工提取特征;UNet网络结构可以有效利用图像的空间信息,对弱小目标进行精细检测;深度学习方法可直接对原始红外图像进行推理,省去了许多手工设计的图像处理步骤;深度学习方法可以利用大量样本学习到红外图像的先验知识,对新图像有很好的泛化能力。

发明内容

有鉴于此，本发明实施例提供了一种基于全局信息目标增强的红外弱小目标检测方法，能够提升现有的检测效率及准确率低的问题，同时在复杂的山地背景下也有良好的表现。

根据第一方面，本发明实施例提供了一种基于全局信息目标增强的红外弱小目标检测方法，包括：

采集红外图像训练数据集,数据集包括红外图像和对应的弱小目标标注信息;基于UNet和Swin Transformer混合网络网络结构构建深度学习模型;

UNet模型包括编码器模块、瓶颈模块和解码器模块;编码器模块采用多层卷积层和池化层下采样,用于提取图像特征;瓶颈模块用于特征融合;解码器模块采用多层卷积层、上采样层和跳跃连接上采样,输出属性图;

使用训练数据集对UNet和Swin Transformer混合网络模型进行训练;

对新采集的红外图像利用训练得到的模型进行推理,输出检测结果图;

对检测图进行后处理,包括中值滤波和形态学处理,最终输出更好的目标检测结果。

与现有技术相比,本发明的优点在于:本发明利用UNet和Swin Transformer混合网络深度学习模型自动学习红外图像特征,无须人工提取特征,可以显著改善检测精度;UNet网络结构可以有效利用图像的空间信息,对弱小目标进行精细检测;本发明直接对原始红外图像进行推理,省去了许多图像预处理步骤;本发明利用大量训练数据学习到红外图像的先验知识,对新图像有很好的泛化能力;本发明整个目标检测过程实现全自动化,大大减少了人工操作和干预。综上,本发明提供一种UNet深度学习方法,可以实现红外图像中弱小目标的高精度自动检测。该方法在红外图像处理和弱小目标识别方面有广阔的应用前景。

附图说明

图1是本发明的网络结构图。

图2为本发明基于全局信息目标增强的红外弱小目标检测方法的整体流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，所提出的网络结构如图1-2所示，我们采用UNet模型作为基础架构，该模型包含编码器和解码器两部分。编码器网络由多个卷积层和池化层组成，用于提取图像特征；解码器网络则由多个反卷积层和上采样层组成，用于将编码器输出的特征图还原为原始图像，并生成目标检测的结果。为了提高模型的精度，我们还可以在编码器和解码器中加入残差连接，以避免信息丢失和梯度消失等问题。该网络由三个主要模块组成：Swin Transformer全局信息提取模块,全局信息增强模块和特征融合模块。

在目标检测初始阶段，输入红外图片尺寸为512*512,通过卷积操作获得输出尺寸为128*128*16的特征图。然后通过UNet主干网络和Swin Transformer模块双支编码提取红外图像小目标特征，使用UNet主干网络生成多层次的特征图，可以得到含有小目标的高级语义信息以及细节和局部特征低级语义信息，通过Swin Transformer模块可以获得能够抑制背景的更加丰富的全局信息小目标特征图，然后通过特征融合模块进行特征融合，最后在融合结果中检测小目标。

Swin Transformer首先经过Patch Partition操作，将图片分割成一个个块，并嵌入到Embedding层，然后在第一个阶段中，通过Linear Embedding调整特征通道数进入到Swin Transformer Block模块， Swin Transformer Block 主要是由基于移位窗口的 MSA模块以及MLP构成，通过残差连接将这两部分联接。每两层的MLP之间拥有 GELU 非线性激活函数。LN层的作用是将每个 MSA 模块和每个 MLP 进行归一化。后面三个阶段除了把Linear Embedding替换成Patch Merging外，重复相同的操作，Patch Merging对输入的特征图降采样，Swin Transformer的计算复杂度以及参数数量相对于传统的Transformer要便捷不少，但是其检测效果要比Transformer好。

Swin Transformer通过分层的方式，能够处理大尺度的图像，捕捉更多的上下文信息，本发明将其引入到小目标检测任务中，期望能够捕捉到小目标周围更多的上下文信息，提高每个像素被正确分类的准确率。此外，Swin Transformer的多头自注意力机制可以对图像的不同位置进行注意力加权，从而捕捉到不同尺度和不同方向的特征。这种机制使得Swin Transformer在处理小目标检测任务时屏蔽掉部分杂乱的背景。经过第一步卷积操作后把128*128*16的特征图通过由四层Swin Transformer模块的解码编码操作获得输出尺寸为128*128*16的特征图1。

UNet是一种常用于图像分割任务的深度学习网络模型，也经常作为红外弱小目标检测的基础网络，通过UNet前半部分的进行编码特征提取。UNet后半部分进行解码进行上采样，并且采用了特征相加的方式将编码解码的特征进行融合。

不仅红外弱小目标非常微小，而且弱小目标往往被环境背景所掩盖，所以需要更大的感受野来提取目标特征。为了让UNet网络获得更好的检测效果，我们设计了全局信息增强模块进行特征增强提取，通过在不同的尺度上提取特征，既能更好地识别它们，又能够捕捉不同大小的目标。可以实现在多维度上获取小目标信息。全局信息增强模块设置在编码层和解码层之间，输入和输出尺寸均为32*32*64全局信息增强模块主要有五层，采用并行的结构设计。其中第一层为原始卷积块，其他几层为空洞卷积来进行特征提取。空洞卷积可以增加卷积层的感受野大小，空洞卷积率越大则会形成的感受野会更大，从而提取更广阔的输入区域，获得更好的全局特征。可以在不改变特征图大小的情况下经过多个感受野提取出多层次的特征信息。并且用并行的级联设计，可以使得检测器在特征提取和分类阶段都能够更好地区分目标和背景。这种级联设计可以提高检测器的准确性和稳定性，从而更好地适应红外弱小目标检测的任务需求。能够更好地处理小目标的空间信息和语义信息，从而得到更准确的分割结果，全局信息增强模块输出结果经过两次上采样可以获得跟Swin Transformer输出相同大小特征图2。

如图1所示，红外图像输入到网络中，经过两个分支UNet和Swin Transformer ，获得两支网络的特征图，这两个特征图中都含有目标的特征信息，需要将其融合，得到更好目标特征。由于两个特征图中都包含目标的通道信息和空间信息，本发明引入通道注意力和空间注意力来提高模型对小目标的关注度。通道注意力可以让模型自动地选择与目标相关的通道，而空间注意力可以让模型自动地选择与目标相关的位置。空间和通道混合注意力机制可以对特征图进行通道和空间维度上的加权平均，从而减少了模型的计算复杂度，提高检测效率。并且能够对背景信息进行抑制，增强弱小目标的特征信息。并提高模型的在多种复杂场景下检测鲁棒性，因此本发明设计了小目标检测的特征融合模块，首先将相同尺寸的特征图1和特征图2均为相加，然后将相加结果特征图输入空间和通道混合注意力机制模块，这样我们将两个分支特征融合后得到128*128*16的特征图，经过最终解码操作后得到与输入图像大小一致的512*512小目标检测结果图。

损失函数

我们采用Soft IoU作为模型的损失函数，以优化模型的分类误差。以进一步提高模型的泛化能力和鲁棒性。

训练过程

我们采用反向传播算法和随机梯度下降优化器，对模型进行训练。训练数据可以通过数据增强技术来扩充，如随机旋转、翻转或缩放等操作，以增加模型的泛化能力。此外，我们还可以采用迁移学习的方法，利用预训练的模型参数来初始化模型，以加速模型的训练和提高模型的效果。

目标检测

在进行目标检测时，我们将输入的红外图像通过训练好的UNet模型，得到预测结果。由于UNet模型输出的是像素级的分割结果，因此我们需要对分割结果进行后处理，如去除小的噪点、合并相邻的目标等，以得到最终的目标检测结果。

以上就是整个具体实施的过程。

Claims

1.基于全局信息目标增强的红外弱小目标检测方法,其特征在于,该方法包括以下步骤：

步骤1：采集红外图像训练数据集,该数据集包括红外图像和对应图像中弱小目标的标注信息,将不同尺寸的大小的图片修剪为512*512大小；

步骤2：获取到的红外图像进行按7：1：2进行训练数据集,验证数据集测试数据集划分；

步骤3：基于所述数据集训练UNet和Swin Transformer混合网络深度学习模型；

步骤4：把两个网络检测结果送入特征融合模块后经过上采样后最终获得检测的结果图。

2.根据权利要求1所述的基于全局信息目标增强的红外弱小目标检测方法,其特征在于,步骤3所述的UNet和Swin Transformer混合网络深度学习模型，具体如下：通过UNet和Swin Transformer网络组成并行的编码和解码结构，其中UNet模型和包括编码器模块、特征增强模块、解码器模块,其编码器模块包括4个编码器块,每个编码器块包含卷积层、批标准化层、ReLU激活层和最大池化层,用于抽取红外图像的特征信息，通过特征相加的方式将UNet网络编码器的低级特征与解码器高级特征部分相加，特征增强模块经过四层级联空洞卷积构成，卷积块大小为3*3，空洞率为1，2，3，4，UNet模型的解码器模块包括4个解码器块,每个解码器块包含卷积层、上采样层,用于还原特征信息并检测图像中的弱小目标，SwinTransformer模块则为四层构成，其中每层Swin Transformer Block块的数量也为4，串联组成，红外图像经过Swin Transformer的编码解码操作获取特征图2。

3.根据权利要求1所述的基于全局信息目标增强的红外弱小目标检测方法,其特征在于,所述步骤4中，为了将两个网络检测结果进行相融合，设计了特征融合模块，先把两个特征图相加，然后将相加后的特征图送入通道空间混合注意力机制模块以提高网络检测的准确率，最终经过上采样操作将结果图还原成512*512大小的二值检测结果图。