CN114241307B

CN114241307B - 基于自注意力网络的合成孔径雷达飞机目标识别方法

Info

Publication number: CN114241307B
Application number: CN202111499219.7A
Authority: CN
Inventors: 王晓雅; 柴英特; 朱光熙; 王港
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-01-24
Anticipated expiration: 2041-12-09
Also published as: CN114241307A

Abstract

本发明属于雷达遥感应用技术领域，具体涉及一种基于自注意力网络的合成孔径雷达飞机目标识别方法。实现过程包括：获取数据集；构建基于swin transformer的网络模型；将训练集输入网络模型，利用网络模型提取特征；将提取到的特征在反向传播的过程中计算损失函数，根据损失函数调整网络模型参数，得获得最终目标识别模型；将需要检测的SAR图像输入到最终目标识别模型中，获得检测结果。本发明的方法利用来自分类和回归分支信息明确分解联合表示目标定位质量，在不增加计算量的同时，可以提升识别精度。同时，本文采用Swin Transformer网络进行SAR图像飞机目标识别，具有更强大的特征提取能力，检测效果更好。

Description

基于自注意力网络的合成孔径雷达飞机目标识别方法

技术领域

本发明属于雷达遥感应用技术领域，具体涉及一种基于自注意力网络的合成孔径雷达飞机目标识别方法。

背景技术

合成孔径雷达(SyntheticAperture Radar，以下简称SAR)具有全天时、全天候的特点，是一种重要的对地观测手段。SAR图像目标识别利用SAR图像信息来实现目标位置和类别的判定，已广泛应用到军事作战等领域，是提升SAR传感器信息感知能力、实现SAR技术应用的关键技术之一。

SAR图像目标识别性能与特征提取的能力及数据集有密切关系。随着SAR成像技术的发展，SAR图像的分辨率越来越高。与此同时，SAR飞机数据也越来越多。然而，在SAR飞机识别领域，目前存在的方法识别效果并不理想，SAR飞机数据存在严重的样本不平衡问题且漏检问题严重。因此，需要研究更好的特征提取方法，减少特征损失，减轻类别不平衡的影响，以在SAR图像飞机目标识别中获得更好的性能。

传统的SAR图像目标识别方法主要特征提取和分类器。近年来，随着深度学习的快速发展，基于卷积神经网络(Convolutional Neural Network，简称CNN)的目标识别方法取得了较好的效果。现有的基于深度卷积神经网络的目标识别算法主要分为两阶段和单阶段的网络两大类。CNN通过不断地通过卷积层来完成对图像从局部信息到全局信息的提取。近期，有学者将NLP领域的transformer引入目标检测识别领域，将目标识别看做集合预测问题。相比于CNN，transformer训练更加简洁优雅，且无需任何后处理。

近年来，针对卷积神经网络中的样本不平衡问题引起广泛的研究。Focal loss损失函数降低了大量简单负样本在训练中所占的权重，从而减轻了正负样本不平衡的问题。由于损失函数的设计影响着最终目标边界框定位和回归的精度，本发明引用边界框的不确定性的统计量来指导定位质量估计，从而提高目标识别的精度。

发明内容

本发明所要解决的技术问题是通过损失函数的改进，提高边界框定位的质量，从而提高SAR图像飞机识别的精确率。针对SAR图像飞机识别干扰较多，且漏检较多的问题，提供了一种基于transformer的识别方法，并对损失函数进行改进，进一步提升识别精度，在SAR图像飞机识别中取得了很好的效果。

本发明采用的技术方案为：

一种基于自注意力网络的合成孔径雷达飞机目标识别方法，包括以下过程：

步骤1、获取数据集，分割为训练集，测试集和验证集数据；

步骤2、构建基于swintransformer的网络模型，基于swintransformer模型的结构包括块划分、线性嵌入、第一SwinTransformer模块、块合并和第二SwinTransformer模块；块划分用于将输入图像划分为不重合的图像块，线性嵌入用于改变图像块的特征维度，块合并用于按照2×2相邻图像块进行合并，第一和第二SwinTransformer模块分别用于提取图像深度特征；

步骤3、将训练集输入网络模型，利用网络模型提取特征；

步骤4、将提取到的特征在反向传播的过程中计算损失函数，根据损失函数调整网络模型参数，返回步骤3，直至损失函数收敛，得到训练好的网络模型，并在验证集上进行优化调参，得获得最终目标识别模型；

步骤5、将需要检测的SAR图像输入到最终目标识别模型中，获得检测结果。

进一步的，第一和第二SwinTransformer模块中采用局部窗口自注意的方式，在局部窗口划分时，采用移位窗口划分方法，具体为：

在第一SwinTransformer模块的神经网络中，首先将线性嵌入后得到的图像采用自左上角像素开始的窗口划分策略，将8×8的特征图平均划分为2×2个4×4的窗口，然后下一层在上一层的窗口配置基础上，采用移动窗口划分，将平均划分的窗口进行尺度的变换，然后在重新划分的窗口上进行特征提取；

在第二SwinTransformer模块的神经网络中，将块合并后的图像采用自左上角像素开始的窗口划分策略，将特征图首先进行平均划分，然后在下一层采用移动窗口划分，将平均划分的窗口进行尺度变换，得到不同尺度的窗口，然后在重新划分的窗口上进行特征提取。

进一步的，步骤4中损失函数采用融合损失函数，计算过程如下：

融合损失函数将分类和回归分支进行融合，将特征提取之后的特征分布输入到回归分支得到预测交并比的标量I，然后和分类分支得到的损失C相乘得到J，计算公式如下：

J＝C×I

其中，C＝[C₁,C₂,...C_m],C_i∈[0,1]，表示总共m个类别的分类表示，I∈[0,1]是一个标量，代表预测交并比的大小；

预测交并比的标量I计算公式如下：

I＝σ(W₂δ(W₁F))

其中，δ为线性整流函数，σ为S型生长曲线函数，

k表示目标分布的Top-k参数，p表示第二Swin Transformer模块中隐藏层的通道维度。

本发明的有益效果为：

本发明相比于CNN的目标识别网络，改变了损失函数，使其更好的定位目标，提高了目标定位的质量，提高了识别精度。同时Swintransformer与其它transformer方法相比，具有更强的通用性。在损失函数上，为了提高目标定位的质量，将分类和回归分支进行分解然后再联合，可以显著提高目标识别任务性能。

附图说明

图1为本发明实施例基于swintransformer的网络模型结构图。

图2为本发明实施例移位窗口划分方法示意图。

图3为本发明实施例损失函数示意图。

图4为本发明实施例含有飞机目标的SAR图像。

具体实施方式

本发明是为了提高SAR图像识别的能力。因此，将本发明的损失函数应用于Swintransformer检测识别框架中。为了评价本发明损失函数的好坏，将该损失函数应用于SAR图像飞机目标识别框架中。直接替换Swintransformer中目标定位的损失函数。实验首先将数据集按8：1：1的比例分为训练，验证和测试三个部分，采用COCO格式的数据集输入。通过将附图3的损失函数加入到Swin transformer中进行SAR图像飞机目标识别的训练。多尺度训练，根据数据集中图像尺寸的不同，调整输入的大小。使用AdamW优化器，初始学习率设置为10-4，权重衰减为0.05，批大小为16。

本发明具体实现过程为：

步骤1、获取数据集，按8：1：1的比例分割为训练集，测试集和验证集数据；

步骤2、构建基于swin transformer的网络模型，基于swin transformer模型的结构包括块划分、线性嵌入、第一Swin Transformer模块、块合并和第二SwinTransformer模块；块划分用于将输入图像输入H×W×3划分为不重合的图像块，每个图像块大小为4×4，线性嵌入用于将图像块的特征维度变为C，块合并用于按照2×2相邻图像块进行合并，特征维度变为4C，第一和第二SwinTransformer模块分别用于提取图像深度特征；如图1所示；

如图2所示，第一和第二SwinTransformer模块中采用局部窗口自注意的方式，在局部窗口划分时，采用移位窗口划分方法，具体为：

步骤3、将训练集输入网络模型，利用网络模型提取特征；

如图3所示，损失函数采用融合损失函数，计算过程如下：

J＝C×I

预测交并比的标量I计算公式如下：

I＝σ(W₂δ(W₁F))

其中，δ为线性整流函数，σ为S型生长曲线函数，

k表示目标分布的Top-k参数，本发明实验过程中取k＝4，p表示第二Swin Transformer模块中隐藏层的通道维度，本发明中p＝64。

步骤5、将需要检测的SAR图像输入到最终目标识别模型中，获得检测结果。含有飞机目标的SAR图像如图4所示。

本发明的优势主要体现在该损失函数在不损失训练推理速度的同时，可以提升2个点。此外该损失函数降低了学习的难度，收敛后loss更低了。基于Swin transformer的目标识别方法是新颖的，具有通用的识框架，为后续的研究和实际应用打下了基础。

Claims

1.一种基于自注意力网络的合成孔径雷达飞机目标识别方法，其特征在于，包括以下过程：

步骤1、获取数据集，分割为训练集，测试集和验证集数据；

步骤2、构建基于swin transformer的网络模型，基于swin transformer模型的结构包括块划分、线性嵌入、第一Swin Transformer模块、块合并和第二Swin Transformer模块；块划分用于将输入图像划分为不重合的图像块，线性嵌入用于改变图像块的特征维度，块合并用于按照2×2相邻图像块进行合并，第一和第二Swin Transformer模块分别用于提取图像深度特征；

步骤3、将训练集输入网络模型，利用网络模型提取特征；

2.根据权利要求1所述的基于自注意力网络的合成孔径雷达飞机目标识别方法，其特征在于，第一和第二Swin Transformer模块中采用局部窗口自注意的方式，在局部窗口划分时，采用移位窗口划分方法，具体为：

在第一Swin Transformer模块的神经网络中，首先将线性嵌入后得到的图像采用自左上角像素开始的窗口划分策略，将8×8的特征图平均划分为2×2个4×4的窗口，然后下一层在上一层的窗口配置基础上，采用移动窗口划分，将平均划分的窗口进行尺度的变换，然后在重新划分的窗口上进行特征提取；

在第二Swin Transformer模块的神经网络中，将块合并后的图像采用自左上角像素开始的窗口划分策略，将特征图首先进行平均划分，然后在下一层采用移动窗口划分，将平均划分的窗口进行尺度变换，得到不同尺度的窗口，然后在重新划分的窗口上进行特征提取。

3.根据权利要求1所述的基于自注意力网络的合成孔径雷达飞机目标识别方法，其特征在于，步骤4中损失函数采用融合损失函数，计算过程如下：

J＝C×I

预测交并比的标量I计算公式如下：

I＝σ(W₂δ(W₁F))

其中，δ为线性整流函数，σ为S型生长曲线函数，