CN117237740A

CN117237740A - 一种基于CNN和Transformer的SAR图像分类方法

Info

Publication number: CN117237740A
Application number: CN202311464420.0A
Authority: CN
Inventors: 李俊杰; 刘威; 付彩玲
Original assignee: Shandong Military Local Information Technology Group Co ltd
Current assignee: Shandong Military Local Information Technology Group Co ltd
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2023-12-15
Anticipated expiration: 2043-11-07
Also published as: CN117237740B

Abstract

本发明提供一种基于CNN和Transformer的SAR图像分类方法，属于图像处理技术领域，包括：获取合成孔径雷达SAR图像，通过CNN模块提取图像局部特征，通过基于注意力机制的Transformer模块提取图像全局特征；通过并行网络结构进行分层特征融合，所述并行网络结构包括多层输出不同尺度特征所述的CNN模块和所述Transformer模块；每一层还包括一个CTF模块自适应地融合该层的局部特征、全局特征以及前一层融合后的特征；将并行网络结构最终融合的特征输入到全局平均池化和层归一化的线性分类器中进行分类结果输出。本发明可以在不破坏各自建模的情况下，从多尺度层次融合Transformer和CNN的优点，提高SAR图像的分类精度。

Description

一种基于CNN和Transformer的SAR图像分类方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于CNN和Transformer的SAR图像分类方法。

背景技术

合成孔径雷达（Synthetic Aperture Radar，SAR）是一种广泛应用于地面目标识别和监测的无源雷达技术。SAR利用雷达波束合成高分辨率的图像，具有独特的优势，如对天气和光照条件不敏感、可穿透云层和雾霾、全天候监测能力等。SAR图像分类是一项重要的任务，可应用于军事情报、灾害监测、土地利用等领域，但由于其成像机制的特殊性，会包含大量的散斑噪声，导致人工分类费时费力，因此SAR图像自动分类方法取得快速发展。传统的SAR图像分类方法主要基于手工设计的特征提取和分类器，但特征提取依赖于专家经验，难以充分利用图像中的信息，且对目标的复杂结构和多尺度特征提取能力较弱，因此模型的精度和泛化能力表现一般。

近年来，随着深度学习不断取得进展，基于深度学习的SAR 图像分类方法逐渐成为主流。卷积神经网络（CNN）是使用最为普遍的深度学习方法，其在图像分类任务中表现出色。卷积层通过共享权重和局部感受野的设计，能够捕捉到图像的平移不变性和局部结构信息。但由于卷积核感受野大小固定，难以捕捉SAR图像的全局特征，对于长距离的上下文信息理解能力有限。近期，基于自注意力的变换器（Transformer）成为最为热门的深度学习方法。Transformer通过自注意力机制能够捕捉输入序列中不同位置之间的关联，对于SAR图像中目标之间的全局依赖关系具有很大优势。虽然Transformer 可以对长程依赖性进行建模，但其计算复杂度较高且缺乏局部归纳偏差。许多研究表明全局和局部特征对于图像分类至关重要，因此研究人员开始研发将Transformer与CNN融合的网络但现有的融合网络将只是两个结构简单并行，在最后一层进行融合预测，指标不仅没有明显提升，还显著增加了计算量。我们的发明采用了多尺度并行结构，从多尺度的层面上真正地融合Transformer和CNN的各自的优点。

发明内容

针对现有技术的上述不足，本发明提供一种基于CNN和Transformer的SAR图像分类方法，可以在不破坏各自建模的情况下，从多尺度层次融合Transformer和CNN的优点，从而提高SAR图像的分类精度。

本发明提供一种基于CNN和Transformer的SAR图像分类方法，包括：

获取成孔径雷达SAR图像，输入基于CNN和Transformer的融合模型；

通过CNN模块提取图像局部特征，通过基于注意力机制的Transformer模块提取图像全局特征；

通过并行网络结构进行分层特征融合，所述并行网络结构包括多层输出不同尺度特征所述的CNN模块和所述Transformer模块；每一层还包括一个CTF模块自适应地融合该层的局部特征、全局特征以及前一层融合后的特征；

将并行网络结构最终融合的特征输入到全局平均池化和层归一化的线性分类器中进行分类结果输出，实现成孔径雷达图像分类。

进一步的，所述CNN模块提取图像局部特征的方法包括：

利用Transformer中的层归一化和GELU激活函数，通过线性层进行跨通道信息交互，CNN模块的公式为：

其中/>表示本层CNN模块的输出特征，/>为上一层CNN模块输出特征，/>是卷积核大小为3×3的深度卷积运算，LN是层归一化运算，/>是卷积核大小为1×1的卷积运算和GELU激活函数。

进一步的，所述Transformer模块提取图像全局特征的方法包括：

在Transformer模块中引入窗口多头自注意力模块W-MSA，特征图经过层归一化层进入W-MSA，在W-MSA中，首先将特征图划分到M×M大小的窗口内，然后在每个窗口单独进行常用的自注意力计算方式，最后通过带有GELU激活函数的线性层，与输入特征叠加后输出，Transformer模块的公式如下：

其中，/>表示Transformer模块的W-MSA的输出特征，/>为输入Transformer分支中上一个Transformer模块的输出特征，也是当前Transformer模块的W-MSA的输入特征，1≤i≤n，n为Transformer分支中Transformer模块的个数；/>是卷积核大小为1×1的卷积运算和/>激活函数，LN是层归一化运算。

进一步的，所述并行网络结构包括：相同层次的CNN分支和Transformer分支，用于不同尺度的特征提取；

在CNN分支包括步长为r的r×r卷积的下采样，然后依次输入到不同尺度的CNN模块中进行处理，且每个CNN模块的输入均经过层归一化处理，不同尺度的CNN模块通过不同步长的下采样进行处理；

Transformer分支则是先通过Patch Partition模块对图像划分为多个r×r 相邻像素patch，然后在通道方向上展平；每个Transformer模块的输入均设置一个PatchMerging，通过线性嵌入层将特征通道维度扩大两倍将输出更改为输入通道的2倍。

进一步的，所述CTF模块，自适应地融合不同层的局部特征、全局特征以及前一层融合后的特征，具体包括：

将Transformer模块输出的全局特征输入通道注意力CA中，将CNN模块输出的局部特征输入到空间注意力SA中，其中，注意力操作使用以下公式：

式中，/>表示逐元素乘法，/>是通过通道注意力组合生成的特征，是通过空间注意力组合生成的特征，/>表示Transformer模块输出特征，/>表示CNN模块输出特征；

将通道注意力CA生成的特征、空间注意力SA生成的特征/>和前一层CTF模块输出的融合特征进行融合，并连接一个卷积网络Conv进行融合，公式如下：

式中，/>表示前一层CTF模块输出的融合特征，表示本层CTF模块融合生成的融合特征，/>为特征融合函数，x为卷积网络Conv的输入。

进一步的，所述通道注意力的计算公式为：

所述空间注意力的计算公式为：式中，是Sigmoid函数，/>是卷积核大小为7×7的卷积运算，/>为平均池化函数，/>为最大池化函数，/>为注意力函数。

进一步的，还包括：获取成孔径雷达SAR图像的数据集，对所述基于CNN和Transformer的融合模型进行训练，通过Pytorch框架在24G显存的NVIDIA RTX 3090 GPU上进行训练，基础学习率为1e-4，批量大小为32，训练轮次为100，采用余弦退火学习率策略，使用Softmax作为输出层，并使用分类交叉熵损失函数来计算损失值：

其中N表示样本总数，K表示类别数，/>是目标标签，是模型的预测值输出。

本发明的有益效果在于：构建基于CNN和Transformer的融合模型解决SAR图像分类问题，采用CNN模块提取多尺度局部特征，采用Transformer模块，通过自注意力网络提取多尺度全局表示；采用CTF模块根据输入特征自适应地融合的局部特征、全局表示以及前一层融合后的特征，在不破坏各自建模的情况下，从多尺度层次融合Transformer和CNN的优点，从而提高SAR图像的分类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的系统的示意性框图。

图3为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释：

CNN：ConvolutionalNeuralNetwork，卷积神经网络；

Transformer：基于自注意力机制的一个深度学习模型；

CTF：CNN and Transformer Fusion，CNN 和 Transformer融合；

Patch Partition：图像块分割；

Patch ：分割后的图像块，指的是特征图中的最小单位；

Patch Merging：图像块合并，Swin Transformer中使用的无卷积下采样技术；

FLOPS ：Floating-Point Operations Per Second，每秒的浮点运算。

图1是本发明实施例提供的一种基于CNN和Transformer融合的合成孔径雷达图像分类方法，具体包括：

S1：获取成孔径雷达SAR图像，输入基于CNN和Transformer的融合模型；

S2：通过CNN模块提取图像局部特征，通过基于注意力机制的Transformer模块提取图像全局特征；

S3：通过并行网络结构进行分层特征融合，所述并行网络结构包括多层输出不同尺度特征所述的CNN模块和所述Transformer模块；每一层还包括一个CTF模块自适应地融合该层的局部特征、全局特征以及前一层融合后的特征；

S4：将并行网络结构最终融合的特征输入到全局平均池化和层归一化的线性分类器中进行分类结果输出，实现成孔径雷达图像分类。

可选地，作为本发明一个实施例，所述CNN模块提取图像局部特征的方法包括：

本发明实施例提供一种CNN模块提取SAR图像的局部特征，局部特征能够帮助提取和描述目标的局部结构和特征，卷积神经网络提取的多尺度局部特征能更好地适应SAR图像中的目标可能具有不同的尺度和姿态变化，如目标的旋转、遮挡和形变等。如图2所示，本实施例CNN模块使用3×3深度卷积，作为一种特殊情况的分组卷积，分组数等于通道数，深度卷积的使用有效地减少了CNN模块的FLOPs；通过线性层进行跨通道信息交互，使得CNN模块在不同的应用场景中均能获得良好的性能。

可选地，作为本发明一个实施例，所述Transformer模块提取图像全局特征的方法包括：在Transformer模块中引入窗口多头自注意力模块W-MSA，特征图经过层归一化层进入W-MSA，在W-MSA中，首先将特征图划分到M×M大小的窗口内，然后在每个窗口单独进行常用的自注意力计算方式，最后通过带有GELU激活函数的线性层，与输入特征叠加后输出，Transformer模块的公式如下：

其中，/>表示Transformer模块的W-MSA的输出特征，/>为输入Transformer分支中上一个Transformer模块的输出特征，也是当前Transformer模块的W-MSA的输入特征，1≤i≤n，n为Transformer分支中Transformer模块的个数；/>是卷积核大小为1×1的卷积运算和和/>激活函数，LN是层归一化运算。

本发明实施例提供的Transformer模块引入了窗口多头自注意力，能够提取重要的全局语义信息，通常SAR图像中常常存在背景干扰和杂波，包括地表杂波、天气干扰等，这些干扰对目标的识别造成困难，因此通过提取全局语义信息可以有效区分目标与背景之间的差异。

本发明实施例构建Transformer模块引入了窗口多头自注意力（W-MSA），由SwinTransformer模型首先提出，与Transformer中的多头自注意力（MSA）模块相比， W-MSA将特征图划分为M×M大小，然后对每个窗口单独进行自注意力计算。计算复杂度公式如下所示：

其中h表示特征图的高度，w表示特征图的宽度，C表示特征图的深度，M表示每个窗口的大小。/>为多头自注意力（MSA）的计算复杂度，为窗口多头自注意力（W-MSA）的计算复杂度。经计算分析，本发明实施例选用的W-MSA模块具备有效减少计算量的优势。

可选地，作为本发明一个实施例，为了提高SAR图像分类模型的准确性，需要融合不同层次的局部特征和全局表示。我们设计了一种用于分层特征融合的并行网络结构，其整体结构如图3所示，所述并行网络结构包括：相同层次的CNN分支和Transformer分支，用于不同尺度的特征提取；在CNN分支包括步长为r的r×r卷积的下采样，然后依次输入到不同尺度的CNN模块中进行处理，且每个CNN模块的输入均经过层归一化处理，不同尺度的CNN模块通过不同步长的下采样进行处理；Transformer分支则是先通过Patch Partition模块对图像划分为多个r×r 相邻像素patch，然后在通道方向上展平；每个Transformer模块的输入均设置一个Patch Merging，通过线性嵌入层将特征通道维度扩大两倍将输出更改为输入通道的2倍。

具体地，CNN分支和Transformer分支各自包含4个层次，对应不同尺度的特征提取，每一层还包括一个CTF模块，构成一个CTF分支，三分支并行结构意味着可以最大程度地保留局部特征和全局表示而不互相干扰。CTF块用于融合每个阶段的局部特征和全局表示，并连接前一阶段的输出。每个层次的CNN块提取的局部特征通过空间注意力与Transformer块提取的全局特征通过通道注意力相结合。最后，本实施例中r=4，但是可以通过更改CNN和Transformer块的数量构建该模型的不同变体，以处理不同大小的数据集。

在本实施例中，CNN分支和Transformer分支结构相似，相同通道数和层次结构的设计为融合不同尺度的局部和全局编码特征奠定了基础，如何有效地融合各个分支中不同尺度的特征成为一个新问题。为此，本发明提出了CNN and Transformer Fusion（CTF）模块。

可选地，作为本发明一个实施例，所述CTF模块自适应地融合该层的局部特征、全局特征以及前一层融合后的特征，具体包括：将Transformer模块输出的全局特征输入通道注意力CA中，将CNN模块输出的局部特征输入到空间注意力SA中，其中，注意力操作使用以下公式：

式中，/>表示逐元素乘法，/>是通过通道注意力组合生成的特征，/>是通过空间注意力组合生成的特征，/>表示Transformer模块输出特征，/>表示CNN模块输出特征；

式中，/>表示前一层CTF模块输出的融合特征，/>表示本层CTF模块融合生成的融合特征，/>为特征融合函数，x为卷积网络Conv的输入。

本发明实施例构建的CTF模块能够融合两个分支的特征信息，由于Transformer模块中的自注意力可以在一定程度上捕获空间和时间的全局信息，因此CTF模块将传入的全局特征馈送到通道注意（CA）机制中，该机制利用通道映射之间的相互依赖性来改进特定语义的特征表示。将CNN模块输出的局部特征输入到空间注意（SA）机制中，以增强局部细节并抑制不相关区域。每个注意力生成的结果和融合路径将进行特征融合，并连接一个卷积网络进行最终融合，从而有效地捕获了各个层级的全局和局部特征信息。

可选地，作为本发明一个实施例，所述通道注意力的计算公式为：所述空间注意力的计算公式为：

式中，/>是Sigmoid函数，/>是卷积核大小为7×7的卷积运算，/>为平均池化函数，/>为最大池化函数，为注意力函数。

通过上述实施例描述的方式构建基于CNN和Transformer的融合模型，采用三分支并行网络结构通过四个层次进行提取特征和融合，最后将最后一层组合后的特征输入到全局平均池化和层归一化的线性分类器中进行分类。

可选地，作为本发明一个实施例，还包括：获取成孔径雷达SAR图像的数据集，对所述基于CNN和Transformer的融合模型进行训练，通过Pytorch框架在24G显存的NVIDIA RTX3090 GPU上进行训练，基础学习率为1e-4，批量大小为32，训练轮次为100，采用余弦退火学习率策略，使用Softmax作为输出层，并使用分类交叉熵损失函数来计算损失值：

其中N表示样本总数，K表示类别数，是目标标签，/>是模型的预测值输出。

使用数据集进行模型训练和测试：使用Softmax作为输出层，并使用分类交叉熵损失函数来计算损失值，每经过一个轮次就对验证集进行一次测试，最终保存在验证集正确率最高的模型文件。

本发明的实验数据集采用MSTAR公开数据集，其中包括多种不同军事目标类别的SAR图像，如自行榴弹炮2S1、装甲侦察车BMP2和装甲运输车BTR60等。每个目标类别都包含多个实例，每个实例都具有不同的姿态、旋转角度和遮挡等变化。数据集还包括了不同的观测条件和背景干扰，以模拟实际场景中的多样性和复杂性。

首先将数据集按0.7:0.3比例划分为训练集和验证集，然后对训练集进行数据预处理，包括图片尺寸统一调整到256×256，随机裁剪224×224，水平翻转，几何变换和均值方差初始化。通过这些数据增强方法的组合，能有效提升模型的泛化能力。

经过上述训练集对构建的模型的训练，以及验证集的测试得到的模型，向模型中输入SAR图像，即可自动识别到目标类别。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内或任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于CNN和Transformer的SAR图像分类方法，其特征在于，包括：

获取合成孔径雷达SAR图像，输入基于CNN和Transformer的融合模型；

2.根据权利要求1所述的方法，其特征在于，所述CNN模块提取图像局部特征的方法包括：

3.根据权利要求1所述的方法，其特征在于，所述Transformer模块提取图像全局特征的方法包括：

其中，/>表示Transformer模块的W-MSA的输出特征，/>为输入Transformer分支中上一个Transformer模块的输出特征，也是当前Transformer模块的W-MSA的输入特征，1≤i≤n，n为Transformer分支中Transformer模块的个数；/>是卷积核大小为1×1的卷积运算和GELU激活函数，LN是层归一化运算。

4.根据权利要求1所述的方法，其特征在于，所述并行网络结构包括：相同层次的CNN分支和Transformer分支，用于不同尺度的特征提取；

Transformer分支则是先通过Patch Partition模块对图像划分为多个r×r 相邻像素patch，然后在通道方向上展平；每个Transformer模块的输入均设置一个Patch Merging，通过线性嵌入层将特征通道维度扩大两倍将输出更改为输入通道的2倍。

5.根据权利要求1所述的方法，其特征在于，所述CTF模块自适应地融合不同层的局部特征、全局特征以及前一层融合后的特征，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述通道注意力的计算公式为：所述空间注意力的计算公式为：式中，/>是Sigmoid函数，/>是卷积核大小为7×7的卷积运算，/>为平均池化函数，/>为最大池化函数，/>为注意力函数。

7.根据权利要求1所述的方法，其特征在于，还包括：获取成孔径雷达SAR图像的数据集，对所述基于CNN和Transformer的融合模型进行训练，通过Pytorch框架在24G显存的NVIDIA RTX 3090 GPU上进行训练，基础学习率为1e-4，批量大小为32，训练轮次为100，采用余弦退火学习率策略，使用Softmax作为输出层，并使用分类交叉熵损失函数来计算损失值：

其中N表示样本总数，K表示类别数，/>是目标标签，/>是模型的预测值输出。