CN116258973A

CN116258973A - 一种多尺度特征联合的遥感影像场景分类方法

Info

Publication number: CN116258973A
Application number: CN202211095208.7A
Authority: CN
Inventors: 郭海涛; 王慧; 余东行; 徐青; 卢俊; 刘相云; 林雨准; 龚志辉; 王家琪; 饶子煜; 牛艺婷
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-06-13

Abstract

本发明涉及一种多尺度特征联合的遥感影像场景分类方法，属于遥感影像处理技术领域。本发明首先建立多尺度的分类模型，能够得到不同尺度的特征；然后采用多尺度联合训练的方式，利用联合损失对整个网络结构进行梯度的反向传播和网络参数更新，可以将不同尺度特征的预测结果共同纳入到整个网络的优化，不仅能使分类模型能够自适应地关注不同尺度目标的信息，避免训练过程网络过拟合，还能实现各个尺度的特征均能够独立预测目标的类别信息；在预测时采用决策级融合的方式预测目标的类别信息，不仅可以有效提取不同尺度的目标的信息，同时，可以获得更可靠的预测结果。

Description

一种多尺度特征联合的遥感影像场景分类方法

技术领域

本发明涉及一种多尺度特征联合的遥感影像场景分类方法，属于遥感影像处理技术领域。

背景技术

遥感影像场景分类是指通过一定的技术和手段，将遥感影像切片赋予预先定义的类别信息，实现遥感影像的解译。因此，遥感影像场景分类在许多领域具有重要的实际应用价值，如农业、林业、地质调查、灾害评估以及军事情报的获取等。

传统基于人工设计特征的遥感影像场景分类方法(如视觉词包模型)等，通常缺乏高层次语义信息，已经无法满足海量影像数据处理的需求。卷积神经网络的出现，极大地提高了遥感影像场景分类的精度和效率。早期的研究人员将迁移学习应用于遥感影像场景分类任务中，对自然图片数据集训练好的卷积神经网络进行微调训练，能够取得远高于基于人工设计特征方法的分类精度。但由于遥感影像类内差异性、类间相似性以及尺度差异性等问题，这些方法一般无法有效兼顾不同尺度的影像，忽略了遥感影像的空间上下文信息，因此，针对遥感影像场景分类任务，必须重新设计适合遥感影像特点的卷积神经网络结构。现有研究表明，在卷积神经网络中增加注意力机制，有助于增强影像中感兴趣目标的显著信息、抑制冗余的噪声信息，提高遥感影像场景分类的精度。除了注意力机制外，提取遥感影像不同类型或不同尺度的特征融合后分类，可提高模型对不同尺度目标的适应性，从而达到提高场景分类精度的目的。

虽然上述方法都能取得很好的分类效果，但特征融合是一个复杂的过程，以上这些方法在利用不同尺度的特征进行融合时，都是将不同尺度的特征连接或相加，忽略了不同尺度特征之间差异，融合后的特征出现信息冗余的现象；此外，将不同尺度的特征融合后，使用同一个分类器进行分类，导致某一个尺度的特征在融合特征中占据主导地位，其他尺度特征无充分发挥其性能，进而影响最终的分类精度。

发明内容

本发明的目的是提供一种多尺度特征联合的遥感影像场景分类方法，以解决目前将多尺度特征融合后再进行分类预测使得各尺度特征无法充分发挥其作用导致的分类精度低的问题。

本发明为解决上述技术问题而提供一种多尺度特征联合的遥感影像场景分类方法，该分类方法包括以下步骤：

1)构建分类模型，所述的分类模型包括多尺度特征提取模块、多尺度注意模块、池化模块和分类器，所述多尺度特征提取模块用于提取不同尺度大小的特征，包括有低尺度特征、中尺度特征和高尺度特征；所述的多尺度注意模块用于分别对低尺度特征、中尺度特征采用空间注意力和通道注意力进行特征增强，得到特征增强后的低尺度特征和中尺度特征；所述池化模块用于分别对高尺度特征以及特征增强后的低尺度特征和中尺度特征进行池化处理；所述的分类器用于对池化处理后的各尺度特征分别进行类别预测；

2)采用联合损失函数所述分类模型进行训练，所述联合损失函数为低、中、高三个尺度分类的损失函数之和；

3)获取待分类的遥感影像，将其输入到训练后的分类模型中，根据低、中、高三个尺度的预测概率确定最终的分类结果。

本发明首先建立多尺度的分类模型，能够得到不同尺度的特征，该分类模型还能够对低尺度特征、中尺度特征进行特征增强，以抑制冗余信息，提高目标上下文信息的感知能力；然后采用多尺度联合训练的方式，利用联合损失对整个网络结构进行梯度的反向传播和网络参数更新，可以将不同尺度特征的预测结果共同纳入到整个网络的优化，不仅能使网络能够自适应地关注不同尺度目标的信息，避免训练过程网络过拟合，还能实现各个尺度的特征均能够独立预测目标的类别信息；在预测时采用决策级融合的方式预测目标的类别信息，不仅可以有效提取不同尺度的目标的信息，同时，可以获得更可靠的预测结果。

进一步地，所述的多尺度特征提取模块采用ResNet50模型，将ResNet50模型中Stage-3、Stage-4和Stage-5三个阶段输出的特征图分别作为低尺度特征、中尺度特征和高尺度特征。

本发明利用ResNet50模型的Stage-3、Stage-4和Stage-5三个阶段得到低、中、高三个尺度的特征，能够方便获取想要的尺度特征。

进一步地，低尺度特征和中尺度特征的大小分别是高尺度特征的4倍和2倍。

进一步地，所述的多尺度注意模块的处理过程如下：

将输入的特征进行卷积操作后输入到左、右两个分支，每个分支均按照通道进行拆分，分成N路特征，每路特征的通道数为拆分前通道数量的1/N；

对第一路特征进行卷积操作，得到第一路的卷积特征，将第一路卷积特征和第二路特征进行融合，融合后再进行卷积操作，得到第二路的卷积特征；将第二路的卷积特征和第三路特征进行融合，融合后再进行卷积操作，得到第三路的卷积特征；重复该过程，得到各路卷积特征；

将两个分支各路卷积特征分别进行拼接，并将每个分支的拼接特征输入到空间和通道注意力机制模型中，进而实现对输入特征的加强处理。

本发明通过将得到特征进行拆分，扩大特征图通道维度的感受野，提高每个通道特征图信息的丰富性；同时采用空间和通道注意力机制，对全部特征图进一步筛选，扩大图像有用信息和冗余信息的差异。

进一步地，所述的池化模块采用全局均值池化操作。

进一步地，所述的联合损失函数为：

L_s＝L_L+L_M+L_H

/>

其中y表示输入图像的真实类别，

分别表示低、中、高三个尺度的预测类别。

进一步地，所述步骤3)中最终的分类结果等于低、中、高三个尺度的预测概率的加权和。

进一步地，所述步骤3)在进行分类预测时，若待分类的遥感影像的目标较大时，中、高两个尺度的预测结果更加可靠；若待分类的遥感影像的目标较小时，中、低两个尺度的预测结果更加可靠。

本发明在面对大目标、小目标的分类时，都会有两个分类结果可靠，这样不会因为某一个结果出现偏差而影响最终的输出结果，能够有效兼顾目标尺寸差异较大影像，提高了模型预测的稳健性。

附图说明

图1是本发明多尺度特征联合的遥感影像场景分类方法所采用的分类模型的网络结构图；

图2本发明分类模型中多尺度注意模块的原理图；

图3a是包含大目标的待预测图像示例；

图3b是包含大目标的待预测图像经过Baseline方法提取的F_L特征的类激活图；

图3c是包含大目标的待预测图像经过JLMSF方法提取的F_L特征的类激活图；

图3d是包含大目标的待预测图像经过Baseline方法提取的F_M特征的类激活图；

图3e是包含大目标的待预测图像经过JLMSF方法提取的F_M特征的类激活图；

图4a是包含小目标的待预测图像示例；

图4b是包含小目标的待预测图像经过Baseline方法提取的F_L特征的类激活图；

图4c是包含小目标的待预测图像经过JLMSF方法提取的F_L特征的类激活图；

图4d是包含小目标的待预测图像经过Baseline方法提取的F_M特征的类激活图；

图4e是包含小目标的待预测图像经过JLMSF方法提取的F_M特征的类激活图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步地说明。

本发明利用预训练的深层卷积神经网络作为特征提取器，提取遥感影像低、中、高三个不同尺度的特征图；设计了多尺度特征注意力作用于低层次特征图和中层次特征图，增强中、低层特征图的语义信息；最后，采用全局均值池化的方式获取低、中、高三个不同层次特征图用于分类的特征向量。在训练过程，低、中、高三个尺度的特征向量分别对应三个平行的全连接层分类器，利用联合损失优化整个网络结构；在预测过程对三个分类器进行决策级融合。下面对本发明的具体实施步骤进行详细说明。

1.建立分类模型。

为了实现基于多尺度特征的分类，本发明建立的分类模型如图1所示，包括有多尺度特征提取模块、多尺度注意模块、池化模块和分类器。其中多尺度特征提取模块用于提取不同尺度大小的特征，包括有低尺度特征、中尺度特征和高尺度特征；多尺度注意模块用于分别对低尺度特征、中尺度特征采用空间注意力和通道注意力进行特征增强，得到特征增强后的低尺度特征和中尺度特征池化模块用于分别对高尺度特征以及特征增强后的低尺度特征和中尺度特征进行池化处理；分类器用于对池化处理后的各尺度特征分别进行类别预测。

具体而言，如图1所示，多尺度特征提取模块采用深层卷积神经网络ResNet50，ResNet50结构可以分为5个阶段，分别是Stage-1、Stage-2、Stage-3、Stage-4和Stage-5。输入的图像经过每个阶段，特征图的通道得以扩充，特征图的大小分别缩减为原来的1/2。Stage-1和Stage-2两个阶段，神经网络的层数还较少，不足以获取图像的语义信息。因此，我们使用Stage-3、Stage-4和Stage-5三个阶段输出的特征图，分别记为低尺度特征图F_L、中尺度特征图F_M和高尺度特征图F_H。假设输入图像的大小为256×256×3，则通过该网络得到的特征图F_L、F_M和F_H的大小分别为32×32×512、16×16×1024、8×8×2048。

遥感影像上不仅包含了人们所感兴趣的目标，同时也包含了大量且复杂的背景信息。特征图F_L和F_M的大小分别是特征图F_H的4倍和2倍，保留了更多的小尺寸目标信息，但也保留了更多的冗余背景信息；并且特征图F_L和F_M来自卷积神经网络的较浅层，其语义信息抽象程度和丰富程度与F_H相比也更差，这对图像分类任务是不利的。为了在保持F_L和F_M分辨率不变的情况下，增强其目标的显著信息，抑制冗余信息，提高目标上下文信息的感知能力。

本发明采用多尺度注意模块对特征图F_L和F_M进行特征增强，如图2所示，该多尺度注意模块将特征图进行拆分，扩大特征图通道维度的感受野，提高每个通道特征图信息的丰富性；同时采用空间和通道注意力机制，对全部特征图进一步筛选，扩大图像有用信息和冗余信息的差异。具体的处理过程如下：首先将输入的特征进行3×3卷积操作后输入到左、右两个分支，每个分支均按照通道进行拆分，分成N路特征，每路特征的通道数为拆分前通道数量的1/N，对本实施例而言，N为4，分别表示为X₁，X₂，X₃，X₄；

每个特征图X_i分别进行3×3卷积并与相邻的特征图进行融合，例如对第一路特征X₁进行卷积操作，得到第一路的卷积特征，将第一路卷积特征和第二路特征X₂进行融合，融合后再进行卷积操作，得到第二路的卷积特征；将第二路的卷积特征和第三路特征进行融合，融合后再进行卷积操作，得到第三路的卷积特征；重复该过程，得到各路卷积特征；记P_i ^p(·)表示3×3卷积操作，p表示位置，p∈{left,right}，Y_i ^p表示P_i ^p(·)输出结果，最终多通道特征融合后的结果输出结果Y_MSAM可表示为：

Y_MSAM＝CBAM(Y^left+Y^right)

式中，CBAM(·)表示空间和通道注意力机制，通过图2中MSAM的结构可以看出，特征图X_i经过P_i ^left(·)操作，都能够从特征图子集中{X_j,j≤i}获取信息；同时特征图X_i经过P_i ^right(·)操作，都能够从特征图子集中{X_j,i≤j}获取信息，通过级联叠加卷积层，X₁、X₂、X₃、X₄具有不同大小的感受野，将其连接起来，将有效聚焦影像上不同尺度的目标，极大地丰富了信息的多样性。

池化模块有三个，分别对应三种不同尺度特征，均采用全局均值池化GAP；分类器也有三个，分别对应三种不同尺度特征的进行分类预测，均采用全连接层。

2.对构建的分类模型进行训练。

不同于一般基于卷积神经网络的遥感影像场景分类方法仅使用一个全连接层进行影像分类，本发明设计了多尺度特征联合损失训练方法：利用全局均值池化将高层次特征图F_H、以及经过MSAM增强后的中层次特征图F_M和低层次特征图F_L转化为特征向量，每一个特征向量分别对应一个独立的分类器预测输入影像的类别信息。在训练阶段，将每一个全连接层的预测信息与输入图像的标签信息进行比较，根据交叉熵损失函数分别计算低、中、高三个尺度分类的损失L_L、L_M、L_H，并将三个损失相加计算联合损失L_S。

L_s＝L_L+L_M+L_H

式中，y表示输入图像的真实类别，

分别三个不同尺度的预测类别。利用联合损失对整个网络结构进行梯度的反向传播和网络参数更新，可以将不同尺度特征的预测结果共同纳入到整个网络的优化，不仅能使网络能够自适应地关注不同尺度目标的信息，避免训练过程网络过拟合，还能实现各个尺度的特征均能够独立预测目标的类别信息。

3.利用训练后分类模型对待分类的影像进行分类预测。

获取待分的遥感影像，将其输入到的训练好的分类模型中进行分类预测。具体而言，在预测阶段，本发明采用决策级融合的方式预测目标的类别信息，即将三个全连接层的预测概率相加，根据相加后的预测概率作为最终的分类依据。考虑到输入大目标时，中层次特征和高层次特征的分类器预测更可靠；输入小目标时，低层次特征和中层次特征的分类器更可靠。本发明在将三个全连接层的预测概率相加时采用加权和的方式，即对每个分类器设置的一个权值，当待分类影像的中目标为大目标时，中层次特征和高层次特征的分类器的结果更加可靠；当待分类影像的中目标为小目标时，中层次特征和低层次特征的分类器的分类结果更加可靠。本发明采用三个分类器的预测结果的融合，在不同情况下，都会有两个分类结果可靠，这样不会因为某一个结果出现偏差而影响最终的输出结果，能够有效兼顾目标尺寸差异较大影像，提高了模型预测的稳健性。

实验验证

为了更好地说明本发明的分类效果，现对本发明进行仿真实验。

1)实验数据选取和参数设置

本实验选取了大规模遥感影像场景分类数据集AID和NWPU-RESISC45，其中AID数据集共有30个类别，10000张影像，影像大小为600×600像素；NWPU-RESISC45数据集共有45个类别，31500张影像，影像大小为256×256像素。每个数据集分别选择一定比例的数据作为训练数据，其余数据作为测试数据，采用旋转和翻转的方式进行数据增强，计算5次训练和测试结果的均值作为最终结果。

本实验选择NVIDIA GeForce RTX 3090 24G显存的硬件设备，采用PyTorch构建卷积神经网络模型。训练参数设置如下：骨干网络初始学习率为0.01，其他部分初始学习率设置为0.001；总共训练50个轮次(epoch)，学习率采用指数衰减的方式，衰减因子为0.96；使用随机梯度下降算法对模型进行优化，权重衰减因子为0.0005，动量值为0.9；批处理大小为32。采用总体精度作为评价指标，其表示为分类正确的影像占全部测试影像的比例。

2)实验分析

本发明采用了多尺度注意力增强机制和多尺度特征联合训练方法。为了分别验证每个模块的效果，在AID和NWPU数据集上做了消融实验。使用ResNet50作为基准，在ResNet50提取不同尺度的特征图进行联合训练方法记为JL，本发明的分类方法为JLMSF。通过表1的结果可以看出，与仅使用最后高层次特征进行分类的Baseline方法相比，JL在AID和NWPU两个数据集精度分别提高约2.6％、1.5％和2.1％、1.2％，显然，综合利用不同尺度的特征进行分类是有效的。本发明在JL的基础上，对中、低尺度特征图进行特征增强，又可获得0.7％、0.3％和1.2％、0.9％的精度提升。

表1

为了进一步探究在联合训练方式，MSAM对中、低尺度特征图F_M和F_L以及联合预测方式的影响，对比了MASM对不同尺度特征分类精度。从表2可以看出，在无MSA的情况下，F_L的分类精度仅为87.6％(AID，Tr＝20％)和78.44％(NWPU，Tr＝10％)，明显低于F_M在两个数据集上的分类精度，这是符合预期的：F_L为低尺度特征图，位于卷积神经网络的较浅层，语义信息弱于位于更深层的中尺度特征图F_M。MSAM不仅可以显著提升F_M和F_L的分类精度，同时，联合预测结果也是有益的。为了更好地解释多尺度注意力模块的效果，本实验采用类激活图CAM对特征进行可视化，比较本方法与基准模型中F_M和F_L特征的差异。CAM颜色越亮，表示该位置语义特征越丰富，更有助于分类。对于大目标(操场)(如图3a所示)，来自Baseline中F_L的特征聚集在操场的两侧，如图3b所示；F_M的特征聚集在操场的四周，如图3d所示，不仅无法聚焦操场目标整体和中心，同时操场周边也存在着噪声斑点；本发明方法JLMSF中不仅有效抑制F_L和F_M周边的噪声斑点，也大大提升了对目标整体和中心的感知能力，如图3c和图3e所示。对于小目标(油罐)(如图4a所示)，通常尺寸较小且多个小目标整体呈无规则的面状分布，Baseline中F_M和F_L的特征非常稀疏，特别是低层次特征图F_L无法有效捕捉油罐的信息，如图4b和图4d所示；而JLMSF的F_L则可以有效兼顾不同尺寸的油罐目标(如图4c所示)，JLMSF的F_M对油罐分布范围的聚焦更明显(如图4e所示)，这正是得益于所设计的多尺度注意力。图中的可视化结果与表1中的结果是一致的：对中低尺度特征图进行多尺度注意力增强，有效增强了中低尺寸目标的显著特征，提高了语义信息，从而提高了分类精度。

表2

3)实验比对

将本方法与其他最新遥感影像场景分类方法进行比较，如表3所示。在两个数据集上，得益于多尺度注意力与多特征联合训练，本发明的分类方法不仅比在卷积神经网络中采用了注意力机制PANet50、ARCNet、RADC-Net和SAFF等方法，精度有显著提升，同时也比采用特征融合的FACNN、MSDFF、ACR-MLFF等方法性能更强，特别是训练比例越小的情况下，精度提升明显。

表3

本发明采用多尺度注意力机制用于提高中、低尺度深度特征的语义信息；在训练过程中，设计了多尺度联合训练的方式。多种尺度的综合使用与决策级融合的方式，不仅可以有效提取不同尺度的目标的信息，同时，可以获得更可靠的预测结果。通过在两个大规模的遥感影像数据上进行的实验，进一步验证了与其他方法相比，本发明的方法具有更强的分类性能。

Claims

1.一种多尺度特征联合的遥感影像场景分类方法，其特征在于，该分类方法包括以下步骤：

2.根据权利要求1所述的多尺度特征联合的遥感影像场景分类方法，其特征在于，所述的多尺度特征提取模块采用ResNet50模型，将ResNet50模型中Stage-3、Stage-4和Stage-5三个阶段输出的特征图分别作为低尺度特征、中尺度特征和高尺度特征。

3.根据权利要求2所述的多尺度特征联合的遥感影像场景分类方法，其特征在于，低尺度特征和中尺度特征的大小分别是高尺度特征的4倍和2倍。

4.根据权利要求1所述的多尺度特征联合的遥感影像场景分类方法，其特征在于，所述的多尺度注意模块的处理过程如下：

将两个分支的各路卷积特征分别进行拼接，并将每个分支的拼接特征输入到空间和通道注意力机制模型中，进而实现对输入特征的加强处理。

5.根据权利要求1所述的多尺度特征联合的遥感影像场景分类方法，其特征在于，所述的池化模块采用全局均值池化操作。

6.根据权利要求1所述的多尺度特征联合的遥感影像场景分类方法，其特征在于，所述的联合损失函数为：

L_s＝L_L+L_M+L_H

其中y表示输入图像的真实类别，

分别表示低、中、高三个尺度的预测类别。

7.根据权利要求1所述的多尺度特征联合的遥感影像场景分类方法，其特征在于，所述步骤3)中最终的分类结果等于低、中、高三个尺度的预测概率的加权和。

8.根据权利要求1所述的多尺度特征联合的遥感影像场景分类方法，其特征在于，所述步骤3)在进行分类预测时，若待分类的遥感影像的目标较大时，中、高两个尺度的预测结果更加可靠；若待分类的遥感影像的目标较小时，中、低两个尺度的预测结果更加可靠。