CN114266955A

CN114266955A - 一种遥感影像场景分类方法

Info

Publication number: CN114266955A
Application number: CN202010975267.8A
Authority: CN
Inventors: 郭海涛; 徐青; 余东行; 卢俊; 赵传; 林雨准; 刘相云; 王丹菂; 袁洲; 高慧
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-04-01

Abstract

本发明提供了一种遥感影像场景分类方法，属于图像处理领域。该方法包括：将待分类遥感影像输入已训练好的卷积神经网络，并提取卷积神经网络中至少两个卷积层输出的特征图，其中一个卷积层是卷积神经网络的最后一个卷积层，且各特征图的大小相同；利用改进的SE模块分别对每个特征图进行注意力增强；改进的SE模块通过在SE模块每个全连接层后增加一个批量归一化层，同时将SE模块中的激活函数全部替换为Hardtanh函数得到；将各增强特征图两两进行双线性池化得到相应的初始特征向量，将各初始特征向量拼接得到最终的特征向量；利用最终的特征向量实现待分类遥感影像的场景分类。本发明的最终特征具有较强可区分性，能在相似类别的场景上取得较高的识别精度。

Description

一种遥感影像场景分类方法

技术领域

本发明涉及一种遥感影像场景分类方法，属于图像处理技术领域。

背景技术

地球观测技术的巨大进步，为观测和理解地球表面变化提供了源源不断的遥感影像数据。如何充分利用海量遥感影像，对其进行有效分析和理解已成为当前迫切需要研究的热点和难点问题。遥感影像场景分类技术(RSISC)是遥感影像理解的重要内容之一，其主要任务是给大幅遥感影像中的切片添加预定义的标签信息，如机场、港口、农田、居民区等。预定义的场景类别标签通常是根据影像所覆盖地面范围功能确定，因此同一类型的遥感影像场景通常包含了多种类型的地物。不同于像素级信息和目标级信息，遥感影像场景分类是一种语义级的遥感影像分析方法，在森林和农田覆盖调查、地质灾害监测、目标检测和识别、城市环境规划和评估等方面具有广泛且重要的应用价值。

遥感影像场景分类的关键在于提取影像可区分性的特征。在过去的几十年，许多人工设计的特征被应用于计算机视觉领域的同时，也在遥感影像场景分类任务中也得到了长足的发展，如纹理描述符、颜色直方图、尺度不变特征变换、方向梯度直方图HOG和GIST特征等。对局部特征编码从而得到图像全局描述是遥感影像场景分类的主流方法，如IFK、VLAD、SPM和BoVW等。当场景类别较为简单且易区分时，这些方法可以取得不错的效果。随着遥感影像分辨率的提高，遥感影像数据量不断扩大、场景类别变得更加多样，这些人工设计的特征已经无法满足高精度场景分类的需求。幸运的是，深度学习技术的突破，为图像识别任务提供了高效的解决方案。Krizhevskey于2012年提出第一个应用于大规模图像数据集ImageNet的深层卷积神经网络AlexNet，在图像分类任务的性能远超传统人工设计特征的方法。此后，VGGNet、GooLeNet、ResNet、DenseNet等更高性能的卷积神经网络被设计出来用于图片分类、目标检测和语义分割等领域。遥感影像场景分类本质是图像的分类，因此一些学者开始将深层卷积神经网络应用于遥感影像场景分类任务中，大大提高了遥感影像场景分类的精度和效率，利用卷积神经网络进行遥感影像场景分类已成为目前的主流方法。然而，与ImageNet等自然场景图片分类任务相比，遥感影像具有三个特点：①较大的类内差异性；②较高的类间相似性；③遥感影像上的目标具有多方向性和多尺度性。由于这些特点的存在，要实现海量数据下场景类别的高精度、精细化分类仍面临很大的挑战。

综上所述，虽然目前基于卷积神经网络的图像识别技术已经成功应用遥感影像场景分类任务中，并取得了显著的分类性能。然而，随着影像分辨率的提高，遥感影像场景的类别更加多样，存在类内差异、类间相似等问题，即遥感影像的场景类别逐渐呈现多样化和细粒度化，相似或相近的类别在图像分布上越来越相似，导致也越来越容易混淆。普通的卷积神经网络在区分更复杂的遥感图像能力仍然有限，无法提取较强可区分性的特征，还不能完全解决遥感影像场景分类存在的类间相似和类内差异等问题，遥感影像场景分类效果差。

发明内容

本发明的目的在于提供一种遥感影像场景分类方法，用以解决现有方法无法提取较强可区分性的特征，遥感影像场景分类效果差的问题。

为实现上述目的，本发明提供了一种遥感影像场景分类方法，该方法包括以下步骤：

将待分类遥感影像输入已训练好的卷积神经网络，并提取所述卷积神经网络中至少两个卷积层输出的特征图，其中一个卷积层是所述卷积神经网络的最后一个卷积层，且各特征图的大小相同；

利用改进的SE模块分别对每个特征图进行注意力增强，得到每个特征图对应的增强特征图；所述改进的SE模块通过在SE模块每个全连接层后增加一个批量归一化层，同时将SE模块中的激活函数全部替换为Hardtanh函数得到；

将各增强特征图进行两两组合，分别对每个组合中的两个增强特征图进行双线性池化得到每个组合对应的初始特征向量，并将各初始特征向量进行拼接得到最终的特征向量；

利用所述最终的特征向量实现待分类遥感影像的场景分类。

本发明的有益效果是：首先利用卷积神经网络获取待分类遥感影像不同层次的深度特征，将不同层次的特征用于后续特征融合，以提高特征的多样性和有效性；其次设计了一种改进的SE模块，利用改进的SE模块对不同层次的特征进行增强，特征增强效果更加明显；最后对增强后的特征两两进行双线性池化，对双线性池化后的特征进行拼接，利用拼接后得到的最终特征进行遥感影像场景分类；本发明得到的最终特征具有较强可区分性，能够学习到遥感影像中相似类别的影像在空间上的差异，可以更加有效地区分细粒度化的遥感影像场景，能够在相似类别的遥感影像场景上取得较高的识别精度。

进一步地，为了在计算精度和计算量之间实现一个较好的平衡，在上述方法中，所述改进的SE模块中缩减因子的取值为2。

进一步地，在上述方法中，所述已训练好的卷积神经网络为CNN、ResNet50、VGG16或VGG19。

进一步地，在上述方法中，当所述已训练好的卷积神经网络为ResNet50时，提取ResNet50第5阶段中每个结构单元输出的特征图。

附图说明

图1是本发明方法实施例中的遥感影像场景分类方法(即HABFNet方法)流程图；

图2-1是现有技术中的SE模块示意图；

图2-2是本发明方法实施例中的改进的SE模块示意图；

图3是训练比例为20％情况下的HABFNet方法在UC Merced数据集上的混淆矩阵；

图4是训练比例为50％情况下的HABFNet方法在UC Merced数据集上的混淆矩阵；

图5是训练比例为20％情况下的HABFNet方法在AID数据集上的混淆矩阵；

图6是训练比例为50％情况下的HABFNet方法在AID数据集上的混淆矩阵；

图7是训练比例为10％情况下的HABFNet方法在NWPU-RESISC45数据集上的混淆矩阵；

图8是训练比例为20％情况下的HABFNet方法在NWPU-RESISC45数据集上的混淆矩阵。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

方法实施例：

如图1所示，本实施例的遥感影像场景分类方法(以下简称HABFNet方法)包括以下步骤：

步骤1：分层特征提取；

该步骤将待分类遥感影像输入到已训练好的ResNet50模型中实现分层特征的提取，其中，通过对已由ImageNet数据集预训练好的ResNet50模型进行参数微调得到已训练好的ResNet50模型。

下面结合图1和ResNet50的网络结构介绍分层特征提取的具体过程：

(1)如图1所示，待分类遥感影像的大小为224×224×3，将待分类遥感影像输入已训练好的ResNet50模型(即图1中虚线框内所示)；

(2)提取ResNet50模型中Stage5部分中Stage5-1层、Stage5-2层和Stage5-3层输出的特征图，得到3个大小均为2048×7×7的特征图，由于这3个特征图来自于不同的卷积层提取到的是待分类遥感影像不同层次的深度特征，因此将提取这3个特征图的过程称为分层特征提取。

ResNet50模型的网络结构的详细信息如表1所示：ResNet50模型包含49个卷积层和1个全连接层，49个卷积层又可分为5个部分(也称5个阶段)：Stage1，Stage2，Stage3，Stage4和Stage5。其中，Stage1部分只包含一个卷积层，卷积核的数量为64，卷积核的大小为7×7，步长为2；Stage2～Stage5部分都重复了相似的结构单元，每个结构单元都包含了3个卷积层，第一个卷积层卷积核的大小为1×1，第二个卷积层卷积核的大小为3×3，第三个卷积层卷积核的大小为1×1，区别在于结构单元的数量和每个结构单元中所采用卷积核的数量不同。在每个部分中，除了第一个结构单元外，其他结构单元都采用了特征跨层连接的方式。

由表1可以看出，Stage5部分包含了3个相同的结构单元，分别记为Stage5-1层、Stage5-2层和Stage5-3层，每个结构单元都包含了3个卷积层，第一个卷积层的卷积核数量为512、卷积核大小为1×1，第二个卷积层的卷积核数量为512、卷积核大小为3×3，第三个卷积层的卷积核数量为2048、卷积核大小为1×1。易知，Stage5部分中每个结构单元输出的特征图实际上是每个结构单元中卷积核数量为2048、卷积核大小为1×1的卷积层输出的特征图，且Stage5部分中每个结构单元输出的特征图大小相同，均为2048×7×7。

表1 ResNet50的网络结构

ResNet在卷积神经网络中引入了残差的概念，将网络的深度增加到上百层，在图像分类任务上的性能首次超过人类。ResNet是目前在图像分类和目标检测任务中应用最广泛的网络之一，后来的许多高效性能的卷积神经网络也都是ResNet的基础之上进一步改进得到，因此本实施例中，选用已训练好的ResNet50作为已训练好的卷积神经网络进行分层特征提取，并且与大多数利用深度卷积神经网络提取遥感影像特征时只提取Stage5-3层之后的特征不同，本实施例中将Stage5-1、Stage5-2和Stage5-3层输出的特征图都进行了使用，以利用不同层次的特征来获取图像更丰富、更具有区分性的特征；作为其他实施方式，还可以根据实际需要选用其他已训练好的卷积神经网络进行分层特征提取，例如CNN、VGG16或VGG19等，在保证提取的各特征图大小相同的情况下，只要提取的特征图数量不少于两个即可。例如当已训练好的卷积神经网络为VGG19时，与ResNet50类似，一般也是提取VGG19网络结构中最后阶段中每个结构单元输出的特征图。

步骤2：利用改进的SE模块分别对步骤1中提取的每个特征图进行注意力增强，得到每个特征图对应的增强特征图；

SE模块是一种通道注意力模块，其构造简单，在卷积神经网络中增加SE模块可以显著提升网络的性能。现有技术中的SE模块如图2-1所示，包含1个全局池化层(Globalpooling)和2个全连接层(Fully connected layer)，其中，第一个全连接层后使用ReLu作为激活函数，第二个全连接层后使用Sigmoid作为激活函数。SE模块的输入图像大小为h×w×c，SE模块中定义了缩减因子r用于调整全连接层的神经元数量，SE模块中缩减因子r取值为16时可以在精度和计算量之间实现一个较好的平衡。

SE模块利用特征图不同通道之间的相互关系来提高网络的性能。SE模块主要包含Squeeze、Excitation和Scale三个操作，从而实现对特征重新标定，本质上可以看作是对特征图的重新加权。

在SE模块中，输入特征图U首先被执行Squeeze操作，每个通道空间维度为H×W的特征将被压缩成一个具有全局感受野的通道描述值。Squeeze操作通常采用全局均值池化来完成，实现方式为：

式中，u_c为输入特征图U中第c个通道的特征图，u_c(i,j)为第c个通道的特征在位置(i,j)处的值，F_sq表示Squeeze操作，z_c为第c个通道的特征图得到的全局描述值。

为了充分利用Squeeze操作所提取到的信息，在Excitation操作中，采用了两层全连接神经网络对特征进行非线性变换。第一个全连接层后使用ReLu作为激活函数，第二个全连接层后使用Sigmoid作为激活函数，获得不同通道的权重值。Excitation操作的实现方式为：

s＝F_ex(z,W)＝σ(W₂δ(W₁z))

式中，z为Squeeze操作的输出结果，W₁和W₂为全连接层中的权重，δ表示激活函数ReLu，σ表示激活函数Sigmoid，F_ex表示Excitation操作，s为Excitation学习到的特征图U中不同通道对应的一组权重。

在Scale操作中，利用s对特征图U中不同通道进行重新加权：

式中，u_c和s_c分别表示特征图U中第c个通道的特征和权重，F_scale表示Scale操作，

表示经过加权后的特征。

在实验中发现，在遥感影像场景分类任务中，直接使用SE模块并不能取得有效的精度提升，因此本实施例通过对SE模块进行改进得到一种改进的SE模块，如图2-2所示。改进的SE模块通过在SE模块每个全连接层后增加一个批量归一化层(BatchNormalization)，同时将SE模块中的激活函数全部替换为Hardtanh函数得到。其中，改进的SE模块具有以下优点：(1)通过增加批量归一化层，利用批量归一化层对每一个批次的输入数据进行减均值、除标准差操作，使得后续激活函数的输入值满足标准正态分布，能够避免训练过程中的梯度消失，加快网络训练，提高网络性能；(2)HardTanh函数是Tanh激活函数的线性分段近似，相较而言，它更易计算，这使得学习计算的速度更快。本实施例中改进的SE模块中缩减因子r取值为2。作为其他实施方式，改进的SE模块中缩减因子r的取值可根据实际需要调整。步骤3：将步骤2中得到的各增强特征图进行两两组合，分别对每个组合中的两个增强特征图进行双线性池化得到每个组合对应的初始特征向量，并将各初始特征向量进行拼接得到最终的特征向量，利用最终的特征向量实现待分类遥感影像的场景分类。

如图1所示，本实施例中将步骤2中得到的3个增强特征图进行两两组合，共得到3个组合；分别对每个组合中的两个增强特征图进行双线性池化得到每个组合对应的初始特征向量，共得到3个初始特征向量，初始特征向量的大小为2048×1×1；然后将各初始特征向量进行拼接得到最终的特征向量，最终的特征向量的大小为6144×1×1；最后利用最终的特征向量实现待分类遥感影像的场景分类，分类结果中包含airport、airplane、baseball diamond等。

下面对双线性池化进行简单介绍：双线性池化的核心思想是利用两个卷积神经网络提取同一图像的两组特征图A和B，在同一位置上对两组特征图进行融合运算(外积运算)，从而获得新的特征图；对新特征图上所有位置进行池化(求和池化、最大池化或均值池化)得到双线性向量；对双线性向量进行平方根和L2归一化操作后得到的特征，用于细粒度图像分类。

如果特征图A和B来自两个特征提取器，这种双线性池化被称为多模双线性池化(MBP，Multimodal Bilinear Pooling)；如果特征图A和B来自同一个特征提取器，即A＝B，这种双线性池化被称为同源双线性池化(Homogeneous Bilinear Pooling，HBP)或者二阶池化(Second-order Pooling)。

假若卷积神经网络提取图像I的特征图为

同源双线性模型的输出结果Z可表示为：

Z＝P^T(Q^TX*R^TX)

假若两个不同的特征提取器提取图像I的特征图分别为

则异源双线性模型的输出结果Z可表示为：

Z＝P^T(Q^TX*R^TY)

式中，

为可对特征图进行变换和降维的投影矩阵，

为分类矩阵，*为Hadamard积。h,w,c分别为特征图X、Y的高度、宽度和通道数量，d为特征图经投影矩阵变换后的通道数量，o为输出类别的数量。

若

为同一卷积神经网络不同层的特征图时，可对这三个特征图进行跨层双线性池化和特征融合，即先将这三个特征图两两组合进行双线性池化，再将池化后的结果连接融合后进行softmax分类。HBP算法中，在进行跨层双线性池化之前，采用普通的卷积层分别对特征图X,Y,Z进行特征增强，然后对增强后的各特征图进行跨层双线性池化和特征融合，利用融合后的特征向量实现待分类遥感影像的场景分类，HBP算法的输出结果Z_HBP可用下式表示为：

Z_HBP＝P^Tconcat(Q^TX*R^TY,Q^TX*S^TZ,R^TY*S^TZ)

式中，P为分类矩阵，

分别为普通的卷积层的数学表达形式，即普通的卷积层构成的投影矩阵。

在实际应用中发现利用普通的卷积层并不能对特征图进行有效增强，因此，本实施例的HABFNet方法提出在进行跨层双线性池化之前，利用改进的SE模块分别对特征图X,Y,Z进行注意力增强，然后对增强后的各特征图进行跨层双线性池化和特征融合，利用融合后的特征向量实现待分类遥感影像的场景分类，HABFNet方法的输出结果Z_HABF可表示为：

式中，

分别为改进的SE模块的数学表达形式，即改进的SE模块所构成的投影矩阵。

下面通过实验对本实施例的HABFNet方法的有效性进行验证：

1、实验数据

1.1UC Merced Dataset

UC Merced数据集发布于2010年，该数据集中的图像来源于United StatesGeological Survey(USGS)National Map，范围覆盖了美国20多个地区，包含2100张RGB彩色影像，每个场景类别影像各100张。每张影像的大小为256*256像素，像素分辨率为30cm。UC-Merced数据集共有21个场景类别，分别为agricultural,airplane,baseball diamond,beach,buildings,chaparral,dense residential,forest,freeway,golf course,harbor,intersection,medium residential,mobile home park,overpass,parking lot,river,runway,sparse residential,storage tanks,and tennis courts。

1.2AID Dataset

AID数据集发布于2017年，该数据集中的影像来源于谷歌地球影像，范围覆盖了多个国家和地区。AID数据集包含了30个类别、共10000张RGB彩色图像，但每个类别的图像数量从220张到420张不等。该数据集中的影像大小为600*600像素，像素分辨率从8m到0.5m不等，这进一步增大了分类的挑战。这30个类别为airport,bare land,baseball field,beach,bridge,center,church,commercial,dense residential,desert,farmland,forest,industrial,meadow,medium residential,mountain,park,parking,playground,pond,port,railway station,resort,river,school,sparse residential,square,stadium,storage tanks and viaduct.

1.3NWPU-RESISC45 Dataset

NWPU-RESISC45数据集发布于2017年，涵盖了45个场景类别，范围覆盖了100多个国家和地区，共31500张RGB彩色遥感影像。每个类别包含700张、大小为256*256像素的图像，其空间分辨率从30m到0.2m不等。这45个类别为airplane,airport,baseball diamond,basketball court,beach,bridge,chaparral,church,circular farmland,cloud,commercial area,dense residential,desert,forest,freeway,golf course,groundtrack field,harbor,industrial area,intersection,island,lake,meadow,mediumresidential,mobile home park,mountain,overpass,palace,parking lot,railway,railway station,rectangular farmland,river,roundabout,runway,sea ice,ship,snowberg,sparse residential,stadium,storage tank,tennis court,terrace,thermalpower station,and wetland.NWPU-RESISC45数据集规模大、类别多、影像差异大，是目前最具挑战性的遥感影像场景分类数据集之一。

2、实施细节

在进行实验前将数据划分为两部分：训练集和测试集。训练集中的数据用于训练模型，当模型训练损失和精度趋于稳定时，对测试集的数据进行预测，以验证模型的泛化性。

为了充分利用有限的训练数据，避免过拟合的问题，将训练集中的影像分别顺时针旋转90°、180°、270°，并进行水平翻转和垂直翻转，从而将训练集中的数据扩大至原来的6倍。为了便于与其他方法进行比较，训练比例的设置与公开的论文保持一致。对于UC-Merced数据集，分别随机抽选20％、50％、80％的数据作为训练集，其余数据作为测试集。对于AID数据集，训练比例设置为20％和50％。对于NWPU-RESISC45，训练比例设置为10％和20％。采用总体平均精度和混淆矩阵对本实施例方法的结果进行评估。总体精度计算方式为正确分类的图像数量除以全部测试图像的数量。为了降低训练集和测试集划分的随机因素的影响，在每个数据集上、每种训练比例下，训练集中的影像均是从全部影像中随机抽取，并进行5次试验，并计算5次总体精度的均值和标准差。

本实施例使用深度学习框架PyTorch构建模型。模型的输入大小为224*224*3像素，使用随机梯度下降算法对模型进行优化，批处理大小为32。学习率采用分段设置：特征提取部分的初始学习率为0.01(特征提取部分加载预训练的ResNet50权重作为初始值)，注意力增强层和分类层的初始学习率为0.1，每经过10个轮次学习率降为原来的0.5倍。模型总共训练60个epoch，权重衰减因子为0.00001，动量值为0.9。模型的训练在3.2GHz 16核i7-6900K处理器、64GB RAM的电脑上实施。另外，一个有11GB显存的GTX1080TI用于加速。

3、不同数据集上的实验结果对比

3.1UC Merced Dataset

在UC Merced数据集上，本实施例方法与最新方法的性能对比如表2所示。相对于其他数据集，UC Merced数据集类别数量较少、不同类别之间的差异性也较为明显，该数据集发布之时主要用于测试基于人工设计特征分类方法的性能。

利用该数据集进行测试时，大多数方法设置训练比例为80％，其分类总体精度已经趋近于99.50％，在这种训练比例下，本实施例方法总体精度可以达到99.29％，超过绝大多数场景分类方法。虽然在训练比例为80％的情况下，ARCNet、CNN-CapsNet和GBNet总体精度均超过或接近99％，但在训练比例为50％的情况下，本实施例方法相比ARCNet、CNN-CapsNet、GBNet总体精度分别提高1.66％、0.88％，1.42％。目前很少有方法设置训练比例为20％，主要是因为训练数据较少易产生过拟合的问题。例如利用20％的影像训练ResNet50时，总体精度仅为74.11％，训练Siamese ResNet50时总体精度也仅提高至76.50％。Fusion by Addition算法中将VGG16当作特征提取器，对提取的特征采用相加融合的方式，在20％训练比例下，总体精度为92.96％，而本实施例方法总体精度可以达到96.95％，说明本实施例方法的特征融合方式比简单的相加融合更加高效。

表2在UC Merced数据集上本实施例方法与最新方法的性能对比表

图3和图4分别为训练比例为20％和50％情况下的HABFNet在UC Merced数据集上的混淆矩阵，图中纵坐标为True Classes(真实类别)、横坐标为Predict Classes(预测类别)，对角线上黑框内的数据是相应类别的识别精度，例如agricultural这一类别的识别精度为99％。

结合图3和图4可以看出：训练比例为20％的情况下，21个类别中有19个类别分类精度在91％以上。分类最差的是dense residential(精度84％)和mobile home park(精度86％)。dense residential的一部分影像被误认为是buildings和medium residential，主要是dense residential、buildings和medium residential这三类影像上的主要地物为建筑物，区别只在于建筑物的稠密程度不同。训练比例为50％时，21个类别中有20个类别分类的精度在96％以上，dense residential(精度86％)的精度仍是其中最低。但是在相同情况下，CNN-CapsNet算法对dense residential分类精度为仅为80％。这意味着本实施例方法能够学习到相似类别的影像在空间上的差异，并能够更加有效的进行区分细粒度化的场景。

3.2AID Dataset

利用AID数据集进行测试时，采用20％和50％两种训练比例。本实施例方法与最新方法的性能对比如表3所示。从表3可以发现，在训练比例为20％和50％时，本实施例方法的总体分类精度分别达到95.48％和96.95％，均超过绝大多数最新方法，特别是在20％训练比例下，本实施例方法的优势更加明显。

MSCP、D-CNN、SF-CNN、CNN-CapsNet、MSDFF和DDRL-AM这五种具有竞争性的算法，训练比例为50％时总体精度与本实施例方法相接近，但当训练比例为20％时，本实施例方法与它们相比总体精度分别提高约3.27％、4.66％、1.88％、1.69％、2.01％和3.12％。Fusionby Addition算法对提取的特征采用相加融合的方式，在50％训练比例下，总体精度为91.87％；MSDFF算法采用了三种流行的卷积神经网络结构作为特征提取器，对特征采用连接融合的方式，在20％训练比例下，总体精度为93.47％。GBNet算法在特征融合的过程中同样使用了分层特征，但在两种训练比例下，本实施例方法总体分类精度比GBNet分别高出3.28％和2.27％。FACNN汇聚了多个层的特征进行融合，在50％训练比例下，总体精度比HABFNet低1.80％。这四种特征融合方法的性能均明显弱于本实施例方法，这验证了本实施例方法特征融合的方式具有更加优异的分类性能，显著提高了AID数据集的评价基准。

表3在AID数据集上本实施例方法与最新方法的性能对比表

图5和图6分别为本实施例方法在AID数据集上不同训练比例下的混淆矩阵。在训练比例为20％情况下，30个类别中有27个类别的精度在91％以上，精度最低的类别为resort(精度77％)、school(精度82％)和park(精度86％)，而CNN-CapsNet算法只有24个个类别的精度在91％以上，其中精度最低的三类为school(精度68％)、resort(精度73％)和center(精度81％)；对分类精度较低的三个类别进行分析发现，在细节上，resort、school和park这三类影像以建筑物和植被为主，纹理信息较为相似，这是其难以有效区分的主要原因，当训练比例提高为50％时，本实施例方法在这三个易混淆的类别精度能提高至85％，87％和88％。以上实验结果表明，在相同训练比例下，本实施例方法与CNN-CapsNet算法相比能取得更高的类别精度，并且本实施例方法在三个易混淆类别上的识别精度也高于CNN-CapsNet算法，且当适当提高训练比例后，本实施例方法对这三个易混淆类别的识别精度能进一步提高，说明本实施例方法适用于解决遥感影像场景类别所存在的类间相似问题。

3.3NWPU-RESISC45 Dataset

在NWPU-RESISC45数据集上，训练比例为10％和20％时，本实施例方法与最新方法的性能对比如表4所示。NWPU-RESISC45数据集上，本实施例方法的总体精度分别到达92.75％和94.54％。训练比例为20％时，本实施例方法性能优于绝大多数方法，仅弱于FDPResNet。FDPResNet采用了ResNet101提取特征，并结合了PCA对浅层特征和深层特征进行融合，这并不能实现端对端的训练和预测，并且计算量和复杂度高于本实施例方法。本实施例方法比最新的三种方法GLANet、DDRL-AM和MSDFF，总体精度分别提高1.09％、3.08％和1.99％。在训练比例为10％的情况下，本实施例方法比最新的四种方法GLANet、FDPResNet、DDRL-AM和MSDFF，总体精度分别提高1.62％、0.43％、0.58％和1.19％，可见本实施例方法在越少训练数据的情况下，相对其他方法优势也越明显。

表4在NWPU-RESISC45数据集上本实施例方法与最新方法的性能对比表

图7和图8分别为本实施例方法在NWPU-RESISC45数据集上不同训练比例下的混淆矩阵，可以进一步观测不同类别被错误分类的情况。在训练比例为10％的情况下，本实施例方法精度较低于90％的类别共的类别仅11个：church(精度74％)、commercial area(精度88％)、dense residential(精度87％)、freeway(精度87％)、medium residential(精度89％)、palace(精度72％)、railway station(精度83％)、runway(精度89％)、wetland(精度0.83％)。其中由于church和palace在影像上具有相似的建筑风格，因此这两个类别最易混淆，精度最低，14％的church被误识别为palace，11％的palace被误识别为church。当训练比例提高为20％时，本实施例方法虽然仍有13％的church被误识别为palace，11％的palace被误识别为church，但仅有6个类别精度低于90％，而CNN-CapsNet有9个类别精度低于90％说明本实施例方法的类别识别精度仍要高于CNN-CapsNet算法。

3.4注意力机制对特征增强的效果验证

本实施例方法的基本思想是将用于细粒度图像分类的HBP算法应用于遥感影像的场景分类，并在HBP算法中引入注意力机制。为了进一步验证注意力机制对特征增强的效果，在三个数据集上均对比了原始的HBP算法、引入SE模块的HBP算法和引入改进SE模块的HBP算法的性能，结果分别如表5，表6和表7所示。

原始HBP算法在提取分层特征后采用普通的卷积层对分层特征图进行增强再进行双线性池化等操作，该算法利用双线性池化获得图像的二阶信息，并对二阶信息进行连接融合，能够获取到强鲁棒性的特征，无需任何改进，在三种数据集上均能达到较高的分类精度。在训练比例为20％的情况下，HBP在UC Merced、AID、NWPU-RESISC45三种数据集上的总体精度分别为96.31％、94.84％和92.75％，已经超过绝大多数最新的场景分类方法。

引入SE模块的HBP算法是在提取分层特征后，先利用SE模块对分层特征进行增强再进行双线性池化等操作，SE模块是一个被认为能够有效增强自然图像分类模型性能的模块，然而，直接将SE应用在HBP算法中，反而会降低HBP算法的性能。在三个数据集上、不同训练比例下，增加SE模块的HBP算法的总体精度均明显低于原始的HBP算法。

而在HBP算法引入改进的SE模块，在一定程度上提高了HBP算法在遥感影像场景分类的精度。在UC Merced数据集上，训练比例为20％和80％时，本实施例方法相比HBP总体精度分别提高0.64％和0.35％；在AID数据集上，训练比例为20％和50％时，本实施例方法相比HBP总体精度分别提高0.64％和0.27％；在NWPU-RESISC45数据集上，训练比例为10％和20％时，本实施例方法相比HBP总体精度分别提高0.55％和0.33％。由此可见，当训练数据越少时，改进的SE模块对模型性能提升越为明显，本实施例方法相比HBP总体精度提高的越多，也就是说，本实施例方法更适于训练比例较少的情况，分类精度不会因训练集减少而降低。

表5在UC Merced数据集上HBP、HBP with SE、HABFNet方法的性能对比表

表6在AID数据集上HBP、HBP with SE、HABFNet方法的性能对比表

表7在NWPU-RESISC45数据集上HBP、HBP with SE、HABFNet方法的性能对比表

本实施例受细粒度图像分类任务和深度学习的注意力机制的启发，针对遥感影像场景分类任务，提出一种基于注意力机制和双线性池化的特征融合算法，称为分层注意力双线性融合网络(Hierarchical Attention and Bilinear Fusion Net，HABFNet)。利用ResNet50提取图像不同层次的特征，然后利用通道注意力机制对特征进行增强，接着对增强后的特征进行跨层双线性池化和融合，最后利用融合后的特征实现遥感影像场景分类。总而言之，本实施例方法的主要贡献如下：

·将图像细粒度分类任务中的分层双线性池化方法引入遥感影像场景分类任务中，经过试验验证了，相比普通的卷积神经网络模型，分层双线性池化模型能够提取更有效的特征表示，可以有效区分遥感影像场景更加精细化的类别；

·将注意力机制引入遥感影像场景分类任务，并改进了通道注意力机制，改进后的通道注意力机制特征增强效果更加明显；

·设计了一个端对端遥感影像场景分类算法HABFNet，通过将特征的跨层双线性融合和注意力机制结合使用，在三个广泛使用的具有挑战性的数据集上进行实验，结果表明与最新方法相比，HABFNet可以获得更好的结果。

Claims

1.一种遥感影像场景分类方法，其特征在于，该方法包括以下步骤：

利用所述最终的特征向量实现待分类遥感影像的场景分类。

2.根据权利要求1所述的遥感影像场景分类方法，其特征在于，所述改进的SE模块中缩减因子的取值为2。

3.根据权利要求1或2所述的遥感影像场景分类方法，其特征在于，所述已训练好的卷积神经网络为CNN、ResNet50、VGG16或VGG19。

4.根据权利要求3所述的遥感影像场景分类方法，其特征在于，当所述已训练好的卷积神经网络为ResNet50时，提取ResNet50第5阶段中每个结构单元输出的特征图。