CN114913382A

CN114913382A - 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法

Info

Publication number: CN114913382A
Application number: CN202210684260.XA
Authority: CN
Inventors: 赵晋陵; 刘盼; 储国民; 黄林生; 雷雨; 汪传建; 黄文江
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-08-16

Abstract

本发明提供了一种基于CBAM‑AlexNet卷积神经网络的航拍场景分类方法。通过改进的深度卷积神经网络模型—CBAM‑AlexNet，用于场景分类任务。首先，在经典网络AlexNet的原模型上进行改进，将原模型中的局部响应归一化LRN(Local Response Normalization)层和ReLU激活函数使用批归一化BN(Batch Normalization)层和h‑Swish激活函数进行替换。然后在改变后的网络中加入卷积块注意力模块CBAM(Convolutional Block AttentionModule)，充分利用图像的空间信息与通道信息。经过一些预处理后的数据在新构建的模型上的表现与另外几种常用的经典网络的表现而言要更为优秀。

Description

一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法

技术领域

本发明涉及场景分类技术领域，具体而言，涉及一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法。

背景技术

遥感影像是研究地球环境不可或缺的工具，使我们能够对地球表面的结构进行详细地测量，在对地观测任务中提供了准确可靠的数据源。目前可用的对地观测仪器(如多/高光谱、合成孔径雷达等)生成了越来越多不同分辨率的机载或卫星图像，从而提出了通过遥感影像实现对地观测这一任务的重要前提要求：如何高效地对机载或空间平台仪器获得的场景影像进行智能鉴别与分类。遥感影像场景分类任务的要求就是按照影像的主要内容给其分配一个具有唯一性的语义标签，从而了解该影像属于哪一种类别，这也是现代遥感技术研发的重要基石，所以它也成为了航空与卫星影像分类领域的一项重要科研热点。

在早期由于技术等原因，遥感影像的空间分辨率都非常低，因此像元的大小通常比感兴趣对象的大小更粗，最理想的情况也只是相似。所以在研究的初始阶段，大多数利用遥感影像进行图像分析的方法都是基于像元级，即为遥感影像中的每个像元分配一个特定的主题类。然而，随着遥感技术的进一步发展，遥感影像的像素被逐渐细化。感兴趣对象的组成也从单个像元变为多个像元，这大大增加了类内变化，单个像元不再是孤立的而是相互依赖构成了一个具有一定空间图案的图像。在这种情况下，单个像元在区分不同主题类时会迅速失去主题意义和判别效率，所以仅简单地依赖像元级对遥感场景影像进行有效解译，通常情况下是很困难的，有时候甚至是完全不可能的。

虽然像元级和面向对象两种分类方法在一些典型的土地利用和识别任务中展现出了不俗的性能表现，但随着图像空间分辨率的提高，遥感场景变成由不同的主题类组成，揭示这些主题类的上下文，即场景的语义信息，成为了研究中的重要内容。像元，甚至是超像元，承载的语义信息很少，显然不足以支持正确地识别主题类。随着机器学习和深度学习理论的快速发展，出现了另一种研究方向——基于语义层次的遥感影像场景分类，目的是将每个场景图像标记为特定的语义类别，这里所提及的场景图像多数情况下是指大尺度航空或卫星影像中包含的具有明确语义类别的局部区域。

在遥感技术兴起之后，遥感影像场景分类在各个方面都有着广泛的应用。然而遥感影像庞大的数量以及其几何结构和空间布局的高复杂性，远远超出了人工处理能力的范围，单靠人工无法进行及时、有效地处理，因此如何利用计算机进行有效且高效的分类就成为主要研究问题。为完成遥感影像场景分类这项具有挑战性的任务，人们在各种分类方法的开发上做出了巨大努力。

发明内容

本发明的目的是以AlexNet为基础，对其加以改进并加入CBAM注意力模块构成一个新的网络架构，提高航拍场景分类的准确度问题。与现有技术相比解决了航拍场景分类精度不理想的缺陷。

本发明的第一方面提供了一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法,所述方法包括：

S1，获取待分类的航拍场景图像，并进行预处理；

S2，根据CBAM-AlexNet卷积神经网络模型对所述航拍场景图像进行航拍场景图像分类，并输出分类结果；其中，所述CBAM-AlexNet卷积神经网络模型中，在其模型的后两层卷积层中将激活函数设置为h-Swish函数，其余层则使用ReLU激活函数；所述CBAM-AlexNet卷积神经网络模型的卷积层中还包括有卷积块注意力模块CBAM。

进一步，所述方法还包括对CBAM-AlexNet卷积神经网络模型进行构建，包括：

S21，在构建CBAM-AlexNet卷积神经网络模型中，将使用BN层取代LRN层；对于激活函数，使用h-Swish函数代替部分ReLU激活函数，其余层仍然使用ReLU激活函数；所述h-Swish函数表示为：

对于CBAM-AlexNet卷积神经网络模型的归一化层，采用全添加BN层方式；

S22，CBAM-AlexNet卷积神经网络模型卷积层中加入CBAM模块。

进一步，所述CBAM模块包括通道模块CAM以及空间模块SAM；

所述CBAM-AlexNet卷积神经网络模型卷积层中加入CBAM模块，包括：

S221，在所述通道模块CAM中，平均池化操作AvgPool和最大池化操作MaxPool被分别应用于输入特征；经两种池化操作后的特征被引入多层感知机MLP，以产生通道注意力图；以元素相加的方式将两个输出图结合起来计算通道注意子模块，通道注意力M_C的表示：

M_C(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))；

其中，σ指的是应用的sigmod函数；

S222，在所述空间模块SAM中，空间模块SAM沿通道轴应用平均池化AvgPool和最大池化MaxPool过程，并通过卷积层生成空间注意图；空间注意M_S的计算公式显示如下：

M_S(F')＝σ(f([AvgPool(F'),MaxPool(F')]))；

式中，σ指的是sigmoid函数，f表示卷积层运算。

S223，将待训练的航拍场景图像输入到搭建好的CBAM-AlexNet卷积神经网络模型，并引入空间注意力及通道注意力，对待训练的航拍场景图像中的特征进行选择性训练；得到训练模型。

进一步，所述对待训练的航拍场景图像中的特征进行选择性训练，包括：

获取待训练的航拍场景识别数据集作为训练样本，并进行预处理；

基于构建的CBAM-AlexNet卷积神经网络模型，将待训练的航拍场景图像输入CBAM-AlexNet卷积神经网络模型，并引入空间注意力及通道注意力，对待训练的航拍场景图像中的特征进行选择性训练。

进一步，所述预处理包括：

对每张图像进行随机裁剪，制作出两张符合模型输入尺寸的图像，并且随机翻转，借此进行扩展训练样本数据。

本发明的第二方面提供了一种电子装置，所述电子装置包括：一个或多个处理器，存储器，所述存储器用于存储一个或多个计算机程序；其特征在于，所述计算机程序被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1-5任一项所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法步骤。

本发明的第三方面提供了一种存储介质，所述存储介质存储有计算机程序；所述程序由处理器加载并执行以实现如权利要求1-5任一项所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法步骤。

本发明的方案中，通过首先使用基于CBAM-AlexNet卷积神经网络的航拍场景分类方法。在经典网络AlexNet的原模型上进行改进，将原模型中的局部响应归一化(LRN)层和ReLU激活函数使用批归一化(BN)层和h-Swish激活函数进行替换，并加入卷积块注意力模块(CBAM)，使网络模型在通道和空间两个维度上关注重点信息。新的深度学习模型CBAM-AlexNet的具体结构通过在WHU-RS19数据集上的实验确定，并将最终确定的CBAM-AlexNet模型在UC-Merced和AID两个数据集上进行实验验证。数据集在进行实验前会进行一些简单的预处理工作来增加样本量。之后，再和两个经典的CNN网络：AlexNet和VGG-16，进行对比论证。实验结果表明，CBAM-AlexNet模型解译场景影像的有效性相较于其他两种经典网络有所提高。在UC-Merced数据集上，CBAM-AlexNet模型的测试准确率达到了98.64％(测试与训练的样本比例为2:8)，比AlexNet高出4.24％，比VGG-16也要高出1.89％。该模型在AID数据集上的实验结果也达到了94.08％(测试与训练的样本比例为5:5)，相较于AlexNet和VGG-16两个经典模型的准确率分别高出7.26％和4.84％。因此，本发明的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法与现有技术相比在遥感影像数据量大、运行时间长、分类精度不高等挑战的情况下，也能得到较理想的遥感影像分类结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例公开的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法的流程示意图。

图2是本发明实施例公开的基于CBAM-AlexNet卷积神经网络模型执行航拍场景分类的具体效果流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

AlexNet网络系列，AlexNet的结构共有8层的神经网络，其中5层为卷积池化层(3、4层只有卷积操作无最大池化)，剩余均为全连接层。原AlexNet模型是为ImageNet数据集设计的，数据标签共1000类，因此最后一层全连接层的采用的是Softmax激活函数，并且输出为1000维。除去第8层为Softmax函数外，前7层都为ReLU激活函数。后三层全连接层为了防止过拟合，引入Dropout，使部分神经元失活。

CBAM是一种于2018年提出的注意力模块，可以同时利用通道和空间维度上的信息。该方法有两个子模块：通道模块(CAM)和空间模块(SAM)，这两个注意力模块具有不同的功能：用CAM突出输入图像提供的代表性信息；SAM聚焦于对图像有贡献意义的代表性区域。此外，两个子模块都强调了“什么”和“在哪里”的概念。

请参阅图1，图1是本发明实施例公开的一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法的流程示意图。如图1所示，本发明实施例的一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法,包括：

S1，获取待分类的航拍场景图像，并进行预处理；

具体地，可以通过获取待分类的航拍场景图像进行预处理，其中，这里的预处理操作可以是对每张待分类的航拍场景图像进行随机裁剪，制作出两张符合模型输入尺寸的图像。

具体地，本实施例，CBAM-AlexNet卷积神经网络模型中，首先，对AlexNet网络的改进：原AlexNet网络在使用ReLU激活函数后增加了局部响应归一化(LRN)，在新构建的CBAM-AlexNet模型中，将使用BN层取代LRN层。对于激活函数，在新构建的模型中将使用h-Swish函数(Searching for MobileNetV3)代替部分ReLU激活函数。其次，对于CBAM-AlexNet网络构建：通过在原始AlexNet网络上的改动外，新的模型还在卷积层中加入了CBAM模块，充分利用图像的通道和空间信息，关注与任务相关的重点信息。

对于CBAM-AlexNet卷积神经网络模型的归一化层，采用全添加BN层方式。

S22，CBAM-AlexNet卷积神经网络模型卷积层中加入CBAM模块。

具体地，随着网络的深入，应用非线性激活函数的成本会降低，能够更好的减少参数量。而在更深的层中使用Swish能更加有效的提高网络的性能，因此只在新模型的后两层卷积层中将激活函数替换为h-Swish函数，其余层仍然使用ReLU激活函数。对于归一化层的设计，结合Dropout层进行了几组对比实验，例如不添加BN层；只在1、2层卷积层添加BN；卷积层都添加BN等。从实验结果的对比来看，BN层对于最后的准确率的影响是很大的，全添加BN层的准确率比仅在1、2层卷积层添加BN层的准确率要高6.6％。因此，新的网络模型采用全BN层的设计。

除了上述两处在原始AlexNet网络上的改动外，新的模型还在卷积层中加入了CBAM模块，充分利用图像的通道和空间信息，关注与任务相关的重点信息。对于CBAM添加的位置，同样进行了几组不同的对比实验：1、添加一层；2、添加两层；3、添加三层；4、添加四层；5、添加五层。虽然最终的结果相差不大，在2％之内，但相对而言，第五种结构的结果略优。以上确定新模型结构的实验都是在WHU-RS19数据集上进行的。之所以选用WHU-RS19数据集，是因为其场景种类和类别都较少，实验时间花费相对较少。数据在送入模型前需对其进行与后续实验数据集类似的预处理。训练好模型后，随机抽取每个类别50％的样本量进行验证，使用准确率作为最终结果呈现。具体构造见表2.1。

表2.1 AlexNet-CBAM网络结构

进一步，所述CBAM模块包括通道模块CAM以及空间模块SAM；

M_C(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))；

其中，σ指的是应用的sigmod函数；

M_S(F')＝σ(f([AvgPool(F'),MaxPool(F')]))；

式中，σ指的是sigmoid函数，f表示卷积层运算。

将待训练的航拍场景图像输入到搭建好的CBAM-AlexNet网络，并引入空间注意力及通道注意力，对待训练的航拍场景图像中的特征进行选择性训练；得到训练模型。

具体地，本实施例，实验中使用到的两个数据集的图像尺寸都要大于CBAM-AlexNet模型的输入尺寸(224×224)。因此，数据在被输入模型前，会进行预处理工作，即对每张图像进行随机裁剪，制作出两张符合模型输入尺寸的图像，实验时并且随机翻转，借此进行扩展数据。对于UC-Merced数据集的裁剪是直接在原始图片上进行的，经实验表明先将原图片的尺寸缩小为300×300，再进行随机裁剪的效果是最好的。其中，WHU-RS19数据集中的图像收集自Google Earth，这些图片的大小为600×600，像素分辨率不同，最高达半米。该数据集最初只包含12类场景，每个类别有样本数不等。后来，文献“Sheng G,Yang W,XuT,et al.High-resolution satellite scene classification using a sparse codingbased multiple feature combination[J].International journal of remotesensing,2012,33(8):2395-2412.”中Sheng等人将数据集增加了7个类别，扩展到19个类别，共由1005张航拍图像组成。AID(Aerial Image Dataset)是为了进一步提高遥感影像场景分类的技术水平，研究者从Google Earth影像中采集样本图像，构建了一种新的大比例尺航空影像数据集，由30种航拍场景类型组成，所有样本类别均由从事解译工作的权威专家进行标注。

进一步，所述预处理包括：

对每张图像进行随机裁剪，制作出两张符合模型输入尺寸的图像，并且随机翻转，借此进行扩展训练样本数据；

具体地，本实施例，在进行CBAM-AlexNet卷积神经网络模型的具体训练过程中，通过将待训练的航拍场景图像输入CBAM-AlexNet网络，并引入空间注意力及通道注意力，对待训练的航拍场景图像中的特征进行选择性训练；当航拍场景数据集输入构建的CBAM-AlexNet网络后，如图2所示为本实施例的基于CBAM-AlexNet卷积神经网络模型执行航拍场景分类的具体效果流程图，经过如下9个主要的处理步骤后便可将不同场景进行分类。

1)经过96个11×11的卷积核，进行“卷积+ReLU+BN+CBAM”操作；

2)经过最大池化层，池化核尺寸为3×3，步长为2。

3)经过256个5×5的卷积核，进行“卷积+ReLU+BN+CBAM”操作。

4)经过最大池化层，池化核尺寸为3×3，步长为2。

5)经过384个3×3的卷积核，进行“卷积+ReLU+BN+CBAM”操作。

6)经过384个3×3的卷积核，进行“卷积+h-Swish+BN+CBAM”操作。

7)经过256个3×3的卷积核，进行“卷积+h-Swish+BN+CBAM”操作。

8)经过最大池化层，池化核尺寸为3×3，步长为2。

9)经过两层分别拥有4096个、1024个神经元的全连接层，进行“全连接+Dropout”操作，经过Softmax函数，输出分类结果。

此外，本申请实施例还公开了一种电子装置，所述电子装置包括：一个或多个处理器，存储器，所述存储器用于存储一个或多个计算机程序；其特征在于，所述计算机程序被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法步骤。

此外，本申请实施例还提供了一种存储介质，所述存储介质存储有计算机程序；所述程序由处理器加载并执行以实现如上所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法,其特征在于，所述方法包括：

S1，获取待分类的航拍场景图像，并进行预处理；

2.根据权利要求1所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法,其特征在于，所述方法还包括对CBAM-AlexNet卷积神经网络模型进行构建，包括：

S22，CBAM-AlexNet卷积神经网络模型卷积层中加入CBAM模块。

3.根据权利要求2所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法,其特征在于，所述CBAM模块包括通道模块CAM以及空间模块SAM；

M_C(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))；

其中，σ指的是应用的sigmod函数；

M_S(F')＝σ(f([AvgPool(F'),MaxPool(F')]))；

式中，σ指的是sigmoid函数，f表示卷积层运算；

4.根据权利要求3所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法，其特征在于，所述对待训练的航拍场景图像中的特征进行选择性训练，包括：

5.根据权利要求4所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法，其特征在于，所述预处理包括：

6.一种电子装置，所述电子装置包括：一个或多个处理器，存储器，所述存储器用于存储一个或多个计算机程序；其特征在于，所述计算机程序被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1-5任一项所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法步骤。

7.一种存储介质，所述存储介质存储有计算机程序；所述程序由处理器加载并执行以实现如权利要求1-5任一项所述的基于CBAM-AlexNet卷积神经网络的航拍场景分类方法步骤。