CN114463646A

CN114463646A - 一种基于多头自注意力卷积神经网络的遥感场景分类方法

Info

Publication number: CN114463646A
Application number: CN202210381142.1A
Authority: CN
Inventors: 董安明; 刘宗银; 禹继国; 韩玉冰; 张丽; 李素芳; 张滕; 刘洋; 张德辉; 邱静
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-05-10
Anticipated expiration: 2042-04-13
Also published as: CN114463646B

Abstract

本发明提供一种基于多头自注意力卷积神经网络的遥感场景分类方法，属于大数据服务平台技术领域，包括：获取原始遥感图像数据的训练集、验证集和测试集；构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练；利用验证集对所述模型的训练权重进行验证，根据验证表现选择出最优权重；根据所述最优权重对测试集进行测试，得到遥感场景分类结果。本发明实现了能从遥感图像中提取到更加精准、细化的全局特征，提高遥感场景图像分类准确度的效果。

Description

一种基于多头自注意力卷积神经网络的遥感场景分类方法

技术领域

本发明属于大数据服务平台技术领域，具体涉及一种基于多头自注意力卷积神经网络的遥感场景分类方法。

背景技术

随着卫星成像技术的发展，出现了大量的高分辨率遥感图像。分析这些图像的几何和物理信息对理解地球系统具有重要意义。然而，目前遥感场景图像数据具有类内差异性大、类间相似度强的特点，这给遥感场景分类任务带来了巨大的挑战。

随着遥感技术的快速发展，遥感图像日益丰富和多样化。根据特征的表示和获取方式，现有的遥感场景分类方法可以大致分为三类：基于手工特征的方法，基于无监督特征学习的方法以及基于深度学习特征的方法。

近年来，由于卷积神经网络具有自动提取和学习图像特征的能力，已被广泛应用于遥感场景分类任务中，并取得了良好的表现。但是由于受到卷积操作中感受野大小的限制，卷积神经网络不能充分地利用上下文信息进行特征的捕获。虽然可以通过不断的堆叠更深的卷积层数来扩大感受野，但这会造成模型参数量过多，计算量急剧增加。

发明内容

针对现有技术的上述不足，本发明提供基于多头自注意力卷积神经网络的遥感场景分类方法，以解决上述技术问题。

第一方面，本发明提供一种基于多头自注意力卷积神经网络的遥感场景分类方法，包括：

获取原始遥感图像数据的训练集、验证集和测试集；

构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练；

利用验证集对所述模型的训练权重进行验证，根据验证表现选择出最优权重；

根据所述最优权重对测试集进行测试，得到遥感场景分类结果。

进一步的，所述模型包括特征提取网络、多头自注意力模块以及分类网络；所述特征提取网络采用VGG19网络的多个卷积层，并加入批标准化；多头自注意力模块包括两个级联的多头自注意力层，每个所述的多头自注意力层后面都跟有一个批归一化层和一个ReLu函数；所述多头自注意力模块包括残差网络结构。

进一步的，所述方法还包括：

从训练集中随机选择部分图像进行多个预设角度的旋转；

向训练集中的每一张图像加入高斯噪声。

进一步的，所述方法还包括：

将训练集、验证集和测试集中所有遥感图像的像素点的值收缩至固定区间内；

将训练集、验证集和测试集中所有遥感图像数据调整为同均值、同方差的分布状态；

将训练集、验证集和测试集中所有遥感图像缩放至统一尺寸。

进一步的，所述构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练，包括：

构建交叉熵损失函数；

通过软独热编码向交叉熵损失函数加入噪声，得到标签平滑的交叉熵损失函数。

进一步的，所述构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练，还包括：通过所述标签平滑的交叉熵损失函数训练所述遥感场景分类网络模型，其中，所述损失函数通过随机梯度下降算法进行最小化。

进一步的，所述利用训练集对所述模型进行训练，包括：从零开始对所述模型进行训练或基于ImageNet数据集的预训练权重进一步微调。

第二方面，本发明提供一种基于多头自注意力卷积神经网络的遥感场景分类系统，包括：

数据获取单元，用于获取原始遥感图像数据的训练集、验证集和测试集；

模型确定单元，用于构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练；

模型验证单元，用于利用验证集对所述模型的训练权重进行验证，根据验证表现选择出最优权重；

模型测试单元，用于根据所述最优权重对测试集进行测试，得到遥感场景分类结果。

第三方面，提供一种终端，包括：处理器、存储器，其中，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，本发明提供的基于多头自注意力卷积神经网络的遥感场景分类方法，通过构建多头自注意力卷积神经网络模型，并应用于遥感场景分类领域，解决了遥感场景图像分类，卷积神经网络模型因局部感受野的限制，场景分类识别不准确、分类精度低的问题；实现了能从遥感图像中提取到更加精准、细化的全局特征，提高遥感场景图像分类准确度的效果。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的多头自注意力卷积神经网络模型的结构示意图。

图3是本发明一个实施例的多头自注意力模块的结构示意图。

图4是本发明一个实施例的多头自注意力层的结构示意图。

图5是本发明一个实施例的系统的示意性框图。

图6为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

ReLu函数：Rectified Linear Unit，修正线性单元。

NaSC-TG2：Natural Scene Classification With Tiangong-2 Remotely SensedImagery，天宫二号遥感自然场景图像数据集。

AID：Aerial Image data set，航空图像数据集。

WHU-RS19：武汉大学卫星图像数据集。

标签平滑：是一种正则化策略，主要是通过软独热编码来加入噪声，减少了真实样本标签的类别在计算损失函数时的权重，最终起到抑制过拟合的效果。使用标签平滑训练可以产生更好的校准网络，从而更好地泛化，最终对不可见的数据产生更准确的预测。

批归一化：Batch Normalization，将一组范围差距较大或者单位不同的数据依据一定规则变化到指定的范围之内。

ImageNet数据集：ImageNet图像数据集始于2009年，当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，之后就是基于ImageNet数据集的7届ImageNet挑战赛(2010年开始)，2017年后，ImageNet由Kaggle(Kaggle公司是由联合创始人兼首席执行官Anthony Goldbloom 2010年在墨尔本创立的，主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台)继续维护。

图1示出为本实施例提供的一种基于多头自注意力卷积神经网络的遥感场景分类方法。其中，图1执行主体可以为一种基于多头自注意力卷积神经网络的遥感场景分类系统。具体包括以下步骤。

S110：获取原始遥感图像数据的训练集、验证集和测试集。

S120：构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练。

S130：利用验证集对所述模型的训练权重进行验证，根据验证表现选择出最优权重。

S140：根据所述最优权重对测试集进行测试，得到遥感场景分类结果。

本实施例采用了三个数据集：分别为NaSC-TG2、AID和WHU-RS19。所有实验数据集分为训练集和测试集。此外，单独划分出训练集的10%样本作为验证集用以调整训练超参数。进一步地，NaSC-TG2数据集中训练集的占比为20%。对于WHU-RS19数据集中训练集的占比为设置为60%，AID数据集中训练集的占比为50%。

本实施例通过构建多头自注意力卷积神经网络模型，并应用于遥感场景分类领域，以弥补卷积神经网络全局特征建模能力的缺失。本实施例解决了遥感场景图像分类，卷积神经网络模型因局部感受野的限制，场景分类识别不准确、分类精度低的问题；实现了能从遥感图像中提取到更加精准、细化的全局特征，提高遥感场景图像分类准确度的效果。

可选地，作为本发明的一种实施例，如图2所示，所述模型包括特征提取网络、多头自注意力模块以及分类网络；所述特征提取网络采用VGG19网络的多个卷积层，并加入批标准化；如图3所示，多头自注意力模块包括两个级联的多头自注意力层，每个所述的多头自注意力层后面都跟有一个批归一化层和一个ReLu函数；所述多头自注意力模块包括残差网络结构。

在本实施例中，特征提取网络可以采用VGG19网络的前12个卷积层，每层卷积中卷积核大小为3，步长为2；批标准化解决了梯度消失问题，有利于加快训练速度、防止过拟合；ReLu激活函数可以增加模型的非线性表达能力，从而实现模型分类性能的提升；残差网络结构有利于缓解因增加网络深度导致的模型性能饱和问题。

如图4所示，多头自注意力层的输入是特征提取网络输出的卷积特征图，大小为16×16×512，多头自注意力层的输出是16×16×512的注意力特征矩阵，使用缩放点积注意力打分机制来计算注意力分布。词嵌入维度为256，自注意力头的数量为4。使用相对位置编码来弥补多头自注意力层位置信息缺失的问题，这提高了模型的性能。

自注意力机制被定义为如下公式：

；

其中，Q，K，V分别为3个矩阵，Q代表Query，K代表Key，V代表Value，Q，K，V均由输入x线性变换得来，它们第二个维度分别为d_q，d_k，d_v。Softmax指的是Softmax激活函数。Attention是注意力分布矩阵，

是放缩因子，用于防止梯度消失。

本实施例将具有全局、动态感受野的多头自注意力机制融入卷积神经网络架构中，利用多头自注意力层对卷积神经网络学习到的卷积特征图进一步编码，多头自注意力层通过对特征图的信息特征进行相关与不相关的抉择建立动态权重参数，以加强关键信息弱化无用信息，达到特征的精准提取，提高遥感场景分类的正确率。

可选地，作为本发明的一种实施例，所述方法还包括：从训练集中随机选择部分图像进行多个预设角度的旋转；向训练集中的每一张图像加入高斯噪声。

在本实施例中，部分图像可以是训练集中50%的图像，预设角度可以是30°、45°和90°的旋转；训练集中的每一张图像加入均值为0、标准差为0.12的高斯噪声。

本实施例针对已标注的遥感图像数据不足，模型训练过拟合问题，使用数据增强策略丰富数据，可以增加训练样本的多样性，降低模型对某些属性的依赖，从而提高模型的泛化能力。

可选地，作为本发明的一种实施例，所述方法还包括：将训练集、验证集和测试集中所有遥感图像的像素点的值收缩至固定区间内；将训练集、验证集和测试集中所有遥感图像数据调整为同均值、同方差的分布状态；将训练集、验证集和测试集中所有遥感图像缩放至统一尺寸。

在本实施例中，对训练集、验证集和测试集中的所有遥感图像进行归一化、标准化和统一尺寸处理；通常原始遥感数据是RGB彩色三通道图像，图像的每个像素点的值的范围在[0，255]之间，对所有图像归一化处理，使图像中的像素点的值收缩至[0，1]之间，具体来说，RGB三个通道的均值和方差分别为[0.485，0.456，0.406]和[0.229，0.224，0.225]，其中各个通道的均值和方差由ImageNet数据集计算得到的；标准化处理，将训练集、验证集和测试集调整为同均值、同方差的分布状态，有利于加速网络模型的收敛速度；将所有图像统一缩放至224×224像素大小，则统一尺寸后的每个图像可看作3×224×224的矩阵。

可选地，作为本发明的一种实施例，所述构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练，包括：构建交叉熵损失函数；通过软独热编码向交叉熵损失函数加入噪声，得到标签平滑的交叉熵损失函数。

具体地，使用带有标签平滑的多分类交叉熵损失函数作为训练目标函数。假设

为当前样本软独热编码后的标签，则标签平滑可用如下公式表示：

yˊ=(1-ε)*y+ε*u(k);

其中yˊ为标签平滑操作后的样本标签，ε为平滑因子，u(k)是人为引入的一个固定分布,并且由参数ε控制相对权重。本发明中将平滑因子ε设置为0.1，u(k)设置为均匀分布，即u(k)=1/k,其中k为标签数。

带有标签平滑正则化的交叉熵损失函数可表示为如下公式。

其中k是类别数量，yˊ为平滑后的标签，

表示样本属于类别

的概率。

本实施例通过软独热编码来加入噪声，减少了真实样本标签的类别在计算损失函数时的权重，最终起到抑制过拟合的效果；

可选地，作为本发明的一种实施例，所述构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练，还包括：通过所述标签平滑的交叉熵损失函数训练所述遥感场景分类网络模型，其中，所述损失函数通过随机梯度下降算法进行最小化。

具体地，模型训练的详细设置如下，采用带有标签平滑的交叉熵损失函数，标签平滑因子设置为0.1；使用AdamW优化算法，权重衰减系数设为0.05；初始学习率均设为0.0003，使用Pytorch中的ReduceLROnPlateau函数实时监控训练损失值动态调整学习率，其中容忍度设置为5，学习率衰减因子为0.1。批次大小设置为32，对模型进行训练，直到训练损失收敛为止。

本实施例通过标签平滑多分类交叉熵损失函数训练可以更好的校准网络，从而更好得泛化，最终对不可见的数据产生更准确的预测。

可选地，作为本发明的一种实施例，所述利用训练集对所述模型进行训练，包括：从零开始对所述模型进行训练或基于ImageNet数据集的预训练权重进一步微调。

经过模型测试，从零开始训练的方式下的模型在AID数据集、WHU-RS19数据集和NaSC-TG2数据集上的准确率分别为93.87%，93.15%，96.86%。微调训练的方式下的模型在AID数据集、WHU-RS19数据集、NaSC-TG2数据集上的准确率分别为96.26%，98.92%和98.73%，而VGG-19网络模型取得的准确率分别为95.82%，97.25%，97.84%。可见，无论是从零开始训练的方式下的模型，还是在微调训练的方式下的模型，在AID数据集、WHU-RS19数据集和NaSC-TG2数据集上的准确率，均优于VGG-19网络模型，且微调训练的方式的准确度高于从零开始训练的方式。

如图5示，该系统200包括：

数据获取单元210，用于获取原始遥感图像数据的训练集、验证集和测试集；

模型确定单元220，用于构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练；

模型验证单元230，用于利用验证集对所述模型的训练权重进行验证，根据验证表现选择出最优权重；

模型测试单元240，用于根据所述最优权重对测试集进行测试，得到遥感场景分类结果。

图6为本发明实施例提供的一种终端系统300的结构示意图，该终端系统300可以用于执行本发明实施例提供的遥感场景分类方法。

其中，该终端系统300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC) 组成，例如可以由单颗封装的IC 所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（英文：read-only memory，简称：ROM）或随机存储记忆体（英文：random access memory，简称：RAM）等。

因此，本发明实现了能从遥感图像中提取到更加精准、细化的全局特征，提高遥感场景图像分类准确度的效果，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端（可以是个人计算机，服务器，或者第二终端、网络终端等）执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于多头自注意力卷积神经网络的遥感场景分类方法，其特征在于，包括：

获取原始遥感图像数据的训练集、验证集和测试集；

2.根据权利要求1所述的方法，其特征在于，所述模型包括特征提取网络、多头自注意力模块以及分类网络；所述特征提取网络采用VGG19网络的多个卷积层，并加入批标准化；多头自注意力模块包括两个级联的多头自注意力层，每个所述的多头自注意力层后面都跟有一个批归一化层和一个ReLu函数；所述多头自注意力模块包括残差网络结构。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从训练集中随机选择部分图像进行多个预设角度的旋转；

向训练集中的每一张图像加入高斯噪声。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练，包括：

构建交叉熵损失函数；

6.根据权利要求5所述的方法，其特征在于，所述构建基于多头自注意力卷积神经网络的遥感场景分类模型，利用训练集对所述模型进行训练，还包括：

通过所述标签平滑的交叉熵损失函数训练所述遥感场景分类网络模型，其中，所述损失函数通过随机梯度下降算法进行最小化。

7.根据权利要求1所述的方法，其特征在于，所述利用训练集对所述模型进行训练，包括：

从零开始对所述模型进行训练或基于ImageNet数据集的预训练权重进一步微调。