CN112287989B

CN112287989B - 一种基于自注意力机制的航空影像地物分类方法

Info

Publication number: CN112287989B
Application number: CN202011127714.0A
Authority: CN
Inventors: 肖志峰; 万桥; 邵炜平; 杨鸿珍; 王志强; 凌芝; 毛秀伟; 贺家乐; 王艳艳; 郑星航; 赵建朋; 王凌
Original assignee: Wuhan University WHU; State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Wuhan University WHU; State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-06-07
Anticipated expiration: 2040-10-20
Also published as: CN112287989A

Abstract

本发明设计了一种基于通道域和空间域自注意力机制的深度卷积神经网络，该深度神经网络模型同时对通道域和空间域的特征进行注意力的权重分配。该网络模型的主要特点是在常规的卷积神经网络结构中加入了通道域模块和空间域模块，分别对特征在通道和空间进行注意力权重的自适应分配。实验表明，本发明方法跟常规的遥感影像场景分类方法相比，能够取得更高的分类准确率。

Description

一种基于自注意力机制的航空影像地物分类方法

技术领域

本发明属于遥感图像处理技术领域，是一种基于通道域和空间域自注意力机制的深度卷积神经网络，应用于航空影像地物的场景分类。

背景技术

场景分类对于遥感影像的理解和应用有至关重要的作用，遥感影像场景分类的关键在于根据目标影像的内容获取对应的语义标签，特征提取则是这个过程中最关键的步骤。以往的遥感影像场景分类方法往往通过人工手动进行特征的选取，非常耗时费力，并且由于人工选取在很大程度上依赖经验和运气，大多不能取得满意的分类结果。随着深度学习的发展和应用，出现了很多基于深度学习的遥感影像场景分类方法。然而，目前主流的深度卷积神经网络模型只关注了卷积特征的领域，即使后期感受野增大，也仍旧是局部区域计算，没有考虑整个空间区域的影响，还不能有效捕获卷积层的空间关联信息，制约了深度卷积神经网络模型分类的准确率。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种结合了通道域和空间域的基于自注意力机制的神经网络模型，用于提高影像的分类准确度，该模型在常规的卷积网络模型VGG16的结构中加入了通道域注意力模块和空间域注意力模块，分别在通道域注意力和空间域注意力对特征进行权重的自适应分配，最后通过分类器对结果进行判定。

其中通道域注意力模块的处理过程如下，

先对VGG16模型提取的原始特征进行全局均值池化操作，得到一个原始张量，使用一个全连接层对这个张量进行降维，然后使用一个ReLU层和一个全连接层把降维后的张量恢复到原始张量大小，最后再使用Sigmoid函数，得到通道注意力权重张量，最后将通道注意力权重张量与原始特征相乘，得到通道域注意力模块特征；

空间域注意力模块的处理过程如下，

首先将通道域注意力模块特征进行最大池化操作后，得到空间域注意力模块的输入特征，将其展开为N个的局部特征，使用高斯函数计算这些局部特征的相似度：

其中x_i,x_j是局部特征值，i,j∈{0,1,..,N-1}，得到一个N*N大小的张量；

将输入特征同时也经过ReLU层后得到特征一，将得到的N*N的张量和特征一相乘，最后得到张量一，张量一经过ReLU层后得到张量二；

使用张量二和输入特征计算输出特征：

z_i＝W_zy_i+x_i

其中i∈{0,1,..,N-1}，W_z是一个需要学习的初始化为0的权重矩阵，y_i为张量二中的第i个张量，x_i是输入特征中的第i个特征，经过空间域注意力模块后，增加了W_zy_i在输入特征x_i上，即对原始的N个局部区域进行了注意力的权重分配；

输出特征经过三个全连接层后，最后利用Softmax分类器进行分类结果的预测。

进一步的，输入VGG16模型之前，先对图像进行重采样。

进一步的，训练神经网络模型时，使用在ImageNet上预训练的VGG16权重作为初始值。

本发明具有以下特点：设计了一种基于通道域和空间域的自注意机制卷积神经网络结构，相对于常规的遥感影像场景分类方法，该方法具有更高的准确度。

附图说明

图1是本发明的总体流程图。

图2是本发明中通道域注意力模块的结构图。

图3是本发明中空间域注意力模块的结构图。

图4是VGG16在WHU-RS19数据集上的分类结果混淆矩阵。

图5是本发明方法在WHU-RS19数据集上的分类结果混淆矩阵。

图6是VGG16在AID数据集上的分类结果混淆矩阵。

图7是本发明方法在AID数据集上的分类结果混淆矩阵。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

本发明包括以下具体步骤：

1)模型使用了迁移学习进行训练，在VGG16模型基础上，对除了通道域注意力模块、空间域注意力模块以及全连接层外的网络，使用在ImageNet上预训练的VGG16权重作为初始值，首先将样本重采样为224*224*3大小，再将重采样后的样本输入到所构建的模型中进行训练，最后一个卷积层提取的特征大小为14*14*512；

2)将上述特征作为通道域注意力模块的输入，先对它进行全局均值池化操作，得到一个1*1*512的张量，使用一个全连接层对这个张量进行降维，使之从1*1*512转化为1*1*32大小，然后使用一个ReLU层和一个全连接层把它从1*1*32恢复到1*1*512，最后再使用Sigmoid函数，得到一个1*1*512的通道注意力权重张量，将它与原始大小为14*14*512的输入特征相乘，得到一个14*14*512大小的特征；

3)将上述特征进行2*2的最大池化操作后，得到7*7*512大小的特征，此特征为空间域注意力模块的输入特征，将其展开为49个1*1*512的局部特征，使用高斯函数计算这些局部特征的相似度：

其中x_i,x_j是局部特征值，i,j∈{0,1,..,48}，得到一个49*49大小的张量；

4)上述7*7*512的输入特征同时也经过ReLU层后得到49*512大小的特征，将3)中得到的49*49的张量和此特征相乘，最后得到一个49*512的张量，此张量经过ReLU层后得到一个7*7*512大小的张量；

5)使用4)得到的7*7*512的张量和3)中的7*7*512的特征计算输出特征：

z_i＝W_zy_i+x_i

其中i∈{0,1,..,48}，W_z是一个需要学习的初始化为0的权重矩阵，y_i为49个7*7*512的张量之一，x_i是49个7*7*512的输入特征之一，经过空间域注意力模块后，增加了W_zy_i在输入特征x_i上，即对原始的49个局部区域进行了注意力的权重分配，得到一个7*7*512大小的特征；

6)上述7*7*512的特征经过三个全连接层后，最后利用Softmax分类器进行分类结果的预测。

为了验证本发明方法的性能，在WHU-RS19和AID两个公开数据集上进行了验证试验，WHU-RS19数据集包含了19类地物共1005张影像，每张影像的大小为600*600，AID数据集中有30类不同地物，一共10000张600*600大小的影像。对这两个数据集采取同样的策略进行训练集和测试集的划分，采用50％样本作为训练集，另外50％作为测试集。表1为不同方法在这两个数据集上取得的效果，从表中可以看出，本发明的方法优于常规的遥感影像场景分类方法，由图4——图7也可以看出，本方法和原基础网络模型VGG16比较，能得到更好的分类结果。

表1不同方法在两个数据集上的表现

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于自注意力机制的航空影像地物分类方法，其特征在于：提出了一种结合通道域和空间域的基于自注意力机制的神经网络模型，该神经网络模型在常规的卷积网络模型VGG16的结构中加入了通道域注意力模块和空间域注意力模块，分别在通道域注意力模块和空间域注意力模块对特征进行权重的自适应分配，最后通过分类器判定地物分类结果；其中通道域注意力模块的处理过程如下，

先对VGG16模型提取的大小为14*14*512的原始特征进行全局均值池化操作，得到一个大小为1*1*512的原始张量，使用一个全连接层对1*1*512的原始张量进行降维，然后使用一个ReLU层和一个全连接层把降维后的张量恢复到原始张量大小，最后再使用Sigmoid函数，得到一个1*1*512的通道注意力权重张量，最后将通道注意力权重张量与原始特征相乘，得到通道域注意力模块特征，大小为14*14*512；

空间域注意力模块的处理过程如下，

首先将通道域注意力模块特征进行2*2的最大池化操作后，得到空间域注意力模块的输入特征，大小为7*7*512，将其展开为49个1*1*512的局部特征，使用高斯函数计算这些局部特征的相似度：

，其中x _i , x _j是局部特征值，i,j∈{0,1,.., 48}，得到一个49*49大小的张量；

将7*7*512的输入特征先经过ReLU层后得到49*512大小的特征一，将49*49大小的张量和49*512大小的特征一相乘，最后得到一个49*512的张量一，此张量一再次经过ReLU层后得到一个7*7*512大小的张量二；

使用张量二和输入特征计算输出特征：

z _i=W _z y _i +x _i

其中i∈{0,1,..,48}，W _z是一个需要学习的初始化为0的权重矩阵，y _i为张量二中的第i个张量，x _i是输入特征中的第i个特征，经过空间域注意力模块后，增加了W _z y _i在输入特征x _i上，即对原始的49个局部区域进行了注意力的权重分配；

2.如权利要求1所述的一种基于自注意力机制的航空影像地物分类方法，其特征在于：输入VGG16模型之前，先对图像进行重采样。

3.如权利要求1所述的一种基于自注意力机制的航空影像地物分类方法，其特征在于：训练神经网络模型时，使用在ImageNet上预训练的VGG16权重作为初始值。