CN112287989B - 一种基于自注意力机制的航空影像地物分类方法 - Google Patents
一种基于自注意力机制的航空影像地物分类方法 Download PDFInfo
- Publication number
- CN112287989B CN112287989B CN202011127714.0A CN202011127714A CN112287989B CN 112287989 B CN112287989 B CN 112287989B CN 202011127714 A CN202011127714 A CN 202011127714A CN 112287989 B CN112287989 B CN 112287989B
- Authority
- CN
- China
- Prior art keywords
- tensor
- features
- size
- channel
- attention module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明设计了一种基于通道域和空间域自注意力机制的深度卷积神经网络,该深度神经网络模型同时对通道域和空间域的特征进行注意力的权重分配。该网络模型的主要特点是在常规的卷积神经网络结构中加入了通道域模块和空间域模块,分别对特征在通道和空间进行注意力权重的自适应分配。实验表明,本发明方法跟常规的遥感影像场景分类方法相比,能够取得更高的分类准确率。
Description
技术领域
本发明属于遥感图像处理技术领域,是一种基于通道域和空间域自注意力机制的深度卷积神经网络,应用于航空影像地物的场景分类。
背景技术
场景分类对于遥感影像的理解和应用有至关重要的作用,遥感影像场景分类的关键在于根据目标影像的内容获取对应的语义标签,特征提取则是这个过程中最关键的步骤。以往的遥感影像场景分类方法往往通过人工手动进行特征的选取,非常耗时费力,并且由于人工选取在很大程度上依赖经验和运气,大多不能取得满意的分类结果。随着深度学习的发展和应用,出现了很多基于深度学习的遥感影像场景分类方法。然而,目前主流的深度卷积神经网络模型只关注了卷积特征的领域,即使后期感受野增大,也仍旧是局部区域计算,没有考虑整个空间区域的影响,还不能有效捕获卷积层的空间关联信息,制约了深度卷积神经网络模型分类的准确率。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种结合了通道域和空间域的基于自注意力机制的神经网络模型,用于提高影像的分类准确度,该模型在常规的卷积网络模型VGG16的结构中加入了通道域注意力模块和空间域注意力模块,分别在通道域注意力和空间域注意力对特征进行权重的自适应分配,最后通过分类器对结果进行判定。
其中通道域注意力模块的处理过程如下,
先对VGG16模型提取的原始特征进行全局均值池化操作,得到一个原始张量,使用一个全连接层对这个张量进行降维,然后使用一个ReLU层和一个全连接层把降维后的张量恢复到原始张量大小,最后再使用Sigmoid函数,得到通道注意力权重张量,最后将通道注意力权重张量与原始特征相乘,得到通道域注意力模块特征;
空间域注意力模块的处理过程如下,
首先将通道域注意力模块特征进行最大池化操作后,得到空间域注意力模块的输入特征,将其展开为N个的局部特征,使用高斯函数计算这些局部特征的相似度:其中xi,xj是局部特征值,i,j∈{0,1,..,N-1},得到一个N*N大小的张量;
将输入特征同时也经过ReLU层后得到特征一,将得到的N*N的张量和特征一相乘,最后得到张量一,张量一经过ReLU层后得到张量二;
使用张量二和输入特征计算输出特征:
zi=Wzyi+xi
其中i∈{0,1,..,N-1},Wz是一个需要学习的初始化为0的权重矩阵,yi为张量二中的第i个张量,xi是输入特征中的第i个特征,经过空间域注意力模块后,增加了Wzyi在输入特征xi上,即对原始的N个局部区域进行了注意力的权重分配;
输出特征经过三个全连接层后,最后利用Softmax分类器进行分类结果的预测。
进一步的,输入VGG16模型之前,先对图像进行重采样。
进一步的,训练神经网络模型时,使用在ImageNet上预训练的VGG16权重作为初始值。
本发明具有以下特点:设计了一种基于通道域和空间域的自注意机制卷积神经网络结构,相对于常规的遥感影像场景分类方法,该方法具有更高的准确度。
附图说明
图1是本发明的总体流程图。
图2是本发明中通道域注意力模块的结构图。
图3是本发明中空间域注意力模块的结构图。
图4是VGG16在WHU-RS19数据集上的分类结果混淆矩阵。
图5是本发明方法在WHU-RS19数据集上的分类结果混淆矩阵。
图6是VGG16在AID数据集上的分类结果混淆矩阵。
图7是本发明方法在AID数据集上的分类结果混淆矩阵。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
本发明包括以下具体步骤:
1)模型使用了迁移学习进行训练,在VGG16模型基础上,对除了通道域注意力模块、空间域注意力模块以及全连接层外的网络,使用在ImageNet上预训练的VGG16权重作为初始值,首先将样本重采样为224*224*3大小,再将重采样后的样本输入到所构建的模型中进行训练,最后一个卷积层提取的特征大小为14*14*512;
2)将上述特征作为通道域注意力模块的输入,先对它进行全局均值池化操作,得到一个1*1*512的张量,使用一个全连接层对这个张量进行降维,使之从1*1*512转化为1*1*32大小,然后使用一个ReLU层和一个全连接层把它从1*1*32恢复到1*1*512,最后再使用Sigmoid函数,得到一个1*1*512的通道注意力权重张量,将它与原始大小为14*14*512的输入特征相乘,得到一个14*14*512大小的特征;
3)将上述特征进行2*2的最大池化操作后,得到7*7*512大小的特征,此特征为空间域注意力模块的输入特征,将其展开为49个1*1*512的局部特征,使用高斯函数计算这些局部特征的相似度:其中xi,xj是局部特征值,i,j∈{0,1,..,48},得到一个49*49大小的张量;
4)上述7*7*512的输入特征同时也经过ReLU层后得到49*512大小的特征,将3)中得到的49*49的张量和此特征相乘,最后得到一个49*512的张量,此张量经过ReLU层后得到一个7*7*512大小的张量;
5)使用4)得到的7*7*512的张量和3)中的7*7*512的特征计算输出特征:
zi=Wzyi+xi
其中i∈{0,1,..,48},Wz是一个需要学习的初始化为0的权重矩阵,yi为49个7*7*512的张量之一,xi是49个7*7*512的输入特征之一,经过空间域注意力模块后,增加了Wzyi在输入特征xi上,即对原始的49个局部区域进行了注意力的权重分配,得到一个7*7*512大小的特征;
6)上述7*7*512的特征经过三个全连接层后,最后利用Softmax分类器进行分类结果的预测。
为了验证本发明方法的性能,在WHU-RS19和AID两个公开数据集上进行了验证试验,WHU-RS19数据集包含了19类地物共1005张影像,每张影像的大小为600*600,AID数据集中有30类不同地物,一共10000张600*600大小的影像。对这两个数据集采取同样的策略进行训练集和测试集的划分,采用50%样本作为训练集,另外50%作为测试集。表1为不同方法在这两个数据集上取得的效果,从表中可以看出,本发明的方法优于常规的遥感影像场景分类方法,由图4——图7也可以看出,本方法和原基础网络模型VGG16比较,能得到更好的分类结果。
表1不同方法在两个数据集上的表现
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.一种基于自注意力机制的航空影像地物分类方法,其特征在于:提出了一种结合通道域和空间域的基于自注意力机制的神经网络模型,该神经网络模型在常规的卷积网络模型VGG16的结构中加入了通道域注意力模块和空间域注意力模块,分别在通道域注意力模块和空间域注意力模块对特征进行权重的自适应分配,最后通过分类器判定地物分类结果;其中通道域注意力模块的处理过程如下,
先对VGG16模型提取的大小为14*14*512的原始特征进行全局均值池化操作,得到一个大小为1*1*512的原始张量,使用一个全连接层对1*1*512的原始张量进行降维,然后使用一个ReLU层和一个全连接层把降维后的张量恢复到原始张量大小,最后再使用Sigmoid函数,得到一个1*1*512的通道注意力权重张量,最后将通道注意力权重张量与原始特征相乘,得到通道域注意力模块特征,大小为14*14*512;
空间域注意力模块的处理过程如下,
首先将通道域注意力模块特征进行2*2的最大池化操作后,得到空间域注意力模块的
输入特征,大小为7*7*512,将其展开为49个1*1*512的局部特征,使用高斯函数计算这些局
部特征的相似度:,其中x i , x j 是局部特征值,i,j∈{0,1,..,
48},得到一个49*49大小的张量;
将7*7*512的输入特征先经过ReLU层后得到49*512大小的特征一,将49*49大小的张量和49*512大小的特征一相乘,最后得到一个49*512的张量一,此张量一再次经过ReLU层后得到一个7*7*512大小的张量二;
使用张量二和输入特征计算输出特征:
z i =W z y i +x i
其中i∈{0,1,..,48},W z 是一个需要学习的初始化为0的权重矩阵,y i 为张量二中的第i个张量,x i 是输入特征中的第i个特征,经过空间域注意力模块后,增加了W z y i 在输入特征x i 上,即对原始的49个局部区域进行了注意力的权重分配;
输出特征经过三个全连接层后,最后利用Softmax分类器进行分类结果的预测。
2.如权利要求1所述的一种基于自注意力机制的航空影像地物分类方法,其特征在于:输入VGG16模型之前,先对图像进行重采样。
3.如权利要求1所述的一种基于自注意力机制的航空影像地物分类方法,其特征在于:训练神经网络模型时,使用在ImageNet上预训练的VGG16权重作为初始值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011127714.0A CN112287989B (zh) | 2020-10-20 | 2020-10-20 | 一种基于自注意力机制的航空影像地物分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011127714.0A CN112287989B (zh) | 2020-10-20 | 2020-10-20 | 一种基于自注意力机制的航空影像地物分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287989A CN112287989A (zh) | 2021-01-29 |
CN112287989B true CN112287989B (zh) | 2022-06-07 |
Family
ID=74424313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011127714.0A Active CN112287989B (zh) | 2020-10-20 | 2020-10-20 | 一种基于自注意力机制的航空影像地物分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287989B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699436A (zh) * | 2013-12-30 | 2014-04-02 | 西北工业大学 | 基于局部线性约束和全局结构信息的图像编码方法 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN110197208A (zh) * | 2019-05-14 | 2019-09-03 | 江苏理工学院 | 一种纺织品瑕疵智能检测分类方法及装置 |
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
CN111292259A (zh) * | 2020-01-14 | 2020-06-16 | 西安交通大学 | 一种综合多尺度与注意力机制的深度学习图像去噪方法 |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
CN111563520A (zh) * | 2020-01-16 | 2020-08-21 | 北京航空航天大学 | 一种基于空间-光谱联合注意力机制的高光谱图像分类方法 |
-
2020
- 2020-10-20 CN CN202011127714.0A patent/CN112287989B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699436A (zh) * | 2013-12-30 | 2014-04-02 | 西北工业大学 | 基于局部线性约束和全局结构信息的图像编码方法 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN110197208A (zh) * | 2019-05-14 | 2019-09-03 | 江苏理工学院 | 一种纺织品瑕疵智能检测分类方法及装置 |
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
CN111292259A (zh) * | 2020-01-14 | 2020-06-16 | 西安交通大学 | 一种综合多尺度与注意力机制的深度学习图像去噪方法 |
CN111563520A (zh) * | 2020-01-16 | 2020-08-21 | 北京航空航天大学 | 一种基于空间-光谱联合注意力机制的高光谱图像分类方法 |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
Non-Patent Citations (4)
Title |
---|
An Attention-based Recurrent Convolutional Network for Vehicle Taillight Recognition;Kuan-Hui Lee 等;《https://arxiv.org/pdf/1906.03683v1.pdf》;20190630;第1-6页 * |
Simultaneous Ship Detection and Orientation Estimation in SAR Images Based on Attention Module and Angle Regression;Jizhou Wang 等;《Sensors》;20181231;第1-17页 * |
利用残差通道注意力网络的高光谱图像分类;魏祥坡 等;《测绘科学技术学报》;20191231;第36卷(第2期);第161-166页 * |
多尺度非局部注意力网络的小目标检测算法;梁延禹 等;《计算机科学与探索》;20191225;第1744-1753页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112287989A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN111695467B (zh) | 基于超像素样本扩充的空谱全卷积高光谱图像分类方法 | |
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
CN111797779A (zh) | 基于区域注意力多尺度特征融合的遥感图像语义分割方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN112766279B (zh) | 一种基于联合注意力机制的图像特征提取方法 | |
CN113297936B (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN101540047A (zh) | 基于独立高斯混合模型的纹理图像分割方法 | |
CN111191718A (zh) | 基于图注意力网络的小样本sar目标识别方法 | |
CN114913379B (zh) | 基于多任务动态对比学习的遥感图像小样本场景分类方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN112101364B (zh) | 基于参数重要性增量学习的语义分割方法 | |
CN112905894B (zh) | 一种基于增强图学习的协同过滤推荐方法 | |
CN110555461A (zh) | 基于多结构卷积神经网络特征融合的场景分类方法及系统 | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
CN111428511A (zh) | 一种事件检测方法和装置 | |
CN115830596A (zh) | 基于融合金字塔注意力的遥感图像语义分割方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN112232395A (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN112800882A (zh) | 一种基于加权双流残差网络的口罩人脸姿态分类方法 | |
CN113344220A (zh) | 一种联邦学习中基于局部模型梯度的用户筛选方法、系统、设备及存储介质 | |
CN116310466A (zh) | 基于局部无关区域筛选图神经网络的小样本图像分类方法 | |
CN117475236A (zh) | 用于矿产资源勘探的数据处理系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |