CN112052755B - 基于多路注意力机制的语义卷积高光谱图像分类方法 - Google Patents
基于多路注意力机制的语义卷积高光谱图像分类方法 Download PDFInfo
- Publication number
- CN112052755B CN112052755B CN202010854614.1A CN202010854614A CN112052755B CN 112052755 B CN112052755 B CN 112052755B CN 202010854614 A CN202010854614 A CN 202010854614A CN 112052755 B CN112052755 B CN 112052755B
- Authority
- CN
- China
- Prior art keywords
- layer
- attention mechanism
- convolution
- hyperspectral image
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多路注意力机制的语义卷积高光谱图像分类方法,主要解决现有技术对提取特征利用率不足所造成信息丢失,或者保留过多无关信息造成信息冗余的问题。其方案是:1)输入高光谱图像,生成样本数不同的训练样本集和测试样本集;2)构建多路注意力机制的语义卷积神经网络;3)将训练样本集分次输入到多路注意力机制的语义卷积神经网络,利用随机梯度下降法对该网络进行训练,直到focal loss损失函数收敛;4)将测试样本输入到训练好的多路注意力机制的语义卷积神经网络得到分类结果。本发明能在少训练样本下获得高准确率的分类,可用于对高光谱图像的地物种类探测。
Description
技术领域
本发明属于遥感信息处理技术领域,更进一步涉及一种高光谱图像分类方法,可用于土地资源评估、灾害监测。
背景技术
高光谱以其丰富的波段信息记录了地物目标的连续光谱特征,具备了能够进行更多种类地物目标识别和更高精度地目标分类可能性。高光谱图像分类技术的关键在于利用高光谱图像的空间特征和谱间特征对样本类别进行分类。在土地资源评估、灾害监测方面具有重要意义。然而现有的分类方法还是主要依赖大量的训练样本,由于样本标注难以获取,因此在少样本情况下很容易导致过拟合问题,进而影响了样本分类准确率。
Wenju Wang等人在其发表的论文“A Fast Dense Spectral-SpatialConvolution 8etwork Framework for Hyperspectral Images Classification”(RemoteSensing,2018)中提出一种利用端到端的稠密光谱-空间卷积网络FDSSC对高光谱图像进行分类的方法。该方法以原始三维立方体作为输入数据。在端到端的光谱-空间稠密网络中,谱间稠密块首先从立方体输入数据中提取谱间特征,然后空间稠密块从学习到的谱间特征中再次学习出谱间-空间识别特征,对该谱间-空间识别特征再通过平均池化得到一维的向量,紧接着用全连接层对一维向量进行降维并输入到分类层进行高光谱图像分类。该方法由于在谱间特征提取中和空间特征提取中仅采用特征提取的卷积操作,而没有对提取的谱间-空间特征进行区分性的关注和筛选,在分类时没有关注到某些具有可分辨性特征,导致整个网络在高光谱图像分类上效果不佳。
西北工业大学在其授权的专利文献(授权公告号:CN 105320965 B)中公开了一种基于深度卷积神经网络的空谱联合的高光谱图像分类方法。该方法的具体步骤是:首先利用少量标签数据,训练卷积神经网络,并利用该网络自主提取高光谱图像的空谱特征,不需要任何压缩降维的处理;然后,利用提取到的空谱特征训练支持向量机SVM分类器,对图像进行分类;最后,结合已训练好的深度卷积神经网络和训练好的分类器,得到一个能够自主提取高光谱图像的空谱特征并对其进行分类的深度卷积神经网络结构DCNN-SVM。该方法由于深度卷积神经网络对高光谱图像中所有空谱特征的权重是相同的,没有关注到某些具有可分辨性的空谱特征,使得支持向量机SVM分类器在高光谱图像分类上效果不佳。
除此上述列举的高光谱图像分类方法之外,目前基于深度卷积神经网络的高光谱图像分类方法都与上述两个方法类似,这些方法的共性就是在谱间和空间特征提取时由于对提取的特征利用率不足所造成信息丢失,或者保留过多无关信息造成信息冗余,没有获得更具有可分辨性的谱空语义特征,从而导致在少样本训练时这些方法对高光谱图像分类效果不佳。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于多路注意力机制的语义卷积高光谱图像分类方法,以提高高光谱图像中在少样本训练的情况下地物目标分类的精度。
为实现上述目的,本发明的实现方案包括如下:
(1)输入原始三维高光谱图像,并在高光谱图像边缘填充0像素的尺寸t;再在填充操作后的高光谱图像中,以每个像素点为中心,选取高光谱图像块;
(2)用高光谱图像块生成样本数不同的训练样本集和测试样本集;
(3)搭建多路注意力机制的语义卷积神经网络;
(3a)搭建谱分支网络:
(3a1)构建由三个卷积层,三个归一化层,三个Mish激活函数层组成的谱间稠密特征提取模块;
(3a2)构建由M路谱间注意力机制子模块线性相加组成的多路谱间注意力机制模块,每一路谱间注意力机制子模块包括reshape层、矩阵转置与相乘层、softmax层、数据reshape层和相加层;
(3a3)将谱间稠密特征提取模块与多路谱间注意力机制模块串联,组成谱分支网络;
(3b)搭建空间分支网络:
(3b1)构建由尺度操作层、卷积层、归一化层、Mish激活函数层、拼接层组成的多尺度空间特征提取模块;
(3b2)构建由N路空间注意力机制子模块线性相加组成的多路空间注意力机制模块,每一路空间注意力机制子模块包括卷积层、归一化层、Mish激活函数层、reshape层、矩阵转置与相乘层、softmax层、数据reshape层和相加层;
(3b3)将多尺度空间特征提取模块和多路空间注意力机制模块相串联,组成空间分支网络;
(3c)将谱分支网络、空间分支网络并联后再与全连接层,softmax分类器串联,组成多路注意力机制的语义卷积神经网络,并选择focal loss函数作为该网络的损失函数;
(4)利用训练样本集对多路注意力机制的语义卷积神经网络进行训练,直到focalloss损失函数收敛,得到训练好的多路注意力机制的语义卷积神经网络;
(5)将测试样本输入到训练好的多路注意力机制的语义卷积神经网络,得到测试样本的类别标签,完成高光谱图像的分类。
本发明与现有的技术相比具有以下优点:
第一,本发明由于构建了一种新的谱分支网络,且通过其中的谱间稠密特征提取模块可以提取丰富的谱间特征,通过其中的多路谱间注意力机制模块对这些谱间特征进行关注和筛选可以提取更具分辨性的谱间语义特征,克服了现有技术在谱间特征提取时由于对提取特征利用率不足所造成信息丢失,或者保留过多无关信息造成信息冗余,提高了对高光谱图像中地物的分类精度。
第二,本发明由于构建了一种新的空间分支网络,且通过其中的多尺度空间特征提取模块使得多路注意力机制的语义卷积神经网络能够关注到不同尺度的空间特征,克服了现有技术使用单一尺度提取高光谱图像块的空间特征缺点,通过其中的多路空间注意力机制模块可以对这些多尺度空间特征进行关注和筛选,提取更具分辨性的空间语义特征,克服了现有技术在空间特征提取时因对提取的特征利用率不足造成的信息丢失,或者保留过多无关信息造成信息冗余,提高了在少样本训练时多路注意力机制的语义卷积神经网络的分类能力。
附图说明
图1是本发明的实现流程图;
图2是本发明中多路注意力机制语义卷积神经网络的模型结构示意图;
图3是本发明中多路谱间注意力机制模块中每一路谱间注意力机制子模块结构示意图;
图4是本发明中多尺度空间特征提取模块结构示意图;
图5是本发明中多路空间注意力机制模块中每一路空间注意力机制子模块结构示意图;
图6是分别用本发明和现有两种网络在University of Pavia数据集上的分类结果仿真图;
图7是分别用本发明和现有两种网络在Pavia Center数据集上的分类结果仿真图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步的描述。
参照图1,对本实例的实现步骤包括如下。
步骤1,输入高光谱图像。
高光谱图像是一个三维数据S∈Ra×b×c,该高光谱图像中每个波段对应三维数据中的一个二维矩阵Si∈Ra×b,其中,∈表示属于符号,R表示实数域符号,a表示高光谱图像的长,b表示高光谱图像的宽,c表示高光谱图像的光谱波段数,i表示高光谱图像中光谱波段的序号,i=1,2,…,c。
步骤2,获得高光谱图像块集合。
对原始三维高光谱图像数据进行0边缘填充操作,即在高光谱图像四周边缘填充尺寸为t,像素值为0的像素;
在填充处理后的高光谱图像中,以每个像素点为中心,选取空间大小为(2t+1)×(2t+1),通道数为d的图像块,得到高光谱图像块集合,这里通道数d与高光谱图像的光谱波段数相同,本实例取但不限于t=4。
步骤3,从高光谱图像块集合中生成样本数不同的训练样本集和测试样本集。
3.1)将高光谱图像块按其中心像素点类别分配到该类别所属的集合中;
3.2)在每个类别集合中按照0.01的比例选取图像块作为训练集,并将训练集中每个图像块的中心像素点标签作为该图像块的标签;
3.3)将每个类别集合中剩余的图像块作为测试集。
本实例采用高光谱数据集为University of Pavia和Pavia Center这两个不同的高光谱数据集,从每一类目标取0.01的比例构成训练集,剩下0.99为测试集。
步骤4,构建多路注意力机制的语义卷积神经网络。
参照图2,本实施例的具体实现步骤包括如下。
4.1)搭建一个谱分支网络:
该谱分支网络由谱间稠密模块和多路谱间注意力机制模块串联组成的,其中:
所述谱间稠密模块包括3个卷积层,3个归一化层和3个激活函数层,其结构依次为:第1个卷积层→第1个归一化层→第1个激活函数层→第1个拼接层→第2个卷积层→第2个归一化层→第2个激活函数层→第2个拼接层→第3个卷积层→第3个归一化层→第3个激活函数层→第3个拼接层;
该第1个拼接层,用于将第1个卷积层的输入、第1个激活函数层输出拼接在一起;
该第2个拼接层,用于将第1个卷积层的输入、第1个激活函数层输出,第2个激活函数层输出拼接在一起;
该第3个拼接层,用于将第1个卷积层的输入、第1个激活函数层输出,第2个激活函数层输出,第3个激活函数层输出拼接在一起;
该卷积层的卷积核大小均设置为1*1*7,个数均设置为12;每个激活函数层的激活函数均设置为Mish激活函数,表示如下:
Mish(x)=x*tanh(ln(1+ex)),
其中,x表示激活函数的输入,tanh(·)表示双曲正切函数,ln(·)表示自然对数函数。
所述多路谱间注意力机制模块由M路谱间注意力机制子模块线性相加组成,且每一路谱间注意力机制子模块均包括四个reshape层,一个转置层,两个相乘层,一个相加层,一个softmax层,其结构关系为:
第一reshape层,第二reshape层,第三reshape层三者并联;
第三reshape层与转置层串联;
第二reshape层与转置层并联后再与第一相乘层串联;
第一相乘层与softmax层串联;
第一reshape层与softmax层并联后,再与第二相乘层串联;
第二相乘层与第四reshape层和相加层依次串联,如图3所示。
4.2)搭建一个空间分支网络:
该空间分支网络由多尺度空间特征提取模块和多路空间注意力机制模块串联组成的,其中:
所述多尺度空间特征提取模块,其包括Ⅱ个尺度操作层,Ⅲ个卷积层,Ⅲ个归一化层,Ⅲ个激活函数层和Ⅰ个拼接层,其结构关系为:
第Ⅰ卷积层层,第Ⅰ归一化层,第Ⅰ激活函数层四者依次串联;
第Ⅰ尺度操作层,第Ⅱ卷积层层,第Ⅱ归一化层,第Ⅱ激活函数层四者依次串联;
第Ⅱ尺度操作层,第Ⅲ卷积层层,第Ⅲ归一化层,第Ⅲ激活函数层四者依次串联;
第Ⅰ激活函数层,第Ⅱ激活函数层,第Ⅲ激活函数层三者并联后,再与拼接层串联;如图4所示。
该多尺度空间特征提取模块中的第Ⅱ尺度操作层对选取的图像块四周边缘减少一个像素点,第Ⅱ尺度操作层对选取的图像块四周边缘减少两个像素点,第Ⅰ卷积层卷积核大小设置为5*5*1,第Ⅱ卷积层卷积核大小设置为3*3*1,第Ⅲ卷积层卷积核大小设置为1*1*1,个数均设置为20,每个激活函数层的激活函数均设置为Mish激活函数;
所述多路空间注意力机制模块,其由N路空间注意力机制子模块线性相加组成,每一路空间注意力机制子模块,包括3个卷积层,3个归一化层,3个激活层,4个reshape层,1个转置层,2个相乘层,1个相加层,1个softmax层,其连接结构为:
第1卷积层,第1归一化层,第1激活层,第1reshape层,转置层这五层依次串联;
第2卷积层,第2归一化层,第2激活层,第2reshape层这四层依次串联;
第2reshap层与转置层并联后、再与第1相乘层、softmax层依次串联连接;
第3卷积层,第3归一化层,第3激活层,第3reshape层依次串联连接;
第3reshape层与softmax层并联连接;
第2相乘层、第4reshape层和相加层依次串联,如图5所示。
该多路空间注意力机制模块中所有卷积层的卷积核大小均设置为3*3*60,个数设置为12;每个激活函数层的激活函数均设置为Mish激活函数。
4.3)将谱分支网络、空间分支网络并联后再与全连接层,softmax分类器串联,组成多路注意力机制的语义卷积神经网络,并选择focal loss函数作为该网络的损失函数,
公式如下:
L=-y*(1-y)rlog(y)
其中,L表示预测标签向量与真实标签向量之间的focal loss损失值,y表示预测标签向量,y*表示真实标签向量,r表示focal调节参数。
步骤5,利用训练样本集采用随机梯度下降法对多路注意力机制的语义卷积神经网络进行训练。
5.1)设置训练的初始学习率为α,衰减率为β,迭代轮次数为Q,将训练样本集分为G批次输入到多路注意力机制的语义卷积神经网络中,每次输入的图像块个数为D,即:
其中,S为训练样本集中训练样本总个数;
5.2)设置每次输入高光谱图像块的学习率R为:
R=α×βG
5.3)对多路注意力机制的语义卷积神经网络进行G次权重更新,得到更新后的权重向量Wnew:
其中,L表示预测标签向量与真实标签向量之间的focal loss损失值,W表示多路注意力机制的语义卷积神经网络的更新前的权重向量;
5.4)将下一次训练样本集输入多路注意力机制的语义卷积神经网络,对focalloss损失函数值进行更新,使得损失函数值L不断下降
5.5)重复5.4),直到focal loss损失值不再下降,且当前训练轮次数小于设置的迭代次数Q,则停止对该网络训练,得到训练好的多路注意力机制的语义卷积神经网络;否则,当训练轮次数达到Q,停止对该网络的训练,得到训练好的多路注意力机制的语义卷积神经网络。
步骤6,对测试样本集进行分类。
将测试样本输入到训练好的多路注意力机制的语义卷积神经网络,得到测试样本的类别,完成高光谱图像的分类。
下面结合仿真实验对本发明的效果做进一步说明。
1.仿真实验条件:
本发明的仿真实验的硬件平台为:Inter core i7-6700,频率为3.4GHz,NvidiaGeForce GTX1080Ti。本发明的仿真实验的软件使用pytorch。
本发明的仿真实验是采用本发明和两个现有FDSSC和DBDA方法分别对Universityof Pavia和Pavia Center高光谱数据集中地物目标进行分类。
所述FDSSC方法是指:Wenju Wang等人在“A Fast Dense Sepctral-SpatialConvolution Network Framework for Hyperspectral Images Classification”(RemoteSensing,2018)中提出的一种利用稠密谱空卷积网络对高光谱图像进行分类的方法,简称FDSSC方法。
所述DBDA方法是指:Rui Li等人在“Classification of Hyperspectral ImageBased on Double-Branch Dual-Attention Mechanism Network”(Remote Sensing,2020)中提出的一种利用双分支双注意力机制网络对高光谱图像进行分类的方法,简称DBDA方法。
本发明中使用University of Pavia和Pavia Center高光谱数据集分别是由AVIRIS sensor和ROSIS sensor在加利福利亚州的University of Pavia和意大利北部的Pavia收集的数据。本发明仿真实验所使用的数据集采自网站:
http://www.ehu.eus/ccwintco/index.php?title=Hyperspectral_Remote_Sensing_Scenes。其中,University of Pavia高光谱数据集图像的大小为610×340,具有103个波段,包含9类地物,每类地物的类别与数量如表1所示。
表1 University of Pavia样本类别与数量
类标 | 地物类别 | 数量 |
1 | Asphalt | 6631 |
2 | Meadows | 18649 |
3 | Gravel | 2099 |
4 | Trees | 3064 |
5 | Painted metal sheets | 1345 |
6 | Bare soil | 5029 |
7 | Bitumen | 1330 |
8 | Self-blocking bricks | 3962 |
9 | Shadows | 947 |
Pavia Center高光谱数据集图像的大小为1096×715,具有102个波段,包含9类地物,每类地物的类别与数量如表2所示。
表2 Pavia Center样本类别与数量
为了验证本发明的高效性和良好的分类性能,采用整体分类精度OA,平均精度AA,Kappa系数三种评价指标。
所述整体分类精度OA,指的是测试集上正确分类的像素点的个数除以总的像素个数的比例,其值在0~100%之间,此值越大说明分类效果越好。
所述平均精度AA,指的是将测试集上每类正确分类的像素点个数除以该类所有像素总数,得到该类的正确分类精度,并将所有类别的精度取平均值,其值在0~100%之间,此值越大说明分类效果越好。
所述Kappa系数,是定义在混淆矩阵上的一个评价指标,其综合考虑混淆矩阵对角线上的元素和偏离对角线的元素,更客观地反映了算法的分类性能,Kappa系数的值在-1~1之间,此值越大说明分类效果越好。
2.仿真实验内容及结果分析:
仿真1,将本发明和两个现有技术分别在University of Pavia高光谱数据集中进行分类测试,结果图如图6所示,其中:
图6(a)为用现有FDSSC方法在University of Pavia高光谱数据集上的分类结果;
图6(b)为用现有DBDA方法在University of Pavia高光谱数据集上的分类结果;
图6(c)为用本发明方法在University of Pavia高光谱数据集上的分类结果。
从图6(c)可以看出,本发明在University of Pavia数据集上的分类结果图明显比图6(a),6(b)更加光滑,边缘更加清晰。
仿真2,用本发明和两个现有技术分别在Pavia Center高光谱数据集进行测试,其仿真结果图如图7所示,其中:
图7(a)为用现有FDSSC方法在Pavia Center高光谱数据集上的分类结果;
图7(b)为用现有DBDA方法在Pavia Center高光谱数据集上的分类结果;
图7(c)为用本发明方法在Pavia Center高光谱数据集上的分类结果;
从图7(c)可以看出,本发明在Pavia Center数据集上的分类结果图明显比图7(a),7(b)更加光滑,边缘更加清晰且区域目标一致性更好。
将上述两个仿真中本发明和现有技术分别在University of Pavia高光谱数据集和Pavia Center高光谱数据集的分类的精度进行比较,其结果如表3所示。
表3三种网络在两个不同数据集下的分类精度对比
由表3可以看出,本发明方法在University of Pavia和Pavia Center数据集下,比现有技术FDSSC方法和DBDA方法均获得了较高的分类准确率,说明本发明能更加准确的预测出高光谱图像样本的类别。
以上仿真实验表明:本发明的方法利用构造的谱间稠密特征提取块和多路谱间注意力机制模块提取谱间语义特征,利用构造的多尺度空间特征提取块和多路空间注意力机制模块提取空间语义特征。并将空间语义特征和谱间语义特征拼接,再通过全连接层能够获取更具可区分性的谱空语义特征,最后通过softmax分类器获得高光谱图像分类结果。采用focal loss损失函数来训练神经网络,使得多路注意力机制的语义卷积神经网络更关注样本分布不集中或样本量很少的地物类别。解决了现有技术在空间特征提取时因对提取的特征利用率不足造成的信息丢失,或者保留过多无关信息造成信息冗余,而导致在少训练样本的情况下分类准确率不高的问题,是一种非常实用的针对少训练样本下的高光谱图像分类方法。
Claims (6)
1.一种基于多路注意力机制的语义卷积高光谱图像分类方法,其特征在于,包括如下:
(1)输入原始三维高光谱图像,并在高光谱图像边缘填充0像素的尺寸t;再在填充操作后的高光谱图像中,以每个像素点为中心,选取高光谱图像块;
(2)用高光谱图像块生成样本数不同的训练样本集和测试样本集;
(3)搭建多路注意力机制的语义卷积神经网络;
(3a)搭建谱分支网络:
(3a1)构建由三个卷积层,三个归一化层,三个Mish激活函数层组成的谱间稠密特征提取模块,该模块结构依次为:第1卷积层→第1归一化层→第1激活函数层→第1拼接层→第2卷积层→第2归一化层→第2激活函数层→第2拼接层→第3卷积层→第3归一化层→第3激活函数层→第3拼接层;
所述第1拼接层,用于将第1卷积层的输入、第1激活函数层输出拼接在一起;
所述第2拼接层,用于将第1卷积层的输入、第1激活函数层输出,第2激活函数层输出拼接在一起;
所述第3拼接层,用于将第1卷积层的输入、第1激活函数层输出,第2激活函数层输出,第3激活函数层输出拼接在一起;
所述第1卷积层,第2卷积层,第3卷积层的卷积核大小均设置为1*1*7,通道数设置为12;
所述第1激活函数层,第2激活函数层,第3激活函数层中的Mish激活函数均相同,表示如下:
Mish(x)=x*tanh(ln(1+ex)),
其中,x表示激活函数的输入,tanh(·)表示双曲正切函数,ln(·)表示自然对数函数;
(3a2)构建由M路谱间注意力机制子模块线性相加组成的多路谱间注意力机制模块,每一路谱间注意力机制子模块包括reshape层、矩阵转置与相乘层、softmax层、数据reshape层和相加层;
所述每一路谱间注意力机制子模块其包括四个reshape层,一个转置层,两个相乘层,一个相加层,一个softmax层,其连接结构为:
第一reshape层,第二reshape层,第三reshape层三者并联;
第三reshape层与转置层串联;
第二reshape层与转置层并联后再与第一相乘层串联;
第一相乘层与softmax层串联;
第一reshape层与softmax层并联后,再与第二相乘层串联;
第二相乘层与第四reshape层和相加层依次串联;
(3a3)将谱间稠密特征提取模块与多路谱间注意力机制模块串联,组成谱分支网络;
(3b)搭建空间分支网络:
(3b1)构建由尺度操作层、卷积层、归一化层、Mish激活函数层、拼接层组成的多尺度空间特征提取模块;其中的尺度操作层,是以选取的图像块中心像素点为中心从边缘位置减少一个像素点,且光谱通道数不变;
(3b2)构建由N路空间注意力机制子模块线性相加组成的多路空间注意力机制模块,每一路空间注意力机制子模块包括卷积层、归一化层、Mish激活函数层、reshape层、矩阵转置与相乘层、softmax层、数据reshape层和相加层;
所述每一路空间注意力机制子模块,包括3个卷积层,3个归一化层,3个激活层,4个reshape层,1个转置层,2个相乘层,1个相加层,1个softmax层,其连接结构为:
第1个卷积层、第1个归一化层、第1个激活层、第1个reshape层和转置层依次串联;
第2个卷积层、第2个归一化层、第2个激活层和第2个reshape层依次串联;
第2个reshap层与转置层并联后、再与第1个相乘层、softmax层相串联;
第3个卷积层、第3个归一化层、第3个激活层和第3个reshape层串联;
第3个reshape层与softmax层并联;
第2个相乘层、第4个reshape层和相加层依次串联;
(3b3)将多尺度空间特征提取模块和多路空间注意力机制模块相串联,组成空间分支网络;
(3c)将谱分支网络、空间分支网络并联后再与全连接层,softmax分类器串联,组成多路注意力机制的语义卷积神经网络,并选择focal loss函数作为该网络的损失函数;
(4)利用训练样本集采用随机梯度下降法对多路注意力机制的语义卷积神经网络进行训练,直到focal loss损失函数收敛,得到训练好的多路注意力机制的语义卷积神经网络;
(5)将测试样本输入到训练好的多路注意力机制的语义卷积神经网络,得到测试样本的类别标签,完成高光谱图像的分类。
2.根据权利要求1所述的方法,其特征在于,(1)中的原始三维高光谱图像,是一个三维数据S∈Ra×b×c,该高光谱图像中每个波段对应三维数据中的一个二维矩阵Si∈Ra×b,其中,R表示实数域符号,a表示高光谱图像的长,b表示高光谱图像的宽,c表示高光谱图像的光谱波段数,i表示高光谱图像中光谱波段的序号,i=1,2,…,c。
3.根据权利要求1所述的方法,其特征在于,(1)中所述选取的高光谱图像块,其空间大小为(2t+1)×(2t+1),通道数d与高光谱图像的光谱波段数相同,其中t为在高光谱图像边缘填充0像素的尺寸。
4.根据权利要求1所述的方法,其特征在于,(2)中生成样本数不同的训练样本集和测试样本集,是先将高光谱图像块按其中心像素点类别分配到该类别所属的集合中;再分别在每类集合中按照0.01的比例选图像块作为训练集,并将每个图像块的中心像素点标签作为该图像块的标签;再分别将每类集合中剩余的图像块作为测试集。
5.根据权利要求1所述的方法,其特征在于,(3c)中的focal loss函数,公式如下:
L=-y*(1-y)rlog(y)
其中,L表示预测标签向量与真实标签向量之间的focal loss损失值,y表示预测标签向量,y*表示真实标签向量,r表示focal调节参数。
6.根据权利要求1所述的方法,其特征在于,(4)中利用训练样本集采用随机梯度下降法对多路注意力机制的语义卷积神经网络进行训练,实现如下:
(4a)设置训练的初始学习率为α,衰减率为β,迭代轮次数为Q,将训练样本集分为G批次输入到多路注意力机制的语义卷积神经网络中,每次输入的图像块个数为D,即:
其中,S为训练样本集中训练样本总个数;
(4b)设置每次输入高光谱图像块的学习率R为:
R=α×βG
(4c)对多路注意力机制的语义卷积神经网络进行G次权重更新,得到更新后的权重向量Wnew:
其中,L表示预测标签向量与真实标签向量之间的focal loss损失值,W表示多路注意力机制的语义卷积神经网络的更新前的权重向量;
(4d)将下一次训练样本集输入多路注意力机制的语义卷积神经网络,对focal loss损失函数值进行更新,使得损失函数值L不断下降;
(4e)重复(4d),直到focal loss损失值不再下降,且当前训练轮次数小于设置的迭代次数Q,则停止对该网络训练,得到训练好的多路注意力机制的语义卷积神经网络;否则,当训练轮次数达到Q,停止对该网络的训练,得到训练好的多路注意力机制的语义卷积神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010854614.1A CN112052755B (zh) | 2020-08-24 | 2020-08-24 | 基于多路注意力机制的语义卷积高光谱图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010854614.1A CN112052755B (zh) | 2020-08-24 | 2020-08-24 | 基于多路注意力机制的语义卷积高光谱图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052755A CN112052755A (zh) | 2020-12-08 |
CN112052755B true CN112052755B (zh) | 2023-06-02 |
Family
ID=73600672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010854614.1A Active CN112052755B (zh) | 2020-08-24 | 2020-08-24 | 基于多路注意力机制的语义卷积高光谱图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052755B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733725B (zh) * | 2021-01-12 | 2023-09-22 | 西安电子科技大学 | 基于多级循环卷积自编码网络的高光谱图像变化检测方法 |
CN113128580A (zh) * | 2021-04-12 | 2021-07-16 | 天津大学 | 一种基于多维残差网络的脊柱ct图像识别方法 |
CN113191983A (zh) * | 2021-05-18 | 2021-07-30 | 陕西师范大学 | 一种基于深度学习注意力机制的图像去噪方法及装置 |
CN113435253B (zh) * | 2021-05-31 | 2022-12-02 | 西安电子科技大学 | 一种多源影像联合城区地表覆盖分类方法 |
CN113486851B (zh) * | 2021-07-28 | 2023-04-18 | 齐齐哈尔大学 | 基于双分支光谱多尺度注意力网络的高光谱图像分类方法 |
CN113920323B (zh) * | 2021-11-18 | 2023-04-07 | 西安电子科技大学 | 基于语义图注意力网络的不同混乱度高光谱图像分类方法 |
CN114220002B (zh) * | 2021-11-26 | 2022-11-15 | 通辽市气象台(通辽市气候生态环境监测中心) | 一种基于卷积神经网络的外来植物入侵监测方法和系统 |
CN114663779A (zh) * | 2022-03-25 | 2022-06-24 | 辽宁师范大学 | 基于时-空-谱注意力机制的多时相高光谱影像变化检测方法 |
CN114758170B (zh) * | 2022-04-02 | 2023-04-18 | 内蒙古农业大学 | 一种结合d3d的三分支三注意力机制高光谱图像分类方法 |
CN116504259B (zh) * | 2023-06-30 | 2023-08-29 | 中汇丰(北京)科技有限公司 | 一种基于自然语言处理的语义识别方法 |
CN116977747B (zh) * | 2023-08-28 | 2024-01-23 | 中国地质大学(北京) | 基于多路多尺度特征孪生网络的小样本高光谱分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321963A (zh) * | 2019-07-09 | 2019-10-11 | 西安电子科技大学 | 基于融合多尺度多维空谱特征的高光谱图像分类方法 |
CN110516596A (zh) * | 2019-08-27 | 2019-11-29 | 西安电子科技大学 | 基于Octave卷积的空谱注意力高光谱图像分类方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562057B2 (en) * | 1999-04-09 | 2009-07-14 | Plain Sight Systems, Inc. | System and method for hyper-spectral analysis |
US9430842B1 (en) * | 2013-07-17 | 2016-08-30 | Stc.Unm | Material classification fused with spatio-spectral edge detection in spectral imagery |
CN108090447A (zh) * | 2017-12-19 | 2018-05-29 | 青岛理工大学 | 双分支深层结构下的高光谱图像分类方法及装置 |
CN108491849B (zh) * | 2018-03-23 | 2021-09-28 | 上海理工大学 | 基于三维稠密连接卷积神经网络的高光谱图像分类方法 |
CN109784347B (zh) * | 2018-12-17 | 2022-04-26 | 西北工业大学 | 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法 |
CN110309868A (zh) * | 2019-06-24 | 2019-10-08 | 西北工业大学 | 结合无监督学习的高光谱图像分类方法 |
CN110598594A (zh) * | 2019-08-29 | 2019-12-20 | 武汉大学 | 基于空谱自适应双向长短时记忆模型的高光谱分类方法 |
CN111274869B (zh) * | 2020-01-07 | 2023-04-07 | 中国地质大学(武汉) | 基于并行注意力机制残差网进行高光谱图像分类的方法 |
CN111563520B (zh) * | 2020-01-16 | 2023-01-13 | 北京航空航天大学 | 一种基于空间-光谱联合注意力机制的高光谱图像分类方法 |
CN111353531B (zh) * | 2020-02-25 | 2023-03-28 | 西安电子科技大学 | 基于奇异值分解和空谱域注意力机制高光谱图像分类方法 |
-
2020
- 2020-08-24 CN CN202010854614.1A patent/CN112052755B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321963A (zh) * | 2019-07-09 | 2019-10-11 | 西安电子科技大学 | 基于融合多尺度多维空谱特征的高光谱图像分类方法 |
CN110516596A (zh) * | 2019-08-27 | 2019-11-29 | 西安电子科技大学 | 基于Octave卷积的空谱注意力高光谱图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112052755A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052755B (zh) | 基于多路注意力机制的语义卷积高光谱图像分类方法 | |
CN110321963B (zh) | 基于融合多尺度多维空谱特征的高光谱图像分类方法 | |
CN110516596B (zh) | 基于Octave卷积的空谱注意力高光谱图像分类方法 | |
CN110533631B (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
CN113095409B (zh) | 基于注意力机制和权值共享的高光谱图像分类方法 | |
CN110852227A (zh) | 高光谱图像深度学习分类方法、装置、设备及存储介质 | |
CN103440505B (zh) | 空间邻域信息加权的高光谱遥感图像分类方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
Rahaman et al. | An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm | |
CN111914728B (zh) | 高光谱遥感影像半监督分类方法、装置及存储介质 | |
CN110084311B (zh) | 基于三元权值卷积神经网络的高光谱图像波段选择方法 | |
CN111639587B (zh) | 基于多尺度谱空卷积神经网络的高光谱图像分类方法 | |
CN105117736B (zh) | 基于稀疏深度堆栈网络的极化sar图像分类方法 | |
CN111814685A (zh) | 基于双支路卷积自编码器的高光谱图像分类方法 | |
CN109409442A (zh) | 迁移学习中卷积神经网络模型选择方法 | |
CN111222545B (zh) | 基于线性规划增量学习的图像分类方法 | |
CN106529458A (zh) | 一种面向高光谱图像的深度神经网络空间谱分类方法 | |
CN116310510A (zh) | 一种基于小样本深度学习的高光谱图像分类方法 | |
CN107392863A (zh) | 基于亲和矩阵融合谱聚类方法的sar图像变化检测方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN107451606B (zh) | 基于局部聚类比例排序的高光谱波段选择方法 | |
CN114065831A (zh) | 基于多尺度随机深度残差网络的高光谱图像分类方法 | |
CN109460788B (zh) | 基于低秩-稀疏信息组合网络的高光谱图像分类方法 | |
CN116312860B (zh) | 基于监督迁移学习的农产品可溶性固形物预测方法 | |
CN116630700A (zh) | 基于引入通道-空间注意力机制的遥感图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |