CN114863173A - 一种面向土地资源审计的自互注意力高光谱图像分类方法 - Google Patents

一种面向土地资源审计的自互注意力高光谱图像分类方法 Download PDF

Info

Publication number
CN114863173A
CN114863173A CN202210487088.9A CN202210487088A CN114863173A CN 114863173 A CN114863173 A CN 114863173A CN 202210487088 A CN202210487088 A CN 202210487088A CN 114863173 A CN114863173 A CN 114863173A
Authority
CN
China
Prior art keywords
self
spectral
attention
spatial
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210487088.9A
Other languages
English (en)
Other versions
CN114863173B (zh
Inventor
周峰
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202210487088.9A priority Critical patent/CN114863173B/zh
Publication of CN114863173A publication Critical patent/CN114863173A/zh
Application granted granted Critical
Publication of CN114863173B publication Critical patent/CN114863173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Remote Sensing (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向土地资源审计的自互注意力高光谱图像分类方法,首先构建自互注意力网络,针对高光谱图像中的每个像素点,利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域,再输出至自互注意力模块,接着利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系;本发明实现了借助互注意力机制实现特征交互,以此突出光谱和空间域的相关性,并在每个域中使用自注意力学习长距离依赖关系,接着在空间和光谱域的两个分类结果上应用加权求和,得到联合分类结果,该自互注意力网络能够获得优于最新先进方法的分类性能,适合被广泛推广和使用。

Description

一种面向土地资源审计的自互注意力高光谱图像分类方法
技术领域
本发明涉及图像分类技术领域,具体涉及一种面向土地资源审计的自互注意力高光谱图像分类方法。
背景技术
土地资源审计需要使用采集到的遥感图像(比如高光谱图像)以及相关部门业务数据,如国土部门的土地规划数据,对目标区域进行分析。其中,审计人员需要逐一核实土地利用等情况是否存在虚报林地建设、植树造林占用基本农田。
传统审计方法无法直接由采集到的高光谱图像数据得到准确的地物信息,需要进行费时费力的实地观测。随着人工智能,尤其是深度学习技术的兴起,可以自动地识别高光谱图像中的地物。但是,目前用于高光谱图像分类的深度学习方法大多以混合了光谱和空间信息的原始高光谱立方体作为输入。因此,它们无法明确地建模光谱和空间域之间的内在相关性(如互补关系),导致分类性能不足。为了缓解这个问题,需要设计一种面向土地资源审计的自互注意力高光谱图像分类方法。
发明内容
本发明的目的是克服现有技术的不足,为更好的有效解决传统审计方法无法直接由采集到的高光谱图像数据得到准确的地物信息,需要进行费时费力实地观测的问题,提供了一种面向土地资源审计的自互注意力高光谱图像分类方法,其具有分类效果较好的优点。
为了达到上述目的,本发明所采用的技术方案是:
一种面向土地资源审计的自互注意力高光谱图像分类方法,包括以下步骤,
步骤(A),构建自互注意力网络,用于对土地资源审计过程中的高光谱图像进行分类;
步骤(B),针对高光谱图像中的每个像素点,利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域,再输出至自互注意力模块;
步骤(C),利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系,并同时使用自注意力捕获各个域内的长距离依赖关系,完成对光谱和空间特征的增强;
步骤(D),使用增强的光谱和空间特征分别得到对应的分类结果,并使用加权求和的方式融合二者,完成土地资源审计过程中高光谱图像的分类作业。
前述的一种面向土地资源审计的自互注意力高光谱图像分类方法,步骤(A),构建自互注意力网络,用于对土地资源审计过程中的高光谱图像进行分类,其中自互注意力网络包括光谱特征模块、空间特征模块和自互注意力模块;所述光谱特征模块的基础单元包括一维卷积层、一维批量归一化层、ReLU函数和一维最大值池化层,所述空间特征模块的基础单元是光谱特征模块基础单元的二维版本。
前述的一种面向土地资源审计的自互注意力高光谱图像分类方法,步骤(B),针对高光谱图像中的每个像素点,利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域,再输出至自互注意力模块,其具体步骤如下,
步骤(B1),设定一个在高光谱图像中位置为(i,j)的像素点x,再生成对应的光谱向量和局部图像块,其具体生成步骤如下;
步骤(B11),光谱向量,其能直接从高光谱图像中提取,记作
Figure RE-GDA0003730708650000031
且B代表高光谱图像的波段个数;
步骤(B12),局部图像块,以像素点x为中心的局部图像块是由高光谱图像的前三个主成分裁剪得到的,定义为
Figure RE-GDA0003730708650000032
其中N×N是图像块的空间尺寸;
步骤(B2),光谱特征模块用于从光谱向量Z中提取光谱初始特征Fse;空间特征模块用于将局部图像块X转换为一个256个通道的特征图Fsa,且空间尺寸为
Figure RE-GDA0003730708650000033
步骤(B3),将光谱初始特征Fse和特征图Fsa一起输出至自互注意力模块。
前述的一种面向土地资源审计的自互注意力高光谱图像分类方法,步骤(C),利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系,并同时使用自注意力捕获各个域内的长距离依赖关系,完成对光谱和空间特征的增强,其中自互注意力模块能对输入的光谱初始特征Fse和特征图Fsa进行处理并得到增强光谱特征Ese和增强空间特征Esa,具体步骤如下,
步骤(C1),设已经获得了通道数为256的光谱初始特征
Figure RE-GDA0003730708650000034
和通道数为256的空间图
Figure RE-GDA0003730708650000035
再通过使用非线性函数将它们分别映射成三个单独的表征,其中非线性函数由一层一维/二维卷积层、一层一维/二维批量归一化层、以及ReLU函数构成;光谱域的表征定义为维度为
Figure RE-GDA0003730708650000041
的Qse、Kse和Vse,而空间域能得到维度为
Figure RE-GDA0003730708650000042
的表征Qsa、Ksa和Vsa
与此同时,Fse和Fsa会映射到同一个空间,再将其融合得到融合特征
Figure RE-GDA0003730708650000043
如公式(1)所示,
Ff=tanh(FC(GAP1d(Fse))⊙FC(GAP2d(Fsa))) (1)
其中,GAP1d和GAP2d分别表示一维和二维的全局平均池化操作,FC代表全连接层,“⊙”表示Hadamard乘积,tanh为双曲正切函数;
步骤(C2),推理出光谱域的光谱互注意力图
Figure RE-GDA0003730708650000044
其中光谱互注意力图Mse编码了光谱和空间域的相互关系,Mse如公式(2)所示,
Figure RE-GDA0003730708650000045
其中,
Figure RE-GDA0003730708650000046
表示矩阵乘法,softmax操作将映射转为概率值;
步骤(C3),Mse还用于生成第一光谱特征
Figure RE-GDA0003730708650000047
如公式(3)所示,
Figure RE-GDA0003730708650000048
步骤(C4),使用自注意力将长距离依赖关系编码进光谱特征,并得到光谱自注意力图
Figure RE-GDA0003730708650000049
如公式(4)所示,
Figure RE-GDA00037307086500000410
步骤(C5),Sse与Vse相乘,生成另一个第二光谱特征
Figure RE-GDA00037307086500000411
如公式 (5)所示,
Figure RE-GDA00037307086500000412
其中,Flatten操作将矩阵延展成向量;
步骤(C6),通过堆叠Ese1和Ese2能获得最终的增强光谱特征
Figure RE-GDA00037307086500000413
Figure RE-GDA0003730708650000051
步骤(C7),基于增强光谱特征Ese的处理过程,利用公式(2)和公式(4) 得到空间自注意力图
Figure RE-GDA0003730708650000052
和空间互注意力图
Figure RE-GDA0003730708650000053
其中将公式中的 Qse和Kse替换为Qsa和Ksa
步骤(C8),将空间自注意力图Ssa和空间互注意力图Msa与Vsa相乘,得到第一空间特征
Figure RE-GDA0003730708650000054
和第二空间特征
Figure RE-GDA0003730708650000055
再将这两个空间特征进行堆叠,得到最终的增强空间特征
Figure RE-GDA0003730708650000056
前述的一种面向土地资源审计的自互注意力高光谱图像分类方法,步骤(D),使用增强的光谱和空间特征分别得到对应的分类结果,并使用加权求和的方式融合二者,完成土地资源审计过程中高光谱图像的分类作业,具体是增强光谱特征Ese和增强空间特征Esa分别用于生成对应的分类结果
Figure RE-GDA0003730708650000057
Figure RE-GDA0003730708650000058
其中C是高光谱图像中类别的个数,具体步骤如下,
步骤(D1),利用光谱和空间信息之间的互补关系,再使用光谱和空间分类结果的平均值作为最终的预测结果
Figure RE-GDA0003730708650000059
步骤(D2),对光谱分类结果Pse和空间分类结果Psa设置监督信息,设真实分类结果图
Figure RE-GDA00037307086500000510
则自互注意力网络的损失函数Loss定义如公式(6)所示,
Figure RE-GDA00037307086500000511
前述的一种面向土地资源审计的自互注意力高光谱图像分类方法,所述自互注意力网络的输入为光谱向量Z和局部图像块X,输出为像素点x的类别标签。
本发明的有益效果是:本发明的一种面向土地资源审计的自互注意力高光谱图像分类方法,首先利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域,再通过自互注意力模块来增强这两种特征;具体而言,其是借助互注意力机制实现特征交互,以此突出光谱和空间域的相关性;与此同时,在每个域中使用自注意力学习长距离依赖关系;最后,在空间和光谱域的两个分类结果上应用加权求和,得到联合分类结果;该自互注意力网络能够获得优于最新先进方法的分类性能,具有方法科学合理、适用性强和效果佳等优点。
附图说明
图1是本发明的自互注意力网络的整体流程示意图;
图2是本发明的自互注意力模块结构示意图;
图3是本发明在IndianPines(第一行)和University of Houston(第二行) 数据集上的伪彩色图和真实分类结果图;
图4是本发明在IndianPines数据集上的分类结果图;
图5是本发明在UniversityofHouston数据集上的分类结果图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1-5所示,本发明的一种面向土地资源审计的自互注意力高光谱图像分类方法,包括以下步骤,
步骤(A),构建自互注意力网络,用于对土地资源审计过程中的高光谱图像进行分类,其中自互注意力网络包括光谱特征模块、空间特征模块和自互注意力模块;所述光谱特征模块的基础单元包括一维卷积层、一维批量归一化层、 ReLU函数和一维最大值池化层,所述空间特征模块的基础单元是光谱特征模块基础单元的二维版本;
其中,所述自互注意力网络的输入为光谱向量Z和局部图像块X,输出为像素点x的类别标签。
步骤(B),针对高光谱图像中的每个像素点,利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域,再输出至自互注意力模块,其具体步骤如下,
步骤(B1),设定一个在高光谱图像中位置为(i,j)的像素点x,再生成对应的光谱向量和局部图像块,其具体生成步骤如下;
步骤(B11),光谱向量,其能直接从高光谱图像中提取,记作
Figure RE-GDA0003730708650000071
且B代表高光谱图像的波段个数;
步骤(B12),局部图像块,以像素点x为中心的局部图像块是由高光谱图像的前三个主成分裁剪得到的,定义为
Figure RE-GDA0003730708650000072
其中N×N是图像块的空间尺寸;
步骤(B2),光谱特征模块用于从光谱向量Z中提取光谱初始特征Fse;空间特征模块用于将局部图像块X转换为一个256个通道的特征图Fsa,且空间尺寸为
Figure RE-GDA0003730708650000073
其中,提取光谱初始特征之后,光谱向量Z的波段数量减少至原来的八分之一;与此同时,光谱向量Z的特征通道数量扩大至256;
步骤(B3),将光谱初始特征Fse和特征图Fsa一起输出至自互注意力模块。
步骤(C),利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系,并同时使用自注意力捕获各个域内的长距离依赖关系,完成对光谱和空间特征的增强,其中自互注意力模块能对输入的光谱初始特征Fse和特征图Fsa进行处理并得到增强光谱特征Ese和增强空间特征Esa,具体步骤如下,
其中,自互注意力网络的核心部分是自互注意力模块,这个模块能够使用互注意力机制明确地建模光谱和空间域之间的相互关系,并同时使用自注意力捕获各个域内的长距离依赖关系;
步骤(C1),设已经获得了通道数为256的光谱初始特征
Figure RE-GDA0003730708650000081
和通道数为256的空间图
Figure RE-GDA0003730708650000082
再通过使用非线性函数将它们分别映射成三个单独的表征,其中非线性函数由一层一维/二维卷积层、一层一维/二维批量归一化层、以及ReLU函数构成;光谱域的表征定义为维度为
Figure RE-GDA0003730708650000083
的Qse、Kse和Vse,而空间域能得到维度为
Figure RE-GDA0003730708650000084
的表征Qsa、Ksa和Vsa
与此同时,Fse和Fsa会映射到同一个空间,再将其融合得到融合特征
Figure RE-GDA0003730708650000085
如公式(1)所示,
Ff=tanh(FC(GAP1d(Fse))⊙FC(GAP2d(Fsa))) (1)
其中,GAP1d和GAP2d分别表示一维和二维的全局平均池化操作,FC代表全连接层,“⊙”表示Hadamard乘积,tanh为双曲正切函数;
步骤(C2),推理出光谱域的光谱互注意力图
Figure RE-GDA0003730708650000086
其中光谱互注意力图Mse编码了光谱和空间域的相互关系,Mse如公式(2)所示,
Figure RE-GDA0003730708650000087
其中,
Figure RE-GDA0003730708650000088
表示矩阵乘法,softmax操作将映射转为概率值;
步骤(C3),Mse还用于生成第一光谱特征
Figure RE-GDA0003730708650000089
如公式(3)所示,
Figure RE-GDA00037307086500000810
步骤(C4),使用自注意力将长距离依赖关系编码进光谱特征,并得到光谱自注意力图
Figure RE-GDA00037307086500000811
如公式(4)所示,
Figure RE-GDA00037307086500000812
步骤(C5),Sse与Vse相乘,生成另一个第二光谱特征
Figure RE-GDA0003730708650000091
如公式 (5)所示,
Figure RE-GDA0003730708650000092
其中,Flatten操作将矩阵延展成向量;
步骤(C6),通过堆叠Ese1和Ese2能获得最终的增强光谱特征
Figure RE-GDA0003730708650000093
Figure RE-GDA0003730708650000094
步骤(C7),基于增强光谱特征Ese的处理过程,利用公式(2)和公式(4) 得到空间自注意力图
Figure RE-GDA0003730708650000095
和空间互注意力图
Figure RE-GDA0003730708650000096
其中将公式中的 Qse和Kse替换为Qsa和Ksa
步骤(C8),将空间自注意力图Ssa和空间互注意力图Msa与Vsa相乘,得到第一空间特征
Figure RE-GDA0003730708650000097
和第二空间特征
Figure RE-GDA0003730708650000098
再将这两个空间特征进行堆叠,得到最终的增强空间特征
Figure RE-GDA0003730708650000099
步骤(D),使用增强的光谱和空间特征分别得到对应的分类结果,并使用加权求和的方式融合二者,完成土地资源审计过程中高光谱图像的分类作业,具体是增强光谱特征Ese和增强空间特征Esa分别用于生成对应的分类结果
Figure RE-GDA00037307086500000910
Figure RE-GDA00037307086500000911
其中C是高光谱图像中类别的个数,具体步骤如下,
其中,增强特征经过一层全连接层、ReLU函数、一层全连接层转换成C维向量,并使用softmax函数将其映射为概率值。
步骤(D1),利用光谱和空间信息之间的互补关系,再使用光谱和空间分类结果的平均值作为最终的预测结果
Figure RE-GDA00037307086500000912
步骤(D2),对光谱分类结果Pse和空间分类结果Psa设置监督信息,设真实分类结果图
Figure RE-GDA00037307086500000913
则自互注意力网络的损失函数Loss定义如公式(6)所示,
Figure RE-GDA0003730708650000101
为了更好的阐述本发明的使用效果,下面具体介绍本发明的一个具体实施例;
(1)为了评估提出的自互注意力网络的分类性能,本发明在两个公开的数据集进行了对比实验。这两个数据集包括IndianPines和UniversityofHouston。 IndianPines数据集由机载可见光/红外成像光谱仪与1992年6月12日在美国印第安纳州西北部的农田拍摄得到。IndianPines高光谱图像空间尺寸为145×145,且包含224个光谱波段(波长覆盖范围为400nm至2500nm)。在本次实验中,去除了水的吸收波段,使用剩下的200个波段。该场景中有三分之二为农作物,三分之一是森林,剩下的是自然地多年生植物。IndianPines的真实分类图主要包含16类地物。总计有10249个带标签样本可供使用。该数据集的伪彩色图和真实分布图如图3第一行所示。在IndianPines数据集上自互注意力网络的详细配置(波段数为200,局部图像块尺寸为32×32),如表1所示。
表1
Figure RE-GDA0003730708650000102
Figure RE-GDA0003730708650000111
(2)UniversityofHouston数据集是由轻便机载光谱成像仪于2012年6月 23日在休斯顿大学校园和周边市区拍摄得到。该数据集总共包含349×1905像素点,覆盖波长范围从380nm至1050nm的光谱波段。该数据集包含15类研究学者感兴趣的地物类别。该数据集可获取的带标签样本数量为15029。该数据集的伪彩色图和真实分布图如图3第二行所示。针对这两个数据集,本发明都采用整体样本数量的5%、2%、以及93%分别作为训练、验证和测试,IndianPines 和UniversityofHouston数据集训练样本、验证样本、以及测试样本的数量如表2 所示。
表2
Figure RE-GDA0003730708650000112
Figure RE-GDA0003730708650000121
(3)本发明的自互注意力网络是使用PyTorch框架实现,并在一台CPU为 i7-10700,显卡为NVIDIARTX 3090的计算机上运行。本发明使用Adam算法优化自互注意力网络,总的迭代周期设置为200。值得注意的是,训练自互注意力网络时,使用验证样本上测试其性能。最后,将在验证样本上性能最好的模型参数保存,直接用于测试样本的结果分析。具体而言,Adam算法中的学习率设置为0.001,β1和β2分别设置为0.9和0.999,∈设置为1e-8。在后面的实验中,将自互注意力网络记作SMANet(Self mutual attention network)。本发明使用总体准确率(Overallaccuracy,OA)、平均准确率(Averageaccuracy,AA)、每一类准确率、以及Kappa系数来评估分类方法的性能。OA定义了测试样本中分类准确的样本数量与总的测试样本数量的比值,AA是所有类别分类准确率的平均值,Kappa系数用于检验分类效果的一致性。为了消除随机初始化的影响,所有对比方法的实验都进行了五次,最后记录的是五次实验的平均结果。除此之外,还给出了五次实验结果的标准差,以此衡量不同方法的稳定性。本发明总共选择了五个先进的对比方法,包括3DCNN、DFFN、MorphCNN、HybridSN、以及SSTN。这些对比方法的超参数都设置为默认值。
(4)IndianPines数据集的分类结果如表3所示。
表3
Figure RE-GDA0003730708650000122
Figure RE-GDA0003730708650000131
表3列出了所有对比方法在IndianPines数据集上分类结果的指标。从表中可以观察到,3DCNN和HybridSN获得的分类结果是所有方法中最差的,只有不到90%的OA。这主要是因为这两类方法尝试通过三维卷积直接同时提取光谱和空间特征,而这种做法导致无法从杂糅在一起的光谱和空间信息中准确地提取光谱和空间特征。与这两种方法相比,MorphCNN和SSTN获得的OA能够提升至少5%,因为它们分别设置独立的光谱和空间特征提取过程,能够更精确地提取对应域的特征。这个现象也说明了独立提取光谱和空间特征的重要性。值得注意的是DFFN能够获得与SSTN类似的分类结果。具体而言,DFFN分类结果的OA只比SSTN的OA高出了0.1%。DFFN能够取得这样的分类结果,主要由于它设计了非常深的网络结构来提取极具判别性的特征,且同时利用网络中不同层之间的互补以及相关的关系。上述的对比方法都取得了不错的分类性能,但是都直接使用高光谱立方块作为输入。这样的输入会将光谱和空间信息混合在一起,难以建模这两个域之间的相互关系,如互补关系。得益于本发明提出的自互注意力模块,SMANet既能够准确地学习光谱和空间域之间的相互关系,又能同时捕获各个域内的长距离依赖关系。因此,与DFFN相比,SMANet 将OA从94.11%提升至96.23%,AA从85.75%提升至89.34%,Kappa系数从 93.28%提升至95.70%,获得了最佳的分类性能。图4给出了所有方法的分类结果图。从图中可以看出,SMANet获得的分类结果图更加均匀,且地物边缘更加清晰。
(5)University of Houston数据集的分类结果如表4所示。
表4
3DCNN DFFN MorphCNN HybridSN SSTN SMANet
OA 92.70±0.38 96.37±0.15 95.59±0.56 93.72±0.46 94.05±1.15 97.92±0.14
AA 92.00±0.60 96.50±0.33 95.97±0.46 93.72±0.62 94.49±1.21 97.94±0.17
Kappa 92.11±0.41 96.07±0.17 95.23±0.61 93.21±0.50 93.57±1.25 97.75±0.14
1 96.64±0.92 98.33±0.72 99.18±0.78 97.83±1.60 99.36±0.51 98.57±1.23
2 97.77±1.41 99.58±0.31 96.31±4.38 97.32±1.74 92.11±5.64 97.65±0.60
3 100.00±0.00 98.34±0.62 99.73±0.17 99.73±0.20 99.61±0.20 100.00±0.00
4 97.12±0.88 96.85±1.40 94.01±0.26 97.99±1.46 92.74±1.20 98.58±1.07
5 99.42±0.23 99.95±0.08 99.24±0.76 99.07±0.24 99.37±1.22 99.97±0.04
6 76.63±5.33 94.69±3.80 94.56±4.31 88.09±4.17 96.70±3.13 97.09±0.65
7 92.25±1.38 93.71±2.14 94.67±2.51 89.88±2.65 96.62±1.22 97.33±0.39
8 78.56±0.99 85.14±1.23 86.09±3.32 80.68±3.32 86.53±5.25 89.73±1.41
9 85.98±1.65 91.11±2.22 91.14±3.99 90.86±1.55 87.51±8.77 98.49±0.74
10 96.09±0.65 99.86±0.20 96.00±4.99 96.23±1.35 91.79±10.34 99.95±0.05
11 91.28±1.74 98.11±0.92 97.05±2.18 88.71±1.56 91.70±5.53 99.56±0.37
12 93.86±2.37 98.48±0.44 96.59±1.45 96.35±1.33 96.30±2.44 98.09±0.32
13 84.35±6.40 93.59±1.12 95.38±0.30 90.22±5.44 89.60±10.27 94.48±0.88
14 98.72±0.88 99.75±0.55 99.75±0.55 99.31±0.47 97.45±2.75 99.61±0.75
15 91.36±2.41 99.94±0.14 99.84±0.23 93.52±5.25 99.97±0.07 99.97±0.07
从表4的UniversityofHouston数据集分类结果可以得出类似的结论。DFFN 取得了比其他对比方法更优的OA、AA、以及Kappa系数。与DFFN相比,本发明提出的SMANet将OA提升了1.55%、AA提升了1.44%、Kappa系数提升1.68%了。值得注意的是,与DFFN相比,SMANet在UniversityofHouston数据集对分类性能的提升没有IndianPines数据集那么明显。因为DFFN在 UniversityofHouston数据集上已经取得了较高的分类结果了,想再进一步提升性能非常困难。图5展示的分类结果图中可以看出,与其他方法相比,SMANet 仍然可以获得更均匀、准确的分类结果图,且能够很好地保留地物边缘。
综上所述,本发明的一种面向土地资源审计的自互注意力高光谱图像分类方法,本发明提出的自互注意力网络,以充分挖掘光谱和空间信息之间的相互关系;与现有的基于谱-空特征的分类方法不同的是,自互注意力网络利用高光谱向量和局部图像块分别提取光谱和空间特征;紧接着使用互注意力建模光谱和空间特征的相互关系,以突出最具判别性的特征;与此同时通过自注意力捕获光谱和空间域内的长距离依赖关系;两个公开高光谱图像数据集的实验结果表明,自互注意力网络获得了最好的分类性能。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种面向土地资源审计的自互注意力高光谱图像分类方法,其特征在于:包括以下步骤,
步骤(A),构建自互注意力网络,用于对土地资源审计过程中的高光谱图像进行分类;
步骤(B),针对高光谱图像中的每个像素点,利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域,再输出至自互注意力模块;
步骤(C),利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系,并同时使用自注意力捕获各个域内的长距离依赖关系,完成对光谱和空间特征的增强;
步骤(D),使用增强的光谱和空间特征分别得到对应的分类结果,并使用加权求和的方式融合二者,完成土地资源审计过程中高光谱图像的分类作业。
2.根据权利要求1所述的一种面向土地资源审计的自互注意力高光谱图像分类方法,其特征在于:步骤(A),构建自互注意力网络,用于对土地资源审计过程中的高光谱图像进行分类,其中自互注意力网络包括光谱特征模块、空间特征模块和自互注意力模块;所述光谱特征模块的基础单元包括一维卷积层、一维批量归一化层、ReLU函数和一维最大值池化层,所述空间特征模块的基础单元是光谱特征模块基础单元的二维版本。
3.根据权利要求2所述的一种面向土地资源审计的自互注意力高光谱图像分类方法,其特征在于:步骤(B),针对高光谱图像中的每个像素点,利用自互注意力网络中的光谱特征模块和空间特征模块提取对应的光谱向量和局部领域,再输出至自互注意力模块,其具体步骤如下,
步骤(B1),设定一个在高光谱图像中位置为(i,j)的像素点x,再生成对应的光谱向量和局部图像块,其具体生成步骤如下;
步骤(B11),光谱向量,其能直接从高光谱图像中提取,记作
Figure FDA0003630379650000021
且B代表高光谱图像的波段个数;
步骤(B12),局部图像块,以像素点x为中心的局部图像块是由高光谱图像的前三个主成分裁剪得到的,定义为
Figure FDA0003630379650000022
其中N×N是图像块的空间尺寸;
步骤(B2),光谱特征模块用于从光谱向量Z中提取光谱初始特征Fse;空间特征模块用于将局部图像块X转换为一个256个通道的特征图Fsa,且空间尺寸为
Figure FDA0003630379650000023
步骤(B3),将光谱初始特征Fse和特征图Fsa一起输出至自互注意力模块。
4.根据权利要求3所述的一种面向土地资源审计的自互注意力高光谱图像分类方法,其特征在于:步骤(C),利用自互注意力模块使用互注意力机制明确地建模光谱和空间域之间的相互关系,并同时使用自注意力捕获各个域内的长距离依赖关系,完成对光谱和空间特征的增强,其中自互注意力模块能对输入的光谱初始特征Fse和特征图Fsa进行处理并得到增强光谱特征Ese和增强空间特征Esa,具体步骤如下,
步骤(C1),设已经获得了通道数为256的光谱初始特征
Figure FDA0003630379650000024
和通道数为256的空间图
Figure FDA0003630379650000025
再通过使用非线性函数将它们分别映射成三个单独的表征,其中非线性函数由一层一维/二维卷积层、一层一维/二维批量归一化层、以及ReLU函数构成;光谱域的表征定义为维度为
Figure FDA0003630379650000026
的Qse、Kse和Vse,而空间域能得到维度为
Figure FDA0003630379650000031
的表征Qsa、Ksa和Vsa
与此同时,Fse和Fsa会映射到同一个空间,再将其融合得到融合特征
Figure FDA0003630379650000032
如公式(1)所示,
Ff=tanh(FC(GAP1d(Fse))⊙FC(GAP2d(Fsa))) (1)
其中,GAP1d和GAP2d分别表示一维和二维的全局平均池化操作,FC代表全连接层,“⊙”表示Hadamard乘积,tanh为双曲正切函数;
步骤(C2),推理出光谱域的光谱互注意力图
Figure FDA0003630379650000033
其中光谱互注意力图Mse编码了光谱和空间域的相互关系,Mse如公式(2)所示,
Figure FDA0003630379650000034
其中,
Figure FDA0003630379650000035
表示矩阵乘法,softmax操作将映射转为概率值;
步骤(C3),Mse还用于生成第一光谱特征
Figure FDA0003630379650000036
如公式(3)所示,
Figure FDA0003630379650000037
步骤(C4),使用自注意力将长距离依赖关系编码进光谱特征,并得到光谱自注意力图
Figure FDA0003630379650000038
如公式(4)所示,
Figure FDA0003630379650000039
步骤(C5),Sse与Vse相乘,生成另一个第二光谱特征
Figure FDA00036303796500000310
如公式(5)所示,
Figure FDA00036303796500000311
其中,Flatten操作将矩阵延展成向量;
步骤(C6),通过堆叠Ese1和Ese2能获得最终的增强光谱特征
Figure FDA00036303796500000312
Figure FDA00036303796500000313
步骤(C7),基于增强光谱特征Ese的处理过程,利用公式(2)和公式(4)得到空间自注意力图
Figure FDA0003630379650000041
和空间互注意力图
Figure FDA0003630379650000042
其中将公式中的Qse和Kse替换为Qsa和Ksa
步骤(C8),将空间自注意力图Ssa和空间互注意力图Msa与Vsa相乘,得到第一空间特征
Figure FDA0003630379650000043
和第二空间特征
Figure FDA0003630379650000044
再将这两个空间特征进行堆叠,得到最终的增强空间特征
Figure FDA0003630379650000045
5.根据权利要求4所述的一种面向土地资源审计的自互注意力高光谱图像分类方法,其特征在于:步骤(D),使用增强的光谱和空间特征分别得到对应的分类结果,并使用加权求和的方式融合二者,完成土地资源审计过程中高光谱图像的分类作业,具体是增强光谱特征Ese和增强空间特征Esa分别用于生成对应的分类结果
Figure FDA0003630379650000046
Figure FDA0003630379650000047
其中C是高光谱图像中类别的个数,具体步骤如下,
步骤(D1),利用光谱和空间信息之间的互补关系,再使用光谱和空间分类结果的平均值作为最终的预测结果
Figure FDA0003630379650000048
步骤(D2),对光谱分类结果Pse和空间分类结果Psa设置监督信息,设真实分类结果图
Figure FDA0003630379650000049
则自互注意力网络的损失函数Loss定义如公式(6)所示,
Figure FDA00036303796500000410
6.根据权利要求1所述的一种面向土地资源审计的自互注意力高光谱图像分类方法,其特征在于:所述自互注意力网络的输入为光谱向量Z和局部图像块X,输出为像素点x的类别标签。
CN202210487088.9A 2022-05-06 2022-05-06 一种面向土地资源审计的自互注意力高光谱图像分类方法 Active CN114863173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210487088.9A CN114863173B (zh) 2022-05-06 2022-05-06 一种面向土地资源审计的自互注意力高光谱图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210487088.9A CN114863173B (zh) 2022-05-06 2022-05-06 一种面向土地资源审计的自互注意力高光谱图像分类方法

Publications (2)

Publication Number Publication Date
CN114863173A true CN114863173A (zh) 2022-08-05
CN114863173B CN114863173B (zh) 2023-06-23

Family

ID=82634863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210487088.9A Active CN114863173B (zh) 2022-05-06 2022-05-06 一种面向土地资源审计的自互注意力高光谱图像分类方法

Country Status (1)

Country Link
CN (1) CN114863173B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908950A (zh) * 2023-01-06 2023-04-04 山东大学 基于相似度正切映射的快速医学高光谱影像分类方法
CN117590761A (zh) * 2023-12-29 2024-02-23 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116563A (zh) * 2020-08-28 2020-12-22 南京理工大学 一种基于谱维与空间协作邻域注意力的高光谱图像目标检测方法与系统
CN112200090A (zh) * 2020-10-12 2021-01-08 桂林电子科技大学 基于交叉分组空谱特征增强网络的高光谱图像分类方法
CN113887645A (zh) * 2021-10-13 2022-01-04 西北工业大学 一种基于联合注意力孪生网络的遥感图像融合分类方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116563A (zh) * 2020-08-28 2020-12-22 南京理工大学 一种基于谱维与空间协作邻域注意力的高光谱图像目标检测方法与系统
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN112200090A (zh) * 2020-10-12 2021-01-08 桂林电子科技大学 基于交叉分组空谱特征增强网络的高光谱图像分类方法
CN113887645A (zh) * 2021-10-13 2022-01-04 西北工业大学 一种基于联合注意力孪生网络的遥感图像融合分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908950A (zh) * 2023-01-06 2023-04-04 山东大学 基于相似度正切映射的快速医学高光谱影像分类方法
CN117590761A (zh) * 2023-12-29 2024-02-23 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统
CN117590761B (zh) * 2023-12-29 2024-04-19 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统

Also Published As

Publication number Publication date
CN114863173B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN109948693B (zh) 基于超像素样本扩充和生成对抗网络高光谱图像分类方法
CN110321963B (zh) 基于融合多尺度多维空谱特征的高光谱图像分类方法
Wang et al. Scene classification of high-resolution remotely sensed image based on ResNet
CN110399909B (zh) 一种基于标签约束弹性网图模型的高光谱图像分类方法
Han et al. Multimodal hyperspectral unmixing: Insights from attention networks
Zhao et al. Joint classification of hyperspectral and LiDAR data using a hierarchical CNN and transformer
CN104751191B (zh) 一种稀疏自适应半监督多流形学习的高光谱影像分类方法
CN104331698B (zh) 一种遥感图像城区提取方法
Hendrix et al. A new minimum-volume enclosing algorithm for endmember identification and abundance estimation in hyperspectral data
CN110728192A (zh) 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN114863173A (zh) 一种面向土地资源审计的自互注意力高光谱图像分类方法
CN107590515A (zh) 基于熵率超像素分割的自编码器的高光谱图像分类方法
CN105261000A (zh) 一种基于端元提取与光谱解混的高光谱图像融合方法
CN108460391A (zh) 基于生成对抗网络的高光谱图像无监督特征提取方法
Plaza et al. Foreword to the special issue on hyperspectral image and signal processing
CN105184314B (zh) 基于像素聚类的wrapper式高光谱波段选择方法
CN111680579B (zh) 一种自适应权重多视角度量学习的遥感图像分类方法
CN113420838B (zh) 基于多尺度注意力特征融合的sar与光学图像分类方法
CN115240072A (zh) 一种基于多方向多尺度光谱-空间残差卷积神经网络的高光谱多类变化检测方法
Mirpulatov et al. Pseudo-labeling approach for land cover classification through remote sensing observations with noisy labels
Cui et al. Unrolling nonnegative matrix factorization with group sparsity for blind hyperspectral unmixing
Shao et al. Iviu-net: Implicit variable iterative unrolling network for hyperspectral sparse unmixing
CN113887656B (zh) 一种联合深度学习与稀疏表示的高光谱图像分类方法
CN109460788A (zh) 基于低秩-稀疏信息组合网络的高光谱图像分类方法
Jiang et al. Semantic segmentation of remote sensing images based on dual‐channel attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant