CN116310572A - 金字塔多尺度卷积和自注意力结合的高光谱图像分类方法 - Google Patents
金字塔多尺度卷积和自注意力结合的高光谱图像分类方法 Download PDFInfo
- Publication number
- CN116310572A CN116310572A CN202310295404.7A CN202310295404A CN116310572A CN 116310572 A CN116310572 A CN 116310572A CN 202310295404 A CN202310295404 A CN 202310295404A CN 116310572 A CN116310572 A CN 116310572A
- Authority
- CN
- China
- Prior art keywords
- convolution
- pyramid
- feature map
- spectrum
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000003595 spectral effect Effects 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 52
- 230000002776 aggregation Effects 0.000 claims description 37
- 238000004220 aggregation Methods 0.000 claims description 37
- 239000004820 Pressure-sensitive adhesive Substances 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 description 16
- 206010020751 Hypersensitivity Diseases 0.000 description 11
- ZZMVLMVFYMGSMY-UHFFFAOYSA-N 4-n-(4-methylpentan-2-yl)-1-n-phenylbenzene-1,4-diamine Chemical compound C1=CC(NC(C)CC(C)C)=CC=C1NC1=CC=CC=C1 ZZMVLMVFYMGSMY-UHFFFAOYSA-N 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 10
- WYZDCUGWXKHESN-UHFFFAOYSA-N n-benzyl-n-methyl-1-phenylmethanamine Chemical compound C=1C=CC=CC=1CN(C)CC1=CC=CC=C1 WYZDCUGWXKHESN-UHFFFAOYSA-N 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000010287 polarization Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 240000005160 Parkia speciosa Species 0.000 description 3
- 235000017333 Parkia speciosa Nutrition 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000012733 comparative method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 244000007853 Sarothamnus scoparius Species 0.000 description 1
- 208000013685 acquired idiopathic sideroblastic anemia Diseases 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000701 chemical imaging Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010252 digital analysis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/58—Extraction of image or video features relating to hyperspectral data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,涉及高光谱图像领域,具体为金字塔多尺度卷积和自注意力结合的高光谱图像分类方法。本发明方法:一:对要分类的高光谱图像进行基于数据立方体的分割;二:对分割后的图像采用光谱特征提取网络提取高光谱图像的光谱特征特征图;三:对光谱特征提取网络提取后的特征图采用空间特征提取网络提取高光谱图像的空间特征特征图;四:空间特征特征图经分类网络生成分类结果。本发明方法没有像传统金字塔卷积那样对输入数据进行分割,而是直接使用完整的输入数据进行特征提取,以保持特征的完整性。
Description
技术领域
本发明涉及高光谱图像领域,具体为金字塔多尺度卷积和自注意力结合的高光谱图像分类方法。
背景技术
近年来,高光谱图像分类在遥感邻域得到了广泛关注。高光谱图像由高光谱遥感器获得,它包含数百个从可见光到短波红外的连续而狭窄的光谱带。高光谱图像可以有效地表征目标的土地覆盖对象,并已被广泛应用于许多研究领域,如城市规划、环境监测、精细农业、矿产勘探和军事目标。随着遥感技术和高光谱成像技术的快速发展,高光谱图像的获取也越来越容易。然而,对高光谱图像的数字化分析和处理技术仍然发展不足,以像素为单元的高光谱图像分类任务作为高光谱图像处理技术的一个重要问题,引起了研究人员的极大兴趣,近年来有许多学者对此进行了研究。近年来,许多基于深度学习的框架被提出,如循环神经网络(RNN)、卷积神经网络(CNN)、图卷积神经网络(GCNN)和生成式对抗神经网络(GANN)。在这些框架中,CNN框架因其性能优异而被应用于像素级高光谱图像分类。CNN采用卷积核的空间权重共享来降低计算复杂度,并使用激活函数为网络提供非线性映射能力。
很多结合注意力机制的卷积神经网络被提出用来解决高光谱图像分类问题。其中,注意力机制作为标准卷积的有效补充被用来为分类网络提供更多的灵活性。但是,如何在高空间和光谱分辨率条件下有效的提取真实环境下高光谱图像的多尺度特征,仍然是一个挑战。
发明内容
本发明的目的在于提供金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,包括以下步骤:
一:对要分类的高光谱图像进行基于数据立方体的分割;
二:对分割后的图像采用光谱特征提取网络提取高光谱图像的光谱特征特征图;
三:对光谱特征提取网络提取后的特征图采用空间特征提取网络提取高光谱图像的空间特征特征图;
四:空间特征特征图经分类网络生成分类结果;
其中,步骤二中所述的光谱特征提取网络由3个光谱金字塔卷积块、1个光谱PSA分支块(如图4所示)和4个Conv-BN-PReLU卷积块组成;
步骤三中所述的空间特征提取网络由3个空间金字塔卷积块、1个空间PSA分支块(如图5所示)和2个Conv-BN-PReLU卷积块组成;
步骤四中所述的分类网络包含平均池化层、BN层、Mish映射和1个线性层;
步骤二光谱特征提取网络采用残差聚合和一次性聚合保留网络的前期特征图信息;
步骤三中所述空间金字塔卷积块之间采用一次性聚合;
光谱金字塔卷积块中采用伪3D光谱卷积核;空间金字塔卷积块中采用伪3D空间卷积核。
自注意力机制(PSA)可以用来处理高分辨率条件下的像素化回归问题,在计算光谱注意力(光谱PSA分支)和空间注意力(空间PSA分支)时保持较高的内部分辨率,同时沿着相应的维度完全折叠输入张量,并提供非线性映射以适应典型的细粒度回归的输出分布。所述提出网络中,采用改进的金字塔多尺度卷积块和极化自注意力块结合的方法,分别提取高光谱图像的光谱和空间特征。
Li=-[yilogy′i+(1-yi)log(1-y′i)]
其中yi是第i个像素的土地覆盖标签,Li是第i个像素的交叉熵损失。
进一步的,Conv-BN-PReLU卷积块由1个卷积层、1个BN层和1个PReLU激活函数组成。
进一步的,特征图被送入光谱金字塔卷积块,在3个光谱金字塔卷积块之后,用一次性聚合构造光谱金字塔卷积块的输出。
进一步的,特征图被送入空间金字塔卷积块,在3个空间金字塔卷积块之后,用一次性聚合构造空间金字塔卷积块的输出。
本发明中金字塔卷积块使用伪3D光谱卷积和伪3D空间卷积,分别构建光谱特征提取块和空间特征提取块,成为金字塔光谱CNN和空间CNN,将CNN与极化自注意力机制结合。
进一步的,步骤二:图像送入Conv-BN-PReLU卷积块增加特征图的维度,之后特征图送入光谱金字塔卷积块,在3个光谱金字塔卷积块之后用一次性聚合构造光谱金字塔卷积块的输出特征图;光谱金字塔卷积块的输出特征图然后用2个Conv-BN-PReLU卷积块转换尺寸;再通过重塑层(Reshape)送入PSA进行计算,而后再通过重塑层送入1个Conv-BN-PReLU卷积块和重塑层输出光谱注意力特征图;最后将光谱注意力特征图与输入数据xi进行残差聚合,即获得光谱特征特征图。
残差聚合和一次性聚合被用来保留网络的前期特征图信息,使网络易于训练。
进一步的,步骤三:光谱特征特征图用1个Conv-BN-PReLU卷积块压缩数据的光谱维度,并增加特征图维度;再送入空间金字塔卷积块提取空间信息,在3个空间金字塔卷积块之后用一次性聚合构造空间金字塔卷积块的输出特征图;空间金字塔卷积块的输出特征图然后用1个Conv-BN-PReLU卷积块转换尺寸后通过重塑层送入PSA进行计算,即获得空间特征特征图。
进一步的,步骤四:空间特征特征图用平均池化层、BN层、Mish映射收敛,然后通过重塑层送入线性层(Linear Layer),获得分类结果。
进一步的,光谱金字塔卷积块包含平行的3个卷积层,提取多尺度光谱特征采用串联运算以融合特征,并用BN和PReLU为网络块提供稳定性和非线性;然后用1个Conv-BN-PReLU卷积块减少特征图的维度并提供输出(FMout)。
进一步的,空间金字塔卷积块包含平行的3个卷积层,提取多尺度空间特征,采用串联运算以融合特征,并用BN和PReLU为网络块提供稳定性和非线性;然后用1个Conv-BN-PReLU卷积块减少特征图的维度并提供输出(FMout)。
Ach(FMi)=FSG[Wz(σ1(Wv(FMi))×FSM(σ2(Wq(FMi))))]
其中,Wq,Wv和Wz是1×1卷积层,σ1和σ2是两个张量重塑算子,FSM(·)是一个SoftMax算子,"×"是矩阵点乘操作,FSG(·)是一个Sigmoid算子;FMi为输入特征图;
其中,⊙ch是一个矩阵乘法算子。
Asp(FMi)=FSG[σ3(FSM(σ1(FGP(Wq(FMi))))×σ2(Wv(FMi)))]
其中Wq和Wv是标准的1×1卷积层,σ1,σ2和σ3是张量重塑算子,FGP是全局池化算子;FMi为输入特征图;
其中,⊙sp是矩阵乘法算子。
本发明提出了金字塔式多尺度光谱-空间CNN(PMCN),并将提出的CNN与极化自注意力机制结合,用于高光谱图像分类。光谱特征提取网络用于提取高光谱图像数据集的光谱特征,而空间特征提取网络用于提取空间特征。分类网络用于获得分类结果。金字塔式多尺度卷积块和极化自注意机制被结合起来,以高内部分辨率的方式提取复杂多尺度光谱和空间特征。批量标准化(BN)、PReLU和Mish被用于网络块的设计中以保持网络的稳定性和非线性能力。此外,为了更好地收敛网络,提出网络还引入了残差聚合和一次性聚合;早停和动态学习率也被引入到网络中,以减少训练时间并提供更好的收敛性。最后,分类网络被用来融合特征并获得分类结果。
本发明方法(PMCN)没有像传统金字塔卷积那样对输入数据进行分割,而是直接使用完整的输入数据进行特征提取,以保持特征的完整性。
本发明方法金字塔卷积块和极化自注意力块被改进用来提取光谱和空间特征。金字塔卷积块被用来提取多尺度特征,而极化自注意力则被用来提供更多的灵活性。与先前用于高光谱图像分类方法的注意机制相比,极化自注意力可以更好地处理具有高内部分辨率的高光谱图像。此外,残差聚合和一次性聚合被用来融合不同层的特征图。
实验结果表明,与其他方法相比,本发明方法可以获得较高的分类精度。
与现有技术相比,本发明的有益效果是:
1、改进了传统的金字塔式多尺度卷积块,使用伪3D光谱卷积和伪3D空间卷积,分别构建光谱特征提取块和空间特征提取块,可以在不降低分类精度的前提下降低拟建网络的复杂性,使网络更容易被训练。
2、所提出的网络中同时采用了残差聚合和一次性聚合的方法,可以有效地保持并利用低层网络获取的浅层特征,使网络能够充分地整合不同网络层所提取的特征,提高网络的特征提取效率。
3、采用极化注意机制,辅助多尺度卷积块提取光谱和空间特征,可以根据输入特征图的自身特性在高内部分辨率下有效地提取需要注意的数据片段,是对多尺度卷积块的一种有效的补充,并为提出网络提供更多的灵活性。
附图说明
图1为本发明金字塔多尺度卷积和自注意力结合的高光谱图像分类方法的整体结构图;
图2为本发明光谱金字塔卷积块的结构图;
图3为本发明空间金字塔卷积块的结构图;
图4为本发明光谱PSA分支的结构图;
图5为本发明空间PSA分支的结构图;
图6是实施例3中各种方法在UP数据集的全像素分类图;其中,(a)Ground-truth.(b)SVM.(c)HYSN.(d)SSRN.(e)DBMA.(f)DBDA.(g)PCIA.(h)SSGC.(i)OSDN.(j)PMCN.(k)False-color image;
图7是实施例3中各种方法在HH数据集上得全像素分类图;其中,(a)Ground-truth.(b)SVM.(c)HYSN.(d)SSRN.I DBMA.(f)DBDA.(g)PCIA.(h)SSGC.(i)OSDN.(j)PMCN.(k)False-color image;
图8是实施例3中各种方法在GF数据集上得全像素分类图;其中,(a)Ground-truth.(b)SVM.(c)HYSN.(d)SSRN.(e)DBMA.(f)DBDA.(g)PCIA.(h)SSGC.(i)OSDN.(j)PMCN.(k)False-color image;
图9是实施例3中各种方法在AH数据集上得全像素分类图;其中,(a)Ground-truth.(b)SVM.(c)HYSN.(d)SSRN.(e)DBMA.(f)DBDA.(g)PCIA.(h)SSGC.(i)OSDN.(j)PMCN.(k)False-color image。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-9
实施例1:
金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,包括以下步骤:
一:对要分类的高光谱图像进行基于数据立方体的分割;
二:对分割后的图像采用光谱特征提取网络提取高光谱图像的光谱特征特征图;
三:对光谱特征提取网络提取后的特征图采用空间特征提取网络提取高光谱图像的空间特征特征图;
四:空间特征特征图经分类网络生成分类结果;
其中,步骤二中所述的光谱特征提取网络由3个光谱金字塔卷积块、1个光谱PSA分支块和4个Conv-BN-PReLU卷积块组成;
步骤三中所述的空间特征提取网络由3个空间金字塔卷积块、1个空间PSA分支块和2个Conv-BN-PReLU卷积块组成;
步骤四中所述的分类网络包含平均池化层、BN层、Mish映射和1个线性层;
步骤二光谱特征提取网络采用残差聚合和一次性聚合保留网络的前期特征图信息;
步骤三中所述空间金字塔卷积块之间采用一次性聚合;
光谱金字塔卷积块中采用伪3D光谱卷积核;空间金字塔卷积块中采用伪3D空间卷积核。
本发明构造了2种特殊的PAS分支块,分别用来处理光谱特征图和空间特征图,并将其布置在金字塔卷积块之后,辅助标准卷积网络提取光谱和空间特征。在网络中使用了残差聚合和一次性聚合,在有效保留浅层特征图信息的条件下,有效的降低网络复杂度和计算量。
实施例2
本实施例采用本发明方法:
对分割后的图像采用光谱特征提取网络提取高光谱图像的光谱特征特征图:用Conv-BN-PReLU卷积块(由1个卷积层Conv,1个BN层和1个PReLU激活函数组成)被用来增加特征图的维度;特征图的输出尺寸为(103×15×15,24)。之后特征图被送入光谱金字塔卷积块,在3个光谱金字塔卷积块之后,使用一次性聚合构造光谱金字塔卷积块的输出,特征图的输出大小为(103×15×15,72);接下来,用2个Conv-BN-PReLU卷积块,将光谱特征网络提取的特征图转换为合适的尺寸,其中第1个Conv-BN-PReLU卷积块的输出为(103×15×15,24),经过残差聚合,第2个Conv-BN-PReLU卷积块将特征图转换为(1×15×15,24)的大小;再通过重塑层(Reshape),特征图的输出大小为(24×15×15),该尺寸的特征图适合在PSA中进行计算。此后用光谱PSA分支块提取光谱特征,PSA的输出大小为(24×15×15)。之后,使用2个重塑层和1个Conv-BN-PReLU卷积块得到特征图,特征图的输出是(103×15×15,1),并将其与输入数据xi进行残差聚合。至此,光谱特征提取网络结束。
对光谱特征提取网络提取后的特征图采用空间特征提取网络提取高光谱图像的空间特征特征图:先使用1个Conv-BN-PReLU卷积块来压缩数据的光谱维度,并增加特征图维度,特征图的输出尺寸为(1×15×15,24)。再用3个空间金字塔卷积块提取空间信息,并在此使用一次性聚合技术,输出的尺寸为(1×15×15,72)。在Conv-BN-PreLU卷积块和重塑层之后,特征图被送入空间PSA块。输出的大小为(60×15×15)。至此,空间特征提取网络的结束。
空间特征特征图经分类网络生成分类结果:分类网络利用带BN层和Mish激活函数的平均池化层来收敛特征图;然后通过重塑层送入线性层(Linear Layer),获得分类结果。
表1提出的网络的详细步骤
本实施例光谱金字塔卷积块(如图2所示):设输入数据为FMi,光谱金字塔卷积块包含平行的3个卷积层,其卷积核分别为(7×1×1),(5×1×1),(3×1×1),用于提取多尺度特征;使用串联运算以融合特征;BN和PReLU被用来为网络块提供稳定性和非线性;再用带有BN和PReLU的1个卷积核大小为(1×1×1)卷积层来减少特征图的维度并提供输出(FMout)。
本实施例空间金字塔卷积块(如图3所示):空间金字塔卷积块包含平行的3个卷积层,其卷积核大小分别为(1×7×7),(1×5×5),(1×3×3),用于提取多尺度空间特征;使用串联运算融合特征之后,用1个(1×1×1)卷积层、BN和PReLU来得到最终输出结果(FMout)。
实施例3
本实施例中使用了4个公开的具有不同土地覆盖地物和光谱-空间分辨率的高光谱图像数据集来评估本发明方法对高光谱图像分类的有效性,包括帕维亚大学数据集(UP)、武汉洪湖数据集(HH)、高丰林场数据集(GF)和GF-5高级高光谱图像数据集(AH)。4个高光谱图像的简要描述如下:
帕维亚大学数据集(UP):帕维亚大学数据集由反射光学系统成像光谱仪(ROSIS)传感器于2003年在意大利帕维亚大学上空收集。空间大小为610×340像素,空间分辨率约为每像素1.3米。在去掉12个被噪声污染的光谱带后,UP数据集包含103个光谱带,光谱波长范围从430到860纳米。大约21%的像素被标记为9个类别。随机选择1%的标记样本作为训练样本和验证样本。其余的标记样本被用作测试样本。UP数据集的详细类别、颜色、土地覆盖类型和样本数量见表2。
武汉洪湖数据集(HH):武汉洪湖数据集是由无人机(UAV)平台在中国湖北省洪湖市的一个复杂的农业区上空获取的。该数据集的空间大小为940×475像素,空间分辨率约为每像素0.043米。它包含270个光谱带,范围从400到1000纳米。实验中引入了一个有16个类别的截取区域,空间大小为240×330,范围为行(701,940)和列(1,330),。随机选择1%的标记样本作为训练样本和验证样本。其余的标记样本被用作测试样本。具体信息见表3。
高峰林场数据集(GF):高丰林场数据集由AISA Eagle II衍射光栅推帚式高光谱成像仪于2018年,获取地为中国广西省高丰国有林场济南分场。空间尺寸为572×906像素,空间分辨率约为每像素1.0米。该数据集涵盖了400至1000纳米的光谱范围,有125个波段。实验中引入了一个有8个类别的分割区,空间大小为400×400,范围为行(1,400)和列(1,400)。随机选择1%的标记样本,分别作为训练样本和验证样本。其余的标记样本被用作测试样本。详细信息显示在表4中。
GF-5高级高光谱图像数据集(AH)。GF-5高级高光谱图像数据集是由高分5号卫星在中国湖北省武汉市江夏区获得的,面积为109.4平方公里。它是一个有矿区和农业区的混合景观区域,地表物体的类型很复杂,其空间尺寸为218×561像素。空间分辨率约为30米。其光谱范围从400到2500纳米,有120个波段。土地覆盖物被划分为6个类别。随机选择5%的标记样本作为训练样本和验证样本。其余的标记样本被用作测试样本。表5详尽地列出了该数据集的地物类别、颜色、土地覆盖类型和每个类别的样本数量。
表2 UP数据集的地物类别,颜色,土地覆盖类型,各类样本数量,训练样本数量,验证样本数量和测试样本数量
表3HH数据集的地物类别,颜色,土地覆盖类型,各类样本数量,训练样本数量,验证样本数量和测试样本数量
表4GF数据集的地物类别,颜色,土地覆盖类型,各类样本数量,训练样本数量,验证样本数量和测试样本数量
表5AH数据集的地物类别,颜色,土地覆盖类型,各类样本数量,训练样本数量,验证样本数量和测试样本数量
为了评估本发明方法的性能,在实验中引入了四种不同类型的高光谱图像数据集,包括3个机载数据集和1个卫星数据集,这些数据集有不同分辨率和土地覆盖类型。实验选择了8种有代表性的方法进行比较,包括SVM、HYSN、SSRN、DBMA、DBDA、PCIA、SSGC和OSDN。具体来说,采用带有径向基函数(RBF)核的SVM作为高光谱图像分类的传统方法的代表。HYSN被用来作为传统卷积网络的代表。SSRN被用来代表带有残差聚合的传统卷积网络。DBMA和DBDA代表带有注意力块的双分支卷积网络。PCIA被用来表示带有注意力块的金字塔多尺度卷积网络。SSGC和OSDN用于代表当前最先进的卷积网络。对于参数设置,SVM的惩罚参数C和RBF核宽度σ由Grid SearchCV选择,两者都在(10-2,102)范围内。epoch被设置为100,所有网络的初始学习率被设置为0.0005。高光谱图像斑块立方体的空间大小被设置为11×11,批次大小被设置为32。此外,实验中还采用了余弦退火学习率、dropout策略和早停技术来训练网络。
为了定量地衡量竞争对手的表现,在实验中使用总体准确率(OA)、平均准确率(AA)和卡帕系数(Kappa)作为定量评价指标。所有的实验都独立重复5次,实验结果的平均值作为最终结果报告。实验的硬件环境是深度学习工作站,配备英特尔至强E5-2680v4处理器2.4GHz和NVIDIA GeForce RTX 2080Ti GPU。软件环境为CUDA v11.2,PyTorch1.10和Python 3.8。
实验结果
首先评估了UP数据集上各种方法的分类结果和训练时间。结果在表6中给出。最佳的OA、AA、Kappa和最大的训练时间都用粗体字标出。可以看到,所提出的PMCN在每个类别中都取得了令人满意的分类结果,并且在大多数情况下取得了最佳的OA、AA、Kappa。对比竞争对手的OA,PMCN比SVM、HYSN、SSRN、DBMA、DBDA、PCIA、SSGC和OSDN的OA分别多出8.27%、9.65%、6.49%、1.66%、2.14%、1.12%、0.89%和0.18%。本发明方法使用金字塔多尺度卷积块和极化自注意力来联合提取光谱和空间信息;此外,使用残差聚合和一次性聚合来提高网络的鲁棒性,使得网络可以设计得更深。在大多数情况下,SVM的OA比深度卷积网络的OA低。这是因为卷积网络隐含地使用了像素的空间信息,可以被认为是基于空间-光谱的分类方法。通过获得更多可用的像素信息,深度卷积网络可以取得比SVM更好的分类结果。通过对深度卷积网络的比较,可以看到带残差聚合的网络(SSRN)的OA比不带残差聚合的网络工作(HYSN)略好。双分支网络(DBMA,DBDA)的表现优于传统的深度卷积网络(HYSN,SSRN)。金字塔式多尺度网络(PCIA)优于HYSN、SSRN、DBMA和DBDA。此外,使用更多技术的最先进网络(SSGC、OSDN、PMCN),如双分支结构、注意力机制、密集聚合、一次性聚合,取得了比前面的网络更好的结果。PMCN需要最多的训练时间(75.40秒)来训练网络。因为在本发明方法中使用完整的原始数据集作为输入数据,加大了输入数据的复杂度;另一方面,金字塔多尺度卷积块在提取多尺度特征的同时,在一定程度上也增加了提出网络的复杂度。所有对比方法的的全像素分类图如图6所示。可以看到,在SVM的分类图中出现了很多椒盐噪声。相比之下,卷积网络的分类图是平滑的。这表明卷积网络可以通过引入空间约束来提高分类图的平滑度。
为了进一步评估所提方法的性能,在高空间分辨率的高光谱图像数据集上进行了实验,该数据集是HH数据集(每个像素0.043米)。可以看到,基于光谱的分类方法(SVM)得到了最低的OA(80.51%)。这表明在HH数据集上仅使用光谱特征很难对土地覆盖对象进行分类。HYSN和SSRN取得了比SVM更高的OA(88.59%,85.70%)。观察不同类别的分类精度,可以看到有些类别对于SVM、HYSN和SSRN来说仍然很难被分类,例如C2、C4、C6、C9、C13、C14和C15。特别是,C9未能被SVM(1.88%)和SSRN(0.00%)分类。相比之下,DBMA和DBDA获得了比前两种方法更好的分类精度(96.33%,95.49%)。PCIA仍然因其多尺度特性取得有竞争力的分类结果(95.96%),这表明金字塔卷积能为网络提供良好的稳健性和判别能力。SSGC和OSDN获得了95.58%和94.83%的OA,略低于PCIA的结果。PMCN在所有对比方法中获得最高的OA(96.71%)、AA(96.29%)和Kappa(0.9614)。从图7中,可以看到,C9被SVM和SSRN分类为C5。在SVM、HYSN和SSRN的分类图中存在一些盐碱地噪音。DBMA、DBDA、SSGC和OSDN提供了更平滑的分类图。然而,在C2、C3和C7中存在一些模糊和错误的分类。PMCN在大多数类别中获得了更清晰和平滑的分类图。
GF数据集是应用于林业树种分类的林场高光谱图像。同科同属的不同植物的光谱响应非常接近,现有的大多数基于光谱的方法的分类结果往往会降低。如表8所示,SVM的OA为76.40%。对于一些特定的类,如C1、C2、C3和C5,其准确率低于50%。HYSN和SSRN提供了比SVM更好的分类精度。然而,C3的准确率仍然不够高(75.65%,73.03%)。相反,DBMA、DBDA、PCIA、SSGC、OSDN和PMCN得到了令人满意的分类精度,特别是对C2、C3和C5。PMCN在大多数情况下实现了更好的分类结果。图8显示了全因素分类图,PMCN的分类图与地面实况几乎相同。
最后,AH数据集被用来评估这些分类方法的性能。它是包含采矿和农业领域的卫星数据集。特别是,AH数据集的标记样本是不相连的。这种标记样本对有效地提取像素的空间特征是一个挑战。如表9所示,基于光谱-空间的深度卷积网络(HYSN、SSRN、DBMA、DBDA、PCIA、SSGC、OSDN和PMCN)比基于光谱的方法(SVM)仅仅取得了有限的进步,其范围在0.76%-7.46%。这是可以理解的,因为不相连的标记样本限制了基于立方体的分类方法提取空间信息的能力。在空间信息受限的情况下,卷积网络的辨别能力不能得到充分的发挥。受益于金字塔卷积的多尺度特性,PMCN(本发明方法)在对比方法中获得了最高的分类精度(80.73%)。AH数据集的全像素分类图显示在图9中。可以看到,与DBMA、DBDA、PCIA、SSGC和OSDN相比,PMCN产生了更精细的分类图。这是由于极化注意力块能够提取像素的高分辨率空间和光谱特征。
表6UP数据集的分类结果和训练时间
表7HH数据集的分类结果和训练时间
表8 GF数据集的分类结果和训练时间
表9 AH数据集的分类结果和训练时间
Claims (10)
1.金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于,包括以下步骤:
一:对要分类的高光谱图像进行基于数据立方体的分割;
二:对分割后的图像采用光谱特征提取网络提取高光谱图像的光谱特征特征图;
三:对光谱特征提取网络提取后的特征图采用空间特征提取网络提取高光谱图像的空间特征特征图;
四:空间特征特征图经分类网络生成分类结果;
其中,步骤二中所述的光谱特征提取网络由3个光谱金字塔卷积块、1个光谱PSA分支块和4个Conv-BN-PReLU卷积块组成;
步骤三中所述的空间特征提取网络由3个空间金字塔卷积块、1个空间PSA分支块和2个Conv-BN-PReLU卷积块组成;
步骤四中所述的分类网络包含平均池化层、BN层、Mish映射和1个线性层;
步骤二光谱特征提取网络采用残差聚合和一次性聚合保留网络的前期特征图信息;
步骤三中所述空间金字塔卷积块之间采用一次性聚合;
光谱金字塔卷积块中采用伪3D光谱卷积核;空间金字塔卷积块中采用伪3D空间卷积核。
2.根据权利要求1所述的金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于:Conv-BN-PReLU卷积块由1个卷积层、1个BN层和1个PReLU激活函数组成。
3.根据权利要求1所述的金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于:特征图被送入光谱金字塔卷积块,在3个光谱金字塔卷积块之后,用一次性聚合构造光谱金字塔卷积块的输出;特征图被送入空间金字塔卷积块,在3个空间金字塔卷积块之后,用一次性聚合构造空间金字塔卷积块的输出。
4.根据权利要求1所述的金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于:步骤二:图像送入Conv-BN-PReLU卷积块增加特征图的维度,之后特征图送入光谱金字塔卷积块,在3个光谱金字塔卷积块之后用一次性聚合构造光谱金字塔卷积块的输出特征图;光谱金字塔卷积块的输出特征图然后用2个Conv-BN-PReLU卷积块转换尺寸;再通过重塑层送入PSA进行计算,而后再通过重塑层送入1个Conv-BN-PReLU卷积块和重塑层输出光谱注意力特征图;最后将光谱注意力特征图与输入数据xi进行残差聚合,即获得光谱特征特征图。
5.根据权利要求1所述的金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于:步骤三:光谱特征特征图用1个Conv-BN-PReLU卷积块压缩数据的光谱维度,并增加特征图维度;再送入空间金字塔卷积块提取空间信息,在3个空间金字塔卷积块之后用一次性聚合构造空间金字塔卷积块的输出特征图;空间金字塔卷积块的输出特征图然后用1个Conv-BN-PReLU卷积块转换尺寸后通过重塑层送入PSA进行计算,即获得空间特征特征图。
6.根据权利要求1所述的金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于:步骤四:空间特征特征图用平均池化层、BN层、Mish映射收敛,然后通过重塑层送入线性层,获得分类结果。
7.根据权利要求1或3所述的金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于:光谱金字塔卷积块包含平行的3个卷积层,提取多尺度光谱特征采用串联运算以融合特征,并用BN和PReLU为网络块提供稳定性和非线性;然后用1个Conv-BN-PReLU卷积块减少特征图的维度并提供输出FMout。
8.根据权利要求1或3所述的金字塔多尺度卷积和自注意力结合的高光谱图像分类方法,其特征在于:空间金字塔卷积块包含平行的3个卷积层,提取多尺度空间特征,采用串联运算以融合特征,并用BN和PReLU为网络块提供稳定性和非线性;然后用1个Conv-BN-PReLU卷积块减少特征图的维度并提供输出FMout。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310295404.7A CN116310572B (zh) | 2023-03-23 | 2023-03-23 | 金字塔多尺度卷积和自注意力结合的高光谱图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310295404.7A CN116310572B (zh) | 2023-03-23 | 2023-03-23 | 金字塔多尺度卷积和自注意力结合的高光谱图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116310572A true CN116310572A (zh) | 2023-06-23 |
CN116310572B CN116310572B (zh) | 2024-01-23 |
Family
ID=86790215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310295404.7A Active CN116310572B (zh) | 2023-03-23 | 2023-03-23 | 金字塔多尺度卷积和自注意力结合的高光谱图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310572B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344891A (zh) * | 2018-09-21 | 2019-02-15 | 北京航空航天大学 | 一种基于深度神经网络的高光谱遥感数据分类方法 |
CN110321963A (zh) * | 2019-07-09 | 2019-10-11 | 西安电子科技大学 | 基于融合多尺度多维空谱特征的高光谱图像分类方法 |
CN112836773A (zh) * | 2021-04-08 | 2021-05-25 | 河海大学 | 一种基于全局注意力残差网络的高光谱图像分类方法 |
CN113111969A (zh) * | 2021-05-03 | 2021-07-13 | 齐齐哈尔大学 | 一种基于混合度量的高光谱图像分类方法 |
CN113486851A (zh) * | 2021-07-28 | 2021-10-08 | 齐齐哈尔大学 | 基于双分支光谱多尺度注意力网络的高光谱图像分类方法 |
US20220108430A1 (en) * | 2019-01-31 | 2022-04-07 | University Of Southern California | Hyperspectral imaging system |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN114841860A (zh) * | 2022-05-12 | 2022-08-02 | 西南民族大学 | 一种基于拉普拉斯金字塔网络的高光谱遥感图像超分辨率方法 |
CN114936995A (zh) * | 2022-06-15 | 2022-08-23 | 郑州轻工业大学 | 基于大核注意力机制的多尺度特征增强的遥感图像融合方法 |
-
2023
- 2023-03-23 CN CN202310295404.7A patent/CN116310572B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344891A (zh) * | 2018-09-21 | 2019-02-15 | 北京航空航天大学 | 一种基于深度神经网络的高光谱遥感数据分类方法 |
US20220108430A1 (en) * | 2019-01-31 | 2022-04-07 | University Of Southern California | Hyperspectral imaging system |
CN110321963A (zh) * | 2019-07-09 | 2019-10-11 | 西安电子科技大学 | 基于融合多尺度多维空谱特征的高光谱图像分类方法 |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN112836773A (zh) * | 2021-04-08 | 2021-05-25 | 河海大学 | 一种基于全局注意力残差网络的高光谱图像分类方法 |
CN113111969A (zh) * | 2021-05-03 | 2021-07-13 | 齐齐哈尔大学 | 一种基于混合度量的高光谱图像分类方法 |
CN113486851A (zh) * | 2021-07-28 | 2021-10-08 | 齐齐哈尔大学 | 基于双分支光谱多尺度注意力网络的高光谱图像分类方法 |
CN114841860A (zh) * | 2022-05-12 | 2022-08-02 | 西南民族大学 | 一种基于拉普拉斯金字塔网络的高光谱遥感图像超分辨率方法 |
CN114936995A (zh) * | 2022-06-15 | 2022-08-23 | 郑州轻工业大学 | 基于大核注意力机制的多尺度特征增强的遥感图像融合方法 |
Non-Patent Citations (5)
Title |
---|
SHIVAM PANDE等: "HyperLoopNet: Hyperspectral image classification using multiscale self-looping convolutional networks", 《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》, vol. 183, pages 422 - 438 * |
刘帅等: "基于双分支卷积网络的高光谱与多光谱图像协同土地利用分类", 《农业工程学报》, no. 14 * |
姚建华等: "全卷积神经网络下的多光谱遥感影像分割", 《中国图象图形学报》, no. 01 * |
李铁等: "极限学习机在高光谱遥感图像分类中的应用", 《光电工程》, no. 11 * |
王之璞: "基于循环神经网络的高光谱图像联合分类研究", 《CNKI中国会议论文全文库》, no. 2023 * |
Also Published As
Publication number | Publication date |
---|---|
CN116310572B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shang et al. | Dense connection and depthwise separable convolution based CNN for polarimetric SAR image classification | |
CN104123555B (zh) | 一种基于稀疏表示和超像素的极化sar地物分类方法 | |
CN101221243B (zh) | 基于非负矩阵因式分解的遥感图像混合像元分解方法 | |
Boggavarapu et al. | A new framework for hyperspectral image classification using Gabor embedded patch based convolution neural network | |
Liu et al. | Mapping coastal wetlands using transformer in transformer deep network on China ZY1-02D hyperspectral satellite images | |
CN108197650B (zh) | 局部相似性保持的高光谱图像极限学习机聚类方法 | |
CN101692125A (zh) | 基于Fisher判别零空间的高光谱遥感图像混合像元分解方法 | |
He et al. | DsTer: A dense spectral transformer for remote sensing spectral super-resolution | |
Qi et al. | Global–local 3-D convolutional transformer network for hyperspectral image classification | |
CN103413292A (zh) | 基于约束最小二乘的高光谱图像非线性丰度估计方法 | |
Tarabalka | Classification of hyperspectral data using spectral-spatial approaches | |
Xie et al. | POLSAR image classification via clustering-WAE classification model | |
Fu et al. | Three-dimensional singular spectrum analysis for precise land cover classification from UAV-borne hyperspectral benchmark datasets | |
Chen et al. | DRSNet: Novel architecture for small patch and low-resolution remote sensing image scene classification | |
CN109946241A (zh) | 一种基于高光谱计算成像系统的土壤分类方法 | |
CN103020955A (zh) | 邻域空间窗口的高光谱图像稀疏表示目标检测方法 | |
Li et al. | Variational Bayesian independent component analysis-support vector machine for remote sensing classification | |
CN106778530A (zh) | 一种基于双线性混合模型的高光谱图像非线性解混方法 | |
Ge et al. | Pyramidal multiscale convolutional network with polarized self-attention for pixel-wise hyperspectral image classification | |
CN115578632A (zh) | 基于膨胀卷积的高光谱图像分类方法 | |
Asiyabi et al. | Segment-based bag of visual words model for urban land cover mapping using polarimetric SAR data | |
Liu et al. | MS3Net: Multiscale stratified-split symmetric network with quadra-view attention for hyperspectral image classification | |
CN104182997B (zh) | 高光谱图像压缩方法及应用 | |
CN116310572B (zh) | 金字塔多尺度卷积和自注意力结合的高光谱图像分类方法 | |
CN113421198A (zh) | 一种基于子空间的非局部低秩张量分解的高光谱图像去噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |