CN116935240A - 多尺度感知金字塔的地表覆盖分类系统和方法 - Google Patents
多尺度感知金字塔的地表覆盖分类系统和方法 Download PDFInfo
- Publication number
- CN116935240A CN116935240A CN202310891381.6A CN202310891381A CN116935240A CN 116935240 A CN116935240 A CN 116935240A CN 202310891381 A CN202310891381 A CN 202310891381A CN 116935240 A CN116935240 A CN 116935240A
- Authority
- CN
- China
- Prior art keywords
- convolution
- depth
- surface coverage
- branch
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008447 perception Effects 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 title claims description 96
- 238000012545 processing Methods 0.000 claims abstract description 65
- 235000015220 hamburgers Nutrition 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 25
- 230000003247 decreasing effect Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 43
- 230000004927 fusion Effects 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 26
- 238000000354 decomposition reaction Methods 0.000 claims description 21
- 238000001994 activation Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 22
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 14
- 230000000694 effects Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 9
- 238000007635 classification algorithm Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013502 data validation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- MPDGHEJMBKOTSU-YKLVYJNSSA-N 18beta-glycyrrhetic acid Chemical compound C([C@H]1C2=CC(=O)[C@H]34)[C@@](C)(C(O)=O)CC[C@]1(C)CC[C@@]2(C)[C@]4(C)CC[C@@H]1[C@]3(C)CC[C@H](O)C1(C)C MPDGHEJMBKOTSU-YKLVYJNSSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012442 analytical experiment Methods 0.000 description 1
- GJPICJJJRGTNOD-UHFFFAOYSA-N bosentan Chemical compound COC1=CC=CC=C1OC(C(=NC(=N1)C=2N=CC=CN=2)OCCO)=C1NS(=O)(=O)C1=CC=C(C(C)(C)C)C=C1 GJPICJJJRGTNOD-UHFFFAOYSA-N 0.000 description 1
- 229960003065 bosentan Drugs 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 235000012434 pretzels Nutrition 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种多尺度感知金字塔的地表覆盖分类系统,包括:分层编码器,以多尺度卷积注意力网络作为骨干网络,配置为对输入的地表图像在空间分辨率递减的N个阶段中分别进行特征提取,得到各阶段所对应的特征图;感受野扩大模块,配置为对分层编码器所输出的第N个阶段所对应的特征图进行感受野扩大处理;金字塔Hamburger解码器,配置为将分层编码器所输出的前N‑1个阶段所对应的N‑1个特征图以及感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图进行融合处理,得到完整融合特征图,然后基于Hamburger算法从完整融合特征图中提取出全局上下文特征,再基于全局上下文特征预测出地表图像的地表覆盖分类结果。
Description
技术领域
本公开涉及图像识别与分类领域技术领域,特别涉及一种多尺度感知金字塔的地表覆盖分类系统和方法。
背景技术
随着遥感卫星发射数量的不断增多,遥感数据集的数据量也呈现出爆炸式增长的趋势,这些庞大的遥感数据具有巨大的研究价值和意义。然而,高分辨率影像往往具有地物尺度变化大、类内方差大、类间方差小、样本不平衡等问题,导致高分辨率卫星遥感影像(High-Resolution Satellite Imagery,简称HRSI)的地表覆盖分类依然面临巨大挑战。近年来,地表覆盖分类作为地物要素解译的关键技术,已逐渐成为遥感领域的研究热点之一。因此,快速准确获取地表覆盖产品,对环境保护和城市规划等领域具有至关重要的作用。
发明内容
第一方面,本公开实施例提供了一种多尺度感知金字塔的地表覆盖分类系统,包括:
分层编码器,以多尺度卷积注意力网络作为骨干网络,配置为对输入的地表图像在空间分辨率递减的N个阶段中分别进行特征提取,得到各阶段所对应的特征图,N为正整数且N≥3,第1个阶段的空间分辨率最大,第N个阶段的空间分辨率最小;
感受野扩大模块,配置为对所述分层编码器所输出的第N个阶段所对应的特征图进行感受野扩大处理;
金字塔Hamburger解码器,配置为将所述分层编码器所输出的前N-1个阶段所对应的N-1个特征图以及所述感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图进行融合处理,得到完整融合特征图,然后基于Hamburger算法从完整融合特征图中提取出全局上下文特征,再基于所述全局上下文特征预测出所述地表图像的地表覆盖分类结果。
在一些实施例中,所述多尺度卷积注意力网络中配置有多尺度卷积注意模块;
所述多尺度卷积注意模块配置为依次进行对所输入的特征图聚合局部信息的第一深度卷积、对第一深度卷积的结果捕获多尺度上下文信息的第一多分支深度条带卷积、将第一深度卷积的结果和第一多分支深度条带卷积中各分支的结果进行叠加、对叠加结果进行建模不同通道之间关系的第一1×1卷积,以及将第一1×1卷积的输出作为注意力权值,对所述多尺度卷积注意模块的输入进行重加权;
所述多尺度卷积注意模块表示如下:
其中,F表示输入的特征图,Att表示第一1×1卷积输出的注意力图,Out表示所述多尺度卷积注意模块的输出,表示基于元素的矩阵乘法运算,DW-Conv(·)表示第一深度卷积,在j∈1,2,3时Scalej(·)表示第j个分支的深度条带卷积,在j=0时Scale0(DW-Conv(F))=DW-Conv(F),Conv1×1(·)表示第一1×1卷积。
在一些实施例中,所述第一深度卷积的卷积核大小为5×5;
所述第一多分支深度条带卷积中的第1个分支的深度条带卷积包括一对7×1和1×7的卷积,以模拟一个核大小为7×7的标准二维卷积;
所述第一多分支深度条带卷积中的第2个分支的深度条带卷积包括一对11×1和1×11的卷积,以模拟一个核大小为11×11的标准二维卷积;
所述第一多分支深度条带卷积中的第3个分支的深度条带卷积包括一对21×1和1×21的卷积,以模拟一个核大小为21×21的标准二维卷积。
在一些实施例中,所述感受野扩大模块具体配置为依次进行对所输入的特征图聚合局部信息的第二深度卷积、对第二深度卷积的结果捕获多尺度上下文信息的第二多分支深度条带卷积、将第二深度卷积的结果和第二多分支深度条带卷积中各分支的结果进行叠加、对叠加结果进行建模不同通道之间关系的第二1×1卷积,以及将第二1×1卷积的输出作为注意力权值,对所述感受野扩大模块的输入进行重加权;
所述第二深度卷积的卷积核大小为7×7;
所述第二多分支深度条带卷积包括3个分支;
所述第二多分支深度条带卷积中的第1个分支的深度条带卷积包括一对11×1和1×11的卷积,以模拟一个核大小为11×11的标准二维卷积;
所述第一多分支深度条带卷积中的第2个分支的深度条带卷积包括一对21×1和1×21的卷积,以模拟一个核大小为21×21的标准二维卷积;
所述第一多分支深度条带卷积中的第3个分支的深度条带卷积包括一对31×1和1×31的卷积,以模拟一个核大小为31×31的标准二维卷积。
在一些实施例中,所述金字塔Hamburger解码器将所述分层编码器所输出的前N-1个阶段所对应的N-1个特征图以及所述感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图进行融合处理的过程包括:
将所述分层编码器所输出的前N-1个阶段所对应的N-1个特征图S1~SN-1以及所述感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图SN,共计N个特征图S1~SN分别依次经过卷积处理、批归一化处理和RELU非线性激活处理,得到N个新特征图L1~LN,N个新特征图L1~LN的通道数统一为C,其中第i个新特征图为Li,i为整数且i∈[1,N],新特征图Li表示如下:
Li=ReLu(BN(Conv(Ci,C)(Si)))
将N个新特征图L1~LN,从新特征图LN到新特征图L1进行逐级的相加融合得到对应的N个中间融合特征图P1~PN,其中第i个中间融合特征图为Pi,中间融合特征图Pi表示如下:
将N个中间融合特征图P1~PN在通道上进行叠加,得到完整融合特征图P:
其中,Ci表示第i个特征图的通道数,Conv(Ci,C)(·)表示输入向量维度为Ci和输出向量维度为C的1×1卷积,BN(·)表示批归一化处理,ReLu(·)表示RELU非线性激活处理,表示上采样处理到原图的四分之一,Concat(·)表示通道叠加处理。
在一些实施例中,金字塔Hamburger解码器基于Hamburger算法从完整融合特征图中提取出全局上下文特征的过程包括:
将完整融合特征图P依次经过卷积处理、组归一化处理和RELU非线性激活处理,得到预处理完整融合特征图,并利用Hamburger算法从预处理完整融合特征图中提取全局上下文特征V;
V=Hamburger(ReLu(GN(Conv(N*C,C)(P))))
其中,C表示Conv(4C,C)(·)表示输入向量维度为N*C和输出向量维度为C的1×1卷积,GN(·)表示组归一化处理,ReLu(·)表示RELU非线性激活处理,Hamburger(·)表示Hamburger算法处理,C为预先配置的常数,N*C为完整融合特征图的向量维度。
在一些实施例中,Hamburger算法处理的模型如下:
其中,Z为Hamburger算法的输入,GN(·)表示组归一化处理,WlZ表示利用第一预设线性变换算法将输入Z为映射到特征空间的处理,表示矩阵分解处理,/>表示利用第二预设线性变换算法对矩阵分解处理结果进行再次映射处理,X表示待进行矩阵分解处理的矩阵,/>表示矩阵X分解后的低秩部分,E表示矩阵X分解后的噪声部分,矩阵D和矩阵C表示在进行矩阵分解过程中所创建的两个矩阵,在进行矩阵分解过程中所设定目标函数为/>的取值最小,/>是重构损失,/>和/>是矩阵D和矩阵C的正则化。
在一些实施例中,所述金字塔Hamburger解码器基于所述全局上下文特征预测出所述地表图像的地表覆盖分类结果的过程包括:
将全局上下文特征V依次进行卷积处理、组归一化处理、RELU非线性激活处理以及再次卷积处理,得到地表覆盖分类结果F:
F=Conv(C,Cclass)(ReLu(GN(Conv(C,C)(V))))
其中,C为全局上下文特征的向量维度,Conv(C,Cclass)(·)表示输入向量维度为C和输出向量维度为Cclass的1×1卷积,Cclass为预先配置的类别数,Conv(C,C)(·)表示输入向量维度为C和输出向量维度为C的1×1卷积,GN(·)表示组归一化处理,ReLu(·)表示RELU非线性激活处理。
在一些实施例中,N取值为4。
第二方面,本公开实施例提供了一种地表覆盖分类方法,包括:
利用预设样本集中的样本对第一方面中的所述地表覆盖分类系统进行训练,得到地表覆盖分类模型;
利用地表覆盖分类模型对待处理地表图像进行地表覆盖分类处理,得到对应的地表覆盖分类结果。
附图说明
图1为本公开实施例提供的多尺度感知金字塔的地表覆盖分类系统的一种结构框图;
图2为本公开实施例中多尺度卷积注意力网络在一个阶段的处理过程以及多尺度卷积注意模块的处理过程的一种示意图;
图3为本公开实施例中感受野扩大模块的处理过程的示意图;
图4为本公开中Hamburger算法的一种整体结构框图;
图5为本公开实施例提供的地表覆盖分类方法的一种流程图;
图6为本公开实施例的一种电子设备的结构示意图;
图7A和图7B分别为本公开中各种分类算法在ISPRS Potsdam数据验证集上的分类结果的定量数据对比图和效果对比图;
图8A和图8B分别为本公开中各种分类算法在ISPRS Vaihingen数据验证集上的分类结果的定量数据对比图和效果对比图;
图9A和图9B分别为本公开中各种分类算法在LoveDA数据验证集上的分类结果的定量数据对比图和效果对比图;
图10为本公开中MSPPH框架在Potsdam验证集上的模块化分析实验结果。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。
在相关技术中,高分辨率遥感影像地表覆盖分类方法可以分为基于机器学习的方法和基于对象的方法。基于机器学习的方法将光谱、形状、纹理等手工设计的特征和机器学习分类器结合起来,例如支持向量机、随机森林、逻辑回归等。具体地,作为相关技术之一,提出了将光谱和形状特征集成到道路提取过程中;作为相关技术之二,提出了一个结合形态建筑指数、光谱和上下文信息的后处理框架来提取建筑物,很大程度上减小了误报的数量;作为相关技术之三,提出了一种结合条件随机场(Conditional Random Field,CRF)和纹理特征实现了森林提取;作为相关技术之四,提出了一种基于对象的CRF模型进行道路提取,从而充分利用空间上下文信息和拓扑信息。然而,此类方法忽略了地物之间的空间上下文信息,并且严重依赖于手工设计的特征,经验性较强。基于对象的方法主要包括:分水岭变换算法、均值漂移算法等。然而基于对象的方法可能存在大量噪声,容易导致过度分割。因此如何充分的获取空间信息是HRSI地表覆盖分类的难点。
另外,近年来,随着深度学习的快速发展,卷积神经网络被广泛应用在计算机视觉、自然语言处理等领域。由于目视解译方式费时费力,难以实现海量遥感影像的快速判别,因此基于深度学习的方法被广泛应用于遥感影像处理。目前基于深度学习的HRSI地表覆盖分类算法可以分为以下两种:监督学习、无监督域自适应学习。监督学习是主流的分类策略,它能够充分利用有标签样本丰富的空间信息和光谱信息来获取判别性的特征。无监督域自适应学习是利用有标签源域样本学习在无标签目标域上有用的特征,它提升泛化性能,减少样本标注的人工成本。
基于深度学习的HRSI地表覆盖分类监督方法指采用全卷积神经网络(FCN)利用足够数量的训练样本进行模型训练,为图像中的每个像素赋予对应的地物类别。具体地,作为相关技术之一,提出了一种遥感神经网络(RSNet)搜索框架来自动设计识别架构。然而,这些方法直接采用或修改自高级CNN架构,如UNet、FCN8S、SegNet、Deeplab等,没有充分考虑HRSI的特点。
为了解决这个问题,学者们开始从三个方面展开研究,如通过设计专门的模块,构建多尺度上下文来加强前景、小目标以及边界信息的提取。具体地,作为相关技术之一,使用Sig-NMS模块处理小目标检测任务,以减少遗漏小目标的可能性;作为相关技术之二,提出了一种统一的、自约束的网络来抑制微小物体分割中的假阳性;作为相关技术之三,提出结合DeepLabv3+和基于对象的图像分析(OBIA),利用DSM提供几何信息,增强HRSI的解译;作为相关技术之四,提出了对遥感图像简单有效的空间关系模块和通道关系模块,以学习和推理任意两个空间位置或特征映射之间的全局关系,然后生成关系增强的特征表示。
考虑到空间和通道关系模块具有通用性和可扩展性,可与现有的全卷积网络框架即插即用。作为相关技术之一,提出了一种边界敏感网络(BSNet),通过动态混合梯度卷积显式编码边界信息以增强边界信息的提取,通过协调敏感注意(CSA)自适应地建模低层特征中的边界信息和长距离依赖关系,辅助高层特征,重构出清晰细致的分割结果;作为相关技术之二,提出采用扩张卷积来保持小物体的高空间分辨率细节;作为相关技术之三,提出了利用支持向量机对小目标的不确定像素进行细化,提高了分割精度;作为相关技术之四,设计了一种前景感知关系网络,通过一维场景嵌入向量建模前景与地理空间场景之间的关系,提高了前景特征的识别能力。然而,该方法仅通过非线性变换将前景与场景隐式关联。
为此,相关技术又作了进一步改进;具体地,作为相关技术之一,提出了用于城市遥感图像小目标语义分割的DenseUNet,DenseU-Net通过级联操作将CNN特征连接起来,融合浅层的细节特征和深层的抽象语义特征;作为相关技术之二,提出了从结构和优化的角度提出了前景激活(FA)驱动的小对象语义分割(FactSeg)框架,通过由双分支解码器和协同概率损失组成的FA对象表示以增强对小对象微弱特征的感知;作为相关技术之三,提出了一种新的相邻双层网络(ABHNet),通过引入DSM增强模块以从DSM图像中挖掘特征DSM信息,并通过利用RGB和DSM模态之间的信息线索来增强红、绿和蓝(RGB)特征;作为相关技术之四,提出了一种基于Transformer和CNN的多尺度分层通道注意力融合网络模型(MCAFNet),分别通过Vit和ResNet来学习全局和局部上下文以增强了语义特征表示;作为相关技术之五,提出了一个遥感分割框架(RSSFormer),该框架通过自适应Transformer融合模块在融合多尺度特征时能够自适应抑制背景噪声,增强目标显著性;通过细节感知注意层建模空间注意和通道注意的相互作用,提取细节和前景相关信息,进一步增强前景显著性;通过前景显著性引导损失引导网络关注前景显著性响应低的硬样本,实现平衡优化。
然而,相关技术中所涉及的基于FCN的地表覆盖分类方法仅采用小卷积核的卷积神经网络模型,模型的感受野有限,无法充分挖掘多尺度空间信息,易丢失空间细节特征,从而影响地表覆盖分类结果的准确性。
为有效改善相关技术中存在的技术问题之一,本公开提供了一种地表覆盖分类系统,该地表覆盖分类系统基于多尺度感知金字塔Hamburger框架(Multi-scale PerceptionPyramid Hamburger,MSPPH),可用于高分辨率遥感影像地表覆盖分类。该框架包含一个多尺度卷积注意力编码器(下文称为“分层编码器”)、一个多尺度超大卷积核注意力模块(下文称为“感受野扩大模块”)以及一个金字塔Hamburger解码器。通过多尺度卷积注意力编码器提取强大的多尺度特征表示,然后通过多尺度超大卷积核注意力模块进一步扩大模型的感受野,最后通过金字塔Hamburgr解码器融合多尺度空间上下文信息并学习可解释的全局关系上下文,并输出精细的预测结果(即地表覆盖分类结果)。本公开提出的地表覆盖分类系统充分考虑了遥感图像的特点,有效解决了现有模型感受野有限易丢失空间细节特征的问题,能够有效提升最终所输出的地表覆盖分类结果的准确性。
图1为本公开实施例提供的多尺度感知金字塔的地表覆盖分类系统的一种结构框图。如图1所示,地表覆盖分类系统包括:分层编码器、感受野扩大模块和金字塔Hamburger解码器。
其中,分层编码器,以多尺度卷积注意力网络作为骨干网络,配置为对输入的地表图像在空间分辨率递减的N个阶段中分别进行特征提取,得到各阶段所对应的特征图,N为正整数且N≥3,第1个阶段的空间分辨率最大,第N个阶段的空间分辨率最小;
感受野扩大模块,配置为对分层编码器所输出的第N个阶段所对应的特征图进行感受野扩大处理;
金字塔Hamburger解码器,配置为将分层编码器所输出的前N-1个阶段所对应的N-1个特征图以及感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图进行融合处理,得到完整融合特征图,然后基于Hamburger算法从完整融合特征图中提取出全局上下文特征,再基于全局上下文特征预测出地表图像的地表覆盖分类结果。
图1中示例性给出了N=4的情况,该情况仅起到示意性作用,其不会对本公开的技术方案产生限制。
在本公开中,随着分层编码器中多尺度卷积注意力网络的网络深度的增大,模型感受野会越来越大,但是感受野与卷积核大小的比例却越来越小,这会导致一些低级别的特征信息无法被准确捕获,从而影响模型的性能;为了解决这个问题,本公开中增设感受野扩大模块,以分层编码器所输出的感受野与卷积核大小的比例最小的第N个特征图进行感受野扩大处理,以保留更多的空间细节特征;金字塔Hamburger解码器融合多尺度空间上下文信息并更充分的学习可解释的全局关系上下文特征,并能够输出精细的预测结果。
下面将对本公开中的分层编码器、感受野扩大模块和金字塔Hamburger解码器作进一步的示例性详细描述。
在本公开中,将多尺度卷积注意力网络(Multi Scale Attention Network,简称MSCAN)引入到地表覆盖分类系统的分层编码器中;具体地,MSCAN采用分层结构,继承了以前的大部分工作。对于分层编码器中的构建块,采用了与Vit相似的结构,但不同的是,MSCAN没有使用自注意力(self-attention)机制,而是设计了一个新的多尺度卷积注意(Multi Scale Attention,简称MSCA)模块。
图2为本公开实施例中多尺度卷积注意力网络在一个阶段的处理过程以及多尺度卷积注意模块的处理过程的一种示意图。参见图1和图2所示,将一系列的构建块堆叠起来,就产生了本公开中可用于进行编码处理的MSCAN。
参见图1所示,对于MSCAN,采用通用的层次结构,包括四个空间分辨率递减的阶段:H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32,这里H和W分别为输入图像的高度和宽度。每个阶段都包含一个向下采样块(Patch Merging)和一堆构建块(即,MSCAN Block),下采样块的卷积步幅为2,内核大小为3×3,后面是一个批归一化层。需要说明的是,在MSCAN的每个构建块中,使用批处理归一化而不是层归一化,这是因为批处理归一化在分割性能方面获得了更多的好处。
图2中BN表示批归一化处理,Attention表示自注意力处理,FFN表示前馈神经网络,GELU表示高斯误差线性单元激活函数。
多尺度卷积注意模块配置为依次进行对所输入的特征图聚合局部信息的第一深度卷积、对第一深度卷积的结果捕获多尺度上下文信息的第一多分支深度条带卷积、将第一深度卷积的结果和第一多分支深度条带卷积中各分支的结果进行叠加、对叠加结果进行建模不同通道之间关系的第一1×1卷积,以及将第一1×1卷积的输出作为注意力权值,对多尺度卷积注意模块的输入进行重加权(Re-weighting);
多尺度卷积注意模块表示如下:
其中,F表示输入的特征图,Att表示第一1×1卷积输出的注意力图,Out表示多尺度卷积注意模块的输出,表示基于元素的矩阵乘法运算,DW-Conv(·)表示第一深度卷积,在j∈1,2,3时Scalej(·)表示第j个分支的深度条带卷积,在j=0时Scale0(DW-Conv(F))=DW-Conv(F),Conv1×1(·)表示第一1×1卷积。
在一些实施例中,第一深度卷积的卷积核大小为5×5。
在一些实施例中,第一多分支深度条带卷积包括3个分支,其中,第一多分支深度条带卷积中的第1个分支的深度条带卷积包括一对7×1和1×7的卷积,以模拟一个核大小为7×7的标准二维卷积;第一多分支深度条带卷积中的第2个分支的深度条带卷积包括一对11×1和1×11的卷积,以模拟一个核大小为11×11的标准二维卷积;第一多分支深度条带卷积中的第3个分支的深度条带卷积包括一对21×1和1×21的卷积,以模拟一个核大小为21×21的标准二维卷积。
在本公开中,选择深度带状卷积的原因有两个方面:第一方面,条带卷积是轻量级的,要模拟一个核大小为7×7的标准二维卷积,我们只需要一对7×1和1×7的卷积;第二方面,在地表覆盖分类场景中出现了一些带状物体,如汽车、建筑物等,因此深度带状卷积可以是网格卷积的补充,并有助于提取条带状特征。
图3为本公开实施例中感受野扩大模块的处理过程的示意图。如图3所示,感受野扩大模块具体配置为依次进行对所输入的特征图聚合局部信息的第二深度卷积、对第二深度卷积的结果捕获多尺度上下文信息的第二多分支深度条带卷积、将第二深度卷积的结果和第二多分支深度条带卷积中各分支的结果进行叠加、对叠加结果进行建模不同通道之间关系的第二1×1卷积,以及将第二1×1卷积的输出作为注意力权值,对感受野扩大模块的输入进行重加权;本公开中的感受野扩大模块本质为一个多尺度超大卷积核注意力模块(称为MSKCA);与MSCA相比,MSKCA具有更大的卷积核。
在一些实施例中,第二深度卷积的卷积核大小为7×7。
在一些实施例中,第二多分支深度条带卷积包括3个分支;第二多分支深度条带卷积中的第1个分支的深度条带卷积包括一对11×1和1×11的卷积,以模拟一个核大小为11×11的标准二维卷积;第一多分支深度条带卷积中的第2个分支的深度条带卷积包括一对21×1和1×21的卷积,以模拟一个核大小为21×21的标准二维卷积;第一多分支深度条带卷积中的第3个分支的深度条带卷积包括一对31×1和1×31的卷积,以模拟一个核大小为31×31的标准二维卷积。
继续参见图1所示,在一些实施例中,金字塔Hamburger解码器将分层编码器所输出的前N-1个阶段所对应的N-1个特征图以及感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图进行融合处理的过程包括:
将分层编码器所输出的前N-1个阶段所对应的N-1个特征图S1~SN-1以及感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图SN,共计N个特征图S1~SN分别依次经过卷积处理(也称为Conv处理)、批归一化处理(也称为BN处理)和RELU非线性激活处理(也称为Relu处理),得到N个新特征图L1~LN,N个新特征图L1~LN的通道数统一为C(C为一个超参数,可以设置256或者512),其中第i个新特征图为Li,i为整数且i∈[1,N],新特征图Li表示如下:
Li=ReLu(BN(Conv(Ci,C)(Si)))
将N个新特征图L1~LN,从新特征图LN到新特征图L1进行逐级的相加融合得到对应的N个中间融合特征图P1~PN,其中第i个中间融合特征图为Pi,中间融合特征图Pi表示如下:
将N个中间融合特征图P1~PN在通道上进行叠加,得到完整融合特征图P:
其中,Ci表示第i个特征图的通道数,Conv(Ci,C)(·)表示输入向量维度为Ci和输出向量维度为C的1×1卷积,BN(·)表示批归一化处理,ReLu(·)表示RELU非线性激活处理,表示上采样处理到原图的四分之一,Concat(·)表示通道叠加处理。
在一些实施例中,金字塔Hamburger解码器基于Hamburger算法从完整融合特征图中提取出全局上下文特征的过程包括:
将完整融合特征图P依次经过卷积处理、组归一化处理和RELU非线性激活处理,得到预处理完整融合特征图,并利用Hamburger算法从预处理完整融合特征图中提取全局上下文特征V;
V=Hamburger(ReLu(GN(Conv(N*C,C)(P))))
其中,C表示Conv(4C,C)(·)表示输入向量维度为N*C和输出向量维度为C的1×1卷积,GN(·)表示组归一化处理,ReLu(·)表示RELU非线性激活处理,Hamburger(·)表示Hamburger算法处理,C为预先配置的常数,N*C为完整融合特征图的向量维度。
图4为本公开中Hamburger算法的一种整体结构框图。如图4所示,Hamburger处理模块是本文构建的一个不需要艰苦的手工设计的全局关系上下文模块;从图中可以看出,Hamburger算法由一个矩阵分解和两个线性变换组成。顾名思义,Hamburger首先用线性变换将输入/>映射到特征空间中,然后用矩阵分解/>求解一个低秩信号子空间,最后用另一个线性变换/>将提取的信号转换为输出。
Hamburger算法处理的模型如下:
其中,Z为Hamburger算法的输入,GN(·)表示组归一化处理,WlZ表示利用第一预设线性变换算法将输入Z为映射到特征空间的处理,表示矩阵分解处理,矩阵分解处理用于恢复清晰的潜在结构,起到全局非线性的作用,通过将全局上下文建模表述为一个矩阵分解的优化问题,求解矩阵分解的算法自然构成了/>X表示待进行矩阵分解处理的矩阵(/>处理的输入),/>表示矩阵X分解后的低秩部分(/>处理的输出),E表示矩阵X分解后的噪声部分,矩阵D和矩阵C表示在进行矩阵分解过程中所创建的两个矩阵,在进行矩阵分解过程中所设定目标函数为/>的取值最小;/>表示利用第二预设线性变换算法对矩阵分解处理结果进行再次映射处理。
由于普通的CNN对全局上下文建模的能力较差,学习到的X通常被冗余信息破坏。在本公开中,通过对矩阵X进行矩阵分解,计算低秩重建并丢弃噪声部分E,过滤掉冗余信息,从而学习可解释的全局上下文特征。
具体地,尽管自注意力及其变体取得了较佳效果,但仍然存在以下问题:1)需要艰苦的手工设计;2)难以解释为何有效。为了解决这两个问题,本公开找到了一种轻松设计全局上下文模块的方法,即将全局关系上下文表述为一个目标函数,并使用优化算法来解决这一问题,从而设计模块的架构。以CNN为例,将图像输入网络后,网络输出一个张量由于该张量可以被视为一组个数为H×W、维度为C的超像素,将该张量展开为矩阵/>当模块学习长距离依赖关系或全局关系上下文时,隐藏的前提假设是超像素之间本质上是相关的。为了简单起见,本文假设超像素之间是线性相关的,这意味着X中的每个超像素都可以表示为基的线性组合,其元素个数通常比HW小得多。在理想情况下,隐藏在X中的全局信息可能是低秩(LOW rank)的;然而,由于普通CNN对全局上下文建模能力较差,学习到的X通常被冗余信息或不完整性破坏;基于上述分析提出了一种对全局上下文建模的潜在方法,即通过在展开矩阵X中完成低秩部分/>并丢弃噪声部分E,使用经典的矩阵分解模型,同时过滤掉冗余和不完整性。
经典的矩阵分解模型可以表示为:
因此,本文将全局关系上下文学习建模为一个低秩恢复问题,并将矩阵分解作为其解决方案。矩阵分解的一般目标函数为
其中,是重构损失,/>和/>是矩阵D和矩阵C的正则化,将最小化公式的优化算法记为/>
在一些实施例中,金字塔Hamburger解码器基于全局上下文特征预测出地表图像的地表覆盖分类结果的过程包括:
将全局上下文特征V依次进行卷积处理、组归一化处理、RELU非线性激活处理以及再次卷积处理,得到地表覆盖分类结果F:
F=Conv(C,Cclass)(ReLu(GN(Conv(C,C)(V))))
其中,C为全局上下文特征的向量维度,Conv(C,Cclass)(·)表示输入向量维度为C和输出向量维度为Cclass的1×1卷积,Cclass为预先配置的类别数,Conv(C,C)(·)表示输入向量维度为C和输出向量维度为C的1×1卷积,GN(·)表示组归一化处理,ReLu(·)表示RELU非线性激活处理。
基于同一发明构思,本公开实施例还提供了一种地表覆盖分类方法。图5为本公开实施例提供的地表覆盖分类方法的一种流程图。如图5所示,该地表覆盖分类方法包括:
步骤S1、利用预设样本集中的样本对前面任一实施例提供的地表覆盖分类系统进行训练,得到地表覆盖分类模型。
步骤S2、利用地表覆盖分类模型对待处理地表图像进行地表覆盖分类处理,得到对应的地表覆盖分类结果。
基于同一发明构思,本公开实施例还提供了一种电子设备。图6为本公开实施例的一种电子设备的结构示意图。如图6所示,本公开实施例提供一种电子设备包括:一个或多个处理器101、存储器102、一个或多个I/O接口103。存储器102上存储有一个或多个程序,当该一个或多个程序被该一个或多个处理器执行,使得该一个或多个处理器实现如上述实施例中任一的地表覆盖分类方法;一个或多个I/O接口103连接在处理器与存储器之间,配置为实现处理器与存储器的信息交互。
其中,处理器101为具有数据处理能力的器件,包括但不限于中央处理器(CPU)等;存储器102为具有数据存储能力的器件,包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH);I/O接口(读写接口)103连接在处理器101与存储器102间,能实现处理器101与存储器102的信息交互,包括但不限于数据总线(Bus)等。
在一些实施例中,处理器101、存储器102和I/O接口103通过总线104相互连接,进而与计算设备的其它组件连接。
在一些实施例中,该一个或多个处理器101包括现场可编程门阵列。
根据本公开的实施例,还提供一种计算机可读介质。该计算机可读介质上存储有计算机程序,其中,该程序被处理器执行时实现如上述实施例中任一的地表覆盖分类方法中的步骤。
特别地,根据本公开实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的电路或子电路可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的电路或子电路也可以设置在处理器中,例如,可以描述为:一种处理器,包括:接收电路和处理电路,该处理模块包括写入子电路和读取子电路。其中,这些电路或子电路的名称在某种情况下并不构成对该电路或子电路本身的限定,例如,接收电路还可以被描述为“接收视频信号”。
为了定性和定量地分析所提出模型的分类性能,本研究在三个公开的高分辨率地表覆盖分类数据集上进行实验,与一些最先进的模型进行比较,包括FCN8S模型、DeepLabV3+模型、UNet模型、Semantic-FPN模型、PSPNet模型、LinkNet模型、FarSeg模型、FactSeg模型、HRNet模型等。
1)实验数据
为了验证基于多尺度卷积注意力的地表覆盖分类框架的分类性能,本文将利用三种不同的高分辨率地表覆盖分类数据集对MSPPH地表覆盖分类进行测试:包含6个类别且标签样本数据不平衡的ISPRS Potsdam和ISPRS Vaihingen数据,包含7个类别且具有较高空间分辨率的LoveDA数据集。由于它们具有高分辨率特性,因此被广泛应用于地表覆盖分类任务中。
ISPRS Potsdam数据集:该数据拍摄于德国波茨坦,包含38幅平均尺寸为6000×6000、空间分辨率为5cm的高分辨率遥感影像,且每幅图像包含近红外、红、绿、蓝等四个波段和数字表面模型(Digital Surface Models,DSM)。该数据主要覆盖城市景观,被标注为六个常见的地表覆盖类别,分别是不透水层、建筑物、低矮植被、树木、汽车和背景。我们从38幅图像中选择了24幅(ID:2_10,2_11,2_12,3_10,3_11,3_12,4_10,4_11,4_12,5_10,5_11,5_12,6_7,6_8,6_9,6_10,6_11,6_12,7_7,7_8,7_9,7_10,7_11,7_12)作为训练集,14幅(ID:2_13,2_14,3_13,3_14,4_13,4_14,4_15,5_13,5_14,5_15,6_13,6_14,6_15,7_13)作为验证集。值得注意的是,我们仅采用近红外、红、绿三个波段进行实验。由于GPU显存限制,我们将整幅图像裁剪为512×512大小,步长为256。最终,该数据由3456张训练集和2016张验证集组成。
ISPRS Vaihingen数据集:该数据拍摄于德国瓦英根,包含33幅平均尺寸为2494×2064、空间分辨率为9cm的高分辨遥感影像,且每幅影像包含近红外、红、绿等三个波段和DSM。该数据主要覆盖城市景观,被标注为六个常见的地表覆盖类别,分别是不透水层、建筑物、低矮植被、树木、汽车和背景。我们从33幅图像中选择了16幅(ID:1,3,5,7,11,13,15,17,21,23,26,28,30,32,34,37)作为训练集,17幅(2,4,6,8,10,12,14,16,20,22,24,27,29,31,33,35,38)作为验证集。由于GPU显存限制,我们将整幅图像裁剪为512×512大小,步长为256。最终,该数据由344张训练集和398张验证集组成。
LoveDA数据集:该数据集于2016年7月拍摄于南京、常州和武汉等地,总面积为536.15km2,其空间分辨率为0.3m,包含红、绿、蓝三种波段。经过几何配准和预处理,每个区域被裁剪为1024×1024大小,步长为1024。该数据根据《地理条件普查数据规定和采集要求》,制定了7种常见的土地覆盖类型,即建筑、道路、水、森林、农业和背景,可以应用于语义分割和无监督域自适应两个任务中。对于语义分割,八个区域被用于训练,其他区域用于验证和测试,且训练集、验证集和测试集涵盖城市和农村地区,经裁剪后该数据由2522张训练集、1669张验证集和1796张测试集组成。对于无监督域适应,分别考虑了城市→农村和农村→城市两个跨域子任务。城市训练集图像来自秦淮、栖霞、江汉和鼓楼地区,验证集来自六合和黄陂区。测试集来自江宁、新北和溧阳地区。农村训练集来自浦口、丽水、高淳和江夏地区,验证集来自雨花台和金坛地区。测试集来自江野、武昌和武进地区。
2)参数设置。
训练参数设置:本文使用Pytorch框架进行实验,并分别基于timm和mmsegmentation库进行地表覆盖分类,并采用mIoU作为地表覆盖分类的评价指标。本文所用的所有编码器都在ImageNet数据集上进行了预训练,所有模型都在一个有4个RTX3090GPU的节点上进行训练。对于数据增强,在ISPRSPotsdam和ISPRS Vaihingen数据实验中,采用了一些常见的数据增强,包括随机水平翻转、随机尺度缩放(从0.5到2)和随机裁剪。在LoveDA数据实验中,采用随机水平翻转、随机垂直翻转、随机旋转90°、随机尺度缩放和随机裁剪。对于所有数据,批处理大小设置为16,初始学习率设为0.00006,并使用AdamW优化器训练15k迭代。此外,本文还采用学习率预热策略和Poly学习速率衰减策略,其中学习率预热迭代为1.5k。在测试过程中,本文使用单尺度测试策略进行公平的比较。
为了定量的比较各分类算法在ISPRS Potsda数据集、ISPRS Vaihingenm数据集、LoveDA数据集上的土地覆盖分类效果,本研究采用mIoU作为评价指标,并计算了所有方法在验证集各个类别上的分类精度。下面所涉及的图7A~9B所示附图中的“our”表示本公开提供的基于MSPPH的地表覆盖分类系统所对应的分类结果。
3.1)ISPRS Potsdam数据集的实验结果与分析
图7A和图7B分别为本公开中各种分类算法在ISPRS Potsdam数据验证集上的分类结果的定量数据对比图和效果对比图。如图7A和图7B所示,从定量结果可以看出,相比于采用浅层骨干VGG16的FCN8S,采用深层骨干的方法实现了更好的分类精度,mIoU在70%以上,这归功于深层骨干强大的特征提取能力。所有这些方法在大型建筑物上都取得了更好的性能,而在汽车上的性能则较差。因为汽车比建筑物小得多,汽车更难识别。这些方法在处理小物体时都存在特征弱、样本不平衡等问题。此外,物体越小,这些问题就越明显。然而,本文所提出的基于MSPPH框架的地表覆盖分类系统在建筑物和汽车这两个类别上取得了最好的效果,其中建筑物类的IoU为92.12%,汽车类的IoU为83.34%。相比于其他方法,MSPPH取得了74.58%的mIoU,提高了1%~2%。
图7B中(a)和(b)分别展示了ISPRS Potsdam数据集的图像以及地面真值图,(c)~(k)分别展示了FCN8S、DeepLabV3+、UNet、Semantic-FPN、PSPNet、LinkNet、FarSeg、FactSeg和HRNet在ISPRS Potsdam数据集上的土地覆盖分类结果效果图。从这几幅图中可以看出,由于FCN8S和U-Net的网络层数较浅,在识别建筑物和一些小型建筑物的边缘时表现不佳。LinKNet的分类结果包含很多椒盐噪声,且边缘粗糙。其他方法分类效果较好,但由于建筑物的无序排列和地物尺度变化大,仍很难准确提取建筑物边缘。一些小规模的物体,如小车和分散的树木,小车很容易被错误地识别为建筑物,树木很容易被错误地分类为低矮植被,因为这些类别具有相似的光谱和形状。图7B中(l)展示了MSPPH的分类结果,与上述九种方法相比,本公开提供的基于MSPPH的地表覆盖分类系统能够生成完整的地表覆盖结构,并且地物的分类边界更接近真实影像的表示。这得益于编码器建模强大多尺度特征表示和解码器融合多尺度特征的同时建模可解释的全局上下文。
3.2)ISPRS Vaihingen数据集的实验结果与分析
图8A和图8B分别为本公开中各种分类算法在ISPRS Vaihingen数据验证集上的分类结果的定量数据对比图和效果对比图。如图8A和图8B所示,从定量结果可以看出,采用浅层骨干VGG16的FCN8S取得了最低46.69%的mIoU。相比于FCN8S,采用深层骨干ResNet的方法均实现了更好的分类精度,mIoU在47%以上,这归功于深层骨干强大的特征提取能力。这些方法都能很好地识别水体、建筑物、农田和道路,且水体取得了所有类别的最好性能,这是因为水具有很强的光谱同质性和较低的类内方差。然而在裸地上的性能则最差,这是因为裸地中占比很小,导致样本不平衡更难问题。然而,本文所提出的基于MSPPH框架的地表覆盖分类系统不仅在水体和裸地这两个类别上均取得了最高的性能,在建筑物、道路、森林上均取得了最高的性能。其中水体类的IoU为80.04%,裸地类的IoU为24.51%。相比于其他方法,MSPPH取得了最高53.42%的mIoU,提高了1.9%~6.73%。本文认为这得益于MSPPH针对遥感尺度变化大而设计的多尺度建模。
图8B中(a)和(b)分别展示了ISPRS Vaihingen数据集的图像以及地面真实标签图,(c)~(l)展示了FCN8S、DeepLabV3+、UNet、Semantic-FPN、PSPNet、LinkNet、FarSeg、FactSeg、HRNet以及MSPPH的分类结果。从图8B可以看出,所有的方法都能正确识别大型建筑物。然而,FCN8S和U-Net在识别建筑物和一些小型建筑物的边缘时表现不佳,因为它们的层数较浅。小车很难被识别出来,尤其是在有阴影或树木遮挡的情况下。低矮植被容易与树木混淆、建筑物容易与不透水面混淆,因为这些类别具有相似的光谱和形状。图8B中(l)展示了MSPPH的分类结果,与上述九种方法相比,本公开提供的基于MSPPH的地表覆盖分类系统能够生成完整的地表覆盖结构,并且地物的分类边界更接近真实影像的表示。这得益于编码器建模强大多尺度特征表示和解码器融合多尺度特征的同时建模可解释的全局上下文。
3.3)LoveDA数据集的实验结果与分析
图9A和图9B分别为本公开中各种分类算法在LoveDA数据验证集上的分类结果的定量数据对比图和效果对比图。如图9A和图9B,从定量结果可以看出,采用浅层骨干VGG16的FCN8S取得了最低46.69%的mIoU。相比于FCN8S,采用深层骨干ResNet的方法均实现了更好的分类精度,mIoU在47%以上,这归功于深层骨干强大的特征提取能力。这些方法都能很好地识别水体、建筑物、农田和道路,且水体取得了所有类别的最好性能,这是因为水具有很强的光谱同质性和较低的类内方差。然而在裸地上的性能则最差。这是因为裸地中占比很小,导致样本不平衡更难问题。然而,本公开提供的基于MSPPH的地表覆盖分类系统不仅在水体和裸地这两个类别上均取得了最高的性能,在建筑物、道路、森林上均取得了最高的性能。其中水体类的IoU为80.04%,裸地类的IoU为24.51%。相比于其他方法,MSPPH取得了最高53.42%的mIoU,提高了1.9%~6.73%。本文认为这得益于MSPPH针对遥感尺度变化大而设计的多尺度建模。
图9B中(a)和(b)分别展示了ISPRS LoveDA数据集的图像以及地面真实标签图,(c)-(k)分别展示了FCN8S、DeepLabV3+、UNet、Semantic-FPN、PSPNet、LinkNet、FarSeg、FactSeg和HRNet在ISPRS LoveDA数据集上的土地覆盖分类结果。从这几幅图中可以看出,FCN8S采用浅层主干(VGG16),由于缺乏特征提取能力,很难识别道路。相比于FCN8S,其他方法利用深层主干的方法效果更好。由于建筑的无序排列和尺度的变化,很难准确提取建筑的边缘。一些小规模的物体,如建筑物和分散的树木,很容易被忽略。相比之下,水类在所有方法中都达到了更好的可视化效果,这是因为水具有很强的光谱同质性和较低的类内方差。森林很容易被错误地分类为农业,因为这些类别具有相似的光谱。图9B中(l)展示了MSPPH的分类结果。由于高分辨率的保留和多尺度融合,本文提出的MSPPH产生了最好的可视化效果,特别是在细节方面。与上述九种方法相比,MSPPH能够生成完整的地表覆盖结构,并且地物的分类边界更接近真实影像的表示。
4)消融实验
图10为本公开中MSPPH框架在Potsdam验证集上的模块化分析实验结果。如图10所示,为了更好地了解多尺度感知金字塔Hamburger(MSPPH)框架中每个组成成分的有效性,本公开对基于MSPPH的地表覆盖分类系统中每个模块进行了广泛的分析实验,本实验采用FCN8S作为基线方法,且均在ISPRS Potsdam数据集上进行,因为该数据集的空间分辨率高,因而具有很好的代表性,具体实验结构可参见图10所示。
本文提出了一种多尺度感知金字塔Hamburger的地表覆盖分类(MSPPH)框架,以解决地物尺度变化大、类内方差大以及类间方差小的问题,提高模型在地物尺度变化大、光谱相似时的分类性能。在MSPPH框架中,本文首次将多尺度卷积注意力网络作为编码器引入到地表覆盖分类任务中,提高模型的多尺度上下文信息提取能力。为了解决感受野有限的问题,本文提出多尺度超大卷积核注意力(MSKCA)模块以进一步扩大感受野并保留空间细节特征。为了防止解码器丢失信息,本文提出了金字塔Hamburger解码器,用于更好的融合多尺度空间上下文信息并建模可解释的全局关系上下文信息。从实验结果可以看出,MSPPH在三个高分辨率遥感数据集上,都取得了比其他先进方法更好的分类性能和可视化结果。
在监督分类方面,本文构建了一个多尺度感知金字塔Hamburger的地表覆盖分类框架。为了缓解尺度变化大、类内方差大以及类间方差小的问题,本文首次引入基于多尺度卷积注意力的分层编码器,以增大感受野的同时提高多尺度空间上下文信息的提取能力。为了进一步扩大感受野,本文提出了多尺度超大卷积核注意力模块以保留更多的空间细节特征。为了更好的融合来自编码器的强大的多尺度特征,本文提出了金字塔Hamburger解码器,通过建立金字塔结构将不同尺度的特征进行融合,然后通过Hamburger对融合后的特征进行去噪,以学习可解释的全局关系上下文信息。在ISPRS Potsdam、Vaihingen以及LoveDA数据集上的实验结果表明,本文方法在平均交并比上比其他方法高1%以上,证明了该框架的有效性。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。
Claims (10)
1.一种多尺度感知金字塔的地表覆盖分类系统,其特征在于,包括:
分层编码器,以多尺度卷积注意力网络作为骨干网络,配置为对输入的地表图像在空间分辨率递减的N个阶段中分别进行特征提取,得到各阶段所对应的特征图,N为正整数且N≥3,第1个阶段的空间分辨率最大,第N个阶段的空间分辨率最小;
感受野扩大模块,配置为对所述分层编码器所输出的第N个阶段所对应的特征图进行感受野扩大处理;
金字塔Hamburger解码器,配置为将所述分层编码器所输出的前N-1个阶段所对应的N-1个特征图以及所述感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图进行融合处理,得到完整融合特征图,然后基于Hamburger算法从完整融合特征图中提取出全局上下文特征,再基于所述全局上下文特征预测出所述地表图像的地表覆盖分类结果。
2.根据权利要求1所述的地表覆盖分类系统,其特征在于,所述多尺度卷积注意力网络中配置有多尺度卷积注意模块;
所述多尺度卷积注意模块配置为依次进行对所输入的特征图聚合局部信息的第一深度卷积、对第一深度卷积的结果捕获多尺度上下文信息的第一多分支深度条带卷积、将第一深度卷积的结果和第一多分支深度条带卷积中各分支的结果进行叠加、对叠加结果进行建模不同通道之间关系的第一1×1卷积,以及将第一1×1卷积的输出作为注意力权值,对所述多尺度卷积注意模块的输入进行重加权;
所述多尺度卷积注意模块表示如下:
其中,F表示输入的特征图,Att表示第一1×1卷积输出的注意力图,Out表示所述多尺度卷积注意模块的输出,表示基于元素的矩阵乘法运算,DW-Conv(·)表示第一深度卷积,在j∈1,2,3时Scalej(·)表示第j个分支的深度条带卷积,在j=0时Scale0(DW-Conv(F))=DW-Conv(F),Conv1×1(·)表示第一1×1卷积。
3.根据权利要求2所述的地表覆盖分类系统,其特征在于,所述第一深度卷积的卷积核大小为5×5;
所述第一多分支深度条带卷积中的第1个分支的深度条带卷积包括一对7×1和1×7的卷积,以模拟一个核大小为7×7的标准二维卷积;
所述第一多分支深度条带卷积中的第2个分支的深度条带卷积包括一对11×1和1×11的卷积,以模拟一个核大小为11×11的标准二维卷积;
所述第一多分支深度条带卷积中的第3个分支的深度条带卷积包括一对21×1和1×21的卷积,以模拟一个核大小为21×21的标准二维卷积。
4.根据权利要求3所述的地表覆盖分类系统,其特征在于,所述感受野扩大模块具体配置为依次进行对所输入的特征图聚合局部信息的第二深度卷积、对第二深度卷积的结果捕获多尺度上下文信息的第二多分支深度条带卷积、将第二深度卷积的结果和第二多分支深度条带卷积中各分支的结果进行叠加、对叠加结果进行建模不同通道之间关系的第二1×1卷积,以及将第二1×1卷积的输出作为注意力权值,对所述感受野扩大模块的输入进行重加权;
所述第二深度卷积的卷积核大小为7×7;
所述第二多分支深度条带卷积包括3个分支;
所述第二多分支深度条带卷积中的第1个分支的深度条带卷积包括一对11×1和1×11的卷积,以模拟一个核大小为11×11的标准二维卷积;
所述第一多分支深度条带卷积中的第2个分支的深度条带卷积包括一对21×1和1×21的卷积,以模拟一个核大小为21×21的标准二维卷积;
所述第一多分支深度条带卷积中的第3个分支的深度条带卷积包括一对31×1和1×31的卷积,以模拟一个核大小为31×31的标准二维卷积。
5.根据权利要求1所述的地表覆盖分类系统,其特征在于,所述金字塔Hamburger解码器将所述分层编码器所输出的前N-1个阶段所对应的N-1个特征图以及所述感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图进行融合处理的过程包括:
将所述分层编码器所输出的前N-1个阶段所对应的N-1个特征图S1~SN-1以及所述感受野扩大模块所输出的经过感受野扩大处理的第N个阶段所对应的1个特征图SN,共计N个特征图S1~SN分别依次经过卷积处理、批归一化处理和RELU非线性激活处理,得到N个新特征图L1~LN,N个新特征图L1~LN的通道数统一为C,其中第i个新特征图为Li,i为整数且i∈[1,N],新特征图Li表示如下:
Li=ReLu(BN(Conv(Ci,C)(Si)))
将N个新特征图L1~LN,从新特征图LN到新特征图L1进行逐级的相加融合得到对应的N个中间融合特征图P1~PN,其中第i个中间融合特征图为Pi,中间融合特征图Pi表示如下:
将N个中间融合特征图P1~PN在通道上进行叠加,得到完整融合特征图P:
其中,Ci表示第i个特征图的通道数,Conv(Ci,C)(·)表示输入向量维度为Ci和输出向量维度为C的1×1卷积,BN(·)表示批归一化处理,ReLu(·)表示RELU非线性激活处理,表示上采样处理到原图的四分之一,Concat(·)表示通道叠加处理。
6.根据权利要求1所述的地表覆盖分类系统,其特征在于,金字塔Hamburger解码器基于Hamburger算法从完整融合特征图中提取出全局上下文特征的过程包括:
将完整融合特征图P依次经过卷积处理、组归一化处理和RELU非线性激活处理,得到预处理完整融合特征图,并利用Hamburger算法从预处理完整融合特征图中提取全局上下文特征V;
V=Hamburger(ReLu(GN(Conv(N*C,C)(P))))
其中,C表示Conv(4C,C)(·)表示输入向量维度为N*C和输出向量维度为C的1×1卷积,GN(·)表示组归一化处理,ReLu(·)表示RELU非线性激活处理,Hamburger(·)表示Hamburger算法处理,C为预先配置的常数,N*C为完整融合特征图的向量维度。
7.根据权利要求1所述的地表覆盖分类系统,其特征在于,Hamburger算法处理的模型如下:
其中,Z为Hamburger算法的输入,GN(·)表示组归一化处理,WlZ表示利用第一预设线性变换算法将输入Z为映射到特征空间的处理,表示矩阵分解处理,/>表示利用第二预设线性变换算法对矩阵分解处理结果进行再次映射处理,X表示待进行矩阵分解处理的矩阵,/>表示矩阵X分解后的低秩部分,E表示矩阵X分解后的噪声部分,矩阵D和矩阵C表示在进行矩阵分解过程中所创建的两个矩阵,在进行矩阵分解过程中所设定目标函数为的取值最小,/>是重构损失,/>和/>是矩阵D和矩阵C的正则化。
8.根据权利要求1所述的地表覆盖分类系统,其特征在于,所述金字塔Hamburger解码器基于所述全局上下文特征预测出所述地表图像的地表覆盖分类结果的过程包括:
将全局上下文特征V依次进行卷积处理、组归一化处理、RELU非线性激活处理以及再次卷积处理,得到地表覆盖分类结果F:
F=Conv(C,Cclass)(ReLu(GN(Conv(C,C)(V))))
其中,C为全局上下文特征的向量维度,Conv(C,Cclass)(·)表示输入向量维度为C和输出向量维度为Cclass的1×1卷积,Cclass为预先配置的类别数,Conv(C,C)(·)表示输入向量维度为C和输出向量维度为C的1×1卷积,GN(·)表示组归一化处理,ReLu(·)表示RELU非线性激活处理。
9.根据权利要求1至8中任一所述的地表覆盖分类系统,其特征在于,N取值为4。
10.一种地表覆盖分类方法,其特征在于,包括:
利用预设样本集中的样本对权利要求1至9中任一所述地表覆盖分类系统进行训练,得到地表覆盖分类模型;
利用地表覆盖分类模型对待处理地表图像进行地表覆盖分类处理,得到对应的地表覆盖分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891381.6A CN116935240A (zh) | 2023-07-20 | 2023-07-20 | 多尺度感知金字塔的地表覆盖分类系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891381.6A CN116935240A (zh) | 2023-07-20 | 2023-07-20 | 多尺度感知金字塔的地表覆盖分类系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935240A true CN116935240A (zh) | 2023-10-24 |
Family
ID=88383898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310891381.6A Pending CN116935240A (zh) | 2023-07-20 | 2023-07-20 | 多尺度感知金字塔的地表覆盖分类系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935240A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789042A (zh) * | 2024-02-28 | 2024-03-29 | 中国地质大学(武汉) | 一种道路信息解译方法、系统及存储介质 |
-
2023
- 2023-07-20 CN CN202310891381.6A patent/CN116935240A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789042A (zh) * | 2024-02-28 | 2024-03-29 | 中国地质大学(武汉) | 一种道路信息解译方法、系统及存储介质 |
CN117789042B (zh) * | 2024-02-28 | 2024-05-14 | 中国地质大学(武汉) | 一种道路信息解译方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qin et al. | Highly accurate dichotomous image segmentation | |
Chen et al. | Symmetrical dense-shortcut deep fully convolutional networks for semantic segmentation of very-high-resolution remote sensing images | |
Huang et al. | Deep point embedding for urban classification using ALS point clouds: A new perspective from local to global | |
Wang et al. | A unified multiscale learning framework for hyperspectral image classification | |
Hui et al. | Effective building extraction from high-resolution remote sensing images with multitask driven deep neural network | |
CN113887459B (zh) | 一种基于改进Unet++的露天矿区采场变化区域检测方法 | |
CN112668494A (zh) | 基于多尺度特征提取的小样本变化检测方法 | |
Han et al. | HANet: A hierarchical attention network for change detection with bitemporal very-high-resolution remote sensing images | |
Abdollahi et al. | Integrating semantic edges and segmentation information for building extraction from aerial images using UNet | |
Zuo et al. | HF-FCN: Hierarchically fused fully convolutional network for robust building extraction | |
CN116524361A (zh) | 基于双孪生分支的遥感图像变化检测网络及检测方法 | |
Delibasoglu et al. | Improved U-Nets with inception blocks for building detection | |
CN113901900A (zh) | 一种同源或异源遥感图像用无监督变化检测方法及系统 | |
Jiang et al. | Intelligent image semantic segmentation: a review through deep learning techniques for remote sensing image analysis | |
Wang et al. | Urban building extraction from high-resolution remote sensing imagery based on multi-scale recurrent conditional generative adversarial network | |
Fu et al. | Nonlocal spatial–spectral neural network for hyperspectral image denoising | |
CN116935240A (zh) | 多尺度感知金字塔的地表覆盖分类系统和方法 | |
Chaudhary et al. | Satellite imagery analysis for road segmentation using U-Net architecture | |
CN115546569A (zh) | 一种基于注意力机制的数据分类优化方法及相关设备 | |
Zhao et al. | CNN, RNN, or ViT? An evaluation of different deep learning architectures for spatio-temporal representation of sentinel time series | |
Zou et al. | Dual geometric perception for cross-domain road segmentation | |
Jiang et al. | MANet: An Efficient Multi-Dimensional Attention-Aggregated Network for Remote Sensing Image Change Detection | |
CN115240066A (zh) | 基于深度学习的遥感影像矿区复绿监测方法及系统 | |
Wang et al. | An unsupervised heterogeneous change detection method based on image translation network and post-processing algorithm | |
Li | Segment any building |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |