CN114037922B - 一种基于层级上下文网络的航拍图像分割方法 - Google Patents
一种基于层级上下文网络的航拍图像分割方法 Download PDFInfo
- Publication number
- CN114037922B CN114037922B CN202111432260.2A CN202111432260A CN114037922B CN 114037922 B CN114037922 B CN 114037922B CN 202111432260 A CN202111432260 A CN 202111432260A CN 114037922 B CN114037922 B CN 114037922B
- Authority
- CN
- China
- Prior art keywords
- pixel
- network
- pixel point
- context information
- hierarchical context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000003709 image segmentation Methods 0.000 title claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 235000019580 granularity Nutrition 0.000 description 20
- 238000012360 testing method Methods 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012733 comparative method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于层级上下文网络的航拍图像分割方法,首先设计并构建像素点‑像素点子网络,接着设计并构建像素点‑物体子网络,随后根据构建的像素点‑像素点子网络和像素点‑物体子网络组成层级上下文网络,并获得层级上下文信息,然后利用获得的层级上下文信息完成对航拍图像的分割作业;本发明通过构建语义和细节两种粒度的层级上下文信息,从而更好地帮助判断目标物体的类别以及刻画其空间细节信息,且使用无监督聚类方法直接从图像中学习类别特征表示,并利用特征表示隐含的类别相关性,进一步帮助卷积特征构建层级上下文信息,最终提出的层级上下文网络在两个公开竞赛数据集以及高分二号卫星数据上取得了最佳的分割性能。
Description
技术领域
本发明涉及图像分割技术领域,具体涉及一种基于层级上下文网络的航拍图像分割方法。
背景技术
高分辨率航拍图像分割对许多应用来说是至关重要的,比如城市变化检测,救灾和精细化农业,这个任务的目的是判断图像中每一个像素点的所属类别;在高分辨率场景中,类似建筑物,街道,树和车的物体具有的异质性外观容易导致大类内差和小类间差;探索上下文信息已经被广泛认为是解决这个任务问题的有效方法,在过去的几年中,卷积神经网络是捕获上下文信息的一个最优选择;早期基于卷积神经网络的方法(例如FCN-8s)尝试通过一个编码-解码结构学习上下文信息,虽然这些方法能够成功地使用卷积核捕获上下文信息,但是它们的性能仍然受限于它们卷积核感受野的尺寸。
目前几乎所有的分割方法都尝试通过像素点-像素点关系来区分不同的物体;然而,不同类别物体区域中有概率存在相似外观的像素点,例如,航拍图像中灰色的车辆和灰色的楼顶从空中俯视非常相像,将进一步导致像素点-像素点关系容易推导出错误的分割结果,难以区分易混淆物体;因此,需要设计一种基于层级上下文网络的航拍图像分割方法。
发明内容
本发明的目的是克服现有技术的不足,为更好的解决目前的航拍图像分割方法主要关注基于图像中像素点及剩余像素点关系(特征相似度)的上下文信息,但是这些方法难以处理外观部分相似易混淆物体的问题,提供了一种基于层级上下文网络的航拍图像分割方法,其具有足够的判别能力来区分易混淆物体的优点。
为了达到上述目的,本发明所采用的技术方案是:
一种基于层级上下文网络的航拍图像分割方法,包括以下步骤,1、一种基于层级上下文网络的航拍图像分割方法,包括以下步骤,
步骤(A),设计并构建像素点-像素点子网络;
步骤(B),设计并构建像素点-物体子网络;
步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息;
步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业。
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(A),设计并构建像素点-像素点子网络,其中像素点-像素点子网络能够建模像素点-像素点关系,且像素点-像素点子网络构建的具体步骤如下,
步骤(A1),设定一个类别注意力图Ak,再将它乘上卷积特征F的每一个通道从而突出了卷积特征F中第k类物体的特征,接着使用卷积层、批量归一化层和非线性激活函数将所有类别相关的特征都集成到一起构成一个全局的类别级表征F′;
步骤(A2),设定特征F′,且像素点-像素点子网络使用自注意力机制提取像素点-像素点关系;接着将F′输入到两个函数η和θ中分别得到两个新的特征和其中η和θ代表非线性变换函数,且该函数是由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成,而这两个特征转置成和其中S=H×W;随后将M的转置和N使用矩阵乘法结合,并使用softmax函数获得像素点-像素点关系如公式(1)所示,
其中,相似度函数“sim(·,·)”使用点积相似度衡量M中第i个像素点和N中第j个像素点的相似度;
其中,λ和μ代表非线性变换函数,且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成。
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(B),设计并构建像素点-物体子网络,其中像素点-物体子网络引入了整体特征的概念,且整体特征是某一类物体包含的所有像素点的特征总和,而构建像素点-物体子网络的具体步骤如下,
步骤(B1),对航拍图像进行聚类学习,其具体步骤如下,
步骤(B11),提出聚类学习方法用于获得每一类物体的全局描述子,且由于原始的航拍图像包含多个类别的物体,聚类学习方法首先从原始大图上裁剪出小尺寸图像块,并构成聚类学习方法的训练集;
步骤(B12),将每个图像块输入到在ImageNet数据集上预训练好的ResNet18中得到对应的特征,再将子网络使用主成分分析对特征进行降维并得到一个D维的特征向量;
步骤(B13),使用基于几何距离的聚类方法k-means将主成分分析降维后的特征向量聚类成K个不同的簇,其中K-means是根据每个输入特征向量和聚类中心的欧氏距离将伪标签分配给对应的输入图像块;
步骤(B14),ResNet18的参数通过预测分配对每个输入图像块的伪标签进行更新迭代,且ResNet18使用随机梯度下降对预测标签和分配的伪标签之间的交叉熵损失进行优化,从而使得聚类学习方法是在伪标签分配和伪标签预测两个步骤交替进行的过程;
步骤(B2),在聚类学习完成之后,每个类别的全局描述子要调整以适应具体的场景,场景即每一个样本,首先设第k类物体的全局描述子记作全局描述子即聚类中心,且像素点-物体子网络是使用多模态融合模型将每一类物体的全局描述子和卷积特征融合从而得到类别注意力图,其具体步骤如下,
其中,和是权重矩阵,是一个权重向量,E是中间特征的通道个数,“σ(·)”和分别表示sigmoid函数和矩阵元素乘法操作,1是一个元素全为1的矩阵,用来将dk扩展成一个D×H×W张量;上标T表示矩阵的转置操作;
步骤(B22),求得注意力图,且注意力图的求得公式如公式(4)所示,
Ak=Softmax(Tk+b2) (4)
其中,F(i,j)是特征图F中位置为(i,j)的像素点对应的特征,ak(i,j)表示的是位置为(i,j)的像素点和第k类物体的相似度;
其中,sim(Fi,ck)是第i个像素点和第k类物体的相似度,且相似度函数“sim(·,·)”的是使用点积相似度sim(Fi,ck)=ρ(Fi)Tδ(ck),其中ρ和δ是两个非线性变换函数,且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
其中,φ和ψ是非线性变换函数,且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息,其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征,且获得层级上下文信息是通过将Gi和Hi转置成和并使用矩阵元素求和的方式进行特征集成获得的。
前述的一种基于层级上下文网络的航拍图像分割方法,步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业,其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果,且要捕获多尺度上下文信息,这样ResNet18最后三层的输出分别用来得到对应的分割结果,而这些分割结果以加权求和的方式融合在一起,最终完成分割作业。
本发明的有益效果是:
(1)本发明通过构建语义和细节两种粒度的层级上下文信息,从而更好地帮助判断目标物体的类别以及刻画其空间细节信息;
(2)本发明使用了无监督聚类方法直接从图像中学习类别特征表示,并利用特征表示隐含的类别相关性,进一步的帮助了卷积特征构建层级上下文信息;
(3)本发明提出的层级上下文网络在两个公开竞赛数据集以及高分二号卫星数据上取得了最佳的分割性能。
附图说明
图1是本发明的一种基于层级上下文网络的航拍图像分割方法的层级上下文网络的整体流程图;
图2是本发明的像素点-像素点子网络流程图;
图3是本发明的像素点-物体子网络流程图;
图4是本发明的卷积特征经过类别注意力图增强后得到的类别特征示意图;
图5是本发明的ISPRS Potsdam数据集示意图;
图6是本发明的ISPRS Vaihingen数据集示意图;
图7是本发明的GID数据集图像地理位置分布情况和高分二号卫星采集图像例子和对应的真实地表示意图;
图8是本发明的Potsdam数据集上测试图片的深度学习模型分割结果对比示意图;
图9是本发明的Vaihingen数据集上测试图片的深度学习模型分割结果对比示意图;
图10是本发明的GID数据集上一张测试图片深度方法的分割结果对比示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1-10所示,本发明的一种基于层级上下文网络的航拍图像分割方法,包括以下步骤,
步骤(A),设计并构建像素点-像素点子网络,其中像素点-像素点子网络能够建模像素点-像素点关系,且像素点-像素点子网络构建的具体步骤如下,
步骤(A1),设定一个类别注意力图Ak,再将它乘上卷积特征F的每一个通道从而突出了卷积特征F中第k类物体的特征,接着使用卷积层、批量归一化层和非线性激活函数将所有类别相关的特征都集成到一起构成一个全局的类别级表征F′;
其中,如图2所示,通过将类别级信息引入到像素点特征中,F′一定程度上能够消除视觉相似性带来的副作用。
步骤(A2),设定特征F′,且像素点-像素点子网络使用自注意力机制提取像素点-像素点关系;接着将F′输入到两个函数η和θ中分别得到两个新的特征和其中η和θ代表非线性变换函数,且该函数是由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成,而这两个特征转置成和其中S=H×W;随后将M的转置和N使用矩阵乘法结合,并使用softmax函数获得像素点-像素点关系如公式(1)所示,
其中,相似度函数“sim(·,·)”使用点积相似度衡量M中第i个像素点和N中第j个像素点的相似度;
其中,λ和μ代表非线性变换函数,且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成。
步骤(B),设计并构建像素点-物体子网络,其中像素点-物体子网络引入了整体特征的概念,且整体特征是某一类物体包含的所有像素点的特征总和,而构建像素点-物体子网络的具体步骤如下,
其中,如图3所示目标像素点的标签是由该像素点和每一类物体的相似度决定;因此,分类的精度很大程度依赖于每一类物体特征的表征能力,而基于像素点-像素点关系的模型尝试使用单个像素点的特征来表征一种类别的物体,但由于场景中同一类物体的像素点通常拥有不同的外观,这些基于像素点-像素点关系的模型很难为目标像素点提供具有判别性的每一类物体特征,为了能够得到每一类物体更具代表性的特征,设计了一个像素点-物体子网络。与像素级特征相比,整体特征能够从全局的角度更好地描述图像中某一类物体的分布情况。
步骤(B1),对航拍图像进行聚类学习,其具体步骤如下,
步骤(B11),提出聚类学习方法用于获得每一类物体的全局描述子,且由于原始的航拍图像包含多个类别的物体,聚类学习方法首先从原始大图上裁剪出小尺寸图像块,并构成聚类学习方法的训练集;
其中,小尺寸图像块例如32×32图像块。
步骤(B12),将每个图像块输入到在ImageNet数据集上预训练好的ResNet18中得到对应的特征,再将子网络使用主成分分析对特征进行降维并得到一个D维的特征向量;
其中,为了进一步的聚类。
步骤(B13),使用基于几何距离的聚类方法k-means将主成分分析降维后的特征向量聚类成K个不同的簇,其中K-means是根据每个输入特征向量和聚类中心的欧氏距离将伪标签分配给对应的输入图像块;
其中,到这一步为止,聚类学习方法完成了伪标签的分配过程。
步骤(B14),ResNet18的参数通过预测分配对每个输入图像块的伪标签进行更新迭代,且ResNet18使用随机梯度下降对预测标签和分配的伪标签之间的交叉熵损失进行优化,从而使得聚类学习方法是在伪标签分配和伪标签预测两个步骤交替进行的过程;
步骤(B2),在聚类学习完成之后,每个类别的全局描述子要调整以适应具体的场景,场景即每一个样本,首先设第k类物体的全局描述子记作全局描述子即聚类中心,且像素点-物体子网络是使用多模态融合模型将每一类物体的全局描述子和卷积特征融合从而得到类别注意力图,其具体步骤如下,
其中,和是权重矩阵,是一个权重向量,E是中间特征的通道个数,“σ(·)”和分别表示sigmoid函数和矩阵元素乘法操作,1是一个元素全为1的矩阵,用来将dk扩展成一个D×H×W张量;上标T表示矩阵的转置操作;
步骤(B22),求得注意力图,且注意力图的求得公式如公式(4)所示,
Ak=Softmax(Tk+b2) (4)
其中,F(i,j)是特征图F中位置为(i,j)的像素点对应的特征,ak(i,j)表示的是位置为(i,j)的像素点和第k类物体的相似度;
其中,sim(Fi,ck)是第i个像素点和第k类物体的相似度,且相似度函数“sim(·,·)”的是使用点积相似度sim(Fi,ck)=ρ(Fi)Tδ(ck),其中ρ和δ是两个非线性变换函数,且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;这一步的目的是为了捕获每个像素点的语义粒度上下文信息。
其中,φ和ψ是非线性变换函数,且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;该过程是基于自注意力机制得到的。
步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息,其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征,且获得层级上下文信息是通过将Gi和Hi转置成和并使用矩阵元素求和的方式进行特征集成获得的。
其中,如图1所示,首先通过使用像素点-像素点关系能提取细节粒度的上下文信息,且为了增强像素点之间的区分度,在建模像素点-像素点关系之前,通过将卷积特征乘上类别注意力图来增强卷积特征;同时基于卷积特征中每个像素点和每一类物体的整体表征的关系捕获对应像素点的语义粒度上下文信息,且每一类物体的整体特征是通过该类物体区域内所有像素点特征求和得到的;这两种上下文信息是通过集成得到层级上下文信息。
步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业,其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果,且要捕获多尺度上下文信息,这样ResNet18最后三层的输出分别用来得到对应的分割结果,而这些分割结果以加权求和的方式融合在一起,最终完成分割作业;
其中,这个层级上下文能够提供精确的类别信息和物体清晰的空间细节,最终的分割结果图能够通过一个卷积层生成,具体的参数设置如表1所示。
表1子网络的参数设置(V=64)
为了更好的描述本发明的使用效果,下面是本发明的一个具体实施例。
(1)本实施例使用的数据集:
本发明在国际摄影测量与遥感学会(International Society forPhotogrammetry and Remote Sensing,ISPRS)发布的Potsdam数据集和Vaihingen数据集进行了大量的实施例来验证本发明提出的方法的有效性。这两个数据集都覆盖了城市场景;其中,Potsdam展示了一个大型街区、狭窄的街道和密集的聚落结构的历史城市,而Vaihingen则是一个有许多独立建筑和小型多层建筑的小村庄。每个数据集都被手工地划分为六种最常见的地表覆盖物类别,分别是不透水表面(Impervious Surfaces),建筑物(Building),低植被(Low Vegetation),树木(Tree),汽车(Car)和背景(Background)。
ISPRS Potsdam是在德国Potsdam地区采集得到,总共划分了38个图像块(如图5(a)所示);图5(b)和(c)展示了其中序号为2_14的图像及其对应的地标覆盖物真实分布图。Potsdam数据集是由38张6000×6000的高分辨率多光谱图像构成,其空间分辨率为5cm。每张图像由四个通道,分别为近红外(near-infrared),红(red),绿(green)和蓝(blue)。在本发明的实施例中,选择near-infrared,red和green构成的IRRG三通道图像作为模型输入,图像中出现的地表覆盖物类别就是上述的六类。根据ISPRS官网的要求,本发明使用24张图像作为训练,剩下的14张图像作为测试,具体的划分情况如表2所示。
表2ISPRS Potsdam训练和测试集划分
ISPRS Vaihingen是在德国的Vaihingen地区采集,并且分成了33块图像块,如图6所示;每张图像的平均尺寸是2494×2064,空间分辨率为9cm。每个图像由三个通道(near-infrared,red和green)构成。在本发明的实施例中,我们采用IRRG作为输入图像;不同于Potsdam数据集,Vaihingen数据集只有对应的DSM能在公开网站上获取。该数据集出现的物体类别和Potsdam一样。值得注意的是,Vaihingen数据集中背景这一类物体不做考虑。同样,按照ISPRS官网的要求,本发明使用16张作为训练图像,剩下的17张作为测试,具体的划分情况如表3所示。
表3ISPRS Vaihingen训练和测试集划分
由于Potsdam和Vaihingen分别都是在一个城区拍摄得到的,每个数据集对应的训练集和测试集的地表覆盖物分布情况差异性不大。为了能好地验证本发明提出方法的泛化性能,本发明选择了Gaofen Image Dataset(GID)进行更进一步的实施例对比;GID数据集包含了150张高质量的高分二号卫星图像,这个数据集覆盖的地理区域超过50000km2(如图7所示);数据集中120张图像用来训练,剩下的30张图像用于测试。GID中的多光谱图像包含蓝色,绿色,红色和近红外四个波段,并且空间维度为6800×7200。数据集中主要包含了五个类别的物体:建筑物(built-up),农田(farmland),森林(forest),草地(meadow)和水域(water)。
(2)本实施例的实施过程:
本发明使用近红外,红色和绿色通道构成三个数据集的输入图像;为了充分利用计算资源,训练模型的时候本发明使用一个256×256的滑动窗口从原始图像上裁剪出输入图像。在测试阶段,使用同样的方式从测试图像上裁剪出输入图像,并且依次处理它们;本发明使用整体准确率(Overall Accuracy,OA),F1分数和均值交并比(Mean of Class-wiseIntersection over Union,mean IoU)三种指标;OA代表了准确分类的样本占总样本的比率,F1分数是通过计算精确率和召回率的调和平均数得到,IoU是预测分割图和真实图之间的重叠区域。
针对聚类学习方法,本发明使用随机梯度下降进行优化;具体来说,基础学习率,动量和权重衰减设置为0.01,0.9和0.00001,且聚类学习迭代周期为100;此外,聚类学习输入图像块的大小设置为32×32,度量距离为欧氏距离。针对本发明提出的层级上下文网络,记作HCNet(Hierarchical Context Network),采用“Poly”学习率调整策略,其中初始的学习率每次迭代之后都会乘上基础的学习率设置为0.01,动量和权重衰减分别设置为0.9和0.0001;另外,本发明将HCNet的训练周期设置为200个周期,损失函数设置为交叉熵。整个分割网络是由PyTorch工具在Ubuntu操作系统上实现,并在一块NVIDIATIAN X显卡上运行。
(3)本实施例的ISPRS数据集实施结果:
为了证明HCNet的有效性,本发明将其和几个基于空间上下文信息最先进的深度学习方法进行了对比;对比方法包括FCN-8s,UNet,SegNet,PSPNet,DeepLabv3+,EncNet,S-RA-FCN,DANet和CGFDN。对于这些方法,本发明使用原作者提供的参数设置,表4给出了Potsdam数据上的数值指标;从表中可以看出,相比较于传统的基于CNN的模型,PSPNet和DeepLabv3+能够取得一个相对比较高的性能,验证了多尺度上下文集成策略的有效性。但是,它们的性能比大部分基于像素点-像素点关系的模型差,这主要是因为后者能够捕获任意距离的像素点之间的关系。总的来说,本发明提出的HCNet能在OA,F1分数和IoU三个指标上取得比其他对比方法更高的结果。具体来说,与次好的模型CGFDN相比,HCNet能够在OA,Mean F1分数和Mean IoU上提升0.5%,0.4%和0.8%。引入语义粒度上下文信息之后,HCNet提升了类内物体的语义一致性。同时,HCNet为了更好地保留空间细节信息,提出捕获细节粒度上下文信息;其中的一些分割结果如图8所示。所有的对比方法无法精确地分类左下角的车,而本发明提出的方法能够获得相对精确的预测结果,推测可能是因为在这个场景中,车的外观和建筑物非常相似。这才进一步地导致对比方法的错分现象;得益于层级上下文,HCNet能够将车和建筑物的区分度进一步提升。另外,HCNet能够很好地保留树的轮廓,而对比方法没有做到。
表4不同的深度学习方法在Potsdam测试集的分割性能对比
从表5可以得出类似的结论;本发明提出的HCNet能够在OA,Mean F1分数和MeanIoU上取得对比方法中最好的性能。更具体地来说,HCNet能够获得91.0%的OA,88.9%的Mean F1分数和80.7%的Mean IoU。除此之外,图9给出了Vaihingen数据测试集上测试样本的示例。作为对比,本发明提出的HCNet获得了小目标上更精确的分割结果,并且小目标的边缘更加精细化。
表5不同的深度学习方法在Vaihingen测试集的分割性能对比
(4)本实施例的GID实施结果:
为了进一步验证HCNet的泛化能力,本发明还将HCNet应用到了采样范围广、时间跨度大的GID数据集上。对比方法包括FCN-8s,UNet,SegNet,PSPNet,DeepLabv3+,EncNet,S-RA-FCN,DANet,CGFDN和PT-GID;表6给出了GID数据集的定量结果。基础模型FCN-8s在GID数据上能够取得95.6%的OA;HCNet将性能提升至98.2%。在对比方法中,DANet学习了空间和通道维度的语义内部相关性,而CGFDN使用共生关系来增强像素点-像素点关系,能够取得更好的结果。不同于对比方法,本发明引入了像素点-物体和像素点-像素点子网络来分别捕获细节粒度和语义粒度的上下文信息;通过这两种子网络,HCNet获得了最高的分割精度。可视化对比示例如图10所示;从图中可以看出,农田是最难分类的类别物体。对比方法很难区分水域和农田,这主要是因为这两类物体的视觉外观非常相似。与其他方法对比,本发明提出的HCNet成功地区分了这两类物体。这归功于HCNet能够探索层级上下文信息(包括物体的语义和细节信息)。
表6不同的深度学习方法在GID数据集的分割性能对比
综上所述,本发明的一种基于层级上下文网络的航拍图像分割方法,首先设计了两个子网络,即像素点-像素点子网络和像素点-类别子网络,再将这两个子网络直接连接在ResNet18上,并构成了层级上下文网络;接着层级上下文网络使用无监督学习技术直接从原始图像中学习到类别之间的相关性,并以此为基础输入到两个子网络中构建不同粒度的上下文信息,且像素点-像素点子网络的目的是捕获细节粒度的上下文信息,即物体的空间细节;同时像素点-类别子网络旨在提出语义粒度的上下文信息,且该信息为分类物体提供语义信息,而细节粒度和语义粒度的上下文信息融合在一起,形成最终用于分类的上下文信息;最终的上下文信息有足够的判别能力来区分易混淆物体,且大量的消融实施例和深度模型以及基准模型的对比实施例验证了本发明提出的层级上下文网络的有效性。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (3)
1.一种基于层级上下文网络的航拍图像分割方法,其特征在于:包括以下步骤,
步骤(A),设计并构建像素点-像素点子网络,其中像素点-像素点子网络能够建模像素点-像素点关系,且像素点-像素点子网络构建的具体步骤如下,
步骤(A1),设定一个类别注意力图Ak,再将它乘上卷积特征F的每一个通道从而突出了卷积特征F中第k类物体的特征,接着使用卷积层、批量归一化层和非线性激活函数将所有类别相关的特征都集成到一起构成一个全局的类别级表征F′;
步骤(A2),设定特征F′,且像素点-像素点子网络使用自注意力机制提取像素点-像素点关系;接着将F′输入到两个函数η和θ中分别得到两个新的特征和其中η和θ代表非线性变换函数,且该函数是由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成,而这两个特征转置成和其中S=H×W;随后将M的转置和N使用矩阵乘法结合,并使用softmax函数获得像素点-像素点关系如公式(1)所示,
其中,相似度函数“sim(·,·)”使用点积相似度衡量M中第i个像素点和N中第j个像素点的相似度;
其中,λ和μ代表非线性变换函数,且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成;
步骤(B),设计并构建像素点-物体子网络,其中像素点-物体子网络引入了整体特征的概念,且整体特征是某一类物体包含的所有像素点的特征总和,而构建像素点-物体子网络的具体步骤如下,
步骤(B1),对航拍图像进行聚类学习,其具体步骤如下,
步骤(B11),提出聚类学习方法用于获得每一类物体的全局描述子,且由于原始的航拍图像包含多个类别的物体,聚类学习方法首先从原始大图上裁剪出小尺寸图像块,并构成聚类学习方法的训练集;
步骤(B12),将每个图像块输入到在ImageNet数据集上预训练好的ResNet18中得到对应的特征,再将子网络使用主成分分析对特征进行降维并得到一个D维的特征向量;
步骤(B13),使用基于几何距离的聚类方法k-means将主成分分析降维后的特征向量聚类成K个不同的簇,其中K-means是根据每个输入特征向量和聚类中心的欧氏距离将伪标签分配给对应的输入图像块;
步骤(B14),ResNet18的参数通过预测分配对每个输入图像块的伪标签进行更新迭代,且ResNet18使用随机梯度下降对预测标签和分配的伪标签之间的交叉熵损失进行优化,从而使得聚类学习方法是在伪标签分配和伪标签预测两个步骤交替进行的过程;
步骤(B2),在聚类学习完成之后,每个类别的全局描述子要调整以适应具体的场景,场景即每一个样本,首先设第k类物体的全局描述子记作全局描述子即聚类中心,且像素点-物体子网络是使用多模态融合模型将每一类物体的全局描述子和卷积特征融合从而得到类别注意力图,其具体步骤如下,
其中,和是权重矩阵;是一个权重向量;E是中间特征的通道个数;“σ(·)”和分别表示sigmoid函数和矩阵元素乘法操作;1是一个元素全为1的矩阵,用来将dk扩展成一个D×H×W张量;上标T表示矩阵的转置操作;
步骤(B22),求得注意力图,且注意力图的求得公式如公式(4)所示,
Ak=Softmax(Tk+b2) (4)
其中,F(i,j)是特征图F中位置为(i,j)的像素点对应的特征,ak(i,j)表示的是位置为(i,j)的像素点和第k类物体的相似度;
其中,sim(Fi,ck)是第i个像素点和第k类物体的相似度,且相似度函数“sim(·,·)”的是使用点积相似度sim(Fi,ck)=ρ(Fi)Tδ(ck),其中ρ和δ是两个非线性变换函数,且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
其中,φ和ψ是非线性变换函数,且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的;
步骤(C),根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络,并获得层级上下文信息;
步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业。
3.根据权利要求2所述的一种基于层级上下文网络的航拍图像分割方法,其特征在于:步骤(D),利用获得的层级上下文信息完成对航拍图像的分割作业,其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果,且要捕获多尺度上下文信息,这样ResNet18最后三层的输出分别用来得到对应的分割结果,而这些分割结果以加权求和的方式融合在一起,最终完成分割作业。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111432260.2A CN114037922B (zh) | 2021-11-29 | 2021-11-29 | 一种基于层级上下文网络的航拍图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111432260.2A CN114037922B (zh) | 2021-11-29 | 2021-11-29 | 一种基于层级上下文网络的航拍图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114037922A CN114037922A (zh) | 2022-02-11 |
CN114037922B true CN114037922B (zh) | 2023-04-07 |
Family
ID=80139125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111432260.2A Active CN114037922B (zh) | 2021-11-29 | 2021-11-29 | 一种基于层级上下文网络的航拍图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037922B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778294B (zh) * | 2023-04-14 | 2024-03-26 | 南京审计大学 | 一种联合图像内和图像间上下文的遥感变化检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361373A (zh) * | 2021-06-02 | 2021-09-07 | 武汉理工大学 | 一种农业场景下的航拍图像实时语义分割方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
CN113298818B (zh) * | 2021-07-09 | 2023-08-18 | 大连大学 | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 |
-
2021
- 2021-11-29 CN CN202111432260.2A patent/CN114037922B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361373A (zh) * | 2021-06-02 | 2021-09-07 | 武汉理工大学 | 一种农业场景下的航拍图像实时语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114037922A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016315938B2 (en) | Systems and methods for analyzing remote sensing imagery | |
CN106503739A (zh) | 联合光谱和纹理特征的高光谱遥感影像svm分类方法及系统 | |
CN108596108B (zh) | 基于三元组语义关系学习的航拍遥感图像变化检测方法 | |
Dibs et al. | Multi-fusion algorithms for detecting land surface pattern changes using multi-high spatial resolution images and remote sensing analysis | |
CN106844739B (zh) | 一种基于神经网络协同训练的遥感图像变化信息检索方法 | |
CN110399819A (zh) | 一种基于深度学习的遥感影像居民区自动提取方法 | |
CN111507296A (zh) | 基于无人机遥感与深度学习的违章建筑智能化提取方法 | |
CN112560624B (zh) | 基于模型深度集成的高分遥感影像语义分割方法 | |
CN113705580A (zh) | 基于深度迁移学习的高光谱图像分类方法 | |
CN113673556B (zh) | 一种基于多尺度密集卷积网络的高光谱图像分类方法 | |
Chen et al. | Object-based multi-modal convolution neural networks for building extraction using panchromatic and multispectral imagery | |
Zang et al. | Traffic lane detection using fully convolutional neural network | |
CN112115795B (zh) | 一种基于Triple GAN的高光谱图像分类方法 | |
CN115170961A (zh) | 一种基于深度跨域少样本学习的高光谱图像分类方法及系统 | |
CN107203779A (zh) | 基于空谱信息保持的高光谱降维方法 | |
CN116343058A (zh) | 基于全局协同融合的多光谱和全色卫星影像地表分类方法 | |
CN114037922B (zh) | 一种基于层级上下文网络的航拍图像分割方法 | |
Sathyanarayanan et al. | A multiclass deep learning approach for LULC classification of multispectral satellite images | |
CN116363526A (zh) | MROCNet模型构建与多源遥感影像变化检测方法及系统 | |
Al-Ghrairi et al. | Classification of satellite images based on color features using remote sensing | |
Guo et al. | A shape and size free-CNN for urban functional zone mapping with high-resolution satellite images and POI data | |
CN106971402B (zh) | 一种基于光学辅助的sar图像变化检测方法 | |
CN111368776A (zh) | 一种基于深度集成学习的高分辨率遥感图像分类方法 | |
Rhinane et al. | Palm trees crown detection and delineation from very high spatial resolution images using deep neural network (U-Net) | |
Wang et al. | Information extraction of the vehicle from high-resolution remote sensing image based on convolution neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |