CN114037922B

CN114037922B - 一种基于层级上下文网络的航拍图像分割方法

Info

Publication number: CN114037922B
Application number: CN202111432260.2A
Authority: CN
Inventors: 周峰; 杭仁龙; 刘青山
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-04-07
Anticipated expiration: 2041-11-29
Also published as: CN114037922A

Abstract

本发明公开了一种基于层级上下文网络的航拍图像分割方法，首先设计并构建像素点‑像素点子网络，接着设计并构建像素点‑物体子网络，随后根据构建的像素点‑像素点子网络和像素点‑物体子网络组成层级上下文网络，并获得层级上下文信息，然后利用获得的层级上下文信息完成对航拍图像的分割作业；本发明通过构建语义和细节两种粒度的层级上下文信息，从而更好地帮助判断目标物体的类别以及刻画其空间细节信息，且使用无监督聚类方法直接从图像中学习类别特征表示，并利用特征表示隐含的类别相关性，进一步帮助卷积特征构建层级上下文信息，最终提出的层级上下文网络在两个公开竞赛数据集以及高分二号卫星数据上取得了最佳的分割性能。

Description

一种基于层级上下文网络的航拍图像分割方法

技术领域

本发明涉及图像分割技术领域，具体涉及一种基于层级上下文网络的航拍图像分割方法。

背景技术

高分辨率航拍图像分割对许多应用来说是至关重要的，比如城市变化检测，救灾和精细化农业，这个任务的目的是判断图像中每一个像素点的所属类别；在高分辨率场景中，类似建筑物，街道，树和车的物体具有的异质性外观容易导致大类内差和小类间差；探索上下文信息已经被广泛认为是解决这个任务问题的有效方法，在过去的几年中，卷积神经网络是捕获上下文信息的一个最优选择；早期基于卷积神经网络的方法(例如FCN-8s)尝试通过一个编码-解码结构学习上下文信息，虽然这些方法能够成功地使用卷积核捕获上下文信息，但是它们的性能仍然受限于它们卷积核感受野的尺寸。

目前几乎所有的分割方法都尝试通过像素点-像素点关系来区分不同的物体；然而，不同类别物体区域中有概率存在相似外观的像素点，例如，航拍图像中灰色的车辆和灰色的楼顶从空中俯视非常相像，将进一步导致像素点-像素点关系容易推导出错误的分割结果，难以区分易混淆物体；因此，需要设计一种基于层级上下文网络的航拍图像分割方法。

发明内容

本发明的目的是克服现有技术的不足，为更好的解决目前的航拍图像分割方法主要关注基于图像中像素点及剩余像素点关系(特征相似度)的上下文信息，但是这些方法难以处理外观部分相似易混淆物体的问题，提供了一种基于层级上下文网络的航拍图像分割方法，其具有足够的判别能力来区分易混淆物体的优点。

为了达到上述目的，本发明所采用的技术方案是：

一种基于层级上下文网络的航拍图像分割方法，包括以下步骤，1、一种基于层级上下文网络的航拍图像分割方法，包括以下步骤，

步骤(A)，设计并构建像素点-像素点子网络；

步骤(B)，设计并构建像素点-物体子网络；

步骤(C)，根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络，并获得层级上下文信息；

步骤(D)，利用获得的层级上下文信息完成对航拍图像的分割作业。

前述的一种基于层级上下文网络的航拍图像分割方法，步骤(A)，设计并构建像素点-像素点子网络，其中像素点-像素点子网络能够建模像素点-像素点关系，且像素点-像素点子网络构建的具体步骤如下，

步骤(A1)，设定一个类别注意力图A_k，再将它乘上卷积特征F的每一个通道从而突出了卷积特征F中第k类物体的特征，接着使用卷积层、批量归一化层和非线性激活函数将所有类别相关的特征都集成到一起构成一个全局的类别级表征F′；

步骤(A2)，设定特征F′，且像素点-像素点子网络使用自注意力机制提取像素点-像素点关系；接着将F′输入到两个函数η和θ中分别得到两个新的特征

和

其中η和θ代表非线性变换函数，且该函数是由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成，而这两个特征转置成

和

其中S＝H×W；随后将M的转置和N使用矩阵乘法结合，并使用softmax函数获得像素点-像素点关系

如公式(1)所示，

其中，相似度函数“sim(·,·)”使用点积相似度衡量M中第i个像素点和N中第j个像素点的相似度；

步骤(A3)，将特征F′输入到另一个函数λ得到一个新的特征

再使用矩阵乘法将L和W′结合得到每一个像素点细节粒度的上下文信息

如公式(2)所示，

其中，λ和μ代表非线性变换函数，且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成。

前述的一种基于层级上下文网络的航拍图像分割方法，步骤(B)，设计并构建像素点-物体子网络，其中像素点-物体子网络引入了整体特征的概念，且整体特征是某一类物体包含的所有像素点的特征总和，而构建像素点-物体子网络的具体步骤如下，

步骤(B1)，对航拍图像进行聚类学习，其具体步骤如下，

步骤(B11)，提出聚类学习方法用于获得每一类物体的全局描述子，且由于原始的航拍图像包含多个类别的物体，聚类学习方法首先从原始大图上裁剪出小尺寸图像块，并构成聚类学习方法的训练集；

步骤(B12)，将每个图像块输入到在ImageNet数据集上预训练好的ResNet18中得到对应的特征，再将子网络使用主成分分析对特征进行降维并得到一个D维的特征向量；

步骤(B13)，使用基于几何距离的聚类方法k-means将主成分分析降维后的特征向量聚类成K个不同的簇，其中K-means是根据每个输入特征向量和聚类中心的欧氏距离将伪标签分配给对应的输入图像块；

步骤(B14)，ResNet18的参数通过预测分配对每个输入图像块的伪标签进行更新迭代，且ResNet18使用随机梯度下降对预测标签和分配的伪标签之间的交叉熵损失进行优化，从而使得聚类学习方法是在伪标签分配和伪标签预测两个步骤交替进行的过程；

步骤(B2)，在聚类学习完成之后，每个类别的全局描述子要调整以适应具体的场景，场景即每一个样本，首先设第k类物体的全局描述子记作

全局描述子即聚类中心，且像素点-物体子网络是使用多模态融合模型将每一类物体的全局描述子和卷积特征融合从而得到类别注意力图，其具体步骤如下，

步骤(B21)，设定一个卷积特征

该子网络首先将卷积特征和第k个类别物体的全局描述子投影到一个有B个通道的隐特征

如公式(3)所示，

其中，

和

是权重矩阵，

是一个权重向量，E是中间特征的通道个数，“σ(·)”和

分别表示sigmoid函数和矩阵元素乘法操作，1是一个元素全为1的矩阵，用来将d_k扩展成一个D×H×W张量；上标T表示矩阵的转置操作；

步骤(B22)，求得注意力图，且注意力图的求得公式如公式(4)所示，

A_k＝Softmax(T_k+b₂) (4)

其中，

和

代表的是可学习参数，A_k表示每个像素点和第k类物体的相似度；

步骤(B23)，第k类物体的整体特征

是通过使用像素点和该类物体的相似度并进一步集成所有像素点的特征得到，如公式(5)所示，

其中，F_(i,j)是特征图F中位置为(i,j)的像素点对应的特征，a_k(i,j)表示的是位置为(i,j)的像素点和第k类物体的相似度；

步骤(B24)，

被转置成

其中S＝H×W是像素点的个数，由于要捕获每个像素点的语义粒度上下文信息，从而计算每个像素点和K类物体的关系

如公式(6)所示，

其中，sim(F_i,c_k)是第i个像素点和第k类物体的相似度，且相似度函数“sim(·,·)”的是使用点积相似度sim(F_i,c_k)＝ρ(F_i)^Tδ(c_k)，其中ρ和δ是两个非线性变换函数，且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的；

步骤(B25)，每个像素点的语义粒度上下文信息

能根据它的像素点-物体关系集成K个类别的整体特征，如公式(7)所示，

其中，φ和ψ是非线性变换函数，且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的；

前述的一种基于层级上下文网络的航拍图像分割方法，步骤(C)，根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络，并获得层级上下文信息，其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征，且获得层级上下文信息是通过将G_i和H_i转置成

和

并使用矩阵元素求和的方式进行特征集成获得的。

前述的一种基于层级上下文网络的航拍图像分割方法，步骤(D)，利用获得的层级上下文信息完成对航拍图像的分割作业，其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果，且要捕获多尺度上下文信息，这样ResNet18最后三层的输出分别用来得到对应的分割结果，而这些分割结果以加权求和的方式融合在一起，最终完成分割作业。

本发明的有益效果是：

(1)本发明通过构建语义和细节两种粒度的层级上下文信息，从而更好地帮助判断目标物体的类别以及刻画其空间细节信息；

(2)本发明使用了无监督聚类方法直接从图像中学习类别特征表示，并利用特征表示隐含的类别相关性，进一步的帮助了卷积特征构建层级上下文信息；

(3)本发明提出的层级上下文网络在两个公开竞赛数据集以及高分二号卫星数据上取得了最佳的分割性能。

附图说明

图1是本发明的一种基于层级上下文网络的航拍图像分割方法的层级上下文网络的整体流程图；

图2是本发明的像素点-像素点子网络流程图；

图3是本发明的像素点-物体子网络流程图；

图4是本发明的卷积特征经过类别注意力图增强后得到的类别特征示意图；

图5是本发明的ISPRS Potsdam数据集示意图；

图6是本发明的ISPRS Vaihingen数据集示意图；

图7是本发明的GID数据集图像地理位置分布情况和高分二号卫星采集图像例子和对应的真实地表示意图；

图8是本发明的Potsdam数据集上测试图片的深度学习模型分割结果对比示意图；

图9是本发明的Vaihingen数据集上测试图片的深度学习模型分割结果对比示意图；

图10是本发明的GID数据集上一张测试图片深度方法的分割结果对比示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1-10所示，本发明的一种基于层级上下文网络的航拍图像分割方法，包括以下步骤，

步骤(A)，设计并构建像素点-像素点子网络，其中像素点-像素点子网络能够建模像素点-像素点关系，且像素点-像素点子网络构建的具体步骤如下，

其中，如图2所示，通过将类别级信息引入到像素点特征中，F′一定程度上能够消除视觉相似性带来的副作用。

和

和

如公式(1)所示，

步骤(A3)，将特征F′输入到另一个函数λ得到一个新的特征

如公式(2)所示，

步骤(B)，设计并构建像素点-物体子网络，其中像素点-物体子网络引入了整体特征的概念，且整体特征是某一类物体包含的所有像素点的特征总和，而构建像素点-物体子网络的具体步骤如下，

其中，如图3所示目标像素点的标签是由该像素点和每一类物体的相似度决定；因此，分类的精度很大程度依赖于每一类物体特征的表征能力，而基于像素点-像素点关系的模型尝试使用单个像素点的特征来表征一种类别的物体，但由于场景中同一类物体的像素点通常拥有不同的外观，这些基于像素点-像素点关系的模型很难为目标像素点提供具有判别性的每一类物体特征，为了能够得到每一类物体更具代表性的特征，设计了一个像素点-物体子网络。与像素级特征相比，整体特征能够从全局的角度更好地描述图像中某一类物体的分布情况。

步骤(B1)，对航拍图像进行聚类学习，其具体步骤如下，

其中，小尺寸图像块例如32×32图像块。

其中，为了进一步的聚类。

其中，到这一步为止，聚类学习方法完成了伪标签的分配过程。

步骤(B21)，设定一个卷积特征

如公式(3)所示，

其中，

和

是权重矩阵，

是一个权重向量，E是中间特征的通道个数，“σ(·)”和

A_k＝Softmax(T_k+b₂) (4)

其中，

和

代表的是可学习参数，A_k表示每个像素点和第k类物体的相似度；卷积特征经过类别注意力图的增强后，得到的类别特征如图4所示；可以从图中观察到，类别特征可以精确地定位需要的指定类别的区域；

步骤(B23)，第k类物体的整体特征

步骤(B24)，

被转置成

如公式(6)所示，

其中，sim(F_i,c_k)是第i个像素点和第k类物体的相似度，且相似度函数“sim(·,·)”的是使用点积相似度sim(F_i,c_k)＝ρ(F_i)^Tδ(c_k)，其中ρ和δ是两个非线性变换函数，且该函数是由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的；这一步的目的是为了捕获每个像素点的语义粒度上下文信息。

步骤(B25)，每个像素点的语义粒度上下文信息

其中，φ和ψ是非线性变换函数，且由一个1×1卷积层、一个批量归一化层和ReLU激活函数构成的；该过程是基于自注意力机制得到的。

步骤(C)，根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络，并获得层级上下文信息，其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征，且获得层级上下文信息是通过将G_i和H_i转置成

和

并使用矩阵元素求和的方式进行特征集成获得的。

其中，如图1所示，首先通过使用像素点-像素点关系能提取细节粒度的上下文信息，且为了增强像素点之间的区分度，在建模像素点-像素点关系之前，通过将卷积特征乘上类别注意力图来增强卷积特征；同时基于卷积特征中每个像素点和每一类物体的整体表征的关系捕获对应像素点的语义粒度上下文信息，且每一类物体的整体特征是通过该类物体区域内所有像素点特征求和得到的；这两种上下文信息是通过集成得到层级上下文信息。

步骤(D)，利用获得的层级上下文信息完成对航拍图像的分割作业，其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果，且要捕获多尺度上下文信息，这样ResNet18最后三层的输出分别用来得到对应的分割结果，而这些分割结果以加权求和的方式融合在一起，最终完成分割作业；

其中，这个层级上下文能够提供精确的类别信息和物体清晰的空间细节，最终的分割结果图能够通过一个卷积层生成，具体的参数设置如表1所示。

表1子网络的参数设置(V＝64)

为了更好的描述本发明的使用效果，下面是本发明的一个具体实施例。

(1)本实施例使用的数据集：

本发明在国际摄影测量与遥感学会(International Society forPhotogrammetry and Remote Sensing,ISPRS)发布的Potsdam数据集和Vaihingen数据集进行了大量的实施例来验证本发明提出的方法的有效性。这两个数据集都覆盖了城市场景；其中，Potsdam展示了一个大型街区、狭窄的街道和密集的聚落结构的历史城市，而Vaihingen则是一个有许多独立建筑和小型多层建筑的小村庄。每个数据集都被手工地划分为六种最常见的地表覆盖物类别，分别是不透水表面(Impervious Surfaces)，建筑物(Building)，低植被(Low Vegetation)，树木(Tree)，汽车(Car)和背景(Background)。

ISPRS Potsdam是在德国Potsdam地区采集得到，总共划分了38个图像块(如图5(a)所示)；图5(b)和(c)展示了其中序号为2_14的图像及其对应的地标覆盖物真实分布图。Potsdam数据集是由38张6000×6000的高分辨率多光谱图像构成，其空间分辨率为5cm。每张图像由四个通道，分别为近红外(near-infrared)，红(red)，绿(green)和蓝(blue)。在本发明的实施例中，选择near-infrared，red和green构成的IRRG三通道图像作为模型输入，图像中出现的地表覆盖物类别就是上述的六类。根据ISPRS官网的要求，本发明使用24张图像作为训练，剩下的14张图像作为测试，具体的划分情况如表2所示。

表2ISPRS Potsdam训练和测试集划分

ISPRS Vaihingen是在德国的Vaihingen地区采集，并且分成了33块图像块，如图6所示；每张图像的平均尺寸是2494×2064，空间分辨率为9cm。每个图像由三个通道(near-infrared，red和green)构成。在本发明的实施例中，我们采用IRRG作为输入图像；不同于Potsdam数据集，Vaihingen数据集只有对应的DSM能在公开网站上获取。该数据集出现的物体类别和Potsdam一样。值得注意的是，Vaihingen数据集中背景这一类物体不做考虑。同样，按照ISPRS官网的要求，本发明使用16张作为训练图像，剩下的17张作为测试，具体的划分情况如表3所示。

表3ISPRS Vaihingen训练和测试集划分

由于Potsdam和Vaihingen分别都是在一个城区拍摄得到的，每个数据集对应的训练集和测试集的地表覆盖物分布情况差异性不大。为了能好地验证本发明提出方法的泛化性能，本发明选择了Gaofen Image Dataset(GID)进行更进一步的实施例对比；GID数据集包含了150张高质量的高分二号卫星图像，这个数据集覆盖的地理区域超过50000km²(如图7所示)；数据集中120张图像用来训练，剩下的30张图像用于测试。GID中的多光谱图像包含蓝色，绿色，红色和近红外四个波段，并且空间维度为6800×7200。数据集中主要包含了五个类别的物体：建筑物(built-up)，农田(farmland)，森林(forest)，草地(meadow)和水域(water)。

(2)本实施例的实施过程：

本发明使用近红外，红色和绿色通道构成三个数据集的输入图像；为了充分利用计算资源，训练模型的时候本发明使用一个256×256的滑动窗口从原始图像上裁剪出输入图像。在测试阶段，使用同样的方式从测试图像上裁剪出输入图像，并且依次处理它们；本发明使用整体准确率(Overall Accuracy，OA)，F1分数和均值交并比(Mean of Class-wiseIntersection over Union，mean IoU)三种指标；OA代表了准确分类的样本占总样本的比率，F1分数是通过计算精确率和召回率的调和平均数得到，IoU是预测分割图和真实图之间的重叠区域。

针对聚类学习方法，本发明使用随机梯度下降进行优化；具体来说，基础学习率，动量和权重衰减设置为0.01,0.9和0.00001，且聚类学习迭代周期为100；此外，聚类学习输入图像块的大小设置为32×32，度量距离为欧氏距离。针对本发明提出的层级上下文网络，记作HCNet(Hierarchical Context Network)，采用“Poly”学习率调整策略，其中初始的学习率每次迭代之后都会乘上

基础的学习率设置为0.01，动量和权重衰减分别设置为0.9和0.0001；另外，本发明将HCNet的训练周期设置为200个周期，损失函数设置为交叉熵。整个分割网络是由PyTorch工具在Ubuntu操作系统上实现，并在一块NVIDIATIAN X显卡上运行。

(3)本实施例的ISPRS数据集实施结果：

为了证明HCNet的有效性，本发明将其和几个基于空间上下文信息最先进的深度学习方法进行了对比；对比方法包括FCN-8s，UNet，SegNet，PSPNet，DeepLabv3+，EncNet，S-RA-FCN，DANet和CGFDN。对于这些方法，本发明使用原作者提供的参数设置，表4给出了Potsdam数据上的数值指标；从表中可以看出，相比较于传统的基于CNN的模型，PSPNet和DeepLabv3+能够取得一个相对比较高的性能，验证了多尺度上下文集成策略的有效性。但是，它们的性能比大部分基于像素点-像素点关系的模型差，这主要是因为后者能够捕获任意距离的像素点之间的关系。总的来说，本发明提出的HCNet能在OA，F1分数和IoU三个指标上取得比其他对比方法更高的结果。具体来说，与次好的模型CGFDN相比，HCNet能够在OA，Mean F1分数和Mean IoU上提升0.5％，0.4％和0.8％。引入语义粒度上下文信息之后，HCNet提升了类内物体的语义一致性。同时，HCNet为了更好地保留空间细节信息，提出捕获细节粒度上下文信息；其中的一些分割结果如图8所示。所有的对比方法无法精确地分类左下角的车，而本发明提出的方法能够获得相对精确的预测结果，推测可能是因为在这个场景中，车的外观和建筑物非常相似。这才进一步地导致对比方法的错分现象；得益于层级上下文，HCNet能够将车和建筑物的区分度进一步提升。另外，HCNet能够很好地保留树的轮廓，而对比方法没有做到。

表4不同的深度学习方法在Potsdam测试集的分割性能对比

从表5可以得出类似的结论；本发明提出的HCNet能够在OA，Mean F1分数和MeanIoU上取得对比方法中最好的性能。更具体地来说，HCNet能够获得91.0％的OA，88.9％的Mean F1分数和80.7％的Mean IoU。除此之外，图9给出了Vaihingen数据测试集上测试样本的示例。作为对比，本发明提出的HCNet获得了小目标上更精确的分割结果，并且小目标的边缘更加精细化。

表5不同的深度学习方法在Vaihingen测试集的分割性能对比

(4)本实施例的GID实施结果：

为了进一步验证HCNet的泛化能力，本发明还将HCNet应用到了采样范围广、时间跨度大的GID数据集上。对比方法包括FCN-8s，UNet，SegNet，PSPNet，DeepLabv3+，EncNet，S-RA-FCN，DANet，CGFDN和PT-GID；表6给出了GID数据集的定量结果。基础模型FCN-8s在GID数据上能够取得95.6％的OA；HCNet将性能提升至98.2％。在对比方法中，DANet学习了空间和通道维度的语义内部相关性，而CGFDN使用共生关系来增强像素点-像素点关系，能够取得更好的结果。不同于对比方法，本发明引入了像素点-物体和像素点-像素点子网络来分别捕获细节粒度和语义粒度的上下文信息；通过这两种子网络，HCNet获得了最高的分割精度。可视化对比示例如图10所示；从图中可以看出，农田是最难分类的类别物体。对比方法很难区分水域和农田，这主要是因为这两类物体的视觉外观非常相似。与其他方法对比，本发明提出的HCNet成功地区分了这两类物体。这归功于HCNet能够探索层级上下文信息(包括物体的语义和细节信息)。

表6不同的深度学习方法在GID数据集的分割性能对比

综上所述，本发明的一种基于层级上下文网络的航拍图像分割方法，首先设计了两个子网络，即像素点-像素点子网络和像素点-类别子网络，再将这两个子网络直接连接在ResNet18上，并构成了层级上下文网络；接着层级上下文网络使用无监督学习技术直接从原始图像中学习到类别之间的相关性，并以此为基础输入到两个子网络中构建不同粒度的上下文信息，且像素点-像素点子网络的目的是捕获细节粒度的上下文信息，即物体的空间细节；同时像素点-类别子网络旨在提出语义粒度的上下文信息，且该信息为分类物体提供语义信息，而细节粒度和语义粒度的上下文信息融合在一起，形成最终用于分类的上下文信息；最终的上下文信息有足够的判别能力来区分易混淆物体，且大量的消融实施例和深度模型以及基准模型的对比实施例验证了本发明提出的层级上下文网络的有效性。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于层级上下文网络的航拍图像分割方法，其特征在于：包括以下步骤，

和

和

如公式(1)所示，

步骤(A3)，将特征F′输入到另一个函数λ得到一个新的特征

如公式(2)所示，

其中，λ和μ代表非线性变换函数，且该函数由一层1×1卷积层、一层批量归一化层和ReLU激活函数构成；

步骤(B1)，对航拍图像进行聚类学习，其具体步骤如下，

步骤(B21)，设定一个卷积特征

如公式(3)所示，

其中，

和

是权重矩阵；

是一个权重向量；E是中间特征的通道个数；“σ(·)”和

分别表示sigmoid函数和矩阵元素乘法操作；1是一个元素全为1的矩阵，用来将d_k扩展成一个D×H×W张量；上标T表示矩阵的转置操作；

A_k＝Softmax(T_k+b₂) (4)

其中，

和

步骤(B23)，第k类物体的整体特征

步骤(B24)，

被转置成

如公式(6)所示，

步骤(B25)，每个像素点的语义粒度上下文信息

2.根据权利要求1所述的一种基于层级上下文网络的航拍图像分割方法，其特征在于：步骤(C)，根据构建的像素点-像素点子网络和像素点-物体子网络组成层级上下文网络，并获得层级上下文信息，其中层级上下文网络是采用五个卷积模块构成的ResNet18作为骨干网络提取卷积特征，且获得层级上下文信息是通过将G_i和H_i转置成

和

并使用矩阵元素求和的方式进行特征集成获得的。

3.根据权利要求2所述的一种基于层级上下文网络的航拍图像分割方法，其特征在于：步骤(D)，利用获得的层级上下文信息完成对航拍图像的分割作业，其是将层级上下文信息输入到1×1的卷积层得到最终的分割结果，且要捕获多尺度上下文信息，这样ResNet18最后三层的输出分别用来得到对应的分割结果，而这些分割结果以加权求和的方式融合在一起，最终完成分割作业。