CN111080645B

CN111080645B - 基于生成式对抗网络的遥感图像半监督语义分割方法

Info

Publication number: CN111080645B
Application number: CN201911098928.7A
Authority: CN
Inventors: 周勇; 王家齐; 赵佳琦; 夏士雄; 马丁; 姚睿; 刘兵; 杜文亮
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2023-08-15
Anticipated expiration: 2039-11-12
Also published as: CN111080645A

Abstract

本发明公开了一种基于生成式对抗网络的遥感图像半监督语义分割方法，通过搭建初始生成式对抗分割网络，构建训练数据集，根据训练数据集训练所述初始生成式对抗分割网络，得到优化生成式对抗分割网络，将待测图像输入所述优化生成式对抗分割网络进行语义分割，以提取不同尺度的特征，融合局部和全局特征，用生成对抗网络指导没有标签的数据进行语义分割，从而进行半监督语义分割，提高语义分割的精度。

Description

基于生成式对抗网络的遥感图像半监督语义分割方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于生成式对抗网络的遥感图像半监督语义分割方法。

背景技术

遥感是一种非接触、远距离的探测技术。一般来说，它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展，特别是近年来高分辨率遥感影像的出现，这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大，影像内容提供的信息也越来越丰富。

图像语义分割的目标是用相应的类标记图像中的每个像素。它是像素级的图像分类。因为我们要预测图像中的每个像素，所以这个任务通常被称为密集预测。值得注意的是，与之前的赋值不同，语义分割的预期输出不仅仅是标签和边界框参数。输出本身是一个高分辨率图像(通常与输入图像的大小相同)，其中每个像素被分类为一个特定的类。

目前，语义分割是计算机视觉的关键问题之一。在宏观意义上，语义分割是一项高层次的工作，它为场景理解铺平了道路。作为计算机视觉的核心问题，场景理解变得越来越重要。应用场景需要从图像中推断出相关的知识或语义(即从具体到抽象的过程)。这些应用包括自动驾驶仪、人机交互、计算摄影、图像搜索引擎、增强现实等。应用各种传统的计算机视觉和机器学习技术，解决了这些问题。尽管这些方法普遍存在，但深度学习的革命已经在相关领域发生了巨大的变化。因此，许多计算机视觉问题，包括语义分割，开始使用深度结构来解决，通常是卷积神经网络cnn，这比传统方法更准确和高效。

现有的基于遥感图像的语义分割仍存在以下问题：遥感数据集中各类图像在角度、颜色、大小等方面存在显著差异，类间也存在实质性的相似性。例如，遥感图像类别之间的边缘区分是不可见的，比如树木和建筑物的阴影会产生遮挡问题。遥感图像的数据标注较为困难，如何在小数据集的情况下，提高分割精度有很大发展空间。因而传统的遥感图像语义分割方案存在分割精度低的问题。

发明内容

针对以上问题，本发明提出一种基于生成式对抗网络的遥感图像半监督语义分割方法。

为实现本发明的目的，提供一种基于生成式对抗网络的遥感图像半监督语义分割方法，包括如下步骤：

S10，搭建初始生成式对抗分割网络；

S20，构建训练数据集，根据所述训练数据集训练所述初始生成式对抗分割网络，得到优化生成式对抗分割网络；

S30，将待测图像输入所述优化生成式对抗分割网络进行语义分割。

在一个实施例中，步骤S10包括：

S11，搭建生成器；

S12，引入多尺度信息以融合全局和局部特征；

S13，搭建鉴别器网络，以确定初始生成式对抗分割网络。

作为一个实施例，步骤S11包括：

采用复合残差网络通过提取不同尺寸的图片得到不同尺度的特征；通过金字塔模块使用具有不同采样率的多个并行的空洞卷积层，为每个采样率提取的特征在单独的分支中进一步处理，步长小的模块提取全局特征，步长大的模块提取局部特征，并相加融合以生成最终结果，根据最终结果确定生成器。

作为一个实施例，步骤S12包括：

S121，将多尺寸的遥感图像输入生成器；

S122，输入特征X经过残差模块的一个卷积层得到F(X)，在由残差模块的跳越结构得到F(X)+WX，由不同尺寸的遥感图像经过残差模块分别得到特征D1，特征D2，和特征D3；其中W是卷积操作；

S123，D1，D2，和D3分别通过一个金字塔模块融合全局和局部特征得到D1对应的F1，D2对应的F2，和D3对应的F3；

S124，对F1，F2，F3进行多尺度特征融合得到R5。

作为一个实施例，所述构建训练数据集包括：

将原始数据集的RGB图和标注图像进行裁剪，得到尺寸为512*512的RGB图和标注图，以确定所述训练数据集。

作为一个实施例，所述根据所述训练数据集训练所述初始生成式对抗分割网络包括：

S221，输入训练数据集裁剪后的RGB图与标签图，在训练过程中先用一部分RGB图和其对应的标签图做监督训练，然后采用剩下的RGB图不使用标签图进行训练；

S222，用S(.)表示生成器，RGB图经过生成器处理得到预测概率图S(X_n)；

S223，将标注图通过独热编码获得编码向量Y_n；

S224，采用Lce损失函数计算模型预测概率图与真实标注概率图的误差，由不同尺寸的RGB图经过分割网络得到不同的损失函数L_ce，将各个损失函数L_ce融合在一起得到损失函数L_multi；

S225，在使用有对应标注的RGB图像时，根据从标注图像得到的编码向量Y_n；使用L_adv训练生成器来欺骗鉴别器，通过最小化L_D的值进行训练；于L_D，如果样本来自于生成器，指示参数y_n取0，如果样本来自于标注图，指示参数y_n可以取1；如果像素点X_n ^(h，w)属于标注的类别的话，Y_n ^(h,w,c)的值取1，反之取0；通过反向传播来学习L_multi、L_adv，由鉴别器通过对抗训练得到置信图D(S(X_n))；其中，L_adv为对抗训练所用的损失函数，D(.)表示鉴别器；

S226，在使用没有标注的RGB遥感图像时，采用置信图D(S(X_n))和无标注数据产生的概率图得到L_semi，使用L_adv训练生成器欺骗鉴别器，通过最小化L_D的值进行训练，通过反向传播学习L_semi、L_adv；

S227，通过最小化整个生成对抗网络的损失函数L_seg训练整个分割网络；

S228，使用MIoU作为评价指标来判断训练过程中分割网络的性能，在MIoU取最高值时，根据分割网络当前取得的模型参数确定优化生成式对抗分割网络。

作为一个实施例，

L_multi＝L_ce ^z∈1+L_ce ^z∈0.75+L_ce ^z∈0.50，

式中，h表示输入图片的长度，w表示输入图片的宽度，c表示输入图片的高度，C表示输入图片的高度集合，S(X_n)表示生成器产生的预测概率图，L_ce ^z∈1表示图片为原始尺寸时通过生成器的交叉熵损失，L_ce ^z∈0.75表示图片尺寸为原始图片大小的0.75倍时通过生成器的交叉熵损失，L_ce ^z∈0.50表示表示图片尺寸为原始图片大小的0.50倍时通过生成器的交叉熵损失，y_n表示为一个指示参数，D(Y_n)表示从标注图像获得的概率图通过鉴别器得到的置信图，D(S(X_n))表示从生成器得到的概率图通过鉴别器得到的置信图。

作为一个实施例，

L_seg＝L_multi+λ_advL_adv+λ_semiL_semi，

式中，λ_adv表示第一权重，λ_semi表示第二权重。

作为一个实施例，

式中，MIoU表示平均交并比，p_ii表示真实正例的数量，表示总数量(包括真实正例、错误负例、以及错误正例)，k表示类别数。

上述基于生成式对抗网络的遥感图像半监督语义分割方法，通过搭建初始生成式对抗分割网络，构建训练数据集，根据训练数据集训练所述初始生成式对抗分割网络，得到优化生成式对抗分割网络，将待测图像输入所述优化生成式对抗分割网络进行语义分割，以提取不同尺度的特征，融合局部和全局特征，用生成对抗网络指导没有标签的数据进行语义分割，从而进行半监督语义分割，提高语义分割的精度。

附图说明

图1是一个实施例的基于生成式对抗网络的遥感图像半监督语义分割方法流程图；

图2是一个实施例的生成式对抗分割网络结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图1所示，图1为一个实施例的基于生成式对抗网络的遥感图像半监督语义分割方法流程图，包括如下步骤：

S10，搭建初始生成式对抗分割网络；

上述步骤具体可以通过搭建生成器；引入多尺度信息，引入全局和局部特征融合；和搭建鉴别器网络等过程搭建初始生成式对抗分割网络。

上述训练数据集可以包括海量公开的遥感图像。具体地，上述步骤可以把原始数据集(海量公开的遥感图像)裁剪为大小521*521的图片集，以确定训练数据集。再利用one-hot编码把输入图像(训练数据集中的图像)经过生成器得到的和真实标注图像的语义标签转换为概率图，通过Lmulti，Ladv根据最大-最小准则LD训练鉴别器，得到一个在空间分布上接近真实标注的置信图；利用生成的置信图和无标注数据产生的概率图得到Lsemi，利用Lsemi对无标注的遥感图像进行半监督语义分割，得到一个空间上接近置信图的概率图，再把概率图可视化得到语义分割图像，以实现相应的网络训练。

上述待测图像为需要进行语义分割的遥感图像。

在一个实施例中，步骤S10包括：

S11，搭建生成器；

S12，引入多尺度信息以融合全局和局部特征；

S13，搭建鉴别器网络，以确定初始生成式对抗分割网络。

具体地，上述S13包括：搭建一个五层的全卷积网络，用来做鉴别器，使用函数D()，输入一个大小(h,w,c)的概率图，输出一个大小(h，w，1)的置信图；其中h表示相应图片的长度，w表示相应图片的宽度，c表示相应图片的高度。

在一个示例中，上述生成式对抗分割网络的结构示意图可以参考图2所示，整个分割网络由两部分组成，生成器和鉴别器，生成器部分包括了多尺度残差网和金字塔模块，鉴别器为一个5层的全卷积网络。

作为一个实施例，步骤S11包括：

作为一个实施例，步骤S12包括：

S121，将多尺寸的遥感图像输入生成器；

S122，输入特征X(所输入的遥感图像的特征)经过残差模块的一个卷积层得到F(X)，在由残差模块的跳越结构得到F(X)+WX，由不同尺寸的遥感图像经过残差模块分别得到特征D1，特征D2，和特征D3；其中W是卷积操作；

S124，对F1，F2，F3进行多尺度特征融合得到R5。

作为一个实施例，所述构建训练数据集包括：

S223，将标注图通过独热编码获得编码向量Y_n；

S225，在使用有对应标注的RGB图像时，根据从标注图像得到的编码向量Y_n；使用L_adv训练生成器来欺骗鉴别器，通过最小化L_D的值进行训练；于L_D，如果样本来自于生成器，指示参数y_n取0，如果样本来自于标注图，指示参数y_n取1；如果像素点X_n ^(h，w)属于标注的类别的话，Y_n ^(h,w,c)的值取1，反之取0；通过反向传播来学习L_multi、L_adv，由鉴别器通过对抗训练得到置信图D(S(X_n))；其中，L_adv为对抗训练所用的损失函数，D(.)表示鉴别器；其中X_n ^(h，w)表示在(h,w)位置处的像素点特征值，Y_n ^(h,w,c)表示在(h,w,c)位置处的标注点特征值。

具体地，S226中，在使用没有标注的RGB遥感图像时，利用S225生成的置信图D(S(X_n))和无标注数据产生的概率图得通过L_semi，进行训练，经过反向传播，调整L_semi的参数，L_semi可以看作和L_ce类似，只不过L_semi用鉴别器得到的概率图和从生成器得到的概率图进行计算，而L_ce使用从标注图像得到的概率图和从生成器得到的概率图进行计算，也就是在使用没有标注的图像进行对分割网络的训练过程中，从鉴别器得到的置信图起到了标注图像的概率图的作用，D(S(X_n))可以用来推测那些区域接近真实标注的分布概率图我们通过一个阈值T_semi二值化置信图D(S(X_n))来突出那些值得信赖的区域，I(.)为一个指示函数，通过设置T_semi的值来控制训练过程的灵敏度，类似于(225)，通过最小化L_D的值进行训练，通过反向传播学习L_semi、L_adv。

作为一个实施例，

L_multi＝L_ce ^z∈1+L_ce ^z∈0.75+L_ce ^z∈0.50，

式中，h表示输入图片的长度，w表示输入图片的宽度，c表示输入图片的高度，C表示输入图片的高度集合，S(X_n)表示生成器产生的预测概率图，L_ce ^z∈1表示图片为原始尺寸时通过生成器的交叉熵损失，L_ce ^z∈0.75表示图片尺寸为原始图片大小的0.75倍时通过生成器的交叉熵损失，L_ce ^z∈0.50表示表示图片尺寸为原始图片大小的0.50倍时通过生成器的交叉熵损失，y_n表示为一个指示参数，用于表征相应样本来源，D(Y_n)表示从标注图像获得的概率图通过鉴别器得到的置信图，D(S(X_n))表示从生成器得到的概率图通过鉴别器得到的置信图，T_semi表示阈值，用来在二值化过程中突出标注的区域，大小是自己设置的，表示训练L_semi推测出的概率图在(h,w,c)处的特征值。

作为一个实施例，

L_seg＝L_multi+λ_advL_adv+λ_semiL_semi，

式中，λ_adv表示第一权重，λ_semi表示第二权重。

作为一个实施例，

上述基于生成式对抗网络的遥感图像半监督语义分割方法，可以有效利用采集到的遥感图像，将RGB图像多尺度信息相结合，利用全局和局部信息融合，可以解决遥感图像类与类的边缘区分不明显问题。结合生成对抗网络框架，引入的对抗机制可以解决遥感图像标注困难，样本量小的问题。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于生成式对抗网络的遥感图像半监督语义分割方法，其特征在于，包括如下步骤：

S10，搭建初始生成式对抗分割网络；

S30，将待测图像输入所述优化生成式对抗分割网络进行语义分割；

所述根据所述训练数据集训练所述初始生成式对抗分割网络包括：

S222，RGB图经过生成器处理得到预测概率图S(X_n)；

S223，将标注图通过独热编码获得编码向量Y_n；

S225，在使用有对应标注的RGB图像时，根据从标注图像得到的编码向量Y_n；使用L_adv训练生成器来欺骗鉴别器，通过最小化L_D的值进行训练；于L_D，如果样本来自于生成器，指示参数y_n取0，如果样本来自于标注图，指示参数y_n取1；如果像素点X_n ^(h，w)属于标注的类别的话，Y_n ^(h,w,c)的值取1，反之取0；通过反向传播来学习L_multi、L_adv，由鉴别器通过对抗训练得到置信图D(S(X_n))；其中，L_adv为对抗训练所用的损失函数，D(.)表示鉴别器；

S228，使用MIoU作为评价指标来判断训练过程中分割网络的性能，在MIoU取最高值时，根据分割网络当前取得的模型参数确定优化生成式对抗分割网络；

L_multi＝L_ce ^z∈1+L_ce ^z∈0.75+L_ce ^z∈0.50，

2.根据权利要求1所述的基于生成式对抗网络的遥感图像半监督语义分割方法，其特征在于，步骤S10包括：

S11，搭建生成器；

S12，引入多尺度信息以融合全局和局部特征；

S13，搭建鉴别器网络，以确定初始生成式对抗分割网络。

3.根据权利要求2所述的基于生成式对抗网络的遥感图像半监督语义分割方法，其特征在于，步骤S11包括：

4.根据权利要求2所述的基于生成式对抗网络的遥感图像半监督语义分割方法，其特征在于，步骤S12包括：

S121，将多尺寸的遥感图像输入生成器；

S124，对F1，F2，F3进行多尺度特征融合得到R5。

5.根据权利要求4所述的基于生成式对抗网络的遥感图像半监督语义分割方法，其特征在于，所述构建训练数据集包括：

6.根据权利要求5所述的基于生成式对抗网络的遥感图像半监督语义分割方法，其特征在于，

L_seg＝L_multi+λ_advL_adv+λ_semiL_semi，

式中，λ_adv表示第一权重，λ_semi表示第二权重。

7.根据权利要求6所述的基于生成式对抗网络的遥感图像半监督语义分割方法，其特征在于，

式中，MIoU表示平均交并比，p_ii表示真实正例的数量，表示总数量，k表示类别数。