CN114283329A

CN114283329A - 一种基于强变换下的半监督遥感图像语义分割方法及设备

Info

Publication number: CN114283329A
Application number: CN202111356781.4A
Authority: CN
Inventors: 吕亮; 杭兆峰; 杨立华; 孙正标; 王恩民; 任鑫; 姚中原; 王有超; 王�华; 童彤; 赵鹏程; 杜静宇; 李学刚
Original assignee: Huaneng Yancheng Dafeng New Energy Power Generation Co ltd; Huaneng Clean Energy Research Institute; Clean Energy Branch of Huaneng International Power Jiangsu Energy Development Co Ltd Clean Energy Branch; Huaneng International Power Jiangsu Energy Development Co Ltd
Current assignee: Huaneng Yancheng Dafeng New Energy Power Generation Co ltd; Huaneng Clean Energy Research Institute; Clean Energy Branch of Huaneng International Power Jiangsu Energy Development Co Ltd Clean Energy Branch; Huaneng International Power Jiangsu Energy Development Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-04-05

Abstract

本发明提出一种基于强变换下的半监督遥感图像语义分割方法及设备，该方法采用教师‑学生网络的半监督学习结构，学生网络通过训练优化得到，教师网络为每轮训练后学生网络的指数滑动平均，训练学生网络时除了一般的随机旋转、翻转、颜色的变换外，使用了随机掩膜混合的变换方式，对两幅影像进行随机掩膜混合的方式得到增强后的影像，对应标签图像也进行同样的增强方式，对学生网络与教师网络的输出求一致性损失。通过本发明，能够减少网络模型训练时间成本，同时提高一致性学习半监督语义分割的性能。

Description

一种基于强变换下的半监督遥感图像语义分割方法及设备

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于强变换下的半监督遥感图像语义分割方法、装置、计算机设备及非临时性计算机可读存储介质。

背景技术

图像分割的目的是将每个像素标记为一种类别，对于遥感图像，则将像素标记为一种地物类型，比如建筑、水体、道路、耕地、车辆等等。图像语义分割是从传统图像分割方法发展而来，传统图像分割方法(阈值法、k-Means聚类法、区域法、边缘检测法)只关心找到地物的边界轮廓，并不关心地物所属的类别，语义分割不仅要精确地找到地物的轮廓，还需准确地判断地物所属的类别，即给出其语义。得益于深度学习的快速发展与计算机存储与运算力的极大提升，使得基于深度卷积神经网络的语义分割方法成为高分辨率遥感图像分割新的利器。

基于深度卷积神经网络的语义分割可以认为是像素级的分类任务，需要对影像中的地物目标进行密集标注，标注难度更大，有其是对高分辨率遥感影像来说，语义分割数据集的标注需要大量的人工和时间，这给基于深度卷积神经网络的遥感影像语义分割带来极大的困难。

针对上述问题，通常包括以下解决方法：

1.基于自训练的方法，分为3步：第一步，在有标签数据上训练一个模型；第二步，用预训练好的模型，为无标签数据集生成伪标签；第三步，使用有标注数据集的真值标签，和无标注数据集的伪标签，重新训练一个模型；第四步，重复几次上述过程。这种方法效果较好，但是重复训练提高了时间成本。

2.基于一致性学习的方法，其核心为鼓励模型对经过不同变换的同一样本有相似的输出，这种变换包括随机旋转、翻转、颜色的改变等等，整个过程与监督训练同时进行，效果更佳。一致性学习的有效性得益于平滑假设或者聚类假设，平滑假设是指相互接近的样本有可能有相同的标签，聚类假设指出决策面应处于数据分布的低密度区域。图像语义分割是一种像素级分类任务，输入数据中的低密度区域没有很好地与类边界对齐，普通的变换方式对于混肴类别的效果是有限的，一致性学习半监督语义分割的性能较低。

发明内容

本发明提供一种基于强变换下的半监督遥感图像语义分割方法、装置、计算机设备及非临时性计算机可读存储介质，旨在减少网络模型训练时间成本，同时提高一致性学习半监督语义分割的性能。

为此，本发明的目的在于提出一种基于强变换下的半监督遥感图像语义分割方法，包括：

构建遥感语义分割网络，所述遥感语义分割网络为教师网络-学生网络结构的半监督学习网络；

利用遥感图像数据集对所述遥感语义分割网络进行训练；

将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，输出结果即为对拍摄的遥感图像的语义分割结果。

其中，利用遥感图像数据集对所述遥感语义分割网络进行训练的步骤包括：

获取遥感图像样本数据集，对数据集中遥感图像的地物类别按像素进行标记，生成对应的标签遥感图像，通过对标签遥感图像使用边缘检测算法自动生产语义边界标签；预处理后划分为训练集、验证集和测试集；

构建教师网络-学生网络结构的半监督学习网络，作为遥感图像语义分割网络；其中，所述教师网络和学生网络采用DeepLabV3+网络模型；

将所述训练集的原始遥感图像输入所述遥感图像语义分割网络中进行训练，确定模型训练的超参数与损失函数，优化遥感图像语义分割网络的参数，至所述验证集预测结果的预测精度达到预设精度阈值；

将所述测试集输入训练好的遥感图像语义分割网络，验证网络分割准确性。

其中，遥感语义分割网络的训练方式为：将训练集遥感图像分为标记样本与无标记样本，标记样本包含遥感图像与对应标签遥感图像，无标记样本只包含遥感图像，将标记样本与无标记样本的遥感图像均输入至学生网络，标记样本的预测结果与标签数据计算监督损失，将无标记样本输入至教师网络，学生网络与教师网络对无标记样本的预测结果求一致性损失；无标记数据输入至教师网络与学生网络，对所得结果求对比损失；学生网络的参数由监督损失、对比损失、一致性损失共同优化得到，教师网络由每轮训练得到的学生网络进行指数滑动平均得到。

其中，对遥感图像及对应的标签遥感图像进行预处理的步骤包括：

对原始遥感图像与对应标签遥感图像进行随机采样，每次采样得到512×512大小的遥感图像与对应标签遥感图像；

对随机采样后得到的遥感图像进行样本增强，包括随机旋转n×90°(n＝0，1，2，3)，随机水平方向与垂直方向90°翻转，随机尺度缩放，随机亮度、对比度、饱和度增强。

其中，在所述遥感语义分割网络的训练过程中，针对标记样本数据，采样两张遥感图像和对应的标签遥感图像，使用随机掩膜混合的方法得到增强的遥感图像和标签遥感图像，输入学生网络；针对无标记样本，采样两张遥感图像，使用随机掩膜混合的方法得到增强的遥感图像，输入学生网络和教师网络。

其中，随机掩膜混合的方法包括：

取掩膜L，变换后的增强图像为：

mix(x₁，x₂，L)＝(1-L⊙x₁)+L⊙x₂

其中⊙表示按位置元素相乘，x₁与x₂为进行随机掩膜混合的两张遥感图像，L为尺寸与x₁、x₂，元素均为0或1的矩阵。

其中，模型训练的超参数与损失函数为训练过程中学习率的变化策略如公式(1)所示：

其中，base_lr＝4.2e-6，热启动因子warmup_factor＝1.2，epoch为训练迭代次数，学习率1r随着时间增长学习率逐渐上升，热启动的迭代次数warm_epoch设置为30，经过热启动后，学习率达到一个较高的值，高的学习率有利于模型快速收敛，但随着时间的推移衰减学习率有利于找到性能更优的模型，当训练超过warm_epoch后，使用多项式(poly)学习率衰减策略，最大训练迭代次数maxlr设为1500，衰减指数pewer设置为(0.9，0.99)，最大学习率maxlr设置为1e-3；

监督学习部分使用交叉熵损失函数，一致性学习部分使用均方误差损失函数，整体损失函数

如公式(2)所示：

其中，

为预测结果，y_i为标记图像，

为交叉熵损失(监督损失)，e_T为教师网络的预测结果，e_s为辅助解码器的预测结果，p_T为教师网络的输出结果，p_S为学生网络的输出结果，

为噪声对比估计损失函数，

为均方差损失(一致性损失)，随着时间的变化，

的权重以函数λ(t)改变；

在模型训练的初期，模型学习不充分，性能较差，一致性损失权重过大会导致网络性能快速退化，整体损失应该由监督损失部分主导，随着训练时长的增加，一致性损失的权重逐渐上升，模型对标签数据过拟合后，整体损失应该由无监督一致性损失主导进一步提高模型的泛化能力与鲁棒性，如公式(3)所示：

num_epochs为训练迭代总次数，训练至第a轮前λ(epoch)逐渐上升，训练超过a轮后λ(epoch)稳定至其最大值w，a设置为200，num_epochs设置为1500，w设置为1。

其中，教师网络的参数更新方法指数滑动平均表示为公式(4)：

θ′_t＝αθ′_t-1+(1-α)θ_t (4)

其中θ′_t表示训练迭代第t次时教师网络的参数，由教师网络训练迭代第t-1次时的参数θ′_t-1与学生网络在训练迭代第t次时的参数加权求和得到，α设置为0.9。

此外，本发明的目的还在于提出一种基于强变换下的半监督遥感图像语义分割装置，包括：

网络构建模块，用于构建遥感语义分割网络，所述遥感语义分割网络为教师网络-学生网络结构的半监督学习网络；

网络训练模块，用于利用遥感图像数据集对所述遥感语义分割网络进行训练；

图像分割模块，用于将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，输出结果即为对拍摄的遥感图像的语义分割结果。

本发明的目的还在于提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如前述技术方案任一的方法。

本发明的目的还在于提出一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述技术方案的方法。

区别于现有技术，本发明提供的基于强变换下的半监督遥感图像语义分割方法，采用教师-学生网络的半监督学习结构，学生网络通过训练优化得到，教师网络为每轮训练后学生网络的指数滑动平均，训练学生网络时除了一般的随机旋转、翻转、颜色的变换外，使用了随机掩膜混合的变换方式，对两幅影像进行随机掩膜混合的方式得到增强后的影像，对应标签图像也进行同样的增强方式，对学生网络与教师网络的输出求一致性损失。通过本发明，能够减少网络模型训练时间成本，同时提高一致性学习半监督语义分割的性能。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明提供的一种基于强变换下的半监督遥感图像语义分割方法的流程示意图。

图2是本发明提供的一种基于强变换下的半监督遥感图像语义分割方法的网络结构示意图。

图3是本发明提供的一种边界优化的遥感图像语义分割装置的结构示意图。

图4是本发明提供的一种非临时性计算机可读存储介质的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的一种基于强变换下的半监督遥感图像语义分割方法。

图1为本发明实施例所提供的一种基于强变换下的半监督遥感图像语义分割方法的流程示意图。该方法包括以下步骤：

步骤101，构建遥感语义分割网络，所述遥感语义分割网络为教师网络-学生网络结构的半监督学习网络。

遥感语义分割网络为教师网络-学生网络结构的半监督学习网络，网络结构如图2所示。

其中，述教师网络和学生网络采用DeepLabV3+网络模型。

步骤102：利用遥感图像数据集对所述遥感语义分割网络进行训练。

利用遥感图像数据集对所述遥感语义分割网络进行训练的步骤包括：

构建教师网络-学生网络结构的半监督学习网络，作为遥感图像语义分割网络；其中，所述教师网络和学生网络采用DeepLabV3+网络模型。

模型训练的超参数与损失函数为训练过程中学习率的变化策略如公式(1)所示：

如公式(2)所示：

其中，

为预测结果，y_i为标记图像，

为噪声对比估计损失函数，

为均方差损失(一致性损失)，随着时间的变化，

的权重以函数λ(t)改变；

遥感语义分割网络的训练方式为：将训练集遥感图像分为标记样本与无标记样本，标记样本包含遥感图像与对应标签遥感图像，无标记样本只包含遥感图像，将标记样本与无标记样本的遥感图像均输入至学生网络，标记样本的预测结果与标签数据计算监督损失，将无标记样本输入至教师网络，学生网络与教师网络对无标记样本的预测结果求一致性损失；无标记数据输入至教师网络与学生网络，对所得结果求对比损失；学生网络的参数由监督损失、对比损失、一致性损失共同优化得到，教师网络由每轮训练得到的学生网络进行指数滑动平均得到。

随机掩膜混合的方法包括：

取掩膜L，变换后的增强图像为：

mix(x₁，x₂，L)＝(1-L⊙x₁)+L⊙x₂

对遥感图像及对应的标签遥感图像进行预处理的步骤包括：

为提高数据利用率，对大幅遥感影像随机采样为小图进行批量训练，设置每轮训练采样频率为500，根据显存的大小设置采样尺寸大小与训练批次大小，输入图像默认尺寸为512×512，批次大小默认为8，对原始标记数据与无标记数据进行随机采样，每次采样得到512×512大小的遥感图像与对应标签遥感图像，以及无标签遥感图像。

随机尺度缩放0.5倍至2倍，随机亮度增强0.5倍至2倍，随机对比度增强0.5倍至2倍，随机饱和度增强0.5倍至2倍，每次采样的样本都进行随机次数与随机程度的数据增强。

在所述遥感语义分割网络的训练过程中，针对标记样本数据，采样两张遥感图像和对应的标签遥感图像，使用随机掩膜混合的方法得到增强的遥感图像和标签遥感图像，输入学生网络；针对无标记样本，采样两张遥感图像，使用随机掩膜混合的方法得到增强的遥感图像，输入学生网络和教师网络。

教师网络的参数更新方法指数滑动平均表示为公式(4)：

θ′_t＝αθ′_t-1+(1-α)θ_t (4)

步骤103：将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，输出结果即为对拍摄的遥感图像的语义分割结果。

如图3所示，本发明的目的还在于提出一种基于强变换下的半监督遥感图像语义分割装置，包括：

网络构建模块310，用于构建遥感语义分割网络，所述遥感语义分割网络为教师网络-学生网络结构的半监督学习网络；

网络训练模块320，用于利用遥感图像数据集对所述遥感语义分割网络进行训练；

图像分割模块330，用于将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，输出结果即为对拍摄的遥感图像的语义分割结果。

上述装置的实施过程与前述实施方式中的语义分割方法的实施方式相似甚至相同，此处不再赘述。

为了实现上述实施例，本发明还提出另一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如本发明实施例的遥感图像语义分割。

如图4所示，非临时性计算机可读存储介质包括指令的存储器810，接口830，上述指令可由煤矿采掘设备行走速度估算装置的处理器820执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如本发明实施例的遥感图像语义分割。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于强变换下的半监督遥感图像语义分割方法，其特征在于，包括：

利用遥感图像数据集对所述遥感语义分割网络进行训练；

2.根据权利要求1所述的基于强变换下的半监督遥感图像语义分割方法，其特征在于，利用遥感图像数据集对所述遥感语义分割网络进行训练的步骤包括：

3.根据权利要求2所述的基于强变换下的半监督遥感图像语义分割方法，其特征在于，所述遥感语义分割网络的训练方式为：将训练集遥感图像分为标记样本与无标记样本，标记样本包含遥感图像与对应标签遥感图像，无标记样本只包含遥感图像，将标记样本与无标记样本的遥感图像均输入至学生网络，标记样本的预测结果与标签数据计算监督损失，将无标记样本输入至教师网络，学生网络与教师网络对无标记样本的预测结果求一致性损失；无标记数据输入至教师网络与学生网络，对所得结果求对比损失；学生网络的参数由监督损失、对比损失、一致性损失共同优化得到，教师网络由每轮训练得到的学生网络进行指数滑动平均得到。

4.根据权利要求2所述的基于强变换下的半监督遥感图像语义分割方法，其特征在于，对遥感图像及对应的标签遥感图像进行预处理的步骤包括：

5.根据权利要求3所述的基于强变换下的半监督遥感图像语义分割方法，其特征在于，在所述遥感语义分割网络的训练过程中，针对标记样本数据，采样两张遥感图像和对应的标签遥感图像，使用随机掩膜混合的方法得到增强的遥感图像和标签遥感图像，输入学生网络；针对无标记样本，采样两张遥感图像，使用随机掩膜混合的方法得到增强的遥感图像，输入学生网络和教师网络。

6.根据权利要求5所述的基于强变换下的半监督遥感图像语义分割方法，其特征在于，所述随机掩膜混合的方法包括：

取掩膜L，变换后的增强图像为：

mix(x₁，x₂.L)＝(1-L⊙x₁)+L⊙x₂

7.根据权利要求2所述的基于强变换下的半监督遥感图像语义分割方法，其特征在于，所述模型训练的超参数与损失函数为训练过程中学习率的变化策略如公式(1)所示：

其中，base_lr＝4.2e-6，热启动因子warmup_factor＝1.2，epoch为训练迭代次数，学习率lr随着时间增长学习率逐渐上升，热启动的迭代次数warm_epoch设置为30，经过热启动后，学习率达到一个较高的值，高的学习率有利于模型快速收敛，但随着时间的推移衰减学习率有利于找到性能更优的模型，当训练超过warm_epoch后，使用多项式(poly)学习率衰减策略，最大训练迭代次数maxlr设为1500，衰减指数pewer设置为(0.9，0.99)，最大学习率maxlr设置为1e-3；