CN117237648B

CN117237648B - 基于上下文感知的语义分割模型的训练方法、装置和设备

Info

Publication number: CN117237648B
Application number: CN202311523090.8A
Authority: CN
Inventors: 弭宝瞳; 段四波; 高彩霞
Original assignee: Institute of Agricultural Resources and Regional Planning of CAAS
Current assignee: Institute of Agricultural Resources and Regional Planning of CAAS
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-23
Anticipated expiration: 2043-11-16
Also published as: CN117237648A

Abstract

本申请提供一种基于上下文感知的语义分割模型的训练方法、装置和设备。一方面对全尺寸遥感图像进行裁剪，得到高分辨率的局部图像，再对高分辨率图像进行下采样得到上下文裁剪图像，从而可以基于该部分图像训练模型捕获遥感图像的上下文信息的能力；另一方面对高分辨率的局部图像进行进一步裁剪，从而可以基于该部分图像鼓励模型对遥感图像的细节部分进行精准分割；最后再将不同分辨率的预测结果进行对齐和融合得到最终预测结果，从而可以有效训练模型识别遥感图像上下文信息和细节信息的能力，提高模型最终的分割精度。此外，还可以利用随机掩膜技术对无标签图像进行掩膜处理，鼓励模型捕获其上下文信息，进而提高在目标数据集上的分割精度。

Description

基于上下文感知的语义分割模型的训练方法、装置和设备

技术领域

本申请涉及一种基于上下文感知的语义分割模型的训练方法、装置和设备，属于图像处理技术领域。

背景技术

遥感图像是通过遥感技术获取的地球表面的图像，其具有很高的分辨率。遥感图像可以用于许多应用领域，例如地理信息系统、环境监测、农业和城市规划等。为了从遥感图像中提取并划分出具有不同语义类别的区域，一般需要利用网络模型来对遥感图像进行语义分割。

实际应用场景中，用于语义分割模型训练的源域数据分布和实际应用的目标域数据分布往往存在差异，导致模型性能的严重下降。为此，通常采用遥感图像语义分割的无监督域适应(Unsupervised Domain Adaptation，UDA)，将源域（训练数据集）上训练的模型适应到目标域（实际应用环境），而不需要在目标域上进行进一步的标注。

然而，由于显存的限制，在遥感图像语义分割的无监督域适应中，现有技术往往无法处理全尺寸的高分辨率图片。因此大多数的方法首先将高分辨率图像进行下采样，或者将全尺寸的图片进行随机裁剪，得到多个局部图像，再进行训练。该方法虽然一定程度上缓解了显存受限问题，却引起新的问题。首先，下采样后的图像分辨率较低，因此其预测结果往往无法保留细节信息，即难以识别小物体和精准的对目标边界进行分割。其次，随机裁剪方法虽然保留了局部的高分辨率图像，但是限制了上下文感知语义分割的学习，特别是对于远程依赖关系和场景布局，这对于遥感图像语义分割的无监督域适应来说可能是至关重要的。以上缺陷都在一定程度上限制了遥感图像语义分割的精度上限。

发明内容

本申请提供一种基于上下文感知的语义分割模型的训练方法、装置和设备，以解决相关技术中基于无监督域适应进行遥感图像语义分割的分割结果精度受限的问题。

第一方面，本申请实施例提供一种基于上下文感知的语义分割模型的训练方法，其包括：

获取第一图像样本，并对所述第一图像样本进行多次区域裁剪，得到多个第一区域裁剪图像；所述第一图像样本为包括标签信息的遥感图像，所述标签信息用于表示所述遥感图像的语义分割结果；

分别对各所述第一区域裁剪图像进行下采样，得到上下文裁剪图像，以及基于各所述第一区域裁剪图像进行二次区域裁剪，得到多个第一精细裁剪图像；其中，所述第一精细裁剪图像的尺寸与所述上下文裁剪图像的尺寸相同；

将对应于同一个所述第一区域裁剪图像的所述上下文裁剪图像和所述第一精细裁剪图像分别输入到预先构建的处理网络模型中，得到第一预测结果和第二预测结果；

将所述第一预测结果和所述第二预测结果进行融合，得到目标预测结果；

基于所述目标预测结果与对应的标签信息计算模型损失，并以所述模型损失小于设定阈值为目标，对所述处理网络模型进行训练，得到遥感图像的语义分割模型。

基于以上的方法，可选地，所述分别对各所述第一区域裁剪图像进行下采样，得到上下文裁剪图像，包括：

按照下采样因子s=2对所述第一区域裁剪图像进行双线性下采样，得到所述上下文裁剪图像；

所述基于各所述第一区域裁剪图像进行二次区域裁剪，得到多个第一精细裁剪图像，包括：

基于所述上下文裁剪图像的尺寸，对所述第一区域裁剪图像进行二次随机裁剪，得到所述第一精细裁剪图像。

基于以上的方法，可选地，所述将所述第一预测结果和所述第二预测结果进行融合，得到目标预测结果，包括：

对所述第一预测结果进行上采样，得到第一处理结果；其中，所述上采样的采样因子与所述下采样的采样因子相同；

将所述第二预测结果填充到与所述第一处理结果的尺寸一致，得到第二处理结果；其中，所述第二预测结果在所述第二处理结果中所处位置与所述第一精细裁剪图像在所述第一区域裁剪图像中所处位置一致；

将所述第一处理结果和所述第二处理结果对应像素的值相加，得到所述目标预测结果。

基于以上的方法，可选地，所述处理网络模型包括特征编码器和语义解码器，所述特征编码器用于对输入的原始图像进行特征提取，生成特征向量作为输出；所述语义解码器用于根据所述特征向量中的特征信息，还原和重建所述原始图像的细节和结构。

基于以上的方法，可选地，还包括：

获取第二图像样本，所述第二图像样本为不包括标签信息的遥感图像；

对所述第二图像样本进行多次区域裁剪，得到多个第二区域裁剪图像，并基于各所述第二区域裁剪图像进行二次区域裁剪，得到多个第二精细裁剪图像；

对各所述第二精细裁剪图像进行随机掩膜处理，得到多个掩膜目标图像，并将各所述掩膜目标图像输入所述处理网络模型中，得到第三预测结果；

将各所述第二精细裁剪图像输入教师网络模型，得到对应的伪标签信息；其中，所述教师网络模型的权重基于所述处理网络模型的权重进行指数移动平均处理得到；

基于所述第三预测结果和所述伪标签信息计算一致性损失，并在对所述处理网络模型进行训练的过程中，将所述一致性损失计入所述模型损失。

基于以上的方法，可选地，所述对各所述第二精细裁剪图像进行随机掩膜处理，得到多个掩膜目标图像，包括：

从均匀分布中随机采样一个掩膜；

对所述掩膜和各所述第二精细裁剪图像分别进行逐元乘法，得到对应的掩膜目标图像。

基于以上的方法，可选地，所述将各所述第二精细裁剪图像输入教师网络模型中，得到对应的伪标签信息之后，还包括：

判断各所述伪标签信息的置信度是否大于预设的置信度阈值；

舍弃置信度小于所述置信度阈值的伪标签信息。

第二方面，本申请实施例还提供一种基于上下文感知的语义分割模型的训练装置，其包括：

获取模块，用于获取第一图像样本，并对所述第一图像样本进行多次区域裁剪，得到多个第一区域裁剪图像；所述第一图像样本为包括标签信息的遥感图像，所述标签信息用于表示所述遥感图像的语义分割结果；

裁剪模块，用于分别对各所述第一区域裁剪图像进行下采样，得到上下文裁剪图像，以及基于各所述第一区域裁剪图像进行二次区域裁剪，得到多个第一精细裁剪图像；其中，所述第一精细裁剪图像的尺寸与所述上下文裁剪图像的尺寸相同；

预测模块，用于将对应于同一个所述第一区域裁剪图像的所述上下文裁剪图像和所述第一精细裁剪图像分别输入到预先构建的处理网络模型中，得到第一预测结果和第二预测结果；

融合模块，用于将所述第一预测结果和所述第二预测结果进行融合，得到目标预测结果；

训练模块，用于基于所述目标预测结果与对应的标签信息计算模型损失，并以所述模型损失小于设定阈值为目标，对所述处理网络模型进行训练，得到遥感图像的语义分割模型。

第三方面，本申请实施例还提供一种电子设备，其包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用并执行所述计算机程序时，实现如第一方面任意一项所述的基于上下文感知的语义分割模型的训练方法。

本申请提供的基于上下文感知的语义分割模型的训练方法、装置和设备中，一方面对全尺寸遥感图像进行裁剪，得到高分辨率的局部图像，再对高分辨率图像进行下采样得到上下文裁剪图像，从而可以基于该部分图像训练模型捕获遥感图像的上下文信息的能力；另一方面对高分辨率的局部图像进行进一步裁剪，从而可以基于该部分图像鼓励模型对遥感图像的细节部分进行精准分割；最后再将不同分辨率的预测结果进行对齐和融合得到最终预测结果，基于该预测结果可以有效训练模型识别遥感图像上下文信息和细节信息的能力，从而提高最终的分割精度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。此外，这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

图1为本申请一个实施例提供的基于上下文感知的语义分割模型的训练方法的流程示意图；

图2为本申请另一个实施例提供的基于上下文感知的语义分割模型的训练方法的流程示意图；

图3为本申请一个实施例提供的基于上下文感知的语义分割模型的训练装置的结构示意图；

图4为本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请的实施例，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

无监督领域适应（Unsupervised Domain Adaptation，UDA）是一种机器学习中的方法，用于解决监督学习中的领域间偏移问题。在监督学习中，通常假设训练数据和测试数据是从相同的数据分布中采样得到的。然而，在实际应用中，训练数据和测试数据可能来自于不同的领域，数据分布会发生变化，这种情况被称为领域间偏移。

无监督域适应的目标是通过利用标注有标签的源领域数据和未标注的目标领域数据，使模型在目标领域上达到较好的性能。其主要思想是在源领域数据上训练一个模型，然后通过对目标领域数据进行适应，使模型的表现在目标领域上接近于在源领域上的性能。常见的无监督域适应方法包括领域对抗神经网络（Domain Adversarial NeuralNetworks，DANN）、最大均值差异（Maximum Mean Discrepancy，MMD）等。

通过无监督域适应，可以克服领域间的差异，提高模型在目标域的泛化能力，从而为实际应用中的模型迁移提供了有效的解决方案。

但是由于处理设备显存的限制，在遥感图像语义分割的无监督域适应中，现有技术往往无法处理全尺寸的高分辨率图片。因此大多数的方法首先将高分辨率图像进行下采样，或者将全尺寸的图片进行随机裁剪，得到多个局部图像，再进行训练。该方法虽然一定程度上缓解了显存受限问题，却引起新的问题。首先，下采样后的图像分辨率较低，因此其预测结果往往无法保留细节信息，即难以识别小物体和精准的对目标边界进行分割。其次，随机裁剪方法虽然保留了局部的高分辨率图像，但是限制了上下文感知语义分割的学习，特别是对于远程依赖关系和场景布局，这对于遥感图像语义分割的无监督域适应来说可能是至关重要的。以上缺陷都在一定程度上限制了遥感图像语义分割的精度上限。

针对上述问题，本申请提供一种基于上下文感知的语义分割模型的训练方案，通过将图像下采样和随机裁剪的分割结果相融合，来避免二者的缺点，从而提高模型进行语义分割的精度。此外，还可以利用随机掩膜技术对无标签图像进行掩膜处理，鼓励模型捕获其上下文信息，进而提高在目标数据集上的分割精度。以下通过几个示例或实施例对具体实现方案进行非限制性说明。

本申请一些实施例提供一种基于上下文感知的语义分割模型的训练方法，参照图1，图1为本申请一个实施例提供的基于上下文感知的语义分割模型的训练方法的流程示意图。其中，在具体实施时，本实施例的方案可以由计算机或服务器等设备执行。

如图1所示，本实施例的基于上下文感知的语义分割模型的训练方法包括以下步骤：

步骤S101：获取第一图像样本，并对第一图像样本进行多次区域裁剪，得到多个第一区域裁剪图像。其中，第一图像样本为包括标签信息的遥感图像，标签信息用于表示遥感图像的语义分割结果。

具体地，语义分割指的是对遥感图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分。由于遥感图像的尺寸很大，不方便直接处理，因此本步骤中获取到第一图像样本后，首先进行多次区域裁剪，也即从待处理图像中裁剪出多个较小尺寸的图像，本步骤中将其称为区域裁剪图像。同时，这样也可以得到大量的训练样本。

一些实施例中，可以基于第一图像样本进行多次随机区域裁剪，从而得到多个第一区域裁剪图像。通过随机区域裁剪，可以提高训练样本的多样性，降低样本选择偏差，同时增加最终训练模型的鲁棒性和稳定性。

为了方便描述和理解，将第一图像样本对应的高精度遥感图像记为，其中，,/>表示图像的高度，/>表示图像的宽度，且图像的通道数为3。对/>进行区域裁剪得到的第一区域裁剪图像记为/>，其中，/>,/>表示图像的高度，/>表示图像的宽度，且图像的通道数为3。则该过程可以表示为：

式中，、/>、/>和/>分别为裁剪框的四个边界，裁剪边界框/>和/>的大小来自原图的离散均匀分布中随机采样，边界框/>和/>的大小为边界框/>和分别加上第一区域裁剪图像/>的长和宽，可以表示为：

此外，标签信息是人工添加的注释标签（Ground Truth），也即由人工标注第一图像样本中各个像素所属的类别（语义分割结果），并存储为标签信息。

步骤S102：分别对各第一区域裁剪图像进行下采样，得到上下文裁剪图像，以及基于各第一区域裁剪图像进行二次区域裁剪，得到多个第一精细裁剪图像；其中，第一精细裁剪图像的尺寸与上下文裁剪图像的尺寸相同。

具体地，下采样是缩小原图像的过程，会将多个相邻像素的值进行融合从而得到一个像素值，由于结果融合了相邻像素的值，因此，下采样的结果会包含上下文信息，基于此，本实施例中将下采样的输出图像称为上下文裁剪图像，记为，其中，/>表示图像的高度，/>表示图像的宽度，且图像的通道数为3。

进一步地，一些实施例中，分别对各第一区域裁剪图像进行下采样，得到上下文裁剪图像的过程可以包括：按照下采样因子s=2对第一区域裁剪图像进行双线性下采样，得到上下文裁剪图像。公式表示如下：

式中，表示双线性采样操作，/>表示下采样，采样因子为/>。

双线性下采样在处理图像时使用两个相邻像素的加权平均值来估计新像素的值。具体而言，它会通过线性插值先在水平方向上对相邻像素进行插值，然后再在垂直方向上对插值结果进行插值，从而获得最终的插值的值。因此，双线性采样可以较好地提取图像的上下文信息。

此外，基于各第一区域裁剪图像进行二次区域裁剪，指的是在各个第一区域裁剪图像的基础上进一步裁剪得到更小尺寸的图像，也即第一精细裁剪图像，记为。

并且，需要保证第一精细裁剪图像的尺寸与上下文裁剪图像/>的尺寸相同，以便后续能够将二者的预测结果进行融合。

进一步地，一些实施例中，基于各第一区域裁剪图像进行二次区域裁剪，得到多个第一精细裁剪图像的过程可以包括：基于上下文裁剪图像的尺寸，对第一区域裁剪图像进行二次随机裁剪，得到第一精细裁剪图像。可以表示为：

其中，裁剪边界框和/>的大小来自图像/>的离散均匀分布中随机采样，边界框/>和/>的大小为边界框/>和/>分别加上精细裁剪图像/>的长和宽，可以表示为：

步骤S103：将对应于同一个第一区域裁剪图像的上下文裁剪图像和第一精细裁剪图像分别输入到预先构建的处理网络模型中，得到第一预测结果和第二预测结果。

具体地，对应于同一个第一区域裁剪图像的上下文裁剪图像和第一精细裁剪图像，指的是对同一个第一区域裁剪图像进行处理得到的上下文裁剪图像/>和第一精细裁剪图像/>，它们在语义分割结果中存在关联（包含相同的对象）。

预先构建的处理网络模型是基于神经网络算法构建的算法模型，用于对输入的图像进行分析处理，从而得到预测结果，预测结果是包含输入图像中各个像素属于每个类别的预测概率的预测矩阵。本实施例中，目的是对模型进行训练，以使得该模型对输入图像的预测结果尽可能接近输入图像的真实的注释标签。

进一步地，处理网络模型可以是基于ResNet等算法构建的模型。具体可以根据实际需要进行选择，对此不进行限制。

在训练过程中，将上下文裁剪图像和第一精细裁剪图像/>分别输入到处理网络模型/>中，可以得到各自对应的预测结果，上下文裁剪图像/>对应的预测结果记为第一预测结果/>，第一精细裁剪图像/>对应的预测结果记为第二预测结果/>。其中，基于第一预测结果/>可以训练处理网络模型的捕获图象的上下文信息的能力，基于第二预测结果/>可以训练处理网络模型的捕获图象的细节信息的能力。

一些实施例中，处理网络模型包括特征编码器/>和语义解码器/>，特征编码器用于对输入的原始图像进行特征提取，生成特征向量作为输出；语义解码器/>用于根据特征向量中的特征信息，还原和重建原始图像的细节和结构。

基于此，得到第一预测结果和第二预测结果/>的过程可以表示为：

也即，由特征编码器先对输入图像进行特征提取，再由语义解码器/>对提取的特征进行解码，从而得到对应的预测结果。

步骤S104：将第一预测结果和第二预测结果进行融合，得到目标预测结果。

具体地，目标预测结果也即模型的最终预测结果，将其记为。目标预测结果融合了第一预测结果/>和第二预测结果/>中的信息，从而可以帮助模型同时学习捕获上下文信息和细节信息的能力。

一些实施例中，步骤S104具体可以包括：

步骤S1041：对第一预测结果进行上采样，得到第一处理结果。其中，上采样的采样因子与步骤S101中下采样的采样因子相同。

具体地，为了预测初始的第一区域裁剪图像记为的各个像素的类别，需要通过上采样将第一预测结果/>变化到第一区域裁剪图像记为/>的尺寸。上采样的过程可以表示为：

式中，即第一处理结果。其中，若步骤S101下采样因子s=2,则本步骤中上采样因子同样为s=2。

步骤S1042：将第二预测结果填充到与第一处理结果的尺寸一致，得到第二处理结果。其中，第二预测结果在第二处理结果中所处位置与第一精细裁剪图像在第一区域裁剪图像中所处位置一致。

具体地，为了进行融合，本步骤中将将第二预测结果填充到与第一处理结果相同的尺寸，并且，需要保证第二预测结果/>在第二处理结果/>中所处位置与第一精细裁剪图像/>在第一区域裁剪图像/>中所处位置一致。具体可以在第二预测结果/>周围填充值为0的像素。可以表示为：

式中，也即得到的第二处理结果。

步骤S1043：将第一处理结果和第二处理结果对应像素的值相加，得到目标预测结果。

具体地，本实施例中，直接将第一处理结果和第二处理结果/>位于相同位置的像素的值相加，得到目标预测结果/>。可以表示为：

可以理解，另一些实施例中，也可以为第一处理结果和第二处理结果分配不同的权重，从而通过加权求和得到目标预测结果/>。如此，相当于侧重学习某一方面的能力。

步骤S105：基于目标预测结果与对应的标签信息计算模型损失，并以模型损失小于设定阈值为目标，对处理网络模型进行训练，得到遥感图像的语义分割模型。

具体地，模型损失可以表示模型的预测结果与真实结果的差别，模式损失为零是最理想的情况，但实际中难以达到。因此，本实施例中，在模型损失小于设定阈值时即认为模型的性能达到要求，也即认为模型预测结果的误差在可接受范围内。

一些实施例中，采用常用的交叉熵损失函数计算模型损失，也即，利用交叉熵损失函数对模型进行监督学习。交叉熵损失函数可表示为：

其中，表示损失大小，/>表示类别数，/>表示输出的预测结果，在本方案中可以表示为第一预测结果/>或者目标预测结果/>；/>表示人工标注真值，在本方案可以表示为源域的遥感图像的标签信息/>，因此模型的分割损失/>可以表示为：

在进行一次或多次训练后，可以计算当前的模型损失，并与设定阈值进行比较，若小于设定阈值，则训练完成；否则继续进行训练。最终可以得到模型损失小于设定阈值处理网络模型，即为所需的遥感图像的语义分割模型。

基于上述各实施例的方案，一方面对全尺寸遥感图像进行裁剪，得到高分辨率的局部图像，再对高分辨率图像进行下采样得到上下文裁剪图像，从而可以基于该部分图像训练模型捕获遥感图像的上下文信息的能力；另一方面对高分辨率的局部图像进行进一步裁剪，从而可以基于该部分图像鼓励模型对遥感图像的细节部分进行精准分割；最后再将不同分辨率的预测结果进行对齐和融合得到最终预测结果，基于该预测结果可以有效训练模型识别遥感图像上下文信息和细节信息的能力，从而提高模型最终的分割精度。

上述实施例的方案中，利用含有标签信息的源域数据对预先构建的处理网络模型进行了有监督学习训练，可以有效提高模型的分割精度。但有监督学习的一个问题是，需要大量训练样本才能得到较好的模型性能。而遥感图像语义分割模型的实际训练过程中，通常难以得到足够数量的含有标签信息的训练样本。

针对上述问题，参照图2所示，一些实施例中，基于上下文感知的语义分割模型的训练方法还可以包括：

步骤S201：获取第二图像样本，第二图像样本为不包括标签信息的遥感图像。

具体地，为了解决有标签信息的训练样本数量不足的问题，本实施例中，还获取不包括标签信息的遥感图像作为第二图像样本，并以此样本配合第一图像样本对模型进行训练。

步骤S202：对第二图像样本进行多次区域裁剪，得到多个第二区域裁剪图像，并基于各第二区域裁剪图像进行二次区域裁剪，得到多个第二精细裁剪图像。

具体地，本步骤中的处理过程与步骤S101和S102中的相似过程类似，因此不再详述。

步骤S203：对各第二精细裁剪图像进行随机掩膜处理，得到多个掩膜目标图像，并将各掩膜目标图像输入处理网络模型中，得到第三预测结果。

具体地，掩膜处理可以通过使用二值掩膜来选择性地处理图像的某些区域，并将其他区域排除在外。掩膜是一个与原始图像具有相同尺寸的二值图像，其中的像素值为0或255。通过将掩膜与原始图像进行逐像素相乘，可以实现对图像的掩膜处理。其中，掩膜像素值为255的位置与原始图像对应位置的像素值保持不变，而掩膜像素值为0的位置则将对应位置的像素值变为0。

本实施例中，进行掩膜处理是为了遮挡第二精细裁剪图像中的部分信息，从而训练模型捕获上下文信息的能力，也即利用未被遮挡（掩膜）区域的像素去预测被遮挡（掩膜）区域的像素的信息。

其中，一些实施例中，步骤S203中对各第二精细裁剪图像进行随机掩膜处理，得到多个掩膜目标图像的过程具体可以包括：

从均匀分布中随机采样一个掩膜；对采样的掩膜和各第二精细裁剪图像分别进行逐元乘法，得到对应的掩膜目标图像。

其中，随机采样的掩膜可表示为：

式中，[·]为艾弗森括号（即方括号内的条件满足则为1，不满足则为0），r为掩码比，表示/>服从0~1的均匀分布。

进行逐元乘法得到对应的掩膜目标图像的过程可以表示为：

式中，代表逐元乘法，也即将掩膜/>进行逐元素相乘。

此外，利用处理网络模型得到第三预测结果的处理过程与步骤S103中的相似过程类似，得到的第三预测结果可以记为，过程可以表示为：

步骤S204：将各第二精细裁剪图像输入教师网络模型，得到对应的伪标签信息；其中，教师网络模型的权重基于处理网络模型的权重进行指数移动平均处理得到。

具体地，对于没有标注的标签信息的目标域图像（第二图像样本），需要利用伪标签信息作为掩膜目标图像预测的参考来进行自训练。采用教师-学生网络模型作为自训练策略，初始时刻，学生网络为通过前述实施例的方法训练后的处理网络模型/>，此时教师网络模型/>和学生网络模型完全相同。将来自目标域的第二精细裁剪图像/>输入到教师网络模型/>中，得到伪标签信息/>，可以表示为：

此外，教师网络模型的权重/>基于处理网络模型/>的权重/>进行指数移动平均处理而进行更新。也即，教师网络模型/>的权重/>是处理网络模型/>的权重/>加上平滑因子/>的指数移动平均值，可以表示为：

其中表示训练步长，当/>基于/>进行更新时，它将逐渐从/>中获得增强的情境学习能力，从而增加伪标签信息的鲁棒性和时间稳定性。

具体地，当处理网络模型预测掩膜目标图像/>时，教师网络模型/>通过对未掩膜图像（第二精细裁剪图像/>）进行预测得到伪标签信息，来作为处理网络模型/>的自训练参照，辅助捕捉目标域图像的上下文信息。教师网络模型/>的权重/>基于处理网络模型的权重/>而更新，因此能够逐渐从处理网络模型/>中获得增强的情境学习能力，且鲁棒性较好。

此外，考虑到得到的伪标签信息必然存在误差，为了缩小误差导致的影响，一些实施例中，在步骤S204之后，上述方法还可以包括：判断各伪标签信息的置信度是否大于预设的置信度阈值，并舍弃置信度小于置信度阈值的伪标签信息。

如此，可以排除置信度较小（小于置信度阈值）的伪标签信息对模型训练的不利影响。

具体地，设置置信度阈值τ作为判断是否为高置信度的伪标签的依据，对步骤S204生成的伪标签信息进行筛选，得到可靠的伪标签，可以表示为：

式中，表示判断坐标为（/>）的像素的伪标签是否大于置信度阈值τ，/>表示筛选得到的高置信度的伪标签。

如此，通过将高置信度的伪标签和掩膜目标图像/>的第三预测结果/>进行比对，可以鼓励模型学习图像的上下文知识来提高分割精度。

步骤S205：基于第三预测结果和伪标签信息计算一致性损失，并在对处理网络模型进行训练的过程中，将一致性损失计入模型损失。

具体地，理论上，掩模目标图像的第三预测结果/>应与教师网络模型对不做掩膜处理的图像（第二精细裁剪图像/>）的第三预测结果/>一致，因此将/>和（若未进行伪标签信息的筛选，则为/>）计算一致性损失（即两个参数的均方差），鼓励模型学习目标域的空间上下文关系，作为鲁棒视觉识别的额外线索来增强域适应的效果。可表示为：

式中，表示一致性损失，/>表示均方差，/>为激活函数。

基于上述方案，通过引入伪标签信息，可以增加训练样本的数量，有效解决语义分割域适应任务面临的问题。同时，通过掩膜目标图像，还可以鼓励网络去捕获目标域图像的上下文信息，进而提高分割精度。通过将一致性损失计入模型损失，可以在引入伪标签信息的情况下，提高模型的训练精度。

最终，训练得到所需的遥感图像的语义分割模型后，将任意一个待分割的遥感图像输入到训练好的网络模型中，模型可以自动对其进行分割预测，得到对应的语义分割结果。

此外，本申请实施例提供一种基于上下文感知的语义分割模型的训练装置，参照图3，基于上下文感知的语义分割模型的训练装置包括：

获取模块31，用于获取第一图像样本，并对第一图像样本进行多次区域裁剪，得到多个第一区域裁剪图像；第一图像样本为包括标签信息的遥感图像，标签信息用于表示遥感图像的语义分割结果；

裁剪模块32，用于分别对各第一区域裁剪图像进行下采样，得到上下文裁剪图像，以及基于各第一区域裁剪图像进行二次区域裁剪，得到多个第一精细裁剪图像；其中，第一精细裁剪图像的尺寸与上下文裁剪图像的尺寸相同；

预测模块33，用于将对应于同一个第一区域裁剪图像的上下文裁剪图像和第一精细裁剪图像分别输入到预先构建的处理网络模型中，得到第一预测结果和第二预测结果；

融合模块34，用于将第一预测结果和第二预测结果进行融合，得到目标预测结果；

训练模块35，用于基于目标预测结果与对应的标签信息计算模型损失，并以模型损失小于设定阈值为目标，对处理网络模型进行训练，得到遥感图像的语义分割模型。

其中，关于上述的基于上下文感知的语义分割模型的训练装置过的各个模块的具体实现方法，可以参照前述方法实施例中的相应内容，此处不再赘述。

此外，本申请实施例提供一种电子设备，如图4所示，该电子设备包括存储器41和处理器42；其中，存储器41存储有计算机程序，处理器42调用并执行计算机程序时，实现上述任一实施例中的基于上下文感知的语义分割模型的训练方法。

其中，该电子设备可以是台式电脑、笔记本电脑或者服务器等。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于上下文感知的语义分割模型的训练方法，其特征在于，包括：

基于所述目标预测结果与对应的标签信息计算模型损失，并以所述模型损失小于设定阈值为目标，对所述处理网络模型进行训练，得到遥感图像的语义分割模型；

其中，所述将所述第一预测结果和所述第二预测结果进行融合，得到目标预测结果，包括：

将所述第一处理结果和所述第二处理结果对应像素的值相加，得到所述目标预测结果；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述分别对各所述第一区域裁剪图像进行下采样，得到上下文裁剪图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述处理网络模型包括特征编码器和语义解码器，所述特征编码器用于对输入的原始图像进行特征提取，生成特征向量作为输出；所述语义解码器用于根据所述特征向量中的特征信息，还原和重建所述原始图像的细节和结构。

4.根据权利要求1所述的方法，其特征在于，所述对各所述第二精细裁剪图像进行随机掩膜处理，得到多个掩膜目标图像，包括：

从均匀分布中随机采样一个掩膜；

5.根据权利要求1所述的方法，其特征在于，所述将各所述第二精细裁剪图像输入教师网络模型中，得到对应的伪标签信息之后，还包括：

舍弃置信度小于所述置信度阈值的伪标签信息。

6.一种基于上下文感知的语义分割模型的训练装置，其特征在于，包括：

训练模块，用于基于所述目标预测结果与对应的标签信息计算模型损失，并以所述模型损失小于设定阈值为目标，对所述处理网络模型进行训练，得到遥感图像的语义分割模型；

所述装置还用于：

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用并执行所述计算机程序时，实现如权利要求1至5任意一项所述的基于上下文感知的语义分割模型的训练方法。