CN113971727A

CN113971727A - 一种语义分割模型的训练方法、装置、设备和介质

Info

Publication number: CN113971727A
Application number: CN202111227554.1A
Authority: CN
Inventors: 徐鑫
Original assignee: Jingdong Kunpeng Jiangsu Technology Co Ltd
Current assignee: Jingdong Kunpeng Jiangsu Technology Co Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-25

Abstract

本发明实施例公开了一种语义分割模型的训练方法、装置、设备和介质，该方法包括：基于第一样本图像和第一样本图像对应的图像类别标签，对第一语义分割模型进行训练；将第二样本图像输入至训练结束后的第一语义分割模型，根据训练结束后的第一语义分割模型的输出，获得第二样本图像对应的第一像素语义标签；基于第二样本图像对应的显著图，对第一像素语义标签进行修正，确定修正后的第二像素语义标签；基于第二样本图像和第二像素语义标签对第二语义分割模型进行训练，并将训练结束后的第二语义分割模型作为目标语义分割模型。通过本发明实施例的技术方案，可以降低语义分割模型对密集标注数据的依赖，降低数据标注的压力。

Description

一种语义分割模型的训练方法、装置、设备和介质

技术领域

本发明实施例涉及计算机技术，尤其涉及一种语义分割模型的训练方法、装置、设备和介质。

背景技术

随着计算机技术的快速发展，可以利用基于深度学习的语义分割模型对图像进行像素级别的分割，确定出图像中的每个像素点所属于的物体类别，从而提升图像分割效果。

目前，在使用语义分割模型之前，通常利用样本图像对应的像素级别标签数据对语义分割模型进行训练，以使训练结束后的语义分割模型可以准确地进行图像分割操作。

然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的语义分割模型训练时所依赖的像素级别标签数据是需要人工标注出样本图像中的每个像素点对应的语义标签，费时费力，大大增加了数据标注的压力。

发明内容

本发明实施例提供了一种语义分割模型的训练方法、装置、设备和介质，以降低语义分割模型对密集标注数据的依赖，降低数据标注的压力。

第一方面，本发明实施例提供了一种语义分割模型的训练方法，包括：

基于第一样本图像和所述第一样本图像对应的图像类别标签，对第一语义分割模型进行训练；

将第二样本图像输入至训练结束后的第一语义分割模型，根据所述训练结束后的第一语义分割模型的输出，获得所述第二样本图像对应的第一像素语义标签；

基于所述第二样本图像对应的显著图，对所述第一像素语义标签进行修正，确定修正后的第二像素语义标签；

基于所述第二样本图像和所述第二像素语义标签对第二语义分割模型进行训练，并将训练结束后的第二语义分割模型作为目标语义分割模型。

第二方面，本发明实施例还提供了一种语义分割模型的训练装置，包括：

第一语义分割模型训练模块，用于基于第一样本图像和所述第一样本图像对应的图像类别标签，对第一语义分割模型进行训练；

第一像素语义标签获取模块，用于将第二样本图像输入至训练结束后的第一语义分割模型，根据所述训练结束后的第一语义分割模型的输出，获得所述第二样本图像对应的第一像素语义标签；

第一像素语义标签修正模块，用于基于所述第二样本图像对应的显著图，对所述第一像素语义标签进行修正，确定修正后的第二像素语义标签；

第二语义分割模型训练模块，用于基于所述第二样本图像和所述第二像素语义标签对第二语义分割模型进行训练，并将训练结束后的第二语义分割模型作为目标语义分割模型。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的语义分割模型的训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的语义分割模型的训练方法。

上述发明中的实施例具有如下优点或有益效果：

通过首先利用第一样本图像对应的图像类别标签训练第一语义分割模型，从而可以利用训练结束后的第一语义分割模型估计出第二样本图像对应的初始的像素级别的语义标签，即第一像素语义标签。然后，利用第二样本图像对应的显著图对第一像素语义标签进行修正，获得修正后准确的第二像素语义标签，从而可以利用自动获得的第二像素语义标签对第二语义分割模型进行训练，保证了第二语义分割模型的训练效果，并将训练结束后的第二语义分割模型作为目标语义分割模型，用于在使用阶段对目标图像进行准确地语义分割。可见，训练第一语义分割模型所使用的图像类别标签只需标注出图像中的物体所属类别，无需标注物体形状、大小、位置等信息，从而可以降低语义分割模型对密集标注数据的依赖，大大降低数据标注的压力，并且利用训练结束后的第一语义分割模型和显著图，可以自动获得用于训练第二语义分割模型所需要的像素级别标签数据，即第二像素语义标签，无需人工标注，从而在降低数据标注压力的基础上，可以保证第二语义分割模型的训练效果。

附图说明

图1是本发明实施例一提供的一种语义分割模型的训练方法的流程图；

图2是本发明实施例二提供的一种语义分割模型的训练方法的流程图；

图3是本发明实施例二所涉及的一种第一语义分割模型训练过程的示例；

图4是本发明实施例二所涉及的一种池化操作的示例；

图5是本发明实施例二所涉及的一种第二语义分割模型训练过程的示例；

图6是本发明实施例三提供的一种语义分割模型的训练方法的流程图；

图7是本发明实施例三所涉及的一种第三语义分割模型训练过程的示例；

图8是本发明实施例四提供的一种语义分割模型的训练装置的结构示意图；

图9是本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语义分割模型的训练方法的流程图，本实施例可适用于对语义分割模型进行训练的情况。该方法可以由语义分割模型的训练装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于电子设备中。如图1所示，该方法具体包括以下步骤：

S110、基于第一样本图像和第一样本图像对应的图像类别标签，对第一语义分割模型进行训练。

其中，第一样本图像可以包括正样本图像和负样本图像，正样本图像可以是指应用场景中的样本图像，负样本图像可以是与应用场景完全不相关的样本图像。例如，在自动驾驶场景中，可以将自动驾驶场景中的场景图像作为正样本图像。将室内场景图像、非道路场景图像等与自动驾驶场景完全无关的图像作为负样本图像。第一样本图像对应的图像类别标签可以是预先标注出的第一样本图像中所包含的物体类别。图像类别标签可以用于表征第一样本图像中出现了哪些类别的物体，并未提供图像中的物体形状、大小、位置等信息，从而可以简化标注操作，降低数据标注的压力。例如，在自动驾驶场景中，当需要识别车辆、行人、交通标识等物体时，若第一样本图像中包含车辆和行人这两个物体，则该第一样本图像对应的图像类别标签为：车辆和行人。第一语义分割模型可以是指对图像进行二维语义分割的任意一种网络模型。例如，第一语义分割模型可以是但不限于全卷积网络模型。

具体地，利用第一样本图像对应的图像类别标签对第一语义分割模型进行有监督地训练，可以使得训练后的第一语义分割模型快速地挖掘出初始的物体区域，即小视野的物体区域，此时第一语义分割模型相当于小视野语义分割模型。

S120、将第二样本图像输入至训练结束后的第一语义分割模型，根据训练结束后的第一语义分割模型的输出，获得第二样本图像对应的第一像素语义标签。

其中，第二样本图像可以是与第一样本图像相同的样本图像，也可以是与第一样本图像不同的样本图像。第一像素语义标签可以包括第二样本图像中的每个像素点所对应的语义标签。语义标签可以是指像素点所属于的物体类别。

具体地，将第二样本图像输入至训练结束后的第一语义分割模型中进行语义分割处理，并将确定的像素级别标签数据进行输出，从而基于训练结束后的第一语义分割模型输出的分割结果，可以获得第二样本图像对应的第一像素语义标签。基于第一像素语义标签可以获得第二样本图像中初始的物体区域。

S130、基于第二样本图像对应的显著图，对第一像素语义标签进行修正，确定修正后的第二像素语义标签。

其中，第二样本图像对应的显著图可以用于区分第二样本图像中的前景和背景，并且可以准确地反映出前景和背景处的边界。本实施例可以基于现有提取方式，自动提取出第二样本图像对应的显著图。

具体地，训练结束后的第一语义分割模型对第二样本图像分割出初始的物体区域可以覆盖物体的大部分区域，但可能会溢出物体边界，也就是说第一语义分割模型可能会错误地将一些背景像素预测为物体像素，或者还可能将一些像素预测为错误的类别，从而需要利用第二样本图像对应的显著图对第一像素语义标签进行修正，也就是说，利用显著图对第一语义分割模型分割出初始的物体区域进行修正，获得更加准确的第二像素语义标签，即像素级别的伪标签，以便保证第二语义分割模型的训练效果。

需要说明的是，通过利用更容易标注的图像类别标签可以挖掘出大量的初始语义像素，并结合显著图修正优化像素语义标签，从而可以基于图像类别标签自动获得训练第二语义分割模型所需的像素级别标签，无需人工标注像素级别标签，大大降低了语义分割模型对密集标注数据的依赖，进而也降低了数据标注压力。

S140、基于第二样本图像和第二像素语义标签对第二语义分割模型进行训练，并将训练结束后的第二语义分割模型作为目标语义分割模型。

其中，第二语义分割模型可以是指对图像进行二维语义分割的任意一种网络模型。例如，第二语义分割模型可以是但不限于全卷积网络模型。第二语义分割模型和第一语义分割模型的网络结构可以相同，也可以不同。

具体地，基于第二样本图像对应的第二像素语义标签，可以对第二语义分割模型进行端对端地训练，从而在不依赖密集标注数据的情况下，可以保证第二语义分割模型的训练效果，使得训练后的第二语义分割模型可以挖掘出更大更准确的物体区域，即大视野的物体区域，此时第二语义分割模型相当于大视野语义分割模型，从而可以提高分割结果的准确性。在对第二语义分割模型进行训练结束后，可以将训练结束后的第二语义分割模型作为使用阶段的目标语义分割模型，从而可以获得分割效果较佳的目标语义分割模型。例如，在使用阶段，将待处理的目标图像输入目标语义分割模型中，基于目标语义分割模型的输出，获得目标图像对应的分割结果，从而利用目标语义分割模型对目标图像进行语义分割，保证图像语义分割的准确性。

本实施例的技术方案，通过首先利用第一样本图像对应的图像类别标签训练第一语义分割模型，从而可以利用训练结束后的第一语义分割模型估计出第二样本图像对应的初始的像素级别的语义标签，即第一像素语义标签。然后，利用第二样本图像对应的显著图对第一像素语义标签进行修正，获得修正后准确的第二像素语义标签，从而可以利用自动获得的第二像素语义标签对第二语义分割模型进行训练，保证了第二语义分割模型的训练效果，并将训练结束后的第二语义分割模型作为目标语义分割模型，用于在使用阶段对目标图像进行准确地语义分割。可见，训练第一语义分割模型所使用的图像类别标签只需标注出图像中的物体所属类别，无需标注物体形状、大小、位置等信息，从而可以降低语义分割模型对密集标注数据的依赖，大大降低数据标注的压力，并且利用训练结束后的第一语义分割模型和显著图，可以自动获得用于训练第二语义分割模型所需要的像素级别标签数据，即第二像素语义标签，无需人工标注，从而在降低数据标注压力的基础上，可以保证第二语义分割模型的训练效果。

在上述技术方案的基础上，S130可以包括：确定第二样本图像对应的显著图中的前景区域与第一像素语义标签所对应的物体区域之间的重叠区域；将重叠区域中的每个像素点对应的第一像素语义标签和显著图中的背景区域中的每个像素点对应的背景标签组合为修正后的第二像素语义标签。

其中，显著图中的前景区域可以是指第二样本图像中的物体所在的准确区域，即由物体边界所组成的区域。显著图中的背景区域可以是指显著图中除前景区域之外的区域。

具体地，可以基于第一像素语义标签确定出第二样本图像中分割出的物体区域R_i，并获取物体区域R_i与显著图中的前景区域F_i的重叠区域R_i′，即落入前景区域F_i内的物体区域R_i′，从而利用显著图中的前景对初始的物体区域进行了修正。重叠区域R_i′中的每个像素点对应的语义标签不变，重叠区域R_i′之外的落入背景区域B_i中的每个像素点对应的语义标签修正为背景标签，从而获得修正后的像素级别的标签，即第二像素语义标签

其中S_i＝R′_i∪B_i，N表示像素点数量。

需要说明的是，在对第一像素语义标签进行修正过程中，可以忽略两种像素点：第一种是带有错误语义标签的像素点，第二种是没有预测到语义标签的像素点。例如，可以忽略物体区域R_i与前景区域F_i的非重叠区域，从而可以进一步保证修正后的第二像素语义标签的准确性，进而进一步保证第二语义分割模型的训练效果。

实施例二

图2为本发明实施例二提供的一种语义分割模型的训练方法的流程图，本实施例在上述各实施例的基础上，对第一语义分割模型和第二语义分割模型的训练过程进行了详细描述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例提供的语义分割模型的训练方法具有包括以下步骤：

S210、将第一样本图像输入至第一语义分割模型中，根据第一语义分割模型的输出，确定第一样本图像中的每个第一像素点预测为每个语义标签的概率值，其中，语义标签包括：与第一样本图像对应的图像类别标签相同的第一语义标签以及与图像类别标签不同的第二语义标签。

其中，语义标签可以是指应用场景中可识别出的物体类别。语义标签与可识别出的物体类别一一对应。图像类别标签可以是指第一样本图像中出现的物体类别。本实施例可以将第一样本图像中出现的物体类别作为第一语义标签，以及将第一样本图像中未出现的物体类别作为第二语义标签。

具体地，图3给出了一种第一语义分割模型训练过程的示例，如图3所示，将第一样本图像输入至第一语义分割模型中进行小视野的语义分割，确定出第一样本图像中的每个第一像素点预测为每个语义标签的概率值并进行输出，从而可以获得每个第一像素点预测为每个语义标签的概率值。

例如，第一样本图像对应的训练集

其中，I_i表示第i个第一样本图像；O_i第i个第一样本图像对应的图像类别标签；N表示第一样本图像的数量。第一语义分割模型可以表示为网络参数为θ的分割网络f(I；θ)。第一语义分割模型输出的可以是每个第一像素点预测为每个语义标签c的概率值f_c(I；θ)，其中c∈C，C为语义标签集合。

示例性地，语义标签还可以包括：第一样本图像对应的图像背景类别，图像背景类别作为第一语义标签。由于第一样本图像中一定会存在背景类别，从而也可以将图像背景类别作为一种出现的物体类别，即作为第一语义标签，以便进一步提高模型训练的准确性。

S220、对每个第一语义标签对应的各个概率值进行池化操作，确定第一语义标签对应的目标概率值。

具体地，针对每个第一语义标签，即第一样本图像中出现的每个物体类别，可以对第一像素点预测为该第一语义标签的概率值进行池化操作，获得池化后该第一语义标签对应的目标概率值。

示例性地，S220可以包括：针对每个第一语义标签，将第一样本图像中预测为第一语义标签的各个第一像素点所对应的概率值进行平均池化操作，确定出第一语义标签对应的目标概率值。

具体地，对每个第一语义标签，可以对各个第一像素点预测为该第一语义标签的概率值进行取平均操作，获得的平均值作为该第一语义标签对应的目标概率值，即

例如，图4给出了一种池化操作的示例，如图4所示，在将图像背景类别也作为第一语义标签时，可以针对图像背景类别和第一样本图像中出现的每个物体类别分别进行平均池化，获得图像背景类别对应的目标概率值以及出现的每个物体类别对应的目标概率值。

S230、对每个第二语义标签对应的各个概率值进行池化操作，确定第二语义标签对应的目标概率值。

具体地，针对每个第二语义标签，即第一样本图像中未出现的每个物体类别，可以对第一像素点预测为该第二语义标签的概率值进行池化操作，获得池化后该第二语义标签对应的目标概率值

示例性地，S230可以包括：针对每个第二语义标签，将第一样本图像中预测为第二语义标签的各个第一像素点所对应的概率值进行最大池化操作，确定出第二语义标签对应的目标概率值。

具体地，如图4所示，对每个第二语义标签，即第一样本图像中未出现的每个物体类别，可以对各个第一像素点预测为该第二语义标签的概率值进行比较，将最大的概率值作为该第二语义标签对应的目标概率值，即

需要说明的是，通过对第一语义标签对应的各个概率值和第二语义标签对应的各个概率值进行池化操作，从而可以利用图像类别标签对第一语义分割模型进行端对端地训练，提高训练效率。

S240、基于第一损失函数，根据第一语义标签对应的目标概率值和第二语义标签对应的目标概率值，确定第一训练误差，并将第一训练误差反向传播至第一语义分割模型，调整第一语义分割模型中的网络参数，直至达到预设收敛条件时训练结束。

具体地，如图3所示，利用第一损失函数，基于各个目标概率值可以计算出第一训练误差，并将第一训练误差反向传播至第一语义分割模型，调整第一语义分割模型中的网络参数，直至达到预设收敛条件时训练结束，比如第一训练误差小于预设误差或者误差变化范围趋于稳定，或者迭代训练次数等于预设次数时，表明第一语义分割模型训练完成，此时训练结束的第一语义分割模型可以准确地分割初始的物体区域。

示例性地，可以基于如下第一损失函数确定第一训练误差：

其中，loss₁为第一训练误差；

为第一语义标签c₊对应的目标概率值；

为第二语义标签c_-对应的目标概率值；|c₊|为第一语义标签的数量；|c_-|为第二语义标签c_-的数量。具体地，通过利用上述第一损失函数，对于第一语义标签，即出现的物体类别而言，会鼓励尽可能多的像素点预测为第一语义标签；对于第二语义标签，即未出现的物体类别而言，若分割结果中有一个像素点预测为第二语义标签时，会受到一个很大的惩罚，从而可以利用图像类别标签对第一语义分割模型进行端对端地训练，保证训练效果。

S250、将第二样本图像输入至训练结束后的第一语义分割模型，根据训练结束后的第一语义分割模型的输出，获得第二样本图像对应的第一像素语义标签。

S260、基于第二样本图像对应的显著图，对第一像素语义标签进行修正，确定修正后的第二像素语义标签。

S270、将第二样本图像输入至第二语义分割模型中，根据第二语义分割模型的输出，确定第二样本图像中的每个第二像素点预测为每个语义标签的概率值。

具体地，图5给出了一种第二语义分割模型训练过程的示例，如图5所示，将第二样本图像输入至第二语义分割模型中进行大视野的语义分割，确定出第二样本图像中的每个第二像素点预测为每个语义标签的概率值并进行输出，从而可以获得每个第二像素点预测为每个语义标签的概率值。

例如，第二样本图像对应的训练集

其中，I_i表示第i个第二样本图像；S_i第i个第二样本图像对应的第二像素语义标签；N表示第二样本图像的数量。第二语义分割模型可以表示为网络参数为θ的分割网络

第二语义分割模型输出的可以是每个第二像素点u预测为每个语义标签c的概率值

其中c∈C，C为语义标签集合。

S280、基于第二损失函数，根据每个第二像素点预测为每个语义标签的概率值和第二像素语义标签确定第二训练误差，并将第二训练误差反向传播至第二语义分割模型，调整第二语义分割模型中的网络参数，直至达到预设收敛条件时训练结束，并将训练结束后的第二语义分割模型作为目标语义分割模型。

具体地，如图5所示，利用第二损失函数，基于各个第二像素点对应的概率值可以计算出第二训练误差，并将第二训练误差反向传播至第二语义分割模型，调整第二语义分割模型中的网络参数，直至达到预设收敛条件时训练结束，比如第二训练误差小于预设误差或者误差变化范围趋于稳定，或者迭代训练次数等于预设次数时，表明第二语义分割模型训练完成，此时训练结束的第二语义分割模型可以更加准确地分割大视野的物体区域。

需要说明的是，本实施例利用像素级别标签数据对第二语义分割模型进行训练，从而可以解决大视野物体区域定位不准确的问题，并且可以消除像素级别标签数据中的一些噪声，从而可以获得分割效果更好的目标语义分割模型。

示例性地，可以基于如下第二损失函数确定第二训练误差：

其中，loss₂为第二训练误差；

为第二样本图像中的第二像素点u预测为语义标签c的概率值；y_u,c为符号函数，在基于第二像素语义标签确定第二像素点u预测为的语义标签c为真实标签时取值为1，否则为0；S_c为第二样本图像中的各个第二像素点组成的像素集合；|S_c|为第二像素点的数量；C为语义标签集合。

本实施例的技术方案，通过对第一语义标签对应的各个概率值和第二语义标签对应的各个概率值进行池化操作，从而可以利用图像类别标签对第一语义分割模型进行端对端地训练，提高训练效率。通过利用像素级别的第二像素语义标签对第二语义分割模型进行训练，从而可以解决大视野物体区域定位不准确的问题，并且可以消除像素级别标签数据中的一些噪声，进而可以获得分割效果更好的目标语义分割模型。

实施例三

图6为本发明实施例三提供的一种语义分割模型的训练方法的流程图，本实施例在上述各实施例的基础上，对“将训练结束后的第二语义分割模型作为目标语义分割模型”进行了优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图6，本实施例提供的语义分割模型的训练方法具有包括以下步骤：

S610、基于第一样本图像和第一样本图像对应的图像类别标签，对第一语义分割模型进行训练。

S620、将第二样本图像输入至训练结束后的第一语义分割模型，根据训练结束后的第一语义分割模型的输出，获得第二样本图像对应的第一像素语义标签。

S630、基于第二样本图像对应的显著图，对第一像素语义标签进行修正，确定修正后的第二像素语义标签。

S640、基于第二样本图像和第二像素语义标签对第二语义分割模型进行训练。

S650、将第三样本图像输入至训练结束后的第二语义分割模型，根据训练结束后的第二语义分割模型的输出，获得第三样本图像对应的第三像素语义标签。

其中，第三样本图像可以是与第一样本图像相同的样本图像，也可以是与第一样本图像不同的样本图像。第三像素语义标签可以包括第三样本图像中的每个像素点所对应的语义标签。

具体地，图7给出了一种第三语义分割模型训练过程的示例，如图7所示，将第三样本图像输入至训练结束后的第二语义分割模型中进行语义分割处理，并将确定的像素级别标签数据进行输出，从而基于训练结束后的第二语义分割模型输出的分割结果，可以获得更加准确地像素级别的第三像素语义标签。

S660、利用条件随机场模型，对第三像素语义标签进行处理，获得处理后的第四像素语义标签。

具体地，第三像素语义标签中的每个像素点具有一个语义标签和相应的概率值作为观测值，从而可以将第三像素语义标签中的每个像素点作为节点，像素点与像素点间的关系作为边，构造出一个条件随机场模型(Conditional Random Field，CRF)，并可以在该条件随机场模型中，通过观测变量来推断出每个像素点对应的语义标签，从而可以进一步对第三像素语义标签进行修正处理，获得更加准确的第四像素语义标签。

S670、基于第三样本图像和第四像素语义标签对第三语义分割模型进行训练，并将训练结束后的第三语义分割模型作为目标语义分割模型。

其中，第三语义分割模型可以是指对图像进行二维语义分割的任意一种网络模型。例如，第三语义分割模型可以是但不限于全卷积网络模型。第三语义分割模型可以与第一语义分割模型或者第二语义分割模型的网络结构相同，也可以不同。

具体地，如图7所示，通过利用更加准确的第四像素语义标签，对第三语义分割模型进行训练，使得训练后的第三语义分割模型可以挖掘出更大视野的物体区域，从而可以获得分割效果更好的目标语义分割模型，进一步提高语义分割的准确性。例如，将第三样本图像输入至第三语义分割模型中，根据第三语义分割模型的输出，确定第三样本图像中的每个第三像素点预测为每个语义标签的概率值。基于第三损失函数，根据每个第三像素点预测为每个语义标签的概率值和第四像素语义标签确定第三训练误差，并将第三训练误差反向传播至第三语义分割模型，调整第三语义分割模型中的网络参数，直至达到预设收敛条件时训练结束，比如第三训练误差小于预设误差或者误差变化范围趋于稳定，或者迭代训练次数等于预设次数时，表明第三语义分割模型训练完成，此时训练结束的第二语义分割模型可以更加准确地分割更大视野的物体区域，进一步提升了分割效果。

示例性地，可以基于与上述实施例中的第二损失函数类似的如下第三损失函数确定第三训练误差：

其中，loss₃为第三训练误差；

为第三样本图像中的第三像素点u预测为语义标签c的概率值；y_u,c为符号函数，在基于第四像素语义标签确定第三像素点u预测为的语义标签c为真实标签时取值为1，否则为0；S_c为第三样本图像中的各个第三像素点组成的像素集合；|S_c|为第三像素点的数量；C为语义标签集合。

示例性地，S670中的“基于第三样本图像和第四像素语义标签对第三语义分割模型进行训练”，可以包括：基于第三样本图像对应的显著图，对第四像素语义标签进行修正，确定修正后的第五像素语义标签；基于第三样本图像和第五像素语义标签，对第三语义分割模型进行训练。

具体地，可以基于与上述实施例中利用第二样本图像对应的显著图对第一像素语义标签进行修正类似的过程，基于第三样本图像对应的显著图，对第四像素语义标签进行修正，从而获得物体边界更加准确的第五像素语义标签。例如，确定第三样本图像对应的显著图中的前景区域与第四像素语义标签所对应的物体区域之间的重叠区域；将重叠区域中的每个像素点对应的第四像素语义标签和显著图中的背景区域中的每个像素点对应的背景标签组合为修正后的第五像素语义标签。利用第五像素语义标签对第三语义分割模型进行训练的具体过程可参见上述描述的利用第四像素语义标签对第三语义分割模型进行训练的部分，此处不再赘述。通过利用第三样本图像对应的显著图对第四像素语义标签进行修正，可以获得更加准确的第五像素语义标签，从而提高第三语义分割模型的训练效果，进而可以获得分割效果更好的目标语义分割模型，进一步提高语义分割的准确性。

需要说明的是，本实施例可以按照上述类似的训练过程，基于训练结束后的第三语义分割模型继续进行语义分割模型的迭代训练，直到获得分割效果符合业务要求的目标语义分割模型为止。

本实施例的技术方案，通过利用条件随机场模型，对第三像素语义标签进行处理，获得处理后更加准确的第四像素语义标签，从而利用第四像素语义标签对第三语义分割模型进行训练，可以使得训练后的第三语义分割模型挖掘出更大视野的物体区域，进而获得分割效果更好的目标语义分割模型，进一步提高语义分割的准确性。

以下是本发明实施例提供的语义分割模型的训练装置的实施例，该装置与上述各实施例的语义分割模型的训练方法属于同一个发明构思，在语义分割模型的训练装置的实施例中未详尽描述的细节内容，可以参考上述语义分割模型的训练方法的实施例。

实施例四

图8为本发明实施例四提供的一种语义分割模型的训练装置的结构示意图，本实施例可适用于对语义分割模型进行训练的情况。如图8所示，该装置具体包括：第一语义分割模型训练模块810、第一像素语义标签获取模块820、第一像素语义标签修正模块830和第二语义分割模型训练模块840。

其中，第一语义分割模型训练模块810，用于基于第一样本图像和第一样本图像对应的图像类别标签，对第一语义分割模型进行训练；第一像素语义标签获取模块820，用于将第二样本图像输入至训练结束后的第一语义分割模型，根据训练结束后的第一语义分割模型的输出，获得第二样本图像对应的第一像素语义标签；第一像素语义标签修正模块830，用于基于第二样本图像对应的显著图，对第一像素语义标签进行修正，确定修正后的第二像素语义标签；第二语义分割模型训练模块840，用于基于第二样本图像和第二像素语义标签对第二语义分割模型进行训练，并将训练结束后的第二语义分割模型作为目标语义分割模型。

可选地，第一语义分割模型训练模块810，包括：

概率值确定单元，用于将第一样本图像输入至第一语义分割模型中，根据第一语义分割模型的输出，确定第一样本图像中的每个第一像素点预测为每个语义标签的概率值，其中，语义标签包括：与第一样本图像对应的图像类别标签相同的第一语义标签以及与图像类别标签不同的第二语义标签；

第一池化单元，用于对每个第一语义标签对应的各个概率值进行池化操作，确定第一语义标签对应的目标概率值；

第二池化单元，用于对每个第二语义标签对应的各个概率值进行池化操作，确定第二语义标签对应的目标概率值；

第一语义分割模型训练单元，用于基于第一损失函数，根据第一语义标签对应的目标概率值和第二语义标签对应的目标概率值，确定第一训练误差，并将第一训练误差反向传播至第一语义分割模型，调整第一语义分割模型中的网络参数，直至达到预设收敛条件时训练结束。

可选地，第一池化单元，具体用于：

针对每个第一语义标签，将第一样本图像中预测为第一语义标签的各个第一像素点所对应的概率值进行平均池化操作，确定出第一语义标签对应的目标概率值。

可选地，第二池化单元，具体用于：

针对每个第二语义标签，将第一样本图像中预测为第二语义标签的各个第一像素点所对应的概率值进行最大池化操作，确定出第二语义标签对应的目标概率值。

可选地，语义标签还包括：第一样本图像对应的图像背景类别，图像背景类别作为第一语义标签。

可选地，基于如下第一损失函数确定第一训练误差：

其中，loss₁为第一训练误差；

为第一语义标签c₊对应的目标概率值；

为第二语义标签c_-对应的目标概率值；|c₊|为第一语义标签的数量；|c_-|为第二语义标签c_-的数量。

可选地，第一像素语义标签修正模块830，具体用于：

确定第二样本图像对应的显著图中的前景区域与第一像素语义标签所对应的物体区域之间的重叠区域；将重叠区域中的每个像素点对应的第一像素语义标签和显著图中的背景区域中的每个像素点对应的背景标签组合为修正后的第二像素语义标签。

可选地，第二语义分割模型训练模块840，具体用于：

将第二样本图像输入至第二语义分割模型中，根据第二语义分割模型的输出，确定第二样本图像中的每个第二像素点预测为每个语义标签的概率值；基于第二损失函数，根据每个第二像素点预测为每个语义标签的概率值和第二像素语义标签确定第二训练误差，并将第二训练误差反向传播至第二语义分割模型，调整第二语义分割模型中的网络参数，直至达到预设收敛条件时训练结束。

可选地，基于如下第二损失函数确定第二训练误差：

其中，loss₂为第二训练误差；

可选地，该装置还包括：

第三像素语义标签获取模块，用于将第三样本图像输入至训练结束后的第二语义分割模型，根据训练结束后的第二语义分割模型的输出，获得第三样本图像对应的第三像素语义标签；

第四像素语义标签获取模块，用于利用条件随机场模型，对第三像素语义标签进行处理，获得处理后的第四像素语义标签；

第三语义分割模型训练模块，用于基于第三样本图像和第四像素语义标签对第三语义分割模型进行训练，并将训练结束后的第三语义分割模型作为目标语义分割模型。

可选地，第三语义分割模型训练模块，具体用于：

基于第三样本图像对应的显著图，对第四像素语义标签进行修正，确定修正后的第五像素语义标签；基于第三样本图像和第五像素语义标签，对第三语义分割模型进行训练。

本发明实施例所提供的语义分割模型的训练装置可执行本发明任意实施例所提供的语义分割模型的训练方法，具备执行语义分割模型的训练方法相应的功能模块和有益效果。

值得注意的是，上述语义分割模型的训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例五

图9为本发明实施例五提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图9显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的一种语义分割模型的训练方法步骤，该方法包括：

基于第一样本图像和第一样本图像对应的图像类别标签，对第一语义分割模型进行训练；

将第二样本图像输入至训练结束后的第一语义分割模型，根据训练结束后的第一语义分割模型的输出，获得第二样本图像对应的第一像素语义标签；

基于第二样本图像对应的显著图，对第一像素语义标签进行修正，确定修正后的第二像素语义标签；

基于第二样本图像和第二像素语义标签对第二语义分割模型进行训练，并将训练结束后的第二语义分割模型作为目标语义分割模型。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的语义分割模型的训练方法的技术方案。

实施例六

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的语义分割模型的训练方法步骤，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语义分割模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于第一样本图像和所述第一样本图像对应的图像类别标签，对第一语义分割模型进行训练，包括：

将第一样本图像输入至第一语义分割模型中，根据所述第一语义分割模型的输出，确定所述第一样本图像中的每个第一像素点预测为每个语义标签的概率值，其中，所述语义标签包括：与所述第一样本图像对应的图像类别标签相同的第一语义标签以及与所述图像类别标签不同的第二语义标签；

对每个所述第一语义标签对应的各个概率值进行池化操作，确定所述第一语义标签对应的目标概率值；

对每个所述第二语义标签对应的各个概率值进行池化操作，确定所述第二语义标签对应的目标概率值；

基于第一损失函数，根据所述第一语义标签对应的目标概率值和所述第二语义标签对应的目标概率值，确定第一训练误差，并将所述第一训练误差反向传播至所述第一语义分割模型，调整所述第一语义分割模型中的网络参数，直至达到预设收敛条件时训练结束。

3.根据权利要求2所述的方法，其特征在于，所述对每个所述第一语义标签对应的各个概率值进行池化操作，确定所述第一语义标签对应的目标概率值，包括：

针对每个所述第一语义标签，将所述第一样本图像中预测为所述第一语义标签的各个第一像素点所对应的概率值进行平均池化操作，确定出所述第一语义标签对应的目标概率值。

4.根据权利要求2所述的方法，其特征在于，所述对每个所述第二语义标签对应的各个概率值进行池化操作，确定所述第二语义标签对应的目标概率值，包括：

针对每个所述第二语义标签，将所述第一样本图像中预测为所述第二语义标签的各个第一像素点所对应的概率值进行最大池化操作，确定出所述第二语义标签对应的目标概率值。

5.根据权利要求2所述的方法，其特征在于，所述语义标签还包括：所述第一样本图像对应的图像背景类别，所述图像背景类别作为所述第一语义标签。

6.根据权利要求2所述的方法，其特征在于，基于如下第一损失函数确定第一训练误差：

其中，loss₁为第一训练误差；

为所述第一语义标签c₊对应的目标概率值；

为所述第二语义标签c_-对应的目标概率值；|c₊|为所述第一语义标签的数量；|c_-|为所述第二语义标签c_-的数量。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第二样本图像对应的显著图，对所述第一像素语义标签进行修正，确定修正后的第二像素语义标签，包括：

确定所述第二样本图像对应的显著图中的前景区域与所述第一像素语义标签所对应的物体区域之间的重叠区域；

将所述重叠区域中的每个像素点对应的所述第一像素语义标签和所述显著图中的背景区域中的每个像素点对应的背景标签组合为修正后的第二像素语义标签。

8.根据权利要求1所述的方法，其特征在于，所述基于所述第二样本图像和所述第二像素语义标签对第二语义分割模型进行训练，包括：

将所述第二样本图像输入至第二语义分割模型中，根据所述第二语义分割模型的输出，确定所述第二样本图像中的每个第二像素点预测为每个语义标签的概率值；

基于第二损失函数，根据所述每个第二像素点预测为每个语义标签的概率值和所述第二像素语义标签确定第二训练误差，并将所述第二训练误差反向传播至所述第二语义分割模型，调整所述第二语义分割模型中的网络参数，直至达到预设收敛条件时训练结束。

9.根据权利要求8所述的方法，其特征在于，基于如下第二损失函数确定第二训练误差：

其中，loss₂为第二训练误差；

为所述第二样本图像中的第二像素点u预测为语义标签c的概率值；y_u,c为符号函数，在基于所述第二像素语义标签确定第二像素点u预测为的语义标签c为真实标签时取值为1，否则为0；S_c为所述第二样本图像中的各个第二像素点组成的像素集合；|S_c|为所述第二像素点的数量；C为语义标签集合。

10.根据权利要求1-9任一所述的方法，其特征在于，所述将训练结束后的第二语义分割模型作为目标语义分割模型，包括：

将第三样本图像输入至训练结束后的第二语义分割模型，根据所述训练结束后的第二语义分割模型的输出，获得所述第三样本图像对应的第三像素语义标签；

利用条件随机场模型，对所述第三像素语义标签进行处理，获得处理后的第四像素语义标签；

基于所述第三样本图像和所述第四像素语义标签对第三语义分割模型进行训练，并将训练结束后的第三语义分割模型作为目标语义分割模型。

11.根据权利要求10所述的方法，其特征在于，所述基于所述第三样本图像和所述第四像素语义标签对第三语义分割模型进行训练，包括：

基于所述第三样本图像对应的显著图，对所述第四像素语义标签进行修正，确定修正后的第五像素语义标签；

基于所述第三样本图像和所述第五像素语义标签，对第三语义分割模型进行训练。

12.一种语义分割模型的训练装置，其特征在于，包括：

13.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的语义分割模型的训练方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一所述的语义分割模型的训练方法。