CN112308862A

CN112308862A - 图像语义分割模型训练、分割方法、装置以及存储介质

Info

Publication number: CN112308862A
Application number: CN202010502189.XA
Authority: CN
Inventors: 姚霆; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2021-02-02

Abstract

本公开提供了一种图像语义分割模型训练、图像语义分割方法、装置以及存储介质，涉及计算机技术领域，其中方法包括：使用判别器模型对语义分割模型生成的语义分割图像进行判决处理；构建与判别器模型相对应的损失函数，包括：基于目标域图像生成的目标域损失函数；目标域损失函数包括基于图像块的语义一致性生成的第一语义损失函数、基于聚类簇的语义一致性生成的第二语义损失函数和基于图像空间逻辑构造生成的第三语义损失函数中的至少一个。本公开的方法、装置以及存储介质，在训练过程中以正则化项的形式对模型在目标域图像上的语义分割模型推理结果进行约束，对图像语义分割模型进行跨域迁移，提高了图像语义分割模型训练的效率和准确性。

Description

图像语义分割模型训练、分割方法、装置以及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像语义分割模型训练、图像语义分割方法、装置以及存储介质。

背景技术

图像语义分割的目标是辨别图像中的每个像素的语义类别。可以使用神经网络建立深度语义分割模型，深度语义分割模型的训练需要大量带有像素级标注的训练数据，但是，获取这些训练数据是十分昂贵且缓慢的。目前，在模型训练中使用计算机合成的图像，但是，计算机合成的图像和真实图像存在着较大的差异，这一差异导致使用合成图像训练的语义分割模型在真实图像上表现不佳，即出现“域失配”的现象。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种图像语义分割模型训练、图像语义分割方法、装置以及存储介质。

根据本公开的一个方面，提供一种图像语义分割模型训练方法，包括：构建用于对图像进行语义分割的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；基于源域图像对所述语义分割模型进行训练；使用所述判别器模型对所述语义分割模型生成的语义分割图像进行判决处理；构建与所述判别器模型相对应的损失函数；其中，所述损失函数包括：基于所述目标域图像生成的目标域损失函数；所述目标域损失函数包括：基于图像块的语义一致性生成的第一语义损失函数、基于聚类簇的语义一致性生成的第二语义损失函数和基于图像空间逻辑构造生成的第三语义损失函数中的至少一个；根据所述损失函数对所述语义分割模型和所述判别器模型进行调整。

可选地，利用超像素分割算法将所述目标域图像分割为多个超像素；其中，所述图像块与所述超像素相对应；获取所述超像素中的像素被预测为第一类别的第一预测概率；其中，所述第一类别为此超像素对应的类别；根据所述第一预测概率、对所述超像素进行语义一致性的正则化处理的规则生成所述第一语义损失函数。

可选地，所述第一语义损失函数为：

其中，x_t为所述目标域图像，

为所述第一类别，

为第i个超像素的第j个像素，

为所述第一预测概率，λ_pc为阈值，I_(·)为示性函数，表示第i个超像素的第j个像素是否属于第一类别，i为超像素的编号，j为像素的编号。

可选地，利用残差卷积网络提取所述超像素的特征向量；基于所述特征向量，使用聚类算法将所述超像素进行分簇处理，获取多个聚类簇；获取所述超像素中的像素被预测为第二类别的第二预测概率；其中，所述第二类别为与此超像素所归属的聚类簇对应的类别；根据所述第二预测概率、对所述聚类簇进行语义一致化的正则化处理的规则生成所述第二语义损失函数。

可选地，所述第二语义损失函数为：

其中，x_t为所述目标域图像，

为所述第二类别，

为第i个超像素S_i中的第j个像素，S_i表示第i个超像素，超像素S_i被归属于第k个聚类簇C_k；λ_cc为阈值，

为第二预测概率；I_(·)为示性函数，取值为1或0。

可选地，按照所述超像素的边界将所述语义分割预测结果划分为多列；根据每列中的各个超像素的类别构成类别序列；使用训练好的编码器模型对所述类别序列进行处理，生成序列特征；使用训练好的解码器模型对所述序列特征进行重建，基于学习的空间逻辑构造信息确定所述超像素被预测为第三类别的第三预测概率；其中，所述第三类别为此超像素对应的、在所述序列特征进行重建过程中输出的类别；获取所述超像素中的像素被预测为第三类别的第四预测概率；根据所述第三预测概率和第四预测概率、对所述超像素进行正则化处理的规则生成所述第三语义损失函数。

可选地，所述第三语义损失函数为：

其中，S_i为第i个超像素，

为第i个超像素中的第j个像素，

为第四预测概率，

为第三预测概率，λ_sl为概率阈值，I(·)为示性函数。

可选地，基于LSTM网络模型构建所述编码器模型和所述解码器模型。

可选地，所述损失函数还包括：基于所述源域图像生成的源域损失函数、对于所述源域图像和所述目标域图像的数学期望函数。

可选地，利用全卷积神经网络构建所述语义分割模型和所述判别器模型；所述源域图像包括：合成图像；所述目标域图像包括：真实图像。

根据本公开的第二方面，提供一种图像语义分割方法，包括：获取训练好的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；使用所述语义分割模型对图像进行语义分割处理；其中，所述生成式对抗网络模型是通过如上所述的训练方法训练得到。

根据本公开的第三方面，提供一种图像语义分割模型训练装置，包括：模型构建模块，用于构建用于对图像进行语义分割的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；模型训练模块，用于将基于源域图像对所述语义分割模型进行训练；图像判别模块，用于使用所述判别器模型对所述语义分割模型生成的语义分割图像进行判决处理；损失函数构建模块，用于构建与所述判别器模型相对应的损失函数；其中，所述损失函数包括：基于所述目标域图像生成的目标域损失函数；所述目标域损失函数包括：基于图像块的语义一致性生成的第一语义损失函数、基于聚类簇的语义一致性生成的第二语义损失函数和基于图像空间逻辑构造生成的第三语义损失函数中的至少一个；模型调整模块，用于根据所述损失函数对所述语义分割模型和所述判别器模型进行调整。

根据本公开的第四方面，提供一种图像语义分割装置，包括：模型获取模块，用于获取训练好的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；图像处理模块，用于使用所述语义分割模型对图像进行语义分割处理；其中，所述生成式对抗网络模型是通过如上所述的训练方法训练得到。

根据本公开的第五方面，提供一种图像语义分割模型训练装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第六方面，提供一种图像语义分割装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第七方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上的图像语义分割模型训练方法，和/或，执行如上的图像语义分割方法。

本公开的图像语义分割模型训练、图像语义分割方法、装置以及存储介质，获取在目标域中无需标签信息的、在语义分割任务场景下通用的规律，通过基于图像块内语义一致性、聚类簇内语义一致性和空间逻辑的合理性设置评估图像语义分割质量的三个约束条件，并在训练过程中以正则化项的形式对模型在目标域图像上的语义分割模型推理结果进行约束，对图像语义分割模型进行跨域迁移，实现对目标域中图像进行正确语义分割，提高了图像语义分割模型训练的效率和准确性。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为现有技术中的图像语义分割的示意图；

图2为根据本公开的图像语义分割模型训练方法的一个实施例的流程示意图；

图3为根据本公开的图像语义分割模型训练方法的一个实施例中的生成第一语义损失函数的训练示意图；

图4为根据本公开的图像语义分割模型训练方法的一个实施例中的基于图像块的语义一致性评估分割质量的示意图；

图5为根据本公开的图像语义分割模型训练方法的一个实施例中的生成第二语义损失函数的训练示意图；

图6为根据本公开的图像语义分割模型训练方法的一个实施例中的基于聚类簇的语义一致性评估分割质量的示意图；

图7为根据本公开的图像语义分割模型训练方法的一个实施例中的生成第三语义损失函数的训练示意图；

图8A为根据本公开的图像语义分割模型训练方法的一个实施例中的基于图像空间逻辑构造评估分割质量的示意图；

图8B为根据本公开的图像语义分割模型训练方法的一个实施例中的利用LSTM编解码器来学习预测结果中的空间逻辑的示意图；

图9为根据本公开的图像语义分割模型训练方法的一个实施例中的基于对抗学习机制的框架应用示意图；

图10为根据本公开的图像语义分割方法的一个实施例的流程示意图；

图11为根据本公开的图像语义分割模型训练装置的一个实施例的模块示意图；

图12为根据本公开的图像语义分割模型训练装置的一个实施例中的损失函数构建模块的模块示意图；

图13为根据本公开的图像语义分割模型训练装置的另一个实施例的模块示意图；

图14为根据本公开的图像语义分割装置的一个实施例的流程示意图；

图15为根据本公开的图像语义分割装置的另一个实施例的流程示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。

下文中的“第一”、“第二”等仅用于描述上相区别，并没有其它特殊的含义。

在现有技术中，基于有监督学习的深度语义分割模型需要大量带有像素级标注的训练数据，获取这些数据是十分昂贵且缓慢的。例如Cityscapes数据集所包含的5000幅带有高质量像素级标注的图像中，平均每一幅图像都需要一名工作人员花费超过1.5个小时来进行全面的标注。

全卷积神经网络FCN(Fully Convolutional Networks)在图像语义分割这个空间密集的分类任务中取得了突破性进展。在全卷积神经网络的基础上，利用低成本的计算机合成数据训练图像语义分割模型也成为研究的热点之一。受限于现有技术，计算机合成的图像仍然和真实世界的图像存在着较大的差异，通过肉眼观察即可轻松地区分合成图像与真实图像，这一差异导致使用合成图像训练的语义分割模型在真实图像上表现不佳，即“域失配”。

如图1所示，在源域数据上训练的FCN可以在合成图像上取得十分准确的语义分割结果，而当将FCN应用在目标域图像上时，FCN的推理结果出现大量的错误。发明人认为导致图像语义分割模型域失配的主要原因是模型在训练过程中在源域中的合成图像数据上发生了过拟合，鉴于无监督的设定，目标域没有任何可供利用标注信息，无法利用目标域中的训练样本进行模型微调。

图2为根据本公开的图像语义分割模型训练方法的一个实施例的流程示意图，如图2所示：

步骤201，构建用于对图像进行语义分割的图像语义分割模型。

在一个实施例中，图像语义分割模型为生成式对抗网络模型(GenerativeAdversarial Network，GAN)，包括语义分割模型和判别器模型(Discriminative Model)。可以利用全卷积神经网络构建语义分割模型和判别器模型。源域图像包括合成图像等，目标域图像包括真实图像等。

生成式对抗网络是一种深度学习模型，通过语义分割模型和判别器模型的互相博弈学习产生好的输出。语义分割模型为生成器模型(Discriminative Model)，用于进行图像语义分割；判别器模型用于在训练时，判别语义分割模型输出的语义分割图像的真伪，基于“博奕论”的思想进行训练。

步骤202，基于源域图像对语义分割模型进行训练。

在一个实施例中，源域图像为通过计算机技术合成的合成图像，目标域图像是现实世界中的真实图像。选取源域图像作为训练集，对语义分割模型进行训练。在训练后，将源域图像、目标域图像输入语义分割模型，生成与源域图像、目标域图像对应的语义分割图像。

步骤203，使用判别器模型对语义分割模型生成的语义分割图像进行判决处理。

在一个实施例中，判别器模型相当于一个二分类器，接收语义分割模型输出的与源域图像、目标域图像相对应的语义分割图像，判别语义分割图像是否为真实的语义分割图像，而不是语义分割模型输出的语义分割图像，可以生成语义分割图像为真实的语义分割图像的概率等。

语义分割模型的目标是尽量生成与源域图像、目标域图像相对应的真实的语义分割图像，用以欺骗判别器模型D；判别器模型D的目标是尽量识别出语义分割模型生成的语义分割图像，语义分割模型和判别器模型D构成了一个动态的“博弈过程”。

步骤204，构建与判别器模型相对应的损失函数。

在一个实施例中，损失函数包括基于目标域图像生成的目标域损失函数；目标域损失函数包括基于图像块的语义一致性生成的第一语义损失函数、基于聚类簇的语义一致性生成的第二语义损失函数和基于图像空间逻辑构造生成的第三语义损失函数中的至少一个。

步骤205，根据损失函数对语义分割模型和判别器模型进行调整。

在一个实施例中，可以基于损失函数对语义分割模型、判别器模型的参数进行调整，以达到训练目标。基于损失函数对生成式对抗网络模型进行训练，可以通过现有的迭代训练等方法对语义分割模型和判别器模型进行调整。

上述实施例中的图像语义分割模型训练方法，通过在目标域获取无需标签信息的、在语义分割任务场景下通用的规律来缓解模型过度拟合源域数据的问题；设置评估图像语义分割质量的三个约束条件，即图像块内语义一致性、聚类簇内语义一致性和空间逻辑的合理性；图像块内语义一致性、聚类簇内语义一致性分别基于图像块内的像素之间以及同属一个聚类簇的图像块之间的语义类别的一致性来指导语义分割，空间逻辑的合理性基于图像块之间的空间关系将标签的预测关联到上下文中；通过设置约束条件，提出了推理迁移正则化(Regularizer of Prediction Transfer，RPT)方法，用于对使用合成数据训练而在真实图像上进行推理的图像语义分割模型进行跨域迁移。

在一个实施例中，目标域损失函数在模型的训练过程中可以以正则化项的形式生效，将过拟合到源域图像的模型迁移到目标域中，进而实现对目标域图像进行正确语义分割的目标，能提升由合成数据训练得到的图像语义分割模型在真实数据上的语义分割性能表现。

正则化约束被称为推理迁移正则化，分别是基于图像块内语义一致性的正则化、基于聚类簇内语义一致性的正则化和基于空间逻辑的正则化，用于指导在源域训练的图像语义分割模型向目标域进行迁移。

图3为根据本公开的图像语义分割模型训练方法的一个实施例中的生成第一语义损失函数的训练示意图，如图3所示：

步骤301，利用超像素分割算法将目标域图像分割为多个超像素。

在一个实施例中，图像块与超像素相对应。例如，图像块与超像素一一对应,即一个超像素为一个图像块。

步骤302，获取超像素中的像素被预测为第一类别的第一预测概率。第一类别为此超像素对应的类别。例如，超像素属于目标域图像中的车辆，则第一类别为车辆。

步骤303，根据第一预测概率、对超像素进行语义一致性的正则化处理的规则生成第一语义损失函数。

在一个实施例中，基于图像块内语义一致性的目标是希望同一个图像块内的像素被预测为相同的语义类别。可以使用超像素划分图像块，保证同一个图像块内的像素有着高度相似的视觉特性。超像素分割算法可以为现有的多种超像素分割算法，例如使用SLIC(simple linear iterative cluster)算法。SLIC算法采用了k-means聚类的思路，可以高效地根据图像的像素信息生成超像素。

如图4所示，对于一个目标域图像x_t，通过SLIC算法可以将该图像划分为N个超像素{S_i|i＝1,…,N}，其中，任一超像素S_i中包含M_i个相邻的外观相似的像素，即

假设超像素中至少有绝大多数的像素应该被预测为相同的第一类别

将第一类别

定义为该超像素中所有像素预测最多的语义类别。

由于SLIC算法仅考虑了图像中像素的视觉外观相似性，在目标域中的真实图像中，一个超像素往往会包含多个拥有不同语义类别的子区域。如果简单地强制超像素中的所有区域都被预测成主导类别，即第一类别

则会面临极大地风险。因此，在进行基于图像块内语义一致性的正则化时，移除部分符合条件的像素。

例如，对于超像素S_i，其中的像素

可以根据其在第一类别

上的预测得分划分为两组：

1.

该条件表明像素

在第一类别上的预测得分较小，其有着相对较高的概率被预测为其他类别，对于此类像素，需要将其从正则化中移除；

是当前网络模型(判别器模型)推理得到的像素

属于第一类别

的概率，第一类别

为该超像素中所有像素预测最多的语义类别。

2.

该条件表明像素

对被预测为

的概率较大，正则化能够较好地引导此类像素的预测；

根据第一预测概率、对超像素进行语义一致性的正则化处理的规则生成第一语义损失函数为：

其中，x_t为目标域图像，

为第一类别，

为第i个图像块的第j个像素，

为第一预测概率，λ_pc为阈值，I_(·)为示性函数，表示第i个图像块的第j个像素是否属于第一类别，i为图像块的编号，j为像素的编号，I_(·)为示性函数，取值为1或0。

图5为根据本公开的图像语义分割模型训练方法的一个实施例中的生成第二语义损失函数的训练示意图，如图5所示：

步骤501，利用残差卷积网络提取超像素的特征向量。

步骤502，基于特征向量，使用聚类算法将超像素进行分簇处理，获取多个聚类簇。

步骤503，获取超像素中的像素被预测为第二类别的第二预测概率。第二类别为与此超像素所归属的聚类簇对应的类别。

步骤504，根据第二预测概率、对聚类簇进行语义一致化的正则化处理的规则生成第二语义损失函数。

在一个实施例中，除了基于图像块内语义一致性的正则化之外，可以在属于相同聚类簇的图像块之间加强其预测类别的一致性。基于聚类的正则化希望具有相似视觉属性的超像素的类别被预测为其所在聚类簇的主要类别，即第二类别。

如图6所示，首先将目标域图像中的所有超像素划分为若干个聚类的簇。为实现对超像素的聚类，可以使用现有的残差卷积网络提取超像素的特征向量。例如，残差卷积网络为ResNet-101，采用经过ImageNet数据集预训练的标准ResNet-101为每个超像素提取其特征表达，并进一步将每个超像素在res5c层的响应图在空间维度上进行平均，将最终得到的2048维向量作为该超像素的特征向量。在超像素的特征空间内，使用k-means算法将这些来自目标域图像的所有超像素聚为k＝2048个簇。对于每个簇，其主导类别，即第二类别

是由该簇中占据多数的超像素类别决定的。

与SLIC算法类似，对超像素进行k-means聚类也无法保证每个超像素都被正确地归入相应的簇，因此采用了类似的过滤规则。对于像素

假设该像素所在的超像素S_i属于聚类簇C_k,则

表示该像素的语义类别与当前聚类簇的主导类别一致的概率。可以通过将那些与聚类簇主导类别分歧较大的像素从该项正则化损失中排除。

是当前网络模型推理得到的像素

属于第二类别

的概率，第二类别

为由该簇中占据多数的超像素类别决定的语义类别。

根据第二预测概率、对聚类簇进行语义一致化的正则化处理的规则生成第二语义损失函数为：

其中，x_t为目标域图像，

为第二类别，

为第i个图像块(超像素)S_i中的第j个像素，S_i表示第i个超像素，超像素S_i被归属于第k个聚类簇C_k；λ_cc为阈值。

为第二预测概率，

表示该像素

的语义类别与当前聚类簇的主导类别

一致的概率；I_(·)为示性函数，取值为1或0。

图7为根据本公开的图像语义分割模型训练方法的一个实施例中的生成第三语义损失函数的训练示意图，如图7所示：

步骤701，按照超像素的边界将语义分割预测结果划分为多列。

步骤702，根据每列中的各个超像素的类别构成类别序列。

步骤703，使用训练好的编码器模型对类别序列进行处理，生成序列特征。

步骤704，使用训练好的解码器模型对序列特征进行重建，基于学习的空间逻辑构造信息确定超像素被预测为第三类别的第三预测概率。第三类别为此超像素对应的、在序列特征进行重建过程中输出的类别。

步骤705，获取所述超像素中的像素被预测为第三类别的第四预测概率；

步骤706，根据第三预测概率和第四预测概率、对超像素进行正则化处理的规则生成第三语义损失函数。

在一个实施例中，对于语义分割任务，图像中不同位置像素的语义标签存在相关性。当直接观察那些失败的语义分割结果时，根据对真实世界物理的空间逻辑构造规则的认知来发现分割结果中存在的诸多“不合理”的地方。如图8A所示，通常情况下“天空”类别的像素会位于图像中“建筑物”与“道路”的上方，而不是反过来。如果预测结果中出现了这类不合逻辑的错误，则希望能通过相应的正则化约束来帮助模型学习到正确的预测。可以认为不同语义类别在空间上的逻辑关系是源域与目标域所共享的，因此，可以利用基于空间逻辑构造的正则化，将模型从源域中学习到的空间逻辑知识迁移至目标域。

可以利用现有的LSTM(Long Short-Term Memory，长短期记忆网络)网络模型构建编码器模型和解码器模型，使用现有的LSTM编解码器的学习方法来学习预测结果中的空间逻辑。使用基于现有的LSTM编解码器框架的模型来学习图像中竖直方向上超像素之间的关系，该模型的结构如图8B所示，该模型的总体目标是利用序列中的上下文信息，推测出该序列中那些被掩模覆盖的片段所属的语义类别，而在进行推测时获得的概率可以被用于评估该掩模覆盖片段原本的语义类别的在空间逻辑角度的可信程度。

对于一个序列

序列

是由位于预测结果图中同一列的T个超像素的预测结果构成，其中，

表示了序列中第t个预测的one-hot向量，其维度是语义分割中的C个语义类别加上一个额外的用于标记掩模位置的类别。

给定预测序列

将其中具备连续相同预测类别的一段标记为被掩模的状态(将其原本推理的语义类别替换为上文所述的用于标记掩模位置的类别)，得到相应的经掩模处理的预测序列

当原始预测序列

经过掩模处理得到

后，将其馈入LSTM编码器中，利用该编码器将该序列嵌入一个序列特征表达中。

然后利用连接于编码器末端的LSTM解码器将该特征表达进行重建，在重建过程中即可从空间逻辑角度得到掩模位置对应的语义类别及其概率。由于输入编码器的序列

中被掩模位置的语义类别被“掩模类别”取代，这将导致解码器在尝试重建整个原始序列

时，需要根据序列中其它位置的语义类别对被掩模位置的类别进行推测，这一推测结果中包含了该被掩模位置所有可能属于的的语义类别的概率。

该模型可以利用源域中的标签信息，基于交叉熵损失进行优化。由于此模型需要使用标签信息进行训练，而仅在源域中存在标签信息，因此，该模型可以利用源域中的标签信息进行训练；在进行模型训练时，需要采用相应的损失函数，这里选用了“交叉熵损失”。利用经过训练的LSTM编解码器模型，可以有效地从空间逻辑角度评估目标域预测结果的合理性。对于目标域图像x_t，首先将其语义分割预测结果按照超像素的边界划分为若干列，并将每列中各超像素的类别构成一个序列。对于序列中的超像素S_I,它的空间逻辑合理性

即为序列重建过程中输出的类别

的概率。

即为LSTM编解码器推理得到的超像素属于类别的概率。重建序列的过程即为对序列中每个元素的类别进行预测，得到每个元素属于各个语义类别的概率，并取概率最高的语义类别作为该元素的重建结果。元素属于各个语义类别的概率表明包含了该元素属于类别

的概率。

若该概率小于阈值λ_sl,该超像素中预测类别为

的像素都将受到相应的惩罚。所谓“惩罚”即为将这些符合要求的像素加入损失函数，通过最小化损失函数来引导分割模型倾向于不将这些像素预测为类别

基于空间逻辑构造的正则化的第三语义损失函数为：

其中，S_i为第i个超像素，

为第i个超像素中的第j个像素，

为当前网络模型推理的像素

属于第三类别

的概率，

为通过LSTM编解码器推理得到的超像素属于第三类别

的概率，λ_sl为概率阈值，I(·)为示性函数。

在一个实施例中，损失函数还包括基于源域图像生成的源域损失函数、对于源域图像和目标域图像的数学期望函数。如图9所示，使用基于对抗学习机制的无监督域适应框架，该框架的原则是通过使用源域和目标域图像的特征表达“愚弄”域鉴别器(判别器)D(·)，用于引导模型针对语义分割任务的学习。

对于给定的源域训练数据集

与目标域数据集

对抗学习的损失函数被构造为：

其中，x_t：一张目标域图像；

目标域图像集合；x_s：一张源域图像；

源域图像集合；D(·)：判别器推测输入图像来源于目标域的概率；E表示了对整个图像数据集的数学期望。

域鉴别器D(·)会尝试区分源域与目标域图像的特征表达来尽可能减小损失函数

同时用于学习特征表达的全卷积神经网络也尝试通过调整自身来尽可能欺骗域鉴别器。域鉴别器D(·)是用来判断输入特征所来源的图像所归属的域的分类器。在训练过程中，会通过梯度下降算法调整域鉴别器D中的参数，以最小化其损失函数

而这个损失函数表征的便是表征了该鉴别器能否正确地区分图像(或其特征)是来自于源域还是目标域。

在此框架中，由于源域的计算机合成图像拥有相应的像素级语义标注信息，因此，整个框架的损失函数是基于源域上的像素级分类损失

通过对比当前网络推理得到的语义分割结果和标签的差异，计算相应的损失函数；其含义是表征了当前网络语义分割的质量，损失越小，质量越高。

而由于目标域没有可用的标注信息，使用RPT包含的三个正则化器构造目标域上的损失函数：

其中，

与

分别指根据图像块一致性、聚类一致性和空间逻辑构造生成的损失函数。

整个框架的损失函数为：

公式(1-6)的损失函数为整个系统的损失函数。公式(1-6)中

表示了在优化过程中通过调整判别器D来最小化其损失函数

公式(1-6)开头的

表示通过调整FCN中的参数，使三项损失之和最小。

这一项前面有一负号，对抗学习边体现在通过调整D来最小化

的同时，通过调整FCN来最小化

(即最大化

)。

在一个实施例中，基于两个计算机合成的语义分割数据集GTA5和SYNTHIA进行测试，以及一个真实街景图像语义分割数据数据集Cityscapes，通过分别进行GTA5→Cityscapes和SYNTHIA→Cityscapes这两组跨域的语义分割模型迁移任务，来验证本公开的图像语义分割模型训练方法的可行性；通过计算迁移后图像语义分割模型在真实图像上的语义分割质量来衡量模型的性能，采用语义分割常用的质量评价指标(例如每个类别的交并比(IoU)和所有类别的平均交并比(meanIoU，mIoU))。测试结果显示该方法性能达到世界领先的水平。

图10为根据本公开的图像语义分割方法的一个实施例的流程示意图，如图10所示：

步骤1001，获取训练好的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型。

步骤1002，使用语义分割模型对图像进行语义分割处理；其中，生成式对抗网络模型是通过如上任一实施例中的训练方法训练得到。图像可以为目标域中的真实图像等。

在一个实施例中，如图11所示，本公开提供一种图像语义分割模型训练装置110，包括：模型构建模块111、模型训练模块112、图像判别模块113、损失函数构建模块114和模型调整模块115。

模型构建模块111构建用于对图像进行语义分割的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；模型训练模块112将基于源域图像对语义分割模型进行训练；图像判别模块113使用判别器模型对语义分割模型生成的语义分割图像进行判决处理.

损失函数构建模块114构建与判别器模型相对应的损失函数；其中，损失函数包括：基于目标域图像生成的目标域损失函数；目标域损失函数包括：基于图像块的语义一致性生成的第一语义损失函数、基于聚类簇的语义一致性生成的第二语义损失函数和基于图像空间逻辑构造生成的第三语义损失函数中的至少一个；模型调整模块115根据损失函数对语义分割模型和判别器模型进行调整。

在一个实施例中，如图12所示，损失函数构建模块114包括第一损失函数单元1141、第二损失函数单元1142和第三损失函数单元1143。第一损失函数单元1141利用超像素分割算法将目标域图像分割为多个超像素，图像块与超像素相对应；第一损失函数单元1141获取超像素中的像素被预测为第一类别的第一预测概率，第一类别为此超像素对应的类别；第一损失函数单元1141根据第一预测概率、对超像素进行语义一致性的正则化处理的规则生成第一语义损失函数。

第二损失函数单元1142利用残差卷积网络提取超像素的特征向量，基于特征向量，使用聚类算法将超像素进行分簇处理，获取多个聚类簇；第二损失函数单元1142获取超像素中的像素被预测为第二类别的第二预测概率，第二类别为与此超像素所归属的聚类簇对应的类别；第二损失函数单元1142根据第二预测概率、对聚类簇进行语义一致化的正则化处理的规则生成第二语义损失函数。

第三损失函数单元1143按照超像素的边界将语义分割预测结果划分为多列；根据每列中的各个超像素的类别构成类别序列；使用训练好的编码器模型对类别序列进行处理，生成序列特征；第三损失函数单元1143使用训练好的解码器模型对序列特征进行重建，基于学习的空间逻辑构造信息确定超像素中的像素被预测为第三类别的第三预测概率；其中，第三类别为此超像素对应的、在序列特征进行重建过程中输出的类别；第三损失函数单元1143根据第三预测概率、对超像素进行正则化处理的规则生成第三语义损失函数。

在一个实施例中，图13为根据本公开的图像语义分割模型训练装置的另一个实施例的模块示意图。如图13所示，该装置可包括存储器131、处理器132、通信接口133以及总线134。存储器131用于存储指令，处理器132耦合到存储器131，处理器132被配置为基于存储器131存储的指令执行实现上述的图像语义分割模型训练方法。

存储器131可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器131也可以是存储器阵列。存储器131还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器72可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的图像语义分割模型训练方法的一个或多个集成电路。

在一个实施例中，如图14所示，本公开提供一种图像语义分割装置140，包括：模型获取模块141和图像处理模块142。模型获取模块141获取训练好的图像语义分割模型，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型。图像处理模块142使用语义分割模型对图像进行语义分割处理，生成式对抗网络模型是通过如上任一实施例中的训练方法训练得到。

在一个实施例中，图15为根据本公开的图像语义分割装置的另一个实施例的模块示意图。如图15所示，该装置可包括存储器151、处理器152、通信接口153以及总线154。存储器151用于存储指令，处理器152耦合到存储器151，处理器152被配置为基于存储器151存储的指令执行实现上述的图像语义分割方法。

存储器151可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器151也可以是存储器阵列。存储器151还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器152可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的图像语义分割方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的图像语义分割模型训练方法，和/或，如上任一个实施例中的图像语义分割方法。

上述实施例提供的图像语义分割模型训练、图像语义分割方法、装置以及存储介质，获取在目标域中无需标签信息的、在语义分割任务场景下通用的规律，通过基于图像块内语义一致性、聚类簇内语义一致性和空间逻辑的合理性设置评估图像语义分割质量的三个约束条件，并在训练过程中以正则化项的形式对模型在目标域图像上的语义分割模型推理结果进行约束，对使用合成数据训练而在真实图像上进行推理的图像语义分割模型进行跨域迁移，实现对目标域中图像进行正确语义分割，提高了图像语义分割模型训练的效率和准确性。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像语义分割模型训练方法，包括：

构建用于对图像进行语义分割的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；

基于源域图像对所述语义分割模型进行训练；

使用所述判别器模型对所述语义分割模型生成的语义分割图像进行判决处理；

构建与所述判别器模型相对应的损失函数；

其中，所述损失函数包括：基于所述目标域图像生成的目标域损失函数；所述目标域损失函数包括：基于图像块的语义一致性生成的第一语义损失函数、基于聚类簇的语义一致性生成的第二语义损失函数和基于图像空间逻辑构造生成的第三语义损失函数中的至少一个；

根据所述损失函数对所述语义分割模型和所述判别器模型进行调整。

2.如权利要求1所述的方法，还包括：

利用超像素分割算法将所述目标域图像分割为多个超像素；其中，所述图像块与所述超像素相对应；

获取所述超像素中的像素被预测为第一类别的第一预测概率；其中，所述第一类别为此超像素对应的类别；

根据所述第一预测概率、对所述超像素进行语义一致性的正则化处理的规则生成所述第一语义损失函数。

3.如权利要求2所述的方法，其中，

所述第一语义损失函数为：

其中，x_t为所述目标域图像，

为所述第一类别，

为第i个超像素的第j个像素，

4.如权利要求2所述的方法，还包括：

利用残差卷积网络提取所述超像素的特征向量；

基于所述特征向量，使用聚类算法将所述超像素进行分簇处理，获取多个聚类簇；

获取所述超像素中的像素被预测为第二类别的第二预测概率；其中，所述第二类别为与此超像素所归属的聚类簇对应的类别；

根据所述第二预测概率、对所述聚类簇进行语义一致化的正则化处理的规则生成所述第二语义损失函数。

5.如权利要求4所述的方法，其中，

所述第二语义损失函数为：

其中，x_t为所述目标域图像，

为所述第二类别，

为第二预测概率；I_(·)为示性函数，取值为1或0。

6.如权利要求2所述的方法，其中，

按照所述超像素的边界将所述语义分割预测结果划分为多列；

根据每列中的各个超像素的类别构成类别序列；

使用训练好的编码器模型对所述类别序列进行处理，生成序列特征；

使用训练好的解码器模型对所述序列特征进行重建，基于学习的空间逻辑构造信息确定所述超像素被预测为第三类别的第三预测概率；其中，所述第三类别为此超像素对应的、在所述序列特征进行重建过程中输出的类别；

获取所述超像素中的像素被预测为第三类别的第四预测概率；根据所述第三预测概率和所述第四预测概率、对所述超像素进行正则化处理的规则生成所述第三语义损失函数。

7.如权利要求6所述的方法，其中，

所述第三语义损失函数为：

其中，S_i为第i个超像素，

为第i个超像素中的第j个像素，

为第三类别；

为第四预测概率，

为第三预测概率，λ_sl为概率阈值，I(·)为示性函数，取值为0或1。

8.如权利要求6所述的方法，其中，

基于LSTM网络模型构建所述编码器模型和所述解码器模型。

9.如权利要求1所述的方法，其中，

所述损失函数还包括：基于所述源域图像生成的源域损失函数、对于所述源域图像和所述目标域图像的数学期望函数。

10.如权利要求1至9任一项所述的方法，其中，

利用全卷积神经网络构建所述语义分割模型和所述判别器模型；

所述源域图像包括：合成图像；所述目标域图像包括：真实图像。

11.一种图像语义分割方法，包括：

获取训练好的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；

使用所述语义分割模型对图像进行语义分割处理；

其中，所述生成式对抗网络模型是通过权利要求1至10中任一项所述的训练方法训练得到。

12.一种图像语义分割模型训练装置，包括：

模型构建模块，用于构建用于对图像进行语义分割的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；

模型训练模块，用于将基于源域图像对所述语义分割模型进行训练；

图像判别模块，用于使用所述判别器模型对所述语义分割模型生成的语义分割图像进行判决处理；

损失函数构建模块，用于构建与所述判别器模型相对应的损失函数；其中，所述损失函数包括：基于所述目标域图像生成的目标域损失函数；所述目标域损失函数包括：基于图像块的语义一致性生成的第一语义损失函数、基于聚类簇的语义一致性生成的第二语义损失函数和基于图像空间逻辑构造生成的第三语义损失函数中的至少一个；

模型调整模块，用于根据所述损失函数对所述语义分割模型和所述判别器模型进行调整。

13.一种图像语义分割装置，包括：

模型获取模块，用于获取训练好的图像语义分割模型；其中，图像语义分割模型为生成式对抗网络模型，包括语义分割模型和判别器模型；

图像处理模块，用于使用所述语义分割模型对图像进行语义分割处理；其中，所述生成式对抗网络模型是通过权利要求1至10中任一项所述的训练方法训练得到。

14.一种图像语义分割模型训练装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至10中任一项所述的方法。

15.一种图像语义分割装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求11中任一项所述的方法。

16.一种计算机可读存储介质，所述计算机可读存储介质非暂时性地存储有计算机指令，所述指令被处理器执行如权利要求1至10中任一项所述的方法，和/或，执行如权利要求11所述的方法。