CN114549840B

CN114549840B - 语义分割模型的训练方法和语义分割方法、装置

Info

Publication number: CN114549840B
Application number: CN202210169071.9A
Authority: CN
Inventors: 伍天意; 张健荣; 郭国栋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2023-04-07
Anticipated expiration: 2042-02-23
Also published as: CN114549840A

Abstract

本公开提供了一种语义分割模型的训练方法和语义分割方法，涉及人工智能领域，具体涉及计算机视觉、图像识别和深度学习领域。语义分割模型的训练方法的具体实现方案为：根据无标签的第一图像，采用语义分割模型得到针对第一图像的多个第一掩膜特征图和与多个第一掩膜特征图对应的多个第一类别信息；根据第一图像，采用语义分割模型的教师模型得到针对第一图像的多个第二掩膜特征图和与多个第二掩膜特征图对应的多个第二类别信息；根据多个第二掩膜特征图和多个第二类别信息，确定针对第一图像的伪标签信息；以及根据多个第一掩膜特征图、多个第一类别信息和伪标签信息，对语义分割模型进行训练。其中，教师模型与语义分割模型的网络结构相同。

Description

语义分割模型的训练方法和语义分割方法、装置

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、图像识别和深度学习领域，尤其涉及一种语义分割模型的训练方法和语义分割方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术构建的模型进行图像识别，以进行目标检测、目标跟踪和目标分割。模型学习能力和精度的提高是重要且具有挑战性的工作。

发明内容

本公开旨在提供一种提高模型学习能力和分割精度的语义分割模型的训练方法和语义分割方法、装置、电子设备、存储介质。

根据本公开的一个方面，提供了一种语义分割模型的训练方法，包括：根据无标签的第一图像，采用语义分割模型得到针对第一图像的多个第一掩膜特征图和与多个第一掩膜特征图对应的多个第一类别信息；根据第一图像，采用语义分割模型的教师模型得到针对第一图像的多个第二掩膜特征图和与多个第二掩膜特征图对应的多个第二类别信息；根据多个第二掩膜特征图和多个第二类别信息，确定针对第一图像的伪标签信息；以及根据多个第一掩膜特征图、多个第一类别信息和伪标签信息，对语义分割模型进行训练，其中，教师模型的网络结构与语义分割模型的网络结构相同。

根据本公开的一个方面，提供了一种语义分割方法，包括：将待处理图像输入语义分割模型，得到针对待处理图像的多个第四掩膜特征图和与多个第四掩膜特征图对应的多个预测类别信息；根据多个预测类别信息和多个第四掩膜特征图，确定待处理图像包括的至少一类物体的类别和至少一类物体的位置信息，其中，语义分割模型是采用本公开提供语义分割模型的训练方法训练的。

根据本公开的一个方面，提供了一种语义分割模型的训练装置，包括：第一图像分割模块，用于根据无标签的第一图像，采用语义分割模型得到针对第一图像的多个第一掩膜特征图和与多个第一掩膜特征图对应的多个第一类别信息；第二图像分割模块，用于根据第一图像，采用语义分割模型的教师模型得到针对第一图像的多个第二掩膜特征图和与多个第二掩膜特征图对应的多个第二类别信息；伪标签确定模块，用于根据多个第二掩膜特征图和多个第二类别信息，确定针对第一图像的伪标签信息；以及第一模型训练模块，用于根据多个第一掩膜特征图、多个第一类别信息和伪标签信息，对语义分割模型进行训练，其中，教师模型的网络结构与语义分割模型的网络结构相同。

根据本公开的一个方面，提供了一种语义分割装置，包括：图像分割模型，用于将待处理图像输入语义分割模型，得到针对待处理图像的多个第四掩膜特征图和与多个第四掩膜特征图对应的多个预测类别信息；信息确定模块，用于根据多个预测类别信息和多个第四掩膜特征图，确定待处理图像包括的至少一类物体的类别和至少一类物体的位置信息，其中，语义分割模型是采用本公开提供的语义分割模型的训练装置训练的。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的语义分割模型的训练方法和/或语义分割方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的语义分割模型的训练方法和/或语义分割方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令在被处理器执行时实现本公开提供的语义分割模型的训练方法和/或语义分割方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的语义分割模型的训练方法和语义分割方法、装置的应用场景示意图；

图2是根据本公开实施例的语义分割模型的训练方法的流程示意图；

图3是根据本公开实施例的语义分割模型的结构示意图；

图4是根据本公开实施例的语义分割模型的对比损失的原理示意图；

图5是根据本公开实施例的语义分割模型的一致性损失的原理示意图；

图6是根据本公开实施例的语义分割方法的流程示意图；

图7是根据本公开实施例的语义分割模型的训练装置的结构框图；

图8是根据本公开实施例的语义分割装置的结构框图；以及

图9是用来实施本公开实施例的语义分割模型的训练方法和/或语义分割方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种语义分割模型的训练方法，该方法包括：第一分割阶段、第二分割阶段、伪标签确定阶段和模型训练阶段。在第一分割阶段中，根据无标签的第一图像，采用语义分割模型得到针对第一图像的多个第一掩膜特征图和与多个第一掩膜特征图对应的多个第一类别信息。在第二分割阶段中，根据第一图像，采用语义分割模型的教师模型得到针对第一图像的多个第二掩膜特征图和与多个第二掩膜特征图对应的多个第二类别信息。在伪标签确定阶段中，根据多个第二掩膜特征图和多个第二类别信息，确定针对第一图像的伪标签信息。在模型训练阶段中，根据多个第一掩膜特征图、多个第一类别信息和伪标签信息，对语义分割模型进行训练。其中，教师模型的网络结构与语义分割模型的网络结构相同。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的语义分割模型的训练方法和语义分割方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该电子设备110例如可以对输入的图像120进行识别，识别得到该图像120中物体的类别和该物体在图像120中的位置信息。具体地，电子设备110通过对图像120进行识别，可以得到图像120中各像素的类别，根据图像120中各像素的类别，可以确定图像120中包括的物体的类别及该物体的位置信息。或者，电子设备110通过对图像120进行识别，可以预测得到多个掩膜图和各掩膜图的类别。每个掩膜图可以表示一个物体的位置，该每个掩膜图的类别可以表示图像中的物体的类别。该实施例可以将物体的类别和物体的位置信息作为分割信息130。

在一实施例中，该电子设备110例如可以采用语义分割模型140来对图像120进行识别。例如，该语义分割模型140例如可以由服务器150训练得到。电子设备110可以通过网络与服务器150通信连接，以向服务器150发送模型获取请求。相应地，服务器150可以响应于该请求将训练好的语义分割模型140发送给电子设备110。

在一实施例中，电子设备110还可以将图像120发送给服务器150，由服务器150基于训练好的语义分割模型140来对图像进行识别，从而得到分割信息130。

在一实施例中，语义分割模型140可以采用基于像素分类的分割模型，例如全卷积网络(Fully Convolutional Network，FCN)、Unet系列模型或DeepLab系列模型等。服务器例如可以采用像素级一致性正则化(Pixel-level consistency regularization)方法和/或像素级对比学习(Pixel-level contrastive learning)方法来对语义分割模型进行训练。其中，该些方法具体可以根据预测得到的图像中各像素的预测类别与样本图像的标签所指示的类别，来对语义分割模型进行训练。

在一实施例中，语义分割模型140还可以采用掩膜分类算法构建得到。例如，该语义分割模型140可以包括MaskFormer模型等。

需要说明的是，本公开提供的语义分割模型的训练方法可以由服务器150执行。相应地，本公开提供的语义分割模型的训练装置可以设置在服务器150中。本公开提供的语义分割方法可以由电子设备110执行，也可以由服务器150执行。相应地，本公开提供的语义分割装置可以设置在电子设备110中，也可以设置在服务器150中。

应该理解，图1中的电子设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器150。

以下将结合图1，通过以下图2～图5对本公开提供的语义分割模型的训练方法进行详细描述。

图2是根据本公开实施例的语义分割模型的训练方法的流程示意图。

如图2所示，该实施例的语义分割模型的训练方法200可以包括操作S210～操作S230。

在操作S210，根据无标签的第一图像，采用语义分割模型得到针对第一图像的多个第一掩膜特征图和与多个第一掩膜特征图对应的多个第一类别信息。

根据本公开的实施例，第一图像可以为预先采集的任意一张图像。语义分割模型可以采用基于掩膜分类算法构建的模型。该实施例可以将第一图像输入语义分割模型，由语义分割模型输出多个掩膜特征图和多个掩膜特征图各自的概率向量。其中，每个掩膜特征图可以表示N个物体中的一个物体在第一图像中的位置，概率向量包括掩膜特征图所表示位置处的物体属于(K+1)个预定类别中每个预定类别的概率。其中，该概率向量可以作为第一类别信息。可以理解的是，该多个掩膜特征图至少为两个。其中，N与K可以相等或不相等，预定类别之所以为(K+1)，是由于掩膜特征图所表示位置，可能表示K个预定类别中某个预定类别的物体所在的位置，还可能表示第一图像中的背景图像所在的位置。其中，N与K均为大于1的整数。

根据本公开的实施例，语义分割模型可以为MaskFormer模型，该模型结构可参考下文的描述，在此不再详述。

在操作S220，根据第一图像，采用语义分割模型的教师模型得到针对第一图像的多个第二掩膜特征图和与多个第二掩膜特征图对应的多个第二类别信息。

根据本公开的实施例，该教师模型的网络结构可以与语义分割模型相同。在语义分割模型的训练过程中，可以根据该语义分割模型的网络参数的指数移动平均值来更新教师模型的网络参数。例如，设定θ^s为语义分割模型的网络参数，θ^t为教师模型的网络参数，则θ^t可以通过以下公式(1)计算得到：

θ^t＝τθ^s+(1-τ)θ^t。公式(1)

其中，τ∈[0，1]，τ为指数移动平均的衰减率，其取值可以根据实际需求进行设定。在一实施例中，该衰减率的取值可以为0.99。

该操作S220的实现方式与操作S210类似，在此不再赘述。

在操作S230，根据多个第二掩膜特征图和多个第二类别信息，确定针对第一图像的伪标签信息。

根据本公开的实施例，设定多个第二掩膜特征图的尺寸为N×H×W，其中，N为第二掩膜特征图的个数，H和W分别表示一个掩膜特征图的高度和宽度，多个第二类别信息的尺寸为N×(K+1)，该实施例可以对多个第二掩膜特征图与多个第二类别信息进行矩阵运算，得到尺寸为(K+1)×H×W的特征数据。其中，若忽略针对第一图像中的背景图像部分的特征数据，则经由矩阵运算可以得到尺寸为K×H×W的特征数据，该特征数据实质上为像素级的概率特征数据。

对于每个像素的K个特征数据，该实施例可以确定该K个特征数据中取值最大的数据，并将该取值最大的数据所对应的预定类别为该每个像素的类别。随后，可以统计H×W个像素中具有相同类别的像素，得到N_t组像素，每组像素中多个像素的类别相同，该每组像素可以表示第一图像中包括的一类物体。根据该每组像素，可以得到一个掩膜图像(MaskFigure)，该掩膜图像与每组像素表示的一类物体相对应。该实施例的伪标签信息例如可以用于指示与第一图像包括的至少一类物体对应的至少一个第一掩膜图像和与该至少一类物体对应的至少一个第一类别，每个第一类别属于前述的K个预定类别。

在操作S240，根据多个第一掩膜特征图、多个第一类别信息和伪标签信息，对语义分割模型进行训练。

根据本公开的实施例，可以根据多个第一掩膜特征图与伪标签信息指示的至少一个第一掩膜图像之间得到差异，多个第一类别信息与伪标签信息指示的至少第一类别之间的差异，来确定语义分割模型的损失。采用梯度下降算法最小化该语义分割模型的损失，以使得多个第一掩膜特征图所表示的物体与至少一个第一掩膜图像所对应的至少一类物体趋于一致，从而实现对语义分割模型的训练。

综上可知，本公开实施例的语义分割模型的训练方法，设置教师模型来确定无标签的图像的伪标签，并以该伪标签作为指导，对基于掩膜分类算法分割图像的语义分割模型进行训练，可以实现对基于掩膜算法分割图像的语义分割模型的无监督训练，且由于语义分割模型是基于掩膜分类算法来分割图像的，因此可以实现基于区域的语义特征来进行图像分割，利于提高分割精度。

根据本公开的实施例，可以对第一图像进行两种不同程度的增强处理后分别输入语义分割模型和教师模型。其中，可以对第一图像进行较弱的增强处理，得到教师模型的输入，对第一图像进行较强的增强处理，得到语义分割模型的输入。如此，教师模型可以针对第一图像提取到更为精准的特征，使得根据该教师模型得到的掩膜特征图和类别信息所确定的掩膜图像和类别更具有参考价值，从而可以作为伪标签来指导语义分割模型的训练。通过该方式，可以提高训练得到的语义分割模型的泛化能力。

具体地，前述在采用教师模型得到第二掩码特征图和第二类别信息时，可以先对第一图像进行第一增强处理，得到第一增强后图像。随后，将该第一增强后图像输入教师模型，可以由该教师模型输出第二掩码特征图和第二类别信息。其中，第一增强处理可以包括以下处理中的任意一种或多种：调整大小、随机裁剪、随机翻转和颜色增强。

在采用语义分割模型得到第一掩码特征图和第一类别信息时，可以对前述的第一增强后图像进行第二增强处理，得到第二增强后图像。随后，将该第二增强后图像输入语义分割模型，可以由该语义分割模型输出第一掩码特征图和第一类别信息。其中，第二增强处理可以包括CutMix处理等。可以理解的是，在一实施例中，可以将前述的第一增强处理和CutMix处理相结合后对第一图像进行处理，从而得到第二处理后图像，而无需基于第一增强后图像进行第二增强处理。

以下将结合图3对语义分割模型的结构进行详细描述。可以理解的是，图3所展示的语义分割模型的结构也可以为教师模型的结构。

图3是根据本公开实施例的语义分割模型的结构示意图。

如图3所示，在该实施例300中，语义分割模型包括像素级模块310、注意力模块320和分割模块330。在采用语义分割模型得到掩膜特征和类别信息的同时，输入语义分割模型的图像还可以分别经由语义分割模型得到像素级特征图。

示例性地，像素级模块310包括骨干网络311和像素级解码器312。输入语义分割模型的图像(尺寸为H×W)经由骨干网络311编码后，可以得到编码特征301。编码特征301输入像素级解码器312后，经由该像素级解码器312的处理，可以得到像素级特征图302。其中，骨干网络311可以采用前述基于像素分类的分割模型中编码器的结构，像素级解码器312则可以为前述基于像素分类的分割模型中的解码器。

示例性地，注意力模块320可以包括Transformer结构的解码器321，该解码器的输入包括编码特征301和查询特征303。该查询特征的个数可以为多个，前文描述的多个第一掩膜特征图的个数取决于该查询特征的个数，例如，该查询特征的个数与第一掩膜特征图的个数均为N个。在该注意力模块320中，Transformer结构的解码器321可以将该输入的查询特征303作为Query，根据编码特征301得到Key和Value，随后采用自注意力机制对该Query、Key和Value进行矩阵运算，得到N个预测特征Q 304。其中，在训练语义分割模型的过程中，查询特征303的初始值可以是随机生成的，在调整语义分割模型的网络参数的过程中，该查询特征303也被同步优化。

示例性地，分割模块330可以包括线性分类器331、多层感知器MLP332和掩膜预测网络333。针对N个预测特征Q 304中的每个特征，分割模块330可以采用softmax激活函数对该每个特征进行处理，随后采用线性分类器331对softmax激活函数处理后的特征进行转换，得到针对该每个特征得到一个预测的类别概率，该类别概率由包括(K+1)个概率值的概率向量表示。针对N个预测特征Q 304，可以得到总计N个类别概率305，该N个类别概率即可作为前文描述的多个第一分类信息，该多个第一分类信息的尺寸为N×(K+1)，该多个第一分类信息可以采用ps表示。同时，可以采用包括两层隐层的多层感知器MLP 332对该N个预测特征Q 304进行处理，得到N个掩膜嵌入特征f^s 306。掩膜预测网络333的输入包括N个掩膜嵌入特征f^s 306和像素级特征图302，该掩膜预测网络333用于对该N个掩膜嵌入特征f^s306中的每个特征进行与像素级特征图302的点乘操作，并采用sigmoid函数对点乘操作得到的特征数据进行处理，从而得到一个掩膜特征图m^s。针对N个掩膜嵌入特征f^s 306，可以总计得到N个掩膜特征图307，该N个掩膜特征图307即为前述采用语义分割模型得到的多个第一掩膜特征图。

基于与语义分割模型相同结构的教师模型，根据第一图像，可以得到前文描述的多个第二掩膜特征图和多个第二类别信息。

根据本公开的实施例，在得到多个第一掩膜特征图、多个第一类别信息和伪标签信息后，该实施例可以采用对语义分割模型得到的预测结果与伪标签信息进行对比学习的方法来对语义分割模型进行训练。或者，该实施例可以采用对语义分割模型得到的预测结果与伪标签信息进行一致性正则化的方法来对语义分割模型进行训练。其中，需要说明的是，由于语义分割模型得到的预测结果为掩膜特征图和与掩膜特征图对应的类别信息，因此，该实施例中对比学习的方法是基于区域特征进行的，相较于基于像素特征进行对比学习的方法，可以使得语义分割模型能够更好的学习到基于区域的语义特征，利于提高语义分割的精度。

在一实施例中，可以将对比学习的方法和一致性正则化的方法相结合，来对语义分割模型进行训练。如此，相较于采用单个方法的技术方案，可以在一定程度上提升语义分割模型的特征学习能力和分割精度。具体地，以伪标签信息指示与第一图像包括的至少一类物体对应的至少一个第一掩膜图像，且指示与至少一类物体对应的至少一个第一类别为例，该实施例在对语义分割模型进行训练时，可以根据多个第一掩膜特征图和至少一个第一掩膜图像，确定语义分割模型的对比损失。同时，可以根据多个第一类别信息和至少一个第一类别，确定语义分割模型的一致性损失。最后，可以根据该对比损失和一致性损失，对语义分割模型进行训练。

根据本公开的实施例，在得到对比损失和一致性损失后，该实施例可以将对比损失和一致性损失的加权和作为语义分割模型的总损失。通过梯度下降算法最小化该总损失，从而实现对语义分割模型的训练。其中，计算加权和时所采用的权重可以根据实际需求进行设定，本公开对此不做限定。

以下将结合图4，对确定语义分割模型的对比损失的原理进行详细描述。

图4是根据本公开实施例的语义分割模型的对比损失的原理示意图。

根据本公开的实施例，在确定对比损失时，例如可以对多个第一掩膜特征图与伪标签信息指示的至少一个第一掩膜图像进行对比。

具体地，可以先采用匹配算法匹配多个第一掩膜特征图和至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和与该一个第一掩膜特征图匹配的一个第一掩膜图像。其中，匹配算法例如可以包括二分图最优匹配算法或二分图最优权值匹配算法等。在得到至少一个匹配图对后，可以根据属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异，以及不属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异，确定对比损失。该对比损失可以称为基于区域的掩膜对比损失(Region Mask Contrastive Loss)，例如可以采用L_RMC表示。通过根据该掩膜对比损失对语义分割模型进行训练，可以将匹配的区域对的掩膜相似度增加，不匹配的区域对的掩膜相似度降低，利于提高语义分割模型的学习能力，从而提高分割精度。

在一实施例中，第一掩膜特征图和第一掩膜图像之间的差异例如可以采用交并比来表示。例如，该掩膜对比损失可以采用以下公式(1)来表示：

其中，

表示N^t个第一掩膜图像中的第i个第一掩膜图像，

表示N个第一掩膜特征图中与

匹配的第一掩膜特征图，

表示N个第一掩膜特征图中与

不匹配的第一掩膜特征图。

表示

与

之间的交并比，

表示

与

之间的交并比，τ_m为与掩膜对比损失对应的超参，L_RMC表示掩膜对比损失的取值。可以理解的是，τ_m的取值可以根据实际需求进行设定，上述表示掩膜对比损失的公式(1)仅作为示例以利于理解本公开，本公开对此不做限定。

在一实施例400中，如图4所示，对于第一图像401，进行前述强增强处理后可以输入语义分割模型中像素级模块411包括的骨干网络，该骨干网络输出的编码特征输入注意力模块412包括的Transformer结构的解码器，Transformer结构的解码器输出的N个预测特征Q输入分割模块包括的MLP 413_2，MLP 413_2输出的N个掩膜嵌入特征f^s和像素级解码器输出的第一像素级特征图F^s输入掩膜预测网络413_3后，可以由该掩膜预测网络413_3输出N个第一掩膜特征图m^s 441。同时，第一图像401进行前述的弱增强处理后可以输入教师网络420，由教师网络420中的像素级解码器处理得到第二像素级特征图F^t，由教师网络420中的MLP输出N个掩膜嵌入特征f^t，由教师网络420中的线性分类器输出N个第二分类信息p^t。该掩膜嵌入特征f^t和第二像素级特征图F^t经由教师网络420中的掩膜预测网络423_3处理后，可以得到N个第二掩膜特征图。对N个第二掩膜特征图m^t和N个第二分类信息p^t点乘后，可以得到N^t个第一掩膜图像m^t 442。随后，对该N个第一掩膜特征图m^s 441和N^t个第一掩膜图像m^t442进行二分图最优匹配，并采用上述公式(1)，可以得到掩膜对比损失451的取值。

在一实施例中，在确定对比损失时，可以对区域内的像素特征进行对比。具体地，如图4所示，实施例400可以根据第一像素级特征图F^s和N个第一掩膜特征图m^s 441，得到与N个第一掩膜特征图m^s 441对应的N个第一区域特征图r^s 443。同时，可以根据第一像素级特征图F^s和N^t个第一掩膜图像m^t 442，得到与N^t个第一掩膜图像m^t 442对应的N^t个第二区域特征图r^t444。最后，该实施例400可以根据N个第一区域特征图r^s 443和N^t个第二区域特征图r^t444，确定对比损失。该对比损失可以称为区域特征对比损失(Region FeatureContrastive Loss)452，例如可以采用L_RFC表示。通过根据该区域特征对比损失对语义分割模型进行训练，可以使得语义分割模型输出的掩膜特征图更接近于伪标签中的掩膜图像，利于提高语义分割模型的学习能力，从而提高分割精度。需要说明的是，该实施例中的第二区域特征图是根据语义网络模型输出的像素级特征图来得到的，而非根据教师模型输出的像素级特征图来得到，是由于教师模型与语义分割模型具有不同的网络权重，特征空间也不相同。

其中，如图4所示，该实施例400可以采用全局平均池化网络430(Global AveragePooling，GAP)来得到第一区域特征图和第二区域特征图。以得到第一区域特征图为例，该实施例400可以先针对N个第一掩膜特征图m^s 441中的每个特征图，将该每个特征图与第一像素级特征图F^s点乘。随后，采用全局平均池化网络430对点乘得到的特征图进行全局平均池化处理，从而得到一个第一区域特征图。针对N个第一掩膜特征图m^s441，可以总计得到N个第一掩膜特征图m^s 441。基于类似的原理，可以根据第一像素级特征图F^s和N^t个第一掩膜图像m^t 442，得到N^t个第二区域特征图r^t444。

示例性地，在对每个特征图与第一像素级特征图F^s点乘时，可以采用python广播机制来简化点乘所需的代码量，解决每个特征图的尺寸与第一像素级特征图F^s的尺寸不一致的问题。

在一实施例中，例如可以基于与N^t个第一掩膜图像m^t 442分别匹配的N^t个第一掩膜特征图，来确定区域特征对比损失。如此，通过基于该区域特征对比损失对语义分割模型进行训练，可以增加匹配的区域对中的特征相似度，降低不匹配的区域对中的特征相似度，并因此进一步提高语义分割模型的学习能力和分割精度。

具体地，该实施例在根据N个第一区域特征图r^s 443和N^t个第二区域特征图r^t444，确定区域特征对比损失时，可以采用前述的匹配算法匹配得到至少一个匹配图对。随后，针对属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第一差异。针对不属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第二差异。最后，根据该第一差异和第二差异，确定区域特征对比损失。

在一实施例中，第一差异和第二差异例如可以由余弦相似度等来表示。例如，区域特征对比损失可以采用以下公式(2)来表示：

其中，

表示与

对应的第二区域特征图，

表示与

对应的第一区域特征图，

表示与

对应的第一区域特征图。

表示

与

之间的余弦相似度，

表示

与

之间的余弦相似度，τ_f为与区域特征对比损失对应的超参，L_RMC表示区域特征对比损失的取值。可以理解的是，τ_f的取值可以根据实际需求进行设定，上述表示区域特征对比损失的公式(2)仅作为示例以利于理解本公开，本公开对此不做限定。

在一实施例中，可以同时考虑掩膜对比损失451和区域特征对比损失452。具体地，可以将掩膜对比损失451的取值和区域特征对比损失452的取值之间的加权和作为对比损失的取值。如此，可以进一步提高语义分割模型的学习能力和分割精度。

以下将结合图5，对确定语义分割模型的一致性损失的原理进行详细描述。

图5是根据本公开实施例的语义分割模型的一致性损失的原理示意图。

根据本公开的实施例，可以根据多个第一类别信息与至少一个第一类别之间的一致性关系，来确定一致性损失。

例如，针对匹配的第一掩膜特征图和第一掩膜图像，通过采用一致性损失训练语义分割模型，可以使得语义分割模型输出的第一掩膜特征图的类别信息与第一掩膜图像的第一类别趋于一致。如此，可以使得语义分割模型得到的类别信息更为贴合伪标签指示的类别，提高语义分割模型的分割精度。

示例性地，如图5所示，该实施例500对第一图像501进行前述强增强处理后，可以将处理后图像输入语义分割模型，由语义分割模型中分割模块包括的线性分类器5131输出N个概率向量502。该N个概率向量502即为多个第一类别信息ps。同时，语义分割模型中的分割模块包括的掩膜预测网络通过对MLP输出的N个掩膜嵌入特征f^s和像素级解码器输出的第一像素级特征图F^s处理后，可以输出N个第一掩膜特征图m^s 541，该N个第一掩膜特征图m^s541与N个概率向量502一一对应。在根据教师模型得到的N个第二掩膜特征图m^t和N个第二分类信息p^t点乘得到N^t个第一掩膜图像m^t542的同时，还可以得到N^t个第一掩膜图像m^t 542各自表示的物体的类别，总计得到N^t个第一类别c^t543。

在得到N^t个第一掩膜图像m^t 542和N个第一掩膜特征图m^s 541后，该实施例500可以采用前文描述的匹配算法对第一掩膜图像和第一掩膜特征图进行匹配，从而得到与N^t个第一掩膜图像m^t一一匹配的N^t个第一掩膜特征图，多个第一分类信息p^s中与该N^t个第一掩膜特征图对应的概率向量可以作为匹配的概率向量503。

在得到第一类别543和匹配的概率向量503后，可以根据该第一类别543和匹配的概率向量503来确定一致性损失。该确定的一致性损失实质上为基于区域的类别的一致性损失(Region Class Consistency Loss)，称为类别一致性损失551。

在一实施例中，类别一致性损失551例如可以采用交叉熵损失函数来表示。具体地，该类别一致性损失551可以采用以下公式(3)来表示：

其中，

表示N^t个第一掩膜图像mt中的第i个第一掩膜图像的第一类别。

表示与

对应的概率向量

中针对第一类别

的概率值。L_RCC表示类别一致性损失551的取值。

在一实施例中，还可以对表示同一类别的掩膜进行对齐。具体可以根据与每个第一掩膜特征图对应的第一类别信息，确定该每个第一掩膜特征图所表示的物体的类别。然后确定第一掩膜图像中第一类别与该每个第一掩膜特征所表示的物体的类别相同的掩膜图像，最后根据该掩膜图像与该每个第一掩膜特征之间的相似关系，来确定一致性损失。

在一实施例中，考虑到N个第一掩膜特征图中可能存在表示同一类别物体的多个掩膜特征图。则该实施例500在确定一致性损失时，还可以根据与N个第一掩膜特征图m^s541对应的N个概率向量502，对该N个第一掩膜特征图m^s 541进行合并，得到合并后掩膜特征图544。具体可以针对每个第一掩膜特征图对应的概率向量，确定该概率向量中的最大概率值所对应的预定类别，将该对应的预定类别作为该每个第一掩膜特征图表示的物体的类别。该实施例500可以将表示相同类别的物体的第一掩膜特征图进行合并，从而得到合并后掩膜特征图544。在得到合并后掩膜特征图544后，可以根据合并后掩膜特征图544与N^t个第一掩膜图像m^t之间的差异，确定一致性损失。该一致性损失实质上为分割掩膜的一致性损失(Semantic Mask Consistency Loss)，称为掩膜一致性损失552。通过根据该掩膜一致性损失552对语义分割模型进行训练，可以提高同一类的掩膜特征图与伪标签中的第一掩膜图像的一致性，并因此进一步提高语义分割模型的分割精度。

在一实施例中，掩膜一致性损失552例如可以采用以下公式(4)来表示：

其中，

是对表示的物体为第一类别

的掩膜特征图进行合并后得到的合并后掩膜特征图，第一类别

与N^t个第一掩膜图像中第i个第一掩膜图像的

相对应。L_mask例如可以为dice loss与focal loss相结合得到的损失，具体可以为diceloss与focal loss的加权和。L_SMC表示掩膜一致性损失552的取值。可以理解的是，本领域技术人员知晓dice loss与focal loss的具体计算方式，本公开对此不再详述。

例如，dice loss可以采用以下公式(5)表示：

在一实施例中，实施例500可以结合掩膜一致性损失和类别一致性损失来确定一致性损失。具体地，可以将掩膜一致性损失的取值与类别一致性损失的取值的加权和作为一致性损失的取值。

在一实施例中，可以结合一致性损失和对比损失来对语义分割模型进行训练。例如，对语义分割模型进行无监督训练时，该语义分割模型的总损失可以采用以下公式(6)计算：

L_unlabel＝β₁L_RCC+β₂L_SMC+β₃L_RMC+β₄L_RFC。公式(6)

其中，L_unlabel为无监督训练时总损失的取值，β₁、β₂、β₃、β₄为根据实际需求设定的加权系数。

根据本公开的实施例，除了对语义分割模型进行无监督训练的同时，还可以采用有标签的第二图像对该语义分割模型进行有监督训练。

具体地，可以将第二图像x^l输入语义分割模型，得到针对第二图像的多个第三掩膜特征图m^l和与多个第三掩膜特征图m^l对应的多个第三类别信息p^l。其中，第二图像的标签可以指示与第二图像包括的至少一类物体对应的至少一个第二掩膜图像m^gt和与至少一类物体对应的至少一个第二类别c^gt。随后，该实施例可以根据多个第三掩膜特征图m^l、多个第三类别信息p^l、至少一个第二掩膜图像m^gt和至少一个第二类别c^gt，对语义分割模型进行有监督地训练。

其中，在对语义分割模型进行有监督地训练时，可以采用前文描述的匹配算法匹配第三掩膜特征图和第二掩膜图像，确定多个第三掩膜特征图中与至少一个第二掩膜图像m^gt匹配的至少一个第三掩膜特征图。随后，针对匹配的至少一个第三掩膜特征图中的每个掩膜特征图，将匹配的第二掩膜图像m^gt对应的第二类别作为目标类别，确定与掩膜特征图对应的第三类别信息中针对该目标类别的概率值，随后根据该概率值得到有监督的损失。

在一实施例中，有监督的损失可以采用以下公式(7)来表示：

其中，

表示至少一个第二掩膜图像中的第i个第二掩膜图像，

表示与

匹配的第三掩膜特征图。N^gt为至少一个第二掩膜图像的个数，q表示空，

表示类别不为空的第二掩膜图像的第二类别。

表示至少一个第二掩膜图像中的第i个第二掩膜图像的第二类别。

表示与

对应的概率向量

中针对第二类别

的概率值。

在一实施例中，还可以先对语义分割模型进行有监督的训练。在语义分割模型的精度达到预定精度后，再采用有监督与无监督相结合的方式，来对语义分割模型进行训练。

基于本公开提供的语义分割模型的训练方法，本公开还提供了一种语义分割方法。以下将结合图6对该语义分割方法进行详细描述。

图6是根据本公开实施例的语义分割方法的流程示意图。

如图6所示，该实施例的语义分割方法600可以包括操作S610和操作S620。

在操作S610，将待处理图像输入语义分割模型，得到针对待处理图像的多个第四掩膜特征图和与多个第四掩膜特征图对应的多个预测类别信息。可以理解的是，该操作S610与前文描述的操作S210类此，区别在于，该操作S610可以将待处理图像直接输入语义分割模型，无需进行增强处理。其中，语义分割模型可以采用本公开提供的语义分割模型的训练方法训练得到。

在操作S620，根据多个预测类别信息和多个第四掩膜特征图，确定待处理图像包括的至少一类物体的类别和至少一类物体的位置信息。

根据本公开的实施例，该操作S620可以采用与前文描述的操作S230类似的方法，得到对应至少一类物体的至少一个掩膜图像和与该至少一类物体对应的至少一个类别。该至少一个类别即为至少一类物体的类别。至少一个掩膜图像中像素值不为0的区域即为至少一类物体在待处理图像中的位置。

基于本公开提供的语义分割模型的训练方法，本公开还提供了一种语义分割模型的训练装置，以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的语义分割模型的训练装置的结构框图。

如图7所示，该实施例的语义分割模型700可以包括第一图像分割模块710、第二图像分割模块720、伪标签确定模块730和第一模型训练模块740。

第一图像分割模块710用于根据无标签的第一图像，采用语义分割模型得到针对第一图像的多个第一掩膜特征图和与多个第一掩膜特征图对应的多个第一类别信息。在一实施例中，第一图像分割模块710可以用于执行前文描述的操作S210，在此不再赘述。

第二图像分割模块720用于根据第一图像，采用语义分割模型的教师模型得到针对第一图像的多个第二掩膜特征图和与多个第二掩膜特征图对应的多个第二类别信息。其中，教师模型的网络结构与语义分割模型的网络结构相同。在一实施例中，第二图像分割模块720可以用于执行前文描述的操作S220，在此不再赘述。

伪标签确定模块730用于根据多个第二掩膜特征图和多个第二类别信息，确定针对第一图像的伪标签信息。在一实施例中，伪标签确定模块730可以用于执行前文描述的操作S230，在此不再赘述。

第一模型训练模块740用于根据多个第一掩膜特征图、多个第一类别信息和伪标签信息，对语义分割模型进行训练。在一实施例中，第一模型训练模块740可以用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，伪标签信息指示与第一图像包括的至少一类物体对应的至少一个第一掩膜图像和与至少一类物体对应的至少一个第一类别。上述第一模型训练模块740可以包括对比损失确定子模块、一致性损失确定子模块和模型训练子模块。对比损失确定子模块用于根据多个第一掩膜特征图和至少一个第一掩膜图像，确定语义分割模型的对比损失。一致性损失确定子模块用于根据多个第一类别信息和至少一个第一类别，确定语义分割模型的一致性损失。模型训练子模块用于根据对比损失和一致性损失，对语义分割模型进行训练。

根据本公开的实施例，语义分割模型包括像素级解码网络。上述第一图像分割模块710还用于根据第一图像，采用语义分割模型的像素级解码网络得到第一图像的像素级特征图。上述对比损失确定子模块可以包括第一区域图确定单元、第二区域图确定单元和第一损失确定单元。第一区域图确定单元用于根据像素级特征图和多个第一掩膜特征图，得到与多个第一掩膜特征图对应的多个第一区域特征图。第二区域图确定单元用于根据像素级特征图和至少一个第一掩膜图像，得到与至少一个第一掩膜图像对应的至少一个第二区域特征图。第一损失确定单元用于根据多个第一区域特征图和至少一个第二区域特征图，确定对比损失包括的区域特征对比损失。

根据本公开的实施例，对比损失确定子模块可以包括第一图像匹配单元和第二损失确定单元。第一图像匹配单元用于采用匹配算法匹配多个第一掩膜特征图和至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像。第二损失确定单元用于针对至少一个匹配图对，根据属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异以及不属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异，确定对比损失包括的掩膜对比损失。

根据本公开的实施例，第一损失确定单元可以包括匹配子单元、第一差异确定子单元、第二差异确定子单元和损失确定子单元。匹配子单元用于采用匹配算法匹配多个第一掩膜特征图和至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像。第一差异确定子单元用于针对属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第一差异。第二差异确定子单元用于针对不属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第二差异。损失确定子单元用于根据第一差异和第二差异，确定区域特征对比损失。

根据本公开的实施例，一致性损失确定子模块可以包括第二图像匹配单元和第三损失确定单元。第二图像匹配单元用于采用匹配算法匹配多个第一掩膜特征图和至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像。第三损失确定单元用于对属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一类别信息和第一掩膜图像所对应物体的第一类别，确定一致性损失包括的类别一致性损失。

根据本公开的实施例，一致性损失确定子模块还可以包括图合并单元和第四损失确定单元。图合并单元用于根据多个第一类别信息，对多个第一掩膜特征图进行合并，得到合并后掩膜特征图。第四损失确定单元用于根据合并后掩膜特征图与至少一个第一掩膜图像之间的差异，确定一致性损失包括的掩膜一致性损失。

根据本公开的实施例，上述第二图像分割模块720可以包括第一增强子模块和第一分割子模块。第一增强子模块用于对第一图像进行第一增强处理，得到第一增强后图像。第一分割子模块用于将第一增强后图像输入教师模型，得到多个第二掩膜特征图和多个第二类别信息。上述第一图像分割模块710可以包括第二增强子模块和第二分割子模块。第二增强子模块用于对第一增强后图像进行第二增强处理，得到第二增强后图像。第二分割子模块用于将第二增强后图像输入语义分割模型，得到多个第一掩膜特征图和多个第一类别信息。

根据本公开的实施例，上述语义分割模型的训练装置700还可以包括第三图像分割模块和第二模型训练模块。第三图像分割模块用于将具有标签的第二图像输入语义分割模型，得到针对第二图像的多个第三掩膜特征图和与多个第三掩膜特征图对应的多个第三类别信息；标签指示与第二图像包括的至少一类物体对应的至少一个第二掩膜图像和与至少一类物体对应的至少一个第二类别。第二模型训练模块用于根据多个第三掩膜特征图、多个第三类别信息、至少一个第二掩膜图像和至少一个第二类别，对语义分割模型进行训练。

基于本公开提供的语义分割方法，本公开还提供了一种语义分割装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的语义分割装置的结构框图。

如图8所示，该实施例的语义分割装置800可以包括图像分割模块810和信息确定模块820。

图像分割模块810用于将待处理图像输入语义分割模型，得到针对待处理图像的多个第四掩膜特征图和与多个第四掩膜特征图对应的多个预测类别信息。其中，语义分割模型可以是采用前文描述的语义分割模型的训练装置训练的。在一实施例中，图像分割模块810可以用于执行前文描述的操作S610，在此不再赘述。

信息确定模块820用于根据多个预测类别信息和多个第四掩膜特征图，确定待处理图像包括的至少一类物体的类别和至少一类物体的位置信息。在一实施例中，信息确定模块820可以用于执行前文描述的操作S620，在此不再赘述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开实施例的语义分割模型的训练方法和/或语义分割方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如语义分割模型的训练方法和/或语义分割方法。例如，在一些实施例中，语义分割模型的训练方法和/或语义分割方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的语义分割模型的训练方法和/或语义分割方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语义分割模型的训练方法和/或语义分割方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server"，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语义分割模型的训练方法，包括：

根据无标签的第一图像，采用所述语义分割模型得到针对所述第一图像的多个第一掩膜特征图和与所述多个第一掩膜特征图对应的多个第一类别信息；

根据所述第一图像，采用所述语义分割模型的教师模型得到针对所述第一图像的多个第二掩膜特征图和与所述多个第二掩膜特征图对应的多个第二类别信息；

根据所述多个第二掩膜特征图和所述多个第二类别信息，确定针对所述第一图像的伪标签信息；其中，所述伪标签信息指示与所述第一图像包括的至少一类物体对应的至少一个第一掩膜图像和与所述至少一类物体对应的至少一个第一类别；以及

根据所述多个第一掩膜特征图、所述多个第一类别信息和所述伪标签信息，对所述语义分割模型进行训练，

其中，所述教师模型的网络结构与所述语义分割模型的网络结构相同；

其中，对所述语义分割模型进行训练包括：

根据所述多个第一掩膜特征图和所述至少一个第一掩膜图像，确定所述语义分割模型的对比损失；

根据所述多个第一类别信息和所述至少一个第一类别，确定所述语义分割模型的一致性损失；以及

根据所述对比损失和所述一致性损失，对所述语义分割模型进行训练，

其中，确定所述语义分割模型的对比损失包括：

采用匹配算法匹配所述多个第一掩膜特征图和所述至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像；以及

针对所述至少一个匹配图对，根据属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异以及不属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异，确定所述对比损失包括的掩膜对比损失。

2.一种语义分割模型的训练方法，包括：

其中，对所述语义分割模型进行训练包括：

其中，所述语义分割模型包括像素级解码网络；所述方法还包括：

根据所述第一图像，采用所述语义分割模型的像素级解码网络得到所述第一图像的像素级特征图；

其中，确定所述语义分割模型的对比损失包括：

根据所述像素级特征图和所述多个第一掩膜特征图，得到与所述多个第一掩膜特征图对应的多个第一区域特征图；

根据所述像素级特征图和所述至少一个第一掩膜图像，得到与所述至少一个第一掩膜图像对应的至少一个第二区域特征图；以及

根据所述多个第一区域特征图和所述至少一个第二区域特征图，确定所述对比损失包括的区域特征对比损失。

3.根据权利要求2所述的方法，其中，所述根据所述多个第一掩膜特征图和所述至少一个第一掩膜图像，确定所述语义分割模型的对比损失包括：

4.根据权利要求2所述的方法，其中，所述根据所述多个第一区域特征图和所述至少一个第二区域特征图，确定所述对比损失包括的区域特征对比损失包括：

采用匹配算法匹配所述多个第一掩膜特征图和所述至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像；

针对属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第一差异；

针对不属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第二差异；以及

根据所述第一差异和所述第二差异，确定所述区域特征对比损失。

5.根据权利要求1或2所述的方法，其中，所述根据所述多个第一类别信息和所述至少一个第一类别，确定所述语义分割模型的一致性损失包括：

对属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一类别信息和第一掩膜图像所对应物体的第一类别，确定所述一致性损失包括的类别一致性损失。

6.根据权利要求5所述的方法，其中，所述根据所述多个第一类别信息和所述至少一个第一类别，确定所述语义分割模型的一致性损失还包括：

根据所述多个第一类别信息，对所述多个第一掩膜特征图进行合并，得到合并后掩膜特征图；以及

根据所述合并后掩膜特征图与所述至少一个第一掩膜图像之间的差异，确定所述一致性损失包括的掩膜一致性损失。

7.根据权利要求1或2所述的方法，其中：

所述根据所述第一图像，采用所述语义分割模型的教师模型得到针对所述第一图像的多个第二掩膜特征图和与所述多个第二掩膜特征图对应的多个第二类别信息包括：

对所述第一图像进行第一增强处理，得到第一增强后图像；以及

将所述第一增强后图像输入所述教师模型，得到所述多个第二掩膜特征图和所述多个第二类别信息；

所述根据无标签的第一图像，采用所述语义分割模型得到针对所述第一图像的多个第一掩膜特征图和与所述多个第一掩膜特征图对应的多个第一类别信息包括：

对所述第一增强后图像进行第二增强处理，得到第二增强后图像；以及

将所述第二增强后图像输入所述语义分割模型，得到所述多个第一掩膜特征图和所述多个第一类别信息。

8.根据权利要求1或2所述的方法，还包括：

将具有标签的第二图像输入所述语义分割模型，得到针对所述第二图像的多个第三掩膜特征图和与所述多个第三掩膜特征图对应的多个第三类别信息；所述标签指示与所述第二图像包括的至少一类物体对应的至少一个第二掩膜图像和与所述至少一类物体对应的至少一个第二类别；以及

根据所述多个第三掩膜特征图、所述多个第三类别信息、所述至少一个第二掩膜图像和所述至少一个第二类别，对所述语义分割模型进行训练。

9.一种语义分割方法，包括：

将待处理图像输入语义分割模型，得到针对所述待处理图像的多个第四掩膜特征图和与所述多个第四掩膜特征图对应的多个预测类别信息；以及

根据所述多个预测类别信息和所述多个第四掩膜特征图，确定所述待处理图像包括的至少一类物体的类别和所述至少一类物体的位置信息，

其中，所述语义分割模型是采用权利要求1～8中任一项所述的方法训练的。

10.一种语义分割模型的训练装置，包括：

第一图像分割模块，用于根据无标签的第一图像，采用所述语义分割模型得到针对所述第一图像的多个第一掩膜特征图和与所述多个第一掩膜特征图对应的多个第一类别信息；

第二图像分割模块，用于根据所述第一图像，采用所述语义分割模型的教师模型得到针对所述第一图像的多个第二掩膜特征图和与所述多个第二掩膜特征图对应的多个第二类别信息；

伪标签确定模块，用于根据所述多个第二掩膜特征图和所述多个第二类别信息，确定针对所述第一图像的伪标签信息；所述伪标签信息指示与所述第一图像包括的至少一类物体对应的至少一个第一掩膜图像和与所述至少一类物体对应的至少一个第一类别；以及

第一模型训练模块，用于根据所述多个第一掩膜特征图、所述多个第一类别信息和所述伪标签信息，对所述语义分割模型进行训练，

其中，所述第一模型训练模块包括：

对比损失确定子模块，用于根据所述多个第一掩膜特征图和所述至少一个第一掩膜图像，确定所述语义分割模型的对比损失；

一致性损失确定子模块，用于根据所述多个第一类别信息和所述至少一个第一类别，确定所述语义分割模型的一致性损失；以及

模型训练子模块，用于根据所述对比损失和所述一致性损失，对所述语义分割模型进行训练，

其中，所述对比损失确定子模块包括：

第一图像匹配单元，用于采用匹配算法匹配所述多个第一掩膜特征图和所述至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像；以及

第二损失确定单元，用于针对所述至少一个匹配图对，根据属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异以及不属于同一匹配图对的第一掩膜特征图和第一掩膜图像之间的差异，确定所述对比损失包括的掩膜对比损失。

11.一种语义分割模型的训练装置，包括：

其中，所述第一模型训练模块包括：

其中，所述语义分割模型包括像素级解码网络；

所述第一图像分割模块还用于：根据所述第一图像，采用所述语义分割模型的像素级解码网络得到所述第一图像的像素级特征图；

所述对比损失确定子模块包括：

第一区域图确定单元，用于根据所述像素级特征图和所述多个第一掩膜特征图，得到与所述多个第一掩膜特征图对应的多个第一区域特征图；

第二区域图确定单元，用于根据所述像素级特征图和所述至少一个第一掩膜图像，得到与所述至少一个第一掩膜图像对应的至少一个第二区域特征图；以及

第一损失确定单元，用于根据所述多个第一区域特征图和所述至少一个第二区域特征图，确定所述对比损失包括的区域特征对比损失。

12.根据权利要求11所述的装置，其中，所述对比损失确定子模块包括：

13.根据权利要求11所述的装置，其中，所述第一损失确定单元包括：

匹配子单元，用于采用匹配算法匹配所述多个第一掩膜特征图和所述至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像；

第一差异确定子单元，用于针对属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第一差异；

第二差异确定子单元，用于针对不属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一区域特征图和与第一掩膜图像对应的第二区域特征图之间的差异，得到第二差异；以及

损失确定子单元，用于根据所述第一差异和所述第二差异，确定所述区域特征对比损失。

14.根据权利要求10或11所述的装置，其中，所述一致性损失确定子模块包括：

第二图像匹配单元，用于采用匹配算法匹配所述多个第一掩膜特征图和所述至少一个第一掩膜图像，得到至少一个匹配图对，每个匹配图对包括一个第一掩膜特征图和一个第一掩膜图像；以及

第三损失确定单元，用于对属于同一匹配图对中的第一掩膜特征图和第一掩膜图像，根据与第一掩膜特征图对应的第一类别信息和第一掩膜图像所对应物体的第一类别，确定所述一致性损失包括的类别一致性损失。

15.根据权利要求14所述的装置，其中，所述一致性损失确定子模块还包括：

图合并单元，用于根据所述多个第一类别信息，对所述多个第一掩膜特征图进行合并，得到合并后掩膜特征图；以及

第四损失确定单元，用于根据所述合并后掩膜特征图与所述至少一个第一掩膜图像之间的差异，确定所述一致性损失包括的掩膜一致性损失。

16.根据权利要求10或11所述的装置，其中：

所述第二图像分割模块包括：

第一增强子模块，用于对所述第一图像进行第一增强处理，得到第一增强后图像；以及

第一分割子模块，用于将所述第一增强后图像输入所述教师模型，得到所述多个第二掩膜特征图和所述多个第二类别信息；

所述第一图像分割模块包括：

第二增强子模块，用于对所述第一增强后图像进行第二增强处理，得到第二增强后图像；以及

第二分割子模块，用于将所述第二增强后图像输入所述语义分割模型，得到所述多个第一掩膜特征图和所述多个第一类别信息。

17.根据权利要求10或11所述的装置，还包括：

第三图像分割模块，用于将具有标签的第二图像输入所述语义分割模型，得到针对所述第二图像的多个第三掩膜特征图和与所述多个第三掩膜特征图对应的多个第三类别信息；所述标签指示与所述第二图像包括的至少一类物体对应的至少一个第二掩膜图像和与所述至少一类物体对应的至少一个第二类别；以及

第二模型训练模块，用于根据所述多个第三掩膜特征图、所述多个第三类别信息、所述至少一个第二掩膜图像和所述至少一个第二类别，对所述语义分割模型进行训练。

18.一种语义分割装置，包括：

图像分割模块，用于将待处理图像输入语义分割模型，得到针对所述待处理图像的多个第四掩膜特征图和与所述多个第四掩膜特征图对应的多个预测类别信息；以及

信息确定模块，用于根据所述多个预测类别信息和所述多个第四掩膜特征图，确定所述待处理图像包括的至少一类物体的类别和所述至少一类物体的位置信息，

其中，所述语义分割模型是采用权利要求10～17中任一项所述的装置训练的。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～9中任一项所述的方法。