CN115511892A

CN115511892A - 一种语义分割模型的训练方法、语义分割方法及装置

Info

Publication number: CN115511892A
Application number: CN202211202858.7A
Authority: CN
Inventors: 周倍同
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-23

Abstract

本申请实施例提供了一种语义分割模型的训练方法、语义分割方法及装置，涉及人工智能技术领域，用于提升语义分割的准确度。该训练方法具体为：获取第一训练样本集与第二训练样本集；其中，第一训练样本集包括多个样本以及对每个样本人工标注的图像标签；对第一训练样本集中的训练样本作第一扩增处理，并对第二训练样本集中的训练样本作第二扩增处理；其中，第二扩增处理的扩增强度高于第一扩增处理；将第二训练样本集输入语义分割模型中的教师模型中，得到第二预测结果；其中，第二预测结果包括第二训练样本集中每个样本的预测标签；根据第一训练样本集、第二训练样本集以及第二预测结果，训练语义分割模型中的学生模型。

Description

一种语义分割模型的训练方法、语义分割方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语义分割模型的训练方法、语义分割方法及装置。

背景技术

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。

在计算机视觉领域中，语义分割(semantic segmentation)是一个很重要的研究方向，语义分割为场景理解提供了比较高层级的信息，语意分割是对图像中的每一个像素进行分类，在很多领域和场景中都有重要的应用。例如，自动驾驶系统，人机交互系统，移动设备的摄影，图像搜索引擎以及增强现实应用。在自动驾驶系统中，语义分割技术能够很好地对街景图像进行识别和理解，输出更加真实的场景图，并使得自动驾驶系统可以做出更加安全可靠的行驶操作；在无人机应用，语义分割技术有利于无人机更加精准地定位着落点的位置；在穿戴式设备应用中，语义分割技术能够提高穿戴设备识别周围物体的精确度，从而提高人们对穿戴设备的体验感受。

目前，现有的语义分割方法通常采用监督学习的及其学习方式。但是，为保证监督学习的语义分割方法的精确度，需要训练样本图像中的像素级标注结果，在此标注过程中需要耗费过多的人力物力。

发明内容

本申请实施例提供了一种语义分割模型的训练方法、语义分割方法及装置，可以用于提升语义分割的准确度。

第一方面，本申请实施例提供一种语义分割模型的训练方法，具体方法包括：获取第一训练样本集与第二训练样本集；其中，第一训练样本集包括多个样本以及对每个样本人工标注的图像标签；对第一训练样本集中的训练样本作第一扩增处理，以增加第一训练样本集中训练样本的数量，并对第二训练样本集中的训练样本作第二扩增处理；其中，第二扩增处理的扩增强度高于第一扩增处理；将第二训练样本集输入语义分割模型中的教师模型中，得到第二预测结果；其中，第二预测结果包括第二训练样本集中每个样本的预测标签；根据第一训练样本集、第二训练样本集以及第二预测结果，训练语义分割模型中的学生模型。

基于本申请提供的技术方案，至少可以产生以下有益效果：相较于对抗网络方案，本申请实施例提供的方法更容易收敛，且语义分割模型的训练性能更高。此外，基于该方法在实际应用中可以根据需求选择不同的专家模型组合作为教师模型，相比其他方案更具有灵活性。此外，图像扩增属于数据增广大范畴，其主要用于增加训练数据集，第一扩增处理可以用于增加第一训练样本集中训练样本的数量，第二扩增处理可以以使得数据集尽可能的多样化，进而使得训练的模型具有更强的泛化能力，以避免对错误预测结果的过拟合。

在一种可能的实现方式中，上述第一扩增处理包括旋转样本、缩放样本、剪裁样本或翻转样本中的一种或多种，上述第二扩增处理包括能够改变图像原有语义的处理方式。

在另一种可能的实现方式中，上述根据第一训练样本集、第二训练样本集以及第二预测结果，训练语义分割模型中的学生模型，包括：基于第一训练样本集与学生模型，确定监督损失值，以及基于第二预测结果与教师模型，确定无监督损失值；根据第二预测结果与学生模型对第二训练样本集进行预测得到的预测结果，确定教师模型与学生模型之间的关系约束损失值；根据监督损失值、无监督损失值以及关系约束损失值，确定目标损失值；基于目标损失值更新学生模型的参数。

在又一种可能的实现方式中，关系约束损失值用于反映同一样本基于学生模型得到的第一相关值与基于教师模型得到的第二相关值之间的损失值；其中，第一相关值用于指示样本的相邻两个像素点基于学生模型的预测值之间的相关关系，第二相关值用于指示相邻两个像素点基于教师模型的预测值之间的相关关系。

在又一种可能的实现方式中，教师模型的结构与学生模型的结构相同，且教师模型的权重为基于学生模型的权重与指数滑动平均法EMA得到的权重值。

可以理解，在该实现方式中，利用指数滑动平均法可以简单有效的确定出教师模型的权重，并且教师模型的结构与学生模型的结构相同，结构简单，便于具体实现。

在又一种可能的实现方式中，教师模型的结构与学生模型的结构不相同，且教师模型为单个模型。或者，教师模型的结构与学生模型的结构不相同，且教师模型为多个模型的组合，教师模型的预测结果为结合多个模型中各个模型的子预测结果得到的，一个模型的子预测结果为模型的输出值与模型的预设贡献比例之间的乘积。

可以理解，在该实现方式中，可以实现不限制教师模型的结构，从而在实际应用中可以根据需求选取不同的模型，例如不同的专家模型组合作为教师模型，专家模型是将业务经验人工编码为机器学习模型结构，该模型能够实现相同业务场景的复用和快速部署。如此，可以提高半监督训练的灵活性和鲁棒性，也可以提升语义分割模型的识别性能。

第二方面，本申请实施例还提供一种语义分割方法，该方法包括：获取待识别图像；将待识别图像输入训练完成的语义分割模型中，得到待识别图像的语义分割结果。

第三方面，本申请提供一种语义分割模型的训练，该装置包括：获取模块，用于获取第一训练样本集与第二训练样本集；其中，第一训练样本集包括多个样本以及对每个样本人工标注的图像标签；处理模块，用于对第一训练样本集中的训练样本作第一扩增处理，以增加第一训练样本集中训练样本的数量，并对第二训练样本集中的训练样本作第二扩增处理；其中，第二扩增处理的扩增强度高于所述第一扩增处理；还用于将第二训练样本集输入语义分割模型中的教师模型中，得到第二预测结果；其中，第二预测结果包括第二训练样本集中每个样本的预测标签；处理模块，还用于根据第一训练样本集、第二训练样本集以及第二预测结果，训练语义分割模型中的学生模型。

在另一种可能的实现方式中，处理模块，还用于：基于第一训练样本集与学生模型，确定监督损失值，以及基于第二预测结果与教师模型，确定无监督损失值；根据第二预测结果与学生模型对第二训练样本集进行预测得到的预测结果，确定教师模型与学生模型之间的关系约束损失值；根据监督损失值、无监督损失值以及关系约束损失值，确定目标损失值；基于目标损失值更新学生模型的参数。

在又一种可能的实现方式中，教师模型的结构与学生模型的结构不相同，且教师模型为单个模型。或者，教师模型的结构与学生模型的结构不相同，且教师模型为多个模型的组合，教师模型的预测结果为结合多个模型中各个模型的子预测结果得到的，一个模型的子预测结果为模型的输出值与模型的预设贡献比例之间的乘积。。

第四方面，本申请实施例提供一种语义识别装置，该装置包括：获取模块，用于获取待识别图像。处理模块，用于将待识别图像输入训练完成的语义分割模型中，得到待识别图像的语义分割结果。

第五方面，本申请提供一种电子设备，该电子设备包括：一个或多个处理器；一个或多个存储器；其中，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，电子设备执行如上述第一方面所提供的方法，或者，如上述第二方面所提供的方法。

第六方面，本申请提供一种芯片系统，该芯片系统应用于电子设备；芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，使得电子设备执行如上述第一方面所提供的方法，或者，如上述第二方面所提供的方法。

第七方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当所述计算机指令在电子设备上运行时，使得电子设备执行如上述第一方面所提供的方法，或者，如上述第二方面所提供的方法。

第八方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上述第一方面所提供的方法，或者，如上述第二方面所提供的方法。

本申请中第三方面到第八方面及其各种实现方式的具体描述，可以参考第一方面或第二方面及其各种实现方式中的详细描述；并且，第三方面到第八方面及其各种实现方式的有益效果，可以参考第一方面或第二方面及其各种实现方式中的有益效果分析，此处不再赘述。

附图说明

图1为本申请实施例提供的一种电子设备的硬件结构示意图；

图2为本申请实施例提供的一种语义分割模型的训练方法的流程图；

图3为本申请实施例提供的一种语义分割模型的组成示意图；

图4为本申请实施例提供的一种样本图像像素预测结果的示意图；

图5为本申请实施例提供的一种语义分割方法流程图；

图6为本申请实施例提供的一种训练装置的组成示意图；

图7为本申请实施例提供的一种语义分割装置的组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了便于理解，首先对本发明实施例涉及到的一些术语或技术的基本概念进行简单的介绍和说明。

1、卷积神经网络(convolutional neural networks,CNN)

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一。卷积神经网络可以应用于图像识别(image classification)、物体识别(object recognition)、行为认知(actionrecognition)、姿态估计(pose estimation)、神经风格转换(neural style transfer)等计算机视觉方面，也可以应用于自然语言处理(natural language processing,NLP)方面等。

一般而言，卷积神经网络包括输入层、隐含层和输出层。

其中，卷积神经网络的输入层可以处理多维数据。以图像处理为例，输入层可以接收图像的像素值(三维数组)，即平面上的二维像素点和RGB通道的数值。

卷积神经网络的隐含层包括一个或多个卷积层(convolutional layer)、一个或多个池化层(pooling layer)，以及一个或多个全连接层(fully-connected layer)。其中，卷积层的功能是对输入数据进行特征提取。卷积层之后一般会连接池化层，从而在卷积层进行特征提取后，输出的数据被传递到池化层进行选择和信息过滤。全连接层的每一个结点都与上一层的所有结点相连，用于将获取到的特征综合起来，全连接层在整个卷积神经网络中起到“分类器”的作用。

卷积神经网络的输出层，其结构和工作原理与传统前馈神经网络的输出相同。例如，对于图形分类的卷积神经网络，输出层使用逻辑函数或归一化指数函数(softmaxfunction)输出分类标签，例如：人、景、物等。

2、过拟合(over-fitting)

过拟合也称为过学习。是指在分类处理时，为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。也称为过学习，它的直观表现是算法在训练集上表现好，但在测试集上表现不好，泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差，在训练时复杂的模型将抽样误差也进行了拟合导致的。所谓抽样误差，是指抽样得到的样本集和整体数据集之间的偏差。

3、损失函数(loss function)

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值过高，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。

因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

4、半监督学习(semi-supervised learning，SSL)

半监督学习是属于监督学习与无监督学习相结合的一种学习方法，对应所使用的模型可称为半监督学习模型。根据训练样本是否有标签，传统的机器学习任务分为监督学习和无监督学习，监督学习指的是训练样本包含标记信息(即数据有标签)的学习任务，例如：常见的分类与回归算法；无监督学习则是训练样本不包含标记信息(即数据无标签)的学习任务，例如：聚类算法、异常检测算法等。半监督学习是指使用大量的无标签数据和一部分有标签数据来进行模式识别工作。

5、知识蒸馏(knowledge distillation)

知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方法，将已经训练好的教师模型包含的知识(Knowledge)，蒸馏(Distill)提取到学生模型里面去。

知识蒸馏可以将一个网络的知识转移到另一个网络，两个网络可以是同构或者异构。做法是先训练一个teacher网络，或者称为教师模型，然后使用这个teacher网络的输出训练student网络，或者称为学生模型。在进行知识蒸馏时，可以通过采用预先训练好的复杂网络去训练另外一个简单的网络，以使得简单的网络可以具有和复杂网络相同或相似的数据处理能力。其主要思想是迁移学习，以预先训练好的复杂而繁重的模型教师模型为目标，让学生模型去学习教师模型得到的暗知识，训练一个简化的、压缩的学生模型。

知识蒸馏可以快速方便地实现一些小型的网络，例如，可以在云服务器或企业级服务器训练大量数据的复杂网络模型，然后进行知识蒸馏得到实现了相同功能的小型模型，并将该小型模型压缩并迁移到小型设备(如手机、智能手环等)上。又例如，通过收集大量用户在智能手环上的数据，在云服务器上进行复杂并耗时的网络训练，得到用户行为识别模型，再把该模型压缩并迁移到智能手环这一小型载体，可以在保证保护用户隐私的同时，快速训练模型，并提升用户体验。

6、指数滑动平均法(EMA)

指数滑动平均法简称为指数平滑法。是利用上一期的实际值和预测值(估算值)，对它们进行不同的加权分配，求得一个指数平滑值，作为下一期预测值的一种预测方法。

以上是对本公开的实施例中涉及到的技术术语的介绍，以下不再赘述。

如背景技术所述，基于监督学习的语义分割方法需要耗费过多的人力物力。此外，采用对抗网络的方法进行半监督训练的方案极度依赖于对抗网络的训练，但对抗网络训练难以保证其收敛。并且，在图像的语义分割过程中，图像的每个像素的预测结果同时与该像素周围像素相关。采用对抗网络的方法进行半监督训练的方案并没有考虑到语义分割任务的像素间相关关系，也即对每个像素的预测置信度是独立判别的，会降低语义分割的准确度。

有鉴于此，本申请实施例提供一种语义分割模型的训练方法，具体方法包括：获取第一训练样本集与第二训练样本集；其中，第一训练样本集包括多个样本以及对每个样本人工标注的图像标签；将第二训练样本集输入语义分割模型中的教师模型中，得到第二预测结果；其中，第二预测结果包括第二训练样本集中每个样本的预测标签；根据第一训练样本集、第二训练样本集以及第二预测结果，训练语义分割模型中的学生模型。如此，可以提升语义分割的准确度。

本申请实施例还提供一种语义分割模型的训练装置，该语义分割模型的训练装置可以用于执行上述语义分割模型的训练方法。可选的，该语义分割模型的训练装置可为具有数据处理能力的电子设备，或者是该电子设备中的功能模块，对此不作限定。例如，该电子设备可以是服务器，其可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。又例如，该电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等终端设备。又例如，该电子设备还可以为录像设备、视频监控设备等设备。本公开对该电子设备的具体形态不作特殊限制。

下面以语义分割模型的训练装置是电子设备为例，如图1所示，图1示出了一种电子设备100的硬件结构。

如图1所示，该电子设备100包括处理器110，通信线路120以及通信接口130。

可选的，该电子设备100还可以包括存储器140。其中，处理器110，存储器140以及通信接口130之间可以通过通信线路120连接。

其中，处理器110可以是中央处理器(central processing unit，CPU)、通用处理器网络处理器(network processor，NP)、数字信号处理器(digital signal processing，DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device，PLD)或它们的任意组合。处理器101还可以是其它任意具有处理功能的装置，例如电路、器件或软件模块，不做限制。

在一种示例中，处理器110可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

作为一种可选的实现方式，电子设备100包括多个处理器，例如，除处理器110之外，还可以包括处理器170。通信线路120，用于在电子设备100所包括的各部件之间传送信息。

通信接口130，用于与其他设备或其它通信网络进行通信。该其它通信网络可以为以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口130可以是模块、电路、收发器或者任何能够实现通信的装置。

存储器140，用于存储指令。其中，指令可以是计算机程序。

其中，存储器140可以是只读存储器(read-only memory，ROM)或可存储静态信息和/或指令的其他类型的静态存储设备，也可以是存取存储器(random access memory，RAM)或者可存储信息和/或指令的其他类型的动态存储设备，还可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备等，不予限制。

需要指出的是，存储器140可以独立于处理器110存在，也可以和处理器110集成在一起。存储器140可以用于存储指令或者程序代码或者一些数据等。存储器140可以位于电子设备100内，也可以位于电子设备100外，不做限制。

处理器110，用于执行存储器140中存储的指令，以实现本申请下述实施例提供的通信方法。例如，当电子设备100为终端或者终端中的芯片时，处理器110可以执行存储器140中存储的指令，以实现本申请下述实施例中发送端所执行的步骤。

作为一种可选的实现方式，电子设备100还包括输出器件150和输入器件160。其中，输出器件150可以是显示屏、扬声器等能够将电子设备100的数据输出给用户的器件。输入器件160是可以键盘、鼠标、麦克风或操作杆等能够向电子设备100输入数据的器件。

需要指出的是，图1中示出的结构并不构成对该计算装置的限定，除图1所示部件之外，该计算装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，对于上述分类器，本申请实施例还提供一种语义分割装置，该语义分割装置可用于该训练好的语义分割模型的使用。并且，该语义分割装置同样可为具有数据处理能力的电子设备模块，或者是该电子设备中的功能模块，对此不作限定。可选的，该使用装置的硬件结构也可以如图1所示。

在一些实施例中，上述语义分割模型的训练装置和上述语义分割装置可以集成为一个设备；或者，上述语义分割模型的训练装置和上述语义分割装置可以为独立的两个设备。

下面结合说明书附图，对本申请提供的实施例进行具体介绍。

本申请实施例提供了一种语义分割模型的训练装置，如图2所示，该方法应用于具有图1所示硬件结构的语义分割模型的训练装置(为简单描述，下文中简称训练装置)，具体包括以下步骤：

S101、训练装置获取第一训练样本集与第二训练样本集。

其中，上述第一训练样本集为用于训练语义分割模型的样本数据。第一训练样本集包括多个图像样本以及对每个样本人工标注的图像标签。应理解，与该图像样本对应的图像标签也可以称为与该图像样本对应的语义分割模型的输出期望结果。

示例性的，每一个图像样本可以对应一个图像标签，该图像标签用于指示该图像样本的分类类别，也即该图像样本对应的语义意义。例如，一个图像样本可能对应一个标签为“猫”或者“狗”。

此外，上述第二训练样本集也包括多个样本图像。示例性的，样本数据集中包括的多个样本可以是例如超市、车站或者道路等区域的图像，进而应用于智能家居、智能医疗、自动驾驶、智能安防等领域中，本申请实施例对此不作限定。

在一些实施例中，训练装置可以获取少量带标签的图像样本和大量来无标签的图像样本。进而，在获取到图像样本之后，可以基于该图像样本是否具有图像标签，将获取到的图像样本中的一部分具有图像标签的图像样本划分为上述第一训练样本集，以及将另一部分无图像样本的图像样本划分为上述第二训练样本集。

可选的，上述图像样本可以来源于不同的图像采集地点。或者，上述图像样本中的拍摄对象可以为不同的对象类型。又或者，上述图像样本可以来源于不同的采集时刻。从而，充分采用各种图像样本作为语义分割模型的训练样本，可以提升该语义分割模型的识别性能。

S102、训练装置将第二训练样本集输入语义分割模型中的教师模型中，得到第二预测结果。

其中，第二预测结果包括第二训练样本集中每个样本的预测标签。

可选的，图3为本申请实施例提供的语义分割模型，其中，该模型包括学生模型31以及教师模型32。如图3所示，训练装置可以将第二训练样本集中的图像样本输入至教师模型32中。进而，对于第二训练集中的图像样本1，教师模型32可以确定该图像样本1在各个识别类别的可能的概率。进而，概率最高的即为类别对应的标签即为该图像样本1对应的预测标签。

具体地，教师模型32可以对第二训练样本集中的图像样本进行识别，进而得到各个图像样本属于各个分类类别的概率，其概率数值介于0-1之间。比如若分类类别包括猫和狗。教师模型32确定图像样本1属于各个分类类别的概率可能为[0.9，0.01]，进而，教师模型32确定的图像样本1的预测标签为“猫”。

此外，本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

可选的，教师模型的数量可以为1个，或者，该教师模型可以为多个模型组成的模型组合。此外，教师模型的结构类型为并非固定的一种。示例性的，该教师模型的结构可以为深度神经网络(deep neural network，DNN)、卷积神经网络(convolutional neuralnetwork，CNN)、循环神经网络(recurrent neural networks，RNN)、残差网络或其他神经网络等，本申请实施例对此不作限定。以教师模型的结构为卷积神经网络为例，该教师模型可以包括输入层，卷积层以及神经网络层。可选的，该教师模型还可以包括池化层。

可选的，教师模型的结构与学生模型的结构相同。或者，教师模型的结构与学生模型的结构不相同。

需要说明的是，对于本申请实施例提供的教师模型，不限制教师模型的结构，在实际应用中可以根据需求选取不同的模型，例如不同的专家模型组合作为教师模型，专家模型是将业务经验人工编码为机器学习模型结构，该模型能够实现相同业务场景的复用和快速部署。如此，可以提高半监督训练的灵活性和鲁棒性，也可以提升语义分割模型的识别性能。

S103、训练装置对第一训练样本集中的训练样本作第一扩增处理，并对第二训练样本集中的训练样本作第二扩增处理。

可选的，训练装置可以对第二训练样本集中的训练样本作第一扩增处理，在将处理后的第二训练样本集输入语义分割模型的教师模型中。

其中，上述第一扩增处理用于指示对图像进行基础仿变换的扩增方式。此外，基于图像的扩增处理强度，第一扩增处理也可以称为弱扩增处理。示例性的，第一扩增处理可以包括旋转、缩放、裁剪和翻转等图像处理方式，对第二训练样本集中的一个训练样本作第一扩增处理即可得到与该训练样本不同的另一个新的训练样本。

上述扩增强度用于表征在扩增处理中对图像像素的扰动强度。可以理解为，扩增处理的扩增强度越高，经过扩增处理后的图像与经过扩增处理前的图像之间的图像差异越大，该图像差异可以包括在图像的像素排布、图像的亮度、对比度等图像特性之间的差异。相应的，扩增处理的扩增强度越低，经过扩增处理后的图像与经过扩增处理前的图像之间的像素差异越小。

需要说明的是，图像扩增属于数据增广大范畴，其主要用于增加训练数据集，第一扩增处理可以用于增加所述第一训练样本集中训练样本的数量。

可选的，训练装置在利用第二训练样本集和第二预测结果训练该学生模型时，可以首先对第二训练样本集中的训练样本作第二扩增处理，进而将处理后的第二训练样本集输入语义分割模型的教师模型中。

其中，上述第二扩增处理用于指示能够改变图像原有语义信息的扩增方式。并且，第二扩增处理的扩增强度高于第二扩增处理的扩增强度。

此外，基于对图像的扩增处理强度，第二扩增处理也可以称为强扩增处理。示例性的，第二扩增处理可以包括添加高斯噪声、随机对比度以及CutMix数据增强等图像处理方式。其中，高斯噪声是指概率密度函数服从高斯分布(即正态分布)的一类噪声。随机对比度是指通过调整图像对比度来对图像进行数据增强的图像处理方式。CutMix是指随机生成一个裁剪框，切割出图片中的一小块，并将这一小块贴到其他图片中从而形成新的样本，如此，可以最大程度的利用了同一张图像上的两种不同图像信息。因此，C_utMix可以用于提升模型分类的准确率和定位准确率。

需要说明的是，基于第二扩增处理，通过对图像的处理，让数据集尽可能的多样化，可以增加模型的泛化能力，并且可以避免对错误预测结果的过拟合。

S104、训练装置根据第一训练样本集、第二训练样本集以及第二预测结果，训练该语义分割模型中的学生模型。

具体的，训练装置可以首先利用第一训练样本集训练该学生模型。进而，可以采用第二训练样本集以及第二预测结果训练该学生模型。

可选的，训练装置在利用第一训练样本集训练该学生模型时，可以首先对第一训练样本集中的训练样本作第一扩增处理，进而将处理后的第一训练样本集输入语义分割模型的教师模型中。

对于第一训练样本集中的任一图像样本而言，学生模型可以对该图像样本进行识别，得到学生模型对于该图像样本的预测标签，进而可以将得到的预测标签与第一训练样本集中该图像样本对应的图像标签进行对比，并根据对比结果更新该学生模型的参数。

此外，对于第二训练样本集中的任一图像样本而言，学生模型可以对该图像样本进行识别，得到学生模型对于该图像样本的预测标签，进而可以将得到的预测标签与第二预测结果中该图像样本对应的基于教师模型的标签进行对比，并根据对比结果更新该学生模型的参数。

示例性的，图3为本申请实施例提供的语义分割模型，其中，该模型包括学生模型31以及教师模型32。如图3所示，训练装置可以将第一训练样本集中的图像样本输入至学生模型31中。进而，还可以将将第二训练样本集中的图像样本以及第二预测结果输入至学生模型31中。

在一些实施例中，训练装置可以基于第一训练样本集与学生模型，确定监督损失值，以及基于第二预测结果与教师模型，确定无监督损失值。

可选的，训练装置可以根据以下公式(1)确定监督损失值。

其中，L_sup为监督损失值，H为交叉熵损失，

用于指示第一样本集中经过第一扩增处理后的图像样本，y_l用于指示该图像样本的图像标签，f_θ为对应需要训练的语义分割模型。

此外，上述交叉熵损失的计算方式可以参考下述公式(2)。

其中，H为交叉熵损失，N为图像中对应的像素个数，C为该模型的分类类别的数量。

可选的，训练装置可以根据以下公式(3)确定无监督损失值。

其中，L_unsup为无监督损失值，H为交叉熵损失，

用于指示第二样本集中经过第二扩增处理后的图像样本，

用于指示该图像样本基于教师模型得到的预测标签，f_θ为对应需要训练的语义分割模型。

此外，

可以根据下述公式(4)确定，

该图像样本基于教师模型得到的概率最高的预测标签。

其中，

用于指示该图像样本基于教师模型得到的预测标签，

用于指示第二样本集中经过第一扩增处理后的图像样本，f_ζ用于指示教师模型参数。

可选的，在教师模型的结构与学生模型的结构相同时，教师模型权重可以为学生模型权重的指数滑动平均值。也即教师模型权重为基于学生模型权重与指数滑动平均法得到的权重值。如此，利用指数滑动平均法可以简单有效的确定出教师模型的权重，并且教师模型的结构与学生模型的结构相同，结构简单，便于实现。

示例性的，教师模型权重的计算过程可以如下述公式(5)所示：

ζ＝τζ₀+(1-τ)θ (5)

其中，ζ为教师模型权重，ζ₀为训练过程中确定的上一个教师模型权重，θ为学生模型权重，τ为衰减系数，且τ∈[0，1]。θ基于τ的具体值在训练过程中迭代更新。

此外，在教师模型为多个模型的组合时，教师模型参数为f_ζ＝{f_ζi}。进而，教师模型的预测结果为结合多个模型中各个模型的子预测结果得到的，一个模型的子预测结果为模型的输出值与模型的预设贡献比例之间的乘积，示例性的，教师模型的预测结果可以依据下述公式(6)确定。

其中，M为教师模型组合中的模型数量，α_i为第i个模型预测结果在输出预测结果中的贡献比例，并且

进而，训练装置可以根据第二预测结果与学生模型对第二训练样本集进行预测得到的预测结果，确定教师模型与学生模型之间的关系约束损失值。

上述关系约束损失值用于反映同一样本基于学生模型得到的第一相关值与基于教师模型得到的第二相关值之间的损失值。其中，第一相关值用于指示样本的相邻两个像素点基于学生模型的预测值之间的相关关系，第二相关值用于指示相邻两个像素点基于教师模型的预测值之间的相关关系。

可选的，训练装置可以基于图像样本中的每个像素点的预测值，确定如图4所示的预测概率表示图。其中，一个图像样本的预测结果可以表示为N×C×H×W的概率图。其中，N为图像中对应的像素个数，C为该模型的分类类别的数量，H与W分别表示该图像样本的长与宽。

进而，基于滑动窗口的思想，训练装置可以在样本图像中选择大小为K×K像素的一小块图像。如图4所示，训练装置可以确定这一小块图像中位于中心位置的像素点A与其他像素点之间的相关关系(也即上述第一相关值或第二相关值)。可选的，该相关关系可以为余弦相似度。

在分别计算同一样本图像中同一位置K×K像素的一小块图像基于学生模型的第一相关值，以及基于教师模型的第二相关值之后，训练装置可以基于下述公式(7)以及公式(8)确定关系约束损失值。

其中，R_mij为该样本图像中第m个小块图像中的坐标为(i，j)的像素点基于上述教师模型或学生模型的预测结果，p_mij为该样本图像中第m个小块图像中的坐标为(i，j)的像素点的预测概率，

为该样本图像中第m个小块图像中位于中心位置的像素点的预测概率。

其中，L_nsc为关系约束损失值，

为该样本图像中第m个小块图像中的坐标为(i，j)的像素点基于上述教师模型的预测结果，

为该样本图像中第m个小块图像中的坐标为(i，j)的像素点基于上述学生模型的预测结果。MSE为数理统计中均方误差，其是指参数估计值与参数值之差平方的期望值。

进一步地，训练装置根据监督损失值、无监督损失值以及关系约束损失值，确定目标损失值，并基于目标损失值更新学生模型的参数。

可选的，训练装置可以将监督损失值、无监督损失值以及关系约束损失值之和确定目标损失值。如下述公式(9)所示。

L＝L_sup+λ_unsupL_unsup+λ_nsrL_nsr (9)

其中，L为目标损失值，L_sup为监督损失值，L_unsup为无监督损失值，L_nsc为关系约束损失值。

基于本申请提供的技术方案，至少可以产生以下有益效果：首先，相较于对抗网络方案，本申请实施例提供的方法更容易收敛，且语义分割模型的训练性能更高。此外，基于该方法在实际应用中可以根据需求选择不同的专家模型组合作为教师模型，相比其他方案更具有灵活性。并且，本申请可以确定图像的相邻像素点之间的关系的损失值，通过对像素与周围点之间的关系的确定，更好的刻画目标的语义信息，进而提升语义分割的准确度。

在一些实施例中，本申请实施例还提供一种语义分割方法，应用于上述语义分割装置，如图5所示，该方法包括：

S201、语义分割装置获取待识别图像。

其中，待识别图像可以为智能家居、智能医疗、自动驾驶、智能安防等领域中所需要识别的图像。

S202、语义分割装置将待识别图像输入训练完成的语义分割模型中，得到待识别图像的语义分割结果。

其中，该语义分割结果为待识别图像的图像标签。

可以看出，上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，本申请实施例提供了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本申请实施例可以根据上述方法示例对上述装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。可选的，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图6所示，为本申请实施例还提供的一种训练装置的结构示意图。该训练装置200可以包括：获取模块201和处理模块202。

其中，获取模块201，用于获取第一训练样本集与第二训练样本集；其中，第一训练样本集包括多个样本以及对每个样本人工标注的图像标签；

处理模块202，用于对第一训练样本集中的训练样本作第一扩增处理，以增加第一训练样本集中训练样本的数量，并对第二训练样本集中的训练样本作第二扩增处理；其中，第二扩增处理的扩增强度高于所述第一扩增处理；

处理模块202，还用于将第二训练样本集输入语义分割模型中的教师模型中，得到第二预测结果；其中，第二预测结果包括第二训练样本集中每个样本的预测标签；以及用于根据第一训练样本集、第二训练样本集以及第二预测结果，训练语义分割模型中的学生模型。

在另一种可能的实现方式中，处理模块202，还用于：基于第一训练样本集与学生模型，确定监督损失值，以及基于第二预测结果与教师模型，确定无监督损失值；根据第二预测结果与学生模型对第二训练样本集进行预测得到的预测结果，确定教师模型与学生模型之间的关系约束损失值；根据监督损失值、无监督损失值以及关系约束损失值，确定目标损失值；基于目标损失值更新学生模型的参数。

可以理解，在该实现方式中，利用指数滑动平均法可以简单有效的确定出教师模型的权重，并且教师模型的结构与学生模型的结构相同，结构简单，便于实现。

关于上述可选方式的具体描述可以参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种训练装置200解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

作为示例，结合图1，训练装置200中的信处理模块202所实现的功能可以通过图1中的处理器110或处理器170执行图1中的存储器140中的程序代码实现。获取模块101所实现的功能可以通过图1中的通信线路120实现，当然不限于此。

如图7所示，为本申请实施例还提供的一种语义分割装置300的结构示意图。该装置300可以包括：获取模块301以及处理模块302。

其中，获取模块301，用于获取待识别图像。

处理模块302，用于将待识别图像输入训练完成的语义分割模型中，得到待识别图像的语义分割结果。

相应的，作为示例，结合图1，语义装置中的处理模块302所实现的功能可以通过图1中的处理器110或处理器170执行图1中的存储器140中的程序代码实现，当然不限于此。

本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，图6或图7中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，还可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请实施例还提供了一种计算机可读存储介质，包括计算机执行指令，当其在计算机上运行时，使得计算机执行上述实施例提供的任意一种方法。例如，图2中S101～S104的一个或多个特征可以由该计算机可读存储介质中储存的一个或多个计算机执行指令来承担。

本申请实施例还提供了一种包含计算机执行指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的任意一种方法。

本申请实施例还提供了一种芯片，包括：处理器和接口，处理器通过接口与存储器耦合，当处理器执行存储器中的计算机程序或计算机执行指令时，使得上述实施例提供的任意一种方法被执行。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语义分割模型的训练方法，其特征在于，所述方法包括：

获取第一训练样本集与第二训练样本集；其中，所述第一训练样本集包括多个样本以及对每个样本人工标注的图像标签；

对所述第一训练样本集中的训练样本作第一扩增处理，以增加所述第一训练样本集中训练样本的数量，并对第二训练样本集中的训练样本作第二扩增处理；其中，所述第二扩增处理的扩增强度高于所述第一扩增处理，所述第二训练样本集包括多个样本；

将所述第二训练样本集输入所述语义分割模型中的教师模型中，得到第二预测结果；其中，所述第二预测结果包括所述第二训练样本集中每个样本的预测标签；

根据所述第一训练样本集、所述第二训练样本集以及所述第二预测结果，训练所述语义分割模型中的学生模型。

2.根据权利要求1所述的方法，其特征在于，所述第一扩增处理包括旋转样本、缩放样本、剪裁样本或翻转样本中的一种或多种，所述第二扩增处理包括能够改变图像原有语义的处理方式。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一训练样本集、所述第二训练样本集以及所述第二预测结果，训练所述语义分割模型中的学生模型，包括：

基于所述第一训练样本集与所述学生模型，确定监督损失值，以及基于所述第二预测结果与所述教师模型，确定无监督损失值；

根据所述第二预测结果与所述学生模型对所述第二训练样本集进行预测得到的预测结果，确定所述教师模型与所述学生模型之间的关系约束损失值；

根据监督损失值、所述无监督损失值以及所述关系约束损失值，确定目标损失值；

基于所述目标损失值更新所述学生模型的参数。

4.根据权利要求3所述的方法，其特征在于，所述关系约束损失值用于反映同一样本基于所述学生模型得到的第一相关值与基于所述教师模型得到的第二相关值之间的损失值；其中，所述第一相关值用于指示所述样本的相邻两个像素点基于所述学生模型的预测值之间的相关关系，所述第二相关值用于指示所述相邻两个像素点基于所述教师模型的预测值之间的相关关系。

5.根据权利要求3所述的方法，其特征在于，所述教师模型的结构与所述学生模型的结构相同，且所述教师模型的权重为基于所述学生模型的权重与指数滑动平均法EMA得到的权重值。

6.根据权利要求3所述的方法，其特征在于，所述教师模型的结构与所述学生模型的结构不相同，且所述教师模型为单个模型；或者，

所述教师模型的结构与所述学生模型的结构不相同，且所述教师模型为多个模型的组合，所述教师模型的预测结果为结合所述多个模型中各个模型的子预测结果得到的，一个模型的子预测结果为所述模型的输出值与所述模型的预设贡献比例之间的乘积。

7.一种语义分割方法，其特征在于，所述方法包括：

获取待识别图像；

将所述待识别图像输入训练完成的语义分割模型中，得到所述待识别图像的语义分割结果。

8.一种语义分割模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取第一训练样本集与第二训练样本集；其中，所述第一训练样本集包括多个样本以及对每个样本人工标注的图像标签；

处理模块，用于对所述第一训练样本集中的训练样本作第一扩增处理，以增加所述第一训练样本集中训练样本的数量，并对第二训练样本集中的训练样本作第二扩增处理；其中，所述第二扩增处理的扩增强度高于所述第一扩增处理，所述第二训练样本集包括多个样本；

所述处理模块，还用于将所述第二训练样本集输入所述语义分割模型中的教师模型中，得到第二预测结果；其中，所述第二预测结果包括所述第二训练样本集中每个样本的预测标签；

所述处理模块，还用于根据所述第一训练样本集、所述第二训练样本集以及所述第二预测结果，训练所述语义分割模型中的学生模型。

9.根据权利要求8所述的装置，其特征在于，

所述第一扩增处理包括旋转样本、缩放样本、剪裁样本或翻转样本中的一种或多种，所述第二扩增处理包括能够改变图像原有语义的处理方式；

所述处理模块，还用于：

基于所述目标损失值更新所述学生模型的参数；

所述关系约束损失值用于反映同一样本基于所述学生模型得到的第一相关值与基于所述教师模型得到的第二相关值之间的损失值；其中，所述第一相关值用于指示所述样本的相邻两个像素点基于所述学生模型的预测值之间的相关关系，所述第二相关值用于指示所述相邻两个像素点基于所述教师模型的预测值之间的相关关系；

所述教师模型的结构与所述学生模型的结构相同，且所述教师模型的权重为基于所述学生模型的权重与指数滑动平均法EMA得到的权重值；或者，

所述教师模型的结构与所述学生模型的结构不相同，且所述教师模型为单个模型；或者，

10.一种语义分割装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图像；

处理模块，用于将所述待识别图像输入训练完成的语义分割模型中，得到所述待识别图像的语义分割结果。

11.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；

其中，当所述处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1至6任一项所述的方法，或者，权利要求7所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算

机指令，当所述计算机指令运行时，使得计算机执行权利要求1至6任一项所述的方法，

或者，权利要求7所述的方法。