CN115471662A

CN115471662A - 语义分割模型的训练方法、识别方法、装置和存储介质

Info

Publication number: CN115471662A
Application number: CN202211366374.6A
Authority: CN
Inventors: 涂鹏; 艾国; 杨作兴
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2022-12-13
Anticipated expiration: 2042-11-03
Also published as: CN115471662B

Abstract

本发明实施方式提出语义分割模型的训练方法、识别方法、装置和存储介质。方法包括：确定有标注的第一训练数据和无标注的第二训练数据；基于第一训练数据和第二训练数据，训练语义分割模型，训练过程包括：基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值，确定第一损失函数值；基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值，确定第二损失函数值，其中伪标签是基于第二训练数据的不确定性信息而获取的；基于第一损失函数值和第二损失函数值，确定语义分割模型的第三损失函数值；配置语义分割模型的模型参数，以使第三损失函数值低于预设阈值。基于不确定性信息校正伪标签，可以优化模型的准确率。

Description

语义分割模型的训练方法、识别方法、装置和存储介质

技术领域

本发明属于图像处理技术领域，特别是语义分割模型的训练方法、识别方法、装置和存储介质。

背景技术

图像的语义分割（semantic segmentation）是图像处理和机器视觉技术中关于图像理解的重要一环。语义分割即是对图像中每一个像素点进行分类，确定每个像素点的类别（如属于背景、人或车等），从而进行区域划分。目前，语义分割已经被广泛应用于自动驾驶、无人机落点判定等诸多场景中。

训练语义分割任务的卷积神经网络（Convolutional Neural Networks, CNNs）通常需要像素级别（pixel-level）的人工标注。相比于其他视觉任务，这种标注信息较为昂贵。半监督语义分割指的是，利用带标注信息（比如，像素级别的标注）的数据和无标注信息的数据共同训练语义分割模型，以期使用少量标注训练得到高精度的语义分割模型。

目前，在半监督语义分割领域的相关研究中，主要关注如何为无标注数据生成伪标签。

发明内容

本发明实施方式提出语义分割模型的训练方法、识别方法、装置和存储介质。

本发明实施方式的技术方案如下：

一种语义分割模型的训练方法，所述方法包括：

确定有标注的第一训练数据和无标注的第二训练数据；

基于所述第一训练数据和所述第二训练数据，训练所述语义分割模型，其中训练过程包括：

基于将所述第一训练数据输入所述语义分割模型所获取的预测值与所述标注的差值，确定所述语义分割模型的第一损失函数值；

基于将所述第二训练数据输入所述语义分割模型所获取的预测值与伪标签的差值，确定所述语义分割模型的第二损失函数值，其中所述伪标签是基于所述第二训练数据的不确定性信息而确定的；

基于所述第一损失函数值和所述第二损失函数值，确定所述语义分割模型的第三损失函数值；

配置所述语义分割模型的模型参数，以使所述第三损失函数值低于预设阈值。

在示范性实施方式中，所述语义分割模型包括编码器和解码器，所述基于将第一训练数据输入语义分割模型所获取的预测值与所述标注的差值，确定第一损失函数值包括：

基于所述编码器确定所述第一训练数据的第一特征向量；

对所述第一特征向量执行丢弃处理；

基于所述解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值；

基于所述第一预测值与所述标注的差值，确定所述第一损失函数值。

在示范性实施方式中，所述语义分割模型包括编码器和解码器，所述基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值，确定第二损失函数值包括：

确定所述第二训练数据的不确定性信息；

基于所述编码器确定所述第二训练数据的第二特征向量；

基于所述解码器对所述第二特征向量执行语义分割预测以得到第二预测值；

基于所述不确定性信息对所述第二预测值进行校正；

基于校正后的第二预测值生成所述伪标签；

基于所述编码器确定所述第二训练数据的第三特征向量；

对所述第三特征向量执行丢弃处理；

基于所述解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值；

基于所述第三预测值与所述伪标签的差值，确定所述第二损失函数值。

在示范性实施方式中，所述确定所述第二训练数据的不确定性信息包括：

将所述第二训练数据输入到所述语义分割模型中n次，以得到n个第二预测值；其中对于每一次输入：基于所述编码器确定该次输入的第二训练数据的第二特征向量；对该次输入的第二特征向量执行丢弃处理；基于所述解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值；

确定所述n个第二预测值的平均值；

确定所述平均值的熵值；

基于所述熵值以及所述n个第二预测值，确定所述第二训练数据的不确定性信息。

在示范性实施方式中，所述执行丢弃处理包括：

对作为所述丢弃处理的输入的特征向量执行池化处理，以得到池化特征向量；

对所述池化特征向量包含的通道维度的预测得分进行排序；

按照从大到小的排序顺序，从排序结果中确定预定数目的预测得分；

计算所述预定数目的预测得分的求和结果P；

按照从大到小的排序顺序，从排序结果中确定P个预测得分所对应的P个通道的P个编号；

在每个编号的空间区域内，随机选取预定大小的区域，将选中区域中的值设置为零。

一种图像识别方法，包括：

利用如上任一项所述的语义分割模型的训练方法，训练语义分割模型；

利用所述语义分割模型对待识别图像中的待标注对象进行标注。

一种语义分割模型的训练装置，所述装置包括：

确定模块，用于确定有标注的第一训练数据和无标注的第二训练数据；

训练模块，用于基于所述第一训练数据和所述第二训练数据，训练所述语义分割模型，其中训练过程包括：

在示范性实施方式中，所述语义分割模型包括编码器和解码器；

所述训练模块，用于基于所述编码器确定所述第一训练数据的第一特征向量；对所述第一特征向量执行丢弃处理；基于所述解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值；基于所述第一预测值与所述标注的差值，确定所述第一损失函数值。

所述训练模块，用于确定所述第二训练数据的不确定性信息；基于所述编码器确定所述第二训练数据的第二特征向量；基于所述解码器对所述第二特征向量执行语义分割预测以得到第二预测值；基于所述不确定性信息对所述第二预测值进行校正；基于校正后的第二预测值生成所述伪标签；基于所述编码器确定所述第二训练数据的第三特征向量；对所述第三特征向量执行丢弃处理；基于所述解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值；基于所述第三预测值与所述伪标签的差值，确定第二损失函数值。

在示范性实施方式中，所述训练模块，用于将所述第二训练数据输入到所述语义分割模型中n次，以得到n个第二预测值；其中对于每一次输入：基于所述编码器确定该次输入的第二训练数据的第二特征向量；对该次输入的第二特征向量执行丢弃处理；基于所述解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值；确定所述n个第二预测值的平均值；确定所述平均值的熵值；基于所述熵值以及所述n个第二预测值，确定所述第二训练数据的不确定性信息。

在示范性实施方式中，所述训练模块，用于对作为所述丢弃处理的输入的特征向量执行池化处理，以得到池化特征向量；对所述池化特征向量包含的通道维度的预测得分进行排序；按照从大到小的排序顺序，从排序结果中确定预定数目的预测得分；计算所述预定数目的预测得分的求和结果P；按照从大到小的排序顺序，从排序结果中确定P个预测得分所对应的P个通道的P个编号；在每个编号的空间区域内，随机选取预定大小的区域，将选中区域中的值设置为零。

一种图像识别装置，包括：

如上任一项所述的语义分割模型的训练装置；以及

图像识别模块，用于利用所述语义分割模型的训练装置训练出的语义分割模型，对待识别图像中的待标注对象进行标注。

一种电子设备，包括：

存储器；

处理器；

其中所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上任一项所述的语义分割模型的训练方法或如上所述的图像识别方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使所述处理器执行如上任一项所述的语义分割模型的训练方法或如上所述的图像识别方法。

从上述技术方案可以看出，在本发明实施方式中，确定有标注的第一训练数据和无标注的第二训练数据；基于第一训练数据和第二训练数据，训练语义分割模型，训练过程包括：基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值，确定第一损失函数值；基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值，确定第二损失函数值，其中伪标签是基于第二训练数据的不确定性信息而获取的；基于第一损失函数值和第二损失函数值，确定语义分割模型的第三损失函数值；配置语义分割模型的模型参数，以使第三损失函数值低于预设阈值。可见，本发明实施方式基于不确定性信息校正伪标签，可以更好利用无标记数据，从而优化模型的准确率。

而且，本发明利用同一样本的n次预测结果量化不确定性信息，不确定性高的地方通常对应伪标签中的错误区域，从而能够利用不确定性信息准确校正伪标签中的错误信息，实现了良好的校正效果。

另外，本发明实施方式提出了针对区域的丢弃处理，实现了一种二维丢弃方式，提高了丢弃效率。

附图说明

图1是本发明实施方式的语义分割模型的训练方法的示范性流程图。

图2是本发明实施方式的语义分割模型的示范性结构图。

图3 是本发明实施方式的丢弃（Drop out）处理的示范性示意图。

图4是根据本发明实施方式利用第一训练数据进行训练的示范性示意图。

图5是根据本发明实施方式确定不确定性信息的示范性示意图。

图6是根据本发明实施方式确定伪标签的示范性示意图。

图7是根据本发明实施方式利用第二训练数据进行训练的示范性示意图。

图8是根据本发明实施方式的语义分割模型的训练装置的示范性结构图。

图9是根据本发明实施方式的图像识别装置的示范性结构图。

图10是本发明实施方式的电子设备的示范性结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

以下，对本公开实施方式涉及的术语进行解释说明。

不确定性感知: 不确定性指对象状态不能被确定地理解，其产生原因包括数据采集的误差、数据生成模型不完备等。神经网络的各类图像任务，普遍使用Softmax函数归一化预测得分到0~1之间，以量化预测结果的可靠程度。但是，由于网络训练过程中存在偶然的不确定性以及感知的不确定性，深度学习模型给出的预测结果并不总是可靠的。深度学习模型中的不确定性感知，旨在给出模型对相同样本的带噪预测下的分布，以进一步反映预测结果的可靠程度。

在精细标注的大规模数据驱动下，CNN在图像识别上取得了巨大成功。对于图像语义分割任务而言, 精细的像素级别的标注数据保证了CNN能够在图像语义分割任务上取得令人满意的结果。然而，收集用于CNN训练优化的大规模标注数据集较为困难，主要原因是标注势必带来巨大的时间开销，另一方面的原因在于：对于某些特定任务（比如，医学任务）而言，还要求标注人员具备一定的知识储备，才能够正确标注图像数据。

为缓解高精度的语义分割模型需要大规模精细标注数据与此类数据难以获取的矛盾，在具有大量无标注数据以及有限量的精细标注数据的场景下，如何高效训练语义分割模型激发了人们的兴趣，即半监督语义分割任务。半监督语义分割任务旨在利用未标记的数据辅助语义分割模型的训练，可以减轻网络训练过程中对标记数据的依赖性。

目前，半监督语义分割领域的主要研究集中于如何为无标注数据生成伪标签。得到无标注数据的伪标签之后，通常直接把所有伪标签信息作为无标注数据的潜在真实标注，作为无标注数据学习过程中的监督信息。目前依赖于为预测得分设置的特定阈值来生成伪标签。然而，在某些时候，网络预测得分高低并不可靠，错误样本往往得到极高的正确得分。基于预测得分为无标注数据生成伪标签的策略，可能在监督信号中引入噪声，使得模型不够准确。

申请人发现：对于半监督的语义分割模型，可以基于模型对无标签样本预测的不确定性信息，对基于预测结果而生成的伪标签进行校正，从而提高模型的准确性。

图1是本发明实施方式的语义分割模型的训练方法的示范性流程图。如图1所示，该方法包括：

步骤101：确定有标注的第一训练数据和无标注的第二训练数据。

针对第一训练数据，基于人工标注对图像中的像素点按照类别进行区域划分。针对第二训练数据，则没有基于人工标注进行区域划分。

比如，对于由m个图像样本组成的训练集

，其中

表示训练集中的第k个样本。在半监督语义分割任务中，训练集通常由具有像素级标注的子集和没有标注的子集同时组成。在这里，将训练集

中的

个样本记做有标注的数据（即第一训练数据），而

个样本为无标注数据（即第二训练数据）。其中标注数据集记为

指的是对应图像的像素级标注；无标注数据集记为

。

步骤102：基于第一训练数据和第二训练数据，训练语义分割模型，其中训练过程包括：基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值，确定语义分割模型的第一损失函数值；基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值，确定语义分割模型的第二损失函数值，其中伪标签是基于第二训练数据的不确定性信息而确定的；基于第一损失函数值和第二损失函数值，确定语义分割模型的第三损失函数值；配置语义分割模型的模型参数，以使第三损失函数值低于预设阈值。

在一个实施方式中，语义分割模型包括编码器（Encoder）和解码器（Decoder），基于将第一训练数据输入语义分割模型所获取的预测值与标注的差值，确定第一损失函数值包括：基于编码器确定第一训练数据的第一特征向量；对第一特征向量执行丢弃处理；基于解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值；基于第一预测值与标注的差值，确定第一损失函数值。

可见，由于第一训练数据为有标注数据，因此可以直接基于与标注的差值确定出损失函数。

在一个实施方式中，语义分割模型包括编码器和解码器，基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值，确定第二损失函数值包括：确定第二训练数据的不确定性信息；基于编码器确定第二训练数据的第二特征向量；基于解码器对第二特征向量执行语义分割预测以得到第二预测值；基于不确定性信息对第二预测值进行校正；基于校正后的第二预测值生成伪标签；基于编码器确定第二训练数据的第三特征向量；对第三特征向量执行丢弃处理；基于解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值；基于第三预测值与伪标签的差值，确定第二损失函数值。

可见，相比较现有技术中单纯利用网络预测得分高低生成伪标签，本发明实施方式的伪标签确定过程中进一步考虑第二训练数据的不确定性信息，因此提高了伪标签的准确度，并相应提高模型的准确性。

在一个实施方式中，基于第一损失函数值和第二损失函数值，确定语义分割模型的第三损失函数值比包括：计算第一损失函数值和第二损失函数值的加权求和值，以作为第三损失函数值，其中权重可以自行设置。

下面结合具体的语义分割模型对本发明实施方式进行说明。

图2是本发明实施方式的语义分割模型的示范性结构图。由图2可见，语义分割模型包括编码器和解码器。输入图像经过编码器提取出颜色、纹理、边缘等低级特征。解码器首先对低级特征进行加工以获取富含语义信息和物体分类相关的高级特征，然后通过上采样将特征图转换为原始的输入图像分辨率，并经过分类层实现像素级别的物体分类。

图2所示的语义分割模型可以实施为：U-Net、FCN、SegNet、PSPNet、DeepLab V1/V2/V3/V3+，等等。比如，可以将DeepLabV3+实施为训练前的语义分割模型（即初始化的语义分割网络）。DeepLabV3+由编码器和解码器组成。其中编码器为resnet50, 解码器包含若干卷积堆叠以及上采样模块。

在针对语义分割模型的训练过程中，可以进一步引入布置在编码器和解码器之间的丢弃模块。丢弃模块设置有使能开关。当控制使能开关处于使能状态时，丢弃模块处于工作状态；当控制使能开关处于非使能状态时，丢弃模块处于不工作状态。当丢弃模块处于工作状态时，丢弃模块对编码器输出的特征向量执行丢弃处理，并将执行丢弃处理后的特征向量发送到解码器。当丢弃模块处于不工作状态时，编码器输出的特征向量被直接提供到解码器，而不再经过丢弃模块。

在针对语义分割模型的训练过程中，还可以进一步引入与解码器连接的不确定性感知模块。不确定性感知模块设置有使能开关。当控制使能开关处于使能状态时，不确定性感知模块处于工作状态；当控制使能开关处于非使能状态时，不确定性感知模块处于不工作状态。当不确定性感知模块处于工作状态时，不确定性感知模块对解码器输出的预测结果执行不确定性感知处理以生成不确定性信息。当不确定性感知模块处于不工作状态时，解码器输出的预测结果不再提供到不确定性感知模块。

下面对丢弃模块的工作原理进行说明。

在本发明实施方式中，丢弃模块所执行的丢弃处理包括：对作为丢弃处理的输入的特征向量执行池化处理，以得到池化特征向量；对池化特征向量包含的通道维度的预测得分进行排序；按照从大到小的排序顺序，从排序结果中确定预定数目的预测得分；计算预定数目的预测得分的求和结果P；按照从大到小的排序顺序，从排序结果中确定前P个预测得分所对应的P个通道的P个编号；在每个编号的空间区域内，随机选取预定大小的区域，将选中区域中的值设置为零。

可见，本发明实施方式提出了针对区域的丢弃处理，实现了一种新颖的二维丢弃方式，提高了丢弃效率。

图3 是本发明实施方式的丢弃处理的示范性示意图。

输入丢弃模块的特征向量记为

，其中B为输入的图片数目；T为特征的通道数；H为特征空间分辨率高度；W为特征空间分辨率宽度。特征向量

经过自适应池化层后，其空间分辨率从H*W变为1*1。全连接层基于池化特征向量生成各个通道层的预测得分。sigmoid函数将预测得分映射到0~1之间的量化得分

，其中数值越接近1代表此通道层的特征越有价值。将量化得分

按从大到小排序，并取前预定数目（比如10）个最大得分进行累加，记累加后的整数为k。然后，返回得分最大的前k个通道层的编号（比如，下标），即确定出得分最大的前k个通道层。然后，在所选的这k个通道层的空间区域（即H*W）内，随机选取m*m的子区域（m可以为预定值），并将该子区域的特征值设置为零。

下面对不确定性感知模块的工作原理进行说明。

为使不确定性感知模块工作，需要控制丢弃模块的使能开关处于使能状态时，以使丢弃模块处于工作状态。在不确定性感知处理中，丢弃模块在输入特征通道维度上自适应选取k个通道层, 并在选取通道层的空间维度随机选取m*m的子区域并将此子区域的特征值置零，从而促使模型能够在不完整的特征下也能做出准确决策，因而能够提升模型鲁棒性。

在本发明实施方式中，不确定性感知模块所执行的不确定性感知处理包括：将第二训练数据输入到语义分割模型中n次，以得到n个第二预测值；其中对于每一次输入：基于编码器确定该次输入的第二训练数据的第二特征向量；对该次输入的第二特征向量执行丢弃处理；基于解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值；确定n个第二预测值的平均值；确定平均值的熵值；基于熵值以及n个第二预测值，确定第二训练数据的不确定性信息。

而且，本发明利用同一样本的n次预测结果量化无标注数据的不确定性信息，不确定性高的地方通常对应伪标签中的错误区域，因此可以利用不确定性信息校正伪标签中的错误信息，实现了良好的校正效果。

具体地，将输入样本

重复输入到语义分割模型中n次，以重复执行n 次预测，得到的预测结果集合为

。在这里，由于同样样本在不同的前向过程中被丢弃模块执行不同的丢弃处理，因此每一次的预测结果都不尽相同。

然后，计算得到样本

正常预测结果

上每一个像素处的预测结果的不确定性信息。计算过程包括：

（1）、计算包含n次预测结果的预测结果集合的均值mean，其中

，其中

为n个丢弃处理作用下的预测样本集中的第i个；

（2）、计算上一步得到均值mean的熵值entropy，其中

；

（3）、计算n次预测结果的互信息值mInfo，将mInfo作为预测样本的不确定性信息，其中

。

以上示范性描述了确定不确定性信息的典型过程，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

下面分别描述利用第一训练数据和第二训练数据对语义分割模型进行训练的具体过程。

图4为根据本发明实施方式利用第一训练数据进行训练的示范性示意图。在利用第一训练数据进行训练时，丢弃模块处于工作状态，不确定性感知模块不处于工作状态。第一训练数据输入到编码器。编码器确定第一训练数据的第一特征向量；丢弃模块对第一特征向量执行丢弃处理（具体细节可参照图3以及相关描述）；解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值；基于第一预测值与标注的差值，确定第一损失函数值。

比如，对于一对标注数据

，

为第i个输入图像，

为

相应的像素级标注。语义分割模型对

的预测为

，因为预测结果

的空间维度和标注

不同。在这里，可以使用双线性插值对

进行缩放，使得其空间维度和标注数据相同，此时

，其中C为类别总数。接着，使用交叉熵函数计算模型预测的第一损失函数值loss1，其中

。

利用第二训练数据对语义分割模型进行训练的具体过程包括：子过程（1）：用于确定不确定性信息；子过程（2）：用于利用不确定性信息确定伪标签；子过程（3）：用于利用伪标签和第二训练数据进行训练。

图5为根据本发明实施方式确定不确定性信息的示范性示意图。在确定不确定性信息的子过程（1）中，丢弃模块处于工作状态，不确定性感知模块处于工作状态。

首先，将第二训练数据的样本

输入语义分割模型重复执行n次预测。其中，丢弃模块对编码器输出的特征向量执行丢弃处理，并将执行丢弃处理后的特征向量发送到解码器。解码器得到的预测结果集合为

。

然后，不确定性感知模块计算得到样本

的正常预测结果

上每一个像素处结果的不确定性信息。计算过程包括：（1）、计算包含n次预测结果的预测结果集合的均值 mean，其中

，其中

为n个丢弃处理作用下的预测样本集中的第i个；（2）、计算上一步得到均值mean的熵值entropy，其中

; （3）、计算n次预测结果的互信息值mInfo，将mInfo作为预测样本的不确定性信息，其中

。

在执行确定不确定性信息的子过程（1）后，接着执行利用不确定性信息确定伪标签的子过程（2）。

图6为根据本发明实施方式确定伪标签的示范性示意图。在子过程（2）中，丢弃模块处于不工作状态，不确定性感知模块处于不工作状态。

首先，将第二训练数据的样本

输入语义分割模型执行预测。其中，由于丢弃模块处于不工作状态，因此对编码器输出的特征向量并不执行丢弃处理。解码器基于编码器输出的特征向量，直接得到第二预测值。接着，利用子过程（1）确定的不确定性信息mInfo，对该第二预测值进行校正，再基于校正后的第二预测值生成伪标签。

比如，对于第j个无标注图像

, 记语义分割模型对样本

的预测结果为

。使用不确定性信息

校正预测

以得到校正后的预测结果

，其中

=

*sigmoid(

), sigmoid为常用归一化函数，作用为将

中的每一个值缩放到0~1之间。

然后，根据

为样本

生成对应的伪标签

=max(

, 0),

。

在执行利用不确定性信息确定伪标签的子过程（2）后，接着执行利用伪标签和第二训练数据进行训练的子过程（3）。

图7为根据本发明实施方式利用第二训练数据进行训练的示范性示意图。

在子过程（3）中，丢弃模块处于工作状态，不确定性感知模块处于不工作状态。

首先，将第二训练数据的样本

输入语义分割模型执行预测。其中，丢弃模块对编码器输出的特征向量执行丢弃处理，并将执行丢弃处理后的特征向量发送到解码器。解码器得到第三预测值

。接着使用交叉熵函数、第三预测值

和伪标签

计算模型预测的第二损失函数值loss2，其中

。

确定出第一损失函数值loss1和第二损失函数值loss2后，可以计算loss1和loss2的加权求和值，以作为第三损失函数值。然后，根据第三损失函数值的损失梯度反向更新语义分割模型的模型参数，以使第三损失函数值低于预设阈值，从而完成语义分割模型的训练过程。

当完成语义分割模型的训练过程后，可以去除丢弃模块和不确定性感知模块，并利用完成训练的语义分割模型执行图像识别任务。本发明实施方式还提出一种图像识别方法。该方法包括：利用如上所述的任意的语义分割模型的训练方法，训练语义分割模型；利用语义分割模型对待识别图像中的待标注对象进行标注。

图8为根据本发明实施方式的语义分割模型的训练装置的示范性结构图。如图8所示，语义分割模型的训练装置300包括：确定模块301，用于确定有标注的第一训练数据和无标注的第二训练数据；训练模块302，用于基于第一训练数据和第二训练数据，训练语义分割模型303，其中训练过程包括：基于将第一训练数据输入语义分割模型303所获取的预测值与标注的差值，确定语义分割模型303的第一损失函数值；基于将第二训练数据输入语义分割模型303所获取的预测值与伪标签的差值，确定语义分割模型303的第二损失函数值，其中伪标签是基于第二训练数据的不确定性信息而确定的；基于第一损失函数值和第二损失函数值，确定语义分割模型303的第三损失函数值；配置语义分割模型303的模型参数，以使第三损失函数值低于预设阈值。

在示范性实施方式中，语义分割模型303包括编码器和解码器；训练模块302，用于基于编码器确定第一训练数据的第一特征向量；对第一特征向量执行丢弃处理；基于解码器对执行丢弃处理的第一特征向量执行语义分割预测以得到第一预测值；基于第一预测值与标注的差值，确定第一损失函数值。

在示范性实施方式中，语义分割模型303包括编码器和解码器；训练模块302，用于确定第二训练数据的不确定性信息；基于编码器确定第二训练数据的第二特征向量；基于解码器对第二特征向量执行语义分割预测以得到第二预测值；基于不确定性信息对第二预测值进行校正；基于校正后的第二预测值生成伪标签；基于编码器确定第二训练数据的第三特征向量；对第三特征向量执行丢弃处理；基于解码器对执行丢弃处理的第三特征向量执行语义分割预测以得到第三预测值；基于第三预测值与伪标签的差值，确定第二损失函数值。

在示范性实施方式中，训练模块302，用于将第二训练数据输入到语义分割模型中n次，以得到n个第二预测值；其中对于每一次输入：基于编码器确定该次输入的第二训练数据的第二特征向量；对该次输入的第二特征向量执行丢弃处理；基于解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值；确定n个第二预测值的平均值；确定平均值的熵值；基于熵值以及n个第二预测值，确定第二训练数据的不确定性信息。

在示范性实施方式中，训练模块302，用于对作为丢弃处理的输入的特征向量执行池化处理，以得到池化特征向量；对池化特征向量包含的通道维度的预测得分进行排序；按照从大到小的排序顺序，从排序结果中确定预定数目的预测得分；计算预定数目的预测得分的求和结果P；按照从大到小的排序顺序，从排序结果中确定P个预测得分所对应的P个通道的P个编号；在每个编号的空间区域内，随机选取预定大小的区域，将选中区域中的值设置为零。

图9为根据本发明实施方式的图像识别装置的示范性结构图。图像识别装置400包括：如图3所示语义分割模型的训练装置300；以及图像识别模块304，用于利用语义分割模型的训练装置300训练出的语义分割模型303，对待识别图像中的待标注对象进行标注。

本发明还分别提出一种电子设备。电子设备包括：处理器；存储器；其中存储器中存储有可被处理器执行的应用程序，用于使得处理器执行如上实施方式的语义分割模型的训练方法或图像识别方法。其中，存储器具体可以实施为电可擦可编程只读存储器（EEPROM）、快闪存储器（Flash memory）、可编程程序只读存储器（PROM）等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU、MCU或数字信号处理器（DSP）。

图10为本发明实施方式的电子设备的示范性结构图。优选地，电子设备800可以实施为低功耗摄像设备。

电子设备800包括：处理器801和存储器802。处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理（DigitalSignal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器（Central Processing Unit，CPU）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施方式中，处理器801可以在集成有图像处理器（Graphics Processing Unit，GPU），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施方式中，处理器801还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。比如，AI处理器可以实施为神经网络处理器。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。

在一些实施方式中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，至少一个指令用于被处理器801所执行以实现本公开中各个实施方式提供的语义分割模型的训练方法或图像识别方法。在一些实施方式中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。外围设备接口803可被用于将输入/输出（Input/Output，I/O）相关的至少一个外围设备连接到处理器801和存储器802。在一些实施方式中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施方式中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施方式对此不加以限定。

射频电路804用于接收和发射射频（Radio Frequency，RF）信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或无线保真（Wireless Fidelity，Wi-Fi）网络。在一些实施方式中，射频电路804还可以包括近距离无线通信（Near Field Communication，NFC）有关的电路，本公开对此不加以限定。

显示屏805用于显示用户界面（User Interface，UI）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施方式中，显示屏805可以为一个，设置在电子设备800的前面板；在另一些实施方式中，显示屏805可以为至少两个，分别设置在电子设备800的不同表面或呈折叠设计；在一些实施方式中，显示屏805可以是柔性显示屏，设置在电子设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用液晶显示屏（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施方式中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实（Virtual Reality，VR）拍摄功能或者其它融合拍摄功能。在一些实施方式中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施方式中，音频电路807还可以包括耳机插孔。定位组件808用于定位电子设备800的当前地理位置，以实现导航或基于位置的服务（Location Based Service，LBS）。定位组件808可以是基于美国的全球定位系统（Global Positioning System，GPS）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。

本领域技术人员可以理解，上述的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件（如专用处理器，如FPGA或ASIC）用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路（如包括通用处理器或其它可编程处理器）用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路（如由软件进行配置）来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本申请方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施方式中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机（或CPU或MPU）读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

以上，仅为本发明的较佳实施方式而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语义分割模型的训练方法，其特征在于，包括：

确定有标注的第一训练数据和无标注的第二训练数据；

2.根据权利要求1所述的方法，其特征在于，所述语义分割模型包括编码器和解码器，所述基于将第一训练数据输入语义分割模型所获取的预测值与所述标注的差值，确定第一损失函数值包括：

基于所述编码器确定所述第一训练数据的第一特征向量；

对所述第一特征向量执行丢弃处理；

3.根据权利要求1所述的方法，其特征在于，所述语义分割模型包括编码器和解码器，所述基于将第二训练数据输入语义分割模型所获取的预测值与伪标签的差值，确定第二损失函数值包括：

确定所述第二训练数据的不确定性信息；

基于所述编码器确定所述第二训练数据的第二特征向量；

基于所述不确定性信息对所述第二预测值进行校正；

基于校正后的第二预测值生成所述伪标签；

基于所述编码器确定所述第二训练数据的第三特征向量；

对所述第三特征向量执行丢弃处理；

4.根据权利要求3所述的方法，其特征在于，所述确定所述第二训练数据的不确定性信息包括：

确定所述n个第二预测值的平均值；

确定所述平均值的熵值；

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述执行丢弃处理包括：

对所述池化特征向量包含的通道维度的预测得分进行排序；

计算所述预定数目的预测得分的求和结果P；

6.一种图像识别方法，其特征在于，包括：

利用权利要求1至5中任一项所述的语义分割模型的训练方法，训练语义分割模型；

7.一种语义分割模型的训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述语义分割模型包括编码器和解码器；

9.根据权利要求7所述的装置，其特征在于，所述语义分割模型包括编码器和解码器；

10.根据权利要求9所述的装置，其特征在于，

所述训练模块，用于将所述第二训练数据输入到所述语义分割模型中n次，以得到n个第二预测值；其中对于每一次输入：基于所述编码器确定该次输入的第二训练数据的第二特征向量；对该次输入的第二特征向量执行丢弃处理；基于所述解码器对执行丢弃处理的该次输入的第二特征向量执行语义分割预测以得到该次输入的第二预测值；确定所述n个第二预测值的平均值；确定所述平均值的熵值；基于所述熵值以及所述n个第二预测值，确定所述第二训练数据的不确定性信息。

11.根据权利要求8-10中任一项所述的装置，其特征在于，

所述训练模块，用于对作为所述丢弃处理的输入的特征向量执行池化处理，以得到池化特征向量；对所述池化特征向量包含的通道维度的预测得分进行排序；按照从大到小的排序顺序，从排序结果中确定预定数目的预测得分；计算所述预定数目的预测得分的求和结果P；按照从大到小的排序顺序，从排序结果中确定P个预测得分所对应的P个通道的P个编号；在每个编号的空间区域内，随机选取预定大小的区域，将选中区域中的值设置为零。

12.一种图像识别装置，其特征自语，包括：

如权利要求7至11中任一项所述的语义分割模型的训练装置；以及

13.一种电子设备，其特征在于，包括：

存储器；

处理器；

其中所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至5中任一项所述的语义分割模型的训练方法或如权利要求6所述的图像识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使所述处理器执行如权利要求1至5中任一项所述的语义分割模型的训练方法或如权利要求6所述的图像识别方法。