CN115546225A

CN115546225A - 一种提升语义分割网络预测概率分布质量的模型训练方法

Info

Publication number: CN115546225A
Application number: CN202211086940.8A
Authority: CN
Inventors: 刘发贵; 唐泉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-30

Abstract

本发明公开一种提升语义分割网络预测概率分布质量的模型训练方法。所述方法包括以下步骤：选取任意全卷积图像语义分割网络进行监督训练，获取输入样本经过所选取网络产生的输出；生成符合条件的掩码和掩码函数，将掩码通过掩码函数作用于获取的网络输出；基于掩码作用后的网络输出，使用softmax函数计算输入样本的预测概率分布，使用交叉熵损失函数监督模型训练至收敛。本发明能够有效减轻语义分割网络对误分类样本仍然给出极高置信度的情况，使模型对于错误分类样本给出较低的置信度，有效提升预测概率分布的质量，有利于应用在对安全性有较高要求的环境中。

Description

一种提升语义分割网络预测概率分布质量的模型训练方法

技术领域

本发明属于计算机视觉领域，具体涉及一种提升语义分割网络预测概率分布质量的模型训练方法。

背景技术

图像语义分割的目的是为图像中的每一个像素点赋予一个语义类别的标记，属于像素级的稠密分类任务。整体来看，语义分割是为实现全面场景理解铺平道路的基础任务之一，越来越多的应用也从图像数据中获取知识，包括自动驾驶、人机交互、室内导航、图像编辑、增强现实和虚拟现实等。

图像语义分割方法可以分为两类：一类是传统方法，如基于阈值的分割、基于边缘的分割、基于区域的分割、基于图论的分割、基于能量泛函的分割等；另一类是基于深度学习的方法。近年来，随着深度神经网络的发展，深度学习在计算机视觉领域表现出越来越大的优势。深度卷积网络对于图像数据尤其有效，可以用于高效地提取图像中的像素特征，克服了传统方法严重依赖人工选取特征的局限，得到较好的分割效果。

Jonathan Long等人在《Fully Convolutional Networks for SemanticSegmentation》一文中提出使用全卷积网络(Fully Convolutional Networks，FCN)进行语义分割，极大地推动了近年来基于深度学习的语义分割技术发展。基于FCN的各种模型显著提升了语义分割的准确率，但是存在预测概率分布质量低下的问题，具体表现在模型对不同样本均给出极高的预测置信度，导致无法通过预测置信度有效地区分误分类样本，在对安全性有较高要求的应用中，存在很大的隐患，严重阻碍了FCN模型在实际场景中的应用。在理想情况下，模型应当为正确分类样本给出高置信度，为误分类样本给出低置信度，提升整个系统的鲁棒性。因此，在实际应用中，需要提升模型的预测概率分布的质量。

发明内容

为了提升全卷积语义分割网络预测概率分布的质量，即给正确分类样本较高置信度，给误分类样本较低置信度，本发明提供了一种提升语义分割网络预测概率分布质量的模型训练方法。

本发明的目的只扫通过如下技术方案之一实现。

一种提升语义分割网络预测概率分布质量的模型训练方法，包括以下步骤：

S1、选取任意全卷积图像语义分割网络进行监督训练，获取输入样本经过所选取网络产生的输出；

S2、生成符合条件的掩码和掩码函数，将掩码通过掩码函数作用于步骤S1中获取的网络输出；

S3、基于掩码作用后的网络输出，使用softmax函数计算输入样本的预测概率分布，使用交叉熵损失函数监督模型训练至收敛。

进一步地，步骤S1中，使用选取的全卷积图像语义分割网络最后一层的输出作为整个全卷积图像语义分割网络的输出。

进一步地，步骤S2包括以下步骤：

S2.1、利用伯努利分布生成掩码M，

K为选取的全卷积图像语义分割网络中语义分割的类别个数，k为输入像素样本的类别索引，具体如下：

其中，

表示伯努利分布，δ为可调整的超参数，mk表示作用于第k类预测分数的掩码；

S2.2、定义掩码函数

将掩码M通过掩码函数

作用于选取的全卷积图像语义分割网络的输出L，具体如下：

其中，

l_k表示模型对输入样本属于类别k的预测分数，L′为掩码后的输出，

l′_k表示掩码后输入样本属于类别k的预测分数，

表示按元素乘法；

S2.3、掩码前后网络输出的数学期望不变，具体如下：

其中，

表示数学期望。

进一步地，步骤S3包括以下步骤：

S3.1、基于掩码作用后的网络输出L′，使用softmax函数计算预测概率分布；

S3.2、输入预测概率分布和对应的语义分割标注，使用交叉熵损失函数计算样本损失；

S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。

与现有方法相比，本发明具有如下优点和效果：

本发明不引入任何额外的子模型或设计新的损失函数，简单易扩展，训练时所带来的计算代价可忽略不计。另外，本发明保证了模型的端到端训练，极大地简化了模型的训练过程。

附图说明

图1为本发明实施例中一种提升语义分割网络预测概率分布质量的模型训练方法的流程示意图。

图2为朴素模型训练方法的流程示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图和实施例对本发明的具体实施进行进一步的详细说明，但本发明的实施和保护不限于此。

在下面的描述中结合具体图示阐述了技术方案以便充分理解本发明申请。但是本发申请能够以很多不同于在此描述的的其他方法来实施，本领域普通技术人员在没有作出创造性劳动前提下所做类似推广实施例，都属于本发明保护的范围。

在本说明书中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

实施例1：

本实施例中，选取《Fully Convolutional Networks for SemanticSegmentation》中描述的方法，并使用18层残差网络(ResNet)作为骨干网络，记为FCN-R18，使用FCN-R18最后一层作为输出。

S2、生成符合条件的掩码和掩码函数，将掩码通过掩码函数作用于步骤S1中获取的网络输出，包括以下步骤：

S2.1、利用伯努利分布生成掩码M，

其中，

表示伯努利分布，δ为可调整的超参数，m_k表示作用于第k类预测分数的掩码，本实施例中δ设置为0.9；

S2.2、定义掩码函数

将掩码M通过掩码函数

作用于选取的全卷积图像语义分割网络的输出L，具体如下：

其中，

l′_k表示掩码后输入样本属于类别k的预测分数，

表示按元素乘法；

S2.3、掩码前后网络输出的数学期望不变，具体如下：

其中，

表示数学期望。

S3、基于掩码作用后的网络输出，使用softmax函数计算输入样本的预测概率分布，使用交叉熵损失函数监督模型训练至收敛，包括以下步骤：

本实施例中，使用受试者工作特征曲线下面积(Area Under Receiver OperatingCharacteristic，AUC)作为预测概率分布质量高低的评价标准，在CamVid这一公开数据集上，本发明所述训练方法训练的模型AUC分数为83.54％，图2所示朴素训练方法训练的模型AUC分数为61.53％。本发明在不影响模型分割性能的情况下，有效地提升了模型预测概率分布的质量。

实施例2：

选取《Rethinking atrous convolution for semantic image segmentation》中描述的方法，并使用101层残差网络(ResNet)作为骨干网络，记为DeepLabv3-R101，使用DeepLabv3-R101最后一层作为输出。

S2.1、利用伯努利分布生成掩码M，

其中，

表示伯努利分布，δ为可调整的超参数，mk表示作用于第k类预测分数的掩码，本实施例中δ设置为0.9；

S2.2、定义掩码函数

将掩码M通过掩码函数

作用于选取的全卷积图像语义分割网络的输出L，具体如下：

其中，

l′_k表示掩码后输入样本属于类别k的预测分数，

表示按元素乘法；

S2.3、掩码前后网络输出的数学期望不变，具体如下：

其中，

表示数学期望。

本实施例中，在Cityscapes这一公开数据集上，本发明所述训练方法训练的模型AUC分数为73.57％，图2所示朴素训练方法训练的模型AUC分数为54.35％。

实施例3：

选取《Alignseg：Feature-aligned segmentation networks》中描述的方法，并使用101层残差网络(ResNet)作为骨干网络，记为AlignSeg-R101，使用AlignSeg-R101最后一层作为输出。

S2.1、利用伯努利分布生成掩码M，

其中，

S2.2、定义掩码函数

将掩码M通过掩码函数

作用于选取的全卷积图像语义分割网络的输出L，具体如下：

其中，

l′_k表示掩码后输入样本属于类别k的预测分数，

表示按元素乘法；

S2.3、掩码前后网络输出的数学期望不变，具体如下：

其中，

表示数学期望。

本实施例中，在Cityscapes这一公开数据集上，本发明所述训练方法训练的模型AUC分数为77.71％，图2所示朴素训练方法训练的模型AUC分数为55.16％。

需要说明的是，对于实施例中所述一种提升语义分割网络预测概率分布质量的模型训练方法的实施例，为了简便描述，故将其都表述为一系列的步骤或操作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤或操作可以采用其它顺序或者同时进行。

以上公开的本申请优选实施例只是用于帮助理解本发明及核心思想。对于本领域的一般技术人员，依据本发明的思想，在具体应用场景和实施操作上均会有改变之处，本说明书不应理解对本发明的限制。本发明仅受权利要求书及其全部范围和等效物的限制。