CN115546225A - 一种提升语义分割网络预测概率分布质量的模型训练方法 - Google Patents
一种提升语义分割网络预测概率分布质量的模型训练方法 Download PDFInfo
- Publication number
- CN115546225A CN115546225A CN202211086940.8A CN202211086940A CN115546225A CN 115546225 A CN115546225 A CN 115546225A CN 202211086940 A CN202211086940 A CN 202211086940A CN 115546225 A CN115546225 A CN 115546225A
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- probability distribution
- mask
- segmentation network
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种提升语义分割网络预测概率分布质量的模型训练方法。所述方法包括以下步骤:选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于获取的网络输出;基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛。本发明能够有效减轻语义分割网络对误分类样本仍然给出极高置信度的情况,使模型对于错误分类样本给出较低的置信度,有效提升预测概率分布的质量,有利于应用在对安全性有较高要求的环境中。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种提升语义分割网络预测概率分布质量的模型训练方法。
背景技术
图像语义分割的目的是为图像中的每一个像素点赋予一个语义类别的标记,属于像素级的稠密分类任务。整体来看,语义分割是为实现全面场景理解铺平道路的基础任务之一,越来越多的应用也从图像数据中获取知识,包括自动驾驶、人机交互、室内导航、图像编辑、增强现实和虚拟现实等。
图像语义分割方法可以分为两类:一类是传统方法,如基于阈值的分割、基于边缘的分割、基于区域的分割、基于图论的分割、基于能量泛函的分割等;另一类是基于深度学习的方法。近年来,随着深度神经网络的发展,深度学习在计算机视觉领域表现出越来越大的优势。深度卷积网络对于图像数据尤其有效,可以用于高效地提取图像中的像素特征,克服了传统方法严重依赖人工选取特征的局限,得到较好的分割效果。
Jonathan Long等人在《Fully Convolutional Networks for SemanticSegmentation》一文中提出使用全卷积网络(Fully Convolutional Networks,FCN)进行语义分割,极大地推动了近年来基于深度学习的语义分割技术发展。基于FCN的各种模型显著提升了语义分割的准确率,但是存在预测概率分布质量低下的问题,具体表现在模型对不同样本均给出极高的预测置信度,导致无法通过预测置信度有效地区分误分类样本,在对安全性有较高要求的应用中,存在很大的隐患,严重阻碍了FCN模型在实际场景中的应用。在理想情况下,模型应当为正确分类样本给出高置信度,为误分类样本给出低置信度,提升整个系统的鲁棒性。因此,在实际应用中,需要提升模型的预测概率分布的质量。
发明内容
为了提升全卷积语义分割网络预测概率分布的质量,即给正确分类样本较高置信度,给误分类样本较低置信度,本发明提供了一种提升语义分割网络预测概率分布质量的模型训练方法。
本发明的目的只扫通过如下技术方案之一实现。
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出;
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛。
进一步地,步骤S1中,使用选取的全卷积图像语义分割网络最后一层的输出作为整个全卷积图像语义分割网络的输出。
进一步地,步骤S2包括以下步骤:
S2.3、掩码前后网络输出的数学期望不变,具体如下:
进一步地,步骤S3包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
与现有方法相比,本发明具有如下优点和效果:
本发明不引入任何额外的子模型或设计新的损失函数,简单易扩展,训练时所带来的计算代价可忽略不计。另外,本发明保证了模型的端到端训练,极大地简化了模型的训练过程。
附图说明
图1为本发明实施例中一种提升语义分割网络预测概率分布质量的模型训练方法的流程示意图。
图2为朴素模型训练方法的流程示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图和实施例对本发明的具体实施进行进一步的详细说明,但本发明的实施和保护不限于此。
在下面的描述中结合具体图示阐述了技术方案以便充分理解本发明申请。但是本发申请能够以很多不同于在此描述的的其他方法来实施,本领域普通技术人员在没有作出创造性劳动前提下所做类似推广实施例,都属于本发明保护的范围。
在本说明书中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1:
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
本实施例中,选取《Fully Convolutional Networks for SemanticSegmentation》中描述的方法,并使用18层残差网络(ResNet)作为骨干网络,记为FCN-R18,使用FCN-R18最后一层作为输出。
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出,包括以下步骤:
S2.3、掩码前后网络输出的数学期望不变,具体如下:
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛,包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
本实施例中,使用受试者工作特征曲线下面积(Area Under Receiver OperatingCharacteristic,AUC)作为预测概率分布质量高低的评价标准,在CamVid这一公开数据集上,本发明所述训练方法训练的模型AUC分数为83.54%,图2所示朴素训练方法训练的模型AUC分数为61.53%。本发明在不影响模型分割性能的情况下,有效地提升了模型预测概率分布的质量。
实施例2:
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
选取《Rethinking atrous convolution for semantic image segmentation》中描述的方法,并使用101层残差网络(ResNet)作为骨干网络,记为DeepLabv3-R101,使用DeepLabv3-R101最后一层作为输出。
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出,包括以下步骤:
S2.3、掩码前后网络输出的数学期望不变,具体如下:
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛,包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
本实施例中,在Cityscapes这一公开数据集上,本发明所述训练方法训练的模型AUC分数为73.57%,图2所示朴素训练方法训练的模型AUC分数为54.35%。
实施例3:
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
选取《Alignseg:Feature-aligned segmentation networks》中描述的方法,并使用101层残差网络(ResNet)作为骨干网络,记为AlignSeg-R101,使用AlignSeg-R101最后一层作为输出。
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出,包括以下步骤:
S2.3、掩码前后网络输出的数学期望不变,具体如下:
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛,包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
本实施例中,在Cityscapes这一公开数据集上,本发明所述训练方法训练的模型AUC分数为77.71%,图2所示朴素训练方法训练的模型AUC分数为55.16%。
需要说明的是,对于实施例中所述一种提升语义分割网络预测概率分布质量的模型训练方法的实施例,为了简便描述,故将其都表述为一系列的步骤或操作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤或操作可以采用其它顺序或者同时进行。
以上公开的本申请优选实施例只是用于帮助理解本发明及核心思想。对于本领域的一般技术人员,依据本发明的思想,在具体应用场景和实施操作上均会有改变之处,本说明书不应理解对本发明的限制。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出;
S3、基于掩码作用后的网络输出,计算输入样本的预测概率分布,并监督模型训练至收敛。
2.根据权利要求1所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S1中,使用选取的全卷积图像语义分割网络最后一层的输出作为整个全卷积图像语义分割网络的输出。
7.根据权利要求1~6任一项所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,计算样本损失;
S3.3、训练分割选取的全卷积图像语义分割网络至收敛。
8.根据权利要求7所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3.1中,使用softmax函数计算预测概率分布。
9.根据权利要求7所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3.2中,使用交叉熵损失函数计算样本损失。
10.根据权利要求7所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3.3中,使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086940.8A CN115546225A (zh) | 2022-09-06 | 2022-09-06 | 一种提升语义分割网络预测概率分布质量的模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086940.8A CN115546225A (zh) | 2022-09-06 | 2022-09-06 | 一种提升语义分割网络预测概率分布质量的模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546225A true CN115546225A (zh) | 2022-12-30 |
Family
ID=84724853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211086940.8A Pending CN115546225A (zh) | 2022-09-06 | 2022-09-06 | 一种提升语义分割网络预测概率分布质量的模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546225A (zh) |
-
2022
- 2022-09-06 CN CN202211086940.8A patent/CN115546225A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214349B (zh) | 一种基于语义分割增强的物体检测方法 | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN108629288B (zh) | 一种手势识别模型训练方法、手势识别方法及系统 | |
CN112668579A (zh) | 基于自适应亲和力和类别分配的弱监督语义分割方法 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN112381097A (zh) | 一种基于深度学习的场景语义分割方法 | |
CN111815526B (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN112489497A (zh) | 基于深度卷积神经网络的空域运行复杂度评估方法 | |
CN115410059B (zh) | 基于对比损失的遥感图像部分监督变化检测方法及设备 | |
CN112990222A (zh) | 一种基于图像边界知识迁移的引导语义分割方法 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN115482387A (zh) | 基于多尺度类别原型的弱监督图像语义分割方法及系统 | |
CN117237559A (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN112164065B (zh) | 一种基于轻量化卷积神经网络的实时图像语义分割方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN116778164A (zh) | 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法 | |
CN115546225A (zh) | 一种提升语义分割网络预测概率分布质量的模型训练方法 | |
CN116595167A (zh) | 一种基于集成知识蒸馏网络的意图识别方法 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 | |
CN112396126B (zh) | 一种基于检测主干与局部特征优化的目标检测方法及系统 | |
CN112163580B (zh) | 一种基于注意力机制的小目标检测算法 | |
CN113920311A (zh) | 一种基于边缘辅助信息的遥感图像分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |