CN115546225A - 一种提升语义分割网络预测概率分布质量的模型训练方法 - Google Patents

一种提升语义分割网络预测概率分布质量的模型训练方法 Download PDF

Info

Publication number
CN115546225A
CN115546225A CN202211086940.8A CN202211086940A CN115546225A CN 115546225 A CN115546225 A CN 115546225A CN 202211086940 A CN202211086940 A CN 202211086940A CN 115546225 A CN115546225 A CN 115546225A
Authority
CN
China
Prior art keywords
semantic segmentation
probability distribution
mask
segmentation network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211086940.8A
Other languages
English (en)
Inventor
刘发贵
唐泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202211086940.8A priority Critical patent/CN115546225A/zh
Publication of CN115546225A publication Critical patent/CN115546225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种提升语义分割网络预测概率分布质量的模型训练方法。所述方法包括以下步骤:选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于获取的网络输出;基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛。本发明能够有效减轻语义分割网络对误分类样本仍然给出极高置信度的情况,使模型对于错误分类样本给出较低的置信度,有效提升预测概率分布的质量,有利于应用在对安全性有较高要求的环境中。

Description

一种提升语义分割网络预测概率分布质量的模型训练方法
技术领域
本发明属于计算机视觉领域,具体涉及一种提升语义分割网络预测概率分布质量的模型训练方法。
背景技术
图像语义分割的目的是为图像中的每一个像素点赋予一个语义类别的标记,属于像素级的稠密分类任务。整体来看,语义分割是为实现全面场景理解铺平道路的基础任务之一,越来越多的应用也从图像数据中获取知识,包括自动驾驶、人机交互、室内导航、图像编辑、增强现实和虚拟现实等。
图像语义分割方法可以分为两类:一类是传统方法,如基于阈值的分割、基于边缘的分割、基于区域的分割、基于图论的分割、基于能量泛函的分割等;另一类是基于深度学习的方法。近年来,随着深度神经网络的发展,深度学习在计算机视觉领域表现出越来越大的优势。深度卷积网络对于图像数据尤其有效,可以用于高效地提取图像中的像素特征,克服了传统方法严重依赖人工选取特征的局限,得到较好的分割效果。
Jonathan Long等人在《Fully Convolutional Networks for SemanticSegmentation》一文中提出使用全卷积网络(Fully Convolutional Networks,FCN)进行语义分割,极大地推动了近年来基于深度学习的语义分割技术发展。基于FCN的各种模型显著提升了语义分割的准确率,但是存在预测概率分布质量低下的问题,具体表现在模型对不同样本均给出极高的预测置信度,导致无法通过预测置信度有效地区分误分类样本,在对安全性有较高要求的应用中,存在很大的隐患,严重阻碍了FCN模型在实际场景中的应用。在理想情况下,模型应当为正确分类样本给出高置信度,为误分类样本给出低置信度,提升整个系统的鲁棒性。因此,在实际应用中,需要提升模型的预测概率分布的质量。
发明内容
为了提升全卷积语义分割网络预测概率分布的质量,即给正确分类样本较高置信度,给误分类样本较低置信度,本发明提供了一种提升语义分割网络预测概率分布质量的模型训练方法。
本发明的目的只扫通过如下技术方案之一实现。
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出;
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛。
进一步地,步骤S1中,使用选取的全卷积图像语义分割网络最后一层的输出作为整个全卷积图像语义分割网络的输出。
进一步地,步骤S2包括以下步骤:
S2.1、利用伯努利分布生成掩码M,
Figure BDA0003835056900000021
K为选取的全卷积图像语义分割网络中语义分割的类别个数,k为输入像素样本的类别索引,具体如下:
Figure BDA0003835056900000022
其中,
Figure BDA0003835056900000023
表示伯努利分布,δ为可调整的超参数,mk表示作用于第k类预测分数的掩码;
S2.2、定义掩码函数
Figure BDA00038350569000000210
将掩码M通过掩码函数
Figure BDA0003835056900000024
作用于选取的全卷积图像语义分割网络的输出L,具体如下:
Figure BDA0003835056900000025
其中,
Figure BDA0003835056900000026
lk表示模型对输入样本属于类别k的预测分数,L′为掩码后的输出,
Figure BDA0003835056900000027
l′k表示掩码后输入样本属于类别k的预测分数,
Figure BDA0003835056900000028
表示按元素乘法;
S2.3、掩码前后网络输出的数学期望不变,具体如下:
Figure BDA0003835056900000029
其中,
Figure BDA0003835056900000031
表示数学期望。
进一步地,步骤S3包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
与现有方法相比,本发明具有如下优点和效果:
本发明不引入任何额外的子模型或设计新的损失函数,简单易扩展,训练时所带来的计算代价可忽略不计。另外,本发明保证了模型的端到端训练,极大地简化了模型的训练过程。
附图说明
图1为本发明实施例中一种提升语义分割网络预测概率分布质量的模型训练方法的流程示意图。
图2为朴素模型训练方法的流程示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图和实施例对本发明的具体实施进行进一步的详细说明,但本发明的实施和保护不限于此。
在下面的描述中结合具体图示阐述了技术方案以便充分理解本发明申请。但是本发申请能够以很多不同于在此描述的的其他方法来实施,本领域普通技术人员在没有作出创造性劳动前提下所做类似推广实施例,都属于本发明保护的范围。
在本说明书中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1:
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
本实施例中,选取《Fully Convolutional Networks for SemanticSegmentation》中描述的方法,并使用18层残差网络(ResNet)作为骨干网络,记为FCN-R18,使用FCN-R18最后一层作为输出。
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出,包括以下步骤:
S2.1、利用伯努利分布生成掩码M,
Figure BDA0003835056900000041
K为选取的全卷积图像语义分割网络中语义分割的类别个数,k为输入像素样本的类别索引,具体如下:
Figure BDA0003835056900000042
其中,
Figure BDA0003835056900000043
表示伯努利分布,δ为可调整的超参数,mk表示作用于第k类预测分数的掩码,本实施例中δ设置为0.9;
S2.2、定义掩码函数
Figure BDA0003835056900000044
将掩码M通过掩码函数
Figure BDA0003835056900000045
作用于选取的全卷积图像语义分割网络的输出L,具体如下:
Figure BDA0003835056900000046
其中,
Figure BDA0003835056900000047
lk表示模型对输入样本属于类别k的预测分数,L′为掩码后的输出,
Figure BDA0003835056900000048
l′k表示掩码后输入样本属于类别k的预测分数,
Figure BDA0003835056900000049
表示按元素乘法;
S2.3、掩码前后网络输出的数学期望不变,具体如下:
Figure BDA00038350569000000410
其中,
Figure BDA00038350569000000411
表示数学期望。
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛,包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
本实施例中,使用受试者工作特征曲线下面积(Area Under Receiver OperatingCharacteristic,AUC)作为预测概率分布质量高低的评价标准,在CamVid这一公开数据集上,本发明所述训练方法训练的模型AUC分数为83.54%,图2所示朴素训练方法训练的模型AUC分数为61.53%。本发明在不影响模型分割性能的情况下,有效地提升了模型预测概率分布的质量。
实施例2:
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
选取《Rethinking atrous convolution for semantic image segmentation》中描述的方法,并使用101层残差网络(ResNet)作为骨干网络,记为DeepLabv3-R101,使用DeepLabv3-R101最后一层作为输出。
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出,包括以下步骤:
S2.1、利用伯努利分布生成掩码M,
Figure BDA0003835056900000051
K为选取的全卷积图像语义分割网络中语义分割的类别个数,k为输入像素样本的类别索引,具体如下:
Figure BDA0003835056900000052
其中,
Figure BDA0003835056900000053
表示伯努利分布,δ为可调整的超参数,mk表示作用于第k类预测分数的掩码,本实施例中δ设置为0.9;
S2.2、定义掩码函数
Figure BDA0003835056900000054
将掩码M通过掩码函数
Figure BDA0003835056900000055
作用于选取的全卷积图像语义分割网络的输出L,具体如下:
Figure BDA0003835056900000056
其中,
Figure BDA0003835056900000057
lk表示模型对输入样本属于类别k的预测分数,L′为掩码后的输出,
Figure BDA0003835056900000058
l′k表示掩码后输入样本属于类别k的预测分数,
Figure BDA0003835056900000059
表示按元素乘法;
S2.3、掩码前后网络输出的数学期望不变,具体如下:
Figure BDA0003835056900000061
其中,
Figure BDA0003835056900000062
表示数学期望。
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛,包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
本实施例中,在Cityscapes这一公开数据集上,本发明所述训练方法训练的模型AUC分数为73.57%,图2所示朴素训练方法训练的模型AUC分数为54.35%。
实施例3:
一种提升语义分割网络预测概率分布质量的模型训练方法,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
选取《Alignseg:Feature-aligned segmentation networks》中描述的方法,并使用101层残差网络(ResNet)作为骨干网络,记为AlignSeg-R101,使用AlignSeg-R101最后一层作为输出。
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出,包括以下步骤:
S2.1、利用伯努利分布生成掩码M,
Figure BDA0003835056900000063
K为选取的全卷积图像语义分割网络中语义分割的类别个数,k为输入像素样本的类别索引,具体如下:
Figure BDA0003835056900000064
其中,
Figure BDA0003835056900000065
表示伯努利分布,δ为可调整的超参数,mk表示作用于第k类预测分数的掩码,本实施例中δ设置为0.9;
S2.2、定义掩码函数
Figure BDA0003835056900000071
将掩码M通过掩码函数
Figure BDA0003835056900000072
作用于选取的全卷积图像语义分割网络的输出L,具体如下:
Figure BDA0003835056900000073
其中,
Figure BDA0003835056900000074
lk表示模型对输入样本属于类别k的预测分数,L′为掩码后的输出,
Figure BDA0003835056900000075
l′k表示掩码后输入样本属于类别k的预测分数,
Figure BDA0003835056900000076
表示按元素乘法;
S2.3、掩码前后网络输出的数学期望不变,具体如下:
Figure BDA0003835056900000077
其中,
Figure BDA0003835056900000078
表示数学期望。
S3、基于掩码作用后的网络输出,使用softmax函数计算输入样本的预测概率分布,使用交叉熵损失函数监督模型训练至收敛,包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,使用softmax函数计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,使用交叉熵损失函数计算样本损失;
S3.3、使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
本实施例中,在Cityscapes这一公开数据集上,本发明所述训练方法训练的模型AUC分数为77.71%,图2所示朴素训练方法训练的模型AUC分数为55.16%。
需要说明的是,对于实施例中所述一种提升语义分割网络预测概率分布质量的模型训练方法的实施例,为了简便描述,故将其都表述为一系列的步骤或操作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤或操作可以采用其它顺序或者同时进行。
以上公开的本申请优选实施例只是用于帮助理解本发明及核心思想。对于本领域的一般技术人员,依据本发明的思想,在具体应用场景和实施操作上均会有改变之处,本说明书不应理解对本发明的限制。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,包括以下步骤:
S1、选取任意全卷积图像语义分割网络进行监督训练,获取输入样本经过所选取网络产生的输出;
S2、生成符合条件的掩码和掩码函数,将掩码通过掩码函数作用于步骤S1中获取的网络输出;
S3、基于掩码作用后的网络输出,计算输入样本的预测概率分布,并监督模型训练至收敛。
2.根据权利要求1所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S1中,使用选取的全卷积图像语义分割网络最后一层的输出作为整个全卷积图像语义分割网络的输出。
3.根据权利要求2所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S2包括以下步骤:
S2.1、利用伯努利分布生成掩码M;
S2.2、定义掩码函数
Figure FDA0003835056890000011
将掩码M通过掩码函数
Figure FDA0003835056890000012
作用于选取的全卷积图像语义分割网络的输出L;
S2.3、掩码前后网络输出的数学期望不变。
4.根据权利要求3所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S2.1中,利用伯努利分布生成掩码M,
Figure FDA0003835056890000013
K为选取的全卷积图像语义分割网络中语义分割的类别个数,k为输入像素样本的类别索引,具体如下:
Figure FDA0003835056890000014
其中
Figure FDA0003835056890000015
表示伯努利分布,δ为可调整的超参数,mk表示作用于第k类预测分数的掩码。
5.根据权利要求4所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S2.2中,具体如下:
Figure FDA0003835056890000021
其中,
Figure FDA0003835056890000022
lk表示模型对输入样本属于类别k的预测分数,L′为掩码后的输出,
Figure FDA0003835056890000023
l′k表示掩码后输入样本属于类别k的预测分数,
Figure FDA0003835056890000024
表示按元素乘法。
6.根据权利要求5所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S2.3中,具体如下:
Figure FDA0003835056890000025
其中,
Figure FDA0003835056890000026
表示数学期望。
7.根据权利要求1~6任一项所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3包括以下步骤:
S3.1、基于掩码作用后的网络输出L′,计算预测概率分布;
S3.2、输入预测概率分布和对应的语义分割标注,计算样本损失;
S3.3、训练分割选取的全卷积图像语义分割网络至收敛。
8.根据权利要求7所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3.1中,使用softmax函数计算预测概率分布。
9.根据权利要求7所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3.2中,使用交叉熵损失函数计算样本损失。
10.根据权利要求7所述的一种提升语义分割网络预测概率分布质量的模型训练方法,其特征在于,步骤S3.3中,使用梯度下降法训练分割选取的全卷积图像语义分割网络至收敛。
CN202211086940.8A 2022-09-06 2022-09-06 一种提升语义分割网络预测概率分布质量的模型训练方法 Pending CN115546225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211086940.8A CN115546225A (zh) 2022-09-06 2022-09-06 一种提升语义分割网络预测概率分布质量的模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211086940.8A CN115546225A (zh) 2022-09-06 2022-09-06 一种提升语义分割网络预测概率分布质量的模型训练方法

Publications (1)

Publication Number Publication Date
CN115546225A true CN115546225A (zh) 2022-12-30

Family

ID=84724853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211086940.8A Pending CN115546225A (zh) 2022-09-06 2022-09-06 一种提升语义分割网络预测概率分布质量的模型训练方法

Country Status (1)

Country Link
CN (1) CN115546225A (zh)

Similar Documents

Publication Publication Date Title
CN109214349B (zh) 一种基于语义分割增强的物体检测方法
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
CN108629288B (zh) 一种手势识别模型训练方法、手势识别方法及系统
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN112381097A (zh) 一种基于深度学习的场景语义分割方法
CN111815526B (zh) 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN112489497A (zh) 基于深度卷积神经网络的空域运行复杂度评估方法
CN115410059B (zh) 基于对比损失的遥感图像部分监督变化检测方法及设备
CN112990222A (zh) 一种基于图像边界知识迁移的引导语义分割方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN115482387A (zh) 基于多尺度类别原型的弱监督图像语义分割方法及系统
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN112164065B (zh) 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
CN115546225A (zh) 一种提升语义分割网络预测概率分布质量的模型训练方法
CN116595167A (zh) 一种基于集成知识蒸馏网络的意图识别方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN112396126B (zh) 一种基于检测主干与局部特征优化的目标检测方法及系统
CN112163580B (zh) 一种基于注意力机制的小目标检测算法
CN113920311A (zh) 一种基于边缘辅助信息的遥感图像分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination