CN112465844A - 一种用于图像语义分割的多类别损失函数及其设计方法 - Google Patents

一种用于图像语义分割的多类别损失函数及其设计方法 Download PDF

Info

Publication number
CN112465844A
CN112465844A CN202011585826.0A CN202011585826A CN112465844A CN 112465844 A CN112465844 A CN 112465844A CN 202011585826 A CN202011585826 A CN 202011585826A CN 112465844 A CN112465844 A CN 112465844A
Authority
CN
China
Prior art keywords
class
loss function
value
coefficient
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011585826.0A
Other languages
English (en)
Inventor
王孝伟
毛昊
李新利
杨国田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202011585826.0A priority Critical patent/CN112465844A/zh
Publication of CN112465844A publication Critical patent/CN112465844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于图像语义分割的多类别损失函数及其设计方法,该损失函数基于训练数据集中各类别像素点的出现频率,通过调节加权系数、聚焦系数和负类门控系数,动态调节各类别样本在损失函数中的权值,通过迭代的方式,在模型训练的同时进行超参数选取,以确定超参数的具体取值以及损失函数的具体形式,使小类别得到更充分训练,既能缓解类别不平衡现象,也能提高模型性能。

Description

一种用于图像语义分割的多类别损失函数及其设计方法
技术领域
本发明涉及计算机视觉与人工智能领域,特别是涉及一种用于图像语义分割的多类别损失函数及其设计方法,一种在图像语义分割任务中计算损失的方法。
背景技术
图像语义分割是计算机视觉中重要研究方向之一。重点是将图像中的区域分为具有语义信息的几个区域,以帮助机器人等识别现场设备及状态等语义信息,更好进行相关任务执行。传统的图像语义分割方法根据图像的颜色、纹理信息、空间结构等底层特征对图像进行分割,特别针对电力场景,目前只能对某一类别的目标进行语义分割,然而实际场景中通常包含多个类别目标,且存在较严重类别不平衡问题,当各类别目标出现频率差别较大时,会导致模型不能在所有类别上同时收敛,因此在各类别上的语义分割效果不一致,分割效果较差。针对图像语义分割任务中类别不平衡问题,目前主要有三种方法:第一种是对训练数据进行裁剪,第二种是在损失函数中对不同的类别进行加权,给出现频率较小的类别以更高的权重,第三种是使用对小类更友好的损失函数训练模型,这类损失函数能够在训练过程中动态地调整各类别的权值。但以上均基于二分类语义分割任务,而实际场景中通常是多类别语义分割任务,且通常存在严重类别不平衡问题。
因此,为了解决图像语义分割中的多类别不平衡问题,设计一个合适的损失函数,以达到图像语义分割更好的效果,显得尤为重要。
发明内容
本发明提出了一种用于图像语义分割的多类别损失函数,该损失函数可以在深度学习训练过程中根据训练效果动态调节各类别的权值,使小类别得到更充分的训练,缓解类别不平衡现象,提高模型性能。该损失函数的表达式如式(1)所示:
Figure 615171DEST_PATH_IMAGE001
(1)
式中,
Figure 944521DEST_PATH_IMAGE002
表示损失函数值,
Figure 877842DEST_PATH_IMAGE003
表示第
Figure 546721DEST_PATH_IMAGE004
类别上的损失函数值。
Figure 867981DEST_PATH_IMAGE005
表示真实类别,
Figure 184429DEST_PATH_IMAGE006
为负类门控系数,用于控制是否在损失函数中考虑错误类别。
模型在第
Figure 804330DEST_PATH_IMAGE004
类的损失函数值
Figure 327715DEST_PATH_IMAGE003
Figure 491980DEST_PATH_IMAGE007
表示的损失函数中第
Figure 530343DEST_PATH_IMAGE004
类的初始权值、
Figure 71046DEST_PATH_IMAGE008
表示的模型在每个轮次结束之后对第
Figure 448938DEST_PATH_IMAGE004
类权值的动态修正量和
Figure 112000DEST_PATH_IMAGE009
为初始交叉熵损失函数值三部分组成,其中前两项的乘积是损失函数中第
Figure 224879DEST_PATH_IMAGE004
类的真正权值。
Figure 569272DEST_PATH_IMAGE003
的具体表达式如式(2)所示:
Figure 67250DEST_PATH_IMAGE010
(2)
式中,加权系数
Figure 635634DEST_PATH_IMAGE011
和聚焦系数
Figure 851852DEST_PATH_IMAGE012
共同作用以调节损失函数中各类别的权重;
Figure 734357DEST_PATH_IMAGE013
用于控制初始权值,
Figure 149158DEST_PATH_IMAGE013
越大,出现频率较小的类的初始权值相对越大;
Figure 826127DEST_PATH_IMAGE014
用于控制权重的动态修正量。
一种基于图像语义分割的多类别损失函数设计方法,该损失函数及各超参数的确立方式,具体包括以下步骤:
步骤1:选定加权系数
Figure 264062DEST_PATH_IMAGE015
步骤2:根据第
Figure 12575DEST_PATH_IMAGE016
类实例在数据集中的出现频率
Figure 843451DEST_PATH_IMAGE017
计算获得第
Figure 956901DEST_PATH_IMAGE016
类样本在损失函数中的初始权值
Figure 882132DEST_PATH_IMAGE018
步骤3:选定聚焦系数
Figure 168756DEST_PATH_IMAGE019
步骤4:调用基于深度学习的图像语义分割模型,计算在该像素点上对第
Figure 495833DEST_PATH_IMAGE020
类的输出值
Figure 780183DEST_PATH_IMAGE021
步骤5:计算获得每轮次结束对第
Figure 989448DEST_PATH_IMAGE020
类权值的动态修正量
Figure 17447DEST_PATH_IMAGE022
步骤6:计算获得初始交叉熵损失函数值
Figure 468805DEST_PATH_IMAGE023
步骤7:根据式(2),计算获得在该像素点上对第
Figure 924057DEST_PATH_IMAGE016
类的损失函数值
Figure 823880DEST_PATH_IMAGE024
步骤8:选定负类门控系数
Figure 452307DEST_PATH_IMAGE025
步骤9:根据式(1),计算获得该像素点对应的多类别损失函数值
Figure 488396DEST_PATH_IMAGE026
步骤10:根据训练效果修改加权系数
Figure 114550DEST_PATH_IMAGE015
、聚焦系数
Figure 236090DEST_PATH_IMAGE019
和负类门控系数
Figure 668208DEST_PATH_IMAGE025
的取值,重复步骤1~9,直到模型收敛。
附图说明
图1是损失函数各超参数选取方法流程图。
具体实施方式
以下结合附图1具体说明本发明的较佳实施例。
本发明提出了一种基于图像语义分割的多类别损失函数,其在深度学习训练过程中,具体包括以下步骤:
步骤1:选定加权系数
Figure 824383DEST_PATH_IMAGE015
步骤2:根据第
Figure 621437DEST_PATH_IMAGE016
类实例在数据集中的出现频率
Figure 292590DEST_PATH_IMAGE017
计算获得第
Figure 200503DEST_PATH_IMAGE016
类样本在损失函数中的初始权值
Figure 211185DEST_PATH_IMAGE018
步骤3:选定聚焦系数
Figure 241458DEST_PATH_IMAGE019
步骤4:调用基于深度学习的图像语义分割模型,计算在该像素点上对第
Figure 337590DEST_PATH_IMAGE020
类的输出值
Figure 49194DEST_PATH_IMAGE021
步骤5:计算获得每轮次结束对第
Figure 242278DEST_PATH_IMAGE020
类权值的动态修正量
Figure 381135DEST_PATH_IMAGE022
步骤6:计算获得初始交叉熵损失函数值
Figure 698984DEST_PATH_IMAGE023
步骤7:计算获得在该像素点上对第
Figure 276596DEST_PATH_IMAGE016
类的损失函数值
Figure 3812DEST_PATH_IMAGE010
步骤8:选定负类门控系数
Figure 749789DEST_PATH_IMAGE025
步骤9:计算获得该像素点对应的多类别损失函数值
Figure 554934DEST_PATH_IMAGE001
步骤10:根据训练效果修改加权系数
Figure 670658DEST_PATH_IMAGE015
、聚焦系数
Figure 510438DEST_PATH_IMAGE019
和负类门控系数
Figure 991098DEST_PATH_IMAGE025
的取值,重复步骤1~9,直到模型收敛。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (2)

1.在一种用于图像语义分割的多类别损失函数,其特征在于包含三个可调节超参数,加权系数
Figure 960556DEST_PATH_IMAGE001
、聚焦系数
Figure 552074DEST_PATH_IMAGE002
和负类门控系数
Figure 574257DEST_PATH_IMAGE003
,根据数据集中数据分布调节上述三个参数,以提升基于深度学习的图像语义分割模型缓解类别不平衡现象的能力和模型在所有类别上的整体分割能力,该损失函数的表达式如下所示:
Figure 225818DEST_PATH_IMAGE004
(1)
式中,
Figure 5555DEST_PATH_IMAGE005
为损失函数值,
Figure 400765DEST_PATH_IMAGE006
为第
Figure 277454DEST_PATH_IMAGE007
类别上的损失函数值
Figure 99916DEST_PATH_IMAGE008
为真实类别,
Figure 366950DEST_PATH_IMAGE009
为负类门控系数,用于控制是否在损失函数中考虑错误类别;
模型在第
Figure 565850DEST_PATH_IMAGE007
类的损失函数值
Figure 297045DEST_PATH_IMAGE006
Figure 290409DEST_PATH_IMAGE010
表示的损失函数中第
Figure 44739DEST_PATH_IMAGE007
类的初始权值、
Figure 47330DEST_PATH_IMAGE011
表示的模型在每个轮次结束之后对第
Figure 633032DEST_PATH_IMAGE007
类权值的动态修正量和
Figure 797297DEST_PATH_IMAGE012
为初始交叉熵损失函数值三部分组成,其中前两项的乘积是损失函数中第
Figure 38922DEST_PATH_IMAGE007
类的真正权值,
Figure 641942DEST_PATH_IMAGE006
的具体表达式如下所示:
Figure 19834DEST_PATH_IMAGE013
(2)
式中,加权系数
Figure 620579DEST_PATH_IMAGE014
和聚焦系数
Figure 146239DEST_PATH_IMAGE015
共同作用以调节损失函数中各类别的权重;
Figure 490632DEST_PATH_IMAGE014
用于控制初始权值,
Figure 723031DEST_PATH_IMAGE014
越大,出现频率较小的类的初始权值相对越大;
Figure 556994DEST_PATH_IMAGE015
用于控制权重的动态修正量。
2.根据权利要求1所述的一种用于图像语义分割的多类别损失函数的设计方法,其特征在于,通过迭代确定某数据集下的最优超参数,对图像上某像素点,该损失函数及各超参数的设计方式,具体包括以下步骤:
步骤1:选定加权系数
Figure 507633DEST_PATH_IMAGE014
步骤2:根据第
Figure 390138DEST_PATH_IMAGE016
类实例在数据集中的出现频率
Figure 742622DEST_PATH_IMAGE017
计算获得第
Figure 747487DEST_PATH_IMAGE016
类样本在损失函数中的初始权值
Figure 185422DEST_PATH_IMAGE018
步骤3:选定聚焦系数
Figure 933935DEST_PATH_IMAGE015
;;
步骤4:调用基于深度学习的图像语义分割模型,计算在该像素点上对第
Figure 140925DEST_PATH_IMAGE007
类的输出值
Figure 254375DEST_PATH_IMAGE019
步骤5:计算获得每轮次结束对第
Figure 265360DEST_PATH_IMAGE007
类权值的动态修正量
Figure 489668DEST_PATH_IMAGE011
步骤6:计算获得初始交叉熵损失函数值
Figure 816744DEST_PATH_IMAGE020
步骤7:根据所述式(2)计算获得在该像素点上对第
Figure 835516DEST_PATH_IMAGE016
类的损失函数值
Figure 310359DEST_PATH_IMAGE021
步骤8:选定负类门控系数
Figure 338358DEST_PATH_IMAGE022
步骤9:根据所述式(1)计算获得该像素点对应的多类别损失函数值
Figure 519941DEST_PATH_IMAGE023
步骤10:根据训练效果修改加权系数
Figure 975193DEST_PATH_IMAGE014
、聚焦系数
Figure 671753DEST_PATH_IMAGE015
和负类门控系数
Figure 237864DEST_PATH_IMAGE022
的取值,重复步骤1~9,直到模型收敛。
CN202011585826.0A 2020-12-29 2020-12-29 一种用于图像语义分割的多类别损失函数及其设计方法 Pending CN112465844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011585826.0A CN112465844A (zh) 2020-12-29 2020-12-29 一种用于图像语义分割的多类别损失函数及其设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011585826.0A CN112465844A (zh) 2020-12-29 2020-12-29 一种用于图像语义分割的多类别损失函数及其设计方法

Publications (1)

Publication Number Publication Date
CN112465844A true CN112465844A (zh) 2021-03-09

Family

ID=74803929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011585826.0A Pending CN112465844A (zh) 2020-12-29 2020-12-29 一种用于图像语义分割的多类别损失函数及其设计方法

Country Status (1)

Country Link
CN (1) CN112465844A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240698A (zh) * 2021-05-18 2021-08-10 长春理工大学 一种多类分割损失函数及其构建方法和应用
CN113705647A (zh) * 2021-08-19 2021-11-26 电子科技大学 一种基于动态间隔的双重语义特征提取方法
CN114663662A (zh) * 2022-05-23 2022-06-24 深圳思谋信息科技有限公司 超参数搜索方法、装置、计算机设备和存储介质
CN114693967A (zh) * 2022-03-20 2022-07-01 电子科技大学 基于二分类张量增强的多分类语义分割方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156154A1 (en) * 2017-11-21 2019-05-23 Nvidia Corporation Training a neural network to predict superpixels using segmentation-aware affinity loss
CN110443805A (zh) * 2019-07-09 2019-11-12 浙江大学 一种基于像素密切度的语义分割方法
CN111210435A (zh) * 2019-12-24 2020-05-29 重庆邮电大学 一种基于局部和全局特征增强模块的图像语义分割方法
CN111862101A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种鸟瞰图编码视角下的3d点云语义分割方法
CN111898543A (zh) * 2020-07-31 2020-11-06 武汉大学 一种融合几何感知与图像理解的建筑物自动提取方法
CN111968133A (zh) * 2020-07-31 2020-11-20 上海交通大学 自动驾驶场景下的三维点云数据实例分割方法及系统
CN112070054A (zh) * 2020-09-17 2020-12-11 福州大学 基于图结构与注意力机制的车载激光点云标线分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156154A1 (en) * 2017-11-21 2019-05-23 Nvidia Corporation Training a neural network to predict superpixels using segmentation-aware affinity loss
CN110443805A (zh) * 2019-07-09 2019-11-12 浙江大学 一种基于像素密切度的语义分割方法
CN111210435A (zh) * 2019-12-24 2020-05-29 重庆邮电大学 一种基于局部和全局特征增强模块的图像语义分割方法
CN111862101A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种鸟瞰图编码视角下的3d点云语义分割方法
CN111898543A (zh) * 2020-07-31 2020-11-06 武汉大学 一种融合几何感知与图像理解的建筑物自动提取方法
CN111968133A (zh) * 2020-07-31 2020-11-20 上海交通大学 自动驾驶场景下的三维点云数据实例分割方法及系统
CN112070054A (zh) * 2020-09-17 2020-12-11 福州大学 基于图结构与注意力机制的车载激光点云标线分类方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240698A (zh) * 2021-05-18 2021-08-10 长春理工大学 一种多类分割损失函数及其构建方法和应用
CN113240698B (zh) * 2021-05-18 2022-07-05 长春理工大学 一种多类分割损失函数在实现脊椎组织影像多类分割中的应用方法
CN113705647A (zh) * 2021-08-19 2021-11-26 电子科技大学 一种基于动态间隔的双重语义特征提取方法
CN113705647B (zh) * 2021-08-19 2023-04-28 电子科技大学 一种基于动态间隔的双重语义特征提取方法
CN114693967A (zh) * 2022-03-20 2022-07-01 电子科技大学 基于二分类张量增强的多分类语义分割方法
CN114693967B (zh) * 2022-03-20 2023-10-31 电子科技大学 基于二分类张量增强的多分类语义分割方法
CN114663662A (zh) * 2022-05-23 2022-06-24 深圳思谋信息科技有限公司 超参数搜索方法、装置、计算机设备和存储介质
CN114663662B (zh) * 2022-05-23 2022-09-09 深圳思谋信息科技有限公司 超参数搜索方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN112465844A (zh) 一种用于图像语义分割的多类别损失函数及其设计方法
US20210224647A1 (en) Model training apparatus and method
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110321451B (zh) 基于分布熵增益损失函数的图像检索算法
CN113011571B (zh) 基于Transformer模型的INT8离线量化及整数推断方法
CN111539511A (zh) 基于多策略融合的粒子群优化算法
CN113610219B (zh) 一种基于动态残差的多源域自适应方法
CN110110380B (zh) 一种压电执行器迟滞非线性建模方法及应用
CN115131347B (zh) 一种用于锌合金零件加工的智能控制方法
Liu et al. Feature selection with particle swarms
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN111191685A (zh) 一种损失函数动态加权的方法
CN111222286A (zh) 一种基于输电线路状态估计的参数优化方法
CN115631393A (zh) 基于特征金字塔与知识引导的知识蒸馏的图像处理方法
CN113743474A (zh) 基于协同半监督卷积神经网络的数字图片分类方法与系统
Kozerawski et al. Blt: Balancing long-tailed datasets with adversarially-perturbed images
Liu et al. Boosting gradient for white-box adversarial attacks
Chen et al. Network adjustment: Channel search guided by flops utilization ratio
Xu et al. Sparse adversarial attack for video via gradient-based keyframe selection
CN109919235B (zh) 一种基于人工干预样本集权重的深度学习图像分类模型训练方法
CN116824143A (zh) 一种基于双边特征融合及向量自注意力的点云分割方法
CN111062403A (zh) 基于一维组卷积神经网络的高光谱遥感数据深度光谱特征提取方法
CN114581470B (zh) 一种基于植物群落行为的图像边缘检测方法
CN113554104B (zh) 一种基于深度学习模型的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210309

RJ01 Rejection of invention patent application after publication