CN110414620A

CN110414620A - 一种语义分割模型训练方法、计算机设备及存储介质

Info

Publication number: CN110414620A
Application number: CN201910719475.9A
Authority: CN
Inventors: 周联昱
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-05
Anticipated expiration: 2039-08-06
Also published as: CN110414620B

Abstract

本发明公开了一种语义分割模型训练方法，其损失函数为：式中，P为预测向量，T为one‑hot编码的标签向量；a及b为权重，a随着训练周期的增加而增大，b随着训练周期的增加而减小，且a+b＝1；α为调节因子，其取值范围位于本发明定义了一种函数，并将其与Dice系数结合，获得新的损失函数，其不易在反向传播过程中出现梯度爆炸或消失的问题，同时，又对单个像素点分类是否正确敏感，对整体分类是否正确敏感，避免了单独使用Dice系数作损失函数时出现的梯度不稳定，又能防止类别不均衡问题。

Description

一种语义分割模型训练方法、计算机设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种语义分割模型训练方法、计算机设备及存储介质。

背景技术

在深度学习语义分割任务中，Dice系数是一种常用的评估分割结果的度量方法。其衍生的损失函数Dice_loss直接以优化交并比为目标，不易受到类比不平衡的影响，在网络训练中广为运用。但Dice_loss在网络训练中有时存在梯度变化剧烈，导致网络训练不稳定的现象，因此，本申请对其出现原因进行分析，以提出改进方案。

对于二分类任务，记预测向量为P，one-hot编码的标签向量为T，Dice_loss可表述为如下形式：

反向传播过程中，损失函数L对P_u导数为：

对于T_uv，正样本值为1，负样本值为0，于是：

从上式可以发现，对于输出层任意元素P_uv，若其标签相同，则损失函数对其的导数相同，且数值主要取决网络整体预测情况，而不取决于P_u与T_u是否吻合。但在网络训练的开始阶段，大多数预测值都是不准确的，于是在更新网络权重时常常发生较大的变化，导致变化较大。如果中间层的卷积核初始值过大，反向传播过程中就会放大这种变化，造成网络训练不稳定，曲线波动严重。

发明内容

本发明的目的在于提供一种语义分割模型训练方法、计算机设备及存储介质，以解决现有技术中使用Dice_loss导致的网络训练不稳定问题。

根据本发明的一个方面，本发明提高了一种语义分割模型训练方法，其损失函数为：

式中，P为预测向量，T为one-hot编码的标签向量；a及b为权重，a随着训练周期的增加而增大，b随着训练周期的增加而减小，且a+b＝1；α为调节因子，其取值范围位于

优选地，式中，S为当前训练周期，E为网络总训练周期，则损失函数变为

根据本发明的又一方面，本发明提供了一种计算机设备，包括处理器及存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被配置为由所述处理器执行时，使所述处理器执行如前述的方法。

根据本发明的又一方面，本发明提供了一种存储介质，其存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如前述的方法。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：本发明定义了一种函数，并将其与Dice系数结合，获得新的损失函数，其不易在反向传播过程中出现梯度爆炸或消失的问题，同时，又对单个像素点分类是否正确敏感，对整体分类是否正确敏感，避免了单独使用Dice系数作损失函数时出现的梯度不稳定，又能防止类别不均衡问题。

附图说明

图1为本发明实施例提供的语义分割的模型训练流程图。

图2为本发明实施例提供的计算机设备的基本结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示的是语义分割的模型训练流程图。模型的参数可以用来计算预测值和目标值之间的偏差程度，基于这些参数就可以构成损失函数。本发明主要在训练分割模型中(即S2中)，定义并优化损失函数，更新模型参数，最终使模型收敛。

定义R^b×Rⁿ→R上的函数其中α称为调节因子，其取值范围位于可以证明(Rⁿ,D)构成距离空间，并用于反向传播算法。

首先，证明函数D(P,T)是Rn上的距离：

显然，对存在D(P,T)＝D(T,P)，D(P,T)≥0，且仅当P＝T时取得等号。

接着，证明对均存在D(P,T)≤D(P,Z)+D(Z,T)。

注意到D(P,T)后一部分符合高斯核函数定义则对存在φ:χ→H使得K(X,Y)＝φ(X)^Tφ(Y)，

于是，

同理：

向量的二范数满足：

||φ(P)-φ(T)||₂≤||φ(P)-φ(Z)||₂+||φ(Z)-φ(T)||₂

所以，证得：

D(P,T)≤D(P,Z)+D(Z,T)。

根据以上的分析，可以用于度量预测向量P与标签向量T之间的差异。

最后，论证作为损失函数用于反向传播的可行性。

将D对P_u求偏导，则有：

上式中，2α,(P_u-T_u)及的取值范围都位于[0，1]，不易在反向传播过程中出现梯度爆炸或消失的问题。项(P_u-T_u)使梯度对单个像素点分类是否正确敏感，加速网络对每个像素点预测值的训练，避免了梯度不稳定问题。而项又使其对整体分类是否正确敏感，克服类别不平衡问题。

因此，本发明在语义分割模型中结合D(P,T)函数与Dice系数，在网络训练初始阶段，Dice_loss具有梯度不稳定的特定，此时减少其训练权重，以函数D(P,T)函数指导整个网络训练，加快收敛速度并获得稳定的损失函数曲线。随着迭代次数的增加，Dice_loss的梯度趋于稳定，逐步增加其权重，则损失函数为：

更优选地，本实施例中，式中，S为当前训练周期，E为网络总训练周期，则最终的损失函数变为

如图2所示，本发明还提供了一种计算机设备，其包括通过系统总线连接的处理器、存储介质和网络接口。其中，所述存储介质为非易失性存储介质、其存储有操作系统及计算机可读指令。所述处理器用于提供计算和控制能力，支撑整个计算机设备的运行。所述网络接口用于与终端连接通信。当所述计算机可读指令被配置为处理器执行时，可使得处理器实现一种语义分割模型的训练方法。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明还提供了一种存储介质，其存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如前述的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语义分割模型训练方法，其特征在于，其损失函数为：

2.如权利要求1所述的一种语义分割模型训练方法，其特征在于：式中，S为当前训练周期，E为网络总训练周期，则损失函数为

3.一种计算机设备，包括处理器及存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被配置为由所述处理器执行时，使所述处理器执行如权利要求1-2任意一项所述的方法。

4.一种存储介质，存储有计算机设备可读指令，其特征在于：所述计算机设备可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-2任意一项所述的方法。