CN115222945B

CN115222945B - 基于多尺度自适应课程学习的深度语义分割网络训练方法

Info

Publication number: CN115222945B
Application number: CN202211121717.2A
Authority: CN
Inventors: 潘兴旺
Original assignee: Shenzhen Soft Alliance Technology Service Co ltd
Current assignee: Shenzhen Soft Alliance Technology Service Co ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-06
Anticipated expiration: 2042-09-15
Also published as: CN115222945A

Abstract

本发明涉及基于多尺度自适应课程学习的深度语义分割网络训练方法，包括：S1、获取待处理数据集和深度语义分割网络；S2、获取一初始损失函数以建立总损失函数；S3、获取数据样本；S4、设置总损失函数的参数为第一预设值；S5、基于总损失函数与深度语义分割网络并通过算法对数据样本进行训练；S6、获取数据样本的不确定性图谱；S7、基于不确定性图谱获取数据样本中每一样本的样本分值；S8、基于样本分值对数据样本进行升序排序得到第一训练集；S9、判断累计计数是否小于第二预设值，若是执行S10，否则执行S11；S10、获取第二训练集；S11、更新总损失函数的参数，执行S5。实施本发明能够提高训练效率和分割精度。

Description

基于多尺度自适应课程学习的深度语义分割网络训练方法

技术领域

本发明属于图像处理技术领域，涉及基于深度学习的图像语义分割，具体涉及一种基于多尺度自适应课程学习的深度语义分割网络训练方法。

背景技术

图像语义分割是图像处理和计算机视觉中的一项关键任务，在多个领域具有重要的应用，例如场景理解、医学图像分析、机器人感知、视频监控、增强现实和图像压缩等。早期的语义分割算法包括基于图像的方法和基于模型的方法。基于图像的方法包括阈值化(Threshold)、区域增长(Region Growth)、均值聚类（k-means）、分水岭(watershed)等，基于模型的方法包括活动轮廓模型（active contour/snack）、图割(graph cut)、条件和马尔可夫随机场(CRF/MRF)等。近年来，随着越来越多的数据集被开源和算力的增强，基于神经网络的深度学习算法被提出，在流行的基准测试中达到最高的准确率并被广泛应用到现实生活的各种中。

深度神经网络算法包含两个重要的步骤：神经网络结构的设计和神经网络参数的最优化训练。然而，当前基于深度神经网络的语义分割网络主要集中在网络结构的设计方面，例如，更加高效的多尺度上下文提取，更加高效的内存使用，更加实时的推理预测，神经网络架构搜索等。对于如何高效的训练深度语义分割网络的研究却很少。实际上，随着当前神经网络结构越来越复杂，以及数据集的样本数越来越大和分布的方差越来越大，神经网络的训练和参数的最优化也更加的困难，这阻碍了深度神经分割网络分割精度的提升和实际应用。当前有少量关于课程学习的工作，但是主要集中在无监督域自适应（unsuperviseddomain adaptation）领域。

发明内容

本发明的目的在于克服由复杂的神经网络架构和数据集分布方差大所导致的网络训练难题，提供了一种基于多尺度自适应课程学习的深度语义分割网络的训练方法，进一步提高现有神经网络的分割精度。

具体来讲，该方法从粗到细的在多个尺度上进行课程学习，包括训练集尺度、样本（sample）尺度、类尺度和像素尺度。此外，每个尺度上的课程学习都是自适应于训练过程的，不需要额外的先验信息。如附图1中所示，该多尺度自适应课程学习的训练方法具体包括以下过程：

S1, 设计深度语义分割网络，并选择语义分割数据集。为了显示本发明训练方法的优越性，本发明尽可能的选择结构复杂的深度语义网络，以及分布方差大和稀疏的数据集。

S2,基于交叉熵（cross-entropy）和骰子得分(Dice Score)设计损失函数。对于每个样本，交叉熵对每个像素点执行计算，骰子得分(Dice score)对每个类别执行计算。每个像素点的交叉熵应用基于训练轮次

和像素位置

的自适应权重

；每个类的骰子得分(Dice score)应用基于训练轮次

和样本类别

的自适应权重

。在计算一个批次（mini batch）总的损失函数时，对每个样本

应用基于训练轮次

和样本自身的自适应权重

。这些权重的计算和更新在下面的步骤给出。

S3, 随机从数据集中选出

个样本作为第一轮训练的数据集

。

S4, 在第一轮训练中，设置

。

S5. 利用随机梯度下降(SGD)算法在

上更新梯度。进行一个轮次的训练后停止训练。

S6, 基于蒙特卡洛随机失活（Monte Carlo Dropout）和信息熵（information entropy）计算当前网络下所有样本中图像不确定性图谱

。

S7, 基于不确定性图谱

，对样本图像中每个位置、样本每个类别和样本进行打分，分别得到样本图像位置分值

、样本类别分值

和样本分值

。分值度量的是图片中每个位置、每个类别和样本自身分割的难易程度，分值越高，表示分割越困难。

S8, 基于S7计算得到的样本分值

，对样本进行升序排序得到排序后新的数据集

。

S9, 重新选取当前训练轮次中要采用的数据集。首先确定当前训练轮次要采用的训练集的大小

，

的确定方法为：

其中

为在整个数集

上进行训练之前所需要经历的训练轮次。

然后，从重新排序后的数据集

中选出前

个样本，作为当前轮次的训练集

。

S10，基于损失函数中新的课程学习参数，利用随机梯度下降（SGD）算法在

上进行训练。在进行每一个轮训练的时候，损失函数中的权重参数通过如下方式确认：

步骤S11, 重复S6-S10，直至神经网络收敛，停止训练。

与现有技术相比，本发明所达到的有益效果是：提出了一种多尺度自适应课程学习方法来训练深度语义分割网络。四个尺度----训练集尺度、样本尺度、样本类别尺度、样本图像像素尺度有机的组合在一起，使得深度语义分割网络以细粒度更高的课程顺序展开训练；其次，各个尺度都是自适应的，基于训练的轮次、输入的样本、样本图像的位置、样本对应的类别来动态调整，而非基于某种先验来手动设计，这较传统的课程学习的更加便捷，极大的加速了训练的进程；其中，本发明首次运用了信息熵和蒙特卡洛随机失活（MonteCarlo Dropout）方法计算样本的分割难易程度，该方法计算简单且效果良好，而且只需要对现有的网络做轻微的修改即可。

本发明的方法相对于传统的训练方法，更能适应复杂的网络结构以及分布方差更大的数据集，更有利于找到全局的最优解，提高深度语义分割网络的训练效率和网络的分割精度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明方法的整体流程图；

图2是实施中本发明采用的深度意义分割网络；

图3是一实施例中本发明的网络原始输入的图像；

图4是图3中类别椅子的不确定性图谱；

图5是图3中类别桌子的不确定性图谱；

图6是图3中是所有类的不确定性图谱。

具体实施方式

下面结合相关附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1至图6所示，本发明的基于多尺度自适应课程学习的深度神经网络的训练方法，包括以下过程：

步骤S1、设计深度语义分割网络，并选择语义分割数据集。本实施方案中，如图2 所示，本发明选择DeepLabV3+作为本发明的深度语义分割网络，该网络采用编码-解码（encoder-decoder）结构和虫洞卷积（Atrous Convolution）池化，网络特征提取的主体部分（backbone）采用Xception网络。为了后面步骤的获取样本的不确定性图，本发明在网络的每个卷积层中加入dropout，并设置其参数

。网络结构的如图1所示。

对于数据集，本发明选择PASCAL Context。该数据集总共有459个标注类别和 10103张图像。通常最广泛地用法是使用其中出现频率最高的 59个类别最为语义标签，其余类别标记为背景。但是在本实施方案中，本发明采用所有的459个标签，以增加数据集的分布差异度和复杂度，从而更有效的证明本发明训练方法的优越性。本发明中把选择的数据集记做

，其中

为

大小图像，

为

大小对应的标签，

为数据集中样本的总个数。数据集包含的类别总数我门记为

。

步骤S2、设计损失函数。本发明使用基于交叉熵（cross-entropy）和骰子得分(Dice Score)的损失函数。此外，为了实现课程训练，本发明在损失函数中设计了三个自适应的权重。本发明的损失函数可以写为：

其中

为第

轮次训练时图像

位置处交叉熵(cross-entropy)的权重，

为第

轮次训练时第

个类别骰子得分(Dice score)的权重。这些权重在每个轮次的训练中都会更新。在计算一个批次（min batch）的损失时，本发明对每个样本进行加权，因此总的损失函数可以表示为：

其中

为批训练（batch training）中的样本个数，

为第k个样本在进行第

个轮次训练时的权重。

度量的是样本图像中每个像素点分割的难易程度，

度量的是样本中每个类别分割难易程度，

度量的则是每个样本分割的难易程度。它们的计算方式本发明会在下面的步骤中分步分别给出。

步骤S3、选定第一轮训练使用的数据集合。具体做法为，随机从数据集

中选出

个样本作为第一轮训练的数据集，记做

。在本实施方案中，本发明设定

。

步骤S4、在第一轮训练中，由于无法获得每个样本中每个像素点和每个类、以及样本自身的分割难易程度，因此本发明设置参数

。

步骤S5、利用随机梯度下降(SGD)算法在

上更新梯度，进行一个轮次的训练后边停止训练。

步骤S6、计算当前网络下所有样本图像中每个像素点和样本类别的不确定性图谱。本发明基于两种方法来度量不确定性。

第一种度量不确定性的方法是蒙特卡洛随机失活（Monte Carlo Dropout）。具体来讲，在网络中所有dropout不关闭的情况下，把

中每个样本都输入到网络中进行推理（inference）。对于每个样本，每推理一次得到一张推理图谱，记为

。本发明设置每个样本的推理次数为30，由此得到每个样本的推理图谱集

。对于每一张推理图谱

中每个点

，本发明计算图谱集上对应位置上图谱集的值的方差作为该点的不确定性，即

由此得到每个样本基于MC Dropout的不确定性图谱:

,

其中

为样本每个类对应的不确定性图谱。

第二种度量不确定性的方式基于信息熵。同样的，对推理图谱

中每个点

，本发明都计算其每个预测值的信息熵，即：

进一步通过求所有图谱上对应位置的平均值得到样本每个

位置的不确定性：

最后得到每个样本基于信息熵的不确定性图谱：

，

其中

为样本的每个类对应的不确定性图谱。

本发明最终的不确定性图谱通过基于蒙特卡洛随机失活(MC Dropout)的不确定性图谱和基于交叉熵的不去确定性图谱的加权求和得到，即：

本发明记

和

。在本发明的具体实施中，本发明选取

。

步骤S7: 基于不确定性图谱，对样本图像中每个位置、样本每个类别和样本自身进行打分。本发明首先计算样本图像中每个像素位置对应的分值，通过在所有类别上求均值得到，即

分值

反应了图像

位置的像素点分割的难易程度，由此得到样本图像中所有像素点的分值

。

然后，本发明计算每个类的分值，通过在图像上所有位置求均值获得，即：

由此得到样本的类分值

该分数值反应了样本中每个类的分割的难易程度。

最后，本发明获得每个样本的分值，通过在所有类熵平均类的分值得到，即：

同样，样本的分值

反应的是样本的分割难易程度。

步骤S8. 基于步骤S7计算得到的分值

，对样本进行升序排序，得到排序后的训练集

。

步骤S9, 重新选取当前训练轮次中要采用的训练集。具体的做法为，首先确定当前训练轮次要采用的训练集和的大小

，

的确定方法为：

其中

为在整个数集

上进行训练之前所需要经历的训练轮次，在本发明中，本发明设定

。

然后，从重新排序后的数据集

中选出前

个样本，作为当前轮次的训练集

。

步骤S10，基于损失函数中新的课程学习参数，利用随机梯度下降算法在

上进行训练。通过步骤S6-S8, 本发明计算得到了衡量样本图像中每个像素点分割的难易程度

、衡量样本中每个类分割的难易程度

以及衡量每个样本分割的难易程度

，由此本发明更新损失函数中对应的课程学习参数，即：

步骤S11, 重复S6-S10，直至深度分割神经网络收敛，停止训练。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于多尺度自适应课程学习的深度语义分割网络训练方法，其特征在于，包括步骤：

S1、获取待处理数据集和一深度语义分割网络；

S2、基于交叉熵和骰子得分获取一初始损失函数，并基于所述初始损失函数建立总损失函数；

S3、自所述待处理数据集中随机获取数据样本；

S4、基于所述数据样本设置所述总损失函数的参数为第一预设值；

S5、基于所述总损失函数与所述深度语义分割网络并通过SGD算法对所述数据样本进行训练，并在所述深度语义分割网络不收敛时获取训练次数的累计计数，并执行步骤S6；其中，所述SGD算法为随机梯度下降算法；

S6、获取所述数据样本对应的不确定性图谱；

S7、基于所述不确定性图谱获取所述数据样本中每一样本的样本分值；

S8、基于所述样本分值对所述数据样本进行升序排序，以得到第一训练集；

S9、判断所述累计计数是否小于第二预设值，若是，则执行步骤S10，否则执行步骤S11；

S10、依照所述第一训练集的排序顺序获取预设数量的样本为第二训练集；

S11、更新所述总损失函数的参数，并执行所述步骤S5；

在所述步骤S7中，所述基于所述不确定性图谱获取所述数据样本中每一样本的样本分值；包括：

获取每一数据样本中每个像素点对应的像素点分值；

获取每一数据样本的每一个类对应的类分值；

获取所有数据样本的类分值的熵平均为所述样本分值。

2.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法，其特征在于，在所述步骤S1中，所述待处理数据集中数据集的分布方差大于第三预设值，且稀疏度大于第四预设值。

3.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法，其特征在于，在所述步骤S6中，所述获取所述数据样本对应的不确定性图谱，包括：

获取所述数据样本基于蒙特卡洛随机失活的不确定性图谱；或

获取所述数据样本基于信息熵的不确定性图谱。

4.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法，其特征在于，在所述步骤S10中，所述依照所述第一训练集的排序顺序获取预设数量的样本为第二训练集；包括：基于以下表达式获取所述预设数量：

其中，e为目前训练轮次的总数目，

为所述预设数量，

为所述第二预设值，

为所述待处理数据集中样本的总个数，

为所述数据样本的个数。

5.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法，其特征在于，在所述步骤S5中，还包括：

在所述深度语义分割网络收敛时，结束训练，并输出训练结果。

6.根据权利要求1所述的基于多尺度自适应课程学习的深度语义分割网络训练方法，其特征在于，在所述步骤S3中，所述自所述待处理数据集中随机获取数据样本，包括：

获取大于或等于所述待处理数据集的25%的数据为所述数据样本。