CN115908823B

CN115908823B - 一种基于难度蒸馏的语义分割方法

Info

Publication number: CN115908823B
Application number: CN202310219333.2A
Authority: CN
Inventors: 梁栋; 孙悦; 杜云; 陈松灿; 黄圣君
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-05-12
Anticipated expiration: 2043-03-09
Also published as: CN115908823A

Abstract

本发明公开了一种基于难度蒸馏的语义分割方法，定义了一对先易后难的蒸馏课程——用于前期学习阶段的方差引导蒸馏和用于后期学习阶段的预期难度蒸馏。对输入的一张图像样本，学习前期利用教师模型的主分类器和辅助分类器输出的分割结果，得到像素级的预期不确定性图，然后通过方差矫正生成方差引导掩码图作为学生模型早期阶段的指导，让学生模型倾向于学习简单的像素，有利于快速收敛；学习后期则使用教师模型和学生模型共同计算出的异或难度图，让学生模型学习有价值的难像素，以提升模型的性能上限。学生模型通过引入蒸馏课程的难度知识用于自身训练，输出语义分割结果；本发明从学习难度的角度重新定义了知识，易于与现有的蒸馏方法集成。

Description

一种基于难度蒸馏的语义分割方法

技术领域

本发明涉及图像分割领域，具体的为一种基于难度蒸馏的语义分割方法。

背景技术

语义分割是一个像素级的分类问题，是许多视觉理解系统的基本组成部分。语义分割是对每张图像中的每个像素进行分类，不仅需要判断出图像中包含的所有物体的类别，还要标记每个物体的具体位置，极大地丰富了图片的意义和价值。语义分割在无人驾驶汽车、遥感图像、医疗影像分析、视频和照片的编辑美化等等很多的领域具有强竞争力的应用价值。随着移动设备需求的爆炸式增长，人们致力于设计轻量级网络，而知识蒸馏即能够将繁琐模型的分割性能移植到轻量级学生网络中。

Distilling the knowledge in a neural network. In NeurIPS, 2015. 1, 2首先引入了知识蒸馏的概念。以往关于知识蒸馏的研究大多研究图像分类任务。然而，图像级知识蒸馏没有考虑到语义分割的结构化信息，因此一般不适用于像素级的语义分割任务。随着人们对这一课题的关注日益增强，知识蒸馏方法也逐渐用于语义分割上，但大多数的工作都集中在如何定义知识蒸馏中的知识来解决这个问题。Structured knowledgedistillation for semantic segmentation. In CVPR, 2019. 1, 2, 6, 7提出将结构化知识从大型网络提出到小型网络，使用成对相似度的两两蒸馏和使用GAN提取整体知识的整体蒸馏的两种结构化蒸馏方案从教师模型到学生模型提取结构化知识。不同于现有的对两两像素的关系进行知识蒸馏的方法，Intra-class feature variation distillationfor semantic segmentation. In ECCV, 2020. 2, 6, 7尝试缓解教师模型和学生模型在特征分布上的差异，提出了一种新的类内特征变异蒸馏(IFVD)方法，通过计算每个类的特征中心作为类原型，并用每个像素上的特征与其对应的类原型之间的相似性集来表征类内特征变异，将繁琐的教师模型转化为紧凑的学生模型。Channel-wise knowledgedistillation for dense prediction. In ICCV, 2021. 1, 2, 6, 7引入了一种新的通道知识蒸馏方法，将每个通道的激活图进行归一化，得到一个软概率图，通过KL散度最小化教师网络和学生网络之间的差异，使得蒸馏过程更关注每个通道的最显著区域。Efficientuncertainty estimation in semantic segmentation via distillation. In ICCV,2021. 2提出不确定性蒸馏是一种更有效的量化预测不确定性的方法，它从教师模型中蒸馏来预测自身预测的不确定性。Structural and statistical texture knowledgedistillation for semantic segmentation. In CVPR, 2022. 2通过充分利用结构和统计的纹理知识的优势，提出了轮廓分解模块(CDM)和去噪纹理强度均衡模块(DTIEM)来分别有效提取结构纹理知识和增强统计纹理知识，以更好地从更广阔的角度让学生模型模仿教师模型。为解决以往技术忽略不同图像中像素之间的全局语义关系的问题，Cross-imagerelational knowledge distillation for semantic segmentation. In CVPR, 2022.1, 2, 6, 7, 8提出了一种跨图像关系的知识蒸馏方法，通过尝试将跨图像上的像素—像素和像素—区域这两种比较关系建模为知识，将全局像素相关性从教师模型转移到学生模型进行语义分割。

上述方法专注于如何设计基于特征/响应的知识，通过强加额外的优化目标来鼓励学生模型更好地模仿教师的输出。然而，添加多个优化目标会导致训练不稳定，甚至直观上产生梯度冲突。此外这些方法没有注意到对难度的学习，忽略了教师划定学习优先次序的能力。

发明内容

发明目的：针对上述背景技术中存在的问题，本发明提供了一种基于难度蒸馏的语义分割方法，首先考虑到过往方法专注于添加多个优化目标会导致训练不稳定，甚至直观上产生梯度冲突的问题，我们从一个新的角度定义了知识——教师模型将样本的像素级预期学习难度提取为知识，为学生模型学习提供了有价值像素挖掘的指导。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于难度蒸馏的语义分割方法，包括以下步骤：

步骤S1、构建语义分割架构，获取由待分割图片组成的数据集，并将所述数据集划分为训练集和验证集，将训练集输入所述语义分割架构；所述语义分割架构包括教师模型和学生模型，其中所述教师模型已预训练好，且包括第一主分类器和第一辅助分类器，所述学生模型包括第二主分类器；将所述学生模型的训练轮次划分为两个阶段：前10%的训练轮次划分为前期学习阶段，后90%的训练轮次划分为后期学习阶段；

步骤S2、在前期学习阶段，利用第一主分类器和第一辅助分类器获得的分割结果生成像素级的预期不确定性图，再对所述预期不确定性图进行方差矫正，将所述预期不确定性图中的每个不确定性值映射到0~1之间，生成方差引导掩码图；

步骤S3、在后期学习阶段，学生模型和教师模型分别生成难度图，然后将这两种难度图进行异或操作，生成难度掩码图；

步骤S4、将生成的方差引导掩码图和难度掩码图作为知识来引导学生模型进行训练；

步骤S5、当训练集训练完成，且完成所有训练轮次时，学生模型训练完毕，其中每一个训练轮次均包括步骤S2-S4的训练过程；

步骤S6、将验证集输入到训练好的学生模型中，输出对待分割图片语义分割后的结果。

优选的，步骤S2中生成方差引导掩码图的实现过程为：

步骤S2.1、基于第一主分类器和第一辅助分类器获得的分割结果，通过 KL散度衡量这两类分割结果之间的差异，用预测方差表示：

其中为教师模型参数， x为参数，为第一主分类器，为第一辅助分类器，将预测方差的结果作为预期不确定性图；

步骤S2.2、使用方差矫正公式将预期不确定图中每个不确定性值映射到0~1之间，生成方差引导掩码图。

优选的，步骤S3中获取难度掩码图的实现过程为：

步骤S3.1、基于第一主分类器和第二主分类器获得的类概率输出图，通过难度过滤策略，将类概率输出图中置信度小于阈值 t的像素认为是困难像素，标记为 1，其余的像素认为是简单像素，标记为 0，分别生成教师模型和学生模型的难度图；

步骤S3.2、基于异或操作丢弃教师模型和学生模型一致认为的简单像素和困难像素，得到一张由教师模型和学生模型共同决定的难度掩码图，用表示：

其中和分别表示学生模型和教师模型的参数，为第一主分类器，为第二主分类器，为异或操作，阈值 t大小设置为0.7。

优选的，步骤S4中学生模型借助知识训练的实现过程为：

步骤S4.1、基于交叉熵 CE衡量学生模型的预测结果与真值的差异的损失：

其中 H和 W分别表示待分割图片经特征提取后得到特征图的高度和宽度， h， w为参数，表示特征图中第个像素的真值，表示学生模型的预测结果，采用 softmax函数将预测结果转换为类别概率值；

步骤S4.2、在前期学习阶段，将步骤S2得到的方差引导掩码图应用到损失上，得到前期学习阶段学生模型的分类损失，用表示：

步骤S4.3、在后期学习阶段，将步骤S3得到的难度掩码图应用到损失上，得到后期学习阶段学生模型的分类损失，用表示：

步骤S4.4、基于 KL散度计算蒸馏损失：

和分别表示学生模型和教师模型的预测结果，采用 softmax函数生成预测结果中第个像素的类别概率值， KL表示 Kullback-Leibler散度， T表示蒸馏时的温度，取值为1。

优选的，所述步骤S5中用于更新学生模型的整体损失为：

其中是学生模型当前训练的轮次，是前期学习阶段的训练轮次。

有益效果：

（1）、本发明利用教师模型将样本的像素级预期学习难度提取为知识，为学生模型的学习提供指导。在现有的基于知识蒸馏的语义分割方法中，知识蒸馏专注于如何设计基于特征/响应的知识，这样会添加额外的优化目标而导致训练不稳定，甚至直观上会产生梯度冲突。相比之下，本发明引入的难度蒸馏进行缩放相对梯度的操作，即通过将方差引导掩码和难度掩码分别应用到前期和后期学习阶段学生模型的损失上，避免构造额外的优化目标，也避免了调整多个损失的学习权重。

（2）、本发明通过对知识蒸馏中知识的类型范围扩大，利用教师引导学生关注不同位置的像素，显式地培养学生模型学习的倾向性。基于特征和响应的知识蒸馏更类似于学习过程中的参考答案，以构造更丰富的优化目标，集成到其他方法需要考虑多个优化目标所带来的梯度方向的冲突。而本发明只是对梯度进行缩放，与基于特征和响应的知识蒸馏方法并不冲突，因此可以有效集成，且集成后可以提升其他方法的性能，因此本发明具有通用性和易用性。

附图说明

图1是本发明提供的基于难度蒸馏的语义分割方法流程图；

图2是本发明提供的基于方差引导蒸馏的简要流程图；

图3是本发明提供的基于预期难度蒸馏的简要流程图；

图4是本发明提供的基于难度蒸馏的语义分割方法的简要算法框架图。

图5（a）是本发明提供的基于方差引导蒸馏的详细流程图；

图5（b）是本发明提供的基于预期难度蒸馏的详细流程图；

图6（a）是本发明提供的基于难度蒸馏的框架示意图；

图6（b）是本发明提供的基于方差引导蒸馏的框架示意图；

图6（c）是本发明提供的基于预期难度蒸馏的框架示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于难度蒸馏的语义分割方法，具体原理如图1所示，包括以下步骤：

步骤S1、构建语义分割架构，将数据集输入所述语义分割架构，所述数据集包括训练集和验证集；所述语义分割架构包括预训练好的教师模型和学生模型，所述预训练好的教师模型包括第一主分类器和第一辅助分类器，所述学生模型包括第二主分类器。学生模型的训练过程包括两阶段：将前10%的训练轮次划分为前期学习阶段，后90%的训练轮次划分为后期学习阶段。

步骤S2、在学生模型的前期训练学习阶段，利用第一主分类器和第一辅助分类器获得的分割结果，生成像素级的预期不确定性图，再对预期不确定性图进行方差矫正，将预期不确定性图中的每个不确定性值映射到0~1之间，生成方差引导掩码图。具体地，参考图2及图6（b）。

两个分类器预测不一致称为认知不确定性，通过分类器之间存在的分歧来衡量网络的不确定性。不确定性图可以反映出哪些是困难的像素点，比如物体的边界。然而学生尚未收敛时，无法直接提供稳定的不确定性图。因此训练有素的教师模型所生成的不确定性图更适合作为学生模型前期学习阶段的指导。

步骤S2.1、基于第一主分类器和第一辅助分类器获得的分割结果，通过KL散度衡量这两类分割结果之间的差异，用预测方差表示：

其中为教师模型参数，为第一主分类器，为第一辅助分类器，将预测方差的结果作为预期不确定性图。

步骤S2.2、对于步骤S2.1得到的预期不确定图，使用方差矫正公式将图中每个不确定性值映射到0~1之间，生成方差引导掩码图。

步骤S3、在后期学习阶段，学生模型和教师模型分别生成难度图，然后将这两种难度图进行异或操作，生成难度掩码图。具体地，参考图3及图6（c）。

一种基于像素级损失/置信度找到困难像素的方法，其中损失较大或者置信度较低的像素被认为是困难像素，损失较小或置信度较大的像素被认为是简单像素。然而根据以往工作经验，深度学习模型存在过度自信的问题，它们简单对困难像素过拟合，单个网络的损失/置信度不足以准确反映样本的难度。在此，本发明提出了预期难度蒸馏，使用教师和学生模型共同给出像素级的难度分数来指导学生模型学习。

步骤S3.1、基于第一主分类器和第二主分类器获得的类概率输出图，通过难度过滤策略，将类概率输出图中置信度小于阈值 t 的像素认为是困难像素，标记为 1，其余的像素认为是简单像素，标记为 0，分别生成教师模型和学生模型的难度图。

步骤S3.2、基于异或操作丢弃教师和学生模型一致认为的简单像素和困难像素，保留有价值的困难像素，得到一张由教师模型和学生模型共同决定的难度掩码图，用表示：

其中和分别表示学生模型和教师模型的参数，为第一主分类器，为第二主分类器，阈值t大小设置为0.7。

步骤S4、将生成的方差引导掩码图和难度掩码图作为知识来引导学生模型进行训练。具体地，参考图4及图6（a）。

步骤S4.1、基于交叉熵损失来衡量学生模型的预测结果与真值的差异：

其中H和W分别表示图片经特征提取后得到特征图的高度和宽度，表示第个像素的真值，表示学生模型的预测结果，采用softmax函数将预测结果转换为类别概率值。

步骤S4.2、在前期学习阶段，将步骤S2得到的方差引导掩码应用到损失上，得到此阶段学生模型的分类损失。具体地，参考图5（a）。此阶段分类损失用表示：

步骤S4.3、在后期学习阶段，将步骤S3得到的难度掩码应用到损失上，得到此阶段学生模型的分类损失。具体地，参考图5（b）。此阶段分类损失用表示：

步骤S4.4、基于KL散度计算蒸馏损失：

和分别表示学生模型和教师模型的预测结果，采用softmax函数生成预测结果中第个像素的类别概率值，KL表示Kullback-Leibler散度。T表示蒸馏时的温度，取值为1。

进一步地，所述步骤S5中用于更新网络的整体损失包括：

其中是学生模型当前训练的轮次，是前期学习阶段的训练轮次，的值设置为总训练轮次的10%。

步骤S5、当训练集数据训练完成，且完成所有训练轮次时，学生模型训练完毕，其中每一个训练轮次均包括步骤S2-S4的训练过程；

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于难度蒸馏的语义分割方法，其特征在于，包括以下步骤：

步骤S6、将验证集输入到训练好的学生模型中，输出对待分割图片语义分割后的结果；

步骤S3中获取难度掩码图的实现过程为：

步骤S3.1、基于第一主分类器和第二主分类器获得的类概率输出图，通过难度过滤策略，将类概率输出图中置信度小于阈值 t 的像素认为是困难像素，标记为 1，其余的像素认为是简单像素，标记为 0，分别生成教师模型和学生模型的难度图；

其中和分别表示学生模型和教师模型的参数，为第一主分类器，为第二主分类器，为异或操作，阈值大小设置为0.7；

步骤S4中学生模型借助知识训练的实现过程为：

步骤S4.1、基于交叉熵CE衡量学生模型的预测结果与真值的差异的损失：

其中H和W分别表示待分割图片经特征提取后得到特征图的高度和宽度，h，w为参数，表示特征图中第个像素的真值，表示学生模型的预测结果，采用softmax函数将预测结果转换为类别概率值；

步骤S4.4、基于KL散度计算蒸馏损失：

和分别表示学生模型和教师模型的预测结果，采用softmax函数生成预测结果中第个像素的类别概率值，KL表示Kullback-Leibler散度，T表示蒸馏时的温度，取值为1。

2.根据权利要求1所述的一种基于难度蒸馏的语义分割方法，其特征在于，步骤S2中生成方差引导掩码图的实现过程为：

其中为教师模型参数，为参数，为第一主分类器，为第一辅助分类器，将预测方差的结果作为预期不确定性图；

步骤S2.2、使用方差矫正公式将预期不确定图性中每个不确定性值映射到0~1之间，生成方差引导掩码图。

3.根据权利要求2所述的一种基于难度蒸馏的语义分割方法，其特征在于，步骤S5中用于更新学生模型的整体损失为：