CN116704196B

CN116704196B - 一种训练图像语义分割模型的方法

Info

Publication number: CN116704196B
Application number: CN202310966937.3A
Authority: CN
Inventors: 刘振锋; 周兆龙; 许秋宜
Original assignee: Zhuhai Digital Power Technology Co ltd
Current assignee: Zhuhai Digital Power Technology Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-10
Anticipated expiration: 2043-08-03
Also published as: CN116704196A

Abstract

本发明提供一种训练图像语义分割模型的方法。该方法包括：预先训练知识蒸馏的教师模型并固定；在知识蒸馏的教师模型和学生模型之间嵌入目标类掩膜函数和非目标类掩膜函数，分别结合教师模型和学生模型的中间特征图、输出图，构建对应的目标类掩膜特征和非目标类掩膜特征；基于构建的目标类掩膜特征、非目标类掩膜特征的KL散度构建知识蒸馏的损失函数；基于交叉熵损失函数和所述知识蒸馏的损失函数构建训练学生模型的损失函数对所述学生模型进行训练以获得图像语义分割模型。通过本发明提供的技术方案使知识蒸馏过程中轻量级的学生模型更关注目标类区域与非目标类区域两种知识，由此得到图像语义分割模型具有速度快、准确率高的优点。

Description

一种训练图像语义分割模型的方法

技术领域

本申请涉及基于神经网络模型的人工智能领域。具体涉及一种训练图像语义分割模型的方法。

背景技术

语义分割是指对图像中各个像素进行分类的一项计算机视觉技术。作为场景理解的一项基础任务，语义分割在自动驾驶、遥感影像、医疗图像诊断等方面均有着重要应用。随着近年来深度学习的发展，语义分割的性能不断提高，但是很多方法都忽略了性能与效率之间的平衡，这使得语义分割在实际应用中有一定难度。

知识蒸馏是一种模型压缩的方法，其一定程度上可以解决轻量级模型性能较低的问题，通过教师模型输出的软标签或是中间层的特征，来指导学生模型（轻量级模型）学习更有用的知识。这是因为知识蒸馏只在训练过程中实施，在最终推理阶段中轻量级模型可以在不引入任何额外参数量的情况下提升性能，一定程度上兼顾性能与效率。目前，知识蒸馏方法应用在图像语义分割模型训练时，通常都是基于教师模型和/或学生模型的输出图（logits）或者中间特征图进行整体知识迁移。

然而，目前在图像语义分割模型训练应用知识蒸馏时，并没有针对分类的目标类知识和非目标类知识加以强调以便模型进行额外额的关注。由此、导致现有基于知识蒸馏训练的图像语义分割模型，难以快速地、准确地处理目标类与非目标类的知识，限制了模型性能的提升。

发明内容

为了提高基于知识蒸馏的图像语义分割模型的性能，本发明从使知识蒸馏中相关模型更加关目标类与非目标类的角度出发，提出一种训练图像语义分割模型的方法。该方法通过在知识蒸馏过程中嵌入目标类掩膜函数和非目标类掩膜函数构建对应的目标类掩膜特征和非目标类掩膜特征，将该目标类掩膜特征和非目标类掩膜特征用于构建训练学生模型的损失函数；从而使基于该损失函数训练后学生模型的性能得到提升，能够更快、更准确地处理目标类和非目标类。

本发明提供的技术方案实现为一种训练图像语义分割模型的方法。该方法包括：

S1，基于包含分类器的PSPNet构建基于知识蒸馏的教师模型和学生模型。S2，采用已标注好像素类型的图像先行对教师模型进行有监督训练，将训练好的教师模型的网络参数固定、预测输出作为蒸馏信息。

S3，构建尺寸为（）的第一目标类掩膜/>和第一非目标类掩膜，N为图像批次大小，C为像素的类别数，H为教师模型/学生模型输出图的高度，W为教师模型/学生模型输出图的宽度，(i，j)为第i行第j列像素点的坐标。其中，所述第一目标类掩膜/>和第一非目标类掩膜/>具有以下性质：在像素点(i，j)被所述教师模型、学生模型任一者的分类模块判定属于第一目标类/>时，/>在第一目标类对应的k号输出通道输出值/>为1、/>在第一目标类/>对应的k号输出通道输出值/>为0。在像素点(i，j)被所述教师模型、学生模型任一者的分类模块判定不属于第一目标类/>时，/>的值为0、/>的值为1。

S4，基于所述第一目标类掩膜和第一非目标类掩膜/>，结合教师模型的输出图、学生模型的输出图构建第一目标类掩膜特征和第一非目标类掩膜特征。

S5，基于所述第一目标类掩膜和第一非目标类掩膜/>，结合教师模型的中间特征图、学生模型的中间特征图构建第二目标类掩膜特征和第二非目标类掩膜特征。

S6，基于步骤S4得到的第一目标类掩膜特征和第一非目标类掩膜特征、步骤S5得到的第二目标类掩膜特征和第二非目标类掩膜特征各自的KL散度构建知识蒸馏的损失函数进行知识蒸馏。

S7，基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建学生模型训练的损失函数/>，设置学生模型的训练参数后采用样本图像对所述学生模型进行训练以获得所述图像语义分割模型。

PSPNet为常用语义分割模型，其组成包括骨干网络、金字塔池化模块和分类器。在本发明的一个实施例中，所述步骤S1中教师模型所采用的PSPNet的骨干网络为ResNet101，学生模型所采用的PSPNet的骨干网络为ResNet18。

进一步地，上述步骤S4实现为：按照以下公式(1)-(4)分别构建对应于所述教师模型的第一目标类掩膜特征和第一非目标类掩膜特征/>，对应于所述学生模型的第一目标类掩膜特征/>和第一非目标类掩膜特征/>：

；

其中、为所述学生模型的输出图，/>为所述教师模型的输出图。

类似地，上述步骤S5中构建第二目标类掩膜特征和第二非目标类掩膜特征，实现为：按照以下公式(5)-(8)分别构建教师模型的第二目标类掩膜特征和第二非目标类掩膜特征/>，构建所述学生模型的第二目标类掩膜特征/>、第二非目标类掩膜特征：

；

其中，为对齐函数，用于将学生模型特征图的尺度与教师模型特征图的尺度对齐；/>为所述教师模型的中间特征图，/>所述学生模型的中间特征图；a为C个类别中与第二目标类别对应的输出通道序号。

进一步地，所述步骤S6中构建知识蒸馏的损失函数，包括：将步骤S4得到的第一目标类掩膜特征、第一非目标类掩膜特征分别由/>进行尺度变换为，然后按照KL散度的计算公式（9）-（10）构建第一目标类损失函数/>，第一非目标类损失函数/>：

；

其中，为设置的系数，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式。

类似地，将步骤S5得到的第二目标类掩膜特征、第二非目标类掩膜特征分别由进行尺度变换为/>，然后按照KL散度的计算公式（11）-（12）构建第二目标类损失函数/>，第二非目标类损失函数/>：

；

其中，为设定的系数，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式。

基于上述目标类损失函数和非目标类损失函数，构建知识蒸馏的损失函数：

；

其中，，/>，/>，/>为各项损失函数的权重系数。

优选地，所述步骤S7中基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建训练学生模型的损失函数/>，实现为：将交叉熵损失函数/>加上所述知识蒸馏的损失函数/>作为所述学生模型训练的损失函数/>。

本发明提供的技术方案通过将目标类掩膜和非目标类掩膜嵌入到知识蒸馏过程中，使训练后的学生模型更加关注目标类和非目标类区域，在保持轻量级优势的基础上，更快、更准确地处理目标类和非目标类的计算。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的训练图像语义分割模型的方法的过程框图。

图2为本发明中生成掩膜特征的过程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明提供的训练图像语义分割模型的方法，包括以下步骤：

S1，基于包含分类器的PSPNet构建基于知识蒸馏的教师模型和学生模型。如图1所示，PSPNet主要包括骨干网络、金字塔池化模块、分量模块。其中，骨干网络的类型可以选择/替换，其输出为中间特征图（即图1中的特征图）；分类模块用于对图像区域进行分类，其输出为输出图；金字塔池化层，用于提取不同尺度和区域的上下文信息提高模型识别不同尺度目标以及获取全局信息的能力。在本发明的一个实施例中，教师模型所采用的PSPNet的骨干网络为ResNet101，学生模型所采用的PSPNet的骨干网络为ResNet18。

S2，采用已标注好像素类型的图像先行对教师模型进行有监督训练，将训练好的教师模型的网络参数固定、预测输出作为蒸馏信息。教师模型训练好后，在接下来对学生模型的训练过程中，其网络参数将固定不变；仅将教师模型的预测输出作为知蒸馏过程中的蒸馏信息。

S3，构建尺寸为（）的第一目标类掩膜/>和第一非目标类掩膜，N为图像批次大小，C为像素的类别数，H为教师模型/学生模型输出图的高度，W为教师模型/学生模型输出图的宽度，(i，j)为第i行第j列像素点的坐标。

构建的第一目标类掩膜和第一非目标类掩膜/>具有以下性质：在像素点(i，j)被所述教师模型、学生模型任一者的分类模块判定为属于第一目标类/>时，/>在第一目标类/>对应的k号输出通道输出值/>为1、/>在第一目标类/>对应的k号输出通道输出值/>为0，否则，/>的值为0、/>的值为1。

S4，采用所述第一目标类掩膜和第一非目标类掩膜/>，结合教师模型的输出图、学生模型的输出图构建第一目标类掩膜特征和第一非目标类掩膜特征。

从目标类掩膜函数、非目标类掩膜函数到相应的目标类掩膜特征和非目标类掩膜特征的过程如图2所示。基于标注图像构建的目标类掩膜函数和目标类掩膜函数分别于教师模型、学生模型的中间特征图和输出图差进行计算，产生相应的目标类掩膜特征和非目标类掩膜特征。具体到上述步骤S4，按照以下公式(1)-(4)分别构建对应于所述教师模型的第一目标类掩膜特征和第一非目标类掩膜特征/>，对应于所述学生模型的第一目标类掩膜特征/>和第一非目标类掩膜特征/>：

；

S5，采用所述第一目标类掩膜和第一非目标类掩膜/>，结合教师模型的中间特征图、学生模型的中间特征图构建第二目标类掩膜特征和第二非目标类掩膜特征。与上述步骤S4类似，步骤S5实现为：按照以下公式(5)-(8)分别构建教师模型的第二目标类掩膜特征/>和第二非目标类掩膜特征/>，构建所述学生模型的第二目标类掩膜特征/>、第二非目标类掩膜特征/>：

；

为对齐函数，用于将学生模型特征图的尺度与教师模型特征图的尺度对齐；/>为所述教师模型的中间特征图，/>所述学生模型的中间特征图，a为C个类别中与第二目标类别对应的输出通道序号。

为了将目标类掩膜特征和目标类函数特征融入到训练学生模型的知识蒸馏过程，这里选择目标类掩膜特征和目标类函数特征转化为训练过程中知识蒸馏的损失函数。所述步骤S6具体实现为：将步骤S4得到的第一目标类掩膜特征、第一非目标类掩膜特征分别由进行尺度变换为/>，然后按照KL散度的计算公式（9）-（10）构建第一目标类损失函数/>，第一非目标类损失函数/>：

；

S7,基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建学生模型训练的损失函数/>，设置学生模型的训练参数后采用样本图像对所述学生模型进行训练以获得所述图像语义分割模型。

在一个实施例中，训练学生模型的过程：输入的图像到学生模型中，使用SGD优化器（初始学习率learning rate为0.0001，动量momentum为0.9，权重衰减weight decay为0.0005）优化学生模型，其中学习率衰减因子为（iter为当前迭代轮次），数据批大小（batchsize）为16，迭代次数为40000轮。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种训练图像语义分割模型的方法，其特征在于，该方法包括：

S1，基于包含分类器的PSPNet构建基于知识蒸馏的教师模型和学生模型；

S2，采用已标注好像素类型的图像先行对教师模型进行有监督训练，将训练好的教师模型的网络参数固定、预测输出作为蒸馏信息；

S3，构建尺寸为的第一目标类掩膜/>和第一非目标类掩膜，N为图像批次大小，C为像素的类别数，H为教师模型/学生模型输出图的高度，W为教师模型/学生模型输出图的宽度，(i,j)为第i行第j列像素点的坐标；在像素点(i，j )被所述教师模型、学生模型任一者的分类模块判定为属于第一目标类/>时，/>在第一目标类/>对应的k号输出通道输出值/>为1、/>在第一目标类/>对应的k号输出通道输出值/>为0；在像素点(i，j )被所述教师模型、学生模型任一者的分类模块判定为不属于第一目标类/>时，/>的值为0、/>的值为1；

S4，基于所述第一目标类掩膜和第一非目标类掩膜/>，结合教师模型的输出图、学生模型的输出图构建第一目标类掩膜特征和第一非目标类掩膜特征；

S5，基于所述第一目标类掩膜和第一非目标类掩膜/>，结合教师模型的中间特征图、学生模型的中间特征图构建第二目标类掩膜特征和第二非目标类掩膜特征；

S6，基于步骤S4得到的第一目标类掩膜特征和第一非目标类掩膜特征、步骤S5得到的第二目标类掩膜特征和第二非目标类掩膜特征各自的KL散度构建知识蒸馏的损失函数进行知识蒸馏；

2.如权利要求1所述的方法，其特征在于，所述步骤S1中教师模型所采用的PSPNet的骨干网络为ResNet101，学生模型所采用的PSPNet的骨干网络为ResNet18。

3.如权利要求1或2所述的方法，其特征在于，所述步骤S6实现为：将步骤S4得到的第一目标类掩膜特征、第一非目标类掩膜特征分别由进行尺度变换为，然后按照KL散度的计算公式（9）-（10）构建第一目标类损失函数/>，第一非目标类损失函数/>：

；

其中，为对应于所述教师模型的第一目标类掩膜特征，/>为对应于所述教师模型的第一非目标类掩膜特征；/>为对应于所述学生模型的第一目标类掩膜特征，/>为对应于所述学生模型的第一非目标类掩膜特征；/>为设置的系数，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式；

将步骤S5得到的第二目标类掩膜特征、第二非目标类掩膜特征分别由进行尺度变换为/>，然后按照KL散度的计算公式（11）-（12）构建第二目标类损失函数/>，第二非目标类损失函数/>:

；

其中，为对应于教师模型的第二目标类掩膜特征，/>为对应于所述教师模型的第二非目标类掩膜特征；/>为对应于所述学生模型的第二目标类掩膜特征，/>为对应于所述学生模型的第二非目标类掩膜特征；/>为设定的系数，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为/>尺度变换后的形式，/>为尺度变换后的形式；

构建知识蒸馏的损失函数：

；

其中，为各项损失函数的权重系数。

4.如权利要求3所述的方法，其特征在于，所述步骤S7中基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建学生模型训练的损失函数/>，实现为：将交叉熵损失函数/>加上所述知识蒸馏的损失函数/>作为所述学生模型训练的损失函数/>。