CN111062951B

CN111062951B - 一种基于语义分割类内特征差异性的知识蒸馏方法

Info

Publication number: CN111062951B
Application number: CN201911277549.4A
Authority: CN
Inventors: 许永超; 王裕康; 周维; 白翔
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2022-03-25
Anticipated expiration: 2039-12-11
Also published as: CN111062951A

Abstract

本发明公开了一种基于语义分割类内特征差异性的知识蒸馏方法，目的是将复杂模型(教师模型)学到的暗知识迁移到精简模型(学生模型)，从而在提升语义分割模型的准确度的同时保持其速度。首先，分别通过教师模型和学生模型得到卷积特征；然后，通过掩膜指导的平均池化操作得到各个类别中心的特征图并由此计算各个像素点与其对应的类别中心的特征相似性，得到类内特征差异图；最后，使学生模型的类内特征差异图与教师模型对齐，以达到提升学生模型准确度的目的。本发明提出的蒸馏方法相对于现有技术思路新颖，得到的语义分割模型在准确度和速度方面都取得了良好的效果，同时该方法可以方便地和其他相关技术结合，有很强的实际应用价值。

Description

一种基于语义分割类内特征差异性的知识蒸馏方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于语义分割类内特征差异性的知识蒸馏方法。

背景技术

语义分割是指通过计算机对图像的场景进行像素级别的理解，是计算机视觉领域的一个基础研究方向。近年来随着全卷积神经网络的迅速发展，语义分割模型的准确率不断提升，但是这些模型大都需要占用大量的计算资源，也限制了它们在现实生活中的应用，例如自动驾驶、虚拟现实、机器人等等。

为了解决这一问题，模型压缩是一种比较常用的思路，通常可以分为以下三类方法：量化、剪枝和知识蒸馏。其中，知识蒸馏的思想是利用已训练好的复杂模型(教师模型)的输出来指导精简模型(学生模型)的训练，目的是将教师模型学到的暗知识迁移到学生模型，从而在提升语义分割模型的准确度的同时保持其效率。通常，用于语义分割的知识蒸馏方法会从迁移独立像素点或像素点对中包含的暗知识方面考虑，例如去对齐教师模型和学生模型的各像素点中间特征或输出分布，或是对齐像素点对的中间特征或输出关系。然而，这些已有方法得到的学生模型往往在类内特征差异性上难以和教师模型对齐，这也限制了学生模型准确度的提升。

发明内容

而本发明中提出的方法是从同类像素点的整体性角度出发，考虑去对齐像素点与其同类像素点集合之间的差异性，从而提高学生模型的准确度。本发明的目的在于提供一种基于语义分割类内特征差异性的知识蒸馏方法，该方法将复杂模型(教师模型)中像素点与其同类像素点集合之间的差异性迁移到精简模型(学生模型)中，能够提高学生模型的准确率，同时可以直接和其他知识蒸馏的方法结合，进一步提升模型性能。

为实现上述目的，本发明从一个全新的视角来解决语义分割模型的准确性和效率的平衡的问题，提供了一种基于语义分割类内特征差异性的知识蒸馏方法，包括下述步骤：

(1)构建用于语义分割任务的复杂网络(教师网络)和精简网络(学生网络)，并训练得到教师模型，包括如下子步骤：

(1.1)对原始数据集中所有图片进行像素级别的标注，标签为预先定义的语义类别，得到带标注的标准训练数据集；

(1.2)定义用于语义分割的教师网络和学生网络，根据(1.1)带标注的标准训练数据集，设计损失函数，利用反向传导方法训练教师网络，得到对应的教师模型，具体包括如下子步骤：

(1.2.1)构建教师网络和学生网络，所述网络由特征提取模块和分类模块组成：教师网络和学生网络理论上可以是任意不同的语义分割网络，这里以PSPNet101和PSPNet18为例，其特征提取模块均由骨干网络和金字塔池化模块组成。具体地，教师网络使用的骨干网络是残差网络ResNet101，层数多、特征表达能力强，但同时参数多、计算量大、速度慢；学生网络使用的骨干网络是残差网络ResNet18，层数少、特征表达能力稍弱，但同时参数少、计算量小、速度快。金字塔池化模块的作用是得到包含丰富的上下文信息的语义特征，具体地，首先通过对输入特征进行不同尺度的池化操作，得到1×1、2×2、3×3和6×6的特征，然后使用上采样操作分别恢复到输入特征的尺度并和原始输入特征进行融合。分类模块接收上述得到的语义特征，最终预测出各个像素点属于每个预先定义类别的概率；

(1.2.2)训练教师网络，得到对应的教师模型：训练教师网络只需要用各个像素点的类别标注作为监督信息，对于输入的每幅训练图像，网络预测出各个像素点属于每个预先定义类别的概率，然后通过交叉熵损失函数，利用反向传导方法训练该网络；

(2)冻结教师模型，基于语义分割类内特征差异性进行知识蒸馏，将教师模型中像素点与其同类像素点集合之间的差异性作为额外的监督信息，去指导学生网络的训练过程，最终得到学生模型，包括如下子步骤：

(2.1)计算教师模型和学生模型的类内特征差异图，以表示两个模型的类内特征差异性，具体包括如下子步骤：

(2.1.1)定义类内特征差异图：模型的类内特征差异性即各个像素点与其同类像素点集合之间的差异性，由各个像素点的特征与其对应的类别特征中心的相似性构成的图所表示，称为类内特征差异图；具体地，需要先通过平均操作得到每个类别的特征中心，再计算各个像素点的特征与其对应的类别特征中心的相似性，表达式如下：

其中，f(p)表示像素点p的特征，Ω_p表示具有与像素点p同样类别标签的像素点集合，N_p表示集合Ω_p中像素点的数量，f(q)表示像素点q的特征，sim是相似性度量函数，具体地，使用的是余弦相似性；

(2.1.2)使用掩膜指导的平均池化操作，在深度卷积神经网络中得到类内特征差异图：首先，通过最近邻插值将标签图(h×w)下采样到特征图的空间维度大小

然后分别以各个类别的标签作为掩膜，选择出具有相同类别标签的区域，对区域内部像素点特征沿着空间维度作平均池化操作，得到每个类别的特征中心；接着，通过反池化操作将这些特征中心扩展赋值回对应区域，得到特征中心图，该特征中心图和特征图具有相同的尺度且图中每个位置存放着该像素点对应的特征中心；最后，通过上述的特征中心图能够方便地计算出各个像素点的特征与其对应的类别特征中心的相似性，具体地，沿着通道维度计算特征图和特征中心图的余弦相似性，最终得到类内特征差异图；

(2.2)基于语义分割类内特征差异性进行知识蒸馏，即通过已训练好的教师模型指导学生模型的训练过程，具体包括如下子步骤：

(2.2.1)独立像素点级别的对齐：以教师模型独立像素点的输出分布作为学生模型去学习的目标，驱使学生模型的输出分布尽可能模仿教师模型的输出分布，这是一种知识蒸馏中常规的并被普遍采用的方法，度量指标用的是Kullback-Leibler divergence(KL散度)，对应的损失函数表达式如下：

其中，Ω表示图像域，N是图像域中像素点的数量，C表示类别的总数，

和

分别表示学生模型和教师模型中像素点p对应第i类的概率输出；

(2.2.2)类内特征差异性的对齐：将教师模型中像素点与其同类像素点集合之间的差异性作为学生模型训练的目标，驱使学生模型在类内特征差异性上和教师模型保持一致，具体地，基于(2.1)中教师模型和学生模型的类内特征差异图的计算方法，设计的损失函数表达式如下：

其中，Ω表示图像域，N是图像域中像素点的数量，M_s(p)和M_t(p)分别表示学生模型和教师模型对应的类内特征差异图。

(2.2.3)优化整体损失函数：学生模型训练过程中共包含三个损失函数项，即一项常规的交叉熵损失函数L_ce以及两项知识蒸馏的损失函数L_pi和L_ifv，整体损失函数表达式如下：

L＝L_ce+L_kd,

L_kd＝λ₁L_pi+λ₂L_ifv,

其中，λ₁和λ₂分别为损失函数L_pi和L_ifv的权重系数。

(3)利用上述训练好的学生模型对待处理图像进行语义分割：首先，输入的图像经过学生网络的特征提取模块得到包含丰富的上下文信息的语义特征；然后，分类模块接收上述得到的语义特征，预测各个像素点属于每个预先定义类别的概率；最后，借助argmax()函数选取其概率最大值的下标索引作为预测类别，得到最终的图像的语义分割图。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)速度快：本发明提出的基于语义分割类内特征差异性的知识蒸馏方法，复杂模型(教师模型)仅在训练时需要用到，而在对待处理图像进行处理时只需要用到精简模型(学生模型)，保证了语义分割任务的速度；

(2)准确度高：本发明提出的基于语义分割类内特征差异性的知识蒸馏方法，利用已训练好的教师模型来指导学生模型的训练，从而将教师模型学到的暗知识迁移到学生模型，提高了学生模型的准确度；

(3)通用性强：本发明可以方便地和其他相关技术结合，进一步提升学生模型的性能，适用范围广。

附图说明

图1是本发明实施例中基于语义分割类内特征差异性的知识蒸馏方法的流程图，其中，实线箭头表示包含梯度回传的训练过程，虚线箭头表示待处理图像的语义分割过程；

图2是本发明实施例中教师模型和学生模型的基础网络结构图；

图3是本发明实施例中使用掩膜指导的平均池化操作，在深度卷积神经网络中得到类内特征差异图的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

ResNet：即残差网络(Residual Network)，是一种经典的深度卷积神经网络结构，在ILSVRC和COCO 2015竞赛中取得了5项第一的成绩，并且性能大幅超过第二名。该网络主要由卷积层、池化层和shortcut连接组成。卷积层用于提取图片特征；池化层用于降低卷积层输出的特征向量的空间维度；shortcut连接则是基于残差学习的思想，用于解决梯度消失和梯度爆炸问题。根据卷积层数量，可以分为ResNet18、ResNet50、ResNet101等五种结构。

PSPNet：即金字塔场景解析网络(Pyramid Scene Parsing Network)，是一种目前应用比较广泛的语义分割算法，在ILSVRC 2016竞赛中取得了场景解析任务的冠军。该网络使用金字塔池化模块为像素级场景解析提供了有效的上下文先验信息，提高了场景解析的性能。

Kullback-Leibler divergence(KL散度)：KL散度又称为相对熵，通常用于衡量两个概率分布之间的差异。对于概率分布P和Q，其KL散度为：

KL散度越小，表示两个分布越接近；KL散度不具有对称性，即D_KL(P||Q)≠D_KL(P||Q)。

如图1所示，本发明基于语义分割类内特征差异性的知识蒸馏方法包括以下步骤：

(1.2.1)构建教师网络和学生网络，所述网络如图2所示，由特征提取模块和分类模块组成：教师网络和学生网络理论上可以是任意不同的语义分割网络，这里以PSPNet101和PSPNet18为例，其特征提取模块均由骨干网络和金字塔池化模块组成。具体地，教师网络使用的骨干网络是残差网络ResNet101，层数多、特征表达能力强，但同时参数多、计算量大、速度慢；学生网络使用的骨干网络是残差网络ResNet18，层数少、特征表达能力稍弱，但同时参数少、计算量小、速度快。金字塔池化模块的作用是得到包含丰富的上下文信息的语义特征，具体地，首先通过对输入特征进行不同尺度的池化操作，得到1×1、2×2、3×3和6×6的特征，然后使用上采样操作分别恢复到输入特征的尺度并和原始输入特征进行融合。分类模块接收上述得到的语义特征，最终预测出各个像素点属于每个预先定义类别的概率；

(2.1.2)使用掩膜指导的平均池化操作，在深度卷积神经网络中得到类内特征差异图：所述操作如图3所示，首先，通过最近邻插值将标签图(h×w)下采样到特征图的空间维度大小

和

L＝L_ce+L_kd,

L_kd＝λ₁L_pi+λ₂L_ifv,

其中，λ₁和λ₂分别为损失函数L_pi和L_ifv的权重系数，本发明实施例中被设置为10和100；

交叉熵损失函数L_ce表达式如下：

表示学生模型中像素点p对应第i类的概率输出，Tⁱ(p)是根据像素点p的标签得到的，当像素点p的标签等于当前类别i时，Tⁱ(p)＝1；否则，Tⁱ(p)＝0；

(3)利用上述训练好的学生模型对待处理图像进行语义分割：首先，输入的图像经过学生网络的特征提取模块得到包含丰富的上下文信息的语义特征；然后，分类模块接收上述得到的语义特征，预测各个像素点属于每个预先定义类别的概率；最后，借助ar gmax()函数选取其概率最大值的下标索引作为预测类别，得到最终的图像的语义分割图。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义分割类内特征差异性的知识蒸馏方法，其特征在于，所述方法包括下述步骤：

(1)构建用于语义分割任务的复杂网络即教师网络和精简网络即学生网络，并训练得到教师模型，包括如下子步骤：

(1.2)定义用于语义分割的教师网络和学生网络，根据(1.1)中带标注的标准训练数据集，设计损失函数，利用反向传导方法训练教师网络，得到对应的教师模型，具体包括如下子步骤：

(1.2.1)构建教师网络和学生网络，所述网络由特征提取模块和分类模块组成；

(1.2.2)训练教师网络，得到对应的教师模型；

(2.1.1)定义类内特征差异图；具体为：

模型的类内特征差异性即各个像素点与其同类像素点集合之间的差异性，可由各个像素点的特征与其对应的类别特征中心的相似性构成的图所表示，称为类内特征差异图；具体地，先通过平均操作得到每个类别的特征中心，再计算各个像素点的特征与其对应的类别特征中心的相似性，表达式如下：

其中，f(p)表示像素点p的特征，Ω_p表示具有与像素点p同样类别标签的像素点集合，N_p表示集合Ω_p中像素点的数量，f(q)表示像素点q的特征，sim是相似性度量函数；

(2.1.2)使用掩膜指导的平均池化操作，在深度卷积神经网络中得到类内特征差异图；具体为：

首先，通过最近邻插值将标签图(h×w)下采样到特征图的空间维度大小

然后分别以各个类别的标签作为掩膜，选择出具有相同类别标签的区域，对区域内部像素点特征沿着空间维度作平均池化操作，得到每个类别的特征中心；接着，通过反池化操作将这些特征中心扩展赋值回对应区域，得到特征中心图，该特征中心图和特征图具有相同的尺度且图中每个位置存放着该像素点对应的特征中心；最后，通过上述的特征中心图计算出各个像素点的特征与其对应的类别特征中心的相似性；

(2.2.1)独立像素点级别的对齐；

(2.2.2)类内特征差异性的对齐；

(2.2.3)优化整体损失函数；具体为：

学生模型训练过程中共包含三个损失函数项：一项常规的交叉熵损失函数L_ce以及两项知识蒸馏的损失函数L_pi和L_ifv，整体损失函数表达式如下：

L＝L_ce+L_kd，

L_kd＝λ₁L_pi+λ₂L_ifv，

其中，λ₁和λ₂分别为损失函数L_pi和L_ifv的权重系数；

(3)利用上述训练好的学生模型对待处理图像进行语义分割。

2.根据权利要求1所述的基于语义分割类内特征差异性的知识蒸馏方法，其特征在于，所述步骤(1.2.1)具体为：

教师网络和学生网络的特征提取模块均由骨干网络和金字塔池化模块组成；教师网络使用的骨干网络是残差网络ResNet101，学生网络使用的骨干网络是残差网络ResNet18；金字塔池化模块的作用是得到包含丰富的上下文信息的语义特征；首先通过对输入特征进行不同尺度的池化操作，得到1×1、2×2、3×3和6×6的特征，然后使用上采样操作分别恢复到输入特征的尺度并和原始输入特征进行融合；分类模块接收上述得到的语义特征，最终预测出各个像素点属于每个预先定义类别的概率。

3.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法，其特征在于，所述步骤(1.2.2)具体为：

用各个像素点的类别标注作为监督信息，对于输入的每幅图像，网络预测出各个像素点属于每个预先定义类别的概率，然后通过交叉熵损失函数，利用反向传导方法训练该教师网络，得到教师模型。

4.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法，其特征在于，所述步骤(2.2.1)具体为：

以教师模型独立像素点的输出分布作为学生模型去学习的目标，驱使学生模型的输出分布尽可能模仿教师模型的输出分布，度量指标用的是KL散度，对应的损失函数表达式如下：

和

分别表示学生模型和教师模型中像素点p对应第i类的概率输出。

5.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法，其特征在于，所述步骤(2.2.2)具体为：

将教师模型中像素点与其同类像素点集合之间的差异性作为学生模型训练的目标，驱使学生模型在类内特征差异性上和教师模型保持一致，具体地，基于(2.1)中教师模型和学生模型的类内特征差异图的计算方法，设计的损失函数表达式如下：

6.根据权利要求1或2所述的基于语义分割类内特征差异性的知识蒸馏方法，其特征在于，所述步骤(3)具体为：

首先，输入的图像经过学生网络的特征提取模块得到包含上下文信息的语义特征；然后，分类模块接收上述得到的语义特征，预测各个像素点属于每个预先定义类别的概率；最后，借助argmax()函数选取其概率最大值的下标索引作为预测类别，得到最终的图像的语义分割图。

7.根据权利要求1所述的基于语义分割类内特征差异性的知识蒸馏方法，其特征在于，所述相似性度量函数sim采用余弦相似性。