CN112418343B

CN112418343B - 多教师自适应联合的学生模型训练方法

Info

Publication number: CN112418343B
Application number: CN202011421445.9A
Authority: CN
Inventors: 郭雨; 潘嵘
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2024-01-05
Anticipated expiration: 2040-12-08
Also published as: CN112418343A

Abstract

本发明涉及多教师自适应联合的学生模型训练方法，对教师模型的中间层特征，选择深度神经网络对这些特征进行融合，并用用加权预测融合各个教师模型的预测结果，得到最终的特征让学生模型学习并构造学生模型的最终损失函数。对于不同的样本，学生模型能够有偏向的学习不同的教师模型的预测结果，将不同教师模型传递的知识有差异的结合，形成更加有效的软标签，引导学生模型的学习，使得学生模型的学习更加有效，令学生模型的最终使用效果更好。

Description

多教师自适应联合的学生模型训练方法

技术领域

本发明涉及知识蒸馏领域，更具体地，涉及多教师自适应联合的学生模型训练方法。

背景技术

知识蒸馏(knowledge distillation)是一种能让小网络模仿学习大网络，从而提升小网络性能的方法。其主要思想是迁移学习，以预先训练好的复杂而繁重的模型教师模型为目标，让学生模型去学习教师模型得到的暗知识，训练一个简化的、压缩的学生模型。

公开号为“CN108664893A”，公开日为2018年10月16日的中国专利申请公开了一种一种人脸检测方法，包括以下步骤：步骤102，对轻量网络和复杂网络分别输入一批同样的训练图像；步骤104，针对轻量网络和复杂网络的分类图的输出结果，采用难样本挖掘法进行过滤；步骤106，构造综合损失函数，所述综合损失函数包括知识蒸馏损失函数或基于标签的人脸检测损失函数，所述知识蒸馏损失函数根据轻量网络和复杂网络的分类图的输出结果获得；步骤108，基于损失函数，更新轻量网络的参数，不更新复杂网络的参数；步骤110，重复上述步骤，直至轻量网络训练至收敛。在该方法中，轻量网络就是学生模型，复杂网络就是教师模型。

但是在上述的方法中，学生模型和教师模型采用难样本挖掘法进行过滤，构造损失函数的时候也只是根据分类图的输出结果。在这种情况下，如果进行的是多教师知识蒸馏，导致各个教师模型的权重是一样的，没有根据每个教师对于不同样本的重要性设计权重。且对于中间层的特征只是简单的让学生模型去同时拟合多个教师模型，这可能使学生模型学不到每个老师的重要性，只是简单的学习到表面，导致学生模型的学习效果不好。

发明内容

本发明为克服上述现有技术中多教师知识蒸馏的学生模型学习效果差问题，提供多教师自适应联合的学生模型训练方法，学生模型能够有偏向的学习不同的教师模型的预测结果，将不同教师模型传递的知识有差异的结合，令学生模型既能学习到不同教师模型的不同知识，又能得到真实样本的监督，得出的学生模型更好。

为解决上述技术问题，本发明采用的技术方案是：提供多教师自适应联合的学生模型训练方法，对教师模型的中间层特征，选择深度神经网络对这些特征进行融合，并用用加权预测融合各个教师模型的预测结果，得到最终的特征让学生模型学习并构造学生模型的最终损失函数为：

其中，y^s是学生模型的logits输出，y是真实标签；是学生模型输出的概率分布和教师模型输出的概率分布；A^s，A^t是学生模型和教师模型提取的特征；α是个超参数，用来控制两种损失的权重；β是控制损失的权重的超参数；T作为温度，用来平滑这两个概率分布。

教师模型基本结构通常和学生模型一样，但是每一组卷积块的卷积层数目会比学生模型的多，即每一组卷积块的厚度会更厚，因此提取的特征会更精准，性能会更好。教师模型的训练方法和常规的神经网络模型训练方法一样，通过多分类的交叉熵函数作为损失函数，用随机梯度下降作为优化方法进行训练。

优选的，具体包括如下步骤：

步骤一：构建基于卷积神经网络的残差网络作为教师模型，通过不同的初始化参数训练许多个教师模型直至收敛；

步骤二：将训练好的多个教师网络的特征输入到一个深度神经网络进行二次分类，将深度神经网络的中间层作为教师模型的特征融合模型；

步骤三：将同一批训练数据输入教师模型和学生模型，得到各个教师模型的特征和概率分布；

步骤四：用步骤二中训练好的深度神经网络融合特征，用加权预测融合各个教师模型的预测结果；

步骤五：根据损失函数，并基于损失函数更新学生模型的参数，固定其他模型的参数；

步骤六：重复步骤一至步骤五，直到学生模型收敛。

优选的，在所述步骤二中，教师模型特征融合模型的获得方法是通过将训练样本输入到训练好的教师模型会得到特征和预测结果，即feature_i，pred_i＝model_i(x)，然后将特征都拼接起来的到最终特征，即最终特征＝[特征1|特征2|...|特征n]，用最终特征和样本标签训练一个深度神经网络，即样本为(拼接后的特征，真实标签)，训练好的神经网络的中间层是融合后的特征，且与每个教师模型的特征纬度一致。

优选的，训练学生模型，将经过相同处理后的图片同时输入到学生模型和教师模型中，得到各个教师模型的特征和概率分布。

优选的，损失函数中学生模型的logits输出y^s和真实标签y的交叉熵损失的具体公式为：

其中，j为logits输出向量y^s中第j个元素。

损失函数中教师模型的logits和教师模型的logits的KL散度的具体公式为：

其中，分别是教师模型和学生模型得到的概率分布，/>分别是概率分布中对应的第i个元素。

损失函数中特征间的均方误差损失的具体公式为：

其中，f^s为学生模型的特征；f^t为多个教师特征融合后的特征；n为特征的元素个数。

优选的，在步骤四中，将步骤三中各个教师模型所提取到的特征输入到步骤二所得到的特征融合模型，并通过训练好的深度神经网络对多个教师得到的特征进行融合，得到融合后的教师模型特征。

优选的，在步骤四中，用加权预测融合各个教师模型的预测结果的方法是：通过教师模型和真实标签得出不同教师模型对该样本的预测结果的权重，然后对不同的教师模型进行加权求和得到最终的概率分布。

优选的，教师模型输出概率分布的计算公式具体为：

其中，w_i，为第i个教师对应的权重和logits分布，/>是第i个教师的logits分布中第z个元素，其中z是正确的类别标签。/>是第i个教师的logits分布中第j个元素。

优选的，用加权预测融合各个教师模型的预测结果的方法是：根据真实标签组合最终的概率分布，对于每一个样本，若只有单个教师模型对该样本分类正确，则选择该教师模型作为最终的概率分布；若有多个教师模型都分类正确，那么对这多个教师的预测结果取平均作为结果；若没有教师模型分类正确，则学生模型在该样本不学习教师模型，仅通过真实标签进行学习。

优选的，教师模型输出概率只计算预测正确的样本的损失，对预测正确的教师模型Q的预测结果进行平均，对于预测错误的样本，不计算这一部分的损失，并加大第一部分的损失权重，具体的计算公式为：

其中，Q是指所有教师模型中对该样本预测正确的教师集合，是指集合中所有logits分布的平均。

优选的，在所述步骤一中，残差网络具体为resnet152。

与现有技术相比，有益效果是：本发明的多教师自适应联合的学生模型训练方法，使得对于不同的样本，学生模型能够有偏向的学习不同的教师模型的预测结果，将不同教师模型传递的知识有差异的结合，形成更加有效的软标签，引导学生模型的学习，使得学生模型的学习更加有效，令学生模型的最终使用效果更好。

附图说明

图1是本发明多教师自适应联合的学生模型训练方法的流程图；

图2是本发明多教师自适应联合的学生模型训练方法的效果对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例1

如图1所示为多教师自适应联合的学生模型训练方法的实施例，包括以下步骤：

步骤二：将训练好的多个教师网络的特征输入到一个深度神经网络进行二次分类，将深度神经网络的中间层作为教师模型的特征融合模型；教师模型特征融合模型的获得方法是通过将训练样本输入到训练好的教师模型会得到特征和预测结果，即feature_i，pred_i＝model_i(x)，然后将特征都拼接起来的到最终特征，即最终特征＝[特征1|特征2|...|特征n]，用最终特征和样本标签训练一个深度神经网络，即样本为(拼接后的特征，真实标签)，训练好的神经网络的中间层是融合后的特征，且与每个教师模型的特征纬度一致。

步骤三：将同一批训练数据输入教师模型和学生模型；训练学生模型，将经过相同处理后的图片同时输入到学生模型和教师模型中，得到各个教师模型的特征和概率分布。

步骤四：用步骤二中训练好的深度神经网络融合特征，用加权预测融合各个教师模型的预测结果；具体为：将步骤三中各个教师模型所提取到的特征输入到步骤二所得到的特征融合模型，并通过训练好的深度神经网络对多个教师得到的特征进行融合，得到融合后的教师模型特征。

步骤五：根据损失函数，并基于损失函数更新学生模型的参数，固定其他模型的参数；损失函数具体为：

其中，y^s是学生模型的logits输出，y是真实标签；是学生模型输出的概率分布和教师模型输出的概率分布；A^s，A^t是学生模型和教师模型提取的特征；α是个超参数，用来控制两种损失的权重；B是控制损失的权重的超参数；T作为温度，用来平滑这两个概率分布。

损失函数中中学生模型的logits输出y^s和真实标签y的交叉熵损失的具体公式为：

其中，j为logits输出向量y^s中第j个元素。

损失函数中特征间的均方误差损失的具体公式为：

步骤六：重复步骤一至步骤五，直到学生模型收敛。

具体的，在步骤四中，用加权预测融合各个教师模型的预测结果的方法是：通过教师模型和真实标签得出不同教师模型对该样本的预测结果的权重，然后对不同的教师模型进行加权求和得到最终的概率分布。

优选的，教师模型输出概率分布的计算公式具体为：

在本实施例的有益效果：如图2所示为本实施例所记载方法与其他方法效果的比较，所采用的均为CIFAR100这个数据集。本文提出的多教师自适应联合的学生模型训练方法，使得对于不同的样本，学生模型能够有偏向的学习不同的教师模型的预测结果，将不同教师模型传递的知识有差异的结合，形成更加有效的软标签，引导学生模型的学习，使得学生模型的学习更加有效，令学生模型的最终使用效果更好。

实施例2

多教师自适应联合的学生模型训练方法的另一实施例，与实施例1的区别在于，在步骤四中，用加权预测融合各个教师模型的预测结果的方法是：根据真实标签组合最终的概率分布，对于每一个样本，若只有单个教师模型对该样本分类正确，则选择该教师模型作为最终的概率分布；若有多个教师模型都分类正确，那么对这多个教师的预测结果取平均作为结果；若没有教师模型分类正确，则学生模型在该样本不学习教师模型，仅通过真实标签进行学习。

具体的，教师模型输出概率只计算预测正确的样本的损失，对预测正确的教师模型Q的预测结果进行平均，对于预测错误的样本，不计算这一部分的损失，并加大第一部分的损失权重，具体的计算公式为：

本实施例相较于实施例1的有益效果为：实施例1方法中，由于我们不清楚错误的教师结果是否会含有有用信息，所以还是会将预测错误的教师模型的结果也融合到最终的logits分布中，只是对应的权重会小。而本实施会只融合预测正确的教师模型的结果，教师提供的信息会更加精确，所以对于大部分数据集而言，效果会优于实施例1.

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.多教师自适应联合的学生模型训练方法，其特征在于，选择深度神经网络教师模型的中间层特征进行融合，并用加权预测融合各个教师模型的预测结果，得到最终特征让学生模型学习并构造学生模型的最终损失函数；损失函数具体为：

其中，y^s是学生模型的logits输出，y是真实标签；是学生模型输出的概率分布和教师模型输出的概率分布；A^s，A^t是学生模型和教师模型提取的特征；α是个超参数，用来控制两种损失的权重；β是控制损失的权重的超参数；T作为温度，用来平滑这两个概率分布；

损失函数中学生模型的logits输出y^s和真实标签y的交叉熵损失的具体公式为：

其中，j为logits输出向量y^s中第j个元素；

其中，分别是教师模型和学生模型得到的概率分布，/>分别是概率分布中对应的第i个元素；

损失函数中特征间的均方误差损失的具体公式为：

其中，f^s为学生模型的特征；f^t为多个教师特征融合后的特征；n为特征的元素个数；

数据集为CIFAR100。

2.根据权利要求1所述的多教师自适应联合的学生模型训练方法，其特征在于，具体包括如下步骤：

步骤六：重复步骤一至步骤五，直到学生模型收敛。

3.根据权利要求2所述的多教师自适应联合的学生模型训练方法，其特征在于，在所述步骤二中，教师模型特征融合模型的获得方法是通过将训练样本输入到训练好的教师模型会得到特征和预测结果，然后将特征都拼接起来的到最终特征，用最终特征和样本标签训练一个深度神经网络，训练好的神经网络的中间层是融合后的特征，且与每个教师模型的特征纬度一致。

4.根据权利要求3所述的多教师自适应联合的学生模型训练方法，其特征在于，训练学生模型，将经过相同处理后的图片同时输入到学生模型和教师模型中，得到各个教师模型的特征和概率分布。

5.根据权利要求1所述的多教师自适应联合的学生模型训练方法，其特征在于，在步骤四中，将步骤三中各个教师模型所提取到的特征输入到步骤二所得到的特征融合模型，并通过训练好的深度神经网络对多个教师得到的特征进行融合，得到融合后的教师模型特征。

6.根据权利要求5所述的多教师自适应联合的学生模型训练方法，其特征在于，在步骤四中，用加权预测融合各个教师模型的预测结果的方法是：通过教师模型和真实标签得出不同教师模型对样本的预测结果的权重，然后对不同的教师模型进行加权求和得到最终的概率分布。

7.根据权利要求6所述的多教师自适应联合的学生模型训练方法，其特征在于，教师模型输出logits分布的计算公式具体为：

其中，w_i，为第i个教师对应的权重和logits分布，/>是第i个教师的logits分布中第z个元素，其中z是正确的类别标签；/>是第i个教师的logits分布中第j个元素。

8.根据权利要求5所述的多教师自适应联合的学生模型训练方法，其特征在于，用加权预测融合各个教师模型的预测结果的方法是：根据真实标签组合最终的概率分布，对于每一个样本，若只有单个教师模型对该样本分类正确，则选择该教师模型作为最终的概率分布；若有多个教师模型都分类正确，那么对这多个教师的预测结果取平均作为结果；若没有教师模型分类正确，则学生模型在该样本不学习教师模型，仅通过真实标签进行学习。

9.根据权利要求8所述的多教师自适应联合的学生模型训练方法，其特征在于，教师模型输出概率只计算预测正确的样本的损失，对预测正确的教师模型Q的预测结果进行平均，对于预测错误的样本，不计算这一部分的损失，并加大第一部分的损失权重，具体的计算公式为：

其中，Q是指所有教师模型中对该样本预测正确的教师集合，是指集合中所有logits分布的平均。/>