CN114219043A

CN114219043A - 基于对抗样本的多教师知识蒸馏方法及装置

Info

Publication number: CN114219043A
Application number: CN202111568528.5A
Authority: CN
Inventors: 张春慨; 姜茗译; 韩培义; 刘川意; 段少明
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-22

Abstract

本发明公开了一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质，该方法包括：对样本基于教师概率输出与学生概率输出差异最大化的原则，选择待修改原始样本；将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类以及对应的待修改原始样本作为可修改原始样本；基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界，利用点到线距离的向量算法，以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标，对可修改原始样本进行迭代修改，生成位于决策边界两侧的边界样本对；利用生成的边界样本，使用基于边界距离的多教师权重分配训练学生模型。本发明能够提升学生模型的分类精度。

Description

基于对抗样本的多教师知识蒸馏方法及装置

技术领域

本申请涉及深度网络模型知识蒸馏，具体涉及一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质。

背景技术

随着对深度神经网络(DNN)的研究的深入，深度网络被应用与越来越复杂的问题上，网络的深度与广度也变得越来越大。然而，庞大的参数规模不仅会导致训练上的困难，也会大大增加推理阶段花费的时间，使得网络模型无法部署在个人电脑等算力较弱的设备上。因此，很多最近的工作都致力于研究如何将庞大的深度网络压缩为更轻量的网络，而方法之一就是知识蒸馏(KD)。

知识蒸馏是一种知识迁移的实现方式，它通过使用已经训练好的复杂模型的输出来训练简单模型，以此达到模型压缩和提升简单模型准确率的效果。在这一过程中，复杂模型被称为教师模型而简单模型被称为学生模型。多教师知识蒸馏是知识蒸馏的一个分支，指对多个教师模型输出进行融合后运用在知识蒸馏，提升学生模型的精度。同时，由于知识蒸馏实际上是学生模型学习教师模型决策边界的过程，越靠近决策边界的样本学习的效率越高。

目前绝大多数的多教师蒸馏方法在衡量各教师的比重时，都采用平均各教师蒸馏损失的做法。这是因为缺少判断教师在知识蒸馏中发挥作用高低的指标。无论是单教师蒸馏还是多教师蒸馏，更加应该关注的是教师模型软标签中包含的暗知识的多少与迁移效率，而不是教师模型的分类结果是否正确。一些常规的指标，如分类准确率或在正确分类上的预测概率等，无法衡量知识蒸馏中教师学习价值。甚至即使教师模型的分类错误，其输出的预测概率仍然包含很多值得学习的暗知识。因此，在现有的知识蒸馏方法中，没有任何指标可以表明哪个老师更值得学习，每个老师在蒸馏中所占的权重可以说是不得不被认为是相等的。但是，从知识转移效率的角度来看，由于样本距离每个教师的决策边界的距离不同，因此同一样本对每个教师的知识转移效率是不同的。很明显，这种一视同仁的处理方法使得某些教师相比其他教师可能具有的优势荡然无存。具有不同知识迁移效率的教师输出被赋予相同的权重，导致知识迁移无法充分的进行。因此，探究如何针对不同样本的知识迁移效率合理分配各教师的权重，是提升多教师知识蒸馏的性能的关键之一。

发明内容

本发明针对上述问题，提供了一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质。

本发明的第一方面，提供了一种基于对抗样本的多教师知识蒸馏方法，方法包括以下步骤：

对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则，选择一部分样本作为待修改原始样本；

将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类，目标分类对应的待修改原始样本作为可修改原始样本；

基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界，利用点到线距离的向量算法，以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标，对可修改原始样本进行迭代修改，生成位于决策边界两侧的边界样本对；

利用生成的边界样本，使用基于边界距离的多教师权重分配训练学生模型。

进一步的，待修改原始样本选择方式具体是：样本需满足教师模型对样本的分类结果与学生模型对样本的分类结果相同，当满足分类结果相同的样本过量时，在分类结果相同的样本中按照教师模型分类概率与学生模型分类概率差最大的优先级顺序选择待修改的原始样本。

进一步的，生成位于决策边界两侧的边界样本对的具体步骤包括：

将可修改原始样本恰好越过边界的修改结果称为外侧样本，将可修改原始样本恰好不越过边界的修改结果称为内侧样本；

外侧样本的迭代公式为：

其中，

为向量微分算子，η为小于1的学习率，ε表示超参数，外侧样本初始值为可修改原始样本，

分别表示教师模型f对样本

在原始类c₀和其他类c上的概率；

外侧样本满足(1)和(2)中的一个就结束迭代，其中：(1)：

且

(2)：i+1＞I_max，i为迭代次数，I_max为预设的最大可迭代次数。

进一步的，内侧样本获取的的方式具体包括：

如果外侧样本迭代结束后，最终的外侧样本

的前一步样本

满足

end表示外侧样本最终的迭代次数，内侧样本直接取值

否则，内侧样本初始值为

并对内侧样本进行迭代运算，迭代公式为：

其中，η_j为可变的学习率，其初始值η₀与η相同，若在第i+1次迭代后满足

则η_j+1＝η_j/2，并重新计算

直至

再进行下一次迭代，j表示学习率衰减次数；

内侧样本满足(3)至(5)中的一个就结束迭代，其中：(3)：

(4)：i+1＞I_max；(5)：j+1＞J_max，其中x^out表示外侧样本迭代结束后得到的外侧样本

J_max为预设的学习率最大可衰减次数。

进一步的，利用生成的边界样本，使用基于边界距离的多教师权重分配训练学生模型，具体步骤包括：

对每个生成的边界样本，按照每个教师模型在目标分类与原始分类上的分类概率比值，计算每个教师在学生模型训练中的权重。

进一步的，每个教师模型在学生模型训练中的权重，具体表达式为：

其中，N表示教师模型的数量，h_n(x)表示学生在学习边界样本x时第n个教师模型fⁿ(·)的得分，

其中

和

为教师模型对边界样本x在类别c₀和c上的分类概率。

进一步的，方法还包括利用每个教师模型在学生模型训练中的权重分配在学生模型训练中每个教师模型产生的损失占比。

本发明的第二方面，提供了一种基于对抗样本的多教师知识蒸馏装置，所述装置包括：

待修改原始样本获取模型，用于对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则，选择一部分样本作为待修改原始样本；

可修改原始样本获取模型，用于将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类，目标分类对应的待修改原始样本作为可修改原始样本；

边界样本对生成模块，基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界，利用点到线距离的向量算法，以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标，对可修改原始样本进行迭代修改，生成位于决策边界两侧的边界样本对；

学生模型训练训练模块，用于利用生成的边界样本，使用基于边界距离的多教师权重分配训练学生模型。

本发明的第三方面，提供了一种基于对抗样本的多教师知识蒸馏装置，包括：处理器；以及存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行上述基于对抗样本的多教师知识蒸馏方法。

本发明的第四方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行上述基于对抗样本的多教师知识蒸馏方法。

本发明提供的一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质，采用类似对抗样本生成的方法，给原样本添加细微的改动以创造尽可能靠近某一个教师模型的决策边界的样本。为使得样本更适应非平均权重的多教师蒸馏，提出了一种被称为边界样本对的新型样本组，并在现有的对抗样本生成方法上进行改进以获得边界样本对。相比于先前的对抗样本，边界样本对在知识蒸馏中有更好的效果。本方法使用教师模型对样本分类，通过教师对边界样本在原分类和对抗攻击目标分类上的分类概率计算其基于距离的得分，并由得分分配权重。最终达到的有益效果：与已有的多教师蒸馏方法相比，本发明提供的基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质提升了知识迁移的效率，从而加速了知识蒸馏的过程，提升了学生模型的分类精度，具有很大的实用价值。

附图说明

图1是本发明实施例的基于对抗样本的多教师知识蒸馏方法流程示意图；

图2是本发明实施例的基于对抗样本的多教师知识蒸馏装置结构示意图；

图3是本发明实施例的计算机设备的架构；

图4是本发明实施例中学生模型在CIFAR-10数据集上分类精度与其他方法对比图；

图5是本发明实施例中学生模型在ImageNet数据集上分类精度与其他方法对比图；

图6是本发明实施例中基于对抗样本的多教师知识蒸馏方法与普通多教师蒸馏方法蒸馏时损失函数曲线对比图。

具体实施方式

为进一步对本发明的技术方案作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的步骤。

基于本发明的实施例1

本实施例针对一种基于对抗样本的多教师知识蒸馏方法具体步骤，如图1所示，为本发明实施例的基于对抗样本的多教师知识蒸馏方法流程图：

S1、对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则，选择一部分样本作为待修改原始样本；

进一步的，待修改原始样本选择方式具体是：样本需满足教师模型对样本的分类结果与学生模型对样本的分类结果相同，当满足分类结果相同的样本过量时，在分类结果相同的样本中按照教师模型分类概率与学生模型分类概率差最大的优先级顺序选择待修改的原始样本。这样可以使选择的教师模型分类概率向量与学生模型分类概率向量的空间距离尽可能大。

具体实施过程中，为了控制边界样本的总数目M_bs等于或略小于批训练中每批次数据的个数M_batch。为此，当教师数量为N时，在每个批次中为每个教师挑选至多

个原始样本生成边界样本对。这至多M个样本的选取条件为：该教师对于样本的分类结果与学生的分类结果相同。当然，可能在一批次中会有多于M个样本满足这一条件，此时挑选前M大的样本。

S2、将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类，目标分类对应的待修改原始样本作为可修改原始样本；

具体实施过程中，对每个选择出的待修改原始样本，根据其在教师模型上各分类概率的高低选择对抗攻击的目标分类；选择的对抗攻击的目标分类为除原始分类外，教师模型分类预测概率最大的分类。

S3、基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界，利用点到线距离的向量算法，以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标，对可修改原始样本进行迭代修改，生成位于决策边界两侧的边界样本对；

具体实施过程中，基于数据流形的潜在空间，将教师模型f对样本x在原始类c₀和某一其他类c上的概率得分分别记为

与f_c(x)，使用二者的差

衡量样本到边界的距离，F_c(x)＝0所表示的曲面为决策边界面，

进一步的，将可修改原始样本恰好越过边界的修改结果称为外侧样本，将可修改原始样本恰好不越过边界的修改结果称为内侧样本；

S31、外侧样本的迭代公式为：

其中，

为向量微分算子，η为小于1的学习率，防止估计的梯度大于实际梯度时迭代的步长过大，ε表示超参数，用于保证外侧样本可以越过决策边界。外侧样本初始值为可修改原始样本，

分别表示教师模型f对样本

在原始类c₀和其他类c上的概率；

外侧样本满足(1)和(2)中的一个就结束迭代，其中：(1)：

且

S32、内侧样本获取的的方式具体包括：

如果外侧样本迭代结束后，最终的外侧样本

的前一步样本

满足

end表示外侧样本最终的迭代次数，内侧样本直接取值

也即

相比于外侧样本可能更靠近边界，否则，内侧样本初始值为

并对内侧样本进行迭代运算，迭代公式为：

则η_j+1＝η_j/2，并重新计算

直至

再进行下一次迭代，j表示学习率衰减次数；

内侧样本满足(3)至(5)中的一个就结束迭代，其中：(3)：

J_max为预设的学习率最大可衰减次数。这样可以达到外侧样本为越过边界，而内侧样本相比外侧样本距离决策边界更近。

基于本发明的实施例2

本实施例用于在实施例1的基础上执行S4、用生成的边界样本对，使用基于边界距离的多教师权重分配训练学生模型。针对学生模型训练提供了一种用于基于边界距离的权重分配方法，包括：使用在二分类中两个类别的概率之比来量化样本到边界的距离，当边界样本完全落在决策边界上时，两个分类的比值将为1，而边界样本离边界越远，较大概率和较小概率的比值将越大；当这一比值逐渐拉大时，教师模型的权重应该迅速减小。对各教师模型在该边界样本上的得分进行归一化得到它们各自的权重，依据权重分配多教师知识蒸馏中各教师模型蒸馏损失的系数。

具体实施过程中，对各教师模型在边界样本上的得分进行归一化得到它们各自的权重，每个教师模型在学生模型训练中的权重具体表达式为：

其中

和

为教师模型对边界样本x在类别c₀和c上的分类概率。

基于本发明的实施例3

以下，参照图2来描述根据本公开实施例1、实施例2的与图1所示的方法对应的装置，一种基于对抗样本的多教师知识蒸馏装置，所述装置100包括：包括：待修改原始样本获取模型101，用于对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则，选择一部分样本作为待修改原始样本；可修改原始样本获取模型102，用于将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类，目标分类对应的待修改原始样本作为可修改原始样本；边界样本对生成模块103，基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界，利用点到线距离的向量算法，以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标，对可修改原始样本进行迭代修改，生成位于决策边界两侧的边界样本对；学生模型训练训练模块104，用于利用边界样本对生成模块103生成的边界样本对进行学生模型训练。除了这4个单元以外，装置100还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。

一种基于对抗样本的多教师知识蒸馏装置100的具体工作过程参照上述基于对抗样本的多教师知识蒸馏方法实施例1、实施例2的描述，不再赘述。

基于本发明的实施例4

根据本发明实施例的装置也可以借助于图3所示的计算设备的架构来实现。图3示出了该计算设备的架构。如图3所示，计算机系统201、系统总线203、一个或多个CPU 204、输入/输出组件202、存储器205等。存储器20可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1-实施2执行的程序指令。图3所示的架构只是示例性的，在实现不同的设备时，根据实际需要调整图3中的一个或多个组件。

基于本发明的实施例5

本发明实施例也可以被实现为计算机可读存储介质。根据实施例5的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本发明实施例1-实施2的方法。

本发明实施例1-实施例5基于对抗样本的多教师知识蒸馏方法实施例、装置实施例及计算机存储介质实施例，以上5个实施例的结果与当前最优的多教师知识蒸馏方法Ensemble、Triplet、FEED在学生模型分类精度进行比对时，实施例在两个真实数据集CIFAR-10、ImageNet上进行。两个实例数据集的介绍如下：

CIFAR-10数据集：包含飞机、汽车、鸟类、狗等10种常见类别的彩色图像数据集。CIFAR-10中的每一张图片的大小均为32像素*32像素，并且由RGB模式的3个通道组成。样本的总维度大小为3072。训练集共50000张图片，测试集共10000张图片。

ImageNet数据集：有树状分类结构、样本数量达千万级的高分辨率图像数据集。本发明在验证中使用的数据集为其使用最广泛的子集ISLVRC2012，每张图片的大小为299像素*299像素，由3个通道组成，总维度大小为268203。训练集共近130万张图片，测试集共50000张图片。

本发明实施例攻击算法在两个数据集上的分类精度和损失如图4、图5和图6所示。

由图4和图5，在其他对抗攻击方法的相同攻击设置下，实验结果证明本方法在CIFAR-10数据集上具有最佳性能，胜过了去年表现最好的多教师蒸馏方法FEED。对于ImageNet数据集，虽然本课题初始方法的表现比FEED方法稍差，但由于本发明没有修改教师-学生框架，因此可以自由的和其他多教师方法结合，这是本方法的优势之一。当本发明方法与FEED架构结合为Our+方法时，进一步显示出更大的性能优势。Ours+方法在各种知识蒸馏方法中仍然具有最佳的性能。由图6，可以看到本发明方法比普通的集成方法和FEED方法收敛得更快。这表明本方法在整体知识转移效率上比普通方法更具优势。

综合上述各实施例提供的基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质，能生成更加适合多教师知识蒸馏的边界样本对，并且可以通过边界样本对和基于边界距离的权重分配方法提升了知识迁移的效率，加速了知识蒸馏的过程，并提升学生模型的分类精度。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的步骤、方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种步骤、方法所固有的要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。