CN114219043A - 基于对抗样本的多教师知识蒸馏方法及装置 - Google Patents

基于对抗样本的多教师知识蒸馏方法及装置 Download PDF

Info

Publication number
CN114219043A
CN114219043A CN202111568528.5A CN202111568528A CN114219043A CN 114219043 A CN114219043 A CN 114219043A CN 202111568528 A CN202111568528 A CN 202111568528A CN 114219043 A CN114219043 A CN 114219043A
Authority
CN
China
Prior art keywords
teacher
sample
samples
boundary
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111568528.5A
Other languages
English (en)
Inventor
张春慨
姜茗译
韩培义
刘川意
段少明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202111568528.5A priority Critical patent/CN114219043A/zh
Publication of CN114219043A publication Critical patent/CN114219043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质,该方法包括:对样本基于教师概率输出与学生概率输出差异最大化的原则,选择待修改原始样本;将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类以及对应的待修改原始样本作为可修改原始样本;基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;利用生成的边界样本,使用基于边界距离的多教师权重分配训练学生模型。本发明能够提升学生模型的分类精度。

Description

基于对抗样本的多教师知识蒸馏方法及装置
技术领域
本申请涉及深度网络模型知识蒸馏,具体涉及一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质。
背景技术
随着对深度神经网络(DNN)的研究的深入,深度网络被应用与越来越复杂的问题上,网络的深度与广度也变得越来越大。然而,庞大的参数规模不仅会导致训练上的困难,也会大大增加推理阶段花费的时间,使得网络模型无法部署在个人电脑等算力较弱的设备上。因此,很多最近的工作都致力于研究如何将庞大的深度网络压缩为更轻量的网络,而方法之一就是知识蒸馏(KD)。
知识蒸馏是一种知识迁移的实现方式,它通过使用已经训练好的复杂模型的输出来训练简单模型,以此达到模型压缩和提升简单模型准确率的效果。在这一过程中,复杂模型被称为教师模型而简单模型被称为学生模型。多教师知识蒸馏是知识蒸馏的一个分支,指对多个教师模型输出进行融合后运用在知识蒸馏,提升学生模型的精度。同时,由于知识蒸馏实际上是学生模型学习教师模型决策边界的过程,越靠近决策边界的样本学习的效率越高。
目前绝大多数的多教师蒸馏方法在衡量各教师的比重时,都采用平均各教师蒸馏损失的做法。这是因为缺少判断教师在知识蒸馏中发挥作用高低的指标。无论是单教师蒸馏还是多教师蒸馏,更加应该关注的是教师模型软标签中包含的暗知识的多少与迁移效率,而不是教师模型的分类结果是否正确。一些常规的指标,如分类准确率或在正确分类上的预测概率等,无法衡量知识蒸馏中教师学习价值。甚至即使教师模型的分类错误,其输出的预测概率仍然包含很多值得学习的暗知识。因此,在现有的知识蒸馏方法中,没有任何指标可以表明哪个老师更值得学习,每个老师在蒸馏中所占的权重可以说是不得不被认为是相等的。但是,从知识转移效率的角度来看,由于样本距离每个教师的决策边界的距离不同,因此同一样本对每个教师的知识转移效率是不同的。很明显,这种一视同仁的处理方法使得某些教师相比其他教师可能具有的优势荡然无存。具有不同知识迁移效率的教师输出被赋予相同的权重,导致知识迁移无法充分的进行。因此,探究如何针对不同样本的知识迁移效率合理分配各教师的权重,是提升多教师知识蒸馏的性能的关键之一。
发明内容
本发明针对上述问题,提供了一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质。
本发明的第一方面,提供了一种基于对抗样本的多教师知识蒸馏方法,方法包括以下步骤:
对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则,选择一部分样本作为待修改原始样本;
将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类,目标分类对应的待修改原始样本作为可修改原始样本;
基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;
利用生成的边界样本,使用基于边界距离的多教师权重分配训练学生模型。
进一步的,待修改原始样本选择方式具体是:样本需满足教师模型对样本的分类结果与学生模型对样本的分类结果相同,当满足分类结果相同的样本过量时,在分类结果相同的样本中按照教师模型分类概率与学生模型分类概率差最大的优先级顺序选择待修改的原始样本。
进一步的,生成位于决策边界两侧的边界样本对的具体步骤包括:
将可修改原始样本恰好越过边界的修改结果称为外侧样本,将可修改原始样本恰好不越过边界的修改结果称为内侧样本;
外侧样本的迭代公式为:
Figure BDA0003422605030000021
其中,
Figure BDA0003422605030000022
为向量微分算子,η为小于1的学习率,ε表示超参数,外侧样本初始值为可修改原始样本,
Figure BDA0003422605030000023
Figure BDA0003422605030000024
分别表示教师模型f对样本
Figure BDA0003422605030000025
在原始类c0和其他类c上的概率;
外侧样本满足(1)和(2)中的一个就结束迭代,其中:(1):
Figure BDA0003422605030000026
Figure BDA0003422605030000027
(2):i+1>Imax,i为迭代次数,Imax为预设的最大可迭代次数。
进一步的,内侧样本获取的的方式具体包括:
如果外侧样本迭代结束后,最终的外侧样本
Figure BDA0003422605030000028
的前一步样本
Figure BDA0003422605030000029
满足
Figure BDA0003422605030000031
end表示外侧样本最终的迭代次数,内侧样本直接取值
Figure BDA0003422605030000032
否则,内侧样本初始值为
Figure BDA0003422605030000033
并对内侧样本进行迭代运算,迭代公式为:
Figure BDA0003422605030000034
其中,ηj为可变的学习率,其初始值η0与η相同,若在第i+1次迭代后满足
Figure BDA0003422605030000035
则ηj+1=ηj/2,并重新计算
Figure BDA0003422605030000036
直至
Figure BDA0003422605030000037
再进行下一次迭代,j表示学习率衰减次数;
内侧样本满足(3)至(5)中的一个就结束迭代,其中:(3):
Figure BDA0003422605030000038
(4):i+1>Imax;(5):j+1>Jmax,其中xout表示外侧样本迭代结束后得到的外侧样本
Figure BDA0003422605030000039
Jmax为预设的学习率最大可衰减次数。
进一步的,利用生成的边界样本,使用基于边界距离的多教师权重分配训练学生模型,具体步骤包括:
对每个生成的边界样本,按照每个教师模型在目标分类与原始分类上的分类概率比值,计算每个教师在学生模型训练中的权重。
进一步的,每个教师模型在学生模型训练中的权重,具体表达式为:
Figure BDA00034226050300000310
其中,N表示教师模型的数量,hn(x)表示学生在学习边界样本x时第n个教师模型fn(·)的得分,
Figure BDA00034226050300000311
其中
Figure BDA00034226050300000312
Figure BDA00034226050300000313
为教师模型对边界样本x在类别c0和c上的分类概率。
进一步的,方法还包括利用每个教师模型在学生模型训练中的权重分配在学生模型训练中每个教师模型产生的损失占比。
本发明的第二方面,提供了一种基于对抗样本的多教师知识蒸馏装置,所述装置包括:
待修改原始样本获取模型,用于对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则,选择一部分样本作为待修改原始样本;
可修改原始样本获取模型,用于将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类,目标分类对应的待修改原始样本作为可修改原始样本;
边界样本对生成模块,基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;
学生模型训练训练模块,用于利用生成的边界样本,使用基于边界距离的多教师权重分配训练学生模型。
本发明的第三方面,提供了一种基于对抗样本的多教师知识蒸馏装置,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述基于对抗样本的多教师知识蒸馏方法。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行上述基于对抗样本的多教师知识蒸馏方法。
本发明提供的一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质,采用类似对抗样本生成的方法,给原样本添加细微的改动以创造尽可能靠近某一个教师模型的决策边界的样本。为使得样本更适应非平均权重的多教师蒸馏,提出了一种被称为边界样本对的新型样本组,并在现有的对抗样本生成方法上进行改进以获得边界样本对。相比于先前的对抗样本,边界样本对在知识蒸馏中有更好的效果。本方法使用教师模型对样本分类,通过教师对边界样本在原分类和对抗攻击目标分类上的分类概率计算其基于距离的得分,并由得分分配权重。最终达到的有益效果:与已有的多教师蒸馏方法相比,本发明提供的基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质提升了知识迁移的效率,从而加速了知识蒸馏的过程,提升了学生模型的分类精度,具有很大的实用价值。
附图说明
图1是本发明实施例的基于对抗样本的多教师知识蒸馏方法流程示意图;
图2是本发明实施例的基于对抗样本的多教师知识蒸馏装置结构示意图;
图3是本发明实施例的计算机设备的架构;
图4是本发明实施例中学生模型在CIFAR-10数据集上分类精度与其他方法对比图;
图5是本发明实施例中学生模型在ImageNet数据集上分类精度与其他方法对比图;
图6是本发明实施例中基于对抗样本的多教师知识蒸馏方法与普通多教师蒸馏方法蒸馏时损失函数曲线对比图。
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤。
基于本发明的实施例1
本实施例针对一种基于对抗样本的多教师知识蒸馏方法具体步骤,如图1所示,为本发明实施例的基于对抗样本的多教师知识蒸馏方法流程图:
S1、对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则,选择一部分样本作为待修改原始样本;
进一步的,待修改原始样本选择方式具体是:样本需满足教师模型对样本的分类结果与学生模型对样本的分类结果相同,当满足分类结果相同的样本过量时,在分类结果相同的样本中按照教师模型分类概率与学生模型分类概率差最大的优先级顺序选择待修改的原始样本。这样可以使选择的教师模型分类概率向量与学生模型分类概率向量的空间距离尽可能大。
具体实施过程中,为了控制边界样本的总数目Mbs等于或略小于批训练中每批次数据的个数Mbatch。为此,当教师数量为N时,在每个批次中为每个教师挑选至多
Figure BDA0003422605030000055
个原始样本生成边界样本对。这至多M个样本的选取条件为:该教师对于样本的分类结果与学生的分类结果相同。当然,可能在一批次中会有多于M个样本满足这一条件,此时挑选前M大的样本。
S2、将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类,目标分类对应的待修改原始样本作为可修改原始样本;
具体实施过程中,对每个选择出的待修改原始样本,根据其在教师模型上各分类概率的高低选择对抗攻击的目标分类;选择的对抗攻击的目标分类为除原始分类外,教师模型分类预测概率最大的分类。
S3、基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;
具体实施过程中,基于数据流形的潜在空间,将教师模型f对样本x在原始类c0和某一其他类c上的概率得分分别记为
Figure BDA0003422605030000053
与fc(x),使用二者的差
Figure BDA0003422605030000054
衡量样本到边界的距离,Fc(x)=0所表示的曲面为决策边界面,
进一步的,将可修改原始样本恰好越过边界的修改结果称为外侧样本,将可修改原始样本恰好不越过边界的修改结果称为内侧样本;
S31、外侧样本的迭代公式为:
Figure BDA0003422605030000051
其中,
Figure BDA0003422605030000052
为向量微分算子,η为小于1的学习率,防止估计的梯度大于实际梯度时迭代的步长过大,ε表示超参数,用于保证外侧样本可以越过决策边界。外侧样本初始值为可修改原始样本,
Figure BDA0003422605030000061
Figure BDA0003422605030000062
分别表示教师模型f对样本
Figure BDA0003422605030000063
在原始类c0和其他类c上的概率;
外侧样本满足(1)和(2)中的一个就结束迭代,其中:(1):
Figure BDA0003422605030000064
Figure BDA0003422605030000065
(2):i+1>Imax,i为迭代次数,Imax为预设的最大可迭代次数。
S32、内侧样本获取的的方式具体包括:
如果外侧样本迭代结束后,最终的外侧样本
Figure BDA0003422605030000066
的前一步样本
Figure BDA0003422605030000067
满足
Figure BDA0003422605030000068
end表示外侧样本最终的迭代次数,内侧样本直接取值
Figure BDA0003422605030000069
也即
Figure BDA00034226050300000610
相比于外侧样本可能更靠近边界,否则,内侧样本初始值为
Figure BDA00034226050300000611
并对内侧样本进行迭代运算,迭代公式为:
Figure BDA00034226050300000612
其中,ηj为可变的学习率,其初始值η0与η相同,若在第i+1次迭代后满足
Figure BDA00034226050300000613
则ηj+1=ηj/2,并重新计算
Figure BDA00034226050300000614
直至
Figure BDA00034226050300000615
再进行下一次迭代,j表示学习率衰减次数;
内侧样本满足(3)至(5)中的一个就结束迭代,其中:(3):
Figure BDA00034226050300000616
(4):i+1>Imax;(5):j+1>Jmax,其中xout表示外侧样本迭代结束后得到的外侧样本
Figure BDA00034226050300000617
Jmax为预设的学习率最大可衰减次数。这样可以达到外侧样本为越过边界,而内侧样本相比外侧样本距离决策边界更近。
基于本发明的实施例2
本实施例用于在实施例1的基础上执行S4、用生成的边界样本对,使用基于边界距离的多教师权重分配训练学生模型。针对学生模型训练提供了一种用于基于边界距离的权重分配方法,包括:使用在二分类中两个类别的概率之比来量化样本到边界的距离,当边界样本完全落在决策边界上时,两个分类的比值将为1,而边界样本离边界越远,较大概率和较小概率的比值将越大;当这一比值逐渐拉大时,教师模型的权重应该迅速减小。对各教师模型在该边界样本上的得分进行归一化得到它们各自的权重,依据权重分配多教师知识蒸馏中各教师模型蒸馏损失的系数。
具体实施过程中,对各教师模型在边界样本上的得分进行归一化得到它们各自的权重,每个教师模型在学生模型训练中的权重具体表达式为:
Figure BDA00034226050300000618
其中,N表示教师模型的数量,hn(x)表示学生在学习边界样本x时第n个教师模型fn(·)的得分,
Figure BDA0003422605030000071
其中
Figure BDA0003422605030000072
Figure BDA0003422605030000073
为教师模型对边界样本x在类别c0和c上的分类概率。
基于本发明的实施例3
以下,参照图2来描述根据本公开实施例1、实施例2的与图1所示的方法对应的装置,一种基于对抗样本的多教师知识蒸馏装置,所述装置100包括:包括:待修改原始样本获取模型101,用于对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则,选择一部分样本作为待修改原始样本;可修改原始样本获取模型102,用于将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类,目标分类对应的待修改原始样本作为可修改原始样本;边界样本对生成模块103,基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;学生模型训练训练模块104,用于利用边界样本对生成模块103生成的边界样本对进行学生模型训练。除了这4个单元以外,装置100还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
一种基于对抗样本的多教师知识蒸馏装置100的具体工作过程参照上述基于对抗样本的多教师知识蒸馏方法实施例1、实施例2的描述,不再赘述。
基于本发明的实施例4
根据本发明实施例的装置也可以借助于图3所示的计算设备的架构来实现。图3示出了该计算设备的架构。如图3所示,计算机系统201、系统总线203、一个或多个CPU 204、输入/输出组件202、存储器205等。存储器20可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1-实施2执行的程序指令。图3所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图3中的一个或多个组件。
基于本发明的实施例5
本发明实施例也可以被实现为计算机可读存储介质。根据实施例5的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本发明实施例1-实施2的方法。
本发明实施例1-实施例5基于对抗样本的多教师知识蒸馏方法实施例、装置实施例及计算机存储介质实施例,以上5个实施例的结果与当前最优的多教师知识蒸馏方法Ensemble、Triplet、FEED在学生模型分类精度进行比对时,实施例在两个真实数据集CIFAR-10、ImageNet上进行。两个实例数据集的介绍如下:
CIFAR-10数据集:包含飞机、汽车、鸟类、狗等10种常见类别的彩色图像数据集。CIFAR-10中的每一张图片的大小均为32像素*32像素,并且由RGB模式的3个通道组成。样本的总维度大小为3072。训练集共50000张图片,测试集共10000张图片。
ImageNet数据集:有树状分类结构、样本数量达千万级的高分辨率图像数据集。本发明在验证中使用的数据集为其使用最广泛的子集ISLVRC2012,每张图片的大小为299像素*299像素,由3个通道组成,总维度大小为268203。训练集共近130万张图片,测试集共50000张图片。
本发明实施例攻击算法在两个数据集上的分类精度和损失如图4、图5和图6所示。
由图4和图5,在其他对抗攻击方法的相同攻击设置下,实验结果证明本方法在CIFAR-10数据集上具有最佳性能,胜过了去年表现最好的多教师蒸馏方法FEED。对于ImageNet数据集,虽然本课题初始方法的表现比FEED方法稍差,但由于本发明没有修改教师-学生框架,因此可以自由的和其他多教师方法结合,这是本方法的优势之一。当本发明方法与FEED架构结合为Our+方法时,进一步显示出更大的性能优势。Ours+方法在各种知识蒸馏方法中仍然具有最佳的性能。由图6,可以看到本发明方法比普通的集成方法和FEED方法收敛得更快。这表明本方法在整体知识转移效率上比普通方法更具优势。
综合上述各实施例提供的基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质,能生成更加适合多教师知识蒸馏的边界样本对,并且可以通过边界样本对和基于边界距离的权重分配方法提升了知识迁移的效率,加速了知识蒸馏的过程,并提升学生模型的分类精度。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于对抗样本的多教师知识蒸馏方法,其特征在于,方法包括以下步骤:
对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则,选择一部分样本作为待修改原始样本;
将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类,目标分类对应的待修改原始样本作为可修改原始样本;
基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;
利用生成的边界样本对,根据基于边界距离的多教师权重分配训练学生模型。
2.根据权利要求1所述的多教师知识蒸馏方法,其特征在于,待修改原始样本选择方式具体是:样本需满足教师模型对样本的分类结果与学生模型对样本的分类结果相同,当满足分类结果相同的样本过量时,在分类结果相同的样本中按照教师模型分类概率与学生模型分类概率差最大的优先级顺序选择待修改的原始样本。
3.根据权利要求1所述的多教师知识蒸馏方法,其特征在于,生成位于决策边界两侧的边界样本对的具体步骤包括:
将可修改原始样本恰好越过边界的修改结果称为外侧样本,将可修改原始样本恰好不越过边界的修改结果称为内侧样本;
外侧样本的迭代公式为:
Figure FDA0003422605020000011
其中,
Figure FDA0003422605020000012
为向量微分算子,η为小于1的学习率,ε表示超参数,外侧样本初始值为可修改原始样本,
Figure FDA0003422605020000013
分别表示教师模型f对样本
Figure FDA0003422605020000014
在原始类c0和其他类c上的概率;
外侧样本满足(1)和(2)中的一个就结束迭代,其中:(1):
Figure FDA0003422605020000015
Figure FDA0003422605020000016
(2):i+1>Imax,i为迭代次数,Imax为预设的最大可迭代次数。
4.根据权利要求3所述的多教师知识蒸馏方法,其特征在于,内侧样本获取的的方式具体包括:
如果外侧样本迭代结束后,最终的外侧样本
Figure FDA0003422605020000017
的前一步样本
Figure FDA0003422605020000018
满足
Figure FDA0003422605020000019
end表示外侧样本最终的迭代次数,内侧样本直接取值
Figure FDA00034226050200000110
否则,内侧样本初始值为
Figure FDA0003422605020000021
并对内侧样本进行迭代运算,迭代公式为:
Figure FDA0003422605020000022
其中,ηj为可变的学习率,其初始值η0与η相同,若在第i+1次迭代后满足
Figure FDA0003422605020000023
则ηj+1=ηj/2,并重新计算
Figure FDA0003422605020000024
直至
Figure FDA0003422605020000025
再进行下一次迭代,j表示学习率衰减次数;
内侧样本满足(3)至(5)中的一个就结束迭代,其中:(3):
Figure FDA0003422605020000026
(4):i+1>Imax;(5):j+1>Jmax,其中xout表示外侧样本迭代结束后得到的外侧样本
Figure FDA0003422605020000027
Jmax为预设的学习率最大可衰减次数。
5.根据权利要求1所述的多教师知识蒸馏方法,其特征在于,利用生成的边界样本,使用基于边界距离的多教师权重分配训练学生模型,具体步骤包括:
对每个生成的边界样本,按照每个教师模型在目标分类与原始分类上的分类概率比值,计算每个教师在学生模型训练中的权重。
6.根据权利要求5所述的多教师知识蒸馏方法,其特征在于,每个教师模型在学生模型训练中的权重,具体表达式为:
Figure FDA0003422605020000028
其中,N表示教师模型的数量,hn(x)表示学生在学习边界样本x时第n个教师模型fn(·)的得分,
Figure FDA0003422605020000029
其中
Figure FDA00034226050200000210
Figure FDA00034226050200000211
为教师模型对边界样本x在类别c0和c上的分类概率。
7.根据权利要求6所述的多教师知识蒸馏方法,其特征在于,方法还包括利用每个教师模型在学生模型训练中的权重分配在学生模型训练中每个教师模型产生的损失占比。
8.一种基于对抗样本的多教师知识蒸馏装置,其特征在于,所述装置包括:
待修改原始样本获取模型,用于对每批次的样本基于教师概率输出与学生概率输出差异最大化的原则,选择一部分样本作为待修改原始样本;
可修改原始样本获取模型,用于将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类,目标分类对应的待修改原始样本作为可修改原始样本;
边界样本对生成模块,基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;
学生模型训练训练模块,用于利用生成的边界样本对,使用基于边界距离的多教师权重分配训练学生模型。
9.一种基于对抗样本的多教师知识蒸馏装置,其特征在于,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-7中任一项所述的方法。
CN202111568528.5A 2021-12-21 2021-12-21 基于对抗样本的多教师知识蒸馏方法及装置 Pending CN114219043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111568528.5A CN114219043A (zh) 2021-12-21 2021-12-21 基于对抗样本的多教师知识蒸馏方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111568528.5A CN114219043A (zh) 2021-12-21 2021-12-21 基于对抗样本的多教师知识蒸馏方法及装置

Publications (1)

Publication Number Publication Date
CN114219043A true CN114219043A (zh) 2022-03-22

Family

ID=80704601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111568528.5A Pending CN114219043A (zh) 2021-12-21 2021-12-21 基于对抗样本的多教师知识蒸馏方法及装置

Country Status (1)

Country Link
CN (1) CN114219043A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131599A (zh) * 2022-04-19 2022-09-30 浙江大学 一种基于对抗偏差与鲁棒性知识蒸馏的图像分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115131599A (zh) * 2022-04-19 2022-09-30 浙江大学 一种基于对抗偏差与鲁棒性知识蒸馏的图像分类方法

Similar Documents

Publication Publication Date Title
CN108805270B (zh) 一种基于存储器的卷积神经网络系统
CN111428818B (zh) 基于神经通路激活状态的深度学习模型测试方法与装置
Li et al. A deep adversarial learning methodology for designing microstructural material systems
CN112288086B (zh) 一种神经网络的训练方法、装置以及计算机设备
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
WO2022116441A1 (zh) 基于卷积神经网络的bert模型的微调方法及装置
CN111191791A (zh) 机器学习模型的应用方法、训练方法、装置、设备及介质
CN107909101A (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN110276377A (zh) 一种基于贝叶斯优化的对抗样本生成方法
CN113313119B (zh) 图像识别方法、装置、设备、介质及产品
CN112085738A (zh) 一种基于生成对抗网络的图像分割方法
WO2022068934A1 (en) Method of neural architecture search using continuous action reinforcement learning
CN112434628A (zh) 基于主动学习和协同表示的小样本极化sar图像分类方法
CN114663848A (zh) 一种基于知识蒸馏的目标检测方法和装置
CN107273922A (zh) 一种面向多源实例迁移学习的样本筛选和权重计算方法
CN115358305A (zh) 一种基于边界样本迭代生成的增量学习鲁棒性提升方法
CN114219043A (zh) 基于对抗样本的多教师知识蒸馏方法及装置
CN115797735A (zh) 目标检测方法、装置、设备和存储介质
US11914672B2 (en) Method of neural architecture search using continuous action reinforcement learning
CN113935496A (zh) 一种面向集成模型的鲁棒性提升防御方法
CN114219017A (zh) 一种隐式语义数据增强方法
CN113936140A (zh) 一种基于增量式学习的对抗样本攻击模型的评估方法
CN113705724B (zh) 基于自适应l-bfgs算法的深度神经网络的批量学习方法
CN109858543A (zh) 基于低秩稀疏表征和关系推断的图像可记忆度预测方法
CN115019102A (zh) 一种对抗样本生成模型的构建方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination