CN116402121A - 一种集成对抗训练方法及装置 - Google Patents
一种集成对抗训练方法及装置 Download PDFInfo
- Publication number
- CN116402121A CN116402121A CN202310390510.3A CN202310390510A CN116402121A CN 116402121 A CN116402121 A CN 116402121A CN 202310390510 A CN202310390510 A CN 202310390510A CN 116402121 A CN116402121 A CN 116402121A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- countermeasure
- teacher
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013140 knowledge distillation Methods 0.000 claims description 34
- 238000004821 distillation Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 2
- 230000008030 elimination Effects 0.000 abstract description 4
- 238000003379 elimination reaction Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000007123 defense Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种集成对抗训练方法及装置,集成对抗训练方法包括:采用多种对抗样本攻击方法对第一训练集进行攻击,每种对抗样本攻击方法生成一组对抗样本;将每组对抗样本及其对应的干净样本作为一个第二训练集,采用独立的生成对抗网络对每个第二训练集进行对抗训练,并将每个生成对抗网络的生成器的输出数据作为预训练模型的输入,对预训练模型进行训练,获得第一模型;将第一模型作为训练后的模型。本申请采用多种对抗样本攻击方法获得对抗样本,并利用生成对抗网络对每组对抗样本进行背靠背的扰动消除训练,同时基于生成器的训练结果对预训练模型进行训练,大大提高了模型的防御性能和鲁棒性,并降低了对抗训练中过拟合现象出现的概率。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种集成对抗训练方法及装置。
背景技术
随着人工智能技术的不断发展,深度学习在许多不同的领域都取得了不错的效果,促进了新兴技术的产生和发展。如今深度学习算法已经运用于多个领域如无人驾驶、图片识别及分类和情感识别等。但是有研究表明,现如今人工智能模型的实际应用有着潜在的安全威胁,而影响其安全性问题的关键就在于对抗样本。对抗样本的产生使得深度学习模型的分类正确率大幅度下降。因此研究对抗样本的生成和防御方法尤其重要,而且由于大多数的深度学习算法是黑盒模型,其构造的模型网络所具备的可解释性较差,深入加强对抗样本防御的研究对于深度学习的发展有着重要的作用。
对抗样本是通过某种算法产生细微扰动并将其与原始样本相结合而产生的一种恶意样本。对抗样本可以导致原本已经训练好的模型以极高的可信度输出一个错误的分类,而这也给深度学习在实际场景中的运用带来了潜在的对抗性威胁。例如,攻击者可以恶意篡改输入数据,从而欺骗人脸识别安全模型,侵入其内部系统窃取机密;通过恶意篡改交通标志指示牌,使得自动驾驶汽车无法正常识别标志,导致交通事故等。所以在深度学习领域不断发展的同时,要注重对于对抗样本的研究及防御。对抗样本的生成方法可以分为黑盒算法和白盒算法。其中攻击者在不了解目标模型训练过程的情况下仅通过访问目标模型所输出预测结果进行攻击的方式为黑盒攻击,如AdvGAN++。若攻击者可以完全访问模型架构和参数,则这种攻击称为白盒攻击,如C&W、FGSM等。
防御对抗样本的一种普遍的方法是将通过上述方法生成的对抗性样本加入原有数据集进行扩充,对目标网络进行训练,从而达到防御对抗样本的作用。将使用攻击模型生成的对抗样本添加到数据集中,从而达到提高训练模型的鲁棒性。通过大量的研究表明,虽然对抗训练是防御对抗样本的有效手段,但是单一的对抗训练可能会导致模型的过拟合现象,并且对不同生成方式的对抗样本防御性能不足,当攻击者转换攻击策略时,将会导致对抗训练达不到预期所需要的效果甚至失效。
另外,对抗训练所需的样本数量较大、训练时间较长,需要大量的空间资源和运算资源。
发明内容
本申请提供一种集成对抗训练方法及装置,采用多种对抗样本攻击方法获得对抗样本,并利用生成对抗网络对每组对抗样本进行背靠背的扰动消除训练,同时基于生成器的训练结果对预训练模型进行训练,大大提高了模型的防御性能和鲁棒性,并降低了对抗训练中过拟合现象出现的概率。
本申请提供了一种集成对抗训练方法,包括:
采用多种对抗样本攻击方法对第一训练集进行攻击,每种对抗样本攻击方法生成一组对抗样本;
将每组对抗样本及其对应的干净样本作为一个第二训练集,采用独立的生成对抗网络对每个第二训练集进行对抗训练,并将每个生成对抗网络的生成器的输出数据作为预训练模型的输入,对预训练模型进行训练,获得第一模型;
将第一模型作为训练后的模型。
优选地,集成对抗训练方法还包括:利用所有生成对抗网络的生成器对第一模型进行知识蒸馏,获得第二模型;并且
将第二模型作为训练后的模型。
优选地,利用所有生成对抗网络的生成器对第一模型进行知识蒸馏,获得第二模型,具体包括:
将每个生成对抗网络的生成器与第一模型组合形成一个教师模型,所有教师模型组成一个教师模型集团,将第一模型作为学生模型;
利用教师模型集团对学生模型进行训练,获得第二模型。
优选地,利用教师模型集团对学生模型进行训练,获得第二模型,包括循环执行如下步骤,直至学生模型对对抗样本和自然样本的输出结果的正确率符合要求:
利用教师模型集团对学生模型进行训练,获得训练完成后的第三模型;
利用第三模型替换第一模型,更新教师模型集团和第一模型。
优选地,利用教师模型集团对学生模型进行训练的过程中,利用教师模型集团输出的似然估计概率值迭代学生模型输出的似然估计概率值。
本申请还提供一种集成对抗训练装置,包括对抗样本生成模块、集成对抗训练模块以及模型获得模块;
对抗样本生成模块用于采用多种对抗样本攻击方法对第一训练集进行攻击,每种对抗样本攻击方法生成一组对抗样本;
集成对抗训练模块用于将每组对抗样本及其对应的干净样本作为一个第二训练集,采用独立的生成对抗网络对每个第二训练集进行对抗训练,并将每个生成对抗网络的生成器的输出数据作为预训练模型的输入,对预训练模型进行训练,获得第一模型;
模型获得模块用于将第一模型作为训练后的模型。
优选地,集成对抗训练装置还包括知识蒸馏模块,知识蒸馏模块用于利用所有生成对抗网络的生成器对第一模型进行知识蒸馏,获得第二模型;
并且,模型获得模块用于将第二模型作为训练后的模型。
优选地,知识蒸馏模块包括模型构建模块和蒸馏模块;
模型构建模块用于将每个生成对抗网络的生成器与第一模型组合形成一个教师模型,所有教师模型组成一个教师模型集团,将第一模型作为学生模型;
蒸馏模块用于利用教师模型集团对学生模型进行训练,获得第二模型。
优选地,蒸馏模块包括第三模型获得模块以及更新模块;
第三模型获得模块用于利用教师模型集团对学生模型进行训练,获得训练完成后的第三模型;
更新模块用于利用第三模型替换第一模型,更新教师模型集团和第一模型。
优选地,蒸馏模块包括迭代模块,迭代模块用于利用教师模型集团输出的似然估计概率值迭代学生模型输出的似然估计概率值。
通过以下参照附图对本申请的示例性实施例的详细描述,本申请的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且连同其说明一起用于解释本申请的原理。
图1为本申请提供的集成对抗训练方法的流程图;
图2为本申请提供的集成对抗模型的原理图;
图3为本申请提供的知识蒸馏的原理图;
图4为本申请提供的集成对抗训练装置的结构图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
本申请提供一种集成对抗训练方法及装置,采用多种对抗样本攻击方法获得对抗样本,并利用生成对抗网络对每组对抗样本进行背靠背的扰动消除训练,同时基于生成器的训练结果对预训练模型进行训练,提高了模型的防御性能和鲁棒性,并降低了对抗训练中过拟合现象出现的概率。在此基础上,利用每个生成对抗网络中的生成器与模型形成的教师模型组成的教师模型集团对模型进行知识蒸馏,将各个攻击方法生成的对抗数据集中学习到的对抗性知识结合在一起,进一步提高了模型的鲁棒性,降低了过拟合概率,并且将知识蒸馏与集成对抗学习相结合,实现了模型压缩和集成加速,解决了空间资源和运算资源需求量大的问题。
实施例一
如图1所示,本申请提供的集成对抗训练方法包括:
S110:采用多种对抗样本攻击方法对第一训练集进行攻击,每种对抗样本攻击方法生成一组对抗样本。
作为一个实施例,第一训练集为MNIST数据集,其训练数据为0-9的手写数字。
作为一个实施例,将ResNet50图像分类识别预训练模型作为目标模型进行对抗训练。
通过对抗样本攻击,攻击者可以向干净样本中添加微小扰动,使干净样本转化为具有对抗性的恶意样本,其效果为能使正常训练好的模型以一种高置信度输出一个错误的分类。对抗样本攻击方法可以是白盒对抗攻击方法,也可以是黑盒对抗攻击方法。优选地,本申请中所有对抗样本攻击方法均为白盒对抗攻击方法。
作为一个实施例,采用FGSM(Fast Gradient Sign Method,快速梯度下降法)、Deepfool、JSMA(Jacobian-based Saliency Map Attacks,基于雅可比的显著图攻击)以及C&W四种白盒对抗攻击方法生成对抗样本。
针对MNIST数据集X=(x1,x2,...,xl)中的每个干净样本,通过FGSM、Deepfool、JSMA以及C&W这四种白盒对抗样本攻击方法进行攻击并生成相应的对抗样本。
在对抗样本生成过程中,将生成的对抗样本x′输入未进行对抗训练的模型中,若能以较高的置信度使模型输出一个错误的分类结果,则认为该对抗攻击方法生成的对抗样本是合格的。
S120:将每组对抗样本及其对应的干净样本作为一个第二训练集,采用独立的生成对抗网络对每个第二训练集进行对抗训练,并将每个生成对抗网络的生成器的输出数据作为预训练模型的输入,对预训练模型进行训练,获得第一模型。此时,将第一模型作为训练后的模型。
集成学习是将多个学习器结合在一起,使其能够更好解决深度学习在实际环境中出现的问题。由于集成学习对于基础学习器的类型没有限制,并且它对于大多数的深度学习框架都有着良好的适应性,因此集成学习也被称为“无算法的算法”。
近几年来,由于集成学习有着能够解决许多实际应用问题的突出能力,所以一直在机器学习领域乃至深度学习领域备受关注。初期集成学习的目的是为了提高所构建决策系统的稳定性,而如今集成学习已经能够成功解决深度学习领域各个方向的问题。在一些具有数据维度高、数据结构复杂和特征模糊等特点的领域中如时间序列分析、医疗健康、入侵检测等,难以进行人工分析和处理,但是集成学习作为一种能够最大化提升学习效果的技术,推动了各领域的快速发展。因此集成学习也被广泛应用于这类领域并取得了不错的效果。
基于此,本申请将集成学习应用于对抗训练中,集成对抗训练是将多个学习器结合在一起共同防御对抗样本。
本申请中,设置与对抗样本攻击方法的数量相同的(上述实施例中为4个)、结构相似的、相互独立的对抗生成网络(Generative Adversarial Network,GAN)作为集成对抗模型,形成一个集成对抗训练架构。其中,每个GAN具有一个生成器G和一个判别器D。如图2所示,生成器G的输入为对抗样本,其目的是将输入的对抗样本去除扰动,使其还原为原先攻击前的干净样本(即去除扰动的对抗样本),最后输入到目标模型网络,从而通过目标模型的softmax层产生对各个分类概率的正确预测。判别器D的输入是生成器G输出的去除扰动的对抗样本和与该对抗样本对应的第一训练集中的干净样本,其目的是将该对抗样本对应的干净样本与生成器输出的去除扰动的样本进行比较,尽可能地评判该生成器G的效果。
将每组对抗样本及其对应的干净样本作为一个第二训练集。每个第二训练集中的对抗样本作为对应的GAN的生成器的输入,该生成器的输出以及第二训练集中干净样本作为对应GAN的判别器的输入。
基于GAN的集成对抗训练采用了相互博弈的方式进行,生成器和判别器交替训练,生成器朝着可以更好地消除对抗样本中的扰动的方向优化,而判别器朝着能够更好地区分对抗样本和干净样本的方向优化,从而相互博弈,达到纳什平衡点。最终,生成器可以将对抗样本中的扰动消除,判别器无法区分被作消噪处理的对抗样本与干净样本之间的区别,在此过程中目标模型的输出结果也随之越来越准确。当生成器与判别器达到平衡时,该GAN完成集成对抗训练,保存目标模型(即第一模型)经过集成对抗训练的模型参数。
其中,生成器中有关梯度的更新信息来自于判别器,而不是训练集。以下为集成对抗模型的损失函数V(D,G):
其中,G为生成器函数,D为判别器函数,z为对抗攻击产生的对抗样本,x为干净样本,G(z)为通过生成器处理后去除扰动的对抗样本,Pdata(x)为干净样本经过目标模型的softmax分类器后产生的分布,Pz(z)为G(z)经过目标模型的softmax分类器后产生的分布,D(x)为对干净样本的判断概率,D(G(z))为对去除扰动的对抗样本的判断概率。
基于上述,将集成学习应用于对抗训练中,将生成器进行集成,并令生成器和判别器交替训练,使各个生成器能够学习到对各种对抗攻击算法生成的对抗样本进行正确分类的知识,克服了普遍对抗训练方式进行对抗防御可能存在过拟合现象的问题,提高了模型的防御性能和鲁棒性,并降低了对抗训练中过拟合现象出现的概率。
但是,一般而言,集成学习需要巨大的运算量、时耗并占用大量的服务器计算资源,这也导致集成对抗训练需要服务器上大量的运算资源及空间资源,导致难以在实际资源有限的环境中进行部署。
基于上述考虑,优选地,在集成对抗训练后还包括:
S130:利用所有生成对抗网络的生成器对第一模型进行知识蒸馏,获得第二模型。并且,将第二模型作为训练后的模型(S140)。
知识蒸馏是一种在繁琐的模型中提炼知识并将其压缩为单个模型的方法。一般来讲,在数据量有限的情况下,如果模型过大,就很容易出现过拟合现象,此时我们需要缩减模型参数,或者添加正则项。但在数据量足够的情况下,网络模型越复杂、参数量越大,训练出的模型性能会越好,而较小的网络却很难达到大网络那么好的效果。要让一个小网络达到和大模型相近的性能,需要让大模型在训练过程中学习到的知识迁移到小模型中,而这个迁移的过程就叫做知识蒸馏(Knowledge Distillation,KD)。目前,知识蒸馏被认为是一种极其有效的模型压缩方法,并且广泛应用于深度学习的各个领域。
知识蒸馏使用的是教师-学生(Teacher-Student)模型结构,该模型结构使用已经训练好的教师模型提供知识,而学生模型则通过蒸馏训练来获取教师模型所传授的知识。知识蒸馏可以以非常低的蒸馏损失为代价,而将一个或多个拥有复杂结构的教师模型中的知识迁移到拥有简单结构的学生模型中。其中,根据教师数量又可分为单教师学习和多教师学习。在多教师学习中,通过多个教师模型的多种知识使单一的知识得到互补,并将其传授给学生模型,使其学习到互补性的知识。本申请采用的是多教师学习。
具体地,利用所有生成对抗网络的生成器对第一模型进行知识蒸馏,获得第二模型,具体包括:
S1301:将每个生成对抗网络的生成器与第一模型组合形成一个教师模型,所有教师模型组成一个教师模型集团,将第一模型作为学生模型。
如图3所示,将集成对抗训练后的每个GAN的生成器和目标模型(优选S120中获得的第一模型)相结合作为一个教师模型,进而,所有教师模型(上述实施例中为4个教师模型)形成教师模型集团,同时相同的目标模型(优选S120中获得的第一模型)作为学生模型。为了确保正常样本识别准确率的情况下学习对抗样本的识别经验,提高对对抗样本的识别准确率,使用对抗样本和正常样本同时进行知识蒸馏,通过知识蒸馏将教师模型集团中对正常样本和对抗样本识别的知识传授给学生模型,使学生模型学习到教师模型的鲁棒性经验。由此,将所有对抗攻击方法获得的对抗样本加入第一训练集,形成第三训练集。第三训练集中,在每个训练数据上标注对应的分类标签。
S1302:利用教师模型集团对学生模型进行训练,获得第二模型。
具体地,利用教师模型集团对学生模型进行训练,获得第二模型,包括循环执行如下步骤,直至学生模型对对抗样本和自然样本的输出结果的正确率符合要求:
P1:利用教师模型集团对学生模型进行训练,获得训练完成后的第三模型。
在训练过程的每次迭代中,如图3所示,将教师模型集团的输出结果与学生模型的输出结果之间的一致性作为软目标,将第三训练集上样本的正确标签值与学生模型经过softmax层后输出的最大值的标签之间的一致性作为硬目标,根据软目标和硬目标与学生模型的输出结果相比较,优化学生模型中的参数,使得学生模型学习到教师模型中的对抗性知识,使学生模型能够模拟教师模型的输出分布,并使两者拥有相近的决策能力。由此,软目标和硬目标共同引导学生模型优化的方向,并保证了干净样本的识别效果。
其中,在带有对抗样本的训练数据分别输入到教师模型集团和学生模型后,学生模型和教师模型集团中所有教师模型分别输出似然估计概率值,并对教师模型集团的所有似然估计概率值做加权平均处理。最后,利用教师模型集团输出的似然估计概率值迭代学生模型输出的似然估计概率值。
其中,知识蒸馏的公式为:
其中,zi为第i个分类的逻辑单元值,qi是第i个分类的类概率,T为温度系数,用来控制输出概率的软化程度。当T=1时,公式(2)退化为softmax的类概率表示公式。在此基础上,知识蒸馏的损失函数为:
Lsoft=-∑Pjlogqj (3)
Ltotal=Lsoft+Lhard (4)
其中,Lsoft为软目标上的损失函数,Pj为教师模型的softmax输出,qj为学生模型的softmax输出,Ltotal为知识蒸馏的总损失函数,Lhard为在硬目标上的损失函数。
P2:利用第三模型替换第一模型,更新教师模型集团和第一模型。也就是说,对模型实施多轮完整的迭代训练,以获得更高的识别精度。
训练完成的学生模型在保证正常样本识别准确率的同时提高了对对抗样本的识别准确率,通过知识蒸馏完成了模型压缩和集成加速。
训练完成后,将对抗样本和干净样本输入至已经训练好的学生模型中,学生模型运用从教师模型中学习到的去除扰动知识,输出去除扰动的对抗样本并输出对抗样本的正确分类结果,且能够将干净样本正确分类,保证了正常样本的识别性能。由此,通过知识蒸馏,利用结构简单的学生模型替代S120中的集成对抗训练架构,并将集成对抗训练架构中各模型的对抗性知识结合在一起,使其能够将对抗样本和干净样本正确分类。
该优选实施例中,将知识蒸馏与集成学习相结合,进行了模型加速处理,使用了知识蒸馏的模型压缩方法,将多个生成器中的知识传授给学生网络,解决了在实际环境中集成模型需要大量运算资源及空间资源的问题。
实施例二
基于上述集成对抗训练方法,本申请提供了一种集成对抗训练装置。如图4所示,集成对抗训练之中包括对抗样本生成模块410、集成对抗训练模块420以及模型获得模块430。
对抗样本生成模块410用于采用多种对抗样本攻击方法对第一训练集进行攻击,每种对抗样本攻击方法生成一组对抗样本。
集成对抗训练模块420用于将每组对抗样本及其对应的干净样本作为一个第二训练集,采用独立的生成对抗网络对每个第二训练集进行对抗训练,并将每个生成对抗网络的生成器的输出数据作为预训练模型的输入,对预训练模型进行训练,获得第一模型。
模型获得模块430用于将第一模型作为训练后的模型。
优选地,集成对抗训练装置还包括知识蒸馏模块440,知识蒸馏模块用于利用所有生成对抗网络的生成器对第一模型进行知识蒸馏,获得第二模型。并且,模型获得模块430用于将第二模型作为训练后的模型。
优选地,知识蒸馏模块440包括模型构建模块4401和蒸馏模块4402。
模型构建模块4401用于将每个生成对抗网络的生成器与第一模型组合形成一个教师模型,所有教师模型组成一个教师模型集团,将第一模型作为学生模型。
蒸馏模块4402用于利用教师模型集团对学生模型进行训练,获得第二模型。
优选地,蒸馏模块4402包括第三模型获得模块以及更新模块。
第三模型获得模块用于利用教师模型集团对学生模型进行训练,获得训练完成后的第三模型。
更新模块用于利用第三模型替换第一模型,更新教师模型集团和第一模型。
优选地,蒸馏模块包括迭代模块,迭代模块用于利用教师模型集团输出的似然估计概率值迭代学生模型输出的似然估计概率值。
虽然已经通过例子对本申请的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本申请的范围。本领域的技术人员应该理解,可在不脱离本申请的范围和精神的情况下,对以上实施例进行修改。本申请的范围由所附权利要求来限定。
Claims (10)
1.一种集成对抗训练方法,其特征在于,包括:
采用多种对抗样本攻击方法对第一训练集进行攻击,每种对抗样本攻击方法生成一组对抗样本;
将每组对抗样本及其对应的干净样本作为一个第二训练集,采用独立的生成对抗网络对每个第二训练集进行对抗训练,并将每个生成对抗网络的生成器的输出数据作为预训练模型的输入,对所述预训练模型进行训练,获得第一模型;
将所述第一模型作为训练后的模型。
2.根据权利要求1所述的集成对抗训练方法,其特征在于,还包括:利用所有生成对抗网络的生成器对所述第一模型进行知识蒸馏,获得第二模型;并且
将所述第二模型作为训练后的模型。
3.根据权利要求2所述的集成对抗训练方法,其特征在于,利用所有生成对抗网络的生成器对所述第一模型进行知识蒸馏,获得第二模型,具体包括:
将每个生成对抗网络的生成器与所述第一模型组合形成一个教师模型,所有教师模型组成一个教师模型集团,将所述第一模型作为学生模型;
利用所述教师模型集团对所述学生模型进行训练,获得所述第二模型。
4.根据权利要求3所述的集成对抗训练方法,其特征在于,利用所述教师模型集团对所述学生模型进行训练,获得所述第二模型,包括循环执行如下步骤,直至所述学生模型对对抗样本和自然样本的输出结果的正确率符合要求:
利用所述教师模型集团对所述学生模型进行训练,获得训练完成后的第三模型;
利用所述第三模型替换所述第一模型,更新所述教师模型集团和所述第一模型。
5.根据权利要求3所述的集成对抗训练方法,其特征在于,利用所述教师模型集团对所述学生模型进行训练的过程中,利用所述教师模型集团输出的似然估计概率值迭代所述学生模型输出的似然估计概率值。
6.一种集成对抗训练装置,其特征在于,包括对抗样本生成模块、集成对抗训练模块以及模型获得模块;
所述对抗样本生成模块用于采用多种对抗样本攻击方法对第一训练集进行攻击,每种对抗样本攻击方法生成一组对抗样本;
所述集成对抗训练模块用于将每组对抗样本及其对应的干净样本作为一个第二训练集,采用独立的生成对抗网络对每个第二训练集进行对抗训练,并将每个生成对抗网络的生成器的输出数据作为预训练模型的输入,对所述预训练模型进行训练,获得第一模型;
所述模型获得模块用于将所述第一模型作为训练后的模型。
7.根据权利要求6所述的集成对抗训练装置,其特征在于,还包括知识蒸馏模块,所述知识蒸馏模块用于利用所有生成对抗网络的生成器对所述第一模型进行知识蒸馏,获得第二模型;
并且,所述模型获得模块用于将所述第二模型作为训练后的模型。
8.根据权利要求7所述的集成对抗训练装置,其特征在于,所述知识蒸馏模块包括模型构建模块和蒸馏模块;
所述模型构建模块用于将每个生成对抗网络的生成器与所述第一模型组合形成一个教师模型,所有教师模型组成一个教师模型集团,将所述第一模型作为学生模型;
所述蒸馏模块用于利用所述教师模型集团对所述学生模型进行训练,获得所述第二模型。
9.根据权利要求8所述的集成对抗训练装置,其特征在于,所述蒸馏模块包括第三模型获得模块以及更新模块;
所述第三模型获得模块用于利用所述教师模型集团对所述学生模型进行训练,获得训练完成后的第三模型;
所述更新模块用于利用所述第三模型替换所述第一模型,更新所述教师模型集团和所述第一模型。
10.根据权利要求8所述的集成对抗训练装置,其特征在于,所述蒸馏模块包括迭代模块,所述迭代模块用于利用所述教师模型集团输出的似然估计概率值迭代所述学生模型输出的似然估计概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310390510.3A CN116402121A (zh) | 2023-04-04 | 2023-04-04 | 一种集成对抗训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310390510.3A CN116402121A (zh) | 2023-04-04 | 2023-04-04 | 一种集成对抗训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116402121A true CN116402121A (zh) | 2023-07-07 |
Family
ID=87010086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310390510.3A Pending CN116402121A (zh) | 2023-04-04 | 2023-04-04 | 一种集成对抗训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402121A (zh) |
-
2023
- 2023-04-04 CN CN202310390510.3A patent/CN116402121A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | BBAS: Towards large scale effective ensemble adversarial attacks against deep neural network learning | |
Song et al. | Constructing unrestricted adversarial examples with generative models | |
CN111600835B (zh) | 一种基于fgsm对抗攻击算法的检测与防御方法 | |
CN112115469B (zh) | 基于Bayes-Stackelberg博弈的边缘智能移动目标防御方法 | |
CN110837850A (zh) | 一种基于对抗学习损失函数的无监督域适应方法 | |
US11934536B2 (en) | Dynamic network risk predicting method based on a graph neural network | |
Wang et al. | Consistency regularization for deep face anti-spoofing | |
Mo et al. | MCTSteg: A Monte Carlo tree search-based reinforcement learning framework for universal non-additive steganography | |
CN113076963B (zh) | 一种图像识别方法、装置和计算机可读存储介质 | |
Song et al. | Generative adversarial examples | |
CN114707572A (zh) | 一种基于损失函数敏感度的深度学习样本测试方法与装置 | |
Marchisio et al. | fakeWeather: Adversarial attacks for deep neural networks emulating weather conditions on the camera lens of autonomous systems | |
CN113936140A (zh) | 一种基于增量式学习的对抗样本攻击模型的评估方法 | |
CN111767949B (zh) | 一种基于特征和样本对抗共生的多任务学习方法及其系统 | |
CN112750128B (zh) | 图像语义分割方法、装置、终端及可读存储介质 | |
CN116467663A (zh) | 一种有向动态图数据异常检测方法及系统 | |
CN116402121A (zh) | 一种集成对抗训练方法及装置 | |
CN114998809A (zh) | 一种基于albert和多模态循环融合的虚假新闻检测方法及系统 | |
CN111666985B (zh) | 一种基于dropout的深度学习对抗样本图像分类防御方法 | |
CN114638356A (zh) | 一种静态权重引导的深度神经网络后门检测方法及系统 | |
Chuang et al. | Generalized Face Anti-Spoofing via Multi-Task Learning and One-Side Meta Triplet Loss | |
Kong et al. | Dual Teacher Knowledge Distillation with Domain Alignment for Face Anti-spoofing | |
CN118313416B (zh) | 一种对抗样本攻击与后门攻击协同对抗的攻击方法及装置 | |
CN118587723B (zh) | 通过熵最大化进行风格词多样化以实现域泛化的方法 | |
LU505793B1 (en) | Defensive method against interpretability camouflage samples in deep recognition neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |