CN108520268B

CN108520268B - 基于样本选择和模型进化的黑盒对抗性攻击防御方法

Info

Publication number: CN108520268B
Application number: CN201810192584.5A
Authority: CN
Inventors: 陈晋音; 苏蒙蒙; 郑海斌; 熊晖; 林翔; 俞山青; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2021-05-18
Anticipated expiration: 2038-03-09
Also published as: CN108520268A

Abstract

一种基于样本选择和模型进化的黑盒对抗性攻击防御方法，包括以下步骤：1)用样本选择器从多类样本中随机选择部分样本输入到各种攻击模型中，生成大量对抗样本。2)计算对抗样本的攻击效果，分析不同输入样本和攻击模型的攻击效果。3)根据攻击效果，更新攻击模型和样本选择器中不同样本选择的个数，使得新生成地对抗样本具有更好的攻击效果；同时更新对抗样本池，保存攻击效果最好的几个对抗样本，在迭代结束之后，输出池中攻击效果最好的对抗样本作为本次进化的最终结果。4)将大量的训练的输出结果和正常的样本进行训练，即可对该类攻击进行防御。本发明能提升黑盒模型的防御能力。

Description

基于样本选择和模型进化的黑盒对抗性攻击防御方法

技术领域

本发明属于人工智能安全技术领域，具体涉及基于样本选择和模型进化的黑盒对抗性攻击防御方法。

背景技术

深度学习是当前机器学习和人工智能兴起的核心内容。由于其有强大的学习、特征提取及建模能力，被广泛的应用到语音识别、自然语言理解、计算机视觉等具有挑战性的领域。并且在视觉领域，深度学习已经成为了自动驾驶汽车、人脸识别、监控及安全等各种应用的主力军。

然而，最新研究表明深度学习虽然可以很好的提取正常图像特征并进行预测或分类，但是可以通过对图像添加细微的扰动，对其进行攻击，使模型输出结果错误。这些扰动及其细微，可以在人眼无法察觉的情况下欺骗模型，甚至使得模型对错误的预测表现出较高的执行度。

随着深度学习被应用到了各种重要的领域，深度学习的安全问题越愈加重要。鉴于目前深度学习的防御机制是通过对已知对抗样本和正常图片之间的区别进行训练，故用于训练的对抗样本对模型的欺骗程度决定了防御机制的防御效果。所以，如何产生高度攻击效果的攻击样本便成了深度学习防御机制的重点。又由于对于相同的样本，不同的攻击模型产生的对抗样本的有不同的攻击攻击效果。而对于相同的攻击模型，不同的输入样本对应的对抗样本也会有不同的攻击效果。

所以攻击模型的输入样本和攻击模型选择决定了对抗样本的生成。综上所述，攻击模型输入样本的选择和攻击模型的进化决定了对抗样本的攻击效果，间接决定了防御机制的防御效果，具有极其重要的理论与实践意义。

发明内容

为了增加深度学习模型的抗干扰能力，使得黑盒对对抗性攻击有更好的防御能力，本发明先提出了一种可以优化输入样本选择，更新攻击模型，并通过多次迭代得到攻击效果更好的对抗样本的方法，然后通过对该类对抗样本进行训练，提高黑盒的防御能力。

本发明解决其技术问题所采用的技术方案是：

一种基于样本选择和模型进化的黑盒对抗性攻击防御方法，所述方法包括以下步骤：

1)生成对抗样本，过程如下：

1.1)初始化参数i＝1；若是第一次进行训练，则令对抗样本池中样本个数m0＝0，样本选择器Ss中各类样本选择个数 Num₀＝Num₁＝···＝Num_n＝a，a为常量；

1.2)用样本选择器Ss从样本S中随机选择对应个数Num的样本；若j类样本的个数m_j大于该类要选择的个数Num_j，则只选择m_j个样本；

1.3)将得到的样本输入到第i个攻击模型A_i中，得到对应的对抗样本A_iS；

1.4)i＝i+1，若i＞k则进入步骤2)，否则回到步骤1.2)，其中k是攻击模型的个数；

2)攻击黑箱模型并分析攻击结果，过程如下：

2.1)将对抗样本A_iS_jt输入到黑箱模型，得到分类结果y'以及概率 p(A_iS_jt)；A_iS_jt表示攻击模型A_i攻击第j类样本中随机选择的第t个样本得到的对抗样本；

2.2)计算对抗样本A_iS_jt的攻击效果p'(A_iS_jt)；p(A_iS_jt)越高，与原图越相似，则p'(A_iS_jt)越大；

其中，y为正确的分类结果，y'为实际的分类结果，ρ为原图与对抗样本中间的扰动；若对抗样本池中的对抗样本经过攻击模型再次得到新的对抗样本，ρ是此次攻击模型的扰动加上之前累计的扰动的和；α用于调节误判概率和扰动之间的比重；

2.3)计算各类对抗样本A_iS_j的攻击成功率P(A_iS_j)：

2.4)计算每个攻击模型生成的对抗样本的攻击成功率PA(A_i)，即该模型生产的对抗样本的平均攻击效果：

其中，n为正常样本类别总数；

2.5)计算每类样本对应的对抗样本的攻击成功率PS(S_j)，即该类样本对应的对抗样本的平均攻击效果；

2.6)对抗样本的攻击效果p'(A_iS_jt)≠0的样本进行排序，取前b个对抗样本作为优质样本SA，其中b为常数；

3)更新对抗样本生成模型，过程如下：

3.1)将每类样本的攻击成功率PS(S_j)进行排序得到PS'(S_j)，根据公式(5)更新样本选择器Ss中每类样本选择个数；其中c＞1，d＜1均为常数，用于调节Num_j变化范围及比例；当Num_j大于该类的总数m_j时 Num_j＝m_j；

3.2)更新对抗样本池，过程如下：

3.2.1)初始化变量l，令l＝1；SA_l表示攻击效果p'(A_iS_jt)第l大的优质对抗样本；

3.2.2)若对抗样本池中对抗样本个数m₀小于对抗样本池容量M₀，跳转到步骤3.2.4)；

3.2.3)比较p'(SA_l)与p'(S0_m0)的大小，S0_m0为对抗样本池中攻击效果最差的对抗样本；若p'(SA_l)＞p'(S0_m0)，则进入步骤3.2.4)，否则跳到步骤3.2.5)；

3.2.4)将SA_l加入到对抗样本池中，m₀＝m₀+1，l＝l+1；若l≤b跳到步骤3.2.2)；

3.2.5)分别计算池中对抗样本被攻击前最原始的类别为第j类的个数，若个数大于常量e，则将其按照攻击效果进行排序，删除e之后的对抗样本；

3.2.6)对对抗样本池中所有样本进行排序，若此时m₀＞M₀,删除M₀之后的对抗样本；

3.3)采用遗传算法改进攻击模型，过程如下：

3.3.1)将每个攻击模型的攻击成功率PA(A_i)进行排序，取前f％的攻击模型作为新的攻击模型A'_i,i∈1,2,...,k'，k'为新攻击模型的个数；

3.3.2)采用轮盘选择法选择攻击模型；计算攻击模型A'_i被选择的概率；

3.3.3)根据概率随机选择两个攻击模型，克隆并交叉；

3.3.4)根据设定比例随机对某一个变量进行突变；

3.3.5)若攻击模型k'的数量小于k，则跳到步骤3.3.2)；

3.3.6)用攻击模型A'更新原有的攻击模型A；

3.4)若迭代次数小于g，g为常量，则跳转到步骤1.1)；否则停止循环，输入对抗样本池中攻击效果p'最高的对抗样本作为本次训练的数据结果；

4)将大量的训练的输出结果和正常的样本进行训练，即可对该类攻击进行防御。

进一步，所述步骤1)中，用样本选择器从多类样本中随机选择样本，输入到多个不同的攻击模型中并生成对抗样本，使得每类样本和攻击模型都会相互结合。通过训练样本、攻击模型的多样性保证生成的对抗样本的多样性，为后续的更新提供基础。

更进一步，所述步骤2.5)中，提供同类别的正常样本的攻击效果评价标准，步骤3.1)根据攻击效果更新选择器中每类样本选择个数，增加攻击效果好的类别输入到攻击模型中的样本个数，减少攻击效果差的样本的个数，使得生成的对抗样本具有更好的攻击效果。

所述步骤2.4)中，提供不同攻击模型的攻击效果评价标准，步骤 3.3)采用遗传算法对模型进行更新，在优化攻击模型的基础上保证攻击模型的多样性。

所述步骤2.6)中，选取生成对抗样本中攻击效果较好的样本作为优质样本，3.2)将优质样本输入到对抗样本池中，用于更新对抗样本池，其中3.2.3)和3.2.6)优化对抗样本池中样本的攻击效果，3.2.5) 保证对抗样本池的多样性。

本发明的技术构思为：为使得攻击模型的交叉变异成为可能，这里首先用统一模型对攻击模型进行预处理，使得不同攻击有相同的模型，并通过修改参数来实现不同类型的攻击。

统一模型将所有基于梯度的对抗样本生成方式定义为 argmin λ₁||ρ||_p+λ₂Loss(x^adv,f_pre(x^adv))，s.t.ρ＝x^nor-x^adv。其中，ρ表示对抗样本x^adv与正常样本x^nor间存在的扰动；f_pre(·)表示深度学习模型的预测输出；||·||_p表示扰动的p范数；Loss(·,·)表示损失函数；λ₁和λ₂是尺度参数，用于平衡扰动范数与损失函数的数量级，取值范围为[10^-1,10]，并根据优化目标进行正负变换。

基于样本选择和模型进化的黑盒对抗性攻击防御方法，通过选择样本和进化攻击模型，得到攻击效果最好的对抗样本，并对该类样本进行训练从而提升黑盒的防御能力。首先随机选择样本并用攻击模型生成各类对抗样本。然后，对对抗样本的攻击效果进行分析，根据分析结果更新攻击模型、对抗样本池和样本选择器参数，在多次迭代之后输出最佳的对抗样本。最后，将此类对抗样本用于训练，增加黑盒的对抗性攻击防御能力。

本发明的有益效果主要表现在：采用多类样本和多个模型生成对抗样本，增加了对抗样本的多样性；对输入样本进行选择，并根据每类样本的攻击效果更新样本被选择的个数，使得攻击效果好的样本被输入到攻击模型的个数高，增加了对抗样本整体的攻击效果；采用多类攻击模型，并根据攻击模型的攻击效果对其进行选择、克隆、交叉、变异，在提升攻击模型攻击效果的同时保证了模型的多样性；存在对抗样本池，并用优质对抗样本更新对抗样本池，为攻击模型的输入样本提供了更多的可能性，优化并保留高效攻击样本。

附图说明

图1是基于样本选择和模型进化的黑盒对抗性攻击防御方法框图。

图2是攻击模型更新框图。

图3是算法用于人脸实验的说明。图3(a)的第一行为同一类型的不同样本，第二行为不同类型的样本，图3(b)的第一行为同一类型的不同样本，第二行为不同攻击模型产生的噪声，第三行为对应的对抗样本，图3(c)为不同类型样本用不同攻击模型产生的对抗样本，图3(d)为攻击效果最好的原图、攻击模型产生的噪声和对抗样本。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于样本选择和模型进化的黑盒对抗性攻击防御方法，包括以下步骤：

1)生成对抗样本，过程如下：

2)攻击黑箱模型并分析攻击结果，过程如下：

2.3)计算各类对抗样本A_iS_j的攻击成功率P(A_iS_j)：

其中，n为正常样本类别总数；

3)更新对抗样本生成模型，过程如下：

3.1)将每类样本的攻击成功率PS(S_j)进行排序得到PS'(S_j)，例如： PS'(S₁)＝5表示第一类样本S₁的攻击成功率排第5；根据公式(5)更新样本选择器Ss中每类样本选择个数；其中c＞1，d＜1均为常数，用于调节Num_j变化范围及比例；当Num_j大于该类的总数m_j时Num_j＝m_j；

3.2)更新对抗样本池，过程如下：

3.3)采用遗传算法改进攻击模型，过程如下：

3.3.1)将每个攻击模型的攻击成功率PA(A_i)进行排序，取前f％的攻击模型作为新的攻击模型A'_i,i∈1,2,...,k'，k'为新攻击模型的个数，如图2中白色模型所示，黑色为未选择部分；

3.3.3)根据概率随机选择两个攻击模型，如图2中灰色所示；然后对模型进行克隆和交叉操作，鉴于每个模型参数由4个变量组成，交换后两个参数作为交叉的效果；

3.3.4)根据设定比例随机对某一个变量进行突变，例如图2只对其中一个模型进行了变异；

3.3.5)将模型添加到新攻击模型库里，若攻击模型k'的数量小于k，则跳到步骤3.3.2)；

3.3.6)用攻击模型A'更新原有的攻击模型A；

Claims

1.一种基于样本选择和模型进化的黑盒对抗性攻击防御方法，其特征在于，所述方法包括以下步骤：

1)生成对抗样本，过程如下：

1.1)初始化参数i＝1；若是第一次进行训练，则令对抗样本池中样本个数m0＝0，样本选择器Ss中各类样本选择个数Num₀＝Num₁＝···＝Num_n＝a，a为常量；

2)攻击黑箱模型并分析攻击结果，过程如下：

2.1)将对抗样本A_iS_jt输入到黑箱模型，得到分类结果y'以及概率p(A_iS_jt)；A_iS_jt表示攻击模型A_i攻击第j类样本中随机选择的第t个样本得到的对抗样本；

2.3)计算各类对抗样本A_iS_j的攻击成功率P(A_iS_j)：

其中，n为正常样本类别总数；

3)更新对抗样本生成模型，过程如下：

3.1)将每类样本的攻击成功率PS(S_j)进行排序得到PS'(S_j)，根据公式(5)更新样本选择器Ss中每类样本选择个数；其中c＞1，d＜1均为常数，用于调节Num_j变化范围及比例；当Num_j大于该类的总数m_j时Num_j＝m_j；

3.2)更新对抗样本池，过程如下：

3.2.6)对对抗样本池中所有样本进行排序，若此时m₀＞M₀，删除M₀之后的对抗样本；

3.3)采用遗传算法改进攻击模型，过程如下：

3.3.3)根据概率随机选择两个攻击模型，克隆并交叉；

3.3.4)根据设定比例随机对某一个变量进行突变；

3.3.5)若攻击模型k'的数量小于k，则跳到步骤3.3.2)；

3.3.6)用攻击模型A'更新原有的攻击模型A；

2.如权利要求1所述的基于样本选择和模型进化的黑盒对抗性攻击防御方法，其特征在于：所述步骤1)中，用样本选择器从多类样本中随机选择样本，输入到多个不同的攻击模型中并生成对抗样本，使得每类样本和攻击模型都会相互结合；通过训练样本、攻击模型的多样性保证生成的对抗样本的多样性，为后续的更新提供基础。

3.如权利要求1所述的基于样本选择和模型进化的黑盒对抗性攻击防御方法，其特征在于：所述步骤2.5)中，提供不同类别的正常样本的攻击效果评价标准，步骤3.1)根据攻击效果更新选择器中每类样本选择个数，增加攻击效果好的类别输入到攻击模型中的样本个数，减少攻击效果差的样本的个数，使得生成的对抗样本具有更好的攻击效果。

4.如权利要求1或2所述的基于样本选择和模型进化的黑盒对抗性攻击防御方法，其特征在于：所述步骤2.4)中，提供不同攻击模型的攻击效果评价标准，步骤3.3)采用遗传算法对模型进行更新，在优化攻击模型的基础上保证攻击模型的多样性。

5.如权利要求1或2所述的基于样本选择和模型进化的黑盒对抗性攻击防御方法，其特征在于：所述步骤2.6)中，选取生成对抗样本中攻击效果好的样本作为优质样本，3.2)将优质样本输入到对抗样本池中，用于更新对抗样本池；其中3.2.3)和3.2.6)优化对抗样本池中样本的攻击效果，3.2.5)保证对抗样本池的多样性。