CN108615048A

CN108615048A - 基于扰动进化对图像分类器对抗性攻击的防御方法

Info

Publication number: CN108615048A
Application number: CN201810299242.3A
Authority: CN
Inventors: 陈晋音; 苏蒙蒙; 徐轩珩; 郑海斌; 林翔; 熊晖; 沈诗婧; 施朝霞
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-10-02
Anticipated expiration: 2038-04-04
Also published as: CN108615048B

Abstract

本发明功公开了一种基于扰动进化对图像分类器对抗性攻击的防御方法，包括以下步骤：1)用不同的攻击模型对样本进行攻击，得到不同类型的扰动。2)用扰动对应的对抗样本对黑盒模型进行攻击，并对攻击效果进行排序。3)攻击效果好的扰动进行克隆、交叉、变异等操作得到新的扰动。4)用父子混合选的方式对扰动进行更新，达到扰动进化的目的。5)用进化后扰动对应的对抗样本和正常样本训练对抗样本检测器。6)在对检测样本进行检测时，先用对抗样本检测器进行检测，然后将正常样本输入黑盒模型并返回类别，达到对对抗性攻击进行防御的效果。

Description

基于扰动进化对图像分类器对抗性攻击的防御方法

技术领域

本发明属于深度学习安全技术领域，具体涉及基于扰动进化对图像分类器对抗性攻击的防御方法。

背景技术

深度学习受神经科学启发而来，可以通过对大量数据进行学习，获得比一般算法更准确的分类结果，具有强大的特征学习能力和特征表达能力。而随着深度学习被广泛地应用到VISION、语音识别、语言处理、金融欺诈检测以及恶意软件检测的各种领域，深度学习的安全问题也逐渐被人们重视。

虽然深度学习在计算机视觉领域有很高的分类效果，但是szegedy等人发现，深度模型很容易受到细微扰动的攻击。这些细小的扰动对于人类视觉系统来说是几乎无法察觉的，但却可以使得深度模型分类错误，甚至对错误的分类结果表现出很高的置信度。这便会发生无人驾驶系统无法识别标示，从而发生车祸；人脸识别系统识别人脸错误或者无法检测到人脸，从而使罪犯逃脱等情况。

对于一些实现图像分类的黑箱模型而言，人们并不知道其内部结构。所以为了在不改变黑箱模型的情况下实现防御效果，人们可以在检测图片输入到黑箱模型前，先用检测器判断图片是否为对抗样本，若不是再输入到黑箱模型中，从而达到防御攻击的效果。因此，用于训练检测器的对抗样本质量在一定程度上决定了防御效果的好坏。

目前已经存在着许多攻击模型可以对图像分类模型进行攻击，若人们只用此类攻击进行训练，则无法对未知的攻击进行防御。虽然不同的对抗性攻击方法具有不同的结构，无法直接优化或比较，但都会输出对抗样本及扰动。

综上所述，如何对扰动进行进化，得到效果更好的对抗样本，并训练得到更好的对抗样本分类器，在提升图像分类黑盒模型对对抗性攻击防御效果方面上有着极其重要的理论与实践意义。

发明内容

为了提高图像分类器对对抗性攻击的防御效果，本发明提供了一种基于扰动进化对图像分类器对抗性攻击的防御方法，该方法利用扰动进化的方式提高对抗样本检测器对对抗样本的识别效果，从而提高对对抗性攻击的防御效果。

为实现上述发明目的，本发明提供以下技术方案：

一种基于扰动进化对图像分类器对抗性攻击的防御方法，包括以下步骤：

(1)将正常图片S输入到不同的攻击模型中，经计算获得n个扰动，将该n个扰动作为当前扰动；

(2)将正常图片S分别与n个当前扰动进行叠加，得到n个当前对抗样本，并将当前对抗样本输入到图像分类器中，获得当前对抗样本的攻击效果，并根据攻击效果对n个当前扰动进行排序；

(3)在攻击效果最优的前b个扰动中随机选取2个扰动，并利用遗传算法对此2个扰动进行遗传进化计算，得到子扰动；

(4)迭代执行步骤(3)，直到获得n-a个子扰动为止，并结合该n-a个子扰动与攻击效果最优的前a个扰动，组成新扰动后，将新扰动作为当前扰动；

(5)迭代执行步骤(2)～步骤(4)，直到达到迭代终止条件为止，此时最优的当前扰动为最佳扰动，叠加最佳扰动和正常图片S获得最佳对抗样本；

(6)将最佳对抗样本和正常图片S作为神经网络的输入，将最佳对抗样本和正常图片S对应的真值标签作为神经网络的真值输出，对神经网络进行训练，获得对抗样本检测器；

(7)利用对抗样本检测器对待测图片进行检测，当该待测图片被检测为正常图片时，将该待测图片输入到图像分类器进行分类，输出分类结果。

本发明中，利用步骤(1)中提供的多种攻击模型，将正常图片转变成不同的扰动特征，为扰动进化提供基础，然后通过步骤(2)～步骤(5)将遗传算法应用于扰动进化问题，生成最优的扰动及对抗样本，为生成对抗样本检测器提供训练样本，提高对抗样本检测器的检测精度，将待测图片输入到图像分类器前对图片进行检测，在实现对现有攻击进行防御的基础上还实现对部分未知攻击进行防御的效果。

优选地，所述攻击模型包括均匀噪声攻击模型(Additive Uniform NoiseAttack)、迷惑深度学习攻击模型(Deep Fool)、FGSM攻击模型(Fast Gradient SignMethod)、高斯模糊攻击方法(Gaussian Blur Attack)、L-BFGS拟牛顿法攻击模型(Limitedmemory BFGS)、显著图攻击模型(Saliency Map Attack)、椒盐噪声攻击模型(Salt AndPepper Noise Attack)。

优选地，步骤(1)中，所述将正常图片S输入到不同的攻击模型中，经计算获得n个扰动包括：

将正常图片S输入到不同的攻击模型，输出n个对抗样本后，计算正常图片S分别与n个对抗样本的差值，获得n个扰动。

优选地，步骤(2)中，利用公式(1)～(3)获得当前对抗样本的攻击效果：

其中，φ(S'_j)为第j个对抗样本S'_j的攻击效果，对抗样本S'_j被分为C_i,i∈1,2,3,...,n类的概率为p_i(S'_j)，被分为c₀类的概率为p₀(S'_j)，c₀为正常图片S的分类结果；

表示对抗样本S'_j攻击成功率，η为常数，ρ(S_j′)表示噪声大小，m'*n'表示正常图片的像素大小。图片可为多通道，为便于说明，本发明只对其中一个通道进行说明，其他通道均相同，协调攻击成功率和噪声大小是对算法的影响比例。

优选地，步骤(3)的具体步骤为：

(3-1)在攻击效果最优的前b个扰动中随机选取2个扰动，并对此2个扰动进行克隆，获得克隆扰动Ac₁和Ac₂及对应对抗样本的攻击效果和

(3-2)对克隆的扰动Ac₁和Ac₂进行分裂，得到分裂扰动Ac₁′和Ac₂′，计算公式为：

其中表示点乘运算，B1和B2为数组；

(3-3)利用公式(6)对分裂扰动Ac₁′和Ac₂′进行交叉融合，获得扰动Ac”；

Ac”＝Ac₁'+Ac₂' (6)

(3-4)利用公式(7)对扰动Ac”进行变异，获得子扰动Ac”'；

其中，随机生成数组t2_ij∈[0,1]，i＝1,2,3,...,m'，j＝1,2,3,...,n'；β表示变异概率，q∈[-255,255]。

优选地，所述对此2个扰动进行克隆，获得克隆扰动Ac₁和Ac₂及对应对抗样本的攻击效果和包括：

随机生成数组t_i'j'∈[0,1]，i'＝1,2,3,...,m'，j'＝1,2,3,...,n'；然后构建数组B1_m'n'和B2_m'n'，计算公式如下：

优选地，所述对此2个扰动进行克隆，获得克隆扰动Ac₁和Ac₂包括：

构建数组B1_m'n'和B2_m'n'，并令其中元素全部为1，然后令B1_m'n'＝B1_m'n'*α*γ，B2_m'n'＝B2_m'n'*(1-α)*γ，其中γ∈[0,2]，用于放大或缩小扰动整体的影响。

本发明中，采用两种不同的分裂方法，增加扰动的多样性，并且每种方法本身生成的扰动也有一定的随机性，再次增加扰动的多样性，为扰动进化提供更广泛的选择范围。

在步骤(7)中，当待测图片被检测为对抗样本时，则发出警报，实现对抗性攻击防御。

本发明的技术构思为：基于扰动进化的黑盒对抗性攻击防御方法。首先，采用改进的遗传算法对扰动进行进化，得到最佳的扰动及对抗样本。然后，用该类对抗样本和正常图片训练对抗样本检测器。最后用对抗样本检测器判别用于检测的图片是否为正常图片，达到图片分类器对对抗样本进行防御效果。

本发明的有益效果主要表现在：将遗传算法应用于扰动进化问题，得到更优于普通攻击模型得到对抗样本，使得对抗样本检测器可以更有效的检测出对抗样本。算法采用了多种不同形式的分裂方式，并且每种分裂方式本身带有一定的随机性，增加了子扰动的多样性；提升了扰动进化的效果，增加了新扰动的质量，为得到最优扰动提供基础。并在检测图片输入到黑盒的图像分类器模型前，用进化扰动训练的对抗样本检测器进行检测，从而达到在不知道且不改动黑盒模型内部结构的基础上，实现对已知攻击和部分未知攻击进行防御。

附图说明

图1是本发明提供的获得最佳对抗样本的流程示意图；

图2是利用本发明提供的图像分类器模型对对抗性攻击进行防御的过程示意图；

图3(a)是ImageNet数据集中各种类别的图片；图3(b)是对图3(a)用deepfool攻击后得到的扰动，图3(c)是对图3(b)中扰动的放大图；图3(d)是攻击后得到的对抗样本；

图4是为本实施例提供的扰动进化过程，其中，图4(a)为正常图片，图4(b)和图4(c)为用deepfool和saliency map对正常图片进行攻击后得到的扰动及对抗样本，图4(d)是用方式一得到的两个子扰动，图4(e)是将图4(d)这两个子扰动交叉后的到的新扰动，图4(f)是用方式二得到的两个子扰动，图4(g)是将图4(f)这两个子扰动交叉后拿得到的新扰动。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本实施例利用ImageNet数据集中各种类别的图片进行试验。如图1～3所示，本实施例提供的基于扰动进化对图像分类器对抗性攻击的防御方法分为三个阶段，分别为最佳对抗样本生成阶段、对抗样本检测器获得阶段以及检测图像分类阶段。每个阶段的具体过程如下：

最佳对抗样本生成阶段

S101，将正常图片S输入到不同的攻击模型AM中，经计算获得扰动，将该扰动作为当前扰动。

S101中具体获得扰动的过程为：将正常图片S输入到不同的攻击模型AM，输出n个对抗样本S'后，计算正常图片S分别与n个对抗样本的差值，获得n个扰动。

扰动是一个矩阵，该矩阵的维度与正常图像大小相同。本实施例中，扰动模型AM为deep fool模型和saliency map模型。

S102，将扰动A叠加到正常图片S上，得到对应的对抗样本S'；

此处的叠加是指将扰动的像素点和正常图片的像素点相加。

S103，将对抗样本S'输入到图像分类器中，计算对抗样本的攻击效果；已知正常图片S的分类结果为c₀，第j个对抗样本S'_j被分为C_i,i∈1,2,3,...,n类的概率为pi(S'_j)，被分为c₀类的概率为p₀(S'_j)；则对抗样本S'_j的攻击效果φ(S'_j)计算公式如下：

表示对抗样本S'_j攻击成功率，η为常数，ρ(S_j′)表示噪声大小，m'*n'表示正常图片的像素大小，协调攻击成功率和噪声大小对是算法的影响比例。

S104，根据对抗样本S'的攻击效果对对应的扰动A进行排序，得到A'；A'₁为对应对抗样本攻击效果最好的扰动。

S105，将攻击效果最好的前a个扰动添加到新扰动中；

S106，从攻击效果最好的前b个扰动中随机选取2个扰动进行克隆，得到克隆扰动Ac₁和Ac₂及对应对抗样本的攻击效果和并从两种交叉方式中随机选取一种方式进行交叉变异；

方式一：随机生成数组t_i'j'∈[0,1]，i'＝1,2,3,...,m'，j'＝1,2,3,...,n'；然后构建数组B1_m'n'和B2_m'n'，计算公式如下：

方式二：构建数组B1_m'n'和B2_m'n'，并令其中元素全部为1，然后令B1_m'n'＝B1_m'n'*α*γ，B2_m'n'＝B2_m'n'*(1-α)*γ，其中γ∈[0,2]用于放大或缩小扰动整体的影响。

采用两种不同的分裂方法，增加子扰动的多样性，并且每种方法本身生成的子扰动也有一定的随机性，再次增加子扰动的多样性，为扰动进化提供更广泛的选择范围。

S107，对克隆扰动Ac₁和Ac₂进行分裂，得到两个分裂扰动Ac₁'和Ac₂'，计算公式如下：

其中表示点乘运算；

S108，将分裂扰动Ac₁′和Ac₂′进行融合，完成交叉运算，初步得到新的扰动Ac”：

Ac”＝Ac₁'+Ac₂' (9)

S109，对新扰动Ac”进行变异，获得子扰动Ac”'；随机生成数组t2_ij∈[0,1]，i＝1,2,3,...,m'，j＝1,2,3,...,n'；

其中β表示变异概率，q∈[-255,255]；

S110，将子扰动Ac”'加入到新扰动中，若新扰动个数少于n，则跳转到S106，直到新扰动个数达到n个为止。

图4显示了对正常图片4(a)的进化过程。首先选取一个正常图片4(a)。然后用不同的攻击方法对同一个正常图片进行攻击，得到不同的扰动及对抗样本，图4(b)和图4(c)显示了用deepfool和saliency map对正常图片进行攻击后得到的扰动及对抗样本。为便于观察，图4中所有的扰动均为放大优化后的扰动。然后随机选择一种方式进行交叉，图4(d)是用方式一的得到的两个子扰动，图4(e)是将图4(d)这两个子扰动交叉后的到的新扰动，图4(f)是用方式二得到的两个子扰动，图4(g)是将图4(f)这两个子扰动交叉后拿得到的新扰动。

S111，循环次数是否达到k次，此时的A'₁即为最佳扰动，将扰动叠加到正常图片S上得到的对抗样本就是最佳的对抗样本S'；若没有达到k次，则将新扰动代替原来的扰动A，跳转到S102。

利用本阶段步骤能够生成最优的扰动及对抗样本，为生成对抗样本检测器提供训练样本，以提高对抗样本检测器的检测精度。

对抗样本检测器获得阶段

S201，将最佳对抗样本和正常图片S作为神经网络的输入，将最佳对抗样本和正常图片S对应的真值标签作为神经网络的真值输出，对神经网络进行训练，获得对抗样本检测器D。

检测图像分类阶段

S301，先将用于检测的图片T_s输入到对抗样本检测器D进行检测；若被识别为对抗样本，则发出警报，实现对抗性攻击防御；若被判为正常图片，则输入到图像分类器中进行分类，返回分类结果。

本实施例中所应用的图像分类器为softmax分类器。

本实施例中，通过实验结果证明，用扰动进化后的对抗样本训练对抗样本检测器，该类检测器可以对普通对抗样本进行防御，如图3(d)所示；也可以对进化后的对抗样本进行防御，如图4(e)和图4(g)所示。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于扰动进化对图像分类器对抗性攻击的防御方法，包括以下步骤：

2.如权利要求1所述的基于扰动进化对图像分类器对抗性攻击的防御方法，其特征在于，所述攻击模型包括均匀噪声攻击模型、迷惑深度学习攻击模型、FGSM攻击模型、高斯模糊攻击方法、L-BFGS拟牛顿法攻击模型、显著图攻击模型、椒盐噪声攻击模型。

3.如权利要求1所述的基于扰动进化对图像分类器对抗性攻击的防御方法，其特征在于，步骤(1)中，所述将正常图片S输入到不同的攻击模型中，经计算获得n个扰动包括：

4.如权利要求1所述的基于扰动进化对图像分类器对抗性攻击的防御方法，其特征在于，步骤(2)中，利用公式(1)～(3)获得当前对抗样本的攻击效果：

表示对抗样本S'_j攻击成功率，η为常数，ρ(S_j′)表示噪声大小，m'*n'表示正常图片的像素大小。

5.如权利要求4所述的基于扰动进化对图像分类器对抗性攻击的防御方法，其特征在于，步骤(3)的具体步骤为：

其中表示点乘运算，B1和B2为数组；

Ac”＝Ac₁'+Ac₂' (6)

(3-4)利用公式(7)对扰动Ac”进行变异，获得子扰动Ac”'；

6.如权利要求5所述的基于扰动进化对图像分类器对抗性攻击的防御方法，其特征在于，所述对此2个扰动进行克隆，获得克隆扰动Ac₁和Ac₂及对应对抗样本的攻击效果和包括：

7.如权利要求5所述的基于扰动进化对图像分类器对抗性攻击的防御方法，其特征在于，所述对此2个扰动进行克隆，获得克隆扰动Ac₁和Ac₂包括：

8.如权利要求5所述的基于扰动进化对图像分类器对抗性攻击的防御方法，其特征在于，在步骤(7)中，当待测图片被检测为对抗样本时，则发出警报。