CN112183671A

CN112183671A - 一种针对深度学习模型的目标攻击对抗样本生成方法

Info

Publication number: CN112183671A
Application number: CN202011222789.7A
Authority: CN
Inventors: 陈兴蜀; 王丽娜; 王伟; 岳亚伟; 唐瑞; 朱毅; 曾雪梅
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-01-05

Abstract

本发明公开了一种针对深度学习模型的目标攻击对抗样本生成方法，属于深度学习安全领域。为了通过对抗攻击方法探测深度学习模型盲点，聚焦模型特定区域，本发明设计了一种针对深度学习模型的目标攻击对抗样本生成方法，可以在少量样本的数据集上提取出适用于多数样本的包含模型遗漏的语义信息的通用模式，快速地生成能够稳定实现高成功率对抗攻击的对抗样本。本发明使用多面体近似深度学习模型所代表的流形，使用优化技术计算将训练集中某一点发送到流形上目标类对应区域分类边界所需的最小扰动向量，对多点计算后不断聚合更新并投影，迭代执行上述步骤，直到被攻击的目标模型达到预设的攻击成功率。

Description

一种针对深度学习模型的目标攻击对抗样本生成方法

技术领域

本发明涉及深度学习安全技术领域，具体为一种针对深度学习模型的目标攻击对抗样本生成方法。

背景技术

深度学习模型在很多任务上表现出出色的性能并被广泛地应用于智能机器人、自动驾驶、语音合成、自然语言翻译、图像处理等众多领域。然而实际应用环境往往复杂度高、不确定性强并存在信息不完全及信息对抗和干扰等情况，与此同时现有的深度学习模型过度依赖海量数据或知识，容易受到人眼不能识别的对抗样本的攻击，使模型产生错误输出。生成对抗样本的对抗攻击方法成为发现模型潜在问题的重要工具。在现有的对于对抗样本生成方法的研究中，根据生成样本的适用性的不同，可以将这些工作分为单一样本的生成方法和普遍扰动的生成方法。

(1)单一样本的生成方法

单一样本的生成方法针对一个单一输入生成对抗样本，如果要生成多个对抗样本则需要对多个样本进行逐个计算。这些方法都需要对每个样本逐一地求解优化问题，求得一个对单一样本适用的能够造成攻击的对抗扰动。具体来说，有的研究使用线性近似提高计算效率，有的研究寻求更精确的求解，有的研究使用极端条件约束，例如在只对一个像素进行改动的情况下生成对抗扰动。还有一部分研究使用不同的距离度量来近似人的感知，现有的研究主要集中在计算机视觉领域，使用L₀、L₂或L_∞范数之一。

(2)普遍扰动的生成方法

普遍扰动的生成方法希望计算对大多数样本都适用的普遍扰动来攻击深度神经网络。这种普遍的扰动与具体的某个样本无关，仅仅通过将扰动加到新的样本上就可以生成人眼无法识别的对抗样本。此类研究往往通过迭代计算，或者某些对特征空间的特殊约束，例如对网络的特征图的雅可比矩阵的约束来生成不依赖于数据的普遍扰动。

但是，现有单一样本生成方法的研究需要依赖大量数据，计算时间复杂度高，生成的对抗样本只适用于单一样本，难以捕捉对抗样本的共性。普遍扰动的生成方法往往只能实现无目标的对抗攻击，即，使网络对对抗样本错误分类，但无法指定错误的目标类。个别能够实现目标攻击的方法也必须依赖复杂的生成模型。

更重要的是，对抗样本代表了模型的盲点，意味着深度学习模型没有学习到真正的概念，因此这些与真正的概念相关的信息很有可能体现在对抗样本中，然而目前的所有研究生成的对抗扰动都是杂乱无章的。包含语义信息的对大多数样本普遍适用的目标攻击对抗扰动，将更清晰地揭示模型训练过程中的不足，并更准确地定位到模型的脆弱点和指定区域。

发明内容

针对上述问题，本发明的目的在于提供一种针对深度学习模型的目标攻击对抗样本生成方法，该方法不依赖于特定数据点，普遍适用于多数样本，能够对和训练数据同分布的大多数样本实现目标对抗攻击；该方法能够定位到特定类所对应的区域的分类边界，并提取被深度学习模型遗漏的与真实概念相关的语义信息。技术方案如下：

一种针对深度学习模型的目标攻击对抗样本生成方法,其特征在于，包括以下步骤：

步骤1：从深度学习模型训练集中抽取一个集合X，使用多面体近似深度网络对应的流形，利用优化技术，对集合X中的单点x₁计算能够将该点发送到流形上目标类对应区域边界所需的最小扰动向量作为初始扰动向量；

步骤2：采用该最小扰动向量对集合X中的下一个点x₂进行扰动，如果攻击不成功，则对点x₂进行步骤1中的计算，得到新的扰动向量，并新的扰动向量聚合到初始扰动向量中得到当前扰动向量；如果攻击成功则检查当前扰动向量对下一个点x₃的攻击效果；

步骤3：对集合X上的各点重复步骤2中的计算，以实现目标攻击作为约束条件求解优化问题；并在计算过程中，设置裁剪步长k，每k步聚合后将聚合向量投影到半径为η的L_∞范数球上，更新扰动向量；

步骤4：迭代执行上述步骤，直到当前扰动向量能够使集合X中所有点的攻击成功率超过预设的阈值，得到最终的对抗扰动向量；将该扰动向量加到干净样本上得到对抗样本。

进一步的，所述步骤1中，通过求解下式的优化问题，得到对单一样本适用的对抗扰动：

其中，d(·)表示一种相似度的度量，使用L_p(p～[1,∞))范数或根据具体的数据类型选择接近人类感知的更适用的度量；t表示目标类。

更进一步的，所述步骤2中，对单点x_i的最小扰动的计算指向指定目标类对应的区域边界，求解优化问题：

其中，△r_i为最小扰动向量，σ为单点x_i的扰动分量，△r_i为本次迭代需要计算的最小扰动向量，r_i为当前的扰动向量。

更进一步的，所述步骤3中，对当前扰动向量的更新根据裁剪步长k决定是否进行投影操作，计算过程为：

步骤31：判断当前的迭代步数是否整除裁剪步长k，并且不等于0；如整除裁剪步长k，且不等于0，则进行步骤32，否则进行步骤33；

步骤32：设定约束扰动无穷范数上界的η值，将当前的扰动向量投影到球心为0，半径为η的L_∞范数球上，并更新扰动向量；投影函数为：

s.t.||r′||_∞≤η

其中，r和r′分别为裁剪前后的扰动向量；

步骤33：不进行裁剪，直接将对x_i计算的最小扰动聚合到当前的扰动向量，更新当前扰动向量。

更进一步的，所述步骤4中，攻击成功率计算如下：

其中，1(·)是指示函数，脚标中的条件为真时取值为1，否则取值为0；s是X中样本的个数，δ是一个事先设置的取值在[0,1]之间的数，1-δ为攻击成功率的阈值。

本发明的有益效果是：

1)使用目标类约束单个扰动的生成过程和扰动向量的聚合过程，使得生成的扰动始终指向目标类对应的区域边界，不再将深度学习模型视作一个整体，使生成的对抗扰动能够聚焦于特定区域；因此能够针对性地提取出更有意义的信息。

2)设计了基于裁剪步长的扰动向量聚合更新方式，有间隔地对向量进行投影，在约束扰动大小的同时更大限度地保证攻击成功率。

3)采用目标攻击条件在迭代更新过程中持续判断终止条件，最终生成的扰动向量携带明确的语义信息，不仅能够对计算扰动使用的集合X中的点成功实现目标对抗攻击，还能够适用于与集合X同分布的其他点。

4)本发明生成的对抗扰动能够通过简单相加的方式对新的干净样本生成对抗样本，并且只需要在一个很小的集合X计算就能对大多数样本实现很好的攻击效果，计算时效性高。

附图说明

图1是本发明的样本生成流程图。

图2是本发明的对抗扰动计算示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

下面结合附图和具体实例对本发明做进一步的详细说明。本发明方法在具体实施时的流程如图1所示，主要包括以下步骤：

A.从深度学习模型训练集中抽取一个集合X，用于计算对抗扰动。对集合X中的一个点x₁求解优化问题，计算将该点发送到目标类区域边界所需的最小扰动。

具体的，从深度学习模型训练集中抽取一个集合X，使用多面体近似深度网络对应的流形，利用优化技术，对集合X中的单点x₁计算能够将该点发送到流形上目标类对应区域边界所需的最小扰动向量作为初始扰动向量。

通过求解下式(2)的优化问题，得到对单一样本适用的对抗扰动。

该问题无法从理论上保证能求得最优解，求解困难。本发明使用一个会缩放最优值但不影响优化结果的替代约束来简化求解过程。(1)式中d(·)表示一种相似度的度量，可以使用L_p(p～[1,∞))范数，也可以根据具体的数据类型选择更接近人类感知的更适用的度量。需要注意的是，最终生成的对抗样本x+r必须在x的有效取值范围内取值，以保证生成的样本是有效的。

图2中令，

(本图中k＝1,2,3)表示围成分类器输出目标类t对应的区域的超平面。对于每一个真实标签不等于t却被分类器原本的简单的分类边界(图中用直线表示)错误分类为t类的点计算一个到近似分类区域的超多面体的向量，然后逐渐聚合这些向量并更新当前的扰动向量，最终得到一个以t为目标的目标攻击的对抗扰动向量。

B.将A中计算得到的扰动加到集合X中的下一个点x₂中，判断当前扰动能否对点x₂实现目标对抗攻击，如果不能够成功攻击，则对x₂进行步骤A中操作，如能够成功攻击则对下一个点x₃重复步骤B。

对新的点x_i计算扰动时，求解(2)式中的优化问题，求解方法同式(1)。

其中，σ为单点x_i的扰动分量，△r_i为本次迭代需要计算的最小扰动向量，r_i为当前的扰动向量。

使用目标类约束单个扰动的生成过程和扰动向量的聚合过程，使得生成的扰动始终指向目标类对应的区域边界，不再将深度学习模型视作一个整体，使生成的对抗扰动能够聚焦于特定区域。因此能够针对性地提取出更有意义的信息。

C.将每个计算得到的新扰动聚合到之前的扰动中去，并将聚合后的扰动更新为当前扰动。更新时，每k次计算聚合后进行一次L_∞范数球上的投影操作，其他迭代步简单聚合。

更新规则如式(3)所示，其中P_∞,η(·)是在球心为0，半径为η的无穷范数球上的投影操作。裁剪步数k和投影半径η是两个关键参数。k越小最终生成的对抗样本与干净样本越相似，攻击成功率越低，计算复杂度越高。η越小意味着对扰动的更强的约束，生成的扰动越小，攻击成功率越低，计算复杂度也同样增加。需要根据实际需求确定k和η的值。

对当前扰动向量的更新根据裁剪步长k决定是否进行投影操作，具体的计算过程如下：

步骤C1：判断当前的迭代步数是否整除裁剪步长k，并且不等于0；如整除裁剪步长k，且不等于0，则进行步骤C2，否则进行步骤C3；

步骤C2：设定约束扰动无穷范数上界的η值，将当前的扰动向量投影到球心为0，半径为η的L_∞范数球上，并更新扰动向量；投影函数为：

s.t.||r′||_∞≤η

其中，r和r′分别为裁剪前后的扰动向量；

步骤C3：不进行裁剪，直接将对x_i计算的最小扰动聚合到当前的扰动向量，更新当前扰动向量。

设计基于裁剪步长的扰动向量聚合更新方式，有间隔地对向量进行投影，在约束扰动大小的同时更大限度地保证攻击成功率。

D.将当前扰动加到X中的所有点上形成对抗样本，并对这些样本计算攻击成功率，如果攻击成功率大于等于预设的阈值则结束计算，如果未达到阈值，则对步骤A～D进行迭代计算。

攻击成功率的计算如式(4)所示，其中1(·)是指示函数，脚标中的条件为真时取值为1，否则取值为0。s是X中样本的个数，δ是一个事先设置的取值在[0,1]之间的数，1-δ为攻击成功率的阈值。需要注意的是，以1-δ为阈值生成的扰动，其实际攻击成功率可能远大于1-δ。

采用目标攻击条件在迭代更新过程中持续判断终止条件，最终生成的扰动向量携带明确的语义信息，不仅能够对计算扰动使用的集合X中的点成功实现目标对抗攻击，还能够适用于与集合X同分布的其他点。生成的对抗扰动能够通过简单相加的方式对新的干净样本生成对抗样本，并且只需要在一个很小的集合X计算就能对大多数样本实现很好的攻击效果，计算时效性高。

Claims

1.一种针对深度学习模型的目标攻击对抗样本生成方法,其特征在于，包括以下步骤：

2.根据权利要求1所述针对深度学习模型的目标攻击对抗样本生成方法,其特征在于，所述步骤1中，通过求解下式的优化问题，得到对单一样本适用的对抗扰动：

3.根据权利要求1所述针对深度学习模型的目标攻击对抗样本生成方法,其特征在于，所述步骤2中，对单点x_i的最小扰动的计算指向指定目标类对应的区域边界，求解优化问题：

4.根据权利要求1所述针对深度学习模型的目标攻击对抗样本生成方法,其特征在于，所述步骤3中，对当前扰动向量的更新根据裁剪步长k决定是否进行投影操作，计算过程为：

s.t.||r′||_∞≤η

其中，r和r′分别为裁剪前后的扰动向量；

5.根据权利要求1所述针对深度学习模型的目标攻击对抗样本生成方法,其特征在于，所述步骤4中，攻击成功率计算如下：