CN111476264A

CN111476264A - 访问受限的系统的对抗鲁棒性的测试

Info

Publication number: CN111476264A
Application number: CN202010055649.9A
Authority: CN
Inventors: 陈品谕; 刘思佳; 吴凌飞; 陈家佑
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-01-24
Filing date: 2020-01-17
Publication date: 2020-07-31
Anticipated expiration: 2040-01-17
Also published as: US20240045974A1; CN111476264B; US20200242250A1; US11836256B2

Abstract

本公开的实施例涉及访问受限的系统的对抗鲁棒性的测试。对抗鲁棒性测试方法、系统和计算机程序产品包括经由加速器测试黑箱系统在不同访问设置下的鲁棒性。

Description

访问受限的系统的对抗鲁棒性的测试

技术领域

本发明总体上涉及对抗鲁棒性测试方法，并且更具体地但非限制性地涉及针对加速模块(即，加速器)的系统、方法和计算机程序产品，加速模块在不同访问设置下可靠地加速黑箱人工智能(AI)和机器学习(ML)模型的鲁棒性测试。

背景技术

对机器学习(ML)系统的黑箱攻击是对于对抗示例和生成这些对抗示例的算法的研究，该算法包括如何分析最先进的ML系统在极端情况下(例如，当可信图像被难以察觉的噪声故意破坏，从而欺骗训练有素的图像分类器进行错误分类时)的行为。这是当前AI领域最突出的主题之一，并且有可能帮助塑造不仅在一般情况下表现出色、并且在最坏情况或不利情况下也表现出色的高级AI平台的未来。

近年来，深度神经网络(DNN)在许多机器学习任务(例如，自然语言处理(NLP)、计算机视觉、语音处理等)中取得了重大突破。然而，尽管取得了成功，但是最近很多研究表明，即使最先进的DNN仍然容易受到对抗错误分类攻击的攻击。这引起了对DNN在极端情况下的鲁棒性的安全性担忧，这在需要高可靠度和相依性的许多应用领域(例如，面部识别、自动驾驶交通工具和恶意软件检测)中非常重要。对于对抗示例和生成对抗示例的可能攻击的调查已经成为AI安全性和安全中越来越普遍的话题，其目的是分析现代ML系统(例如，DNN)在极端情况下如何受到破坏。这种分析将揭示要采用的潜在防御措施，这实际上为构建将成为未来AI技术的核心引擎的新一代高度鲁棒和可靠的ML模型奠定了基础。

但是，关于该主题的大多数初步研究仍限于白箱设置，在白箱设置中，攻击者具有对目标系统(例如，DNN)和操作机制的完全访问和了解。例如，假设知道DNN模型的内部结构和参数，则攻击者可以计算输出相对于输入的梯度，以标识某些输入分量的值对预测输出的扰动的影响。因此，这可以用于构建可能被目标模型错误分类的对抗示例。尽管有理论上的兴趣，但是这种方法在实际黑箱系统中的使用通常非常有限，在黑箱系统中，公共ML系统的内部状态/配置和操作机制并未向从业人员透露，并且与系统交互的唯一方式是通过提交输入和接收对应的预测输出。

一种探索黑箱攻击的常规方法是使用经由零阶优化(“ZOO”)的梯度估计。该常规方法对模型进行查询，并估计相对于对应输入的输出梯度。然后，该方法采用“卡利尼和瓦格纳(Carlini and Wagner，C&W)攻击方法”来生成对抗示例。但是，因为每次迭代都需要大量查询才能生成准确的梯度估算，所以该常规技术的计算量很大。

备选地，一种不同的常规技术旨在经由贪婪的局部搜索来估计输出梯度。在每次迭代中，常规技术只干扰输入分量的子集。该局部搜索技术在计算上非常高效，但是该技术未将原始输入及其干扰版本之间的失真明确地最小化。同样，合成的噪音通常看起来更明显。此外，该技术尚未在诸如ImageNet的数据密集型领域进行测试。

另一常规技术通过限定查询限制设置、部分信息设置和仅标签设置来研究更现实的威胁模型。基于自然进化策略和蒙特卡罗近似，提出了三种攻击方法。但是，该技术仅对L_∞范数施加了限制，而未将某个L_p范数最小化。

发明内容

因此，发明人已在本领域中确定了在利用深度神经网络(DNN)进行图像(即，输入)分类的应用中针对对抗攻击的需求。

在一个示例性实施例中，本发明提供了用于检查黑箱系统的学习性能的、计算机实现的对抗鲁棒性测试方法，该方法包括经由加速器来测试黑箱系统在不同访问设置下的鲁棒性。

一个或多个其他示例性实施例包括基于上述方法的计算机程序产品和系统。

下面将描述本发明的其他细节和实施例，使得可以更好地理解对本领域的当前贡献。然而，本发明在其应用中不限于在本说明书中阐述或在附图中示出的这种细节、措辞、术语、说明和/或布置。相反，本发明能够以各种方式来实践和执行除所描述的实施例之外实施例，并且不应被视为限制。

因此，本领域技术人员将理解，本公开所基于的概念可以容易地用作设计用于实现本发明的若干目的的其他结构、方法和系统的基础。因此，重要的是，只要不脱离本发明的精神和范围，权利要求被认为包括这种等同构造。

附图说明

通过以下参考附图对本发明示例性实施例的详细描述，将更好地理解本发明的各个方面，其中：

图1示例性地示出了根据本发明的一个实施例的对抗鲁棒性测试方法100的高级流程图；

图2示例性地描绘了根据本发明的一个实施例的用于测试黑箱系统的鲁棒性的框架；

图3示例性地描绘了与常规技术相比的实验结果；

图4示例性地描绘了根据本发明的一个实施例的当查询(Query)＝0时，从目标类别中的图像开始的MNIST的对抗示例演变；

图5示例性地描绘了根据本发明的一个实施例的当查询＝0时，从目标类别中的图像开始的CIFAR-10的对抗示例演变；

图6-图8示例性地描绘了与常规技术相比的实验结果；

图9示例性地描绘了根据本发明的一个实施例的由方法100生成的在ImageNet上的对抗示例；

图10示例性地描绘了与常规技术相比的实验结果；

图11描绘了根据本发明的一个实施例的云计算节点10；

图12描绘了根据本发明的一个实施例的云计算环境50；以及

图13描绘了根据本发明的一个实施例的抽象模型层。

具体实施方式

现在将参考图1-图13来描述本发明，其中相同的附图标记始终指代相同的部分。要强调的是，根据惯例，附图的各种特征不一定按比例绘制。相反，为了清楚起见，可以任意地扩大或缩小各种特征的维度。

通过介绍图1中描绘的示例，根据本发明的对抗鲁棒性测试方法100的一个实施例可以包括针对用于检查黑箱人工智能(AI)和机器学习(ML)系统的学习性能的对抗鲁棒性测试系统的各种步骤。因为本发明用于生成对抗输入(数据输入操纵)，所以本发明不同于软件/模块错误和固有安全漏洞的鲁棒性测试。鲁棒性评估既不是错误测试也不是安全性测试，它与在给定输入的情况下所预测的模型置信度相关。

通过介绍图11中描述的示例，根据本发明的一个实施例的计算机系统12的一个或多个计算机可以包括存储器28，存储器28具有存储在存储系统中以执行图1的步骤的指令。

尽管一个或多个实施例可以在云环境50中实现(例如，图13)，但是应当理解，本发明可以在云环境之外实现。

参考图1，在步骤101中，经由加速器测试黑箱系统在不同的访问设置下的鲁棒性。加速器具有以下函数：“经由随机方向估计和平均化进行有效梯度估计”(即，g^(x)＝b/q∑2_(i＝1)^q(f(x+εu_i)-f(x))/εu_i,

用于非凸优化的零阶随机方差减小)；“维度减小”(即，针对查询效率而减小攻击空间(例如，图像尺寸调整；数据驱动的解码器：

诸如AutoZOOM的解码器：用于攻击黑箱神经网络的基于自动编码器的零阶优化方法))；以及问题分解，其使用经由零阶ADMM的常规黑箱对抗攻击框架，通过

使得x＝z，将鲁棒性测试优化过程(即，威胁模型下的攻击目标)拆解为小型且高效解决的子任务)。

黑箱系统是仅允许访问系统输入和输出、但不允许访问模型内部或细节的系统。

白箱系统是其细节(例如，架构和推理权重)对攻击者完全已知的模型。

不同的访问设置包括“软标签设置”和“硬标签设置”。软标签设置可以是系统输出每个类别的预测得分，而硬标签设置可以是系统仅输出前1个预测标签(没有得分，也没有其他类别)。

换言之，本发明接收输入的第一分类作为来自黑箱系统的输出，并确定对输入的最小改变，使得第二分类(即，不同于第一分类)被接收作为来自黑箱系统的输出。实际上，本发明找到了对输入的最小变化，使得来自黑箱系统的输出的分类不同于输入的原始分类。

在步骤102中，在给定多个合法输入中的、具有正确类别标签的合法输入的情况下，使用加速器确定最佳对抗扰动，使得经扰动的示例被基于合法输入训练的深度神经网络(DNN)模型错误地分类为包括不正确类别标签的目标类别。

在步骤103中，对于软标签设置(即，输出所有类别的预测得分)作为不同访问设置，使用加速器和梯度下降技术来找到对抗示例并总结鲁棒性统计。

在步骤104中，对于硬标签设置(即，仅输出最可能的(top-1)的类别标签)作为不同访问设置，使用平滑函数来总结鲁棒性统计。

参考图2，不存在对用于鲁棒性测试的输入数据集的限制。本发明可以支持作为对AI/ML系统的有效输入的任何数据格式。即，鲁棒性目标是用户指定的，或者使用系统定义的针对对抗示例的“威胁模型”(例如，lx_adv-x_orig I_p≤s)。本发明的输入的示例包括图像、文本(或嵌入)、音频波形、表格数据等。

整体参考图1至图10，本发明在利用深度神经网络(DNN)的输入(即，图像等)分类的应用中以对抗攻击进行操作。为此，提出了针对对抗攻击的通用问题公式，该公式适用于白箱或黑箱设置。然后，针对黑箱设置开发了有效的解决方案，在黑箱设置中，攻击者只对DNN模型的某些类型的输出有访问权(即，攻击者不知道内部结构和配置)。特别地，给定具有正确类别标签t₀的合法图像

本发明旨在设计最佳对抗扰动

使得经扰动的示例(x₀+δ)被基于合法图像训练的DNN模型错误地分类为目标类别t≠t0。通过解决以下等式(1)的问题，可以获得精心设计的扰动δ：

其中f(x,t)表示将(x₀+δ)错误地分类为目标类别t所引起的损失，而D(δ)是控制合法图像与对抗示例(即，

)之间的感知相似性的失真函数，||·||_∞表示L_∞范数。

在等式(1)中，“硬”约束(即，硬标签设置)确保：每个像素处的扰动噪声δ难以察觉直到预定义的ε容忍阈值，并且非负正则化参数γ强调对抗示例与合法图像之间的失真。此外，在上述等式(1)中，

这由C&W L₂对抗攻击的优异性能所激发。

应注意，在本发明中可以改变损失函数f(x,t)的选择。即，在不失一般性的情况下，本发明集中于利用指定目标类别t(即，第二分类)来误导DNN(即，从原始输入的第一分类)的针对性(targeted)攻击，因为非针对性(untargeted)攻击版本可以基于针对性攻击来实现。需要强调，在黑箱设置中，不能像白箱设置那样直接获得f(x,t)的梯度。损失函数f(x,t)的形式取决于不同黑箱反馈设置中的约束信息。具体地，基于得分的方法和基于决策的攻击的定义及其损失函数讨论如下。

在基于得分的攻击设置中，攻击者无法查询DNN来获得软标签(即，属于不同类别的图像的得分或概率)，而有关梯度的信息不可用。在基于得分的攻击中，等式(1)的损失函数为等式(2)：

等式(2)在现有的白箱攻击中产生了良好的性能。P(x)_j表示第j类别的目标模型的预测得分或概率，而κ是置信度参数，通常设置为零。基本上，这意味着如果P(x₀+δ)_t在所有类别中最大，则f(x₀+δ,t)＝0，这意味着扰动δ已成功使目标模型将x₀+δ错误地分类为目标类别t。否则，它将大于零。注意，在等式(2)中，使用对数概率logP(x)，而不是直接使用实际概率P(x)，因为输出概率分布趋于具有使得某一特定类别在其他类别中为主要的概率，这使得查询在概率/得分方面不太有效。这解释了为什么在保留所有类别的概率顺序的同时，使用对数运算符来减少主要类别的影响。

对于非针对性对抗攻击，对抗示例x₀+δ的分类应与其正确的类别t₀不同。损失函数采用等式(3)的以下形式：

基本上，当P(x₀+δ)_t0不是所有类别中的最大值时，等式(3)达到其最小值，这意味着成功的非针对性攻击。

与基于得分的攻击不同，基于决策的攻击更具挑战性，因为攻击者只能进行查询来获取硬标签而不是软标签P(x)_j。令H(x)_i表示针对类别i的输入图像x的硬标签决策。如果针对x的决策为标签i，则H(x)_i＝1，否则为0。同样，对于所有K个类别，i＝1H(x)_i＝1。然后，基于决策的攻击中的等式(1)的损失函数被指定为如下等式(4)：

因此，f(x₀+δ,t)∈{-1,1}，并且如果f(x₀+δ,t)＝-1，则攻击者成功。等式(4)的损失函数是非平滑的，具有离散输出。因为考虑到问题的高维度，现有的组合优化方法几乎无效或不适用，所以基于决策的攻击因此更具挑战性。

因此，本发明基于针对等式(1)-(4)的上述问题来标识输入的最小变化以不具有DNN的相同分类。本发明包括通过利用本发明技术(即，“ZO-ADMM”)、针对基于得分和基于决策的攻击的通用黑箱对抗攻击框架。通过以下方式，本发明产生了益处，诸如在黑箱损失函数和白箱对抗失真函数之间的有效划分、以及对涉及硬/软约束的各种L_p范数的一般化。通过引入辅助变量z，可以采用ADMM类型的方法将等式(1)重写为如下的等式(5)-(8)：

其中

是由等式(6)给出的指示函数，

经重新公式化的问题(5)的增强型拉格朗日方程由以下给出：

其中u是拉格朗日乘子，并且ρ＞o是给定的惩罚参数。它可以进一步变换如下：

与标准ADMM算法类似，本发明的“ZO-ADMM”将优化变量分为两个块，并采用等式(9)-(11)的以下迭代方案：

u^k+1＝u^k+ρ(z^k+1-δ^k+1)， (11)

其中k表示迭代指数(index)。在等式(9)中，本发明在给定参数δ^k和u^k的情况下，针对z将L(z,δ,u)最小化。在等式(10)中，本发明在给定来自前一步骤的z^k+1和u^k的情况下，针对δ将L(z,δ,u)最小化。然后，在等式(11)中更新拉格朗日乘子u。该ADMM类型算法的主要优点在于，它允许本发明将原始的复杂问题分解为子问题，每个子问题都可以被更高效地甚至是解析地解决。接下来，分别求解等式(9)和(10)。

对于z步骤，等式(9)可以重写为：

其中a＝δ^k-(1/ρ)u^k。等式(12)可以如下分解，

其中[x]_i(或x_i)表示x的第i个元素。等式(13)的解然后由以下给出：

为了一般化为各种L_p范数，在等式(12)中，本发明设置

其中L₂范数用于测量合法图像和对抗示例之间的相似性。如果D(z)采用其他L_p范数(例如，||z||₀、||z||₁或甚至是诸如

的L_p范数组合)，则本发明仍然能够在z步骤中获得经过微小修改的解。对于通常经过大量自定义来将针对失真测量的特定L_p范数最小化的其他黑箱攻击，该功能非常重要。

在稍后讨论的实验中，尽管所提出的“ZO-ADMM方法”可以将针对失真的不同L_p范数最小化，但是本发明主要考虑

的情况，以与其他白箱和黑箱算法进行公平比较。但是，需要强调，“ZO-ADMM方法”能够优化各种L_p范数，而不仅仅是L₂范数。

对于δ步骤，等式(10)可以写为：

其中b＝z^k+1+(1/ρ)u^k。在白箱设置中，由于f(x₀+δ,t)的梯度是直接可访问的，因此可以直接应用诸如随机梯度下降(SGD)的梯度下降方法来求解等式(15)。但是，在黑箱设置中，f(x₀+δ,t)的梯度不可用。因此，为了克服该困难，本发明采用下面将进行详细描述的随机梯度估计方法。

即，对于随机梯度估计，在黑箱设置中，使用等式(16)的随机梯度估计量来估计f(x₀+δ,t)的梯度：

其中d是优化变量的数目，ν>0是平滑参数，{u_j}表示从单位球上的均匀分布得出的独立且均匀分布的(i.i.d)随机方向矢量，而Q是随机方向矢量的数目。大的Q减少梯度估计误差并改进“ZO-ADMM”的收敛性。但是，发现中等大小的Q足以在估计误差和查询复杂度之间提供良好的折衷。本发明在实验中设置Q＝20。还需要强调，等式(16)中的随机梯度估计仅需要O(Q)查询复杂度，而不需要由坐标梯度估计引起的O(dQ)。

利用随机梯度估计，可以经由诸如SGD的随机梯度下降方法来获得等式(15)的解。但是，在梯度下降过程中通常需要执行数千个步骤，并且在每个步骤中，都需要多次查询才能进行准确的梯度估计。大量查询将使黑箱攻击的计算量很大。

为了避免该计算瓶颈，注意，“ZO-ADMM”具有无梯度操作和损失函数线性化的双重优势。通过线性化，将等式(15)中的损失函数f(x₀+δ,t)替换为其一阶泰勒展开式加上正则化项(称为布雷格曼散度)(即，

)，其中G是预先定义的正定矩阵，并且

选择

(其中1/η_k＞0)作为衰减参数(即，对于给定常数，α>0，

)。布雷格曼(Bregman)散度项用于稳定δ的收敛。将线性化和ZO梯度估计组合，等式(15)采用以下形式的等式(17)，

并且，等式(17)产生具有以下等式(18)的封闭解的二次规划问题：

注意，等式(18)可以仅利用一个梯度估计步骤来计算，与使用具有数千个随机估计的梯度下降法求解等式(15)相比，这是对查询效率的重大改进。

对于基于得分的黑箱攻击，具有等式(2)的损失函数的等式(1)可以借助通用的“基于ZO-ADMM的框架”自然求解。在基于决策的黑箱攻击中，等式(4)的损失函数的形式是非平滑的，具有离散输出。为了克服等式(4)中的不连续性，与等式(19)相同，考虑等式(4)的平滑版本(利用具有平滑参数μ>0的f_μ表示)：

其中，U_b是单位欧几里得球内的均匀分布，或者u可以遵循标准高斯分布。等式(19)中平滑技术背后的合理性在于：两个函数的卷积(即，

)至少与两个原始函数中最平滑的函数一样平滑。因此，当p是关于Lebesgue测量的随机变量的密度时，等式(19)中的损失函数是平滑的。实际上，考虑(19)的经验蒙特卡洛近似，如等式(20)中所示：

其中{u_i}是从U_b抽取的N个i.i.d.样本。利用如等式(20)中的平滑损失函数，等式(1)可以通过本发明的通用的“基于ZO-ADMM的框架”来求解。为了将“ZO-ADMM”初始化，本发明将扰动δ初始化，使得初始的扰动图像属于目标类别，从而使得与使用任意图像进行初始化相比，具有降低查询复杂度的益处。

性能评估和实验结果

在该部分中，展示了基于得分和基于决策的黑箱攻击的实验结果。实验在三个图像分类数据集MNIST、CIFAR-10和ImageNet上，对本发明的“基于ZO-ADMM的框架”与转移攻击技术和ZOO攻击技术进行了比较。还提供了最新的白箱攻击(即，C&W攻击)的结果以供参考。

通过分别训练针对MNIST和CIFAR-10数据集的两个网络来进行实验，可以在MNIST上实现99.5％的精度，并且在CIFAR-10上实现80％的精度。该模型架构具有四个卷积层、两个最大池化层、两个完全连接层和softmax层。对于ImageNet，实验使用预先训练的Inception v3网络，而不是训练我们的新模型，这可以达到96％的top-5准确性。所有实验均在具有NVIDIA GTX 1080 TI GPU的机器上进行。

在对MNIST和CIFAR-10的评估中，分别从MNIST和CIFAR-10测试数据集中选择100个正确分类的图像。针对每个图像，将目标标签设置为其他9个类别，并且针对每个攻击方法总共执行900次攻击。

C&W(白箱)攻击和ZOO(黑箱)攻击的实现基于作者发布的GitHub代码。对于ZOO攻击，实验使用具有默认Adam参数的ZOO-ADAM，并设置λ_ini＝10。对于转移攻击，将C&W攻击应用于κ＝20的代理模型，以提高攻击的可转移性，并且在每个二进制文件搜索步骤中进行2,000次迭代。在本发明的“基于ZO-ADMM的攻击”中，将如等式(16)中定义的随机梯度估计中的采样数Q设置为20，并且将(20)的基于决策的平滑损失函数的采样数设置为10。此外，对于MNIST，实验设置为ρ＝1和γ＝1；对于CIFAR-10，ρ＝10000和γ＝10；对于ImageNet，ρ＝1000和γ＝1。对于三个数据集，ε被设置为1。对于MNIST，将ν设置为1；对于CIFAR-10，将ν设置为0.1；对于ImageNet，将ν设置为0.01。针对三个数据集，实验设置μ＝0.1。

实验结果在图3中示出。除攻击成功率(ASR)和L_p范数外，由于观察到基于“ZO-ADMM”得分的攻击在实现首次成功攻击后迅速收敛，因此实验报告初始成功时的查询数目。实验还表明，转移攻击经受低攻击成功率(ASR)和大的L₂失真。“ZOO攻击”和本发明的“ZO-ADMM攻击”均可以达到接近C&W白箱攻击的具有竞争力的L₂失真和高攻击成功率。与“ZOO攻击”(即，12161)相比，“基于ZO-ADMM得分的攻击”(即，493.6)需要更少的查询来获得首次成功的对抗示例。“ZO-ADMM攻击”中对首次成功攻击的查询计数比MNIST和CIFAR-10分别减少了95.9％和97.5％。通过“ZO-ADMM”中的线性化技术实现了首次成功攻击时的查询数目的减少，该线性化技术仅需梯度估计一个步骤来解决近似问题，而无需花费数千步骤来解决原始问题。

实验还显示，“基于ZO-ADMM决策的攻击”实现的L₂失真比具有更多查询的基于得分的攻击略大。这是合理的，因为在基于决策的攻击中只有硬标签输出可用，这比基于得分的设置更具挑战性。但是，需要注意，“基于ZO-ADMM决策的攻击”所需的查询更少，以实现与“ZOO攻击”相同的初始成功的L₂失真。尽管L₂稍大，但是实验表明，如图4和图5所示，扰动在视觉上仍然无法区分。图4-图5进一步示出了基于决策的攻击中相对于查询数目的若干对抗示例的演变。基于决策的攻击从目标类别中的图像开始。然后，它尝试降低L₂范数，同时保持分类标签不变。经过约20,000次查询后，对抗示例接近原始图像，并具有较小的L₂距离。

为了对ImageNet进行评估，实验包括：在ImageNet的基于得分和基于决策的设置中执行针对性攻击和非针对性攻击。随机选择50个正确分类的图像。对于针对性攻击中的每个图像，从1000个类别中选择9个随机标签作为目标。由于代理模型的训练，它不能很好地扩展到ImageNet，因此实验不执行转移攻击。相反，实验在ImageNet上提供了新基线的结果，即查询受限攻击和仅标签攻击。查询受限攻击是基于得分的攻击。仅标签攻击是基于决策的攻击。实验遵循查询受限攻击和仅标签攻击的默认参数设置。本发明提供寻找输入的最小变化，使得输出将不会与输入被分类为相同的分类。

在图6中总结实验结果。对于基于得分的攻击，可以观察到“ZOO攻击”无法保持高的攻击成功率(在大且固定的查询预算范围内)。“查询受限攻击”可以实现高的攻击成功率，并且以较少的查询获得初始成功。但是，由于它仅使用对L_∞范数的约束而没有将L₂范数最小化，因此如图6所示可以观察到相对较大的L₂范数。在图6中示出了与“ZOO攻击”或“查询受限攻击”相比，“基于ZO-ADMM得分的攻击”可以利用较少的查询获得较高的成功率。此外，与“ZOO攻击”相比，本发明技术针对非针对性攻击和针对性攻击将初始成功查询数目分别减少了96.3％和99.2％。尽管黑箱攻击的最终L₂范数通常比白箱C&W攻击大，但是扰动在视觉上仍然难以察觉。对于基于决策的攻击，与仅标签攻击或者甚至“ZOO攻击”相比，“基于ZO-ADMM的攻击”可以通过较少的查询获得高的成功率。图9示出了由“基于ZO-ADMM决策的攻击”生成的对抗示例。在添加了难以察觉的扰动之后，“脑珊瑚(brain coral)”图像的分类更改为4个不同的目标类别。

针对“ZO-ADMM攻击”的收敛性，在图7-图8中示出了三个数据集的“基于ZO-ADMM攻击”的收敛性。图7中呈现了9个针对性对抗示例的平均L₂失真与查询数目的关系。在基于得分的攻击中，由于“基于ZO-ADMM的攻击”从零扰动开始，因此初始L₂失真为零。实验表明，在找到成功的对抗示例之前，L₂失真一直在增加。在“基于ZO-ADMM的攻击”实现其首次成功后，该算法将尝试在保持其目标标签的同时降低L₂失真。实验表明，“ZO-ADMM攻击”能够通过在MNIST或CIFAR-10上进行数百次查询以及在ImageNet上进行数万次查询来实现其初始成功，这是对“ZOO攻击”的重大改进。对于基于决策的攻击，由于“基于ZO-ADMM的攻击”从目标类别中的图像而不是原始图像开始，因此L₂失真起先相对较大。从图7可以看出，对抗示例的L₂失真随着查询数目的增加而减小。图8示出了对抗示例的L₂失真与“ZO-ADMM”迭代数目的关系。请注意，由于平滑的损失函数，在每次“ZO-ADMM”迭代中，基于决策的攻击通常比基于得分的攻击需要更多的查询。

实验还显示，尽管由于目标类别中的初始图像，初始L₂失真较大，但是它可以收敛到接近基于得分的攻击的L₂失真的值。

此外，当求解等式(12)时，证明了针对不同的L_p范数的实验结果。实验基于已开发的三个基于得分的“ZO-ADMM”黑箱攻击进行，分别将L₀、L₁和L₂扰动范数最小化。如图10所示，“ZO-ADMM”技术提供了通过简单地将D(z)设置为对应的L_p范数来将不同的L_p范数最小化的通用框架。

示例性方面、使用云计算环境

尽管该详细描述包括本发明在云计算环境中的示例性实施例，但是应理解本文记载的教导的实施方式不限于这种云计算环境。相反，本发明的实施例能够与现在已知或以后开发的任何其他类型的计算环境结合实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，其中显示了云计算节点的一个例子。图11显示的云计算节点10仅仅是适合的云计算节点的一个示例，不应对本发明实施例的功能和使用范围带来任何限制。总之，云计算节点10能够被用来实现和/或执行以上所述的任何功能。

尽管云计算节点10被描绘为计算机系统/服务器12，但是应理解为其利用许多其他通用或专用计算系统环境或配置是可操作的。可以适合与计算机系统/服务器12一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于：个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型电路、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统以及包括上述任何系统或电路的分布式云计算环境等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质(例如，随机存取存储器(RAM)30和/或高速缓存存储器32)。计算机系统/服务器12可以进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，可以提供存储系统34以用于从不可移动的非易失性磁性介质(未示出并且通常被称为“硬盘驱动器”)进行读取和写入。尽管未示出，但是可以提供用于从可移动非易失性磁盘(例如，“软盘”)进行读取和写入的磁盘驱动器以及用于从可移动非易失性光盘(例如，CD-ROM、DVD-ROM或其他光学介质)进行读取或写入的光盘驱动器。在这种情况下，每个都可以通过一个或多个数据介质接口连接到总线18。如下面将进一步描述的，存储器28可以包括存储一个或程序模块42的计算机程序产品，一个或多个程序模块42包括被配置为执行本发明的一个或多个特征的计算机可读指令。

具有一组(至少一个)程序模块42的程序/实用程序40、以及操作系统、一个或多个应用程序、其他程序模块和程序数据可以通过示例而非限制的方式存储在存储器28中。操作系统、一个或多个应用程序、其他程序模块以及程序数据或它们的某种组合中的每一个可以适于在网络环境中实现。在一些实施例中，程序模块42适于总体上执行本发明的一个或多个功能和/或方法。

计算机系统/服务器12还可以与一个或多个外部设备14(例如，键盘、指点电路、诸如显示器24的其他外围设备等)以及促进与计算机系统/系统进行交互的一个或多个组件进行通信。这种通信可以经由输入/输出(I/O)接口22和/或使得计算机系统/服务器12能够与一个或多个其他计算电路进行通信的任何电路(例如，网卡、调制解调器等)进行。例如，计算机系统/服务器12可以经由网络适配器20与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网)的一个或多个网络通信。如所示，网络适配器20经由总线18与计算机系统/服务器12的其他组件通信。应当理解，尽管未示出，但是其他硬件和/或软件组件可以与计算机系统/服务器12结合使用。示例包括但不限于：微代码、电路驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据档案存储系统等。

现在参考图12，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理(PDA)或移动电话54A，台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图12显示的各类计算设备54A-N仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图13，其中显示了云计算环境50(图12)提供的一组功能抽象层。首先应当理解，图13所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图13所示，提供下列层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的例子包括：主机61；基于RISC(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；网络和网络组件66。软件组件的例子包括：网络应用服务器软件67以及数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74，以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能83：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航91；软件开发及生命周期管理92；虚拟教室的教学提供93；数据分析处理94；交易处理95；以及根据本发明的对抗鲁棒性测试方法100。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

此外，申请人的意图是涵盖所有权利要求要素的等同物，并且不应将对本申请的任何权利要求的任何修改解释为放弃经修改权利要求的任何要素或特征的等同物的任何利益或权利。

Claims

1.一种用于检查黑箱系统的学习性能的计算机实现的对抗鲁棒性测试方法，所述方法包括：

经由加速器来测试黑箱系统在不同访问设置下的鲁棒性。

2.根据权利要求1所述的方法，其中所述不同访问设置包括：

软标签设置；以及

硬标签设置。

3.根据权利要求1所述的方法，进一步包括：针对作为所述不同访问设置中的一个访问设置的软标签设置，使用所述加速器和梯度下降技术来找到对抗示例并且总结鲁棒性统计。

4.根据权利要求1所述的方法，进一步包括：针对作为所述不同访问设置中的一个访问设置的硬标签设置，使用平滑函数来总结鲁棒性统计。

5.根据权利要求3所述的方法，进一步包括：针对作为所述不同访问设置中的一个访问设置的硬标签设置，使用平滑函数来总结鲁棒性统计。

6.根据权利要求1所述的方法，进一步包括：在给定多个合法输入中的具有正确类别标签的合法输入的情况下，通过基于所述合法输入训练的深度神经网络(DNN)模型，使用所述加速器来确定最佳对抗扰动，使得经扰动的示例被错误地分类为包括不正确类别标签的目标类别。

7.根据权利要求1所述的方法，其中所述加速器包括：包括经由随机方向估计和平均化的有效梯度估计的函数。

8.根据权利要求1所述的方法，其中所述加速器包括：包括输入的维度减小的函数。

9.根据权利要求1所述的方法，其中所述加速器包括：包括在黑箱损失函数和白箱对抗失真函数之间的问题分解的函数。

10.根据权利要求1所述的方法，体现在云计算环境中。

11.一种用于进行对抗鲁棒性测试来检查黑箱系统的学习性能的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有利用其体现的程序指令，所述程序指令由计算机可执行以使得所述计算机执行根据权利要求1至10中任一项所述的方法。

12.一种用于检查黑箱系统的学习性能的对抗鲁棒性测试系统，所述系统包括：

处理器；以及

存储器，所述存储器存储指令，以使得所述处理器执行根据权利要求1至10中任一项所述的方法。

13.一种计算机系统，包括用于执行根据权利要求1至10中任一项所述的方法的步骤的模型。

14.一种用于检查黑箱系统的学习性能的计算机实现的对抗鲁棒性测试方法，所述方法包括：

接收输入的第一分类作为来自所述黑箱系统的输出；以及

确定所述输入的最小变化，使得第二分类被接收作为来自所述黑箱系统的所述输出。

15.一种用于检查黑箱系统的学习性能的计算机实现的对抗鲁棒性测试方法，所述方法包括：

找到输入的最小变化，使得来自所述黑箱系统的输出的分类不同于所述输入的原始分类。