CN111667049B

CN111667049B - 量化深度学习计算系统对对抗性扰动的脆弱性

Info

Publication number: CN111667049B
Application number: CN202010153487.2A
Authority: CN
Inventors: 刘思佳; 范权福; 淦创; 王大阔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-03-08
Filing date: 2020-03-06
Publication date: 2024-03-05
Anticipated expiration: 2040-03-06
Also published as: US11227215B2; CN111667049A; US20200285952A1

Abstract

本公开的实施例涉及量化深度学习计算系统对对抗性扰动的脆弱性。提供了用于生成对抗性扰动攻击敏感度(APAS)可视化的机制。机制接收自然输入数据集和对应对抗性攻击输入数据集，其中对抗性攻击输入数据集包括旨在引起计算机模型错误分类的扰动。机制基于计算机模型对自然输入数据集和对应对抗性攻击输入数据集的处理，确定计算机模型对对抗性攻击输入数据集中扰动的敏感度测量。基于自然输入数据集和对抗性攻击输入数据集处理结果，机制为计算机模型生成分类激活图(CAM)，并基于敏感度测量生成敏感度覆盖。敏感度覆盖图形地表示扰动敏感度的不同分类。机制将敏感度覆盖应用于CAM，以生成并输出对抗性攻击的扰动的计算机模型敏感度的图形可视化输出。

Description

量化深度学习计算系统对对抗性扰动的脆弱性

技术领域

本申请一般涉及一种改进的数据处理装置和方法，并且更具体地涉及用于量化深度学习计算系统对对抗性扰动的脆弱性的机制。

背景技术

深度学习是基于与任务特定算法相反的学习数据表示的更广泛的机器学习方法家族的一部分。一些表示大致基于对生物神经系统中的信息处理和通信模式的解释，诸如试图定义各种刺激与大脑中的关联神经元反应之间的关系的神经编码。研究试图创建有效的系统以从大规模的、未标记的数据集中学习这些表示。

诸如深度神经网络、深度信念网络和递归神经网络之类的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译和生物信息学的领域，其中产生了可与人类专家媲美、甚至在一些情况下优于人类专家的结果。

基于神经网络的深度学习是一类机器学习算法，其使用许多层非线性处理单元的级联来进行特征提取和变换。每个后续层都使用来自前一层的输出作为输入。该算法可以是有监督的也可以是无监督的，并且应用包括模式分析(无监督的)和分类(有监督的)。基于神经网络的深度学习基于对数据的多个级别的特征或表示的学习，其中从较低级别的特征中导出较高级别的特征以形成分层表示。深度学习算法中使用的神经网络的非线性处理单元的层的组成取决于要被解决的问题。深度学习中已经使用的层包括人工神经网络的隐藏层和复杂的命题等式集。它们还可以包括在深度生成模型中按层组织的潜在变量，诸如深度信念网络和深度波尔兹曼(Boltzmann)机器中的节点。

发明内容

提供本发明内容以简化的形式介绍概念的选择，这些概念在本文的详细描述中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键因素或必要特征，也不旨在被用来限制所要求保护的主题的范围。

在一个说明性实施例中，提供了一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法，至少一个存储器包括指令，该指令由至少一个处理器执行以特定地配置至少一个处理器来实现对抗性扰动攻击敏感度(APAS)可视化系统。该方法包括：由至少一个处理器所实现的APAS可视化系统接收自然输入数据集和对应的对抗性攻击输入数据集，以用于由APAS可视化系统进行评估。对抗性攻击输入数据集的数据结构包括旨在引起计算机模型错误分类的扰动。该方法还包括由APAS可视化系统基于计算机模型对自然输入数据集和对应的对抗性攻击输入数据集的处理来确定计算机模型对对抗性攻击输入数据集中的扰动的至少一个敏感度测量。此外，该方法包括：由APAS可视化系统基于自然输入数据集和对抗性攻击输入数据集的处理结果为计算机模型生成分类激活图(CAM)，以及由APAS可视化系统基于至少一个敏感度测量来生成敏感度覆盖。敏感度覆盖图形地表示扰动敏感度的不同分类。另外，该方法包括：由APAS可视化系统将敏感度覆盖应用于CAM，以生成对对抗性攻击的扰动的计算机模型敏感度的图形可视化输出，以及由APAS可视化系统将图形可视化输出输出给用户计算设备以用于可视化显示给用户。

在其他说明性实施例中，提供了一种计算机程序产品，其包括具有计算机可读程序的计算机可用或可读介质。计算机可读程序当在计算设备上被执行时使计算设备执行以上关于方法说明性实施例概述的操作中的各种操作或操作的组合。

在又一个说明性实施例中，提供了一种系统/装置。该系统/装置可以包括一个或多个处理器以及被耦合到一个或多个处理器的存储器。存储器可以包括指令，指令在由一个或多个处理器执行时使一个或多个处理器执行以上关于方法说明性实施例概述的操作中的各种操作或组合。

本发明的这些以及其他特征和优点将在以下对本发明的示例实施例的详细描述中进行描述，或者鉴于以下对本发明的示例实施例的详细描述而对于本领域普通技术人员将变得明显。

附图说明

专利或申请文件包含至少一个用彩色完成的附图。在请求并支付必要的费用后，专利局将提供带有(多个)彩色附图的本专利或专利申请公开的副本。

通过结合附图阅读时引用说明性实施例的以下详细说明，将最好地理解本发明及其优选的使用方式以及其他目的和优点，在附图中：

图1A-图1E图示出了对抗性输入及其由Carlini和Wagner(C&W)攻击所生成的对抗性扰动；

图2是示出由C&W攻击所生成的三个自然/对抗性示例的分类激活图(CAM)的示例图；

图3图示出了根据一个说明性实施例的来自图2的示例，其中在网格级别的对抗性扰动的位置处用掩模{r_i}覆盖图像；

图4A图示出了示例图像，其中原始或自然图像对应于真实标签“犁”，并与具有目标标签“浴缸”的不同攻击进行比较；

图4B总结了在2种神经网络模型下针对4种不同攻击方法的攻击成功率(ASR)和δ_S的-规范失真；

图5示出了在针对4种攻击方法的第一对抗性模式下，原始的和细化(refined)的“海马”与“街车”对抗性示例(顶部与底部子图)的比较；

图6图示出了由Str攻击方法所生成的“扁虫”到“节疤”对抗性攻击示例；

图7是根据一个说明性实施例的示例框图，其图示出了改进的计算机工具的主要操作元件，该计算机工具被称为对抗性扰动攻击敏感度(APAS)可视化和模型训练；

图8描绘了其中可以实现本发明的各方面的分布式数据处理系统的一个说明性实施例的示意图；

图9是在其中实现说明性实施例的各方面的示例数据处理系统的框图；和

图10是根据一个说明性实施例的流程图，其概述了用于评估计算机模型对对抗性攻击扰动的敏感度，生成这种敏感度的可视化以及潜在地强化计算机模型抵抗这种对抗性攻击的示例操作。

具体实施方式

各种认知系统可以利用诸如训练后的神经网络之类的训练后的模型来执行其认知操作。例如，神经网络实现的模型可以被用来为诸如图像识别监控系统、生物特征认证系统等等之类的认知安全系统提供图像分析、面部识别、指纹或视网膜图像识别、语音模式分析等。通常，这种神经网络和其他类型的机器学习或认知模型在认知系统中被利用或与认知系统一起进行利用以执行分类操作，在此之后认知系统操作来执行认知操作，例如，将输入分类到多个预定分类(类)之一，其然后被用来使用认知系统机制执行更复杂的分析或推理操作。

攻击者可能试图通过执行规避攻击(诸如基于梯度的攻击)来阻挠此类系统。对认知系统(例如，对神经网络或由认知系统实现的其他认知或机器学习模型)的规避攻击涉及攻击者试图愚弄该模型以对被操纵的输入进行错误分类。例如，攻击者可能会对输入数据进行几乎不可觉察的操纵以生成对抗性输入，其中对抗性输入是通过对来自数据集的数据样本施加小但有意的扰动而形成的输入(其中在本文中使用的术语“数据集”是指一个或多个数据样本的集合)，使得被扰动的输入导致计算模型(例如，深度学习神经网络(DNN)、卷积神经网络(CNN)或其他机器学习计算模型)以高置信度输出不正确的答案。对抗性输入将引起计算模型(作为示例，此后被假设为卷积神经网络(CNN))对输入进行错误分类，从而故障，导致违反安全性。对抗性输入意图引起的错误分类通常被称为由计算模型基于输入数据生成的“目标”标签(t)，而正确或“真实”标签(t₀)是计算模型应针对原始(无扰动)输入数据输出的标签。这种错误分类可能会阻止计算模型、从而阻止系统将有效输入正确分类为有效，或者允许无效输入被错误分类为有效。例如，试图愚弄面部识别神经网络的攻击者可能会故意在其外观上添加一些小瑕疵，从而生成对抗性输入，试图愚弄面部识别以将攻击者错误地分类为已授权的个体。

这样的规避攻击，例如快速梯度步长法(FGSM)或迭代快速梯度步长法(IFGSM)等，倾向于可归类为白盒攻击，并且取决于攻击者标识神经网络或其他认知或机器学习模型的损失表面的正确梯度。在机器学习、神经网络和认知系统操作的上下文中，损失表面，也被称为损失函数或成本函数，是表示为预测的不准确性所付出的代价(例如，分类预测中的不准确性的成本)的函数。白盒攻击涉及攻击者拥有对认知系统的完全访问权限，并且攻击者实际上可能是认知系统的用户，与攻击者无法访问安全交易的端点的黑盒攻击不同，或者与其中攻击者能够通过观察和/或更改系统部件和过程来与一个或多个端点进行交互的灰盒攻击不同。这样的白盒攻击主要基于梯度，如Goodfellow等人在“Explaining andHarnessing Adversarial Examples(解释和利用对抗性示例)”(ICLR 2015，2015年3月20日)中所述。例如，JSMA攻击是一种白盒攻击类型，其贪婪地一次修改一个像素，直到图像被不正确地分类为止。对于所有像素，FGSM攻击均在梯度的方向上行进单个步长。Carlini和Wagner(C&W)攻击使用梯度下降来优化自定义损失函数。其他类型的攻击包括对DNN的弹性网攻击(EAD)、结构化(Str)攻击等。

为了强化诸如在认知系统、神经网络或其他机器学习模型中实现的那些计算机模型之类的计算机模型抵抗这种攻击，可以在这些系统、网络或模型的训练期间生成对抗性输入，以训练这些系统、网络或模型对这些攻击所实现的对抗性扰动不那么敏感。然而，目前尚没有一种机制用以量化这些对抗性效果在此类系统、网络或模型的操作上的效果以使得选择使用哪些类型的扰动来提供此类对抗性输入以训练系统、网络或模型变得更有效。此外，目前尚没有一种机制可用来标识输入数据的哪些部分在受到对抗性扰动的扰动时在系统、网络或模型的操作上的影响要比输入数据的其他部分(例如，输入图像的区域)更大。

说明性实施例涉及一种改进的计算机工具，该计算机工具被配置为在不同的评估粒度下评估和量化各种对抗性攻击的有效性，例如，图像分析实施例中的网格级别(其中网格是一个或多个像素的群组)和图像级别对抗性模式有效性。用于指定对抗性攻击的有效性的一种新的统一度量被定义并被用来量化对抗性攻击的有效性。基于由说明性实施例的定义的度量提供的量化，已经确定输入数据(例如用于图像分类操作的图像输入数据)的对抗性扰动可以被分类为三种不同类型的对抗性扰动：(1)以抑制为主导的扰动，其降低图像的真实标签(t₀)的分类得分；(2)以促进为主导的扰动，其着重于提高基于对抗性扰动的攻击的目标标签(t)的得分；以及(3)均衡的扰动，其在抑制和促进中起着双重作用。

说明性实施例还提供机制，用于基于对抗性扰动的攻击在各种粒度下生成量化后的有效性的可视化，以便提供用户可理解的表示作为鲁棒性评估工具的一部分，用于关于认知计算系统、神经网络或其他机器学习计算机模型对各种类型的攻击以及在此类攻击中使用的特定扰动的脆弱性来评估认知计算系统、神经网络或其他机器学习计算机模型。在一些说明性实施例中，在给定任何一对输入图像和对象标签的情况下，即为与输入图像配对而故意选择的任何标签，无论该标签是真实标签还是非真实标签，经由应用可解释性得分(IS)掩模，可视化可以利用根据说明性实施例修改的分类激活图(CAM)来可视化地表示对抗性扰动在认知计算系统、神经网络或其他机器学习计算机模型的预测分类得分输出上的效果。在Zhou等人的“Learning Deep Features for Discriminative Localization(学习深度特征以进行区别性定位)”(IEEE计算机视觉和模式识别会议论文集，第2921-2929页，2016年)中已经描述了使用CAMS来标识由计算机模型用来标识输入图像类别的区别性图像区域。区别性图像区域是输入图像中在最终确定由计算机模型(例如，DNN、CNN等)生成的输出中最有影响力的区域。

在涉及图像分类的说明性实施例中，说明性实施例的修改的CAM机制突出显示了响应于对抗性扰动图像而由认知计算系统、神经网络或其他机器学习计算机模型(以下出于说明目的而假定为神经网络)检测到的区别性区域，其中视觉表示指示以抑制和促进为主导的扰动与输入图像的区别性区域相匹配。在这种可视化中，确定对抗性扰动高度对应于与真实标签、目标标签或两者相关联的区别性对象区域，而与攻击机制无关。说明性实施例的修改的CAM机制还使得能够直接视觉比较对抗性扰动生成的不同方法，从而提供对这些方法的功效的直观见解。

此外，在一些说明性实施例中，诸如通过基于各种对抗性攻击的量化后的有效性自动修改训练数据集以包括对抗性训练数据，执行对认知计算系统、神经网络或其他机器学习计算机模型的训练的修改，随后基于包括对抗性训练数据在内的修改后的训练数据集对认知计算系统、神经网络或其他机器学习计算机模型进行训练。即，在一些说明性实施例中，基于关于以抑制为主导的扰动和以促进为主导的扰动二者而对特定类型的攻击(例如对抗性扰动)最有效的图像区域的标识，说明性实施例的机制可以确定要扰动图像的哪些区域以生成用于对数据集进行训练的对抗性图像，以使认知计算系统、神经网络或其他机器学习计算机模型被训练成对此类对抗性图像输入不太敏感。因此，给定包括多个训练图像的训练数据集，可以根据图像的已标识区域自动扰动训练图像，以生成对抗性训练图像，其然后被添加到训练数据集中或者被存储为单独的对抗性训练图像数据集，其可以被用来通过机器学习过程来训练认知计算系统、神经网络或其他机器学习计算机模型，以便即使在存在此类扰动的情况下也能对图像进行适当分类。以这种方式，认知计算系统、神经网络或其他机器学习计算机模型可以被强化抵抗这种攻击，其中该强化针对通过说明性实施例的机制所确定的扰动最有效的图像的特定区域。

在进一步讨论说明性实施例的细节之前，重要的是首先了解对抗性扰动的设计方式。考虑到这一点，假设x₀标示原始的、未受扰动的图像，也被称为“自然”图像。然后通过关系式x'＝x₀+δ给出对抗性图像，其中δ是自然图像的一个或多个像素的扰动。通过将对认知计算系统、神经网络(诸如深度学习神经网络(DNN)、卷积神经网络(CNN)等等)或其他机器学习模型(以下出于说明目的而假定为CNN)的输入设置为x0和x'，作为将图像和/或图像中的对象分类为多个预定分类之一的分类器的CNN，将分别预测真实标签(或分类)t0和目标标签t(≠t0)。为了成功生成对抗性示例，即，为了找到对抗性扰动δ，使用了“规范球(norm-ball)”约束攻击技术，示例又是IFGSM、C&W、EAD和结构化攻击。

迭代FGSM攻击通过执行迭代快速梯度符号方法(IFGSM)，然后执行∈-球修剪(clipping)，来制作对抗性示例。迭代FGSM攻击被设计为是快速的而不是最优的。

可以在以下优化框架中统一C&W、EAD和结构化攻击——将δ最小化，但遵循：

f(x₀+δ，t)+λg(δ)；和

(x₀+δ)∈[0，1]ⁿ，h(δ)≤0， (1)

其中f(x₀+δ，t)标示针对目标错误分类的损失函数，g(δ)是惩罚对抗性扰动的规范的正则化函数，λ＞0是正则化参数，并且h(δ)可选地对δ施加硬约束。所有C&W、EAD和结构化攻击都具有类似的损失函数：

其中Z(x)j是分对数(logit)Z(x)的第j个元素，即CNN中最后一个softmax层之前的输出，并且κ是置信度参数。显然，随着κ增加，f的最小化将以高置信度达到目标标签。出于说明的目的，在本文中描述的说明性实施例中，默认将κ的值设置为1。

C&W攻击采用规范来惩罚对抗性扰动δ的强度，即，上述等式(1)中的g(δ)＝||δ||_p和h(δ)＝0，其中p∈{0，2，∞}。实际上，平方/>规范被使用。

EAD攻击将正则化项λ_g(δ)指定为以上等式(1)中的弹性网正则化子(regularizer)EAD攻击从经验上表明，使用弹性网正则化子提高了对抗性输入的可传递性。

结构化(Str)攻击通过选择g(δ)作为群组Lasso惩罚来考虑对抗性扰动的群组级稀疏性。同时，Str攻击通过针对公差∈＞0设置h(δ)＝||δ||_∞-∈来约束像素级别扰动。

一方面，说明性实施例的机制涉及一种改进的计算工具，该计算工具量化了诸如上面指出的那些之类的对抗性扰动在机器学习计算机模型(诸如认知计算系统、深度学习神经网络(DNN)或卷积神经网络(CNN)中使用的那些以及其他类型的机器学习计算机模型)的操作上的效果。正如可以理解的，这样的计算机模型可以被应用于各种不同的分类任务，然而出于本描述的目的，将假定示例说明性实施例中的计算机模型是执行图像分类操作的CNN。量化对抗性扰动的效果的问题直接与扰动对正确(真实)标签和目标标签二者的分类结果产生多大影响直接相关。

说明性实施例的机制利用基于CNN的分类模型中logit得分的变化来测量扰动在输出分类标签上的效果。可以在包括像素级别扰动和网格级别扰动在内的各种不同粒度级别下执行logit得分的变化的这种评估，其中网格级别扰动是影响与图像的局部区域相对应的像素群组的一种。基于logit得分的变化的网格级别敏感度测量也可以被扩展以执行图像级别敏感度分析。

为了说明由一个或多个说明性实施例的机制所利用的网格级别敏感度测量，考虑标示图像，其中，除非另有说明，否则使用图像的向量表示。回想一下x＝x₀给出了原始的、未受扰动的或“自然的”图像，而x＝x’对应于对抗性图像。图像x被划分为m个网格点，坐标为/>其中每个/>包含与图像的局部区域相对应的像素群组，并且/>其中[n]标示整个像素集{1,2，…，n}。为了便于讨论，像素群组/>在本文中被称为“网格”，其可以通过对图像x应用具有给定步幅的滑动掩模来获得，例如诸如Xu等人的“Structured Adversarial Attack:Towards General Implementation and BetterInterpretability(结构化对抗性攻击：迈向通用实现和更好的可解释性)”，2018年，第二节，arXiv预印本arXiv：1808.01664。

为了表征网格处的扰动，扰动/>被引入，其中如果/>则/>否则为0。这里，[a]_i或a_i标示任意向量a的第i个元素。网格级别对抗性扰动的敏感度测量通过其分别相关于真实标签t₀和目标标签t引入的logit变化来测量/>的效果。网格级别扰动/>(对于i∈[m])对图像分类的效果从两个方面来进行测量：a)相关于真实标签t₀的logit变化d_0,i，以及b)相关于目标标签t的logit变化d_t,i。即，

s_i＝d_0,i+d_t,i (4)

其中Z(x)_j给出相关于类j的logit得分，并且ξ>0是一个小的正数。

在以上关系式中，d_0,i测量在处的扰动被消除的情况下logit得分(相关于t₀)将改变多少。显然，较大的d_0,i意味着/>在抑制分类结果远离t₀方面起着更重要的作用。对照之下，d_t,i测量/>在促进目标分类结果方面的效果。/>的总体对抗性重要性s_i是d_0,i和d_t,i通过其/>规范的组合效果。在一些说明性实施例中，/>规范||[d_0，i，d_t，i]||₂也可以被用来定义s_i。因此，具有较小/>规范的网格在误导图像分类器中起着较小的作用。在上面的等式(2)和(3)中，将ξ的值设定为移除d_0,i和d_t,i的负值，即无关紧要的情况。

作为{d_0,i}和{d_t,i}的应用，促进-抑制比(PSR)被定义为ri，如下：

r_i＝log₂(d_t,i/d_0,i)；i∈[m] (5)

其描述了对错误分类的效果。在等式(5)中，采取对数是为了易于研究在不同状况下的PSR(r_i)，例如r_i≥1意味着d_t,i≥2d_0,i。然后将/>的效果分为三个类别：以抑制为主导的扰动、以促进为主导的扰动和均衡的扰动。

给定置信度得分η>0，如果r_i<-η，那么是(网格级别)以抑制为主导的扰动，其主要被用来减少真实标签的分类logit。如果ri>η，那么/>是(网格级别)以促进为主导的扰动，其主要被用来提高目标标签的分类logit。如果r_i∈[-η,η]，那么/>是(网格级别)均衡的扰动，其在抑制和促进方面起着双重作用。应当注意，可以使用η的不同阈值，为了易于分析和可视化选择η＝1。

如果在以上等式(2)和(3)中将设置为δ，则网格上的对抗性重要性s_i和PSR r_i可以被扩展到整个图像上的那些。此扩展提供了一种有效的方式来评估对抗性扰动的总体抑制/促进效果。类似地，可以将对抗性输入归类为三种效果类型之一，即：以抑制为主导的、以促进为主导的和均衡的对抗制，以进行图像级别评估。

图1A-图1E图示了对抗性输入及其由C&W攻击所生成的对抗性扰动。图1A示出了输入图像。图1B示出了对应于输入图像的热量图图表，其表示对于i∈[m]的网格级别扰动的/>规范。图1C示出了图1A的输入的/>和/>相对于i的子图。图1D是示出了图1A的输入的敏感度测量d_0,i和d_t,i相对于i的子图。图1E是示出了图1A的输入的PSR r_i相对于i的子图。在图1E中，虚线对应于r＝1和-1，并且所有网格索引均与已排序的PSR的索引对齐。

在图1A-图1E所描绘的示例中，t₀和t分别对应于“徽章”和“计算机”。图1A-图1E展示了对图形描述中的以上等式(2)-(5)中所阐述的敏感度测量的更多见解。从图1A-图1D中可以看出，{d_0,i}或{d_t,i}与每个网格处的对抗性扰动的强度有很强的相关性(根据的/>和/>规范)。此外，PSR r_i标识所考虑的对抗性扰动的类型。在此示例中，大多数扰动/>有助于将输出分类促进为目标类t(d_t,i>2d_0,i)。

下表1示出了在此示例情况下使用Resnet和Inception计算机模型的包括在4种攻击(迭代FGSM(IFGSM)、C&W、EAD和Str)下的500个对抗性输入的用于定量分析的对抗性扰动的强度与敏感度得分({d0,i}或{dt,i})之间的示例相关性。

从这些结果可以观察到，除了IFGSM攻击外，被研究的其他攻击在扰动强度和对抗性敏感度之间保持了良好的相关性。这说明IFGSM远非最佳的攻击，具有足以愚弄CNN的最小失真。还可以观察到，Str攻击具有最高的相关性，这证明了Xu等人在“StructuredAdversarial Attack:Towards General Implementation and Better Interpretability(结构化对抗性攻击：迈向通用实现和更好的可解释性)”(2018年)中所示出的其效率。

表1–对于所有网格i∈[m]，敏感度测量d_o,i，d_t,i和si与的/>规范之间的相关性，其中列名称为d_o,i意指/>并且对于后两列保持相同的符号规则。

表2总结了由图像级别PSR所确定的不同类型的对抗性图像的百分比。如从表2中可以看出的，除了Resnet上的IFGSM之外，没有哪个攻击机制占主导地位，这表明此处考虑的所有策略对于愚弄基于CNN的图像分类器都是有效的。作为例外，IFGSM主要集中于促进目标标签的得分。下面将示出，IFGSM攻击是结构盲目的，每次扰动都产生较小但相似的对抗性效果。还将示出，EAD和Str攻击呈现出相似的结果，因为这两种攻击方法均惩罚和/>失真度量的组合。将会更加清楚的是，这两种方法的对抗性扰动高度对应于与真实标签、目标标签或两者相关的区别性区域。这种面向结构的行为将导致更强的对抗性效果。

如上所指出，说明性实施例还提供了一种修改的分类激活图(CAM)可视化机制，用于可视化地表示数据部分，例如图像区域，其中对抗性扰动最有效地影响计算机模型的输出，例如图像分类或类标签。如Zhou等人在“Learning Deep Features forDiscriminative Localization(学习具有区别性的本地化的深层特征)”(2016年计算机视觉和模式识别的IEEE会议论文集第2921-2929页中)所述，CAM建立了一个本地化的深层表示，其披露了被标记图像上的计算机模型(例如CNN)的隐式关注。即，令F(x,c)标示具有类标签c的图像x的类激活图(CAM)。F(x,c)中的空间元素的强度表征了在此空间网格处激活的重要性，从而导致将图像分类到类标签c。

表2–500个图像上的以促进为主导的、以抑制为主导的和均衡的对抗性输入的百分比。

图2是示例图，示出了由C&W攻击生成的三个自然/对抗性示例(按行)的CAM，其中在每一行中从左到右示出了F(x’,t₀)，F(x₀,t₀)，x₀，F(x₀,t)，和F(x’,t)。从蓝色到红色的热量图颜色分别表示由CAM定位的最小和最大区别性区域。这里，将每行的CAM值归一化到同一基线(它们的最大值)，使得它们是可比较的。从图2中可以看出，在给定对抗性图像的情况下，CAM对于不同的输入图像和类标签产出不同的区别性区域。将F(x₀,t₀)与F(x’,t₀)进行比较，可以观察到，由于将对抗性扰动δ添加到x₀，对(x₀,t₀)的最区别性的区域被抑制。对照之下，从F(x₀,t)和F(x’,t)看，通过按δ执行有针对性的对抗性攻击，带有目标标签t的x₀的区别性区域被增强。

图2指示对抗性扰动的效果可以通过由CAM定位的特定于类的区别性图像区域来可视地解释。信息量最大的两个CAM是F(x₀,t₀)和F(x’,t)，因为其他两个CAM F(x₀,t)和F(x’,t₀)由较小的CAM得分给出，即与(x₀,t₀)和(x’,t)相比，(x₀,t)和(x’,t₀)给出了非主导的区别性图像区域。F(x0,t0)表征了对抗性扰动将抑制的区别性区域，而F(x’,t)揭示了对抗性扰动增强目标类的可能性的图像区域。这种抑制/促进分析与以PSR为特征的(网格级别)扰动的敏感度一致。然而，CAM在这种抑制/促进敏感度的图像级别提供可视解释。

借助于CAM和PSR评估，说明性实施例的机制提供了可解释性评分(IS)，以在图像级别使用CAM来量化对抗性扰动的可解释性。即，在PSR提供像素或网格级别的敏感度的测量的情况下，IS提供了在图像级别的敏感度的附加测量。“可解释性得分”是一种测量，其说明如何解释对抗性攻击与被攻击原始图像之间的关系。由说明性实施例的机制生成的敏感度覆盖掩模以PSR评估来表征，其指示对抗性攻击如何在图像上执行。在示例说明性实施例中，黑色意指攻击最有可能被识别为错误(或目标)标签的图像区域的攻击尝试，白色意指攻击与真实标签最相似的图像区域的攻击尝试，而灰色意指攻击与目标标签和真实标签二者都最相似的区域的攻击尝试。可解释性得分根据上述分析给出了对攻击的作用的指示。通过提供将对抗性攻击的效果可视化的工具，可视化通过手动或自动强化计算机模型和系统以抵御这些攻击行为的方式来帮助提高计算机模型和对应的计算机系统的鲁棒性。

说明性实施例的可解释性得分(IS)可以以如下方式来进行定义。给定CAM F(x,c)的向量表示，令B(x,c)标示布尔图，该布尔图对由CAM所定位的最区别性的区域进行编码，

其中v>0是给定的阈值，以突出显示特定于类的最区别性的区域，而[F(x,c)]_i是F(x,c)的第i个元素。v的值可以取决于特定的实现而被设置为任何期望的阈值，但是在一些说明性实施例中被设置为0.5作为实际值。关于(x,c)的对抗性扰动δ的IS由下式定义：

其中，是逐元素的乘积。

在上面的等式(7)中，如果区别性区域完美地预测了对抗性扰动的位置，即，如果对抗性扰动在区别性区域中，则IS(δ)→1。对照之下，如果IS(δ)→0，那么对抗性扰动不能由CAM来解释，即，对抗性扰动不在区别性区域中。再次，应该理解，CAM指示图像看起来最类似于类标签，例如，狗图像到猫标签。因此，如果标签是错误的标签，例如猫标签，则IS意味着以较高的IS值攻击图像的一部分可能更加有害，并解释了攻击将攻击数字图像的位置。

在下面的表3中，针对两种神经网络模型上的4种类型的对抗性攻击表示了IS。如从表3中可以看出的，就CAM F(x0,t0)和F(x0+δ,t)而言，结构化攻击产生了最佳的可解释性。对照之下，IFGSM提供了表3中考虑的神经网络模型的最差解释性。这与以下事实相一致：结构化攻击能够通过惩罚对抗性扰动的群组稀疏性来提取图像的重要局部结构。

表3–在ImageNet上的500多个自然/对抗图像求平均的针对两个神经网络模型上的4次攻击的IS。

IS评估对抗性图像的可解释性，例如，就对抗性图像通过CAM在宏级别对图像的扰动力较小而言，则攻击应在何处、如何以及在何种程度上攻击图像是最有效的。为了提供更精细的分析，将以上等式(5)中的PSR与CAM相结合，以可视地解释网格级别扰动的效果。回想一下，PSR将/>分为三种类型的扰动：r_i<-1的以抑制为主导的扰动，r_i>1的以促进为主导的扰动，以及r_i∈[-1,1]的均衡的扰动(其中同样，r_i是促进-抑制比(PSR))。

图3图示出了根据一个说明性实施例的来自图2的示例，其中在网格级别的对抗性扰动的位置处用PSR掩模{r_i}覆盖图像。上面讨论的IS给出了每个图像的可解释性级别，而PSR给出了网格级别的可解释性。因此，收集所有网格级别PSR结果也将意味着IS结果。如图3中所示，它们在图像级别上是一致的。即，从图3中可以看出，图3中所示的示例分别展示了的均衡、促进和抑制的作用，以及网格级别扰动的位置与区别性区域F(x₀,t₀)和/或F(x’,t)很好地匹配。图3进一步表明，对抗性示例的网格级别和图像级别的可解释性是一致的。

图4A图示出了示例图像，其中原始或自然图像对应于真实标签“犁”，并与具有目标标签“浴缸”(即，攻击试图使神经网络输出的标签，即错误分类)的不同攻击进行比较。如可以从图4A看出的，所考虑的对抗性攻击之间存在差异和相似性。特别地，将F(x’,t)与F(x₀,t₀)进行比较，C&W和Str-攻击提高了目标标签5的置信度的区别性区域显著不同。对照之下，EAD和IFGSM在F(x’,t)上有一些相似性。所有的攻击都抑制了与F(x₀,t₀)中最区别性的区域相对应的真实类的可能性。因此，图4图示出了可以根据说明性实施例的CAM机制很好地解释对抗性攻击的机制。

从以上所述，可以理解，说明性实施例的CAM机制可以被用来定位特定于类的区别性图像区域并揭示对抗性扰动的重要性的模式。通过移除不太重要的网格级别扰动，可以提高对抗性攻击的有效性，在这种情况下，可以通过其攻击成功率(ASR)及其规范来测量有效性，p∈{0，1，2，∞}。而且，如下文所讨论的，主导模式可以约束对抗性攻击的有效性。

为了说明对抗性扰动模式的有效性，考虑两种类型的对抗性扰动模式。第一种对抗性扰动模式在移除s_i≤β的网格后由最重要的网格级别扰动给出，其中s_i给出了的重要性力，而β是给定的阈值。在实践中，在一个说明性实施例中，{si}按升序被排序为/>并且对于具有/>的最小k，/>基于其累积力过滤较不重要的扰动。

第二种对抗性扰动模式由自然图像x₀的最区别性的区域及其标签t₀给出，该区域由上面的等式(6)中的CAM F(x₀,t₀)或B(x₀,t₀)定位。为了易于表示，令S标示上述扰动模式中涉及的像素组。因此，有益的是确定是否可以通过扰动由S提供的较少数目的像素来找到更有效的对抗性示例。为了在先验知识S下细化对抗性扰动，可以将先前在上面用等式(1)描述的问题重新构造为将δ最小化，条件是：

f(x₀+δ，t)+λg(δ)；和

(x₀+δ)∈[0，1]ⁿ，h(δ)≤0，

δ_i＝0,如果其中/>或者/>关系式(8)中的重新构造的问题可以与上述关系(1)中定义的问题类似地被解决，以优化仅由S索引的变量{δ_i}。由δ_S标示的关系式(8)中的问题的解产生所期望的对抗性攻击。

考虑到第一种对抗性模式图4B中的表总结了在2种神经网络模型下针对4种不同攻击方法的攻击成功率(ASR)和δ_S的/>规范失真。从图4可以看出，对于IFGSM，细化的对抗性扰动δ_S的/>规范被降低，同时具有较高的/>规范以及稍微较低的ASR。对于C&W，与δ_S的/>和/>规范的稍微提高相比，/>和/>规范被显著降低。对于EAD，δ_S的/>规范被改善，同时/>规范提高。对于Str攻击，在每个基于规范的失真度量上，δ_S变得比δ更有效。图4的结果证实了所发现的对抗性模式S的重要性，因为可以使用更少受扰动的像素获得更有效的攻击。/>

图5示出了在针对4种攻击方法的对抗性模式下，原始和细化的“海马”与“街车”对抗性示例(顶部与底部子图)的比较。在图5中，网格级别扰动的PSR在CAM上被覆盖为黑色、白色和灰色区域，其中，这些颜色表示以抑制为主导的(白色)、以促进为主导的(黑色)和均衡的(灰色)排列。从在CAM上覆盖PSR掩模，可以标识出用于抑制对应神经网络模型的正确或真实标签t₀输出和/或促进神经网络模型的目标标签t(攻击所寻求的错误分类标签)输出最有效的扰动。可以针对特定攻击或者可以针对多种攻击方法来完成此操作。

在第二种对抗性模式的情况下，仅在以抑制为主导的模式下细化对抗性扰动不是最佳的。图6图示出了由Str攻击方法所生成的“扁虫”到“节疤”对抗性攻击示例。图6示出了在由Str攻击方法所生成的对抗性模式/>下，原始与细化的对抗性示例(顶部与底部子图)。第三列处的子图呈现了网格级别扰动的规范，顶部子图中的最大值为0.25，而底部子图中的最大值为1.2。

如在图6中可以看到的，δ最初执行来提高目标标签(错误分类标签)在F(x₀,t₀)的最区别性部分之外的区域处的可能性。如果将δ细化到F(x₀,t₀)的最区别性区域下，则所得的δ_S将导致大得多的规范(/>失真在图6中被示出)。图6中的这个示例进一步证实了所发现的对抗性模式的重要性：特定于攻击的扰动高度对应于与真实标签、目标标签或两者相关的区别性区域。

鉴于上述情况，说明性实施例的机制提供了新的度量，即PSR和IS度量，以表示对计算机模型(诸如基于神经网络的模型)的操作进行基于对抗性扰动的攻击的有效性。说明性实施例进一步提供了一种用于生成这些对抗性扰动攻击的可视化的方法，该方法示出并解释了这种攻击的有效性。通过这些新的度量和可视化方法，已经表明对抗性扰动的效果与由CAM所定位的特定于类的区别性图像区域强关联。上面已经表明，可解释的对抗性模式可以被用来增强对抗性扰动的有效性。如将在下文中更详细地描述的，这些度量、方法和观察是实现改进的计算机工具以提供这种可视化以及自动生成扩展的训练数据集并训练待强化的计算机模型以抵抗这种攻击的基本基础。

应当理解，在整个说明书中，术语“机制”被用来指代执行各种操作、功能等的本发明的元件。本文中所使用的术语“机制”可以是以装置、过程或计算机程序产品形式的说明性实施例的功能或方面的实现。在过程的情况下，该过程由一个或多个设备、装置、计算机、数据处理系统等来实现。在计算机程序产品的情况下，由计算机程序产品中或计算机程序产品上体现的计算机代码或指令所表示的逻辑由一个或多个硬件设备执行，以便实现与特定“机制”相关联的功能性或者执行与之相关联的操作。因此，本文所描述的机制可以被实现为专用硬件、在通用硬件上执行的软件、存储在介质上的软件指令以使得指令可以由专用或通用硬件容易地执行、用于执行功能的过程或方法、或以上任何一项的组合。

关于说明性实施例的特定特征和元素，本说明书和权利要求书使用术语“一个(a)”、“其至少一个(at least one of)”和“其一个或多个(one or more of)”。应当理解，这些术语和短语旨在声明在特定说明性实施例中存在至少一个特定特征或元素，但是也可以存在多于一个。即，这些术语/短语不旨在将说明书或权利要求书限制为存在单个特征/元素，或者要求存在多个这样的特征/元素。相反，这些术语/短语仅要求至少一个特征/元素，并且多个这样的特征/元素的可能性在说明书和权利要求书的范围内。

此外，应当理解，关于描述本发明的实施例和特征而在本文中使用的术语“引擎”不旨在限制用于实现和/或执行归因于引擎和/或由引擎执行的动作、步骤、过程等的任何特定实现。引擎可以是但不限于执行指定功能的软件、硬件和/或固件或其任何组合，包括但不限于将通用和/或专用处理器与被加载或存储在机器可读存储器中并由处理器执行的适当软件结合的任何使用。此外，除非另有指定，否则与特定引擎相关联的任何名称都是为了便于参考，而不旨在限制到特定的实现。另外，归因于引擎的任何功能性可以由多个引擎平等地执行，可以被并入相同或不同类型的另一引擎的功能性中和/或与之组合，或者可以被分布在各种配置的一个或多个引擎上。

另外，应当理解，本描述针对说明性实施例的各种元素使用多个各种示例，以进一步说明了说明性实施例的示例实现，并且有助于理解说明性实施例的机制。这些示例旨在是非限制性的，并且未穷尽用于实现说明性实施例的机制的各种可能性。鉴于本说明书，对于本领域普通技术人员而言明显的是，在不脱离本发明的精神和范围的情况下，除了本文所提供的示例之外，或者替代本文所提供的示例，存在针对可以被利用的这些各种元素的许多其他替代实现。

本发明可以是系统、方法和/或计算机程序产品。该计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以包括面向对象的编程语言(诸如Java、Smalltalk、C++等)和常规过程编程语言(诸如“C”编程语言或类似编程语言)在内的一种或多种编程语言的任意组合编写的源代码或对象代码。计算机可读程序指令可以完全在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行，部分在用户计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以与外部计算机建立连接(例如使用互联网服务提供方通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来将电子电路个性化，从而执行计算机可读程序指令，以便执行本发明的各方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

图7是根据一个说明性实施例的示例框图，其图示出了改进的计算机工具的主要操作元件，该计算机工具被称为对抗性扰动攻击敏感度(APAS)可视化和模型训练系统(或者为简明起见简称为APAS)。图7中所示的元件可以按照如下方式来实现：被配置为执行元件的关联操作的特定配置的硬件；在硬件上执行的软件，其中软件被特定配置为在由硬件执行时执行元件的关联操作；或者这种特定配置的硬件和所执行的软件的任何组合。应当理解，在硬件上执行软件的情况下，鉴于本说明书，可以生成各种计算机代码以实现本文阐述的操作，并且说明性实施例不限于任何一种特定的计算机代码实现。此外，应当理解，可以在外部计算设备之内和与外部计算设备一起提供其他硬件/软件元件以有助于基本计算机功能，诸如控制、消息收发、数据传输等。

如图7中所示，APAS可视化和模型训练系统730包括网格级别扰动敏感度测量引擎732、图像级别可视化生成引擎734、对抗性攻击有效性验证引擎736和扩展的训练数据集生成引擎738。应当理解，尽管图7将计算模型训练系统750示出为与APAS可视化和模型训练系统730相分离的实体，但是在其他说明性实施例中，计算模型训练系统750可以被集成在APAS可视化和模型训练系统730中并作为其一部分。

APAS可视化和模型训练系统730基于由APAS可视化和模型训练系统730执行的对抗性输入有效性的评估来接收用于扩展的训练数据集。APAS可视化和模型训练系统730还接收用于评估的对抗性攻击输入数据集720。这些输入710和720可以各自包括表示用于由计算机模型(例如，DNN、CNN、认知计算系统模型或其他机器学习模型)处理的数据集合的多个输入数据结构。例如，在其中由计算机模型执行图像分类的一些说明性实施例中，输入数据集包括表示数字图像的数据结构。在图像分类的这种上下文中，训练数据集710包括数字图像的集合，以及将由正确训练的计算机模型基于数字图像作为输入来生成的它们对应的正确类别标签t₀。用于评估的对抗性攻击输入数据集720包括根据一种或多种对抗性攻击方法的具有一个或多个扰动的数字图像的集合，以及用于错误分类的对应的目标标签t。

网格级别扰动敏感度测量引擎732提供逻辑，该逻辑被配置为响应于对抗性输入来评估诸如DNN、CNN、认知计算系统模型或其他机器学习模型之类的计算机模型的操作。例如，输入图像可以具有各种网格，例如，如前所述的像素的群组，其中网格中的像素被扰动以生成不同的对抗性输入图像，例如，自然图像的第一对抗性图像可以通过扰动自然图像的第一网格的一个或多个像素来生成，而自然图像的第二对抗性图像可以通过扰动自然图像的第二网格的一个或多个像素来生成。通过计算机模型处理这些对抗性图像，并生成自然图像的CAM，以用于在确定说明性实施例的敏感度测量和对应的可视化时使用。

如前所述，使用相关于真实标签t₀的logit变化d_0,i和相关于目标标签t的logit变化d_t,i来确定计算机模型的操作对对抗性攻击扰动的敏感度。此外，基于logit变化来生成对抗性攻击扰动的促进-抑制比(PSR)测量(r_i)。这些度量允许基于这些度量的预定义阈值或范围将扰动分类为以抑制为主导的、以促进为主导的和均衡的扰动分类。

然后，对于每个扰动，这些度量和/或它们的分类由图像级别可视化生成引擎734使用，该引擎提供逻辑以生成用于CAM的PSR掩模覆盖，其说明了自然图像的确定性区域与扰动之间的相关性，以及扰动的抑制、促进或均衡效果。如前所述，PSR掩模将扰动的抑制、促进或均衡效果的区域表示为覆盖CAM的区域的彩色区域，例如黑色、白色和灰色区域。具有PSR掩模覆盖的CAM可以由图像级别可视化生成引擎734经由图形用户界面显示来输出，以供用户查看，以便向用户给出关于在由计算机模型进行抑制正确分类并促进错误分类的对抗性攻击中最有效的图像中的部分以及更均衡的对抗性攻击中的扰动的更多见解。

对抗性攻击有效性验证引擎736提供用于评估CAM和PSR掩模的组合的逻辑，诸如通过生成CAM的可解释性得分(IS)来评估。IS提供了一种度量，该度量指示对抗性攻击是否是可解释的——即使其扰动无法用人眼辨别。即，许多小的对抗性扰动产生了可解释性，这可视地解释了为什么攻击针对特定的图像区域——即使人眼无法察觉它们也是如此。因此，IS提供了新的度量(可解释性)，而PSR提供了有关促进/抑制的新度量，该度量可以被用来评估并比较不同攻击方法的性能。IS可以帮助计算机系统防御抵抗对抗性攻击，例如拒绝具有真实标签上的较低可解释性和/或目标标签上的较高可解释性的数据。CAM的IS提供了关于CAM区域的扰动有效性的测量，并且可以被用来标识哪些扰动在对抗性攻击中最有效，以引起由计算机模型抑制正确的计算机模型输出和促进目标错误分类。基于对扰动的IS测量，可以将提供阈值级别的可解释性得分的扰动选择为对对抗性攻击的效果最有影响力。

所选择的扰动可以由扩展的训练数据集生成引擎738使用，扩展的训练数据集生成引擎738提供用于自动生成附加训练数据结构(诸如新的训练图像)的逻辑，在附加训练数据结构中存在与所选择的扰动相对应的扰动。例如，可以在与所选择的扰动相对应的目标区域中将噪声注入到自然图像的数据中，从而对自然图像进行扰动并生成包括所选择的扰动的对抗性图像。在该示例实现中，可以生成多个附加训练数据结构或图像并将其添加到训练数据集710，以生成扩展的训练数据集740。

扩展的训练数据集740被输入到计算模型训练系统750，其执行基于机器学习的操作以使用扩展的训练数据集740来训练原始计算模型745。由于扩展的训练数据集740包括图像，所述图像包括结合有针对这些图像的真实标签的对抗性攻击扰动，所以原始计算模型745被训练以得到强化从而抵抗这种对抗性攻击扰动，并降低计算模型745对这种对抗性攻击的敏感度。计算模型训练系统750输出强化的计算模型760以用于在根据其中实现了强化的计算模型760的图像分类系统处理新的输入图像时使用。强化的计算模型760可以被安装在执行强化的计算模型760以单独地或与由计算系统执行的其他操作相结合地执行分类操作的计算系统中。例如，计算系统可以实现认知计算机制，该认知计算机制利用强化的计算模型760的分类操作作为由认知计算机制执行的整体认知操作的一个组件，认知计算机制例如是患者治疗推荐、患者医学图像分析、车辆导航和/或避障或其他车辆安全系统(例如，自动制动、自动转向、经由仪表板或可听警告机制输出的警告通知等)等。

说明性实施例的机制涉及改进的计算机工具，其评估对抗性攻击扰动对计算机模型的操作的有效性，生成对抗性攻击扰动的效果的可视化以供用户使用，以及在一些说明性实施例中，基于所确定的对抗性攻击扰动的有效性，自动生成扩展的训练数据集，并训练计算机模型以使其强化来抵抗这种对抗性攻击扰动。如此，可以在许多不同类型的数据处理环境中利用说明性实施例。为了提供用于描述说明性实施例的特定元件和功能性的上下文，在下文中提供图8-图9作为其中可以实现说明性实施例的各方面的示例环境。应当理解，图8-图9仅是示例，并且不旨在声明或暗示关于其中可以实现本发明的各方面或各实施例的环境的任何限制。在不脱离本发明的精神和范围的情况下，可以对所描绘的环境进行许多修改。

说明性实施例的机制可以在计算系统中实现，并且可以由该计算系统来实现，该计算系统特别配置有上文关于图7先前描述的操作元件，从而使该计算系统成为专用或特用的计算系统。根据先前描述的说明性实施例的机制，计算系统可以单独地操作以评估计算机模型上的对抗性攻击扰动的有效性，并提供该有效性的可视化。在其他说明性实施例中，计算系统可以操作来还生成扩展的训练数据集，该训练数据集具有表示对抗性攻击扰动的附加训练数据结构，所述对抗性攻击扰动被发现或者是通过抑制真实标签、或者是促进对抗性攻击的目标标签或者是两者兼而有之而最有效地引起计算机模型的错误分类。在其他说明性实施例中，计算机系统实际上可以利用扩展的训练数据集来执行计算机模型的训练，从而强化计算机模型抵抗这种对抗性攻击。在一些说明性实施例中，这些前述说明性实施例中的一个或多个中的这些机制与认知计算系统结合进行操作或作为其一部分进行操作，该认知计算系统利用计算机模型来执行分类操作，在该分类操作后，认知计算系统的其他操作可以进行操作。

关于认知计算系统架构，认知计算系统实现请求处理流水线，请求处理方法和请求处理计算机程序产品，利用这些来实现说明性实施例的机制。这些请求可以被提供为结构化或非结构化的请求消息、自然语言问题或用于请求由认知系统执行的操作的任何其他合适的格式。在一些说明性实施例中，请求可以是输入数据集的形式，该输入数据集将根据由机器学习、神经网络、深度学习或由认知系统实现的其他基于人工智能的模型执行的认知分类操作来进行分类。取决于特定的实现，输入数据集可以表示各种类型的输入数据，诸如音频输入数据、图像输入数据、文本输入数据等。例如，在一种可能的实现中，输入数据集可以表示医学图像，诸如X射线图像、CT扫描图像、MRI图像等，其具有被分类为一个或多个预定义分类的图像的部分或者图像整体。在其他可能的实现中，输入数据集可以表示面部图像、文本图像、生物特征图像，诸如在车载摄像头系统中的环境的摄像头捕获的图像、自然语言文本内容、或者任何可以被表示为数据并且要对其执行分类操作以便由认知系统执行认知操作的其他类型的输入。

应当理解，输入数据的分类可以导致具有标签或注释的被标记的数据集，该标签或注释表示未标记的输入数据集被分类到的对应类。这可以是由认知系统执行其他认知操作时的中间步骤，所述其他认知操作支持人类用户的决策，例如，认知系统可以是决策支持系统，或者通过其他自动化机制(诸如车辆控制和/或安全系统)。例如，在医学领域中，认知系统可以操作来执行医学图像分析，以标识针对临床医生的标识的异常、患者诊断和/或治疗推荐、药物相互作用分析或大量其他可能的决策支持操作中的任何一种。在安全领域中，认知系统可以操作来控制对物理场所、数据资产、计算资产或将要限制访问的任何其他类型的资产的访问。在车辆控制和/或安全系统中，认知系统可以操作来控制车辆的其他系统以保持车辆及其乘客的安全，诸如自动制动、转向等。在其他领域中，认知系统可以基于期望的实现来执行不同类型的决策制定操作或决策支持操作。

应当理解，尽管在下文的示例中认知系统被示为具有单个请求处理流水线，但是该认知系统实际上可以具有多个请求处理流水线。取决于期望的实现，每个请求处理流水线可以被分别训练和/或配置为处理与不同域相关联的请求，或者被配置为对输入请求执行相同或不同的分析。例如，在一些情况下，第一请求处理流水线可以被训练以对涉及医学图像分析的输入请求进行操作，而第二请求处理流水线可以被配置和训练以对与涉及自然语言处理的患者电子医学记录(EMR)分析有关的输入请求进行操作。在其他情况下，例如，请求处理流水线可以被配置为提供不同类型的认知功能或支持不同类型的应用，诸如一个请求处理流水线被用于患者治疗推荐生成，而另一流水线可以被训练以进行基于金融行业的预测等等。

此外，在上述示例中，每个请求处理流水线可以具有它们在其上摄取和操作的它们自己的一个或多个关联语料库，例如，一个用于医疗文档的语料库和另一个用于金融行业领域相关文档的语料库。在一些情况下，请求处理流水线可以各自在输入问题的相同域上操作，但是可以具有不同的配置，例如不同的注释器或被不同地训练的注释器，从而生成不同的分析和潜在答案。认知系统可以提供：附加逻辑，用于诸如基于输入请求的确定域而将输入问题路由到适当的请求处理流水线，组合和评估由多个请求处理流水线执行的处理所生成的最终结果；以及有助于利用多个请求处理流水线的其他控制和交互逻辑。

说明性实施例可以通过提供机制来评估和可视化对抗性攻击对由请求处理流水线或认知计算系统作为整体所使用的计算机模型的有效性而被集成在这些请求处理流水线的功能性中、增强和扩展这些请求处理流水线的功能性，并通过提供扩展的训练数据集和计算机模型的训练来强化它们以抵抗这些对抗性攻击，从而潜在地保护在这些流水线中或由认知系统作为整体所实现的计算机模型免受对抗性攻击。特别地，在认知系统的其中训练的神经网络模型、机器学习模型，深度学习模型等被采用来生成标记的数据集输出的部分中，可以实现说明性实施例的机制来训练神经网络或其他机器学习或认知模型，以便将噪声引入到训练数据集的输入数据结构中，并训练计算机模型以正确分类输入图像——即使在存在这种对抗性攻击扰动的情况下。

由于说明性实施例的机制可以是认知系统的一部分，并且可以通过强化计算机模型以抵抗这种对抗性攻击来保护认知系统免受对抗性攻击，从而改善认知系统的操作，因此重要的是要理解实现请求处理流水线的认知系统如何被实现。应当理解，图8-图9中描述的机制仅是示例，并且不旨在声明或暗示关于利用其可以实现说明性实施例的认知系统机制的类型的任何限制。在不脱离本发明的精神和范围的情况下，可以在本发明的各种实施例中对图8-图9中所示的示例认知系统进行许多修改。

作为概述，认知系统是专用计算机系统或一组计算机系统，其配置有硬件和/或软件逻辑(与软件在其上执行的硬件逻辑相结合)以模拟人类的认知功能。这些认知系统将类似于人类的特性应用来传达和操纵思想，这些思想在与数字计算的固有优势相结合时，可以大规模地以高准确度和弹性解决问题。认知系统执行一个或多个计算机实现的认知操作，该操作近似人类的思维过程，并使得人和机器能够以更自然的方式进行交互，从而扩展并放大人类的专业知识和认知。例如，认知系统包括诸如基于自然语言处理(NLP)的逻辑的人工智能逻辑，以及机器学习逻辑，其可以作为专用硬件、在硬件上执行的软件、或者专用硬件和在硬件上执行的软件的任意组合而被提供。这个逻辑可以实现诸如神经网络模型、机器学习模型、深度学习模型之类的一个或多个计算机模型，其可以出于特定目的而被训练，以用于支持由认知系统执行的特定认知操作。根据说明性实施例的机制，该逻辑进一步实现APAS可视化和模型训练系统，诸如以上关于图7描述的APAS可视化和模型训练系统730，用于评估对抗性攻击对计算机模型的有效性，并且在一些情况下实际上生成扩展的训练数据集，并训练计算机模型以得到强化从而抵抗此类对抗性攻击。以这种方式，强化的模型引擎增强了认知计算系统以免受对抗性攻击。

认知系统的逻辑实现(多个)认知计算操作，其示例包括但不限于：问题回答、语料库中的内容的不同部分内的相关概念的标识、用于控制对场所或资产的访问的安全操作、智能搜索算法诸如互联网网页搜索(例如，医疗诊断和治疗推荐、其他类型的推荐生成(例如，特定用户感兴趣的项目、潜在的新联系人推荐等))、图像分析、音频分析、车辆系统控制等。可以使用说明性实施例的认知系统实现的认知操作的类型和数目是巨大的，并且不能在本文中全部进行记录。任何模拟人类但是以人工智能或认知计算的方式做出的决策和分析的认知计算操作都旨在落入本发明的精神和范围之内。

IBM Watson^TM是一个这种认知计算系统的示例，该认知计算系统可以处理人类可读的语言并以更大规模且远比人类快得多的速度以类似于人类的高准确度标识文本段落之间的推断。通常，这种认知系统能够执行以下功能：

·对人类语言和理解的复杂性进行导航

·摄取和处理大量结构化和非结构化数据

·生成和评估假设

·加权和评估仅基于相关证据的响应

·提供特定于情形的建议、见解和指导

·通过机器学习过程利用每次迭代和交互提高知识和进行学习

·使得在影响点处进行决策(上下文指导)

·与任务成比例地缩放

·扩展并放大人类的专业知识和认知

·从自然语言中标识出共鸣的、类似于人类的属性和特质

·从自然语言中推断出各种特定于语言或不可知的属性

·来自数据点(图像、文本、语音)的高度相关回忆(记忆和回忆)

·通过基于经验模仿人类认知的情境意识来预测和感知

·基于自然语言和特定证据来回答问题

一方面，认知计算系统(或简称为“认知系统”)提供用于处理输入数据以执行认知操作的机制，诸如回答向这些认知系统提出的问题和/或处理可能会或可能不会被提出作为自然语言问题的请求。请求处理流水线和/或认知计算系统包括在处理请求的数据处理硬件上执行的一个或多个人工智能应用，所述请求可以以结构化或非结构化的方式被制定为具有对认知操作的执行的隐含请求的输入数据等。请求处理流水线接收来自各种源的输入，包括通过网络的输入、电子文档或其他数据的语料库、来自内容创建者的数据、来自一个或多个内容用户的信息以及来自其他可能输入源的其他此类输入。数据存储设备存储数据语料库。利用请求处理流水线，内容创建者在文档中创建内容，以用于用作数据语料库的一部分。文档可以包括用于在认知计算系统中使用的任何文件、文本、文章或数据源。例如，请求处理流水线访问例如金融领域、医学领域、法律领域等有关域或主题领域的知识体系，其中知识体系(知识库)可以以各种配置进行组织，例如诸如本体之类的特定于域的信息的结构化存储库、或与该域相关的非结构化数据、或有关该域的自然语言文档的集合。在一些说明性实施例中，一个或多个语料库可以包括用于由认知计算系统处理的图像数据，并且根据上述机制，可以包括训练数据集和对抗性攻击输入数据以用于评估。

内容用户可以是人类或自动计算系统，内容用户将请求输入到实现请求处理流水线的认知系统。请求处理流水线然后通过评估文档、文档的部分、语料库中的数据的部分、图像等，使用数据语料库中的内容来处理请求。当过程针对语义内容而评估文档的给定部分时，该过程可以使用多种约定从请求处理流水线中查询此类文档，例如，将查询作为格式正确的问题发送至请求处理流水线，该问题然后由请求处理流水线解译并提供响应。语义内容是基于能指(signifier)(诸如单词、短语、代号和符号)与它们所代表的含义之间的关系、其注释或内涵的内容。换言之，语义内容是诸如通过使用自然语言处理来解译表达的内容。

请求处理流水线接收输入，解析输入以提取输入的主要特征，使用所提取的特征来制定查询，然后将那些查询应用于数据语料库。基于查询对数据语料库的应用，通过在数据语料库中查找数据语料库中有可能包含对输入和明示或暗示的请求有价值的响应的部分，请求处理流水线生成一组假设或候选结果。然后，请求处理流水线使用各种推理算法对输入的内容以及在查询的应用期间找到的数据语料库的每个部分执行深度分析。可能存在数百甚至数千个被应用的推理算法，每个推理算法执行例如比较、自然语言分析、词法分析、图像分析等等不同的分析，并生成得分。例如，一些推理算法可以查看输入问题的语言内所找到的术语和同义词与数据语料库中找到的部分的匹配情况。其他推理算法可以查看语言中的时间或空间特征，而另外一些推理算法可以评估数据语料库的部分的源并评估其真实性。还有一些推理算法可以对输入请求中的输入图像执行图像处理和分类操作，从而使用计算机模型(诸如DNN、CNN或其他机器学习计算机模型)将图像分类为多个预定义图像分类之一。

从各种推理算法获得的得分指示基于该推理算法的特定焦点区域而由输入推断潜在响应的程度。然后，对照统计模型对每个结果得分进行加权。统计模型捕获在请求处理流水线的训练时段期间，在针对特定域的内容的两个相似部分之间建立推断时，推理算法执行得如何。统计模型被用来总结请求处理流水线有关由输入所推断的潜在响应的证据所具有的置信度级别。对每个候选结果重复此过程，直到请求处理流水线标识表面上显著强于其他候选结果的候选结果，并且因此为输入请求生成最终结果或已排名的结果集，在一些实现中，该结果或结果集可以是控制信号，其被发送给其他计算机系统、致动器或其他电子设备以控制另一个系统的操作，例如在车辆控制和安全系统中，结果可以是被发送给自动制动系统、自动转向系统、避障系统、仪表板警告系统等的控制信号。

图8描绘了分布式数据处理系统的一个说明性实施例的示意图，其中在计算机网络802中提供了实现请求处理流水线808的认知计算系统800。虽然认知计算系统800可以取决于期望的实现而被配置为用于例如图像分析、面部识别、车辆控制、问题回答、认知内容搜索等的各种不同目的，但是将出于本描述的目的假定认知计算系统800被配置为执行图像分析操作，该图像分析操作可以包括任何图像分析操作，包括但不限于面部识别、基于生物特征的访问控制(例如指纹或视网膜扫描访问控制)、基于摄像头的对象标识以及对应的控件(诸如车辆控件)等等。在车辆控制机制的情况下，认知计算系统可以在车辆的车载计算系统中被实现，并且因此可以从图8中的其他所描绘的计算系统进行无线操作。

认知系统800在连接到计算机网络802的一个或多个计算设备804A-D(包括一个或多个处理器和一个或多个存储器，以及可能的在本领域中公知的任何其他计算设备元件，包括总线、存储设备、通信接口等)上被实现。仅为了说明的目的，图8描绘了仅在计算设备804A上实现的认知系统800，但是如上所指出，认知系统800可以被分布在多个计算设备上，诸如多个计算设备804A-D。网络802包括：多个计算设备804A-D，其可以操作为服务器计算设备；以及810-812，其可以操作为客户端计算设备，其经由一个或多个有线和/或无线数据通信链路而彼此通信以及与其他设备或组件通信，其中每个通信链路包括电线、路由器、交换机、发射机、接收机等中的一个或多个。认知系统800的其他实施例可以与除本文中所描绘的那些之外的组件、系统、子系统和/或设备一起使用。

认知计算系统800被配置为实现从各种源接收输入的请求处理流水线808。可以以执行认知操作等的结构化或非结构化(例如，自然语言)的请求的形式提出请求。备选地，“请求”可以简单地是旨在由认知计算系统800对其进行操作的数据的输入，例如图像、文本、音频输入等，其将由说明性实施例的强化模型进行分类，然后由认知过程对其进行操作以生成认知操作的结果。例如，认知系统800从网络802、电子文档806的一个或多个语料库、认知系统用户、图像捕获设备、音频捕获设备、生物特征扫描仪、文本消息拦截设备和/或其他数据源以及其他可能的输入源接收输入。

在一个实施例中，认知系统800的一些或全部输入被路由通过网络802。网络802上的各种计算设备804A-D包括用于内容创建者和认知系统用户的接入点，这两者可以是人工创建者/用户或者是自动、半自动或在用户手动干预下操作的其他计算系统。一些计算设备804A-D包括用于存储数据的一个或多个语料库806的数据库的设备(仅出于说明的目的，其在图8中被示出为单独的实体)。还可以在一个或多个其他网络附接的存储设备上、在一个或多个数据库或图8中未明确示出的其他计算设备中提供数据的一个或多个语料库806的部分。在各种实施例中网络802包括本地网络连接和远程连接，使得认知系统800可以在任何大小的环境(包括本地和全球性例如因特网)中操作。

取决于认知系统的特定领域和实现，数据的一个或多个语料库806可以采取许多不同的形式。在自然语言实现中，一个或多个语料库806可以由自然语言非结构化文档、结构化文档等组成。在其中正在执行图像分析的领域中，一个或多个语料库806可以包括用于各种类型的实体的图像数据。在音频分析领域中，一个或多个语料库806可以包含表示不同实体或可听声音源的音频模式。一个或多个语料库806的内容可以取决于执行认知操作所需的数据类型而变化。

在一个实施例中，内容创建者在数据的一个或多个语料库806的文档中创建内容，以用于用作认知系统800的数据语料库的一部分。文档包括用于在认知系统800中使用的任何文件、文本、文章或数据源。认知系统用户经由到网络802的网络连接或互联网连接来访问认知系统800，并将请求输入到认知系统800，该请求基于数据的一个或多个语料库806而被处理。认知系统800经由请求处理流水线808解析和解译该请求，并且向认知系统用户例如认知系统用户810提供响应，该响应包含对请求进行处理的一个或多个结果。在一些实施例中，认知系统800在候选响应的排名列表中向用户提供响应，而在其他说明性实施例中，认知系统800提供单个最终响应或者提供最终响应与其他候选响应的排名列表的组合。

认知系统800实现流水线808，该流水线808包括多个阶段，用于基于从数据的一个或多个语料库806获得的信息来处理输入请求。流水线808基于对输入请求和数据的一个或多个语料库806的处理来生成对于输入请求的响应。

在一些说明性实施例中，认知系统800可以是可从纽约州艾蒙克市国际商业机器公司获得的IBM Watson^TM认知系统，其利用本文描述的一个或多个说明性实施例的机制进行了增强。例如，可以从IBM公司网站，IBM红皮书等获得有关IBM Watson^TM认知系统的请求处理流水线的更多信息。例如，有关IBM Watson^TM认知系统的流水线的信息可以在Yuan等人的“Watson and Healthcare(沃森医疗保健)”(IBM developerWorks，2011年)和Rob High的“The Era of Cognitive Systems:An Inside Look at IBM Watson and How it Works(认知系统的时代：IBM沃森及其工作原理的内幕)”中找到(IBM红皮书，2012年)。

如上所指出，虽然可以以结构化或非结构化(例如，自然语言)请求的形式提出从客户端设备到认知系统800的输入。即，可以将输入格式化或构造为任何合适类型的请求，或者简单地构造为要被处理的输入数据集，其可以使用结构化和/或非结构化输入分析来被解析和分析，包括但不限于诸如IBM Watson^TM之类的认知系统的自然语言解析和分析机制，以确定执行认知分析并提供认知分析结果的基础。这样的处理可以备选地或另外地包括图像分析、音频分析、文本图像分析、生物特征分析或利用神经网络、机器学习或根据说明性实施例可以被训练和强化以抵抗对抗性攻击的其他认知模型的任何其他类型的认知分析。

对请求的处理涉及将训练后的模型例如神经网络模型、机器学习模型、深度学习(认知)模型等应用于输入数据集，如先前所述。该输入数据集可以表示实际请求本身的特征，与将在其上执行处理的请求一起提交的数据等。将训练后的模型应用于输入数据集可能会在认知系统执行认知计算操作期间的各个点处发生。例如，可以在特征提取和分类期间通过处理请求的特征提取阶段来利用训练后的模型，例如，在请求中采取自然语言术语并将其分类为该术语对应于的多个可能概念之一，例如将输入请求中的术语“卡车”分类为多个可能的类，其中之一可以是“车辆”。作为另一示例，包括多个像素数据的图像的一部分可以有训练后的模型被应用于其上以确定该图像的该部分中的对象是什么或者将图像整体进行分类。说明性实施例的机制在计算机模型自身上进行操作，以评估其对对抗性攻击的敏感度，并潜在地强化它们以抵抗这种对抗性攻击，其中计算机模型的操作可以是整个认知系统的认知计算操作中的中间操作，例如，将医学图像的一部分分类为多个不同解剖结构之一可以是执行异常标识和治疗推荐认知计算操作的中间操作。

如图8中所示，根据说明性实施例的机制，认知系统800被进一步增强，以包括诸如先前关于图7所描述的APAS可视化和模型训练系统730，其在请求处理流水线808中实现的一个或多个计算机模型上操作，从而评估其对对抗性攻击的敏感度，即对抗性攻击实现的扰动对计算机模型的正确分类或错误分类的效果，并潜在地强化计算机模型以抵抗此类攻击，从而生成强化的模型760。应当理解，所描绘的示例假设以下实施例，其中APAS可视化和模型训练系统730并入了图7的计算模型训练系统750以便生成强化的模型760。

可以将APAS可视化和模型训练系统730作为外部引擎提供给实现训练后的模型760的逻辑。APAS可视化和模型训练系统730操作来评估计算机模型对特定对抗性攻击扰动的敏感度测量，并且生成计算机模型操作的CAM表示，其带有覆盖在CAM上的敏感度掩模(例如先前描述的PSR掩模)，以标识输入的区域，计算机模型依赖该区域以执行其分类，其与计算模型对扰动具有预定级别的敏感度的区域相关，这些扰动抑制真实标签、促进错误分类标签(目标标签)或具有均衡的抑制和促进效果。APAS可视化和模型训练系统730可以基于给定的训练后的神经网络进一步修改和重新训练或创建新的受保护的计算机模型，例如神经网络模型，即生成强化的模型760。如上所述，这是通过使用具有附加训练数据结构的扩展的训练数据集重新训练计算机模型例如神经网络来实现的，该附加训练数据结构实现了基于对计算模型的敏感度的评估而选择的选定对抗性攻击扰动。所得的强化模型760被训练，以便即使在存在这种对抗性攻击扰动的情况下，也可以正确地分类和输出用于输入数据的对应标签。因此，在保护或强化计算机模型(例如神经网络)以抵抗诸如规避攻击之类的对抗性攻击的同时，仍对输入数据集执行正确的分类和标记。可以将所得的分类或标记的数据集提供给请求处理流水线408中的下游的进一步处理阶段，以进一步处理和执行采用了认知系统400的整体认知操作。

应当理解，尽管图8图示出了APAS可视化和模型训练系统730以及训练和强化的模型逻辑760的实现作为认知系统800的一部分，但是说明性实施例不限于此。而是，在一些说明性实施例中，APAS可视化和模型训练系统730和强化的模型逻辑760本身可以被提供为服务，客户端计算设备810的用户可以从该服务请求对输入数据集的处理。此外，可以包括其他认知系统的其他服务提供方可以利用APAS可视化和模型训练系统730和/或强化的模型760来增强他们自己的认知系统的操作。因此，在一些说明性实施例中，APAS可视化和模型训练系统730和/或强化的模型逻辑760可以在一个或多个服务器计算设备中被实现，可以经由一个或多个API经由其他计算设备来进行访问，输入数据集通过所述其他计算设备而被提交给APAS可视化和模型训练系统730和/或强化的模型逻辑760，以及计算模型、扩展的训练数据集、训练或强化的计算机模型(诸如来自APAS 730)和/或正确标记的数据集(诸如来自强化的模型760)的敏感度的对应可视化被返回。因此，不需要将说明性实施例的机制集成到认知系统800中，而是可以取决于期望的实现来执行。

如上所指出，说明性实施例的机制扎根于计算机技术领域，并使用这种计算或数据处理系统中存在的逻辑而被实现。通过硬件、软件、或硬件和软件的组合对这些计算或数据处理系统进行了特定配置，以实现上述各种操作。如此，提供了图9作为其中可以实现本发明的各方面的一种类型的数据处理系统的示例。许多其他类型的数据处理系统同样可以被配置为专门实现说明性实施例的机制。

图9是在其中实现说明性实施例的各方面的示例数据处理系统的框图。数据处理系统900是计算机的示例，诸如图4中的服务器计算设备804A-D或客户端计算设备810，在其中放置了实现用于本发明的说明性实施例的过程的计算机可用代码或指令。在一个说明性实施例中，图9表示服务器计算设备，诸如服务器804A，其实现认知系统800，以及请求处理流水线808，其被增强为包括本文关于图7描述的说明性实施例的附加机制，用于评估计算机模型对对抗性攻击扰动的敏感度，生成此类敏感度的可视化，生成扩展的训练数据集和/或训练计算机模型以强化之从而抵抗此类对抗性攻击。

在所描绘的示例中，数据处理系统900采用集线器架构，集线器架构包括北桥和存储器控制器集线器(NB/MCH)902以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)904。处理单元906、主存储器908和图形处理器910连接到NB/MCH 902。图形处理器910通过加速图形端口(AGP)连接到NB/MCH 902。

在所描绘的示例中，局域网(LAN)适配器912连接到SB/ICH 904。音频适配器916、键盘和鼠标适配器920、调制解调器922、只读存储器(ROM)924、硬盘驱动器(HDD)926、CD-ROM驱动器930、通用串行总线(USB)端口和其他通信端口932、以及PCI/PCIe设备934通过总线938和总线940连接到SB/ICH 904。PCI/PCIe设备可以包括例如用于笔记本计算机的PC卡、以太网适配器、和附加卡。PCI使用卡总线控制器，而PCIe不使用。ROM 924可以是例如闪存基本输入/输出系统(BIOS)。

HDD 926和CD-ROM驱动器930通过总线940连接到SB/ICH 904。HDD 926和CD-ROM驱动器930可以使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备936连接到SB/ICH 904。

操作系统在处理单元906上运行。该操作系统协调并提供对图9中的数据处理系统900内的各个组件的控制。作为客户端，该操作系统是诸如Windows/>之类的可商购操作系统。诸如Java^TM编程系统之类的面向对象的编程系统可以与该操作系统结合运行，并从在数据处理系统900上执行的Java^TM程序或应用向操作系统提供调用。

作为服务器，数据处理系统900可以是例如运行高级互动执行器操作系统或/>操作系统的/>eServer^TM System/>计算机系统。数据处理系统900可以是在处理单元906中包括多个处理器的对称多处理器(SMP)系统。备选地，可以采用单个处理器系统。

用于操作系统、面向对象的编程系统以及应用或程序的指令位于诸如HDD 926之类的存储设备上，并且被加载到主存储器908中以由处理单元906执行。用于本发明的说明性实施例的过程由处理单元906使用计算机可用程序代码来执行，所述计算机可用程序代码例如位于诸如主存储器908、ROM 924之类的存储器中，或者例如位于一个或多个外围设备926和930中。

总线系统，诸如图9中所示的总线938或总线940，由一个或多个总线组成。当然，可以使用任何类型的通信结构或架构来实现总线系统，该通信结构或架构在附接到该结构或架构的不同组件或设备之间提供数据传输。通信单元，诸如图9的调制解调器922或网络适配器912，包括被用来发射和接收数据的一个或多个设备。存储器可以是例如主存储器908、ROM 924或高速缓存，诸如在图9的NB/MCH 902中所找到的。

本领域普通技术人员将理解，图8和图9中所描绘的硬件可以取决于实现而变化。除了或代替图8和图9中所描绘的硬件，可以使用其他内部硬件或外围设备，诸如闪存、等效的非易失性存储器或光盘驱动器等。在不背离本发明的精神和范围的情况下，说明性实施例的过程可以被应用于除了前述SMP系统之外的多处理器数据处理系统。

此外，数据处理系统900可以采取多种不同数据处理系统中的任何一种的形式，包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理(PDA)等。在一些说明性示例中，例如，数据处理系统900可以是便携式计算设备，其配置有闪存以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。本质上，数据处理系统900可以是任何已知的或以后开发的数据处理系统，而没有架构上的限制。

图10是根据一个说明性实施例的流程图，概述了用于评估计算机模型对对抗性攻击扰动的敏感度，生成这种敏感度的可视化以及潜在地强化计算机模型抵抗这种对抗性攻击的示例操作的流程图。

如图10中所示，操作开始于接收用于评估的对抗性输入数据集以及对应的训练数据集(步骤1010)。使用先前描述的针对对抗性输入数据集的数据结构中的扰动的敏感度测量和PSR度量，确定计算机模型对对抗性输入数据集中表示的(多个)对抗性攻击的敏感度(步骤1020)。如先前所述，扰动的可解释性得分(IS)表示被确定(步骤1030)，并且基于对抗性攻击扰动的敏感度测量、PSR度量和IS来生成具有敏感度掩模覆盖(例如PSR覆盖)视觉表示的CAM(步骤1040)。视觉表示可以经由图形用户界面等而被输出给用户，以向用户展示在CAM中表示的确定性区域与由计算机模型生成的输出标签上的对抗性攻击扰动的分类的相关性，所述分类例如是以抑制为主导、以促进为主导或均衡的扰动分类。

另外，在一些说明性实施例中，所生成的可视化可以被进一步分析，以标识和选择在抑制和/或促进方面对计算机模型的操作具有预定级别的有效性的扰动，例如，预定阈值PSR和/或IS(步骤1050)。然后，通过将类似的扰动引入到训练数据集的数据结构中，来将所选择的扰动用来从训练数据集中生成对抗性输入，从而生成附加的对抗性输入并扩展训练数据集(步骤1060)。可以存储包括原始训练数据集和附加的对抗性输入数据结构在内的扩展的训练数据集，以用于在训练计算机模型时使用以强化之从而抵抗对抗性攻击(步骤1070)。然后可以将扩展的训练数据集提供给计算机模型训练系统，以训练/强化计算机模型从而抵抗对抗性攻击(步骤1080)。然后所得的训练/强化的计算机模型被输出以用于运行时操作以处理其他输入数据(步骤1090)。然后该操作终止。

应当理解，以上描述仅出于说明性目的，并且可以在不脱离本发明的精神和范围的情况下对上述实施例进行许多修改。例如，在说明性实施例中，存在各种机制可以被利用来防止梯度的正确计算。例如，在神经网络中可以利用更多或更少的层，从而提供更简单或更复杂的实现。例如，实施例可以包括附加的层，代替两组输出，可以在随后的层中提供输出的合并。在一些实施例中，可以提供单组输出节点，但是用噪声样本和多层来对其训练，从而形成具有多个起伏的洋葱状形状损失表面，使得梯度指向局部最优。而且，一些实施例可以在具有或不具有混淆矩阵的情况下构建噪声样本，并且改为使用随机标签或在输入空间中具有较大差异的那些标签(例如，给出与类最不同的图像的标签)。在不脱离本发明的精神和范围的情况下，可以利用各种其他类型的修改。

如上所指出，应当理解，说明性实施例可以采取完全硬件实施例、完全软件实施例或既包含硬件元素又包含软件元素的实施例的形式。在一个示例实施例中，说明性实施例的机制以软件或程序代码来实现，其包括但不限于固件、驻留软件、微代码等。

例如，适用于存储和/或执行程序代码的数据处理系统将包括至少一个处理器，该至少一个处理器通过诸如系统总线之类的通信总线直接或间接耦合至存储器元件。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及高速缓冲存储器，其提供至少一些程序代码的临时存储装置以便减少在执行期间必须从大容量存储装置中取回代码的次数。存储器可以是各种类型的，包括但不限于ROM、PROM、EPROM、EEPROM、DRAM、SRAM、闪存、固态存储器等。

输入/输出或I/O设备(包括但不限于键盘、显示器、定点设备等)可以直接或通过居间的有线或无线I/O接口和/或控制器等等而被耦合到系统。除了传统的键盘、显示器、定点设备等之外，I/O设备可以采取许多不同的形式，诸如例如通过有线或无线连接耦合的通信设备，包括但不限于智能手机、平板计算机、触摸屏设备、语音识别设备等。任何已知的或以后开发的I/O设备都旨在落在说明性实施例的范围内。

网络适配器也可以被耦合到系统，以使得数据处理系统能够通过居间的专用或公共网络而被耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是用于有线通信的网络适配器的当前可用类型中的几种。还可以利用基于无线通信的网络适配器，包括但不限于802.11a/b/g/n无线通信适配器、蓝牙无线适配器等。任何已知的或以后开发的网络适配器都旨在落在本发明的精神和范围之内。

已经出于说明和描述的目的给出了本发明的描述，并且本发明的描述并不旨在是穷举的或将本发明限于所公开的形式。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变型对于本领域普通技术人员将是明显的。实施例被选择和描述以便最好地解释本发明的原理、实际应用，并使得本领域的其他普通技术人员能够理解针对各种实施例的本发明，其具有适合于预期的特定用途的各种修改。本文中所使用的术语被选择是为了最好地解释实施例的原理、对市场上发现的技术的实际应用或技术改进，或者使得本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法，所述至少一个存储器包括指令，所述指令由所述至少一个处理器执行以特定地配置所述至少一个处理器来实现对抗性扰动攻击敏感度(APAS)可视化系统，所述方法包括：

由所述至少一个处理器实现的所述APAS可视化系统接收自然输入数据集和对应的对抗性攻击输入数据集，以用于由所述APAS可视化系统进行评估，其中所述对抗性攻击输入数据集的数据结构包括旨在引起计算机模型错误分类的扰动；

由所述APAS可视化系统基于由所述计算机模型对所述自然输入数据集和所述对应的对抗性攻击输入数据集的处理来确定所述计算机模型对所述对抗性攻击输入数据集中的所述扰动的至少一个敏感度测量；

由所述APAS可视化系统基于所述自然输入数据集和所述对抗性攻击输入数据集的所述处理的结果针对所述计算机模型生成分类激活图(CAM)；

由所述APAS可视化系统基于所述至少一个敏感度测量来生成敏感度覆盖，其中所述敏感度覆盖图形地表示扰动敏感度的不同分类；

由所述APAS可视化系统将所述敏感度覆盖应用于所述CAM，以生成对于对抗性攻击的扰动的所述计算机模型敏感度的图形可视化输出；以及

由所述APAS可视化系统将所述图形可视化输出输出到用户计算设备，以用于可视化显示给用户。

2.根据权利要求1所述的方法，其中由所述敏感度覆盖图形地表示的扰动敏感度的所述不同分类包括：指示以促进为主导的扰动的第一分类，所述以促进为主导的扰动促进与所述对抗性攻击输入数据集的目标输出相对应的所述计算机模型的输出；以及指示以抑制为主导的扰动的第二分类，所述以抑制为主导的扰动抑制与所述自然输入数据集的真实输出相对应的所述计算机模型的所述输出。

3.根据权利要求1所述的方法，还包括：

由扩展的训练数据集生成引擎基于所生成的所述敏感度覆盖修改用于训练所述计算机模型的训练数据集，以生成扩展的训练数据集；以及

将所述扩展的训练数据集输出到计算模型训练系统，所述计算模型训练系统基于所述扩展的训练数据集训练所述计算机模型。

4.根据权利要求3所述的方法，其中修改所述训练数据集包括：

通过将一个或多个扰动引入到在所述敏感度覆盖中被标识为具有指定分类的扰动敏感度的一个或多个区域中的所述自然输入数据集中，来由所述扩展的训练数据集生成引擎在所述训练数据集中生成一个或多个自然输入数据集的至少一个对抗性版本；以及

由所述扩展的训练数据集生成引擎将所述一个或多个自然输入数据集的所述至少一个对抗性版本添加到所述训练数据集，以生成所述扩展的训练数据集。

5.根据权利要求3所述的方法，还包括：

由所述计算模型训练系统基于所述扩展的训练数据集对所述计算机模型执行机器学习操作，以训练所述计算机模型得到强化以抵抗对抗性攻击。

6.根据权利要求1所述的方法，其中基于由所述计算机模型对所述自然输入数据集和所述对应的对抗性攻击输入数据集的处理来确定所述计算机模型对所述对抗性攻击输入数据集中的所述扰动的至少一个敏感度测量包括：通过在包括像素级别、网格级别、或图像级别中的至少一个级别的一个或多个粒度下标识所述计算机模型中的logit得分的变化，来测量由一个或多个扰动在所述对应的对抗性攻击输入数据集中的存在或不存在所造成的对所述计算机模型的输出的效果。

7.根据权利要求1所述的方法，其中确定所述计算机模型对所述对抗性攻击输入数据集中的扰动的至少一个敏感度测量包括：针对所述对抗性攻击输入数据集中的每个扰动生成促进-抑制比(PSR)，并且其中所述PSR是对应的扰动对所述计算机模型的错误分类的促进效果和抑制效果的测量。

8.根据权利要求7所述的方法，其中确定所述计算机模型的至少一个敏感度测量还包括生成可解释性得分以量化对抗性扰动的可解释性。

9.根据权利要求1所述的方法，其中所述计算机模型执行图像分析和分类操作，以将输入图像分类为多个预定分类中的一个预定分类，其中所述自然输入数据集是其中扰动没有被引入数字图像中的所述数字图像，而所述对抗性攻击输入数据集是其中一个或多个扰动被引入到所述自然输入数据集中的数字图像，并且其中所述图形可视化输出呈现CAM，所述CAM包括具有突出显示的区域以标识对所述计算机模型的输出具有不同影响级别的数字图像，以及指示所述计算机模型对扰动的敏感度具有不同分类的区域的所述敏感度覆盖。

10.根据权利要求5所述的方法，其中生成所述训练数据集中的一个或多个自然输入数据集的所述至少一个对抗性版本，将所述一个或多个自然输入数据集的所述至少一个对抗性版本添加到所述训练数据集以生成所述扩展的训练数据集，并且基于所述扩展的训练数据集在所述计算机模型上执行所述机器学习操作被自动执行。

11.一种非瞬时性计算机可读存储介质，其上存储有计算机可读程序，其中所述计算机可读程序在数据处理系统上被执行时使所述数据处理系统实现对抗性扰动攻击敏感度(APAS)可视化系统，所述APAS可视化系统操作以：

接收自然输入数据集和对应的对抗性攻击输入数据集，以用于由所述APAS可视化系统进行评估，其中所述对抗性攻击输入数据集的数据结构包括旨在引起计算机模型错误分类的扰动；

基于由所述计算机模型对所述自然输入数据集和所述对应的对抗性攻击输入数据集的处理，确定所述计算机模型对所述对抗性攻击输入数据集中的所述扰动的至少一个敏感度测量；

基于所述自然输入数据集和所述对抗性攻击输入数据集的所述处理的结果，针对所述计算机模型生成分类激活图(CAM)；

基于所述至少一个敏感度测量来生成敏感度覆盖，其中所述敏感度覆盖图形地表示扰动敏感度的不同分类；

将所述敏感度覆盖应用于所述CAM，以生成对于对抗性攻击的扰动的所述计算机模型敏感度的图形可视化输出；以及

将所述图形可视化输出输出到用户计算设备，以用于可视化显示给用户。

12.根据权利要求11所述的计算机可读存储介质，其中由所述敏感度覆盖图形地表示的扰动敏感度的所述不同分类包括：指示以促进为主导的扰动的第一分类，所述以促进为主导的扰动促进与所述对抗性攻击输入数据集的目标输出相对应的所述计算机模型的输出；以及指示以抑制为主导的扰动的第二分类，所述以抑制为主导的扰动抑制与所述自然输入数据集的真实输出相对应的所述计算机模型的所述输出。

13.根据权利要求11所述的计算机可读存储介质，其中所述计算机可读程序还使所述APAS可视化系统：

14.根据权利要求13所述的计算机可读存储介质，其中所述计算机可读程序还使所述APAS可视化系统至少通过以下方式来修改所述训练数据集：

15.根据权利要求13所述的计算机可读存储介质，其中所述计算机可读程序还使所述APAS可视化系统：

16.根据权利要求11所述的计算机可读存储介质，其中基于由所述计算机模型对所述自然输入数据集和所述对应的对抗性攻击输入数据集的处理来确定所述计算机模型对所述对抗性攻击输入数据集中的所述扰动的至少一个敏感度测量包括：通过在包括像素级别、网格级别、或图像级别中的至少一个级别的一个或多个粒度下标识所述计算机模型中的logit得分的变化，来测量由一个或多个扰动在所述对应的对抗性攻击输入数据集中的存在或不存在所造成的对所述计算机模型的输出的效果。

17.根据权利要求11所述的计算机可读存储介质，其中确定所述计算机模型对所述对抗性攻击输入数据集中的扰动的至少一个敏感度测量包括：针对所述对抗性攻击输入数据集中的每个扰动生成促进-抑制比(PSR)，并且其中所述PSR是对应的扰动对所述计算机模型的错误分类的促进效果和抑制效果的测量。

18.根据权利要求17所述的计算机可读存储介质，其中确定所述计算机模型的至少一个敏感度测量还包括生成可解释性得分以量化对抗性扰动的可解释性。

19.根据权利要求11所述的计算机可读存储介质，其中所述计算机模型执行图像分析和分类操作，以将输入图像分类为多个预定分类中的一个预定分类，其中所述自然输入数据集是其中扰动没有被引入数字图像中的所述数字图像，而所述对抗性攻击输入数据集是其中一个或多个扰动被引入到所述自然输入数据集中的数字图像，并且其中所述图形可视化输出呈现CAM，所述CAM包括具有突出显示的区域以标识对所述计算机模型的输出具有不同影响级别的数字图像，以及指示所述计算机模型对扰动的敏感度具有不同分类的区域的所述敏感度覆盖。

20.一种系统，包括至少一个处理器；以及与所述至少一个处理器耦合的至少一个存储器，其中所述至少一个存储器包括指令，所述指令在由所述至少一个处理器执行时使所述至少一个处理器实现权利要求1-10中任一项的方法的步骤。