CN110659485B

CN110659485B - 用于通过诱饵训练检测对抗攻击的方法和装置

Info

Publication number: CN110659485B
Application number: CN201910563973.9A
Authority: CN
Inventors: 张佳龙; F·阿劳杰奥; T·塔雅劳尔; M·P·斯多艾克林
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-06-28
Filing date: 2019-06-27
Publication date: 2023-04-18
Anticipated expiration: 2039-06-27
Also published as: US11501156B2; US20230019198A1; CN110659485A; US11829879B2; US20200005133A1

Abstract

本公开涉及通过诱饵训练检测对抗攻击。从常规数据生成诱饵数据。使用诱饵数据训练已经用常规数据训练的深度神经网络。训练的深度神经网络响应于包括输入数据的客户端请求，对输入数据进行操作。至少使用所操作的训练的深度神经网络的输出来执行后处理，以确定输入数据是常规数据还是诱饵数据。基于所执行的后处理的结果来执行一个或多个动作。

Description

用于通过诱饵训练检测对抗攻击的方法和装置

技术领域

本发明总体地涉及计算机安全性，更具体地涉及通过诱饵训练检测对抗攻击。

背景技术

可以在说明书和/或附图中找到的缩写在下面的详细描述部分的开头定义。

深度神经网络(DNN)在包括视觉识别的许多任务上取得了显著的成绩。然而，最近的研究表明，DNN很容易受到对抗攻击。在这些攻击中，攻击者故意向DNN的输入数据注入小扰动(也称为对抗示例)，从而导致错误分类。如果目标DNN用于关键应用，例如自主驾驶、机器人或视觉认证和识别，则此类攻击是危险的。例如，已经显示了对自主DNN模型的真实物理对抗攻击，这导致目标DNN模型将“停止标志”错误分类为“速度限制”。参见Eykholt等人的“Robust Physical-World Attacks on Deep Learning Model”，arXiv:1707.08945v5[cs.CR]，2018年4月10日。

发明内容

此部分旨在是示例性的而不是限制性的。

在示例性实施例中，公开了一种方法。该方法包括从常规数据生成诱饵数据，并利用诱饵数据训练已经用常规数据训练的深度神经网络。该方法还包括：响应于包括输入数据的客户端请求，在输入数据上操作训练的深度神经网络，以及至少使用所操作的训练的深度神经网络的输出来执行后处理，以确定所述输入数据是常规数据还是诱饵数据。该方法包括基于所执行的后处理的结果来执行一个或多个动作。

示例性装置包括一个或多个处理器和包括计算机程序代码的一个或多个存储器。所述一个或多个存储器和计算机程序代码被配置为利用所述一个或多个处理器使所述装置至少执行以下操作：从常规数据生成诱饵数据；使用诱饵数据训练已经用常规数据训练的深度神经网络；响应于包括输入数据的客户端请求，在输入数据上操作训练的深度神经网络；至少使用所操作的训练的深度神经网络的输出来执行后处理，以确定所述输入数据是常规数据还是诱饵数据；以及基于所执行的后处理的结果执行一个或多个动作。

在另一示例性实施例中，公开了一种计算机程序产品。该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质具有与其一起实施的程序指令，所述程序指令可由设备执行以使该设备执行包括以下的操作：从常规数据生成诱饵数据；使用诱饵数据训练已经用常规数据训练的深度神经网络；响应于包括输入数据的客户端请求，在输入数据上操作训练的深度神经网络；至少使用所操作的训练的深度神经网络的输出来执行后处理，以确定所述输入数据是常规数据还是诱饵数据；以及基于所执行的后处理的结果执行一个或多个动作。

另一示例性实施例是一种装置，该装置包括：用于从常规数据生成诱饵数据的装置；用于使用诱饵数据训练已经用常规数据训练的深度神经网络的装置；用于响应于包括输入数据的客户端请求，在输入数据上操作训练的深度神经网络的装置；用于至少使用所操作的训练的深度神经网络的输出来执行后处理以确定所述输入数据是常规数据还是诱饵数据的装置；以及用于基于所执行的后处理的结果执行一个或多个动作的装置。

附图说明

图1示出了使用图像通过原始DNN创建错误分类的原始DNN上的对抗攻击的示例；

图2A示出了可以实施示例性实施例的一种可能的非限制性示例性系统的框图；

图2B和图2C各自示出了可以实施示例性实施例的另一种可能的非限制性示例性系统的框图；

图3示出了使用图像通过原始DNN创建错误分类的第一对抗攻击(来自图1)和使用同一图像通过DNN且通过诱饵训练创建错误分类的第二对抗攻击的示例；

图4A是根据示例性实施例的由服务器计算机系统执行的用于通过诱饵训练检测对抗攻击的过程的示例；

图4B是根据示例性实施例的由服务器计算机系统执行的用于通过诱饵训练检测对抗攻击的过程的另一示例；

图5A示出了根据示例性实施例的用于生成诱饵的方法；以及

图5B示出了具有根据图5A中的方法生成的诱饵的训练数据空间。

具体实施方式

可以在说明书和/或附图中找到的以下缩写定义如下：

AI 人工智能

API 应用编程接口

DNN深度神经网络，例如，在输入和输出之间具有多个隐藏层的人工神经网络(ANN)

FGSM快速梯度逐步法

I/F接口

N/W网络

ML机器学习

本文使用的词语“示例性”意味着“用作示例、实例或示范”。本文中描述为“示例性”的任何实施例不必被解释为比其他实施例优选或有利。在该“具体实施方式”中描述的所有实施例是为了使本领域技术人员能够制造或使用本发明而不是限制由权利要求限定的本发明的范围而提供的示例性实施例。

引言

现在呈示对这个一般领域的介绍。如上所述，最近的研究表明DNN容易受到对抗攻击。对抗攻击故意向DNN的输入数据注入小扰动(也称为对抗示例)，从而导致错误分类。图1是使用图像通过原始DNN创建错误分类的原始DNN上的对抗攻击10的示例。

图1示出了熊猫的原始图像50。原始图像50具有百分之66(％)的DNN为图像选择“熊猫”类的概率。对抗攻击10将由图像70示出的扰动ε注入到具有原始图像50的数据流中以创建最终图像90。已被对抗攻击10扰动的最终图像90使得DNN选择“狗”类，且置信度为99.6％。因此，对于该示例，对抗攻击导致图像检测中的高错误概率。

已经提出了对这些对抗攻击的几种形式的防御。这些包括降低分类错误率的对抗训练，参见Goodfellow等人的“Explaining And Harnessing Adversarial Examples”，arXiv:1412.6572(2014)；以及Miyato等人的“Virtual Adversarial Training:aRegularization Method for Supervised and Semi-supervised Learning”，arXiv:1704.03976(2017)。另一种形式的防御是输入预处理，参见Meng等人的“MagNet:a Two-Pronged Defense against Adversarial Example”，2017年10月30日至11月3日在美国德克萨斯州达拉斯的CCS'17；以及Xu等人的“Feature Squeezing:Detecting AdversarialExamples in Deep Neural Networks”，arXiv:1704.01155v2[cs.CV]，2017年12月5日。另一种形式的防御是不同的模型硬化，参见Papernot等人的“Distillation as aDefense toAdversarial Perturbations against Deep Neural Networks”，arXiv:1511.04508v2[cs.CR]，2016年3月14日；以及Zantedeschi等人的“Efficient Defenses againstAdversarial Attacks”，第10届ACM人工智能与安全研讨会论文集，第39-49页(2017年)。

虽然这些防御使攻击者更难以生成对抗示例，但先前的工作表明这些防御仍然很脆弱，并且仍然可以产生成功的对抗攻击。参见以下内容：Carlini等人的“AdversarialExamples Are Not Easily Detected:Bypassing Ten Detection Methods”，arXiv:1705.07263v2[cs.LG]，2017年11月1日；Carlini等人的“MagNet and‘Efficient DefensesAgainst Adversarial Attacks’are Not Robust to Adversarial Examples”，arXiv:1711.08478v1[cs.LG]，2017年11月22日；以及Athalye等人的“Obfuscated GradientsGive a False Sense of Security:Circumventing Defenses to AdversarialExamples”，arXiv:1802.00420v2[cs.LG]，2018年2月15日。

“隐藏式安全(Security through obscurity)”已成为依赖于对手无视系统设计而非任何基本安全原则的安全实践的代名词。隐藏式安全是相信任何类型的系统都能够安全，只要其实施组之外的任何人都不被允许发现关于其内部机制的任何信息。也就是说，隐藏式安全是一种安全实践，它依赖于设计或实现的保密性作为为系统提供安全性的主要方法。Anderson,R.在第17届计算机安全应用大会(ACSAC)会议录(2001年)第358-365页中的“Why information security is hard–an economic perspective”中描述了“隐藏式安全”的示例。历史已经证明，这种做法充其量只能提供非常弱的安全性，并且在最坏的情况下具有危险的误导性，可能会提供一种安全假象，这可能会助长糟糕的决策。对于后者，请参阅Merkow,M.S.和Breithaupt,J.的“Information Security:Principles andPractices”，Pearson Education出版社，2014年，第2章，特别是第25页。具体地，在DNN环境中，已经证明混淆梯度(一种类型的梯度掩蔽)对于防御自适应攻击者是无效的，导致防御对抗示例的虚假安全感。参见Athalye等人的“Obfuscated Gradients Give a FalseSense of Security:Circumventing Defenses to Adversarial Examples”，arXiv:1802.00420v2[cs.LG]15，2018年2月15日。

基于欺骗的安全防御可能存在陷入“隐藏式安全”陷阱的风险。如果防御的欺骗性取决于攻击者对系统设计的无知—防守者应保守假设的细节最终会被任何适当持久的威胁行为者所知，则防御所提供的任何安全都可能是虚幻的，由此也是不值得信任的。因此，重要的是仔细研究诱饵训练可以被视为安全增强技术的底层基础。

像所有欺骗策略一样，诱饵训练的有效性依赖于向对手隐瞒某些秘密(例如，在训练过程中使用哪些诱饵表示)。但是，保密本身并不使诱饵训练失格为依赖隐藏的训练。例如，现代密码术经常被捍卫为是反隐藏防御的标志，尽管其基本假设是对手缺乏对私钥的了解，因为披露密码算法的完整实现细节并不会帮助攻击者破解从未公开的密钥得出的密文。Juels(参见Juels,A.的“A bodyguard of lies:the use of honey objects ininformation security”，第19届ACM访问控制模型和技术研讨会论文集，2014，ACM，第1-4页)定义了不可区分性和保密性作为成功部署蜂蜜系统所需的两个属性。这些属性被形式化如下。

考虑简单的系统，其中S＝{s₁,...,s_n}表示一组n个对象，其中一个，即对于j∈{1，...，n}，s*＝s_j是真实对象，而其他的n-1是蜂蜜对象。于是，这两个属性如下。

1)不可区分性：为了欺骗攻击者，蜂蜜对象必须难以与真实对象区分开。换句话说，它们应该从与真实对象相似的、可能对象的概率分布中得出。

2)保密性：在具有蜂蜜对象的系统中，j是秘密。当然，蜂蜜对象只能欺骗不知道j的攻击者，所以j不能和S在一起。因此，Kerckhoffs原则起作用了：系统的安全性必须存在于秘密中，即，蜂蜜对象和真实对象之间的区别，而不仅仅是使用蜂蜜对象的事实。

示例性实施例的概述

现在提供一些示例性实施例的概述。与试图硬化DNN以使得生成对抗示例不切实际的现有工作相反，本文的示例性实施例引入诱饵训练作为用于误导和检测对抗攻击的新方法。诱饵训练可以被认为是“软化”DNN以促进生成类似于用于训练DNN的预定义诱饵的对抗样本。具体地，在示例性实施例中，为每个类生成多个诱饵，使得这些诱饵对于梯度下降将变为不同的局部最小值。众所周知，梯度下降是用于找到函数的最小值的一阶迭代优化算法。因此，当攻击者试图基于梯度下降生成对抗示例时，向着类似于训练诱饵集的数据误导他们。这是真的，因为诱饵训练会使诱饵在模型中变得过度拟合。因此，它隐含地为梯度下降创建了局部最优路径。

在对抗环境中使用诱饵训练有几个好处：

1)诱饵训练对攻击者来说是隐秘和透明的，因为攻击者仍然可以生成对抗示例，尽管生成的示例类似于训练诱饵。

2)使用诱饵训练的方法对于白盒攻击是鲁棒的，其中攻击者可以访问整个DNN模型。

3)诱饵训练具有低的假阳性，因为任何类似于诱饵的输入数据都是真的对抗攻击。

4)使用诱饵训练的方法可以检测已知和未知的对抗攻击两者，因为这种方法不依赖于任何已知的对抗示例。

诱饵训练作为一种方法，通过设计满足不可区分性和保密性。不可区分性源于攻击者无法确定明显成功的攻击是否是使用得出的诱饵利用DNN模型的结果。保密性意味着诱饵训练集应该是秘密的。然而，对机器学习模型和算法的设计和实现细节的完全攻击者了解并未公开在训练过程中选择了哪些诱饵。使Kerckhoffs原则适应欺骗，即使除了训练集之外的关于系统的一切都是公共知识，诱饵训练也是不可检测的。

这提出了，诱饵训练作为一种范式并不能从隐藏中得出其安全值。确切地说，它的欺骗是基于明确定义的秘密。保持DNN设计和实现细节的公开性与训练集的保密性之间的这种机密性区分对于制定鲁棒、有效的欺骗以防止对抗攻击是重要的。

示例性系统概述

在描述可以使用示例性实施例的系统之后，提供关于这些技术的更多细节。在图2A中，客户端计算机系统110与通信网络100-1中的服务器计算机系统170进行有线和/或无线的通信。客户端计算机系统110经由一个或多个有线或无线网络197和有线链路176、177或无线链路178、179与服务器计算机系统170通信。客户端101可以经由一个或多个客户端接口元件195直接与服务器计算机系统170通信，或者可以经由一个或多个有线或无线网络197与服务器通信。客户端101在该示例中被例示为人101-1。然而，客户端101可以是试图使用由服务器计算机系统170提供的AI服务(例如，其诱饵API 150)的任何东西。参照图2和图3更详细地示出客户端101的其他示例。

服务器计算机系统170包括通过一条或多条总线157互连的一个或多个处理器152、一个或多个存储器155、一个或多个网络接口(N/WI/F)161、一个或多个收发器160和客户端接口电路175。一个或多个收发器160中的每一个包括接收器Rx 162和发射器Tx 163。一个或多个收发器160连接到一个或多个天线158。一个或多个存储器155包括计算机程序代码153，计算机程序代码153包括第一神经网络DNN f(x)280、第二神经网络DNN g(x)290和诱饵API 150-2。尽管DNN 280和290被与诱饵API 150分开示出，但它们也可以是诱饵API150的一部分。服务器计算机系统170包括诱饵API 150，诱饵API 150包括可以用多种方式实现的部分150-1和/或150中的一者或两者。诱饵API 150可以在硬件中实现为诱饵API150-1，例如实现为一个或多个处理器152的一部分。诱饵API 150-1也可以实现为集成电路或通过诸如可编程门阵列的其他硬件实现。在另一示例中，诱饵API 150可以实现为诱饵API 150-2，其被实现为计算机程序代码153并且由一个或多个处理器152执行。例如，一个或多个存储器155和计算机程序代码153被配置为与一个或多个处理器152一起使服务器计算机系统170执行如本文所述的一个或多个操作。还应注意，服务器计算机系统170中示出的设备不是限制性的，并且可以使用其他的、不同的或更少的设备。

一条或多条总线157可以是地址、数据和/或控制总线，并且可以包括任何互连机构，例如主板或集成电路上的一系列线路、光纤或其他光通信设备、无线信道等。客户端接口电路175与一个或多个客户端接口元件195通信，客户端接口元件195可以形成为与服务器计算机系统170集成在一起，或者在服务器计算机系统170的外部但耦接到服务器计算机系统170。客户端接口元件195包括以下中的一个或多个：一个或多个相机；一个或多个雷达传感器；一个或多个音频设备(例如麦克风、扬声器等)；一个或多个传感器(例如GPS传感器、指纹传感器、方位传感器等)；一个或多个显示器；和/或一个或多个键盘。该列表不是穷举的或限制性的，并且可以使用其他的、不同的或更少的元件。

简而言之，服务器计算机系统170利用常规数据和诱饵数据执行DNN f(x)280和DNN g(x)290两者的训练(例如，在诱饵API 150的控制下)。DNN f(x)280的输出可以是每个类的置信度得分，而DNN g(x)290的输出可以是“常规数据”或“诱饵数据”的置信度得分。诱饵API 150使服务器计算机系统170使用两个输出来确定最终输出。如果最终输出指示“诱饵数据”，则服务器计算机系统170可以执行一个或多个预定保护动作。这在下面更详细地描述。

注意，计算机系统170被指示为“服务器”。虽然客户端计算机系统110和服务器计算机系统170之间可能存在客户端-服务器关系，但这仅仅是一个示例。服务器计算机系统170也可以简单地是“计算机系统”，并且在计算机系统170和客户端计算机系统110(或甚至客户端101)之间可以存在对等关系。服务器计算机系统170可以被认为是服务器计算机系统170-7，因为其他示例也是可能的。

关于其他可能的示例，图2B示出了不同通信网络100-2的另一示例。在该示例中，客户端101-2可以是计算机系统。该示例包括一个或多个相机195-1和/或一个或多个雷达195-2，其也是客户端I/F元件195，并且例如通过客户端接口电路175路由。例如，通信网络100-2可以在自驾驶车辆(例如汽车或卡车)中，“服务器”计算机系统170-2可以是车辆内的处理元件，并且客户端101-2可以是车辆内的另一个处理元件。例如，客户端101-2可以是车辆的主控制系统，并且可以使用多个计算机系统，例如来分析道路状况、交通、天气状况等，并且服务器计算机系统170-2可以对来自一个或多个相机195-1和/或一个或多个雷达195-2的数据执行分析。客户端接口电路175和总线157可以包括通信元件，以使用包括控制器区域网络(CAN)、本地互连网络(LIN)等中的一个或多个的协议使用车辆总线进行通信。

图2C示出另一示例性实施例。在该示例中，通信网络100-3包括服务器计算机系统170-3，并且可以包括或不包括其他网络或元件。客户端101-3包括驻留在计算机程序代码153中并访问诱饵API 150的程序。服务器计算机系统170-3还可以包括客户端I/F元件195、相机195-1和/或雷达195-2，如果需要的话。

对于图2A、图2B和图2C中的每个服务器计算机系统170，这些仅仅是示例性的。这样的计算机系统170可以不是真正的“服务器”，并且可以包括比所示更多或更少的元件。

其他细节和示例

现在已经描述了一个可能的示例性系统，更详细地描述示例性实施例。如前所述，本文的示例性实施例引入诱饵训练作为误导和检测对抗攻击的新方法。结果，示例性实施例的示例性实现将“软化”DNN以促进生成与用于训练DNN的预定义诱饵类似的对抗样本。

参见图3，图3示出了使用图像来通过原始神经网络创建错误分类的原始DNN上的第一对抗攻击10(来自图1)和使用同一图像来通过具有诱饵训练的神经网络创建错误分类的第二对抗攻击300的示例。已经参照图1描述了对抗攻击10。对抗攻击10仅用于比较，作为当前存在的参考系统。对于第二对抗攻击300，原始图像50具有DNN为图像选择“熊猫”类的百分之66(％)的概率。根据本文的示例性实施例，在同一DNN(但是已经经过了诱饵训练)上执行第二对抗攻击300。第二对抗攻击300将由图像370示出的扰动ε’注入到具有原始图像50的数据流中以创建最终图像390。已被对抗攻击300扰动的最终图像390使得DNN选择“狗”类，且置信度为99.8％。

为了实现诱饵训练并使对抗示例更易于检测，一种可能的示例性方法首先为每个DNN类生成训练诱饵样本，其中诱饵数据类似于每个类的常规训练样本(即数据)但可以实现特制模式(例如，水印)。然后，该方法将伪造标签分配给训练诱饵数据(例如，类似于猫的图像的诱饵被标记为“狗”类)。接下来，在常规数据和诱饵数据上都训练DNN。结果，常规数据仍将被分类为其原始类，但是通过例如梯度下降算法生成的对抗数据将类似于诱饵数据，并且将被错误分类为不正确的类。

以这种方式，该示例性方法可以容易地检测这样的对抗示例。例如，这可以通过检查分对数(logit)层的分布(通过执行范畴鉴别(categorical discrimination))来执行。众所周知，分对数层可以是神经网络中的倒数第二层，其将返回用于预测的原始值，并且最终层可以是softmax层，其可以例如通过应用softmax激活而从分对数层导出概率。这也可以通过训练单独的DNN分类器(参见下面描述的图4A)来区分常规样本和诱饵样本来执行。例如，利用该示例性方法，在示例性实施例中可以如下实现对抗示例的检测和跟踪：

a)用原始训练集和相应的诱饵数据集(保持真实数据和诱饵数据的单独标签)来训练单独的DNN模型g(x)；

b)对前端ML API的客户端请求也被中继到单独的DNN g(x)以确定输入数据是否是重构的诱饵；以及

c)系统可以将请求标记为可疑的并且响应于DNN g(x)输出诱饵类而采取某预定保护动作。

例如，假设在“猫”类中生成诱饵数据(“猫”+“0”)，并为这样的诱饵样本分配“狗”标签，用常规数据和诱饵数据训练DNN模型(例如，g(x))以检测“狗”和“猫”。如果攻击者试图生成从“猫”到“狗”的对抗示例，则生成的示例将类似于(“猫”+“0”)。然而，虽然“猫”+“0”被分类为“狗”并且常规的狗也被分类为“狗”，但就最终分布而言，它们之间存在显著差异。因此，这里描述的示例性技术可以检查分对数层的分布或训练新的DNN模型(例如，g(x))以区分它们，作为可能的实现示例。

关于上面的(b)和重建的诱饵，为了生成对抗示例，攻击者首先向我们的诱饵模型提交常规输入(例如，图3中的50)并获得其置信度得分(即，伪造的置信度得分)。基于这种置信度得分，攻击者将使用梯度下降来构建对抗示例(例如，图3中的390)，其是上面提到的重构诱饵，并且再次将这些示例提交给我们的DNN模型以利用网络。此时，我们的DNN g(x)(例如，参见图4A中的附图标记290)将检测它，因为g(x)被训练以检测重构的诱饵的模式(例如，图3中的附图标记370)。

关于训练新的DNN模型g(x)以在常规数据和诱饵数据之间进行区分，转到图4A。图4A是根据示例性实施例的由服务器计算机系统170执行的用于通过诱饵训练检测对抗攻击的过程400的示例。该图还示出了根据示例性实施例的一个或多个示例性方法的操作、在计算机可读存储器上实施的计算机程序指令的执行结果、由硬件实现的逻辑执行的功能、和/或用于执行功能的互连装置。服务器计算机系统170至少部分地在诱饵API 150的控制下执行图4A。即，诱饵API 150使服务器计算机系统170执行该图中“服务器170”所示的操作。

服务器计算机系统170将常规数据405(例如，未掺杂的图像)路由到DNN f(x)280和DNN g(x)290。在步骤1(操作410)中，对于每个DNN类，服务器计算机系统170生成诱饵样本。这产生了诱饵数据415，其是常规数据和扰动ε的组合(如图3的图像90和390中所示)。

转到图5A，该图示出了根据示例性实施例的用于生成诱饵的方法(例如，如在图4A的操作41中执行的)。结合图5A描述图5B，图5B示出了具有根据图5A中的方法生成的诱饵的训练数据空间。图5A还示出了根据示例性实施例的一个或多个示例性方法的操作、在计算机可读存储器上实施的计算机程序指令的执行结果、由硬件实现的逻辑执行的功能、和/或用于执行功能的互连装置。服务器计算机系统170至少部分地在诱饵API 150的控制下执行图5A。即，诱饵API 150使服务器计算机系统170执行框中所示的操作。

在框510中，服务器计算机系统170针对每个类将训练数据聚类到K个子集群。这在图5B中示出，其中数据训练空间具有多个训练数据590、595。在图5的示例中，K的值是10，使得存在子集群510-1到510-10。在图5中，纵轴是输入，横轴是输入大小。决策边界550将第一类580-1(具有训练数据590)与第二类580-2(具有训练数据595)分开。训练数据590具体地被指出为子集群540-1的空心圆，但是这样的训练数据590也在子集群540-2到540-6中。对于子集群540-8，训练数据595具体地被指出为空“x”，但是这样的训练数据595也在子集群540-6、540-7、540-9和540-10中。诱饵560显示为第一类580-1中的子集群540的填充“x”和第二类580-2中的子集群540的填充圆。

在框520中，服务器计算机系统170针对每个子集群选择中心点(medoid)数据并基于中心点数据生成诱饵。在框530中示出了框520的一个示例。具体地，类似于FGSM攻击，计算从(例如，一个类的)中心点(x_m)到所有其他类的梯度，并且生成诱饵数据x_d为其中l_t是所有其他类的目标类。中心点是集群的代表性对象，其与集群中的所有对象(例如，训练数据590、595)的平均相异点是最小的。换句话说，诱饵(x_d)被生成为中心点(x_m)加上或减去变量ε。也就是说，变量x_d和x_m是向量，并且该生成可以被认为是沿着x_m的向量移动向量x_d加上或减去ε。变量ε设置得很小，以便诱饵数据的实际标签与x_m相同(l_m＝l_d)。这里，l_m是单个中心点的标签，并且l_d是单个诱饵数据的标签。或者，可以说，对于每个诱饵数据，需要l_m＝l_d。变量ε的符号由sign(·)函数(也称为正负号函数)确定。在这种情况下，sign函数对Loss(·)函数的梯度进行操作。Loss(x_m,l_t)是将x_m分类为标签l_t的成本。

请考虑以下示例。向量x_m属于在框510中选择的类。假设有三个类：“狗”、“猫”和“鱼”。然后，对于“狗”类中的图像，在框510中将它们聚类到K个子集群。这里的向量x_mi将是第i个子集群的中心点。在这里，x_mi的标签仍然是“狗”。然后，计算从x_mi到所有其他类的梯度并生成相应的诱饵(参见框520)。在该示例中，可以两次计算梯度(框530)并生成两个诱饵。一个诱饵是针对“猫”类(目标类l_t将是“猫”)，一个是针对“鱼”类(目标类l_t将是“鱼”)。

在此步骤中，所有诱饵应与它们在原始DNN模型中的中心点在同一类中。稍后，在训练期间，将为这些诱饵分配伪造标签并训练新模型，如下所述。

注意，在示例性实施例中，诱饵415的数量等于子集群的数量(例如，K)乘以类的数量并再乘以比类的数量少1的数。在等式形式中，就是下面这样：诱饵数量＝子集群数量*类数量*(类数量-1)。

返回到图4A，在框425中，服务器计算机系统170将伪造标签分配给训练诱饵数据415。伪造标签是将相应的诱饵放入不正确的类的标签。与之相对，常规数据405的真实标签是将常规数据放入正确的类的标签。从415到280，使用诱饵数据415和伪造标签。从405到280，使用常规数据405和真实标签(例如，猫的图片具有“猫”的标签)。在步骤2(操作420)中，服务器计算机系统170利用常规数据405和诱饵数据415执行训练DNN f(x)280。输出450可以包括每个类的置信度得分(例如，训练数据的标签)。作为使用常规训练数据和真实标签以及诱饵数据和伪造标签的训练的结果，DNN f(x)280将基于那些伪造标签对诱饵进行分类，但是诱饵数据415看起来类似于常规数据405。

注意，DNN f(x)280可以被预训练。参见框432。这意味着可以在步骤1(操作410)之前执行步骤2(操作420)的在常规数据410上使用DNN f(x)280的部分。另外，预训练的DNN f(x)280(通过框432仅在常规数据405上训练)可以用于生成诱饵数据，例如，通过图5A中所示的过程。

在步骤3(操作430)中，服务器计算机系统170用常规数据405和诱饵数据415执行单独的DNN g(x)290的训练。诱饵数据的标签将是例如“诱饵”而常规标签数据将是例如“常规”。训练DNN 290以区分诱饵和常规数据。输出465包括“常规数据”或“诱饵数据”的置信度得分。在示例性实施例中，置信度得分为[0,1]，其中1将指示诱饵数据。

在步骤4(操作440)中，对前端DNN API 150的客户端101(在该示例中示为人)请求(路由到DNN f(x)280)也被中继到DNN g(x)290，以决定输入数据是否是重构的诱饵。来自客户端的请求460将产生输出450、465。来自客户端101的请求460例如是对诸如图像数据的输入数据461的分类的请求。

服务器计算机系统170通过框435和步骤5(操作445)执行后处理。作为操作445的一个选项，在框455中，系统170将请求460标记为可疑，并且响应于DNN g(x)290输出诱饵类(例如，通过指示“诱饵数据”的置信度得分)而采取某预定保护动作，否则服务器计算机系统170将返回DNN f(x)280的输出450。框455的输出将在输出456上承载。作为示例，预定保护动作470可包括以下的一个或多个：阻止请求470-1，返回正确的标签470-2(例如，可以基于诱饵的标签推断出正确的标签)，或者返回随机标签470-3(例如，因为知道这是攻击，并且试图迷惑攻击者)。

转到图4B，该图是根据示例性实施例的由服务器计算机系统170执行的用于通过诱饵训练检测对抗攻击的过程401的另一示例。该图还示出了根据示例性实施例的一个或多个示例性方法的操作、在计算机可读存储器上实施的计算机程序指令的执行结果、由硬件实现的逻辑执行的功能、和/或用于执行功能的互连装置。服务器计算机系统170至少部分地在诱饵API 150的控制下执行图4B。即，诱饵API 150使服务器计算机系统170执行该图中“服务器170”所示的操作。

在图4B中，没有第二DNN g(x)290。代替地，使用来自DNN f(x)280的分对数层482的输出。在步骤1，即操作410，服务器计算机系统170生成诱饵数据415。这已在上面描述。在步骤2，即操作420，服务器计算机系统170使用常规数据405及其对应的真实标签来训练DNNf(x)280。在步骤3，即操作476，使用常规数据和诱饵数据训练DNN f(x)280。在步骤3中，常规数据被标记为“常规”，并且诱饵数据(具有伪造标签)被标记为“诱饵”。因此，DNN f(x)280可以确定正在使用哪个数据。DNN f(x)280记录分对数层482的结果(即输出)，例如，对于每个常规数据和诱饵数据的结果。稍后使用记录的结果来分析来自客户端101的输入数据。

注意，DNN f(x)280可以被预训练，参见框432，这意味着可以在步骤1(操作410)之前执行步骤2(操作420)的在常规数据410上使用DNN f(x)280的部分。另外，预训练的DNN f(x)280(通过框432仅在常规数据405上训练)可以用于生成诱饵数据，例如，通过图5A中所示的过程。

客户端101(在该示例中为人)在步骤4(操作441)中发送包括输入数据461的请求460。使用输入数据461执行DNN f(x)280。在步骤4(操作446)中执行的后处理435在DNN f(x)280的输出450上执行。操作446可以包括框480和485。在框480中，服务器计算机系统170使用来自DNN f(x)280的先前记录的分对数层的结果，比较输入数据461、诱饵数据415和常规训练数据405之间的相似度。框482是框480的示例。在框482中，给定输入数据，DNN f(x)280(例如，在服务器计算机系统170的控制下)可以确定其输出“a”类。然后，服务器计算机系统170将输入数据的分对数与“a”类中的所有常规数据(例如，或其随机采样)和“a”类中的所有诱饵数据的分对数进行比较。用于该比较的一种技术是相似度，并且确定相似度的一种方式是确定针对常规数据和诱饵数据的相似度得分。通常，分对数层481的结果(即输出)只是向量，并且可以使用例如一般余弦相似度或欧几里德距离来计算它们的相似度。

在框485中，服务器计算机系统170响应于输入图像的分对数结果比常规训练数据更类似于诱饵数据，将输入数据检测为对抗攻击并采取某预定保护动作470。例如，对于(1)输入数据461的分对数输出和常规数据的分对数输出，以及(2)输入数据的分对数输出和诱饵数据的分对数输出，可以使用一般余弦相似度或欧几里德距离来确定相似度。将选择基于正使用的特定度量具有最佳值的这些中的那一个。如果该选择是诱饵数据，则将其检测为对抗攻击。否则，返回输出450。将使用输出456进行预定保护动作470或输出450的返回。

框485的选项(参见框486)是使用前k个最接近(基于相似度)的常规或诱饵数据的标签来确定输入数据的类型。考虑一个示例。假设k＝10，并且在前k个最接近的常规或诱饵数据中存在常规和诱饵数据的一些混合。为了决定输入数据是常规数据还是诱饵数据，可以在此设置阈值t(例如，t＝50％)。在这种情况下，如果超过五个是诱饵数据，则假定输入是诱饵数据。类似地，如果超过五个是常规数据，则假定输入是常规数据。如果常规和诱饵数据均有五个，则可以生成错误或者可以使用另外的度量来做出该决定，或者可以使用用于做出这样的决定且本领域技术人员已知的其他技术。

因此，图4A和图4B提供了用于区分常规数据和诱饵数据的示例性技术集。

进一步的示例

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种方法，包括：

从常规数据生成诱饵数据，其中从常规数据生成诱饵数据包括：对于常规数据能够被分离到的每个类，将常规数据聚类到多个子集群；对于每个子集群，选择中心点数据并基于所述中心点数据生成诱饵数据；

使用诱饵数据训练已经用常规数据训练的深度神经网络；

响应于包括输入数据的客户端请求，在输入数据上操作训练的深度神经网络；

至少使用所操作的训练的深度神经网络的输出来执行后处理，以确定所述输入数据是常规数据还是诱饵数据；以及

基于所执行的后处理的结果来执行一个或多个动作。

2.根据权利要求1所述的方法，其中：

所述深度神经网络是第一深度神经网络，其中第一深度神经网络的输出包括所述输入数据被置入的常规数据类；

该方法还包括用常规数据和诱饵数据训练第二深度神经网络，其中第二深度神经网络的输出包括指示所述输入数据是常规数据还是诱饵数据的置信度得分；

该方法还包括，响应于所述客户端请求，还对所述输入数据操作第二深度神经网络；

执行后处理还包括确定第二深度神经网络的输出指示所述输入数据是常规数据还是诱饵数据；并且

执行一个或多个动作还包括执行以下之一：

响应于第二深度神经网络确定所述客户端请求包括诱饵数据，执行一个或多个预定保护动作；或者

响应于第二深度神经网络确定所述客户端请求包括常规数据，向所述客户端输出第一深度神经网络的输出。

3.根据权利要求2所述的方法，其中，所述一个或多个预定保护动作包括以下之一：返回正确的标签；返回随机标签；或阻止所述客户端请求而不返回响应。

4.根据权利要求2所述的方法，其中，第一深度神经网络的输出包括所述输入数据被分配到的每个类的置信度得分。

5.根据权利要求1所述的方法，其中：

利用常规数据和诱饵数据训练所述深度神经网络还包括：

使用已经用真实标签标记的常规数据和所述诱饵数据两者训练所述深度神经网络，其中所述诱饵数据已经用伪造标签标记；

针对常规数据和诱饵数据两者记录所述深度神经网络中分对数层的输出结果；

执行后处理还包括比较所述输入数据的分对数层的结果与常规数据的分对数层的记录结果之间的第一相似度以及诱饵数据的分对数层的记录结果之间的第二相似度；并且

执行一个或多个动作还包括执行以下之一：

响应于根据所述比较确定所述输入数据的分对数层的结果和诱饵数据的分对数层的记录结果是最相似的，执行一个或多个预定保护动作；或者

响应于根据所述比较确定所述输入数据的分对数层的结果和常规数据的分对数层的记录结果是最相似的，向所述客户端输出第一深度神经网络的输出。

6.根据权利要求5所述的方法，其中，所述一个或多个预定保护动作包括以下之一：返回正确的标签；返回随机标签；或阻止所述客户端请求而不返回响应。

7.根据权利要求5所述的方法，其中，所述深度神经网络的输出包括所述输入数据被分配到的每个类的置信度得分。

8.根据权利要求5所述的方法，其中，使用一般余弦相似度或欧几里德距离之一来确定第一相似度和第二相似度。

9.根据权利要求5所述的方法，其中：

所述输入数据被确定为在特定类中；

对于所述特定类中的所有常规数据，执行所述输入数据的分对数层的结果与常规数据的分对数层的记录结果之间的第一相似度；

对于所述特定类中的所有诱饵数据，执行诱饵数据的分对数层的记录结果之间的第二相似度；并且

所述比较基于按照第一相似度和第二相似度被认为最接近于所述输入数据的分对数层的结果的、所述类中的常规数据或诱饵数据的分对数层的前k个结果来选择所述输入数据是常规数据还是诱饵数据。

10.根据权利要求1所述的方法，其中，基于所述中心点数据生成诱饵还包括：

计算从一个类的中心点x_m到所有其他类的梯度，并生成诱饵数据x_d为

其中l_t是所有其他类的目标类，其中变量ε被设置且预先确定，其中使用了Loss(·)函数和sign(·)函数。

11.根据权利要求1所述的方法，其中：

所述常规数据和相应的训练数据用相应的真实标签标记，所述标签指示常规数据被置于的正确的类；并且

其中生成诱饵数据还包括将伪造标签分配给诱饵数据，其中所述伪造标签指示诱饵数据被置于的不正确的类。

12.一种装置，包括：

一个或多个处理器；

一个或多个具有程序代码的存储器，其中所述一个或多个处理器响应于检索和执行所述程序代码而使得所述装置执行包括根据权利要求1-11中任一项所述的方法中的步骤的操作。

13.一种具有程序指令的计算机可读存储介质，所述程序指令能够由设备执行以使该设备执行包括根据权利要求1-11中任一项所述的方法中的步骤的操作。

14.一种计算机系统，包括被配置为执行根据权利要求1-11中任一项所述的方法中的步骤的模块。