CN111340214A

CN111340214A - 对抗攻击模型的训练方法及装置

Info

Publication number: CN111340214A
Application number: CN202010107342.9A
Authority: CN
Inventors: 李家琛; 吴保元; 张勇; 樊艳波; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-26
Anticipated expiration: 2040-02-21
Also published as: WO2021164334A1; US20220198790A1; CN111340214B

Abstract

提供了一种对抗攻击模型的训练方法及装置。对抗攻击模型包括生成器网络，训练方法包括：利用生成器网络，基于训练数字图像，产生对抗攻击图像；基于对抗攻击图像，进行对抗攻击，并且获得对抗攻击结果；获得训练数字图像所对应的物理图像；基于对抗攻击图像和物理图像、以及基于对抗攻击结果和训练数字图像，对生成器网络进行训练。通过本公开的对抗攻击模型生成的对抗图像能够对目标模型进行有效的对抗攻击或者对目标模型进行有效训练以防御这种对抗攻击。

Description

对抗攻击模型的训练方法及装置

技术领域

本公开涉及机器学习技术领域，特别地，涉及一种对抗攻击模型的训练方法及装置。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

随着人工智能技术研究和进步，人工智能技术正在应用于各种不同的领域，诸如智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习(Machine Learning)/深度学习(Deep Learning)等几大方向。

机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。目前，各种形式的机器学习模型已经彻底改变了人工智能的许多领域。例如，诸如深度神经网络(Deep NeuralNetworks，DNN)的机器学习模型现在被用于许多机器视觉任务。

尽管深度神经网络有很好的表现，但它极易受到对抗攻击(AdversarialAttack)。对抗攻击表现为攻击者向深度神经网络的输入人为计算的微小扰动，从而使得深度神经网络产生错误的输出，即欺骗深度神经网络。由于深度神经网络易受对抗样本攻击，也就要求深度神经网络提升防御能力，降低对抗攻击样本欺骗深度神经网络的可能性。

因此，目前正在研究对机器学习模型的对抗攻击以及相应的防御。

发明内容

根据本公开的一个方面，提供了一种对抗攻击模型的训练方法。对抗攻击模型包括生成器网络，该训练方法包括：利用生成器网络，基于训练数字图像，产生对抗攻击图像；基于对抗攻击图像，进行对抗攻击，并且获得对抗攻击结果；获得训练数字图像所对应的物理图像；基于对抗攻击图像和物理图像、以及基于对抗攻击结果和训练数字图像，对生成器网络进行训练。

根据本公开的另一个方面，提供了一种对抗图像的产生方法。该产生方法包括：利用包括生成器网络的对抗攻击模型，基于输入数字图像，产生对抗攻击图像并将产生的对抗攻击图像作为对抗图像，其中，生成器网络是基于训练数字图像以及与训练数字图像相对应的物理图像而训练的，并且其中，在生成器网络的训练过程中，利用生成器网络，基于训练数字图像产生对抗攻击图像；基于对抗攻击图像对目标模型进行对抗攻击，获得攻击结果；基于对抗攻击图像和物理图像、以及基于攻击结果和训练数字图像，对生成器网络进行训练。

根据本公开的另一个方面，提供了一种对抗攻击模型的训练装置。对抗攻击模型包括生成器网络，训练装置包括用于存储数据的存储器以及与存储器通信的处理器，处理器被编程为：利用生成器网络，基于训练数字图像，产生对抗攻击图像；基于对抗攻击图像，进行对抗攻击，并且获得对抗攻击结果；获得训练数字图像所对应的物理图像；以及基于对抗攻击图像和物理图像、以及基于对抗攻击结果和训练数字图像，对生成器网络进行训练。

根据本公开的另一个方面，提供了一种对抗图像的产生装置。产生装置包括用于存储数据的存储器以及与存储器通信的处理器，处理器被编程为：利用包括生成器网络的对抗攻击模型，基于输入数字图像，产生对抗攻击图像并将产生的对抗攻击图像作为对抗图像，其中，生成器网络是基于训练数字图像以及与训练数字图像相对应的物理图像而训练的，并且其中，在生成器网络的训练过程中，利用生成器网络，基于训练数字图像产生对抗攻击图像；基于对抗攻击图像对目标模型进行对抗攻击，获得攻击结果；基于对抗攻击图像和物理图像、以及基于攻击结果和训练数字图像，对生成器网络进行训练。

根据本公开的另一个方面，提供了一种计算机可读存储介质，其上存储有一个或多个计算机程序，其中当一个或多个计算机程序被处理器执行时实现以上描述的对抗攻击模型的训练方法。

根据本公开的另一个方面，提供了一种计算机可读存储介质，其上存储有一个或多个计算机程序，其中当一个或多个计算机程序被处理器执行时实现以上描述的对抗图像的产生方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例的附图作简单地介绍。明显地，下面描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1示出了可以应用根据本公开的实施例的对抗攻击模型的训练的示例系统的框图；

图2A示出了根据本公开的一些实施例的对抗攻击模型的框图；

图2B示出了根据本公开的一些实施例的对抗攻击模型的框图；

图3A示出了根据本公开的一些实施例的对抗攻击模型的框图；

图3B示出了根据本公开的一些实施例的对抗攻击模型的框图；

图4示出了根据本公开的一些实施例的对抗攻击模型的训练方法，其中该对抗攻击模型包括生成器网络和判决器网络；

图5示出了根据本公开的一些实施例的对抗攻击模型的训练方法，其中该对抗攻击模型包括生成器网络、判决器网络和和几何变换模块；

图6示出了根据本公开实施例的产生对抗攻击图像的方法；

图7A示出了根据本公开的一些实施例的对抗攻击模型的训练装置的框图；

图7B示出了根据本公开的一些实施例的对抗图像的产生装置的框图；

图8A至图8C分别示出了原始数字图像以及分别采用EOT方法、RP2方法、D2P方法以及本公开的方法生成的一些对抗样本的示例。

图9示出了在采用EOT方法、RP2方法、D2P方法以及本公开的方法进行实验时用户的答案的分布的示意图；以及

图10示出了根据本公开的实施例的电子设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。明显地，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

这里用于描述本发明的实施例的术语并非旨在限制和/或限定本发明的范围。

例如，除非另外定义，本公开使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

应该理解的是，本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。除非上下文另外清楚地指出，否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。

将进一步理解的是，术语“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

下面，将参考附图详细地说明本公开的实施例。应当注意的是，不同的附图中相同的附图标记将用于指代已描述的相同的元件。

对抗攻击由于其作用的领域不同一般分为两种：数字对抗攻击和物理对抗攻击。数字对抗攻击是将数字世界(也可以称为数字域或数字空间)中的诸如数字图像的数字对抗样本直接输入深度神经网络进行攻击的方法。物理对抗攻击是通过物理世界(也可以称为物理域或物理空间)中的物理对抗样本对深度神经网络进行攻击的方法。

物理对抗攻击方法主要包括EOT(expectation over transformation)方法(算法)(Athalye,Anish,et al."Synthesizing robust adversarial examples."arXivpreprint arXiv:1707.07397(2017))、RP2(robust physical perturbations)方法(算法)(Eykholt,Kevin,et al."Robust physical-world attacks on deep learning visualclassification."Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018)、D2P(digital-to-physical transformation)方法(算法)(Jan,Steve TK,et al."Connecting the digital and physical world:Improving therobustness of adversarial attacks."The Thirty-Third AAAI Conference onArtificial Intelligence(AAAI'19).2019)。

物理对抗攻击的难点在于，在数字域内有效的对抗样本(例如，对抗图像)，在经过了数字域到物理域的转换后，通常会由于例如图像失真而丧失攻击效果。此外，数字域到物理域的转换具有很高的不确定性而难以准确建模。

为了解决至少以上问题，本公开的实施例提供了用于对抗攻击的对抗攻击模型、该对抗攻击模型的训练方法、通过该对抗攻击模型产生对抗样本(例如，对抗图像)以及通过该对抗样本来训练目标模型的方法。

图1示出了可以应用根据本公开的实施例的对抗攻击模型的训练的示例系统10的框图。

参考图1，系统10可以包括用户设备110、服务器120和训练装置130。用户设备110、服务器120和训练装置130可以彼此通过网络140通信地耦合。

用户设备110可以是任何类型的电子设备，诸如个人计算机(例如，膝上型或台式计算机)、移动设备(例如，智能手机或平板电脑)、游戏控制台、可穿戴设备、或任何其他类型的电子设备。

用户设备110可以包括一个或多个处理器111和存储器112。该一个或多个处理器111可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器112可以包括一个或多个非暂时性计算机可读存储介质，例如，RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器112可以存储数据和由处理器111执行以使用户设备110执行操作的指令。

在一些实施方式中，用户设备110可以存储或包括一个或多个对抗攻击模型。

在一些实施方式中，用户设备110还可以存储或以其他方式包括一个或多个目标模型。在本公开的实施例中，目标模型可以指要被攻击的模型。例如，目标模型可以是或可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型(包括非线性模型和/或线性模型)。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。

在一些实施方式中，可以通过网络140从服务器120接收一个或多个对抗攻击模型，存储在用户设备的存储器114中，并且然后由一个或多个处理器111使用或以其他方式实现。

在一些实施方式中，服务器120可以包括一个或多个对抗攻击模型。服务器120根据客户端-服务器关系与用户设备110进行通信。例如，对抗攻击模型可以由服务器140实现为web服务的一部分。因此，可以在用户设备110处存储和实现一个或多个对抗攻击模型和/或可以在服务器120处存储和实现一个或多个对抗攻击模型。

在一些实施方式中，服务器120包括一个或多个处理器121和存储器122。该一个或多个处理器121可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器122可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器122可以存储数据和由处理器121执行以使服务器120执行操作的指令。

在一些实施方式中，服务器120还可以存储或以其他方式包括一个或多个目标模型。在本公开的实施例中，目标模型可以指要被攻击的模型。例如，目标模型可以是或可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型(包括非线性模型和/或线性模型)。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。

在一些实施方式中，用户设备110和/或服务器120可以利用与通过网络140通信地耦合的训练装置130的交互来训练对抗攻击模型和/或目标模型。在一些示例中，训练装置130可以与服务器120分开或可以是服务器120的一部分。

在一些实施方式中，训练装置130包括一个或多个处理器131和存储器132。该一个或多个处理器131可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器132可以包括一个或多个非暂时性计算机可读存储介质，例如，RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器132可以存储数据和由处理器131执行以使训练装置130执行操作的指令。

在一些实施方式中，训练装置130可以包括机器学习引擎133。例如，机器学习引擎133可以使用各种训练技术或学习技术训练存储在用户设备110和/或服务器120处的对抗攻击模型和/或目标模型。在一些实施方式中，执行错误的向后传播可以包括通过时间执行截断的反向传播。机器学习引擎133可以执行多种通用技术(例如，权重衰减、丢失等)以改进正在训练的模型的泛化能力。机器学习引擎133可以包括一个或多个机器学习平台、框架、和/或库，诸如TensorFlow、Caffe/Caffe2、Theano、Torch/PyTorch、MXnet、CNTK等。

在一些实施方式中，机器学习引擎133可以实现对抗攻击模型和/目标模型的训练。

如上所述，图1示出了可以用于实现本公开的示例系统。然而，本公开不限于此，也可以使用其他系统来实现本公开。例如，在一些实施方式中，用户设备110可以包括机器学习引擎和训练数据集。在这样的实施方式中，可以在用户设备110本地训练并使用对抗攻击模型和/或目标模型，或者可以通过经训练的对抗攻击模型生成对抗样本。

图2A示出了根据本公开的一些实施例的对抗攻击模型20的示例。图2B示出了包括了某个数字图像样本的对抗攻击模型20的示例。

参考图2A，对抗攻击模型20可以包括生成器网络201和判决器网络202。

在一些实施方式中，使用训练样本对对抗攻击模型20进行训练。在本公开的实施例中，训练样本可以为数字图像样本(称为训练数字图像)。

在一些实施方式中，生成器网络201和判决器网络202可以包括各种类型的机器学习模型。机器学习模型可以包括线性模型和非线性模型。例如，机器学习模型可以包括回归模型、支持向量机、基于决策树的模型、贝叶斯模型和/或神经网络(例如，深度神经网络)。例如，神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。需要说明，为了便于描述，这里将生成器网络和判决器网络称为“网络”，但是生成器网络和判决器网络不一定限于是神经网络，而是还可以包括其他形式的机器学习模型。

在一些实施方式中，生成器网络201和判决器网络202构成生成式对抗网络(Generative Adversarial Network，GAN)。例如，生成式对抗网络可以是IanJ.Goodfellow等人于2014年10月在Generative Adversarial Networks中提出的生成式对抗网络(Goodfellow,Ian,et al."Generative adversarial nets."Advances in neuralinformation processing systems.2014)或者在此基础上的各种改进的生成式对抗网络。

在一些实施方式中，生成器网络201可以基于训练数字图像产生对抗攻击图像，并且所生成的对抗攻击图像可以被输出到判决器网络202和目标模型21。在本公开的实施例中，目标模型21可以指要被对抗攻击的模型。

在一些实施方式中，判决器网络202可以基于物理图像和生成器网络201产生的对抗攻击图像生成判别结果。例如，物理图像可以通过对训练数字图像执行物理域到数字域的转换而获得。例如，图2B示出了训练数字图像到物理图像的转换的示例形式。对训练数字图像执行物理域到数字域的转换可以包括以下之一：对训练数字图像进行打印并扫描以获取所述物理图像；或者对训练数字图像进行打印并拍摄以获取所述物理图像。例如，可以通过打印机对训练数字图像进行打印并通过扫描仪对打印的图像进行扫描以获得物理图像。可替换地，可以通过打印机对训练数字图像进行打印并通过照相机对打印的图像进行拍摄以获得物理图像。此外，可以将训练数字图像以1:1的比例映射到物理域。

在一些示例中，如果要实现对目标模型21的对抗攻击，则生成器网络201产生的对抗攻击图像需要欺骗目标模型204。因此，用于对生成器网络201进行训练的第一目标函数可以表示为：

上述第一目标函数中，

表示对目标模型204的对抗攻击的对抗攻击损失，f(·)表示目标模型21，G(·)表示生成器网络201，x表示输入的训练数字图像，y表示相对于训练数字图像的标签设置的目标标签。例如，对抗攻击损失

可以参考现有的GAN模型来获得，例如，参考Ian J.Goodfellow等人于2014年10月在Generative AdversarialNetworks中提出的GAN模型，然而本公开不限于此，并且可以采用各种对抗攻击损失。

并且，在这些示例中，生成器网络201生成的产生的对抗攻击图像还需要与不带噪声的物理图像足够接近，使得能够欺骗判决器网络202。例如，以GAN的要求欺骗判决器网络202。因此，用于对判决器网络202进行训练的第二目标函数可以表示为：

上述第二目标函数中，

表示判决器网络的判决损失，G(·)表示生成器网络，D(·)表示判决器网络，x表示输入到生成器网络的训练数字图像，x_p表示输入到判决器网络的物理图像。

函数可以表示当更新D时需要最大化判决损失，而当更新G时需要最小化判决损失。例如，判决损失

可以参考现有的GAN模型来获得，例如，参考Ian J.Goodfellow等人于2014年10月在Generative Adversarial Networks中提出的GAN模型，然而本公开不限于此，并且可以采用各种判决损失。

因此，在这些示例中，可以基于上述对抗攻击损失和判决损失对对抗攻击模型20进行训练以获得生成器网络201和判决器网络202的变量。

在本公开的实施例中，通过用生成器网络和判决器网络的结构来监督生成的对抗攻击图像的噪声强度，可以显著提高由经训练的对抗攻击模型生成的对抗图像的图像质量，使得对抗图像能够被用来进行有效攻击或者被用于对目标模型进行有效训练。需要说明，为了方便描述，在本公开的实施例中，将在对抗攻击模型训练时生成器网络产生的图像称为“对抗攻击图像”，而对经训练的对抗攻击模型产生的图像称为“对抗图像”。

在以上描述的对抗攻击模型20中，通过判决器网络能够限制噪声对物理图像的影响。另外，对于对抗攻击模型20，能够通过将数字图像到物理图像的转换过程和对抗攻击图像的生成过程进行联合优化。

此外，在一些实施方式中，对抗攻击模型20可以用于普遍的物理攻击(Universalphysical attack)中。在这种情况下，训练数字图像可以包括通过将原始图像经过不同的随机剪裁而获得的多个不同的数字图像。通过对多个不同的数字图像执行物理域到数字域的转换可以获得相应的多个物理图像。该多个数字图像和多个物理图像形成多组数字图像和物理图像。将该多组数字图像和物理图像中的每一组分别作为对抗攻击模型20的输入来对进行训练，其中每组数字图像和物理图像中的数字图像作为训练数字图像，并且物理图像作为与训练数字图像相对应的物理图像。经过训练后，对抗攻击模型20可以用于攻击其他不同的输入图像。这种情况下的对抗攻击模型可以学习到更加广泛适用的对抗噪声模式，然而由经训练的对抗攻击模型生成的对抗图像质量会显著下降。

图3A示出了根据本公开的一些实施例的对抗攻击模型30的示例。图3B示出了包括了某个数字图像样本的对抗攻击模型30的示例。

参考图3A，对抗攻击模型30可以包括生成器网络301、判决器网络302和几何变换模块303。

关于生成器网络301和判决器网络302的实施方式，可以参考图2A和2B中的生成器网络201和判决器网络202，这里省略对其的详细描述。

在一些实施方式中，生成器网络301可以基于训练数字图像产生对抗攻击图像，并且所生成的对抗攻击图像可以被输出到判决器网络302和几何变换模块303。在本公开的实施例中，目标模型31可以指要被对抗攻击的模型。例如，图3B示出了对抗攻击图像的几何转换的示例形式。

在一些实施方式中，几何变换模块303可以被配置为对生成器网络301生成的对抗攻击图像进行几何变换。几何变换可以包括仿射变换。例如，几何变换可以包括平移、缩放、翻转、旋转和剪切中的至少一个。由此，可以利用几何变换后的对抗攻击图像对目标模型305进行对抗攻击。

在一些示例中，如果要实现对目标模型305的对抗攻击，则生成器网络301产生的对抗攻击图像需要欺骗目标模型305。另外，例如，在对对抗攻击模型30进行训练时，可以采用EOT方法(算法)进行对抗攻击。在这种情况下，用于对生成器网络301进行训练的第一目标函数可以表示为：

上述第一目标函数中，

表示对目标模型303的对抗攻击的对抗攻击损失，f(·)表示目标模型，G(·)表示生成器网络301，x表示输入的训练数字图像，y表示相对于训练数字图像的标签设置的目标标签，E[·]表示求期望，r(·)表示几何变换，R表示几何变换的集合。

并且，在这些示例中，生成器网络301生成的产生的对抗攻击图像还需要与不带噪声的物理图像足够接近，使得能够欺骗判决器网络302。例如，以GAN的要求欺骗判决器网络302。因此，用于对判决器网络302进行训练的第二目标函数可以表示为：

上述第二目标函数中，

表示判决器网络的判别损失，G(·)表示生成器网络，D(·)表示判决器网络，x表示输入到生成器网络301的训练数字图像，x_p表示输入到判决器网络的物理图像。

函数可以表示当更新D时需要最大化判决损失，而当更新G时需要最小化判决损失。

在这些示例中，通过结合上述第一目标函数和第二目标函数，可以得到最终目标函数为：

上述最终目标函数中，λ是权重系数(被称为攻击权重)。例如，该攻击权重可以是预先定义的超参数。例如，该攻击权重的范围可以为5～20。

因此，在这些示例中，可以基于上述目标函数对包括生成器网络301和判决器网络302的对抗攻击模型30进行训练以获得生成器网络301和判决器网络302的变量。

在本公开的实施例中，通过用生成器网络和判决器网络的结构来监督生成的对抗攻击图像的噪声强度，可以显著提高由经训练的对抗攻击模型生成的对抗图像的图像质量，使得对抗图像能够被用来进行有效攻击或者被用于对目标模型进行有效训练。

在以上描述的对抗攻击模型30中，通过判决器网络能够限制噪声对物理图像的影响，并且能够将数字图像到物理图像的转换过程和对抗攻击图像的生成过程进行联合优化。另外，通过使用几何变换后的对抗攻击图像进行对抗攻击，能够使得攻击效果在几何变换的情况下稳定，从而提高了对抗攻击的鲁棒性。

此外，在一些实施方式中，对抗攻击模型30可以用于普遍的物理攻击(Universalphysical attack)中。在这种情况下，训练数字图像可以包括通过将原始图像经过不同的随机剪裁而获得的多个不同的数字图像。通过对多个不同的数字图像执行物理域到数字域的转换可以获得相应的多个物理图像。该多个数字图像和多个物理图像形成多组数字图像和物理图像。将该多组数字图像和物理图像中的每一组分别作为对抗攻击模型30的输入来对进行训练，其中每组数字图像和物理图像中的数字图像作为训练数字图像，并且物理图像作为与训练数字图像相对应的物理图像。经过训练后，对抗攻击模型30可以用于攻击其他不同的输入图像。这种情况下的对抗攻击模型可以学习到更加广泛适用的对抗噪声模式，然而由经训练的对抗攻击模型生成的对抗图像质量会显著下降。

以上结合图2A和2B以及图3A和3B描述了根据本公开的一些实施例的对抗攻击模型的一些示例。下面将结合图4和图5描述根据本公开的一些实施例的对对抗攻击模型进行训练的方法。

图4示出了根据本公开的一些实施例的对抗攻击模型的训练方法40，其中该对抗攻击模型包括生成器网络和判决器网络。例如，该方法可以用于对图2A或图2B中示出的对抗攻击模型20进行训练。

参考图4，在步骤S41，利用生成器网络，基于训练数字图像，产生对抗攻击图像。

在一些实施方式中，通过将训练数字图像输入到生成器网络，以产生对抗攻击图像。

然后，在步骤S43，利用对抗攻击图像进行对抗攻击并且获得对抗攻击结果。

例如，在步骤S43，利用对抗攻击图像对目标模型进行对抗攻击并且获得对抗攻击结果。对抗攻击结果可以是目标模型输出的识别结果或分类结果。

接下来，在步骤S45，获得训练数字图像所对应的物理图像。

例如，获得训练数字图像所对应的物理图像可以包括以下之一：对所述训练数字图像进行打印并扫描(打印-扫描)以获取物理图像；或者对训练数字图像进行打印并拍摄(打印-拍摄)以获取物理图像。

在一些实施方式中，步骤S45可以包括直接接收或读取训练数字图像所对应的物理图像，其中，该物理图像是采用以上描述的示例方法来确定的。在这种情况下，可以预先确定训练数字图像所对应的物理图像。

需要说明，虽然在图4以及相应的描述中，步骤S45被示出在步骤S41和S43之后，然而本公开不限于此。例如，步骤S45可以在步骤S41或S43之前执行，或者并行执行。

然后，在步骤S47，基于对抗攻击图像和物理图像、以及基于对抗攻击结果和训练数字图像，对生成器网络和判决器网络进行训练。

在一些实施方式中，步骤S47可以包括：获得与训练数字图像相对应的目标标签；基于目标标签和对抗攻击结果确定对抗攻击损失，并基于对抗攻击损失，对生成器网络进行训练；利用判决器网络，基于对抗攻击图像和物理图像确定判决损失；基于对抗攻击损失和判决损失对生成器网络和判决器网络进行训练。

在一些示例中，如参考图2A或2B所描述的，对抗攻击损失可以被确定为

其中，

表示对目标模型的对抗攻击的对抗攻击损失，f(·)表示目标模型，G(·)表示生成器网络，x表示输入的训练数字图像，y表示相对于训练数字图像的标签设置的目标标签。判决损失可以被确定为

其中，

表示判决器网络的判决损失，G(·)表示生成器网络，D(·)表示判决器网络，x表示输入到生成器网络的训练数字图像，x_p表示输入到判决器网络的物理图像。在此基础上，第一目标函数可以被确定为

第二目标函数可以被确定为

此外，可以基于第一目标函数和第二目标函数确定最终目标函数。例如，最终目标函数可以被确定为：

其中λ是预先定义的攻击权重。

例如，基于对抗攻击损失和判决损失对生成器网络和判决器网络进行训练可以包括基于第一目标函数和第二目标函数对生成器网络和判决器网络进行训练。

在一些示例中，对生成器网络和判决器网络进行训练可以包括：并行地同时训练生成器网络和判决器网络，其中基于第一目标函数和第二目标函数训练生成器网络，并且基于第二目标函数训练判决器网络。可替换地，对生成器网络和判决器网络进行训练可以包括：基于第一目标函数和第二目标函数确定最终目标函数，以及基于最终目标函数组合地训练生成器网络和判决器网络。

在一些实施方式中，参考图4描述的对对抗攻击模型进行训练的方法可以实施在例如图1中的用户设备110、服务器120、训练装置130、机器学习引擎133中的至少一个中。

图5示出了根据本公开的一些实施例的对抗攻击模型的训练方法50，其中该对抗攻击模型包括生成器网络、判决器网络和几何变换模块。例如，该方法可以用于对图3A或图3B中示出的对抗攻击模型30进行训练。

参考图5，在步骤S51，利用生成器网络，基于训练数字图像，产生对抗攻击图像。

接下来，在步骤S53，对对抗攻击图像进行几何变换，得到几何变换后的对抗攻击图像。

在步骤S53，通过几何变换模块对生成器网络生成的对抗攻击图像进行几何变换。几何变换可以是仿射变换。例如，仿射变换可以包括平移、缩放、翻转、旋转和剪切中的至少一个。由此，可以利用几何变换后的对抗攻击图像对目标模进行对抗攻击。下面描述几何变换的一个示例。对于对抗攻击图像上的一点p(p_x,p_y)，其齐次坐标的形式p(p_x,p_y,1)，通过齐次几何变换矩阵A表示几何变换，则该点p(p_x,p_y)经过几何变换后的坐标(p_x′,p_y′)满足：

上式中，a₁～a₆为几何变换的参数，反映了对抗攻击图像的旋转、缩放等几何变换。几何变换的参数可以是预先定义的值。例如，可以根据不同的变换需求设置几何变换的参数。

然后，在步骤S55，利用几何变换后的对抗攻击图像进行对抗攻击并且获得对抗攻击结果。

例如，在步骤S55，利用几何变换后的对抗攻击图像对目标模型进行对抗攻击并且获得对抗攻击结果。对抗攻击结果可以是目标模型输出的识别结果或分类结果。

接下来，在步骤S57，获得训练数字图像所对应的物理图像。

例如，获得训练数字图像所对应的物理图像可以包括以下之一：对所述训练数字图像进行打印并扫描以获取物理图像；或者对训练数字图像进行打印并拍摄以获取物理图像。

在一些实施方式中，步骤S57可以包括直接接收或读取训练数字图像所对应的物理图像，其中，该物理图像是采用以上描述的示例方法来确定的。在这种情况下，可以预先确定训练数字图像所对应的物理图像。

需要说明，虽然在图5以及相应的描述中，步骤S57被示出在步骤S51、S53以及S55之后，然而本公开不限于此。例如，步骤S57可以在步骤S51、S53以及S55中的一个之前执行，或者并行执行。

然后，在步骤S59，基于对抗攻击图像和物理图像、以及基于对抗攻击结果和训练数字图像，对生成器网络和判决器网络进行训练。

在一些实施方式中，步骤S59可以包括：获得相对于训练数字图像的目标标签；基于目标标签和对抗攻击结果确定对抗攻击损失，并基于对抗攻击损失，对生成器网络进行训练；利用判决器网络，基于对抗攻击图像和物理图像确定判决损失；基于对抗攻击损失和判决损失对生成器网络和判决器网络进行训练。

在一些示例中，如参考图3A和图3B所描述的，对抗攻击损失可以被确定为

其中，

表示对目标模型的对抗攻击的对抗攻击损失，f(·)表示目标模型，G(·)表示生成器网络，x表示输入的训练数字图像，y表示相对于训练数字图像的目标标签，r(·)表示几何变换。判决损失可以被确定为

其中，

第二目标函数可以被确定为

其中λ是预先定义的攻击权重，E[·]表示求期望，R表示几何变换的集合。

在一些实施方式中，参考图5描述的对对抗攻击模型进行训练的方法可以实施在例如图1中的用户设备110、服务器120、机器学习引擎133中的至少一个中。

以上描述了根据本公开的实施例的对抗攻击模型及其训练方法。下面将描述产生对抗攻击图像的方法。

图6示出了根据本公开实施例的对抗图像的产生方法。

需要说明，为了方便描述，在本公开的实施例中，将在对抗攻击模型训练时生成器网络产生的图像称为“对抗攻击图像”，而对经训练的对抗攻击模型产生的图像称为“对抗图像”。

参考图6，在步骤S61，对对抗攻击模型进行训练以获得经训练的对抗攻击模型。

然后，在步骤S63，利用经训练的对抗攻击模型，基于输入数字图像，产生对抗攻击图像。例如，输入数字图像可以与训练数字图像相同或不同。

在一些实施方式中，对抗攻击模型可以是参考图2A或图2B描述的对抗攻击模型20。在这种情况下，步骤S61可以包括通过参考图4所描述的方法对对抗攻击模型进行训练以获得经训练的对抗攻击模型。

在一些实施方式中，对抗攻击模型可以是参考图3A或图3B描述的对抗攻击模型30。在这种情况下，步骤S61可以包括通过参考图5所描述的方法对对抗攻击模型进行训练以获得经训练的对抗攻击模型。步骤S63可以包括：利用生成器网络，基于输入数字图像，产生对抗攻击图像；将该对抗攻击图像作为对抗图像。可替换地，步骤S63可以包括：利用生成器网络，基于输入数字图像，产生对抗攻击图像；以及对对抗攻击图像进行几何变换，得到几何变换后的对抗攻击图像，并且将几何变换后的对抗攻击图像作为对抗图像。

在一些实施方式中，在产生对抗图像后，可以使用所产生的对抗图像对目标模型进行对抗攻击，以欺骗目标模型。

在一些实施方式中，在产生对抗图像后，可以使用所产生的对抗图像对目标模型进行训练，以防御使用该对抗图像的对抗攻击。

通过使用根据本公开实施例的对抗图像的产生方法来产生对抗图像，能够对目标模型进行攻击以确定目标模型的稳定性。另外，生成的对抗图像也能够用于训练目标模型，以提高目标模型对这种对抗攻击的防御能力。

以上描述了根据本公开的各种实施例的用于对对抗攻击模型进行训练的方法以及产生对抗图像的方法。应当理解，附图中的流程图和框图图示了根据本公开的各种实施例的方法、装置、系统和计算机可读存储介质的可能实现的体系架构、功能和操作。例如，流程图或框图中的每个框可以表示包括用于实现指定的逻辑功能的至少一个可执行指令的模块、段或代码部分。还应该注意的是，在一些替代实施方式中，方框中提到的功能可以不按照附图中指出的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者框有时可以以相反的顺序执行。还将注意到，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作的基于专用硬件的系统、或专用硬件和计算机指令的组合来实现。

图7A示出了根据本公开的实施例的对抗攻击模型的训练装置70的框图，对抗攻击模型包括生成器网络。例如，训练装置70可以用于对以上描述的各种对抗攻击模型进行训练。

参考图7A，对抗攻击模型的训练装置70可以包括用于存储数据的存储器701和一个或多个处理器702。一个或多个处理器702被编程为：利用生成器网络，基于训练数字图像，产生对抗攻击图像；基于对抗攻击图像，进行对抗攻击，并且获得对抗攻击结果；获得训练数字图像所对应的物理图像；以及基于对抗攻击图像和物理图像、以及基于所述对抗攻击结果和所述训练数字图像，对生成器网络进行训练。

在一些实施方式中，一个或多个处理器702还可以被编程为：对对抗攻击图像进行几何变换，得到几何变换后的对抗攻击图像；以及利用几何变换后的对抗攻击图像进行对抗攻击，获得对抗攻击结果。

在一些实施方式中，一个或多个处理器702还可以被编程为：获得与训练数字图像相对应的目标标签；基于目标标签和对抗攻击结果定义对抗攻击损失，并基于对抗攻击损失，对生成器网络进行训练；以及利用判决器网络，基于对抗攻击图像和物理图像进行图像判决，并基于判决损失，对生成器网络和判决器网络进行联合训练。

在一些实施方式中，一个或多个处理器702还可以被编程为：获得与训练数字图像相对应的目标标签；基于目标标签和对抗攻击结果，计算对抗攻击损失；以及利用判决器网络，基于对抗攻击图像和物理图像进行图像判决，计算判决损失；利用对抗攻击损失和判决损失构造目标损失，并基于目标损失，对生成器网络和判决器网络进行联合训练。

在一些实施方式中，存储器701还可以存储要被训练的对抗攻击模型以及目标模型。

在一些实施方式中，对抗攻击模型的训练装置70可以被实施为图1中的用户设备110、服务器120、训练装置130、机器学习引擎133中的至少一个中。

关于对抗攻击模型的训练装置70的具体配置可以参考以上描述的对抗攻击模型的各种训练方法，这里省略对其的详细描述。

图7B示出了根据本公开的实施例的对抗图像的产生装置71。

参考图7B，产生装置71包括用于存储数据的存储器711以及与存储器通信的一个或多个处理器712。一个或多个处理器712被编程为：利用包括生成器网络的对抗攻击模型，基于输入数字图像，产生对抗攻击图像并将产生的对抗攻击图像作为对抗图像，其中，生成器网络是基于训练数字图像以及与训练数字图像相对应的物理图像而训练的，并且其中，在生成器网络的训练过程中，利用生成器网络，基于训练数字图像产生对抗攻击图像；基于对抗攻击图像对目标模型进行对抗攻击，获得攻击结果；基于对抗攻击图像和物理图像、以及基于攻击结果和训练数字图像，对生成器网络进行训练。

在一些实施方式中，一个或多个处理器712还可以被编程为：使用对抗图像再次对目标模型进行训练，以防御使用对抗图像的对抗攻击。

在一些实施方式中，存储器711还可以存储对抗攻击模型以及目标模型。

在一些实施方式中，对抗图像的产生装置71可以被实施在图1中的用户设备110、服务器120、训练装置130、机器学习引擎133中的至少一个中。

关于对抗图像的产生装置71的具体配置可以参考以上描述的对抗图像的各种产生方法，这里省略对其的详细描述。

下面描述基于根据本公开的一些实施例的对抗攻击模型及其训练方法的实验，以说明通过该对抗攻击模型进行对抗攻击的一些效果。具体地，以下实验中，采用参考图3A或图3B描述的对抗攻击模型，并且采用图5描述的训练方法对该模型进行训练。需要说明，虽然这里采用了图3A或图3B中的对抗攻击模型及图5中的训练方法来进行实验，然而采用本公开的其它实施例也可以获得相同或类似的效果。

在该实验中，目标模型为在ImageNet(Deng,Jia,et al."Imagenet:A large-scale hierarchical image database."2009IEEE conference on computer vision andpattern recognition.Ieee,2009)上预训练的VGG-16模型(Simonyan,Karen,and AndrewZisserman."Very deep convolutional networks for large-scale imagerecognition."arXiv preprint arXiv:1409.1556(2014))。

该实验采用的数据集为在ImageNet上随机选择的100张不同类别的数字图像。每张数字图像分别针对两个不同的标签攻击。这两个不同的标签(即，目标标签)分别被确定为该图像的原始标签+100和原始标签-100。例如，对于标签为14的一张图像，将被用来进行两次攻击，目标标签分别为914和114)。另外，由于每张数字图像被用来进行两次攻击，则总共进行200次对目标模型的攻击。

该实验使用参考图3描述的对抗攻击模型进行训练并生成用于对抗攻击的对抗图像(也可称为对抗样本)。另外，该实验中，对抗攻击模型的生成器网络包括3个卷积层、6个残差块和2个反卷积层，并且判决器网络包括5个卷积层。另外，对抗攻击模型中的几何变换模块的尺度变化范围为0.7～1.3,旋转角度范围为-30°～30°。进一步，为了提高本公开的对抗攻击模型的鲁棒性，对用于几何变换模块使用的几何变换矩阵A添加了随机噪声，使得该对抗攻击模型可以处理更复杂的空间变换。添加随机噪声后的几何变换矩阵A＇可以表示为：

上式中，b_i是在[-0.1,0.1中进行随机采样的值，i＝1,2,…,6。另外，在采用本公开的方法进行训练时，还在生成器网络产生的、几何变换之前的对抗攻击图像上加入例如强度为0.1的高斯随机噪声来提高对抗攻击模型对于色彩变化的稳定性。

对根据本公开的实施例的对抗攻击模型进行训练主要包括：对于每个原始数字图像，将原始数字图像进行打印并对打印获得的图像进行扫描以获得相应的物理图像，并将物理图像归一化到288*288的像素大小；分别对原始数字图像和物理图像进行随机剪裁，生成50组数字图像和物理图像，每组的数字理图像和物理图像的像素大小为256*256并且剪裁方式相同；使用这50组数字图像和物理图像进行训练。在训练过程中，每次将其中一组的数字图像和物理图像分别输入对抗攻击模型中的生成器网络和判决器网络，生成器网络生成的图像经过几何变换模块转换后攻击目标模型，经过200个时期(epoch)后即完成训练。在完成训练后，再将原始数字图像输入到生成器网络，生成器网络的输出为最终用于攻击的对抗图像。

为了说明本公开的方法的效果，采用EOT方法、RP2方法和D2P方法与采用本公开的方法进行对比。另外，用攻击成功率(attack success rate，ASR)来评价攻击效果，其中ASR指示生成的对抗图像被识别为目标类别的比率。另外，还通过用户来评价对抗图像的图像噪声的显著程度。

采用各种方法(EOT方法、RP2方法、D2P方法以及本公开的方法)在全部100张图像上进行200次攻击后，各种方法在数字域和物理域的攻击成功率及对应的置信度如表1所示。另外，还采用作为数字域攻击的PGD(Project Gradient Descent)方法(Madry,Aleksander,et al."Towards deep learning models resistant to adversarialattacks."arXiv preprint arXiv:1706.06083(2017))作为参考，其他三种物理域攻击方法(EOT方法、RP2方法和D2P方法)里同样使用PGD方法来进行优化。例如，这三种物理域攻击方法(EOT方法、RP2方法和D2P方法)使用的噪声的强度均被限制为30(对于强度值的范围为0～255的RGB图像)。在本实验中，数字域攻击指采用生成的对抗样本进行对抗攻击，物理域攻击指采用通过将对抗样本进行打印并对打印得到的图像进行扫描后得到的图像进行对抗攻击。可以看出，本公开的方法在数字域和物理域中的攻击成功率以及置信度均显著高于其他方法。

表1不同方法的攻击成功率

表2示出了不同方法生成的对抗样本在物理域内对几何变换的稳定性。通过将对抗样本经过打印-扫描处理后，再经过尺度变换、旋转变换以及仿射变换得到的攻击效果。结果显示本公开的方法生成的对抗样本攻击效果最稳定，其攻击成功率(66.0％)比其他方法中最高的(54.8％)高11.2％。值得注意的是，本公开的方法生成的对抗样本在经过表2中各种几何变换处理后的平均攻击成功率高于未经过任何变换处理的对抗样本的成功率。这是因为本公开的方法在产生对抗样本时，在训练阶段，对抗样本被施加了在一定的范围内的随机几何变换，使得本公开的方法生成的对抗样本对这些几何变换有着极强的稳定性。

表2不同方法产生的对抗样本在物理域内对几何变换的稳定性

如在本公开的实施例中所描述的，获取物理图像的方法包括对数字图像进行打印-扫描或者对数字图像进行打印-拍摄。扫描和拍摄获得的图像存在明显的不同。例如，拍摄更容易受到光照、镜头畸变等复杂外界条件的影响。因此，为了测试对抗样本的可迁移性，将获取物理图像的方法从打印-扫描改为打印-拍摄。如表3所示，在采用打印-拍摄获得物理图像的情况下，本公开的方法的攻击成功率依然高于其他对比方法10％以上。

表3不同方法的对抗样本的可迁移性

另外，还测试了不同攻击权重λ对对抗攻击模型的影响。参考表4，随着攻击权重λ从5增大到10，在数字域和物理域内的攻击效果都有提升。物理域内的攻击成功率从51％提升至71％，显示出了高攻击权重可以生成更稳定的对抗样本。然而，在攻击效果更稳定的同时，图像质量会随着攻击权重λ的增大而有一定程度的降低。

表4不同攻击权重λ对对抗攻击模型的影响

为了衡量不同方法生成的对抗样本的图像质量，进行了用户测试。具体地，每一位参与测试的用户将做100道选择题，每道题内展示了一张原始图像和分别采用4种方法(EOT方法、RP2方法和D2P方法以及本公开的方法)生成的对抗样本。图8A-8C示出了各种方法(EOT方法、RP2方法和D2P方法以及本公开的方法)生成的一些对抗样本的示例。参考图8A-8C，分别示出了原始数字图像以及分别采用EOT方法、RP2方法和D2P方法以及本公开的方法生成的一些对抗样本的示例。由用户从中选择看起来失真程度最小、最自然的一张图像。总共有106位用户参与了测试，由于没有要求用户必须要在每道题中做出选择，所以总共收到了10237个答案。最终的答案的分布如表5和图9所示。

表5用户的答案的分布

如表5和图9所示，超过70％的用户选择了本公开的方法生成的图像，该结果显示出本公开的方法生成的对抗样本在图像质量上显著优于其他对比方法。

图10示出了根据本公开的实施例的电子设备的框图。

参考图10，电子设备100可以包括一个或多个处理器1001和存储器1002。存储器1002可以用于存储一个或多个计算机程序。

处理器1001可以包括各种处理电路，诸如但不限于专用处理器、中央处理单元、应用处理器或通信处理器中的一种或更多种。处理器1001可以对电子设备100的至少一个其他组件执行控制、和/或执行与通信相关的操作或数据处理。

存储器1002可以包括易失性和/或非易失性存储器。

在一些实施方式中，当一个或多个计算机程序被一个或多个处理器1001执行时，使得一个或多个处理器1001实现如上描述的本公开的方法。

在一些实施方式中，电子设备100可以被实施为图1中的用户设备110、服务器120、训练装置130、机器学习引擎133中的至少一个中。

例如，本公开的实施例中的电子设备100可以包括诸如智能电话、平板个人计算机(PC)、服务器、移动电话、视频电话、电子书阅读器、台式PC、膝上型计算机、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、照相机或可穿戴设备(例如头戴式设备(HMD)、电子衣服、电子手环、电子项链、电子饰品、电子纹身或智能手表)等。

如本文所使用的，术语“模块”可以包括在硬件、软件或固件和/或其任何组合中配置的单元，并且可以与其他术语(例如逻辑、逻辑块、部件或电路)互换使用。模块可以是单个整体部件或执行一个或更多个功能的最小单元或部件。该模块可以机械地或电子地实现，并且可以包括但不限于已知的或将要被开发的执行某些操作的专用处理器、CPU、专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)或可编程逻辑器件。

根据本公开的实施例，装置(例如，模块或其功能)或方法(例如，操作或步骤)的至少一部分可以被实现为例如以程序模块的形式存储在计算机可读存储介质(例如，存储器112、存储器114、存储器122、存储器132或存储器1002)中的指令。当由处理器(例如，处理器111、处理器121、处理器131或处理器1001)执行该指令时，该指令可以使处理器能够执行相应的功能。计算机可读介质可以包括例如硬盘、软盘、磁介质、光学记录介质、DVD、磁光介质。该指令可以包括由编译器创建的代码或者可由解释器执行的代码。根据本公开的各种实施例的模块或编程模块可以包括上述组件中的至少一个或更多个，可以省略其中的一些，或者还包括其他附加的组件。由根据本公开的各种实施例的模块、编程模块或其他组件执行的操作可以顺序地、并行地、重复地或启发地执行，或者至少一些操作可以以不同的顺序被执行或被省略，或者可以添加其他操作。

以上仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种对抗攻击模型的训练方法，所述对抗攻击模型包括生成器网络，所述训练方法包括：

利用所述生成器网络，基于训练数字图像，产生对抗攻击图像；

基于所述对抗攻击图像，进行对抗攻击，并且获得对抗攻击结果；

获得所述训练数字图像所对应的物理图像；

基于所述对抗攻击图像和所述物理图像、以及基于所述对抗攻击结果和所述训练数字图像，对所述生成器网络进行训练。

2.根据权利要求1所述的训练方法，其中，基于所述对抗攻击图像，进行对抗攻击，获得对抗攻击结果，包括：

对所述对抗攻击图像进行几何变换，得到几何变换后的对抗攻击图像；以及

利用所述几何变换后的对抗攻击图像进行对抗攻击，获得所述对抗攻击结果。

3.根据权利要求1或2所述的训练方法，其中，所述对抗攻击模型还包括判决器网络，

其中，基于所述对抗攻击图像和所述物理图像、以及基于所述对抗攻击结果和所述训练数字图像，对所述生成器网络进行训练包括：

获得与所述训练数字图像相对应的目标标签；

基于所述目标标签和所述对抗攻击结果定义对抗攻击损失，并基于所述对抗攻击损失，对所述生成器网络进行训练；以及

利用所述判决器网络，基于所述对抗攻击图像和所述物理图像进行图像判决，并基于判决损失，对所述生成器网络和判决器网络进行联合训练。

4.根据权利要求1或2所述的训练方法，其中，所述对抗攻击模型还包括判决器网络，

其中，基于所述对抗攻击图像和所述物理图像、以及基于所述对抗攻击结果和所述数字图像，对所述生成器网络进行训练包括：

获得与所述训练数字图像相对应的目标标签；

基于所述目标标签和所述对抗攻击结果，计算对抗攻击损失；以及

利用所述判决器网络，基于所述对抗攻击图像和所述物理图像进行图像判决，计算判决损失；

利用所述对抗攻击损失和所述判决损失构造目标损失，并基于目标损失，对所述生成器网络和判决器网络进行联合训练。

5.根据权利要求2所述的对抗攻击的生成器网络的训练方法，其中，所述对抗攻击对多种几何变换的攻击效果稳定。

6.根据权利要求2或5所述的训练方法，其中，所述几何变换包括平移、缩放、翻转、旋转和剪切中的至少一个。

7.根据权利要求1所述的训练方法，其中，获得所述训练数字图像所对应的物理图像，包括以下之一：

对所述训练数字图像进行打印并扫描以获取所述物理图像；或者

对所述训练数字图像进行打印并拍摄以获取所述物理图像。

8.一种对抗图像的产生方法，包括：

利用包括生成器网络的对抗攻击模型，基于输入数字图像，产生对抗攻击图像并将所产生的对抗攻击图像作为对抗图像，

其中，所述生成器网络是基于训练数字图像以及与所述训练数字图像相对应的物理图像而训练的，并且

其中，在所述生成器网络的训练过程中，利用所述生成器网络，基于训练数字图像产生对抗攻击图像；基于所述对抗攻击图像对目标模型进行对抗攻击，获得攻击结果；基于所述对抗攻击图像和所述物理图像、以及基于所述攻击结果和所述训练数字图像，对所述生成器网络进行训练。

9.根据权利要求8所述的产生方法，其中，还包括：使用所述对抗图像再次对所述目标模型进行训练，以防御使用所述对抗图像的对抗攻击。

10.一种对抗攻击模型的训练装置，所述对抗攻击模型包括生成器网络，所述训练装置包括用于存储数据的存储器以及与所述存储器通信的处理器，所述处理器被编程为：

获得所述训练数字图像所对应的物理图像；以及

11.根据权利要求10所述的对抗攻击模型的训练装置，其中，所述处理器还被编程为：对所述对抗攻击图像进行几何变换，得到几何变换后的对抗攻击图像；以及利用所述几何变换后的对抗攻击图像进行对抗攻击，获得所述对抗攻击结果。

12.根据权利要求10或11所述的对抗攻击模型的训练装置，其中，所述对抗攻击模型还包括判决器网络，

其中，所述处理器还被编程为：

获得与所述训练数字图像相对应的目标标签；

利用所述判决器网络，基于所述对抗攻击图像和所述物理图像进行图像判决，并基于判决损失，对所述生成器网络和所述判决器网络进行联合训练。

13.一种对抗图像的产生装置，所述产生装置包括用于存储数据的存储器以及与所述存储器通信的处理器，所述处理器被编程为：

利用包括生成器网络的对抗攻击模型，基于输入数字图像，产生对抗攻击图像并将所述产生的对抗攻击图像作为对抗图像，

14.根据权利要求12所述的对抗图像的产生装置，其中，所述处理器还被编程为：使用所述对抗图像再次对所述目标模型进行训练，以防御使用所述对抗图像的对抗攻击。

15.一种计算机可读存储介质，其上存储有一个或多个计算机程序，其中：

当所述一个或多个计算机程序被处理器执行时实现如权利要求1至7中任一项所述的对抗攻击模型的训练方法，或者

当所述一个或多个计算机程序被处理器执行时实现如权利要求8或9中所述的对抗图像的产生方法。