CN111046380B

CN111046380B - 一种基于对抗样本增强模型抗攻击能力的方法和系统

Info

Publication number: CN111046380B
Application number: CN201911273855.0A
Authority: CN
Inventors: 郇兆鑫; 张晓露; 简伟健
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2022-02-15
Anticipated expiration: 2039-12-12
Also published as: CN111046380A

Abstract

本申请实施例公开了一种基于对抗样本增强模型抗攻击能力的方法和系统。所述方法包括：获取目标样本；将所述目标样本输入第一模型，得到对应于所述目标样本的输出；调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力。其中，第二模型可以为用于对理赔证据图片进行识别的神经网络模型，理赔证据图片包括理赔者的个人信息图片以及理赔商品的图片。

Description

一种基于对抗样本增强模型抗攻击能力的方法和系统

技术领域

本申请涉及计算机技术领域，特别涉及一种基于对抗样本增强模型抗攻击能力的方法和系统。

背景技术

对抗攻击是一种可以用于测试机器学习模型的缺陷的测试方法，通过构造对抗样本输入目标模型，使得目标模型做出误判，达到攻击的效果。通过攻击可以得到关于目标模型的缺陷、性能等信息，可以为开发人员改进目标模型提供参考。

对抗攻击包括白盒攻击和黑盒攻击，若攻击者能够获知目标模型所使用的算法以及算法所使用的参数，则相应的攻击为白盒攻击，若攻击者不知道目标模型所使用的算法和参数，则对应的攻击为黑盒攻击。无论白盒攻击还是黑盒攻击，攻击者均可以通过传入任意输入观察输出。

通过攻击可以找出被攻击的模型的漏洞，进而对模型的抗攻击能力进行增强，基于此，本申请提供一种基于对抗样本增强模型抗攻击能力的方法和系统。

发明内容

本申请实施例之一提供一种基于对抗样本增强模型抗攻击能力的方法。所述基于对抗样本增强模型抗攻击能力的方法包括：获取目标样本；将所述目标样本输入第一模型，得到对应于所述目标样本的输出；调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；其中，所述第二模型与所述第一模型相同，或者，所述第二模型是基于对所述第一模型微调得到的。

本申请实施例之一提供一种基于对抗样本增强模型抗攻击能力的系统。所述基于对抗样本增强模型抗攻击能力的系统包括：获取模块，用于获取目标样本；输入模块，用于将所述目标样本输入第一模型，得到对应于所述目标样本的输出；调整模块，用于调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；对抗样本生成模块，用于在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；增强模块，用于基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；其中，所述第二模型与所述第一模型相同，或者，所述第一模型为预训练模型，所述第二模型是基于对所述预训练模型微调得到的。

本申请实施例之一提供一种基于对抗样本增强模型抗攻击能力的装置，包括处理器，所述处理器用于执行所述的基于对抗样本增强模型抗攻击能力的方法。

本申请实施例之一提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行所述的基于对抗样本增强模型抗攻击能力的方法。

附图说明

本申请将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的系统的模块图；

图2是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的方法的示例性流程图；

图3是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的方法所包括的步骤基于对抗样本调整第二模型的示例性流程图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的系统的模块图。

如图1所示，该基于对抗样本增强模型抗攻击能力的系统100可以包括获取模块102、输入模块104、调整模块106、对抗样本生成模块108和增强模块110。

获取模块102可以用于获取目标样本。

输入模块104可以用于将所述目标样本输入第一模型，得到对应于所述目标样本的输出。

调整模块106可以用于调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率。

对抗样本生成模块108可以用于在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本。

增强模块110可以用于基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；

其中，所述第二模型与所述第一模型相同，或者，所述第一模型为预训练模型，所述第二模型是基于对所述预训练模型微调得到的。

在一些实施例中，所述目标样本为图像样本；所述调整模块106用于：调整所述目标样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。

在一些实施例中，所述输出为所述第一模型的logits层的输出。

在一些实施例中，所述调整模块106，包括：目标样本调整单元，用于沿所述第一模型的梯度的方向调整所述目标样本，并将调整后的所述目标样本输入所述第一模型；判断单元，用于判断所述输出是否满足所述预设条件，并在所述输出满足所述预设条件时，所述目标样本调整单元停止调整所述目标样本，在所述输出不满足所述预设条件时，所述目标样本调整单元继续调整所述目标样本。

在一些实施例中，在所述输出值小于或等于该输出值对应的输出阈值，或者，所述目标样本调整单元重复调整所述目标样本的次数大于或等于次数阈值时，所述输出满足所述预设条件。

在一些实施例中，所述增强模块110用于：将所述对抗样本输入所述第二模型，得到与所述对抗样本对应的输出，该输出用于表征所述对抗样本属于该输出对应类别的概率；针对同一所述对抗样本，若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，则判定该对抗样本对所述第二模型攻击成功；针对多个所述对抗样本，统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例，并基于该比例调整所述第二模型，以增强所述第二模型的抗攻击能力。

在一些实施例中，所述第一模型和所述第二模型为用于对图片进行识别的模型。

应当理解，图1所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于候选项显示、确定系统及其模块的描述，仅为描述方便，并不能把本申请限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，例如，图1中披露的获取模块102、输入模块104、调整模块106、对抗样本生成模块108和增强模块110可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，获取模块102、输入模块104可以是两个模块，也可以是一个模块同时具有样本获取和输入功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

图2是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的方法的示例性流程图。如图2所示，该基于对抗样本增强模型抗攻击能力的方法包括：

步骤202，获取目标样本。

具体的，步骤202可以由获取模块102执行。

在一些实施例中，目标样本可以是用于输入下述第一模型的任何数据，可以包括图片、文本或语音等，在一些实施例中，可以根据第一模型的应用场景，选取不同的样本。例如，若第一模型应用于图像识别，则目标样本为图像数据，可以为BMP、JPG、PNG等格式的图片。又例如，第一模型应用于语音识别，则目标样本为语音数据，可以为WAV、FLAC、MP3等格式的音频。

在一些实施例中，可以由终端或服务器通过通信传输的方式获取目标样本，例如可以是终端通过无线传输的方式将终端中的目标样本发送至服务器，以由服务器获取目标样本。

步骤204，将所述目标样本输入第一模型，得到对应于所述目标样本的输出。

具体的，步骤204可以由输入模块104执行。

在一些实施例中，第一模型可以是预训练模型，例如DenseNet169或ResNet152。预训练模型是预先经过训练以执行大量数据上的特定任务的模型，可以解决与目标问题类似的问题，例如，目标问题是解决图像识别问题，可以采用在ImageNet数据集上训练得到的卷积神经网络模型(Convolutional Neural Network，CNN)作为预训练模型。当然，第一模型也可以是其它的机器学习模型，本说明书对其不做具体限制。

在一些实施例中，输出可以包含一个或多个输出值。在一些实施例中，所述输出可以为所述第一模型的logits层的输出。一般而言，logits层的输出是未归一化的概率值，logits层的数值区间可以为(-inf，+inf)(即正负无穷区间)。以目标样本为猫的图片，第一模型为分类模型为例，若第一模型可以预测的类别为三类，分别是猫，狗以及鸟，此时，将目标样本输入至第一模型中，第一模型的logits层输出的输出值有3个，分别4，1，-2，对应的，输出值4表征该图片输属于猫的未归一化的概率值为4，输出值1表征该图片属于狗的未归一化的概率值为1，输出值-2则表征该图片属于鸟的未归一化的概率值为-2。由于logits层的输出的数值较大，因此采用logits层的输出，可以更好的从下述步骤206中目标样本的输出值降低的过程中获取更多有效的信息，例如在下述沿第一模型的梯度方向调整目标样本时，采用logits层的输出可以更好的将第一模型的输入与输出之间的梯度信息传回至目标样本，使得调整后的目标样本的攻击效果更好。

在一些实施例中，所述输出也可以为所述第一模型的激活层的输出，其中，所述激活层的输出与所述激活层的输入正相关。在一些实施例中，激活层用于对logits层的输出进行归一化处理，故选用前述激活层的输出可以基于相同的规则对目标样本进行调整。归一化是将数值从(-inf，+inf)映射到[0，1]的过程，并且，映射得到的所有值累计之和等于1。仍以上述目标样本为猫的图片，第一模型为分类模型为例，将目标样本输入至第一模型中，第一模型的激活层输出可以包括0.8，0.2，0，其中，该输出表征该图片属于猫的概率为0.8，属于狗的概率为0.2，属于鸟的概率为0。举例来讲，激活层可以选用Softmax函数或者Sigmoid函数。

在一些实施例中，若由终端获取目标样本，则可以将目标样本输入终端中的第一模型，若由服务器获取目标样本，则可以将目标样本输入服务器中的第一模型，当然，也可以是终端获取的目标样本输入服务器中的第一模型，或者服务器获取的目标样本输入终端中的第一模型，对此，本说明书不做具体限定。

步骤206，调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率。

具体的，步骤206可以由调整模块106执行。

具体来讲，N必然小于或等于该输出中的输出值的数量，举例来讲，目标样本为阿拉伯数字8的图片，第一模型为用于识别图片的神经网络模型，输出值有5个，分别表征预测的类别为猫、狗、鸟、鱼、昆虫的未归一化的概率，那么N可以选择1至5中任意一个整数。举例来讲，N为1，且该5个输出值按照上述预测类别的顺序依次分别为8，6，3，0，-2，那么在调整目标样本后，观察输出值8是否降低，若降低，则认为该次对于目标样本的调整是成功的，可以被接受。最大的输出值一般用于表征输入第一模型的目标样本的类别，例如最大值8表征该目标样本的类别最有可能是猫，调整目标样本使得最大的输出值降低后，与第一模型具有较高关联度的其他模型例如下述第二模型对目标样本识别得到的输出中的最大值也有较大概率降低，第二模型输出的最大值可能出现在对应于其他预测类别的输出值中，例如预测类别为鸟的输出值变为最大，进而第二模型预测目标样本为鸟，对于目标样本的识别出现错误，因此可以在最大的输出值降低时将得到的调整后的目标样本作为下述的对抗样本。当然，由于模型的不同，可能降低的是其他的输出值而不仅限于最大的输出值，可以视具体情况决定。若输出值8保持不变或增大，那么认为该次对于目标样本的调整是失败的，不能被接受。又例如N为2，则观察输出值8和6是否均降低，可以在两者均降低时，才接受该次对于目标样本的调整。

在一些实施例中，目标样本可以为图像样本，调整目标样本可以包括：调整所述目标样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。像素的值也即像素值，一般来讲，单个像素也即单个像素点的像素值的取值范围为0-255，在调整像素的值时，限制其变化范围，例如像素阈值可以为8，即限制每个被调整的像素的像素值的变化范围小于8，如此可以使得目标样本在调整过程中，人眼对于目标样本的视觉感受不会发生变化。

在一些实施例中，可以沿所述第一模型的梯度的方向调整所述目标样本。例如，可以求出第一模型的损失函数对于其各个因变量的偏导数，此处因变量即为目标样本的参数，将该偏导数乘以一个常数得到与该偏导数对应的乘积，最后将各个因变量减去其对应的该乘积，即完成一次沿第一模型的梯度的方向调整目标样本的过程。沿该梯度方向改变目标样本，得到的输出的改变量最大，如此可以减少目标样本的调整次数，加快得到下述对抗样本的速度。在一些实施例中，也可以采用FGSM(Fast Gradient Sign Method)、PGD(Project Gradient Descent)或C&W(Carlini-Wagner Attack)等白盒攻击的方法调整目标样本，以降低上述输出值，本说明书对其不做限制。

步骤208，在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本。

具体的，步骤208可以由对抗样本生成模块108执行。

在一些实施例中，在执行步骤208之前，可以先判断所述输出是否满足预设条件。若判断输出满足预设条件，可以直接将当前得到的目标样本作为对抗样本。对抗样本是指用于使下述的第二模型误判的样本，以对抗样本为图片数据，第二模型为分类模型为例，若对抗样本的真实类别为猫，将对抗样本输入至第二模型中，第二模型输出的结果为狗，或者鸟等。

在一些实施例中，若输出不满足预设条件，则可以继续调整目标样本，并将调整后的目标样本输入第一模型，之后可以重复执行将所述目标样本输入第一模型的步骤如步骤204，至调整所述目标样本的步骤如步骤206，直至所述输出满足所述预设条件。

在一些实施例中，可以在所述输出值小于或等于该输出值对应的输出阈值，或者，所述重复执行所述步骤的次数大于或等于次数阈值时，判定所述输出满足所述预设条件。例如预设条件设定为目标样本的输出中最大的输出值小于或等于输出阈值10，或重复执行步骤204至步骤206的次数大于或等于次数阈值20，在某一次调整目标样本之后，得到的输出值包括13，9，4，其最大值13大于输出阈值10，且当前重复调整目标样本的次数为12，小于次数阈值20，则判定预设条件不成立，需要继续调整目标样本，直至最大值小于或等于10，或者重复次数大于或等于20的时候，将当前得到的调整后的目标样本作为对抗样本，并进入执行步骤210。

步骤210，基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；其中，所述第二模型与所述第一模型相同，或者，所述第二模型是基于对所述第一模型微调得到的。

具体的，步骤210可以由增强模块110执行。

在一些实施例中，若第一模型为上述预训练模型，则第二模型可以为基于对该预训练模型微调得到的模型。在一些实施例中，第二模型可以复制第一模型上除输出层外的所有模型设计及其参数，第二模型的输出层可以是重新训练得到的，而其余层的参数可以基于预训练模型的参数调整得到。由于机器学习模型训练通常需要花费大量时间和计算资源，通过对预训练模型微调得到第二模型，有助于减少资源的使用，快速获取具有较高精度的第二模型。需要说明的是，微调属于迁移学习中的一种常用技术手段，除上述微调得到第二模型的方式外，本说明书对其不做进一步赘述。在一些实施例中，第二模型也可以与第一模型相同，即两者为同一个模型，例如均为用于识别图片的神经网络模型。

在一些实施例中，在步骤210中，如图3所示，基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力的流程300，可以包括：

步骤302，将所述对抗样本输入所述第二模型，得到与所述对抗样本对应的输出，该输出用于表征所述对抗样本属于该输出对应类别的概率。

在一些实施例中，若第二模型的模型结构和参数未知，将所述对抗样本输入所述第二模型，得到与所述对抗样本对应的输出，可以实现对第二模型的黑盒攻击。举例来讲，第二模型的输出有3个，分别对应对抗样本为标签猫、狗和鸟的概率，此处标签表征对抗样本所属类别，经过上述调整最终得到的对抗样本的真实标签为猫，将其输入第二模型后得到的输出对应标签猫、狗和鸟的概率可能分别为0.2，0.7，0.1。真实标签可以是对抗样本本身所反映出的真实内容，可以通过人工观察得到，例如狗的图片的真实标签为狗。

步骤304，针对同一所述对抗样本，若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，则判定该对抗样本对所述第二模型攻击成功。

在一些实施例中，对于同一对抗样本，所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，沿用上述例子，由于最大值0.7对应的标签为狗，第二模型判断对抗样本属于狗的概率最大，与其真实标签猫不同，此时认为攻击成功。

步骤306，针对多个所述对抗样本，统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例，并基于该比例调整所述第二模型，以增强所述第二模型的抗攻击能力。

在一些实施例中，将多个对抗样本输入第二模型以进行多次攻击，统计攻击成功的次数，以及攻击的总次数，进而可以得到攻击成功的次数占攻击的总次数的比例作为对抗样本攻击成功的成功率，该比例越高，说明第二模型越不安全，若该比例超过一定数值例如20％，可以将对抗样本用于训练第二模型，以增强第二模型的抗攻击能力。举例来讲，对抗样本有100个，则可以进行100次攻击，若攻击成功的次数为40次，则上述比例为40％，超过预设的数值20％，进而利用得到的对抗样本对第二模型进行训练，使得第二模型可以正确识别对抗样本，这些对抗样本对第二模型失去攻击能力，进而第二模型的抗攻击能力得到增强。

在一些实施例中，所述第一模型和所述第二模型可以为用于对图片进行识别的模型。举例来讲，第一模型为经过预训练得到的用于识别图片的神经网络模型。所述第二模型可以为用于对理赔证据图片进行识别的神经网络模型，进而第一样本和第二样本均可以为理赔证据图片，所述理赔证据图片包括理赔者的个人信息图片以及理赔商品的图片。具体来讲，理赔者是相关交易的赔偿请求发起人，例如一用户在电商平台上购买了一件衣服，发现衣服损坏，进而通过电商平台请求理赔，则该用户为理赔者。进一步，理赔者的个人信息图片可以是该用户的个人身份证图片、人脸图片等可以证明个人身份的图片，理赔商品即用户购买的商品如衣服。由于电商需要对理赔条件是否成立进行判断，因此需要获取上述的理赔证据图片并利用第二模型对其进行识别，以自动判断理赔条件是否成立。通过该测试模型安全性的方法可以找出第二模型容易识别错误的图片，进而对于这些图片，电商可以通过人工审核的方式进行，以减少误判。

在一些实施例中，即使至少部分所述目标样本的标签不存在于所述第一模型的训练样本的标签中，但由于第一模型如预训练模型与第二模型如基于该预训练模型微调得到的模型之间的关联性，该目标样本仍然可以应用于该基于对抗样本增强模型抗攻击能力的方法。例如第一模型的训练样本包括猫，狗，鸟三个类别的图片，而目标样本则可以包括阿拉伯数字的图片。

应当注意的是，上述有关流程200的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程200进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。

本申请实施例可能带来的有益效果包括但不限于：

(1)通过降低第一模型的输出中的输出值，得到用于攻击第二模型的对抗样本，使得对于目标样本的标签不存在于第一模型的训练样本的标签中的情况，也可以得到攻击效果较好的对抗样本，进而可以更好的调整第二模型，增强第二模型的抗攻击能力；

(2)输出用logits层的输出，可以更好的从目标样本的输出值降低的过程中获取更多有效的信息，例如在沿第一模型的梯度方向调整目标样本时，采用logits层的输出可以更好的将第一模型的输入与输出之间的梯度信息传回至目标样本，使得调整后的目标样本的攻击效果更好；

(3)沿第一模型的梯度的方向调整目标样本，得到的输出的改变量最大，如此可以减少目标样本的调整次数，加快得到对抗样本的速度。

需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种基于对抗样本增强模型抗攻击能力的方法，其中，所述方法包括：

获取目标样本；

将所述目标样本输入第一模型，得到对应于所述目标样本的输出；

调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；

在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；

基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；

其中，所述第二模型是基于对所述第一模型微调得到的。

2.如权利要求1所述的方法，其中，所述目标样本为图像样本；所述调整所述目标样本包括：调整所述目标样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。

3.如权利要求1所述的方法，其中，所述输出为所述第一模型的logits层的输出。

4.如权利要求1所述的方法，其中，所述调整所述目标样本，包括：

沿所述第一模型的梯度的方向调整所述目标样本，并将调整后的所述目标样本输入所述第一模型；

所述方法还包括：

重复执行将所述目标样本输入第一模型的步骤，至调整所述目标样本的步骤，直至所述输出满足所述预设条件。

5.如权利要求4所述的方法，其中，在所述输出值小于或等于该输出值对应的输出值阈值，或者，所述重复执行所述步骤的次数大于或等于次数阈值时，所述输出满足所述预设条件。

6.如权利要求1所述的方法，其中，所述基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力，包括：

将所述对抗样本输入所述第二模型，得到与所述对抗样本对应的输出，该输出用于表征所述对抗样本属于该输出对应类别的概率；

针对同一所述对抗样本，若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，则判定该对抗样本对所述第二模型攻击成功；

针对多个所述对抗样本，统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例，并基于该比例调整所述第二模型，以增强所述第二模型的抗攻击能力。

7.如权利要求1所述的方法，其中，所述第一模型和所述第二模型为用于对图片进行识别的模型。

8.一种基于对抗样本增强模型抗攻击能力的系统，其中，所述系统包括：

获取模块，用于获取目标样本；

输入模块，用于将所述目标样本输入第一模型，得到对应于所述目标样本的输出；

调整模块，用于调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；

对抗样本生成模块，用于在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；

增强模块，用于基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；

其中，所述第一模型为预训练模型，所述第二模型是基于对所述预训练模型微调得到的。

9.如权利要求8所述的系统，其中，所述目标样本为图像样本；所述调整模块用于：调整所述目标样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。

10.如权利要求8所述的系统，其中，所述输出为所述第一模型的logits层的输出。

11.如权利要求8所述的系统，其中，所述调整模块，包括：

目标样本调整单元，用于沿所述第一模型的梯度的方向调整所述目标样本，并将调整后的所述目标样本输入所述第一模型；

判断单元，用于判断所述输出是否满足所述预设条件，并在所述输出满足所述预设条件时，所述目标样本调整单元停止调整所述目标样本，在所述输出不满足所述预设条件时，所述目标样本调整单元继续调整所述目标样本。

12.如权利要求11所述的系统，其中，在所述输出值小于或等于该输出值对应的输出阈值，或者，所述目标样本调整单元重复调整所述目标样本的次数大于或等于次数阈值时，所述输出满足所述预设条件。

13.如权利要求8所述的系统，其中，所述增强模块用于：

14.如权利要求8所述的系统，其中，所述第一模型和所述第二模型为用于对图片进行识别的模型。

15.一种基于对抗样本增强模型抗攻击能力的装置，包括处理器，其中，所述处理器用于执行如权利要求1～7任一项所述的基于对抗样本增强模型抗攻击能力的方法。