CN111046394A

CN111046394A - 一种基于对抗样本增强模型抗攻击能力的方法和系统

Info

Publication number: CN111046394A
Application number: CN201911289070.2A
Authority: CN
Inventors: 郇兆鑫; 张晓露; 简伟健
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-21

Abstract

本说明书实施例公开了一种基于对抗样本增强模型抗攻击能力的方法和系统，所述方法包括：获取目标样本的集合；将所述集合中的每一所述目标样本输入目标模型，得到与所述目标样本对应的第一输出；在所述第一输出大于或等于输出阈值时，将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签；利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型；将候选样本输入所述替代模型，得到对应于所述候选样本的第二输出，并基于该第二输出调整所述候选样本以得到对抗样本；基于该对抗样本，调整所述目标模型。其中，目标模型可以为用于对图片进行识别的神经网络模型，所述图片包括个人信息图片。

Description

一种基于对抗样本增强模型抗攻击能力的方法和系统

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种基于对抗样本增强模型抗攻击能力的方法和系统。

背景技术

对抗攻击是一种可以用于测试机器学习模型的缺陷的测试方法，通过构造对抗样本输入目标模型，使得目标模型做出误判，达到攻击的效果。通过攻击可以得到关于目标模型的缺陷、性能等信息，可以为开发人员改进目标模型提供参考。

对抗攻击包括白盒攻击和黑盒攻击，若攻击者能够获知目标模型所使用的算法以及算法所使用的参数，则相应的攻击为白盒攻击，若攻击者不知道目标模型所使用的算法和参数，则对应的攻击为黑盒攻击。无论白盒攻击还是黑盒攻击，攻击者均可以通过传入任意输入观察输出。

通过攻击可以找出被攻击的模型的漏洞，进而对模型的抗攻击能力进行增强，基于此，本申请提供一种基于对抗样本增强模型抗攻击能力的方法和系统。

发明内容

本说明书实施例的一个方面提供一种基于对抗样本增强模型抗攻击能力的方法，其中，所述方法包括：获取目标样本的集合；将所述集合中的每一所述目标样本输入目标模型，得到与所述目标样本对应的第一输出，所述第一输出用于表征该第一输出对应的标签的置信度；在所述第一输出大于或等于输出阈值时，将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签；利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型；将候选样本输入所述替代模型，得到对应于所述候选样本的第二输出，并基于该第二输出调整所述候选样本以得到对抗样本；基于该对抗样本，调整所述目标模型，以增强所述目标模型的抗攻击能力。

本说明书实施例的一个方面提供一种基于对抗样本增强模型抗攻击能力的系统，所述系统包括：获取模块，用于获取目标样本的集合；输入模块，将所述集合中的每一所述目标样本输入目标模型，得到与所述目标样本对应的第一输出，所述第一输出用于表征该第一输出对应的标签的置信度；标签调整模块，用于在所述第一输出大于或等于输出阈值时，将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签；训练模块，用于利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型；对抗样本生成模块，用于将候选样本输入所述替代模型，得到对应于所述候选样本的第二输出，并基于该第二输出调整所述候选样本以得到对抗样本；增强模块，用于基于该对抗样本，调整所述目标模型，以增强所述目标模型的抗攻击能力。

本说明书实施例的一个方面提供一种基于对抗样本增强模型抗攻击能力的装置，包括处理器，所述处理器用于执行如上所述的任一项基于对抗样本增强模型抗攻击能力的方法。

本说明书实施例的一个方面提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行如上所述的任一项基于对抗样本增强模型抗攻击能力的方法。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的基于对抗样本增强模型抗攻击能力的系统的示例性模块图；

图2是根据本说明书的一些实施例所示的基于对抗样本增强模型抗攻击能力的方法的示例性流程图；

图3是根据本说明书一些实施例所示的基于对抗样本增强模型抗攻击能力的方法所包括的步骤基于对抗样本调整目标模型的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一些实施例所示的示例性所示的基于对抗样本增强模型抗攻击能力的系统的模块图。

如图1所示，该基于对抗样本增强模型抗攻击能力的系统可以包括获取模块102、输入模块104、标签调整模块106、训练模块108、对抗样本生成模块110以及增强模块112。

获取模块102可以用于获取目标样本的集合。

输入模块104可以用于将所述集合中的每一所述目标样本输入目标模型，得到与所述目标样本对应的第一输出，所述第一输出用于表征该第一输出对应的标签的置信度。

标签调整模块106可以用于在所述第一输出大于或等于输出阈值时，将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签。

训练模块108可以用于利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型。

对抗样本生成模块110可以用于将候选样本输入所述替代模型，得到对应于所述候选样本的第二输出，并基于该第二输出调整所述候选样本以得到对抗样本。

增强模块112可以用于基于该对抗样本，调整所述目标模型，以增强所述目标模型的抗攻击能力。

在一些实施例中，所述系统还包括：删除模块，用于在所述输入模块104将所述集合中的每一所述目标样本输入所述目标模型之后，且在所述第一输出小于所述输出阈值时，从所述集合中删除该第一输出对应的所述目标样本。

在一些实施例中，所述第一输出为所述目标模型的logits层的输出，或所述目标模型的激活层的输出，其中，所述激活层的输出与所述激活层的输入正相关。

在一些实施例中，所述标签调整模块106可以用于：在同一所述目标样本对应的所有所述第一输出中，将所述置信度最大的所述第一输出作为目标输出；将所述目标输出对应的标签作为所述目标样本的所述目标标签。

在一些实施例中，所述增强模块112可以用于：将所述对抗样本输入所述目标模型，得到与所述对抗样本对应的输出，该输出用于表征所述对抗样本属于该输出对应类别的概率；针对同一所述对抗样本，若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，则判定该对抗样本对所述目标模型攻击成功；针对多个所述对抗样本，统计对应于该多个所述目标样本的所述攻击的成功次数在所述攻击的总次数中的比例，并基于该比例调整所述目标模型，以增强所述目标模型的抗攻击能力。

在一些实施例中，所述候选样本为图像样本；所述对抗样本生成模块用于：调整所述候选样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。

在一些实施例中，所述目标模型为用于对图片进行识别的模型，所述目标样本为图片。

应当理解，图1所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于基于对抗样本增强模型抗攻击能力的系统100及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图1中披露的获取模块102、输入模块104、标签调整模块106、训练模块108、对抗样本生成模块110以及增强模块112可以是一个系统中的不同模块，也可以是一个模块实现上述的两个模块的功能。又例如，基于对抗样本增强模型抗攻击能力的系统100中各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

图2是根据本说明书的一些实施例所示的基于对抗样本增强模型抗攻击能力的方法的示例性流程图。如图2所示，该基于对抗样本增强模型抗攻击能力的方法200包括：

步骤202，获取目标样本的集合。

具体的，步骤202可以由获取模块102执行。

在一些实施例中，样本是指输入至模型的任何数据，其中，数据可以包括图片、文本或语音等，在一些实施例中，目标样本是指输入至目标模型中的任何数据，例如，目标样本可以是输入目标模型中的某张图片，又例如，目标样本可以是输入目标模型中的某段文字。

在一些实施例中，目标样本的集合中包括至少一个目标样本，在一些实施例中，目标样本可以人为构建，例如，目标样本为图片数据，则目标样本可以根据网络图片进行人工构建，在一些实施例中，目标样本也可以来自现有的网络数据库，例如，目标样本的集合为图片数据集，则目标样本可以从ImageNet或者Cifar10数据库中获取。

在一些实施例中，可以由终端或服务器通过数据通信的方式获取目标样本，例如可以是终端通过无线传输的方式将终端中的目标样本发送至服务器，以由服务器获取目标样本。

步骤204，将所述集合中的每一所述目标样本输入目标模型，得到与所述目标样本对应的第一输出，所述第一输出用于表征该第一输出对应的标签的置信度。

具体的，步骤204可以由输入模块104执行。

在一些实施例中，目标模型可以根据实际情况确定，在一些实施例中，目标模型可以为神经网络模型，神经网络模型是一种包含多个参数的非线性算法，经过训练后可以提取输入数据的特征，并根据提取的特征进行分类，得到特征输出。在一些实施例中，目标模型可以为回归模型，例如线性回归模型(Linear Regression)、逻辑回归模型(LogisticsRegression)、多项式回归模型(Polynomial Regression)等。

在一些实施例中，第一输出可以为目标模型的logits层的输出，例如在神经网络模型中，logits层的输出是未归一化的概率分布值。在一些实施例中，logits层的输出可以为1*n的实数向量，其中，n是向量的维数，n可以是100、1000等正整数。例如，logits层的输出可以组成(a,b,c)、(a,b,c,d)形式的向量等，其中，a、b、c、d为向量中各个元素的未归一化的概率值，该概率值的区间可以为(-inf，+inf)(即正负无穷)。以目标样本为猫的图片，目标模型为分类模型为例，若目标模型可以预测的类别为三类(即，目标模型输出的向量中的元素值为3个)，分别是猫，狗以及鸟，此时，将目标样本输入至目标模型中，目标模型的logits层输出为(4,1,-2)，其中，该输出表征该图片属于猫的未归一化的概率值为4，属于狗的未归一化的概率值为1，属于鸟的未归一化的概率值为-2。

在一些实施例中，第一输出还可以为目标模型的激活层的输出，其中，所述激活层的输出与所述激活层的输入正相关。在一些实施例中，激活层的输出是将logits层的输出通过归一化函数进行归一化后得到的概率分布值，在一些实施例中，归一化函数可以采用softmax函数，sigmoid函数中的任意一者。

归一化函数是将logits层的输出进行归一化，即，将logits层输出的概率分布值中的各个概率值从(-inf，+inf)映射到[0，1]，除此之外，映射后得出的概率分布值中的各个概率值之和为1。仍以上述示例为例，目标模型的logits层输出为(4,1,-2)，其对应的目标模型的激活层输出可能为(0.8,0.2,0)，其中，该输出表征该图片属于猫的概率为0.8，属于狗的概率为0.2，属于鸟的概率为0。

在一些实施例中，第一输出对应的标签的置信度可以为该标签所对应的概率值，其中，概率值可以为目标模型的logits层或激活层输出的概率分布值中的概率值，仍以上述示例为例，目标样本为数字8的图片，目标模型为分类模型，若目标模型的logits层输出为(6,3,1)，其中，该输出表征该图片属于猫的概率为6，属于狗的概率为3，属于鸟的概率为1，以y表征预测结果，以score表征置信度，目标模型对目标样本的单个输出结果可以为：y＝猫，score＝6，或者为y＝狗，score＝3，又或者为y＝鸟，score＝1，即，第一输出对应的标签可以为猫、狗以及鸟中的任意一个，则第一输出对应的标签为猫时，其对应的置信度为6，第一输出对应的标签为狗时，其对应的置信度为3，第一输出对应的标签为鸟时，其对应的置信度为1。

在一些实施例中，目标模型对同一个目标样本的第一输出可以为一个或多个输出结果，其中，每个输出结果包括目标样本的预测结果及其对应的置信度，在一些实施例中，预测结果可以为目标模型预测的目标样本的类别、含义等，在一些实施例中，置信度可以为目标模型的logits层或激活层输出的概率分布值中的各个概率值，以目标样本为数字8的图片，目标模型为分类模型为例，若目标模型的logits层输出为(6,3,1)，沿用上述例子，该输出表征该图片属于猫的概率为6，属于狗的概率为3，属于鸟的概率为1，以y表征预测结果，以score表征置信度如上述logits层的输出，则目标模型对目标样本的单个输出结果可以为：y＝猫，score＝6，或者为y＝狗，score＝3，又或者为y＝鸟，score＝1。当然，也可以仅输出置信度score，不直接输出预测结果y，而是在通过预先建立的y与score的关联信息，来间接获取每个置信度score对应的预测结果y，对此，本说明书不做具体限制。

在一些实施例中，若由终端获取目标样本，则可以将目标样本输入终端中的目标模型，若由服务器获取目标样本，则可以将目标样本输入服务器中的目标模型，当然，也可以是终端获取的目标样本输入服务器中的目标模型，或者服务器获取的目标样本输入终端中的目标模型，对此，本说明书不做具体限定。

步骤206，在所述第一输出大于或等于输出阈值时，将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签。

具体的，步骤206可以由标签调整模块106执行。

在一些实施例中，目标样本可能有标签，该标签可能与第一输出对应的标签不同，即，目标样本可能为不能被目标模型正确识别的样本，也即是，目标样本与目标模型的训练样本不属于相同的数据源，例如，目标模型为分类模型，其可以对猫、狗以及鸟的图片进行分类(即，目标模型的训练样本为猫、狗以及鸟的图片)，则目标样本可能为数字8、熊猫、大象等与训练样本不同的样本。

通常情况下，由于目标模型的训练样本未知，构建的目标样本与目标模型的训练样本不同源，即，构建的目标样本与目标模型的训练样本不是来自同一个数据分布，以此训练替代模型，可以实现在目标模型的训练样本未知的情况下，对目标模型的黑盒攻击，进而可以根据攻击结果调整目标模型增强其抗攻击能力。

在一些实施例中，输出阈值可以根据实际需求灵活设置，例如，若置信度由logits层输出确定，则输出阈值可以设置为3、5等，若置信度由激活层输出确定，则输出阈值可以设置为0.5、0.6等。

在一些实施例中，在所述第一输出大于或等于输出阈值时，在同一所述目标样本对应的所有所述第一输出中，将所述置信度最大的所述第一输出作为目标输出，在一些实施例中，可以将目标样本的第一输出中具备的最大置信度与输出阈值进行比较，并将该最大置信度对应的第一输出作为目标输出，以目标样本为数字8的图片，目标模型为分类模型为例，若输出阈值为3，目标模型的logits层输出为(6,3,1)，其中，该输出表征该图片属于猫的概率为6，属于狗的概率为3，属于鸟的概率为1，以y表征预测结果，以score表征置信度，目标模型对目标样本的输出可以为：y＝猫，score＝6，或者为y＝狗，score＝3，又或者为y＝鸟，score＝1，则输出中具备的最大置信度为6，由于置信度最大值6大于输出阈值3，则将该y＝猫，score＝6的输出作为目标输出。

在一些实施例中，确定上述目标输出后，可以将所述目标输出对应的标签作为所述目标样本的所述目标标签，仍以上述示例为例，目标样本为数字8的图片，目标模型为分类模型，若目标输出为y＝猫，score＝6，其中，y表征预测结果，score表征置信度，则可以将score＝6作为目标样本的数字8的标签。

在一些实施例中，在所述第一输出小于所述输出阈值时，从所述集合中删除该第一输出对应的所述目标样本，以目标样本为熊猫的图片，目标模型为分类模型为例，若输出阈值为3，目标模型的logits层输出为(2,1,1)其中，该输出表征该图片属于猫的概率为2，属于狗的概率为1，属于鸟的概率为1，以y表征预测结果，以score表征置信度，目标样本的第一输出可以为：y＝猫，score＝2，或者为y＝狗，score＝1，又或者为y＝鸟，score＝1，则输出中具备的置信度最大值为2，由于最大置信度2小于输出阈值3，则将该熊猫的图片从目标样本的集合中删除。

根据以上描述，通过将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签，可以使得目标模型对调整标签后的目标样本的预测结果的置信度大于阈值，且将置信度低于输出阈值的目标样本删除，以此获得最终的目标样本的集合，采用该目标样本的集合训练替代模型，提高了替代模型生成的对抗样本的攻击效果，提高了替代模型的迁移效果，在目标模型的训练数据未知的情况下，仍然能够实现迁移性的黑盒攻击。

步骤208，利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型。

具体的，步骤208可以由训练模块108执行。

在一些实施例中，替代模型是用于模拟目标模型的决策边界的模型，在一些实施例中，替代模型可以是ResNet，DenseNet模型，利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型，使得替代模型模拟目标模型的决策边界，即，替代模型可以将目标样本进行错误分类，以用于生成后续的对抗样本，实现对目标样本的黑盒攻击。

步骤210，将候选样本输入所述替代模型，得到对应于所述候选样本的第二输出，并基于该第二输出调整所述候选样本以得到对抗样本。

具体的，步骤210可以由对抗样本生成模块110执行。

在一些实施例中，候选样本可以是构造的用于输入替代模型的样本，例如可以是阿拉伯数字的图片，第二输出可以是替代模型的logits层的输出，调整候选样本可以采用白盒攻击的方法，例如C&W(Carlini-Wagner Attack)、快速梯度下降法FGSM(FastGradient Sign Method)以及PGD(Project Gradient Descent)攻击等，其产生对抗样本的方法可以如下：可以沿替代模型的梯度的方向调整候选样本，例如，可以求出替代模型的损失函数对于其各个因变量的偏导数，此处因变量即为候选样本的参数，例如候选样本为图像时，因变量可以为候选样本的像素值。将该偏导数乘以一个常数得到与该偏导数对应的乘积，最后将各个因变量减去其对应的该乘积，即完成一次沿替代模型的梯度的方向调整候选样本的过程，可以对该过程进行迭代，并在迭代次数达到一定次数时，将当前的候选样本作为对抗样本。

在一些实施例中，候选样本可以为图像样本，调整候选样本可以包括：调整所述候选样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。像素的值也即像素值，一般来讲，单个像素也即单个像素点的像素值的取值范围为0-255，在调整像素的值时，限制其变化范围，例如像素阈值可以为8，即限制每个被调整的像素的像素值的变化范围小于8，如此可以使得候选样本在调整过程中，人眼对于候选样本的视觉感受不会发生变化。

步骤212，基于该对抗样本，调整所述目标模型，以增强所述目标模型的抗攻击能力。

具体的，步骤212可以由增强模块112执行。

在一些实施例中，在步骤212中，如图3所示，基于该对抗样本，调整目标模型，以增强所述目标模型的抗攻击能力的流程300，可以包括：

步骤302，将所述对抗样本输入所述目标模型，得到与所述对抗样本对应的输出，该输出用于表征所述对抗样本属于该输出对应类别的概率。

在一些实施例中，若目标模型的模型结构和参数未知，将所述对抗样本输入所述目标模型，得到与所述对抗样本对应的输出，可以实现对目标模型的黑盒攻击。举例来讲，目标模型的输出有3个，分别对应对抗样本为标签猫、狗和鸟的概率，此处标签表征对抗样本所属类别，经过上述调整最终得到的对抗样本的真实标签为猫，将其输入目标模型后得到的输出对应标签猫、狗和鸟的概率可能分别为0.2，0.7，0.1。真实标签可以是对抗样本本身所反映出的真实内容，可以通过人工观察得到，例如狗的图片的真实标签为狗。

步骤304，针对同一所述对抗样本，若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，则判定该对抗样本对所述目标模型攻击成功。

在一些实施例中，对于同一对抗样本，所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，沿用上述例子，由于最大值0.7对应的标签为狗，目标模型判断对抗样本属于狗的概率最大，与其真实标签猫不同，此时认为攻击成功。

步骤306，针对多个所述对抗样本，统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例，并基于该比例调整所述目标模型，以增强所述目标模型的抗攻击能力。

在一些实施例中，将多个对抗样本输入目标模型以进行多次攻击，统计攻击成功的次数，以及攻击的总次数，进而可以得到攻击成功的次数占攻击的总次数的比例作为对抗样本攻击成功的成功率，该比例越高，说明目标模型越不安全，若该比例超过一定数值例如20％，可以将对抗样本用于训练目标模型，以增强目标模型的抗攻击能力。举例来讲，对抗样本有100个，则可以进行100次攻击，若攻击成功的次数为40次，则上述比例为40％，超过预设的数值20％，进而利用得到的对抗样本对目标模型进行训练，使得目标模型可以正确识别对抗样本，这些对抗样本对目标模型失去攻击能力，进而目标模型的抗攻击能力得到增强。

在一些实施例中，所述目标模型可以为用于对图片进行识别的模型，例如所述目标模型可以为用于对理赔证据图片进行识别的神经网络模型。所述目标样本可以为图片，例如该理赔证据图片，所述理赔证据图片包括理赔者的个人信息图片以及理赔商品的图片，所述目标样本包括ImageNet数据库中的图片。具体来讲，理赔者是相关交易的赔偿请求发起人，例如一用户在电商平台上购买了一件衣服，发现衣服损坏，进而通过电商平台请求理赔，则该用户为理赔者。进一步，理赔者的个人信息图片可以是该用户的个人身份证图片、人脸图片等可以证明个人身份的图片，理赔商品即用户购买的商品如衣服。由于电商需要对理赔条件是否成立进行判断，因此需要获取上述的理赔证据图片并利用目标模型对其进行识别，以自动判断理赔条件是否成立。通过该基于对抗样本增强模型抗攻击能力的方法可以找出目标模型容易识别错误的图片，进而对于这些图片，电商可以通过人工审核的方式进行，以减少误判。

应当注意的是，上述有关流程200的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程200进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。

本说明书实施例可能带来的有益效果包括但不限于：(1)在目标模型的训练集无法获取也不可知的情况下，实现对目标模型的迁移性的黑盒攻击，进而可以根据攻击结果调整目标模型，增强目标模型的抗攻击能力；(2)采用第一输出大于输出阈值的目标样本对替代模型进行训练，使得得到的替代模型与目标模型的关联性更高，提高了得到的对抗样本的攻击效果。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种基于对抗样本增强模型抗攻击能力的方法，其中，所述方法包括：

获取目标样本的集合；

将所述集合中的每一所述目标样本输入目标模型，得到与所述目标样本对应的第一输出，所述第一输出用于表征该第一输出对应的标签的置信度；

在所述第一输出大于或等于输出阈值时，将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签；

利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型；

将候选样本输入所述替代模型，得到对应于所述候选样本的第二输出，并基于该第二输出调整所述候选样本以得到对抗样本；

基于该对抗样本，调整所述目标模型，以增强所述目标模型的抗攻击能力。

2.如权利要求1所述的方法，其中，所述将所述集合中的每一所述目标样本输入所述目标模型之后，所述方法还包括：

在所述第一输出小于所述输出阈值时，从所述集合中删除该第一输出对应的所述目标样本。

3.如权利要求1所述的方法，其中，所述第一输出为所述目标模型的logits层的输出，或所述目标模型的激活层的输出，其中，所述激活层的输出与所述激活层的输入正相关。

4.如权利要求1所述的方法，其中，所述将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签，包括：

在同一所述目标样本对应的所有所述第一输出中，将所述置信度最大的所述第一输出作为目标输出；

将所述目标输出对应的标签作为所述目标样本的所述目标标签。

5.如权利要求1所述的方法，其中，所述基于该对抗样本，调整所述目标模型，以增强所述目标模型的抗攻击能力，包括：

将所述对抗样本输入所述目标模型，得到与所述对抗样本对应的输出，该输出用于表征所述对抗样本属于该输出对应类别的概率；

针对同一所述对抗样本，若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，则判定该对抗样本对所述目标模型攻击成功；

针对多个所述对抗样本，统计对应于该多个所述目标样本的所述攻击的成功次数在所述攻击的总次数中的比例，并基于该比例调整所述目标模型，以增强所述目标模型的抗攻击能力。

6.如权利要求1所述的方法，其中，所述候选样本为图像样本；所述调整所述候选样本包括：调整所述候选样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。

7.如权利要求1所述的方法，其中，所述目标模型为用于对图片进行识别的模型，所述目标样本为图片。

8.一种基于对抗样本增强模型抗攻击能力的系统，其中，所述系统包括：

获取模块，用于获取目标样本的集合；

输入模块，将所述集合中的每一所述目标样本输入目标模型，得到与所述目标样本对应的第一输出，所述第一输出用于表征该第一输出对应的标签的置信度；

标签调整模块，用于在所述第一输出大于或等于输出阈值时，将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签；

训练模块，用于利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型；

对抗样本生成模块，用于将候选样本输入所述替代模型，得到对应于所述候选样本的第二输出，并基于该第二输出调整所述候选样本以得到对抗样本；

增强模块，用于基于该对抗样本，调整所述目标模型，以增强所述目标模型的抗攻击能力。

9.如权利要求8所述的系统，所述系统还包括：

删除模块，用于在所述输入模块将所述集合中的每一所述目标样本输入所述目标模型之后，且在所述第一输出小于所述输出阈值时，从所述集合中删除该第一输出对应的所述目标样本。

10.如权利要求8所述的系统，其中，所述第一输出为所述目标模型的logits层的输出，或所述目标模型的激活层的输出，其中，所述激活层的输出与所述激活层的输入正相关。

11.如权利要求8所述的系统，所述标签调整模块用于：

12.如权利要求8所述的系统，所述增强模块用于：

13.如权利要求8所述的系统，其中，所述候选样本为图像样本；所述对抗样本生成模块用于：调整所述候选样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。

14.如权利要求8所述的系统，其中，所述目标模型为用于对图片进行识别的模型，所述目标样本为图片。

15.一种基于对抗样本增强模型抗攻击能力的装置，包括处理器，其特征在于，所述处理器用于执行如权利要求1～7任一项所述的基于对抗样本增强模型抗攻击能力的方法。