CN112381142A

CN112381142A - 基于重要特征的具有可解释性对抗样本生成方法及系统

Info

Publication number: CN112381142A
Application number: CN202011272206.1A
Authority: CN
Inventors: 刘笑嶂; 严安丽; 李宛曼; 夏琦越
Original assignee: Hainan University
Current assignee: Weisenpaiwo Wuxi Technology Co ltd; Hainan University
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-19
Anticipated expiration: 2040-11-13
Also published as: CN112381142B

Abstract

本发明属于对抗样本防御技术领域，提供了一种基于重要特征的具有可解释性对抗样本生成方法及系统。其中，基于重要特征的具有可解释性对抗样本生成方法包括获取若干图像样本并标注对应标签，形成训练数据集和测试数据集；将测试数据集中的图像样本依次输入至目标模型和本地模型中，保留标签均预测正确的图像样本，作为生成对抗样本的种子；其中，目标模型和本地模型均采用训练数据集训练得到；基于生成对抗样本的种子，修改其排名前预设名数的特征值，生成临时对抗样本；其中，特征重要性的排名由本地模型输出；将生成的临时对抗样本输入到目标模型进行预测，目标模型对临时对抗样本预测错误即为最终生成的对抗样本集。

Description

基于重要特征的具有可解释性对抗样本生成方法及系统

技术领域

本发明属于对抗样本防御技术领域，尤其涉及一种基于重要特征的具有可解释性对抗样本生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

人工智能技术的发展和应用给人们的生活带来巨大变革，特别是人工智能技术在医疗、农业、社会治安、金融服务等各个领域已经得到广泛应用并取得了丰硕的成果。与此同时，人工智能的安全也得到密切关注。深度学习在广泛的应用领域取得了巨大的性能，特别是在图像识别和语音识别领域，它们在数据集上表现出与人类相当或更好的精确度。然而，最近的研究表明，深度学习模型容易受到对抗样本的影响：输入与正确分类的输入相似，但分类错误。比如有针对面部识别系统缺陷来模仿受害者身份的非法认证危害，更有针对自动驾驶汽车、语音控制系统的恶意控制危害。因此对抗样本是深度学习在安全领域中的热点问题且对抗样本在人工智能模型的性能评估和提高模型鲁棒性起着至关重要的作用。对抗样本的生成方法是研究对抗样本的必要步骤，

现如今，对抗样本的生成方式主要分为基于梯度和非梯度两大类别。基于梯度的方法的理论支持是由Ian Goodfellow提出的对抗样本高维线性理论。该方法主要对目标对象进行梯度优化生成对抗样本，其中最典型的快速梯度符号算法(FGS)，该算法将正常图像进行单步梯度优化从而生成对抗样本。基于梯度的对抗样本生成面临两大挑战，其一是面对一个是输入空间离散的样本不能直接在样本中添加噪声；其二是难以评估对抗样本的质量。除了基于梯度的方法以外还提出了不依靠梯度就能实现对抗样本生成方法，该方法以问题为优化目标生成对抗样本。例如Co等人一种通用的程序扰动产生方法(UAPs)只需使用几个参数就可以生成具有高通用规避率的UAP分布，从而生成对抗样本。Liu等人以对抗样本具有迁移性为理论基础，在一组替代学习模型上生成了对抗样本。发明人发现，现有的对抗样本的生成缺乏可解释性，这样不易贴合实际场景的应用。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种基于重要特征的具有可解释性对抗样本生成方法及系统，其具有强的可解释性，克服流形中的低概率区域解释和线性解释的假说的局限性，在黑盒条件下，也更加符合实际应用场景，为人工智能安全领域提出新的挑战。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于重要特征的具有可解释性对抗样本生成方法，其包括：

获取若干图像样本并标注对应标签，形成训练数据集和测试数据集；

将测试数据集中的图像样本依次输入至目标模型和本地模型中，保留标签均预测正确的图像样本，作为生成对抗样本的种子；其中，目标模型和本地模型均采用训练数据集训练得到；

基于生成对抗样本的种子，修改其排名前预设名数的特征值，生成临时对抗样本；其中，特征重要性的排名由本地模型输出；

将生成的临时对抗样本输入到目标模型进行预测，目标模型对临时对抗样本预测错误即为最终生成的对抗样本集。

为了提高生成对抗样本的成功率，即尽可能多的让对抗样本种子成为可以欺骗目标模型的对抗样本，攻击者的本地模型是不断进行更新的，以更好的模拟目标模型的预测行为。

本发明的第二个方面提供一种基于重要特征的具有可解释性对抗样本生成系统，其包括：

数据集获取模块，其用于获取若干图像样本并标注对应标签，形成训练数据集和测试数据集；

对抗样本种子获取模块，其用于将测试数据集中的图像样本依次输入至目标模型和本地模型中，保留标签均预测正确的图像样本，作为生成对抗样本的种子；其中，目标模型和本地模型均采用训练数据集训练得到；

临时对抗样本生成模块，其用于基于生成对抗样本的种子，修改其排名前预设名数的特征值，生成临时对抗样本；其中，特征重要性的排名由本地模型输出；

对抗样本集生成模块，其用于将生成的临时对抗样本输入到目标模型进行预测，目标模型对临时对抗样本预测错误即为最终生成的对抗样本集。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于重要特征的具有可解释性对抗样本生成方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于重要特征的具有可解释性对抗样本生成方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明提出的基于重要特征的具有可解释性对抗样本生成方法所生成的对抗样本不仅具有可解释性，而且生成对抗样本具有更高的效率与准确性。

(2)本发明生成对抗样本的方法计算复杂度低，因此能够快速生成对抗样本，且该方法是在黑盒条件下，因此也更加符合实际应用场景，为人工智能安全领域提出新的挑战。其中，黑盒条件是指攻击者不知道要攻击的目标模型的任何信息，只能通过API接口对目标模型输入测试样本，得到目标模型对该测试样本的预测标签。

(3)本发明通过训练本地模型获取图样样本的特征重要性排名，只针对重要特征进行修改生成对抗样本；由于本发明是针对重要特征进行的工作，所以本发明提出的对抗样本生成方法具有强可解释性，克服了流形中的低概率区域解释和线性解释的假说的局限性。

(4)本发明的基于重要特征的具有可解释性对抗样本生成方法，除了适用于图像样本之外，还可以适用于语音样本等其他领域内的样本。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于重要特征的具有可解释性对抗样本生成方法流程图；

图2是本发明实施例的临时对抗样本生成流程图；

图3是本发明实施例的本地模型更好地模拟目标模型的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1，本实施例提供了一种基于重要特征的具有可解释性对抗样本生成方法，其包括：

S101：获取若干图像样本并标注对应标签，形成训练数据集和测试数据集。

具体地，基于图像样本并对其进行标签(如图像中是否包含目标物或是其他自定义的标签属性等)标注，获取训练目标模型和本地模型的训练数据集，分别用Train₁和Train₂表示。目标模型是指攻击者要攻击的模型，本地模型是指攻击者用于生成对抗样本过程中的一个步骤。同时，还需获取与训练目标模型和本地模型无交叉的测试数据集Test₁。

S102：将测试数据集中的图像样本依次输入至目标模型和本地模型中，保留标签均预测正确的图像样本，作为生成对抗样本的种子；其中，目标模型和本地模型均采用训练数据集训练得到。

在本实施例中，目标模型拟采用卷积神经网络。使用Train₁训练目标模型。

本地模型采用一种集成学习的思想，集成使用的机器学习算法为并联连接的随机森林，XGBoost，逻辑回归。即先Train₂使用训练随机森林模型，然后使用Train₂训练XGBoost模型，最后使用Train₂训练逻辑回归模型。而且本地模型的输出结果符合少数服从多数的原则。

本地模型对测试样本给出标签的方式是服从少数服从多数的原则。比如说，对于Test₂的一个样本t，本地模型首先对该样本分别给三个预测标签[1,1,0](来自于随机森林模型，XGBoost模型，逻辑回归模型)，则本地模型对样本t的最终预测标签为1。

此处需要说明的是，目标模型和本地模型也可采用其他现有的神经网络模型或是机器学习模型来实现，此处不再详述。

在获取生成对抗样本的种子的过程中，测试数据集中的图像样本首先输入至目标模型，保留正确预测标签的图像样本，然后再将正确预测标签的图像样本输入至本地模型中，同样保留标签预测正确的图像样本并将该图像样本作为生成对抗样本的种子。例如：生成对抗样本的种子设为AE₁，其生成过程为：

将测试数据集Test₁首先使用训练得到的卷积神经网络进行检测，保留可以正确预测标签的样本Test₂，然后将Test₂分别输入到随机森林模型，XGBoost模型，逻辑回归模型，得出Test₂的预测标签，同样保留可以正确预测标签的样本，该样本则构成生成对抗样本的种子AE₁。

S103：基于生成对抗样本的种子，修改其排名前预设名数的特征值，生成临时对抗样本；其中，特征重要性的排名由本地模型输出。

本地模型中获取特征的重要性排名。本部分工作可以使用sklearn提供的feature_importances_函数实现，该函数可以输出随机森林和XGBoost的每个特征具有的重要性得分及其特征对应的索引值。逻辑回归模型的特征重要性通过逻辑回归表达式前的系数表示。

比如说，逻辑回归的表达式为y＝0.5x₀+0.3x₁+0.2x₂，则最重要的特征索引为0，其次是1，2。

修改重要性排名前m的特征值，假如训练目标模型和本地模型一个样本使用的特征的个数为n个，则可以只对特征重要性排名前m名的特征值进行修改，m<n。如下例所示,每一个列表代表一个样本的特征值，即如下为三个样本的特征值表示。列表中加粗数字为排名前m的特征值。

[32,170,…,61,80,4]

[14,557,…,33,85,7]

[23,735,…,51,41,8]

生成临时对抗样本的方式有两种类型，分别为生成非特定目标的临时对抗样本和特定目标的对抗样本。其中，生成非特定目标的临时对抗样本，其目的是让目标模型将样本预测错误。生成特定目标的临时对抗样本，其目的是让目标模型将样本预测为攻击着指定的类别。

其中，如图2所示，临时对抗样本生成的流程，包括如下步骤：

步骤200：判断是否生成特定标签的对抗样本，若为是则进入步骤205，若为否，则进行步骤201。

步骤201：判断生成非特定对抗样本的方式，若为1则对应生成非特定目标的临时对抗样本，直接在排名前预设名数的重要特征，在该重要特征值的原数据的基础上增加或减去设定数值，并转入步骤202。

若为否，则对应生成非特定目标的临时对抗样本，通过计算重要特征值相邻的特征值相加求平均的方式修改排名前预设名数的特征值，并转入步骤204。

步骤202：对重要特征值之间进行加减变量p的大小，p为一个常量。直接在排名前m名的重要特征，在该重要特征值的原数据的基础上+p。假设p设置为2，则示例的变化如下所示。

步骤203：生成临时对抗样本，结束。

步骤204：重要特征值相邻的特征值相加求，平均生成临时对抗样本，结束。

具体地，计算相邻特征值之和求平均。这种方式的有点是更容易生成可以不影响人眼做出正确判断的同时愚弄目标模型。计算示例如下所示：

101的计算为(32+170)/2，48的计算为(61+80+4)/3，其他数值按照特征值所在的位置类比101和48的计算方法。

步骤205：获取生成对抗样本种子与目标类别最相似的样本。

步骤206：判断生成对抗样本方式是否为1，若为1则对应生成特定目标的对抗样本，直接将排名前预设名数的重要特征值替换为特定目标样本的特征值，进入步骤207；

若为否则对应生成特定目标的对抗样本，通过计算特定标签样本的重要特征附近值的计算平均值的方式修改排名前预设名数的特征值，进入步骤208。

步骤207：依据目标类别样本重要特征对生成对抗样本种子对应特征替换，平均生成临时对抗样本，结束。

生成特定目标的临时对抗样本，首先直接将排名前m的特征值替换为特定目标样本的特征值。如下示例所示，目的是将原始标签为0的样本，变成对抗样本后可使目标模型对其预测为指定标签1：

[32,170,…,61,80,4]t1该为要生成临时对抗样本的数据，假设该数据标签为0；

[14,557,…,33,85,7]t2该数据标签为1；

[14,170,…,61,85,4]t3该为使目标模型预测为类别1的临时对抗样本；

为了使得临时对抗样本具备不影响人眼判断类别的同时，实现愚弄目标模型的目的，因此对t2样本的选取具有一定的限制，即选取与t1样本相似性最强的样本，这里只比较重要特征之间的相似性，而不是对整个样本进行计算。计算相似性的公式如下所示，其中m为排名重要特征的个数，即为即将修改特征值的个数。

步骤208：依据目标类别样本重要特征值相邻的特征值相加求平均，平均生成临时对抗样本，结束。

特定标签样本的重要特征附近值的计算平均值，如下例所示：

[14,557,…,33,85,7]t2该数据标签为1；

[285.5,170,…,61,41,4]t3该为使目标模型预测为类别1的临时对抗样本，285.5的计算为t2样本中(14+557)/2，41的计算方式为(33+85+7)/3。

S104：将生成的临时对抗样本输入到目标模型进行预测，目标模型对临时对抗样本预测错误即为最终生成的对抗样本集。其中，预测正确的临时对抗样本重复生成临时对抗样本的步骤。

参照图3，本实施例提供了攻击者的本地模型更好地模拟目标模型的方法，其包括：

步骤300：生成对抗样本种子，对抗样本生成种子方法如S102所述。

步骤301：生成的临时对抗样本，临时对抗样本方法如S103所述。

步骤302：生成的临时对抗样本输到本地模型进行预测。

步骤303：判断生成的临时对抗样本是否可以欺骗本地模型，若为1，则转入步骤304，若为0，则转入步骤300。

步骤304：将欺骗本地模型的临时对抗样本输入到目标模型进行预测。

步骤305：判断是否可以欺骗目标模型，若为1，则转入步骤306，若为0，则转入步骤307。

步骤306：生成对抗样本，结束。

步骤307：不能欺骗目标模型的临时对抗样本作为训练本地模型训练数据的一部分。

步骤308：训练本地模型的训练集，添加了步骤307的临时对抗样本重新训练本地模型。

步骤309：重新获取本地模型特征的重要性排名，用于下一步生成临时对抗样本。

实施例二

本实施例提供了一种基于重要特征的具有可解释性对抗样本生成系统，其包括：

本实施例的基于重要特征的具有可解释性对抗样本生成系统中的各个模块，与实施例一所述的基于重要特征的具有可解释性对抗样本生成方法中的各个步骤中的具体实施过程一一对应，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于重要特征的具有可解释性对抗样本生成方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于重要特征的具有可解释性对抗样本生成方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于重要特征的具有可解释性对抗样本生成方法，其特征在于，包括：

2.如权利要求1所述的基于重要特征的具有可解释性对抗样本生成方法，其特征在于，当生成临时对抗样本的类型为生成非特定目标的临时对抗样本时，直接在排名前预设名数的重要特征，在该重要特征值的原数据的基础上增加或减去设定数值。

3.如权利要求1所述的基于重要特征的具有可解释性对抗样本生成方法，其特征在于，当生成临时对抗样本的类型为生成非特定目标的临时对抗样本时，通过计算重要特征值相邻的特征值相加求平均的方式修改排名前预设名数的特征值。

4.如权利要求1所述的基于重要特征的具有可解释性对抗样本生成方法，其特征在于，当生成临时对抗样本的类型为特定目标的对抗样本时，直接将排名前预设名数的重要特征值替换为特定目标样本的特征值。

5.如权利要求1所述的基于重要特征的具有可解释性对抗样本生成方法，其特征在于，当生成临时对抗样本的类型为特定目标的对抗样本时，通过计算特定标签样本的重要特征附近值的计算平均值的方式修改排名前预设名数的特征值。

6.如权利要求1所述的基于重要特征的具有可解释性对抗样本生成方法，其特征在于，在获取生成对抗样本的种子的过程中，测试数据集中的图像样本首先输入至目标模型，保留正确预测标签的图像样本，然后再将正确预测标签的图像样本输入至本地模型中，同样保留标签预测正确的图像样本并将该图像样本作为生成对抗样本的种子。

7.如权利要求1所述的基于重要特征的具有可解释性对抗样本生成方法，其特征在于，目标模型为卷积神经网络；

或本地模型为并联连接的随机森林、XGBoost和逻辑回归，本地模型的输出结果符合少数服从多数的原则；

或训练目标模型和本地模型采用不同的训练数据集。

8.一种基于重要特征的具有可解释性对抗样本生成系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于重要特征的具有可解释性对抗样本生成方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于重要特征的具有可解释性对抗样本生成方法中的步骤。