CN108549940B

CN108549940B - 基于多种对抗样例攻击的智能防御算法推荐方法及系统

Info

Publication number: CN108549940B
Application number: CN201810180928.0A
Authority: CN
Inventors: 纪守领; 李进锋; 陈建海
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2021-10-29
Anticipated expiration: 2038-03-05
Also published as: CN108549940A

Abstract

本发明公开了一种基于多种对抗样例攻击的智能防御算法推荐方法，包括以下步骤：对原始数据集进行清洗，得到训练集；利用训练集训练目标识别模型，得到目标攻击模型；选取不同的对抗样例攻击算法，攻击目标攻击模型；量化评估每种对抗样例攻击算法的攻击成功率，根据攻击成功率选择目标攻击算法；针对每种目标攻击算法，逐一应用对抗攻击防御算法进行防御；根据防御结果向用户推荐相应的对抗攻击防御算法。本发明还公开了智能防御算法推荐方法所采用的智能防御算法推荐系统。针对具体的目标模型，本发明的智能防御算法推荐系统可以智能的推荐有效的防御算法，从而减小对抗样例攻击给目标模型造成的损失。

Description

基于多种对抗样例攻击的智能防御算法推荐方法及系统

技术领域

本发明涉及机器学习模型安全与隐私问题中存在的对抗样例攻击和防御的安全技术领域，尤其涉及一种基于多种对抗样例攻击的智能防御算法推荐方法及系统。

背景技术

机器学习是人工智能的核心，近年来机器学习得到了前所未有的发展，其应用遍及人工智能的各个领域。尤其是在数据挖掘、计算机视觉、自然语言处理、语音和手写体识别、无人驾驶等领域，机器学习的应用取得了巨大的成功。现如今，无论是在学术界还是在工业界，机器学习都受到了广泛的关注和深入的研究。机器学习的发展已经进入了一个全新的阶段，各种机器学习算法和模型层出不穷，在很多场景下，当呈现自然发生的输入时，其表现甚至胜过了人类。

当然，机器学习还并没有达到人类的真正水平，因为即使面对一个微不足道的攻击，大多数机器学习算法都会失败。然而，大多数的研究者并没有考虑这个问题。通常在设计机器学习系统时，为了保证设计的系统是安全的、可信赖的并且结果能达到预期效果，我们通常会考虑特定的威胁模型，这些模型是对那些企图使我们的机器学习系统出错的攻击者的攻击能力和攻击目标的假设。

迄今为止，现有大多数的机器学习模型都是针对一个非常弱的威胁模型设计实现的，没有过多的考虑攻击者。尽管在面对自然的输入时，这些模型能有非常完美的表现，但在现实环境下，这些机器学习模型会遇到大量的恶意用户甚至是攻击者。例如，当模型被训练(学习阶段)或者模型进行预测时(推理阶段)时，攻击者也有不同程度的能力对模型的输入、输出做出恶意的修改或者是通过某种手段访问模型的内部构件，窃取模型的参数，从而破坏模型的保密性、完整性和可用性，这就是机器学习模型中的安全和隐私问题。

机器学习模型最容易受到完整性攻击，这种攻击既可以发生在模型的学习阶段，也可以发生在模型的推理预测阶段，如果攻击者破坏了模型的完整性，那么模型的预测结果就会偏离预期。在破坏机器学习模型完整性的攻击中，最常见的就是对抗样例攻击。在模型的学习阶段，干扰机器学习模型的训练过程，体现的攻击策略是当用户于生产时让机器学习模型出现更多的错误，在这一阶段，最常见的攻击就是利用对抗样例进行数据下毒攻击，攻击者可以通过修改现有的训练集或者增加额外的恶意数据，影响模型的训练过程，破坏模型的完整性从而达到降低模型在预测推理阶段准确性的目的。在模型的推理预测阶段，模型的完整性同样容易受到对抗样例攻击。在模型训练完成并用于预测时，攻击者只需要在待预测的样本中添加很小的扰动，这种扰动人眼无法识别但足以让模型分类出错。

已有的研究提出了多种针对不同应用场景的对抗样例生成方法，针对不同攻击目标的对抗样例攻击也被广泛的应用到实际中。相对于对抗样例攻击，对抗样例攻击防御相关研究就要困难很多。目前大多数的防御算法都是一种静态的、只针对特定的对抗样例攻击的防御方法，没有一种统一的防御算法推荐和评估系统。

发明内容

针对机器学习模型中存在的安全与隐私问题以及对破坏机器学习模型完整性的对抗样例攻击的防御技术的不足，本发明提供了一种基于多种对抗样例攻击的智能防御算法推荐方法。

本发明提供了如下技术方案：

一种基于多种对抗样例攻击的智能防御算法推荐方法，包括以下步骤：

(1)对原始数据集进行清洗，剔除其中的对抗样本，得到训练集；

(2)利用训练集训练目标识别模型，得到目标攻击模型；

(3)选取不同的对抗样例攻击算法，根据训练集生成相应的对抗样例；采用所述的对抗样例攻击目标攻击模型，分别统计并记录攻击结果；

(4)量化评估每种对抗样例攻击算法的攻击成功率，根据攻击成功率选择目标攻击算法；

(5)针对每种目标攻击算法，逐一应用对抗攻击防御算法进行防御，分别统计并记录每一对抗防御算法的防御效果分数；

(6)根据防御结果向用户推荐相应的对抗攻击防御算法。

本发明基于多种对抗样例攻击的智能防御算法推荐方法，在特定应用场景下，对针对特定任务(如人脸识别、物体识别、手写体识别等)而训练得到的机器学习模型可能遭受的对抗样例攻击提供一个整体的评估，并根据评估结果智能地向用户推荐防御算法，从而为用户的机器学习模型的安全保驾护航。

一般场景下，用户在不同领域中收集的原始数据本身就可能存在噪音，在训练目标识别模型前，需要对噪音数据进行过滤，才能保证训练阶段训练所得模型的准确性。此外，在模型的学习阶段容易受到攻击者下毒攻击，攻击者利用对抗样例对训练数据进行下毒，从而干扰模型的训练过程进而影响模型在推理预测阶段的表现。所以，在训练目标识别模型之前需要对原始数据进行清洗，过滤原始数据集中已存在的对抗样例，为后续训练阶段训练得到高准确率的模型提供保障。

优选的，步骤(1)中，对原始数据集中对抗样本的识别方法为：

(1-1)利用ground-truth数据集训练生成对抗网络G_R，学习ground-truth数据的概率分布；

(1-2)利用对抗样例数据集训练生成对抗网络G_A，学习对抗样例数据的概率分布；

(1-3)将原始数据集中的原始数据样本X_t输入到生成对抗网络G_R中，得到概率分布P_R(X_t)，并将概率转换成对应的似然

将同一原始数据样本X_t输入到生成对抗网络G_A中，得到概率分布P_A(X_t)，并将概率转换成对应的似然

计算负对数似然比

如果

则原始数据样本X_t为干净样本，否则原始数据样本X_t为对抗样本。

步骤(1-1)中，ground-truth数据集中不包含对抗样例。

步骤(1-2)中，对抗样例数据集中的对抗样例可采用现有对抗样例生成方法生成。

步骤(3)中，根据训练集生成的对抗样例数量与训练集中样本的数量相同。

优选的，步骤(3)包括：

(3-1)选取对抗样例攻击算法

利用训练集中的训练样本X生成对抗样例X′，

(3-2)分别利用对抗样例X′攻击目标攻击模型，得到对抗样例X′的分类结果

如果

与训练集的分类结果

不同，则对抗样例X′对目标攻击模型攻击成功；

(3-3)记录对目标攻击模型攻击成功的对抗样例X′的数量。

步骤(3)中所述的对抗样例攻击算法为梯度下降法、牛顿法、BFGS算法、L-BFGS算法，快速梯度符号法(FastGradientSignMethod，FGSM法)、改进的速梯度符号法、雅可比显著图攻击方法(Jacobian Saliency Map Attack)、DeepFool或万能扰动法(UniversalPerturbations)。

步骤(4)中，量化评估每种对抗样例攻击算法的攻击成功率的方法为：采用对抗样例攻击算法

攻击目标攻击模型时，对抗数据集中对抗样例的数量为N，满足

的对抗样例的数量为n，则对抗样例攻击算法

的攻击成功率为

步骤(4)中，用户根据对抗样例攻击算法的攻击成功率选择需要防御的目标攻击算法。

步骤(5)中，所述的防御效果分数的计算方法为：计算应用对抗攻击防御算法

进行防御后对抗样例攻击算法

的攻击成功率t_A′，则防御效果分数

根据防御效果分数的高低，向用户推荐适用于目标攻击算法的最佳对抗攻击防御算法即可。

步骤(5)中，所述的对抗攻击防御算法为防御蒸馏法(Defensive Distillation)、对抗训练法(Adversarial Training)、PCA美白法(PCA Whitening)、特征压缩法(Featuresqueezing)或生成对抗网络法(GenerativeAdversarialNetworks)。

本发明还公开了上述智能防御算法推荐方法所采用的智能防御算法推荐系统，包括；

原始数据清洗模块，对原始数据集进行清洗，剔除其中的对抗样本，得到训练集；

对抗攻击模块，包括对抗样例攻击算法库，逐一选取对抗样例攻击算法库中的对抗样例攻击算法攻击目标攻击模型，统计并记录攻击结果；

所述的目标攻击模型为通过训练集训练后的目标识别模型；

攻击评估和防御算法推荐模块，包括对抗攻击防御算法库，量化评估每种对抗样例攻击算法的攻击成功率，根据攻击成功率选择目标攻击算法；针对每种目标攻击算法，逐一应用对抗攻击防御算法库中的对抗攻击防御算法进行防御，统计并记录防御效果分数；根据防御结果向用户推荐相应的对抗攻击防御算法。

优选的，对抗样例攻击算法库包含梯度下降法、牛顿法、BFGS算法、L-BFGS算法，快速梯度符号法(FastGradientSignMethod，FGSM法)、改进的速梯度符号法、雅可比显著图攻击方法(Jacobian Saliency Map Attack)、DeepFool和万能扰动法(UniversalPerturbations)中的至少一种。

优选的，对抗攻击防御算法库包含防御蒸馏法(Defensive Distillation)、对抗训练法(Adversarial Training)、PCA美白法(PCAWhitening)、特征压缩法(Featuresqueezing)和生成对抗网络法(GenerativeAdversarialNetworks)中的至少一种。

与现有技术相比，本发明的有益效果为：

(1)本发明智能防御算法推荐系统的原始数据清洗模块可用于训练数据的清洗处理；

(2)针对具体的应用领域，本发明的智能防御算法推荐方法可以有效地评估目标模型的鲁棒性，提前发现目标模型易受到的对抗样例攻击；

(3)针对目标模型易受到的对抗样例攻击，本发明的智能防御算法推荐系统可以智能的推荐有效的防御算法，从而减小对抗样例攻击给目标模型造成的损失。

附图说明

图1为生成对抗网络的工作流程示意图；

图2为智能防御算法推荐系统的架构示意图；

图3为数据清洗模块的工作流程示意图；

图4为对抗攻击模块的工作流程示意图；

图5为攻击评估和防御算法推荐模块的工作流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，本发明的智能防御算法推荐系统包括三大模块：原始数据清洗模块、对抗攻击模块和攻击评估和防御算法推荐模块，每个模块的功能如下：

1、原始数据清洗模块

本模块的主要工作是对用户数据进行清洗工作。一般场景下，用户在不同领域中收集的数据本身就可能存在噪音，在训练目标识别模型前，需要对噪音数据进行过滤，才能保证训练阶段训练所得模型的准确性。此外，在模型的学习阶段容易受到攻击者下毒攻击，攻击者利用对抗样例对训练数据进行下毒从而干扰模型的训练过程进而影响模型在推理预测阶段的表现。所以，在训练目标网络之前需要利用本模块中的创新技术手段对训练数据进行清洗，过滤数据集中已存在的对抗样例，为后续训练阶段训练得到高准确率的模型提供保障。原始数据模块的工作流程如图2所示，具体的数据清洗方法流程如下：

(1)利用ground-truth数据集(不包含对抗样例)训练一个生成对抗网络G_R，学习原始数据的概率分布。

(2)利用由对抗样例构成的数据集训练一个对抗样例的生成对抗网络G_A，学习对抗样例数据的概率分布。

生成对抗网络(GAN)由Goodfellow在2014年提出，包括一个生成器和判别器，生成器用于生成样本，判别器用于鉴别生成器生成样本的真伪。本发明的生成对抗网络工作流程如图3所示。

(3)将原始数据集中的测试样本X_t输入到生成对抗网络G_R中，得到概率分布P_R(X_t)，并将概率转换成对应的似然

将测试样本X_t输入到生成对抗网络G_A中，得到概率分布P_A(X_t)，并将概率转换成对应的似然

计算负对数似然比

如果

说明测试样本X_t的概率分布与G_R学到的概率分布更接近，则该样本是干净样本，否则是对抗样本。

(4)剔除原始数据集中的对抗样本。

2、对抗攻击模块

本模块中提供了一种基于多种对抗样例攻击场景的对抗攻击方法，融合现有的关于对抗样例的研究以及对抗样例攻击在实际场景下的具体应用，实现了多种简单有效、攻击效果良好的对抗样例生成方法，结合不同的数据和不同目标识别模型(如人脸识别模型、手写体识别模型等)生成对抗样例，并对目标识别模型进行对抗性攻击。在此模块中，我们实现多种对抗样例生成算法，包括传统的梯度下降、牛顿法、BFGS、L-BFGS，Goodfellow提出的快速梯度符号法(FastGradientSignMethod)以及改进版的速梯度符号法，Papernot提出的雅可比显著图攻击(Jacobian Saliency Map Attack)方法，DeepFool、万能扰动(UniversalPerturbations)等。利用已实现的对抗样例生成方法生成对抗样例，对目标模型进行对抗样例攻击。如图4所示，对抗攻击方法的具体步骤如下：

(1)利用原始数据清洗模块清洗过的干净数据，针对用户的需求训练特定的识别模型M，作为对抗攻击目标攻击模型。

(2)从对抗攻击模块中的对抗样例攻击算法库中选取对抗样例攻击算法

利用清洗过的原始数据样本X生成对抗样例X′，

(3)分别利用每种不同的攻击算法

生成的对抗样例X′攻击目标攻击模型，得到对抗样例X′的分类结果

如果对抗样例X′的分类结果

不同于原始数据样本X的分类结果

即

则说明对抗样例X′攻击成功。

(4)针对每种不同的攻击算法

统计并记录结果。

3、攻击评估和防御算法推荐模块

本模块中融合了现有的所有在对抗样例攻击防御方向上的研究工作，实现了面向多种针对特定场景和特定攻击的防御算法，形成一个防御算法库。防御算法库中实现的防御算法如防御蒸馏(Defensive Distillation)、对抗训练(Adversarial Training)、PCA美白(PCA Whitening)、特征压缩(Feature squeezing)、生成对抗网络(GenerativeAdversarialNetworks)等。针对对抗攻击模块中的所有攻击算法，本模块中会对所有攻击进行一个统一的评估，并针对每一种攻击应用设计实现的防御算法，最终根据具体的防御表现从防御算法库中智能地给用户推荐防御算法。防御算法推荐模块工作流程如图5所示，具体流程如下：

(1)首先对对抗攻击模块中的攻击算法的攻击结果进行量化评估。对于规模为N的原始数据集，当采用对抗样例攻击算法

进行对抗样例攻击

后，有n条对抗样本X′满足

则攻击算法

的攻击成功率为

(2)针对攻击效果较好的对抗攻击算法，逐一应用对抗攻击防御算法。

(3)在每应用一个防御算法

重新计算攻击算法

的攻击成功率t_A′，计算防御算法

的防御效果分数

结合攻击算法

的攻击效果t_A和防御算法

的防御效果s_D向用户推荐最佳的防御算法，从而最大限度的降低攻击成功率。

用户在使用本智能防御算法推荐系统时，只需要导入训练数据并根据自己的应用场景选用机器学习模型。以手写体识别为例，系统整个工作流程分为四个阶段：

(1)数据上传与模型设置阶段：用户导入手写体训练数据，设置用于训练的机器学习模型，如选择使用卷积神经网络完成目标识别模型的构建。

(2)数据清洗阶段：系统中的原始数据清洗模块对用户的训练数据进行清洗，剔除训练集中的对抗样本，并将此模块的输出作为对抗攻击模块的输入。

(3)对抗攻击阶段：在对抗攻击模块中，系统根据用户选定的模型(此例中为卷积神经网络)及其他相关设定，利用原始数据清洗模块清洗后的数据训练一个手写体识别模型M。同时，系统利用对抗攻击模块攻击算法库中的攻击算法对手写体识别模型M进行攻击并记录攻击结果。

(4)防御算法推荐阶段：在系统的攻击评估和防御算法推荐模块中，系统会对上一阶段的攻击效果进行评估，剔除掉无效攻击，同时针对有效的攻击，利用防御算法库中的防御算法逐一进行防御测试，最终对防御效果进行评估并根据评估的结果向用户推荐有效的防御算法。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。