CN111950628A

CN111950628A - 人工智能图像分类模型的鲁棒性评估与增强系统

Info

Publication number: CN111950628A
Application number: CN202010799032.8A
Authority: CN
Inventors: 易平; 喻佳天; 谢禹翀; 曹于勤; 王玉洁
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-17
Anticipated expiration: 2040-08-11
Also published as: CN111950628B

Abstract

一种人工智能图像分类模型的鲁棒性评估与增强系统，包括：白盒评估模块、黑盒评估模块和防御增强模块，白盒评估模块从用户处获得待评估模型及所选的评估指标，根据多个不同指标从各方面评估模型抵抗攻击的能力，并计算出所有指标的分数以及鲁棒性总分；黑盒评估模块从用户处获得待评估模型的输出结果，与正确标签相比较得到评估结果。提供了多种黑盒评估手段，从黑盒的角度评估模型的鲁棒性；防御增强模块内置多种鲁棒性提升手段。从用户处获得待增强的模型及所选的防御增强方法信息，使用相应的防御增强方法对使用者上传的模型进行鲁棒性增强。本发明通过多种鲁棒性评估指标优化整个模型鲁棒性评估流程，使得不同的方法之间可以更方便、准确和全面的进行比较和评估的同时，通过内置的多种技术对模型进行防御，提升模型的鲁棒性。

Description

人工智能图像分类模型的鲁棒性评估与增强系统

技术领域

本发明涉及的是人工智能安全领域的技术，具体是一种人工智能图像分类模型的鲁棒性评估与增强系统。

背景技术

现阶段基于深度学习的图像分类模型已经可以达到较高的准确性，但近期研究表明，通过对正常样本添加人为构造的微小扰动，就可以有很大概率使得模型产生误判，这类样本被称为对抗样本。对抗样本及其所具有的迁移性使得保证模型在对抗环境下的鲁棒性变得尤为重要。然而现阶段对于模型的鲁棒性依然没有一个标准的评估方式，模型鲁棒性的不同研究之间常常因使用完全不同的评估指标，而无法进行互相比较评判，从而阻碍这个研究方向的快速发展。

发明内容

本发明针对现阶段图像分类模型的鲁棒性评估存在的无标准评估方式、指标多样、不同评估之间无法进行互相比较评判问题，提出了一种人工智能图像分类模型的鲁棒性评估与增强系统，通过多种鲁棒性评估指标优化整个模型鲁棒性评估流程，使得不同的方法之间可以更方便、准确和全面的进行比较和评估的同时，通过内置的多种技术对模型进行防御，提升模型的鲁棒性。

本发明是通过以下技术方案实现的：

本发明涉及一种人工智能图像分类模型的鲁棒性评估与增强系统，包括：白盒评估模块、黑盒评估模块和防御增强模块，其中：白盒评估模块从用户处获得待评估模型及所选的评估指标，根据多个不同指标从各方面评估模型抵抗攻击的能力，并计算出所有指标的分数以及鲁棒性总分；黑盒评估模块从用户处获得待评估模型的输出结果，与正确标签相比较得到评估结果。提供了多种黑盒评估手段，从黑盒的角度评估模型的鲁棒性；防御增强模块内置多种鲁棒性提升手段。从用户处获得待增强的模型及所选的防御增强方法信息，使用相应的防御增强方法对使用者上传的模型进行鲁棒性增强。

技术效果

本发明整体解决了现阶段对于图像分类模型的鲁棒性缺少标准的评估方式，业界在进行模型鲁棒性评估时常常会因使用完全不同的评估方法和指标，而无法进行互相比较评判。

与现有技术相比，本发明集成了现有的多种图像分类模型鲁棒性的评估方法与防御方法，通过多个评估指标、从不同角度较为全面地考察一个模型的鲁棒性，使得不同模型之间可以方便、准确和全面的进行鲁棒性的比较和评估。

附图说明

图1为本发明系统示意图；

图2为白盒评估模块的结构示意图；

图3为黑盒评估模块的结构示意图；

图4为防御增强模块的结构示意图；

图5为实施例白盒评估模块的实施流程框图；

图6为实施例黑盒评估模块的实施流程框图；

图7为实施例防御增强模块的实施流程框图。

具体实施方式

如图1所示，为本实施例涉及的一种人工智能模型的鲁棒性评估与增强系统，包括：白盒评估模块、黑盒评估模块、防御增强模块，其中：白盒评估模块可根据多个不同指标从各方面评估此模型抵抗攻击的能力，并计算出所有指标的分数以及鲁棒性总分；黑盒评估模块提供多种黑盒评估手段，从黑盒的角度评估模型的鲁棒性；防御增强模块内置了多种鲁棒性提升手段，可对使用者上传的模型进行鲁棒性增强。

所述的白盒评估模块包括：模型上传单元、评估指标与攻击方法选择单元、白盒评估单元以及结果查看单元，其中：模型上传单元与白盒评估单元相连并传输待评估的模型，评估指标与攻击方法选择单元与白盒评估单元相连并传输评估指标与攻击方法信息，白盒评估单元与结果查看单元相连并传输模型的评估结果信息。

所述的黑盒评估模块包括：样本集下载单元、输出结果上传单元、黑盒评估单元以及结果查看单元，其中：样本集下载单元与黑盒评估单元相连并接受通用对抗样本测试集，输出结果上传单元与黑盒评估单元相连并传输待评估模型的噪声处理准确性差异，黑盒评估单元与结果查看单元相连并传输模型的黑盒迁移攻击成功率。

所述的防御增强模块包括：模型上传单元、防御方法选择单元、防御增强单元以及模型下载单元，其中：模型上传单元与防御增强单元相连并传输待防御增强的模型，防御方法选择单元与防御增强单元相连并传输防御方法信息，防御增强单元与模型下载单元相连并传输防御增强后的模型。

所述的白盒评估中使用的攻击算法包括：基于优化的对抗样本距离计算方法(C&W)、快速梯度下降算法(FGSM)、迷惑深度学习方法(Deepfool)、投影梯度下降法(PGD)、基于EM距离的投影梯度下降法(WPGD)。

所述的基于EM距离的投影梯度下降法，通过在寻找对抗样本的梯度中添加一个额外的EM距离正则项来优化扰动的构造方向、限制构造对抗样本时对抗样本和正常样本之间的分布差异，从而构造出更接近正常样本分布的对抗样本，该方法的目标是限制对抗样本和正常样本之间的EM距离，于是优化的损失函数可以表述为：J(X_adv,y)-β·W(X_norm,X_adv)，其中X_norm是正常样本，X_adv是对抗样本，W(X_norm,X_adv)是正常样本与对抗样本之间的EM距离，β是一个调节系数，通过调节β可以构造出更接近正常样本分布的对抗样本，并且对于大部分现有的对抗样本检测算法都具有较低的检出率。

所述的白盒评估指标包括：聪明指数(CLEVER Score，CS)、最小平均L_p扰动(MLD)、EM距离分布差异(ADD)、噪声处理准确性差异(NAV)、正确分类准确率(CA)、集成对抗准确率(EAA)，其中：CS指标寻找对抗距离下边界，攻击无关，通用性强，有完善的理论基础；MLD指标寻找最小的对抗距离上边界，一类广泛使用的评估指标；ADD指标评估正常分布于对抗样本分布的差异，从分布的角度来评估鲁棒性；NAV指标评估目标模型对于随机噪声扰动与对抗扰动的分辨能力的鲁棒性；CA指标评估目标模型的正常样本分类的准确率，作为一个基线指标；EAA指标评估目标模型对于对抗样本的分类准确率，综合衡量其对于对抗攻击的抵御能力。

所述的黑盒评估包括：通用对抗样本测试集、噪声处理准确性差异、黑盒迁移攻击成功率，其中：通用对抗样本测试集评估是指：运用统一的攻击样本，得到普遍意义上的鲁棒性；噪声处理准确性差异评估是指：评估目标模型对于随机噪声扰动与对抗扰动的分辨能力的鲁棒性；黑盒迁移攻击成功率评估是指：与黑盒模型的识别结果相关，能构造出和模型更加适合的对抗样本。

所述的鲁棒性提升手段包括：梯度掩码方面的防御性蒸馏(DD)、决策器方面的基于EM距离的防御性提升手段(WAT)、基于数据处理方面的集成输入变换(EIT)，其中：防御性蒸馏是指：将原模型输出的概率分布向量再次输入相同的模型中进行学习，从而使得最终学习到的模型的分类边界更加平滑，从而防御常见的对抗攻击方法；基于EM距离的防御性提升手段是指：将使用WPGD攻击生成的对抗样本与正常样本进行混合之后，对目标模型进行对抗训练从而达到提高模型鲁棒性的目的；集成输入变换是指：将图像样本送入神经网络进行对抗训练之前，对样本应用各种图像变换。优点在于其不可区分性和固有的随机性。

所述的基于EM距离优化的模型鲁棒性训练的优化目标为：

其中：θ表示模型的参数，L(θ,x+δ,y)表示原始任务的损失函数，x表示原始样本，y表示真实分类标签，δ表示引入的对抗扰动，这里指的是WPGD攻击算法引入的扰动。因为WPGD对抗样本的分布更靠近正常样本，因此它可以为对抗训练提供高质量的对抗样本从而很好地提升模型的鲁棒性。

本实施例涉及上述系统的鲁棒性优化方法，具体包括以下步骤：

步骤1)白盒评估，如图2所示，具体包括如下步骤：

1.1)使用者将待评估的模型上传至系统；

1.2)使用者选择评估指标与攻击方法；

1.3)系统根据使用者选择的攻击方法对上传的模型进行白盒攻击。根据攻击的结果，依据所选的指标对模型的鲁棒性进行评分；

1.4)将评估结果提供给使用者查看；

步骤2)黑盒评估，如图3所示，具体包括如下步骤：

1)使用者选择通用对抗样本测试集或噪声处理准确性差异的评估方式时：

2.1.1)首先下载相应的样本集；

2.1.2)将样本集输入待评估的模型，将输出结果上传至系统；

2.1.3)系统将模型的输出结果与样本集的正确标签相比较，得出准确率。依据准确率对模型的鲁棒性进行评估；

2.1.4)将评估结果提供给使用者查看；

2.2)使用者选择黑盒迁移攻击的评估方式时：

2.2.1)使用者下载正常样本集；

2.2.2)将样本集输入待评估的模型，将输出结果上传至系统；

2.2.3)系统根据使用者的输出结果新训练出一个模型，对新模型进行白盒攻击并生成对抗样本集；

2.2.4)使用者下载对抗样本集，将对抗样本输入待评估的模型，并将输出结果上传至系统；

2.2.5)系统将输出结果与对抗样本集的正确标签相比较，得到准确率。依据准确率对模型的鲁棒性进行评估；

2.2.6)将评估结果提供给使用者查看；

步骤3)防御增强，如图4所示，具体包括如下步骤：

3.1)使用者将待增强的模型上传至系统；

3.2)使用者选择防御增强手段；

3.3)系统使用所选的防御增强技术对模型进行防御增强；

3.4)将防御增强后的模型提供给使用者下载。

经过具体实际实验，在软件环境为python3.6，硬件环境为GeForce GTX 1080的设置下，针对ResNet、DenseNet、SqueezeNet、AlexNet、VGG16、LeNet这六种常见的网络结构、分别在MNIST和CIFAR10数据集上进行正常训练，最终使得各模型都能达到较高的识别准确率。之后使用基于EM距离的投影梯度下降法(WPGD)对各模型进行攻击，计算模型发生误判的概率。能够得到的实验数据是：

基于EM距离的投影梯度下降法对正常模型具有很强的攻击效果，可以很大地提升模型的发生误判的概率。

经过具体实际实验，在软件环境为python3.6，硬件环境为GeForce GTX 1080的设置下，使用基于EM距离的防御性提升手段(WAT)对上述各模型进行防御增强。分别对正常模型与防御后的模型进行Deepfool攻击，计算各模型发生误判的概率。能够得到的实验数据是：

经过基于EM距离的防御性提升手段的模型面对DeepFool攻击有较好的防御性能，相比正常模型，在大部分网络结构下都可以有效降低DEEPFOOL攻击的误判率。

与现有技术相比，本发明将多个不同的白盒评估指标有机的结合在一起，其中所用的基于EM距离的投影梯度下降法可以构造出与正常样本在分布上更为相近的对抗样本，提升对模型的攻击效果。本发明提供了多种防御增强手段，其中基于EM距离的防御性提升手段可以有效的提升模型面对对抗攻击时的鲁棒性。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种人工智能图像分类模型的鲁棒性评估与增强系统，其特征在于，包括：白盒评估模块、黑盒评估模块和防御增强模块，其中：白盒评估模块从用户处获得待评估模型及所选的评估指标，根据多个不同指标从各方面评估模型抵抗攻击的能力，并计算出所有指标的分数以及鲁棒性总分；黑盒评估模块从用户处获得待评估模型的输出结果，与正确标签相比较得到评估结果，提供了多种黑盒评估手段，从黑盒的角度评估模型的鲁棒性；防御增强模块内置多种鲁棒性提升手段，从用户处获得待增强的模型及所选的防御增强方法信息，使用相应的防御增强方法对使用者上传的模型进行鲁棒性增强。

2.根据权利要求1所述的鲁棒性评估与增强系统，其特征是，所述的白盒评估模块包括：模型上传单元、评估指标与攻击方法选择单元、白盒评估单元以及结果查看单元，其中：模型上传单元与白盒评估单元相连并传输待评估的模型，评估指标与攻击方法选择单元与白盒评估单元相连并传输评估指标与攻击方法信息，白盒评估单元与结果查看单元相连并传输模型的评估结果信息；

所述的攻击方法包括：基于优化的对抗样本距离计算方法(C&W)、快速梯度下降算法(FGSM)、迷惑深度学习方法(Deepfool)、投影梯度下降法(PGD)、基于EM距离的投影梯度下降法(WPGD)。

3.根据权利要求1所述的鲁棒性评估与增强系统，其特征是，所述的黑盒评估模块包括：样本集下载单元、输出结果上传单元、黑盒评估单元以及结果查看单元，其中：样本集下载单元与黑盒评估单元相连并接受通用对抗样本测试集，输出结果上传单元与黑盒评估单元相连并传输待评估模型的噪声处理准确性差异，黑盒评估单元与结果查看单元相连并传输模型的黑盒迁移攻击成功率；

所述的噪声处理准确性差异是指：评估目标模型对于随机噪声扰动与对抗扰动的分辨能力的鲁棒性；

所述的黑盒迁移攻击成功率评估是指：与黑盒模型的识别结果相关，能构造出和模型更加适合的对抗样本。

4.根据权利要求1所述的鲁棒性评估与增强系统，其特征是，所述的防御增强模块包括：模型上传单元、防御方法选择单元、防御增强单元以及模型下载单元，其中：模型上传单元与防御增强单元相连并传输待防御增强的模型，防御方法选择单元与防御增强单元相连并传输防御方法信息，防御增强单元与模型下载单元相连并传输防御增强后的模型。

5.根据权利要求2所述的鲁棒性评估与增强系统，其特征是，所述的基于EM距离的投影梯度下降法，通过在寻找对抗样本的梯度中添加一个额外的EM距离正则项来优化扰动的构造方向、限制构造对抗样本时对抗样本和正常样本之间的分布差异，从而构造出更接近正常样本分布的对抗样本，该方法的目标是限制对抗样本和正常样本之间的EM距离，于是优化的损失函数可以表述为：J(X_adv,y)-β·W(X_norm,X_adv)，其中：X_norm为正常样本，X_adv为对抗样本，W(X_norm,X_adv)为正常样本与对抗样本之间的EM距离，β为调节系数。

6.根据权利要求1或2所述的鲁棒性评估与增强系统，其特征是，所述的评估指标包括：聪明指数(CLEVER Score，CS)、最小平均L_p扰动(MLD)、EM距离分布差异(ADD)、噪声处理准确性差异(NAV)、正确分类准确率(CA)、集成对抗准确率(EAA)。

7.根据权利要求5所述的鲁棒性评估与增强系统，其特征是，所述的鲁棒性提升手段包括：梯度掩码方面的防御性蒸馏(DD)、决策器方面的基于EM距离的防御性提升手段(WAT)、基于数据处理方面的集成输入变换(EIT)；

所述的防御性蒸馏是指：将原模型输出的概率分布向量再次输入相同的模型中进行学习，从而使得最终学习到的模型的分类边界更加平滑，从而防御常见的对抗攻击方法；

所述的基于EM距离的防御性提升手段是指：将使用WPGD攻击生成的对抗样本与正常样本进行混合之后，对目标模型进行对抗训练从而达到提高模型鲁棒性的目的；集成输入变换是指：将图像样本送入神经网络进行对抗训练之前，对样本应用各种图像变换，优点在于其不可区分性和固有的随机性。

8.根据权利要求1所述的鲁棒性评估与增强系统，其特征是，所述的基于EM距离优化的模型鲁棒性训练的优化目标为：

其中：θ为模型的参数，L(θ,x+δ,y)为原始任务的损失函数，x为原始样本，y为真实分类标签，δ为引入的对抗扰动，即WPGD攻击算法引入的扰动。

9.根据上述任一权利要求所述系统的鲁棒性优化方法，其特征在于，包括以下步骤：

步骤1)白盒评估，具体包括如下步骤：