CN112464245A

CN112464245A - 一种面向深度学习图像分类模型的泛化的安全性评估方法

Info

Publication number: CN112464245A
Application number: CN202011351675.2A
Authority: CN
Inventors: 罗文俊; 王建菲; 陈自刚; 李梦琪; 蒋静; 曾宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09
Anticipated expiration: 2040-11-26
Also published as: CN112464245B

Abstract

本发明公开了面向深度学习图像分类模型的泛化的安全性评估方法，属于机器学习技术领域。目前深度学习相关研究中所要解决的重要问题是在解决深度学习图像分类模型面临的具有泛化特征的安全威胁问题的同时提高模型的鲁棒性，本发明利用面向深度学习图像分类模型的泛化的安全性评估方法，通过测试深度学习图像分类模型的针对对抗样本的主动防御能力、对抗样本检测能力以及针对对抗样本的被动防御能力等指标，对深度学习图像分类模型的安全性做出全面评估，并在评估过程中发掘模型存在的安全漏洞，与此同时，由于本发明存在的泛化特性，使得该方法能够适用于绝大多数深度学习图像分类模型，这对提高深度学习领域的安全性具有重要的理论和实践意义。

Description

一种面向深度学习图像分类模型的泛化的安全性评估方法

技术领域

本发明涉及一种面向深度学习图像分类模型的泛化的安全性评估方法，属于机器学习技术领域。

背景技术

深度学习(deep learning)技术是机器学习(machine learning)技术的一个重要分支，是一种以人工神经网络为架构，对数据进行表征学习的算法，也被称为无监督特性学习(unsupervised feature learning),即可以无需人为设计特征提取,特征从数据中学习而来。深度学习实质上是多层表示学习(representation learning)方法的非线性组合。近些年，深度学习技术快速发展，涌现出大量深度学习框架，如深度卷积神经网络(CNN)、生成对抗网络(GAN)、深度卷积生成对抗网络(DCGAN)等，基于这些框架的不断涌现，深度学习技术已被广泛应用于图像识别、语音识别、自然语言处理、信息检索与生物信息学等领域并取得了极好的效果。

然而，随着深度学习应用范围的不断扩大，其面对对抗样本时表现出来的脆弱性亟需解决。深度学习技术对于对抗样本普遍表现出脆弱性，受干扰之后的样本输入导致模型以高置信度给出一个错误的输出，很多情况下，在训练集的不同子集上训练得到的具有不同结构的模型会对相同的对抗样本实现误分，这意味着对抗样本成为了训练算法的一个盲点。与此同时，深度学习对抗攻击表现出极强的泛化特征，这种泛化特征意味着如果有人希望对图像分类模型进行恶意攻击，攻击者根本不必访问目标模型，就可以通过训练替代模型来生成对抗样本，然后将这些对抗样本部署到他们需要攻击的模型中。

发明内容

本发明提供的面向深度学习图像分类模型的泛化的安全性评估可在较大程度上解决上述问题。安全性评估利用大量对抗性深度学习攻击算法和安全防御策略，对深度学习图像分类模型做出全面可靠的评估，对于经安全性评估后发现存在安全漏洞的深度学习图像分类模型，通过多种手段完善其防御策略，提高其鲁棒性，将会对深度学习图像分类模型安全性的提升产生决定性的积极作用，与此同时，泛化的安全性评估方法能适用于大多数深度学习图像分类模型，这对保护深度学习图像分类模型的安全具有重要的理论和实践意义。

为了实现上述目的，本发明采用的技术方案是：一种面向深度学习图像分类模型的泛化的安全性评估方法，包括以下步骤：

(1)评估模型的主动防御能力：输入图像样本，判断深度学习图像分类模型训练中是否采用主动防御，以及对所采用的主动防御策略的可靠性进行评估；

(2)模拟攻击：以攻击者身份采用多种不同的对抗样本生成算法制作对抗样本对深度学习图像分类模型进行攻击；

(3)测试对抗样本检测能力：使用非负矩阵分解和余弦相似度测试深度学习图像分类模型能否检测出扰动程度大小不一的对抗样本，判断深度学习图像分类模型检测对抗样本能力；

(4)测试被动防御能力：对深度学习图像分类模型的被动防御策略的健全性以及对对抗样本的处理结果进行评估；

(5)综合多项指标全面评估：结合主动防御能力、对抗样本检测能力和被动防御能力，建立安全评估指标体系，全面评估深度学习图像分类模型的安全性。

步骤(1)中，对目标模型在训练过程中采取的主动防御策略的种类和可靠性进行评估，由于对抗性攻击具有多种不同的攻击手段和极强的攻击能力，导致对对抗性攻击的防御变得十分困难，因此，在训练过程中，模型具备何等程度的主动防御能力对整个模型的安全性起到至关重要的作用，可根据目前已存的多种类型的深度学习对抗性攻击评估目标模型的主动防御策略是否健全，是否对不同种类的攻击具有较强的针对性，以及采取的策略是否具有较好的可靠性。以往的针对深度学习图像分类模型的安全评估都是对模型分类过程中的性能进行评估，而缺少对模型的训练过程中的评估，相比较于传统的针对深度学习图像分类模型的安全评估，我们对深度学习图像分类模型的主动防御策略这一关乎模型整体鲁棒性的重要指标进行评估，弥补了传统深度学习图像分类模型安全评估过程中的不足，增强了对深度学习图像分类模型的全面认识，能够及时发现深度学习图像分类模型存在的安全问题，同时，根据评估过程中发现的问题，能够及早明确模型后继的增强方向，对全面评估模型的安全性起到重要作用。

步骤(2)中，基于主动军备竞赛的概念，模拟真实攻击场景，使用黑盒攻击和白盒攻击等常见的攻击方法，以攻击者身份制作并备份对抗样本对深度学习图像分类模型发起攻击。此外，由于针对深度学习图像分类模型的对抗样本存在泛化特征，模拟攻击无需访问目标模型，就可将对抗样本部署到深度学习图像分类模型上，并达到较好的攻击效果。本步骤综合考虑了攻击者可能采用的对抗样本生成算法，通过模拟深度学习图像分类模型可能会受到的攻击和威胁，可全面了解深度学习图像分类模型对不同攻击算法的敏感度，并能快速发现模型存在的安全问题，对后续模型的安全评估和增强法向起到决定性的作用，与此同时，对于当面临某种攻击时模型表现出来的较好的性能，可以将模型训练时的参数迁移到其他深度学习图像分类模型的训练中，使得其他模型在面临同种攻击时也能表现出较好的稳定性，这无疑是具有重要价值和意义的。

步骤(3)中，在测试数据集输入到深度学习图像分类模型后，性能良好的深度学习图像分类模型应保持对数据集中存在的对抗样本的高度敏感，具备对抗样本检测能力，能够及时发现数据集中存在的对抗样本，这是保卫深度学习图像分类模型安全的第一道壁垒，对深度学习的安全性起到至关重要的作用。本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将会对深度学习图像分类模型检测对抗样本的能力进行测试，当测试数据集输入后，该方法首先会测试深度学习图像分类模型能否检测出其中的对抗样本，将被深度学习图像分类模型对抗样本检测机制判定为正常样本的测试样本集与之前备份的对抗样本集进行对比，通过两种样本集的相似度判别深度学习图像分类模型针对扰动度大小不一的对抗样本的检测与发现能力，显然，两种样本集的相似度越高，表明目标模型对抗样本检测能力越弱。结合以上测试结果对深度学习图像分类模型给出等级不同的安全级别，作为全面评估深度学习图像分类模型安全性的重要指标之一。在本步骤中，我们将深度学习图像分类模型对抗样本检测能力单独作为评估深度学习图像分类模型安全性的重要指标之一，原因在于模型在防御对抗性攻击时，模型的对抗样本检测能力起到至关重要的作用，对模型检测能力的测试和评估，有助于提升模型整体的安全性，使模型有更强大的能力在数据集刚输入时就能及早发现其中存在的对抗样本，与此同时，我们创新性地将输入深度学习图像分类模型的数据集进行备份，有利于保存数据的完整性，与此同时，通过数据集的对比能直观地展现出模型的检测能力，从理论上讲此方法是完全可行的。

步骤(3)中，该方法会将被深度学习图像分类模型对抗样本检测机制判定为正常样本的样本集与备份对抗样本集进行对比，对比方法是：首先使用非负矩阵分解(NMF)提取样本特征，然后利用特征向量之间的夹角余弦对比其相似度，由此可得出两样本集之间的相似程度，进而判断目标模型检测对抗样本能力的强弱。在本步骤中，我们使用NMF进行特征提取，一方面，科学研究中的很多大规模数据的分析方法需要通过矩阵形式进行有效处理，而NMF思想则为我们处理大规模数据提供了一种新的途径；另一方面，NMF分解算法相较于传统的一些算法而言，具有实现上的简便性、分解形式和分解结果上的可解释性，以及占用存储空间少等诸多优点。此外，在我们的方法中创新性地引入了余弦相似度来计算两个或多个特征向量之间的相似度，该算法可以高度契合NMF算法，对于测试模型的对抗样本检测能力具有很高的实用性。

步骤(4)中，评估目标模型采取的被动防御策略是否健全，与此同时，针对步骤(3)中检测出的对抗性样本，评估目标模型对这些对抗样本的防御效果，对于防御效果一般的模型而言，可能会将对抗样本直接丢弃，而对于被动防御性能良好的模型而言，可能会将对抗样本经处理后按正常样本输出，因此，可根据模型的输出结果对模型的被动防御能力做出评估。在本步骤中，通过对模型被动防御能力的测试，可以全面了解模型对检测出的对抗性样本的处理能力，这项能力对深度学习图像分类模型而言也是十分重要的，它关系到模型最终的输出结果，通过本步骤的评估，我们可以找出模型安全防御中存在的漏洞，对增强模型的鲁棒性至关重要。

步骤(5)中，本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将模型主动防御能力、对抗样本检测能力以及被动防御能力等多项指标结合，建立安全评估指标体系，对深度学习图像分类模型的安全性做出全面可靠的评估，并在评估过程中发掘目标模型中存在的安全漏洞，进而全面提高深度学习图像分类模型的鲁棒性。在本步骤中，相对于传统的针对深度学习图像分类模型的安全评估而言，我们创新性地建立安全评估指标体系，将各项评估指标相结合，此方法的评估结果具有更高的准确性和可靠性，与此同时，由于各项指标权重的不同，对模型整体的评估更能彰显某项指标的重要性，因此，该方法是新颖且实用的。

附图说明

图1为本发明的流程示意图；

图2为本发明面向深度学习图像分类模型的安全性评估方法示意图；

图3为本发明中所使用的对抗样本产生的示意图；

图4为本发明测试深度学习图像分类模型对抗样本检测能力的方法示意图；

图5为样本集相似度对比示意图；

图6为深度学习图像分类模型安全评估指标体系。

具体实施方式

如图2所示，一种面向深度学习图像分类模型的泛化的安全性评估方法，通过测试深度学习图像分类模型主动防御能力、对抗样本检测能力以及被动防御能力等，对深度学习图像分类模型的安全性做出全面可靠的评估并给出优化方案。

步骤(1)评估深度学习图像分类模型主动防御能力：为了增强深度学习图像分类模型的鲁棒性，在模型训练过程中，会采取对抗性训练和防御性蒸馏等主动防御策略增强深度学习图像分类模型的鲁棒性。本发明通过对模型训练中是否采用主动防御以及所采用的主动防御策略的可靠性进行评估。所谓主动防御即模型训练过程所采取的增强模型鲁棒性的方法，如对抗性训练和防御蒸馏等，通过了解模型的训练过程即可得知模型采取了哪些主动防御方法来增强自身的鲁棒性。此外，本发明会对采用的主动防御策略的可靠性进行评估，例如对抗性训练，通过训练过程中使用的对抗样本集的数量和种类来判断模型对抗性训练的效果，对于对抗样本数量充足且种类齐全的对抗训练，模型获得的抵御对抗样本的能力自然也较高。可以根据上述方法对采取的各种主动防御策略进行打分，根据不同策略在主动防御过程中重要性的不同给出权重值，进而对机器学习模型的主动防御能力进行整体评估。

步骤(2)模拟攻击：军备竞赛是一种预防式的军事对抗行为，基于此概念，对深度学习图像分类模型开展主动军备竞赛，模拟真实攻击场景。以攻击者身份采用多种不同的对抗样本生成算法制作对抗样本对深度学习图像分类模型进行攻击，常见的攻击方法有黑盒攻击和白盒攻击等，对抗样本生成算法种类繁多，存在极大差异，本发明拟采用几种经典的对抗样本生成算法来生成对抗样本，如快速梯度符号法(FGSM)、迭代梯度符号法(IGSM)、雅可比显著图攻击(JSMA)和DeepFool算法等，如图3所示，FGSM算法生成对抗样本的公式为：

X′＝X+η

X′表示生成的对抗样本，X表示原图像，η表示扰动。

扰动产生公式为：

其中θ是模型参数，x是模型原输入，y为结果标签，J(θ,x,y)是损失函数，sign()是符号函数，ε扰动约束，

表示梯度。

IGSM是FGSM的迭代版本，它需要多个小步骤迭代，将总的噪声幅值分配到每一步迭代中去，同时调整每个步骤后的方向。其对抗样本产生公式为：

X′₀＝X

其中的参数与FGSM中含义相同，X′_N+1表示经过迭代后产生的对抗样本，N表示迭代数，α表示权重值，Clip表示将溢出的数值用边界值代替，这是因为在迭代更新中，随着迭代次数的增加，部分像素值可能会溢出。JSMA和DeepFool算法作为经典的对抗样本生算法同样适用于本发明用于生成对抗样本以进行模拟攻击。可根据上述几种方法制作特定对抗样本并加入到测试数据集中，然后将测试数据集输入到深度学习图像分类模型中，用来模拟攻击深度学习图像分类模型，由于针对深度学习图像分类模型的对抗样本存在泛化特征，模拟攻击无需访问目标模型，即可将对抗样本部署到深度学习图像分类模型上，并达到较好的攻击效果。

步骤(3)测试对抗样本检测能力：一般来讲，一个性能良好的深度学习图像分类模型应保持对数据集中存在的对抗样本的高度敏感，拥有检测对抗性样本的能力，能够及时发现对抗样本，这是保卫深度学习图像分类模型安全的第一道壁垒，对深度学习的安全性起到至关重要的作用。关于对抗样本检测的研究已取得大量研究成果，如沈佳邵、秦素娟等人提出的多种特征压缩联合的对抗样本检测方法，严飞等人提出的基于边界值不变量的对抗样本检测方法等。在制作对抗样本的过程中，由于添加的扰动的类型不同，所以导致对抗样本中的扰动度大小不一，有些类型的扰动虽然是小扰动，却能够起到攻击效果且更难检测到，如DeepFool等算法生成的对抗样本。本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将会对深度学习图像分类模型检测对抗样本的能力进行测试，如图4所示，当测试数据集输入后，该方法首先会测试深度学习图像分类模型能否检测出其中的对抗样本，然后将被深度学习图像分类模型对抗样本检测机制判定为正常样本的测试样本集与之前备份的对抗样本集进行对比，如图5所示，通过两种样本集的相似度判别深度学习图像分类模型对扰动度大小不一的对抗样本的检测与发现能力，显然，两种样本集的相似度越高，表明目标模型对抗样本检测能力越弱。对比方法是：首先使用非负矩阵分解算法提取样本特征，然后利用特征向量之间的夹角余弦对比其相似度，由此可得出两样本集之间的相似程度，同时，可进一步计算样本检测的准确率、精确率和召回率，进而判断目标模型检测对抗样本能力的强弱。对于二维向量A(x₁,y₁)和B(x₂,y₂),求他们之间夹角余弦的公式为：

当A(a₁,a₂···a_n)和B(b₁,b₂···b_n)为n维向量时，上述夹角余弦计算方法同样适用，其中A中的a₁～a_n表示使用NMF算法从样本A中提取的n维的特征向量，B中的b₁～b_n表示使用NMF算法从样本B中提取的特征向量，计算两样本之间的相似度的公式为：

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1，由此便可得出两样本集之间的相似程度。此外，在进行样本检测时，会出现以下几种情况：将正常样本预测为正常样本(True Positive,TP)、将对抗样本检测为正常样本(False Positive,FP)、将正常样本检测为对抗样本(False Negative,FN)、将对抗样本检测为对抗样本(True Negative,TN)，可通过上述方法计算出样本检测的准确率(正确检测的正常样本数和对抗样本数占样本总数的比例，即

)、精确率(正确检测的正常样本数占检测为正常样本的总数的比例，即

)和召回率(正确检测的正常样本数占实际正常样本总数的比例，即

)，为了兼顾精确率和召回率，使用F1分数(F1-score)，即精确率和召回率的调和平均数作为模型的评估标准之一，

F1-score越大，表明模型质量越高。

步骤(4)测试深度学习图像分类模型被动防御体系的健全性：本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法借助模拟攻击测试深度学习图像分类模型的被动防御体系是否健全，在检测出对抗性样本后，可通过一些方法如扰动消减等对对抗性样本进行处理，以获得正确的输出，由于对抗攻击类型多变、方法不一，单靠某一种或几种防御策略绝无可能达到上述目的，因此鲁棒性能良好的深度学习图像分类模型应该具备健全的安全防御体系，以此来保障深度学习图像分类模型免受蓄意的对抗性攻击并给出正确输出结果。本发明通过使用多种不同类型的对抗样本对目标模型发起模拟攻击，根据模型的输出结果，我们可以很直观地发现模型安全防御中存在的问题，即模型对于导致输出结果不正确的对抗样本缺少抵御能力或对该类对抗样本的处理能力不佳，通过这种方法可以挖掘出其中存在的安全漏洞，与此同时，通过模型的输出结果，可以对模型的防御体系给出安全评分，输出结果越好，安全评分越高，并将此作为全面评估深度学习图像分类模型安全性的重要指标之一，这无疑将对提升深度学习图像分类模型的鲁棒性产生积极作用。

所述步骤(5)中，本发明提出的一种面向深度学习图像分类模型的泛化的安全性评估方法将模型主动防御能力、对抗样本检测能力、被动防御能力等多项指标结合，建立安全评估指标体系，如图6所示，对深度学习图像分类模型的安全性做出全面可靠的安全性综合评估，模型整体安全得分为S＝λ₁S₁+λ₂S₂+λ₃S₃，其中λ₁，λ₂，λ₃是预设的权重值，S₁,S₂,S₃分别是深度学习主动防御能力、对抗样本检测能力和被动防御能力的得分，同时，针对评估过程中发现的安全漏洞，给出防御策略强化措施，全面提高深度学习图像分类模型的鲁棒性。

Claims

1.一种面向深度学习图像分类模型的泛化的安全性评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法，其特征在于：所述步骤(1)中根据对抗性训练过程中使用的对抗样本集的数量和种类来判断模型对抗性训练的效果，对采取的各种主动防御策略进行打分，结合不同主动防御策略过程中重要性的权重值，进而对机器学习模型的主动防御能力进行整体评估。

3.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法，其特征在于：步骤(2)所述对抗样本生成算法包括速梯度符号法、迭代梯度符号法、雅可比显著图攻击和DeepFool算法。

4.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法，其特征在于：所述步骤(3)具体包括以下步骤：测试数据集输入后，首先会测试深度学习图像分类模型能否检测出其中的对抗样本，然后将被深度学习图像分类模型对抗样本检测机制判定为正常样本的测试样本集与之前备份的对抗样本集进行对比，通过两种样本集的相似度判别深度学习图像分类模型对扰动度大小不一的对抗样本的检测与发现能力；对比方法是：首先使用非负矩阵分解算法提取样本特征，然后利用特征向量之间的夹角余弦对比其相似度，由此可得出两样本集之间的相似程度，最后，进一步计算样本检测的准确率、精确率和召回率。

5.根据权利要求4所述一种面向深度学习图像分类模型的泛化的安全性评估方法，其特征在于：所述夹角余弦的计算公式为：

其中A中的a₁～a_n表示使用非负矩阵分解算法从样本A中提取的n维的特征向量，B中的b₁～b_n表示使用非负矩阵分解算法从样本B中提取的特征向量。

6.根据权利要求4所述一种面向深度学习图像分类模型的泛化的安全性评估方法，其特征在于：所述准确率为

精确率为

召回率为

TP表示将正常样本预测为正常样本的数量，FP表示将对抗样本检测为正常样本的数量，FN表示将正常样本检测为对抗样本的数量，TN表示将对抗样本检测为对抗样本的数量。

7.根据权利要求1所述一种面向深度学习图像分类模型的泛化的安全性评估方法，其特征在于：所述步骤(4)具体处理步骤为：

将多种不同类型的对抗样本对深度学习图像分类模型发起模拟攻击，根据模型的输出结果，发现模型安全防御中存在的问题；通过模型的输出结果，对模型的防御体系给出安全评分。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1到7任一项所述的方法。