CN112085170A

CN112085170A - 一种图像类对抗样本的差异性检测方法

Info

Publication number: CN112085170A
Application number: CN202010970193.9A
Authority: CN
Inventors: 王曙燕; 候则昱; 孙家泽; 王小银
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-15

Abstract

本发明涉及一种图像类对抗样本的差异性检测方法，属于人工智能安全领域。本发明内容包括：搭建不同训练周期下的高精度残差网络模型ResNet‑50作为对抗样本攻击以及差异性检测系统模型；使用多种类对抗攻击方法分别攻击ResNet‑50模型生成对抗样本组作为输入样本数据；构建对抗样本差异性检测系统，将上述生成的各组对抗样本进行检测，本发明的检测系统设计包含置信度、感知度及抗干扰度三个子检测系统，其中共七项检测方法用来检测各组对抗样本间存在的差异化特性。相较于传统的对抗样本检测方法，本发明将多类攻击样本间检测全面化、具体化，提升对抗样本检测的多样性。

Description

一种图像类对抗样本的差异性检测方法

技术领域

本发明涉及机器学习的人工智能安全领域，具体地，涉及一种深度学习系统模型面临多类对抗攻击的对抗样本差异性检测方法。

背景技术

深度神经网络如今在许多深度学习关键系统中如人脸识别、智能驾驶和恶意软件检测等方面的应用广泛。然而神经网络模型被证明是容易受到对抗样本攻击的，即在原始数据集中添加肉眼不可见的微小扰动，使得高精度的神经网络模型以较高的置信度得出与正确分类相悖的分类结果。

自Szegedy C等人提出的对抗样本概念以来，软件工业界的专家学者尝试用传统的软件测试技术通过提高神经网络模型的激活神经元覆盖率来检测对抗样本攻击，但由于神经网络模型自身的高维线性特性原因，产生对抗样本的方法也是多种多样的，从而通过调整神经元覆盖率检测对抗样本攻击的方式是受限的。对于对抗样本的生成以及检测一直是专家学者们在人工智能安全方面共同关注的主要问题。Ian J.Goodfellow与JonathonShlens等人提出了针对于梯度的FGSM(快速梯度符号法)对抗攻击方法，该方法是针对模型训练时正确标签类的反方向梯度进行迭代，从而诱导模型对正确分类的置信度越来越小导致分类错误，FGSM对抗样本攻击被证明是最高效的对样攻击。此外，Alexey Kurakin等还提出了通过变换迭代步长的快速梯度符号法(I-FGSM),其基本思想是通过多次步长的迭代增大损失函数的处理，进一步的优化对抗样本的攻击效率。之后Carlini&Wagner提出了基于目标函数以及分类置信度的对抗样本攻击方法，这种对样攻击是针对于模型训练的目标函数进行的，将正确分类的置信度区间作为攻击范围，该方法对于蒸馏模型的攻击也被证明是有效的，属于定向攻击的一种。与此同时，如L-BFGS对抗样本攻击、基于雅可比的显著性地图攻击(JSMA)等也被证明是复杂且高效的对抗类攻击。在深度模型受到多种对抗样本攻击时，对于对抗样本间的检测时复杂且困难的，传统的对抗样本检测方法仅针对于各类对抗样本的误分类率的高低来评价样本间的差异，缺乏样本检测的多元化，检测的全面性以及检测效率也存在不足的情况。

发明内容

为解决上述问题，本发明提供一种图像类对抗样本的差异性检测方法，用于解决在多种类对抗样本的差异性检测时面临的检测不充分、检测效率低以及检测样本种类受限等问题。

本发明的技术方案如下：

(1)训练残差网络ResNet-50网络模型；

具体实施过程为：

首先搭建未经训练的ResNet-50网络模型，调整训练参数并加入批标准化处理；

输入原始样本类型；

设定模型训练周期为10、25、50，判断通过原始样本在不同周期下模型是否训练完毕，若已达到精度要求，分别保存模型；

具体地，将原始训练样本分别训练不同周期下三组ResNet-50网络模型，并分别达到对原始样本测试集的分类精度要求，若模型1(M1)、模型2(M2)、模型3(M3)均达到要求，则分别视为可用，准备下一步对抗样本生成。

(2)多类目标对抗样本生成

选择对抗攻击方法，一类为高效的针对于梯度的FGSM攻击方法，另一类为针对于目标函数C&W定向类攻击方法；

将训练完毕的三组不同训练周期的ResNet-50模型进行预加载；

将FGSM攻击与C&W攻击作用于M1模型生成对抗样本，对抗样本产生时按照真实标签类别计数分类，生成的对抗样本均为攻击成功的对抗样本，统计样本总数记为G1组；

将FGSM攻击与C&W攻击继续作用于M2模型与M3模型，统计对抗样本总数依次记为G2组与G3组；

将每组的各类对抗样本进行筛查，考虑样本均衡；

将得到的对抗样本规范化，使其范围在像素点灰度范围之内(0-255)，得到最终的不同分类标签下各类攻击的图像对抗样本。

(3)对抗样本的差异性检测

将图像类对抗样本的差异性检测指标分细为三大类七项检测，对抗样本的置信度检测分为对抗类的平均置信度以及真实类的平均置信度，感知度的检测分为对抗样本的平均L_p失真度以及SSIM量化的结构相似度，而在样本的抗干扰度上设计为噪声容忍度检测、抗高斯模糊检测与抗图像压缩干扰度检测；

将(2)中的G1、G2、G3这三组对抗样本组依次提取输入检测系统；

对每组中各类对抗样本按统一的先后顺序按照本发明的检测项逐一进行检测；

具体地，若G1对抗样本组进入检测系统，选择其中一类对抗样本首先输入至置信度检测子系统，对其进行对抗类的平均置信度以及真实类的平均置信度两项检测；之后将该类对抗样本输入感知度检测子系统，进行包含平均L_p失真度以及SSIM量化的结构相似度的两项差异性检测；后续再将其输入抗干扰度检测子系统，包含噪声容忍度检测、抗高斯模糊检测与抗图像压缩干扰度检测；

将G1、G2、G3每组各类对抗样本的检测数据信息进行组间统计，每组的统计结果依次定义为R1、R2、R3；

比较验证并观察R1、R2、R3中各类对抗样本的检测数据结果，统计具有差异性的检测指标；

将R1、R2、R3进行纵向比对，验证对抗样本间差异性的一致性；

规范检测数据，得出图像类对抗样本的差异性检测结果。

上述技术方案有如下优势：

本发明提供的对抗样本差异性检测方法是一套具体且高效的对抗样本差异性检测方法，本发明中的检测指标设计分别从置信度、感知度、抗干扰度多个角度去检测不同对抗攻击下对抗样本间的具体差异化特性，相比较以往仅根据误分类准确率的检测方法，该方法大大增加了检测的全面性，检测饱和度得到了保障，此方法可以投入到模型鲁棒性检测中的对抗样本检测环节，全面且高效。同时本发明的差异性检测方法不受对抗攻击方式的限制，无论是黑盒攻击、白盒攻击的对抗样本检测还是定向攻击或非定向攻击产生的对抗样本检测，本方法均可适用，适用性得到了提升。

附图说明

附图仅为更加充分的说明本发明的流程，并不构成对本发明范围的限制。

图1为本发明中神经网络模型训练流程图；

图2为本发明中生成多类对抗样本的流程图。

图3为本发明中对抗样本的差异性检测指标树状流程图。

具体实施方案

为了使本领域相关人员能够更好的理解本方法的工作流程，下面将结合附图对本方法做出系统、完整地阐述。其中，众所周知的简单模块构成、运行方式没有明示或详细说明。

图1绘示了本发明的开始阶段模型选择以及训练工作，其主要功能包括：

步骤S6，搭建预训练神经网络模型，引入残差单元，调节批标准化参数μ以及模型训练参数θ；

步骤S7，输入原始训练样本，即干净样本；

步骤S8，模型训练，依次设定模型训练周期E1为10个周期(epoch)、E2为25个周期(epoch)、E3为50个周期(epoch)，记录不同训练周期下原始类别Lab；规定模型训练精度要求；

步骤S9，判断E1、E2、E3周期下是否达到模型训练准确率要求，若未达到则调整批标准化参数μ以及模型训练参数θ继续进行步骤S8，将训练完毕后的三组模型保存作为对抗样本生成以及差异性检测的深度系统模型，依次为记为M1、M2、M3；

图2绘示了本发明的多类对抗攻击作用于模型生成多类对抗样本的工作，以下为主要功能描述：

步骤S16，预加载训练完毕的神经网络模型M；

步骤S17，输入不同方式的两类高效的对抗攻击Attack1、Attack2，调节对抗攻击参数，分别攻击模型M；

步骤S18，生成对抗样本(与原始分类类别标签Lab相悖的样本)，统计个标签下的对抗样本数量；

具体地，步骤S17、S18攻击生成各类对抗样本组的过程：

将Attack1攻击作用于系统中，针对于M1模型生成不同Lab下的对抗样本组；

将Attack2对抗攻击作用于M1模型生成不同Lab下的对抗样本组；

将上述两类对抗攻击作用于M1模型下生成的对抗样本组统一记为G1组对抗样本；

同样地，对于M2、M3模型也进行上述操作，对抗样本组记作G2、G3；

步骤S19，根据样本均衡原理调节各标签Lab下的对抗样本数量；

步骤S20，保存对抗样本组G1、G2、G3，按各标签Lab进行划分；

在上述实施例中，采用构建残差神经网络作为对抗样本生成的预训练模型，匹配现阶段深度学习工业化生产对于模型系统的要求，可以高质量的提升模型训练收敛速度，达到模型训练精度要求。训练不同周期M1、M2、M3模型，其分类精度差异均在-acc与acc合理范围之内，在进行差异化攻击生成对抗样本时依次加载调用，最终获取不同周期下的对抗样本组G1、G2、G3。此操作为本发明接下来进行的对抗样本差异性检测提供了充分性与延展性基础。

图3绘示了对抗样本的差异性检测的过程，具体如下：

步骤S31，预加载模型M1、M2、M3，作为对抗样本差异性检测的系统模型；

步骤S32，输入对抗样本组G1、G2、G3的各类对抗样本以及各组标签Lab下的样本数量Num1、Num2、Num3作为预加载输入数据；；

步骤S33，构建对抗样本差异性检测系统的各项检测方法；

具体的，步骤S33对抗样本差异性检测系统构建过程如下：

将整体检测构建为3组子系统，如样本置信度的差异性检测子系统Det1、感知度检测子系统Det2、抗干扰度检测子系统Det3；

将Det1检测为样本错误类的置信度指标Acac以及真实类的置信度指标Actc；

将Det2中的检测分为样本的平均L_p失真率以及平均结构相似度SSIM；

同样的Det3的检测分为噪声容忍度NTE、抗高斯模糊干扰度RGB以及图像压缩抗干扰度RIC；

将Det1+Det2+Det3作为每一对抗样本组的差异性检测范围，对于真实检测的结果记为Res组。

步骤S34，输入对抗样本组G1、G2、G3在样本差异性检测系统中依次进行检测，对于每一组对抗样本间的差异性检测数据进行各项标准化处理，各组检测结果依次记为Res1、Res2、Res3(Res中包含每一组对抗样本间Det1+Det2+Det3差异性检测的标准化结果)；

根据统计学的原理对各Res结果进行差异性分析，得出对抗样本的差异性检测结论。

在上述的实施例中，本发明针对的是对抗样本的差异性全面检测方法，假设有一对抗样本组G，其中包含多种类对抗样本，这些对抗样本(Advs)均可使模型做与真实标签Lab相悖的分类结果，那么仅从该组样本作用于神经网络模型的误分类率(MisAcc)上不能检测对抗样本间内在的特性化差异，从而无法定位对抗样本的攻击方法种类，本发明中步骤S33的设置将对抗样本的差异性检测进行了细化展开，目的是使样本差异性检测的充分性以及多样性得到了提升，例如一类Advs的Det1检测优于其他类，但Det2、Det3的表现却不足，另一类Advs的Det2及Det3检测却优势明显，通过比对即得出结果。

下面通过实验结果分析，来说明本发明的优势和可行性。

在具体实验方面，以残差神经网络ResNet-50作为目标模型，即对抗样本攻击模型M，原始样本训练集为0-9手写数字集，对模型M进行10epoch、25epoch、50epoch三组训练后得到的模型M分类精度依次为98.86％、99.01％、99.36％。对抗攻击选取FGSM攻击以及C&W攻击作用于三组M生成对抗样本，统计对抗样本组中10个Lab下的各类对抗样本数量。具体的，在对抗攻击生成对抗样本时，考虑样本均衡原理，确保对抗样本攻击成功的同时对个标签下的对抗样本进行统计控制，G1组各标签Lab下两类对抗样本总数为3940AEs、4564AEs(前者为FGSM，后者为C&W)，G2为6108AEs、6947AEs，G3则为6588AEs、7012AEs。

接下来根据本发明上文详细步骤提到差异性检测系统，对各组对抗样本进行实验检测，评价其差异化特性指标，如下表1为误分类置信度的差异行对比：

表1对抗样本误分类置信度差异性对比

对于对抗样本感知度的差异性实验检测结果对比如表2所示：

表2对抗样本感知度差异性对比

同样地，对于对抗样本抗干扰度的差异性实验检测结果对比如表3所示：

表3对抗样本抗干扰度差异性对比

其中从表1、2、3的数据对比可知，两类均可使神经网路模型做出误判的对抗样本集在各项指标检测中差异性明显，在感知度与抗干扰度表现良好的对抗样本类反而在置信度上的检测表现低于另外一类对抗样本，反之亦然。由所有标准化实验数据比较统计可知：本发明在对抗样本的差异性检测上相较传统的方法具有全面的提升，传统方法仅就误分类率上进行差异化对比，而本发明的方法通过三大类多组的指标检测，提升了对抗样本间差异性检测的全面性及充分性，此外，从神经网络模型防御角度而言，近一步的提升了对抗样本攻击的检测效率。

由以上可知，本发明所提出的一种一种图像类对抗样本的差异性检测方法，至少具有以下优点：

1)相较于传统的对抗样本类差异性检测方式，本发明具有创新性的将多种对抗样本间的差异性检测全面化，通过多方面多点的评估对抗样本间的差异性，提高检测质量。

2)本发明在对抗样本的差异性检测上不受对抗样本种类的限制，换句话说，从神经网络模型检测对抗样本的角度而言，本发明的方法在检测中不会改变对抗攻击的参数，仅针对于对抗样本，也不会涉及原始模型的参数调整，提升了检测效率。

Claims

1.一种图像类对抗样本的差异性检测方法，其特征包括：

A.搭建ResNet-50残差神经网络模型结构，训练不同周期下的ResNet-50模型作为多类对抗样本攻击以及差异化检测模型，具体地：

a1.搭建残差神经网络ResNet-50网络模型，构建残差单元，调节模型训练参数；

a2.输入模型训练的原始样本数据；

a3.输入原始样本训练ResNet-50模型，训练分为三组，第一组为10epoch训练周期，第二组为25epoch训练周期，第三组为50epoch训练周期，判断训练完毕后的各组模型是否达到分类准确率要求，若未达到则调整批标准化参数μ以及模型训练参数θ，重新训练，直到达到准确率要求，其中，得到的各组模型训练精度均接近饱和且根据训练周期依次由低到高；

a4.保存模型文件依次为M1、M2、M3作为对抗样本生成以及差异性检测的深度系统模型；

B.根据图像对抗样本的需求，利用不同对抗攻击作用于系统模型，生成对抗样本组，

具体地：

b1.预加载模型M1、M2、M3；

b2.输入对抗攻击，其中Attack1对抗攻击为基于梯度的非定向FGSM攻击，Attack2为基于目标优化函数的定向类C&W攻击；

b3.调用输入深度系统模型M1、M2、M3，调节Attack1与Attack2的对抗攻击参数，依次作用于M1、M2、M3，生成对抗样本组，对于M1系统模型生成的对抗样本组记为G1，同样M2、M3分别记为G2、G3；

b4.根据样本均衡原理，调节对抗样本组G1、G2、G3中各标签Lab下的对抗样本数量并进行统计，作为样本检测的输入数据；

b5.保存对抗样本组，按各标签Lab进行划分；

C.构建对抗样本间的差异性检测系统，对各组对抗样本进行差异性检测，具体地：

c1.加载模型M1、M2、M3作为样本差异性检测的系统模型；

c2.将对抗样本组G1、G2、G3以及各组标签Lab下的样本数量Num1、Num2、Num3作为预加载输入数据；

c3.构建对抗样本差异性检测系统并加载各项检测方法，检测系统对样本共包含三个方面的差异性能检测，如样本置信度差异性检测Det1、感知度检测Det2、抗干扰度检测Det3，具体地，Det1检测为样本对抗类的置信度指标Acac以及真实类的置信度指标Actc；Det2检测分为样本的平均L_p失真率以及平均结构相似度SSIM检测，其中，平均L_p失真率设置p＝2的欧式距离作为每个样本像素点0-255之间的灰度距离参数；Det3检测则包含噪声容忍度NTE度量检测、抗高斯模糊干扰度RGB以及图像压缩抗干扰度RIC检测；

c4.输入对抗样本组G1、G2、G3在样本差异性检测系统中依次进行各项性能指标检测，对于每一组对抗样本间的各项差异性检测结果进行标准化处理，每一组检测结果数据依次记为Res1、Res2、Res3，其中，对于得到的Res包含每一组对抗样本间Det1+Det2+Det3差异性检测的标准化结果。