CN112882382B - 一种评价分类深度神经网络鲁棒性的几何方法 - Google Patents

一种评价分类深度神经网络鲁棒性的几何方法 Download PDF

Info

Publication number
CN112882382B
CN112882382B CN202110029509.9A CN202110029509A CN112882382B CN 112882382 B CN112882382 B CN 112882382B CN 202110029509 A CN202110029509 A CN 202110029509A CN 112882382 B CN112882382 B CN 112882382B
Authority
CN
China
Prior art keywords
attack
acts
algorithm
robustness
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110029509.9A
Other languages
English (en)
Other versions
CN112882382A (zh
Inventor
杨鑫
王洋
朴海音
何林远
孙阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110029509.9A priority Critical patent/CN112882382B/zh
Publication of CN112882382A publication Critical patent/CN112882382A/zh
Application granted granted Critical
Publication of CN112882382B publication Critical patent/CN112882382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域中的对抗鲁棒领域,提供一种评价分类深度神经网络鲁棒性的几何方法,步骤如下:步骤1、选择深度神经网络分类模型;步骤2、选择攻击算法;步骤3、构建ACTS算法;步骤4、形成整个ACTS评价算法框架并输出结果。本发明解决了由于对抗样本的存在所导致的分类鲁棒性评价困难问题。本发明提出了一种从几何角度去评价分类鲁棒性的方法ACTS,通过不同实验设置证明了ACTS的有效性,并通过对比实验证明了ACTS输出结果的精确性和高效性。对比实验中ACTS在所有不同实验设置中指标Overlap均获得了最佳性能,并且在平均用时的效率上领先CLEVER几个量级,具有很大的优势。

Description

一种评价分类深度神经网络鲁棒性的几何方法
技术领域
本发明属于计算机视觉领域中的对抗鲁棒(adversarial robustness)领域,尤其涉及基于图像分类的对抗攻击技术,针对每一张分类图片和特定的攻击算法,给出一个量化后的分数结果。
背景技术
图像分类任务主要是帮助计算机理解真实环境中包含物体的类别,根据用户定义的分类目标,确定环境中该目标的类别信息,这是计算机视觉中最基础的一个任务,也是几乎所有的基准模型都会进行比较的任务。随着基于深度神经网络的机器学习模型在不同的领域取得巨大的成功,在一些大型的公开数据集上,计算机的图像分类水准已经超过了人类。
然而,近期有研究发现一种被特意设计的样本,简称对抗样本(Adversarialexamples),可以很轻松地让以深度神经网络为代表的机器学习分类算法产生误判,但是人类不会对这类物体误识别,甚至不会认为这类物体被修改过。这就给现实生活中部署这类算法带来了潜在的危机。因此,有许多算法被提出用于生成和防御对抗样本。同时,也有研究人员在尝试从理论的角度分析对抗样本存在的原因,并且进一步理解深度神经网络的鲁棒性。当前,主要还是依靠一些特定的攻击算法在整个数据集上得到的分类准确率来评价一个深度神经网络的鲁棒性。然而,这种方法不是一个有效、可推广的图像鲁棒性度量方法。例如,给出两张图像,如果它们都没有被攻击算法攻击成功,那么它们就会被认为对攻击具有同样的鲁棒性。显然,其中一张可能更鲁棒,这种方法不能反映事实。最近,Weng等人提出了一个基于利普希兹约束的对抗样本下边界的度量方法,称为CLEVER(CrossLipschitz Extreme Value for nEtwork Robustness)。CLEVER是首个可以被应用到大型深度神经网络模型的鲁棒性评估指标,比如针对ImageNet的分类模型。但是该方法使用极值理论来估计利普希兹常数时,需要一个可处理的样本数量,这导致了昂贵的计算代价,从而难以应用到真实场景中。
因此本发明基于对现有大型深度神经网络鲁棒性度量方法CLEVER的调查与分析,针对深度神经网络分类器输出流形的几何特性,提出了一种新的度量方法ACTS(Adversarial Converging Time Score)。
发明内容
本发明的目的是在给定单张RGB图像和特定的攻击算法下,通过ACTS方法给出一个量化后的分数结果以度量其鲁棒性。本发明所述方法适用于不同攻击算法和分类神经网络。
本发明的技术方案为:
一种评价分类深度神经网络鲁棒性的几何方法,步骤如下:
步骤1选择深度神经网络分类模型
选择InceptionV3、ResNet50和VGG16模型,作为深度神经网络分类模型;
首先选择PyTorch提供的三种最先进的在ImageNet上预训练好的模型,即InceptionV3、ResNet50和VGG16模型。选择这三种模型的原因是它们的体系结构有很大的不同。InceptionV3有一个独特的Inception模块。ResNet50有残差块和跳跃连接,而VGG16是一种非常有效的前馈神经网络。
步骤2选择攻击算法
选取FGSM、BIM和PGD作为攻击算法;
在步骤1构建的深度神经网络模型上施加不同的攻击算法。本方法选取三种当前最先进的白盒攻击算法FGSM、BIM、PGD。这三种攻击算法都是基于梯度信息的攻击算法,攻击强度依次增强,FGSM为单步攻击算法,BIM和PGD是多步攻击算法。相关方法均使用其公开的代码或带有建议参数的设置,设置的都是无目标攻击。
步骤3构建ACTS算法
在步骤1选择的三种深度神经网络分类模型下,定义的超曲面都是非线性系统。因此,超曲面上不同点周围的局部区域具有不同的曲率,这导致不同的输入对相同的附加攻击扰动δx具有不同的灵敏度。攻击扰动的信息则可以通过步骤2选择的攻击算法得到。在这种洞察力的启发下,本发明提出了一种新的对抗性收敛时间评分(ACTS)作为一种特定于实例的对抗鲁棒性度量方法。提出ACTS的关键是将灵敏度映射到到达收敛曲线(即决策边界)所需的时间,其中决策边界为干净样本被转化为对抗样本的分类边界。
基于此,输入RGB图片的鲁棒性可以通过到达收敛点的攻击扰动的大小来反映。对于本发明所选择的分类器而言,收敛点实际上就是一个决策边界,但这在高维空间中是非常难估计的。因此,本发明通过损失域的角度来看收敛点,从这个角度看,输入RGB图片的鲁棒性可以通过干净样本转化为对抗样本在损失域所花时间的大小来衡量。
本发明提出ACTS算法用来估计这个时间,它的定义如下:
Figure BDA0002891451280000031
Figure BDA0002891451280000032
其中j和t分别代表非原始类别和原始类别,本发明在非原始类别的选取上只考虑除原始类别以外的前20个类别,yj和yt分别代表各自类别在损失域上的距离。而sj和st分别代表图片分类的类别在损失域中的移动速度,他们都被攻击扰动δx所驱动。在理想的情况下,st-sj的值应该总是正的。然而,在下列情况下,st-sj的值可能是一个负值:1)st减小,sj增加;2)st和sj都减小,但st下降得更快;3)st和sj都增加,但sj增加得更快。如果上述任何一种情况发生在输入上,这意味着不可能提供成功的攻击,因此特定输入的ACTS被设定为最高分C,其函数表示如公式(1)中的f(x)所示。本说明中C被设置成了100。由于ACTS表示用速度st-sj覆盖距离yj-yt的时间,所以具有较小ACTS的输入更容易受到对抗性攻击,反之亦然。本发明提出的ACTS的关键是估计移动速度。然而,输出超曲面上的局部邻域是非线性的,直接估计移动速度是非常具有挑战性的。为此,本发明提出了一种基于DJM(DataJacobian Matrix)的算法来估计所需的移动速度,它考虑了输出超曲面的非线性性质。
给定输入x,输出D的数据雅克比矩阵(DJM)的函数表示如公式(2):
Figure BDA0002891451280000041
在超曲面mj上,DJMj(x)定义了接近x点的点D的最佳线性近似。因此,D的输入域中的一个小的变化δx可以线性的映射到超曲面mj上的变化。基于此,它的函数表示如公式(3):
D(x+δx)=D(x)+DJM(x)×δx+δe, (3)
其中δe∈RK是近似误差。本质上,DJM(x)与在训练过程中通过深度神经网络反向传播的梯度非常相似。唯一的区别是DJM(x)相对于输入x而不是网络参数的差异。
基于公式(3),在输入x和攻击扰动δx下,将原始点yj移到超曲面mj上的点y′j的距离可被函数表示如公式(4):
y′j=Dj(x)+DJMj(x)×δx, (4)
对于单步攻击算法,δx可以被看作一个向量。这个向量的方向是固定的,只有向量的长度因成功的攻击而变化。基于此,移动速度sj估计的函数表示如公式(5):
Figure BDA0002891451280000051
值得提及的是,线性估计的精度随着δx的增加而降低。
对于多步攻击算法,每个步骤δx的向量都会在方向和长度上发生改变。与单步攻击相比,不同的方向显示了更多的局部邻域曲率,它增加了发现最佳移动速度的概率,以减少干净样本转换为对抗样本的时间。然而,多步攻击会增加估计移动速度的难过。为了解决这一问题,本发明提出了一个在所有方向上的平均移动速度sj,它的函数表示如公式(6):
Figure BDA0002891451280000052
其中N为多步攻击中使用的总步骤,δxq为第q步中添加的攻击扰动。
步骤4形成整个ACTS评价算法框架并输出结果
在步骤1和步骤2的基础上,根据步骤3的构建算法,形成整个评价算法框架ACTS。根据每一张待分类的输入图片,通过ACTS算法框架,给出一个量化后的分数结果作为输出。
本发明的有益效果:
(1)鲁棒性评价结果与效率
本发明解决了由于对抗样本的存在所导致的分类鲁棒性评价困难问题。本发明提出了一种从几何角度去评价分类鲁棒性的方法ACTS,通过不同实验设置证明了ACTS的有效性,并通过对比实验证明了ACTS输出结果的精确性和高效性。对比实验中ACTS在所有不同实验设置中指标Overlap均获得了最佳性能,并且在平均用时的效率上领先CLEVER几个量级,具有很大的优势。
(2)适用性更广泛
本发明适用于不同的分类网络(InceptionV3、ResNet50和VGG16等)和攻击算法(FGSM、BIM和PGD等),实验结果也证明了ACTS在不同设置下的有效性和适用性。
附图说明
图1为本发明在3D超曲面上的观察示例。
图2为本发明ACTS算法的二维几何意义分析。
具体实施方式
下面结合附图和技术方案,进一步说明本发明的具体实施方式。
图1为本发明在3D超曲面上举的例子,不同的初始点在相同的对抗扰动δx作用下,在超曲面上的变化大小有很大的不同。正是在这种洞察力的启发下,本发明提出了一种新的对抗性收敛时间评分(ACTS)作为一种特定于实例的对抗鲁棒性度量。
图2是ACTS算法在二维平面的直观展示。输入的鲁棒性可以通过到达收敛点所需的对抗扰动δx的大小来反映。然而收敛点实际上是一个决策边界,尤其在高维空间中,这是非常难估计的。因此,本发明从损失域的角度来看收敛点。从这个角度看,输入的鲁棒性就可以通过速度st-sj覆盖距离yj-yt的时间来反映。
本发明使用ILSVRC2012数据集的验证集做测试,该验证集包含50000张不同类别的图像,一共1000个类别,每种类别包含50张图像。在预训练分类模型的选取上,本发明选取了InceptionV3、ResNet50和VGG16模型。所有模型相关参数的设置上都是按照默认最优设置。在攻击算法的选取上,本发明分别选取了单步攻击算法FGSM和多步攻击算法BIM、PGD。
在选定分类网络和攻击算法的基础上,ACTS算法主要包含两个子任务,即距离yj-yt的计算估计和速度st-sj的计算估计。本发明使用DJMj(x)作为在输入x加上对抗扰动δx后在超曲面mj上的最佳线性近似。因此可以得到距离yj-yt的计算估计。根据对抗攻击算法得到δx向量的单位方向向量,从而去估计移动速度st-sj。最后根据距离yj-yt和速度st-sj去计算速度st-sj覆盖距离yj-yt的时间作为ACTS的输出结果来评价分类鲁棒性。随机梯度下降被用于优化整个网络,其动量值为0.9,权重衰减为1e-4。学习率设置为1e-2。使用了NVIDIATesla V100显卡测试网络。本发明在具体实施时选取的对比方法是CLEVER,CLEVER方法是通过极值理论去估计分类网络的最小下界当做鲁棒性分数结果,为了进行公平的比较,CLEVER方法使用其公开的代码或带有建议参数的设置,并且均使用相同的预训练网络和攻击算法,在相同的测试集上进行测试。从最终的实验结果来看,本发明ACTS方法在所有不同实验设置中指标Overlap均获得了最佳性能。Overlap指标的百分比越小说明该方法的性能越好,具体实验结果如下表1所示:
Figure BDA0002891451280000071
Figure BDA0002891451280000081
表1

Claims (1)

1.一种评价分类深度神经网络鲁棒性的几何方法,其特征在于,步骤如下:
步骤1 选择深度神经网络分类模型
选择InceptionV3、ResNet50和VGG16模型,作为深度神经网络分类模型;
步骤2 选择攻击算法
选取FGSM、BIM和PGD作为攻击算法;
步骤3 构建ACTS算法
在步骤1选择的三种深度神经网络分类模型下,定义的超曲面都是非线性系统;因此,超曲面上不同点周围的局部区域具有不同的曲率,导致不同的输入对相同的附加攻击扰动δx具有不同的灵敏度;攻击扰动的信息通过步骤2选择的攻击算法得到;本方法作为一种对抗鲁棒性度量方法;ACTS的关键是将灵敏度映射到到达收敛曲线即决策边界所需的时间,其中决策边界为干净样本被转化为对抗样本的分类边界;
基于此,输入RGB图片的鲁棒性通过到达收敛点的攻击扰动的大小来反映;对于本方法所选择的分类器,收敛点实际上就是一个决策边界;因此,通过损失域的角度来看收敛点,从这个角度看,输入RGB图片的鲁棒性通过干净样本转化为对抗样本在损失域所花时间的大小来衡量;
ACTS算法用来估计这个时间,定义如下:
Figure FDA0003445988510000011
Figure FDA0003445988510000012
其中,j和t分别代表非原始类别和原始类别,在非原始类别的选取上只考虑除原始类别以外的前20个类别,yj和yt分别代表各自类别在损失域上的距离;sj和st分别代表图片分类的类别在损失域中的移动速度,被攻击扰动δx所驱动;在理想的情况下,st-sj的值总是正的;然而,在下列情况下,st-sj的值是一个负值:1)st减小,sj增加;2)st和sj都减小,但st下降得更快;3)st和sj都增加,但sj增加得更快;如果上述任何一种情况发生在输入上,这意味着不可能提供成功的攻击,因此特定输入的ACTS被设定为最高分C,其函数表示如公式(1)中的f(x)所示;C被设置为100;
由于ACTS表示用速度st-sj覆盖距离yj-yt的时间,所以具有较小ACTS的输入更容易受到对抗性攻击,反之亦然;然而,输出超曲面上的局部邻域是非线性的;为此,提出一种基于DJM的算法来估计所需的移动速度,考虑了输出超曲面的非线性性质;给定输入x,输出D的数据雅克比矩阵的函数表示如公式(2):
Figure FDA0003445988510000021
在超曲面mj上,DJMj(x)定义了接近x点的点D的最佳线性近似;因此,D的输入域中的一个小的变化δx可线性的映射到超曲面mj上的变化;基于此,它的函数表示如公式(3):
D(x+δx)=D(x)+DJM(x)×δx+δe (3)
其中,δe∈RK是近似误差;
基于公式(3),在输入x和攻击扰动δx下,将原始点yj移到超曲面mj上的点y′j的距离被函数表示如公式(4):
y′j=Dj(x)+DJMj(x)×δx (4)
对于单步攻击算法,δx被看作一个向量,这个向量的方向是固定的,只有向量的长度因成功的攻击而变化;基于此,移动速度sj估计的函数表示如公式(5):
Figure FDA0003445988510000031
线性估计的精度随着δx的增加而降低;
对于多步攻击算法,每个步骤δx的向量都会在方向和长度上发生改变;与单步攻击相比,不同的方向显示了更多的局部邻域曲率,增加了发现最佳移动速度的概率,以减少干净样本转换为对抗样本的时间;然而,多步攻击会增加估计移动速度的难度;为了解决这一问题,提出一个在所有方向上的平均移动速度sj,它的函数表示如公式(6):
Figure FDA0003445988510000032
其中N为多步攻击中使用的总步骤,δxq为第q步中添加的攻击扰动;
步骤4形成整个ACTS评价算法框架并输出结果
在步骤1和步骤2的基础上,根据步骤3的构建算法,形成整个评价算法框架ACTS;根据每一张待分类的输入图片,通过ACTS算法框架,给出一个量化后的分数结果作为输出。
CN202110029509.9A 2021-01-11 2021-01-11 一种评价分类深度神经网络鲁棒性的几何方法 Active CN112882382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110029509.9A CN112882382B (zh) 2021-01-11 2021-01-11 一种评价分类深度神经网络鲁棒性的几何方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110029509.9A CN112882382B (zh) 2021-01-11 2021-01-11 一种评价分类深度神经网络鲁棒性的几何方法

Publications (2)

Publication Number Publication Date
CN112882382A CN112882382A (zh) 2021-06-01
CN112882382B true CN112882382B (zh) 2022-03-29

Family

ID=76047724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110029509.9A Active CN112882382B (zh) 2021-01-11 2021-01-11 一种评价分类深度神经网络鲁棒性的几何方法

Country Status (1)

Country Link
CN (1) CN112882382B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821227B (zh) * 2022-04-12 2024-03-22 重庆邮电大学 一种深度神经网络对抗样本评分方法
CN115081643B (zh) * 2022-07-20 2022-11-08 北京瑞莱智慧科技有限公司 对抗样本生成方法、相关装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009628A (zh) * 2017-10-30 2018-05-08 杭州电子科技大学 一种基于生成对抗网络的异常检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992931B (zh) * 2019-02-27 2023-05-30 天津大学 一种基于噪声压缩的可迁移的非黑盒攻击对抗方法
CN110473142B (zh) * 2019-05-22 2022-09-27 南京理工大学 基于深度学习的单幅图像超分辨率重建方法
CN115081618A (zh) * 2019-12-31 2022-09-20 北京航空航天大学 一种提升深度神经网络模型鲁棒性的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009628A (zh) * 2017-10-30 2018-05-08 杭州电子科技大学 一种基于生成对抗网络的异常检测方法

Also Published As

Publication number Publication date
CN112882382A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN109948658B (zh) 面向特征图注意力机制的对抗攻击防御方法及应用
Zhang et al. Image denoising method based on a deep convolution neural network
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN107392312B (zh) 一种基于dcgan性能的动态调整方法
CN112882382B (zh) 一种评价分类深度神经网络鲁棒性的几何方法
CN113378988B (zh) 基于粒子群算法的深度学习系统鲁棒性增强方法及装置
CN111325324A (zh) 一种基于二阶方法的深度学习对抗样本生成方法
CN112200380B (zh) 优化风险检测模型的方法及装置
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN111091147B (zh) 一种图像分类方法、装置及设备
Sheng et al. Image splicing detection based on Markov features in discrete octonion cosine transform domain
WO2020109774A1 (en) Verification of perception systems
CN114399630A (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
Yong et al. Learning-based algorithm selection for image segmentation
Yong et al. Complex number‐based image quality assessment using singular value decomposition
Jiang et al. Embed and Emulate: Learning to estimate parameters of dynamical systems with uncertainty quantification
Sun et al. Instance-level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space
CN114693973A (zh) 一种基于Transformer模型的黑盒对抗样本生成方法
CN114677556A (zh) 神经网络模型的对抗样本生成方法及相关设备
CN113378985A (zh) 一种基于逐层相关性传播的对抗样本检测方法和装置
CN113947579A (zh) 一种针对图像目标探测神经网络的对抗样本检测方法
Qu et al. A Certified Radius-Guided Attack Framework to Image Segmentation Models
CN113222480A (zh) 对抗样本生成模型的训练方法及装置
Asha et al. Evaluation of adversarial machine learning tools for securing AI systems
Bier Copy of Sensitivity Analysis Techniques for System Dynamics Models of Human Behavior.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant