CN110021049B

CN110021049B - 一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法

Info

Publication number: CN110021049B
Application number: CN201910249635.8A
Authority: CN
Inventors: 王志波; 郑思言; 宋梦凯; 王骞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-08-30
Anticipated expiration: 2039-03-29
Also published as: CN110021049A

Abstract

本发明公开了一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法,相较于以往用于攻击神经网络的对抗性图像生成方法，本方法考虑生成样本的不可见性，通过多尺度区域复杂度融合搜索图像的复杂区域，并自适应地在复杂区域加入生成的噪声，实现高隐蔽性的对抗性图像攻击。此外，本方法具有高扩展性，可以与现有的对抗性图像攻击方法相结合，在不影响攻击成功率的条件下，生成面向深度神经网络的不可见性更高的对抗性图像。

Description

一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法

技术领域

本发明涉及一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，属于人工智能安全领域。

背景技术

近年来，深度学习技术发展迅速，深度神经网络在各种领域展现出接近甚至超过人类的表现，如：图像分类、目标检测、自然语言处理等。因此，深度神经网络被广泛地用于解决各类实际任务，如无人驾驶、语音识别、智能监控等。然而近期研究表明深度神经网络对于特定的攻击十分脆弱：将输入图像加上精心构建的人类难以察觉的噪声，深度神经网络会输出错误甚至攻击者期望的结果，这类修改后的输入称之为对抗性图像。这类对抗性图像对于深度神经网络具有极高的攻击成功率，且具有可转移性：通过特定的网络生成的对抗性图像可以攻击一系列的网络结构。这类对抗性图像攻击给基于深度学习技术的安全敏感应用带来了巨大的威胁。

然而，通过对现有对抗性图像算法进行研究，我们发现生成的对抗性图像并没有达到高隐蔽性：观察者可以在图像上找到攻击者添加的噪声。这会造成对抗样本与原始图像有较大的差异，从而引起观察者的怀疑，认为图像被攻击者蓄意修改。由于一张图像中不同的区域复杂程度不同，而现有的攻击算法在生成噪声的时候对每一个像素采取同样的策略，这会导致在复杂程度相对低的区域加上了过量噪声，使得生成的对抗性图像容易被人眼所分辨。低隐蔽性的对抗性图像虽然能够达到高攻击成功率，但很容易被受过训练的观察者所察觉，并及时阻止攻击的发动。

本发明认为现有的对抗性图像生成方法仅仅满足对深度神经网络的高攻击成功率，在不可见性上表现很差，使得对抗性图像引起观察者的怀疑，无法实施成功的攻击，因此急需一种高隐蔽性的对抗性图像生成方法。

发明内容

本发明的目的是克服现有技术的不足，提供一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法。

面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法包含如下步骤：

1)给定一个图像分类器，输入原始图像，该分类器输出图像的类别以及分类到每一个类别的概率。攻击者能够访问目标模型的参数和权重，并设定给定图像的目标类别。

2)考虑图像对比度、能量、同质性、边缘密度和压缩比，提出衡量图像区域复杂度的函数。通过该函数来确定给定图像不同尺度下图像复杂的区域。

3)为了确定给定图像加噪声区域，提出细粒度图像复杂区域搜索算法，将不同尺度下的复杂区域进行融合，得到最终的满足添加噪声不被人眼察觉的复杂区域。

4)与现有的对抗性图像生成算法结合，仅在确定的复杂区域对图像进行修改，得到基于空间约束的并对抗性图像生成方法，生成高隐蔽性对抗性图像，使目标模型分类到目标类别。

所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，不同于现有对抗性图像生成方法，通过对给定图像的像素空间进行约束，自适应地在图像复杂区域加上噪声，使得这些精细构建的噪声被很好地被掩盖。将选择的复杂区域作为限制，与现有对抗性图像生成方法相结合，通过优化目标函数生成噪声使目标模型分类对抗性图像到目标类别的概率最大，从而达到攻击者的目标，使分类器输出攻击者设计的目标类别。由于噪声加到了图像复杂区域，会对观察者不可见，所以能够使发动的攻击不被检测到和被观察者阻止。

所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，目标图像分类器可以表示为f(x,θ)＝y，其中x为模型输入的图像，θ为模型参数，y为模型输出，即对输入图像x的类别预测。模型输出倒数第二层被称作logits层，输出原始图像对应的每种类别的置信度。而最后一层称作softmax层，输出logits层结果归一化后的结果,即分类到每种类别的概率。分类器最后的输出y即为softmax层的最大值，表示为：

f((x,θ))＝max(softmax(logits(x)))＝y

攻击者以一个训练好的基于神经网络图像分类器为攻击目标，对目标模型具有白盒访问权限，即能够访问目标模型的参数和权重，并对给定图像设定目标类别，生成高隐蔽性对抗性图像使得目标模型将其分类到目标类别。

所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，攻击者首先计算给定图像的不同尺度下的区域复杂度，计算图像的对比度、能量、同质性、边缘密度和压缩比，用M₁～M₅来表示。将各项指标进行线性组合，得到图像区域复杂度函数：

其中g为图像划分的一个单位区域，ω_i为对应指标M_i的系数，n取值为5。我们选取对比度、能量、同质性、边缘密度以及压缩比5个图像复杂度指标，分别计算在大尺度下和小尺度下的图像区域复杂度。对比度通过计算每个像素与相邻像素之间的对比度总和得到；能量为图像灰度共生矩阵中元素平方的总和；同质性由图像灰度共生矩阵中元素分布的接近程度刻画；边缘密度通过canny边缘算子计算平均边缘密度；压缩比为压缩的JPEG图像与未压缩图像的比率。在小尺度下的权值向量

在大尺度下的权值向量

所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，提出细粒度图像复杂区域搜索算法，选取不同尺度下的复杂度高的区域进行融合，得到原始图像对噪声隐蔽性高的区域。首先选取小尺度P₀下的复杂区域集合：

其中G₀为按复杂度从高到低排列的小尺度P₀图像区域集合，η₀为小尺度P₀下选择的复杂区域数目，g_k为选取的复杂区域集合。同样的，对于大尺度P_i下的复杂区域集合的选取如下：

其中G_i为按复杂度从高到低排列的尺度P_i图像区域集合，η_i为小尺度P₀下选择的复杂区域数目，g_k为选取的复杂区域集合。将每一个大尺度P_i下的复杂区域集合与小尺度P₀下的复杂区域进行融合：

其中

表示每一个选择小尺度区域g和大尺度区域集合

重合的面积，当该面积大于g的一半时，将g融合到

中。如此迭代直到

不再变化。最后取与小尺度区域融合后的所有大尺度下的复杂区域的交集作为最终原始图像的复杂区域：

其中

为融合后的大尺度P_i下的复杂区域，n为选取的大尺度数量，求得的R(x)即为图像可加噪的区域。

所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，考虑图像可加噪的区域，得到如下生成对抗性图像的优化问题：

min‖δ·Mask‖_p+c·loss(x+δ,t)

这里δ是所求的噪声，Mask是一个与图像相同大小的矩阵，由图像可加噪的区域求得：

这里x_i,j为图像坐标为(i，j)的像素点。loss(x+δ,t)为目标分类器的损失函数，t为攻击者所设的目标类别。该方法可以与现有的对抗性图像生成算法相结合，来生成具有高隐蔽性的对抗性图像。基于空间约束的FGSM对抗性图像生成算法可以表示为：

其中ε表示步长。同样的，基于空间约束的BIM对抗性图像生成算法可以表示为：

其中clip_x,ε(·)为裁剪函数，保证图像的像素的值在有效范围之内。对于基于空间约束的CW对抗性图像生成算法，可以表示为：

其中

在优化式中优化ω来保证图像各个像素的值在有效范围之内。

本发明和现有技术相比，具有的有益效果是：1、与现存的对抗性图像生成算法不同，本发明考虑生成样本的不可见性，基于空间约束地在图像复杂区域加入生成的噪声，实现高隐蔽性的对抗性图像攻击。2、本发明提出衡量不同尺度下图像划分的区域复杂度计算方法，能够得到不同尺度下的图像复杂区域。3、为了得到图像能够掩盖噪声的区域，本发明提出多尺度复杂区域融合算法，将不同尺度下求得的复杂区域进行融合。4、本发明具有高扩展性，可以与现存的各种对抗性图像生成算法结合，得到具有高隐蔽性且攻击能力强的对抗性图像。

附图说明

图1为基于空间约束的高隐蔽性对抗性图像攻击框架。

图2为三种基于空间约束的对抗性图像生成算法的攻击示意图。

图3为细粒度图像复杂区域搜索算法。

具体实施方式

f((x,θ))＝max(softmax(logits(x)))＝y

在大尺度下的权值向量

其中

表示每一个选择小尺度区域g和大尺度区域集合

重合的面积，当该面积大于g的一半时，将g融合到

中。如此迭代直到

其中

min‖δ·Mask‖_p+c·loss(x+δ,t)

这里x_i,j为图像坐标为(i,j)的像素点。loss(x+δ,t)为目标分类器的损失函数，t为攻击者所设的目标类别。该方法可以与现有的对抗性图像生成算法相结合，来生成具有高隐蔽性的对抗性图像。基于空间约束的FGSM对抗性图像生成算法可以表示为：

其中

实施例

1)一个训练好的基于神经网络图像分类器f(x,θ)＝y为攻击目标，其中x为模型输入的图像，θ为模型参数，y为模型对输入图像x的类别预测。给定原始图像，攻击者拥有对目标模型的白盒访问权限，并设定目标类别，生成高隐蔽性对抗性图像使得目标模型将其分类到目标类别。

2)通过图像区域复杂度函数计算图像在不同尺度下划分的区域复杂度：

其中g为图像划分的一个单位区域，ω_i为对应指标M_i的系数，n取值为5。M₁～M₅分别表示图像的对比度、能量、同质性、边缘密度和压缩比。该函数将各项指标进行线性组合，小尺度下的权值向量

所有大尺度下的权值向量

3)为了得到图像对噪声隐蔽性高的区域，通过多尺度融合算法将不同尺度下的复杂区域进行融合，求得原始图像加噪声区域。首先选取小尺度P₀下的复杂区域集合：

其中G₀为按复杂度从高到低的按小尺度P₀图像区域集合，η₀为小尺度P₀下选择的复杂区域数目。对于大尺度P_i下的复杂区域集合的选取如下：

将每一个大尺度P_i下的复杂区域集合与小尺度P₀下的复杂区域进行融合：

其中

表示两者重合的面积，当该面积大于g的一半时，将g融合到

中。如此迭代直到

不再变化。取所有大尺度下的复杂区域的交集作为最终原始图像的复杂区域：

求得的R(x)即为图像可加噪的区域。

4)得到如下生成隐蔽性对抗性图像的优化问题：

min‖δ·Mask‖_p+c·loss(x+δ，t)

其中Mask是一个与图像相同大小的矩阵，在属于R(x)的点取值为1，其他的点取值为0。求解该优化问题，得到使目标模型分类到目标类别的高隐蔽性对抗性图像

5)与现存的对抗性图像生成算法结合，提高对抗性图像的不可见性。基于空间约束的FGSM对抗性图像生成算法可以表示为：

基于空间约束的BIM对抗性图像生成算法可以表示为：

对于基于空间约束的CW对抗性图像生成算法，可以表示为：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，其特征在于，包含如下步骤：

步骤1、给定一个图像分类器，输入原始图像，该分类器输出图像的类别以及分类到每一个类别的概率；攻击者能够访问目标模型的参数和权重，并设定给定图像的目标类别；

步骤2、考虑图像对比度、能量、同质性、边缘密度和压缩比，提出衡量图像区域复杂度的函数；通过该函数来确定给定图像不同尺度下图像复杂的区域；

步骤3、为了确定给定图像加噪声区域，提出细粒度图像复杂区域搜索算法，将不同尺度下的复杂区域进行融合，得到最终的满足添加噪声不被人眼察觉的复杂区域，具体是：通过细粒度图像复杂区域搜索算法，选取不同尺度下的复杂度高的区域进行融合，得到原始图像对噪声隐蔽性高的区域；首先选取小尺度P₀下图像x的复杂区域集合：

其中G₀为按复杂度从高到低排列的小尺度P₀图像区域集合，η₀为小尺度P₀下选择的复杂区域数目，g_k为选取的复杂区域集合；同样的，对于大尺度P_i下的复杂区域集合的选取如下：

其中G_i为按复杂度从高到低排列的尺度P_i图像区域集合，η_i为小尺度P₀下选择的复杂区域数目，g_k为选取的复杂区域集合；将每一个大尺度P_i下的复杂区域集合与小尺度P₀下的复杂区域进行融合：

其中

表示每一个选择小尺度区域g和大尺度区域集合

重合的面积，当该面积大于g的一半时，将g融合到

中；如此迭代直到

不再变化；最后取与小尺度区域融合后的所有大尺度下的复杂区域的交集作为最终原始图像的复杂区域：

其中

为融合后的大尺度P_i下的复杂区域，n为选取的大尺度数量，求得的R(x)即为图像可加噪的区域；

步骤4、与现有的对抗性图像生成算法结合，仅在确定的复杂区域对图像进行修改，得到基于空间约束的并对抗性图像生成方法，生成高隐蔽性对抗性图像，使目标模型分类到目标类别。

2.如权利要求1所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，其特征在于：目标图像分类器可以表示为f(x,θ)＝y，其中x为模型输入的图像，θ为模型参数，y为模型输出，即对输入图像x的类别预测；模型输出倒数第二层被称作logits层，输出原始图像对应的每种类别的置信度；而最后一层称作softmax层，输出logits层结果归一化后的结果,即分类到每种类别的概率；分类器最后的输出y即为softmax层的最大值，表示为：

3.如权利要求1所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，其特征在于：计算给定图像的不同尺度下的区域复杂度，计算图像的对比度、能量、同质性、边缘密度和压缩比，用M₁～M₅来表示；将各项指标进行线性组合，得到图像区域复杂度函数：

其中g为图像划分的一个单位区域，ω_i为对应指标M_i的系数，n取值为5；我们选取对比度、能量、同质性、边缘密度以及压缩比5个图像复杂度指标，分别计算在大尺度下和小尺度下的图像区域复杂度；对比度通过计算每个像素与相邻像素之间的对比度总和得到；能量为图像灰度共生矩阵中元素平方的总和；同质性由图像灰度共生矩阵中元素分布的接近程度刻画；边缘密度通过canny边缘算子计算平均边缘密度；压缩比为压缩的JPEG图像与未压缩图像的比率；在小尺度下的权值向量

在大尺度下的权值向量

4.如权利要求1所述的一种面向深度神经网络的基于空间约束的高隐蔽性对抗性图像攻击方法，其特征在于：考虑图像可加噪的区域，得到如下生成对抗性图像的优化问题：

min||δ·Mask||_p+c·loss(x+δ,t)

这里x_i,j为图像坐标为(i,j)的像素点；loss(x+δ,t)为目标分类器的损失函数，t为攻击者所设的目标类别；该方法可以与现有的对抗性图像生成算法相结合，来生成具有高隐蔽性的对抗性图像；基于空间约束的FGSM对抗性图像生成算法可以表示为：

其中ε表示步长；同样的，基于空间约束的BIM对抗性图像生成算法可以表示为：

其中clip_x,ε(·)为裁剪函数，保证图像的像素的值在有效范围之内；对于基于空间约束的CW对抗性图像生成算法，可以表示为：

其中