CN113537494B

CN113537494B - 一种基于黑盒场景的图像对抗样本生成方法

Info

Publication number: CN113537494B
Application number: CN202110838268.2A
Authority: CN
Inventors: 胡聪; 徐灏琦; 吴小俊; 宋晓宁; 陆恒杨
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2022-11-11
Anticipated expiration: 2041-07-23
Also published as: CN113537494A

Abstract

本发明公开了一种基于黑盒场景的图像对抗样本生成方法，包括：将图片x输入至多个白盒模型，分别得出目标标签或真实标签的概率值；动态计算所述概率值对应白盒模型的权重；根据所述概率值与所述白盒模型的权重，得到集成模型的概率值；根据所述集成模型的概率值计算损失值，并进行反向传播；将所述反向传播后图片的梯度作为扰动图像，加入到对抗样本中；重复迭代，获取最终对抗样本。本发明方法能够在黑盒环境下取得更好的效果，后续深入分析了对抗样本的生成过程，进一步证实动态集成方法能够按照预期合理得调整各个模型的权重，并增强对抗样本的黑盒效果。

Description

一种基于黑盒场景的图像对抗样本生成方法

技术领域

本发明涉及人工智能安全技术领域，尤其涉及一种基于黑盒场景的图像对抗样本生成方法。

背景技术

近年来，对抗样本是人工智能安全领域的一大热点，计算机视觉方面的对抗样本的发现更是引起了研究人员的广泛关注，集成方法是一种基于黑盒的对抗样本生成方法，该方法能够对内部参数完全未知的模型生效。该方法利用一个集合内的多个模型生成对抗样本，其中各个模型的权重是恒定且平均的，这会导致在某些情况下该方法并不能达到预期的效果。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：传统方法利用一个集合内的多个模型生成对抗样本，其中各个模型的权重是恒定且平均的，这会导致在某些情况下该方法并不能达到预期的效果。

为解决上述技术问题，本发明提供如下技术方案：将图片x输入至多个白盒模型，分别得出目标标签或真实标签的概率值；动态计算所述概率值对应白盒模型的权重；根据所述概率值与所述白盒模型的权重，得到集成模型的概率值；根据所述集成模型的概率值计算损失值，并进行反向传播；将所述反向传播后图片的梯度作为扰动图像，加入到对抗样本中；重复迭代，获取最终对抗样本。

作为本发明所述的基于黑盒场景的图像对抗样本生成方法的一种优选方案，其中：将所述图片x输入至多个白盒模型，获取输出z，包括，

对所述图片x进行预处理，调整所述图片x尺寸为224*224像素，像素值的范围在[0,1]之间；将所述预处理后的图片x输入至多个白盒模型中，获取输出z。

作为本发明所述的基于黑盒场景的图像对抗样本生成方法的一种优选方案，其中：设定Z(x)＝z，对所述输出z进行softmax运算，得到所述目标标签或真实标签的概率值y包括，

y＝softmax(Z(x))

其中，y表示各个类别的预测概率值，并且y由分量y₁、y₂、y₃...y_m组成，y_i表示神经网络对图片属于第i类的预测值，0≤y_i≤1且y₁+...+y_m＝1，z表示输出的logit值，并且z表示一个由z₁、z₂、z₃……z_m构成的m维向量。

作为本发明所述的基于黑盒场景的图像对抗样本生成方法的一种优选方案，其中：所述动态计算所述概率值对应的白盒模型的权重包括，

所述目标标签对应有目标情况，所述真实标签对应无目标情况，设定F(x)＝y，各个模型的权重k_i根据当前模型的输出概率y_i变化，在n个模型组成的集成模型中，对于所述有目标情况，第i个模型的权重为k_i(x):

其中，F_i(x)_t表示目标标签的概率值，

表示所有目标标签的概率值的倒数之和。

对于所述无目标情况，第i个模型的权重为k_i(x):

其中，F_i(x)_t表示真实标签的概率值，

表示所有目标标签的概率值之和。

作为本发明所述的基于黑盒场景的图像对抗样本生成方法的一种优选方案，其中：所述集成模型的概率w为，

其中，k_i(x)表示目标标签或真实标签的权重，F_i(x)表示目标标签或真实标签的概率值。

作为本发明所述的基于黑盒场景的图像对抗样本生成方法的一种优选方案，其中：利用交叉熵损失函数计算出所述集成模型的概率值w的损失值。

作为本发明所述的基于黑盒场景的图像对抗样本生成方法的一种优选方案，其中：根据所述损失值计算出所述梯度，并将所述梯度作为扰动图像加入到所述对抗样本中。

作为本发明所述的基于黑盒场景的图像对抗样本生成方法的一种优选方案，其中：当迭代次数达到设置值时，停止迭代，所述对抗样本即为最终对抗样本。

本发明的有益效果：动态集成方法能够在黑盒环境下取得更好的效果，后续深入分析了对抗样本的生成过程，进一步证实动态集成方法能够按照预期合理得调整各个模型的权重，并增强对抗样本的黑盒效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种基于黑盒场景的图像对抗样本生成方法的流程图；

图2为本发明一个实施例提供的一种基于黑盒场景的图像对抗样本生成方法的动态集成方法的结构模型图；

图3为本发明一个实施例提供的一种基于黑盒场景的图像对抗样本生成方法的五个模型的logit值变化图；

图4为本发明一个实施例提供的一种基于黑盒场景的图像对抗样本生成方法的传统集成方法中五个模型的logit值变化图；

图5为本发明一个实施例提供的一种基于黑盒场景的图像对抗样本生成方法的传统集成方法与本发明所提供的动态集成模型的损失值变化对比图；

图6为本发明一个实施例提供的一种基于黑盒场景的图像对抗样本生成方法的传统集成方法与本发明所提供的动态集成模型的输出概率值变化对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～2，为本发明的一个实施例，提供了一种基于黑盒场景的图像对抗样本生成方法，：

S1：将图片x输入至多个白盒模型，分别得出目标标签或真实标签的概率。需要说明的是：

将所述图片x输入至多个白盒模型，获取输出z，，

(1)对所述图片x进行预处理，调整所述图片x尺寸为224*224像素，像素值的范围在[0,1]之间；将所述预处理后的图片x输入至多个白盒模型中，获取输出z；

(2)设定Z(x)＝z，对所述输出z进行softmax运算，得到所述目标标签或真实标签的概率值y，

y＝softmax(Z(x))

其中，y表示各个类别的预测概率值，并且y由分量y₁、y₂、y₃...y_m组成，y_i表示神经网络对图片属于第i类的预测值，0≤y_i≤1且y₁+...+y_m＝1，z表示输出的logit值，并且z表示一个由z₁、z₂、z₃……z_m构成的m维向量；

(3)对输出z进行softmax运算，得到目标标签或真实标签的概率值y，

F(x)＝softmax(Z(x))

其中，y表示各个类别的预测概率值，并且y由分量y₁、y₂、y₃...y_m组成，y_i表示神经网络对图片属于第i类的预测值，0≤y_i≤1且y₁+...+y_m＝1。

S2：动态计算概率值对应白盒模型的权重。需要说明的是：

动态计算概率值对应的权重包括，目标标签对应有目标情况，真实标签对应无目标情况，设定F(x)＝y，各个模型的权重k_i根据当前模型的输出概率y_i变化，在n个模型组成的集成模型中，对于有目标情况，第i个模型的权重为k_i(x):

其中，F_i(x)_t表示目标标签的概率值，

表示所有目标标签的概率值的倒数之和；

对于无目标情况，第i个模型的权重为k_i(x):

其中，F_i(x)_t表示真实标签的概率值，

表示所有目标标签的概率值之和。

S3：根据概率值与白盒模型的权重，得到集成模型的概率值。需要说明的是：

集成模型的概率w为，

S4：根据集成模型的概率值计算损失值，并进行反向传播。需要说明的是：利用交叉熵损失函数计算出集成模型的概率值w的损失值。

S5：将反向传播后图片的梯度作为扰动图像，加入到对抗样本中。需要说明的是：根据损失值计算出梯度，并将梯度作为扰动图像加入到对抗样本中。

S6：重复迭S1～S5，获取最终对抗样本。需要说明的是：

当迭代次数达到设置值时，停止迭代，对抗样本即为最终对抗样本。

本发明设计了一种基于黑盒场景的图像对抗样本生成方法，能够在黑盒环境下取得更好的效果，后续深入分析了对抗样本的生成过程，进一步证实动态集成方法能够按照预期合理得调整各个模型的权重，并增强对抗样本的黑盒效果。

实施例2

参照图3～6为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种基于黑盒场景的图像对抗样本生成方法的验证测试，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

本发明采用五个模型:ResNet-50、ResNet-101、ResNet-152、GoogLeNet以及VGG-16，用预训练模型进行实验，这些模型中既有结构相近的模型(例如ResNet系列模型)，又有完全不同结构的模型，这样可以更全面的展示黑盒环境下的攻击效果。

本发明所采用的数据集为ILSVRC2012，在模型本就无法分类的图片上研究对抗样本问题是无意义的，并且不同类别的攻击难度也会有很大差异，对于这两个问题，为了使实验结果更泛化更有说服力，选择了1000张不同标签且均能被上述五个模型正确分类的图片作为的测试集，在进行有目标攻击时，将挑选语义与真实标签相差很大的类别作为目标标签，本发明的实验均为有目标攻击,每次实验将随机选择一个与真实标签语义相差很大的标签作为目标标签,并且只有目标模型将图片分类错误且输出结果为目标标签时才算攻击成功。以下为传统集成方法和本发明分别与BIM、I-FGM相结合的实验结果。

BIM与动态集成方法结合后的目标函数为:

无目标:

有目标:

其中α＝ε/T，ε分别取0.09、0.11、0.13、0.15、0.17进行此实验,T＝10，J(u,v)＝log(1-u*v)，t和l分别为目标标签和真实标签的独热码值，实验结果如下表所示，其中，最后一列为该组实验所制作的对抗样本的平均RMSD。其余列中，第i列表示该列的实验以i模型为黑盒模型，其余四个模型为白盒模型组成集成模型制作对抗样本，例如:VGG16所在列的数据表示该列的实验以ResNet152、ResNet101、ResNet50、GoogLeNet组成集成模型制作对抗样本，并将VGG16作为黑盒模型进行攻击；实验数值表示该组实验所制作的1000个对抗样本在黑盒攻击中的成功率，本发明的实验均为有目标攻击，每次实验将随机选择一个与真实标签语义相差很大的标签作为目标标签，并且只有目标模型将图片分类错误且输出结果为目标标签时才算攻击成功。

表1：传统集成方法和本发明与BIM相结合的实验结果对比表。

FGM与BIM的原理类似，只需要用L2范数替代符号函数来控制扰动的大小，其目标函数为：

无目标：

有目标：

其中，α＝ε/T，ε分别取30、40、50、60、70进行实验,实验结果如表2所示。

表2：传统集成方法和本发明与I-FGM相结合的实验结果对比表。

BIM与I-FGM均为基于梯度的方法，对比传统集成方法与本发明提出的动态集成方法，动态集成方法与这两种方法结合后均能取得较好的实验结果，其中对ResNet系列模型的黑盒效果提升幅度较大，对VGG16和GoogLeNet也有一定程度的提升。

在此基础上，出于计算开销考虑，使用简化版的目标函数进行优化，

无目标：

有目标：

其中lC*(x)、lt分别为真实标签和目标标签的独热码值，使用adam优化器来优化该目标函数，设定λ为0，从而通过控制adam的学习率lr来控制扰动大小，将学习率分别设置为0.02、0.03、0.04,每张图片的最大迭代次数为100，实验结果如表3所示。

表3：传统集成方法和本发明与基于优化的方法相结合的实验结果。

实验结果表明,本发明方法与基于优化的方法相结合也能取得更好的黑盒效果，观察实验结果可以发现，本发明方法所制作的对抗样本的RMSD值均略大于传统集成方法，这说明在相同的扰动大小约束下，本发明方法可以更充分的利用扰动限度。

为了更清楚的了解在生成过程中对抗样本的攻击性和迁移性的变化，将以BIM为例，进行有目标攻击并分析其生成过程，将同时进行传统集成攻击和动态集成攻击；在一个对抗样本的生成过程中，对每次迭代后的输出Xi进行分析；对于每个Xi，将其输入四个白盒模型及一个黑盒模型以获得其logit值和概率值输出，同时计算两种集成方法的集成模型的概率值和损失值；在这次实验中，ResNet152是黑盒模型，其他四个模型是组成集成模型的白盒模型；结果如图3～4所示，其中实线为真实标签的logit值，虚线为目标标签的logit值。

为了获取更多信息，在这次实验中进行了额外的两次迭代，也就是说在这组实验中，进行了12轮α为0.007的迭代(即T＝12,ε＝0.084,α仍然是0.007)，损失值的变化如图5所示，输出概率值的变化如图6所示。

比较图3与图4、图5与图6，可以发现本发明提出的动态集成方法具有如下优点:1、单模型攻击成功的迭代次数更少:由于在有模型出错后，动态集成方法会将更多的重心放在为出错的模型上，因此成功攻击剩余模型所需的迭代次数更少；2、更慢的损失值下降速度:在所有集合中的模型出错前，损失值将不会有巨大的下降，以保持持续的高强度的攻击；观察传统集成方法与本发明提出的动态集成方法的损失值的变化图可以发现，传统集成方法的损失值虽然在一开始就有很明显的下降，但其后续很难再进行进一步收敛；而动态集成方法的损失值在所有模型出错前虽然也会有明显的阶段性的下降，但始终处于一个较高的位置；而在四个模型全部出错后，动态集成方法的损失值才会快速收敛至0；3、更强的黑盒效果:对于某次攻击中的棘手的模型，传统集成模型很难充分利用该模型的决策能力；这就导致集成方法的迁移性并没有预料中的那么好，只有相当于三个模型所集成的效果；而本发明所提出的动态集成方法可以很好的在短时间内整合所有模型的决策能力，制作出具有更强黑盒效果的对抗样本。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。