CN113674140A

CN113674140A - 一种物理对抗样本生成方法及系统

Info

Publication number: CN113674140A
Application number: CN202110960092.8A
Authority: CN
Inventors: 张世辉; 杨永亮; 王磊; 左东旭; 张晓微
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-19
Anticipated expiration: 2041-08-20
Also published as: CN113674140B

Abstract

本发明公开了一种物理对抗样本生成方法及系统。该方法包括：获取原始图像集、风格图像集以及图像集的攻击蒙版图像；采用原始图像集作为训练样本，采用模型窃取法，确定黑盒目标模型的替代模型；基于图像集、对应的攻击蒙版图像和替代模型，采用风格迁移技术思想和基于梯度的对抗样本生成方法生成原始图像集中各图像的攻击区域的风格扰动；对原始图像集进行仿射变换生成变换图像集，并基于替代模型，采用基于梯度的对抗样本生成方法生成变换图像集的自适应扰动；将风格扰动和自适应扰动添加到原始图像集的攻击区域，生成每一张原始图像的物理对抗样本。本发明针对黑盒目标模型生成一种扰动不可察的对抗样本，以准确评估黑盒目标模型的安全性。

Description

一种物理对抗样本生成方法及系统

技术领域

本发明涉及机器视觉领域，特别是涉及一种物理对抗样本生成方法及系统。

背景技术

深度神经网络在许多人工智能系统应用中都取得了巨大的成功，例如图像分类、语言识别、自动驾驶等。然而，最近研究发现深度神经网络模型容易受到人为精心设计的对抗样本欺骗。早期的对抗样本生成方法研究工作主要集中在数字空间中生成对抗样本，并且生成方法可以大致分为基于白盒的对抗样本生成方法和基于黑盒的对抗样本生成方法，基于白盒对抗样本生成方法是基于攻击者可获得目标模型的内部信息生成的对抗样本；而基于黑盒对抗样本生成方法限制攻击者获得目标模型的内部信息，基于对抗样本的迁移性或目标模型的反馈信息生成的对抗样本。

目前，白盒对抗样本生成方法有：基于快速梯度符号法(Fast Gradient SignMethod，FGSM)的白盒对抗样本生成方法，该方法利用目标网络的梯度的方向信息生成数字世界的对抗样本；基于投影梯度下降(Projected Gradient Descent，PGD)的白盒对抗样本生成方法，该方法是迭代的FGSM对抗样本生成方法的变体，进一步提高了对白盒目标模型的攻击成功率；然而以上方法都是基于白盒的对抗样本生成方法，难以成功地攻击黑盒目标模型，基于此，有人提出了基于零阶优化的黑盒攻击(Zeroth Order OptimizationBased Black-boxAttacks，ZOO)的黑盒对抗样本生成方法，该方法利用了梯度估计方法替代黑盒目标模型的梯度信息来生成数字世界对抗样本；进一步地，还有人利用先验知识提出了新的梯度估计方法进一步提升黑盒对抗样本的攻击成功率。以上所述的几种方法都是针对数字世界的图像生成对抗样本，这些对抗样本应用于现实世界时往往因为扰动太小而不能被相机所捕捉，因此无法正常应用于现实世界。

由于数字世界的对抗样本很难迁移到现实世界中并且现实世界中的深度神经网络模型往往处于黑盒状态，因此在现实世界复杂环境下生成黑盒深度神经网络模型的对抗样本更具研究价值。有人提出了利用迭代的FGSM生成物理世界对抗样本，该方法首先生成扰动较大的数字世界对抗样本，之后打印数字对抗样本作为物理对抗样本，然而该方法生成的物理对抗样本在复杂的现实环境中往往容易失效；又有人提出了adversarialpatch对抗补丁贴纸生成方法，该方法生成一个外观突兀的补丁贴纸，该补丁贴纸利用转换期望(Expectation OverTransformation，EOT)的方法保持在复杂的现实环境中保持对抗鲁棒性，将该补丁贴纸贴在现实世界的物体上作为物理对抗样本，然而该方法所生成的补丁贴纸外观突兀容易被人眼所察觉。以上所述的物理对抗样本生成方法都基于白盒的对抗样本生成方法不能成功攻击现实世界的黑盒目标模型，并且生成的物理对抗样本的扰动太大容易被人眼察觉。

基于以上分析可知已有物理对抗样本生成方法存在对于现实世界黑盒目标模型攻击成功率不高和扰动容易察觉等问题，采用现有的存在攻击成功率不高和扰动容易察觉的问题的物理对抗样本对黑盒目标模型的安全性评估，安全性评估的准确性有待提升。

发明内容

基于此，本发明实施例提供一种物理对抗样本生成方法及系统，以针对黑盒目标模型生成一种扰动不可察、攻击成功率高的对抗样本，从而更准确的评估黑盒目标模型的安全性。

为实现上述目的，本发明提供了如下方案：

一种物理对抗样本生成方法，包括：

获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像；

采用所述原始图像集作为训练样本，采用模型窃取法，确定黑盒目标模型的替代模型；

基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型，采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动；

对所述原始图像集进行仿射变换生成变换图像集，并基于所述替代模型，采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动；

将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域，生成所述原始图像集中每一张原始图像的物理对抗样本。

可选的，所述采用所述原始图像集作为训练样本，采用模型窃取法，确定黑盒目标模型的替代模型，具体包括：

将所述原始图像集作为训练样本输入所述黑盒目标模型，并利用所述训练样本和所述黑盒目标模型输出的对应的预测标签值构建替代样本集；

将所述替代样本集和所述原始图像集对应的图像真实标签值输入VGG19网络，并以替代模型损失函数最小为目标进行训练，得到训练好的VGG19网络；所述替代模型损失函数是根据所述图像真实标签值、所述VGG19网络输出的预测标签值和所述黑盒目标模型输出的预测标签值构建而成；

将所述训练好的VGG19网络确定为黑盒目标模型的替代模型。

可选的，所述基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型，采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动，具体包括：

采用所述替代模型构建局部特征提取器；

对于所述原始图像集中的任意一张原始图像，采用所述原始图像集的攻击蒙版图像确定当前迭代次数t下的图像对抗样本的攻击区域，采用所述风格图像集的攻击蒙版图像确定所述风格图像集中风格图像的攻击区域；其中，第1次迭代时的图像对抗样本为所述原始图像；

采用所述局部特征提取器分别提取所述图像对抗样本的攻击区域的风格特征、所述风格图像的攻击区域的风格特征、所述图像对抗样本的攻击区域的内容特征和所述原始图像集中原始图像的攻击区域的内容特征；

根据所述图像对抗样本的攻击区域的风格特征和所述风格图像的攻击区域的风格特征，确定风格特征损失函数；

根据所述图像对抗样本的攻击区域的内容特征和所述原始图像的攻击区域的内容特征，确定内容特征损失函数；

将所述风格特征损失函数和所述内容特征损失函数的梯度确定为所述原始图像在当前迭代次数t下的风格扰动，从而得到所述原始图像集中每一张原始图像的攻击区域当前迭代次数t下的风格扰动。

可选的，所述对所述原始图像集进行仿射变换生成变换图像集，并基于所述替代模型，采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动，具体包括：

从预设图像变换集合中随机选择一种图像变换，对当前迭代次数t下的图像对抗样本进行仿射变换，得到当前迭代次数t下的变换图像；其中，第1次迭代时的图像对抗样本为原始图像集中的任意一张原始图像；所述预设图像变换集合中的每一个元素表示一种图像变换；所述图像变换包括旋转、缩放和平移变化；

将所述变换图像输入所述替代模型，所述替代模型输出所述变换图像的预测值；

基于所述变换图像的预测值和图像真实标签值，计算交叉熵损失函数的梯度，并将所述交叉熵损失函数的梯度确定为所述变换图像在当前迭代次数t下的自适应扰动，从而得到所述原始图像集对应的变换图像集在当前迭代次数t下的自适应扰动。

可选的，所述将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域，生成物理对抗样本，具体包括：

由当前迭代次数t下的风格扰动和当前迭代次数t下的自适应扰动计算当前迭代次数t下的扰动；

由当前迭代次数t下的风格扰动、当前迭代次数t下的自适应扰动和当前迭代次数t下的扰动计算下一迭代次数t+1下的扰动；

基于当前迭代次数t下的图像对抗样本和下一迭代次数t+1下的扰动，生成下一迭代次数t+1下的图像对抗样本；

判断当前迭代次数t是否达到预设的迭代次数；

若是，则将下一迭代次数t+1下的图像对抗样本确定为物理对抗样本。

可选的，所述替代模型损失函数，具体为：

其中，L_proxy表示替代模型损失函数；L_CE(·)表示交叉熵损失函数；y_true表示图像真实标签值；y_proxy表示VGG19网络输出的预测标签值；

表示温度T下VGG19网络输出的预测标签值；

表示温度T下黑盒目标模型输出的预测标签值，λ表示权重参数。

可选的，所述风格特征损失函数，具体为：

其中，L_S表示风格特征损失函数；

表示图像对抗样本的攻击区域的风格特征；G^l(s)表示风格图像的攻击区域的风格特征；

表示当前迭代次数t下的图像对抗样本；s表示风格图像；l表示局部特征提取器中的卷积层的序号；S_l∈{1,3,5,13}表示风格卷积层集合；

所述内容特征损失函数，具体为：

其中，L_C表示内容特征损失函数；

表示图像对抗样本的攻击区域的内容特征；

表示原始图像集中原始图像的攻击区域的内容特征；

表示原始图像；C_l∈{9,10}表示内容卷积层集合；

所述风格扰动的计算公式为：

L_SC＝-(βL_S+L_C)；

其中，L_SC表示风格内容特征损失函数；β表示超参数；

表示L_SC关于

的梯度；g^s表示当前迭代次数t下的风格扰动。

可选的，所述自适应扰动的计算公式为：

其中，

表示交叉熵损失函数的梯度；L_CE(·)表示交叉熵损失函数；y_t表示当前迭代次数t下替代模型输出的变换图像的预测值；y_true表示图像真实标签值；g^a表示当前迭代次数t下的自适应扰动。

可选的，所述物理对抗样本，具体为：

g_t＝g^a+g^s,

其中，g^s表示当前迭代次数t下的风格扰动；g^a表示当前迭代次数t下的自适应扰动；g_t表示当前迭代次数t下的扰动；g_t+1表示下一迭代次数t+1下的扰动；μ表示衰减因子；α表示每次迭代的步长；sign(·)表示符号函数；||·||₁表示L₁范数；

表示当前迭代次数t下的图像对抗样本；

表示对

的每个像素裁剪以约束

在[0，255]范围内；

表示下一迭代次数t+1下的图像对抗样本。

本发明还提供了一种物理对抗样本生成系统，包括：

图像获取模块，用于获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像；

替代模型构建模块，用于采用所述原始图像集作为训练样本，采用模型窃取法，确定黑盒目标模型的替代模型；

风格扰动生成模块，用于基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型，采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动；

自适应扰动生成模块，用于对所述原始图像集进行仿射变换生成变换图像集，并基于所述替代模型，采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动；

物理对抗样本生成模块，用于将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域，生成所述原始图像集中每一张原始图像的物理对抗样本。

与现有技术相比，本发明的有益效果是：

本发明实施例提出了一种物理对抗样本生成方法及系统，利用模型窃取法和对抗样本迁移性原理实现了利用替代模型生成物理对抗样本以攻击黑盒目标模型的目标，从而评估黑盒目标模型的安全性；将基于梯度的对抗样本方法生成的高频噪声扰动利用风格迁移技术优化为风格扰动，从而使得对于人眼容易察觉的高频扰动变为对于人眼可接受的风格扰动，即生成了扰动不可察、攻击成功率高的对抗样本，该物理对抗样本的隐蔽性高，将其用于黑盒目标模型评估，能提高对黑盒目标模型的安全性的评估的准确性；利用仿射变换对图像对抗样本进行随机变换，从而增强生成的物理对抗样本在现实世界的攻击成功率，提高对黑盒目标模型的安全性的评估的准确性，评估结果用于发现模型的更多漏洞，以指导构建更为准确的识别模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的物理对抗样本生成方法的流程图；

图2为本发明实施例提供的路牌物理对抗样本的生成方法的思路框架图；

图3为本发明实施例提供的物理对抗样本生成系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本实施例针对黑盒深度神经网络，提出了一种基于黑盒的物理对抗样本生成方法以生成扰动外观自然的物理对抗样本。图1为本发明实施例提供的物理对抗样本生成方法的流程图。参见图1，本实施例的物理对抗样本生成方法，包括：

步骤101：获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像(Mask)和所述风格图像集的攻击蒙版图像(Mask)。其中，原始图像集中包括多张原始图像，风格图像集中包括多张风格图像，原始图像和风格图像为同一类别的两张不同图像。原始图像和风格图像可以是多种图像数据集中的图像，例如ImageNet、Caltech256、PASCALVOC、CTSDB。原始图像集中的任意一张原始图像作为初始的图像对抗样本。

步骤101，具体为：

获取数据集中同一类别的两张不同图像作为原始图像和风格图像，利用语义分割技术获得原始图像和风格图像的语义分割图，定位语义分割图中语义类别与图像所属类别相同的语义区域作为原始图像和风格图像的攻击区域，而其余的语义区域作为非攻击区域，基于原始图像和风格图像的分割图中攻击区域和非攻击区域设计相应的攻击蒙版图像。

步骤102：采用所述原始图像集作为训练样本，采用模型窃取法，确定黑盒目标模型的替代模型。步骤102，具体包括：

1)将所述原始图像集作为训练样本输入所述黑盒目标模型，利用所述原始图像集中的图像样本查询所述黑盒目标模型，获取黑盒目标模型对输入图像样本的预测标签值，并利用所述训练样本和所述黑盒目标模型输出的对应的预测标签值构建替代样本集。所述黑盒目标模型为黑盒深度神经网络模型。

2)采用VGG19网络作为替代模型的网络结构，将所述替代样本集和所述原始图像集对应的图像真实标签值输入VGG19网络，并以替代模型损失函数最小为目标进行训练，得到训练好的VGG19网络；所述替代模型损失函数是根据所述图像真实标签值、所述VGG19网络输出的预测标签值和所述黑盒目标模型输出的预测标签值构建而成。

其中，所述替代模型损失函数，具体为：

其中，L_proxy表示替代模型损失函数；L_CE(·)表示交叉熵损失函数；y_true表示图像真实标签值；y_proxy表示VGG19网络输出的预测标签值(softmax)；

表示温度T下VGG19网络输出的预测标签值(softmax)；

3)将所述训练好的VGG19网络确定为黑盒目标模型的替代模型。

步骤103：基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型，采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动。步骤103，具体包括：

1)风格迁移技术思想包括：采用所述替代模型构建局部特征提取器。局部特征提取器为替代模型不包含全连接层的卷积层部分。

2)对于所述原始图像集中的任意一张原始图像，采用所述原始图像集的攻击蒙版图像确定当前迭代次数t下的图像对抗样本的攻击区域，采用所述风格图像集的攻击蒙版图像确定所述风格图像集中风格图像的攻击区域；其中，第1次迭代时的图像对抗样本为所述原始图像。

3)采用所述局部特征提取器分别提取所述图像对抗样本的攻击区域的风格特征、所述风格图像的攻击区域的风格特征、所述图像对抗样本的攻击区域的内容特征和所述原始图像集中原始图像的攻击区域的内容特征。具体的：

利用公式(2)提取图像对抗样本的特征和风格图像的特征，

其中，Conv(·)表示卷积，x表示输入的图像(图像对抗样本或风格图像)，l表示局部特征提取器第l层卷积层，

表示局部特征提取器中第l层卷积层提取的特征(特征矩阵)。

基于提取的特征，将局部特征提取器的1、3、5、9、10、13层卷积提取的特征划分为与图像风格相关的特征和内容相关的特征，其中第9，10层卷积提取的特征作为内容特征(图像对抗样本的攻击区域的内容特征或原始图像集中原始图像的攻击区域的内容特征)，而将1、3、5、13层卷积提取的特征的格拉姆矩阵作为风格特征(图像对抗样本的攻击区域的风格特征或风格图像的攻击区域的风格特征)，其中特征的格拉姆矩阵如公式(3)所示：

其中，×表示计算某一层特征图之间外积，l表示局部特征提取器第l层卷积，

表示特征矩阵

的转置。

4)融合风格迁移技术思想和基于梯度的对抗样本生成方法包括：计算风格迁移技术中风格特征损失函数和内容特征损失函数关于图像对抗样本的梯度。

其中，根据所述图像对抗样本的攻击区域的风格特征和所述风格图像的攻击区域的风格特征，确定风格特征损失函数。其中，所述风格特征损失函数，具体为：

其中，L_S表示风格特征损失函数；

表示当前迭代次数t下的图像对抗样本；s表示风格图像；l表示局部特征提取器中的卷积层的序号；S_l∈{1,3,5,13}表示风格卷积层集合。

其中，根据所述图像对抗样本的攻击区域的内容特征和所述原始图像集中原始图像的攻击区域的内容特征，确定内容特征损失函数。其中，所述内容特征损失函数，具体为：

其中，L_C表示内容特征损失函数；

表示图像对抗样本的攻击区域的内容特征；

表示原始图像集中原始图像的攻击区域的内容特征；

表示原始图像；C_l∈{9,10}表示内容卷积层集合。

然后，计算风格特征损失函数和内容特征损失函数的梯度(风格特征损失函数和内容特征损失函数关于图像对抗样本的梯度)。

6)将所述风格特征损失函数和所述内容特征损失函数的梯度确定为当前迭代次数t下的风格扰动，从而得到所述原始图像集中每一张原始图像的攻击区域当前迭代次数t下的风格扰动。所述风格扰动的计算公式为：

L_SC＝-(βL_S+L_C) (6)

其中，L_SC表示风格内容特征损失函数；β表示超参数；

表示L_SC关于

的梯度；g^s表示当前迭代次数t下的风格扰动。

步骤104：对所述原始图像集进行仿射变换生成变换图像集，并基于所述替代模型，采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动。步骤104，具体包括：

1)从预设图像变换集合中随机选择一种图像变换，对当前迭代次数t下的图像对抗样本进行仿射变换，得到当前迭代次数t下的变换图像；其中，第1次迭代时的图像对抗样本为原始图像集中的任意一张原始图像；所述预设图像变换集合中的每一个元素表示一种图像变换；所述图像变换包括旋转、缩放和平移变化。

2)将所述变换图像输入所述替代模型，所述替代模型输出所述变换图像的预测值。其中，当前迭代次数t下替代模型输出的变换图像(替代模型对第t次迭代的图像对抗样本

)的预测值y_t的计算公式为：

其中，F(·)表示替代模型分类器，T(·)表示随机的仿射变换。

3)基于所述变换图像的预测值和图像真实标签值，计算交叉熵损失函数的梯度，并将所述交叉熵损失函数的梯度确定为所述变换图像在当前迭代次数t下的自适应扰动，从而得到所述原始图像集对应的变换图像集在当前迭代次数t下的自适应扰动。

其中，所述自适应扰动的计算公式为：

其中，

步骤105：将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域，生成所述原始图像集中每一张原始图像的物理对抗样本。步骤105，具体包括：

1)由当前迭代次数t下的风格扰动和当前迭代次数t下的自适应扰动计算当前迭代次数t下的扰动。

2)由当前迭代次数t下的风格扰动、当前迭代次数t下的自适应扰动和当前迭代次数t下的扰动计算下一迭代次数t+1下的扰动。

3)基于当前迭代次数t下的图像对抗样本和下一迭代次数t+1下的扰动，生成下一迭代次数t+1下的图像对抗样本。

4)判断当前迭代次数t是否达到预设的迭代次数；若是，则将下一迭代次数t+1下的图像对抗样本确定为物理对抗样本，若否，则更新当前迭代次数后，返回到步骤103，进行下一次迭代。所述原始图像集中的每一张原始图像对应的物理对抗样本，构成了物理对抗样本集。

该步骤通过内斯特洛夫加速梯度迭代地生成物理对抗样本。

其中，所述物理对抗样本，具体为：

表示当前迭代次数t下的图像对抗样本；

表示对

的每个像素裁剪以约束

在[0，255]范围内；

表示下一迭代次数t+1下的图像对抗样本。

本实施例的物理对抗样本生成方法，具有如下优点：

(1)利用模型窃取法和对抗样本迁移性原理实现了利用替代模型生成物理对抗样本以攻击黑盒目标模型的目标，从而评估黑盒目标模型的安全性。

(2)将基于梯度的对抗样本方法生成的高频噪声扰动利用风格迁移技术优化为风格扰动，从而使得对于人眼容易察觉的高频扰动变为对于人眼可接受的风格扰动(扰动不可察)，从而得到隐蔽性高的物理对抗样本，采用该物理对抗样本黑盒目标模型进行评估，能提高对黑盒目标模型的安全性的评估的准确性。

(3)利用仿射变换对图像对抗样本进行随机变换，从而增强生成的物理对抗样本在现实世界的攻击成功率，提高对黑盒目标模型的安全性的评估的准确性。

(4)提出了利用内斯特洛夫加速梯度法提升物理对抗样本的迁移性，从而提高对黑盒模型攻击的成功率，进一步提高物理对抗样本的隐蔽性，从而进一步提高对黑盒目标模型的安全性的评估的准确性，评估结果用于发现模型的更多漏洞，以指导构建更为准确的识别模型，应用于图像分类、语言识别、自动驾驶等领域。

下面提供了一个具体的应用实例。

本实施例应用于自动驾驶场景下的基于深度神经网络的路牌识别模型，本实施例生成的路牌物理对抗样本可以造成基于深度神经网络的路牌识别模型识别错误。因此，本实施例可以通过攻击成功率的高低来评估已有的基于深度神经网络的路牌识别模型的安全性，并且可作为今后提出的基于深度神经网络的路牌识别模型安全性的评估指标。参见图2，路牌物理对抗样本的生成方法的思路如下：

步骤(1)：提供原始图像、风格图像，其中原始图像作为初始的图像对抗样本，获取图像对抗样本和风格图像的蒙版图像(Mask)。

本实施例针对自动驾驶场景下的路牌识别模型，因此选择原始图像和风格图像均是来自CTSDB数据集，其中原始图像与风格图像是属于同一类别的不同图像。在对抗样本生成过程中，通过随机采样方法从数据集随机选择一类，并在所选择的类中随机选择一张原始图像和一张风格图像。基于所选择的原始图像和风格图像利用二分类语义分割技术分别获得原始图像和风格图像的语义分割图。其中语义分割的类别颜色标记表中设定白色像素表示的语义为原始图像所属的类别，黑色像素表示的语义为图像的背景。设定所得的语义分割图中白色像素区域表示原始图像和风格图像的攻击区域，而黑色像素区域表示原始图像和风格图像的非攻击区域，基于所得的语义分割图和类别颜色标记表按公式(11)分别获得原始图像和风格图像的攻击蒙版图像Mask：

其中，c表示通道，seg(i,j,c)表示分割图中通道c中位置(i,j)像素值。

步骤(2)：提供黑盒目标模型和替代模型，使用包含原始图像的数据集作为训练数据集，利用模型窃取方法，获得黑盒目标模型的替代模型。

在本实施例中，需要提供替代模型和黑盒目标模型，其中替代模型是可以基于原始图像进行分类或预测的白盒模型，即可以使用替代模型的神经网络结构和参数详情，同时替代模型与黑盒目标模型具有相似的功能。在本实施例中，针对自动驾驶场景下的基于深度神经网络的路牌识别模型模型，因此，黑盒目标模型是路牌识别模型，例如VGG16、VGG19、InceptionV3、InceptionV4、ResNet中任意一个识别模型，替代模型选择VGG19网络结构，模型窃取方法是基于知识蒸馏思想，将黑盒目标模型作为教师模型，VGG19网络结构的替代模型作为学生模型，在温度T＝50时，使用ISLVRC2012数据集中的图像数据通过查询获取黑盒模型和VGG19网络结构的替代模型的softmax输出作为软标签，同时获得温度T＝1时，VGG19替代模型softmax输出，利用公式(1)训练替代模型。

步骤(3)：基于图像对抗样本、风格图像及其相应的攻击蒙版图像(Mask)，融合风格迁移技术思想和基于梯度的对抗样本生成方法，利用风格迁移过程的损失函数的梯度生成图像对抗样本攻击区域的风格扰动。

在本实施例中，每次迭代过程中基于图像对抗样本和风格图像的蒙版利用公式(12)获得图像对抗样本和风格图像的攻击区域：

其中，

表示矩阵按位相乘，mask_x表示图像对抗样本的攻击蒙版图像，mask_s表示风格图像的攻击蒙版图像。

在本实施例中，利用VGG19替代模型构建局部特征提取器，即局部特征提取器是VGG19替代模型不包含全连接层的卷积层部分。在每次迭代过程中利用局部特征提取器提取图像对抗样本和风格图像攻击区域的特征，提取方法如公式(2)所示。

基于局部特征提取器每一层提取的特征将其中1、3、5、13层卷积提取的特征的格拉姆矩阵作为图像对抗样本和风格图像攻击区域的风格特征，并将其中9、10层卷积提取的特征作为图像对抗样本的内容特征。

基于所得的图像对抗样本攻击区域的风格和内容特征，利用公式(4)计算当次迭代中图像对抗样本与风格图像攻击区域的风格特征损失函数。利用公式(5)计算当次迭代中图像对抗样本原始图像攻击区域的内容特征损失函数。利用公式(6)和公式(7)计算风格特征损失函数和内容特征损失函数的梯度作为风格扰动。

步骤(4)：利用预设图像变换集合中集合元素对图像对抗样本进行相应的仿射变换，利用基于梯度的对抗样本生成方法生成变换后的图像对抗样本的自适应扰动。

在本实施例中，为了模拟现实世界中可能出现的复杂情况，预设图像变换集合包括图像旋转、缩放、平移的图像变换，其中，旋转角度范围为[-25，25]，缩放比例范围为[0.4，1]，平移像素个数范围为[-10，10]。在每次迭代过程中，随机选择范围之内的旋转角度、缩放比例组成线性变换矩阵，平移像素个数组成平移矩阵，利用公式(13)对图像对抗样本进行仿射变换并且保持变换后图像对抗样本图像大小与变换前相同：

其中，A表示线性变换矩阵，·表示内积，b表示平移变换矩阵。

对于变换后的图像对抗样本利用公式(8)和公式(9)计算梯度作为自适应扰动。

步骤(5)：将风格扰动和自适应扰动添加到图像对抗样本的攻击区域，重复步骤(3)-步骤(5)，使用内斯特洛夫加速梯度迭代地生成图像对抗样本，直到达到预设终止条件，最后一次迭代的生成的图像对抗样本作为物理对抗样本。

本实施例中，通过结合Iterative Fast Gradient Sign Method和NesterovAccelerated Gradient生成对抗样本。在每次迭代过程中，首先利用通过图像对抗样本的攻击蒙版图像将自适应扰动限制在图像对抗样本攻击区域，如公式(14)所示：

然后，将风格扰动和自适应扰动添加到图像对抗样本的攻击区域作为新的图像对抗样本，并且将新生成的图像对抗样本作为下一次迭代的输入。具体地，在第t次迭代时通过公式(10)生成新的图像对抗样本

当迭代次数t达到预设迭代终止条件(预设的迭代次数)时，输出

作为最终的物理对抗样本。

本实施例生成的路牌物理对抗样本，用于评估路牌识别模型，路牌物理对抗样本作为一个衡量路牌识别模型好坏的指标，攻击成功率越强表示这个黑盒深度神经网络性能越差，攻击成功率是指被模型错误识别的对抗样本个数除以生成的对抗样本总个数。本实施例的样本生成方法，能提高对路牌识别模型攻击的成功率，从而提高对路牌识别模型的安全性的评估的准确性，评估结果能发现模型的更多漏洞，以指导后续构建更为准确的路牌识别模型。

本发明还提供了一种物理对抗样本生成系统，参见图3，本实施例的系统，包括：

图像获取模块201，用于获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像。

替代模型构建模块202，用于采用所述原始图像集作为训练样本，采用模型窃取法，确定黑盒目标模型的替代模型。

风格扰动生成模块203，用于基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型，采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动。

自适应扰动生成模块204，用于对所述原始图像集进行仿射变换生成变换图像集，并基于所述替代模型，采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动。

物理对抗样本生成模块205，用于将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域，生成所述原始图像集中每一张原始图像的物理对抗样本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。