CN112115761A

CN112115761A - 自动驾驶汽车视觉感知系统漏洞检测的对抗样本生成方法

Info

Publication number: CN112115761A
Application number: CN202010399428.3A
Authority: CN
Inventors: 宫洵; 刘嘉威; 胡云峰; 陈虹
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-12-22
Anticipated expiration: 2040-05-12
Also published as: CN112115761B

Abstract

一种自动驾驶汽车视觉感知系统漏洞检测的对抗样本生成方法，属于自动驾驶技术领域。本发明的目的是针对自动驾驶汽车视觉感知系统目标识别深度模型，提出一种用于模型漏洞发现的对抗样本的生成方法，为进一步漏洞检测及防御算法提供样本支持的自动驾驶汽车视觉感知系统漏洞检测的对抗样本生成方法。本发明步骤是：信息采集、建立对抗目标模型、建立对抗扰动的数学模型、对抗扰动生成的优化。本发明探索了用于自动驾驶感知系统漏洞检测的对抗样本生成的方法，并藉此方法发展自动驾驶感知系统漏洞检测算法，进而提高自动驾驶车辆的安全性。

Description

自动驾驶汽车视觉感知系统漏洞检测的对抗样本生成方法

技术领域

本发明属于自动驾驶技术领域。

背景技术

自动驾驶汽车通过搭载雷达、激光雷达、车载摄像头和全球定位系统等先进传感设配，并在人工智能和自动控制等技术的赋能下，实现车辆在没有驾驶员干预下的自主安全行驶。一般来讲，自动驾驶系统总体由感知、决策和控制执行三大系统组成的。

随着自动驾驶技术的发展，尽管目前自动驾驶车辆的事故率远远低于人为车辆事故，但是社会、法规及用户对自动驾驶技术安全性要求依然极其苛刻，对自动驾驶的安全性达到 100％的终极目标不会改变。安全性对于自动驾驶车辆市场化起着及其重要的作用，而市场化带来的资本也会提高自动驾驶技术的发展。所以，针对自动驾驶系统安全性相关研究对自动驾驶技术的发展有着深远的意义。

预期功能安全在的自动驾驶安全体系评价中占据至关重要的地位。预期功能安全是指当驾驶责任部分或全部由机器完成时，由于感知、算法、执行能力受限或驾驶员的误操作，无法达到预期功能，从而影响驾驶的安全性。自动驾驶的感知系统是自动驾驶系统中最重要的环节，它收集处理自动驾驶车辆周围环境信息，并将这些信息传递给自动驾驶车辆的决策系统以供自动驾驶车辆产生正确的决策信息，生成安全合理的驾驶行为。一台搭载摄像头的自动驾驶汽车，通过车载摄像头采集行驶环境的图片信息，为自动驾驶的决策系统提供充分的决策依据。然而，由于车辆实时视觉交互周围环境的高复杂度和高不确定性，感知系统已经成为预期功能安全当中的薄弱环节，也是容易受到人为攻击的环节。一方面，在逆光、隧道中光线不充足和车载摄像头被污垢遮蔽等特殊情况下，感知系统很可能接收不到正确的图像信息，从而无法正确地识别交通参与要素。另一方面，感知系统对交通目标的识别一般通过深度神经网络算法实现，为了平衡算法鲁棒性和准确的矛盾，感知算法本身也可能存在一定的漏洞，即使在良好光照情况下，也可能由于视觉混淆无法对交通参与要素正确地识别。如2016年5月，Tesla公司的Model S智能车在高速公路上将迎面正在转向的“白色卡车” 识别为“白云”，并未采取及时的刹停措施，从而酿成了一起重大交通事故。从技术层面上讲，由参与要素本身物理外观所引起的机器视觉混淆是可以在感知识别模型训练环节中通过添加一些极易混淆的“极端样本”的方式消除的。这些极端样本通常可以被人眼察觉(如被深度模型归类为“白云”的汽车)，所以可以通过人工筛选，对应的安全漏洞也容易弥补，威胁程度相对较小。

然而，有一些自动驾驶感知系统可能存在的漏洞是无法通过大数据人工筛选而发现的。这类漏洞必须在对抗样本的“攻击”下得以发现。所谓对抗样本，通常以某类可以被感知系统分类器正确识别的图片(车载摄像头采集得到)为基底，随后通过在基底上添加一些微小的像素值的扰动(对抗扰动)而生成。这类添加了扰动的对抗样本往往无法被人眼识别，然而一旦被送入已经设计好的基于深度神经网络模型的分类器就可能误导其进行准确分类，干扰驾驶决策，进而暴露感知系统的漏洞。

对抗样本无法通过普通摄像装置采集，它必须由人为设计而生成。所以，研究对抗样本的设计和生成，对暴露自动驾驶视觉感知系统漏洞，为后续相关漏洞检测及防御算法的改进，进一步提高自动驾驶汽车的安全性有着重要的意义。但是用于自动驾驶汽车视觉感知系统安全漏洞检测的对抗样本生成方法依然是一个空白。

专利CN201910579740针对DeepSpeech语音识别模型，提出了一种生成对抗样本的方法。然而，尽管DeepSpeech采用的是深度模型，却是循环深度模型，与智能车感知模块所经常采用的卷积深度模型截然不同。

专利CN201811431005提出了一种基于图像滤镜算法的对抗样本检测方法，然而这类检测方法只是考虑了具有极端像素的对抗样本，没有充分地分析具体某个模型可能存在的多种多样的对抗样本。此专利并非是在自动驾驶的背景下提出，因此其的应用在自动驾驶感知系统上存在局限性，它无法检测一些通过对对抗扰动施加约束的对抗样本。

发明内容

本发明的目的是针对自动驾驶汽车视觉感知系统目标识别深度模型，提出一种用于模型漏洞发现的对抗样本的生成方法，为进一步漏洞检测及防御算法提供样本支持的自动驾驶汽车视觉感知系统漏洞检测的对抗样本生成方法。

本发明步骤是：

步骤一、信息采集：自动驾驶车辆在行驶过程中，车载摄像头将实况视频信息传递给感知系统；

步骤二、建立对抗目标模型：建立一个对抗目标模型代替感知系统目标检测深度模型生成对抗样本，且该对抗样本对于感知系统目标检测深度模型同样有效；将对抗样本将要进行干扰的目标检测深度模型中用于提取周围环境信息的卷积层截出，与三层全连接层和一层softmax 层拼接成一个分类深度网络model_target(x)，称为对抗样本的对抗目标模型，且由于目标检测深度模型与model_target(x)共用相同的卷积层作为模型的输入端，故两个模型的输入维度都为D； model_target(x)中的x为对抗目标模型的D维输入数据，现使model_target(x)中属于目标检测深度模型的卷积部分的参数不变，随后将构成的模型model_target(x)在步骤一收集到的交通场景的训练集上进行训练，在训练过程中仅更新全连接层与sotfmax层的参数，当模型可以在测试集上取得较好的分类结果时，此时的模型便是最终的对抗目标模型model_target(x)；

步骤三、建立对抗扰动的数学模型：对抗样本是在未施加对抗扰动的A类数字化图片上施加人眼难以察觉的对抗扰动，然而却被原本正确识别图片类别的对抗目标模型识别为指定类别 B类；

步骤3.1对抗扰动约束的数学模型：对抗样本的生成，是在未施加任何对抗扰动的图片x上施加一些肉眼无法识别的D维像素对抗扰动

新生成的对抗样本即为

为了达到对抗样本

与图片x的差异难以用肉眼分辨，需要对

施加一定的约束；

步骤3.1.1建立二范数约束的数学模型：

第一种对

的约束是无穷范数约束是二范数约束，其目的转化模型为：

其中s_i代表对抗扰动

当中的每个像素值；τ代表一个二范数约束的阈值，τ越小，对抗样本

越难以被人眼识别；

步骤3.1.2建立无穷范数约束的模型：

另一种

的约束是无穷范数约束，其目的转化模型为：

ε代表一个二范数约束的阈值，ε越小，对抗样本

越难以被人眼识别；

步骤3.2建立对抗扰动攻击性模型：

在对抗目标模型model_target(x)的训练过程中，利用损失函数对深度模型当中的参数的梯度，利用优化算法不断地去更新深度模型参数，使得模型在训练数据集X上的输出和对应真实分类标签集合Y之间的损失函数最小化，从而在训练数据集X上产生一个符合训练数据到训练数据标签的映射；

首先训练集X当中的一个样本输入x经过model_target(x)后会被模型当中的最后一层sotfmax层输出为一个离散分布p：

其中j代表第j种类,且j∈C；C代表模型可分类类别全体；a_j代表对应第j类的softmax层神经元的输入值，p_j代表x为第j类标签的概率；然后，利用输入x进入model_target(x)后softmax层每个单元的输出p_j和x的真实标签y，利用交叉熵函数构造损失函数：

其中X代表整个训练数据集；Y代表X的真实分类标签集合；x代表X中一个样本；

步骤3.2.1建立干扰性对抗扰动攻击模型：

将目的转化为损失函数基础上的数学描述，即干扰性损失函数：

步骤3.2.2建立误导性对抗扰动攻击模型：

将目的转化为损失函数的数学建模，即误导性损失函数：

其中

为y_t的ONEHOT编码q^t向量的第j个分量的值；

步骤四、对抗扰动生成的优化

根据步骤三确定的数学对抗样本的数学描述，确定对抗扰动生成的优化目标，最终期望的对抗扰动应该满足：

首先对

采用任意方式的随机初始化赋予初值，之后对(7)式的优化分为两个部分进行；

步骤4.1基于梯度信息的优化以误导性损失函数为例下写出如何利用MomentumGradient Descent在干扰性损失函数进行

的更新：

其中σ控制动量影响因子，即

向量方向对

的影响程度，β控制梯度影响因子，即

梯度向量反方向方向对

的影响程度；

步骤4.2优化中对对抗扰动的范数约束

在

的更新过程中，为了满足式(7)确定的约束，需要在式(8)过后对

进一步约束处理，定义函数

其功能为当

中某个像素超过ε就将该像素的值重新赋值为ε，即每次(8) 式得到的

再经过CLIP函数的处理：

步骤4.3确定循环停止条件

对于干扰性对抗样本，要求

满足以下条件时停止更新

其中α为一负数，代表

与原类别y的相似程度；

对于误导性样本，要求满足以下条件时停止更新

其中β越小，对抗样本

越容易分类为y_t。

在自动驾驶预期功能安全领域中，对于对抗样本生成的研究非常有限，本发明探索了用于自动驾驶感知系统漏洞检测的对抗样本生成的方法，并藉此方法发展自动驾驶感知系统漏洞检测算法，进而提高自动驾驶车辆的安全性。为了降低自动驾驶汽车感知系统的预期功能安全隐患，本发明面向车载目标识别深度模型可能存在的安全漏洞，提出一种用于发现漏洞的对抗样本生成方法。该方法采用基于动量梯度下降优化算法，对车载摄像头采集的图片添加不易被人类肉眼识别的干扰，生成可能误导目标识别深度模型的对抗样本，进而通过检查深度模型是否被误导即可判断感知系统是否存在安全漏洞。本发明所采用的方法易于实现，能够广泛应用于自动驾驶感知系统各类深度模型的对抗样本生成，该对抗样本可用于漏洞检测算法的开发和测试，为提高自动驾驶车辆的驾驶安全性奠定基础。

附图说明

图1是自动驾驶系统框架结构及对抗样本输入位置图；

图2是对抗样本生成的流程图；

图3是对抗目标深度模型和目标检测深度模型的结构图；

图4是MNIST上，无穷范数在不同的阈值约束下所生成的对抗样本；

图5是展示了CIFAR-10数据集下分别基于干扰性对抗样本和误导性对抗样本。

具体实施方式

本发明采用基于动量梯度下降优化算法，对车载摄像头采集的图片添加不易被人类肉眼识别的干扰，生成可能误导目标识别深度模型的对抗样本，进而通过检查深度模型是否被误导即可判断感知系统是否存在安全漏洞。

本发明首先进行信息的采集，收集与自动驾驶感知系统目标检测模型的输入相同维度的交通场景图片数据集。这些图片主要作为对抗目标模型的训练数据以及对抗扰动的施加对象。

随后本发明在自动驾驶感知系统的目标检测模型上截出用于提取周围环境信息的深度卷积层，并与三层全连接层和一层softmax串联构建对抗目标模型，并利用收集到的交通场景图片数据集对对抗目标模型进行训练，使对抗目标模型成为一个性能良好的分类器。然后选择部分交通场景图片作为施加对抗扰动的对象，根据对抗样本的功能及对其的约束要求，在交叉熵损失函数的基础上建立对抗扰动的数学性描述，分别为对抗扰动约束的数学描述和对抗扰动攻击性的数学描述。

随后通过对抗扰动的数学描述本发明建立了对抗扰动生成的优化问题，通过对对抗目标模型的参数访问，获得梯度信息，利用如动量梯度下降等优化算法求解优化问题，得到对抗扰动。

最后将相同维度的对抗扰动与交通场景图片叠加，就可以生成干扰或者误导自动驾驶感知系统的对抗样本。

以下对本发明进行详细描述：

步骤1信息采集自动驾驶车辆在行驶过程中，车载摄像头将实况视频信息传递给感知系统。感知系统提取视频中的一帧，在其上应用目标检测算法。目标检测算法可以框选这一帧图片中存在的交通参与要素，并且判断要素所属类别，从而达到感知自动驾驶车辆周围环境信息的目的。

由于彩色图片在数字环境下是以一个三维张量的数字形式存在，常采用RGB三通道形式的数字图像格式。同时，车载摄像头的像素往往是百万级别以上。所以目标检测算法的输入通常是的一些大小在3×1000×1000及以上的张量，且每个像素值的范围在0～255之间。为了后续步骤2目对抗目标模型的训练，及步骤4数学模型的优化，需要利用自动驾驶系统当中的车载摄像头拍摄交通场景的图片作为对抗样本生成的基底(或者利用网络上公开的用于训练目标检测算法的交通场景图片)。且这些图片的维度需要和自动驾驶目标检测深度模型的输入维度D保持一致。

收集的图片数量与网络上常见的交通场景训练集规模大小相似，建议在20万张图片以上。将步骤1采集到的数据集记为X，对其的真实分类标签构成的集合记为Y。

随后在步骤四中收集到的部分图片会被施加人眼无法察觉的像素值上的对抗扰动，从而变为对抗样本，令目标检测深度模型无法正确识别。

步骤2建立对抗目标模型

针对自动驾驶感知系统的目标检测深度模型的非连续性导致的步骤4当中的优化困难问题，本发明提出建立一个新的对抗目标模型代替感知系统目标检测深度模型生成对抗样本，且该对抗样本对于感知系统目标检测深度模型同样有效。

本发明将对抗样本将要进行干扰的目标检测深度模型中用于提取周围环境信息的卷积层截出，与三层全连接层和一层softmax层拼接成一个分类深度网络model_target(x)，称为对抗样本的对抗目标模型。且由于目标检测深度模型与model_target(x)共用相同的卷积层作为模型的输入端，故两个模型的输入维度都为D。

model_target(x)中的x为对抗目标模型的D维输入数据，即为步骤1当中收集到的数据集X中的一个三通道RGB数字图像样本。

现使model_target(x)中属于目标检测深度模型的卷积部分的参数不变，随后将新构成的模型model_target(x)在步骤1收集到的交通场景的训练集上进行训练，在训练过程中仅更新全连接层与sotfmax层的参数，当新模型可以在测试集上取得较好的分类结果时，此时的新模型便是最终的对抗目标模型model_target(x)。

由于目标检测深度模型与model_target(x)都用的是卷积层提取的x的特征，以达到各自模型相应的功能。换言之对抗样本其实攻击的就是目标检测模型当中的卷积层。所以用对 model_target(x)的攻击代替对自动驾驶感知系统目标检测深度模型的攻击是等价的。

附图三展示了model_target(x)和目标检测模型的结构，揭示了两者之间的关系。

注：当由于某些原因无法访问一个目标检测深度模型的卷积层参数时，可以使用与目标检测模型相同或同类的训练数据集和与目标检测模型相同的模型架构去训练一个代理模型，随后在其上展开本发明所提出的对抗样本生成方法。

步骤3建立对抗扰动的数学描述

对抗样本是在未施加对抗扰动的A类数字化图片上(如一张被判定类别为红灯的图片)，施加人眼难以察觉的对抗扰动。从而使得在人眼观察下，对抗样本仍然属于A类，然而却被原本可以正确识别图片类别的对抗目标模型识别为指定类别B类(如被识别为绿灯)。

结合上述面向对抗样本的功能性描述，本发明对其建立数学描述。使对抗扰动人眼难以察觉对应的是建立对抗扰动约束的数学描述；使对抗样本被识别为指定类别对应建立对抗扰动攻击性数学描述。

步骤3.1对抗扰动约束的数学描述

对抗样本的生成，是在未施加任何对抗扰动的图片x上施加一些肉眼无法识别的D维像素对抗扰动

新生成的对抗样本即为

为了达到对抗样本

与图片x的差异难以用肉眼分辨，需要对

施加一定的约束。这里指出如步骤3.1.1和步骤3.1.2所分别建立的二范数约束数学描述和无穷范数约束数学描述。

步骤3.1.1建立二范数约束的数学描述

第一种对

的约束是无穷范数约束是二范数约束，二范数约束的思想是在x上每个像素所施加的扰动的总和不超过一个阈值，从而达到对抗样本无法被人眼察觉的目的，将这个目的转化为数学描述即为：

其中s_i代表对抗扰动

越难以被人眼识别。

步骤3.1.2建立无穷范数约束的数学描述

另一种

的约束是无穷范数约束是，它的思想是在x上施加的对抗扰动的幅度不超过一定的阈值，将这个目的转化为数学描述即为：

ε代表一个二范数约束的阈值，ε越小，对抗样本

越难以被人眼识别。

附图四展示了无穷范数约束中，在不同的ε下得到的不同的对抗样本。

一般来说，人眼倾向于识别与周围像素有极大差异的像素点，而二范数约束恰恰会导致对抗扰动

部分像素变得极大而其他的却很小，易被人眼所识别。而无穷范数约束恰恰是要求对抗扰动

上的所有像素发生相对均匀的变化，更加难以被人眼识别。

步骤3.2建立对抗扰动攻击性的数学描述

对抗扰动的攻击性的数学描述需要由损失函数来刻画。损失函数作为衡量大量数据在深度模型当中的输出与数据的真实样本标签之间“差异度”的一种函数，常被用于深度模型的训练过程中。

在对抗目标模型model_target(x)的训练过程中，利用损失函数对深度模型当中的参数的梯度，利用优化算法不断地去更新深度模型参数，使得模型在训练数据集X上的输出和对应真实分类标签集合Y之间的损失函数最小化，从而在训练数据集X上产生一个符合训练数据到训练数据标签的映射。随后通过一些如对model_target(x)的参数施加二范数约束等的泛化策略，使对抗目标模型即使在测试数据集上也得到很好的结果(可从步骤1中收集的X中随机抽取20％作为测试集)。

以步骤2中对抗目标模型model_target(x)的训练为例子说明利用损失函数训练模型的过程。一个常规的模型训练过程中，首先训练集X当中的一个样本输入x经过model_target(x)后会被模型当中的最后一层sotfmax层输出为一个离散分布p：

其中j代表第j种类,且j∈C；C代表模型可分类类别全体；a_j代表对应第j类的softmax层神经元的输入值，它由最后一层全连接层的各个单元的输出线性组合所决定；p_j代表x为第j类标签的概率。

然后，利用输入x进入model_target(x)后softmax层每个单元的输出p_j和x的真实标签y，利用交叉熵函数构造损失函数。(4)式就是在整个训练集X上的交叉熵函数。

首先，将真实类别y进行ONEHOT编码作为y的预处理，ONEHOT编码伪代码如下：

即代表第j类的y被编码为向量q，q为一个c维向量(c为C中元素个数)，且其中第j维q_j为1，其余维度均为0。

交叉熵函数构造下的损失函数为：

CrossEntroptLoss(model_target(X),Y)＝-∑_x∈X∑_j∈Cq_jln(p_j) (4)

其中X代表整个训练数据集；Y代表X的真实分类标签集合；x代表X中一个样本。

式(4)代表的是在整个训练集X上，每个样本的在对抗目标模型model_target(x)的输出分布p与y编码后产生的分布q之间的相似度的总和。可以利用(4)式更新model_target(X)的参数从而降低样本输出分布与真实分布之间的差异。

然而在自动驾驶感知系统的对抗样本生成过程当中,本发明也利用了损失函数的思想。通过不再更新模型的参数，而是将对抗扰动

当成待更新变量。

值得一提的通过对抗样本的攻击效果可以分为两类，一是干扰效果，二是误导效果。因此我们分别建立了两类关于攻击性的数学描述，如步骤3.2.1和步骤3.2.2所示。

步骤3.2.1建立干扰性对抗扰动攻击的数学描述

对抗样本的干扰性效果即原本可以被深度模型识别为正确标签的y的输入x，施加对抗扰动后，使得对抗样本

被对抗目标模型model_target(x)不能被识别为y，而是识别为任意其他一种类别。将上述目的转化为损失函数基础上的数学描述，即干扰性损失函数：

根据Loss_disturb对

的梯度

利用步骤4优化算法对

进行更新。因为(5)式是(4)式的相反数，更新

会使得分布q与p的差异度变大，从而使得对抗样本

无法被识别为原类别。

步骤3.2.2建立误导性对抗扰动攻击的数学描述

对抗样本的误导性效果即原本可以被深度模型识别为正确标签的y的输入x，施加对抗扰动后，使得对抗样本

被对抗目标模型model_target(x)识别为事先指定好的目标标签y_t。将上述目的转化为损失函数的数学建模，即误导性损失函数：

其中

为y_t的ONEHOT编码q^t向量的第j个分量的值。

Loss_mislead对

的梯度

利用步骤4优化算法对

进行更新。因为(6)式与(4)式的形式相同，更新

会使得分布q^t与p的差异度变小，使得对抗样本

被对抗目标模型model_target(x)识别为事先指定好的目标标签y_t。

步骤4对抗扰动生成优化问题求解

首先在步骤1中利用自动驾驶车辆摄像头收集到的RGB交通场景图片数据集中，选择一张图片x作为对抗扰动生成的基底。

随后根据步骤3确定的数学对抗样本的数学描述，可以确定对抗扰动生成的优化目标。以无穷范数约束下的误导性对抗扰动攻击为例，最终期望的对抗扰动应该满足：

首先对

采用任意方式的随机初始化赋予初值，之后对(7)式的优化可以分为两个部分进行。

在一个循环迭代过程中不断地利用损失函数Loss_mislead对

的梯度信息结合优化算法对

进行更新，然后根据设定的约束条件对

进行范数约束。不断重复上述的循环，直到满足设立的一个循环终止条件，就可以得到对抗扰动

步骤4.1基于梯度信息的优化算法

上述优化目标建议采用如动量梯度下降算法(Momentum Gradient Descent)或者亚当时刻估计(Adam Moment Estimation简称Adam)这类带有随机性的梯度下降法，使得(7)式得到的

尽可能逼近全局最优解。

以误导性损失函数为例下写出如何利用Momentum Gradient Descent在干扰性损失函数进行

的更新：

其中σ控制动量影响因子，即

向量方向对

的影响程度。β控制梯度影响因子，即

梯度向量反方向方向对

的影响程度。

步骤4.2优化中对对抗扰动的范数约束

在

的更新过程中，为了满足步(7)式确定的约束，需要在(8)式过后对

进一步约束处理。

现定义函数

他的功能为当

中某个像素超过ε就将该像素的值重新赋值为ε。

即每次(8)式得到的

再经过CLIP函数的处理：

步骤4.3确定循环停止条件

在步骤4.1与步骤4.2依次对

更新过程中，需要在步骤4.2后判断

是否达到本发明对对抗扰动的要求，即对抗样本

能否达到其干扰性或者误导性的效果。若不能则重复步骤4.1与步骤4.2。

对于干扰性对抗样本，要求

满足以下条件时停止更新

其中α为一负数，代表

与原类别y的相似程度。α越小

越难以被识别为原类别，对抗扰动

的干扰性就越大。

对于误导性样本，要求满足以下条件时停止更新

其中β越小，对抗样本

越容易分类为y_t。对抗扰动的误导性也就越大。

注：除了(10)式或(11)式的终止条件外，亦可在Loss值进入长期稳定的情况下中止对抗样本的生成。

对抗扰动生成方法在CIFAR-10上的测试

当对对抗目标模型的输入维度D越高时维度较高时，即使在很强的范数约束下(τ与ε都极小)，也可以轻易获得优良攻击效果的对抗样本。而通常自动驾驶感知系统处理的图片输入都是清晰度在3×1000×1000以上的RGB数字图像。

在附图四中，本发明已经展示了在MNIST上对抗样本的有效性。为了证明本发明所展示的方法的优越性，现用本发明方法在低纬度数据集CIFAR-10上生成的对抗样本作为本发明提供的方法的一个性能测试。

下载CIFAR-10数据集(相当于步骤1)，它由大小为3×32×32的RGB数字图像组成，且数据集一共包含十种类别的图片。

依照步骤2，在CIFAR-10上训练对抗目标模型model_target(x)，即一个分类卷积深度神经网络。它由4层卷积层，三层全连接和一层softmax层构成，结构与附图二中建立的对抗目标模型相似。

然后按照步骤3生成对抗样本的数学性描述建立优化目标，利用步骤4求解优化目标得到对抗扰动，将对抗扰动与CIFAR-10上的样本叠加，生成在CIFAR-10上的干扰性与误导性对抗样本，结果如附图五所示。

正如结果所展示的那样，尽管CIFAR-10的维度较低，施加的对抗扰动的约束不能过于严格，在保证对抗样本的攻击性的前提下其仍然难以被人眼察觉异常。

因此本发明所采用的方法能够能够误导车载目标识别深度模型(他们处理的交通场景图片维度远高于CIFAR-10),也反映了车载感知系统存在安全漏洞。因此本发明所生成的对抗样本对主动发现自动驾驶感知系统的漏洞起到了关键作用。

图二为对抗样本生成的流程图

1.利用车载摄像头，采集用于自动驾驶感知系统的高清晰度交通场景RGB数字图片数据集。

2.截取自动感知系统的目标检测模型当中的用于特征提取的卷积深度网络，将其串联全连接层与softmax层，搭建与自动驾驶感知系统目标检测模型等价的对抗目标模型，即一个分类器。随后用交通场景训练集训练该分类器。

3.根据对抗样本的功能性要求。对对抗样本人眼难以察觉的要求建立对抗扰动约束数学描述，本实施例中建立的是对抗扰动无穷范数约束的数学描述；对对抗样本对模型的干扰或误导功能建立对抗扰动攻击的数学描述，本实施例中建立的是误导性对抗扰动的数学描述。

4.现根据步骤3中的对抗扰动的数学描述，确定的为了得到对抗扰动的优化问题。在步骤一收集的数据集中选择一张图片，作为对抗扰动生成的基底。在循环迭代求解优化问题的过程中，先对对抗扰动进行一次步骤4.1基于梯度信息的优化；紧接着根据优化目标中的无穷范数约束，再对对抗扰动进行一次步骤4.2约束处理。随后判断经过上述两个步骤的对抗扰动是否满足步骤4.3确立的当前循环的终止条件。若不满足则重复上述循环过程，若满足则结束循环得到对抗扰动。

5.将对抗扰动与对抗目标模型输入图片叠加即可得到对抗样本。

图三为对抗目标深度模型和目标检测深度模型的结构

数字图像经过模块c卷积神经网络进行特征提取，即将卷积算子在数字图像输入上遍历做卷积运算，所得到的结果再由新的卷积算子遍历，最终会得到一幅特征图。该特征图随后可被用于分类，亦可被用于自动驾驶感知系统中的目标检测深度模型。

具体地，模块c与模块a与自动驾驶感知系统目标检测模型等价的对抗目标模型，即一个分类深度模型。特征图被拉成m维向量(m视特征图大小而定)，与m维输入c维输出的三层全连接层(c为感知系统目标检测模型的可分类类别集合C中的元素个数)。随后全连接层的c维输出与接收c维输入的softmax层相连，softmax层输出最终用于分类的c维向量，向量上每个维度的值对应目标检测任务中一个类别的概率。

模块c与模块b构成自动驾驶感知系统的目标检测深度模型。特征图被送入感知系统目标检测模型中的RPN(Region Proposal Network)中，RPN在特征图上提取出一些可能存在的目标物体的区域RoI(Regionof Interest)，随后这些RoI会被送入池化层RoIPooling。池化层输出经过卷积后会结果被分别送入回归全连接层用于目标物体的定位和分类全连接层用于分类。

图四为MNIST上，无穷范数在不同的阈值约束下所生成的对抗样本为了使实验结果更加明显，本发明采用了灰度手写数字集MNIST，每张手写数字图片的大小为1×28×28。

(a)为MNIST上的样本“7”，“2”，“1”，“0”。(b)，(c)，(d)分别是在误导性损失函数下生成的二范数约束下的对抗样本，目的是使被(a)中样本被分类为“1”，“2”，“3”， “4”。(b)，(c)，(d)的对抗扰动程度分别为ε＝0.1，ε＝0.2，ε＝0.3。

需要注意的是对抗样本随着维度的降低，越易被察觉，也越难以施加人眼不易察觉得对抗扰动，这也是本发明采用较低维度的MNIST展示实验结果的目的。若使用3×1000× 1000以上清晰度的RGB彩色数字图像，即使在ε很大的情况下，也难以凭借人眼察觉异常。

图五展示了CIFAR-10数据集下分别基于干扰性对抗样本和误导性对抗样本 (a)为CIFAR-10上的样本，类别分别为“猫”，“狗”，“车”，“马”。(b)为基于干扰性损失函数生成的对抗样本，类别分别为“鹿”，“青蛙”，“鹿”，“马”。(c)为基于误导性损失函数的对抗样本，本发明事先设定均被分类为“狗”。(c)中对抗样本分类为“狗”，“狗”，“狗”， “狗”。

本发明的积极进步效果在于：在自动驾驶预期功能安全领域中，对于对抗样本生成的研究非常有限，本发明通过探索用于自动驾驶感知系统结构与参数，构造形式特殊的损失函数，并采用迭代的方法生成对抗样本，该方法采用基于动量梯度下降优化算法，对车载摄像头采集的图片添加不易被人类肉眼识别的干扰，生成可能误导目标识别深度模型的对抗样本，进而通过检查深度模型是否被误导即可判断感知系统是否存在安全漏洞。本发明为未来设计漏洞检测算法与攻击防御策略提供了技术支持，进而为提高自动驾驶系统的安全性及鲁棒性奠定了基础。本方法对于自动驾驶系统的安全性提高及安全性检测具有启发性，且实现方法简单，思路清晰，容易实现。

Claims

1.一种自动驾驶汽车视觉感知系统漏洞检测的对抗样本生成方法，

其特征在于：

步骤二、建立对抗目标模型：建立一个对抗目标模型代替感知系统目标检测深度模型生成对抗样本，且该对抗样本对于感知系统目标检测深度模型同样有效；将对抗样本将要进行干扰的目标检测深度模型中用于提取周围环境信息的卷积层截出，与三层全连接层和一层softmax层拼接成一个分类深度网络model_target(x)，称为对抗样本的对抗目标模型，且由于目标检测深度模型与model_target(x)共用相同的卷积层作为模型的输入端，故两个模型的输入维度都为D；model_target(x)中的x为对抗目标模型的D维输入数据，现使model_target(x)中属于目标检测深度模型的卷积部分的参数不变，随后将构成的模型model_target(x)在步骤一收集到的交通场景的训练集上进行训练，在训练过程中仅更新全连接层与sotfmax层的参数，当模型可以在测试集上取得较好的分类结果时，此时的模型便是最终的对抗目标模型model_target(x)；

步骤三、建立对抗扰动的数学模型：对抗样本是在未施加对抗扰动的A类数字化图片上施加人眼难以察觉的对抗扰动，然而却被原本正确识别图片类别的对抗目标模型识别为指定类别B类；