CN111401407B

CN111401407B - 一种基于特征重映射的对抗样本防御方法和应用

Info

Publication number: CN111401407B
Application number: CN202010115357.XA
Authority: CN
Inventors: 陈晋音; 郑海斌; 张龙源; 王雪柯
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-05-14
Anticipated expiration: 2040-02-25
Also published as: CN111401407A; US20220172000A1; WO2021169157A1; US11921819B2

Abstract

本发明公开了一种基于特征重映射的对抗样本防御方法和应用，包括：构建特征重映射模型，该特征重映射模型包括用于生成显著特征的显著特征生成模型，用于生成非显著特征的非显著特征生成模型，用于判别显著特征和非显著特征真伪的共享判别模型；根据显著特征生成模型和非显著特征生成模型构建检测器，该检测器用于检测对抗样本和良性样本；根据显著特征生成模型构建重识别器，该重识别器用于识别对抗样本的类别；在进行对抗样本检测时，将检测器连接到目标模型的输出，利用检测器进行对抗样本检测；在进行对抗样本识别时，将重识别器连接到目标模型的输出，利用重识别器进行对抗样本识别。能够实现对抗样本的检测和重识别的双重防御效果。

Description

一种基于特征重映射的对抗样本防御方法和应用

技术领域

本发明涉及面向深度学习对抗攻防的防御领域，具体涉及一种基于特征重映射的对抗样本防御方法和应用。

背景技术

随着硬件计算能力的提升、大数据存储的支持和理论框架的完善，深度学习技术凭借强大的特征提取能力和拟合能力被应用到众多领域，包括计算机视觉领域、自然语言处理领域、生物信息领域等等。同时，深度学习技术也从实验室逐渐走向产业化，其中以自动驾驶应用最为突出。自动驾驶系统中的路牌识别、车牌识别、行人识别、道路识别、障碍物检测等，都涉及到计算机视觉的技术，而语音指令控制则涉及到语音识别技术。随着深度学习技术的进一步广泛应用，其中存在的问题也逐渐暴露。

早在2014年，就有研究人员发现深度模型容易受到对抗样本的攻击，即对抗攻击。具体表现为，训练好的深度模型对测试集中的良性样本具有较好的识别准确率，但是在原本能够被正确识别的良性样本中添加微小的精心设计的对抗扰动后，得到的对抗样本会被深度模型错误识别。对抗攻击揭露了深度模型中存在的漏洞，而这样的漏洞将会阻碍深度学习技术的进一步发展。同样以自动驾驶系统为例，对抗攻击将会对其安全性造成致命的影响，如原本“STOP”的路牌上被粘上一些小贴纸，自动驾驶系统中的路牌识别模型就会把“STOP”识别成限速“40”，这对驾驶人员和行人都十分危险。

根据攻击者是否知道深度模型的内部细节，可以将对抗攻击分为白盒攻击和黑盒攻击；根据攻击者是否设定攻击目标，可以将对抗攻击分为目标攻击和无目标攻击；根据攻击发生的场景，可以将对抗攻击分为电子对抗攻击和物理对抗攻击。研究对抗攻击的最终目的是为了发现深度模型中存在的漏洞，提高模型的安全性和鲁棒性。因此，目前研究人员也提出了许多针对对抗攻击的防御技术，根据防御实现的目标不同，可以分为完全防御和仅检测防御；根据防御作用的位置不同，主要可以分为以下三类：数据修改防御、模型修改防御和附加结构防御。最新的研究表明，对抗样本的存在不是深度学习模型的一个漏洞(Bug)，而是一种特征，只是机器能够很好地识别这种特征，但是人类很难理解这种特征。

完全防御是重新识别对抗样本所对应的原始良性样本的类标；仅检测防御是识别待检测的样本是对抗样本还是良性样本。

数据修改防御方法通过对输入的数据进行修改，破坏在样本上精心设计的对抗扰动，从而实现防御。目前的常用的数据集修改防御方法包括数据缩放、数据旋转、数据翻转、数据重编码等操作，存在的主要问题是不仅会破坏对抗样本上的扰动，同时也会改变原始数据的样本的分布，属于无差别防御，无法实现先检测对抗样本，再针对性的对对抗样本实现防御。

模型修改防御方法包括模型的层数修改、模型的激活函数修改、模型的层尺寸修改、模型的连接稠密度修改等，其存在的主要问题是需要知道原始模型的结构信息，无法实现模型隐私的安全性。

附加结构防御方法是通过在原始模型的外部或者内部添加附加的子结构实现防御，外部附加结构多为检测器，只能实现检测对抗样本的功能而大都存在结构复杂的问题，而内部附加结构需要知道模型的隐私信息。

发明内容

为了克服现有的路牌识别、车牌识别、行人识别、道路识别、障碍物检测等防御方法存在的需要获取原始模型隐私信息、对抗原始良性样本的识别有影响、防御模型结构复杂等不足，为了实现对抗样本的检测和重识别的双重防御效果，本发明提供一种基于特征重映射的对抗样本防御方法和应用。

本发明的技术方案为：

一种基于特征重映射的对抗样本防御方法，包括以下步骤：

构建特征重映射模型，该特征重映射模型包括用于生成显著特征的显著特征生成模型，用于生成非显著特征的非显著特征生成模型，用于判别显著特征和非显著特征真伪的共享判别模型；

根据显著特征生成模型和非显著特征生成模型构建检测器，该检测器用于检测对抗样本和良性样本；

根据显著特征生成模型构建重识别器，该重识别器用于识别对抗样本的类别；

在进行对抗样本检测时，将检测器连接到目标模型的输出，利用检测器进行对抗样本检测；

在进行对抗样本识别时，将重识别器连接到目标模型的输出，利用重识别器进行对抗样本识别。

优选地，特征重映射模型的构建方法为：

构建特征重映射模型训练体系，包括目标模型、显著特征生成模型、非显著特征生成模型以及共享判别模型，其中，目标模型用于目标识别，输入为样本，输出隐藏层特征；显著特征生成模型的输入为隐藏层特征，输出为生成显著特征；非显著特征生成模型的输入为隐藏层特征，输出为生成非显著特征；共享判别模型的输入为生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征，输出为对良性样本或对抗样本的识别结果；

构建训练共享判别模型的损失函数loss_D和训练显著特征生成模型和非显著特征生成模型的损失函数loss_G，利用损失函数loss_D和损失函数loss_G对共享判别模型、显著特征生成模型以及非显著特征生成模型进行联合训练，以确定显著特征生成模型、非显著特征生成模型以及共享判别模型的模型参数；

其中，损失函数

为对抗样本的显著特征生成训练时共享判别模型的损失函数，

对抗样本的非显著特征生成训练时共享判别模型的损失函数，

为良性样本的显著特征生成训练时共享判别模型的损失函数，

为良性样本的非显著特征生成训练时共享判别模型的损失函数；

损失函数

为对抗样本的显著特征生成训练时显著特征生成模型的损失函数，

为对抗样本的非显著特征生成训练时非显著特征生成模型的损失函数，

为良性样本的显著特征生成训练时显著特征生成模型的损失函数，

为良性样本的非显著特征生成训练时非显著特征生成模型的损失函数。

优选地，检测器的构建方法为：

构建检测器训练体系，包括目标模型、参数确定的显著特征生成模型、参数确定的非显著特征生成模型以及检测模型，其中，目标模型用于目标识别，输入为样本，输出隐藏层特征；显著特征生成模型的输入为隐藏层特征，输出为生成显著特征；非显著特征生成模型的输入为隐藏层特征，输出为生成非显著特征；检测模型的输入为生成显著特征与生成非显著特征级联形成的级联特征，输出为良性样本或对抗样本的检测结果；

构建训练检测模型的损失函数loss_detect，以最小化损失函数loss_detect为目标对检测模型进行训练，以确定检测模型的模型参数；

其中，损失函数loss_detect为：

其中，log(·)表示对数函数，Det(·)表示检测模型，h(·)表示目标模型隐藏层模块的输出，x_i表示良性样本，

表示x_i对应的对抗样本，G_SF(·)表示显著特征生成模型，G_NSF(·)表示非显著特征生成模型，表示为concat(G_SF(·),G_NSF(·))表示级联特征。

优选地，重识别器的构建方法为：

构建检测器训练体系，包括目标模型、参数确定的显著特征生成模型以及重识别模型，其中，目标模型用于目标识别，输入为样本，输出隐藏层特征；显著特征生成模型的输入为隐藏层特征，输出为生成显著特征；重识别模型的输入为生成显著特征，输出为对抗样本的类别；

构建训练重识别模型的损失函数loss_re-recog，以最小化损失函数loss_re-recog为目标对重识别模型进行训练，以确定重识别模型的模型参数；

其中，损失函数loss_re-recog为：

其中，log(·)表示对数函数；

表示对抗样本对应的原始良性样本的真实类标经过one-hot编码后，在第k个位置上的元素值；

表示对抗样本经过目标模型后得到的

将

输入参数确定的显著特征生成模型后得到

将生成的显著特征输入到重识别模型后输出的置信度矩阵的第k个位置上的元素值；k为原始样本分类索引，m表示原始样本的分类数；i为对抗样本索引，

表示训练集中对抗样本的数量。

优选地，训练特征重映射模型、检测器以及重识别器的训练样本的构建方法为：

(a)对于原始的良性样本x_i，首先测试其在目标模型中的预测类标与真实类标是否一致，若不一致，则剔除该良性样本不攻击，若一致，则执行步骤(b)；

(b)针对目标模型和良性样本x_i，使用m_a种不同的攻击方法进行攻击得到对应的对抗样本集合

(c)攻击结束后，将步骤(b)中得到的对抗样本集合中的对抗样本逐一输入目标模型中进行测试，若预测类标与真实类标不一致，则表示其为攻击成功的对抗样本，保留在集合中；若一致，则表明其攻击失败，从对抗样本集合中剔除；

(d)重复步骤(a)～(c)的操作，得到所有样本的对抗样本集合；

(e)对对抗样本集合

中的样本进行重新整理排序。

优选地，显著特征生成模型与非显著特征生成模型的结构相同，为依次连接的输入层、隐藏单元以及输出层，其中，隐藏单元包含若干个隐藏层，每个隐藏层为全连接层、卷积层中的至少一种。

优选地，共享判别模型、检测模型以及重识别模型网络结构相同，均包括依次连接的输入层、隐藏单元、过渡层以及输出层，其中，隐藏单元包含若干个隐藏层，每个隐藏层为全连接层、卷积层中的至少一种。

本发明的技术构思为：基于特征重映射的对抗样本防御方法，通过设计特征重映射模型，将深度模型中隐藏层模块提取的特征分别映射为显著特征和非显著特征，进一步学习对抗样本和良性样本的显著特征和非显著特征的差异性，实现检测对抗样本，并重新识别对抗样本的原始类标。最后通过在CIFAR10数据集上训练多个模型，使用不同的攻击方法攻击后，再使用本发明提出的防御方法进行检测，同时在重识别阶段与样本缩放(resize)、样本旋转(rotate)两种防御方法进行对比，验证了本发明基于特征重映射的对抗样本防御方法的效果良好。

一种自动驾驶中对抗攻击的防御方法，以包含4类户外交通工具和6类自然野生动物图像的数据集作为训练集，采用上述的基于特征重映射的对抗样本防御方法来构建检测器和重识别器，在进行对抗样本检测时，将检测器连接到目标模型的输出，利用检测器进行对抗样本检测；在进行对抗样本识别时，将重识别器连接到目标模型的输出，利用重识别器进行对抗样本识别。

本发明的有益效果为：1)通过先检测对抗样本，再对对抗样本进行重识别的两阶段操作，尽可能减小了附加防御方法对良性样本的识别准确率的影响；2)采用附加模型的防御措施，不需要获取目标模型的内部信息，保护了用户和模型的隐私；3)提出的附加模型结构较为轻量；4)能够实现对抗样本检测和重识别的功能，满足不同的应用需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的特征重映射模型训练体系的结构示意图；

图2是本发明实施例提供的检测器训练体系的结构示意图；

图3是本发明实施例提供的重识别器训练体系的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

参照图1～图3，实施例提供的基于特征重映射的对抗样本防御方法，包括以下步骤：

S101，构建特征重映射模型，该特征重映射模型包括用于生成显著特征的显著特征生成模型，用于生成非显著特征的非显著特征生成模型，用于判别显著特征和非显著特征真伪的共享判别模型。

训练所有模型均需要训练样本，训练样本包括良性样本和对抗样本，其中，数据样本格式定义为包含N_sam个样本的集合X，

每个样本表示为x_i∈R^H×W×c(i＝1,2,...,N_sam)，即x_i是一个包含H×W×c个元素的矩阵，其中H表示高度，W表示宽度，c表示样本通道数。数据集的类标集合为

每个样本都有对应的类标y_i，表示第i个样本x_i属于第y_i类，其中y_i＝{0,1,2...,m-1}(i＝1,2,...,N_sam)，即该数据集为m分类的数据集。同时定义样本类标的one-hot编码形式，表示为

即一共包含m个元素的向量，其中第y_i个元素值为1，其余元素值为0。

深度模型DNN定义为F(X,Θ):X→Y，其中Θ表示模型在数据集{X,Y}上训练得到的模型参数。深度模型实现的功能是将数据X映射为Y，在攻击时DNN是攻击者的攻击目标，在防御时是防护者的保护目标，统称为目标模型，在实际应用中，该目标模型可用于自动驾驶系统中的路牌识别、车牌识别、行人识别、道路识别、障碍物检测以及语音识别，也就说本发明提供的基于特征重映射的对抗样本防御方法可以用于路牌识别、车牌识别、行人识别、道路识别、障碍物检测以及语音识别的防御，根据结构功能，可以将DNN分为输入层模块、隐藏层模块、输出层模块三部分。输入层模块获取数据样本；隐藏层模块提取样本的特征并将有用的特征不断放大，实现特征映射的功能，隐藏层模块的最后一层输出称为logits；输出层模块使用Softmax函数对logits进行归一化得到置信度向量，取向量中置信度值最大的神经元所在的位置作为DNN预测的类标。定义目标模型输出的logits作为输入样本x_i在隐藏层模块最后一层的特征，表示为h(x_i)；经过Softmax归一化后的置信度表示为1×m的置信度向量

最后的预测类标表示为

其中argmax(·)函数返回向量

中元素值最大的位置，预测类标集表示为

当样本x_i的预测类标

与真实类标y_i一致时，即目标模型对输入样本预测正确。

在确定良性样本和深度模型的基础上，采用攻击方法即可以生成对抗样本。本发明使用不同的攻击方法获取对抗样本，包括白盒攻击方法和黑盒攻击方法。在进行白盒攻击时，需要获取目标模型的梯度信息，使用的白盒攻击方法包括但不仅限于快速梯度符号攻击法(fast gradient sign method,FGSM)、动量迭代的快速梯度符号攻击法(momentumiterative fast gradient sign method,MI-FGSM)、基本迭代攻击方法(basic iterativemethods,BIM)、迭代最小似然类攻击方法(iterative least-likely class,ILCM)、雅可比特性映射方法攻击法(jacobian saliency map approach,JSMA)、迷惑深度攻击方法(DeepFool)、Carlini&Wagner攻击方法(C&W)等。在进行黑盒攻击时，只需要获取目标模型的输出信息，使用的黑盒攻击方法包括但不仅限于单像素攻击方法(single pixelattack)、零阶优化攻击方法(zeroth order optimization,ZOO)、边界攻击方法(Boundary)等。具体攻击过程为：

(d)重复步骤(a)～(c)的操作，得到所有样本的对抗样本集合；

(e)对对抗样本集合

中的样本进行重新整理排序。

特征映射模型的功能是将输入的特征进行重新映射，分别映射成显著特征和非显著特征。对于对抗样本，其显著特征是模型学习到的人类需要的特征，非显著特征是模型学习到的人类不需要的特征；对于良性样本，其显著特征和非显著特征都是模型学习到的且人类需要的特征。

特征映射模型包括三部分，显著特征生成模型、非显著特征生成模型、共享判别模型。每个模型都包括输入层模块、隐藏层模块和输出层模块三部分。显著特征生成模型的输入是目标模型的隐藏层模块输出的特征h(x_i)，输出是生成的显著特征；非显著特征生成模型的输入是目标模型的隐藏层模块输出的特征h(x_i)，输出是生成的非显著特征；共享判别模型的输入是生成的显著特征、生成的非显著特征、真实的显著特征、真实的非显著特征，输出是0或者1的判定结果。

显著特征生成模型和非显著特征生成模型的输入层模块和输出层模块的尺寸相同，与特征h(x_i)的尺寸一致；共享判别模型的输入层模块的尺寸与特征h(x_i)的尺寸一致，输出层模块是经过Sigmoid函数激活的单个神经元。

对于显著特征生成模型的隐藏层模块，本发明提出了三种不同的构建策略。第一种是全连接策略，即隐藏层模块全部使用全连接层，层数为2a+1，其中a＝1,2,3...根据硬件计算能力调整。假定输入层模块和输出模型的尺寸为s_in，即包含s_in个元素，则第i层的神经元数量为：

其中，

表示第i层的神经元个数，在这里隐藏层模块的全连接层数为奇数层，s_middle表示最中间层的神经元个数，Z[·]表示取整函数，s_in表示输入层模块和输出模型的尺寸，即输入层和输出层的神经元个数。以输入层s_in＝100，中间层s_middle＝400，a＝2，共有5层的隐藏层模块为例，则第一层到第五层的神经元个数分别为200,300,400,300,200。其中a和s_middle决定了神经元层数和每层神经元的个数，根据用户能够达到的硬件计算能力调整。在全连接策略中，每个全连接层的dropout比率取值范围为[0.3,0.8]，激活函数选择包括但不局限于ReLU、Leaky ReLU、tanh、exponential linear激活、Sigmoid激活等。

第二种策略是全卷积策略，即隐藏层模块全部使用卷积结构，层数为2b+1，其中b＝1,2,3...根据硬件计算能力调整。卷积层主要由卷积核尺寸决定，卷积核的尺寸包括窗口大小、核深度、滑动步长。下面具体说明窗口大小、核深度、滑动步长这三个参数的设定。

卷积核的窗口为正方形，即长和宽一致，窗口尺寸包括但不限于{1×1,3×3,5×5,7×7}这几种类型，不同卷积层窗口尺寸可以不同，窗口的滑动步长包括但不限于{0,1,2,3,4,5}这几种类型。但是滑动步长和窗口尺寸遵循的尺度关系为，窗口尺寸大于滑动步长，以3×3的窗口尺寸为例，其滑动步长限于{0,1,2}这三种选择。下面确定核深度这一参数，假定输入层模块和输出模型的尺寸为s_in，即包含s_in个元素，为了适合卷积结构，本发明设计过渡层将输入层模块、输出层模块分别与隐藏层模块进行联结。在输入层模块和隐藏层模块的过渡层设计为，将输入层的s_in个神经元全连接到s_trans个神经元，然后将s_trans个神经元reshape成w_re×w_re×1的矩形神经元矩阵，即s_trans＝w_re×w_re×1。在隐藏层模块和输出层模块的过渡层设计为将隐藏层模块的输出全连接到包含s_trans个神经元的全连接层，然后将s_trans个神经元的全连接层再次全连接到输出层模块。

全卷积策略中隐藏层模块的第i层卷积核深度采用最近原则确定。最近原则阐述为，首先计算第i层卷积核的理论深度，然后在卷积核深度集合{8,16,32,64,128,256,1024}中选择与理论深度最接近的值作为实际深度。理论深度的计算公式为：

其中，，

表示第i层的神经元个数，在这里隐藏层模块的卷积层数为奇数层，

表示最中间层的神经元个数。公式中b和

决定了神经网络层数和每层卷积核的深度，根据用户能够达到的硬件计算能力调整。在全卷积策略中，每个卷积层的dropout比率取值范围为[0.3,0.8]，激活函数选择包括但不局限于ReLU、Leaky ReLU、tanh、exponential linear激活、Sigmoid激活等，池化的窗口尺寸包括但不限于{1×1,2×2,3×3,4×4,5×5,6×6}这几种类型。

第三种策略为混合策略，即在隐藏层模块中混合使用全连接层和卷积层。全连接层和卷积层的层数、全连接层的每层神经元数、卷积层的卷积核尺寸都根据策略一和策略二中的公式确定。

对于非显著特征生成模型的隐藏层结构，非显著特征生成模型的隐藏层模块的结构与显著特征生成模型的隐藏层模块的结构一致。当显著特征生成模型的隐藏层模块的任意一种策略确定后，将其复制一份作为非显著特征生成模型的隐藏层模块。

共享判别模型的隐藏层模块的结构的确定遵循显著特征生成模型的隐藏层模块的三种策略。唯一的区别在于，在隐藏层模块和输出层模型之间有一个过渡层。共享判别模型的隐藏层模块和输出层模块之间的过渡层设计为，将隐藏层模块的输出全连接到具有128个神经元的全连接层，然后将前述128个神经元的全连接层再次全连接到输出层模块。

在确定好特征重映射模型结构基础上，定义对抗样本的生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征，定义良性样本的生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征。具体过程为：

对抗样本的显著特征定义为对抗样本对应的原始良性样本输入目标模型后，模型隐藏层模块输出的特征。即对于对抗样本

其对应的原始良性样本为x_i，将h(x_i)作为对抗样本的显著特征。

良性样本的显著特征定义为良性样本输入目标模型后，模型隐藏层模块输出的特征。即对于良性样本x_i，将h(x_i)作为良性样本的显著特征。

对抗样本的非显著特征定义为对抗样本输入目标模型后，模型隐藏层模块输出的特征。即对于对抗样本

将

作为对抗样本的非显著特征。

良性样本的非显著特征定义为良性样本输入目标模型后，模型隐藏层模块输出的特征。即对于良性样本x_i，将h(x_i)作为良性样本的非显著特征。

综上所述，在特征映射模型中，当输入特征为h(x_i)时，显著特征生成模型的生成输出表示为G_SF(h(x_i))，对应的真实显著特征为h(x_i)；非显著特征生成模型的生成输出表示为G_NSF(h(x_i))，对应的真实非显著特征为h(x_i)。当输入特征为

时，显著特征生成模型的生成输出表示为

对应的真实显著特征为h(x_i)；非显著特征生成模型的生成输出表示为

对应的真实非显著特征为

对特征重映射模型进行训练，具体过程为：

(a)根据搭建的特征映射模型，进行对抗样本的显著特征生成训练。

在进行对抗样本的显著特征生成训练时，训练的模型包括显著特征生成模型、共享判别模型。显著特征生成模型表示为G_SF(·)，共享判别模型表示为D_share(·)。

两个模型的训练是交替进行的，在训练共享判别模型时，显著特征生成模型的参数固定。目标模型的输入是

目标模型的隐藏层模块的输出是

作为显著特征生成模型的输入。共享判别模型的输入是h(x_i)和

其训练目的是为了判别输入的特征是真实的显著特征还是生成的显著特征，输出是1或者0。在训练共享判别模型的阶段，标记真实的显著特征h(x_i)为1，生成的显著特征

为0，采用交叉熵作为损失函数，具体计算公式如下：

其中，log(·)表示对数函数，D_share(·)表示共享判别器，h(·)表示目标模型隐藏层模块的输出，x_i表示良性样本，

表示对应的对抗样本，G_SF(·)表示显著特征生成模型。此时训练共享判别模型的目标是最小化

显著特征生成模型的输入是

输出是生成的

其训练目的是令生成的显著特征的分布接近真实的显著特征的分布，并且无法被共享判别模型识别。在训练显著特征生成模型的阶段，标记生成的显著特征为1，采用交叉熵作为损失函数，具体计算公式如下：

此时，训练显著特征生成模型的目标是最小化

(b)根据搭建的特征映射模型，进行对抗样本的非显著特征生成训练。

在进行对抗样本的非显著特征生成训练时，训练的模型包括非显著特征生成模型、共享判别模型。非显著特征生成模型表示为G_NSF(·)，共享判别模型表示为D_share(·)。

两个模型的训练是交替进行的，在训练共享判别模型时，非显著特征生成模型的参数固定。目标模型的输入是

目标模型的隐藏层模块的输出是

作为非显著特征生成模型的输入。共享判别模型的输入是

和

其训练目的是为了判别输入的特征是真实的非显著特征还是生成的非显著特征，输出是1或者0。在训练共享判别模型的阶段，标记真实的非显著特征

为1，生成的非显著特征

为0，采用交叉熵作为损失函数，具体计算公式如下：

其中，log(·)表示对数函数，D_share(·)表示共享判别器，h(·)表示目标模型隐藏层模块的输出，

表示对抗样本，G_NSF(·)表示非显著特征生成模型。此时训练共享判别模型的目标是最小化

非显著特征生成模型的输入是

输出是生成的

其训练目的是令生成的非显著特征的分布接近真实的非显著特征的分布，并且无法被共享判别模型识别。在训练非显著特征生成模型的阶段，标记生成的非显著特征为1，采用交叉熵作为损失函数，具体计算公式如下：

此时，训练非显著特征生成模型的目标是最小化

(c)根据搭建的特征映射模型，进行良性样本的显著特征生成训练。

在进行良性样本的显著特征生成训练时，训练的模型包括显著特征生成模型、共享判别模型。显著特征生成模型表示为G_SF(·)，共享判别模型表示为D_share(·)。

两个模型的训练是交替进行的，在训练共享判别模型时，显著特征生成模型的参数固定。目标模型的输入是x_i，目标模型的隐藏层模块的输出是h(x_i)，作为显著特征生成模型的输入。共享判别模型的输入是h(x_i)和G_SF(h(x_i))，其训练目的是为了判别输入的特征是真实的显著特征还是生成的显著特征，输出是1或者0。在训练共享判别模型的阶段，标记真实的显著特征h(x_i)为1，生成的显著特征G_SF(h(x_i))为0，采用交叉熵作为损失函数，具体计算公式如下：

其中，log(·)表示对数函数，D_share(·)表示共享判别器，h(·)表示目标模型隐藏层模块的输出，x_i表示良性样本，G_SF(·)表示显著特征生成模型。此时训练共享判别模型的目标是最小化

显著特征生成模型的输入是h(x_i)，输出是生成的G_SF(h(x_i))，其训练目的是令生成的显著特征的分布接近真实的显著特征的分布，并且无法被共享判别模型识别。在训练显著特征生成模型的阶段，标记生成的显著特征为1，采用交叉熵作为损失函数，具体计算公式如下：

此时，训练显著特征生成模型的目标是最小化

(d)根据搭建的特征映射模型，进行良性样本的非显著特征生成训练。

在进行良性样本的非显著特征生成训练时，训练的模型包括非显著特征生成模型、共享判别模型。非显著特征生成模型表示为G_NSF(·)，共享判别模型表示为D_share(·)。

两个模型的训练是交替进行的，在训练共享判别模型时，非显著特征生成模型的参数固定。目标模型的输入是x_i，目标模型的隐藏层模块的输出是h(x_i)，作为非显著特征生成模型的输入。共享判别模型的输入是h(x_i)和G_NSF(h(x_i))，其训练目的是为了判别输入的特征是真实的非显著特征还是生成的非显著特征，输出是1或者0。在训练共享判别模型的阶段，标记真实的非显著特征h(x_i)为1，生成的非显著特征G_NSF(h(x_i))为0，采用交叉熵作为损失函数，具体计算公式如下：

其中，log(·)表示对数函数，D_share(·)表示共享判别器，h(·)表示目标模型隐藏层模块的输出，x_i表示良性样本，G_NSF(·)表示非显著特征生成模型。此时训练共享判别模型的目标是最小化

非显著特征生成模型的输入是h(x_i)，输出是生成的G_NSF(h(x_i))，其训练目的是令生成的非显著特征的分布接近真实的非显著特征的分布，并且无法被共享判别模型识别。在训练非显著特征生成模型的阶段，标记生成的非显著特征为1，采用交叉熵作为损失函数，具体计算公式如下：

此时，训练非显著特征生成模型的目标是最小化

(e)特征映射模型的联合训练

综上所述，在训练过程中，主要包括三个损失，显著特征生成模型的损失、非显著特征生成模型的损失、共享判别模型的损失，这三个损失分别对应显著特征生成模型、非显著特征生成模型、共享判别模型的参数更新。三个模型的的训练是“2-1”交替训练，即显著特征生成模型G_SF(·)和非显著特征生成模型G_NSF(·)两者独立，可以同时训练，因此G_SF(·)-G_NSF(·)与共享判别模型D_share(·)交替训练，训练D_share(·)时的损失公式为：

训练G_SF(·)-G_NSF(·)时的损失公式为：

训练结束后，即可以获得模型参数确定的特征重映射模型。

S102，根据显著特征生成模型和非显著特征生成模型构建检测器，该检测器用于检测对抗样本和良性样本。

如图2所示，完成特征映射模型的训练后，将共享判别模型从特征映射模型中移除，将显著特征生成模型和非显著特征映射模型的输出层进行级联，级联后作为检测器的输入层模块。检测器的输出层模块是经过Sigmoid函数激活的单个神经元，实现的功能是实现对抗样本和良性样本的检测。在训练检测模型的时候，对抗样本标记为1，良性样本标记为0。

检测模型的隐藏层模块采用全连接网络。区别在于，在隐藏层模块和输出层模型之间有一个过渡层。检测模型的隐藏层模块和输出层模块之间的过渡层设计为，将隐藏层模块的输出全连接到具有128个神经元的全连接层，然后将前述128个神经元的全连接层再次全连接到输出层模块。

检测模型的训练采用交叉熵作为损失函数，模型的输入是G_SF(·)和G_NSF(·)的级联，表示为concat(G_SF(·),G_NSF(·))，其中concat(·,·)表示级联函数。

损失函数的公式表示为：

表示对应的对抗样本，G_SF(·)表示显著特征生成模型，G_NSF(·)表示非显著特征生成模型。此时训练检测模型的目标是最小化loss_detect。

S103，根据显著特征生成模型构建重识别器，该重识别器用于识别对抗样本的类别。

完成检测模型的训练后，能够识别待检测样本集合中的对抗样本和良性样本，对于检测为良性样本的样本，重新输入目标模型中进行识别；对于检测为对抗样本的样本，搭建重识别模型进行进一步识别。如图3所示，移除非显著特征生成模型，仅保留显著特征生成模型，将其输出作为重识别模型的输入。

重识别模型的输入是显著特征生成模型的输出，即

输出层模块是包含m个神经元经过Softmax函数激活的全连接层。重识别模型的隐藏层模块的结构遵循2.2)中的三种策略。唯一的区别在于，在隐藏层模块和输出层模型之间有一个过渡层。重识别模型的隐藏层模块和输出层模块之间的过渡层设计为，将隐藏层模块的输出全连接到具有512个神经元的全连接层，然后将前述512个神经元的全连接层再次全连接到输出层模块。

重识别模型的训练属于多分类任务，使用交叉熵作为损失函数。对于对抗样本

损失函数的公式定义为：

其中，log(·)表示对数函数；

表示对抗样本经过目标模型后得到的

将

输入训练好的显著特征生成模型后得到

将生成的显著特征输入到重识别模型后输出的置信度矩阵的第k个位置上的元素值；m表示原始样本的分类数；

表示训练集中对抗样本的数量。

S104，在进行对抗样本检测时，将检测器连接到目标模型的输出，利用检测器进行对抗样本检测。

S105，在进行对抗样本识别时，将重识别器连接到目标模型的输出，利用重识别器进行对抗样本识别。

实验例

在本发明的实验例中，以户外交通工具和自然野生动物识别应用作为具体场景，这是自动驾驶应用的一个基础场景。然后对训练好的深度识别模型进行攻击和防御，以验证本方法的有效性。首先，采用CIFAR10作为训练数据集，该数据集是一个包含10分类的更接近普适物体的彩色图像数据集，具体包含飞机、汽车、船、卡车共4类户外交通工具和鸟类、猫、鹿、狗、蛙类、马共6类自然野生动物。CIFAR10数据集的每张样本图片包含RGB三通道，尺寸为32*32的像素尺寸。在CIFAR10数据集上训练4个识别模型，代码语言为Python，采用的深度学习框架为Tensorflow，使用的深度学习基本结构包括VGG16、VGG19、ResNet50、ResNet101共4个典型的结构。在经典的深度模型结构基础上，修改了模型的输入和输出层，以匹配训练数据，出入层的尺寸为32*32*3，输出层包含10个神经元。模型训练好后，针对CIFAR10数据集的测试集中的10000张样本，挑选出能够被目标模型正确识别的样本，使用FGSM、MI-FGSM、JSMA三种攻击方法进行攻击得到对抗样本，攻击成功率如表1所示，攻击过程中的最大扰动像素值设置为35，原始良性样本的像素数值范围为[0,255]。

攻击成功率计算公式定义为：

其中，N_toAtt表示待攻击的良性样本数，N_succ表示攻击成功的对抗样本数。

完成攻击后，使用本发明提出的防御方法进行检测，检测结果如表2所示。检测率计算公式为：

其中，N_toDet表示待检测的样本，包括对抗样本和良性样本，其中对抗样本是攻击成功的样本，良性样本是能够被目标模型正确识别的样本，对抗样本和良性样本的比例为1:1；

表示成功地将对抗样本检测为对抗样本和将良性样本检测为良性样本的样本总数。

同时在重识别阶段与样本缩放(resize)、样本旋转(rotate)两种防御方法进行对比，验证了本发明基于特征重映射的对抗样本防御方法的效果良好，图表3所示。resize操作是将待识别样本先缩小为原来的一半尺寸，在重新放大到原来的尺寸，缩放过程中采用双线性插值；rotate操作是将待识别样本顺时针旋转随机角度，然后在旋转后的空白部分用高斯噪声填充，随机旋转的角度范围为[0°,45°]。重识别阶段的识别准确率计算公式为：

其中，N_toRe-recog表示检测为对抗样本的样本数量，

表示待重识别样本中成功准确识别的样本数。

表1在CIFAR10数据集上不同攻击方法攻击不同目标模型的攻击成功率

目标模型	FGSM	MI-FGSM	JSMA
				VGG16	100.00％	100.00％	93.50％
VGG19	98.50％	98.30％	92.00％
				ResNet50	100.00％	100.00％	96.25％
ResNet101	99.00％	100.00％	94.35％

表2本发明方法针对不同攻击得到的对抗样本的检测率

目标模型	FGSM	MI-FGSM	JSMA
				VGG16	95.16％	96.11％	95.34％
VGG19	96.10％	97.36％	96.73％
				ResNet50	97.82％	96.42％	99.44％
ResNet101	97.31％	96.95％	99.24％

表3本发明方法针对不同攻击得到的对抗样本的重识别准确率

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征重映射的对抗样本防御方法，其特征在于，包括以下步骤：

在进行对抗样本识别时，将重识别器连接到目标模型的输出，利用重识别器进行对抗样本识别；

对于对抗样本，其显著特征是模型学习到的人类需要的特征，非显著特征是模型学习到的人类不需要的特征；对于良性样本，其显著特征和非显著特征都是模型学习到的且人类需要的特征。

2.如权利要求1所述的基于特征重映射的对抗样本防御方法，其特征在于，特征重映射模型的构建方法为：

其中，损失函数

损失函数

3.如权利要求1所述的基于特征重映射的对抗样本防御方法，其特征在于，检测器的构建方法为：

其中，损失函数loss_detect为：

4.如权利要求1所述的基于特征重映射的对抗样本防御方法，其特征在于，重识别器的构建方法为：

其中，损失函数loss_re-recog为：

其中，log(·)表示对数函数；

表示对抗样本经过目标模型后得到的

将

输入参数确定的显著特征生成模型后得到

表示训练集中对抗样本的数量。

5.如权利要求1～4任一项所述的基于特征重映射的对抗样本防御方法，其特征在于，训练特征重映射模型、检测器以及重识别器的训练样本的构建方法为：

(d)重复步骤(a)～(c)的操作，得到所有样本的对抗样本集合；

(e)对对抗样本集合

中的样本进行重新整理排序。

6.如权利要求1～4任一项所述的基于特征重映射的对抗样本防御方法，其特征在于，显著特征生成模型与非显著特征生成模型的结构相同，为依次连接的输入层、隐藏单元以及输出层，其中，隐藏单元包含若干个隐藏层，每个隐藏层为全连接层、卷积层中的至少一种。

7.如权利要求2～4任一项所述的基于特征重映射的对抗样本防御方法，其特征在于，共享判别模型、检测模型以及重识别模型网络结构相同，均包括依次连接的输入层、隐藏单元、过渡层以及输出层，其中，隐藏单元包含若干个隐藏层，每个隐藏层为全连接层、卷积层中的至少一种。

8.一种自动驾驶中对抗攻击的防御方法，其特征在于，以包含4类户外交通工具和6类自然野生动物图像的数据集作为训练集，采用如权利要求1～7任一项所述的基于特征重映射的对抗样本防御方法来构建检测器和重识别器，在进行对抗样本检测时，将检测器连接到目标模型的输出，利用检测器进行对抗样本检测；在进行对抗样本识别时，将重识别器连接到目标模型的输出，利用重识别器进行对抗样本识别。