CN114724189A

CN114724189A - 一种目标识别的对抗样本防御模型训练方法、系统及应用

Info

Publication number: CN114724189A
Application number: CN202210639854.9A
Authority: CN
Inventors: 张家伟; 王金伟; 刘光杰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-07-08
Anticipated expiration: 2042-06-08
Also published as: CN114724189B

Abstract

本发明公开了一种目标识别的对抗样本防御模型训练方法、系统及应用，通过编码器、瓶颈层、解码器构建生成器和还原器，设计判别器，指定分类器；通过对生成器、还原器和判别器的训练，获得对抗样本防御模型，对预训练目标识别模型的输入样本进行预处理，去除输入样本中的干扰。本发明针对目标识别中的对抗样本生成和防御问题，构建了一种端到端的对抗样本生成及防御框架，并设计了一个判别器，对原始图像和抗样本之间的分布差异进行取证，提高了生成对抗样本的抗检测率与安全性，以强度更高的对抗攻击引导防御方法的性能提升，有利于降低现有对抗攻击对行人识别的攻击性，提高识别模型对恶意攻击的鲁棒性。

Description

一种目标识别的对抗样本防御模型训练方法、系统及应用

技术领域

本发明属于本发明属于图像处理领域，特别涉及一种目标识别的对抗样本防御模型训练方法、系统及应用。

背景技术

近年来，随着计算机硬件水平的提高及互联网大数据时代的到来，以深度神经网络为代表的相关机器学习技术取得卓越的进展，并已经在图像处理，目标识别，音频分析等领域取得了优异的效果。机器学习方法可以在训练阶段通过对数据的特征提取及映射来获得极高的任务精度。然而，最近的研究表明机器学习方法很容易受到人为修改的输入的影响。人们通过向原始图像上添加一类特殊的扰动来生成对抗样本。对抗样本与原始图像之间的差异难以被人眼所察觉，但是对抗样本能够以极大的可能性使得机器学习方法发生错误的判断。

在目前的行人识别过程中时常需要进行行人、人脸或物品等图像检测识别，当前的主流技术是基于yolo等一系列深度模型对目标进行定位及识别。但是深度模型对于对抗样本的鲁棒性差，目前存在着多种不同的对抗样本生成方法，极大的威胁了深度学习技术的可靠性，使得其在行人识别上的应用的到了极大的限制。因此，研究人员在进一步推进深度学习技术可解释性、安全性和鲁棒性的过程中，提出了多种对抗样本检测及防御方法，包括统计特征分析、噪声去除、对抗训练等。

根据已有算法，对抗样本的生成与防御属于两个独立的过程，这不仅导致了防御过程无法考虑到生成过程中相关信息导致的防御效果差，也导致了构建对抗样本的目的单一性。如何通过端到端方式，让对抗样本的生成与恢复成为相互协作的过程；如何通过构建强度更高的对抗样本引导防御方法的性能提升，从而提升目标模型对于恶意攻击的鲁棒性已成为一个亟待解决的问题。

发明内容

本发明提供了一种端到端具备良好对抗性、不可见性及可还原性的适用于目标识别的一种目标识别的对抗样本防御模型训练方法、系统及应用，以强度更高的对抗攻击引导防御方法的性能提升，从而提高目标识别模型对于恶意攻击的鲁棒性。

本发明采用以下技术方案：

一种适用于目标识别的对抗样本防御模型训练系统，用于获得对抗样本防御模型，作为预训练目标识别模型的前端预处理模型，对预训练目标识别模型的输入样本进行预处理，去除输入样本中的干扰，该系统包括对抗样本生成模块、对抗样本还原模块，目标场景的原始图像样本输入对抗样本生成模块，对抗样本生成模块基于目标场景中的目标对象生成原始图像样本对应的对抗样本；对抗样本还原模块基于对抗样本生成模块生成的对抗样本，以该对抗样本对应的原始图像样本为基准对该对抗样本进行还原，获得还原样本；结合预训练目标识别模型，对对抗样本生成模块、对抗样本还原模块进行训练，获得最优对抗样本防御模型训练系统；进而将最优对抗样本防御模型训练系统中的对抗样本还原模块作为对抗样本防御模型对预训练目标识别模型的输入样本进行预处理，去除输入样本中的干扰。

作为本发明的一种优选技术方案，对抗样本生成模块包括生成器、判别器、分类器，对抗样本还原模块包括还原器，生成器分别与还原器、判别器、分类器连接，目标场景的原始图像样本输入生成器，生成器基于目标场景中的目标对象输出该原始图像样本对应的对抗样本，并将该对抗样本分别传输给还原器、判别器、分类器；判别器基于原始图像样本、以及该原始图像对应的对抗样本分别进行样本类别的判别；分类器基于对抗样本对目标对象进行分类识别；还原器基于对抗样本以其对应的原始图像样本为基准对对抗样本进行还原，获得还原样本。

作为本发明的一种优选技术方案，所述生成器与所述还原器结构相同，均包括编码器、瓶颈层、解码器、截断模块，所述生成器和还原器的输入数据顺序经编码器、瓶颈层、解码器输出对应的输出数据，编码器对输入数据进行下采样，获得输入数据的预设语义特征；瓶颈层对编码器输出的语义特征进行特征映射聚合，进而获得对于输入数据的预设扰动；解码器对瓶颈层输出的扰动进行上采样，获得与输入数据尺寸大小相同的扰动；基于输入数据与解码器输出的扰动，通过截断模块获得对应的输出数据。

作为本发明的一种优选技术方案，所述对抗样本生成模块的分类器采用预训练目标识别模型。

一种适用于目标识别的对抗样本防御模型的训练方法，应用于所述对抗样本防御模型训练系统，针对目标场景的原始图像样本，迭代执行以下步骤，基于判别器、生成器、还原器分别对应的损失，训练判别器、生成器、以及还原器，获得最优对抗样本防御模型训练系统，进而获得对抗样本防御模型，即最优对抗样本防御系统中的还原器：

步骤A：目标场景的原始图像样本输入生成器，基于目标场景中的目标对象，生成器输出该原始图像样本对应的对抗样本；

步骤B：原始图像样本对应的对抗样本、以及该对抗样本对应的原始图像分别输入判别器，分别对原始图像样本和对抗样本进行样本类别的判别，获得原始图像样本判别损失、以及对抗样本判别损失，进而获得判别损失；

步骤C：原始图像样本对应的对抗样本输入对抗样本生成模块的分类器，对对抗样本中目标对象进行分类识别，进而结合原始图像样本中目标对象的分类，获得对抗损失；

步骤D：基于对抗样本判别损失、对抗损失，获得生成损失；

步骤E：原始图像样本对应的对抗样本输入还原器，对对抗样本进行还原，获得对抗样本对应的还原样本，进而结合原始图像样本，获得还原损失。

作为本发明的一种优选技术方案，所述判别器、生成器、以及还原器的训练利用反向传播及梯度下降技术，基于判别损失、生成损失、以及还原损失，优化判别器、生成器、还原器中的参数。

作为本发明的一种优选技术方案，所述步骤A中生成原始图像样本对应的对抗样本的具体过程如下：

步骤A1：将原始图像样本输入生成器，通过编码器进行下采样，提取原始图像样本中目标对象的语义特征；

步骤A2：基于原始图像样本中目标对象的语义特征，经瓶颈层进行特征映射聚合，进而获得对原始图像样本中于目标对象语义特征的扰动；

步骤A3：基于目标对象语义特征的扰动，经解码器进行上采样，将目标对象语义特征的扰动放大至原始图像样本的尺寸，获得放大的扰动；

步骤A4：将放大的扰动与原始图像样本叠加，获得初始对抗样本；针对初始对抗样本经截断模块基于预设像素值进行截断，进而获得对抗样本。

作为本发明的一种优选技术方案，所述步骤E中生成对抗样本对应的还原样本的具体过程如下：

步骤E1：将对抗样本输入还原器，通过编码器进行下采样，提取对抗样本中未受扰动的语义特征；

步骤E2：基于编码器提取的语义特征，经瓶颈层进行特征映射聚合，拟合生成器中的特征扰动分布，进而获得还原扰动；

步骤E3：基于还原扰动，经解码器进行上采样，将还原扰动放大至原始图像的尺寸，获得放大的还原扰动；

步骤E4：将放大的还原扰动与对抗样本叠加，获得初始还原样本；针对初始还原样本经截断模块基于预设像素值进行截断，生成还原样本。

作为本发明的一种优选技术方案，所述判别损失计算表达式如下所示：

其中，

式中，

表示判别损失，

表示原始图像样本判别损失，

表示抗样本判别损失，

表示判别器基于原始图像输出的预测标签，

判别器基于对抗样本输出的预测标签；

所述生成损失计算表达式如下所示：

其中，

式中，

和

为预设常数因子，

表示生成损失，

表示对抗损失，

表示添加到原始图像样本上的对抗扰动，

表示对抗样本，

表示原始图像样本，

表示损失函数平衡参数，

表示对抗样本的分类结果，

表示除原始图像样本标签外的其他标签，

表示原始图像样本的标签，

表示对抗样本置信度控制参数，

表示神经网络全连接层的输出；

所述还原损失计算表达式如下所示：

式中，

表示还原损失，

为原始图像样本，

为还原器输出的还原样本，

表示生成器的输出，

表示还原器的输出，

表示针对还原的样本像素值截断操作。

一种适用于目标识别的对抗样本防御模型的应用，针对最优对抗样本防御模型训练系统中的对抗样本防御模型，基于预训练目标识别模型的输入样本，执行以下步骤，对输入样本进行目标识别；

步骤1：获取最优对抗样本防御模型训练系统中的对抗样本防御模型；

步骤2：以预训练目标识别模型的输入样本为输入，利用对抗样本防御模型对输入样本进行预处理，去除样本干扰，更新输入样本；

步骤3：将输入样本输入预训练目标识别模型进行目标识别。

本发明的有益效果是：本发明提供了一种目标识别的对抗样本防御模型训练方法、系统及应用，本发明构建对抗样本及还原样本采用了模块化与端到端融合的方式，不仅提升网络的性能，而且不同网络模块功能的可解释性更强；本设计组建了对抗样本的生成器，使得所生成的对抗样本的分布更接近原始图像样本分布，从而让对抗样本更难以被检测算法和人眼所察觉；本设计通过编码器、瓶颈层和解码器构建生成器与还原器，两者都通过提取特征的方式进对抗扰动进行建模与模拟，可以更高效的生成和还原对抗扰动，极大的减少了对抗样本的生成时间。同时，在保证对抗样本生成成功率的前提下，极大的提高了对抗样本的还原精度。本发明通过反向传播及梯度下降的方式，在训练阶段，动态同步训练判别器、生成器和还原器，使得整个模型整体优化目标统一，加速了损失的收敛；并且模型训练完成后，在生成与还原样本的过程中不再需要待攻击的分类器的参与，可进行黑盒攻击与还原，具有更高的现实应用价值。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的系统网络架构图；

图3为本发明实施例编码器的网络结构示意图；

图4为本发明实施例瓶颈层的网络结构示意图；

图5为本发明实施例解码器的网络结构示意图；

图6为本发明实施例判别器的网络结构示意图；

图7a为本发明实施例针对一个目标对象生成的对抗样本及还原样本的示意图；

图7b为本发明实施例针对另一个目标对象生成的对抗样本及还原样本的示意图；

图8a为本发明实施例生成的对抗样本在DenseNet121上取得的效果；

图8b为本发明实施例生成的还原样本在DenseNet121上取得的效果；

图9为本发明实施例所训练出的还原器在MNIST和CALTECH256数据集上对于原始样本的还原效果。

具体实施方式

下面结合附图对本发明进行进一步说明。下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

本设计提供一种端到端具备良好对抗性、不可见性及可还原性的适用于目标识别的一种目标识别的对抗样本防御模型训练方法及系统，本设计具体实施可应用于针对目标物体或行人的识别、分类等，去除输入样本的扰动干扰。如图7a-7b所示，为本发明实施例分别针对两个不同目标对象生成的对抗样本及还原样本的示意图，从图中可以看出，本技术方案所得到的对抗样本防御模型具有很好的去扰动效果。本方案设计以强度更高的对抗攻击引导防御方法的性能提升，从而提高目标识别模型对于恶意攻击的鲁棒性。

一种适用于目标识别的对抗样本防御模型训练系统，用于获得对抗样本防御模型，作为预训练目标识别模型的前端预处理模型，对预训练目标识别模型的输入样本进行预处理，去除输入样本中的干扰，如图2所示，该系统包括对抗样本生成模块、对抗样本还原模块，目标场景的原始图像样本输入对抗样本生成模块，对抗样本生成模块基于目标场景中的目标对象生成原始图像样本对应的对抗样本；对抗样本还原模块基于对抗样本生成模块生成的对抗样本，以该对抗样本对应的原始图像样本为基准对该对抗样本进行还原，获得还原样本；结合预训练目标识别模型，对对抗样本生成模块、对抗样本还原模块进行训练，获得最优对抗样本防御模型训练系统；进而将最优对抗样本防御模型训练系统中的对抗样本还原模块作为对抗样本防御模型对预训练目标识别模型的输入样本进行预处理，去除输入样本中的干扰。

本方案设计过程为通过编码器、瓶颈层和解码器构建对抗扰动生成器和还原器，设计判别器，指定分类器；进一步的，将原始图像输入对抗扰动生成器，生成对抗样本；进一步的额，将原始图像与对抗样本分别输入判别器、分类器和还原器，以计算判别损失、对抗损失和还原损失；进一步的，通过在数据集上的对生成器、还原器和判别器的训练，调整参数，优化损失。

如图2所示为本发明实施例的系统网络架构图，针对对抗样本防御模型训练系统中对抗样本生成模块包括生成器、判别器、分类器，对抗样本还原模块包括还原器，生成器分别与还原器、判别器、分类器连接，目标场景的原始图像样本输入生成器，生成器基于目标场景中的目标对象输出该原始图像样本对应的对抗样本，并将该对抗样本分别传输给还原器、判别器、分类器；判别器基于原始图像样本、以及该原始图像对应的对抗样本分别进行样本类别的判别；分类器基于对抗样本对目标对象进行分类识别；还原器基于对抗样本以其对应的原始图像样本为基准对对抗样本进行还原，获得还原样本。

所述生成器与所述还原器结构相同，均包括编码器、瓶颈层、解码器、截断模块，所述生成器和还原器的输入数据顺序经编码器、瓶颈层、解码器输出对应的输出数据，编码器对输入数据进行下采样，获得输入数据的预设语义特征；瓶颈层对编码器输出的语义特征进行特征映射聚合，进而获得对于输入数据的预设扰动；解码器对瓶颈层输出的扰动进行上采样，获得与输入数据尺寸大小相同的扰动；基于输入数据与解码器输出的扰动，通过截断模块获得对应的输出数据。所述对抗样本生成模块的分类器采用预训练目标识别模型对应的预训练分类器。

在本实施例中，如图3所示，通过3层卷积、归一、激活，构建编码器；如图4所示，通过4层残差，构建瓶颈层；如图5所示通过3层反卷积、归一、激活，构建解码器；进而通过编码器、瓶颈层和解码器的结构设计生成器和还原器；如图6所示，通过4层卷积、归一、激活，构建判别器；选择预训练目标识别模型对应的预训练分类器作为待攻击的指定分类器，即对抗样本生成模块的分类器。

编码器采用一个输入与一个输出的卷积神经网络，该网络由三个3*3的卷积层组成，每次卷积以后通过IN层对卷积提取出的特征进行归一化，将归一化后的特征图通过Relu激活函数后送入下一个卷积层。为了维持特征数及计算量之间的平衡，我们规定第一次卷积步长为1，当卷积窗口滑动时，相邻感受野之内会存在一部分重复的区域，提取到的特征更加丰富，避免损失信息；我们规定第二、三次的卷积步长为2，这时相邻感受野之内不存在重复区域，在一定程度上减少了特征数，从而降低了计算量，同时在一定程度上起到了池化层的作用，也在一定的程度上减少了模型出现过拟合现象的可能性；瓶颈层可以对编码器提取出的特征进行映射聚合，将高维特征图、特征向量降维到适宜的低维空间中，形成对原始输入的低维表达，有利于促进生成特征扰动时的损失收敛；通过3层反卷积、归一、激活，构建解码器，在卷积过后，每一张特征图的尺寸都小于原始图像尺寸，而生成的扰动需要保持与原始图像大小一致，因此我们采用了反卷积操作。反卷积是一种上采样操作，可以实现图像由小分辨率到大分辨率上的映射。解码器中反卷积的参数设置与编码器中卷积参数设置一一对应，从而使得小尺寸的特征扰动可以扩张至原始图像的尺寸。为了不同像素点的对抗扰动具有符号差异性，Decoder最后一层选用Tanh进行激活，保证了生成对抗扰动的对抗性。

本发明实施例所设计的判别器属于一个二分类器，用来完成区分输入样本是原始图像还是对抗样本的二分类任务，通过设计该还原器可以让所生成的对抗样本与原始图像再数据分布上更加接近，使对抗样本不会有明显区别于原始图像的特征，从而提高所生成的对抗样本的抗检测性与安全性。

本发明选择预训练目标识别模型作为待攻击的指定分类器，如图8a-8b所示，实施例中选择DenseNet121预训练模型作为指定的待攻击分类器，该模型再原始图像上的分类精度为83.42%。利用本发明所生成的对抗样本对其进行攻击后，其分类精度下降至0.01%左右，可见本发明达到了很好的对抗攻击效果。再利用本发明设计的还原器对对抗样本进行还原后，该模型的分类精度基本恢复至83%左右，可见本发明所设计的还原器可以很好的将对抗样本还原至原始图像。

一种适用于目标识别的对抗样本防御模型的训练方法，应用于所述对抗样本防御模型训练系统，如图1所示，针对目标场景的原始图像样本，迭代执行以下步骤，基于判别器、生成器、还原器分别对应的损失，训练判别器、生成器、以及还原器，获得最优对抗样本防御模型训练系统，进而获得对抗样本防御模型，即最优对抗样本防御系统中的还原器。

步骤A：目标场景的原始图像样本输入生成器，基于目标场景中的目标对象，生成器输出该原始图像样本对应的对抗样本。

原始图像和对抗样本输入构建的判别器中，分别计算原始图像判别损失

与对抗样本判别损失

，并组成判别损失

：当规定原始图像标签为1，对抗样本标签为0时，原始图像判别损失通过原始图像判别结果与原始标签之间的均方误差作为损失，可以表述为

，其中

为判别器输入原始图像后，判别器给出的预测标签。对抗样本判别损失可通过对抗样本判别结果与对抗样本标签之间的均方误差作为损失，可以表述为

，其中

判别器输入对抗样本后，判别器给出的预测标签。判别器总的损失由上述两个损失组成；

所述判别损失计算表达式如下所示：

其中，

式中，

表示判别损失，

表示原始图像样本判别损失，

表示抗样本判别损失，

表示判别器基于原始图像输出的预测标签，

判别器基于对抗样本输出的预测标签。

将对抗样本输入指定的分类器中，计算对抗损失

: 对抗损失表达了对抗样本输入目标分类器后的预测结果与其正式标签之间的差异。本发明采用C&W损失，在控制扰动强度的前提下，可以生成更高置信度的对抗样本。C&W损失可表述为：

其中，

控制置信度，

是第

类的logit，即神经网络全连接层的输出。

步骤D：基于对抗样本判别损失、对抗损失，获得生成损失；

将对抗样本判别损失

与对抗损失

加权求和，计算生成损失

:生成器的总体损失为

，其中，

和

为常数因子，作为权重调整

和

数量级上的差异，使生成损失

达到平衡。

所述生成损失计算表达式如下所示：

其中，

式中，

和

为预设常数因子，

表示生成损失，

表示对抗损失，

表示添加到原始图像样本上的对抗扰动，

表示对抗样本，

表示原始图像样本，

表示损失函数平衡参数，

表示对抗样本的分类结果，

表示除原始图像样本标签外的其他标签，

表示原始图像样本的标签，

表示对抗样本置信度控制参数，

表示神经网络全连接层的输出；

和

分别表示

和

函数。

将还原样本与原始图像做差值，计算还原损失

：还原损失

衡量图像之间差异的损失通过像素级均方误差来衡量，

所述还原损失计算表达式如下所示：

式中，

表示还原损失，

为原始图像样本，

为还原器输出的还原样本，

表示生成器的输出，

表示还原器的输出，

表示针对还原的样本像素值截断操作。

所述判别器、生成器、以及还原器的训练利用反向传播及梯度下降技术，基于判别损失、生成损失、以及还原损失，优化判别器、生成器、还原器中的参数。

如图7a-7b所示，为本发明实施例分别针对两个不同目标对象生成的对抗样本及还原样本的示意图。所述生成器生成原始图像样本对应的对抗样本的具体过程如下：

步骤A1：将原始图像样本输入生成器，通过编码器进行下采样，提取原始图像样本中目标对象的语义特征；语义特征以矩阵数据的方式表征的；

步骤A2：基于原始图像样本中目标对象的语义特征，经瓶颈层进行特征映射聚合，进而获得目标对象语义特征的扰动；特征的扰动也是矩阵数据，可以是噪声或图像像素值的修改；

步骤A4：将放大的扰动与原始图像样本叠加，获得初始对抗样本；针对初始对抗样本经截断模块基于预设像素值进行截断，进而获得对抗样本。因为图像像素值范围是0-255，越界的值是无法转变为色彩，因此需要截断超出预设像素值的像素值，可以更好的保障扰动样本的视觉质量。

所述还原器生成对抗样本对应的还原样本的具体过程如下：

步骤E1：将对抗样本输入还原器，通过编码器进行下采样，提取对抗样本中未受扰动的语义特征，即鲁棒分类特征；

步骤E2：基于编码器提取的语义特征，经瓶颈层进行特征映射聚合，拟合生成器中的特征扰动分布，进而获得还原扰动，即获得针对生成器中扰动对应的还原扰动；

步骤3：将输入样本输入预训练目标识别模型进行目标识别。

如图9展示了在MNIST和CALTECH256数据集上所训练出的还原器对于原始样本的还原效果。原始精度展示了目标分类器在MNIST和CALTECH256分别为98.91%和83.42%，而经过还原器处理后的原始样本分类精度并没有发生较大的损失，依旧处于98.89%和83.00%。

本发明设计了一种目标识别的对抗样本防御模型训练方法、系统及应用，本发明构建对抗样本及还原样本采用了模块化与端到端融合的方式，不仅提升网络的性能，而且不同网络模块功能的可解释性更强；本设计组建了对抗样本的生成器，使得所生成的对抗样本的分布更接近原始图像样本分布，从而让对抗样本更难以被检测算法和人眼所察觉；本设计通过编码器、瓶颈层和解码器构建生成器与还原器，两者都通过提取特征的方式进对抗扰动进行建模与模拟，可以更高效的生成和还原对抗扰动，极大的减少了对抗样本的生成时间。同时，在保证对抗样本生成成功率的前提下，极大的提高了对抗样本的还原精度。本发明通过反向传播及梯度下降的方式，在训练阶段，动态同步训练判别器、生成器和还原器，使得整个模型整体优化目标统一，加速了损失的收敛；并且模型训练完成后，在生成与还原样本的过程中不再需要待攻击的分类器的参与，可进行黑盒攻击与还原，具有更高的现实应用价值。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种适用于目标识别的对抗样本防御模型训练系统，用于获得对抗样本防御模型，作为预训练目标识别模型的前端预处理模型，对预训练目标识别模型的输入样本进行预处理，去除输入样本中的干扰，其特征在于：包括对抗样本生成模块、对抗样本还原模块，目标场景的原始图像样本输入对抗样本生成模块，对抗样本生成模块基于目标场景中的目标对象生成原始图像样本对应的对抗样本；对抗样本还原模块基于对抗样本生成模块生成的对抗样本，以该对抗样本对应的原始图像样本为基准对该对抗样本进行还原，获得还原样本；结合预训练目标识别模型，对对抗样本生成模块、对抗样本还原模块进行训练，获得最优对抗样本防御模型训练系统；进而将最优对抗样本防御模型训练系统中的对抗样本还原模块作为对抗样本防御模型对预训练目标识别模型的输入样本进行预处理，去除输入样本中的干扰。

2.根据权利要求1所述一种适用于目标识别的对抗样本防御模型训练系统，其特征在于：对抗样本生成模块包括生成器、判别器、分类器，对抗样本还原模块包括还原器，生成器分别与还原器、判别器、分类器连接，目标场景的原始图像样本输入生成器，生成器基于目标场景中的目标对象输出该原始图像样本对应的对抗样本，并将该对抗样本分别传输给还原器、判别器、分类器；判别器基于原始图像样本、以及该原始图像对应的对抗样本分别进行样本类别的判别；分类器基于对抗样本对目标对象进行分类识别；还原器基于对抗样本以其对应的原始图像样本为基准对对抗样本进行还原，获得还原样本。

3.根据权利要求2所述一种适用于目标识别的对抗样本防御模型训练系统，其特征在于：所述生成器与所述还原器结构相同，均包括编码器、瓶颈层、解码器、截断模块，所述生成器和还原器的输入数据顺序经编码器、瓶颈层、解码器输出对应的输出数据，编码器对输入数据进行下采样，获得输入数据的预设语义特征；瓶颈层对编码器输出的语义特征进行特征映射聚合，进而获得对于输入数据的预设扰动；解码器对瓶颈层输出的扰动进行上采样，获得与输入数据尺寸大小相同的扰动；基于输入数据与解码器输出的扰动，通过截断模块获得对应的输出数据。

4.根据权利要求2所述一种适用于目标识别的对抗样本防御模型训练系统，其特征在于：所述对抗样本生成模块的分类器采用预训练目标识别模型。

5.一种适用于目标识别的对抗样本防御模型的训练方法，应用于权利要求4所述对抗样本防御模型训练系统，其特征在于：针对目标场景的原始图像样本，迭代执行以下步骤，基于判别器、生成器、还原器分别对应的损失，训练判别器、生成器、以及还原器，获得最优对抗样本防御模型训练系统，进而获得对抗样本防御模型，即最优对抗样本防御系统中的还原器：

步骤D：基于对抗样本判别损失、对抗损失，获得生成损失；

6.根据权利要求5所述一种适用于目标识别的对抗样本防御模型的训练方法，其特征在于：所述判别器、生成器、以及还原器的训练利用反向传播及梯度下降技术，基于判别损失、生成损失、以及还原损失，优化判别器、生成器、还原器中的参数。

7.根据权利要求5所述一种适用于目标识别的对抗样本防御模型的训练方法，其特征在于：所述步骤A中生成原始图像样本对应的对抗样本的具体过程如下：

8.根据权利要求7所述一种适用于目标识别的对抗样本防御模型的训练方法，其特征在于：所述步骤E中生成对抗样本对应的还原样本的具体过程如下：

9.根据权利要求5所述一种适用于目标识别的对抗样本防御模型的训练方法，其特征在于：所述判别损失计算表达式如下所示：