CN113554089A

CN113554089A - 一种图像分类对抗样本防御方法、系统及数据处理终端

Info

Publication number: CN113554089A
Application number: CN202110831879.4A
Authority: CN
Inventors: 裴庆祺; 闫成家; 肖阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-26
Anticipated expiration: 2041-07-22
Also published as: CN113554089B; US20230022943A1

Abstract

本发明属于人工智能技术领域，公开了一种图像分类对抗样本防御方法、系统及数据处理终端，所述图像分类对抗样本防御方法包括：利用对抗降噪网络对输入图像进行降噪预处理，获取重建图像；利用目标分类模型获取重建图像的预测类别概率分布；利用目标分类模型获取原始输入图像的预测类别概率分布；计算输入图像的对抗性评分，并根据阈值确定输入图像为对抗样本或良性样本；如果输入图像被判定为对抗样本，则输出重建图像的类别预测结果；反之，如果输入图像被判定为良性样本，则输出原始图像的类别预测结果。本发明提供的图像分类对抗样本防御方法，能够有效提高基于深度学习方法的人工智能系统的安全性。

Description

一种图像分类对抗样本防御方法、系统及数据处理终端

技术领域

本发明属于人工智能技术领域，尤其涉及一种图像分类对抗样本防御方法、系统及数据处理终端。

背景技术

近年来，以深度神经网络模型为基础的深度学习技术快速发展，在现实世界的许多领域中都得到了广泛的应用，例如：计算机视觉、自然语言处理、自动驾驶等。在这些传统方法难以建模和处理的任务中，深度神经网络模型都展现出了十分卓越的性能。

然而，随着深度学习技术的广泛应用，智能系统的安全性逐渐开始引起人们的关注。最近的研究表明，深度神经网络模型容易受到来自对抗样本的攻击而输出错误的预测结果。Szegedy等人于2014年首先发现了可以通过在输入中添加极其微小的扰动，误导神经网络分类模型以极高的置信度输出错误的预测结果，这激发了针对深度学习对抗性攻击和防御的广泛研究。在此基础上，Carlini和Wagner提出了一种攻击性能非常强的对抗样本生成方法，能够以较小的代价和较高的成功率欺骗深度神经网络模型，在其基础上进行改进，增加新的约束，还可以成功绕过许多种对抗样本防御装置。后来，Moosavi-Dezfooli等人发现，可以制作一个“通用扰动”，使用一次性生成的对抗性噪声就可以作用于多张图片成功欺骗深度神经网络分类模型。更进一步地，Athalye等人证明，3D打印的真实世界物体可以在现实世界中欺骗基于深度神经网络的目标检测系统。对抗样本的存在给基于深度学习技术设计的人工智能系统带来了巨大的隐患，特别是在对安全性要求较高的领域，如：智能驾驶、辅助医疗等，攻击者可以在系统输入中添加肉眼难以察觉的轻微扰动，欺骗智能系统做出错误的决策，这可能导致系统失灵甚至奔溃，将可能带来灾难性的后果。

为了应对层出不穷的针对深度神经网络的对抗样本攻击，解决其给基于深度学习技术的人工智能系统所带来的巨大的安全隐患，目前已经提出了许多种对抗样本的防御方法。这些方法主要从鲁棒性防御和检测性防御两个方面考虑，其中鲁棒性防御旨在通过修改模型的训练过程或网络结构、预处理输入数据等方式，使神经网络分类模型在遭受到对抗样本攻击时仍能将其分类正确，例如：对抗训练、防御性蒸馏、图像总体方差最小化等；检测性防御则侧重于寻找对抗样本和良性样本之间的差异，利用其设置检测器，将对抗样本从输入数据中准确识别，并拒绝将其输入至分类模型之中。这些方法在对抗样本的早期防御中取得了一定成效。然而，现有方法仍存在着一些局限性，在处理效率和通用性等方面存在诸多不足，或是在训练过程中严重依赖已有对抗攻击，导致对相应攻击的过高的“专属性”；或是预处理效率过低，难以在大尺寸的图像上进行有效扩展和应用；或是仅对一小部分攻击有效果，缺乏对不同类型和强度攻击的普适性；或是容易受到二次攻击的影响而完全失效。

通过调查分析，现有技术存在的问题及缺陷主要包括：

(1)鲁棒性防御策略方面：首先，对抗训练类方法依赖使用对抗样本参与训练，这将导致训练得到的分类模型对训练时所使用的对抗样本具有一定“专属性”，即使用某一种对抗样本训练得到的模型往往仅对该类型对抗样本具有防御能力，而无法成功抵御其他类型和强度的对抗样本攻击；其次，以温度计编码、总体方差最小化等为代表的预处理输入类方法，通常会较大地降低模型在良性样本上的分类准确率，而且部分预处理方法计算开销大，预处理时间慢，运行效率较低，难以在复杂的图像数据集上进行有效扩展和应用；此外，以蒸馏防御、修改训练惩罚项等为代表的，调整分类模型和训练过程的方法往往需要重新训练分类模型，这无疑在大规模工程实践应用中增加了较大的额外开销，而且仍难以抵御C&W等强力的对抗攻击。

(2)检测性防御方面：首先，对抗检测网络类方法旨在使用对抗样本和良性样本直接训练一个神经网络检测器，以实现对二者的区分，其训练阶段依赖对抗样本，这不可避免地导致了对固定攻击的“专属性”；其次，基于主成分方差、重建误差、SoftMax输出等设置的阈值检测器，往往仅对简单的数据集有效，而对复杂的数据集无效，并且部分方法仅对弱攻击有效，而对强攻击无效；此外，基于样本分布的检验，如：Feinman等人的工作，不仅需要维护良性样本库，而且还需要大量的计算以判断输入图像是否属于相应类别的真实数据分布，实用性较差。更重要的是，现有的对抗样本检测器普遍容易遭受二次攻击的影响，假定攻击者足够了解防御措施，那么就可以针对性地调整生成对抗样本时的约束函数，以绕过检测装置。

综上所述，对抗样本的存在给基于深度学习的智能系统带来了极大的安全隐患，而现有方法难以在真实应用场景下取得行之有效的防御效果。因此，设计更加高效且通用性强的对抗样本防御方法具有极其重要的理论和实践意义。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有对抗训练类方法依赖使用对抗样本参与训练，将导致训练得到的分类模型对训练时所使用的对抗样本具有一定“专属性”，即使用某一种对抗样本训练得到的模型往往仅对该类型对抗样本具有防御能力，而无法成功抵御其他类型和强度的对抗样本攻击。

(2)以温度计编码、总体方差最小化为代表的预处理输入类方法，会较大地降低模型在良性样本上的分类准确率，而且部分预处理方法计算开销大，预处理时间慢，运行效率较低，难以在复杂的图像数据集上进行有效扩展和应用。

(3)现有以蒸馏防御、修改训练惩罚项等为代表的，调整分类模型和训练过程的方法往往需要重新训练分类模型，这无疑在大规模工程实践应用中增加了较大的额外开销，而且仍难以抵御C&W等强力的对抗攻击。

(4)现有对抗检测网络类方法会不可避免地导致了对固定攻击的“专属性”；基于主成分方差、重建误差、SoftMax输出等设置的阈值检测器，往往仅对简单的数据集有效，而对复杂的数据集无效，并且部分方法仅对弱攻击有效，而对强攻击无效。

(5)基于样本分布的检验不仅需要维护良性样本库，而且需要大量的计算以判断输入图像是否属于相应类别的真实数据分布，实用性较差；现有的对抗样本检测器普遍容易遭受二次攻击的影响，假定攻击者足够解防御措施，那么就可以针对性地调整生成对抗样本时的约束函数，以绕过检测装置。

解决以上问题及缺陷的难度为：首先，现实应用中，防御者在训练时所能得到的对抗样本的数量和种类有限，在训练防御方法时较难考虑到所有已知对抗样本的情况，并且使用特定对抗样本训练得到的防御装置难以应对未来可能出现的未知类型的对抗样本攻击，因此需要使用对抗样本参与训练的防御方法的鲁棒性和可扩展性及其有限；其次，在实际生活中，输入的自然样本的内容构成往往更加复杂，现有的许多对抗防御技术的有效性会随着输入的自然样本的复杂性提升而明显下降。因此，现有的许多防御方案在实践中应用的通用性严重受限。

解决以上问题及缺陷的意义为：首先，本发明使用基于边缘特征增强模块和多尺度特征提取模块设计降噪网络结构，利用视觉和类别特征双引导的损失函数训练对抗降噪网络，对输入数据进行降噪和重建预处理，具有相对较少的计算量和较高的运算效率，整个过程独立于目标分类模型，避免了对目标分类模型的依赖与调整，并且支持“即插即用”和“灵活扩充”，减少了增加防御机制所需的额外工作，降低了大规模工程实践中的部署复杂度；其次，利用对抗性评分，设置基于阈值的对抗样本检测模块，在防御装置的训练和部署过程中，解耦对抗攻击，避免对特定的对抗攻击的依赖，减少对特定对抗攻击的“专属性”，并提升对未知对抗攻击的防御能力；此外，利用多个对抗降噪网络对输入数据进行预处理，提高了应对不同类型和不同强度的对抗攻击时的普遍适应性，并且支持根据安全性需求对降噪网络的数量进行灵活调整，提高了应对二次攻击时的防御能力，增加了防御方案的可扩展性和灵活性。

发明内容

针对现有对抗样本防御方法在真实环境下应用的不足与问题，本发明提供了一种图像分类对抗样本防御方法、系统及数据处理终端，尤其涉及一种基于集成对抗降噪的图像分类对抗样本防御方法、系统及数据处理终端。

本发明是这样实现的，一种图像分类对抗样本防御方法，所述图像分类对抗样本防御方法包括：

利用对抗降噪网络对输入图像进行降噪预处理，获取重建图像；利用目标分类模型获取重建图像的预测类别概率分布；利用目标分类模型获取原始输入图像的预测类别概率分布；计算输入图像的对抗性评分，并根据阈值确定输入图像为对抗样本或良性样本；如果输入图像被判定为对抗样本，则输出重建图像的类别预测结果；反之，如果输入图像被判定为良性样本，则输出原始图像的类别预测结果。

进一步，所述图像分类对抗样本防御方法包括以下步骤：

步骤一，利用对抗降噪网络对输入图像进行预处理，得到重建图像，以便高质量地去除输入图像中可能包含的对抗性噪声；

步骤二，将重建图像输入至目标分类模型，以便获取分类模型关于重建图像的预测类别概率分布；

步骤三，将未经对抗降噪网络预处理的原始图像输入至目标分类模型，以便获取分类模型关于原始输入图像的预测类别概率分布；

步骤四，利用重建图像与原始图像之间的视觉重建误差和类别重建误差，计算输入图像的对抗性评分，以便更准确地判定输入图像为良性样本或对抗样本；

步骤五，根据输入图像的对抗性检测结果，输出原始输入样本的分类结果，当输入图像为良性样本时，直接返回其分类结果；当输入图像为对抗样本时，返回降噪预处理后的重建样本的分类结果，以实现对抗样本的有效防御。

进一步，步骤一中，所述对抗降噪网络，使用基于边缘特征增强的降噪网络作为主干，使用视觉和类别双引导的对抗损失函数作为训练目标，优化降噪网络的参数，使用在干净的良性样本图片上添加高斯白噪声得到的噪声图像训练得到。

其中，所述基于边缘特征增强的降噪网络，使用边缘特征增强模块EFE-Block和多尺度特征提取模块MSF-Block为基础，在编码阶段结合使用降采样操作，在解码阶段结合使用上采样操作，在网络中间层之间使用长跳跃连接，构建形成降噪自编-解码网络。

进一步，所述边缘特征增强模块EFE-Block，包括：

将输入张量分为三个计算流处理，包括高斯平滑流、边缘特征增强流和卷积流；在高斯平滑流中，输入张量依次经GaussianBlur操作、Convolution操作、BatchNorm操作和LeakyReLU激活单元后输出；在边缘特征增强流中，输入张量依次经过EdgeDetection操作、Convolution操作、BatchNorm操作和Leaky ReLU激活单元后输出；在卷积流中，输入张量经过Convolution操作、BatchNorm操作和LeakyReLU激活单元后输出；使用Concatenate操作将三个张量计算流的输出结果拼接，使用Convolution操作压缩通道数量，输出计算结果。

所述多尺度特征提取模块MSF-Block，包括：

将输入张量划分为多个计算流进行处理；在每个张量计算流中，分别依次包括Convolution操作、BatchNorm操作和LeakyReLU激活单元，而在不同的张量计算流中，适当地选用不同尺寸的卷积核，提取不同尺度的特征信息；使用Concatenate操作，将多个张量计算流得到的多通道特征进行拼接，使用1×1的卷积核进行Convolution操作，利用自适应提取和保留多通道特征图中有用的特征信息。

进一步，步骤一中，所述对抗降噪网络，使用视觉和类别特征双引导的损失函数作为优化目标进行训练。

其中，基于视觉和类别特征双引导的损失函数包括视觉特征相似度损失项和类别特征相似度损失项；其中，所述视觉特征相似度损失项为：

||x-D(x′)||_p；

其中，x表示干净的训练样本；x′＝x+n_σ表示添加噪声后的噪声图像，n_σ表示强度为σ的加性高斯白噪声；D(·)表示降噪网络；||x-D(x′)||_p使用p-范数衡量降噪后的图像与原始无噪声图像之间的视觉相似度，该惩罚项指导降噪网络去除视觉域中的不良噪声。

所述类别特征相似度损失项为：

KL(C(x)||C(D(x′))；

其中，C(·)表示目标分类模型，用于获取降噪后的重建图像D(x′)和原始图像x的预测类别概率分布，即SoftMax层的输出向量；KL(p||q)表示两个分布p和q之间的Kullback-Leibler散度，衡量两个分布之间的差异，KL(C(x)||C(D(x′))约束降噪重建后的图像的类别特征与原始输入图像保持不变。

视觉和类别特征双引导的损失函数为：

Loss＝α·||x-D(x′)||_p+(1-α)·KL(C(x)||C(D(x′)))；

其中，α∈[0，1]为两个惩罚项之间的权衡系数，以降噪网络的参数为优化对象，以视觉和类别特征双引导的损失函数为最小化目标。

进一步，步骤四中，使用对抗性评分作为判定对抗样本和良性样本的依据，具体地，对抗性评分的计算包括视觉重建误差和类别重建误差；其中，所述视觉重建误差为：

||x-D(x)||_p；

其中，x表示输入图像；D(x)表示经过降噪器D(·)重建后的样本；||x-D(x)||_p使用p-范数衡量经降噪器处理前后的样本的视觉重建误差。

所述类别重建误差为：

KL(C(x)||C(D(x))；

该项使用Kullback-Leibler散度作为度量尺度，衡量经过降噪器D(·)处理后的重建样本D(x)和处理前的原始输入图像x的预测类别概率分布的差异，其中预测类别概率分布使用目标分类模型C(·)的SoftMax层输出表示。

测试样本的对抗性评分计算公式为：

AdversarialScore＝||x-D(x)||_p+KL(C(x)||C(D(x))；

根据良性样本的对抗性评分的分布情况，设定相应的对抗性评分阈值，将对抗性评分超过阈值的输入图像判定为对抗样本，将未超出阈值的输入图像判定为良性样本，实现良性样本和对抗样本的有效区分。

训练阶段，利用不同强度的噪声训练得到多个降噪器，使用这些降噪器针对良性样本分别计算得到相应的对抗性评分阈值；测试阶段，利用集成的多个降噪器分别对测试样本进行重建，输入分类模型后计算对抗性评分，然后与阈值作比，如果对抗性评分超过阈值，那么相应的分量的比值将大于1；如果计算得到的最大比值大于1，则判定输入图像为对抗样本，返回比值大于1的分量所对应的降噪器重建后的分类结果；反之，如果判定结果为良性样本，那么返回未经降噪器处理的原始输入图像的分类结果。

使用带有温度的SoftMax对模型输出进行处理，得到预测类别概率分布，计算公式如下：

其中，对于n分类问题，l_i为目标分类模型C(·)输出的logits向量l在类别i上的分量，温度T为超参数；高的温度将平滑模型输出的概率分布，并对强度较高的对抗样本较为敏感；低的温度将会锐化模型输出的概率分布，并对强度较低的对抗样本更为敏感。

本发明的另一目的在于提供一种应用所述的图像分类对抗样本防御方法的图像分类对抗样本防御系统，所述图像分类对抗样本防御系统包括：

降噪器模块，由对抗降噪网络构成，用于对输入图像进行降噪和重建处理；

分类器模块，由目标分类模型构成，用于获取输入图像和经过预处理得到的重建图像的预测类别概率分布；

对抗性评分计算模块，用于计算输入图像的对抗性评分；

对抗样本检测模块，用于比较输入图像的对抗性评分和良性样本的正常阈值，实现输入图像的对抗性判定；

输出控制模块，用于根据输入图像的对抗性判定结果，返回对输入图像的类别预测结果。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的图像分类对抗样本防御系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的图像分类对抗样本防御方法，能够有效提高基于深度学习方法的人工智能系统的安全性。本发明还具备以下优点和积极效果：

(1)防御装置的训练和部署过程解耦对抗攻击，通过基于对抗性评分阈值的检测方法，避免对特定对抗攻击的知识的依赖，无需使用对抗样本参与训练就能完成防御装置的实现和部署，解决了传统依赖对抗样本训练的防御方法所引起的“专属性”问题，并进一步提高了对未知的对抗攻击的防御能力；

(2)提升对不同对抗攻击的普遍适应性，现有的对抗防御措施的有效性大多局限于某一类型或某特定强度下的对抗样本攻击，缺少对多种类型和强度的对抗样本攻击的普适性，本方案通过集成多个对抗降噪器，实现了对多种类型和强度的对抗攻击的稳定的防御能力；

(3)避免对原始分类模型的调整，现有的许多对抗防御方法需要对原始分类模型的结构或训练过程进行调整，这意味着需要对其进行重训练，在真实的大规模工程实践应用的背景下，这极大增加了额外开销和实现成本，而本方案通过对输入图像进行预处理，并根据处理前后的差异进行对抗样本防御，无需对原始分类模型进行额外调整，就能实现对抗样本的有效防御；

(4)本发明提出的防御装置具有很好的部署灵活性，无论是降噪器本身的网络结构，还是最终的集成对抗降噪器，基于本发明提出的EFE-Block，都可以实现“即插即用”和“灵活扩充”，可以根据防御性能的需求，对整个系统进行灵活的调整，而无需因为调整防御机制而增加过多的额外工作；

(5)本发明提出的防御装置具有较好的经济性，现有许多防御方法需要维护干净样本库，并在测试时进行大量的计算和对比，本发明提出的防御措施无需维护干净样本库，且不需要过多的额外计算量，在空间和时间开销上具有更好的经济性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像分类对抗样本防御方法流程图。

图2是本发明实施例提供的图像分类对抗样本防御方法原理图。

图3是本发明实施例提供的图像分类对抗样本检测系统结构框图；

图中：1、降噪器模块；2、分类器模块；3、对抗性评分计算模块；4、对抗样本检测模块；5、输出控制模块。

图4是本发明实施例提供的边缘特征增强模块EFE-Block的结构图。

图5是本发明实施例提供的多尺度特征提取模块MSF-Block的结构图。

图6是本发明实施例提供的基于边缘特征增强的降噪网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。理论上，本发明提出的对抗样本防御方法可以应用在广泛的图像分类任务或包含图像分类模块的其他任务中，如：人脸识别、自动驾驶等，并且目标分类模型的实现技术并不局限于神经网络，对于决策树、支持向量机等其他传统机器学习技术所实现的图像分类模型(系统)也同样适用。

针对现有技术存在的问题，本发明提供了一种图像分类对抗样本防御方法、系统及数据处理终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的图像分类对抗样本防御方法包括以下步骤：

S101，将未知的图像样本输入至降噪器，利用降噪器对输入图像进行降噪和重建预处理，得到降噪后的图像；

S102，将降噪器重建后的图像输入至目标分类模型，获得模型的相对于降噪后图像的预测类别概率分布；

S103，将未经降噪器重建的原始图像输入至目标分类模型，获得模型相对于原始图像的预测类别概率分布；

S104，利用经降噪器处理后的图像与未经处理的原始图像之间的视觉重建误差和类别重建误差，计算输入图像的对抗性评分，并利用对抗性评分判定原始输入图像为对抗样本或良性样本；

S105，输出对原始输入图像的类别预测结果，如果输入图像被判定为对抗样本，则输出经降噪器重建后的图像的类别预测结果；如果输入图像被判定为良性样本，则输出未经降噪器重建的原始图像的类别预测结果。

下面结合实施例对本发明的技术方案作进一步描述。

实施例1

针对现有对抗样本防御方法在真实环境下应用的不足与问题，本发明提供了一种对抗样本防御方法、系统及数据处理终端，尤其涉及一种基于集成对抗降噪的图像分类对抗样本防御方法、系统及数据处理终端。

本发明是这样实现的，一种图像分类对抗样本防御方法，所述图像分类对抗样本防御方法包括以下主要步骤：

步骤一，利用降噪器对输入图像进行降噪和重建预处理，去除输入图像中的对抗性噪声，得到降噪后的图像；

步骤二，将降噪器重建后的降噪图像输入至目标分类模型，获得分类模型相对于降噪后图像的预测类别概率分布；

步骤三，将未经降噪器预处理的原始图像输入至目标分类模型，获得分类模型相对于原始输入图像的预测类别概率分布；

步骤四，利用降噪器对输入图像处理前后的视觉重建误差和类别重建误差，计算输入图像的对抗性评分，并利用对抗性评分阈值判断输入图像为对抗样本或良性样本；

步骤五，输出原始输入图像的分类结果：如果输入图像被判定为对抗样本，则返回经降噪器重建后的图像的类别预测结果；如果输入图像被判定为良性样本，则返回未经降噪器处理的原始输入图像的类别预测结果。

进一步，步骤一中所述的降噪器，使用基于边缘特征增强的降噪网络作为主干结构，该降噪网络主要使用多尺度特征提取模块(Multi-ScaleFeature-Block，MSF-Block)和边缘特征增强模块(EdgeFeatureEnhancement-Block，EFE-Block)为核心，结合降采样和上采样操作堆叠组成。

其中，MSF-Block模块的实现中，将输入张量划分为多个计算流进行处理，其中在每个张量计算流中，分别依次包括Convolution操作、BatchNorm操作和LeakyReLU激活单元。在不同的张量计算流中，适当地选用不同尺度的卷积核，其目的在于：使用Convolution操作，利用权值共享以压缩模型的参数量，提高计算速度和处理效率，自适应捕捉图像特征，同时利用不同尺寸的观测窗口，在不同尺度上进行图像特征信息提取，以获取更加完整的图像结构和内容信息；使用BatchNorm操作，解决模型内部协方差偏移问题，加速模型训练时的收敛速度和训练稳定性；使用LeakyReLU激活单元代替传统的ReLU激活单元，避免梯度接近零或负值时的“神经元死亡问题”。然后，使用Concatenate操作，将多个张量计算流得到的多通道特征进行拼接，使用1×1的卷积核进行Convolution操作，利用其自适应提取和保留多通道特征图中有用的特征信息，同时，压缩通道数量，减少模型计算量。

其中，EFE-Block模块的实现中，将输入张量划分为多个计算流进行处理，其中主要包括：高斯平滑流、边缘特征增强流和卷积流。在高斯平滑流中，首先使用GaussianBlur操作，对输入张量进行模糊处理，以淡化特征空间中的噪声；然后，分别经过Convolution操作、BatchNorm操作和LeakyReLU激活单元后输出。在边缘特征增强流中，首先，利用边缘检测算子，提取特征图中的边缘轮廓信息，以此增强输入张量中的重要特征；然后，分别经过Convolution操作、BatchNorm操作和LeakyReLU激活单元后输出。在卷积流中，不对输入张量进行额外预处理，直接经Convolution操作、BatchNorm操作和LeakyReLU激活单元后输出，以保留输入张量中的原始特征信息。接着，使用Concatenate操作，将多个张量计算流得到的多通道特征进行拼接，使用Convolution操作，利用其自适应提取和保留多通道特征图中有用的特征信息，同时，压缩通道数量，减少模型计算量。

进一步，步骤一中所述的降噪器，使用视觉和类别特征双引导的损失函数作为优化目标进行训练。

其中，基于视觉和类别特征双引导的损失函数包括视觉特征相似度损失项和类别特征相似度损失项。

其中，视觉特征相似度损失项为：||x-D(x)||_p

其中，类别特征相似度损失项为：KL(C(x)||C(D(x′))

由此，视觉和类别特征双引导的损失函数为：

Loss＝α·||x-D(x′)||_p+(1-α)·KL(C(x)||C(D(x′)))

其中，α∈[0，1]为两个惩罚项之间的权衡系数，以降噪网络的参数为优化对象，以视觉和类别特征双引导的损失函数为最小化目标，即保证降噪网络可以有效去除输入图像中的不良噪声，又保证目标分类模型可以将降噪后的图像正确分类。

进一步，步骤四中，使用对抗性评分作为判定对抗样本和良性样本的依据，具体地，对抗性评分的计算包括视觉重建误差和类别重建误差。

其中，视觉重建误差为：||x-D(x)||_p

其中，类别重建误差为：KL(C(x)||C(D(x))

由此，测试样本的对抗性评分计算公式为：

Adversarial Score＝||x-D(x)||_p+KL(C(x)||C(D(x))

假设，良性样本中包含的噪声较少，并且重建前后的类别预测概率分布相差不大，因此其对抗性评分较低；而对抗样本中含有较多的对抗性噪声，因此其预处理前后的视觉重建误差较良性样本明显更大。此外，去除对抗性扰动之后，对抗样本的类别预测结果通常会从攻击者误导的分类结果恢复为其真实的类别，因此其类别重建误差也较大，最终导致对抗样本的对抗性评分超出良性样本的正常分布。由此，根据良性样本的对抗性评分的分布情况，设定相应的对抗性评分阈值，将对抗性评分超过阈值的输入图像判定为对抗样本，将未超出阈值的输入图像判定为良性样本，即可实现良性样本和对抗样本的有效区分。

更进一步，步骤一、二、四中，为了提升防御装置对于不同类型和强度的对抗攻击的普遍适应性，本发明建议通过增加降噪器的数量提高防御能力。具体地，训练阶段，利用不同强度的噪声训练得到多个降噪器，使用这些降噪器针对良性样本分别计算得到相应的对抗性评分阈值；测试阶段，利用集成的多个降噪器分别对测试样本进行重建，输入分类模型后计算对抗性评分，然后与阈值作比，如果对抗性评分超过阈值，那么相应的分量的比值将大于1。因此，如果计算得到的最大比值大于1，那么我们就判定输入图像为对抗样本，返回比值大于1的分量所对应的降噪器重建后的分类结果；反之，如果判定结果为良性样本，那么返回未经降噪器处理的原始输入图像的分类结果。

更进一步，集成降噪器中的降噪器数量可以根据系统安全性需求进行调整，通常降噪器的数量越多，其整体抵御对抗样本攻击的能力越强，越不容易受到二次攻击的影响。

更进一步，为了尽可能凸显良性样本和对抗样本的对抗性评分的分布差异，设置更具有区分性的检测阈值，本发明建议使用带有温度的SoftMax对模型输出进行处理，得到预测类别概率分布，其计算公式如下：

其中，对于n分类问题，l_i为目标分类模型C(·)输出的logits向量l在类别i上的分量，温度T为超参数。通常情况下，高的温度将平滑模型输出的概率分布，并对强度较高的对抗样本较为敏感；低的温度将会锐化模型输出的概率分布，并对强度较低的对抗样本更为敏感。组合不同温度的SoftMax实现的检测器，将有助于提升防御模型针对不同类型和强度的对抗样本攻击时的普遍适应性。

实施例2

为了提高本发明提出方案针对不同类型和强度的对抗攻击的普遍适应性，建议使用不同强度的噪声图片训练得到多个降噪器，并分别使用每个降噪器进行降噪重建和对抗样本检测。最终的防御方案的原理如图2所示。

为了实现本发明所述的图像分类对抗样本防御方案，本实施例构建了一个图像分类对抗样本防御系统，其结构如图3所示，主要包括以下5个核心模块：

(1)降噪器模块：使用本发明所述的基于EFE-Block和MSF-Block，结合降采样和上采样操作，堆叠形成的降噪网络为主干结构，使用本发明所述的视觉和类别特征双引导的损失函数训练得到，主要用于输入图像的降噪和重建；

(2)分类器模块：由目标分类模型组成，用于获取输入图像以及经降噪器模块重建后的图像的预测类别概率分布，其实现技术并不局限于神经网络模型，对于其他的传统机器学习技术(如：决策树、支持向量机等)实现的分类模型同样适用；

(3)对抗性评分计算模块：分别从降噪器模块和分类器模块获取计算对抗性评分所需的关键信息，以计算输入图像的对抗性评分；

(4)对抗样本检测模块：利用输入图像的对抗性评分和根据良性样本对抗性评分分布所设置的检测阈值，实现基于阈值的对抗样本检测，将对抗性评分超过阈值的输入图像判定为对抗样本；反之，将对抗性评分小于阈值的输入图像判定为良性样本；

(5)输出控制模块：根据对抗样本检测模块的判定结果，对于对抗样本，返回由降噪器重建后的图像的分类结果；对于良性样本，返回未经降噪器重建的原始输入图像的分类结果。

本发明属于人工智能系统领域中关于机器学习模型的安全性方向，针对目前基于机器学习方法尤其是深度学习算法所实现的智能系统容易受到对抗样本欺骗的问题，设计了一种基于集成对抗降噪的对抗样本防御方法。本发明的核心创新在于：首先，提出了一种图像边缘特征增强模块EFE-Block，该模块可以有效捕捉图像特征图中的边缘轮廓信息，并以此辅助降噪和增强特征图中的重要特征信息；其次，利用该模块，结合多尺度特征提取模块MSF-Block，通过与降采样和上采样操作进行拼接与堆叠，设计了一种降噪性能更好的基于边缘特征增强的降噪网络；接着，利用基于边缘特征增强的降噪网络，设计了视觉和类别特征双引导的损失函数，最小化训练样本的视觉和类别重建损失，以优化降噪网络的参数，提升其对抗降噪性能；最后，使用如上方法训练得到的降噪器，利用对抗性评分设置基于阈值的对抗样本检测方法，并由此实现基于集成对抗降噪的对抗样本防御方案。

更加具体地，本发明提出的EFE-Block的结构如图4所示。该模块将输入张量划分为多个流进行处理：在高斯平滑流中，使用GaussianBlur操作对输入张量进行模糊处理，利用Convolution操作自适应提取特征图中的有用信息，对提取得到的特征图使用BatchNorm操作正则化后，经过LeakyReLU激活单元处理最终的输出，该张量计算流的主要目的在于淡化输入特征图中的不良噪声；在边缘特征增强流中，使用EdgeDetection算子对输入张量进行边缘特征提取，突出特征图中的边缘轮廓的重要信息，并削弱其他区域中的不良噪声，然后依次经过Convolution操作、BatchNorm操作和LeakyReLU激活单元后输出，该张量计算流的主要目的在于增强输入特征图中的重要特征信息；在卷积流中，不对输入特征张量进行特殊处理，直接使用Convolution操作提取特征后，经BatchNorm操作和LeakyReLU激活单元后输出，该张量计算流的主要目的在于保留原始输入特征图中的低频特征信息并向后传导。然后，使用Concatnate操作将以上三个计算流得到的多通道特征进行拼接，并对拼接后的多通道特征使用Convolution操作，利用其压缩通道数，减少计算量，同时自适应地保留前序操作中提取到的重要特征图。最后，将EFE-Block提取到的特征图输出。

更加具体地，本发明提出的MSF-Block的结构如图5所示。该模块将输入张量划分为多个流进行处理，在每个张量计算流中，分别依次包括Convolution操作、BatchNorm操作和LeakyReLU激活单元。需要强调的是，在不同的张量计算流中，适当地选择不同尺度的卷积核，以便利用不同大小的观测窗口，在不同尺度上提取图像特征信息，获取更加完整的图像结构和内容信息。然后，使用Concatenate操作，将多个张量计算流得到的多通道特征进行拼接，使用1×1的卷积核进行Convolution操作，利用其实现通道压缩，减少通道数和计算量，同时自适应地提取和保留多通道特征中有用的特征信息。最后，将MSF-Block提取到的特征图输出。

堆叠使用MSF-Block和EFE-Block，分别在编码阶段结合使用降采样操作，在解码阶段结合上采样操作，实现基于边缘特征增强卷积自编-解码器，并使用长跳跃连接，稳定模型的训练过程，在深度网络中保留图像的低频特征。以此实现基于边缘特征增强的降噪网络，其主干结构如图6所示。

更加具体地，为了提高降噪器的对抗降噪性能，本发明使用基于边缘特征增强的降噪网络作为主要结构。在此基础上，提出视觉和类别双引导的对抗降噪损失函数，从视觉相似度和类别相似度两个方面增加约束，设计新的损失函数，提高降噪器的对抗降噪性能。

本发明假设：图像特征可以分为图像内容本身所包含的视觉特征及其类别特征，其中视觉特征是指肉眼直接能够从图片中获取到的图像内容信息，而类别特征是指目标分类模型对图像的类别预测信息。在传统的图像降噪中，往往仅考虑图像的视觉特征，以最小化降噪后图像与原始无噪声图像之间的视觉相似度距离为训练目标，去除图像中的不良噪声。然而，对抗降噪的任务与传统的图像降噪任务不完全相同。通常在对抗样本的生成过程中，攻击者在原始图像中添加人眼难以察觉的对抗性噪声，以使得对抗样本可以欺骗目标分类模型输出错误的结果，这些噪声通常不会对图像的视觉特征造成较大的改变，因为攻击者要保证生成的对抗样本难以被人眼发现。因此，在对抗降噪任务中，不仅需要同传统降噪任务一样，尽可能去除对抗样本中所包含的不良噪声，更重要地是，需要将对抗样本恢复为能被目标分类模型正确分类的良性样本。

基于以上分析，本发明构建了视觉和类别特征双引导的损失函数，其计算公式为：

Loss＝α·||x-D(x′)||p+(1-α)·KL(C(x)||C(D(x′)))

其中，x表示干净的训练样本；x′＝x+n_σ表示添加噪声后的噪声图像，n_σ表示强度为σ的加性高斯白噪声；D(·)表示降噪网络，||x-D(x′)||p使用p-范数衡量降噪后的图像与原始无噪声图像之间的视觉相似度，该惩罚项指导降噪网络去除视觉域中的不良噪声；C(·)表示目标分类模型，用于获取输入图像的预测类别概率分布；KL(p||q)为两个分布p和q之间的Kullback-Leibler散度，衡量两个分布之间的差异，KL(C(x)||C(D(x′))约束降噪重建后的图像的类别特征保持不变，α∈[0，1]为两项之间的权衡系数。

更加具体地，本发明使用基于边缘特征增强的降噪网络为主干结构，以视觉和类别特征双引导的损失函数为训练目标，优化降噪网络的参数，实现对抗降噪网络，并由此提出了基于对抗降噪的对抗样本防御方案，工作原理如图2所示。

仅使用一个降噪器时，该方案的工作流程主要包括：

(1)将测试样本输入至如上所述方法实现的对抗降噪网络，使用对抗降噪网络对输入图像进行降噪和重建预处理，得到降噪后的图像；

(2)将降噪后的图像输入至目标分类模型，获取目标分类模型关于降噪后的图像的预测类别概率分布；

(3)将未经对抗降噪网络预处理的原始图像输入至目标分类模型，获取目标分类模型关于原始输入图像的预测类别概率分布；

(4)计算经对抗降噪网络降噪后的重建图像与未经对抗降噪网络处理的原始图像之间的视觉重建误差和类别重建误差，计算输入图像的对抗性评分，并将其与阈值作比较，进行对抗性检测：如果输入图像的对抗性评分大于阈值，则将其判定为对抗样本；反之，如果输入图像的对抗性评分小于阈值，则将其判定为良性样本；

(5)输出对原始输入图像的类别预测结果，如果输入图像被判定为对抗样本，则输出经对抗降噪网络重建后的图像的类别预测结果；反之，如果输入图像被判定为良性样本，则输出未经对抗降噪网络重建的原始输入图像的类别预测结果。

其中，在步骤(5)中，本发明所使用的对抗性评分的计算公式为：

AdversarialScore＝||x-D(x)||_p+KL(C(x)||C(D(x))

其中，x表示输入图像；D(x)表示经过降噪器D(·)重建后的样本；||x-D(x)||_p使用p-范数衡量经降噪器处理前后的样本的视觉重建误差；C(·)表示目标分类模型的预测类别概率分布；KL(C(x)||C(D(x))表示原始输入图像和降噪后的图像分别经由目标分类模型所得到的预测类别概率分布的Kullback-Leibler散度，度量输入图像的类别重建误差。

通常，良性样本经降噪处理前后的视觉重建误差较小，且重建前后目标分类模型往往都能将其分类为真实类别，类别重建误差也较小，所以良性样本的对抗性评分较小；而对抗样本因为对抗性噪声的存在，其视觉重建误差会因大量噪声被剔除而产生较大的数值，且目标分类模型对其的分类结果会从对抗类别恢复为真实类别，类别重建误差也较大，所以对抗样本的对抗性评分较大，并远离良性样本对抗性评分的正常分布。因此，利用对抗性评分可以有效区分正常样本和良性样本。

更进一步地，为了更精准地将对抗样本和良性样本区分开，在计算类别重建误差时，本发明建议使用带有温度的SoftMax，其在传统的SoftMax操作中引入了超参数T，计算公式如下：

其中，对于n分类问题，li为目标分类模型C(·)输出的logits向量l在类别i上的分量，温度T为超参数。不同的温度T对模型输出的预测类别概率分布有不同的平滑(T＜＞1时)或锐化(T＞1时)的效果。经验表明，在对抗攻击强度较低时，更低温度的SoftMax有较强的发现对抗样本的能力；而在对抗攻击强度较高时，更高温度的SoftMax则更加敏感。由此，本发明提供给防御者更多的选择，根据其安全性需求，选取更加合适的超参数T。

更进一步地，本发明支持根据防御需求，对上述方案进行扩充。在步骤(2)中，选用不同的超参数，训练得到多个对不同类型和强度攻击敏感的对抗降噪网络。在步骤(4)中，针对不同的对抗降噪网络，设定相应的对抗性评分阈值，通过计算输入图像的对抗性评分与阈值的比值，实现对抗样本的检测：如果比值大于1，即输入图像的对抗性评分大于阈值，则将其判定为对抗样本；反之，比值小于1，则将其判定为良性样本，在本实施例中我们设定：只要有一个对抗降噪网络对应的对抗性评分超过其阈值，即判定为对抗样本，由此集成多对抗降噪器情况下的判定条件改进为：

其中，S_i表示由对抗降噪网络D_i对原始输入图像x进行降噪和重建与处理后，计算得到的对抗性评分；T_i表示对抗降噪网络D_i对良性样本进行降噪和重建处理后，根据其对抗性评分的分布情况，设置的对抗检测阈值，是防御方案的一个重要超参数；i∈[1，2，...，n]为对抗降噪网络的编号，假设共有n个对抗降噪网络。

在步骤(5)中，如果输入图像被判定为良性样本，则返回目标分类模型对未经对抗降噪网络重建的原始输入图像的类别预测结果；反之，如果输入图像被判定为对抗样本，则返回由对应比值大于1，即经过成功发现对抗样本的对抗降噪网络重建后的图像的类别预测结果。

本实施例实现的图像分类对抗样本防御系统较现有技术方案在许多方面实现了改进和提升。首先，本实施例实现的图像分类对抗样本防御系统在训练和部署过程中解耦对抗攻击，通过基于对抗性评分阈值的对抗检测方法，避免对特定对抗样本攻击的知识的依赖，无需使用对抗样本就可以完成整个防御系统的实现和部署，解决了传统的依赖对抗样本训练的防御模型天然存在的“专属性”问题，并且进一步提高了系统对未知的对抗样本攻击的防御能力；其次，本实施例实现的图像分类对抗样本防御系统无需修改原始目标分类模型，现有的许多方法需要对原始分类模型的结构或训练过程进行调整，这意味着大量的重训练工作，在真实的大规模工程实践应用的背景下，这极大增加了部署防御系统所需的额外开销和成本，而本实施例无需对原始目标分类模型进行调整，甚至不限定目标分类模型的实现技术，仅将其视作“黑箱”获取针对输入图像的预测类别概率分布，这大大节省了防御系统部署所需的工程成本；此外，本实施例实现的图像分类对抗样本防御系统具有极佳的灵活性，无论是对抗降噪网络本身，还是基于集成对抗降噪的防御系统，得益于本实施例实现的EFE-Block和MSF-Block，都可以轻松实现“即插即用”和“灵活扩充”，可以根据用户对防御性能的需求，灵活调整防御系统的参数量和计算量，并且仅需要相对较少的空间和时间开销，就可以实现对不同类型和强度的对抗样本攻击的稳定的防御能力，防御有效性不会受对抗样本攻击的类型和强度变化的影响而下降。

需要注意的是，以上内容仅为本发明的一个实施例，任何在此基础上，对本发明所述内容的非创新性改进，包括但不限于：使用不同数量和排列组合方式堆叠MSF-Block和EFE-Block形成不同深度和广度的降噪网络，使用不同数量的对抗降噪网络实现降噪处理模块，使用不同的超参数，如：训练时使用的噪声强度σ，权衡系数α和SoftMax的温度T等，均属于本发明所述的技术内容。

本发明提出的方法能够有效地从输入样本中检测出对抗样本，并实现对抗样本的有效防御。本实施例在MNIST、CIFAR-10和ImageNet数据集上进行仿真测试实验，在MNIST数据集上，对抗样本检测准确率为98.3％，召回率为98.7％；在CIFAR-10数据集上，对抗样本检测率为92.7％，召回率为91.6％；在ImageNet数据集上，对抗样本检测率为89.4％，召回率为88.1％。相应地，部署防御装置后，在MNIST数据集上，分类准确率为98.1％；在CIFAR-10数据集上，分类准确率为91.35％；在ImageNet数据集上，分类准确率为87.61％。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种图像分类对抗样本防御方法，其特征在于，所述图像分类对抗样本防御方法包括：利用对抗降噪网络对输入图像进行降噪预处理，获取重建图像；利用目标分类模型获取重建图像的预测类别概率分布；利用目标分类模型获取原始输入图像的预测类别概率分布；计算输入图像的对抗性评分，并根据阈值确定输入图像为对抗样本或良性样本；如果输入图像被判定为对抗样本，则输出重建图像的类别预测结果；反之，如果输入图像被判定为良性样本，则输出原始图像的类别预测结果。

2.如权利要求1所述图像分类对抗样本防御方法，其特征在于，所述图像分类对抗样本防御方法包括以下步骤：

步骤一，利用对抗降噪网络对输入图像进行预处理，得到重建图像；

步骤二，将重建图像输入至目标分类模型，获取分类模型关于重建图像的预测类别概率分布；

步骤三，将未经对抗降噪网络预处理的原始图像输入至目标分类模型，获取分类模型关于原始输入图像的预测类别概率分布；

步骤四，利用重建图像与原始图像之间的视觉重建误差和类别重建误差，计算输入图像的对抗性评分；

步骤五，根据输入图像的对抗性检测结果，输出其分类结果。

3.如权利要求2所述图像分类对抗样本防御方法，其特征在于，步骤一中，所述对抗降噪网络，使用基于边缘特征增强的降噪网络作为主干，使用视觉和类别双引导的对抗损失函数作为训练目标，优化降噪网络的参数，使用在干净的良性样本图片上添加高斯白噪声得到的噪声图像训练得到；

4.如权利要求3所述图像分类对抗样本防御方法，其特征在于，所述边缘特征增强模块EFE-Block，包括：

将输入张量分为三个计算流处理，包括高斯平滑流、边缘特征增强流和卷积流；在高斯平滑流中，输入张量依次经Gaussian Blur操作、Convolution操作、Batch Norm操作和Leaky ReLU激活单元后输出；在边缘特征增强流中，输入张量依次经过Edge Detection操作、Convolution操作、Batch Norm操作和Leaky ReLU激活单元后输出；在卷积流中，输入张量经过Convolution操作、Batch Norm操作和Leaky ReLU激活单元后输出；使用Concatenate操作将三个张量计算流的输出结果拼接，使用Convolution操作压缩通道数量，输出计算结果；

所述多尺度特征提取模块MSF-Block，包括：

将输入张量划分为多个计算流进行处理；在每个张量计算流中，分别依次包括Convolution操作、Batch Norm操作和Leaky ReLU激活单元，而在不同的张量计算流中，适当地选用不同尺寸的卷积核，提取不同尺度的特征信息；使用Concatenate操作，将多个张量计算流得到的多通道特征进行拼接，使用1×1的卷积核进行Convolution操作，利用自适应提取和保留多通道特征图中有用的特征信息。

5.如权利要求2所述图像分类对抗样本防御方法，其特征在于，步骤一中，所述对抗降噪网络，使用视觉和类别特征双引导的损失函数作为优化目标进行训练；

||x-D(x′)||_p；

其中，x表示干净的训练样本；x′＝x+n_σ表示添加噪声后的噪声图像，n_σ表示强度为σ的加性高斯白噪声；D(·)表示降噪网络；||x-D(x′)||_p使用p-范数衡量降噪后的图像与原始无噪声图像之间的视觉相似度，该惩罚项指导降噪网络去除视觉域中的不良噪声；

所述类别特征相似度损失项为：

KL(C(x)||C(D(x′))；

其中，C(·)表示目标分类模型，用于获取降噪后的重建图像D(x′)和原始图像x的预测类别概率分布，即SoftMax层的输出向量；KL(p||q)表示两个分布p和q之间的Kullback-Leibler散度，衡量两个分布之间的差异，KL(C(x)||C(D(x′))约束降噪重建后的图像的类别特征与原始输入图像保持不变；

视觉和类别特征双引导的损失函数为：

Loss＝α·||x-D(x′)||_p+(1-α)·KL(C(x)||C(D(x′)))；

6.如权利要求2所述图像分类对抗样本防御方法，其特征在于，步骤四中，使用对抗性评分作为判定对抗样本和良性样本的依据，对抗性评分的计算包括视觉重建误差和类别重建误差；其中，所述视觉重建误差为：

||x-D(x)||_p；

其中，x表示输入图像；D(x)表示经过降噪器D(·)重建后的样本；||x-D(x)||_p使用p-范数衡量经降噪器处理前后的样本的视觉重建误差；

所述类别重建误差为：

KL(C(x)||C(D(x))；

该项使用Kullback-Leibler散度作为度量尺度，衡量经过降噪器D(·)处理后的重建样本D(x)和处理前的原始输入图像x的预测类别概率分布的差异，其中预测类别概率分布使用目标分类模型C(·)的SoftMax层输出表示；

测试样本的对抗性评分计算公式为：

AdversarialScore＝||x-D(x)||_p+KL(C(x)||C(D(x))；

根据良性样本的对抗性评分的分布情况，设定相应的对抗性评分阈值，将对抗性评分超过阈值的输入图像判定为对抗样本，将未超出阈值的输入图像判定为良性样本，实现良性样本和对抗样本的有效区分；

训练阶段，利用不同强度的噪声训练得到多个降噪器，使用这些降噪器针对良性样本分别计算得到相应的对抗性评分阈值；测试阶段，利用集成的多个降噪器分别对测试样本进行重建，输入分类模型后计算对抗性评分，然后与阈值作比，如果对抗性评分超过阈值，那么相应的分量的比值将大于1；如果计算得到的最大比值大于1，则判定输入图像为对抗样本，返回比值大于1的分量所对应的降噪器重建后的分类结果；反之，如果判定结果为良性样本，那么返回未经降噪器处理的原始输入图像的分类结果；

其中，对于n分类问题，l_i为目标分类模型C(·)输出的logits向量l在类别i上的分量，温度T为超参数。

7.一种实施权利要求1～6任意一项所述图像分类对抗样本防御方法的图像分类对抗样本防御系统，其特征在于，所述图像分类对抗样本防御系统包括：

对抗性评分计算模块，用于计算输入图像的对抗性评分；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述图像分类对抗样本防御系统。