CN113780363B

CN113780363B - 一种对抗样本防御方法、系统、计算机及介质

Info

Publication number: CN113780363B
Application number: CN202110946024.6A
Authority: CN
Inventors: 顾钊铨; 董法山; 谢文嵘; 陈植钦; 于海洋; 杨举; 王乐; 田志宏; 韩伟红; 张登辉
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-08-08
Anticipated expiration: 2041-08-17
Also published as: CN113780363A

Abstract

本发明提供了一种对抗样本防御方法、系统、计算机及介质，所述方法包括获取待检测图像样本；分别采用不同的去噪方法对待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本；将待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；分别获取待检测图像样本概率向量与第一去噪样本概率向量的第一相似度、以及与第二去噪样本概率向量的第二相似度，并根据第一相似度和第二相似度，判断待检测图像样本是否为对抗样本。本发明能够简单、高效且精准的识别对抗样本及给出对应的预测类别，有效提升对抗样本的防御能力及模型的服务能力。

Description

一种对抗样本防御方法、系统、计算机及介质

技术领域

本发明涉及人工智能安全技术领域，特别是涉及一种基于去噪算法的对抗样本防御方法、系统、计算机设备及存储介质。

背景技术

近年来，深度学习技术取得了重大突破，其成功应用于图像处理、自然语言处理、语音识别、医疗诊断等多个领域，且在图像分类、目标检测中，深度学习的准确率甚至超越了人类。与此同时，通过构造轻微扰动来干扰输入样本得到对抗样本，使得深度学习模型识别出错的攻击技术也成为恶意攻击者热衷研究的对象。众所周知，对抗样本的存在使得深度学习应用受到限制甚至是受到严重威胁，尤其是当其应用于安全性要求较高场景时，问题尤为突出，如，在人脸识别场景下，攻击者可以利用一些脸部伪装，来破解被攻击者的手机人脸识别系统，从而盗取被攻击者的个人隐私。那么，如何有效防御对抗样本的攻击行成为当前深度学习安全领域极具挑战性的问题。

目前，针对对抗样本的防御思路主要有以下两种：(1)完全防御，其目的是不断提高模型鲁棒性，最常用的方法是对抗训练，即在模型训练过程中不断加入对抗样本，构建鲁棒性更好的模型来防御对抗样本；(2)检测防御，大多使用混入了大量对抗样本的数据集去训练附加模型，用附加模型来检测输入样本是否为对抗样本，或通过对待检测样本进行多种图像变换处理，检测待检测样本和去噪处理后样本的预测结果是否一致识别判断对抗样本，其且只需要识别出输入样本是否为对抗样本，无须识别对抗样本本身真实的标签。

虽然，上述现有完全繁防御和检测防御方法都能在一定程度上防御对抗样本的攻击行为，但它们也存在着各自的应用缺陷：首先，完全防御的对抗训练中需要大量的对抗样本，进而极大地增加了训练时间和计算资源的消耗，且由于训练过程中只能加入由已知攻击算法产生的对抗样本的限制，导致该对抗训练防御通常只对与加入训练同类型的对抗样本有效，对其他攻击算法产生的对抗样本不具有泛化能力；其次，检测防御要么训练检测器仍旧需要提前训练大量对抗样本，耗费时间、训练效率不高，要么仅凭借去噪前后样本类别是否一致来判定样本是否为对抗样本会存在一定的误报率与漏报率，训练识别准确度不够，防御效果差。因此，亟需提供一种方法简单、训练高效且识别精准的对抗样本识别防御方法。

发明内容

本发明的目的是提供一种基于去噪算法的对抗样本防御方法，无需利用对抗样本生成算法生成大量的对抗样本来加固模型，只需对待检测图像样本进行一些去噪处理，结合待检测图像样本和去噪样本的深度神经网络预测向量之间的差异，即可简单、高效且精准的识别对抗样本及给出对应的预测类别，有效提升对抗样本的防御能力及模型的服务能力。

为了实现上述目的，有必要针对上述技术问题，提供了一种对抗样本防御方法、系统、计算机设备及存储介质。

第一方面，本发明实施例提供了一种对抗样本防御方法，所述方法包括以下步骤：

获取待检测图像样本；

分别采用不同的去噪方法对所述待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本；

将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；

分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本。

进一步地，所述分别采用不同的去噪方法对所述待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本的步骤包括：

采用非局部均值滤波对所述待检测图像样本进行去噪处理，得到第一去噪样本；

采用离散余弦变换对所述待检测图像样本进行去噪处理，得到第二去噪样本。

进一步地，所述深度神经网络模型包括依次连接的神经网络模块和softmax激活函数；

所述将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量的步骤包括：

将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入所述神经网络模块，得到对应的待检测样本预测向量、第一去噪样本预测向量和第二去噪样本预测向量；

采用所述Softmax激活函数，得到分别与所述待检测图像样本预测向量、第一去噪样本预测向量和第二去噪样本预测向量对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量。

进一步地，所述分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本的步骤包括：

分别计算所述待检测图像样本概率向量与所述第一去噪样本概率向量、所述第二去噪样本概率向量对应的余弦相似度，得到对应的所述第一相似度和第二相似度；

计算所述第一相似度与所述第二相似度的相似度平均值，并判断所述相似度平均值是否大于第一预设阈值，若大于，则判定所述待检测图像样本为对抗样本，反之，则判定所述待检测图像样本为正常样本。

进一步地，所述分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本的步骤之后还包括：

若所述待检测图像样本为对抗样本，则计算所述第一去噪样本概率向量与所述第二去噪样本概率向量的第三相似度，并根据所述第三相似度判断是否确定所述待检测图像样本的预测类别，反之，则根据所述待检测图像样本概率向量输出所述待检测图像样本的预测类别。

进一步地，所述计算所述第一去噪样本概率向量与所述第二去噪样本概率向量的第三相似度，并根据所述第三相似度判断是否确定所述待检测图像样本的预测类别的步骤包括：

计算所述第一去噪样本概率向量与所述第二去噪样本概率向量的余弦相似度，得到对应的所述第三相似度；

判断所述第三相似度是否大于第二预设阈值，若大于，则不确定所述待检测图像样本的预测类别，反之，则根据所述第一去噪样本概率向量和第二去噪样本概率向量，确定所述待检测图像样本的预测类别。

进一步地，所述根据所述第一去噪样本概率向量和第二去噪样本概率向量，确定所述待检测图像样本的预测类别的步骤包括：

选取所述第一去噪样本概率向量和第二去噪样本概率向量中的最大预测值，并将所述最大预测值作为所述待检测样的预测类别。

第二方面，本发明实施例提供了一种对抗样本防御系统，所述系统包括：

获取模块，用于获取待检测图像样本；

去噪模块，用于分别采用不同的去噪方法对所述待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本；

预测模块，用于将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；

识别模块，用于分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述本申请提供了一种对抗样本防御方法、系统、计算机设备及存储介质，通过所述方法，实现了通过对获取的待检测图像样本分别采用不同的去噪方法进行去噪处理，得到对应的第一去噪样本和第二去噪样本后，将待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量，再分别获取待检测样本概率向量与第一去噪样本概率向量、第二去噪样本概率向量对应的第一相似度和第二相似度，并根据第一相似度和第二相似度的均值判断待检测图像样本是否为对抗样本，以及在判定待检测图像样本为对抗样本时，根据第一去噪样本概率向量和第二去噪样本概率向量判断是否能给出预测类别的技术方案。与现有技术相比，本发明具备较好的迁移性，无需利用对抗样本生成算法生成大量的对抗样本来加固模型，只需对待检测图像样本进行一些去噪处理，结合待检测图像样本和去噪样本的深度神经网络预测向量之间的差异，即可简单、高效且精准的识别对抗样本及给出对应的预测类别，减少误报率和漏报率，有效提升对抗样本的防御能力及模型的服务能力。

附图说明

图1是本发明实施例中对抗样本防御方法应用场景示意图；

图2是本发明实施例中对抗样本防御方法的应用示意图；

图3是本发明实施例中对抗样本防御方法的流程示意图；

图4是图3中步骤S12对待检测图像样本去噪处理得到第一去噪样本和第二去噪样本的流程示意图；

图5是图3中步骤S13采用深度神经网络模型得到待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量的流程示意图；

图6是图3中步骤S14根据待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量判断待检测图像样本是否为对抗样本的流程示意图；

图7是本发明实施例中另一对抗样本防御方法的流程示意图；

图8是图7中步骤S15根据第一去噪样本概率向量和第二去噪样本概率向量判断是否确定待检测图像样本预测类别的流程示意图；

图9是本发明实施例中对抗样本防御系统的结构示意图；

图10是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白，下面结合附图及实施例，对本发明作进一步详细说明，显然，以下所描述的实施例是本发明实施例的一部分，仅用于说明本发明，但不用来限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于去噪算法的对抗样本防御方法，是预先采用非局部均值滤波和离散余弦变换对待检测图像样本进行去噪处理得到对应的不同的去噪样本后，将待检测样和去噪样本分别输入包括深度神经网络模块和softmax激活函数的深度神经网络模型得到对应的概率向量，再根据待检测样本概率向量与去噪样本概率向量的余弦相似度的平均值确定待检测图像样本是否为对抗样本，且在识别待检测图像样本为对抗样本时，根据不同去噪样本概率向量的余弦相似度进一步判断是否给出预测类别的对抗样本防御的方法，可以应用于如图1所示的终端或服务器上。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可通过采用如图2所示的对抗样本防御方法完成不同的图像深度学习训练任务，并将对应的训练结果发送至终端使用分析，或存储于服务器用于后续服务。具体的对抗样本防御方法，在下述实施例中进行详细阐述。

在一个实施例中，如图3所示，提供了一种对抗样本防御方法，所述方法包括以下步骤：

S11、获取待检测图像样本；

其中，待检测图像样本为待检测图像样本数据集中的任一样本，在实际对抗样本防御中，会对所有输入的样本数据进行一一检测，即对待检测图像样本数据集中的任一样本都要进行检查，但每一个待检测图像样本的检测方法步骤都是一样的，只需依次获取待检测图像样本数据集中的不同待检测图像样本采用本实施例中的对抗样本防御方法进行一一识别检测即可。

S12、分别采用不同的去噪方法对所述待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本；

其中，不同的去噪方法原则上可以根据实际应用需求从现有的图像去噪处理方法中任选两种使用，为了保证去噪的高效性，本实施例中优选的采用非局部均值滤波和离散余弦变换对待检测图像样本进行相应的去噪处理，如图4所示，所述分别采用不同的去噪方法对所述待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本的步骤S12包括：

S121、采用非局部均值滤波对所述待检测图像样本进行去噪处理，得到第一去噪样本；

其中，非局部均值滤波得到去噪后图像像素的方法为图像中每一像素点的像素值由图像中与它具有相似邻域结构的像素值加权平均得到，具体方法如下：设待检测图像样本的大小为N*N，搜索窗口大小为D*D，邻域窗口大小为d*d，要计算像素a去噪后的值，则搜索窗口以像素a为中心，在搜索窗口范围内计算以bi像素(在搜索窗口内滑动，直至超出搜索窗口大小)为中心的邻域窗口与以a像素为中心的邻域窗口之间的相似度并赋予权值，然后求其加权平均值作为当前像素的值。需要说明的是，本实施例使用的非局部均值滤波并不局限于原始的非局部均值滤波，也包括改进升级的非局部均值滤波。

S122、采用离散余弦变换对所述待检测图像样本进行去噪处理，得到第二去噪样本；

其中，离散余弦变换包括反离散余弦变换和逆离散余弦变换，具体使用离散余弦变换对待检测图像样本进行去噪处理的过程，参见现有技术实现即可，此处不再赘述。

本实施例中通过分别采用基于多次实验确定的非局部均值滤波和离散余弦变换对待检测图像样本进行高效去噪处理，得到近似无噪的第一去噪样本和第二去噪样本，为后续基于该第一去噪样本和第二去噪样本对待检测图像样本是否为对抗样本进行精准识别提供了有效保障。

S13、将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；

其中，深度神经网络模型原则上可以只包括根据实际应用需求确定的给出图像样本预测向量的神经网络模块，为了保证预测向量之间相似度计算的准确有效，本实施例在神经网络模块后设置了以预测向量为输入的softmax激活函数，对待检测图像样本、第一去噪样本和第二去噪样本对应的预测向量进行归一化处理。如图5所示，将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量的步骤S13包括：

S131、将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入所述神经网络模块，得到对应的待检测样本预测向量、第一去噪样本预测向量和第二去噪样本预测向量；

其中，神经网络模块可以根据实际应用需求进行选择，此处不作具体限制。待检测样本预测向量L₀、第一去噪样本预测向量L₁和第二去噪样本预测向量L₂为使用神经网络模块得到的预测结果，如神经网络模块选用AlexNet网络时，对应的得到的待检测样本预测向量、第一去噪样本预测向量和第二去噪样本预测向量就为AlexNet网络输出的代表图像属于各类概率的logits向量。需要说明的是，此处的AlexNet网络和logits向量仅为示例性说明，并不对本发明的保护范围作具体限制。

S132、采用所述Softmax激活函数，得到分别与所述待检测样本预测向量、第一去噪样本预测向量和第二去噪样本预测向量对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量。

其中，神经网络模块输出的预测向量经过Softmax激活函数处理后，就会将每个预测向量中的元素映射为0～1之间的值，且同属于一个预测向量的元素之和为1，即采用Softmax激活函数对待检测样本预测向量L₀、第一去噪样本预测向量L₁和第二去噪样本预测向量L₂进行归一化处理，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量，不仅保证后续向量间相似度计算的高效合理，而且保证了各相似度之间的可比性。

S14、分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本。

其中，第一相似度和第二相似度均为向量之间的相似度，现有的向量相似度计算方法有距离相似度计算方法、余弦相似度计算方法和相关系数相似度计算方法，且距离相似度计算方法包括欧式距离、标准化欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离和兰氏距离，余弦相似度计算方法包括几何向量夹角余弦值和由夹角余弦值拓展得到的Tanimoto系数，相关系数相似度计算方法包括皮尔逊相关系数。原则上本实施例中的向量相似度的计算方法可以采用上述任一相似度方法来实现，为了保证相似度计算既有效又普适，本实施例优选采用余弦相似度计算方法分别获取待检测样本概率向量与第一去噪样本概率向量的第一相似度、待检测样本概率向量与第二去噪样本概率向量的第二相似度，并基于得到的第一相似度和第二相似度的平均值判断待检测图像样本是否为对抗样本。如图6所示，所述分别获取所述待检测样本概率向量与所述第一去噪样本概率向量、所述第二去噪样本概率向量对应的第一相似度和第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本的步骤S14包括：

S141、分别计算所述待检测样本概率向量与所述第一去噪样本概率向量、所述第二去噪样本概率向量对应的余弦相似度，得到对应的所述第一相似度和第二相似度；

其中，余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度，即余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越接近；越趋近于-1，他们的方向越相反；接近于0，表示两个向量近乎于正交。假设待检测样本概率向量为P₀，第一去噪样本概率向量为P₁，第二去噪样本概率向量为P₂，则对应P₀与P₁的第一相似度d₁，P₀与P₂的第二相似度d₂，分别表示为：

S142、计算所述第一相似度与所述第二相似度的相似度平均值，并判断所述相似度平均值是否大于第一预设阈值，若大于，则判定所述待检测图像样本为对抗样本，反之，则判定所述待检测图像样本为正常样本。

其中，第一预设阈值可根据实际应用需求进行设定，为了保证第一预设阈值选择的合理性，本实施例中第一预设阈值优选的采用在不同的图像数据集上大量实验获取，且在第一预设阈值具体使用时不是直接与第一相似度和第二相似度进行比较，而是采用与第一相似度和第二相似度的相似度平均值进行比较，既保留了待检测图像样本分别与第一去噪样本、第二去噪样本之间相似度的应有差异性，又弥补了不同去噪算法对相似度计算影响的差异性，有效保证了相似度比较的合理性与有效性，进而为后续对抗样本点的精准识别提供了可靠依据。

需要说明的是，通过上述步骤即可实现对所有待检测图像样本是否为对抗样本的简单且精准的检测识别，即能高效完成对抗样本的防御任务。但若仅是从样本数据中识别出对抗样本，拒绝为该对抗样本提供分类或识别服务，并不能满足真正的深度机器学习训练需求，若能在识别出对抗样本后，尽可能地给出其真实的分类结果，不可否认的能够有效提升了深度机器学习的服务能力。基于该目的，本发明在完成上述对抗样本判断步骤S14之后，又增加了关于对抗样本真实分类结果的预测步骤，在有效实现对抗样本防御的基础上，提升可给出预测结果的样本数量，提高了查准率和查全率，进而提升对应深度机器学习的服务能力，具体实现方法将在下述实施例中进行详细阐述。

在一个实施例中，如图7所示，提供了一种对抗样本防御方法，所述分别获取所述待检测样本概率向量与所述第一去噪样本概率向量、所述第二去噪样本概率向量对应的第一相似度和第二相似度，并根据所述第一相似度和第二相似度，确定所述待检测样本是否为对抗样本的步骤之后还包括：

S15、若所述待检测图像样本为对抗样本，则计算所述第一去噪样本概率向量与所述第二去噪样本概率向量的第三相似度，并根据所述第三相似度判断是否确定所述待检测图像样本的预测类别，反之，则根据所述待检测图像样本概率向量输出所述待检测图像样本的预测类别。

其中，待检测图像样本为正常样本时，原则上根据待检测图像样本概率向量、第一去噪样本概率向量或第二去噪样本概率向量给出预测类别都是可行的，为了避免去噪样本带来的预测误差，本实施例优选采用待检测图像样本概率向量给出对应的预测分类。而对于已确定为对抗样本的待检测图像样本，需要根据第一去噪样本概率向量和第二去噪样本概率向量之间的第三相似度来判断是否能够给出预测分类，且第三相似度的计算方法参见前文中第一相似度和第二相似度描述，此处不再赘述。计算得到第三相似度后，根据第三相似度的大小即第一去噪样本和第二去噪样本的预测结果差异大小是否满足预期来确定是否能够给出对应的预测分类。如图8所示，所述计算所述第一去噪样本概率向量与所述第二去噪样本概率向量的第三相似度，并根据所述第三相似度判断是否确定所述待检测图像样本的预测类别的步骤S15包括：

S151、计算所述第一去噪样本概率向量与所述第二去噪样本概率向量的余弦相似度，得到对应的所述第三相似度；

S152、判断所述第三相似度是否大于第二预设阈值，若大于，则不确定所述待检测图像样本的预测类别，反之，则根据所述第一去噪样本概率向量和第二去噪样本概率向量，确定所述待检测图像样本的预测类别。

其中，第二预设阈值可根据实际应用需求进行设定，为了保证第二预设阈值选择的合理性，本实施例中第二预设阈值优选的采用在不同的图像数据集上大量实验获取。若第一去噪样本概率向量与第二去噪样本概率向量的余弦相似度大于第二预设阈值判定不同的去噪样本的预测结果相距甚远，存在分歧，无法给出预测结果，此处只能反馈该待检测图像样本为对抗样本，并不能提供对应的预测类别，反之，可进一步根据第一去噪样本概率向量与第二去噪样本概率向量给出对应的预测类别，即：选取所述第一去噪样本概率向量和第二去噪样本概率向量中的最大预测值，并将所述最大预测值作为所述待检测样的预测类别。

本申请实施例通过采用非局部均值滤波和离散余弦变换分别对待检测图像样本进行去噪处理得到对应的第一去噪样本和第二去噪样本后，将待检测图像样本、第一去噪样本和第二去噪样本分别输入包括神经网络模块和Softmax函数的深度神经网络模型得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量后，采用待检测样本概率向量与第一去噪样本概率向量、第二去噪样本概率向量对应的余弦相似度的平均值判断待检测图像样本是否为对抗样本，且在确定待检测图像样本为对抗样本后，根据第一去噪样本概率向量与第二去噪样本概率向量的余弦相似度进一步判断是否给出对应的预测分类的技术方案，具备较好的迁移性，无需利用对抗样本生成算法生成大量的对抗样本来加固模型，只需对待检测图像样本进行一些去噪处理，结合待检测图像样本和去噪样本的深度神经网络预测向量之间的差异，即可简单、高效且精准的识别对抗样本及给出对应的预测类别，减少误报率与漏报率，有效提升对抗样本的防御能力及模型的服务能力。

为了验证本发明对抗样本防御方法的技术效果，本实例选取经典MINIST数据集，在深度神经网络AlexNet上进行验证，并分别采用FGSM(Fast Gradient Sign Method)、JSMA(Jacobian-based Saliency Map Attack)、PGD(Projeccted Gradient Descent)三种对抗样本攻击算法基于MINIST数据集生成对抗样本数据集，将MNIST原数据集与生成的MNIST对抗样本数据集一起作为待检测图像样本数据集，分别输入原始AlexNet网络与添加本发明对抗样本防御方法AlexNet网络进行对比验证，且得到未经过本发明防御处理的预测结果和添加本发明防御处理的预测结果分别如表1和表2所示：

表1

	ORIGIN	FGSM	JSMA	PGD
					Accuracy rate	99.2％	0	0	0
Error rate	0.8％	100％	100％	100％

表1中，ORIGIN代表MNIST原数据集；FGSM、JSMA和PGD分别代表使用FGSM算法、JSMA算法和PGD算法攻击下的MNIST对抗样本数据集；Accuracy rate代表数据集输入到深度神经网络中得到的预测类别与数据集实际类别相一致的数据所占整个数据集的比例；Errorrate代表数据集输入到深度神经网络中得到的预测类别与数据集实际类别不一致的数据所占整个数据集的比例。从表1结果可知，本发明所选用的AlexNet网络在MNIST数据集上的识别准确率高达99.2％，但在MNIST数据集上使用FGSM、JSMA、PGD攻击算法生成对抗样本后，再输入AlexNet网络预测，识别准确率均为0。

表2

	ORIGIN	FGSM	JSMA	PGD
					Detection rate	0.8％	98.56％	94.33％	87.5％
Defense rate	/	91.42％	88.56％	70.45％

表2中，Detection rate代表对抗样本检测率，即经过去噪算法处理后的数据集与未经过算法处理的数据集输入深度神经网络得到的预测结果不一致的数据所占整个数据集的比例；Defense rate代表对抗样本防御成功率，即经过不同去噪算法处理后的对抗样本输入到深度神经网络得到的预测结果相近的数据所占对抗样本的比例。从表2结果可知，对于FGSM和JSMA攻击算法生成的对抗样本，对抗样本检测成功率都在90％以上，对于对抗样本攻击效果比较强的PGD攻击，检测效果也达到了87.5％，对于MNIST原数据集而言，将1.2％的干净样本判别为对抗样本的主要原因在于深度神经网络本身达不到100％的识别准确率，存在一定的误差，但在合理范围之内，且对抗样本防御成功率相比较于对抗样本检测成功率要低的原因在于经过不同的去噪算法处理后的样本经过网络后得到的预测结果存在一定的分歧，此时虽然不能给出准确的预测结果，但仍能反馈为对抗样本，具有较好的防御效果。

需要说明的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。

在一个实施例中，如图9所示，提供了一种对抗样本防御系统，所述系统包括：

获取模块1，用于获取待检测图像样本；

去噪模块2，用于分别采用不同的去噪方法对所述待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本；

预测模块3，用于将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；

识别模块4，用于分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本。

需要说明的是，关于对抗样本防御系统的具体限定可以参见上文中对于对抗样本防御方法的限定，在此不再赘述。上述对抗样本防御系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图10示出一个实施例中计算机设备的内部结构图，该计算机设备具体可以是终端或服务器。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对抗样本防御方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算设备可以包括比途中所示更多或更少的部件，或者组合某些部件，或者具有同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

综上，本发明实施例提供的一种对抗样本防御方法、系统、计算机设备及存储介质，其对抗样本防御方法实现了通过对获取的待检测图像样本分别采用不同的去噪方法进行去噪处理，得到对应的第一去噪样本和第二去噪样本后，将待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量，再分别获取待检测样本概率向量与第一去噪样本概率向量、第二去噪样本概率向量对应的第一相似度和第二相似度，并根据第一相似度和第二相似度的均值判断待检测图像样本是否为对抗样本，以及在判定待检测图像样本为对抗样本时，根据第一去噪样本概率向量和第二去噪样本概率向量判断是否能给出预测类别的技术方案。该对抗样本防御方法，具备较好的迁移性，无需利用对抗样本生成算法生成大量的对抗样本来加固模型，只需对待检测图像样本进行一些去噪处理，结合待检测图像样本和去噪样本的深度神经网络预测向量之间的差异，即可简单、高效且精准的识别对抗样本及给出对应的预测类别，减少误报率与漏报率，有效提升对抗样本的防御能力及模型的服务能力。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对抗样本防御方法，其特征在于，所述方法包括以下步骤：

获取待检测图像样本；

将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测图像样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；

分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本；

其中，所述深度神经网络模型包括依次连接的神经网络模块和softmax激活函数；

所述将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测图像样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量的步骤包括：

采用所述softmax激活函数，得到分别与所述待检测样本预测向量、第一去噪样本预测向量和第二去噪样本预测向量对应的待检测图像样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；

所述分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本的步骤包括：

2.如权利要求1所述的对抗样本防御方法，其特征在于，所述分别采用不同的去噪方法对所述待检测图像样本进行去噪处理，得到对应的第一去噪样本和第二去噪样本的步骤包括：

3.如权利要求1所述的对抗样本防御方法，其特征在于，所述分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本的步骤之后还包括：

4.如权利要求3所述的对抗样本防御方法，其特征在于，所述计算所述第一去噪样本概率向量与所述第二去噪样本概率向量的第三相似度，并根据所述第三相似度判断是否确定所述待检测图像样本的预测类别的步骤包括：

5.如权利要求3所述的对抗样本防御方法，其特征在于，所述根据所述第一去噪样本概率向量和第二去噪样本概率向量，确定所述待检测图像样本的预测类别的步骤包括：

6.一种对抗样本防御系统，其特征在于，所述系统包括以下步骤：

获取模块，用于获取待检测图像样本；

预测模块，用于将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测图像样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量；

识别模块，用于分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本；

所述将所述待检测图像样本、第一去噪样本和第二去噪样本分别输入深度神经网络模型，得到对应的待检测图像样本概率向量、第一去噪样本概率向量和第二去噪样本概率向量，包括：

所述分别获取所述待检测图像样本概率向量与所述第一去噪样本概率向量的第一相似度、以及与所述第二去噪样本概率向量的第二相似度，并根据所述第一相似度和第二相似度，判断所述待检测图像样本是否为对抗样本，包括：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一所述方法的步骤。