CN110796237B

CN110796237B - 一种深度神经网络对抗攻击的检测方法及装置

Info

Publication number: CN110796237B
Application number: CN201911029288.4A
Authority: CN
Inventors: 李平; 张全; 季纯; 马东阳; 徐理刚; 徐伟
Original assignee: Ningxia Jihu Technology Co ltd
Current assignee: Ningxia Jihu Technology Co ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2023-04-07
Anticipated expiration: 2039-10-28
Also published as: CN110796237A

Abstract

本申请实施例提供了一种深度神经网络对抗攻击的检测方法及装置，方法包括向原始模型中输入正常训练样本获取触发参数不变量；创建派生模型；向派生模型输入正常训练样本获取初始关联不变量；向原始模型中输入检测样本获取观测触发参数；向派生模型中输入检测样本获取观测初始关联参数；根据以上得到的参数和不变量判断检测样本是否为对抗攻击样本。与现有技术相比本申请基于触发参数不变量和初始关联不变量来判断观测触发参数和初始关联参数与前述两个不变量的大小关系，从而能够准确地检测出对抗攻击样本，实现对特定固定及方法的有效防御和检测，同时本申请的对抗攻击检测方法具备普遍性，能够抵御广泛多样的攻击形式。

Description

一种深度神经网络对抗攻击的检测方法及装置

技术领域

本公开涉及机器学习技术领域，尤其涉及一种深度神经网络对抗攻击的检测方法和装置。

背景技术

目前深度神经网络算法(DNN)在各个领域的贡献都很引人注目，成功的将传统神经网络的识别率提高了一个显著的档次。深度神经网络算法(DNN)虽然精确度越来越高，但是深度神经网络(DNN)很容易受到对抗攻击，从而导致DNN模型出现误分类等异常行为。例如，在精度达到人类水平的神经网络上通过优化过程故意构造数据点，这种对抗攻击方法的误差率接近100％。在许多情况下，对抗样本与原始样本非常近似，人类观察者不会察觉原始样本和对抗样本之间的差异，但是网络会作出非常不同的预测。现有的防御和检测技术基于特定假设，虽然能够实现对某种特定攻击方法的有效防御和检测，但往往不具备普遍性，无法抵御广泛多样的攻击形式。

发明内容

本申请提供一种深度神经网络对抗攻击的检测方法及装置为解决现有的防御和检测技术基于特定假设，虽然能够实现对某种特定攻击方法的有效防御和检测，但往往不具备普遍性，无法抵御广泛多样的攻击形式的问题。

本申请的第一方面，提供一种深度神经网络对抗攻击的检测方法，所述方法包括：向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；当VI/PI属于均匀分布时，如果DV/DP小于第二阈值，则判断所述检测样本为对抗攻击样本。

结合第一方面，在第一种可能的实现方式中，向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI包括：向原始模型中输入正常训练样本，以使正常样本在所述原始模型的每一层神经元层中触发参数并训练；从训练后的所述原始模型中获取每一层神经元层的触发分布作为所述触发参数不变量。

结合第一方面，在第二种可能的实现方式中，从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型，包括：从所述原始模型中提取1至L层的神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型。

结合第一方面，在第三种可能的实现方式中，所述归一化指数层和所述原始模型具有相同的输出标签。

结合第一方面，在第四种可能的实现方式中，所述从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型，还包括：冻结子模型的触发参数。

结合第一方面，在第五种可能的实现方式中，向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI，包括：向所述派生模型输入正常训练样本对所述派生模型进行训练，得到训练后的派生模型；从训练后的派生模型获取每一对连续的神经元层之间的分类结果分布，将所述分类结果分布作为初始关联不变量。

结合第一方面，在第六种可能的实现方式中，所述第一阈值为0.3，所述第二阈值为0.5。

本申请的第二方面，提供一种深度神经网络对抗攻击的检测装置，所述装置包括：

触发参数不变量获取模块，用于向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；

派生模型创建模块，用于从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；

初始关联不变量获取模块，用于向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；

观测触发参数获取模块，用于向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；

观测初始关联参数获取模块，用于向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；

触发参数概率计算模块，用于计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；

关联参数概率计算模块，用于计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；

样本判断模块，用于当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；

当VI/PI属于均匀分布时，如果DV/DP小于第二阈值，则判断所述检测样本为对抗攻击样本。

本申请实施例提供的技术方案可以包括以下有益效果：所述方法包括：向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；当VI/PI属于均匀分布时，如果DV/DP小于第二阈值，则判断所述检测样本为对抗攻击样本。与现有技术相比本申请通过将正常训练样本训练过的原始模型、派生模型得到的触发参数不变量和初始关联不变量，再通过将检测样本训练过的原始模型、派生模型得到与检测样本关联的观测触发参数和初始关联参数，基于触发参数不变量和初始关联不变量来判断观测触发参数和初始关联参数与前述两个不变量的大小关系，从而能够准确地检测出对抗攻击样本，实现对特定固定及方法的有效防御和检测，同时本申请的对抗攻击检测方法具备普遍性，能够抵御广泛多样的攻击形式。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本申请实施例提供的深度神经网络对抗攻击的检测方法的工作流程示意图；

图2是本申请实施例提供的正常样本经过原始模型处理过程的示意图；

图3是本申请实施例提供的对抗攻击样本经过修改初始关联的原始模型的处理过程的示意图；

图4是本申请实施例提供的正常样本经过修改触发参数的原始模型的处理过程的示意图；

图5是本申请实施例提供的派生模型创建过程示意图；

图6是本申请实施例提供的深度神经网络对抗攻击的检测装置框架图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

初始关联通道定义：DNN的每一层，包含隐藏层，可以看作是将前一层激活的神经元提取出来，与本层的触发参数进行矩阵乘法，然后依据一个激活函数来确定本层中需要被激活的神经元。基于此，定义前一层激活神经元与本层所激活神经元之间的关系即为本层的初始关联。

触发参数分布通道：有些攻击可能不会利用初始关联通道。换句话说，对抗样本的初始关联与正常输入的初始关联相同。在这种情况下，为了引起分类错误，激活神经元的触发参数分布必须与良性输入的不同。

举例来讲,给定一个正常样本X,X的对抗样本X′,给定模型M。如图2为模型M处理正常样本X的过程。通过模型M,正常样本X被分为类别A，对抗样本X′被分类为B。这种情况的发生有两种途径，一是在模型运算过程中，直接修改了某两层或多层之间的初始关联，导致后面各层的神经元激活发生变化，导致最终结果变化，如图3所示。二是不改变各层的初始关联，变相修改触发参数，导致后续激活的神经元不尽相同，最终导致输出结果的变化，如图4所示。为了方便理解，图2至图4中，L1L2L3…Ln代表每一层的神经网络，输出结果只有一种，A或B表示。图中，浅灰色代表未激活神元，深灰色代表激活神经元。

本申请的第一方面，提供一种深度神经网络对抗攻击的检测方法，如图1所示，所述方法包括以下步骤：

步骤S101，向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI。本申请实施例是向原始模型中输入多个正常训练样本X1至Xn,向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI包括：向原始模型中输入正常训练样本，以使正常样本在所述原始模型的每一层神经元层中触发参数并训练；从训练后的所述原始模型中获取每一层神经元层的触发分布作为所述触发参数不变量。每一层神经元层的分布，比如VL1至VLn，将这些分布作为触发参数不变量VI。

步骤S102，从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型。具体地，从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型，包括：从所述原始模型中提取1至L层的神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型。

对于模型中的每一层L，我们通过从输入层提取到L形成子模型，并在子模型的最后添加与原始模型具有相同输出标签的归一化指数层，从而创建一个派生模型，冻结子模型的触发参数，详细的生成过程如图5。L层的派生模型是基于L处提取的特征来预测输出类标签。输出标签是由归一化指数层完成，与原始模型输出标签类别一致。例如前文中给出的A,B归一化指数层，是神经网络的softmax层，表示每个输入属于每个类别的概率，此检测系统不生成新的softmax层，只是取原模型中的softmax层合并至每个子模型中生成相应的派生模型。

步骤S103，向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI。具体第地，向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI，包括：向所述派生模型输入正常训练样本对所述派生模型进行训练，得到训练后的派生模型；从训练后的派生模型获取每一对连续的神经元层之间的分类结果分布，将所述分类结果分布作为初始关联不变量。通过所有派生模型输入每个正常训练样本，收集并训练这些模型的最终输出分布。对于每一对连续的层，记录它们的分类结果的分布，即为此两层的初始关联不变量PI。

步骤S104，向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；

步骤S105，向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；

将检测样本，输入原始模型外和所有派生模型。收集原始模型中各层的触发参数作为观测触发参数OV，并将连续层(成对)派生模型的分类结果作为观测初始关联OP。

步骤S106，计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；

步骤S107，计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；

步骤S108，当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；当VI/PI属于均匀分布时，如果DV/DP小于第二阈值，则判断所述检测样本为对抗攻击样本。根据VI/PI所符合的分布类型来综合判断检测样本是否为对抗攻击样本，具体地，当VI/PI属于正态分布，则DV/DP小于0.3时，即检测样本为对抗样本；当VI/PI属于均匀分布，则DV/DP小于0.5时，即检测样本为对抗样本。

本申请实施例提供的技术方案可以包括以下有益效果：所述方法包括向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；当VI/PI属于均匀分布时，如果DV/DP小于第二阈值，则判断所述检测样本为对抗攻击样本。与现有技术相比本申请通过将正常训练样本训练过的原始模型、派生模型得到的触发参数不变量和初始关联不变量，再通过将检测样本训练过的原始模型、派生模型得到与检测样本关联的观测触发参数和初始关联参数，基于触发参数不变量和初始关联不变量来判断观测触发参数和初始关联参数与前述两个不变量的大小关系，从而能够准确地检测出对抗攻击样本，实现对特定固定及方法的有效防御和检测，同时本申请的对抗攻击检测方法具备普遍性，能够抵御广泛多样的攻击形式。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。参见图6所示的结构示意图，本申请实施例提供一种深度神经网络对抗攻击的检测装置，所述装置包括：

触发参数不变量获取模块U1001，用于向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；

派生模型创建模块U1002，用于从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；

初始关联不变量获取模块U1003，用于用于向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；

观测触发参数获取模块U1004，用于用于向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；

观测初始关联参数获取模块U1005，用于向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；

触发参数概率计算模块U1006，用于计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；

关联参数概率计算模块U1007，用于计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；

样本判断模块U1008，用于当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；

具体实现中，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的一种基于规则的报文检测方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、ROM(read-onlymemory，只读存储记忆体)或RAM(random access memory，随机存储记忆体)等。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种深度神经网络对抗攻击的检测方法，其特征在于，所述方法包括：

向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI；

从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型；

向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI；

向所述原始模型中输入检测样本对所述原始模型进行训练，根据训练结果获取观测触发参数OV；

向所述派生模型中输入检测样本对所述派生模型进行训练，根据训练结果获取观测初始关联参数OP；

计算所述观测触发参数OV属于相应所述触发参数不变量VI的触发参数概率DVi，并计算所述触发参数概率DVi的平均值DV；

计算所述观测初始关联参数OP符合相应所述初始关联不变量PI分布的关联参数概率DPi，并计算所述关联参数概率Dpi的平均值DP；

当VI/PI属于正态分布时，如果DV/DP小于第一阈值，则判断所述检测样本为对抗攻击样本；

2.如权利要求1所述的方法，其特征在于，向原始模型中输入正常训练样本对所述原始模型进行训练，根据训练结果获取触发参数不变量VI包括：

向原始模型中输入正常训练样本，以使正常样本在所述原始模型的每一层神经元层中触发参数并训练；

从训练后的所述原始模型中获取每一层神经元层的触发分布作为所述触发参数不变量。

3.如权利要求1所述的方法，其特征在于，从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型，包括：

从所述原始模型中提取1至L层的神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型。

4.如权利要求1所述的方法，其特征在于，所述归一化指数层和所述原始模型具有相同的输出标签。

5.如权利要求1所述的方法，其特征在于，所述从所述原始模型中提取多层神经元层作为子模型，向所述子模型中添加归一化指数层，得到派生模型，还包括：冻结子模型的触发参数。

6.如权利要求1所述的方法，其特征在于，向所述派生模型输入正常训练样本对所述派生模型进行训练，根据训练结果获取初始关联不变量PI，包括：

向所述派生模型输入正常训练样本对所述派生模型进行训练，得到训练后的派生模型；

从训练后的派生模型获取每一对连续的神经元层之间的分类结果分布，将所述分类结果分布作为初始关联不变量。

7.如权利要求1所述的方法，其特征在于，所述第一阈值为0.3，所述第二阈值为0.5。

8.一种深度神经网络对抗攻击的检测装置，其特征在于，所述装置包括：