CN113254927B

CN113254927B - 一种基于网络防御的模型处理方法、装置及存储介质

Info

Publication number: CN113254927B
Application number: CN202110590895.9A
Authority: CN
Inventors: 陈晋音; 上官文昌; 吴长安; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-05-17
Anticipated expiration: 2041-05-28
Also published as: CN113254927A

Abstract

本申请公开了一种基于网络防御的模型处理方法、装置及存储介质，涉及神经网络的防御方法，包括：获取与目标模型满足相似度要求的替代模型；采用预设攻击方式攻击替代模型，生成对抗样本；根据对抗样本以及预设算法，计算获取差分隐私噪声参数；根据差分隐私噪声参数，在目标模型的输出层添加差分隐私噪声层，获取优化的目标模型。在该方法中，通过攻击替代模型生成对抗样本，并利用对抗样本以及预设算法，计算获取差分隐私噪声参数；最终在目标模型的输出层添加差分隐私噪声层，得到了优化后的目标模型，由于替代模型和目标模型的决策边缘相似，攻击替代模型生成的对抗样本具有较好的迁移性，提高了目标模型对抗各种攻击的成功率。

Description

一种基于网络防御的模型处理方法、装置及存储介质

技术领域

本发明涉及神经网络的防御方法，具体涉及一种基于网络防御的模型处理方法、装置及存储介质。

背景技术

深度学习(DeepLearning，简称DL)是机器学习(Machine Learning，简称ML)的一个分支，通过使计算机从经验和知识中学习而不需要明确的编程，并从原始数据中提取有用的模式的机器学习方法。对于传统的机器学习算法，由于其局限性，例如维度诅咒、计算瓶颈等，难以提取出表征良好的特征。深度学习通过构建多个简单的特征来表示一个复杂的概念来解决表示问题。例如，一个基于深度学习的图像分类系统通过描述隐藏层中的边缘和结构来表示一个对象。随着可用训练数据的增加，深度学习的性能变得更加强大。深度学习模型借助硬件加速计算时间，已经可以解决许多复杂问题。

目前，随着深度学习的发展，深度神经网络(Deep Neural Networks，简称DNN)已经在很多领域可以达到优于人类的效果，例如计算机视觉、语音识别、自然语言处理、机器翻译、自动驾驶等领域。然而伴随着DNN在众多领域被应用，最近也很多研究开始关注DNN的安全性。目前已经有很多在深度学习领域的工作表明DNN在对抗样本中的潜在脆弱性。在图像分类中，对抗样本是一个经过精心修改的图像，人类的视觉对扰动并不敏感(人眼难以发现对抗样本与其对应原始图像的区别)，但对抗样本却可能导致DNN模型对其误分类。比如，通过在一张猫的图像上加特定的噪声生成对抗样本，在人看来，生成的对抗样本并无区别，还是一只猫。但是如果将对抗样本输入一个已经训练好的分类器，分类器会判定该张图像是一只狗。除了分类器，大量基于DNN的应用程序已经在物理世界中使用或计划部署，特别是在安全关键环境中。同时，最近的研究表明，对抗样本可以应用于现实世界。例如，攻击者可以构造一个物理对抗样本(区别于数字对抗样本)，通过操纵交通标志识别系统中的停车标志来欺骗自动驾驶汽车。

对抗性攻击根据暴露给攻击者的目标模型信息可分为白盒攻击和黑盒攻击。在大部分情况下，由于白盒攻击能获得比黑盒攻击更丰富的信息，所以在各种应用中，白盒攻击往往比黑盒攻击获得更高的攻击成功率。但是从现实情况下考虑，大部分的攻击实施环境都是黑盒环境，黑盒攻击与白盒攻击相比有更多的现实意义。

目前的对抗防御方法，主要分为两种防御策略：反应型：在深度神经网络构建后检测对抗样本。主动型：在攻击者生成对抗样本之前使深度神经网络更鲁棒。反应型对策主要包含三种方法：对抗检测、输入重构和网络验证。主动型对策包含三种方法：网络蒸馏、对抗训练和分类器鲁棒。

但是目前的防御方法，只针对某种攻击有较好的效果，需要针对不同攻击进行设计，成本高且效果不佳。

发明内容

鉴于上述，本发明的目的是提供一种基于网络防御的模型处理方法、装置及存储介质，以实现对目标模型的防御。

为实现上述目的，本发明采用的技术方案为：

第一方面，本发明实施例提供一种基于网络防御的模型处理方法，包括：

获取与目标模型满足相似度要求的替代模型；

采用预设攻击方式攻击所述替代模型，生成对抗样本；

根据所述对抗样本以及预设算法，计算获取差分隐私噪声参数；

根据所述差分隐私噪声参数，在所述目标模型的输出层添加差分隐私噪声层，获取优化的目标模型。

可选地，所述获取与目标模型满足相似度要求的替代模型，包括：

根据所述目标模型的输出类型，搭建初始替代模型；

将待分类数据输入所述目标模型，输出获取所述待分类数据对应的标记信息；

根据所述待分类数据对应的标记信息以及所述待分类数据，获取训练数据集；

采用所述训练数据集训练所述初始替代模型，获取所述替代模型。

可选地，所述采用预设攻击方式攻击所述替代模型，生成对抗样本，包括：

采用白盒攻击方法攻击所述替代模型，生成所述对抗样本。

可选地，所述根据所述对抗样本以及预设算法，计算获取差分隐私噪声参数，包括：

采用公式

计算获取差分隐私噪声参数

其中，i表示所述目标模型的第i类样本，j表示所述目标模型的第j类样本，x表示所述目标模型的测试样本，ε为隐私保护预算，C表示所述目标模型数据集的类别数，f⁽ⁱ⁾(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率，e表示自然底数，s(f,||·||)表示得分函数f(·)的敏感度，定义为：

其中，z表示所述目标模型的样本，z′表示所述对抗样本，f⁽ⁱ⁾(z)表示输入为数据样本z、输出为第i类样本时的输出概率，f⁽ⁱ⁾(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率，z_i、z_j表示同一类别的不同样本，p表示范数，ρ表示常数。

可选地，所述根据所述差分隐私噪声参数，在所述目标模型的输出层添加差分隐私噪声层，获取优化的目标模型之后，所述方法还包括：

通过评价指标算法，测试所述目标模型的防御攻击性。

可选地，所述通过评价指标算法，测试所述目标模型的防御攻击性，包括：

采用评价公式

计算获取所述目标模型评价指标ASR；

其中，n_right表示所述目标模型在对抗攻击前，正确分类的样本数，n_adv表示被所述目标模型分类正确的样本中被攻击成功的所述对抗样本数。

第二方面，本发明实施例提供了一种基于网络防御的模型处理装置，包括：获取单元、生成单元、计算单元以及添加单元；

所述获取单元用于获取与目标模型满足相似度要求的替代模型；

所述生成单元用于采用预设攻击方式攻击所述替代模型，生成对抗样本；

所述计算单元用于根据所述对抗样本以及预设算法，计算获取差分隐私噪声参数；

所述添加单元用于根据所述差分隐私噪声参数，在所述目标模型的输出层添加差分隐私噪声层，获取优化的目标模型。

可选地，所述获取单元用于根据所述目标模型的输出类型，搭建初始替代模型；将待分类数据输入所述目标模型，输出获取所述待分类数据对应的标记信息；根据所述待分类数据对应的标记信息以及所述待分类数据，获取训练数据集；采用所述训练数据集训练所述初始替代模型，获取所述替代模型。

可选地，所述生成单元用于采用白盒攻击攻击所述替代模型，生成所述对抗样本。

可选地，所述计算单元用于采用公式

计算获取差分隐私噪声参数

其中，i表示所述目标模型的第i类样本，j表示所述目标模型的第j类样本，x表示所述目标模型的测试样本数，ε为隐私保护预算，C表示所述目标模型数据集的类别数，f⁽ⁱ⁾(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率，e表示自然底数，s(f,||·||)表示得分函数f(·)的敏感度，定义为：

可选地，所述装置还包括：评价单元；

所述评价单元用于通过评价指标算法，测试所述目标模型的防御攻击性。

可选地，所述评价单元用于采用评价公式

计算获取所述目标模型评价指标ASR；

第三方面，本发明实施例提供了一种基于网络防御的模型处理装置，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述装置运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面所述方法的步骤。

第四方面，本发明实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面提供的方法。

本发明提供的一种基于网络防御的模型处理方法、装置及存储介质中，获取与目标模型满足相似度要求的替代模型；采用预设攻击方式攻击所述替代模型，生成对抗样本；根据所述对抗样本以及预设算法，计算获取差分隐私噪声参数；根据所述差分隐私噪声参数，在所述目标模型的输出层添加差分隐私噪声层，获取优化的目标模型。在该方法中，通过攻击替代模型生成对抗样本，并利用对抗样本以及预设算法，计算获取差分隐私噪声参数；最终在目标模型的输出层添加差分隐私噪声层，得到了优化后的目标模型，由于替代模型和目标模型的决策边缘相似，攻击替代模型生成的对抗样本具有较好的迁移性，这样可以使得优化后的目标模型可以对抗多种类型的攻击，提高了目标模型对抗各种攻击的成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本申请一实施例提供的现有技术在目标模型网络结构中添加噪声层的结构示意图；

图2为本申请一实施例提供的基于网络防御的模型处理方法的流程示意图；

图3为本申请一实施例提供的添加了差分隐私噪声层的目标模型结构示意图；

图4为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图；

图5为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图；

图6为本申请一实施例提供的基于网络防御的模型处理装置的结构示意图；

图7为本申请另一实施例提供的基于网络防御的模型处理装置的结构示意图；

图8为本申请一实施例提供的基于网络防御的模型处理装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

目前，对抗性攻击根据暴露给攻击者的目标模型信息可分为白盒攻击和黑盒攻击两类。白盒攻击假定攻击者知道训练过的神经网络模型相关的一切，包括训练数据、模型架构、超参数、层数、激活函数和模型权重等。然而，黑盒攻击假设攻击者无法获得经过训练的神经网络模型的知识。攻击者作为标准用户，黑盒攻击只允许攻击者外部访问模型，攻击者无法获得模型的结构和其内部参数，只能通过向模型输入样本，得到模型的输出(标签或置信度值)，再根据模型输入与其对应输出的相关信息进行攻击。在大部分情况下，由于白盒攻击能获得比黑盒攻击更丰富的信息，所以在各种应用中，白盒攻击往往比黑盒攻击获得更高的攻击成功率。但是从现实情况下考虑，训练的详细信息难以获取，大部分的攻击实施环境都是黑盒环境。

目前一些方案中也提出了向目标模型中添加噪声的对抗防御方法，如图1所示为现有技术中所采用的在目标模型网络结构中添加噪声层的结构示意图，如图1所示，网络模型中包括卷积层、池化层、全连接层以及噪声层，通过输入训练样本，最终得到输出置信度。现有的噪声层的添加方式是在目标模型每个卷积层前添加一个噪声层。即现有技术中没有对噪声层的添加位置做一个精准的定位，因此，现有的防御方法不能有效防御黑盒攻击。此外，如图1噪声层添加方式可能会对目标模型的性能有一定影响，会降低目标模型对正常样本的分类准确率。

基于上述技术问题，本申请实施例提供一种基于网络防御的模型处理方法。图2为本申请实施例提供的基于网络防御的模型处理方法的流程示意图，如图2所示，该方法包括：

S101、获取与目标模型满足相似度要求的替代模型。

需要说明的是，在本申请实施例中，上述目标模型为网络中需要受保护的模型，主要用于目标识别，例如公安系统中的人脸识别，或者自动驾驶领域的交通标记牌的识别等。本申请实施例中，先找到一个与目标模型相似的替代模型，例如与目标模型决策边缘相似的模型作为替代模型。再者，替代模型还可以选择目前的现有模型，例如可以选择Vgg16、GoogleNet或者ResNet等经典模型。

在替代模型确定好之后，需要利用相关样本数据对替代模型的网络节点参数进行训练，获取满足本申请实施例目标要求的模型。实施例中，相关样本数据与目标模型的应用领域相关，当应用在人脸识别时，则相关样本数据为一些人脸图像，当应用在交通标记牌识别时，则相关样本数据为一些交通标记牌。

S102、采用预设攻击方式攻击替代模型，生成对抗样本。

需要说明的是，在本申请实施例中，预设攻击方式可以采用现有一些常见的攻击方式、或者我们需要去防范的攻击方式等。示例性地，可以采用快速梯度符号法、盒子约束法、普遍对抗性扰动等方法，在本实施例中对于具体的攻击方式不做限定。需要说明的是，受到攻击后的替代模型所产生的对抗样本，能够对目标模型的输出置信度进行干扰。

S103、根据对抗样本以及预设算法，计算获取差分隐私噪声参数。

差分隐私噪声是通过添加噪声使数据失真，从而起到保护隐私的目的。在本申请实施例中差分隐私噪声可以用来模糊目标模型的输出。

在本申请实施例中，根据上述生成的对抗样本的相关信息以及预设算法，计算获取差分隐私噪声的相关参数。需要说明的是，预设算法具体可以是预设的差分隐私机制。举例说明，差分隐私机制可以是高斯机制，指数机制等。在本申请实施例中，对于差分隐私机制的选择不做具体限定。

S104、根据差分隐私噪声参数，在目标模型的输出层添加差分隐私噪声层，获取优化的目标模型。

在本申请实施例中，在目标模型的输出层添加差分隐私噪声层，最终得到优化后的目标模型，需要说明的是，该优化后的目标模型可以防御多种类型的攻击，例如可以用来防范黑盒攻击。

为了清楚示意本申请实施例的差分隐私噪声层与现有的差分隐私噪声层添加方式的区别，图3为本申请实施例所提供的添加了差分隐私噪声层的目标模型结构示意图。如图3所示，添加了差分隐私噪声层后的目标模型包括有：输入、卷积层、池化层、全连接层以及所添加的差分隐私噪声层。在差分隐私噪声层之前，全连接层输出的为置信度，在添加差分隐私噪声层之后，最终会输出添加差分隐私噪声后的置信度。

需要说明的是，在本申请实施例中，通过在目标模型的输出层添加差分隐私噪声层，可以模糊目标模型的置信度输出，最终达到有效防御黑盒攻击的效果。

具体地，当目标模型受到攻击时，通过优化后的目标模型将目标模型的置信度进行模糊输出，以避免攻击方获取到准确的信息。示例性地，在模糊输出前，受到攻击的目标模型在分类一条狗的图片时，得到的输出置信度可以是：狗:0.9，猫：0.07，老虎：0.001，其他：0.029。在模糊输出后，受到攻击的目标模型在分类一条狗的图片时，得到的输出置信度可以是：狗:0.2，猫：0.1，老虎：0.1，其他：0.6。

本实施例提供的基于网络防御的模型处理方法中，包括：获取与目标模型满足相似度要求的替代模型；采用预设攻击方式攻击所述替代模型，生成对抗样本；根据所述对抗样本以及预设算法，计算获取差分隐私噪声参数；根据所述差分隐私噪声参数，在所述目标模型的输出层添加差分隐私噪声层，获取优化的目标模型。在该方法中，由于替代模型和目标模型相似，攻击替代模型生成的对抗样本具有较好的迁移性，这样可以使得优化后的目标模型对抗多种类型的攻击，提高了目标模型对抗各种攻击的成功率。

图4为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图。如图4所示，步骤S101可以包括：

S301、根据目标模型的输出类型，搭建初始替代模型。

在本申请实施例中，可以根据目标模型的目标输出结果搭建初始替代模型，即获取输出结果类似的替代模型。

初始替代模型可以采用现有的模型结构。需要说明的是，在本实施例中，在搭建初始替代模型之前还需要配置相应的网络环境。初始替代模型的搭建需要在一定的软硬件环境下进行。

示例性地，在本申请实施例中，可以采用如下参数配置设备的软硬件环境：i7-7700K 4.20GHzx8(CPU),TITAN Xp 12GiBx2(GPU),16GBx4 memory(DDR4),Ubuntu16.04(OS),Python(3.7),tensorflow-gpu(1.8.0),keras(2.2.4),torch(0.4.1)和torchvision(0.2.1)。需要说明的是，以上示出的软硬件设置方式只是示意性地，具体的软硬件环境配置参数并不以此为限。

示例性地，假设目标模型的输出结果用于图像识别，则选择一个结构相对较复杂的图像识别模型作为替代模型，假设目标模型的输出结果用于图像分类，则选择一个图像分类相关的模型作为替代模型。

如上述，替代模型可以是重新构建的新模型，也可以是从现有模型中选择的现有模型。如果替代模型为新的新模型，则需要构建替代构建网络架构。替代模型可以与目标模型类似，也包括：卷积层、池化层、全连接层、以及dropout层等。

其中，卷积层主要用来提取输入图片的特征，根据分类任务的复杂程度，选取不同的卷积核数量，卷积核大小，步长值。一般情况下，分类任务越复杂，卷积核数量越多，卷积核尺寸越大。由于每个卷积层后需要连接一个激活函数，在本申请实施例中可以采用relu函数作为激活函数，而对于上述激活函数只是示意性地，具体的激活函数类型本申请不做限定。

池化层的作用是为了下采样，对卷积层提取的特征进行压缩，去除冗余信息，简化网络复杂度，减小计算量，减小内存消耗等。常用池化层主要分为两类，平均池化层和最大池化层。平均池化层将该区域的平均值作为区域池化后的值。最大池化层将区域内最大的值作为该区域池化后的值。池化层根据分类任务的复杂程度不同，设置不同的池化区域尺寸。

全连接层用来整合卷积层和池化层的局部信息。通常放置在模型的顶部。根据分类任务的复杂度，选取不同的神经元数量。一般情况下，分类任务越复杂，神经元数量越多。

训练神经网络的过程中经常出现的一个问题是模型过拟合。过拟合可能会导致模型在训练阶段的准确率很高，但是测试阶段准确率很低。为防止过拟合，在本申请实施例中，在每层池化层后都添加一层dropout层，此外，还可以在第一个全连接层后也添加dropout层。

在本申请实施例中，最终确定好的替代模型与目标模型决策边缘相似，替代模型可以与目标模型达到相似的目标输出结果。

S302、将待分类数据输入目标模型，输出获取待分类数据对应的标记信息。

需要说明的是，在本申请实施例中，利用目标模型的输出结果获取替代模型的训练数据集。

具体地，将目标模型的样本数据输入目标模型，得到目标模型的输出结果。需要说明的是，在本申请实施例中，通过目标模型得到的输出结果(训练数据集)，包含有目标模型标记的标记信息。

S303、根据待分类数据对应的标记信息以及待分类数据，获取训练数据集。

示例性地，通过目标模型的样本数据为一张狗的图片，且目标模型是用于分类的模型，则通过目标模型得到的对应的标记为“狗”，进而可以把待分类数据以及对应的标记信息作为样本数据写入训练数据集。

S304、采用训练数据集训练初始替代模型，获取替代模型。

在本申请实施例中，采用上述所获取的训练数据集对替代模型进行训练，具体地，可以将训练数据集分为两部分，一部分为训练集，一部分为测试集。训练集和测试集的分配可以按照预设比例进行设置，示例性地，可以是将训练集和测试集按照5:1的比例进行分配。此外，训练集和测试集的比例分配还可以按照其他方式，本申请实施例对于样本分配比例的设定不做限制。采用训练集对模型进行训练后，再采用测试集进行测试，判断模型是否满足训练的要求。

在替代模型训练阶段，还需要对替代模型的迭代次数(epoch)、学习率(lr)、每次训练输入替代模型的图片个数(batch)进行设置，需要说明的是，batch设置太小会导致替代模型难以收敛。batch太大会占用大量的硬件内存。batch的常规选取有16、32、64、128等，示例性地，在本申请实施例中，可以将batch设置为64。lr的可以设置为0.01、0.001以及0.0001等，示例性地，在本申请实施例中，可以将lr设置为0.0001。epoch设置太少会导致替代模型未能充分学习到特征，性能较低，而epoch设置太大会浪费时间，甚至会导致模型过拟合，示例性地，本申请实施例中可以将epoch设置为30。需要说明的是，上述参数的设置只是示例性地，具体的参数设定值并不限于此。

可选地，采用预设攻击方式攻击替代模型，生成对抗样本，包括：采用白盒攻击来攻击替代模型，生成对抗样本。

目前的攻击方式包括白盒攻击以及黑盒攻击两种，在本申请实施例中，由于替代模型为结构已知的模型，且经过训练后的替代模型的节点参数可以获取到。为了达到更优的攻击效果，可以采用白盒攻击的方式攻击替代模型，并利用替代模型生成对抗样本。

白盒攻击方式多样，示例性地可以采用快速梯度符号法(Fast Gradient SignMethod，简称FGSM)对替代模型进行攻击，以生成对抗样本。

白盒攻击(FGSM)是沿着替代模型的梯度方向添加图像扰动，使替代模型的损失函数增大，导致替代模型生成错误的分类结果，上述替代模型生成的错误分类结果，即为对抗样本。

可选地，根据对抗样本以及预设算法，计算获取差分隐私噪声参数，包括：采用公式

计算获取差分隐私噪声参数

其中，i表示目标模型的第i类样本，j表示目标模型的第j类样本，x表示目标模型的测试样本数，ε为隐私保护预算，C表示目标模型数据集的类别数，f⁽ⁱ⁾(x)表示目标模型的测试样本x被目标模型分类为第i类的概率，e表示自然底数，s(f，||·||)表示得分函数f(·)的敏感度，定义为：

其中，z表示所述目标模型的样本，z′表示所述对抗样本，f⁽ⁱ⁾(z)表示输入为数据样本z、输出为第i类样本时的输出概率，f⁽ⁱ⁾(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率，z_i、z_j表示同一类别的不同样本，p表示范数，ρ表示常数。需要说明的是，在本实施例中，具体计算时ρ可以取值为数字1，但不以此为限。

图5为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图。如图5所示，在步骤S104之后，该方法还包括：

S105、通过评价指标算法，测试目标模型的防御攻击性。

需要说明的是，在本申请实施例中，设置评价指标用于对目标模型的防御攻击性进行评价。示例性地，分别统计目标模型在防御攻击前和防御攻击后，目标模型抵御攻击的成功次数，以测试目标模型的防御攻击性能。

可选地，步骤S105、通过评价指标算法，测试目标模型的防御攻击性，具体包括：采用评价公式

计算获取目标模型评价指标ASR；

其中，n_right表示目标模型在对抗攻击前，正确分类的样本数，n_adv表示被目标模型分类正确的样本中被攻击成功的对抗样本数。

可以理解的是，通过本申请实施例提供的模型评价指标ASR，可以有效获知优化后的目标模型的防御攻击性能。

本申请实施例提供一种基于网络防御的模型处理装置，用于执行前述一种基于网络防御的模型处理方法。图6为本申请一实施例提供的一种基于网络防御的模型处理装置的结构示意图，如图6所示，该基于网络防御的模型处理装置包括：获取单元501、生成单元502、计算单元503以及添加单元504。

获取单元501，用于获取与目标模型满足相似度要求的替代模型；

生成单元502，用于采用预设攻击方式攻击替代模型，生成对抗样本；

计算单元503，用于根据对抗样本以及预设算法，计算获取差分隐私噪声参数；

添加单元504，用于根据所述差分隐私噪声参数，在所述目标模型的输出层添加差分隐私噪声层，获取优化的目标模型。

可选地，获取单元501，用于根据所述目标模型的输出类型，搭建初始替代模型；将待分类数据输入所述目标模型，输出获取所述待分类数据对应的标记信息；根据所述待分类数据对应的标记信息以及所述待分类数据，获取训练数据集；采用所述训练数据集训练所述初始替代模型，获取所述替代模型。

可选地，生成单元502，用于采用白盒攻击攻击替代模型，生成对抗样本。

可选地，计算单元503，用于采用公式

计算获取差分隐私噪声参数

图7为本申请一实施例提供的一种基于网络防御的模型处理装置的结构示意图，如图7所示，该装置还包括：评价单元505；

评价单元505，用于通过评价指标算法，测试目标模型的防御攻击性。

可选地，评价单元505，具体用于采用评价公式

计算获取目标模型评价指标ASR；

图8为本申请实施例提供的一种基于网络防御的模型处理装置的结构示意图，包括：处理器710、存储介质720和总线730，存储介质720存储有处理器710可执行的机器可读指令，当电子设备运行时，处理器710与存储介质720之间通过总线730通信，处理器710执行机器可读指令，以执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。

本申请实施例提供了一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网络防御的模型处理方法，其特征在于，包括：

获取与目标模型满足相似度要求的替代模型；

采用预设攻击方式攻击所述替代模型，生成对抗样本；

根据所述对抗样本以及预设算法，计算获取差分隐私噪声参数，包括：

采用公式

计算获取差分隐私噪声参数

其中，i表示所述目标模型的第i类样本，j表示所述目标模型的第j类样本，x表示所述目标模型的测试样本数，ε为隐私保护预算，C表示目标模型数据集的类别数，f⁽ⁱ⁾(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率，e表示自然底数，s(f,||·||)表示得分函数f(·)的敏感度，定义为：

其中，z表示所述目标模型的样本，z′表示所述对抗样本，f⁽ⁱ⁾(z)表示输入为数据样本z、输出为第i类样本时的输出概率，f⁽ⁱ⁾(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率，z_i、z_j表示同一类别的不同样本，p表示范数，ρ表示常数；

2.根据权利要求1所述的基于网络防御的模型处理方法，其特征在于，所述获取与目标模型满足相似度要求的替代模型，包括：

根据所述目标模型的输出类型，搭建初始替代模型；

3.根据权利要求2所述的基于网络防御的模型处理方法，其特征在于，所述采用预设攻击方式攻击所述替代模型，生成对抗样本，包括：

采用白盒攻击方法攻击所述替代模型，生成所述对抗样本。

4.根据权利要求1所述的基于网络防御的模型处理方法，其特征在于，所述根据所述差分隐私噪声参数，在所述目标模型的输出层添加差分隐私噪声层，获取优化的目标模型之后，所述方法还包括：

通过评价指标算法，测试所述目标模型的防御攻击性。

5.根据权利要求4所述的基于网络防御的模型处理方法，其特征在于，所述通过评价指标算法，测试所述目标模型的防御攻击性，包括：

采用评价公式

计算获取所述目标模型评价指标ASR；

其中，n_right表示所述目标模型在对抗攻击前，正确分类的样本数，n_adv表示被所述目标模型分类正确的样本中被攻击成功的对抗样本数。

6.一种基于网络防御的模型处理装置，其特征在于，包括：获取单元、生成单元、计算单元以及添加单元；

所述计算单元用于根据所述对抗样本以及预设算法，计算获取差分隐私噪声参数，包括：

采用公式

计算获取差分隐私噪声参数

7.根据权利要求6所述的基于网络防御的模型处理装置，其特征在于，所述获取单元，用于根据所述目标模型的输出类型，搭建初始替代模型；将待分类数据输入所述目标模型，输出获取所述待分类数据对应的标记信息；根据所述待分类数据对应的标记信息以及所述待分类数据，获取训练数据集；采用所述训练数据集训练所述初始替代模型，获取所述替代模型。

8.一种基于网络防御的模型处理装置，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述装置运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-5任一项所述基于网络防御的模型处理方法的步骤。

9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-5任一项所述基于网络防御的模型处理方法的步骤。