CN113254927B - 一种基于网络防御的模型处理方法、装置及存储介质 - Google Patents

一种基于网络防御的模型处理方法、装置及存储介质 Download PDF

Info

Publication number
CN113254927B
CN113254927B CN202110590895.9A CN202110590895A CN113254927B CN 113254927 B CN113254927 B CN 113254927B CN 202110590895 A CN202110590895 A CN 202110590895A CN 113254927 B CN113254927 B CN 113254927B
Authority
CN
China
Prior art keywords
model
target model
sample
target
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110590895.9A
Other languages
English (en)
Other versions
CN113254927A (zh
Inventor
陈晋音
上官文昌
吴长安
宣琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110590895.9A priority Critical patent/CN113254927B/zh
Publication of CN113254927A publication Critical patent/CN113254927A/zh
Application granted granted Critical
Publication of CN113254927B publication Critical patent/CN113254927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于网络防御的模型处理方法、装置及存储介质,涉及神经网络的防御方法,包括:获取与目标模型满足相似度要求的替代模型;采用预设攻击方式攻击替代模型,生成对抗样本;根据对抗样本以及预设算法,计算获取差分隐私噪声参数;根据差分隐私噪声参数,在目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。在该方法中,通过攻击替代模型生成对抗样本,并利用对抗样本以及预设算法,计算获取差分隐私噪声参数;最终在目标模型的输出层添加差分隐私噪声层,得到了优化后的目标模型,由于替代模型和目标模型的决策边缘相似,攻击替代模型生成的对抗样本具有较好的迁移性,提高了目标模型对抗各种攻击的成功率。

Description

一种基于网络防御的模型处理方法、装置及存储介质
技术领域
本发明涉及神经网络的防御方法,具体涉及一种基于网络防御的模型处理方法、装置及存储介质。
背景技术
深度学习(DeepLearning,简称DL)是机器学习(Machine Learning,简称ML)的一个分支,通过使计算机从经验和知识中学习而不需要明确的编程,并从原始数据中提取有用的模式的机器学习方法。对于传统的机器学习算法,由于其局限性,例如维度诅咒、计算瓶颈等,难以提取出表征良好的特征。深度学习通过构建多个简单的特征来表示一个复杂的概念来解决表示问题。例如,一个基于深度学习的图像分类系统通过描述隐藏层中的边缘和结构来表示一个对象。随着可用训练数据的增加,深度学习的性能变得更加强大。深度学习模型借助硬件加速计算时间,已经可以解决许多复杂问题。
目前,随着深度学习的发展,深度神经网络(Deep Neural Networks,简称DNN)已经在很多领域可以达到优于人类的效果,例如计算机视觉、语音识别、自然语言处理、机器翻译、自动驾驶等领域。然而伴随着DNN在众多领域被应用,最近也很多研究开始关注DNN的安全性。目前已经有很多在深度学习领域的工作表明DNN在对抗样本中的潜在脆弱性。在图像分类中,对抗样本是一个经过精心修改的图像,人类的视觉对扰动并不敏感(人眼难以发现对抗样本与其对应原始图像的区别),但对抗样本却可能导致DNN模型对其误分类。比如,通过在一张猫的图像上加特定的噪声生成对抗样本,在人看来,生成的对抗样本并无区别,还是一只猫。但是如果将对抗样本输入一个已经训练好的分类器,分类器会判定该张图像是一只狗。除了分类器,大量基于DNN的应用程序已经在物理世界中使用或计划部署,特别是在安全关键环境中。同时,最近的研究表明,对抗样本可以应用于现实世界。例如,攻击者可以构造一个物理对抗样本(区别于数字对抗样本),通过操纵交通标志识别系统中的停车标志来欺骗自动驾驶汽车。
对抗性攻击根据暴露给攻击者的目标模型信息可分为白盒攻击和黑盒攻击。在大部分情况下,由于白盒攻击能获得比黑盒攻击更丰富的信息,所以在各种应用中,白盒攻击往往比黑盒攻击获得更高的攻击成功率。但是从现实情况下考虑,大部分的攻击实施环境都是黑盒环境,黑盒攻击与白盒攻击相比有更多的现实意义。
目前的对抗防御方法,主要分为两种防御策略:反应型:在深度神经网络构建后检测对抗样本。主动型:在攻击者生成对抗样本之前使深度神经网络更鲁棒。反应型对策主要包含三种方法:对抗检测、输入重构和网络验证。主动型对策包含三种方法:网络蒸馏、对抗训练和分类器鲁棒。
但是目前的防御方法,只针对某种攻击有较好的效果,需要针对不同攻击进行设计,成本高且效果不佳。
发明内容
鉴于上述,本发明的目的是提供一种基于网络防御的模型处理方法、装置及存储介质,以实现对目标模型的防御。
为实现上述目的,本发明采用的技术方案为:
第一方面,本发明实施例提供一种基于网络防御的模型处理方法,包括:
获取与目标模型满足相似度要求的替代模型;
采用预设攻击方式攻击所述替代模型,生成对抗样本;
根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;
根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。
可选地,所述获取与目标模型满足相似度要求的替代模型,包括:
根据所述目标模型的输出类型,搭建初始替代模型;
将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;
根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;
采用所述训练数据集训练所述初始替代模型,获取所述替代模型。
可选地,所述采用预设攻击方式攻击所述替代模型,生成对抗样本,包括:
采用白盒攻击方法攻击所述替代模型,生成所述对抗样本。
可选地,所述根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数,包括:
采用公式
Figure BDA0003089502710000031
计算获取差分隐私噪声参数
Figure BDA0003089502710000032
其中,i表示所述目标模型的第i类样本,j表示所述目标模型的第j类样本,x表示所述目标模型的测试样本,ε为隐私保护预算,C表示所述目标模型数据集的类别数,f(i)(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:
Figure BDA0003089502710000041
其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数。
可选地,所述根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型之后,所述方法还包括:
通过评价指标算法,测试所述目标模型的防御攻击性。
可选地,所述通过评价指标算法,测试所述目标模型的防御攻击性,包括:
采用评价公式
Figure BDA0003089502710000042
计算获取所述目标模型评价指标ASR;
其中,nright表示所述目标模型在对抗攻击前,正确分类的样本数,nadv表示被所述目标模型分类正确的样本中被攻击成功的所述对抗样本数。
第二方面,本发明实施例提供了一种基于网络防御的模型处理装置,包括:获取单元、生成单元、计算单元以及添加单元;
所述获取单元用于获取与目标模型满足相似度要求的替代模型;
所述生成单元用于采用预设攻击方式攻击所述替代模型,生成对抗样本;
所述计算单元用于根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;
所述添加单元用于根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。
可选地,所述获取单元用于根据所述目标模型的输出类型,搭建初始替代模型;将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;采用所述训练数据集训练所述初始替代模型,获取所述替代模型。
可选地,所述生成单元用于采用白盒攻击攻击所述替代模型,生成所述对抗样本。
可选地,所述计算单元用于采用公式
Figure BDA0003089502710000051
计算获取差分隐私噪声参数
Figure BDA0003089502710000052
其中,i表示所述目标模型的第i类样本,j表示所述目标模型的第j类样本,x表示所述目标模型的测试样本数,ε为隐私保护预算,C表示所述目标模型数据集的类别数,f(i)(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:
Figure BDA0003089502710000053
其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数。
可选地,所述装置还包括:评价单元;
所述评价单元用于通过评价指标算法,测试所述目标模型的防御攻击性。
可选地,所述评价单元用于采用评价公式
Figure BDA0003089502710000061
计算获取所述目标模型评价指标ASR;
其中,nright表示所述目标模型在对抗攻击前,正确分类的样本数,nadv表示被所述目标模型分类正确的样本中被攻击成功的所述对抗样本数。
第三方面,本发明实施例提供了一种基于网络防御的模型处理装置,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述装置运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述第一方面所述方法的步骤。
第四方面,本发明实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面提供的方法。
本发明提供的一种基于网络防御的模型处理方法、装置及存储介质中,获取与目标模型满足相似度要求的替代模型;采用预设攻击方式攻击所述替代模型,生成对抗样本;根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。在该方法中,通过攻击替代模型生成对抗样本,并利用对抗样本以及预设算法,计算获取差分隐私噪声参数;最终在目标模型的输出层添加差分隐私噪声层,得到了优化后的目标模型,由于替代模型和目标模型的决策边缘相似,攻击替代模型生成的对抗样本具有较好的迁移性,这样可以使得优化后的目标模型可以对抗多种类型的攻击,提高了目标模型对抗各种攻击的成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本申请一实施例提供的现有技术在目标模型网络结构中添加噪声层的结构示意图;
图2为本申请一实施例提供的基于网络防御的模型处理方法的流程示意图;
图3为本申请一实施例提供的添加了差分隐私噪声层的目标模型结构示意图;
图4为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图;
图5为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图;
图6为本申请一实施例提供的基于网络防御的模型处理装置的结构示意图;
图7为本申请另一实施例提供的基于网络防御的模型处理装置的结构示意图;
图8为本申请一实施例提供的基于网络防御的模型处理装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
目前,对抗性攻击根据暴露给攻击者的目标模型信息可分为白盒攻击和黑盒攻击两类。白盒攻击假定攻击者知道训练过的神经网络模型相关的一切,包括训练数据、模型架构、超参数、层数、激活函数和模型权重等。然而,黑盒攻击假设攻击者无法获得经过训练的神经网络模型的知识。攻击者作为标准用户,黑盒攻击只允许攻击者外部访问模型,攻击者无法获得模型的结构和其内部参数,只能通过向模型输入样本,得到模型的输出(标签或置信度值),再根据模型输入与其对应输出的相关信息进行攻击。在大部分情况下,由于白盒攻击能获得比黑盒攻击更丰富的信息,所以在各种应用中,白盒攻击往往比黑盒攻击获得更高的攻击成功率。但是从现实情况下考虑,训练的详细信息难以获取,大部分的攻击实施环境都是黑盒环境。
目前一些方案中也提出了向目标模型中添加噪声的对抗防御方法,如图1所示为现有技术中所采用的在目标模型网络结构中添加噪声层的结构示意图,如图1所示,网络模型中包括卷积层、池化层、全连接层以及噪声层,通过输入训练样本,最终得到输出置信度。现有的噪声层的添加方式是在目标模型每个卷积层前添加一个噪声层。即现有技术中没有对噪声层的添加位置做一个精准的定位,因此,现有的防御方法不能有效防御黑盒攻击。此外,如图1噪声层添加方式可能会对目标模型的性能有一定影响,会降低目标模型对正常样本的分类准确率。
基于上述技术问题,本申请实施例提供一种基于网络防御的模型处理方法。图2为本申请实施例提供的基于网络防御的模型处理方法的流程示意图,如图2所示,该方法包括:
S101、获取与目标模型满足相似度要求的替代模型。
需要说明的是,在本申请实施例中,上述目标模型为网络中需要受保护的模型,主要用于目标识别,例如公安系统中的人脸识别,或者自动驾驶领域的交通标记牌的识别等。本申请实施例中,先找到一个与目标模型相似的替代模型,例如与目标模型决策边缘相似的模型作为替代模型。再者,替代模型还可以选择目前的现有模型,例如可以选择Vgg16、GoogleNet或者ResNet等经典模型。
在替代模型确定好之后,需要利用相关样本数据对替代模型的网络节点参数进行训练,获取满足本申请实施例目标要求的模型。实施例中,相关样本数据与目标模型的应用领域相关,当应用在人脸识别时,则相关样本数据为一些人脸图像,当应用在交通标记牌识别时,则相关样本数据为一些交通标记牌。
S102、采用预设攻击方式攻击替代模型,生成对抗样本。
需要说明的是,在本申请实施例中,预设攻击方式可以采用现有一些常见的攻击方式、或者我们需要去防范的攻击方式等。示例性地,可以采用快速梯度符号法、盒子约束法、普遍对抗性扰动等方法,在本实施例中对于具体的攻击方式不做限定。需要说明的是,受到攻击后的替代模型所产生的对抗样本,能够对目标模型的输出置信度进行干扰。
S103、根据对抗样本以及预设算法,计算获取差分隐私噪声参数。
差分隐私噪声是通过添加噪声使数据失真,从而起到保护隐私的目的。在本申请实施例中差分隐私噪声可以用来模糊目标模型的输出。
在本申请实施例中,根据上述生成的对抗样本的相关信息以及预设算法,计算获取差分隐私噪声的相关参数。需要说明的是,预设算法具体可以是预设的差分隐私机制。举例说明,差分隐私机制可以是高斯机制,指数机制等。在本申请实施例中,对于差分隐私机制的选择不做具体限定。
S104、根据差分隐私噪声参数,在目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。
在本申请实施例中,在目标模型的输出层添加差分隐私噪声层,最终得到优化后的目标模型,需要说明的是,该优化后的目标模型可以防御多种类型的攻击,例如可以用来防范黑盒攻击。
为了清楚示意本申请实施例的差分隐私噪声层与现有的差分隐私噪声层添加方式的区别,图3为本申请实施例所提供的添加了差分隐私噪声层的目标模型结构示意图。如图3所示,添加了差分隐私噪声层后的目标模型包括有:输入、卷积层、池化层、全连接层以及所添加的差分隐私噪声层。在差分隐私噪声层之前,全连接层输出的为置信度,在添加差分隐私噪声层之后,最终会输出添加差分隐私噪声后的置信度。
需要说明的是,在本申请实施例中,通过在目标模型的输出层添加差分隐私噪声层,可以模糊目标模型的置信度输出,最终达到有效防御黑盒攻击的效果。
具体地,当目标模型受到攻击时,通过优化后的目标模型将目标模型的置信度进行模糊输出,以避免攻击方获取到准确的信息。示例性地,在模糊输出前,受到攻击的目标模型在分类一条狗的图片时,得到的输出置信度可以是:狗:0.9,猫:0.07,老虎:0.001,其他:0.029。在模糊输出后,受到攻击的目标模型在分类一条狗的图片时,得到的输出置信度可以是:狗:0.2,猫:0.1,老虎:0.1,其他:0.6。
本实施例提供的基于网络防御的模型处理方法中,包括:获取与目标模型满足相似度要求的替代模型;采用预设攻击方式攻击所述替代模型,生成对抗样本;根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数;根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。在该方法中,由于替代模型和目标模型相似,攻击替代模型生成的对抗样本具有较好的迁移性,这样可以使得优化后的目标模型对抗多种类型的攻击,提高了目标模型对抗各种攻击的成功率。
图4为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图。如图4所示,步骤S101可以包括:
S301、根据目标模型的输出类型,搭建初始替代模型。
在本申请实施例中,可以根据目标模型的目标输出结果搭建初始替代模型,即获取输出结果类似的替代模型。
初始替代模型可以采用现有的模型结构。需要说明的是,在本实施例中,在搭建初始替代模型之前还需要配置相应的网络环境。初始替代模型的搭建需要在一定的软硬件环境下进行。
示例性地,在本申请实施例中,可以采用如下参数配置设备的软硬件环境:i7-7700K 4.20GHzx8(CPU),TITAN Xp 12GiBx2(GPU),16GBx4 memory(DDR4),Ubuntu16.04(OS),Python(3.7),tensorflow-gpu(1.8.0),keras(2.2.4),torch(0.4.1)和torchvision(0.2.1)。需要说明的是,以上示出的软硬件设置方式只是示意性地,具体的软硬件环境配置参数并不以此为限。
示例性地,假设目标模型的输出结果用于图像识别,则选择一个结构相对较复杂的图像识别模型作为替代模型,假设目标模型的输出结果用于图像分类,则选择一个图像分类相关的模型作为替代模型。
如上述,替代模型可以是重新构建的新模型,也可以是从现有模型中选择的现有模型。如果替代模型为新的新模型,则需要构建替代构建网络架构。替代模型可以与目标模型类似,也包括:卷积层、池化层、全连接层、以及dropout层等。
其中,卷积层主要用来提取输入图片的特征,根据分类任务的复杂程度,选取不同的卷积核数量,卷积核大小,步长值。一般情况下,分类任务越复杂,卷积核数量越多,卷积核尺寸越大。由于每个卷积层后需要连接一个激活函数,在本申请实施例中可以采用relu函数作为激活函数,而对于上述激活函数只是示意性地,具体的激活函数类型本申请不做限定。
池化层的作用是为了下采样,对卷积层提取的特征进行压缩,去除冗余信息,简化网络复杂度,减小计算量,减小内存消耗等。常用池化层主要分为两类,平均池化层和最大池化层。平均池化层将该区域的平均值作为区域池化后的值。最大池化层将区域内最大的值作为该区域池化后的值。池化层根据分类任务的复杂程度不同,设置不同的池化区域尺寸。
全连接层用来整合卷积层和池化层的局部信息。通常放置在模型的顶部。根据分类任务的复杂度,选取不同的神经元数量。一般情况下,分类任务越复杂,神经元数量越多。
训练神经网络的过程中经常出现的一个问题是模型过拟合。过拟合可能会导致模型在训练阶段的准确率很高,但是测试阶段准确率很低。为防止过拟合,在本申请实施例中,在每层池化层后都添加一层dropout层,此外,还可以在第一个全连接层后也添加dropout层。
在本申请实施例中,最终确定好的替代模型与目标模型决策边缘相似,替代模型可以与目标模型达到相似的目标输出结果。
S302、将待分类数据输入目标模型,输出获取待分类数据对应的标记信息。
需要说明的是,在本申请实施例中,利用目标模型的输出结果获取替代模型的训练数据集。
具体地,将目标模型的样本数据输入目标模型,得到目标模型的输出结果。需要说明的是,在本申请实施例中,通过目标模型得到的输出结果(训练数据集),包含有目标模型标记的标记信息。
S303、根据待分类数据对应的标记信息以及待分类数据,获取训练数据集。
示例性地,通过目标模型的样本数据为一张狗的图片,且目标模型是用于分类的模型,则通过目标模型得到的对应的标记为“狗”,进而可以把待分类数据以及对应的标记信息作为样本数据写入训练数据集。
S304、采用训练数据集训练初始替代模型,获取替代模型。
在本申请实施例中,采用上述所获取的训练数据集对替代模型进行训练,具体地,可以将训练数据集分为两部分,一部分为训练集,一部分为测试集。训练集和测试集的分配可以按照预设比例进行设置,示例性地,可以是将训练集和测试集按照5:1的比例进行分配。此外,训练集和测试集的比例分配还可以按照其他方式,本申请实施例对于样本分配比例的设定不做限制。采用训练集对模型进行训练后,再采用测试集进行测试,判断模型是否满足训练的要求。
在替代模型训练阶段,还需要对替代模型的迭代次数(epoch)、学习率(lr)、每次训练输入替代模型的图片个数(batch)进行设置,需要说明的是,batch设置太小会导致替代模型难以收敛。batch太大会占用大量的硬件内存。batch的常规选取有16、32、64、128等,示例性地,在本申请实施例中,可以将batch设置为64。lr的可以设置为0.01、0.001以及0.0001等,示例性地,在本申请实施例中,可以将lr设置为0.0001。epoch设置太少会导致替代模型未能充分学习到特征,性能较低,而epoch设置太大会浪费时间,甚至会导致模型过拟合,示例性地,本申请实施例中可以将epoch设置为30。需要说明的是,上述参数的设置只是示例性地,具体的参数设定值并不限于此。
可选地,采用预设攻击方式攻击替代模型,生成对抗样本,包括:采用白盒攻击来攻击替代模型,生成对抗样本。
目前的攻击方式包括白盒攻击以及黑盒攻击两种,在本申请实施例中,由于替代模型为结构已知的模型,且经过训练后的替代模型的节点参数可以获取到。为了达到更优的攻击效果,可以采用白盒攻击的方式攻击替代模型,并利用替代模型生成对抗样本。
白盒攻击方式多样,示例性地可以采用快速梯度符号法(Fast Gradient SignMethod,简称FGSM)对替代模型进行攻击,以生成对抗样本。
白盒攻击(FGSM)是沿着替代模型的梯度方向添加图像扰动,使替代模型的损失函数增大,导致替代模型生成错误的分类结果,上述替代模型生成的错误分类结果,即为对抗样本。
可选地,根据对抗样本以及预设算法,计算获取差分隐私噪声参数,包括:采用公式
Figure BDA0003089502710000141
计算获取差分隐私噪声参数
Figure BDA0003089502710000142
其中,i表示目标模型的第i类样本,j表示目标模型的第j类样本,x表示目标模型的测试样本数,ε为隐私保护预算,C表示目标模型数据集的类别数,f(i)(x)表示目标模型的测试样本x被目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:
Figure BDA0003089502710000151
其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数。需要说明的是,在本实施例中,具体计算时ρ可以取值为数字1,但不以此为限。
图5为本申请另一实施例提供的基于网络防御的模型处理方法的流程示意图。如图5所示,在步骤S104之后,该方法还包括:
S105、通过评价指标算法,测试目标模型的防御攻击性。
需要说明的是,在本申请实施例中,设置评价指标用于对目标模型的防御攻击性进行评价。示例性地,分别统计目标模型在防御攻击前和防御攻击后,目标模型抵御攻击的成功次数,以测试目标模型的防御攻击性能。
可选地,步骤S105、通过评价指标算法,测试目标模型的防御攻击性,具体包括:采用评价公式
Figure BDA0003089502710000152
计算获取目标模型评价指标ASR;
其中,nright表示目标模型在对抗攻击前,正确分类的样本数,nadv表示被目标模型分类正确的样本中被攻击成功的对抗样本数。
可以理解的是,通过本申请实施例提供的模型评价指标ASR,可以有效获知优化后的目标模型的防御攻击性能。
本申请实施例提供一种基于网络防御的模型处理装置,用于执行前述一种基于网络防御的模型处理方法。图6为本申请一实施例提供的一种基于网络防御的模型处理装置的结构示意图,如图6所示,该基于网络防御的模型处理装置包括:获取单元501、生成单元502、计算单元503以及添加单元504。
获取单元501,用于获取与目标模型满足相似度要求的替代模型;
生成单元502,用于采用预设攻击方式攻击替代模型,生成对抗样本;
计算单元503,用于根据对抗样本以及预设算法,计算获取差分隐私噪声参数;
添加单元504,用于根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。
可选地,获取单元501,用于根据所述目标模型的输出类型,搭建初始替代模型;将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;采用所述训练数据集训练所述初始替代模型,获取所述替代模型。
可选地,生成单元502,用于采用白盒攻击攻击替代模型,生成对抗样本。
可选地,计算单元503,用于采用公式
Figure BDA0003089502710000161
计算获取差分隐私噪声参数
Figure BDA0003089502710000162
其中,i表示目标模型的第i类样本,j表示目标模型的第j类样本,x表示目标模型的测试样本数,ε为隐私保护预算,C表示目标模型数据集的类别数,f(i)(x)表示目标模型的测试样本x被目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:
Figure BDA0003089502710000163
其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数。
图7为本申请一实施例提供的一种基于网络防御的模型处理装置的结构示意图,如图7所示,该装置还包括:评价单元505;
评价单元505,用于通过评价指标算法,测试目标模型的防御攻击性。
可选地,评价单元505,具体用于采用评价公式
Figure BDA0003089502710000171
计算获取目标模型评价指标ASR;
其中,nright表示目标模型在对抗攻击前,正确分类的样本数,nadv表示被目标模型分类正确的样本中被攻击成功的对抗样本数。
图8为本申请实施例提供的一种基于网络防御的模型处理装置的结构示意图,包括:处理器710、存储介质720和总线730,存储介质720存储有处理器710可执行的机器可读指令,当电子设备运行时,处理器710与存储介质720之间通过总线730通信,处理器710执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于网络防御的模型处理方法,其特征在于,包括:
获取与目标模型满足相似度要求的替代模型;
采用预设攻击方式攻击所述替代模型,生成对抗样本;
根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数,包括:
采用公式
Figure FDA0003569821410000011
计算获取差分隐私噪声参数
Figure FDA0003569821410000012
其中,i表示所述目标模型的第i类样本,j表示所述目标模型的第j类样本,x表示所述目标模型的测试样本数,ε为隐私保护预算,C表示目标模型数据集的类别数,f(i)(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:
Figure FDA0003569821410000013
其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数;
根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。
2.根据权利要求1所述的基于网络防御的模型处理方法,其特征在于,所述获取与目标模型满足相似度要求的替代模型,包括:
根据所述目标模型的输出类型,搭建初始替代模型;
将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;
根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;
采用所述训练数据集训练所述初始替代模型,获取所述替代模型。
3.根据权利要求2所述的基于网络防御的模型处理方法,其特征在于,所述采用预设攻击方式攻击所述替代模型,生成对抗样本,包括:
采用白盒攻击方法攻击所述替代模型,生成所述对抗样本。
4.根据权利要求1所述的基于网络防御的模型处理方法,其特征在于,所述根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型之后,所述方法还包括:
通过评价指标算法,测试所述目标模型的防御攻击性。
5.根据权利要求4所述的基于网络防御的模型处理方法,其特征在于,所述通过评价指标算法,测试所述目标模型的防御攻击性,包括:
采用评价公式
Figure FDA0003569821410000021
计算获取所述目标模型评价指标ASR;
其中,nright表示所述目标模型在对抗攻击前,正确分类的样本数,nadv表示被所述目标模型分类正确的样本中被攻击成功的对抗样本数。
6.一种基于网络防御的模型处理装置,其特征在于,包括:获取单元、生成单元、计算单元以及添加单元;
所述获取单元用于获取与目标模型满足相似度要求的替代模型;
所述生成单元用于采用预设攻击方式攻击所述替代模型,生成对抗样本;
所述计算单元用于根据所述对抗样本以及预设算法,计算获取差分隐私噪声参数,包括:
采用公式
Figure FDA0003569821410000031
计算获取差分隐私噪声参数
Figure FDA0003569821410000032
其中,i表示所述目标模型的第i类样本,j表示所述目标模型的第j类样本,x表示所述目标模型的测试样本数,ε为隐私保护预算,C表示目标模型数据集的类别数,f(i)(x)表示所述目标模型的测试样本x被所述目标模型分类为第i类的概率,e表示自然底数,s(f,||·||)表示得分函数f(·)的敏感度,定义为:
Figure FDA0003569821410000033
其中,z表示所述目标模型的样本,z′表示所述对抗样本,f(i)(z)表示输入为数据样本z、输出为第i类样本时的输出概率,f(i)(z′)表示输入为数据样本z′、输出为第i类样本时的输出概率,zi、zj表示同一类别的不同样本,p表示范数,ρ表示常数;
所述添加单元用于根据所述差分隐私噪声参数,在所述目标模型的输出层添加差分隐私噪声层,获取优化的目标模型。
7.根据权利要求6所述的基于网络防御的模型处理装置,其特征在于,所述获取单元,用于根据所述目标模型的输出类型,搭建初始替代模型;将待分类数据输入所述目标模型,输出获取所述待分类数据对应的标记信息;根据所述待分类数据对应的标记信息以及所述待分类数据,获取训练数据集;采用所述训练数据集训练所述初始替代模型,获取所述替代模型。
8.一种基于网络防御的模型处理装置,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述装置运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-5任一项所述基于网络防御的模型处理方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-5任一项所述基于网络防御的模型处理方法的步骤。
CN202110590895.9A 2021-05-28 2021-05-28 一种基于网络防御的模型处理方法、装置及存储介质 Active CN113254927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110590895.9A CN113254927B (zh) 2021-05-28 2021-05-28 一种基于网络防御的模型处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110590895.9A CN113254927B (zh) 2021-05-28 2021-05-28 一种基于网络防御的模型处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113254927A CN113254927A (zh) 2021-08-13
CN113254927B true CN113254927B (zh) 2022-05-17

Family

ID=77185098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110590895.9A Active CN113254927B (zh) 2021-05-28 2021-05-28 一种基于网络防御的模型处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113254927B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086059B (zh) * 2022-06-30 2023-03-21 北京永信至诚科技股份有限公司 基于欺骗域特定语言的欺骗场景描述文件生成方法、装置
CN115481719B (zh) * 2022-09-20 2023-09-15 宁波大学 一种防御基于梯度的对抗攻击的方法
CN115631085B (zh) * 2022-12-19 2023-04-11 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN111159773A (zh) * 2020-04-01 2020-05-15 支付宝(杭州)信息技术有限公司 保护数据隐私的图片分类方法及装置
CN111325324A (zh) * 2020-02-20 2020-06-23 浙江科技学院 一种基于二阶方法的深度学习对抗样本生成方法
CN111737743A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种深度学习差分隐私保护方法
CN112001415A (zh) * 2020-07-15 2020-11-27 西安电子科技大学 一种基于对抗网络的位置差分隐私保护方法
CN112241554A (zh) * 2020-10-30 2021-01-19 浙江工业大学 基于差分隐私指数机制的模型窃取防御方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755743B2 (en) * 2019-09-03 2023-09-12 Microsoft Technology Licensing, Llc Protecting machine learning models from privacy attacks

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN111325324A (zh) * 2020-02-20 2020-06-23 浙江科技学院 一种基于二阶方法的深度学习对抗样本生成方法
CN111159773A (zh) * 2020-04-01 2020-05-15 支付宝(杭州)信息技术有限公司 保护数据隐私的图片分类方法及装置
CN111737743A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种深度学习差分隐私保护方法
CN112001415A (zh) * 2020-07-15 2020-11-27 西安电子科技大学 一种基于对抗网络的位置差分隐私保护方法
CN112241554A (zh) * 2020-10-30 2021-01-19 浙江工业大学 基于差分隐私指数机制的模型窃取防御方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
加权社交网络深度差分隐私数据保护算法研究;周皑 ;《计算机仿真》;20201015(第10期);全文 *
基于DCGAN反馈的深度差分隐私保护方法;毛典辉等;《北京工业大学学报》;20180424(第06期);全文 *
基于通用逆扰动的对抗攻击防御方法;陈晋音;《自动化学报》;20210507;全文 *
深度学习模型的中毒攻击与防御综述;陈晋音;《信 息 安 全 学 报》;20200731;全文 *

Also Published As

Publication number Publication date
CN113254927A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113254927B (zh) 一种基于网络防御的模型处理方法、装置及存储介质
CN112368719A (zh) 神经网络的梯度对抗性训练
US11087086B2 (en) Named-entity recognition through sequence of classification using a deep learning neural network
Torralba et al. Contextual models for object detection using boosted random fields
CN113272827A (zh) 卷积神经网络中分类决策的验证
CN110941794A (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
JP2019152964A (ja) 学習方法および学習装置
CN113569611A (zh) 图像处理方法、装置、计算机设备和存储介质
US20220129758A1 (en) Clustering autoencoder
CN112597993A (zh) 基于补丁检测的对抗防御模型训练方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络
CN114373224A (zh) 基于自监督学习的模糊3d骨架动作识别方法及装置
JP2021093144A (ja) センサ特化イメージ認識装置及び方法
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
EP1480167A1 (en) Pattern feature selection method, classification method, judgment method, program, and device
Zanardi et al. Wormhole learning
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
JP7428233B2 (ja) クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム
US20230394304A1 (en) Method and Apparatus for Neural Network Based on Energy-Based Latent Variable Models
Bacciu et al. Compositional generative mapping of structured data
Pavate et al. Analyzing probabilistic adversarial samples to attack cloud vision image classifier service
CN114332982A (zh) 一种人脸识别模型攻击防御方法、装置、设备及存储介质
Javed et al. Leveraging uncertainty in adversarial learning to improve deep learning based segmentation
Miller et al. Adversarial Learning and Secure AI

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant