CN112241554A - 基于差分隐私指数机制的模型窃取防御方法和装置 - Google Patents
基于差分隐私指数机制的模型窃取防御方法和装置 Download PDFInfo
- Publication number
- CN112241554A CN112241554A CN202011184690.2A CN202011184690A CN112241554A CN 112241554 A CN112241554 A CN 112241554A CN 202011184690 A CN202011184690 A CN 202011184690A CN 112241554 A CN112241554 A CN 112241554A
- Authority
- CN
- China
- Prior art keywords
- model
- stealing
- network
- target
- distribution vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 47
- 230000007123 defense Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 12
- 230000002265 prevention Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 230000035945 sensitivity Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 20
- 238000013136 deep learning model Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于差分隐私指数机制的模型窃取防御方法和装置,包括:将用户的预测样本输入至通过API调用的目标模型,并对目标模型针对预测样本的原始置信度分布向量添加差分隐私指数机制后作为隐藏置信度分布向量反馈给用户;根据隐藏置信度分布向量得到的预测类标与根据原始置信度分布向量得到的预测类标相同;用户利用隐藏置信度分布向量和预测样本对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数,该第一网络参数与目标模型的目标网络参数不同,即由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同,实现了对目标模型窃取的防御。能够提高目标模型的信息安全性。
Description
技术领域
本发明涉及数据安全领域,具体涉及一种基于差分隐私指数机制的模型窃取防御方法和装置。
背景技术
近年来,深度学习模型被广泛应用在各种现实任务中,并取得了良好的效果。随着深度神经网络(DNN)研究成果在机器翻译、图像识别、无人驾驶、自然语言处理、网络图谱分析、电磁空间对抗、生物医疗、金融等领域得到广泛应用。深度学习凭借其强大的特征提取能力,逐步在各个领域替代人类进行自主决策。然而,一旦深度学习模型发生泄露,则将带来重大的人身伤害和财产损失。模型窃取攻击在对抗攻击、逃避检测、API模型窃取等方面都具有强烈的危害性,具体而言:通过窃取目标模型实现黑盒对抗攻击,逃避恶意软件的检测和垃圾邮件过滤,降低API模型查询的费用并向其他用户收取费用。模型的泄露对于AI服务平台和普通用户而言,都会直接或者间接造成巨大经济损失。深度学习模型,尤其是深度神经网络,在实际应用场景中能够大大提高工作效率和用户体验。例如:智能手机的相册管理助手、基于云端网络服务的图像识别APIs以及自动驾驶中的导航和控制等等。这些深度模型从设计到开发,到最终能够投入商业使用,需要投入大量的时间和资金。因此,模型训练使用的数据集的详细信息、精确的模型结构和超参数信息都是具有价值的,在这些模型投入使用时,必须考虑这些信息的保密问题。但是,出于商业获利等各种原因,不得不将深度模型以黑盒的模式部署在各种应用程序中:用户给定输入,深度模型通过API给出输出结果。在这样的输入输出的过程中,恶意用户能够通过特定的攻击算法窃取深度模型的信息,从而损害模型所有者的利益。
与此同时,大量机器学习云端服务(ML-as-a-service)的兴起,使得深度学习模型的信息安全问题变得愈发严峻。机器学习云服务是为了给缺乏训练深度模型条件的用户提供的一种云端训练模型服务,用户上传自己的数据集到云端,云端服务器通过API将训练好的模型供影用户使用,并通用查询次数向用户收取费用。同时,用户也可以将训练好的模型API提供给其他的用户使用并收取费用,通过这样方式减少训练模型产生的费用。这样的运行方式,会大大提高模型信息泄露的风险。恶意用户为了降低查询API的成本,通过询问API构建模型窃取攻击算法,获取模型的信息,完成模型功能的窃取。
发明内容
为了提高深度学习模型的信息安全性,防止深度学习模型在API的输入输出查询过程中,被恶意访问者窃取,本发明提出了一种基于差分隐私指数机制的模型窃取防御方法和装置。
本发明的技术方案为:
第一方面,一种基于差分隐私指数机制的模型窃取防御方法,包括以下步骤:
将用户的预测样本输入至通过API调用的目标模型,并对目标模型针对预测样本的原始置信度分布向量添加差分隐私指数机制后作为隐藏置信度分布向量反馈给用户;根据隐藏置信度分布向量得到的预测类标与根据原始置信度分布向量得到的预测类标相同;
用户利用隐藏置信度分布向量和预测样本组成的防御数据集对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数,该第一网络参数与目标模型的目标网络参数不同,即由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同,实现了对目标模型窃取的防御。
优选地,隐藏置信度分布向量的获取过程为:
目标模型针对预测样本的原始置信度分布向量表示为:
其中,Z(x,i)表示目标模型针对预测样本x在第i类别的权重大小,也就是预测样本x被归为第i类别的得分情况,C表示目标模型能够实现分类的总类别数,Y(x,i)表示原始置信度分布向量;
在原始置信度分布向量增加差分隐私指数机制,将Z(x,i)类比于差分隐私指数机制中的得分函数,得到的隐藏置信度分布向量表示为:
其中,Y′(x,i)表示隐藏置信度分布向量,ε表示隐私预算,s(Z,|||.||)表示差分隐私指数机制中得分函数的灵敏度,其计算公式为:
其中,X和X′表示至多一条样本数据不同的两个样本数据集,d(X,X′)=1表示两个数据集的差值为1,i∈I表示来自于输出结果i来自于类别得分集I,||·||表示范数距离。
优选地,得分函数的灵敏度s(Z,|||.||)取值为1,隐私预算ε取值为0.01~0.5。
优选地,训练窃取网络时,以预测样本作为输入,以隐藏置信度分布向量作为样本标签,以交叉熵函数最小为目标,采用adam优化器优化窃取网络的第一网络参数,训练结束后,得到确定的第一网络参数。
优选地,当预测样本为图像样本时,目标模型的网络结构和窃取网络均采用深度神经网络。
本发明中,利用模型窃取防御的衡量指标来衡量目标模型窃取的防御效果;
模型窃取防御的衡量指标Defencestl定义为:
其中,ACCtest表示目标模型的识别准确率,ACCstl表示窃取模型的识别准确率,ACCdefence表示防御模型的识别准确率;
其中,所述窃取模型的构建过程为:由原始置信度分布向量和预测样本组成的窃取数据集对与目标模型的网络结构相同的窃取网络进行训练确定的第二网络参数,该第二网络参数与目标模型的目标网络参数几乎相同,该第二网络参数与窃取网络组成的窃取模型。
本发明中,利用模型窃取攻击的衡量指标来衡量窃取模型的窃取效果;
模型窃取攻击的衡量指标Attackstl定义为:
第二方面,一种基于差分隐私指数机制的模型窃取防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于差分隐私指数机制的模型窃取防御方法。
与现有技术相比,本发明具有的有益效果至少包括:
本发明提供的基于差分隐私指数机制的模型窃取防御方法和装置,通过在目标模型的输出层的softmax函数中引入差分隐私的指数保护机制,针对目标模型窃取攻击需要获得目标模型输出置信度分布,在softmax层中添加差分隐私扰动项,在不改变目标模型输出类标的前提下,最大程度模糊深度模型的输出置信度分布,大大降低目标模型窃取攻击的水平。在不同的数据集上,均能够达到95%以上的防御成功率,表明本发明提出的基于差分隐私指数机制的模型窃取防御方法和装置的模型窃取防御效果良好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于差分隐私指数机制的模型窃取防御方法流程图;
图2是实施例提供的模型窃取过程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
目标模型在API的输入输出查询过程中,目标模型会被恶意访问者窃取。本实施例中,目标模型的构建过程为;
选择MNIST数据集、CIFAR-10数据集和Caltech-256数据集进行目标模型的构建和防御模型的防御效果的验证。其中,MNIST数据集的训练集共十类,每类6000张样本,训练集十类,每类1000张样本;CIFAR-10数据集的训练集共十类,每类5000张样本,训练集十类,每类1000张样本;Caltech-256数据集共256类,每类样本的数量80~400张样本不等,从每类中随机抽取30%的图片作为测试集,其余图片作为训练集。
不同的数据集,都使用同样的网络结构进行训练,为了提高训练的效率,采用ImageNet预训练的ResNet-34模型结构,训练设置统一的超参数:采用随机梯度下降(SGD)、adam优化器、学习率为0.2、epoch数为200、批次大小为64。训练结束后将保存模型为checkpoint文件,作为模型窃取攻击的目标模型,统计目标模型在测试集上的准确率,记为ACCtest。
如图2所示,目标模型被窃取的具体过程包括:
从ImageNet数据集中随机抽取80000张样本,分别输入到训练好的目标模型中,使用随机选择函数random.choice函数从ImageNet数据集中抽取样本,输入目标模型后得到输出的原始置信度分布向量,将该原始置信度分布向量和对应的输入图片保存作为用于训练窃取网络的窃取数据集,记作SETStl。
为了提高目标模型窃取的效果,窃取模型的窃取网络选择与目标模型的网络结构一样的ResNet-34。采用窃取数据集作为训练样本集,使用交叉熵(categorical_crossentropy)损失函数作为窃取网络训练优化的损失函数,使用adam优化器进行优化,交叉熵损失函数的计算公式如下:
其中Lossstl(x)为窃取网络的损失函数,N为输入的样本数量,y为目标模型的输出,y’为窃取网络的输出。训练完成后,确定窃取网络的第二网络参数,该与目标模型的目标网络参数几乎相同,窃取网络与确定的第二网络参数组成窃取模型,使用上述测试集分别测试窃取模型的测试准确率,记作ACCstl。
本实施例中,利用模型窃取攻击的衡量指标来衡量窃取模型的窃取效果;
模型窃取攻击的衡量指标Attackstl定义为:
该衡量指标Attackstl衡量的是窃取目标模型的效果和程度,在本发明的实验中,MNIST数据集和CIFAR-10数据集的窃取指标Attackstl均在90%以上,在Caltech-256数据集上窃取指标Attackstl为84%。
为了防止目标模型在API的输入输出查询过程中,目标模型被恶意访问者窃取。本发明提出了一种基于差分隐私指数机制的模型窃取防御方法,如图1所示,该基于差分隐私指数机制的模型窃取防御方法包括以下步骤:
首先,将用户的预测样本输入至通过API调用的目标模型,并对目标模型针对预测样本的原始置信度分布向量添加差分隐私指数机制后作为隐藏置信度分布向量反馈给用户;根据隐藏置信度分布向量得到的预测类标与根据原始置信度分布向量得到的预测类标相同。
然后,用户利用隐藏置信度分布向量和预测样本组成的防御数据集对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数,该第一网络参数与目标模型的目标网络参数不同,即由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同,实现了对目标模型窃取的防御。
差分隐私的指数机制是一种ε差分隐私保护方式,用来从一个备选集合中选出一个元素。假定备选集合为A,存在一个得分函数H,输入是数据集D,可能的输出是a(a∈A),其输出是实数。对于给定的数据集D,指数机制会选择得分函数为H(D,a)的元素a(a∈A)。
定义得分函数的灵敏度s(H,|||.||)为:
其中,D和D′分别为表示至多一条样本数据不同的两个样本数据集;
指数机制的定义为:
给定一个数据集D和一组可能输出结果A,如果一个随机机制选择的结果符合以下概率性质,那么该指数机制是ε差分隐私保护:
P(a∈A is selected)∝eεH(D,a)/2s(H,||.||) (4)
其中,∝是正比符号,ε是隐私预算,ε>0,ε越小表示隐私保护效果越好,H(D,a)表示输入为D,输出为a时的得分函数,s(H,||.||)表示得分函数H的灵敏度。
在目标模型训练过程中,经过最后的全连接层后会输出一个特征向量Z(x,i),其中,i=1,2,....C,C是模型训练的样本类别总数。特征向量Z(x,i)表示的是输入样本x在第i类的权重大小,也就是输入样本x被归为第i类的得分情况。为了将输出向量Z(x,i)转化为概率P(P∈[0,1]),将输出向量Z(x,i)输入到softmax层,经过softmax层后,将输出向量Z(x,i)映射到[0,1]的概率区间,得到一个包含各类得分归一化后的概率向量Y(x,i),i=1,2,....C,C是样本类别总数,向量Y(x,i)表示输入的样本x被分类成第i类时的概率,概率值最大的一类即为模型分类结果,通常称该概率向量为置信度分布向量,公式如下:
在softmax层加入差分隐私保护的指数机制,即在原始置信度分布向量增加差分隐私指数机制,将Z(x,i)类比于差分隐私指数机制中的得分函数,即Z(x,i)→H(D,a),得到的隐藏置信度分布向量表示为:
其中,Y′(x,i)表示隐藏置信度分布向量,ε表示隐私预算,s(Z,|||.||)表示差分隐私指数机制中得分函数的灵敏度,其计算公式为:
其中,X和X′表示至多一条样本数据不同的两个样本数据集,d(X,X′)=1表示两个数据集的差值为1,i∈I表示来自于输出结果i来自于类别得分集I,||·||表示范数距离。
经过试验探究发现,得分函数的灵敏度s(Z,|||.||)趋近于1,因此可以取值为1,隐私预算ε取值可以为0.01、0.1和0.5。
获的隐藏置信度分布向量与对应的输入样本组成防御数据集,记作SETdefence,利用该防御数据集SETdefence对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数,在训练窃取网络时,以预测样本作为输入,以隐藏置信度分布向量作为样本标签,以交叉熵函数最小为目标,采用adam优化器优化窃取网络的第一网络参数,训练结束后,得到确定的第一网络参数。该第一网络参数与窃取网络组成防御模型,采用上述测试集分别测试防御模型的测试准确率,记作ACCdefence。
由于第一网络参数与目标模型的目标网络参数不同,因此,由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同,即用户利用隐藏置信度分布向量和预测样本组成的防御数据集对窃取网络进行训练时,得不到目标模型,即实现了对目标模型窃取的防御。
本实施例中,利用模型窃取防御的衡量指标来衡量目标模型窃取的防御效果;
模型窃取防御的衡量指标Defencestl定义为:
衡量指标Defencestl衡量了本发明的防御效果,直观来讲,衡量的是在本发明的防御下,模型窃取攻击的下降程度。在不同的隐私预算ε下,各个数据集的平均衡量指标Defencestl在95%以上。
实施例还提供了一种基于差分隐私指数机制的模型窃取防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于差分隐私指数机制的模型窃取防御方法。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于差分隐私指数机制的模型窃取防御方法步骤。
本实施例提供的基于差分隐私指数机制的模型窃取防御方法和装置,过把差分隐私保护中的指数机制引入模型预测阶段的softmax层,在不影响模型类别判断的前提下,模糊模型输出的置信度分布,从而降低模型窃取攻击能力。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于差分隐私指数机制的模型窃取防御方法,其特征在于,包括以下步骤:
将用户的预测样本输入至通过API调用的目标模型,并对目标模型针对预测样本的原始置信度分布向量添加差分隐私指数机制后作为隐藏置信度分布向量反馈给用户;根据隐藏置信度分布向量得到的预测类标与根据原始置信度分布向量得到的预测类标相同;
用户利用隐藏置信度分布向量和预测样本组成的防御数据集对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数,该第一网络参数与目标模型的目标网络参数不同,即由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同,实现了对目标模型窃取的防御。
2.如权利要求1所述的基于差分隐私指数机制的模型窃取防御方法,其特征在于,隐藏置信度分布向量的获取过程为:
目标模型针对预测样本的原始置信度分布向量表示为:
其中,Z(x,i)表示目标模型针对预测样本x在第i类别的权重大小,也就是预测样本x被归为第i类别的得分情况,C表示目标模型能够实现分类的总类别数,Y(x,i)表示原始置信度分布向量;
在原始置信度分布向量增加差分隐私指数机制,将Z(x,i)类比于差分隐私指数机制中的得分函数,得到的隐藏置信度分布向量表示为:
其中,Y′(x,i)表示隐藏置信度分布向量,ε表示隐私预算,s(Z,|||.||)表示差分隐私指数机制中得分函数的灵敏度,其计算公式为:
其中,X和X′表示至多一条样本数据不同的两个样本数据集,d(X,X′)=1表示两个数据集的差值为1,i∈I表示来自于输出结果i来自于类别得分集I,||·||表示范数距离。
3.如权利要求2所述的基于差分隐私指数机制的模型窃取防御方法,其特征在于,得分函数的灵敏度s(Z,|||.||)取值为1,隐私预算ε取值为0.01~0.5。
4.如权利要求2或3所述的基于差分隐私指数机制的模型窃取防御方法,其特征在于,训练窃取网络时,以预测样本作为输入,以隐藏置信度分布向量作为样本标签,以交叉熵函数最小为目标,采用adam优化器优化窃取网络的第一网络参数,训练结束后,得到确定的第一网络参数。
5.如权利要求2或3所述的基于差分隐私指数机制的模型窃取防御方法,其特征在于,当预测样本为图像样本时,目标模型的网络结构和窃取网络均采用深度神经网络。
8.一种基于差分隐私指数机制的模型窃取防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现权利要求1~7任一项所述的基于差分隐私指数机制的模型窃取防御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011184690.2A CN112241554B (zh) | 2020-10-30 | 2020-10-30 | 基于差分隐私指数机制的模型窃取防御方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011184690.2A CN112241554B (zh) | 2020-10-30 | 2020-10-30 | 基于差分隐私指数机制的模型窃取防御方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241554A true CN112241554A (zh) | 2021-01-19 |
CN112241554B CN112241554B (zh) | 2024-04-30 |
Family
ID=74170107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011184690.2A Active CN112241554B (zh) | 2020-10-30 | 2020-10-30 | 基于差分隐私指数机制的模型窃取防御方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241554B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254927A (zh) * | 2021-05-28 | 2021-08-13 | 浙江工业大学 | 一种基于网络防御的模型处理方法、装置及存储介质 |
CN113297574A (zh) * | 2021-06-11 | 2021-08-24 | 浙江工业大学 | 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法 |
CN113360917A (zh) * | 2021-07-07 | 2021-09-07 | 浙江工业大学 | 基于差分隐私的深度强化学习模型安全加固方法及装置 |
CN116527411A (zh) * | 2023-07-05 | 2023-08-01 | 安羚科技(杭州)有限公司 | 数据安全智能防护模型构建方法、装置及协作平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241764A (zh) * | 2018-07-10 | 2019-01-18 | 哈尔滨工业大学(深圳) | 一种用户需求轨迹隐私保护方法 |
CN110457951A (zh) * | 2019-08-19 | 2019-11-15 | 南京大学 | 一种无人工噪声的深度学习模型保护方法 |
CN111027060A (zh) * | 2019-12-17 | 2020-04-17 | 电子科技大学 | 基于知识蒸馏的神经网络黑盒攻击型防御方法 |
-
2020
- 2020-10-30 CN CN202011184690.2A patent/CN112241554B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241764A (zh) * | 2018-07-10 | 2019-01-18 | 哈尔滨工业大学(深圳) | 一种用户需求轨迹隐私保护方法 |
CN110457951A (zh) * | 2019-08-19 | 2019-11-15 | 南京大学 | 一种无人工噪声的深度学习模型保护方法 |
CN111027060A (zh) * | 2019-12-17 | 2020-04-17 | 电子科技大学 | 基于知识蒸馏的神经网络黑盒攻击型防御方法 |
Non-Patent Citations (1)
Title |
---|
王璐璐等: "机器学习训练数据集的成员推理综述", 《网络空间安全》, pages 1 - 7 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254927A (zh) * | 2021-05-28 | 2021-08-13 | 浙江工业大学 | 一种基于网络防御的模型处理方法、装置及存储介质 |
CN113254927B (zh) * | 2021-05-28 | 2022-05-17 | 浙江工业大学 | 一种基于网络防御的模型处理方法、装置及存储介质 |
CN113297574A (zh) * | 2021-06-11 | 2021-08-24 | 浙江工业大学 | 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法 |
CN113297574B (zh) * | 2021-06-11 | 2022-08-02 | 浙江工业大学 | 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法 |
CN113360917A (zh) * | 2021-07-07 | 2021-09-07 | 浙江工业大学 | 基于差分隐私的深度强化学习模型安全加固方法及装置 |
CN116527411A (zh) * | 2023-07-05 | 2023-08-01 | 安羚科技(杭州)有限公司 | 数据安全智能防护模型构建方法、装置及协作平台 |
CN116527411B (zh) * | 2023-07-05 | 2023-09-22 | 安羚科技(杭州)有限公司 | 数据安全智能防护模型构建方法、装置及协作平台 |
Also Published As
Publication number | Publication date |
---|---|
CN112241554B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241554A (zh) | 基于差分隐私指数机制的模型窃取防御方法和装置 | |
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN101826105B (zh) | 基于匈牙利匹配算法的钓鱼网页检测方法 | |
CN111027069B (zh) | 恶意软件家族检测方法、存储介质和计算设备 | |
CN106060008B (zh) | 一种网络入侵异常检测方法 | |
CN108985190B (zh) | 目标识别方法和装置、电子设备、存储介质 | |
KR20220107120A (ko) | 생체 검측 모델의 트레이닝 방법 및 장치, 생체 검측 모델을 이용한 생체 검측 방법 및 장치, 전자장비, 저장매체 및 컴퓨터 프로그램 | |
CN112560710B (zh) | 一种用于构建指静脉识别系统的方法及指静脉识别系统 | |
CN111814821A (zh) | 深度学习模型的建立方法、样本处理方法及装置 | |
CN113065593A (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN114399382A (zh) | 用户欺诈风险的检测方法、装置、计算机设备及存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN115293235A (zh) | 建立风险识别模型的方法及对应装置 | |
CN108491719A (zh) | 一种改进朴素贝叶斯算法的安卓恶意程序检测方法 | |
Wang et al. | Classification and extent determination of rock slope using deep learning | |
CN115730125A (zh) | 对象识别方法、装置、计算机设备和存储介质 | |
CN116758432A (zh) | 基于改进Resnet神经网络的自然地质灾害分类识别方法及系统 | |
CN115936773A (zh) | 一种互联网金融黑产识别方法与系统 | |
Dong et al. | Scene-oriented hierarchical classification of blurry and noisy images | |
CN110472680B (zh) | 目标分类方法、装置和计算机可读存储介质 | |
Abbasnejad et al. | Gade: A generative adversarial approach to density estimation and its applications | |
CN113627522A (zh) | 基于关系网络的图像分类方法、装置、设备及存储介质 | |
CN113947140A (zh) | 人脸特征提取模型的训练方法和人脸特征提取方法 | |
CN111461240A (zh) | 一种保障高空中油箱内视觉采集图像空地一致性的方法 | |
CN117540791B (zh) | 一种对抗训练的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |