CN113988312A - 一种面向机器学习模型的成员推理隐私攻击方法及系统 - Google Patents
一种面向机器学习模型的成员推理隐私攻击方法及系统 Download PDFInfo
- Publication number
- CN113988312A CN113988312A CN202111288620.6A CN202111288620A CN113988312A CN 113988312 A CN113988312 A CN 113988312A CN 202111288620 A CN202111288620 A CN 202111288620A CN 113988312 A CN113988312 A CN 113988312A
- Authority
- CN
- China
- Prior art keywords
- target data
- attack
- sample
- algorithm
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000010801 machine learning Methods 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000005516 engineering process Methods 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000010845 search algorithm Methods 0.000 claims abstract description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 description 32
- 230000007123 defense Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000000332 black box Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011550 data transformation method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010232 migration assay Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种面向机器学习模型的成员推理隐私攻击方法及系统。该方法包括:获取目标模型以及目标数据;根据所述目标数据,采用对抗样本生成算法,生成对抗样本;所述对抗样本生成算法包括:自适应贪婪算法与二分搜索算法结合方法或借助主成分技术在流形界面上的嵌入映射算法;确定所述目标数据与相应的对抗样本的欧式距离;根据所述欧式距离确定判定结果,实现成员推理;所述判定结果包括:目标数据属于训练数据集或目标数据属于测试数据集。本发明能够解决黑盒成员推理攻击存在访问成本高、可迁移性弱、稳健性差的问题。
Description
技术领域
本发明涉及机器学习领域,特别是涉及一种面向机器学习模型的成员推理隐私攻击方法及系统。
背景技术
物联网、大数据、云计算等新兴技术使得海量数据的采集、存储和处理成为可能,人工智能特别是机器学习理论与技术的快速发展,在安防、交通、医疗等各领域得到了广泛应用。与此同时,机器学习的安全与隐私问题成为人们关注的焦点,有学者提出了对抗样本攻击、数据投毒攻击、模型推断以及成员推理等各类安全与隐私攻击模型。这些有效的攻击方法引发了人们对机器学习的担忧,同时也成为机器学习发展的内生动力之一,推动科学研究人员和工程技术人员研发安全与隐私性更好的机器学习算法和模型。研究机器学习隐私攻击模型能够推动人们更加深入的理解机器学习模型的深层机理,揭示隐私泄露的本质原因,有利于更好地防范机器学习模型的隐私泄露风险,并有利于推动设计更加高效保护隐私的机器学习模型。
机器学习成员推理攻击是敌手通过分析机器学习模型来推断目标数据样本是否包含于该机器学习模型训练样本数据集的一种隐私攻击方法,该攻击主要作用于训练样本数据集,威胁机器学习训练样本的成员关系隐私。现有工作大致可分为黑盒成员推理攻击和白盒成员推理攻击2类。
在黑盒成员推理中,一类方法是基于模型预测置信度来进行成员推理;另一类方法是基于标签决策进行成员推理。这两类攻击方法仅能通过查询目标模型获得输入输出对,而不能获得任何关于模型的额外数据,即借助目标模型的输出结果来完成成员推断。其中,基于模型预测置信度的成员推理作为一种需要借助目标模型的置信向量输出来进行推断的技术,能够实施成功源于机器学习固有的过拟合特性,即成员数据的输出向量的分布更集中,而非成员数据的输出向量的分布相对较为平缓。尽管这些工作在黑盒设置下取得了不错的进展,但由于企业的访问限制,敌手无法从目标模型中获得足够多样本的预测向量。更关键的是,这类攻击模型难以突破MemGuard防御。因此,进一步提出基于标签决策的成员推理,其仅需借助目标模型的输出标签即可进行成员推理,推断者将模型返回的最大预测标签作为推断输入,在预测模型训练集与测试集的过程中引入了扰动难度,提高了成员推理的稳健性,因此被广泛应用于机器学习的安全和隐私领域。预测标签与对抗样本、影子技术相结合,能够提升模型的稳健性及推理精度,但其难以保证推理的可信度和数据访问的低成本与可迁移性。例如,Yeom等定量分析了训练集和测试集的攻击性能与损失之间的关系,提出了基于过拟合特性下的基线攻击。随后,Choo等提出了一种类似边界攻击的方法。通过将机器学习的过拟合特性映射到训练集样本与测试集样本的扰动问题中,借助对抗样本解决传统成员推理固有的过拟合问题。但是,该类攻击访问成本过高,当限定访问次数会导致攻击失效,这在一定程度上削弱了算法的推断精度,给推断者的具体实施带来了巨大挑战。
在白盒成员推理攻击方面,攻击者可以对目标模型进行白盒访问。在此条件下,攻击者可以获得目标模型所使用的云训练平台的相关信息,或直接获得目标模型的训练算法、内部参数、模型结构、中间结果等信息,从而构建与目标模型预测能力相似的模型。鉴于先前的攻击方法很少用到这些信息,于是,Nasr等将成员推理攻击拓展到基于先验知识的白盒设置,将从目标模型那获得的激活函数和梯度信息作为推断的特征,来进行成员推断,还提出了针对联邦学习中的主动成员推理攻击。接着,Hayes等在关于应对GAN的成员推理攻击的工作中也提到了一种白盒攻击,该攻击仅使用GAN鉴别器部分的输出,而无需鉴别器或生成器的学习权重即可完成推断。除此之外,Long等提出了一种针对泛化性良好的模型的成员推理攻击并称之为GMIA。在此种模型下,不是所有的数据都易遭受成员推理攻击,因此需要找到易受到成员推理攻击的脆弱数据点来进行推理。尽管现有的白盒成员推理能够实现较好的攻击效果,但由于在实际场景中机器模型通常部署为黑盒模型,其所需的模型知识在实际机器学习应用场景中难以得到满足。
综上,黑盒成员推理攻击在机器学习模型中有更加广泛的应用,但现有的黑盒成员推理攻击存在访问成本高、可迁移性弱、稳健性差等问题。
发明内容
本发明的目的是提供一种面向机器学习模型的成员推理隐私攻击方法及系统,能够解决黑盒成员推理攻击存在访问成本高、可迁移性弱、稳健性差的问题。
为实现上述目的,本发明提供了如下方案:
一种面向机器学习模型的成员推理隐私攻击方法,包括:
获取目标模型以及目标数据;
根据所述目标数据,采用对抗样本生成算法,生成对抗样本;所述对抗样本生成算法包括:自适应贪婪算法与二分搜索算法结合方法或借助主成分技术在流形界面上的嵌入映射算法;
确定所述目标数据与相应的对抗样本的欧式距离;
根据所述欧式距离确定判定结果,实现成员推理;所述判定结果包括:目标数据属于训练数据集或目标数据属于测试数据集。
可选地,所述根据所述目标数据,采用对抗样本生成算法,生成对抗样本,具体包括:
向目标数据添加高斯扰动生成对抗样本的初始值;
根据所述对抗样本的初始值,采用自适应贪婪算法与二分搜索算法结合方法,获得局部最优方向;
沿着所述局部最优方向,进行迭代更新,获取最贴近决策边界的对抗样本点,生成对抗样本。
可选地,所述所述根据所述目标数据,采用对抗样本生成算法,生成对抗样本,具体包括:
根据训练数据集和目标数据确定合成数据集;
对所述合成数据集进行主成分降维处理,获得流形界面;
对所述流形界面进行投影方向的搜寻,获得流形界面的投影点,生成对抗样本。
可选地,所述根据所述欧式距离确定判定结果,实现成员推理,具体包括:
获取判定阈值;
判断所述欧式距离是否大于判定阈值;
若大于,则目标数据属于训练数据集;反之,则目标数据属于测试数据集。
一种面向机器学习模型的成员推理隐私攻击系统,包括:
数据获取模块,用于获取目标模型以及目标数据;
对抗样本生成模块,用于根据所述目标数据,采用对抗样本生成算法,生成对抗样本;所述对抗样本生成算法包括:自适应贪婪算法与二分搜索算法结合方法或借助主成分技术在流形界面上的嵌入映射算法;
欧式距离确定模块,用于确定所述目标数据与相应的对抗样本的欧式距离;
成员推理实现模块,用于根据所述欧式距离确定判定结果,实现成员推理;所述判定结果包括:目标数据属于训练数据集或目标数据属于测试数据集。
可选地,所述对抗样本生成模块具体包括:
初始值生成单元,用于向目标数据添加高斯扰动生成对抗样本的初始值;
局部最优方向获取单元,用于根据所述对抗样本的初始值,采用自适应贪婪算法与二分搜索算法结合方法,获得局部最优方向;
对抗样本第一生成单元,用于沿着所述局部最优方向,进行迭代更新,获取最贴近决策边界的对抗样本点,生成对抗样本。
可选地,所述对抗样本生成模块具体包括:
合成数据集确定单元,用于根据训练数据集和目标数据确定合成数据集;
流形界面获得单元,用于对所述合成数据集进行主成分降维处理,获得流形界面;
对抗样本第二生成单元,用于对所述流形界面进行投影方向的搜寻,获得流形界面的投影点,生成对抗样本。
可选地,所述成员推理实现模块具体包括:
判定阈值获取单元,用于获取判定阈值;
判断单元,用于判断所述欧式距离是否大于判定阈值;
判定结果确定单元,用于若大于,则目标数据属于训练数据集;反之,则目标数据属于测试数据集。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种面向机器学习模型的成员推理隐私攻击方法及系统,针对黑盒成员推理攻击存在的访问受限问题,提出一种快速决策成员推理攻击fast-attack。即在基于距离符号梯度获取扰动样本的基础上将扰动难度映射到距离范畴来进行成员推理,确保攻击稳健性的同时降低访问成本;其次,针对快速决策成员推理攻击存在的低迁移率问题,提出一种基于主成分分析PCA的成员推理攻击PCA-based attack。即将快速决策成员推理攻击中的基于扰动算法与主成分分析技术相结合来实现成员推理,以抑制因过度依赖模型而导致的低迁移行为。实验表明,fast-attack在确保攻击精度的同时降低了访问成本,PCA-based attack在无监督的设置下优于基线攻击,攻击性能与目前的黑盒成员推理攻击相匹敌。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种面向机器学习模型的成员推理隐私攻击方法流程示意图;
图2为成员推理攻击的流程示意图;
图3为PCA-based attack方案框架示意图;
图4为fast-attack精度随着访问量变化情况示意图;
图5为主成分边界算法随阈值变化示意图;
图6为本发明所提供的一种面向机器学习模型的成员推理隐私攻击系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向机器学习模型的成员推理隐私攻击方法及系统,能够解决黑盒成员推理攻击存在访问成本高、可迁移性弱、稳健性差的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
成员推理攻击是一种通过分析目标模型来确定给定数据样本是否存在于该目标模型的训练集中的攻击方法[5]。当给定候选数据样本x,目标模型f以及敌手的先验知识Ω,得到相应的成员推理攻击。
其中,1代表候选数据样本点x存在于目标模型的训练数据集中,反之不存在。
fast-attack以预测标签作为模型的输入,通过引入自适应贪婪算法与二分搜索相结合来确定决策边界的对抗样本,将扰动难度映射到距离范畴来寻找预测差异,从而实现成员推理,降低了攻击参与方的查询成本,适用于低成本攻击的目标场景。
流形学习是一种新的机器学习方法,它能够对训练集中的高维数据空间进行非线性降维,揭示其流形分布,从中找到隐藏在高维观测数据中有意义的低维结构,以便从中提取易于识别的特征。其目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效的低维表示。
主成分分析(Principle ComponentAnalysis,PCA)是一种线性数据变换方式,可以把可能具有相关性的高维变量合成线性无关的低维变量,数据在主成分方向上的投影拥有最大方差。该技术的主要目标是通过线性变换寻找一组最优的单位正交向量基,并用它们的线性组合来重构原样本,以使重构后的样本和原样本的误差最小。
图2为成员推理攻击的流程示意图,如图2所示,在黑盒设置下,通过分析机器学习模型,以输出预测标签作为输入,通过引入自适应贪婪算法与二分搜索相结合来确定决策边界,将扰动难度映射到距离范畴来构建快速决策成员推理攻击。接着,将快速决策成员推理攻击中的基于扰动的算法与主成分分析技术相结合生成对抗样本,进一步构造出基于主成分分析的成员推理攻击。该攻击主要作用于训练样本数据集的成员隐私。与一般的成员推理攻击方法不同,本文是借助扰动难度来区分成员样本和非成员样本,该扰动难度主要是通过目标数据与其对抗样本之间的欧氏距离来衡量。
本发明是一种非定向黑盒攻击,不指定攻击目标机器模型的分类,同时攻击过程不涉及目标机器学习模型的内部结构和参数,仅通过主成分技术模拟流模型生成对抗样本进行成员推理,实现以较少先验信息资源高效推断出目标模型的训练数据集隐私数据,降低对目标机器模型历史访问信息的要求。
图1为本发明所提供的一种面向机器学习模型的成员推理隐私攻击方法流程示意图,如图1所示,本发明所提供的一种面向机器学习模型的成员推理隐私攻击方法,包括:
S101,获取目标模型以及目标数据;
S102,根据所述目标数据,采用对抗样本生成算法,生成对抗样本;所述对抗样本生成算法包括:自适应贪婪算法与二分搜索算法结合方法或借助主成分技术在流形界面上的嵌入映射算法;
作为一个具体的实施例,S102具体包括:
向目标数据添加高斯扰动生成对抗样本的初始值;
根据所述对抗样本的初始值,采用自适应贪婪算法与二分搜索算法结合方法,获得局部最优方向;
沿着所述局部最优方向,进行迭代更新,获取最贴近决策边界的对抗样本点,生成对抗样本。
即针对目前大多数黑盒成员推理攻击因过拟合而导致的高精度攻击这一问题,以及目前基于标签决策的成员推理存在的高反馈访问成本问题,构造了一个快速决策成员推理攻击fast-attack。该攻击主要包含两个步骤:对抗样本生成和逻辑判别。首先以预测标签作为模型的输入,引入自适应贪婪算法与二分搜索相结合对目标进行决策变动,生成对抗样本;然后计算对抗样本与原始目标之间的欧式距离,将扰动难度映射到距离范畴来寻找目标模型的训练数据和测试数据的预测差异;最后将预测差异进行逻辑判别获得细粒度的成员信号,以实现目标人群的成员推断。
通过将机器学习的过拟合特性映射到训练集样本与测试集样本的扰动问题中,借助对抗样本解决传统成员推理固有的过拟合问题。通过将自适应贪婪算法与二分搜索相结合来确定决策边界解决了目前黑盒成员推理固有的高成本问题。
在对抗样本生成的过程中,首先通过向源数据添加高斯扰动得到对抗样本的初始值,然后引入二分搜索和自适应贪婪算法沿着对抗性区域和非对抗性区域之间的边界执行随机游走,使得它停留在对抗区域,并且减小到目标图像的距离。最后,结合获得的扰动样本来提取关于分类器决策边界的细粒度信息,从而进行成员推断。
其中,对抗样本为xadv=x+δadv。
对抗样本生成中得到的损失函数为:
L(x,δ)=∑(xadv-x)2
s.t xadv=x+δadv (2)
c(x)≠c(xadv)
||δ||≤δmax,Q≤Qmax
minimize L(x,δ)=||δ||p+a·u(x+δ)
s.t||δ||≤δmax,Q≤Qmax (3)
x+δ=min(max(x+δ,0),1).
其中,u(·)=min(maxi≠tfi(·)-ft(·),0).
该损失函数计算是一个难解问题,因此,基于贪婪算法的局部随机优化进行边界搜索,得到映射方向g为:
d(x,xt)-d(x,xt+1)=∈·d(x,xt),(∈>0,g=1).
接着,沿着该方向以一定步长进行随机边界游走,多次迭代搜索生成相应的对抗样本为:
最后,计算对抗样本与原始目标之间的欧式距离Lp(x,xadv),并与获得的类间阈值τ进行判别完成攻击。具体如下,给定目标数据点到模型边界的距离的估计distf(x)=min||x-xadv||p。如果distf(x)>τ,则将x分类为训练集成员。如果distf(x)=0,则认为该目标数据点在决策边界上,分类错误。同时调整阈值τ,使得该算法在本实验数据上效果最佳。
综上,fast-attack算法的伪代码见算法1,算法1如表所示:
表1
其中,行①是相关变量初始化;行②中的(1)保证在给定最大扰动及最大访问的条件下,借助自适应贪婪算法获得局部最优方向,使得每个样本点接近决策边界;行②中的(2)、(3)表示沿着最优方向,进行迭代更新,获取最贴近决策边界的对抗样本点;行③、④借助对抗样本进行逻辑判别,进而成功推断出目标样本点。
作为另一个具体的实施例,S102具体包括:
根据训练数据集和目标数据确定合成数据集;
对所述合成数据集进行主成分降维处理,获得流形界面;
对所述流形界面进行投影方向的搜寻,获得流形界面的投影点,生成对抗样本。
即基于主成分分析的成员推理攻击PCA-based attack,其将快速决策成员推理攻击中基于扰动范畴的算法思想与主成分技术相结合来完成成员推断,具体流程如图3所示。该算法通过主成分分析技术模拟流模型生成对抗性区域,借助对抗性区域来构建决策区间进而实行成员推理,实现以较少先验信息资源有效推断出目标系统隐私数据,从而降低对目标系统历史访问信息的要求。
基于PCA技术,成员推理攻击方案可划分为以下3个阶段。
(1)对抗区域生成阶段
尽管已有的成员推理攻击对泛化性能良好的模型失效,但广义良好的模型对分布在x点与流形切平面正交方向上的畸变高度敏感。因此,在这一阶段通过主成分技术进行数据降维,在低维流形界面寻找数据的正交映射方向,并选取满足条件的扰动步长,最终获取原始数据的对抗区域。
流形界面为H,流形界面的映射样本点为
得到对抗区域为:
其中,ηl表示最小的误分类扰动步长,而ηu则代表不易察觉的最大扰动步长。
(2)对抗样本生成阶段
由于对抗区域依赖于独立于分类模型的数据流形,因此可以根据对抗区域的定义,用无监督方法生成对抗性示例。公式如下:
其中,流形M是很难显式构造的,特别是对于复杂的现实世界数据集。因此,投影点x*=H(zH(x))不能直接计算。使用主成分分析来近似流形M,以产生对抗性示例。推导如下:
故
为递减函数,可用简单函数替换。
其中,使用结构相似性和距离最小化原则选取合适的扰动步长为:
(3)成员推理阶段
成员推理函数h(x).用h(x)表示目标数据是否存在于推断系统的训练集中,在逻辑判别函数的基础上,采用以下成员推理函数:
S(x)=mind(x,xadv)-τ,d(x,xadv)=||x-xadv||p (13)
其中,h(x)为1时,代表x在目标模型的训练集当中,反之不在。
综上所述,PCA-based attack算法的伪代码如算法2所示。算法2如表2所示:
表2
其中,行①对数据进行主成分降维处理,获得流形界面;行②、③、④进行投影方向的搜寻,以获得流形界面的投影点,进而生成对抗样本;行⑤将原始数据与对抗数据之间的扰动距离通过阈值判别,进行成员推理。
S103,确定所述目标数据与相应的对抗样本的欧式距离;
S104,根据所述欧式距离确定判定结果,实现成员推理;所述判定结果包括:目标数据属于训练数据集或目标数据属于测试数据集。
S104具体包括:
获取判定阈值;
判断所述欧式距离是否大于判定阈值;
若大于,则目标数据属于训练数据集;反之,则目标数据属于测试数据集。
根据上述方法进行分析,分析的过程具体为:
可行性分析
机器学习模型在预测训练集样本时能以更高的精准度进行预测。在过拟合的情况下,训练集样本的预测置信度明显高于测试集样本。因此可以判定训练集样本相比测试集样本更难被扰动。另外,针对二进制逻辑回归模型的特殊情况,给定学习权重向量ω和偏置b,逻辑回归模型的输出为判别类的置信向量。
z(x):=σ(ωTx+b) (15)
该模型表明,在点x的置信度与从x到模型决策边界的欧氏距离之间存在一定的正向关系。即从x到模型边界的距离为:
(ωTx+b)/||ω||2=σ-1(z(x))/||ω||2 (16)
因此,获得点到边界的距离所产生的信息与已知模型的预测置信度的效果相同。部分研究表明,成员推理算法的实施可通过计算目标点到边界的距离,而其正是找到最小对抗性扰动的问题。
对验证数据进行实验分析,成员样本相比非成员样本,距离决策边界更远,更难被扰动,进一步说明成员推理攻击可转变为求最小扰动问题。
迁移性分析
PCA-based attack方案主要是通过主成分技术进行数据降维,在低维流形界面寻找数据的正交映射方向来获取原始数据的对抗样本,再结合快速决策成员推理攻击中基于扰动范畴的算法思想来进行成员推理。在面对分类图像问题时,将每个类别的数据映射到相应的流形界面,流形上的数据点可以局部地用一个低维向量来表征。对于一个D维空间上的样本点x0,沿着d维空间的流形界面H(z)的映射方向进行搜寻,可得到相应的对抗区域和对抗样本。
对抗区域中的数据点对所有机器学习模型算法都构成了潜在威胁。由于不同的机器学习模型算法可能具有不同的决策超平面,因此可以使用这些超平面将对抗区域划分为两个子集,即对抗子集和常规子集。对抗区域由超平面f1划分得到和若该对抗区域又被超平面f2划分,此时将总共得到四个区域子集。此时的都被划分为对抗子集,即则表明两个模型都对中的样本进行错误分类。即两个对抗子集的交集中的样本能够在两个模型之间传递,该原理说明PCA-based attack方案具有较强的可迁移性。
为了验证提出的PCA-based attack的有效性,在3个真实数据集和1种卷积神经网络模型上进行实验,并与最新的攻击方法进行比较,验证本文方法的有效性。
数据与实验参数设置
对CIFAR10、CIFAR100和GTSRB三个经典的图像数据集进行成员推理实验。首先,基于每个数据集训练三组不同数量的数据用于训练模型,相应的目标模型分别设置为f1,f2和f3。其次,只进行非定向决策变更实验。
另外,由于快速决策成员推理攻击需要多次查询来扰乱数据样本以更改它们的预测标签,所以为基于距离符号梯度的快速决策成员推理攻击设置了查询上限105,以进一步研究查询成本对推断性能的影响。为了研究PCA-based attack算法对不同机器学习模型算法的迁移效果,增添了一组实验数据MNIST[26],且另外部署了四组不同架构设置的卷积神经网络{CNN7,CNN8,CNN9,CNN12}用于比较算法的迁移。最后,为了进行评估,对Dtarget中的数据进行随机重组,一部分用于训练目标模型f,即Dtrain,作为目标模型的成员样本,另一部分Dtest作为非成员样本。评估算法效率时,使用相同大小的集合来最大限度地提高推断的不确定性。
本实验的源模型是CNN,模型训练采用Adam优化器进行优化,其中Epoch=15;Batch Size=128;Learning Rate=0。0001;Decay=1×10-6。
由于AUC指标考虑了阈值变动的影响,且ROC曲线有一个很好的特性:当测试集中的正负样本分布发生变化时,ROC曲线保持不变。因此,实验的评价指标采用AUC。
对比攻击方法
为了验证PCA-based attack的有效性,本文将其与快速决策成员推理攻击和其他3种攻击方法进行比较,分别为baseline-attack,score-based attack,boundary-attack。下面对3种攻击方法进行简要介绍:
1)baseline-attack该推理通过数据样本是否被正确分类来进行成员推理。若目标数据被错误分类,则认定该数据为非成员数据,反之为成员数据。具体公式为
在实际应用中,不管模型稳定的算法还是容易过度拟合的算法,都容易受到成员推理攻击。
2)score-based attack该方法将攻击转化为一个有监督的二分类问题,利用模拟数据集构建类似目标模型的影子模型,并基于影子模型和目标模型的输出结果训练一个能够判断是否是目标模型训练数据的攻击模型。
3)boundary-attack该攻击中,对手不能访问预测置信得分,只能借助目标模型的决策标签来发动攻击。首先利用扰动技术对目标数据点进行决策变动,生成对抗样本;然后计算对抗样本与原始目标之间的变动差异,进而寻找训练数据和测试数据之间的预测差异;最后比较预测差异获得细粒度的成员信号,以实现目标人群的成员推理。
攻击实验
在攻击的过程中需要解决2个主要的问题,即1)在只给定输出标签的黑盒设置中,保证推理精度的同时需要降低访问成本。2)在访问成本受限的情况下,尽可能消除外在情况带来的影响。
1)在黑盒设置下的推理性能
首先,为了验证攻击方法在黑盒设置下对目标模型的推理效果,本文在CNN模型上对各攻击方法进行测试,结果如表4所示。
表4
由表4可知,大部分的攻击方法都能实现一定的推理性能。在规模较大的数据集CIFAR10和CIFAR100中,boundary-attack和fast-attack的推理精度较高,其原因在于两者均基于预测标签获取最优的扰动来区分成员与非成员样本,因此对细粒度的成员信号识别具有较大的影响。而在较小规模的数据集GTSRB中,两者攻击精度下降明显,但fast-attack依旧维持最优攻击。本文提出的PCA-based attack方法虽然没有得到最优的推理精度,但是在整体上均能保持与score-based attack相近的性能,且仅次于最优。这也验证了PCA-based attack能较好地对目标模型进行有力威胁。
fast-attack算法不仅在推理精度上取得了不错的效果,在降低成本方面也有所作为,结果如图4所示。
由图4可知,相比boundary-attack至少需要10000次访问量,才能达到一个较为稳定的性能精度,fast-attack仅需访问8164次,得到的对抗样本的扰动大小为1.0617,降低了0.16。此外,该算法在GTSRB数据集上收敛速度加倍。因此,本文提出的fast-attack算法在保证推断精度的情况下,模型的访问量降低了18.36%,甚至在少数数据集上,收敛速度翻倍。
成本受限情况下的迁移效果
从安全的角度来看,可迁移性是攻击的一个重要属性,因为它使敌手能够创建出可以攻击任意目标模型的算法。即由CNN7得出的对抗样本同时又被其他决策模型错误分类所占总体比重来衡量。
为了验证攻击算法的模型迁移能力,对MNIST数据进行了实验,结果如表5所示。
表5
由表5可知,PCA-based attack的迁移率随推断精度的提升而变大,且明显高于fast-attack算法。在推断精度为0.65时,PCA-based attack迁移率低于fast-attack,但随着精度的提升,PCA-based attack远超出其他算法。实验表明,PCA-based attack的适应范围更广,攻击效能更强。尽管PCA-based attack的推断精度较低,但相比于fast-attack需要依赖目标模型来进行推断等决策方法,其无需利用源模型的任何信息,即可构建性能不错的成员攻击。如表6所示,fast-attack算法仅需预测标签即可进行成员推理;而PCA-based attack算法无需目标模型仅需数据分布即可完成推断。
表6
基于主成分的决策边界成员推理攻击中,逻辑判别中的阈值选取尤为重要,结果如图5所示。由图5可知,算法的推断性能随L2距离阈值呈凸型变化,在阈值0.5-1.5之间达到峰值。实验表明,要得到一个较优的算法需要选取中间的阈值。
对PCA-based attack、fast-attack和其他攻击方法进行比较,测试了不同场景、不同模型上的推理性能,将进一步从抵抗防御角度探究所提方法的有效性。
1)泛化增强基于过拟合造成的成员推理攻击,该类方法借助L1、L2正则化、随机失活以及数据增强等措施降低模型的过拟合,在提升目标模型预测性能的同时降低数据泄露的风险。
2)隐私增强差分隐私被广泛用于降低隐私威胁。该防御技术是通过向模型梯度、目标函数添加噪声来防止数据的信息泄露。
3)置信度扰动以往基于置信度分数的推理攻击能够清晰地呈现成员细粒度信号。因此该类防御旨在改变置信度分数,代表性技术为MemGuard和对抗性正则化,它们通过改变输出概率分布,使得成员与非成员难以区分从而实现防御。
为了验证本文所提算法的有效性,将不同的成员推理攻击应用于不同的防御技术,结果如表7所示。
表7
由表7可知,在大多数情况下,fast-attack和PCA-based attack相比其余三种攻击都能取得不错的效果,其不仅突破了常见的一些防御方法,甚至目前最优的防御技术MemGuard和adversarial regularization都失去了防御效用。因为大部分防御措施主要用于降低模型的过拟合,其针对基于过拟合得到的成员推理攻击能够产生显著效果,但本文方案借助对抗样本解决了传统成员推理攻击固有的过拟合问题,且目前最优防御技术其原理在于干扰模型的输出置信度。因此,本文提出的成员推理攻击能够规避这些攻击。尽管fast-attack和PCA-based attack能够规避大多数防御,但是前者难以抵挡差分隐私和L2正则化防御,且后者也对数据增强失去效用。这是因为差分隐私通过向目标函数添加噪声干扰了敌手的攻击,而数据增强技术会干扰流模型的形成,进一步影响对抗样本的生成。尽管如此,差分隐私在防御攻击的同时也会干扰模型的效用,难以达到较优的隐私-效用均衡且L2正则化在过强的防御干扰下同样会使目标模型失去效用。综上,本发明提出的攻击方案具有较强的稳健性和攻击性。
本发明上述公式中的字母解释如表8所示,表8为:
图6为本发明所提供的一种面向机器学习模型的成员推理隐私攻击系统结构示意图,如图6所示,本发明所提供的一种面向机器学习模型的成员推理隐私攻击系统,包括:
数据获取模块901,用于获取目标模型以及目标数据;
对抗样本生成模块902,用于根据所述目标数据,采用对抗样本生成算法,生成对抗样本;所述对抗样本生成算法包括:自适应贪婪算法与二分搜索算法结合方法或借助主成分技术在流形界面上的嵌入映射算法;
欧式距离确定模块903,用于确定所述目标数据与相应的对抗样本的欧式距离;
成员推理实现模块904,用于根据所述欧式距离确定判定结果,实现成员推理;所述判定结果包括:目标数据属于训练数据集或目标数据属于测试数据集。
所述对抗样本生成模块902具体包括:
初始值生成单元,用于向目标数据添加高斯扰动生成对抗样本的初始值;
局部最优方向获取单元,用于根据所述对抗样本的初始值,采用自适应贪婪算法与二分搜索算法结合方法,获得局部最优方向;
对抗样本第一生成单元,用于沿着所述局部最优方向,进行迭代更新,获取最贴近决策边界的对抗样本点,生成对抗样本。
所述对抗样本生成模块902具体包括:
合成数据集确定单元,用于根据训练数据集和目标数据确定合成数据集;
流形界面获得单元,用于对所述合成数据集进行主成分降维处理,获得流形界面;
对抗样本第二生成单元,用于对所述流形界面进行投影方向的搜寻,获得流形界面的投影点,生成对抗样本。
所述成员推理实现模块904具体包括:
判定阈值获取单元,用于获取判定阈值;
判断单元,用于判断所述欧式距离是否大于判定阈值;
判定结果确定单元,用于若大于,则目标数据属于训练数据集;反之,则目标数据属于测试数据集。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种面向机器学习模型的成员推理隐私攻击方法,其特征在于,包括:
获取目标模型以及目标数据;
根据所述目标数据,采用对抗样本生成算法,生成对抗样本;所述对抗样本生成算法包括:自适应贪婪算法与二分搜索算法结合方法或借助主成分技术在流形界面上的嵌入映射算法;
确定所述目标数据与相应的对抗样本的欧式距离;
根据所述欧式距离确定判定结果,实现成员推理;所述判定结果包括:目标数据属于训练数据集或目标数据属于测试数据集。
2.根据权利要求1所述的一种面向机器学习模型的成员推理隐私攻击方法,其特征在于,所述根据所述目标数据,采用对抗样本生成算法,生成对抗样本,具体包括:
向目标数据添加高斯扰动生成对抗样本的初始值;
根据所述对抗样本的初始值,采用自适应贪婪算法与二分搜索算法结合方法,获得局部最优方向;
沿着所述局部最优方向,进行迭代更新,获取最贴近决策边界的对抗样本点,生成对抗样本。
3.根据权利要求1所述的一种面向机器学习模型的成员推理隐私攻击方法,其特征在于,所述所述根据所述目标数据,采用对抗样本生成算法,生成对抗样本,具体包括:
根据训练数据集和目标数据确定合成数据集;
对所述合成数据集进行主成分降维处理,获得流形界面;
对所述流形界面进行投影方向的搜寻,获得流形界面的投影点,生成对抗样本。
4.根据权利要求1所述的一种面向机器学习模型的成员推理隐私攻击方法,其特征在于,所述根据所述欧式距离确定判定结果,实现成员推理,具体包括:
获取判定阈值;
判断所述欧式距离是否大于判定阈值;
若大于,则目标数据属于训练数据集;反之,则目标数据属于测试数据集。
5.一种面向机器学习模型的成员推理隐私攻击系统,其特征在于,包括:
数据获取模块,用于获取目标模型以及目标数据;
对抗样本生成模块,用于根据所述目标数据,采用对抗样本生成算法,生成对抗样本;所述对抗样本生成算法包括:自适应贪婪算法与二分搜索算法结合方法或借助主成分技术在流形界面上的嵌入映射算法;
欧式距离确定模块,用于确定所述目标数据与相应的对抗样本的欧式距离;
成员推理实现模块,用于根据所述欧式距离确定判定结果,实现成员推理;所述判定结果包括:目标数据属于训练数据集或目标数据属于测试数据集。
6.根据权利要求5所述的一种面向机器学习模型的成员推理隐私攻击系统,其特征在于,所述对抗样本生成模块具体包括:
初始值生成单元,用于向目标数据添加高斯扰动生成对抗样本的初始值;
局部最优方向获取单元,用于根据所述对抗样本的初始值,采用自适应贪婪算法与二分搜索算法结合方法,获得局部最优方向;
对抗样本第一生成单元,用于沿着所述局部最优方向,进行迭代更新,获取最贴近决策边界的对抗样本点,生成对抗样本。
7.根据权利要求5所述的一种面向机器学习模型的成员推理隐私攻击系统,其特征在于,所述对抗样本生成模块具体包括:
合成数据集确定单元,用于根据训练数据集和目标数据确定合成数据集;
流形界面获得单元,用于对所述合成数据集进行主成分降维处理,获得流形界面;
对抗样本第二生成单元,用于对所述流形界面进行投影方向的搜寻,获得流形界面的投影点,生成对抗样本。
8.根据权利要求5所述的一种面向机器学习模型的成员推理隐私攻击系统,其特征在于,所述成员推理实现模块具体包括:
判定阈值获取单元,用于获取判定阈值;
判断单元,用于判断所述欧式距离是否大于判定阈值;
判定结果确定单元,用于若大于,则目标数据属于训练数据集;反之,则目标数据属于测试数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111288620.6A CN113988312A (zh) | 2021-11-02 | 2021-11-02 | 一种面向机器学习模型的成员推理隐私攻击方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111288620.6A CN113988312A (zh) | 2021-11-02 | 2021-11-02 | 一种面向机器学习模型的成员推理隐私攻击方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988312A true CN113988312A (zh) | 2022-01-28 |
Family
ID=79745770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111288620.6A Pending CN113988312A (zh) | 2021-11-02 | 2021-11-02 | 一种面向机器学习模型的成员推理隐私攻击方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988312A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114662155A (zh) * | 2022-05-23 | 2022-06-24 | 广州中平智能科技有限公司 | 面向联邦学习的数据隐私安全机制评估方法、设备及介质 |
CN114900329A (zh) * | 2022-04-02 | 2022-08-12 | 中国科学院信息工程研究所 | 一种基于最小普适扰动的流关联攻击防御方法及系统 |
CN115797731A (zh) * | 2023-02-02 | 2023-03-14 | 国能大渡河大数据服务有限公司 | 目标检测模型训练方法、检测方法、终端设备及存储介质 |
-
2021
- 2021-11-02 CN CN202111288620.6A patent/CN113988312A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900329A (zh) * | 2022-04-02 | 2022-08-12 | 中国科学院信息工程研究所 | 一种基于最小普适扰动的流关联攻击防御方法及系统 |
CN114662155A (zh) * | 2022-05-23 | 2022-06-24 | 广州中平智能科技有限公司 | 面向联邦学习的数据隐私安全机制评估方法、设备及介质 |
CN115797731A (zh) * | 2023-02-02 | 2023-03-14 | 国能大渡河大数据服务有限公司 | 目标检测模型训练方法、检测方法、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Defending against neural network model stealing attacks using deceptive perturbations | |
Li et al. | Adaptive square attack: Fooling autonomous cars with adversarial traffic signs | |
Lin et al. | Multi-domain adversarial feature generalization for person re-identification | |
CN113988312A (zh) | 一种面向机器学习模型的成员推理隐私攻击方法及系统 | |
Li et al. | Attentive spatial–temporal summary networks for feature learning in irregular gait recognition | |
Khamaiseh et al. | Adversarial deep learning: A survey on adversarial attacks and defense mechanisms on image classification | |
Wang et al. | Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking | |
Lee et al. | Defending against machine learning model stealing attacks using deceptive perturbations | |
Chen et al. | PAR-GAN: improving the generalization of generative adversarial networks against membership inference attacks | |
Chen et al. | Practical membership inference attack against collaborative inference in industrial IoT | |
Hu et al. | Defending against membership inference attacks with high utility by GAN | |
Zheng et al. | Open set adversarial examples | |
Fang et al. | Robust image clustering via context-aware contrastive graph learning | |
Che et al. | SMGEA: A new ensemble adversarial attack powered by long-term gradient memories | |
Hou et al. | Similarity-based integrity protection for deep learning systems | |
Chen et al. | Adversarial attacks and defenses in image classification: A practical perspective | |
Vallabhaneni | Evaluating Transferability of Attacks across Generative Models | |
Wang et al. | Reinforcement learning based sparse black-box adversarial attack on video recognition models | |
Li et al. | Sa-es: Subspace activation evolution strategy for black-box adversarial attacks | |
Jiang et al. | Gpens: Graph data learning with graph propagation-embedding networks | |
Peng et al. | Dual contrastive learning network for graph clustering | |
Lu et al. | Ensemble learning methods of adversarial attacks and defenses in computer vision: Recent progress | |
Zhao et al. | Coarse-to-fine contrastive learning on graphs | |
Li et al. | Compound adversarial examples in deep neural networks | |
Genç et al. | A taxonomic survey of model extraction attacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |