CN112052475A - 一种用于局部差异隐私下的边际释放的一致自适应边际 - Google Patents
一种用于局部差异隐私下的边际释放的一致自适应边际 Download PDFInfo
- Publication number
- CN112052475A CN112052475A CN202010778159.1A CN202010778159A CN112052475A CN 112052475 A CN112052475 A CN 112052475A CN 202010778159 A CN202010778159 A CN 202010778159A CN 112052475 A CN112052475 A CN 112052475A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- clustering
- differential privacy
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 58
- 230000002776 aggregation Effects 0.000 claims abstract description 5
- 238000004220 aggregation Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 82
- 239000011159 matrix material Substances 0.000 claims description 60
- 230000035945 sensitivity Effects 0.000 claims description 30
- 230000007704 transition Effects 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 claims description 18
- 238000007619 statistical method Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000007405 data analysis Methods 0.000 claims description 9
- 230000004069 differentiation Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000003467 diminishing effect Effects 0.000 claims description 3
- 238000002715 modification method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000002994 raw material Substances 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 239000002904 solvent Substances 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种用于局部差异隐私下的边际释放的一致自适应边际,属于局部差异隐私技术领域,包括以下步骤:S1:聚合器将总体随机分为大小相同的m个组;S2:选择一组m个边际集和要使用的FO协议;S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;S7:生成k向边距;本发明对于局部差分隐私下的边际释放问题,引入了CALM,当存在非二进制属性时,CALM也适用。
Description
技术领域
本发明属于局部差异隐私技术领域,具体涉及一种用于局部差异隐私下的边际释放的一致自适应边际。
背景技术
现有用于局部差异隐私下的边际释放方法在高维环境中表现不佳,更糟糕的是,某些方法会产生非常昂贵的计算开销。
发明内容
为解决上述背景技术中提出的问题。本发明提供了一种用于局部差异隐私下的边际释放的一致自适应边际,具有提高有效性和效率的特点。
为实现上述目的,本发明提供如下技术方案:一种用于局部差异隐私下的边际释放的一致自适应边际,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
本发明中进一步的,所述步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n;
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),是记录ti的数值属性部分,是记录ti的分类属性部分,即:设to是数值属性的均值,tc是属性的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用所述的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则
式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε;
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε;
返回数据集Dε;
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
对于聚集尺寸为k的数据集D,单个查询敏感度小于Δfi(D)/k,并且有n/k个相互独立的查询,因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度,则需有即由上可知,虽然经聚类算法处理将造成信息丢失,但该部分损失可由敏感度降低带来的增益进行弥补。
本发明中进一步的,所述步骤S2中,选择边际集的具体步骤如下:
S21:噪声误差错误分析
式中,L是一个边缘中的像元数,具有二进制属性的边缘具有L=2l个像元,当每个属性具有不同数量的可能值时,l是一个边缘中的期望像元数,
为了从这样的1向边沿构造一个l边际,l边际的每个像元都是来自较大边际的一些像元的总和,通过方差的线性关系,任何l向边际的方差为Var1=Varc·L,
从上面可以看出,增加m会增加线性因子,但是,增加m也会导致l向边界的包含次数增加,当l次边际包含t次时,我们可以获得1次边际的t个估计,其中每个大小边际都包含一个,对这些t估计值求平均可将方差减小t倍,更具体地,每个大小-边际包括属性,因此,可以预料的是,每个属性的信息将由边际贡献,因此,这些估计的平均值是:
当根据估计k个属性的边际,该估计受k额属性的误差影响,因此,当针对特定的k值进行优化时,将NE(n,d,ε,l)用作噪声误差;
S22:中间错误分析
当k向边界违背任何选定的边界覆盖时,就会发生重建错误,重建错误的大小取决于属性在多大程度上相关,如果所有属性都是相互独立的,则不存在重构错误,当属性相互依赖时,总体趋势是,较大的m和较大的l将覆盖更多的属性组合,从而减少重构误差,重建误差的减小效果随着m的增加而减小,例如,如果所有k向边缘都已被完全覆盖,则“重建错误”已经为0,无法进一步减小,即使不是所有的k向边际都被完全覆盖,将m增加到某个合理的大数以上指挥导致收益递减,由于重建错误与数据集有关,因此没有估算公式;
S23:采样错误分析
当一组用户中的边缘人口与整个人口中的边缘人口偏离时,就会发生抽样错误,参数l对采样误差没有影响,但是,减小m会使每个组的大小变小,从而增加采样错误,从一组用户计算一个s=n/m边距时,边缘的每个像元都可以看做是综合s的独立伯努利随机变量的证书除以s,换句话说,每个单元都是一个二项式随机变量除以s,从而,每个像元都有方差其中,MA(v)是在部分人口中具有v值的用户所占的比例,因此,边际A的抽样误差为:
S24:选择m和l
m和l都会影响重建错误,另外,m影响采样误差,而l影响噪声误差,直观地,要选择m和l来最小化三种误差的最大值,因为最大值将占主导地位,整体错误,但是,没有公式来估计充建错误,该公式取决于数据集。
本发明中进一步的,所述步骤2中,FO协议的具体步骤如下:
FO协议可以估计LDP下任何值x∈D的频率,而LDP是其他LDP任务的基础,它由一对算法制定:每个用户使用ψ扰动输入值,并且聚合器使用ψ,
S25:广义随机响应
该FO协议概括了随机响应技术,在这里,每个具有私有值v∈D的用户都以概率p发送真实值v,并且以概率1-p发送一个随机选择的v′∈D s.t. v′≠v,
更正式地说,摄动函数定义为:
式中,n是用户总数,例如,如果20%的用户具有值v,则所有随机报告中v的预期数量为0.2*n*p+0.8*n*q,如果聚合器准确地看到了此报告数量,则估计值为:
表明这是对真实技术的无偏估计,并且该估计的方差为:
当域大小|D|增加时,该协议的准确性在域快速下降,这反映在上述公式中给出的方差与|D|成线性关系,
S26:优化的一元编码
优化的一元编码通过将值编码到一元表中,避免了来自|D|的方差,D=[0..d-1],每一个v∈[0..d-1]被编码为长度为d的二进制字符串,使得第v的位为1,所有其他位为0,任意两个不同值的一元编码恰好有两个位不同,OUE将GRR应用于每个位,但发送1和0的方式有所不同,1作为抛硬币被传输,即被扰动为0,概率为0.5,这可以看作是应用ε=0的GRR,这样做能够以允许的最大隐私预算ε,允许传输许多(准确地说是|D|-1)0位,从而使1的数目受扰动0越小越好,这样做使得当|D|很大时时,可以使估计方差最小,
已被证明ψOUE(·)满足LDP,并且估计的频率无偏并且具有方差:
S27:自适应FO
将以上两个公式进行比较,将因子|D|-2+eε替换为4eε,这表明对于较小的|D|使用GRR更好,但是对于大的|D|值,OUE更好,并且具有不依赖于|D|的方差,
为简单起见,使用FO表示自适应选择的协议,当域小于3eε+2,GRR用作FO,否则,使用OUE,它有方差:
本发明中进一步的,所述步骤S6中,噪声边际之间一致性处理的具体步骤为:
当不同的边际有一些共同的属性时,实际上会多次估计这些属性,如果将这些估计值一起使用,效用将会提高,具体来说,假设一组属性A被s个边际A1,A2,...,As,即A=A1∩...As,可以通过求和来获得TA的s份来自每个TA中的单元,即
为了获得更好的TA估计,我们对所有边际Ai使用加权平均值:
由于每个TAi都是无偏的,因此他们的平均TA(v)也是无偏的,为了确定权重的分布,直觉是将更多的权重用于更准确地估计,特别地,我们最小化TA(v)的方差,即其中Ci是Ai中贡献给A的像元数,即其中Var0是基本方差将单个单元格模拟,正式地,有以下问题:
minimize ∑iwi 2·Ci
subject to ∑iwi=1
其余的重建操作是从PriView借来的,在那以后,可以得到k向边缘,
S61:不变后随机响应
后随机化方法是把原始文件中某些分类变量的值,根据给定的概率机制转变为其他的值,并且产生一个新的数据文件,换句话说,新产生的扰动后的文件中的记录与原始记录中的个体属性的值有可能是不同的,通过这种方式,引入了数据的不确定性:用户不能确定文件中的信息是原始信息还是由PRAM造成的扰动信息,从而保证了个体隐私安全,PRAM一个重要的方面是这个扰动按照一定的概率机制的,这个概率机制可以用于数据的分析,可以降低扰动对统计结果的影响,
令ξ表示在应用PRAM的原始文件中的敏感性分类变量,并让X表示扰动文件中的相同的分类变量,此外,假定ξ有k个类别,因此对应的X也有k个类别,编号为1,…,k,定义应用PRAM所涉及的转移概率pkl=IP(X=1|ξ=k)即原始分数ξ=k变为X=1的概率,对所有k=1,…,K,PRAM可用由K×K马尔科夫矩阵P来描述,其条目是转移概率pkl,最后,令ξ(r)和X(r)分别表示对应的原始和扰动后的数据文件中第r条记录的变量的值,应用PRAM意味着,对于给定ξ(r)=k,以及概率分布pk1,...pkk,那么便可以求得x(r)上的值,对于原始文件中的每个记录,认为此过程是独立其他记录的,
一般的PRAM对转移概率的马尔科夫矩阵P只是假设P本身是可逆的,并未施加更多的限制,该矩阵的逆可以结合扰动后的文件来矫正列联表,以获得对原始文件产生的相应表的无偏估计,如Kooiman等人研究的在其他几种统计分析的情况下,矩阵P的逆可以用来纠正PRAM对统计分析的影响,
例如:用Tξ表示原始文件中的(复合)变量ξ的列联表,TX表示对应的扰动文件的相应表,
E(TX|ξ(1),...,ξ(n))=ptTξ
式中,t表示转置,n是数据文件中的记录数,因此可以通过定义获得无偏估计:
这简单的例子可以看出,通过分布的扰动后的数据和矩阵P,可以估计出原始数据的统计结果,但一般PRAM在进行统计分析时要考虑对矩阵P的使用,进行额外的步骤以获得无偏估计,于是,不变的PRAM被Gouweleeuw等人提出讨论,不变的PRAM技术是对马尔科夫矩阵P的选择施加额外的条件,使得用户使用扰动文件进行数据统计分析时,不需要再考虑错误分类带来的影响,就好像它是原始文件一样,简单来说不变的PRAM技术,对矩阵P的选择要满足马尔科夫矩阵以及方程:
ptTξ=Tξ
下面给出一个转移矩阵P增加额外条件的构造,假设对于k=1,...,K,Tξ(k)≥Tξ(K)>0,且0<θ<1,用Tξ(k)表示原始文件中变量值ξ=k的记录数,pkl由下式得到
可以验证P={Pkl|是满足马尔可夫矩阵的,此时E(TX|ξ(1),...,ξ(n))=ptTξ=Tξ,可以得到无偏估计:
这意为对于不变的PRAM,Tξ的估计量可以直接由扰动后的文件获得,不再需要转移概率矩阵P的参与,简化了分析步骤,
S62:局部差分隐私
局部差分隐私保护技术是在传统差分隐私保护技术的基础上进一步改进,区别于传统的差分隐私需要可信的数据收集者局部差分隐私不需要可信的数据收集者,
其具有传统差分隐私保护技术的组合特性,并采用随机响应扰动机制来抵御不可信第三方采集器带来的隐私攻击,局部差分隐私的形式化定义如下;
Pr[M(t)=t*]≤eε×Pr[M(t′)=t″]
S63:隐私保护与效用度量
隐私保护要在保护用户隐私的前提下尽可能地满足数据分析对于数据效用的需求,在PRAM方法中隐私纰漏的风险通过与其比率的概念来衡量,与其比率的定义是:扰动文件中与其记录数,和扰动文件中观察值不等于原始文件中值的逾期记录数的比,定义如下:
ER(k)的值越小,x=k的记录越不可能属于该值,因此扰动文件越安全,
由于目前许多数据分析应用都与数据的概率分布有关,因此在评估数据库的效用时,采用KL-散度度量数据的效用,
KL-散度是用来比较两个概率分布的接近程度,用来分析原始数据与扰动后数据在同一个属性上分布的距离,代表原始数据被扰动后其分布信息的减少程度,计算公式如下:
S64:局部差分隐私的不变随后随机
首先考虑属性是二值属性的情况,二值属性是指仅有两个值的属性,如值是或否的属性,分别用u和v表示属性的两个值,用pu、pv表示对应扰动的概率,其中pt=1-pu对二值属性的转移矩阵一般构造为以下形式:
P是马尔科夫矩阵,puv=P(u|v)表示原始值为v扰动为u的概率,在进行扰动时为保证满足ε-局部化差分隐私,需要对P进行选择,据定义,隐私预算ε为:
ε=ln(pu/pv)
根据需要满足的隐私预算保护,构造出转移概率矩阵P,
下面使用二阶后随机相应方式实现不变随机响应,二阶段的PRAM主要思想是:假设原始数据中属性ξ进行扰动,扰动后的对应的数据即为X,
用X*来表示这两次扰动后的文件中ξ的值,那么可以看出x*与原始数据中ξ的概率分布是相同的,这样就相当于使用了一个符合不变PRAM的转移概率矩阵对原始文件进行扰动,
上面考虑的条件是二值属性,若变量中含有k(k>2)个候选值的情况,也可以进行随机响应,对于任意输入R,输出R*,且R,R*都属于属性的域,随机扰动概率如下定义:
即是按照eε/k-1+eε的概率相应输出真实值,以1/k-1+eε的概率响应输出剩下的k-1个结果的任意一种,使其满足ε-局部差分隐私。
与现有技术相比,本发明的有益效果是:
1、本发明对于局部差分隐私下的边际释放问题,引入了CALM,当存在非二进制属性时,CALM也适用。
2、本发明对来自三个不同来源的错误进行了仔细分析,并开发了一种算法,用于为CALM选择关键算法参数。
3、本发明在数据集上,对所提出方法的性能进行了广泛评估,并证明了该方法的有效性。
附图说明
图1为本发明的结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供以下技术方案:一种用于局部差异隐私下的边际释放的一致自适应边际,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
具体的,步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n;
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),是记录ti的数值属性部分,是记录ti的分类属性部分,即:设to是数值属性的均值,tc是属性的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低foM的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则
式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε;
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε;
返回数据集Dε;
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
对于聚集尺寸为k的数据集D,单个查询敏感度小于Δfi(D)/k,并且有n/k个相互独立的查询,因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度,则需有即由上可知,虽然经聚类算法处理将造成信息丢失,但该部分损失可由敏感度降低带来的增益进行弥补。
具体的,步骤S2中,选择边际集的具体步骤如下:
S21:噪声误差错误分析
式中,L是一个边缘中的像元数,具有二进制属性的边缘具有L=2l个像元,当每个属性具有不同数量的可能值时,l是一个边缘中的期望像元数,
为了从这样的1向边沿构造一个l边际,l边际的每个像元都是来自较大边际的一些像元的总和,通过方差的线性关系,任何l向边际的方差为Var1=Varc·L,
从上面可以看出,增加m会增加线性因子,但是,增加m也会导致l向边界的包含次数增加,当l次边际包含t次时,我们可以获得1次边际的t个估计,其中每个大小边际都包含一个,对这些t估计值求平均可将方差减小t倍,更具体地,每个大小-边际包括属性,因此,可以预料的是,每个属性的信息将由边际贡献,因此,这些估计的平均值是:
当根据估计k个属性的边际,该估计受k额属性的误差影响,因此,当针对特定的k值进行优化时,将NE(n,d,ε,l)用作噪声误差;
S22:中间错误分析
当k向边界违背任何选定的边界覆盖时,就会发生重建错误,重建错误的大小取决于属性在多大程度上相关,如果所有属性都是相互独立的,则不存在重构错误,当属性相互依赖时,总体趋势是,较大的m和较大的l将覆盖更多的属性组合,从而减少重构误差,重建误差的减小效果随着m的增加而减小,例如,如果所有k向边缘都已被完全覆盖,则“重建错误”已经为0,无法进一步减小,即使不是所有的k向边际都被完全覆盖,将m增加到某个合理的大数以上指挥导致收益递减,由于重建错误与数据集有关,因此没有估算公式;
S23:采样错误分析
当一组用户中的边缘人口与整个人口中的边缘人口偏离时,就会发生抽样错误,参数l对采样误差没有影响,但是,减小m会使每个组的大小变小,从而增加采样错误,从一组用户计算一个s=n/m边距时,边缘的每个像元都可以看做是综合s的独立伯努利随机变量的证书除以s,换句话说,每个单元都是一个二项式随机变量除以s,从而,每个像元都有方差其中,MA(v)是在部分人口中具有v值的用户所占的比例,因此,边际A的抽样误差为:
S24:选择m和l
m和l都会影响重建错误,另外,m影响采样误差,而l影响噪声误差,直观地,要选择m和l来最小化三种误差的最大值,因为最大值将占主导地位,整体错误,但是,没有公式来估计充建错误,该公式取决于数据集。
具体的,步骤S2中,FO协议的具体步骤如下:
FO协议可以估计LDP下任何值x∈D的频率,而LDP是其他LDP任务的基础,它由一对算法制定:每个用户使用ψ扰动输入值,并且聚合器使用ψ,
S25:广义随机响应
该FO协议概括了随机响应技术,在这里,每个具有私有值v∈D的用户都以概率p发送真实值v,并且以概率1-p发送一个随机选择的v′∈D s.t. v′≠v,
更正式地说,摄动函数定义为:
式中,n是用户总数,例如,如果20%的用户具有值v,则所有随机报告中v的预期数量为0.2*n*p+0.8*n*q,如果聚合器准确地看到了此报告数量,则估计值为:
表明这是对真实技术的无偏估计,并且该估计的方差为:
当域大小|D|增加时,该协议的准确性在域快速下降,这反映在上述公式中给出的方差与|D|成线性关系,
S26:优化的一元编码
优化的一元编码通过将值编码到一元表中,避免了来自|D|的方差,D=[0..d-1],每一个v∈[0..d-1]被编码为长度为d的二进制字符串,使得第v的位为1,所有其他位为0,任意两个不同值的一元编码恰好有两个位不同,OUE将GRR应用于每个位,但发送1和0的方式有所不同,1作为抛硬币被传输,即被扰动为0,概率为0.5,这可以看作是应用ε=0的GRR,这样做能够以允许的最大隐私预算ε,允许传输许多(准确地说是|D|-1)0位,从而使1的数目受扰动0越小越好,这样做使得当|D|很大时时,可以使估计方差最小,
已被证明ψOUE(·)满足LDP,并且估计的频率无偏并且具有方差:
S27:自适应FO
将以上两个公式进行比较,将因子|D|-2+eε替换为4eε,这表明对于较小的|D|使用GRR更好,但是对于大的|D|值,OUE更好,并且具有不依赖于|D|的方差,
为简单起见,使用FO表示自适应选择的协议,当域小于3eε+2,GRR用作FO,否则,使用OUE,它有方差:
具体的,步骤S6中,噪声边际之间一致性处理的具体步骤为:
当不同的边际有一些共同的属性时,实际上会多次估计这些属性,如果将这些估计值一起使用,效用将会提高,具体来说,假设一组属性A被s个边际A1,A2,...,As,即A=A1∩...As,可以通过求和来获得TA的s份来自每个TA中的单元,即
为了获得更好的TA估计,我们对所有边际Ai使用加权平均值:
由于每个TAi都是无偏的,因此他们的平均TA(v)也是无偏的,为了确定权重的分布,直觉是将更多的权重用于更准确地估计,特别地,我们最小化TA(v)的方差,即其中Ci是Ai中贡献给A的像元数,即其中Var0是基本方差将单个单元格模拟,正式地,有以下问题:
minimize ∑iwi 2·Ci
subject to ∑iwi=1
其余的重建操作是从PriView借来的,在那以后,可以得到k向边缘,
S61:不变后随机响应
后随机化方法是把原始文件中某些分类变量的值,根据给定的概率机制转变为其他的值,并且产生一个新的数据文件,换句话说,新产生的扰动后的文件中的记录与原始记录中的个体属性的值有可能是不同的,通过这种方式,引入了数据的不确定性:用户不能确定文件中的信息是原始信息还是由PRAM造成的扰动信息,从而保证了个体隐私安全,PRAM一个重要的方面是这个扰动按照一定的概率机制的,这个概率机制可以用于数据的分析,可以降低扰动对统计结果的影响,
令ξ表示在应用PRAM的原始文件中的敏感性分类变量,并让X表示扰动文件中的相同的分类变量,此外,假定ξ有k个类别,因此对应的X也有k个类别,编号为1,…,k,定义应用PRAM所涉及的转移概率pkl=IP(X=1|ξ=k)即原始分数ξ=k变为X=1的概率,对所有k=1,…,K,PRAM可用由K×K马尔科夫矩阵P来描述,其条目是转移概率pkl,最后,令ξ(r)和X(r)分别表示对应的原始和扰动后的数据文件中第r条记录的变量的值,应用PRAM意味着,对于给定ξ(r)=k,以及概率分布pk1,...pkk,那么便可以求得x(r)上的值,对于原始文件中的每个记录,认为此过程是独立其他记录的,
一般的PRAM对转移概率的马尔科夫矩阵P只是假设P本身是可逆的,并未施加更多的限制,该矩阵的逆可以结合扰动后的文件来矫正列联表,以获得对原始文件产生的相应表的无偏估计,如Kooiman等人研究的在其他几种统计分析的情况下,矩阵P的逆可以用来纠正PRAM对统计分析的影响,
例如:用Tξ表示原始文件中的(复合)变量ξ的列联表,TX表示对应的扰动文件的相应表,
E(TX|ξ(1),...,ξ(n))=ptTξ
式中,t表示转置,n是数据文件中的记录数,因此可以通过定义获得无偏估计:
这简单的例子可以看出,通过分布的扰动后的数据和矩阵P,可以估计出原始数据的统计结果,但一般PRAM在进行统计分析时要考虑对矩阵P的使用,进行额外的步骤以获得无偏估计,于是,不变的PRAM被Gouweleeuw等人提出讨论,不变的PRAM技术是对马尔科夫矩阵P的选择施加额外的条件,使得用户使用扰动文件进行数据统计分析时,不需要再考虑错误分类带来的影响,就好像它是原始文件一样,简单来说不变的PRAM技术,对矩阵P的选择要满足马尔科夫矩阵以及方程:
ptTξ=Tξ
下面给出一个转移矩阵P增加额外条件的构造,假设对于k=1,...,K,Tξ(k)≥Tξ(K)>0,且0<θ<1,用Tξ(k)表示原始文件中变量值ξ=k的记录数,pkl由下式得到
可以验证P={Pkl|是满足马尔可夫矩阵的,此时E(TX|ξ(1),...,ξ(n))=ptTξ=Tξ,可以得到无偏估计:
这意为对于不变的PRAM,Tξ的估计量可以直接由扰动后的文件获得,不再需要转移概率矩阵P的参与,简化了分析步骤,
S62:局部差分隐私
局部差分隐私保护技术是在传统差分隐私保护技术的基础上进一步改进,区别于传统的差分隐私需要可信的数据收集者局部差分隐私不需要可信的数据收集者,
其具有传统差分隐私保护技术的组合特性,并采用随机响应扰动机制来抵御不可信第三方采集器带来的隐私攻击,局部差分隐私的形式化定义如下;
Pr[M(t)=t*]≤eε×Pr[M(t′)=t″]
S63:隐私保护与效用度量
隐私保护要在保护用户隐私的前提下尽可能地满足数据分析对于数据效用的需求,在PRAM方法中隐私纰漏的风险通过与其比率的概念来衡量,与其比率的定义是:扰动文件中与其记录数,和扰动文件中观察值不等于原始文件中值的逾期记录数的比,定义如下:
ER(k)的值越小,x=k的记录越不可能属于该值,因此扰动文件越安全,
由于目前许多数据分析应用都与数据的概率分布有关,因此在评估数据库的效用时,采用KL-散度度量数据的效用,
KL-散度是用来比较两个概率分布的接近程度,用来分析原始数据与扰动后数据在同一个属性上分布的距离,代表原始数据被扰动后其分布信息的减少程度,计算公式如下:
S64:局部差分隐私的不变随后随机
首先考虑属性是二值属性的情况,二值属性是指仅有两个值的属性,如值是或否的属性,分别用u和v表示属性的两个值,用pu、pv表示对应扰动的概率,其中pt=1-pu对二值属性的转移矩阵一般构造为以下形式:
P是马尔科夫矩阵,puv=P(u|v)表示原始值为v扰动为u的概率,在进行扰动时为保证满足ε-局部化差分隐私,需要对P进行选择,据定义,隐私预算ε为:
ε=ln(pu/pv)
根据需要满足的隐私预算保护,构造出转移概率矩阵P,
下面使用二阶后随机相应方式实现不变随机响应,二阶段的PRAM主要思想是:假设原始数据中属性ξ进行扰动,扰动后的对应的数据即为X,
用X*来表示这两次扰动后的文件中ξ的值,那么可以看出x*与原始数据中ξ的概率分布是相同的,这样就相当于使用了一个符合不变PRAM的转移概率矩阵对原始文件进行扰动,
上面考虑的条件是二值属性,若变量中含有k(k>2)个候选值的情况,也可以进行随机响应,对于任意输入R,输出R*,且R,R*都属于属性的域,随机扰动概率如下定义:
即是按照eε/k-1+eε的概率相应输出真实值,以1/k-1+eε的概率响应输出剩下的k-1个结果的任意一种,使其满足ε-局部差分隐私。
本发明的工作原理及使用流程:一种用于局部差异隐私下的边际释放的一致自适应边际,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
2.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n;
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),是记录ti的数值属性部分,是记录ti的分类属性部分,即:设to是数值属性的均值,tc是属性的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用所述的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则
式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε;
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε;
返回数据集Dε;
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
3.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S2中,选择边际集的具体步骤如下:
S21:噪声误差错误分析
式中,L是一个边缘中的像元数,具有二进制属性的边缘具有L=2l个像元,当每个属性具有不同数量的可能值时,l是一个边缘中的期望像元数,
为了从这样的1向边沿构造一个l边际,l边际的每个像元都是来自较大边际的一些像元的总和,通过方差的线性关系,任何l向边际的方差为Var1=Varc·L,
从上面可以看出,增加m会增加线性因子,但是,增加m也会导致l向边界的包含次数增加,当l次边际包含t次时,我们可以获得1次边际的t个估计,其中每个大小边际都包含一个,对这些t估计值求平均可将方差减小t倍,更具体地,每个大小-边际包括属性,因此,可以预料的是,每个属性的信息将由l边际贡献,因此,这些估计的平均值是:
当根据估计k个属性的边际,该估计受k额属性的误差影响,因此,当针对特定的k值进行优化时,将NE(n,d,ε,l)用作噪声误差;
S22:中间错误分析
当k向边界违背任何选定的边界覆盖时,就会发生重建错误,重建错误的大小取决于属性在多大程度上相关,如果所有属性都是相互独立的,则不存在重构错误,当属性相互依赖时,总体趋势是,较大的m和较大的l将覆盖更多的属性组合,从而减少重构误差,重建误差的减小效果随着m的增加而减小,例如,如果所有k向边缘都已被完全覆盖,则“重建错误”已经为0,无法进一步减小,即使不是所有的k向边际都被完全覆盖,将m增加到某个合理的大数以上指挥导致收益递减,由于重建错误与数据集有关,因此没有估算公式;
S23:采样错误分析
当一组用户中的边缘人口与整个人口中的边缘人口偏离时,就会发生抽样错误,参数l对采样误差没有影响,但是,减小m会使每个组的大小变小,从而增加采样错误,从一组用户计算一个s=n/m边距时,边缘的每个像元都可以看做是综合s的独立伯努利随机变量的证书除以s,换句话说,每个单元都是一个二项式随机变量除以s,从而,每个像元都有方差其中,MA(v)是在部分人口中具有v值的用户所占的比例,因此,l边际A的抽样误差为:
S24:选择m和l
m和l都会影响重建错误,另外,m影响采样误差,而l影响噪声误差,直观地,要选择m和l来最小化三种误差的最大值,因为最大值将占主导地位,整体错误,但是,没有公式来估计充建错误,该公式取决于数据集。
4.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤2中,FO协议的具体步骤如下:
FO协议可以估计LDP下任何值x∈D的频率,而LDP是其他LDP任务的基础,它由一对算法制定:每个用户使用ψ扰动输入值,并且聚合器使用ψ,
S25:广义随机响应
该FO协议概括了随机响应技术,在这里,每个具有私有值v∈D的用户都以概率p发送真实值v,并且以概率1-p发送一个随机选择的v′∈Ds.t.v′≠v,
更正式地说,摄动函数定义为:
式中,n是用户总数,例如,如果20%的用户具有值v,则所有随机报告中v的预期数量为0.2*n*p+0.8*n*q,如果聚合器准确地看到了此报告数量,则估计值为:
表明这是对真实技术的无偏估计,并且该估计的方差为:
当域大小|D|增加时,该协议的准确性在域快速下降,这反映在上述公式中给出的方差与|D|成线性关系,
S26:优化的一元编码
优化的一元编码通过将值编码到一元表中,避免了来自|D|的方差,D=[0..d-1],每一个v∈[0..d-1]被编码为长度为d的二进制字符串,使得第v的位为1,所有其他位为0,任意两个不同值的一元编码恰好有两个位不同,OUE将GRR应用于每个位,但发送1和0的方式有所不同,1作为抛硬币被传输,即被扰动为0,概率为0.5,这可以看作是应用ε=0的GRR,这样做能够以允许的最大隐私预算ε,允许传输许多(准确地说是|D|-1)0位,从而使1的数目受扰动0越小越好,这样做使得当|D|很大时时,可以使估计方差最小,
已被证明ψOUE(·)满足LDP,并且估计的频率无偏并且具有方差:
S27:自适应FO
将以上两个公式进行比较,将因子|D|-2+eε替换为4eε,这表明对于较小的|D|使用GRR更好,但是对于大的|D|值,OUE更好,并且具有不依赖于|D|的方差,
为简单起见,使用FO表示自适应选择的协议,当域小于3eε+2,GRR用作FO,否则,使用OUE,它有方差:
5.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S6中,噪声边际之间一致性处理的具体步骤为:
当不同的边际有一些共同的属性时,实际上会多次估计这些属性,如果将这些估计值一起使用,效用将会提高,具体来说,假设一组属性A被s个边际A1,A2,...,As,即A=A1∩...As,可以通过求和来获得TA的s份来自每个TA中的单元,即
为了获得更好的TA估计,我们对所有边际Ai使用加权平均值:
由于每个都是无偏的,因此他们的平均TA(v)也是无偏的,为了确定权重的分布,直觉是将更多的权重用于更准确地估计,特别地,我们最小化TA(v)的方差,即其中Ci是Ai中贡献给A的像元数,即其中Var0是基本方差将单个单元格模拟,正式地,有以下问题:
minimize ∑iwi 2·Ci
subject to ∑iwi=1
其余的重建操作是从PriView借来的,在那以后,可以得到k向边缘,
S61:不变后随机响应
后随机化方法是把原始文件中某些分类变量的值,根据给定的概率机制转变为其他的值,并且产生一个新的数据文件,换句话说,新产生的扰动后的文件中的记录与原始记录中的个体属性的值有可能是不同的,通过这种方式,引入了数据的不确定性:用户不能确定文件中的信息是原始信息还是由PRAM造成的扰动信息,从而保证了个体隐私安全,PRAM一个重要的方面是这个扰动按照一定的概率机制的,这个概率机制可以用于数据的分析,可以降低扰动对统计结果的影响,
令ξ表示在应用PRAM的原始文件中的敏感性分类变量,并让X表示扰动文件中的相同的分类变量,此外,假定ξ有k个类别,因此对应的X也有k个类别,编号为1,…,k,定义应用PRAM所涉及的转移概率pkl=IP(X=1|ξ=k)即原始分数ξ=k变为X=1的概率,对所有k=1,…,K,PRAM可用由K×K马尔科夫矩阵P来描述,其条目是转移概率pkl,最后,令ξ(r)和X(r)分别表示对应的原始和扰动后的数据文件中第r条记录的变量的值,应用PRAM意味着,对于给定ξ(r)=k,以及概率分布pk1,...pkk,那么便可以求得x(r)上的值,对于原始文件中的每个记录,认为此过程是独立其他记录的,
一般的PRAM对转移概率的马尔科夫矩阵P只是假设P本身是可逆的,并未施加更多的限制,该矩阵的逆可以结合扰动后的文件来矫正列联表,以获得对原始文件产生的相应表的无偏估计,如Kooiman等人研究的在其他几种统计分析的情况下,矩阵P的逆可以用来纠正PRAM对统计分析的影响,
例如:用Tξ表示原始文件中的(复合)变量ξ的列联表,TX表示对应的扰动文件的相应表,
E(TX|ξ(1),...,ξ(n))=ptTξ
式中,t表示转置,n是数据文件中的记录数,因此可以通过定义获得无偏估计:
这简单的例子可以看出,通过分布的扰动后的数据和矩阵P,可以估计出原始数据的统计结果,但一般PRAM在进行统计分析时要考虑对矩阵P的使用,进行额外的步骤以获得无偏估计,于是,不变的PRAM被Gouweleeuw等人提出讨论,不变的PRAM技术是对马尔科夫矩阵P的选择施加额外的条件,使得用户使用扰动文件进行数据统计分析时,不需要再考虑错误分类带来的影响,就好像它是原始文件一样,简单来说不变的PRAM技术,对矩阵P的选择要满足马尔科夫矩阵以及方程:
ptTξ=Tξ
下面给出一个转移矩阵P增加额外条件的构造,假设对于k=1,...,K,Tξ(k)≥Tξ(K)>0,且0<θ<1,用Tξ(k)表示原始文件中变量值ξ=k的记录数,pkl由下式得到
可以验证P={Pkl|是满足马尔可夫矩阵的,此时E(TX|ξ(1),...,ξ(n))=ptTξ=Tξ,可以得到无偏估计:
这意为对于不变的PRAM,Tξ的估计量可以直接由扰动后的文件获得,不再需要转移概率矩阵P的参与,简化了分析步骤,
S62:局部差分隐私
局部差分隐私保护技术是在传统差分隐私保护技术的基础上进一步改进,区别于传统的差分隐私需要可信的数据收集者局部差分隐私不需要可信的数据收集者,
其具有传统差分隐私保护技术的组合特性,并采用随机响应扰动机制来抵御不可信第三方采集器带来的隐私攻击,局部差分隐私的形式化定义如下;
Pr[M(t)=t*]≤eε×Pr[M(t′)=t″]
S63:隐私保护与效用度量
隐私保护要在保护用户隐私的前提下尽可能地满足数据分析对于数据效用的需求,在PRAM方法中隐私纰漏的风险通过与其比率的概念来衡量,与其比率的定义是:扰动文件中与其记录数,和扰动文件中观察值不等于原始文件中值的逾期记录数的比,定义如下:
ER(k)的值越小,x=k的记录越不可能属于该值,因此扰动文件越安全,
由于目前许多数据分析应用都与数据的概率分布有关,因此在评估数据库的效用时,采用KL-散度度量数据的效用,
KL-散度是用来比较两个概率分布的接近程度,用来分析原始数据与扰动后数据在同一个属性上分布的距离,代表原始数据被扰动后其分布信息的减少程度,计算公式如下:
S64:局部差分隐私的不变随后随机
首先考虑属性是二值属性的情况,二值属性是指仅有两个值的属性,如值是或否的属性,分别用u和v表示属性的两个值,用pu、pv表示对应扰动的概率,其中pt=1-pu对二值属性的转移矩阵一般构造为以下形式:
P是马尔科夫矩阵,puv=P(u|v)表示原始值为v扰动为u的概率,在进行扰动时为保证满足ε-局部化差分隐私,需要对P进行选择,据定义,隐私预算ε为:
ε=ln(pu/pv)
根据需要满足的隐私预算保护,构造出转移概率矩阵P,
下面使用二阶后随机相应方式实现不变随机响应,二阶段的PRAM主要思想是:假设原始数据中属性ξ进行扰动,扰动后的对应的数据即为X,
用X*来表示这两次扰动后的文件中ξ的值,那么可以看出x*与原始数据中ξ的概率分布是相同的,这样就相当于使用了一个符合不变PRAM的转移概率矩阵对原始文件进行扰动,
上面考虑的条件是二值属性,若变量中含有k(k>2)个候选值的情况,也可以进行随机响应,对于任意输入R,输出R*,且R,R*都属于属性的域,随机扰动概率如下定义:
即是按照eε/k-1+eε的概率相应输出真实值,以1/k-1+eε的概率响应输出剩下的k-1个结果的任意一种,使其满足ε-局部差分隐私。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778159.1A CN112052475A (zh) | 2020-08-05 | 2020-08-05 | 一种用于局部差异隐私下的边际释放的一致自适应边际 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778159.1A CN112052475A (zh) | 2020-08-05 | 2020-08-05 | 一种用于局部差异隐私下的边际释放的一致自适应边际 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052475A true CN112052475A (zh) | 2020-12-08 |
Family
ID=73602579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010778159.1A Pending CN112052475A (zh) | 2020-08-05 | 2020-08-05 | 一种用于局部差异隐私下的边际释放的一致自适应边际 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052475A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560984A (zh) * | 2020-12-25 | 2021-03-26 | 广西师范大学 | 自适应K-Nets聚类的差分隐私保护方法 |
CN113792343A (zh) * | 2021-09-17 | 2021-12-14 | 国网山东省电力公司电力科学研究院 | 数据隐私的处理方法、装置、存储介质和电子设备 |
CN115329898A (zh) * | 2022-10-10 | 2022-11-11 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的分布式机器学习方法及系统 |
CN118094369A (zh) * | 2024-01-15 | 2024-05-28 | 沈阳工业大学 | 一种服役工况风力机叶片主梁损伤敏感因素评估方法 |
-
2020
- 2020-08-05 CN CN202010778159.1A patent/CN112052475A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560984A (zh) * | 2020-12-25 | 2021-03-26 | 广西师范大学 | 自适应K-Nets聚类的差分隐私保护方法 |
CN112560984B (zh) * | 2020-12-25 | 2022-04-05 | 广西师范大学 | 自适应K-Nets聚类的差分隐私保护方法 |
CN113792343A (zh) * | 2021-09-17 | 2021-12-14 | 国网山东省电力公司电力科学研究院 | 数据隐私的处理方法、装置、存储介质和电子设备 |
CN115329898A (zh) * | 2022-10-10 | 2022-11-11 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的分布式机器学习方法及系统 |
CN118094369A (zh) * | 2024-01-15 | 2024-05-28 | 沈阳工业大学 | 一种服役工况风力机叶片主梁损伤敏感因素评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052475A (zh) | 一种用于局部差异隐私下的边际释放的一致自适应边际 | |
Gong et al. | Privacy‐aware multidimensional mobile service quality prediction and recommendation in distributed fog environment | |
Ye et al. | PrivKV: Key-value data collection with local differential privacy | |
Wang et al. | Locally differentially private frequency estimation with consistency | |
Wang et al. | Continuous release of data streams under both centralized and local differential privacy | |
Hay et al. | Boosting the accuracy of differentially-private histograms through consistency | |
CN110555316B (zh) | 基于聚类匿名的隐私保护表数据共享方法 | |
US11188547B2 (en) | Differentially private budget tracking using Renyi divergence | |
Jiang et al. | Context-aware data aggregation with localized information privacy | |
CA3069908A1 (en) | Differentially private query budget refunding | |
Nandurge et al. | Analyzing road accident data using machine learning paradigms | |
Du et al. | AHEAD: adaptive hierarchical decomposition for range query under local differential privacy | |
CN104850727A (zh) | 基于云重心理论的分布式大数据系统风险评估方法 | |
Sun et al. | Truth inference on sparse crowdsourcing data with local differential privacy | |
Duan et al. | Utility analysis and enhancement of LDP mechanisms in high-dimensional space | |
Madan et al. | A privacy preserving scheme for big data publishing in the cloud using k-anonymization and hybridized optimization algorithm | |
Sun et al. | Conditional analysis for key-value data with local differential privacy | |
Xiang et al. | Linear and range counting under metric-based local differential privacy | |
Yuan et al. | Privacy‐preserving mechanism for mixed data clustering with local differential privacy | |
Wang et al. | Consistent and accurate frequency oracles under local differential privacy | |
CN116186757A (zh) | 一种效用增强的条件特征选择差分隐私数据发布方法 | |
Kikuchi | Castell: scalable joint probability estimation of multi-dimensional data randomized with local differential privacy | |
Wang et al. | Locally differentially private data collection and analysis | |
Zhang et al. | Differentially private high-dimensional data publication via Markov network | |
Hong et al. | Collecting geospatial data under local differential privacy with improving frequency estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201208 |
|
WD01 | Invention patent application deemed withdrawn after publication |