CN112052475A - 一种用于局部差异隐私下的边际释放的一致自适应边际 - Google Patents

一种用于局部差异隐私下的边际释放的一致自适应边际 Download PDF

Info

Publication number
CN112052475A
CN112052475A CN202010778159.1A CN202010778159A CN112052475A CN 112052475 A CN112052475 A CN 112052475A CN 202010778159 A CN202010778159 A CN 202010778159A CN 112052475 A CN112052475 A CN 112052475A
Authority
CN
China
Prior art keywords
data
attribute
clustering
differential privacy
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010778159.1A
Other languages
English (en)
Inventor
王之涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010778159.1A priority Critical patent/CN112052475A/zh
Publication of CN112052475A publication Critical patent/CN112052475A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种用于局部差异隐私下的边际释放的一致自适应边际,属于局部差异隐私技术领域,包括以下步骤:S1:聚合器将总体随机分为大小相同的m个组;S2:选择一组m个边际集和要使用的FO协议;S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;S7:生成k向边距;本发明对于局部差分隐私下的边际释放问题,引入了CALM,当存在非二进制属性时,CALM也适用。

Description

一种用于局部差异隐私下的边际释放的一致自适应边际
技术领域
本发明属于局部差异隐私技术领域,具体涉及一种用于局部差异隐私下的边际释放的一致自适应边际。
背景技术
现有用于局部差异隐私下的边际释放方法在高维环境中表现不佳,更糟糕的是,某些方法会产生非常昂贵的计算开销。
发明内容
为解决上述背景技术中提出的问题。本发明提供了一种用于局部差异隐私下的边际释放的一致自适应边际,具有提高有效性和效率的特点。
为实现上述目的,本发明提供如下技术方案:一种用于局部差异隐私下的边际释放的一致自适应边际,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
本发明中进一步的,所述步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
对于查询函数f,若算法A有
Figure BDA0002619236400000011
则算法A满足ε-差分隐私,其中,Δf表示查询函数的敏感性,指的是查询函数f作用于邻近数据集时产生的最大距离差,添加拉普拉斯噪声引起的误差
Figure BDA0002619236400000012
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:
Figure BDA0002619236400000021
其中,
Figure BDA0002619236400000022
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
首先将数据记录的数值属性部分的每一维进行标准化处理,即X第q维值为
Figure BDA0002619236400000023
其中
Figure BDA0002619236400000024
为该维数据记录的最大值,
Figure BDA0002619236400000025
为该维数据记录的最小值,则该数值部分距离为:
Figure BDA0002619236400000026
S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),
Figure BDA0002619236400000027
是记录ti的数值属性部分,
Figure BDA0002619236400000028
是记录ti的分类属性部分,即:
Figure BDA0002619236400000029
设to是数值属性
Figure BDA00026192364000000210
的均值,tc是属性
Figure BDA00026192364000000211
的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用所述的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低
Figure BDA0002619236400000031
的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则
Figure BDA0002619236400000041
式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
其中,
Figure BDA0002619236400000042
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
距离计算采用
Figure BDA0002619236400000043
的计算方法,则ICMD满足非敏感类算法定义,可对其结果执行差分隐私保护,对于查询函数fi,有
Figure BDA0002619236400000044
由此可知,原始数据集经过聚类分组,实现了记录隐藏和查询敏感性由单条数据向组数据的分化;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε
返回数据集Dε
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
对于聚集尺寸为k的数据集D,单个查询敏感度小于Δfi(D)/k,并且有n/k个相互独立的查询,因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度,则需有
Figure BDA0002619236400000051
Figure BDA0002619236400000052
由上可知,虽然经聚类算法处理将造成信息丢失,但该部分损失可由敏感度降低带来的增益进行弥补。
本发明中进一步的,所述步骤S2中,选择边际集的具体步骤如下:
S21:噪声误差错误分析
为了理解噪声误差,分析估计边际的总方差以及它们如何受到m和l的选择的影响,对于每个l边表,有
Figure BDA0002619236400000053
个用户报告它,根据公式
Figure BDA0002619236400000054
每个像元的方差为与用于估算的组规模成正比,更具体地说,有:
Figure BDA0002619236400000055
式中,L是一个边缘中的像元数,具有二进制属性的边缘具有L=2l个像元,当每个属性具有不同数量的可能值时,l是一个边缘中的期望像元数,
为了从这样的1向边沿构造一个l边际,l边际的每个像元都是来自较大边际的一些像元的总和,通过方差的线性关系,任何l向边际的方差为Var1=Varc·L,
从上面可以看出,增加m会增加线性因子,但是,增加m也会导致l向边界的包含次数增加,当l次边际包含t次时,我们可以获得1次边际的t个估计,其中每个大小边际都包含一个,对这些t估计值求平均可将方差减小t倍,更具体地,每个大小-边际包括属性,因此,可以预料的是,每个属性的信息将由
Figure BDA0002619236400000056
边际贡献,因此,这些估计的平均值是:
Figure BDA0002619236400000061
此外的主要观察结果是噪声误差的大小,不取决于m,取决于l和ε,其中ε影响第一项,这是FO协议的方差,参数l同时影响属于
Figure BDA0002619236400000062
和FO协议的方差,
当根据估计k个属性的边际,该估计受k额属性的误差影响,因此,当针对特定的k值进行优化时,将NE(n,d,ε,l)用作噪声误差;
S22:中间错误分析
当k向边界违背任何选定的边界覆盖时,就会发生重建错误,重建错误的大小取决于属性在多大程度上相关,如果所有属性都是相互独立的,则不存在重构错误,当属性相互依赖时,总体趋势是,较大的m和较大的l将覆盖更多的属性组合,从而减少重构误差,重建误差的减小效果随着m的增加而减小,例如,如果所有k向边缘都已被完全覆盖,则“重建错误”已经为0,无法进一步减小,即使不是所有的k向边际都被完全覆盖,将m增加到某个合理的大数以上指挥导致收益递减,由于重建错误与数据集有关,因此没有估算公式;
S23:采样错误分析
当一组用户中的边缘人口与整个人口中的边缘人口偏离时,就会发生抽样错误,参数l对采样误差没有影响,但是,减小m会使每个组的大小
Figure BDA0002619236400000063
变小,从而增加采样错误,从一组用户计算一个s=n/m边距时,边缘的每个像元都可以看做是综合s的独立伯努利随机变量的证书除以s,换句话说,每个单元都是一个二项式随机变量除以s,从而,每个像元都有方差
Figure BDA0002619236400000064
其中,MA(v)是在部分人口中具有v值的用户所占的比例,因此,
Figure BDA0002619236400000065
边际A的抽样误差为:
Figure BDA0002619236400000071
由于
Figure BDA0002619236400000072
Figure BDA0002619236400000073
因此,采样误差仅受限制:
Figure BDA0002619236400000074
S24:选择m和l
m和l都会影响重建错误,另外,m影响采样误差,而l影响噪声误差,直观地,要选择m和l来最小化三种误差的最大值,因为最大值将占主导地位,整体错误,但是,没有公式来估计充建错误,该公式取决于数据集。
本发明中进一步的,所述步骤2中,FO协议的具体步骤如下:
FO协议可以估计LDP下任何值x∈D的频率,而LDP是其他LDP任务的基础,它由一对算法制定:每个用户使用ψ扰动输入值,并且聚合器使用ψ,
S25:广义随机响应
该FO协议概括了随机响应技术,在这里,每个具有私有值v∈D的用户都以概率p发送真实值v,并且以概率1-p发送一个随机选择的v′∈D s.t. v′≠v,
更正式地说,摄动函数定义为:
Figure BDA0002619236400000075
因为
Figure BDA0002619236400000076
因此满足ε-LDP,估计频率v∈D,一个计算v被报告的次数,并将该技术表示为C(v),然后计算:
Figure BDA0002619236400000077
式中,n是用户总数,例如,如果20%的用户具有值v,则所有随机报告中v的预期数量为0.2*n*p+0.8*n*q,如果聚合器准确地看到了此报告数量,则估计值为:
Figure BDA0002619236400000078
表明这是对真实技术的无偏估计,并且该估计的方差为:
Figure BDA0002619236400000079
当域大小|D|增加时,该协议的准确性在域快速下降,这反映在上述公式中给出的方差与|D|成线性关系,
S26:优化的一元编码
优化的一元编码通过将值编码到一元表中,避免了来自|D|的方差,D=[0..d-1],每一个v∈[0..d-1]被编码为长度为d的二进制字符串,使得第v的位为1,所有其他位为0,任意两个不同值的一元编码恰好有两个位不同,OUE将GRR应用于每个位,但发送1和0的方式有所不同,1作为抛硬币被传输,即被扰动为0,概率为0.5,这可以看作是应用ε=0的GRR,这样做能够以允许的最大隐私预算ε,允许传输许多(准确地说是|D|-1)0位,从而使1的数目受扰动0越小越好,这样做使得当|D|很大时时,可以使估计方差最小,
给定所有用户j∈[n]的报告yj,以估计频率v的值,聚合器使用该位计算报告的数量,将相应的v设置为1,即
Figure BDA0002619236400000081
然后将C(x)转换为其无偏估计:
Figure BDA0002619236400000082
已被证明ψOUE(·)满足LDP,并且估计的频率无偏并且具有方差:
Figure BDA0002619236400000083
S27:自适应FO
将以上两个公式进行比较,将因子|D|-2+eε替换为4eε,这表明对于较小的|D|使用GRR更好,但是对于大的|D|值,OUE更好,并且具有不依赖于|D|的方差,
为简单起见,使用FO表示自适应选择的协议,当域小于3eε+2,GRR用作FO,否则,使用OUE,它有方差:
Figure BDA0002619236400000084
本发明中进一步的,所述步骤S6中,噪声边际之间一致性处理的具体步骤为:
当不同的边际有一些共同的属性时,实际上会多次估计这些属性,如果将这些估计值一起使用,效用将会提高,具体来说,假设一组属性A被s个边际A1,A2,...,As,即A=A1∩...As,可以通过求和来获得TA的s份来自每个TA中的单元,即
Figure BDA0002619236400000085
为了获得更好的TA估计,我们对所有边际Ai使用加权平均值:
Figure BDA0002619236400000086
由于每个TAi都是无偏的,因此他们的平均TA(v)也是无偏的,为了确定权重的分布,直觉是将更多的权重用于更准确地估计,特别地,我们最小化TA(v)的方差,即
Figure BDA0002619236400000091
其中Ci是Ai中贡献给A的像元数,即
Figure BDA0002619236400000092
其中Var0是基本方差将单个单元格模拟,正式地,有以下问题:
minimize ∑iwi 2·Ci
subject to ∑iwi=1
根据KKT条件,我们可以得出解:定义
Figure BDA0002619236400000093
取部分,
对于wi的每一个L的倒数,有
Figure BDA0002619236400000094
的值,可以通过等式∑iwi=1求出μ,结果,
Figure BDA0002619236400000095
Figure BDA0002619236400000096
因此,优化的加权平均值为:
Figure BDA0002619236400000097
一旦获得准确的TA,就可以更新所有TA,对于任何边际Ai,使用v的结果更新所有
Figure BDA0002619236400000098
其中v∈TA并且v′A=vA,特别地,
Figure BDA0002619236400000099
其余的重建操作是从PriView借来的,在那以后,可以得到k向边缘,
S61:不变后随机响应
后随机化方法是把原始文件中某些分类变量的值,根据给定的概率机制转变为其他的值,并且产生一个新的数据文件,换句话说,新产生的扰动后的文件中的记录与原始记录中的个体属性的值有可能是不同的,通过这种方式,引入了数据的不确定性:用户不能确定文件中的信息是原始信息还是由PRAM造成的扰动信息,从而保证了个体隐私安全,PRAM一个重要的方面是这个扰动按照一定的概率机制的,这个概率机制可以用于数据的分析,可以降低扰动对统计结果的影响,
令ξ表示在应用PRAM的原始文件中的敏感性分类变量,并让X表示扰动文件中的相同的分类变量,此外,假定ξ有k个类别,因此对应的X也有k个类别,编号为1,…,k,定义应用PRAM所涉及的转移概率pkl=IP(X=1|ξ=k)即原始分数ξ=k变为X=1的概率,对所有k=1,…,K,PRAM可用由K×K马尔科夫矩阵P来描述,其条目是转移概率pkl,最后,令ξ(r)和X(r)分别表示对应的原始和扰动后的数据文件中第r条记录的变量的值,应用PRAM意味着,对于给定ξ(r)=k,以及概率分布pk1,...pkk,那么便可以求得x(r)上的值,对于原始文件中的每个记录,认为此过程是独立其他记录的,
一般的PRAM对转移概率的马尔科夫矩阵P只是假设P本身是可逆的,并未施加更多的限制,该矩阵的逆可以结合扰动后的文件来矫正列联表,以获得对原始文件产生的相应表的无偏估计,如Kooiman等人研究的在其他几种统计分析的情况下,矩阵P的逆可以用来纠正PRAM对统计分析的影响,
例如:用Tξ表示原始文件中的(复合)变量ξ的列联表,TX表示对应的扰动文件的相应表,
E(TX(1),...,ξ(n))=ptTξ
式中,t表示转置,n是数据文件中的记录数,因此可以通过定义获得无偏估计:
Figure BDA0002619236400000101
这简单的例子可以看出,通过分布的扰动后的数据和矩阵P,可以估计出原始数据的统计结果,但一般PRAM在进行统计分析时要考虑对矩阵P的使用,进行额外的步骤以获得无偏估计,于是,不变的PRAM被Gouweleeuw等人提出讨论,不变的PRAM技术是对马尔科夫矩阵P的选择施加额外的条件,使得用户使用扰动文件进行数据统计分析时,不需要再考虑错误分类带来的影响,就好像它是原始文件一样,简单来说不变的PRAM技术,对矩阵P的选择要满足马尔科夫矩阵以及方程:
ptTξ=Tξ
下面给出一个转移矩阵P增加额外条件的构造,假设对于k=1,...,K,Tξ(k)≥Tξ(K)>0,且0<θ<1,用Tξ(k)表示原始文件中变量值ξ=k的记录数,pkl由下式得到
Figure BDA0002619236400000102
可以验证P={Pkl|是满足马尔可夫矩阵的,此时E(TX(1),...,ξ(n))=ptTξ=Tξ,可以得到无偏估计:
Figure BDA0002619236400000103
这意为对于不变的PRAM,Tξ的估计量可以直接由扰动后的文件获得,不再需要转移概率矩阵P的参与,简化了分析步骤,
S62:局部差分隐私
局部差分隐私保护技术是在传统差分隐私保护技术的基础上进一步改进,区别于传统的差分隐私需要可信的数据收集者局部差分隐私不需要可信的数据收集者,
其具有传统差分隐私保护技术的组合特性,并采用随机响应扰动机制来抵御不可信第三方采集器带来的隐私攻击,局部差分隐私的形式化定义如下;
Pr[M(t)=t*]≤eε×Pr[M(t′)=t″]
S63:隐私保护与效用度量
隐私保护要在保护用户隐私的前提下尽可能地满足数据分析对于数据效用的需求,在PRAM方法中隐私纰漏的风险通过与其比率的概念来衡量,与其比率的定义是:扰动文件中与其记录数,和扰动文件中观察值不等于原始文件中值的逾期记录数的比,定义如下:
Figure BDA0002619236400000111
ER(k)的值越小,x=k的记录越不可能属于该值,因此扰动文件越安全,
由于目前许多数据分析应用都与数据的概率分布有关,因此在评估数据库的效用时,采用KL-散度度量数据的效用,
KL-散度是用来比较两个概率分布的接近程度,用来分析原始数据与扰动后数据在同一个属性上分布的距离,代表原始数据被扰动后其分布信息的减少程度,计算公式如下:
Figure BDA0002619236400000112
S64:局部差分隐私的不变随后随机
首先考虑属性是二值属性的情况,二值属性是指仅有两个值的属性,如值是或否的属性,分别用u和v表示属性的两个值,用pu、pv表示对应扰动的概率,其中pt=1-pu对二值属性的转移矩阵一般构造为以下形式:
Figure BDA0002619236400000113
P是马尔科夫矩阵,puv=P(u|v)表示原始值为v扰动为u的概率,在进行扰动时为保证满足ε-局部化差分隐私,需要对P进行选择,据定义,隐私预算ε为:
ε=ln(pu/pv)
根据需要满足的隐私预算保护,构造出转移概率矩阵P,
下面使用二阶后随机相应方式实现不变随机响应,二阶段的PRAM主要思想是:假设原始数据中属性ξ进行扰动,扰动后的对应的数据即为X,
Figure BDA0002619236400000114
根据对扰动后文件的统计分析,可以用数据集X与矩阵P,估计原始数据集的概率分布,用
Figure BDA0002619236400000116
表示ξ的原始为k的概率:
Figure BDA0002619236400000115
此时我们得到了一个新的转移矩阵
Figure BDA0002619236400000121
再将次转移概率矩阵应用于第一次扰动后的数据上:
Figure BDA0002619236400000122
用X*来表示这两次扰动后的文件中ξ的值,那么可以看出x*与原始数据中ξ的概率分布是相同的,这样就相当于使用了一个符合不变PRAM的转移概率矩阵对原始文件进行扰动,
上面考虑的条件是二值属性,若变量中含有k(k>2)个候选值的情况,也可以进行随机响应,对于任意输入R,输出R*,且R,R*都属于属性的域,随机扰动概率如下定义:
Figure BDA0002619236400000123
即是按照eε/k-1+eε的概率相应输出真实值,以1/k-1+eε的概率响应输出剩下的k-1个结果的任意一种,使其满足ε-局部差分隐私。
与现有技术相比,本发明的有益效果是:
1、本发明对于局部差分隐私下的边际释放问题,引入了CALM,当存在非二进制属性时,CALM也适用。
2、本发明对来自三个不同来源的错误进行了仔细分析,并开发了一种算法,用于为CALM选择关键算法参数。
3、本发明在数据集上,对所提出方法的性能进行了广泛评估,并证明了该方法的有效性。
附图说明
图1为本发明的结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供以下技术方案:一种用于局部差异隐私下的边际释放的一致自适应边际,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
具体的,步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
对于查询函数f,若算法A有
Figure BDA0002619236400000131
则算法A满足ε-差分隐私,其中,Δf表示查询函数的敏感性,指的是查询函数f作用于邻近数据集时产生的最大距离差,添加拉普拉斯噪声引起的误差
Figure BDA0002619236400000132
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:
Figure BDA0002619236400000133
其中,
Figure BDA0002619236400000134
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
首先将数据记录的数值属性部分的每一维进行标准化处理,即X第q维值为
Figure BDA0002619236400000135
其中
Figure BDA0002619236400000136
为该维数据记录的最大值,
Figure BDA0002619236400000137
为该维数据记录的最小值,则该数值部分距离为:
Figure BDA0002619236400000141
S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),
Figure BDA0002619236400000142
是记录ti的数值属性部分,
Figure BDA0002619236400000143
是记录ti的分类属性部分,即:
Figure BDA0002619236400000144
设to是数值属性
Figure BDA0002619236400000145
的均值,tc是属性
Figure BDA0002619236400000146
的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低foM的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则
Figure BDA0002619236400000151
式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
其中,
Figure BDA0002619236400000152
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
距离计算采用
Figure BDA0002619236400000161
的计算方法,则ICMD满足非敏感类算法定义,可对其结果执行差分隐私保护,对于查询函数fi,有
Figure BDA0002619236400000162
由此可知,原始数据集经过聚类分组,实现了记录隐藏和查询敏感性由单条数据向组数据的分化;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε
返回数据集Dε
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
对于聚集尺寸为k的数据集D,单个查询敏感度小于Δfi(D)/k,并且有n/k个相互独立的查询,因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度,则需有
Figure BDA0002619236400000163
Figure BDA0002619236400000164
由上可知,虽然经聚类算法处理将造成信息丢失,但该部分损失可由敏感度降低带来的增益进行弥补。
具体的,步骤S2中,选择边际集的具体步骤如下:
S21:噪声误差错误分析
为了理解噪声误差,分析估计边际的总方差以及它们如何受到m和l的选择的影响,对于每个l边表,有
Figure BDA0002619236400000165
个用户报告它,根据公式
Figure BDA0002619236400000171
每个像元的方差为与用于估算的组规模成正比,更具体地说,有:
Figure BDA0002619236400000172
式中,L是一个边缘中的像元数,具有二进制属性的边缘具有L=2l个像元,当每个属性具有不同数量的可能值时,l是一个边缘中的期望像元数,
为了从这样的1向边沿构造一个l边际,l边际的每个像元都是来自较大边际的一些像元的总和,通过方差的线性关系,任何l向边际的方差为Var1=Varc·L,
从上面可以看出,增加m会增加线性因子,但是,增加m也会导致l向边界的包含次数增加,当l次边际包含t次时,我们可以获得1次边际的t个估计,其中每个大小边际都包含一个,对这些t估计值求平均可将方差减小t倍,更具体地,每个大小-边际包括属性,因此,可以预料的是,每个属性的信息将由
Figure BDA0002619236400000173
边际贡献,因此,这些估计的平均值是:
Figure BDA0002619236400000174
此外的主要观察结果是噪声误差的大小,不取决于m,取决于l和ε,其中ε影响第一项,这是FO协议的方差,参数l同时影响属于
Figure BDA0002619236400000175
和FO协议的方差,
当根据估计k个属性的边际,该估计受k额属性的误差影响,因此,当针对特定的k值进行优化时,将NE(n,d,ε,l)用作噪声误差;
S22:中间错误分析
当k向边界违背任何选定的边界覆盖时,就会发生重建错误,重建错误的大小取决于属性在多大程度上相关,如果所有属性都是相互独立的,则不存在重构错误,当属性相互依赖时,总体趋势是,较大的m和较大的l将覆盖更多的属性组合,从而减少重构误差,重建误差的减小效果随着m的增加而减小,例如,如果所有k向边缘都已被完全覆盖,则“重建错误”已经为0,无法进一步减小,即使不是所有的k向边际都被完全覆盖,将m增加到某个合理的大数以上指挥导致收益递减,由于重建错误与数据集有关,因此没有估算公式;
S23:采样错误分析
当一组用户中的边缘人口与整个人口中的边缘人口偏离时,就会发生抽样错误,参数l对采样误差没有影响,但是,减小m会使每个组的大小
Figure BDA0002619236400000181
变小,从而增加采样错误,从一组用户计算一个s=n/m边距时,边缘的每个像元都可以看做是综合s的独立伯努利随机变量的证书除以s,换句话说,每个单元都是一个二项式随机变量除以s,从而,每个像元都有方差
Figure BDA0002619236400000182
其中,MA(v)是在部分人口中具有v值的用户所占的比例,因此,
Figure BDA0002619236400000187
边际A的抽样误差为:
Figure BDA0002619236400000183
由于
Figure BDA0002619236400000184
Figure BDA0002619236400000185
因此,采样误差仅受限制:
Figure BDA0002619236400000186
S24:选择m和l
m和l都会影响重建错误,另外,m影响采样误差,而l影响噪声误差,直观地,要选择m和l来最小化三种误差的最大值,因为最大值将占主导地位,整体错误,但是,没有公式来估计充建错误,该公式取决于数据集。
具体的,步骤S2中,FO协议的具体步骤如下:
FO协议可以估计LDP下任何值x∈D的频率,而LDP是其他LDP任务的基础,它由一对算法制定:每个用户使用ψ扰动输入值,并且聚合器使用ψ,
S25:广义随机响应
该FO协议概括了随机响应技术,在这里,每个具有私有值v∈D的用户都以概率p发送真实值v,并且以概率1-p发送一个随机选择的v′∈D s.t. v′≠v,
更正式地说,摄动函数定义为:
Figure BDA0002619236400000191
因为
Figure BDA0002619236400000192
因此满足ε-LDP,估计频率v∈D,一个计算v被报告的次数,并将该技术表示为C(v),然后计算:
Figure BDA0002619236400000193
式中,n是用户总数,例如,如果20%的用户具有值v,则所有随机报告中v的预期数量为0.2*n*p+0.8*n*q,如果聚合器准确地看到了此报告数量,则估计值为:
Figure BDA0002619236400000194
表明这是对真实技术的无偏估计,并且该估计的方差为:
Figure BDA0002619236400000195
当域大小|D|增加时,该协议的准确性在域快速下降,这反映在上述公式中给出的方差与|D|成线性关系,
S26:优化的一元编码
优化的一元编码通过将值编码到一元表中,避免了来自|D|的方差,D=[0..d-1],每一个v∈[0..d-1]被编码为长度为d的二进制字符串,使得第v的位为1,所有其他位为0,任意两个不同值的一元编码恰好有两个位不同,OUE将GRR应用于每个位,但发送1和0的方式有所不同,1作为抛硬币被传输,即被扰动为0,概率为0.5,这可以看作是应用ε=0的GRR,这样做能够以允许的最大隐私预算ε,允许传输许多(准确地说是|D|-1)0位,从而使1的数目受扰动0越小越好,这样做使得当|D|很大时时,可以使估计方差最小,
给定所有用户j∈[n]的报告yj,以估计频率v的值,聚合器使用该位计算报告的数量,将相应的v设置为1,即
Figure BDA0002619236400000196
然后将C(x)转换为其无偏估计:
Figure BDA0002619236400000197
已被证明ψOUE(·)满足LDP,并且估计的频率无偏并且具有方差:
Figure BDA0002619236400000198
S27:自适应FO
将以上两个公式进行比较,将因子|D|-2+eε替换为4eε,这表明对于较小的|D|使用GRR更好,但是对于大的|D|值,OUE更好,并且具有不依赖于|D|的方差,
为简单起见,使用FO表示自适应选择的协议,当域小于3eε+2,GRR用作FO,否则,使用OUE,它有方差:
Figure BDA0002619236400000201
具体的,步骤S6中,噪声边际之间一致性处理的具体步骤为:
当不同的边际有一些共同的属性时,实际上会多次估计这些属性,如果将这些估计值一起使用,效用将会提高,具体来说,假设一组属性A被s个边际A1,A2,...,As,即A=A1∩...As,可以通过求和来获得TA的s份来自每个TA中的单元,即
Figure BDA0002619236400000202
为了获得更好的TA估计,我们对所有边际Ai使用加权平均值:
Figure BDA0002619236400000203
由于每个TAi都是无偏的,因此他们的平均TA(v)也是无偏的,为了确定权重的分布,直觉是将更多的权重用于更准确地估计,特别地,我们最小化TA(v)的方差,即
Figure BDA0002619236400000204
其中Ci是Ai中贡献给A的像元数,即
Figure BDA0002619236400000205
其中Var0是基本方差将单个单元格模拟,正式地,有以下问题:
minimize ∑iwi 2·Ci
subject to ∑iwi=1
根据KKT条件,我们可以得出解:定义
Figure BDA0002619236400000206
取部分,
对于wi的每一个L的倒数,有
Figure BDA0002619236400000207
的值,可以通过等式∑iwi=1求出μ,结果,
Figure BDA0002619236400000208
Figure BDA0002619236400000209
因此,优化的加权平均值为:
Figure BDA00026192364000002010
一旦获得准确的TA,就可以更新所有TA,对于任何边际Ai,使用v的结果更新所有
Figure BDA0002619236400000211
其中v∈TA并且v′A=vA,特别地,
Figure BDA0002619236400000212
其余的重建操作是从PriView借来的,在那以后,可以得到k向边缘,
S61:不变后随机响应
后随机化方法是把原始文件中某些分类变量的值,根据给定的概率机制转变为其他的值,并且产生一个新的数据文件,换句话说,新产生的扰动后的文件中的记录与原始记录中的个体属性的值有可能是不同的,通过这种方式,引入了数据的不确定性:用户不能确定文件中的信息是原始信息还是由PRAM造成的扰动信息,从而保证了个体隐私安全,PRAM一个重要的方面是这个扰动按照一定的概率机制的,这个概率机制可以用于数据的分析,可以降低扰动对统计结果的影响,
令ξ表示在应用PRAM的原始文件中的敏感性分类变量,并让X表示扰动文件中的相同的分类变量,此外,假定ξ有k个类别,因此对应的X也有k个类别,编号为1,…,k,定义应用PRAM所涉及的转移概率pkl=IP(X=1|ξ=k)即原始分数ξ=k变为X=1的概率,对所有k=1,…,K,PRAM可用由K×K马尔科夫矩阵P来描述,其条目是转移概率pkl,最后,令ξ(r)和X(r)分别表示对应的原始和扰动后的数据文件中第r条记录的变量的值,应用PRAM意味着,对于给定ξ(r)=k,以及概率分布pk1,...pkk,那么便可以求得x(r)上的值,对于原始文件中的每个记录,认为此过程是独立其他记录的,
一般的PRAM对转移概率的马尔科夫矩阵P只是假设P本身是可逆的,并未施加更多的限制,该矩阵的逆可以结合扰动后的文件来矫正列联表,以获得对原始文件产生的相应表的无偏估计,如Kooiman等人研究的在其他几种统计分析的情况下,矩阵P的逆可以用来纠正PRAM对统计分析的影响,
例如:用Tξ表示原始文件中的(复合)变量ξ的列联表,TX表示对应的扰动文件的相应表,
E(TX(1),...,ξ(n))=ptTξ
式中,t表示转置,n是数据文件中的记录数,因此可以通过定义获得无偏估计:
Figure BDA0002619236400000213
这简单的例子可以看出,通过分布的扰动后的数据和矩阵P,可以估计出原始数据的统计结果,但一般PRAM在进行统计分析时要考虑对矩阵P的使用,进行额外的步骤以获得无偏估计,于是,不变的PRAM被Gouweleeuw等人提出讨论,不变的PRAM技术是对马尔科夫矩阵P的选择施加额外的条件,使得用户使用扰动文件进行数据统计分析时,不需要再考虑错误分类带来的影响,就好像它是原始文件一样,简单来说不变的PRAM技术,对矩阵P的选择要满足马尔科夫矩阵以及方程:
ptTξ=Tξ
下面给出一个转移矩阵P增加额外条件的构造,假设对于k=1,...,K,Tξ(k)≥Tξ(K)>0,且0<θ<1,用Tξ(k)表示原始文件中变量值ξ=k的记录数,pkl由下式得到
Figure BDA0002619236400000221
可以验证P={Pkl|是满足马尔可夫矩阵的,此时E(TX(1),...,ξ(n))=ptTξ=Tξ,可以得到无偏估计:
Figure BDA0002619236400000222
这意为对于不变的PRAM,Tξ的估计量可以直接由扰动后的文件获得,不再需要转移概率矩阵P的参与,简化了分析步骤,
S62:局部差分隐私
局部差分隐私保护技术是在传统差分隐私保护技术的基础上进一步改进,区别于传统的差分隐私需要可信的数据收集者局部差分隐私不需要可信的数据收集者,
其具有传统差分隐私保护技术的组合特性,并采用随机响应扰动机制来抵御不可信第三方采集器带来的隐私攻击,局部差分隐私的形式化定义如下;
Pr[M(t)=t*]≤eε×Pr[M(t′)=t″]
S63:隐私保护与效用度量
隐私保护要在保护用户隐私的前提下尽可能地满足数据分析对于数据效用的需求,在PRAM方法中隐私纰漏的风险通过与其比率的概念来衡量,与其比率的定义是:扰动文件中与其记录数,和扰动文件中观察值不等于原始文件中值的逾期记录数的比,定义如下:
Figure BDA0002619236400000223
ER(k)的值越小,x=k的记录越不可能属于该值,因此扰动文件越安全,
由于目前许多数据分析应用都与数据的概率分布有关,因此在评估数据库的效用时,采用KL-散度度量数据的效用,
KL-散度是用来比较两个概率分布的接近程度,用来分析原始数据与扰动后数据在同一个属性上分布的距离,代表原始数据被扰动后其分布信息的减少程度,计算公式如下:
Figure BDA0002619236400000224
S64:局部差分隐私的不变随后随机
首先考虑属性是二值属性的情况,二值属性是指仅有两个值的属性,如值是或否的属性,分别用u和v表示属性的两个值,用pu、pv表示对应扰动的概率,其中pt=1-pu对二值属性的转移矩阵一般构造为以下形式:
Figure BDA0002619236400000231
P是马尔科夫矩阵,puv=P(u|v)表示原始值为v扰动为u的概率,在进行扰动时为保证满足ε-局部化差分隐私,需要对P进行选择,据定义,隐私预算ε为:
ε=ln(pu/pv)
根据需要满足的隐私预算保护,构造出转移概率矩阵P,
下面使用二阶后随机相应方式实现不变随机响应,二阶段的PRAM主要思想是:假设原始数据中属性ξ进行扰动,扰动后的对应的数据即为X,
Figure BDA0002619236400000232
根据对扰动后文件的统计分析,可以用数据集X与矩阵P,估计原始数据集的概率分布,用
Figure BDA0002619236400000233
表示ξ的原始为k的概率:
Figure BDA0002619236400000234
此时我们得到了一个新的转移矩阵
Figure BDA0002619236400000235
再将次转移概率矩阵应用于第一次扰动后的数据上:
Figure BDA0002619236400000236
用X*来表示这两次扰动后的文件中ξ的值,那么可以看出x*与原始数据中ξ的概率分布是相同的,这样就相当于使用了一个符合不变PRAM的转移概率矩阵对原始文件进行扰动,
上面考虑的条件是二值属性,若变量中含有k(k>2)个候选值的情况,也可以进行随机响应,对于任意输入R,输出R*,且R,R*都属于属性的域,随机扰动概率如下定义:
Figure BDA0002619236400000237
即是按照eε/k-1+eε的概率相应输出真实值,以1/k-1+eε的概率响应输出剩下的k-1个结果的任意一种,使其满足ε-局部差分隐私。
本发明的工作原理及使用流程:一种用于局部差异隐私下的边际释放的一致自适应边际,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。
2.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
对于查询函数f,若算法A有
Figure FDA0002619236390000021
则算法A满足ε-差分隐私,其中,Δf表示查询函数的敏感性,指的是查询函数f作用于邻近数据集时产生的最大距离差,添加拉普拉斯噪声引起的误差
Figure FDA0002619236390000022
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:
Figure FDA0002619236390000023
其中,
Figure FDA0002619236390000024
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
首先将数据记录的数值属性部分的每一维进行标准化处理,即X第q维值为
Figure FDA0002619236390000031
其中
Figure FDA0002619236390000032
为该维数据记录的最大值,
Figure FDA0002619236390000033
为该维数据记录的最小值,则该数值部分距离为:
Figure FDA0002619236390000034
S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),
Figure FDA0002619236390000035
是记录ti的数值属性部分,
Figure FDA0002619236390000036
是记录ti的分类属性部分,即:
Figure FDA0002619236390000037
设to是数值属性
Figure FDA0002619236390000038
的均值,tc是属性
Figure FDA0002619236390000039
的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用所述的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低
Figure FDA0002619236390000041
的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则
Figure FDA0002619236390000051
式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
其中,
Figure FDA0002619236390000052
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
距离计算采用
Figure FDA0002619236390000061
的计算方法,则ICMD满足非敏感类算法定义,可对其结果执行差分隐私保护,对于查询函数fi,有
Figure FDA0002619236390000062
由此可知,原始数据集经过聚类分组,实现了记录隐藏和查询敏感性由单条数据向组数据的分化;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε
返回数据集Dε
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
对于聚集尺寸为k的数据集D,单个查询敏感度小于Δfi(D)/k,并且有n/k个相互独立的查询,因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度,则需有
Figure FDA0002619236390000071
Figure FDA0002619236390000072
由上可知,虽然经聚类算法处理将造成信息丢失,但该部分损失可由敏感度降低带来的增益进行弥补。
3.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S2中,选择边际集的具体步骤如下:
S21:噪声误差错误分析
为了理解噪声误差,分析估计边际的总方差以及它们如何受到m和l的选择的影响,对于每个l边表,有
Figure FDA0002619236390000073
个用户报告它,根据公式
Figure FDA0002619236390000074
每个像元的方差为与用于估算的组规模成正比,更具体地说,有:
Figure FDA0002619236390000075
式中,L是一个边缘中的像元数,具有二进制属性的边缘具有L=2l个像元,当每个属性具有不同数量的可能值时,l是一个边缘中的期望像元数,
为了从这样的1向边沿构造一个l边际,l边际的每个像元都是来自较大边际的一些像元的总和,通过方差的线性关系,任何l向边际的方差为Var1=Varc·L,
从上面可以看出,增加m会增加线性因子,但是,增加m也会导致l向边界的包含次数增加,当l次边际包含t次时,我们可以获得1次边际的t个估计,其中每个大小边际都包含一个,对这些t估计值求平均可将方差减小t倍,更具体地,每个大小-边际包括属性,因此,可以预料的是,每个属性的信息将由
Figure FDA0002619236390000081
l边际贡献,因此,这些估计的平均值是:
Figure FDA0002619236390000082
此外的主要观察结果是噪声误差的大小,不取决于m,取决于l和ε,其中ε影响第一项,这是FO协议的方差,参数l同时影响属于
Figure FDA0002619236390000083
和FO协议的方差,
当根据估计k个属性的边际,该估计受k额属性的误差影响,因此,当针对特定的k值进行优化时,将NE(n,d,ε,l)用作噪声误差;
S22:中间错误分析
当k向边界违背任何选定的边界覆盖时,就会发生重建错误,重建错误的大小取决于属性在多大程度上相关,如果所有属性都是相互独立的,则不存在重构错误,当属性相互依赖时,总体趋势是,较大的m和较大的l将覆盖更多的属性组合,从而减少重构误差,重建误差的减小效果随着m的增加而减小,例如,如果所有k向边缘都已被完全覆盖,则“重建错误”已经为0,无法进一步减小,即使不是所有的k向边际都被完全覆盖,将m增加到某个合理的大数以上指挥导致收益递减,由于重建错误与数据集有关,因此没有估算公式;
S23:采样错误分析
当一组用户中的边缘人口与整个人口中的边缘人口偏离时,就会发生抽样错误,参数l对采样误差没有影响,但是,减小m会使每个组的大小
Figure FDA0002619236390000091
变小,从而增加采样错误,从一组用户计算一个s=n/m边距时,边缘的每个像元都可以看做是综合s的独立伯努利随机变量的证书除以s,换句话说,每个单元都是一个二项式随机变量除以s,从而,每个像元都有方差
Figure FDA0002619236390000092
其中,MA(v)是在部分人口中具有v值的用户所占的比例,因此,l边际A的抽样误差为:
Figure FDA0002619236390000093
由于
Figure FDA0002619236390000094
Figure FDA0002619236390000095
因此,采样误差仅受限制:
Figure FDA0002619236390000096
S24:选择m和l
m和l都会影响重建错误,另外,m影响采样误差,而l影响噪声误差,直观地,要选择m和l来最小化三种误差的最大值,因为最大值将占主导地位,整体错误,但是,没有公式来估计充建错误,该公式取决于数据集。
4.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤2中,FO协议的具体步骤如下:
FO协议可以估计LDP下任何值x∈D的频率,而LDP是其他LDP任务的基础,它由一对算法制定:每个用户使用ψ扰动输入值,并且聚合器使用ψ,
S25:广义随机响应
该FO协议概括了随机响应技术,在这里,每个具有私有值v∈D的用户都以概率p发送真实值v,并且以概率1-p发送一个随机选择的v′∈Ds.t.v′≠v,
更正式地说,摄动函数定义为:
Figure FDA0002619236390000101
因为
Figure FDA0002619236390000102
因此满足ε-LDP,估计频率v∈D,一个计算v被报告的次数,并将该技术表示为C(v),然后计算:
Figure FDA0002619236390000103
式中,n是用户总数,例如,如果20%的用户具有值v,则所有随机报告中v的预期数量为0.2*n*p+0.8*n*q,如果聚合器准确地看到了此报告数量,则估计值为:
Figure FDA0002619236390000104
表明这是对真实技术的无偏估计,并且该估计的方差为:
Figure FDA0002619236390000105
当域大小|D|增加时,该协议的准确性在域快速下降,这反映在上述公式中给出的方差与|D|成线性关系,
S26:优化的一元编码
优化的一元编码通过将值编码到一元表中,避免了来自|D|的方差,D=[0..d-1],每一个v∈[0..d-1]被编码为长度为d的二进制字符串,使得第v的位为1,所有其他位为0,任意两个不同值的一元编码恰好有两个位不同,OUE将GRR应用于每个位,但发送1和0的方式有所不同,1作为抛硬币被传输,即被扰动为0,概率为0.5,这可以看作是应用ε=0的GRR,这样做能够以允许的最大隐私预算ε,允许传输许多(准确地说是|D|-1)0位,从而使1的数目受扰动0越小越好,这样做使得当|D|很大时时,可以使估计方差最小,
给定所有用户j∈[n]的报告yj,以估计频率v的值,聚合器使用该位计算报告的数量,将相应的v设置为1,即
Figure FDA0002619236390000111
然后将C(x)转换为其无偏估计:
Figure FDA0002619236390000112
已被证明ψOUE(·)满足LDP,并且估计的频率无偏并且具有方差:
Figure FDA0002619236390000113
S27:自适应FO
将以上两个公式进行比较,将因子|D|-2+eε替换为4eε,这表明对于较小的|D|使用GRR更好,但是对于大的|D|值,OUE更好,并且具有不依赖于|D|的方差,
为简单起见,使用FO表示自适应选择的协议,当域小于3eε+2,GRR用作FO,否则,使用OUE,它有方差:
Figure FDA0002619236390000114
5.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S6中,噪声边际之间一致性处理的具体步骤为:
当不同的边际有一些共同的属性时,实际上会多次估计这些属性,如果将这些估计值一起使用,效用将会提高,具体来说,假设一组属性A被s个边际A1,A2,...,As,即A=A1∩...As,可以通过求和来获得TA的s份来自每个TA中的单元,即
Figure FDA0002619236390000121
为了获得更好的TA估计,我们对所有边际Ai使用加权平均值:
Figure FDA0002619236390000122
由于每个
Figure FDA0002619236390000123
都是无偏的,因此他们的平均TA(v)也是无偏的,为了确定权重的分布,直觉是将更多的权重用于更准确地估计,特别地,我们最小化TA(v)的方差,即
Figure FDA0002619236390000124
其中Ci是Ai中贡献给A的像元数,即
Figure FDA0002619236390000125
其中Var0是基本方差将单个单元格模拟,正式地,有以下问题:
minimize ∑iwi 2·Ci
subject to ∑iwi=1
根据KKT条件,我们可以得出解:定义
Figure FDA0002619236390000126
取部分,
对于wi的每一个L的倒数,有
Figure FDA0002619236390000127
的值,可以通过等式∑iwi=1求出μ,结果,
Figure FDA0002619236390000128
Figure FDA0002619236390000129
因此,优化的加权平均值为:
Figure FDA0002619236390000131
一旦获得准确的TA,就可以更新所有TA,对于任何边际Ai,使用v的结果更新所有
Figure FDA0002619236390000132
其中v∈TA并且v′A=vA,特别地,
Figure FDA0002619236390000133
其余的重建操作是从PriView借来的,在那以后,可以得到k向边缘,
S61:不变后随机响应
后随机化方法是把原始文件中某些分类变量的值,根据给定的概率机制转变为其他的值,并且产生一个新的数据文件,换句话说,新产生的扰动后的文件中的记录与原始记录中的个体属性的值有可能是不同的,通过这种方式,引入了数据的不确定性:用户不能确定文件中的信息是原始信息还是由PRAM造成的扰动信息,从而保证了个体隐私安全,PRAM一个重要的方面是这个扰动按照一定的概率机制的,这个概率机制可以用于数据的分析,可以降低扰动对统计结果的影响,
令ξ表示在应用PRAM的原始文件中的敏感性分类变量,并让X表示扰动文件中的相同的分类变量,此外,假定ξ有k个类别,因此对应的X也有k个类别,编号为1,…,k,定义应用PRAM所涉及的转移概率pkl=IP(X=1|ξ=k)即原始分数ξ=k变为X=1的概率,对所有k=1,…,K,PRAM可用由K×K马尔科夫矩阵P来描述,其条目是转移概率pkl,最后,令ξ(r)和X(r)分别表示对应的原始和扰动后的数据文件中第r条记录的变量的值,应用PRAM意味着,对于给定ξ(r)=k,以及概率分布pk1,...pkk,那么便可以求得x(r)上的值,对于原始文件中的每个记录,认为此过程是独立其他记录的,
一般的PRAM对转移概率的马尔科夫矩阵P只是假设P本身是可逆的,并未施加更多的限制,该矩阵的逆可以结合扰动后的文件来矫正列联表,以获得对原始文件产生的相应表的无偏估计,如Kooiman等人研究的在其他几种统计分析的情况下,矩阵P的逆可以用来纠正PRAM对统计分析的影响,
例如:用Tξ表示原始文件中的(复合)变量ξ的列联表,TX表示对应的扰动文件的相应表,
E(TX(1),...,ξ(n))=ptTξ
式中,t表示转置,n是数据文件中的记录数,因此可以通过定义获得无偏估计:
Figure FDA0002619236390000141
这简单的例子可以看出,通过分布的扰动后的数据和矩阵P,可以估计出原始数据的统计结果,但一般PRAM在进行统计分析时要考虑对矩阵P的使用,进行额外的步骤以获得无偏估计,于是,不变的PRAM被Gouweleeuw等人提出讨论,不变的PRAM技术是对马尔科夫矩阵P的选择施加额外的条件,使得用户使用扰动文件进行数据统计分析时,不需要再考虑错误分类带来的影响,就好像它是原始文件一样,简单来说不变的PRAM技术,对矩阵P的选择要满足马尔科夫矩阵以及方程:
ptTξ=Tξ
下面给出一个转移矩阵P增加额外条件的构造,假设对于k=1,...,K,Tξ(k)≥Tξ(K)>0,且0<θ<1,用Tξ(k)表示原始文件中变量值ξ=k的记录数,pkl由下式得到
Figure FDA0002619236390000142
可以验证P={Pkl|是满足马尔可夫矩阵的,此时E(TX(1),...,ξ(n))=ptTξ=Tξ,可以得到无偏估计:
Figure FDA0002619236390000151
这意为对于不变的PRAM,Tξ的估计量可以直接由扰动后的文件获得,不再需要转移概率矩阵P的参与,简化了分析步骤,
S62:局部差分隐私
局部差分隐私保护技术是在传统差分隐私保护技术的基础上进一步改进,区别于传统的差分隐私需要可信的数据收集者局部差分隐私不需要可信的数据收集者,
其具有传统差分隐私保护技术的组合特性,并采用随机响应扰动机制来抵御不可信第三方采集器带来的隐私攻击,局部差分隐私的形式化定义如下;
Pr[M(t)=t*]≤eε×Pr[M(t′)=t″]
S63:隐私保护与效用度量
隐私保护要在保护用户隐私的前提下尽可能地满足数据分析对于数据效用的需求,在PRAM方法中隐私纰漏的风险通过与其比率的概念来衡量,与其比率的定义是:扰动文件中与其记录数,和扰动文件中观察值不等于原始文件中值的逾期记录数的比,定义如下:
Figure FDA0002619236390000152
ER(k)的值越小,x=k的记录越不可能属于该值,因此扰动文件越安全,
由于目前许多数据分析应用都与数据的概率分布有关,因此在评估数据库的效用时,采用KL-散度度量数据的效用,
KL-散度是用来比较两个概率分布的接近程度,用来分析原始数据与扰动后数据在同一个属性上分布的距离,代表原始数据被扰动后其分布信息的减少程度,计算公式如下:
Figure FDA0002619236390000161
S64:局部差分隐私的不变随后随机
首先考虑属性是二值属性的情况,二值属性是指仅有两个值的属性,如值是或否的属性,分别用u和v表示属性的两个值,用pu、pv表示对应扰动的概率,其中pt=1-pu对二值属性的转移矩阵一般构造为以下形式:
Figure FDA0002619236390000162
P是马尔科夫矩阵,puv=P(u|v)表示原始值为v扰动为u的概率,在进行扰动时为保证满足ε-局部化差分隐私,需要对P进行选择,据定义,隐私预算ε为:
ε=ln(pu/pv)
根据需要满足的隐私预算保护,构造出转移概率矩阵P,
下面使用二阶后随机相应方式实现不变随机响应,二阶段的PRAM主要思想是:假设原始数据中属性ξ进行扰动,扰动后的对应的数据即为X,
Figure FDA0002619236390000163
根据对扰动后文件的统计分析,可以用数据集X与矩阵P,估计原始数据集的概率分布,用
Figure FDA0002619236390000164
表示ξ的原始为k的概率:
Figure FDA0002619236390000165
此时我们得到了一个新的转移矩阵
Figure FDA0002619236390000171
再将次转移概率矩阵应用于第一次扰动后的数据上:
Figure FDA0002619236390000172
用X*来表示这两次扰动后的文件中ξ的值,那么可以看出x*与原始数据中ξ的概率分布是相同的,这样就相当于使用了一个符合不变PRAM的转移概率矩阵对原始文件进行扰动,
上面考虑的条件是二值属性,若变量中含有k(k>2)个候选值的情况,也可以进行随机响应,对于任意输入R,输出R*,且R,R*都属于属性的域,随机扰动概率如下定义:
Figure FDA0002619236390000173
即是按照eε/k-1+eε的概率相应输出真实值,以1/k-1+eε的概率响应输出剩下的k-1个结果的任意一种,使其满足ε-局部差分隐私。
CN202010778159.1A 2020-08-05 2020-08-05 一种用于局部差异隐私下的边际释放的一致自适应边际 Pending CN112052475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010778159.1A CN112052475A (zh) 2020-08-05 2020-08-05 一种用于局部差异隐私下的边际释放的一致自适应边际

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010778159.1A CN112052475A (zh) 2020-08-05 2020-08-05 一种用于局部差异隐私下的边际释放的一致自适应边际

Publications (1)

Publication Number Publication Date
CN112052475A true CN112052475A (zh) 2020-12-08

Family

ID=73602579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010778159.1A Pending CN112052475A (zh) 2020-08-05 2020-08-05 一种用于局部差异隐私下的边际释放的一致自适应边际

Country Status (1)

Country Link
CN (1) CN112052475A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560984A (zh) * 2020-12-25 2021-03-26 广西师范大学 自适应K-Nets聚类的差分隐私保护方法
CN113792343A (zh) * 2021-09-17 2021-12-14 国网山东省电力公司电力科学研究院 数据隐私的处理方法、装置、存储介质和电子设备
CN115329898A (zh) * 2022-10-10 2022-11-11 国网浙江省电力有限公司杭州供电公司 基于差分隐私策略的分布式机器学习方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560984A (zh) * 2020-12-25 2021-03-26 广西师范大学 自适应K-Nets聚类的差分隐私保护方法
CN112560984B (zh) * 2020-12-25 2022-04-05 广西师范大学 自适应K-Nets聚类的差分隐私保护方法
CN113792343A (zh) * 2021-09-17 2021-12-14 国网山东省电力公司电力科学研究院 数据隐私的处理方法、装置、存储介质和电子设备
CN115329898A (zh) * 2022-10-10 2022-11-11 国网浙江省电力有限公司杭州供电公司 基于差分隐私策略的分布式机器学习方法及系统

Similar Documents

Publication Publication Date Title
He et al. Blowfish privacy: Tuning privacy-utility trade-offs using policies
Yang et al. Local differential privacy and its applications: A comprehensive survey
CN112052475A (zh) 一种用于局部差异隐私下的边际释放的一致自适应边际
Zhu et al. Differential privacy and applications
Hay et al. Boosting the accuracy of differentially-private histograms through consistency
Cormode et al. Differentially private summaries for sparse data
US20240005030A1 (en) Differentially Private Query Budget Refunding
Duncan et al. Obtaining information while preserving privacy: A markov perturbation method for tabular data
Bebensee Local differential privacy: a tutorial
Jiang et al. Context-aware data aggregation with localized information privacy
US11188547B2 (en) Differentially private budget tracking using Renyi divergence
Yang et al. Answering multi-dimensional range queries under local differential privacy
Sun et al. Truth inference on sparse crowdsourcing data with local differential privacy
Duan et al. Utility analysis and enhancement of LDP mechanisms in high-dimensional space
Sun et al. Conditional analysis for key-value data with local differential privacy
Yuan et al. Privacy‐preserving mechanism for mixed data clustering with local differential privacy
Wang et al. Locally differentially private data collection and analysis
Kamalaruban et al. Not all attributes are created equal: dx-private mechanisms for linear queries
Kikuchi Castell: Scalable Joint Probability Estimation of Multi-dimensional Data Randomized with Local Differential Privacy
Zhang et al. Differentially private high-dimensional data publication via Markov network
Fu et al. GC-NLDP: A graph clustering algorithm with local differential privacy
Haney et al. Design of policy-aware differentially private algorithms
Ye et al. Multiple privacy regimes mechanism for local differential privacy
Yang et al. A differential privacy framework for collaborative filtering
Chen et al. Incorporating prior knowledge in local differentially private data collection for frequency estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201208

WD01 Invention patent application deemed withdrawn after publication