CN112052475A

CN112052475A - 一种用于局部差异隐私下的边际释放的一致自适应边际

Info

Publication number: CN112052475A
Application number: CN202010778159.1A
Authority: CN
Inventors: 王之涵
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-12-08

Abstract

本发明公开了一种用于局部差异隐私下的边际释放的一致自适应边际，属于局部差异隐私技术领域，包括以下步骤：S1：聚合器将总体随机分为大小相同的m个组；S2：选择一组m个边际集和要使用的FO协议；S3：聚合器将每个用户分配给边际之一，并通知用户应报告哪个边际；S4：每个用户将其私人价值v投影到他要报告的边际上，并通过FO报告v的预测值；S5：服务器在接收到用户的报告后，使用FO的聚合算法来获取嘈杂的边缘表；S6：给定这些嘈杂的边际/视图，可以直接计算一些三向边际；S7：生成k向边距；本发明对于局部差分隐私下的边际释放问题，引入了CALM，当存在非二进制属性时，CALM也适用。

Description

一种用于局部差异隐私下的边际释放的一致自适应边际

技术领域

本发明属于局部差异隐私技术领域，具体涉及一种用于局部差异隐私下的边际释放的一致自适应边际。

背景技术

现有用于局部差异隐私下的边际释放方法在高维环境中表现不佳，更糟糕的是，某些方法会产生非常昂贵的计算开销。

发明内容

为解决上述背景技术中提出的问题。本发明提供了一种用于局部差异隐私下的边际释放的一致自适应边际，具有提高有效性和效率的特点。

为实现上述目的，本发明提供如下技术方案：一种用于局部差异隐私下的边际释放的一致自适应边际，包括以下步骤：

S1：聚合器将总体随机分为大小相同的m个组；

S2：选择一组m个边际集和要使用的FO协议；

S3：聚合器将每个用户分配给边际之一，并通知用户应报告哪个边际；

S4：每个用户将其私人价值v投影到他要报告的边际上，并通过FO报告v的预测值；

S5：服务器在接收到用户的报告后，使用FO的聚合算法来获取嘈杂的边缘表；

S6：给定这些嘈杂的边际/视图，可以直接计算一些三向边际；

S7：生成k向边距。

本发明中进一步的，所述步骤S1中，分组的具体步骤为：

S11:对混合属性数据表可行的差分隐私保护方法

为加强隐私保护和提高数据可用性，提出一种可对混合属性数据表执行差分隐私的数据保护方法，该方法首先采用ICMD聚类算法对数据进行聚类匿名，然后在此基础上进行ε-差分隐私保护，ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心，并引入全序函数以满足执行差分隐私的要求，通过聚类，实现了将查询敏感度由单条数据向组数据的分化，降低了信息损失和信息纰漏的风险，

对于查询函数f，若算法A有

则算法A满足ε-差分隐私，其中，Δf表示查询函数的敏感性，指的是查询函数f作用于邻近数据集时产生的最大距离差，添加拉普拉斯噪声引起的误差

S12:混合型数据表中距离和质心计算

现有数据大多数为混合型数据表，即表中的数据属性既有数值型又有分类型，针对不同属性的数据有不同的距离计算和质心求解方法，采用单一的方法往往会造成信息丢失、质心偏差等问题，因而提出一种针对混合型数据表的距离计算和质心求解方法，

设混合型数据集D以及X,Y为数据集D中的记录，每一个记录具有p维分类属性和q维数值属性，计算数据记录X,Y的距离d(X,Y)_c，首先分别计算其分类属性距离d(X,Y)_n，定义如下：

S121:分类距离

对于数据表中的任意记录X,Y，假设数据表含有p维分类属性，则记录X,Y的分类属性部分的距离定义为：

其中，

由式中可知，每维分类属性取值[0,1]，对于指数型，如果采用海明距离作为每维数据的距离，会导致分类属性部分的距离被数值属性部分的距离湮灭，因而采用如下定义计算数值属性距离；

S122:数值距离

首先将数据记录的数值属性部分的每一维进行标准化处理，即X第q维值为

其中

为该维数据记录的最大值，

为该维数据记录的最小值，则该数值部分距离为：

S123:混合距离

通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离，即：D(X,Y)＝d(X,Y)_c+d(X,Y)_n；

S124:质心

设T是n维数据集D的一个等价类，t_i是等价类T的一条记录，即t_i∈T,(i＝1,2,...,n)，

是记录t_i的数值属性部分，

是记录t_i的分类属性部分，即：

设t^o是数值属性

的均值，t^c是属性

的泛化，则等价类T的质心为C(T)＝{t^o,t^c}。

S13:数据发布方法

针对混合性数据表，阐述其距离和质心的计算方法，提出一种满足k匿名机制的聚类方法，然后对聚类后的数据添加噪声，实现差分隐私保护。聚类操作减小了查询函数的敏感性，进而可以通过添加较小的噪声达到同样的隐私保护效果，提高数据可用性；

S14:对混合数据表可行的聚类方法

在MDAV的基础上，采用所述的混合属性数据表距离和质心计算方法，提出一种对混合属性数据表可行的聚类匿名化方法CMD，根据k-匿名的定义可知，该方法同时满足k-匿名机制，

聚类算法CMD(D，k)：

输入：D为有n≥2k条记录的原始数据集，k为聚类最小尺寸。

输出：满足k-匿名的聚类数据集D′。

步骤：

计算聚类中心，并计算距离该中心最远的纪录r和距r最远的纪录s，作为两个初始类中心；

分别计算距离r和s最近的k条记录，并将其进行归类，加入到数据集D′；

对剩下的m条记录，若m≥2k，则对剩下的数据记录重复步骤1、2；

若m∈[k,2k-1]，则自成一类，加入到数据集D′；

否则，将剩下的m条记录，划分到距离格子最近的类中；

计算各类的类质心，并用其替换各类中的数据记录；

返回替换后的数据表D′；

返回的数据表D′满足k匿名机制，其中的每个组都至少拥有k条记录，对每组记录中的数值属性和分类属性，分别用均值和泛化值进行替换，降低了查询函数的敏感性；

S15:可执行差分隐私保护的聚类改造方法

差分隐私和聚类算法提供了不同的信息纰漏保护，利用聚类算法能降低差分隐私中需要引入的噪声，实现了查询函数的敏感性分化，同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻，两者的结合能够达到更好的隐私保护结果，并保留较好的数据可用性，

设M为聚类函数，f为查询函数，为了有效降低

的敏感度，M应该满足对于数据集D和D′，其中，D为原始数据集，D′为对D修改一条记录后生成的数据集，其聚类中心基本稳定，那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同，:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护；

S16:非敏感聚类

假设数据集D，聚类函数M，D经M的聚类结果{C₁,C₂,...,C_n}，D′为对D只进行修改一条记录得到的数据集，{C₁′,C₂′,...,C_n′}为D′经M的聚类结果，若聚类结果{C₁,C₂,...,C_n}和{C₁′,C₂′,...,C_n′}对应的簇中只有一个数据记录不同，称聚类算法M为非敏感聚类；

为了使聚类方法CMD满足非敏感聚类，执行差分隐私进行数据保护，需要改变其中的距离函数D为一个全序函数，针对混合型数据表，可通过如下方式构造满足全序关系的距离函数，

假设数据表D含有n维属性，其中P维分类属性，q维输指数型，X，Y为数据表D中的任意数据记录，Z为数据表D的聚类中心，通过定义5的距离公式计算距离Z最远的数据记录，记为X_b，并计算距离X_b最远的数据记录X_t，定义数据表D的边界为{X_b,X_t}，则

式中，第i个组，为一个距离矩阵形式，是满足全序关系的距离函数；

其中，

将上述距离函数引入聚类算法CMD，构造满足非敏感聚类的聚类算法ICMD；

非敏感聚类算法ICMS(D,k)

输入：D为有n≥2k条记录的原始数据集，k为聚类最小尺寸，

输出：可执行差分隐私保护的聚类数据集D′，

步骤：

计算原始数据集的边界[X_b,X_t]；

分别计算距离X_b和X_t最近的k条记录，并将其进行归类，加入到数据集D′；

对剩下的m条记录，若m≥2k，则对剩下的数据记录重复步骤2；

否则，将剩下的m条记录，划归到距离格子最近的类中；

计算各类的类质心，并用其替换各类中的数据记录；

返回替换后的数据表D′，D′为将D聚类分类之后，对每一个组的值改为这一组的均值；

距离计算采用

的计算方法，则ICMD满足非敏感类算法定义，可对其结果执行差分隐私保护，对于查询函数f_i，有

由此可知，原始数据集经过聚类分组，实现了记录隐藏和查询敏感性由单条数据向组数据的分化；

S17:差分隐私保护数据发布方法

基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击，为了进一步保护，在聚类的基础上对数据记录添加噪声，已达到差分隐私保护的目的，添加拉普拉斯噪声，实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP，

差分隐私保护算法ICMD-DP

输入：D为有n≥2k条记录的原始数据集，ε为隐私保护预算；

输出：满足k-匿名的ε-差分隐私数据集D_ε；

步骤：

对数据集D进行聚类处理ICMD(D，k)，返回数据集D′；

查询函数f_i返回数据集D′第i条记录的属性，函数S_ε()为查询结果添加拉普拉斯噪声，则对于i∈(1,n)，x_i＝S_ε(f_i(D′))，将x_i加入数据集D_ε；

返回数据集D_ε；

每个查询函数的结果满足ε-差分隐私，又每条查询针对的记录不相交，则根据并行性原则可知，最终的数据集D_ε满足ε-差分隐私；

对于聚集尺寸为k的数据集D，单个查询敏感度小于Δf_i(D)/k，并且有n/k个相互独立的查询，因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度，则需有

即

由上可知，虽然经聚类算法处理将造成信息丢失，但该部分损失可由敏感度降低带来的增益进行弥补。

本发明中进一步的，所述步骤S2中，选择边际集的具体步骤如下：

S21:噪声误差错误分析

为了理解噪声误差，分析估计边际的总方差以及它们如何受到m和l的选择的影响，对于每个l边表，有

个用户报告它，根据公式

每个像元的方差为与用于估算的组规模成正比，更具体地说，有：

式中，L是一个边缘中的像元数，具有二进制属性的边缘具有L＝2^l个像元，当每个属性具有不同数量的可能值时，l是一个边缘中的期望像元数，

为了从这样的1向边沿构造一个l边际，l边际的每个像元都是来自较大边际的一些像元的总和，通过方差的线性关系，任何l向边际的方差为Var₁＝Var_c·L，

从上面可以看出，增加m会增加线性因子，但是，增加m也会导致l向边界的包含次数增加，当l次边际包含t次时，我们可以获得1次边际的t个估计，其中每个大小边际都包含一个，对这些t估计值求平均可将方差减小t倍，更具体地，每个大小-边际包括属性，因此，可以预料的是，每个属性的信息将由

边际贡献，因此，这些估计的平均值是：

此外的主要观察结果是噪声误差的大小，不取决于m，取决于l和ε，其中ε影响第一项，这是FO协议的方差，参数l同时影响属于

和FO协议的方差，

当根据估计k个属性的边际，该估计受k额属性的误差影响，因此，当针对特定的k值进行优化时，将NE(n,d,ε,l)用作噪声误差；

S22:中间错误分析

当k向边界违背任何选定的边界覆盖时，就会发生重建错误，重建错误的大小取决于属性在多大程度上相关，如果所有属性都是相互独立的，则不存在重构错误，当属性相互依赖时，总体趋势是，较大的m和较大的l将覆盖更多的属性组合，从而减少重构误差，重建误差的减小效果随着m的增加而减小，例如，如果所有k向边缘都已被完全覆盖，则“重建错误”已经为0，无法进一步减小，即使不是所有的k向边际都被完全覆盖，将m增加到某个合理的大数以上指挥导致收益递减，由于重建错误与数据集有关，因此没有估算公式；

S23:采样错误分析

当一组用户中的边缘人口与整个人口中的边缘人口偏离时，就会发生抽样错误，参数l对采样误差没有影响，但是，减小m会使每个组的大小

变小，从而增加采样错误，从一组用户计算一个s＝n/m边距时，边缘的每个像元都可以看做是综合s的独立伯努利随机变量的证书除以s，换句话说，每个单元都是一个二项式随机变量除以s，从而，每个像元都有方差

其中，M_A(v)是在部分人口中具有v值的用户所占的比例，因此，

边际A的抽样误差为：

由于

有

因此，采样误差仅受限制：

S24:选择m和l

m和l都会影响重建错误，另外，m影响采样误差，而l影响噪声误差，直观地，要选择m和l来最小化三种误差的最大值，因为最大值将占主导地位，整体错误，但是，没有公式来估计充建错误，该公式取决于数据集。

本发明中进一步的，所述步骤2中，FO协议的具体步骤如下：

FO协议可以估计LDP下任何值x∈D的频率，而LDP是其他LDP任务的基础，它由一对算法制定：每个用户使用ψ扰动输入值，并且聚合器使用ψ，

S25：广义随机响应

该FO协议概括了随机响应技术，在这里，每个具有私有值v∈D的用户都以概率p发送真实值v，并且以概率1-p发送一个随机选择的v′∈D s.t. v′≠v，

更正式地说，摄动函数定义为：

因为

因此满足ε-LDP，估计频率v∈D，一个计算v被报告的次数，并将该技术表示为C(v)，然后计算：

式中，n是用户总数，例如，如果20％的用户具有值v，则所有随机报告中v的预期数量为0.2*n*p+0.8*n*q，如果聚合器准确地看到了此报告数量，则估计值为：

表明这是对真实技术的无偏估计，并且该估计的方差为：

当域大小|D|增加时，该协议的准确性在域快速下降，这反映在上述公式中给出的方差与|D|成线性关系，

S26：优化的一元编码

优化的一元编码通过将值编码到一元表中，避免了来自|D|的方差，D＝[0..d-1]，每一个v∈[0..d-1]被编码为长度为d的二进制字符串，使得第v的位为1，所有其他位为0，任意两个不同值的一元编码恰好有两个位不同，OUE将GRR应用于每个位，但发送1和0的方式有所不同，1作为抛硬币被传输，即被扰动为0，概率为0.5，这可以看作是应用ε＝0的GRR，这样做能够以允许的最大隐私预算ε，允许传输许多(准确地说是|D|-1)0位，从而使1的数目受扰动0越小越好，这样做使得当|D|很大时时，可以使估计方差最小，

给定所有用户j∈[n]的报告y^j，以估计频率v的值，聚合器使用该位计算报告的数量，将相应的v设置为1，即

然后将C(x)转换为其无偏估计：

已被证明ψ_OUE(·)满足LDP，并且估计的频率无偏并且具有方差：

S27:自适应FO

将以上两个公式进行比较，将因子|D|-2+e^ε替换为4e^ε，这表明对于较小的|D|使用GRR更好，但是对于大的|D|值，OUE更好，并且具有不依赖于|D|的方差，

为简单起见，使用FO表示自适应选择的协议，当域小于3e^ε+2，GRR用作FO，否则，使用OUE，它有方差：

本发明中进一步的，所述步骤S6中，噪声边际之间一致性处理的具体步骤为：

当不同的边际有一些共同的属性时，实际上会多次估计这些属性，如果将这些估计值一起使用，效用将会提高，具体来说，假设一组属性A被s个边际A₁,A₂,...,A_s，即A＝A₁∩...A_s，可以通过求和来获得T_A的s份来自每个T_A中的单元，即

为了获得更好的T_A估计，我们对所有边际A_i使用加权平均值：

由于每个T_Ai都是无偏的，因此他们的平均T_A(v)也是无偏的，为了确定权重的分布，直觉是将更多的权重用于更准确地估计，特别地，我们最小化T_A(v)的方差，即

其中C_i是A_i中贡献给A的像元数，即

其中Var₀是基本方差将单个单元格模拟，正式地，有以下问题：

minimize ∑_iw_i ²·C_i

subject to ∑_iw_i＝1

根据KKT条件，我们可以得出解：定义

取部分，

对于wi的每一个L的倒数，有

的值，可以通过等式∑_iw_i＝1求出μ，结果，

和

因此，优化的加权平均值为：

一旦获得准确的T_A，就可以更新所有T_A，对于任何边际A_i，使用v的结果更新所有

其中v∈T_A并且v′_A＝v_A，特别地，

其余的重建操作是从PriView借来的，在那以后，可以得到k向边缘，

S61:不变后随机响应

后随机化方法是把原始文件中某些分类变量的值，根据给定的概率机制转变为其他的值，并且产生一个新的数据文件，换句话说，新产生的扰动后的文件中的记录与原始记录中的个体属性的值有可能是不同的，通过这种方式，引入了数据的不确定性：用户不能确定文件中的信息是原始信息还是由PRAM造成的扰动信息，从而保证了个体隐私安全，PRAM一个重要的方面是这个扰动按照一定的概率机制的，这个概率机制可以用于数据的分析，可以降低扰动对统计结果的影响，

令ξ表示在应用PRAM的原始文件中的敏感性分类变量，并让X表示扰动文件中的相同的分类变量，此外，假定ξ有k个类别，因此对应的X也有k个类别，编号为1，…,k，定义应用PRAM所涉及的转移概率p_kl＝IP(X＝1|ξ＝k)即原始分数ξ＝k变为X＝1的概率，对所有k＝1,…,K，PRAM可用由K×K马尔科夫矩阵P来描述，其条目是转移概率p_kl，最后，令ξ^(r)和X(r)分别表示对应的原始和扰动后的数据文件中第r条记录的变量的值，应用PRAM意味着，对于给定ξ(r)＝k，以及概率分布p_k1,...p_kk，那么便可以求得x(r)上的值，对于原始文件中的每个记录，认为此过程是独立其他记录的，

一般的PRAM对转移概率的马尔科夫矩阵P只是假设P本身是可逆的，并未施加更多的限制，该矩阵的逆可以结合扰动后的文件来矫正列联表，以获得对原始文件产生的相应表的无偏估计，如Kooiman等人研究的在其他几种统计分析的情况下，矩阵P的逆可以用来纠正PRAM对统计分析的影响，

例如：用T_ξ表示原始文件中的(复合)变量ξ的列联表，T_X表示对应的扰动文件的相应表，

E(T_X|ξ⁽¹⁾,...,ξ⁽ⁿ⁾)＝p^tT_ξ

式中，t表示转置，n是数据文件中的记录数，因此可以通过定义获得无偏估计：

这简单的例子可以看出，通过分布的扰动后的数据和矩阵P，可以估计出原始数据的统计结果，但一般PRAM在进行统计分析时要考虑对矩阵P的使用，进行额外的步骤以获得无偏估计，于是，不变的PRAM被Gouweleeuw等人提出讨论，不变的PRAM技术是对马尔科夫矩阵P的选择施加额外的条件，使得用户使用扰动文件进行数据统计分析时，不需要再考虑错误分类带来的影响，就好像它是原始文件一样，简单来说不变的PRAM技术，对矩阵P的选择要满足马尔科夫矩阵以及方程：

p^tT_ξ＝T_ξ

下面给出一个转移矩阵P增加额外条件的构造，假设对于k＝1,...,K，T_ξ(k)≥T_ξ(K)＞0，且0＜θ＜1，用T_ξ(k)表示原始文件中变量值ξ＝k的记录数，p_kl由下式得到

可以验证P＝{P_kl|是满足马尔可夫矩阵的，此时E(T_X|ξ⁽¹⁾,...,ξ⁽ⁿ⁾)＝p^tT_ξ＝T_ξ，可以得到无偏估计：

这意为对于不变的PRAM，T_ξ的估计量可以直接由扰动后的文件获得，不再需要转移概率矩阵P的参与，简化了分析步骤，

S62:局部差分隐私

局部差分隐私保护技术是在传统差分隐私保护技术的基础上进一步改进，区别于传统的差分隐私需要可信的数据收集者局部差分隐私不需要可信的数据收集者，

其具有传统差分隐私保护技术的组合特性，并采用随机响应扰动机制来抵御不可信第三方采集器带来的隐私攻击，局部差分隐私的形式化定义如下；

Pr[M(t)＝t^*]≤e^ε×Pr[M(t′)＝t″]

S63:隐私保护与效用度量

隐私保护要在保护用户隐私的前提下尽可能地满足数据分析对于数据效用的需求，在PRAM方法中隐私纰漏的风险通过与其比率的概念来衡量，与其比率的定义是：扰动文件中与其记录数，和扰动文件中观察值不等于原始文件中值的逾期记录数的比，定义如下：

ER(k)的值越小，x＝k的记录越不可能属于该值，因此扰动文件越安全，

由于目前许多数据分析应用都与数据的概率分布有关，因此在评估数据库的效用时，采用KL-散度度量数据的效用，

KL-散度是用来比较两个概率分布的接近程度，用来分析原始数据与扰动后数据在同一个属性上分布的距离，代表原始数据被扰动后其分布信息的减少程度，计算公式如下：

S64:局部差分隐私的不变随后随机

首先考虑属性是二值属性的情况，二值属性是指仅有两个值的属性，如值是或否的属性,分别用u和v表示属性的两个值，用p_u、p_v表示对应扰动的概率，其中p_t＝1-p_u对二值属性的转移矩阵一般构造为以下形式：

P是马尔科夫矩阵，p_uv＝P(u|v)表示原始值为v扰动为u的概率,在进行扰动时为保证满足ε-局部化差分隐私，需要对P进行选择，据定义，隐私预算ε为：

ε＝ln(pu/pv)

根据需要满足的隐私预算保护，构造出转移概率矩阵P,

下面使用二阶后随机相应方式实现不变随机响应，二阶段的PRAM主要思想是：假设原始数据中属性ξ进行扰动，扰动后的对应的数据即为X,

根据对扰动后文件的统计分析，可以用数据集X与矩阵P，估计原始数据集的概率分布,用

表示ξ的原始为k的概率：

此时我们得到了一个新的转移矩阵

再将次转移概率矩阵应用于第一次扰动后的数据上:

用X^*来表示这两次扰动后的文件中ξ的值，那么可以看出x^*与原始数据中ξ的概率分布是相同的,这样就相当于使用了一个符合不变PRAM的转移概率矩阵对原始文件进行扰动,

上面考虑的条件是二值属性，若变量中含有k(k>2)个候选值的情况，也可以进行随机响应,对于任意输入R，输出R^*，且R，R^*都属于属性的域,随机扰动概率如下定义:

即是按照e^ε/k-1+e^ε的概率相应输出真实值，以1/k-1+e^ε的概率响应输出剩下的k-1个结果的任意一种，使其满足ε-局部差分隐私。

与现有技术相比，本发明的有益效果是：

1、本发明对于局部差分隐私下的边际释放问题，引入了CALM，当存在非二进制属性时，CALM也适用。

2、本发明对来自三个不同来源的错误进行了仔细分析，并开发了一种算法，用于为CALM选择关键算法参数。

3、本发明在数据集上，对所提出方法的性能进行了广泛评估，并证明了该方法的有效性。

附图说明

图1为本发明的结构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供以下技术方案：一种用于局部差异隐私下的边际释放的一致自适应边际，包括以下步骤：

S1：聚合器将总体随机分为大小相同的m个组；

S2：选择一组m个边际集和要使用的FO协议；

S7：生成k向边距。

具体的，步骤S1中，分组的具体步骤为：

S11:对混合属性数据表可行的差分隐私保护方法

对于查询函数f，若算法A有

S12:混合型数据表中距离和质心计算

S121:分类距离

其中，

S122:数值距离

其中

为该维数据记录的最大值，

为该维数据记录的最小值，则该数值部分距离为：

S123:混合距离

S124:质心

是记录t_i的数值属性部分，

是记录t_i的分类属性部分，即：

设t^o是数值属性

的均值，t^c是属性

的泛化，则等价类T的质心为C(T)＝{t^o,t^c}。

S13:数据发布方法

S14:对混合数据表可行的聚类方法

在MDAV的基础上，采用的混合属性数据表距离和质心计算方法，提出一种对混合属性数据表可行的聚类匿名化方法CMD，根据k-匿名的定义可知，该方法同时满足k-匿名机制，

聚类算法CMD(D，k)：

输入：D为有n≥2k条记录的原始数据集，k为聚类最小尺寸。

输出：满足k-匿名的聚类数据集D′。

步骤：

若m∈[k,2k-1]，则自成一类，加入到数据集D′；

否则，将剩下的m条记录，划分到距离格子最近的类中；

计算各类的类质心，并用其替换各类中的数据记录；

返回替换后的数据表D′；

S15:可执行差分隐私保护的聚类改造方法

设M为聚类函数，f为查询函数，为了有效降低foM的敏感度，M应该满足对于数据集D和D′，其中，D为原始数据集，D′为对D修改一条记录后生成的数据集，其聚类中心基本稳定，那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同，:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护；

S16:非敏感聚类

其中，

非敏感聚类算法ICMS(D,k)

输入：D为有n≥2k条记录的原始数据集，k为聚类最小尺寸，

输出：可执行差分隐私保护的聚类数据集D′，

步骤：

计算原始数据集的边界[X_b,X_t]；

否则，将剩下的m条记录，划归到距离格子最近的类中；

计算各类的类质心，并用其替换各类中的数据记录；

距离计算采用

S17:差分隐私保护数据发布方法

差分隐私保护算法ICMD-DP

输入：D为有n≥2k条记录的原始数据集，ε为隐私保护预算；

输出：满足k-匿名的ε-差分隐私数据集D_ε；

步骤：

对数据集D进行聚类处理ICMD(D，k)，返回数据集D′；

返回数据集D_ε；

即

具体的，步骤S2中，选择边际集的具体步骤如下：

S21:噪声误差错误分析

个用户报告它，根据公式

边际贡献，因此，这些估计的平均值是：

和FO协议的方差，

S22:中间错误分析

S23:采样错误分析

边际A的抽样误差为：

由于

有

因此，采样误差仅受限制：

S24:选择m和l

具体的，步骤S2中，FO协议的具体步骤如下：

S25：广义随机响应

该FO协议概括了随机响应技术，在这里，每个具有私有值v∈D的用户都以概率p发送真实值v，并且以概率1-p发送一个随机选择的v′∈D s.t. v′≠v,

更正式地说，摄动函数定义为：

因为

表明这是对真实技术的无偏估计，并且该估计的方差为：

S26：优化的一元编码

然后将C(x)转换为其无偏估计：

S27:自适应FO

具体的，步骤S6中，噪声边际之间一致性处理的具体步骤为：

其中C_i是A_i中贡献给A的像元数，即

minimize ∑_iw_i ²·C_i

subject to ∑_iw_i＝1

根据KKT条件，我们可以得出解：定义

取部分，

对于wi的每一个L的倒数，有

的值，可以通过等式∑_iw_i＝1求出μ，结果，

和

因此，优化的加权平均值为：

其中v∈T_A并且v′_A＝v_A，特别地，

S61:不变后随机响应

E(T_X|ξ⁽¹⁾,...,ξ⁽ⁿ⁾)＝p^tT_ξ

p^tT_ξ＝T_ξ

S62:局部差分隐私

Pr[M(t)＝t^*]≤e^ε×Pr[M(t′)＝t″]

S63:隐私保护与效用度量

S64:局部差分隐私的不变随后随机

ε＝ln(pu/pv)

根据需要满足的隐私预算保护，构造出转移概率矩阵P,

表示ξ的原始为k的概率：

此时我们得到了一个新的转移矩阵

再将次转移概率矩阵应用于第一次扰动后的数据上:

本发明的工作原理及使用流程：一种用于局部差异隐私下的边际释放的一致自适应边际，包括以下步骤：

S1：聚合器将总体随机分为大小相同的m个组；

S2：选择一组m个边际集和要使用的FO协议；

S7：生成k向边距。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种用于局部差异隐私下的边际释放的一致自适应边际，其特征在于，包括以下步骤：

S1：聚合器将总体随机分为大小相同的m个组；

S2：选择一组m个边际集和要使用的FO协议；

S7：生成k向边距。

2.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际，其特征在于：所述步骤S1中，分组的具体步骤为：

S11:对混合属性数据表可行的差分隐私保护方法

对于查询函数f，若算法A有

S12:混合型数据表中距离和质心计算

S121:分类距离

其中，

S122:数值距离

其中

为该维数据记录的最大值，

为该维数据记录的最小值，则该数值部分距离为：

S123:混合距离

S124:质心

是记录t_i的数值属性部分，

是记录t_i的分类属性部分，即：

设t^o是数值属性

的均值，t^c是属性

的泛化，则等价类T的质心为C(T)＝{t^o,t^c}。

S13:数据发布方法

S14:对混合数据表可行的聚类方法

聚类算法CMD(D，k)：

输入：D为有n≥2k条记录的原始数据集，k为聚类最小尺寸。

输出：满足k-匿名的聚类数据集D′。

步骤：

若m∈[k,2k-1]，则自成一类，加入到数据集D′；

否则，将剩下的m条记录，划分到距离格子最近的类中；

计算各类的类质心，并用其替换各类中的数据记录；

返回替换后的数据表D′；

S15:可执行差分隐私保护的聚类改造方法

设M为聚类函数，f为查询函数，为了有效降低

S16:非敏感聚类

其中，

非敏感聚类算法ICMS(D,k)

输入：D为有n≥2k条记录的原始数据集，k为聚类最小尺寸，

输出：可执行差分隐私保护的聚类数据集D′，

步骤：

计算原始数据集的边界[X_b,X_t]；

否则，将剩下的m条记录，划归到距离格子最近的类中；

计算各类的类质心，并用其替换各类中的数据记录；

距离计算采用

S17:差分隐私保护数据发布方法

差分隐私保护算法ICMD-DP

输入：D为有n≥2k条记录的原始数据集，ε为隐私保护预算；

输出：满足k-匿名的ε-差分隐私数据集D_ε；

步骤：

对数据集D进行聚类处理ICMD(D，k)，返回数据集D′；

返回数据集D_ε；

即

3.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际，其特征在于：所述步骤S2中，选择边际集的具体步骤如下：

S21:噪声误差错误分析

个用户报告它，根据公式

l边际贡献，因此，这些估计的平均值是：

和FO协议的方差，

S22:中间错误分析

S23:采样错误分析

其中，M_A(v)是在部分人口中具有v值的用户所占的比例，因此，l边际A的抽样误差为：

由于

有

因此，采样误差仅受限制：

S24:选择m和l

4.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际，其特征在于：所述步骤2中，FO协议的具体步骤如下：

S25：广义随机响应

该FO协议概括了随机响应技术，在这里，每个具有私有值v∈D的用户都以概率p发送真实值v，并且以概率1-p发送一个随机选择的v′∈Ds.t.v′≠v，

更正式地说，摄动函数定义为：

因为

表明这是对真实技术的无偏估计，并且该估计的方差为：

S26：优化的一元编码

然后将C(x)转换为其无偏估计：

S27:自适应FO

5.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际，其特征在于：所述步骤S6中，噪声边际之间一致性处理的具体步骤为：

由于每个

都是无偏的，因此他们的平均T_A(v)也是无偏的，为了确定权重的分布，直觉是将更多的权重用于更准确地估计，特别地，我们最小化T_A(v)的方差，即

其中C_i是A_i中贡献给A的像元数，即

minimize ∑_iw_i ²·C_i

subject to ∑_iw_i＝1

根据KKT条件，我们可以得出解：定义

取部分，

对于wi的每一个L的倒数，有

的值，可以通过等式∑_iw_i＝1求出μ，结果，

和

因此，优化的加权平均值为：

其中v∈T_A并且v′_A＝v_A，特别地，

S61:不变后随机响应

E(T_X|ξ⁽¹⁾,...,ξ⁽ⁿ⁾)＝p^tT_ξ

p^tT_ξ＝T_ξ

S62:局部差分隐私

Pr[M(t)＝t^*]≤e^ε×Pr[M(t′)＝t″]

S63:隐私保护与效用度量

S64:局部差分隐私的不变随后随机

ε＝ln(pu/pv)

根据需要满足的隐私预算保护，构造出转移概率矩阵P,

表示ξ的原始为k的概率：

此时我们得到了一个新的转移矩阵

再将次转移概率矩阵应用于第一次扰动后的数据上: