CN112765664B - 一种具有差分隐私的安全多方k-means聚类方法 - Google Patents
一种具有差分隐私的安全多方k-means聚类方法 Download PDFInfo
- Publication number
- CN112765664B CN112765664B CN202110101184.0A CN202110101184A CN112765664B CN 112765664 B CN112765664 B CN 112765664B CN 202110101184 A CN202110101184 A CN 202110101184A CN 112765664 B CN112765664 B CN 112765664B
- Authority
- CN
- China
- Prior art keywords
- data
- participants
- clustering
- privacy
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
Description
技术领域
本发明涉及计算机技术领域,具体为一种具有差分隐私的安全多方k-means聚类方法。
背景技术
k-means聚类是一种聚类分析算法,它通过多次迭代得到最优的聚类中心,并广泛应用于数据挖掘、机器学习、信息检索等领域。而隐私保护k-means聚类的研究无论是在使用安全多方计算还是使用差分隐私技术的情况下,都有了一定的发展。但是现存的隐私保护k-means聚类方案不能有效同时保护输入隐私、迭代过程和输出结果的隐私,进而造成个人隐私数据泄露,同时在效率方面有待进一步提高。针对问题,本发明提出了一种具有差分隐私的安全多方k-means聚类方法。
Blum等人首先介绍了差分隐私k-means聚类,并在Lloyd算法的每次迭代中添加噪声。Kobbi等人提出了一个抽样和汇总框架。通过优化平滑灵敏度,可以改善输出干扰的适用性。差分隐私k-means聚类使用这种框架,并在原始数据库中重复执行该算法以获得质量更好的聚类中心。Gupta等人设计了一个多项式时间的差分隐私k-means算法。算法累加误差的下限是McSherry和Talwar结合了指数机制与标准离散技术结合,方案的运行时间在k和d上都是指数级别的,其中k是簇数,d是数据维度。Huang和Roth研究了一种用于回答任意距离查询的高效计算协议。该算法无法直接对未处理的原始数据执行k-means聚类。Feldman等人讨论了一个差分隐私核心集,它可以执行任意查询而不会泄露隐私,k-means聚类可以在核心集上执行而不是在原始数据集执行。此外,Feldman等人使用1-聚类算法构建核心集并且设计了一个隐私k-means算法,优化误差d为亚线性。Nissim和Stemmer等人进一步优化了乘法误差和加法误差,并将其应用于差分隐私中心模型和局部模型。其中乘法误差为O(k),加法误差为O(d0.51k1.51ε-1.01)。Dong等人提出了一种新的非交互式k-means聚类算法,该算法获取原始数据集的摘要,并对摘要数据执行k-means聚类。现存的差分隐私k-means聚类隐私保护方案可以保护k-means聚类的输出隐私,但是在多用户协作方案中,各个参与方都要为共享数据添加噪声,当参与者足够多时聚类结果的准确性低。
基于安全多方计算的隐私保护k-means聚类研究现状如下:Vaidya和Clifton首先为垂直分区数据设计了k-means算法的隐私保护方案。数据根据属性分发给每个参与者。每个参与者只学习自己的属性数据,但协议要求存在三个不合谋的参与者,这在实际应用中很难实现。易等人设计了隐私k-means聚类,没有揭示中间参数。Jha等人讨论了两个用于k-means聚类的隐私保护协议,这两个协议将算法每一步的聚类均值泄露给参与者。该方法仅适用于水平分区数据。Jagannathan等人首先研究了k-means聚类算法对任意分割数据的隐私保护,通过双方合作将所有中间参数划分为随机的分区。Bunn和Ostrovsky设计了一个基于同态加密的两方k-means聚类保护方案。在计算最优聚类的过程中,没有公开中间参数和聚类分配。但是当扩展到多方k-means聚类时,协议无法抵抗合谋攻击。邢等人解决了用户与聚类算法服务商的合谋问题。蒋等人构造了一个两方外包的隐私保护k-means方案。云和用户之间需要多次交互,更新后的集群中心不受保护。现存的安全多方计算k-means聚类隐私保护方案只保证任何中间结果信息不被泄露,但不能保护输出结果的隐私,且具有较高的通信成本。
发明内容
本发明的目的在于提供一种具有差分隐私的安全多方k-means聚类方法,以解决上述背景技术中提出的在初始化聚类中心以及聚类中心更新时使用秘密共享以及混淆电路技术,有效提高了整体方案的计算开销和通信开销,多个用户协作来进行k-means聚类任务,不管参与k-means聚类的用户数量如何,在每次迭代中也只添加一次噪声,并且在协议的执行过程中,敌手无法获得迭代产生的相关隐私信息的问题。
为实现上述目的,本发明提供如下技术方案:一种具有差分隐私的安全多方k-means聚类方法,其特征在于:存在m个参与方U1,U2,…,Um,各个参与方Ui有输入数据集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪声采用的两个差分隐私预算分别为ε1,ε2,首先此方案初始化聚类中心,每个参与者Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k},如果相邻两次聚类中心之间的距离和η大于阈值则继续迭代,参与者Ui计算出数据点px,px∈D与各个聚类中心Cj(1≤j≤k)的欧几里得距离,得到数据点px与聚类中心Cj的距离最小,则把数据点px统计到Oj集合中,统计出Oj集合中的数据点数目Numi,j,以及数据点属性和Sumi,j,为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2,主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为主机S1,S2分别根据差分隐私预算ε1,ε2,产生噪声bz,j,gz,j,对主机S1,S2计算的Aj,Vj,Bj,Wj进行隐私保护,同时主机S1,S2利用混淆电路进行聚类中心更新得到新的聚类中心Cz,j(Cz,j为第z次迭代产生的聚类中心),每个用户通过判断新的聚类中心与上次迭代求出的聚类中心之间的距离η,如果η大于阈值则执行下次迭代,否则返回最终的聚类中心Cz,1,…,Cz,k。
优选的,所述初始化参数设置:m个参与方U1,U2,…,Um,每个参与方Ui有数据集Di,其中每个数据集包含的数据表示为Di=di,1,…,di,l,i={1,…,m},ε1,ε2分别是本方案添加噪声采用的两个差分隐私预算;k是聚类的个数,所有参与者:U1,U2,…,Um执行下列步骤:
a.如果参与方的个数m小于聚类分类个数k,则每个参与方Ui从各自所拥有的数据集Di中选择个数据点作为前个初始聚类中心然后再随机选择个参与方,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为后个初始聚类中心如果参与方的个数m大于或等于聚类个数k,则随机选择k个参与者,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为初始聚类中心;
b.参与方产生与聚类中心对应的随机数{a1,…,ak},并将随机数{a1,…,ak}发送至主机S1,将{c1-a1,…,ck-ak}发送到主机S2;
c.主机S1,S2分别以差分隐私预算分别为ε1,ε2为{a1,…,ak}和{c1-a1,…,ck-ak}生成对应的Laplace噪声{b1,…,bk},{g1,…,gk},主机S1,S2用混淆电路计算C1,i=(ci-ai)+ai+bi+gi,i={1,…,k};
d.每个用户Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k}。
优选的,所述迭代参数设置:m个参与方U1,U2,…,Um;每个参与方Ui拥有数据集Di,其中px表示数据集Di中的数据点,记作px∈Di;ε1,ε2分别是本方案添加噪声采用的两个差分隐私预算;k是聚类个数;O1,O2,…,Ok是k个聚类集合;阈值η是距离参数;迭代参数为z;Sumi,j,Numi,j分别为第i次迭代中聚类Oj集合中数据点属性之和以及数据点数目之和,所有参与者:U1,U2,…,Um执行下列步骤:
B.计算参与者中的所有数据点到各个聚类中心的距离||px-Cz,j||,px∈Di,j={1,…,k},如果||px-Cz,j||≤||px-Cz,v||,px∈Di,1≤v≤k则把数据划分到聚类Oj,统计出聚类Oj集合中的数据点数目Numi,j=|Oj|,以及聚类Oj集合中数据点属性和为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2;
与现有技术相比,本发明的有益效果是:本发明首次将差分隐私和安全多方计算进行有效的结合并应用于k-means聚类的隐私保护,保证了输入数据、中间参数和输出结果的隐私,并且保证了数据的可用性。本发明降低了计算开销和通信开销,即使在数据量较大时,也具有较高的效率,有效地将安全多方计算与差分隐私两种方法结合并首次应用于在k-means聚类隐私保护,不仅实现输入数据、中间参数以及输出数据的同时有效隐私保护,还降低整体方案的计算开销和通信开销,并且协议在数据量较大时运行时间较小,协议具有实用性,适合多个用户协作来完成k-means聚类任务的协议,在隐私保护数据的同时也考虑了数据可用性的问题,不管参与聚类用户数量多少,每次迭代只需添加一次噪声,避免了过多噪声的添加,增强了数据的可用性。
附图说明
图1为本发明多用户协作的隐私k-means聚类协议初始化阶段示意图;
图2为本发明多用户协作的隐私k-means聚类协议迭代阶段示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种具有差分隐私的安全多方k-means聚类方法,使用了秘密共享、混淆电路和差分隐私技术,并考虑隐私预算、隐私模型构造方法以及阈值的设置对协议进行构造,首次提出一种安全多方计算与差分隐私结合的协议,可以在安全多方计算环境下有效抵抗差分攻击,保护输出数据的隐私,在聚类中心更新时使用秘密共享和混淆电路技术,大大降低整体方案的计算开销和通信开销,并且协议在数据量较大时运行时间较小,协议具有实用性,协议保证即使多个用户协作来进行k-means聚类任务,不管参与k-means聚类的用户数量如何,在每次迭代中也只添加一次噪声,保证了数据的可用性。并且在协议的执行过程中,敌手无法获得迭代产生的相关隐私信息,有效的保护了输入数据、迭代过程以及输出数据的隐私,请参阅图1-2,
存在m个参与方U1,U2,…,Um,各个参与方Ui有输入数据集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪声采用的两个差分隐私预算分别为ε1,ε2,首先此方案初始化聚类中心,每个参与者Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k},如果相邻两次聚类中心之间的距离和η大于阈值则继续迭代,参与者Ui计算出数据点px,px∈D与各个聚类中心Cj(1≤j≤k)的欧几里得距离,得到数据点px与聚类中心Cj的距离最小,则把数据点px统计到Oj集合中,统计出Oj集合中的数据点数目Numi,j,以及数据点属性和Sumi,j,为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2,主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为主机S1,S2分别根据差分隐私预算ε1,ε2,产生噪声bz,j,gz,j,对主机S1,S2计算的Aj,Vj,Bj,Wj进行隐私保护,同时主机S1,S2利用混淆电路进行聚类中心更新得到新的聚类中心Cz,j(Cz,j为第z次迭代产生的聚类中心),每个用户通过判断新的聚类中心与上次迭代求出的聚类中心之间的距离η,如果η大于阈值则执行下次迭代,否则返回最终的聚类中心Cz,1,…,Cz,k;
初始化参数设置:参数设置:m个参与方U1,U2,…,Um,每个参与方Ui有数据集Di,其中每个数据集包含的数据表示为Di=di,1,…,di,l,i={1,…,m},ε1,ε2分别是本方案添加噪声采用的两个差分隐私预算,k是聚类的个数,所有参与者:U1,U2,…,Um执行下列步骤:
a.如果参与方的个数m小于聚类分类个数k,则每个参与方Ui从各自所拥有的数据集Di中选择个数据点作为前个初始聚类中心然后再随机选择个参与方,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为后个初始聚类中心如果参与方的个数m大于或等于聚类个数k,则随机选择k个参与者,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为初始聚类中心;
b.参与方产生与聚类中心对应的随机数{a1,…,ak},并将随机数{a1,…,ak}发送至主机S1,将{c1-a1,…,ck-ak}发送到主机S2;
c.主机S1,S2分别以差分隐私预算分别为ε1,ε2为{a1,…,ak}和{c1-a1,…,ck-ak}生成对应的Laplace噪声{b1,…,bk},{g1,…,gk},主机S1,S2用混淆电路计算C1,i=(ci-ai)+ai+bi+gi,i={1,…,k};
d.每个用户Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k};
迭代参数设置:m个参与方U1,U2,…,Um,每个参与方Ui拥有数据集Di,其中px表示数据集Di中的数据点,记作px∈Di,ε1,ε2分别是本方案添加噪声采用的两个差分隐私预算,k是聚类个数,O1,O2,…,Ok是k个聚类集合,阈值η是距离参数,迭代参数为z,Sumi,j,Numi,j分别为第i次迭代中聚类Oj集合中数据点属性之和以及数据点数目之和,所有参与者:U1,U2,…,Um执行下列步骤:
B.计算参与者中的所有数据点到各个聚类中心的距离||px-Cz,j||,px∈Di,j={1,…,k},如果||px-Cz,j||≤||px-Cz,v||,px∈Di,1≤v≤k则把数据划分到聚类Oj,统计出聚类Oj集合中的数据点数目Numi,j=|Oj|,以及聚类Oj集合中数据点属性和为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2;
秘密共享思想是将一个秘密以某种方式拆分,拆分后的字份额由不同参与者掌握,单个参与者不能得到秘密的有效信息,只有达到或多于某一个门限值的参与者共同合作方能重构秘密。秘密共享在数字签名、安全多方计算、属性加密、云安全存储和密钥管理等多个领域有着重要的作用。
秘密共享系统由秘密空间、分发者、参与者、访问结构、秘密分发算法和秘密重构算法等组成。Shamir构造一种经典的门限秘密共享算法:
(1)协议初始化阶段:分发者从GF(q)中选取n个不同的非零元素x1,…,xn,然后将xi分配给参与者Pi,其中q为素数且q>n;
(3)秘密重构阶段:n个参与者中的任意m个可以重构多项式h(x)如下:
其中秘密s=h(0)。
差分隐私技术保证无论个体数据在或不在数据集中,对最终的查询结果都没有显著影响。基于这种思想,ε-差分隐私的严格定义如下:
ε-差分隐私:若随机算法K对任意一对相邻数据集D,D'及任意输出S∈range(K)均满足:
Pr[K(D)∈S]≤exp(ε)×Pr[K(D′)∈S]
则称算法K满足ε-差分隐私。
其中D和D'是属性结构相同仅相差一条数据记录的相邻数据集,并用D=D'表示这种相邻关系。ε称为隐私预算,其大小反映了隐私保护程度的强弱,即ε的值越小,添加的噪声越大,算法在相邻数据集上的输出的概率分布就越相近,提供更高强度的隐私保护,同时算法输出的可用性也会越低。
差分隐私中另一个决定加入噪声量大小的参数是敏感度,其大小依赖于查询函数和数据集的复杂程度。严格定义如下:
全局敏感度:对于任意一个实值查询函数f和相邻数据集D,D',查询函数f的全局敏感度定义为
其中,||f(D)-f(D')||1为查询输出f(D)和f(D')之间的1-范数距离。
Laplace机制和指数机制是中心化差分隐私保护实现机制,已经得到了广泛的应用。以下是两种机制的定义:
1)Laplace机制:对于给定的数据集D和实值查询函数f,令Δf为f在数据集D上的全局敏感度,则随机算法K:K(D)=f(D)+Y满足ε-差分隐私,其中Y~Lap(Δf/ε)是加入的随机噪声量,服从尺度参数值为b=Δf/ε的Laplace分布。
在上述定义中,Laplace机制的概率密度函数为
2)指数机制:对于给定的数据集D,令q是评估数据集D上所有输出方案的效用函数,如果算法K满足输出为r的概率与exp(εq(D,r)/2Δq)成线性关系,则算法K满足ε-差分隐私,其中Δq为效用函数q的敏感度
Laplace机制要求查询函数f的输出必须是实数,这在一定程度上限制了其应用。而指数机制,采用满足特定分布的随机抽样来代替添加噪声来实现差分隐私,使得指数机制具有更加广泛的应用范围。
差分隐私的组合原理
2)并行组合原理:算法Li分别满足εi-差分隐私1≤i≤m,当对m个不相交的数据集{D1,…,Dm}执行算法,组合算法L(L1(D),…,Lm(D))满足maxεi-差分隐私。
混淆电路是目前最常见的用于两方安全计算的通用技术。姚期智首次提出混淆电路的概念,用于解决半诚实两方安全计算问题,随后Lindell和Pinkas给出了姚氏混淆电路的安全证明。
姚氏混淆电路假设存在参与方Alice和Bob以及多项式时间函数f,双方使用混淆电路来实现对函数f的安全计算。Alice作为混淆电路的生成者,她生成关于函数f的混淆电路,并将其发送给Bob。对于电路中的每根线,都为其选择两个随机值作为混淆值,其中一个值代表布尔电路中的0,另一个值则表示1。Bob作为混淆电路的计算者,可以通过接收到的混淆值对函数f进行计算,并得出结果。下面以AND门为例,给出姚氏混淆电路的简单描述。输入:Alice的输入为x∈{0,1},Bob的输入为y∈{0,1}。
参数设置:Alice、Bob的输入线分别为w1、w2,双方计算的函数为f(x,y)=x∧y,且函数f被看作是一个布尔电路C,函数输出对应的输出线为w3。
输出:Bob输出f(x,y)。
协议:
(1)混淆电路生成:Alice为输入线w1,w2随机选择四个混淆输入 其中对应x=0,对应x=1,对应y=0,对应y=1。同理,为输出线w3随机选择混淆输出值然后,Alice将输入线的标签作为密钥对输出线标签进行加密得到混淆表,AND门混淆表的生成如表1所示,
表1
虽然在上文中已经参考实施例对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。
Claims (1)
1.一种具有差分隐私的安全多方k-means聚类方法,其特征在于:存在m个参与方U1,U2,…,Um,各个参与方Ui有输入数据集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪声采用的两个差分隐私预算分别为ε1,ε2,首先初始化聚类中心,每个参与者Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k},如果相邻两次聚类中心之间的距离和η大于阈值则继续迭代,参与者Ui计算出数据点px,px∈D与各个聚类中心Cj(1≤j≤k)的欧几里得距离,得到数据点px与聚类中心Cj的距离最小,则把数据点px统计到Oj集合中,统计出Oj集合中的数据点数目Numi,j,以及数据点属性和Sumi,j,为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2,主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为主机S1,S2分别根据差分隐私预算ε1,ε2,产生噪声bz,j,gz,j,对主机S1,S2计算的Aj,Vj,Bj,Wj进行隐私保护,同时主机S1,S2利用混淆电路进行聚类中心更新得到新的聚类中心Cz,j(Cz,j为第z次迭代产生的聚类中心),每个用户通过判断新的聚类中心与上次迭代求出的聚类中心之间的距离η,如果η大于阈值则执行下次迭代,否则返回最终的聚类中心Cz,1,…,Cz,k;
在初始化阶段,参数设置:m个参与方U1,U2,…,Um,每个参与方Ui有数据集Di,其中每个数据集包含的数据表示为Di=di,1,…,di,l,i={1,…,m},ε1,ε2分别是添加噪声采用的两个差分隐私预算,k是聚类的个数,所有参与者:U1,U2,…,Um执行下列步骤:
a.如果参与方的个数m小于聚类分类个数k,则每个参与方Ui从各自所拥有的数据集Di中选择个数据点作为前个初始聚类中心然后再随机选择个参与方,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为后个初始聚类中心如果参与方的个数m大于或等于聚类个数k,则随机选择k个参与者,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为初始聚类中心;
b.参与方产生与聚类中心对应的随机数{a1,…,ak},并将随机数{a1,…,ak}发送至主机S1,将{c1-a1,…,ck-ak}发送到主机S2;
c.主机S1,S2分别以差分隐私预算分别为ε1,ε2为{a1,…,ak}和{c1-a1,…,ck-ak}生成对应的Laplace噪声{b1,…,bk},{g1,…,gk},主机S1,S2用混淆电路计算C1,i=(ci-ai)+ai+bi+gi,i={1,…,k};
d.每个用户Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k};
在迭代阶段,参数设置:m个参与方U1,U2,…,Um,每个参与方Ui拥有数据集Di,其中px表示数据集Di中的数据点,记作px∈Di,ε1,ε2分别是添加噪声采用的两个差分隐私预算,k是聚类个数,O1,O2,…,Ok是k个聚类集合,阈值η是距离参数,迭代参数为z,Sumi,j,Numi,j分别为第i次迭代中聚类Oj集合中数据点属性之和以及数据点数目之和,所有参与者:U1,U2,…,Um执行下列步骤:
B.计算参与者中的所有数据点到各个聚类中心的距离||px-Cz,j||,px∈Di,j={1,…,k},如果||px-Cz,j||≤||px-Cz,v||,px∈Di,1≤v≤k则把数据划分到聚类Oj,统计出聚类Oj集合中的数据点数目Numi,j=|Oj|,以及聚类Oj集合中数据点属性和为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101184.0A CN112765664B (zh) | 2021-01-26 | 2021-01-26 | 一种具有差分隐私的安全多方k-means聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101184.0A CN112765664B (zh) | 2021-01-26 | 2021-01-26 | 一种具有差分隐私的安全多方k-means聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765664A CN112765664A (zh) | 2021-05-07 |
CN112765664B true CN112765664B (zh) | 2022-12-27 |
Family
ID=75707385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110101184.0A Active CN112765664B (zh) | 2021-01-26 | 2021-01-26 | 一种具有差分隐私的安全多方k-means聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765664B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434907B (zh) * | 2021-07-09 | 2022-09-23 | 四川大学 | 一种面向私有数据集的安全高效分位数聚合方法及装置 |
CN113706332B (zh) * | 2021-07-30 | 2024-03-29 | 西安交通大学 | 基于个体差分隐私的电力交易报价隐私保护方法及系统 |
CN113949505A (zh) * | 2021-10-15 | 2022-01-18 | 支付宝(杭州)信息技术有限公司 | 一种隐私保护的多方安全计算方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018174873A1 (en) * | 2017-03-22 | 2018-09-27 | Visa International Service Association | Privacy-preserving machine learning |
CN109858269A (zh) * | 2019-02-20 | 2019-06-07 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10536437B2 (en) * | 2017-01-31 | 2020-01-14 | Hewlett Packard Enterprise Development Lp | Performing privacy-preserving multi-party analytics on vertically partitioned local data |
CN107145792B (zh) * | 2017-04-07 | 2020-09-15 | 哈尔滨工业大学深圳研究生院 | 基于密文数据的多用户隐私保护数据聚类方法及系统 |
CN110610098B (zh) * | 2018-06-14 | 2023-05-30 | 中兴通讯股份有限公司 | 数据集生成方法及装置 |
CN110609831B (zh) * | 2019-08-27 | 2020-07-03 | 浙江工商大学 | 基于隐私保护和安全多方计算的数据链接方法 |
-
2021
- 2021-01-26 CN CN202110101184.0A patent/CN112765664B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018174873A1 (en) * | 2017-03-22 | 2018-09-27 | Visa International Service Association | Privacy-preserving machine learning |
CN109858269A (zh) * | 2019-02-20 | 2019-06-07 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
Non-Patent Citations (1)
Title |
---|
ESCAPED:Efficient Secure and Private Dot Product Framework for Kernel-based Machine Learning Algorithms with Applications in Healthcare;Ali Burak Unal;《https://arxiv.org/abs/2012.02688》;20201204;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112765664A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765664B (zh) | 一种具有差分隐私的安全多方k-means聚类方法 | |
Vaidya et al. | Privacy-preserving SVM classification | |
Yi et al. | Privacy-preserving association rule mining in cloud computing | |
Sherstov | The pattern matrix method | |
Zhu et al. | Distributed additive encryption and quantization for privacy preserving federated deep learning | |
Yi et al. | Equally contributory privacy-preserving k-means clustering over vertically partitioned data | |
Yu et al. | Multi-party k-means clustering with privacy consideration | |
Zhang et al. | Practical multi-party private collaborative k-means clustering | |
Yi et al. | Privacy-preserving naive Bayes classification on distributed data via semi-trusted mixers | |
CN114730389A (zh) | 双重服务器隐私保护聚类 | |
Blanton | Achieving full security in privacy-preserving data mining | |
Su et al. | Differentially private multi-party high-dimensional data publishing | |
Patel et al. | Privacy preserving distributed k-means clustering in malicious model using zero knowledge proof | |
Bultel et al. | Secure matrix multiplication with MapReduce | |
Fan et al. | Ppca: Privacy-preserving principal component analysis using secure multiparty computation (mpc) | |
Patel | Secure multiparty computation using secret sharing | |
Kjamilji et al. | Secure matrix operations for machine learning classifications over encrypted data in post quantum industrial IoT | |
Yang et al. | Improved privacy-preserving Bayesian network parameter learning on vertically partitioned data | |
Akhter et al. | Privacy-preserving two-party k-means clustering in malicious model | |
Su et al. | Privacy-preserving two-party k-means clustering via secure approximation | |
Gitanjali et al. | A pristine clean cabalistic foruity strategize based approach for incremental data stream privacy preserving data mining | |
CN114358323A (zh) | 联邦学习环境中基于第三方高效皮尔森系数计算方法 | |
Kjamilji | Blockchain assisted secure feature selection, training and classifications in cloud and distributed edge IoT environments | |
CN112118257A (zh) | 一种安全增强的基于公钥加密的关键词搜索方法 | |
Shuguo et al. | Multi-party privacy-preserving decision trees for arbitrarily partitioned data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |