CN112765664B - 一种具有差分隐私的安全多方k-means聚类方法 - Google Patents

一种具有差分隐私的安全多方k-means聚类方法 Download PDF

Info

Publication number
CN112765664B
CN112765664B CN202110101184.0A CN202110101184A CN112765664B CN 112765664 B CN112765664 B CN 112765664B CN 202110101184 A CN202110101184 A CN 202110101184A CN 112765664 B CN112765664 B CN 112765664B
Authority
CN
China
Prior art keywords
data
participants
clustering
privacy
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110101184.0A
Other languages
English (en)
Other versions
CN112765664A (zh
Inventor
张恩
赵乐
李会敏
姬聪敏
陈宛桢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN202110101184.0A priority Critical patent/CN112765664B/zh
Publication of CN112765664A publication Critical patent/CN112765664A/zh
Application granted granted Critical
Publication of CN112765664B publication Critical patent/CN112765664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明一种具有差分隐私的安全多方k‑means聚类方法公开了计算机技术领域的一种存在m个参与方U1,U2,…,Um,各个参与方Ui有输入数据集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪声采用的两个差分隐私预算分别为ε12,首先此方案初始化聚类中心,每个参与者Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k},如果相邻两次聚类中心之间的距离和η大于阈值
Figure DDA0002915716050000011
则继续迭代,本发明首次将差分隐私和安全多方计算进行有效的结合并应用于k‑means聚类的隐私保护,保证了输入数据、中间参数和输出结果的隐私,并且保证了数据的可用性。

Description

一种具有差分隐私的安全多方k-means聚类方法
技术领域
本发明涉及计算机技术领域,具体为一种具有差分隐私的安全多方k-means聚类方法。
背景技术
k-means聚类是一种聚类分析算法,它通过多次迭代得到最优的聚类中心,并广泛应用于数据挖掘、机器学习、信息检索等领域。而隐私保护k-means聚类的研究无论是在使用安全多方计算还是使用差分隐私技术的情况下,都有了一定的发展。但是现存的隐私保护k-means聚类方案不能有效同时保护输入隐私、迭代过程和输出结果的隐私,进而造成个人隐私数据泄露,同时在效率方面有待进一步提高。针对问题,本发明提出了一种具有差分隐私的安全多方k-means聚类方法。
Blum等人首先介绍了差分隐私k-means聚类,并在Lloyd算法的每次迭代中添加噪声。Kobbi等人提出了一个抽样和汇总框架。通过优化平滑灵敏度,可以改善输出干扰的适用性。差分隐私k-means聚类使用这种框架,并在原始数据库中重复执行该算法以获得质量更好的聚类中心。Gupta等人设计了一个多项式时间的差分隐私k-means算法。算法累加误差的下限是
Figure BDA0002915716030000011
McSherry和Talwar结合了指数机制与标准离散技术结合,方案的运行时间在k和d上都是指数级别的,其中k是簇数,d是数据维度。Huang和Roth研究了一种用于回答任意距离查询的高效计算协议。该算法无法直接对未处理的原始数据执行k-means聚类。Feldman等人讨论了一个差分隐私核心集,它可以执行任意查询而不会泄露隐私,k-means聚类可以在核心集上执行而不是在原始数据集执行。此外,Feldman等人使用1-聚类算法构建核心集并且设计了一个隐私k-means算法,优化误差d为亚线性。Nissim和Stemmer等人进一步优化了乘法误差和加法误差,并将其应用于差分隐私中心模型和局部模型。其中乘法误差为O(k),加法误差为O(d0.51k1.51ε-1.01)。Dong等人提出了一种新的非交互式k-means聚类算法,该算法获取原始数据集的摘要,并对摘要数据执行k-means聚类。现存的差分隐私k-means聚类隐私保护方案可以保护k-means聚类的输出隐私,但是在多用户协作方案中,各个参与方都要为共享数据添加噪声,当参与者足够多时聚类结果的准确性低。
基于安全多方计算的隐私保护k-means聚类研究现状如下:Vaidya和Clifton首先为垂直分区数据设计了k-means算法的隐私保护方案。数据根据属性分发给每个参与者。每个参与者只学习自己的属性数据,但协议要求存在三个不合谋的参与者,这在实际应用中很难实现。易等人设计了隐私k-means聚类,没有揭示中间参数。Jha等人讨论了两个用于k-means聚类的隐私保护协议,这两个协议将算法每一步的聚类均值泄露给参与者。该方法仅适用于水平分区数据。Jagannathan等人首先研究了k-means聚类算法对任意分割数据的隐私保护,通过双方合作将所有中间参数划分为随机的分区。Bunn和Ostrovsky设计了一个基于同态加密的两方k-means聚类保护方案。在计算最优聚类的过程中,没有公开中间参数和聚类分配。但是当扩展到多方k-means聚类时,协议无法抵抗合谋攻击。邢等人解决了用户与聚类算法服务商的合谋问题。蒋等人构造了一个两方外包的隐私保护k-means方案。云和用户之间需要多次交互,更新后的集群中心不受保护。现存的安全多方计算k-means聚类隐私保护方案只保证任何中间结果信息不被泄露,但不能保护输出结果的隐私,且具有较高的通信成本。
发明内容
本发明的目的在于提供一种具有差分隐私的安全多方k-means聚类方法,以解决上述背景技术中提出的在初始化聚类中心以及聚类中心更新时使用秘密共享以及混淆电路技术,有效提高了整体方案的计算开销和通信开销,多个用户协作来进行k-means聚类任务,不管参与k-means聚类的用户数量如何,在每次迭代中也只添加一次噪声,并且在协议的执行过程中,敌手无法获得迭代产生的相关隐私信息的问题。
为实现上述目的,本发明提供如下技术方案:一种具有差分隐私的安全多方k-means聚类方法,其特征在于:存在m个参与方U1,U2,…,Um,各个参与方Ui有输入数据集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪声采用的两个差分隐私预算分别为ε12,首先此方案初始化聚类中心,每个参与者Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k},如果相邻两次聚类中心之间的距离和η大于阈值
Figure BDA0002915716030000031
则继续迭代,参与者Ui计算出数据点px,px∈D与各个聚类中心Cj(1≤j≤k)的欧几里得距离,得到数据点px与聚类中心Cj的距离最小,则把数据点px统计到Oj集合中,统计出Oj集合中的数据点数目Numi,j,以及数据点属性和Sumi,j,为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2,主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为
Figure BDA0002915716030000032
主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为
Figure BDA0002915716030000033
主机S1,S2分别根据差分隐私预算ε12,产生噪声bz,j,gz,j,对主机S1,S2计算的Aj,Vj,Bj,Wj进行隐私保护,同时主机S1,S2利用混淆电路进行聚类中心更新得到新的聚类中心Cz,j(Cz,j为第z次迭代产生的聚类中心),每个用户通过判断新的聚类中心与上次迭代求出的聚类中心之间的距离η,如果η大于阈值
Figure BDA0002915716030000047
则执行下次迭代,否则返回最终的聚类中心Cz,1,…,Cz,k
优选的,所述初始化参数设置:m个参与方U1,U2,…,Um,每个参与方Ui有数据集Di,其中每个数据集包含的数据表示为Di=di,1,…,di,l,i={1,…,m},ε12分别是本方案添加噪声采用的两个差分隐私预算;k是聚类的个数,所有参与者:U1,U2,…,Um执行下列步骤:
a.如果参与方的个数m小于聚类分类个数k,则每个参与方Ui从各自所拥有的数据集Di中选择
Figure BDA0002915716030000041
个数据点作为前
Figure BDA0002915716030000042
个初始聚类中心
Figure BDA0002915716030000043
然后再随机选择
Figure BDA0002915716030000044
个参与方,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为后
Figure BDA0002915716030000045
个初始聚类中心
Figure BDA0002915716030000046
如果参与方的个数m大于或等于聚类个数k,则随机选择k个参与者,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为初始聚类中心;
b.参与方产生与聚类中心对应的随机数{a1,…,ak},并将随机数{a1,…,ak}发送至主机S1,将{c1-a1,…,ck-ak}发送到主机S2
c.主机S1,S2分别以差分隐私预算分别为ε12为{a1,…,ak}和{c1-a1,…,ck-ak}生成对应的Laplace噪声{b1,…,bk},{g1,…,gk},主机S1,S2用混淆电路计算C1,i=(ci-ai)+ai+bi+gi,i={1,…,k};
d.每个用户Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k}。
优选的,所述迭代参数设置:m个参与方U1,U2,…,Um;每个参与方Ui拥有数据集Di,其中px表示数据集Di中的数据点,记作px∈Di;ε12分别是本方案添加噪声采用的两个差分隐私预算;k是聚类个数;O1,O2,…,Ok是k个聚类集合;阈值
Figure BDA0002915716030000051
η是距离参数;迭代参数为z;Sumi,j,Numi,j分别为第i次迭代中聚类Oj集合中数据点属性之和以及数据点数目之和,所有参与者:U1,U2,…,Um执行下列步骤:
A.判断距离参数η与阈值
Figure BDA0002915716030000052
的大小关系,如果
Figure BDA0002915716030000053
则迭代次数z=z+1;
B.计算参与者中的所有数据点到各个聚类中心的距离||px-Cz,j||,px∈Di,j={1,…,k},如果||px-Cz,j||≤||px-Cz,v||,px∈Di,1≤v≤k则把数据划分到聚类Oj,统计出聚类Oj集合中的数据点数目Numi,j=|Oj|,以及聚类Oj集合中数据点属性和
Figure BDA0002915716030000054
为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2
C.主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为
Figure BDA0002915716030000055
主机S1根据差分隐私预算ε1,为Aj,Vj产生噪声
Figure BDA0002915716030000056
D.主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为
Figure BDA0002915716030000057
主机S2分别根据差分隐私预算ε2,为Bj,Wj产生噪声
Figure BDA0002915716030000058
达到对Bj,Wj的隐私保护;
E.主机S1,S2利用混淆电路计算
Figure BDA0002915716030000061
每个用户令
Figure BDA0002915716030000062
进行聚类中心更新,并计算两次迭代之间聚类中心的距离
Figure BDA0002915716030000063
如果
Figure BDA0002915716030000064
则输出最终的聚类中心Cz,1,…,Cz,k,否则返回步骤a。
与现有技术相比,本发明的有益效果是:本发明首次将差分隐私和安全多方计算进行有效的结合并应用于k-means聚类的隐私保护,保证了输入数据、中间参数和输出结果的隐私,并且保证了数据的可用性。本发明降低了计算开销和通信开销,即使在数据量较大时,也具有较高的效率,有效地将安全多方计算与差分隐私两种方法结合并首次应用于在k-means聚类隐私保护,不仅实现输入数据、中间参数以及输出数据的同时有效隐私保护,还降低整体方案的计算开销和通信开销,并且协议在数据量较大时运行时间较小,协议具有实用性,适合多个用户协作来完成k-means聚类任务的协议,在隐私保护数据的同时也考虑了数据可用性的问题,不管参与聚类用户数量多少,每次迭代只需添加一次噪声,避免了过多噪声的添加,增强了数据的可用性。
附图说明
图1为本发明多用户协作的隐私k-means聚类协议初始化阶段示意图;
图2为本发明多用户协作的隐私k-means聚类协议迭代阶段示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种具有差分隐私的安全多方k-means聚类方法,使用了秘密共享、混淆电路和差分隐私技术,并考虑隐私预算、隐私模型构造方法以及阈值
Figure BDA0002915716030000071
的设置对协议进行构造,首次提出一种安全多方计算与差分隐私结合的协议,可以在安全多方计算环境下有效抵抗差分攻击,保护输出数据的隐私,在聚类中心更新时使用秘密共享和混淆电路技术,大大降低整体方案的计算开销和通信开销,并且协议在数据量较大时运行时间较小,协议具有实用性,协议保证即使多个用户协作来进行k-means聚类任务,不管参与k-means聚类的用户数量如何,在每次迭代中也只添加一次噪声,保证了数据的可用性。并且在协议的执行过程中,敌手无法获得迭代产生的相关隐私信息,有效的保护了输入数据、迭代过程以及输出数据的隐私,请参阅图1-2,
存在m个参与方U1,U2,…,Um,各个参与方Ui有输入数据集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪声采用的两个差分隐私预算分别为ε12,首先此方案初始化聚类中心,每个参与者Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k},如果相邻两次聚类中心之间的距离和η大于阈值
Figure BDA0002915716030000072
则继续迭代,参与者Ui计算出数据点px,px∈D与各个聚类中心Cj(1≤j≤k)的欧几里得距离,得到数据点px与聚类中心Cj的距离最小,则把数据点px统计到Oj集合中,统计出Oj集合中的数据点数目Numi,j,以及数据点属性和Sumi,j,为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2,主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为
Figure BDA0002915716030000073
主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为
Figure BDA0002915716030000081
主机S1,S2分别根据差分隐私预算ε12,产生噪声bz,j,gz,j,对主机S1,S2计算的Aj,Vj,Bj,Wj进行隐私保护,同时主机S1,S2利用混淆电路进行聚类中心更新得到新的聚类中心Cz,j(Cz,j为第z次迭代产生的聚类中心),每个用户通过判断新的聚类中心与上次迭代求出的聚类中心之间的距离η,如果η大于阈值
Figure BDA0002915716030000088
则执行下次迭代,否则返回最终的聚类中心Cz,1,…,Cz,k
初始化参数设置:参数设置:m个参与方U1,U2,…,Um,每个参与方Ui有数据集Di,其中每个数据集包含的数据表示为Di=di,1,…,di,l,i={1,…,m},ε12分别是本方案添加噪声采用的两个差分隐私预算,k是聚类的个数,所有参与者:U1,U2,…,Um执行下列步骤:
a.如果参与方的个数m小于聚类分类个数k,则每个参与方Ui从各自所拥有的数据集Di中选择
Figure BDA0002915716030000082
个数据点作为前
Figure BDA0002915716030000083
个初始聚类中心
Figure BDA0002915716030000084
然后再随机选择
Figure BDA0002915716030000085
个参与方,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为后
Figure BDA0002915716030000086
个初始聚类中心
Figure BDA0002915716030000087
如果参与方的个数m大于或等于聚类个数k,则随机选择k个参与者,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为初始聚类中心;
b.参与方产生与聚类中心对应的随机数{a1,…,ak},并将随机数{a1,…,ak}发送至主机S1,将{c1-a1,…,ck-ak}发送到主机S2
c.主机S1,S2分别以差分隐私预算分别为ε12为{a1,…,ak}和{c1-a1,…,ck-ak}生成对应的Laplace噪声{b1,…,bk},{g1,…,gk},主机S1,S2用混淆电路计算C1,i=(ci-ai)+ai+bi+gi,i={1,…,k};
d.每个用户Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k};
迭代参数设置:m个参与方U1,U2,…,Um,每个参与方Ui拥有数据集Di,其中px表示数据集Di中的数据点,记作px∈Di,ε12分别是本方案添加噪声采用的两个差分隐私预算,k是聚类个数,O1,O2,…,Ok是k个聚类集合,阈值
Figure BDA0002915716030000091
η是距离参数,迭代参数为z,Sumi,j,Numi,j分别为第i次迭代中聚类Oj集合中数据点属性之和以及数据点数目之和,所有参与者:U1,U2,…,Um执行下列步骤:
A.判断距离参数η与阈值
Figure BDA0002915716030000092
的大小关系,如果
Figure BDA0002915716030000093
则迭代次数z=z+1;
B.计算参与者中的所有数据点到各个聚类中心的距离||px-Cz,j||,px∈Di,j={1,…,k},如果||px-Cz,j||≤||px-Cz,v||,px∈Di,1≤v≤k则把数据划分到聚类Oj,统计出聚类Oj集合中的数据点数目Numi,j=|Oj|,以及聚类Oj集合中数据点属性和
Figure BDA0002915716030000094
为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2
C.主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为
Figure BDA0002915716030000095
主机S1根据差分隐私预算ε1,为Aj,Vj产生噪声
Figure BDA0002915716030000096
D.主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为
Figure BDA0002915716030000101
主机S2分别根据差分隐私预算ε2,为Bj,Wj产生噪声
Figure BDA0002915716030000102
达到对Bj,Wj的隐私保护;
E.主机S1,S2利用混淆电路计算
Figure BDA0002915716030000103
每个用户令
Figure BDA0002915716030000104
进行聚类中心更新,并计算两次迭代之间聚类中心的距离
Figure BDA0002915716030000105
如果
Figure BDA0002915716030000106
则输出最终的聚类中心Cz,1,…,Cz,k,否则返回步骤a。
秘密共享思想是将一个秘密以某种方式拆分,拆分后的字份额由不同参与者掌握,单个参与者不能得到秘密的有效信息,只有达到或多于某一个门限值的参与者共同合作方能重构秘密。秘密共享在数字签名、安全多方计算、属性加密、云安全存储和密钥管理等多个领域有着重要的作用。
秘密共享系统由秘密空间、分发者、参与者、访问结构、秘密分发算法和秘密重构算法等组成。Shamir构造一种经典的门限秘密共享算法:
(1)协议初始化阶段:分发者从GF(q)中选取n个不同的非零元素x1,…,xn,然后将xi分配给参与者Pi,其中q为素数且q>n;
(2)秘密分发阶段:从GF(q)随机选择m-1个元素a1,…,am-1,构造m-1次多项式
Figure BDA0002915716030000107
计算yi=h(xi),1≤i≤n,然后将yi秘密发送给Pi
(3)秘密重构阶段:n个参与者中的任意m个可以重构多项式h(x)如下:
Figure BDA0002915716030000111
其中秘密s=h(0)。
差分隐私技术保证无论个体数据在或不在数据集中,对最终的查询结果都没有显著影响。基于这种思想,ε-差分隐私的严格定义如下:
ε-差分隐私:若随机算法K对任意一对相邻数据集D,D'及任意输出S∈range(K)均满足:
Pr[K(D)∈S]≤exp(ε)×Pr[K(D′)∈S]
则称算法K满足ε-差分隐私。
其中D和D'是属性结构相同仅相差一条数据记录的相邻数据集,并用D=D'表示这种相邻关系。ε称为隐私预算,其大小反映了隐私保护程度的强弱,即ε的值越小,添加的噪声越大,算法在相邻数据集上的输出的概率分布就越相近,提供更高强度的隐私保护,同时算法输出的可用性也会越低。
差分隐私中另一个决定加入噪声量大小的参数是敏感度,其大小依赖于查询函数和数据集的复杂程度。严格定义如下:
全局敏感度:对于任意一个实值查询函数f和相邻数据集D,D',查询函数f的全局敏感度定义为
Figure BDA0002915716030000112
其中,||f(D)-f(D')||1为查询输出f(D)和f(D')之间的1-范数距离。
Laplace机制和指数机制是中心化差分隐私保护实现机制,已经得到了广泛的应用。以下是两种机制的定义:
1)Laplace机制:对于给定的数据集D和实值查询函数f,令Δf为f在数据集D上的全局敏感度,则随机算法K:K(D)=f(D)+Y满足ε-差分隐私,其中Y~Lap(Δf/ε)是加入的随机噪声量,服从尺度参数值为b=Δf/ε的Laplace分布。
在上述定义中,Laplace机制的概率密度函数为
Figure BDA0002915716030000121
2)指数机制:对于给定的数据集D,令q是评估数据集D上所有输出方案的效用函数,如果算法K满足输出为r的概率与exp(εq(D,r)/2Δq)成线性关系,则算法K满足ε-差分隐私,其中Δq为效用函数q的敏感度
Figure BDA0002915716030000122
Laplace机制要求查询函数f的输出必须是实数,这在一定程度上限制了其应用。而指数机制,采用满足特定分布的随机抽样来代替添加噪声来实现差分隐私,使得指数机制具有更加广泛的应用范围。
差分隐私的组合原理
1)串行组合原理:算法L1,…Lm的隐私预算分别为ε1,…,εm,当对同一数据集D执行这m个算法,组合算法L(L1(D),…,Lm(D))满足
Figure BDA0002915716030000123
-差分隐私。
2)并行组合原理:算法Li分别满足εi-差分隐私1≤i≤m,当对m个不相交的数据集{D1,…,Dm}执行算法,组合算法L(L1(D),…,Lm(D))满足maxεi-差分隐私。
混淆电路是目前最常见的用于两方安全计算的通用技术。姚期智首次提出混淆电路的概念,用于解决半诚实两方安全计算问题,随后Lindell和Pinkas给出了姚氏混淆电路的安全证明。
姚氏混淆电路假设存在参与方Alice和Bob以及多项式时间函数f,双方使用混淆电路来实现对函数f的安全计算。Alice作为混淆电路的生成者,她生成关于函数f的混淆电路,并将其发送给Bob。对于电路中的每根线,都为其选择两个随机值作为混淆值,其中一个值代表布尔电路中的0,另一个值则表示1。Bob作为混淆电路的计算者,可以通过接收到的混淆值对函数f进行计算,并得出结果。下面以AND门为例,给出姚氏混淆电路的简单描述。输入:Alice的输入为x∈{0,1},Bob的输入为y∈{0,1}。
参数设置:Alice、Bob的输入线分别为w1、w2,双方计算的函数为f(x,y)=x∧y,且函数f被看作是一个布尔电路C,函数输出对应的输出线为w3
输出:Bob输出f(x,y)。
协议:
(1)混淆电路生成:Alice为输入线w1,w2随机选择四个混淆输入
Figure BDA0002915716030000131
Figure BDA0002915716030000132
其中
Figure BDA0002915716030000133
对应x=0,
Figure BDA0002915716030000134
对应x=1,
Figure BDA0002915716030000135
对应y=0,
Figure BDA0002915716030000136
对应y=1。同理,为输出线w3随机选择混淆输出值
Figure BDA0002915716030000137
然后,Alice将输入线的标签作为密钥对输出线标签进行加密得到混淆表,AND门混淆表的生成如表1所示,
表1
Figure BDA0002915716030000141
Alice将混淆表中的四个加密值进行随机置换、
Figure BDA0002915716030000142
以及存放混淆输出与输出比特对应关系的输出转换表一起发送给Bob。随后,Alice与Bob执行1out-of 2不经意传输,Bob从Alice处获得
Figure BDA0002915716030000143
(2)混淆电路计算:在接收到Alice的混淆表、
Figure BDA0002915716030000144
输出转换表以及
Figure BDA0002915716030000145
后,Bob对四个密文逐一解密,获得正确的混淆输出值并根据输出转换表输出f(x,y)。
虽然在上文中已经参考实施例对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。

Claims (1)

1.一种具有差分隐私的安全多方k-means聚类方法,其特征在于:存在m个参与方U1,U2,…,Um,各个参与方Ui有输入数据集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪声采用的两个差分隐私预算分别为ε12,首先初始化聚类中心,每个参与者Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k},如果相邻两次聚类中心之间的距离和η大于阈值
Figure FDA0003883204480000011
则继续迭代,参与者Ui计算出数据点px,px∈D与各个聚类中心Cj(1≤j≤k)的欧几里得距离,得到数据点px与聚类中心Cj的距离最小,则把数据点px统计到Oj集合中,统计出Oj集合中的数据点数目Numi,j,以及数据点属性和Sumi,j,为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2,主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为
Figure FDA0003883204480000012
主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为
Figure FDA0003883204480000013
主机S1,S2分别根据差分隐私预算ε12,产生噪声bz,j,gz,j,对主机S1,S2计算的Aj,Vj,Bj,Wj进行隐私保护,同时主机S1,S2利用混淆电路进行聚类中心更新得到新的聚类中心Cz,j(Cz,j为第z次迭代产生的聚类中心),每个用户通过判断新的聚类中心与上次迭代求出的聚类中心之间的距离η,如果η大于阈值
Figure FDA0003883204480000014
则执行下次迭代,否则返回最终的聚类中心Cz,1,…,Cz,k
在初始化阶段,参数设置:m个参与方U1,U2,…,Um,每个参与方Ui有数据集Di,其中每个数据集包含的数据表示为Di=di,1,…,di,l,i={1,…,m},ε12分别是添加噪声采用的两个差分隐私预算,k是聚类的个数,所有参与者:U1,U2,…,Um执行下列步骤:
a.如果参与方的个数m小于聚类分类个数k,则每个参与方Ui从各自所拥有的数据集Di中选择
Figure FDA0003883204480000021
个数据点作为前
Figure FDA0003883204480000022
个初始聚类中心
Figure FDA0003883204480000023
然后再随机选择
Figure FDA0003883204480000024
个参与方,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为后
Figure FDA0003883204480000025
个初始聚类中心
Figure FDA0003883204480000026
如果参与方的个数m大于或等于聚类个数k,则随机选择k个参与者,每个选中的参与方各自从他们的数据集Di中随机选取一个数据点作为初始聚类中心;
b.参与方产生与聚类中心对应的随机数{a1,…,ak},并将随机数{a1,…,ak}发送至主机S1,将{c1-a1,…,ck-ak}发送到主机S2
c.主机S1,S2分别以差分隐私预算分别为ε12为{a1,…,ak}和{c1-a1,…,ck-ak}生成对应的Laplace噪声{b1,…,bk},{g1,…,gk},主机S1,S2用混淆电路计算C1,i=(ci-ai)+ai+bi+gi,i={1,…,k};
d.每个用户Ui接收添加噪声之后的聚类中心{C1,1,…,C1,k};
在迭代阶段,参数设置:m个参与方U1,U2,…,Um,每个参与方Ui拥有数据集Di,其中px表示数据集Di中的数据点,记作px∈Di,ε12分别是添加噪声采用的两个差分隐私预算,k是聚类个数,O1,O2,…,Ok是k个聚类集合,阈值
Figure FDA00038832044800000210
η是距离参数,迭代参数为z,Sumi,j,Numi,j分别为第i次迭代中聚类Oj集合中数据点属性之和以及数据点数目之和,所有参与者:U1,U2,…,Um执行下列步骤:
A.判断距离参数η与阈值
Figure FDA0003883204480000027
的大小关系,如果
Figure FDA0003883204480000028
则迭代次数z=z+1;
B.计算参与者中的所有数据点到各个聚类中心的距离||px-Cz,j||,px∈Di,j={1,…,k},如果||px-Cz,j||≤||px-Cz,v||,px∈Di,1≤v≤k则把数据划分到聚类Oj,统计出聚类Oj集合中的数据点数目Numi,j=|Oj|,以及聚类Oj集合中数据点属性和
Figure FDA0003883204480000029
为保护聚类中心的隐私,参与方Ui产生随机数ai.j,gi.j,并把ai.j,gi.j发送至主机S1,把Sumi,j-ai,j,Numi,j-gi,j发送至主机S2
C.主机S1将从所有用户接收到的随机数ai.j,gi.j进行累加,得到第j个聚类对应的随机数和,分别为
Figure FDA0003883204480000031
主机S1根据差分隐私预算ε1,为Aj,Vj产生噪声
Figure FDA0003883204480000032
D.主机S2将从所有用户接收到的Sumi,j-ai,j,Numi,j-gi,j进行累加,分别为
Figure FDA0003883204480000033
主机S2分别根据差分隐私预算ε2,为Bj,Wj产生噪声
Figure FDA0003883204480000034
达到对Bj,Wj的隐私保护;
E.主机S1,S2利用混淆电路计算
Figure FDA0003883204480000035
每个用户令
Figure FDA0003883204480000036
进行聚类中心更新,并计算两次迭代之间聚类中心的距离
Figure FDA0003883204480000037
如果
Figure FDA0003883204480000038
则输出最终的聚类中心Cz,1,…,Cz,k,否则返回步骤a。
CN202110101184.0A 2021-01-26 2021-01-26 一种具有差分隐私的安全多方k-means聚类方法 Active CN112765664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110101184.0A CN112765664B (zh) 2021-01-26 2021-01-26 一种具有差分隐私的安全多方k-means聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110101184.0A CN112765664B (zh) 2021-01-26 2021-01-26 一种具有差分隐私的安全多方k-means聚类方法

Publications (2)

Publication Number Publication Date
CN112765664A CN112765664A (zh) 2021-05-07
CN112765664B true CN112765664B (zh) 2022-12-27

Family

ID=75707385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110101184.0A Active CN112765664B (zh) 2021-01-26 2021-01-26 一种具有差分隐私的安全多方k-means聚类方法

Country Status (1)

Country Link
CN (1) CN112765664B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434907B (zh) * 2021-07-09 2022-09-23 四川大学 一种面向私有数据集的安全高效分位数聚合方法及装置
CN113706332B (zh) * 2021-07-30 2024-03-29 西安交通大学 基于个体差分隐私的电力交易报价隐私保护方法及系统
CN113949505A (zh) * 2021-10-15 2022-01-18 支付宝(杭州)信息技术有限公司 一种隐私保护的多方安全计算方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174873A1 (en) * 2017-03-22 2018-09-27 Visa International Service Association Privacy-preserving machine learning
CN109858269A (zh) * 2019-02-20 2019-06-07 安徽师范大学 一种基于同态加密的隐私保护密度峰聚类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10536437B2 (en) * 2017-01-31 2020-01-14 Hewlett Packard Enterprise Development Lp Performing privacy-preserving multi-party analytics on vertically partitioned local data
CN107145792B (zh) * 2017-04-07 2020-09-15 哈尔滨工业大学深圳研究生院 基于密文数据的多用户隐私保护数据聚类方法及系统
CN110610098B (zh) * 2018-06-14 2023-05-30 中兴通讯股份有限公司 数据集生成方法及装置
CN110609831B (zh) * 2019-08-27 2020-07-03 浙江工商大学 基于隐私保护和安全多方计算的数据链接方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174873A1 (en) * 2017-03-22 2018-09-27 Visa International Service Association Privacy-preserving machine learning
CN109858269A (zh) * 2019-02-20 2019-06-07 安徽师范大学 一种基于同态加密的隐私保护密度峰聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ESCAPED:Efficient Secure and Private Dot Product Framework for Kernel-based Machine Learning Algorithms with Applications in Healthcare;Ali Burak Unal;《https://arxiv.org/abs/2012.02688》;20201204;全文 *

Also Published As

Publication number Publication date
CN112765664A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112765664B (zh) 一种具有差分隐私的安全多方k-means聚类方法
Vaidya et al. Privacy-preserving SVM classification
Yi et al. Privacy-preserving association rule mining in cloud computing
Sherstov The pattern matrix method
Zhu et al. Distributed additive encryption and quantization for privacy preserving federated deep learning
Yi et al. Equally contributory privacy-preserving k-means clustering over vertically partitioned data
Yu et al. Multi-party k-means clustering with privacy consideration
Zhang et al. Practical multi-party private collaborative k-means clustering
Yi et al. Privacy-preserving naive Bayes classification on distributed data via semi-trusted mixers
CN114730389A (zh) 双重服务器隐私保护聚类
Blanton Achieving full security in privacy-preserving data mining
Su et al. Differentially private multi-party high-dimensional data publishing
Patel et al. Privacy preserving distributed k-means clustering in malicious model using zero knowledge proof
Bultel et al. Secure matrix multiplication with MapReduce
Fan et al. Ppca: Privacy-preserving principal component analysis using secure multiparty computation (mpc)
Patel Secure multiparty computation using secret sharing
Kjamilji et al. Secure matrix operations for machine learning classifications over encrypted data in post quantum industrial IoT
Yang et al. Improved privacy-preserving Bayesian network parameter learning on vertically partitioned data
Akhter et al. Privacy-preserving two-party k-means clustering in malicious model
Su et al. Privacy-preserving two-party k-means clustering via secure approximation
Gitanjali et al. A pristine clean cabalistic foruity strategize based approach for incremental data stream privacy preserving data mining
CN114358323A (zh) 联邦学习环境中基于第三方高效皮尔森系数计算方法
Kjamilji Blockchain assisted secure feature selection, training and classifications in cloud and distributed edge IoT environments
CN112118257A (zh) 一种安全增强的基于公钥加密的关键词搜索方法
Shuguo et al. Multi-party privacy-preserving decision trees for arbitrarily partitioned data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant