CN112765664B

CN112765664B - 一种具有差分隐私的安全多方k-means聚类方法

Info

Publication number: CN112765664B
Application number: CN202110101184.0A
Authority: CN
Inventors: 张恩; 赵乐; 李会敏; 姬聪敏; 陈宛桢
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-12-27
Anticipated expiration: 2041-01-26
Also published as: CN112765664A

Abstract

本发明一种具有差分隐私的安全多方k‑means聚类方法公开了计算机技术领域的一种存在m个参与方U₁,U₂,…,U_m，各个参与方U_i有输入数据集D_i，其中D_i＝d_i,1,…,d_i,l,i∈{1,…,m}，添加噪声采用的两个差分隐私预算分别为ε₁,ε₂，首先此方案初始化聚类中心，每个参与者U_i接收添加噪声之后的聚类中心{C_1,1,…,C_1,k}，如果相邻两次聚类中心之间的距离和η大于阈值

则继续迭代，本发明首次将差分隐私和安全多方计算进行有效的结合并应用于k‑means聚类的隐私保护，保证了输入数据、中间参数和输出结果的隐私，并且保证了数据的可用性。

Description

一种具有差分隐私的安全多方k-means聚类方法

技术领域

本发明涉及计算机技术领域，具体为一种具有差分隐私的安全多方k-means聚类方法。

背景技术

k-means聚类是一种聚类分析算法，它通过多次迭代得到最优的聚类中心，并广泛应用于数据挖掘、机器学习、信息检索等领域。而隐私保护k-means聚类的研究无论是在使用安全多方计算还是使用差分隐私技术的情况下，都有了一定的发展。但是现存的隐私保护k-means聚类方案不能有效同时保护输入隐私、迭代过程和输出结果的隐私，进而造成个人隐私数据泄露，同时在效率方面有待进一步提高。针对问题，本发明提出了一种具有差分隐私的安全多方k-means聚类方法。

Blum等人首先介绍了差分隐私k-means聚类，并在Lloyd算法的每次迭代中添加噪声。Kobbi等人提出了一个抽样和汇总框架。通过优化平滑灵敏度，可以改善输出干扰的适用性。差分隐私k-means聚类使用这种框架，并在原始数据库中重复执行该算法以获得质量更好的聚类中心。Gupta等人设计了一个多项式时间的差分隐私k-means算法。算法累加误差的下限是

McSherry和Talwar结合了指数机制与标准离散技术结合，方案的运行时间在k和d上都是指数级别的，其中k是簇数，d是数据维度。Huang和Roth研究了一种用于回答任意距离查询的高效计算协议。该算法无法直接对未处理的原始数据执行k-means聚类。Feldman等人讨论了一个差分隐私核心集，它可以执行任意查询而不会泄露隐私，k-means聚类可以在核心集上执行而不是在原始数据集执行。此外，Feldman等人使用1-聚类算法构建核心集并且设计了一个隐私k-means算法，优化误差d为亚线性。Nissim和Stemmer等人进一步优化了乘法误差和加法误差，并将其应用于差分隐私中心模型和局部模型。其中乘法误差为O(k)，加法误差为O(d^0.51k^1.51ε^-1.01)。Dong等人提出了一种新的非交互式k-means聚类算法，该算法获取原始数据集的摘要，并对摘要数据执行k-means聚类。现存的差分隐私k-means聚类隐私保护方案可以保护k-means聚类的输出隐私，但是在多用户协作方案中，各个参与方都要为共享数据添加噪声，当参与者足够多时聚类结果的准确性低。

基于安全多方计算的隐私保护k-means聚类研究现状如下：Vaidya和Clifton首先为垂直分区数据设计了k-means算法的隐私保护方案。数据根据属性分发给每个参与者。每个参与者只学习自己的属性数据，但协议要求存在三个不合谋的参与者，这在实际应用中很难实现。易等人设计了隐私k-means聚类，没有揭示中间参数。Jha等人讨论了两个用于k-means聚类的隐私保护协议，这两个协议将算法每一步的聚类均值泄露给参与者。该方法仅适用于水平分区数据。Jagannathan等人首先研究了k-means聚类算法对任意分割数据的隐私保护，通过双方合作将所有中间参数划分为随机的分区。Bunn和Ostrovsky设计了一个基于同态加密的两方k-means聚类保护方案。在计算最优聚类的过程中，没有公开中间参数和聚类分配。但是当扩展到多方k-means聚类时,协议无法抵抗合谋攻击。邢等人解决了用户与聚类算法服务商的合谋问题。蒋等人构造了一个两方外包的隐私保护k-means方案。云和用户之间需要多次交互，更新后的集群中心不受保护。现存的安全多方计算k-means聚类隐私保护方案只保证任何中间结果信息不被泄露，但不能保护输出结果的隐私，且具有较高的通信成本。

发明内容

本发明的目的在于提供一种具有差分隐私的安全多方k-means聚类方法，以解决上述背景技术中提出的在初始化聚类中心以及聚类中心更新时使用秘密共享以及混淆电路技术，有效提高了整体方案的计算开销和通信开销，多个用户协作来进行k-means聚类任务，不管参与k-means聚类的用户数量如何，在每次迭代中也只添加一次噪声，并且在协议的执行过程中，敌手无法获得迭代产生的相关隐私信息的问题。

为实现上述目的，本发明提供如下技术方案：一种具有差分隐私的安全多方k-means聚类方法，其特征在于：存在m个参与方U₁,U₂,…,U_m，各个参与方U_i有输入数据集D_i，其中D_i＝d_i,1,…,d_i,l,i∈{1,…,m}，添加噪声采用的两个差分隐私预算分别为ε₁,ε₂，首先此方案初始化聚类中心，每个参与者U_i接收添加噪声之后的聚类中心{C_1,1,…,C_1,k}，如果相邻两次聚类中心之间的距离和η大于阈值

则继续迭代，参与者U_i计算出数据点p_x,p_x∈D与各个聚类中心C_j(1≤j≤k)的欧几里得距离，得到数据点p_x与聚类中心C_j的距离最小，则把数据点p_x统计到O_j集合中，统计出O_j集合中的数据点数目Num_i,j，以及数据点属性和Sum_i,j，为保护聚类中心的隐私，参与方U_i产生随机数a_i.j,g_i.j，并把a_i.j,g_i.j发送至主机S₁，把Sum_i,j-a_i,j，Num_i,j-g_i,j发送至主机S₂，主机S₁将从所有用户接收到的随机数a_i.j,g_i.j进行累加，得到第j个聚类对应的随机数和，分别为

主机S₂将从所有用户接收到的Sum_i,j-a_i,j,Num_i,j-g_i,j进行累加，分别为

主机S₁,S₂分别根据差分隐私预算ε₁,ε₂，产生噪声b_z,j，g_z,j，对主机S₁,S₂计算的A_j,V_j,B_j,W_j进行隐私保护,同时主机S₁,S₂利用混淆电路进行聚类中心更新得到新的聚类中心C_z,j(C_z,j为第z次迭代产生的聚类中心)，每个用户通过判断新的聚类中心与上次迭代求出的聚类中心之间的距离η，如果η大于阈值

则执行下次迭代，否则返回最终的聚类中心C_z,1,…,C_z,k。

优选的，所述初始化参数设置：m个参与方U₁,U₂,…,U_m，每个参与方U_i有数据集D_i，其中每个数据集包含的数据表示为D_i＝d_i,1,…,d_i,l,i＝{1,…,m}，ε₁,ε₂分别是本方案添加噪声采用的两个差分隐私预算；k是聚类的个数，所有参与者：U₁,U₂,…,U_m执行下列步骤：

a.如果参与方的个数m小于聚类分类个数k，则每个参与方U_i从各自所拥有的数据集D_i中选择

个数据点作为前

个初始聚类中心

然后再随机选择

个参与方，每个选中的参与方各自从他们的数据集D_i中随机选取一个数据点作为后

个初始聚类中心

如果参与方的个数m大于或等于聚类个数k，则随机选择k个参与者，每个选中的参与方各自从他们的数据集D_i中随机选取一个数据点作为初始聚类中心；

b.参与方产生与聚类中心对应的随机数{a₁,…,a_k}，并将随机数{a₁,…,a_k}发送至主机S₁，将{c₁-a₁,…,c_k-a_k}发送到主机S₂；

c.主机S₁,S₂分别以差分隐私预算分别为ε₁,ε₂为{a₁,…,a_k}和{c₁-a₁,…,c_k-a_k}生成对应的Laplace噪声{b₁,…,b_k}，{g₁,…,g_k}，主机S₁,S₂用混淆电路计算C_1,i＝(c_i-a_i)+a_i+b_i+g_i,i＝{1,…,k}；

d.每个用户U_i接收添加噪声之后的聚类中心{C_1,1,…,C_1,k}。

优选的，所述迭代参数设置：m个参与方U₁,U₂,…,U_m；每个参与方U_i拥有数据集D_i，其中p_x表示数据集D_i中的数据点，记作p_x∈D_i；ε₁,ε₂分别是本方案添加噪声采用的两个差分隐私预算；k是聚类个数；O₁,O₂,…,O_k是k个聚类集合；阈值

η是距离参数；迭代参数为z；Sum_i,j,Num_i,j分别为第i次迭代中聚类O_j集合中数据点属性之和以及数据点数目之和，所有参与者：U₁,U₂,…,U_m执行下列步骤：

A.判断距离参数η与阈值

的大小关系，如果

则迭代次数z＝z+1；

B.计算参与者中的所有数据点到各个聚类中心的距离||p_x-C_z,j||,p_x∈D_i，j＝{1,…,k}，如果||p_x-C_z,j||≤||p_x-C_z,v||,p_x∈D_i,1≤v≤k则把数据划分到聚类O_j，统计出聚类O_j集合中的数据点数目Num_i,j＝|O_j|，以及聚类O_j集合中数据点属性和

为保护聚类中心的隐私，参与方U_i产生随机数a_i.j,g_i.j，并把a_i.j,g_i.j发送至主机S₁，把Sum_i,j-a_i,j，Num_i,j-g_i,j发送至主机S₂；

C.主机S₁将从所有用户接收到的随机数a_i.j,g_i.j进行累加，得到第j个聚类对应的随机数和，分别为

主机S₁根据差分隐私预算ε₁，为A_j,V_j产生噪声

D.主机S₂将从所有用户接收到的Sum_i,j-a_i,j,Num_i,j-g_i,j进行累加，分别为

主机S₂分别根据差分隐私预算ε₂，为B_j,W_j产生噪声

达到对B_j,W_j的隐私保护；

E.主机S₁,S₂利用混淆电路计算

每个用户令

进行聚类中心更新，并计算两次迭代之间聚类中心的距离

如果

则输出最终的聚类中心C_z,1,…,C_z,k，否则返回步骤a。

与现有技术相比，本发明的有益效果是：本发明首次将差分隐私和安全多方计算进行有效的结合并应用于k-means聚类的隐私保护，保证了输入数据、中间参数和输出结果的隐私，并且保证了数据的可用性。本发明降低了计算开销和通信开销，即使在数据量较大时，也具有较高的效率，有效地将安全多方计算与差分隐私两种方法结合并首次应用于在k-means聚类隐私保护，不仅实现输入数据、中间参数以及输出数据的同时有效隐私保护，还降低整体方案的计算开销和通信开销，并且协议在数据量较大时运行时间较小，协议具有实用性，适合多个用户协作来完成k-means聚类任务的协议，在隐私保护数据的同时也考虑了数据可用性的问题，不管参与聚类用户数量多少，每次迭代只需添加一次噪声，避免了过多噪声的添加，增强了数据的可用性。

附图说明

图1为本发明多用户协作的隐私k-means聚类协议初始化阶段示意图；

图2为本发明多用户协作的隐私k-means聚类协议迭代阶段示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种具有差分隐私的安全多方k-means聚类方法，使用了秘密共享、混淆电路和差分隐私技术，并考虑隐私预算、隐私模型构造方法以及阈值

的设置对协议进行构造，首次提出一种安全多方计算与差分隐私结合的协议，可以在安全多方计算环境下有效抵抗差分攻击，保护输出数据的隐私，在聚类中心更新时使用秘密共享和混淆电路技术，大大降低整体方案的计算开销和通信开销，并且协议在数据量较大时运行时间较小，协议具有实用性，协议保证即使多个用户协作来进行k-means聚类任务，不管参与k-means聚类的用户数量如何，在每次迭代中也只添加一次噪声，保证了数据的可用性。并且在协议的执行过程中，敌手无法获得迭代产生的相关隐私信息，有效的保护了输入数据、迭代过程以及输出数据的隐私，请参阅图1-2，

存在m个参与方U₁,U₂,…,U_m，各个参与方U_i有输入数据集D_i，其中D_i＝d_i,1,…,d_i,l,i∈{1,…,m}，添加噪声采用的两个差分隐私预算分别为ε₁,ε₂，首先此方案初始化聚类中心，每个参与者U_i接收添加噪声之后的聚类中心{C_1,1,…,C_1,k}，如果相邻两次聚类中心之间的距离和η大于阈值

则执行下次迭代，否则返回最终的聚类中心C_z,1,…,C_z,k；

初始化参数设置：参数设置：m个参与方U₁,U₂,…,U_m，每个参与方U_i有数据集D_i，其中每个数据集包含的数据表示为D_i＝d_i,1,…,d_i,l,i＝{1,…,m}，ε₁,ε₂分别是本方案添加噪声采用的两个差分隐私预算，k是聚类的个数，所有参与者：U₁,U₂,…,U_m执行下列步骤：

个数据点作为前

个初始聚类中心

然后再随机选择

个初始聚类中心

b.参与方产生与聚类中心对应的随机数{a¹,…,a^k}，并将随机数{a₁,…,a_k}发送至主机S₁，将{c₁-a₁,…,c_k-a_k}发送到主机S₂；

d.每个用户U_i接收添加噪声之后的聚类中心{C_1,1,…,C_1,k}；

迭代参数设置：m个参与方U₁,U₂,…,U_m，每个参与方U_i拥有数据集D_i，其中p_x表示数据集D_i中的数据点，记作p_x∈D_i，ε₁,ε₂分别是本方案添加噪声采用的两个差分隐私预算，k是聚类个数，O₁,O₂,…,O_k是k个聚类集合，阈值

η是距离参数，迭代参数为z，Sum_i,j,Num_i,j分别为第i次迭代中聚类O_j集合中数据点属性之和以及数据点数目之和，所有参与者：U₁,U₂,…,U_m执行下列步骤：

A.判断距离参数η与阈值

的大小关系，如果

则迭代次数z＝z+1；

主机S₁根据差分隐私预算ε₁，为A_j,V_j产生噪声

主机S₂分别根据差分隐私预算ε₂，为B_j,W_j产生噪声

达到对B_j,W_j的隐私保护；

E.主机S₁,S₂利用混淆电路计算

每个用户令

进行聚类中心更新，并计算两次迭代之间聚类中心的距离

如果

则输出最终的聚类中心C_z,1,…,C_z,k，否则返回步骤a。

秘密共享思想是将一个秘密以某种方式拆分，拆分后的字份额由不同参与者掌握，单个参与者不能得到秘密的有效信息，只有达到或多于某一个门限值的参与者共同合作方能重构秘密。秘密共享在数字签名、安全多方计算、属性加密、云安全存储和密钥管理等多个领域有着重要的作用。

秘密共享系统由秘密空间、分发者、参与者、访问结构、秘密分发算法和秘密重构算法等组成。Shamir构造一种经典的门限秘密共享算法：

(1)协议初始化阶段：分发者从GF(q)中选取n个不同的非零元素x₁,…,x_n，然后将x_i分配给参与者P_i，其中q为素数且q＞n；

(2)秘密分发阶段：从GF(q)随机选择m-1个元素a₁,…,a_m-1，构造m-1次多项式

计算y_i＝h(x_i),1≤i≤n，然后将y_i秘密发送给P_i；

(3)秘密重构阶段：n个参与者中的任意m个可以重构多项式h(x)如下：

其中秘密s＝h(0)。

差分隐私技术保证无论个体数据在或不在数据集中，对最终的查询结果都没有显著影响。基于这种思想，ε-差分隐私的严格定义如下：

ε-差分隐私：若随机算法K对任意一对相邻数据集D，D'及任意输出S∈range(K)均满足：

Pr[K(D)∈S]≤exp(ε)×Pr[K(D′)∈S]

则称算法K满足ε-差分隐私。

其中D和D'是属性结构相同仅相差一条数据记录的相邻数据集，并用D＝D'表示这种相邻关系。ε称为隐私预算，其大小反映了隐私保护程度的强弱，即ε的值越小，添加的噪声越大，算法在相邻数据集上的输出的概率分布就越相近，提供更高强度的隐私保护，同时算法输出的可用性也会越低。

差分隐私中另一个决定加入噪声量大小的参数是敏感度，其大小依赖于查询函数和数据集的复杂程度。严格定义如下：

全局敏感度：对于任意一个实值查询函数f和相邻数据集D，D'，查询函数f的全局敏感度定义为

其中，||f(D)-f(D')||₁为查询输出f(D)和f(D')之间的1-范数距离。

Laplace机制和指数机制是中心化差分隐私保护实现机制，已经得到了广泛的应用。以下是两种机制的定义：

1)Laplace机制：对于给定的数据集D和实值查询函数f，令Δf为f在数据集D上的全局敏感度，则随机算法K:K(D)＝f(D)+Y满足ε-差分隐私，其中Y～Lap(Δf/ε)是加入的随机噪声量，服从尺度参数值为b＝Δf/ε的Laplace分布。

在上述定义中，Laplace机制的概率密度函数为

2)指数机制：对于给定的数据集D，令q是评估数据集D上所有输出方案的效用函数，如果算法K满足输出为r的概率与exp(εq(D,r)/2Δq)成线性关系，则算法K满足ε-差分隐私，其中Δq为效用函数q的敏感度

Laplace机制要求查询函数f的输出必须是实数，这在一定程度上限制了其应用。而指数机制，采用满足特定分布的随机抽样来代替添加噪声来实现差分隐私，使得指数机制具有更加广泛的应用范围。

差分隐私的组合原理

1)串行组合原理：算法L₁，…L_m的隐私预算分别为ε₁，…,ε_m，当对同一数据集D执行这m个算法，组合算法L(L₁(D),…,L_m(D))满足

-差分隐私。

2)并行组合原理：算法L_i分别满足ε_i-差分隐私1≤i≤m，当对m个不相交的数据集{D₁，…,D_m}执行算法，组合算法L(L₁(D),…,L_m(D))满足maxε_i-差分隐私。

混淆电路是目前最常见的用于两方安全计算的通用技术。姚期智首次提出混淆电路的概念，用于解决半诚实两方安全计算问题，随后Lindell和Pinkas给出了姚氏混淆电路的安全证明。

姚氏混淆电路假设存在参与方Alice和Bob以及多项式时间函数f，双方使用混淆电路来实现对函数f的安全计算。Alice作为混淆电路的生成者，她生成关于函数f的混淆电路，并将其发送给Bob。对于电路中的每根线，都为其选择两个随机值作为混淆值，其中一个值代表布尔电路中的0，另一个值则表示1。Bob作为混淆电路的计算者，可以通过接收到的混淆值对函数f进行计算，并得出结果。下面以AND门为例，给出姚氏混淆电路的简单描述。输入：Alice的输入为x∈{0,1}，Bob的输入为y∈{0,1}。

参数设置：Alice、Bob的输入线分别为w₁、w₂，双方计算的函数为f(x,y)＝x∧y，且函数f被看作是一个布尔电路C，函数输出对应的输出线为w₃。

输出：Bob输出f(x,y)。

协议：

(1)混淆电路生成：Alice为输入线w₁,w₂随机选择四个混淆输入

其中

对应x＝0，

对应x＝1，

对应y＝0，

对应y＝1。同理，为输出线w₃随机选择混淆输出值

然后，Alice将输入线的标签作为密钥对输出线标签进行加密得到混淆表，AND门混淆表的生成如表1所示，

表1

Alice将混淆表中的四个加密值进行随机置换、

以及存放混淆输出与输出比特对应关系的输出转换表一起发送给Bob。随后，Alice与Bob执行1out-of 2不经意传输，Bob从Alice处获得

(2)混淆电路计算：在接收到Alice的混淆表、

输出转换表以及

后，Bob对四个密文逐一解密，获得正确的混淆输出值并根据输出转换表输出f(x,y)。

虽然在上文中已经参考实施例对本发明进行了描述，然而在不脱离本发明的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本发明并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种具有差分隐私的安全多方k-means聚类方法，其特征在于：存在m个参与方U₁,U₂,…,U_m，各个参与方U_i有输入数据集D_i，其中D_i＝d_i,1,…,d_i,l,i∈{1,…,m}，添加噪声采用的两个差分隐私预算分别为ε₁,ε₂，首先初始化聚类中心，每个参与者U_i接收添加噪声之后的聚类中心{C_1,1,…,C_1,k}，如果相邻两次聚类中心之间的距离和η大于阈值