CN112487481A

CN112487481A - 一种具有隐私保护的可验证多方k-means联邦学习方法

Info

Publication number: CN112487481A
Application number: CN202011453852.8A
Authority: CN
Inventors: 唐飞; 侯瑞琦; 梁世凯
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-12
Anticipated expiration: 2040-12-09
Also published as: CN112487481B

Abstract

本发明涉及一种具有隐私保护的可验证多方k‑means联邦学习方法，属于数据挖掘技术领域。数据水平分布在多用户上，每个用户将各自的数据加密上传至云服务器；云服务器随机挑选初始聚心，利用安全乘法协议和安全距离计算协议计算数据和初始聚心的欧几里得距离的平方；云服务器利用安全位分解协议和安全比较协议进行距离比较，并对数据进行划分；各用户利用秘密共享协议更新聚类中心，加密后上传至云服务器；云服务器计算新聚类中心和原聚类中心的距离，如果小于阈值，则结束聚类操作，否则更新聚类中心进行下一次迭代。

Description

一种具有隐私保护的可验证多方k-means联邦学习方法

技术领域

本发明属于数据挖掘技术领域，涉及一种具有隐私保护的可验证多方k-means联邦学习方法。

背景技术

随着互联网技术快速发展，数据剧增，大数据分析和机器学习算法被广泛运用到各个领域。其中k-means聚类是数据挖掘中经常使用的方法，通过计算样本和聚类中心的距离，把每个对象分配给距离它最近的聚类中，使得一个聚类中的样本相似度很高。但是在现实的数据挖掘中，往往会涉及到多个领域的数据，数据源之间存在着难以打破的壁垒。在大多数行业中，数据以孤岛形式存在，因此如何在满足数据隐私、安全和监管要求的前提下进行数据分析，具有很大的发展前景，也就是联邦学习。

当代行业中往往包括多个数据拥有者，例如：企业、银行、机构等，各个数据拥有者拥有一部分数据，并且数据拥有者数据集的用户特征重叠较多，而用户重叠较少，将数据集按照横向(也就是用户维度)划分，并取出用户特征相同而用户不完全相同的那部分数据进行训练(横向联邦学习)，最终各个数据拥有者都得到k-means聚类结果。并且，在数据分析过程中，数据拥有者不希望泄露自己的原始数据。

以往的k-means隐私保护方案，大多存在以下问题：

①大多数方案是两方的k-means聚类算法，没有考虑数据分布在多方的情况；

②在现有的多方k-means联邦学习中，部分数据拥有者不想再继续共享自己的数据，或者新的数据拥有者希望以共享自身数据为代价加入原有的联邦学习中；

③没有考虑数据拥有者增加或者减少自身数据；

④没有考虑数据拥有者不希望和自身敌对的数据拥有者共同得到数据分析结果，甚至共享错误信息。

发明内容

有鉴于此，本发明的目的在于提供一种具有隐私保护的可验证多方k-means联邦学习方法，本发明利用同态加密和秘密共享保证各方隐私安全，并且支持联邦学习环境下的k-means聚类。除此之外，本发明对基础的秘密共享方案进行改进，改进后的方案支持数据拥有者的动态变化(增加或减少，但是都要保证大于两方)，也支持数据拥有者本身的数据动态变化(增加或减少)，并且添加验证机制，利用区块链的不可篡改机制，保证辅助验证信息的数据完整性(数据完整性名词是否需要修改)，各个数据拥有者可对信息进行验证。

为达到上述目的，本发明提供如下技术方案：

一种具有隐私保护的可验证多方k-means联邦学习方法，包括以下步骤：

S1：每个用户分别加密各自的样本数据，并上传至云服务器；

S2：云服务器随机选取k个聚类中心；

S3：云服务器利用安全乘法协议和安全距离计算协议计算用户各个样本与聚类中心的欧几里得距离的平方；

S4：云服务器对距离密文进行安全位分解；

S5：云服务器利用安全距离比较协议对每个用户的各个样本进行划分；

S6：用户计算每个聚类中自己所拥有样本之和和样本数；

S7：用户计算每个样本的秘密值和辅助验证值，并利用秘密共享协议计算出新的聚类中心，上传至云服务器；

S8：云服务器计算新的聚类中心和原聚类中心的距离，如果小于阈值，则结束聚类操作，否则，更新聚类中心并进行下一轮迭代；

S9：用户及用户样本动态变化。

进一步，所述步骤S1中具体包括以下步骤：

S11：每个用户生成公钥pk_p,sk_p，其中1≤p≤part，part是用户的个数；

S12：每个用户随机选取r，计算密文c＝g^xrⁿ mod n²，其中

x是样本明文。

进一步，步骤S11具体包括：

S111：每个用户选取两个大素数p,q，并保证gcd(pq,(p-q)(q-1))＝1；

S112：每个用户计算n＝pq，λ＝(p-1，q-1)；

S113：每个用户随机选取g，并且存在μ＝(L(g^x mod n²))^-1mod n，其中

L(μ)＝(μ-1)/n；

S114：每个用户的公钥是pk＝(n,g)，公钥是sk＝(λ,μ)。

进一步，步骤S12具体包括：

S121：每个用户计算

其中

其中p表示用户，d_p表示第p个用户的样本个数，l表示每个样本的维度数，

表示第p个用户的第i个样本的第j个分量；

S122：每个用户将加密后的C^p上传至云服务器。

进一步，所述步骤S2具体包括以下步骤：

S21：云服务器随机挑选出k个聚类中心φ＝{μ_c|1≤c≤k}，其中μ_c＝{μ_c,j|1≤j≤l}；

S22：云服务器分别用各个用户的公钥对聚类中心进行加密，并分别保存为

其中

其中

进一步，所述步骤S3包括以下步骤：

S31：云服务器计算用户p的C^p和聚类中心

的欧几里得距离的平方，其中1≤p≤part；

S32：云服务器计算

其中1≤i≤d_p，1≤c≤k，1≤j≤l；

S33：云服务器利用

计算

S34：云服务器计算

其中1≤i≤d_p，1≤c≤k。

进一步，步骤S33中SM(E(x),E(y))＝E(xy)的计算包括：

S331：云服务器挑选两个不一样的随机数r_x,r_y∈Z_n；

S332：云服务器计算x′＝E(x)E(y),y′＝E(r_x)E(r_y)；

S333：云服务器将x′,y′发送给用户p；

S334：用户p计算h_x＝D(x′),h_y＝D(y′),h＝h_xh_y mod n,h′＝E(h)；

S335：用户p将h′发送给云服务器；

S336：云服务器计算

S337：云服务器计算E(xy)＝s′E(r_xr_x)^N-1。

进一步，所述步骤S4包括以下步骤：

S41：云服务器将距离E(dis)分解成dis明文情况下按位加密的结果SBD(E(dis))＝<E(dis₀),…,E(dis_w-1)>，其中0≤dis≤2^w-1；

S42：云服务器计算γ＝SVR(E(dis),<E(dis₀),…,E(dis_w-1)>)；

S43：云服务器收到用户发送的γ，如果γ＝1，则返回<E(dis₀),…,E(dis_w-1)>，否则回到S411。

进一步，步骤S41具体包括：

S411：云服务器计算l＝2^-1mod N，T＝E(dis)；

S412：云服务器计算E(dis_i)＝Encrypted_LSB(T,i)，其中i＝0,1,…,w-1；

S413：云服务器计算Z＝T*E(dis_i)^N-1mod N²；

S414：云服务器计算T＝Z^lmod N²。

进一步，步骤S412具体包括：

S4121：云服务器计算Y＝T*E(r)mod N²，其中r是随机数，且r∈Z_N；

S4122：云服务将Y发送给用户；

S4123：用户计算y＝D(Y)，如果y是偶数，则α＝E(0)，否则α＝E(1)；

S4124：用户将α发送给云服务器；

S4125：云服务器计算E(dis_i)，其中如果r是偶数，则E(dis_i)＝α，否则E(dis_i)＝E(1)*α^N-1mod N²；

S4126：云服务器返回E(dis_i)。

进一步，步骤S42具体包括：

S421：云服务器计算

S422：云服务器计算V＝U*E(dis)^N-1mod N²；

S423：云服务器计算W＝V^r′mod N²，其中r′随机数，且r′∈Z_n；

S424：云服务器将W发送给用户；

S425：用户计算D(W)，如果D(W)＝0，则γ＝1，否则γ＝0；

S426：用户将γ发送给云服务器。

进一步，所述步骤S5包括以下步骤：

S51：云服务器分别计算出

中的最小值，其中1≤p≤part，1≤i≤d_p，0≤dis≤2^w-1；

S52：云服务器定义

其中c＝1,2,…,k；

S53：云服务器定义num＝k；

S54：云服务器定义u＝1；

S55：云服务器定义v＝1；

S56：云服务器判断，如果u＝1，则

否则

S57：云服务器计算j＝j+1，如果

则返回S56，否则跳转到S58；

S58：云服务器计算i＝i+1，如果

则计算

并返回S55，否则跳转到S59；

S59：云服务器判断每个样本距离哪个聚类中心最近，并把该样本归到这个类中。

进一步，步骤S56中SMIN(E(x),E(y))的计算包括：

S561：云服务器随机选取一个函数F，其中函数F随机使得x>y或者x>y；

S562：云服务器计算W_i，Γ_i，G_i，H_i，Φ_i，其中1≤i≤w；

S563：用户计算M_j＝D(L′_j)，并且，如果存在M_j＝1，则α＝1，否则α＝0，其中1≤j≤w；

S564：用户计算M′_j＝Γ′_j，其中1≤j≤w；

S565：用户将M′，E(α)发送给云服务器；

S566：云服务器计算

S567：云服务器计算

如果F:x>y，则E(min(x,y)_j)＝E(x_j)*λ_j，否则E(min(x,y)_j)＝E(y_j)*λ_j，其中1≤j≤w。

进一步，步骤S562具体包括：

S5621：调用S33步骤计算E(x_iy_i)＝SM(E(x_i),E(y_i))随机选取一个函数F，其中函数F随机使得x>y或者x>y；

S5622：云服务器进行判断，如果F:x>y，则计算W_i＝E(x_i)*E(x_i*y_i)^N-1，

否则W_i＝E(y_i)*E(x_i*y_i)^N-1，

其中

是随机数，且

S5623：云服务器计算

S5624：云服务器计算

其中H₀＝E(0)，r_i是随机数，且r_i∈Z_N；

S5625：云服务器计算Φ_i＝E(-1)*H_i；

S5626：云服务器计算

其中r′_i是随机数，且r′_i∈Z_N；

S5627：云服务器计算Γ′＝π₁(Γ)，L′＝π₂(L)其中π₁,π₂是一个置换函数；

S5628：云服务器将Γ′,L′发送给用户。

进一步，所述步骤S6包括如下步骤：

S61：云服务器把聚类结果发送给各个用户；

S62：各个用户计算每个簇中自己所拥有的样本之和a_i以及样本数b_i，其中i＝1,…,k；

S63：各个用户计算

其中C_τ表示第τ个簇；

S64：各个用户计算b_τ＝|C_τ|，其中C_τ表示第τ个簇；

S65：各个用户定义V_τs∈(a_τ,b_τ)。

进一步，所述步骤S7包括以下步骤：

S71：随机选取part个随机数{x₁,…,x_part}公开；

S72：每个用户计算每个样本的秘密值和辅助验证值；

S73：用户利用秘密共享协议计算出新的聚类中心，并上传至云服务器。

进一步，步骤S72具体包括：

S721：用户p，随机选取d_p个part-1阶多项式：

其中p＝1,2,…,part，j＝1,2,…,d_p，保存记录多项式的系数；

S722：用户p计算每个样本对应其他用户的秘密值：

其中p＝1,2,…,part，i＝1,2,…,part，且i≠p，j＝1,2,…,d_p，

表示第p个用户的第j个样本；

S723：用户p计算

其中k＝0,…,part-1，j＝1,2,…,d_p，并将

上链。

进一步，步骤S73具体包括：

S731：用户p将位于C_τ中的样本秘密值

发送给用户i，其中p＝1,2,…,part，τ＝1,2,…,k，i＝1,2,…,part，且i≠p，j＝1,2,…,d_p；

S732：用户p接收其他用户发送的

秘密值，并验证

如果通过验证则计算

并发送给云平台；

S733：云平台利用拉格朗日插值法恢复出a_τ，b_τ，并计算新的聚类中心μ′_τ，其中τ＝1,2,…,k。

进一步，所述步骤S8包括以下步骤：

S81：云服务器计算新聚类中心和原聚类中心的差值ε＝|μ′_τ-μ_τ|，其中τ＝1,2,…,k；

S82：如果ε≤θ，则结束聚类操作，否则用μ′_τ代替μ_τ，并返回S3，其中τ＝1,2,…,k；

进一步，所述步骤S9包括以下步骤：

S91：用户动态增加；

S92：用户动态减少；

S93：用户样本动态增加；

S94：用户p减少样本v。

进一步，步骤S91具体包括：

S911：增加用户生成一个随机数x_part+1并添加增加标识符广播给其他用户；

S912：用户part+1随机选择d_part+1个多项式：

其中j＝1,2,…,d_part+1，并且保存多项式的系数；

S913：用户part+1计算每个样本对应其他用户的秘密值：

其中p＝1,2,…,part+1，i＝1,2,…,part，且i≠p，j＝1,2,…,d_p，

表示第part+1个用户的第j个样本；

S914：用户part+1计算

其中k＝0,…,part，j＝1,2,…,d_part+1，并将

上链；

S915：添加用户与原始用户开始新的k-means聚类算法。

进一步，步骤S92具体包括：

S921：减少用户p广播之前生成的随机数x_p并添加减少标识符广播给其他用户；

S922：其他用户删除自身每个样本对应用户p的秘密值

其中j＝1,2,…,d_i，i＝1,2,…,part，且i≠p；

S923：剩下的用户开始新的k-means聚类算法。

进一步，步骤S93具体包括：

S931：用户p增加新样本

S932：用户p生成一个新的随机part-1阶多项式：

其中

需要保存记录多项式的系数；

S932：用户p计算新样本对应其他用户的秘密值

其中i＝1,2,…,part；

S933：用户p计算新样本的辅助验证值

其中k＝0,…,part-1，j＝1,2,…,d_p，并将

上链；

S934：用户添加样本后与其他用户开始新的k-means聚类算法。

进一步，步骤S94具体包括：

S941：用户删除样本v对应的多项式及秘密值；

S942：用户添加样本后与其他用户开始新的k-means聚类算法。

本发明的有益效果在于：

本发明提出了一种在无可信任第三方并且样本数据水平分布在多用户的环境下，用户在与其他用户完全无联系的情况下共享自身样本数据，保证自身数据隐私安全的情况下实现k-means聚类算法，得到自身数据的聚类划分结果，实现k-means的横向联邦学习。

本发明中用户扩展为多方，也就是用户不少于三方的情况下进行k-means聚类算法；算法操作中的距离计算和比较不需要用户密钥直接解密出明文，而是在密文状态下进行操作，保证了用户自身的数据隐私安全；利用改进的秘密共享方案实现聚类中心的更新操作，并且增加了验证机制，保证了k-means聚类算法的结果是真实的；提供了用户动态增加减少和用户样本增加减少情况下继续进行k-means聚类算法的功能，使得方案更加具有普适性，能够得到更好的应用。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明系统模型图；

图2为本发明方法流程图；

图3为用户加密并上传数据流程图；

图4为随机挑选初始聚类中心流程图；

图5为安全乘法协议；

图6为安全距离计算协议；

图7为安全位分解协议；

图8为安全距离比较协议；

图9为判断新聚类中心和原聚类中心是否足够相近流程图；

图10为用户动态变化流程图；

图11为样本动态变化流程图；

图12为本发明所述验证机制流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

针对现有数据挖掘中存在的数据隐私安全问题，本发明对现有具有隐私保护的数据挖掘算法进行研究，最终提出一种样本数据水平划分情况下的具有隐私保护的多方动态可验证k-means聚类算法，本发明支持样本数据水平分布在不少于三方情况下的，基于云平台的区块链的存储计算外包和安全认证。用户将自身数据加密后上传至云平台，通过云平台、用户、区块链的相互协同，实现在多方联合数据集上的横向联邦学习。

如图1所示，将多用户横向联邦学习系统用户划分为三个层次。其中层次1是云服务器，与传统使用的云服务器不同的是，该方案中的云服务器出了需要存储用户加密后的样本数据，还要在k-means聚类算法操作过程中与用户进行交互，实现距离计算和比较的功能，减轻用户的存储和计算压力；层次2是拥有样本数据的用户，其中样本数据以水平分布的形式存在于不少于三方的用户上，用户需要对自身样本数据进行加密并上传至云服务器，并在k-means聚类算法操作过程中与云服务器交互实现距离计算和比较的功能，除此之外，还要和除自身之外的其他所有用户交互，利用秘密共享协议进行聚类中心更新；层次3是区块链服务器，用户会生成辅助验证值并上链，利用区块链的不可篡改特性，用于其他用户对收到的信息进行验证。

本方法中采用了paillier加密，其中paillier加密支持密文加法操作，即具有加同态，它是一个四元组的概率性加密，表示为Enc_pa＝{KenGen,Encrypt,Decrypt,Evaluate}。其中paillier加密方法具有如下性质：

E(x)E(y)＝E(x+y)，E(x)^y＝E(xy)。

本发明提出的具有隐私保护的可验证多方k-means联邦学习方法，如图2所示，包括以下步骤：

可选地，参见图3，所述步骤S1包括如下步骤：

S11：每个用户生成公钥pk_p,sk_p，其中1≤p≤part，part是用户的个数，包括：

S112：每个用户计算n＝pq，λ＝(p-1，q-1)；

L(μ)＝(μ-1)/n；

S114：每个用户的公钥是pk＝(n,g)，公钥是sk＝(λ,μ)；

S12：每个用户随机选取r，计算密文c＝g^xrⁿ mod n²，其中

x是样本明文；

S121：每个用户计算

其中

表示第p个用户的第i个样本的第j个分量；

S122：每个用户将加密后的C^p上传至云服务器；

S2：云服务器随机选取k个聚类中心；

可选地，参见图4，所述步骤S2包括如下步骤：

S22：云服务器分别用各个用户的公钥对聚类中心进行加密，并别保存为

其中

其中

可选地，参见图5、图6，所述步骤S3包括如下步骤：

S31：云服务器计算用户p的C^p和聚类中心

的欧几里得距离的平方，其中1≤p≤part；

S32：云服务器计算

其中1≤i≤d_p，1≤c≤k，1≤j≤l；

S33：云服务器利用

计算

其中SM(E(x),E(y))＝E(xy)的计算包括：

S331：云服务器挑选两个不一样的随机数r_x,r_y∈Z_n；

S332：云服务器计算x′＝E(x)E(y),y′＝E(r_x)E(r_y)；

S333：云服务器将x′,y′发送给用户p；

S334：用户p计算h_x＝D(x′),h_y＝D(y′),h＝h_xh_y mod n,h′＝E(h)；

S335：用户p将h′发送给云服务器；

S336：云服务器计算

S337：云服务器计算E(xy)＝s′E(r_xr_x)^N-1；

S34：云服务器计算

其中1≤i≤d_p，1≤c≤k；

S4：云服务器对距离密文进行安全位分解；

可选地，参见图7，所述步骤S4包括如下步骤：

S41：云服务器将距离E(dis)分解成dis明文情况下按位加密的结果SBD(E(dis))＝<E(dis₀),…,E(dis_w-1)>，其中0≤dis≤2^w-1，包括：

S411：云服务器计算l＝2^-1mod N，T＝E(dis)；

S412：云服务器计算E(dis_i)＝Encrypted_LSB(T,i)，其中i＝0,1,…,w-1，包括：

S4122：云服务将Y发送给用户；

S4124：用户将α发送给云服务器；

S4126：云服务器返回E(dis_i)；

S413：云服务器计算Z＝T*E(dis_i)^N-1mod N²；

S414：云服务器计算T＝Z^l mod N²；

S42：云服务器计算γ＝SVR(E(dis),<E(dis₀),…,E(dis_w-1)>)，包括：

S421：云服务器计算

S422：云服务器计算V＝U*E(dis)^N-1mod N²；

S424：云服务器将W发送给用户；

S425：用户计算D(W)，如果D(W)＝0，则γ＝1，否则γ＝0；

S426：用户将γ发送给云服务器；

S43：云服务器收到用户发送的γ，如果γ＝1，则返回<E(dis₀),…,E(dis_w-1)>，否则回到S411；

可选地，参见图8，所述步骤S5包括如下步骤：

S51：云服务器分别计算出

中的最小值，其中1≤p≤part，1≤i≤d_p，0≤dis≤2^w-1；

S52：云服务器定义

其中c＝1,2,…,k；

S53：云服务器定义num＝k；

S54：云服务器定义u＝1；

S55：云服务器定义v＝1；

S56：云服务器判断，如果u＝1，则

否则

其中SMIN(E(x),E(y))的计算包括：

S562：云服务器计算W_i，Γ_i，G_i，H_i，Φ_i，其中1≤i≤w，包括：

否则W_i＝E(y_i)*E(x_i*y_i)^N-1，

其中

是随机数，且

S5623：云服务器计算

S5624：云服务器计算

其中H₀＝E(0)，r_i是随机数，且r_i∈Z_N；

S5625：云服务器计算Φ_i＝E(-1)*H_i；

S5626：云服务器计算

其中r′_i是随机数，且r′_i∈Z_N；

S5628：云服务器将Γ′,L′发送给用户；

S564：用户计算M′_j＝Γ′_j，其中1≤j≤w；

S565：用户将M′，E(α)发送给云服务器；

S566：云服务器计算

S567：云服务器计算

如果F:x>y，则E(min(x,y)_j)＝E(x_j)*λ_j，否则E(min(x,y)_j)＝E(y_j)*λ_j，其中1≤j≤w；

S57：云服务器计算j＝j+1，如果

则返回S56，否则跳转到S58；

S58：云服务器计算i＝i+1，如果

则计算

并返回S55，否则跳转到S59；

S6：用户计算每个聚类中自己所拥有样本之和和样本数；

可选地，所述步骤S6包括如下步骤：

S61：云服务器把聚类结果发送给各个用户；

S63：各个用户计算

其中C_τ表示第τ个簇；

S64：各个用户计算b_τ＝|C_τ|，其中C_τ表示第τ个簇；

S65：各个用户定义V_τs∈(a_τ,b_τ)；

可选地，如图12所示，所述步骤S7包括如下步骤：

S71：随机选取part个随机数{x₁,…,x_part}公开；

S72：每个用户计算每个样本的秘密值和辅助验证值，包括：

S721：用户p，随机选取d_p个part-1阶多项式：

其中p＝1,2,…,part，j＝1,2,…,d_p，需要保存记录多项式的系数；

S722：用户p计算每个样本对应其他用户的秘密值：

其中p＝1,2,…,part，i＝1,2,…,part，且i≠p，j＝1,2,…,d_p，

表示第p个用户的第j个样本；

S723：用户p计算

其中k＝0,…,part-1，j＝1,2,…,d_p，并将

上链；

S73：用户利用秘密共享协议计算出新的聚类中心，并上传至云服务器，包括：

S731：用户p将位于C_τ中的样本秘密值

S732：用户p接收其他用户发送的

秘密值，并验证

如果通过验证则计算

并发送给云平台；

S733：云平台利用拉格朗日插值法恢复出a_τ，b_τ，并计算新的聚类中心μ′_τ，其中τ＝1,2,…,k；

可选地，参见图9，所述步骤S8包括如下步骤：

S9：用户及用户样本动态变化；

可选地，参见图10-11，所述步骤S9包括如下步骤：

S91：用户动态增加，包括：

S912：用户part+1随机选择d_part+1个多项式：

其中j＝1,2,…,d_part+1，并且保存多项式的系数；

S913：用户part+1计算每个样本对应其他用户的秘密值：

其中p＝1,2,…,part+1，i＝1,2,…,part，且i≠p，j＝1,2,…,d_p，

表示第part+1个用户的第j个样本；

S914：用户part+1计算

其中k＝0,…,part，j＝1,2,…,d_part+1，并将

上链；

S915：添加用户与原始用户开始新的k-means聚类算法；

S92：用户动态减少，包括：

S922：其他用户删除自身每个样本对应用户p的秘密值

其中j＝1,2,…,d_i，i＝1,2,…,part，且i≠p；

S923：剩下的用户开始新的k-means聚类算法；

S93：用户样本动态增加，包括：

S931：用户p增加新样本

S932：用户p生成一个新的随机part-1阶多项式：

其中

需要保存记录多项式的系数；

S932：用户p计算新样本对应其他用户的秘密值

其中i＝1,2,…,part；

S933：用户p计算新样本的辅助验证值

其中k＝0,…,part-1，j＝1,2,…,d_p，并将

上链；

S934：用户添加样本后与其他用户开始新的k-means聚类算法；

S94：用户p减少样本v，包括：

S941：用户删除样本v对应的多项式及秘密值；

S942：用户添加样本后与其他用户开始新的k-means聚类算法

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：包括以下步骤：

S2：云服务器随机选取k个聚类中心；

S4：云服务器对距离密文进行安全位分解；

S6：用户计算每个聚类中自己所拥有样本之和和样本数；

S9：用户及用户样本动态变化。

2.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S1中具体包括以下步骤：

S11：每个用户生成公钥pk_p，sk_p，其中1≤p≤part，part是用户的个数；具体包括：

S111：每个用户选取两个大素数p，q，并保证gcd(pq，(p-q)(q-1))＝1；

S112：每个用户计算n＝pq，λ＝(p-1，q-1)；

L(μ)＝(μ-1)/n；

S114：每个用户的公钥是pk＝(n，g)，公钥是sk＝(λ，μ)；

S12：每个用户随机选取r，计算密文c＝g^xrⁿ mod n²，其中

x是样本明文；

具体包括：

S121：每个用户计算

其中

表示第p个用户的第i个样本的第j个分量；

S122：每个用户将加密后的C^p上传至云服务器。

3.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S2具体包括以下步骤：

S21：云服务器随机挑选出k个聚类中心φ＝{μ_c|1≤c≤k}，其中μ_c＝{μ_c，j|1≤j≤l}；

其中

其中

4.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S3包括以下步骤：

S31：云服务器计算用户p的C^p和聚类中心

的欧几里得距离的平方，其中1≤p≤part；

S32：云服务器计算

其中1≤i≤d_p，1≤c≤k，1≤j≤l；

S33：云服务器利用

计算

其中SM(E(x)，E(y))＝E(xy)的计算包括：

S331：云服务器挑选两个不一样的随机数r_x，r_y∈Z_n；

S332：云服务器计算x′＝E(x)E(y)，y′＝E(r_x)E(r_y)；

S333：云服务器将x′，y′发送给用户p；

S334：用户p计算h_x＝D(x′)，h_y＝D(y′)，h＝h_xh_y mod n，h′＝E(h)；

S335：用户p将h′发送给云服务器；

S336：云服务器计算

S337：云服务器计算E(xy)＝s′E(r_xr_x)^N-1；

S34：云服务器计算

其中1≤i≤d_p，1≤c≤k。

5.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S4包括以下步骤：

S41：云服务器将距离E(dis)分解成dis明文情况下按位加密的结果SBD(E(dis))＝<(E(dis₀)，…，E(dis_w-1)>，其中0≤dis≤2^w-1，具体包括：

S411：云服务器计算l＝2^-1mod N，T＝E(dis)；

S412：云服务器计算E(dis_i)＝Encrypted_LSB(T，i)，其中i＝0，1，…，w-1，具体包括：

S4122：云服务将Y发送给用户；

S4124：用户将α发送给云服务器；

S4126：云服务器返回E(dis_i)；

S413：云服务器计算Z＝T*E(dis_i)^N-1mod N²；

S414：云服务器计算T＝Z^lmod N²；

S42：云服务器计算γ＝SVR(E(dis)，<E(dis₀)，…，E(dis_w-1)>)，具体包括：

S421：云服务器计算

S422：云服务器计算V＝U*E(dis)^N-1mod N²；

S424：云服务器将W发送给用户；

S425：用户计算D(W)，如果D(W)＝0，则γ＝1，否则γ＝0；

S426：用户将γ发送给云服务器；

S43：云服务器收到用户发送的γ，如果γ＝1，则返回<E(dis₀)，…，E(dis_w-1)>，否则回到S411。

6.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S5包括以下步骤：

S51：云服务器分别计算出

中的最小值，其中1≤p≤part，1≤i≤d_p，0≤dis≤2^w-1；

S52：云服务器定义

其中c＝1，2，…，k；

S53：云服务器定义num＝k；

S54：云服务器定义u＝1；

S55：云服务器定义v＝1；

S56：云服务器判断，如果u＝1，则

否则

其中SMIN(E(x)，E(y))的计算包括：

S561：云服务器随机选取一个函数F，其中函数F随机使得x＞y或者x＞y；

S562：云服务器计算W_i，Γ_i，G_i，H_i，Φ_i，其中1≤i≤w，具体包括：

S5621：调用S33步骤计算E(x_iy_i)＝SM(E(x_i)，E(y_i))随机选取一个函数F，其中函数F随机使得x＞y或者x＞y；

S5622：云服务器进行判断，如果F：x＞y，则计算W_i＝E(x_i)*E(x_i*y_i)^N-1，

否则W_i＝E(y_i)*E(x_i*y_i)^N-1，

其中

是随机数，且

S5623：云服务器计算

S5624：云服务器计算

其中H₀＝E(0)，r_i是随机数，且r_i∈Z_N；

S5625：云服务器计算Φ_i＝E(-1)*H_i；

S5626：云服务器计算

其中r′_i是随机数，且r′_i∈Z_N；

S5627：云服务器计算Γ′＝π₁(Γ)，L′＝π₂(L)其中π₁，π₂是一个置换函数；

S5628：云服务器将Γ′，L′发送给用户；

S564：用户计算M′_j＝Γ′_j，其中1≤j≤w；

S565：用户将M′，E(α)发送给云服务器；

S566：云服务器计算

S567：云服务器计算

如果F：x＞y，则E(min(x，y)_j)＝E(x_j)*λ_j，否则E(min(x，y)_j)＝E(y_j)*λ_j，其中1≤j≤w；

S57：云服务器计算j＝j+1，如果

则返回S56，否则跳转到S58；

S58：云服务器计算i＝i+1，如果

则计算

并返回S55，否则跳转到S59；

7.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S6包括如下步骤：

S61：云服务器把聚类结果发送给各个用户；

S62：各个用户计算每个簇中自己所拥有的样本之和a_i以及样本数b_i，其中i＝1，…，k；

S63：各个用户计算

其中C_τ表示第τ个簇；

S64：各个用户计算b_τ＝|C_τ|，其中C_τ表示第τ个簇；

S65：各个用户定义V_τs∈(a_τ，b_τ)。

8.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S7包括以下步骤：

S71：随机选取part个随机数{x₁，…，x_part}公开；

S72：每个用户计算每个样本的秘密值和辅助验证值，具体包括：

S721：用户p，随机选取d_p个part-1阶多项式：

其中p＝1，2，…，part，j＝1，2，…，d_p，保存记录多项式的系数；

S722：用户p计算每个样本对应其他用户的秘密值：

其中p＝1，2，…，part，i＝1，2，…，part，且i≠p，j＝1，2，…，d_p，

表示第p个用户的第j个样本；

S723：用户p计算

其中k＝0，…，part-1，j＝1，2，…，d_p，并将

上链；

S73：用户利用秘密共享协议计算出新的聚类中心，并上传至云服务器，具体包括：

S731：用户p将位于C_τ中的样本秘密值

发送给用户i，其中p＝1，2，…，part，τ＝1，2，…，k，i＝1，2，…，part，且i≠p，j＝1，2，…，d_p；

S732：用户p接收其他用户发送的

秘密值，并验证

如果通过验证则计算

并发送给云平台；

S733：云平台利用拉格朗日插值法恢复出a_τ，b_τ，并计算新的聚类中心μ′_τ，其中τ＝1，2，…，k。

9.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S8包括以下步骤：

S81：云服务器计算新聚类中心和原聚类中心的差值ε＝|μ′_τ-μ_τ|，其中τ＝1，2，…，k；

S82：如果ε≤θ，则结束聚类操作，否则用μ′_τ代替μ_τ，并返回S3，其中τ＝1，2，…，k。

10.根据权利要求1所述的具有隐私保护的可验证多方k-means联邦学习方法，其特征在于：所述步骤S9包括以下步骤：

S91：用户动态增加，具体包括：

S912：用户part+1随机选择d_part+1个多项式：

其中j＝1，2，…，d_part+1，并且保存多项式的系数；

S913：用户part+1计算每个样本对应其他用户的秘密值：

其中p＝1，2，…，part+1，i＝1，2，…，part，且i≠p，j＝1，2，…，d_p，

表示第part+1个用户的第j个样本；

S914：用户part+1计算

其中k＝0，…，part，j＝1，2，…，d_part+1，并将

上链；

S915：添加用户与原始用户开始新的k-means聚类算法；

S92：用户动态减少，具体包括：

S922：其他用户删除自身每个样本对应用户p的秘密值f_i ^j(x_p)，其中j＝1，2，…，d_i，i＝1，2，…，part，且i≠p；

S923：剩下的用户开始新的k-means聚类算法；

S93：用户样本动态增加，具体包括：

S931：用户p增加新样本

S932：用户p生成一个新的随机part-1阶多项式：

其中

需要保存记录多项式的系数；

S932：用户p计算新样本对应其他用户的秘密值

其中i＝1，2，…，part；

S933：用户p计算新样本的辅助验证值

其中k＝0，…，part-1，j＝1，2，…，d_p，并将

上链；

S934：用户添加样本后与其他用户开始新的k-means聚类算法；

S94：用户p减少样本v，具体包括：

S941：用户删除样本v对应的多项式及秘密值；

S942：用户添加样本后与其他用户开始新的k-means聚类算法。