CN110233730B

CN110233730B - 一种基于k均值聚类的隐私信息保护方法

Info

Publication number: CN110233730B
Application number: CN201910428240.4A
Authority: CN
Inventors: 赖俊祚; 戴杰玲; 王传胜; 李燕玲; 孙萌
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2022-05-03
Anticipated expiration: 2039-05-22
Also published as: CN110233730A

Abstract

本发明公开了一种基于K均值聚类的隐私信息保护方法，该方法的步骤包括：多个客户端CU_i进行数据加密，得到加密密文上传至云服务端；客户端CU_i、云服务端CSP和辅助云服务端ACSP进行数据交互计算，得到重加密密钥；云服务端收到加密密文，进行重加密得到同一公钥的重加密密文，再将重加密密文转换为Paillier加密的密文；云服务端获得Paillier加密的密文后计算聚类；云服务端先将聚类结果的密文转换双向加法同态代理重加密的密文，再转换为客户端公钥下的密文，最后将聚类结果的密文返回给客户端进行解密。本发明实现了对不同公钥的密文进行聚类，将同一公钥下的聚类结果转换为不同公钥下的聚类结果返回给客户端，同时保护了客户端的私人数据和聚类中心的隐私。

Description

一种基于K均值聚类的隐私信息保护方法

技术领域

本发明涉及信息安全技术领域，具体涉及一种基于K均值聚类的隐私信息保护方法。

背景技术

智能移动设备根据人们的不同需求嵌入了各种记录数据的传感器。智能移动设备的广泛使用和无线网络的广泛覆盖推动一种无线传感器网络的应用-参与式感知的发展。社会参与式感知通过利用在线社交网络作为基础设施来解决参与式感知的局限性。在社会参与式感知系统中，多用户使用智能设备收集大量的感知数据，这些感知数据可以通过社交网络共享和分析。通过联合(虚拟)社区所有数据并利用K均值聚类算法分析用户感知数据，参与用户获得分析的结果。在社会参与式感知中K均值聚类方案中，多用户和社区的之间外包计算存在一些安全与隐私问题：(1)如何保护用户的个人隐私；(2)如何在K均值聚类过程不能泄露任何额外信息；(3)如何保证最后分析的结果只有参与用户知道，社区的特征信息(聚类中心)不被参与用户知道。

在社会参与式感知中，用户对收集到私有数据进行分析，可以通过社交网络联合社区的数据进行外包计算聚类，同时不能让社区的云服务提供商知道用户的信息和用户不能知道社区的任何信息。例如，用户通过带手环等智能设备产生了关于身体状况的数据，将数据传入智能手机，通过web服务共享和分析身体状况的数据，这样可以了解自己在这个社区的群体中健康状况是属于哪种类别。一旦用户知道身体状况所属的类别，就可以根据自己的生活习惯做出调整或者制定适合自己的运动目标。一旦用户信息的健康信息被泄露，可能导致用户个人财产的损失甚至危害个人安全。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于K均值聚类的隐私信息保护方法，本发明实现了对不同公钥的密文进行聚类，也实现了将同一公钥下的聚类结果转换为不同公钥下的聚类结果返回给客户端，同时保护了客户端的私人数据和聚类中心的隐私。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于K均值聚类的隐私信息保护方法，包括下述步骤：

S1：数据加密：多个客户端CU_i采用双向加法同态代理重加密的加密算法进行数据x_i加密得到加密密文

并将加密密文上传至云服务端；

S2：重加密密钥生成：客户端CU_i、云服务端CSP和辅助云服务端ACSP进行数据交互计算，得到重加密密钥

S3：密文转换：云服务端CSP收到加密密文

采用双向加法同态代理重加密的重加密算法和重加密密钥

进行重加密，得到同一公钥的重加密密文

再与辅助云服务端ACSP进行数据交互，将重加密密文

转换为Paillier加密的密文E(pk_p′，x_i)；

S4：云服务端CSP获得Paillier加密的密文E(pk_p′，x_i)后计算聚类，具体步骤为：

初始化聚类中心：客户端CU_i定义聚类中心的数量，设置每个聚类中心对应一个类别，初始化聚类中心后，根据数据x_i对应的聚类中心的索引初始化位图向量V_i的密文发送至云服务端CSP；

数据划分：云服务端CSP将接收到位图向量V_i组成位图矩阵V_n×k，并与辅助云服务端ACSP进行数据密文交互计算距离的密文，根据与聚类中心的距离的密文，将数据划分到最近的聚类中心，更新每个数据对应的位图矩阵V_n×k；

更新聚类中心：根据更新后位图矩阵V_n×k的密文和Paillier加密的数据密文E(pk_p′，x_i)计算新的聚类中心；

判断聚类是否终止：通过比较位图矩阵V_n×k更新前后是否有变化，判断是否终止聚类迭代过程；

S5：返回结果至客户端：云服务端CSP先将聚类结果的密文转换双向加法同态代理重加密的密文，再将双向代理重加密的辅助云服务端ACSP公钥下密文转换为不同客户端公钥下的密文，最后将聚类结果的密文返回给客户端，客户端CU_i解密得到聚类结果。

作为优选的技术方案，还包括密钥对生成步骤，具体步骤如下所述：

云服务端CSP调用ElGamal加密算法中的Gengroup函数生成公共参数PP＝(p，G₁，g)，G₁是价为素数p的乘法群，其中g是乘法群G₁的生成元，同时把生成的公共参数PP发送至客户端CU_i和辅助云服务端ACSP；

客户端CU_i调用双向加法同态代理重加密的KeyGen(PP)算法，计算公钥

对应的私钥是随机选取

其中，

由集合{1，...，p-1}中与p互素的整数构成，客户端CU_i得到密钥对

辅助云服务端ACSP调用双向加法同态代理重加密的KeyGen(PP)算法，计算公钥

对应的私钥是随机选取

由集合{1，...，p-1}中与p互素的整数构成，得到辅助云服务端密钥对(sk_ACSP，pk_ACSP)，同时调用Paillier加密系统的KeyGen(κ)算法得到辅助云服务端ACSP输出密钥对(sk_p′，pk_p′)，其中，算法输入κ表示安全系数。

作为优选的技术方案，步骤S1所述数据加密的具体步骤为：

客户端CU_i数据设为向量x_i＝{x_i，1，…，x_i，d}，客户端CU_i调用双向加法同态代理重加密算法得到加密密文：

其中

g是乘法群G₁的生成元，

表示客户端私钥，将加密数据集上传到云服务端CSP。

作为优选的技术方案，步骤S2所述重加密密钥生成的具体步骤为：

S21：云服务端CSP选择n个随机数

由集合{1，...，p-1}中与p互素的整数构成，把随机数分别发送到客户端CU_i；

S22：客户端CU_i收到随机数r′_i，计算

并将计算结果发送至辅助云服务端ACSP，其中

为客户端私钥；

S23：辅助云服务端ACSP根据参与的客户端CUi发送的

计算

同时将计算结果发送至云服务端CSP，其中sk_ACSP为辅助云服务端私钥；

S24：云服务端CSP得到

计算重加密密钥：

其中i∈{1，2，…，n}。

作为优选的技术方案，步骤S3所述密文转换的具体步骤为：

S31：云服务端CSP采用双向加法同态代理重加密中重加密算法ReEnc将来自不同客户端的加密密文转换成同一公钥的加密密文，计算公式为：

其中，i∈{1，...，n}，j∈{1，...，d}，g是乘法群G₁的生成元，

表示客户端密钥对，(sk_ACSP，pk_ACSP)表示辅助云服务端密钥对，将加密密文

转换为重加密密文

S32：重加密密文

转化为Paillier加密密文，具体过程为：

云服务端CSP先把重加密密文

加上噪声得

再发送给辅助云服务端ACSP；

辅助云服务端ACSP采用持有的私钥sk_ACSP解密

得x′_i，计算公式为：

限据g计算得到x′_i，j，其中i∈{1，...，n}，j∈{1，...，d}，再加密并用Paillier加密系统下的公钥加密pk_p′和Paillier加密系统的加密算法得E(pk_p′，x′_i)，计算公式为：

扫集合{1，...，N-1}中与N互素的整数构成，其中j∈{1，...，d}，再把密文E(pk_p′，x′_i)＝{E(pk，x′_i，1)，...，E(pk，x′_i，d)}发送到云服务端CSP；

最后云服务端CSP将接收到密文去掉噪声恢复原始数据的密文E(pk_p′，x_i)＝{E(pk_p′，x_i，1)，…，E(pk_p′，x_i，d)}。

作为优选的技术方案，步骤S4所述初始化聚类中心的具体步骤为：

客户端CU_i设定聚类中心的数量k的值，定义类别label＝{λ₁，…，λ_k}，选取任意一个聚类中心μ_j＝{μ_j，1，…，μ_j，d}，每个聚类中心对应一个类别λ_j，采用辅助云服务端ACSP的公钥pk_p′和Paillier加密，得到初始化聚类中心的密文多元组E(pk_p′，μ_j)：

E(pk_p′，μ_j)＝<E(pk_p′，μ_j，1)，…，E(pk_p′，μ_j，d)，E(pk_p′，λ_j)>；

其中，j∈{1，2，…，k}；

客户端CU_i计算：v_i，j＝E(pk_p′，0)，v_i，j表示数据x_i是否属于第j个聚类中心，当v_i，j＝E(pk_p′，0)表示数据x_i不属于第j个聚类中心，v_i，j＝E(pk_p′，1)表示数据x_i属于第j个聚类中心；

初始化位图向量V_i：V_i＝{v_i，1，…，v_i，k}＝{E(pk_p′，0)，...，E(pk_p′，0)}，将E(pk_p′，μ_j)发送至云服务端CSP，同时每个客户端CU_i发送位图向量V_i到云服务端CSP。

作为优选的技术方案，步骤S4中所述数据划分的具体步骤为：

云服务端CSP根据每个数据向量x_i与k个聚类中心计算距离得到的k个距离值，先比较k个距离值的大小，得到最小值对应的聚类中心，再把x_i划分到对应的聚类中心，采用密文比较更小值算法进行迭代计算得到最小值元组T_i，min：

其中

是数据向量x_i与聚类中心的距离最小值的密文，[λ_i，min]是数据向量x_i划分到最近聚类中心所对应的类别密文；

根据每个向量x_i对应距离值最小值元组T_i，min中[λ_i，min]＝E(pk_p′，λ_min)和密文集合{E(pk_p′，λ₁)，…，E(pk_p′，λ_k)}，通过计算得到E(pk_p′，t′_i，j(λ_min-λ_j))判断λ_min与λ_j是否相等，更新位图向量中对应位置v_i，j，最后更新位图矩阵V_n×k中向量(v_i，1，…，v_i，k)。

作为优选的技术方案，步骤S4中所述更新聚类中心的具体步骤为：

根据更新后位图矩阵V′_n×k＝{(v′_1，1，...，v′_1，k)，..，(v′_n，1，..，v′_n，k)}和数据密文集合{E(pk_p′，x_i)，...，E(pk_p′，x_n)}，计算

其中云服务端与辅助云服务端运用Paillier的SM算法得到E(pk_p′，v′_t，j·x_t，i)，CSP计算：

再组成：E(pk_p′，s_j)＝{E(pk_p′，s_j，1)，…，E(pk_p′，s_j，d)}；

云服务端CSP根据更新后位图矩阵V′_n×k＝{(v′_1，1，...，v′_1，k)，..，(v′_n，1，..，v′_n，k)}计算：

CSP根据聚类中心E(pk_p′，μ_j)＝<E(pk_p′，μ_j，1)，…，E(pk_p′，μ_j，d)，E(pk_p′，λ_j)〉中的E(pk_p′，λ_j)以及计算得到的E(pk_p′，s_j)、E(pk_p′，h_j)，组成新的聚类中心E(pk_p′，μ′_j)＝<E(pk_p′，s_j)，E(pk_p′，h_j)，E(pk_p′，λ_j)>；

其中，j∈{1，2，…，k}、s_j/h_j表示中心值向量明文，E(pk_p′，s_j)与E(pk_p′，h_j)表示中心值向量密文形式，E(pk_p′，λ_j)表示中心对应的类别，E(pk_p′，h_j)代表是属于中心的数据记录条数总和的密文，E(pk_p′，s_j，i)表示属于λ_j这个类别的数据中第i个属性值总和的密文。

作为优选的技术方案，步骤S4中所述判断聚类是否终止的具体步骤为：

所述通过比较位图矩阵V_n×k更新前后是否有变化，包括明文比较和密文比较；

所述明文比较：先将更新前的位图矩阵V_n×k和更新后的位图矩阵V′_n×k进行一一对应相乘得到新的位图矩阵Ψ_n×k，再把新的位图矩阵Ψ_n×k中全部值做加法运算，最后把运算后结果与n值相比较，n值表示客户端的数量；

所述密文比较：先将更新前的位图矩阵V_n×k和更新后的位图矩阵V′_n×k进行一一对应相乘得到新的位图矩阵Ψ_n×k，再把新的位图矩阵Ψ_n×k中全部值做加法运算，再解密得到运算结果M与n值相比较：

当M＝n时，辅助云服务端发送T给云服务端，聚类过程结束；当M≠n时，辅助云服务端发送F给云服务端，继续循环进行数据划分和更新聚类中心步骤，直至更新后的位图矩阵V′_n×k没有变化。

作为优选的技术方案，步骤S5所述返回结果至客户端，具体步骤为：

云服务端CSP给每个数据密文E(pk_p′，x_i)在聚类结束后计算得到的T_i，min中类别密文[λ_i，min]加噪音得到[λ′_i，min]，将[λ′_i，min]发送到辅助云服务端；

辅助云服务端ACSP接收到[λ′_i，min]进行解密，再调双向加法同态代理重加密的加密算法和产生的公钥加密pk_ACSP加密得到[λ″_i，min]，再把密文[λ″_i，min]发送给云服务端CSP；

云服务端CSP得到[λ″_i，min]之后去掉噪声后得到[λ″′_i，min]；

对[λ″′_i，min]采用双向加法同态代理重加密中重加密算法

得到

将

发送给参与的客户端CU_i，客户端CU_i解密得到聚类结果。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用双向加法同态代理重加密算法实现了对不同公钥的密文进行聚类，也实现了将同一公钥下的聚类结果转换为不同公钥下的聚类结果返回给客户端，同时保护了客户端的私人数据和聚类中心的隐私。

(2)本发明采用的双向加法同态代理重加密算法支持加法同态性质，执行密文加法运算是能够减少计算，使得聚类运算效率高。

附图说明

图1为本实施例基于K均值聚类的隐私信息保护方法的流程示意图；

图2为本实施例基于K均值聚类的隐私信息保护方法的明文比较运算示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例假设社区的两个云服务端不合谋，同时利用双向加法同态代理重加密算法，实现了不同公钥的密文进行聚类，还有同一公钥下的聚类结果转换成不同公钥下的聚类结果返回给客户端，同时保护了客户端的私人数据和社区信息(聚类中心)的隐私。

如图1所示，本实施例提供一种基于K均值聚类的隐私信息保护方法，具体步骤如下所述：

S0：密钥对生成步骤：

首先云服务端CSP调用ElGamal加密中Gengroup函数生成公共参数PP＝(p，G₁，g)，G₁是价为素数p的乘法群，其中g是乘法群G₁的生成元，同时把产生的参数发送给其他参与者和辅助云服务端ACSP；

对应的私钥是随机选取

其中，

辅助云服务端ACSP也调用该算法得到密钥对

同时ACSP调用了Paillier加密系统的KeyGen(κ)算法，其中，算法的输入κ是一个安全系数，选取两个大素数p和q，同时满足|p|＝|q|＝κ，计算：

N＝p·q；

λ＝lcm((p-1)，(q-1))；

随机选择整数

由集合{1，...，N-1}中与N互素的整数构成，同时使得gcd(L(g^λmod N²)，N)＝1，定义L(x)＝(x-1)/N，计算：

μ＝(L(g^λmod N²))^-1

输出值为辅助云服务端ACSP公钥pk_p′＝(g，N)和私钥sk_p′＝(λ，μ)，辅助云服务端ACSP得到输出密钥对(sk_p′，pk_p′)；

S1：数据加密：

参与的客户端CU_i拥有的数据用向量x_i＝{x_i，1，…，x_i，d}(i∈{1，2，…，n})表示，为了保护自己的私人信息需要在上传数据给CSP前加密数据；参与的客户端CU_i调用双向加法同态代理重加密的加密算法得：

其中

将加密后的数据集上传到CSP；

S2：重加密密钥生成：

重加密密钥生成主要通过CSP、参与的客户端CU_i和ACSP进行安全交互，其过程如下：

S21：CSP选择n个随机数

分别发送到参与的客户端CU_i(i＝1，2，…，n)；

S22：参与的客户端CU_i收到随机数r′_i，接着计算

把这个计算结果发送给辅助云服务端ACSP；

S23：ACSP根据n个参与的客户端CU_i发送的

计算

同时发送给CSP；

S24：CSP得到

计算重加密密钥：

这个过程需要在安全协议SSL通信，才可以得到保证安全性。

S3：云服务端进行密文转换：

S31：CSP收到加密的数据集

首先考虑到这些密文是属于不同公钥下，需要把来自不同参与客户端加密的数据集转换成同一公钥的数据集，其就是将

转换到

通过调用双向加法同态代理重加密中重加密的ReEnc算法和重加密密钥进行重加密，主要计算

其中i∈{1，...，n}，j∈{1，...，d}。

S32：为了考虑方便计算聚类，需要把双向加法同态代理重加密的密文转换成Paillier加密的密文，

转换过程如下：

(1)CSP先扣

密文加上噪声得

再发送给ACSP；

(2)ACSP用持有的私钥sk_ACSP解密

得x′_i，再加密并用Paillier加密系统下的公钥加密pk_p′和Paillier加密系统的加密算法得E(pk_p′，x′_i)，再把密文发送给CSP；

(3)最后CSP将接收到密文去掉噪声恢复原来数据的密文E(pk_p′，x_i)；S4：云服务端获得Paillier加密的密文E(pk_p′，x_i)后计算聚类：

CSP得到了E(pk_p′，x_i)(i∈{1，2，…，n})密文数据集，CSP与ACSP交互计算聚类过程，包括初始化聚类中心、数据划分、更新聚类中心、判断聚类是否终止步骤。外包过程需要保护聚类中心值和类别，不要泄露额外信息；

S41：初始化聚类中心：

参与的客户端CUs协商确定k的值，定义类别表示为label＝{λ₁，…，λ_k}，随机选取k个中心μ_j＝{μ_j，1，…，μ_j，d}(j∈{1，2，…，k})，每个中心对应一个类别λ_j；加密中心则需要用ACSP的Paillier加密下公钥加密，初始化中心的密文形式表示为多元组(pk_p′，μ_j)＝<E(pk_p′，μ_j，1)，…，E(pk_p′，μ_j，d)，E(pk_p′，λ_j)>；

其中，j∈{1，2，…，k}；

客户端CU_i计算：

v_i，j＝E(pk_p′，0)

其中i∈{1，2，…，n}，j∈{1，2，…，k}，位图向量V_i＝{v_i，1，…，v_i，k}＝{E(pk_p′，0)，...，E(pk_p′，0)}，根据数据x_i属于哪个聚类中心的索引初始化的，由于该数据没有划分到最近聚类中心，因此位图向量全是E(pk_p′，0)。其中v_i，j表示数据x_i是否属于第j个聚类中心，v_i，j＝E(pk_p′，0)说明数据x_i不属于第j个聚类中心，v_i，j＝E(pk_p′，1)说明数据x_i属于第j个聚类中心，将E(pk_p′，μ_j)(j∈{1，2，…，k})不按顺序发送给CSP，同时每个CU_i发送V_i给CSP；

S42：数据划分：

CSP将接收到CU_i位图向量V_i＝{v_i，1，…，v_i，k}组成一个位图矩阵V_n×k＝{(v_1，1，…，v_1，k)，…，(v_n，1，…，v_n，k)}。得到初始化中心E(pk_p′，μ_j)(j∈{1，2，…，k})之后，接下来就是对接收到的参与客户端CU_i的数据密文E(pk_p′，x_i)进行计算聚类。数据划分过程分三个步骤，主要内容如下：

S421：计算距离：先计算每个数据对应k个中心的距离值，在这些距离值中找最小值，就归属于这个中心的类别。计算数据和中心之间的距离值过程分两种情况：第一种是中心值为初始化的，第二种是中心值为迭代后的。接下来分别描述两种情况的过程：

第一种情况为中心值为初始化时，直接对于x_i与每个中心μ_j计算平方欧氏距离值，其公式是：

其中i∈{1，2，…，n}，j∈{1，2，…，k}。计算过程：

①CSP根据E(pk_p′，x_i，i′)和E(pk_p，μ_j，i′)计算：

E(pk_p′，(x_i，i′-μ_j，i′))＝E(pk_p′，x_i，i′)·E(pk_p′，μ_j，i′)^N-1

②CSP与ACSP交互并运用Paillier的SM算法计算得：

E(pk_p′，(x_i，i′-μ_j，i′)²)＝SM(E(pk_p′，x_i，i′-μ_j，i′)，E(pk_p′，x_i，i′-μ_j，i′))

③CSP再计算：

距离值为[D_i，j]＝E(pk_p′，D_i，j)，类别值为[λ_i，j]＝E(pk_p′，λ_j)

第二种情况为中心值为迭代后时：在每次迭代后计算距离值时，由于更新的中心设为

计算：

其中s_j＝{s_j，1，…，S_j，d}。计算距离转变成计算；

计算距离过程如下：

①通过CSP和ASCP交互并采用了Paillier加密方案中SM算法计算得：

E(pk_p′，x_i，i′·h_j)＝SM(E(pk_p′，x_i，i′)，E(pk_p′，h_j))

E(pk_p′，h_j ²)＝SM(E(pk_p′，h_j)，E(pk_p′，h_j))

其中(i′∈{1，…，d})；

②CSP根据E(pk_p′，x_i，i′·h_j)和E(pk_p′，s_j，i′)计算：

E(pk_p′，x_i，i′·h_j-s_j，i′)＝E(pk_p′，x_i，i′·h_j)·E(pk_p′，s_j，i′)^N-1；

其中i′∈{1，…，d}，再与ACSP交互并采用Paillier加密方案中SM算法计算得：

E(pk_p′，(x_i，i′·h_j-s_j，i′)²)＝SM(E(pk_p′，x_i，i′·h_j-s_j，i′)，E(pk_p′，x_i，i′·h_j-s_j，i′))；

③最后CSP计算：

距离值为

类别值为[λ_i，j]＝E(pk_p′，λ_j)；

S422：数据根据与聚类中心的距离划分到最近聚类中心：CSP根据每个数据向量x_i与k个聚类中心计算距离得到的k个距离值，先比较这k个距离值的大小得到最小值对应的聚类中心，再把x_i划分于这个聚类中心，数据向量x_i就属于该聚类中心所对应的类别，每个x_i有k个距离值{[D_i，1]，…，[D_i，j]}或者

集合{[D_i，1]，…，[D_i，j]}中求最小值过程与集合

中求最小值过程是类似的；

比较k个距离值

过程，首先考虑到

和

两个二元组之间进行比较得到更小值，然后考虑到集合

中k个二元组计算最小值。

印

两个二元组之间比较采用密文比较算法。

本实施例通过计算更大值(PMAX)算法进行改变为计算更小值(PMIN)算法，将PMIN算法作为密文比较算法。

PMIN算法：CSP把密文

和

作为该算法的输入，ACSP把私钥sk_p′作为算法的输入。该算法比较过程是计算距离值密文得哪个比较小就得到新的密文T_i，u。

PMIN_k(<[D_i，1]，[λ_i，1]>，…，<[D_i，k]，[λ_i，k]>)算法主要是根据迭代和分层设计的。每次迭代过程中，需要执行PMIN算法的输出值作为下一次迭代的输入，因此就会生成一个二进制树自底而上的形式执行，该算法只有CSP知道最后结果的密文形式，而ACSP在比较过程不会得到任何额外的信息。

在PMIN_k算法中，CSP有k个二元组

ACSP有对应的私钥sk_p。PMIN_k算法过程如下：

①初始化：设

初始化集合S_b＝{T_i，1，…，T_i，k}，定义num再赋值为k。

②迭代：需要CSP和ACSP参与，其中第一次迭代时，i′从1到

循环，对集合S_b＝{T_i，1，T_i，2，…，T_i，k}中两两进行PMIN算法得到更小值赋值到T_i，2i′-₁，同时T_i，2i′中每个元素都变成0，还有num也变成

第二次迭代时，循环

次，计算集合S_b中{T_i，1，T_i，3，…，}的两两比较得到较小值，之后将

当迭代到

次时，根据第二次迭代以此类推计算，到最后计算出最小值的T_i，min。

S423：更新每个数据对应的位图向量：当CSP得到了(x₁，…，x_n)对应的距离值最小值元组(T_1，min，…，T_n，min)。每个向量x_i对应位图矩阵中V_n×k中(v_i，1，…，v_i，k)，需要根据每个元组

中[λ_i，min]＝E(pk_p′，2_min)密文集合{E(pk_p′，λ₁)，…，E(pk_p′，λ_k)}，通过计算得到E(pk_p′，t′_i，j(λ_min-λ_j))可以判断λ_min与λ_j是否相等，根据λ_min与λ_j相等，更新位图向量中对应位置v′_i，j＝E(pk_p′，1)，否则更新位图向量中对应位置v′_i，j＝E(pk_p′，0)，这样更新位图矩阵V_n×k中向量(v_i，1，…，v_i，k)。更新主要是找到λ_min对应属于哪个类别进行更新(v_i，1，…，v_i，k)。详细过程如下：

①CSP：根据每个向量x_i对应T_i，min和密文集合{E(pk_p′，λ₁)，…，E(pk_p′，λ_k)}，设j从1到k，对T_i，min中E(pk_p′，λ_min)进行计算：

其中，t′_i，j是一个随机数，

N＝p·q，p和q表示Paillier加密的选取两个大素数，

设Φ＝{Λ₁，…，Λ_k}，同时产生一个随机置换函数π，计算Φ′＝π(Φ)，随机置换函数π将Φ＝{Λ₁，…，Λ_k}中每个Λ_j(j∈{1，…，k})值的位置随机置换得Φ′，把Φ′发送到ASCP。

②ACSP：将Φ′＝{Λ′₁，…，Λ′_k}中Λ′_j′(j′∈{1，…，k})解密，计算：

η_j′＝D(sk_p′，Λ′_j′)＝L(Λ′_j′mod N²)·μmod N；

其中sk_p′＝(λ，μ)，Λ′_j′∈{E(pk_p′，t′_i，1(λ_min-λ₁))，...，E(pk_p′，t′_i，k(λ_min-λ_k))}，j′∈{1，…，k}，判断解密η_j′的值：

i.当η_j′＝＝0时，计算w_j′＝E(pk_p′，1)；

ii.当η_j′≠0时，计算w_j′＝E(pk_p′，0)；

将W＝{w₁，…，w_k}＝{E(pk_p′，0)，...，E(pk_p′，1)，...，E(pk_p′，0)}再发送给CSP，在W中E(pk_p′，1)的位置表示这个数据x_i归属于最近聚类中心的索引；

假设：

数据x_i属于最近聚类中心的索引是j′；

③CSP：将接收到的W＝{w₁，…，w_k}，计算

Γ＝π^-1(W)；

其中j′值与j值不同的。

S43：更新聚类中心：

CSP根据更新后位图矩阵V′_n×k＝{(v′_1，1，…，v′_1，k)，…，(v′_n，1，…，v′_n，k)}的密文和数据密文{E(pk_p′，x_i)，...，E(pk_p′，x_n)}(i∈{1，2，…，n})计算新的聚类中心值。设三元组E(pk_p′，μ′_j)＝<E(pk_p′，s_j)，E(pk_p′，h_j)，E(pk_p′，λ_j)>代表更新后的中心，其中

E(pk_p′，s_j)＝{E(pk_p′，s_j，1)，…，E(pk_p′，s_j，d)}(j∈{1，2，…，k})

其中，s_j/h_j代表是中心值向量明文，E(pk_p′，s_j)与E(pk_p′，h_j)共同表示中心值向量密文形式，E(pk_p′，λ_j)代表是该中心对应的类别，E(pk_p′，h_j)代表是属于这个中心的数据记录条数总和的密文，E(pk_p′，s_j，i)表示属于λ_j这个类别的数据中第i个属性值总和的密文。

E(pk_p′，s_j)＝{E(pk_p′，s_j，1)，…，E(pk_p′，s_j，d)}和E(pk_p′，h_j)主要计算过程：

其中j∈{1，2，…，k}；

更新聚类中心过程如下：

根据更新后位图矩阵V′_n×k＝{(v′_1，1，…，v′_1，k)，…，(v′_n，1，…，v′_n，k)}的密文和E(pk_p′，x_i)(i∈{1，2，…，n})，计算

其中CSP与ACSP运用Paillier的SM算法得到E(pk_p′，v′_t，j·x_t，i)，CSP计算：

再组成E(pk_p′，s_j)＝{E(pk_p′，s_j，1)，…，E(pk_p′，s_j，d)}；

CSP根据更新后位图矩阵V′_n×k＝{(v′_1，1，…，v′_1，k)，…，(v′_n，1，…，v′_n，k)}计算：

CSP根据聚类中心E(pk_p′，μ_j)＝<E(pk_p′，μ_j，1)，…，E(pk_p′，μ_j，d)，E(pk_p′，λ_j)>中E(pk_p′，λ_j)以及计算得E(pk_p′，s_j)和E(pk_p′，h_j)，组成新的聚类中心E(pk_p′，μ′_j)＝<E(pk_p′，s_j)，E(pk_p′，h_j)，E(pk_p′，λ_j)>，

其中j∈{1，2，…，k}，s_j/h_j表示中心值向量明文，E(pk_p′，s_j)与E(pk_p′，h_j)表示中心值向量密文形式，E(pk_p′，λ_j)代表是该中心对应的类别，E(pk_p′，h_j)代表是属于中心的数据记录条数总和的密文，E(pk_p′，S_j，i)表示属于λ_j这个类别的数据中第i个属性值总和的密文。

S44：判断聚类是否终止：

更新完中心之后，把判断之前的中心位置和更新后的中心位置是否有所变化改为判断数据聚类结果是否有所变化，可以把这个比较简化成比较更新前位图矩阵V_n×k和更新变化后位图矩阵V′_n×k是否有所变化，其中矩阵中v_i，j∈(0，1)，v′_i，j∈(0，1)，其中i∈{1，2，…，n}，j∈{1，2，…，k}。位图矩阵V′_n×k中第i行向量中出现一次v′_i，j＝1的位置，表示第i个数据属于最近聚类中心的索引，同时说明第i个数据是属于λ_j类别。如果更新前位图矩阵V_n×k和更新变化后位图矩阵V′_n×k有变化，说明数据聚类结果有变化，继续聚类迭代过程；如果没有变化，说明说明数据聚类结果没有变化，终止聚类过程。

如图2所示，明文比较两个矩阵是否变化的过程是先将更新前的矩阵V_n×k和更新后的矩阵V′_n×k进行一一对应相乘得到新的矩阵Ψ_n×k，再把新的矩阵Ψ_n×k中全部值做加法运算；最后把运算之后结果与n相比较。密文比较中先做密文运算操作，再解密运算结果与n值相比较，n值表示客户端的数量。

接下来描述密文比较过程如下：

根据矩阵V_n×k的密文和矩阵V′_n×k的密文中一个个对应计算E(pk_p，v_i，j·v′_i，j)(i∈{1，…，n}，j∈{1，…，k})，其过程是CSP和ACSP交互并运用到Paillier的SM算法计算得到E(pk_p，v_i，j·v′_i，j)。

CSP再做

这个运算式的密文上运算操作，计算：

其中(i∈{1，…，n})；再把

发送给ASCP。ASCP解密得到

之后判断M是否等于n：

a)当M＝＝n时，ACSP就会发送T给CSP，

b)当M≠n时否则就会发送F给CSP。

当CSP接收到T时，表示更新前的位图矩阵V_n×k和更新后的位图矩阵V′_n×k没有变化，聚类过程结束，当收到F时，表示更新前的位图矩阵V_n×k和更新后的位图矩阵V′_n×k有变化，继续循环数据划分和更新聚类中心过程，直至更新后的位图矩阵V′_n×k没有变化；

S5：返回结果给客户端

CSP得到每个数据密文E(pk_p′，x_i)在聚类结束后计算得到的T_i，min中类别密文[λ_i，min]＝E(pk_p′，λ_min)，主要把E(pk_p′，λ_min)转换成

再转换成

过程如下：

CSP：给类别密文[λ_i，min]＝E(pk_p′，λ_min)(i∈{1，2，…，n})加噪音得到[λ′_i，min]＝E(pk_p′，λ′_min)。先随机选取z′_i，加密z′_i得E(pk_p′，z′_i)。再计算[λ′_i，min]＝E(pk_p′，λ_min+z′_i)＝E(pk_p′，λ′_min)(i∈{1，2，…，n})，把[λ′_i，min](i∈{1，2，…，n})发送给ACSP；

ACSP：接收到[λ′_i，min]＝E(pk_p′，λ′_min)解密，再调双向加法同态代理重加密的加密算法和ACSP产生的公钥加密pk_ACSP加密得到

再把这些密文发送给CSP；

CSP：得到

之后就需要去掉噪声计算得：

先计算

再计算：

CSP得到了

使用双向加法同态代理重加密中重加密算法

得

将

发送给参与的客户端CU_i，CU_i再解密就得到结果。

本实施例分析Rong等人提出的PPCOM方案与本实施例的基于K均值聚类的隐私信息保护方法的计算代价，设Exp、Mul分别表示模的指数运算和乘法运算。PKC-DD加密中加密需要2Exp+1Mul，正常解密算法需要1Exp+1Mul，主私钥解密算法需要2Exp+2Mul，双向代理重加密中加密算法需要3Exp+1Mul，解密算法需要1Exp+1Mul，双向代理重加密中重加密算法需要1Exp，Paillier加密中加密算法需要2Exp+1Mul，解密需要1Exp+2Mul。从密文转换、加法、乘法、两个距离密文比较、聚类的数据划分、更新中心、判断聚类是否终止过程分析计算代价，如下表1所示：

表1计算代价对比表

密文转换过程中主要解决了将不同公钥下密文转换到同一公钥下，本实施例提出的方案与PPCOM方案相对比，本实施例在密文转换过程降低计算代价。两个距离密文比较中，本实施例方案的计算代价明显比Rong等人提出的PPCOM方案的少。Rong等人提出的PPCOM方案中采用的加密算法是支持乘法同态性质，本实施例方案采用的加密算法是支持加法同态性质，所以执行密文加法运算减少计算。从整体来说，本实施例基于K均值聚类的隐私信息保护方法的聚类效率比Rong等人提出的PPCOM方案高。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于K均值聚类的隐私信息保护方法，其特征在于，包括下述步骤：

并将加密密文上传至云服务端；

步骤S2所述重加密密钥生成的具体步骤为：

S21：云服务端CSP选择n个随机数

S22：客户端CU_i收到随机数r′_i，计算

并将计算结果发送至辅助云服务端ACSP，其中

为客户端私钥；

S23：辅助云服务端ACSP根据参与的客户端CU_i发送的

计算

S24：云服务端CSP得到

计算重加密密钥：

其中i∈{1，2，…，n}；

S3：密文转换：云服务端CSP收到加密密文

采用双向加法同态代理重加密的重加密算法和重加密密钥

进行重加密，得到同一公钥的重加密密文

再与辅助云服务端ACSP进行数据交互，将重加密密文

转换为Paillier加密的密文E(pk_p′，x_i)；

步骤S3所述密文转换的具体步骤为：

转换为重加密密文

S32：重加密密文

转化为Paillier加密密文，具体过程为：

云服务端CSP先把重加密密文

加上噪声得

再发送给辅助云服务端ACSP；

辅助云服务端ACSP采用持有的私钥sk_ACSP解密

得x′_i，计算公式为：

根据g计算得到x′_i，j，其中i∈{1，...，n}，j∈{1，...，d}，再加密并用Paillier加密系统下的公钥加密pk_p′和Paillier加密系统的加密算法得E(pk_p′，x′_i)，计算公式为：

由集合{1，...，N-1}中与N互素的整数构成，其中j∈{1，...，d}，再把密文E(pk_p′，x′_i)＝{E(pk，x′_i，1)，...，E(pk，x′_i，d)}发送到云服务端CSP；

最后云服务端CSP将接收到密文去掉噪声恢复原始数据的密文E(pk_p′，x_i)＝{E(pk_p′，x_i，1)，…，E(pk_p′，x_i，d)}；

S5：返回结果至客户端：云服务端CSP先将聚类结果的密文转换双向加法同态代理重加密的密文，再将双向代理重加密的辅助云服务端ACSP公钥下密文转换为不同客户端公钥下的密文，最后将聚类结果的密文返回给客户端，客户端CU_i解密得到聚类结果；

步骤S5所述返回结果至客户端，具体步骤为：

对[λ″′_i，min]采用双向加法同态代理重加密中重加密算法

得到

将

发送给参与的客户端CU_i，客户端CU_i解密得到聚类结果。

2.根据权利要求1所述的基于K均值聚类的隐私信息保护方法，其特征在于，还包括密钥对生成步骤，具体步骤如下所述：

对应的私钥是随机选取

其中，

对应的私钥是随机选取

3.根据权利要求1所述的基于K均值聚类的隐私信息保护方法，其特征在于，步骤S1所述数据加密的具体步骤为：

其中

g是乘法群G₁的生成元，

表示客户端私钥，将加密数据集上传到云服务端CSP。

4.根据权利要求1所述的基于K均值聚类的隐私信息保护方法，其特征在于，步骤S4所述初始化聚类中心的具体步骤为：

客户端CU_i设定聚类中心的数量k的值，定义类别label＝{λ₁，…，λ_k}，选取任意一个聚类中心μ_j＝{μ_j，1，…，μ_j，a}，每个聚类中心对应一个类别λ_j，采用辅助云服务端ACSP的公钥pk_p′和Paillier加密，得到初始化聚类中心的密文多元组E(pk_p′，μ_j)：

E(pk_p′，μ_j)＝<E(pk_p′，μ_j，1)，…，E(pk_p′，μ_j，a)，E(pk_p′，λ_j)>；

其中，j∈{1，2，…，k}；

5.根据权利要求1所述的基于K均值聚类的隐私信息保护方法，其特征在于，步骤S4中所述数据划分的具体步骤为：

其中

6.根据权利要求1所述的基于K均值聚类的隐私信息保护方法，其特征在于，步骤S4中所述更新聚类中心的具体步骤为：

CSP根据聚类中心E(pk_p′，μ_j)＝<E(pk_p′，μ_J，1)，…，E(pk_p′，μ_j，d)，E(pk_p′，λ_j)>中的E(pk_p′，λ_j)以及计算得到的E(pk_p′，s_j)、E(pk_p′，h_j)，组成新的聚类中心E(pk_p′，μ′_j)＝<E(pk_p′，s_j)，E(pk_p′，h_j)，E(pk_p′，λ_j)>；

7.根据权利要求1所述的基于K均值聚类的隐私信息保护方法，其特征在于，步骤S4中所述判断聚类是否终止的具体步骤为：