CN113239393B - 纵向联邦k-Means隐私保护方法、装置及电子设备 - Google Patents

纵向联邦k-Means隐私保护方法、装置及电子设备 Download PDF

Info

Publication number
CN113239393B
CN113239393B CN202110471977.1A CN202110471977A CN113239393B CN 113239393 B CN113239393 B CN 113239393B CN 202110471977 A CN202110471977 A CN 202110471977A CN 113239393 B CN113239393 B CN 113239393B
Authority
CN
China
Prior art keywords
cloud server
participants
participant
clustering
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110471977.1A
Other languages
English (en)
Other versions
CN113239393A (zh
Inventor
唐飞
侯瑞琦
梁世凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110471977.1A priority Critical patent/CN113239393B/zh
Publication of CN113239393A publication Critical patent/CN113239393A/zh
Application granted granted Critical
Publication of CN113239393B publication Critical patent/CN113239393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明属于数据挖掘技术领域,涉及一种纵向联邦k‑Means隐私保护方法、装置及电子设备;所述方法包括参与者对样本数据加密并上传至云服务器;云服务器随机选取出聚类中心,利用安全乘法协议计算出参与者的子距离差发送给参与者;参与者将收到的子距离差划分份额分发,计算自身持有和收到的份额之和发送给云服务器;云服务器将样本划分到距离最近的聚类中心所在的聚类中;按照聚类结果计算出每个聚类中所有样本的每个特征之和,更新聚类中心;直至聚类中心不发生变化或者变化很小,云服务器将聚类结果返回给参与者;本发明充分保护了参与者的数据隐私,并且本发明不向参与者泄露新的聚类中心,能够抵抗合谋攻击从而具有更高的安全性。

Description

纵向联邦k-Means隐私保护方法、装置及电子设备
技术领域
本发明属于数据挖掘技术领域,涉及一种纵向联邦k-Means隐私保护方法、装置及电子设备。
背景技术
随着互联网的快速发展,进入了大数据时代,而数据挖掘技术可以从大量的数据中分析并提取隐藏的关键数据信息,从而被广泛的应用到各个领域。聚类算法是数据挖掘技术中常用的方法,其中k-Means聚类算法因其步骤简单、效果较好的优点被经常使用。k-Means算法通过计算样本和聚类中心的距离,把每个样本划分到距离它最近的聚类中,使得一个聚类中的样本相似度很高。但是现实的情况中,数据往往分布在多个数据拥有者上,并且往往包含许多隐私信息,因此如何在保证数据拥有者隐私安全的前提下进行数据挖掘,有着非常重要的意义。联邦学习可以在满足数据隐私、安全和监管要求的前提下进行数据分析,能够用于实现具有隐私保护的数据挖掘。
考虑有多个数据拥有者,对数据集按照纵向(即特征纬度)划分,在联合数据集上进行k-Means聚类操作,最终各个数据拥有者都得到k-Means聚类结果。并且,在聚类操作过程中,数据拥有者不泄露自己的原始数据。
以往的k-Means隐私保护方案,大多存在以下问题:
1、现有方案大多是针对数据横向分布情况下的k-Means聚类,对数据纵向分布的k-Means聚类研究不充分;
2、现有方案往往会泄露k-Means聚类过程中的中间信息,比如新的聚类中心,安全性不高;
3、现有方案大多不能抵抗参与者合谋攻击。
发明内容
有鉴于此,本发明的目的在于提供一种纵向联邦k-Means隐私保护方法、装置及电子设备,本发明利用同态加密和数据切分的方式保证隐私安全。利用云服务器进行k-Means聚类算法中的大部分操作,减轻参与者的计算压力;通过采用对数据进行切分的方式,充分保护了参与者的数据隐私,并且本发明不向参与者泄露新的聚类中心,能够抵抗合谋攻击从而具有更高的安全性。
为达到上述目的,本发明提供如下技术方案:
在本发明的第一方面,本发明提供了一种纵向联邦k-Means隐私保护方法,所述方法包括:
参与者分别对自身的样本数据加密,并上传至云服务器;
云服务器随机选取出k个聚类中心,并利用安全乘法协议计算出每个参与者的子距离差,并将子距离差发送给对应的参与者;
每个参与者将收到的子距离差划分份额,自身保留一份份额后继续分发剩余份额给其他参与者,计算自身保留的份额和收到的份额之和,并将结果发送给云服务器;
云服务器计算所有参与者发送的子距离差份额,确定每个样本距离最近的聚类中心,将样本划分到距离最近的聚类中心所在的聚类中;
云服务器按照聚类结果计算出每个聚类中所有样本的每个特征之和,更新聚类中心;
云服务器判断出新的聚类中心与原聚类中心之间的距离差值是否小于阈值;
若小于阈值,则结束聚类操作,否则用新的聚类中心代替原聚类中心,并进行下一轮迭代。在本发明的第二方面,本发明还提供了一种纵向联邦k-Means隐私保护装置,包括:
同态加密模块,用于对参与者的样本数据加密;
数据传输模块,用于实现参与者与云服务器之间的通信以及参与者之间的通信;
距离计算模块,用于利用安全乘法协议计算出每个参与者的子距离差;
分配模块,用于将收到的子距离差划分份额,参考者自身保留一份份额后继续分发剩余份额给其他参与者;
汇总模块,用于汇总每个参与者持有子距离份额和收到的份额之和;
k-Means模块,用于在随机选取出k个聚类中心后,确定每个样本距离最近的聚类中心,将样本划分到距离最近的聚类中心所在的聚类中,按照聚类结果计算每个聚类中所有样本的每个特征之和,并利用随机数计算出新的聚类中心;
判断模块,用于判断新的聚类中心与原聚类中心之间的距离差值是否小于阈值,若小于阈值,则结束聚类操作;否则,用新的聚类中心代替原聚类中心,并进行下一轮迭代。在本发明的第三方面,本发明还提供了一种电子设备,包括:
处理器;
用于存储机器可执行的存储器;
其中,通过读取并执行所述存储器存储的与一种纵向联邦k-Means隐私保护方法的控制逻辑对应的机器可执行指令,所述处理器被促使:
参与者分别对自身的样本数据加密,并上传至云服务器;
云服务器随机选取出k个聚类中心,并利用安全乘法协议计算出每个参与者的子距离差,并将子距离差发送给对应的参与者;
每个参与者将收到的子距离差划分份额,自身保留一份份额后继续分发剩余份额给其他参与者,计算自身保留的份额和收到的份额之和,并将结果发送给云服务器;
云服务器计算所有参与者发送的子距离差份额,确定每个样本距离最近的聚类中心,将样本划分到距离最近的聚类中心所在的聚类中;
云服务器按照聚类结果计算出每个聚类中所有样本的每个特征之和,更新聚类中心;
云服务器判断出新的聚类中心与原聚类中心之间的距离差值是否小于阈值;
若小于阈值,则结束聚类操作,否则用新的聚类中心代替原聚类中心,并进行下一轮迭代。
本发明的有益效果在于:
本发明提出了一种在无信任第三方并且样本纵向分布在多方的情况下,多个参与者可以安全地共享自身样本数据,保证自身数据隐私安全的情况下实现一个纵向的k-Means聚类隐私保护方法,最终共享聚类结果,实现具有隐私保护的纵向联邦的k-Means。
本发明中的参与者为多方,也就是数据纵向分布在不少于三方的参与者上;算法操作中的距离计算利用Paillier同态加密的性质实现,并且通过作差值方式,避免参与者直接获取距离信息,杜绝参与者有可能利用距离信息推断出聚类中心和数据分布状态等敏感信息;利用数据切分再恢复的操作,避免了参与者泄露本身数据的分布情况;设计安全除法协议,通过云服务器和参与者交互的方式计算新的聚类中心,提高了方案的安全性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
图1是本发明实施例中的应用场景模型图;
图2是本发明实施例中的一种纵向联邦k-Means隐私保护方法流程图;
图3是本发明实施例中的一种纵向联邦k-Means隐私保护装置结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
针对现有数据挖掘中存在的数据隐私安全问题,本发明对现有具有隐私保护的k-Means聚类技术进行研究,最终提出一种样本数据纵向分布多方的k-Means联邦学习方案,具体涉及到纵向联邦k-Means隐私保护方法、装置及电子设备。本发明支持样本数据纵向分布在数据不少于三方,参与者将自身数据加密上传至云服务器,通过云服务器和参与者的相互协商,实现在多方联合数据集上的纵向联邦学习,完成了数据隐私保护。
图1是本发明实施例中的应用场景模型图,如图1所示,本实施例中将纵向联邦k-Means隐私保护划分为两个层次。其中层次1是云服务器,云服务器主要用于存储参与者加密后的样本数据,并且通过与参与者交互的方式,利用同态加密算法和数据分割的方式实现k-Means聚类算法中的距离计算和比较的功能,承担了k-Means聚类算法中的主要计算,减轻参与者的计算压力;层次2是拥有样本数据的参与者,其中样本数据纵向分布在不少于三方的参与者上,用户需要对自身样本数据进行加密并上传至云服务器,并在k-Means聚类算法中与云服务器交互进行距离计算、距离比较和更新聚类中心的功能。
图2是本发明实施例中的一种纵向联邦k-Means隐私保护方法流程图,如图2所示,所述方法包括:
S1:参与者分别对自身的样本数据加密,并上传至云服务器;
首先,本发明可以选择任意一个参与者M1作为发起方节点,将参与者M1的样本数据加密后,上传至云服务器中;当然除此之外,本发明还可以将所有参与者的样本数据加密,这里的参与者可以指的是数据拥有者。
在本发明实施例中,本发明中采用了paillier加密,其中paillier加密支持密文加法操作,即具有加同态,它是一个四元组的概率性加密,表示为Encpa={KenGen,Encrypt,Decrypt,Evaluate}。其中paillier加密方法具有如下性质:E(x)E(y)=E(x+y),E(x)y=E(xy);也就是说将加密结果进行累乘后,解密得出的结果即为累加结果。
在一些实施例中,所述样本数据加密的过程可以包括:
S11:每个参与者生成公钥pki,ski,其中1≤i≤n,n表示参与者数量;具体包括:
S111:每个参与者选取两个大素数p,q,并保证gcd(pq,(p-q)(q-1))=1;
S112:每个参与者计算N=pq,λ=(p-1,q-1);N的二进制表示时所占用的位数,也就是密钥长度,可以根据实际需要确定出相应的密钥长度,一般而言,p,q的位数可以在512位以上,保证密钥的机密性。
S113:每个参与者随机选取g,并且存在μ=(L(gxmod n2))-1mod n,其中
Figure BDA0003045715600000061
L(μ)=(μ-1)/n;
S114:每个参与者的公钥是pk=(N,g),公钥是sk=(λ,μ);
S12:每个参与者选取随机数r,计算出样本密文c=gxrnmod n2,其中
Figure BDA0003045715600000062
x是样本明文;
S13:每个参与者计算
Figure BDA0003045715600000063
其中1≤i≤n,n表示参与者数量,1≤j≤m,m表示样本数量,
Figure BDA0003045715600000064
表示参与者Pi拥有的样本特征数量;
S14:每个参与者将样本密文Ci上传至云服务器。
基于上述实施例展示的方式,即可将每个参与者自身的样本数据加密,形成样本密文后上传至云服务器,云服务器将在云端保存这些样本密文,便于后续数据请求者的请求。
S2:云服务器随机选取出k个聚类中心,并利用安全乘法协议计算出每个参与者的子距离差,并将子距离差发送给对应的参与者;
具体可以包括:
S21:云服务器从上传的加密数据中随机挑选k个样本作为k个初始聚类中心;
其中,初始聚类中心表示为φ={μc|1≤c≤k},
Figure BDA0003045715600000071
μc表示第c个聚类中心;μc,l表示第c个聚类中心的第l个样本特征。
在一些实施例中,作为其中一个参与者的发起方节点M1可以随机选取k个样本ID,这些样本ID对应的样本作为该节点的样本中心,然后将这k个样本ID传给其他参与者M1,M2,…,Mn;其他参与者同样根据这些ID找到己方所对应的样本中心,这样就可以找到k个样本作为初始聚类中心。
在一些优选实施例中,本发明实施例可以使用k-Means++优化初始化聚类中心:发起方节点M1随机选取1个样本ID作为第一个初始化聚类中心,这个ID对应的样本作为该节点的样本中心,然后将这个样本ID传给其他参与者M1,M2,…,Mn,其他参与者同样根据这个ID找到己方的所对应的样本中心,接着发起方计算每个样本距离自己一方已有样本中心的欧式距离平方和,再将这个值加上随机数并用公钥加密再传给下一个参与节点,下一个节点同样计算每个样本距离自己一方已有样本中心的欧式距离平方和并加上上一个节点传过来的欧式距离平方和,直到N个节点全部计算完毕并且第N个节点把最终的平方和汇总到发起方节点M1,发起方减去每个距离对应的随机数并用私钥解密,然后发起方节点计算每个样本与当前已有聚类中心的最短距离,用D(x)表示,接着计算每个样本被选为下一个聚类中心的概率
Figure BDA0003045715600000072
将最大的概率值所对应的样本作为下一个初始化样本聚类中心,并将找到的下一个聚类中心ID发给其他参数者,其他参与者根据这些ID找到自己对应的样本,重复以上过程,直至选取了k个样本中心为止。
S22:云服务器计算每个样本与k个聚类中心的距离dis,距离dis被划分为n个子距离disi
具体的,由于样本数据按照特征划分并分布在不同的参与者上,距离可以被划分为n个子距离;
其中每个样本与k个聚类中心的距离表示为:dis=dis1+dis2+…+disn同一样本与两个聚类中心所对应的两个距离之间的差值表示为dif=dif1+dif2+…+difn=(dis1-dis′1)+(dis2-dis′2)+…+(disn-dis′n),其中1≤i≤n,n表示参与者数量。
S23:云服务器将每个样本与任意两个聚类中心的对应参与者的子距离做差后,得到对应参与者的子距离差值difi
difi=(disn-dis′n)
S24:云服务器利用安全乘法协议计算出每个子距离差值的密文E(difi)。
其中,为了计算出每个子距离差值的密文,首先需要计算出每个特征sl
云服务器计算E(sll)=E(sl)·E(μl)N-1,其中,
Figure BDA0003045715600000082
l表示参与者Pi拥有的样本特征;μl表示第l个样本特征。
S25:云服务器利用安全乘法(SM)协议计算E((sll)2),其中安全乘法协议SM(E(x),E(y))=E(xy)包括:
S251:云服务器挑选两个不一样的随机数rx,ry∈Zn
S252:云服务器计算x′=E(x)E(y),y′=E(rx)E(ry);
S253:云服务器计算x′=E(x)E(y),y′=E(rx)E(ry);
S254:用户Pi计算hx=D(x′),hy=D(y′),h=hxhymod n,h′=E(h);
S255:用户Pi将h′发送给云服务器;
S256:云服务器计算
Figure BDA0003045715600000081
S257:云服务器计算E(xy)=s′E(rxrx)N-1
S26:云服务器计算
Figure BDA0003045715600000084
Figure BDA0003045715600000083
其中1≤i,j≤k,且i≠j,l表示参与者Pi拥有的样本特征;
S27:云服务器计算E(difi)=∏(E((sli,l)2)-E((slj,l)2));
S28:云服务器将E(difi)发送给参与者Pi
S3:每个参与者将收到的子距离差划分份额,自身保留一份份额后继续分发剩余份额给其他参与者,计算自身保留的份额和收到的份额之和,并将结果发送给云服务器;
S31:参与者Pi计算DIFi=D(E(difi));
S32:参与者Pi将DIFi随机划分为n个份额DIFi,1,DIFi,2,…,DIFi,n,并自己保存其中的一个份额DIFi,x
S33:参与者Pi将除了DIFi,x之外的其他n-1个份额发送给其他的n-1个参与者;
S34:参与者Pi接受其他参与者发送的份额;
S35:参与者Pi计算自己保存的份额和接收到的其他参与者的份额之和Sum.di
S36:参与者Pi将Sum.di发送给云服务器。
S4:云服务器计算所有参与者发送的子距离差份额,确定每个样本距离最近的聚类中心,将样本划分到距离最近聚类中心所在的聚类中;
S41:云服务器接受参与者发送与每个样本和每个聚类中心距离相关的Sum.di,1≤i≤n,n表示参与者数量;
S42:云服务器计算sum=Sum.d1+Sum.d2+…+Sum.dn
S43:云服务器得到每个样本和每个聚类中心的距离sum,将每个样本划分到距离最近的聚类中。
S5:云服务器按照聚类结果计算每个聚类中所有样本的每个特征之和,并利用随机数计算出新的聚类中心;
在一个实施例中,所述步骤S5可以包括:
S51、云服务器计算出每个聚类中样本的每个特征之和al的密文;
所述云服务器计算出每个聚类中样本的每个特征之和al的密文表示为E(al)=∏E(sl),其中,al表示每个聚类中所有样本的第l个特征之和;s表示属于每个聚类的样本;sl表示样本s的第l个特征;其中
Figure BDA0003045715600000091
表示参与者拥有的样本特征数量;E(·)表示加密操作。
S52、云服务器随机挑选出第一随机数和第二随机数;
在一些实施例中,所述第一随机数能被第二随机数整除。
S53、云服务器利用所述第一随机数对每个特征之和al的密文进行隐藏,利用所述第二随机数对每个聚类中的样本数量mc的密文进行隐藏;
在一些实施例中,所述云服务器利用所述第一随机数对每个特征之和al的密文进行隐藏,利用所述第二随机数对每个聚类中的样本数量mc的密文进行隐藏分别表示为
Figure BDA0003045715600000101
其中r1表示第一随机数;r2表示第二随机数;E(·)表示加密操作。
S54、云服务器将隐藏处理后的每个特征之和的密文以及样本数量的密文发送给参与者;
S55、参与者对接收到的密文采用其自身的私钥进行解密,并将两种密文按照除法方式处理,将除法计算结果发送给云服务器;
S56、云服务器抵消掉收到的计算结果中的两个随机数,获取新的聚类中心。
在一些实施例中,所述云服务器抵消掉收到的计算结果中的两个随机数,获取新的聚类中心包括计算
Figure BDA0003045715600000102
其中μ′c是新的聚类中心;r1表示第一随机数;r2表示第二随机数;E(·)表示加密操作。
在另一些实施例中,所述步骤S5还可以包括:
S51*:云服务器计算每个聚类中样本的每个特征之和E(al)=∏E(sl),其中
Figure BDA0003045715600000103
s表示属于每个聚类的样本,sl表示样本s的第l个特征,;
S52*:云服务器随机选取两个随机数r1,r2
S53*:云服务器计算
Figure BDA0003045715600000104
其中mc表示每个聚类中的样本数量;
S54*:云服务器将E(al·r1)和E(mc·r2)发送给特征l对应的参与者;
S55*:参与者计算D(E(al·r1))和D(E(mc·r2)),其中D(·)表示解密操作;
S56*:参与者计算
Figure BDA0003045715600000105
发送给云服务器;
S57*:云服务器计算
Figure BDA0003045715600000106
其中μ′c是新的聚类中心。
S6:若小于阈值,则结束聚类操作,否则用新的聚类中心代替原聚类中心,并进行下一轮迭代。
本实施例中需要判断更新后的聚类中心与初始聚类中心或者上一轮迭代过程更新后的聚类中心之间的距离差值,判断所述距离差值是否小于阈值,若小于阈值,说明当前的聚类中心不一定优于初始聚类中心或者上一轮迭代过程更新后的聚类中心,结束聚类操作,并确定上一轮迭代过程中的聚类中心为最优聚类中心;否则表明当前的聚类中心可能优于初始聚类中心或者上一轮迭代过程更新后的聚类中心,并用当前迭代过程中的聚类中心替换上一轮迭代的聚类中心。
若大于阈值,除了用新的聚类中心替代原来的聚类中心以外,还需要返回步骤S2中利用安全乘法协议计算出每个参与者的子距离差进行下一轮迭代。
在本发明的第二方面,本发明还提供了一种纵向联邦k-Means隐私保护装置,包括:
同态加密模块,用于对参与者的样本数据加密;
在本发明实施例中,本发明中采用了paillier加密,其中paillier加密支持密文加法操作,即具有加同态,它是一个四元组的概率性加密,表示为Encpa={KenGen,Encrypt,Decrypt,Evaluate}。其中paillier加密方法具有如下性质:E(x)E(y)=E(x+y),E(x)y=E(xy)。
数据传输模块,用于实现参与者与云服务器之间的通信以及参与者之间的通信;
所述数据传输模块用于通信的过程可以包括但不限于参与者将加密后的样本数据上传至服务器、参与者之间分发子距离差份额、参与者将持有的所有份额发送给云服务器以及云服务器将聚类结果返回给参与者等。
距离计算模块,用于利用安全乘法协议计算出每个参与者的子距离差,并将子距离差通过数据传输模块发送给对应的参与者;
所述距离计算模块与所述同态加密模块配合,利用安全乘法协议计算出每个参与者的子距离差,并将子距离差发送给对应的参与者;云服务器计算每个样本与k个聚类中心的距离dis,距离dis被划分为n个子距离disi,其中1≤i≤n,n表示参与者数量;关于每个样本与k个聚类中心的距离,云服务器计算每两个距离中对应参与者的子距离差值difi;云服务器利用安全乘法协议计算出每个子距离差值E(difi)。
分配模块,用于将收到的子距离差划分份额,参与者自身保留一份份额后继续分发剩余份额给其他参与者;
所述分配模块用于分割子距离差并分发,参与者将收到的子距离差划分份额,自身保留一份份额后继续分发剩余份额给其他参与者。
汇总模块,用于汇总每个参与者持有子距离份额和收到的份额之和;
所述汇总模块汇总每个参与者持有的所有份额以及汇总所有参与者发送的子距离差份额。
k-Means模块,用于在随机选取出k个聚类中心后,确定每个样本距离最近的聚类中心,将样本划分到距离最近聚类中心所在的聚类中,按照聚类结果计算每个聚类中所有样本的每个特征之和,并利用随机数计算出新的聚类中心;
判断模块,用于判断新的聚类中心与原聚类中心之间的距离差值是否小于阈值,若小于阈值,则结束聚类操作;否则,用新的聚类中心代替原聚类中心,并进行下一轮迭代。
可以理解的是,所述数据通信模块作为数据交互端口,用于与外界进行通信,其余模块可以部分设置在参与者上,也可以设置部分在云服务器上,同时还可以全部设置在参与者上,还可以全部设置在云服务器上;除此以外,还可以另寻找第三方设备进行设置。
在本发明的第三方面,本发明还提供了一种电子设备,包括:
处理器;
用于存储机器可执行的存储器;
其中,通过读取并执行所述存储器存储的与一种纵向联邦k-Means隐私保护方法的控制逻辑对应的机器可执行指令,所述处理器被促使:
参与者分别对自身的样本数据加密,并上传至云服务器;
云服务器随机选取出k个聚类中心,并利用安全乘法协议计算出每个参与者的子距离差,并将子距离差发送给对应的参与者;
每个参与者将收到的子距离差划分份额,自身保留一份份额后继续分发剩余份额给其他参与者,计算自身保留的份额和收到的份额之和,并将结果发送给云服务器;
云服务器计算所有参与者发送的子距离差份额,确定每个样本距离最近的聚类中心,将样本划分到距离最近的聚类中心所在的聚类中;
云服务器按照聚类结果计算出每个聚类中所有样本的每个特征之和,更新聚类中心;
云服务器判断出新的聚类中心与原聚类中心之间的距离差值是否小于阈值;
若小于阈值,则结束聚类操作,否则用新的聚类中心代替原聚类中心,并进行下一轮迭代。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种纵向联邦k-Means隐私保护方法,其特征在于,所述方法包括:
参与者分别对自身的样本数据加密,并上传至云服务器;
云服务器随机选取出k个聚类中心,并利用安全乘法协议计算出每个参与者的子距离差,并将子距离差发送给对应的参与者;
每个参与者将收到的子距离差划分份额,自身保留一份份额后继续分发剩余份额给其他参与者,计算自身保留的份额和收到的份额之和,并将结果发送给云服务器;
云服务器计算所有参与者发送的子距离差份额,确定每个样本距离最近的聚类中心,将样本划分到距离最近的聚类中心所在的聚类中;
云服务器按照聚类结果计算出每个聚类中所有样本的每个特征之和,更新聚类中心;
云服务器计算出每个聚类中所有样本的每个特征之和
Figure DEST_PATH_IMAGE002
的密文,表示为
Figure DEST_PATH_IMAGE004
,其中,
Figure 468945DEST_PATH_IMAGE002
表示每个聚类中所有样本的第
Figure DEST_PATH_IMAGE006
个特征之和;
Figure DEST_PATH_IMAGE008
表示属于每个聚类的样本;
Figure DEST_PATH_IMAGE010
表示样本s的第
Figure 492744DEST_PATH_IMAGE006
个特征;其中
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
表示参与者拥有的样本特征数量;
Figure DEST_PATH_IMAGE016
表示加密操作;
云服务器随机挑选出第一随机数和第二随机数;
云服务器利用所述第一随机数对每个特征之和
Figure 131536DEST_PATH_IMAGE002
的密文进行隐藏表示为
Figure DEST_PATH_IMAGE018
,利用所述第二随机数对每个聚类中的样本数量
Figure DEST_PATH_IMAGE020
的密文进行隐藏表示为
Figure DEST_PATH_IMAGE022
;其中
Figure DEST_PATH_IMAGE024
表示第一随机数;
Figure DEST_PATH_IMAGE026
表示第二随机数;
云服务器将隐藏处理后的每个特征之和的密文以及样本数量的密文发送给参与者;
参与者对接收到的密文采用其自身的私钥进行解密,并将两种密文按照除法方式处理,将除法计算结果发送给云服务器;
云服务器抵消掉收到的计算结果中的两个随机数,获取新的聚类中心表示为
Figure DEST_PATH_IMAGE028
,其中
Figure DEST_PATH_IMAGE030
是新的聚类中心;
云服务器判断出新的聚类中心与原聚类中心之间的距离差值是否小于阈值;
若小于阈值,则结束聚类操作,否则用新的聚类中心代替原聚类中心,并进行下一轮迭代。
2.根据权利要求1所述的一种纵向联邦k-Means隐私保护方法,其特征在于,所述利用安全乘法协议计算出每个参与者的子距离差包括:
云服务器从上传的加密数据中随机挑选
Figure DEST_PATH_IMAGE032
个样本作为
Figure 749249DEST_PATH_IMAGE032
个初始聚类中心;
云服务器计算每个样本与每个聚类中心的距离
Figure DEST_PATH_IMAGE034
,每个距离
Figure 671943DEST_PATH_IMAGE034
被划分为
Figure DEST_PATH_IMAGE036
个子距离
Figure DEST_PATH_IMAGE038
,即
Figure DEST_PATH_IMAGE040
,其中
Figure DEST_PATH_IMAGE042
Figure 949865DEST_PATH_IMAGE036
表示参与者数量;
云服务器将每个样本与任意两个聚类中心的对应参与者的子距离做差后,得到对应参与者的子距离差值
Figure DEST_PATH_IMAGE044
云服务器利用安全乘法协议计算出每个子距离差值的密文
Figure DEST_PATH_IMAGE046
3.根据权利要求1所述的一种纵向联邦k-Means隐私保护方法,其特征在于,所述第一随机数能被第二随机数整除。
4.一种纵向联邦k-Means隐私保护装置,其特征在于,包括:
同态加密模块,用于对参与者的样本数据加密;
数据传输模块,用于实现参与者与云服务器之间的通信以及参与者之间的通信;
距离计算模块,用于利用安全乘法协议计算出每个参与者的子距离差;
分配模块,用于将收到的子距离差划分份额,参考者自身保留一份份额后继续分发剩余份额给其他参与者;
汇总模块,用于汇总每个参与者持有子距离份额和收到的份额之和;
k-Means模块,用于在随机选取出k个聚类中心后,确定每个样本距离最近的聚类中心,将样本划分到距离最近的聚类中心所在的聚类中, 按照聚类结果计算每个聚类中所有样本的每个特征之和,并利用随机数计算出新的聚类中心;
云服务器计算出每个聚类中所有样本的每个特征之和
Figure 935008DEST_PATH_IMAGE002
的密文,表示为
Figure 930645DEST_PATH_IMAGE004
,其中,
Figure 902320DEST_PATH_IMAGE002
表示每个聚类中所有样本的第
Figure 958000DEST_PATH_IMAGE006
个特征之和;
Figure 322117DEST_PATH_IMAGE008
表示属于每个聚类的样本;
Figure 370713DEST_PATH_IMAGE010
表示样本s的第个特征;其中
Figure 956415DEST_PATH_IMAGE012
Figure 199309DEST_PATH_IMAGE014
表示参与者拥有的样本特征数量;
Figure 237672DEST_PATH_IMAGE016
表示加密操作;
云服务器随机挑选出第一随机数和第二随机数;
云服务器利用所述第一随机数对每个特征之和
Figure 827310DEST_PATH_IMAGE002
的密文进行隐藏表示为
Figure 533097DEST_PATH_IMAGE018
,利用所述第二随机数对每个聚类中的样本数量
Figure 478051DEST_PATH_IMAGE020
的密文进行隐藏表示为
Figure 269289DEST_PATH_IMAGE022
;其中
Figure 659688DEST_PATH_IMAGE024
表示第一随机数;
Figure 954403DEST_PATH_IMAGE026
表示第二随机数;
云服务器将隐藏处理后的每个特征之和的密文以及样本数量的密文发送给参与者;
参与者对接收到的密文采用其自身的私钥进行解密,并将两种密文按照除法方式处理,将除法计算结果发送给云服务器;
云服务器抵消掉收到的计算结果中的两个随机数,获取新的聚类中心表示为
Figure DEST_PATH_IMAGE048
,其中
Figure DEST_PATH_IMAGE050
是新的聚类中心;
判断模块,用于判断新的聚类中心与原聚类中心之间的距离差值是否小于阈值,若小于阈值,则结束聚类操作;否则,用新的聚类中心代替原聚类中心,并进行下一轮迭代。
5.一种电子设备,其特征在于,包括:
处理器;
用于存储机器可执行的存储器;
其中,通过读取并执行所述存储器存储的与一种纵向联邦k-Means隐私保护方法的控制逻辑对应的机器可执行指令,所述处理器被促使:
参与者分别对自身的样本数据加密,并上传至云服务器;
云服务器随机选取出k个聚类中心,并利用安全乘法协议计算出每个参与者的子距离差,并将子距离差发送给对应的参与者;
每个参与者将收到的子距离差划分份额,自身保留一份份额后继续分发剩余份额给其他参与者,计算自身保留的份额和收到的份额之和,并将结果发送给云服务器;
云服务器计算所有参与者发送的子距离差份额,确定每个样本距离最近的聚类中心,将样本划分到距离最近的聚类中心所在的聚类中;
云服务器按照聚类结果计算出每个聚类中所有样本的每个特征之和,更新聚类中心;
云服务器计算出每个聚类中所有样本的每个特征之和
Figure 447089DEST_PATH_IMAGE002
的密文,表示为
Figure 7515DEST_PATH_IMAGE004
,其中,
Figure 952337DEST_PATH_IMAGE002
表示每个聚类中所有样本的第个特征之和;
Figure 616405DEST_PATH_IMAGE008
表示属于每个聚类的样本;
Figure 355691DEST_PATH_IMAGE010
表示样本s的第
Figure 606675DEST_PATH_IMAGE006
个特征;其中
Figure 89609DEST_PATH_IMAGE012
Figure 673430DEST_PATH_IMAGE014
表示参与者拥有的样本特征数量;
Figure 599929DEST_PATH_IMAGE016
表示加密操作;
云服务器随机挑选出第一随机数和第二随机数;
云服务器利用所述第一随机数对每个特征之和
Figure 321898DEST_PATH_IMAGE002
的密文进行隐藏表示为
Figure 857790DEST_PATH_IMAGE018
,利用所述第二随机数对每个聚类中的样本数量
Figure 981604DEST_PATH_IMAGE020
的密文进行隐藏表示为
Figure 875742DEST_PATH_IMAGE022
;其中
Figure 350585DEST_PATH_IMAGE024
表示第一随机数;
Figure 439238DEST_PATH_IMAGE026
表示第二随机数;
云服务器将隐藏处理后的每个特征之和的密文以及样本数量的密文发送给参与者;
参与者对接收到的密文采用其自身的私钥进行解密,并将两种密文按照除法方式处理,将除法计算结果发送给云服务器;
云服务器抵消掉收到的计算结果中的两个随机数,获取新的聚类中心表示为
Figure 683137DEST_PATH_IMAGE028
,其中
Figure 482597DEST_PATH_IMAGE030
是新的聚类中心;
云服务器判断出新的聚类中心与原聚类中心之间的距离差值是否小于阈值;
若小于阈值,则结束聚类操作,否则用新的聚类中心代替原聚类中心,并进行下一轮迭代。
CN202110471977.1A 2021-04-29 2021-04-29 纵向联邦k-Means隐私保护方法、装置及电子设备 Active CN113239393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110471977.1A CN113239393B (zh) 2021-04-29 2021-04-29 纵向联邦k-Means隐私保护方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110471977.1A CN113239393B (zh) 2021-04-29 2021-04-29 纵向联邦k-Means隐私保护方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113239393A CN113239393A (zh) 2021-08-10
CN113239393B true CN113239393B (zh) 2022-03-22

Family

ID=77131415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110471977.1A Active CN113239393B (zh) 2021-04-29 2021-04-29 纵向联邦k-Means隐私保护方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113239393B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657525B (zh) * 2021-08-23 2024-04-26 同盾科技有限公司 基于KMeans的跨特征联邦聚类方法及相关设备
CN114386071A (zh) * 2022-01-12 2022-04-22 平安科技(深圳)有限公司 去中心的联邦聚类方法、装置、电子设备及存储介质
CN114696991B (zh) * 2022-05-31 2022-09-20 蓝象智联(杭州)科技有限公司 基于同态加密的数据聚类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708216A (zh) * 2012-06-28 2012-10-03 北京邮电大学 一种面向密文搜索的分词组织方法和聚类方法
CN110163292A (zh) * 2019-05-28 2019-08-23 电子科技大学 基于向量同态加密的隐私保护k-means聚类方法
CN111385306A (zh) * 2020-03-18 2020-07-07 重庆邮电大学 一种智能电网中基于防篡改设备的匿名认证方法及系统
CN112101579A (zh) * 2020-11-18 2020-12-18 杭州趣链科技有限公司 基于联邦学习的机器学习方法、电子装置和存储介质
CN112231760A (zh) * 2020-11-20 2021-01-15 天翼电子商务有限公司 一种隐私保护的分布式纵向K-means聚类
CN112487481A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种具有隐私保护的可验证多方k-means联邦学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9535973B2 (en) * 2013-04-29 2017-01-03 Moogsoft, Inc. Methods for decomposing events from managed infrastructures

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708216A (zh) * 2012-06-28 2012-10-03 北京邮电大学 一种面向密文搜索的分词组织方法和聚类方法
CN110163292A (zh) * 2019-05-28 2019-08-23 电子科技大学 基于向量同态加密的隐私保护k-means聚类方法
CN111385306A (zh) * 2020-03-18 2020-07-07 重庆邮电大学 一种智能电网中基于防篡改设备的匿名认证方法及系统
CN112101579A (zh) * 2020-11-18 2020-12-18 杭州趣链科技有限公司 基于联邦学习的机器学习方法、电子装置和存储介质
CN112231760A (zh) * 2020-11-20 2021-01-15 天翼电子商务有限公司 一种隐私保护的分布式纵向K-means聚类
CN112487481A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种具有隐私保护的可验证多方k-means联邦学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NATÁLIA MARIA PUGGINA BIANCHESI等.A Design of Experiments Comparative Study on Clustering Methods.《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8901114》.2019,第1-13页. *
一种改进的面向差分隐私保护的k-means聚类算法;赵莉等;《信息与电脑》;20190725(第14期);第49-52页 *
基于相对熵和K-means的形状相似差分隐私轨迹保护机制;朱素霞等;《通信学报》;20210115;第42卷(第2期);第113-123页 *

Also Published As

Publication number Publication date
CN113239393A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113239393B (zh) 纵向联邦k-Means隐私保护方法、装置及电子设备
Xing et al. Mutual privacy preserving $ k $-means clustering in social participatory sensing
Jung et al. Privacy-preserving data aggregation without secure channel: Multivariate polynomial evaluation
Zhang et al. Efficient attribute-based data sharing in mobile clouds
CN108111294B (zh) 一种基于ML-kNN的保护隐私的多标记分类方法
WO2011052056A1 (ja) データ処理装置
CN113111373B (zh) Vbft共识机制的随机数生成方法和共识机制系统
Zu et al. New ciphertext-policy attribute-based encryption with efficient revocation
Zhang et al. Adaptively secure identity-based broadcast encryption with constant size private keys and ciphertexts from the subgroups
US8416955B2 (en) Method for determining functions applied to signals
US8311213B2 (en) Method for determining functions applied to signals
US10601579B2 (en) Privacy preserving comparison
WO2015184991A1 (en) Improvements on cryptographic systems using pairing with errors
Shiraly et al. Pairing-free certificateless authenticated encryption with keyword search
CN111581648B (zh) 在不规则用户中保留隐私的联邦学习的方法
Zhou et al. Continuous leakage-resilient certificate-based signcryption scheme and application in cloud computing
WO2017063114A1 (zh) 建立抗攻击的安全性公钥密码的方法
Chattopadhyay et al. Secure data outsourcing on cloud using secret sharing scheme.
US20200186347A1 (en) Method and system for performing broadcast encryption with revocation capability
Xue et al. Forward secure and fine-grained data sharing for mobile crowdsensing
Fan et al. Lightweight privacy and security computing for blockchained federated learning in IoT
Wang One-round secure fair meeting location determination based on homomorphic encryption
Niu et al. Achieving secure friend discovery in social strength-aware pmsns
Zhou et al. Efficient anonymous broadcast encryption with adaptive security
US20210226923A1 (en) SpaceFlip Plus: Ordinal Cryptography

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230809

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS