CN109858269B - 一种基于同态加密的隐私保护密度峰聚类方法 - Google Patents
一种基于同态加密的隐私保护密度峰聚类方法 Download PDFInfo
- Publication number
- CN109858269B CN109858269B CN201910126432.XA CN201910126432A CN109858269B CN 109858269 B CN109858269 B CN 109858269B CN 201910126432 A CN201910126432 A CN 201910126432A CN 109858269 B CN109858269 B CN 109858269B
- Authority
- CN
- China
- Prior art keywords
- participant
- participants
- cluster
- service provider
- cloud service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明揭示了种基于同态加密的隐私保护的密度峰聚类方法,包括以下步骤:步骤1:聚类中心计算阶段:参与者需要加密自身隐私数据并发送给云服务商A来计算各个参与者之间的距离,再根据距离安全地计算聚类中心。步骤2:剩余参与者分配阶段:云服务商A要剔除离群点对应的参与者,以免对聚类结果产生影响。再根据DPC算法分配剩余参与者到其最近的簇中,最后分配离群的参与者。本发明基于同态加密的隐私保护密度峰聚类方法对于密度峰聚类具有较好的准确性,并且可以抵制合谋攻击,即使云服务商与n‑1个参与者勾结,也可以提供相互隐私保护。
Description
技术领域
本发明涉及密度聚类领域,具体涉及一种基于同态加密的隐私保护的密度峰聚类方法。
背景技术
聚类作为数据挖掘重要的研究方法之一,其目的是将数据对象划分成若干个簇,使得簇中的对象相似度高,而每个簇之间对象的相似度低。在运用聚类分析的过程中,大量用户的隐私数据会被收集和分析,例如地理位置、健康状况以及情感状态等,这些信息一旦被泄露,将会造成严重的后果。因此,开发一种用户和云计算平台的相互隐私保护数据挖掘技术至关重要。隐私保护方法基本分为三大类,既k匿名技术、扰动技术和数据加密技术。k匿名技术包括泛化法和抑制法,可以对信息进行直接隐藏从而有效保护用户的隐私数据,但是该方法安全性不高,不能有效抵制链接攻击;扰动技术包括数据清洗、数据交换和随机化干扰,其中包括差分隐私技术,通过对原始数据随机加扰或者添加噪声来保护用户隐私,这种对数据干扰会影响计算结果的准确度;数据加密技术最典型的包括安全多方计算和同态加密算法,通过严谨的密码学原理得到的计算结果较为准确,并且安全性高,但是计算开销较大,所以本文使用同态加密算法并且借助云计算平台来进行计算。
密度峰聚类(Density Peaks Clustering,DPC)是一种简单高效的聚类算法,其思想是:通过度量每一个样本点的局部密度和距离得到决策图;根据聚类中心点的特征,在决策图上选择最佳的聚类中心点;将剩余样本点分配到距其最近并拥有较高密度的样本所在簇中。使用DPC算法首先需要计算距离信息,该过程要利用参与者的隐私数据,则增加了泄露隐私的风险。
发明内容
本发明所要解决的技术问题是实现一种基于同态加密的隐私保护的密度峰聚类方法,该方法在云计算环境下的聚类过程中既不泄漏个人隐私信息也不泄漏聚类中心的信息。
为了实现上述目的,本发明采用的技术方案为:一种基于同态加密的隐私保护的密度峰聚类方法,该方法在云计算环境下的聚类过程中既不泄漏个人隐私信息也不泄漏聚类中心的信息。包括以下步骤:
步骤1:聚类中心计算阶段:参与者需要加密自身隐私数据并发送给云服务商A来计算各个参与者之间的距离,再根据距离安全地计算聚类中心。
步骤2:剩余参与者分配阶段:云服务商A要剔除离群点对应的参与者,以免对聚类结果产生影响。再根据DPC算法分配剩余参与者到其最近的簇中,最后分配离群的参与者。
如图2所示,聚类中心计算阶段包括以下步骤:
步骤1.3.计算出每个参与者到其他参与者之间的距离,计算公式如下:
步骤1.4.p,q是两个大素数,n=pq,根据欧拉定理,L(n)=(p-1)(q-1),随机选择整数λ,e,使得gcd(λ,L(n))=1,eλ≡1(L(n)),则公钥PK为{n,e},私钥SK为{λ}。
E(m)=me mod n
步骤1.6.对于密文E(m),相应的明文定义式如下:
D(E(m))=E(m)λmod n
E(m1·m2)=E(m1)·E(m2)
步骤1.13.参与者的每一维隐私数据可以从其他参与者对应维度的隐私数据接收密文片段。然后,参与者对所有接收到的密文分量以及自身保留的密文片段运用同态操作相乘得到r。例如将分成三份和将分成两份和然后将和发送给将发送给则
步骤1.14.计算结束后发送给云服务商A,A将所有接收到的数据相乘,获得以下结果:
步骤1.16.参与者ai和aj分别计算ai Tai和aj Taj的值,并发送给A,A再计算每个参与者之间的距离Dij。
步骤1.17.A再计算聚类中心。
如图3所示,剩余参与者分配阶段包括以下步骤:
步骤2.1.在经过计算聚类中心阶段,云服务商A得到k个聚类中心,A再分配其余参与者到最近的簇中。
步骤2.2.云服务商A进行分配之前先剔除离群点,定义式如下:
cluster halo={ai|dij<dc,1≤i≤nb,1≤j≤n}
cluster core={ai|ρi>ρb,1≤i≤nb}
其中clusterhalo为边界区域,dc为截断距离,nb为一个簇的样本个数,簇边界区域中大于平均密度的样本点的密度作为阈值ρb,为每一个簇定义一个阈值该簇的核心区域cluster core为密度大于的样本所构成,则该簇的其他样本为离群点。
步骤2.3.对于非聚类中心的参与者aj,A将其归入密度比aj大且距离aj最近的参与者所在的簇中。
步骤2.4.对于离群点oi,将其归并到最近的已分配参与者所在的簇中。
本发明基于同态加密的隐私保护密度峰聚类方法对于密度峰聚类具有较好的准确性,并且可以抵制合谋攻击,即使云服务商与n-1个参与者勾结,也可以提供相互隐私保护。云服务商可以在不访问每个参与者隐私信息的情况下计算距离;每个参与者之间并不知道彼此的隐私信息;参与者不知道聚类中心的信息。这些信息是由云服务商计算并保护的。
附图说明
下面对本发明说明书中每幅附图表达的内容作简要说明:
图1为基于同态加密的隐私保护的密度峰聚类方法流程图;
图2为聚类中心计算阶段流程图;
图3为分配剩余参与者阶段流程图。
具体实施方式
如图1所示,一种基于同态加密的隐私保护的密度峰聚类方法包括以下两个步骤:
步骤1:聚类中心计算阶段:参与者需要加密自身隐私数据并发送给云服务商A来计算各个参与者之间的距离,再根据距离安全地计算聚类中心;
步骤2:剩余参与者分配阶段:云服务商A要剔除离群点对应的参与者,以免对聚类结果产生影响,再根据DPC算法分配剩余参与者到其最近的簇中,最后分配离群的参与者。
如图2所示,聚类中心计算阶段包括以下步骤:
步骤1.3.计算出每个参与者到其他参与者之间的距离,计算公式如下:
步骤1.4.p,q是两个大素数,n=pq,根据欧拉定理,L(n)=(p-1)(q-1),随机选择整数λ,e,使得gcd(λ,L(n))=1,eλ≡1(L(n)),则公钥PK为{n,e},私钥SK为{λ}。
E(m)=me mod n
步骤1.6.对于密文E(m),相应的明文定义式如下:
D(E(m))=E(m)λmod n
E(m1·m2)=E(m1)·E(m2)
参与者的每一维隐私数据可以从其他参与者对应维度的隐私数据接收密文片段。然后,参与者对所有接收到的密文分量以及自身保留的密文片段运用同态操作相乘得到r。例如将分成三份和将分成两份和然后将和发送给将发送给则
计算结束后发送给云服务商A,A将所有接收到的数据相乘,获得以下结果:
参与者ai和aj分别计算ai Tai和aj Taj的值,并发送给A,A再计算每个参与者之间的距离Dij。
A再计算聚类中心。
如图3所示,剩余参与者分配阶段包括以下步骤:
步骤2.1.在经过计算聚类中心阶段,云服务商A得到k个聚类中心,A再分配其余参与者到最近的簇中。
步骤2.2.云服务商A进行分配之前先剔除离群点,定义式如下:
cluster halo={ai|dij<dc,1≤i≤nb,1≤j≤n}
cluster core={ai|ρi>ρb,1≤i≤nb}
其中clusterhalo为边界区域,dc为截断距离,nb为一个簇的样本个数,簇边界区域中大于平均密度的样本点的密度作为阈值ρb,为每一个簇定义一个阈值该簇的核心区域cluster core为密度大于的样本所构成,则该簇的其他样本为离群点。
步骤2.3.对于非聚类中心的参与者aj,A将其归入密度比aj大且距离aj最近的参与者所在的簇中。
步骤2.4.对于离群点oi,将其归并到最近的已分配参与者所在的簇中。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
Claims (4)
1.一种基于同态加密的隐私保护密度峰聚类方法,其特征在于,包括以下步骤:
步骤1:在云计算环境下,参与者需要加密自身隐私数据并发送给云服务商A来计算各个参与者之间的距离,再根据距离安全地计算聚类中心;
步骤2:云服务商A剔除离群点对应的参与者,再根据DPC算法分配剩余参与者到其最近的簇中,最后分配离群的参与者;
所述步骤1包括以下步骤:
步骤1.3、计算出每个参与者到其他参与者之间的距离,计算公式如下:
步骤1.4、p,q是两个大素数,n=pq,根据欧拉定理,L(n)=(p-1)(q-1),随机选择整数λ,e,使得gcd(λ,L(n))=1,eλ≡1(L(n)),则公钥PK为{n,e},私钥SK为{λ};
E(m)=memod n;
步骤1.6、对于密文E(m),相应的明文定义式如下:
D(E(m))=E(m)λmod n;
E(m1·m2)=E(m1)·E(m2);
步骤1.8、对于参与者的q维隐私数据,分别对其进行加密;
步骤1.11、完成加密操作后,参与者与对方共享密文的一部分,
步骤1.13、参与者的每一维隐私数据可以从其他参与者对应维度的隐私数据接收密文片段,然后,参与者对所有接收到的密文分量以及自身保留的密文片段运用同态操作相乘得到r;
步骤1.14、计算结束后发送给云服务商A,云服务商A将所有接收到的数据相乘;
步骤1.16、参与者ai和aj分别计算ai Tai和aj Taj的值,并发送给云服务商A,云服务商A再计算每个参与者之间的距离Dij;
步骤1.17、云服务商A再计算聚类中心。
2.根据权利要求1所述的基于同态加密的隐私保护密度峰聚类方法,其特征在于:所述步骤1中,先定义欧式距离、同态加密的概念,通过乘法同态加密方案安全的计算各个参与者之间的欧式距离,在参与者发送各自的隐私数据给云服务商A的过程中实施隐私保护方案。
3.根据权利要求1所述的基于同态加密的隐私保护密度峰聚类方法,其特征在于:所述步骤2中,根据步骤1得到的聚类中心,云服务商A先识别离群点,再分配其余参与者到最近的簇中,最后分配离群点。
4.根据权利要求1或3所述的基于同态加密的隐私保护密度峰聚类方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1、在经过计算聚类中心阶段,云服务商A得到k个聚类中心,云服务商A再分配其余参与者到最近的簇中;
步骤2.2、云服务商A进行分配之前先剔除离群点,定义式如下:
cluster halo={ai|dij<dc,1≤i≤nb,1≤j≤n}
cluster core={ai|ρi>ρb,1≤i≤nb}
其中cluster halo为边界区域,dc为截断距离,nb为一个簇的样本个数,簇边界区域中大于平均密度的样本点的密度作为阈值ρb,为每一个簇定义一个阈值该簇的核心区域cluster core为密度大于的样本所构成,则该簇的其他样本为离群点;
步骤2.3、对于非聚类中心的参与者aj,云服务商A将其归入密度比aj大且距离aj最近的参与者所在的簇中;
步骤2.4、对于离群点oi,将其归并到最近的已分配参与者所在的簇中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910126432.XA CN109858269B (zh) | 2019-02-20 | 2019-02-20 | 一种基于同态加密的隐私保护密度峰聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910126432.XA CN109858269B (zh) | 2019-02-20 | 2019-02-20 | 一种基于同态加密的隐私保护密度峰聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109858269A CN109858269A (zh) | 2019-06-07 |
CN109858269B true CN109858269B (zh) | 2022-11-01 |
Family
ID=66898412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910126432.XA Active CN109858269B (zh) | 2019-02-20 | 2019-02-20 | 一种基于同态加密的隐私保护密度峰聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858269B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110190946B (zh) * | 2019-07-12 | 2021-09-03 | 之江实验室 | 一种基于同态加密的隐私保护多机构数据分类方法 |
CN110569655B (zh) * | 2019-09-06 | 2021-05-25 | 中国科学院信息工程研究所 | 一种群组隐私信息发现方法及系统 |
CN111444545B (zh) * | 2020-06-12 | 2020-09-04 | 支付宝(杭州)信息技术有限公司 | 针对多方的隐私数据进行聚类的方法和装置 |
CN111510281B (zh) * | 2020-06-29 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 一种同态加密方法及装置 |
CN112765664B (zh) * | 2021-01-26 | 2022-12-27 | 河南师范大学 | 一种具有差分隐私的安全多方k-means聚类方法 |
CN114386071A (zh) * | 2022-01-12 | 2022-04-22 | 平安科技(深圳)有限公司 | 去中心的联邦聚类方法、装置、电子设备及存储介质 |
CN114696991B (zh) * | 2022-05-31 | 2022-09-20 | 蓝象智联(杭州)科技有限公司 | 基于同态加密的数据聚类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778314A (zh) * | 2017-03-01 | 2017-05-31 | 全球能源互联网研究院 | 一种基于k‑means的分布式差分隐私保护方法 |
WO2017171726A1 (en) * | 2016-03-29 | 2017-10-05 | Hewlett Packard Enterprise Development Lp | Distributed data clustering using an untrusted mediator |
CN107451618A (zh) * | 2017-08-10 | 2017-12-08 | 中国人民大学 | 一种密度峰值聚类算法的差分隐私保护方法 |
CN108280472A (zh) * | 2018-01-18 | 2018-07-13 | 安徽师范大学 | 一种基于局部密度和聚类中心优化的密度峰聚类方法 |
-
2019
- 2019-02-20 CN CN201910126432.XA patent/CN109858269B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017171726A1 (en) * | 2016-03-29 | 2017-10-05 | Hewlett Packard Enterprise Development Lp | Distributed data clustering using an untrusted mediator |
CN106778314A (zh) * | 2017-03-01 | 2017-05-31 | 全球能源互联网研究院 | 一种基于k‑means的分布式差分隐私保护方法 |
CN107451618A (zh) * | 2017-08-10 | 2017-12-08 | 中国人民大学 | 一种密度峰值聚类算法的差分隐私保护方法 |
CN108280472A (zh) * | 2018-01-18 | 2018-07-13 | 安徽师范大学 | 一种基于局部密度和聚类中心优化的密度峰聚类方法 |
Non-Patent Citations (3)
Title |
---|
A Secure High-Order CFS Algorithm on Clouds for Industrial Internet of Things;Yaliang Zhao等;《IEEE Transactions on Industrial Informatics》;20180315;第14卷(第8期);第3766 - 3774页 * |
同态加密的分布式K均值聚类算法研究;姚禹丞等;《计算机技术与发展》;20170228;第27卷(第02期);第81-85页 * |
基于共享近邻相似度的密度峰聚类算法;鲍舒婷等;《计算机应用》;20180610;第38卷(第6期);第1601-1607页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109858269A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858269B (zh) | 一种基于同态加密的隐私保护密度峰聚类方法 | |
Xing et al. | Mutual privacy preserving $ k $-means clustering in social participatory sensing | |
Dhakar et al. | Modified RSA encryption algorithm (MREA) | |
Mashhadi et al. | Two verifiable multi secret sharing schemes based on nonhomogeneous linear recursion and LFSR public-key cryptosystem | |
CN106788985A (zh) | 一种第三方可监管的隐身地址实现方法 | |
Moghaddam et al. | A hybrid encryption algorithm based on RSA small-e and efficient-RSA for cloud computing environments | |
KR20150032928A (ko) | 오류를 갖는 페어링을 이용한 새로운 암호 시스템들 | |
El Makkaoui et al. | Challenges of using homomorphic encryption to secure cloud computing | |
CN110147681A (zh) | 一种支持灵活访问控制的隐私保护大数据处理方法及系统 | |
Mohammed et al. | Performance evaluation of RSA, ElGamal, and paillier partial homomorphic encryption algorithms | |
KR20060079491A (ko) | 조합에 기반한 브로드캐스트 암호화 방법 | |
CN105406966A (zh) | 一种门限秘密信息分配、还原、完整性验证方法及装置 | |
Saveetha et al. | Study on Improvement in RSA Algorithm and its Implementation | |
Mohan et al. | Homomorphic encryption-state of the art | |
Mishra et al. | A compendium over cloud computing cryptographic algorithms and security issues | |
CN102684875B (zh) | 组播安全代理组件及组播加密管理方法 | |
Kim et al. | How to securely collaborate on data: Decentralized threshold he and secure key update | |
Ruzai et al. | Increment of insecure RSA private exponent bound through perfect square RSA diophantine parameters cryptanalysis | |
Raghunandan et al. | Secure RSA variant system to avoid factorization attack using phony modules and phony public key exponent | |
Kumar et al. | A Robust and Fast Symmetric Text Encryption Algorithm Based on Fermat's Two Squares Theorem | |
Goswami et al. | A new public key scheme based on integer factorization and discrete logarithm | |
CN114362912A (zh) | 基于分布式密钥中心的标识密码生成方法、电子设备及介质 | |
CN114696991B (zh) | 基于同态加密的数据聚类方法及装置 | |
KR20010067016A (ko) | 알에스에이 공개키 암호 고속화 장치 및 방법 | |
Theodouli et al. | Implementing private k-means clustering using a LWE-based cryptosystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |