CN109190661A - 一种基于差分隐私保护的谱聚类方法 - Google Patents

一种基于差分隐私保护的谱聚类方法 Download PDF

Info

Publication number
CN109190661A
CN109190661A CN201810833306.3A CN201810833306A CN109190661A CN 109190661 A CN109190661 A CN 109190661A CN 201810833306 A CN201810833306 A CN 201810833306A CN 109190661 A CN109190661 A CN 109190661A
Authority
CN
China
Prior art keywords
matrix
value
secret protection
cluster
laplacian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810833306.3A
Other languages
English (en)
Inventor
郑孝遥
汪祥舜
罗永龙
郭良敏
胡桂银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Normal University
Original Assignee
Anhui Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Normal University filed Critical Anhui Normal University
Priority to CN201810833306.3A priority Critical patent/CN109190661A/zh
Publication of CN109190661A publication Critical patent/CN109190661A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明适用于隐私保护技术领域,提供了一种基于差分隐私保护的谱聚类方法,包括:对样本数据进行预处理;计算相似矩阵;基于k‑near值简化相似矩阵;将满足拉普拉斯分布的随机噪声添加到相似矩阵;基于随机噪声扰动后的相似矩阵构建邻接矩阵及度矩阵;基于邻接矩阵及度矩阵求出拉普拉斯矩阵;求拉普拉斯矩阵的前m大特征值及对应的特征向量;归一化特征向量,组成特征矩阵;利用k‑means聚类方法对特征矩阵进行聚类,得到聚类标签label。利用谱聚类算法先计算样本数据间的样本相似性作为数据点之间的权重值,再利用差分隐私算法,对权重值添加拉普拉斯分布的随机噪声,来干扰权重值达到隐私保护的目的,干扰后的数据不仅可以实现隐私保护还保证了聚类的有效性。

Description

一种基于差分隐私保护的谱聚类方法
技术领域
本发明属于隐私保护技术领域,提供了一种基于差分隐私保护的谱聚类方法。
背景技术
近年来,随着互联网与信息技术的蓬勃发展,海量数据的产生可以为研究者们提供许多有效的信息资源,对这些海量数据进行挖掘分析可以得到非常有价值的信息,其中聚类分析是有效手段之一。但是在聚类的过程中也存在着隐私泄露的风险。
现如今关于聚类分析在隐私保护方面的应用越来越多,而且聚类作为数据挖掘和机器学习的主要技术之一被广大学者所研究,传统的聚类保护算法如k-means、DBScan、k-medoids动态聚类,传统的聚类算法存在隐私泄露及聚类效果不佳的问题。
发明内容
本发明实施例提供了一种基于差分隐私保护的谱聚类方法,旨在解决传统的聚类算法存在隐私泄露及聚类效果不佳的问题。
本发明是这样实现的,一种基于差分隐私保护的谱聚类方法,该方法包括如下步骤:
S1、对数据集中的样本数据进行预处理,预处理是指将各属性下的属性值除以所述属性下的最大属性值;
S2、通过高斯核函数的距离计算公式计算相似矩阵;
S3、基于给定的k-near值简化相似矩阵,即将相似矩阵中小于k-near值的元素值设为零;
S4、根据累计分布函数生成满足拉普拉斯分布的随机噪声,添加到相似矩阵中非零元素;
S5、基于随机噪声扰动后的相似矩阵来构建邻接矩阵S及度矩阵D;
S6、基于邻接矩阵S及度矩阵D求出拉普拉斯矩阵L;
S7、获取拉普拉斯矩阵的前m大特征值及对应的特征向量;
S8、归一化特征向量,将归一化后的特征向量组成特征矩阵;
S9、利用k-means聚类方法对特征矩阵进行聚类,得到对应的聚类标签label。
进一步的,所述k-means聚类方法中的k值为标准聚类标签的聚类种类值。
进一步的,在步骤S9之后还包括:
S10、评估步骤S9中所获得的聚类标签label的精准度Accuracy。
谱聚类的算法对于数据的实用性更强,对于凸型的空间数据和高纬度的数据不容易陷入局部最优解,因此利用谱聚类算法先计算样本数据间的样本相似性作为数据点之间的权重值,再利用差分隐私算法,对权重值添加拉普拉斯分布的随机噪声,来干扰权重值达到隐私保护的目的,干扰后的数据不仅可以实现隐私保护还保证了聚类的有效性。
附图说明
图1为本发明实施例提供的基于数据流的敏感数据挖掘方法流程图;
图2为本发明实施例提供的参数δ取值对聚类结果的影响图;
图3为本发明实施例提供的数据集liver运行的Accuracy结果比较图;
图4为本发明实施例提供的数据集pima运行的Accuracy结果比较图;
图5为本发明实施例提供的数据集sonar运行的Accuracy结果比较图;
图6本发明实施例提供的数据集balance运行的Accuracy结果比较图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的基于差分隐私保护的谱聚类算法,是基于差分隐私模型,利用累计分布函数生成满足拉普拉斯分布的随机噪声,将该噪声添加到经过谱聚类算法计算的样本相似度的函数中,干扰样本个体之间的权重值,实现样本个体间的信息隐藏达到隐私保护的目的。
图1为本发明实施例提供的基于差分隐私保护的谱聚类方法流程图,该方法包括如下步骤:
S1、对数据集中的样本数据进行预处理,预处理是指将各属性下的属性值除以该属性下的最大属性值;
数据集中的样本数据均具多重属性,样本数据中至少包括如下信息:各属性下的属性值。
S2、通过高斯核函数的距离计算公式计算相似矩阵;
d(si,sj)表示样本Si到样本Sj的欧式距离,Wij为样本Si与样本Sj间的权重值,即相似矩阵中i行第j列的元素,其中,i=1,2,…,r,j=1,2,…,r,且i≠j,r为数据集中的样本数据个数,δ为相似函数的参数,其取值为δ=0.9,其取值是基于聚类效果设定的。
S3、基于给定的k-near值简化相似矩阵,即将相似矩阵中小于k-near值的元素值设为零,保留大于等于k-near值的元素值;
在本发明实施例中,两样本间的权重值可以理解为两样本间的亲密度或者是相似性,权重值越大,两样本间越亲密,相似性越高;权重值越小,两样本间相似性越低,需要保密这种亲密关系不被泄漏,只需对相似矩阵中的相对大的权重值进行保密,为了简化计算过程,减少计算量,将相似矩阵中的相对小的权重值置零,基于k-near值来进行上述简化过程,将相似矩阵中小于k-near值的元素值设为零。
S4、根据累计分布函数生成满足拉普拉斯分布的随机噪声,添加到相似矩阵中非零元素;
为了确保这种亲密关系不被泄漏,因此,通过拉普拉斯噪声来隐藏潜在的数据信息,即对相似矩阵中的非零元素添加拉普拉斯噪声,拉普拉斯噪声机制主要针对数值型数据的数据值进行扰动来达到隐私安全保护,累计分布函数的表述为:D(x)=(1/2)(1+sgn(x)×(1-exp(x/b)))。
S5、基于随机噪声扰动后的相似矩阵来构建邻接矩阵S及度矩阵D;
基于相似矩阵来构建连接矩阵及度矩阵的方法均是现有的,在此不做详细说明。
S6、基于邻接矩阵S及度矩阵D求出拉普拉斯矩阵L,拉普拉斯矩阵的计算公式为:L=D1/2SD1/2
S7、获取拉普拉斯矩阵的前m大特征值及对应的特征向量;
计算出拉普拉斯矩阵的特征值,通过matlab的排序算法将特征值从大到小排序,取前m个特征值λ1、λ2、…、λm,并计算出及这m个特征值对应的特征向量为(λ11、λ12、…、λ1m)、(λ21、λ22、…、λ2m)、…、(λm1、λm2、…、λmm),m的取值一般为2~3,也就是将数据进行降维处理,通常降至二维或三维。
S8、归一化特征向量,将归一化后的特征向量组成特征矩阵,将数据点映射到基于一个或多个确定的降维空间去;
以特征向量(λ11、λ12、…、λ1m)为例说明归一化处理,其归一化后的特征向量为:
S9、利用k-means聚类方法对特征矩阵进行聚类,得到对应的聚类标签label;
将特征矩阵的每一行看做一个数据点,采用k-means聚类方法将聚为k类,该k值可以自己设定,或者是通过标准聚类标签的聚类来计算聚类种类k值,通过标准聚类标签的聚类获取的k值,聚类结果会更精准,标准聚类标签为样本数据本身携带的聚类标签,例如,来自于UCI Knowledge Discovery Archive database的样本数据,每个样本数据中都携带有与之对应的标准聚类标签label。
谱聚类的算法对于数据的实用性更强,对于凸型的空间数据和高纬度的数据不容易陷入局部最优解,因此利用谱聚类算法先计算样本数据间的样本相似性作为数据点之间的权重值,再利用差分隐私算法,对权重值添加拉普拉斯分布的随机噪声,来干扰权重值达到隐私保护的目的,干扰后的数据不仅可以实现隐私保护还保证了聚类的有效性。
在步骤S9之后还包括:
S10、评估步骤S9中所获得的聚类标签label的精准度Accuracy,
在本发明实施例中,精准度其中,S为标准聚类标签的总数,M为步骤S9中精准的聚类标签数,精准的聚类标签是指步骤S9中获得的与对应标准聚类标签相同的聚类标签。
以下针对基于差分隐私保护的谱聚方法的效果进行以下实验:
本文所采用的数据集均来自于UCI Knowledge Discovery Archive database(http://archive.ics.uci.edu/)数据集中的liver、pima、sonar、balance四个数据集进行实验,如表1所示:
表1为UCI数据集
本实验首先对数据集进行归一化处理,将各个属性的值控制在[0,1]之间。然后调整相似性函数σ的值如0.1,0.5,0.9,1,2,4,6,8,10,12来确定最佳的聚类状态。并用聚类的评价指标Accuracy作为聚类结果的输出,从图2可以看出,聚类效果比较好的σ维持在0.9~2之间。
实验配置环境
本发明主要采用了Matlab软件编程来实现文中所提到的算法,实验的软硬件环境如下:
硬件环境配置:Intel I5处理器,4G内存;
软件环境配置:Matlab R2013b编程软件,操作系统windows 7 64位旗舰版
实验结果
本文首先对四个数据集liver、pima、sonar、balance进行预处理,使其每个属性值都在[0,1]之间,对四个数据集分别进行谱聚类算法和差分隐私谱聚类算法实验,因为实验的偶然性,所以选择进行20次实验,对比20的实验结果来计算平均值,图3至图6分别是四个数据集的扰动前后的情况:
由图3可知,对于数据集liver,运用差分隐私的谱聚类算法和只用谱聚类算法在聚类效果上是差不多的,所有在保证隐私安全的前提下,保证了数据集liver的聚类有效性。
由图4可知,对于数据集pima,Accuracy的值平均分布在0.6~0.7,分布较为稳定,而扰动前后的对比,虽然总体上是加扰动前聚类效果要好,但是此条件下并不能满足隐私保护,所以扰动后的算法任然具有可用性。
由图5可知,对于数据集sonar,其运行的总体情况是加入拉普拉斯噪声的要比不加噪声的好,Accuracy的值平均分布在0.5~0.6,而干扰后的算法在隐私保护的前提下可以达到聚类效果的最好状态。
由图6可知,对于数据集balance的运行结果总体都比未扰动的效果更好,其Accuracy的平均值稳定在0.4左右,而加入扰动后的值平均在0.5左右,提高了聚类的有效性。同时,因经过扰动后的权重随着随机点的选取,可能会出现样本点更好的聚类在样本中心点所以出现扰动后结果优于扰动前。
对比图3、图4、图5、图6,对于不同的四个数据集,在相同的谱聚类算法和差分隐私谱聚类算法中,Accuracy的运行结果总体比没有扰动的数值要提高一些,这也说明了本文提出的算法在实现隐私保护方面有了显著的成效,并且得到了很好的聚类有效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于差分隐私保护的谱聚类方法,其特征在于,所述方法包括如下步骤:
S1、对数据集中的样本数据进行预处理,预处理是指将各属性下的属性值除以所述属性下的最大属性值;
S2、通过高斯核函数的距离计算公式计算相似矩阵;
S3、基于给定的k-near值简化相似矩阵,即将相似矩阵中小于k-near值的元素值设为零;
S4、根据累计分布函数生成满足拉普拉斯分布的随机噪声,添加到相似矩阵中非零元素;
S5、基于随机噪声扰动后的相似矩阵来构建邻接矩阵S及度矩阵D;
S6、基于邻接矩阵S及度矩阵D求出拉普拉斯矩阵L;
S7、获取拉普拉斯矩阵的前m大特征值及对应的特征向量;
S8、归一化特征向量,将归一化后的特征向量组成特征矩阵;
S9、利用k-means聚类方法对特征矩阵进行聚类,得到对应的聚类标签label。
2.如权利要求1所述基于差分隐私保护的谱聚类方法,其特征在于,所述k-means聚类方法中的k值为标准聚类标签的聚类种类值。
3.如权利要求1所述基于差分隐私保护的谱聚类方法,其特征在于,在步骤S9之后还包括:
S10、评估步骤S9中所获得的聚类标签label的精准度Accuracy。
CN201810833306.3A 2018-07-26 2018-07-26 一种基于差分隐私保护的谱聚类方法 Pending CN109190661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810833306.3A CN109190661A (zh) 2018-07-26 2018-07-26 一种基于差分隐私保护的谱聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810833306.3A CN109190661A (zh) 2018-07-26 2018-07-26 一种基于差分隐私保护的谱聚类方法

Publications (1)

Publication Number Publication Date
CN109190661A true CN109190661A (zh) 2019-01-11

Family

ID=64937515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810833306.3A Pending CN109190661A (zh) 2018-07-26 2018-07-26 一种基于差分隐私保护的谱聚类方法

Country Status (1)

Country Link
CN (1) CN109190661A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829513A (zh) * 2019-03-04 2019-05-31 武汉大学 一种顺序式波长色散x射线荧光光谱智能分析方法
CN109886334A (zh) * 2019-02-20 2019-06-14 安徽师范大学 一种隐私保护的共享近邻密度峰聚类方法
CN110503697A (zh) * 2019-08-14 2019-11-26 江苏海洋大学 一种基于随机噪声机制的虹膜特征隐藏方法
CN111242194A (zh) * 2020-01-06 2020-06-05 广西师范大学 亲和传播聚类的差分隐私保护方法
CN111324453A (zh) * 2020-01-23 2020-06-23 天津大学 用于区块链平台资源调度的方法
CN111368943A (zh) * 2020-05-27 2020-07-03 腾讯科技(深圳)有限公司 图像中对象的识别方法和装置、存储介质及电子装置
CN112259210A (zh) * 2020-11-18 2021-01-22 云南财经大学 医疗大数据访问控制方法、装置及计算机可读存储介质
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法
CN112580822A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 机器学习模型的对抗训练方法装置、电子设备和介质
CN112613583A (zh) * 2021-01-05 2021-04-06 广东工业大学 一种针对低频噪声人脸图像的高频信息提取聚类方法
CN113158230A (zh) * 2021-03-16 2021-07-23 陕西数盾慧安数据科技有限公司 一种基于差分隐私的在线分类方法
CN113194031A (zh) * 2021-04-23 2021-07-30 西安交通大学 雾无线接入网内结合干扰抑制的用户聚类方法及系统
CN114092729A (zh) * 2021-09-10 2022-02-25 南方电网数字电网研究院有限公司 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
CN114118255A (zh) * 2021-11-23 2022-03-01 中国电子科技集团公司第三十研究所 一种基于谱聚类的未知协议聚类分析方法、装置及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石全等: "《系统决策与建模》", 31 July 2016, 国防工业出版社 *
郑孝遥等: "基于差分隐私保护的谱聚类算法研究", 《计算机应用》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886334A (zh) * 2019-02-20 2019-06-14 安徽师范大学 一种隐私保护的共享近邻密度峰聚类方法
CN109886334B (zh) * 2019-02-20 2023-09-22 安徽师范大学 一种隐私保护的共享近邻密度峰聚类方法
CN109829513A (zh) * 2019-03-04 2019-05-31 武汉大学 一种顺序式波长色散x射线荧光光谱智能分析方法
CN109829513B (zh) * 2019-03-04 2023-09-15 武汉大学 一种顺序式波长色散x射线荧光光谱智能分析方法
CN110503697A (zh) * 2019-08-14 2019-11-26 江苏海洋大学 一种基于随机噪声机制的虹膜特征隐藏方法
CN110503697B (zh) * 2019-08-14 2023-04-28 江苏海洋大学 一种基于随机噪声机制的虹膜特征隐藏方法
CN111242194A (zh) * 2020-01-06 2020-06-05 广西师范大学 亲和传播聚类的差分隐私保护方法
CN111242194B (zh) * 2020-01-06 2022-03-08 广西师范大学 亲和传播聚类的差分隐私保护方法
CN111324453A (zh) * 2020-01-23 2020-06-23 天津大学 用于区块链平台资源调度的方法
CN111368943A (zh) * 2020-05-27 2020-07-03 腾讯科技(深圳)有限公司 图像中对象的识别方法和装置、存储介质及电子装置
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法
CN112259210A (zh) * 2020-11-18 2021-01-22 云南财经大学 医疗大数据访问控制方法、装置及计算机可读存储介质
CN112580822A (zh) * 2020-12-16 2021-03-30 北京百度网讯科技有限公司 机器学习模型的对抗训练方法装置、电子设备和介质
CN112580822B (zh) * 2020-12-16 2023-10-17 北京百度网讯科技有限公司 机器学习模型的对抗训练方法装置、电子设备和介质
CN112613583A (zh) * 2021-01-05 2021-04-06 广东工业大学 一种针对低频噪声人脸图像的高频信息提取聚类方法
CN112613583B (zh) * 2021-01-05 2023-07-21 广东工业大学 一种针对低频噪声人脸图像的高频信息提取聚类方法
CN113158230A (zh) * 2021-03-16 2021-07-23 陕西数盾慧安数据科技有限公司 一种基于差分隐私的在线分类方法
CN113158230B (zh) * 2021-03-16 2024-02-09 陕西数盾慧安数据科技有限公司 一种基于差分隐私的在线分类方法
CN113194031B (zh) * 2021-04-23 2023-03-31 西安交通大学 雾无线接入网内结合干扰抑制的用户聚类方法及系统
CN113194031A (zh) * 2021-04-23 2021-07-30 西安交通大学 雾无线接入网内结合干扰抑制的用户聚类方法及系统
CN114092729A (zh) * 2021-09-10 2022-02-25 南方电网数字电网研究院有限公司 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
CN114118255A (zh) * 2021-11-23 2022-03-01 中国电子科技集团公司第三十研究所 一种基于谱聚类的未知协议聚类分析方法、装置及介质

Similar Documents

Publication Publication Date Title
CN109190661A (zh) 一种基于差分隐私保护的谱聚类方法
CN107220600B (zh) 一种基于深度学习的图片生成方法及生成对抗网络
CN106537422A (zh) 用于捕获信息内的关系的系统和方法
CN110222058A (zh) 基于FP-growth的多源数据关联隐私泄露风险评估系统
Pierbattista et al. Young and middle age pulsar light-curve morphology: Comparison of Fermi observations with γ-ray and radio emission geometries
CN107818336A (zh) 一种基于城市特定人群和关联政策的匹配推荐方法及系统
CN104809478B (zh) 一种面向大规模三维重建的图像分块方法及装置
Kalyani et al. Privacy-preserving classification rule mining for balancing data utility and knowledge privacy using adapted binary firefly algorithm
Ding Digital protection and development of intangible cultural heritage relying on high-performance computing
Alyasseri et al. Eeg-based person identification using multi-verse optimizer as unsupervised clustering techniques
Shen et al. One-hot graph encoder embedding
Dhankar et al. A systematic review of techniques, tools and applications of machine learning
Gallegos et al. Unsupervised learning methods to perform material identification tasks on spectral computed tomography data
Sun et al. Feature optimization method for the localization technology on loose particles inside sealed electronic equipment
CN109902731A (zh) 一种基于支持向量机的性能故障的检测方法及装置
Li et al. Classify the Higgs decays with the PFN and ParticleNet at electron–positron colliders
Onyisi et al. Comparing point cloud strategies for collider event classification
Kusrini et al. Multi features content-Based image retrieval using clustering and decision tree algorithm
Yang et al. Unsupervised automatic classification of all-sky auroral images using deep clustering technology
EP4002230A1 (en) Information processing apparatus and information processing method
Nakashima et al. Incremental learning of fuzzy rule-based classifiers for large data sets
Tsai et al. Inverting cosmic ray propagation by convolutional neural networks
CN107563399A (zh) 一种基于知识熵的特征加权谱聚类方法及系统
Hammad et al. Riemannian data preprocessing in machine learning to focus on QCD color structure
Panna et al. Human face detection based on combination of linear regression, PCA and fuzzy C-means clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111

RJ01 Rejection of invention patent application after publication