CN111985539A - 基于高斯核函数的差分隐私保护的模糊c均值聚类方法 - Google Patents

基于高斯核函数的差分隐私保护的模糊c均值聚类方法 Download PDF

Info

Publication number
CN111985539A
CN111985539A CN202010754535.3A CN202010754535A CN111985539A CN 111985539 A CN111985539 A CN 111985539A CN 202010754535 A CN202010754535 A CN 202010754535A CN 111985539 A CN111985539 A CN 111985539A
Authority
CN
China
Prior art keywords
clustering
points
data set
data
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010754535.3A
Other languages
English (en)
Inventor
张亚玲
韩瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010754535.3A priority Critical patent/CN111985539A/zh
Publication of CN111985539A publication Critical patent/CN111985539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法,首先对数据集D的所有数据做归一化处理,得到数据集D'={x1,...,xn},然后计算数据集D'中所有样本点到其中任意一点xz的距离,将距离xz最远的一个点xs作为两个聚类中心点,接着计算距离xs最远的点作为下一个聚类中心点,如此循环,直到找到k个聚类中心点,再计算隶属度矩阵,计算k个聚类中心点的高斯值及高斯权重,添加拉普拉斯噪声,最后判断是否收敛,输出满足差分隐私保护的聚类集合,该聚类集合即能够保护个体隐私。本发明解决了现有技术中存在的模糊C均值聚类分析中易造成隐私泄露的问题。

Description

基于高斯核函数的差分隐私保护的模糊C均值聚类方法
技术领域
本发明属于信息安全技术领域,具体涉及一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法。
背景技术
数据挖掘作为一种有效的获取信息的方法,可以从大量有效信息中快速提取潜在有用的信息。通过数据挖掘,人们可以获取更有价值的知识,获取到的有效信息也可以被应用于科学研究、医疗保健,交通规划的各行各业。聚类算法是数据分析中常见的无监督学习方法,主要思想是根据数据之间的相似性和差异性将数据分到不同的簇,使得簇与簇之间的相似性最小,簇内成员间的相似性最大。在模糊聚类算法中,一个数据点可能属于多个聚类,模糊C均值算法是最为常用的模糊聚类算法,在实际应用中,数据集样本往往数据量庞大并且不容易确定类别属性,具有模糊性。同一个样本在一定程度下属于一个类别,而在另一程度下又属于另一个或者多个类别,针对实际生活中这种具有模糊性的聚类问题,模糊C均值聚类算法得到了研究者的青睐,在不断的应用和研究中发展壮大,形成了一套完整的理论体系。
聚类分析技术为不同领域的增强服务和产品提供了更多的发展机会,但同时也带来大量个人隐私的泄露,因此,在大数据时代通过隐私保护技术在数据挖掘中提供隐私保护显得尤为重要。Dwork在2006年提出的差分隐私保护是基于数据失真的一种隐私保护技术,该机制通过添加随机噪声实现对数据集中个体敏感信息的保护,并且不会导致数据分布的显著变化。在模糊C均值聚类分析中,通过差分隐私保护技术能够有效的减少个体隐私的泄露,具有差分隐私保护的模糊C均值聚类算法具有重要的实际应用意义。
发明内容
本发明的目的是提供一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法,解决了现有技术中存在的模糊C均值聚类分析中易造成隐私泄露的问题。
本发明所采用的技术方案是,基于高斯核函数的差分隐私保护的模糊C均值聚类方法,其特征在于,具体按照以下步骤实施:
步骤1、对数据集D的所有数据做归一化处理,得到数据集D'={x1,...,xn},x1到xn为数据样本,样本维度为d,n为数据集中样本个数,此时D'所有的样本点均分布在[0,1]d空间中;
步骤2、计算数据集D'中所有样本点到其中任意一点xz的距离,将距离xz最远的一个点xs作为两个聚类中心点,接着计算距离xs最远的点作为下一个聚类中心点,如此循环,直到找到k个聚类中心点,其中,1<=z,s<=n;
步骤3、对于k个聚类中心点,根据隶属度公式
Figure BDA0002611103410000021
计算隶属度矩阵,uij为第i个数据点xi对第j个聚类中心点的隶属度,cj为第j个聚类中心点,1<=i<=n,1<=j,v<=k,m为模糊系数;
步骤4、计算k个聚类中心点的高斯值
Figure BDA0002611103410000022
及高斯权重
Figure BDA0002611103410000023
找出k个中心点中最小的权重min(ω),则在第t次迭代过程中,第j个聚类中心点所分配的隐私预算大小为
Figure BDA0002611103410000031
添加的拉普拉斯噪声为
Figure BDA0002611103410000032
步骤5、根据
Figure BDA0002611103410000033
公式更新聚类中心点,首先需要计算n个数据点xi到第j个聚类中心点的隶属度的m次方与xi的乘积的累加和,然后计算n个数据点xi到第j个聚类中心点的隶属度的m次方的累加和,这两个的比值加上步骤4计算得出的拉普拉斯噪声作为新的聚类中心点;
步骤6、判断是否收敛:循环开始时即设置停止条件,迭代停止条件设置为迭代次数大于10并且相邻两次迭代的中心点距离小于1,比较新的聚类中心点和上次迭代产生的聚类中心点的距离,如果不满足迭代停止条件,返回步骤3继续迭代执行,如果满足,则算法结束,输出满足差分隐私保护的聚类集合,该聚类集合即能够保护个体隐私。
本发明的特点还在于,
步骤1中数据集D中的数据为医疗领域中患者的病例数据集,或者是销售行业的进货单数据集,其中包括各类产品的进货价格和数量以及进货来源地。
步骤3中模糊系数m取值为2。
本发明的有益效果是,一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法,为模糊C均值聚类算法添加了差分隐私,并根据每个聚类中心点的高斯值来评估每个聚类中心点的影响力,为每次迭代的不同聚类分配大小不同的隐私预算来添加随机噪声,避免了因为隐私预算ε较小时对于某一个簇随机噪声过大而引起的中心点偏离,造成聚类的不稳定及聚类结果准确性较差的问题。测试结果表明,本方法相比于直接对隶属度矩阵和聚类中心点添加随机噪声的算法的聚类结果具有较好的可用性,尤其是在隐私预算较小的情况下减少了聚类迭代次数,同时算法的运行时间也有所降低,这对于隐私保护的聚类算法具有更好的实际意义。
附图说明
图1是本发明一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法的流程图;
图2(a)是在Iris数据集上的聚类准确性对比图;
图2(b)是在Seeds数据集上的聚类准确性对比图;
图2(c)是在Trial数据集上的聚类准确性对比图;
图2(d)是在S1数据集上的聚类准确性对比图;
图3(a)是在Iris数据集上的聚类准确性对比图;
图3(b)是在Seeds数据集上的迭代次数对比图;
图3(c)是在Trial数据集上的迭代次数对比图;
图3(d)是在S1数据集上的迭代次数对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于高斯核函数的差分隐私保护的模糊C均值聚类方法,其特征在于,具体按照以下步骤实施:
步骤1、对数据集D的所有数据做归一化处理,得到数据集D'={x1,...,xn},x1到xn为数据样本,样本维度为d,n为数据集中样本个数,此时D'所有的样本点均分布在[0,1]d空间中;步骤1中数据集D中的数据为医疗领域中患者的病例数据集,或者是销售行业的进货单数据集,其中包括各类产品的进货价格和数量以及进货来源地。
步骤2、计算数据集D'中所有样本点到其中任意一点xz的距离,将距离xz最远的一个点xs作为两个聚类中心点,接着计算距离xs最远的点作为下一个聚类中心点,如此循环,直到找到k个聚类中心点,其中,1<=z,s<=n;
步骤3、对于k个聚类中心点,根据隶属度公式
Figure BDA0002611103410000051
计算隶属度矩阵,uij为第i个数据点xi对第j个聚类中心点的隶属度,cj为第j个聚类中心点,1<=i<=n,1<=j,v<=k,m为模糊系数;模糊系数m取值为2;
步骤4、计算k个聚类中心点的高斯值
Figure BDA0002611103410000052
及高斯权重
Figure BDA0002611103410000053
找出k个中心点中最小的权重min(ω),则在第t次迭代过程中,第j个聚类中心点所分配的隐私预算大小为
Figure BDA0002611103410000054
添加的拉普拉斯噪声为
Figure BDA0002611103410000055
步骤5、根据
Figure BDA0002611103410000056
公式更新聚类中心点,首先需要计算n个数据点xi到第j个聚类中心点的隶属度的m次方与xi的乘积的累加和,然后计算n个数据点xi到第j个聚类中心点的隶属度的m次方的累加和,这两个的比值加上步骤4计算得出的拉普拉斯噪声作为新的聚类中心点;
步骤6、判断是否收敛:循环开始时即设置停止条件,迭代停止条件设置为迭代次数大于10并且相邻两次迭代的中心点距离小于1,比较新的聚类中心点和上次迭代产生的聚类中心点的距离,如果不满足迭代停止条件,返回步骤3继续迭代执行,如果满足,则算法结束,输出满足差分隐私保护的聚类集合,该聚类集合即能够保护个体隐私。
为了验证本发明在保证较好的聚类可用性的前提下,实现较高的差分隐私保护,通过仿真实验给出对比实验。实验平台硬件环境为:Intel(R)Core(TM)i5-4460 CPU@3.2GHz处理器、4GB运行内存;Windows10操作系统,实验程序开发工具为JetBrainsPyCharm Community Edition 2018.1.4,编程语言采用python3.7。
实验所选择的数据集的具体信息如表1所列,其中Iris、Seeds、Trial三个数据集为UCI Knowledge Discovery Archive database中属性和规模均不同3个数据集,S1是研究聚类方案性能的基准数据集,由东芬兰大学机器学习实验室提供。
表1实验数据集
数据集 类型 属性个数 记录数 聚类个数
Iris Real 4 150 3
Seeds Real 7 210 3
Trial Real 17 773 2
S1 Real 2 5000 15
实验通过对比未实现差分隐私保护的模糊c均值算法(FCM),未考虑同一次迭代中不同簇的聚类效果,而给不同簇添加了相同的干扰噪声算法对的一般差分隐私保护模糊C均值算法(DPFCM)和本发明所给出的基于高斯核函数实现隐私预算分配的差分差分隐私保护模糊C均值算法的聚类效果来验证本文方法的可行性。
(1)聚类结果可用性度量实验
聚类结果可用性采用F-measure和调整兰德系数来评估。
F-measure是一种常见的衡量聚类结果有效性的评价指标,它可以体现出两种结果的相似程度。F-measure评价指标的计算公式如下:
Figure BDA0002611103410000071
Figure BDA0002611103410000072
Figure BDA0002611103410000073
Figure BDA0002611103410000074
P和R分别代表准确率和召回率。Ci和Dj是通过两种聚类算法得到的两种聚类结果,nij是Ci和Dj中相同的聚类结果的个数。F-measure的值在[0,1]区间内,F-measure越大,表示聚类结果的有效性越高。
ARI衡量的是两个数据分布的吻合程度。计算公式如下:
Figure BDA0002611103410000075
Figure BDA0002611103410000076
假设X为实际的聚类标签,K是聚类结果,a表示在X与K中都是同类别的数据个数,b表示在X与K中是不同类别的数据个数,ARI取值范围为[-1,1],值越大意味着聚类结果与真实情况越吻合。
由于添加拉普拉斯差分隐私噪声的随机性,因此,将在同一隐私预算ε下,取50次实验的平均值作为最终的实验结果。
图2(a)中当隐私预算为0.5时,本文的算法在F-measure和ARI两种评价指标上的准确率都已到达了FCM算法的准确率,而DPFCM在隐私预算为1时才达到了FCM的准确率;图2(b)中IDPFCM算法在也隐私预算为0.5时达到了FCM的准确率,而DPFCM算法在隐私预算为2时达到了FCM的准确率;图2(c)中IDPFCM算法在也隐私预算为1时达到了FCM的准确率,而DPFCM算法在隐私预算为2时达到了FCM的准确率;图2(d)中IDPFCM算法和DPFCM在隐私预算为0.5同时达到了FCM的准确率;IDPFCM算法在四个数据集上都体现了在相同准确性下能对数据实现更高的隐私保护。在[0.01,1]这个合理的隐私预算区间内,在相同隐私预算下,本文的算法相较于DPFCM算法都表现出了更高的数据可用性;当隐私预算为0.01时,由于添加的噪声过大导致两种算法的数据可用均较低,此时并不能很好的表现出数据集的聚类特性,因此,为了既能挖掘有用的聚类信息又能对数据集的敏感信息进行保护,隐私预算强度应设置在(0.1,1)范围内,此时,在相同的隐私预算下,本文的IDPFCM算法和DPFCM有相同的隐私保护强度,并且IDPFCM算法的F-measure和ARI比DPFCM算法平均高出0.2。
(2)算法运行效率实验
本发明方法的效率实验通过对比平均迭代次数和运行时间。鉴于添加拉普拉斯噪声的随机性,结果采用50次实验的平均值作为最终的实验结果,实验结果对比如图3(a)~图3(d)所示。
图2(a)中在隐私预算为0.05的时候,IDPFCM算法的迭代次数下降的趋势,在隐私预算为0.5时,迭代次数和FCM算法一致,比DPFCM算法能更快的收敛;图2(b)中隐私预算为0.5时,IDPFCM和FCM有相同的收敛速度,但DPFCM算法在隐私预算为2时才可以和FCM收敛速度一致;图2(c)中,IDPFCM算法在隐私预算为0.5时和FCM的迭代次数一致,而DPFCM算法在隐私预算为5时,算法的迭代次数才能和FCM达到一致;图2(d)中,IDPFCM算法在隐私预算为0.05时已有减小迭代次数的趋势,但DPFCM算法在隐私预算为0.5之后才有隐私预算减小的趋势。
图3(a)、(b)、(c)整体可以看出,当隐私预算为0.01和0.05时,IDPFCM算法和DPFCM算法的迭代次数基本一致,并都是大于FCM算法的迭代次数,由于添加噪声会打破原有的聚类收敛过程,因此实现差分隐私保护算法的迭代次数高于未实现差分隐私保护的算法,随着隐私预算逐渐增加,添加的随机噪声逐渐减小,两种差分隐私保护算法的的平均迭代次数降低,渐渐接近于未添加隐私保护的FCM算法,同时IDPFCM算法的收敛趋势较快,当隐私预算为0.5时,IDPFCM算法在五种数据集上都已基本达到收敛状态,相比于DPFCM算法,迭代次数减小了近一倍。
表2隐私预算为0.5时运行时间对比,单位ms
DPFCM IDPFCM
Iris 348 116
Seeds 1192 224
Trial 3061 648
S1 363820 276664
从表2可以看出,当隐私预算为0.5时,随着数据集记录个数的增加,算法的运行时间也随之增加,相比于DPFCM算法,本文算法根据高斯值分配隐私预算可以降低算法迭代次数,大大减小了算法的运行时间。
本发明在模糊C均值聚类迭代过程中,根据不同簇中心点的高斯值分配不同的隐私预算,避免了聚类中心点添加较大噪声而造成严重偏离的问题,较好地解决了隐私预算ε较小时数据可用性较差的问题,使得在提供比较高的隐私保护程度的同时,获得较好的聚类结果可用性。
本发明方法的主要思想是在每次迭代过程通过计算聚类中心点的高斯值来衡量每个聚类中心点的影响力,较高影响力的中心点分配较小隐私预算,较小影响力的中心点分配较大隐私预算,满足了在保证聚类可用性的前提下实现隐私保护。通过与现有方案相比较,本发明方法在具有较好的算法稳定性,尤其是在隐私保护程度较高时,迭代次数比既有方法明显下降,运行时间降低,聚类结果可用性提高。

Claims (3)

1.基于高斯核函数的差分隐私保护的模糊C均值聚类方法,其特征在于,具体按照以下步骤实施:
步骤1、对数据集D的所有数据做归一化处理,得到数据集D'={x1,...,xn},x1到xn为数据样本,样本维度为d,n为数据集中样本个数,此时D'所有的样本点均分布在[0,1]d空间中;
步骤2、计算数据集D'中所有样本点到其中任意一点xz的距离,将距离xz最远的一个点xs作为两个聚类中心点,接着计算距离xs最远的点作为下一个聚类中心点,如此循环,直到找到k个聚类中心点,其中,1<=z,s<=n;
步骤3、对于k个聚类中心点,根据隶属度公式
Figure FDA0002611103400000011
计算隶属度矩阵,uij为第i个数据点xi对第j个聚类中心点的隶属度,cj为第j个聚类中心点,1<=i<=n,1<=j,v<=k,m为模糊系数;
步骤4、计算k个聚类中心点的高斯值
Figure FDA0002611103400000012
及高斯权重
Figure FDA0002611103400000013
找出k个中心点中最小的权重min(ω),则在第t次迭代过程中,第j个聚类中心点所分配的隐私预算大小为
Figure FDA0002611103400000014
添加的拉普拉斯噪声为
Figure FDA0002611103400000015
步骤5、根据
Figure FDA0002611103400000016
公式更新聚类中心点,首先需要计算n个数据点xi到第j个聚类中心点的隶属度的m次方与xi的乘积的累加和,然后计算n个数据点xi到第j个聚类中心点的隶属度的m次方的累加和,这两个的比值加上步骤4计算得出的拉普拉斯噪声作为新的聚类中心点;
步骤6、判断是否收敛:循环开始时即设置停止条件,迭代停止条件设置为迭代次数大于10并且相邻两次迭代的中心点距离小于1,比较新的聚类中心点和上次迭代产生的聚类中心点的距离,如果不满足迭代停止条件,返回步骤3继续迭代执行,如果满足,则算法结束,输出满足差分隐私保护的聚类集合,该聚类集合即能够保护个体隐私。
2.根据权利要求1所述的基于高斯核函数的差分隐私保护的模糊C均值聚类方法,其特征在于,所述步骤1中数据集D中的数据为医疗领域中患者的病例数据集,或者是销售行业的进货单数据集,其中包括各类产品的进货价格和数量以及进货来源地。
3.根据权利要求1所述的基于高斯核函数的差分隐私保护的模糊C均值聚类方法,其特征在于,所述步骤3中模糊系数m取值为2。
CN202010754535.3A 2020-07-30 2020-07-30 基于高斯核函数的差分隐私保护的模糊c均值聚类方法 Pending CN111985539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010754535.3A CN111985539A (zh) 2020-07-30 2020-07-30 基于高斯核函数的差分隐私保护的模糊c均值聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010754535.3A CN111985539A (zh) 2020-07-30 2020-07-30 基于高斯核函数的差分隐私保护的模糊c均值聚类方法

Publications (1)

Publication Number Publication Date
CN111985539A true CN111985539A (zh) 2020-11-24

Family

ID=73444816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010754535.3A Pending CN111985539A (zh) 2020-07-30 2020-07-30 基于高斯核函数的差分隐私保护的模糊c均值聚类方法

Country Status (1)

Country Link
CN (1) CN111985539A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118407A (zh) * 2021-10-29 2022-03-01 华北电力大学 一种面向深度学习的差分隐私可用性度量方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118407A (zh) * 2021-10-29 2022-03-01 华北电力大学 一种面向深度学习的差分隐私可用性度量方法
CN114118407B (zh) * 2021-10-29 2023-10-24 华北电力大学 一种面向深度学习的差分隐私可用性度量方法

Similar Documents

Publication Publication Date Title
Dubey et al. Analysis of k-means clustering approach on the breast cancer Wisconsin dataset
Liang et al. Determining the number of clusters using information entropy for mixed data
Wong A short survey on data clustering algorithms
Celton et al. Comparative analysis of missing value imputation methods to improve clustering and interpretation of microarray experiments
De Carvalho et al. Fuzzy K-means clustering algorithms for interval-valued data based on adaptive quadratic distances
You et al. PLS-based recursive feature elimination for high-dimensional small sample
CN108763590B (zh) 一种基于双变加权核fcm算法的数据聚类方法
CN108549904A (zh) 基于轮廓系数的差分隐私保护K-means聚类方法
Tang et al. Gene selection for microarray data classification via subspace learning and manifold regularization
CN112364914A (zh) 基于簇相似度与变换不变性的差分隐私k均值聚类方法
Chen et al. Bayesian hierarchical classification and information sharing for clinical trials with subgroups and binary outcomes
Peng et al. The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process
Liang et al. A new cell group clustering algorithm based on validation & correction mechanism
Azimlu et al. House price prediction using clustering and genetic programming along with conducting a comparative study
Kim et al. A method to identify differential expression profiles of time-course gene data with Fourier transformation
CN111985539A (zh) 基于高斯核函数的差分隐私保护的模糊c均值聚类方法
Zhang et al. Differential privacy fuzzy C-means clustering algorithm based on gaussian kernel function
CN111353529A (zh) 一种自动确定聚类中心的混合属性数据集聚类方法
Gallaugher et al. Parsimonious mixtures of matrix variate bilinear factor analyzers
Wang et al. Hybrid density-and partition-based clustering algorithm for data with mixed-type variables
Kang et al. Feature selection for continuous aggregate response and its application to auto insurance data
Ragab et al. Mathematical Modelling of Quantum Kernel Method for Biomedical Data Analysis.
Kim et al. Difference-based clustering of short time-course microarray data with replicates
Śmieja et al. Spherical wards clustering and generalized voronoi diagrams
Moutachaouik et al. Mining prostate cancer behavior using parsimonious factors and shrinkage methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination