CN111985539A

CN111985539A - 基于高斯核函数的差分隐私保护的模糊c均值聚类方法

Info

Publication number: CN111985539A
Application number: CN202010754535.3A
Authority: CN
Inventors: 张亚玲; 韩瑾
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-24

Abstract

本发明公开了一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法，首先对数据集D的所有数据做归一化处理，得到数据集D'＝{x₁,...,x_n}，然后计算数据集D'中所有样本点到其中任意一点x_z的距离，将距离x_z最远的一个点x_s作为两个聚类中心点，接着计算距离x_s最远的点作为下一个聚类中心点，如此循环，直到找到k个聚类中心点，再计算隶属度矩阵，计算k个聚类中心点的高斯值及高斯权重，添加拉普拉斯噪声，最后判断是否收敛，输出满足差分隐私保护的聚类集合，该聚类集合即能够保护个体隐私。本发明解决了现有技术中存在的模糊C均值聚类分析中易造成隐私泄露的问题。

Description

基于高斯核函数的差分隐私保护的模糊C均值聚类方法

技术领域

本发明属于信息安全技术领域，具体涉及一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法。

背景技术

数据挖掘作为一种有效的获取信息的方法，可以从大量有效信息中快速提取潜在有用的信息。通过数据挖掘，人们可以获取更有价值的知识，获取到的有效信息也可以被应用于科学研究、医疗保健，交通规划的各行各业。聚类算法是数据分析中常见的无监督学习方法，主要思想是根据数据之间的相似性和差异性将数据分到不同的簇，使得簇与簇之间的相似性最小，簇内成员间的相似性最大。在模糊聚类算法中，一个数据点可能属于多个聚类，模糊C均值算法是最为常用的模糊聚类算法，在实际应用中，数据集样本往往数据量庞大并且不容易确定类别属性，具有模糊性。同一个样本在一定程度下属于一个类别，而在另一程度下又属于另一个或者多个类别，针对实际生活中这种具有模糊性的聚类问题，模糊C均值聚类算法得到了研究者的青睐，在不断的应用和研究中发展壮大，形成了一套完整的理论体系。

聚类分析技术为不同领域的增强服务和产品提供了更多的发展机会，但同时也带来大量个人隐私的泄露，因此，在大数据时代通过隐私保护技术在数据挖掘中提供隐私保护显得尤为重要。Dwork在2006年提出的差分隐私保护是基于数据失真的一种隐私保护技术，该机制通过添加随机噪声实现对数据集中个体敏感信息的保护，并且不会导致数据分布的显著变化。在模糊C均值聚类分析中，通过差分隐私保护技术能够有效的减少个体隐私的泄露，具有差分隐私保护的模糊C均值聚类算法具有重要的实际应用意义。

发明内容

本发明的目的是提供一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法，解决了现有技术中存在的模糊C均值聚类分析中易造成隐私泄露的问题。

本发明所采用的技术方案是，基于高斯核函数的差分隐私保护的模糊C均值聚类方法，其特征在于，具体按照以下步骤实施：

步骤1、对数据集D的所有数据做归一化处理，得到数据集D'＝{x₁,...,x_n}，x₁到x_n为数据样本，样本维度为d，n为数据集中样本个数，此时D'所有的样本点均分布在[0,1]^d空间中；

步骤2、计算数据集D'中所有样本点到其中任意一点x_z的距离，将距离x_z最远的一个点x_s作为两个聚类中心点，接着计算距离x_s最远的点作为下一个聚类中心点，如此循环，直到找到k个聚类中心点，其中，1<＝z,s<＝n；

步骤3、对于k个聚类中心点，根据隶属度公式

计算隶属度矩阵，u_ij为第i个数据点x_i对第j个聚类中心点的隶属度，c_j为第j个聚类中心点，1<＝i<＝n，1<＝j，v<＝k，m为模糊系数；

步骤4、计算k个聚类中心点的高斯值

及高斯权重

找出k个中心点中最小的权重min(ω)，则在第t次迭代过程中，第j个聚类中心点所分配的隐私预算大小为

添加的拉普拉斯噪声为

步骤5、根据

公式更新聚类中心点，首先需要计算n个数据点x_i到第j个聚类中心点的隶属度的m次方与x_i的乘积的累加和，然后计算n个数据点x_i到第j个聚类中心点的隶属度的m次方的累加和，这两个的比值加上步骤4计算得出的拉普拉斯噪声作为新的聚类中心点；

步骤6、判断是否收敛：循环开始时即设置停止条件，迭代停止条件设置为迭代次数大于10并且相邻两次迭代的中心点距离小于1，比较新的聚类中心点和上次迭代产生的聚类中心点的距离，如果不满足迭代停止条件，返回步骤3继续迭代执行，如果满足，则算法结束，输出满足差分隐私保护的聚类集合，该聚类集合即能够保护个体隐私。

本发明的特点还在于，

步骤1中数据集D中的数据为医疗领域中患者的病例数据集，或者是销售行业的进货单数据集，其中包括各类产品的进货价格和数量以及进货来源地。

步骤3中模糊系数m取值为2。

本发明的有益效果是，一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法，为模糊C均值聚类算法添加了差分隐私，并根据每个聚类中心点的高斯值来评估每个聚类中心点的影响力，为每次迭代的不同聚类分配大小不同的隐私预算来添加随机噪声，避免了因为隐私预算ε较小时对于某一个簇随机噪声过大而引起的中心点偏离，造成聚类的不稳定及聚类结果准确性较差的问题。测试结果表明，本方法相比于直接对隶属度矩阵和聚类中心点添加随机噪声的算法的聚类结果具有较好的可用性，尤其是在隐私预算较小的情况下减少了聚类迭代次数，同时算法的运行时间也有所降低，这对于隐私保护的聚类算法具有更好的实际意义。

附图说明

图1是本发明一种基于高斯核函数的差分隐私保护的模糊C均值聚类方法的流程图；

图2(a)是在Iris数据集上的聚类准确性对比图；

图2(b)是在Seeds数据集上的聚类准确性对比图；

图2(c)是在Trial数据集上的聚类准确性对比图；

图2(d)是在S1数据集上的聚类准确性对比图；

图3(a)是在Iris数据集上的聚类准确性对比图；

图3(b)是在Seeds数据集上的迭代次数对比图；

图3(c)是在Trial数据集上的迭代次数对比图；

图3(d)是在S1数据集上的迭代次数对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于高斯核函数的差分隐私保护的模糊C均值聚类方法，其特征在于，具体按照以下步骤实施：

步骤1、对数据集D的所有数据做归一化处理，得到数据集D'＝{x₁,...,x_n}，x₁到x_n为数据样本，样本维度为d，n为数据集中样本个数，此时D'所有的样本点均分布在[0,1]^d空间中；步骤1中数据集D中的数据为医疗领域中患者的病例数据集，或者是销售行业的进货单数据集，其中包括各类产品的进货价格和数量以及进货来源地。

步骤3、对于k个聚类中心点，根据隶属度公式

计算隶属度矩阵，u_ij为第i个数据点x_i对第j个聚类中心点的隶属度，c_j为第j个聚类中心点，1<＝i<＝n，1<＝j，v<＝k，m为模糊系数；模糊系数m取值为2；

步骤4、计算k个聚类中心点的高斯值

及高斯权重

添加的拉普拉斯噪声为

步骤5、根据

为了验证本发明在保证较好的聚类可用性的前提下，实现较高的差分隐私保护，通过仿真实验给出对比实验。实验平台硬件环境为：Intel(R)Core(TM)i5-4460 CPU@3.2GHz处理器、4GB运行内存；Windows10操作系统,实验程序开发工具为JetBrainsPyCharm Community Edition 2018.1.4，编程语言采用python3.7。

实验所选择的数据集的具体信息如表1所列，其中Iris、Seeds、Trial三个数据集为UCI Knowledge Discovery Archive database中属性和规模均不同3个数据集,S1是研究聚类方案性能的基准数据集，由东芬兰大学机器学习实验室提供。

表1实验数据集

数据集	类型	属性个数	记录数	聚类个数
					Iris	Real	4	150	3
Seeds	Real	7	210	3
					Trial	Real	17	773	2
S1	Real	2	5000	15

实验通过对比未实现差分隐私保护的模糊c均值算法(FCM)，未考虑同一次迭代中不同簇的聚类效果，而给不同簇添加了相同的干扰噪声算法对的一般差分隐私保护模糊C均值算法(DPFCM)和本发明所给出的基于高斯核函数实现隐私预算分配的差分差分隐私保护模糊C均值算法的聚类效果来验证本文方法的可行性。

(1)聚类结果可用性度量实验

聚类结果可用性采用F-measure和调整兰德系数来评估。

F-measure是一种常见的衡量聚类结果有效性的评价指标，它可以体现出两种结果的相似程度。F-measure评价指标的计算公式如下：

P和R分别代表准确率和召回率。C_i和D_j是通过两种聚类算法得到的两种聚类结果，n_ij是C_i和D_j中相同的聚类结果的个数。F-measure的值在[0,1]区间内，F-measure越大，表示聚类结果的有效性越高。

ARI衡量的是两个数据分布的吻合程度。计算公式如下：

假设X为实际的聚类标签，K是聚类结果，a表示在X与K中都是同类别的数据个数，b表示在X与K中是不同类别的数据个数，ARI取值范围为[-1,1]，值越大意味着聚类结果与真实情况越吻合。

由于添加拉普拉斯差分隐私噪声的随机性，因此，将在同一隐私预算ε下，取50次实验的平均值作为最终的实验结果。

图2(a)中当隐私预算为0.5时，本文的算法在F-measure和ARI两种评价指标上的准确率都已到达了FCM算法的准确率，而DPFCM在隐私预算为1时才达到了FCM的准确率；图2(b)中IDPFCM算法在也隐私预算为0.5时达到了FCM的准确率，而DPFCM算法在隐私预算为2时达到了FCM的准确率；图2(c)中IDPFCM算法在也隐私预算为1时达到了FCM的准确率，而DPFCM算法在隐私预算为2时达到了FCM的准确率；图2(d)中IDPFCM算法和DPFCM在隐私预算为0.5同时达到了FCM的准确率；IDPFCM算法在四个数据集上都体现了在相同准确性下能对数据实现更高的隐私保护。在[0.01，1]这个合理的隐私预算区间内，在相同隐私预算下，本文的算法相较于DPFCM算法都表现出了更高的数据可用性；当隐私预算为0.01时，由于添加的噪声过大导致两种算法的数据可用均较低，此时并不能很好的表现出数据集的聚类特性，因此，为了既能挖掘有用的聚类信息又能对数据集的敏感信息进行保护，隐私预算强度应设置在(0.1,1)范围内，此时，在相同的隐私预算下，本文的IDPFCM算法和DPFCM有相同的隐私保护强度，并且IDPFCM算法的F-measure和ARI比DPFCM算法平均高出0.2。

(2)算法运行效率实验

本发明方法的效率实验通过对比平均迭代次数和运行时间。鉴于添加拉普拉斯噪声的随机性，结果采用50次实验的平均值作为最终的实验结果，实验结果对比如图3(a)～图3(d)所示。

图2(a)中在隐私预算为0.05的时候，IDPFCM算法的迭代次数下降的趋势，在隐私预算为0.5时，迭代次数和FCM算法一致，比DPFCM算法能更快的收敛；图2(b)中隐私预算为0.5时，IDPFCM和FCM有相同的收敛速度，但DPFCM算法在隐私预算为2时才可以和FCM收敛速度一致；图2(c)中，IDPFCM算法在隐私预算为0.5时和FCM的迭代次数一致，而DPFCM算法在隐私预算为5时，算法的迭代次数才能和FCM达到一致；图2(d)中，IDPFCM算法在隐私预算为0.05时已有减小迭代次数的趋势，但DPFCM算法在隐私预算为0.5之后才有隐私预算减小的趋势。

图3(a)、(b)、(c)整体可以看出，当隐私预算为0.01和0.05时，IDPFCM算法和DPFCM算法的迭代次数基本一致，并都是大于FCM算法的迭代次数，由于添加噪声会打破原有的聚类收敛过程，因此实现差分隐私保护算法的迭代次数高于未实现差分隐私保护的算法，随着隐私预算逐渐增加，添加的随机噪声逐渐减小，两种差分隐私保护算法的的平均迭代次数降低，渐渐接近于未添加隐私保护的FCM算法，同时IDPFCM算法的收敛趋势较快,当隐私预算为0.5时，IDPFCM算法在五种数据集上都已基本达到收敛状态，相比于DPFCM算法，迭代次数减小了近一倍。

表2隐私预算为0.5时运行时间对比，单位ms

	DPFCM	IDPFCM
			Iris	348	116
Seeds	1192	224
			Trial	3061	648
S1	363820	276664

从表2可以看出，当隐私预算为0.5时，随着数据集记录个数的增加，算法的运行时间也随之增加，相比于DPFCM算法，本文算法根据高斯值分配隐私预算可以降低算法迭代次数，大大减小了算法的运行时间。

本发明在模糊C均值聚类迭代过程中，根据不同簇中心点的高斯值分配不同的隐私预算，避免了聚类中心点添加较大噪声而造成严重偏离的问题，较好地解决了隐私预算ε较小时数据可用性较差的问题，使得在提供比较高的隐私保护程度的同时，获得较好的聚类结果可用性。

本发明方法的主要思想是在每次迭代过程通过计算聚类中心点的高斯值来衡量每个聚类中心点的影响力，较高影响力的中心点分配较小隐私预算，较小影响力的中心点分配较大隐私预算，满足了在保证聚类可用性的前提下实现隐私保护。通过与现有方案相比较，本发明方法在具有较好的算法稳定性，尤其是在隐私保护程度较高时，迭代次数比既有方法明显下降，运行时间降低，聚类结果可用性提高。

Claims

1.基于高斯核函数的差分隐私保护的模糊C均值聚类方法，其特征在于，具体按照以下步骤实施：

步骤3、对于k个聚类中心点，根据隶属度公式

步骤4、计算k个聚类中心点的高斯值

及高斯权重

添加的拉普拉斯噪声为

步骤5、根据

2.根据权利要求1所述的基于高斯核函数的差分隐私保护的模糊C均值聚类方法，其特征在于，所述步骤1中数据集D中的数据为医疗领域中患者的病例数据集，或者是销售行业的进货单数据集，其中包括各类产品的进货价格和数量以及进货来源地。

3.根据权利要求1所述的基于高斯核函数的差分隐私保护的模糊C均值聚类方法，其特征在于，所述步骤3中模糊系数m取值为2。