CN112199722A

CN112199722A - 一种基于K-means的差分隐私保护聚类方法

Info

Publication number: CN112199722A
Application number: CN202011102946.0A
Authority: CN
Inventors: 李鹏; 朱祥; 王汝传; 徐鹤; 程海涛; 朱枫; 张玉杰; 李正材
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-08
Anticipated expiration: 2040-10-15
Also published as: CN112199722B

Abstract

一种基于K‑means的差分隐私保护聚类方法，包括数据预处理、聚类迭代和差分隐私；每次迭代需要做如下：设置隐私预算，计算噪声，计算每个簇的数据点的总和、点的数量，然后对其添加计算后的噪声。针对每次迭代，都维持一个隐私预算的上界和下界，在上下界间，根据可用性和隐私保护程度，选择自适应的隐私预算分配，重复步骤，直到误差平方和收敛或者达到迭代次数上限。本发明在K‑means聚类算法的迭代过程中，通过自适应的隐私预算分配，既在数据失真的基础上保护了数据隐私，又保证了数据的可用性。

Description

一种基于K-means的差分隐私保护聚类方法

技术领域

本发明属于信息安全技术领域，涉及一种聚类方法与隐私保护技术，具体是涉及一种基于K-means的差分隐私保护聚类方法。

背景技术

随着信息技术应用的不断普及和深入，各种信息系统存储并积累了丰富的数据，面对海量的数据，在工业界，数据持有者可以通过数据挖掘技术从中获得潜在的价值；在学术界，数据挖掘技术亦在一些研究和应用中取得长足的进步。聚类算法作为最常用的数据挖掘技术，应用广泛，与此同时，这些数据中隐含着大量敏感的信息，会给用户带来无法估量的威胁和损失。因此需要在聚类分析过程中对数据隐私进行保护。

从隐私保护角度来看，一般可能采取以下几种手段：1)密码学手段(Cryptography)：信息完全保真，但是计算复杂度太高。2)匿名化手段(Anonymization)：隐私保护水平比较低，可能会碰到NP难问题。3)数据扰动(Perturbation)：大致可分为输入扰动、输出扰动和目标扰动三大类。

从已有的研究来看，k-anonymity及其扩展模型在隐私保护领域影响深远且被广泛研究。这些模型的基本思想是将数据集里与攻击者背景知识相关的属性定义为准标识符，通过对记录的准标识符值进行泛化、压缩处理，使得所有记录被划分到若干个等价类，每个等价类中的记录具有相同的准标识符值，从而实现将一个记录隐藏在一组记录中。因此，这类模型也被称为基于分组的隐私保护模型。然而后续研究表明，这些模型存在两个主要缺陷。其一，这些模型并不能提供足够的安全保障，它们总是因新型攻击的出现而需要不断完善。出现这一局面的根本原因在于，基于分组的隐私保护模型的安全性与攻击者所掌握的背景知识相关，而所有可能的背景知识很难被充分定义。所以，一个与背景知识无关的隐私保护模型才可能抵抗任何新型的攻击。第二个缺陷是这些早期的隐私保护模型无法提供一种有效且严格的方法来证明其隐私保护水平，因此当模型参数改变时，无法对隐私保护水平进行定量分析。这个缺点削弱了隐私保护处理结果的可靠性。

因此，研究人员试图寻求一种新的、鲁棒性足够好的隐私保护模型，能够在攻击者拥有最大背景知识的条件下抵抗各种形式的攻击。差分隐私(DifferentialPrivacy，DP)的提出使得实现这种设想成为可能。差分隐私通过向数据添加随机噪声导致数据失真，从而保护了数据隐私安全，随机噪声服从Laplace机制。作为聚类方法中经典的方法k-means算法，k-means算法实现简单，易于部署。但是传统差分隐私算法是因为k均值对初始中心点极其敏感，且迭代过程中添加的随机噪声导致收敛速度变慢。

发明内容

本发明所要解决的问题就是针对背景技术中存在的不足，提出一种基于K-means的差分隐私保护聚类方法，在k均值迭代的过程中加入了服从Laplace机制的随机噪声，牺牲了聚类结果上从而保证了隐私，换言之，就是在保护数据隐私的同时，也保证了k均值的迭代速度和效果，提出了自适应隐私预算分配机制，平衡了聚类效果和隐私保护。

一种基于K-means的差分隐私保护聚类方法，包括如下步骤：

步骤1，样本数据预处理，对数据进行归一化处理；

步骤2，初始化中心点，用C表示聚类后的中心点集，c_i(1≤i≤N)表示C中的一个簇的中心点，φ(c,x)表示给定的样本数据x和中心点c之间的距离，该距离采用欧式距离计算，即

步骤3，对簇中心点集进行分组，将k个簇进行划分，将簇中心点分为t个组，得到初始组下界，每个点得到初始的上界和下界，进入迭代流程，具体为步骤4-9；

步骤4，对于迭代前一次的中心点c与当前的中心点c'，计算前后距离d(c,c')，亦称为偏移量，记做δ(c)，同理，组内存放最大偏移量；其中，第一次的迭代中心点随机选取数据点；

步骤5，通过公式lb(x)-max_c∈C≤ub(x)+δ(c)更新中心点，计算每个中心点的漂移δ(c)，并记录每个组δ(G_i)的最大漂移；

步骤6，对于每个点x，分别用ub(x)+δ(b(x))和lb(x，Gi)-δ(Gi)更新上界ub(x)和组下限lb(x，G_i)；将临时全局下界指定为

如果lb(x)≥ub(x)，则b'(x)就是为b(x)；否则，进行收缩，令ub(x)＝d(x,b(x))并再次检查条件；如果失败，那么找到lb(x，G_i)<ub(x)，然后继续进行步骤7的本地过滤。

步骤7，进行本地过滤：如果一个点的最佳中心点p'并不在改点所属的组内(c'∈Gi)，则需要本地过滤，即c'≠p'，d(x,p')<lb(x,G_i)-δ(c)，对于每个通过组过滤的点x，用到目前为止找到的第二最接近的中心对其剩余的候选中心进行过滤，计算x到通过该滤波器以找出新的b(x)的中心的距离，更新组下界lb(x，Gi)；对于被组过滤器阻止的组，用lb(x，Gi)-δ(Gi)更新下限lb(x，Gi)；用d(x，b(x))更新ub(x)，否则计算欧式距离；

步骤8，设置符合Laplace机制的噪声添加方式，记位置参数为0、尺度参数为b的Laplace分布为Lap(b)，b＝Δf/ε,Δf为全局敏感度，ε为隐私保护预算，其概率密度函数为

其中η为随机变量；

步骤9，计算簇内所有属于该簇的属性向量和sum，计算簇内的向量个数count，添加Laplace噪声，根据差分隐私的性质，对于不相交的数据集，隐私预算是并行的；相交的数据集，隐私预算是串行的，因此同一迭代中是并行的，不同迭代间是串行的，每次迭代噪声为Lap(b)，则sum'＝sum+Lap(b)，count'＝count+Lap(b)；更新的簇中心为c'＝sum'/count'；

步骤10，重复步骤4到步骤9直到误差平方和收敛或迭代次数达到上限，误差平方和越小，聚类效果越好。

进一步地，步骤1中，数据预处理的方法如下：数据归一化为离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间；假设数据集D中有N条数据，一条数据记做Xi(1≤i≤N)，每条数据包含d维度，即数据集D中某一条数据值X_i(1≤i≤N)＝(X_i1，X_i2，...,X_id)^T；在数据集上取得最大值Max和最小值Min，其中Max为该维度的最大值，Min为该维度的最小值，通过归一化公式

将X_i归一化到空间[0，1]^d上，形成新的数据集D'。

进一步地，步骤3中，将k个簇进行划分，每10个一组，得到

个组，即

将簇中心点分为t个组，G_i＝{i＝1，2，3，...，t}；在第一次迭代的点上运行标准的K-means；对于每个点x，计算其所属的簇，同时记录min{d(x，c)}，其中c∈C，另取得最小值的c的簇中心为b(x)，则设每个点的上界ub(x)＝d(x，b(x))，下界lb(x,G_i)为x与G_i中除b(x)外的所有中心的最短距离，即在组内求得点在所有簇中距离的第二最小距离。

进一步地，步骤7中的计算欧式距离，具体的，用dist(x,y)表示点x和点y之间的距离，x_i为第i维度上的值，同理，y_i为第i维度上的值，则在d维度上，根据欧式距离得到计算公式：

进一步地，步骤8中，在迭代的过程中，需要进行隐私预算的分配，通过不断迭代最终达到收敛条件。

进一步地，迭代次数固定时，设每次迭代过程需要的隐私预算为ε'，该隐私预算遵从等差数列，假设ε是总隐私预算，有公式ε＝(ε^m+ε′_n)n/2，其中n表示前后迭代次数，ε^m为隐私预算的最小值，其中m即min，表示此时隐私预算最小，具体求解为

其中N是数据集的大小，则每次的隐私预算为ε′即ε′_n＝ε^m+(n-1)d，因为迭代次数确定，得出d＝2(ε-ε^mn)/n(n-1)，采用递减等差数列隐私预算分配，则每次迭代的上界为ε′_n，下界为ε′_n-d。

进一步地，每次迭代过程中，隐私预算分配大小决定了噪声的大小和聚类的效果，将聚类的效果和隐私保护效果的优化问题转化为最优化方法max_U(ε){min_V(ε)F[U(ε)，V(ε)]|，其约束条件为约束(1)：Pr[Y(D1)∈M]≤esp(ε)Pr[Y(D2)∈M]，在给定任意机制Y下对于任意数据集D1和D2的查询结果都是不可区分的，即Y(D1)∈M，Y(D2)∈M，

其中Pr为概率公式，即满足差分隐私；约束(2)：

公式中μ为效率函数，Δf为敏感度，Δu为最小改变多少，N为数据集大小，其中U(ε)为聚类效果，越大越好，V(ε)为隐私泄露风险，越小越好；对于U(ε)采用聚类算法的评价指标为Calinski-Harabasz的CH值，其中CH值求解公式为

对于V(ε)采用互信息来评估隐私，具体求解公式为

二者采用权重选取，F[U(ε)，V(ε)]＝a*U(ε)+b*V(ε)，其中a+b＝1，若注重聚类效果，则a选取相对于b大；ε最优取值为ε^*＝arg_ε{max_U(ε){min_V(ε)F[U(ε)，V(ε)]}}。

本发明的有益效果是：

(1)对数据集的计算处理结果对于具体某个记录的变化是不敏感的，单个记录在数据集中或者不在数据集中，对计算结果的影响微乎其微.所以，一个记录因其加入到数据集中所产生的隐私泄露风险被控制在极小的、可接受的范围内，攻击者无法通过观察计算结果而获取准确的个体信息。

(2)差分隐私保护模型假设攻击者能够获得除目标记录外所有其它记录的信息，这些信息的总和可以理解为攻击者所能掌握的最大背景知识。在这一最大背景知识假设下，差分隐私保护无需考虑攻击者所拥有的任何可能的背景知识，因为这些背景知识不可能提供比最大背景知识更丰富的信息。其次，它建立在坚实的数学基础之上，对隐私保护进行了严格的定义并提供了量化评估方法，使得不同参数处理下的数据集所提供的隐私保护水平具有可比较性。

附图说明

图1为本发明实施例中表示CH聚类评测示意图。

图2为本发明实施例中基于K-means的差分隐私保护聚类算法的整体流程图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明的一种基于k均值的差分隐私保护聚类算法，每次迭代过程中，通过等差数列对隐私预算进行上下界的限定，根据聚类效果U(ε)和隐私保护效果V(ε)的最优值求解，确定隐私预算的分配，称为自适应隐私预算分配机制，在计算数据和簇集中心点的距离时，通过三角不等式较少计算时间，提高效率。需解决以下问题：1、如何解决自适应隐私预算分配求解最优隐私预算，2、如何解决在聚类分析过程中进行差分隐私保护。下面分成三个部分阐述本发明的具体实施方法。

1、k均值聚类方法以及隐私预算分配的最优值求解。

k均值聚类方法的核心思想是将初始聚类中心以及k值作为参数，进行有限次数迭代，具体表示为中心点集C，其中c_i∈C(1≤i≤k)；初始中心点c_j∈D，可以在数据集D中采取随机抽样的形式，对于k值的选取可根据经验来选择。数据集中的每个点都需要将它划分到一个簇中去，划分的依据这里采用欧式距离：

使得每个类中的数据都尽量相似，而各个类间的相似度尽量小。这里迭代的终止条件设为达到最大迭代次数和达到迭代的收敛值：

其中

表示新的中心点。

在每次迭代时，需要选取最优的隐私预算分配，构造了可用函数(U(ε))和隐私风险函数(V(ε))，则最优式为F[U(ε)，V(ε)]＝a*U(ε)+b*V(ε)，其中a+b＝1，若注重可用性，则a可以相对于b大。可用函数(U(ε))采取CH值，如图1所示，CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到。

其中

(nj表示第j个簇中样本的个数)表示类间距离参数，越大越好，即表明类间区别明显，

表示类内部参数，越小越好，说明簇内越紧凑。

对于原始数据进行了相关的隐私处理达到一种整体轻微偏移的状态，使得数据不失统计性，隐私风险函数V(ε)为互信息

表示原数据和处理后数据的相关依赖性。

隐私预算分配整体上是按照递减的等差数列进行的，隐私预算的总和是ε＝(ε^m+ε′_n)n/2，其中ε^m为最小隐私预算分配

最终的隐私预算为ε′_n＝ε^m+(n-1)d(n为有限次)，可以得出d＝2(ε-ε^mn)/n(n-1)，然后进行反转递减，得到每次的隐私预算上界ε^u和下界ε^l，在两极界限中，通过最优函数值得到最优ε^*＝arg_ε{max_U(ε){min_V(ε)F[U(ε)，V(ε)]}}，其中ε^l＜ε^*≤ε^u。

2、聚类过程中的隐私保护。

每次迭代都会公布一个中心集，攻击者结合背景知识会导致信息泄露，假设中心点C_j不保护，聚类最终会发布分类结果，在得到此簇中除了x_i后其它所有背景知识后，该点会被推断出来，这也就是最大背景攻击，所以有必要对中心点集作出保护。在得出最优的隐私预算分配值ε后，就得到了服从Laplace机制的噪声Lap(b)，b＝Δf/ε，其中Δf是全局敏感度，敏感度定义为Δf＝Max_D1，D2||f(D1)-f(D2)||₁。对于中心点的更新，属相向量和sum，进行加噪声保护，即sum'＝sum+Lap(b)，count'＝count+Lap(b)。更新的簇中心为c'＝sum'/count'。

3、如图2所示，具体步骤为：。

步骤1：将数据集D＝{x₁x₂，...，x_n}标准化为d维空间[0,1]^d，然后从中随机选择k个样本{u₁，u₂，...，u_k}作为初始点。在[0,1]^d空间中添加噪声返回初始点{u₁′，u₂′，...，u_k′}。

步骤2：将样本x_i划分为k个簇C＝{C₁，C₂，...，C_k}，将每个x_i与最近的

(对于欧式距离计算采取上下界过滤不必要的计算)关联。

步骤3：求取隐私预算分配，方便步骤4种中进行数据偏移和中心点保护。

步骤4：数据偏移，对于每个聚类C_j，计算其中的属性向量和和数量，然后加上拉普拉斯噪声Lap(b)分别获得sum'＝sum+Lap(b)，count'＝count+Lap(b)。更新的簇中心为c'＝sum'/count'。

步骤5：重复第2到第4步，直到群集的划分不再改变或迭代次数达到上限。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于K-means的差分隐私保护聚类方法，其特征在于：所述方法包括如下步骤：

步骤1，样本数据预处理，对数据进行归一化处理；

步骤2，初始化中心点，用C表示聚类后的中心点集，c_i(1≤i≤N)表示C中的一个簇的中心点，φ(c，x)表示给定的样本数据x和中心点c之间的距离，该距离采用欧式距离计算，即

步骤4，对于迭代前一次的中心点c与当前的中心点c′，计算前后距离d(c，c′)，亦称为偏移量，记做δ(c)，同理，组内存放最大偏移量；其中，第一次的迭代中心点随机选取数据点；

步骤6，对于每个点x，分别用ub(x)+δ(b(x))和lb(x，Gi)-δ(Gi)更新上界ub(x)和组下限Ib(x，G_i)；将临时全局下界指定为

如果Ib(x)≥ub(x)，则b′(x)就是为b(x)；否则，进行收缩，令ub(x)＝d(x，b(x))并再次检查条件；如果失败，那么找到Ib(x，G_i)＜ub(x)，然后继续进行步骤7的本地过滤。

步骤7，进行本地过滤：如果一个点的最佳中心点p′并不在改点所属的组内(c′∈Gi)，则需要本地过滤，即c′≠p′，d(x，p′)＜Ib(x，G_i)-δ(c)，对于每个通过组过滤的点x，用到目前为止找到的第二最接近的中心对其剩余的候选中心进行过滤，计算x到通过该滤波器以找出新的b(x)的中心的距离，更新组下界Ib(x，Gi)；对于被组过滤器阻止的组，用Ib(x，Gi)-δ(Gi)更新下限Ib(x，Gi)；用d(x，b(x))更新ub(x)，否则计算欧式距离；

步骤8，设置符合Laplace机制的噪声添加方式，记位置参数为0、尺度参数为b的Laplace分布为Lap(b)，b＝Δf/ε，Δf为全局敏感度，ε为隐私保护预算，其概率密度函数为

其中η为随机变量；

步骤9，计算簇内所有属于该簇的属性向量和sum，计算簇内的向量个数count，添加Laplace噪声，根据差分隐私的性质，对于不相交的数据集，隐私预算是并行的；相交的数据集，隐私预算是串行的，因此同一迭代中是并行的，不同迭代间是串行的，每次迭代噪声为Lap(b)，则sum′＝sum+Lap(b)，count′＝count+Lap(b)；更新的簇中心为c′＝sum′/count′；

2.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法，其特征在于：步骤1中，数据预处理的方法如下：数据归一化为离差标准化，是对原始数据的线性变换，使结果落到[0，1]区间；假设数据集D中有N条数据，一条数据记做Xi(1≤i≤N)，每条数据包含d维度，即数据集D中某一条数据值X_i(1≤i≤N)＝(X_i1，X_i2，...，X_id)^T；在数据集上取得最大值Max和最小值Min，其中Max为该维度的最大值，Min为该维度的最小值，通过归一化公式

将X_i归一化到空间[0，1]^d上，形成新的数据集D′。

3.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法，其特征在于：步骤3中，将k个簇进行划分，每10个一组，得到

个组，即

将簇中心点分为t个组，G_i＝{i＝1，2，3，...，t}；在第一次迭代的点上运行标准的K-means；对于每个点x，计算其所属的簇，同时记录min{d(x，c)}，其中c∈C，另取得最小值的c的簇中心为b(x)，则设每个点的上界ub(x)＝d(x，b(x))，下界Ib(x，G_i)为x与G_i中除b(x)外的所有中心的最短距离，即在组内求得点在所有簇中距离的第二最小距离。

4.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法，其特征在于：步骤7中的计算欧式距离，具体的，用dist(x，y)表示点x和点y之间的距离，x_i为第i维度上的值，同理，y_i为第i维度上的值，则在d维度上，根据欧式距离得到计算公式：

5.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法，其特征在于：步骤8中，在迭代的过程中，需要进行隐私预算的分配，通过不断迭代最终达到收敛条件。

6.根据权利要求5所述的一种基于K-means的差分隐私保护聚类方法，其特征在于：迭代次数固定时，设每次迭代过程需要的隐私预算为ε′，该隐私预算遵从等差数列，假设ε是总隐私预算，有公式ε＝(ε^m+ε′_n)n/2，其中n表示前后迭代次数，ε^m为隐私预算的最小值，其中m即min，表示此时隐私预算最小，具体求解为

7.根据权利要求5所述的一种基于K-means的差分隐私保护聚类方法，其特征在于：每次迭代过程中，隐私预算分配大小决定了噪声的大小和聚类的效果，将聚类的效果和隐私保护效果的优化问题转化为最优化方法max_U(ε){min_V(ε)F[U(ε)，V(ε)]}，其约束条件为约束(1)：Pr[Y(D1)∈M]≤esp(ε)Pr[Y(D2)∈M]，在给定任意机制Y下对于任意数据集D1和D2的查询结果都是不可区分的，即Y(D1)∈M，Y(D2)∈M，

其中Pr为概率公式，即满足差分隐私；约束(2)：

对于V(ε)采用互信息来评估隐私，具体求解公式为