CN112199722A - 一种基于K-means的差分隐私保护聚类方法 - Google Patents

一种基于K-means的差分隐私保护聚类方法 Download PDF

Info

Publication number
CN112199722A
CN112199722A CN202011102946.0A CN202011102946A CN112199722A CN 112199722 A CN112199722 A CN 112199722A CN 202011102946 A CN202011102946 A CN 202011102946A CN 112199722 A CN112199722 A CN 112199722A
Authority
CN
China
Prior art keywords
epsilon
privacy
point
data
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011102946.0A
Other languages
English (en)
Other versions
CN112199722B (zh
Inventor
李鹏
朱祥
王汝传
徐鹤
程海涛
朱枫
张玉杰
李正材
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011102946.0A priority Critical patent/CN112199722B/zh
Publication of CN112199722A publication Critical patent/CN112199722A/zh
Application granted granted Critical
Publication of CN112199722B publication Critical patent/CN112199722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于K‑means的差分隐私保护聚类方法,包括数据预处理、聚类迭代和差分隐私;每次迭代需要做如下:设置隐私预算,计算噪声,计算每个簇的数据点的总和、点的数量,然后对其添加计算后的噪声。针对每次迭代,都维持一个隐私预算的上界和下界,在上下界间,根据可用性和隐私保护程度,选择自适应的隐私预算分配,重复步骤,直到误差平方和收敛或者达到迭代次数上限。本发明在K‑means聚类算法的迭代过程中,通过自适应的隐私预算分配,既在数据失真的基础上保护了数据隐私,又保证了数据的可用性。

Description

一种基于K-means的差分隐私保护聚类方法
技术领域
本发明属于信息安全技术领域,涉及一种聚类方法与隐私保护技术,具体是涉及一种基于K-means的差分隐私保护聚类方法。
背景技术
随着信息技术应用的不断普及和深入,各种信息系统存储并积累了丰富的数据,面对海量的数据,在工业界,数据持有者可以通过数据挖掘技术从中获得潜在的价值;在学术界,数据挖掘技术亦在一些研究和应用中取得长足的进步。聚类算法作为最常用的数据挖掘技术,应用广泛,与此同时,这些数据中隐含着大量敏感的信息,会给用户带来无法估量的威胁和损失。因此需要在聚类分析过程中对数据隐私进行保护。
从隐私保护角度来看,一般可能采取以下几种手段:1)密码学手段(Cryptography):信息完全保真,但是计算复杂度太高。2)匿名化手段(Anonymization):隐私保护水平比较低,可能会碰到NP难问题。3)数据扰动(Perturbation):大致可分为输入扰动、输出扰动和目标扰动三大类。
从已有的研究来看,k-anonymity及其扩展模型在隐私保护领域影响深远且被广泛研究。这些模型的基本思想是将数据集里与攻击者背景知识相关的属性定义为准标识符,通过对记录的准标识符值进行泛化、压缩处理,使得所有记录被划分到若干个等价类,每个等价类中的记录具有相同的准标识符值,从而实现将一个记录隐藏在一组记录中。因此,这类模型也被称为基于分组的隐私保护模型。然而后续研究表明,这些模型存在两个主要缺陷。其一,这些模型并不能提供足够的安全保障,它们总是因新型攻击的出现而需要不断完善。出现这一局面的根本原因在于,基于分组的隐私保护模型的安全性与攻击者所掌握的背景知识相关,而所有可能的背景知识很难被充分定义。所以,一个与背景知识无关的隐私保护模型才可能抵抗任何新型的攻击。第二个缺陷是这些早期的隐私保护模型无法提供一种有效且严格的方法来证明其隐私保护水平,因此当模型参数改变时,无法对隐私保护水平进行定量分析。这个缺点削弱了隐私保护处理结果的可靠性。
因此,研究人员试图寻求一种新的、鲁棒性足够好的隐私保护模型,能够在攻击者拥有最大背景知识的条件下抵抗各种形式的攻击。差分隐私(DifferentialPrivacy,DP)的提出使得实现这种设想成为可能。差分隐私通过向数据添加随机噪声导致数据失真,从而保护了数据隐私安全,随机噪声服从Laplace机制。作为聚类方法中经典的方法k-means算法,k-means算法实现简单,易于部署。但是传统差分隐私算法是因为k均值对初始中心点极其敏感,且迭代过程中添加的随机噪声导致收敛速度变慢。
发明内容
本发明所要解决的问题就是针对背景技术中存在的不足,提出一种基于K-means的差分隐私保护聚类方法,在k均值迭代的过程中加入了服从Laplace机制的随机噪声,牺牲了聚类结果上从而保证了隐私,换言之,就是在保护数据隐私的同时,也保证了k均值的迭代速度和效果,提出了自适应隐私预算分配机制,平衡了聚类效果和隐私保护。
一种基于K-means的差分隐私保护聚类方法,包括如下步骤:
步骤1,样本数据预处理,对数据进行归一化处理;
步骤2,初始化中心点,用C表示聚类后的中心点集,ci(1≤i≤N)表示C中的一个簇的中心点,φ(c,x)表示给定的样本数据x和中心点c之间的距离,该距离采用欧式距离计算,即
Figure BDA0002726015130000031
Figure BDA0002726015130000032
步骤3,对簇中心点集进行分组,将k个簇进行划分,将簇中心点分为t个组,得到初始组下界,每个点得到初始的上界和下界,进入迭代流程,具体为步骤4-9;
步骤4,对于迭代前一次的中心点c与当前的中心点c',计算前后距离d(c,c'),亦称为偏移量,记做δ(c),同理,组内存放最大偏移量;其中,第一次的迭代中心点随机选取数据点;
步骤5,通过公式lb(x)-maxc∈C≤ub(x)+δ(c)更新中心点,计算每个中心点的漂移δ(c),并记录每个组δ(Gi)的最大漂移;
步骤6,对于每个点x,分别用ub(x)+δ(b(x))和lb(x,Gi)-δ(Gi)更新上界ub(x)和组下限lb(x,Gi);将临时全局下界指定为
Figure BDA0002726015130000033
Figure BDA0002726015130000034
如果lb(x)≥ub(x),则b'(x)就是为b(x);否则,进行收缩,令ub(x)=d(x,b(x))并再次检查条件;如果失败,那么找到lb(x,Gi)<ub(x),然后继续进行步骤7的本地过滤。
步骤7,进行本地过滤:如果一个点的最佳中心点p'并不在改点所属的组内(c'∈Gi),则需要本地过滤,即c'≠p',d(x,p')<lb(x,Gi)-δ(c),对于每个通过组过滤的点x,用到目前为止找到的第二最接近的中心对其剩余的候选中心进行过滤,计算x到通过该滤波器以找出新的b(x)的中心的距离,更新组下界lb(x,Gi);对于被组过滤器阻止的组,用lb(x,Gi)-δ(Gi)更新下限lb(x,Gi);用d(x,b(x))更新ub(x),否则计算欧式距离;
步骤8,设置符合Laplace机制的噪声添加方式,记位置参数为0、尺度参数为b的Laplace分布为Lap(b),b=Δf/ε,Δf为全局敏感度,ε为隐私保护预算,其概率密度函数为
Figure BDA0002726015130000041
其中η为随机变量;
步骤9,计算簇内所有属于该簇的属性向量和sum,计算簇内的向量个数count,添加Laplace噪声,根据差分隐私的性质,对于不相交的数据集,隐私预算是并行的;相交的数据集,隐私预算是串行的,因此同一迭代中是并行的,不同迭代间是串行的,每次迭代噪声为Lap(b),则sum'=sum+Lap(b),count'=count+Lap(b);更新的簇中心为c'=sum'/count';
步骤10,重复步骤4到步骤9直到误差平方和收敛或迭代次数达到上限,误差平方和越小,聚类效果越好。
进一步地,步骤1中,数据预处理的方法如下:数据归一化为离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间;假设数据集D中有N条数据,一条数据记做Xi(1≤i≤N),每条数据包含d维度,即数据集D中某一条数据值Xi(1≤i≤N)=(Xi1,Xi2,...,Xid)T;在数据集上取得最大值Max和最小值Min,其中Max为该维度的最大值,Min为该维度的最小值,通过归一化公式
Figure BDA0002726015130000051
将Xi归一化到空间[0,1]d上,形成新的数据集D'。
进一步地,步骤3中,将k个簇进行划分,每10个一组,得到
Figure BDA0002726015130000056
Figure BDA0002726015130000057
个组,即
Figure BDA0002726015130000058
将簇中心点分为t个组,Gi={i=1,2,3,...,t};在第一次迭代的点上运行标准的K-means;对于每个点x,计算其所属的簇,同时记录min{d(x,c)},其中c∈C,另取得最小值的c的簇中心为b(x),则设每个点的上界ub(x)=d(x,b(x)),下界lb(x,Gi)为x与Gi中除b(x)外的所有中心的最短距离,即在组内求得点在所有簇中距离的第二最小距离。
进一步地,步骤7中的计算欧式距离,具体的,用dist(x,y)表示点x和点y之间的距离,xi为第i维度上的值,同理,yi为第i维度上的值,则在d维度上,根据欧式距离得到计算公式:
Figure BDA0002726015130000052
Figure BDA0002726015130000053
进一步地,步骤8中,在迭代的过程中,需要进行隐私预算的分配,通过不断迭代最终达到收敛条件。
进一步地,迭代次数固定时,设每次迭代过程需要的隐私预算为ε',该隐私预算遵从等差数列,假设ε是总隐私预算,有公式ε=(εm+ε′n)n/2,其中n表示前后迭代次数,εm为隐私预算的最小值,其中m即min,表示此时隐私预算最小,具体求解为
Figure BDA0002726015130000054
Figure BDA0002726015130000055
其中N是数据集的大小,则每次的隐私预算为ε′即ε′n=εm+(n-1)d,因为迭代次数确定,得出d=2(ε-εmn)/n(n-1),采用递减等差数列隐私预算分配,则每次迭代的上界为ε′n,下界为ε′n-d。
进一步地,每次迭代过程中,隐私预算分配大小决定了噪声的大小和聚类的效果,将聚类的效果和隐私保护效果的优化问题转化为最优化方法maxU(ε){minV(ε)F[U(ε),V(ε)]|,其约束条件为约束(1):Pr[Y(D1)∈M]≤esp(ε)Pr[Y(D2)∈M],在给定任意机制Y下对于任意数据集D1和D2的查询结果都是不可区分的,即Y(D1)∈M,Y(D2)∈M,
Figure BDA0002726015130000064
其中Pr为概率公式,即满足差分隐私;约束(2):
Figure BDA0002726015130000061
公式中μ为效率函数,Δf为敏感度,Δu为最小改变多少,N为数据集大小,其中U(ε)为聚类效果,越大越好,V(ε)为隐私泄露风险,越小越好;对于U(ε)采用聚类算法的评价指标为Calinski-Harabasz的CH值,其中CH值求解公式为
Figure BDA0002726015130000062
对于V(ε)采用互信息来评估隐私,具体求解公式为
Figure BDA0002726015130000063
二者采用权重选取,F[U(ε),V(ε)]=a*U(ε)+b*V(ε),其中a+b=1,若注重聚类效果,则a选取相对于b大;ε最优取值为ε*=argε{maxU(ε){minV(ε)F[U(ε),V(ε)]}}。
本发明的有益效果是:
(1)对数据集的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中或者不在数据集中,对计算结果的影响微乎其微.所以,一个记录因其加入到数据集中所产生的隐私泄露风险被控制在极小的、可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息。
(2)差分隐私保护模型假设攻击者能够获得除目标记录外所有其它记录的信息,这些信息的总和可以理解为攻击者所能掌握的最大背景知识。在这一最大背景知识假设下,差分隐私保护无需考虑攻击者所拥有的任何可能的背景知识,因为这些背景知识不可能提供比最大背景知识更丰富的信息。其次,它建立在坚实的数学基础之上,对隐私保护进行了严格的定义并提供了量化评估方法,使得不同参数处理下的数据集所提供的隐私保护水平具有可比较性。
附图说明
图1为本发明实施例中表示CH聚类评测示意图。
图2为本发明实施例中基于K-means的差分隐私保护聚类算法的整体流程图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明的一种基于k均值的差分隐私保护聚类算法,每次迭代过程中,通过等差数列对隐私预算进行上下界的限定,根据聚类效果U(ε)和隐私保护效果V(ε)的最优值求解,确定隐私预算的分配,称为自适应隐私预算分配机制,在计算数据和簇集中心点的距离时,通过三角不等式较少计算时间,提高效率。需解决以下问题:1、如何解决自适应隐私预算分配求解最优隐私预算,2、如何解决在聚类分析过程中进行差分隐私保护。下面分成三个部分阐述本发明的具体实施方法。
1、k均值聚类方法以及隐私预算分配的最优值求解。
k均值聚类方法的核心思想是将初始聚类中心以及k值作为参数,进行有限次数迭代,具体表示为中心点集C,其中ci∈C(1≤i≤k);初始中心点cj∈D,可以在数据集D中采取随机抽样的形式,对于k值的选取可根据经验来选择。数据集中的每个点都需要将它划分到一个簇中去,划分的依据这里采用欧式距离:
Figure BDA0002726015130000081
Figure BDA0002726015130000082
使得每个类中的数据都尽量相似,而各个类间的相似度尽量小。这里迭代的终止条件设为达到最大迭代次数和达到迭代的收敛值:
Figure BDA0002726015130000083
其中
Figure BDA0002726015130000084
表示新的中心点。
在每次迭代时,需要选取最优的隐私预算分配,构造了可用函数(U(ε))和隐私风险函数(V(ε)),则最优式为F[U(ε),V(ε)]=a*U(ε)+b*V(ε),其中a+b=1,若注重可用性,则a可以相对于b大。可用函数(U(ε))采取CH值,如图1所示,CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到。
Figure BDA0002726015130000085
其中
Figure BDA0002726015130000086
(nj表示第j个簇中样本的个数)表示类间距离参数,越大越好,即表明类间区别明显,
Figure BDA0002726015130000087
表示类内部参数,越小越好,说明簇内越紧凑。
对于原始数据进行了相关的隐私处理达到一种整体轻微偏移的状态,使得数据不失统计性,隐私风险函数V(ε)为互信息
Figure BDA0002726015130000088
Figure BDA0002726015130000091
表示原数据和处理后数据的相关依赖性。
隐私预算分配整体上是按照递减的等差数列进行的,隐私预算的总和是ε=(εm+ε′n)n/2,其中εm为最小隐私预算分配
Figure BDA0002726015130000092
Figure BDA0002726015130000093
最终的隐私预算为ε′n=εm+(n-1)d(n为有限次),可以得出d=2(ε-εmn)/n(n-1),然后进行反转递减,得到每次的隐私预算上界εu和下界εl,在两极界限中,通过最优函数值得到最优ε*=argε{maxU(ε){minV(ε)F[U(ε),V(ε)]}},其中εl<ε*≤εu
2、聚类过程中的隐私保护。
每次迭代都会公布一个中心集,攻击者结合背景知识会导致信息泄露,假设中心点Cj不保护,聚类最终会发布分类结果,在得到此簇中除了xi后其它所有背景知识后,该点会被推断出来,这也就是最大背景攻击,所以有必要对中心点集作出保护。在得出最优的隐私预算分配值ε后,就得到了服从Laplace机制的噪声Lap(b),b=Δf/ε,其中Δf是全局敏感度,敏感度定义为Δf=MaxD1,D2||f(D1)-f(D2)||1。对于中心点的更新,属相向量和sum,进行加噪声保护,即sum'=sum+Lap(b),count'=count+Lap(b)。更新的簇中心为c'=sum'/count'。
3、如图2所示,具体步骤为:。
步骤1:将数据集D={x1x2,...,xn}标准化为d维空间[0,1]d,然后从中随机选择k个样本{u1,u2,...,uk}作为初始点。在[0,1]d空间中添加噪声返回初始点{u1′,u2′,...,uk′}。
步骤2:将样本xi划分为k个簇C={C1,C2,...,Ck},将每个xi与最近的
Figure BDA0002726015130000101
(对于欧式距离计算采取上下界过滤不必要的计算)关联。
步骤3:求取隐私预算分配,方便步骤4种中进行数据偏移和中心点保护。
步骤4:数据偏移,对于每个聚类Cj,计算其中的属性向量和和数量,然后加上拉普拉斯噪声Lap(b)分别获得sum'=sum+Lap(b),count'=count+Lap(b)。更新的簇中心为c'=sum'/count'。
步骤5:重复第2到第4步,直到群集的划分不再改变或迭代次数达到上限。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (7)

1.一种基于K-means的差分隐私保护聚类方法,其特征在于:所述方法包括如下步骤:
步骤1,样本数据预处理,对数据进行归一化处理;
步骤2,初始化中心点,用C表示聚类后的中心点集,ci(1≤i≤N)表示C中的一个簇的中心点,φ(c,x)表示给定的样本数据x和中心点c之间的距离,该距离采用欧式距离计算,即
Figure FDA0002726015120000011
Figure FDA0002726015120000012
步骤3,对簇中心点集进行分组,将k个簇进行划分,将簇中心点分为t个组,得到初始组下界,每个点得到初始的上界和下界,进入迭代流程,具体为步骤4-9;
步骤4,对于迭代前一次的中心点c与当前的中心点c′,计算前后距离d(c,c′),亦称为偏移量,记做δ(c),同理,组内存放最大偏移量;其中,第一次的迭代中心点随机选取数据点;
步骤5,通过公式lb(x)-maxc∈C≤ub(x)+δ(c)更新中心点,计算每个中心点的漂移δ(c),并记录每个组δ(Gi)的最大漂移;
步骤6,对于每个点x,分别用ub(x)+δ(b(x))和lb(x,Gi)-δ(Gi)更新上界ub(x)和组下限Ib(x,Gi);将临时全局下界指定为
Figure FDA0002726015120000013
Figure FDA0002726015120000014
如果Ib(x)≥ub(x),则b′(x)就是为b(x);否则,进行收缩,令ub(x)=d(x,b(x))并再次检查条件;如果失败,那么找到Ib(x,Gi)<ub(x),然后继续进行步骤7的本地过滤。
步骤7,进行本地过滤:如果一个点的最佳中心点p′并不在改点所属的组内(c′∈Gi),则需要本地过滤,即c′≠p′,d(x,p′)<Ib(x,Gi)-δ(c),对于每个通过组过滤的点x,用到目前为止找到的第二最接近的中心对其剩余的候选中心进行过滤,计算x到通过该滤波器以找出新的b(x)的中心的距离,更新组下界Ib(x,Gi);对于被组过滤器阻止的组,用Ib(x,Gi)-δ(Gi)更新下限Ib(x,Gi);用d(x,b(x))更新ub(x),否则计算欧式距离;
步骤8,设置符合Laplace机制的噪声添加方式,记位置参数为0、尺度参数为b的Laplace分布为Lap(b),b=Δf/ε,Δf为全局敏感度,ε为隐私保护预算,其概率密度函数为
Figure FDA0002726015120000021
其中η为随机变量;
步骤9,计算簇内所有属于该簇的属性向量和sum,计算簇内的向量个数count,添加Laplace噪声,根据差分隐私的性质,对于不相交的数据集,隐私预算是并行的;相交的数据集,隐私预算是串行的,因此同一迭代中是并行的,不同迭代间是串行的,每次迭代噪声为Lap(b),则sum′=sum+Lap(b),count′=count+Lap(b);更新的簇中心为c′=sum′/count′;
步骤10,重复步骤4到步骤9直到误差平方和收敛或迭代次数达到上限,误差平方和越小,聚类效果越好。
2.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法,其特征在于:步骤1中,数据预处理的方法如下:数据归一化为离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间;假设数据集D中有N条数据,一条数据记做Xi(1≤i≤N),每条数据包含d维度,即数据集D中某一条数据值Xi(1≤i≤N)=(Xi1,Xi2,...,Xid)T;在数据集上取得最大值Max和最小值Min,其中Max为该维度的最大值,Min为该维度的最小值,通过归一化公式
Figure FDA0002726015120000031
将Xi归一化到空间[0,1]d上,形成新的数据集D′。
3.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法,其特征在于:步骤3中,将k个簇进行划分,每10个一组,得到
Figure FDA0002726015120000034
个组,即
Figure FDA0002726015120000035
将簇中心点分为t个组,Gi={i=1,2,3,...,t};在第一次迭代的点上运行标准的K-means;对于每个点x,计算其所属的簇,同时记录min{d(x,c)},其中c∈C,另取得最小值的c的簇中心为b(x),则设每个点的上界ub(x)=d(x,b(x)),下界Ib(x,Gi)为x与Gi中除b(x)外的所有中心的最短距离,即在组内求得点在所有簇中距离的第二最小距离。
4.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法,其特征在于:步骤7中的计算欧式距离,具体的,用dist(x,y)表示点x和点y之间的距离,xi为第i维度上的值,同理,yi为第i维度上的值,则在d维度上,根据欧式距离得到计算公式:
Figure FDA0002726015120000032
Figure FDA0002726015120000033
5.根据权利要求1所述的一种基于K-means的差分隐私保护聚类方法,其特征在于:步骤8中,在迭代的过程中,需要进行隐私预算的分配,通过不断迭代最终达到收敛条件。
6.根据权利要求5所述的一种基于K-means的差分隐私保护聚类方法,其特征在于:迭代次数固定时,设每次迭代过程需要的隐私预算为ε′,该隐私预算遵从等差数列,假设ε是总隐私预算,有公式ε=(εm+ε′n)n/2,其中n表示前后迭代次数,εm为隐私预算的最小值,其中m即min,表示此时隐私预算最小,具体求解为
Figure FDA0002726015120000041
Figure FDA0002726015120000042
其中N是数据集的大小,则每次的隐私预算为ε′即ε′n=εm+(n-1)d,因为迭代次数确定,得出d=2(ε-εmn)/n(n-1),采用递减等差数列隐私预算分配,则每次迭代的上界为ε′n,下界为ε′n-d。
7.根据权利要求5所述的一种基于K-means的差分隐私保护聚类方法,其特征在于:每次迭代过程中,隐私预算分配大小决定了噪声的大小和聚类的效果,将聚类的效果和隐私保护效果的优化问题转化为最优化方法maxU(ε){minV(ε)F[U(ε),V(ε)]},其约束条件为约束(1):Pr[Y(D1)∈M]≤esp(ε)Pr[Y(D2)∈M],在给定任意机制Y下对于任意数据集D1和D2的查询结果都是不可区分的,即Y(D1)∈M,Y(D2)∈M,
Figure FDA0002726015120000046
其中Pr为概率公式,即满足差分隐私;约束(2):
Figure FDA0002726015120000043
公式中μ为效率函数,Δf为敏感度,Δu为最小改变多少,N为数据集大小,其中U(ε)为聚类效果,越大越好,V(ε)为隐私泄露风险,越小越好;对于U(ε)采用聚类算法的评价指标为Calinski-Harabasz的CH值,其中CH值求解公式为
Figure FDA0002726015120000044
对于V(ε)采用互信息来评估隐私,具体求解公式为
Figure FDA0002726015120000045
二者采用权重选取,F[U(ε),V(ε)]=a*U(ε)+b*V(ε),其中a+b=1,若注重聚类效果,则a选取相对于b大;ε最优取值为ε*=argε{maxu(ε){minV(ε)F[U(ε),V(ε)]}}。
CN202011102946.0A 2020-10-15 2020-10-15 一种基于K-means的差分隐私保护聚类方法 Active CN112199722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011102946.0A CN112199722B (zh) 2020-10-15 2020-10-15 一种基于K-means的差分隐私保护聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011102946.0A CN112199722B (zh) 2020-10-15 2020-10-15 一种基于K-means的差分隐私保护聚类方法

Publications (2)

Publication Number Publication Date
CN112199722A true CN112199722A (zh) 2021-01-08
CN112199722B CN112199722B (zh) 2022-11-01

Family

ID=74009044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011102946.0A Active CN112199722B (zh) 2020-10-15 2020-10-15 一种基于K-means的差分隐私保护聚类方法

Country Status (1)

Country Link
CN (1) CN112199722B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537308A (zh) * 2021-06-29 2021-10-22 中国海洋大学 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN113887916A (zh) * 2021-09-27 2022-01-04 国网山西省电力公司电力科学研究院 一种配电网线损动态量化评估方法及系统
CN115757461A (zh) * 2022-11-09 2023-03-07 北京新数科技有限公司 一种银行数据库应用系统结果聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140283091A1 (en) * 2013-03-15 2014-09-18 Microsoft Corporation Differentially private linear queries on histograms
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140283091A1 (en) * 2013-03-15 2014-09-18 Microsoft Corporation Differentially private linear queries on histograms
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537308A (zh) * 2021-06-29 2021-10-22 中国海洋大学 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN113537308B (zh) * 2021-06-29 2023-11-03 中国海洋大学 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN113887916A (zh) * 2021-09-27 2022-01-04 国网山西省电力公司电力科学研究院 一种配电网线损动态量化评估方法及系统
CN115757461A (zh) * 2022-11-09 2023-03-07 北京新数科技有限公司 一种银行数据库应用系统结果聚类方法

Also Published As

Publication number Publication date
CN112199722B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN112199722B (zh) 一种基于K-means的差分隐私保护聚类方法
Zhu et al. Differential privacy and applications
CN109886334B (zh) 一种隐私保护的共享近邻密度峰聚类方法
Bakr et al. Efficient incremental density-based algorithm for clustering large datasets
Schneider et al. Fast parameterless density-based clustering via random projections
CN110619231B (zh) 一种基于MapReduce的差分可辨性k原型聚类方法
Sun et al. Differential privacy-preserving density peaks clustering based on shared near neighbors similarity
CN112364914A (zh) 基于簇相似度与变换不变性的差分隐私k均值聚类方法
Shi et al. An improved mean imputation clustering algorithm for incomplete data
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
Gong et al. Distributed evidential clustering toward time series with big data issue
Li et al. Documents clustering based on max-correntropy nonnegative matrix factorization
Mbyamm Kiki et al. MapReduce FCM clustering set algorithm
CN111859441A (zh) 一种缺失数据的匿名方法、存储介质
Ah-Pine et al. Similarity based hierarchical clustering with an application to text collections
Čech et al. Comparing MapReduce-based k-NN similarity joins on Hadoop for high-dimensional data
Mishra et al. Improving the efficacy of clustering by using far enhanced clustering algorithm
Wang et al. Density peaks clustering based on local minimal spanning tree
Patel et al. Study and analysis of particle swarm optimization for improving partition clustering
Zhang et al. Gcmddbscan: Multi-density dbscan based on grid and contribution
Lu RETRACTED ARTICLE: Clustering Optimization Algorithm for Blockchain Systems Based on Big Data Analysis
Ling et al. An Improved K-means Algorithm Based on Multiple Clustering and Density
Yousri et al. Fuzzy outlier analysis a combined clustering-outlier detection approach
Tran et al. D-impact: A data preprocessing algorithm to improve the performance of clustering
Ji et al. An improved random walk based community detection algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant