CN113704787A - 一种基于差分隐私的隐私保护聚类方法 - Google Patents

一种基于差分隐私的隐私保护聚类方法 Download PDF

Info

Publication number
CN113704787A
CN113704787A CN202111006314.9A CN202111006314A CN113704787A CN 113704787 A CN113704787 A CN 113704787A CN 202111006314 A CN202111006314 A CN 202111006314A CN 113704787 A CN113704787 A CN 113704787A
Authority
CN
China
Prior art keywords
data
point
noise
points
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111006314.9A
Other languages
English (en)
Other versions
CN113704787B (zh
Inventor
单超
邹云峰
范环宇
祝宇楠
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202111006314.9A priority Critical patent/CN113704787B/zh
Publication of CN113704787A publication Critical patent/CN113704787A/zh
Application granted granted Critical
Publication of CN113704787B publication Critical patent/CN113704787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于差分隐私的隐私保护聚类方法,包括:(1)数据所有者计算原数据集中各数据点间的欧氏距离,构建距离矩阵;(2)向距离矩阵添加差分噪声,形成加噪距离矩阵,并将其共享给不可信数据挖掘方,避免聚类分析过程泄露数据隐私;(3)数据挖掘方在加噪距离矩阵中选取k个有良好全局分布性的非离群点,作为聚类的初始中心点;(4)计算每个数据点的最近q个中心点序列,并将数据点分配到距其最近的q个中心点的期望区间内,形成本轮聚簇划分;(5)将每个聚簇内部点间距离和最小的数据点选为新的中心点。重复这一过程,直到各聚簇中心点不再改变。本发明所提方法在实现敏感数据差分隐私保护的同时,可以有效提升聚类挖掘精度。

Description

一种基于差分隐私的隐私保护聚类方法
技术领域
本发明涉及的是一种隐私保护技术领域,具体涉及的是一种基于差分隐私的隐私保护聚类方法。
背景技术
数据挖掘能够发现隐藏在数据中潜在规则模式,为辅助决策提供支撑。聚类是数据挖掘的基础操作,聚类过程对个体数据的访问存在泄露数据隐私风险。例如制药公司希望对用户的购买记录进行聚类,获取药品受众人群,但聚类中对皮肤病等敏感药物购买记录的访问会侵犯病患隐私。如何在兼顾数据隐私的前提下,实现聚类挖掘成为亟待解决的问题,隐私保护聚类是解决该问题的有效方法,近年来吸引了研究者的持续关注。
传统的隐私保护技术存在过于依赖背景知识和难以度量隐私保护水平的问题,难以兼顾数据隐私安全和可用性。Dwork在2006年提出了差分隐私模型,预设攻击者可以掌握最大背景知识,即攻击者可以拥有除被攻击目标隐私信息外的所有数据记录信息。差分隐私模型是建立在坚实的数学证明基础上的,能够通过参数ε量化隐私保护水平。目前差分隐私技术成为规避对攻击者所掌握背景知识假设的有效方法和数据隐私保护研究的热点。
结合差分隐私模型,已有的基于差分隐私的IDP k-means算法,在迭代过程中向聚簇内所有点之和sum函数和数据点的总数目num函数加噪声,以此保护聚类挖掘过程中心点隐私不泄露。但该方法存在两点不足。一方面,现有基于差分隐私的k-means聚类方法仅对中心点计算过程添加差分噪声实现对聚类中心点隐私保护,难以保证中心点外的其它敏感数据不被恶意数据挖掘方泄露。另一方面,虽然通过加入差分噪声可以实现部分敏感数据的隐私保护,但在聚类的迭代过程中引入的大量差分噪声严重影响了聚类结果的精确。
现有技术文件1(CN112199722A)提供了一种面向差分隐私保护的k均值聚类方法,包括数据预处理;用C表示聚类后的中心点集,C,表示给定的数据集和簇中心C下的误差平方和;判断C的大小;循环执行,直到retry大于给定的重试次数最大值retrymax,然后返回最优的中心点Cbest;遍历数据集X中的每个点,将它分类到最近的中心点;设置添加的随机噪声;重新计算每个簇的数据点的总和、点的数量,添加噪声,最后更新簇的质心;重复步骤直到误差平方和收敛或迭代次数达到上限。现有技术文件1的不足在于,采用对划分给每个中心点的数据对象添加噪声后,重新更新簇的之心的方法,迭代进行划分,造成数据点噪声添加具有随机性,难以从数据集合总体分布角度考虑噪声对数据可用性的影响,造成聚类质量方面的不足。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种实现整体数据记录隐私保护,同时维持不可信挖掘分析者聚类挖掘精度的隐私保护聚类方法。
本发明采用如下的技术方案。一种基于差分隐私的隐私保护聚类方法,包括以下步骤:
步骤1,数据所有者获得原数据集D,计算原数据集D中任意两个数据点间的欧氏距离值,以欧氏距离值构建距离矩阵;
步骤2,数据所有者向距离矩阵添加满足差分约束的拉普拉斯噪声,生成加噪距离矩阵,并将加噪距离矩阵,即加噪数据集D,提供给不可信的数据挖掘方;
步骤3,数据挖掘方设置初始聚簇数目k,以步骤2获得的加噪距离矩阵计算各个数据点与其余数据点的平均距离,将平均距离小于设定阈值的数据点加入候选集C;
步骤4,在步骤3获得的候选集C中,选择k个数据点作为聚类的初始中心点;
步骤5,数据挖掘方使用加噪距离矩阵中各个数据点与步骤4获得的k个初始中心点之间的距离,判定加噪数据集D′中的数据点聚簇归属,计算每个数据点最近的多个中心点序列,并将数据点分配到距其最近的多个中心点的期望区间内,形成本轮聚簇划分;
步骤6,依照步骤5的聚簇划分结果,更新每个聚簇中的中心点,判断是否满足停止标准;若是,输出聚簇划分结果;若否,返回步骤5。
优选地,步骤1中,原数据集D为关系表数据,每个数据点有相同的属性模式,各个属性均为数值型。
优选地,步骤1具体包括:
步骤1.1,数据所有者获取原数据集D,以如下公式表示,
D={x1,…,xn}
Figure BDA0003237198500000031
式中:
n表示原数据集D中包含的数据点数量,
xi表示数据集D中的第i个数据点,i=1,2,…,n,
m表示原数据集D中数据点的属性数目,即原数据集D为包含n个数据点的m维数据集,
Figure BDA0003237198500000032
表示数据点xi的第r个属性,r=1,2,…,m;
步骤1.2,数据所有者计算原数据集D中任意两个数据点之间的欧氏距离,以如下公式表示,
Figure BDA0003237198500000033
式中:
dist(i,j)表示数据点xi和数据点xj的距离函数,i,j=1,2,…,n;
步骤1.3,以步骤1.2中计算获得的任意两个数据点之间的欧氏距离构建距离矩阵,具体是指,将dist(i,j)的值作为第i行第j列的元素构建距离矩阵,以如下公式表示,
Figure BDA0003237198500000034
式中:
Distn×n表示距离矩阵。
优选地,步骤2具体包括:
步骤2.1,为距离矩阵Distn×n的各个元素dist(i,j)加入拉普拉斯噪声作为差分噪声,以如下公式表示,
distm(i,j)=dist(i,j)+Lap(b)
式中:
distm(i,j)表示距离矩阵Distn×n的各个元素dist(i,j)的加噪结果;
步骤2.2,以distm(i,j)的值作为加噪距离矩阵第i行第j列的元素,构造加噪后的距离矩阵,即加噪距离矩阵,以如下公式表示,
Figure BDA0003237198500000041
式中:
DistMn×n表示加噪距离矩阵;
步骤2.3,将加噪后距离矩阵DistMn×n共享给不可信的数据挖掘方,实现数据隐私保护,避免聚类分析过程泄露数据隐私。
优选地,步骤3具体包括:
步骤3.1,数据挖掘方设置初始聚簇数目k;
步骤3.2,查询加噪距离矩阵DistMn×n,计算各个数据点xi距离其余数据点的平均距离;
步骤3.3,设置平均距离阈值,若数据点xi距离其余数据点的平均距离avgi小于设定的平均距离阈值avg,将数据点xi加入候选集C中。
优选地,步骤3.2中,加噪距离矩阵DistMn×n第i行数值的平均值,以如下公式表示,
Figure BDA0003237198500000042
式中:
avgi表示数据点xi距离其余数据点的平均距离。
优选地,步骤3.3中,设置的平均距离阈值avg需要满足的条件为保证有相当数量的数据点可以加入候选集C。
优选地,步骤4具体包括:
步骤4.1,在步骤3获得的候选集C中,选取距离其余数据点的平均距离最小的数据点作为聚类的第一个初始中心点c1,并将第一个初始中心点c1从候选集C中剔除;
步骤4.2,从候选集C剩余的数据点中,选取距离第一个初始中心点c1距离最远的一个数据点作为聚类的第二个初始中心点c2,并将第二个初始中心点c2从候选集C中剔除;
步骤4.3,重复执行从候选集C剩余的数据点中,选取距离最新从候选集C剔除的数据点最远的一个数据点作为聚类的初始中心点,直至选取获得第k个初始中心点ck
优选地,步骤5具体包括:
步骤5.1,数据挖掘方使用加噪距离矩阵DistMn×n,获得数据点p与步骤4中k个初始中心点之间的距离;
步骤5.2,将步骤5.1中获得的数据点p与步骤4中k个初始中心点之间的距离按照从小到大排序;
步骤5.3,从步骤5.2的排序中,选择前q个数据点,2<q≤k,构建数据点p的最近q个中心点序列Sp
步骤5.4,以步骤5.3获得序列Sp,查询加噪距离矩阵DistMn×n,计算数据点p的最近q个中心点到数据点p的平均距离
Figure BDA0003237198500000051
步骤5.5,选取数据点p与最近q个中心点的距离最接近平均距离
Figure BDA0003237198500000052
的数据点,将数据点p划入到该中心点所代表聚簇;
步骤5.6,重复执行步骤5.1至步骤5.5,直至加噪数据集D′中的全部数据点处理完毕,形成本轮聚簇划分。
优选地,步骤6,停止标准是指,更新中心点直到各聚簇中心点不再改变或者达到最大计算时间。
本发明的有益效果在于,与现有技术相比,本发明针对隐私保护聚类挖掘场景,实现不可信数据挖掘方参与的聚类分析。本发明可以防止恶意挖掘方利用所掌握部分背景知识发起攻击情况发生,提高用户数据隐私保护安全性。
更具体地,与现有技术文件1相比,本发明生成距离矩阵,向距离矩阵一次性添加噪声,有利于维持数据点总体分布,有助于控制差分噪声对数据聚类质量的影响,对初始中心点选取策略设计,以及迭代判断数据点所属中心点时,设计中心点序列,从中选取最合适的中心点,也进一步平抑所添加噪声对聚类精度的影响,从而克服现有技术文件1的不足,有效兼顾差分隐私保护的同时提升聚类质量。
附图说明
图1为本发明提供的一种基于差分隐私的隐私保护聚类方法的处理流程图;
图2为本发明提供的一种基于差分隐私的隐私保护聚类方法的非可信挖掘方处理流程图;
图3为本发明提供的一种基于差分隐私的隐私保护聚类方法实施例的二维数据集D示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明提供了一种基于差分隐私的隐私保护聚类方法,包括以下步骤:
步骤1,数据所有者获得原数据集D,计算原数据集D中任意两个数据点间的欧氏距离值,以欧氏距离值构建距离矩阵,其中原数据集D为关系表数据,每个数据点有相同的属性模式,各个属性均为数值型。具体包括:
步骤1.1,数据所有者获取原数据集D,以如下公式表示,
D={x1,…,xn}
Figure BDA0003237198500000061
式中:
n表示原数据集D中包含的数据点数量,
xi表示数据集D中的第i个数据点,i=1,2,…,n,
m表示原数据集D中数据点的属性数目,即原数据集D为包含n个数据点的m维数据集,
Figure BDA0003237198500000071
表示数据点xi的第r个属性,r=1,2,…,m。
步骤1.2,数据所有者计算原数据集D中任意两个数据点之间的欧氏距离,以如下公式表示,
Figure BDA0003237198500000072
式中:
dist(i,j)表示数据点xi和数据点xj的距离函数,i,j=1,2,…,n。
步骤1.3,以步骤1.2中的计算获得的任意两个数据点之间的欧氏距离构建距离矩阵,具体是指,将dist(i,j)的值作为第i行第j列的元素构建距离矩阵,以如下公式表示,
Figure BDA0003237198500000073
式中:
Distn×n表示距离矩阵。
i=j时表示同一个点,距离为零,并且显然有dist(i,j)=dist(j,i),因此距离矩阵Distn×n为主对角线元素为0的n×n对称矩阵。
步骤2,数据所有者向距离矩阵添加满足差分约束的拉普拉斯噪声,生成加噪距离矩阵,形成加噪数据集D′,并将加噪距离矩阵,即加噪数据集D′,提供给不可信的数据挖掘方,实现数据隐私保护。如图2所示,具体包括:
步骤2.1,为距离矩阵Distn×n的各个元素dist(i,j)加入拉普拉斯噪声作为差分噪声,以如下公式表示,
distm(i,j)=dist(i,j)+Lap(b)
式中:
distm(i,j)表示距离矩阵Distn×n的各个元素dist(i,j)的加噪结果;
Lap(b)表示尺度参数为b的拉普拉斯噪声,
Figure BDA0003237198500000074
式中:
Δd表示距离函数的最大敏感度,一个优选但非限制性的实施方式为,灵敏度取距离矩阵中的最大值。例如距离矩阵Distn×n中的最大值为5.8,则Δd=max(Distn×n)=5.8。
ε表示隐私预算,隐私预算ε越小,隐私保护越好,但是加入的噪声就越大,数据可用性就下降了。数据所有者依据自身对安全程度的需求确定隐私强度,并从其对应的范围内选取一个值,该值即为隐私预算ε的取值。隐私强度对应数值范围[0,+∞],且值越小隐私安全性越强,一个优选但非限制性的实施方式为,在本例中,在0~1间随机取了个小数值。
步骤2.2,以distm(i,j)的值作为加噪距离矩阵第i行第j列的元素,构造加噪后的距离矩阵,即加噪距离矩阵,以如下公式表示,
Figure BDA0003237198500000081
式中:
DistMn×n表示加噪距离矩阵。
步骤2.3,将加噪后距离矩阵DistMn×n共享给不可信的数据挖掘方,实现数据隐私保护,避免聚类分析过程泄露数据隐私。
步骤3,数据挖掘方设置初始聚簇数目k,以加噪距离矩阵计算各个数据点与其余数据点的平均距离,将平均距离小于设定阈值的数据点加入候选集C,因为步骤3实施的主体是数据挖掘方,此处的距离是指从加噪距离矩阵DistMn×n中查询获得的距离。具体包括:
步骤3.1,数据挖掘方设置初始聚簇数目k,k的取值范围是大于1;
步骤3.2,查询加噪距离矩阵DistMn×n,计算各个数据点xi距离其余数据点的平均距离,即加噪距离矩阵DistMn×n第i行数值的平均值,以如下公式表示,
Figure BDA0003237198500000082
式中:
avgi表示数据点xi距离其余数据点的平均距离。
步骤3.3,设置平均距离阈值,若数据点xi距离其余数据点的平均距离avgi小于设定的平均距离阈值avg,将数据点xi加入候选集C中。一个优选但非限制性的实施方式为,可以通过选取部分数据点,计算这些数据点与其它数据点的平均距离,根据这些数据点的距离均值所分布的数值区间,由数据挖掘放在该数值区间内选取数值作为距离阈值,距离阈值设置的原则是不宜设置的太小,以保证有相当数量的数据点可以加入候选集。
步骤4,在步骤3获得的候选集C中,选择k个数据点作为初始中心点,即数据挖掘方在加噪距离矩阵中选取k个有良好全局分布性的非离群点,作为聚类的初始中心点。具体包括:
步骤4.1,在步骤3获得的候选集C中,选取距离其余数据点的平均距离最小的数据点作为聚类的第一个初始中心点c1,并将第一个初始中心点c1从候选集C中剔除;
步骤4.2,从候选集C剩余的数据点中,选取距离第一个初始中心点c1距离最远的一个数据点作为聚类的第二个初始中心点c2,并将第二个初始中心点c2从候选集C中剔除;
步骤4.3,重复执行从候选集C剩余的数据点中,选取距离最新从候选集C剔除的数据点最远的一个数据点作为聚类的初始中心点,直至选取获得第k个初始中心点ck
步骤5,数据挖掘方使用加噪距离矩阵中各个数据点与步骤4获得的k个初始中心点之间的距离,判定加噪数据集D′中的数据点聚簇归属,数据挖掘方计算每个数据点最近的多个中心点序列,并将数据点分配到距其最近的多个中心点的期望区间内,形成本轮聚簇划分。具体包括:
步骤5.1,数据挖掘方使用加噪距离矩阵DistMn×n,获得数据点p与步骤4中k个初始中心点之间的距离;
步骤5.2,将步骤5.1中获得的数据点p与步骤4中k个初始中心点之间的距离按照从小到大排序,即按照与数据点p的远近从近到远排序;
步骤5.3,从步骤5.2的排序中,选择前q个数据点,2<q≤k,构建数据点p的最近q个中心点序列Sp
步骤5.4,以步骤5.3获得序列Sp,查询加噪距离矩阵DistMn×n,计算数据点p的最近q个中心点到数据点p的平均距离
Figure BDA0003237198500000101
步骤5.5,选取数据点p与最近q个中心点的距离最接近平均距离
Figure BDA0003237198500000102
的数据点,将数据点p划入到该中心点所代表聚簇;
步骤5.6,重复执行步骤5.1至步骤5.5,直至加噪数据集D中的全部数据点处理完毕,形成本轮聚簇划分。
步骤6,依照步骤5的聚簇划分结果,更新每个聚簇中的中心点,判断是否满足停止标准;若是,输出聚簇划分结果;若否,返回步骤5,根据更新每个聚簇中的中心点,再次判定加噪数据集D′中的数据点聚簇归属。即对生成的k个聚簇,将每个聚簇内部点间距离和最小的数据点选为新的中心点。重复这一过程,直到各聚簇中心点不再改变。
具体地,停止标准是指,更新中心点直到各聚簇中心点不再改变或者达到停止阈值,一个优选但非限制性的实施方式为,最大计算时间。
为了更加清楚地介绍本发明的技术方案,给出一个基于差分隐私的隐私保护聚类实例。如图3所示,数据集D为二维数据集,即m=2由,8个数据点(实心圆点),即n=8,每个数据点的位置坐标对应用户数据集的属性值,共有8个数据点,2个属性,16个属性值。
即,以如下公式表示数据集D,
D={x1,x2,x3,x4,x5,x6,x7,x8}
数据集中的各个数据点为,x1=(4,4),x2=(0,3),x3=(1,3),x4=(1,2),x5=(2,2),x6=(4,2),x7=(1,0),x8=(5,0)。
进一步地,代入距离函数,计算该数据集D中任意两个数据点的距离,并以其形成距离矩阵Dist8×8,以如下公式表示,
Figure BDA0003237198500000103
对上述包含8个数据点的二维数据集D进行加噪扰动,加噪后DistM8×8以如下公式表示,
Figure BDA0003237198500000111
基于加噪扰动矩阵的聚类过程如下:
(1)首先计算出噪声矩阵DistM8×8中每个数据点的点间平均距离,即每行数据的平均值,分别为{3.603,3.141,2.569,2.387,2.187,2.887,3.304,4.197},将小于阈值avg的点{x2,x3,x4,x5,x6,x7}加入候选集合C中;
(2)由于|C|=6>3,进一步选取候选集C中的初始中心点。选择点间平均距离最小的数据点x5为第一个初始中心点,继续选取候选集C中距x5最远的数据点x1为下一个初始中心点,直至选出k=3个点为{x1,x5,x7};
(3)迭代将每个数据点分配给距其最近中心点的聚簇,划分结果为:{x5,x2,x3,x4,x8}、{x1,x6}、{x7};
(4)构建数据点x1的最近3中心点序列为{x5,x7,x1},其序列的点间距离均值为3.167,最接近均值的中心点为x7,故将数据点x1分配给中心点x7所代表的聚簇,以此原则进行划分后的聚簇结果为:{x1,x6}、{x5}、{x7,x2,x3,x4,x8};
(5)计算出每个聚簇内部各点距其他点的距离和,将值最小的点更新为新的中心点,则新的聚簇中心点为x1,x5,x4
(6)按以上原则进行迭代,直至聚簇的中心点不再改变或达到停止阈值,可得到最终聚簇结果为:{x6}、{x5,x1,x2,x3,x7,x8}、{x4}。
本发明的有益效果在于,针对隐私保护聚类挖掘场景,实现不可信数据挖掘方参与的聚类分析。本发明可以防止恶意挖掘方利用所掌握部分背景知识发起攻击情况发生,提高用户数据隐私保护安全性。与现有技术相比,本发明所提方法在实现敏感数据差分隐私保护的同时,可以有效提升聚类挖掘精度。
更具体地,与现有技术文件1相比,本发明生成距离矩阵,向距离矩阵一次性添加噪声,有利于维持数据点总体分布,有助于控制差分噪声对数据聚类质量的影响,对初始中心点选取策略设计,以及迭代判断数据点所属中心点时,设计中心点序列,从中选取最合适的中心点,也进一步平抑所添加噪声对聚类精度的影响,从而克服现有技术文件1的不足,有效兼顾差分隐私保护的同时提升聚类质量。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (10)

1.一种基于差分隐私的隐私保护聚类方法,其特征在于,包括以下步骤:
步骤1,数据所有者获得原数据集D,计算原数据集D中任意两个数据点间的欧氏距离值,以欧氏距离值构建距离矩阵;
步骤2,数据所有者向距离矩阵添加满足差分约束的拉普拉斯噪声,生成加噪距离矩阵,并将加噪距离矩阵,即加噪数据集D′,提供给不可信的数据挖掘方;
步骤3,数据挖掘方设置初始聚簇数目k,以步骤2获得的加噪距离矩阵计算各个数据点与其余数据点的平均距离,将平均距离小于设定阈值的数据点加入候选集C;
步骤4,在步骤3获得的候选集C中,选择k个数据点作为聚类的初始中心点;
步骤5,数据挖掘方使用加噪距离矩阵中各个数据点与步骤4获得的k个初始中心点之间的距离,判定加噪数据集D′中的数据点聚簇归属,计算每个数据点最近的多个中心点序列,并将数据点分配到距其最近的多个中心点的期望区间内,形成本轮聚簇划分;
步骤6,依照步骤5的聚簇划分结果,更新每个聚簇中的中心点,判断是否满足停止标准;若是,输出聚簇划分结果;若否,返回步骤5。
2.如权利要求1所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤1中,原数据集D为关系表数据,每个数据点有相同的属性模式,各个属性均为数值型。
3.如权利要求1或2所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤1具体包括:
步骤1.1,数据所有者获取原数据集D,以如下公式表示,
D={x1,…,xn}
Figure FDA0003237198490000011
式中:
n表示原数据集D中包含的数据点数量,
xi表示数据集D中的第i个数据点,i=1,2,…,n,
m表示原数据集D中数据点的属性数目,即原数据集D为包含n个数据点的m维数据集,
Figure FDA0003237198490000021
表示数据点xi的第r个属性,r=1,2,…,m;
步骤1.2,数据所有者计算原数据集D中任意两个数据点之间的欧氏距离,以如下公式表示,
Figure FDA0003237198490000022
式中:
dist(i,j)表示数据点xi和数据点xj的距离函数,i,j=1,2,…,n;
步骤1.3,以步骤1.2中计算获得的任意两个数据点之间的欧氏距离构建距离矩阵,具体是指,将dist(i,j)的值作为第i行第j列的元素构建距离矩阵,以如下公式表示,
Figure FDA0003237198490000023
式中:
Distn×n表示距离矩阵。
4.如权利要求3所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤2具体包括:
步骤2.1,为距离矩阵Distn×n的各个元素dist(i,j)加入拉普拉斯噪声作为差分噪声,以如下公式表示,
distm(i,j)=dist(i,j)+Lap(b)
式中:
distm(i,j)表示距离矩阵Distn×n的各个元素dist(i,j)的加噪结果;
步骤2.2,以distm(i,j)的值作为加噪距离矩阵第i行第j列的元素,构造加噪后的距离矩阵,即加噪距离矩阵,以如下公式表示,
Figure FDA0003237198490000031
式中:
DistMn×n表示加噪距离矩阵;
步骤2.3,将加噪后距离矩阵DistMn×n共享给不可信的数据挖掘方,实现数据隐私保护,避免聚类分析过程泄露数据隐私。
5.如权利要求4所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤3具体包括:
步骤3.1,数据挖掘方设置初始聚簇数目k;
步骤3.2,查询加噪距离矩阵DistMn×n,计算各个数据点xi距离其余数据点的平均距离;
步骤3.3,设置平均距离阈值,若数据点xi距离其余数据点的平均距离avgi小于设定的平均距离阈值avg,将数据点xi加入候选集C中。
6.如权利要求5所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤3.2中,加噪距离矩阵DistMn×n第i行数值的平均值,以如下公式表示,
Figure FDA0003237198490000032
式中:
avgi表示数据点xi距离其余数据点的平均距离。
7.如权利要求5或6所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤3.3中,设置的平均距离阈值avg需要满足的条件为保证有相当数量的数据点可以加入候选集C。
8.如权利要求7所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤4具体包括:
步骤4.1,在步骤3获得的候选集C中,选取距离其余数据点的平均距离最小的数据点作为聚类的第一个初始中心点c1,并将第一个初始中心点c1从候选集C中剔除;
步骤4.2,从候选集C剩余的数据点中,选取距离第一个初始中心点c1距离最远的一个数据点作为聚类的第二个初始中心点c2,并将第二个初始中心点c2从候选集C中剔除;
步骤4.3,重复执行从候选集C剩余的数据点中,选取距离最新从候选集C剔除的数据点最远的一个数据点作为聚类的初始中心点,直至选取获得第k个初始中心点ck
9.如权利要求8所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤5具体包括:
步骤5.1,数据挖掘方使用加噪距离矩阵DistMn×n,获得数据点p与步骤4中k个初始中心点之间的距离;
步骤5.2,将步骤5.1中获得的数据点p与步骤4中k个初始中心点之间的距离按照从小到大排序;
步骤5.3,从步骤5.2的排序中,选择前q个数据点,2<q≤k,构建数据点p的最近q个中心点序列Sp
步骤5.4,以步骤5.3获得序列Sp,查询加噪距离矩阵DistMn×n,计算数据点p的最近q个中心点到数据点p的平均距离
Figure FDA0003237198490000041
步骤5.5,选取数据点p与最近q个中心点的距离最接近平均距离
Figure FDA0003237198490000042
的数据点,将数据点p划入到该中心点所代表聚簇;
步骤5.6,重复执行步骤5.1至步骤5.5,直至加噪数据集D′中的全部数据点处理完毕,形成本轮聚簇划分。
10.如权利要求1至9中任一项所述的一种基于差分隐私的隐私保护聚类方法,其特征在于:
步骤6,停止标准是指,更新中心点直到各聚簇中心点不再改变或者达到最大计算时间。
CN202111006314.9A 2021-08-30 2021-08-30 一种基于差分隐私的隐私保护聚类方法 Active CN113704787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111006314.9A CN113704787B (zh) 2021-08-30 2021-08-30 一种基于差分隐私的隐私保护聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111006314.9A CN113704787B (zh) 2021-08-30 2021-08-30 一种基于差分隐私的隐私保护聚类方法

Publications (2)

Publication Number Publication Date
CN113704787A true CN113704787A (zh) 2021-11-26
CN113704787B CN113704787B (zh) 2023-12-29

Family

ID=78655034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111006314.9A Active CN113704787B (zh) 2021-08-30 2021-08-30 一种基于差分隐私的隐私保护聚类方法

Country Status (1)

Country Link
CN (1) CN113704787B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577380A (zh) * 2022-12-01 2023-01-06 武汉惠强新能源材料科技有限公司 基于mes系统的物料数据管理方法及系统
CN118171076A (zh) * 2024-05-14 2024-06-11 中国矿业大学 一种数据特征提取方法、系统及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法
CN107423636A (zh) * 2017-07-06 2017-12-01 北京航空航天大学 一种基于MapReduce的差分隐私K均值聚类方法
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110619231A (zh) * 2019-08-26 2019-12-27 北京航空航天大学 一种基于MapReduce的差分可辨性k原型聚类方法
CN112131606A (zh) * 2020-09-24 2020-12-25 合肥城市云数据中心股份有限公司 一种基于K-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法
CN112364914A (zh) * 2020-11-10 2021-02-12 郑州大学 基于簇相似度与变换不变性的差分隐私k均值聚类方法
US20210133590A1 (en) * 2019-10-30 2021-05-06 Royal Bank Of Canada System and method for machine learning architecture with differential privacy

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法
CN107423636A (zh) * 2017-07-06 2017-12-01 北京航空航天大学 一种基于MapReduce的差分隐私K均值聚类方法
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110619231A (zh) * 2019-08-26 2019-12-27 北京航空航天大学 一种基于MapReduce的差分可辨性k原型聚类方法
US20210133590A1 (en) * 2019-10-30 2021-05-06 Royal Bank Of Canada System and method for machine learning architecture with differential privacy
CN112131606A (zh) * 2020-09-24 2020-12-25 合肥城市云数据中心股份有限公司 一种基于K-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法
CN112364914A (zh) * 2020-11-10 2021-02-12 郑州大学 基于簇相似度与变换不变性的差分隐私k均值聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI-CHUN WANG 等: "An Integrated Affinity Propagation and Machine Learning Approach for Interference Management in Drone Base Stations", 《IEEE》, pages 83 - 94 *
刘天宇: "差分隐私保护K-means聚类方法的研究", 《硕士论文电子期刊》, pages 26 - 28 *
樊一康 等: "支持差分隐私保护及离群点消除的并行 K -means 算法", 《计算机应用研究》, pages 1777 - 1787 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577380A (zh) * 2022-12-01 2023-01-06 武汉惠强新能源材料科技有限公司 基于mes系统的物料数据管理方法及系统
CN118171076A (zh) * 2024-05-14 2024-06-11 中国矿业大学 一种数据特征提取方法、系统及计算机设备

Also Published As

Publication number Publication date
CN113704787B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
US10073906B2 (en) Scalable tri-point arbitration and clustering
CN113704787A (zh) 一种基于差分隐私的隐私保护聚类方法
CN110334757A (zh) 面向大数据分析的隐私保护聚类方法及计算机存储介质
CN108280491A (zh) 一种面向差分隐私保护的k均值聚类方法
CN107766740A (zh) 一种Spark 框架下的基于差分隐私保护的数据发布方法
CN111460234A (zh) 图查询方法、装置、电子设备及计算机可读存储介质
CN109376544B (zh) 一种防止复杂网络中的社团结构被深度挖掘的方法
CN107527071A (zh) 一种基于花朵授粉算法优化模糊k近邻的分类方法及装置
Zhao et al. Mining statistically-solid k-mers for accurate NGS error correction
CN114091661A (zh) 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法
CN112417507B (zh) 一种基于隐私保护的大型图的节点三角形计数的发布方法
CN113627491A (zh) 基于改进的自适应Anchor生成的DK-YOLOv4模型
CN117407921A (zh) 基于必连和勿连约束的差分隐私直方图发布方法及系统
CN108959956A (zh) 基于贝叶斯网络的差分隐私数据发布方法
Li et al. Knowledge representation and uncertainty reasoning in GIS based on cloud models
CN113537308B (zh) 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN108664548B (zh) 一种退化条件下的网络访问行为特征群体动态挖掘方法及系统
CN111462123B (zh) 一种基于谱聚类的点云数据分割方法
Das et al. A robust environmental selection strategy in decomposition based many-objective optimization
CN114462093A (zh) 基于差分隐私的时空泛化轨迹数据发布方法
Bulivou et al. A novel method of clustering using a stochastic approach
Das et al. Cluster validation using splitting and merging technique
Xiong et al. scVIC: Deep generative modeling of heterogeneity for scRNA-seq data
Cai et al. A summary of data analysis based on differential privacy
Shen et al. Optimisation of K-means algorithm based on sample density canopy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant