CN113704787A

CN113704787A - 一种基于差分隐私的隐私保护聚类方法

Info

Publication number: CN113704787A
Application number: CN202111006314.9A
Authority: CN
Inventors: 单超; 邹云峰; 范环宇; 祝宇楠; 徐超
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-26
Anticipated expiration: 2041-08-30
Also published as: CN113704787B

Abstract

一种基于差分隐私的隐私保护聚类方法，包括：(1)数据所有者计算原数据集中各数据点间的欧氏距离，构建距离矩阵；(2)向距离矩阵添加差分噪声，形成加噪距离矩阵，并将其共享给不可信数据挖掘方，避免聚类分析过程泄露数据隐私；(3)数据挖掘方在加噪距离矩阵中选取k个有良好全局分布性的非离群点，作为聚类的初始中心点；(4)计算每个数据点的最近q个中心点序列，并将数据点分配到距其最近的q个中心点的期望区间内，形成本轮聚簇划分；(5)将每个聚簇内部点间距离和最小的数据点选为新的中心点。重复这一过程，直到各聚簇中心点不再改变。本发明所提方法在实现敏感数据差分隐私保护的同时，可以有效提升聚类挖掘精度。

Description

一种基于差分隐私的隐私保护聚类方法

技术领域

本发明涉及的是一种隐私保护技术领域，具体涉及的是一种基于差分隐私的隐私保护聚类方法。

背景技术

数据挖掘能够发现隐藏在数据中潜在规则模式，为辅助决策提供支撑。聚类是数据挖掘的基础操作，聚类过程对个体数据的访问存在泄露数据隐私风险。例如制药公司希望对用户的购买记录进行聚类，获取药品受众人群，但聚类中对皮肤病等敏感药物购买记录的访问会侵犯病患隐私。如何在兼顾数据隐私的前提下，实现聚类挖掘成为亟待解决的问题，隐私保护聚类是解决该问题的有效方法，近年来吸引了研究者的持续关注。

传统的隐私保护技术存在过于依赖背景知识和难以度量隐私保护水平的问题，难以兼顾数据隐私安全和可用性。Dwork在2006年提出了差分隐私模型，预设攻击者可以掌握最大背景知识，即攻击者可以拥有除被攻击目标隐私信息外的所有数据记录信息。差分隐私模型是建立在坚实的数学证明基础上的，能够通过参数ε量化隐私保护水平。目前差分隐私技术成为规避对攻击者所掌握背景知识假设的有效方法和数据隐私保护研究的热点。

结合差分隐私模型，已有的基于差分隐私的IDP k-means算法，在迭代过程中向聚簇内所有点之和sum函数和数据点的总数目num函数加噪声，以此保护聚类挖掘过程中心点隐私不泄露。但该方法存在两点不足。一方面，现有基于差分隐私的k-means聚类方法仅对中心点计算过程添加差分噪声实现对聚类中心点隐私保护，难以保证中心点外的其它敏感数据不被恶意数据挖掘方泄露。另一方面，虽然通过加入差分噪声可以实现部分敏感数据的隐私保护，但在聚类的迭代过程中引入的大量差分噪声严重影响了聚类结果的精确。

现有技术文件1(CN112199722A)提供了一种面向差分隐私保护的k均值聚类方法，包括数据预处理；用C表示聚类后的中心点集，C,表示给定的数据集和簇中心C下的误差平方和；判断C的大小；循环执行，直到retry大于给定的重试次数最大值retrymax，然后返回最优的中心点Cbest；遍历数据集X中的每个点，将它分类到最近的中心点；设置添加的随机噪声；重新计算每个簇的数据点的总和、点的数量，添加噪声，最后更新簇的质心；重复步骤直到误差平方和收敛或迭代次数达到上限。现有技术文件1的不足在于，采用对划分给每个中心点的数据对象添加噪声后，重新更新簇的之心的方法，迭代进行划分，造成数据点噪声添加具有随机性，难以从数据集合总体分布角度考虑噪声对数据可用性的影响，造成聚类质量方面的不足。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种实现整体数据记录隐私保护，同时维持不可信挖掘分析者聚类挖掘精度的隐私保护聚类方法。

本发明采用如下的技术方案。一种基于差分隐私的隐私保护聚类方法，包括以下步骤：

步骤1，数据所有者获得原数据集D，计算原数据集D中任意两个数据点间的欧氏距离值，以欧氏距离值构建距离矩阵；

步骤2，数据所有者向距离矩阵添加满足差分约束的拉普拉斯噪声，生成加噪距离矩阵，并将加噪距离矩阵，即加噪数据集D^′，提供给不可信的数据挖掘方；

步骤3，数据挖掘方设置初始聚簇数目k，以步骤2获得的加噪距离矩阵计算各个数据点与其余数据点的平均距离，将平均距离小于设定阈值的数据点加入候选集C；

步骤4，在步骤3获得的候选集C中，选择k个数据点作为聚类的初始中心点；

步骤5，数据挖掘方使用加噪距离矩阵中各个数据点与步骤4获得的k个初始中心点之间的距离，判定加噪数据集D′中的数据点聚簇归属，计算每个数据点最近的多个中心点序列，并将数据点分配到距其最近的多个中心点的期望区间内，形成本轮聚簇划分；

步骤6，依照步骤5的聚簇划分结果，更新每个聚簇中的中心点，判断是否满足停止标准；若是，输出聚簇划分结果；若否，返回步骤5。

优选地，步骤1中，原数据集D为关系表数据，每个数据点有相同的属性模式，各个属性均为数值型。

优选地，步骤1具体包括：

步骤1.1，数据所有者获取原数据集D，以如下公式表示，

D＝{x₁,…,x_n}

式中：

n表示原数据集D中包含的数据点数量，

x_i表示数据集D中的第i个数据点，i＝1,2,…,n，

m表示原数据集D中数据点的属性数目，即原数据集D为包含n个数据点的m维数据集，

表示数据点x_i的第r个属性，r＝1,2,…,m；

步骤1.2，数据所有者计算原数据集D中任意两个数据点之间的欧氏距离，以如下公式表示，

式中：

dist(i,j)表示数据点x_i和数据点x_j的距离函数，i,j＝1,2,…,n；

步骤1.3，以步骤1.2中计算获得的任意两个数据点之间的欧氏距离构建距离矩阵，具体是指，将dist(i,j)的值作为第i行第j列的元素构建距离矩阵，以如下公式表示，

式中：

Dist_n×n表示距离矩阵。

优选地，步骤2具体包括：

步骤2.1，为距离矩阵Dist_n×n的各个元素dist(i,j)加入拉普拉斯噪声作为差分噪声，以如下公式表示，

distm(i,j)＝dist(i,j)+Lap(b)

式中：

distm(i,j)表示距离矩阵Dist_n×n的各个元素dist(i,j)的加噪结果；

步骤2.2，以distm(i,j)的值作为加噪距离矩阵第i行第j列的元素，构造加噪后的距离矩阵，即加噪距离矩阵，以如下公式表示，

式中：

DistM_n×n表示加噪距离矩阵；

步骤2.3，将加噪后距离矩阵DistM_n×n共享给不可信的数据挖掘方，实现数据隐私保护，避免聚类分析过程泄露数据隐私。

优选地，步骤3具体包括：

步骤3.1，数据挖掘方设置初始聚簇数目k；

步骤3.2，查询加噪距离矩阵DistM_n×n，计算各个数据点x_i距离其余数据点的平均距离；

步骤3.3，设置平均距离阈值，若数据点x_i距离其余数据点的平均距离avg_i小于设定的平均距离阈值avg，将数据点x_i加入候选集C中。

优选地，步骤3.2中，加噪距离矩阵DistM_n×n第i行数值的平均值，以如下公式表示，

式中：

avg_i表示数据点x_i距离其余数据点的平均距离。

优选地，步骤3.3中，设置的平均距离阈值avg需要满足的条件为保证有相当数量的数据点可以加入候选集C。

优选地，步骤4具体包括：

步骤4.1，在步骤3获得的候选集C中，选取距离其余数据点的平均距离最小的数据点作为聚类的第一个初始中心点c₁，并将第一个初始中心点c₁从候选集C中剔除；

步骤4.2，从候选集C剩余的数据点中，选取距离第一个初始中心点c₁距离最远的一个数据点作为聚类的第二个初始中心点c₂，并将第二个初始中心点c₂从候选集C中剔除；

步骤4.3，重复执行从候选集C剩余的数据点中，选取距离最新从候选集C剔除的数据点最远的一个数据点作为聚类的初始中心点，直至选取获得第k个初始中心点c_k。

优选地，步骤5具体包括：

步骤5.1，数据挖掘方使用加噪距离矩阵DistM_n×n，获得数据点p与步骤4中k个初始中心点之间的距离；

步骤5.2，将步骤5.1中获得的数据点p与步骤4中k个初始中心点之间的距离按照从小到大排序；

步骤5.3，从步骤5.2的排序中，选择前q个数据点，2<q≤k，构建数据点p的最近q个中心点序列S_p；

步骤5.4，以步骤5.3获得序列S_p，查询加噪距离矩阵DistM_n×n，计算数据点p的最近q个中心点到数据点p的平均距离

步骤5.5，选取数据点p与最近q个中心点的距离最接近平均距离

的数据点，将数据点p划入到该中心点所代表聚簇；

步骤5.6，重复执行步骤5.1至步骤5.5，直至加噪数据集D′中的全部数据点处理完毕，形成本轮聚簇划分。

优选地，步骤6，停止标准是指，更新中心点直到各聚簇中心点不再改变或者达到最大计算时间。

本发明的有益效果在于，与现有技术相比，本发明针对隐私保护聚类挖掘场景，实现不可信数据挖掘方参与的聚类分析。本发明可以防止恶意挖掘方利用所掌握部分背景知识发起攻击情况发生，提高用户数据隐私保护安全性。

更具体地，与现有技术文件1相比，本发明生成距离矩阵，向距离矩阵一次性添加噪声，有利于维持数据点总体分布，有助于控制差分噪声对数据聚类质量的影响，对初始中心点选取策略设计，以及迭代判断数据点所属中心点时，设计中心点序列，从中选取最合适的中心点，也进一步平抑所添加噪声对聚类精度的影响，从而克服现有技术文件1的不足，有效兼顾差分隐私保护的同时提升聚类质量。

附图说明

图1为本发明提供的一种基于差分隐私的隐私保护聚类方法的处理流程图；

图2为本发明提供的一种基于差分隐私的隐私保护聚类方法的非可信挖掘方处理流程图；

图3为本发明提供的一种基于差分隐私的隐私保护聚类方法实施例的二维数据集D示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，本发明提供了一种基于差分隐私的隐私保护聚类方法，包括以下步骤：

步骤1，数据所有者获得原数据集D，计算原数据集D中任意两个数据点间的欧氏距离值，以欧氏距离值构建距离矩阵，其中原数据集D为关系表数据，每个数据点有相同的属性模式，各个属性均为数值型。具体包括：

步骤1.1，数据所有者获取原数据集D，以如下公式表示，

D＝{x₁,…,x_n}

式中：

n表示原数据集D中包含的数据点数量，

x_i表示数据集D中的第i个数据点，i＝1,2,…,n，

表示数据点x_i的第r个属性，r＝1,2,…,m。

式中：

dist(i,j)表示数据点x_i和数据点x_j的距离函数，i,j＝1,2,…,n。

步骤1.3，以步骤1.2中的计算获得的任意两个数据点之间的欧氏距离构建距离矩阵，具体是指，将dist(i,j)的值作为第i行第j列的元素构建距离矩阵，以如下公式表示，

式中：

Dist_n×n表示距离矩阵。

i＝j时表示同一个点，距离为零，并且显然有dist(i,j)＝dist(j,i)，因此距离矩阵Dist_n×n为主对角线元素为0的n×n对称矩阵。

步骤2，数据所有者向距离矩阵添加满足差分约束的拉普拉斯噪声，生成加噪距离矩阵，形成加噪数据集D′，并将加噪距离矩阵，即加噪数据集D′，提供给不可信的数据挖掘方，实现数据隐私保护。如图2所示，具体包括：

distm(i,j)＝dist(i,j)+Lap(b)

式中：

distm(i,j)表示距离矩阵Dist_n×n的各个元素dist(i,j)的加噪结果；

Lap(b)表示尺度参数为b的拉普拉斯噪声，

式中：

Δd表示距离函数的最大敏感度，一个优选但非限制性的实施方式为，灵敏度取距离矩阵中的最大值。例如距离矩阵Dist_n×n中的最大值为5.8，则Δd＝max(Dist_n×n)＝5.8。

ε表示隐私预算，隐私预算ε越小，隐私保护越好，但是加入的噪声就越大，数据可用性就下降了。数据所有者依据自身对安全程度的需求确定隐私强度，并从其对应的范围内选取一个值，该值即为隐私预算ε的取值。隐私强度对应数值范围[0,+∞]，且值越小隐私安全性越强，一个优选但非限制性的实施方式为，在本例中，在0～1间随机取了个小数值。

式中：

DistM_n×n表示加噪距离矩阵。

步骤3，数据挖掘方设置初始聚簇数目k，以加噪距离矩阵计算各个数据点与其余数据点的平均距离，将平均距离小于设定阈值的数据点加入候选集C，因为步骤3实施的主体是数据挖掘方，此处的距离是指从加噪距离矩阵DistM_n×n中查询获得的距离。具体包括：

步骤3.1，数据挖掘方设置初始聚簇数目k，k的取值范围是大于1；

步骤3.2，查询加噪距离矩阵DistM_n×n，计算各个数据点x_i距离其余数据点的平均距离，即加噪距离矩阵DistM_n×n第i行数值的平均值，以如下公式表示，

式中：

avg_i表示数据点x_i距离其余数据点的平均距离。

步骤3.3，设置平均距离阈值，若数据点x_i距离其余数据点的平均距离avg_i小于设定的平均距离阈值avg，将数据点x_i加入候选集C中。一个优选但非限制性的实施方式为，可以通过选取部分数据点，计算这些数据点与其它数据点的平均距离，根据这些数据点的距离均值所分布的数值区间，由数据挖掘放在该数值区间内选取数值作为距离阈值，距离阈值设置的原则是不宜设置的太小，以保证有相当数量的数据点可以加入候选集。

步骤4，在步骤3获得的候选集C中，选择k个数据点作为初始中心点，即数据挖掘方在加噪距离矩阵中选取k个有良好全局分布性的非离群点，作为聚类的初始中心点。具体包括：

步骤5，数据挖掘方使用加噪距离矩阵中各个数据点与步骤4获得的k个初始中心点之间的距离，判定加噪数据集D′中的数据点聚簇归属，数据挖掘方计算每个数据点最近的多个中心点序列，并将数据点分配到距其最近的多个中心点的期望区间内，形成本轮聚簇划分。具体包括：

步骤5.2，将步骤5.1中获得的数据点p与步骤4中k个初始中心点之间的距离按照从小到大排序，即按照与数据点p的远近从近到远排序；

的数据点，将数据点p划入到该中心点所代表聚簇；

步骤5.6，重复执行步骤5.1至步骤5.5，直至加噪数据集D^′中的全部数据点处理完毕，形成本轮聚簇划分。

步骤6，依照步骤5的聚簇划分结果，更新每个聚簇中的中心点，判断是否满足停止标准；若是，输出聚簇划分结果；若否，返回步骤5，根据更新每个聚簇中的中心点，再次判定加噪数据集D′中的数据点聚簇归属。即对生成的k个聚簇，将每个聚簇内部点间距离和最小的数据点选为新的中心点。重复这一过程，直到各聚簇中心点不再改变。

具体地，停止标准是指，更新中心点直到各聚簇中心点不再改变或者达到停止阈值，一个优选但非限制性的实施方式为，最大计算时间。

为了更加清楚地介绍本发明的技术方案，给出一个基于差分隐私的隐私保护聚类实例。如图3所示，数据集D为二维数据集，即m＝2由，8个数据点(实心圆点)，即n＝8，每个数据点的位置坐标对应用户数据集的属性值，共有8个数据点，2个属性，16个属性值。

即，以如下公式表示数据集D，

D＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈}

数据集中的各个数据点为，x₁＝(4,4)，x₂＝(0,3)，x₃＝(1,3)，x₄＝(1,2)，x₅＝(2,2)，x₆＝(4,2)，x₇＝(1,0)，x₈＝(5,0)。

进一步地，代入距离函数，计算该数据集D中任意两个数据点的距离，并以其形成距离矩阵Dist_8×8，以如下公式表示，

对上述包含8个数据点的二维数据集D进行加噪扰动，加噪后DistM_8×8以如下公式表示，

基于加噪扰动矩阵的聚类过程如下：

(1)首先计算出噪声矩阵DistM_8×8中每个数据点的点间平均距离，即每行数据的平均值，分别为{3.603,3.141,2.569,2.387,2.187,2.887,3.304,4.197}，将小于阈值avg的点{x₂,x₃,x₄,x₅,x₆,x₇}加入候选集合C中；

(2)由于|C|＝6＞3,进一步选取候选集C中的初始中心点。选择点间平均距离最小的数据点x₅为第一个初始中心点，继续选取候选集C中距x₅最远的数据点x₁为下一个初始中心点，直至选出k＝3个点为{x₁,x₅,x₇}；

(3)迭代将每个数据点分配给距其最近中心点的聚簇，划分结果为：{x₅,x₂,x₃,x₄,x₈}、{x₁,x₆}、{x₇}；

(4)构建数据点x₁的最近3中心点序列为{x₅,x₇,x₁}，其序列的点间距离均值为3.167，最接近均值的中心点为x₇，故将数据点x₁分配给中心点x₇所代表的聚簇，以此原则进行划分后的聚簇结果为：{x₁,x₆}、{x₅}、{x₇,x₂,x₃,x₄,x₈}；

(5)计算出每个聚簇内部各点距其他点的距离和，将值最小的点更新为新的中心点，则新的聚簇中心点为x₁,x₅,x₄；

(6)按以上原则进行迭代，直至聚簇的中心点不再改变或达到停止阈值，可得到最终聚簇结果为：{x₆}、{x₅,x₁,x₂,x₃,x₇,x₈}、{x₄}。

本发明的有益效果在于，针对隐私保护聚类挖掘场景，实现不可信数据挖掘方参与的聚类分析。本发明可以防止恶意挖掘方利用所掌握部分背景知识发起攻击情况发生，提高用户数据隐私保护安全性。与现有技术相比，本发明所提方法在实现敏感数据差分隐私保护的同时，可以有效提升聚类挖掘精度。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于差分隐私的隐私保护聚类方法，其特征在于，包括以下步骤：

步骤2，数据所有者向距离矩阵添加满足差分约束的拉普拉斯噪声，生成加噪距离矩阵，并将加噪距离矩阵，即加噪数据集D′，提供给不可信的数据挖掘方；

2.如权利要求1所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤1中，原数据集D为关系表数据，每个数据点有相同的属性模式，各个属性均为数值型。

3.如权利要求1或2所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤1具体包括：

步骤1.1，数据所有者获取原数据集D，以如下公式表示，

D＝{x₁，…，x_n}

式中：

n表示原数据集D中包含的数据点数量，

x_i表示数据集D中的第i个数据点，i＝1，2，…，n，

表示数据点x_i的第r个属性，r＝1，2，…，m；

式中：

dist(i，j)表示数据点x_i和数据点x_j的距离函数，i，j＝1，2，…，n；

步骤1.3，以步骤1.2中计算获得的任意两个数据点之间的欧氏距离构建距离矩阵，具体是指，将dist(i，j)的值作为第i行第j列的元素构建距离矩阵，以如下公式表示，

式中：

Dist_n×n表示距离矩阵。

4.如权利要求3所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤2具体包括：

步骤2.1，为距离矩阵Dist_n×n的各个元素dist(i，j)加入拉普拉斯噪声作为差分噪声，以如下公式表示，

distm(i，j)＝dist(i，j)+Lap(b)

式中：

distm(i，j)表示距离矩阵Dist_n×n的各个元素dist(i，j)的加噪结果；

步骤2.2，以distm(i，j)的值作为加噪距离矩阵第i行第j列的元素，构造加噪后的距离矩阵，即加噪距离矩阵，以如下公式表示，

式中：

DistM_n×n表示加噪距离矩阵；

5.如权利要求4所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤3具体包括：

步骤3.1，数据挖掘方设置初始聚簇数目k；

6.如权利要求5所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤3.2中，加噪距离矩阵DistM_n×n第i行数值的平均值，以如下公式表示，

式中：

avg_i表示数据点x_i距离其余数据点的平均距离。

7.如权利要求5或6所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤3.3中，设置的平均距离阈值avg需要满足的条件为保证有相当数量的数据点可以加入候选集C。

8.如权利要求7所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤4具体包括：

9.如权利要求8所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤5具体包括：

步骤5.3，从步骤5.2的排序中，选择前q个数据点，2＜q≤k，构建数据点p的最近q个中心点序列S_p；

的数据点，将数据点p划入到该中心点所代表聚簇；

10.如权利要求1至9中任一项所述的一种基于差分隐私的隐私保护聚类方法，其特征在于：

步骤6，停止标准是指，更新中心点直到各聚簇中心点不再改变或者达到最大计算时间。