CN107358113A

CN107358113A - 基于微聚集匿名的差分隐私保护方法

Info

Publication number: CN107358113A
Application number: CN201710406535.2A
Authority: CN
Inventors: 吴响; 刘伟; 魏裕阳; 毛亚青
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2017-11-17

Abstract

本发明公开了一种基于微聚集匿名的差分隐私保护方法，涉及数据匿名和差分隐私保护技术领域。本发明通过DBSCAN聚类函数对原始数据集按照密度不同划分成类，并将异常点以及噪音点归入距离它最近的类中；利用MDAV函数对聚集的类进行再次划分并匿名，将等价类记录数量控制在k到2k‑1之间；最后利用差分隐私保护技术，为每一条数据记录添加拉普拉斯噪音。实验表明，与现有方法相比，在保证隐私数据安全的前提下，DCMVDP方法的信息损失量更小，具有更高的数据可用性。

Description

基于微聚集匿名的差分隐私保护方法

技术领域

本发明涉及数据匿名和差分隐私保护技术领域，具体是基于微聚集匿名的差分隐私保护方法。

背景技术

随着信息技术的快速发展，信息量呈指数型增长。通过数据挖掘对这些信息进行挖掘和分析，能够获得众多有用的知识。然而，随着数据挖掘技术在知识发现领域的广泛应用，隐私泄露问题也日益凸显，因此如何在数据挖掘的过程中保证数据的隐私安全性成为亟待解决的问题。目前，隐私保护技术可大体分为三类：(1)限制发布；(2)数据失真；(3)数据加密。而在现有的方法中，为了提高隐私保护的效果，往往结合了多种隐私保护技术。

其中，k-匿名作为数据失真的常用技术，通过保证发布数据集中任何一条数据记录至少有k-1条与其不可区分的记录对原始数据进行匿名，实现单条记录隐藏到一组数据中，因此能够分化数据的敏感性。但是，k-匿名模型具有很大的缺陷，容易遭到各种复杂的背景知识及联合攻击。随着背景知识的不断扩大和计算能力的不断提高，通过该方法保护的数据遭到背景攻击和泄露的风险日益加大。针对上述问题，Dwork等人提出了差分隐私保护技术。该技术定义了一个极为严格的攻击模型，并用严谨的数学公式证明了其隐私泄露的风险。但是差分隐私保护技术往往会向原始数据中添加过量噪音，从而导致数据的可用性较差。

鉴于以上问题，国内外研究学者将k-匿名与差分隐私保护方法结合起来，以此保证数据高隐私性与高可用性，目前有：采用k领域数据记录均值替换的方法实现数据隐藏、IDP k-means聚类方法以及DCMDP方法。但是这些方法都有不足之处：k领域数据记录均值替换的方法和IDP k-means聚类方法仅考虑到数据记录划分的准确性和聚类可用性，并没有对数据隐私性和可用性进行分析。DCMDP方法对原数据集匿名化处理的方式并不合理，导致发布数据的可用性大大降低。

发明内容

为了克服上述技术缺点，本发明提供基于微聚集匿名的差分隐私保护方法，提升数据隐私性的同时，优化隐私保护过程中数据过度泛化问题，降低信息损失量，保证了发布数据的可用性。

本发明是以如下技术方案实现的：基于微聚集匿名的差分隐私保护方法具体步骤如下：

一种基于微聚集匿名的差分隐私保护方法，包括一次划分单元、二次划分匿名单元以及加噪处理单元，具体步骤如下：

一次划分单元：对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理，将原始数据集D划分成若干个小数据集；

二次划分匿名单元：对一次划分单元的聚类结果集中的每一个小数据集进行再次划分，使小数据集变成大小在k到2k-1的小类，并用小类的质心的值代替小类中其余元组的值，从而使原始数据集D满足最优k-划分的k-匿名；

加噪处理单元：为每一条匿名后的元组随机添加拉普拉斯噪音，获得具有噪音的数据表。

优选的，一次划分单元具体步骤如下：

1)将原始数据集D内的所有点标记为未访问；

2)访问原始数据集D内一个标记为未访问的点u，获取到这个点距离为e之内(包括e)的所有点，个数记作p，同时更改这个点的标记为已访问；

3)如果p大于或等于Minp，则将步骤2)获取的这p个点与点u聚集为一类；否则，点u暂时被标记为噪音点；

4)如果原始数据集D中所有的点都被标记为已访问，则执行步骤5)；否则，对未访问的点重复执行2)和3)；

5)如果存在一个点属于若干个类，则取这若干个类的并集，形成一个新的类；否则，继续执行步骤6)；

6)计算无法被聚集的噪音点与各个聚类质心的欧式距离，将噪音点归入距离它最近的类中；

7)原始数据集D被划分成多个小数据集。

优选的，对一次划分单元聚类结果集中的每个小数据集通过二次划分匿名单元进行处理，具体步骤如下：

1)计算小数据集的质心，获取距离质心最远的点x₁，再获取距离x₁最远的点x₂，以x₁为中心，将x₁以及距离x₁最近的k-1个点划分为一个等价类；同理，以x₂为中心也获得一个等价类；

2)如果小数据集经步骤1)后仍未被划分的元组的数量大于或等于2k，则对这些未被划分的元组重复执行步骤2)，直至剩余的元组数量小于2k；如果未被划分的元组的数量大于等于k且小于等于2k-1，则将这些元组划分为一个类；否则，将未被划分的元组划分到距离各自最近的等价类中；

3)计算每个等价类的质心，用类质心的值替代该质心所在等价类内各条元组的值，实现一条元组隐藏于一组元组中。

本发明的有益效果是：对密度聚类的结果通过使用MDAV方法进行二次划分，从而实现匿名过程的最优k-划分，进而大幅度降低匿名过程的信息损失。同时该方法结合微聚集技术，仍能满足分化查询函数敏感性的条件，从而降低差分隐私保护过程添加的噪音量。实现在增强隐私数据安全性的同时，保证数据的可用性。

附图说明

图1是本发明流程框图；

图2为不同e下变换Minp值时DCMV机制与DCM机制的可用性评分图；

图3为不同ε下变换Minp值时DCMVDP方法与DCMDP方法可用性评分图；

图4为不同k值下变换数据量时DCMVDP方法与DCMDP方法可用性评分图。

具体实施方式

本发明主要提出了基于微聚集匿名的差分隐私保护方法，以下为本发明方法使用到的微聚集以及差分隐私保护概念。

定义1 微聚集：利用某种方式将原始数据集按相似程度划分成若干个等价类，并且每个等价类中的记录数至少为k个，然后用类质心替代类内各条记录。

依据定义1易知，k取值越小类质心相对于类内各条记录值的偏移量越小，因此匿名化后的信息损失量就越少。如表1是一张原始数据表，标识符＝{name}，准标识符QI＝{age，zip code}，敏感属性S＝{salary}。利用微聚集方法对表1进行处理，同时去掉标识符，得到表2，从表2中相对较难得到具体的真实信息从而避免信息的泄露。

表1 收入信息表

表2 微聚集信息表

定义2 差分隐私保护模型：假设随机函数G满足ε-差分隐私模型，G的取值范围为Range(G)，Pr[I_a]表示事件I_a的披露风险，则对于所有有：

Pr[G(D)∈S]≤e^εPr[G(D₁)∈S] (1)

定义2中，ε是隐私保护预算参数，D是原始数据集。D₁是D的邻近数据集，它们至多相差一条记录。通过改变ε大小，使随机函数G作用在邻近数据集上D，D₁能够最大频率地输出相同结果。因此，ε越小，引入的噪声越大，数据隐私性越高。

定义3 查询函数敏感度：Δf是查询函数f的敏感度，其定义如下。

Δf是查询函数f的性质，与数据集D无关。

设查询函数为f，数据集为D，函数f作用在D上返回查询结果为f D。通过随机函数G在f D上添加噪音来保护隐私数据。加噪形式为：

一种基于微聚集匿名的差分隐私保护方法，简称DCMVDP(Density-basedclustering mechanism and Maximum distance to average record with differentialprivacy)方法，包括一次划分单元、二次划分匿名单元以及加噪处理单元，具体步骤如下：

如图1所示，DCMVDP方法具体过程如下，

步骤1)，初始时数值型原始数据集D的所有点都标记为未访问；

步骤2)，访问原始数据集D内一个标记为未访问的点u，获取到这个点u距离为e之内(包括e)的所有点，个数记作p，同时更改这个点的标记为已访问；

步骤3)如果p大于或等于Minp，则将步骤2)获取的这p个点与点u聚集为一类；否则，点u暂时被标记为噪音点；

步骤4)保证原始数据集D中的所有点都被访问一次；

步骤5)合并类，消除被重复划分的元组，保证每个元组出现的次数为1；

步骤6)将原始数据集D内无法被划分的噪音点，归入到距离它最近的类中；；

步骤7)对原始数据集D经步骤1)-6)划分过程得到的数据集进行再次划分，每生成一个类后，都要对数据集中没有被划分的点的数量进行判断，直至当前被划分的数据集中的所有点都被划分到等价类中，这两部利用MDAV方法，通过再次聚集减小了等价类的尺寸，从而降低匿名化过程数据的泛化程度，用等价类质心的值替代等价类内其余元组的值，实现数据匿名化；

步骤8)对匿名后数据集内的每一条元组加噪，从而加强数据的隐私安全性。

DCMVDP方法虽然在匿名化过程中牺牲了部分数据，但是通过结合MDAV方法进行二次划分，降低了数据的泛化程度，减小匿名化过程的信息损失。同时能够分化查询函数敏感性，使得差分隐私保护过程添加的噪音量降低。图2为不同e下变换Minp值时DCMV机制与DCM机制的可用性评分。图3为不同ε下变换Minp值时DCMVDP方法与DCMDP方法可用性评分。图4为不同k值下变换数据量时DCMVDP方法与DCMDP可用性评分。由图可知，在选取适当参数的情况下，DCMVDP方法相比于DCMDP方法而言更适用于大数据集，并且经DCMVDP方法保护后的数据信息损失量较低，具有更高的数据可用性。

实验验证及结果分析

实验数据集及环境：本文实验通过Java实现，并在Windows10系统、CPU为Intel(R)Core(TM)i5-5200U(2.20GHz)、内存8GB的计算机中运行。实验使用的数据来源于UCIKnowledge Discovery Archive Database(http://archive.ics.uci.edu/m1/)中的MAGICGamma Telescope Data Set.。该数据集一共有19020条记录，每条记录有11个属性。本文方法针对数值型数据，因此实验选取其中10个数值型属性。以下所得实验数据均为在运行5次实验的基础上取其结果的平均值。

实验结果分析

如图2所示，横坐标表示Minp值大小，相关参数的设置为k＝5。图1清楚地显示SCORE₁值小于1，即DCMV机制相对于DCM机制匿名后信息损失量少。这是因为采用MDAV方法对聚类的再划分，有效地减少了等价类内数据记录的数量，从而降低匿名过程的泛化程度，降低了数据损失程度。

如图3所示，横坐标表示Minp值大小。相关参数的设置为e＝15，k＝5。从图中可以很明显地看出SCORE₂值小于1，即DCMVDP方法相较于DCMDP方法发布的数据信息损失量少，所以使用DCMVDP方法发布数据的可用性更高。SCORE₂值随着Minp的增大整体呈现增大趋势，当Minp值增大到一定数值后，随着ε增大，可用性评分降低，添加到数据中噪音量减少，因此信息损失就越小。

如图4所示，横坐标表示数据量(即元组个数)的大小。相关参数设置为e＝15，Minp＝5，ε＝5。从图中可以很明显的看出尽管数据量增大，但是可用性评分SCORE₃值总小于1，因此在处理大数据集的情况下，本文方法更具优势。保持其它参数不变，在大数据集情况下，在合理的k取值范围内，SCORE₃值随着k的减小而减小，这是因为当k值减小时，经MDAV方法划分到同一等价类内数据记录的数量减小，从而在用等价类质心替代类内所有记录过程中降低信息损失量，保证数据的可用性。

综上所述，相比于DCMDP方法而言，DCMVDP方法在提高数据隐私安全性的同时，保证了数据的可用性。并且，在处理大数据集情况下，DCMVDP方法因其信息损失量少，具有更大的优越性。同时，实验结果表明：在合理设置参数的情况下，DCMV匿名化机制有效地降低了匿名化过程数据被过度泛化的程度，从而大大增强数据的可用性。

Claims

1.一种基于微聚集匿名的差分隐私保护方法，其特征在于：包括一次划分单元、二次划分匿名单元以及加噪处理单元，具体步骤如下：

2.根据权利要求1所述的一种基于微聚集匿名的差分隐私保护方法，其特征在于：一次划分单元具体步骤如下：

1)将原始数据集D内的所有点标记为未访问；

2)访问原始数据集D内一个标记为未访问的点u，获取到这个点距离为e之内的所有点，个数记作p，同时更改这个点的标记为已访问；

7)原始数据集D被划分成多个小数据集。

3.根据权利要求1或2所述的一种基于微聚集匿名的差分隐私保护方法，其特征在于：对一次划分单元聚类结果集中的每个小数据集通过二次划分匿名单元进行处理，具体步骤如下：