CN106096445A

CN106096445A - 基于抽样泛化路径的K‑Anonymity数据处理方法

Info

Publication number: CN106096445A
Application number: CN201610411762.XA
Authority: CN
Inventors: 吴响; 俞啸; 袁洋; 臧昊
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2016-06-12
Filing date: 2016-06-12
Publication date: 2016-11-09

Abstract

本发明公开了一种基于抽样泛化路径的K‑Anonymity数据处理方法，涉及数据处理技术领域。本发明提出了一种基于抽样路径的局域繁花算法——SPOLG算法，该算法基于泛化节点格寻找信息损失较小的泛化路径，为减少寻径时间，引入等概率抽样的思想，选用等概率抽样中的系统抽样方法进行取样，利用样本代替数据集在泛化格上寻找目标泛化路径，最后在该路径上对数据集进行泛化。此外，使用局域泛化技术能够降低信息损失量，提高发布数据集的可用性。实验结果证明，本方法匿名化的数据集信息损失度低，数据可用性高。

Description

基于抽样泛化路径的K-Anonymity数据处理方法

技术领域

本发明涉及数据处理技术领域，具体是一种基于抽样泛化路径的K-Anonymity数据处理方法。

背景技术

随着安全意识的提高，人们越来越关注个人信息的隐私保护，而对于各种机构发布数据时如何进行隐私保护是近年来社会的热点话题。k-匿名是一种简单而有效的隐私保护模型，它通过对一些属性的匿名化处理，使得发布的数据集中每条记录至少具有k-1个与其不可区分的个体，使攻击者不能通过发布的数据攻击具体个体。使用k-匿名技术不可避免会造成发布数据的信息损失，因此，如何提高k-匿名化后数据集的可用性一直以来都是k-匿名隐私保护的研究重点；实施k-匿名要考虑两个方面：(1)确保数据发布过程中隐私不泄露；(2)发布的匿名数据具有实用性。

基于以上两个要求，众多学者提出了许多匿名算法。但大体上可以分为全域泛化算法和局域泛化算法。全域泛化算法主要包括Incognito算法、Datafly算法、Samaratis算法、Classfly及Classfly等；局域泛化算法主要包括Top-Down Specialization、Mondrian、基于遗传算法的方法、基于聚类的匿名算法等。全域泛化算法要求所有属性泛化到同一级别，往往会产生较大的信息损失。相比之下，局域泛化算法不仅可以实现k-匿名而且一定程度上降低了匿名表的信息损失，使得泛化后的数据集更具有可用性。然而，在局域泛化中想要寻找最优k-匿名已经被证明是NP难问题，如何优化k-匿名算法、尽可能提高数据的可用性成为亟待解决的问题。

发明内容

本发明提供一种，基于抽样泛化路径的K-Anonymity数据处理方法，极大地提高了算法效率保证发布的数据集具有较高的可用性。

本发明是以如下技术方案实现的：一种基于抽样泛化路径的K-Anonymity数据处理方法，

通过算法SPOLG(T,QI,k,α)匿名化数据表，T表示待抽样数据集；α表示抽样率，QI为准标识符集，k为匿名隐私约束条件常数；

具体步骤如下：

1)利用函数sample(T,α)抽取样本，另T'＝sample(T,α)，T'表示抽样数据集，具体过程如下：

11)将数据集中的N条元组进行编号；

12)将编号按间隔进行分段，其中L∈N；

13)在第一段随机选取编号l,其中l∈N,l≤L；

14)num＝T×α，并对num取整；

15)按照以下规则抽取样本T'：l，l+L,l+2L,l+3L...,l+num×L；

16)返回T'；

2)利用函数path(QI,T')寻找抽样泛化路径，另P＝path(QI,T')，P表示所得抽样路径，具体过程如下：

21)通过QI形成泛化格G；

22)将泛化格G的第0层节点n₀作为路径P的起点P₀；

23)通过泛化格找到n₁直接泛化的节点，计算这些节点泛化T'所得到的信息损失量，选出泛化数据集T'信息损失量最小的节点n₂作为路径P的第二个节点P₁；

24)重复步骤22)直至到达泛化格G的顶点n_i作为路径的终点P_i得到路径P；

25)返回路径P；

3)T″＝φ；T″存放泛化后的数据集；

4)queue＝φ，把路径P中第i个节点赋值给queue，进入以下循环：

D＝φ；D存放本步骤泛化的数据；

基于queue对数据表T进行泛化；

D＝{泛化后满足k-匿名的元组}；

T″∪D；

移除T中满足k-匿名的元组；

结束循环；

5)返回数据表T″。

本发明的有益效果是：SPOLG算法将等概率抽样的思想引入其中，采用等概率抽样中的系统抽样技术，选取足够的样本代替总体寻找泛化路径，在已经寻找到的路径基础上对数据集进行局域泛化。等概率抽样选择的样本能够代表数据集总体的分布情况，通过样本寻径可以迅速找到信息损失较小的泛化路径，极大地提高了算法效率。同时，该算法采用的局域泛化技术降低信息损失量，提高发布数据集的可用性。

附图说明

图1为本发明流程框图；

图2为性别，工作类型2个属性构成的结构图，

图3为图2泛化格示意图；

图4为抽样寻径时间占比与采样率的关系图；

图5为信息损失量与采样率的关系图；

图6为|QI|＝7时信息损失IL与k值的关系图；

图7为k＝10时信息损失IL与|QI|的关系图；

图8为|QI|＝7时运行时间与k值的关系图；

图9为k＝10时运行时间与|QI|的关系图。

具体实施方式

实现SPOLG算法过程中，以表1为例对基于抽样泛化路径的k-匿名算法进行相关定义。假设数据发布者所持有的数据表为T(A₁,A₂,...,A_n)，表中每条元组指明一个特定实体的相关信息，如Age,Workclass,Race,Sex,Hours-per-week,Salary(敏感属性)等，如表1，表1为数据表T实例。

表1

定义1准标识符(QI)：假定一个数据集U，一个特定的数据表T(A₁,A₂,...,A_n)，f_c:U→T以及fg:T→U'，其中T的一个准标识符QI_T是一组属性的集合。

定义2等价类：数据表T(A₁,A₂,...A_n)，在准标识符集{A₁,...A_j}上的一个等价类是指准标识符集{A₁,...A_j}取值相同的元组的集合。例如表2中ID为1、2的两条元组组成了一个等价类。

定义3k-匿名：给定一个数据表T(A₁,...,A_n)及其相关联的准标识符如果表T满足k-匿名，当且仅当T[QI_T]中的每一个元组至少在T[QI_T]中出现k次。表2为符合2-匿名数据表。

表2

定义4泛化规则：给定一个属性QI，f:QI→QI',f为作用在属性Q上的泛化函数集合，那么则表示准标识符按次序进行泛化的过程，而{f¹,f²,...,f^m}则表示泛化规则，图2为性别，工作类型2个属性构成的结构图。

定义5系统抽样：将数据集中的元组按照ID排序，随机选取一条元组作为起点，每隔一定的间隔抽取一个元组，直至样本数量满足事先给定的抽样率。

定义6抽样泛化路径：以泛化格的根节点为起点，计算其子节点对样本泛化后的信息损失量，将信息损失量最小子节点插入路径，自底向上，直至泛化格叶子节点。

图3中，若用<W1,R0>这个节点泛化样本比<W0,R1>泛化样本信息损失小，则选取<W1,R0>为路径的第2个节点，以此类推，如<W0,R0>→<W1,R0>→<W1,R1>→<W2,R0>这条路线是一条可能的抽样泛化路径。

定义7抽样寻径时间占比：由抽样数据产生抽样泛化路径所花费的时间S_P在整个算法流程中的百分比。假设整个算法花费的时间为S_A，则其计算公式为：

S G P = \frac{S_{p}}{S_{A}} \times 100 % - - - (1)

如图1所示，本发明提出的一基于抽样泛化路径的K-Anonymity数据处理方法，引进了等概率抽样的思想，以系统抽样样本代替数据集寻找泛化路径，通过算法SPOLG(T,QI,k,α)匿名化数据表，T表示待抽样数据集；α表示抽样率，QI为准标识符集，k为匿名隐私约束条件常数；具体步骤如下：

11)将数据集中的N条元组进行编号；

12)将编号按间隔进行分段，其中L∈N；

13)在第一段随机选取编号l,其中l∈N,l≤L；

14)num＝T×α，并对num取整；

15)按照以下规则抽取样本T'：l，l+L,l+2L,l+3L...,l+num×L；

16)返回T'；

21)通过QI形成泛化格G；

22)将泛化格G的第0层节点n₀作为路径P的起点P₀；

25)返回路径P；

3)T″＝φ；T″存放泛化后的数据集；

4)queue＝φ，把路径P中第i个节点赋值给queue，进入以下循环：

D＝φ；D存放本步骤泛化的数据；

基于queue对数据表T进行泛化；

D＝{泛化后满足k-匿名的元组}；

T″∪D；

移除T中满足k-匿名的元组；

结束循环；

5)返回数据表T″。

由以上步骤可知，该算法主要包括系统抽样、寻找路径、匿名化数据集三个主要环节，利用系统抽样选取样本，在已选择的样本中寻找信息损失较低的泛化路径，由已选路径对数据集进行局域泛化。从路径起点开始，自底向上对不满足k-匿名的元组进行泛化，直到所有元组满足k-匿名。

本发明使用系统抽样，能够保证每个元组被抽取概率相同，通过等概率抽样样本快速寻找到信息损失较低的泛化路径，使得数据集整体泛化后的信息损失较小。同时，局域泛化进一步保证了匿名后的数据集信息损失小，因此本算法是可行的。

算法SPOLG(T,QI,k,α)实验验证及结果分析

实验环境：本发明使用了UCI Machine Learning Repository中的Adult数据集作为实验数据集，Adult数据集是由美国人口普查数据构成，采用数据集中的训练集，并去除缺省值记录，共有30162条记录，本发明选取7个属性值作为准标识符属性，包括Sex，Race，Marital_status，Education，Workclass，Native_country，Age，各属性预定义的泛化规则参考文献。实验平台配置如下：Core 2.50GHz/8GB，Windows 7，所涉代码均有Java实现，并在Eclipse Mars.2Release(4.5.2)运行。实验数据均在实验运行5次所得到的实验数据基础上取得的平均值。

实验结果分析：实验主要从信息损失度及执行时间方面对本发明算法进行衡量。本实验选用Incognito算法作为对比算法，比较了在不同个数的准标识符和不同k值条件下信息损失度和执行时间的变化。其中信息损失度采用文献的计算方法：

元组的信息损失量：

表的信息损失量：

I L (T) = \frac{1}{n} Σ I L (e i) - - - (3)

|e_i|是聚类e_i元组的数量，1≤l≤m，N_i是第i个数值属性的范围，和是聚类e_i中最大值和最小值，是分类树的高度，H(∧(∪C_j))是具有最小公共祖先的分类字数的高度。

数据抽样分析：寻径时间占比通过式(1)进行计算，信息损失量依据公式(2)(3)来度量，由图4、图5可知，当|QI|一定时，随着采样率的增加，抽样寻径时间占比均有大幅度上升，然而信息损失量的波动幅度较小，故可使用较小的采样率；同时因抽样率越大越符合数据集的分布，故要使用足够数量的样本代表数据集，综合以上所述，本发明以下实验均采用1％的抽样率。

信息损失量分析：图6为准标识符属性个数|QI|＝7(k取5、10、15、20、25、50)时，SPOLG算法和Incognito算法匿名化数据集信息损失量的比较。由图5可以可知，执行SPOLG算法和Incognito算法产生的信息损失量随k值的增加而增加，这是由于k值变大时，每个等价类所含元组数量增多，数据集泛化程度变大，故信息损失量会增大。但随k值的变大，SPOLG算法信息损失IL增加幅度较小。其原因在表3(不同k值下的前三步泛化情况)中可以清晰的看出，元组前三步泛化比例都达到了50％以上，由此可知数据集中的大部分元组都只经过一次泛化，因此泛化后的数据集信息损失IL小，随着k值的变大IL增加较小。图7表示当k＝10时，|QI|取3、4、5、6、7，SPOLG算法与Incognito算法匿名化数据信息损失量的比较。从图7可以看出，Incognito算法产生的信息损失IL呈明显上升趋势，本发明算法随着准标识符属性的|QI|增多信息损失IL无明显波动。表4(不同QI值下的前三步泛化情况)中数据表明，|QI|增大时，前三步泛化比例均达到60％。由此可见，数据集中的大部分元组都只经过一次泛化，因此泛化后的数据集信息损失IL小，随着|QI|增加IL无明显波动。综合以上所述：本发明算法在信息损失方面具有明显的优势，发布的数据信息失真较少，可用性高。

表3

表4

时间效率分析：图8、图9分别表示运行时间、k和|QI|的关系。由图8知，当|QI|一定时，由于k值增大，泛化程度变大，产生的等价类数量变少，每个元组寻找等价类的时间大幅度降低，因此本发明算法运行时间随k值的增大而降低。由图9知，当k值一定时，随着|QI|的增加，约束条件变多，等价类数量增多，每个元组寻找等价类的时间变大，所以本算法运行时间有所增加。综合图8、图9可知，本发明算法在时间效率上比Incognito算法略差，但是由于信息损失量的大幅度降低，因此本算的综合优势明显。

本发明提出一种基于准标识符属性泛化路径的k-匿名化算法—SPOLG算法，该算法采用等概率抽样的方法快速寻找泛化路径，在已找到泛化路径的基础上进行数据集的局域泛化。实验表明该算法泛化的数据表信息损失较低，可用性高。

Claims

1.一种基于抽样泛化路径的K-Anonymity数据处理方法，其特征在于：通过算法SPOLG(T,QI,k,α)匿名化数据表，T表示待抽样数据集；α表示抽样率，QI为准标识符集，k为匿名隐私约束条件常数；具体步骤如下：

11)将数据集中的N条元组进行编号；

12)将编号按间隔进行分段，其中L∈N；

13)在第一段随机选取编号l,其中l∈N,l≤L；

14)num＝T×α，并对num取整；

15)按照以下规则抽取样本T'：l，l+L,l+2L,l+3L...,l+num×L；

16)返回T'；

21)通过QI形成泛化格G；

22)将泛化格G的第0层节点n₀作为路径P的起点P₀；

25)返回路径P；

3)T”＝φ；T”存放泛化后的数据集；

4)queue＝φ，把路径P中第i个节点赋值给queue，进入以下循环：

D＝φ；D存放本步骤泛化的数据；

基于queue对数据表T进行泛化；

D＝{泛化后满足k-匿名的元组}；

T”∪D；

移除T中满足k-匿名的元组；

结束循环；

5)返回数据表T”。