CN106021541A

CN106021541A - 区分准标识符属性的二次k-匿名隐私保护算法

Info

Publication number: CN106021541A
Application number: CN201610361877.2A
Authority: CN
Inventors: 吴响; 王换换; 臧昊; 俞啸
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-10-12
Anticipated expiration: 2036-05-26
Also published as: CN106021541B

Abstract

本发明公开了一种区分准标识符属性的二次k‑匿名隐私保护方法，涉及数据隐私保护技术领域。本发明通过Incognito函数，形成所有单属性的层级网格进行判断泛化是否满足k‑匿名，删除不满足k‑匿名的节点，将满足k‑匿名的节点迭代，形成候选结点集，再判断候选节点是否满足k‑匿名，删除不符合条件的节点，循环上述步骤，直到所有分类型属性迭代完成，输出所有满足k‑匿名的根节点。通过根节点依次对数据表T进行泛化，利用MDAV算法对泛化后T'的进行二次泛化，将输入的等价类元组数量划分为k到2k‑1之间，当完成所有划分后，给出信息损失，比较得出损失量最小的数据表。

Description

区分准标识符属性的二次k-匿名隐私保护算法

技术领域

本发明涉及数据隐私保护技术领域，具体是一种区分准标识符属性的二次k-匿名隐私保护算法。

背景技术

信息技术的飞速发展，越来越多的数据为人们所共享使用，如何保护发布数据中的隐私信息不被攻击者恶意获取，同时又使数据接收者充分利用数据信息进行有效的探索和科学研究，日益成为一个重要的信息安全问题。k-匿名是一种有效的隐私数据保护方法，近年来受到广泛的关注。k-anonymity技术由Samarati和Sweeney于1998年提出，它要求在发布的数据中存在一定数量(k)不可区分的个体，使攻击者不能判别出隐私信息所属个体。

大量研究表明，Incognito算法能够高效地将大规模数据k-匿名化，全局重编码的k-匿名化算法会造成数值型变量的过度泛化，有较多的语义丢失。MDAV是基于划分的经典匿名聚类算法，该算法能够高效处理大规模数值型数据集的聚类问题。

研究者对k-匿名的研究工作主要集中在保护隐私信息的同时最大程度保留数据的可用性。目前，大部分数据匿名化方法都存在共同的缺陷：1)较适用于分类型数据(标称型和序数型)，对数值型数据泛化往往丢失较多的数值语义；2)准标识符的属性数量剧增时，会出现所谓的“维度灾难/位数陷阱”。维数陷阱将导致很大的信息损失，使得发布数据表可用性变差。

发明内容

为了克服上述现有技术的缺点，本发明提供一种区分准标识符属性的二次k-匿名隐私保护算法，大大减少了单独使用匿名者算法造成的信息损失。

本发明是以如下技术方案实现的：一种区分准标识符属性的二次k-匿名隐私保护算法,

1)判断准标识符集中属性类型；

2)S_n＝Incognito(T,CQI,k)，S_n表示分类型属性已经进行泛化的数据集，T表示需要被泛化的数据集，CQI表示分类型准标识符集，k表示匿名约束条件；

3)空队列result，空节点node；

4)遍历S_n进入以下循环：

数据集

D_j是存放全泛化后的数据表；

读取S_n中一个节点插入到node；

根据node泛化数据表T得到T′；

遍历T′,进入以下循环：

使用T′_i存储T′中第i个等价类；

MDAV(T′_i,NQI,k)，T′表示需要被聚类的数据集，NQI表示要进行聚类的数值型属性，k表示匿名约束条件；

D_j＝D_j∪T_i'；

计算信息损失，插入到result；

5)比较result中信息损失，得到信息损失最小的D_j；

6)T”＝D_j,返回T”。

优选的，Incognito(T,CQI,k)分类型属性泛化的具体步骤如下：

1)形成单属性泛化候选节点表C₁和边表E₁；

2)使用一个空队列queue取出C₁中所有根节点,对queue所有节点进行等价类计算；

3)判断是否满足k-匿名，如果节点满足，则对此点以及其所有的子节点进行标记，如果不满足，则将此点从C₁中删除，并把其子节点插入队列queue中；

4)重复步骤3)，直到把C₁中所有不满足的节点删除，并是删减后的C₁和E₁形成新的表C₂和E₂；

5)重复步骤2)、3)、4)直到得到删减后的C_n；

6)S_n＝{C_n所有节点}

7)返回S_n。

优选的，MDAV(T′,NQI,k)数值型属性泛化的具体步骤如下：

1)判断数据集中元组的个数是否大于2k-1，若大于，则继续步骤2)，

否则，返回数据集T′，并找到其质心；

2)数据集T′中按NQI找出距离最远的两元组r、s；

3)以r为质心，找到离r最近的k-1条元组形成等价类C，更新质心，

并从数据集中T′删除这k条元组，放入集合群{Q}中；

4)以s为质心重复步骤3)；

5)判断数据T′中剩余的元组数目是否大于2k-1，若大于重复执行2)3)

4)；否则，return，返回数据集T′，并找到其质心；

6)以其质心的准标识符属性值代替其等价类中的元组的准标识符属性值；

7)返回T′。

本发明的有益效果是：通过该方法能够得到满足k-匿名的分类型属性频繁项集，然后对数值型属性进行微聚集，避免出现全域泛化对数值型属性过度泛化的可能，可以使源数据表划分成k到2k-1之间的最优划分，大大减少了单独使用匿名者算法造成的信息损失。

附图说明

图1是本发明流程示意图；

图2是为性别，种族，工作类型3个属性构成的结构图；

图3是|QI|＝6+1时，信息损失IL与k值的关系图；

图4是|QI|＝6+2时，信息损失IL与k值的关系图；

图5是|QI|＝6+1时，时间T与k值的关系图；

图6是|QI|＝6+2时，时间T与k值的关系图；

图7是时间差与k值的关系图。

具体实施方式

在实现k-匿名时，以表1为例对NQLG算法进行相关定义。假设数据发布者所持有的数据表为T(A₁,A₂,...,A_n)，表中每条元组指明一个特定实体的相关信息，如Age,Workclass,Race,Sex,Hours-per-week,Salary等，见表1。

表1

定义1准标识符：假定一个数据集U，一个特定的数据表T(A₁,A₂,...,A_n)，fc:U→T以及fg:T→U′，其中T的一个准标识符QI_T,是一组属性那么f(f_c(p_i)[Q_T])＝p_i成立。表1中的属性都可以作为准标识符，准标识符的选取根据实际需要选择。

定义2泛化规则：给定一个属性Q，f:Q→Q',f为作用在属性Q上的泛化函数集合，那么则表示准标识符按次序进行泛化的过程，而{f¹,f²,...,f^m}则表示泛化规则。如图2所示为性别，种族，工作类型3个属性构成的结构图。

定义3k-匿名：(k-anonymity)给定一个数据表T(A₁,...,A_n)及其相关联的准标识符QI_T＝(A_i,...,A_j)如果表T满足k-匿名，当且仅当T[QI_T]中的每一个元组至少在T[QI_T]中出现k次。

如表1所示，表中包含6个元组，每个元组对应一条具体的个人信息。表中第一列为为序号字段，表示每条记录在数据表中的相对存储位置；第二列为年龄属性信息；第三列为工作属性信息；第四列为种族属性信息；第五列为性别属性信息；第六列为工作时长属性信息，最后一列可作为需要保护的信息，作为本表的敏感属性。那么表1中T的准标识符Q I_T＝{Age,Workclass,Race,Sex,Works_per_week}。表2是表1经过2-匿名化处理后的数据结果发布表。根据等价类定义，表2中一共有3个等价类，分别为{R₁,R₂}、{R₃,R₄}、{R₅,R₆}。等价类{R₁,R₂,R₃}中的元组有：

R₁[QI_T]＝R₂[QI_T]＝{[21,30],Self-emp-not-int,Amer-Indian-Eskimo,Female,[21-30]},

R₃[QI_T]＝R₄[QI_T]＝{[31,40],Private,Amer-Indian-Eskimo,Male,[31-40]},

R₅[QI_T]＝R₆[QI_T]＝{[41,50],Private,Amer-Indian-Eskimo,Male,[41-50]}。因此攻击者利用链接攻击方式获取敏感隐私的概率仅为1/k＝1/2。表1经过k-匿名化处理后的数据表(表2)可以有效地防止链接攻击，表2为表1经过2-匿名处理后的数据；

表2

定义4分类型属性泛化：对数据集进行数据划分，将分类型数据进行可能时间概率展开时，{R₁,...,R_i}分类型属性，且R₁,...,R_i∈T,若T(R₁,...,R_j)满足k-匿名，即当且仅当T(R₁,...,R_j)中的每一个元组至少在T(R₁,...,R_j)中出现k次，那么完成分类型属性泛化，此时频繁项集可表示为T'(R₁,..,R_j,...,S₁,...,S_n)。

定义5数值型属性泛化：通过分类型数据泛化得到给定的频繁项集T'(R₁,..,R_i,...,S₁,...,S_n)，表T'(S₁,...,S_n)(为数值型属性，T上的数值型属性泛化可表示为K_exp(δ_G(T”)),其中K表示二次匿名的函数名，exp为数值型表达式，G为泛化规则，δ_G完成数值型元组数据的泛化。

定义6数值型元组间距离：设T,为给定的元组集T,(t₁,t₂,...,t_n)，两个元组t₁,t₂(t₁,t₂∈T,)，则元组之间的距离为其在所有数值型准标识符上的真实距离：

d_{n} (t_{i}, t_{j}) = | t_{i} - t_{j} |_{2} = {[Σ_{k = 1}^{p} ω_{k} | t_{i k} - t_{j k} |^{2}]}^{1 / 2} - - - (1)

其中，t_i,t_j分别表示不同的数值型元组，d_n表示两数值型元组之间的实际距离。

如图1所示,本发明基于Incognito算法与MDAV算法，本文提出一个高效的k-匿名算法——NQLG算法。该算法结合Incognito算法与MDAV算法，首先利用Incognito算法获得以分类型准标识符为满足k-匿名的节点，经过判断得到所有的根节点，根据根节点对分别对数据表进行泛化，利用MDAV算法对数值型属性聚类，使得最后得到的等价类是最优k划分，每个等价类中元组的个数在k和2k-1之间，并进行比较各根节点得到的泛化结果，选出信息损失量最小的泛化数据表。算法描述如下：

分类型属性泛化

函数:Incognito(T,CQI,k)，T表示需要被泛化的数据集，CQI表示分类型准标识符集，k匿名约束条件；

1)形成单属性泛化候选节点表和C₁边表E₁；

5)重复步骤2)、3)、4)直到得到删减后的C_n；

6)S_n＝{C_n所有节点}

7)返回S_n。

数值型属性泛化

函数：MDAV(T',NQI,k)，T′表示需要被聚类的数据集，NQI表示要进行聚类的数值型属性，k表示匿名约束条件；

1)判断数据集中元组的个数是否大于2k-1，若大于，则继续步骤2)，否则，返回数据集T′，并找到其质心；

2)数据集T′中按NQI找出距离最远的两元组r、s；

3)以r为质心，找到离r最近的k-1条元组形成等价类C，更新质心，并从数据集中T′删除这k条元组，放入集合群{Q}中；

4)以s为质心重复步骤3)；

4)；否则，return，返回数据集T′，并找到其质心；

7)返回T′。

NQLG算法实现

1)判断准标识符集中属性类型，

2)S_n＝Incognito(T,CQI,k)；

S_n是分类型属性已经进行泛化的数据集；

3)空队列result，空节点node；

4)遍历S_n进入以下循环：

数据集

D_j是存放全泛化后的数据表；

读取S_n中一个节点插入到node；

根据node泛化数据表T得到T'；

遍历T',进入以下循环：

使用T_i'存储T'中第i个等价类；

MDAV(T′_i,NQI,k)；

D_j＝D_j ∪ T_i'；

计算信息损失，插入到result；

5)比较result中信息损失，得到信息损失最小的D_j。

6)T”＝D_j,返回T”。

由以上步骤可知，NQLG算法通过Incognito函数，形成所有单属性的层级网格进行判断泛化是否满足k-匿名，删除不满足k-匿名的节点，将满足k-匿名的节点迭代，形成候选结点集，再判断候选节点是否满足k-匿名，删除不符合条件的节点，循环上述步骤，直到所有分类型属性迭代完成，输出所有满足k-匿名的根节点。通过根节点依次对数据表T进行泛化，利用MDAV算法对泛化后T'的进行二次泛化，将输入的等价类元组数量划分为k到2k-1之间，当完成所有划分后，给出信息损失，比较得出损失量最小的数据表。

NQLG算法的合理性分析：通过步骤2)算法能够得到满足k-匿名的分类型属性频繁项集，然后对数值型属性进行微聚集，避免出现全域泛化对数值型属性过度泛化的可能，经过步骤4)后，可以使源数据表划分成k到2k-1之间的最优划分，大大减少了单独使用匿名者算法造成的信息损失。

NQLG算法复杂度分析：假设本算法数据集中元组个数为n，分类型准标识符个数为m，那么本算法花费时间分析如下：步骤1时间花费为O(1)；步骤2采用匿名者算法对分类型属性进行满足k-的求解，其时间花费是O(∑C_i)，C_i为第i次迭代的节点个数；步骤3时间花费为O(1)；步骤4时间花费为其中l表示一次泛化后的根节点的个数。MDAV算法的时间复杂度为j为上一步得到的大等价类数目；步骤5时间花费为O(l)。故本算法的总体信息损失为

NQLG算法实验验证及结果分析：

实验环境:实验所使用的软硬件环境为：4G内存，Windows 7操作系统，算法由Java和SQL server 2008实现。本文使用了UCI Machine Learning Repository中的Adult数据集作为实验数据集，Adult数据集是由美国人口普查数据构成，采用数据集中的训练集，去除缺省值记录后共有30162条记录，本文选取8个属性值，包括Sex,Race,Hours_per_week,Marital_status,Education,Workclass,Native_country,Age。其中Age,Hours_per_week为连续性准标识符，Sex,Race,Marital_status,Education,Workclass,Native_country为分类型准标识符。

实验结果分析:本实验选用Incognito算法作为对比算法，将k-匿名化后的数据集利用MDAV算法进行二次匿名，从信息损失度及执行时间方面对本文算法进行衡量。NQLG算法实现了不同个数的准标识符和不同k值条件下，信息损失度和执行时间的变化。其中信息损失度采用文献的计算方法：

等价类信息损失量：

表的信息损失量：

I L (T) = \frac{1}{n} Σ I L (e i) - - - (3);

|ei|是聚类ei元组的数量，1≤l≤m，N_i是第i个数值属性的范围，MAX_Ni和MIN_Ni是聚类ei中最大值和最小值，H(T_ci)是分类树的高度，H(∧(∪Cj))是具有最小公共祖先的分类子树的高度。

信息损失度分析由图3、图4可以看出，当准标识符|QI|一定时，随着k的增加，本文算法的信息损失IL有降低的趋势，当k值达到50时，两种算法的信息损失量都有上升的趋势。实验数据表明，本文的算法的信息损失量明显低于匿名者算法。因而从信息损失量角度看，本文算法在避免过度泛化方面具有很大的优越性。

运行时间分析由图5、图6可以看出，当准标识符一定时，匿名者算法和本文算法的运行时间都随着k值的增加而降低。通过不同准标识符集QI的数据图对比可知，当|QI|＝6+1(6个分类型属性+1个数值型属性)时，匿名者算法在运行时间方面要优于本文算法，而准标识符集|QI|＝6+2(6个分类型属性+2个数值型属性)时，随着k值的增加，本文算法在运行时间方面要优于匿名者算法。实验数据表明，数值型准标识符增加时，本文算法的优越性会越明显。

由图7可以看出，随着k值的减少，匿名者算法和本文算法的准标识符集(当|QI|＝6+2以及|QI|＝6+1时)的时间差Δt同时增加，匿名者算法的增幅显著，远大于本文算法的增幅。因而，从效率上看，随着准标识符集|QI|中数值型准标识符占比变动，本文算法的优越性会显著提高。

本文主要针对匿名者算法造成的数值型属性的过度泛化以及聚类分析中的语义包含问题，提出了NQLG算法。实验表明，NQLG算法相较于传统的隐私保护算法在应对语义丢失和语义包含方面有明显优势。未来可以在以下方面展开研究：数据存在二次发布的可能性，可以在动态数据集上对NQLG算法进一步推广；随着数据规模的急剧增长，可以引入分布式、云计算技术到匿名化研究中，进一步提高海量数据处理效率。

Claims

1.一种区分准标识符属性的二次k-匿名隐私保护方法，其特征在于：

1)S_n＝Incognito(T,CQI,k)，S_n表示分类型属性已经进行泛化的数据集，T表示需要被泛化的数据集，CQI表示分类型准标识符集，k表示匿名约束条件；

2)空队列result，空节点node；

3)遍历S_n进入以下循环：

数据集

D_j是存放全泛化后的数据表；

读取S_n中一个节点插入到node；

根据node泛化数据表T得到T′；

遍历T′,进入以下循环：

使用T_i′存储T′中第i个等价类；

D_j＝D_j∪T′_i；

计算信息损失，插入到result；

4)比较result中信息损失，得到信息损失最小的D_j；

5)T″＝D_j,返回T″。

2.根据权利要求1所述的区分准标识符属性的二次k-匿名隐私保护方法，其特征在于：Incognito(T,CQI,k)分类型属性泛化的具体步骤如下：

1)形成单属性泛化候选节点表C₁和边表E₁；

5)重复步骤2)、3)、4)直到得到删减后的C_n；

6)S_n＝{C_n所有节点}

7)返回S_n。

3.根据权利要求1所述的区分准标识符属性的二次k-匿名隐私保护方法，其特征在于：MDAV(T′,NQI,k)数值型属性泛化的具体步骤如下：

2)数据集T′中按NQI找出距离最远的两元组r、s；

4)以s为质心重复步骤3)；

5)判断数据T′中剩余的元组数目是否大于2k-1，若大于重复执行2)3)4)；否则，return，返回数据集T′，并找到其质心；

7)返回T′。