CN110543782B

CN110543782B - 一种基于k-匿名算法实现数据集脱敏的方法以及系统

Info

Publication number: CN110543782B
Application number: CN201910621268.XA
Authority: CN
Inventors: 陈成; 赖兆荣
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2022-03-29
Anticipated expiration: 2039-07-10
Also published as: CN110543782A

Abstract

本发明公开了一种基于k‑匿名算法实现数据集脱敏的方法以及系统，包括以下步骤：获取未经脱敏处理的数据集；将数据集显示标识符删除，定义准标志符中的每个属性取值域上的顺序，使之成为有序域；将有序域一一映射到实数域中；对于空间各数据点的距离的定义并计算相对距离，根据相对距离结合投影区域密度划分算法确定数据集的划分点，递推求出各级分割点，最终建立超球体群；对超球体群中的每个超球体中所含的点信息进行概化处理，使得所有的记录的准标志符取值相同，完成脱敏处理。本发明能够改善矩形存在的区域角问题，并且能够考虑到临时匿名组中相邻点之间的距离问题，使得在保证隐私保护的前提下，得到更多的匿名组，使数据的概化程度越低，增大了数据的可用性。

Description

一种基于k-匿名算法实现数据集脱敏的方法以及系统

技术领域

本发明涉及数据脱敏技术领域，更具体的，涉及一种基于k-匿名算法实现数据集脱敏的方法以及系统。

背景技术

隐私数据匿名化的常用处理手段源于统计数据库中的数据处理方法，主要是通过以发布数据中的属性值的信息损失为代价，换取通过这些属性值再标识某些个体的准确性，同时尽可能保证发布数据的可用性，在发布数据的准确性和隐私保护之间达到一种平衡。

就现在的技术，文献【1】中公开了对匿名组的划分策略为“基于取整划分的匿名算法”(RPF)和文献【2】中公开了“基于顶点和边缘修改的k-匿名算法”(VEM)。

其中：文献【2】公开的VEM采用找到每个顶点的最佳目标度，再决定候选者增加顶点度数并在顶点之间添加边缘以满足要求的方法进行划分。

当度数序列中剩余少于k个顶点时，它不足以形成一个组，其需要至少具有k个元素以保证k-匿名性，因此顶点将被分散到它们最近的组中。最终通过添加边和顶点修改图形来对图形进行匿名化。在向图形添加边缘时，在图形中的社区结构的帮助下，可以很好地保留已发布图形的效用。

而文献【1】公开的RPF中采用的划分原则为：

其中|X|＝αk+β，β＜k。从而使得X被划分为两部分。最终使得当数据集的大小超过2k²的时候，算法所产生的匿名化数据的匿名规模不会超过k+1。

但是，上述现有技术在应用过程中存在着以下几个缺点：

1.没有考虑到临时匿名组中相邻数据的距离，在生成数据集时容易产生不必要的数据信息的损失。

2.对于分割是形成的矩形，存在区域角的问题，这会降低所得数据的可用性。

基于以上两点，现有技术所得到的数据的可用性仍然不够理想。

【1】吴英杰，唐庆明，倪巍伟等.基于取整划分函数的k匿名算法[J].软件学报，2012，23(08):2138-2148.

【2】Ma，T.，Zhang，Y.，Cao，J.et al.a k-degree anonymity with vertex andedge modification algorithm.Computing(2015)97:1165.

发明内容

本发明为了解决现有技术没有考虑到临时匿名组中相邻数据的距离，造成生成数据集时容易产生数据信息损失，和现有分割是形成的矩形，存在区域角，从而降低所得数据的可用性的问题，提供了一种基于k-匿名算法实现数据集脱敏的方法以及系统，其能解决区域角的问题，在保护隐私的前提下，使得数据的匿名组数越多，数据的概化率越低，从而增大了数据的可用性。

为实现上述本发明目的，采用的技术方案如下：一种基于k-匿名算法实现数据集脱敏的方法，所述该方法包括以下步骤：

S1：输入原始数据集T、并设置参数τ，P，k；其中，P表示数据表中的记录集，τ表示记录集所占的超球体区域；k表示算法的参数，表示至少有k个记录与其他记录的准标记符相同，从而使得每个记录被确认的概率为1/k；

S2：将原始数据集中每个记录显示标识符删除，定义准标志符中的每个属性取值域上的顺序，使之成为有序域；然后将有序域一一映射到实数域中；

S3：令range＝τ，TMP＝P，通过|P|＝αk+β将其表示为k的线性函数，其中β是比k小的非负数，α表示匿名组中的记录数与k值的商，β为余数；

S4：如果超球体区域内range为空，则返回空的球树；

S5：根据投影区域密度划分算法进行确定划分依据；

S6：利用已知的最小范围超球体，得出距离球心最远的点A，再求出距离A点最远的点B，再计算其他点i相对距离，对所有点求出q(i)值；

S7：将所有的q(i)值按大小排序；结合划分依据确定数据集的划分点，所述划分点将range划分为两个超球体；

S8：设划分后的两个超球体分别为左超球体ballleft、右超球体ballright，更新各数据集，使得range_left＝ballleft为所构成的最小超球体的区域；range_right＝ballright为所构成的最小超球体的区域；

S9：如果|ballleft|≥Yk，则返回步骤S6继续递归，输入的参数为(range_left，ballleft)；其中，Y≥1，且为整数；

S10：如果|ballright|≥Lk，则返回步骤S6继续递归，输入的参数为(range_right，ballright)；其中，L≥1，且为整数；

S11：最后得到超球体群，对其中每一个超球体的所含的点信息进行概化处理，使得所有的记录的准标志符取值相同，从而得到输出匿名数据集T。

优选地，步骤S5，所述投影区域密度划分算法，具体如下：

设X为一临时匿名组，并且|X|＝αk+β，将其分成两个子匿名组，根据如下原则：

其中，

表示向下取整，

表示向上取整；

划分后得到的匿名组的规模为：

x₁＝α₁k+β₁

x₂＝α₂k+β₂

其中，显然α₁+α₂≤α，且

β₁≥0，β₂≥0，β₁+β₂＝β。

本发明采用投影区域密度划分算法可以根据调节β₁，β₂的值来调整划分的结果，并且调整的效果会随着k的增大而越来越好。在保证匿名数据集中匿名组数量不减少的同时，减少划分过程中不必要的信息损失，进一步提高发布数据集的可用性。

本发明所述建树划分依据模块采用投影区域密度划分具有高的可行性。具体如下：

对于给定的关系表P以及参数k，对于任意的第m层的匿名组X的k系数α_m满足：

2^x-m≤2^x-m+1

先当m＝0时，有2^x-m＝2^x＝2^[bα]≤2^bα＝α＝α_m＜2^x-m+1。

那么当第m+1层的匿名组时，设其k的系数为α_m+1，那么根据投影区域密度划分算法就有

由于：

2^x-m≤α_m＜2^x-m+1

则：

所以得:

2^x-(m+1)≤α_m+1＜2^x-(m+1)+1

其中，α_m表示匿名组划分到第m层时的k系数，α为匿名组记录数与k值的商，b为商α的系数，且x＝[bα]，上述即利用数学归纳法对每一层进行归纳，证明每一次分组之后的系数都存在于2^x-(m+1)与2^x-(m+1)+1之间，进而说明了本发明所述的投影区域密度划分具有有限性以及可行性。

进一步地，步骤S6，所述q(i)的计算公式如下：

其中，dis_Ai表示A点与i点之间的距离，dis_AB表示A点与B点之间的距离；

将原始数据T取最大值与最小值的均值，将此点近似作为中心，然后利用曼哈顿距离进行计算所有的点到这个点的距离，距离最远的点为点A，与A最远的点为点B；

设点A为(a₁，b₁，c₁，…，n₁)，点B为(a₂，b₂，c₂，…，n₂)，其他点i(a₃，b₃，c₃，…，n₃)，把这些点看作n维空间中的点集，并且定义各点间的距离为：

dis_Ai＝|a₁-a₃|+|b₁-b₃|+…|n₁-n₃|

dis_AB＝|a₁-a₂|+|b₁-b₂|+…|n₁-n₂|

其中，a₁，b₁，c₁，n₁均表示点A在各维度上的值；a₂，b₂，c₂，n₂均表示点B在各维度上的值；a₃，b₃，c₃，n₃均表示点i在各维度上的值，当数据的每个维度上的距离越大时，两个数据点的距离就越大。

再进一步地，步骤S7，所述结合划分依据确定数据集的划分点，具体的，将所有的q(i)值按大小排序后，取得一个整数j使得如下式子成立：

则从j点将range划分为两个超球体。

再进一步地，步骤S8，划分后的左超球体ballleft，满足：

同理，划分后的右超球体ballright，满足：

再进一步地，所述步骤S9中Y取值为2；所述步骤S10中L取值为2。

基于以上所述的k-匿名数据集脱敏的方法，本发明还提供一种实现k-匿名数据集脱敏的系统，包括数据输入模块、数据处理模块、建树划分依据模块、概化信息与输出模块；

所述数据输入模块，用于将未经脱敏处理数据收集并传输到数据处理模块；

所述数据处理模块，用于将数据集中每个记录显示标识符删除，定义准标志符中的每个属性取值域上的顺序，使之成为有序域；然后再将有序域一一映射到实数域中，并将其传输到建树划分依据模块；

所述建树划分依据模块，用于对空间各数据点的距离的定义并计算两点的距离，并根据相对距离结合划分依据确定数据集的划分点，然后递推求出各级分割点，最终建立超球体群，并将其输出到概化信息与输出模块；

所述概化信息与输出模块，用于就得到超球体群，对其中每个超球体中所含的点信息进行概化处理，使得所有的记录的准标志符取值相同，并输出。

优选地，所述建树划分依据模块采用曼哈顿距离对不同点之间的距离进行定义。

进一步地，所述建树划分依据模块利用投影区域密度划分算法进行划分，从而确定划分依据。

再进一步地，所述建树划分依据模块对于投影区域密度划分|X|＝αk+β，匿名化后的数据最多生成α个匿名组。

本发明的有益效果如下：

1.本发明所述的基于k-匿名算法实现数据集脱敏的方法，能够改善矩形存在的区域角问题，并且能够考虑到临时匿名组中相邻点之间的距离问题。

2.本发明所述基于k-匿名算法实现数据集脱敏的方法包括不具有区域角的球树，以及灵活的投影区域密度划分的策略，使得最终得到的结果在保证隐私保护的前提下，得到更多的匿名组，使数据的概化程度越低，从而增大了数据的可用性。

附图说明

图1是本实施例所述基于k-匿名算法实现数据集脱敏的系统的结构示意图。

图2是本实施例所述的方法与RPF在GOTRACK数据集、Adult数据集上实验结果数据概化率的比值。

图3是本实施例所述的方法与RPF在GOTRACK数据集上进行匿名处理得到的结果比较图。

图4是本实施例所述的方法与RPF在Adult数据集上进行匿名处理得到的结果比较图。

图5是本实施例所述的方法与VEM在Adult数据集上进行匿名处理得到的结果。

图6是本实施例所述的方法与VEM在Adult数据集上实验结果数据概化率的比值。

其中，图2中左子图表示本实施例所述的方法与RPE，在GOTRACK数据集上进行实验，实验结果概化率的比值；右子图表示本实施例所述的方法与RPE，在Adult数据集上进行实验，实验结果概化率的比值。

图3、图4、图5中纵轴number表示在不同的的参数值k，得到的不同的匿名组的个数；图中BP_k-anominous表示本实施例所述的方法的实验结果。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

一种基于k-匿名算法实现数据集脱敏的方法，所述该方法包括以下步骤：

S4：如果超球体区域内range为空，则返回空的球树；

S5：根据投影区域密度划分算法进行确定划分依据；

所述投影区域密度划分算法，具体如下：

其中，

表示向下取整，

表示向上取整；

划分后得到的匿名组的规模为：

x₁＝α₁k+β₁

x₂＝α₂k+β₂

其中，显然α₁+α₂≤α，且

β₁≥0，β₂≥0，β₁+β₂＝β。

本实施例采用投影区域密度划分算法可以根据调节β₁，β₂的值来调整划分的结果，并且调整的效果会随着k的增大而越来越好。在保证匿名数据集中匿名组数量不减少的同时，减少划分过程中不必要的信息损失，进一步提高发布数据集的可用性。

所述q(i)的计算公式如下：

dis_Ai＝|a₁-a₃|+|b₁-b₃|+…|n₁-n₃|

dis_AB＝|a₁-a₂|+|b₁-b₂|+…|n₁-n₂|

所述结合划分依据确定数据集的划分点，具体的，将所有的q(i)值按大小排序后，取得一个整数j使得如下式子成立：

则从j点将range划分为两个超球体。

S8：设划分后的两个超球体分别为左超球体ballleft、右超球体ballright，

划分后的左超球体ballleft，满足：

同理，划分后的右超球体ballright，满足：

更新各数据集，使得range_left＝ballleft为所构成的最小超球体的区域；使得range_right＝ballright为所构成的最小超球体的区域；

S9：如果|ballleft|≥2k，则返回步骤S6继续递归，输入的参数为(range_left，ballleft)；

S10：如果|ballright|≥2k，则返回步骤S6继续递归，输入的参数为(range_right，ballright)；

如图1所述，本实施例基于以上所述的k-匿名数据集脱敏的方法，还提供一种实现k-匿名数据集脱敏的系统，其包括数据输入模块、数据处理模块、建树划分依据模块、概化信息与输出模块；

本实施例所述建树划分依据模块采用曼哈顿距离对不同点之间的距离进行定义。

本实施例所述建树划分依据模块利用投影区域密度划分算法进行划分，从而确定划分依据。

本实施例所述建树划分依据模块对于投影区域密度划分|X|＝αk+β，匿名化后的数据最多生成α个匿名组。

为了证明本实施例所述的实现基于k匿名算法实现数据集脱敏的方法的技术效果，本实施例进行了具体的对比试验，具体如下：

本次试验选取了UCI中的Gotrack数据集、Adult数据集作为实验的对象。其中Gotrack数据集中共有163条记录，选取其中的三条数值型的数据作为准标识符属性。其中Adult数据集中包含14个属性，32561条记录。其中，age、workclass、education_num、marital_status、occupation、race、sex等七个属性作为准标识符被带入本实施例所述的数据集脱敏方法和现有技术RPF中进行脱敏处理。通过比较匿名划分的信息损失量以及匿名组个数两个指标来衡量算法，从而证明本实施例所述的基于k匿名算法实现数据集脱敏的方法的可行性与有效性。

根据两个方法的概化比例来衡量：

式中，Dr_BP_k-anonymous表示本实施例所述的方法所得到结果的匿名化程度，Dr_RPE/VEM表示RPE或者VEM得到结果的概化程度。

概化程度越低说明本实施例所述的方法结果的可用性越高。

如果PRO＜1，那么本实施例所述的基于k匿名算法实现数据集脱敏的方法的概化范围更小，匿名化处理后的数据的可用性更高。如果PRO＞1，那么RPF或者VEM的算法匿名处理后的数据可用性更高。如果PRO＝1，那么本实施所述的基于k匿名算法实现数据集脱敏的方法与现有技术RPF或者VEM的算法得到的结果可用性相同。

对于匿名处理后的数据，当数据组越小，组数越多，说明数据的概化范围越小，得到的数据越接近原数据，那么数据的可用性越高。

如图2、图3所示，在Gotrack数据集和Adult数据集上，PRO值都小于1，且生成的数据集数量更多，这说明本实施例所述的基于k匿名算法实现数据集脱敏的方法比RPF算法所得结果存在优势。但可能是因为Gotrack数据集的记录太少的原因，导致优势并不明显。在Adult数据集上本实施例所述的方法与现有技术RPF的结果就有明显的差距，尤其是当k值较小的时候，本发明的算法的概化范围明显较小，这就说明了此算法得到的结果可用性更高。而当k值越大时，两者的差距会逐渐减小。

可以从图3看出，本发明的算法得到的匿名组的数量相对更多，且这个优势当k越小时越明显。当k较大时，本实施例所述的方法与现有技术VEM得到的匿名组数相差越来越小，效果越来越相似。PRO也大致得到相似的结果，PRO值大致呈现逐渐增大，也就是说，当k越小时，本发明的相对匿名化程度越低，可用性更高。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。