CN109815740A

CN109815740A - 一种基于准标识属性泛化层高度的k-匿名隐私保护方法

Info

Publication number: CN109815740A
Application number: CN201910122929.4A
Authority: CN
Inventors: 肖跃雷; 朱志祥
Original assignee: Shaanxi Aite Informatization Engineering Consultation Co Ltd
Current assignee: Shaanxi Aite Informatization Engineering Consultation Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-05-28

Abstract

本发明提供了一种既有利于数据分析又减少信息损失的基于准标识属性泛化层高度的k‑匿名隐私保护方法，其特殊之处在于：该方法包括：1）对于待发布数据表中的各个准标识属性，根据数据分布情况和业务情况建立各个准标识属性的泛化层次树；2）计算各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值；3）按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序，选择一个准标识属性进行一个层次的全域泛化；4）对步骤3）中全域泛化后的待发布数据表进行k‑匿名模型检验；若符合k‑匿名模型，则以步骤3）中全域泛化后的待发布数据表为最终发布数据表；否则，重复进行步骤2）、步骤3）和步骤4）。

Description

一种基于准标识属性泛化层高度的k-匿名隐私保护方法

技术领域

本发明涉及数据隐私保护领域，更具体地，涉及一种基于准标识属性泛化层高度的k-匿名隐私保护方法。

背景技术

随着社会信息化和网络化的发展，数据呈现爆炸式增长，大数据时代已经到来；目前，大数据已成为学术界和产业界的研究热点，正影响着人们日常生活、工作习惯及思维方式；在数据发布应用中，如何保护数据的用户隐私已成为当前面临的重大挑战；最简单的保护用户隐私的方法就是在发布原始数据时直接通过删除姓名、身份证号码等标识属性来达到防范用户隐私泄露；但是由于以这种方式发布的数据集中的某些属性值集合能够联合该数据集外的相关信息精确或较精确地重新标识某个体，称之为链接攻击。

为了解决这种链接攻击，研究者们提出了k-匿名模型，它要求所发布的数据表中的每一条记录不能区分于其他k-1条记录，即在满足k-匿名模型的数据表中，任意一条记录被重新标识出的风险都不会超过1/k；k-匿名模型通常将数据表的属性划分以下为四类：（1）标识属性：这类属性能够唯一标识个体身份的属性，如用户身份证号码、姓名等；（2）准标识属性：这类属性虽然不像标识属性一样能够直接标识个体身份，但是通过属性的链接可以标记出个体身份的一组属性，如准标识属性组｛年龄，工作类型，肤色，性别｝；（3）敏感属性：这类属性涉及个体隐私信息，如薪水、健康状况等；（4）其它属性：指除标识属性、准标识属性和敏感属性外的属性。

一般遵循k-匿名模型的数据发布大多采用泛化和抑制技术，这在很大程度上造成了原始数据的信息损失；泛化是对数据进行更概括、更抽象的描述。抑制就是删除某一些数据项使其不发布或是用一种特殊的符号来代替某一数据项；例如，性别属性的泛化层次树，参见图1。

在图1中，性别属性的泛化层次为2（从底向上分别为0，1），而性别属性的泛化层次高度为1，性别属性的属性取值为“男”、“女”和“性别”；泛化方法可以分为全域泛化和局部泛化两种；全域泛化是对一个属性上的所有属性取值同时进行泛化，如图1中“男”和“女”同时泛化为“性别”；局部泛化是对一个属性上的部分属性取值进行泛化，如图1中“男”泛化为“性别”，而“女”不进行泛化；全域泛化的优点是每次属性泛化完成后，该属性上的所有属性取值都保持在同一个泛化层次，有利于数据分析，而局部泛化不能保障这一点；但是，全域泛化一般比局部泛化的信息损失要大；因此，如何使得发布的数据表在满足k-匿名模型的同时，既有利于数据分析又减少信息损失，这已成为隐私保护研究的重点。

发明内容

为了解决背景技术中存在的上述技术问题，本发明提供了一种既有利于数据分析又减少信息损失的基于准标识属性泛化层高度的k-匿名隐私保护方法。

本发明的技术解决方案是：本发明提供了一种基于准标识属性泛化层高度的k-匿名隐私保护方法，其特殊之处在于：该方法包括。

1）对于待发布数据表中的各个准标识属性，根据数据分布情况和业务情况建立各个准标识属性的泛化层次树。

2）对于待发布数据表中的各个准标识属性，计算各个准标识属性的泛化层次高度，以及属性取值个数和属性取值熵值。

3）对于待发布数据表中的各个准标识属性，按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序，选择一个准标识属性进行一个层次的全域泛化。

4）对步骤3）中全域泛化后的待发布数据表进行k-匿名模型检验；若符合k-匿名模型，则以步骤3）中全域泛化后的待发布数据表为最终发布数据表；否则，重复进行步骤2）、步骤3）和步骤4）。

上述步骤1）的具体过程如下。

步骤11）选取待发布数据表中的一个准标识属性，计算该准标识属性各个属性取值的频次。

步骤12）根据该准标识属性各个属性取值的频次分布，以及该准标识属性的业务层次建立该准标识属性的泛化层次树，使得：该准标识属性在全域泛化下，该准标识属性泛化层次树中每个层次的属性取值频次分布比较均匀。

步骤13）重复进行步骤11）和步骤12），直至待发布数据表中各个准标识属性的泛化层次树都已建立完成。

上述步骤2）的具体过程如下。

步骤21）选取待发布数据表中的一个准标识属性，计算该准标识属性的泛化层次高度，以及各个属性取值的个数和熵值，即该准标识属性的泛化层次高度、属性取值个数和属性取值信息熵值，其中该准标识属性的属性取值信息熵值是对该准标识属性的各个属性取值进行信息熵计算得到的。

步骤22）重复进行步骤21），直至待发布数据表中各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值都已计算完成。

上述步骤3）的具体过程如下。

步骤31）若泛化层次高度最大的准标识属性只有一个时，则对该准标识属性进行一个层次的全域泛化；否则，执行步骤32）。

步骤32）针于泛化层次高度最大的这些准标识属性，若属性取值个数最多的准标识属性只有一个时，则对该准标识属性进行一个层次的全域泛化；否则，执行步骤33）。

步骤33）针对泛化层次高度最大和属性取值个数最多的这些准标识属性，选择属性取值熵值最小的准标识属性进行一个层次的全域泛化。

本发明的优点是。

1. 对于待发布数据表中的各个准标识属性，根据数据分布情况和业务情况建立各个准标识属性的泛化层次树，有效减少了全域泛化过程中的信息损失。

2．对于待发布数据表中的各个准标识属性，每次都是按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序，选择一个准标识属性进行一个层次的全域泛化，既有利于数据分析又减少了信息损失。

附图说明

图1为性别属性的泛化层次树示意图。

图2为本发明所提供的k-匿名隐私保护方法示意图。

具体实施方式

参见图2，本发明提供了一种基于准标识属性泛化层高度的k-匿名隐私保护方法，该方法包括。

上述步骤1）的具体过程如下。

2）对于待发布数据表中的各个准标识属性，计算各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值。

上述步骤2）的具体过程如下。

上述步骤3）的具体过程如下。

Claims

1.一种基于准标识属性泛化层高度的k-匿名隐私保护方法，其特征在于：该方法包括：

1）对于待发布数据表中的各个准标识属性，根据数据分布情况和业务情况建立各个准标识属性的泛化层次树；

2）对于待发布数据表中的各个准标识属性，计算各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值；

3）对于待发布数据表中的各个准标识属性，按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序，选择一个准标识属性进行一个层次的全域泛化；

2.根据权利要求1所述的基于准标识属性泛化层高度的k-匿名隐私保护方法，其特征在于：所述步骤1）的具体过程如下：

步骤11）选取待发布数据表中的一个准标识属性，计算该准标识属性各个属性取值的频次；

步骤12）根据该准标识属性各个属性取值的频次分布，以及该准标识属性的业务层次建立该准标识属性的泛化层次树，使得：该准标识属性在全域泛化下，该准标识属性泛化层次树中每个层次的属性取值频次分布比较均匀；

3.根据权利要求1所述的基于准标识属性泛化层高度的k-匿名隐私保护方法，其特征在于：所述步骤2）的具体过程如下：

步骤21）选取待发布数据表中的一个准标识属性，计算该准标识属性的泛化层次高度，以及各个属性取值的个数和熵值，即该准标识属性的泛化层次高度、属性取值个数和属性取值信息熵值，其中该准标识属性的属性取值信息熵值是对该准标识属性的各个属性取值进行信息熵计算得到的；

4.根据权利要求1所述的基于准标识属性泛化层高度的k-匿名隐私保护方法，其特征在于：所述步骤3）的具体过程如下：

步骤31）若泛化层次高度最大的准标识属性只有一个时，则对该准标识属性进行一个层次的全域泛化；否则，执行步骤32）；

步骤32）针于泛化层次高度最大的这些准标识属性，若属性取值个数最多的准标识属性只有一个时，则对该准标识属性进行一个层次的全域泛化；否则，执行步骤33）；