CN105512566B

CN105512566B - 一种基于k-匿名的健康数据隐私保护方法

Info

Publication number: CN105512566B
Application number: CN201510849304.XA
Authority: CN
Inventors: 蔡洪斌; 荆学士; 卢光辉; 陈雷霆; 邱航; 崔金钟
Original assignee: University of Electronic Science and Technology of China; Institute of Electronic and Information Engineering of Dongguan UESTC
Current assignee: University of Electronic Science and Technology of China; Institute of Electronic and Information Engineering of Dongguan UESTC
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2018-07-31
Anticipated expiration: 2035-11-27
Also published as: CN105512566A

Abstract

一种基于K‑匿名的健康数据隐私保护方法，包括以下步骤：（1）对敏感信息进行分组，并对每一个分组设置隐私泄露率约束；（2）统计数据集中各个不同敏感属性值的元组个数；（3）根据阈值a₁来判断对数据是直接进行聚类操作还是只处理其中一部分的数据；（4）判断敏感属性值的个数是否大于a₂，是则执行下一步，否则跳出流程；（5）对数据进行聚类处理；（6）对数据进行泛化处理；本发明对数据进行K‑匿名处理，因此处理后的数据可以抵抗链接攻击；可以有效地防止一致性攻击。

Description

一种基于K-匿名的健康数据隐私保护方法

技术领域

本发明属于隐私保护领域，尤其涉及一种数据发布过程中的基于K-匿名的低信息损失的隐私保护方法。

背景技术

随着数据挖掘和数据发布等数据库应用的出现与发展，如何保护隐私数据和防止敏感信息泄漏成为当前面临的重大挑战。隐私保护问题已经成为数据挖掘应用及数据安全领域的一个主要研究方向。隐私保护技术研究一般是通过改进关联规则、挖掘算法等，或在数据表发布之前进行隐私保护的相应处理，来实现个体隐私的保护。

在早期的研究中，大多数统计问题需要保持发布数据的可用性，统计数据库(SDB)一般是通过访问控制的机制和策略对不同的用户赋予不同的数据访问权限，然而随着数据挖掘技术的不断发展，个人隐私泄漏问题越来越严重，人们对隐私保护的需求日益高涨，之前所提出来的相关技术已经无法满足人们越来越高的隐私保护需求，与此同时，随着各类共享信息的不断增多和搜索技术的不断进步，越来越多的个人隐私信息被发掘出来。目前防止隐私泄露的方法的主要有抽样、微聚合、Recording、数据约束、向原始数据添加噪声、数据交换、数据泛化等。

K-匿名(K-Anonymity)模型在众多的数据挖掘隐私保护模型中以其简单实用而引起了国内外学者的广泛关注和研究。K-匿名(K-Anonymity)模型是一个典型的数据发布模型，与基于传统的访问控制等隐私保护技术不同，为了满足匿名的需求，它首先对原始数据集进行预处理，然后发布经过处理的数据集。K-匿名是在特定的应用背景被提出，在选举、求职、医疗等需要数据发布的各种应用场合中，既要能把个人的标识信息隐匿起来，还要确保不能通过发布出来的信息将相关的选民、求职者、病患的隐私信息推导出来，这就是数据发布中隐私保护的重要意义所在。

传统的K-匿名模型可以有效地防止链接攻击，却无法防止一致性攻击和背景知识攻击。而目前针对K-匿名进行的改进也多以牺牲信息损失度为代价进行的。

发明内容

为了解决链接攻击以及传统的K-匿名方法无法防止的一致性攻击，本文提出了基于三阈值的K-匿名改进方法，即基于K-匿名的健康数据隐私保护方法。该方法具有很高灵活性，可以根据阈值的设置来改变匿名处理的速度以及信息损失度，该方法包括步骤：

(1)确定发布数据的标识符属性、敏感属性、准标识符属性；

(2)依据敏感程度，对敏感属性进行分组，并设置相关的阈值参数；进行过分组之后得到敏感属性分组s＝(s_g1,s_g2,...,s_gm)，并设置组隐私约束率a₃＝(a_sg1,a_sg2,...,a_sgm)，且s_gi中元素的敏感值相同即s中共有m个敏感值；同时设置参数a₁，a₂的值，a₁表示是否对原始数据直接进行匿名处理的阈值；a₂表示每个等价类中应至少出现的不同敏感值的个数；

(3)根据阈值a₁来判定对数据是否直接进行下一步的聚类处理还是先对原始数据进行处理使之满足阈值a₁的要求；进行a₁判定，判定阈值a₁是否得到满足，若得到满足则直接进入下一环节进行处理，否则，对数据进行处理，将一定比例的隐私约束率为1的数据，即不需要进行保护的数据直接发布，使剩余的数据满足阈值a₁，便得到数据集T。

(4)对步骤(3)得到的数据集T进行聚类处理；

步骤4.1，判断敏感属性值的个数是否大于a₂，是则执行下一步，否则跳出流程；定义QIS＝{}，QIS为等价类的集合；

步骤4.2，从数据集T中随机选取一个元组t，T＝T-{t}；生成聚类集C＝{t}，把t作为聚类的中心；

步骤4.3，如果C中敏感属性组个数小于a₂，则从T中寻找一个元组t_i，t与t_i中的敏感属性值属于不同的敏感属性组，且Dis(t，t_i)的值最小；C＝C∪{t_i}；T＝T-{t_i}；直至C中的敏感属性组个数为a₂个；

用下述公式计算元组t₁和t₂的距离:

数值型数据之间的距离使用下述公式进行计算：

分类型数据之间的距离使用下述公式进行计算：

步骤4.4，当C中元组个数小于K时，从T中找一个元组t_j，使得t_j与聚类集C的距离最小；统计聚类集C中与元组t_j属于同一个敏感属性组的个数|S_gi|，计算GPleak(S_gi)；如果GPleak(S_gi)≤as_gi，则进行下面操作，C＝C∪{t_j}；T＝T-{t_j}。将得到的聚类集C存放在QIS中，K为每个聚类中元组的个数；

步骤4.5，重复前面的步骤，直至T中的数据都经过了匿名化处理；

(5)对经过聚类得到的数据进行泛化；

将一个聚类内的数据泛化为一个值，具体操作如下：

步骤5.1，制定泛化格；

步骤5.2，泛化时泛化规则从泛化格底部开始选择，判定能否将所有聚类集进行泛化，如可以则选择该泛化策略，否则根据泛化格向上选取下一个泛化策略；

(6)获得经过匿名化的数据集T'。

本发明的有益效果是：在安全性方面，一、对数据进行K-匿名处理，因此处理后的数据可以抵抗链接攻击；二、对数据进行匿名处理的过程中进行了a₂阈值的限定从而可以有效地防止一致性攻击。在效率方面，该发明设置了阈值a₁，从而使得匿名处理更加灵活，对于只有少量的用户信息具有较高的保护要求时，可以只对部分数据进行匿名化处理。同时也可以根据实际情况来对灵活地设置a₁的取值，来平衡处理速度与信息损失度的关系。

附图说明

图1示出了本发明一种基于K-匿名的健康数据隐私保护方法的流程图；

图2示出了该方法中阈值a1判定流程；

图3示出了聚类处理的方法流程；

图4示出了本实施实例中应用的泛化技术；

图5示出了本实施实例中泛化格的处理技术；

图6示出了本实施实例使用泛化格操作流程。

具体实施方式

下面结合附图和实施例对本发明做进一步说明：

一种基于K-匿名的健康数据隐私保护方法，包含以下步骤：

确定发布数据的标识符属性、敏感属性、准标识符属性；

标识符属性：数据表中的某属性如果能够唯一标识出个体身份，即能够直接确定某个具体的个体，例如姓名、护照号、电话号码等属性，这样的属性就称为标识符属性。数据发布时，一般直接从表中移除该属性。

准标识符属性(Quasi-identifiers，QI)：准标识符属性是同时存在于发布数据表和外部数据源表中的一组属性，例如邮编、出生日期、性别的属性集合。利用该属性集合对数据表进行链接，推导出标识个人的隐私信息，该属性集合称为准标识符属性。

敏感属性(Sensitive Attribute)：发布数据时，个体不愿意其他用户所知道的信息属性，即需要被保护的属性，例如疾病信息、个人收入、婚姻状况等。

如图1所示，本实施包括属性分组，阈值确定，聚类，泛化模块。具体为：

步骤1，对信息中的敏感属性进行分组，如疾病信息为敏感属性，可将疾病信息进行分组，将艾滋病、癌症等隐私性强的疾病信息分为一组，将高血压、糖尿病分为一组，发烧、感冒分为一组(分组是根据疾病的敏感程度来进行的)。进行过分组之后可以得到敏感属性分组s＝(s_g1,s_g2,...,s_gm)，并设置组隐私约束率a₃＝(a_sg1,a_sg2,...,a_sgm)，且s_gi中元素的敏感值相同即s中共有m个敏感值。设置参数a₁，a₂的值。a₁表示是否对原始数据直接进行匿名处理的阈值，只有当敏感属性中不能直接发布的元组的比例达到a₁时，才对数据进行匿名化处理,否则先对其进行相应处理，如此，本算法更加灵活，系统开销也能够得到更好地控制；a₂表示每个等价类中应至少出现的不同敏感值的个数，此做法是为了进一步提升算法的安全性。

等价类E的定义：

给定数据表AT，其准标识符属性为QI，则AT在QI上具有相同映射值的所有元组构成等价类E。即等价类E中所有元组在QI上的属性值是不可区分的。

定义8、组隐私泄露约束定义：

给定数据集D，准标识符属性QI，敏感属性组S为敏感属性值的集合，且S＝{s_g1,s_g2,...,s_gm}为敏感属性根据敏感性的一个分组，((E,S_gi))表示在等价类E中敏感属性组s_gi的隐私程度，a₃为专家(即人为)设置的参数，0<a₃<＝1，a_sg1,a_sg2,...,a_sgm分别为各个敏感组的隐私泄漏率约束，其中a_sg1＜a_sg2＜...＜a_sgm。如果数据集D的所有等价类中敏感属性隐私保护度为s_gi的隐私泄漏率不大于各个敏感属性组的a₃值，即:GPleak(S_gi)≤a_sgi，则称数据集D满足组隐私泄漏约束。

步骤2，进行a₁判定，根据阈值a₁来判定对数据是否直接进行下一步的聚类处理还是先对原始数据进行处理使之满足阈值a₁的要求；如图2所示。判定阈值a₁是否得到满足，若得到满足则直接进入下一环节进行处理，否则，对数据进行处理，将一定比例的隐私约束率为1的数据(即不需要进行保护的数据)直接发布，使剩余的数据满足阈值a₁。便得到数据集T。

步骤3，将步骤2得到的数据集T进行聚类处理。如图3所示。

步骤3.1，判断敏感属性值的个数是否大于a₂(a₂一般大于等于2即可使用)，是则执行下一步，否则跳出流程。在步骤1中我们得到了敏感属性分组s＝(s_g1,s_g2,...,s_gm)，此处就是要判断m是否大于a₂，a₂是用来保证后面得到的每个聚类中都至少含有a₂个不同的敏感值，即至少聚类中的元组至少来自a₂个不同的敏感属性组，因此我们需要确保m是大于a₂的，只有这样，后面的操作才是有意义的。因为如果敏感属性值得个数如果小于a₂则说明a₂设置有问题或者敏感属性值只有一个则说明分组有问题，可以重新对敏感属性进行分组。定义QI S＝{}，QIS为等价类的集合。

步骤3.2，从数据集T中随机选取一个元组t，T＝T-{t}；生成聚类集C＝{t}，把t作为聚类的中心。

步骤3.3，如果C中敏感属性组个数小于a₂，则从T中寻找一个元组t_i，t与t_i中的敏感属性值属于不同的敏感属性组，且Dis(t，t_i)的值最小；C＝C∪{t_i}；T＝T-{t_i}；直至C中的敏感属性组个数为a₂个(如此，便可以有效地避免一致性攻击；一致性攻击是指在某些匿名数据集中数据的敏感属性的差异并不是很大时，其敏感属性值能够被攻击者从已经发布出来的数据表中准确地推断出来。)。此时是一个循环操作，用来保障每个聚类的元组至少来自a₂不同的敏感属性分组。

用下述公式计算元组t₁和t₂的距离:

数值型数据之间的距离使用下述公式进行计算：

分类型数据之间的距离使用下述公式进行计算：

两个元组之间的距离定义：

给定数据集T，令{N₁，N₂，...，N_m，C₁，C₂，...，C_n}为T中的准标识符集合，N_i(i＝1，…，m)表示数值型属性，C_j(j＝1，…，n)表示分类型属性，t_i[X]表示属性X在元组t_i中的值，对于元组t₁和t₂的距离定义为:

数值型数据之间的距离定义:

给定数据集T，在数值型属性N上，元组t_i，t_j的值为t_i(N)，t_j(N)，MAXN和MINN分别表示属性N上的最大值与最小值。则t_i，t_j在属性N上的距离定义为:

分类型数据之间的距离定义:

给定数据集T，在分类型属性C上，元组t_i，t_j的值为t_i(C)，t_j(C)，GT_c是在分类型属性C上的一棵泛化树，H(GT)表示泛化树的高度，Λ(t_i(C)，t_j(C))表示t_i(C)和t(C)以泛化树中最小公共祖先为根的子树，则元组t_i，t_j在分类型属性C上的距离如下:

步骤3.4，当C中元组个数小于K时，从T中找一个元组t_j，使得t_j与聚类集C的距离最小；统计聚类集C中与元组t_j属于同一个敏感属性组的个数|S_gi|，计算GPleak(S_gi)；如果GPleak(S_gi)≤as_gi，则进行下面操作，C＝C∪{t_j}；T＝T-{t_j}。将得到的聚类集C存放在QIS中。如此便可以满足K-匿名的要求；K是每个聚类中元组的个数，也是由专家(即人为)在算法开始时制定，注意去与a₂的区别，K是指聚类元组的数目，a₂则是要求这K个元组至少是来自a₂个不同的敏感属性分组。

步骤3.5，重复前面的步骤，直至T中的数据都经过了匿名化处理。

步骤4，对前面得到的聚类进行泛化操作。从而便得到了同时满足阈值要求与K匿名要求的数据集T'。泛化的原理如图4所示，将一个聚类内的数据泛化为一个值。具体操作如下：

步骤4.1，制定泛化格，如图5所示。

步骤4.2，泛化时泛化规则从泛化格底部开始选择，判定能否将所有聚类集进行泛化，如可以则选择该泛化策略，否则根据泛化格向上选取下一个泛化策略，如图6所示。

泛化(Generalization)是指给定一个属性A，如果存在如下映射g:A→A'，则g称为属性A的泛化函数，g(A表示作用在属性A上的一次泛化操作；用A₀→A₁→...→A_n表示一个泛化序列，其中A₀为属性的原始值，A_n为泛化到最后的结果。

泛化格是指：一个元组的域泛化层次结构可以看成其对应的距离矢量，数据表中的属性泛化根据属性的不同进行不同层次的泛化，所得到的泛化结果构成属性泛化序列，这些序列构成基于准标识符的泛化层次序列，称为泛化格。

Claims

1.一种基于K-匿名的健康数据隐私保护方法，其特征在于，所述方法包含以下步骤：

(1)确定发布数据的标识符属性、敏感属性、准标识符属性；

(3)根据阈值a₁来判定对数据是否直接进行下一步的聚类处理还是先对原始数据进行处理使之满足阈值a₁的要求；得到数据集T；

(4)对步骤(3)得到的数据集T进行聚类处理；

用下述公式计算元组t₁和t₂的距离:

数值型数据之间的距离使用下述公式进行计算：

分类型数据之间的距离使用下述公式进行计算：

步骤4.4，当C中元组个数小于K时，从T中找一个元组t_j，使得t_j与聚类集C的距离最小；统计聚类集C中与元组t_j属于同一个敏感属性组的个数|S_gi|，计算GPleak(S_gi)；如果GPleak(S_gi)≤as_gi，则进行下面操作，C＝C∪{t_j}；T＝T-{t_j}；将得到的聚类集C存放在QIS中，K为每个聚类中元组的个数；Gpleak表示组隐私泄漏率，QIS为等价类的集合；

(5)对经过聚类得到的数据进行泛化；

将一个聚类内的数据泛化为一个值，具体操作如下：

步骤5.1，制定泛化格；

(6)获得经过匿名化的数据集T'。

2.根据权利要求1所述的方法，其特征在于，步骤(3)中进行a₁判定的方法为：进行a₁判定，判定阈值a₁是否得到满足，若得到满足则直接进入下一环节进行处理，否则，对数据进行处理，将一定比例的隐私约束率为1的数据，即不需要进行保护的数据直接发布，使剩余的数据满足阈值a₁，便得到数据集T。