CN110807208A

CN110807208A - 一种满足用户个性化需求的k匿名隐私保护方法

Info

Publication number: CN110807208A
Application number: CN201911054965.8A
Authority: CN
Inventors: 何泾沙; 杜晋晖; 朱娜斐
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-18
Anticipated expiration: 2039-10-31
Also published as: CN110807208B

Abstract

本发明公开了一种满足用户个性化需求的k匿名隐私保护方法，包括：用户自定义的k值储存于数据表的一个列属性中；将数据表通过分解得到匿名要求相同的元组等价类；每一个等价类采用聚类的方法根据k值进行属性泛化；等价类匿名完成后检测全局是否达到每个元组匿名要求，若远超过匿名要求的元组低于阈值，则算法结束；若远超过匿名要求的元组不低于阈值，则对远超过匿名要求的元组再通过其原始数据重新泛化，直到数据表中远超过匿名要求的元组达到阈值。本发明的k匿名隐私保护方法可实现用户可以设定自己数据的保护程度，极大地满足了用户的个性化需求，并且能很好地达到隐私保护的目的，实现了用户的隐私自治。

Description

一种满足用户个性化需求的k匿名隐私保护方法

技术领域

本发明涉及隐私保护技术领域，具体涉及一种满足用户个性化需求的k匿名隐私保护方法。

背景技术

随着Internet技术、大容量存储技术的迅猛发展以及数据共享范围的逐步扩大，个人的数据在种类和数量上都呈“爆炸式”增长。Kevin Kelly在Ceibs Business Review中提出，这个世界上增长最快的不是物质，而是信息，它比我们所有的生物产能，人类的生产力都要快。人类每秒钟创造的数据量只可以用16乘以276次方来描述，增长速度已经远远地超过了光速。现代人越来越注重个人数据的隐私性保护，大多数人都不愿意主动发布自身数据，这些与个体相关的数据被称为微数据，例如人口普查数据、个人消费数据、医疗数据等，人们认为这是属于自己的隐私数据，但值得深思的是，怎么样把采集数据的模式从由某一个机构来掌控，变成个人之间的相互观察。个性化与透明度程度可以说是正相关的，如果个人完全把信息隐藏起来，不对别人发布任何数据，那么别人也无法针对个人提供个性化的分析结果。

而基于信息共享、科学研究等方面的需要，个人在未来可以有偿将收集到的数据进行发布。由于发布的数据会涉及到很多个人隐私，如果直接将原始数据进行多方发布，会造成大量的个人敏感信息的泄露。所以，为了保证个人敏感信息的安全，要在发布数据的同时进行隐私保护。因而如何在发布个人数据的同时保证个人的隐私信息不被泄露，已经成为众多学者关注的问题，由此数据发布中的隐私保护技术应运而生。

目前，关于数据发布中的隐私保护研究主要着力在数据匿名上，而k匿名隐私保护技术是匿名隐私保护技术中一个研究重点，由于能够从技术的角度解决隐私泄露问题，使得数据提供者相信自己的隐私信息能被保护，从而大大的促进了信息化时代的资源共享和信息交流。之后，k匿名的研究趋近于个性化k匿名研究，采用对敏感属性进行泛化技术或者降低敏感属性出现频率到α以下的方法，实现面向敏感值的个性化匿名，提高了信息发布与共享中的数据的质量，增加了数据的可用性；但，当前的数据匿名算法均是在用户的敏感属性上进行研究，并未改变用户的准标识符属性；从而在数据发布过程中未注重用户在准标识符上的隐私自治，不能满足用户个性化需求。

发明内容

针对上述问题中存在的不足之处，本发明提供一种满足用户个性化需求的k匿名隐私保护方法。

本发明公开了一种满足用户个性化需求的k匿名隐私保护方法，包括：

用户自定义的k值储存于数据表的一个列属性中；

将数据表通过分解得到匿名要求相同的元组等价类；

每一个等价类采用聚类的方法根据k值进行属性泛化；

等价类匿名完成后检测全局是否达到每个元组匿名要求，若远超过匿名要求的元组低于阈值，则算法结束。

作为本发明的进一步改进，所述将数据表通过分解得到匿名要求相同的元组等价类；包括：

S1、将数据表T中n个元组的匿名要求按照从小到大排列，记为集合S＝{k1,…,kn}；

S2、集合S的元素依次放入队列Q；

S3、判断队列Q是否为空；

S4、若S3判断Q不为空，则令K等于队列Q的队头元素；

S5、将匿名要求等于K的元组划分为一个元组集合S’；

S6、将S’中元组划分初始等价类，等价类中各个元组在准标识符上相等。

作为本发明的进一步改进，所述每一个等价类采用聚类的方法根据k值进行属性泛化；包括：

S7、判断是否存在元组个数小于K的等价类；

S8、若S7判断为是，随机选择一个元组个数小于K的等价类R；

S9、计算R与其他所有等价类的距离；

S10、找到距R关系最近的等价类R’；

S11、将R和R’并为一类，根据每个准标识符属性泛化树分别进行泛化，返回S7；

S12、若S7判断为否，元组集合S’泛化结束；

S13、将队列Q的队头元素弹出队列；

S14、判断K是否等于Q的队列头元素；

S15、若S14判断为是，返回S14判断；

S16、若S14判断为否，返回S3判断。

作为本发明的进一步改进，所述等价类匿名完成后检测全局是否达到每个元组匿名要求，若远超过匿名要求的元组低于阈值，则算法结束；包括：

S17、若S3判断Q为空，则遍历所有元组，判断远超过匿名要求的元组是否低于阈值；

S18、若S17判断低于阈值，则算法结束；

S19、若S17判断高于阈值，则将所有远超过匿名要求的元组的原始数据重新泛化，即当作新表返回S1。

与现有技术相比，本发明的有益效果为：

本发明的k匿名隐私保护方法从准标识符属性入手，让用户自定义其数据的隐私保护程度，根据用户自定义的数值将其转化为匿名要求k值，即在匿名结束后最少有(k-1)个用户与该用户是准标识符属性相同的元组，使攻击者在获得数据表的时候就有小于1/k的概率知道该用户的真实数据，从而保护了用户的隐私；

本发明的k匿名隐私保护方法可实现用户可以设定自己数据的保护程度，极大地满足了用户的个性化需求，并且能很好地达到隐私保护的目的，实现了用户的隐私自治。

附图说明

图1为本发明一种实施例公开的满足用户个性化需求的k匿名隐私保护方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种满足用户个性化需求的k匿名隐私保护方法，包括：用户自定义的k值储存于数据表的一个列属性中；将数据表通过分解得到匿名要求相同的元组等价类；每一个等价类采用聚类的方法根据k值进行属性泛化；等价类匿名完成后检测全局是否达到每个元组匿名要求，若远超过匿名要求的元组低于阈值，则算法结束；若远超过匿名要求的元组不低于阈值，则对远超过匿名要求的元组再通过其原始数据重新泛化，直到数据表中远超过匿名要求的元组达到阈值；如此便可在达到数据匿名的前提下实现元组的隐私自治。本发明的上述k匿名隐私保护方法，既可以通过数据匿名来保护用户的隐私数据，又可以实现用户对自身数据的隐私自治，同时可以减少用户数据的信息损失。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供一种满足用户个性化需求的k匿名隐私保护方法，包括：S0～S19，本发明的下述步骤S0～S19不限定其前后逻辑关系，对应步骤之间的前后逻辑可调换，如判断结果为“是”、“否”，“空”、“不空”，“存在”、“不存在”等；具体包括：

S0、用户自定义的k值储存于数据表的一个列属性中)

S2、集合S的元素依次放入队列Q；

S3、判断队列Q是否为空；

S4、若S3判断Q为空，则遍历所有元组，判断远超过匿名要求的元组是否低于阈值；

S5、若S4判断低于阈值，则算法结束；

S6、若S4判断高于阈值，则将所有远超过匿名要求的元组的原始数据重新泛化，即当作新表返回S1；

S7、若S3判断Q不为空，则令K等于队列Q的队头元素；

S8、将匿名要求等于K的元组划分为一个元组集合S’；

S9、将S’中元组划分初始等价类，等价类中各个元组在准标识符上相等；

S10、判断是否存在元组个数小于K的等价类；

S11、若S10判断为是，随机选择一个元组个数小于K的等价类R；

S12、计算R与其他所有等价类的距离；

S13、找到距R关系最近的等价类R’；

S14、将R和R’并为一类，根据每个准标识符属性泛化树分别进行泛化，返回S10；

S15、若S10判断为否，元组集合S’泛化结束；

S16、将队列Q的队头元素弹出队列；

S17、判断K是否等于Q的队列头元素；

S18、若S17判断为是，返回S17判断；

S19、若S17判断为否，返回S3判断。

本发明的优点为：

本发明的k匿名隐私保护方法从准标识符属性入手，让用户自定义其数据的隐私保护程度，根据用户自定义的数值将其转化为匿名要求k值，即在匿名结束后最少有(k-1)个用户与该用户是准标识符属性相同的元组，使攻击者在获得数据表的时候就有小于1/k的概率知道该用户的真实数据，从而保护了用户的隐私；本发明的k匿名隐私保护方法可实现用户可以设定自己数据的保护程度，极大地满足了用户的个性化需求；其既可以通过数据匿名来保护用户的隐私数据，又可以实现用户对自身数据的隐私自治，同时可以减少用户数据的信息损失。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种满足用户个性化需求的k匿名隐私保护方法，其特征在于，包括：

用户自定义的k值储存于数据表的一个列属性中；

将数据表通过分解得到匿名要求相同的元组等价类；

每一个等价类采用聚类的方法根据k值进行属性泛化；

2.如权利要求1所述的k匿名隐私保护方法，其特征在于，所述将数据表通过分解得到匿名要求相同的元组等价类；包括：

S2、集合S的元素依次放入队列Q；

S3、判断队列Q是否为空；

S4、若S3判断Q不为空，则令K等于队列Q的队头元素；

S5、将匿名要求等于K的元组划分为一个元组集合S’；

3.如权利要求2所述的k匿名隐私保护方法，其特征在于，所述每一个等价类采用聚类的方法根据k值进行属性泛化；包括：

S7、判断是否存在元组个数小于K的等价类；

S8、若S7判断为是，随机选择一个元组个数小于K的等价类R；

S9、计算R与其他所有等价类的距离；

S10、找到距R关系最近的等价类R’；

S12、若S7判断为否，元组集合S’泛化结束；

S13、将队列Q的队头元素弹出队列；

S14、判断K是否等于Q的队列头元素；

S15、若S14判断为是，返回S14判断；

S16、若S14判断为否，返回S3判断。

4.如权利要求3所述的k匿名隐私保护方法，其特征在于，所述等价类匿名完成后检测全局是否达到每个元组匿名要求，若远超过匿名要求的元组低于阈值，则算法结束；包括：

S18、若S17判断低于阈值，则算法结束；