CN110807208A - 一种满足用户个性化需求的k匿名隐私保护方法 - Google Patents

一种满足用户个性化需求的k匿名隐私保护方法 Download PDF

Info

Publication number
CN110807208A
CN110807208A CN201911054965.8A CN201911054965A CN110807208A CN 110807208 A CN110807208 A CN 110807208A CN 201911054965 A CN201911054965 A CN 201911054965A CN 110807208 A CN110807208 A CN 110807208A
Authority
CN
China
Prior art keywords
tuple
anonymity
tuples
requirement
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911054965.8A
Other languages
English (en)
Other versions
CN110807208B (zh
Inventor
何泾沙
杜晋晖
朱娜斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911054965.8A priority Critical patent/CN110807208B/zh
Publication of CN110807208A publication Critical patent/CN110807208A/zh
Application granted granted Critical
Publication of CN110807208B publication Critical patent/CN110807208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种满足用户个性化需求的k匿名隐私保护方法,包括:用户自定义的k值储存于数据表的一个列属性中;将数据表通过分解得到匿名要求相同的元组等价类;每一个等价类采用聚类的方法根据k值进行属性泛化;等价类匿名完成后检测全局是否达到每个元组匿名要求,若远超过匿名要求的元组低于阈值,则算法结束;若远超过匿名要求的元组不低于阈值,则对远超过匿名要求的元组再通过其原始数据重新泛化,直到数据表中远超过匿名要求的元组达到阈值。本发明的k匿名隐私保护方法可实现用户可以设定自己数据的保护程度,极大地满足了用户的个性化需求,并且能很好地达到隐私保护的目的,实现了用户的隐私自治。

Description

一种满足用户个性化需求的k匿名隐私保护方法
技术领域
本发明涉及隐私保护技术领域,具体涉及一种满足用户个性化需求的k匿名隐私保护方法。
背景技术
随着Internet技术、大容量存储技术的迅猛发展以及数据共享范围的逐步扩大,个人的数据在种类和数量上都呈“爆炸式”增长。Kevin Kelly在Ceibs Business Review中提出,这个世界上增长最快的不是物质,而是信息,它比我们所有的生物产能,人类的生产力都要快。人类每秒钟创造的数据量只可以用16乘以276次方来描述,增长速度已经远远地超过了光速。现代人越来越注重个人数据的隐私性保护,大多数人都不愿意主动发布自身数据,这些与个体相关的数据被称为微数据,例如人口普查数据、个人消费数据、医疗数据等,人们认为这是属于自己的隐私数据,但值得深思的是,怎么样把采集数据的模式从由某一个机构来掌控,变成个人之间的相互观察。个性化与透明度程度可以说是正相关的,如果个人完全把信息隐藏起来,不对别人发布任何数据,那么别人也无法针对个人提供个性化的分析结果。
而基于信息共享、科学研究等方面的需要,个人在未来可以有偿将收集到的数据进行发布。由于发布的数据会涉及到很多个人隐私,如果直接将原始数据进行多方发布,会造成大量的个人敏感信息的泄露。所以,为了保证个人敏感信息的安全,要在发布数据的同时进行隐私保护。因而如何在发布个人数据的同时保证个人的隐私信息不被泄露,已经成为众多学者关注的问题,由此数据发布中的隐私保护技术应运而生。
目前,关于数据发布中的隐私保护研究主要着力在数据匿名上,而k匿名隐私保护技术是匿名隐私保护技术中一个研究重点,由于能够从技术的角度解决隐私泄露问题,使得数据提供者相信自己的隐私信息能被保护,从而大大的促进了信息化时代的资源共享和信息交流。之后,k匿名的研究趋近于个性化k匿名研究,采用对敏感属性进行泛化技术或者降低敏感属性出现频率到α以下的方法,实现面向敏感值的个性化匿名,提高了信息发布与共享中的数据的质量,增加了数据的可用性;但,当前的数据匿名算法均是在用户的敏感属性上进行研究,并未改变用户的准标识符属性;从而在数据发布过程中未注重用户在准标识符上的隐私自治,不能满足用户个性化需求。
发明内容
针对上述问题中存在的不足之处,本发明提供一种满足用户个性化需求的k匿名隐私保护方法。
本发明公开了一种满足用户个性化需求的k匿名隐私保护方法,包括:
用户自定义的k值储存于数据表的一个列属性中;
将数据表通过分解得到匿名要求相同的元组等价类;
每一个等价类采用聚类的方法根据k值进行属性泛化;
等价类匿名完成后检测全局是否达到每个元组匿名要求,若远超过匿名要求的元组低于阈值,则算法结束。
作为本发明的进一步改进,所述将数据表通过分解得到匿名要求相同的元组等价类;包括:
S1、将数据表T中n个元组的匿名要求按照从小到大排列,记为集合S={k1,…,kn};
S2、集合S的元素依次放入队列Q;
S3、判断队列Q是否为空;
S4、若S3判断Q不为空,则令K等于队列Q的队头元素;
S5、将匿名要求等于K的元组划分为一个元组集合S’;
S6、将S’中元组划分初始等价类,等价类中各个元组在准标识符上相等。
作为本发明的进一步改进,所述每一个等价类采用聚类的方法根据k值进行属性泛化;包括:
S7、判断是否存在元组个数小于K的等价类;
S8、若S7判断为是,随机选择一个元组个数小于K的等价类R;
S9、计算R与其他所有等价类的距离;
S10、找到距R关系最近的等价类R’;
S11、将R和R’并为一类,根据每个准标识符属性泛化树分别进行泛化,返回S7;
S12、若S7判断为否,元组集合S’泛化结束;
S13、将队列Q的队头元素弹出队列;
S14、判断K是否等于Q的队列头元素;
S15、若S14判断为是,返回S14判断;
S16、若S14判断为否,返回S3判断。
作为本发明的进一步改进,所述等价类匿名完成后检测全局是否达到每个元组匿名要求,若远超过匿名要求的元组低于阈值,则算法结束;包括:
S17、若S3判断Q为空,则遍历所有元组,判断远超过匿名要求的元组是否低于阈值;
S18、若S17判断低于阈值,则算法结束;
S19、若S17判断高于阈值,则将所有远超过匿名要求的元组的原始数据重新泛化,即当作新表返回S1。
与现有技术相比,本发明的有益效果为:
本发明的k匿名隐私保护方法从准标识符属性入手,让用户自定义其数据的隐私保护程度,根据用户自定义的数值将其转化为匿名要求k值,即在匿名结束后最少有(k-1)个用户与该用户是准标识符属性相同的元组,使攻击者在获得数据表的时候就有小于1/k的概率知道该用户的真实数据,从而保护了用户的隐私;
本发明的k匿名隐私保护方法可实现用户可以设定自己数据的保护程度,极大地满足了用户的个性化需求,并且能很好地达到隐私保护的目的,实现了用户的隐私自治。
附图说明
图1为本发明一种实施例公开的满足用户个性化需求的k匿名隐私保护方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种满足用户个性化需求的k匿名隐私保护方法,包括:用户自定义的k值储存于数据表的一个列属性中;将数据表通过分解得到匿名要求相同的元组等价类;每一个等价类采用聚类的方法根据k值进行属性泛化;等价类匿名完成后检测全局是否达到每个元组匿名要求,若远超过匿名要求的元组低于阈值,则算法结束;若远超过匿名要求的元组不低于阈值,则对远超过匿名要求的元组再通过其原始数据重新泛化,直到数据表中远超过匿名要求的元组达到阈值;如此便可在达到数据匿名的前提下实现元组的隐私自治。本发明的上述k匿名隐私保护方法,既可以通过数据匿名来保护用户的隐私数据,又可以实现用户对自身数据的隐私自治,同时可以减少用户数据的信息损失。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种满足用户个性化需求的k匿名隐私保护方法,包括:S0~S19,本发明的下述步骤S0~S19不限定其前后逻辑关系,对应步骤之间的前后逻辑可调换,如判断结果为“是”、“否”,“空”、“不空”,“存在”、“不存在”等;具体包括:
S0、用户自定义的k值储存于数据表的一个列属性中)
S1、将数据表T中n个元组的匿名要求按照从小到大排列,记为集合S={k1,…,kn};
S2、集合S的元素依次放入队列Q;
S3、判断队列Q是否为空;
S4、若S3判断Q为空,则遍历所有元组,判断远超过匿名要求的元组是否低于阈值;
S5、若S4判断低于阈值,则算法结束;
S6、若S4判断高于阈值,则将所有远超过匿名要求的元组的原始数据重新泛化,即当作新表返回S1;
S7、若S3判断Q不为空,则令K等于队列Q的队头元素;
S8、将匿名要求等于K的元组划分为一个元组集合S’;
S9、将S’中元组划分初始等价类,等价类中各个元组在准标识符上相等;
S10、判断是否存在元组个数小于K的等价类;
S11、若S10判断为是,随机选择一个元组个数小于K的等价类R;
S12、计算R与其他所有等价类的距离;
S13、找到距R关系最近的等价类R’;
S14、将R和R’并为一类,根据每个准标识符属性泛化树分别进行泛化,返回S10;
S15、若S10判断为否,元组集合S’泛化结束;
S16、将队列Q的队头元素弹出队列;
S17、判断K是否等于Q的队列头元素;
S18、若S17判断为是,返回S17判断;
S19、若S17判断为否,返回S3判断。
本发明的优点为:
本发明的k匿名隐私保护方法从准标识符属性入手,让用户自定义其数据的隐私保护程度,根据用户自定义的数值将其转化为匿名要求k值,即在匿名结束后最少有(k-1)个用户与该用户是准标识符属性相同的元组,使攻击者在获得数据表的时候就有小于1/k的概率知道该用户的真实数据,从而保护了用户的隐私;本发明的k匿名隐私保护方法可实现用户可以设定自己数据的保护程度,极大地满足了用户的个性化需求;其既可以通过数据匿名来保护用户的隐私数据,又可以实现用户对自身数据的隐私自治,同时可以减少用户数据的信息损失。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种满足用户个性化需求的k匿名隐私保护方法,其特征在于,包括:
用户自定义的k值储存于数据表的一个列属性中;
将数据表通过分解得到匿名要求相同的元组等价类;
每一个等价类采用聚类的方法根据k值进行属性泛化;
等价类匿名完成后检测全局是否达到每个元组匿名要求,若远超过匿名要求的元组低于阈值,则算法结束。
2.如权利要求1所述的k匿名隐私保护方法,其特征在于,所述将数据表通过分解得到匿名要求相同的元组等价类;包括:
S1、将数据表T中n个元组的匿名要求按照从小到大排列,记为集合S={k1,…,kn};
S2、集合S的元素依次放入队列Q;
S3、判断队列Q是否为空;
S4、若S3判断Q不为空,则令K等于队列Q的队头元素;
S5、将匿名要求等于K的元组划分为一个元组集合S’;
S6、将S’中元组划分初始等价类,等价类中各个元组在准标识符上相等。
3.如权利要求2所述的k匿名隐私保护方法,其特征在于,所述每一个等价类采用聚类的方法根据k值进行属性泛化;包括:
S7、判断是否存在元组个数小于K的等价类;
S8、若S7判断为是,随机选择一个元组个数小于K的等价类R;
S9、计算R与其他所有等价类的距离;
S10、找到距R关系最近的等价类R’;
S11、将R和R’并为一类,根据每个准标识符属性泛化树分别进行泛化,返回S7;
S12、若S7判断为否,元组集合S’泛化结束;
S13、将队列Q的队头元素弹出队列;
S14、判断K是否等于Q的队列头元素;
S15、若S14判断为是,返回S14判断;
S16、若S14判断为否,返回S3判断。
4.如权利要求3所述的k匿名隐私保护方法,其特征在于,所述等价类匿名完成后检测全局是否达到每个元组匿名要求,若远超过匿名要求的元组低于阈值,则算法结束;包括:
S17、若S3判断Q为空,则遍历所有元组,判断远超过匿名要求的元组是否低于阈值;
S18、若S17判断低于阈值,则算法结束;
S19、若S17判断高于阈值,则将所有远超过匿名要求的元组的原始数据重新泛化,即当作新表返回S1。
CN201911054965.8A 2019-10-31 2019-10-31 一种满足用户个性化需求的k匿名隐私保护方法 Active CN110807208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911054965.8A CN110807208B (zh) 2019-10-31 2019-10-31 一种满足用户个性化需求的k匿名隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911054965.8A CN110807208B (zh) 2019-10-31 2019-10-31 一种满足用户个性化需求的k匿名隐私保护方法

Publications (2)

Publication Number Publication Date
CN110807208A true CN110807208A (zh) 2020-02-18
CN110807208B CN110807208B (zh) 2022-02-18

Family

ID=69489920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911054965.8A Active CN110807208B (zh) 2019-10-31 2019-10-31 一种满足用户个性化需求的k匿名隐私保护方法

Country Status (1)

Country Link
CN (1) CN110807208B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632612A (zh) * 2020-12-28 2021-04-09 南京邮电大学 一种医疗数据发布匿名化方法
CN113051619A (zh) * 2021-04-30 2021-06-29 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法
CN113127699A (zh) * 2021-04-28 2021-07-16 三峡大学 一种个性化度匿名的社交网络隐私保护方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012159982A (ja) * 2011-01-31 2012-08-23 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN104317904A (zh) * 2014-10-24 2015-01-28 南京信息工程大学 一种带权重社会网络的泛化方法
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
CN105792130A (zh) * 2016-03-03 2016-07-20 南京邮电大学 一种面向海量同等请求的k-匿名位置隐私保护方法
CN106021541A (zh) * 2016-05-26 2016-10-12 徐州医科大学 区分准标识符属性的二次k-匿名隐私保护算法
CN107145796A (zh) * 2017-04-24 2017-09-08 公安海警学院 一种不确定环境下轨迹数据k‑匿名隐私保护方法
CN107688752A (zh) * 2017-08-21 2018-02-13 哈尔滨工程大学 一种面向多视图聚类挖掘的个性化隐私保护方法
CN109670342A (zh) * 2018-12-30 2019-04-23 北京工业大学 信息泄露风险度量的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012159982A (ja) * 2011-01-31 2012-08-23 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN104317904A (zh) * 2014-10-24 2015-01-28 南京信息工程大学 一种带权重社会网络的泛化方法
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
CN105792130A (zh) * 2016-03-03 2016-07-20 南京邮电大学 一种面向海量同等请求的k-匿名位置隐私保护方法
CN106021541A (zh) * 2016-05-26 2016-10-12 徐州医科大学 区分准标识符属性的二次k-匿名隐私保护算法
CN107145796A (zh) * 2017-04-24 2017-09-08 公安海警学院 一种不确定环境下轨迹数据k‑匿名隐私保护方法
CN107688752A (zh) * 2017-08-21 2018-02-13 哈尔滨工程大学 一种面向多视图聚类挖掘的个性化隐私保护方法
CN109670342A (zh) * 2018-12-30 2019-04-23 北京工业大学 信息泄露风险度量的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
P SURESH等: "Bio-Metric Credential System: Multimodal Cancelable Anonymous Identity Management", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=7154729》 *
王思雨等: "支持信息量化与保护的访问控制系统", 《计算机工程与应用》 *
秦晓薇等: "基于K-匿名的隐私保护算法研究", 《赤峰学院学报(自然科学版)》 *
胡德敏等: "基于连续查询的用户轨迹k-匿名隐私保护算法", 《信息安全技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632612A (zh) * 2020-12-28 2021-04-09 南京邮电大学 一种医疗数据发布匿名化方法
CN113127699A (zh) * 2021-04-28 2021-07-16 三峡大学 一种个性化度匿名的社交网络隐私保护方法
CN113051619A (zh) * 2021-04-30 2021-06-29 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法

Also Published As

Publication number Publication date
CN110807208B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN110807208B (zh) 一种满足用户个性化需求的k匿名隐私保护方法
Victor et al. Privacy models for big data: a survey
Singh et al. Fuzzy-folded bloom filter-as-a-service for big data storage in the cloud
CN106021541A (zh) 区分准标识符属性的二次k-匿名隐私保护算法
Yin et al. An improved anonymity model for big data security based on clustering algorithm
Basso et al. Challenges on anonymity, privacy, and big data
Last et al. Improving accuracy of classification models induced from anonymized datasets
Sharma et al. A review study on the privacy preserving data mining techniques and approaches
CN106650487A (zh) 基于多维敏感数据发布的多部图隐私保护方法
Abbasi et al. A clustering‐based anonymization approach for privacy‐preserving in the healthcare cloud
Khan et al. Clustering based privacy preserving of big data using fuzzification and anonymization operation
Jayapradha et al. f-Slip: an efficient privacy-preserving data publishing framework for 1: M microdata with multiple sensitive attributes
CN113743496A (zh) 一种基于聚类映射的k-匿名数据处理方法及系统
Zainab et al. Sensitive and private data analysis: A systematic review
Shastri et al. Remodeling: improved privacy preserving data mining (PPDM)
Prasanthi et al. A comprehensive assessment of privacy preserving data mining techniques
Jiang et al. Classification of medical sensitive data based on text classification
Kumar et al. A comparative review of privacy preservation techniques in data publishing
Pingshui Personalized anonymity algorithm using clustering techniques
Deshpande et al. The Mask of ZoRRo: preventing information leakage from documents
Kumar et al. Privacy-preservation of vertically partitioned electronic health record using perturbation methods
Narula et al. Privacy preservation using various anonymity models
Ba et al. Protecting data privacy from being inferred from high dimensional correlated data
Kenekar et al. Privacy preserving data mining on unstructured data
Arava et al. Fine-grained k-anonymity for privacy preserving in cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant