CN109815740A - 一种基于准标识属性泛化层高度的k-匿名隐私保护方法 - Google Patents

一种基于准标识属性泛化层高度的k-匿名隐私保护方法 Download PDF

Info

Publication number
CN109815740A
CN109815740A CN201910122929.4A CN201910122929A CN109815740A CN 109815740 A CN109815740 A CN 109815740A CN 201910122929 A CN201910122929 A CN 201910122929A CN 109815740 A CN109815740 A CN 109815740A
Authority
CN
China
Prior art keywords
quasi
extensive
identity property
data
tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910122929.4A
Other languages
English (en)
Inventor
肖跃雷
朱志祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Aite Informatization Engineering Consultation Co Ltd
Original Assignee
Shaanxi Aite Informatization Engineering Consultation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Aite Informatization Engineering Consultation Co Ltd filed Critical Shaanxi Aite Informatization Engineering Consultation Co Ltd
Priority to CN201910122929.4A priority Critical patent/CN109815740A/zh
Publication of CN109815740A publication Critical patent/CN109815740A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种既有利于数据分析又减少信息损失的基于准标识属性泛化层高度的k‑匿名隐私保护方法,其特殊之处在于:该方法包括:1)对于待发布数据表中的各个准标识属性,根据数据分布情况和业务情况建立各个准标识属性的泛化层次树;2)计算各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值;3)按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序,选择一个准标识属性进行一个层次的全域泛化;4)对步骤3)中全域泛化后的待发布数据表进行k‑匿名模型检验;若符合k‑匿名模型,则以步骤3)中全域泛化后的待发布数据表为最终发布数据表;否则,重复进行步骤2)、步骤3)和步骤4)。

Description

一种基于准标识属性泛化层高度的k-匿名隐私保护方法
技术领域
本发明涉及数据隐私保护领域,更具体地,涉及一种基于准标识属性泛化层高度的k-匿名隐私保护方法。
背景技术
随着社会信息化和网络化的发展,数据呈现爆炸式增长,大数据时代已经到来;目前,大数据已成为学术界和产业界的研究热点,正影响着人们日常生活、工作习惯及思维方式;在数据发布应用中,如何保护数据的用户隐私已成为当前面临的重大挑战;最简单的保护用户隐私的方法就是在发布原始数据时直接通过删除姓名、身份证号码等标识属性来达到防范用户隐私泄露;但是由于以这种方式发布的数据集中的某些属性值集合能够联合该数据集外的相关信息精确或较精确地重新标识某个体,称之为链接攻击。
为了解决这种链接攻击,研究者们提出了k-匿名模型,它要求所发布的数据表中的每一条记录不能区分于其他k-1条记录,即在满足k-匿名模型的数据表中,任意一条记录被重新标识出的风险都不会超过1/k;k-匿名模型通常将数据表的属性划分以下为四类:(1)标识属性:这类属性能够唯一标识个体身份的属性,如用户身份证号码、姓名等;(2)准标识属性:这类属性虽然不像标识属性一样能够直接标识个体身份,但是通过属性的链接可以标记出个体身份的一组属性,如准标识属性组{年龄,工作类型,肤色,性别};(3)敏感属性:这类属性涉及个体隐私信息,如薪水、健康状况等;(4)其它属性:指除标识属性、准标识属性和敏感属性外的属性。
一般遵循k-匿名模型的数据发布大多采用泛化和抑制技术,这在很大程度上造成了原始数据的信息损失;泛化是对数据进行更概括、更抽象的描述。抑制就是删除某一些数据项使其不发布或是用一种特殊的符号来代替某一数据项;例如,性别属性的泛化层次树,参见图1。
在图1中,性别属性的泛化层次为2(从底向上分别为0,1),而性别属性的泛化层次高度为1,性别属性的属性取值为“男”、“女”和“性别”;泛化方法可以分为全域泛化和局部泛化两种;全域泛化是对一个属性上的所有属性取值同时进行泛化,如图1中“男”和“女”同时泛化为“性别”;局部泛化是对一个属性上的部分属性取值进行泛化,如图1中“男”泛化为“性别”,而“女”不进行泛化;全域泛化的优点是每次属性泛化完成后,该属性上的所有属性取值都保持在同一个泛化层次,有利于数据分析,而局部泛化不能保障这一点;但是,全域泛化一般比局部泛化的信息损失要大;因此,如何使得发布的数据表在满足k-匿名模型的同时,既有利于数据分析又减少信息损失,这已成为隐私保护研究的重点。
发明内容
为了解决背景技术中存在的上述技术问题,本发明提供了一种既有利于数据分析又减少信息损失的基于准标识属性泛化层高度的k-匿名隐私保护方法。
本发明的技术解决方案是:本发明提供了一种基于准标识属性泛化层高度的k-匿名隐私保护方法,其特殊之处在于:该方法包括。
1)对于待发布数据表中的各个准标识属性,根据数据分布情况和业务情况建立各个准标识属性的泛化层次树。
2)对于待发布数据表中的各个准标识属性,计算各个准标识属性的泛化层次高度,以及属性取值个数和属性取值熵值。
3)对于待发布数据表中的各个准标识属性,按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序,选择一个准标识属性进行一个层次的全域泛化。
4)对步骤3)中全域泛化后的待发布数据表进行k-匿名模型检验;若符合k-匿名模型,则以步骤3)中全域泛化后的待发布数据表为最终发布数据表;否则,重复进行步骤2)、步骤3)和步骤4)。
上述步骤1)的具体过程如下。
步骤11)选取待发布数据表中的一个准标识属性,计算该准标识属性各个属性取值的频次。
步骤12)根据该准标识属性各个属性取值的频次分布,以及该准标识属性的业务层次建立该准标识属性的泛化层次树,使得:该准标识属性在全域泛化下,该准标识属性泛化层次树中每个层次的属性取值频次分布比较均匀。
步骤13)重复进行步骤11)和步骤12),直至待发布数据表中各个准标识属性的泛化层次树都已建立完成。
上述步骤2)的具体过程如下。
步骤21)选取待发布数据表中的一个准标识属性,计算该准标识属性的泛化层次高度,以及各个属性取值的个数和熵值,即该准标识属性的泛化层次高度、属性取值个数和属性取值信息熵值,其中该准标识属性的属性取值信息熵值是对该准标识属性的各个属性取值进行信息熵计算得到的。
步骤22)重复进行步骤21),直至待发布数据表中各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值都已计算完成。
上述步骤3)的具体过程如下。
步骤31)若泛化层次高度最大的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤32)。
步骤32)针于泛化层次高度最大的这些准标识属性,若属性取值个数最多的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤33)。
步骤33)针对泛化层次高度最大和属性取值个数最多的这些准标识属性,选择属性取值熵值最小的准标识属性进行一个层次的全域泛化。
本发明的优点是。
1. 对于待发布数据表中的各个准标识属性,根据数据分布情况和业务情况建立各个准标识属性的泛化层次树,有效减少了全域泛化过程中的信息损失。
2.对于待发布数据表中的各个准标识属性,每次都是按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序,选择一个准标识属性进行一个层次的全域泛化,既有利于数据分析又减少了信息损失。
附图说明
图1为性别属性的泛化层次树示意图。
图2为本发明所提供的k-匿名隐私保护方法示意图。
具体实施方式
参见图2,本发明提供了一种基于准标识属性泛化层高度的k-匿名隐私保护方法,该方法包括。
1)对于待发布数据表中的各个准标识属性,根据数据分布情况和业务情况建立各个准标识属性的泛化层次树。
上述步骤1)的具体过程如下。
步骤11)选取待发布数据表中的一个准标识属性,计算该准标识属性各个属性取值的频次。
步骤12)根据该准标识属性各个属性取值的频次分布,以及该准标识属性的业务层次建立该准标识属性的泛化层次树,使得:该准标识属性在全域泛化下,该准标识属性泛化层次树中每个层次的属性取值频次分布比较均匀。
步骤13)重复进行步骤11)和步骤12),直至待发布数据表中各个准标识属性的泛化层次树都已建立完成。
2)对于待发布数据表中的各个准标识属性,计算各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值。
上述步骤2)的具体过程如下。
步骤21)选取待发布数据表中的一个准标识属性,计算该准标识属性的泛化层次高度,以及各个属性取值的个数和熵值,即该准标识属性的泛化层次高度、属性取值个数和属性取值信息熵值,其中该准标识属性的属性取值信息熵值是对该准标识属性的各个属性取值进行信息熵计算得到的。
步骤22)重复进行步骤21),直至待发布数据表中各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值都已计算完成。
3)对于待发布数据表中的各个准标识属性,按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序,选择一个准标识属性进行一个层次的全域泛化。
上述步骤3)的具体过程如下。
步骤31)若泛化层次高度最大的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤32)。
步骤32)针于泛化层次高度最大的这些准标识属性,若属性取值个数最多的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤33)。
步骤33)针对泛化层次高度最大和属性取值个数最多的这些准标识属性,选择属性取值熵值最小的准标识属性进行一个层次的全域泛化。
4)对步骤3)中全域泛化后的待发布数据表进行k-匿名模型检验;若符合k-匿名模型,则以步骤3)中全域泛化后的待发布数据表为最终发布数据表;否则,重复进行步骤2)、步骤3)和步骤4)。

Claims (4)

1.一种基于准标识属性泛化层高度的k-匿名隐私保护方法,其特征在于:该方法包括:
1)对于待发布数据表中的各个准标识属性,根据数据分布情况和业务情况建立各个准标识属性的泛化层次树;
2)对于待发布数据表中的各个准标识属性,计算各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值;
3)对于待发布数据表中的各个准标识属性,按照泛化层次高度最大、属性取值个数最多和属性取值熵值最小的优先顺序,选择一个准标识属性进行一个层次的全域泛化;
4)对步骤3)中全域泛化后的待发布数据表进行k-匿名模型检验;若符合k-匿名模型,则以步骤3)中全域泛化后的待发布数据表为最终发布数据表;否则,重复进行步骤2)、步骤3)和步骤4)。
2.根据权利要求1所述的基于准标识属性泛化层高度的k-匿名隐私保护方法,其特征在于:所述步骤1)的具体过程如下:
步骤11)选取待发布数据表中的一个准标识属性,计算该准标识属性各个属性取值的频次;
步骤12)根据该准标识属性各个属性取值的频次分布,以及该准标识属性的业务层次建立该准标识属性的泛化层次树,使得:该准标识属性在全域泛化下,该准标识属性泛化层次树中每个层次的属性取值频次分布比较均匀;
步骤13)重复进行步骤11)和步骤12),直至待发布数据表中各个准标识属性的泛化层次树都已建立完成。
3.根据权利要求1所述的基于准标识属性泛化层高度的k-匿名隐私保护方法,其特征在于:所述步骤2)的具体过程如下:
步骤21)选取待发布数据表中的一个准标识属性,计算该准标识属性的泛化层次高度,以及各个属性取值的个数和熵值,即该准标识属性的泛化层次高度、属性取值个数和属性取值信息熵值,其中该准标识属性的属性取值信息熵值是对该准标识属性的各个属性取值进行信息熵计算得到的;
步骤22)重复进行步骤21),直至待发布数据表中各个准标识属性的泛化层次高度、属性取值个数和属性取值熵值都已计算完成。
4.根据权利要求1所述的基于准标识属性泛化层高度的k-匿名隐私保护方法,其特征在于:所述步骤3)的具体过程如下:
步骤31)若泛化层次高度最大的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤32);
步骤32)针于泛化层次高度最大的这些准标识属性,若属性取值个数最多的准标识属性只有一个时,则对该准标识属性进行一个层次的全域泛化;否则,执行步骤33);
步骤33)针对泛化层次高度最大和属性取值个数最多的这些准标识属性,选择属性取值熵值最小的准标识属性进行一个层次的全域泛化。
CN201910122929.4A 2019-02-19 2019-02-19 一种基于准标识属性泛化层高度的k-匿名隐私保护方法 Pending CN109815740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910122929.4A CN109815740A (zh) 2019-02-19 2019-02-19 一种基于准标识属性泛化层高度的k-匿名隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910122929.4A CN109815740A (zh) 2019-02-19 2019-02-19 一种基于准标识属性泛化层高度的k-匿名隐私保护方法

Publications (1)

Publication Number Publication Date
CN109815740A true CN109815740A (zh) 2019-05-28

Family

ID=66606883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910122929.4A Pending CN109815740A (zh) 2019-02-19 2019-02-19 一种基于准标识属性泛化层高度的k-匿名隐私保护方法

Country Status (1)

Country Link
CN (1) CN109815740A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079179A (zh) * 2019-12-16 2020-04-28 北京天融信网络安全技术有限公司 数据处理方法、装置、电子设备及可读存储介质
CN113378223A (zh) * 2021-06-16 2021-09-10 北京工业大学 基于双重编码和聚类映射的k-匿名数据处理方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079179A (zh) * 2019-12-16 2020-04-28 北京天融信网络安全技术有限公司 数据处理方法、装置、电子设备及可读存储介质
CN113378223A (zh) * 2021-06-16 2021-09-10 北京工业大学 基于双重编码和聚类映射的k-匿名数据处理方法及系统
CN113378223B (zh) * 2021-06-16 2023-12-26 北京工业大学 基于双重编码和聚类映射的k-匿名数据处理方法及系统

Similar Documents

Publication Publication Date Title
Yartseva et al. On the performance of percolation graph matching
CN106021541B (zh) 区分准标识符属性的二次k‑匿名隐私保护算法
CN107196974B (zh) 一种基于差分隐私的空间众包工作者位置隐私保护方法
CN101964034B (zh) 一种模式信息损失最小化的序列类数据隐私保护方法
Gong et al. Anonymizing 1: M microdata with high utility
CN104732154A (zh) 将数据匿名化的方法和系统
CN106650487B (zh) 基于多维敏感数据发布的多部图隐私保护方法
CN106959955A (zh) 一种数据库的数据处理方法及装置
CN109815740A (zh) 一种基于准标识属性泛化层高度的k-匿名隐私保护方法
CN103150515A (zh) 一种分布式环境下隐私保护的关联规则挖掘方法
CN106897285B (zh) 数据要素抽取分析系统及数据要素抽取分析方法
Li et al. Anonymizing graphs against weight-based attacks
CN102915423B (zh) 一种基于粗糙集和基因表达式的电力业务数据过滤系统及方法
CN111353173B (zh) 一种使用图差分隐私模型的敏感标签轨迹数据发布方法
CN104156668A (zh) 一种多敏感属性数据的隐私保护重发布方法
Liu et al. Partial k-anonymity for privacy-preserving social network data publishing
Schrittwieser et al. An algorithm for k-anonymity-based fingerprinting
CN107070932B (zh) 社会网络动态发布中防止标签邻居攻击的匿名方法
CN103929499B (zh) 一种物联网异构标识识别方法和系统
CN109918941A (zh) 一种基于准标识属性泛化的k-匿名隐私保护方法
CN109918940A (zh) 一种基于准标识属性取值频次的k-匿名隐私保护方法
CN107861965A (zh) 数据智能识别方法及系统
CN115203263A (zh) 数据元件获取方法、系统、设备及计算机可读存储介质
Tai et al. Structural diversity for resisting community identification in published social networks
CN114240344A (zh) 企业人员数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190528

WD01 Invention patent application deemed withdrawn after publication