CN110543782B - 一种基于k-匿名算法实现数据集脱敏的方法以及系统 - Google Patents

一种基于k-匿名算法实现数据集脱敏的方法以及系统 Download PDF

Info

Publication number
CN110543782B
CN110543782B CN201910621268.XA CN201910621268A CN110543782B CN 110543782 B CN110543782 B CN 110543782B CN 201910621268 A CN201910621268 A CN 201910621268A CN 110543782 B CN110543782 B CN 110543782B
Authority
CN
China
Prior art keywords
data set
division
point
data
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910621268.XA
Other languages
English (en)
Other versions
CN110543782A (zh
Inventor
陈成
赖兆荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910621268.XA priority Critical patent/CN110543782B/zh
Publication of CN110543782A publication Critical patent/CN110543782A/zh
Application granted granted Critical
Publication of CN110543782B publication Critical patent/CN110543782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于k‑匿名算法实现数据集脱敏的方法以及系统,包括以下步骤:获取未经脱敏处理的数据集;将数据集显示标识符删除,定义准标志符中的每个属性取值域上的顺序,使之成为有序域;将有序域一一映射到实数域中;对于空间各数据点的距离的定义并计算相对距离,根据相对距离结合投影区域密度划分算法确定数据集的划分点,递推求出各级分割点,最终建立超球体群;对超球体群中的每个超球体中所含的点信息进行概化处理,使得所有的记录的准标志符取值相同,完成脱敏处理。本发明能够改善矩形存在的区域角问题,并且能够考虑到临时匿名组中相邻点之间的距离问题,使得在保证隐私保护的前提下,得到更多的匿名组,使数据的概化程度越低,增大了数据的可用性。

Description

一种基于k-匿名算法实现数据集脱敏的方法以及系统
技术领域
本发明涉及数据脱敏技术领域,更具体的,涉及一种基于k-匿名算法实现数据集脱敏的方法以及系统。
背景技术
隐私数据匿名化的常用处理手段源于统计数据库中的数据处理方法,主要是通过以发布数据中的属性值的信息损失为代价,换取通过这些属性值再标识某些个体的准确性,同时尽可能保证发布数据的可用性,在发布数据的准确性和隐私保护之间达到一种平衡。
就现在的技术,文献【1】中公开了对匿名组的划分策略为“基于取整划分的匿名算法”(RPF)和文献【2】中公开了“基于顶点和边缘修改的k-匿名算法”(VEM)。
其中:文献【2】公开的VEM采用找到每个顶点的最佳目标度,再决定候选者增加顶点度数并在顶点之间添加边缘以满足要求的方法进行划分。
Figure BDA0002125600970000011
Figure BDA0002125600970000012
当度数序列中剩余少于k个顶点时,它不足以形成一个组,其需要至少具有k个元素以保证k-匿名性,因此顶点将被分散到它们最近的组中。最终通过添加边和顶点修改图形来对图形进行匿名化。在向图形添加边缘时,在图形中的社区结构的帮助下,可以很好地保留已发布图形的效用。
而文献【1】公开的RPF中采用的划分原则为:
Figure BDA0002125600970000013
其中|X|=αk+β,β<k。从而使得X被划分为两部分。最终使得当数据集的大小超过2k2的时候,算法所产生的匿名化数据的匿名规模不会超过k+1。
但是,上述现有技术在应用过程中存在着以下几个缺点:
1.没有考虑到临时匿名组中相邻数据的距离,在生成数据集时容易产生不必要的数据信息的损失。
2.对于分割是形成的矩形,存在区域角的问题,这会降低所得数据的可用性。
基于以上两点,现有技术所得到的数据的可用性仍然不够理想。
【1】吴英杰,唐庆明,倪巍伟等.基于取整划分函数的k匿名算法[J].软件学报,2012,23(08):2138-2148.
【2】Ma,T.,Zhang,Y.,Cao,J.et al.a k-degree anonymity with vertex andedge modification algorithm.Computing(2015)97:1165.
发明内容
本发明为了解决现有技术没有考虑到临时匿名组中相邻数据的距离,造成生成数据集时容易产生数据信息损失,和现有分割是形成的矩形,存在区域角,从而降低所得数据的可用性的问题,提供了一种基于k-匿名算法实现数据集脱敏的方法以及系统,其能解决区域角的问题,在保护隐私的前提下,使得数据的匿名组数越多,数据的概化率越低,从而增大了数据的可用性。
为实现上述本发明目的,采用的技术方案如下:一种基于k-匿名算法实现数据集脱敏的方法,所述该方法包括以下步骤:
S1:输入原始数据集T、并设置参数τ,P,k;其中,P表示数据表中的记录集,τ表示记录集所占的超球体区域;k表示算法的参数,表示至少有k个记录与其他记录的准标记符相同,从而使得每个记录被确认的概率为1/k;
S2:将原始数据集中每个记录显示标识符删除,定义准标志符中的每个属性取值域上的顺序,使之成为有序域;然后将有序域一一映射到实数域中;
S3:令range=τ,TMP=P,通过|P|=αk+β将其表示为k的线性函数,其中β是比k小的非负数,α表示匿名组中的记录数与k值的商,β为余数;
S4:如果超球体区域内range为空,则返回空的球树;
S5:根据投影区域密度划分算法进行确定划分依据;
S6:利用已知的最小范围超球体,得出距离球心最远的点A,再求出距离A点最远的点B,再计算其他点i相对距离,对所有点求出q(i)值;
S7:将所有的q(i)值按大小排序;结合划分依据确定数据集的划分点,所述划分点将range划分为两个超球体;
S8:设划分后的两个超球体分别为左超球体ballleft、右超球体ballright,更新各数据集,使得range_left=ballleft为所构成的最小超球体的区域;range_right=ballright为所构成的最小超球体的区域;
S9:如果|ballleft|≥Yk,则返回步骤S6继续递归,输入的参数为(range_left,ballleft);其中,Y≥1,且为整数;
S10:如果|ballright|≥Lk,则返回步骤S6继续递归,输入的参数为(range_right,ballright);其中,L≥1,且为整数;
S11:最后得到超球体群,对其中每一个超球体的所含的点信息进行概化处理,使得所有的记录的准标志符取值相同,从而得到输出匿名数据集T。
优选地,步骤S5,所述投影区域密度划分算法,具体如下:
设X为一临时匿名组,并且|X|=αk+β,将其分成两个子匿名组,根据如下原则:
Figure BDA0002125600970000031
其中,
Figure BDA0002125600970000036
表示向下取整,
Figure BDA0002125600970000037
表示向上取整;
划分后得到的匿名组的规模为:
x1=α1k+β1
x2=α2k+β2
其中,显然α12≤α,且
Figure BDA0002125600970000032
β1≥0,β2≥0,β12=β。
本发明采用投影区域密度划分算法可以根据调节β1,β2的值来调整划分的结果,并且调整的效果会随着k的增大而越来越好。在保证匿名数据集中匿名组数量不减少的同时,减少划分过程中不必要的信息损失,进一步提高发布数据集的可用性。
本发明所述建树划分依据模块采用投影区域密度划分具有高的可行性。具体如下:
对于给定的关系表P以及参数k,对于任意的第m层的匿名组X的k系数αm满足:
2x-m≤2x-m+1
先当m=0时,有2x-m=2x=2[bα]≤2=α=αm<2x-m+1
那么当第m+1层的匿名组时,设其k的系数为αm+1,那么根据投影区域密度划分算法就有
Figure BDA0002125600970000041
由于:
2x-m≤αm<2x-m+1
则:
Figure BDA0002125600970000042
所以得:
2x-(m+1)≤αm+1<2x-(m+1)+1
其中,αm表示匿名组划分到第m层时的k系数,α为匿名组记录数与k值的商,b为商α的系数,且x=[bα],上述即利用数学归纳法对每一层进行归纳,证明每一次分组之后的系数都存在于2x-(m+1)与2x-(m+1)+1之间,进而说明了本发明所述的投影区域密度划分具有有限性以及可行性。
进一步地,步骤S6,所述q(i)的计算公式如下:
Figure BDA0002125600970000043
其中,disAi表示A点与i点之间的距离,disAB表示A点与B点之间的距离;
将原始数据T取最大值与最小值的均值,将此点近似作为中心,然后利用曼哈顿距离进行计算所有的点到这个点的距离,距离最远的点为点A,与A最远的点为点B;
设点A为(a1,b1,c1,…,n1),点B为(a2,b2,c2,…,n2),其他点i(a3,b3,c3,…,n3),把这些点看作n维空间中的点集,并且定义各点间的距离为:
disAi=|a1-a3|+|b1-b3|+…|n1-n3|
disAB=|a1-a2|+|b1-b2|+…|n1-n2|
其中,a1,b1,c1,n1均表示点A在各维度上的值;a2,b2,c2,n2均表示点B在各维度上的值;a3,b3,c3,n3均表示点i在各维度上的值,当数据的每个维度上的距离越大时,两个数据点的距离就越大。
再进一步地,步骤S7,所述结合划分依据确定数据集的划分点,具体的,将所有的q(i)值按大小排序后,取得一个整数j使得如下式子成立:
Figure BDA0002125600970000051
Figure BDA0002125600970000052
则从j点将range划分为两个超球体。
再进一步地,步骤S8,划分后的左超球体ballleft,满足:
Figure BDA0002125600970000053
Figure BDA0002125600970000054
同理,划分后的右超球体ballright,满足:
Figure BDA0002125600970000055
Figure BDA0002125600970000056
再进一步地,所述步骤S9中Y取值为2;所述步骤S10中L取值为2。
基于以上所述的k-匿名数据集脱敏的方法,本发明还提供一种实现k-匿名数据集脱敏的系统,包括数据输入模块、数据处理模块、建树划分依据模块、概化信息与输出模块;
所述数据输入模块,用于将未经脱敏处理数据收集并传输到数据处理模块;
所述数据处理模块,用于将数据集中每个记录显示标识符删除,定义准标志符中的每个属性取值域上的顺序,使之成为有序域;然后再将有序域一一映射到实数域中,并将其传输到建树划分依据模块;
所述建树划分依据模块,用于对空间各数据点的距离的定义并计算两点的距离,并根据相对距离结合划分依据确定数据集的划分点,然后递推求出各级分割点,最终建立超球体群,并将其输出到概化信息与输出模块;
所述概化信息与输出模块,用于就得到超球体群,对其中每个超球体中所含的点信息进行概化处理,使得所有的记录的准标志符取值相同,并输出。
优选地,所述建树划分依据模块采用曼哈顿距离对不同点之间的距离进行定义。
进一步地,所述建树划分依据模块利用投影区域密度划分算法进行划分,从而确定划分依据。
再进一步地,所述建树划分依据模块对于投影区域密度划分|X|=αk+β,匿名化后的数据最多生成α个匿名组。
本发明的有益效果如下:
1.本发明所述的基于k-匿名算法实现数据集脱敏的方法,能够改善矩形存在的区域角问题,并且能够考虑到临时匿名组中相邻点之间的距离问题。
2.本发明所述基于k-匿名算法实现数据集脱敏的方法包括不具有区域角的球树,以及灵活的投影区域密度划分的策略,使得最终得到的结果在保证隐私保护的前提下,得到更多的匿名组,使数据的概化程度越低,从而增大了数据的可用性。
附图说明
图1是本实施例所述基于k-匿名算法实现数据集脱敏的系统的结构示意图。
图2是本实施例所述的方法与RPF在GOTRACK数据集、Adult数据集上实验结果数据概化率的比值。
图3是本实施例所述的方法与RPF在GOTRACK数据集上进行匿名处理得到的结果比较图。
图4是本实施例所述的方法与RPF在Adult数据集上进行匿名处理得到的结果比较图。
图5是本实施例所述的方法与VEM在Adult数据集上进行匿名处理得到的结果。
图6是本实施例所述的方法与VEM在Adult数据集上实验结果数据概化率的比值。
其中,图2中左子图表示本实施例所述的方法与RPE,在GOTRACK数据集上进行实验,实验结果概化率的比值;右子图表示本实施例所述的方法与RPE,在Adult数据集上进行实验,实验结果概化率的比值。
图3、图4、图5中纵轴number表示在不同的的参数值k,得到的不同的匿名组的个数;图中BP_k-anominous表示本实施例所述的方法的实验结果。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
一种基于k-匿名算法实现数据集脱敏的方法,所述该方法包括以下步骤:
S1:输入原始数据集T、并设置参数τ,P,k;其中,P表示数据表中的记录集,τ表示记录集所占的超球体区域;k表示算法的参数,表示至少有k个记录与其他记录的准标记符相同,从而使得每个记录被确认的概率为1/k;
S2:将原始数据集中每个记录显示标识符删除,定义准标志符中的每个属性取值域上的顺序,使之成为有序域;然后将有序域一一映射到实数域中;
S3:令range=τ,TMP=P,通过|P|=αk+β将其表示为k的线性函数,其中β是比k小的非负数,α表示匿名组中的记录数与k值的商,β为余数;
S4:如果超球体区域内range为空,则返回空的球树;
S5:根据投影区域密度划分算法进行确定划分依据;
所述投影区域密度划分算法,具体如下:
设X为一临时匿名组,并且|X|=αk+β,将其分成两个子匿名组,根据如下原则:
Figure BDA0002125600970000071
其中,
Figure BDA0002125600970000077
表示向下取整,
Figure BDA0002125600970000078
表示向上取整;
划分后得到的匿名组的规模为:
x1=α1k+β1
x2=α2k+β2
其中,显然α12≤α,且
Figure BDA0002125600970000072
β1≥0,β2≥0,β12=β。
本实施例采用投影区域密度划分算法可以根据调节β1,β2的值来调整划分的结果,并且调整的效果会随着k的增大而越来越好。在保证匿名数据集中匿名组数量不减少的同时,减少划分过程中不必要的信息损失,进一步提高发布数据集的可用性。
S6:利用已知的最小范围超球体,得出距离球心最远的点A,再求出距离A点最远的点B,再计算其他点i相对距离,对所有点求出q(i)值;
所述q(i)的计算公式如下:
Figure BDA0002125600970000081
其中,disAi表示A点与i点之间的距离,disAB表示A点与B点之间的距离;
将原始数据T取最大值与最小值的均值,将此点近似作为中心,然后利用曼哈顿距离进行计算所有的点到这个点的距离,距离最远的点为点A,与A最远的点为点B;
设点A为(a1,b1,c1,…,n1),点B为(a2,b2,c2,…,n2),其他点i(a3,b3,c3,…,n3),把这些点看作n维空间中的点集,并且定义各点间的距离为:
disAi=|a1-a3|+|b1-b3|+…|n1-n3|
disAB=|a1-a2|+|b1-b2|+…|n1-n2|
其中,a1,b1,c1,n1均表示点A在各维度上的值;a2,b2,c2,n2均表示点B在各维度上的值;a3,b3,c3,n3均表示点i在各维度上的值,当数据的每个维度上的距离越大时,两个数据点的距离就越大。
S7:将所有的q(i)值按大小排序;结合划分依据确定数据集的划分点,所述划分点将range划分为两个超球体;
所述结合划分依据确定数据集的划分点,具体的,将所有的q(i)值按大小排序后,取得一个整数j使得如下式子成立:
Figure BDA0002125600970000082
Figure BDA0002125600970000083
则从j点将range划分为两个超球体。
S8:设划分后的两个超球体分别为左超球体ballleft、右超球体ballright,
划分后的左超球体ballleft,满足:
Figure BDA0002125600970000084
Figure BDA0002125600970000085
同理,划分后的右超球体ballright,满足:
Figure BDA0002125600970000091
Figure BDA0002125600970000092
更新各数据集,使得range_left=ballleft为所构成的最小超球体的区域;使得range_right=ballright为所构成的最小超球体的区域;
S9:如果|ballleft|≥2k,则返回步骤S6继续递归,输入的参数为(range_left,ballleft);
S10:如果|ballright|≥2k,则返回步骤S6继续递归,输入的参数为(range_right,ballright);
S11:最后得到超球体群,对其中每一个超球体的所含的点信息进行概化处理,使得所有的记录的准标志符取值相同,从而得到输出匿名数据集T。
如图1所述,本实施例基于以上所述的k-匿名数据集脱敏的方法,还提供一种实现k-匿名数据集脱敏的系统,其包括数据输入模块、数据处理模块、建树划分依据模块、概化信息与输出模块;
所述数据输入模块,用于将未经脱敏处理数据收集并传输到数据处理模块;
所述数据处理模块,用于将数据集中每个记录显示标识符删除,定义准标志符中的每个属性取值域上的顺序,使之成为有序域;然后再将有序域一一映射到实数域中,并将其传输到建树划分依据模块;
所述建树划分依据模块,用于对空间各数据点的距离的定义并计算两点的距离,并根据相对距离结合划分依据确定数据集的划分点,然后递推求出各级分割点,最终建立超球体群,并将其输出到概化信息与输出模块;
所述概化信息与输出模块,用于就得到超球体群,对其中每个超球体中所含的点信息进行概化处理,使得所有的记录的准标志符取值相同,并输出。
本实施例所述建树划分依据模块采用曼哈顿距离对不同点之间的距离进行定义。
本实施例所述建树划分依据模块利用投影区域密度划分算法进行划分,从而确定划分依据。
本实施例所述建树划分依据模块对于投影区域密度划分|X|=αk+β,匿名化后的数据最多生成α个匿名组。
为了证明本实施例所述的实现基于k匿名算法实现数据集脱敏的方法的技术效果,本实施例进行了具体的对比试验,具体如下:
本次试验选取了UCI中的Gotrack数据集、Adult数据集作为实验的对象。其中Gotrack数据集中共有163条记录,选取其中的三条数值型的数据作为准标识符属性。其中Adult数据集中包含14个属性,32561条记录。其中,age、workclass、education_num、marital_status、occupation、race、sex等七个属性作为准标识符被带入本实施例所述的数据集脱敏方法和现有技术RPF中进行脱敏处理。通过比较匿名划分的信息损失量以及匿名组个数两个指标来衡量算法,从而证明本实施例所述的基于k匿名算法实现数据集脱敏的方法的可行性与有效性。
根据两个方法的概化比例来衡量:
Figure BDA0002125600970000101
式中,Dr_BP_k-anonymous表示本实施例所述的方法所得到结果的匿名化程度,Dr_RPE/VEM表示RPE或者VEM得到结果的概化程度。
概化程度越低说明本实施例所述的方法结果的可用性越高。
如果PRO<1,那么本实施例所述的基于k匿名算法实现数据集脱敏的方法的概化范围更小,匿名化处理后的数据的可用性更高。如果PRO>1,那么RPF或者VEM的算法匿名处理后的数据可用性更高。如果PRO=1,那么本实施所述的基于k匿名算法实现数据集脱敏的方法与现有技术RPF或者VEM的算法得到的结果可用性相同。
对于匿名处理后的数据,当数据组越小,组数越多,说明数据的概化范围越小,得到的数据越接近原数据,那么数据的可用性越高。
如图2、图3所示,在Gotrack数据集和Adult数据集上,PRO值都小于1,且生成的数据集数量更多,这说明本实施例所述的基于k匿名算法实现数据集脱敏的方法比RPF算法所得结果存在优势。但可能是因为Gotrack数据集的记录太少的原因,导致优势并不明显。在Adult数据集上本实施例所述的方法与现有技术RPF的结果就有明显的差距,尤其是当k值较小的时候,本发明的算法的概化范围明显较小,这就说明了此算法得到的结果可用性更高。而当k值越大时,两者的差距会逐渐减小。
可以从图3看出,本发明的算法得到的匿名组的数量相对更多,且这个优势当k越小时越明显。当k较大时,本实施例所述的方法与现有技术VEM得到的匿名组数相差越来越小,效果越来越相似。PRO也大致得到相似的结果,PRO值大致呈现逐渐增大,也就是说,当k越小时,本发明的相对匿名化程度越低,可用性更高。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于k-匿名算法实现数据集脱敏的方法,其特征在于:该方法包括以下步骤:
S1:输入原始数据集T、并设置参数τ,P,k;其中,P表示数据表中的记录集,τ表示记录集所占的超球体区域;k表示算法的参数,表示至少有k个记录与其他记录的准标记符相同,从而使得每个记录被确认的概率为1/k;
S2:将原始数据集中每个记录显示标识符删除,定义准标志符中的每个属性取值域上的顺序,使之成为有序域;然后将有序域一一映射到实数域中;
S3:令range=τ,TMP=P,通过|P|=αk+β将其表示为k的线性函数,其中β是比k小的非负数,α表示匿名组中的记录数与k值的商,β为余数;
S4:如果超球体区域内range为空,则返回空的球树;
S5:根据投影区域密度划分算法进行确定划分依据;
S6:利用已知的最小范围超球体,得出距离球心最远的点A,再求出距离A点最远的点B,再计算其他点i相对距离,对所有点求出q(i)值;
S7:将所有的q(i)值按大小排序;结合划分依据确定数据集的划分点,所述划分点将range划分为两个超球体;
S8:设划分后的两个超球体分别为左超球体ballleft、右超球体ballright,更新各数据集,使得range_left=ballleft为所构成的最小超球体的区域;range_right=ballright为所构成的最小超球体的区域;
S9:如果|ballleft|≥Yk,则返回步骤S6继续递归,输入的参数为(range_left,ballleft);其中,Y≥1,且为整数;
S10:如果|ballright|≥Lk,则返回步骤S6继续递归,输入的参数为(range_right,ballright);其中L≥1,且为整数;
S11:最后得到超球体群,对其中每一个超球体所含的点信息进行概化处理,使得所有的记录的准标志符取值相同,从而得到输出匿名数据集T。
2.根据权利要求1所述的基于k-匿名算法实现数据集脱敏的方法,其特征在于:步骤S5,所述投影区域密度划分算法,具体如下:
设X为一临时匿名组,并且|X|=αk+β,将其分成两个子匿名组,根据如下原则:
Figure FDA0002125600960000021
其中,
Figure FDA0002125600960000026
表示向下取整,
Figure FDA0002125600960000027
表示向上取整;
划分后得到的匿名组的规模为:
x1=α1k+β1
x2=α2k+β2
其中,显然α12≤α,且
Figure FDA0002125600960000022
β1≥0,β2≥0,β12=β。
3.根据权利要求2所述的基于k-匿名算法实现数据集脱敏的方法,其特征在于:步骤S6,所述q(i)的计算公式如下:
Figure FDA0002125600960000023
其中,disAi表示A点与i点之间的距离,disAB表示A点与B点之间的距离;
设点A为(a1,b1,c1,…,n1),点B为(a2,b2,c2,…,n2),其他点i(a3,b3,c3,…,n3),把这些点看作n维空间中的点集,并且定义各点间的距离为:
disAi=|a1-a3|+|b1-b3|+…|n1-n3|
disAB=|a1-a2|+|b1-b2|+…|n1-n2|
其中,a1,b1,c1,n1均表示点A在各维度上的值;a2,b2,c2,n2均表示点B在各维度上的值;a3,b3,c3,n3均表示点i在各维度上的值。
4.根据权利要求3所述的基于k-匿名算法实现数据集脱敏的方法,其特征在于:步骤S7,所述结合划分依据确定数据集的划分点,具体的,将所有的q(i)值按大小排序后,取得一个整数j使得如下式子成立:
Figure FDA0002125600960000024
Figure FDA0002125600960000025
则从j点将range划分为两个超球体。
5.根据权利要求4所述的基于k-匿名算法实现数据集脱敏的方法,其特征在于:步骤S8,划分后的左超球体ballleft,满足:
Figure FDA0002125600960000031
Figure FDA0002125600960000032
同理,划分后的右超球体ballright,满足:
Figure FDA0002125600960000033
Figure FDA0002125600960000034
6.根据权利要求5所述的基于k-匿名算法实现数据集脱敏的方法,其特征在于:所述步骤S9中Y取值为2;所述步骤S10中L取值为2。
7.一种基于以上权利要求1~6任一项所述的k-匿名算法实现数据集脱敏的系统,其特征在于:包括数据输入模块、数据处理模块、建树划分依据模块、概化信息与输出模块;
所述数据输入模块,用于将未经脱敏处理数据收集并传输到数据处理模块;
所述数据处理模块,用于将数据集中每个记录显示标识符删除,定义准标志符中的每个属性取值域上的顺序,使之成为有序域;然后再将有序域一一映射到实数域中,并将其传输到建树划分依据模块;
所述建树划分依据模块,用于对空间各数据点的距离的定义并计算相对距离,并根据相对距离结合划分依据确定数据集的划分点,然后递推求出各级分割点,最终建立超球体群,并将其输出到概化信息与输出模块;
所述概化信息与输出模块,用于就得到超球体群,对其中每个超球体中所含的点信息进行概化处理,使得所有的记录的准标志符取值相同,并输出。
8.根据权利要求7所述的基于k-匿名算法实现数据集脱敏的系统,其特征在于:所述建树划分依据模块采用曼哈顿距离对不同点之间的距离进行定义。
9.根据权利要求7所述的基于k-匿名算法实现数据集脱敏的系统,其特征在于:所述建树划分依据模块利用投影区域密度划分算法进行划分,从而确定划分依据。
10.根据权利要求9所述的基于k-匿名算法实现数据集脱敏的系统,其特征在于:所述建树划分依据模块对于投影区域密度划分|X|=αk+β,匿名化后的数据最多生成α个匿名组。
CN201910621268.XA 2019-07-10 2019-07-10 一种基于k-匿名算法实现数据集脱敏的方法以及系统 Active CN110543782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910621268.XA CN110543782B (zh) 2019-07-10 2019-07-10 一种基于k-匿名算法实现数据集脱敏的方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910621268.XA CN110543782B (zh) 2019-07-10 2019-07-10 一种基于k-匿名算法实现数据集脱敏的方法以及系统

Publications (2)

Publication Number Publication Date
CN110543782A CN110543782A (zh) 2019-12-06
CN110543782B true CN110543782B (zh) 2022-03-29

Family

ID=68710317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910621268.XA Active CN110543782B (zh) 2019-07-10 2019-07-10 一种基于k-匿名算法实现数据集脱敏的方法以及系统

Country Status (1)

Country Link
CN (1) CN110543782B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984764A (zh) * 2014-05-30 2014-08-13 石家庄铁道大学 基于道路网络感知查询语义的个性化隐私保护方法
CN104318167A (zh) * 2014-10-07 2015-01-28 北京理工大学 一种改进的k-匿名中准标识符求解方法
CN105160266A (zh) * 2015-07-08 2015-12-16 北方信息控制集团有限公司 基于k-匿名的运动轨迹数据隐私保护方法与系统
CN107273757A (zh) * 2017-04-23 2017-10-20 西安电子科技大学 一种基于l‑diversity规则和MDAV算法的处理大数据的方法
CN107292195A (zh) * 2017-06-01 2017-10-24 徐州医科大学 基于密度划分的k‑匿名隐私保护方法
CN108052832A (zh) * 2017-11-28 2018-05-18 河海大学 一种基于排序的微聚集匿名化方法
CN108632237A (zh) * 2017-09-15 2018-10-09 湖南科技大学 一种基于多匿名器匿名的位置服务方法
CN109446844A (zh) * 2018-11-15 2019-03-08 北京信息科技大学 一种面向大数据发布的隐私保护方法及系统
CN109525933A (zh) * 2018-11-16 2019-03-26 中国科学院信息工程研究所 位置隐私保护方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984764A (zh) * 2014-05-30 2014-08-13 石家庄铁道大学 基于道路网络感知查询语义的个性化隐私保护方法
CN104318167A (zh) * 2014-10-07 2015-01-28 北京理工大学 一种改进的k-匿名中准标识符求解方法
CN105160266A (zh) * 2015-07-08 2015-12-16 北方信息控制集团有限公司 基于k-匿名的运动轨迹数据隐私保护方法与系统
CN107273757A (zh) * 2017-04-23 2017-10-20 西安电子科技大学 一种基于l‑diversity规则和MDAV算法的处理大数据的方法
CN107292195A (zh) * 2017-06-01 2017-10-24 徐州医科大学 基于密度划分的k‑匿名隐私保护方法
CN108632237A (zh) * 2017-09-15 2018-10-09 湖南科技大学 一种基于多匿名器匿名的位置服务方法
CN108052832A (zh) * 2017-11-28 2018-05-18 河海大学 一种基于排序的微聚集匿名化方法
CN109446844A (zh) * 2018-11-15 2019-03-08 北京信息科技大学 一种面向大数据发布的隐私保护方法及系统
CN109525933A (zh) * 2018-11-16 2019-03-26 中国科学院信息工程研究所 位置隐私保护方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Different strategies for differentially private histogram publication;Xue Meng 等;《Journal of Communications and Information Networks》;20170930;第2卷(第3期);第65-77页 *

Also Published As

Publication number Publication date
CN110543782A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
US8627488B2 (en) Methods and apparatus to anonymize a dataset of spatial data
CN109726587B (zh) 一种基于差分隐私的空间数据划分方法
US20220245175A1 (en) Metadata classification
CN103745482B (zh) 一种基于蝙蝠算法优化模糊熵的双阈值图像分割方法
CN102156755A (zh) 一种k-匿名改进方法
CN112288087A (zh) 一种神经网络剪枝方法、装置、电子设备及存储介质
CN112115276A (zh) 基于知识图谱的智能客服方法、装置、设备及存储介质
EP3452916A1 (en) Large scale social graph segmentation
CN108052832B (zh) 一种基于排序的微聚集匿名化方法
CN113032610B (zh) 档案管理方法、装置、设备及计算机可读存储介质
JP2018046406A (ja) データ圧縮方法、データ圧縮装置、コンピュータプログラム及びデータベースシステム
CN110543782B (zh) 一种基于k-匿名算法实现数据集脱敏的方法以及系统
CN116227209A (zh) 一种点云数据多维线性差值方法、终端设备及存储介质
CN111967749A (zh) 一种船员舒适度评价方法、终端设备及存储介质
CN108959956B (zh) 基于贝叶斯网络的差分隐私数据发布方法
CN112561138B (zh) 电力负荷预测方法、装置、计算机设备和存储介质
CN116167078A (zh) 基于最大权重匹配的差分隐私合成数据发布方法
CN112927232B (zh) 基于通勤找房的房源召回方法及装置
CN110990869B (zh) 一种应用于隐私保护的电力大数据脱敏方法
Sakai A linear space algorithm for computing a longest common increasing subsequence
CN113658338A (zh) 点云树木单体分割方法、装置、电子设备及存储介质
CN113781117A (zh) 营销方案的生成方法、装置、电子设备及计算机存储介质
Aleksandrov et al. Free deformations of hypersurface singularities
WO2024130701A1 (zh) 用于提取对象轮廓的方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant