CN107766745A - 层次数据发布中的分级隐私保护方法 - Google Patents
层次数据发布中的分级隐私保护方法 Download PDFInfo
- Publication number
- CN107766745A CN107766745A CN201711124942.0A CN201711124942A CN107766745A CN 107766745 A CN107766745 A CN 107766745A CN 201711124942 A CN201711124942 A CN 201711124942A CN 107766745 A CN107766745 A CN 107766745A
- Authority
- CN
- China
- Prior art keywords
- hierarchical data
- data
- clustering cluster
- hierarchical
- root node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Abstract
本发明公开一种层次数据发布中的分级隐私保护方法,先将原始层次数据的敏感属性按照实际的敏感性大小进行分级,再根据所划分的等级设置频率参数αi来限定等价类中不同级别敏感属性出现的频率,后采用聚类的方法实现给定的隐私模型。本发明很好地解决了现有层次数据发布技术在敏感属性上存在的临近攻击所带来的隐私泄露的问题,提高了对层次数据隐私保护的力度,增强的数据的安全性;本发明对于层次数据的保护具有一定的现实意义和实用价值。
Description
技术领域
本发明涉及隐私保护技术领域,具体涉及一种层次数据发布中的分级隐私保护方法。
背景技术
21世纪人类已经步入了信息时代,信息领域的发展十分迅猛。随着互联网不断深入到政治、经济、文化、医疗及教育等各个领域并产生了大量的数据,而这些数据出于研究的目的往往需要共享给不可信的第三方,从而导致个人信息的隐私泄露问题越来越受到关注。与此同时促使隐私保护的数据发布技术(PPDP)得到了广泛的研究和发展,但是这些技术主要针对的是关系型数据。比如经典的关系型数据的k-匿名、L-多样性模型。然而目前的数据往往具有复杂的结构,并且随着采用非关系型数据库(NOSQL)(例如面向文档的数据库MongoDB)的应用越来越普遍,以及使用一些标记语言(例如XML、JSON、YAML语言等)对具有丰富结构化越来越受欢迎,使得这样的非结构化或者半结构化的数据大量存在于现实生活中,而这样的数据往往具有某种层次结构所以也称之为层次数据。
目前针对这种层次数据的隐私保护发布技术主要分为两大类:(1)访问控制技术,即只允许授权的用户访问数据库,这种技术的缺陷是数据的共享程度不高(2)隐私保护的发布技术,即发布数据之前对数据对数据进行适当的处理然后进行发布。我们主要关注的是第二种技术,然而目前针对层次数据隐私保护的发布技术研究的文献比较少,而将传统的关系型数据的隐私保护技术直接应用于层次数据会造成不可接受的信息损失,最近有相关的文献将关系型数据的K-anonymity、L-diversity技术进行扩展,并定义了其在层次数据上相应的技术版本,使得其能够在一定程度上解决层次数据隐私保护的问题,但是现有的层次数据的L-diversity技术没有考虑到节点的敏感属性之间的敏感程度的问题,比如说一个等价类中某个课程的学生成绩的敏感属性的集合为{D+,D-,D}虽然攻击者无法推测出目标学生在该门课程的具体值,但是攻击者可以以100%的概率推测出该学生在该课程的成绩非常差,从而导致隐私的泄漏,主要的原因在于层次数据的L-diversity算法在形成等价类的过程中将所有敏感属性值的敏感性看作是相同的,而忽视了现实中不同敏感值的敏感程度是不同的,从而导致等价类中的敏感属性的敏感程度非常的接近,从而存在临近攻击。要解决该问题就需要改进原有的模型和算法来阻止由层次数据中敏感属性存在的临近攻击所导致的隐私泄露问题。
发明内容
本发明所要解决的是现有的层次数据发布技术对层次数据的发布存在临近攻击的问题,提供一种层次数据发布中的分级隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
层次数据发布中的分级隐私保护方法,包括如下步骤:
步骤1、将原始数据集中的层次数据的敏感属性按照其在现实中的敏感性大小划分敏感等级;
步骤2、根据数据发布者的实际需求,对每一个敏感等级设置频率参数αi;
步骤3、采用范化和抑制的方法对原始数据集中的层次数据进行首次匿名;
步骤4、将层次数据匿名后产生的信息损失量值作为层次数据之间的相似度,采用聚类方法对层次数据进行分组,分组后所得到的每个聚类簇均需要满足隐私要求:
步骤5、采用范化和抑制的方法对每个聚类簇进行再次匿名,使得每一个聚类簇中的层次数据在准表符和结构上完全相同,并满足隐私要求;
步骤6、将满足隐私要求的聚类簇逐个并入到输出集合中进行发布。
上述满足隐私要求是指每个聚类簇进行同时满足以下两个条件:①每个聚类簇中层次数据的总个数为k条;②每个聚类簇中每一个敏感等级的敏感属性所对应的层次数据个数要少于k*αi个。
上述步骤3和步骤5中,在对层次数据进行匿名时,需要选择两个层次数据进行组合来实现匿名。
对每两个层次数据进行匿名的过程如下:
(1)提取两个层次数据的根节点,检查根节点是否满足匿名条件,即根节点准标识符在同一个层次范化域中,并且对应级别的敏感属性值的个数少于k*αi个:
①如果不满足,则直接抑制两个层次数据;
②如果满足,则对根节点准标识符进行范化,即在准标识符的层次范化域中找到一个范化值作为根节点准标识符的新值;
(2)检查根节点下是否有子树:
①如果两个根节点都没有子树,则已完成这两个层次数据的匿名;
②如果其中一个根节点下没有子树而另外一个根节点下有子树,则需要抑制该根节点下的所有子树;
③如果两个根节点下都有子树,则先分别提取两个根节点下的所有子树;再将第一个根节点下的子树与第二个根节点下的子树进行两两组合匿名,在两两组合匿名的过程中,将第一个根节点下的子树和第二个根节点下的子树分别视为两个层次数据,并递归调用(1)和(2)中的操作,直到这两个子树中所有节点被匿名完成。
上述步骤6中,需要先对满足隐私要求的聚类簇进行质量检查后,再该聚类簇并入到输出集合中;即在对当前待并入的聚类簇进行质量检查时,先计算当前已经并入到输出集合中的所有聚类簇的平均信息损失量;再计算当前待并入的聚类簇的信息损失量;如果当前待并入的聚类簇的信息损失量小于等于当前已经并入到输出集合中的所有聚类簇的平均信息损失量,则表明当前待并入的聚类簇满足质量要求,可以并入到输出集合中;否则,表明则当前待并入的聚类簇不满足质量要求,需要将该聚类簇删除,并将该聚类簇中的数据插回到原始数据集。
上述步骤6之后,还进一步如下步骤:步骤7、采用聚类簇的等价类相异度作为等价类的敏感属性多样性程度的衡量指标来对输出集合中的层次数据进行评估。
与现有技术相比,本发明具有如下特点:
1、采用分级的方式来区分敏感属性的敏感程度:依据敏感属性的现实意义对其划分不同的敏感等级,将敏感性接近的敏感值归为一个级别,能够直观的区分不同敏感属性的差异性,并且能够方便匿名算法控制每一个分组中不同级别敏感属性的比例。
2、采用分级的(αi,k)-匿名模型进行隐私保护:根据发布者的要求设置不同级别敏感属性的频率参数αi来控制分组中不同级别的敏感属性的出现的比例,然后对原始的层次数据集采用聚类的方法进行分组,接着对分组进行匿名处理使得分组满足给定的匿名模型,从而很好的解决了现有的层次数据发布技术中存在的临近攻击问题,增强了数据的隐私保护强度。
附图说明
图1为层次数据的构造方案示意图。
图2为两个层次数据匿名的过程示意图。
图3为匿名结果的类代表示意图。
图4为聚类过程的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。
首先说明一下层次数据数据的数据模型:
(1)每一条层次数据都有共同的构造方案,如图1所示;
(2)每一条层次数据都具有有根节点的无环树结构;
(3)层次数据中的每一个节点可以有多个准标识符属性QI,并且每个节点最多只有一个敏感属性SA,将节点的所有准标识符属性取值作为节点的标签,而敏感属性的取值作为节点的附加信息。
一种层次数据发布中的分级隐私保护方法,具体包括步骤如下:
步骤1、对敏感属性进行分级。
先将层次数据的每一层敏感属性按照其在现实中的敏感性大小划分等级,如表1所示,等级越高表明敏感属性的敏感程度越高,意味着对这种敏感属性的保护程度应该越高。
级别 | GPA | Letter grade | Evaluation score |
1 | (3.6,4) | A-,A,A+ | (0.78,1) |
2 | (2.7,3.5) | B-,B,B+ | (0.51,0.77) |
3 | (1.8,2.6) | C-,C,C+ | (0.34,0.5) |
4 | (0.9,1.7) | D-,D,D+ | (0.17,0.33) |
5 | (0,0.8) | F-,F,F+ | (0,0.16) |
表1
步骤2、设置频率参数αi。
根据数据发布者的实际需求对每一个级别的敏感属性设置频率参数αi,该参数表示的是每一个等价类中不同级别的敏感属性出现频率的最大值,敏感级别越高该参数越小。例如敏感属性被分为5个级别,则可以设置αi={80%,60%,40%,20%,10%}。
步骤3、使用聚类方法对原始数据集进行分组。
步骤3.1、对任意两个层次数据T1、T2进行匿名如图2所示。
本发明中聚类方法的关键在于如何对两个层次数据进行匿名,原因是只有实现对任意两个层次数据完成匿名才能计算出其匿名的信息损失量,从而将其作为聚类中数据之间的相似度,它是聚类的基础条件。其中该部分可以分成以下两个部分完成:(1)对层次数据的根节点进行匿名,通过读取层次数据的根节点,得到其标识符的层次范化域DGH,然后从中找到它们共同的最近的父节点值作为它们的范化值,(2)对两个层次数据根节点下的子树进行最优匹配,从而降低层次数据的搜索空间,即找到层次数据匿名信息损失量最小的共同结构,然后对这个共同结构进行匿名即可完成层次数据的匿名操作。匿名后的层次数据降低了对层次数据节点进行遍历搜索的空间,降低了算法的时间复杂度。
步骤3.1.1、对当前层次节点的准标识符进行匿名。
首先,分别读取输入函数anonymity(T1,T2)的两条层次数据T1、T2的根节点root(T1),root(T2),然后计算两个根节点的子节点的个数,将该功能记为children(m)其返回值为节点m所对应的子节点的集合而|children(root(T2))|表示的是子节点的个数,并将子节点少的根节点存放在变量a中,子节点多的存放在变量b中(例如|children(root(T1))|≤|children(root(T2))|,则a=root(T1),b=root(T2)。
接着,检查两个根节点的准标识符是否在同一个DGH中以及检查两个根节点的敏感属性是否满足分级(αi,k)-匿名模型的要求,即两记录进行匿名节点的敏感属性的集合中每一个级别的敏感属性的个数必须小于k*αi(即SA_Number≤K*αi)如果条件成立则两个节点可以进行匿名,否则不能进行匿名则将两个层次数据完全抑制掉,可以将该部分的功能定义为一个函数check_condition(a,b)当上述条件满足值其返回值为True,反之则为False。
然后,根据两个节点准标识符的DGH得到它一个它们最近的共同祖先值作为两个节点准标识符的范化值来代替原来的准标识符属性值。可以将该部分定义为一个函数get_anonymizationvalue(X,Y,Z)(假设两个节点的准标识符属性和DGH分别为X,Y,Z)其返回值就是两个属性值X,Y的范化值。
接着,计算当前节点下所拥有的子树的个数把该功能记为函数subtrees(m),其返回值为在节点m下所有子树的集合。
(1)当并且表明树的所有节点已经全部被匿名完毕则直接返回匿名的总花销cost(T1)+cost(T2);
(2)当并且则将第b节点下多余的字树全部抑制掉然后返回匿名的总花销;
(3)并且即两个节点下都还有子树,则需要让subtrees(a)={s1,s2,s3……}中的每一个子树在subtrees(b)={u1,u2,u3……}匹配上一个对应的子树使得它们匿名后有最小的信息损失量,可以将该功能看成是一个函数FindMapping(subtrees(a),subtrees(b))其返回值是得到是两个子树集合元素之间的最优匹配对(比如{(si,uj),(sm,un)});
最后,对每一个子树对递归调用anonymity(T1,T2)该函数本身对子树进行匿名,将subtrees(b)中为配对的节点和子树删除掉,然后返回匿名的总花销。
步骤3.1.2、寻找最优的子树对。
如果被处理的两个当前节点下都有子树时,需要对两个节点下的子树集合进行匹配找到最优的子树匹配对集合,然后对子树对递归调用匿名函数本身。也就是FindMapping(subtrees(a),subtrees(b))函数的实现方法是:采用贪心算法的思想实现寻找最优子树对的功能;
(1)从子树个数少的集合subtrees(a)={s1,s2,s3……}中顺序的选择一个子树si,分别让第二个子树集合subtrees(b)={u1,u2,u3……}中的每一个子树进行匹配;
(2)复制子树si和与它匹配的每一个子树uj,用它们的复制版本递归调用匿名函数anonymity(copy(si),copy(uj))返回最终匿名后的花销,花销最小的将赢得与si的匹配机会;
(3)将匹配成功的子数对(si,uj)并入到结果集p中,并从第二个子树集中删除已配对的子树(4)重复上述的步骤直到第一个子树集里的每一个元素都匹配完成。
对给定的两个层次数据T1、T2进行匿名并产生最小的信息损失。其过程如图2所示。
图2的(a)中两个层次数据T1、T2是按照图1的构造方案构造的原始数据;第一层节点准标识符表示的是学生主修的专业和出生年份(QI={major_program,year_of_birth})而敏感属性为学积分(SA={GPA});第二层节点的准标识符为学生修的课程名称(QI={course_ID})而敏感属性为这门课程所得到的字母分数(SA={letter_grade});第三层节点的准标识符为学生所选课程的任课老师名称(QI={teacher_name})而敏感属性为学生给任课老师所打的评分(SA={evaluation_socre})或者准标识为学生所上课程购买的书籍名称(SA={books_name})而敏感属性为书籍的价格(SA={price_paid})。如何对两个给定的具有这种树形型结构的层次数据进行匿名并产生最小的信息损失量是至关重要的,可将该功能定义为一个函数anonymity(T1,T2)它的返回值是对层次数据对匿名后产生的总的信息损失量。图2中的(b)是两个层次数据匿名过程形成准标识符同型(即两个层次数据就准标识符而言是完全相同的)的中间过度过程图,其中图2中的(c)就是两个层次数据匿名后的结果。
步骤3.2、创建一个长度为k的聚类簇C。
根据层次数据之间相互匿名后产生的信息损失量cost()值作为层次数据间的相似度;每一次使用一个层次数据初始化一个聚类簇Ci,然后选择最相近的k-1条记录加入该簇。
两个层次数据T1、T2相互匿名后的各自的信息损失量cost(T)的计算公式如下:
其中,V表示的是记录T的节点集合,v表示的是V中的元素,vQI表示的是节点v中的准标识符集合,q表示vQI中的元素,LM'(q)表示的是准标识符属性q被范化后产生的信息损失量。Ψ表示的是匿名后被抑制的原始层次数据的节点集合。|wQI|表示的被抑制的节点w的准标识符的个数。所以公式的前半部分是由范化所引起的信息损失,而后半部分则是由抑制所引起的信息损失。两个层次数据T1、T2彼此匿名后产生的总花销为cost(T1)+cost(T2)。
节点的准标识符属性q匿名后产生的信息损失LM'(q)的计算公式如下:
其中φ(q)表示的是在准标识符属性q的域范化层次(DGH)取代q的一个范化值,φ-1(q)则表示的是在DGH中范化值所对应的叶节点的集合,|φ-1(q)|表示的是范化值所对应的叶节点的个数。r表示的是DGH的根节点,|φ-1(r)|表示的是DGH中根节点r下所对应的叶节点的个数。
聚类的过程中将k条最相似的层次数据分到一组,同时聚类的分组必须满足(αi,k)-匿名模型的隐私要求,即要满足下列的条件:
①每个聚类簇Ci中层次数据的总个数为k条。
②每个聚类簇中每一个级别的敏感属性所对应的层次数据个数要少于k*αi个。
聚类的目的在于将原始的层次数据按照层次数据之间的相似度的大小来进行分组,使得每一个分组都是k条最相似的数据,过程如图4所示,从而简化了下一步对分组进行匿名的操作,该部分的具体步骤如下:
(1)首先从层次数据集F={T1,T2,T3……}中接收一个记录Ta来初始化该聚类簇,用Cinit来记录加入到聚类簇C中的原始数据,故将Ta并入到Cinit,然后计算当期前聚类簇的类代表Crep,聚类簇的类代表,描述的是当前聚类簇中的记录匿名后形成满足隐私要求的等价类时的一个概括信息树,如图3所示其表示的就是图2处理过程结果的类代表。如果它的节点准标识符以及树的结构与等价类中的层次数据的结构完全相同,不同的是Crep中的每个节点的属性是等价类中其他对应节点敏感属性的集合,当聚类簇中只有一个记录时Crep=Ta;当有两个记录时则通过调用anonymity(T1,T2)函数得到它们的匿名等价类,然后将然后复制它们公共节点的敏感属性在一起就可以得到Crep;
(2)在F中到一条的最优的层次数据Tb加入聚类簇C使得当前聚类簇匿名后信息量最小,也就是将F中剩下的每一条层次数据Ti分别加入到聚类簇C中,调用anonymity(Crep,Ti)函数对当前聚类簇进行匿名以及计算新聚类的信息损失量,信息损失量最小的将赢得加入聚类簇C的机会,然后将该数据Tb并入到Cinit,中并从F中删除它,然后调用匿名函数anonymity(copy(Tb),Crep)以及复制敏感属性的操作来实时更新当前聚类簇的类代表Crep;
(3)重复步骤(2)中的过程知道聚类簇C中的记录的个数等于k。上述的整个过程可以定义为一个函数CreateCluster(F,k,Ta)其返回值就是产生一个符合要求的聚类簇C。
步骤4、使用范化和抑制的技术实现匿名。
当层次数据集完成聚类后,就需要对聚类后的每一个分组中的层次数据使用抑制和范化的技术进行匿名,使得每一个分组中的层次数据在准表符和结构上完全相同,彼此之间不可区分(这样处理后的分组我们称为层次数据的等价类)从而达到隐私保护的目的。并且需要计算每一个分组匿名后的总信息损失量与其他分组匿名后的平均信息损失量的大小来选择是否将该分组并入到输出集从而来进一步控制所形成的分组的质量。该部分具体的过程为:
步骤4.1、对每一个聚类簇进行匿名。
首先先对聚类簇中的任意两条层次数据进行匿名,这个过程就如步骤3.1所述的那样,能够实现两个层次数据的匿名;匿名后要同时更新聚类簇的类代表(一个聚类簇的类代表就是该簇中所有已匿名层次数据的一个概括树,也是一个层次数据,它和已匿名层次数据具有相同的准标识符节点和数据结构,不同的是它的每一个节点的敏感属性是其他所有以匿名的层次数据对应节点的敏感属性的集合,而不是单一的敏感属性值,两个层次数据匿名后的类代表如图3所示),然后接下来让类代表与聚类簇中下一个未匿名的层次数据再进行匿名(这个过程同样的如步骤3.1所示),并再次更新聚类簇的类代表,接着与聚类簇中未匿名的层次数据进行匿名直到聚类簇中所有的层次数据完成匿名。所以通过引入聚类簇类代表这个概念可以将k条层次匿名转化为每一步都是两条层次数据的匿名问题(每一次都是聚类簇的类代表和未匿名的层次数据进行匿名),从而简化了对聚类簇数据匿名的难度。
步骤4.2、检查每一个聚类簇的质量从而选择是否接受该簇。
一个聚类簇C的质量与初始化聚类的层次数据Ta的选择直接相关,如果所选择的初始化层次数据Ta与数据集的其他大部分层次数据相比非常特殊(例如与数据集的其他大部分层次数据相比它有非常多的节点或者非常少的节点,即其可以看做是一个离群值),那么就算后续将k-1条最优的数据Tb加入该簇也会使得该簇的信息损失量巨大,所以必须避免这种情况的发生;具体的做法如下:
(1)从当前数据集F中任选一条层次数据作为Ta;
(2)检查当前数据集F中数据的个数,如果|F|≤k则抑制当前F中全部的数据,返回聚类的结果集R;否则就调用CreateCluster(F,k,Ta)生成一个聚类C;
(3)检查R中聚类簇的个数,如果|R|>1,则计算R中所有聚类簇花销的平均值u以及方差δ,我们将计算u+δ*ξ的值,并将该值作为R中所有聚类簇的平均花销值,其中ξ=ξ+s,其中s(0≤s,是一个很小的参数)是一个步长参数,可以看做是接受新聚类C花销的容差参数,否则将聚类簇C并入到R中;
(4)比较新形成的聚类C的花销clcost与u+δ*ξ值的大小,如果clcost>u+δ*ξ,需要将聚类簇C中的全部原始记录Cinit插回到F中并清除该聚类簇C,否则接受该聚类,并将其并入到R中,然后执行ξ=ξ+s;
(5)检查当前的ξ值,如果ξ>m时,需要让ξ=+∞也就是当ξ递增到允许的最大m时,绝大多数聚类簇的初始层次数据是离群值的情况都被排除,所以允许剩下的记录形成聚类簇而不做限制;
(6)重复以上的步骤得到输出结果集R。
步骤5、对匿名结果进行评估;即通过计算匿名结果中等价类的多样性程度来进行评估,采用等价类相异度H(E)作为等价类的敏感属性多样性程度的衡量指标,其值越大说明等价类中敏感属性的差异性越大,安全性也就越高。
等价类的相异度H(E)的计算公式如下:
其中n表示的是等价类E中层次数据的个数,Cij表示的等价类E中第i个元素和第j个元素的分级距离,即第i个元素与第j个元素的敏感属性所属等级的差值的绝对值;|D(A)|是指属性A所划分的等级的个数。当一个等价类中属性A的所有级别的敏感属性都出现的等价类称为全域等价类记为D,Dij表示的就是全域等价类中第i个元素和第j个元素之间的分级距离。
至此整个算法的执行过程处理完毕,将会得处理结果,该结果很好的满足了隐私模型的要求,解决层次数据在敏感属性上存在的临近攻击的问题,能够达到隐私保护的目的。
本发明基于层次数据敏感性分级的(αi,k)-匿名模型的隐私保护方法,主先将原始层次数据的敏感属性按照实际的敏感性大小进行分级,再根据所划分的等级设置频率参数αi来限定等价类中不同级别敏感属性出现的频率,后采用聚类的方法实现给定的隐私模型。本发明通过频率参数αi来限定等价类中每一个级别敏感属性出现的比例,敏感性越高,其在等价类中出现的比例越少,其被推测出来的概率越低,从而很好地解决了现有层次数据发布技术在敏感属性上存在的临近攻击所带来的隐私泄露的问题,提高了对层次数据隐私保护的力度,增强的数据的安全性,减少了隐私泄露的风险;本发明对于层次数据的保护具有一定的现实意义和实用价值。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (6)
1.层次数据发布中的分级隐私保护方法,其特征是,包括如下步骤:
步骤1、将原始数据集中的层次数据的敏感属性按照其在现实中的敏感性大小划分敏感等级;
步骤2、根据数据发布者的实际需求,对每一个敏感等级设置频率参数αi;
步骤3、采用范化和抑制的方法对原始数据集中的层次数据进行首次匿名;
步骤4、将层次数据匿名后产生的信息损失量值作为层次数据之间的相似度,采用聚类方法对层次数据进行分组,分组后所得到的每个聚类簇均需要满足隐私要求:
步骤5、采用范化和抑制的方法对每个聚类簇进行再次匿名,使得每一个聚类簇中的层次数据在准表符和结构上完全相同,并满足隐私要求;
步骤6、将满足隐私要求的聚类簇逐个并入到输出集合中进行发布。
2.根据权利要求1所述的层次数据发布中的分级隐私保护方法,其特征是,满足隐私要求是指每个聚类簇进行同时满足以下两个条件:
①每个聚类簇中层次数据的总个数为k条;
②每个聚类簇中每一个敏感等级的敏感属性所对应的层次数据个数要少于k*αi个。
3.根据权利要求1所述的层次数据发布中的分级隐私保护方法,其特征是,步骤3和步骤5中,在对层次数据进行匿名时,需要选择两个层次数据进行组合来实现匿名。
4.根据权利要求3所述的层次数据发布中的分级隐私保护方法,其特征是,对每两个层次数据进行匿名的过程如下:
(1)提取两个层次数据的根节点,检查根节点是否满足匿名条件,即根节点准标识符在同一个层次范化域中,并且对应级别的敏感属性值的个数少于k*αi个:
①如果不满足,则直接抑制两个层次数据;
②如果满足,则对根节点准标识符进行范化,即在准标识符的层次范化域中找到一个范化值作为根节点准标识符的新值;
(2)检查根节点下是否有子树:
①如果两个根节点都没有子树,则已完成这两个层次数据的匿名;
②如果其中一个根节点下没有子树而另外一个根节点下有子树,则需要抑制该根节点下的所有子树;
③如果两个根节点下都有子树,则先分别提取两个根节点下的所有子树;再将第一个根节点下的子树与第二个根节点下的子树进行两两组合匿名,在两两组合匿名的过程中,将第一个根节点下的子树和第二个根节点下的子树分别视为两个层次数据,并递归调用(1)和(2)中的操作,直到这两个子树中所有节点被匿名完成。
5.根据权利要求1所述的层次数据发布中的分级隐私保护方法,其特征是,步骤6中,需要先对满足隐私要求的聚类簇进行质量检查后,再该聚类簇并入到输出集合中;在对当前待并入的聚类簇进行质量检查时,先计算当前已经并入到输出集合中的所有聚类簇的平均信息损失量;再计算当前待并入的聚类簇的信息损失量;如果当前待并入的聚类簇的信息损失量小于等于当前已经并入到输出集合中的所有聚类簇的平均信息损失量,则表明当前待并入的聚类簇满足质量要求,可以并入到输出集合中;否则,表明则当前待并入的聚类簇不满足质量要求,需要将该聚类簇删除,并将该聚类簇中的数据插回到原始数据集。
6.根据权利要求1所述的层次数据发布中的分级隐私保护方法,其特征是,步骤6之后,还进一步如下步骤:
步骤7、采用聚类簇的等价类相异度作为等价类的敏感属性多样性程度的衡量指标来对输出集合中的层次数据进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711124942.0A CN107766745B (zh) | 2017-11-14 | 2017-11-14 | 层次数据发布中的分级隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711124942.0A CN107766745B (zh) | 2017-11-14 | 2017-11-14 | 层次数据发布中的分级隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766745A true CN107766745A (zh) | 2018-03-06 |
CN107766745B CN107766745B (zh) | 2020-11-10 |
Family
ID=61278150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711124942.0A Active CN107766745B (zh) | 2017-11-14 | 2017-11-14 | 层次数据发布中的分级隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766745B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800600A (zh) * | 2019-01-23 | 2019-05-24 | 中国海洋大学 | 面向保密需求的海洋大数据敏感度评估系统及防范方法 |
CN110378148A (zh) * | 2019-07-25 | 2019-10-25 | 哈尔滨工业大学 | 一种面向云平台的多域数据隐私保护方法 |
CN110399746A (zh) * | 2019-07-15 | 2019-11-01 | 北京邮电大学 | 一种基于敏感度分级的匿名数据发布方法及装置 |
CN110555316A (zh) * | 2019-08-15 | 2019-12-10 | 石家庄铁道大学 | 基于聚类匿名的隐私保护表数据共享算法 |
CN111143880A (zh) * | 2019-12-27 | 2020-05-12 | 中电长城网际系统应用有限公司 | 数据处理方法和装置、电子设备、可读介质 |
CN111241581A (zh) * | 2020-01-09 | 2020-06-05 | 山东师范大学 | 基于敏感度分层的多敏感属性隐私保护方法及系统 |
CN112632612A (zh) * | 2020-12-28 | 2021-04-09 | 南京邮电大学 | 一种医疗数据发布匿名化方法 |
CN113254988A (zh) * | 2021-04-25 | 2021-08-13 | 西安电子科技大学 | 高维敏感数据隐私分级保护发布方法、系统、介质及设备 |
CN114111816A (zh) * | 2021-11-16 | 2022-03-01 | 北京长隆讯飞科技有限公司 | 一种基于人工智能的低成本车道级高精度地图的方法 |
US11783079B2 (en) | 2019-12-27 | 2023-10-10 | International Business Machines Corporation | Privacy protection for regulated computing environments |
CN117171787A (zh) * | 2023-08-24 | 2023-12-05 | 湖北交投襄阳高速公路运营管理有限公司 | 高速路收费专网移动存储设备的访问管控方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130198194A1 (en) * | 2012-01-31 | 2013-08-01 | International Business Machines Corporation | Method and system for preserving privacy of a dataset |
CN105512566A (zh) * | 2015-11-27 | 2016-04-20 | 电子科技大学 | 一种基于k-匿名的健康数据隐私保护方法 |
-
2017
- 2017-11-14 CN CN201711124942.0A patent/CN107766745B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130198194A1 (en) * | 2012-01-31 | 2013-08-01 | International Business Machines Corporation | Method and system for preserving privacy of a dataset |
CN105512566A (zh) * | 2015-11-27 | 2016-04-20 | 电子科技大学 | 一种基于k-匿名的健康数据隐私保护方法 |
Non-Patent Citations (1)
Title |
---|
金华等: "基于敏感性分级的(αi,k)-匿名隐私保护", 《计算机工程》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800600A (zh) * | 2019-01-23 | 2019-05-24 | 中国海洋大学 | 面向保密需求的海洋大数据敏感度评估系统及防范方法 |
CN110399746A (zh) * | 2019-07-15 | 2019-11-01 | 北京邮电大学 | 一种基于敏感度分级的匿名数据发布方法及装置 |
CN110378148A (zh) * | 2019-07-25 | 2019-10-25 | 哈尔滨工业大学 | 一种面向云平台的多域数据隐私保护方法 |
CN110378148B (zh) * | 2019-07-25 | 2023-02-03 | 哈尔滨工业大学 | 一种面向云平台的多域数据隐私保护方法 |
CN110555316A (zh) * | 2019-08-15 | 2019-12-10 | 石家庄铁道大学 | 基于聚类匿名的隐私保护表数据共享算法 |
CN110555316B (zh) * | 2019-08-15 | 2023-04-18 | 石家庄铁道大学 | 基于聚类匿名的隐私保护表数据共享方法 |
CN111143880B (zh) * | 2019-12-27 | 2022-06-07 | 中电长城网际系统应用有限公司 | 数据处理方法和装置、电子设备、可读介质 |
CN111143880A (zh) * | 2019-12-27 | 2020-05-12 | 中电长城网际系统应用有限公司 | 数据处理方法和装置、电子设备、可读介质 |
US11783079B2 (en) | 2019-12-27 | 2023-10-10 | International Business Machines Corporation | Privacy protection for regulated computing environments |
CN111241581A (zh) * | 2020-01-09 | 2020-06-05 | 山东师范大学 | 基于敏感度分层的多敏感属性隐私保护方法及系统 |
CN112632612A (zh) * | 2020-12-28 | 2021-04-09 | 南京邮电大学 | 一种医疗数据发布匿名化方法 |
CN113254988A (zh) * | 2021-04-25 | 2021-08-13 | 西安电子科技大学 | 高维敏感数据隐私分级保护发布方法、系统、介质及设备 |
CN113254988B (zh) * | 2021-04-25 | 2022-10-14 | 西安电子科技大学 | 高维敏感数据隐私分级保护发布方法、系统、介质及设备 |
CN114111816A (zh) * | 2021-11-16 | 2022-03-01 | 北京长隆讯飞科技有限公司 | 一种基于人工智能的低成本车道级高精度地图的方法 |
CN117171787A (zh) * | 2023-08-24 | 2023-12-05 | 湖北交投襄阳高速公路运营管理有限公司 | 高速路收费专网移动存储设备的访问管控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107766745B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766745A (zh) | 层次数据发布中的分级隐私保护方法 | |
Dhurandhar et al. | Model agnostic contrastive explanations for structured data | |
CN108874957B (zh) | 基于Meta-graph知识图谱表示的对话式音乐推荐方法 | |
CN110909754B (zh) | 一种属性生成对抗网络及基于该网络的搭配服饰生成方法 | |
WO2017211051A1 (zh) | 目标对象的社交账号挖掘方法、服务器和存储介质 | |
San Martın et al. | SNQL: A social networks query and transformation language | |
Hudson | The China Handbook | |
Oesterling et al. | Computing and visualizing time-varying merge trees for high-dimensional data | |
Prasad | Toward decolonizing modern Western structures of knowledge: A postcolonial interrogation of (Critical) Management Studies | |
Yang et al. | Corporate relative valuation using heterogeneous multi-modal graph neural network | |
Sakib | Comparing the sociology of culture in Bangladesh and India: Similarities and differences in Bangladeshi and Indian cultures | |
Charlot | Political parties: towards a new theoretical synthesis | |
Carrizosa et al. | On clustering and interpreting with rules by means of mathematical optimization | |
CN109788067A (zh) | 一种基于区块链的信息处理方法和信息处理系统 | |
CN116955846B (zh) | 融合主题特征和交叉注意力的级联信息传播预测方法 | |
Wang et al. | A network representation learning method based on topology | |
Cui et al. | Cross-modal alignment with graph reasoning for image-text retrieval | |
Christen et al. | Advanced record linkage methods and privacy aspects for population reconstruction—a survey and case studies | |
CN115545098A (zh) | 一种基于注意力机制的三通道图神经网络的节点分类方法 | |
Runkler | Generation of linguistic membership functions from word vectors | |
Zuo et al. | Coupled low rank approximation for collaborative filtering in social networks | |
Eszterhai | Searching for an alternative global order: the Qing tributary system and the mechanism of Guanxi | |
Huang et al. | Social network coalescence based on multilayer network model | |
Zhang et al. | Identifiability and parameter estimation of the overlapped stochastic co-block model | |
Zhou et al. | A multi-graph neural group recommendation model with meta-learning and multi-teacher distillation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |