一种敏感属性数据的处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种敏感属性数据的处理方法及系统。
背景技术
随着信息领域和网络领域的快速发展,数据呈现爆炸式增长。每天都有海量的个人信息被发布,例如发布人口普查数据、个人消费数据和医疗数据等包含个人信息的数据。政府部门和商业机构会根据收集得到的个人信息进行分析,以更好的进行社会管理和商业决策。
在发布个人信息的过程中,有可能会将个人信息中的敏感属性数据泄露,对被泄露人员造成极大的负面影响。因此目前在发布个人信息时,会将个人信息中与身份相关的属性数据删除,以达到保护个人隐私的目的。但是,将个人信息中与身份相关的属性数据删除,会造成个人信息的严重失真,致使个人信息的可用性降低,以及导致根据个人信息进行分析的分析结果准确度降低。
发明内容
有鉴于此,本发明实施例提供一种敏感属性数据的处理方法及系统,以解决目前隐私保护方式存在的个人信息可用性低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种敏感属性数据的处理方法,所述方法包括:
获取包含多组用户数据的用户数据集,每组用户数据由自身对应的用户在多个不同个人属性中的个人数据构成,预先将所述多个不同个人属性划分为标识符属性、准标识符属性和敏感属性;
基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集;
利用所述多个敏感属性子数据集构建多维桶,并根据所述多维桶将所述多个敏感属性子数据集划分为多组敏感属性数据记录组;
确定所述多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组;
在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组;
基于预先根据每个个人属性构建的概化树,将所有第一敏感属性数据记录组匿名化,得到多组匿名分组;
对所述多组匿名分组进行随机排序,得到并发布随机排序结果。
优选的,所述基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集,包括:
基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据,确定每个所述准标识符属性和敏感属性之间的关联度;
利用所述关联度,将所述用户数据集划分为敏感属性子集和关联度小于阈值的准标识符属性子集所述敏感属性子集包含:敏感属性和所述关联度大于阈值的准标识符属性;
利用聚类算法将所述敏感属性子集划分为多个敏感属性子数据集。
优选的,所述利用所述多个敏感属性子数据集构建多维桶,包括:
基于所述敏感属性子数据集中敏感属性对应的属性值,构建每一敏感属性子数据集对应的多维桶;
针对每一所述敏感属性子数据集,将所述敏感属性子数据集中敏感属性对应的个人数据存储至自身对应的多维桶中。
优选的,所述根据所述多维桶将所述多个敏感属性子数据集划分为多组敏感属性数据记录组,包括:
基于预设顺序,依次从所述多维桶的一个桶中选择一条个人记录,直至获取由k个不同的桶中的k条个人记录构成的一组敏感属性数据记录组;
重复执行获取敏感属性数据记录组这一步骤,直至选择的个人记录的数量无法构成一组敏感属性数据记录组,得到多组敏感属性数据记录组。
优选的,所述在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组,包括:
针对每一第二敏感属性数据记录组中的每条剩余记录,在不破坏复合多敏感属性L-多样性的情况下,确定是否存在能添加所述剩余记录的第一敏感属性数据记录组;
若存在,将所述剩余记录添加至所述第一敏感属性数据记录组;
若不存在,隐匿所述剩余记录。
本发明实施例第二方面公开一种敏感属性数据的处理系统,所述系统包括:
获取单元,用于获取包含多组用户数据的用户数据集,每组用户数据由自身对应的用户在多个不同个人属性中的个人数据构成,预先将所述多个不同个人属性划分为标识符属性、准标识符属性和敏感属性;
处理单元,用于基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集;
划分单元,用于利用所述多个敏感属性子数据集构建多维桶,并根据所述多维桶将所述多个敏感属性子数据集划分为多组敏感属性数据记录组;
确定单元,用于确定所述多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组;
添加单元,用于在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组;
匿名化单元,用于基于预先根据每个个人属性构建的概化树,将所有第一敏感属性数据记录组匿名化,得到多组匿名分组;
排序单元,用于对所述多组匿名分组进行随机排序,得到并发布随机排序结果。
优选的,所述处理单元包括:
确定模块,用于基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据,确定每个所述准标识符属性和敏感属性之间的关联度;
第一划分模块,用于利用所述关联度,将所述用户数据集划分为敏感属性子集和关联度小于阈值的准标识符属性子集,所述敏感属性子集包含:敏感属性和所述关联度大于阈值的准标识符属性;
第二划分模块,用于利用聚类算法将所述敏感属性子集划分为多个敏感属性子数据集。
优选的,所述划分单元包括:
建立模块,用于基于所述敏感属性子数据集中敏感属性对应的属性值,构建每一敏感属性子数据集对应的多维桶;
存储模块,用于针对每一所述敏感属性子数据集,将所述敏感属性子数据集中敏感属性对应的个人数据存储至自身对应的多维桶中。
优选的,所述划分单元具体用于:基于预设顺序,依次从所述多维桶的一个桶中选择一条个人记录,直至获取由k个不同的桶中的k条个人记录构成的一组敏感属性数据记录组,重复执行获取敏感属性数据记录组这一步骤,直至选择的个人记录的数量无法构成一组敏感属性数据记录组,得到多组敏感属性数据记录组。
优选的,所述添加单元具体用于:针对每一第二敏感属性数据记录组中的每条剩余记录,在不破坏复合多敏感属性L-多样性的情况下,确定是否存在能添加所述剩余记录的第一敏感属性数据记录组,若存在,将所述剩余记录添加至所述第一敏感属性数据记录组,若不存在,隐匿所述剩余记录。
基于上述本发明实施例提供的一种敏感属性数据的处理方法及系统,该方法为:获取包含多组用户数据的用户数据集;基于用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集;利用多个敏感属性子数据集构建多维桶,并根据多维桶将多个敏感属性子数据集划分为多组敏感属性数据记录组;确定多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组;在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组;基于预先根据每个个人属性构建的概化树,将所有第一敏感属性数据记录组匿名化,得到多组匿名分组;对多组匿名分组进行随机排序,得到并发布随机排序结果。打乱准标识符属性和敏感属性之间的对应关系,避免根据用户数据推测出用户的私人信息,保证个人信息的可用性和安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种敏感属性数据的处理方法流程图;
图2为本发明实施例提供的获取多个敏感属性子数据集的流程图;
图3为本发明实施例提供的一种敏感属性数据的处理方法的流程示意图;
图4为本发明实施例提供的一种敏感属性数据的处理系统的结构框图;
图5为本发明实施例提供的另一种敏感属性数据的处理系统的结构框图;
图6为本发明实施例提供的又一种敏感属性数据的处理系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,因此目前在发布个人信息时,会将个人信息中与身份相关的属性数据删除,以达到保护个人隐私的目的。但是,将个人信息中与身份相关的属性数据删除,会造成个人信息的严重失真,致使个人信息的可用性降低,以及导致根据个人信息进行分析的分析结果准确度降低。
因此,本发明实施例提供一种敏感属性数据的处理方法及系统,通过打乱准标识符属性和敏感属性之间的对应关系,避免根据用户数据推测出用户的私人信息,以保证个人信息的可用性和安全性。
为更好解释说明本发明实施例中涉及的各个属性和匿名记录组等名词的具体含义,通过以下内容进行说明:
标识符属性:对于一组用户数据,能够唯一识别一个用户的身份的属性称为标识符属性,例如:姓名和身份证号码等属性。
准标识符属性:对于一组用户数据,不能唯一识别一个用户的身份,但是可能会揭露该用户的私人信息和识别该用户的身份的属性称为准标识符属性,例如:生日等属性。
敏感属性:人为规定的需要极力保护的属性信息,一旦泄露会对用户产生极大的负面影响的属性,例如:薪酬和病史等属性。
匿名分组:在同一匿名分组中,每条记录的准标识符信息都是完全一致的,数据攻击者只能将攻击目标定位到某一匿名分组,而无法具体定位到某条记录中。
k-匿名原则:要求匿名分组中至少有k条记录,使数据攻击者推测被攻击用户身份的概率小于等于1/k。
复合多敏感属性L-多样性:得到的匿名分组中,每个属性都必须同时满足L-多样性要求。
参见图1,示出了本发明实施例提供的一种敏感属性数据的处理方法流程图,所述保护方法包括以下步骤:
步骤S101:获取包含多组用户数据的用户数据集。
需要说明的是,每组用户数据由自身对应的用户在多个不同个人属性中的个人数据构成,例如:每组用户数据由该用户的性别、年龄、地址、病史和年薪等个人属性对应的数据构成。将所述多个不同个人属性划分为标识符属性、准标识符属性和敏感属性。预先对前述涉及的每个个人属性构建对应的概化树,并为概化树中的每一层分配唯一的权值。例如构建地址对应的概化树为:将中国作为概化树的根节点,根节点的下一级节点为省份,省份对应的节点的下一级节点为市,以此类推构建地址对应的概化树。
步骤S102:基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集。
在具体实现步骤S102的过程中,计算每个所述准标识符属性和敏感属性之间的关联度,根据所述关联度和聚类算法,确定所述多个敏感属性子数据集。
步骤S103:利用所述多个敏感属性子数据集构建多维桶,并根据所述多维桶将所述多个敏感属性子数据集划分为多组敏感属性数据记录组。
在具体实现步骤S103的过程中,基于所述敏感属性子数据集中敏感属性对应的属性值,构建每一敏感属性子数据集对应的多维桶。针对每一所述敏感属性子数据集,将所述敏感属性子数据集中敏感属性对应的个人数据存储至自身对应的多维桶中,其中,每一敏感属性对应的个人数据对应所述多维桶的一维。具体为:根据每一敏感属性对应的个人数据,确定该个人数据对应的多维桶的桶,并将该个人数据存储至所述桶中。例如对于年薪和疾病两个敏感属性,假设疾病属性的属性值为癌症和感冒,基于年薪和疾病两个敏感属性的属性值构建的多维桶如表1所述的内容。在所述表1中,每个单元格为一个桶。
表1:
在进一步实现的过程中,利用最大桶算法,基于预设顺序,依次从所述多维桶的一个桶中选择一条个人记录,直至获取由k个不同的桶中的k条个人记录构成的一组敏感属性数据记录组。重复执行获取敏感属性数据记录组这一步骤,直至选择的个人记录的数量无法构成一组敏感属性数据记录组,得到多组敏感属性数据记录组。每获取一组敏感属性数据记录组的预设顺序为:第一次选择个人记录时,优先从数据容量最大的桶中选择一条个人记录。在每一次选择个人记录后,将与该个人记录同行同列的桶屏蔽掉,即在下一次选择个人记录时,不能从被屏蔽掉的桶中选择个人记录。继续选择个人记录直至获取一组敏感属性数据记录组。例如:结合表1中的内容,第一次选择个人记录时选择t1,将与t1同行同列的桶屏蔽掉,即第二次选择个人记录时只能选择t5或t6。
步骤S104:确定所述多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组。
在具体实现步骤S104的过程中,判断每组敏感属性数据记录组是否符合复合多敏感属性L-多样性,确定多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组。其中,所述第二敏感属性数据记录组中的数据称为剩余记录。
步骤S105:在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组。
在具体实现步骤S105的过程中,针对每一第二敏感属性数据记录组中的每条剩余记录,在不破坏复合多敏感属性L-多样性的情况下,确定是否存在能添加所述剩余记录的第一敏感属性数据记录组。若存在,将所述剩余记录添加至所述第一敏感属性数据记录组。若不存在,隐匿所述剩余记录。
需要说明的是,将剩余记录添加至所述第一敏感属性数据记录组后,为确保新得到的第一敏感属性数据记录组也满足复合多敏感属性L-多样性,需判断新得到的第一敏感属性数据记录组是否符合复合多敏感属性L-多样性。
步骤S106:基于预先根据每个个人属性构建的概化树,将所有第一敏感属性数据记录组匿名化,得到多组匿名分组。
在具体实现步骤S106的过程中,基于k-匿名原则将所有第一敏感属性数据记录组匿名化,得到多组匿名分组。对于每一所述第一敏感属性数据记录组,将所述第一敏感属性数据记录组中的数值属性的数据进行概化。对每一数值属性的数据进行概化的方式为:将该数值属性的最值作为范围边界代替真实值。例如:对于所述第一敏感属性数据记录组中的年龄,最小年龄为10岁,最大年龄为20岁,将所述第一敏感属性数据记录组中的年龄全都用[10,20]代替。
在进一步的实现中,对于每一所述第一敏感属性数据记录组中的非数值属性的数据,若非数值属性的取值相同,则无需对该非数值属性进行概化。若非数值属性的取值不同,则需从该非数值属性对应的概化树中,获取所述第一敏感属性数据记录组中该非数值属性取值的所有叶子节点,并确定所有叶子节点对应的最小公共父节点,将该最小公共父节点代替该非数值属性取值的真实值。例如:对于第一敏感属性数据记录组中的地址属性,该第一敏感属性数据记录组中的取值为番禺区、海珠区和天河区等,前述几个区都属于广州市,即最小公共父节点为广州市,因此该第一敏感属性数据记录组中的取值都用广州市来代替,从而完成概化。
步骤S107:对所述多组匿名分组进行随机排序,得到并发布随机排序结果。
在本发明实施例中,基于用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集。并利用多个敏感属性子数据集构建多维桶,将多个敏感属性子数据集划分为多组敏感属性数据记录组。确定多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组。在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组。将所有第一敏感属性数据记录组匿名化,得到多组匿名分组。对多组匿名分组进行随机排序,得到并发布随机排序结果。打乱准标识符属性和敏感属性之间的对应关系,避免根据用户数据推测出用户的私人信息,保证个人信息的可用性和安全性。
上述本发明实施例图1步骤S102涉及到的得到多个敏感属性子数据集的过程,参见图2,示出了本发明实施例提供的获取多个敏感属性子数据集的流程图,包括以下步骤:
步骤S201:基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据,确定每个所述准标识符属性和敏感属性之间的关联度。
在具体实现步骤S201的过程,预先利用数据关联规则挖掘算法构建准标识符属性和敏感属性之间的关联规则,例如利用Aprior算法或FP-growth算法构建所述关联规则。结合所述准标识符属性和敏感属性对应的个人数据度量每个所述准标识符属性和敏感属性之间的关联度。
步骤S202:利用所述关联度,将所述用户数据集划分为敏感属性子集和关联度小于阈值的准标识符属性子集。
在具体实现步骤S203的过程中,对每个所述准标识符属性和敏感属性之间的关联度进行聚类处理,例如进行K-medoids聚类处理。将关联度大于阈值的准标识符属性和敏感属性划分在一个子集中,即敏感属性子集。将关联度小于阈值的准标识符属性单独划分于其它子集中,即关联度小于阈值的准标识符属性子集。
步骤S203:利用聚类算法将所述敏感属性子集划分为多个敏感属性子数据集。
在具体实现步骤S203的过程中,利用预设的聚类算法对所述敏感属性子集中的个人数据进行处理,得到所述多个敏感属性子数据集。例如:利用K-means聚类算法、K-medoids算法、BIRCH算法或CLARANS算法将所述敏感属性子集划分为多个敏感属性子数据集。
为更好解释说明如何将所述敏感属性子集划分为多个敏感属性子数据集。以使用K-means聚类算法为例,结合过程A1-A3进行举例说明:
A1、从所述敏感属性子集中选择K个个人数据作为聚心,每个聚心对应一个集合。
A2、计算每条个人数据与各个聚心的距离,将每条个人数据划分至与自身距离最近的聚心所对应的集合中。
A3、对于每一聚心对应的集合,计算该集合中所有个人数据的平均值,将该平均值作为新的聚心。获取所有新的聚心后返回执行过程A2,直至新的聚心不再发生变化,最终得到多个敏感属性子数据集。
在本发明实施例中,计算每个准标识符属性和敏感属性之间的关联度,根据关联度的大小确定敏感属性子集。将敏感属性子集划分为多个敏感属性子数据集。利用得到的多个敏感属性子数据集进行后续敏感数据的保护流程,打破与敏感属性关联弱的准标识符属性和与敏感属性关联强的准标识符属性之间的对应关系,避免根据用户数据推测出用户的私人信息,保证个人信息的可用性和安全性。
为更好解释说明上述图1和图2涉及的各个步骤中的内容,通过图3进行举例说明。参见图3,示出了本发明实施例提供的一种敏感属性数据的处理方法的流程示意图,所述方法包括以下步骤:
步骤S301:获取用户数据集。
步骤S302:计算准标识符属性和敏感属性的关联度。
步骤S303:根据关联度,使用K-medoids聚类算法,得到敏感属性子集。
步骤S304:对敏感属性子集进行聚类,将所述敏感属性子集划分为多个敏感属性子数据集。
步骤S305:利用所述多个敏感属性子数据集构建多维桶。
步骤S306:利用最大桶算法,将所述多个敏感属性子数据集划分为多组敏感属性数据记录组。
步骤S307:确认每一敏感属性数据记录组是否满足复合多敏感属性L-多样性,若是,执行步骤S310,若否,执行步骤S308。
步骤S308:在不破坏满足复合多敏感属性L-多样性的情况下,确定是否存在可供剩余记录加入的第一敏感属性数据记录组,若是,执行步骤S309,若否,执行步骤S310。
步骤S309:将剩余记录加入第一敏感属性数据记录组,得到新的第一敏感属性数据记录组,返回执行步骤S307。
步骤S310:将所有第一敏感属性数据记录组匿名化,得到多组匿名分组。
步骤S311:对所述多组匿名分组进行随机排序。
需要说明的是,步骤S301至步骤S311的执行原理,可参见上述图1和图2各个步骤的内容,在此不再进行举例说明。
本发明实施例中,根据准标识符属性和敏感属性的关联度,得到多个敏感属性子数据集。利用多个敏感属性子数据集构建多维桶,将多个敏感属性子数据集划分为多组敏感属性数据记录组。确定多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组。在不破坏复合多敏感属性L-多样性的情况下,将剩余记录添加至第一敏感属性数据记录组。将所有第一敏感属性数据记录组匿名化,得到多组匿名分组。对多组匿名分组进行随机排序,得到并发布随机排序结果。打乱准标识符属性和敏感属性之间的对应关系,避免根据用户数据推测出用户的私人信息,保证个人信息的可用性和安全性。
与上述本发明实施例图1提供的一种敏感属性数据的处理方法相对应,参见图4,本发明实施例还提供一种敏感属性数据的处理系统的结构框图,所述系统包括:获取单元401、处理单元402、划分单元403、确定单元404、添加单元405、匿名化单元406和排序单元407;
获取单元401,用于获取包含多组用户数据的用户数据集,每组用户数据由自身对应的用户在多个不同个人属性中的个人数据构成,预先将所述多个不同个人属性划分为标识符属性、准标识符属性和敏感属性。个人属性的具体内容参见上述本发明实施例图1步骤S101中相对应的内容。
处理单元402,用于基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集。
划分单元403,用于利用所述多个敏感属性子数据集构建多维桶,并根据所述多维桶将所述多个敏感属性子数据集划分为多组敏感属性数据记录组。
在具体实现中,所述划分单元403具体用于:基于预设顺序,依次从所述多维桶的一个桶中选择一条个人记录,直至获取由k个不同的桶中的k条个人记录构成的一组敏感属性数据记录组,重复执行获取敏感属性数据记录组这一步骤,直至选择的个人记录的数量无法构成一组敏感属性数据记录组,得到多组敏感属性数据记录组。构建多维桶和获取多组敏感属性数据记录组的过程,参见上述本发明实施例图1步骤S103中相对应的内容。
确定单元404,用于确定所述多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组。
添加单元405,用于在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组。
在具体实现中,所述添加单元405具体用于:针对每一第二敏感属性数据记录组中的每条剩余记录,在不破坏复合多敏感属性L-多样性的情况下,确定是否存在能添加所述剩余记录的第一敏感属性数据记录组,若存在,将所述剩余记录添加至所述第一敏感属性数据记录组,若不存在,隐匿所述剩余记录。剩余记录的处理过程,参见上述本发明实施例图1步骤S105中相对应的内容。
匿名化单元406,用于基于预先根据每个个人属性构建的概化树,将所有第一敏感属性数据记录组匿名化,得到多组匿名分组。获得匿名分组的过程,参见上述本发明实施例图1步骤S106中相对应的内容。
排序单元407,用于对所述多组匿名分组进行随机排序,得到并发布随机排序结果。
在本发明实施例中,基于用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集。并利用多个敏感属性子数据集构建多维桶,将多个敏感属性子数据集划分为多组敏感属性数据记录组。确定多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组。在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组。将所有第一敏感属性数据记录组匿名化,得到多组匿名分组。对多组匿名分组进行随机排序,得到并发布随机排序结果。打乱准标识符属性和敏感属性之间的对应关系,避免根据用户数据推测出用户的私人信息,保证个人信息的可用性和安全性。
结合图4,参见图5,示出了本发明实施例提供的一种敏感属性数据的处理系统的结构框图,所述处理单元402包括:确定模块4021、第一划分模块4022和第二划分模块4023;
确定模块4021,用于基于所述用户数据集中的准标识符属性和敏感属性对应的个人数据,确定每个所述准标识符属性和敏感属性之间的关联度。计算关联度的过程参见上述本发明实施例图2步骤S201中相对应的内容。
第一划分模块4022,用于将所述用户数据集划分为敏感属性子集和关联度小于阈值的准标识符属性子集,所述敏感属性子集包含:敏感属性和所述关联度大于阈值的准标识符属性。
第二划分模块4023,用于利用聚类算法将所述敏感属性子集划分为多个敏感属性子数据集。将所述敏感属性子集划分为多个敏感属性子数据集的过程,参见上述本发明实施例图2步骤S203中相对应的内容。
在本发明实施例中,计算每个准标识符属性和敏感属性之间的关联度,根据关联度的大小确定敏感属性子集。将敏感属性子集划分为多个敏感属性子数据集。利用得到的多个敏感属性子数据集进行后续敏感数据的保护流程,打破与敏感属性关联弱的准标识符属性和与敏感属性关联强的准标识符属性之间的对应关系,避免根据用户数据推测出用户的私人信息,保证个人信息的可用性和安全性。
结合图4,参见图6,示出了本发明实施例提供的一种敏感属性数据的处理系统的结构框图,所述划分单元403包括:建立模块4031和存储模块4032;
建立模块4031,用于基于所述敏感属性子数据集中敏感属性对应的属性值,构建每一敏感属性子数据集对应的多维桶;。
存储模块4032,用于针对每一所述敏感属性子数据集,将所述敏感属性子数据集中敏感属性对应的个人数据存储至自身对应的多维桶中。
综上所述,本发明实施提供一种敏感属性数据的处理方法及系统,获取包含多组用户数据的用户数据集;基于用户数据集中的准标识符属性和敏感属性对应的个人数据进行处理,得到多个敏感属性子数据集;利用多个敏感属性子数据集构建多维桶,并根据多维桶将多个敏感属性子数据集划分为多组敏感属性数据记录组;确定多组敏感属性数据记录组中符合复合多敏感属性L-多样性的第一敏感属性数据记录组,以及确定不符合复合多敏感属性L-多样性的第二敏感属性数据记录组;在不破坏复合多敏感属性L-多样性的情况下,将第二敏感属性数据记录组中的数据添加至第一敏感属性数据记录组;基于预先根据每个个人属性构建的概化树,将所有第一敏感属性数据记录组匿名化,得到多组匿名分组;对多组匿名分组进行随机排序,得到并发布随机排序结果。打乱准标识符属性和敏感属性之间的对应关系,避免根据用户数据推测出用户的私人信息,保证个人信息的可用性和安全性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。