CN106650487B

CN106650487B - 基于多维敏感数据发布的多部图隐私保护方法

Info

Publication number: CN106650487B
Application number: CN201610869530.9A
Authority: CN
Inventors: 王利娥; 李先贤; 郭亚萌
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2019-04-26
Anticipated expiration: 2036-09-29
Also published as: CN106650487A

Abstract

本发明公开一种基于多维敏感数据发布的多部图隐私保护方法，主要包括将原始表数据构建成多部图形式和基于多部图的隐私保护策略两大部分。将ID作为一类节点，其对应的准标识符以标签形式来体现，每一个敏感属性采用一种类型的节点来表示，某个用户具有某种敏感属性则两个节点之间存在一条边来体现关联。对于采用聚类方法进行分组，同组的用户视为一个超级节点，与敏感属性之间的关联程度以带权重的边来体现，边的权重即是该组用户中具有该敏感属性值的概率，属性与属性之间的关联程度同样是以带权重的边来体现，以达到既保留了属性之间的关联性又有效的保护了多敏感属性及其关联的隐私安全。

Description

基于多维敏感数据发布的多部图隐私保护方法

技术领域

本发明涉及隐私保护技术领域，具体涉及一种基于多维敏感数据发布的多部图隐私保护方法。

背景技术

当今人类社会已步入信息时代，信息产业也呈现出高速发展的态势。互联网不断深入到政治、经济、文化、医疗及教育等各个领域并产生了大量的数据，而这些数据共享和发布可被用于进行海量数据分析。随着数据挖掘技术的日益发展及广泛应用，这些数据发布在科学研究、群体行为趋势分析，疾病预测以及经营决策和舆情监控等方面，给人们带来了极大的便利，具有重大的社会和经济价值。数据发布技术作为数据共享的一种有效手段，为数据的交换和共享提供了强有力的支持。然而，这些数据往往与个人信息相关，随着信息时代的发展和近年来隐私信息泄露等事件的不断发生引起人们的广泛关注，人们对隐私信息的概念悄然发生变化，对隐私信息的保护也越来越重视。因此，数据发布中的隐私保护问题一经提出就受到了社会和公众的日益重视，在保证信息可用性的同时，如何保护用户的隐私成为了数据分析研究领域的主要瓶颈问题。

在现有的隐私保护研究中，大多数的研究主要针对单个敏感属性的数据集。然而在大多重要的实际应用中，往往需要涉及多维敏感属性，并需要对属性与属性之间存在的关联进行分析研究，相比单个敏感属性的数据而言，多维敏感属性数据的隐私保护更具挑战性，主要体现在以下几个方面：

(1)数据集中需要保护的隐私信息涉及多维敏感属性，常用的泛化匿名技术会导致过多的信息损失；

(2)多维敏感属性数据集中允许出现同一ID存在多条记录的情况，且大多属性域的值的个数并不多，用表数据形式来表示存在大量的数据冗余；

(3)敏感属性与敏感属性、准标识符与敏感属性之间均存在关联，其关联信息会增强攻击者的背景知识，从而导致隐私信息泄露，因此其关联信息同样需要进行隐私保护。

然而，现有面向具有多维敏感属性数据发布的隐私保护技术主要还是基于单个敏感属性数据发布方法进行简单扩展，主要采用准标识符的泛化、属性的垂直或水平剖分等简单的匿名处理方法，但匿名处理后的数据由于切断了准标识符与敏感信息之间的关联，因而在实际应用中，会导致处理后数据的由于信息损失量过大，大大降低了数据的利用价值。最近有相关研究提出一种对敏感属性进行泛化的匿名处理方法以减少信息损失，但其隐私模型对于敏感属性之间的多维关联性缺乏描述，攻击者可以利用这点进行攻击。比如，某医生只主治某一类疾病、某些疾病具有地域特色、某种婚姻状态的人更容易犯某些疾病等。

发明内容

本发明所要解决的技术问题是针对多维敏感数据的发布，现有隐私保护方法存在信息损失过多以及多敏感属性之间存在相关性以导致隐私泄露的问题，提供一种基于多维敏感数据发布的多部图隐私保护方法。

为解决上述问题，本发明是通过以下技术方案实现的：

基于多维敏感数据发布的多部图隐私保护方法，包括如下步骤：

步骤1、构建多部图；即先将ID和各维敏感属性用不同类型的节点集来表示；再去掉ID，并以准标识符为ID节点的标签；后根据某个ID的记录所包含的敏感属性值，将不同节点集之间的节点用边连接起来，获得多部图；

步骤2、在构建的多部图中，根据各条关系存在的概率作为该相应边的初始概率；

步骤3、根据准标识符聚类分组实现匿名；即先根据多维准标识符的综合相似度；再采用基于k-匿名模型将将相似度最高的k个节点聚类为同一组或采用基于ρ-不确定性模型将高于设定阈值的节点聚类为同一组；后将该组节点视为一个整体即超级节点，并修改与该超级节点中所有节点的相关边的概率。

步骤1中，准标识符为除了ID之外的非敏感属性。

步骤3中，节点v₁与v₂之间综合相似度Sim(v₁,v₂)的计算公式如下：

其中，x_i表示第i个属性的优先因子；l_i(v₁)表示v₁节点的第i个属性的值；l_i(v₂)表示v₂节点的第i个属性的值；n表示准标识符中属性的维数；表示布尔函数，当(l_i(v₁)≠l_i(v₂)时，否则

步骤3中，根据超级节点修改边的概率的计算公式为：

其中，D为在同一个超级节点中包含某敏感属性的节点集，v_j为节点，|G(v_j)|为节点v_j所在的超级节点中包含的节点数目，P(e)即为边e存在的概率。

所述基于多维敏感数据发布的多部图隐私保护方法还进一步包括：步骤4、根据属性之间的关联性修改相关边的概率。

步骤4中，根据属性M、S和D之间的关联性修改相关边的概率的计算公式为：

P(M|S)＝P(M,S)/P(S)

P(D|M,S)＝P(D,M|S)/P(M|S)

其中，P(M|S)表示在S发生的条件下M发生的概率，P(M,S)表示M,S同时发生的概率，P(S)表示S发生的概率；P(D|M,S)表示在M，S同时发生的条件下D发生的概率；P(D,M|S)表示在S发生的条件下D，M同时发生的概率。

与现有技术相比，本发明具有如下特点：

1、采用多部图的方式来表示多维敏感属性数据：将ID作为一类节点(去掉ID属性值实现简单匿名)，其对应的准标识符以标签形式来体现，每一个敏感属性采用一种类型的节点来表示，某个用户具有某种敏感属性则两个节点之间存在一条边来体现关联。

2、采用概率图模型进行隐私保护：对于采用聚类方法进行分组，同组的用户视为一个超级节点，与敏感属性之间的关联程度以带权重的边来体现，边的权重即是该组用户中具有该敏感属性值的概率，属性与属性之间的关联程度同样是以带权重的边来体现，以达到既保留了属性之间的关联性又有效的保护了多敏感属性及其关联的隐私安全。

附图说明

图1为原始表数据。

图2为匿名数据发布图。

图3为构建多部图的示意图。

图4为添加边的概率的示意图。

图5为匿名分组的示意图。

图6为修改条件概率作为边的权重的示意图。

具体实施方式

本发明面向多敏感属性数据的发布提供了一种基于的多部图隐私保护方法，主要包括将原始表数据构建成多部图形式和基于多部图的隐私保护策略两大部分。

1、将原始表数据构建成多部图形式。如图1所示，原始数据集中Name列为ID，Age、Zip和Sex为非敏感属性，Salary，Marital Status，Disease为敏感属性。构建多部图时，采用无向图G(V_m，E，W)抽象表示多敏感属性数据集，V_m是顶点的有限集合(其中V₁是带准标识符标签的用户节点集，V_i表示数据集中的第i-1个敏感属性的节点集)，E是V上的二元关系表示不同节点集之间的关系，即某个用户拥有某个敏感属性值；W表示边的权重，即该条关系存在的概率；每条边的权重范围为(0，1]，若两个节点之间不存在边则表示他们之间没有任何关系。举例说明：带有标签为(21，21853，M)的结点与标签为(3k)的节点之间存在一条权重为0.5的边，则表示该节点有50％的概率其salary敏感属性值为3k。

2、基于多部图的隐私保护策略。为保护隐私的同时又提高数据的实用性，本发明对准标识符不作任何泛化，而是对准标识符进行聚类分组成超级节点，再将该组与某个敏感属性的节点以带权重的边相连，表示该组拥有某个敏感属性值的概率，即攻击者能将某个个体与敏感属性值关联起来的成功概率。类似的，同一条记录的不同敏感属性之间的关联也用带权重的边来表示，使得匿名发布图能在保证隐私安全的同时较好的保留属性之间的关联性。如图图2所示，为匿名数据发布图。

具体来说，一种基于多维敏感数据发布的多部图隐私保护方法，具体实现过程如下：

步骤一：构建多部图。参见图3。

将ID和各维敏感属性分别用不同类型的节点集来表示，其中用户节点集去掉ID标识以实现简单匿名，并以准标识符(除了ID之外的非敏感属性，可以是多维)作为用户节点的标签，然后根据某个ID的记录所包含的敏感属性值，将不同节点集之间的节点用边连接起来，比如图1中的第1条记录，Bob拥有的非敏感属性包括：age为21，zip为21853，sex为M，即得带有标签为(21，21853，M)的用户结点；Bob用户的敏感属性包括：Salary为3k，MaritalStatus为single，Disease为asthma；则标签为(21，21853，M)的用户结点与Salary节点集中的3k节点之间存在一条边，而3k节点与Marital Status节点集中的single节点之间存在一条边，而single节点与Disease节点集中的asthma节点之间存在一条边；其他记录以此类推添加边，直到所有的记录均添加完成，可得到如图3所示的多部图。

步骤二：添加边的权重，边的权重即为该关系边存在的概率。参见图4。

比如在原始数据表中，我们注意到，Salary属性集中值为3k的节点不止Bob一个，还有1个带有标签为(28，21854，M)的用户结点也拥有3k的Salary属性值，共有2个，但其对应的Marital Status属性的值分别为Single和Divorced，因此在3k节点与Marital Status节点集中的single节点之间的边权重为1的话也就意味着，这两个用户节点的MaritalStatus属性值均为Single，而事实并非如此。为更好的保留数据的实用性，本发明采用添加边的权重的方法来更好地体现敏感属性之间的关联。由于两个拥有3kSalary属性值的用户节点的Marital Status属性值分别为Single和Divorced，也就意味着这两个节点均有1/2的概率具有Single或Divorced属性值，因此，应在节点3k与single之间的边添加权重0.5，节点3k与divorced之间的边添加权重0.5，表示其之间的关系边存在的概率为1/2即0.5，其余类推，即可得到如图4所示的添加边的概率的示意图。

步骤三：根据准标识符聚类分组实现匿名。参见图5。

首先，根据多维准标识符的综合相似度。然后，采用基于k-匿名模型将将相似度最高的k个节点聚类为同一组或采用基于ρ-不确定性模型将高于设定阈值的节点聚类为同一组。最后，将该组节点视为一个整体即超级节点，并修改与该超级节点中所有节点的相关边的概率。

根据常识可知，个体与敏感属性之间的边权重如果为1的话，就代表攻击者能以百分百的概率将某个个体与敏感属性关联起来，也就是隐私泄露。所以为保护隐私，应对数据进行匿名处理。为提高数据的实用性，本发明采用基于准标识符聚类的方法来进行匿名分组，以尽量保留数据集的整体统计特性。如下图所示，根据多维准标识符的综合相似度，将相似度高的节点聚类为同一组。拥有n个属性的{l₁，l₂，…，l_n}节点v₁与v₂之间的相似度计算公式如下：

其中，i表示准标识符中的第i个属性，x_i表示第i个属性的优先因子；l_i(v₁)表示v₁节点的第i个属性的值；l_i(v₂)表示v₂节点的第i个属性的值；n表示准标识符中共n维属性；表示布尔函数，当(l_i(v₁)≠l_i(v₂)时，否则显然，该公式计算得到的值越高，也就意味着两个节点的相似度越高。本发明可以将相似度最高的k个节点聚类为同一组(基于k-匿名模型)，也可以设置一个阈值，高于该阈值的节点聚类为同一组(基于ρ-不确定性模型)。

接着，将同一组的节点视为超级节点，并修改相应的边的概率，得到如图5所示匿名分组的示意图。

根据超级节点修改边的概率的计算公式为：

其中，D为在同一个超级节点中包含某敏感属性值的节点集，j为D节点集中的第j个节点，|G(v_j)|为v_j节点所在的超级节点中包含的节点数目，e为敏感属性S与v_j所在的超级节点G之间存在的一条边，P(e)即为边e存在的概率。

步骤四：根据属性之间的关联性修改条件概率。(在这里，要特别说明的一点是，如果敏感属性之间是相互独立的，不存在关联，那么完成第三步整个过程就结束了。)参见图6。

由于敏感属性之间存在关联性，因此我们还需要根据第一个敏感属性的概率计算第二个敏感属性值的条件概率即P(M|S)＝P(M,S)/P(S)，然后再依次计算第三个敏感属性值的条件概率，以此类推，对所有相关边的概率进行修改，如图6所示修改条件概率作为边的权重的示意图。最终数据的整体隐私安全可根据条件概率的链式法则进行计算得到：P(S,M,D)＝P(S)P(M|S)P(D|M,S)。

至此，整个数据匿名过程已完成，我们可以得到如图2所示的匿名数据发布图。如图2所示的匿名图能够很好保护敏感属性及其之间的敏感关联的安全，同时又很好的保留了数据之间的关联性，对于数据查询和关联性规则挖掘等重要的数据应用领域具有很好的实用性。

本发明提出采用多部图的方法来表示多维敏感数据集，以达到去冗余的目的，并围绕多维敏感关联性的隐私泄露原理，基于多部图提出一种概率图模型的隐私保护策略是本发明的目的。该隐私保护策略在尽量降低信息损失量的同时，充分考虑到了攻击者利用敏感属性之间的关系进行攻击的情况，构建一种带权重边的匿名数据发布图，有效的保护了隐私安全并能完好的保留了属性与属性之间的关联性。

Claims

1.基于多维敏感数据发布的多部图隐私保护方法，其特征是，包括如下步骤：

步骤1、构建多部图；即先将ID和各维敏感属性用不同类型的节点集来表示；再去掉ID，并以准标识符为ID节点的标签；后根据某个ID的记录所包含的敏感属性值，将不同节点集之间的节点用边连接起来，获得多部图G(V_m，E，W)；V_m表示顶点的有限集合，V₁是带准标识符标签的用户节点集，V_i表示数据集中的第i-1个敏感属性的节点集；E表示不同节点集之间的关系，即某个用户拥有某个敏感属性值；W表示边的权重，即该条关系存在的概率；

步骤3、根据准标识符聚类分组实现匿名；即先根据多维准标识符的综合相似度；再采用基于k-匿名模型将将相似度最高的k个节点聚类为同一组或采用基于ρ-不确定性模型将高于设定阈值的节点聚类为同一组；后将该组节点视为一个整体即超级节点，并修改与该超级节点中所有节点的相关边的概率；其中节点v₁与v₂之间综合相似度Sim(v₁,v₂)的计算公式如下：

其中，x_i表示第i个属性的优先因子；l_i(v₁)表示节点v₁的第i个属性的值；l_i(v₂)表示节点v₂的第i个属性的值；n表示准标识符中属性的维数；表示布尔函数，当(l_i(v₁)≠l_i(v₂)时，否则

2.根据权利要求1所述基于多维敏感数据发布的多部图隐私保护方法，其特征是，步骤1中，准标识符为除了ID之外的非敏感属性。

3.根据权利要求1所述基于多维敏感数据发布的多部图隐私保护方法，其特征是，步骤3中，根据超级节点修改边的概率的计算公式为：

4.根据权利要求1所述基于多维敏感数据发布的多部图隐私保护方法，其特征是，还进一步包括：步骤4、根据属性之间的关联性修改相关边的概率。

5.根据权利要求4所述基于多维敏感数据发布的多部图隐私保护方法，其特征是，步骤4中，根据属性M、S和D之间的关联性修改相关边的概率的计算公式为：

P(M|S)＝P(M,S)/P(S)

P(D|M,S)＝P(D,M|S)/P(M|S)