CN106778352B

CN106778352B - 集值数据和社会网络数据联合发布的多源隐私保护方法

Info

Publication number: CN106778352B
Application number: CN201710026184.2A
Authority: CN
Inventors: 李先贤; 林汕; 刘鹏; 王如希
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2020-04-07
Anticipated expiration: 2037-01-13
Also published as: CN106778352A

Abstract

本发明公开一种集值数据和社会网络数据联合发布的多源隐私保护方法，针对利用社交网络数据的度和集值数据的非敏感值进行攻击，首先在集值数据上进行分组泛化，要求每个组内满足隐私要求即可，避免全局泛化过度，然后在集值数据分组泛化的基础上，对应的社交网络数据进行组内匿名，在匿名之前先对社交网络数据进行社区检查，匿名时候尽量在社区内部扰动，这样避免匿名时候对社区改变过大。本发明能够适用于多源数据的同时发布。

Description

集值数据和社会网络数据联合发布的多源隐私保护方法

技术领域

本发明涉及数据隐私发布技术领域，具体涉及一种集值数据和社会网络数据联合发布的多源隐私保护方法。

背景技术

随着互联网的飞速发展，人们在网上进行各种各样的活动，随之产生了社交网络数据和集值数据。例如在QQ、微信、Facebook等社交应用上进行交友、联系朋友同事等，在亚马孙、淘宝、京东等电商平台上进行购物行为。为了更深入挖掘这些数据的价值，数据挖掘者和数据分析人员会对数据进行分析。然而，这些社会网络数据和集值数据直接发布会泄露用户信息，这给用户带来潜在的危害。

目前，在社交网络数据和集值数据的隐私保护中各自都有一些研究，大概有以下几方面：

对于集值数据的隐私保护，最初采用的是简单匿名方法，也就是抑制或泛化能唯一确定用户的标识符，如姓名、ID号等，这样简单匿名使得攻击者无法直观定位用户。接着在简单匿名的基础上，依赖泛化层次树，提出了k匿名，使得数据集中的每一条记录出现次数都不少于k。之后借鉴k匿名思想，研究发展出k^m匿名，也就是对于任意m个项目集，数据集中至少包含k条记录，称之满足k^m匿名。除此之外，还有(k，l)^(m，n)匿名、p不确定模型、(h，k，p)coherence模型等集值数据的隐私保护方法。

而社交网络数据中，节点表示用户，边表示用户之间有关系。网络的敏感信息是多样化的，比如边识别，节点识别，属性泄露等都是潜在性敏感的，不同的敏感信息和不同泄露攻击方法，也对应着不同的隐私保护方法。其中，最简单也最常见的匿名方法是简单匿名，也就是移除或用数字或字母序号代替能唯一确定用户的属性。在简单匿名的基础上，节点k匿名方法把结构相似或距离相近的k个节点聚成超级节点，超级节点的边也概化成超级边，由于超级节点内部节点不可以区分，节点被识别的概率小于1/k。除此之外，类似还有子图k匿名、k度匿名、随机化、差分隐私等隐私保护方法。

然而，这些保护模型都是针对单一数据，随着科技的发展，为了更好挖掘信息，发布多源数据是很有必要的。但多源数据同时发布时，原来的保护模型已不适用。

发明内容

本发明所要解决的技术问题是现有保护模型都是针对单一数据，难以适用于多源数据同时分布的问题，提供一种集值数据和社会网络数据联合发布的多源隐私保护方法。

为解决上述问题，本发明是通过以下技术方案实现的：

集值数据和社会网络数据联合发布的多源隐私保护方法，包括如下步骤：

步骤1、去掉集值数据和社会网络数据的标识符，并对社会网络数据进行进行社区检查，得到社区划分；

步骤2、对于根据集值数据的非敏感值，构建一个泛化树；并根据泛化树对集值数据进行分组，使得每个组内的数据集都满足隐私要求；

步骤3、先将社会网络数据节点与集值数据ID对应，根据步骤2所得的集值数据的分组，对社交网络数据的节点进行对应分组；再对社交网络数据进行组内匿名处理。

步骤1中，采用GN算法对社会网络数据进行进行社区检查。

步骤2的具体步骤为：

步骤2.1、根据集值数据的非敏感值制定泛化树，并构造分组层次树，将所有非敏感值泛化到最高层次，敏感值则不做任何操作；

步骤2.2、检查当前集值数据的各个分组是否满足ρ-uncertainty隐私要求；

如果分组满足ρ-uncertainty隐私要求，则直接对该分组进行分组细化；

如果分组不满足ρ-uncertainty隐私要求，在该分组中随机选择某个项目删除，删除后再更新所有关联规则的置信度；如果数据集中存在小于等于ρ的关联规则，则转至步骤2.3；如果数据集中存在大于ρ的关联规则，则继续在该分组中随机选择某个项目删除，直到整个数据集中不再有置信度大于ρ的关联规则；

步骤2.3、计算当前集值数据的细化信息损失和删除信息损失；

如果细化信息损失大于删除信息损失，则转至步骤2.2；

如果细化信息损失小于等于删除信息损失，则直接发布当前组内数据。

步骤3的具体步骤为：

步骤3.1、将社会网络数据节点与集值数据ID对应，并根据步骤2所得的集值数据的分组，对社交网络数据的节点进行对应分组；

步骤3.2、计算社交网络数据的每个分组的平均度，并将距离该平均度最近的偶数作为每个分组的近似平均度；

步骤3.3、对于每个分组，计算当前分组内各个节点vi与本分组的近似平均度的节点差diff(vi)；如果diff(vi)>0，则删除diff(vi)条跟节点vi相连的边E(vi，vj)；删除边E(vi，vj)两端的节点vi和vj的节点差diff(vi)和节点差diff(vj)均减1；

步骤3.4、对于每个分组，将当前分组内剩余节点的节点差diff(vi)进行排序，如果节点差diff(vi)<0，则添加|diff(vi)|条跟节点vi相连的边E(vi，vj)；增加边E(vi，vj)两端的节点vi和vj的节点差diff(vi)和节点差diff(vj)均加1；

步骤3.5、对社交网络数据的所有分组进行步骤3.3和3.4的处理后，直接发布当前社会网络数据。

步骤3.3和步骤3.4中，优先删除和增加社区内的边和diff(vj)<0的边。

与现有技术相比，本发明针对利用社交网络数据的度和集值数据的非敏感值进行攻击，首先在集值数据上进行分组泛化，要求每个组内满足隐私要求即可，避免全局泛化过度，然后在集值数据分组泛化的基础上，对应的社交网络数据进行组内匿名，在匿名之前先对社交网络数据进行社区检查，匿名时候尽量在社区内部扰动，这样避免匿名时候对社区改变过大。本发明能够适用于多源数据的同时发布。

附图说明

图1为一种集值数据。

图2为一种社交网络数据的简单匿名无向图。

图3为集值数据和社会网络数据联合发布的多源隐私保护方法的流程图。

图4为集值数据处理流程图。

图5为社交网络数据处理流程图。

图6为泛化树。

图7为分组层次树。

图8为泛化到ALL后的集值数据。

图9为细化all后的集值数据。

图10为发布的集值数据。

图11为删除处理后社交网络。

图12为发布的社交网络。

具体实施方式

本发明用到的社交网络数据是不带标签的简单匿名无向图，如图1，社交网络数据用G(V，E)表示，其中V是社交网络数据中的节点集，表示社会生活中的用户个体；E是社交网络数据中的边，表示社会生活中的关系。E是V的二元关系。本发明用到的集值数据为带敏感标签的集值数据，如图2，非敏感数据用字母加数字表示，敏感数据用非敏感用阿拉布字母表示。如a1、b1等是非敏感数据，α、γ是敏感数据。集值数据与社交网络数据的联系是：集值数据ID与社会网络数据节点号对应，如集值数据ID为t1的数据记录为社会网络数据用户节点V1的所拥有。

攻击者的背景知识除了发布的集值数据和社交网络数据，还有知道攻击目标在社交网络数据节点的度和攻击目标在集值数据的非敏感值。比如攻击者了解到bob有在社交网络数据中有4个朋友，在集值数据中有非敏感的值有b1和b2。如果攻击者单一知道这两个背景知识中的一个，因为社交网络数据中有2个节点(v3，v5)的度是4，集值数据有a1和b2的记录有两条(t3，t4)，他都不能重定位bob。但是攻击者两个背景知识同时满足，他就知道bob在社交网络数据中是v3，购买敏感商品α，这样就泄露了用户的隐私。

针对社会网络数据和集值数据同时发布时，攻击者在社会网络数据和集值数据里都获取一些信息，如利用社交网络数据的度和集值数据的非敏感值进行攻击，并根据两种数据的双重信息可以重定位用户或泄露用户的隐私信息的问题，本发明在这一这攻击模型基础上发明对应保护模型。本发明首先在集值数据上进行分组泛化，要求每个组内满足隐私要求即可，避免全局泛化过度。然后在集值数据分组泛化的基础上，对应的社交网络数据进行组内匿名，在匿名之前先对社交网络数据进行社区检查，匿名时候尽量在社区内部扰动，这样避免匿名时候对社区改变过大。

一种集值数据和社会网络数据联合发布的多源隐私保护方法，如图3所示，包括如下步骤：

步骤1：初始化数据。包括集值数据和社会网络数据。集值数据去标识符，如姓名、身份证等标识符，如图1。社交网络数据也去标识符，改用编号表示，如图2。同时，采用经典的社区划分算法GN算法对社交网络数据进行社区检查，得到社区划分。

集值数据去掉标识符，得到简单匿名数据，如图1。t1到t7共7条记录，为社交网络的用户(节点)v1-v7所拥有，表中有a1，a2，b1，b2，b3五中非敏感值，有α，γ两种敏感值。

社交网络数据经过简单匿名处理得如图2所示，用G(V，E)表示，节点集V＝{v1，v2，v3，v4，v5，v6，v7}，边集E＝{(v1，v3)，(v3，v2)，(v3，v6)，(v3，v7)，(v2，v4)，(v2，v5)，(v6，v5)，(v7，v5)，(v4，v5)}。用GN算法进行社区划分，得到划分结果：{v1}，{v3，v7，v6}，{v2，v5，v4}。

步骤2：对集值数据进行分组泛化。根据集值数据的非敏感值，构建一个泛化树，并根据泛化树对集值数据进行分组，使得每个组内的数据集都满足隐私要求。本发明要求满足ρ-uncertainty隐私模型。参见图4。

步骤2.1：根据非敏感值，制定泛化树(如图6)，并构造分组层次树(如图7)，将所有非敏感值泛化到最高层次，敏感值不做任何操作。

步骤2.2：遍历整个数据集，检查是否满足ρ-uncertainty隐私要求。

ρ-uncertainty模型是指假设攻击者的背景知识为非敏感值集X，X的支持度sup(X)为数据集中记录中包含有X的总的记录数，如图2的sup(a1，b1)＝1，攻击者由已有的背景知识推断某个目标个体的敏感项目为Y，X和Y的支持度sup(X∪Y)为数据集中某条记录既包含X的同时也包含Y的记录的总条数，最后计算关联规则X->Y的置信度conf(X->Y)＝sup(X∪Y)/sup(X)的值，如果这个值小于ρ(ρ是我们人工所定义的保护强度，设ρ-uncertainty隐私模型的ρ＝0.7)，是满足隐私要求的。否则，是不满足隐私要求的。

如果满足ρ-uncertainty隐私要求，转至步骤2.3。

如果不满足ρ-uncertainty隐私要求，那么就要在X和Y中随机选择某个项目删除，删除后再更新所有关联规则的置信度，直到整个数据集中不再有置信度conf(X->Y)大于ρ的关联规则。

步骤2.3：计算当前集值数据进行分组细化信息损失，细化会使得值信息损失减少，但分组会破坏关联规则的隐私，要重新检查每个子组的隐私。如果满足隐私要求，可以直接分组细化，否则删除处理，删除会带来信息损失，比较细化信息损失的减少量lesscost(n)和删除的信息损失delcost(n)，如果分组信息损失小，则进行分组细化操作，否则当前分组的数据的信息损失最优，不做处理。

根据泛化树，非敏感值泛化信息损失：

其中，IL_n为非敏感值泛化到节点n的信息损失，leaves(n)是以结点n为根的子树下的叶子结点数目，I_N为所有非敏感值的个数。如果n为叶子结点，则

例如图6中的

计算当前泛化层次的信息损失：

Oldcost(n)＝IL_n*(r(n))

其中，r(n)表示泛化到n的泛化规则条数，比如图1泛化到all节点的泛化规则有t1(a1->all)和t2(a2->all)各有一条，t3—t7各有2条，则r(all)＝12，且

所以泛化到all的信息损失Oldcost(all)＝IL_(alL)*r(all)＝12

计算分组层次树中n节点分组细化到子结点时的信息损失：

Newcost(n)＝∑_{c∈children(n)}IL_c*r(c)

其中，c∈children(n)表示n的子节点，Newcost(n)表示n向下细化后所有子节点的信息损失之和。比如图7，all的子节点有{A,B,AB}，

而计算向下细化时候信息损失减少了多少，用Lesscost(n)表示：

lesscost_(n)＝Oldcost(n)-Newcost(n)

其中，删除一个值信息损失为1，但有可能要删除多个值才满足隐私要求，用delcost(n)表示要删除的个数，同时也表示删除的信息损失：

其中，n＝α表示如果n是敏感值，需要从当前子分组包含n的记录中删除delcost(n)个值。n∈X表示如果n为非敏感值，从当前子分组包含有n且包含有敏感值的记录中删除delcost(n)个值。

此时有了细化信息损失的减少量lesscost(n)和删除的信息损失delcost(n)，若lesscost(n)>delcost(n)，则分组层次树根据此结点细化，形成子多个子分组，并进行删除处理；否则不进行细化，直接发布当前分组。

步骤2.4：如果步骤2.3分组细化成功，继续重复步骤2.3，如果没有细分组化成功，则说明此时信息损失最小且满足隐私要求了。

由图1的敏感值构造泛化树图6，建立分组层次树图7，把图1的非敏感值泛化到最高值ALL，得图8，设ρ-uncertainty模型的ρ＝0.7。

conf(ALL->α)＝3/7<0.7(设定的p值)，conf(ALL->γ)＝2/7<0.7，conf((ALL，α)->γ)＝1/3<0.7，conf((ALL，γ)->α)＝1/2<0.7，满足隐私要求。

计算向下分组细化的信息损失，根据泛化层次树和表1，可以分为{A}、{B}、{AB}三个组，如图9。

计算细化分组信息损失减少量：

在g3有一个不满足隐私要求conf((A，B，α)->γ)＝1>0.7，随机删除一个敏感值即可(步骤2.2、2.3有介绍)，删除的信息损失delcost(all，(A，B，α)->γ)＝1。lesscost_(all)>delcost(all)，可以分组细化，假设分组细化，并删除了α，下面继续细化分组。

对于g1，lesscost_(A)＝4/5，delcost(A，a1->α)＝1，lesscost_(A)<delcost(A)，所以不能细化分组。

对于g2，B->(b1，b2)，细化后组内是满足ρ-uncertainty隐私保护模型的，又不用删除处理，即delcost(B)＝0，可以直接细化分组。

对应g3，A和B都有可能细化。先细化A，根据泛化树和表1，细化规则是{A->a1}，细化后是满足隐私要求的，A可以细化。细化B，

delcost(B)＝2，delcost(B)>lesscost_(B)，B不能细化。

经过上面处理，得到图10，可以发布。

步骤3：对社交网络数据进行组内匿名处理。经过步骤1的初始化和社区检查，得到了一个简单匿名的社交网络和社区划分，组内匿名的处理方法是删边和加边，删边优先社区间的边，优先添加社交内的边。参见图5。

社交网络数据的分组跟步骤2的集值数据分组对应(即若集值数据的t1跟t2一组，则社交网络数据的v1和v2一组)，匿名最终目的是使得组内节点的度相同，即组内不可区分。在组内匿名过程先求出每个组的组内的节点平均度，令离平均度最近的偶数为近似平均度，通过删边、加边使得组内的节点的度都等于自己组的节点平均度。为了尽量不破坏社区，删边时优先删除社区之间的边，加边时优先添加社区内部的边。

步骤3.1：将集值数据ID与社会网络数据节点号对应，对应着步骤2的分组，对社交网络的节点也进行分组。

首先，计算每个分组的平均度。该分组的平均度为分组内所有节点的度d(v)除以组内节点的个数。

接着，根据每个分组的平均度求出每个分组的近似平均度groupAvg。该分组的近似平均度为距离该分组的平均度最近的偶数。

若c3分组的平均度是8/3，则c3分组的近似平均度groupAvg_c3＝2，若c2分组的平均度是3，则c3分组的近似平均度groupAvg_c2＝4。

最后，求出分组内的每个节点与本组的近似平均度的差diff(v)。v是节点，即diff(v)＝d(v)-groupAvg_c，v∈c，d(v)表示v的度。

步骤3.2：删边处理。遍历每个节点，若diff(v)>0，删除diff(v)条跟v相连的边。为了尽量不破坏社区，删边规则是遍历节点v的邻居节点vk，优先删除v、vk在不同社区和diff(vk)>0的边E(v，vk)。删除边同时边两端节点的diff(v)都减1，比如删除vi与vj相连的边E(vi，vj)后，diff(vi)＝diff(vi)-1，diff(vj)＝diff(vj)-1。

步骤3.3：加边处理。按diff(v)从小到大排序，遍历每个节点，若diff(v)<0就添加|diff(v)|条边，加边的前提是边的另一端vk节点的diff(vk)<0，加边规则是优先添加社区内的边，如果社区内的全部节点的diff(vk)>0，则添加社区间的边。添加边同时两端节点的diff(v)都加1，比如添加vi与vj相连的边E(vi，vj)后，diff(vi)＝diff(vi)+1，diff(vj)＝diff(vj)+1。

对应着集值数据的分组，社交网络也分为三组c1＝{v1，v2}，c2＝{v3，v4}，c3＝{v5，v6，v7}，求出每个组实际平均度，分别为2、3、8/3，则近似平均度groupAvg_c1＝2，groupAvg_c2＝4，groupAvg_c3＝2。求出每个节点的diff(v)，diff(v1)＝d(v1)-groupAvg_c1＝-1，diff(v2)＝1，diff(v3)＝0，diff(v4)＝-2，diff(v5)＝2，diff(v6)＝0，diff(v7)＝0。

对于每个diff(v)>0的节点删除diff(v)条边。diff(v2)＝1>0，删除1条边，v2的邻居节点集是{v3，v4，v5}，与v2同社区(社区划分查看步骤1)的节点有v5、v4，故删除社区间的边E(v2，v3)，更新diff值，diff(v2)＝diff(v2)-1＝0，diff(v3)＝-1。对于v5，同理删除两条边，E(v6，v7)和E(v5，v6)，diff(v5)＝0，diff(v6)＝-1，diff(v7)＝-1，删除后社交网络如图11。

对节点按diff从小到大排序，diff(v4)＝-2，diff(v1)＝-1，diff(v3)＝-1，diff(v6)＝-1，diff(v7)＝-1，diff(v2)＝0，diff(v5)＝0。对于v4，需要添加|diff(v4)|＝2条边，由于社区内v2、v5的diff值都>0，添加E(v4，v1)，E(v4，v3)，更新diff值，diff(v1)＝diff(v1)+1＝0，diff(v3)＝0，diff(v4)＝0。对于v6，同理添加E(v6，v7)，diff(v6)＝0，diff(v7)＝0。此时，所有节点的diff值等于0，得图12，可以发布。

Claims

1.集值数据和社会网络数据联合发布的多源隐私保护方法，其特征是，包括如下步骤：

步骤1、去掉集值数据和社会网络数据的标识符，并对社会网络数据进行社区检查，得到社区划分；

步骤2、对于根据集值数据的非敏感值，构建一个泛化树；并根据泛化树对集值数据进行分组，使得每个组内的数据集都满足隐私要求；即：

如果细化信息损失大于删除信息损失，则转至步骤2.2；

如果细化信息损失小于等于删除信息损失，则直接发布当前组内数据；

步骤3、先将社会网络数据节点与集值数据ID对应，根据步骤2所得的集值数据的分组，对社交网络数据的节点进行对应分组；再对社交网络数据进行组内匿名处理；即：

步骤3.3、对于每个分组，计算当前分组内各个节点vi与本分组的近似平均度的节点差diff（vi）；如果diff（vi)＞0，则删除diff(vi)条跟节点vi相连的边E(vi，vj)；删除边E(vi，vj)两端的节点vi和vj的节点差diff(vi)和节点差diff(vj)均减1；

步骤3.4、对于每个分组，将当前分组内剩余节点的节点差diff(vi)进行排序，如果节点差diff(vi)＜0，则添加|diff(vi)|条跟节点vi相连的边E(vi，vj)；增加边E(vi，vj)两端的节点vi和vj的节点差diff(vi)和节点差diff(vj)均加1；

2.根据权利要求1所述的集值数据和社会网络数据联合发布的多源隐私保护方法，其特征是，步骤1中，采用GN算法对社会网络数据进行社区检查。

3.根据权利要求1所述的集值数据和社会网络数据联合发布的多源隐私保护方法，其特征是，步骤3.3和步骤3.4中，优先删除和增加社区内的边和diff(vj)＜0的边。