CN109858282A

CN109858282A - 一种社交网络关系数据隐私保护方法及系统

Info

Publication number: CN109858282A
Application number: CN201910110712.1A
Authority: CN
Inventors: 康海燕; 张书旋
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2019-06-07
Anticipated expiration: 2039-02-12
Also published as: CN109858282B

Abstract

本发明提供了一种社交网络关系数据隐私保护方法及系统，该方法包括：获取社交网络数据图；根据社交网络数据图，获取用户属性向量集；根据用户属性向量集，采用Skyline方法计算用户隐私泄露等级；根据用户隐私泄露等级，对社交网络数据图进行分组，获得多个数据子图；对各数据子图采用不同的阈值进行抽样，获取抽样后的数据子图；对各采样后的数据子图进行整合，获得整合后的数据图；对整合后的数据图进行加噪处理，获取加噪后的数据图，并将加噪后的数据图进行发布。本发明中为每个数据子图设定不同的采样阈值，以实现不同用户的差分隐私保护，更有针对性，在保证数据安全性的同时更提高了数据的可用性。

Description

一种社交网络关系数据隐私保护方法及系统

技术领域

本发明涉及数据隐私保护技术领域，特别是涉及一种社交网络关系数据隐私保护方法及系统。

背景技术

随着互联网的普及与发展，围绕用户和用户关系的社交网络在世界范围内迅猛发展，社交网络为用户提供信息分享和信息交流的同时，也可能会产生用户隐私泄露的风险，社交网络隐私信息可以分为两种：一种隐私是用户敏感信息隐私，比如用户的手机号码、家庭住址、疾病、收入等；另一种隐私是社交网络关系隐私，即社交网络中人与人之间的连接关系信息，如亲属关系，同学关系。在社交网络中上述隐私之间往往相互关联、相互影响，无论是哪种类型隐私信息的披露都可能会使个人的隐私受到威胁。因此，如何更好地在社交网络中保护用户隐私，成为当前大众关注的焦点。

目前的数据隐私保护局限于为所有用户提供相同级别的隐私保护，但实际生活中并非所有用户都需要相同的隐私级别。因此，亟待一种能够实现对不同用户隐私进行差别的保护，避免对那些不需要太高隐私级别的用户提供过多的隐私保护。

发明内容

基于此，有必要提供一种社交网络关系数据隐私保护方法及系统，以实现不同用户的差分隐私保护。

为实现上述目的，本发明提供了如下方案：

一种社交网络关系数据隐私保护方法，所述方法包括：

获取社交网络数据图；

根据所述社交网络数据图，获取用户属性向量集；

根据所述用户属性向量集，采用Skyline方法计算用户隐私泄露等级；

根据所述用户隐私泄露等级，对所述社交网络数据图进行分组，获得多个数据子图；

对各所述数据子图采用不同的阈值进行抽样，获取抽样后的数据子图，所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图；

对各所述采样后的数据子图进行整合，获得整合后的数据图；

对所述整合后的数据图进行加噪处理，获取加噪后的数据图，并将加噪后的数据图进行发布。

可选的，所述方法还包括：对加噪后的数据图采用差分隐私进行验证，具体包括：设有随机算法M，Range(M)表示算法M生成的所有结果集，对于数据集D、D′和若满足Pr[M(D)∈O]≤e^ε·Pr[M(D′)∈O]，则数据进行发布，其中，D表示社交网络数据图，D′表示加噪后的数据图，概率Pr由算法M确定，表示隐私被披露的风险，参数ε称为隐私保护预算，ε＝min{Q_i,Q_j}，Q_i表示第i个用户的隐私要求，Q_j表示第j个用户的隐私要求，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

可选的，所述根据社交网络数据图，获取用户属性向量集，具体包括：

计算用户在一跳内连接的用户数量，记为第一跳连接点数量；

计算用户在两跳内连接的用户数量，记为第二跳连接点数量；

根据所述第一跳连接点数量和用户隐私要求，计算邻接点威胁等级

其中，T_i表示第i个用户的邻接点威胁等级，Q_j表示第j个用户的隐私要求，CFP1_j表示第j个用户第一跳连接点数量，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

可选的，所述对各所述数据子图采用不同的阈值进行抽样，获取抽样后的数据子图，具体包括：

在第一阈值t下，计算各边被抽取的概率：

其中，e_ij表示第i个用户和第j个用户的边，t表示第一阈值，P(e_ij,t)表示e_ij在阈值t时被抽到的概率，minQ^v≤t≤maxQ^v，Q_i表示第i个用户的隐私要求，Q_j表示第j个用户的隐私要求，1≤i≤N，1≤j≤N，Q^v表示社交网络数据图中所有用户的隐私要求；

根据所述边被抽取的概率P(e_ij,t)和第二阈值S(k)进行抽样，若P(e_ij,t)小于S(k)，则该边被删除，其中S(k)表示第k个数据子图的阈值，1≤k≤R，R表示数据子图的个数。

可选的，所述对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理，获取加噪后的数据图。

可选的，所述系统包括：

数据获取模块，用于获取社交网络数据图；

数据处理模块，用于根据所述社交网络数据图，获取用户属性向量集；

用户隐私泄露等级计算模块，用于根据所述用户属性向量集，采用Skyline方法计算用户隐私泄露等级；

分组模块，用于根据所述用户隐私泄露等级，对所述社交网络数据图进行分组，获得多个数据子图；

抽样模块，用于对各所述数据子图采用不同的阈值进行抽样，获取抽样后的数据子图，所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图；

数据整合模块，用于对各所述采样后的数据子图进行整合，获得整合后的数据图；

加噪模块，用于对所述整合后的数据图进行加噪处理，获取加噪后的数据图，并将加噪后的数据图进行发布。

可选的，所述系统还包括：验证模块，用于对加噪后的数据图采用差分隐私进行验证，设有随机算法M，Range(M)表示算法M生成的所有结果集，对于数据集D、D^′和若满足Pr[M(D)∈O]≤e^ε·Pr[M(D′)∈O]，则数据进行发布，其中，D表示社交网络数据图，D′表示加噪后的数据图，概率Pr由算法M确定，表示隐私被披露的风险，参数ε称为隐私保护预算，ε＝min{Q_i,Q_j}，Q_i表示第i个用户的隐私要求，Q_j表示第j个用户的隐私要求，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

可选的，所述数据处理模块，具体包括：

其中，T_i表示第i个用户的邻接点威胁等级，Q_j表示第j个用户的隐私要求，CFP1_j表示第j个用户第一跳连接点数量，1≤i≤N，1≤j≤N，N表示所述社交网络图数据中用户的个数。

可选的，所述抽样模块，具体包括：

在第一阈值t下，计算各边被抽取的概率：

可选的，所述加噪模块，具体包括：对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理，获取加噪后的数据图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明中为每个数据子图设定不同的采样阈值，然后对采样后的数据进行加噪处理，以实现不同用户的差分隐私保护，更有针对性，在保证数据安全性的同时更提高了数据的可用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种社交网络关系数据隐私保护方法的流程图；

图2为本发明实施例一种社交网络关系数据隐私保护系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种社交网络关系数据隐私保护方法及系统，以实现不同用户的差分隐私保护。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一种社交网络关系数据隐私保护方法的流程图。

参见图1，实施例的一种社交网络关系数据隐私保护方法，包括以下步骤：

步骤S1：获取社交网络数据图。

本发明实施例中的社交网络数据图是从斯坦福大学大规模数据平台获取，其中包含微信、微博、Facebook等社交网络平台的数据集，数据集中包括用户的连接关系及相关属性。具体的，社交网络数据图被定义为一个无向无加权的图D＝(V,E)，V表示社交网络中用户实体的集合，即表示节点集，节点集中的一个节点代表一个用户，用户的个数记为N，E表示边集,边表示用户之间的关系(例如，友谊、合作和联系)，e(v_i,v_j)∈E表示点v_i和v_j的边，每个用户都载有隐私要求Q，隐私要求Q是一个数值，用来表示用户的个性化的隐私偏好，Q值越小表示隐私要求越高，要求的隐私保护级别越高。本发明实施例中每个用户设置自己的隐私要求，以确保每个用户都能得到精确的隐私保护。

步骤S2：根据社交网络数据图，获取用户属性向量集。

所述步骤S2具体包括：

计算用户在一跳内连接的用户数量，记为第一跳连接点数量；计算用户在两跳内连接的用户数量，记为第二跳连接点数量；根据所述第一跳连接点数量和用户隐私要求，计算邻接点威胁等级，其中，T_i表示第i个用户的邻接点威胁等级，Q_j表示第j个用户的隐私要求，CFP1_j表示第j个用户第一跳连接点数量，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

邻接点威胁等级是指一个用户通过邻接点泄漏隐私信息的可能程度，一个用户具有越多的连接点，隐私要求越低，这个用户就越容易泄露相邻点的隐私信息。T值越小，相邻的用户数量越小且相邻用户的隐私要求越高，则该点的邻接点越安全，即邻接点威胁等级越低。

步骤S3：根据所述用户属性向量集，采用Skyline方法计算用户隐私泄露等级。

具体的，所述用户属性向量集由所有用户的属性向量构成，包括：第一跳连接点数量、第二跳连接点数量、用户隐私要求和邻接点威胁等级，其中，第i个用户的属性向量表示为{CFP1_i,CFP2_i,Q_i,T_i}，CFP2_i表示第i个用户第二跳连接点数量。以用户的属性向量为决策标准采用Skyline方法计算用户隐私泄露等级，当采用Skyline方法计算第一条时，将第一条上的用户隐私泄露等级定义为L＝1即L1，然后删除这些用户，计算第二条，此时将第二条上的用户隐私泄露等级定义为L＝2即L2，以此类推。

步骤S4：根据所述用户隐私泄露等级，对所述社交网络数据图进行分组，获得多个数据子图；

CFP1值越小即第一跳连接点数量越少，CFP2值越小即第二跳连接点数量越少，Q值越小即隐私要求越高的用户，为隐私越不容易泄漏的用户。则L值越小，隐私越不容易被泄露。

本发明实施例中用户隐私泄露等级共分了m＝100个等级，设定的分割系数k＝10，分割系数k能根据具体数据集规模设定，m/k＝10即每10个等级为一个数据子图，具体的L1至L10的用户存入数据子图1，L11至L20的用户存入数据子图2，以此类推。

步骤S5：对各所述数据子图采用不同的阈值进行抽样，获取抽样后的数据子图，所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图。

所述步骤S5具体包括：

在第一阈值t下，计算各边被抽取的概率：

根据所述边被抽取的概率P(e_ij,t)和第二阈值S(k)进行抽样，若P(e_ij,t)小于S(k)，则该边被删除，其中S(k)表示第k个数据子图的阈值，1≤k≤R，R表示数据子图的个数，本发明实施例中R＝10。

本发明实施例中，根据实验结果数据对阈值进行设置，t＝0.3，S(1)＝0.7，S(k)＝S(1)-0.05*(k-1)。具体的，根据实验结果数据的可用性和安全性综合考量对阈值进行设置。

步骤S6：对各所述采样后的数据子图进行整合，获得整合后的数据图。

具体的，在保留采样前数据子图间的连接关系条件下，对各所述采样后的数据子图进行整合，获得整合后的数据图。

步骤S7：对所述整合后的数据图进行加噪处理，获取加噪后的数据图，并将加噪后的数据图进行发布。

具体的，对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理，获取加噪后的数据图。

本发明实施例一种社交网络关系数据隐私保护方法，在进行数据发布前还包括步骤S8：对加噪后的数据图采用差分隐私进行验证，具体包括：设有随机算法M，Range(M)表示算法M生成的所有结果集，对于数据集D、D′和若满足Pr[M(D)∈O]≤e^ε·Pr[M(D′)∈O]，则数据进行发布，其中，D表示社交网络数据图，D′表示加噪后的数据图，概率Pr由算法M确定，表示隐私被披露的风险，参数ε称为隐私保护预算，ε＝min{Q_i,Q_j}，Q_i表示第i个用户的隐私要求，Q_j表示第j个用户的隐私要求，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

若不满足Pr[M(D)∈O]≤e^ε·Pr[M(D′)∈O]，则返回步骤S7。加噪后的数据不满足上述公式，不仅限于通过返回步骤S7进行加噪处理，还可以通过重新采样。

差分隐私是一个强大的隐私保护模型，它为聚合数据分析提供强大的、优秀的隐私保证。但是该模型局限于为所有个人提供相同级别的隐私保护，但实际生活中并非所有用户都需要相同的隐私级别，因此本发明实施例中ε＝min{Q_i,Q_j}，对每个用户选取不同的隐私保护预算，从而实现差分隐私，满足不同用户的隐私要求。

在发布前应验证发布图的安全性和可用性。抵抗隐私攻击的能力能够反映数据的安全性，本实施例用隐私攻击的方法来验证数据的安全性，设定攻击者具有一定的背景知识，结合发布的社交网络图进行链接攻击，得出攻击结果的匹配度，将图数据结构特征参数中的平均最短路径及平均聚类系数与隐私保护之前原始数据集进行比较，验证社交网络图的可用性。

本实施例的一种社交网络关系数据隐私保护方法，对社交网络数据图进行分组，然后对每个数据子图设定不同的采样阈值，对采样后的数据进行加噪处理，以实现不同用户的差分隐私保护，更有针对性，在保证数据安全性的同时更提高了数据的可用性。

本发明还提供了一种社交网络关系数据隐私保护系统，图2为本发明实施例一种社交网络关系数据隐私保护系统的结构示意图，所述系统包括：

数据获取模块201，用于获取社交网络数据图。

数据处理模块202，用于根据社交网络数据图，获取用户属性向量集。

用户隐私泄露等级计算模块203，用于根据所述用户属性向量集，采用Skyline方法计算用户隐私泄露等级。

分组模块204，用于根据所述用户隐私泄露等级，对所述社交网络数据图进行分组，获得多个数据子图。

抽样模块205，用于对各所述数据子图采用不同的阈值进行抽样，获取抽样后的数据子图，所述抽样后的数据子图为从所述数据子图中抽取的样本构成的数据图。

数据整合模块206，用于对各所述采样后的数据子图进行整合，获得整合后的数据图。

加噪模块207，用于对所述整合后的数据图进行加噪处理，获取加噪后的数据图，并将加噪后的数据图进行发布。

作为一种可选的实施方式，本发明实施例社交网络关系数据隐私保护系统还包括：验证模块208，用于对加噪后的数据图采用差分隐私进行验证，设有随机算法M，Range(M)表示算法M生成的所有结果集，对于数据集D、D′和若满足Pr[M(D)∈O]≤e^ε·Pr[M(D′)∈O]，则数据进行发布，其中，D表示社交网络数据图，D′表示加噪后的数据图，概率Pr由算法M确定，表示隐私被披露的风险，参数ε称为隐私保护预算，ε＝min{Q_i,Q_j}，Q_i表示第i个用户的隐私要求，Q_j表示第j个用户的隐私要求，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

作为一种可选的实施方式，所述数据处理模块202，具体包括：

作为一种可选的实施方式，所述抽样模块205，具体包括：

在第一阈值t下，计算各边被抽取的概率：

作为一种可选的实施方式，所述加噪模块207，具体包括：对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理，获取加噪后的数据图。

本实施例的一种社交网络关系数据隐私保护系统，对社交网络数据图进行分组，然后对每个数据子图设定不同的采样阈值，对采样后的数据进行加噪处理，以实现不同用户的差分隐私保护，更有针对性，在保证数据安全性的同时更提高了数据的可用性。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种社交网络关系数据隐私保护方法，其特征在于，所述方法包括：

获取社交网络数据图；

根据所述社交网络数据图，获取用户属性向量集；

2.根据权利要求1所述的社交网络关系数据隐私保护方法，其特征在于，所述方法还包括：对加噪后的数据图采用差分隐私进行验证，具体包括：设有随机算法M，Range(M)表示算法M生成的所有结果集，对于数据集D、D′和若满足Pr[M(D)∈O]≤e^ε·Pr[M(D′)∈O]，则数据进行发布，其中，D表示社交网络数据图，D′表示加噪后的数据图，概率Pr由算法M确定，表示隐私被披露的风险，参数ε称为隐私保护预算，ε＝min{Q_i,Q_j}，Q_i表示第i个用户的隐私要求，Q_j表示第j个用户的隐私要求，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

3.根据权利要求1所述的社交网络关系数据隐私保护方法，其特征在于，所述根据社交网络数据图，获取用户属性向量集，具体包括：

4.根据权利要求1所述的社交网络关系数据隐私保护方法，其特征在于，所述对各所述数据子图采用不同的阈值进行抽样，获取抽样后的数据子图，具体包括：

在第一阈值t下，计算各边被抽取的概率：

5.根据权利要求1所述的社交网络关系数据隐私保护方法，其特征在于，所述对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理，获取加噪后的数据图。

6.一种社交网络关系数据隐私保护系统，其特征在于，所述系统包括：

数据获取模块，用于获取社交网络数据图；

7.根据权利要求6所述的社交网络关系数据隐私保护系统，其特征在于，所述系统还包括：验证模块，用于对加噪后的数据图采用差分隐私进行验证，设有随机算法M，Range(M)表示算法M生成的所有结果集，对于数据集D、D′和若满足Pr[M(D)∈O]≤e^ε·Pr[M(D′)∈O]，则数据进行发布，其中，D表示社交网络数据图，D′表示加噪后的数据图，概率Pr由算法M确定，表示隐私被披露的风险，参数ε称为隐私保护预算，ε＝min{Q_i,Q_j}，Q_i表示第i个用户的隐私要求，Q_j表示第j个用户的隐私要求，1≤i≤N，1≤j≤N，N表示所述社交网络数据图中用户的个数。

8.根据权利要求6所述的社交网络关系数据隐私保护系统，其特征在于，

所述数据处理模块，具体包括：

9.根据权利要求6所述的社交网络关系数据隐私保护系统，其特征在于，

所述抽样模块，具体包括：

在第一阈值t下，计算各边被抽取的概率：

10.根据权利要求6所述的社交网络关系数据隐私保护系统，其特征在于，

所述加噪模块，具体包括：对所述整合后的数据图采用拉普拉斯机制或指数机制进行加噪处理，获取加噪后的数据图。