CN116628360A

CN116628360A - 一种基于差分隐私的社交网络直方图发布方法及装置

Info

Publication number: CN116628360A
Application number: CN202310916053.7A
Authority: CN
Inventors: 王继民; 张纪峰; 赵延龙; 郭金
Original assignee: University of Science and Technology Beijing USTB; Academy of Mathematics and Systems Science of CAS
Current assignee: University of Science and Technology Beijing USTB; Academy of Mathematics and Systems Science of CAS
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-08-22

Abstract

本发明公开了一种基于差分隐私的社交网络直方图发布方法及装置，涉及图数据发布的隐私保护技术领域。包括：采用图映射方法对原始社交网络图进行节点差分隐私处理；基于相邻桶分组划分算法AGBD对处理后的社交网络图进行直方图发布；利用排列保序方法优化直方图发布，得到基于差分隐私的社交网络直方图发布结果。本发明基于差分隐私保护模型，提出了一种相邻桶分组划分方法，采用图映射方法对社交网络进行节点差分隐私处理，同时针对映射方法在直方图发布过程中存在的引入过量噪声问题，使用贪心策略，并结合Laplace机制对相邻桶进行分组划分以减少由于添加过量噪声对直方图发布质量的影响，利用排列保序方法优化直方图发布，提升直方图发布查询的精确性。

Description

一种基于差分隐私的社交网络直方图发布方法及装置

技术领域

本发明涉及图数据发布的隐私保护技术领域，尤其涉及一种基于差分隐私的社交网络直方图发布方法及装置。

背景技术

随着互联网和大数据技术的迅速发展，社交网络蕴含的海量数据已经成为一种重要的信息资源。通过数据挖掘等方法，这些数据可以直接或间接地为社会生产和生活带来巨大的价值。但是，社交网络中包含着大量个人隐私信息，直接发布信息或进行数据挖掘很容易造成个人隐私泄露的问题。因此，在社交网络数据发布和挖掘过程中对个人敏感信息进行安全有效的保护至关重要，具有重要的研究意义。

随着移动设备的迅速普及和互联网技术快速发展，各种各样的社交网络已然和人们的日常生活紧紧联系在一起。社交网络概念最早见于Barnes的论文，文中阐明人与人之间的相互关系是构成社交网络的基本形式。目前，各类社交网络平台(如微信，QQ，微博，推特，Facebook等)都在很大程度上改变着人们的沟通和交流方式。依托于强大的社交平台，用户可以在其中发送文本信息，语音信息和电子邮件等文件来进行分享信息。甚至有些人为了丰富和增强自己的社交信息和能力，他们会将一些比较敏感的数据(如手机号码，家庭住址，邮编，职业，年龄等)上传到社交网络中。

如今，国内外的社交网络体量和其中的用户量都达到了前所未有的程度，长时间社交网络积累的海量数据，在一定程度上反映社会的运行规律，具有重要的研究意义和社会价值。然而，通常在社交网络数据中包含着个人隐私信息(如医疗信息，消费记录信息和人际关系信息等)，随着此类社交网络数据的不断发布和共享，个人隐私信息随时面临着被泄露的风险，此类事件对社会造成巨大的负面影响。因此，社交网络数据在进行分析、发布和共享之前需要对原始数据进行必要的隐私保护工作，让第三方人员(攻击者或数据分析者)不能够获取某一具体用户的相关隐私信息，从而使得在利用社交网络海量数据的同时，还能够保证用户的隐私不被泄露。例如，相关的隐私保护研究人员尝试着使用数据匿名化，数据加密和数据扰动等技术来提升社交网络发布和挖掘的安全性。

因此，社交网络数据在进行分析、发布和共享之前需要对原始数据进行必要的隐私保护工作，让第三方人员(攻击者或数据分析者)不能够获取某一具体用户的相关隐私信息，从而使得在利用社交网络海量数据的同时，还能够保证用户的隐私不被泄露。例如，相关的隐私保护研究人员尝试着使用数据匿名化，数据加密和数据扰动等技术来提升社交网络发布和挖掘的安全性。

综上所述，社交网络隐私泄露问题严重阻碍了社交网络自身发展及其数据共享的进程，给社会发展带来巨大阻碍，因此在社交网络中进行安全的数据发布和的数据挖掘显得尤为重要。只有不断提高和完善社交网络隐私保护机制，才能够让社交网给社会带来更大的价值，推动社会的进步。所以，如何在不泄露社交网络隐私信息前提下，做到安全的数据发布和有价值的数据挖掘是一个亟待解决的问题。

ToreDanlenius在1977年最早提出隐私保护概念，他从数据库的数据发布角度来阐述隐私保护问题，认为实现数据库中的隐私信息保护就是要让包括合法用户在内的所有用户都无法获取关于数据库中任意个体的唯一确定性信息。虽然这种观点具有较为主观和模糊的性质，但还是为后来的研究提供了理论指导。

实现隐私保护的目标就是保证在数据发布和数据分析的过程中不泄露关于个人的隐私信息的前提下，还能使数据仍然具备一定程度的有效性，处理好数据隐私性和数据可用性之间的平衡。随着对隐私保护研究的不断深入，目前隐私保护方案主要包括:数据匿名化技术，数据加密技术和数据扰动技术。

数据匿名化技术本质上是一种数据泛化技术,最早见于Samaritan和Sweeny在2002年提出k-anonymity隐私保护方法，该方法通过抽象的值代替原始数据的敏感信息，先将要发布的数据划分为若干等价类，并保证在等价类中至少存在以小于或等于1/k概率识别到目标对象，这使得攻击者无法准确定位具体记录。由于k-匿名无法抵御一致性攻击，为此Machanavajjhala等人提出1-diversity方法，该方法可以对等价类中只有一种敏感信息的情况做到有效避免，但对相似性攻击的抵抗较弱。t-closeness方法可以有效地抵御相似性攻击，但该方法忽略了由于敏感属性的不稳定性造成的隐私泄露问题。数据匿名化技术的不足点在于：一方面，很难对攻击者的背景知识进行定义，基于匿名化模型只能抵抗大部分特定的背景知识攻击，具有明显的局限性。另一方面，早期基于匿名化技术实现的隐私保护模型无法保证可靠性，在模型中的参数发生变化时，无法对隐私性造成的影响做出定量的解释。

数据加密技术用于在研究数据挖掘的过程中对敏感数据的隐藏，同样可以用于对社交网络数据的隐私保护。Agrawal等人基于多项式加密设计出一种适合于低功耗移动设备的椭圆曲线密码学隐私保护方案。为了解决多方拒绝数据共享的问题，Yao等人提出了安全多方计算，随后便出现诸多数据加密算法。虽然加密方法可以保证数据的安全性和完整性，但是数据加密技术研究重点是如何更隐秘的隐藏信息让数据难以逆恢复，这和隐私保护的目标不符，并且基于数据加密的方案存在计算开销过高的特点。

数据扰动技术的基本思想是在确保数据若干统计信息不发生改变的前提下，通过添加随机噪声等方式实现对原始数据扰动，让数据失真以起到隐私保护的效果。实现数据扰动的方式众多，DP(Differential Privacy，差分隐私)模型就是其中一种重要且有效的方式。目前，差分隐私已被应用于社交网络隐私保护，该模型在保证不泄露个人隐私信息的前提下减小由于数据失真引起的误差，从而确保数据的有效性。Sarathy等人分析了差分隐私针对数值型数据保护的优缺点，并将差分隐私与k-匿名方法结合，实现了具有自适应能力的应答系统。Cormode等人针对基本的线性查询，利用噪声重构感兴趣的查询结果，做到精度和效率的平衡。

Lan等人提出了基于差分隐私的随机扰动的方法，其主要思想是对社交网络中的边以及边的权重进行保护，保证接收数据的有效性。Chen等人使用聚类方法对社交网络进行划分。Xiao等人针对社交网络中节点与节点之间的连接概率对网络结构进行编码，以获取社交网络图中具备统计意义的数字特征参数。

虽然国内将差分隐私运用到社交网络隐私保护的研究相较于国外起步稍晚，但依然做出了突破并取得了一些研究成果。2013年，李杨等人提出了基于k-means的差分隐私保护方法以解决在聚类任务的执行过程中暴露的隐私泄露问题。2014年，熊平等人详细阐述了差分隐私的发展历程并致力于研究降低算法复杂度和细化数据精度。同年，张啸剑等人提出了基于差分隐私的“top-k”频繁模式数据挖掘算法，并重点剖析了差分隐私在数据发布，数据挖掘和机器学等诸多领域上的应用。宋健等人利用微聚集算法来进行划分等价类并引入SuLQ框架，提出了一种满足差分隐私的匿名化方案以解决由于计算等价类质心而导致的隐私泄露问题。彭慧丽等人针对匿名化方法中由于过度依赖知识背景假设而导致脆弱性问题，利用指数机制提出了基于k-中心点的边权重聚类方法。吴振强等人于2019年提出了一种满足差分隐私的不确定图边概率赋值算法和基于三元闭包的不确定图边概率分配算法，这两种算法较适合于实现对简单社交网络的隐私保护。2020年，黄海平等人基于单源最短路径约束模型来添加噪声，提出了一种基于差分隐私的非交互式带权值的“dp-noise”方法以解决社交网络图数据中社交关系敏感程度不均衡的问题。

发明内容

本发明针对如何在不泄露社交网络隐私信息前提下，做到安全的数据发布和有价值的数据挖掘的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种基于差分隐私的社交网络直方图发布方法，该方法由电子设备实现，该方法包括：

S1、将社交网络以图结构表示，得到原始社交网络图。

S2、采用图映射方法对原始社交网络图进行节点差分隐私处理。

S3、基于相邻桶分组划分算法AGBD对处理后的社交网络图进行直方图发布。

S4、利用排列保序方法优化直方图发布，得到基于差分隐私的社交网络直方图发布结果。

可选地，S2中的采用图映射方法对原始社交网络图进行节点差分隐私处理，包括：

S21、删除原始社交网络图中的所有边，保留原始社交网络图中的节点，原始社交网络图中所有的节点度数均为0，得到删除边后的社交网络图。

S22、设定节点阈值，根据字典排序得到稳定的顺序边集。

S23、根据节点阈值以及稳定的顺序边集，对删除边后的社交网络图进行逐次加边。

其中，稳定的顺序边集为当且仅当输入社交网络图和输出社交网络图之间仅相差一个节点。

可选地，S3中的基于相邻桶分组划分算法AGBD对处理后的社交网络图进行直方图发布，包括：

S31、根据处理后的社交网络图得到原始直方图。

S32、对原始直方图中相邻的桶进行分组合并以及划分。

S33、划分后，在满足全局敏感度上界约束下，向原始直方图中的各个区间添加服从独立同分布的拉普拉斯Laplace噪声，并进行直方图发布。

可选地，S32中的对原始直方图中相邻的桶进行分组合并以及划分，包括：

S321、根据贪心策略对原始直方图中相邻的桶进行分组合并。

S322、根据定义的相邻桶划分误差、直方图误差以及桶合并划分误差，对原始直方图中相邻的桶进行划分。

可选地，S322中的相邻桶划分误差，如下式（1）所示：

（1）

其中，，left_i表示桶B_i的左边界值，right_i表示B_i右边界值，num_i表示桶B_i上的计数统计值，规定数据x_i 装入桶B_i需要满足left_i≤x_i≤right_i条件，h_j表示在桶B_j下的桶划分方式。

可选地，S322中的直方图误差，如下式（2）所示：

（2）

其中，表示原始直方图，表示包含k个桶的划分方法，j∈(1，k) ，left_i表示桶B_i的左边界值，right_i表示B_i右边界值，num_i表示桶B_i上的计数统计值，h_j表示在桶B_j下的桶划分方式。

可选地，S322中的桶合并划分误差，如下式（3）所示：

（3）

其中，表示桶B_i和桶B_j 合并之后构成的新桶，新桶的误差记为，err(B_i) 表示桶B_i的误差，err(B_i+1) 表示桶B_i+1的误差。

另一方面，本发明提供了一种基于差分隐私的社交网络直方图发布装置，该装置应用于实现基于差分隐私的社交网络直方图发布方法，该装置包括：

构建模块，用于将社交网络以图结构表示，得到原始社交网络图。

图映射模块，用于采用图映射方法对原始社交网络图进行节点差分隐私处理。

发布模块，用于基于相邻桶分组划分算法AGBD对处理后的社交网络图进行直方图发布。

优化模块，用于利用排列保序方法优化直方图发布，得到基于差分隐私的社交网络直方图发布结果。

可选地，图映射模块，进一步用于：

S22、设定节点阈值，根据字典排序得到稳定的顺序边集。

可选地，发布模块，进一步用于：

S31、根据处理后的社交网络图得到原始直方图。

S32、对原始直方图中相邻的桶进行分组合并以及划分。

可选地，发布模块，进一步用于：

S321、根据贪心策略对原始直方图中相邻的桶进行分组合并。

可选地，相邻桶划分误差，如下式（1）所示：

（1）

可选地，直方图误差，如下式（2）所示：

（2）

可选地，桶合并划分误差，如下式（3）所示：

（3）

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于差分隐私的社交网络直方图发布方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于差分隐私的社交网络直方图发布方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，直方图发布作为一种重要的数据发布形式而被广泛应用在社交网络中，但社交网络数据在直方图发布过程中可能存在着隐私泄漏的问题。为缓解图映射方法在直方图发布过程中可能会引入过量噪声的问题，本发明提出了基于差分隐私的相邻桶分组划分方法AGBD，其核心思想是使用贪心策略，并结合 Laplace 机制对相邻桶进行分组划分以减少由于添加过量噪声对直方图发布质量的影响。同时利用排列保序方法优化直方图发布提升直方图发布查询的精确性。实验结果表明此方法可以提升直方图发布后的查询精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于差分隐私的社交网络直方图发布方法流程示意图；

图2是本发明实施例提供的Laplace概率密度函数；

图3是本发明实施例提供的序列组合性示意图；

图4是本发明实施例提供的并行组合性示意图；

图5是本发明实施例提供的数据发布隐私保护图；

图6是本发明实施例提供的数据挖掘隐私保护图；

图7是本发明实施例提供的研究思路图；

图8是本发明实施例提供的节点差分隐私图；

图9是本发明实施例提供的图映射算法实例；

图10是本发明实施例提供的好友关系网络结构图；

图11是本发明实施例提供的好友关系节点度直方图；

图12是本发明实施例提供的Twitter数据集上的 L1 误差图；

图13是本发明实施例提供的Facebook数据集上的 L1 误差图；

图14是本发明实施例提供的Twitter 数据集上的KS 距离图；

图15是本发明实施例提供的Facebook数据集上的KS 距离图；

图16是本发明实施例提供的基于差分隐私的社交网络直方图发布装置框图；

图17是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于差分隐私的社交网络直方图发布方法，该方法可以由电子设备实现。如图1所示的基于差分隐私的社交网络直方图发布方法流程图，该方法的处理流程可以包括如下的步骤：

S1、将社交网络以图结构表示，得到原始社交网络图。

一种可行的实施方式中，社交网络最初开始于人们以电子邮件的形式在网络上进行通信和社交，后来随着网络技术和通信技术的迅猛发展，通信方式愈发多样，各种各样的社交软件和社交网站迅速兴起。现如今，社交网络已经和人们的日常生活紧密的联系在一起。

社交网络模型可以抽象为图的结构，即G=(V,E)，节点表示实体集合，边表示节点间的连接关系集合，边权重表示关系紧密程度。社交网络的基本构成元素有：（1）节点，指在网络连接中具有实际作用的个体。节点是社交网络中构成基础，一般来说节点不局限于个人，也可以指某个群体等。（2）边，指社交网络中个体（用户）之间的特殊关系。边分为有向边和无向边两种。一般来说，有向边具有特殊的含义，如粉丝单向地对明星的关注或在微博中好友之间双向关注的行为等。无向边仅表示节点间之间存在简单关系，不存在明显的主次关系，如好友之间相互认识等。同时，边上可以赋予权值，不同的权值在特定的场景下有不同的解释，如可以用权值表示好友之间亲密程度，权值越高，亲密程度越高，反之越低；用权值表示距离的远近，距离越近，权值越低，反之越高。

目前，针对社交网络的分析主要包括以下几个方面：（1）度，指节点和节点之间边的条数。（2）中介度，指社交网络中的关键节点或中介节点。（3）紧密度，指节点之间的紧密程度或距离。（4）密度，指社交网络的稀疏程度，一般用社交网络图中真实存在的边数除以完全图中的边数，比值越大，则密度越大，反之越低。

社交网络的复杂性主要表现在三个方面：（1）节点多样性，社交网络中抽象出来的节点在现实社会中有着各种各样的对应，如朋友圈中的个人，商业合作的中的企业等。（2）连接多样性，节点的多样性性导致了连接的多样性，且不同关系间的权重存在着较大差异。（3）结构复杂性，节点和边连接关系的多样性让社交网络的结构变得复杂多样。

由于社交网络的隐私范围较广，受到攻击的现象也较普遍。背景知识攻击，子图攻击和概率攻击是社交网络中常见的三种攻击方式。

(1)背景知识攻击。背景知识攻击是指攻击者利用各种数据收集渠道获得的信息或数据，针对匿名发布的社交网络而发起的攻击。一般说来，攻击者掌握的背景知识越多对从社交网络中获取用户的隐私也越容易，从而对社交网络中信息的安全构成的威胁就越大。通常，攻击者可以通过网络爬虫技术，窃取浏览器的访问记录和收集公开的信息等手段获取背景知识。由于社交网络中节点，边和图结构的多样性，导致攻击者可以使用的背景知识形式也呈现出多样性，攻击者可以从节点存在性，节点属性，边的权值，边的关联关系以及图的测量尺度等角度展开攻击。

(2)子图攻击。子图攻击是指攻击者先在社交网络数据发布之前设置若干新的节点或边以此构成子图G，然后通过G与目标网络的隐私信息相关联（如标签信息），继而将其便辨别出来。比如在目标节点在网络中没有与其具有相同度数的节点时，则会很容易被攻击者识别出来。虽然子图攻击能够以较大概率获取目标网络的隐私信息。

(3)概击攻击。概率攻击是指攻击者对该目标节点的识别以概率的方式获取信息。虽然这种方法存在不确定性，对于被识别目标节点的敏感信息无法准确给出，但是攻击者完全能够利用概率推测（或链接推演等技术）对节点和边的存在性进行估计，或者以概率计算节点间距离的方式来尽可能的重建敏感关系。

社交网络隐私保护的核心任务是在保护敏感信息的前提下，仍能发布有价值的数据为数据分析人员或研究者们使用和研究。目前，针对社交网络中的隐私保护技术主要包括数据匿名化术，数据加密技术和数据扰动技术。

(1)数据匿名化技术作为实现数据隐私保护的经典方法。k-anonymity技术最早由Sweeney于1998年提出。在此基础上，随后针对匿名化研究的不断深入，又出现了1-diversity，t-closeness及其拓展形式。这些方法的思想都是在网络中通过增加，删除节点；增加，删除，替换边来改变网络原始结构从而保护网络中节点，边，图结构等敏感信息，其中典型的方法有k-degree，k-candidate等。实现数据匿名化的方法主要包括:基于聚类的方法和基于图修改的方法。匿名化技术优点是算法的通用性较高，数据真实性可以得到保证，较适合数据分享的任务，但是对新型的基于背景知识攻击不能做到的有效抵抗。

(2)数据加密技术。密码学在保护隐秘信息领域具有重要贡献，其发展也日趋成熟。密码学研究的重点是如何更加隐秘的传递信息，使得让拥有私密信息的人实现逆恢复，并让不具备私密信息的拦截者或攻击者无法解读。虽然数据加密技术可以高度保证数据的安全性，但是也会大大削弱加密后数据的有效性。一方面，该方法存在计算和通信开销大的不足。另一方面，随着社交网络中海量数据的涌现，数据加密在实际的场景中难以得到应用。

(3)数据扰动技术。基于数据扰动方法的核心思想是运用噪声添加的手段实现对原始数据进行扰动以达到使原始数据失真的目标，但又在一定程度上保证数据若干统计结果的不变性和数据整体的有效性，从而便于进行接下来的数据分析等任务。目前，差分隐私作为数据扰动技术中重要的方法而正被应用到社交网络隐私保护中，同时由于差分隐私具备能够抵御大部分的隐私攻击行为并且可以提供数学理论证明的优势而受到越来越多研究者们的关注和发展。

差分隐私：自Backstrom等人对社交网络安全研究以来，社交网络中暴露出来的隐私安全问题逐渐引起众多研究者的关注，2006年，Dwork等人提出差分隐私模型，该模型不依赖于攻击者掌握的背景知识程度，即使是在攻击者获取到除了目标对象以外的所有信息的最坏情况下，仍可以保证目标对象的隐私不被泄露。所以，差分隐私一经提出就受到众多学者的关注和研究，并被越来越多的应用在PPDP（Privacy Preserving Data Publish，隐私保护数据发布）和PPDM(Privacy Preserving Data Mining，隐私保护数据挖掘)领域，结合差分隐私模型设计的社交网络隐私保护已然成为一个国内外研究热点。

差分隐私具有严格的数学理论证明和隐私保证，该模型利用向原始数据中添加随机噪声的方式来实现数据失真的目标。但此过程仍可以确保数据的分布信息维持在可控的范围内，并且使得扰动后的数据仍然具有若干统计结果的不变性，从而让处理后的数据依然可以用于数据分析，数据发布和数据挖掘等任务而不会造成隐私泄露问题。具体表现在，对于两个几乎相同的数据集（两个数据集中仅相差一条记录），分别在两个数据集上应用同一个操作（如查询操作），使得最终产生相同结果序列的概率尽可能的相近。

定义2-1相邻数据集：对于两个结构完全相同的数据集D₁和D₂，若D₁和D₂仅在记录数目上相差一条，即，则D₁和D₂互称为相邻数据集，其中表示在D₁和D₂上的对称差集运算。

定义2-2ε-差分隐私（ε-Differential Privacy）：对于给定随机算法，的取值范围定义为。如果随机算法作用在相邻数据集D₁和D₂上如果满足下列公式（1），则称满足ε-差分隐私。

（1）

其中，参数ε表示隐私预算，用来衡量可以提供的隐私保护程度，参数ε的值越大，则表示随机算法作用在相邻数据集上造成的概率差别越大，提供越低的数据安全性。反之，ε的值越小，则表示随机算法作用在相邻数据集上的概率越接近，数据干扰能力越强，则可以提供更强的数据安全性。通常隐私预算的取值需要结合具体的要求以平衡数据隐私性和数据可用性之间的关系，其主要取值范围在[0.01,1.0]之间或取ln2,ln3等。

敏感度是衡量噪声添加多少的关键指标，其表示在数据集中增加或删除任意一条记录给查询结果序列带来的最大改变量。

定义2-3全局敏感度：函数，其中D表示输入数据集，Rd表示d维向量，则全局敏感度计算如下公式（2）所示。

（2）

其中，D₁和D₂表示相邻数据集，表示1-阶范数距离。比如对于计数查询而言，其全局敏感度为1。对于中位数查询函数来说，全局敏感度为S_max-S_min，其中S_max表示序列中的最大值，S_min表示序列中的最小值。

满足差分隐私保护条件的机制主要包括：拉普拉斯机制(Laplace Mechanism)和指数机制(Exponential Mechanism)。

Laplace机制是利用向查询结果序列中加入服从拉普拉斯概率密度分布的随机噪声来实现ε-差分隐私。记均值为0的Laplace分布为Lap(b)，Laplace概率密度函数定义如下式（3）所示。

（3）

记x和y均表示d维向量，函数的敏感度为，定义如下：

（4）

给定数据集D，函数，敏感度，则Laplace机制定义如下：

（5）

Laplace机制满足ε-差分隐私。表示满足拉普拉斯概率密度函数的随机噪声。不同隐私预算参数ε下的拉普拉斯概率密度函数如图2所示。根据不同隐私预算参数ε下的Laplace的概率分布可以得到，ε越小，的值就越大（给定不变），添加的噪声就越大。

针对数值型数据的进行添加噪声的处理以实现差分隐私较适合采用Laplace机制，而针对非数值型数据进行添加噪声处理需要使用指数机制。设为数据集D的打分函数，用于量化输出的质量，其全局敏感度为，若机制M满足ε-差分隐私，那么它满足下式：

（6）

差分隐私具有变换不变性，序列组合性和并行组合性。

定义2-4变换不变性：对于给定满足ε-差分隐私的随机算法和任意算法，则复合后的新算法仍然满足ε-差分隐私。

定义2-5序列组合性：设随机算法是t个随机算法的组合算法，同时对于数据集D均满足ε-差分隐私，则随机算法满足差分隐私，如图3所示。序列组合性保证针对相同数据集在不同算法的执行阶段可以分配使用隐私预算。

定义2-6并行组合性：设有t个随机算法分别满足ε-差分隐私，将分别作用在互不相交的数据集上，则最终满足ε-差分隐私，如图4所示。并行组合性可以确保使用差分隐私算法在互不相交子数据集上的隐私性。

针对社交网络的数据发布过程，需要先对数据进行预处理，在数据发布过程需要保证发布的数据不会造成隐私泄露，还要确保发布的数据具有一定的可用性，让数据分析者对发布的数据进行较为准确的分析并获取有价值的信息。数据发布的隐私保护框架，如图5所示。

基于差分隐私进行数据发布的目标是要做到在满足差分隐私的前提下保证发布数据的安全性以及在后期的数据分析中查询结果序列的准确性。一般而言，在交互式的数据发布中，数据服务方会先对数据集进行噪声干扰处理后来响应每次用户的查询，以保证数据集中个体敏感信息的安全。在非交互式的环境中，主要是采用在满足差分隐私的前提下，一次性发布一个不精确的数据集，用户可以根据自身的需求可以有选择性的进行查询操作。

针对社交网络的数据挖掘过程，首先明确数据挖掘的目标，然后对数据进行的组合和预处理的工作。在数据分析阶段中确定采用的数据挖掘算法实现的对数据的转换和分析，通过各项评价指标分析选择出最终结果，从而将可用的信息已用于决策过程。由于数据挖掘技术也可能会引发泄露隐私风险，因此在数据挖掘的过程中也要对隐私信息进行必需的保护。数据挖掘中隐私保护框架，如图6所示。

基于差分隐私的数据挖掘技术主要包括：（1）数据服务方以提供访问接口的形式向数据挖掘者（或数据分析者）提供服务。在该方案中，假设数据挖掘者是不可信的这就要求数据服务方需要将差分隐私处理作用于原始数据。（2）数据挖掘者（或数据分析者）可以直接访问原始数据，但是需要数据挖掘工具进行隐私保护处理。因为在方案中数据挖掘者（或数据分析者）被认为是可信的，所以要求数据挖掘者（或数据分析者）不能随意地发布原始数据的隐私信息，需要对数据挖掘工具进行差分隐私保护。

就社交网络中的数据发布形式而言，直方图发布是一种重要的数据发布形式，但社交网络数据在直方图发布过程中可能存在着隐私泄漏的问题。针对该问题，有学者利用图映射方法对社交网络先进行节点差分隐私处理，再对直方图查询结果进行添加噪声以保证直方图发布的安全性。但映射方法在直方图发布过程中可能会引入过量噪声，为缓解这一问题，找到合适的社交网络中满足节点差分隐私的直方图发布方法。

本发明提出了AGBD(Adjacent Group Bucket Dividing，基于差分隐私的相邻桶分组划分方法)，其核心思想是使用贪心策略，并结合Laplace机制对相邻桶进行分组划分以减少由于添加过量噪声对直方图发布质量的影响。同时利用排列保序方法优化直方图发布，提升直方图发布查询的精确性。实验结果表明此方法可以提升直方图发布后的查询精度。研究思路如图6所示。

可选地，上述步骤S2可以包括如下步骤S21-S23：

S22、设定节点阈值，根据字典排序得到稳定的顺序边集。

一种可行的实施方式中，社交网络可以用图结构表示，图中的节点表示社交网络中的节点，边表示社交网络中节点之间的关系。相对于差分隐私中的相邻数据集，社交网络中有相邻图的概念。对于明确的社交网络G₁，如果从图G₁中增加或者去除一个节点和与之相连接的所有边，则可以得到相邻图G₂。如果对于图查询函数G满足差分隐私，则称该查询满足Node-DP(Node Differential Privacy，节点差分隐私)，如图8所示。

通常情况，如果在社交网络中使用差分隐私，直接对其进行添加噪声会带来巨大噪声干扰从而削弱原始数据的效用性，所以应该对社交网络图结构先进行一定的变换操作，以便于接下来的添加随机噪声处理。提出一种针对社交网络图且满足节点差分隐私的图映射算法。初始化网络后，通过逐次加边的方式来实现映射，算法执行主要分为两步：（1）删除原始社交网络图中的所有边，只保留图中的节点，保证网络中所有的节点度数均为0。（2）向删除边的网络中根据边的稳定顺序逐次加边，并设定节点阈值θ（表示允许节点间加边的最大条数），首先判断节点间要加的边数是否小于阈值θ，如果小于阈值θ，则不允许添加，否则此边可以添加，并将连接的节点的度增加1。

其中，当且仅当输入图和输出图之间仅相差一个节点时，此时顺序边集是稳定的。在实际中，稳定的顺序边集可以通过字典排序的方式确定。因为每个节点在网络中具有唯一的编号(如社交网络中的id等)，并且这些编号一定是可以进行完全排序的(如按照字典顺序排列)。图9表示图映射算法的一个执行实例。

其中，设定节点度阈值θ为1。在原始社交网络结构图中，a,b,c,d可以表示网络中的用户，数字1,2,3,4,5分别表示节点之间构成的稳定顺序边(按照字母排序).则有序的边集可以表示为。先对原始社交网络图进行初始化操作，所有的边被移除，所有节点的度为0，得到图(b)。顺序构造边，依次添加符合要求的边，第一条边的添加如图(c)所示，直至算法的结果输出如图(d)所示。如图8所示，由于节点阈值的限定，导致原始社交网络图经过图映射算法执行后会得到2条边，虽然会损失部分边的信息，但是可以提供较强度高的差分隐私保护。

可选地，上述步骤S3可以包括如下步骤S31-S33：

S31、根据处理后的社交网络图得到原始直方图。

一种可行的实施方式中，直方图是进行数据统计的一种有效形式，通常将数据域划分为若干个等距且不相交的区间，由于数据具有不同的属性或特征，导致数据会落在不同的区间内，进而形成把不同高度的桶(柱形图)。从局部上看，每个桶显示具有某种特定属性的数据个数。从整体上看，直方图的数据分布反映数据的分布情况。所以，直方图发布的数据通常会被用来做计数查询，数据聚集查询，数据分析和数据挖掘等，但如果直接发布直方图的真实统计情况，有可能引发个人敏感信息泄露的风险。

对于社交网络图中的节点间某一种属性attribute(如互为好友关系个数等)，则 attribute的任意一个属性值peattribute记为number(p)，则属性值对应的数量大小表示属于该属性的频数，直方图可以看成attribute的频数序列，记为，其中。图10表示某一个在线好友关系图，节点旁边的序号表示该节点的度。图11是基于节点度的直方图统计信息。如果攻击者了解到有一位用户是该网络中的一个节点且刚加入网络(表示暂无好友)，则攻击者根据真实的直方图信息就可以推断出在该好友网络中具有度为1的节点即为该用户，从而造成隐私泄露。

S32、对原始直方图中相邻的桶进行分组合并以及划分。

可选地，上述步骤S32可以包括如下步骤S321-S322：

S321、根据贪心策略对原始直方图中相邻的桶进行分组合并。

一种可行的实施方式中，如果直接发布直方图可能导致隐私泄露问题，所以需要对直方图发布进行隐私保护处理，将服从独立同分布的Laplace噪声添加到每个区间内，实现对真实数据的扰动，使数据“脱敏”。在该方法中全局敏感度=1，向直方图中的各个区间内添加满足Lap(1/ε)分布的噪声，最终需要根据数据服务方对隐私保护的需求来调节隐私预算ε的值，若想获得较高的隐私保护强度，需要设置较低的ε的值；反之，则需要设置较高的ε的值。虽然该方法可以针对直方图实现差分隐私保护，但是由于该算法在每个区间内都增加了Lap(1/ε)噪声，若进行大范围的计数查询操作，过度的噪声累加，会逐步降低查询结果的可用性。本发明针对这个问题提出了一种基于相邻桶分组划分算法，核心思想是对相邻的桶分组合并后划分，以差分隐私为基础，加入Laplace噪声以保证数据的安全性和有效性。

记表示原始直方图，其中一个包含k个桶的划分方法为，其中每个桶，left_i表示桶B_i的左边界值，right_i表示B_i右边界值，num_i表示桶B_i上的计数统计值。规定数据x_i装入桶B_i需要满足left_i≤x_i≤right_i条件。由于划分的策略的差异，导致不同的划分结果，最终造成不同的数据分布，需要先定义相邻桶划分误差。

定义4-1相邻桶划分误差，如下式（7）所示：

（7）

其中，，left_i表示桶B_i的左边界值，right_i表示B_i右边界值，num_i表示桶B_i上的计数统计值，规定数据x_i装入桶B_i需要满足left_i≤x_i≤right_i条件，h_j表示在桶B_j下的桶划分方式。

定义4-2直方图误差，如下式（8）所示：

（8）

其中，表示原始直方图，表示包含k个桶的划分方法，j∈(1，k)，left_i表示桶B_i的左边界值，right_i表示B_i右边界值，num_i表示桶B_i上的计数统计值，h_j表示在桶B_j下的桶划分方式。

定义4-3桶合并划分误差，如下式（9）所示：

（9）

其中，表示桶B_i和桶B_j合并之后构成的新桶，新桶的误差记为，err(B_i)表示桶B_i的误差，err(B_i+1)表示桶B_i+1的误差。

相邻桶分组划分算法中，在相邻桶合并的过程中需要全部遍历，结合贪心策略，采用枚举法寻找最小桶时进行遍历，复杂度为O(m²)。在添加噪声的过程中，需要一次顺序遍历，时间复杂度为O(m)。

针对在向直方图添加噪声过程中因为过量累加噪声而导致逐步削弱查询结果可用性的问题，AGBD方法以差分隐私为基础，加入Laplace噪声，使用贪心策略对相邻的桶分组进行合并划分以减少由于添加过量噪声对直方图发布质量的影响，并利用排列保序方法优化直方图发布，提升发布直方图查询的精确性。实验结果显示此方法可以提升直方图发布后的查询精度。

一种可行的实施方式中，在对直方图进行隐私保护的时候进行了添加噪声的处理，此过程会造成序列的排序错乱，从而影响到数据的有效性。如果在扰动后的数据上保持原始序列的排序约束，不仅不会对直方图的隐私信息造成破坏，还会提高直方图发布的精确性，提高查询精度。排列保序算法中的计算开销主要集中在寻找失序值，使用顺序查找方法的时间复杂度O(n)，使用序列中的均值取代失序序列的时间复杂度为O(n)，所以排列保序的时间复杂度为O(n)。

仿真分析：

本次实验的数据集都来自斯坦福SNAP的两个社交网络数据，包括Twitter数据集和Facebook数据集。数据集的部分信息如表1所示。

（1）Twitter数据集：主要是由从Twitter社交工具中获取社交圈中公共的资源组成（包括节点特征，朋友圈信息等）。

（2）Facebook数据集：主要包括Facebook社交网络中用户彼此间的关注信息，每个节点表示社交网络中的用户，边表示用户之间相互关注。

表1

实验中选取上述两个数据集的原因是两个数据集中的数据均取自真实的社交网络，能够很好的反映现实社交网络的特点和状况。

评价准标准：

（1）基准方法：该次实验将在相同数据集上与和Edge-Removal(ER)方法进行对比。

：对网络中构成的顺序边集进行遍历，如果两个节点之间的度数小于阈值θ，则添加边，如果不小于阈值θ，则不添加边，最终完成网络图的映射，再通过满足全局敏感度上界约束下添加噪声进行直方图的发布。

ER：基于删除网络中边的策略，对于给定的顺序遍历图中的每条边，如果当前边连接的节点至少有一个度数大于阈值θ，则删除该边，直至遍历结束完成网络图的映射再通过满足全局敏感度上界约束下添加噪声进行直方图的发布。

（2）评价指标：实验使用L1误差和Kolmogorov-Smirnov距离（KS），来对比不同方法的效果。

L1误差（L1Error）：对于长度为n的直方图分布dist和dist'，L1误差计算如公式（10）所示：

（10）

Kolmogorov-Smirnov距离：KS是一种累积分布函数，可以用于对比较两个分布是否存在明显差异的度量。KS值越小，说明原始直方图和添加噪声后直方图分布越接近，KS的计算如公式（11）所示。

（11）

其中，dist和dist'表示两个用于比较的直方图，CDF(dist_i)表示在直方图dist分布中节点度数为i时对应的概率累计函数值。

仿真结果和分析：针对社交网络数据处理算法，按照上面提及的算法，ER算法和AGBD算法在已有数据集上进行对比实验。

（1）不同θ取值的实验结果比较分析：表2表示L1误差在不同数据集上随θ取值变化的结果。图12和图13是RE算法，算法和AGBD算法分别在Twitter数据集和Facebook数据集上的L1误差。

表2

从表2中可以看出：在上述两个数据集上，当θ较大时，AGBD算法造成的L1误差明显低于RE算法和算法。当θ=64时，三种算法产生的L1误差出现明显的拐点，这说明节点度等于64是该网络中存在最多的度，此时用θ=64进行网络映射做直方图统计，能够获得更接近原图的信息；当θ=64，由于AGBD算法在执行过程通过相邻桶的合并削弱了由于引入噪声带来的误差此时L1误差为18.17和15.78都低于另外两种算法造成的误差；在Facebook数据集上，真实网络中平均节点度为1045，当θ=1024时，由于此时图的边保留度较高，AGBD造成的L1误差为2.35，低于ER造成的5.87和造成的4.04。

从图12和图13中可以看出：整体的趋势上，RE算法，算法和AGBD算法在各数据集上的L1误差都会随着参数θ的增大而减小。主要原因是θ越大，网络中可以保留的边数越多，越接近原始的真实网络结果，网络中的边保留度越高，扰动后的直方图越接近真实的直方图分布；当参数θ较大时，AGBD的明显比RE算法，算法的L1误差要低。因为ER算法是删除边的策略，只要度数大于θ值就顺序删除边，这种方式对原始图的破坏较大，因此造成较大L1误差；AGBD在算法上改进了顺序加边的策略且进行了排列保序，减少了L1误差，提高了算法的稳定性和有效性。

（2）不同ε取值的实验结果比较分析：表3表示KS距离在不同数据集上随ε取值变化的结果。图14和图15分别是RE算法，算法和AGBD算法在Twitter数据集和Facebook数据集上KS距离随参数的变化曲线，实验选择的θ值为64，实验中将直方图的频率作为离散型的概率。

表3

从表3中可以看出：在Twitter数据集上，ER，和AGBD算法获得的KS图像拐点分在别ε=1.0，ε=1.0和ε=0.8处取得，这说明AGBD具有较好的稳定性；当ε的取值超过各自的拐点取值时，均以AGBD得到最小的KS的方式而缓慢减小。这是由于引入排列保序，使得当隐私预算增大时，使得提升查询精度效果提升更加明显；在ε逐渐增大过程中，AGBD基本上取得最小的KS值，这是因为KS是基于累积分布函数AGBD中利用相邻桶合并和排列保序，使得在对频率直方图进行累积时减少了产生个别异常直方图的可能，累积过程引入的误差也越小，从而获得较小的KS值。

从图14和图15中可以看出：不同数据集上KS随ε的变化趋势一致，都会随着ε的增大而减小，原因是ε增大，降低了直方图中添加的噪声量，扰动后的直方图和原始直方图之间逐渐趋于相同，因此KS的距离会逐渐缩小；不同数据集上的曲线拐点出现位置不同，Twitter数据集上的拐点在ε=1.0处，Facebook数据集上的拐点出现在ε=1.2这是由于Facebook数据集上样本不平衡导致的。随后再随着ε的增大，曲线逐渐平缓，说明再增大ε值对于KS的减小效果影响减弱，这由差分隐私的模型决定，并不取决于数据集；AGBD算法比其他算法在各数据集上获得的KS值大部分都低，在Twitter数据集上，当ε=0.8，KS最大差值为0.16(0.38-0.22)。在Facebook数据集上，当ε=0.4，KS最大差值为0.11(0.47-0.36)，这说明本发明提出的AGBD算法更具有优势。在实际的应用中，需要根据具体的安全保护需求，合理设置隐私预算参数ε，从而保证数据在不泄露的情况下能够较准确地反映直方图的分布情况。

本发明实施例中，直方图发布作为一种重要的数据发布形式而被广泛应用在社交网络中，但社交网络数据在直方图发布过程中可能存在着隐私泄漏的问题。为缓解图映射方法在直方图发布过程中可能会引入过量噪声的问题，本发明提出了基于差分隐私的相邻桶分组划分方法AGBD，其核心思想是使用贪心策略，并结合 Laplace 机制对相邻桶进行分组划分以减少由于添加过量噪声对直方图发布质量的影响。同时利用排列保序方法优化直方图发布提升直方图发布查询的精确性。实验结果表明此方法可以提升直方图发布后的查询精度。

如图16所示，本发明实施例提供了一种基于差分隐私的社交网络直方图发布装置1600，该装置1600应用于实现基于差分隐私的社交网络直方图发布方法，该装置1600包括：

图17是本发明实施例提供的一种电子设备1700的结构示意图，该电子设备1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）1701和一个或一个以上的存储器1702，其中，存储器1702中存储有至少一条指令，至少一条指令由处理器1701加载并执行以实现下述基于差分隐私的社交网络直方图发布方法：

S1、将社交网络以图结构表示，得到原始社交网络图。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于差分隐私的社交网络直方图发布方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于差分隐私的社交网络直方图发布方法，其特征在于，所述方法包括：

S1、将社交网络以图结构表示，得到原始社交网络图；

S2、采用图映射方法对所述原始社交网络图进行节点差分隐私处理；

S3、基于相邻桶分组划分算法AGBD对处理后的社交网络图进行直方图发布；

S4、利用排列保序方法优化所述直方图发布，得到基于差分隐私的社交网络直方图发布结果。

2.根据权利要求1所述的方法，其特征在于，所述S2中的采用图映射方法对所述原始社交网络图进行节点差分隐私处理，包括：

S21、删除原始社交网络图中的所有边，保留原始社交网络图中的节点，所述原始社交网络图中所有的节点度数均为0，得到删除边后的社交网络图；

S22、设定节点阈值，根据字典排序得到稳定的顺序边集；

S23、根据所述节点阈值以及稳定的顺序边集，对所述删除边后的社交网络图进行逐次加边；

3.根据权利要求1所述的方法，其特征在于，所述S3中的基于相邻桶分组划分算法AGBD对处理后的社交网络图进行直方图发布，包括：

S31、根据处理后的社交网络图得到原始直方图；

S32、对原始直方图中相邻的桶进行分组合并以及划分；

4.根据权利要求3所述的方法，其特征在于，所述S32中的对原始直方图中相邻的桶进行分组合并以及划分，包括：

S321、根据贪心策略对原始直方图中相邻的桶进行分组合并；

5.根据权利要求4所述的方法，其特征在于，所述S322中的相邻桶划分误差，如下式（1）所示：

（1）

6.根据权利要求4所述的方法，其特征在于，所述S322中的直方图误差，如下式（2）所示：

（2）

7.根据权利要求4所述的方法，其特征在于，所述S322中的桶合并划分误差，如下式（3）所示：

（3）

8.一种基于差分隐私的社交网络直方图发布装置，其特征在于，所述装置包括：

构建模块，用于将社交网络以图结构表示，得到原始社交网络图；

图映射模块，用于采用图映射方法对所述原始社交网络图进行节点差分隐私处理；

发布模块，用于基于相邻桶分组划分算法AGBD对处理后的社交网络图进行直方图发布；

优化模块，用于利用排列保序方法优化所述直方图发布，得到基于差分隐私的社交网络直方图发布结果。

9.根据权利要求8所述的装置，其特征在于，图映射模块，进一步用于：

S22、设定节点阈值，根据字典排序得到稳定的顺序边集；

10.根据权利要求8所述的装置，其特征在于，发布模块，进一步用于：

S31、根据处理后的社交网络图得到原始直方图；

S32、对原始直方图中相邻的桶进行分组合并以及划分；