CN105376243A - 基于分层随机图的在线社会网络差分隐私保护方法 - Google Patents

基于分层随机图的在线社会网络差分隐私保护方法 Download PDF

Info

Publication number
CN105376243A
CN105376243A CN201510847184.XA CN201510847184A CN105376243A CN 105376243 A CN105376243 A CN 105376243A CN 201510847184 A CN201510847184 A CN 201510847184A CN 105376243 A CN105376243 A CN 105376243A
Authority
CN
China
Prior art keywords
node
tree
network
probability
subtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510847184.XA
Other languages
English (en)
Other versions
CN105376243B (zh
Inventor
朱培栋
陈亮
王可
蔡开裕
刘小雪
郑倩冰
马迪
杜秀春
康文杰
尚博文
刘磊
胡照明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201510847184.XA priority Critical patent/CN105376243B/zh
Publication of CN105376243A publication Critical patent/CN105376243A/zh
Application granted granted Critical
Publication of CN105376243B publication Critical patent/CN105376243B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分层随机图的在线社会网络差分隐私保护方法,步骤包括:输入网络;基于分层随机图模型构建网络的树结构;根据预设的隐私预算,由马尔科夫蒙特卡洛方法在网络中采样得到采样树;以采样树的根节点作为初始当前节点;根据预设的隐私预算,计算当前节点的关联概率值;在网络中找到以当前节点为最近父节点的一组节点对,以关联概率值在该组节点对之间设置一条边;判断采样树是否遍历完毕,如果尚未完毕,则在采样树中继续遍历下一节点;否则将所有组节点间设置的边及其节点组成的净化网络输出。本发明能够解决社会网络敏感结构数据信息的隐私保护问题,能够满足差分隐私保护要求、同时保持良好的数据可用性。

Description

基于分层随机图的在线社会网络差分隐私保护方法
技术领域
本发明涉及在线社会网络关键结构的敏感信息保护技术,具体涉及一种基于分层随机图的在线社会网络差分隐私保护方法。
背景技术
随着互联网技术的发展与在线社会网络服务的普及,数据的共享变得越来越便捷,由此引发了人们对自身隐私泄露的担忧。近年来,由数据泄露引发的社会恐慌在国内外时有发生,如美国著名互联网公司美国在线(AOL)泄露了大量用户的网络搜索记录,有人根据这些搜索记录找出了对应用户的真实身份,使得大量注册用户的上网习惯被意外曝光。由该类事件可知,保护个人隐私远远不止隐藏数据记录中的敏感属性那么简单,还要阻止敏感属性值与特定的实体或个人关联起来,以防止由非敏感属性信息推测出个人的真实身份。近十几年来数据挖掘技术的高速发展,也为隐私信息的保护带来了新的挑战。因为数据挖掘的对象往往是海量数据,同时对海量数据进行访问,使得身份认证、权限控制等传统的数据库安全措施不能有效进行隐私保护。因为这些手段只能防止敏感属性被用户直接获取,但间接推理获得敏感信息的行为很难预防。
2006年研究者首次提出差分隐私(DifferentialPrivacy)的概念。差分隐私概念源于一个朴素的观察:当数据集D中包含个体A时,对数据集D进行任意查询操作f(如计数、求和、平均值和中位数等)所得到的结果为f(D),如果将个体A的信息从数据集D中删除后进行查询得到的结果任然为f(D),则可以认为,个体A的信息并没有因为被包含在数据集D中而产生额外的风险。差分隐私保护就是要保证任一个体在数据集中或者不在数据集中时,对最终发布的结果没有影响。
现有的隐私保护技术可大致分为:数据失真、数据加密、限制发布和泛化匿名等。但许多隐私保护技术融合了多种技术,如k-匿名和l-diversity是基于限制发布的泛化技术中比较有代表性的两种隐私保护方法。k-匿名可以保证任意一条记录与另外的k-1条记录不可区分。l-diversity在基于k-匿名的基础上保证每个等价类中的敏感属性至少有l个值,避免一个等价类中敏感属性取值单一,使得隐私泄露风险不超过1/l。这些隐私保护方法的不足之处在于没有严格定义攻击模型,对攻击者所具有的背景知识未能作出定量化分析。
差分隐私保护与传统隐私保护方法的不同之处在于,它定义了一个极为严格的攻击模型,并对隐私泄露风险给出了严谨、定量化的表示和证明。差分隐私保护在大大降低隐私泄露风险的同时,极大地保证了数据的可用性。差分隐私保护方法的最大优点是,虽然基于数据失真技术,但所加入的噪声量与数据集大小无关,因此对于大型数据集,仅通过添加极少量的噪声就能达到高级别的隐私保护。
在线社会网络的发展带来海量的网络数据,这些网络数据中往往包含大量涉及个人隐私的敏感信息。净化网络是将敏感信息从原始网络数据中移除或者对敏感信息进行加密形成的网络。而差分隐私保护技术是基于数据失真的隐私保护技术,采用添加符合一定概率分布的随机噪音使敏感数据失真,但同时保持某些数据或数据属性不变。因此差分隐私技术用于生成在线社会网络的净化网络时具有多个优点。
网络具有层次组织结构,节点可以被划分为组团,组团又划分为社区,因此网络具有多尺度。在许多实际情况下,这些组群对应着已知的功能单位,如食物链中的小型生态环境、生化网络中的模块、社会网络中的社区等等。而这种网络层次结构可以用分层随机图(HierarchicalRandomGraph,HRG)来刻画。因此分层随机图模型可以有效刻画大型在线社会网络层次结构,对网络进行有效建模。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种能够解决社会网络敏感结构数据信息的隐私保护问题,能够满足差分隐私保护要求、同时保持良好的数据可用性的基于分层随机图的在线社会网络差分隐私保护方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于分层随机图的在线社会网络差分隐私保护方法,步骤包括:
1)输入网络G;
2)基于分层随机图模型构建网络G的树结构T;
3)根据预设的隐私预算ε1,由马尔科夫蒙特卡洛方法在网络G的树结构T中进行采样得到采样树Tsample
4)以采样树Tsample的根节点Rroot作为初始的当前节点;
5)根据预设的隐私预算ε2,计算当前节点的关联概率值{Pr};
6)在网络G中找到以当前节点作为最近父节点的一组节点对,以关联概率值{Pr}在该组节点对之间设置一条边;
7)判断采样树Tsample是否遍历完毕,如果尚未遍历完毕,则在采样树Tsample中查找下一个节点作为当前节点,跳转执行步骤5);否则跳转执行步骤8);
8)将所有组节点之间设置的边及其节点组成的净化网络输出。
优选地,所述步骤2)构建网络G的树结构T为包含一个根节点、n个叶节点及n-1个父节点的二叉树,所述树结构T中的n个叶节点对应网络G中的n个节点,每一个父节点r具有属性连接概率pr,所述连接概率pr表示以父节点r为相同父节点的两个叶节点之间的连接概率。
优选地,所述步骤3)的详细步骤包括:
3.1)从网络G的树结构T中选择一个随机的初始采样树T0作为初始化马尔科夫链的条件,初始化马尔科夫链并开始沿着马尔科夫链移动;
3.2)当沿着马尔科夫链移动到第i步时,从初始采样树T0或者上一步得到的采样树Ti-1中随机选出一个分枝节点r;
3.3)随机构造出分枝节点r的子树,通过分枝节点r的子树选出上一步得到的采样树Ti-1的一个邻居树T’;
3.4)根据预设的隐私预算ε1计算转移概率P,根据转移概率P在马尔科夫链中进行条件转移,同时将邻居树T’赋值给本步得到的采样树Ti
3.5)判断马尔科夫链中是否还有剩余树,如果还有剩余树则继续沿着马尔科夫链移动,并跳转执行步骤3.2),否则跳转执行步骤3.6);
3.6)将采样树Ti作为最终得到的采样树Tsample输出。
优选地,所述步骤3.4)中计算转移概率P的函数表达式如式(1)所示;
式(1)中,P为转移概率,ε1为预设的隐私预算,△u为差分隐私全局敏感度,T'为本步得到的邻居树,Ti-1为上一步得到的采样树,为分层随机图的最大似然概率。
优选地,所述分层随机图的最大似然概率的函数表达式如式(2)所示;
式(2)中,表示树结构T的最大似然概率,r表示树结构T的一个分枝节点,为采样树节点连接的关联概率,Lr为以r为节点的左子树,Rr为以r为节点的右子树。
优选地,所述步骤5)的详细步骤包括:
5.1)根据预设的隐私预算ε2计算注入噪音测度值λb
5.2)根据预设的隐私预算ε2计算连接概率测度值λc
5.3)判断注入噪音测度值λb大于或等于τ1且连接概率测度值λc大于或等于τ2是否同时成立,如果成立则跳转执行步骤5.4),否则跳转执行步骤5.7);
5.4)确定以当前节点r*为根节点的子树中所有节点间边的数量ec(r*);
5.5)计算节点连接概率预测值
5.6)对以当前节点r*为根节点的子树中的每个分枝节点r,将节点连接概率预测值赋值给设置分枝节点r的连接概率预测值跳转执行步骤5.12);
5.7)计算当前节点r*的连接概率预测值
5.8)生成当前节点r*的左子树
5.9)生成当前节点r*的右子树
5.10)以当前节点r*的左子树作为新的当前节点,跳转执行步骤5.3);
5.11)以当前节点r*的右子树作为新的当前节点,跳转执行步骤5.3);
5.12)输出当前节点r*的关联概率值{Pr}。
优选地,所述步骤5.1)中计算注入噪音测度值λb的函数表达式如式(3)所示;
λ b = 1 ∈ 2 · ( L r * · R r * ) - - - ( 3 )
式(3)中,λb为注入噪音测度值,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树。
优选地,所述步骤5.2)中计算连接概率测度值λc的函数表达式如式(4)所示;
λ c = 1 ∈ 2 · ( ( L r * + R r * ) ( L r * + R r * - 1 ) 2 ) - - - ( 4 )
式(4)中,λc为连接概率测度值,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树。
优选地,所述步骤5.5)中计算节点连接概率预测值的函数表达式如式(5)所示;
p ~ = min { 1 , e c ( r * ) + L a p ( 1 ∈ 2 ) ( L r * + R r * ) ( L r * + R r * - 1 ) 2 } - - - ( 5 )
式(5)中,为节点连接概率预测值,ec(r*)为以当前节点r*为根节点的子树中所有节点间边的数量,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树,Lap()为拉普拉斯分布函数。
优选地,所述步骤5.7)中计算当前节点r*的节点连接概率预测值的函数表达式如式(6)所示;
式(6)中,为当前节点r*的节点连接概率预测值,为以当前节点r*为根节点的子树中所有节点间边的数量,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树,Lap()为拉普拉斯分布函数。
本发明基于分层随机图的在线社会网络差分隐私保护方法具有下述优点:针对应对目前在线社会网络隐私结构数据保护的缺失,本发明立足于解决社会网络敏感结构数据信息的隐私保护问题,利用分层随机图模型来刻画网络结构,接着通过马尔科夫蒙特卡洛(MarkovchainMonteCarlo,MCMC)采样方法来保证差分隐私数据的可用性,能够解决社会网络敏感结构数据信息的隐私保护问题,能够满足差分隐私保护要求、同时保持良好的数据可用性。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例方法中的简单无向网络图示例。
图3为本发明实施例中基于图2所示简单无向网络图生成的两个树结构。
图4是本发明实施例方法在wiki-Vote网络下的F-measure值测度。
图5是本发明实施例方法在ca-GrQc网络下的F-measure值测度。
具体实施方式
如图1所示,本实施例基于分层随机图的在线社会网络差分隐私保护方法的步骤包括:
1)输入网络G;
2)基于分层随机图模型构建网络G的树结构T;
3)根据预设的隐私预算ε1,由马尔科夫蒙特卡洛方法在网络G的树结构T中进行采样得到采样树Tsample
4)以采样树Tsample的根节点Rroot作为初始的当前节点;
5)根据预设的隐私预算ε2,计算当前节点的关联概率值{Pr};
6)在网络G中找到以当前节点作为最近父节点的一组节点对,以关联概率值{Pr}在该组节点对之间设置一条边;
7)判断采样树Tsample是否遍历完毕,如果尚未遍历完毕,则在采样树Tsample中查找下一个节点作为当前节点,跳转执行步骤5);否则跳转执行步骤8);
8)将所有组节点之间设置的边及其节点组成的净化网络输出。
本实施例中网络G表达为G=(V,E),用于代表用户或者实体间的连接网络,V代表节点网络中节点的集合,代表网络G中边的集合。若两个网络G1=(V1,E1)和G2=(V2,E2)为邻居网络,则满足V1=V2且|E1|+1=|E2|。本实施例中,A代表网络G对应的邻接矩阵,A∈{0,1}n×n表示网络G中包含n个节点间是否包含一条边,Ai,j=1则表示节点i与节点j之间存在一条边,反之Ai,j=0。
本实施例中,步骤2)构建网络G的树结构T为包含一个根节点、n个叶节点及n-1个父节点的二叉树,树结构T中的n个叶节点对应网络G中的n个节点,每一个父节点r具有属性连接概率pr,连接概率pr表示以父节点r为相同父节点的两个叶节点之间的连接概率。针对网络G,则其中两个叶节点i、j的连接概率为pij=pr,这个r是叶节点i、j最近的相同父节点,本实施例中用组合(T,{pr})来定义一个分层随机图模型HRG。如果该网络G中一个网络社区包含3个子社区,每个子社区以相同的概率p连接,可以先将一个子社区分离,再将另外两个子社区分离。对应这两个分割的父节点对应相同的概率值pr=p,这产生三个概率相同的树。在分层随机图模型HRG中,连接概率是不均匀的,这种概率不均匀性有由树结构T的拓扑结构和参数{pr}控制。
以如图2所示简单无向网络图为例,该无向网络图包括a~g共7个节点、9条边,由该无向网络图在分层随机图模型下生成分层概率二叉树如图3所示,分层随机图是一种复杂网络模型,表现为一个二叉树,它不仅可以将复杂的在线社会网络进行层次聚类,而且在可视化的同时提供了不同粒度的聚类信息。图3中,上下两个子图分别为两个不同概率二叉树与输入网络的似然值不同,与网络匹配程度也不同。根据贝叶斯理论,在所有生成的树空间中,节点连接概率最大树结构,与给定网络匹配程度越高。以图3中生成的两个二叉树为例,上面的二叉树似然概率值计算为:
( 1 12 ) ( 11 12 ) 11 ≈ 0.032 ;
而下图的二叉树似然概率值计算为:
( 1 2 ) 2 ( 1 3 ) ( 2 3 ) 2 ( 1 4 ) 3 ( 3 4 ) 9 ≈ 0.000043 ;
因此,图3上图中的二叉树与给定网络更为匹配。
本实施例中,步骤3)的详细步骤包括:
3.1)从网络G的树结构T中选择一个随机的初始采样树T0作为初始化马尔科夫链的条件,初始化马尔科夫链并开始沿着马尔科夫链移动;
3.2)当沿着马尔科夫链移动到第i步时,从初始采样树T0或者上一步得到的采样树Ti-1中随机选出一个分枝节点r;
3.3)随机构造出分枝节点r的子树,通过分枝节点r的子树选出上一步得到的采样树Ti-1的一个邻居树T’;
3.4)根据预设的隐私预算ε1计算转移概率P,根据转移概率P在马尔科夫链中进行条件转移,同时将邻居树T’赋值给本步得到的采样树Ti
3.5)判断马尔科夫链中是否还有剩余树,如果还有剩余树则继续沿着马尔科夫链移动,并跳转执行步骤3.2),否则跳转执行步骤3.6);
3.6)将采样树Ti作为最终得到的采样树Tsample输出。
本实施例中,步骤3.4)中计算转移概率P的函数表达式如式(1)所示;
式(1)中,P为转移概率,ε1为预设的隐私预算,△u为差分隐私全局敏感度,T'为本步得到的邻居树,Ti-1为上一步得到的采样树,为分层随机图的最大似然概率。隐私预算ε1用来控制差分隐私的隐私保护水平,通常值越小,代表隐私保护水平越高,本实施例中隐私预算ε1和隐私预算ε2的预设值相同。差分隐私全局敏感度△u决定差分隐私中加入噪声量的参数,加入噪声过多会影响结果的可用性,过少则无法提供足够的隐私保护。
本实施例中,分层随机图的最大似然概率的函数表达式如式(2)所示;
式(2)中,表示树结构T的最大似然概率,r表示树结构T的一个分枝节点,为采样树节点连接的关联概率,Lr为以r为节点的左子树,Rr为以r为节点的右子树。本实施例中,首先使用分层随机图模型HRG匹配网络数据,找到与网络G相匹配的分层随机图模型HRG。这里设定所有分层随机图模型HRG先验概率是完全相等的,对一个给定分层随机图模型(T,{pr})的概率的正确解释是:后验概率或似然概率在可观察网络产生的模型中的比例,目标是使得似然概率最大。更一般的讲,以似然概率来采样所有产生的模型所组成的空间。本实施例中这里让Er代表网络G中边的数量,网络G对应的树T中包含r个父节点。让Lr为以r为节点的左子树,Rr为以r为节点的右子树,则分层随机图模型HRG的似然概率的函数表达式如式(2-1)所示。
式(2-1)中,为网络G的分层随机图模型(T,{pr})的似然概率,r表示树结构T的一个分枝节点,pr为分枝节点r的连接概率,Er代表网络G中边的数量,Lr为以r为节点的左子树,Rr为以r为节点的右子树。本实施例中,约定00=1。
如果确定了树T,那么很容易找到一组概率值来使得似然概率最大化。对每个分枝节点r,其概率值计算的函数表达式如式(2-2)所示。
p ‾ r = E r L r R r - - - ( 2 - 2 )
式(2-2)中,为分枝节点r连接的关联概率,pr为分枝节点r的连接概率,Er为网络G中边的数量,Lr为以r为节点的左子树,Rr为以r为节点的右子树。
在式(2-1)和式(2-2)的基础上,可以推导得到分层随机图的最大似然概率的函数表达式如式(2)所示。且式(2)往往以对数形式出现如式(2-3)所示。
式(2-3)中,h()为Gibbs-Shannon熵函数,其表达式为h(p)=-plogp-(1-p)log(1-p)。根据式(2-3)可以发现,中的每一项在接近0或1时达到最大化,即在熵最小时。换句话说,与网络匹配的树是:将节点划分为小的组群,组群间的连接要么非常常见,要么非常稀少。
本实施例通过马尔科夫蒙特卡洛(MarkovchainMonteCarlo,MCMC)采样方法来保证差分隐私数据的可用性,通过马尔科夫蒙特卡洛采样方法以概率比例来采样树结构T。为了创建马尔科夫链,需要使用一组树T之间的转换。这些转换包含树下的子树的重排。一个树结构T的每内部节点r与三个子树相关联。马尔科夫链的每一步,首先随机均匀的选择一个内部节点r(不包含根节点);接着随机均匀从与该r连接和相配的两个子树中进行选择。结果产生一个新的树T’,这种转换的结果具有遍历性。任意一对树可以由有限的系列转换序列连接在一起。接下来根据标准Metropolis-Hastings规则来接受或放弃新产生的树。如要接受该新树T→T',则要为非负,因此T'与T的似然相近。否则,以式(2-4)所示概率来接受这个转换序列。
式(2-4)中,为采样树结构T的概率比例,为采样树结构T'的概率比例。
如果这个转换没有被接受,那么当前树在马尔科夫链上的这一步保持相同。Metropolis-Hastings规则确保细致平衡,同时与该转换的遍历性结合,保证了限制树的以按比例的似然性概率分布,由于式(2-3)中唯一的一项就是T→T'的过程中涉及到与选择节点相关的子树s、t和全局敏感度u,因此的值容易计算。在经过大概O(n2)步后,似然值达到一个平台,马尔科夫链出现相对快速收敛。
本实施例中,步骤5)的详细步骤包括:
5.1)根据预设的隐私预算ε2计算注入噪音测度值λb
5.2)根据预设的隐私预算ε2计算连接概率测度值λc
5.3)判断注入噪音测度值λb大于或等于τ1且连接概率测度值λc大于或等于τ2是否同时成立,如果成立则跳转执行步骤5.4),否则跳转执行步骤5.7);本实施例中,τ1和τ2作为差分隐私的域值作为隐私预算的实验下限,τ1取值为0.05,τ2取值为0.01;
5.4)确定以当前节点r*为根节点的子树中所有节点间边的数量ec(r*);
5.5)计算节点连接概率预测值
5.6)对以当前节点r*为根节点的子树中的每个分枝节点r,将节点连接概率预测值赋值给设置分枝节点r的连接概率预测值跳转执行步骤5.12);
5.7)计算当前节点r*的连接概率预测值
5.8)生成当前节点r*的左子树
5.9)生成当前节点r*的右子树
5.10)以当前节点r*的左子树作为新的当前节点,跳转执行步骤5.3);
5.11)以当前节点r*的右子树作为新的当前节点,跳转执行步骤5.3);
5.12)输出当前节点r*的关联概率值{Pr}。
本实施例中,步骤5.1)中计算注入噪音测度值λb的函数表达式如式(3)所示;
λ b = 1 ∈ 2 · ( L r * · R r * ) - - - ( 3 )
式(3)中,λb为注入噪音测度值,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树。
本实施例中,步骤5.2)中计算连接概率测度值λc的函数表达式如式(4)所示;
λ c = 1 ∈ 2 · ( ( L r * + R r * ) ( L r * + R r * - 1 ) 2 ) - - - ( 4 )
式(4)中,λc为连接概率测度值,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树。
本实施例中,步骤5.5)中计算节点连接概率预测值的函数表达式如式(5)所示;
p ~ = min { 1 , e c ( r * ) + L a p ( 1 ∈ 2 ) ( L r * + R r * ) ( L r * + R r * - 1 ) 2 } - - - ( 5 )
式(5)中,为节点连接概率预测值,ec(r*)为以当前节点r*为根节点的子树中所有节点间边的数量,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树,Lap()为拉普拉斯分布函数。
本实施例中,步骤5.7)中计算当前节点r*的节点连接概率预测值的函数表达式如式(6)所示;
式(6)中,为当前节点r*的节点连接概率预测值,为以当前节点r*为根节点的子树中所有节点间边的数量,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树,Lap()为拉普拉斯分布函数。
本实施例以wiki-Vote网络数据和ca-GrQc网络数据为例,分别对应用本实施例方法的平均集聚系数如表1所示,测度值F-measure的结果如图4和图5所示。其中,wiki-Vote数据包含维基百科成立以来到2008年1月3日的社区管理员选举的全部投票数据。ca-GrQc网络是一个广义相对论和量子力学研究领域的学术合作网络,包含1993年1月到2003年4月,共124月中所有该领域中所有发表论文作者间的学术合作。
表1:wiki-Vote网络数据和ca-GrQc网络数据的测度值F-measure的结果。
数据集 节点数 边数 平均集聚系数
wiki-Vote 7115 103689 0.1409
ca-GrQc 5242 14496 0.5296
测度值F-measure的结果越大表示两个数据结果相似度越大,即差分隐私保护方法所添加的噪音对数据可用性的影响越小。本实施例中当两个网络数据结果相同时,F-measure的结果取最大值1。首先对wiki-Vote网络数据和ca-GrQc网络数据进行预处理,将网络数据处理为无环图。对两个网络数据分别进行本实施例实验,逐步将隐私预算ε(ε1和ε2)的值从0.05调高到1,观察F-measure的值随隐私预算ε的变化情况。参见图4和图5,其中曲线GPN(GeneratePrivateNetwork)为本实施例基于分层随机图的在线社会网络差分隐私保护方法在不同隐私预算ε取值下的F-measure值曲线,曲线Spectral为论文“WangY,WuX,WuL.Differentialprivacypreservingspectralgraphanalysis[M]//AdvancesinKnowledgeDiscoveryandDataMining.SpringerBerlinHeidelberg,2013:329-340.”提到的基于网络图谱的差分隐私方法在不同隐私预算ε取值下的F-measure值曲线,经过对比可知,本实施例基于分层随机图的在线社会网络差分隐私保护方法相对该基于网络图谱的差分隐私方法在相同隐私保护级别下获得了更好的可用性。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于分层随机图的在线社会网络差分隐私保护方法,其特征在于步骤包括:
1)输入网络G;
2)基于分层随机图模型构建网络G的树结构T;
3)根据预设的隐私预算ε1,由马尔科夫蒙特卡洛方法在网络G的树结构T中进行采样得到采样树Tsample
4)以采样树Tsample的根节点Rroot作为初始的当前节点;
5)根据预设的隐私预算ε2,计算当前节点的关联概率值{Pr};
6)在网络G中找到以当前节点作为最近父节点的一组节点对,以关联概率值{Pr}在该组节点对之间设置一条边;
7)判断采样树Tsample是否遍历完毕,如果尚未遍历完毕,则在采样树Tsample中查找下一个节点作为当前节点,跳转执行步骤5);否则跳转执行步骤8);
8)将所有组节点之间设置的边及其节点组成的净化网络G输出。
2.根据权利要求1所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤2)构建网络G的树结构T为包含一个根节点、n个叶节点及n-1个父节点的二叉树,所述树结构T中的n个叶节点对应网络G中的n个节点,每一个父节点r具有属性连接概率pr,所述连接概率pr表示以父节点r为相同父节点的两个叶节点之间的连接概率。
3.根据权利要求2所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤3)的详细步骤包括:
3.1)从网络G的树结构T中选择一个随机的初始采样树T0作为初始化马尔科夫链的条件,初始化马尔科夫链并开始沿着马尔科夫链移动;
3.2)当沿着马尔科夫链移动到第i步时,从初始采样树T0或者上一步得到的采样树Ti-1中随机选出一个分枝节点r;
3.3)随机构造出分枝节点r的子树,通过分枝节点r的子树选出上一步得到的采样树Ti-1的一个邻居树T’;
3.4)根据预设的隐私预算ε1计算转移概率P,根据转移概率P在马尔科夫链中进行条件转移,同时将邻居树T’赋值给本步得到的采样树Ti
3.5)判断马尔科夫链中是否还有剩余树,如果还有剩余树则继续沿着马尔科夫链移动,并跳转执行步骤3.2),否则跳转执行步骤3.6);
3.6)将采样树Ti作为最终得到的采样树Tsample输出。
4.根据权利要求3所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤3.4)中计算转移概率P的函数表达式如式(1)所示;
式(1)中,P为转移概率,ε1为预设的隐私预算,△u为差分隐私全局敏感度,T'为本步得到的邻居树,Ti-1为上一步得到的采样树,为分层随机图的最大似然概率。
5.根据权利要求4所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述分层随机图的最大似然概率的函数表达式如式(2)所示;
式(2)中,表示树结构T的最大似然概率,r表示树结构T的一个分枝节点,为采样树节点连接的关联概率,Lr为以r为节点的左子树,Rr为以r为节点的右子树。
6.根据权利要求1~5中任意一项所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤5)的详细步骤包括:
5.1)根据预设的隐私预算ε2计算注入噪音测度值λb
5.2)根据预设的隐私预算ε2计算连接概率测度值λc
5.3)判断注入噪音测度值λb大于或等于τ1且连接概率测度值λc大于或等于τ2是否同时成立,如果成立则跳转执行步骤5.4),否则跳转执行步骤5.7);
5.4)确定以当前节点r*为根节点的子树中所有节点间边的数量ec(r*);
5.5)计算节点连接概率预测值
5.6)对以当前节点r*为根节点的子树中的每个分枝节点r,将节点连接概率预测值赋值给设置分枝节点r的连接概率预测值跳转执行步骤5.12);
5.7)计算当前节点r*的连接概率预测值
5.8)生成当前节点r*的左子树
5.9)生成当前节点r*的右子树
5.10)以当前节点r*的左子树作为新的当前节点,跳转执行步骤5.3);
5.11)以当前节点r*的右子树作为新的当前节点,跳转执行步骤5.3);
5.12)输出当前节点r*的关联概率值{Pr}。
7.根据权利要求6所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤5.1)中计算注入噪音测度值λb的函数表达式如式(3)所示;
λ b = 1 ∈ 2 · ( L r * · R r * ) - - - ( 3 )
式(3)中,λb为注入噪音测度值,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树。
8.根据权利要求7所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤5.2)中计算连接概率测度值λc的函数表达式如式(4)所示;
λ c = 1 ∈ 2 · ( ( L r * + R r * ) ( L r * + R r * - 1 ) 2 ) - - - ( 4 )
式(4)中,λc为连接概率测度值,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树。
9.根据权利要求8所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤5.5)中计算节点连接概率预测值的函数表达式如式(5)所示;
p ~ = min { 1 , e c ( r * ) + L a p ( 1 ∈ 2 ) ( L r * + R r * ) ( L r * + R r * - 1 ) 2 } - - - ( 5 )
式(5)中,为节点连接概率预测值,ec(r*)为以当前节点r*为根节点的子树中所有节点间边的数量,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树,Lap()为拉普拉斯分布函数。
10.根据权利要求9所述的基于分层随机图的在线社会网络差分隐私保护方法,其特征在于,所述步骤5.7)中计算当前节点r*的节点连接概率预测值的函数表达式如式(6)所示;
式(6)中,为当前节点r*的节点连接概率预测值,为以当前节点r*为根节点的子树中所有节点间边的数量,ε2为预设的隐私预算,为当前节点r*的左子树,为当前节点r*的右子树,Lap()为拉普拉斯分布函数。
CN201510847184.XA 2015-11-27 2015-11-27 基于分层随机图的在线社会网络差分隐私保护方法 Expired - Fee Related CN105376243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510847184.XA CN105376243B (zh) 2015-11-27 2015-11-27 基于分层随机图的在线社会网络差分隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510847184.XA CN105376243B (zh) 2015-11-27 2015-11-27 基于分层随机图的在线社会网络差分隐私保护方法

Publications (2)

Publication Number Publication Date
CN105376243A true CN105376243A (zh) 2016-03-02
CN105376243B CN105376243B (zh) 2018-08-21

Family

ID=55378048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510847184.XA Expired - Fee Related CN105376243B (zh) 2015-11-27 2015-11-27 基于分层随机图的在线社会网络差分隐私保护方法

Country Status (1)

Country Link
CN (1) CN105376243B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339714A (zh) * 2016-08-10 2017-01-18 上海交通大学 多层嵌入差分隐私到决策树模型的隐私风险控制方法
CN107018027A (zh) * 2017-05-23 2017-08-04 浙江工业大学 一种基于贝叶斯估计和共同邻居节点度的链路预测方法
CN107135107A (zh) * 2017-05-23 2017-09-05 浙江工业大学 一种基于贝叶斯估计和大度节点不利的链路预测方法
CN107231252A (zh) * 2017-05-23 2017-10-03 浙江工业大学 一种基于贝叶斯估计和种子节点邻居集合的链路预测方法
CN107332687A (zh) * 2017-05-23 2017-11-07 浙江工业大学 一种基于贝叶斯估计和共同邻居的链路预测方法
CN107358534A (zh) * 2017-06-29 2017-11-17 浙江理工大学 社交网络的无偏数据采集系统及采集方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN107689950A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 数据发布方法、装置、服务器和存储介质
CN107862014A (zh) * 2017-10-31 2018-03-30 陕西师范大学 隐私保护加权网络发布数据集的构建方法
CN107918664A (zh) * 2017-11-22 2018-04-17 广西师范大学 基于不确定图的社会网络数据差分隐私保护方法
CN107944489A (zh) * 2017-11-17 2018-04-20 清华大学 基于结构语义融合的大规模混合图特征学习方法
CN109344643A (zh) * 2018-09-03 2019-02-15 华中科技大学 一种面向图中三角形数据发布的隐私保护方法及系统
CN111046429A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 基于隐私保护的关系网络构建方法及装置
CN113688424A (zh) * 2021-08-31 2021-11-23 福建师范大学 基于权重社会网络的个性化差分隐私保护方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110064221A1 (en) * 2009-09-11 2011-03-17 Microsoft Corporation Differential privacy preserving recommendation
US20110282865A1 (en) * 2010-05-17 2011-11-17 Microsoft Corporation Geometric mechanism for privacy-preserving answers
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN104135362A (zh) * 2014-07-21 2014-11-05 南京大学 一种基于差分隐私发布的数据的可用性计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110064221A1 (en) * 2009-09-11 2011-03-17 Microsoft Corporation Differential privacy preserving recommendation
US20110282865A1 (en) * 2010-05-17 2011-11-17 Microsoft Corporation Geometric mechanism for privacy-preserving answers
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN104135362A (zh) * 2014-07-21 2014-11-05 南京大学 一种基于差分隐私发布的数据的可用性计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIANG CHEN, PEIDONG ZHU: ""Preserving Network Privacy with a Hierarchical Structure Approach"", 《INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339714A (zh) * 2016-08-10 2017-01-18 上海交通大学 多层嵌入差分隐私到决策树模型的隐私风险控制方法
CN106339714B (zh) * 2016-08-10 2020-12-01 上海交通大学 多层嵌入差分隐私到决策树模型的隐私风险控制方法
CN107231252B (zh) * 2017-05-23 2020-05-05 浙江工业大学 一种基于贝叶斯估计和种子节点邻居集合的链路预测方法
CN107018027B (zh) * 2017-05-23 2020-01-10 浙江工业大学 一种基于贝叶斯估计和共同邻居节点度的链路预测方法
CN107135107A (zh) * 2017-05-23 2017-09-05 浙江工业大学 一种基于贝叶斯估计和大度节点不利的链路预测方法
CN107135107B (zh) * 2017-05-23 2020-01-10 浙江工业大学 一种基于贝叶斯估计和大度节点不利的链路预测方法
CN107018027A (zh) * 2017-05-23 2017-08-04 浙江工业大学 一种基于贝叶斯估计和共同邻居节点度的链路预测方法
CN107231252A (zh) * 2017-05-23 2017-10-03 浙江工业大学 一种基于贝叶斯估计和种子节点邻居集合的链路预测方法
CN107332687A (zh) * 2017-05-23 2017-11-07 浙江工业大学 一种基于贝叶斯估计和共同邻居的链路预测方法
CN107332687B (zh) * 2017-05-23 2020-05-05 浙江工业大学 一种基于贝叶斯估计和共同邻居的链路预测方法
CN107689950A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 数据发布方法、装置、服务器和存储介质
US10848466B2 (en) 2017-06-23 2020-11-24 Ping An Technology (Shenzhen) Co., Ltd. Method, server and storage medium for data distribution
CN107689950B (zh) * 2017-06-23 2019-01-29 平安科技(深圳)有限公司 数据发布方法、装置、服务器和存储介质
CN107358534A (zh) * 2017-06-29 2017-11-17 浙江理工大学 社交网络的无偏数据采集系统及采集方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN107368752B (zh) * 2017-07-25 2019-06-28 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN107862014B (zh) * 2017-10-31 2018-12-04 陕西师范大学 隐私保护加权网络发布数据集的构建方法
CN107862014A (zh) * 2017-10-31 2018-03-30 陕西师范大学 隐私保护加权网络发布数据集的构建方法
CN107944489B (zh) * 2017-11-17 2018-10-16 清华大学 基于结构语义融合的大规模混合图特征学习方法
CN107944489A (zh) * 2017-11-17 2018-04-20 清华大学 基于结构语义融合的大规模混合图特征学习方法
CN107918664A (zh) * 2017-11-22 2018-04-17 广西师范大学 基于不确定图的社会网络数据差分隐私保护方法
CN107918664B (zh) * 2017-11-22 2021-07-27 广西师范大学 基于不确定图的社会网络数据差分隐私保护方法
CN109344643A (zh) * 2018-09-03 2019-02-15 华中科技大学 一种面向图中三角形数据发布的隐私保护方法及系统
CN109344643B (zh) * 2018-09-03 2022-03-29 华中科技大学 一种面向图中三角形数据发布的隐私保护方法及系统
CN111046429A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 基于隐私保护的关系网络构建方法及装置
CN111046429B (zh) * 2019-12-13 2021-06-04 支付宝(杭州)信息技术有限公司 基于隐私保护的关系网络构建方法及装置
CN113688424A (zh) * 2021-08-31 2021-11-23 福建师范大学 基于权重社会网络的个性化差分隐私保护方法

Also Published As

Publication number Publication date
CN105376243B (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN105376243A (zh) 基于分层随机图的在线社会网络差分隐私保护方法
Li et al. Polarity related influence maximization in signed social networks
Meng et al. Correlation coefficients of interval‐valued hesitant fuzzy sets and their application based on the Shapley function
Yu et al. Rum: Network representation learning using motifs
Tian Dai et al. Structural analysis in multi-relational social networks
Zhang et al. BL-ECD: broad learning based enterprise community detection via hierarchical structure fusion
Fain et al. Sequential deliberation for social choice
Avin et al. Elites in social networks: An axiomatic approach to power balance and Price’s square root law
Wang et al. Differentially private data publishing for arbitrarily partitioned data
Li et al. Local community detection for multi-layer mobile network based on the trust relation
Interian et al. Polarization reduction by minimum‐cardinality edge additions: Complexity and integer programming approaches
Shakeel et al. k-NDDP: An efficient anonymization model for social network data release
Qiang et al. A Novel Description of Some Concepts in Interval‐Valued Intuitionistic Fuzzy Graph with an Application
He et al. A topic community-based method for friend recommendation in online social networks via joint nonnegative matrix factorization
Jiang et al. Structure-attribute-based social network deanonymization with spectral graph partitioning
Zhang et al. Glasu: A communication-efficient algorithm for federated learning with vertically distributed graph data
Liu et al. Differential privacy performance evaluation under the condition of non-uniform noise distribution
Chen et al. Preserving the privacy of social recommendation with a differentially private approach
Song et al. Link prediction for statistical collaboration networks incorporating institutes and research interests
Palsetia et al. Excavating social circles via user interests
Qu et al. Homogeneous network publishing privacy protection based on differential privacy uncertainty
Doğuç Data mining applications in banking sector while preserving customer privacy
Matin et al. Community recommendation in social network using strong friends and quasi-clique approach
Mohammed et al. Complementing privacy and utility trade-off with self-organising maps
Jung et al. Signed random walk diffusion for effective representation learning in signed graphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180821

Termination date: 20201127

CF01 Termination of patent right due to non-payment of annual fee