CN109344643B - 一种面向图中三角形数据发布的隐私保护方法及系统 - Google Patents

一种面向图中三角形数据发布的隐私保护方法及系统 Download PDF

Info

Publication number
CN109344643B
CN109344643B CN201811019771.XA CN201811019771A CN109344643B CN 109344643 B CN109344643 B CN 109344643B CN 201811019771 A CN201811019771 A CN 201811019771A CN 109344643 B CN109344643 B CN 109344643B
Authority
CN
China
Prior art keywords
nodes
node
graph
noise
triangles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811019771.XA
Other languages
English (en)
Other versions
CN109344643A (zh
Inventor
金海�
丁晓锋
张晓冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811019771.XA priority Critical patent/CN109344643B/zh
Publication of CN109344643A publication Critical patent/CN109344643A/zh
Application granted granted Critical
Publication of CN109344643B publication Critical patent/CN109344643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种面向图中三角形数据发布的隐私保护方法及系统,该方法包括:将原图数据进行删边得到单个节点连接三角个数阈值为λ的新图;计算三角个数与对应节点个数的直方图敏感度上界,以决定加入噪声量并发布加噪后的三角个数分布直方图;计算三角个数与对应节点个数的累积直方图敏感度上界,并发布加噪后的三角分布累积直方图;将节点本地聚类系数分成k组,计算分组后的聚类系数与对应每组节点个数的分布直方图的敏感度上界,发布其加噪后的聚类系数分布直方图;计算分组后的聚类系数累积直方图的敏感度上界,并发布加噪后的聚类系数累积直方图。本发明在保证隐私的前提下发布大图数据的三角计算结果,具有一定的可用性和安全性。

Description

一种面向图中三角形数据发布的隐私保护方法及系统
技术领域
本发明属于图数据处理领域,更具体地,涉及一种面向图中三角形数据发布的隐私保护方法及系统。
背景技术
随着近年来互联网的快速发展,信息技术日新月异,大数据时代已经到来,越来越多的人们通过社交网站(如Facebook、Twitter、微博等)进行日常沟通交流。而这类社交网站系统存储着大量的用户数据,对这些用户数据进行收集和分析可以帮助人们更好地认识真实世界的规律,这类需求极大地促进了数据的发布和共享。社会网络分析也已经成为社会学、地理学、经济学、信息学等诸多学科的研究热点。
然而真实的用户数据往往包含着用户的各类隐私信息,如个人的真实姓名、电话、住址、亲友关系、消费习惯等等,这些信息往往具有极强的个人特征。在如今的互联网使用过程中,尽管人们越来越关注他们在互联网上的隐私问题,但各类隐私信息泄露事故仍时常发生。因此在发布对数据的研究结果时,仅仅删除其中数据的标识符(如姓名、ID等)是不够的,一些攻击案例已经充分证明这种简单的操作不足以完全保护用户的隐私信息,这就带来了隐私泄露的问题以及学术界和工业界对隐私保护的不懈研究。
隐私保护的方法大致可以分为两类:基于数据匿名化的隐私保护方法和基于数据扰动的隐私保护方法。基于匿名的方法主要用于临时攻击,如结构攻击等。近年来,出现了许多基于K-匿名和划分的隐私保护方法(如L-diversity、t-closeness、(a,k)-anonymity等),尽管这些隐私保护方法能够对数据进行一定的隐私保护,但是都是在一定的前提条件和背景知识下的,对于一些攻击方式(如交叉攻击、组合攻击等)并不能达到隐私保护的效果。而差分隐私保护技术主要是通过对原始数据添加噪声扰动,使数据失真来实现隐私保护效果的。对差分隐私保护技术的研究并使其更好的应用于更多的领域具有非常重要的意义。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向图中三角形数据发布的隐私保护方法及系统,由此解决现有隐私保护方法存在的隐私保护效果存在一定局限性的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种面向图中三角形数据发布的隐私保护方法,包括:
(1)将原图数据进行删边的预处理操作,以得到单个节点连接的三角个数阈值为λ的新图;
(2)在新图的基础上,计算并证明三角个数与对应节点个数的直方图敏感度上界,由此决定加入噪声量并发布加噪后的三角个数分布直方图;
(3)在新图的基础上,计算并证明三角个数与对应节点个数的累积直方图敏感度上界,并发布加噪后的三角分布累积直方图;
(4)在新图的基础上,将节点本地聚类系数分成k组,计算并证明分组后的聚类系数与对应每组的节点个数分布直方图的敏感度上界,发布其加噪后的聚类系数分布直方图;
(5)在新图的基础上,计算并证明分组后的聚类系数的累积直方图敏感度上界,并发布加噪后的聚类系数累积直方图。
优选地,步骤(1)包括:
(1.1)统计每个节点所连接的三角形个数,记为Trii(G),其中,下标i表示当前节点编号,G表示当前作用的图;
(1.2)统计每个节点所连接的节点个数,记为Degi(G);
(1.3)记录每个节点vi的邻节点序列为LinkNode(vi);
(1.4)遍历所有节点,判断当前节点vi所连接的三角形个数Trii(G)是否大于预设阈值λ,若满足Trii(G)>λ,则删除当前节点vi与所对应的邻节点之间的连边,并更新当前节点vi的三角形个数,直至新的Trii(G)≤λ,然后更新全部节点的Tri(G),按照步骤(1.4)继续判断下一个节点,直至完成所有节点的删边操作。
优选地,步骤(2)包括:
(2.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(2.2)统计Tri(G)=i的节点的个数,记为histi(Gλ),其中,i表示节点所连的三角个数为i;
(2.3)通过
Figure BDA0001787020480000031
对histi(Gλ)添加敏感度为4λ+1的噪声,记为Trλ(G),其中,
Figure BDA0001787020480000032
表示所添加的噪声量,∈为隐私保护算子,
Figure BDA0001787020480000033
表示加噪之后连接三角个数为i的节点个数;
(2.4)发布加噪后的节点三角个数分布直方图Trλ(G)。
优选地,步骤(3)包括:
(3.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(3.2)统计Tri(G)≥i的节点的个数,记为histi(Gλ);
(3.3)通过
Figure BDA0001787020480000034
对histi(Gλ)添加敏感度为2λ+1的噪声,记为TCλ(G),其中,
Figure BDA0001787020480000035
表示加噪之后连接三角个数不大于i的节点个数;
(3.4)发布加噪后的节点三角个数累积分布直方图TCλ(G)。
优选地,步骤(4)包括:
(4.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(4.2)统计每个节点所连接的节点个数,记为Degλ(i),其中,i表示当前节点编号;
(4.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(4.4)计算每个节点的本地聚类系数:
Figure BDA0001787020480000041
其中,LCi(Gλ)表示;
(4.5)将集合[0,1]均分为k个集合,根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于k个集合中,计算k个集合中每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(4.6)通过
Figure BDA0001787020480000042
对histi(Gλ)添加敏感度为4λ+1的噪声,记为LCk(Gλ),其中,
Figure BDA0001787020480000043
表示加噪后的第i组数据中的节点个数;
(4.7)发布加噪后的节点聚类系数分布直方图LCk(Gλ)。
优选地,步骤(5)包括:
(5.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(5.2)统计每个节点所连接的节点个数,记为Degλ(i);
(5.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(5.4)计算每个节点的本地聚类系数:
Figure BDA0001787020480000044
(5.5)将集合[0,1]均分为k个集合,根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于这k个集合中,计算这k个集合每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(5.6)通过histi←histi+histi-1将histi(Gλ)进行累积,其中i从1遍历至k;
(5.7)通过
Figure BDA0001787020480000051
对histi(Gλ)添加敏感度为2λ(k-1)+k的噪声,记为CLCk(Gλ),其中,
Figure BDA0001787020480000052
表示加噪后的第i组数据中的节点个数;
(5.8)发布加噪后的节点聚类系数累积分布直方图CLCk(Gλ)。
按照本发明的另一方面,提供了一种面向图中三角形数据发布的隐私保护系统,包括:
图形预处理模块,用于将原图数据进行删边的预处理操作,以得到单个节点连接的三角个数阈值为λ的新图;
三角个数发布模块,用于在新图的基础上,计算并证明三角个数与对应节点个数的直方图敏感度上界,由此决定加入噪声量并发布加噪后的三角个数分布直方图;及,在新图的基础上,计算并证明三角个数与对应节点个数的累积直方图敏感度上界,并发布加噪后的三角分布累积直方图;
聚类系数发布模块,用于在新图的基础上,将节点本地聚类系数分成k组,计算并证明分组后的聚类系数与对应每组的节点个数分布直方图的敏感度上界,发布其加噪后的聚类系数分布直方图;及,在新图的基础上,计算并证明分组后的聚类系数的累积直方图敏感度上界,并发布加噪后的聚类系数累积直方图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、填补了现有的大图三角形数据的隐私保护这一研究盲区,保护了在发布的大图三角数据过程中用户的隐私安全。
2、使用节点差分隐私这项技术实现三角形数据发布的隐私保护,并将三角形数据隐私的研究拓展到节点本地聚类系数的隐私研究,最大化地保护了社交网络中个体用户的隐私安全。
3、针对三角形分布和聚类系数分布均提出了原始图发布方法和累积图的发布方法,在对比过程中得到更好的发布效果。
4、对原图数据进行了裁边处理,得到一个拥有三角个数阈值为λ的新图,大大降低了满足节点差分隐私所需加入的噪声量,使得最终发布的数据能够在可用性和隐私性之间取得较好的平衡。
附图说明
图1为本发明实施例提供的一种方法流程示意图;
图2为本发明实施例提供的一种节点三角分布的累积与不累积加噪效果对比,其中:图2中(a)为加噪的节点三角分布直方图与原始分布图的对比;图2中(b)为加噪的节点三角分布累积直方图与原始分布图的对比;
图3为本发明实施例提供的一种不同的阈值下节点三角分布累积直方图的加噪效果对比,其中:图3中(a)为λ=64时,节点三角分布累积直方图的加噪效果;图3中(b)为λ=128时,节点三角分布累积直方图的加噪效果;图3中(c)为λ=256时,节点三角分布累积直方图的加噪效果;图3中(d)为λ=512时,节点三角分布累积直方图的加噪效果;
图4为本发明实施例提供的一种k=8,λ=512时节点聚类系数分布的累积与不累积的加噪效果对比,其中:图4中(a)为加噪的节点聚类系数分布直方图与原始分布图的对比;图4中(b)为加噪的节点聚类系数累积分布直方图与原始分布图的对比;
图5为本发明实施例提供的一种不同分组个数k和不同阈值下节点聚类系数分布直方图的加噪效果,其中:图5中(a)为k=8,λ=128时,节点聚类系数分布直方图的加噪效果;图5中(b)为k=8,λ=256时,节点聚类系数分布直方图的加噪效果;图5中(c)为k=16,λ=128时,节点聚类系数分布直方图的加噪效果;图5中(d)为k=16,λ=256时,节点聚类系数分布直方图的加噪效果;
图6为本发明实施例提供的一种删除中心节点则所连接的节点聚类系数均由1变为0的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
针对现有的大图三角形数据的隐私保护这一研究盲区,本发明提供了一种面向图中三角形数据发布的隐私保护方法及系统,保护发布的大图三角数据中用户的隐私安全,使用节点差分隐私技术实现三角形数据发布的隐私保护,最终发布的数据能够在可用性和隐私性之间取得较好的平衡。
其中,社交网络中的三角结构包含有用户的交友信息和与周围环境的紧密度联系,一些中心节点的隐私信息也很容易被推算出来,因此在基于差分隐私保护研究的基础上,推广使用差分隐私保护大图上的三角形数据发布,提出了两种节点三角个数分布发布方法和两种节点本地聚类系数分布发布方法,上述四种方法均满足严格的节点差分隐私证明。该发明在保证隐私的前提下发布大图数据的三角计算结果,其可用性、安全性和性能效果均得到了实验的验证。
如图1所示为本发明实施例提供的一种面向图中三角形数据发布的隐私保护方法的流程示意图,包括以下步骤:
(1)图形预处理:将原图数据进行删边的预处理操作,得到单个节点连接的三角个数阈值为λ的新图;
在本发明实施例中,图形预处理的具体实现方式为:
图形预处理步骤通过删除节点的一部分连边达到删除大于预设阈值的节点所连接的三角形的目的,旨在通过降低节点所连接的最大的三角形个数来降低全局敏感度,从而减少满足节点差分隐私所需要加入的噪声量。具体实施方式包含以下步骤:
(1.1)统计每个节点所连接的三角形个数,记为Trii(G),其中,下标i表示当前节点编号,G表示当前作用的图;
(1.2)统计每个节点所连接的节点个数,记为Degi(G);
(1.3)记录每个节点vi的邻节点序列为LinkNode(vi);
(1.4)遍历所有节点,判断当前节点vi所连接的三角形个数Trii(G)是否大于预设阈值λ,若满足Trii(G)>λ,则删除当前节点vi与所对应的邻节点之间的连边(可以从邻节点中Degi(G)较小的节点开始删除),并更新当前节点vi的三角形个数,直至新的Trii(G)≤λ,然后更新全部节点的Tri(G),按照步骤(1.4)继续判断下一个节点,直至完成所有节点的删边操作。
其中,在本发明实施例中,预设阈值λ可以根据实际需要确定,本发明实施例不做唯一性限定。
(2)三角个数分布直方图发布:根据新图,计算并证明三角个数与对应节点个数的直方图敏感度上界,由此决定加入噪声量并发布加噪后的三角个数分布直方图;
在本发明实施例中,为了观察图中三角形分布,发布加噪后的节点三角形个数分布直方图,具体实施方式包含以下步骤:
(2.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(2.2)统计Tri(G)=i的节点的个数,记为histi(Gλ),其中,i表示节点所连的三角个数为i;
(2.3)对histi(Gλ)添加敏感度为4λ+1的噪声(即
Figure BDA0001787020480000081
Figure BDA0001787020480000082
),记为Trλ(G),其中,
Figure BDA0001787020480000083
表示所添加的噪声量,∈为隐私保护算子,
Figure BDA0001787020480000084
表示加噪之后连接三角个数;
(2.4)发布加噪后的节点三角个数分布直方图Trλ(G)。
其中,敏感度上界为4λ+1的证明如下:
证明:用G(V,E)和G′(V′,E′)表示两个图,这两个图仅相差一个节点v′,其中v′存在于G′中,也就是说V′={V,v′}。假设所有存在于G′但不在G中的三角形组成了一个三角形序列
Figure BDA0001787020480000091
其中,用
Figure BDA0001787020480000092
表示三角形t0只存在于G′中而不在G中,因此共有m个三角形只存在于G′中而不在G中,且这m个三角形有一个公共节点v′,由(2.1)可知,有m<λ。当从G′中删除节点v′时,可以把这个过程近似看做删除三角形序列
Figure BDA0001787020480000093
当删除
Figure BDA0001787020480000094
中的一个三角形时,最多可能影响到除v′以外的其他两个不同的节点,因此当删除三角形序列
Figure BDA0001787020480000095
时,最多可能影响到2m个除v′以外的其他节点,且对这2m个节点的影响均为1。将这所有被影响到的节点映射到三角个数分布直方图上,每个节点带来的变化为2,则在三角个数分布直方图上这些被影响到的节点带来的变化为4m,另外考虑到节点v′被删除,则节点v′会造成1的变化量,则有总的变化量为4m+1。由于m<λ,因此得到变化量的上界(即全局敏感度的上界)为4λ+1。
(3)三角个数累积分布直方图发布:根据新图,计算并证明三角个数与对应节点个数的累积直方图敏感度上界,并发布加噪后的三角分布累积直方图;
在本发明实施例中,为了继续降低三角形分布中所需要添加的噪声量,发布三角个数累积分布直方图,具体实施方式包含以下步骤:
(3.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(3.2)统计Tri(G)≥i的节点的个数,记为histi(Gλ);
(3.3)对histi(Gλ)添加敏感度为2λ+1的噪声(即
Figure BDA0001787020480000096
Figure BDA0001787020480000097
),记为TCλ(G),其中,
Figure BDA0001787020480000098
表示加噪之后连接三角个数不大于i的节点个数;
(3.4)发布加噪后的节点三角个数累积分布直方图TCλ(G)。
其中敏感度上界为2λ+1的证明如下:
证明:沿用步骤(2)中所使用的定义和符号,有节点v′存在于G′中而不在G中,v′连接有m个不同的三角形。首先考虑节点v′,删除节点v′会带来累积直方图上从三角个数为m到三角个数为λ的每个组的节点个数减少1,因此会带来λ-m+1的变化量。再考虑由于删除节点v′所影响到的其他节点带来的变化量,从(2)中的证明可以知道,删除节点v′最大可能会影响到2m个不同的节点,而每个节点在累积直方图上的变化量为1,因此一共会带来2m的变化量(v′影响到的节点个数不为2m时,带来的变化量总和仍是2m)。将所有的变化量相加,则得到总变化量为λ+m+1。由于m<λ,因此得到变化量的上界(即全局敏感度的上界)为2λ+1。
(4)聚类系数分布直方图发布:根据新图,将节点本地聚类系数分成k组,计算并证明分组后的聚类系数与对应每组的节点个数分布直方图的敏感度上界,发布其加噪后的聚类系数分布直方图;
在本发明实施例中,将对三角分布的隐私保护扩展研究到对节点本地聚类系数的保护上,发布加噪后的节点聚类系数分布图,其具体实施方式包含以下步骤:
(4.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(4.2)统计每个节点所连接的节点个数,记为Degλ(i),其中,i表示当前节点编号;
(4.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(4.4)计算每个节点的本地聚类系数:
Figure BDA0001787020480000101
其中,LCi(Gλ)表示;
(4.5)将集合[0,1]均分为k个集合(例:若k=3,则1被分为
Figure BDA0001787020480000102
Figure BDA0001787020480000111
这3个集合),根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于k个集合中,计算k个集合中每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(4.6)对histi(Gλ)添加敏感度为4λ+1的噪声(即
Figure BDA0001787020480000112
Figure BDA0001787020480000113
),记为LCk(Gλ),其中,
Figure BDA0001787020480000114
表示加噪后的第i组数据中的节点个数;
(4.7)发布加噪后的节点聚类系数分布直方图LCk(Gλ)。
其中敏感度上界为4λ+1的证明如下:
证明:沿用步骤(2)中所使用的定义和符号,有节点v′存在于G′中而不在G中,v′连接有m个不同的三角形。从(4.4)可看出,节点的本地聚类系数取值均在[0,1]中。当删除节点v′时,最大会影响到2m个不同的节点,而每个被影响到的节点在分组后的分布图中带来的变化最大为2,最小为0,因此这些被影响到的节点所带来的最大变化量为4m,再加上节点v′本身的变化量为1,因此有总的变化量为4m+1。由于m<λ,得到变化量的上界(即全局敏感度的上界)为4λ+1。
(5)聚类系数累积分布直方图发布:根据新图,计算并证明分组后的聚类系数的累积直方图敏感度上界,并发布加噪后的聚类系数累积直方图。
在本发明实施例中,类比三角形的累积分布直方图,也发布了聚类系数累积分布直方图,具体实施方式包含以下步骤:
(5.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数阈值为λ的新图Gλ
(5.2)统计每个节点所连接的节点个数,记为Degλ(i);
(5.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(5.4)计算每个节点的本地聚类系数:
Figure BDA0001787020480000115
(5.5)将集合[0,1]均分为k个集合(例:若k=3,则1被分为
Figure BDA0001787020480000121
Figure BDA0001787020480000122
这3个集合),根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于这k个集合中,计算这k个集合每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(5.6)将histi(Gλ)进行累积,即histi←histi+histi-1,其中i从1遍历至k;
(5.7)对histi(Gλ)添加敏感度为2λ(k-1)+k的噪声(即
Figure BDA0001787020480000123
Figure BDA0001787020480000124
),记为CLCk(Gλ),其中,
Figure BDA0001787020480000125
表示加噪后的第i组数据中的节点个数;
(5.8)发布加噪后的节点聚类系数累积分布直方图CLCk(Gλ)。
其中,敏感度上界为2λ(k-1)+k的证明如下:
证明:沿用步骤(2)中所使用的定义和符号,有节点v′存在于G′中而不在G中,v′连接有m个不同的三角形。首先考虑节点v′,删除节点v′最大会带来分布图中第1组至第k组每组变化量为1,因此节点v′所带来的总变化量为k。再考虑由于删除节点v′所影响到的其他节点带来的变化量,从步骤(2)中的证明可以知道,删除节点v′最大可能会影响到2m个不同的节点,这2m个被影响到的节点的本地聚类系数均有可能由1变为0(如图6所示),也就是说,在累积直方图上,这2m个节点所带来的变化量最大为2m(k-1)。将所有的变化量加起来,得到总的变化量为2m(k-1)+k。由于m<λ,得到变化量的上界(即全局敏感度的上界)为2λ(k-1)+k。
图2为本发明实施例提供的一种节点三角分布的累积与不累积加噪效果对比,其中:图2中(a)为加噪的节点三角分布直方图与原始分布图的对比;图2中(b)为加噪的节点三角分布累积直方图与原始分布图的对比;
图3为本发明实施例提供的一种不同的阈值下节点三角分布累积直方图的加噪效果对比,其中:图3中(a)为λ=64时,节点三角分布累积直方图的加噪效果;图3中(b)为λ=128时,节点三角分布累积直方图的加噪效果;图3中(c)为λ=256时,节点三角分布累积直方图的加噪效果;图3中(d)为λ=512时,节点三角分布累积直方图的加噪效果;
图4为本发明实施例提供的一种k=8,λ=512时节点聚类系数分布的累积与不累积的加噪效果对比,其中:图4中(a)为加噪的节点聚类系数分布直方图与原始分布图的对比;图4中(b)为加噪的节点聚类系数累积分布直方图与原始分布图的对比;
图5为本发明实施例提供的一种不同分组个数k和不同阈值下节点聚类系数分布直方图的加噪效果,其中:图5中(a)为k=8,λ=128时,节点聚类系数分布直方图的加噪效果;图5中(b)为k=8,λ=256时,节点聚类系数分布直方图的加噪效果;图5中(c)为k=16,λ=128时,节点聚类系数分布直方图的加噪效果;图5中(d)为k=16,λ=256时,节点聚类系数分布直方图的加噪效果;
图6为本发明实施例提供的一种删除中心节点则所连接的节点聚类系数均由1变为0的示意图。
本发明实施例还提供了一种面向图中三角形数据发布的隐私保护系统,包括:
图形预处理模块,用于将原图数据进行删边的预处理操作,以得到单个节点连接的三角个数阈值为λ的新图;
三角个数发布模块,用于在新图的基础上,计算并证明三角个数与对应节点个数的直方图敏感度上界,由此决定加入噪声量并发布加噪后的三角个数分布直方图;及,在新图的基础上,计算并证明三角个数与对应节点个数的累积直方图敏感度上界,并发布加噪后的三角分布累积直方图;
聚类系数发布模块,用于在新图的基础上,将节点本地聚类系数分成k组,计算并证明分组后的聚类系数与对应每组的节点个数分布直方图的敏感度上界,发布其加噪后的聚类系数分布直方图;及,在新图的基础上,计算并证明分组后的聚类系数的累积直方图敏感度上界,并发布加噪后的聚类系数累积直方图。
其中,各模块的具体实施方式可参考方法实施例中的描述,本发明实施例将不做复述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种面向图中三角形数据发布的隐私保护方法,其特征在于,包括:
(1)将原图数据进行删边的预处理操作,以得到单个节点连接的三角个数不超过阈值λ的新图;
(2)在新图的基础上,计算并证明三角个数与对应节点个数的直方图敏感度上界,由此决定加入噪声量并发布加噪后的三角个数分布直方图;
步骤(2)包括:
(2.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(2.2)统计Tri(G)=i的节点的个数,记为histi(Gλ),其中,i表示节点所连的三角个数为i;
(2.3)通过
Figure FDA0003302403840000011
对histi(Gλ)添加敏感度为4λ+1的噪声,记为Trλ(G),其中,
Figure FDA0003302403840000012
表示所添加的噪声量,∈为隐私保护算子,
Figure FDA0003302403840000013
表示加噪之后连接三角个数为i的节点个数;
(2.4)发布加噪后的节点三角个数分布直方图Trλ(G);
(3)在新图的基础上,计算并证明三角个数与对应节点个数的累积直方图敏感度上界,并发布加噪后的三角分布累积直方图;
步骤(3)包括:
(3.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(3.2)统计Tri(G)≥i的节点的个数,记为histi(Gλ);
(3.3)通过
Figure FDA0003302403840000014
对histi(Gλ)添加敏感度为2λ+1的噪声,记为TCλ(G),其中,
Figure FDA0003302403840000015
表示加噪之后连接三角个数不大于i的节点个数;
(3.4)发布加噪后的节点三角个数累积分布直方图TCλ(G);
(4)在新图的基础上,将节点本地聚类系数分成k组,计算并证明分组后的聚类系数与对应每组的节点个数分布直方图的敏感度上界,发布其加噪后的聚类系数分布直方图;
步骤(4)包括:
(4.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(4.2)统计每个节点所连接的节点个数,记为Degλ(i),其中,i表示当前节点编号;
(4.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(4.4)计算每个节点的本地聚类系数:
Figure FDA0003302403840000021
(4.5)将集合[0,1]均分为k个集合,根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于k个集合中,计算k个集合中每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(4.6)通过
Figure FDA0003302403840000022
对histi(Gλ)添加敏感度为4λ+1的噪声,记为LCk(Gλ),其中,
Figure FDA0003302403840000023
表示加噪后的第i组数据中的节点个数;
(4.7)发布加噪后的节点聚类系数分布直方图LCk(Gλ);
(5)在新图的基础上,计算并证明分组后的聚类系数的累积直方图敏感度上界,并发布加噪后的聚类系数累积直方图;
步骤(5)包括:
(5.1)对输入的无向图G进行步骤(1)的处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(5.2)统计每个节点所连接的节点个数,记为Degλ(i);
(5.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(5.4)计算每个节点的本地聚类系数:
Figure FDA0003302403840000031
(5.5)将集合[0,1]均分为k个集合,根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于这k个集合中,计算这k个集合每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(5.6)通过histi←histi+histi-1将histi(Gλ)进行累积,其中i从1遍历至k;
(5.7)通过
Figure FDA0003302403840000032
对histi(Gλ)添加敏感度为2λ(k-1)+k的噪声,记为CLCk(Gλ),其中,
Figure FDA0003302403840000033
表示加噪后的第i组数据中的节点个数;
(5.8)发布加噪后的节点聚类系数累积分布直方图CLCk(Gλ)。
2.根据权利要求1所述的方法,其特征在于,步骤(1)包括:
(1.1)统计每个节点所连接的三角形个数,记为Trii(G),其中,下标i表示当前节点编号,G表示当前作用的图;
(1.2)统计每个节点所连接的节点个数,记为Degi(G);
(1.3)记录每个节点vi的邻节点序列为LinkNode(vi);
(1.4)遍历所有节点,判断当前节点vi所连接的三角形个数Trii(G)是否大于预设阈值λ,若满足Trii(G)>λ,则删除当前节点vi与所对应的邻节点之间的连边,并更新当前节点vi的三角形个数,直至新的Trii(G)≤λ,然后更新全部节点的Tri(G),按照步骤(1.4)继续判断下一个节点,直至完成所有节点的删边操作。
3.一种面向图中三角形数据发布的隐私保护系统,其特征在于,包括:
图形预处理模块,用于将原图数据进行删边的预处理操作,以得到单个节点连接的三角个数不超过阈值λ的新图;
三角个数发布模块,用于在新图的基础上,计算并证明三角个数与对应节点个数的直方图敏感度上界,由此决定加入噪声量并发布加噪后的三角个数分布直方图,包括:
(2.1)利用所述图形预处理模块对输入的无向图G进行处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(2.2)统计Tri(G)=i的节点的个数,记为histi(Gλ),其中,i表示节点所连的三角个数为i;
(2.3)通过
Figure FDA0003302403840000041
对histi(Gλ)添加敏感度为4λ+1的噪声,记为Trλ(G),其中,
Figure FDA0003302403840000042
表示所添加的噪声量,∈为隐私保护算子,
Figure FDA0003302403840000043
表示加噪之后连接三角个数为i的节点个数;
(2.4)发布加噪后的节点三角个数分布直方图Trλ(G);
所述三角个数发布模块,还用于在新图的基础上,计算并证明三角个数与对应节点个数的累积直方图敏感度上界,并发布加噪后的三角分布累积直方图,包括:
(3.1)利用所述图形预处理模块对输入的无向图G进行处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(3.2)统计Tri(G)≥i的节点的个数,记为histi(Gλ);
(3.3)通过
Figure FDA0003302403840000044
对histi(Gλ)添加敏感度为2λ+1的噪声,记为TCλ(G),其中,
Figure FDA0003302403840000045
表示加噪之后连接三角个数不大于i的节点个数;
(3.4)发布加噪后的节点三角个数累积分布直方图TCλ(G);
聚类系数发布模块,用于在新图的基础上,将节点本地聚类系数分成k组,计算并证明分组后的聚类系数与对应每组的节点个数分布直方图的敏感度上界,发布其加噪后的聚类系数分布直方图,包括:
(4.1)利用所述图形预处理模块对输入的无向图G进行处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(4.2)统计每个节点所连接的节点个数,记为Degλ(i),其中,i表示当前节点编号;
(4.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(4.4)计算每个节点的本地聚类系数:
Figure FDA0003302403840000051
(4.5)将集合[0,1]均分为k个集合,根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于k个集合中,计算k个集合中每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(4.6)通过
Figure FDA0003302403840000052
对histi(Gλ)添加敏感度为4λ+1的噪声,记为LCk(Gλ),其中,
Figure FDA0003302403840000053
表示加噪后的第i组数据中的节点个数;
(4.7)发布加噪后的节点聚类系数分布直方图LCk(Gλ);
所述聚类系数发布模块,还用于在新图的基础上,计算并证明分组后的聚类系数的累积直方图敏感度上界,并发布加噪后的聚类系数累积直方图,包括:
(5.1)利用所述图形预处理模块对输入的无向图G进行处理得到节点所连接的三角个数不超过阈值λ的新图Gλ
(5.2)统计每个节点所连接的节点个数,记为Degλ(i);
(5.3)统计每个节点所连接的三角形个数,记为Triλ(i);
(5.4)计算每个节点的本地聚类系数:
Figure FDA0003302403840000054
(5.5)将集合[0,1]均分为k个集合,根据各节点的聚类系数LCi(Gλ)的值将各节点分别归类于这k个集合中,计算这k个集合每个集合中元素的个数,记为histi(Gλ),其中1≤i≤k;
(5.6)通过histi←histi+histi-1将histi(Gλ)进行累积,其中i从1遍历至k;
(5.7)通过
Figure FDA0003302403840000055
对histi(Gλ)添加敏感度为2λ(k-1)+k的噪声,记为CLCk(Gλ),其中,
Figure FDA0003302403840000061
表示加噪后的第i组数据中的节点个数;
(5.8)发布加噪后的节点聚类系数累积分布直方图CLCk(Gλ)。
CN201811019771.XA 2018-09-03 2018-09-03 一种面向图中三角形数据发布的隐私保护方法及系统 Active CN109344643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811019771.XA CN109344643B (zh) 2018-09-03 2018-09-03 一种面向图中三角形数据发布的隐私保护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811019771.XA CN109344643B (zh) 2018-09-03 2018-09-03 一种面向图中三角形数据发布的隐私保护方法及系统

Publications (2)

Publication Number Publication Date
CN109344643A CN109344643A (zh) 2019-02-15
CN109344643B true CN109344643B (zh) 2022-03-29

Family

ID=65292206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811019771.XA Active CN109344643B (zh) 2018-09-03 2018-09-03 一种面向图中三角形数据发布的隐私保护方法及系统

Country Status (1)

Country Link
CN (1) CN109344643B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046429B (zh) * 2019-12-13 2021-06-04 支付宝(杭州)信息技术有限公司 基于隐私保护的关系网络构建方法及装置
CN112417507B (zh) * 2020-12-02 2024-04-02 桂林电子科技大学 一种基于隐私保护的大型图的节点三角形计数的发布方法
CN115114381A (zh) * 2022-06-22 2022-09-27 广州大学 一种面向本地化差分隐私的图统计分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809408A (zh) * 2015-05-08 2015-07-29 中国科学技术大学 一种基于差分隐私的直方图发布方法
CN105376243A (zh) * 2015-11-27 2016-03-02 中国人民解放军国防科学技术大学 基于分层随机图的在线社会网络差分隐私保护方法
US9576123B2 (en) * 2015-03-27 2017-02-21 Ca, Inc. Pattern-based password with dynamic shape overlay
CN106888433A (zh) * 2017-02-27 2017-06-23 南京邮电大学 一种基于泰森多边形的相同服务请求位置隐私保护方法
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN107918664A (zh) * 2017-11-22 2018-04-17 广西师范大学 基于不确定图的社会网络数据差分隐私保护方法
CN108111868A (zh) * 2017-11-17 2018-06-01 西安电子科技大学 一种基于mmda的表情不变的隐私保护方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576123B2 (en) * 2015-03-27 2017-02-21 Ca, Inc. Pattern-based password with dynamic shape overlay
CN104809408A (zh) * 2015-05-08 2015-07-29 中国科学技术大学 一种基于差分隐私的直方图发布方法
CN105376243A (zh) * 2015-11-27 2016-03-02 中国人民解放军国防科学技术大学 基于分层随机图的在线社会网络差分隐私保护方法
CN106888433A (zh) * 2017-02-27 2017-06-23 南京邮电大学 一种基于泰森多边形的相同服务请求位置隐私保护方法
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN108111868A (zh) * 2017-11-17 2018-06-01 西安电子科技大学 一种基于mmda的表情不变的隐私保护方法
CN107918664A (zh) * 2017-11-22 2018-04-17 广西师范大学 基于不确定图的社会网络数据差分隐私保护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A-PAM Clustering Algorithm Based on Differential Privacy Preserving;Rong-min SHAO 等;《2015 International Conference on Software, Multimedia and Communication Engineering(SMCE 2015)》;20150920;183-190页 *
基于OPTICS聚类的差分隐私保护算法的改进;王红 等;《计算机应用》;20180110;第38卷(第1期);73-78页 *
基于差分隐私保护的社交网络发布图生成模型;王俊丽 等;《同济大学学报(自然科学版)》;20170831;第45卷(第8期);1229-1232页 *
面向加权社会网络的隐私保护关键技术研究;陈可;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140915(第09期);I138-57页 *

Also Published As

Publication number Publication date
CN109344643A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344643B (zh) 一种面向图中三角形数据发布的隐私保护方法及系统
CN106126700B (zh) 一种微博谣言传播的分析方法
CN107918664B (zh) 基于不确定图的社会网络数据差分隐私保护方法
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及系统
WO2023078120A1 (zh) 图数据的查询
Yang et al. An online log template extraction method based on hierarchical clustering
CN110555172A (zh) 用户关系挖掘方法及装置、电子设备和存储介质
Liu et al. Correlated aggregation operators for simplified neutrosophic set and their application in multi-attribute group decision making
Kuang et al. A privacy protection model of data publication based on game theory
Cong Personalized recommendation of film and television culture based on an intelligent classification algorithm
CN114662157B (zh) 社交文本数据流的块压缩感知不可区分性保护方法及装置
CN112417507B (zh) 一种基于隐私保护的大型图的节点三角形计数的发布方法
CN113761390A (zh) 一种用于属性亲密度的分析方法和系统
CN115438227A (zh) 一种基于差分隐私和紧密度中心性的网络数据发布方法
JP6015777B2 (ja) 秘匿化データ生成方法及び装置
CN108111968B (zh) 一种基于泛化的位置隐私保护方法
Jia et al. Enhancing node-level adversarial defenses by Lipschitz regularization of graph neural networks
CN111460796A (zh) 一种基于词网络的偶发敏感词发现方法
CN116127178A (zh) 基于属性多重异构信息网络的网络文章影响力评估方法
CN112182638B (zh) 一种基于本地化差分隐私模型的直方图数据发布方法及系统
CN106778346A (zh) 事务型数据流发布的隐私保护方法
CN107194278A (zh) 一种基于Skyline的数据泛化方法
CN110990869B (zh) 一种应用于隐私保护的电力大数据脱敏方法
CN107104962B (zh) 动态网络多次发布中防止标签邻居攻击的匿名方法
CN112308694A (zh) 一种欺诈团伙的发现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant