CN109214194A - 点差分隐私下图的度直方图发布方法 - Google Patents
点差分隐私下图的度直方图发布方法 Download PDFInfo
- Publication number
- CN109214194A CN109214194A CN201810796835.0A CN201810796835A CN109214194A CN 109214194 A CN109214194 A CN 109214194A CN 201810796835 A CN201810796835 A CN 201810796835A CN 109214194 A CN109214194 A CN 109214194A
- Authority
- CN
- China
- Prior art keywords
- degree
- histogram
- bucket
- budget
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000009825 accumulation Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 10
- 238000012417 linear regression Methods 0.000 claims description 7
- 238000012887 quadratic function Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000007906 compression Methods 0.000 abstract description 8
- 230000006835 compression Effects 0.000 abstract description 7
- 238000002474 experimental method Methods 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000009826 distribution Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000013480 data collection Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20068—Projection on vertical or horizontal image axis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及图数据发布的隐私保护技术领域,尤其涉及点差分隐私下图的度直方图发布方法。本发明首先利用基于度排序的边移除方法SER,通过将原始图投影到一个压缩图来降低发布机制中的全局敏感度。然后,基于SER投影方法给出了一种满足点差分隐私的度直方图发布方法。仿真实验表明,相比已有方法,在相同的约束条件下,SER投影方法能最大程度地保留原始图中的边信息,为后续的数据处理奠定了良好的基础。与已有度分布发布方法相比,基于SER投影方法的本发明点差分隐私下图的度直方图发布方法在L1误差和KS距离这2个评估指标上均具有优势,使得发布后的度分布更接近原始图的度分布,可用性也越高。
Description
技术领域
本发明涉及图数据发布的隐私保护技术领域,尤其涉及点差分隐私下图的度直方图发布方法。
背景技术
随着互联网和信息技术的飞速发展,许多组织机构搜集的个人数据规模急剧增长,随之而来的用户隐私保护问题变得日益重要。图数据作为一种典型的数据类型,随着社交网络、推荐系统、协作网络等信息系统的广泛使用而变得越发常见,为解决隐私保护下数据的发布问题,差分隐私被提出,并衍生出两种变体,即边差分隐私和点差分隐私。在边差分隐私中,两个相邻图仅相差一条边,而在点差分隐私中,两个相邻图相差一个节点以及与此节点相连的所有边。对于一个节点数目为n的图G=(V,E)(其中V是所有节点的集合、E为所有边的集合),删除一条边只影响这条边上两个节点度的变化,而删除一个节点在最坏情况下会导致n-1条边被删除。因此,图数据中的点差分隐私比边差分隐私更难满足,但却能提供更高强度的隐私保护。
度分布是图的一种重要统计特性,也是图数据发布过程中的保护重点。如何在点差分隐私约束下实现图的度分布发布在近年来得到了广泛关注,其主要目标是要在满足点差分隐私的条件下给出一种尽可能接近图的度的真实分布的近似分布。目前,解决该问题的一种主要技术是将原始图压缩到一个节点度数不超过最大值θ的压缩图,以此来降低度发布过程中的敏感度,而这其中的关键又在于如何在压缩过程中尽可能多地保留原始图的信息。
发明内容
针对上述问题,本发明提出了点差分隐私下图的度直方图发布方法,提高了差分隐私保护后的数据可用性,发布后的度分布更接近原始图的度分布。
为了实现上述目的,本发明采用以下技术方案:
点差分隐私下图的度直方图发布方法,所述方法在点差分隐私约束下进行,包括以下步骤:
步骤1:选取候选集T,所述候选集T由图G的多个度门限值θ组成;
步骤2:计算在隐私预算ε2下候选集T中每个θ的质量函数
其中|{v|v∈V,deg(v)>θ}|为图G中度大于θ的节点数量;
步骤3:通过指数机制选择节点的度门限值θ*,在隐私预算ε1下,通过指数机制选择最优的θi,其中Δq=2Θ+2;
步骤4:采用基于度排序的边移除投影方法SER,通过节点的度门限值θ*对图G的度进行限制,得到投影后的图
步骤5:通过拉普拉斯机制对图的累积度直方图加噪,在隐私预算ε2下,
其中ch为图的噪声累积度直方图,为图的累积度直方图,Δcumhist=θ+1为拉普拉斯机制下累积度直方图的全局敏感度;
步骤6:把累积度直方图转化为度直方图H={h1,h2,...,hθ};
步骤7:对度直方图H={h1,h2,...,hθ}进行尾部处理;
步骤8:发布点差分隐私保护下的图的度直方图。
进一步地,在所述步骤1之前,还包括:
参量初始化。
进一步地,所述θ∈Θ,Θ的大小为100,即所述θ依次取[0,100]中的整数值。
进一步地,所述SER包括:
步骤4.1:计算图G中所有节点的度deg(i),对[i,deg(i)]按deg(i)从大到小的顺序排列得到列表sorted_l;
步骤4.2:对度最大的节点i,如果存在deg(i)>θ*,则找到节点i的所有相邻节点j,对[j,deg(j)]按deg(j)从大到小的顺序排列得到列表sorted_list,令deg(i)=deg(i)-1,deg(j)=deg(j)-1,遍历列表sorted_list,当deg(i)=θ*时,对列表sorted_l重排序,直到列表sorted_l中的最大度不大于θ*时为止,此时得到投影图如果不存在deg(i)>θ*,则令
进一步地,所述步骤6包括:
步骤6.1:如果累积度直方图的第一个桶计数为负数,则令其计数为0;
步骤6.2:从累积度直方图的第一个桶开始比较,如果前一个桶i比后一个桶i+1小,则直接用桶i和桶i-1的差值作为桶i的计数,否则,需要在桶i到桶θ中找到第一个大于桶i的桶j,把桶i-1和桶j的差值平均分配到桶i至桶j中。
进一步地,所述步骤7包括:
步骤7.1:对度直方图的后半部分H′={hθ/2,hθ/2+1,...,hθ-1,hθ}拟合得到二次函数F,找到拐点r,并取预算budget=sum([hr+1,hr+2...,hθ]);
步骤7.2:把H′中除去预算的部分{hθ/2,hθ/2+1,...,hr}作为回归学习的样本,并求平均值
步骤7.3:根据回归学习的样本得到线性回归的斜率k和截距b,对ht来说,其中t∈[r+1,n],如果k<0,ht=k×t+b,否则,ht=c,令预算budget=budget-ht,直到预算耗尽为止。
与现有技术相比,本发明具有的有益效果:
本发明通过SER投影方法进行图压缩,该方法按照度的大小依次删除图G=(V,E)中与度数较大的节点相连的边,最终将图中每个节点的度限制到给定的门限值θ之内,同时又使得G中原有的边能最大程度地保留,为差分隐私机制在压缩图中的应用提供基础。SER投影方法规定了边的排序规则,在限制度的前提下,更多的保留了原始图中的边,减小了投影图和原始图之间的误差,从而提高了差分隐私保护后的数据可用性。
仿真实验表明,相比已有方法,在相同的约束条件下,SER投影方法能最大程度地保留原始图中的边信息,为后续的数据处理奠定了良好的基础。与已有度分布发布方法相比,基于SER投影方法的本发明点差分隐私下图的度直方图发布方法在L1误差和KS距离这2个评估指标上均具有优势,使得发布后的度分布更接近原始图的度分布,可用性也越高。
附图说明
图1为本发明实施例的点差分隐私下图的度直方图发布方法的基本流程图。
图2为本发明另一实施例的点差分隐私下图的度直方图发布方法的基本流程图。
图3为本发明实施例的点差分隐私下图的度直方图发布方法的图投影方法流程示意图。
图4为本发明实施例的点差分隐私下图的度直方图发布方法的2类节点在图中的连接方式示意图。
图5为本发明实施例的点差分隐私下图的度直方图发布方法的对比实验结果图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
实施例一:
如图1所示,本发明的一种点差分隐私下图的度直方图发布方法,包括以下步骤:
步骤S101:选取候选集T,所述候选集T由图G的多个度门限值θ组成;
步骤S102:计算在隐私预算ε2下候选集T中每个θ的质量函数
其中|{v|v∈V,deg(v)>θ}|为图G中度大于θ的节点数量;
步骤S103:通过指数机制选择节点的度门限值θ*,在隐私预算ε1下,通过指数机制选择最优的θi,其中Δq=2Θ+2;
步骤S104:采用基于度排序的边移除投影方法SER,通过节点的度门限值θ*对图G的度进行限制,得到投影后的图
步骤S105:通过拉普拉斯机制对图的累积度直方图加噪,在隐私预算ε2下,其中ch为图的噪声累积度直方图,为图的累积度直方图,Δcumhist=θ+1为拉普拉斯机制下累积度直方图的全局敏感度;
步骤S106:把累积度直方图转化为度直方图H={h1,h2,...,hθ};
步骤S107:对度直方图H={h1,h2,...,hθ}进行尾部处理;
步骤S108:发布点差分隐私保护下的图的度直方图。
实施例二:
如图2所示,本发明的另一种点差分隐私下图的度直方图发布方法,包括:
步骤S201:参量初始化。
具体地,定义以下基于差分隐私保护的图数据直方图发布中的参量:
图数据,对边和节点均不带标签和权重的n个节点组成的无向图G=(V,E),其中V是所有节点的集合,E为所有边的集合,用deg(i)表示节点i的度,hist(G)表示图G的度直方图,cumhist(G)表示图G的累积度直方图。
ε-差分隐私,若随机算法K对任意一对相邻数据集D,D′及任意输出均满足:则称算法K满足ε-差分隐私。
隐私系数ε,其数值人为给定,ε的大小则反映了隐私保护程度的强弱,即ε的值越小,算法在相邻数据集上的输出的概率分布就越相近,提供更高强度的隐私保护,同时算法输出的可用性也会越低。
相邻数据集,对于任意两个数据集D,D',若它们仅相差一条数据记录,即|D/D′|=1,则称数据集D,D′为相邻数据集,并用表示。
全局敏感度,对于任意一个实值查询函数f和相邻数据集D,D′,查询函数f的全局敏感度定义为其中,||f(D)-f(D′)||1为查询输出f(D)和f(D′)之间的1-阶范数距离。
Laplace机制,对于给定的数据集D和实值查询函数f,令Δf为f在数据集D上的全局敏感度,则随机算法K∶K(D)=f(D)+Y满足ε-差分隐私,其中Y~Lap(Δf/ε)是加入的随机噪声量,服从尺度参数值为b=Δf/ε的Laplace分布,概率密度函数为
指数机制,对于给定的数据集D,令q是评估数据集D上所有输出方案的效用函数,如果算法K满足输出为r的概率与exp(εq(D,r)/2Δq)成线性关系,则算法K满足ε-差分隐私,其中Δq为效用函数q的敏感度。
序列组合性,给定n个随机算法{Ai}1≤i≤n,其中Ai满足εi-差分隐私,则{Ai}1≤i≤n按指定顺序组合后的算法满足-差分隐私。
步骤S202:选取候选集T,候选集T由图G的度门限值集合θ∈Θ组成,Θ的大小为100,θ依次取[0,100]中的整数值。
步骤S203:计算在隐私预算ε2下候选集T中每个θ的质量函数
其中|{v|v∈V,deg(v)>θ}|为图G中度大于θ的节点数量。
步骤S204:通过指数机制选择节点的度门限值θ*,在隐私预算ε1下,通过指数机制选择最优的θi,其中Δq=2Θ+2,θi∈Θ。
步骤S205:采用基于度排序的边移除投影方法SER,通过节点的度门限值θ*对图G的度进行限制,得到投影后的图其最大度为θ*。
具体地,为降低度分布发布过程中的敏感度,提高发布后数据的可用性,采用一种新的图投影方法,即基于度排序的边移除投影方法SER,粗略来讲,该方法按照度的大小依次删除图G=(V,E)中与度数较大的节点相连的边,最终将图中每个节点的度限制到给定的门限值θ之内,同时又使得G中原有的边能最大程度地保留,为差分隐私机制在压缩图中的应用提供基础。SER投影方法的细节以下述算法的形式给出:
SER投影方法具体流程如下:
输入:图G(V,E),度限制θ;
输出:限制图SERθ(G)。
首先计算图G=(V,E)中所有节点的度并按照从大到小排序;然后找出度最大的节点i,将其相邻节点按度从大到小进行排序,并按照此序列对与节点i相连的边进行删边处理,直到deg(i)=θ时结束本次运算;对所有节点按照度从大到小进行重新排序,重复进行上述操作,直至所有节点都满足条件,结束SER投影方法具体流程。
为了更直观地说明SER投影方法的流程,图3给出了相关几种图投影方法的例子(门限值θ=2,其中ER使用的边排序为随机序列,我们设为:10,9,8,7,6,5,4,3,2,1;πθ使用的边序列为字典序:1,2,3,4,5,6,7,8,9,10),其中(a)部分表示原始图,(b)、(c)、(d)部分分别为经过ER、πθ、SER投影后的图,即压缩后的图。可以看出,使用文献1(Blocki J,BlumA,Datta A,et al.Differentially private data analysis of social networks viarestricted sensitivity[C]//Proc of the 4th Conf on Innovations in TheoreticalComputer Science.New York:ACM,2013:87-96)中的ER方法时,按照假设的随机边序列进行减边,当存在构成边的顶点的度大于θ时,删除此边,遍历边序列,可知最后能保留4条边;使用文献2(Day W-Y,Li Ninghui,Lyu M.Publishing graph degree distribution withnode differential privacy[C]//Proc of the 16th Int Conf on Management ofData.New York:ACM,2016:123-138)中的πθ方法时,首先删除所有的边只保留节点,然后按照边序列进行加边,当存在构成边的顶点的度大于θ时,跳过此边,遍历边序列,可知最后能保留5条边;而使用SER投影方法时,首先对节点按照度大小进行排序,找出度最大的节点d,然后再对d的相邻节点进行排序,当deg(d)>θ时,对d按照相邻节点序列进行删边,直到deg(d)=θ时,结束此次计算,并对节点按照度大小再次进行排序,依照上述方法计算,直到所有节点的度都小于等于θ时,结束算法。通过SER投影方法可知,最后能保留6条边。
从上述简单例子可以看出,ER方法对要删除的边进行随机排序,这虽然保证了算法的运行效率,但却损失了很多原始图的边信息;πθ这种方法从形式上看似是在增加边,但其本质仍还是删除多余的边,进而把图中节点的度限制在给定的门限值内,同样没有对要删除的边做一定规则的排序;而SER投影方法,规定了边的排序规则,在限制度的前提下,更多的保留了原始图中的边,减小了投影图和原始图之间的误差,从而提高了差分隐私保护后的数据可用性。
事实上,无论采取何种投影方法,最终目的都是要使得图3中所有节点的度小于给定的门限值θ。基于此,可以将图数据中的节点简单地分成2类,即节点度deg>θ和deg≤θ。图4给出了这2类节点在图数据中的所有连接方式,在图4中边依据其顶点度与θ之间的大小关系也相应地分为I,II,III 3类。为了尽可能多地保留原始图中的边,我们希望在降低节点度的过程中所删除的全都是I类边。但是,实际应用中的图数据很难满足这种理想情况,此时我们就需要去删除II类边。在这种情形下,如果不对要删除的边进行排序,就会在没有删除完I类边的情况下去删除II类边,造成不必要的信息损失。而SER投影方法就是在尽可能地把I类边删除完的情况下再去删除II类边,从而实现尽可能多地保留原始图中边的目的。
从上述分析可以看出,SER投影方法已经最大程度上逼近了原始图中所能保留边的最大数目。此外,该算法通过不断地更新度排序,在算法运行效率和运行结果之间实现了较好地平衡。
步骤S206:通过拉普拉斯机制对图的累积度直方图加噪,在隐私预算ε2下,其中ch为图的噪声累积度直方图,为图的累积度直方图,Δcumhist=θ+1为拉普拉斯机制下累积度直方图的全局敏感度。
步骤S207:把累积度直方图转化为度直方图H={h1,h2,...,hθ}。
累积度直方图除了具有添加噪声少的优点外,同时还具有单调性,即累积度直方图中桶的值是递增的。基于此,把累积度直方图转化为普通度直方图,设计了1种校准直方图的算法,对发布结果进行调整,同时也方便进行对照实验。在提取累积度直方图过程中,如果前一个桶比后一个桶小,则直接用差值作为当前桶的计数。但是,由于噪声的破坏,有可能会出现前一个桶比后一个桶大的情况,这时就需要在直方图桶i到θ中找到1个大于桶i的桶j,在桶i到j中均匀的分配计数(行④)。
提取累积度直方图过程如下:
输入:界限为θ噪声累积度直方图ch;
输出:界限为θ度直方图h。
上述流程可以概括为:
如果累积度直方图的第一个桶计数为负数,则令其计数为0;
从累积度直方图的第一个桶开始比较,如果前一个桶i比后一个桶i+1小,则直接用桶i和桶i-1的差值作为桶i的计数,否则,需要在桶i到桶θ中找到第一个大于桶i的桶j,把桶i-1和桶j的差值平均分配到桶i至桶j中。
步骤S208:对度直方图H={h1,h2,...,hθ}进行尾部处理。
通过观察原始图可以发现,度分布一般遵循长尾分布,低度节点的计数通常较大,高度节点的计数通常较小且作出的直方图类似于长尾。但是,经过投影后的图的度分布却与此不符:在度为θ的节点周围的计数很大。这就导致最后发布的度分布与原始分布有较大的差异,并且当噪声不够大时,很有可能造成隐私泄露。事实上,这是由于所设计投影算法把度大于θ的节点全部投影在了度等于θ的节点周围,进而导致θ周围桶的计数过大。针对此类问题,一般采用基于线性回归的尾部处理方案,即通过直方图中除去θ的后半部分进行学习,得出线性回归的斜率k和截距b,然后对加噪后的分布进行处理。
结合SER投影方法,基于线性回归的尾部处理过程包括:
输入:直方图H={h1,h2,...,hθ},n=|V|;
输出:处理过的直方图h。
上述流程可以概括为:
对度直方图的后半部分H′={hθ/2,hθ/2+1,...,hθ-1,hθ}拟合得到二次函数F,找到拐点r,并取预算budget=sum([hr+1,hr+2...,hθ]);
把H′中除去预算的部分{hθ/2,hθ/2+1,...,hr}作为回归学习的样本,并求平均值
根据回归学习的样本得到线性回归的斜率k和截距b,对ht来说,其中t∈[r+1,n],如果k<0,ht=k×t+b,否则,ht=c,令预算budget=budget-ht,直到预算耗尽为止。
该算法的主要思想根据前半段符合长尾分布的直方图学习出线性回归的斜率和截距,然后把靠近θ的异常桶计数按照学习出的参数进行分配。此过程扩展了直方图的横轴,使得经过差分隐私后的度直方图更加符合原始图的分布。
步骤S209:发布点差分隐私保护下的图的度直方图。
为评估本发明所提SER投影方法以及基于该算法的直方图度发布机制的性能,将SER投影方法和已有的3种图投影方法Truncation(参照文献3[Kasiviswanathan S P,Nissim K,Raskhodnikova S,et al.Analyzing graphs with node differentialprivacy[C]//Proc of the 10th Conf on Theory ofCryptography.Berlin:Springer,2013:457-476]),ER,πθ在不同数据集上的运行效果做一对比。仿真实验所用的数据集包括社交网络(Facebook,Twitter)、选举投票(Wiki-Vote)、电子邮件(Email-Enron)、协作网络(Ca-HepPh,DBLP)6个现实世界中的真实数据集,均来自Stanford Large Network DatasetCollection网站。表1给出了这6个数据集的部分特征,其中degmax表示图中节点的最大度,degavg表示图中节点的平均度。实验平台采用Intel(R)Core(TM)i5-7400CPU、8GB内存主机。
表1数据集信息
由于把节点度限制到门限值θ时,大量度大于θ的节点投影成了度小于等于θ的节点,进而导致了度等于θ的节点的计数增加,从而影响L1误差的计算结果,掩盖了投影方法的其他特性。因此,在表2的对比结果中,为了更好地反映出投影方法的优劣,我们在计算L1误差时删除了度等于θ的节点计数。
在点差分隐私约束下直方图度发布算法的对比实验中,由于存在拉普拉斯噪声,为了更好地反映算法的优势,我们对每个ε取值计算30次,最后取平均值作为输出。同时,取候选集的大小为100,即Θ∈[1,100]。
表2给出了Truncation、ER、πθ,3种图投影算法和SER投影方法在6个不同数据集上,θ取16,64,128时的实验结果,其中E′为经过投影后保留的原始图的边个数,L1为定义的L1误差,越小表示数据可用性越好。
表2 Truncation,ER,πθ,SER方法在6个数据集上的实验结果
从表2中可以看出,随着度门限值θ的增加,这4种算法中保留边的数目都在不断增加,同时L1不断减小。但是,与其他3种已有算法相比,本发明的SER投影方法能在保留边最多的情况下,同时也能保持较好的L1误差。这说明SER方法在投影后能更好的保证原始图的度分布的形状,使其更加接近真实分布,为后续的数据分析和处理奠定基础。
图5比较了在L1误差、KS距离,2种不同的度量指标下,分别在Facebook、Wiki-Vote、Email-Enron、Ca-HepPh数据集上,本发明方法(SER-cumulative,SER-cumulative通过SER投影方法进行图压缩)与文献3(Trancation,截断算法;截断算法通过Trancation投影方法进行图压缩)、文献2(θ-cumulative,θ-cumulative方法通过πθ投影方法进行图压缩)提出的方法在刻画节点度分布时差异。其中左半部分是用L1误差度量的结果,右半部分为用KS距离度量的结果。从图5中可以看出,随着数据集的变化,截断算法下的L1、KS一直是所有方法里面最大的,说明截断算法的效果最差。这是由于算法本身删除了许多本没必要删除的边,损失了原始图中的大量有效信息,造成了度分布的误差过大。本发明方法的结果表明:对不同数据集,随着规模的增大,方法的误差呈现减小趋势;对于相同的数据集,随着隐私预算的增大,方法的误差呈现减小趋势,这符合我们一般的规律。
总的来说,本发明在不同数据集上的效果优于基于πθ的直方图发布算法(θ-cumulative)和截断算法。特别地,当隐私预算ε≤1时,这种优势更为明显。这说明本发明点差分隐私约束下度直方图发布方法适用于对隐私预算控制很严格的情况,更符合隐私保护的相关要求。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.点差分隐私下图的度直方图发布方法,其特征在于,所述方法在点差分隐私约束下进行,包括以下步骤:
步骤1:选取候选集T,所述候选集T由图G的多个度门限值θ组成;
步骤2:计算在隐私预算ε2下候选集T中每个θ的质量函数 其中|{v|v∈V,deg(v)>θ}|为图G中度大于θ的节点数量;
步骤3:通过指数机制选择节点的度门限值θ*,在隐私预算ε1下,通过指数机制选择最优的θi,其中Δq=2Θ+2;
步骤4:采用基于度排序的边移除投影方法SER,通过节点的度门限值θ*对图G的度进行限制,得到投影后的图
步骤5:通过拉普拉斯机制对图的累积度直方图加噪,在隐私预算ε2下,其中ch为图的噪声累积度直方图,为图的累积度直方图,Δcumhist=θ+1为拉普拉斯机制下累积度直方图的全局敏感度;
步骤6:把累积度直方图转化为度直方图H={h1,h2,...,hθ};
步骤7:对度直方图H={h1,h2,...,hθ}进行尾部处理;
步骤8:发布点差分隐私保护下的图的度直方图。
2.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,在所述步骤1之前,还包括:
参量初始化。
3.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,所述θ∈Θ,Θ的大小为100,即所述θ依次取[0,100]中的整数值。
4.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,所述步骤4包括:
步骤4.1:计算图G中所有节点的度deg(i),对[i,deg(i)]按deg(i)从大到小的顺序排列得到列表sorted_l;
步骤4.2:对度最大的节点i,如果存在deg(i)>θ*,则找到节点i的所有相邻节点j,对[j,deg(j)]按deg(j)从大到小的顺序排列得到列表sorted_list,令deg(i)=deg(i)-1,deg(j)=deg(j)-1,遍历列表sorted_list,当deg(i)=θ*时,对列表sorted_l重排序,直到列表sorted_l中的最大度不大于θ*时为止,此时得到投影图如果不存在deg(i)>θ*,则令
5.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,所述步骤6包括:
步骤6.1:如果累积度直方图的第一个桶计数为负数,则令其计数为0;
步骤6.2:从累积度直方图的第一个桶开始比较,如果前一个桶i比后一个桶i+1小,则直接用桶i和桶i-1的差值作为桶i的计数,否则,需要在桶i到桶θ中找到第一个大于桶i的桶j,把桶i-1和桶j的差值平均分配到桶i至桶j中。
6.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,所述步骤7包括:
步骤7.1:对度直方图的后半部分H′={hθ/2,hθ/2+1,...,hθ-1,hθ}拟合得到二次函数F,找到拐点r,并取预算budget=sum([hr+1,hr+2...,hθ]);
步骤7.2:把H′中除去预算的部分{hθ/2,hθ/2+1,...,hr}作为回归学习的样本,并求平均值
步骤7.3:根据回归学习的样本得到线性回归的斜率k和截距b,对ht来说,其中t∈[r+1,n],如果k<0,ht=k×t+b,否则,ht=c,令预算budget=budget-ht,直到预算耗尽为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796835.0A CN109214194B (zh) | 2018-07-19 | 2018-07-19 | 点差分隐私下图的度直方图发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796835.0A CN109214194B (zh) | 2018-07-19 | 2018-07-19 | 点差分隐私下图的度直方图发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109214194A true CN109214194A (zh) | 2019-01-15 |
CN109214194B CN109214194B (zh) | 2020-10-09 |
Family
ID=64990449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810796835.0A Active CN109214194B (zh) | 2018-07-19 | 2018-07-19 | 点差分隐私下图的度直方图发布方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214194B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628360A (zh) * | 2023-07-25 | 2023-08-22 | 北京科技大学 | 一种基于差分隐私的社交网络直方图发布方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046160A (zh) * | 2015-07-21 | 2015-11-11 | 东华大学 | 一种基于直方图的面向数据流差分隐私发布方法 |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
US20170316346A1 (en) * | 2016-04-28 | 2017-11-02 | Qualcomm Incorporated | Differentially private iteratively reweighted least squares |
CN107862014A (zh) * | 2017-10-31 | 2018-03-30 | 陕西师范大学 | 隐私保护加权网络发布数据集的构建方法 |
-
2018
- 2018-07-19 CN CN201810796835.0A patent/CN109214194B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046160A (zh) * | 2015-07-21 | 2015-11-11 | 东华大学 | 一种基于直方图的面向数据流差分隐私发布方法 |
US20170316346A1 (en) * | 2016-04-28 | 2017-11-02 | Qualcomm Incorporated | Differentially private iteratively reweighted least squares |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
CN107862014A (zh) * | 2017-10-31 | 2018-03-30 | 陕西师范大学 | 隐私保护加权网络发布数据集的构建方法 |
Non-Patent Citations (2)
Title |
---|
张啸剑等: "基于差分隐私的流式直方图发布方法", 《软件学报》 * |
张啸剑等: "差分隐私下一种精确直方图发布方法", 《计算机研究与发展》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628360A (zh) * | 2023-07-25 | 2023-08-22 | 北京科技大学 | 一种基于差分隐私的社交网络直方图发布方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109214194B (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | Graph trend filtering networks for recommendation | |
Day et al. | Publishing graph degree distribution with node differential privacy | |
Hartmann et al. | Clustering evolving networks | |
CN108427891A (zh) | 基于差分隐私保护的邻域推荐方法 | |
Huang et al. | Effective association clusters filtering to cold-start recommendations | |
Feng et al. | A multi-tier data reduction mechanism for IoT sensors | |
CN110471957B (zh) | 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法 | |
Sun et al. | Non-target-specific node injection attacks on graph neural networks: A hierarchical reinforcement learning approach | |
Amelkin et al. | A distance measure for the analysis of polar opinion dynamics in social networks | |
Parchas et al. | Uncertain graph processing through representative instances | |
CN105808649A (zh) | 一种搜索结果排序方法及其设备 | |
Yoon et al. | A community-based sampling method using DPL for online social networks | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN112417313A (zh) | 一种基于知识图卷积网络的模型混合推荐方法 | |
Zhang et al. | Reverse attack: Black-box attacks on collaborative recommendation | |
CN111861750A (zh) | 一种基于决策树方法的特征衍生系统及可读存储介质 | |
CN109214194A (zh) | 点差分隐私下图的度直方图发布方法 | |
CN108959956B (zh) | 基于贝叶斯网络的差分隐私数据发布方法 | |
Adriaens et al. | Minimizing hitting time between disparate groups with shortcut edges | |
Hazarika | Pointwise ideal convergence and uniformly ideal convergence of sequences of fuzzy valued functions | |
Fushimi et al. | Efficient analytical computation of expected frequency of motifs of small size by marginalization in uncertain network | |
Helal et al. | An efficient algorithm for community detection in attributed social networks | |
CN109150974B (zh) | 一种基于邻居迭代相似度的用户身份链接方法 | |
Weijie et al. | An improved collaborative filtering based on item similarity modified and common ratings | |
CN112765414A (zh) | 一种图嵌入向量的生成方法及基于图嵌入的社区发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |