CN110135180B - 满足节点差分隐私的度分布直方图发布方法 - Google Patents
满足节点差分隐私的度分布直方图发布方法 Download PDFInfo
- Publication number
- CN110135180B CN110135180B CN201910400478.6A CN201910400478A CN110135180B CN 110135180 B CN110135180 B CN 110135180B CN 201910400478 A CN201910400478 A CN 201910400478A CN 110135180 B CN110135180 B CN 110135180B
- Authority
- CN
- China
- Prior art keywords
- histogram
- graph
- edge
- error
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 10
- 238000000638 solvent extraction Methods 0.000 claims description 25
- 230000035945 sensitivity Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000012086 standard solution Substances 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 238000002347 injection Methods 0.000 claims 1
- 239000007924 injection Substances 0.000 claims 1
- 238000006386 neutralization reaction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000000717 retained effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种满足节点差分隐私的度分布直方图发布方法。本发明一种满足节点差分隐私的度分布直方图发布方法,包括:通过采用加边的顺序进行图映射。基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。本发明的有益效果:本发明中的图映射优化方法可以保留更多的边信息,降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。
Description
技术领域
本发明涉及一种满足节点差分隐私的度分布直方图发布方法。
背景技术
图作为一种信息表现形式,能够直观地描述事物之间的联系,比如社交网络等。为了充分挖掘数据的潜在应用价值,需要发布图数据以供分析。并且在此过程中,需要确保数据中的敏感信息不被泄漏。而作为一种严格的并且可理论证明的隐私保护技术,差分隐私能够在保护信息安全的同时,尽可能提高数据的可用性。因此,近年来许多国内外学者对满足差分隐私的图数据发布进行了广泛的研究。
直方图是差分隐私保护下图数据发布的一种重要形式,同时节点度数也是图的重要统计特征之一,因此基于直方图的度分布发布问题得到了很多关注,并取得了很大的进展。在现有的度分布查询研究中,采用图映射方法可以有效地降低查询问题的全局敏感度,但是会丢失图中大量拓扑信息。因此研究基于节点差分隐私保护的度分布直方图发布问题,在满足节点差分隐私保护的同时提升发布度分布直方图的准确度。
传统技术存在以下技术问题:
在对度分布查询问题的研究中,由于查询问题的敏感度过大,所以有方法采用截断操作来进行图映射。也就是说,直接移除所有度大于θ的节点上的边,并分两步分析了截断后发布节点度直方图的敏感度。第一步是计算度数因截断而发生改变的节点个数的平滑上界ST,为了使ST的值较小,临界阈值θ是随机设置的。在第二步中,θ上界图中一个节点的度改变将导致直方图的改变量最大为2θ。总敏感度是二者的乘积2θST,所以注入的噪声量级与参数有关。πθ方法事先给定图中的边一个稳定序号,并通过该序号遍历每条边。如果在当前时刻的边所对应的两个节点度数都小于θ,则保留该条边,从而完成图映射。在直方图发布过程中,通过采用集合级数的桶聚合策略来合并频数值相近的相邻桶。现有的图投影技术无法较好地保留图形拓扑结构,并且其度分布直方图的发布精度较差。
发明内容
本发明要解决的技术问题是提供一种满足节点差分隐私的度分布直方图发布方法,本发明中的图映射优化方法可以保留更多的边信息,降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。
为了解决上述技术问题,本发明提供了一种满足节点差分隐私的度分布直方图发布方法,包括:通过采用加边的顺序进行图映射。
基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。
顺序加边映射方法Pθ。
为了保证所提出的Pθ算法满足差分隐私条件,需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v+,也就是说从图G′中移除v+及其相邻的边会得到图G,如果deg(v+)>θ,那么两个图G′和G截断之后是一样的。如果deg(v+)≤θ,那么图G′和G中除了v+之外,在截断之前和之后至多有θ个节点的度不同,导致G′θ和Gθ用中生成的度分布直方图之间的L1距离不大于2θ+1。可以证明对图进行Pθ映射操作的全局敏感度上界为2θ+1。
直方图是数据库系统中常用的数据统计汇总的有效方式,通过采用一组不等高度的桶来有效显示统计信息,其中每个桶表示相应查询范围内的统计情况。
对给定直方图进行范围查询时,为了保证数据的隐私不被泄漏,采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果;
直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。
假设原始直方图为H={h1,h2,...hn},其中直方图的桶的频数hi是度为i的节点个数。划分策略B={B1,B2,...,Bk}中包含k个子集,该划分策略将原始直方图划分互斥的子集,每个子集Bi={li,ri,ci},其中li和ri表示子的左右边界,ci是直方图区间内所有频数值的平均值。当所有划分的子集完全覆盖了域[1,n]且不重复时,直方图的划分是有效的。也就是说,对于所有的1≤i≤k,都有l1=1,rk=n且ri=li+1-1。显然不同的划分策略会导致不同的值ci,所以会产生不同的近似误差。给定直方图频数序列H={h1,h2,...hn}和划分策略 B={B1,B2,...,Bk},可以得到一个新的频数序列将序列H和H*之间的误差记做Error(B,H)。在这里使用平方和误差(Sum of Squared Error,SSE)来衡量不同划分策略的优劣,每个划分子集Bi造成的误差为:
所以划分策略B对H的误差为:
进一步证明:
其中Δf为全局敏感度,k为当前划分的子集个数,n为原始直方图中桶的个数。在这里,本方法直接采用误差函数,即:
划分之后的直方图能够比较准确地响应范围计数查询,但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看,划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构,范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高,因为前者降低了满足差分隐私所需的噪声量级。
在其中一个实施例中,“通过采用加边的顺序进行图映射。”具有包括:首先构建一个只包含图G中所有节点而没有任何连接边的图Gθ,然后在保证图Gθ中所有节点的度都不大于θ的前提下按照一定的顺序依次在图Gθ中加入图G的边。在进行图映射之前,需要构造一个相对稳定的边集,用Γ(G)来表示。给定两个仅有一个节点不同,其他结构都相同的相邻图G=(V,E)和G′=(V′,E′)。如果同时出现在G=(V,E)和G′=(V′,E′)中的两条边ei和ej,它们在边集Γ(G)和Γ(G′)中的相对顺序是一致的,即如果在边集Γ(G)中,边ei在ej之前,那么在边集Γ(G′)中,边ei也在ej之前,则称图的边集顺序Γ(G)是稳定的。
在其中一个实施例中,“顺序加边映射方法Pθ。”包括:首先根据图G中每条边对应节点度的升序进行排序,得到稳定的边集序列Γ(G)。然后构造一个包含图G中所有节点但不包含任何连接边的图Gθ,因而在初始阶段图Gθ中所有节点的度都为0。再依次遍历边集Γ(G)中的每条边e=(u,v),如果在图Gθ中加入边e后节点u和v的度数都不会超过θ,则将边e加入图Gθ中,否则舍弃边e。顺序加边映射算法通过对边排序后依次加边的方式进行图映射操作,给定原始图 G=(V,E)。
在其中一个实施例中,在注入随机噪声后确定柱状图结构,分两步进行:第一步,首先遵循差分隐私的标准解,向直方图的每个桶注入满足拉普拉斯机制的噪声,得到加噪直方图,使得度分布直方图满足差分隐私。第二步,寻找划分策略B={B1,B2,...,Bk},使得加噪直方图的误差最小,其中1≤k≤n。开始阶段将所有桶合并为一个大桶,即k=1,然后从直方图两端依次选择当前误差最小的划分点,并形成新的子集集合。从算法中可以看出,在每个阶段有五种划分方式,分别为:当前点不划分并继续查找,当前直方图左端桶划入Bl集合中,左端桶划入Bl的最右端子集中,右端桶划入Br集合中,右端桶划入Br最左端集合中。当遍历完直方图中的所有桶时,即表明划分结束。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
本发明中的图映射优化方法可以保留更多的边信息,降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。
附图说明
图1(a)、(b)和(c)是本发明满足节点差分隐私的度分布直方图发布方法的相关示意图之一。
图2是本发明满足节点差分隐私的度分布直方图发布方法的相关示意图之二。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
在本发明中,通过采用加边的顺序进行图映射。首先构建一个只包含图G 中所有节点而没有任何连接边的图Gθ,然后在保证图Gθ中所有节点的度都不大于θ的前提下按照一定的顺序依次在图Gθ中加入图G的边。在进行图映射之前,需要构造一个相对稳定的边集,用Γ(G)来表示。给定两个仅有一个节点不同,其他结构都相同的相邻图G=(V,E)和G′=(V′,E′)。如果同时出现在 G=(V,E)和G′=(V′,E′)中的两条边ei和ej,它们在边集Γ(G)和Γ(G′)中的相对顺序是一致的,即如果在边集Γ(G)中,边ei在ej之前,那么在边集Γ(G′)中,边ei也在ej之前,则称图的边集顺序Γ(G)是稳定的。
实际上在加边的过程中,边的先后顺序会对最终构建的图Gθ能够保留下来的边集大小产生很大影响响。例如,在图中展示了两种加边策略。图(a) 为事先给定了边顺序的原图。当θ=1时,如果按照[1,2,3,4,5,6,7]的边排列顺序进行加边操作,则能保留的边数量为2,如图(b)所示。而如果按照 [1,7,4,3,5,6,2]的顺序进行加边操作时,保留的边数量则为3,如图(c)所示。因而,不同的加边顺序会导致最终保留的边数量存在差异。
在进行图映射的过程中,可以得到以下观察:1)对于原图G中两个度都小于θ的节点,如果它们之间存在相邻边,则无论采用何种加边顺序,该条边都能在图映射后被保留。2)相比较度数较大的节点,度数较小的节点更容易在映射后度数发生变化,这是因为度数较大的节点具有更多的连接边可供选择,因而其度数改变的概率越小。例如当一个度数较小的节点vi和一个度数远大于θ的节点vj之间有连接边时,由于节点vj有其他更多的连接边以供选择,来确保其度数不受改变,就有比较大的概率会舍弃与vi的连接边,因而造成vi的度数发生改变。
基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。具体排序过程如图所示,其中节点a的度为1,节点b的度为3,节点c的度为2,节点d的度为4,节点e的度为2,节点 f的度为2。根据每条边相邻的两个节点的度来计算该边的顺序时,可能出现两条边的节点度之和相同。如边1和边7的左右节点度之和都为4,这个时候优先考虑度最小的节点相连接的边,deg(a)=1,deg(b)=3,deg(e)=2, deg(f)=2,因为节点a的度最小,因此与节点a相连的边1的顺序在边 7之前。因此边集的顺序是[1,7,4,3,5,6,2],此时可以保留如图中所示的3 条边。
算法1中展示了顺序加边映射方法Pθ。首先根据图G中每条边对应节点度的升序进行排序,得到稳定的边集序列Γ(G)。然后构造一个包含图G中所有节点但不包含任何连接边的图Gθ,因而在初始阶段图Gθ中所有节点的度都为0。再依次遍历边集Γ(G)中的每条边e=(u,v),如果在图Gθ中加入边e后节点u和v的度数都不会超过θ,则将边e加入图Gθ中,否则舍弃边e。顺序加边映射算法通过对边排序后依次加边的方式进行图映射操作,给定原始图G=(V,E),对边的排序操作的时间复杂度为0(|E|log(|E|)),加边过程的时间复杂度为0(|E|),因此算法 1的时间复杂度为0(|E|log(|E|))。
为了保证所提出的Pθ算法满足差分隐私条件,需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v+,也就是说从图G′中移除v+及其相邻的边会得到图G,如果deg(v+)>θ,那么两个图G′和G截断之后是一样的。如果deg(v+)≤θ,那么图G′和G中除了v+之外,在截断之前和之后至多有θ个节点的度不同,导致G′θ和Gθ用中生成的度分布直方图之间的L1距离不大于2θ+1。可以证明对图进行Pθ映射操作的全局敏感度上界为2θ+1。
直方图是数据库系统中常用的数据统计汇总的有效方式,通过采用一组不等高度的桶来有效显示统计信息,其中每个桶表示相应查询范围内的统计情况。例如对于数据图G中存在的某一统计属Att,则Att的任一属性值a∈Att的个数记为count(a)。属性值对应的计数值是直方图的频数,直方图则可以看做该属性的频数值序列,记为H={h1,h2,...,hn},其中hi=count(ai)。如图2所示,根据原始图中各个节点度数情况,可以得到右侧的节点度数分布直方图,比如度数为2的节点个数为4,分别为节点{a,c,h,i}。这样即可将数据图中的某个属性统计信息映射为相应的直方图分布,从而进行相应的信息查询。
对给定直方图进行范围查询时,为了保证数据的隐私不被泄漏,通常采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果。对于节点度分布,如果从图中移除(或者添加)一个节点和其相邻的边,发布直方图的全局敏感度为查询结果中可能发生的最大变化,在此处为2θ+1。然后需要向直方图的每个桶的频数添加大小为的拉普拉斯噪声,以覆盖图中任意节点的增删带来的影响。
直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。考虑到拉普拉斯噪声的零均值和加性特征,最直接的方式是通过合并直方图中的相邻桶来减轻随机噪声对直方图发布准确度的影响。在现有的方法中,大多需要先确定直方图中要划分的子集的个数k,k=1时数值放入一个子集中,然后用频数和的平均值来代替每个桶的频数值。此时中和的噪声最多,即噪声误差很小,但是对原数据的改变很大。当k=n时,保持原始直方图,但噪声误差最高。因此,如何设计一个最佳的划分策略,有效地平衡数据的噪声误差和失真程度,需要设置k的值,因此需要较高的复杂度和更多的隐私预算。在本发明中提出一种简单的直方图划分算法,通过从直方图两端依次选择当前误差最小的桶合并方式来完成直方图子集的划分。
假设原始直方图为H={h1,h2,...hn},其中直方图的桶的频数hi是度为i的节点个数。划分策略B={B1,B2,...,Bk}中包含k个子集,该划分策略将原始直方图划分互斥的子集,每个子集Bi={li,ri,ci},其中li和ri表示子的左右边界,ci是直方图区间内所有频数值的平均值。当所有划分的子集完全覆盖了域[1,n]且不重复时,直方图的划分是有效的。也就是说,对于所有的1≤i≤k,都有l1=1,rk=n且ri=li+1-1。显然不同的划分策略会导致不同的值ci,所以会产生不同的近似误差。给定直方图频数序列H={h1,h2,...hn}和划分策略 B={B1,B2,...,Bk},可以得到一个新的频数序列将序列H和H*之间的误差记做Error(B,H)。在这里使用平方和误差(Sum of Squared Error,SSE)来衡量不同划分策略的优劣,每个划分子集Bi造成的误差为:
所以划分策略B对H的误差为:
进一步证明:
其中Δf为全局敏感度,k为当前划分的子集个数,n为原始直方图中桶的个数。在这里,本方法直接采用误差函数,即:
划分之后的直方图能够比较准确地响应范围计数查询,但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看,划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构,范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高,因为前者降低了满足差分隐私所需的噪声量级。因此本文的算法在注入随机噪声后确定柱状图结构,如算法2 所示,分两步进行:第一步,首先遵循差分隐私的标准解,向直方图的每个桶注入满足拉普拉斯机制的噪声,得到加噪直方图,使得度分布直方图满足差分隐私。第二步,寻找划分策略B={B1,B2,...,Bk},使得加噪直方图的误差最小,其中1≤k≤n。开始阶段将所有桶合并为一个大桶,即k=1,然后从直方图两端依次选择当前误差最小的划分点,并形成新的子集集合。从算法中可以看出,在每个阶段有五种划分方式,分别为:当前点不划分并继续查找,当前直方图左端桶划入Bl集合中,左端桶划入Bl的最右端子集中,右端桶划入Br集合中,右端桶划入Br最左端集合中。当遍历完直方图中的所有桶时,即表明划分结束。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (3)
1.一种满足节点差分隐私的度分布直方图发布方法,其特征在于,包括:
通过采用加边的顺序进行图映射;首先构建一个只包含图G中所有节点而没有任何连接边的图Gθ,然后在保证图Gθ中所有节点的度都不大于θ的前提下按照顺序依次在图Gθ中加入图G的边;在进行图映射之前,构造一个稳定的边集,用Γ(G)来表示;给定两个仅有一个节点不同,其他结构都相同的相邻图G=(V,E)和G′=(V′,E′);如果同时出现在G=(V,E)和G′=(V′,E′)中的两条边ei和ej,它们在边集Γ(G)和Γ(G′)中的顺序是一致的,即如果在边集Г(G)中,边ei在ej之前,那么在边集Γ(G′)中,边ei也在ej之前,则称图的边集顺序Γ(G)是稳定的;
其中,按照顺序依次在图Gθ中加入图G的边,具体包括:首先根据图G中每条边对应节点度的升序进行排序,得到稳定的边集序列Γ(G);然后构造一个包含图G中所有节点但不包含任何连接边的图Gθ,因而在初始阶段图Gθ中所有节点的度都为0;再依次遍历边集Γ(G)中的每条边e=(u,v),如果在图Gθ中加入边e后节点u和v的度数都不会超过θ,则将边e加入图Gθ中,否则舍弃边e;
为了保证所提出的Pθ算法满足差分隐私条件,确保图映射操作的全局敏感度有确定上界;假设图G′和图G相比只增加一个节点v+,也就是说从图G′中移除v+及其相邻的边会得到图G,如果deg(v+)>θ,那么两个图G′和G截断之后是一样的;如果deg(v+)≤θ,那么图G′和G中除了v+之外,在截断之前和之后至多有θ个节点的度不同,导致G′θ和Gθ用中生成的度分布直方图之间的L1距离不大于2θ+1;可以证明对图进行Pθ映射操作的全局敏感度上界为2θ+1;
直方图是数据库系统中常用的数据统计汇总的有效方式,通过采用一组不等高度的桶来有效显示统计信息,其中每个桶表示相应查询范围内的统计情况;
对给定直方图进行范围查询时,为了保证数据的隐私不被泄漏,采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果;对于节点度分布,如果从图中移除一个节点和其相邻的边,发布直方图的全局敏感度为查询结果中的最大变化,在此处为2θ+1;然后向直方图的每个桶的频数添加大小为的拉普拉斯噪声,以覆盖图中任意节点的增删带来的影响;
直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有误差;
通过从直方图两端依次选择当前误差最小的桶合并方式来完成直方图子集的划分;
假设原始直方图为H={h1,h2,...hn},其中直方图的桶的频数hi是度为i的节点个数;划分策略B={B1,B2,...,Bk}中包含k个子集,该划分策略将原始直方图划分互斥的子集,每个子集Bi={li,ri,ci},其中li和ri表示子的左右边界,ci是直方图区间内所有频数值的平均值;当所有划分的子集完全覆盖了域[1,n]且不重复时,直方图的划分是有效的;也就是说,对于所有的1≤i≤k,都有l1=1,rk=n且ri=li+1-1;显然不同的划分策略会导致不同的值ci,所以会产生不同的近似误差;给定直方图频数序列H={h1,h2,...hn}和划分策略B={B1,B2,...,Bk},得到一个新的频数序列将序列H和H*之间的误差记做Error(B,H);在这里使用平方和误差来衡量不同划分策略的优劣,每个划分子集Bi造成的误差为:
所以划分策略B对H的误差为:
进一步证明:
其中Δf为全局敏感度,k为当前划分的子集个数,n为原始直方图中桶的个数;在这里直接采用误差函数,即:
划分之后的直方图能够响应范围计数查询,但是用均值代替原始频数值不可避免会产生近似误差;从发布直方图的总体误差来看,划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡;满足差分隐私的直方图的发布精度取决于直方图的结构;因此,在注入随机噪声后确定柱状图结构,分两步进行:第一步,首先遵循差分隐私的标准解,向直方图的每个桶注入满足拉普拉斯机制的噪声,得到加噪直方图,使得度分布直方图满足差分隐私;第二步,寻找划分策略B={B1,B2,...,Bk},使得加噪直方图的误差最小,其中1≤k≤n;开始阶段将所有桶合并为一个大桶,即k=1,然后从直方图两端依次选择当前误差最小的划分点,并形成新的子集集合;在每个阶段有五种划分方式,分别为:(1)当前点不划分并继续查找、(2)当前直方图左端桶划入Bl集合中、(3)左端桶划入Bl的最右端子集中、(4)右端桶划入Br集合中和(5)右端桶划入Br最左端集合中;当遍历完直方图中的所有桶时,即表明划分结束。
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400478.6A CN110135180B (zh) | 2019-05-15 | 2019-05-15 | 满足节点差分隐私的度分布直方图发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400478.6A CN110135180B (zh) | 2019-05-15 | 2019-05-15 | 满足节点差分隐私的度分布直方图发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135180A CN110135180A (zh) | 2019-08-16 |
CN110135180B true CN110135180B (zh) | 2021-04-06 |
Family
ID=67573991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910400478.6A Active CN110135180B (zh) | 2019-05-15 | 2019-05-15 | 满足节点差分隐私的度分布直方图发布方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135180B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674830B (zh) * | 2019-12-06 | 2020-05-19 | 数字广东网络建设有限公司 | 图像隐私识别方法、装置、计算机设备和存储介质 |
CN111444486B (zh) * | 2019-12-31 | 2022-03-22 | 深圳贝特莱电子科技股份有限公司 | 一种基于android系统的开机自适应初始化指纹参数方法 |
CN113032399B (zh) * | 2021-03-30 | 2022-08-30 | 北京邮电大学 | 一种数据处理方法及装置 |
CN116628360A (zh) * | 2023-07-25 | 2023-08-22 | 北京科技大学 | 一种基于差分隐私的社交网络直方图发布方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106023058A (zh) * | 2016-05-25 | 2016-10-12 | 广东工业大学 | 一种高保真可逆水印嵌入方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10325297B2 (en) * | 2011-11-28 | 2019-06-18 | Dell Products, Lp | Method for comparing sales performance of web sites and a system therefor |
CN104809408B (zh) * | 2015-05-08 | 2017-11-28 | 中国科学技术大学 | 一种基于差分隐私的直方图发布方法 |
CN109492429B (zh) * | 2018-10-30 | 2020-10-16 | 华南师范大学 | 一种数据发布的隐私保护方法 |
-
2019
- 2019-05-15 CN CN201910400478.6A patent/CN110135180B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106023058A (zh) * | 2016-05-25 | 2016-10-12 | 广东工业大学 | 一种高保真可逆水印嵌入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110135180A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135180B (zh) | 满足节点差分隐私的度分布直方图发布方法 | |
Godfrey et al. | Algorithms and analyses for maximal vector computation | |
Sharifzadeh et al. | Vor-tree: R-trees with voronoi diagrams for efficient processing of spatial nearest neighbor queries | |
US9092481B2 (en) | Method and system for processing graph queries | |
Zhang et al. | Scalable skyline computation using object-based space partitioning | |
Andrade et al. | G-dbscan: A gpu accelerated algorithm for density-based clustering | |
Beckmann et al. | A revised R*-tree in comparison with related index structures | |
Gao et al. | Continuous visible nearest neighbor query processing in spatial databases | |
Sacharidis et al. | Topologically sorted skylines for partially ordered domains | |
CN102722554B (zh) | 位置敏感哈希随机性减弱方法 | |
Belussi et al. | Detecting skewness of big spatial data in SpatialHadoop | |
Magnani et al. | From stars to galaxies: skyline queries on aggregate data | |
Singh et al. | Analysis and study of K-means clustering algorithm | |
Ailon et al. | Fitting tree metrics: Hierarchical clustering and phylogeny | |
CN108764307A (zh) | 自然最近邻优化的密度峰值聚类方法 | |
Chehreghani | Efficient computation of pairwise minimax distance measures | |
Jiang et al. | Monochromatic and bichromatic mutual skyline queries | |
CN110489448A (zh) | 基于Hadoop的大数据关联规则的挖掘方法 | |
Dujmović et al. | Biased range trees | |
Belussi et al. | Approximate queries for spatial data | |
Li et al. | Efficient processing of probabilistic group nearest neighbor query on uncertain data | |
Horzyk et al. | ASA-graphs for efficient data representation and processing | |
Zhu et al. | Toward spatial joins for polygons | |
Kaporis et al. | Efficient processing of 3-sided range queries with probabilistic guarantees | |
Qiu et al. | A new algorithm for m-closest keywords query over spatial web with grid partitioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |