CN110135180A

CN110135180A - 满足节点差分隐私的度分布直方图发布方法

Info

Publication number: CN110135180A
Application number: CN201910400478.6A
Authority: CN
Inventors: 钱晴; 赵雷
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-08-16
Anticipated expiration: 2039-05-15
Also published as: CN110135180B

Abstract

本发明公开了一种满足节点差分隐私的度分布直方图发布方法。本发明一种满足节点差分隐私的度分布直方图发布方法，包括：通过采用加边的顺序进行图映射。基于以上观察，提出基于边所对应节点的度数进行优先级排序，节点度数之和越小，则优先级越高。本发明的有益效果：本发明中的图映射优化方法可以保留更多的边信息，降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。

Description

满足节点差分隐私的度分布直方图发布方法

技术领域

本发明涉及一种满足节点差分隐私的度分布直方图发布方法。

背景技术

图作为一种信息表现形式，能够直观地描述事物之间的联系，比如社交网络等。为了充分挖掘数据的潜在应用价值，需要发布图数据以供分析。并且在此过程中，需要确保数据中的敏感信息不被泄漏。而作为一种严格的并且可理论证明的隐私保护技术，差分隐私能够在保护信息安全的同时，尽可能提高数据的可用性。因此，近年来许多国内外学者对满足差分隐私的图数据发布进行了广泛的研究。

直方图是差分隐私保护下图数据发布的一种重要形式，同时节点度数也是图的重要统计特征之一，因此基于直方图的度分布发布问题得到了很多关注，并取得了很大的进展。在现有的度分布查询研究中，采用图映射方法可以有效地降低查询问题的全局敏感度，但是会丢失图中大量拓扑信息。因此研究基于节点差分隐私保护的度分布直方图发布问题，在满足节点差分隐私保护的同时提升发布度分布直方图的准确度。

传统技术存在以下技术问题：

在对度分布查询问题的研究中，由于查询问题的敏感度过大，所以有方法采用截断操作来进行图映射。也就是说，直接移除所有度大于θ的节点上的边，并分两步分析了截断后发布节点度直方图的敏感度。第一步是计算度数因截断而发生改变的节点个数的平滑上界S_T，为了使S_T的值较小，临界阈值θ是随机设置的。在第二步中，θ上界图中一个节点的度改变将导致直方图的改变量最大为2θ。总敏感度是二者的乘积2θS_T，所以注入的噪声量级与参数有关。π_θ方法事先给定图中的边一个稳定序号，并通过该序号遍历每条边。如果在当前时刻的边所对应的两个节点度数都小于θ，则保留该条边，从而完成图映射。在直方图发布过程中，通过采用集合级数的桶聚合策略来合并频数值相近的相邻桶。现有的图投影技术无法较好地保留图形拓扑结构，并且其度分布直方图的发布精度较差。

发明内容

本发明要解决的技术问题是提供一种满足节点差分隐私的度分布直方图发布方法，本发明中的图映射优化方法可以保留更多的边信息，降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。

为了解决上述技术问题，本发明提供了一种满足节点差分隐私的度分布直方图发布方法，包括：通过采用加边的顺序进行图映射。

基于以上观察，提出基于边所对应节点的度数进行优先级排序，节点度数之和越小，则优先级越高。

顺序加边映射方法P_θ。

为了保证所提出的P_θ算法满足差分隐私条件，需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v⁺，也就是说从图G′中移除v⁺及其相邻的边会得到图G，如果deg(v⁺)＞θ，那么两个图G′和G截断之后是一样的。如果deg(v⁺)≤θ，那么图G′和G中除了v⁺之外，在截断之前和之后至多有θ个节点的度不同，导致G′_θ和G_θ用中生成的度分布直方图之间的L1距离不大于2θ+1。可以证明对图进行P_θ映射操作的全局敏感度上界为2θ+1。

直方图是数据库系统中常用的数据统计汇总的有效方式，通过采用一组不等高度的桶来有效显示统计信息，其中每个桶表示相应查询范围内的统计情况。

对给定直方图进行范围查询时，为了保证数据的隐私不被泄漏，采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果；

直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。

假设原始直方图为H＝{h₁,h₂,...h_n}，其中直方图的桶的频数h_i是度为i的节点个数。划分策略B＝{B₁,B₂,...,B_k}中包含k个子集，该划分策略将原始直方图划分互斥的子集，每个子集B_i＝{l_i,r_i,c_i},其中l_i和r_i表示子的左右边界，c_i是直方图区间内所有频数值的平均值。当所有划分的子集完全覆盖了域[1,n]且不重复时，直方图的划分是有效的。也就是说，对于所有的1≤i≤k，都有l₁＝1,r_k＝n且r_i＝l_i+1-1。显然不同的划分策略会导致不同的值c_i，所以会产生不同的近似误差。给定直方图频数序列H＝{h₁,h₂,...h_n}和划分策略B＝{B₁,B₂,...,B_k}，可以得到一个新的频数序列将序列H和H^*H*之间的误差记做Erroe(B,H)。在这里使用平方和误差(Sum of Squared Error,SSE)来衡量不同划分策略的优劣，每个划分子集B_i造成的误差为：

所以划分策略B对H的误差为：

进一步证明：

其中Δf为全局敏感度，k为当前划分的子集个数，n为原始直方图中桶的个数。在这里，本方法直接采用误差函数，即：

划分之后的直方图能够比较准确地响应范围计数查询，但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看，划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构，范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高，因为前者降低了满足差分隐私所需的噪声量级。

在其中一个实施例中，“通过采用加边的顺序进行图映射。”具有包括：首先构建一个只包含图G中所有节点而没有任何连接边的图G_θ，然后在保证图G_θ中所有节点的度都不大于θ的前提下按照一定的顺序依次在图G_θ中加入图G的边。在进行图映射之前，需要构造一个相对稳定的边集，用Γ(G)来表示。给定两个仅有一个节点不同，其他结构都相同的相邻图G＝(V，E)和G′＝(V′，E′)。如果同时出现在G＝(V，E)和G′＝(V′，E′)中的两条边e_i和e_j，它们在边集Γ(G)和Γ(G′)中的相对顺序是一致的，即如果在边集Γ(G)中，边e_i在e_j之前，那么在边集Γ(G′)中，边e_i也在e_j之前，则称图的边集顺序Γ(G)是稳定的。

在其中一个实施例中，“顺序加边映射方法P_θ。”包括：首先根据图G中每条边对应节点度的升序进行排序，得到稳定的边集序列Γ(G)。然后构造一个包含图G中所有节点但不包含任何连接边的图G_θ，因而在初始阶段图G_θ中所有节点的度都为0。再依次遍历边集Γ(G)中的每条边e＝(u，v)，如果在图G_θ中加入边e后节点u和v的度数都不会超过θ，则将边e加入图G_θ中，否则舍弃边e。顺序加边映射算法通过对边排序后依次加边的方式进行图映射操作，给定原始图G＝(V，E)。

在其中一个实施例中，在注入随机噪声后确定柱状图结构，分两步进行：第一步，首先遵循差分隐私的标准解，向直方图的每个桶注入满足拉普拉斯机制的噪声，得到加噪直方图，使得度分布直方图满足差分隐私。第二步，寻找划分策略B＝{B₁,B₂,...,B_k}，使得加噪直方图的误差最小，其中1≤k≤n。开始阶段将所有桶合并为一个大桶，即k＝1，然后从直方图两端依次选择当前误差最小的划分点，并形成新的子集集合。从算法中可以看出，在每个阶段有五种划分方式，分别为：当前点不划分并继续查找，当前直方图左端桶划入B^l集合中，左端桶划入B^l的最右端子集中，右端桶划入B^r集合中，右端桶划入B^r最左端集合中。当遍历完直方图中的所有桶时，即表明划分结束。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

本发明中的图映射优化方法可以保留更多的边信息，降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。

附图说明

图1(a)、(b)和(c)是本发明满足节点差分隐私的度分布直方图发布方法的相关示意图之一。

图2是本发明满足节点差分隐私的度分布直方图发布方法的相关示意图之二。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在本发明中，通过采用加边的顺序进行图映射。首先构建一个只包含图G中所有节点而没有任何连接边的图G_θ，然后在保证图G_θ中所有节点的度都不大于θ的前提下按照一定的顺序依次在图G_θ中加入图G的边。在进行图映射之前，需要构造一个相对稳定的边集，用Γ(G)来表示。给定两个仅有一个节点不同，其他结构都相同的相邻图G＝(V，E)和G′＝(V′，E′)。如果同时出现在G＝(V，E)和G′＝(V′，E′)中的两条边e_i和e_j，它们在边集Γ(G)和Γ(G′)中的相对顺序是一致的，即如果在边集Γ(G)中，边e_i在e_j之前，那么在边集Γ(G′)中，边e_i也在e_j之前，则称图的边集顺序Γ(G)是稳定的。

实际上在加边的过程中，边的先后顺序会对最终构建的图G_θ能够保留下来的边集大小产生很大影响响。例如，在图中展示了两种加边策略。图(a)为事先给定了边顺序的原图。当θ＝1时，如果按照[1，2，3，4，5，6，7]的边排列顺序进行加边操作，则能保留的边数量为2，如图(b)所示。而如果按照[1，7，4，3，5，6，2]的顺序进行加边操作时，保留的边数量则为3，如图(c)所示。因而，不同的加边顺序会导致最终保留的边数量存在差异。

在进行图映射的过程中，可以得到以下观察：1)对于原图G中两个度都小于_的节点，如果它们之间存在相邻边，则无论采用何种加边顺序，该条边都能在图映射后被保留。2)相比较度数较大的节点，度数较小的节点更容易在映射后度数发生变化，这是因为度数较大的节点具有更多的连接边可供选择，因而其度数改变的概率越小。例如当一个度数较小的节点v_i和一个度数远大于θ的节点v_j之间有连接边时，由于节点v_j有其他更多的连接边以供选择，来确保其度数不受改变，就有比较大的概率会舍弃与v_i的连接边，因而造成v_i的度数发生改变。

基于以上观察，提出基于边所对应节点的度数进行优先级排序，节点度数之和越小，则优先级越高。具体排序过程如图所示，其中节点a的度为1，节点的度为3，节点c的度为2，节点d的度为4，节点e的度为2，节点f的度为2。根据每条边相邻的两个节点的度来计算该边的顺序时，可能出现两条边的节点度之和相同。如边1和边7的左右节点度之和都为4，这个时候优先考虑度最小的节点相连接的边，deg(a)＝1，deg(b)＝3，deg(e)＝2，deg(f)＝2，因为节点a的度最小，因此与节点a相连的边1的顺序在边7之前。因此边集的顺序是[1，7，4，3，5，6，2]，此时可以保留如图中所示的3条边。

算法1中展示了顺序加边映射方法P_θ。首先根据图G中每条边对应节点度的升序进行排序，得到稳定的边集序列Γ(G)。然后构造一个包含图G中所有节点但不包含任何连接边的图G_θ，因而在初始阶段图G_θ中所有节点的度都为0。再依次遍历边集Γ(G)中的每条边e＝(u，v)，如果在图G_θ中加入边e后节点u和v的度数都不会超过θ，则将边e加入图G_θ中，否则舍弃边e。顺序加边映射算法通过对边排序后依次加边的方式进行图映射操作，给定原始图G＝(V，E)，对边的排序操作的时间复杂度为0(|E|log(|E|))，加边过程的时间复杂度为0(|E|)，因此算法1的时间复杂度为0(|E|log(|E|))。

直方图是数据库系统中常用的数据统计汇总的有效方式，通过采用一组不等高度的桶来有效显示统计信息，其中每个桶表示相应查询范围内的统计情况。例如对于数据图G中存在的某一统计属Att，则Att的任一属性值a∈Att的个数记为count(a)。属性值对应的计数值是直方图的频数，直方图则可以看做该属性的频数值序列，记为H＝{h₁，h₂，...，h_n)，其中h_i＝coun(a_i)。如图3-2所示，根据原始图中各个节点度数情况，可以得到右侧的节点度数分布直方图，比如度数为2的节点个数为4，分别为节点{a，c，h，i}。这样即可将数据图中的某个属性统计信息映射为相应的直方图分布，从而进行相应的信息查询。

对给定直方图进行范围查询时，为了保证数据的隐私不被泄漏，通常采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果。对于节点度分布，根据引理2可知，如果从图中移除(或者添加)一个节点和其相邻的边，发布直方图的全局敏感度为查询结果中可能发生的最大变化，在此处为2θ+1。然后需要向直方图的每个桶的频数添加大小为的拉普拉斯噪声，以覆盖图中任意节点的增删带来的影响。

直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。考虑到拉普拉斯噪声的零均值和加性特征，最直接的方式是通过合并直方图中的相邻桶来减轻随机噪声对直方图发布准确度的影响。在现有的方法中，大多需要先确定直方图中要划分的子集的个数k，k＝1时数值放入一个子集中，然后用频数和的平均值来代替每个桶的频数值。此时中和的噪声最多，即噪声误差很小，但是对原数据的改变很大。当k＝n时，保持原始直方图，但噪声误差最高。因此，如何设计一个最佳的划分策略，有效地平衡数据的噪声误差和失真程度，需要设置k的值，因此需要较高的复杂度和更多的隐私预算。在本发明中提出一种简单的直方图划分算法，通过从直方图两端依次选择当前误差最小的桶合并方式来完成直方图子集的划分。

所以划分策略B对H的误差为：

进一步证明：

划分之后的直方图能够比较准确地响应范围计数查询，但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看，划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构，范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高，因为前者降低了满足差分隐私所需的噪声量级。因此本文的算法在注入随机噪声后确定柱状图结构，如算法2所示，分两步进行：第一步，首先遵循差分隐私的标准解，向直方图的每个桶注入满足拉普拉斯机制的噪声，得到加噪直方图，使得度分布直方图满足差分隐私。第二步，寻找划分策略B＝{B₁,B₂,...,B_k}，使得加噪直方图的误差最小，其中1≤k≤n。开始阶段将所有桶合并为一个大桶，即k＝1，然后从直方图两端依次选择当前误差最小的划分点，并形成新的子集集合。从算法中可以看出，在每个阶段有五种划分方式，分别为：当前点不划分并继续查找，当前直方图左端桶划入B^l集合中，左端桶划入B^l的最右端子集中，右端桶划入B^r集合中，右端桶划入B^r最左端集合中。当遍历完直方图中的所有桶时，即表明划分结束。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种满足节点差分隐私的度分布直方图发布方法，其特征在于，包括：通过采用加边的顺序进行图映射。

顺序加边映射方法P_θ。

所以划分策略B对H的误差为：

进一步证明：

2.如权利要求1所述的满足节点差分隐私的度分布直方图发布方法，其特征在于，“通过采用加边的顺序进行图映射。”具有包括：首先构建一个只包含图G中所有节点而没有任何连接边的图G_θ，然后在保证图G_θ中所有节点的度都不大于θ的前提下按照一定的顺序依次在图G_θ中加入图G的边。在进行图映射之前，需要构造一个相对稳定的边集，用Γ(G)来表示。给定两个仅有一个节点不同，其他结构都相同的相邻图G＝(V，E)和G′＝(V′，E′)。如果同时出现在G＝(V，E)和G′＝(V′，E′)中的两条边e_i和e_j，它们在边集Γ(G)和Γ(G′)中的相对顺序是一致的，即如果在边集Γ(G)中，边e_i在e_j之前，那么在边集Γ(G′)中，边e_i也在e_j之前，则称图的边集顺序Γ(G)是稳定的。

3.如权利要求1所述的满足节点差分隐私的度分布直方图发布方法，其特征在于，“顺序加边映射方法P_θ。”包括：首先根据图G中每条边对应节点度的升序进行排序，得到稳定的边集序列Γ(G)。然后构造一个包含图G中所有节点但不包含任何连接边的图G_θ，因而在初始阶段图G_θ中所有节点的度都为0。再依次遍历边集Γ(G)中的每条边e＝(u，v)，如果在图G_θ中加入边e后节点u和v的度数都不会超过θ，则将边e加入图G_θ中，否则舍弃边e。顺序加边映射算法通过对边排序后依次加边的方式进行图映射操作，给定原始图G＝(V，E)。

4.如权利要求1所述的满足节点差分隐私的度分布直方图发布方法，其特征在于，在注入随机噪声后确定柱状图结构，分两步进行：第一步，首先遵循差分隐私的标准解，向直方图的每个桶注入满足拉普拉斯机制的噪声，得到加噪直方图，使得度分布直方图满足差分隐私。第二步，寻找划分策略B＝{B₁,B₂,...,B_k}，使得加噪直方图的误差最小，其中1≤k≤n。开始阶段将所有桶合并为一个大桶，即k＝1，然后从直方图两端依次选择当前误差最小的划分点，并形成新的子集集合。从算法中可以看出，在每个阶段有五种划分方式，分别为：当前点不划分并继续查找，当前直方图左端桶划入B^l集合中，左端桶划入B^l的最右端子集中，右端桶划入B^r集合中，右端桶划入B^r最左端集合中。当遍历完直方图中的所有桶时，即表明划分结束。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到4任一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到4任一项所述方法的步骤。

7.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到4任一项所述的方法。