CN115114664A

CN115114664A - 一种面向图数据的差分隐私保护发布方法及系统

Info

Publication number: CN115114664A
Application number: CN202210782301.9A
Authority: CN
Inventors: 孙铭阳; 袁泉; 杜林康; 程鹏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-27
Anticipated expiration: 2042-06-24
Also published as: CN115114664B

Abstract

本发明公开了一种面向图数据的差分隐私保护发布方法及系统，本发明首先读取原始图数据，记录节点和连边情况；然后采用满足差分隐私的社区检测方法，对所有的节点进行社区划分，从而避免了直接对表示图的邻接矩阵加噪所带来的过量噪声；针对同一社区内和不同社区间的不同特征，分别提取不同粒度的信息并加噪，有效减少了图编码过程的信息损失；最后针对社区内和社区间提取的不同信息采用不同的重构方法，尽可能的保留图的原始特征；此外，在处理过程中，对添加拉普拉斯噪声后的结果采用了后置处理方法，将不符合实际的数据转变为符合真实图特征的结果。

Description

一种面向图数据的差分隐私保护发布方法及系统

技术领域

本发明涉及数据安全的技术领域，尤其涉及一种面向图数据的差分隐私保护发布方法及系统。

背景技术

工业物联网领域中，传感器网络的传感器彼此之间的通信关系可以用图数据来表示。随着数据多样化的发展，图计算已经成为一个重要的研究方向，对图数据进行分析有助于发挥其数据价值，切实解决现实问题。物联网厂商通过对多个传感器之间的连接来进行数据融合，从而弥补单传感器的缺陷，提高数据分析精度。但与此同时，直接发布一个真实的工业物联网传感器图数据往往会泄露隐私信息，因此，对真实图数据扰动后再发布，从而保证隐私数据的安全是一个值得深入研究的问题。

在保护数据隐私的同时分析图数据的一种经典方法是匿名化技术，它会去除节点的一些识别信息。然而当攻击者具有一定的背景知识或者辅助信息时，他们很容易就可以完成去匿名化的操作。

为了克服匿名化保护技术的缺点，差分隐私技术被应用于保护图数据。差分隐私的核心思想是保证单个节点或者单条边对最终输出的影响有限。目前，面向图数据的差分隐私发布方法要么是对代表整个图的邻接矩阵进行加噪，要么是对图进行编码，在编码过程中添加噪声再进行重构。前者由于对整个邻接矩阵进行处理，因此很容易引入过量的噪声，从而导致数据可用性的降低，后者在编码的过程中并不能很好的保存原始图的特征信息，会产生严重的信息损失，从而使得重构的图不够精确。

发明内容

本发明的目的在于针对现有技术要么引入过量噪声要么产生严重的信息损失的不足，提出一种基于社区信息的图数据差分隐私保护发布方法及系统。

本发明主要通过以下两种途径来克服现有技术的不足：一方面，通过同一社区内节点往往聚集在一起的特点，设计满足差分隐私的社区检测方法对节点进行社区划分避免了过量的噪声；另一方面，基于社区内和社区间的不同特点分别提取信息并加噪，有效降低了信息损失，从而实现了扰动强度与信息损失之间的平衡。

本发明的目的是通过以下技术方案来实现的：

本发明一方面公开了一种面向图数据的差分隐私保护发布方法，该方法包括：

步骤一，获取原始的真实图数据，记录初始节点信息和连边信息；

步骤二，通过采用指数噪声机制和拉普拉斯噪声机制，结合社区检测算法对节点进行社区划分，此过程分配的隐私预算为ε₁，包括以下子步骤：

2.1通过指数噪声机制对节点进行初始的社区划分，此过程分配的隐私预算为ε_c；

2.2通过合并在同一社区的节点形成一个超节点图，采用拉普拉斯机制对超节点图进行加噪并进行后向处理，得到扰动后的超节点图，此过程分配的隐私预算为ε_w＝ε₁-ε_c；

2.3对扰动的超节点图采用社区检测算法进行进一步的社区划分；

2.4基于超节点和原始节点的对应关系和所有超节点的社区划分情况，得到原始节点的最终社区划分情况；

步骤三，对分组后的节点分别进行社区内和社区间的信息提取，并采用拉普拉斯噪声机制对提取信息进行扰动，此过程分配的隐私预算为ε₂＝ε-ε₁，ε是总的隐私预算，包括以下子步骤：

3.1提取同一社区内节点的度序列信息，采用拉普拉斯机制对其进行加噪并进行后向处理，此过程分配的隐私预算为ε_d；

3.2提取不同社区间的连边信息，采用拉普拉斯机制对其进行加噪并进行后向处理，此过程分配的隐私预算为ε_v＝ε₂-ε_d；

步骤四，根据扰动得到的信息重构图数据，并将结果进行发布，包括以下子步骤：

4.1对于同一社区内的节点，通过步骤三得到的度序列信息计算出节点之间的连边概率，通过产生随机数的形式确定社区内的最终连边；

4.2对于不同社区间的节点，通过步骤三得到的连边信息，在社区之间随机产生对应数量的边，从而确定不同社区之间的最终连边；

4.3将同一社区内和不同社区间的连边情况进行合并，得到最终的合成图数据。

进一步地，所述步骤2.1中，采用的社区划分具体步骤为：

a)初始化，将所有节点随机分为k个社区，k为预设值；

b)以随机的方式遍历图的每个节点，计算每个节点到所有社区的连边数量并将其作为指数噪声机制的可用性函数，通过指数噪声机制选择被遍历节点的社区；

c)对图节点的遍历进行T次，从而得到节点的初始社区划分情况。

进一步地，所述步骤2.2中，合并节点为超节点并对其进行处理，具体步骤为：

a)将在同一个社区内的节点合并为一个超节点，同一社区内节点的度数之和为超节点的内部权重，不同社区间的节点连边之和为不同超节点之间的外部权重；

b)对超节点的内部权重和外部权重分别采用拉普拉斯机制添加噪声进行扰动；

c)对扰动后的内部权重和外部权重分别进行后向处理，即向扰动后的权重同时减去一个整数并将所有负值置0，使得处理后的权重之和与初始权重之和的差值最小。

进一步地，所述步骤2.3中，对超节点图进行社区检测处理，具体步骤为：

a)每个超节点初始化为一个社区；

b)以随机的方式遍历每个超节点，计算每个超节点移动到邻居超节点的对应社区所带来的模块度的变化，模块度的定义Q：

其中∑in代表社区C内部的权重之和，∑tot代表社区C内所有节点的权重总和，即内部权重与外部权重的总和，2代表整个图的权重总和；

将一个孤立的超节点移动到一个社区的模块度变化值ΔQ：

其中k_n代表与超节点n相连的边的权重之和，k_n,in代表超节点n到属于社区C的超节点的连边的权重之和；

每次遍历时，如果模块度增益大于0，则选择将超节点移动到模块度增益最大的社区；

c)不断循环b)过程，直到遍历所有的超节点的过程中没有超节点有所属社区移动的情况或者上一次遍历得到的模块度与此次遍历得到的模块度的差值小于设定阈值θ₁时停止；

d)将在同一个社区内部的超节点合并为一个新的超节点，得到一个新的超节点图，继续循环a)、b)、c)过程，直至前后两次合并超节点时的模块度的差值小于设定阈值θ₂时停止。

进一步地，所述步骤2.4中，获取原始节点最终的社区划分情况，具体为：根据超节点图的社区划分情况，结合原始节点与超节点的对应情况，得到原始节点最终的社区划分情况。

进一步地，所述步骤3.1中，对同一社区内的节点提取信息并扰动，具体步骤为：

a)获取同一社区内节点在该社区内部的度序列信息；

b)向度序列信息添加拉普拉斯噪声；

c)对扰动后的结果进行后向处理，即向扰动后的度序列同时减去一个整数并将所有负值置0，使得处理后的度序列之和与初始度序列之和的差值最小。

进一步地，所述步骤3.2中，对不同社区间的节点提取信息并扰动，具体步骤为：

a)获取不同社区内节点之间的连边情况，将两个社区间所有节点之间的连边数相加，进而得到所有不同社区间的连边数量信息；

b)向不同社区间的连边数量添加拉普拉斯噪声；

c)对扰动后的结果进行后向处理，即向扰动后的结果同时减去一个整数并将所有负值置0，使得处理后的结果之和与初始结果之和的差值最小。

进一步地，所述步骤4.1中，重构同一社区内部的连边，具体步骤为：

a)根据同一社区内所有节点扰动后的度序列信息，计算出任意两个节点u和w之间的连接概率p_u,w：

其中

表示节点u在社区C内的扰动度，

表示节点w在社区C内的扰动度，

表示社区C内所有节点扰动后的度序列之和；

b)根据a)计算得到的概率，通过随机产生一个0到1之间的数，比较其与连接概率的大小，若随机数小于或等于连边概率，则两个节点之间有连边，若随机数大于连边概率，则两个节点之间无连边。

进一步地，所述步骤4.2中，重构不同社区之间的连边，具体为在两个社区之间分别随机挑选一个节点，从而形成连边，随机挑选的次数为不同社区之间的连边数量。

本发明另一方面公开了一种面向图数据的差分隐私保护发布系统，该系统包括：

数据读取模块：读取原始图数据，记录初始节点信息和连边信息；

社区划分模块：基于指数噪声机制进行初始社区划分构建超节点图；基于拉普拉斯噪声机制对超节点图进行加噪并进行后向处理；基于以最大化模块度为目标的社区划分算法对超节点图进行社区划分，进而得到所有节点最终的社区划分情况；

信息提取模块：针对同一社区内的节点，提取各节点的度序列信息，基于拉普拉斯噪声机制对度序列进行扰动并进行后向处理；针对不同社区间的节点，提取两个社区间的连边数量信息，基于拉普拉斯噪声机制对连边数量进行扰动并进行后向处理；

图重构模块：针对同一社区内的节点，基于提取的度序列信息计算不同节点之间的连边概率，通过产生随机数的方法确定最终社区内的连边；针对不同社区间的节点，基于提取的连边数量信息在社区间随机挑选节点对，确定最终社区间的连边；将同一社区内的连边结果和不同社区间的连边结果进行合并，得到最终的图数据。

本发明的有益效果如下：

1.在满足差分隐私的前提下对图节点进行社区划分，避免了直接对邻接矩阵操作而引入过量噪声；

2.针对同一社区内节点和不同社区间节点的特点，分别提取和扰动不同粒度的信息，进而有效降低了图编码过程中的信息损失；

3.根据提取的不同粒度的信息，分别采用不同的方法对社区内和社区间的连边进行重构，有效保证了合成图与原始图结构的相似性；

4.设计了一种基于社区信息的面向图数据的差分隐私发布方法，在保护原始图数据的同时尽可能提高了合成图数据的可用性。

附图说明

图1为本发明实施例提供的一种面向图数据的差分隐私保护发布方法流程图；

图2为本发明实施例提供的一个工业物联网传感器无向无权图示例；

图3为本发明实施例提供的社区划分实现框图；

图4本发明实施例提供的基于图2生成的社区划分示意图；

图5为本发明实施例提供的信息提取实现框图；

图6为本发明实施例提供的图重构实现框图；

图7为本发明实施例提供的基于图2生成的合成图示例；

图8为本发明实施例提供的一种面向图数据的差分隐私保护发布系统结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本实施例提供的一种面向图数据的差分隐私保护发布方法，步骤如下：

步骤一，获取原始的真实工业物联网传感器图数据，例如输入图2所示的图数据，记录初始节点信息和节点之间的连边信息，每个节点代表一个传感器，节点之间的连边代表两个传感器之间是否有通信关系，图2所示的工业物联网传感器网络中包含21个传感器节点和22条边，其中圆圈表示节点，圆圈之间的连线表示边；

步骤二，通过采用指数噪声机制和拉普拉斯噪声机制，结合社区检测算法对节点进行社区划分，此过程分配的隐私预算为ε₁，包括以下子步骤:

2.1通过指数噪声机制对节点进行初始的社区划分，此过程分配的隐私预算为ε_c，例如设置ε_c＝0.5ε₁,；

2.4基于超节点和原始节点的对应关系和所有超节点的社区划分情况，得到原始节点的最终社区划分情况，实现方式如图3所示，实现结果如图4所示，原始传感器节点被划分为了4个社区；

具体实现细节如下：

a)对原始节点进行初始的社区划分时，首先将所有节点随机分为k个社区，k为预设值，然后通过随机的方式遍历图的各个节点，计算各节点到所有社区的连边数量并将其作为指数噪声机制的可用性函数，利用指数噪声机制选择被遍历节点的社区，对图的所有节点遍历T次，例如设置T＝5，从而得到节点的初始社区划分情况。

b)基于节点的初始社区划分情况进行合成超节点图时，将在同一社区内的节点合并为一个超节点，将同一社区内节点的度数之和作为超节点的内部权重，将不同社区间的节点连边之和作为超节点之间的外部权重，从而对超节点的内部权重和外部权重分别添加拉普拉斯噪声进行扰动，其中超节点的内部权重的全局敏感度为2，外部权重的全局敏感度为1，由于扰动后的权重值可能为出现负数的情况，因此对内部权重和外部权重分别进行后向处理，即向扰动后的权重值同时减去一个整数并且将所有的负值置为0，使得处理后的权重之和与初始权重之和的差值最小。

c)对超节点进行社区划分时，将每个超节点初始化为一个社区，以随机的方式遍历每个超节点，计算计算每个超节点移动到邻居超节点的对应社区所带来的模块度的变化，模块度的定义Q：

将一个孤立的超节点移动到一个社区的模块度变化值ΔQ：

每次遍历时，如果模块度增益大于0，则选择将超节点移动到模块度增益最大的社区，

不断循环超节点的遍历过程，直到遍历所有的超节点的过程中没有超节点有所属社区移动的情况或者上一次遍历得到的模块度与此次遍历得到的模块度的差值小于设定阈值θ₁时停止，例如设置θ₁＝10^-7，并将在同一个社区内部的超节点合并为一个新的超节点，得到一个新的超节点图，继续循环超节点的遍历和合并过程，直至前后两次合并超节点时的模块度的差值小于设定阈值θ₂时停止，例如设置θ₂＝10^-7。

d)在获取原始节点的最终社区划分情况时，是基于超节点和原始节点的对应关系和所有超节点的社区划分情况来实现的。

3.1提取同一社区内节点的度序列信息，采用拉普拉斯机制对其进行加噪并进行后向处理，此过程分配的隐私预算为ε_d，例如设置ε_d＝0.5ε₂；

3.2提取不同社区间的连边信息，采用拉普拉斯机制对其进行加噪并进行后向处理，此过程分配的隐私预算为ε_v＝ε₂-ε_d，如图5所示；

具体实现细节如下：

a)提取并扰动社区内节点的度序列信息时，首先对同一社区内节点在该社区内部的度序列信息加入拉普拉斯噪声，之后对扰动结果进行后向处理，即向扰动后的度序列减去一个整数并将所有的负值置0，从而使得处理后的度序列之和与原始度序列之和的差值最小。

b)提取并扰动不同社区节点的连边信息时，首先将两个社区之间所有节点之间的连边数相加，得到所有的不同社区之间的连边数量信息，然后向连边数添加拉普拉斯噪声，之后对扰动结果进行后向处理，即向扰动后的结果同时减去一个整数并将所有的负值置0，从而使得处理后的结果之和与初始结果之和的差值最小。

4.3将同一社区内和不同社区间的连边情况进行合并，得到最终的合成图数据，实现方法如图6所示，实现结果如图7所示；

具体实现细节如下：

a)对于重构同一社区内的连边，首先根据同一社区内所有节点扰动后的度序列信息，计算出任意两个节点u和w之间的连接概率p_u,w：

其中

表示节点u在社区C内的扰动度，

表示节点w在社区C内的扰动度，

表示社区C内所有节点的扰动后的度序列之和，通过随机产生一个0到1之间的数，比较其与连接概率的大小，若随机数小于或等于连边概率，则两个节点之间有连边，若随机数大于连边概率，则两个节点之间无连边。

b)对于重构不同社区间的连边，操作方法为在两个社区之间分别随机挑选一个节点，从而形成连边，随机挑选的次数为不同社区之间的连边数量。

本发明另一方面公开了一种面向图数据的差分隐私保护发布系统，如图8所示，该系统包括以下模块：

数据读取模块：读取原始图数据，记录初始节点信息和连边信息；该模块的实现可以参考上述步骤一。

社区划分模块：基于指数噪声机制进行初始社区划分构建超节点图；基于拉普拉斯噪声机制对超节点图进行加噪并进行后向处理；基于以最大化模块度为目标的社区划分算法对超节点图进行社区划分，进而得到所有节点最终的社区划分情况；该模块的实现可以参考上述步骤二。

信息提取模块：针对同一社区内的节点，提取各节点的度序列信息，基于拉普拉斯噪声机制对度序列进行扰动并进行后向处理；针对不同社区间的节点，提取两个社区间的连边数量信息，基于拉普拉斯噪声机制对连边数量进行扰动并进行后向处理；该模块的实现可以参考上述步骤三。

图重构模块：针对同一社区内的节点，基于提取的度序列信息计算不同节点之间的连边概率，通过产生随机数的方法确定最终社区内的连边；针对不同社区间的节点，基于提取的连边数量信息在社区间随机挑选节点对，确定最终社区间的连边；将同一社区内的连边结果和不同社区间的连边结果进行合并，得到最终的图数据。该模块的实现可以参考上述步骤四。

本发明设计了一种面向工业传感器图数据的差分隐私发布算法，通过利用社区信息对图传感器节点进行社区划分，避免引入过量噪声，针对同一社区内和不同社区间节点的不同特点，分别提取信息并扰动，有效降低了图编码过程中的信息损失，在保护原始图数据的同时尽可能提高了合成图数据的可用性。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。