CN112417507B - 一种基于隐私保护的大型图的节点三角形计数的发布方法 - Google Patents

一种基于隐私保护的大型图的节点三角形计数的发布方法 Download PDF

Info

Publication number
CN112417507B
CN112417507B CN202011403573.0A CN202011403573A CN112417507B CN 112417507 B CN112417507 B CN 112417507B CN 202011403573 A CN202011403573 A CN 202011403573A CN 112417507 B CN112417507 B CN 112417507B
Authority
CN
China
Prior art keywords
node
triangle
graph
distribution histogram
triangles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011403573.0A
Other languages
English (en)
Other versions
CN112417507A (zh
Inventor
刘文芬
徐抢
刘碧霞
韦永壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202011403573.0A priority Critical patent/CN112417507B/zh
Publication of CN112417507A publication Critical patent/CN112417507A/zh
Application granted granted Critical
Publication of CN112417507B publication Critical patent/CN112417507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于隐私保护的大型图的节点三角形计数的发布方法,该方法包括:选定原始图G,使用三角计数算法统计所述原始图G中每个节点的三角形参数,获取第一分布直方图;使用三角计数算法统计所述预处理后图形Gθ中每个节点的三角形参数,获取第二分布直方图;通过对所述数据桶添加拉普拉斯噪声保护节点的三角形计数相关数据在发布过程中的隐私泄露问题。本发明通过某些预处理手段,对不必要的边进行删减,将图的敏感度上限控制在一定范围之内,并选取更优的直方图发布方法,可以大大降低满足差分隐私所需要添加的噪声量,从而在发布数据的隐私性和可用性之间取得最优的平衡。

Description

一种基于隐私保护的大型图的节点三角形计数的发布方法
技术领域
本发明涉及差分隐私技术领域,尤其涉及一种基于隐私保护的大型图的节点三角形计数的发布方法。
背景技术
“差分隐私”的概念最早是由Dwork等人在2006年提出,其定义可以简单描述为:若有两个最多只相差一条记录的相邻数据集,攻击者同时对这两个相邻数据集进行查询,所得到的查询结果也无法跟踪到这条记录。Dwork同样提出实现差分隐私的具体方法:加入满足服从拉普拉斯分布的噪声即可实现差分隐私。此后,又有学者提出指数机制,相较于拉普拉斯机制,它可以在同样的隐私预算设置下提供更大数量的查询,但与此同时也会带来更大的计算复杂度和更长的计算时间。
“三角个数”是指图中有多少个三角形,它是研究社交网络模型的重要角色,其广泛应用于角色识别、社区发现和垃圾邮件检测等领域。当发布三角计数结果时,同样会带来用户的隐私问题。现有的三角计算和节点计数的组合查询对图的处理和加噪仍是都是直接删边和直接加噪,因此累积噪声过大,查询结果的可用性较差,并不是一种理想的方案。
发明内容
本发明提供一种基于隐私保护的大型图的节点三角形计数的发布方法,有助于发布大型图的节点三角个数而不会造成隐私泄露。
本发明提供了一种基于隐私保护的大型图的节点三角形计数的发布方法,该方法包括:
选定原始图G,使用三角计数算法统计所述原始图G中每个节点的三角形个数,获取第一分布直方图;
观察所述第一分布直方图服从长尾分布,确定阈值θ;
对所述原始图G中节点的三角个数超过所述阈值θ的节点进行删边,获取预处理后图形Gθ
使用三角计数算法统计所述预处理后图形Gθ中每个节点的三角形个数,获取第二分布直方图;
使用层次聚类算法对所述第二分布直方图的数据桶进行分组,考虑全局最优解,选取总误差最小的分组作为最终分组;
对所述最终分组内桶的值的和添加拉普拉斯噪声,然后平均分配给组内每个桶。
可选的,所述第一分布直方图是所述原始图G的节点三角形个数分布直方图。
可选的,所述第二分布直方图是所述预处理后图形Gθ的节点三角形个数分布直方图。
可选的,对所述原始图G中节点的三角个数超过所述阈值θ的节点进行删边的步骤,包括:
定义三个空集合Tri(G),Deg(G),Neighbor(vi);
遍历所述原始图G的每一个节点,统计每个节点所连接的三角形个数,度和邻节点,分别记入集合Tri(G),Deg(G),Neighbor(vi);
对任一节点vi,如果vi所连接的三角形个数大于阈值θ在其邻节点集Neighbor(vi)中找度最大的邻节点,然后删除与该节点的连边。将此邻节点添加到集合Link(vi);
更新节点vi的所连接的三角形个数,与阈值θ比较,
如三角形个数大于阈值θ,继续执行步骤S23;
如三角形个数小于或等于阈值θ,进入下一步;
更新所述原始图G的节点三角形个数分集合Tri(G)。
可选的,所述预处理后图形Gθ的图形数据Tri(Gθ)满足阈值θ要求。
实施本发明,具有如下有益效果:
本发明通过某些预处理手段,对不必要的边进行删减,将图的敏感度上限控制在一定范围之内并且能够保留原始图G中更多的三角形,并选取更优的直方图发布方法,可以大大降低满足差分隐私所需要添加的噪声量,从而在发布数据的隐私性和可用性之间取得最优的平衡。
附图说明
为了更清楚地说明本发明技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于隐私保护的大型图的节点三角形计数的发布方法的步骤示意图。
图2是本发明提供的基于隐私保护的大型图的节点三角形计数的发布方法的流程示意图。
图3是本发明与传统点三角形计数的发布方法的l1误差。
图4是本发明与传统点三角形计数的发布方法的KS误差。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一种基于隐私保护的大型图的节点三角形计数的发布方法的步骤示意图。如图1所示,本发明的发布方法可包括以下步骤:
S1:选定原始图G,使用三角计数算法统计所述原始图G中每个节点的三角形参数,获取第一分布直方图;
S2:观察所述第一分布直方图服从长尾分布,确定阈值θ;
S3:对所述原始图G中节点的三角个数超过所述阈值θ的节点进行删边,获取预处理后图形Gθ
S4:使用三角计数算法统计所述预处理后图形Gθ中每个节点的三角形参数,获取第二分布直方图;
S5:使用层次聚类算法对所述第二分布直方图的数据桶进行分组,考虑全局最优解,选取总误差最小的分组作为最终分组;
S6:对所述最终分组内桶的值的和添加拉普拉斯噪声,然后平均分配给组内每个桶。
具体的,本发明的发布方法分为预处理过程和直方图分组加噪过程,预处理过程包括上述步骤中的S1至S3,直方图分组加噪过程包括上述步骤中的S4至S6,操作流程可参见图2。
进一步地,所述图形数据预处理步骤为:
S21:首先定义三个集合Tri(G),Deg(G),Neighbor(vi),初始化为空集。
S22:遍历所述原始图G的每一个节点,统计每个节点所连接的三角形个数,度和邻节点,分别记入集合Tri(G),Deg(G),Neighbor(vi)。
S23:对所述原始图G中的每一节点,如果节点所连接的三角形个数大于阈值θ,那么删掉该节点的若干条边使其三角个数满座阈值要求:
S231:对任一节点vi,如果vi所连接的三角形个数大于阈值θ在其邻节点集Neighbor(vi)中找度最大的邻节点,然后删除与该节点的连边。将此邻节点添加到集合Link(vi);
S232:更新节点vi的所连接的三角形个数。如果三角形个数仍大于阈值θ,继续上一步骤S231,如果小于或等于阈值θ,执行步骤S233;
S233:更新所述原始图G的节点三角形个数分集合Tri(G),如果Link(vi)中有两个节点相邻,那么将这两个节点的三角个数分别加一。
S24:得到满足阈值θ要求的图形数据Tri(Gθ)。
进一步地,直方图分组加噪过程为对所述第二分布直方图的数据处理过程,具体过程如下:
S31:先用所述预处理后图形Gθ每个节点的三角形个数集合Tri(Gθ)绘制节点的三角形个数分布直方图H={H1,H2,...,Hθ+1},横坐标为节点拥有的三角形个数,具体为0,1,2,...,θ,纵坐标拥有该数量三角形的节点个数。
S32:层次聚类簇个数k∈[1,θ+1],循环使用层次聚类算法,找到令分组误差最小的聚类簇个数k,将节点的三角形个数分布直方图H={H1,H2,...,Hθ+1}分成k个簇具体过程如下:
S321:对于任意的聚类簇数k∈[1,θ+1],开始进行层次聚类:
S3211:将集合H={H1,H2,...,Hθ+1}中的每个桶初始化为一个簇,并放入集合中得到/>计算/>中任意两个簇Ci与Cj之间的距离dist(x,z)表示的是x与z这两个桶的欧式距离,并存到簇的距离矩阵M中,Mij表示簇Ci与Cj之间的距离。
S3212:设置当前聚类数目q=θ+1
S3213:当q大于k(k是我们想要划分的簇个数)时执行如下步骤:
a.找到距离最近的两个集合Ci和Cj,将Ci和Cj合并。并赋值给Ci
b.在集合C中将Cj删除,更新Cj+1到Cq的下标。
c.删除M的第j行和第j列。更新M的第i行和第i列。
d.更新q的值为q-1,返回到S3213
S3214:返回当前聚类集合
S3215:计算每一个簇Ci的均值对于簇Ci,其本身具有的误差为/>其中/>为近似误差,/>为拉普拉斯误差。
S3216:计算此划分的总误差将总误差放入数组ERR中。
S322:从总误差数组ERR中最小值找到对应的层次聚类分组方式作为最终分组。
S33:对分组的每个组Ci中桶的和/>添加拉普拉斯噪声然后平均分配给Ci中的每一个桶得到/>最后得到加噪后分布直方图/>
实验效果用l 1误差和KS距离来度量,参见图3和图4,横坐标代表隐私预算,纵坐标代表l 1误差和KS距离,越小表示数据的可用性越好。显然本发明的图数据发布方式(图例为c l uster dp)在相同的隐私预算下数据可用性更好。
本发明通过对图形数据预处理和对节点的三角形个数分布直方图进行加噪来保护节点的三角形计数相关数据在发布过程中的隐私泄露问题。
上述实例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于隐私保护的大型图的节点三角形计数的发布方法,其特征在于,包括下列步骤:
选定原始图G,使用三角计数算法统计所述原始图G中每个节点的三角形个数,获取第一分布直方图;
观察所述第一分布直方图服从长尾分布,确定阈值θ;
对所述原始图G中节点的三角个数超过所述阈值θ的节点进行删边,获取预处理后图形Gθ
使用三角计数算法统计所述预处理后图形Gθ中每个节点的三角形个数,获取第二分布直方图;
使用层次聚类算法对所述第二分布直方图的数据桶进行分组,考虑全局最优解,选取总误差最小的分组作为最终分组;
对所述最终分组内桶的值的和添加拉普拉斯噪声,然后平均分配给组内每个桶。
2.根据权利要求1所述的基于隐私保护的大型图的节点三角形计数的发布方法,其特征在于,所述第一分布直方图是所述原始图G的节点三角形个数分布直方图。
3.根据权利要求1所述的基于隐私保护的大型图的节点三角形计数的发布方法,其特征在于,所述第二分布直方图是所述预处理后图形Gθ的节点三角形个数分布直方图。
4.根据权利要求1所述的基于隐私保护的大型图的节点三角形计数的发布方法,其特征在于,所述三角计数算法统计每个节点的三角形参数为每个节点所连接的三角形个数,度和邻节点。
CN202011403573.0A 2020-12-02 2020-12-02 一种基于隐私保护的大型图的节点三角形计数的发布方法 Active CN112417507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011403573.0A CN112417507B (zh) 2020-12-02 2020-12-02 一种基于隐私保护的大型图的节点三角形计数的发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011403573.0A CN112417507B (zh) 2020-12-02 2020-12-02 一种基于隐私保护的大型图的节点三角形计数的发布方法

Publications (2)

Publication Number Publication Date
CN112417507A CN112417507A (zh) 2021-02-26
CN112417507B true CN112417507B (zh) 2024-04-02

Family

ID=74830302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011403573.0A Active CN112417507B (zh) 2020-12-02 2020-12-02 一种基于隐私保护的大型图的节点三角形计数的发布方法

Country Status (1)

Country Link
CN (1) CN112417507B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516199B (zh) * 2021-07-30 2022-07-15 山西清众科技股份有限公司 一种基于差分隐私的图像数据生成方法
CN115114664B (zh) * 2022-06-24 2023-05-23 浙江大学 一种面向图数据的差分隐私保护发布方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344643A (zh) * 2018-09-03 2019-02-15 华中科技大学 一种面向图中三角形数据发布的隐私保护方法及系统
EP3671611A1 (en) * 2018-12-17 2020-06-24 Mobile Payments&Loyalty, S.L. Method for establishing user-controlled privacy settings in payment systems according to data parameters defined as metrics of an algorithmic specification for their computation
CN111598765A (zh) * 2020-05-09 2020-08-28 绍兴聚量数据技术有限公司 基于同态加密域的三维模型鲁棒水印方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102175167B1 (ko) * 2018-05-09 2020-11-05 서강대학교 산학협력단 K-평균 클러스터링 기반의 데이터 마이닝 시스템 및 이를 이용한 k-평균 클러스터링 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344643A (zh) * 2018-09-03 2019-02-15 华中科技大学 一种面向图中三角形数据发布的隐私保护方法及系统
EP3671611A1 (en) * 2018-12-17 2020-06-24 Mobile Payments&Loyalty, S.L. Method for establishing user-controlled privacy settings in payment systems according to data parameters defined as metrics of an algorithmic specification for their computation
CN111598765A (zh) * 2020-05-09 2020-08-28 绍兴聚量数据技术有限公司 基于同态加密域的三维模型鲁棒水印方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于差分隐私的非等距直方图发布方法;杨磊;郑啸;赵伟;;网络与信息安全学报(03) *

Also Published As

Publication number Publication date
CN112417507A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112417507B (zh) 一种基于隐私保护的大型图的节点三角形计数的发布方法
WO2021232467A1 (zh) 点云单木分割方法、装置、设备及计算机可读介质
CN105069039B (zh) 一种基于spark平台的内存迭代的重叠社区并行发现方法
CN111507415B (zh) 一种基于分布密度的多源大气数据聚类方法
CN108320293A (zh) 一种结合改进粒子群算法的快速点云边界提取技术
CN102571431B (zh) 针对复杂网络的基于群思想改进的Fast-Newman聚类方法
CN110222747B (zh) 一种优化的聚类方法
CN115222625A (zh) 一种基于多尺度噪声的激光雷达点云去噪方法
CN106845536B (zh) 一种基于图像缩放的并行聚类方法
CN115049925A (zh) 田块田坎提取方法、电子设备及存储介质
CN109344643B (zh) 一种面向图中三角形数据发布的隐私保护方法及系统
CN112199722A (zh) 一种基于K-means的差分隐私保护聚类方法
CN113128617B (zh) 基于Spark和ASPSO的并行化K-means的优化方法
CN110750730A (zh) 基于时空约束的群体检测方法和系统
CN110781943A (zh) 一种基于毗邻网格搜索的聚类方法
WO2019184325A1 (zh) 基于平均互信息的社区划分质量评价方法及系统
CN113610170A (zh) 一种基于时序网络社团检测的影响力最大化方法
CN108510010A (zh) 一种基于预筛选的密度峰值聚类方法及系统
CN108897820B (zh) 一种denclue算法的并行化方法
CN113537308B (zh) 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN113704787B (zh) 一种基于差分隐私的隐私保护聚类方法
CN114662012A (zh) 一种面向基因调控网络的社区查询分析方法
CN111986223B (zh) 一种基于能量函数的室外点云场景中树木提取方法
CN111369052B (zh) 简化路网ksp优化算法
CN113407669A (zh) 一种基于活动影响力的语义轨迹查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant