CN115114664A - 一种面向图数据的差分隐私保护发布方法及系统 - Google Patents
一种面向图数据的差分隐私保护发布方法及系统 Download PDFInfo
- Publication number
- CN115114664A CN115114664A CN202210782301.9A CN202210782301A CN115114664A CN 115114664 A CN115114664 A CN 115114664A CN 202210782301 A CN202210782301 A CN 202210782301A CN 115114664 A CN115114664 A CN 115114664A
- Authority
- CN
- China
- Prior art keywords
- community
- nodes
- graph
- node
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims description 40
- 230000008859 change Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 abstract description 4
- 235000019580 granularity Nutrition 0.000 abstract description 3
- 238000012805 post-processing Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Bioethics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向图数据的差分隐私保护发布方法及系统,本发明首先读取原始图数据,记录节点和连边情况;然后采用满足差分隐私的社区检测方法,对所有的节点进行社区划分,从而避免了直接对表示图的邻接矩阵加噪所带来的过量噪声;针对同一社区内和不同社区间的不同特征,分别提取不同粒度的信息并加噪,有效减少了图编码过程的信息损失;最后针对社区内和社区间提取的不同信息采用不同的重构方法,尽可能的保留图的原始特征;此外,在处理过程中,对添加拉普拉斯噪声后的结果采用了后置处理方法,将不符合实际的数据转变为符合真实图特征的结果。
Description
技术领域
本发明涉及数据安全的技术领域,尤其涉及一种面向图数据的差分隐私保护发布方法及系统。
背景技术
工业物联网领域中,传感器网络的传感器彼此之间的通信关系可以用图数据来表示。随着数据多样化的发展,图计算已经成为一个重要的研究方向,对图数据进行分析有助于发挥其数据价值,切实解决现实问题。物联网厂商通过对多个传感器之间的连接来进行数据融合,从而弥补单传感器的缺陷,提高数据分析精度。但与此同时,直接发布一个真实的工业物联网传感器图数据往往会泄露隐私信息,因此,对真实图数据扰动后再发布,从而保证隐私数据的安全是一个值得深入研究的问题。
在保护数据隐私的同时分析图数据的一种经典方法是匿名化技术,它会去除节点的一些识别信息。然而当攻击者具有一定的背景知识或者辅助信息时,他们很容易就可以完成去匿名化的操作。
为了克服匿名化保护技术的缺点,差分隐私技术被应用于保护图数据。差分隐私的核心思想是保证单个节点或者单条边对最终输出的影响有限。目前,面向图数据的差分隐私发布方法要么是对代表整个图的邻接矩阵进行加噪,要么是对图进行编码,在编码过程中添加噪声再进行重构。前者由于对整个邻接矩阵进行处理,因此很容易引入过量的噪声,从而导致数据可用性的降低,后者在编码的过程中并不能很好的保存原始图的特征信息,会产生严重的信息损失,从而使得重构的图不够精确。
发明内容
本发明的目的在于针对现有技术要么引入过量噪声要么产生严重的信息损失的不足,提出一种基于社区信息的图数据差分隐私保护发布方法及系统。
本发明主要通过以下两种途径来克服现有技术的不足:一方面,通过同一社区内节点往往聚集在一起的特点,设计满足差分隐私的社区检测方法对节点进行社区划分避免了过量的噪声;另一方面,基于社区内和社区间的不同特点分别提取信息并加噪,有效降低了信息损失,从而实现了扰动强度与信息损失之间的平衡。
本发明的目的是通过以下技术方案来实现的:
本发明一方面公开了一种面向图数据的差分隐私保护发布方法,该方法包括:
步骤一,获取原始的真实图数据,记录初始节点信息和连边信息;
步骤二,通过采用指数噪声机制和拉普拉斯噪声机制,结合社区检测算法对节点进行社区划分,此过程分配的隐私预算为ε1,包括以下子步骤:
2.1通过指数噪声机制对节点进行初始的社区划分,此过程分配的隐私预算为εc;
2.2通过合并在同一社区的节点形成一个超节点图,采用拉普拉斯机制对超节点图进行加噪并进行后向处理,得到扰动后的超节点图,此过程分配的隐私预算为εw=ε1-εc;
2.3对扰动的超节点图采用社区检测算法进行进一步的社区划分;
2.4基于超节点和原始节点的对应关系和所有超节点的社区划分情况,得到原始节点的最终社区划分情况;
步骤三,对分组后的节点分别进行社区内和社区间的信息提取,并采用拉普拉斯噪声机制对提取信息进行扰动,此过程分配的隐私预算为ε2=ε-ε1,ε是总的隐私预算,包括以下子步骤:
3.1提取同一社区内节点的度序列信息,采用拉普拉斯机制对其进行加噪并进行后向处理,此过程分配的隐私预算为εd;
3.2提取不同社区间的连边信息,采用拉普拉斯机制对其进行加噪并进行后向处理,此过程分配的隐私预算为εv=ε2-εd;
步骤四,根据扰动得到的信息重构图数据,并将结果进行发布,包括以下子步骤:
4.1对于同一社区内的节点,通过步骤三得到的度序列信息计算出节点之间的连边概率,通过产生随机数的形式确定社区内的最终连边;
4.2对于不同社区间的节点,通过步骤三得到的连边信息,在社区之间随机产生对应数量的边,从而确定不同社区之间的最终连边;
4.3将同一社区内和不同社区间的连边情况进行合并,得到最终的合成图数据。
进一步地,所述步骤2.1中,采用的社区划分具体步骤为:
a)初始化,将所有节点随机分为k个社区,k为预设值;
b)以随机的方式遍历图的每个节点,计算每个节点到所有社区的连边数量并将其作为指数噪声机制的可用性函数,通过指数噪声机制选择被遍历节点的社区;
c)对图节点的遍历进行T次,从而得到节点的初始社区划分情况。
进一步地,所述步骤2.2中,合并节点为超节点并对其进行处理,具体步骤为:
a)将在同一个社区内的节点合并为一个超节点,同一社区内节点的度数之和为超节点的内部权重,不同社区间的节点连边之和为不同超节点之间的外部权重;
b)对超节点的内部权重和外部权重分别采用拉普拉斯机制添加噪声进行扰动;
c)对扰动后的内部权重和外部权重分别进行后向处理,即向扰动后的权重同时减去一个整数并将所有负值置0,使得处理后的权重之和与初始权重之和的差值最小。
进一步地,所述步骤2.3中,对超节点图进行社区检测处理,具体步骤为:
a)每个超节点初始化为一个社区;
b)以随机的方式遍历每个超节点,计算每个超节点移动到邻居超节点的对应社区所带来的模块度的变化,模块度的定义Q:
其中∑in代表社区C内部的权重之和,∑tot代表社区C内所有节点的权重总和,即内部权重与外部权重的总和,2代表整个图的权重总和;
将一个孤立的超节点移动到一个社区的模块度变化值ΔQ:
其中kn代表与超节点n相连的边的权重之和,kn,in代表超节点n到属于社区C的超节点的连边的权重之和;
每次遍历时,如果模块度增益大于0,则选择将超节点移动到模块度增益最大的社区;
c)不断循环b)过程,直到遍历所有的超节点的过程中没有超节点有所属社区移动的情况或者上一次遍历得到的模块度与此次遍历得到的模块度的差值小于设定阈值θ1时停止;
d)将在同一个社区内部的超节点合并为一个新的超节点,得到一个新的超节点图,继续循环a)、b)、c)过程,直至前后两次合并超节点时的模块度的差值小于设定阈值θ2时停止。
进一步地,所述步骤2.4中,获取原始节点最终的社区划分情况,具体为:根据超节点图的社区划分情况,结合原始节点与超节点的对应情况,得到原始节点最终的社区划分情况。
进一步地,所述步骤3.1中,对同一社区内的节点提取信息并扰动,具体步骤为:
a)获取同一社区内节点在该社区内部的度序列信息;
b)向度序列信息添加拉普拉斯噪声;
c)对扰动后的结果进行后向处理,即向扰动后的度序列同时减去一个整数并将所有负值置0,使得处理后的度序列之和与初始度序列之和的差值最小。
进一步地,所述步骤3.2中,对不同社区间的节点提取信息并扰动,具体步骤为:
a)获取不同社区内节点之间的连边情况,将两个社区间所有节点之间的连边数相加,进而得到所有不同社区间的连边数量信息;
b)向不同社区间的连边数量添加拉普拉斯噪声;
c)对扰动后的结果进行后向处理,即向扰动后的结果同时减去一个整数并将所有负值置0,使得处理后的结果之和与初始结果之和的差值最小。
进一步地,所述步骤4.1中,重构同一社区内部的连边,具体步骤为:
a)根据同一社区内所有节点扰动后的度序列信息,计算出任意两个节点u和w之间的连接概率pu,w:
b)根据a)计算得到的概率,通过随机产生一个0到1之间的数,比较其与连接概率的大小,若随机数小于或等于连边概率,则两个节点之间有连边,若随机数大于连边概率,则两个节点之间无连边。
进一步地,所述步骤4.2中,重构不同社区之间的连边,具体为在两个社区之间分别随机挑选一个节点,从而形成连边,随机挑选的次数为不同社区之间的连边数量。
本发明另一方面公开了一种面向图数据的差分隐私保护发布系统,该系统包括:
数据读取模块:读取原始图数据,记录初始节点信息和连边信息;
社区划分模块:基于指数噪声机制进行初始社区划分构建超节点图;基于拉普拉斯噪声机制对超节点图进行加噪并进行后向处理;基于以最大化模块度为目标的社区划分算法对超节点图进行社区划分,进而得到所有节点最终的社区划分情况;
信息提取模块:针对同一社区内的节点,提取各节点的度序列信息,基于拉普拉斯噪声机制对度序列进行扰动并进行后向处理;针对不同社区间的节点,提取两个社区间的连边数量信息,基于拉普拉斯噪声机制对连边数量进行扰动并进行后向处理;
图重构模块:针对同一社区内的节点,基于提取的度序列信息计算不同节点之间的连边概率,通过产生随机数的方法确定最终社区内的连边;针对不同社区间的节点,基于提取的连边数量信息在社区间随机挑选节点对,确定最终社区间的连边;将同一社区内的连边结果和不同社区间的连边结果进行合并,得到最终的图数据。
本发明的有益效果如下:
1.在满足差分隐私的前提下对图节点进行社区划分,避免了直接对邻接矩阵操作而引入过量噪声;
2.针对同一社区内节点和不同社区间节点的特点,分别提取和扰动不同粒度的信息,进而有效降低了图编码过程中的信息损失;
3.根据提取的不同粒度的信息,分别采用不同的方法对社区内和社区间的连边进行重构,有效保证了合成图与原始图结构的相似性;
4.设计了一种基于社区信息的面向图数据的差分隐私发布方法,在保护原始图数据的同时尽可能提高了合成图数据的可用性。
附图说明
图1为本发明实施例提供的一种面向图数据的差分隐私保护发布方法流程图;
图2为本发明实施例提供的一个工业物联网传感器无向无权图示例;
图3为本发明实施例提供的社区划分实现框图;
图4本发明实施例提供的基于图2生成的社区划分示意图;
图5为本发明实施例提供的信息提取实现框图;
图6为本发明实施例提供的图重构实现框图;
图7为本发明实施例提供的基于图2生成的合成图示例;
图8为本发明实施例提供的一种面向图数据的差分隐私保护发布系统结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本实施例提供的一种面向图数据的差分隐私保护发布方法,步骤如下:
步骤一,获取原始的真实工业物联网传感器图数据,例如输入图2所示的图数据,记录初始节点信息和节点之间的连边信息,每个节点代表一个传感器,节点之间的连边代表两个传感器之间是否有通信关系,图2所示的工业物联网传感器网络中包含21个传感器节点和22条边,其中圆圈表示节点,圆圈之间的连线表示边;
步骤二,通过采用指数噪声机制和拉普拉斯噪声机制,结合社区检测算法对节点进行社区划分,此过程分配的隐私预算为ε1,包括以下子步骤:
2.1通过指数噪声机制对节点进行初始的社区划分,此过程分配的隐私预算为εc,例如设置εc=0.5ε1,;
2.2通过合并在同一社区的节点形成一个超节点图,采用拉普拉斯机制对超节点图进行加噪并进行后向处理,得到扰动后的超节点图,此过程分配的隐私预算为εw=ε1-εc;
2.3对扰动的超节点图采用社区检测算法进行进一步的社区划分;
2.4基于超节点和原始节点的对应关系和所有超节点的社区划分情况,得到原始节点的最终社区划分情况,实现方式如图3所示,实现结果如图4所示,原始传感器节点被划分为了4个社区;
具体实现细节如下:
a)对原始节点进行初始的社区划分时,首先将所有节点随机分为k个社区,k为预设值,然后通过随机的方式遍历图的各个节点,计算各节点到所有社区的连边数量并将其作为指数噪声机制的可用性函数,利用指数噪声机制选择被遍历节点的社区,对图的所有节点遍历T次,例如设置T=5,从而得到节点的初始社区划分情况。
b)基于节点的初始社区划分情况进行合成超节点图时,将在同一社区内的节点合并为一个超节点,将同一社区内节点的度数之和作为超节点的内部权重,将不同社区间的节点连边之和作为超节点之间的外部权重,从而对超节点的内部权重和外部权重分别添加拉普拉斯噪声进行扰动,其中超节点的内部权重的全局敏感度为2,外部权重的全局敏感度为1,由于扰动后的权重值可能为出现负数的情况,因此对内部权重和外部权重分别进行后向处理,即向扰动后的权重值同时减去一个整数并且将所有的负值置为0,使得处理后的权重之和与初始权重之和的差值最小。
c)对超节点进行社区划分时,将每个超节点初始化为一个社区,以随机的方式遍历每个超节点,计算计算每个超节点移动到邻居超节点的对应社区所带来的模块度的变化,模块度的定义Q:
其中∑in代表社区C内部的权重之和,∑tot代表社区C内所有节点的权重总和,即内部权重与外部权重的总和,2代表整个图的权重总和;
将一个孤立的超节点移动到一个社区的模块度变化值ΔQ:
其中kn代表与超节点n相连的边的权重之和,kn,in代表超节点n到属于社区C的超节点的连边的权重之和;
每次遍历时,如果模块度增益大于0,则选择将超节点移动到模块度增益最大的社区,
不断循环超节点的遍历过程,直到遍历所有的超节点的过程中没有超节点有所属社区移动的情况或者上一次遍历得到的模块度与此次遍历得到的模块度的差值小于设定阈值θ1时停止,例如设置θ1=10-7,并将在同一个社区内部的超节点合并为一个新的超节点,得到一个新的超节点图,继续循环超节点的遍历和合并过程,直至前后两次合并超节点时的模块度的差值小于设定阈值θ2时停止,例如设置θ2=10-7。
d)在获取原始节点的最终社区划分情况时,是基于超节点和原始节点的对应关系和所有超节点的社区划分情况来实现的。
步骤三,对分组后的节点分别进行社区内和社区间的信息提取,并采用拉普拉斯噪声机制对提取信息进行扰动,此过程分配的隐私预算为ε2=ε-ε1,ε是总的隐私预算,包括以下子步骤:
3.1提取同一社区内节点的度序列信息,采用拉普拉斯机制对其进行加噪并进行后向处理,此过程分配的隐私预算为εd,例如设置εd=0.5ε2;
3.2提取不同社区间的连边信息,采用拉普拉斯机制对其进行加噪并进行后向处理,此过程分配的隐私预算为εv=ε2-εd,如图5所示;
具体实现细节如下:
a)提取并扰动社区内节点的度序列信息时,首先对同一社区内节点在该社区内部的度序列信息加入拉普拉斯噪声,之后对扰动结果进行后向处理,即向扰动后的度序列减去一个整数并将所有的负值置0,从而使得处理后的度序列之和与原始度序列之和的差值最小。
b)提取并扰动不同社区节点的连边信息时,首先将两个社区之间所有节点之间的连边数相加,得到所有的不同社区之间的连边数量信息,然后向连边数添加拉普拉斯噪声,之后对扰动结果进行后向处理,即向扰动后的结果同时减去一个整数并将所有的负值置0,从而使得处理后的结果之和与初始结果之和的差值最小。
步骤四,根据扰动得到的信息重构图数据,并将结果进行发布,包括以下子步骤:
4.1对于同一社区内的节点,通过步骤三得到的度序列信息计算出节点之间的连边概率,通过产生随机数的形式确定社区内的最终连边;
4.2对于不同社区间的节点,通过步骤三得到的连边信息,在社区之间随机产生对应数量的边,从而确定不同社区之间的最终连边;
4.3将同一社区内和不同社区间的连边情况进行合并,得到最终的合成图数据,实现方法如图6所示,实现结果如图7所示;
具体实现细节如下:
a)对于重构同一社区内的连边,首先根据同一社区内所有节点扰动后的度序列信息,计算出任意两个节点u和w之间的连接概率pu,w:
其中表示节点u在社区C内的扰动度,表示节点w在社区C内的扰动度,表示社区C内所有节点的扰动后的度序列之和,通过随机产生一个0到1之间的数,比较其与连接概率的大小,若随机数小于或等于连边概率,则两个节点之间有连边,若随机数大于连边概率,则两个节点之间无连边。
b)对于重构不同社区间的连边,操作方法为在两个社区之间分别随机挑选一个节点,从而形成连边,随机挑选的次数为不同社区之间的连边数量。
本发明另一方面公开了一种面向图数据的差分隐私保护发布系统,如图8所示,该系统包括以下模块:
数据读取模块:读取原始图数据,记录初始节点信息和连边信息;该模块的实现可以参考上述步骤一。
社区划分模块:基于指数噪声机制进行初始社区划分构建超节点图;基于拉普拉斯噪声机制对超节点图进行加噪并进行后向处理;基于以最大化模块度为目标的社区划分算法对超节点图进行社区划分,进而得到所有节点最终的社区划分情况;该模块的实现可以参考上述步骤二。
信息提取模块:针对同一社区内的节点,提取各节点的度序列信息,基于拉普拉斯噪声机制对度序列进行扰动并进行后向处理;针对不同社区间的节点,提取两个社区间的连边数量信息,基于拉普拉斯噪声机制对连边数量进行扰动并进行后向处理;该模块的实现可以参考上述步骤三。
图重构模块:针对同一社区内的节点,基于提取的度序列信息计算不同节点之间的连边概率,通过产生随机数的方法确定最终社区内的连边;针对不同社区间的节点,基于提取的连边数量信息在社区间随机挑选节点对,确定最终社区间的连边;将同一社区内的连边结果和不同社区间的连边结果进行合并,得到最终的图数据。该模块的实现可以参考上述步骤四。
本发明设计了一种面向工业传感器图数据的差分隐私发布算法,通过利用社区信息对图传感器节点进行社区划分,避免引入过量噪声,针对同一社区内和不同社区间节点的不同特点,分别提取信息并扰动,有效降低了图编码过程中的信息损失,在保护原始图数据的同时尽可能提高了合成图数据的可用性。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (9)
1.一种面向图数据的差分隐私保护发布方法,其特征在于,该方法包括:
步骤一,获取原始的真实图数据,记录初始节点信息和连边信息;
步骤二,通过采用指数噪声机制和拉普拉斯噪声机制,结合社区检测算法对节点进行社区划分,此过程分配的隐私预算为ε1,包括以下子步骤:
2.1通过指数噪声机制对节点进行初始的社区划分,此过程分配的隐私预算为εc;
2.2通过合并在同一社区的节点形成一个超节点图,采用拉普拉斯机制对超节点图进行加噪并进行后向处理,得到扰动后的超节点图,此过程分配的隐私预算为εw=ε1-εc;
2.3对扰动的超节点图采用社区检测算法进行进一步的社区划分;
2.4基于超节点和原始节点的对应关系和所有超节点的社区划分情况,得到原始节点的最终社区划分情况;
步骤三,对分组后的节点分别进行社区内和社区间的信息提取,并采用拉普拉斯噪声机制对提取信息进行扰动,此过程分配的隐私预算为ε2=ε-ε1,ε是总的隐私预算,包括以下子步骤:
3.1提取同一社区内节点的度序列信息,采用拉普拉斯机制对其进行加噪并进行后向处理,此过程分配的隐私预算为εd;
3.2提取不同社区间的连边信息,采用拉普拉斯机制对其进行加噪并进行后向处理,此过程分配的隐私预算为εv=ε2-εd;
步骤四,根据扰动得到的信息重构图数据,并将结果进行发布,包括以下子步骤:
4.1对于同一社区内的节点,通过步骤三得到的度序列信息计算出节点之间的连边概率,通过产生随机数的形式确定社区内的最终连边;
4.2对于不同社区间的节点,通过步骤三得到的连边信息,在社区之间随机产生对应数量的边,从而确定不同社区之间的最终连边;
4.3将同一社区内和不同社区间的连边情况进行合并,得到最终的合成图数据。
2.根据权利要求1所述的一种面向图数据的差分隐私保护发布方法,其特征在于,所述步骤2.1中,采用的社区划分具体步骤为:
a)初始化,将所有节点随机分为k个社区,k为预设值;
b)以随机的方式遍历图的每个节点,计算每个节点到所有社区的连边数量并将其作为指数噪声机制的可用性函数,通过指数噪声机制选择被遍历节点的社区;
c)对图节点的遍历进行T次,从而得到节点的初始社区划分情况。
3.根据权利要求1所述的一种面向图数据的差分隐私保护发布方法,其特征在于,所述步骤2.2中,合并节点为超节点并对其进行处理,具体步骤为:
a)将在同一个社区内的节点合并为一个超节点,同一社区内节点的度数之和为超节点的内部权重,不同社区间的节点连边之和为不同超节点之间的外部权重;
b)对超节点的内部权重和外部权重分别采用拉普拉斯机制添加噪声进行扰动;
c)对扰动后的内部权重和外部权重分别进行后向处理,即向扰动后的权重同时减去一个整数并将所有负值置0,使得处理后的权重之和与初始权重之和的差值最小。
4.根据权利要求1所述的一种面向图数据的差分隐私保护发布方法,其特征在于,所述步骤2.3中,对超节点图进行社区检测处理,具体步骤为:
a)每个超节点初始化为一个社区;
b)以随机的方式遍历每个超节点,计算每个超节点移动到邻居超节点的对应社区所带来的模块度的变化,模块度的定义Q:
其中∑in代表社区C内部的权重之和,∑tot代表社区C内所有节点的权重总和,即内部权重与外部权重的总和,2m代表整个图的权重总和;
将一个孤立的超节点移动到一个社区的模块度变化值ΔQ:
其中kn代表与超节点n相连的边的权重之和,kn,in代表超节点n到属于社区C的超节点的连边的权重之和;
每次遍历时,如果模块度增益大于0,则选择将超节点移动到模块度增益最大的社区;
c)不断循环b)过程,直到遍历所有的超节点的过程中没有超节点有所属社区移动的情况或者上一次遍历得到的模块度与此次遍历得到的模块度的差值小于设定阈值θ1时停止;
d)将在同一个社区内部的超节点合并为一个新的超节点,得到一个新的超节点图,继续循环a)、b)、c)过程,直至前后两次合并超节点时的模块度的差值小于设定阈值θ2时停止。
5.根据权利要求1所述的一种面向图数据的差分隐私保护发布方法,其特征在于,所述步骤3.1中,对同一社区内的节点提取信息并扰动,具体步骤为:
a)获取同一社区内节点在该社区内部的度序列信息;
b)向度序列信息添加拉普拉斯噪声;
c)对扰动后的结果进行后向处理,即向扰动后的度序列同时减去一个整数并将所有负值置0,使得处理后的度序列之和与初始度序列之和的差值最小。
6.根据权利要求1所述的一种面向图数据的差分隐私保护发布方法,其特征在于,所述步骤3.2中,对不同社区间的节点提取信息并扰动,具体步骤为:
a)获取不同社区内节点之间的连边情况,将两个社区间所有节点之间的连边数相加,进而得到所有不同社区间的连边数量信息;
b)向不同社区间的连边数量添加拉普拉斯噪声;
c)对扰动后的结果进行后向处理,即向扰动后的结果同时减去一个整数并将所有负值置0,使得处理后的结果之和与初始结果之和的差值最小。
8.根据权利要求1所述的一种面向图数据的差分隐私保护发布方法,其特征在于,所述步骤4.2中,重构不同社区之间的连边,具体为在两个社区之间分别随机挑选一个节点,从而形成连边,随机挑选的次数为不同社区之间的连边数量。
9.一种面向图数据的差分隐私保护发布系统,其特征在于,该系统包括:
数据读取模块:读取原始图数据,记录初始节点信息和连边信息;
社区划分模块:基于指数噪声机制进行初始社区划分构建超节点图;基于拉普拉斯噪声机制对超节点图进行加噪并进行后向处理;基于以最大化模块度为目标的社区划分算法对超节点图进行社区划分,进而得到所有节点最终的社区划分情况;
信息提取模块:针对同一社区内的节点,提取各节点的度序列信息,基于拉普拉斯噪声机制对度序列进行扰动并进行后向处理;针对不同社区间的节点,提取两个社区间的连边数量信息,基于拉普拉斯噪声机制对连边数量进行扰动并进行后向处理;
图重构模块:针对同一社区内的节点,基于提取的度序列信息计算不同节点之间的连边概率,通过产生随机数的方法确定最终社区内的连边;针对不同社区间的节点,基于提取的连边数量信息在社区间随机挑选节点对,确定最终社区间的连边;将同一社区内的连边结果和不同社区间的连边结果进行合并,得到最终的图数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210782301.9A CN115114664B (zh) | 2022-06-24 | 2022-06-24 | 一种面向图数据的差分隐私保护发布方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210782301.9A CN115114664B (zh) | 2022-06-24 | 2022-06-24 | 一种面向图数据的差分隐私保护发布方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115114664A true CN115114664A (zh) | 2022-09-27 |
CN115114664B CN115114664B (zh) | 2023-05-23 |
Family
ID=83332553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210782301.9A Active CN115114664B (zh) | 2022-06-24 | 2022-06-24 | 一种面向图数据的差分隐私保护发布方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114664B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329898A (zh) * | 2022-10-10 | 2022-11-11 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的分布式机器学习方法及系统 |
CN115828312A (zh) * | 2023-02-17 | 2023-03-21 | 浙江浙能数字科技有限公司 | 一种面向电力用户社交网络的隐私保护方法及系统 |
CN115878906A (zh) * | 2022-12-13 | 2023-03-31 | 重庆大学 | 一种保护个人相似度的社交图生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918664A (zh) * | 2017-11-22 | 2018-04-17 | 广西师范大学 | 基于不确定图的社会网络数据差分隐私保护方法 |
CN112417507A (zh) * | 2020-12-02 | 2021-02-26 | 桂林电子科技大学 | 一种基于隐私保护的大型图的节点三角形计数的发布方法 |
US20210342453A1 (en) * | 2020-04-29 | 2021-11-04 | Robert Bosch Gmbh | Private model utility by minimizing expected loss under noise |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046429B (zh) * | 2019-12-13 | 2021-06-04 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的关系网络构建方法及装置 |
CN113886881A (zh) * | 2021-10-11 | 2022-01-04 | 杭州中奥科技有限公司 | 基于遗传算法的图数据隐私保护方法、系统及电子设备 |
-
2022
- 2022-06-24 CN CN202210782301.9A patent/CN115114664B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918664A (zh) * | 2017-11-22 | 2018-04-17 | 广西师范大学 | 基于不确定图的社会网络数据差分隐私保护方法 |
US20210342453A1 (en) * | 2020-04-29 | 2021-11-04 | Robert Bosch Gmbh | Private model utility by minimizing expected loss under noise |
CN112417507A (zh) * | 2020-12-02 | 2021-02-26 | 桂林电子科技大学 | 一种基于隐私保护的大型图的节点三角形计数的发布方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329898A (zh) * | 2022-10-10 | 2022-11-11 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的分布式机器学习方法及系统 |
CN115329898B (zh) * | 2022-10-10 | 2023-01-24 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的多属性数据发布方法及系统 |
CN115878906A (zh) * | 2022-12-13 | 2023-03-31 | 重庆大学 | 一种保护个人相似度的社交图生成方法及系统 |
CN115878906B (zh) * | 2022-12-13 | 2023-10-10 | 重庆大学 | 一种保护个人相似度的社交图生成方法及系统 |
CN115828312A (zh) * | 2023-02-17 | 2023-03-21 | 浙江浙能数字科技有限公司 | 一种面向电力用户社交网络的隐私保护方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115114664B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115114664A (zh) | 一种面向图数据的差分隐私保护发布方法及系统 | |
CN110992354B (zh) | 基于引入自动记忆机制对抗自编码器的异常区域检测方法 | |
Barzohar et al. | Automatic finding of main roads in aerial images by using geometric-stochastic models and estimation | |
CN109886970B (zh) | 太赫兹图像中目标物体的检测分割方法及计算机存储介质 | |
CN109299615B (zh) | 一种面向社交网络数据的差分隐私处理发布方法 | |
CN112784954A (zh) | 确定神经网络的方法和装置 | |
Baheti et al. | Federated Learning on Distributed Medical Records for Detection of Lung Nodules. | |
Aronshtam et al. | The threshold for d‐collapsibility in random complexes | |
Chu et al. | Feature selection using approximated high-order interaction components of the Shapley value for boosted tree classifier | |
CN115601574A (zh) | 一种改进akaze特征的无人机影像匹配方法 | |
Friedrich et al. | Optimizing evolutionary CSG tree extraction | |
CN110503113B (zh) | 一种基于低秩矩阵恢复的图像显著性目标检测方法 | |
CN115965058A (zh) | 神经网络训练方法、实体信息分类方法、装置及存储介质 | |
Salehian et al. | Dynamic programming-based dense stereo matching improvement using an efficient search space reduction technique | |
Wei et al. | Efficient local histogram searching via bitmap indexing | |
Zeng et al. | Ro-SOS: Metric Expression Network (MEnet) for Robust Salient Object Segmentation | |
Ervan et al. | A histogram‐based sampling method for point cloud registration | |
Rasmuson et al. | PERF: performant, explicit radiance fields | |
Zhu et al. | Efficient stereo matching based on pervasive guided image filtering | |
Wei et al. | Rt-libsgm: An implementation of a real-time stereo matching system on fpga | |
CN114792397A (zh) | 一种sar影像城市道路提取方法、系统以及存储介质 | |
RU2718409C1 (ru) | Система восстановления трехмерной структуры образца породы | |
CN115828312B (zh) | 一种面向电力用户社交网络的隐私保护方法及系统 | |
Yu et al. | A parallel algorithm for hyperspectral target detection based on weighted alternating direction method of multiplier | |
KR102053175B1 (ko) | 그래프 스트림에서의 빈발 패턴 검출 방법 및 빈발 패턴 검출 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |