CN106599725A - 图数据发布的随机化隐私保护方法 - Google Patents
图数据发布的随机化隐私保护方法 Download PDFInfo
- Publication number
- CN106599725A CN106599725A CN201611198603.2A CN201611198603A CN106599725A CN 106599725 A CN106599725 A CN 106599725A CN 201611198603 A CN201611198603 A CN 201611198603A CN 106599725 A CN106599725 A CN 106599725A
- Authority
- CN
- China
- Prior art keywords
- disturbance
- diagram data
- upper triangular
- triangular matrix
- secret protection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种图数据发布的随机化隐私保护方法,通过随机化扰动的方法对图数据进行处理,经过本发明处理后的数据能够共享发布给不特定第三方,而不会侵犯数据所含用户的隐私信息。同时,经过本发明处理后的图数据还具有较好的概率分布特性,能够根据隐私保护力度要求灵活的调整相关参数。
Description
技术领域
本发明涉及数据发布技术领域,具体涉及一种图数据发布的随机化隐私保护方法。
背景技术
图数据可以用来描述物种之间的捕食关系,词与词之间的语义联系,计算机之间的网络联接,科研文章之间的引用关系,以及交通流量关系,甚至人类情感关系。当图数据中的实体结点涉及到人时,若直接发布数据或不当的共享给第三方,可能会产生隐私泄露问题。如攻击者如果知道被攻击对象有两个朋友,而发布数据中具有两个朋友的结点只有一个,则能够在发布的数据中重定位目标结点。因此需要在数据发布前对数据进行处理,以保护数据中用户的隐私不被泄露。
发明内容
本发明所要解决的技术问题是现有数据发布存在隐私泄露的问题,提供一种图数据发布的随机化隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
图数据发布的随机化隐私保护方法,包括如下步骤:
步骤1、设定扰动参数p,其中0<p<1;
步骤2、计算图数据中不存的边添加到图数据中的概率q,
式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数;
步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵;
步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵;
步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵;
步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵;
步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。
在步骤1中,扰动参数p可以直接人为设定;也可以通过以下步骤自适应获得:
步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;
步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,
式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率;
步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv;
步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。
步骤1.1中,扰动参数p的初始值等于步长a。
步骤1.1中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。
步骤3中,上三角矩阵中的非零项同图数据中的存在条边一一对应;上三角矩阵中的零项同图数据中不存在的边一一对应。
与现有技术相比,本发明提供一种随机方式的数据扰动方法,经过本发明处理后的数据能够共享发布给不特定第三方,而不会侵犯数据所含用户的隐私信息。同时,经过本发明处理后的图数据还具有较好的概率分布特性,能够根据隐私保护力度要求灵活的调整相关参数。
附图说明
图1为原始图数据。
具体实施方式
本实施例以图1所示原始图络数据为例,对所提出的随机化的图数据发布隐私保护方法进行说明。
图1所示的原始图数据为简单无向图数据G=(V,E),其中V为参与网络的实体,E为实体间的关系。
在计算机中常用邻接矩阵存储和处理图数据。邻接矩阵A=[aij]是一个n×n的0-1矩阵,其中当结点vi和vj间有边时aij=1,否则aij=0。图1所示的原始图数据即图数据G对应的邻接矩阵A的矩阵表示为:
邻接矩阵A是一个对称矩阵,数据中的每条边对应矩阵的中两个对称非零项。为了实现本发明的随机扰动算法,引入上三角矩阵B。上三角矩阵B由邻接矩阵A采用截取对角线以上部分的方式生成,则上三角矩阵B的矩阵表示为:
上三角矩阵B中的非零项同图数据G中的存在条边一一对应。上三角矩阵B中的零项同图数据G中不存在的边一一对应。
一种图数据发布的随机化隐私保护方法,包括如下步骤:
步骤1、设定扰动参数p,其中0<p<1;
扰动参数p可以直接人为设定;也可以通过以下步骤自适应获得:
步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;扰动参数p的初始值等于步长a。在本实施例中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。
步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,
式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率。
步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv。
步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。
步骤2、计算图数据中不存的边添加到图数据中的概率q,
式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数。
步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵。
步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵。
步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵。
步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵。
步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。
随机化的图数据发布隐私保护方法实现的伪代码如算法1如下所示:
输入:图数据G的邻接矩阵A,扰动参数p;
输出:匿名后的图G’对应的邻接矩阵A’。
算法第1行由输入数据的邻接矩阵A生成上三角矩阵B,此步骤保证数据中的边同矩阵B中的非零值一一对应。
算法第2行到第3行对矩阵B中的存在的边进行成功概率为p,0<p<1,的伯努利实验,即每次实验原来存在的边,有p的几率保持存在;同时记录实验结果用于生成返回值。
算法第4行采用公式:
计算q,其中0<q<1,N=|V|×(|V|-1)÷2;目的是为了使添加的边数的期望和删除的边数的期望相同。算法将采用成功率为q的伯努利实验对输入数据进行再次扰动。参数q为图数据中不存的边添加到数据中的概率。采用随机的方式删除了|E|*(1-p)条边,为了使发布的数据同原始数据边数的期望相同,所以要求添加的边数的期望(N-|E|)*q与之相等,可得q的表达式。E表示边的集合,||表示集合的势。
算法第5行到第6行对矩阵B中的不存在的边进行成功概率为q伯努利实验,即每次实验原来不存在的边有q的几率被添加进来。
第7行根据记录的实验结果准备返回数据。
算法第8行返回数据并退出当前过程。
攻击者根据背景知识对发布数据G’中的目标结点进行重识别攻击。本发明用符号P(B→V|G’)表示攻击者根据背景知识能够成功攻击的概率。为了满足本发明提出的隐私模型,要求此概率小于隐私保护力度r。假设攻击者知道目标结点vi的度信息,并根据此背景知识(用符号b表示)采用查询的方法在发布的数据G’中对目标结点v进行重识别攻击。其查询结果集合Cand(b)包含所有满足给定度信息的结点,表示为:
Cand(b)={v|v∈V,d’i=b}
其中,d’i为发布图数据G’中结点v’i的度。由于没有其它的背景信息,攻击者只能在Cand(b)中随机的选择一个作为目标结点,攻击成功的概率为1/|Cand(b)|。
以上分析是在算法运行后得到具体的G’后进行的。但是本发明的算法是随机的,每次的G’是不同的。为了计算攻击成功的概率,需要结合算法的扰动方式分析扰动后结点度的概率分布。
算法的第2-3行对图数据中每条存在的边e进行成功率为p的伯努利实验Brtnoulli(e,p),即有p的概率实验结束后e仍然保留,(1-p)的概率实验结束后e被删除。对度为di的结点vi,扰动后其度的分布符合二项分布,即
算法第5-6行对图数据中不存在的边e采用q的概率进行伯努利实验,即有q的概率添加边e到数据中。对度为di的结点vi,扰动后其度的分布为
用随机变量Z表示度为di的结点vi经过以上两步扰动后的结点的度分布概率
由于攻击者采用查询的方式进行攻击,扰动后结点vi的度d’i与di不同,则攻击者不能成功实施攻击,度相同则有可能成功实施攻击。首先计算扰动后结点vi的度不变的概率
计算攻击者能够成功攻击的概率还需要考虑其它结点带来的影响。也就是其它结点在扰动后度变为di带来的不确定性。本文用Risk(vi|di,p)表示攻击者采用度背景知识对目标结点vi进行攻击成功的概率,攻击者成功攻击的概率为:
依次计算每个结点的隐私泄露风险,选择最小的作为隐私保护力度r。以上的随机扰动数据发布隐私保护方法和隐私分析,给出了随机扰动参p和相应的隐私保护力度r间的关系。作为数据发布者更希望能够在给定r的情况下由程序自动选择p进行处理,此时由隐私保护力度r确定扰动参数p的伪代码如算法2如下所示:
输入:图数据G的邻接矩阵A,隐私保护力度r;
输出:扰动参数p。
算法的第1行设置扰动参数p=0.05,本实施例认为p=0.05对原始是个较小的扰动,所以从0.05开始搜索。
第2-7行采用步长为0.05的递增方式对p进行搜索。如果搜索到满足隐私保护力度r的扰动参数p,则在第6行返回;如果没有找到合适的参数就,则在第8行返回False。
第3-4计算当前扰动参数p的隐私保护力度。
第5-6行判断当前扰动参数p是否满足隐私保护力度。
综上所述,本发明可以采用如下2种方案:
方案1:当直接给出扰动参数p时,直接采用采用算法1对数据进行随机扰动;
方案2:当由用户提出的隐私要求(隐私保护力度r)时,先采用算法2计算扰动参数p;再采用算法1对数据进行随机化的扰动。
Claims (6)
1.图数据发布的随机化隐私保护方法,其特征是,包括如下步骤:
步骤1、设定扰动参数p,其中0<p<1;
步骤2、计算图数据中不存的边添加到图数据中的概率q,
式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数;
步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵;
步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵;
步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵;
步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵;
步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。
2.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,包括如下步骤:步骤1中,扰动参数p直接设定。
3.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,步骤1中,扰动参数p通过以下步骤自适应获得:
步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;
步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,
式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率;
步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv;
步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。
4.根据权利要求3所述的图数据发布的随机化隐私保护方法,其特征是,步骤1.1中,扰动参数p的初始值等于步长a。
5.根据权利要求3或4所述的图数据发布的随机化隐私保护方法,其特征是,步骤1.1中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。
6.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,步骤3中,上三角矩阵中的非零项同图数据中的存在条边一一对应;上三角矩阵中的零项同图数据中不存在的边一一对应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611198603.2A CN106599725B (zh) | 2016-12-22 | 2016-12-22 | 图数据发布的随机化隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611198603.2A CN106599725B (zh) | 2016-12-22 | 2016-12-22 | 图数据发布的随机化隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106599725A true CN106599725A (zh) | 2017-04-26 |
CN106599725B CN106599725B (zh) | 2019-05-10 |
Family
ID=58600672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611198603.2A Active CN106599725B (zh) | 2016-12-22 | 2016-12-22 | 图数据发布的随机化隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599725B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107302521A (zh) * | 2017-05-23 | 2017-10-27 | 全球能源互联网研究院 | 一种用户隐私数据的发送方法和接收方法 |
CN107742083A (zh) * | 2017-10-31 | 2018-02-27 | 华中科技大学 | 一种面向大规模图数据发布的隐私保护方法及系统 |
CN111159771A (zh) * | 2019-12-30 | 2020-05-15 | 论客科技(广州)有限公司 | 一种应用程序的显示方法、服务器及终端 |
CN112364372A (zh) * | 2020-10-27 | 2021-02-12 | 重庆大学 | 一种有监督矩阵补全的隐私保护方法 |
CN113190841A (zh) * | 2021-04-27 | 2021-07-30 | 中国科学技术大学 | 一种使用差分隐私技术防御图数据攻击的方法 |
CN117993027A (zh) * | 2024-03-28 | 2024-05-07 | 之江实验室 | 针对重复查询攻击的数据保护方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130268773A1 (en) * | 2011-09-07 | 2013-10-10 | Elwha Llc | Computational systems and methods for preparing data for double-encryption and anonymous storage |
CN103902924A (zh) * | 2014-04-17 | 2014-07-02 | 广西师范大学 | 社交网络数据发布的混合随机化隐私保护方法 |
CN104866781A (zh) * | 2015-05-27 | 2015-08-26 | 广西师范大学 | 面向社区检测应用的社会网络数据发布隐私保护方法 |
CN105871891A (zh) * | 2016-05-17 | 2016-08-17 | 中国互联网络信息中心 | 一种dns隐私泄露风险评估方法及系统 |
-
2016
- 2016-12-22 CN CN201611198603.2A patent/CN106599725B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130268773A1 (en) * | 2011-09-07 | 2013-10-10 | Elwha Llc | Computational systems and methods for preparing data for double-encryption and anonymous storage |
CN103902924A (zh) * | 2014-04-17 | 2014-07-02 | 广西师范大学 | 社交网络数据发布的混合随机化隐私保护方法 |
CN104866781A (zh) * | 2015-05-27 | 2015-08-26 | 广西师范大学 | 面向社区检测应用的社会网络数据发布隐私保护方法 |
CN105871891A (zh) * | 2016-05-17 | 2016-08-17 | 中国互联网络信息中心 | 一种dns隐私泄露风险评估方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107302521A (zh) * | 2017-05-23 | 2017-10-27 | 全球能源互联网研究院 | 一种用户隐私数据的发送方法和接收方法 |
CN107742083A (zh) * | 2017-10-31 | 2018-02-27 | 华中科技大学 | 一种面向大规模图数据发布的隐私保护方法及系统 |
CN107742083B (zh) * | 2017-10-31 | 2019-10-25 | 华中科技大学 | 一种面向大规模图数据发布的隐私保护方法及系统 |
CN111159771A (zh) * | 2019-12-30 | 2020-05-15 | 论客科技(广州)有限公司 | 一种应用程序的显示方法、服务器及终端 |
CN112364372A (zh) * | 2020-10-27 | 2021-02-12 | 重庆大学 | 一种有监督矩阵补全的隐私保护方法 |
CN113190841A (zh) * | 2021-04-27 | 2021-07-30 | 中国科学技术大学 | 一种使用差分隐私技术防御图数据攻击的方法 |
CN117993027A (zh) * | 2024-03-28 | 2024-05-07 | 之江实验室 | 针对重复查询攻击的数据保护方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106599725B (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599725A (zh) | 图数据发布的随机化隐私保护方法 | |
CN113239404B (zh) | 一种基于差分隐私和混沌加密的联邦学习方法 | |
Song et al. | Protection of image ROI using chaos-based encryption and DCNN-based object detection | |
Schliebs et al. | China's public diplomacy operations: understanding engagement and inauthentic amplifications of PRC diplomats on Facebook and Twitter | |
CN113689003B (zh) | 一种安全的去除第三方的混合联邦学习框架及方法 | |
US20130254169A1 (en) | Fast Component Enumeration in Graphs with Implicit Edges | |
CN109584432A (zh) | 对象选取方法及装置、电子设备 | |
CN109615370A (zh) | 对象选取方法及装置、电子设备 | |
CN107426165A (zh) | 一种支持密钥更新的双向安全云存储数据完整性检测方法 | |
Khan et al. | A novel image encryption based on rossler map diffusion and particle swarm optimization generated highly non-linear substitution boxes | |
CN114564752B (zh) | 一种基于图联邦的黑名单传播方法 | |
CN110868286A (zh) | 一种基于区块链智能合约生成随机数的方法 | |
JP7047764B2 (ja) | 秘密計算システム、秘密計算装置、秘密計算方法および秘密計算プログラム | |
CN113723477A (zh) | 一种基于孤立森林的跨特征联邦异常数据检测方法 | |
CN114722049A (zh) | 一种多方数据交集计算方法、装置及电子设备 | |
Gao et al. | Security analysis and improvement of a redactable consortium blockchain for industrial Internet-of-Things | |
Sheikh et al. | A modified CK-secure sum protocol for multi-party computation | |
CN110865793A (zh) | 一种基于区块链智能合约生成随机数的方法 | |
Alharbi et al. | Nonlinear Dynamics in the Coupled Fractional‐Order Memristor Chaotic System and Its Application in Image Encryption | |
CN116707784A (zh) | 一种基于秘密分享的多方安全计算方法和系统 | |
CN117077038A (zh) | 决策树模型的模型隐私、数据隐私及模型一致性保护方法 | |
CN110059097A (zh) | 数据处理方法和装置 | |
Yakubu et al. | A chaos based image encryption algorithm using ShimizuMorioka system | |
CN114547684A (zh) | 一种保护隐私数据的多方联合训练树模型的方法及装置 | |
Dürr et al. | Modeling social network interaction graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |