CN106599725B - 图数据发布的随机化隐私保护方法 - Google Patents

图数据发布的随机化隐私保护方法 Download PDF

Info

Publication number
CN106599725B
CN106599725B CN201611198603.2A CN201611198603A CN106599725B CN 106599725 B CN106599725 B CN 106599725B CN 201611198603 A CN201611198603 A CN 201611198603A CN 106599725 B CN106599725 B CN 106599725B
Authority
CN
China
Prior art keywords
diagram data
upper triangular
secret protection
disturbance
disturbance parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611198603.2A
Other languages
English (en)
Other versions
CN106599725A (zh
Inventor
刘鹏
李先贤
王利娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201611198603.2A priority Critical patent/CN106599725B/zh
Publication of CN106599725A publication Critical patent/CN106599725A/zh
Application granted granted Critical
Publication of CN106599725B publication Critical patent/CN106599725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种图数据发布的随机化隐私保护方法,通过随机化扰动的方法对图数据进行处理,经过本发明处理后的数据能够共享发布给不特定第三方,而不会侵犯数据所含用户的隐私信息。同时,经过本发明处理后的图数据还具有较好的概率分布特性,能够根据隐私保护力度要求灵活的调整相关参数。

Description

图数据发布的随机化隐私保护方法
技术领域
本发明涉及数据发布技术领域,具体涉及一种图数据发布的随机化隐私保护方法。
背景技术
图数据可以用来描述物种之间的捕食关系,词与词之间的语义联系,计算机之间的网络联接,科研文章之间的引用关系,以及交通流量关系,甚至人类情感关系。当图数据中的实体结点涉及到人时,若直接发布数据或不当的共享给第三方,可能会产生隐私泄露问题。如攻击者如果知道被攻击对象有两个朋友,而发布数据中具有两个朋友的结点只有一个,则能够在发布的数据中重定位目标结点。因此需要在数据发布前对数据进行处理,以保护数据中用户的隐私不被泄露。
发明内容
本发明所要解决的技术问题是现有数据发布存在隐私泄露的问题,提供一种图数据发布的随机化隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
图数据发布的随机化隐私保护方法,包括如下步骤:
步骤1、设定扰动参数p,其中0<p<1;
步骤2、计算图数据中不存的边添加到图数据中的概率q,
式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数;
步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵;
步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵;
步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵;
步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵;
步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。
在步骤1中,扰动参数p可以直接人为设定;也可以通过以下步骤自适应获得:
步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;
步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,
式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率;
步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv;
步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。
步骤1.1中,扰动参数p的初始值等于步长a。
步骤1.1中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。
步骤3中,上三角矩阵中的非零项同图数据中的存在条边一一对应;上三角矩阵中的零项同图数据中不存在的边一一对应。
与现有技术相比,本发明提供一种随机方式的数据扰动方法,经过本发明处理后的数据能够共享发布给不特定第三方,而不会侵犯数据所含用户的隐私信息。同时,经过本发明处理后的图数据还具有较好的概率分布特性,能够根据隐私保护力度要求灵活的调整相关参数。
附图说明
图1为原始图数据。
具体实施方式
本实施例以图1所示原始图络数据为例,对所提出的随机化的图数据发布隐私保护方法进行说明。
图1所示的原始图数据为简单无向图数据G=(V,E),其中V为参与网络的实体,E为实体间的关系。
在计算机中常用邻接矩阵存储和处理图数据。邻接矩阵A=[aij]是一个n×n的0-1矩阵,其中当结点vi和vj间有边时aij=1,否则aij=0。图1所示的原始图数据即图数据G对应的邻接矩阵A的矩阵表示为:
邻接矩阵A是一个对称矩阵,数据中的每条边对应矩阵的中两个对称非零项。为了实现本发明的随机扰动算法,引入上三角矩阵B。上三角矩阵B由邻接矩阵A采用截取对角线以上部分的方式生成,则上三角矩阵B的矩阵表示为:
上三角矩阵B中的非零项同图数据G中的存在条边一一对应。上三角矩阵B中的零项同图数据G中不存在的边一一对应。
一种图数据发布的随机化隐私保护方法,包括如下步骤:
步骤1、设定扰动参数p,其中0<p<1;
扰动参数p可以直接人为设定;也可以通过以下步骤自适应获得:
步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;扰动参数p的初始值等于步长a。在本实施例中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。
步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,
式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率。
步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv。
步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。
步骤2、计算图数据中不存的边添加到图数据中的概率q,
式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数。
步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵。
步骤4、对于步骤2所得的上三角矩阵中的每条存在的边进行成功概率为p的伯努利实验,得到基于存在边扰动的上三角矩阵。
步骤5、对于步骤2所得到的上三角矩阵中的每条不存在的边进行成功概率为q的伯努利实验,得到基于不存在边扰动的上三角矩阵。
步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵。
步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。
随机化的图数据发布隐私保护方法实现的伪代码如算法1如下所示:
输入:图数据G的邻接矩阵A,扰动参数p;
输出:匿名后的图G’对应的邻接矩阵A’。
算法第1行由输入数据的邻接矩阵A生成上三角矩阵B,此步骤保证数据中的边同矩阵B中的非零值一一对应。
算法第2行到第3行对矩阵B中的存在的边进行成功概率为p,0<p<1,的伯努利实验,即每次实验原来存在的边,有p的几率保持存在;同时记录实验结果用于生成返回值。
算法第4行采用公式:
计算q,其中0<q<1,N=|V|×(|V|-1)÷2;目的是为了使添加的边数的期望和删除的边数的期望相同。算法将采用成功率为q的伯努利实验对输入数据进行再次扰动。参数q为图数据中不存的边添加到数据中的概率。采用随机的方式删除了|E|*(1-p)条边,为了使发布的数据同原始数据边数的期望相同,所以要求添加的边数的期望(N-|E|)*q与之相等,可得q的表达式。E表示边的集合,||表示集合的势。
算法第5行到第6行对矩阵B中的不存在的边进行成功概率为q伯努利实验,即每次实验原来不存在的边有q的几率被添加进来。
第7行根据记录的实验结果准备返回数据。
算法第8行返回数据并退出当前过程。
攻击者根据背景知识对发布数据G’中的目标结点进行重识别攻击。本发明用符号P(B→V|G’)表示攻击者根据背景知识能够成功攻击的概率。为了满足本发明提出的隐私模型,要求此概率小于隐私保护力度r。假设攻击者知道目标结点vi的度信息,并根据此背景知识(用符号b表示)采用查询的方法在发布的数据G’中对目标结点v进行重识别攻击。其查询结果集合Cand(b)包含所有满足给定度信息的结点,表示为:
Cand(b)={v|v∈V,d’i=b}
其中,d’i为发布图数据G’中结点v’i的度。由于没有其它的背景信息,攻击者只能在Cand(b)中随机的选择一个作为目标结点,攻击成功的概率为1/|Cand(b)|。
以上分析是在算法运行后得到具体的G’后进行的。但是本发明的算法是随机的,每次的G’是不同的。为了计算攻击成功的概率,需要结合算法的扰动方式分析扰动后结点度的概率分布。
算法的第2-3行对图数据中每条存在的边e进行成功率为p的伯努利实验Brtnoulli(e,p),即有p的概率实验结束后e仍然保留,(1-p)的概率实验结束后e被删除。对度为di的结点vi,扰动后其度的分布符合二项分布,即
算法第5-6行对图数据中不存在的边e采用q的概率进行伯努利实验,即有q的概率添加边e到数据中。对度为di的结点vi,扰动后其度的分布为
用随机变量Z表示度为di的结点vi经过以上两步扰动后的结点的度分布概率
由于攻击者采用查询的方式进行攻击,扰动后结点vi的度d’i与di不同,则攻击者不能成功实施攻击,度相同则有可能成功实施攻击。首先计算扰动后结点vi的度不变的概率
计算攻击者能够成功攻击的概率还需要考虑其它结点带来的影响。也就是其它结点在扰动后度变为di带来的不确定性。本文用Risk(vi|di,p)表示攻击者采用度背景知识对目标结点vi进行攻击成功的概率,攻击者成功攻击的概率为:
依次计算每个结点的隐私泄露风险,选择最小的作为隐私保护力度r。以上的随机扰动数据发布隐私保护方法和隐私分析,给出了随机扰动参p和相应的隐私保护力度r间的关系。作为数据发布者更希望能够在给定r的情况下由程序自动选择p进行处理,此时由隐私保护力度r确定扰动参数p的伪代码如算法2如下所示:
输入:图数据G的邻接矩阵A,隐私保护力度r;
输出:扰动参数p。
算法的第1行设置扰动参数p=0.05,本实施例认为p=0.05对原始是个较小的扰动,所以从0.05开始搜索。
第2-7行采用步长为0.05的递增方式对p进行搜索。如果搜索到满足隐私保护力度r的扰动参数p,则在第6行返回;如果没有找到合适的参数就,则在第8行返回False。
第3-4计算当前扰动参数p的隐私保护力度。
第5-6行判断当前扰动参数p是否满足隐私保护力度。
综上所述,本发明可以采用如下2种方案:
方案1:当直接给出扰动参数p时,直接采用采用算法1对数据进行随机扰动;
方案2:当由用户提出的隐私要求(隐私保护力度r)时,先采用算法2计算扰动参数p;再采用算法1对数据进行随机化的扰动。

Claims (6)

1.图数据发布的随机化隐私保护方法,其特征是,包括如下步骤:
步骤1、设定扰动参数p,其中0<p<1;
步骤2、计算图数据中不存的边添加到图数据中的概率q,
式中,|E|为图数据中边的数目;N为完全图包含的边的数目,N=n*(n-1)/2,n为图数据中结点的个数;p为扰动参数;
步骤3、获得原始的图数据的邻接矩阵,并生成邻接矩阵的上三角矩阵;
步骤4、对于步骤3所得的上三角矩阵中的每条存在的边进行成功概率等于p的伯努利实验,得到基于存在边扰动的上三角矩阵;
步骤5、对于步骤3所得到的上三角矩阵中的每条不存在的边进行成功概率等于q的伯努利实验,得到基于不存在边扰动的上三角矩阵;
步骤6、将步骤4得到的基于存在边扰动的上三角矩阵和步骤5得到的基于不存在边扰动的上三角矩阵进行叠加融合,得到最终扰动的上三角矩阵;
步骤7、根据步骤6得到的最终扰动的上三角矩阵生成新的邻接矩阵,并由此获得匿名后的图数据。
2.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,包括如下步骤:步骤1中,扰动参数p直接设定。
3.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,步骤1中,扰动参数p通过以下步骤自适应获得:
步骤1.1、设定隐私保护力度r和扰动参数变化的步长a,并初始化扰动参数p和临时变量priv;
步骤1.2、根据下式计算图数据的每个结点的隐私泄露风险,
式中,Risk(vi|di,p)表示度为di的结点在扰动参数p的条件下的隐私泄露风险;P(Z=di|di)表示度为di的结点在随机扰动后其度保持不变的概率;表示原来度不为di的结点在随机扰动后其度变为di的概率;
步骤1.3、选取临时变量priv和隐私泄露风险Risk(vi|di,p)中较小的值作为新的临时变量priv;
步骤1.4、如果新的临时变量priv大于隐私保护力度r,则输出当前扰动参数p;否则,将当前扰动参数p递增步长a,并返回步骤1.2。
4.根据权利要求3所述的图数据发布的随机化隐私保护方法,其特征是,步骤1.1中,扰动参数p的初始值等于步长a。
5.根据权利要求3或4所述的图数据发布的随机化隐私保护方法,其特征是,步骤1.1中,扰动参数p的初始值为0.05,临时变量priv的初始值为0,步长a为0.05。
6.根据权利要求1所述的图数据发布的随机化隐私保护方法,其特征是,步骤3中,上三角矩阵中的非零项同图数据中的存在条边一一对应;上三角矩阵中的零项同图数据中不存在的边一一对应。
CN201611198603.2A 2016-12-22 2016-12-22 图数据发布的随机化隐私保护方法 Active CN106599725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611198603.2A CN106599725B (zh) 2016-12-22 2016-12-22 图数据发布的随机化隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611198603.2A CN106599725B (zh) 2016-12-22 2016-12-22 图数据发布的随机化隐私保护方法

Publications (2)

Publication Number Publication Date
CN106599725A CN106599725A (zh) 2017-04-26
CN106599725B true CN106599725B (zh) 2019-05-10

Family

ID=58600672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611198603.2A Active CN106599725B (zh) 2016-12-22 2016-12-22 图数据发布的随机化隐私保护方法

Country Status (1)

Country Link
CN (1) CN106599725B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302521B (zh) * 2017-05-23 2021-03-23 全球能源互联网研究院有限公司 一种用户隐私数据的发送方法和接收方法
CN107742083B (zh) * 2017-10-31 2019-10-25 华中科技大学 一种面向大规模图数据发布的隐私保护方法及系统
CN111159771A (zh) * 2019-12-30 2020-05-15 论客科技(广州)有限公司 一种应用程序的显示方法、服务器及终端
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法
CN113190841A (zh) * 2021-04-27 2021-07-30 中国科学技术大学 一种使用差分隐私技术防御图数据攻击的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902924A (zh) * 2014-04-17 2014-07-02 广西师范大学 社交网络数据发布的混合随机化隐私保护方法
CN104866781A (zh) * 2015-05-27 2015-08-26 广西师范大学 面向社区检测应用的社会网络数据发布隐私保护方法
CN105871891A (zh) * 2016-05-17 2016-08-17 中国互联网络信息中心 一种dns隐私泄露风险评估方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268773A1 (en) * 2011-09-07 2013-10-10 Elwha Llc Computational systems and methods for preparing data for double-encryption and anonymous storage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902924A (zh) * 2014-04-17 2014-07-02 广西师范大学 社交网络数据发布的混合随机化隐私保护方法
CN104866781A (zh) * 2015-05-27 2015-08-26 广西师范大学 面向社区检测应用的社会网络数据发布隐私保护方法
CN105871891A (zh) * 2016-05-17 2016-08-17 中国互联网络信息中心 一种dns隐私泄露风险评估方法及系统

Also Published As

Publication number Publication date
CN106599725A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN106599725B (zh) 图数据发布的随机化隐私保护方法
US11176200B2 (en) Fast component enumeration in graphs with implicit edges
Ali et al. A comparative study: Blockchain technology utilization benefits, challenges and functionalities
US20170061398A1 (en) Cryptographic currency block chain based voting system
Song et al. Protection of image ROI using chaos-based encryption and DCNN-based object detection
US10360390B2 (en) Oblivious order-preserving encryption
CN111931950A (zh) 一种基于联邦学习进行模型参数更新的方法及系统
CN104954234B (zh) 一种微博数据获取方法、装置及舆情分析方法
JP7280303B2 (ja) モデル連合訓練方法、装置、電子機器、記憶媒体並びにコンピュータプログラム
CN105900121A (zh) 用于生成活动流的方法
CN115525909A (zh) 差分隐私高频命中项的安全多方计算
CN114564752B (zh) 一种基于图联邦的黑名单传播方法
CN108140176A (zh) 从对通信的本地搜索和远程搜索中并行地识别搜索结果
CN112116008A (zh) 基于智能决策的目标检测模型的处理方法、及其相关设备
JP7439305B2 (ja) 差分プライベートな頻度の重複排除
Zeng et al. Stackelberg game under asymmetric information in critical infrastructure system: From a complex network perspective
Liu et al. Stationary distribution of a stochastic SIS epidemic model with double diseases and the Beddington-DeAngelis incidence
CN115630374B (zh) 可信数控系统的测试方法、装置、计算机设备和存储介质
Sbert et al. Variance Analysis of Multi‐sample and One‐sample Multiple Importance Sampling
CN107302521A (zh) 一种用户隐私数据的发送方法和接收方法
Gupta et al. Ddos attack detection through digital twin technique in metaverse
VijayaChandra et al. Numerical formulation and simulation of social networks using graph theory on social cloud platform
CN107005576A (zh) 从服务器日志生成用于链接标识符的桥接匹配标识符
CN113807415A (zh) 联邦特征选择方法、装置、计算机设备和存储介质
CN111242567A (zh) 一种工作流节点的权限控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant