CN109726758A - 一种基于差分隐私的数据融合发布算法 - Google Patents

一种基于差分隐私的数据融合发布算法 Download PDF

Info

Publication number
CN109726758A
CN109726758A CN201811616199.5A CN201811616199A CN109726758A CN 109726758 A CN109726758 A CN 109726758A CN 201811616199 A CN201811616199 A CN 201811616199A CN 109726758 A CN109726758 A CN 109726758A
Authority
CN
China
Prior art keywords
data
fusion
data set
algorithm
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811616199.5A
Other languages
English (en)
Other versions
CN109726758B (zh
Inventor
李万杰
张兴
史伟
曹光辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Yiai IOT Co.,Ltd.
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN201811616199.5A priority Critical patent/CN109726758B/zh
Publication of CN109726758A publication Critical patent/CN109726758A/zh
Application granted granted Critical
Publication of CN109726758B publication Critical patent/CN109726758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于差分隐私的数据融合发布机制,包括:步骤一、确定多个数据拥有者,通过分类融合算法对数据集进行数据融合;步骤二、对融合后的数据进行个性化的差分隐私处理,并根据差分情况设置相应的隐私预算;步骤三、向融合并分级后的数据集中加入与其对应的Laplace噪声,得到具有不同隐私保护级别的融合后的隐私数据。本算法解决了当前数据融合发布算法无法抵御背景知识攻击的缺点,并提供个性化服务的分级发布,同时减少数据融合花费时间并保证了融合发布后的数据具有较好的质量和价值。

Description

一种基于差分隐私的数据融合发布算法
技术领域
本发明涉及一种数据融合发布算法,特别是一种基于差分隐私的数据融合发布算法。
背景技术
大数据共享时代的到来,数据的融合可以做更好地决策分析。例如,人口普查记录的融合能够更全面满足生活情况的调研,病人医疗数据的融合有利于医院分析疾病成因等信息。然而在数据共享带来极大方便的同时,共享的数据存在着隐私泄露的问题。不同的用户对于数据的使用需求不同,当用户的信任等级不同、访问权限不同时,需要发布隐私保护程度不同的数据,这就需要对数据进行分级发布。因此,在数据融合的过程中不泄露数据隐私的前提下,针对用户的不同信任等级、不同访问权限或对数据使用的不同需求,对数据进行融合分级发布,以便达到实现不同等级隐私保护的目的。
国内外学者在数据融合安全发布方面展开了广泛地研究。文献“AMODEL FOR P-ROTECTING PRIVACY,作者:Latanyasweeney”,记载,现有的K-Anonymity及其改进算法是重要的隐私保护方法。K-Anonymity要求发布的数据记录中至少存在k-1条记录,使得攻击无法识别区分,从而保护用户的隐私信息。K-Anonymity在数据融合方面的研究也一直备受关注。文献“A secure distributed framework for achieving k-anonymity,作者Wei J”中,提出一种安全分布式框架实现了满足K-匿名的数据融合,但当数据量庞大时,该方法花费的时间过长,而且不能实现三表及以上的数据融合,但是在每次进行特殊化处理时要计算两方安全最大值,使得整个算法花费较大的时间。文献“基于k-匿名的多源数据融合算法研究,作者:杨月平”中,提出了一种基于K-Anonymity结合自顶向下分类树算法的数据融合算法,减少融合过程所花费的时间,提高融合数据的准确性,但是,这种模型很难抵制背景知识攻击等变体攻击。文献“基于动态分类树构造的集值型数据差分隐私保护方法,作者:郑剑”中提出了CDTT算法,该算法在差分隐私保护下,构建动态分类树,有效地解决了上述问题,但其算法并没有考虑到用户分级的情况,使得发布的数据利用率不高。
发明内容
本发明设计开发了一种基于差分隐私的数据融合发布算法,能够克服现有算法无法抵御背景知识攻击的缺点,使融合后的数据能够较好地保护数据隐私且不会导致隐私预算耗尽,减少数据融合花费时间并保证了融合发布后的数据具有较高的质量和价值。
本发明提供的技术方案为:
一种基于差分隐私的数据融合发布算法,包括:
步骤一、确定多个数据拥有者,通过分类融合算法对数据集进行数据融合;
步骤二、对融合后的数据进行个性化的差分隐私处理,并根据差分情况设置相应的隐私预算;
步骤三、向融合并分级后的数据集中加入与其对应的Laplace噪声,得到具有不同隐私保护级别的融合后的隐私数据。
优选的是,所述步骤一包括:
对数据集进行初始化,构造数据集D的矩阵A,找到A中出现任意两项出现次数最多对应的项集Mmax[i,j],设Q1=Mmax[i,j];在i,j所在行找出次数最小的项集Mmin[t,s],在t,s所在行找到最大的项集Mmax[a,b],设Q2=Mmax[a,b],迭代上述步骤,得到的初始数据集包括:D0,D1,D2,...,DH
其中,A为n*n的方阵,其中n表示数据集D的全集。
优选的是,所述步骤二包括:
步骤1、选出D0出现一次的记录,根据此记录中任意两项出现的次数,选择两项作为第一个分支,然后选出的次数出现最少的两项,选择在其所在行中的最大的值作为第二个分支,依次迭代地选取其它项集与这两个分支组合,直至所有的项集被选出;
步骤2、为D0构造分类树C-Tree(i-1),然后为需要D0与融合的数据集D1,D2,...,DH,设置更新增量H,查询用户通过可信代理服务器利用假名机制获得与其身份对应的假名标识符;
步骤3、对查询用户进行等级划分,数据融合发布系统根据用户身份对应等级,设置不同的隐私预算εi,发布具有相应隐私保护程度的数据集。
优选的是,所述步骤二中,根据查询用户的访问权限、付费情况以及对于数据使用的不同需求,进行等级划分,访问权限高或付费多的资源需要分配高等级,反之则分配低等级。
优选的是,所述步骤三包括:
步骤a、当数据集Di与D0融合时,先将Di中记录添加到C-Tree(i-1)的根节点,其中Di表示待融合的数据集,i的取值范围为[1,H];
步骤b、对Di中的记录gi,当记录gi不为空且被分配到C-Tree(i-1)的非叶子节点中,就按照C-Tree(i-1)的分类方法分配该记录;
当记录gi被分配到C-Tree(i-1)的叶子结点,则分割该节点并重新分配该节点的差分隐私预算;
当记录gi为空,则对下一条记录做上述步骤,直至所有记录分配完生成新的分类树C-Tree(i)
步骤c、根据分配好的隐私预算向C-Tree(i)的叶子节点添加Laplace噪音,最后依次迭代对于不同的隐私预算参数εi进行上述步骤,得到具有不同隐私保护级别的融合后的隐私数据。
优选的是,所述步骤三中构造初始分类树的时间复杂度为O(|L|·|I|),|L|表示初始数据集的长度,数据融合的时间复杂度为O(N·|D|·|I|),N表示融合数据集个数,|D|表示融合数据集长度。
本发明的有益效果:(1)多个数据源拥有者通过分类融合算法融合数据;(2)对融合后的数据进行个性化的差分隐私处理,在进行差分隐私处理的过程中,根据用户的权限等级或付费情况,设置合理的隐私预算参数;(3)在用户进行查询时,为保护查询用户的身份不被泄露,使用假名机制来实现对用户的隐私保护。
本算法解决了当前数据融合发布算法无法抵御背景知识攻击的缺点,并提供个性化服务的分级发布,同时减少数据融合花费时间并保证了融合发布后的数据具有较好的质量和价值。
对于数据信息需求而言,基于差分隐私的数据融合方法融合后的数据具有可靠的利用率,可以实现决策分析等操作工作;对于数据隐私而言,使用差分隐私保护方法能够弥补K-匿名不能抵制背景知识攻击的缺点,而且不会导致隐私预算耗尽等问题。
附图说明
图1为本发明所述的Laplace概率密度函数的结构示意图。
图2为本发明所述的简单数据集分类树示意图。
图3为本发明所述的满足差分隐私保护的数据融合发布框架图。
图4为本发明所述的隐私参数与查询结果错误率的对应关系图。
图5为本发明所述的两方数据融合花费时间对比图。
图6为本发明所述的三方数据融合花费时间对比图。
图7为本发明所述的ε=0.005时的分类精度图。
图8为本发明所述的ε=0.05时的分类精度图。
图9为本发明所述的ε=0.1时的分类精度图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1-9所示,本发明提供一种基于差分隐私的数据融合发布算法,具体包括:首先对多个数据拥有者的数据表进行融合,每张数据表代表完整数据集的一部分属性;然后由于数据使用者的权限等级、付费情况或对于发布数据的使用需求不同,需要对用户进行分级处理,利用用户的等级划分,对数据属性的重要度进行划分,按照重要程度设置不同的隐私预算;最后在融合数据集中加入与其对应的Laplace噪声,同时保证融合发布后的数据满足具有较好的利用率,可以有效地提供决策分析等操作;以及数据能够较好地保护数据隐私且不会导致隐私预算耗尽等问题。
数据融合是指将两个数据集通过记录中的相同ID合并或将不存在的ID记录加入集合,融合形成新的具有更多属性、更为全面的数据集。数据的融合有利于数据分析者做更好地决策分析。例如,表1为3个用户A、B、C在超市S1购买啤酒I1、可乐I2、牛奶I3产生的购物数据,表2为4个用户A、B、C、D在超市S2购买啤酒I1、可乐I2、牛奶I3、咖啡I4产生的购物数据,将表1和表2的数据融合生成新的融合数据表3,为统计并挖掘分析用户的购买行为做好准备。
表1超市S1购物数据
表2超市S2购物数据
表3融合后购物数据
差分隐私保护技术通过向原始数据集的转换或其统计结果添加噪声来达到隐私保护的目的。该方法确保了在任一数据集中更改一条记录的操作而不影响查询的输出结果。此外,该模型可以抵御攻击者掌握了除某一记录外的所有信息的背景知识攻击,具体描述如下:
给定两个数据集D和D',二者完全相同或者至多相差一条记录,给定随机算法A,Range(A)表示A的值域,S为Range(A)的子集。如果A满足式(1),则算法A满足ε-差分隐私。
Pr[A(D)∈S]≤eε×Pr[A(D′)∈S] (1)
其中,概率Pr[·]表示算法的概率,由算法A决定;ε为隐私预算,表示算法A的隐私保护程度,ε的值越小,A的隐私保护程度越高。
实现差分隐私保护常介入两种噪声机制,分别是拉普拉斯机制和指数机制。
在本发明中,作为一种优选,采用Laplace噪音机制。
Laplace机制通过将服从Laplace分布的噪声介入准确的查询统计结果来达到ε-差分隐私保护的目的。设Laplace分布Lap(b)位置参数为0的概率密度函数为p(x),其表示形式为:
给定数据集D,对于任一查询函数f:D→Rd,其敏感度为Δf,则随机算法A(D)=f(D)+Y提供ε-差分隐私保护。其中,f(D)表示对于数据集D的查询函数;A(D)表示经过算法A加入噪声后的输出结果;Y~Lap(Δf/ε)为随机噪声,表示Y是服从尺度参数为Δf/ε的Laplace噪声分布。
如图1所示,从不同参数的Laplace分布可知,当ε的值越小,介入的噪声越大。
如图2所示,图2给出了数据集T={T1,T2,T3,T4}的分类树。分类树采用泛化技术作为形成分类树的核心技术,将给定数据集中的项作为叶子结点,泛化叶子结点作为分类树的节点,树的根节点是所有叶子结点的集合,其具体表现形式为child(v)→v。
图中T{1,2,3,4}是分类树的根结点,例如T{1}和T{2}是叶子结点,泛化为T{1,2}作为分类树的节点。在数据融合时,数据拥有者提供数据表的属性分类树。
如图3所示,数据分级融合发布主要由多个数据源、可信代理及查询用户组成。(1)多个数据源拥有者通过分类融合算法融合数据;(2)对融合后的数据进行个性化的差分隐私处理,在进行差分隐私处理的过程中,根据用户的权限等级或付费情况,设置合理的隐私预算参数;(3)在用户进行查询时,为保护查询用户的身份不被泄露,使用假名机制来实现对用户的隐私保护。
在系统初始化阶段,首先,查询用户需要通过可信代理服务器利用假名机制获得与其身份对应的假名标识符(Alias(ID),ID为用户身份)。其次,依据用户访问权限、付费情况或对于数据使用的不同需求,进行等级划分,访问权限高或付费多的资源需要分配高等级,反之则分配低等级(相应等级记为L)。可信代理将用户等级存储至查询服务器。数据融合发布系统根据用户身份对应等级,设置不同的隐私预算ε,发布具有相应隐私保护程度的数据集。身份假名与相应隐私预算等级划分如表4所示。
表4身份假名-隐私预算等级划分表
在数据融合发布算法中,通过介入不同数值拉普拉斯噪声实现敏感数据的隐私保护,本算法根据设定的用户不同等级以及与用户等级相应的的隐私预算ε,实现不同隐私保护程度与查询用户级别的对应关系,最终输出介入不同数值拉普拉斯噪声的差分隐私融合算法融合后的数据,实现对融合的数据分级化发布。
对于数据融合而言,具体如下:
首先初始化一个数据集D0,选出D0出现一次的记录,根据此记录中任意两项出现的次数,选择两项作为第一个分支,然后选出的次数出现最少的两项,选择在其所在行中的最大的值作为第二个分支,依次迭代地选取其它项集与这两个分支组合,直至所有的项集被选出,为D0构造分类树C-Tree(0)
然后设置更新增量H以及与查询用户级别对应的隐私预算εi,其中根据查询用户授权或付费情况等方式来划分用户级别,按照支付金额或授权大小,为用户分配高级别或低级别,并且相应获得的查询结果的准确性也遵循从高到低的原则;
当新的数据集Di与D0融合时,先将Di中记录添加到C-Tree(i-1)的根节点,对Di中的记录作下列步骤:(1)如果某记录不为空且被分配到C-Tree(i-1)的非叶子节点中,就按照C-Tree(i-1)的分类方法分配该记录;(2)如果某记录被分配到C-Tree(i-1)的叶子结点,则分割该节点并重新分配该节点的差分隐私预算;(3)如果某记录为空,则对下一条记录做上述步骤,直至所有记录分配完生成新的分类树C-Tree(i)
根据分配好的隐私预算向C-Tree(i)的叶子节点添加Laplace噪音,最后依次迭代对于不同的隐私预算参数ε进行以上步骤即可,最终产生具有不同隐私保护级别的融合后的隐私数据。
基于差分隐私的数据融合发布算法的具体过程如下:
步骤a、对多个数据拥有者拥有的数据集进行初始化,得到的初始数据集包括:D0,D1,D2,...,DH,设置查询用户为ID(m),查询用户通过可信代理服务器利用假名机制获得与其身份对应的假名标识符(Alias(ID),ID为用户身份)。其次,依据用户访问权限、付费情况或对于数据使用的不同需求,进行等级划分,访问权限高或付费多的资源需要分配高等级,反之则分配低等级(相应等级记为L)。数据融合发布系统根据用户身份对应等级,设置不同的隐私预算εi对ID(m)设置假名为Alias(ID(m)),查询等级为Lm,隐私预算为εm,设置更新增量为H。
根据用户查询等级Lm,判定所需的隐私预算等级εm
对于更新增量进行隐私预算分配,其中ε'm为新增数据记录的总体隐私预算。
步骤b、构造D0的矩阵A,A为n*n的方阵,其中n表示数据集D0的全集,找到A中任意两项出现次数最多对应的项集Mmax[i,j],Q1=Mmax[i,j],其中Q1表示矩阵A中最大二项集;
在i,j所在行找出次数最小的项集Mmin[t,s],在t,s所在行找到最大的项集Mmax[a,b],Q2=Mmax[a,b],其中Q2表示t,s所在行的最大二项集。
迭代上述步骤对于Q1,Q2,得到D0的分类树C-Tree(0)
步骤c、对D1,D2,...,DH进行如下步骤:
设V表示所有融合的数据集全集,则V=D0,D1,D2,...,DH
设G表示数据集Di中的所有记录,即表示G=Di中的所有记录;
C-Tree(0)的根结点作为记录g的划分g→cut,记作g→cut=C-Tree(0)
g的隐私预算为
设g中的每一条记录gi的隐私预算记为gi→α,对于gi的隐私预算,则有
将G添加到C-Tree(i-1)的根结点,当gi不为空且不是叶子结点,按照C-Tree(i-1)的分类方法分配此节点,即:
将更新完成的gi加入到更新完成的数据集合当中,记作V=gi∪V;(3)。
当gi不为空或gi分配到叶子结点,则分割该节点,执行(1)至(3),
当gi为空时,则重复步骤c并返回C-Tree(i)
步骤d、分配Di中的所有记录,根据分配好的隐私预算向C-Tree(i)的叶子节点添加Laplace噪音,发布融合后的C-Tree(i)中叶子结点的信息,得到加不同隐私预算参数ε噪音的融合数据集D′i
正确性:(1)对于数据信息需求而言,基于差分隐私的数据融合方法融合后的数据具有可靠的利用率,可以实现决策分析等操作工作;(2)对于数据隐私而言,使用差分隐私保护方法能够弥补K-匿名不能抵制背景知识攻击的缺点,而且不会导致隐私预算耗尽等问题。
复杂性:算法主要花费表现在以下两个方面:
(1)构造分类树。选出数据集出现一次的记录,根据此记录中任意两项出现的次数,选择两项作为第一个分支,然后选出的次数出现最少的两项,选择在其所在行中的最大的值作为第二个分支,依次迭代地选取其它项集与这两个分支组合,直至所有的项集被选出,在此过程中,需要根据任意两项出现的次数生成关系矩阵,遍历整个数据集。
(2)数据融合隐私预算分配。当新的数据集Di进行融合时,Di中的记录被插入到C-Tree(i-1)的根结点中,迭代地分配到不同的分支中,并且重新分配隐私预算。在此过程中需要根据分类树将融合的数据记录划分为单个子分割。
其中,构造初始分类树的时间复杂度为O(|L|·|I|),|L|表示初始数据集的长度,数据融合的时间复杂度为O(N·|D|·|I|),N表示融合数据集个数,|D|表示融合数据集长度。
在本发明中,作为一种优选,采用下载的Income数据集,该数据集包含Age、Education、Gender、Birthplace、Work-class、Occupation、Income、Race、Maritalstatus等8个属性,其中Income为敏感属性,该数据集的8个属性全部为数值型数据。
对于用户等级的划分标准,可依据发布数据错误率来衡量。若数据使用者期望得到查询结果错误率小于1%的数据,则取ε=0.1;若期望查询结果错误率在10%~20%之间的数据,则取ε=0.005。由此可见,可以把ε取自集合(0.001,0.1),按照ε的取值大小来对应划分用户等级。如图4所示、
为了验证本发明在提供较好的隐私保护水平下,数据具有较好的可用性,实验工作是与CDTT算法的性能进行比较,测试针对不同的差分隐私预算参数ε,不同数量的属性,不用数量的数据表,完成数据融合所花费的时间和得到融合发布记录的分类精度。
(1)分类所花费时间实验:
算法花费时间可用每秒所完成的分类数据量(T/s)来评估。T/s的结果越大表示完成分类的数量越大,说明算法所花费的时间越少,算法的性能越好。
实验中取ε=0.005,数据集记录数为10k-400k,分别取融合记录有3个属性、5个属性进行本文算法和CDTT算法,比较二者花费时间。
图5为Income数据集分为两方数据,比较本文算法与CDTT算法进行数据融合时花费的时间,Qi表示融合记录的属性数量。从图5中可以看出,在相同的隐私预算参数ε,相同的Qi下,本文算法进行数据融合所花费时间比CDTT算法花费更少。
实验中取ε=0.005,数据集记录数为10k-400k,分别取融合记录有3个属性、5个属性进行本文算法,比较在不同数量的属性情况下,本算法进行三方数据融合所花费的时间。
图6为本算法在属性不同情况下,三方数据融合所花费的时间。从图6中可以看出,融合同一大小的数据记录数,属性增加时,花费时间会增加;随着数据记录数的增加,二者花费时间基本相同。
实验中分别取ε=0.01、ε=0.05、ε=0.1满足分级条件,Qi=5,以此进行实验,对比提出算法与CDTT算法融合后数据分类的精确度。图7为不同ε下两种算法的分类精度图。
从图7、图8、图9中可以看出,当ε值较小时,即用户等级较低,两种算法分类精度基本一致,但随着隐私预算参数的增加,即用户等级的增大,本文提出的算法相比于CDTT算法分类精度相对较高,数据质量相对较好。
总而言之,通过上面几个分析对比可以看出,本方法相比于CDTT算法,在相同的隐私保护程度下,花费时间更少,发布的数据质量更好。同时,弥补了传统的隐私保护算法不能分级融合发布的缺陷。
在计算机平台上搭建开发环境,作为一种优选,本发明中选用Income数据集,包括:Age、Education、Gender、Birthplace、Work-class、Occupation、Income、Race、Maritalstatus等8个属性,其中Income为敏感属性,该数据集的8个属性全部为数值型数据。
取隐私预算ε=0.005的条件下,数据集记录数为10k-400k,分别取融合记录有3个属性、5个属性进行本文算法和CDTT算法,比较二者花费时间。
图5为Income数据集分为两方数据,比较本文算法与CDTT算法进行数据融合时花费的时间,Qi表示融合记录的属性数量。从图5中可以看出,在相同的隐私预算参数ε,相同的Qi下,本文算法进行数据融合所花费时间比CDTT算法花费更少。
图6为本算法在属性不同情况下,三方数据融合所花费的时间。从图6中可以看出,融合同一大小的数据记录数,属性增加时,花费时间会增加;随着数据记录数的增加,二者花费时间基本相同。
如图7-9所示,分别取ε=0.01、ε=0.05、ε=0.1满足分级条件,Qi=5,以此进行实验,对比提出算法与CDTT算法融合后数据分类的精确度。图7为不同ε下两种算法的分类精度图。当ε值较小时,即用户等级较低,两种算法分类精度基本一致,但随着隐私预算参数的增加,即用户等级的增大,本文提出的算法相比于CDTT算法分类精度相对较高,数据质量相对较好。
本文提出的基于差分隐私的数据分级融合发布机制,在数据融合发布过程中,保持了融合后数据的可用性,同时保护了数据中的敏感信息。本文方法与基于K-匿名系列方法相比,在融合的过程中,主要有三处改进:第一点是将将数据融合与差分隐私保护结合,将差分隐私技术引用到数据融合中,使得融合发布后的数据更具安全性;第二点采用分级方法,使得融合后的数据对于隐私保护程度更具针对性;第三点提出的基于分类树的隐私预算方法能够更合理地分配隐私预算,避免隐私预算的过早耗尽。实验表明,本文算法既能在一定程度上减少花费时间实现数据的分级融合,又能保持数据的可用性且能够有效的保护敏感数据的隐私性。未来将继续研究差分隐私保护在数据融合发布中的应用。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (6)

1.一种基于差分隐私的数据融合发布算法,其特征在于,包括:
步骤一、确定多个数据拥有者,通过分类融合算法对数据集进行数据融合;
步骤二、对融合后的数据进行个性化的差分隐私处理,并根据差分情况设置相应的隐私预算;
步骤三、向融合并分级后的数据集中加入与其对应的Laplace噪声,得到具有不同隐私保护级别的融合后的隐私数据。
2.根据权利要求1所述的基于差分隐私的数据融合发布算法,其特征在于,所述步骤一包括:
对数据集进行初始化,构造数据集D的矩阵A,找到A中出现任意两项出现次数最多对应的项集Mmax[i,j],设Q1=Mmax[i,j];在i,j所在行找出次数最小的项集Mmin[t,s],在t,s所在行找到最大的项集Mmax[a,b],设Q2=Mmax[a,b],迭代上述步骤,得到的初始数据集包括:D0,D1,D2,...,DH
其中,A为n*n的方阵,其中n表示数据集D的全集。
3.根据权利要求2所述的基于差分隐私的数据融合发布算法,其特征在于,所述步骤二包括:
步骤1、选出D0出现一次的记录,根据此记录中任意两项出现的次数,选择两项作为第一个分支,然后选出的次数出现最少的两项,选择在其所在行中的最大的值作为第二个分支,依次迭代地选取其它项集与这两个分支组合,直至所有的项集被选出;
步骤2、为D0构造分类树C-Tree(i-1),然后为需要D0与融合的数据集D1,D2,...,DH,设置更新增量H,查询用户通过可信代理服务器利用假名机制获得与其身份对应的假名标识符;
步骤3、对查询用户进行等级划分,数据融合发布系统根据用户身份对应等级,设置不同的隐私预算εi,发布具有相应隐私保护程度的数据集。
4.根据权利要求3所述的基于差分隐私的数据融合发布算法,其特征在于,所述步骤二中,根据查询用户的访问权限、付费情况以及对于数据使用的不同需求,进行等级划分,访问权限高或付费多的资源需要分配高等级,反之则分配低等级。
5.根据权利要求4所述的基于差分隐私的数据融合发布算法,其特征在于,所述步骤三包括:
步骤a、当数据集Di与D0融合时,先将Di中记录添加到C-Tree(i-1)的根节点,其中Di表示待融合的数据集,i的取值范围为[1,H];
步骤b、对Di中的记录gi,当记录gi不为空且被分配到C-Tree(i-1)的非叶子节点中,就按照C-Tree(i-1)的分类方法分配该记录;
当记录gi被分配到C-Tree(i-1)的叶子结点,则分割该节点并重新分配该节点的差分隐私预算;
当记录gi为空,则对下一条记录做上述步骤,直至所有记录分配完生成新的分类树C-Tree(i)
步骤c、根据分配好的隐私预算向C-Tree(i)的叶子节点添加Laplace噪音,最后依次迭代对于不同的隐私预算参数εi进行上述步骤,得到具有不同隐私保护级别的融合后的隐私数据。
6.根据权利要求5所述的基于差分隐私的数据融合发布算法,其特征在于,所述步骤三中构造初始分类树的时间复杂度为O(|L|·|I|),|L|表示初始数据集的长度,数据融合的时间复杂度为O(N·|D|·|I|),N表示融合数据集个数,|D|表示融合数据集长度。
CN201811616199.5A 2018-12-28 2018-12-28 一种基于差分隐私的数据融合发布算法 Active CN109726758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811616199.5A CN109726758B (zh) 2018-12-28 2018-12-28 一种基于差分隐私的数据融合发布算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811616199.5A CN109726758B (zh) 2018-12-28 2018-12-28 一种基于差分隐私的数据融合发布算法

Publications (2)

Publication Number Publication Date
CN109726758A true CN109726758A (zh) 2019-05-07
CN109726758B CN109726758B (zh) 2021-01-08

Family

ID=66297888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811616199.5A Active CN109726758B (zh) 2018-12-28 2018-12-28 一种基于差分隐私的数据融合发布算法

Country Status (1)

Country Link
CN (1) CN109726758B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143674A (zh) * 2019-12-20 2020-05-12 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN111324911A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 一种隐私数据保护方法、系统及装置
CN112131608A (zh) * 2020-08-03 2020-12-25 辽宁工业大学 一种满足lkc模型的分类树差分隐私保护方法
CN112765653A (zh) * 2021-01-06 2021-05-07 山财高新科技(山西)有限公司 一种多隐私策略组合优化的多源数据融合隐私保护方法
CN112989425A (zh) * 2021-04-26 2021-06-18 南京审计大学 基于差分隐私的信用数据隐私保护方法及其系统
CN116702214A (zh) * 2023-08-02 2023-09-05 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统
CN117521117A (zh) * 2024-01-05 2024-02-06 深圳万海思数字医疗有限公司 一种医疗数据应用安全与隐私保护方法及系统
CN117521117B (zh) * 2024-01-05 2024-07-16 深圳万海思数字医疗有限公司 一种医疗数据应用安全与隐私保护方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135362A (zh) * 2014-07-21 2014-11-05 南京大学 一种基于差分隐私发布的数据的可用性计算方法
CN104133903A (zh) * 2014-08-04 2014-11-05 华中科技大学 一种基于隐私保护的数据索引方法
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法
CN107526975A (zh) * 2017-08-10 2017-12-29 中国人民大学 一种基于差分隐私保护决策树的方法
US20180048654A1 (en) * 2015-11-02 2018-02-15 LeapYear Technologies, Inc. Differentially Private Processing and Database Storage
CN108563962A (zh) * 2018-05-03 2018-09-21 桂林电子科技大学 一种基于空间位置服务的差分隐私保护方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法
US20180336357A1 (en) * 2017-05-22 2018-11-22 Georgetown University Locally private determination of heavy hitters

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135362A (zh) * 2014-07-21 2014-11-05 南京大学 一种基于差分隐私发布的数据的可用性计算方法
CN104133903A (zh) * 2014-08-04 2014-11-05 华中科技大学 一种基于隐私保护的数据索引方法
US20180048654A1 (en) * 2015-11-02 2018-02-15 LeapYear Technologies, Inc. Differentially Private Processing and Database Storage
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法
US20180336357A1 (en) * 2017-05-22 2018-11-22 Georgetown University Locally private determination of heavy hitters
CN107526975A (zh) * 2017-08-10 2017-12-29 中国人民大学 一种基于差分隐私保护决策树的方法
CN108563962A (zh) * 2018-05-03 2018-09-21 桂林电子科技大学 一种基于空间位置服务的差分隐私保护方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YEYE HE 等: "Anonymization of Set-Valued Data Via Top-Down,Local Generalization", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *
姚剑波: "《大数据安全与隐私》", 31 July 2017 *
张文静等: "差分隐私保护下的数据分级发布机制", 《网络与信息安全学报》 *
郑剑等: "基于动态分类树构造的集值型数据差分隐私保护方法", 《计算机应用研究》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143674A (zh) * 2019-12-20 2020-05-12 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN111324911A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 一种隐私数据保护方法、系统及装置
CN111324911B (zh) * 2020-05-15 2021-01-01 支付宝(杭州)信息技术有限公司 一种隐私数据保护方法、系统及装置
CN112131608A (zh) * 2020-08-03 2020-12-25 辽宁工业大学 一种满足lkc模型的分类树差分隐私保护方法
CN112131608B (zh) * 2020-08-03 2024-01-26 辽宁工业大学 一种满足lkc模型的分类树差分隐私保护方法
CN112765653A (zh) * 2021-01-06 2021-05-07 山财高新科技(山西)有限公司 一种多隐私策略组合优化的多源数据融合隐私保护方法
CN112765653B (zh) * 2021-01-06 2022-11-25 山财高新科技(山西)有限公司 一种多隐私策略组合优化的多源数据融合隐私保护方法
CN112989425A (zh) * 2021-04-26 2021-06-18 南京审计大学 基于差分隐私的信用数据隐私保护方法及其系统
CN116702214A (zh) * 2023-08-02 2023-09-05 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统
CN116702214B (zh) * 2023-08-02 2023-11-07 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统
CN117521117A (zh) * 2024-01-05 2024-02-06 深圳万海思数字医疗有限公司 一种医疗数据应用安全与隐私保护方法及系统
CN117521117B (zh) * 2024-01-05 2024-07-16 深圳万海思数字医疗有限公司 一种医疗数据应用安全与隐私保护方法及系统

Also Published As

Publication number Publication date
CN109726758B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN109726758A (zh) 一种基于差分隐私的数据融合发布算法
US11385942B2 (en) Systems and methods for censoring text inline
Zhang et al. Privbayes: Private data release via bayesian networks
US20230185827A1 (en) System and method for enabling multiple parents with weights in a multidimensional database environment
CN105357201B (zh) 一种对象云存储访问控制方法和系统
US20180198826A1 (en) Control over data resource utilization through a security node control policy evaluated in the context of an authorization request
US8868535B1 (en) Search engine optimizer
US11630853B2 (en) Metadata classification
CA2957674C (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
US8838547B2 (en) Web-enabled database access tools
CN107016001A (zh) 一种数据查询方法及装置
CN110378148B (zh) 一种面向云平台的多域数据隐私保护方法
CN112883070B (zh) 一种带有差分隐私的生成式对抗网络推荐方法
Kalampokis et al. Linked open cube analytics systems: Potential and challenges
US11968214B2 (en) Efficient retrieval and rendering of access-controlled computer resources
Diao et al. Efficient exploration of interesting aggregates in RDF graphs
Batra et al. Incremental maintenance of abac policies
CN106250453A (zh) 基于云存储的数值型数据的密文检索方法及装置
Fotache et al. Framework for the Assessment of Data Masking Performance Penalties in SQL Database Servers. Case Study: Oracle
Desamsetti Relational Database Management Systems in Business and Organization Strategies
Hu et al. Nonnegative matrix tri-factorization based clustering in a heterogeneous information network with star network schema
US20030163465A1 (en) Processing information about occurrences of multiple types of events in a consistent manner
CN106528872B (zh) 一种在大数据环境下的数据搜索方法
EP3696704A1 (en) Pseudo-data generating device, method and program
Chen et al. Protecting sensitive labels in weighted social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221222

Address after: Room 204-4, Block B, Floor 2, Building A, No. 6, Yinka East Road, Shenyang, Liaoning Province, 110000

Patentee after: Liaoning Yiai IOT Co.,Ltd.

Address before: 121001, 169 street, Guta District, Liaoning, Jinzhou

Patentee before: LIAONING University OF TECHNOLOGY