CN105512247B - 基于一致性特征的非交互式差分隐私发布模型的优化方法 - Google Patents

基于一致性特征的非交互式差分隐私发布模型的优化方法 Download PDF

Info

Publication number
CN105512247B
CN105512247B CN201510862311.3A CN201510862311A CN105512247B CN 105512247 B CN105512247 B CN 105512247B CN 201510862311 A CN201510862311 A CN 201510862311A CN 105512247 B CN105512247 B CN 105512247B
Authority
CN
China
Prior art keywords
node
attribute
construction
tree
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510862311.3A
Other languages
English (en)
Other versions
CN105512247A (zh
Inventor
钱磊
宋涛
姚建国
梁阿磊
马汝辉
管海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201510862311.3A priority Critical patent/CN105512247B/zh
Publication of CN105512247A publication Critical patent/CN105512247A/zh
Application granted granted Critical
Publication of CN105512247B publication Critical patent/CN105512247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于一致性特征的非交互式差分隐私发布模型的优化方法,其先为数据集的每个属性建立体现匿名层次的抽象树结构,作为划分原始数据集的依据;所有抽象树的根节点集合组成初始化的划分区间,把原始数据集归入其中,然后自顶向下依次不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生下一层区间集,并划分数据集,依次类推直到事先定义的算法迭代次数,最终生成一棵构造树,并在叶节点处加拉普拉斯噪音;接着利用节点间的一致性特性,运行噪音优化算法f,使得在满足差分隐私保护的前提下,用父节点做应答的方式替代子节点组合的计算模式,大幅度减轻发布数据集对于范围查询类应用的噪音叠加问题。本发明有效的地缓解了范围计数类查询中的噪音叠加问题,并且符合差分隐私保护的定义,减少了隐私保护的代价,有效提高了发布数据在后续应用中的可用性。

Description

基于一致性特征的非交互式差分隐私发布模型的优化方法
技术领域
本发明涉及计算机数据挖掘、机器学习、数据隐私保护等领域。具体来讲,是一种利用数据关系间的一致性减少不必要的噪音引入,针对范围查询频繁的应用类型,提升非交互式差分隐私框架下发布数据的可用性。
背景技术
数据应用领域中的数据隐私保护问题越来越引起关注。对于数据拥有者而言,数据中所包含的隐私信息是在数据发布中特别需要注重和保护的问题。传统的保护方式虽然能保护数据的隐私信息,但是它们都是基于特殊的攻击假设和背景知识,一旦攻击者掌握了某些隐私数据的前景信息或者进行组合攻击的时候,传统的隐私保护方法就变得不那么安全可靠了。差分隐私已经成为了新的隐私保护模型,它提供了强有力的隐私保障,通过在隐私数据中添加适当的噪音达到保护的目的,而不管攻击者拥有多少的隐私数据相关的背景知识和攻击手段。
很多的算法和应用是对加噪数据的后续利用,这对于差分隐私框架在对隐私数据的处理上提出了新的要求,仅仅为了保护隐私可能会打破数据的内在联系,并且对于后续的范围查询类应用而言,与查询项成正比的噪音叠加现象会使得发布出的数据可用性大大降低。如何提升发布数据在后续分析应用的准确度成了差分隐私框架研究的一个关键。
差分隐私的形式化定义如下:
定义1:数据集D和D′,二者互相之间至多相差一条记录,即|DΔD′|≤1.给定一个随机算法δ,O为δ上任意一个可能的输出。若算法δ在数据集D和D′上的任意输出满足下列不等式,则δ满足差分隐私.
Pr[δ(D)=O]≤eε×Pr[δ(D’)=O]
其中,概率Pr[·]由算法δ的随机性控制,也表示隐私被披露的风险;隐私预算参数ε表示隐私保护程度,ε越小隐私保护程度越高.从定义1可以看出差分隐私技术限制了任意一条记录对算法δ输出结果的影响.该定义是从理论角度确保算法δ满足ε差分隐私,而要实现差分隐私保护需要噪音机制的介入。
噪音机制是实现差分隐私保护的主要技术,拉普拉斯机制与指数机制是被广泛使用的加噪机制,他们都与敏感性(Sensitive)定义密切相关.敏感性表示了修改数据集中一个条目所能发生的最大改变。
定义2.数据集D和D′,二者互相之间至多相差一条记录,即|DΔD′|≤1。对于任意一个函数:f:D→Rd,函数f的全局敏感性S(f)为:
其中,R表示所映射的实数空间,d表示函数f的查询维度,p表示度量S(f)使用的Lp距离,通常使用L1来度量.
拉普拉斯机制通过产生满足拉普拉斯分布的噪音来扰动真实输出值以实现差分隐私保护。
定理1.对于任一个函数f:D→Rd,若算法δ的输出结果满足下列等式,则δ满足ε差分隐私.
δ(D)=f(D)+<Lap1(S(f)/ε),…,Lapd(S(f)/ε)>
其中,Lapi(S(f)/ε)(1≤i≤d)是相互独立的拉普拉斯变量,噪音量大小与S(f)成正比,与ε成反比.算法δ的全局敏感性越大,所需噪音越大.
指数机制能处理离散属性和连续属性,通过设计打分函数,对每个属性进行打分,按照与分值成正比的概率选择输出属性。
数据拥有者在对数据进行差分隐私处理时,主要有两种分布方式——交互式和非交互式框架。在交互式框架中,用户每次通过接口向数据拥有者发送查询请求,数据库返回相应满足差分隐私的请求应答。在非交互式框架中,数据拥有者一次性将所有数据用满足差分隐私的算法进行处理,然后全部发布给用户查询使用。本发明是基于后一个框架。
对于用户的一些范围计数类查询的应用,比如查询年龄属性在20-50岁范围内的计数情况,而此属性粒度是为10岁,那么就要对20,30,40,50岁的条目进行累加处理。由于加入了噪音,显然在这个过程中发生了噪音的叠加。随着数据集维度和数据列联表稀疏度的影响,对于范围计数类查询来说,噪音的叠加结果可能会接近真是计数值,甚至超过真实值。这会使得到的查询结果可用性大大降低。
发明内容
鉴于范围计数类查询产生的噪音叠加问题,本发明提出一种基于一致性特征的非交互式差分隐私发布模型的优化方法,对原有的非交互式差分隐私发布模型进行优化,减轻单项条目组合时的噪音叠加问题,减少多余的噪音,提升结果可用性。
本发明的技术解决方案如下:
一种基于一致性特征的非交互式差分隐私发布模型的优化方法,包括以下步骤:
步骤1、为每个属性定义具有匿名层级关系的抽象树结构,每个父节点概括了其子节点集,并且定义划分迭代次数上限;
步骤2、选取所有属性的抽象树的根节点集合作为构造树的根节点,所有原数据项都包含在这个节点中;从根节点开始,自顶向下地建树,每次迭代不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生对应的子区间作为下层的子节点集,同时划分原数据项到相应的区间上;依次类推构建下层新节点并划分归纳原数据项,直到达到迭代次数,得到构造树,其每个叶节点是同一类匿名结果的数据项集合。划分属性的选择依据采用符合差分隐私的指数机制。
步骤3、用满足差分隐私的拉普拉斯机制对构造树的叶节点的数据项条目计数加噪,运行不影响差分隐私的调整算法f,自底向上对落在叶节点的噪音进行调整,使其散布在所有节点上。
步骤4、在调整算法f中,基于父子节点对之间的一致性特性,先通过后序遍历再通过先序遍历构造树对噪音进行调整;
步骤5、用叶节点计数值的累加代表对父节点所表示区间的范围查询,根据叶节点上的条目计数值发布新数据集,直接供用户使用。
与现有技术相比,本发明的有益效果如下:
1.有效的地降低了范围计数类查询中的噪音叠加,随着计数范围的增加,此数据准确性较为平稳,起伏细微。并且随着属性抽象层级的增加,在发布出的新数据集稀疏度减小,数据计数变得稀疏的情况下,此数据受影响程度甚小,依旧保持较为平稳的增长。
2.由于发布出的新数据集具有了一致性特性,因此可采用原先简洁的发布模式——仅发布落在构造树叶节点的数据条目作为发布数据集,不必发布内部节点的计数值情况。
3.分类精度无论从理论上还是实际应用角度都高于现有的非交互式数据分类方法。
附图说明
图1是交互式框架结构示意图;
图2是非交互式框架结构示意图;
图3是本发明基于一致性特征的非交互式差分隐私发布模型的优化方法的流程图;
图4是属性的抽象树结构示例;
图5-1调整前状态图;
图5-2调整中状态图;
图5-3调整后状态图。
具体实施方法
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
图1是交互式差分隐私保护框架,当用户提交查询请求时,数据库所有者根据查询请求,查得未经保护的敏感数据。经过差分隐私算法处理、消耗一定量的隐私代价之后,返回满足差分隐私的处理结果给用户。此框架下,用户每进行一次查询,返回此次查询结果。由于每次查询经隐私保护算法处理时均消耗一定量的隐私代价,因此当到达查询限制时就会产生耗尽隐私代价,使得后续返回结果无法满足差分隐私,只能关闭查询结果停止使用。
图2是现有的非交互式的差分隐私保护框架,也是本发明中的数据发布框架。如结构图示意,对于待查询的数据集,数据库拥有者通过差分隐私发布算法对此数据集的相关统计信息进行处理,然后发布整个含噪数据集。用户直接提交查询任务或对含噪数据集进行查询得到返回结果。此框架对于效率较高,并且查询过程中无需担心隐私代价耗尽的问题。目前非交互式框架主要是研究如何设计高效的发布算法,在既满足差分隐私的前提下,降低噪音对数据可用性的影响。
图3是本发明基于一致性特征的非交互式差分隐私发布模型的优化方法的流程图,如图所示,包括以下步骤:
步骤1、为每个属性定义具有匿名层级关系的抽象树结构,每个父节点概括了其子节点集,并且定义划分迭代次数上限;
步骤2、选取所有属性的抽象树的根节点集合作为构造树的根节点,所有原数据项都包含在这个节点中;从根节点开始,自顶向下地建树,每次迭代不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生对应的子区间作为下层的子节点集,同时划分原数据项到相应的区间上。如选取“世界”属性,在抽象树中它的下层划分为“亚洲”和“欧洲”,那么在构造树中就根据这个划分为当前节点生成两个子节点,例如具有“中国”属性值的数据项都归到“亚洲”节点中。依次类推构建下层新节点并划分归纳原数据项,直到达到迭代次数,得到构造树,其每个叶节点是同一类匿名结果的数据项集合划分属性的挑选依据采用符合差分隐私的指数机制。
步骤3、用满足差分隐私的拉普拉斯机制对构造树的叶节点的数据项条目计数加噪。运行不影响差分隐私的调整算法f,自底向上对落在叶节点的噪音进行调整,使其散布在所有节点上。
步骤4、在调整算法f中,基于父子节点对之间的一致性特性,通过两次遍历构造树对噪音进行调整。先通过后序遍历再通过先序遍历,整个过程不失隐私保障。
步骤5、步骤3之后,构造树的父子节点上的含噪计数值保持了一致性特性,因此可用叶节点计数值的累加代表对父节点所表示区间的范围查询。根据叶节点上的条目计数值发布新数据集,直接供用户使用。
图4是抽象树结构的示例,即假设“地域”属性有四个属性值:“中国”,“德国”,“印度”,“英国”,现在对地域属性构建抽象树,对原属性值进行匿名化处理。如图把中国和印度做第一次抽象处理,归入“亚洲”属性节点,同理把德国和英国并入“欧洲”属性节点,最后并入根节点“世界”。
图5是基于一致性特征优化噪音的流程,具体的过程如下:
步骤一、如图5-1所示,经过体现匿名层级的抽象树和划分方法得到叶节点带噪音的构造树。
步骤二、如图5-2所示,运行调整算法f,其前半部分对构造树进行自底向下的初次噪音调整。
步骤三、如图5-3所示,调整算法f的后半部分,自顶向下进行最终的噪音调整。
步骤四、得到新的叶节点含噪计数值,基于叶节点集发布新的数据集。
其中调整算法f伪代码如下:

Claims (1)

1.基于一致性特征的非交互式差分隐私发布模型的优化方法,其特征在于:基于匿名化的数据保护算法,先为数据集的每个属性建立体现匿名层次的抽象树结构,由所有抽象树的根节点集合组成初始化的划分区间,把原始数据集归入其中,然后自顶向下依次不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生下一层区间集,并划分数据集,依次类推直到事先定义的算法迭代次数,最终生成一棵构造树,并在叶节点处加拉普拉斯噪音;接着自底向上,根据一致性特性,把叶节点上的噪音散布到构造树的所有节点上,根据叶节点上的条目计数值发布新数据集,直接供用户使用;
具体包括以下步骤:
步骤1、为每个属性定义具有匿名层级关系的抽象树结构,每个父节点概括了其子节点集,并且定义划分迭代次数上限;
步骤2、选取所有属性的抽象树的根节点集合作为构造树的根节点,所有原数据项都包含在这个节点中;从根节点开始,自顶向下地建树,每次迭代不重复地选取一个属性作为划分依据,按照这个属性的抽象树结构产生对应的子区间作为下层的子节点集,同时划分原数据项到相应的区间上;依次类推构建下层新节点并划分归纳原数据项,直到达到迭代次数,得到构造树,其每个叶节点是同一类匿名结果的数据项集合;
步骤3、用满足差分隐私的拉普拉斯机制对构造树的叶节点的数据项条目计数加噪,运行不影响差分隐私的调整算法f,自底向上对落在叶节点的噪音进行调整,使其散布在所有节点上;
步骤4、在调整算法f中,基于父子节点对之间的一致性特性,先通过后序遍历再通过先序遍历构造树对噪音进行调整;
步骤5、用叶节点计数值的累加代表对父节点所表示区间的范围查询,根据叶节点上的条目计数值发布新数据集,直接供用户使用。
CN201510862311.3A 2015-11-30 2015-11-30 基于一致性特征的非交互式差分隐私发布模型的优化方法 Active CN105512247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510862311.3A CN105512247B (zh) 2015-11-30 2015-11-30 基于一致性特征的非交互式差分隐私发布模型的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510862311.3A CN105512247B (zh) 2015-11-30 2015-11-30 基于一致性特征的非交互式差分隐私发布模型的优化方法

Publications (2)

Publication Number Publication Date
CN105512247A CN105512247A (zh) 2016-04-20
CN105512247B true CN105512247B (zh) 2019-03-08

Family

ID=55720229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510862311.3A Active CN105512247B (zh) 2015-11-30 2015-11-30 基于一致性特征的非交互式差分隐私发布模型的优化方法

Country Status (1)

Country Link
CN (1) CN105512247B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009437B (zh) * 2016-10-27 2022-11-22 中兴通讯股份有限公司 数据发布方法和装置及终端
CN107368752B (zh) * 2017-07-25 2019-06-28 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN107832630B (zh) * 2017-11-09 2021-01-26 复旦大学 一种数据自治开放模式下的隐私保护系统
CN108520181B (zh) * 2018-03-26 2022-04-22 联想(北京)有限公司 数据模型训练方法和装置
CN110309169B (zh) * 2018-04-12 2024-06-21 腾讯科技(北京)有限公司 关系链存储系统的数据查询方法、装置、介质及电子设备
CN108776763B (zh) * 2018-06-08 2022-02-11 哈尔滨工程大学 一种基于属性相关的差分隐私保护方法
CN110610098B (zh) * 2018-06-14 2023-05-30 中兴通讯股份有限公司 数据集生成方法及装置
CN109034228B (zh) * 2018-07-17 2021-10-12 陕西师范大学 一种基于差分隐私和层级相关性传播的图像分类方法
CN109726758B (zh) * 2018-12-28 2021-01-08 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN109670341A (zh) * 2018-12-29 2019-04-23 中山大学 一种对结构化数据和半结构化数据结合的隐私保护方法
CN110602129B (zh) * 2019-09-24 2021-08-20 苏州科技大学 基于效用机制平均一致性隐私保护优化方法
CN112325966B (zh) * 2020-10-30 2023-12-08 重庆工商大学 面向智能水表数据发布行为的差分隐私发布方法
CN113094751B (zh) * 2021-04-21 2022-09-30 山东大学 一种个性化隐私数据处理方法、装置、介质及计算机设备
CN113221168B (zh) * 2021-05-13 2022-04-12 支付宝(杭州)信息技术有限公司 一种基于差分隐私的划分业务对象集合的方法和装置
CN113434907B (zh) * 2021-07-09 2022-09-23 四川大学 一种面向私有数据集的安全高效分位数聚合方法及装置
CN115329898B (zh) * 2022-10-10 2023-01-24 国网浙江省电力有限公司杭州供电公司 基于差分隐私策略的多属性数据发布方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133903A (zh) * 2014-08-04 2014-11-05 华中科技大学 一种基于隐私保护的数据索引方法
CN104573560A (zh) * 2015-01-27 2015-04-29 上海交通大学 基于小波变换的差分隐私数据发布方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133903A (zh) * 2014-08-04 2014-11-05 华中科技大学 一种基于隐私保护的数据索引方法
CN104573560A (zh) * 2015-01-27 2015-04-29 上海交通大学 基于小波变换的差分隐私数据发布方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Boosting the Accuracy of Differentially Private Histograms Through Consistency;Michael Hay等;《Proceedings of the VLDB Endowment》;20100930;第3卷(第1-2期);第1021-1032页
Differentially Private Data Release for Data Mining;Mohammed 等;《Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining》;20110824;第493-501页

Also Published As

Publication number Publication date
CN105512247A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN105512247B (zh) 基于一致性特征的非交互式差分隐私发布模型的优化方法
US11403358B2 (en) Interactive geographical map
US11704304B2 (en) Spreadsheet with dynamic database queries
CN110096513A (zh) 一种数据查询、资金核对方法及装置
Prathap The zynergy‐index and the formula for the h‐index
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
US9153051B2 (en) Visualization of parallel co-ordinates
WO2016048912A1 (en) Enriching events with dynamically typed big data for event processing
CN104679646B (zh) 一种用于检测sql代码缺陷的方法和装置
Zhang et al. Efficient privacy-preserving classification construction model with differential privacy technology
Dasgupta et al. Measuring Privacy and Utility in Privacy‐Preserving Visualization
CN104081392A (zh) 社会媒体配置文件的影响评分
CN108776763A (zh) 一种基于属性相关的差分隐私保护方法
US20190095500A1 (en) Statistical processing of natural language queries of data sets
CN104462443B (zh) 数据处理方法和装置
US10452679B2 (en) Systems and methods for context-sensitive data annotation and annotation visualization
CN107766470A (zh) 一种数据分享的智能统计方法、智能统计显示方法及装置
CN104331490B (zh) 网络数据处理方法及装置
Zhang et al. Dynamics of a stochastic epidemic-like rumor propagation model with generalized nonlinear incidence and time delay
CN107862033A (zh) 一种用户行为分析方法和系统
CN102902614A (zh) 一种动态监测及智能引导方法
Liu et al. SEAD counter: Self-adaptive counters with different counting ranges
Lan et al. Sensitivity reduction of degree histogram publication under node differential privacy via mean filtering
CN110417765A (zh) 一种基于信任的托攻击用户的检测方法及系统
Dutta et al. Aggregation of heterogeneously related information with extended geometric Bonferroni mean and its application in group decision making

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant