CN105512247B

CN105512247B - 基于一致性特征的非交互式差分隐私发布模型的优化方法

Info

Publication number: CN105512247B
Application number: CN201510862311.3A
Authority: CN
Inventors: 钱磊; 宋涛; 姚建国; 梁阿磊; 马汝辉; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2019-03-08
Anticipated expiration: 2035-11-30
Also published as: CN105512247A

Abstract

本发明提出了一种基于一致性特征的非交互式差分隐私发布模型的优化方法，其先为数据集的每个属性建立体现匿名层次的抽象树结构，作为划分原始数据集的依据；所有抽象树的根节点集合组成初始化的划分区间，把原始数据集归入其中，然后自顶向下依次不重复地选取一个属性作为划分依据，按照这个属性的抽象树结构产生下一层区间集，并划分数据集，依次类推直到事先定义的算法迭代次数，最终生成一棵构造树，并在叶节点处加拉普拉斯噪音；接着利用节点间的一致性特性，运行噪音优化算法f，使得在满足差分隐私保护的前提下，用父节点做应答的方式替代子节点组合的计算模式，大幅度减轻发布数据集对于范围查询类应用的噪音叠加问题。本发明有效的地缓解了范围计数类查询中的噪音叠加问题，并且符合差分隐私保护的定义，减少了隐私保护的代价，有效提高了发布数据在后续应用中的可用性。

Description

基于一致性特征的非交互式差分隐私发布模型的优化方法

技术领域

本发明涉及计算机数据挖掘、机器学习、数据隐私保护等领域。具体来讲，是一种利用数据关系间的一致性减少不必要的噪音引入，针对范围查询频繁的应用类型，提升非交互式差分隐私框架下发布数据的可用性。

背景技术

数据应用领域中的数据隐私保护问题越来越引起关注。对于数据拥有者而言，数据中所包含的隐私信息是在数据发布中特别需要注重和保护的问题。传统的保护方式虽然能保护数据的隐私信息，但是它们都是基于特殊的攻击假设和背景知识，一旦攻击者掌握了某些隐私数据的前景信息或者进行组合攻击的时候，传统的隐私保护方法就变得不那么安全可靠了。差分隐私已经成为了新的隐私保护模型，它提供了强有力的隐私保障，通过在隐私数据中添加适当的噪音达到保护的目的，而不管攻击者拥有多少的隐私数据相关的背景知识和攻击手段。

很多的算法和应用是对加噪数据的后续利用，这对于差分隐私框架在对隐私数据的处理上提出了新的要求，仅仅为了保护隐私可能会打破数据的内在联系，并且对于后续的范围查询类应用而言，与查询项成正比的噪音叠加现象会使得发布出的数据可用性大大降低。如何提升发布数据在后续分析应用的准确度成了差分隐私框架研究的一个关键。

差分隐私的形式化定义如下：

定义1：数据集D和D′，二者互相之间至多相差一条记录，即|DΔD′|≤1.给定一个随机算法δ，O为δ上任意一个可能的输出。若算法δ在数据集D和D′上的任意输出满足下列不等式，则δ满足差分隐私.

Pr[δ(D)＝O]≤e^ε×Pr[δ(D’)＝O]

其中，概率Pr[·]由算法δ的随机性控制，也表示隐私被披露的风险；隐私预算参数ε表示隐私保护程度，ε越小隐私保护程度越高.从定义1可以看出差分隐私技术限制了任意一条记录对算法δ输出结果的影响.该定义是从理论角度确保算法δ满足ε差分隐私，而要实现差分隐私保护需要噪音机制的介入。

噪音机制是实现差分隐私保护的主要技术，拉普拉斯机制与指数机制是被广泛使用的加噪机制，他们都与敏感性(Sensitive)定义密切相关.敏感性表示了修改数据集中一个条目所能发生的最大改变。

定义2.数据集D和D′，二者互相之间至多相差一条记录，即|DΔD′|≤1。对于任意一个函数：f：D→R^d，函数f的全局敏感性S(f)为：

其中，R表示所映射的实数空间，d表示函数f的查询维度，p表示度量S(f)使用的L_p距离，通常使用L₁来度量.

拉普拉斯机制通过产生满足拉普拉斯分布的噪音来扰动真实输出值以实现差分隐私保护。

定理1.对于任一个函数f：D→R^d，若算法δ的输出结果满足下列等式，则δ满足ε差分隐私.

δ(D)＝f(D)+<Lap₁(S(f)/ε)，…，Lap_d(S(f)/ε)>

其中，Lap_i(S(f)/ε)(1≤i≤d)是相互独立的拉普拉斯变量，噪音量大小与S(f)成正比，与ε成反比.算法δ的全局敏感性越大，所需噪音越大.

指数机制能处理离散属性和连续属性，通过设计打分函数，对每个属性进行打分，按照与分值成正比的概率选择输出属性。

数据拥有者在对数据进行差分隐私处理时，主要有两种分布方式——交互式和非交互式框架。在交互式框架中，用户每次通过接口向数据拥有者发送查询请求，数据库返回相应满足差分隐私的请求应答。在非交互式框架中，数据拥有者一次性将所有数据用满足差分隐私的算法进行处理，然后全部发布给用户查询使用。本发明是基于后一个框架。

对于用户的一些范围计数类查询的应用，比如查询年龄属性在20-50岁范围内的计数情况，而此属性粒度是为10岁，那么就要对20，30，40，50岁的条目进行累加处理。由于加入了噪音，显然在这个过程中发生了噪音的叠加。随着数据集维度和数据列联表稀疏度的影响，对于范围计数类查询来说，噪音的叠加结果可能会接近真是计数值，甚至超过真实值。这会使得到的查询结果可用性大大降低。

发明内容

鉴于范围计数类查询产生的噪音叠加问题，本发明提出一种基于一致性特征的非交互式差分隐私发布模型的优化方法，对原有的非交互式差分隐私发布模型进行优化，减轻单项条目组合时的噪音叠加问题，减少多余的噪音，提升结果可用性。

本发明的技术解决方案如下：

一种基于一致性特征的非交互式差分隐私发布模型的优化方法，包括以下步骤：

步骤1、为每个属性定义具有匿名层级关系的抽象树结构，每个父节点概括了其子节点集，并且定义划分迭代次数上限；

步骤2、选取所有属性的抽象树的根节点集合作为构造树的根节点，所有原数据项都包含在这个节点中；从根节点开始，自顶向下地建树，每次迭代不重复地选取一个属性作为划分依据，按照这个属性的抽象树结构产生对应的子区间作为下层的子节点集，同时划分原数据项到相应的区间上；依次类推构建下层新节点并划分归纳原数据项，直到达到迭代次数，得到构造树，其每个叶节点是同一类匿名结果的数据项集合。划分属性的选择依据采用符合差分隐私的指数机制。

步骤3、用满足差分隐私的拉普拉斯机制对构造树的叶节点的数据项条目计数加噪，运行不影响差分隐私的调整算法f，自底向上对落在叶节点的噪音进行调整，使其散布在所有节点上。

步骤4、在调整算法f中，基于父子节点对之间的一致性特性，先通过后序遍历再通过先序遍历构造树对噪音进行调整；

步骤5、用叶节点计数值的累加代表对父节点所表示区间的范围查询，根据叶节点上的条目计数值发布新数据集，直接供用户使用。

与现有技术相比，本发明的有益效果如下：

1.有效的地降低了范围计数类查询中的噪音叠加，随着计数范围的增加，此数据准确性较为平稳，起伏细微。并且随着属性抽象层级的增加，在发布出的新数据集稀疏度减小，数据计数变得稀疏的情况下，此数据受影响程度甚小，依旧保持较为平稳的增长。

2.由于发布出的新数据集具有了一致性特性，因此可采用原先简洁的发布模式——仅发布落在构造树叶节点的数据条目作为发布数据集，不必发布内部节点的计数值情况。

3.分类精度无论从理论上还是实际应用角度都高于现有的非交互式数据分类方法。

附图说明

图1是交互式框架结构示意图；

图2是非交互式框架结构示意图；

图3是本发明基于一致性特征的非交互式差分隐私发布模型的优化方法的流程图；

图4是属性的抽象树结构示例；

图5-1调整前状态图；

图5-2调整中状态图；

图5-3调整后状态图。

具体实施方法

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

图1是交互式差分隐私保护框架，当用户提交查询请求时，数据库所有者根据查询请求，查得未经保护的敏感数据。经过差分隐私算法处理、消耗一定量的隐私代价之后，返回满足差分隐私的处理结果给用户。此框架下，用户每进行一次查询，返回此次查询结果。由于每次查询经隐私保护算法处理时均消耗一定量的隐私代价，因此当到达查询限制时就会产生耗尽隐私代价，使得后续返回结果无法满足差分隐私，只能关闭查询结果停止使用。

图2是现有的非交互式的差分隐私保护框架，也是本发明中的数据发布框架。如结构图示意，对于待查询的数据集，数据库拥有者通过差分隐私发布算法对此数据集的相关统计信息进行处理，然后发布整个含噪数据集。用户直接提交查询任务或对含噪数据集进行查询得到返回结果。此框架对于效率较高，并且查询过程中无需担心隐私代价耗尽的问题。目前非交互式框架主要是研究如何设计高效的发布算法，在既满足差分隐私的前提下，降低噪音对数据可用性的影响。

图3是本发明基于一致性特征的非交互式差分隐私发布模型的优化方法的流程图，如图所示，包括以下步骤：

步骤2、选取所有属性的抽象树的根节点集合作为构造树的根节点，所有原数据项都包含在这个节点中；从根节点开始，自顶向下地建树，每次迭代不重复地选取一个属性作为划分依据，按照这个属性的抽象树结构产生对应的子区间作为下层的子节点集，同时划分原数据项到相应的区间上。如选取“世界”属性，在抽象树中它的下层划分为“亚洲”和“欧洲”，那么在构造树中就根据这个划分为当前节点生成两个子节点，例如具有“中国”属性值的数据项都归到“亚洲”节点中。依次类推构建下层新节点并划分归纳原数据项，直到达到迭代次数，得到构造树，其每个叶节点是同一类匿名结果的数据项集合划分属性的挑选依据采用符合差分隐私的指数机制。

步骤3、用满足差分隐私的拉普拉斯机制对构造树的叶节点的数据项条目计数加噪。运行不影响差分隐私的调整算法f，自底向上对落在叶节点的噪音进行调整，使其散布在所有节点上。

步骤4、在调整算法f中，基于父子节点对之间的一致性特性，通过两次遍历构造树对噪音进行调整。先通过后序遍历再通过先序遍历，整个过程不失隐私保障。

步骤5、步骤3之后，构造树的父子节点上的含噪计数值保持了一致性特性，因此可用叶节点计数值的累加代表对父节点所表示区间的范围查询。根据叶节点上的条目计数值发布新数据集，直接供用户使用。

图4是抽象树结构的示例，即假设“地域”属性有四个属性值：“中国”，“德国”，“印度”，“英国”，现在对地域属性构建抽象树，对原属性值进行匿名化处理。如图把中国和印度做第一次抽象处理，归入“亚洲”属性节点，同理把德国和英国并入“欧洲”属性节点，最后并入根节点“世界”。

图5是基于一致性特征优化噪音的流程，具体的过程如下：

步骤一、如图5-1所示，经过体现匿名层级的抽象树和划分方法得到叶节点带噪音的构造树。

步骤二、如图5-2所示，运行调整算法f，其前半部分对构造树进行自底向下的初次噪音调整。

步骤三、如图5-3所示，调整算法f的后半部分，自顶向下进行最终的噪音调整。

步骤四、得到新的叶节点含噪计数值，基于叶节点集发布新的数据集。

其中调整算法f伪代码如下：

Claims

1.基于一致性特征的非交互式差分隐私发布模型的优化方法，其特征在于：基于匿名化的数据保护算法，先为数据集的每个属性建立体现匿名层次的抽象树结构，由所有抽象树的根节点集合组成初始化的划分区间，把原始数据集归入其中，然后自顶向下依次不重复地选取一个属性作为划分依据，按照这个属性的抽象树结构产生下一层区间集，并划分数据集，依次类推直到事先定义的算法迭代次数，最终生成一棵构造树，并在叶节点处加拉普拉斯噪音；接着自底向上，根据一致性特性，把叶节点上的噪音散布到构造树的所有节点上，根据叶节点上的条目计数值发布新数据集，直接供用户使用；

具体包括以下步骤：

步骤2、选取所有属性的抽象树的根节点集合作为构造树的根节点，所有原数据项都包含在这个节点中；从根节点开始，自顶向下地建树，每次迭代不重复地选取一个属性作为划分依据，按照这个属性的抽象树结构产生对应的子区间作为下层的子节点集，同时划分原数据项到相应的区间上；依次类推构建下层新节点并划分归纳原数据项，直到达到迭代次数，得到构造树，其每个叶节点是同一类匿名结果的数据项集合；

步骤3、用满足差分隐私的拉普拉斯机制对构造树的叶节点的数据项条目计数加噪，运行不影响差分隐私的调整算法f，自底向上对落在叶节点的噪音进行调整，使其散布在所有节点上；