CN104573560A

CN104573560A - 基于小波变换的差分隐私数据发布方法

Info

Publication number: CN104573560A
Application number: CN201510041710.3A
Authority: CN
Inventors: 管海兵; 姚建国; 马汝辉; 李健; 邓煜
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2015-04-29
Anticipated expiration: 2035-01-27
Also published as: CN104573560B

Abstract

本发明公开了一种基于小波变换的差分隐私数据发布方法。通过把原始数据集的属性取值概括为预定义概括树结构中最顶层的取值，再利用概括树结构自顶向下的细分取值，一步一步把概括化的属性值转化为细分的属性值。在选择属性进行细分的选择算法上，利用已有的指数加噪方法；在叶子节点的加噪中引入了小波变换的加噪方法，使得在满足差分隐私保护的前提下，尽量减少新发布数据集相对原始数据集的噪音。本发明结合小波变换和指数机制协同加噪，有效的减少了在对原始数据集加噪过程中噪音的累积，并且符合差分隐私保护的定义，减少了隐私保护的代价，有效提高了差分隐私保护后数据集的利用率。

Description

基于小波变换的差分隐私数据发布方法

技术领域

本发明涉及计算机数据挖掘、数据隐私保护技术领域，具体地，涉及一种基于小波变化的差分隐私数据发布方法，用于解决差分隐私数据发布过程中噪音量过大的问题。

背景技术

信息技术的飞速发展使得各类数据的发布、采集、存储和分析变得方便快捷.例如，医院电子病例记录病人基本信息、疾病信息及药品购买记录；人口普查记录市民的家庭住址以及收入情况；金融业务服务会记录客户私有信息及其交易行为等，而这些数据的收集和发布直接给个人隐私造成威胁。

隐私保护技术可以解决数据发布和数据分析带来的隐私威胁问题，如何发布和分析而又不泄露隐私信息是隐私保护技术的主要目的。已有的基于k匿名或者划分的隐私保护方法，只适应特定背景知识下的攻击而存在严重的局限性。差分隐私作为一种新出现的隐私保护框架，能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护。该模型不关心攻击者拥有多少背景知识，通过向查询或者分析结果中添加适当噪音来达到隐私保护效果，类似传统的隐私保护技术，实施差分隐私保护技术主要考虑两个方面的问题：(1)如何保证设计的算法满足差分隐私，以确保数据隐私不被泄露；(2)如何减少噪音带来的误差，以提高数据的可用性。

差分隐私的形式化定义如下：

定义1：给定数据集D和D'，二者互相之间至多相差一条记录，即|DΔD'|≤1.给定一个隐私算法A，Range(A)为A的取值范围，若算法A在数据集D和D'上任意输出结果O(O∈Range(A))满足下列不等式，则A满足ε差分隐私：

其中，概率Pr[·]由算法A的随机性控制，也表示隐私被披露的风险；隐私预算参数ε表示隐私保护程度，ε越小隐私保护程度越高。从定义1可以看出差分隐私技术限制了任意一条记录对算法A输出结果的影响.该定义是从理论角度确保算法A满足ε差分隐私，而要实现差分隐私保护需要噪音机制的介入。

噪音机制是实现差分隐私保护的主要技术，常用的噪音添加机制分别为拉普拉斯机制与指数机制。而基于不同噪音机制且满足差分隐私的算法所需噪音大小与全局敏感性(Global Sensitive)密切相关。

定义2.对于任意一个函数：f:D→R^d，函数f的全局敏感性为：

Δf = \max_{D, D^{'}} {| | f (D) - f (D^{'}) | |}_{p}

其中，D和D'至多相差一条记录，R表示所映射的实数空间，d表示函数f的查询维度，p表示度量Δf使用的L_p距离，通常使用L₁来度量。

拉普拉斯机制通过拉普拉斯分布产生的噪音扰动真实输出值来实现差分隐私保护。

定理1.对于任一个函数f:D→R^d，若算法A的输出结果满足下列等式，则A满足ε差分隐私：

A(D)＝f(D)+<Lap₁(Δf/ε),…,Lap_d(Δf/ε)>

其中，Lap_i(Δf/ε)(1≤i≤d)是相互独立的拉普拉斯变量，噪音量大小与Δf成正比，与ε成反比.算法A的全局敏感性越大，所需噪音越大。

指数机制主要是处理一些输出结果为非数值型的算法，例如，分类操作中分裂属性的选择问题，该机制的关键技术是如何设计打分函数：u(D,r)(r∈O)，其中r表示从输出域O中所选择的输出项。

定理2.给定一个打分函数u:(D×O)→R，若算法A满足下列等式，则A满足ε差分隐私：

A (D, u) = {r : | \Pr [r &Element; O] &Proportional; \exp (\frac{ϵu (D, r)}{2 Δu})}

其中，Δu为打分函数u(D,r)的全局敏感性。可知，打分越高，被选择输出的概率越大。

目前，满足差分隐私的数据发布方法主要是通过非交互式的差分隐私发布框架工作，非交互式的差分隐私保护框架也称之为离线发布框架，数据拥有者通过差分隐私发布算法来发布数据库的相关统计信息。目前已有的数据发布方法中普遍是利用上述两种加噪方法，或两种机制协同加噪。

但是由于拉普拉斯机制在对数据加噪的过程中存在噪音累积的现象，因此利用拉普拉斯机制进行隐私保护的算法虽然满足差分隐私的要求，却存在噪音过大的不足，使得加噪后数据的可用性比较差。

发明内容

有鉴于现有解决方法的上述不足，本发明所要解决的技术问题是提供一种基于小波变换的差分隐私数据发布方法，其结合了小波变换的加噪方式和指数加噪方式，有效地减少了加噪的噪音量，提升了加噪后数据的可用性。

为实现上述目的，本发明的技术解决方案如下：

一种基于小波变换的差分隐私数据发布方法，其特征在于：通过把原始数据集的属性取值概括为预定义的概括树结构中最顶层的取值，再利用概括树结构自顶向下的细分取值，一步一步把概括化的属性值转化为细分的属性值。在选择属性进行细分的选择算法上，利用已有的指数加噪方法；在叶子节点的加噪中引入了小波变换的加噪方法，使得在满足差分隐私保护的前提下，尽量减少新发布数据集相对原始数据集的噪音。

基于小波变换的差分隐私数据发布方法包括以下步骤：

步骤1、初始化原始数据集：根据预定义的概括树结构将原始数据集各个样本中的属性值转化为概括树中最顶层的取值；

步骤2、自顶向下进行属性值的细分，在所有属性中选取一个属性进行细分，根据细分后的属性取值，分割整个样本；

步骤3、判断细分次数是否达到上界，即细分到叶子节点，如是则进入步骤4，否则，返回步骤2；

步骤4、加噪叶子节点：各个叶子节点上样本的数目组合成一个分布，通过小波变换f，将分布的取值，即叶子节点上样本的数目，转化为小波系数，对小波系数进行拉普拉斯加噪后，利用小波变换的逆f^-1把小波系数转化为新的分布值，即最终加噪后的分布取值；

步骤5、发布新的数据集，该新数据集的属性与原始数据集的属性相同，其属性的取值为步骤4中各个叶子节点上该属性的取值，对应的样本数目则是各个叶子节点加噪后的分布取值。

本发明基于小波变换的差分隐私数据发布方法具有以下有益的技术效果：

(1)现有的大部分差分隐私数据保护算法是通过交互式框架进行的，即数据分析者中能向数据库提交混合式查询，而基于小波变换的数据发布方法是通过非交互式框架进行的，避免了这一弊端。

(2)基于小波变化的加噪方式是一种新颖的加噪方式，其中一维的加噪方法可以运用在大部分使用拉普拉斯加噪的算法中，改良单独使用拉普拉斯加噪的效果。

(3)基于小波变换的数据发布算法的分类精度无论从理论上还是实际应用角度都高于现有的数据分类方法。

附图说明

图1是交互式框架结构示意图；

图2是非交互式框架结构示意图；

图3是小波变换的加噪流程；

图4是本发明基于小波变化的差分隐私数据发布方法的流程图。

具体实施方式

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

图1是现有的交互式的差分隐私保护框架，当数据分析者提交查询请求Q时，数据所有者根据查询请求，设计满足差分隐私的查询算法，经过差分隐私算法过滤之后，把结果O'返回给用户。由于交互式框架只允许数据分析者通过查询接口提交查询，查询数目决定着该框架的误差和性能，若提交的数目超过某个上界，隐私预算ε将会被耗尽，该框架下则不能满足差分隐私。

图2是现有的非交互式的差分隐私保护框架，也是本发明中的数据发布框架，如图所示，数据拥有者通过差分隐私发布算法来发布数据库中的相关统计信息，数据分析者根据发布数据库提交查询任务或者挖掘任务Q并得到加噪后的结果O'。非交互式框架主要是研究如何设计高效的发布算法，该类算法既满足差分隐私，又具有高的可用性。

图3是小波变换的加噪方式，是本发明的核心，具体的加噪方法如下：

步骤一、对原始数据分布T进行向量空间的映射，这里主要是在一维的向量空间中，映射为一维的向量M，即将原始数据分布T中的v_n转化为M中的c_n，向量M个数为2^l。

步骤二、利用小波变化(Nominal Wavelet Transform/Haar Wavelet Transform)f将M转化为小波系数，记小波系数为c_i(i∈[0,2^l])。

步骤三、利用拉普拉斯机制对小波系数加噪，记加噪后的小波系数为c_i'(i∈[0,2^l])。

步骤四、利用c_i'(i∈[0,2^l])以及小波变换的逆f^-1反推出加噪后的向量分布M'，即将c_i'(i∈[0,2^l])转化为v_n'，最终对外发布M'。

根据上述过程，小波变换的加噪方式可以整合为下列伪代码：

图4是本发明基于小波变化的差分隐私数据发布方法的流程图，如图所示，包括以下步骤：

步骤1、初始化原始数据集：根据预定义的概括树结构将原始数据集各个样本中的属性值转化为概括树中最顶层的取值。

步骤2、自顶向下进行属性值的细分，依照符合差分隐私的指数加噪方法，在所有属性中选取一个属性进行细分，根据细分后的属性取值，分割整个样本。反复上述过程直到细分到叶子节点。

步骤3、叶子节点的加噪，易知最终各个的叶子节点的样本互为互斥集合，各个叶子节点上样本的数目组合成一个分布。通过小波变换f，将分布的各个值转化为小波系数，对小波系数进行拉普拉斯加噪后，利用f^-1把小波系数转化为新的分布值，此取值为最终加噪后的分布取值。

步骤4、发布新的数据集，新数据集的属性与原始数据集属性相同，但是新数据集的各个属性的取值对应步骤3中各个叶子节点上该属性的取值。对应的样本数目是各个叶子节点加噪后的数目。

结合上述过程，整合整个算法的伪代码为：

。

Claims

1.一种基于小波变换的差分隐私数据发布方法，其特征在于：把原始数据集的属性取值概括为预定义概括树结构中最顶层的取值，再利用概括树结构自顶向下的细分取值，逐步把概括化的属性值转化为细分的属性值，其中，在选择属性进行细分的选择算法上，利用已有的指数加噪方法，在叶子节点的加噪中引入小波变换的加噪方法，使得在满足差分隐私保护的前提下，尽量减少新发布数据集相对原始数据集的噪音。

2.根据权利要求1所述的基于小波变换的差分隐私数据发布方法，其特征在于，该方法具体包括以下步骤：