CN104573560A - 基于小波变换的差分隐私数据发布方法 - Google Patents
基于小波变换的差分隐私数据发布方法 Download PDFInfo
- Publication number
- CN104573560A CN104573560A CN201510041710.3A CN201510041710A CN104573560A CN 104573560 A CN104573560 A CN 104573560A CN 201510041710 A CN201510041710 A CN 201510041710A CN 104573560 A CN104573560 A CN 104573560A
- Authority
- CN
- China
- Prior art keywords
- value
- data set
- wavelet transformation
- attribute
- uproar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2141—Access rights, e.g. capability lists, access control lists, access tables, access matrices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种基于小波变换的差分隐私数据发布方法。通过把原始数据集的属性取值概括为预定义概括树结构中最顶层的取值,再利用概括树结构自顶向下的细分取值,一步一步把概括化的属性值转化为细分的属性值。在选择属性进行细分的选择算法上,利用已有的指数加噪方法;在叶子节点的加噪中引入了小波变换的加噪方法,使得在满足差分隐私保护的前提下,尽量减少新发布数据集相对原始数据集的噪音。本发明结合小波变换和指数机制协同加噪,有效的减少了在对原始数据集加噪过程中噪音的累积,并且符合差分隐私保护的定义,减少了隐私保护的代价,有效提高了差分隐私保护后数据集的利用率。
Description
技术领域
本发明涉及计算机数据挖掘、数据隐私保护技术领域,具体地,涉及一种基于小波变化的差分隐私数据发布方法,用于解决差分隐私数据发布过程中噪音量过大的问题。
背景技术
信息技术的飞速发展使得各类数据的发布、采集、存储和分析变得方便快捷.例如,医院电子病例记录病人基本信息、疾病信息及药品购买记录;人口普查记录市民的家庭住址以及收入情况;金融业务服务会记录客户私有信息及其交易行为等,而这些数据的收集和发布直接给个人隐私造成威胁。
隐私保护技术可以解决数据发布和数据分析带来的隐私威胁问题,如何发布和分析而又不泄露隐私信息是隐私保护技术的主要目的。已有的基于k匿名或者划分的隐私保护方法,只适应特定背景知识下的攻击而存在严重的局限性。差分隐私作为一种新出现的隐私保护框架,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护。该模型不关心攻击者拥有多少背景知识,通过向查询或者分析结果中添加适当噪音来达到隐私保护效果,类似传统的隐私保护技术,实施差分隐私保护技术主要考虑两个方面的问题:(1)如何保证设计的算法满足差分隐私,以确保数据隐私不被泄露;(2)如何减少噪音带来的误差,以提高数据的可用性。
差分隐私的形式化定义如下:
定义1:给定数据集D和D',二者互相之间至多相差一条记录,即|DΔD'|≤1.给定一个隐私算法A,Range(A)为A的取值范围,若算法A在数据集D和D'上任意输出结果O(O∈Range(A))满足下列不等式,则A满足ε差分隐私:
其中,概率Pr[·]由算法A的随机性控制,也表示隐私被披露的风险;隐私预算参数ε表示隐私保护程度,ε越小隐私保护程度越高。从定义1可以看出差分隐 私技术限制了任意一条记录对算法A输出结果的影响.该定义是从理论角度确保算法A满足ε差分隐私,而要实现差分隐私保护需要噪音机制的介入。
噪音机制是实现差分隐私保护的主要技术,常用的噪音添加机制分别为拉普拉斯机制与指数机制。而基于不同噪音机制且满足差分隐私的算法所需噪音大小与全局敏感性(Global Sensitive)密切相关。
定义2.对于任意一个函数:f:D→Rd,函数f的全局敏感性为:
其中,D和D'至多相差一条记录,R表示所映射的实数空间,d表示函数f的查询维度,p表示度量Δf使用的Lp距离,通常使用L1来度量。
拉普拉斯机制通过拉普拉斯分布产生的噪音扰动真实输出值来实现差分隐私保护。
定理1.对于任一个函数f:D→Rd,若算法A的输出结果满足下列等式,则A满足ε差分隐私:
A(D)=f(D)+<Lap1(Δf/ε),…,Lapd(Δf/ε)>
其中,Lapi(Δf/ε)(1≤i≤d)是相互独立的拉普拉斯变量,噪音量大小与Δf成正比,与ε成反比.算法A的全局敏感性越大,所需噪音越大。
指数机制主要是处理一些输出结果为非数值型的算法,例如,分类操作中分裂属性的选择问题,该机制的关键技术是如何设计打分函数:u(D,r)(r∈O),其中r表示从输出域O中所选择的输出项。
定理2.给定一个打分函数u:(D×O)→R,若算法A满足下列等式,则A满足ε差分隐私:
其中,Δu为打分函数u(D,r)的全局敏感性。可知,打分越高,被选择输出的概率越大。
目前,满足差分隐私的数据发布方法主要是通过非交互式的差分隐私发布框架工作,非交互式的差分隐私保护框架也称之为离线发布框架,数据拥有者通过差分 隐私发布算法来发布数据库的相关统计信息。目前已有的数据发布方法中普遍是利用上述两种加噪方法,或两种机制协同加噪。
但是由于拉普拉斯机制在对数据加噪的过程中存在噪音累积的现象,因此利用拉普拉斯机制进行隐私保护的算法虽然满足差分隐私的要求,却存在噪音过大的不足,使得加噪后数据的可用性比较差。
发明内容
有鉴于现有解决方法的上述不足,本发明所要解决的技术问题是提供一种基于小波变换的差分隐私数据发布方法,其结合了小波变换的加噪方式和指数加噪方式,有效地减少了加噪的噪音量,提升了加噪后数据的可用性。
为实现上述目的,本发明的技术解决方案如下:
一种基于小波变换的差分隐私数据发布方法,其特征在于:通过把原始数据集的属性取值概括为预定义的概括树结构中最顶层的取值,再利用概括树结构自顶向下的细分取值,一步一步把概括化的属性值转化为细分的属性值。在选择属性进行细分的选择算法上,利用已有的指数加噪方法;在叶子节点的加噪中引入了小波变换的加噪方法,使得在满足差分隐私保护的前提下,尽量减少新发布数据集相对原始数据集的噪音。
基于小波变换的差分隐私数据发布方法包括以下步骤:
步骤1、初始化原始数据集:根据预定义的概括树结构将原始数据集各个样本中的属性值转化为概括树中最顶层的取值;
步骤2、自顶向下进行属性值的细分,在所有属性中选取一个属性进行细分,根据细分后的属性取值,分割整个样本;
步骤3、判断细分次数是否达到上界,即细分到叶子节点,如是则进入步骤4,否则,返回步骤2;
步骤4、加噪叶子节点:各个叶子节点上样本的数目组合成一个分布,通过小波变换f,将分布的取值,即叶子节点上样本的数目,转化为小波系数,对小波系数进行拉普拉斯加噪后,利用小波变换的逆f-1把小波系数转化为新的分布值,即最终加噪后的分布取值;
步骤5、发布新的数据集,该新数据集的属性与原始数据集的属性相同,其属性的取值为步骤4中各个叶子节点上该属性的取值,对应的样本数目则是各个叶子节点加噪后的分布取值。
本发明基于小波变换的差分隐私数据发布方法具有以下有益的技术效果:
(1)现有的大部分差分隐私数据保护算法是通过交互式框架进行的,即数据分析者中能向数据库提交混合式查询,而基于小波变换的数据发布方法是通过非交互式框架进行的,避免了这一弊端。
(2)基于小波变化的加噪方式是一种新颖的加噪方式,其中一维的加噪方法可以运用在大部分使用拉普拉斯加噪的算法中,改良单独使用拉普拉斯加噪的效果。
(3)基于小波变换的数据发布算法的分类精度无论从理论上还是实际应用角度都高于现有的数据分类方法。
附图说明
图1是交互式框架结构示意图;
图2是非交互式框架结构示意图;
图3是小波变换的加噪流程;
图4是本发明基于小波变化的差分隐私数据发布方法的流程图。
具体实施方式
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
图1是现有的交互式的差分隐私保护框架,当数据分析者提交查询请求Q时,数据所有者根据查询请求,设计满足差分隐私的查询算法,经过差分隐私算法过滤之后,把结果O'返回给用户。由于交互式框架只允许数据分析者通过查询接口提交查询,查询数目决定着该框架的误差和性能,若提交的数目超过某个上界,隐私预算ε将会被耗尽,该框架下则不能满足差分隐私。
图2是现有的非交互式的差分隐私保护框架,也是本发明中的数据发布框架, 如图所示,数据拥有者通过差分隐私发布算法来发布数据库中的相关统计信息,数据分析者根据发布数据库提交查询任务或者挖掘任务Q并得到加噪后的结果O'。非交互式框架主要是研究如何设计高效的发布算法,该类算法既满足差分隐私,又具有高的可用性。
图3是小波变换的加噪方式,是本发明的核心,具体的加噪方法如下:
步骤一、对原始数据分布T进行向量空间的映射,这里主要是在一维的向量空间中,映射为一维的向量M,即将原始数据分布T中的vn转化为M中的cn,向量M个数为2l。
步骤二、利用小波变化(Nominal Wavelet Transform/Haar Wavelet Transform)f将M转化为小波系数,记小波系数为ci(i∈[0,2l])。
步骤三、利用拉普拉斯机制对小波系数加噪,记加噪后的小波系数为ci'(i∈[0,2l])。
步骤四、利用ci'(i∈[0,2l])以及小波变换的逆f-1反推出加噪后的向量分布M',即将ci'(i∈[0,2l])转化为vn',最终对外发布M'。
根据上述过程,小波变换的加噪方式可以整合为下列伪代码:
图4是本发明基于小波变化的差分隐私数据发布方法的流程图,如图所示,包括以下步骤:
步骤1、初始化原始数据集:根据预定义的概括树结构将原始数据集各个样本中的属性值转化为概括树中最顶层的取值。
步骤2、自顶向下进行属性值的细分,依照符合差分隐私的指数加噪方法,在所有属性中选取一个属性进行细分,根据细分后的属性取值,分割整个样本。反复上述过程直到细分到叶子节点。
步骤3、叶子节点的加噪,易知最终各个的叶子节点的样本互为互斥集合,各个叶子节点上样本的数目组合成一个分布。通过小波变换f,将分布的各个值转化为小波系数,对小波系数进行拉普拉斯加噪后,利用f-1把小波系数转化为新的分布值,此取值为最终加噪后的分布取值。
步骤4、发布新的数据集,新数据集的属性与原始数据集属性相同,但是新数据集的各个属性的取值对应步骤3中各个叶子节点上该属性的取值。对应的样本数目是各个叶子节点加噪后的数目。
结合上述过程,整合整个算法的伪代码为:
。
Claims (2)
1.一种基于小波变换的差分隐私数据发布方法,其特征在于:把原始数据集的属性取值概括为预定义概括树结构中最顶层的取值,再利用概括树结构自顶向下的细分取值,逐步把概括化的属性值转化为细分的属性值,其中,在选择属性进行细分的选择算法上,利用已有的指数加噪方法,在叶子节点的加噪中引入小波变换的加噪方法,使得在满足差分隐私保护的前提下,尽量减少新发布数据集相对原始数据集的噪音。
2.根据权利要求1所述的基于小波变换的差分隐私数据发布方法,其特征在于,该方法具体包括以下步骤:
步骤1、初始化原始数据集:根据预定义的概括树结构将原始数据集各个样本中的属性值转化为概括树中最顶层的取值;
步骤2、自顶向下进行属性值的细分,在所有属性中选取一个属性进行细分,根据细分后的属性取值,分割整个样本;
步骤3、判断细分次数是否达到上界,即细分到叶子节点,如是则进入步骤4,否则,返回步骤2;
步骤4、加噪叶子节点:各个叶子节点上样本的数目组合成一个分布,通过小波变换f,将分布的取值,即叶子节点上样本的数目,转化为小波系数,对小波系数进行拉普拉斯加噪后,利用小波变换的逆f-1把小波系数转化为新的分布值,即最终加噪后的分布取值;
步骤5、发布新的数据集,该新数据集的属性与原始数据集的属性相同,其属性的取值为步骤4中各个叶子节点上该属性的取值,对应的样本数目则是各个叶子节点加噪后的分布取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510041710.3A CN104573560B (zh) | 2015-01-27 | 2015-01-27 | 基于小波变换的差分隐私数据发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510041710.3A CN104573560B (zh) | 2015-01-27 | 2015-01-27 | 基于小波变换的差分隐私数据发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104573560A true CN104573560A (zh) | 2015-04-29 |
CN104573560B CN104573560B (zh) | 2018-06-19 |
Family
ID=53089593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510041710.3A Active CN104573560B (zh) | 2015-01-27 | 2015-01-27 | 基于小波变换的差分隐私数据发布方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573560B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046160A (zh) * | 2015-07-21 | 2015-11-11 | 东华大学 | 一种基于直方图的面向数据流差分隐私发布方法 |
CN105512247A (zh) * | 2015-11-30 | 2016-04-20 | 上海交通大学 | 基于一致性特征的非交互式差分隐私发布模型的优化方法 |
CN105608388A (zh) * | 2015-09-24 | 2016-05-25 | 武汉大学 | 一种基于相关性去除的差分隐私数据发布方法及系统 |
CN106407841A (zh) * | 2016-09-28 | 2017-02-15 | 武汉大学 | 基于差分隐私的相关性时间序列发布方法及系统 |
CN107871087A (zh) * | 2017-11-08 | 2018-04-03 | 广西师范大学 | 分布式环境下高维数据发布的个性化差分隐私保护方法 |
CN108470127A (zh) * | 2017-02-23 | 2018-08-31 | 全球能源互联网研究院 | 一种用电负荷数据的离线脱敏方法和装置 |
CN108763947A (zh) * | 2018-01-19 | 2018-11-06 | 北京交通大学 | 时间-空间型的轨迹大数据差分隐私保护方法 |
CN109241774A (zh) * | 2018-09-19 | 2019-01-18 | 华中科技大学 | 一种差分隐私空间分解方法和系统 |
CN110941856A (zh) * | 2019-12-04 | 2020-03-31 | 广西民族大学 | 一种基于区块链的数据差分隐私保护共享平台 |
CN111079177A (zh) * | 2019-12-04 | 2020-04-28 | 湖南大学 | 一种基于小波变换的轨迹数据中时间相关性隐私保护方法 |
CN112383672A (zh) * | 2020-10-21 | 2021-02-19 | 南京邮电大学 | 一种兼顾隐私保护和数据质量的图像采集方法、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104135362A (zh) * | 2014-07-21 | 2014-11-05 | 南京大学 | 一种基于差分隐私发布的数据的可用性计算方法 |
-
2015
- 2015-01-27 CN CN201510041710.3A patent/CN104573560B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104135362A (zh) * | 2014-07-21 | 2014-11-05 | 南京大学 | 一种基于差分隐私发布的数据的可用性计算方法 |
Non-Patent Citations (3)
Title |
---|
XIAO XIAOKUI等: "Differential Privacy via Wavelet Transforms", 《ARXIV:0909.5530V1》 * |
李洋等: "差分隐私保护研究综述", 《计算机应用研究》 * |
熊平等: "差分隐私保护及其应用", 《计算机学报》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046160B (zh) * | 2015-07-21 | 2018-08-03 | 东华大学 | 一种基于直方图的面向数据流差分隐私发布方法 |
CN105046160A (zh) * | 2015-07-21 | 2015-11-11 | 东华大学 | 一种基于直方图的面向数据流差分隐私发布方法 |
CN105608388A (zh) * | 2015-09-24 | 2016-05-25 | 武汉大学 | 一种基于相关性去除的差分隐私数据发布方法及系统 |
CN105608388B (zh) * | 2015-09-24 | 2017-02-22 | 武汉大学 | 一种基于相关性去除的差分隐私数据发布方法及系统 |
CN105512247A (zh) * | 2015-11-30 | 2016-04-20 | 上海交通大学 | 基于一致性特征的非交互式差分隐私发布模型的优化方法 |
CN105512247B (zh) * | 2015-11-30 | 2019-03-08 | 上海交通大学 | 基于一致性特征的非交互式差分隐私发布模型的优化方法 |
CN106407841A (zh) * | 2016-09-28 | 2017-02-15 | 武汉大学 | 基于差分隐私的相关性时间序列发布方法及系统 |
CN108470127A (zh) * | 2017-02-23 | 2018-08-31 | 全球能源互联网研究院 | 一种用电负荷数据的离线脱敏方法和装置 |
CN108470127B (zh) * | 2017-02-23 | 2021-10-29 | 全球能源互联网研究院 | 一种用电负荷数据的离线脱敏方法和装置 |
CN107871087B (zh) * | 2017-11-08 | 2020-10-30 | 广西师范大学 | 分布式环境下高维数据发布的个性化差分隐私保护方法 |
CN107871087A (zh) * | 2017-11-08 | 2018-04-03 | 广西师范大学 | 分布式环境下高维数据发布的个性化差分隐私保护方法 |
CN108763947A (zh) * | 2018-01-19 | 2018-11-06 | 北京交通大学 | 时间-空间型的轨迹大数据差分隐私保护方法 |
CN108763947B (zh) * | 2018-01-19 | 2020-07-07 | 北京交通大学 | 时间-空间型的轨迹大数据差分隐私保护方法 |
CN109241774B (zh) * | 2018-09-19 | 2020-11-10 | 华中科技大学 | 一种差分隐私空间分解方法和系统 |
CN109241774A (zh) * | 2018-09-19 | 2019-01-18 | 华中科技大学 | 一种差分隐私空间分解方法和系统 |
CN111079177A (zh) * | 2019-12-04 | 2020-04-28 | 湖南大学 | 一种基于小波变换的轨迹数据中时间相关性隐私保护方法 |
CN110941856A (zh) * | 2019-12-04 | 2020-03-31 | 广西民族大学 | 一种基于区块链的数据差分隐私保护共享平台 |
CN111079177B (zh) * | 2019-12-04 | 2023-01-13 | 湖南大学 | 一种基于小波变换的轨迹数据中时间相关性隐私保护方法 |
CN112383672A (zh) * | 2020-10-21 | 2021-02-19 | 南京邮电大学 | 一种兼顾隐私保护和数据质量的图像采集方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104573560B (zh) | 2018-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573560A (zh) | 基于小波变换的差分隐私数据发布方法 | |
US10783173B2 (en) | Methods and systems for selecting and analyzing geospatial data on a discrete global grid system | |
Piao et al. | Privacy-preserving governmental data publishing: A fog-computing-based differential privacy approach | |
Shekhar et al. | Identifying patterns in spatial information: A survey of methods | |
Cobo et al. | SciMAT: A new science mapping analysis software tool | |
Goodchild et al. | Towards a general theory of geographic representation in GIS | |
Zhao et al. | Distributed feature selection for efficient economic big data analysis | |
Lark et al. | Cokriging particle size fractions of the soil | |
CN105512247A (zh) | 基于一致性特征的非交互式差分隐私发布模型的优化方法 | |
CN107092929A (zh) | 基于聚类技术的刑事犯罪案件关联串并方法及系统 | |
Emilio et al. | Assessing the relationship between forest types and canopy tree beta diversity in Amazonia | |
Abdelfattah et al. | A web-based GIS enabled soil information system for the United Arab Emirates and its applicability in agricultural land use planning | |
Flouvat et al. | Domain-driven co-location mining: extraction, visualization and integration in a GIS | |
Pasinato et al. | Generating synthetic data for context-aware recommender systems | |
Zhuo et al. | Meta‐analysis of flow modeling performances—To build a matching system between catchment complexity and model types | |
Rashidi et al. | A comparative analysis of three multi-criteria decision-making methods for land suitability assessment | |
Liu et al. | Detecting industry clusters from the bottom up based on co-location patterns mining: A case study in Dongguan, China | |
CN107358115B (zh) | 一种考虑实用性的多属性数据去隐私方法 | |
CN109558522A (zh) | 企业网络图的建立方法、装置和计算机可读存储介质 | |
Blanco et al. | Showing the Benefits of Applying a Model Driven Architecture for Developing Secure OLAP Applications. | |
Hu et al. | A computational study on the entropy of interval-valued datasets from the stock market | |
Asgari et al. | Using an ant colony optimization algorithm for image edge detection as a threshold segmentation for OCR system | |
Liu et al. | Identification of drainage patterns using a graph convolutional neural network | |
Yin et al. | Node attributed query access algorithm based on improved personalized differential privacy protection in social network | |
CN110990869B (zh) | 一种应用于隐私保护的电力大数据脱敏方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |