CN105046160B - 一种基于直方图的面向数据流差分隐私发布方法 - Google Patents
一种基于直方图的面向数据流差分隐私发布方法 Download PDFInfo
- Publication number
- CN105046160B CN105046160B CN201510430312.0A CN201510430312A CN105046160B CN 105046160 B CN105046160 B CN 105046160B CN 201510430312 A CN201510430312 A CN 201510430312A CN 105046160 B CN105046160 B CN 105046160B
- Authority
- CN
- China
- Prior art keywords
- data set
- histogram
- data
- privacy
- dissemination method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于直方图的面向数据流差分隐私发布方法,包括以下步骤:对于每一个时刻i,数据流接收的数据集为Di,对数据集Di中属性A出现的不同元素值进行统计,并按照元素值的大小升序排列,对频数进行归一化处理为P;记最后一次发布的含噪局部最优直方图所对应的真实数据的分布归一化后为Q,计算P与Q的EMD相似度τ;若τ>σ,则给数据集Di分配隐私预算其中,并给数据集Di添加相应的拉普拉斯噪声得到数据集Oi;对数据集Oi利用分组与合并策略,进行局部最优直方图发布。本发明在保证每个窗口中隐私总预算不超过ε时,发布数据的可用性较好。
Description
技术领域
本发明涉及差分隐私发布技术领域,特别是涉及一种基于直方图的面向数据流差分隐私发布方法。
背景技术
由于信息化技术的快速发展,用户的隐私信息泄露的问题逐渐凸显,隐私保护技术也引起人们的关注。差分隐私是一种强隐私保护模型,该模型假定攻击者具有除某一条记录以外的其他所有记录信息,即使在这一最大化背景知识下,差分隐私仍然能保证这条记录的隐私信息不被泄露。
目前关于数据流的差分隐私发布技术主要针对的是{0,1}所组成的二进制流,这些方法不足以应用于真实的应用程序中,真实的应用程序是基于窗口的,并且数据流也不会仅仅局限于二进制流,而应是任意数值型数据流。由于每个窗口中的隐私预算是固定的,若考虑给每个子窗口分配相同的隐私预算,当窗口的大小增大时,每个子窗口分配的隐私预算会减小,使得添加的噪声增大,导致数据的可用性降低。面向更一般的数据流,如何在保证每个窗口中的隐私总预算不超过ε时,合理的分配隐私预算,并且能有效的快速发布直方图统计信息,同时保证数据具有一定的可用性,成为一项急需解决的任务。
发明内容
本发明所要解决的技术问题是提供一种基于直方图的面向数据流差分隐私发布方法,以达到每个窗口中隐私总预算不超过ε时,发布数据的可用性较好。
本发明解决其技术问题所采用的技术方案是:提供一种基于直方图的面向数据流差分隐私发布方法,包括以下步骤:
(1)对于每一个时刻i,数据流接收的数据集为Di,对数据集Di中属性A出现的不同元素值进行统计,并按照元素值的大小升序排列,对频数进行归一化处理为P;
(2)记最后一次发布的含噪局部最优直方图所对应的真实数据的分布归一化后为Q,计算P与Q的EMD(Earth Mover’s Distance)相似度τ;
(3)若τ>σ,则给数据集Di分配隐私预算其中,并给数据集Di添加相应的拉普拉斯噪声得到数据集Oi,其中,σ为设定的阈值,ε为隐私总预算,w为滑动窗口大小,εj为第j个子窗口已分配的预算大小;
(4)对数据集Oi利用分组与合并策略,进行局部最优直方图发布。
所述步骤(3)中若τ≤σ时,则不发布数据集Di,即数据集Oi=null。
所述步骤(3)中数据集Oi=Di+<Lap(λi)>m,其中,<Lap()>为拉普拉斯噪声、m的大小为数据集Di中属性A出现的不同元素值的个数。
所述步骤(3)中若在一个窗口内,数据集连续突变,为了减缓λi递增速度,需减缓εi的分配,则给数据集Di分配隐私预算
所述步骤(4)中局部最优直方图发布包括以下子步骤:
(41)假设每个分组为包含固定长度L个不同的含噪统计结果值,则将数据集Oi分成[m/L]个不相交的组;
(42)对每个分组进行最优直方图算法,计算出每个分组所对应的最优直方图划分结果;
(43)对所有分组的最优直方图结果进行合并,得到局部最优直方图发布。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明基于滑动窗口模型下,利用相邻两个时间戳的数据集分布的相似性,来动态合理分配隐私预算,使得每一个窗口的总预算不超过ε,并利用分组与合并策略,快速计算出局部最优直方图,从而达到高效的动态流式差分隐私发布策略。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于直方图的面向数据流差分隐私发布方法,包括以下步骤:
步骤1、对于每一个时刻i,数据流接收的数据集为Di,对数据集Di中属性A出现的不同元素值进行统计,并按照元素值的大小升序排列,SDi={{xp1,fp1},{xp2,fp2},...{xpm,fpm}},其中xpj为元素值的大小,且xp1<xp2<xp3<...<xpm,fpj为数据集Di中出现xpj的频数。对fpj进行归一化处理,即令(1≤j≤m),则P={{xp1,wp1},{xp2,wp2},...{xpm,wpm}}。
步骤2、记最后一次发布的含噪局部最优直方图所对应的真实数据的分布归一化后为Q,计算P与Q的EMD相似度。P、Q间EMD相似度的计算公式为:其中,距离(1≤i≤m,1≤j≤n),xqj为Q中的元素值的大小,由于P、Q均为归一化后的数据集,故可以采用最邻近距离填补法来计算P、Q间EMD相似度τ。
步骤3、令阈值为σ;若τ>σ,则给Di分配隐私预算并给数据集Di添加相应的拉普拉斯噪声得到数据集Oi,其中令则Oi=Di+<Lap(λi)>m。其中,ε为隐私总预算,w为滑动窗口大小,εj为第j个子窗口已分配的预算大小,<Lap()>为拉普拉斯噪声,m的大小为数据集Di中属性A出现的不同元素值的个数。若在一个窗口内,数据集连续突变,导致λi以2的指数递增,使得第i时刻添加的噪声较大。为了减缓λi递增速度,需减缓εi的分配,故可以采用当τ≤σ时,则不发布Di,即拉普拉斯噪声Oi=null。
步骤4、对数据集Oi利用分组与合并策略,进行局部最优直方图发布。
直方图是一种描述数据统计信息的有效方式,主要是将数据集划分成不相交的桶。若数据流的数据范围跨度较大,对数据集Oi直接进行全局最优直方图发布,算法执行效率较低,难以满足数据流的快速响应要求。由于数据集Di中数据统计是按照key值进行排序的,而桶的合并主要发生在相邻的桶间,故可以直接对整个数据集Oi进行分组。
局部最优直方图发布策略:
1)假设每个分组为包含固定长度L个不同的含噪统计结果值,则将数据集Oi分成m/L个不相交的组。
2)对每个分组进行最优直方图算法,计算出每个分组所对应的最优直方图划分结果。
3)对所有分组的最优直方图结果进行合并,得到局部最优直方图发布Hi *={(l1,r1,c1),...,(lk,rk,ck)},其中cj为Oi中落在区间的平均值,其中,lj和rj分别表示每个桶的左右边界所对应的下标。
Claims (5)
1.一种基于直方图的面向数据流差分隐私发布方法,其特征在于,包括以下步骤:
(1)对于每一个时刻i,数据流接收的数据集为Di,对数据集Di中属性A出现的不同元素值进行统计,并按照元素值的大小升序排列,对频数进行归一化处理为P;
(2)记最后一次发布的含噪局部最优直方图所对应的真实数据的分布归一化后为Q,计算P与Q的EMD相似度τ;
(3)若τ>σ,则给数据集Di分配隐私预算 并给数据集Di添加相应的拉普拉斯噪声得到数据集Oi,其中,σ为设定的阈值,ε为隐私总预算,w为滑动窗口大小,εj为第j个子窗口已分配的预算大小;
(4)对数据集Oi利用分组与合并策略,进行局部最优直方图发布。
2.根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于,所述步骤(3)中若τ≤σ时,则不发布数据集Di,即数据集Oi=null。
3.根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于,所述步骤(3)中数据集Oi=Di+<Lap(λi)>m,其中,<Lap()>为拉普拉斯噪声、m的大小为数据集Di中属性A出现的不同元素值的个数。
4.根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于,所述步骤(3)中若在一个窗口内,则给数据集Di分配隐私预算
5.根据权利要求1所述的基于直方图的面向数据流差分隐私发布方法,其特征在于,所述步骤(4)中局部最优直方图发布包括以下子步骤:
(41)假设每个分组为包含固定长度L个不同的含噪统计结果值,则将数据集Oi分成个不相交的组;
(42)对每个分组进行最优直方图算法,计算出每个分组所对应的最优直方图划分结果;
(43)对所有分组的最优直方图结果进行合并,得到局部最优直方图发布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510430312.0A CN105046160B (zh) | 2015-07-21 | 2015-07-21 | 一种基于直方图的面向数据流差分隐私发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510430312.0A CN105046160B (zh) | 2015-07-21 | 2015-07-21 | 一种基于直方图的面向数据流差分隐私发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105046160A CN105046160A (zh) | 2015-11-11 |
CN105046160B true CN105046160B (zh) | 2018-08-03 |
Family
ID=54452696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510430312.0A Expired - Fee Related CN105046160B (zh) | 2015-07-21 | 2015-07-21 | 一种基于直方图的面向数据流差分隐私发布方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105046160B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284620A (zh) * | 2017-07-19 | 2019-01-29 | 中国移动通信集团黑龙江有限公司 | 一种发布数据的生成方法、装置和服务器 |
CN107368752B (zh) * | 2017-07-25 | 2019-06-28 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN107766740A (zh) * | 2017-10-20 | 2018-03-06 | 辽宁工业大学 | 一种Spark 框架下的基于差分隐私保护的数据发布方法 |
CN108763947B (zh) * | 2018-01-19 | 2020-07-07 | 北京交通大学 | 时间-空间型的轨迹大数据差分隐私保护方法 |
CN108763956B (zh) * | 2018-05-24 | 2020-09-15 | 辽宁工业大学 | 一种基于分形维数的流式数据差分隐私保护发布方法 |
CN109214194B (zh) * | 2018-07-19 | 2020-10-09 | 中国人民解放军战略支援部队信息工程大学 | 点差分隐私下图的度直方图发布方法 |
CN109558426A (zh) * | 2018-11-22 | 2019-04-02 | 河南财经政法大学 | 一种基于差分隐私的流式直方图的发布方法 |
CN110795758B (zh) * | 2019-10-11 | 2021-07-30 | 安徽工业大学 | 一种基于差分隐私的非等距直方图发布方法 |
CN110874488A (zh) * | 2019-11-15 | 2020-03-10 | 哈尔滨工业大学(深圳) | 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 |
CN112182638B (zh) * | 2020-08-20 | 2022-09-09 | 中国海洋大学 | 一种基于本地化差分隐私模型的直方图数据发布方法及系统 |
CN112417500A (zh) * | 2020-11-18 | 2021-02-26 | 华南师范大学 | 一种隐私保护的数据流统计发布方法 |
CN112307514B (zh) * | 2020-11-26 | 2023-08-01 | 哈尔滨工程大学 | 一种采用Wasserstein距离的差分隐私贪心分组方法 |
CN112464281B (zh) * | 2020-11-29 | 2022-11-18 | 深圳市索迪统计科技有限公司 | 基于隐私分组和情感识别的网络信息分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104135362A (zh) * | 2014-07-21 | 2014-11-05 | 南京大学 | 一种基于差分隐私发布的数据的可用性计算方法 |
CN104573560A (zh) * | 2015-01-27 | 2015-04-29 | 上海交通大学 | 基于小波变换的差分隐私数据发布方法 |
-
2015
- 2015-07-21 CN CN201510430312.0A patent/CN105046160B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104135362A (zh) * | 2014-07-21 | 2014-11-05 | 南京大学 | 一种基于差分隐私发布的数据的可用性计算方法 |
CN104573560A (zh) * | 2015-01-27 | 2015-04-29 | 上海交通大学 | 基于小波变换的差分隐私数据发布方法 |
Non-Patent Citations (3)
Title |
---|
Differentially Private Histogram Publication;Xu J等;《International Conference on Data Engineering》;20131231;第1-25页 * |
Efficient and Accurate Strategies for Differentially-Private Sliding Window Queries;Jianneng Cao等;《International Conference on Extending Database Technology》;20131231;第191-202页 * |
基于箱聚类的差分隐私直方图发布方法研究;薛寿豪等;《计算机应用研究》;20141231;第31卷(第12期);第3700-3710页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105046160A (zh) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105046160B (zh) | 一种基于直方图的面向数据流差分隐私发布方法 | |
CN108763956A (zh) | 一种基于分形维数的流式数据差分隐私保护发布方法 | |
CN104574324B (zh) | 对地面建筑群遥感图像频谱特性约束的去噪方法和系统 | |
CN106651871B (zh) | 一种深度图像空洞的自动填充方法 | |
CN107479093B (zh) | 一种基于势函数的微地震事件去噪和聚类方法 | |
CN104134219A (zh) | 基于直方图的彩色图像分割算法 | |
CN103903275B (zh) | 利用小波融合算法改进图像分割效果的方法 | |
CN106980795A (zh) | 社会网络数据隐私保护方法 | |
CN106570422A (zh) | 一种差分隐私噪声动态分配的实现方法 | |
CN104408445A (zh) | 实时人体自动检测方法 | |
CN104318563A (zh) | 一种基于医学图像的器官骨架提取方法 | |
Yang et al. | Abnormal crowd behavior detection based on local pressure model | |
CN103177099B (zh) | 视频比对方法及系统 | |
Cano-Casanova et al. | Blow-up rates of radially symmetric large solutions | |
CN103198489A (zh) | 基于显著性密度与边缘响应的显著物体自动检测方法 | |
CN101727656A (zh) | 一种基于数据场的图像分割方法 | |
CN104765852A (zh) | 大数据背景下基于模糊算法的数据挖掘方法 | |
CN106846321A (zh) | 一种基于贝叶斯概率与神经网络的图像分割方法 | |
Das et al. | Histogram equalization techniques for contrast enhancement: a review | |
CN102346830B (zh) | 基于梯度直方图的病毒检测方法 | |
CN114662152B (zh) | 一种面向实时数据的本地化差分隐私数据流发布方法 | |
CN109450889A (zh) | 一种物联网中汇聚数据流的隐私保护发布方法 | |
CN103955935A (zh) | 一种基于局部自适应回归的显著区域检测方法 | |
CN102495938A (zh) | 对含噪声点的实时数据流进行聚类和聚类边界界定的方法 | |
CN112131605A (zh) | 一种基于互信息相关技术的差分隐私动态数据发布方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180803 Termination date: 20210721 |