CN112307514A - 一种采用Wasserstein距离的差分隐私贪心分组方法 - Google Patents
一种采用Wasserstein距离的差分隐私贪心分组方法 Download PDFInfo
- Publication number
- CN112307514A CN112307514A CN202011343298.8A CN202011343298A CN112307514A CN 112307514 A CN112307514 A CN 112307514A CN 202011343298 A CN202011343298 A CN 202011343298A CN 112307514 A CN112307514 A CN 112307514A
- Authority
- CN
- China
- Prior art keywords
- data
- time point
- wasserstein distance
- distance
- wasserstein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种采用Wasserstein距离的差分隐私贪心分组方法,步骤1:读取第i时间点数据集Di;步骤2:将Di与数据集Di‑1进行Wasserstein距离相似度计算;步骤3:当Wasserstein距离大于给定阈值T,则直接发布;否则,执行步骤4;步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。本发明利用Wasserstein距离来计算数据之间的差异,并在数据发布过程中利用贪心分组的方式降低全局敏感度,降低数据发布误差,提高数据发布效用。
Description
技术领域
本发明涉及一种差分隐私贪心分组方法,特别是一种采用Wasserstein距离的差分隐私贪心分组方法,属于计算机技术领域中的差分隐私数据发布技术。
背景技术
随着网络信息技术应用的不断发展和进步,各种信息系统储存并积聚了各类丰富的数据。但是,数据集里包括了大量的个人隐私,在数据发布的过程中如果不进行一定的保护措施,随着数据集的发布和共享,可能会造成敏感信息的泄露。直方图通过采用分桶的数据表示形式,实现了范围计数查询和其他线性查询,能够直观地表示数据的发布信息。并且,差分隐私直方图发布方法与其他数据发布方法相比,直方图查询敏感度的计算与数据集的大小和数据集维度都无关。因此对直方图数据发布的研究有助于保护数据的隐私保护,同时提高发布数据的可用性。
动态数据的大规模性要求应用较好的噪声添加机制,否则将累加较大的误差使保护后的数据无可用性。针对这种情况,已有的面向动态数据发布的研究方法基于滑动窗口模型处理更新的数据,并采用距离测度的方法衡量相邻两个时间点的数据相似性,以此来动态地分配隐私预算。目前采用的距离测度方法有L1距离、KL散度、JS散度等,L1距离虽然计算比较简单,但是对衡量数据的相似度的敏感性较差;KL散度和JS散度则是突变的,要么最大要么最小;当两个概率分布没有重叠时,KL散度无意义,JS散度为常量。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种在保证数据隐私保护的同时数据可用性高、数据发布误差低的采用Wasserstein距离的差分隐私贪心分组方法,实现动态调节对隐私预算的分配,减少算法的总误差,在保证发布数据隐私的同时,提高发布数据的可用性。
为解决上述技术问题,本发明的一种采用Wasserstein距离的差分隐私贪心分组方法,包括以下步骤:
步骤1:读取第i时间点接收的数据集Di;
步骤2:将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算;
步骤3:当Wasserstein距离大于给定阈值T,则直接发布,即对当前时间点的数据集添加拉普拉斯噪声发布;否则,执行步骤4;
步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;
步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。
本发明还包括:
步骤2将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算具体为:
对Di中属性A的不同元素值进行统计,SDi={{xp1,fp1},{xp2,fp2},…,{xpm,fpm}},其中xpf为元素值,fpf为xpf在Di中出现的频数,对fpf进行归一化处理,即1≤f≤m,得到P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}};
上一个时间点发布的含噪直方图所对应的真实数据的分布归一化后为Q,即Q={xq1,wq1},{xq2,wq2},…,{xqn,wqn}},则P,Q之间的相似度的计算公式为:
本发明的有益效果:本发明采用的Wasserstein距离是平滑的,Wasserstein距离能够反映两个概率分布的远近,且有较高地衡量数据相似度的敏感性。利用Wasserstein距离来计算数据之间的差异,根据距离测度与阈值T的比较结果,动态地分配隐私预算,有效提高了动态数据发布的效用。并在数据发布过程中利用贪心分组的方式对采样点上的数据进行发布,降低全局敏感度,以此来提高数据发布效用,降低数据发布误差。
附图说明
图1是本发明方法流程图;
图2是在用户购买记录数据集上取不同ε对三种距离进行MSE误差分析结果;
图3是LPA、DSAT和WGP三种算法实验结果。
具体实施方式
下面结合说明书附图对本发明具体实施方式做进一步说明。
(1)KL散度、JS散度、Wasserstein距离三种距离测度比较
a)KL散度:
KL散度也被称为相对熵,是一种衡量两个概率分布P和Q之间差异的一种方法。假设两个随机变量p(x)∈P和q(x)∈Q,且概率分布P和Q具有相同的域,那么概率分布P和Q之间的KL散度为:
其中,D(P||Q)≥0,当且仅当P和Q是两个相同分布时,它们的散度才为0。但由于KL散度中,对数项中p(x)与q(x)相对位置的关系,决定了KL散度其实是非对称的,即DKL(p||q)≠DKL(q||p)。从物理学参考系的角度可以直观感受出,如果要想评价两个分布的相似程度,相似程度的值应该不能因为选取的目标分布的不同而改变。
b)JS散度:
JS散度度量了两个概率分布的相似度,是基于KL散度的变体,解决了KL散度非对称的问题。一般地,JS散度是对称的,其取值是0到1之间。具体的定义如下:
因而JS散度便有了对称性,并且形式上更为平滑,更适合作为最后的最大似然函数。
c)Wasserstein距离:
Wasserstein距离也叫做推土机距离,这也是由于它的推导过程可以很形象的用挖土填土来解释,这也是因为该距离定义中由一个分布转变为另一个分布所需要的代价和挖土填土的过程十分相似。对于每一个时间点i,数据流接收的数据集为Di,对Di中属性A出现的不同元素值进行统计,SDi={{xp1,fp1},{xp2,fp2},…,{xpm,fpm}},其中xpf为元素值的大小,fpf为Di中出现的xpf的频数。对fpf进行归一化处理,即(1≤f≤m),则P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}}。
假设Di中数据的分布归一化后为P,即P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}},最后一次发布的含噪直方图所对应的真实数据的分布归一化后为Q,即Q={xq1,wq1},{xq2,wq2},…,{xqn,wqn}},则P,Q之间的相似度的计算公式为:
通过实验数据集上选取不同ε对三种距离进行MSE误差分析比较,JS散度和Wasserstein距离相对于KL散度的误差降低较少,这是由于KL散度非对称的问题。但当两个分配P、Q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这就意味这一点的梯度为0,梯度消失了,而此时Wasserstein距离仍然能反映两个分布的远近。所以从整体上来说Wasserstein距离优于其他两种距离。
(2)通过Wasserstein距离来计算当前时间点上的数据和上一个时间点上发布的数据之间的差异,噪声Wasserstein距离与噪声阈值的大小来判断当前时间点上的数据该如何发布。若噪声Wasserstein距离大于噪声阈值,则直接对当前时间点的数据添加拉普拉斯噪声发布,这种发布方式记为直接发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据为直接发布时,那么先对当前时间点上的数据进行贪心分组,再进行发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据不是直接发布时,则用上一个时间点上发布的噪声数据来代替本次发布。
(3)利用Wasserstein距离来计算数据之间的差异,并在数据发布过程中利用贪心分组的方式降低全局敏感度,以此来提高数据发布效用,降低数据发布误差。
结合图1,本发明的采用Wasserstein距离的差分隐私贪心分组方法(WGP算法,Wasserstein grouping)采用固定的阈值T作为分界点来判断是否对数据加噪,评判过程分为三步:若噪声Wasserstein距离大于噪声阈值,则直接对当前时间点的数据添加拉普拉斯噪声发布,这种发布方式记为直接发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据为直接发布时,那么先对当前时间点上的数据进行贪心分组,再进行发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据不是直接发布时,则用上一个时间点上发布的噪声数据来代替本次发布。
结合图2:在用户购买记录数据集上取不同ε对三种距离进行MSE误差分析,实验结果整体上Wasserstein距离优于其他两种距离。
结合图3:由于在数据发布过程中,WGP算法采用了贪心分组的方法对直方图的桶进行合并。在实验中,比较了三种算法:LPA、DSAT和WGP。这里选择LPA与DSAT算法作为对比算法的原因是:LPA算法通常被作为动态数据发布算法中的基线方法,DSAT算法为更新形式的最新动态数据发布算法。实验中采用绝对误差AE对WGP算法的实验结果进行度量,图3实验结果表明随着隐私预算的不断增加,三种算法的绝对误差都在不断减小,但本文提出的WGP算法的绝对误差是最小的,WGP算法在三种算法中具有最佳的数据发布结果。
Claims (2)
1.一种采用Wasserstein距离的差分隐私贪心分组方法,其特征在于,包括以下步骤:
步骤1:读取第i时间点接收的数据集Di;
步骤2:将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算;
步骤3:当Wasserstein距离大于给定阈值T,则直接发布,即对当前时间点的数据集添加拉普拉斯噪声发布;否则,执行步骤4;
步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;
步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。
2.根据权利要求1所述的一种采用Wasserstein距离的差分隐私贪心分组方法,其特征在于:步骤2所述将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算具体为:
对Di中属性A的不同元素值进行统计,SDi={{xp1,fp1},{xp2,fp2},…,{xpm,fpm}},其中xpf为元素值,fpf为xpf在Di中出现的频数,对fpf进行归一化处理,即得到P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}};
上一个时间点发布的含噪直方图所对应的真实数据的分布归一化后为Q,即Q={xq1,wq1},{xq2,wq2},…,{xqn,wqn}},则P,Q之间的相似度的计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343298.8A CN112307514B (zh) | 2020-11-26 | 2020-11-26 | 一种采用Wasserstein距离的差分隐私贪心分组方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343298.8A CN112307514B (zh) | 2020-11-26 | 2020-11-26 | 一种采用Wasserstein距离的差分隐私贪心分组方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307514A true CN112307514A (zh) | 2021-02-02 |
CN112307514B CN112307514B (zh) | 2023-08-01 |
Family
ID=74486965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011343298.8A Active CN112307514B (zh) | 2020-11-26 | 2020-11-26 | 一种采用Wasserstein距离的差分隐私贪心分组方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307514B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118407A (zh) * | 2021-10-29 | 2022-03-01 | 华北电力大学 | 一种面向深度学习的差分隐私可用性度量方法 |
CN114662152A (zh) * | 2022-04-06 | 2022-06-24 | 安徽工业大学 | 一种面向实时数据的本地化差分隐私数据流发布方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046160A (zh) * | 2015-07-21 | 2015-11-11 | 东华大学 | 一种基于直方图的面向数据流差分隐私发布方法 |
US20190325621A1 (en) * | 2016-06-24 | 2019-10-24 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
US20200184106A1 (en) * | 2018-12-10 | 2020-06-11 | Sap Se | Differential Privacy Processing of IoT Streaming Data Using Generative Adversarial Networks |
CN111476200A (zh) * | 2020-04-27 | 2020-07-31 | 华东师范大学 | 基于生成对抗网络的人脸去识别化生成方法 |
CN111737743A (zh) * | 2020-06-22 | 2020-10-02 | 安徽工业大学 | 一种深度学习差分隐私保护方法 |
-
2020
- 2020-11-26 CN CN202011343298.8A patent/CN112307514B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046160A (zh) * | 2015-07-21 | 2015-11-11 | 东华大学 | 一种基于直方图的面向数据流差分隐私发布方法 |
US20190325621A1 (en) * | 2016-06-24 | 2019-10-24 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
US20200184106A1 (en) * | 2018-12-10 | 2020-06-11 | Sap Se | Differential Privacy Processing of IoT Streaming Data Using Generative Adversarial Networks |
CN111476200A (zh) * | 2020-04-27 | 2020-07-31 | 华东师范大学 | 基于生成对抗网络的人脸去识别化生成方法 |
CN111737743A (zh) * | 2020-06-22 | 2020-10-02 | 安徽工业大学 | 一种深度学习差分隐私保护方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118407A (zh) * | 2021-10-29 | 2022-03-01 | 华北电力大学 | 一种面向深度学习的差分隐私可用性度量方法 |
CN114118407B (zh) * | 2021-10-29 | 2023-10-24 | 华北电力大学 | 一种面向深度学习的差分隐私可用性度量方法 |
CN114662152A (zh) * | 2022-04-06 | 2022-06-24 | 安徽工业大学 | 一种面向实时数据的本地化差分隐私数据流发布方法 |
CN114662152B (zh) * | 2022-04-06 | 2023-05-12 | 安徽工业大学 | 一种面向实时数据的本地化差分隐私数据流发布方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112307514B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | An adaptive approach to real-time aggregate monitoring with differential privacy | |
CN110874488A (zh) | 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 | |
CN112307514B (zh) | 一种采用Wasserstein距离的差分隐私贪心分组方法 | |
Wang et al. | RescueDP: Real-time spatio-temporal crowd-sourced data publishing with differential privacy | |
Avci et al. | Existence and multiplicity of the solutions of the p (x)–Kirchhoff type equation via genus theory | |
CN109726587B (zh) | 一种基于差分隐私的空间数据划分方法 | |
CN110162997B (zh) | 基于插值点的匿名隐私保护方法 | |
CN112307078B (zh) | 基于滑动窗口的数据流差分隐私直方图发布方法 | |
Ozakin et al. | Submanifold density estimation | |
CN105046160A (zh) | 一种基于直方图的面向数据流差分隐私发布方法 | |
CN114065287B (zh) | 一种抗预测攻击的轨迹差分隐私保护方法和系统 | |
Chen et al. | Estimating complexity of 2D shapes | |
Qi et al. | Indexable online time series segmentation with error bound guarantee | |
CN114884682B (zh) | 基于自适应本地差分隐私的群智感知数据流隐私保护方法 | |
CN116186757A (zh) | 一种效用增强的条件特征选择差分隐私数据发布方法 | |
CN109450889B (zh) | 一种物联网中汇聚数据流的隐私保护发布方法 | |
CN114328785A (zh) | 提取道路信息的方法和装置 | |
Gao et al. | Privacy-Preserving for Dynamic Real-Time Published Data Streams Based on Local Differential Privacy | |
She et al. | A new adaptive local linear prediction method and its application in hydrological time series | |
KR101165335B1 (ko) | 지수함수 기반의 입자 리샘플링 방법 및 그 방법을 이용한 영상객체 추적방법 | |
Young et al. | A model-based validation framework for PIV and PTV | |
Chouakria-Douzal et al. | Improved fréchet distance for time series | |
CN111967504B (zh) | 带重要点约束的相似轨迹判断方法 | |
Wang et al. | A Novel Approach for Trajectory Partition Privacy in Location-Based Services | |
Ahmed et al. | Scaling up for high dimensional and high speed data streams: HSDStream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |