CN112307514A - 一种采用Wasserstein距离的差分隐私贪心分组方法 - Google Patents

一种采用Wasserstein距离的差分隐私贪心分组方法 Download PDF

Info

Publication number
CN112307514A
CN112307514A CN202011343298.8A CN202011343298A CN112307514A CN 112307514 A CN112307514 A CN 112307514A CN 202011343298 A CN202011343298 A CN 202011343298A CN 112307514 A CN112307514 A CN 112307514A
Authority
CN
China
Prior art keywords
data
time point
wasserstein distance
distance
wasserstein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011343298.8A
Other languages
English (en)
Other versions
CN112307514B (zh
Inventor
杨悦
牛艺霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011343298.8A priority Critical patent/CN112307514B/zh
Publication of CN112307514A publication Critical patent/CN112307514A/zh
Application granted granted Critical
Publication of CN112307514B publication Critical patent/CN112307514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种采用Wasserstein距离的差分隐私贪心分组方法,步骤1:读取第i时间点数据集Di;步骤2:将Di与数据集Di‑1进行Wasserstein距离相似度计算;步骤3:当Wasserstein距离大于给定阈值T,则直接发布;否则,执行步骤4;步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。本发明利用Wasserstein距离来计算数据之间的差异,并在数据发布过程中利用贪心分组的方式降低全局敏感度,降低数据发布误差,提高数据发布效用。

Description

一种采用Wasserstein距离的差分隐私贪心分组方法
技术领域
本发明涉及一种差分隐私贪心分组方法,特别是一种采用Wasserstein距离的差分隐私贪心分组方法,属于计算机技术领域中的差分隐私数据发布技术。
背景技术
随着网络信息技术应用的不断发展和进步,各种信息系统储存并积聚了各类丰富的数据。但是,数据集里包括了大量的个人隐私,在数据发布的过程中如果不进行一定的保护措施,随着数据集的发布和共享,可能会造成敏感信息的泄露。直方图通过采用分桶的数据表示形式,实现了范围计数查询和其他线性查询,能够直观地表示数据的发布信息。并且,差分隐私直方图发布方法与其他数据发布方法相比,直方图查询敏感度的计算与数据集的大小和数据集维度都无关。因此对直方图数据发布的研究有助于保护数据的隐私保护,同时提高发布数据的可用性。
动态数据的大规模性要求应用较好的噪声添加机制,否则将累加较大的误差使保护后的数据无可用性。针对这种情况,已有的面向动态数据发布的研究方法基于滑动窗口模型处理更新的数据,并采用距离测度的方法衡量相邻两个时间点的数据相似性,以此来动态地分配隐私预算。目前采用的距离测度方法有L1距离、KL散度、JS散度等,L1距离虽然计算比较简单,但是对衡量数据的相似度的敏感性较差;KL散度和JS散度则是突变的,要么最大要么最小;当两个概率分布没有重叠时,KL散度无意义,JS散度为常量。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种在保证数据隐私保护的同时数据可用性高、数据发布误差低的采用Wasserstein距离的差分隐私贪心分组方法,实现动态调节对隐私预算的分配,减少算法的总误差,在保证发布数据隐私的同时,提高发布数据的可用性。
为解决上述技术问题,本发明的一种采用Wasserstein距离的差分隐私贪心分组方法,包括以下步骤:
步骤1:读取第i时间点接收的数据集Di
步骤2:将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算;
步骤3:当Wasserstein距离大于给定阈值T,则直接发布,即对当前时间点的数据集添加拉普拉斯噪声发布;否则,执行步骤4;
步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;
步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。
本发明还包括:
步骤2将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算具体为:
对Di中属性A的不同元素值进行统计,SDi={{xp1,fp1},{xp2,fp2},…,{xpm,fpm}},其中xpf为元素值,fpf为xpf在Di中出现的频数,对fpf进行归一化处理,即
Figure BDA0002799121560000021
1≤f≤m,得到P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}};
上一个时间点发布的含噪直方图所对应的真实数据的分布归一化后为Q,即Q={xq1,wq1},{xq2,wq2},…,{xqn,wqn}},则P,Q之间的相似度的计算公式为:
Figure BDA0002799121560000022
其中,距离
Figure BDA0002799121560000023
1≤i≤m,1≤j≤n,通过最优化问题:
Figure BDA0002799121560000024
1≤j≤n,fij≥0,
Figure BDA0002799121560000025
解出fij
本发明的有益效果:本发明采用的Wasserstein距离是平滑的,Wasserstein距离能够反映两个概率分布的远近,且有较高地衡量数据相似度的敏感性。利用Wasserstein距离来计算数据之间的差异,根据距离测度与阈值T的比较结果,动态地分配隐私预算,有效提高了动态数据发布的效用。并在数据发布过程中利用贪心分组的方式对采样点上的数据进行发布,降低全局敏感度,以此来提高数据发布效用,降低数据发布误差。
附图说明
图1是本发明方法流程图;
图2是在用户购买记录数据集上取不同ε对三种距离进行MSE误差分析结果;
图3是LPA、DSAT和WGP三种算法实验结果。
具体实施方式
下面结合说明书附图对本发明具体实施方式做进一步说明。
(1)KL散度、JS散度、Wasserstein距离三种距离测度比较
a)KL散度:
KL散度也被称为相对熵,是一种衡量两个概率分布P和Q之间差异的一种方法。假设两个随机变量p(x)∈P和q(x)∈Q,且概率分布P和Q具有相同的域,那么概率分布P和Q之间的KL散度为:
Figure BDA0002799121560000031
其中,D(P||Q)≥0,当且仅当P和Q是两个相同分布时,它们的散度才为0。但由于KL散度中,对数项中p(x)与q(x)相对位置的关系,决定了KL散度其实是非对称的,即DKL(p||q)≠DKL(q||p)。从物理学参考系的角度可以直观感受出,如果要想评价两个分布的相似程度,相似程度的值应该不能因为选取的目标分布的不同而改变。
b)JS散度:
JS散度度量了两个概率分布的相似度,是基于KL散度的变体,解决了KL散度非对称的问题。一般地,JS散度是对称的,其取值是0到1之间。具体的定义如下:
Figure BDA0002799121560000032
因而JS散度便有了对称性,并且形式上更为平滑,更适合作为最后的最大似然函数。
c)Wasserstein距离:
Wasserstein距离也叫做推土机距离,这也是由于它的推导过程可以很形象的用挖土填土来解释,这也是因为该距离定义中由一个分布转变为另一个分布所需要的代价和挖土填土的过程十分相似。对于每一个时间点i,数据流接收的数据集为Di,对Di中属性A出现的不同元素值进行统计,SDi={{xp1,fp1},{xp2,fp2},…,{xpm,fpm}},其中xpf为元素值的大小,fpf为Di中出现的xpf的频数。对fpf进行归一化处理,即
Figure BDA0002799121560000033
(1≤f≤m),则P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}}。
假设Di中数据的分布归一化后为P,即P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}},最后一次发布的含噪直方图所对应的真实数据的分布归一化后为Q,即Q={xq1,wq1},{xq2,wq2},…,{xqn,wqn}},则P,Q之间的相似度的计算公式为:
Figure BDA0002799121560000041
其中,距离
Figure BDA0002799121560000042
1≤i≤m,1≤j≤n。通过最优化问题:
Figure BDA0002799121560000043
1≤j≤n,fij≥0,
Figure BDA0002799121560000044
解出fij。由于P、Q均为归一化后的数据集,所以可以采用最邻近距离填补法来计算P、Q之间的Wasserstein距离。
通过实验数据集上选取不同ε对三种距离进行MSE误差分析比较,JS散度和Wasserstein距离相对于KL散度的误差降低较少,这是由于KL散度非对称的问题。但当两个分配P、Q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这就意味这一点的梯度为0,梯度消失了,而此时Wasserstein距离仍然能反映两个分布的远近。所以从整体上来说Wasserstein距离优于其他两种距离。
(2)通过Wasserstein距离来计算当前时间点上的数据和上一个时间点上发布的数据之间的差异,噪声Wasserstein距离与噪声阈值的大小来判断当前时间点上的数据该如何发布。若噪声Wasserstein距离大于噪声阈值,则直接对当前时间点的数据添加拉普拉斯噪声发布,这种发布方式记为直接发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据为直接发布时,那么先对当前时间点上的数据进行贪心分组,再进行发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据不是直接发布时,则用上一个时间点上发布的噪声数据来代替本次发布。
(3)利用Wasserstein距离来计算数据之间的差异,并在数据发布过程中利用贪心分组的方式降低全局敏感度,以此来提高数据发布效用,降低数据发布误差。
结合图1,本发明的采用Wasserstein距离的差分隐私贪心分组方法(WGP算法,Wasserstein grouping)采用固定的阈值T作为分界点来判断是否对数据加噪,评判过程分为三步:若噪声Wasserstein距离大于噪声阈值,则直接对当前时间点的数据添加拉普拉斯噪声发布,这种发布方式记为直接发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据为直接发布时,那么先对当前时间点上的数据进行贪心分组,再进行发布;若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据不是直接发布时,则用上一个时间点上发布的噪声数据来代替本次发布。
结合图2:在用户购买记录数据集上取不同ε对三种距离进行MSE误差分析,实验结果整体上Wasserstein距离优于其他两种距离。
结合图3:由于在数据发布过程中,WGP算法采用了贪心分组的方法对直方图的桶进行合并。在实验中,比较了三种算法:LPA、DSAT和WGP。这里选择LPA与DSAT算法作为对比算法的原因是:LPA算法通常被作为动态数据发布算法中的基线方法,DSAT算法为更新形式的最新动态数据发布算法。实验中采用绝对误差AE对WGP算法的实验结果进行度量,图3实验结果表明随着隐私预算的不断增加,三种算法的绝对误差都在不断减小,但本文提出的WGP算法的绝对误差是最小的,WGP算法在三种算法中具有最佳的数据发布结果。

Claims (2)

1.一种采用Wasserstein距离的差分隐私贪心分组方法,其特征在于,包括以下步骤:
步骤1:读取第i时间点接收的数据集Di
步骤2:将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算;
步骤3:当Wasserstein距离大于给定阈值T,则直接发布,即对当前时间点的数据集添加拉普拉斯噪声发布;否则,执行步骤4;
步骤4:判断上一次数据发布是否为直接发布,如果是直接发布,则先对当前时间点上的数据进行贪心分组,再进行发布;否则执行步骤5;
步骤5:则用上一个时间点上发布的噪声数据来代替本次发布。
2.根据权利要求1所述的一种采用Wasserstein距离的差分隐私贪心分组方法,其特征在于:步骤2所述将Di与上一个时间点发布的数据集Di-1进行Wasserstein距离相似度计算具体为:
对Di中属性A的不同元素值进行统计,SDi={{xp1,fp1},{xp2,fp2},…,{xpm,fpm}},其中xpf为元素值,fpf为xpf在Di中出现的频数,对fpf进行归一化处理,即
Figure FDA0002799121550000011
得到P={xp1,wp1},{xp2,wp2},…,{xpm,wpm}};
上一个时间点发布的含噪直方图所对应的真实数据的分布归一化后为Q,即Q={xq1,wq1},{xq2,wq2},…,{xqn,wqn}},则P,Q之间的相似度的计算公式为:
Figure FDA0002799121550000012
其中,距离
Figure FDA0002799121550000013
通过最优化问题:
Figure FDA0002799121550000014
Figure FDA0002799121550000015
解出fij
CN202011343298.8A 2020-11-26 2020-11-26 一种采用Wasserstein距离的差分隐私贪心分组方法 Active CN112307514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011343298.8A CN112307514B (zh) 2020-11-26 2020-11-26 一种采用Wasserstein距离的差分隐私贪心分组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011343298.8A CN112307514B (zh) 2020-11-26 2020-11-26 一种采用Wasserstein距离的差分隐私贪心分组方法

Publications (2)

Publication Number Publication Date
CN112307514A true CN112307514A (zh) 2021-02-02
CN112307514B CN112307514B (zh) 2023-08-01

Family

ID=74486965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011343298.8A Active CN112307514B (zh) 2020-11-26 2020-11-26 一种采用Wasserstein距离的差分隐私贪心分组方法

Country Status (1)

Country Link
CN (1) CN112307514B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118407A (zh) * 2021-10-29 2022-03-01 华北电力大学 一种面向深度学习的差分隐私可用性度量方法
CN114662152A (zh) * 2022-04-06 2022-06-24 安徽工业大学 一种面向实时数据的本地化差分隐私数据流发布方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
US20190325621A1 (en) * 2016-06-24 2019-10-24 Rensselaer Polytechnic Institute Tomographic image reconstruction via machine learning
US20200184106A1 (en) * 2018-12-10 2020-06-11 Sap Se Differential Privacy Processing of IoT Streaming Data Using Generative Adversarial Networks
CN111476200A (zh) * 2020-04-27 2020-07-31 华东师范大学 基于生成对抗网络的人脸去识别化生成方法
CN111737743A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种深度学习差分隐私保护方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
US20190325621A1 (en) * 2016-06-24 2019-10-24 Rensselaer Polytechnic Institute Tomographic image reconstruction via machine learning
US20200184106A1 (en) * 2018-12-10 2020-06-11 Sap Se Differential Privacy Processing of IoT Streaming Data Using Generative Adversarial Networks
CN111476200A (zh) * 2020-04-27 2020-07-31 华东师范大学 基于生成对抗网络的人脸去识别化生成方法
CN111737743A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种深度学习差分隐私保护方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118407A (zh) * 2021-10-29 2022-03-01 华北电力大学 一种面向深度学习的差分隐私可用性度量方法
CN114118407B (zh) * 2021-10-29 2023-10-24 华北电力大学 一种面向深度学习的差分隐私可用性度量方法
CN114662152A (zh) * 2022-04-06 2022-06-24 安徽工业大学 一种面向实时数据的本地化差分隐私数据流发布方法
CN114662152B (zh) * 2022-04-06 2023-05-12 安徽工业大学 一种面向实时数据的本地化差分隐私数据流发布方法

Also Published As

Publication number Publication date
CN112307514B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Fan et al. An adaptive approach to real-time aggregate monitoring with differential privacy
CN110874488A (zh) 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质
CN112307514B (zh) 一种采用Wasserstein距离的差分隐私贪心分组方法
Wang et al. RescueDP: Real-time spatio-temporal crowd-sourced data publishing with differential privacy
Avci et al. Existence and multiplicity of the solutions of the p (x)–Kirchhoff type equation via genus theory
CN109726587B (zh) 一种基于差分隐私的空间数据划分方法
CN110162997B (zh) 基于插值点的匿名隐私保护方法
CN112307078B (zh) 基于滑动窗口的数据流差分隐私直方图发布方法
Ozakin et al. Submanifold density estimation
CN105046160A (zh) 一种基于直方图的面向数据流差分隐私发布方法
CN114065287B (zh) 一种抗预测攻击的轨迹差分隐私保护方法和系统
Chen et al. Estimating complexity of 2D shapes
Qi et al. Indexable online time series segmentation with error bound guarantee
CN114884682B (zh) 基于自适应本地差分隐私的群智感知数据流隐私保护方法
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
CN109450889B (zh) 一种物联网中汇聚数据流的隐私保护发布方法
CN114328785A (zh) 提取道路信息的方法和装置
Gao et al. Privacy-Preserving for Dynamic Real-Time Published Data Streams Based on Local Differential Privacy
She et al. A new adaptive local linear prediction method and its application in hydrological time series
KR101165335B1 (ko) 지수함수 기반의 입자 리샘플링 방법 및 그 방법을 이용한 영상객체 추적방법
Young et al. A model-based validation framework for PIV and PTV
Chouakria-Douzal et al. Improved fréchet distance for time series
CN111967504B (zh) 带重要点约束的相似轨迹判断方法
Wang et al. A Novel Approach for Trajectory Partition Privacy in Location-Based Services
Ahmed et al. Scaling up for high dimensional and high speed data streams: HSDStream

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant