CN112307514A

CN112307514A - 一种采用Wasserstein距离的差分隐私贪心分组方法

Info

Publication number: CN112307514A
Application number: CN202011343298.8A
Authority: CN
Inventors: 杨悦; 牛艺霖
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-02
Anticipated expiration: 2040-11-26
Also published as: CN112307514B

Abstract

本发明公开了一种采用Wasserstein距离的差分隐私贪心分组方法，步骤1：读取第i时间点数据集D_i；步骤2：将D_i与数据集D_i‑1进行Wasserstein距离相似度计算；步骤3：当Wasserstein距离大于给定阈值T，则直接发布；否则，执行步骤4；步骤4：判断上一次数据发布是否为直接发布，如果是直接发布，则先对当前时间点上的数据进行贪心分组，再进行发布；否则执行步骤5；步骤5：则用上一个时间点上发布的噪声数据来代替本次发布。本发明利用Wasserstein距离来计算数据之间的差异，并在数据发布过程中利用贪心分组的方式降低全局敏感度，降低数据发布误差，提高数据发布效用。

Description

一种采用Wasserstein距离的差分隐私贪心分组方法

技术领域

本发明涉及一种差分隐私贪心分组方法，特别是一种采用Wasserstein距离的差分隐私贪心分组方法，属于计算机技术领域中的差分隐私数据发布技术。

背景技术

随着网络信息技术应用的不断发展和进步，各种信息系统储存并积聚了各类丰富的数据。但是，数据集里包括了大量的个人隐私，在数据发布的过程中如果不进行一定的保护措施，随着数据集的发布和共享，可能会造成敏感信息的泄露。直方图通过采用分桶的数据表示形式，实现了范围计数查询和其他线性查询，能够直观地表示数据的发布信息。并且，差分隐私直方图发布方法与其他数据发布方法相比，直方图查询敏感度的计算与数据集的大小和数据集维度都无关。因此对直方图数据发布的研究有助于保护数据的隐私保护，同时提高发布数据的可用性。

动态数据的大规模性要求应用较好的噪声添加机制，否则将累加较大的误差使保护后的数据无可用性。针对这种情况，已有的面向动态数据发布的研究方法基于滑动窗口模型处理更新的数据，并采用距离测度的方法衡量相邻两个时间点的数据相似性，以此来动态地分配隐私预算。目前采用的距离测度方法有L1距离、KL散度、JS散度等，L1距离虽然计算比较简单，但是对衡量数据的相似度的敏感性较差；KL散度和JS散度则是突变的，要么最大要么最小；当两个概率分布没有重叠时，KL散度无意义，JS散度为常量。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种在保证数据隐私保护的同时数据可用性高、数据发布误差低的采用Wasserstein距离的差分隐私贪心分组方法，实现动态调节对隐私预算的分配，减少算法的总误差，在保证发布数据隐私的同时，提高发布数据的可用性。

为解决上述技术问题，本发明的一种采用Wasserstein距离的差分隐私贪心分组方法，包括以下步骤：

步骤1：读取第i时间点接收的数据集D_i；

步骤2：将D_i与上一个时间点发布的数据集D_i-1进行Wasserstein距离相似度计算；

步骤3：当Wasserstein距离大于给定阈值T，则直接发布，即对当前时间点的数据集添加拉普拉斯噪声发布；否则，执行步骤4；

步骤4：判断上一次数据发布是否为直接发布，如果是直接发布，则先对当前时间点上的数据进行贪心分组，再进行发布；否则执行步骤5；

步骤5：则用上一个时间点上发布的噪声数据来代替本次发布。

本发明还包括：

步骤2将D_i与上一个时间点发布的数据集D_i-1进行Wasserstein距离相似度计算具体为：

对D_i中属性A的不同元素值进行统计，SD_i＝{{x_p1,f_p1},{x_p2,f_p2},…,{x_pm,f_pm}}，其中x_pf为元素值，f_pf为x_pf在D_i中出现的频数，对f_pf进行归一化处理，即

1≤f≤m，得到P＝{x_p1,w_p1},{x_p2,w_p2},…,{x_pm,w_pm}}；

上一个时间点发布的含噪直方图所对应的真实数据的分布归一化后为Q，即Q＝{x_q1,w_q1},{x_q2,w_q2},…,{x_qn,w_qn}}，则P，Q之间的相似度的计算公式为：

其中，距离

1≤i≤m，1≤j≤n，通过最优化问题：

1≤j≤n，f_ij≥0，

解出f_ij。

本发明的有益效果：本发明采用的Wasserstein距离是平滑的，Wasserstein距离能够反映两个概率分布的远近，且有较高地衡量数据相似度的敏感性。利用Wasserstein距离来计算数据之间的差异，根据距离测度与阈值T的比较结果，动态地分配隐私预算，有效提高了动态数据发布的效用。并在数据发布过程中利用贪心分组的方式对采样点上的数据进行发布，降低全局敏感度，以此来提高数据发布效用，降低数据发布误差。

附图说明

图1是本发明方法流程图；

图2是在用户购买记录数据集上取不同ε对三种距离进行MSE误差分析结果；

图3是LPA、DSAT和WGP三种算法实验结果。

具体实施方式

下面结合说明书附图对本发明具体实施方式做进一步说明。

(1)KL散度、JS散度、Wasserstein距离三种距离测度比较

a)KL散度：

KL散度也被称为相对熵，是一种衡量两个概率分布P和Q之间差异的一种方法。假设两个随机变量p(x)∈P和q(x)∈Q，且概率分布P和Q具有相同的域，那么概率分布P和Q之间的KL散度为：

其中，D(P||Q)≥0，当且仅当P和Q是两个相同分布时，它们的散度才为0。但由于KL散度中，对数项中p(x)与q(x)相对位置的关系，决定了KL散度其实是非对称的，即D_KL(p||q)≠D_KL(q||p)。从物理学参考系的角度可以直观感受出，如果要想评价两个分布的相似程度，相似程度的值应该不能因为选取的目标分布的不同而改变。

b)JS散度：

JS散度度量了两个概率分布的相似度，是基于KL散度的变体，解决了KL散度非对称的问题。一般地，JS散度是对称的，其取值是0到1之间。具体的定义如下：

因而JS散度便有了对称性，并且形式上更为平滑，更适合作为最后的最大似然函数。

c)Wasserstein距离：

Wasserstein距离也叫做推土机距离，这也是由于它的推导过程可以很形象的用挖土填土来解释，这也是因为该距离定义中由一个分布转变为另一个分布所需要的代价和挖土填土的过程十分相似。对于每一个时间点i，数据流接收的数据集为D_i，对D_i中属性A出现的不同元素值进行统计，SD_i＝{{x_p1,f_p1},{x_p2,f_p2},…,{x_pm,f_pm}},其中x_pf为元素值的大小，f_pf为D_i中出现的x_pf的频数。对f_pf进行归一化处理，即

(1≤f≤m)，则P＝{x_p1,w_p1},{x_p2,w_p2},…,{x_pm,w_pm}}。

假设Di中数据的分布归一化后为P，即P＝{x_p1,w_p1},{x_p2,w_p2},…,{x_pm,w_pm}},最后一次发布的含噪直方图所对应的真实数据的分布归一化后为Q，即Q＝{x_q1,w_q1},{x_q2,w_q2},…,{x_qn,w_qn}}，则P，Q之间的相似度的计算公式为：

其中，距离

1≤i≤m，1≤j≤n。通过最优化问题：

1≤j≤n，f_ij≥0，

解出f_ij。由于P、Q均为归一化后的数据集，所以可以采用最邻近距离填补法来计算P、Q之间的Wasserstein距离。

通过实验数据集上选取不同ε对三种距离进行MSE误差分析比较，JS散度和Wasserstein距离相对于KL散度的误差降低较少，这是由于KL散度非对称的问题。但当两个分配P、Q离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，而JS散度值是一个常数。这就意味这一点的梯度为0，梯度消失了，而此时Wasserstein距离仍然能反映两个分布的远近。所以从整体上来说Wasserstein距离优于其他两种距离。

(2)通过Wasserstein距离来计算当前时间点上的数据和上一个时间点上发布的数据之间的差异，噪声Wasserstein距离与噪声阈值的大小来判断当前时间点上的数据该如何发布。若噪声Wasserstein距离大于噪声阈值，则直接对当前时间点的数据添加拉普拉斯噪声发布，这种发布方式记为直接发布；若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据为直接发布时，那么先对当前时间点上的数据进行贪心分组，再进行发布；若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据不是直接发布时，则用上一个时间点上发布的噪声数据来代替本次发布。

(3)利用Wasserstein距离来计算数据之间的差异，并在数据发布过程中利用贪心分组的方式降低全局敏感度，以此来提高数据发布效用，降低数据发布误差。

结合图1，本发明的采用Wasserstein距离的差分隐私贪心分组方法(WGP算法，Wasserstein grouping)采用固定的阈值T作为分界点来判断是否对数据加噪，评判过程分为三步：若噪声Wasserstein距离大于噪声阈值，则直接对当前时间点的数据添加拉普拉斯噪声发布，这种发布方式记为直接发布；若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据为直接发布时，那么先对当前时间点上的数据进行贪心分组，再进行发布；若噪声Wasserstein距离小于噪声阈值且上一个时间点的数据不是直接发布时，则用上一个时间点上发布的噪声数据来代替本次发布。

结合图2：在用户购买记录数据集上取不同ε对三种距离进行MSE误差分析，实验结果整体上Wasserstein距离优于其他两种距离。

结合图3：由于在数据发布过程中，WGP算法采用了贪心分组的方法对直方图的桶进行合并。在实验中，比较了三种算法：LPA、DSAT和WGP。这里选择LPA与DSAT算法作为对比算法的原因是：LPA算法通常被作为动态数据发布算法中的基线方法，DSAT算法为更新形式的最新动态数据发布算法。实验中采用绝对误差AE对WGP算法的实验结果进行度量，图3实验结果表明随着隐私预算的不断增加，三种算法的绝对误差都在不断减小，但本文提出的WGP算法的绝对误差是最小的，WGP算法在三种算法中具有最佳的数据发布结果。

Claims

1.一种采用Wasserstein距离的差分隐私贪心分组方法，其特征在于，包括以下步骤：

步骤1：读取第i时间点接收的数据集D_i；

2.根据权利要求1所述的一种采用Wasserstein距离的差分隐私贪心分组方法，其特征在于：步骤2所述将D_i与上一个时间点发布的数据集D_i-1进行Wasserstein距离相似度计算具体为：

得到P＝{x_p1,w_p1},{x_p2,w_p2},…,{x_pm,w_pm}}；

其中，距离

通过最优化问题：

解出f_ij。