CN107766740A

CN107766740A - 一种Spark 框架下的基于差分隐私保护的数据发布方法

Info

Publication number: CN107766740A
Application number: CN201710984658.4A
Authority: CN
Inventors: 颜飞; 张兴; 李畅; 史伟; 李万杰; 李帅
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2018-03-06

Abstract

本发明公开了一种Spark框架下的基于差分隐私保护的数据发布方法，包括：步骤1：将原始数据集导入Hadoop分布式文件系统，从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计；步骤2：对k‑means聚类算法进行二范数关联优化，然后利用优化后的k‑means聚类算法对分类统计形成的待发布数据集进行聚类分组；步骤3：对每个分组求均值：步骤4：在各分组的均值上添加Laplace噪声得到数据集；步骤5：对差分隐私保护后的发布数据进行直方图发布。本发明所述的一种Spark框架下的基于差分隐私保护的数据发布方法，能够提高判断离群点和差值集的计算效率，并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响。

Description

一种Spark框架下的基于差分隐私保护的数据发布方法

技术领域

本发明涉及大数据安全领域，更具体的是，本发明涉及一种Spark框架下的基于差分隐私保护的数据发布方法。

背景技术

随着信息网络和基于信息网络的各种应用的不断发展和普及，大量的个人隐私数据被收集存储，例如医疗健康数据、在线交易数据、网络存储数据等。对这些数据集进行分析可使人们获得更深层次的数据价值，但使用不当则会导致数据的隐私泄露事件不断发生，所泄露的内容类型很多，包括个人身份信息、网络访问习惯、兴趣爱好乃至邮件内容。隐私泄露问题已成为人们广泛关注的焦点。隐私数据泄露不仅会影响到个人利益，甚至威胁到国家的网络空间安全。尤其是面对如此复杂的大数据背景，如何保护数据的隐私安全尤为重要。

差分隐私(Differential Privacy,DP)作为一种新型、轻量级的隐私保护算法，通过对发布数据进行随意扰动，为数据的隐私保护提供了一种崭新的方法。而如何在满足差分隐私的前提下提高发布统计数据的可用性及算法的计算效率是当前差分隐私数据发布研究的核心问题。

发明内容

本发明的目的是设计开发了一种Spark框架下的基于差分隐私保护的数据发布方法，能够提高判断离群点和差值集的计算效率，并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响。

本发明提供的技术方案为：

一种Spark框架下的基于差分隐私保护的数据发布方法，包括如下步骤：

步骤1：将原始数据集导入Hadoop分布式文件系统，从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计；

步骤2：对k-means聚类算法进行二范数关联优化，然后利用优化后的k-means聚类算法对分类统计形成的待发布数据集进行聚类分组C＝{C₁,C₂,…,C_k}；

步骤3：对每个分组求均值：

其中，C_k_avg为每个分组均值，x_i为每个分组中的样本，n为每个分组的样本量；

步骤4：在各分组的均值C_k_avg上添加Laplace噪声得到数据集D_s＝{C₁',C₂',…,C_k'}，所述各组分均值添加Laplace噪声为C_k'_avg：

C_k'_avg＝C_k_avg+Lap_dk(1/ε)

其中，ε为隐私预算，d为查询维数；

步骤5：对差分隐私保护后的发布数据D_s进行直方图发布。

优选的是，所述步骤1中数据集分类：采用Hash_map按照数据属性进行分类统计，形成中间数据集D'。

优选的是，所述步骤2中，k-means聚类算法采用距离优化方法，将样本数据与其二范数进行关联优化。

优选的是，所述k-means聚类算法包括如下步骤：

步骤2.1：初始化k个数据作为初始聚类中心，形成聚类样本；

步骤2.2：遍历数据样本，将数据点的坐标(x,y)与其二范数进行关联，构成＜(x,y),||(x,y)||²＞的键值对形式，将二范数之差的平方值与最近的中心点的距离进行比较，若二范数之差的平方值小于最近的中心点的距离，则进行真正的欧氏距离计算，若真正的欧氏距离小于最近的中心点的距离，将距离最小的归类到聚类中心，形成k个聚类；

步骤2.3：计算各聚类内数据均值，更新聚类中心；

步骤2.4：循环步骤2.1-2.3，直到达到指定迭代次数或者聚类收敛，输出聚类分组C＝{C₁,C₂,…,C_k}。

优选的是，所述步骤2中利用k-means聚类算法形成分组最优划分与合并。

优选的是，所述步骤4中，查询维数d为一维。

优选的是，所述步骤4中，隐私预算ε为0.01

本发明至少具备以下有益效果：

(1)本发明所述的一种Spark框架下的基于差分隐私的数据发布方法，能够满足大数据背景下的差分隐私保护直方图发布方法的目的，在于满足海量数据计算效率的要求下提供有效的隐私保护。

(2)本发明所述的一种Spark框架下的基于差分隐私的数据发布方法，能够实现分组最优合并，平衡了数据隐私保护和数据可用性的关系，使得满足数据隐私保护的同时保障数据具有较好的可用性。

附图说明

图1为本发明所述Spark框架下的基于差分隐私保护的数据发布方法的数据处理流程图。

图2为本发明所述实施例的直方图发布结果。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明可以有许多不同的形式实施，而不应该理解为限于再次阐述的实施例，相反，提供这些实施例，使得本公开将是彻底和完整的。

如图1所示，本发明提供一种Spark框架下的基于差分隐私保护的数据发布方法，包括如下步骤：

步骤2：采用Hash_map按照数据属性进行分类统计，形成中间数据集D'；

步骤3：对k-means聚类算法进行二范数关联优化，然后利用优化后的k-means聚类算法对分类统计形成的待发布数据集进行聚类分组C＝{C₁,C₂,…,C_k}；

步骤4：对每个分组求均值：

步骤5：在各分组的均值C_k_avg上添加Laplace噪声得到数据集D_s＝{C₁',C₂',…,C_k'}，所述各组分均值添加Laplace噪声为C_k'_avg：

C_k'_avg＝C_k_avg+Lap_dk(1/ε)

其中，ε为隐私预算，本实施例中，隐私预算ε的取值为0.01；d为查询维数，通常情况下，查询维数d为一维；

步骤6：对差分隐私保护后的发布数据D_s进行直方图发布。

所述步骤3中，k-means聚类算法采用距离优化方法，将样本数据与其二范数进行关联优化，利用k-means聚类算法形成了分组最优划分与合并，避免了距离的重复计算，降低了k-means聚类过程的计算开销。

所述k-means聚类算法包括如下步骤：

步骤3.1：初始化k个数据作为初始聚类中心，形成聚类样本；

步骤3.2：遍历数据样本，将数据点的坐标(x,y)与其二范数进行关联，构成＜(x,y),||(x,y)||²＞的键值对形式，将二范数之差的平方值(boundDistance)与最近的中心点的距离(bestDistance)进行比较，若二范数之差的平方值小于最近的中心点的距离(即boundDistance＜bestDistance)，则进行真正的欧氏距离(realDistance)计算，若真正的欧氏距离小于最近的中心点的距离(即realDistance＜bestDistance)，将距离最小的归类到聚类中心，形成k个聚类；

步骤3.3：计算各聚类内数据均值，更新聚类中心；

步骤3.4：循环步骤3.1-3.3，直到达到指定迭代次数或者聚类收敛，输出聚类分组C＝{C₁,C₂,…,C_k}。

实施例

某疾病监控中心，需周期性更新某些疾病确诊患者，而所发布数据又不能泄露确诊患者年龄、住址等隐私信息。因此，可采用本发明所述方法对发布数据进行处理，待数据隐私保护后再发布。具体步骤如下：

步骤1：将各地区各诊所收集数据上传至某疾病控制中心Hadoop平台。

步骤2：某疾病控制中心对各地区各诊所所上传数据进行分类统计，得到各类疾病统计中间数据D'。示例数据表如下：

疾病类型	数量
		A	1
B	5
		C	6
D	25
		E	31
F	61

步骤3：采用k-means聚类算法进行分组划分，得到最优分组划分：C＝{C₁,C₂,C₃}，其中C₁＝{1,5,6}，C₂＝{25,31}，C₃＝{61}。

以免将上表所示数据直接发布，拥有相关背景知识的人很容易推断A类疾病患者的所有隐私信息。

步骤4：对每个分组求均值：C_{1_avg}＝4，C_{2_avg}＝28，C_{3_avg}＝61，则分组数据为：C＝{{4,4,4},{28,28},61}。

步骤5：在各分组的均值C_k_avg上添加Laplace噪声得到数据集D_s＝{{4.45,4.45,4.45},{28.62,28.62},61.5}。

步骤6：对差分隐私保护后的发布数据D_s进行直方图发布，如图2所示。

直方图是一种利用分箱技术近似描述数据统计信息，按照某属性将一个比较大的数据集划分成不相交的桶，并由一个数字表示每个桶的特征，从而形成直方图发布方法。但通常采用直方图发布方法存在离群点导致数据高敏感的问题，而且还会在分组划分中造成误差。本发明所述的Spark框架下的基于差分隐私保护的数据发布方法解决了上述问题，并且满足ε-差分隐私保护，适用于Spark框架，能够提高判断离群点和差值集的计算效率，并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响，并可达到快速聚合相似分组和合并分组最优化的效果。尤其是该方法在海量数据的隐保护处理中可提高隐私性和处理效率，同时保证了发布数据的可用性。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，包括如下步骤：

步骤1：将原始数据集导入Hadoop分布式文件系统，从Hadoop分布式文件系统读取数据到Spark框架形成弹性分布式数据集并分类统计；

步骤2：对k-means聚类算法进行二范数关联优化，然后利用优化后的k-means聚类算法对分类统计形成的发布数据集进行聚类分组C＝{C₁,C₂,…,C_k}；

步骤3：对每个分组求均值：

<mrow> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>_</mo> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> </mrow>

<mrow> <msup> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>&prime;</mo> </msup> <mo>_</mo> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>=</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>_</mo> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>+</mo> <msub> <mi>Lap</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>/</mo> <mi>&epsiv;</mi> <mo>)</mo> </mrow> </mrow>

其中，ε为隐私预算，d为查询维数；

步骤5：对差分隐私保护后的发布数据D_s进行直方图发布。

2.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，所述步骤1中数据集分类采用Hash_map按照数据属性进行分类统计，形成中间数据集D'。

3.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，所述步骤2中，k-means聚类算法采用距离优化方法，将样本数据与其二范数进行关联优化。

4.如权利要求3所述的Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，所述k-means聚类算法包括如下步骤：

步骤2.1：初始化k个数据作为初始聚类中心，形成聚类样本；

步骤2.3：计算各聚类内数据均值，更新聚类中心；

5.如权利要求4所述的Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，所述步骤2中利用k-means聚类算法形成分组最优划分与合并。

6.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，所述步骤4中，查询维数d为一维。

7.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，所述步骤4中，隐私预算ε为0.01。