CN109492047A

CN109492047A - 一种基于差分隐私的精确直方图的发布方法

Info

Publication number: CN109492047A
Application number: CN201811394814.2A
Authority: CN
Inventors: 张啸剑; 付楠; 孟小峰
Original assignee: Henan university of economics and law
Current assignee: Henan university of economics and law
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-03-19

Abstract

本申请涉及一种基于差分隐私的精确直方图的发布方法，包括：获取原始直方图数据；基于马尔科夫链的蒙特卡罗算法，对所述原始直方图数据进行排序，得到排序后的直方图数据；对所述排序后的直方图数据进行贪心聚类分组，得到多个分组；计算每个分组的均值；为每个分组的均值添加噪声得到噪声数据；发布与所述噪声数据对应的直方图。通过将蒙特卡洛采样方法与贪心聚类分组方法结合，使近似误差与拉普拉斯误差之和达到最小，使得在差分隐私下的直方图发布更加的准确。

Description

一种基于差分隐私的精确直方图的发布方法

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于差分隐私的精确直方图的发布方法。

背景技术

快速而又准确地获取数据分布的梗概是数据分析与查询的主要任务，直方图是近似估计数据分布的主要技术之一，该技术使用分箱技术近似描述数据分布信息，将数据集按照某种属性划分成不相交的桶，每个桶由频度或者计数表示其特征。直方图的发布通常用来支持聚集查询、范围计数查询以及数据挖掘等，然而，如果直接发布直方图而不给予隐私保护，桶的真实计数会泄露个人的敏感信息。

相关技术中，为了阻止直方图统计信息带来的隐私泄露，在发布之前，需要对其进行隐私保护处理。目前差分隐私已经成为一种新的隐私保护模型，基于该模型出现了多种直方图发布方法，其中，基于数据相关的分组方法是差分隐私下直方图发布主要技术，该技术利用组平均值近似估计每个原始计数，该技术误差大，精度低。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种基于差分隐私的精确直方图的发布方法。

本申请实施例提供一种基于差分隐私的精确直方图的发布方法，包括：

获取原始直方图数据；

基于马尔科夫链的蒙特卡罗算法，对所述原始直方图数据进行排序，得到排序后的直方图数据；

对所述排序后的直方图数据进行贪心聚类分组，得到多个分组；

计算每个分组的均值；

为每个分组的均值添加噪声得到噪声数据；

发布与所述噪声数据对应的直方图。

可选的，所述原始直方图数据为原始直方图桶计数序列。

可选的，所述基于马尔科夫链的蒙特卡罗算法，对所述原始直方图数据进行排序，得到排序后的直方图数据，包括：

在所述原始直方图桶计数序列中随机选择一个桶计数作为第一桶计数；

计算得到所述第一桶计数被抽样的概率，根据所述概率抽样确定第二桶计数；

计算从第一桶计数转移到第二桶计数的接受概率，并计算所述接受概率与所述第一桶计数被抽样的概率的乘积值；

从均匀分布中抽取样本；

如果所述样本小于所述乘积值，则调换所述第一桶计数值和所述第二桶计数值；

重复上述步骤，直至所述原始直方图桶计数序列中每个桶计数都被随机选择过，将调换后的桶计数序列作为排序后的直方图数据。

可选的，所述第一桶计数被抽样的概率为：根据指数机制计算得到的。

可选的，所述对所述排序后的直方图数据进行贪心聚类分组，得到多个分组，包括：

将所述排序后的直方图数据中的每个桶计数分别组成一个分组，分别将每个分组作为当前分组执行如下步骤：

将排序后的直方图数据中的每个桶计数分别作为当前桶计数，计算第一误差和第二误差；

其中，所述第一误差为所述当前分组内的数据与所述当前桶计数合并带来的误差；

所述第二误差为所述当前分组内的数据与所述当前桶计数分开带来的误差；

如果所述第一误差小于所述第二误差，则将所述当前桶计数加入当前分组，否则，保持当前分组不变，并更新当前分组为所述当前桶计数所在的分组；

重复执行上述步骤，直至计算完每个桶计数，得到多个分组。

可选的，所述计算第一误差和第二误差的计算公式为：

和，

其中，err₁表示第一误差，err₂表示第二误差，表示分组Ci的桶计数值的均值，2/|C_i|(ε₂)²表示拉普拉斯误差，ε₂为预设的隐私预算，j表示桶的个数，表示排序后的直方图中的第j个桶计数，C_i表示初始化第i个分组，n表示最大的桶个数，且j≤n。

可选的，所述计算每个分组的均值，包括：

对应每个分组，获取相应分组内的桶计数值的总和，以及所述桶计数值的个数，将所述总和与所述个数的比值，确定为每个分组的均值。

可选的，所述计算每个分组的均值的计算公式为：

其中，H_j表示分组C_i中的第j个桶计数值，C_i表示第i个分组。

可选的，所述噪声为拉普拉斯噪声。

可选的，所述发布与所述噪声数据对应的直方图，包括：

根据所述噪声数据构建最终发布的直方图，其中，所述最终发布的直方图的各个分组分别为所述噪声数据对应的分组，且，所述噪声数据为相应分组的桶计数值；

发布所述最终发布的直方图。

本申请提供的技术方案可以包括以下有益效果：

通过将蒙特卡洛采样方法与贪心聚类分组方法结合，使近似误差与拉普拉斯误差之和达到最小，使得在差分隐私下的直方图发布更加的准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的基于差分隐私的精确直方图的发布方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是本申请一个实施例提供的基于差分隐私的精确直方图的发布方法的流程图。如图1所示，该方法包括以下步骤：

S11：获取原始直方图数据；

S12：基于马尔科夫链的蒙特卡罗算法，对所述原始直方图数据进行排序，得到排序后的直方图数据；

需要说明的是，马尔科夫链的蒙特卡罗是使用马尔科夫链的蒙特卡洛积分，是将马尔科夫过程引入到蒙特卡洛模拟中，实现抽样分布随模拟的进行而改变的动态模拟，弥补了传统的蒙特卡罗积分只能静态模拟的缺陷，其基本思想是构造一条马尔科夫链，使其平稳分布为待估参数的后验分布，通过这条马尔科夫链产生后验分布的样木，并基于马尔科夫链达到平稳分布时的有效样本进行蒙特卡洛积分。

S13：对所述排序后的直方图数据进行贪心聚类分组，得到多个分组；

需要说明的是，贪心聚类分组方法，最大的特点是，它在每一步做出的选择，是就当前情况而言最优的选择，即，有可能尽管当前情况下的选择是最优的，却没有从整体的角度考虑，因此不一定是全局最优解。

S14：计算每个分组的均值；

S15：为每个分组的均值添加噪声得到噪声数据；

S16：发布与所述噪声数据对应的直方图集合。

需要说明的是，上述正确排序的直方图可以表示为

本实施例中，通过将蒙特卡洛采样方法与贪心聚类分组方法结合，使近似误差与拉普拉斯误差之和达到最小，使得在差分隐私下的直方图发布更加的准确。

一些实施例中，所述原始直方图数据为原始直方图桶计数序列。

需要说明的是，上述原始直方图桶计数序列可以表示为H＝{H1,H2,…,Hn}。

本实施例中，使用桶计数序列进行排序，是数据分类，便于进行后续处理。

一些实施例中，所述基于马尔科夫链的蒙特卡罗算法，对所述原始直方图数据进行排序，得到排序后的直方图数据，包括：

从均匀分布中抽取样本；

需要说明的是，从原样本H中采样得到H_j，其中接受概率表示状态Hi以概率跳转到状态H_j，以的概率保持原来状态，其中，π(H_i)是根据指数机制定义得出的直方图中任意一个桶被抽样的概率，ε₁为隐私预算，u(H,Hi)为打分函数，Vu表示全局敏感性；上述样本u可以表示为u～Uniform[0,1]。

本实施例中，通过使用蒙特卡洛采样方法，对原始直方图数据进行正确排序，过程精确简便。

一些实施例中，所述第一桶计数被抽样的概率为：根据指数机制计算得到的。

需要说明的是，上述指数机制为C++语言差分隐私中的一种实现方法。

本实施例中，使用指数机制进行计算，可以提升计算速度和准确性。

一些实施例中，所述对所述排序后的直方图数据进行贪心聚类分组，得到多个分组，包括：

需要说明的是，误差公式为其中为近似误差，2/|C_i|(ε₂)²为拉普拉斯误差，ε₂为隐私预算，j表示分组个数，且j≤n。

本实施例中，通过使用贪心聚类分组的方法，得到聚类后的分组集合，并使近似误差与拉普拉斯误差之和达到最小，使分组更精确。

一些实施例中，所述计算第一误差和第二误差的计算公式为：

和，

一些实施例中，所述计算每个分组的均值，包括：

需要说明的是，还采用了如下公式：即其中，H_j为所述桶计数，C_i为所述初始化值，C为所述聚类后的分组集合。

本实施例中，根据公式计算各个分组的均值，以得到全局最优解。

一些实施例中，所述计算每个分组的均值的计算公式为：

一些实施例中，所述噪声为拉普拉斯噪声。

需要说明的是，拉普拉斯是一种连续概率分布，由于它可以看做是两个不同位置的指数分布背靠背拼在一起，所以它也叫做双指数分布。如果随机变量的概率密度函数分布为：

其中u为位置参数，b>0是尺度参数。

本实施例中，添加拉普拉斯噪声，因为与正态分布相比，正态分布是用相对于u平均值的差的平方来表示，而拉普拉斯概率密度用相对于差的绝对值来表示。因此，拉普拉斯的尾部比正态分布更加平坦。通过添加拉普拉斯噪声好处在于既能保证达到保护数据隐私的目的，同时又能够使添加的噪音量较小，相对于添加其它噪声，该噪声能够使查询的结果准确性相对较高。

一些实施例中，所述发布与所述噪声数据对应的直方图，包括：

发布所述最终发布的直方图。

需要说明的是，该过程中还采用如下公式：即其中，为每个分组的均值，ε₂为隐私预算，j表示分组个数，且j≤n，n为最大分组个数，Lap为拉普拉斯函数。

本实施例中，对噪声数据进行构建，得到最终发布的直方图，保证方案的完整性。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于差分隐私的精确直方图的发布方法，其特征在于，包括：

获取原始直方图数据；

计算每个分组的均值；

为每个分组的均值添加噪声得到噪声数据；

发布与所述噪声数据对应的直方图。

2.根据权利要求1所述的方法，其特征在于，所述原始直方图数据为原始直方图桶计数序列。

3.根据权利要求2所述的方法，其特征在于，所述基于马尔科夫链的蒙特卡罗算法，对所述原始直方图数据进行排序，得到排序后的直方图数据，包括：

从均匀分布中抽取样本；

4.根据权利要求3所述的方法，其特征在于，所述第一桶计数被抽样的概率为：根据指数机制计算得到的。

5.根据权利要求3所述的方法，其特征在于，所述对所述排序后的直方图数据进行贪心聚类分组，得到多个分组，包括：

将排序后的直方图数据中的每个桶计数分别组成一个分组，分别将每个分组作为当前分组执行如下步骤：

将所述排序后的直方图数据中的每个桶计数分别作为当前桶计数，计算第一误差和第二误差；

6.根据权利要求5所述的方法，其特征在于，所述计算第一误差和第二误差的计算公式为：

和，

其中，err₁表示第一误差，err₂表示第二误差，表示分组C_i的桶计数值的均值，2/|C_i|(ε₂)²表示拉普拉斯误差，ε₂为预设的隐私预算，j表示桶的个数，表示排序后的直方图中的第j个桶计数，C_i表示初始化第i个分组，n表示最大的桶个数，且j≤n。

7.根据权利要求1所述的方法，其特征在于，所述计算每个分组的均值，包括：

8.根据权利要求7所述的方法，其特征在于，所述计算每个分组的均值的计算公式为：

9.根据权利要求1所述的方法，其特征在于，所述噪声为拉普拉斯噪声。

10.根据权利要求1所述的方法，其特征在于，所述发布与所述噪声数据对应的直方图，包括：

发布所述最终发布的直方图。