CN111737744B

CN111737744B - 一种基于差分隐私的数据发布方法

Info

Publication number: CN111737744B
Application number: CN202010573117.4A
Authority: CN
Inventors: 陶陶; 胡丽娟; 王爱国; 郑啸
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2022-09-30
Anticipated expiration: 2040-06-22
Also published as: CN111737744A

Abstract

本发明公开了一种基于差分隐私的数据发布方法，属于数据隐私保护技术领域。本发明对于输入的直方图数据，进行拉普拉斯加噪，然后将加噪后的数据进行滤波操作，能够显著的降低添加的噪音值，接着通过重排序的方法对加噪后的直方图按照频数的值进行排序，排序后的直方图在进行分组合并的时候能够达到更优的分组，最终根据动态规划思想的聚类策略来找到最小的SSE分组。本发明提出一种均值精准直方图发布方法，并对扰动数据进行滤波处理和排序，使更多相似的数据合并在一起，最后发布满足差分隐私的直方图，能够有效的降低直方图发布的误差，从而使差分隐私技术理论在实际应用提供了广阔的前景。

Description

一种基于差分隐私的数据发布方法

技术领域

本发明属于数据隐私保护技术领域，更具体地说，涉及一种基于差分隐私的数据发布方法。

背景技术

随着信息技术的飞速发展，各类数据的采集、发布变得方便快捷，直方图作为一种常用的数据发布方法，采用分箱技术将数据按照一定的规则进行分组，由一系列高度不等的纵向条纹或线段表示数据分布的情况，能够清晰的先输出各组数据频数分布情况，并且易于显示各组之间频数的差别。因为这些优点，直方图发布技术广泛的应用于数据统计领域，支持聚合查询、范围计数和数据挖掘等方法。但是如果直接发布原始信息的直方图，容易造成个人隐私数据的泄漏，因此如何使发布的直方图在保护个人隐私的条件下达到更高的可用性便成为了研究的热点问题。

目前，差分隐私作为一种新的隐私保护模型，在直方图发布技术上有了很多的应用。它通过对原始数据的转换或对统计结果添加噪音来达到隐私保护的效果，而基于差分隐私的直方图发布技术大都是对直方图进行加噪和重构，针对加噪后的数据没有经过滤波操作，并且重构一般采取的办法是合并邻近的桶，由于数据集中不是相似的频数对应的直方图都排在一起，这样合并邻近相似的桶，对直方图重构来说就没多大的意义。因此，将差分隐私应用于直方图发布技术中，总是存在精度低、数据可用性差的问题。

经检索，申请号为：201811273045.0，申请日为：2018年10月30日，发明名称为：一种数据发布的隐私保护方法。该申请案中根据用户向数据开放平台提交的批量查询请求，从数据库中获取相应的批量数据，并对批量数据添加满足给定的差分隐私保护要求的随机噪音，最后将噪音扰动结果通过直方图发布的方式返回给用户。但该方法对数据进行了二次加噪，误差较大，且没有对加噪后的数据进行滤波操作，在保证了数据隐私性的同时，并没有兼顾到数据的可用性。

又如，申请号为：201710984658.4，申请日为：2017年10月20日，发明名称为：一种Spark框架下的基于差分隐私保护的数据发布方法。该申请案将原始数据集导入Hadoop分布式文件系统，从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计，然后对k-means聚类算法进行二范数关联优化，利用优化后的k-means聚类算法对分类统计形成的待发布数据集进行聚类分组并在各分组的均值上添加Laplace噪音得到数据集，最后对差分隐私保护后的发布数据进行直方图发布。而该方法只是依据经验来进行k的取值，最后发布的直方图没有经过重构优化，误差较大。

基于以上分析，现有技术需要一种满足差分隐私且误差更小的直方图数据发布方法。

发明内容

1.要解决的问题

为解决上述现有技术中存在的问题，本发明提供了一种基于差分隐私的数据发布方法，本发明是一种精度更高的基于差分隐私的直方图发布方法，能够减小在直方图发布过程中添加的噪音误差，提高数据的可用性，避免在进行数据发布时造成隐私的泄漏，达到隐私保护和数据可用性的平衡。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种基于差分隐私的数据发布方法，其步骤为：

步骤1、输入原始数据集D＝(x₁,x₂,…x_n)，隐私保护预算ε，全局敏感度Δf；

步骤2、向原始数据集D中的每个数据添加拉普拉斯噪音，得到添加噪音后的序列D^*＝{x₁ ^*,x₂ ^*,…,x_n ^*}；

步骤3、对步骤2所得序列D^*进行滤波处理，并对处理后的D^*进行排序；

步骤4、对排序后的D^*根据SSE进行重构，选取SSE最小的分组，并用平均数描述分组的频数属性；

步骤5、将分组后所得的最优桶数据与只加入拉普拉斯噪声的相应的数据集D^*作比较，选取误差值小的数据，发布最终的重构直方图。

进一步地，步骤1中输入的原始数据为统计型数据，每个x_i为单位区间的频数，隐私保护预算ε小于1，全局敏感度Δf取1。

进一步地，向原始数据集D中的每个数据添加拉普拉斯噪音的过程为：

记位置参数为0、尺度参数为b的Laplace分布为Lap(b)，那么其概率密度函数如公式(1)所示：

取随机变量α～U(0,1)满足均匀分布，将其带入到拉普拉斯累计分布函数的逆函数中，则可以得到满足条件的噪音值如公式(2)所示：

取均匀分布α～U(-0.5,0.5)，将公式(2)合并为公式(3)，如下所示：

F^-1(x)＝0-b*sign(α)*ln(1-2abs(α)) (3)

其中，sign函数用来获取参数的正负，abs函数用来获取参数的绝对值，只需通过计算机生成符合α～U(-0.5,0.5)的伪随机数并将其带入式(3)中就可以得到拉普拉斯的噪音误差，将该拉普拉斯噪音添加到D中就能得到加噪后的数据D^*。

进一步地，步骤3的滤波处理，如公式(4)所示：

其中，x_i为经过噪音扰动的D^*中的第i个数据，y_i为该数据滤波后的结果。

进一步地，步骤3对数据D^*进行滤波操作，记录直方图桶顺序信息后，需要再对结果数据y_i进行从小到大的随机快速排序。

进一步地，步骤4的具体过程为：

首先，计算D^*中前i项分成1组的SSE(D^*,1,i)，1≤i≤n；将其记为T(i,1)，计算方式如公式(5)所示：

上式中

表示D^*中第1个桶到第i个桶计数的均值；

当k>1的时候，根据动态规划的思想求得在k分组下前i项最小的SSE，状态转义公式如(6)所示：

T(i,k)＝min_{k-1＜＜j＜＜i-1}(T(j,k-1)+SSE(D^*,j+1,i)) (6)

n个桶的分组从1组，2组，…，k组，记录每个分组的T(n,k)选出使得T(n,k)最小的分组，并记录在该分组数下的最优划分，如公式(7)所示：

T(n,k)＝min_{k-1＜＜j＜＜i-1}(T(j,k-1)+SSE(D^*,j+1,n)) (7)

其中，n是原始直方图桶的个数，k是所有可能的分组聚类数量，1≤k≤n。

进一步地，对于k值，通过以下三个式子直接给出：

1)平方根选择：

2)Sturges公式：k＝ceil(1+log₂n)；

3)Rice规则：

此时只需要将上述三个k值代入式(7)，然后进行T(n,k)的比较，选择使T(n,k)最小的k值，并记录式(7)每一步迭代的j的值，最终的分组情况与SSE便可以求出。

进一步地，在进行优化分组，重构完成直方图后，需对排序分组后的数据按照步骤三排序前记录的顺序进行恢复，恢复了直方图数据的次序后，便可以发布最终的直方图。

3.有益效果

相比于现有技术，本发明的有益效果为：

(1)本发明的一种基于差分隐私的数据发布方法，通过构建直方图来进行数据的发布，传统的差分隐私直方图发布方法，通常在固定分组个数的基础上利用有损压缩、V-优化直方图以及等宽划分技术减少误差对发布结果的影响，但是这些方法在分组时只是考虑局部相邻的桶计数，无法均衡分组误差和拉普拉斯误差，导致发布的直方图精度比较低，本发明考虑了桶计数的全局顺序性，兼顾了直方图的分组误差和拉普拉斯误差，因而能够减小在直方图发布过程中添加的噪音误差，提高数据的可用性，达到隐私保护和数据可用性的平衡。

(2)本发明的一种基于差分隐私的数据发布方法，对直方图进行分组的时候，使用了三种方法来选取聚类数量，根据动态规划思想的聚类策略来找到最小的SSE分组，当采用这些方式直接输入k时，算法只需要找到在当前k值下的最优划分结构，这样能用较少的时间来获得最优分组，算法的运行效率得到了提高。

附图说明

图1是本发明的基于差分隐私的数据发布方法流程图；

图2是本发明的整体架构图。

具体实施方式

现有的基于差分隐私的直方图发布方法，是在原始直方图的各个桶上面直接添加拉普拉斯噪音来达到保护隐私的目的。然而，这样直接添加噪音的方法虽然能够有效的保护隐私数据，但是很容易导致直方图的可用性下降，并且对于长范围的计数查询会导致较高的累积误差。

一般来说，为了提高直方图发布的精度，减少噪音误差，提高数据的可用性，通常的策略有两种，策略1下的直方图发布方法，直接为每个桶的计数添加拉普拉斯噪音，进而达到扰动真实计数的效果，由于噪音累积产生的误差较大，需要采用后置处理技术提高发布后的直方图的可用性和精度；策略2下的直方图发布方法与策略1的顺序恰好相反，先重构直方图，然后对重构之后的结果添加噪音。

本发明采取策略1的方法，对于输入的直方图数据，进行拉普拉斯加噪，然后将加噪后的数据进行滤波操作，能够显著的降低添加的噪音值，接着通过重排序的方法对加噪后的直方图按照频数的值进行排序，排序后的直方图在进行分组合并的时候能够达到更优的分组，最终根据动态规划思想的聚类策略来找到最小的SSE分组。

本发明改进了传统的基于差分隐私的直方图数据发布方法，在保护隐私数据的同时，达到了更高的可用性，

为进一步了解本发明的内容，结合附图和具体实施例对本发明作详细描述。

实施例1

结合附图，本实施例的一种基于差分隐私的数据发布方法，其步骤为：

如图1所示，选择从数据库或csv等数据源读取要进行发布的数值型数据字段，对读取到的数据字段进行预处理操作，进行区间划分(例如输入的数据为公民的年龄信息，可以将每5岁划分为一个区间，也可以将每10岁划分为一个区间)，将各个区间的数据频度输入到数据集D中，完成原始数据集D的输入，并给定隐私保护预算ε和Δf，ε由人为指定，一般小于1，ε越小数据隐私保护程度越高，数据可用性越低。Δf为数据集D与其相邻数据集的L₁距离，Δf越大表示需要添加的噪音越多，对于直方图每个桶来说其L₁距离为1。

步骤2、向数据集D中的每个数据添加拉普拉斯噪音Lap(b)，其中b＝1/ε，如图1所示，添加噪音后的序列为D^*＝{x₁ ^*,x₂ ^*,…,x_n ^*}；对原始数据集的加噪流程为构建服从拉普拉斯分布的概率密度函数，根据其概率密度函数求其逆累计分布函数，然后向该函数输入均匀分布的随机变量，即可得到拉普拉斯噪音，详细步骤如下所示：

2-1、记位置参数为0、尺度参数为b的Laplace分布为Lap(b)，那么其概率密度函数如公式(1)所示：

2-2、取均匀分布α～U(-0.5,0.5)，将公式(2)合并为公式(3)，如下所示：

F^-1(x)＝0-b*sign(α)*ln(1-2abs(α)) (3)

其中sign函数用来获取参数的正负，abs函数用来获取参数的绝对值，这时只需要通过计算机生成符合α～U(-0.5,0.5)的伪随机数并将其带入式(3)中就可以得到拉普拉斯的噪音误差了，将该拉普拉斯噪音添加到D中就能得到加噪后的数据D^*。

步骤3、根据图像处理中的滤波技术对D^*进行滤波处理，对处理后的D^*进行排序；

3-1、为了在对数据进行排序的时候得到更精准的顺序序列，我们将图像中的均值滤波运用到数据集D^*中，一方面基于拉普拉斯的期望，可以有效减少噪声的影响，另一方面可以使处理后的数据集更加平滑，有利于后面的分组计算，滤波处理如公式(4)所示：

3-2、对数据D^*进行滤波操作，记录直方图桶顺序信息后，需要再对结果数据y_i进行从小到大的随机快速排序，对于排序后的数据集进行相邻桶合并时，能有效减少极值桶的影响，避免将频数相差较大的桶合并在一起，造成更大的均值误差，排序后的数据集在进行分组的时候会得到更优的分组结果。

步骤4、对排序后的D^*根据SSE(Sum of Squared Error)进行重构，选取SSE最小的分组，用每一组平均数描述该组的频数属性；具体过程为：

4-1、首先，计算D^*中前i项(1≤i≤n)分成1组的SSE(D^*,1,i)，将其记为T(i,1)，计算方式如公式(5)所示：

上式中

表示D^*中第1个桶到第i个桶计数的均值。

4-2、当k>1的时候，可以根据动态规划的思想求得在k分组下前i项最小的SSE，状态转义公式如(6)所示：

T(i,k)＝min_{k-1＜＜j＜＜i-1}(T(j,k-1)+SSE(D^*,j+1,i)) (6)

4-3、对D^*的重构为了减少运算量，提高效率，主要采用了动态规划思想的聚类策略来实现，n个桶的分组从1组，2组，…，k组，记录每个分组的T(n,k)选出使得T(n,k)最小的分组，并记录在该分组数下的最优划分，如公式(7)所示：

T(n,k)＝min_{k-1＜＜j＜＜i-1}(T(j,k-1)+SSE(D^*,j+1,n)) (7)

其中，n是原始直方图桶的个数，k是所有可能的分组聚类数量1≤k≤n。

基于分组的差分隐私直方图发布方法的主要计算代价是需要检查所有可能聚类数量k值，这种方法对于直方图桶数量过多的时候，会严重影响算法的运行效率，对于k值，通过大量数据集的拟合训练，我们可以通过以下三个式子直接给出：

1)平方根选择：

2)Sturges公式：k＝ceil(1+log₂n)；

3)Rice规则：

此时只需要将上述三个k值代入式(7)，然后进行T(n,k)的比较，选择使T(n,k)最小的k值，并记录式(7)每一步迭代的j的值，最终的分组情况与SSE便可以求出，这样能用较少的时间来获得最优分组，算法的运行效率得到了提高。

步骤5、将分组后所得的最优桶数据与只加入拉普拉斯噪声的相应的数据集作比较，选取误差值小数据，避免最终发布的直方图个别分组误差过大；

结合图2，在进行优化分组，重构完成直方图后，我们要对排序分组后的数据按照步骤三排序前记录的顺序进行恢复，恢复了直方图数据的次序后，便可以发布最终的直方图。

传统的差分隐私直方图发布方法，通常在固定分组个数的基础上利用有损压缩、V-优化直方图以及等宽划分技术减少误差对发布结果的影响，但是这些方法在分组时只是考虑局部相邻的桶计数，无法均衡分组误差和拉普拉斯误差，导致发布的直方图精度比较低，本发明考虑了桶计数的全局顺序性，兼顾了直方图的分组误差和拉普拉斯误差，因而能够减小在直方图发布过程中添加的噪音误差，提高数据的可用性，达到了隐私保护和数据可用性的平衡。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。