CN104809408A

CN104809408A - 一种基于差分隐私的直方图发布方法

Info

Publication number: CN104809408A
Application number: CN201510237298.2A
Authority: CN
Inventors: 孙广中; 李小康
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2015-05-08
Filing date: 2015-05-08
Publication date: 2015-07-29
Anticipated expiration: 2035-05-08
Also published as: CN104809408B

Abstract

本发明公开了一种基于差分隐私的直方图发布方法，该方法包括：从原始数据库中非连续区域抽取直方图信息；为抽取的直方图信息添加随机的拉普拉斯噪音，得到满足差分隐私的加噪数据；对该加噪数据进行降低噪音的聚类和阈值化处理，获得可发布的数据。通过采用本发明公开的方法，可以保证差分隐私的情况下，提升发布数据的有用性。

Description

一种基于差分隐私的直方图发布方法

技术领域

本发明涉及数据隐私保护技术领域，尤其涉及一种基于差分隐私的直方图发布方法。

背景技术

随着互联网和物联网的快速发展，用户的不断增多，网络上保存了用户大量的信息，其中有越来越多的数据记录在网络上公开。这些公开的数据集，一方面方便研究人员进行相应的科学研究，另一方面挖掘到的信息也可为提供数据的互联网公司带来更好的服务，从而提升公司的效益。这些数据不仅包含用户的一些行为信息，而且还包含一些用户不想公布的敏感信息。在发布数据时，如何保护用户的隐私成为隐私保护领域内的热点问题。

早期的数据隐私保护模型，比如k-匿名、l-多样和t-closeness等，虽然对发布数据做了一些匿名化处理，但是他们的隐私保护强度都很差。这些模型虽然被提出，但是很快又被攻破，主要因为他们对真实数据做了一些不太合理的假设，并且缺少严格的理论证明。差分隐私是一种理论性很强的隐私保护模型，而且对攻击者知道的背景知识做了最强的假设——攻击者知道除一条记录以外的所有记录。

最初的差分隐私模型是针对统计信息的，其直接在原始数据上进行差分隐私处理，这样发布的数据误差很大，数据有用性非常差。

发明内容

本发明的目的是提供一种基于差分隐私的直方图发布方法，可以保证差分隐私的情况下，提升发布数据的有用性。

本发明的目的是通过以下技术方案实现的：

一种基于差分隐私的直方图发布方法，该方法包括：

从原始数据库中非连续区域抽取直方图信息；

为抽取的直方图信息添加随机的拉普拉斯噪音，得到满足差分隐私的加噪数据；

对该加噪数据进行降低噪音量的后处理，获得可发布的数据。

所述降低噪音量的后处理包括：

依次执行的基于密度的聚类处理和阈值化处理。

所述基于密度的聚类处理包括：

计算加噪数据中每个结点i的局部密度ρ_i；结点i的局部密度为落入以结点i为球心，以d为半径的高维球内的结点个数，其表式为：式中，d_ij为结点i和结点j的距离，d为距离阈值；χ为自定义的函数，如果，d_ij-d<0，则χ(d_ij-d)＝1，否则χ(d_ij-d)＝0；

计算加噪数据中结点i的最小距离δ_i；结点i的最小距离为距离比结点i的密度大的结点集的最小距离，其表示为如果结点i的局部密度ρ_i最大，则δ_i＝max(d_ij)；

局部密度超过阈值及最小距离超过阈值的结点为局部密度极大点，而且被一些具有局部密度小于阈值的结点包围着，将局部密度极大点作为聚类的簇中心点；

计算每个结点到每个簇中心的距离，将其划分到距离其最近的簇中。

所述阈值化处理包括：

设置一阈值对聚类处理后的数据做阈值化处理，将小于等于该阈值的数据作0处理。

由上述本发明提供的技术方案可以看出，从原始数据库中抽取直方图数据，并添加随机的拉普拉斯噪音，保证数据满足差分隐私；同时，还对加噪数据使用基于密度的聚类算法，将非连续区域的数据聚为一簇，簇内数据用其均值替代，然后根据统计数据的非负特性，采用阈值化处理，提升发布数据的有用性(发布数据与真实数据间的相似性)，即在不泄露用户隐私的情况下，使发布的数据更能反映原始数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于差分隐私的直方图发布方法的流程图；

图2为本发明实施例提供的进行降低噪音量的后处理的流程图；

图3为本发明实施例提供的基于密度的聚类处理方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

图1为本发明实施例提供的一种基于差分隐私的直方图发布方法的流程图。如图1所示，该方法主要包括：

步骤11、从原始数据库中非连续区域抽取直方图信息。

本发明实施例中，原始数据库记为D，抽取的直方图信息记为H，该直方图信息H是原始(真实)的直方图信息。

步骤12、为抽取的直方图信息添加随机的拉普拉斯噪音，得到满足差分隐私的加噪数据。

即，为步骤11中的直方图信息H添加随机的拉普拉斯噪音，获得加噪数据

本发明实施例中，差分隐私的实现方式有两种：拉普拉斯机制和指数机制，这两种机制分别针对数值型数据和非数值型数据。

步骤13、对该加噪数据进行降低噪音量的后处理，获得可发布的数据。

即，对步骤12中的加噪数据进行降低噪音量的后处理，获得可发布的数据

本发明实施例中，由于添加随机拉普拉斯噪音的数据噪音量比较大，具有极差的数据有用性，因此，需要对该加噪数据进行降低噪音量后处理，提升发布数据的有用性；其中，降低噪音量的后处理主要包括：基于密度的聚类处理和阈值化处理。一些学者证明，对满足差分隐私的数据做后处理并不会改变数据的差分特性，因此，本方案既能保证发布的数据满足差分隐私，又能提升发布数据的有用性。

本发明的上述方案中主要是针对非连续区域的查询优化，通过聚类和阈值化处理的方法，保证在差分隐私的情况下，提升发布数据的有用性。下面结合附图2-3对这一过程做详细的说明。

本发明实施例中，降低噪音量的后处理过程如图2所示，首先，利用基于密度的聚类处理方案将加噪数据处理为聚类后的数据再利用阈值化处理将聚类后的数据H～处理为发布的数据具体过程如下：

1、基于密度的聚类处理。

目前的优化方法大部分针对连续区域的查询，处理时将原始数据切分到不同的连续组(每个组内数据的下标是连续的)内，组内的数据都用其均值替代。直观地理解这些方法是将随机噪音进行局部求平均，降低噪音量；这些方案针对连续区域查询，数据有用性有一定的提升，但是针对非连续区域查询，只是对噪音进行随机地划分，并没有考虑数据间的特性。

本方案实施例中的方案采用聚类的方法，考虑数据间的相似性，将不连续的区域聚到同一个簇内，使其在非连续区域查询的准确度有一定地提升。

直观地讲，我们的主要动机是尽量将原始数据中相近的数据聚为一簇，将绝对值相近的噪音聚为一簇。前者的操作保证原始数据聚类后，损失尽量少；由于加入的随机噪音是满足拉普拉斯分布的，理论上数据量无限大的情况下，后者的操作可以保证正负噪音完全抵消。但是，在原始数据加入随机的拉普拉斯噪音之后，无法拆分哪些是真实的数据，哪些是加入的随机噪音，很难保证发布数据具有较高的准确性。不过我们分析数据的特性，尽量分离出原始数据与噪音数据，提升发布数据的有用性。

在加噪的数据上直接使用聚类算法(比如k-Means，k-Means++)聚类，很大幅度地降低聚类的目标函数值(与的差异)，但是这仅仅是最终的目标函数(与的差异)的一个中间结果，并且中间结果的最优值并不能带来最终结果的最优，所以直接的聚类很难获得较高的数据有用性。直观地讲，我们进行聚类时，加噪后数据的相似程度不能反应真实数据的相似性，最后得到数据的有用性不是太理想。

分析一些真实数据发现，很多统计数据值并不是很大，比如基于位置的签到数据，用户只是在很少的位置上进行签到，用户位置矩阵是一个非常稀疏的矩阵。在这些数据上加入随机的拉普拉斯噪音后，加噪的数据是噪音起主导作用(简单理解就是随机的拉普拉斯噪音)，我们将具有绝对值相差不大的数据聚为一类，随机拉普拉斯噪音的对称性，一个簇内正负数据个数基本相同的，每个簇内数据用其均值替换，发布数据的噪音量有很大幅度地降低。但是修改了原始数据的相似性，就无法直接使用经典的聚类算法划分。

本发明实施例中，采用了一种基于密度的聚类算法，具体的过程如图3所示，其过程如下：

1)计算加噪数据中每个结点i的局部密度ρ_i；结点i的局部密度为落入以结点i为球心，以d为半径的高维球内的结点个数，其表式为：式中，d_ij为结点i和结点j的距离，d为距离阈值；χ为自定义的函数，如果，d_ij-d<0，则χ(d_ij-d)＝1，否则χ(d_ij-d)＝0；

2)计算加噪数据中结点i的最小距离δ_i；结点i的最小距离为距离比结点i的密度大的结点集的最小距离，其表示为如果结点i的局部密度ρ_i最大，则δ_i＝max(d_ij)；

3)局部密度超过阈值及最小距离超过阈值的结点为局部密度极大点，而且被一些具有局部密度小于阈值的结点包围着，将局部密度极大点作为聚类的簇中心点；

4)计算每个结点到每个簇中心的距离，将其划分到距离其最近的簇中，获得聚类处理后的数据

2、阈值化处理。

统计数据具有非负特性，原始数据添加随机噪音后，难免产生一些负数据，本方案会对最终发布的数据进行一次阈值化处理，即通过设置一阈值对聚类处理后的数据H～做阈值化处理，将小于等于该阈值的数据作0处理。其中，具体的阈值设置，可以用加入噪音的均值替代。

本发明实施例的上述方案也适用于方差不大的数据。随机的噪音是服从均值为0的拉普拉斯噪音，根据大数定理，无穷大次随机噪音之和会趋于0，加噪后的数据均值趋于真实数据的均值。如果数据方差不大，大部分数据都分布在其均值左右，所有数据减去这些数据的均值，得到的数据是以噪音为主，将这些数据聚类，聚类后的数据都加上均值作为发布数据。

本方案的方案主要具有如下三个特点：

1)强大的隐私保证，即使攻击者具有最强大的背景知识，即知道除某条记录以外的所有记录，也很难从使用该方法发布的数据中推断出该用户的存在性；2)强大的理论支持，差分隐私拥有严谨的统计模型，方便定量分析和理论证明；3)较高的数据有用性，尤其针对非连续区域查询。该方案更换数据间相似性的衡量标准，使用一种基于密度的聚类算法，将非连续区域的数据聚为一簇，簇内数据用其均值替代，然后根据统计数据的非负特性，采用阈值化处理，提升发布数据的有用性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于差分隐私的直方图发布方法，其特征在于，该方法包括：

从原始数据库中非连续区域抽取直方图信息；

2.根据权利要求1所述的方法，其特征在于，所述降低噪音量的后处理包括：

依次执行的基于密度的聚类处理和阈值化处理。

3.根据权利要求2所述的方法，其特征在于，所述基于密度的聚类处理包括：

4.根据权利要求2所述的方法，其特征在于，所述阈值化处理包括：