CN113672956B

CN113672956B - 面向数值分布计算的本地化差分隐私保护方法及系统

Info

Publication number: CN113672956B
Application number: CN202110962372.2A
Authority: CN
Inventors: 郭山清; 白兴涛; 唐朋; 胡程瑜; 刘高源; 杨晨旭; 赵洁
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2023-09-22
Anticipated expiration: 2041-08-20
Also published as: CN113672956A

Abstract

本发明公开了面向数值分布计算的本地化差分隐私保护方法及系统，服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；基于所述样本分布，服务器获取第二批数据拥有者客户端数据，并计算第二批数据拥有者客户端数据的样本分布；服务器将前两批数据拥有者客户端数据的样本分布汇总，并发布；基于前t‑1批数据拥有者客户端数据的样本分布，服务器获取并计算第t批数据拥有者客户端数据的样本分布；服务器将前T批数据拥有者客户端数据的样本分布汇总，并发布；服务器基于汇总后的样本分布，按照累计分布，计算汇总后的样本分布的样本频率。实现数值分布计算过程中的数据拥有者客户端隐私保护。

Description

面向数值分布计算的本地化差分隐私保护方法及系统

技术领域

本发明涉及数据安全与隐私保护技术领域，特别是涉及面向数值分布计算的本地化差分隐私保护方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

每个数据拥有者客户端个体拥有一条数值属性的数据，比如数据拥有者客户端个人的工资，或是年龄，或是浏览某一特定页面的时间等。实际应用中，为了完成某些特定的查询任务，如均值查询，范围查询等，需要收集所有数据拥有者客户端个体所拥有的数据来计算整体数据的数值分布。然而，数据中往往包含数据拥有者客户端个体的敏感信息，数据拥有者客户端不太会想要分享个人的真实数据给任何第三方数据收集者。因此，需要解决满足隐私保护的数值属性数据数值分布计算问题。

本地化差分隐私作为一种新的隐私保护模型，不依赖与任何宣称自己是可信的第三方实体，从数据拥有者客户端个体的角度出发对每个数据拥有者客户端的真实数据提供隐私保护，即便第三方数据收集者是恶意的，也能够保证数据拥有者客户端个体的隐私不被泄露。在该模型中，数据拥有者客户端通过在本地将自己的真实数据添加适量噪音加以扰动，并将扰动后的数据发送给第三方数据收集者，第三方数据收集者在收到所有数据拥有者客户端添加了扰动的数据之后，对所有数据拥有者客户端的真实数据所组成的数据集的数值分布进行计算。

基于该模型，现有工作提出了一些方案来解决该问题。

其中，一部分工作直接利用针对分类属性数据的频数估计协议来完成数值分布计算，具体来说，首先对要收集的数据拥有者客户端数据所在的数值域通过等距的数据分箱技术进行离散化，将离散后的每个箱子看做一个单独的分类，并将数据拥有者客户端的数据所属的类标记为数据拥有者客户端个体所属的一个分类属性，这样就将数据拥有者客户端的数值属性数据转化为分类属性的数据，接着数据拥有者客户端会将添加了扰动之后的分类属性数据发送给第三方数据收集者，最后第三方数据收集者会对收集到的数据进行统计集成并给出原来的数值属性数据频率分布的计算结果。然而该方法没有考虑数值属性数据的有序性特点，将每个分类看做一个黑盒模型，导致分布估计的准确性下降。

另一部分工作从信息论的角度出发，提出将数据拥有者客户端的真实数据进行扰动时，将其扰动为其附近的一个数值比扰动为距离其较远的一个数值所带来的有用信息更多，基于此观察提出了Square Wave(SW)扰动机制，并采用Expectation Maximizationwith Smoothing(EMS)算法作为后处理算法重构了数值分布，提高了数值分布的准确性。

但是，发明人发现，以上方法在给出数值分布的计算结果时，并没有考虑利用关于数据集的真实分布的先验知识所带来的有用信息，也没有考虑到数值分布计算过程中的数据隐私保护。

发明内容

为了解决现有技术的不足，本发明提供了面向数值分布计算的本地化差分隐私保护方法及系统；

第一方面，本发明提供了面向数值分布计算的本地化差分隐私保护方法；

面向数值分布计算的本地化差分隐私保护方法，包括：

服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；

基于第一批数据拥有者客户端数据的样本分布，服务器获取第二批数据拥有者客户端数据，并计算第二批数据拥有者客户端数据的样本分布；

服务器将前两批数据拥有者客户端数据的样本分布汇总，并发布；

基于前t-1批数据拥有者客户端数据的样本分布，服务器获取第t批数据拥有者客户端数据，并计算第t批数据拥有者客户端数据的样本分布；

服务器将前T批数据拥有者客户端数据的样本分布汇总，并发布；

服务器基于汇总后的样本分布，按照累计分布，计算汇总后的样本分布的样本频率。

第二方面，本发明提供了面向数值分布计算的本地化差分隐私保护系统；

面向数值分布计算的本地化差分隐私保护系统，包括：服务器，和若干个数据拥有者客户端；

与现有技术相比，本发明的有益效果是：

在本地化场景下，每个数据拥有者客户端个体拥有一条数值类型的数据，这被称为数值属性数据。为了完成某些特定的查询任务，如范围查询，需要收集所有数据拥有者客户端个体的数据来计算整体数据的数值分布。然而，数据中往往包含数据拥有者客户端个体的敏感信息。因此，需要解决满足隐私保护的数值属性数据数值分布计算问题。该方法利用关于整体数据的分布的先验知识来减小计算数值分布时的误差。本发明相对于已有的计算方法，能够为每个数据拥有者客户端个体提供隐私保护的同时，显著提高计算结果的精度。

本发明从利用数据集分布的先验知识的角度出发，提出基于累计分布映射的数值属性数据数值分布计算方法，以进一步提高分布计算结果的精度。也能够实现数值分布计算过程中的数据拥有者客户端隐私保护。

本发明附加方面的优点将在下面的描述中部分给出，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和数据拥有者客户端同意的基础上，对数据的合法应用。

术语介绍：

1.1累计分布映射

累计分布映射可以看做是一种数据转换算法，它将数据拥有者客户端个体的数据本身和整个数据所满足的概率分布的累计分布建立一一映射关系，并通过该映射将数据拥有者客户端个体的数据进行转换。例如，某公司的所有员工的月工资处于区间[7k,15k)内，经过统计得到，月工资位于区间[7k,9k)内的员工占比为40％，月工资位于区间[9k,11k)内的员工占比为30％，月工资位于[11k,13k)内的员工占比为20％，月工资位于[13k,15k)内的员工占比为10％，由此可以得到该公司员工月工资数据分布情况。有了月工资数据的概率分布后，假设每个区间内的数据服从均匀分布，则可以计算区间[7k,15k)内任意一点v的累计分布F(v)。例如，当v＝12k时，也就是说可以建立数据拥有者客户端个体的数据v与所有数据拥有者客户端的数据所满足的样本分布的累计分布F(v)之间的映射关系/>使得/>且这种映射关系是一一映射，即不存在两个数据拥有者客户端的不同数据映射到同一个累计分布值。

1.2本地化差分隐私

差分隐私作为一种较好的隐私保护技术，可以为数据集中个体敏感信息提供一种严格的、可量化的隐私保护。差分隐私采用隐私参数ε来度量对数据拥有者客户端个体的敏感信息的隐私保护强度，ε越小，表示所提供的隐私强度越高。差分隐私在实际应用时，分为中心化差分隐私和去中心化的差分隐私两种模型。其中，去中心化的差分隐私也被称为本地化差分隐私，相比于中心化的差分隐私模型，它不依赖与任何可信的第三方，在本地就对数据拥有者客户端的数据进行保护，是一种更强健的隐私保护模型。该模型一般包含如下过程：

Encode：是由数据拥有者客户端通过采用某种编码算法来完成的，该算法以数据拥有者客户端个人的真实数据v作为输入，并给出一个编码值x作为输出结果,即有Encode(v)＝x。

Perturb：在得到编码值x后，数据拥有者客户端又采用某种随机响应算法对编码值x进行扰动，得到扰动结果y,即有y＝Perturb(Encode(v))，并将该扰动结果y报告给第三方数据收集者。为了方便，令PE(·)来表示编码和扰动两种算法的组合，即PE(·)＝Perturb(Encode(·))。由于PE(·)是以数据拥有者客户端的真实数据作为输入进行计算的，为了保护数据拥有者客户端个人隐私，PE(·)应该满足下文中给出的本地化差分隐私的定义。

Aggregate:由第三方数据收集者采用某种统计算法来完成，该算法以所有数据拥有者客户端的报告值作为输入，并输出关于数据拥有者客户端的真实数据的某些统计信息的估计结果，如估计某公司内所有员工的月工资处于某一特定区间的员工占比。

基于该模型，下面给出本地化差分隐私的定义。

本地化差分隐私：给定一个随机算法ψ(·)和隐私参数ε，其中ε≥0，对于数据集D中任意的两个输入v₁∈D,v₂∈D和任意的输出结果当且仅当ψ(·)满足：

则称算法ψ(·)是满足ε-本地化差分隐私的，其中表示算法ψ(·)的所有可能的输出结果所组成的集合，Pr[·]表示随机算法的输出为某个特定结果的概率。

也就是说，在该模型中，数据拥有者客户端采用满足上述定义的算法PE(·)对个人数据添加扰动，以此来保护个人的隐私。在实际应用中，PE(·)主要是一类随机响应算法。

基于累计分布映射和本地化差分隐私这两个要素，我们给出满足本地化差分隐私的数值属性数据数值分布计算问题的形式化描述：

存在n个数据拥有者(即数据拥有者客户端)和1个聚合服务器，每个数据拥有者客户端U_k(其中1≤k≤n)拥有一条数值类型的数据v_k。所有数据拥有者客户端的数据组成了一个数据集D＝{v₁,v₂,…,v_n}，聚合服务器想要知道数据集D中的数据拥有者客户端数据的数值分布f(v₁,v₂,…,v_n)。为了保护数据拥有者客户端个体的隐私，即便聚合服务器声称自己是可信的，数据拥有者客户端也不会将自己的真实数据报告给它，而是采用某种本地化差分隐私算法ψ对真实数据v_k添加适量的噪音，得到带有噪音的结果即之后将/>报告给服务器。服务器在收到所有数据拥有者客户端的报告值后，尽可能准确地推断数值分布f(v₁,v₂,…,v_n)，并给出该分布的计算结果使得/>

本发明的目的在于，设计算法对数据拥有者客户端的数值属性数据进行收集，该算法能够为每一个数据拥有者客户端提供隐私保护，即算法满足本地化差分隐私的定义，并且在收集到所有数据后，能够更有效的给出数值分布的计算结果，显著提高了分布估计结果的精度。

本发明的核心思想是：

在没有任何先验知识的假设下首先收集一部分数据拥有者客户端的数据，在获得了这部分数据拥有者客户端数据的样本分布后，相当于获得了关于整个数据集分布的一部分先验知识，然后利用这部分先验知识可以指导后续数据拥有者客户端数据的收集，提高收集的数据效用。

接下来考虑如何利用先验知识来指导后续数据拥有者客户端数据的收集。现有的研究工作中已经提出了一些Frequency Oracle协议对数据拥有者客户端的数据进行收集并给出了在所要收集的所有数据组成的数据集中某个特定数值点i的真实频率f_i的估计值即f_i表示在所有数据拥有者客户端中，数据拥有者客户端个人所拥有的真实数据等于该特定数值v的数据拥有者客户端人数占比，/>表示聚合服务器根据收集到的对真实数据加了扰动的报告值后计算得到的f_i的估计结果。有研究者对这些协议的数据精度进行了分析并得出以下结论：

且s_i～N(0,σ_i)，

其中，σ_i表示的方差且σ_i＝a+b*f_i，/>n为数据拥有者客户端人数参数，p^*与q^*为扰动概率参数且/>

也就是说，估计值可以看作是在真实频率f_i的基础上加上一部分服从正态分布的噪音s_i。基于上述结论，考虑从整个数据集的样本分布的角度出发，以Kullback-leibler(KL)散度作为评价指标对数据精度作进一步的分析。

假定数据集的真实分布和根据协议计算得到的估计分布分别表示为P和Q，数据集的数据域为[1,d],则有：

对上式求期望得：

由于利用调和平均数不大于自身的算术平均数知，当且仅当/>时取等号。也就是说，当数据集的分布是均匀分布时，收集数据所带来的误差是最小的。

实施例一

本实施例提供了面向数值分布计算的本地化差分隐私保护方法；

如图1所示，面向数值分布计算的本地化差分隐私保护方法，包括：

S1：服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；

S2：基于第一批数据拥有者客户端数据的样本分布，服务器获取第二批数据拥有者客户端数据，并计算第二批数据拥有者客户端数据的样本分布；

S3：服务器将前两批数据拥有者客户端数据的样本分布汇总，并公开发布给所有数据拥有者客户端；

S4：基于前t-1批数据拥有者客户端数据的样本分布，服务器获取第t批数据拥有者客户端数据，并计算第t批数据拥有者客户端数据的样本分布；t为正整数；

S5：服务器将前T批数据拥有者客户端数据的样本分布汇总，并公开发布给所有数据拥有者客户端；T为正整数；

S6：服务器基于汇总后的样本分布，按照累计分布，计算汇总后的样本分布的样本频率。

进一步地，所述S1：服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；具体包括：

S11：第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；服务器采集第一批数据拥有者客户端所生成的扰动数据；其中，第一批数据拥有者客户端数量占整体数据拥有者客户端数量的

S12：服务器计算第一批数据拥有者客户端数据的样本分布。

进一步地，所述S11：第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；是采用方波(Square Wave(SW))扰动机制实现扰动的添加。

进一步地，所述S11：第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；具体包括：

S111：第一批数据拥有者客户端，均将自己的真实数据压缩为区间[0,1]上的浮点数，记区间[0,1]＝D；

S112：设置表示隐私保护强度的参数ε的取值，ε越大，表示提供的隐私保护强度越高，反之则越低；

对于S111中得到的每一个数据拥有者客户端的浮点数v，该算法以如下概率输出扰动结果即有：

其中D＝[0,1]表示S111中得到的所有数据拥有者客户端的浮点数可能的取值集合，表示所有可能的扰动结果的取值集合，/>是一个正数，/>表示将某个浮点数v通过方波(SW)扰动机制扰动为某个值/>的概率，p与q都是正数且/>

S113：在得到扰动结果后，数据拥有者客户端将其报告给服务器。

进一步地，所述S12：服务器计算第一批数据拥有者客户端数据的样本分布；是服务器在拿到第一批数据拥有者客户端的报告结果后，采用带有平滑的期望最大化(Expectation Maximization with Smoothing(EMS))算法作为后处理算法来推断第一批数据拥有者客户端的真实数据的样本分布。该算法采用最大似然估计的思想，通过多次迭代来进行计算。

进一步地，所述S12：服务器计算第一批数据拥有者客户端数据的样本分布；具体包括：

S121：区间划分：将SW算法的输入域D和输出域都等距划分为K个相互独立的子区间，并将每个区间看作一个独立的桶，记划分输入域D的K个桶(从左到右)分别为B₁,B₂,…,B_K；划分输出域/>的K个桶(从左到右)分别为/>

S122：计算概率转移矩阵：定义一个K×K维的概率转移矩阵M来刻画SW扰动算法的扰动过程，其中M_j,i表示，当数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B_i时，SW扰动算法以概率M_j,i输出扰动结果且扰动结果/>落在划分输出域的第j个桶内，即有/>假定划分输入域的每个桶内的数据是服从均匀分布的，计算矩阵M中的元素M_j,i，i,j＝1,2,…,K；

S123：统计报告值：在收到所有数据拥有者客户端的扰动结果后，服务器统计数据拥有者客户端的扰动值落在划分输出域的K个桶内的数据点的个数，记落入桶/>内的数据点个数为n_j,j＝1,2,…,K；

S124：计算第一批数据拥有者客户端数据的样本分布：采用多次迭代的方式计算数据拥有者客户端的真实数据点落在桶B_i内的样本占比，并给出最终的计算结果记/>

进一步地，所述S124具体步骤包括：

S1241：计算期望。对设定/>为均匀分布，即令/>计算

其中，表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比，/>表示已知当前的数据集服从分布/>并且数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B_i时，SW扰动算法输出扰动结果/>且扰动结果/>落在划分输出域的第j个桶内的条件概率；/>表示已知当前的数据集分布/>为均匀分布时，SW扰动算法输出扰动结果/>且扰动结果/>落在划分输出域的第j个桶内的条件概率。

S1242：期望最大化。由S1241得到的计算结果对分布估计结果进行更新，即对有

其中，P_i是由S1241中得到的参数，表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内更新后的用户占比。

S1243：平滑操作。对S1242中得到的更新结果利用平滑算法进行处理，即对有

其中，等式右边中的与/>是由S1242中得到的第一批数据拥有者客户端的数据分别落在划分输入域的第i-1、第i+1和第i个桶内的用户占比；等式左边的/>表示由S1242中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比经过平滑操作之后的结果。

S1244：计算当前更新后的分布参数下的似然函数/>

其中，n₁表示第一批数据拥有者客户端的人数，表示第k个数据拥有者客户端的报告值，/>表示由S1243中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比；/>的取值取决于/>落在输出域/>上的位置，是一个概率值。

比如，当时，该概率值就等于M_j,i。

S1245：判断停止迭代条件：根据S1244计算得到的在当前迭代下的似然函数的结果，假设当前为第t+1次迭代过程，对于一个正数τ来说，当时，带有平滑的期望最大化(EMS)算法收敛，即停止进行操作，并将当前的估计值/>作为最终的输出结果，否则，继续执行S1241～S1243中的操作对参数/>进行更新，并执行S1244再次计算似然函数以判断是否停止迭代；

由于该似然函数是一个凹函数，根据凸优化理论，该算法一定会收敛。

S1246：输出并公开样本分布：由S1245最终得到的第一批数据拥有者客户端的数据在数据域D上的样本分布计算每个桶内的样本密度/>记此时的桶分割点集合为R₁＝{Q_1,0,Q_1,1,…,Q_1,K}，且其中下角标中的1表示第一批数据拥有者客户端。聚合服务器将集合R₁和样本分布/>进行公开，以便收集第二批数据拥有者客户端的数据。

应理解的，所述S1在没有任何关于数据集先验知识的前提下，对第一批数据拥有者客户端的数据进行收集，并根据收集来的数据计算第一批数据拥有者客户端的真实数据的样本分布。

应理解的，S11的第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；是出于保护隐私的考虑。

进一步地，所述S2：基于第一批数据拥有者客户端数据的样本分布，服务器获取第二批数据拥有者客户端(占整体数据拥有者客户端数量的)数据，并计算第二批数据拥有者客户端数据的样本分布；具体包括：

S21：第二批数据拥有者客户端首先将自己的真实数据压缩为区间[0,1]上的浮点数；

S22：服务器在获得了第一批数据的样本分布后，按照累计分布的定义，可以计算出区间[0,1]上任意一点v的累计分布F₁(v)。根据任何一个概率分布的累计分布是服从均匀分布的，通过第一批数据的样本分布，将第二批数据拥有者客户端的数据v与第一批数据的样本分布的累计分布值F₁(v)建立映射关系，并通过映射关系将第二批数据拥有者客户端的数据进行转化，即有

映射[0,1]→[0,1]

v→F₁(v)

S23：利用方波(SW)扰动算法对S22得到的将第二批数据拥有者客户端的数据进行转化后的数据F₁(v)添加扰动，并将扰动结果上传给服务器；

S24：利用带有平滑的期望最大化(EMS)算法计算，将第二批数据拥有者客户端的数据进行转化后的数据F₁(v)的样本分布，并输出每个区间的样本密度，记为p_2k，1≤k≤K。其中，下标2表示第二批数据拥有者客户端；

S25：由于映射是一个双射，v与F₁(v)是一一对应的，从而映射前关于第二批原始数据v∈[0,1]的分布的K个桶的样本频率与映射后关于数据F₁(v)∈[0,1]的分布的K个桶的样本频率也是一一对应的(从左往右看)。那么得到映射前关于第二批原始数据分布的K个桶的样本频率为x_2k＝p_2k，这K个桶的分割点坐标根据映射关系计算得到，记此时桶分割点集合为：

R₂＝{Q_2,0,Q_2,1,…,Q_2,K}。

有了分割点的坐标便得到每个桶的宽度w_2k＝Q_2,k-1-Q_2,k。

同样地，利用桶内样本频率x_2k和桶的宽度w_2k，计算该桶内样本分布的密度

在获得了第一批数据拥有者客户端的样本分布后，利用第一批数据拥有者客户端的样本分布作为先验知识来指导第二批数据的收集。采用基于累计分布函数来建立映射的方法对第二批数据进行转化，使得转化后的数据服从均匀分布。

进一步的，所述S3：服务器将前两批数据拥有者客户端数据的样本分布汇总，并发布；具体包括：

S31：将桶分割点集合R₁与R₂取并集，并将集合中的元素按照从小到大的顺序进行排列，便得到了合并后的分界点集合。

S32：S31中得到的分界点将整个区间划分成多个小区间，按照统计得到的第一批数据拥有者客户端数据在桶分割集合R₁下的样本密度h_1k和第二批数据拥有者客户端数据在桶分割集合R₂下的样本密度h_2k,计算在合并后的分界点集合下，每个区间的样本密度，即为这两批数据在该区间的样本密度取平均，并将该计算结果进行公开。

进一步的，所述S4：基于前t-1批数据拥有者客户端数据的样本分布，服务器获取第t批数据拥有者客户端(占整体数据拥有者客户端数量的)数据，并计算第t批数据拥有者客户端数据的样本分布；具体包括：

收集并计算第t批数据拥有者客户端数据的样本分布，3≤t≤T。与S3中对第二批数据拥有者客户端的计算步骤是类似的，唯一不同的地方在于，此时是根据将前t-1批数据拥有者客户端数据的统计结果汇总之后得到的样本分布来建立映射关系的。

记计算得到关于第t批数据拥有者客户端数据的样本分布的K个桶的样本密度为h_tk,1≤k≤K，且桶分割点集合为R_t＝{Q_t,0,Q_t,1,…,Q_t,K}，3≤t≤T。

进一步的，所述S5：服务器将前T批数据拥有者客户端数据的样本分布汇总，并发布；具体包括：

服务器在获得了前T批数据拥有者客户端数据的样本分布后，相当于完成了所有数据拥有者客户端数据的收集和统计，需要将前T次的统计结果进行汇总。

汇总的方法与S3采用的方法是一样的。也是首先将分割点集合R₁,R₂,…,R_T取并集，并将集合中的元素按照从小到大的顺序进行排列，便得到了合并后的分界点集合；下一步按照前T轮统计获得的样本密度h_1,k,h_2,k,…,h_T,k,1≤k≤K,计算在合并后的分界点集合下，每个区间的样本密度，即为前T轮统计在该区间的样本密度取平均。

进一步的，所述S6：服务器基于汇总后的样本分布，按照累计分布，计算汇总后的样本分布的样本频率；具体包括：

输出最终的样本分布。服务器根据得到的汇总后的样本分布，按照累计分布的定义，计算汇总后的样本分布在桶分割点集合R₁下每个桶内的样本频率，记这K个内的样本频率分别为

本发明涉及到两类实体，n个数据拥有者客户端和1个服务器。每个数据拥有者客户端U_k(其中1≤k≤n)拥有一条数据v_k。服务器利用n个数据拥有者客户端的数据计算其整体数据的数值分布，并保证每一个数据拥有者客户端的隐私保护需求。该方法主要利用有关数据拥有者客户端个体的整体数据的分布的先验知识来减小收集数据的误差。通过对已有的计算方法进行分析发现，来数据拥有者客户端个体的整体数据的分布服从均匀分布时，计算数值分布的误差是最小的。

假定要收集的数据拥有者客户端的数据所在的数据域为[1,d]，数据拥有者客户端总数为n，收集的轮数为T。

为了更好地验证本发明一种满足本地化差分隐私的数值属性数据数值分布计算方法的效果，本发明将本发明中方法在三种数据集上与现有方法进行了对比。这三种数据集包括一个合成的数据集即Synthetic Beta(5,2)dataset和两个公开的源于真实世界的数据集Taxi pickup time dataset和Retirement dataset。对比方法包括Hierarchy-based methods和基于Square Wave mechanism的计算方法。实验结果表明，本发明计算出的数值分布具有更高的精度。

实施例二本实施例提供了面向数值分布计算的本地化差分隐私保护系统；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.面向数值分布计算的本地化差分隐私保护方法，其特征是，包括：

服务器基于汇总后的样本分布，按照累计分布，计算汇总后的样本分布的样本频率；

服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；具体包括：

第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；服务器采集第一批数据拥有者客户端所生成的扰动数据；其中，第一批数据拥有者客户端数量占整体数据拥有者客户端数量的

服务器计算第一批数据拥有者客户端数据的样本分布；

所述基于第一批数据拥有者客户端数据的样本分布，服务器获取第二批数据拥有者客户端数据，并计算第二批数据拥有者客户端数据的样本分布；具体包括：

第二批数据拥有者客户端首先将自己的真实数据压缩为区间[0,1]上的浮点数；

服务器在获得了第一批数据的样本分布后，按照累计分布的定义，可以计算出区间[0,1]上任意一点v的累计分布F₁(v)；根据任何一个概率分布的累计分布是服从均匀分布的，通过第一批数据的样本分布，将第二批数据拥有者客户端的数据v与第一批数据的样本分布的累计分布值F₁(v)建立映射关系，并通过映射关系将第二批数据拥有者客户端的数据进行转化，即有

映射[0,1]→[0,1]

v→F₁(v)

利用方波扰动算法对得到的将第二批数据拥有者客户端的数据进行转化后的数据F₁(v)添加扰动，并将扰动结果上传给服务器；

利用带有平滑的期望最大化算法计算，将第二批数据拥有者客户端的数据进行转化后的数据F₁(v)的样本分布，并输出每个区间的样本密度，记为p_2k，1≤k≤K；其中，下标2表示第二批数据拥有者客户端；

由于映射是一个双射，v与F₁(v)是一一对应的，从而映射前关于第二批原始数据v∈[0,1]的分布的K个桶的样本频率与映射后关于数据F₁(v)∈[0,1]的分布的K个桶的样本频率也是一一对应的；那么得到映射前关于第二批原始数据分布的K个桶的样本频率为x_2k＝p_2k，这K个桶的分割点坐标根据映射关系计算得到，记此时桶分割点集合为：

R₂＝{Q_2,0,Q_2,1,…,Q_2,K}；

有了分割点的坐标便得到每个桶的宽度w_2k＝Q_2,k-1-Q_2,k；

在获得了第一批数据拥有者客户端的样本分布后，利用第一批数据拥有者客户端的样本分布作为先验知识来指导第二批数据的收集；采用基于累计分布函数来建立映射的方法对第二批数据进行转化，使得转化后的数据服从均匀分布；

服务器将前两批数据拥有者客户端数据的样本分布汇总，并发布；具体包括：

将桶分割点集合R₁与R₂取并集，并将集合中的元素按照从小到大的顺序进行排列，便得到了合并后的分界点集合；

利用得到的分界点将整个区间划分成多个小区间，按照统计得到的第一批数据拥有者客户端数据在桶分割集合R₁下的样本密度h_1k和第二批数据拥有者客户端数据在桶分割集合R₂下的样本密度h_2k,计算在合并后的分界点集合下，每个区间的样本密度，即为这两批数据在该区间的样本密度取平均，并将该计算结果进行公开；

基于前t-1批数据拥有者客户端数据的样本分布，服务器获取第t批数据拥有者客户端数据，并计算第t批数据拥有者客户端数据的样本分布；具体包括：

收集并计算第t批数据拥有者客户端数据的样本分布，3≤t≤T；与对第二批数据拥有者客户端的计算步骤是类似的，唯一不同的地方在于，此时是根据将前t-1批数据拥有者客户端数据的统计结果汇总之后得到的样本分布来建立映射关系的；

记计算得到关于第t批数据拥有者客户端数据的样本分布的K个桶的样本密度为h_tk,1≤k≤K，且桶分割点集合为R_t＝{Q_t,0,Q_t,1,…,Q_t,K}，3≤t≤T；

服务器将前T批数据拥有者客户端数据的样本分布汇总，并发布；具体包括：

服务器在获得了前T批数据拥有者客户端数据的样本分布后，相当于完成了所有数据拥有者客户端数据的收集和统计，需要将前T次的统计结果进行汇总；

汇总的方法，是首先将分割点集合R₁,R₂,…,R_T取并集，并将集合中的元素按照从小到大的顺序进行排列，便得到了合并后的分界点集合；下一步按照前T轮统计获得的样本密度h_1,k,h_2,k,…,h_T,k,1≤k≤K,计算在合并后的分界点集合下，每个区间的样本密度，即为前T轮统计在该区间的样本密度取平均；

服务器基于汇总后的样本分布，按照累计分布，计算汇总后的样本分布的样本频率；具体包括：

输出最终的样本分布；服务器根据得到的汇总后的样本分布，按照累计分布的定义，计算汇总后的样本分布在桶分割点集合R₁下每个桶内的样本频率，记这K个内的样本频率分别为

2.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；是采用方波扰动机制实现扰动的添加。

3.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；具体包括：

第一批数据拥有者客户端，均将自己的真实数据压缩为区间[0,1]上的浮点数，记区间[0,1]＝D；

设置表示隐私保护强度的参数ε的取值，ε越大，表示提供的隐私保护强度越高，反之则越低；

对于得到的每一个数据拥有者客户端的浮点数v，以如下算法输出扰动结果即有：

其中D＝[0,1]表示得到的所有数据拥有者客户端的浮点数可能的取值集合，表示所有可能的扰动结果的取值集合，/>是一个正数，表示将某个浮点数v通过方波扰动机制扰动为某个值/>的概率，p与q都是正数且/>

在得到扰动结果后，数据拥有者客户端将其报告给服务器。

4.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，服务器计算第一批数据拥有者客户端数据的样本分布；是服务器在拿到第一批数据拥有者客户端的报告结果后，采用带有平滑的期望最大化算法作为后处理算法来推断第一批数据拥有者客户端的真实数据的样本分布；该算法采用最大似然估计的思想，通过多次迭代来进行计算。

5.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，服务器计算第一批数据拥有者客户端数据的样本分布；具体包括：

区间划分：将SW算法的输入域D和输出域都等距划分为K个相互独立的子区间，并将每个区间看作一个独立的桶，记划分输入域D的K个桶分别为B₁,B₂,…,B_K；划分输出域/>的K个桶分别为/>

计算概率转移矩阵：定义一个K×K维的概率转移矩阵M来刻画SW扰动算法的扰动过程，其中M_j,i表示，当数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B_i时，SW扰动算法以概率M_j,i输出扰动结果且扰动结果/>落在划分输出域的第j个桶内，即有/>假定划分输入域的每个桶内的数据是服从均匀分布的，计算矩阵M中的元素M_j,i，i,j＝1,2,…,K；

统计报告值：在收到所有数据拥有者客户端的扰动结果后，服务器统计数据拥有者客户端的扰动值落在划分输出域的K个桶内的数据点的个数，记落入桶/>内的数据点个数为n_j,j＝1,2,…,K；

计算第一批数据拥有者客户端数据的样本分布：采用多次迭代的方式计算数据拥有者客户端的真实数据点落在桶B_i内的样本占比，并给出最终的计算结果记/>

6.如权利要求5所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，所述计算第一批数据拥有者客户端数据的样本分布；具体步骤包括：

(1)计算期望：对设定/>为均匀分布，即令/>计算

其中，表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比，/>表示已知当前的数据集服从分布/>并且数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B_i时，SW扰动算法输出扰动结果/>且扰动结果/>落在划分输出域的第j个桶内的条件概率；/>表示已知当前的数据集分布/>为均匀分布时，SW扰动算法输出扰动结果/>且扰动结果/>落在划分输出域的第j个桶内的条件概率；

(2)期望最大化：由(1)得到的计算结果对分布估计结果进行更新，即对有

其中，P_i是由(1)中得到的参数，表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内更新后的用户占比；

(3)平滑操作：对(2)中得到的更新结果利用平滑算法进行处理，即对有

其中，等式右边中的与/>是由(2)中得到的第一批数据拥有者客户端的数据分别落在划分输入域的第i-1、第i+1和第i个桶内的用户占比；等式左边的/>表示由(2)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比经过平滑操作之后的结果；

(4)计算当前更新后的分布参数下的似然函数/>

其中，n₁表示第一批数据拥有者客户端的人数，表示第k个数据拥有者客户端的报告值，/>表示由(3)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比；/>的取值取决于/>落在输出域/>上的位置，是一个概率值；

(5)判断停止迭代条件：根据(4)计算得到的在当前迭代下的似然函数的结果，假设当前为第t+1次迭代过程，对于一个正数τ来说，当时，带有平滑的期望最大化算法收敛，即停止进行操作，并将当前的估计值/>作为最终的输出结果，否则，继续执行(1)～(3)中的操作对参数/>进行更新，并执行(4)再次计算似然函数以判断是否停止迭代；

(6)输出并公开样本分布：由(5)最终得到的第一批数据拥有者客户端的数据在数据域D上的样本分布计算每个桶内的样本密度/>记此时的桶分割点集合为R₁＝{Q_1,0,Q_1,1,…,Q_1,K}，且/>其中下角标中的1表示第一批数据拥有者客户端；聚合服务器将集合R₁和样本分布进行公开，以便收集第二批数据拥有者客户端的数据。

7.面向数值分布计算的本地化差分隐私保护系统，其特征是，包括：服务器，和若干个数据拥有者客户端；

服务器计算第一批数据拥有者客户端数据的样本分布；

映射[0,1]→[0,1]

v→F₁(v)

R₂＝{Q_2,0,Q_2,1,…,Q_2,K}；

有了分割点的坐标便得到每个桶的宽度w_2k＝Q_2,k-1-Q_2,k；

记计算得到关于第t批数据拥有者客户端数据的样本分布的K个桶的样本密度为h_tk,1≤k≤K，且桶分割点集合为R_t＝{Q_t,0，Q_t,1，…，Q_t,K}，3≤t≤T；