CN112417500A

CN112417500A - 一种隐私保护的数据流统计发布方法

Info

Publication number: CN112417500A
Application number: CN202011294795.3A
Authority: CN
Inventors: 范冰冰; 蔡伟源
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-26
Anticipated expiration: 2040-11-18
Also published as: CN112417500B

Abstract

本发明公开一种隐私保护的数据流统计发布方法，应用于数据流中的统计数据发布。该方法包括：利用固定大小的滑动窗口对数据流选取一定时间长度的数据，实时计算前一个发布与当前时刻的数据点的差异度；自适应地循环分配隐私预算，确定直方图的发布方式；使用轮盘赌选择排序算法，对当前时刻的数据进行排序，得到排序后的直方图数据；对排序后的直方图数据进行基于贪心思想聚类划分操作，得到多个分组；对得到的多个分组进行均值替代后添加噪声，发布对应的加噪直方图。本发明通过将轮盘赌选择与贪心聚类分组方法结合对直方图数据进行快速精确的排序分组，降低直方图数据的发布误差，有效保证数据流发布的数据可用性。

Description

一种隐私保护的数据流统计发布方法

技术领域

本发明属于数据开放共享与隐私保护技术领域，具体涉及一种隐私保护的数据流统计发布方法。

背景技术

数据开放共享能产生巨大的经济和社会价值：促进数据资源流通，提升政府治理能力和社会监管能力。而数据流的统计数据含有公民的个人信息，直接其发布到平台上进行开放共享会容易造成公民隐私泄露。有关数据流发布的隐私保护技术研究比较少。传统的隐私保护数据发布技术如数据匿名以及数据加密等无法满足数据流发布的隐私保护需求：数据匿名需要特殊的攻击假设和一定的背景知识，而且匿名处理后的数据被泛化为更概括性的值导致可用性较低；数据加密技术更适合用于数据传输方面的隐私保护，其计算开销较大，很少应用在数据开放共享领域中。

新颖的差分隐私技术能提供严谨的隐私保护强度定量分析和数学论证，能无视攻击者的最大背景知识，仍能保证记录的隐私信息不被泄露，同时保留数据的统计不变性。差分隐私技术一般用于静态数据发布中，动态数据流发布的应用研究接近一片空白；直接运用处理静态数据的差分隐私发布技术会为每个滑动窗口设定固定的隐私预算，添加定量的噪声，容易令窗口内积累的噪声过大导致数据的发布误差过大，数据失真度过高，降低发布数据的可用性；当需要根据数据特点调整窗口大小时会因为固定分配的隐私预算造成预算过早耗尽，缺少加噪的部分发布数据容易泄露用户隐私信息。当动态数据的更新频次超过给定阈值，差分隐私保护机制容易因预算耗尽而失败，发布数据的隐私信息便缺少有效保护。

为了在一定程度上克服现有技术存在的问题于与不足，本发明提供一种隐私保护的数据流统计发布方法。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种隐私保护的数据流统计发布方法，能够较好的满足流式数据发布的隐私保护需求。

本发明的目的是通过下述技术方案实现的：

一种隐私保护的数据流统计发布方法，包括以下步骤：

步骤一：利用固定大小的滑动窗口对数据流选取一定时间长度的数据，实时计算前一个发布与当前时刻的数据点的差异度；

步骤二：自适应地循环分配隐私预算，确定直方图的发布方式；

步骤三：使用轮盘赌选择排序算法，对当前时刻的数据进行排序，得到排序后的直方图数据；

步骤四：对所述排序后的直方图数据进行基于贪心思想的聚类划分操作，得到多个分组；

步骤五：对得到的多个分组进行均值替代后添加噪声，发布对应的加噪直方图；

优选的，在所述步骤一中，所述利用固定大小的滑动窗口对数据流选取一定时间长度的数据，实时计算前一个发布与当前时刻的数据点的差异度包括：

给定一个无限生成的数据流表示为T＝{D₁,D₂,…,D_i-1,D_i,…}，其中，数据点D_i表示为在时间区间[i-1,i)下，数据流中所有用户发生事件x_i1、x_i2、…、x_id等的记录的统计数序列，D_i＝{x_i1,x_i2,…,x_id}，其中，x_ij,j＝1,2,…d为数据流在第i个时间戳下，发生了事件x_j的记录{x_j＝1,0,…,0}的频数，对于任意时间戳i，激活一个w时间长度的滑动窗口覆盖i-w+1到i时间戳上的数据集，截选部分数据T_w＝{D_i-w+1,D_i-w+2,…,D_i}；

实时计算前一个发布与当前时刻的数据点的差异度

其计算方式为:

其中，

表示在时间戳i-1下发布的加噪直方图对应的数据，

k＝1,2,…,d是指i-1时刻发布的加噪直方图中的事件k的桶计数。

优选的，在所述步骤二中，所述的自适应地循环分配隐私预算，确定直方图的发布方式包括：

计算数据点D_i的待分配隐私预算ε_i，若当前时刻i小于窗口长度w，令

否则，

其中，ε代表总的隐私预算，ε_k为k时刻发布的数据点已分配的预算大小；

将前一个发布与当前时刻的数据点的差异度与待添加的噪声规模比较大小，如果差异度小于待添加的噪声规模，用前一个发布的直方图作为当前时刻数据点的发布，不分配隐私预算；

如果差异度大于待添加的噪声规模，给当前时刻的数据点分配隐私预算ε_i，用于后续发布，其中，待添加的噪声是指服从拉普拉斯分布的随机变量

S(F)为全局敏感度，噪声规模是指它的方差

优选的，所述步骤三中，轮盘赌选择排序算法包括以下步骤：

(3.1).将待发布的数据点转换为对应的直方图，从直方图中选择最小的桶计数h_t作为选择条件，初始化一个空的排序队列，将h_t从直方图中移除后加入到排序队列中；

(3.2).根据给出的选择条件，计算直方图中剩余桶计数的适应度；

(3.3).计算直方图中每个桶计数的选择概率和累计概率，然后用轮盘赌选择方法从中选择出一个桶计数h_j，作为选择条件h_t的下一个取值，将h_j从直方图中移除后加入到排序队列的末端，更新选择条件的值为桶计数h_j，即令h_t＝h_j；

(3.4).重复执行步骤(3.2)和步骤(3.3)，直至直方图为空集，得到所述排序队列即为排序后的直方图数据。

优选的，所述桶计数的适应度和所述选择概率包括：

任意桶计数h_i的适应度用f_i表示，计算方式为

其中，隐私预算ε_i1是待分配隐私预算ε_i的组成部分，ε_i＝ε_i1+ε_i2，u(H,h_i)为效用函数，u(H,h_i)＝-|h_t-h_i|，Δu为效用函数的全局敏感度；

所述的选择概率是指从直方图H中选择出桶计数h_i的概率P(H,h_i)，其计算方式为：

优选的，所述轮盘赌选择排序算法是一个随机算法，其输出范围为所述排队序列，每次选择以正比于

的概率选择出桶计数h_j作为下一个桶计数，满足基于指数机制的ε_i1-差分隐私保护。

优选的，所述用轮盘赌选择方法从中选择出一个桶计数h_j是指：使用均匀分布在[0,1]区间的随机变量生成一个随机数r，从直方图中选择一个桶计数h_k，使得Q_k-1＜r≤Q_k,k＝1,2,…,n成立，更新桶计数h_j的值为h_k，其中，累计概率

Q₀＝0,Q_n＝1。

优选的，在所述步骤四中，所述对排序后的直方图数据进行基于贪心思想的聚类划分操作，得到多个分组包括：

(4.1).创建一个空分组作为待划分分组，将所述排序后的直方图的第一个桶计数作为待划分分组的第一个元素，令排序后的直方图的第二个桶计数为待划分分量；

(4.2).计算待划分分组的分组误差、待划分分量的误差下界与分组合并误差；

(4.3).如果所述误差下界与所述分组误差的和大于所述分组合并误差，将待划分分量添加到待划分分组，更新待划分分量为排序后直方图的下一个桶计数；否则，当前待划分分组完成划分，初始化一个空分组为待划分分组，继续判断待划分分量是否加入到待划分分组中；

(4.4)重复步骤(4.2)和(4.3)，直至排序后的直方图所有元素完成划分，得到多个分组。

优选的，在所述步骤四中，所述待划分分组误差的、待划分分量的误差下界与分组合并误差的计算方式如下：

和

其中，分组合并误差与分组误差的计算方式相同，

是待划分分量，ε_i2＝ε_i-ε_i1；G_i为当前待划分分组，|G_i|表示第i个分组G_i包含的桶计数数量，

表示分组G_i的桶计数平均值，分组误差下界是指令待划分分组G_i达到分组误差最小的效果，对待划分分量

与后续所有元素划分至同一分组生成最小近似误差与噪声误差的保守估计值。

优选的，在所述步骤五中，所述对得到的多个分组进行均值替代后添加噪声，发布对应的加噪直方图包括：

对得到的直方图的多个分组，用其分组的计数平均值替换分组内的各个桶计数，然后添加服从拉普拉斯分布的随机变量Lap(1/ε_i2)，发布满足ε-差分隐私保护的加噪直方图

本发明与现有技术相比所具有的优点与有益效果如下：

(1).本发明通过将相邻时刻的数据分布差异和噪声扰动比较，选择直方图的发布方式，根据不同的发布方式自适应地使用二分法对滑动窗口内的数据分配剩余的隐私预算，确保任意滑动窗口的累计隐私预算不超过总预算ε，满足差分隐私保护机制，数据流统计信息的发布的隐私性得到有效保证。

(2).本发明在根据发布方式不同，节省的隐私预算越多，后续时刻发布的数据可用预算更多，需要添加的噪声更少，整体的发布误差也就越少；结合本发明中的选择排序和聚类分组方法，将直方图的数据高效而准确的分组，有效降低数据的分组误差，令发布的数据更接近真实值，数据发布的可用性得到保证。

附图说明

附图1是根据本发明一个实施例的隐私保护的数据流统计发布方法流程图；

附图2是基于滑动窗口模型的数据流统计数据直方图发布示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供一种隐私保护的数据流统计发布方法，包括以下步骤：

步骤一：设定总隐私预算ε，用预设固定大小为w的滑动窗口，从实时产生的数据流T＝{D₁,D₂,…,D_i-1,D_i,…}中获取部分数据T_w＝{D_i-w+1,D_i-w+2,…,D_i}，实时计算前一个发布与当前时刻的数据点的差异度

其计算方式为：

其中，数据集D_i表示在时间区间[i-1,i)内原始数据集属性上的计数序列D_i＝{x_i1,x_i2,…,x_id}，d是属性取值的个数，

表示在时间戳i-1下发布的加噪直方图对应的数据，以

表示，

k＝1,2,…是指i-1时刻发布的直方图中的事件k的桶计数。

步骤二：自适应地循环分配隐私预算，计算数据点D_i的待分配隐私预算ε_i，若处于发布早期，数据流积累的时间长度小于窗口长度，即i<w，令

对窗口内w个数据点预先均分剩余隐私预算，使得ε以平稳的速度进行分配；否则，

其中，ε代表总的隐私预算，ε可以取0.01，0.1，ln2，ln3，1.0等值，

为k时刻发布的数据点已分配的预算大小。

将前一个发布与当前时刻的数据点的差异度

与待添加的噪声规模λ_i ²比较，确定直方图的发布方式。如果差异度

用前一个发布

作为D_i的伪发布，即

ε_i＝0；

如果差异度

给当前时刻数据集D_i分配隐私预算ε_i，用于后续发布

其中，噪声是指服从拉普拉斯分布的随机变量

其均值为0，标准差为

方差为

S(F)是指全局敏感度，计数查询下，S(F)＝1；

步骤三：使用轮盘赌选择排序算法，对当前时刻的数据进行排序，得到排序后的直方图数据，其具体步骤为：

(3.1).待发布的数据点D_i＝{x_i1,x_i2,…,x_id}转换为对应的直方图H_i＝{h₁,h₂,…,h_n}。其中，x_i1＝h₁,x_i2＝h₂,…,x_id＝h_n,d＝n。从H_i中选择最小的桶计数作为h_t，将h_t从H_i中移除后加入到排序队列H_sorted中；

(3.2).将h_t作为下一个桶计数的选择条件，计算H_i中剩余桶计数的适应度。其中，直方图H_i＝{h₁,h₂,…,h_n}中的任意桶计数h_i的适应度用f_i表示，

隐私预算ε_i1是ε_i的组成部分，ε_i1建议取0.1ε_i、0.3ε_i、0.5ε_i等值。u(H,h_i)为效用函数，其计算方式为u(H,h_i)＝-|h_t-h_i|。Δu为效用函数的全局敏感度。计数查询下，Δu＝1。

(3.3).计算直方图中每个桶计数的选择概率和累计概率，选择概率是指从直方图H_i中选择出桶计数h_i的概率P(H,h_i)，其计算方式为

其中分母表示为所有个体的适应度之和，分子表示个体h_i的适应度。累计概率Q_i的计算方式为

然后用轮盘赌选择方法从

中选择出一个桶计数h_j，即使用均匀分布在[0,1]区间的随机变量生成一个随机数r，从样本集合H_sample选出一个桶计数h_k，令h_j＝h_k，使得Q_k-1＜r≤Q_k,k＝1,2,…,θ成立。其中，Q₀＝0,Q_θ＝1。作为选择条件h_t的下一个取值，将h_j从H_i移除后加入到排序队列H_sorted的末端，令h_t＝h_j；

(3.4).重复执行步骤(3.2)和步骤(3.3)，直至直方图H_i为空集。得到排序后的直方图数据H_sorted＝{c₁,c₂,…c_n}。

步骤四：对所述排序后的直方图数据进行基于贪心思想的聚类划分操作，得到多个分组。其过程如下：

(4.1).创建一个空分组

令当前待划分分组G_i＝G₁。将所述排序后的直方图H_sorted＝{c₁,c₂,…c_n}中的第一个元素c₁添加到分组G_i中。令当前待划分变量

(4.2).计算分组G_i的分组误差Error(G_i)：

计算

分组误差下界

计算

加入到分组G_i的合并分组误差

其中，隐私预算ε_i2是分配给当前时刻数据集的隐私预算ε_i的部分，ε_i2＝ε_i-ε_i1。|G_i|表示第i个分组G_i包含的桶计数个数，

表示分组

的计数平均值；分组误差下界

是指令当前分组G_i达到分组误差最小的效果，对待划分分量

与后续所有元素划分至同一组生成最小近似误差与噪声误差的保守估计，分组误差由近似误差与噪声误差组成；。

(4.3)比较合并分组误差

和分组误差Error(G_i)与分组误差下界

的和的大小，如果

则待划分分量

加入到分组G_i中，下标j前移；否则，当前分组G_i完成划分，下标i前移，判断待划分分量

是否加入到新的当前分组G_i中。

(4.4).重复步骤(4.2)和(4.3)，直至直方图H_sorted＝{c₁,c₂,…c_n}所有元素被划分形成m个分组G＝{G₁,G₂,…,G_m}。

步骤五：对得到的直方图G＝{G₁,G₂,…,G_m}每个分组内的桶计数c_i，用分组的计数平均值进行替代，然后添加服从拉普拉斯分布的随机变量Lap(1/ε_i2)。即

发布满足ε-差分隐私保护的加噪直方图

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种隐私保护的数据流统计发布方法，其特征在于，包括以下步骤：

步骤五：对得到的多个分组进行均值替代后添加噪声，发布对应的加噪直方图。

2.根据权利要求1所述的隐私保护的数据流统计发布方法，其特征在于，在所述步骤一中，所述利用固定大小的滑动窗口对数据流选取一定时间长度的数据，实时计算前一个发布与当前时刻的数据点的差异度包括：

给定一个无限生成的数据流表示为T＝{D₁，D₂，...，D_i-1，D_i，...}，其中，数据点D_i表示为在时间区间[i-1，i)下，数据流中所有用户发生事件x_i1、x_i2、...、x_id等的记录的统计数序列，D_i＝{x_i1，x_i2，...，x_id}。，其中，x_ij，j＝1，2，...d为数据流在第i个时间戳下，发生了事件x_j的记录{x_j＝1，0，...，0}的频数，对于任意时间戳i，激活一个w时间长度的滑动窗口覆盖i-w+1到i时间戳上的数据集，截选部分数据T_w＝{D_i-w+1，D_i-w+2，...，D_i}。；

实时计算前一个发布与当前时刻的数据点的差异度

其计算方式为：

其中，

表示在时间戳i-1下发布的加噪直方图对应的数据，

是指i-1时刻发布的加噪直方图中的事件k的桶计数。

3.根据权利要求1所述的隐私保护的数据流统计发布方法，其特征在于，在所述步骤二中，所述的自适应地循环分配隐私预算，确定直方图的发布方式包括：

否则，

S(F)为全局敏感度，噪声规模是指它的方差

4.根据权利要求1所述的隐私保护的数据流统计发布方法，其特征在于，所述步骤三中，轮盘赌选择排序算法包括以下步骤：

5.根据权利要求4所述的隐私保护的数据流统计发布方法，其特征在于，所述桶计数的适应度和所述选择概率包括：

任意桶计数h_i的适应度用f_i表示，计算方式为

其中，隐私预算ε_i1是待分配隐私预算ε_i的组成部分，ε_i＝ε_i1+ε_i2。，u(H，h_i)为效用函数，u(H，h_i)＝-|h_t-h_i|。，Δu为效用函数的全局敏感度；

所述的选择概率是指从直方图H中选择出桶计数h_i的概率P(H，h_i)，其计算方式为：

6.根据权利要求4所述的隐私保护的数据流统计发布方法，其特征在于，所述轮盘赌选择排序算法是一个随机算法，其输出范围为所述排队序列，每次选择以正比于

7.根据权利要求4所述的隐私保护的数据流统计发布方法，其特征在于，所述用轮盘赌选择方法从中选择出一个桶计数h_j是指：使用均匀分布在[0，1]区间的随机变量生成一个随机数r，从直方图中选择一个桶计数h_k，使得Q_k-1＜r≤Q_k，k＝1，2，...，n成立，更新桶计数h_j的值为h_k。，其中，累计概率

Q₀＝0，Qn＝1。

8.根据权利要求1所述的隐私保护的数据流统计发布方法，其特征在于，在所述步骤四中，所述对排序后的直方图数据进行基于贪心思想的聚类划分操作，得到多个分组包括：

9.根据权利要求8所述的隐私保护的数据流统计发布方法，其特征在于，在所述步骤四中，所述待划分分组误差的、待划分分量的误差下界与分组合并误差的计算方式如下：

和

其中，分组合并误差与分组误差的计算方式相同，

10.根据权利要求9所述的隐私保护的数据流统计发布方法，其特征在于，在所述步骤五中，所述对得到的多个分组进行均值替代后添加噪声，发布对应的加噪直方图包括：