CN108234493A

CN108234493A - 不可信服务器下隐私保护的时空众包统计数据发布方法

Info

Publication number: CN108234493A
Application number: CN201810006063.6A
Authority: CN
Inventors: 王志波; 庞晓艺; 陈亚虹; 王骞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2018-06-29
Anticipated expiration: 2038-01-03
Also published as: CN108234493B

Abstract

本发明公开了一种不可信服务器下隐私保护的时空众包统计数据发布方法，利用w‑event差分隐私技术，在数据上传到不可信服务器之前对其做聚合、扰动等处理；与此同时，通过采样、动态分配预算、分组加噪等机制提高最终发布数据的可用性。

Description

不可信服务器下隐私保护的时空众包统计数据发布方法

技术领域

本发明属于信息安全技术领域，利用差分隐私相关技术，提供一种不可信服务器隐私保护的时空众包统计数据发布方法。

背景技术

随着网络的普及和互联网技术的发展，智能手机、平板电脑等各种移动设备广泛普及，这些移动设备集成了越来越多的传感器，拥有越来越强大的计算和感知能力。利用移动设备中的传感器收集用户生活中的各种信息，并通过网络传输这些信息，集中利用，形成了一种新兴的数据收集方法，即群智众包技术。群智众包技术广泛应用于各个方面，比如交通、环境以及社交等，为人们的生活提供了很大的便利。在群智众包系统中，分享用户的感知数据是必不可少的，因为只有这样才可以获取更多有价值的信息，比如只有大量的汽车驾驶员共享他们的GPS感知数据，才能推断出城市的道路交通拥堵情况。与此同时，群智众包系统的一大主要特征是它潜在地收集用户的敏感信息，比如通过用户的GPS定位信息可以推断用户的家庭住址、兴趣爱好等私密信息。因此，在分享用户的感知数据的同时保护用户的敏感信息，是群智众包技术的一大挑战。

差分隐私技术是一种隐私保护的热门技术，它通过对数据集进行加噪，保证攻击者能获取的个人数据几乎和他们从没有这个人记录的数据集中能获取的相差无几。设有随机算法M，P_M为M所有可能的输出集合，对于任意两个邻近数据集D和D′以及P_M的任何子集S_M，若算法M满足Pr[M(D)∈S_M]≤exp(ε)×Pr[M(D′)∈S_M]，则称算法M满足ε-差分隐私。其中ε被称为隐私预算，其值越小，数据集中加的噪声越多，对数据集的保护程度越高。w-event差分隐私是差分隐私的一大重要变种，对于时间序列数据，它可以同时对w个窗口内的数据进行加噪，达到节省预算，提高可用性的目的。目前差分隐私已经被广泛应用于群智众包的场景中。用户将自己的数据传输给可信服务器，服务器聚集这些数据，对其进行统计、查询等操作，再在发布结果之前利用差分隐私对其进行加噪，这就是利用差分隐私保护群智众包系统中用户的隐私信息的一般方法。首先，现存的这类方法并没有过多的考虑任务的时空特性；其次，在这类方法中，服务器获得了所有的原始数据、清楚的知道数据来自于哪个用户，因此这类方法必须在服务器可信的前提下才能实现隐私保护的目的。而在现实生活中，可信服务器的前提是不能够完全保证的，在不可信服务器场景下对群智众包数据的隐私保护问题却极少被考虑。在服务器不可信的情况下，群智众包系统中的用户不能直接将自己的数据上传到服务器，而是要避免服务器获得原始数据，以及数据上传者的身份。因此在将数据上传到服务器之前，就需要对其做扰动，使得服务器接触不到原始的数据。目前针对不可信服务器下的研究，提出的主要方法是用户对自己的感知数据进行加噪、加密等操作后，得到原始数据的扰动数据，再将其上传给服务器进行聚合操作。但在一些保护时空相关的群智众包统计数据的场景中，比如用户上传自己的位置信息来统计当前时刻每个地区的人数，这些方法显然是不适用的。且加噪、加密等一系列操作不仅带来了巨大的计算损耗，还降低了数据的可用性。

发明内容

本发明针对现有技术的不足，提出了一个基于多个代理人的不可信服务器下的隐私保护框架，致力于利用w-event差分隐私，提供一种不可信服务器下隐私保护的时空众包统计数据发布方法。

本发明的方法所采用的技术方案是：一种不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于，包括以下步骤：

步骤1：用户上传当前时间戳的数据到代理人；

步骤2：每位代理人对当前时间戳接收到的数据做本地聚合处理，统计本地数据中每个区域的总人数，整合成一张数据表；

步骤3：不可信服务器对当前时间戳的区域进行采样；

步骤4：不可信服务器为当前时间戳的采样区域进行动态预算分配；

步骤5：每位代理人针对步骤2中得到的数据表，对被采样的区域进行分组；

步骤6：每位代理人对步骤2中获得的数据表按照步骤5的分组进行差分隐私扰动，得到扰动后的数据表；

步骤7：每位代理人将步骤6中得到的扰动后的数据表上传到不可信服务器；

步骤8：不可信服务器将收到的所有数据聚合在一起，对非采样地区做近似；

步骤9：不可信服务器对步骤8中得到的数据进行过滤；

步骤10：不可信服务器将过滤后的数据发布给服务提供商。

本发明主要基于w-event差分隐私技术，考虑不可信服务器下群智众包应用场景，在此场景中实现了一种实时的隐私保护的统计数据发布方法。考虑到服务器是不可信的，不能让其直接获取原始数据及原始数据的统计数据，但是实际应用中又需要使其获得相对准确的统计数据，本发明提出一种基于代理人的群智众包网络结构，以及一个基于多个代理人的不可信服务器下的隐私保护框架，在数据上传到不可信服务器之前对其做聚合、扰动等处理；与此同时，通过采样、动态分配预算、分组加噪等机制提高最终发布数据的可用性。

附图说明

图1是本发明实施例的提出的不可信服务器下的群智众包网络结构；

图2是本发明实施例的框架结构；

图3是本发明实施例中最终发布数据的可用性随分组预算占比的变化曲线，其中(a)为数据集Taxi和Nice ride最终发布数据的MAE值随分组预算占比的变化曲线，(b)为数据集Taxi和Nice ride最终发布数据的MRE值随分组预算占比的变化曲线；

图4是本发明的方法下最终发布数据的可用性随总预算ε值的变化曲线与BD,BA,RescueDP这三种方法的对比，其中(a)为在数据集Taxi上分别使用四种隐私保护方法得到的最终发布数据的MAE值随总预算ε值的变化曲线，其中(b)为在数据集Taxi上分别使用四种隐私保护方法得到的最终发布数据的MRE值随总预算ε值的变化曲线，其中(c)为在数据集Nice ride上分别使用四种隐私保护方法得到的最终发布数据的MAE值随总预算ε值的变化曲线，其中(d)为在数据集Nice ride上分别使用四种隐私保护方法得到的最终发布数据的MRE值随总预算ε值的变化曲线；

图5是本发明实施例中最终发布数据的可用性随窗口大小w的变化曲线与BD,BA,RescueDP这三种方法的对比，其中(a)为在数据集Taxi上分别使用四种隐私保护方法得到的最终发布数据的MAE值随窗口大小w的变化曲线，(b)为在数据集Taxi上分别使用四种隐私保护方法得到的最终发布数据的MRE值随窗口大小w的变化曲线，(c)为在数据集Niceride上分别使用四种隐私保护方法得到的最终发布数据的MAE值随窗口大小w的变化曲线，(d)为在数据集Taxi上分别使用四种隐私保护方法得到的最终发布数据的MRE值随窗口大小w的变化曲线。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

需要注意的是，本发明中对数据的操作由代理人和不可信服务器共同承担。其中，代理人只对当前时间戳的数据进行操作，而不可信服务器不仅要对当前时间戳的数据进行操作，还要对当前时间戳之前发布的数据进行整理。

本实施例中，将一个地区划分成网格状的m个区域，这个地区共有n个用户，服务提供商需要知道每个区域在每个时间戳的人数，且这个群智感知网络中一共有π个代理人。定义D_i为在第i个时间戳所有用户的位置数据的集合，D_i是一个n×m的二维数据集，每一行代表一个用户，每一列代表一个区域。令U＝{u₁,…,u_n}表示所有用户的集合，Z＝{z₁,…,z_m}表示所有区域的集合，A＝{a₁,…,a_π}表示所有代理人的集合。则若第i个时间戳，用户u_p在区域z_q，则D_i(p,q)的值为1，否则为0。令表示D_i的真实统计值，表示区域z_k在时间戳i的总人数。i-1时间戳计算i时间戳的采样间隔。

请见图1和图2，本发明提供的一种不可信服务器下隐私保护的时空众包统计数据发布方法，包括以下步骤：

步骤1：上传数据至代理人。用户上传当前时间戳的数据到代理人，具体实现过程是：

步骤1.1：当前时间戳i，每位用户任意选择一个代理人；

步骤1.2：每个用户利用匿名通信将自己的位置数据上传到所选择的代理人上；每个代理人将持有一部分的原始数据。

实施例具体的实施过程说明如下：

每一个用户在当前时间戳i都随机的选择一个代理人作为其上传数据的对象，用户在哪个区域，上传的数据中哪个区域的值就为1。

用户过匿名通信将自己的数据上传到其选择的代理人上，由于是匿名通信，代理人并不知道用户的具体身份。用户合集为U＝{u₁,…,u_n}，所有用户的数据的合集为D_i。

令表示代理人a_j在i时间戳收到的数据，则是D_i的子集，且

步骤2：本地数据聚合；

每个代理人对当前时间戳接收到的数据做本地聚合处理，统计本地数据中每个区域的总人数，整合成一张数据表；

实施例具体的实施过程说明如下：

代理人a_j对其收到的数据集合进行聚合处理，统计出数据集中每个区域的总人数，令表示a_j上的统计结果，即整合而成的数据表。

步骤3：自适应采样；

不可信服务器对当前时间戳的区域进行采样，具体实现过程如下：

步骤3.1：不可信服务器根据当前时间戳之前发布的数据，分析每个区域的人数的变化趋势；

步骤3.2：不可信服务器根据每个区域当前的采样时间间隔I，对当前时间戳的区域进行采样；

步骤3.3：计算下一时间戳的采样时间间隔I′；

实施例具体的实施过程说明如下：

不可信服务器根据当前时间戳之前发布的数据对数据的变化趋势进行评估，主要是分析每个区域的人数的变化趋势，并根据采样间隔I对当前时间戳的区域进行采样。所有被采样的地区组成一个新的集合

不可信服务器计算下一时间戳每个区域的采样时间间隔。利用比例积PIDcontrol(比例积分微分控制)可以表示数据动态，下一时间戳的每个区域的采样时间间隔I′也可以通过PID error和这一区域剩下的预算来计算。令δ^j表示PID error的相关值，λ_r表示拉普拉斯噪声的规模，则对于区域z_j，下一时间戳的采样时间间隔其中I′和I_l分别是区域z_j下个和上个时间戳的采样间隔，θ是一个预定的调整采样时间间隔的比例因子。

步骤4：分配预算；

不可信服务器为当前时间戳的采样区域进行动态预算分配，具体过程如下：

步骤4.1：假定w个时间戳的数据总共分配的预算是ε，在后续步骤中，有分组和扰动这两个步骤需要使用预算，设分给w个时间戳数据的分组预算是ε_g，扰动预算是ε_p，且ε_g+ε_p＝ε。设定每个时间戳分给每个区域的扰动预算不能超过ε_max；

步骤4.2：不管是采样区域还是非采样区域，统一分配同样的分组预算ε_g/w；

步骤4.3：对于非采样区域，分给它的扰动预算是0；

步骤4.4：对于每个采样区域，计算前w-1个时间戳总共分给它的扰动预算X，用ε_p-X，求出这个区域剩余的扰动预算那么分给这个区域的扰动预算为其中当前采样间隔I计算出的参数ρ＝ln(I+1)。

实施例具体的实施过程说明如下：

假设w个时间戳数据的总预算是ε，分给w个时间戳数据的分组预算是ε_g，扰动预算是ε_p为了计算的便利性，不管是采样区域还是非采样区域，统一分配同样的分组预算ε_g/w。对于任一采样区域z_k，令表示当前i时间戳上区域z_k被分得的扰动预算。

对于区域z_k，若它是非采样区域，则

对于区域z_k，若它是采样区域，服务器计算前w-1个时间戳中z_k使用的总预算，算出当前剩下的预算，即并利用当前采样间隔I计算出参数ρ＝ln(I+1)，然后计算出

令将作为每个代理人上区域z_k的扰动预算。

其中，ε_g和ε_p的比例并不是随机指定的，ε_g/ε+ε_p/ε＝1。ε_g越大，分组时所加的噪声越少，分组精确度越高，则在同等噪声下可以提供更高的数据可用性；ε_p越大，扰动时所加的噪声越少，在同样的分组下可以提供更高的数据可用性。可见，ε_g/ε和ε_p/ε的值需要形成一个制衡，才能提高最终发布的数据的可用性。如图3所示，通过对不同的数据集进行的上百次实验，得出的结果是在ε_g/ε从1/8到1/2变化的过程中，数据可用性稍有降低；在ε_g/ε从1/2到7/8变化的过程中，数据的可用性基本保持不变。因此，为了操作方便，以及可用性的保障，在实例中我们选择令ε_g＝ε_p＝ε/2.

步骤5：动态分组；

每个代理人在步骤2中得到的数据表中，为被采样的区域进行分组，将人数少且相近的区域分成一组。具体实现过程是：

步骤5.1：对每个被采样的区域的人数做差分隐私扰动，得到扰动后的值；

步骤5.2：将扰动后的值与阈值γ₁进行比较，若区域人数扰动值大于γ₁，则将这个区域单独分成一组；

步骤5.3：重复步骤5.2直至所有的扰动值大于γ₁的区域都被挑选出来；

步骤5.4：在剩下的采样区域中任意选择一个区域，将其他区域的扰动值与此区域的扰动值进行比较，若相差的绝对值小于阈值γ₂，则将这些区域分在一组；

步骤5.5：重复步骤5.4直至所有区域都被分好组；

实施例具体的实施过程说明如下：

每个代理人都要对自己的数据进行动态分组，主要思路是：先利用分组预算计算步骤2中得到的数据集中的每个元素的扰动值如果大于某个参数，则将区域z_k单独作为一个组；剩下的区域中，若彼此的的差值小于某个参数，则将它们分到一组。

设分组过程中用到的两个参数分别为γ₁，γ₂，γ₁用来决定每个区域的统计值的扰动值是否足够大，γ₂是差值阈值，用来决定两个区域的统计值的扰动值是否是相近的。

下面以一个代理人a_j为例，来说明实例中的分组过程：

已知a_j上的统计数据集为采样区域的集合为每个区域分到的分组预算为ε_g/w。假设a_j上的分组策略为G_j，大值的分组合集为小值的分组合集为初始时和都是空集。

步骤6：扰动；

每个代理人对步骤2中获得的数据表按照步骤5的分组进行差分隐私扰动，得到扰动后的数据表；

实施例具体的实施方案如下：

以一个代理人a_j为例，来说明实例中的扰动过程：

令g表示a_j上的一个分组，其中包含τ个区域，表示为{z_g1,…,z_gτ}。对于区域z_gi，它的原始统计值表示为x(z_gi)，它分到的扰动预算表示为ε_gi，则分组g的总扰动预算为ε_min＝min(ε_g1,…,ε_gτ)。

利用拉普拉斯机制实现对分组g的加噪扰动，

对于g中的每个区域，其统计值的扰动值为

重复以上步骤直至a_j上的所有分组都被加噪扰动。

步骤7：上传数据至服务器；

每个代理人将步骤6中得到的扰动的数据表上传到不可信服务器；

步骤8：全局数据聚合；

不可信服务器将收到的所有数据聚合在一起，对非采样地区做近似；

实施例具体的实施方案如下：

代理人a_j上区域z_k的统计值原始值为它的扰动值是全局聚合后得到区域z_k的完整统计值的扰动值为假设其扰动前的原始值表示为服务器对每个代理人上传的数据进行全局数据聚合后，则有则每个区域满足隐私预算为的差分隐私。

于是服务器得到一张完整的统计表，其中每个区域的人数统计值都是扰动过后的结果。

步骤9：过滤；

不可信服务器对步骤6得到的数据进行过滤，以提高数据的精确度；

实施例具体的实施方案如下：

在实际操作中，使用卡尔曼滤波器对步骤8中得到的扰动数据进行过滤。滤波器对每个采样区域的扰动值进行预测和校正操作。令表示第i个时间戳区域z_j上的人数统计值原始值，表示其最终的扰动结果，表示其通过滤波器后的结果。

连续时间戳的统计值可以这样建模：其中p(ω_j)～N(0,Q_j)；其中

预测过程为：①②

校正过程为：①②③

其中，被称为卡尔曼增益，代表误差方差。

步骤10：数据发布；

不可信服务器将过滤后的数据发布给服务提供商。

图4、图5将本发明提出的不可信服务器下隐私保护的时空众包统计数据发布方法与已有的可用于时空众包系统中的隐私保护发布方法进行对比，证明此方法能有效保护数据隐私，并且很好地保证了发布数据的可用性。从图4可以看出本发明提出的方法可以有力保护数据隐私，且当总预算ε值相同时，本发明提出的方法下最终发布数据具有可用性优势。从图5可以看出本发明提出的方法可以有力保护数据隐私，且当窗口大小w值相同时，本发明提出的方法下最终发布数据具有可用性优势。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于，包括以下步骤：

步骤1：用户上传当前时间戳的数据到代理人；

步骤3：不可信服务器对当前时间戳的区域进行采样；

步骤9：不可信服务器对步骤8中得到的数据进行过滤；

步骤10：不可信服务器将过滤后的数据发布给服务提供商。

2.根据权利要求1所述的不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：当前时间戳i，每位用户任意选择一个代理人；

步骤1.2：每位用户利用匿名通信将自己的位置数据上传到所选择的代理人上。

3.根据权利要求1所述的不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.2：不可信服务器根据每个区域当前的采样时间间隔I，对当前时间戳的区域进行自适应采样；

步骤3.3：计算下一时间戳的采样时间间隔I′；

令δ^j表示PID error的相关值，λ_r表示拉普拉斯噪声的规模，则对于区域z_j，下一时间戳的采样时间间隔其中I′和I_l分别是区域z_j下一个和上一个时间戳的采样间隔，θ是一个预定的调整采样时间间隔的比例因子。

4.根据权利要求1所述的不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于，步骤4的具体实现包括以下子步骤：

步骤4.1：假定w个时间戳的数据总共分配的预算是ε，在后续步骤中，有分组和扰动这两个步骤需要使用预算，设分给w个时间戳数据的分组预算是ε_g，扰动预算是ε_p，且ε_g+ε_p＝ε；设定每个时间戳分给每个区域的扰动预算不超过ε_max；

步骤4.3：对于非采样区域，分给它的扰动预算是0；

步骤4.4：对于每个采样区域，计算前w-1个时间戳总共分给它的扰动预算X，用ε_p-X，求出这个区域剩余的扰动预算那么分给这个区域的扰动预算为其中根据当前采样间隔I计算出的参数ρ＝ln(I+1)。

5.根据权利要求1所述的不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于，步骤5的具体实现包括以下子步骤：

步骤5.5：重复步骤5.4直至所有区域都被分好组。

6.根据权利要求1所述的不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于：步骤8中所述对非采样地区做近似，是用此地区上一时间戳发布的值对其做近似。

7.根据权利要求1-6任意一项所述的不可信服务器下隐私保护的时空众包统计数据发布方法，其特征在于：步骤9中，使用卡尔曼滤波器对步骤8中得到的扰动数据进行过滤。