CN111723168A

CN111723168A - 一种基于阶梯机制的差分隐私二维空间数据发布方法

Info

Publication number: CN111723168A
Application number: CN202010011299.6A
Authority: CN
Inventors: 韩建民; 刘奇; 于娟; 鲁剑锋; 彭浩; 方蓉; 姚鑫
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-09-29
Anticipated expiration: 2040-01-06
Also published as: CN111723168B

Abstract

本发明涉及一种基于阶梯机制的差分隐私二维空间数据发布方法，包括以下步骤：设定二维划分区域D；根据二维划分区域D，并基于线性最小二乘拟合的方法计算二维区域最优划分粒度m；以m×m的粒度对二维区域D进行划分，得到m×m个子单元格；遍历二维区域数据集，分别统计m×m个子单元格里真实数据点计数；设定参数隐私预算ε，灵敏度Δ和随机数γ，在每个单元格计数上添加服从阶梯分布的噪音变量Staircase(ε，Δ，γ)，基于阶梯机制对单元格计数进行加噪；发布每个单元格及其加噪计数。本发明首次将阶梯机制引入二维空间划分工作中，通过在每个单元格计数上添加服从阶梯分布的变量并发布每个单元格及其加噪计数，减少噪音误差的影响，在查询精度与运行效率上作出了较好的平衡。

Description

一种基于阶梯机制的差分隐私二维空间数据发布方法

技术领域

本发明属于网络与信息安全领域，尤其涉及一种基于阶梯机制的差分隐私二维空间数据发布方法。

背景技术

随着移动互联网的迅速发展和智能终端的普及，数据的采集和发布越来越普遍，数据的价值也在不断提升。比如位置数据，如果处理得当，会带来巨大的商业价值。与此同时，位置数据的隐私问题日益受到人们的关注。为此，研究人员提出许多有效的隐私保护模型，如以匿名为基础的隐私保护模型、以数据扰动为基础的差分隐私保护模型。其中，差分隐私保护模型不需要关心用户的背景知识，同时能够量化隐私保护程度，引起了国内外学者的广泛关注。

划分发布是实现位置统计信息发布的一种有效形式，它依据一定的索引结构对位置信息集合进行划分，每一个索引区域采用其划分意义下的数据统计值进行标识，减小用户真实位置信息的泄漏风险。目前，划分过程主要分为数据分布依赖和数据分布无关。

Cormode等提出的Quad-opt划分方法采用与数据结构无关的完全四分树对二维空间进行层次划分，并按照几何策略对不同层次分配差分隐私预算。该方法充分利用了差分隐私的串行与并行特性，通过对节点的加噪结果进行后置处理改善了计数查询的精度。吴英杰等在四分树划分方法的基础上，采用区域均匀性判断策略对四叉划分的结果自底向上进行调整合并，从而平衡噪音误差与非均匀误差。由于树的深度不好确定，该划分方法精度有限。

Qardaji等提出了基于网格结构划分的均匀网格(uniform grid，UG)和自适应网格(adaptive grid，AG)。UG能够比较合理地假设划分粒度，但是没有考虑数据分布的偏斜和稀疏性；AG能够根据数据稀疏性自适应地设置空间数据划分粒度，但方法没有给出相应的启发式规则来区分数据稠密与稀疏之间的边界。

上述方法虽简单有效，但在计数扰动时都是基于拉普拉斯机制添加噪音，在噪音误差方面均有提出提升空间。

发明内容

本发明针对传统的差分隐私二维空间发布方法噪音误差大的缺陷，提出一种基于阶梯机制的差分隐私二维空间数据发布方法。

为了达到目的，本发明提供的技术方案为：

本发明涉及基于阶梯机制的差分隐私二维空间发布方法，包括以下步骤：

1)设定二维划分区域D；

2)根据给定的参数，并基于线性最小二乘拟合的方法计算二维区域最优划分粒度m；

3)以m×m的粒度对二维区域D进行划分，得到m×m个子单元格；

4)遍历二维区域数据集，分别统计m×m个子单元格里真实数据点计数；

5)设定，隐私预算ε，灵敏度Δ和随机数γ，在每个单元格计数上添加服从阶梯分布的噪音变量Staircase(ε，Δ，γ)，基于阶梯机制对单元格计数进行加噪；

6)发布每个单元格及其加噪计数。

优选地，所述的步骤5)中生成服从阶梯分布的变量包括以下步骤：

5.1)产生随机变量S和几何变量G；

5.2)在[0，1]的区间内均匀采样得到变量U；

5.3)产生二值随机变量B；

5.4)根据隐私预算ε，灵敏度Δ、随机数数γ、随机变量S、几何变量G、变量U以及二值随机变量B，生成服从阶梯分布的变量X。

优选地，所述的几何变量G的取值服从概率为：

Pr[G＝i]＝(1-b)bⁱ (1)

其中，i是几何变量G的取值，i≥0，b为隐私预算控制的中间变量，b＝e^-ε。

优选地，所述的随机数γ∈[0,1]。

优选地，所述的随机变量S的取值为1的概率为0.5，取值为-1的概率为0.5。

优选地，所述的二值随机变量B取值为1的概率为(1-γ)b/(γ+(1-γ)b)，取值为0的概率为γ/(γ+(1-γ)b)。

优选地，所述的服从阶梯分布的变量X的计算公式为：

X＝S((1-B)((G+γU)Δ)+B((G+γ+(1-γ)U)Δ)) (2)。

优选地，所述的步骤2)基于线性最小二乘拟合的方法计算二维区域最优划分粒度m的步骤包括量化噪音误差e_n和量化非均匀误差e_u，计算总误差为e_n+e_u，最小化目标函数e_n+e_u得到最优划分粒度m。

优选地，所述的步骤2)中二维区域最优划分粒度m的计算公式为：

其中，s是中间变量，k是比例系数，H和L是数据集区域的长和宽。

优选地，所述的中间变量s的计算公式为：

式中，b为隐私预算控制的中间变量，b＝e^-ε。

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

1、本发明首次将阶梯机制引入二维空间划分工作中，通过在每个单元格计数上添加服从阶梯分布的变量并发布每个单元格及其加噪计数，减少噪音误差的影响，在查询精度与运行效率上作出了较好的平衡。

2、本发明基于线性最小二乘拟合的方法计算二维区域最优划分粒度m，实现量化非均匀误差的目的。

附图说明

图1是本发明基于阶梯机制的差分隐私二维空间数据发布方法的流程图；

图2是噪音误差和非均匀误差的来源示意图；

图3是storage数据集中隐私预算取0.1时的相对误差分布图；

图4是storage数据集中隐私预算取0.5时的相对误差分布图；

图5是storage数据集中隐私预算取1.0时的相对误差分布图；

图6是Iandmark数据集中隐私预算取0.1时的相对误差分布图；

图7是Iandmark数据集中隐私预算取0.5时的相对误差分布图；

图8是Iandmark数据集中隐私预算取1.0时的相对误差分布图；

图9是storage数据集中隐私预算取0.1时的绝对误差分布图；

图10是storage数据集中隐私预算取0.5时的绝对误差分布图；

图11是storage数据集中隐私预算取1.0时的绝对误差分布图；

图12是Iandmark数据集中隐私预算取0.1时的绝对误差分布图；

图13是Iandmark数据集中隐私预算取0.5时的绝对误差分布图；

图14是Iandmark数据集中隐私预算取1.0时的绝对误差分布图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1所示，本发明涉及基于阶梯机制的差分隐私二维空间数据发布方法，包括以下步骤：

1)设定二维划分区域D；

2)根据给定的参数，并基于线性最小二乘拟合的方法计算二维区域最优划分粒度m，二维区域最优划分粒度m的计算公式为：

所述的中间变量s的计算公式为：

b为隐私预算控制的中间变量，b＝e^-ε。

二维区域最优划分粒度m的计算公式的推导过程如下：

如图2所示，为噪音误差和非均匀误差的来源示意图；

首先，结合图2所示量化噪音误差，计数查询的灵敏度为1，则给每个网格中添加的噪音服从分布Staircase(ε,1,γ)，方差为

在一个 m×m的网格中，查询框包含单元格个数为

整个矩形查询的噪音方差为

令

表示矩形查询的区域面积占网格区域面积的比例，

令

则

上述式中，a’和b’分别表示查询Query边框的长度和宽度；

其次，结合图2所示量化非均匀误差，矩形查询Query边框与查询区域交叉斜线部分表示为α，当α为0时，非均匀误差β也会为0；非均匀误差会随着斜线部分部分面积的增大而增大，基于这些观察，，将斜线部分面积α与非均匀误差β之间关系假定为β＝kα。其中，k是比例系数，通过样本数据点(α_i，β_i)，利用线性回归分析里最小二乘估计方法，求得参数如下：

(α_i，β_i)是第i次样本点值，

和

是相对误差和交叉斜线面积的平均值。

由图2可知，查询边框区域所占单元格个数为

每个单元格面积

查询边框区域所占单元格面积为

所以，非均匀误差为

数据查询的总误差是e_u+e_n，其中，

根据上面分析，最小化目标函数e_u+e_n，得到

向上取整得到

3)以m×m的粒度对二维区域进行划分，得到m×m个子单元格；

5)设定隐私预算ε，灵敏度Δ和随机数数γ，其中，随机数γ∈[0,1]，在每个单元格计数上添加服从阶梯分布的变量Staircase(ε，Δ，γ)，基于阶梯机制对单元格计数进行加噪，其具体步骤为：

5.1)产生随机变量S和几何变量G，几何变量G的取值服从概率为：

Pr[G＝i]＝(1-b)bⁱ (1)，

其中，i是几何变量G的取值，i≥0，b为隐私预算控制的中间变量，b＝e^-ε，随机变量S的取值为1的概率为0.5，取值为-1的概率为0.5；

5.2)在[0，1]的区间内均匀采样得到变量U；

5.3)产生二值随机变量B，二值随机变量B取值为1的概率为 (1-γ)b/(γ+(1-γ)b)，取值为0的概率为γ/(γ+(1-γ)b)；

5.4)根据隐私预算ε，灵敏度Δ、随机数数γ、随机变量S、几何变量G、变量U以及二值随机变量B，生成服从阶梯分布的变量X，服从阶梯分布的变量X的计算公式为：

X＝S((1-B)((G+γU)Δ)+B((G+γ+(1-γ)U)Δ)) (2)；

6)发布每个单元格及其加噪计数。

本实施例通过实验的方式，将本发明涉及的方法与现有技术中的Lap_Ugrid 算法、UG算法、AG算法和Qopt算法进行对比，以判断本发明涉及的方法在数据发布精度和时间效率上的优势。

本实验采用2个数据集storage，landmark。其中，storage为美国存储设施的位置信息；landmark是美国48个州的公共设施位置信息。取2组数据的经纬度信息作为实验数据。

实验中设置了6种大小的矩形查询，隐私预算分别取0.1，0.5，1.0，在每种矩形查询中随机生成600次查询，取平均值作为实验结果。数据集与矩形查询具体信息如表1。

表1数据集信息

位置信息分布较为均匀的Landmark数据集具有较高的查询精度，位置分布稀疏的storage查询误差较大。在所有的数据集上，当范围查询尺寸在适中的时候，查询误差较大。因为数据集中有许多空白区域存在，对应真实数据计数很少，为满足差分隐私保护添加大量的噪音，导致查询误差很大。在不同的数据集上，增加隐私预算，相对误差都会减少。

为了验证本专利提出的划分方法的鲁棒性，在样本大小与数据偏斜程度不同的两个数据集进行实验。隐私预算分别设置为0.1，0.5，1.0。同时，为了验证实验结果的有效性，实验也展示了相对误差分布图和绝对误差分布图，相对误差分布图如图3～8所示，绝对误差分布图如图9～14所示。

从实验结果得出，自适应划分AG效果最好，其次是本专利提出的基于阶梯机制的差分隐私二维空间发布方法(Staircase_Ugrid算法)，Lap_Ugrid算法效果稍差于Staircase_Ugrid算法，效果最差的是Qopt算法。阶梯机制是Laplace机制的一种演变形式，在隐私保护要求较低时，减小噪音误差更明显。本文采用的隐私预算(0.1，0.5，1.0)都相对较小，故Staircase_Ugrid较Lap_Ugrid精度提升不是很大。AG算法通过两阶段网格划分，较好地平衡了非均匀误差与噪音误差，所以效果较好。Qopt算法独立于数据分布，树的深度不好确定，查询误差最大。注意到在storage数据集上，AG算法性能较差，这可能与数据集的稀疏性和算法本身隐私预算分配有关。

AG算法对应的绝对误差总体分布取值较小，其次是本专利提出的基于阶梯机制的差分隐私二维空间发布方法(Staircase_Ugrid算法)和Lap_Ugrid算法，分布取值最大的是Qopt，验证了关于误差分析和提出的粒度划分模型的鲁棒性。

表2，3所示为各算法在storage，landmark数据集下的运行时间。为了更好地体现不同算法之间的差异，表中的运行时间不包含数据读入和数据查询的时间。

表2各算法在storage数据集下的运行时间ms

表3各算法在landmark数据集下的运行时间ms

由表2，3可以看出：在相同数据集下，隐私预算的取值对各个算法的运行效率不产生影响；基于数结构的划分方法Qopt运行时间较长，在数据集较小的情况下较为明显；本文提出的Staircase_Ugrid方法，与Lap_Ugrid方法，UG本质都是单次均匀划分，所以运行效率较高。

综上所述，本发明涉及的基于阶梯机制的差分隐私二维空间发布方法在数据发布精度与时间效率作了较好的平衡，即数据发布精度高，时间效率也高。

以上结合实施例对本发明进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍属于本发明的专利涵盖范围之内。

Claims

1.一种基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：其包括以下步骤：

1)设定二维划分区域D；

2)根据二维划分区域D，并基于线性最小二乘拟合的方法计算二维区域最优划分粒度m；

3)以m×m的粒度对二维区域D进行划分，得到m×m个子单元格；

5)设定参数隐私预算ε，灵敏度Δ和随机数γ，在每个单元格计数上添加服从阶梯分布的噪音变量Staircase(ε，Δ，γ)，基于阶梯机制对单元格计数进行加噪；

6)发布每个单元格及其加噪计数。

2.根据权利要求1所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的步骤5)中生成服从阶梯分布的变量包括以下步骤：

5.1)产生随机变量S和几何变量G；

5.2)在[0，1]的区间内均匀采样得到变量U；

5.3)产生二值随机变量B；

3.根据权利要求2所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的几何变量G的取值服从概率为：

Pr[G＝i]＝(1-b)bⁱ (1)

其中i是几何变量G的取值，i≥0，b为隐私预算控制的中间变量，b＝e^-ε。

4.根据权利要求1或2所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的随机数γ∈[0,1]。

5.根据权利要求2所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的随机变量S的取值为1的概率为0.5，取值为-1的概率为0.5。

6.根据权利要求2所述的基于阶梯机制的差分隐私二维空间发布方法，其特征在于：所述的二值随机变量B取值为1的概率为(1-γ)b/(γ+(1-γ)b)，取值为0的概率为γ/(γ+(1-γ)b)。

7.根据权利要求2所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的服从阶梯分布的变量X的计算公式为：

X＝S((1-B)((G+γU)Δ)+B((G+γ+(1-γ)U)Δ)) (2)。

8.根据权利要求1所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的步骤2)基于线性最小二乘拟合的方法计算二维区域最优划分粒度m的步骤包括量化噪音误差e_n和量化非均匀误差e_u，计算总误差为e_n+e_u，最小化目标函数e_n+e_u得到最优划分粒度m。

9.根据权利要求1或8所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的步骤2)中二维区域最优划分粒度m的计算公式为：

10.根据权利要求9所述的基于阶梯机制的差分隐私二维空间数据发布方法，其特征在于：所述的中间变量s的计算公式为：

式中，b为隐私预算控制的中间变量，b＝e^-ε。