CN104216994B

CN104216994B - 一种列联表数据发布的隐私保护方法

Info

Publication number: CN104216994B
Application number: CN201410457822.2A
Authority: CN
Inventors: 丁晓锋; 金海�; 欧洋伶
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2017-06-20
Anticipated expiration: 2034-09-10
Also published as: CN104216994A

Abstract

本发明公开了一种列联表数据发布的隐私保护方法，属于计算机数据隐私保护领域。本发明包括：确定列联表内每个分组的初始替换基数和最终替换基数，记录敏感值基于指数机制进行的随机替换，重新计算替换后的每个分组并输出新的列联表。本发明能够使处理后的列联表满足ε‑差分隐私的安全需求，同时支持任意原数据所支持的查询，并且处理后的数据误差小，精确度高，使得数据可用性更强。

Description

一种列联表数据发布的隐私保护方法

技术领域

本发明属于计算机数据隐私保护技术领域，更具体地，涉及一种列联表数据发布的隐私保护方法。

背景技术

数据发布的隐私保护技术是近年来数据挖掘领域的一项研究热点。随着大数据时代的到来，越来越多的数据正在被一些统计机构采集和分析。有时，这些机构会发布一些数据供第三方使用，而这些数据可能涵盖数据被采集者的一些敏感信息，例如某病人患有某种疾病等。因此，直接发布这些数据会造成数据被采集者的隐私泄露。为了保护数据被采集者的隐私，数据发布方必须采取隐私保护措施。

列联表(Contingency Table)指的是按两个或多个属性将数据分类时所列出的频数表，是一种典型的非交互式数据发布形式。例如，在发布数据的时候，按“准身份标识属性”与“敏感属性”将数据分类，排列为一个m×n的二维列联表，记作T。准身份标识属性指的是类似“性别”、“年龄”、“邮编”这种可以通过联接外部数据获取个体身份的属性，记作U_QI＝{qv₁,qv₂,...,qv_m}，包含m个变量值。敏感属性指的包含个体隐私信息的属性，例如所患疾病等，记作Us＝{sv₁,sv₂,...,sv_n}，包含n个变量值。二维列联表T中的分组T(a,i)表示准身份标识属性值为qv_a、敏感属性值为sv_i的样本个数。

ε-差分隐私(ε-Differential Privacy)是一种隐私安全模型，其假设一个足够强大的攻击者对于整个数据集有且仅有一个元素是未知的，并要求一个安全的算法应该保证无论一个用户是否出现在该数据集中，都不会给查询结果造成显著差异。参数ε限制了元素“在”与“不在”数据集中的可能性之间的差异程度。ε越小，差异性就应该越小，安全要求也越高。基于ε-差分隐私模型的算法都采用随机机制，让攻击者根据输出结果无法分辨某个目标人物是否出现在原数据集中。

给定一个隐私保护机制M和数据集D，如果对于任意数据集D'(D与D'最多相差一个元素)，以及都有：

那么，M满足ε-差分隐私。

敏感度(Sensitivity)是差分隐私的一个重要概念。对于任意查询函数q，q的敏感度记作：

Δq＝max||q(D)-q(D')||

实现差分隐私的方式主要分为两种，一种为拉普拉斯机制(Laplace Mechanism)，基于这种机制的算法会将拉普拉斯随机数作为噪音添加到查询结果上。另一种为指数机制(Exponential Mechanism)，是一种用于设计差分隐私算法的技术。一般来讲，基于指数机制的算法的主要目的是在于保证ε-差分隐私的同时，最大化一个输入和一个输出间的随机映射的可用性。

目前实现差分隐私的算法都是在给出特定的查询函数后，通过对查询结果变形，例如直接添加噪音，或通过可逆函数变形后添加噪音来实现。直接添加噪音的方法不能保证数据一致性，且精确度较低；可逆变形在线性转换上，算法速度是一个瓶颈。且这些方法灵活性不高，一旦查询函数或查询条件改变，算法需要重新设计。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种列联表数据发布的隐私保护方法，本发明的基本思想是将记录的敏感属性值随机替换，保证数据满足差分隐私，且支持任意原数据所支持的查询，并具有较高的精确度。

本发明提供一种列联表数据发布的隐私保护方法，包括：

步骤1确定列联表T的每个分组T(a,i)的替换基数Φ(a,i)，包括以下子步骤：

(1-1)确定每个分组T(a,i)的初始替换基数Φ₀(a,i)，其中，1≤a≤m，1≤i≤n，m对应准身份标识属性的个数，n对应敏感属性的个数，m为大于或等于1的整数，n为大于或者等于1的整数；

(1-2)为每个初始替换基数Φ₀(a,i)加上一个随机非负整数y_i，得到每个分组T(a,i)的所述替换基数Φ(a,i)；

步骤2对于每一个分组T(a,i)，根据其所述替换基数Φ(a,i)，取任意Φ(a,i)条记录，将其原有的敏感值随机替换为敏感属性集合Us中的任意敏感值，其中，所述敏感属性集合Us为包含个体隐私信息属性的集合；

步骤3重新计算每个分组T(a,i)的记录个数，得到新分组T^*(a,i)并输出。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1、经本发明处理后的数据满足ε-差分隐私的安全需求，同时具有较高精确度和可用性；

2、经本发明处理后的列联表计数结果均为非负数，且列联表每一行总和与处理前相同。因此，可以保证数据的一致性原则；

3、本发明不限制查询函数、查询条件以及查询次数，具有灵活性高的特点。

附图说明

图1为本发明列联表数据发布的隐私保护方法的总体流程图；

图2为本发明实施例采用的原始的列联表T；

图3为本发明实施例中列联表T的第一行数据；

图4为本发明实施例中列联表T的第一行数据的初始替换基数的确定；

图5为本发明实施例中随机数Y的随机分配示例；

图6为本发明实施例中列联表T的第一行数据的最终替换基数的确定；

图7为本发明实施例中列联表T的第一行数据敏感值随机替换的过程示意图；

图8所示为本发明实施例中每个新分组T^*(1,i)的计算过程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1所示为本发明列联表数据发布的隐私保护方法的总体流程图，包括以下步骤：

步骤1输入列联表T(m行×n列)及参数ε(表示用户自定义的安全参数，ε≥0)，并确定列联表T的每个分组T(a,i)的替换基数Φ(a,i)，其中，a表示列联表T的第a行，i表示列联表T第i列(1≤a≤m，1≤i≤n)，m对应准身份标识属性的个数，n对应敏感属性的个数，m为大于或等于1的整数，n为大于或者等于1的整数，具体包括以下子步骤：

(1-1)确定每个分组T(a,i)的初始替换基数Φ₀(a,i)，初始替换基数Φ₀(a,i)的确定按照如下公式所示：

即当分组T(a,i)的记录个数大于等于1的时候，该分组的初始替换基数Φ₀(a,i)设为1；当分组T(a,i)的记录个数等于0的时候，该分组的初始替换基数Φ₀(a,i)设为0；

(1-2)为每个初始替换基数Φ₀(a,i)加上一个随机非负整数y_i，得到每个分组的最终替换基数Φ(a,i)。关于随机非负整数y_i的生成：首先，产生一个随机正整数Y(服从拉普拉斯分布Lap(1/ε))，再将该随机正整数Y按均匀分布随机分配为n个正整数之和，即其中，n表示列联表的列数。

步骤2对于每一个分组T(a,i)，根据其最终替换基数Φ(a,i)，取出任意Φ(a,i)条记录，将其原有的敏感值随机替换为敏感属性集合Us＝{sv₁,sv₂,...,sv_n}中的任意敏感值，其中敏感属性指的包含个体隐私信息的属性。上述敏感值的随机替换基于指数机制，即敏感属性集合Us中元素被随机抽样的概率为：

其中，dist(sv_i,sv_j)表示敏感值sv_i与sv_j(1≤i≤n，1≤j≤n)之间的距离；λ＝Δdist/ε，Δdist表示距离函数dist的敏感度，ε表示用户自定义的安全参数。

步骤3重新统计每个分组的记录个数，得到新的列联表T^*并输出。

图2所示为本发明实施例采用的原始的列联表T，记录了某医院的病人信息，其中，<性别、年龄>是记录的准身份标识属性，<疾病>是敏感属性，在本发明实施例中，包括：流感、肺炎、消化不良和胃溃疡。利用本发明处理图2中的每行数据，例如第1行，具体包括以下步骤：

步骤1对列联表T中的第1行(如图3所示)，确定每个分组T(1,i)(1≤i≤4)的最终替换基数Φ(1,i)。具体的，T(1,1)指“性别为女，年龄为12，患有流感”的病人有13个；T(1,2)指“性别为女，年龄为12，患有肺炎”的病人有11个；T(1,3)指“性别为女，年龄为12，患有消化不良”的病人有14个；T(1,4)指“性别为女，年龄为12，患有胃溃疡”的病人有0个。要确定该行所有分组的最终替换基数，具体包括以下子步骤：

(1-1)确定分组T(1,i)的初始替换基数Φ₀(1,i)(如图4所示)。由于T(1,1)，T(1,2)和T(1,3)大于0，因此设Φ₀(1,1)，Φ₀(1,2)，Φ₀(1,3)为1；由于T(1,4)等于0，因此设置Φ₀(1,4)为0；

(1-2)为每个初始替换基数Φ₀(1,i)加上一个随机非负整数y_i，得到每个分组T(1,i)的最终替换基数Φ(1,i)：首先，产生一个随机正整数Y，在本发明实施例中，随机正整数Y＝4。再随机将Y分配到各个分组T(1,i)中，该随机分配服从[1,n]上的均匀分布，即每个分组得到同等配额的概率是相等的。在本发明实施例中，如图5所示，Y被随机分配为[2,1,1,0]，即y₁＝2，y₂＝1，y₃＝1，y₄＝0。在各初始替换基数Φ₀(1,i)的基础上添加随机非负整数y_i，可得到每个分组T(1,i)的最终替换基数Φ(1,i)。图6所示为本发明实施例中第一行每个分组的最终替换基数，其中，Φ(1,1)＝Φ₀(1,1)+y₁＝3，以此类推，得到Φ(1,2)＝2，Φ(1,3)＝2，Φ(1,4)＝0。

步骤2从每个分组T(1,i)中取出同其替换基数相等个数的记录进行敏感值替换。图7所示为本发明实施例中进行敏感值替换的过程示意图。在分组T(1,1)中，任意提取3条记录，分别将其敏感信息“流感”随机替换成“流感，肺炎，消化不良，胃溃疡”中的一种。在图7中该三条记录被随机替换为了“肺炎”、“消化不良”以及“流感”。在分组T(1,2)中，有2条记录的敏感信息(肺炎)分别被替换成了胃溃疡和流感。有2条记录的敏感信息(消化不良)分别被替换成了胃溃疡和消化不良。在分组T(1,4)中，没有进行任何替换操作。

步骤3重新计算每个新分组T^*(1,i)的值。图8所示为本发明实施例中每个新分组T^*(1,i)的计算过程，例如T^*(1,1)是由T(1,1)减去被替换的记录个数3，再加上由随机替换形成的新的记录个数2而得。其余分组以此类推，得到新的列联表T^*。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种列联表数据发布的隐私保护方法，其特征在于，包括：

(1-2)为每个初始替换基数Φ₀(a,i)加上一个随机非负整数y_i，得到每个分组T(a,i)的替换基数Φ(a,i)；

2.如权利要求1所述的方法，其特征在于，在所述子步骤(1-1)中，所述初始替换基数Φ₀(a,i)按照如下公式确定：

Φ_{0} (a, i) = \{\begin{matrix} 1, & (T (a, i) &GreaterEqual; 1) \\ 0, & (T (a, i) = 0) \end{matrix}

即当所述分组T(a,i)的记录个数大于等于1的时候，其初始替换基数Φ₀(a,i)设为1；当所述分组T(a,i)的记录个数等于0的时候，其初始替换基数Φ₀(a,i)设为0。

3.如权利要求1或2所述的方法，其特征在于，在所述子步骤(1-2)中，由拉普拉斯分布产生随机正整数Y，再将所述随机正整数Y按均匀分布随机分配为n个正整数之和，即其中，n表示所述列联表T的列数。

4.如权利要求1或2所述的方法，其特征在于，在所述步骤2中，所述敏感值的随机替换基于指数机制，即所述敏感属性集合Us中元素被随机抽样的概率为：

\Pr [d i s t ({sv}_{i}, {sv}_{j}) | ({sv}_{i}, {sv}_{j}) &Element; U s \times U s] = \frac{\exp (- d i s t ({sv}_{i}, {sv}_{j}) / λ)}{\underset{({sv}_{i}, {sv}_{k}) &Element; U s \times U s}{Σ} \exp (- d i s t ({sv}_{i}, {sv}_{k}) / λ)}

其中，dist(sv_i,sv_j)表示敏感值sv_i与sv_j之间的距离；λ＝Δdist/ε，Δdist表示距离函数dist的敏感度，ε表示用户自定义的安全参数。

5.如权利要求1或2所述的方法，其特征在于，所述步骤3中计算所述新分组T^*(a,i)的值的方法为由每个分组T(a,i)减去被替换的记录个数，再加上新添加的记录个数而得。