CN104135362A

CN104135362A - 一种基于差分隐私发布的数据的可用性计算方法

Info

Publication number: CN104135362A
Application number: CN201410349202.7A
Authority: CN
Inventors: 华景煜; 唐安; 仲盛
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-07-21
Filing date: 2014-07-21
Publication date: 2014-11-05
Anticipated expiration: 2034-07-21
Also published as: CN104135362B

Abstract

本发明公开一种基于差分隐私发布的数据的可用性计算方法，针对集合型数据和关系型数据分别提出了基于DiffPart的保护隐私的数据可用性计算方法和基于DiffGen的保护隐私的数据可用性计算方法，对可用性进行定义，分别给出度量两种方法的信息损失的可用性函数，通过发布者发布一些加密过的辅助数据集，其中使用在

Description

一种基于差分隐私发布的数据的可用性计算方法

技术领域

本发明涉及一种基于差分隐私发布的数据的可用性计算方法，属于信息安全技术领域。

背景技术

服务提供者通常能够搜集到大量的用户数据，有时候同一个服务的多个提供者可能会将他们积累的数据合并到一起以支持一些特殊的数据挖掘任务。例如，全国的大型医院将他们的数据统一提交给一个研究组，该研究组将基于这些数据挖掘出流感传播的模型。

在上述过程中，如何保护用户的隐私是十分重要的，即所谓保护隐私的联合数据发布问题。针对这一问题提出了很多模型，如K匿名和差分隐私。K匿名及其变形(l-diversity，t-closeness)将全部记录泛化为若干组记录，使得每一组中的各个记录无法相互区分。差分隐私是一个更强的模型。它要求发布出来的数据对于单条记录的加入或者删除不敏感。实现该模型的匿名化方法通常在发布数据中加入噪声，或者随机泛化原始数据。显然，所有的这些匿名化方法有损于数据可用性。因此无论数据提供者还是数据使用者都期望能计算数据可用性以衡量匿名化导致的信息损失。

遗憾的是，数据可用性的计算并不显然。其要求同时知道发布的数据及原始数据集，但通常原始数据由独立于数据提供者的发布者合并并做匿名化处理且出于隐私保护的目的，原始数据不应当透露给任何数据提供者或使用者。注意，尽管发布者从提供者处获得数据，但在一个强安全模型下，发布者不能把搜集到的原始数据透露给任何一个数据提供者。因此，数据提供者或者使用者计算可用性是困难的。尽管他们可以要求发布者计算数据可用性(这是简单的因为发布者同时拥有原始数据以及发布数据)并告知他们，但是发布者未必是可以信任的，他完全可以提供一个伪造的更高的可用性。事实上，大量数据的匿名化处理有着巨大的开销，发布者具有这样的动机去声称一个更高的可用性。

发明内容

发明目的：本发明目的即解决在不损害隐私的情况下如何计算出发布数据的可用性。

技术方案：一种基于差分隐私发布的数据的可用性计算方法，针对集合型数据和关系型数据分别提出了基于DiffPart的保护隐私的数据可用性计算方法和基于DiffGen的保护隐私的数据可用性计算方法，对可用性进行定义，分别给出度量两种方法的信息损失的可用性函数，通过发布者发布一些加密过的辅助数据集，其中使用在上构造的密码系统来加密所述辅助数据集，依次验证所述辅助数据集是否正确的包含了发布者的数据，利用所述辅助数据集计算出最终发布数据集的可用性。实验表明了该方案的效率较高，其主要受数据提供者个数和数据规模影响。

有益效果：与现有技术相比，本发明的特点为：

(1)首先，提出了基于DiffPart(一种基于差分隐私模型发布set-valued数据的算法)的保护隐私的数据可用性计算方法。DiffPart使用一个上下文无关的分类树来对记录统计加入噪声，并且记录不会被泛化。本发明所提的方法通过加密记录的原始统计频度实现对于发布数据的可用性计算。该方法可以保护原始数据不被各个计算实体(使用者或提供者)窃取，因为它们不能获知某个特定记录在原始数据中是否出现以及出现多少次。此外，因为加密是由发布者实现的，本发明也提供了一个增量式验证其正确性的协议。理论上的分析表明了本发明所提出的方法的安全性及正确性。

(2)将上述方法扩展到DiffGen(一种基于差分隐私发布关系型数据的方法)。与DiffPart不同，DiffGen在对记录的频度加入噪声前要先泛化记录的属性值。信息损失是由于泛化以及加噪声两个方面。这两个方面的信息损失由不同的可用性函数度量。本发明对两者都做了考虑。分析表明，对于泛化操作的可用性可以仅利用发布数据来计算。而噪声部分的可用性定义和DiffPart的很类似，因此本发明稍稍调整了用于DiffPart可用性计算的方法来完成DiffGen噪声部分的可用性计算。

(3)通过一系列实际数据集上的实验评估了所提出的方法的效率，结果表明该方法足够高效，因为数据发布及可用性计算都是离线的。

附图说明

图1是DiffPart和DiffGen概览；

图2是不公开T_o的解决方案流程图；

图3是增量验证协议示意图；

图4是时间开销对比图；

图5是时间开销对比图(n＝48)。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

1.基础知识

1.1差分隐私保护数据发布

差分隐私模型旨在使得至多有一条不同记录的两个查询的结果无法区分进而保护敏感信息。如下给出差分隐私定义：

定义1.方法M:R(D)→R(T)符合ε-差分隐私当且仅当对于任意的且每一对D,只在一个记录上不同

Pr[M(D)∈R(T)]≤e^ε·Pr[M(D')∈R(T)]

其中，Pr[M(D)∈R(T)](R(T)表示方法M的值域)表示方法M作用于D的结果属于R(T)的概率。

差分隐私定义是针对一个方法而不是数据集的。

差分隐私系统有两个很自然的设定——交互式和非交互式。交互式指系统在线接受查询并回答以经过隐私保护的结果。出于对隐私的保护，该方法限制查询次数。非交互式系统一次性的将所有的数据进行处理后发布出去，后续用户拥有完整的发布数据。非交互式系统为研究者做数据分析提供了更大的灵活性。有鉴于此，大多数差分隐私系统如DiffPart和DiffGen都是非交互式的。

本发明将数据分为两类：集合型数据和关系型数据，表1分别给出了二者的例子。DiffPart和DiffGen是分别针对二者的差分隐私数据发布方法。它们都包含两个主要步骤：随机划分和噪声计数。在随机划分中，它们递归地将所有的记录划分为若干等价类，然后对每个等价类中的记录数计数。DiffPart中的随机划分是基于一棵上下文无关的分类树，其可以避免对于全集I的2^|I|-1个非空子集逐个计数。而DiffGen则完全根据原始数据来决定如何划分。二者的差别是DiffPart发布的记录是没有泛化的，而DiffGen则要先泛化所有的记录属性然后再发布泛化之后的结果。噪声计数中，二者均基于Laplace机制向实际统计频度加入噪声。无论DiffPart还是DiffGen，参数ε都被分成两部分，一部分应用于随机划分另一半用于噪声计数。

(a)集合型数据 (b)关系型数据

表1例子

1.2可用性定义

DiffPart和DiffGen均以牺牲一定的数据质量来保护数据安全性。下面将给出度量两种方法的信息损失的可用性函数。

(a)DiffPart的可能结果

项目集合	频度	加噪频度
			{I₁,I₃}	2	3
{I₁,I₂,I₃,I₄}	1	1
			{I₁,I₃,I₄}	1	0
{I₂,I₄}	1	3

(b)DiffGen的可能结果

年龄	性别	疾病	频度	加噪频度
					[20-30]	任意	流感	2	3
[60-80]	男	癌症	2	2

表2.DiffPart和DiffGen的可能结果

1.2.1DiffPart发布的集合型数据的可用性

以I表示集合型数据所有项目的全集，如前所述，DiffPart不泛化任何项。因此，发布数据为{<IS_i,f_i’>:ISi∈2^I}，其中IS_i和f_i’表示一个项目集和它的加噪声后的频度。鉴于发布数据的项目全集与原始数据的相同，DiffPart中的信息丢失主要是由项目集频度加噪声引起的。

集合型数据的可用性由计数查询的平均相对误差来度量。对于一个特定的项目集IS_i，数据集D上的一个计数查询定义为t为数据集中的记录。对于数据集D(为D加噪声后的数据集)的计数查询的相对误差定义为

U (Q) = \frac{| Q (\tilde{D}) - Q (D) |}{\max {Q (D), s}}

其中，s为了避免Q(D)过小可取为3。

本发明稍微修改了该定义来度量发布数据T_r由于向频度加噪声导致的信息损失：

U (T_{r}) = \frac{1}{| T_{r} |} Σ_{i = 1}^{n} \frac{{({f_{i}}^{'} + 1 - f_{i})}^{2}}{{({f_{i}}^{'} + 1)}^{2}} - - - (2)

其中，T_r是最终的发布数据集(n＝|T_r|)，f_i，f_i'是第i条记录的原始计数和加噪声后的计数值，f_i'+1是为了避免分母为0因为噪声是可能为负的。注意，小的函数值意味着高的数据可用性。

1.2.2DiffGen发布的关系型数据的可用性

不同于DiffPart，DiffGen必须首先将原始数据中的属性泛化。这使得可用性损失既有频度加噪声引起的，又有属性泛化引起的。两个部分的损失需要用不同的可用性函数定义。

对于属性泛化，本发明直接使用Xu et al.提出的可用性定义。令T为原始关系型数据集，属性(A₁,A₂,…,A_p)，A_k(1≤k≤p)可能为数值型或者类别型的属性。

数值型属性对于记录t的一个数值型属性A_k，如果其具体值t.A_k泛化为区间[y_k,z_k]，其信息损失定义为

UG (t . A_{k}) = \frac{z_{k} - y_{k}}{| A_{k} |}

其中

| A_{k} | = \max_{t &Element; T} {t . A_{k}} - \min_{t &Element; T} {t . A_{k}};

类别型属性类别型属性的泛化基于一棵固定的树。原始数据集中属性的值来自于该树的叶节点。对于t.A_k而言，如果其原始值被泛化到一个祖先节点u，信息损失定义为

UG (t . A_{k}) = \frac{size (u)}{| A_{k} |}

其中，|A_k|为A_k分类树的叶节点个数，size(u)为以u为根的子树的叶节点个数。

发布数据集T_r中任意一条记录t的信息损失定义为

UG (t) = Σ_{k = 1}^{p} ω_{k} \cdot UG (t . A_{k})

其中，ω_k是属性A_k的权重。整个发布数据集T_r的信息损失定义为

UG (T_{r}) = \frac{1}{| T_{r} |} \underset{t &Element; T_{r}}{Σ} UG (t) - - - (3)

另一个部分的信息损失是由频度干扰引起的。令f_i，f_i'表示一条泛化记录r_i∈T_r的实际频度和干扰后的频度。实际频度可从原始数据集T中取得，度量这部分信息损失的可用性函数定义同式(2)。

1.3基于子群确定问题的密码系统

在计算发布数据的可用性时，需要发布一些辅助数据集，这些辅助数据集都以加密形式发布以保护隐私。本发明使用一种在上构造的密码系统来加密这些中间数据集。该密码系统基于子群确定问题，其指出确定一个群的某个元素是否在其某个特定的子群上是困难的。下面给出该密码系统的简介。

密钥生成：给定安全参数τ，生成三个大素数p,q,n(p,q均为τ位)满足n＝2pq+1。在的二次剩余群上随机选择两个生成元g,u，令h＝u^p。公钥为(n,g,h)，私钥为q。

加密：记加密信息为m(0<m<M,M相对较小)，m的密文为E(m,r)＝g^mh^r，r为上的一个随机数。有时候，简记E(m,r)为E(m)而忽略r。

解密：先计算E(m)^q＝(g^mh^r)^q＝(g^q)^m，然后在Z_M上穷举解

\log_{\hat{g}} E {(m)}^{q} (\hat{g} = g^{q});

同态加法：对于两个明文m₁,m₂，易见

E (m_{1} + m_{2}) = g^{m_{1} + m_{2}} h^{r_{1} + r_{2}} = E (m_{1}) E (m_{2})

在本发明所提出来的计算由DiffPart或者DiffGen发布数据的可用性的方法中，发布者将提供几个利用上述密码系统加密的辅助数据集。

1.4攻击模型

系统中共有一个发布者和m个数据提供者。本部分将给出对于这些参与者的安全假设。

发布者：本发明假设数据发布者不会泄露任何数据提供者的原始数据给任何第三方包括其它提供者。但是，发布者可能发布不正确的数据以夸大数据可用性。

提供者：本发明假设提供者是半诚实的，这意味着他们期望获得其他提供者的数据但同时他们又会诚实地按照本发明提出的可用性计算流程执行。此外，提供者与发布者以及提供者之间不会合谋。

2.差分隐私模型发布的set-valued数据的可用性计算

2.1概览

本部分主要研究如何让任意一个数据提供者P_j(1≤j≤m)计算由DiffPart发布的集合型数据集T_r的可用性。记其原始数据集为T_o，T_o包含了从提供者那里搜集到的所有数据。

一个显而易见的计算式(2)中的U(T_r)的方法是让发布者把T_o直接公布出来，从而提供者能够取得所有计算中要用到的数据。显然，该方法违背隐私保护的初衷。本发明提出了一种不公开T_o的解决方案，其概览见图2。

鉴于原始数据集T_o是机密的，在本发明所提方案中，发布者将发布一个辅助数据集ET_o，这是一个加密了的T_o。如果T_r由一组记录组成，{(R_i,f_i'):1≤i≤|T_r|}，那么然后，数据提供者可以利用ET_o而不是T_o和T_r来计算U(T_r)。为使计算正确，下面两个条件必须成立。

1.加密的原始数据集ET_o必须和原始数据集T_o一致；

2.可用性U(T_r)应能够正确地且不泄露隐私地从ET_o和T_r中计算出。

接下来的两小节将详细描述如何使上述前提成立并且不引起任何隐私问题。

2.2对ET_o的增量验证模型

本部分将阐述如何验证ET_o与T_o间的一致性，称为增量验证协议。完整的过程如图3所示，其中是随同T_r一起发布的中间数据集，V_j指P_j验证是否正确包含了他的数据。

在增量验证协议执行前，发布者搜集所有提供者积累的数据，执行差分隐私保护方法如DiffPart，最后发布T_r。也由发布者计算，其与T_r形式相同但是仅包含P₁～P_j的数据，相应的加密数据集也由发布者计算后发布。记中第i条记录的平度为f_i,j，随机数r′_i,j，r″_i,j分别用于加密中的E(f_i,j)和c_i,j等于f_i,j中属于P_j的部分。

对每个提供者而言，验证过程如下：

1.首先P_j计算下面的密文

E (Δ f_{i, j}, r_{i, j}) = \frac{E (f_{i, j})}{E (f_{i, j - 1})}

\begin{matrix} E (Δ f_{i, j}^{2}, {rs}_{i, j}) = \frac{E (f_{i, j - 1}^{2} + 2 c_{i, j} f_{i, j - 1} + c_{i, j}^{2})}{E (f_{i, j}^{2})} \\ = \frac{E (f_{i, j - 1}^{2}) E {(f_{i, j - 1})}^{2 c_{i, j}}}{E (f_{i, j}^{2})} \cdot g^{c_{i, j}^{2}} \end{matrix}

其中，r_i,j＝r′_i,j-r′_i,j-1，rs_i,j＝r″_i,j-1+2c_i,jr′_i,j-1-r″_i,j。

2.然后让发布者给出r_i,j，rs_i,j使得P_j能够解密E(Δf_i,j)并确定对于任意i(1≤i≤|T_j|)是否Δf_i,j＝c_i,j，全部正确，否则不正确。

3.如果正确的包含了P_j的数据，他将附上一个签名以告知后续数据提供者是正确的。

因不存在P₁对于正确性验证稍有不同，发布者直接将r′_i,1，r″_i,1给P₁然后P₁验证是否和他自己的数据相吻合。从图2可以看出ET_o即是验证过的提供者的签名可以用其私钥对信息摘要算法，如MD5，SHA-1等的结果加密得到。

定理1上述增量验证协议能够确保正确地包含了P₁～P_j的数据。

证明：首先，仅包含P₁的数据，其正确性很容易被P₁验证。后续的提供者，P_j可以结合正确的来验证的正确性并进一步为P_j+1提供正确的因此，增量验证协议能够保证验证过的特别是ET_o正确地包含了对应的那些提供者的数据。

隐私分析在增量验证协议中，提供者P_j从发布者获得r_i,j，rs_i,j而能够验证E(f_i,j)，的正确性。但这些随机数无法使得P_j计算出任何其他的有助于其解密其他提供者数据的信息。

2.3基于ET_o及T_r计算U(T_r)

上个小节描述了增量验证协议并证明了其能够验证T_o和ET_o的一致性。本小节将解释如何在不泄露隐私的情况下利用ET_o和T_r计算出U(T_r)。记计算U(T_r)的数据提供者为P，过程如下：

1.提供者P按下式计算a和a_i(1≤i≤n)：

a = Π_{i = 1}^{n} (f_{i}^{'} + 1)

a_{i} = \frac{a}{f_{i}^{'} + 1}

2.P按下述等式计算

E (Σ_{i = 1}^{n} a_{i} f_{i})

和

E (Σ_{i = 1}^{n} a_{i}^{2} f_{i}^{2})

E (Σ_{i = 1}^{n} a_{i} f_{i}) = Π_{i = 1}^{n} E {(f_{i})}^{a_{i}}

E (Σ_{i = 1}^{n} a_{i}^{2} f_{i}^{2}) = Π_{i = 1}^{n} E {(f_{i}^{2})}^{a_{i}^{2}}

3.P进一步计算下面的密文并发送给发布者

E (m^{'} Σ_{i = 1}^{n} a_{i} f_{i} + m^{''}) = {(E (Σ_{i = 1}^{n} a_{i} f_{i}))}^{m^{'}} E (m^{''})

E (m_{s}^{'} Σ_{i = 1}^{n} a_{i}^{2} f_{i}^{2} + m_{s}^{''}) = {(E (Σ_{i = 1}^{n} a_{i}^{2} f_{i}^{2}))}^{m_{s}^{'}} E (m_{s}^{''})

其中，m'm″m'_sm″_s由P随机选择并保密。发布者接受到这两个密文后部分解密它们得到随后发布者将这两个部分解密的结果以及g^q和真实的和返回给P。

4.当收到pt₁pt₂g^qs₁s₂后，P验证是否成立以确定发布者是否给出了正确的值。

5.若上一步的验证正确，P计算U(T_r)如下：

\begin{matrix} U (T_{r}) = \frac{1}{n} Σ_{i = 1}^{n} \frac{{(f_{i}^{'} + 1 - f_{i})}^{2}}{{(f_{i}^{'} + 1)}^{2}} \\ = 1 - \frac{2}{n} Σ_{i = 1}^{n} \frac{f_{i}}{f_{i}^{'} + 1} + \frac{1}{n} Σ_{i = 1}^{n} \frac{f_{i}^{2}}{{(f_{i}^{'} + 1)}^{2}} \\ = 1 - \frac{2 s_{1}}{na} + \frac{s_{2}}{n a^{2}} \end{matrix}

在前两步P计算了和后两步P在发布者的帮助下解密了二者并利用它们计算了U(T_r)。因为整个过程中的加密都是由发布者用其公钥执行的，直接由发布者解密并返回给发布者留下了伪造不正确的结果并且使其能够通过验证的漏洞。有同样的问题。上述步骤中引入的随机变量m'm″m'_sm″_s可以解决此问题，下述引理表明了这一点。

引理1发布者必须返回正确的以及正确的g^qs₁s₂。

证明：发布者不能有效地计算出m'm″，如果其返回了伪造的s₁和pt₁，P验证将失败，s₂pt₂同理。

下面的定理说明上述可用性计算过程的有效性。

定理2若ET_o和T_o是一致的，上述可用性计算过程可以正确的计算出U(T_r)。

证明：由增量验证协议能够确定ET_o确实是由T_o产生的，和的计算是正确的。根据引理1，能保证s₁s₂是正确的。上述最后一步的转换也容易看出来是正确的。所以上述过程中计算出的U(T_r)是正确的。

隐私分析在上述可用性计算的过程中，P从发布者接受pt₁pt₂g^qs₁s₂然后计算U(T_r)。因解离散对数是困难的，P不能从接受到的结果里面有效的计算出q或者其他有用的信息以攻击此密码系统。所以上述过程不会泄露数据隐私。

2.4实用考虑

实践中，a,a_i可能很大以至于会被密码系统中的群的大小截断。这样，发布者返回的是和(N是群的大小)，最后计算出的可用性就不正确了。为解决此问题，假定a是尽可能多的f_i'+1的最小公倍数，a_i定义如下

其他步骤不变。特别的，

\begin{matrix} U (T_{r}) = 1 - \frac{2}{na} Σ_{i = 1}^{n} \frac{{af}_{i}}{f_{i}^{'} + 1} + \frac{1}{{na}^{2}} Σ_{i = 1}^{n} \frac{a^{2} f_{i}^{2}}{{(f_{i}^{'} + 1)}^{2}} \\ \approx 1 - \frac{2 s_{1}}{na} + \frac{s_{2}}{{na}^{2}} \end{matrix}

其中在新的定义下，a比密码系统中群的规模小从而避免了截断的问题。

为方便于加解密计算，U(T_r)的计算是近似的，因为上述新定义中的下取整操作。实际上，若a能够整除所有的f_i'+1，则计算出的U(T_r)就是精确的。否则计算U(T_r)的过程会丢失一定的精度。为减少精度的损失，要求a能整除尽可能多的f_i'+1。真实情况下频度通常都不会太大，令a为全部f_i'+1的最小公倍数总是可能的。

3.差分隐私模型发布的关系型数据的可用性计算

为发布关系型数据并且不泄露隐私，差分隐私保护机制通常先执行泛化然后再发布泛化后的数据及其加噪声后的频度。根据前面的定义，发布关系型数据的信息损失来自于两个方面——泛化和干扰。由泛化引起的信息损失由计算UG(T_r)得到，由频度干扰引起的信息损失由计算U(T_r)评估，U(T_r)的定义和集合型数据的相同。本节将描述如何计算这两个部分的可用性。

3.1计算U(T_r)

仍然记最终发布的数据集为T_r，记泛化后的数据集为T_g其包含泛化后的各个准标示符以及相应的真实的频度。发布者生成和T_g有完全相同的形式但只包含P₁～P_j的数据。数据集和T_g与集合型数据的T_o和十分类似。关系型数据库的可用性计算过程如下：

1.发布者搜集所有提供者的数据，执行DiffGen并发布T_r。

2.发布T_r的同时，发布者还提供ET_g 数据集，它们分别是T_g和的加密版本。

3.提供者依次验证是否正确包含了他们的数据。

4.利用ET_g，提供者可以计算U(T_r)。

如同集合型数据，有下述定理表明上述过程的正确性。

定理3上述过程可以正确的计算U(T_r)。

证明与定理2的证明相同，隐私分析也是一样的。

3.2计算UG(T_r)

从UG(T_r)的定义中可以看出它的计算只和T_r相关，因而计算过程比较容易理解和实现。

UG (t . A_{k}) = \{\begin{matrix} \frac{z_{k} - y_{k}}{| A_{k} |}, if & A_{k} & is & numerical \\ \frac{size (t . A_{k})}{| A_{k} |}, if & A_{k} & is & categorical \end{matrix}

UG (t) = Σ_{k = 1}^{p} ω_{k} \cdot UG (t . A_{k})

UG (T_{r}) = \frac{1}{| T_{r} |} \underset{t &Element; T_{r}}{Σ} UG (t)

其中，[y_k,z_k]是t.A_k泛化后的值，size(t.A_k)是能泛化为t.A_k的不同值的个数。T_r中每条记录的可用性是其各个属性的可用性的加权和，UG(T_r)是T_r所有记录的可用性的均值。尽管[y_k,z_k]由发布者产生，但他不太可能主动捏造[y_k,z_k]因为更小的区间很容易被提供者发现而更宽的区间则降低了可用性。类别型的属性是基于一棵固定的分类树来泛化的故而其可用性计算与原始数据集无关。

4.实验

本部分将详细描述本发明的实验，该实验以效率为主要关注点。实验在几台Intel Core i7PC上实施，操作系统为Ubuntu12.04。用C语言实现解决方案，密码系统的实现基于GNU MP开源高精度库。MSNBC和Adult分别作为集合型和关系型的数据集。

本发明提出的解决方案旨在提供一种保护隐私的计算由差分隐私保护方法发布的数据集的可用性。整个计算时间可分为三个部分：t_pub—从发布者开始搜集提供者的数据开始到他发布由差分隐私保护方法处理过的数据集T_r以及辅助数据集ET_o 或者ET_g 为止的这段时间；t_v—代表所有的提供者验证或的总时间；t_c—表示利用ET_o或ET_g计算T_r的可用性的时间。

本发明针对不同大小的数据集不同数量的数据提供者做了一系列的实验。为提供较强的安全性，密码系统的安全参数τ＝1024。

4.1集合型数据

MSNBC数据集有989818条记录，每条记录包含多个来自于I(|I|＝17)的项目。鉴于|I|较小，直接生成了其所有可能的子集。均匀的将所有的数据分布到m(3≤m≤15)个数据提供者上，每个人平均65000条记录。因为这里很大，计算U(T_r)时按3.4节中的方案进行。

本发明所提出的方案的执行时间主要受子集数量和数据提供者个数影响，结果如图4。实验中，n随m变小而变小。时间复杂度为O(nm)，n为子集个数。

由图中易见，执行时间与nm呈线性关系。原因在于主要的计算在于每个提供者计算每个子集的频度的密文。

4.2关系型数据

Adult数据集由一系列个人信息构成，这些信息共15个属性，其中6个为数值属性其余为类别属性。将训练集和测试集合并并去掉不完整的记录共得到45222条有效记录。将所有这些记录平均分布到m(3≤m≤15)个数据提供者上。所需要的计算或验证都是O(nm)，t_c是n的线性函数。在本部分实验中，泛化后的等价类数固定为n＝48。不同m下的时间开销如图5。因n固定，t_pub和t_v均和m呈线性关系，t_c则基本可看成一个常数。

本发明主要考虑了如何计算由非交互差分隐私系统发布的数据集的可用性的问题。针对集合型数据和关系型数据分别提出了相似的计算方法。本发明所提出的方法要求发布者提供一系列加密过的辅助数据集。数据提供者随后依次验证这些加密的数据集是否正确的包含了他们的数据。最后利用这些辅助数据集可以计算出最终发布数据集的可用性。实验表明了该方案的效率较高，其主要受数据提供者个数和数据规模影响。

Claims

1.一种基于差分隐私发布的数据的可用性计算方法，其特征在于：针对集合型数据和关系型数据分别提出了基于DiffPart的保护隐私的数据可用性计算方法和基于DiffGen的保护隐私的数据可用性计算方法，对可用性进行定义，分别给出度量两种方法的信息损失的可用性函数，通过发布者发布一些加密过的辅助数据集，其中使用在上构造的密码系统来加密所述辅助数据集，依次验证所述辅助数据集是否正确的包含了发布者的数据，利用所述辅助数据集计算出最终发布数据集的可用性。

2.如权利要求1所述的基于差分隐私发布的数据的可用性计算方法，其特征在于：

1)DiffPart发布的集合型数据的可用性定义

以I表示集合型数据所有项目的全集，发布数据为{<IS_i,f_i’>:ISi∈2^I}，其中IS_i和f_i’表示一个项目集和它的加噪声后的频度；集合型数据的可用性由计数查询的平均相对误差来度量，对于一个特定的项目集IS_i，数据集D上的一个计数查询定义为对于数据集D的计数查询的相对误差定义为

U (Q) = \frac{| Q (\tilde{D}) - Q (D) |}{\max {Q (D), s}}

其中，s是一个为了避免比较小的Q(D)的界；

度量发布数据T_r由于向频度加噪声导致的信息损失：

U (T_{r}) = \frac{1}{| T_{r} |} Σ_{i = 1}^{n} \frac{{({f_{i}}^{'} + 1 - f_{i})}^{2}}{{({f_{i}}^{'} + 1)}^{2}} - - - (2)

其中，T_r是最终的发布数据集，f_i，f_i'是第i条记录的原始计数和加噪声后的计数值，f_i'+1是为了避免分母为0因为噪声是可能为负的；

2)DiffGen发布的关系型数据的可用性

令T为原始关系型数据集，属性(A₁,A₂,…,A_p)，A_k(1≤k≤p)可能为数值型或者类别型的属性；

UG (t . A_{k}) = \frac{z_{k} - y_{k}}{| A_{k} |}

其中

| A_{k} | = \max_{t &Element; T} {t . A_{k}} - \min_{t &Element; T} {t . A_{k}};

类别型属性类别型属性的泛化基于一棵固定的树；原始数据集中属性的值来自于该树的叶节点；对于t.A_k而言，如果其原始值被泛化到一个祖先节点u，信息损失定义为

UG (t . A_{k}) = \frac{size (u)}{| A_{k} |}

其中，|A_k|为A_k分类树的叶节点个数，size(u)为以u为根的子树的叶节点个数；

发布数据集T_r中任意一条记录t的信息损失定义为

UG (t) = Σ_{k = 1}^{p} ω_{k} \cdot UG (t . A_{k})

其中，ω_k是属性A_k的权重；整个发布数据集T_r的信息损失定义为

UG (T_{r}) = \frac{1}{| T_{r} |} \underset{t &Element; T_{r}}{Σ} UG (t) - - - (3)

令f_i，f_i'表示一条泛化记录r_i∈T_r的实际频度和干扰后的频度；实际频度可从原始数据集T中取得，度量这部分信息损失的可用性函数定义同式(2)。

3.如权利要求2所述的基于差分隐私发布的数据的可用性计算方法，其特征在于：

使用一种在上构造的密码系统来加密这些中间数据集，该密码系统基于子群确定问题，其指出确定一个群的某个元素是否在其某个特定的子群上是困难的；

密钥生成：给定安全参数τ，生成三个大素数p,q,n满足n＝2pq+1；在的二次剩余群上随机选择两个生成元g,u，令h＝u^p；公钥为(n,g,h)，私钥为q；

加密：记加密信息为m(0<m<M,M＝2¹⁶)，m的密文为E(m,r)＝g^mh^r，r为上的一个随机数；

解密：先计算E(m)^q＝(g^mh^r)^q＝(g^q)^m，然后在Z_M上穷举解

\log_{\hat{g}} E {(m)}^{q} (\hat{g} = g^{q});

同态加法：对于两个明文m₁,m₂，易见

E (m_{1} + m_{2}) = g^{m_{1} + m_{2}} h^{r_{1} + r_{2}} = E (m_{1}) E (m_{2})

计算由DiffPart或者DiffGen发布数据的可用性的方法中，发布者将提供几个利用上述密码系统加密的辅助数据集。

4.如权利要求3所述的基于差分隐私发布的数据的可用性计算方法，其特征在于：

1)差分隐私模型发布的set-valued数据的可用性计算

下面介绍让任意一个数据提供者P_j(1≤j≤m)计算由DiffPart发布的集合型数据集T_r的可用性，记其原始数据集为T_o，T_o包含了从提供者那里搜集到的所有数据；

鉴于原始数据集T_o是机密的，发布者将发布一个辅助数据集ET_o，这是一个加密了的T_o，如果T_r由一组记录组成，{(R_i,f_i'):1≤i≤|T_r|}，那么ET_o＝{(R_i,E(f_i),E(f_i ²)):1≤i≤|T_o|}；然后，数据提供者可以利用ET_o而不是T_o和T_r来计算U(T_r)；为使计算正确，下面两个条件必须成立；

(1)加密的原始数据集ET_o必须和原始数据集T_o一致；

(2)可用性U(T_r)应能够正确地且不泄露隐私地从ET_o和T_r中计算出；

对ET_o的增量验证模型，本部分将阐述如何验证ET_o与T_o间的一致性，称为增量验证协议；其中是随同T_r一起发布的中间数据集，V_j指P_j验证是否正确包含了他的数据；

在增量验证协议执行前，发布者搜集所有提供者积累的数据，执行差分隐私保护方法，最后发布T_r；也由发布者计算，其与T_r形式相同但是仅包含P₁～P_j的数据，相应的加密数据集也由发布者计算后发布；记中第i条记录的平度为f_i,j，随机数r′_i,j，r″_i，j分别用于加密中的E(f_i,j)和c_i,j等于f_i,j中属于P_j的部分；

对每个提供者而言，验证过程如下：

(1)首先P_j计算下面的密文

E (Δ f_{i, j}, r_{i, j}) = \frac{E (f_{i, j})}{E (f_{i, j - 1})}

\begin{matrix} E (Δ f_{i, j}^{2}, {rs}_{i, j}) = \frac{E (f_{i, j - 1}^{2} + 2 c_{i, j} f_{i, j - 1} + c_{i, j}^{2})}{E (f_{i, j}^{2})} \\ = \frac{E (f_{i, j - 1}^{2}) E {(f_{i, j - 1})}^{2 c_{i, j}}}{E (f_{i, j}^{2})} \cdot g^{c_{i, j}^{2}} \end{matrix}

其中，r_i,j＝r′_i,j-r′_i,j-1，rs_i,j＝r″_i,j-1+2c_i,jr′_i,j-1-r″_i,j；

(2)然后让发布者给出r_i,j，rs_i,j使得P_j能够解密E(Δf_i,j)并确定对于任意i(1≤i≤|T_j|)是否Δf_i,j＝c_i,j，全部正确，否则不正确；

(3)如果正确的包含了P_j的数据，他将附上一个签名以告知后续数据提供者是正确的；

因不存在P₁对于正确性验证稍有不同，发布者直接将r′_i,1，r″_i,1给P₁然后P₁验证是否和他自己的数据相吻合；

基于ET_o及T_r计算U(T_r)；本部分将解释如何在不泄露隐私的情况下利用ET_o和T_r计算出U(T_r)；记计算U(T_r)的数据提供者为P，过程如下：

(1)提供者P按下式计算a和a_i(1≤i≤n)：

a = Π_{i = 1}^{n} (f_{i}^{'} + 1)

a_{i} = \frac{a}{f_{i}^{'} + 1}

(2)P按下述等式计算和

E (Σ_{i = 1}^{n} a_{i} f_{i}) = Π_{i = 1}^{n} E {(f_{i})}^{a_{i}}

E (Σ_{i = 1}^{n} a_{i}^{2} f_{i}^{2}) = Π_{i = 1}^{n} E {(f_{i}^{2})}^{a_{i}^{2}}

(3)P进一步计算下面的密文并发送给发布者

E (m^{'} Σ_{i = 1}^{n} a_{i} f_{i} + m^{''}) = {(E (Σ_{i = 1}^{n} a_{i} f_{i}))}^{m^{'}} E (m^{''})

E (m_{s}^{'} Σ_{i = 1}^{n} a_{i}^{2} f_{i}^{2} + m_{s}^{''}) = {(E (Σ_{i = 1}^{n} a_{i}^{2} f_{i}^{2}))}^{m_{s}^{'}} E (m_{s}^{''})

其中，m'm″m'_sm″_s由P随机选择并保密；发布者接受到这两个密文后部分解密它们得到随后发布者将这两个部分解密的结果以及g^q和真实的和返回给P；

(4)当收到pt₁pt₂g^qs₁s₂后，P验证是否成立以确定发布者是否给出了正确的值；

(5)若上一步的验证正确，P计算U(T_r)如下：

\begin{matrix} U (T_{r}) = \frac{1}{n} Σ_{i = 1}^{n} \frac{{(f_{i}^{'} + 1 - f_{i})}^{2}}{{(f_{i}^{'} + 1)}^{2}} \\ = 1 - \frac{2}{n} Σ_{i = 1}^{n} \frac{f_{i}}{f_{i}^{'} + 1} + \frac{1}{n} Σ_{i = 1}^{n} \frac{f_{i}^{2}}{{(f_{i}^{'} + 1)}^{2}} \\ = 1 - \frac{2 s_{1}}{na} + \frac{s_{2}}{n a^{2}} \end{matrix}

在前两步P计算了和后两步P在发布者的帮助下解密了二者并利用它们计算了U(T_r)；

2)差分隐私模型发布的关系型数据的可用性计算

发布关系型数据的信息损失来自于两个方面——泛化和干扰；由泛化引起的信息损失由计算UG(T_r)得到，由频度干扰引起的信息损失由计算U(T_r)评估，U(T_r)的定义和集合型数据的相同；

计算U(T_r)

仍然记最终发布的数据集为T_r，记泛化后的数据集为T_g其包含泛化后的各个准标示符以及相应的真实的频度；发布者生成和T_g有完全相同的形式但只包含P₁～P_j的数据；数据集和T_g与集合型数据的T_o和十分类似；关系型数据库的可用性计算过程如下：

(1)发布者搜集所有提供者的数据，执行DiffGen并发布T_r；

(2)发布T_r的同时，发布者还提供ET_g 数据集，它们分别是T_g和的加密版本；

(3)提供者依次验证是否正确包含了他们的数据；

(4)利用ET_g，提供者可以计算U(T_r)；

计算UG(T_r)

从UG(T_r)的定义中可以看出它的计算只和T_r相关；

UG (t . A_{k}) = \{\begin{matrix} \frac{z_{k} - y_{k}}{| A_{k} |}, if & A_{k} & is & numerical \\ \frac{size (t . A_{k})}{| A_{k} |}, if & A_{k} & is & categorical \end{matrix}

UG (t) = Σ_{k = 1}^{p} ω_{k} \cdot UG (t . A_{k})

UG (T_{r}) = \frac{1}{| T_{r} |} \underset{t &Element; T_{r}}{Σ} UG (t)

其中，[y_k,z_k]是t.A_k泛化后的值，size(t.A_k)是能泛化为t.A_k的不同值的个数；T_r中每条记录的可用性是其各个属性的可用性的加权和，UG(T_r)是T_r所有记录的可用性的均值。