CN104135362A - 一种基于差分隐私发布的数据的可用性计算方法 - Google Patents

一种基于差分隐私发布的数据的可用性计算方法 Download PDF

Info

Publication number
CN104135362A
CN104135362A CN201410349202.7A CN201410349202A CN104135362A CN 104135362 A CN104135362 A CN 104135362A CN 201410349202 A CN201410349202 A CN 201410349202A CN 104135362 A CN104135362 A CN 104135362A
Authority
CN
China
Prior art keywords
data
availability
prime
publisher
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410349202.7A
Other languages
English (en)
Other versions
CN104135362B (zh
Inventor
华景煜
唐安
仲盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201410349202.7A priority Critical patent/CN104135362B/zh
Publication of CN104135362A publication Critical patent/CN104135362A/zh
Application granted granted Critical
Publication of CN104135362B publication Critical patent/CN104135362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于差分隐私发布的数据的可用性计算方法,针对集合型数据和关系型数据分别提出了基于DiffPart的保护隐私的数据可用性计算方法和基于DiffGen的保护隐私的数据可用性计算方法,对可用性进行定义,分别给出度量两种方法的信息损失的可用性函数,通过发布者发布一些加密过的辅助数据集,其中使用在

Description

一种基于差分隐私发布的数据的可用性计算方法
技术领域
本发明涉及一种基于差分隐私发布的数据的可用性计算方法,属于信息安全技术领域。
背景技术
服务提供者通常能够搜集到大量的用户数据,有时候同一个服务的多个提供者可能会将他们积累的数据合并到一起以支持一些特殊的数据挖掘任务。例如,全国的大型医院将他们的数据统一提交给一个研究组,该研究组将基于这些数据挖掘出流感传播的模型。
在上述过程中,如何保护用户的隐私是十分重要的,即所谓保护隐私的联合数据发布问题。针对这一问题提出了很多模型,如K匿名和差分隐私。K匿名及其变形(l-diversity,t-closeness)将全部记录泛化为若干组记录,使得每一组中的各个记录无法相互区分。差分隐私是一个更强的模型。它要求发布出来的数据对于单条记录的加入或者删除不敏感。实现该模型的匿名化方法通常在发布数据中加入噪声,或者随机泛化原始数据。显然,所有的这些匿名化方法有损于数据可用性。因此无论数据提供者还是数据使用者都期望能计算数据可用性以衡量匿名化导致的信息损失。
遗憾的是,数据可用性的计算并不显然。其要求同时知道发布的数据及原始数据集,但通常原始数据由独立于数据提供者的发布者合并并做匿名化处理且出于隐私保护的目的,原始数据不应当透露给任何数据提供者或使用者。注意,尽管发布者从提供者处获得数据,但在一个强安全模型下,发布者不能把搜集到的原始数据透露给任何一个数据提供者。因此,数据提供者或者使用者计算可用性是困难的。尽管他们可以要求发布者计算数据可用性(这是简单的因为发布者同时拥有原始数据以及发布数据)并告知他们,但是发布者未必是可以信任的,他完全可以提供一个伪造的更高的可用性。事实上,大量数据的匿名化处理有着巨大的开销,发布者具有这样的动机去声称一个更高的可用性。
发明内容
发明目的:本发明目的即解决在不损害隐私的情况下如何计算出发布数据的可用性。
技术方案:一种基于差分隐私发布的数据的可用性计算方法,针对集合型数据和关系型数据分别提出了基于DiffPart的保护隐私的数据可用性计算方法和基于DiffGen的保护隐私的数据可用性计算方法,对可用性进行定义,分别给出度量两种方法的信息损失的可用性函数,通过发布者发布一些加密过的辅助数据集,其中使用在上构造的密码系统来加密所述辅助数据集,依次验证所述辅助数据集是否正确的包含了发布者的数据,利用所述辅助数据集计算出最终发布数据集的可用性。实验表明了该方案的效率较高,其主要受数据提供者个数和数据规模影响。
有益效果:与现有技术相比,本发明的特点为:
(1)首先,提出了基于DiffPart(一种基于差分隐私模型发布set-valued数据的算法)的保护隐私的数据可用性计算方法。DiffPart使用一个上下文无关的分类树来对记录统计加入噪声,并且记录不会被泛化。本发明所提的方法通过加密记录的原始统计频度实现对于发布数据的可用性计算。该方法可以保护原始数据不被各个计算实体(使用者或提供者)窃取,因为它们不能获知某个特定记录在原始数据中是否出现以及出现多少次。此外,因为加密是由发布者实现的,本发明也提供了一个增量式验证其正确性的协议。理论上的分析表明了本发明所提出的方法的安全性及正确性。
(2)将上述方法扩展到DiffGen(一种基于差分隐私发布关系型数据的方法)。与DiffPart不同,DiffGen在对记录的频度加入噪声前要先泛化记录的属性值。信息损失是由于泛化以及加噪声两个方面。这两个方面的信息损失由不同的可用性函数度量。本发明对两者都做了考虑。分析表明,对于泛化操作的可用性可以仅利用发布数据来计算。而噪声部分的可用性定义和DiffPart的很类似,因此本发明稍稍调整了用于DiffPart可用性计算的方法来完成DiffGen噪声部分的可用性计算。
(3)通过一系列实际数据集上的实验评估了所提出的方法的效率,结果表明该方法足够高效,因为数据发布及可用性计算都是离线的。
附图说明
图1是DiffPart和DiffGen概览;
图2是不公开To的解决方案流程图;
图3是增量验证协议示意图;
图4是时间开销对比图;
图5是时间开销对比图(n=48)。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
1.基础知识
1.1差分隐私保护数据发布
差分隐私模型旨在使得至多有一条不同记录的两个查询的结果无法区分进而保护敏感信息。如下给出差分隐私定义:
定义1.方法M:R(D)→R(T)符合ε-差分隐私当且仅当对于任意的且每一对D,只在一个记录上不同
Pr[M(D)∈R(T)]≤eε·Pr[M(D')∈R(T)]
其中,Pr[M(D)∈R(T)](R(T)表示方法M的值域)表示方法M作用于D的结果属于R(T)的概率。
差分隐私定义是针对一个方法而不是数据集的。
差分隐私系统有两个很自然的设定——交互式和非交互式。交互式指系统在线接受查询并回答以经过隐私保护的结果。出于对隐私的保护,该方法限制查询次数。非交互式系统一次性的将所有的数据进行处理后发布出去,后续用户拥有完整的发布数据。非交互式系统为研究者做数据分析提供了更大的灵活性。有鉴于此,大多数差分隐私系统如DiffPart和DiffGen都是非交互式的。
本发明将数据分为两类:集合型数据和关系型数据,表1分别给出了二者的例子。DiffPart和DiffGen是分别针对二者的差分隐私数据发布方法。它们都包含两个主要步骤:随机划分和噪声计数。在随机划分中,它们递归地将所有的记录划分为若干等价类,然后对每个等价类中的记录数计数。DiffPart中的随机划分是基于一棵上下文无关的分类树,其可以避免对于全集I的2|I|-1个非空子集逐个计数。而DiffGen则完全根据原始数据来决定如何划分。二者的差别是DiffPart发布的记录是没有泛化的,而DiffGen则要先泛化所有的记录属性然后再发布泛化之后的结果。噪声计数中,二者均基于Laplace机制向实际统计频度加入噪声。无论DiffPart还是DiffGen,参数ε都被分成两部分,一部分应用于随机划分另一半用于噪声计数。
(a)集合型数据              (b)关系型数据
表1例子
1.2可用性定义
DiffPart和DiffGen均以牺牲一定的数据质量来保护数据安全性。下面将给出度量两种方法的信息损失的可用性函数。
(a)DiffPart的可能结果
项目集合 频度 加噪频度
{I1,I3} 2 3
{I1,I2,I3,I4} 1 1
{I1,I3,I4} 1 0
{I2,I4} 1 3
(b)DiffGen的可能结果
年龄 性别 疾病 频度 加噪频度
[20-30] 任意 流感 2 3
[60-80] 癌症 2 2
表2.DiffPart和DiffGen的可能结果
1.2.1DiffPart发布的集合型数据的可用性
以I表示集合型数据所有项目的全集,如前所述,DiffPart不泛化任何项。因此,发布数据为{<ISi,fi’>:ISi∈2I},其中ISi和fi’表示一个项目集和它的加噪声后的频度。鉴于发布数据的项目全集与原始数据的相同,DiffPart中的信息丢失主要是由项目集频度加噪声引起的。
集合型数据的可用性由计数查询的平均相对误差来度量。对于一个特定的项目集ISi,数据集D上的一个计数查询定义为t为数据集中的记录。对于数据集D(为D加噪声后的数据集)的计数查询的相对误差定义为
U ( Q ) = | Q ( D ~ ) - Q ( D ) | max { Q ( D ) , s }
其中,s为了避免Q(D)过小可取为3。
本发明稍微修改了该定义来度量发布数据Tr由于向频度加噪声导致的信息损失:
U ( T r ) = 1 | T r | &Sigma; i = 1 n ( f i &prime; + 1 - f i ) 2 ( f i &prime; + 1 ) 2 - - - ( 2 )
其中,Tr是最终的发布数据集(n=|Tr|),fi,fi'是第i条记录的原始计数和加噪声后的计数值,fi'+1是为了避免分母为0因为噪声是可能为负的。注意,小的函数值意味着高的数据可用性。
1.2.2DiffGen发布的关系型数据的可用性
不同于DiffPart,DiffGen必须首先将原始数据中的属性泛化。这使得可用性损失既有频度加噪声引起的,又有属性泛化引起的。两个部分的损失需要用不同的可用性函数定义。
对于属性泛化,本发明直接使用Xu et al.提出的可用性定义。令T为原始关系型数据集,属性(A1,A2,…,Ap),Ak(1≤k≤p)可能为数值型或者类别型的属性。
数值型属性对于记录t的一个数值型属性Ak,如果其具体值t.Ak泛化为区间[yk,zk],其信息损失定义为
UG ( t . A k ) = z k - y k | A k |
其中 | A k | = max t &Element; T { t . A k } - min t &Element; T { t . A k } ;
类别型属性类别型属性的泛化基于一棵固定的树。原始数据集中属性的值来自于该树的叶节点。对于t.Ak而言,如果其原始值被泛化到一个祖先节点u,信息损失定义为
UG ( t . A k ) = size ( u ) | A k |
其中,|Ak|为Ak分类树的叶节点个数,size(u)为以u为根的子树的叶节点个数。
发布数据集Tr中任意一条记录t的信息损失定义为
UG ( t ) = &Sigma; k = 1 p &omega; k &CenterDot; UG ( t . A k )
其中,ωk是属性Ak的权重。整个发布数据集Tr的信息损失定义为
UG ( T r ) = 1 | T r | &Sigma; t &Element; T r UG ( t ) - - - ( 3 )
另一个部分的信息损失是由频度干扰引起的。令fi,fi'表示一条泛化记录ri∈Tr的实际频度和干扰后的频度。实际频度可从原始数据集T中取得,度量这部分信息损失的可用性函数定义同式(2)。
1.3基于子群确定问题的密码系统
在计算发布数据的可用性时,需要发布一些辅助数据集,这些辅助数据集都以加密形式发布以保护隐私。本发明使用一种在上构造的密码系统来加密这些中间数据集。该密码系统基于子群确定问题,其指出确定一个群的某个元素是否在其某个特定的子群上是困难的。下面给出该密码系统的简介。
密钥生成:给定安全参数τ,生成三个大素数p,q,n(p,q均为τ位)满足n=2pq+1。在的二次剩余群上随机选择两个生成元g,u,令h=up。公钥为(n,g,h),私钥为q。
加密:记加密信息为m(0<m<M,M相对较小),m的密文为E(m,r)=gmhr,r为上的一个随机数。有时候,简记E(m,r)为E(m)而忽略r。
解密:先计算E(m)q=(gmhr)q=(gq)m,然后在ZM上穷举解 log g ^ E ( m ) q ( g ^ = g q ) ;
同态加法:对于两个明文m1,m2,易见
E ( m 1 + m 2 ) = g m 1 + m 2 h r 1 + r 2 = E ( m 1 ) E ( m 2 )
在本发明所提出来的计算由DiffPart或者DiffGen发布数据的可用性的方法中,发布者将提供几个利用上述密码系统加密的辅助数据集。
1.4攻击模型
系统中共有一个发布者和m个数据提供者。本部分将给出对于这些参与者的安全假设。
发布者:本发明假设数据发布者不会泄露任何数据提供者的原始数据给任何第三方包括其它提供者。但是,发布者可能发布不正确的数据以夸大数据可用性。
提供者:本发明假设提供者是半诚实的,这意味着他们期望获得其他提供者的数据但同时他们又会诚实地按照本发明提出的可用性计算流程执行。此外,提供者与发布者以及提供者之间不会合谋。
2.差分隐私模型发布的set-valued数据的可用性计算
2.1概览
本部分主要研究如何让任意一个数据提供者Pj(1≤j≤m)计算由DiffPart发布的集合型数据集Tr的可用性。记其原始数据集为To,To包含了从提供者那里搜集到的所有数据。
一个显而易见的计算式(2)中的U(Tr)的方法是让发布者把To直接公布出来,从而提供者能够取得所有计算中要用到的数据。显然,该方法违背隐私保护的初衷。本发明提出了一种不公开To的解决方案,其概览见图2。
鉴于原始数据集To是机密的,在本发明所提方案中,发布者将发布一个辅助数据集ETo,这是一个加密了的To。如果Tr由一组记录组成,{(Ri,fi'):1≤i≤|Tr|},那么然后,数据提供者可以利用ETo而不是To和Tr来计算U(Tr)。为使计算正确,下面两个条件必须成立。
1.加密的原始数据集ETo必须和原始数据集To一致;
2.可用性U(Tr)应能够正确地且不泄露隐私地从ETo和Tr中计算出。
接下来的两小节将详细描述如何使上述前提成立并且不引起任何隐私问题。
2.2对ETo的增量验证模型
本部分将阐述如何验证ETo与To间的一致性,称为增量验证协议。完整的过程如图3所示,其中 是随同Tr一起发布的中间数据集,Vj指Pj验证是否正确包含了他的数据。
在增量验证协议执行前,发布者搜集所有提供者积累的数据,执行差分隐私保护方法如DiffPart,最后发布Tr也由发布者计算,其与Tr形式相同但是仅包含P1~Pj的数据,相应的加密数据集也由发布者计算后发布。记中第i条记录的平度为fi,j,随机数r′i,j,r″i,j分别用于加密中的E(fi,j)和ci,j等于fi,j中属于Pj的部分。
对每个提供者而言,验证过程如下:
1.首先Pj计算下面的密文
E ( &Delta; f i , j , r i , j ) = E ( f i , j ) E ( f i , j - 1 )
E ( &Delta; f i , j 2 , rs i , j ) = E ( f i , j - 1 2 + 2 c i , j f i , j - 1 + c i , j 2 ) E ( f i , j 2 ) = E ( f i , j - 1 2 ) E ( f i , j - 1 ) 2 c i , j E ( f i , j 2 ) &CenterDot; g c i , j 2
其中,ri,j=r′i,j-r′i,j-1,rsi,j=r″i,j-1+2ci,jr′i,j-1-r″i,j
2.然后让发布者给出ri,j,rsi,j使得Pj能够解密E(Δfi,j)并确定对于任意i(1≤i≤|Tj|)是否Δfi,j=ci,j全部正确,否则不正确。
3.如果正确的包含了Pj的数据,他将附上一个签名以告知后续数据提供者是正确的。
因不存在P1对于正确性验证稍有不同,发布者直接将r′i,1,r″i,1给P1然后P1验证是否和他自己的数据相吻合。从图2可以看出ETo即是验证过的提供者的签名可以用其私钥对信息摘要算法,如MD5,SHA-1等的结果加密得到。
定理1上述增量验证协议能够确保正确地包含了P1~Pj的数据。
证明:首先,仅包含P1的数据,其正确性很容易被P1验证。后续的提供者,Pj可以结合正确的来验证的正确性并进一步为Pj+1提供正确的因此,增量验证协议能够保证验证过的特别是ETo正确地包含了对应的那些提供者的数据。
隐私分析在增量验证协议中,提供者Pj从发布者获得ri,j,rsi,j而能够验证E(fi,j),的正确性。但这些随机数无法使得Pj计算出任何其他的有助于其解密其他提供者数据的信息。
2.3基于ETo及Tr计算U(Tr)
上个小节描述了增量验证协议并证明了其能够验证To和ETo的一致性。本小节将解释如何在不泄露隐私的情况下利用ETo和Tr计算出U(Tr)。记计算U(Tr)的数据提供者为P,过程如下:
1.提供者P按下式计算a和ai(1≤i≤n):
a = &Pi; i = 1 n ( f i &prime; + 1 )
a i = a f i &prime; + 1
2.P按下述等式计算 E ( &Sigma; i = 1 n a i f i ) E ( &Sigma; i = 1 n a i 2 f i 2 )
E ( &Sigma; i = 1 n a i f i ) = &Pi; i = 1 n E ( f i ) a i
E ( &Sigma; i = 1 n a i 2 f i 2 ) = &Pi; i = 1 n E ( f i 2 ) a i 2
3.P进一步计算下面的密文并发送给发布者
E ( m &prime; &Sigma; i = 1 n a i f i + m &prime; &prime; ) = ( E ( &Sigma; i = 1 n a i f i ) ) m &prime; E ( m &prime; &prime; )
E ( m s &prime; &Sigma; i = 1 n a i 2 f i 2 + m s &prime; &prime; ) = ( E ( &Sigma; i = 1 n a i 2 f i 2 ) ) m s &prime; E ( m s &prime; &prime; )
其中,m'm″m'sm″s由P随机选择并保密。发布者接受到这两个密文后部分解密它们得到随后发布者将这两个部分解密的结果以及gq和真实的返回给P。
4.当收到pt1pt2gqs1s2后,P验证是否成立以确定发布者是否给出了正确的值。
5.若上一步的验证正确,P计算U(Tr)如下:
U ( T r ) = 1 n &Sigma; i = 1 n ( f i &prime; + 1 - f i ) 2 ( f i &prime; + 1 ) 2 = 1 - 2 n &Sigma; i = 1 n f i f i &prime; + 1 + 1 n &Sigma; i = 1 n f i 2 ( f i &prime; + 1 ) 2 = 1 - 2 s 1 na + s 2 n a 2
在前两步P计算了后两步P在发布者的帮助下解密了二者并利用它们计算了U(Tr)。因为整个过程中的加密都是由发布者用其公钥执行的,直接由发布者解密并返回给发布者留下了伪造不正确的结果并且使其能够通过验证的漏洞。有同样的问题。上述步骤中引入的随机变量m'm″m'sm″s可以解决此问题,下述引理表明了这一点。
引理1发布者必须返回正确的以及正确的gqs1s2
证明:发布者不能有效地计算出m'm″,如果其返回了伪造的s1和pt1,P验证将失败,s2pt2同理。
下面的定理说明上述可用性计算过程的有效性。
定理2若ETo和To是一致的,上述可用性计算过程可以正确的计算出U(Tr)。
证明:由增量验证协议能够确定ETo确实是由To产生的,的计算是正确的。根据引理1,能保证s1s2是正确的。上述最后一步的转换也容易看出来是正确的。所以上述过程中计算出的U(Tr)是正确的。
隐私分析在上述可用性计算的过程中,P从发布者接受pt1pt2gqs1s2然后计算U(Tr)。因解离散对数是困难的,P不能从接受到的结果里面有效的计算出q或者其他有用的信息以攻击此密码系统。所以上述过程不会泄露数据隐私。
2.4实用考虑
实践中,a,ai可能很大以至于会被密码系统中的群的大小截断。这样,发布者返回的是(N是群的大小),最后计算出的可用性就不正确了。为解决此问题,假定a是尽可能多的fi'+1的最小公倍数,ai定义如下
其他步骤不变。特别的,
U ( T r ) = 1 - 2 na &Sigma; i = 1 n af i f i &prime; + 1 + 1 na 2 &Sigma; i = 1 n a 2 f i 2 ( f i &prime; + 1 ) 2 &ap; 1 - 2 s 1 na + s 2 na 2
其中 在新的定义下,a比密码系统中群的规模小从而避免了截断的问题。
为方便于加解密计算,U(Tr)的计算是近似的,因为上述新定义中的下取整操作。实际上,若a能够整除所有的fi'+1,则计算出的U(Tr)就是精确的。否则计算U(Tr)的过程会丢失一定的精度。为减少精度的损失,要求a能整除尽可能多的fi'+1。真实情况下频度通常都不会太大,令a为全部fi'+1的最小公倍数总是可能的。
3.差分隐私模型发布的关系型数据的可用性计算
为发布关系型数据并且不泄露隐私,差分隐私保护机制通常先执行泛化然后再发布泛化后的数据及其加噪声后的频度。根据前面的定义,发布关系型数据的信息损失来自于两个方面——泛化和干扰。由泛化引起的信息损失由计算UG(Tr)得到,由频度干扰引起的信息损失由计算U(Tr)评估,U(Tr)的定义和集合型数据的相同。本节将描述如何计算这两个部分的可用性。
3.1计算U(Tr)
仍然记最终发布的数据集为Tr,记泛化后的数据集为Tg其包含泛化后的各个准标示符以及相应的真实的频度。发布者生成 和Tg有完全相同的形式但只包含P1~Pj的数据。数据集和Tg与集合型数据的To十分类似。关系型数据库的可用性计算过程如下:
1.发布者搜集所有提供者的数据,执行DiffGen并发布Tr
2.发布Tr的同时,发布者还提供ETg 数据集,它们分别是Tg的加密版本。
3.提供者依次验证是否正确包含了他们的数据。
4.利用ETg,提供者可以计算U(Tr)。
如同集合型数据,有下述定理表明上述过程的正确性。
定理3上述过程可以正确的计算U(Tr)。
证明与定理2的证明相同,隐私分析也是一样的。
3.2计算UG(Tr)
从UG(Tr)的定义中可以看出它的计算只和Tr相关,因而计算过程比较容易理解和实现。
UG ( t . A k ) = z k - y k | A k | , if A k is numerical size ( t . A k ) | A k | , if A k is categorical
UG ( t ) = &Sigma; k = 1 p &omega; k &CenterDot; UG ( t . A k )
UG ( T r ) = 1 | T r | &Sigma; t &Element; T r UG ( t )
其中,[yk,zk]是t.Ak泛化后的值,size(t.Ak)是能泛化为t.Ak的不同值的个数。Tr中每条记录的可用性是其各个属性的可用性的加权和,UG(Tr)是Tr所有记录的可用性的均值。尽管[yk,zk]由发布者产生,但他不太可能主动捏造[yk,zk]因为更小的区间很容易被提供者发现而更宽的区间则降低了可用性。类别型的属性是基于一棵固定的分类树来泛化的故而其可用性计算与原始数据集无关。
4.实验
本部分将详细描述本发明的实验,该实验以效率为主要关注点。实验在几台Intel Core i7PC上实施,操作系统为Ubuntu12.04。用C语言实现解决方案,密码系统的实现基于GNU MP开源高精度库。MSNBC和Adult分别作为集合型和关系型的数据集。
本发明提出的解决方案旨在提供一种保护隐私的计算由差分隐私保护方法发布的数据集的可用性。整个计算时间可分为三个部分:tpub—从发布者开始搜集提供者的数据开始到他发布由差分隐私保护方法处理过的数据集Tr以及辅助数据集ETo 或者ETg 为止的这段时间;tv—代表所有的提供者验证的总时间;tc—表示利用ETo或ETg计算Tr的可用性的时间。
本发明针对不同大小的数据集不同数量的数据提供者做了一系列的实验。为提供较强的安全性,密码系统的安全参数τ=1024。
4.1集合型数据
MSNBC数据集有989818条记录,每条记录包含多个来自于I(|I|=17)的项目。鉴于|I|较小,直接生成了其所有可能的子集。均匀的将所有的数据分布到m(3≤m≤15)个数据提供者上,每个人平均65000条记录。因为这里很大,计算U(Tr)时按3.4节中的方案进行。
本发明所提出的方案的执行时间主要受子集数量和数据提供者个数影响,结果如图4。实验中,n随m变小而变小。时间复杂度为O(nm),n为子集个数。
由图中易见,执行时间与nm呈线性关系。原因在于主要的计算在于每个提供者计算每个子集的频度的密文。
4.2关系型数据
Adult数据集由一系列个人信息构成,这些信息共15个属性,其中6个为数值属性其余为类别属性。将训练集和测试集合并并去掉不完整的记录共得到45222条有效记录。将所有这些记录平均分布到m(3≤m≤15)个数据提供者上。所需要的计算或验证都是O(nm),tc是n的线性函数。在本部分实验中,泛化后的等价类数固定为n=48。不同m下的时间开销如图5。因n固定,tpub和tv均和m呈线性关系,tc则基本可看成一个常数。
本发明主要考虑了如何计算由非交互差分隐私系统发布的数据集的可用性的问题。针对集合型数据和关系型数据分别提出了相似的计算方法。本发明所提出的方法要求发布者提供一系列加密过的辅助数据集。数据提供者随后依次验证这些加密的数据集是否正确的包含了他们的数据。最后利用这些辅助数据集可以计算出最终发布数据集的可用性。实验表明了该方案的效率较高,其主要受数据提供者个数和数据规模影响。

Claims (4)

1.一种基于差分隐私发布的数据的可用性计算方法,其特征在于:针对集合型数据和关系型数据分别提出了基于DiffPart的保护隐私的数据可用性计算方法和基于DiffGen的保护隐私的数据可用性计算方法,对可用性进行定义,分别给出度量两种方法的信息损失的可用性函数,通过发布者发布一些加密过的辅助数据集,其中使用在上构造的密码系统来加密所述辅助数据集,依次验证所述辅助数据集是否正确的包含了发布者的数据,利用所述辅助数据集计算出最终发布数据集的可用性。
2.如权利要求1所述的基于差分隐私发布的数据的可用性计算方法,其特征在于:
1)DiffPart发布的集合型数据的可用性定义
以I表示集合型数据所有项目的全集,发布数据为{<ISi,fi’>:ISi∈2I},其中ISi和fi’表示一个项目集和它的加噪声后的频度;集合型数据的可用性由计数查询的平均相对误差来度量,对于一个特定的项目集ISi,数据集D上的一个计数查询定义为对于数据集D的计数查询的相对误差定义为
U ( Q ) = | Q ( D ~ ) - Q ( D ) | max { Q ( D ) , s }
其中,s是一个为了避免比较小的Q(D)的界;
度量发布数据Tr由于向频度加噪声导致的信息损失:
U ( T r ) = 1 | T r | &Sigma; i = 1 n ( f i &prime; + 1 - f i ) 2 ( f i &prime; + 1 ) 2 - - - ( 2 )
其中,Tr是最终的发布数据集,fi,fi'是第i条记录的原始计数和加噪声后的计数值,fi'+1是为了避免分母为0因为噪声是可能为负的;
2)DiffGen发布的关系型数据的可用性
令T为原始关系型数据集,属性(A1,A2,…,Ap),Ak(1≤k≤p)可能为数值型或者类别型的属性;
数值型属性对于记录t的一个数值型属性Ak,如果其具体值t.Ak泛化为区间[yk,zk],其信息损失定义为
UG ( t . A k ) = z k - y k | A k |
其中 | A k | = max t &Element; T { t . A k } - min t &Element; T { t . A k } ;
类别型属性类别型属性的泛化基于一棵固定的树;原始数据集中属性的值来自于该树的叶节点;对于t.Ak而言,如果其原始值被泛化到一个祖先节点u,信息损失定义为
UG ( t . A k ) = size ( u ) | A k |
其中,|Ak|为Ak分类树的叶节点个数,size(u)为以u为根的子树的叶节点个数;
发布数据集Tr中任意一条记录t的信息损失定义为
UG ( t ) = &Sigma; k = 1 p &omega; k &CenterDot; UG ( t . A k )
其中,ωk是属性Ak的权重;整个发布数据集Tr的信息损失定义为
UG ( T r ) = 1 | T r | &Sigma; t &Element; T r UG ( t ) - - - ( 3 )
令fi,fi'表示一条泛化记录ri∈Tr的实际频度和干扰后的频度;实际频度可从原始数据集T中取得,度量这部分信息损失的可用性函数定义同式(2)。
3.如权利要求2所述的基于差分隐私发布的数据的可用性计算方法,其特征在于:
使用一种在上构造的密码系统来加密这些中间数据集,该密码系统基于子群确定问题,其指出确定一个群的某个元素是否在其某个特定的子群上是困难的;
密钥生成:给定安全参数τ,生成三个大素数p,q,n满足n=2pq+1;在的二次剩余群上随机选择两个生成元g,u,令h=up;公钥为(n,g,h),私钥为q;
加密:记加密信息为m(0<m<M,M=216),m的密文为E(m,r)=gmhr,r为上的一个随机数;
解密:先计算E(m)q=(gmhr)q=(gq)m,然后在ZM上穷举解 log g ^ E ( m ) q ( g ^ = g q ) ;
同态加法:对于两个明文m1,m2,易见
E ( m 1 + m 2 ) = g m 1 + m 2 h r 1 + r 2 = E ( m 1 ) E ( m 2 )
计算由DiffPart或者DiffGen发布数据的可用性的方法中,发布者将提供几个利用上述密码系统加密的辅助数据集。
4.如权利要求3所述的基于差分隐私发布的数据的可用性计算方法,其特征在于:
1)差分隐私模型发布的set-valued数据的可用性计算
下面介绍让任意一个数据提供者Pj(1≤j≤m)计算由DiffPart发布的集合型数据集Tr的可用性,记其原始数据集为To,To包含了从提供者那里搜集到的所有数据;
鉴于原始数据集To是机密的,发布者将发布一个辅助数据集ETo,这是一个加密了的To,如果Tr由一组记录组成,{(Ri,fi'):1≤i≤|Tr|},那么ETo={(Ri,E(fi),E(fi 2)):1≤i≤|To|};然后,数据提供者可以利用ETo而不是To和Tr来计算U(Tr);为使计算正确,下面两个条件必须成立;
(1)加密的原始数据集ETo必须和原始数据集To一致;
(2)可用性U(Tr)应能够正确地且不泄露隐私地从ETo和Tr中计算出;
对ETo的增量验证模型,本部分将阐述如何验证ETo与To间的一致性,称为增量验证协议;其中 是随同Tr一起发布的中间数据集,Vj指Pj验证是否正确包含了他的数据;
在增量验证协议执行前,发布者搜集所有提供者积累的数据,执行差分隐私保护方法,最后发布Tr也由发布者计算,其与Tr形式相同但是仅包含P1~Pj的数据,相应的加密数据集也由发布者计算后发布;记中第i条记录的平度为fi,j,随机数r′i,j,r″i,j分别用于加密中的E(fi,j)和ci,j等于fi,j中属于Pj的部分;
对每个提供者而言,验证过程如下:
(1)首先Pj计算下面的密文
E ( &Delta; f i , j , r i , j ) = E ( f i , j ) E ( f i , j - 1 )
E ( &Delta; f i , j 2 , rs i , j ) = E ( f i , j - 1 2 + 2 c i , j f i , j - 1 + c i , j 2 ) E ( f i , j 2 ) = E ( f i , j - 1 2 ) E ( f i , j - 1 ) 2 c i , j E ( f i , j 2 ) &CenterDot; g c i , j 2
其中,ri,j=r′i,j-r′i,j-1,rsi,j=r″i,j-1+2ci,jr′i,j-1-r″i,j
(2)然后让发布者给出ri,j,rsi,j使得Pj能够解密E(Δfi,j)并确定对于任意i(1≤i≤|Tj|)是否Δfi,j=ci,j全部正确,否则不正确;
(3)如果正确的包含了Pj的数据,他将附上一个签名以告知后续数据提供者是正确的;
因不存在P1对于正确性验证稍有不同,发布者直接将r′i,1,r″i,1给P1然后P1验证是否和他自己的数据相吻合;
基于ETo及Tr计算U(Tr);本部分将解释如何在不泄露隐私的情况下利用ETo和Tr计算出U(Tr);记计算U(Tr)的数据提供者为P,过程如下:
(1)提供者P按下式计算a和ai(1≤i≤n):
a = &Pi; i = 1 n ( f i &prime; + 1 )
a i = a f i &prime; + 1
(2)P按下述等式计算
E ( &Sigma; i = 1 n a i f i ) = &Pi; i = 1 n E ( f i ) a i
E ( &Sigma; i = 1 n a i 2 f i 2 ) = &Pi; i = 1 n E ( f i 2 ) a i 2
(3)P进一步计算下面的密文并发送给发布者
E ( m &prime; &Sigma; i = 1 n a i f i + m &prime; &prime; ) = ( E ( &Sigma; i = 1 n a i f i ) ) m &prime; E ( m &prime; &prime; )
E ( m s &prime; &Sigma; i = 1 n a i 2 f i 2 + m s &prime; &prime; ) = ( E ( &Sigma; i = 1 n a i 2 f i 2 ) ) m s &prime; E ( m s &prime; &prime; )
其中,m'm″m'sm″s由P随机选择并保密;发布者接受到这两个密文后部分解密它们得到随后发布者将这两个部分解密的结果以及gq和真实的返回给P;
(4)当收到pt1pt2gqs1s2后,P验证是否成立以确定发布者是否给出了正确的值;
(5)若上一步的验证正确,P计算U(Tr)如下:
U ( T r ) = 1 n &Sigma; i = 1 n ( f i &prime; + 1 - f i ) 2 ( f i &prime; + 1 ) 2 = 1 - 2 n &Sigma; i = 1 n f i f i &prime; + 1 + 1 n &Sigma; i = 1 n f i 2 ( f i &prime; + 1 ) 2 = 1 - 2 s 1 na + s 2 n a 2
在前两步P计算了后两步P在发布者的帮助下解密了二者并利用它们计算了U(Tr);
2)差分隐私模型发布的关系型数据的可用性计算
发布关系型数据的信息损失来自于两个方面——泛化和干扰;由泛化引起的信息损失由计算UG(Tr)得到,由频度干扰引起的信息损失由计算U(Tr)评估,U(Tr)的定义和集合型数据的相同;
计算U(Tr)
仍然记最终发布的数据集为Tr,记泛化后的数据集为Tg其包含泛化后的各个准标示符以及相应的真实的频度;发布者生成 和Tg有完全相同的形式但只包含P1~Pj的数据;数据集和Tg与集合型数据的To十分类似;关系型数据库的可用性计算过程如下:
(1)发布者搜集所有提供者的数据,执行DiffGen并发布Tr
(2)发布Tr的同时,发布者还提供ETg 数据集,它们分别是Tg的加密版本;
(3)提供者依次验证是否正确包含了他们的数据;
(4)利用ETg,提供者可以计算U(Tr);
计算UG(Tr)
从UG(Tr)的定义中可以看出它的计算只和Tr相关;
UG ( t . A k ) = z k - y k | A k | , if A k is numerical size ( t . A k ) | A k | , if A k is categorical
UG ( t ) = &Sigma; k = 1 p &omega; k &CenterDot; UG ( t . A k )
UG ( T r ) = 1 | T r | &Sigma; t &Element; T r UG ( t )
其中,[yk,zk]是t.Ak泛化后的值,size(t.Ak)是能泛化为t.Ak的不同值的个数;Tr中每条记录的可用性是其各个属性的可用性的加权和,UG(Tr)是Tr所有记录的可用性的均值。
CN201410349202.7A 2014-07-21 2014-07-21 一种基于差分隐私发布的数据的可用性计算方法 Active CN104135362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410349202.7A CN104135362B (zh) 2014-07-21 2014-07-21 一种基于差分隐私发布的数据的可用性计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410349202.7A CN104135362B (zh) 2014-07-21 2014-07-21 一种基于差分隐私发布的数据的可用性计算方法

Publications (2)

Publication Number Publication Date
CN104135362A true CN104135362A (zh) 2014-11-05
CN104135362B CN104135362B (zh) 2017-06-16

Family

ID=51807897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410349202.7A Active CN104135362B (zh) 2014-07-21 2014-07-21 一种基于差分隐私发布的数据的可用性计算方法

Country Status (1)

Country Link
CN (1) CN104135362B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573560A (zh) * 2015-01-27 2015-04-29 上海交通大学 基于小波变换的差分隐私数据发布方法
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN105376243A (zh) * 2015-11-27 2016-03-02 中国人民解放军国防科学技术大学 基于分层随机图的在线社会网络差分隐私保护方法
CN105608388A (zh) * 2015-09-24 2016-05-25 武汉大学 一种基于相关性去除的差分隐私数据发布方法及系统
CN106529327A (zh) * 2016-10-08 2017-03-22 西安电子科技大学 混合云环境下面向加密数据库的数据存取系统及方法
CN106570412A (zh) * 2016-10-08 2017-04-19 徐州医科大学 一种增量发布流式生物数据的隐私保护算法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法
CN107247909A (zh) * 2017-06-09 2017-10-13 南京大学 一种在位置信息服务中保护多个位置的差分隐私方法
CN109284620A (zh) * 2017-07-19 2019-01-29 中国移动通信集团黑龙江有限公司 一种发布数据的生成方法、装置和服务器
CN109376549A (zh) * 2018-10-25 2019-02-22 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
CN109726758A (zh) * 2018-12-28 2019-05-07 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN110300159A (zh) * 2019-06-10 2019-10-01 华侨大学 一种基于边缘计算的传感云数据安全低成本存储方法
CN111178699A (zh) * 2019-12-15 2020-05-19 贵州电网有限责任公司 一种调度操作票智能校核系统构建方法
US10769306B2 (en) 2017-09-21 2020-09-08 International Business Machines Corporation Applying a differential privacy operation on a cluster of data
CN111727433A (zh) * 2018-02-01 2020-09-29 微软技术许可有限责任公司 基于客户机侧基于本地差分隐私的数据的用于软件优化的远程检验分析
CN113228022A (zh) * 2018-12-20 2021-08-06 日本电信电话株式会社 分析查询应答系统、分析查询执行装置、分析查询验证装置、分析查询应答方法以及程序
US11615099B2 (en) 2018-09-30 2023-03-28 Huawei Technologies Co., Ltd. Method and apparatus for collecting key-value pair data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279499B (zh) * 2013-05-09 2016-11-09 北京信息科技大学 个性化信息检索中用户隐私保护方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAN BONEH等: "Evaluating 2-DNF Formulas on Ciphertexts", 《THEORY OF CRYPTOGRAPHY CONFERENCE 2005》 *
DAVID MANDELL FREEMAN: "converting pairing-based cryptosystems from composite-order groups to prime-order groups", 《EUROCRYPT 2010》 *
JIAN XU等: "utility-based anonymization for privacy preservation with less information loss", 《ACM SIGKDD EXPLORATIONS NEWSLETTER》 *
RUI CHEN等: "publishing set-valued data via differential privacy", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *
张啸剑等: "面向数据发布和分析的差分隐私保护", 《计算机学报》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573560B (zh) * 2015-01-27 2018-06-19 上海交通大学 基于小波变换的差分隐私数据发布方法
CN104573560A (zh) * 2015-01-27 2015-04-29 上海交通大学 基于小波变换的差分隐私数据发布方法
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN105046160B (zh) * 2015-07-21 2018-08-03 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN105608388A (zh) * 2015-09-24 2016-05-25 武汉大学 一种基于相关性去除的差分隐私数据发布方法及系统
CN105608388B (zh) * 2015-09-24 2017-02-22 武汉大学 一种基于相关性去除的差分隐私数据发布方法及系统
CN105376243A (zh) * 2015-11-27 2016-03-02 中国人民解放军国防科学技术大学 基于分层随机图的在线社会网络差分隐私保护方法
CN105376243B (zh) * 2015-11-27 2018-08-21 中国人民解放军国防科学技术大学 基于分层随机图的在线社会网络差分隐私保护方法
CN106570412B (zh) * 2016-10-08 2018-10-30 徐州医科大学 一种增量发布流式生物数据的隐私保护方法
CN106570412A (zh) * 2016-10-08 2017-04-19 徐州医科大学 一种增量发布流式生物数据的隐私保护算法
CN106529327A (zh) * 2016-10-08 2017-03-22 西安电子科技大学 混合云环境下面向加密数据库的数据存取系统及方法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法
CN106991335B (zh) * 2017-02-20 2020-02-07 美达科林(南京)医药科技有限公司 一种基于差分隐私保护的数据发布方法
CN107247909A (zh) * 2017-06-09 2017-10-13 南京大学 一种在位置信息服务中保护多个位置的差分隐私方法
CN107247909B (zh) * 2017-06-09 2020-05-05 南京大学 一种在位置信息服务中保护多个位置的差分隐私方法
CN109284620A (zh) * 2017-07-19 2019-01-29 中国移动通信集团黑龙江有限公司 一种发布数据的生成方法、装置和服务器
US10769306B2 (en) 2017-09-21 2020-09-08 International Business Machines Corporation Applying a differential privacy operation on a cluster of data
CN111727433A (zh) * 2018-02-01 2020-09-29 微软技术许可有限责任公司 基于客户机侧基于本地差分隐私的数据的用于软件优化的远程检验分析
CN111727433B (zh) * 2018-02-01 2023-08-15 微软技术许可有限责任公司 基于客户机侧基于本地差分隐私的数据的用于软件优化的远程检验分析
US11615099B2 (en) 2018-09-30 2023-03-28 Huawei Technologies Co., Ltd. Method and apparatus for collecting key-value pair data
CN109376549A (zh) * 2018-10-25 2019-02-22 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
CN109376549B (zh) * 2018-10-25 2021-09-10 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
CN113228022A (zh) * 2018-12-20 2021-08-06 日本电信电话株式会社 分析查询应答系统、分析查询执行装置、分析查询验证装置、分析查询应答方法以及程序
CN113228022B (zh) * 2018-12-20 2024-01-26 日本电信电话株式会社 分析查询应答系统、分析查询应答方法以及记录介质
CN109726758A (zh) * 2018-12-28 2019-05-07 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN109726758B (zh) * 2018-12-28 2021-01-08 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN110300159A (zh) * 2019-06-10 2019-10-01 华侨大学 一种基于边缘计算的传感云数据安全低成本存储方法
CN110300159B (zh) * 2019-06-10 2021-08-31 华侨大学 一种基于边缘计算的传感云数据安全低成本存储方法
CN111178699A (zh) * 2019-12-15 2020-05-19 贵州电网有限责任公司 一种调度操作票智能校核系统构建方法

Also Published As

Publication number Publication date
CN104135362B (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN104135362A (zh) 一种基于差分隐私发布的数据的可用性计算方法
Jiang et al. Similar document detection with limited information disclosure
Shinde et al. Secure E-voting using homomorphic technology
CN110400162B (zh) 一种数据处理方法、装置、服务器及系统
Yang et al. Privacy-preserving k nearest neighbor query with authentication on road networks
Budurushi et al. Pretty understandable democracy-a secure and understandable internet voting scheme
CN104092686A (zh) 基于svm分类器的隐私保护和数据安全访问的方法
Arora et al. Hybrid algorithm designed for handling remote integrity check mechanism over dynamic cloud environment
CN112434026A (zh) 一种基于哈希链的安全知识产权质押融资方法
Oppermann et al. Secure cloud computing: Reference architecture for measuring instrument under legal control
Marcos del Blanco et al. Review of Cryptographic Schemes applied to Remote Electronic Voting systems: remaining challenges and the upcoming post-quantum paradigm
Rong-Bing et al. Electronic scoring scheme based on real paillier encryption algorithms
CN117155644A (zh) 链上链下相协作的医疗数据分级访问控制与共享方法
Li et al. Verifiable semantic-aware ranked keyword search in cloud-assisted edge computing
CN111783108B (zh) 数据查询和计算方法及系统、及存储介质
CN105703896A (zh) 一种检测has-160算法抵御差分故障攻击的方法
Miao et al. Fuzzy-based trustworthiness evaluation scheme for privilege management in vehicular ad hoc networks
Bowen et al. Philosophy of differential privacy
CN115174087A (zh) 用于用多方计算执行的零知识证明的装置和系统
CN116827670A (zh) 一种基于国密算法的智能医疗数据安全共享方法
Wu et al. Collusion resistant multi-matrix masking for privacy-preserving data collection
Souza An exact LMI condition for the strong delay‐independent stability analysis of neutral delay systems
CN112422294B (zh) 基于环签名的匿名投票方法及装置、电子设备、存储介质
Sahinoglu Quantitative risk assessment for dependent vulnerabilities
WO2021202289A1 (en) Deterministic sparse-tree based cryptographic proof of liabilities

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant