CN105608388B - 一种基于相关性去除的差分隐私数据发布方法及系统 - Google Patents

一种基于相关性去除的差分隐私数据发布方法及系统 Download PDF

Info

Publication number
CN105608388B
CN105608388B CN201510617903.9A CN201510617903A CN105608388B CN 105608388 B CN105608388 B CN 105608388B CN 201510617903 A CN201510617903 A CN 201510617903A CN 105608388 B CN105608388 B CN 105608388B
Authority
CN
China
Prior art keywords
data
data set
difference
item
service provider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510617903.9A
Other languages
English (en)
Other versions
CN105608388A (zh
Inventor
徐正全
王豪
王涛
贾姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510617903.9A priority Critical patent/CN105608388B/zh
Publication of CN105608388A publication Critical patent/CN105608388A/zh
Application granted granted Critical
Publication of CN105608388B publication Critical patent/CN105608388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于相关性去除的差分隐私数据发布方法及系统,各数据拥有者分别对自己的原始数据集进行分段并得到差值数据集,对差值数据集的前两项求和并加噪,然后同态加密后上传给云服务提供商,云服务提供商进行同态解密运算;各数据拥有者对差值数据集项进行变换得到变换系数,加入由相互独立且服从高斯分布的白噪声所组成的平稳噪声;数据拥有者进行逆小波变换得到加扰后的数据集,上传到云服务提供商;云服务提供商利用维纳滤波进行滤波,当数据使用者请求数据集时,云服务提供商对求精后的数据集进行反变换,发布给第三方数据使用者的数据项。本发明有效减少了数据计算量和交互量,提高了资源利用率和数据可用性。

Description

一种基于相关性去除的差分隐私数据发布方法及系统
技术领域
本发明涉及云计算环境下的数据隐私保护领域,更具体地,涉及一种基于相关性去除的同态差分隐私数据发布方法,用于解决数据发布过程中同类差分隐私保护方法计算量大和交互复杂的问题。
背景技术
随着云计算和移动互联技术与应用的快速发展,数据共享型应用渗透至各个领域,数据共享型应用在带来服务质量巨大提升的同时,随之而来的数据隐私安全问题已日趋严峻,不完全可信的云服务提供商在为用户带来高效数据服务的同时,也有觊觎用户的隐私数据从而造成用户隐私泄露的可能性,例如苹果和Facebook的用户隐私数据泄露事件,更突显了数据隐私保护问题的严重性。一方面,云服务提供商或大数据服务商需要尽可能地搜集用户的数据进行数据挖掘分析,挖掘出有价值的信息;另一方面用户并不希望不完全可信的云服务提供商利用这些数据获取自己的隐私信息。因此,如何利用用户数据进行挖掘分析的同时又不泄露用户的数据隐私,即实现数据安全性和可用性的平衡,是目前隐私保护领域亟待解决的难题。传统的密码技术可以较好的保证数据的安全性,但加密后的数据无法挖掘和分析出有价值的信息,第三方数据使用者在得到解密后的数据进行数据挖掘分析时,也容易泄露隐私数据。而且在大数据时代,攻击者还可以得到很多关于攻击对象的辅助信息,在数据发布过程中,利用辅助信息可以进行推断攻击得到用户隐私数据。
由于传统密码学方式在云环境下数据隐私保护的局限性,近期国内外涌现了很多关于隐私保护的研究成果,目前针对数据发布的隐私保护方式主要分为三类:基于数据失真、基于数据限制和基于数据加密的方式。基于数据失真的方式中最常用的是随机化加噪和k匿名算法,这两种方式简单易行,在一定程度上保护了用户的隐私数据。基于数据限制的方式中,以隐马尔可夫模型为代表,从已发布的数据中推断出未来发布概率较大的数据,对其限制发布。基于数据加密的方式主要有同态加密和隐私信息检索(PIR)两种方式,同态加密算法可以保证个人数据不被泄露的同时提供基于和的查询结果,PIR方法可以让用户检索一个不可信的服务器上的任意数据项而不暴露用户检索的数据项信息。这些方法确实可以在一定程度上保护数据隐私,但都是以牺牲数据可用性为代价的,而且对遭受的辅助信息相关性攻击无能为力。
针对上述问题,Dwork于2006年提出的差分隐私保护框架,是一种从数学上严格定义保护强度和数据可用性的隐私保护手段。差分隐私主要有两个特点:(1)定义了攻击者的背景知识:即使攻击者知晓除了所要攻击的某条信息之外的所有信息,仍然能够提供有效的隐私保护;(2)具有严格的数学统计学模型,可以进行定量分析和证明。差分隐私的这两个特点使它成为云环境下数据隐私保护研究的热门领域。
Dwork提出的差分隐私保护框架的前提是所要添加噪声的原始数据之间应该是相互独立的,即数据之间没有相关性,如果数据之间有相关性,攻击者就可以利用相关性发起攻击。但是,实际当中的很多数据是有相关性的,比如交通流量数据、位置数据、传染疾病数据等,现有的很多研究并没有考虑数据相关性对差分隐私的保护程度所造成的影响。另外,原始差分隐私保护框架假设中间数据处理商是完全可信的,但在云环境下,云服务提供商可能会根据收集到的用户数据推断出用户的隐私信息,是不完全可信的,因此,需要新的差分隐私保护机制来解决云环境下服务提供商不完全可信的问题。
在差分隐私原始数据相关性去除方面,Fan等提出了自适应采样滤波数据发布系统FAST,该系统根据发布数据误差对原始数据进行自适应采样,利用卡尔曼滤波对加扰后的差分隐私噪声数据进行后置求精,在数据精确度上取得了较好的效果。Xiao等利用改进的小波变换机制Privelet,根据分解层数加入差分隐私所需的拉普拉斯噪声,用于改进计数范围查询中噪声较大的问题。当云服务提供商不完全可信时,Vibhor等人利用同态加密算法Pallier和DFT变换在严格的和查询条件下,实现了在云服务提供商不完全可信的情况下数据的差分隐私保护,同时有效地提高了数据可用性。在云计算环境下,由于存在云服务提供商不完全可信的问题和差分隐私保护机制本身对数据独立性的要求,现有的同类机制限制了差分隐私的推广应用,主要存在以下缺陷:
(1)计算量大。对于数据拥有者产生的明文来说,利用阈值同态加密算法本身计算量就很大,且加密后的密文数据量会出现巨大的增长,一般是明文数据量的上千倍,云服务提供商进行密文同态运算的结果数据量更大,这样巨大的数据量对于数据拥有者和云服务提供商来说,需要占用很大的计算开销,同时巨大的数据量往往也意味着很大的通信开销,这对于许多实际应用来说是难以承受的。
(2)频繁交互。对于每个新的数据挖掘查询来说,现有机制都需要数据拥有者和云服务提供商进行加解密的频繁交互,而且密文的数据量非常巨大,这就要求数据拥有者实时在线并且有空闲的计算资源和通信资源用于和云服务提供商进行加解密的交互,这不仅意味着处理开销的增加,还意味着处理延时的难以控制,难以满足许多现实应用的需求。
发明内容
本发明目的在于针对云环境下现有同类差分隐私相关性去除技术存在的计算量大和频繁交互的缺陷,提出一种基于相关性去除的高效差分隐私数据发布方式,以降低计算复杂度和交互量,从而提高效率。
本发明提供一种基于相关性去除的差分隐私数据发布方法,包括以下步骤,
步骤S1,各数据拥有者分别对自己的原始数据集X进行预处理,预处理包括以下子步骤,步骤S1-1,对原始数据集X进行分段,设得到N个分段,所得第i个分段数据集记为Xi={x1 i,x2 i,…,xn i},Xi∈X,i=1,2,…,N,其中n为分段数据集的长度;
步骤S1-2,计算各分段数据集第j项xj 1,xj 2,…,xj N的和,所得新的数据集记为S={s1,s2,…,sn},其中第j项
步骤S1-3,计算得到差值数据集,记为S'={s1,s2,Δs3,…,Δsn},其中Δs3取第三项s3和前两项s1,s2均值的差值,Δs4为s4和s3进行d阶差值得到,Δs5为s5s4进行d阶差值得到…Δsn为sn和前一项sn-1进行d阶差值得到;
步骤S2,各数据拥有者分别对差值数据集的前两项求和并加噪,然后利用同态加密方案加密后上传给云服务提供商,云服务提供商在得到所有数据拥有者的加密数据后进行同态解密运算得到各数据拥有者含有噪声的前两项的和;包括以下子步骤,
步骤S2-1,各数据拥有者分别处理,包括首先对差值数据集S'中的前两项数据s1、s2求和,得到m=s1+s2,在m中加入高斯白噪声g,得到m'=m+g,然后利用同态加密方案加密m';
设加密过程为Enc(·),则云服务提供商得到加密后的密文Cp=Enc(m+g),p∈{1,2,…,P},P为数据拥有者的个数;
步骤S2-2,云服务提供商在得到P个数据拥有者的加密密文后,进行相应同态解密运算,设解密过程为Dec(·),则解密后的明文d为P个数据拥有者含有噪声的前两项的明文和;
步骤S3,各数据拥有者对差值数据集项进行变换,得到变换系数,包括记差值数据集S'除s1,s2两项之外的n-2项Δs3,…,Δsn组成数据集S'n-2,对数据集S'n-2进行离散小波变换,设变换系数记为Fk={c0,c1,…,ck-1},其中k是变换系数个数;
步骤S4,各数据拥有者分别对变换系数Fk加入由相互独立且服从高斯分布的白噪声所组成的平稳噪声;
步骤S5,各数据拥有者对加噪后的变换系数F'k进行逆小波变换得到加扰后的数据集上传到云服务提供商;
步骤S6,云服务提供商利用维纳滤波对数据集进行滤波,得到求精后的数据集
步骤S7,当数据使用者请求数据集时,云服务提供商对求精后的数据集进行反变换,若数据集的差值数据项为Δs′j,则反变换后得到数据项是要发布给第三方数据使用者的数据项。
而且,步骤S2中,g的值为高斯分布N(0,λ),其中参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
而且,步骤S3中,各数据拥有者对差值数据集项进行变换的方式如下,
设小波变换的分解层次为h,除了基底系数c0以外,余下的系数分布到h-1层中,其中每层的系数个数是其父层能够容纳的最大系数集个数,其中基底系数分组系数为子节点原始数据和减去其父节点原始数据和的均值。
而且,步骤S4中,变换系数中加入的噪声nt=|v1|2-|v2|2,t=0,1,…,k-1,得到加噪的变换系数F'k={c0+n0-g/2,c1+n1-n0,…,ck+nk-1-nk-2},其中v1,v2的值为复数a+ib,此处i为虚数单位,a,b是相互独立且服从高斯分布的白噪声,记a,b的高斯分布为a,b~N(0,δ2),方差δ2=λ/2w,参数w=f(2f-2),f是小波变换父节点的扇出个数,参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
而且,步骤S5中,对加噪后的变换系数F'k进行逆小波变换按照下式实现,
其中,w是逆变换后的数据集元素,h是变换的层数,fy是当前变换系数的扇出个数。
本发明提供一种基于相关性去除的差分隐私数据发布系统,包括云服务提供商的部分和各数据拥有者的相应部分,
各数据拥有者的相应部分分别包括以下模块,
预处理模块,用于对自己的原始数据集X进行预处理,预处理实现如下,对原始数据集X进行分段,设得到N个分段,所得第i个分段数据集记为Xi={x1 i,x2 i,…,xn i},Xi∈X,i=1,2,…,N,其中n为分段数据集的长度;
计算各分段数据集第j项xj 1,xj 2,…,xj N的和,所得新的数据集记为S={s1,s2,…,sn},其中第j项
计算得到差值数据集,记为S'={s1,s2,Δs3,…,Δsn},其中Δs3取第三项s3和前两项s1,s2均值的差值,Δs4为s4和s3进行d阶差值得到,Δs5为s5s4进行d阶差值得到…Δsn为sn和前一项sn-1进行d阶差值得到;
同态加密模块,用于对差值数据集的前两项求和并加噪,然后利用同态加密方案加密后上传给云服务提供商,包括首先对差值数据集S'中的前两项数据s1、s2求和,得到m=s1+s2,在m中加入高斯白噪声g,得到m'=m+g,然后利用同态加密方案加密m';设加密过程为Enc(·),则云服务提供商得到加密后的密文Cp=Enc(m+g),p∈{1,2,…,P},P为数据拥有者的个数;
小波变换模块,用于对差值数据集项进行变换,得到变换系数,包括记差值数据集S'除s1,s2两项之外的n-2项Δs3,…,Δsn组成数据集S'n-2,对数据集S'n-2进行离散小波变换,设变换系数记为Fk={c0,c1,…,ck-1},其中k是变换系数个数;
加扰模块,用于对变换系数Fk加入由相互独立且服从高斯分布的白噪声所组成的平稳噪声;
逆小波变换模块,用于对加噪后的变换系数F'k进行逆小波变换得到加扰后的数据集上传到云服务提供商;
云服务提供商的部分包括以下模块,
同态解密模块,用于在得到所有数据拥有者的加密数据后进行同态解密运算得到各数据拥有者含有噪声的前两项的和,包括在得到P个数据拥有者的加密密文后,进行相应同态解密运算,设解密过程为Dec(·),则解密后的明文d为P个数据拥有者含有噪声的前两项的明文和;
滤波模块,用于云服务提供商利用维纳滤波对数据集进行滤波,得到求精后的数据集
反变换模块,用于当数据使用者请求数据集时,云服务提供商对求精后的数据集进行反变换,若数据集的差值数据项为Δs′j,则反变换后得到数据项是要发布给第三方数据使用者的数据项。
而且,同态加密模块中,g的值为高斯分布N(0,λ),其中参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
而且,小波变换模块中,各数据拥有者对差值数据集项进行变换的方式如下,
设小波变换的分解层次为h,除了基底系数c0以外,余下的系数分布到h-1层中,其中每层的系数个数是其父层能够容纳的最大系数集个数,其中基底系数分组系数为子节点原始数据和减去其父节点原始数据和的均值。
而且,加扰模块中,变换系数中加入的噪声nt=|v1|2-|v2|2,t=0,1,…,k-1,得到加噪的变换系数F'k={c0+n0-g/2,c1+n1-n0,…,ck+nk-1-nk-2},其中v1,v2的值为复数a+ib,此处i为虚数单位,a,b是相互独立且服从高斯分布的白噪声,记a,b的高斯分布为a,b~N(0,δ2),方差δ2=λ/2w,参数w=f(2f-2),f是小波变换父节点的扇出个数,参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
而且,逆小波变换模块中,对加噪后的变换系数F'k进行逆小波变换按照下式实现,
其中,w是逆变换后的数据集元素,h是变换的层数,fy是当前变换系数的扇出个数。
与现有技术相比,本发明的优势为:
(1)当云服务提供商不完全可信时,仍然能够保证用户隐私安全;
(2)只对前两项数据进行同态加解密运算,有效降低了计算复杂度,并且前两项之外的数据不需要用户和云服务提供商之间进行交互,减少了交互量;
(3)本发明利用离散小波变换进行数据压缩,同时构建平稳过程利用维纳滤波对噪声进行求精,显著提高了发布数据的精确度。
综上,本发明技术方案在满足差分隐私数据独立性和云服务提供商不完全可信要求的基础上,有效减少了数据计算量和交互量,提高了资源利用率和数据可用性。
附图说明
图1是本发明实施例提供的总体原理示意图。
图2是本发明实施例提供的数据差值处理流程图。
图3是本发明实施例同态加解密示意图。
图4是本发明实施例小波变换分解树结构图。
图5是本发明实施例方法流程图。
具体实施方式
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明的主要思想是:利用差值的思想,只对前两项数据进行同态加密处理,减少加密的原始数据量,剩余项进行差值处理构造平稳数据集,去除数据的相关性;差值数据集经离散小波变换后,对变换系数进行加噪,可以减少加入数据集中的噪声,不完全可信的云服务提供商在得到含有噪声的加密数据和差值数据集后,经反变换处理可以得到满足差分隐私的数据集,同时云服务提供商无法得到原始精确数据集。当第三方数据使用者请求数据时,云服务提供商可以利用维纳滤波对含有噪声的数据集进行求精处理,最后将求精后的数据集发布给第三方,提高发布给第三方数据集的数据精度。
实施例中,对数据进行操作的三方分别是数据拥有者DO、云服务提供商CSP和第三方数据使用者DU,其中云服务提供商CSP是不完全可信的。当数据拥有者DO要发布数据时,首先对数据集分段,每个数据分段的前两项数据进行求和作为基准数据,剩余项进行d阶差值处理得到平稳序列。基准数据加噪后利用同态加密算法Pallier加密,将密文上传给云服务提供商CSP,差值平稳序列先进行离散小波变换得到变换系数,在变换系数上加入噪声,再进行反变换,云服务提供商在收到含有噪声的密文和差值数据集后,进行同态解密运算和离散小波反变换可以得到满足差分隐私的数据集,同时可以保证不完全可信的云服务提供商CSP无法得到原始数据。当第三方数据使用者DU进行数据请求时,CSP对加噪的数据集进行维纳滤波,将求精后的数据发布给第三方数据使用者,提高发布给第三方数据使用者的数据精度。
图1是本发明实施例的差分隐私保护框架,参见图1和图5,实施例的流程具体包括以下步骤:
步骤S1:各数据拥有者DO对自身产生的数据集进行分段,计算分段数据集对应项的和,形成新的数据集。将新数据集的前两项保持不变,其余项和前一项进行d阶差值得到差值数据集,去除数据相关性,如图2所示,某数据拥有者DO对实时输入的原始数据集X进行处理,具体实现如下:
步骤S1-1,对实时输入的原始数据集X进行分段,设得到N个分段,所得第i个分段数据集记为Xi={x1 i,x2 i,…,xn i},Xi∈X,i=1,2,…,N,其中n为每个分段数据集的项数(即长度),第i个分段数据集中的第1项、第2项…第n项分别为x1 i,x2 i,…,xn i,可设n=2l,l是正整数,具体实施时,本领域技术人员可以根据数据集的敏感度自行预设l的值。
步骤S1-2,计算各分段数据集第j项xj 1,xj 2,…,xj N的和,所得新的数据集记为S={s1,s2,…,sn},其中第j项
步骤S1-3,数据集S的前两项保持不变,其余项和前一项进行d阶差值,直到得到平稳差值数据集,记为S'={s1,s2,Δs3,…,Δsn},具体实施时,S'的平稳性可以由单位根的方式进行检验。S'中的Δs3需要特殊处理,取第三项s3和前两项s1,s2均值的差值,Δs4为s4和前一项s3进行d阶差值得到,Δs5为s5和前一项s4进行d阶差值得到…Δsn为sn和前一项sn-1进行d阶差值得到。
步骤S2:各数据拥有者DO分别对差值数据集的前两项求和并加噪,然后利用Pallier同态加密方案加密后上传给云服务提供商CSP,云服务提供商在得到所有的数据拥有者的加密数据后进行同态解密运算可以得到所有数据拥有者含有噪声的前两项的和,如图3所示,具体实现如下:
步骤S2-1,各数据拥有者DO分别处理,设第p个数据拥有者DO首先对差值数据集S'中的前两项数据s1、s2求和,得到m=s1+s2,在m中加入高斯白噪声g,得到m'=m+g,g的值为高斯分布N(0,λ),其中参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度,然后利用同态加密方案Pallier加密m';
设加密过程为Enc(·),则云服务提供商得到加密后的密文Cp=Enc(m+g),p∈{1,2,…,P},P为数据拥有者的个数,P个数据拥有者DO可记为DO1、DO2…DOP。
步骤S2-2,云服务提供商在得到P个数据拥有者的加密密文后,进行相应同态解密运算,设解密过程为Dec(·),则解密后的明文d为P个数据拥有者含有噪声的前两项的明文和。
步骤S3:各数据拥有者DO利用改进的离散小波变换对差值数据集项进行变换,得到变换系数。
由于差值数据集里面高频成分较多,因此利用离散小波变换可以更好的保留高频分量,降低误差。本发明进一步提供了改进的离散小波变换方式。
实施例中,P个数据拥有者分别处理的具体实现方式如下:
步骤S3-1,记差值数据集S'除s1,s2两项之外的n-2项Δs3,…,Δsn组成数据集S'n-2,对数据集S'n-2进行离散小波变换。小波变换的分解层次为h,除了基底系数c0以外,余下的系数分布到h-1层中,其中每层的系数个数是其父层可以容纳的最大系数集个数。例如原始差值数据集为{Δs3,Δs4,Δs5,Δs6,Δs7,Δs8,Δs9,Δs10},当小波变换层次为3层时,变换后一共有11个系数,系数分组形式为{c0},{c1,c2},{c3,c4,c5,c6},{c7,c8,c9,c10},其中基底系数示例中分组系数为子节点原始数据和减去其父节点原始数据和的均值,例如离散小波变换的变换树结构示例如图4所示。
步骤S3-2,经过离散小波变换可以得到数据集S'n-2的离散小波变换系数,变换系数记为Fk={c0,c1,…,ck-1},其中k是变换系数个数。
步骤S4:各数据拥有者DO对变换系数加入由相互独立且服从高斯分布的白噪声所组成的平稳噪声:步骤S4在构建系数加入的噪声时,将拉普拉斯噪声进行分解,分解为平稳高斯白噪声模平方差值的形式,以便后面利用维纳滤波进行后置求精处理。
实施例中,P个数据拥有者分别对变换系数Fk添加拉普拉斯噪声Lap(λ/w)。拉普拉斯噪声构成的具体方式如下:
变换系数中加入噪声nt=|v1|2-|v2|2,t=0,1,…,k-1,得到加噪的变换系数F'k={c0+n0-g/2,c1+n1-n0,…,ck+nk-1-nk-2},其中v1,v2的值为复数a+ib,此处i为虚数单位,a,b是相互独立且服从高斯分布的白噪声,记a,b的高斯分布为a,b~N(0,δ2),方差δ2=λ/2w,参数w=f(2f-2),f是小波变换父节点的扇出个数,参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
步骤S5:各数据拥有者对加扰后的系数F'k进行逆小波变换得到加扰后的数据集,上传到云服务提供商:
实施例中,P个数据拥有者分别对加扰后的系数F'k进行逆小波变换:
w是逆变换后的数据集元素,h是变换的层数,fy是当前变换系数的扇出个数,由上式可以得到小波逆变换的加扰差值数据集上传到云服务提供商。
步骤S6:云服务提供商利用维纳滤波对数据集进行滤波,得到求精后的数据集
维纳滤波的前提要求原始数据和噪声数据同时满足平稳过程,对于现实中的很多时间相关序列来说,可以经过一次或多次差值转化为符合平稳过程的序列,因此步骤S4在原始序列中加入由平稳高斯白噪声构建的拉普拉斯噪声,就可以利用维纳滤波滤除噪声,提高发布数据的可用性。维纳滤波具体实现为现有技术,本发明不予赘述。
步骤S7:当第三方数据使用者请求数据集时,云服务提供商对求精后的数据集进行反变换,若数据集的差值数据项为Δs′j,则反变换后得到数据项即是要发布给第三方数据使用者的数据项。例如有Q个数据使用者,Q个数据使用者DU可记为DU1、DU2…DUQ。第q个数据使用者请求数据集时,云服务提供商向其发布数据项q∈{1,2,…,Q}。
云服务提供商在响应第三方的求和查询或者向第三方发布数据时,只要知道经过维纳滤波后的数据集就可以提供较为精确的查询或者发布结果。
具体实施时,以上流程可采用计算机软件技术实现自动运行,也可采用模块化方式提供相应系统。实施例提供一种基于相关性去除的差分隐私数据发布系统,包括云服务提供商的部分和各数据拥有者的相应部分,
各数据拥有者的相应部分分别包括以下模块,
预处理模块,用于对自己的原始数据集X进行预处理,预处理实现如下,
对原始数据集X进行分段,设得到N个分段,所得第i个分段数据集记为Xi={x1 i,x2 i,…,xn i},Xi∈X,i=1,2,…,N,其中n为分段数据集的长度;
计算各分段数据集第j项xj 1,xj 2,…,xj N的和,所得新的数据集记为S={s1,s2,…,sn},其中第j项
计算得到差值数据集,记为S'={s1,s2,Δs3,…,Δsn},其中Δs3取第三项s3和前两项s1,s2均值的差值,Δs4为s4和s3进行d阶差值得到,Δs5为s5s4进行d阶差值得到…Δsn为sn和前一项sn-1进行d阶差值得到;
同态加密模块,用于对差值数据集的前两项求和并加噪,然后利用同态加密方案加密后上传给云服务提供商,包括首先对差值数据集S'中的前两项数据s1、s2求和,得到m=s1+s2,在m中加入高斯白噪声g,得到m'=m+g,然后利用同态加密方案加密m';设加密过程为Enc(·),则云服务提供商得到加密后的密文Cp=Enc(m+g),p∈{1,2,…,P},P为数据拥有者的个数;
小波变换模块,用于对差值数据集项进行变换,得到变换系数,包括记差值数据集S'除s1,s2两项之外的n-2项Δs3,…,Δsn组成数据集S'n-2,对数据集S'n-2进行离散小波变换,设变换系数记为Fk={c0,c1,…,ck-1},其中k是变换系数个数;
加扰模块,用于对变换系数Fk加入由相互独立且服从高斯分布的白噪声所组成的平稳噪声;
逆小波变换模块,用于对加噪后的变换系数F'k进行逆小波变换得到加扰后的数据集上传到云服务提供商;
云服务提供商的部分包括以下模块,
同态解密模块,用于在得到所有数据拥有者的加密数据后进行同态解密运算得到各数据拥有者含有噪声的前两项的和,包括在得到P个数据拥有者的加密密文后,进行相应同态解密运算,设解密过程为Dec(·),则解密后的明文d为P个数据拥有者含有噪声的前两项的明文和;
滤波模块,用于云服务提供商利用维纳滤波对数据集进行滤波,得到求精后的数据集
反变换模块,用于当数据使用者请求数据集时,云服务提供商对求精后的数据集进行反变换,若数据集的差值数据项为Δs′j,则反变换后得到数据项是要发布给第三方数据使用者的数据项。
进一步地,同态加密模块中,g的值为高斯分布N(0,λ),其中参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
进一步地,小波变换模块中,各数据拥有者对差值数据集项进行变换的方式如下,
设小波变换的分解层次为h,除了基底系数c0以外,余下的系数分布到h-1层中,其中每层的系数个数是其父层能够容纳的最大系数集个数,其中基底系数分组系数为子节点原始数据和减去其父节点原始数据和的均值。
进一步地,加扰模块中,变换系数中加入的噪声nt=|v1|2-|v2|2,t=0,1,…,k-1,得到加噪的变换系数F'k={c0+n0-g/2,c1+n1-n0,…,ck+nk-1-nk-2},其中v1,v2的值为复数a+ib,此处i为虚数单位,a,b是相互独立且服从高斯分布的白噪声,记a,b的高斯分布为a,b~N(0,δ2),方差δ2=λ/2w,参数w=f(2f-2),f是小波变换父节点的扇出个数,参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
进一步地,逆小波变换模块中,对加噪后的变换系数F'k进行逆小波变换按照下式实现,
其中,w是逆变换后的数据集元素,h是变换的层数,fy是当前变换系数的扇出个数。
本发明提供了本领域技术人员能够实现的技术方案。以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。

Claims (10)

1.一种基于相关性去除的差分隐私数据发布方法,其特征在于:包括以下步骤,
步骤S1,各数据拥有者分别对自己的原始数据集X进行预处理,预处理包括以下子步骤,步骤S1-1,对原始数据集X进行分段,设得到N个分段,所得第i个分段数据集记为Xi∈X,i=1,2,…,N,其中n为分段数据集的长度;
步骤S1-2,计算各分段数据集第j项xj 1,xj 2,…,xj N的和,所得新的数据集记为S={s1,s2,…,sn},其中第j项i=1,2,…,N,j=1,2,…,n;
步骤S1-3,计算得到差值数据集,记为S'={s1,s2,Δs3,…,Δsn},其中Δs3取第三项s3和前两项s1,s2均值的差值,Δs4为s4和s3进行d阶差值得到,Δs5为s5s4进行d阶差值得到…Δsn为sn和前一项sn-1进行d阶差值得到;
步骤S2,各数据拥有者分别对差值数据集的前两项求和并加噪,然后利用同态加密方案加密后上传给云服务提供商,云服务提供商在得到所有数据拥有者的加密数据后进行同态解密运算得到各数据拥有者含有噪声的前两项的和;包括以下子步骤,
步骤S2-1,各数据拥有者分别处理,包括首先对差值数据集S'中的前两项数据s1、s2求和,得到m=s1+s2,在m中加入高斯白噪声g,得到m'=m+g,然后利用同态加密方案加密m';
设加密过程为Enc(·),则云服务提供商得到加密后的密文Cp=Enc(m+g),p∈{1,2,…,P},P为数据拥有者的个数;
步骤S2-2,云服务提供商在得到P个数据拥有者的加密密文后,进行相应同态解密运算,设解密过程为Dec(·),则解密后的明文D为P个数据拥有者含有噪声的前两项的明文和;
步骤S3,各数据拥有者对差值数据集项进行变换,得到变换系数,包括记差值数据集S'除s1,s2两项之外的n-2项Δs3,…,Δsn组成数据集S'n-2,对数据集S'n-2进行离散小波变换,设变换系数记为Fk,其中k是变换系数个数;
步骤S4,各数据拥有者分别对变换系数Fk加入由相互独立且服从高斯分布的白噪声所组成的平稳噪声;
步骤S5,各数据拥有者对加噪后的变换系数F'k进行逆小波变换得到加扰后的数据集上传到云服务提供商;
步骤S6,云服务提供商利用维纳滤波对数据集进行滤波,得到求精后的数据集
步骤S7,当数据使用者请求数据集时,云服务提供商对求精后的数据集进行反变换,若数据集的差值数据项为Δsj',则反变换后得到数据项 是要发布给第三方数据使用者的数据项。
2.根据权利要求1所述基于相关性去除的差分隐私数据发布方法,其特征在于:步骤S2中,g的值为高斯分布N(0,λ),其中参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
3.根据权利要求2所述基于相关性去除的差分隐私数据发布方法,其特征在于:步骤S3中,各数据拥有者对差值数据集项进行变换的方式如下,
设小波变换的分解层次为h,除了基底系数c0以外,余下的系数分布到h-1层中,其中每层的系数个数是其父层能够容纳的最大系数集个数,其中基底系数分组系数为子节点原始数据和减去其父节点原始数据和的均值。
4.根据权利要求3所述基于相关性去除的差分隐私数据发布方法,其特征在于:步骤S4中,变换系数中加入的噪声nt=|v1|2-|v2|2,t=0,1,…,k-1,得到加噪的变换系数F'k={c0+n0-g/2,c1+n1-n0,…,ck+nk-1-nk-2},其中v1,v2的值为复数a+ib,此处i为虚数单位,a,b是相互独立且服从高斯分布的白噪声,记a,b的高斯分布为a,b~N(0,δ2),方差δ2=λ/2w,参数w=f(2f-2),f是小波变换父节点的扇出个数,参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
5.根据权利要求4所述基于相关性去除的差分隐私数据发布方法,其特征在于:步骤S5中,对加噪后的变换系数F'k进行逆小波变换按照下式实现,
w = c h - 1 + Σ x = 0 h - 2 ( c x · Π y = x h - 2 1 f y )
其中,w是逆变换后的数据集元素,h是变换的层数,fy是当前变换系数的扇出个数。
6.一种基于相关性去除的差分隐私数据发布系统,其特征在于:包括云服务提供商的部分和各数据拥有者的相应部分,
各数据拥有者的相应部分分别包括以下模块,
预处理模块,用于对自己的原始数据集X进行预处理,预处理实现如下,
对原始数据集X进行分段,设得到N个分段,所得第i个分段数据集记为Xi={x1 i,x2 i,…,xn i},Xi∈X,i=1,2,…,N,其中n为分段数据集的长度;
计算各分段数据集第j项xj 1,xj 2,…,xj N的和,所得新的数据集记为S={s1,s2,…,sn},其中第j项i=1,2,…,N,j=1,2,…,n;
计算得到差值数据集,记为S'={s1,s2,Δs3,…,Δsn},其中Δs3取第三项s3和前两项s1,s2均值的差值,Δs4为s4和s3进行d阶差值得到,Δs5为s5s4进行d阶差值得到…Δsn为sn和前一项sn-1进行d阶差值得到;
同态加密模块,用于对差值数据集的前两项求和并加噪,然后利用同态加密方案加密后上传给云服务提供商,包括首先对差值数据集S'中的前两项数据s1、s2求和,得到m=s1+s2,在m中加入高斯白噪声g,得到m'=m+g,然后利用同态加密方案加密m';设加密过程为Enc(·),则云服务提供商得到加密后的密文Cp=Enc(m+g),p∈{1,2,…,P},P为数据拥有者的个数;
小波变换模块,用于对差值数据集项进行变换,得到变换系数,包括记差值数据集S'除s1,s2两项之外的n-2项Δs3,…,Δsn组成数据集S'n-2,对数据集S'n-2进行离散小波变换,设变换系数记为Fk,其中k是变换系数个数;
加扰模块,用于对变换系数Fk加入由相互独立且服从高斯分布的白噪声所组成的平稳噪声;
逆小波变换模块,用于对加噪后的变换系数F'k进行逆小波变换得到加扰后的数据集上传到云服务提供商;
云服务提供商的部分包括以下模块,
同态解密模块,用于在得到所有数据拥有者的加密数据后进行同态解密运算得到各数据拥有者含有噪声的前两项的和,包括在得到P个数据拥有者的加密密文后,进行相应同态解密运算,设解密过程为Dec(·),则解密后的明文D为P个数据拥有者含有噪声的前两项的明文和;
滤波模块,用于云服务提供商利用维纳滤波对数据集进行滤波,得到求精后的数据集
反变换模块,用于当数据使用者请求数据集时,云服务提供商对求精后的数据集进行反变换,若数据集的差值数据项为Δsj',则反变换后得到数据项 是要发布给第三方数据使用者的数据项。
7.根据权利要求6所述基于相关性去除的差分隐私数据发布系统,其特征在于:同态加密模块中,g的值为高斯分布N(0,λ),其中参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
8.根据权利要求7所述基于相关性去除的差分隐私数据发布系统,其特征在于:小波变换模块中,各数据拥有者对差值数据集项进行变换的方式如下,
设小波变换的分解层次为h,除了基底系数c0以外,余下的系数分布到h-1层中,其中每层的系数个数是其父层能够容纳的最大系数集个数,其中基底系数分组系数为子节点原始数据和减去其父节点原始数据和的均值。
9.根据权利要求8所述基于相关性去除的差分隐私数据发布系统,其特征在于:加扰模块中,变换系数中加入的噪声nt=|v1|2-|v2|2,t=0,1,…,k-1,得到加噪的变换系数F'k={c0+n0-g/2,c1+n1-n0,…,ck+nk-1-nk-2},其中v1,v2的值为复数a+ib,此处i为虚数单位,a,b是相互独立且服从高斯分布的白噪声,记a,b的高斯分布为a,b~N(0,δ2),方差δ2=λ/2w,参数w=f(2f-2),f是小波变换父节点的扇出个数,参数λ=2(1+log2n)/ε,n是分段数据集Xi的长度,ε是差分隐私保护强度。
10.根据权利要求9所述基于相关性去除的差分隐私数据发布系统,其特征在于:逆小波变换模块中,对加噪后的变换系数F'k进行逆小波变换按照下式实现,
w = c h - 1 + Σ x = 0 h - 2 ( c x · Π y = x h - 2 1 f y )
其中,w是逆变换后的数据集元素,h是变换的层数,fy是当前变换系数的扇出个数。
CN201510617903.9A 2015-09-24 2015-09-24 一种基于相关性去除的差分隐私数据发布方法及系统 Active CN105608388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510617903.9A CN105608388B (zh) 2015-09-24 2015-09-24 一种基于相关性去除的差分隐私数据发布方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510617903.9A CN105608388B (zh) 2015-09-24 2015-09-24 一种基于相关性去除的差分隐私数据发布方法及系统

Publications (2)

Publication Number Publication Date
CN105608388A CN105608388A (zh) 2016-05-25
CN105608388B true CN105608388B (zh) 2017-02-22

Family

ID=55988315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510617903.9A Active CN105608388B (zh) 2015-09-24 2015-09-24 一种基于相关性去除的差分隐私数据发布方法及系统

Country Status (1)

Country Link
CN (1) CN105608388B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407841B (zh) * 2016-09-28 2018-03-02 武汉大学 基于差分隐私的相关性时间序列发布方法及系统
CN108009437B (zh) * 2016-10-27 2022-11-22 中兴通讯股份有限公司 数据发布方法和装置及终端
CN107871087B (zh) * 2017-11-08 2020-10-30 广西师范大学 分布式环境下高维数据发布的个性化差分隐私保护方法
CN110768936B (zh) 2018-07-27 2021-05-18 华为技术有限公司 隐私数据的上报方法、装置与存储介质
CN110020546B (zh) * 2019-01-07 2020-12-04 南京邮电大学 一种隐私数据分级保护方法
CN109492435B (zh) * 2019-01-10 2022-03-08 贵州财经大学 基于数据开放共享的隐私泄露风险评估方法、装置及系统
CN109828895A (zh) * 2019-01-14 2019-05-31 武汉华迪世纪计算机有限公司 一种相关数据差分隐私保护性能的标准化测试方法及装置
WO2020248149A1 (en) * 2019-06-12 2020-12-17 Alibaba Group Holding Limited Data sharing and data analytics implementing local differential privacy
CN111079177B (zh) * 2019-12-04 2023-01-13 湖南大学 一种基于小波变换的轨迹数据中时间相关性隐私保护方法
CN111143674A (zh) * 2019-12-20 2020-05-12 深圳前海微众银行股份有限公司 一种数据处理方法及装置
CN112182638B (zh) * 2020-08-20 2022-09-09 中国海洋大学 一种基于本地化差分隐私模型的直方图数据发布方法及系统
CN113055930B (zh) * 2021-03-09 2022-12-27 Oppo广东移动通信有限公司 数据处理方法、通信设备、服务器及存储介质
CN116595574B (zh) * 2023-04-14 2024-02-20 京信数据科技有限公司 一种对隐私计算模型安全发布及引用的装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172808A1 (en) * 2012-12-19 2014-06-19 John Richard Burge Multi-Layered Metadata Management System
CN104135362A (zh) * 2014-07-21 2014-11-05 南京大学 一种基于差分隐私发布的数据的可用性计算方法
CN104573560A (zh) * 2015-01-27 2015-04-29 上海交通大学 基于小波变换的差分隐私数据发布方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172808A1 (en) * 2012-12-19 2014-06-19 John Richard Burge Multi-Layered Metadata Management System
CN104135362A (zh) * 2014-07-21 2014-11-05 南京大学 一种基于差分隐私发布的数据的可用性计算方法
CN104573560A (zh) * 2015-01-27 2015-04-29 上海交通大学 基于小波变换的差分隐私数据发布方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向数据发布和分析的差分隐私保护;张啸剑 等;《计算机学报》;20140430;第37卷(第4期);全文 *

Also Published As

Publication number Publication date
CN105608388A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN105608388B (zh) 一种基于相关性去除的差分隐私数据发布方法及系统
Beck et al. {PrivApprox}:{Privacy-Preserving} Stream Analytics
CN107480163A (zh) 一种云环境下支持隐私保护的高效密文图像检索方法
CN102314580A (zh) 一种基于向量和矩阵运算的支持计算的加密方法
Sharma et al. PrivateGraph: Privacy-preserving spectral analysis of encrypted graphs in the cloud
CN112347495A (zh) 一种基于区块链的可信隐私智能服务计算系统及方法
Liu et al. PADL: Privacy-aware and asynchronous deep learning for IoT applications
Qiao et al. Differential analysis on simeck and simon with dynamic key-guessing techniques
CN110413652B (zh) 一种基于边缘计算的大数据隐私化检索方法
Keller et al. Input reconstruction for networked control systems subject to deception attacks and data losses on control signals
Liang et al. Efficient and privacy-preserving decision tree classification for health monitoring systems
Khowaja et al. Toward industrial private AI: A two-tier framework for data and model security
CN111291411A (zh) 基于卷积神经网络的安全视频异常检测系统及方法
CN113836447B (zh) 一种云平台下的安全轨迹相似性查询方法及系统
Guo et al. Privacy-preserving compressive sensing for real-time traffic monitoring in urban city
Wang et al. Privacy protection and efficient incumbent detection in spectrum sharing based on federated learning
CN108197491B (zh) 一种基于密文的子图检索方法
CN116663052A (zh) 多方协作下的电力数据隐私保护方法、系统、设备及介质
Liu et al. ESA-FedGNN: Efficient secure aggregation for federated graph neural networks
Bandeira et al. New Haar-based algorithms for stability analysis of LPV systems
Ardhianto et al. Covertext generation using fuzzy logic approach in parallel encryption with digit arithmetic of covertext to improve information confidentiality
CN104852799B (zh) 基于分段序列的数字音频伪装及重构方法
Troncoso-Pastoriza et al. Secure genomic susceptibility testing based on lattice encryption
CN103327363A (zh) 实现基于语义粒度进行视频信息加密控制的系统及其方法
Chourasia et al. An efficient hybrid encryption technique based on DES and RSA for textual data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant