CN110874488A - 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 - Google Patents

一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN110874488A
CN110874488A CN201911121760.7A CN201911121760A CN110874488A CN 110874488 A CN110874488 A CN 110874488A CN 201911121760 A CN201911121760 A CN 201911121760A CN 110874488 A CN110874488 A CN 110874488A
Authority
CN
China
Prior art keywords
data
privacy
frequency
differential privacy
laplace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911121760.7A
Other languages
English (en)
Inventor
姚霖
王轩
蒋琳
郭宁
范茂顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201911121760.7A priority Critical patent/CN110874488A/zh
Publication of CN110874488A publication Critical patent/CN110874488A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质,该流数据频数统计方法包括:创建候选列表步骤:针对用户集合S,在保证差分隐私的前提下,近似地获得出现频数最多的记录;收集数据步骤:用户在本地实现差分隐私算法,将隐私化数据传送到服务器端;隐私预算分配步骤:将连续序列分为
Figure 79540DEST_PATH_IMAGE001
个时间戳,在其分配隐私预算,根据时间,分配的隐私预算递减。本发明的有益效果是:本发明采用差分隐私和本地差分隐私结合的方式,能够从数据收集和数据分析层面实现对数据的高效保护,且能提高流数据实时发布速率。

Description

一种基于混合差分隐私的流数据频数统计方法、装置、系统及 存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质。
背景技术
1.相关技术背景
基于计数的频数统计方法和基于摘要的频数统计方法是两种典型流数据频数统计方法[35]。其适用场景基本相似,面向流数据根本的问题,都是设置一个起始时间,和一个当前时间以及最后时间,在时间范围内不断增长,统计结果不断更新,查询数据窗口和统计数据窗口时刻维持一致。
(1)基于计数的方法:基于计数的方法的核心思想是只针对出现频次较多的几个数据项进行保存,为其设置一个计数器,而对于出现频次较少的几个数据项不进行保存。这个方法主要不断更新频数最多几个元素的记录,对于其他数据项不计数,这样会急剧减少存储开销。选取数据集的容量和流数据的分布可以影响计数方法的准确率。也就是说,数据集的容量越大,算法的准确度越高。不同的算法的准确率不同,当数据分布倾斜的时候,有的计数算法,比如Freq算法最终估计的频繁项集会有不稳定的误差,有的计数算法可以给出一个同真实值比较近似的估计值,但是在数据分布较平稳的时候也会出现误差。
(2)基于摘要的方法:基于摘要的核心思想是事先考虑可能会出现的发布误差,决定所要使用的数据空间范围,算法使用的数据空间范围和数据分布无关。基于摘要的频数统计方法统计了频繁项和非频繁项的频数,从时间开销角度考虑是不值得的。通过摘要的形式统计所有频数统计并且排序。
2.与本发明相关的现有技术
2.1)现有技术的技术方案
(1)随机化隐私保护聚合响应
针对随机响应扰动机制的研究工作有很多,其中随机化隐私保护聚合响应(RAPPOR)就是其中的一个扩展。对于离散型数据,RAPPOR设计出改进版本的随机响应扰动机制方案。我们指定n个用户,对于任一用户ui(1≤i≤n),其拥有一个数据项vi∈d,第三方收集并且统计d中数据项的个数。在RAPPOR方法中,其用户ui将vi表示为一个固定长度为d的0-1比特向量,经过哈希映射操作,只有向量中的一位是1,其余向量部分均为0。然后,针对固定长度的比特向量,使用设计的改进随机响应方式对比特向量进行随机响应操作。第三方得到n个用户的固定大小是d的比特向量,估计其对应的频数统计。
针对非均匀硬币的概率p的问题,RAPPOR设计符合差分隐私中的敏感度。对于给定的任意一个函数f,和两个相邻的数据集D1和D2,对应的敏感度为:
Figure BDA0002275635290000021
因此,函数f的敏感度为2。RAPPOR可以确保满足差分隐私,如果概率p为:
Figure BDA0002275635290000022
在RAPPOR方法中,比如用户提供的数据为vi="88"。首先,将字符串使用哈希映射的方法将其映射到布隆过滤器(Bloom Filter)中去,长度为d的向量B={0,1}d。而且,维持数据与布隆过滤器之间的对应关系,接着使用改进的随机响应扰动机制技术对向量B中的每一个比特位进行隐私化得到永久性随机响应结果B′。具体的扰动机制如下所示,p∈[0,1]表示概率取值:
Figure BDA0002275635290000023
然后,在前一轮扰动的基础上对向量B′中的每一个数据元素做二次扰动得到瞬时性随机响应结果S。然后,二次扰动机制如以下所示,其中o∈[0,1]和w∈[0,1]分别表示Bi′取值为1和0时,置Si为1的概率:
Figure BDA0002275635290000024
数据提供者根据前面扰动后得到的隐私化结果S后,将输出结果传送给服务器端,服务器进行相应的校正。根据对应关系和回归方法实现对最后频数统计的估计。
在这个方法里面,采用的布隆过滤器是一系列的哈希函数和固定长度的比特向量。常用于检测数据是否在这个集合中,它的好处是查询时间快,空间开销低,不足之处是有一定的假阳率。
如图1所示,如果想判断一个元素是不是在一个集合里,可以使用k个哈希函数,如果,映射到的元素值都为1,则判定这个元素在这个集合里,如果,映射到的元素值不都为1,则一定不在这个集合里,当然,布隆过滤器存在一种情况,映射到的元素值均为1,但是这个元素不在这个集合里,一般被称为“假阳率”。
另外的方法是将所有候选值都存储到一起,对这个候选值的每个数据项经过比较决定。其他的数据结构比如链表和树结构也是同样的思想。数据项的不断更新,空间开销更大,对数据检索的能力更弱。
和其他的数据结构不同之处在于,这种数据结构在时间开销和空间开销两个方面有更大的好处。这种数据结构在空间开销,插入和查询操作都是常数。同时,所需映射函数彼此没有关联关系,可以并行加速。这种数据结构不存数据,可以有一定的安全性,它可以其它的数据结构,有更强的数据处理能力。
但是这种数据结构的缺点是很容易发现的,就是假阳率,在固定长度的比特向量中,不断地增加元素,适用于元素较多的情形,与之相比,散列表也是通过映射操作存储操作数据,但是在这种数据机构中不能轻易删除某个元素。当我们把每个比特位向量变换成一个长的数组的时候,对于新添加进来的元素保持一个计数器,它记录元素出现的次数,删除的时候,可以将记录器清楚就可以了。但是这种方法不能保护安全,我们事先一定确保要删除的数据项在这个数据结构里面,由于它的特性,其不能满足这个条件,使用其他的方法,比如计数器回绕也会造成问题。
(2)简洁直方图
由于RAPPOR每次传送固定长度的比特向量的问题,简洁直方图(Succinthistogram,SH)被提出。简洁直方图方法中每个数据提供者对数据进行编码后,任意选中某一个0-1位,使用随机响应扰动机制技术进行隐私化处理后,传送到第三方,这种方法就可以极大降低传输开销。简洁直方图方法中,假定列表中候选列表的大小k比数据提供者的数量n多,采用随机投影方法,其中所有字符串以m维0-1比特变量的形式出现,输出随机投影矩阵
Figure BDA0002275635290000041
所有字符串都属于集合为
Figure BDA0002275635290000042
输出如公式所示:
Figure BDA0002275635290000043
虽然简洁直方图方法确实降低了通信开销,但是简洁直方图方法的准确度是不断浮动的,这主要是因为随机投影矩阵
Figure BDA0002275635290000044
中每个数据项的变化是不确定的。
(3)随机化隐私保护聚合响应本地差分隐私挖掘
本地差分隐私挖掘(LDPMiner)是针对频繁项集进行操作的数据发布方法。针对n个数据提供者,每个数据提供者均包含d个项中的l个数据项,频繁项集空间为k′。本地差分隐私挖掘方法包括两个阶段,收集数据阶段,决定频繁项集和数据提供者传送频繁项对应的数据项。
本地差分隐私挖掘是基于随机化隐私保护聚合响应和简洁直方图方法进行的方法,针对数据提供者需要传送的变量多少,其通信开销高,所以采用采样方法使得每个数据提供者传送一条数据,共有下面两个步骤。
步骤1:采样的SH方法。拥有数据者在客户端隐私化数据,传送到服务器端,首先,统计各个数据的频数统计,选中频数最多的几个数据集合,最后,得到频繁项列表传送到各个客户端。
步骤2:采样的RAPPOR方法。数据提供者利用该技术对上一个记录的元素再次传给第三方,第三方进行相应的估计,得到最终的输出。
这种方法的主要特点体现在可以使用采样方法减少了隐私预算在关联数据项上面的分配,将选取候选列表和做统计的步骤分开,使得需要进行隐私化数据变少,可以使数据可用性增加。
2.2)评价现有技术的缺点
Figure BDA0002275635290000045
Figure BDA0002275635290000051
发明内容
本发明提供了一种基于混合差分隐私的流数据频数统计方法,包括:
创建候选列表步骤:针对用户集合S,在保证差分隐私的前提下,近似地获得出现频数最多的记录;
收集数据步骤:用户在本地实现差分隐私算法,将隐私化数据传送到服务器端;
隐私预算分配步骤:将连续序列分为n个时间戳,在其分配隐私预算,根据时间,分配的隐私预算递减。
作为本发明的进一步改进,在所述创建候选列表步骤中,首先,收集用户的数据集合S,记为DS,将DS传送给第三方,第三方做出统计,得到聚合后数据集合DS;然后设置N(r,D)为某一条记录r在数据集D中出现的次数,N(r,D)为数值型数据,应用拉普拉斯实现机制,计算出拉普拉斯函数所对应的参数,将函数N(r,D)加入拉普拉斯噪声后,可满足差分隐私的条件,并最终得到出现频次最多的元素。
作为本发明的进一步改进,在所述收集数据步骤中,首先,构造k个哈希函数H={h1,h2,...,hk},给定ε差分隐私参数和用户上传的数据集d(1),d(2),...,d(n)∈Dn,对于数据集D中的每一条数据,应用Client算法,再利用CMS数据结构构造矩阵,最后,将矩阵传给第三方,第三方通过分析得到计算结果;Client算法:首先,设置差分隐私参数ε>0和处理数据记录d∈D,对于一个数据项D→{0,1}m,随机选择一个哈希函数,通过哈希算法得到编码向量v∈{0,1}m;然后,对编码向量v∈{0,1}m中的第hj(d)位置为1,其他位置为0;最后,编码向量v中的每一个比特位以
Figure BDA0002275635290000052
的概率翻转,ε表示差分隐私参数,将隐私化编码向量
Figure BDA0002275635290000053
和选择的哈希函数发送到服务器端。
作为本发明的进一步改进,在所述隐私预算分配步骤中,首先从数据集(o1,o2,...,oi-1)中选取最近非空的输出ol;然后,计算当前输出ci和最近非空输出ol的相似度,利用平均绝对误差公式计算作为评价标准,使用拉普拉斯噪声机制对相似度加噪声;然后,计算当前剩余的隐私预算,比较相似度和拉普拉斯参数的大小,如果相似度小于设定值,就不输出当前结果,如果相似度大于设定值,可以对原始输出加相应噪声。
本发明还提供了一种基于混合差分隐私的流数据频数统计系统,包括:
创建候选列表模块:用于针对用户集合S,在保证差分隐私的前提下,近似地获得出现频数最多的记录;
收集数据模块:用于将用户在本地实现差分隐私算法,将隐私化数据传送到服务器端;
隐私预算分配模块:用于将连续序列分为n个时间戳,在其分配隐私预算,根据时间,分配的隐私预算递减。
作为本发明的进一步改进,在所述创建候选列表模块中,首先,收集用户的数据集合S,记为DS,将DS传送给第三方,第三方做出统计,得到聚合后数据集合DS;然后设置N(r,D)为某一条记录r在数据集D中出现的次数,N(r,D)为数值型数据,应用拉普拉斯实现机制,计算出拉普拉斯函数所对应的参数,将函数N(r,D)加入拉普拉斯噪声后,可满足差分隐私的条件,并最终得到出现频次最多的元素。
作为本发明的进一步改进,在所述隐私预算分配模块中,首先从数据集(o1,o2,...,oi-1)中选取最近非空的输出ol;然后,计算当前输出ci和最近非空输出ol的相似度,利用平均绝对误差公式计算作为评价标准,使用拉普拉斯噪声机制对相似度加噪声;然后,计算当前剩余的隐私预算,比较相似度和拉普拉斯参数的大小,如果相似度小于设定值,就不输出当前结果,如果相似度大于设定值,可以对原始输出加相应噪声。
本发明还提供了一种基于混合差分隐私的流数据频数统计装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明中所述的流数据频数统计方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明中所述的流数据频数统计方法的步骤。
本发明的有益效果是:本发明采用差分隐私和本地差分隐私结合的方式,能够从数据收集和数据分析层面实现对数据的高效保护,且能提高流数据实时发布速率。
附图说明
图1是背景技术的示意图。
图2是背景技术的第一种方案示意图。
图3是背景技术的第二种方案示意图。
图4是背景技术的第三种方案示意图。
具体实施方式
缩略语和关键术语定义:
(1)ε-差分隐私:一个算法A满足ε-differential privacy(ε-DP)当且仅当对于任何数据集D1和D2只有一个元素不同,得到:
Figure BDA0002275635290000071
对于一个数据集D1,删除或者修改其中任何一条记录变为D2,在某个随机化算法在两个数据集下面得到相同输出的概率是近似的。差分隐私的定义仅仅对于随机化算法有作用。但是不适用于任何能给出确定性输出的算法。
差分隐私定义中的ε值提供隐私保护的能力,也被叫做隐私预算。针对差分隐私对于隐私泄露的描述,当隐私泄露值越小时,数据保护水平越高,当其为零时,两个数据集得到相同的输出,然而会使得所有的数据项相同,数据的价值会大大降低,因此隐私泄露的控制是综合数据的价值和对数据保护的程度而决定的。
(2)敏感度:差分隐私中通过加噪声的方式实现隐私保护,敏感度可以影响噪声,当噪声过大的时候,会影响数据可用性。下面是对于敏感度的定义。
给定查询函数f:D→Rd,函数f的敏感度是:
Δf=max||f(D1)-f(D2)||
根据差分隐私的定义,相邻数据集D1和D2最多有一条记录不同,R指的是映射的实数空间,d指的是函数f的维度。其中扰动的实现主要基于对数据或者计算公式添加噪声的操作,所以,噪声的大小和允许隐私泄露范围的大小有关,也就是和敏感程度有关,过多的噪音会降低数据的价值,而过少的噪音会降低数据的安全性。
对于实现隐私保护的方法,目前采用的其中之一方法是拉普拉斯机制[36]。这个机制是对于整型等类型的数据处理,另一种实现机制,指数机制面向可数类型的数据进行处理。因为差分隐私主要靠加噪音实现隐私保护,所以噪音方法会综合敏感度和隐私预算的两方面原因。
(3)拉普拉斯机制:拉普拉斯实现机制对于目标输出为整型等类型的数据,在输出之前,添加满足对应分布的扰动保护数据。拉普拉斯函数中,设置位置参数为0、变化参数b,它的分布满足以下函数:
Figure BDA0002275635290000081
给定任意函数f:D→Rd,表达式A(D)的输出满足下列等式,即满足ε-差分隐私
Figure BDA0002275635290000082
由此可见,添加噪声的大小与Δf和ε的取值相关。
因为拉普拉斯实现机制仅仅可以处理整型等数据,作用范围小,对于其他可数类型数据无法处理。基于这个原因,后续有研究人员提出了指数机制。
对于一个请求,它的输出范围是Range,在输出范围中的任一数值r∈Range是一个可数对象。对于这种机制,任一数值的映射关系q(D,r)→R叫做它的输出函数,它的大小决定r的好坏范围大小。
(4)指数机制:针对数据集D,存在随机算法A,分析结果r∈Range。若算法A以其
Figure BDA0002275635290000083
的情况从Range中选中并且输出r,就是说算法A提供ε-差分隐私保护。
差分隐私的定义主要针对个人信息的保护,对于攻击者获得的信息多少有相应的限制。而且,它还具有以下的属性:
可组合性:如果用保证程度分别为ε1和ε2的差分隐私来回应两个查询,则该对查询的差分隐私性等同于保证程度(ε12)。较高的ε值意味着较弱的保证。
后处理性:对于差分隐私的结果,没有限制可以做什么——无论它与什么结合或者怎么被转换,它仍然是差分隐私的。
如果说能在一定条件下无限检索数据库,那么理论上我可以还原这个数据库。差分隐私就是无论你怎么检索,都无法还原一个准确、完整的数据库。
(5)滑动窗口模型:首先,流数据是有序的、数量多的、不断到达的数据序列,在很多种研究工作中,流数据被当做一个根据时间的流动,数据在不断增长,形成动态数据集合。在滑动窗口模型中,设置固定长度为T窗口大小,在每个时间戳中,令数据集合为D={x1,x2,...,xT}。数据集合中的每个数据点xi包含第i个时间戳的信息。简单地说,如果xi是一个直方图。对流数据建模分析,每一个部分都由起始位置,当前位置和窗口尺寸定义。经常来说,窗口大小值被设置为使用固定窗口大小|w|。在每个时间戳发布中,流数据直方图发布当前时间戳所对应的直方图。比如在医院监控中,要求统计医院患者的年龄分布情况。所以,根据时间戳的滑动,在每个窗口中实现符合差分隐私保护的直方图。
(6)不同距离测度概述:距离可以用来描述样本之间的相异度,本方案采用距离测度来衡量数据间的相似性。设xi和xj是两个p维的样本点,xi={xi1,xi2,..,xip}′,xj={xj1,xj2,..,xjp}′,它们之间的距离d(xi,xj)应满足如下的条件:
(1)非负性:d(xi,xj)≥0。
(2)对称性:d(xi,xj)=d(xj,xi)。
(3)三角不等性:d(xi,xj)≤d(xi,xm)+d(xm,xj),其中xm也是p维的样本点。
主要介绍以下三种距离测度:
(1)L1距离:
Figure BDA0002275635290000091
L1距离的计算相对容易,缺点是对数据之间相似度变化的敏感度不高。
(2)余弦距离:
Figure BDA0002275635290000092
余弦距离的计算时,首先令两个数据项为两条向量,然后计算向量之间的夹角,根据不同数据之间角度的变化,得出变化的相似度。
(3)马氏距离:
Figure BDA0002275635290000101
其中:
∑=(σkt)p*p
Figure BDA0002275635290000102
Figure BDA0002275635290000103
Figure BDA0002275635290000104
本发明公开了一种基于混合差分隐私的流数据频数统计方法,下面进行具体说明:
下面介绍创建候选列表的算法,使用差分隐私实现隐私保护。算法的目标是针对用户集合S,在保证差分隐私的前提下,近似地获得出现频数最多的记录。首先,收集用户S的数据集合,记为DS。将其传送给可信第三方,第三方做出统计,得到聚合后数据集合DS。下一步,针对频数统计这个问题,算法中设置N(r,D)为某一条记录r在D中出现的次数。N(r,D)为数值型数据,所以可以应用拉普拉斯实现机制,计算出拉普拉斯函数所对应的参数。将函数N(r,D)加入拉普拉斯噪声后,可满足差分隐私的条件,并最终得到出现频次最多的元素,即候选列表阶段。
Figure BDA0002275635290000111
根据上一小节输出得到的候选列表,针对用户集合C,每一个用户选择属于该候选列表的元素,作为将要传送的数据。在这个集合中,如果传送多个值给服务器端,会造成很高的敏感度,影响实验的效果。所以这里采用从集合中随机抽取其中一个元素。下面介绍收集数据阶段的算法,使用本地差分隐私实现隐私保护。算法的目标是在用户在本地实现差分隐私算法,将隐私化数据传送到服务器端。
下面将给出算法的完整框架:
算法2介绍了收集数据阶段的详细流程。首先,构造k个哈希函数H={h1,h2,...,hk},给定ε差分隐私参数和用户上传的数据集d(1),d(2),...,d(n)∈Dn。对于数据集中的每一条数据,应用Client算法,再利用CMS数据结构构造矩阵,最后,将矩阵传给第三方,第三方可以通过分析得到计算结果,下面介绍Client算法:
Figure BDA0002275635290000121
首先,设置差分隐私参数ε>0和处理数据记录d∈D。由于目前直接编码方式导致数据可用性偏低,本发明提出改进的编码方式,能够提高数据可用性。对于一个数据项D→{0,1}m,随机选择一个哈希函数,通过哈希算法得到v∈{0,1}m。第二步,对编码向量v∈{0,1}m中的第hj(d)位置为1,其他位置为0。最后,编码向量v中的每一个比特位以
Figure BDA0002275635290000122
的概率翻转。最后,将这个隐私化的向量和选择的哈希函数发送到服务器端。
Figure BDA0002275635290000123
下面介绍算法4。首先,设置
Figure BDA0002275635290000124
对记录进行第二次的隐私化操作,然后对每一个记录
Figure BDA0002275635290000125
转换成
Figure BDA0002275635290000126
第二步,构造Count-Min Sketch矩阵M∈Rk*m,行表示哈希函数的个数,列表示哈希函数对应值的总和。数据集
Figure BDA0002275635290000131
表示从用户发送的数据。下面是对算法的详细描述:
最后,第三方得到Count-Min Sketch矩阵M,根据{h1,h2,...,hk},将候选列表的值分别使用k个哈希函数,映射到不同位置,根据映射到位置的数值,取平均数作为该数据项的估计值。
Figure BDA0002275635290000132
针对分配隐私预算问题,目前常用的分配方式为二分法,这种分配方式在前期分配大量隐私预算,后期分配过少隐私预算,进而产生较大噪声误差。这种分配策略的优点是隐私保护能力很高,缺点是数据可用性急剧降低。只适用于滑动窗口较小的情况。所以,在动态发布直方图阶段,本发明提出的隐私预算分配策略Budget Distribution(BD),可以在不同滑动窗口大小上面有稳定的表现。其基本思路是,将连续序列分为n个时间戳,在其分配隐私预算,根据时间,分配的隐私预算递减。
算法5是BD算法的具体描述,首先选取最近非空的输出ol,即分配隐私预算的输出ci。然后,计算当前输出ci和最近非空输出ol的相似度。利用平均绝对误差公式计算(MeanAbsolute Error,MAE)作为评价标准。使用拉普拉斯噪声机制对相似度加噪声。下一步,计算当前剩余的隐私预算,目的是确保当前滑动窗口分配隐私预算的总和不超过总体的隐私预算。比较相似度和拉普拉斯参数的大小,如果相似度过低,就不输出当前结果,如果相似度高,可以对原始输出加相应噪声。
Figure BDA0002275635290000141
数据拥有者提供数据给可信第三方,第三方对收集的数据进行频数统计,发布统计结果。如图2所示。但是,攻击者可以根据频数统计结果,结合其他背景知识,推断出用户的隐私信息。比如,2006年,美国Netflix公司举办了一个算法竞赛,将原始数据集中的用户名做了随机化处理后,发布数据集给数据分析者使用。但是,对用户名进行扰动的方法是不能够保证隐私的。2007年,一些来自德克萨斯大学奥斯汀分校的两位研究员表示通过关联Netflix公开的数据和IMDB网站上公开的记录能够识别匿名后用户的身份。所以,针对以上问题,可以选择差分隐私的方法对频数统计结果进行扰动,能保证用户数据的安全性,同时有一定的精度损失。
如图3所示,可信第三方在发布频数统计结果之前,先执行差分隐私算法。这样对于攻击者,其无法根据背景知识推断用户的信息。但是,实际情况下,很难找到可信的第三方。第三方存在隐私泄露的可能性。比如被恶意攻击或者非授权地访问。后续研究者在差分隐私的基础上,提出了本地差分隐私算法。如图4所示,本地差分隐私算法将隐私化的操作转移到本地。但是存在一个问题,因为第三方收集到的数据为隐私化后的数据,为了对原始数据进行频数统计,第三方需要一个候选列表。同时,在很多场景下,需要对连续型的流数据进行处理和分析,得到连续发布的频数统计结果。所以,本发明设计出一种基于差分隐私的流数据频数统计方法。
本发明还公开了一种基于混合差分隐私的流数据频数统计系统,包括:
创建候选列表模块:用于针对用户集合S,在保证差分隐私的前提下,近似地获得出现频数最多的记录;
收集数据模块:用于将用户在本地实现差分隐私算法,将隐私化数据传送到服务器端;
隐私预算分配模块:用于将连续序列分为n个时间戳,在其分配隐私预算,根据时间,分配的隐私预算递减。
在所述创建候选列表模块中,首先,收集用户的数据集合S,记为DS,将DS传送给第三方,第三方做出统计,得到聚合后数据集合DS;然后设置N(r,D)为某一条记录r在数据集D中出现的次数,N(r,D)为数值型数据,应用拉普拉斯实现机制,计算出拉普拉斯函数所对应的参数,将函数N(r,D)加入拉普拉斯噪声后,可满足差分隐私的条件,并最终得到出现频次最多的元素。
在所述收集数据模块中,首先,构造k个哈希函数H={h1,h2,...,hk{,给定ε差分隐私参数和用户上传的数据集d(1),d(2),...,d(n)∈Dn,对于数据集D中的每一条数据,应用Client算法,再利用CMS数据结构构造矩阵,最后,将矩阵传给第三方,第三方通过分析得到计算结果;Client算法:首先,设置差分隐私参数ε>0和处理数据记录d∈D,对于一个数据项D→{0,1}m,随机选择一个哈希函数,通过哈希算法得到编码向量v∈{0,1}m;然后,对编码向量v∈{0,1}m中的第hj(d)位置为1,其他位置为0;最后,编码向量v中的每一个比特位以
Figure BDA0002275635290000151
的概率翻转,ε表示差分隐私参数,将隐私化编码向量
Figure BDA0002275635290000152
和选择的哈希函数发送到服务器端。
在所述收集数据模块中,利用CMS数据结构构造矩阵的方法为:首先,设置
Figure BDA0002275635290000153
对记录进行第二次的隐私化操作,然后对每一个记录
Figure BDA0002275635290000154
转换成
Figure BDA0002275635290000161
然后,构造Count-Min Sketch矩阵M∈Rk*m,行表示哈希函数的个数,列表示哈希函数对应值的总和;数据集
Figure BDA0002275635290000162
表示从用户发送的数据;最后,第三方得到Count-Min Sketch矩阵M,根据{h1,h2,...,hk},将候选列表的值分别使用k个哈希函数,映射到不同位置,根据映射到位置的数值,取平均数作为该数据项的估计值。
在所述隐私预算分配模块中,首先从数据集(o1,o2,...,oi-1)中选取最近非空的输出ol;然后,计算当前输出ci和最近非空输出ol的相似度,利用平均绝对误差公式计算作为评价标准,使用拉普拉斯噪声机制对相似度加噪声;然后,计算当前剩余的隐私预算,比较相似度和拉普拉斯参数的大小,如果相似度小于设定值,就不输出当前结果,如果相似度大于设定值,可以对原始输出加相应噪声。
本发明还公开了一种基于混合差分隐私的流数据频数统计装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的流数据频数统计方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的流数据频数统计方法的步骤。
本发明的有益效果:
(1)本明对国内外研究学者对频数统计相关研究的调研和分析,以及对流数据发布工作的调研和分析,对其优缺点有详细的说明解释。基于可信第三方保护模型的开销小,实现方便,原因是它依赖一个可信的第三方,第三方保存的数据形式是原文数据,可能存在泄漏数据的风险,所以对个人隐私信息肯定会产生一定的影响。本发明采用差分隐私和本地差分隐私结合的方式,能够从数据收集和数据分析层面实现对数据的高效保护。
(2)本发明对静态数据集和动态数据集分别做了实验对比分析,针对动态数据集,使用适用于各个大小的滑动窗口模型可以实现合理地分配隐私预算。合理的隐私预算分配策略能大大降低总体误差,且能提高流数据实时发布速率。
(3)本发明进行了隐私性和安全性的分析,分别针对三种不同的攻击者能力,进行了相应的安全性证明。根据设置的隐私预算,攻击者可以获取预算下的信息,不能获取更多的甚至原始的信息。对算法隐私保护的能力做了量化的评价。
(4)本发明对算法的时空复杂度和通信开销做了理论分析,以对比实验验证该算法的正确性和高效性。本发明提出的基于混合差分隐私的频数统计扩展了布隆过滤器数据结构,使用了Count-Min Sketch数据结构能够很好的避免冲突碰撞,提高数据的可用性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于混合差分隐私的流数据频数统计方法,其特征在于,包括:
创建候选列表步骤:针对用户集合S,在保证差分隐私的前提下,近似地获得出现频数最多的记录;
收集数据步骤:用户在本地实现差分隐私算法,将隐私化数据传送到服务器端;
隐私预算分配步骤:将连续序列分为n个时间戳,在其分配隐私预算,根据时间,分配的隐私预算递减。
2.根据权利要求1所述的流数据频数统计方法,其特征在于,在所述创建候选列表步骤中,首先,收集用户的数据集合S,记为DS,将DS传送给第三方,第三方做出统计,得到聚合后数据集合DS;然后设置N(r,D)为某一条记录r在数据集D中出现的次数,N(r,D)为数值型数据,应用拉普拉斯实现机制,计算出拉普拉斯函数所对应的参数,将函数N(r,D)加入拉普拉斯噪声后,可满足差分隐私的条件,并最终得到出现频次最多的元素。
3.根据权利要求1所述的流数据频数统计方法,其特征在于,在所述收集数据步骤中,首先,构造k个哈希函数H={h1,h2,...,hk},给定ε差分隐私参数和用户上传的数据集d(1),d(2),...,d(n)∈Dn,对于数据集D中的每一条数据,应用Client算法,再利用CMS数据结构构造矩阵,最后,将矩阵传给第三方,第三方通过分析得到计算结果;Client算法:首先,设置差分隐私参数ε>0和处理数据记录d∈D,对于一个数据项D→{0,1}m,随机选择一个哈希函数,通过哈希算法得到编码向量v∈{0,1}m;然后,对编码向量v∈{0,1}m中的第hj(d)位置为1,其他位置为0;最后,编码向量v中的每一个比特位以
Figure FDA0002275635280000011
的概率翻转,ε表示差分隐私参数,将隐私化编码向量
Figure FDA0002275635280000012
和选择的哈希函数发送到服务器端。
4.根据权利要求3所述的流数据频数统计方法,其特征在于,在所述收集数据步骤中,利用CMS数据结构构造矩阵的方法为:首先,设置
Figure FDA0002275635280000021
对记录进行第二次的隐私化操作,然后对每一个记录
Figure FDA0002275635280000022
转换成
Figure FDA0002275635280000023
然后,构造Count-Min Sketch矩阵M∈Rk *m,行表示哈希函数的个数,列表示哈希函数对应值的总和;数据集
Figure FDA0002275635280000024
表示从用户发送的数据;最后,第三方得到Count-Min Sketch矩阵M,根据{h1,h2,...,hk},将候选列表的值分别使用k个哈希函数,映射到不同位置,根据映射到位置的数值,取平均数作为该数据项的估计值。
5.根据权利要求1所述的流数据频数统计方法,其特征在于,在所述隐私预算分配步骤中,首先从数据集(o1,o2,...,oi-1)中选取最近非空的输出ol;然后,计算当前输出ci和最近非空输出ol的相似度,利用平均绝对误差公式计算作为评价标准,使用拉普拉斯噪声机制对相似度加噪声;然后,计算当前剩余的隐私预算,比较相似度和拉普拉斯参数的大小,如果相似度小于设定值,就不输出当前结果,如果相似度大于设定值,可以对原始输出加相应噪声。
6.一种基于混合差分隐私的流数据频数统计系统,其特征在于,包括:
创建候选列表模块:用于针对用户集合S,在保证差分隐私的前提下,近似地获得出现频数最多的记录;
收集数据模块:用于将用户在本地实现差分隐私算法,将隐私化数据传送到服务器端;
隐私预算分配模块:用于将连续序列分为n个时间戳,在其分配隐私预算,根据时间,分配的隐私预算递减。
7.根据权利要求6所述的流数据频数统计系统,其特征在于,在所述创建候选列表模块中,首先,收集用户的数据集合S,记为DS,将DS传送给第三方,第三方做出统计,得到聚合后数据集合DS;然后设置N(r,D)为某一条记录r在数据集D中出现的次数,N(r,D)为数值型数据,应用拉普拉斯实现机制,计算出拉普拉斯函数所对应的参数,将函数N(r,D)加入拉普拉斯噪声后,可满足差分隐私的条件,并最终得到出现频次最多的元素。
8.根据权利要求6至7任一项所述的流数据频数统计系统,其特征在于,在所述隐私预算分配模块中,首先从数据集(o1,o2,...,oi-1)中选取最近非空的输出ol;然后,计算当前输出ci和最近非空输出ol的相似度,利用平均绝对误差公式计算作为评价标准,使用拉普拉斯噪声机制对相似度加噪声;然后,计算当前剩余的隐私预算,比较相似度和拉普拉斯参数的大小,如果相似度小于设定值,就不输出当前结果,如果相似度大于设定值,可以对原始输出加相应噪声。
9.一种基于混合差分隐私的流数据频数统计装置,其特征在于:包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-5中任一项所述的流数据频数统计的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-5中任一项所述的流数据频数统计的步骤。
CN201911121760.7A 2019-11-15 2019-11-15 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 Pending CN110874488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911121760.7A CN110874488A (zh) 2019-11-15 2019-11-15 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911121760.7A CN110874488A (zh) 2019-11-15 2019-11-15 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN110874488A true CN110874488A (zh) 2020-03-10

Family

ID=69718037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911121760.7A Pending CN110874488A (zh) 2019-11-15 2019-11-15 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110874488A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063502A (zh) * 2018-08-13 2018-12-21 阿里巴巴集团控股有限公司 数据加密、数据分析方法和装置
CN111400755A (zh) * 2020-03-13 2020-07-10 中国科学院信息工程研究所 一种基于指数机制的个性化差分隐私保护方法及系统
CN111414641A (zh) * 2020-03-13 2020-07-14 中国科学院信息工程研究所 一种基于采样的个性化差分隐私保护方法及系统
CN111737740A (zh) * 2020-06-15 2020-10-02 山东大学 一种满足差分隐私的多方序列数据发布方法及系统
CN112100677A (zh) * 2020-11-13 2020-12-18 支付宝(杭州)信息技术有限公司 隐私数据的保护方法、装置及电子设备
CN112329056A (zh) * 2020-11-03 2021-02-05 石家庄铁道大学 一种面向政务数据共享的本地化差分隐私方法
CN112383672A (zh) * 2020-10-21 2021-02-19 南京邮电大学 一种兼顾隐私保护和数据质量的图像采集方法、装置及存储介质
CN113098848A (zh) * 2021-03-19 2021-07-09 重庆邮电大学 基于矩阵素描和哈希学习的流数据异常检测方法及其系统
CN113206831A (zh) * 2021-03-31 2021-08-03 南京邮电大学 一种面向边缘计算的数据采集隐私保护方法
CN113207120A (zh) * 2021-03-30 2021-08-03 郑州铁路职业技术学院 移动群智感知中收集用户实时位置信息的差分隐私方法
CN113434907A (zh) * 2021-07-09 2021-09-24 四川大学 一种面向私有数据集的安全高效分位数聚合方法及装置
CN113515770A (zh) * 2020-04-10 2021-10-19 支付宝(杭州)信息技术有限公司 基于隐私保护确定目标业务模型的方法及装置
CN113779075A (zh) * 2021-09-18 2021-12-10 平安国际智慧城市科技股份有限公司 基于差分隐私的数据查询方法、装置、设备及存储介质
CN115455483A (zh) * 2022-09-21 2022-12-09 广州大学 一种基于本地差分隐私的大数据频数估计方法
CN117744137A (zh) * 2023-12-06 2024-03-22 广东电网有限责任公司 一种基于差分隐私的能源电力数据发布方法及装置
CN118153110A (zh) * 2024-04-09 2024-06-07 荣耀终端有限公司 一种数据处理方法及相关装置
CN118153110B (zh) * 2024-04-09 2024-10-22 荣耀终端有限公司 一种数据处理方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN108520182A (zh) * 2018-04-09 2018-09-11 哈尔滨工业大学深圳研究生院 一种基于差分隐私和关联规则的需求隐私保护方法
CN108763947A (zh) * 2018-01-19 2018-11-06 北京交通大学 时间-空间型的轨迹大数据差分隐私保护方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN108763947A (zh) * 2018-01-19 2018-11-06 北京交通大学 时间-空间型的轨迹大数据差分隐私保护方法
CN108520182A (zh) * 2018-04-09 2018-09-11 哈尔滨工业大学深圳研究生院 一种基于差分隐私和关联规则的需求隐私保护方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRENDAN AVENT ET AL.: "BLENDER: Enabling Local Search with a Hybrid Differential Privacy Model", 《HTTPS://WWW.USENIX.ORG/CONFERENCE/USENIXSECURITY17/TECHNICAL-SESSIONS/PRESENTATION/AVENT》 *
百度安全社区: "本地化差分隐私技术及一种有效性验证方法", 《HTTPS://ANQUAN.BAIDU.COM/ARTICLE/992》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063502A (zh) * 2018-08-13 2018-12-21 阿里巴巴集团控股有限公司 数据加密、数据分析方法和装置
CN111400755A (zh) * 2020-03-13 2020-07-10 中国科学院信息工程研究所 一种基于指数机制的个性化差分隐私保护方法及系统
CN111414641A (zh) * 2020-03-13 2020-07-14 中国科学院信息工程研究所 一种基于采样的个性化差分隐私保护方法及系统
CN111414641B (zh) * 2020-03-13 2023-04-11 中国科学院信息工程研究所 一种基于采样的个性化差分隐私保护方法及系统
CN111400755B (zh) * 2020-03-13 2023-04-07 中国科学院信息工程研究所 一种基于指数机制的个性化差分隐私保护方法及系统
CN113515770A (zh) * 2020-04-10 2021-10-19 支付宝(杭州)信息技术有限公司 基于隐私保护确定目标业务模型的方法及装置
CN113515770B (zh) * 2020-04-10 2024-06-18 支付宝(杭州)信息技术有限公司 基于隐私保护确定目标业务模型的方法及装置
CN111737740A (zh) * 2020-06-15 2020-10-02 山东大学 一种满足差分隐私的多方序列数据发布方法及系统
CN111737740B (zh) * 2020-06-15 2022-11-01 山东大学 一种满足差分隐私的多方序列数据发布方法及系统
CN112383672A (zh) * 2020-10-21 2021-02-19 南京邮电大学 一种兼顾隐私保护和数据质量的图像采集方法、装置及存储介质
CN112329056B (zh) * 2020-11-03 2021-11-02 石家庄铁道大学 一种面向政务数据共享的本地化差分隐私方法
CN112329056A (zh) * 2020-11-03 2021-02-05 石家庄铁道大学 一种面向政务数据共享的本地化差分隐私方法
CN112100677A (zh) * 2020-11-13 2020-12-18 支付宝(杭州)信息技术有限公司 隐私数据的保护方法、装置及电子设备
CN113098848A (zh) * 2021-03-19 2021-07-09 重庆邮电大学 基于矩阵素描和哈希学习的流数据异常检测方法及其系统
CN113207120A (zh) * 2021-03-30 2021-08-03 郑州铁路职业技术学院 移动群智感知中收集用户实时位置信息的差分隐私方法
CN113206831B (zh) * 2021-03-31 2023-02-14 南京邮电大学 一种面向边缘计算的数据采集隐私保护方法
CN113206831A (zh) * 2021-03-31 2021-08-03 南京邮电大学 一种面向边缘计算的数据采集隐私保护方法
CN113434907B (zh) * 2021-07-09 2022-09-23 四川大学 一种面向私有数据集的安全高效分位数聚合方法及装置
CN113434907A (zh) * 2021-07-09 2021-09-24 四川大学 一种面向私有数据集的安全高效分位数聚合方法及装置
CN113779075B (zh) * 2021-09-18 2024-04-19 平安国际智慧城市科技股份有限公司 基于差分隐私的数据查询方法、装置、设备及存储介质
CN113779075A (zh) * 2021-09-18 2021-12-10 平安国际智慧城市科技股份有限公司 基于差分隐私的数据查询方法、装置、设备及存储介质
CN115455483A (zh) * 2022-09-21 2022-12-09 广州大学 一种基于本地差分隐私的大数据频数估计方法
CN115455483B (zh) * 2022-09-21 2023-12-26 广州大学 一种基于本地差分隐私的大数据频数估计方法
CN117744137A (zh) * 2023-12-06 2024-03-22 广东电网有限责任公司 一种基于差分隐私的能源电力数据发布方法及装置
CN118153110A (zh) * 2024-04-09 2024-06-07 荣耀终端有限公司 一种数据处理方法及相关装置
CN118153110B (zh) * 2024-04-09 2024-10-22 荣耀终端有限公司 一种数据处理方法及相关装置

Similar Documents

Publication Publication Date Title
CN110874488A (zh) 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质
WO2006071830A1 (en) System and method for adaptive query identification and acceleration
US10083194B2 (en) Process for obtaining candidate data from a remote storage server for comparison to a data to be identified
Du et al. Ldptrace: Locally differentially private trajectory synthesis
CN111159413A (zh) 日志聚类方法、装置、设备及存储介质
Liu et al. Face image publication based on differential privacy
CA3031113A1 (en) Protected indexing and querying of large sets of textual data
Han et al. Research on trajectory data releasing method via differential privacy based on spatial partition
Sun et al. Distributed clustering in the anonymized space with local differential privacy
Katsomallos et al. Privacy, space and time: A survey on privacy-preserving continuous data publishing
Yang et al. K-Means Clustering with Local Distance Privacy
Zhang et al. A local differential privacy trajectory protection method based on temporal and spatial restrictions for staying detection
Morishima et al. Acceleration of anomaly detection in blockchain using in-GPU cache
Zou et al. Relation-CNN: Enhancing website fingerprinting attack with relation features and NFS-CNN
Dutta et al. Towards" intelligent compression" in streams: a biased reservoir sampling based bloom filter approach
Liu et al. XY-sketch: On sketching data streams at web scale
Qahtan et al. Efficient estimation of dynamic density functions with an application to outlier detection
Jia et al. Erasable virtual hyperloglog for approximating cumulative distribution over data streams
Luo et al. Arrays of (locality-sensitive) count estimators (ACE): high-speed anomaly detection via cache lookups
Yang et al. P4mobi: A probabilistic privacy-preserving framework for publishing mobility datasets
Jiang et al. Research on protective mining method for privacy data in network based on apriori algorithm
Jiang et al. Online Context-aware Data Release with Sequence Information Privacy
Li et al. Effective privacy preservation over composite events with Markov correlations
Liu et al. Frequent itemset mining of user’s multi-attribute under local differential privacy
CN110750565A (zh) 基于物联网数据流滑动窗口模型的实时区间查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200310