CN110874488A

CN110874488A - 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质

Info

Publication number: CN110874488A
Application number: CN201911121760.7A
Authority: CN
Inventors: 姚霖; 王轩; 蒋琳; 郭宁; 范茂顺
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-10

Abstract

本发明提供了一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质，该流数据频数统计方法包括：创建候选列表步骤：针对用户集合S，在保证差分隐私的前提下，近似地获得出现频数最多的记录；收集数据步骤：用户在本地实现差分隐私算法，将隐私化数据传送到服务器端；隐私预算分配步骤：将连续序列分为

个时间戳，在其分配隐私预算，根据时间，分配的隐私预算递减。本发明的有益效果是：本发明采用差分隐私和本地差分隐私结合的方式，能够从数据收集和数据分析层面实现对数据的高效保护，且能提高流数据实时发布速率。

Description

一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质。

背景技术

1.相关技术背景

基于计数的频数统计方法和基于摘要的频数统计方法是两种典型流数据频数统计方法^[35]。其适用场景基本相似，面向流数据根本的问题，都是设置一个起始时间，和一个当前时间以及最后时间，在时间范围内不断增长，统计结果不断更新，查询数据窗口和统计数据窗口时刻维持一致。

(1)基于计数的方法：基于计数的方法的核心思想是只针对出现频次较多的几个数据项进行保存，为其设置一个计数器，而对于出现频次较少的几个数据项不进行保存。这个方法主要不断更新频数最多几个元素的记录，对于其他数据项不计数，这样会急剧减少存储开销。选取数据集的容量和流数据的分布可以影响计数方法的准确率。也就是说，数据集的容量越大，算法的准确度越高。不同的算法的准确率不同，当数据分布倾斜的时候，有的计数算法，比如Freq算法最终估计的频繁项集会有不稳定的误差，有的计数算法可以给出一个同真实值比较近似的估计值，但是在数据分布较平稳的时候也会出现误差。

(2)基于摘要的方法：基于摘要的核心思想是事先考虑可能会出现的发布误差，决定所要使用的数据空间范围，算法使用的数据空间范围和数据分布无关。基于摘要的频数统计方法统计了频繁项和非频繁项的频数，从时间开销角度考虑是不值得的。通过摘要的形式统计所有频数统计并且排序。

2.与本发明相关的现有技术

2.1)现有技术的技术方案

(1)随机化隐私保护聚合响应

针对随机响应扰动机制的研究工作有很多，其中随机化隐私保护聚合响应(RAPPOR)就是其中的一个扩展。对于离散型数据，RAPPOR设计出改进版本的随机响应扰动机制方案。我们指定n个用户，对于任一用户u_i(1≤i≤n)，其拥有一个数据项v_i∈d，第三方收集并且统计d中数据项的个数。在RAPPOR方法中，其用户u_i将v_i表示为一个固定长度为d的0-1比特向量，经过哈希映射操作，只有向量中的一位是1，其余向量部分均为0。然后，针对固定长度的比特向量，使用设计的改进随机响应方式对比特向量进行随机响应操作。第三方得到n个用户的固定大小是d的比特向量，估计其对应的频数统计。

针对非均匀硬币的概率p的问题，RAPPOR设计符合差分隐私中的敏感度。对于给定的任意一个函数f，和两个相邻的数据集D₁和D₂，对应的敏感度为：

因此，函数f的敏感度为2。RAPPOR可以确保满足差分隐私，如果概率p为：

在RAPPOR方法中，比如用户提供的数据为v_i＝"88"。首先，将字符串使用哈希映射的方法将其映射到布隆过滤器(Bloom Filter)中去，长度为d的向量B＝{0,1}^d。而且，维持数据与布隆过滤器之间的对应关系，接着使用改进的随机响应扰动机制技术对向量B中的每一个比特位进行隐私化得到永久性随机响应结果B′。具体的扰动机制如下所示，p∈[0,1]表示概率取值：

然后，在前一轮扰动的基础上对向量B′中的每一个数据元素做二次扰动得到瞬时性随机响应结果S。然后，二次扰动机制如以下所示，其中o∈[0,1]和w∈[0,1]分别表示B_i′取值为1和0时，置S_i为1的概率：

数据提供者根据前面扰动后得到的隐私化结果S后，将输出结果传送给服务器端，服务器进行相应的校正。根据对应关系和回归方法实现对最后频数统计的估计。

在这个方法里面，采用的布隆过滤器是一系列的哈希函数和固定长度的比特向量。常用于检测数据是否在这个集合中，它的好处是查询时间快，空间开销低，不足之处是有一定的假阳率。

如图1所示，如果想判断一个元素是不是在一个集合里，可以使用k个哈希函数，如果，映射到的元素值都为1，则判定这个元素在这个集合里，如果，映射到的元素值不都为1，则一定不在这个集合里，当然，布隆过滤器存在一种情况，映射到的元素值均为1，但是这个元素不在这个集合里，一般被称为“假阳率”。

另外的方法是将所有候选值都存储到一起，对这个候选值的每个数据项经过比较决定。其他的数据结构比如链表和树结构也是同样的思想。数据项的不断更新，空间开销更大，对数据检索的能力更弱。

和其他的数据结构不同之处在于，这种数据结构在时间开销和空间开销两个方面有更大的好处。这种数据结构在空间开销，插入和查询操作都是常数。同时，所需映射函数彼此没有关联关系，可以并行加速。这种数据结构不存数据，可以有一定的安全性，它可以其它的数据结构，有更强的数据处理能力。

但是这种数据结构的缺点是很容易发现的，就是假阳率，在固定长度的比特向量中，不断地增加元素，适用于元素较多的情形，与之相比，散列表也是通过映射操作存储操作数据，但是在这种数据机构中不能轻易删除某个元素。当我们把每个比特位向量变换成一个长的数组的时候，对于新添加进来的元素保持一个计数器，它记录元素出现的次数，删除的时候，可以将记录器清楚就可以了。但是这种方法不能保护安全，我们事先一定确保要删除的数据项在这个数据结构里面，由于它的特性，其不能满足这个条件，使用其他的方法，比如计数器回绕也会造成问题。

(2)简洁直方图

由于RAPPOR每次传送固定长度的比特向量的问题，简洁直方图(Succinthistogram,SH)被提出。简洁直方图方法中每个数据提供者对数据进行编码后，任意选中某一个0-1位，使用随机响应扰动机制技术进行隐私化处理后，传送到第三方，这种方法就可以极大降低传输开销。简洁直方图方法中，假定列表中候选列表的大小k比数据提供者的数量n多，采用随机投影方法，其中所有字符串以m维0-1比特变量的形式出现，输出随机投影矩阵

所有字符串都属于集合为

输出如公式所示：

虽然简洁直方图方法确实降低了通信开销，但是简洁直方图方法的准确度是不断浮动的，这主要是因为随机投影矩阵

中每个数据项的变化是不确定的。

(3)随机化隐私保护聚合响应本地差分隐私挖掘

本地差分隐私挖掘(LDPMiner)是针对频繁项集进行操作的数据发布方法。针对n个数据提供者，每个数据提供者均包含d个项中的l个数据项，频繁项集空间为k′。本地差分隐私挖掘方法包括两个阶段，收集数据阶段，决定频繁项集和数据提供者传送频繁项对应的数据项。

本地差分隐私挖掘是基于随机化隐私保护聚合响应和简洁直方图方法进行的方法，针对数据提供者需要传送的变量多少，其通信开销高，所以采用采样方法使得每个数据提供者传送一条数据，共有下面两个步骤。

步骤1：采样的SH方法。拥有数据者在客户端隐私化数据，传送到服务器端，首先，统计各个数据的频数统计，选中频数最多的几个数据集合，最后，得到频繁项列表传送到各个客户端。

步骤2：采样的RAPPOR方法。数据提供者利用该技术对上一个记录的元素再次传给第三方，第三方进行相应的估计，得到最终的输出。

这种方法的主要特点体现在可以使用采样方法减少了隐私预算在关联数据项上面的分配，将选取候选列表和做统计的步骤分开，使得需要进行隐私化数据变少，可以使数据可用性增加。

2.2)评价现有技术的缺点

发明内容

本发明提供了一种基于混合差分隐私的流数据频数统计方法，包括：

创建候选列表步骤：针对用户集合S，在保证差分隐私的前提下，近似地获得出现频数最多的记录；

收集数据步骤：用户在本地实现差分隐私算法，将隐私化数据传送到服务器端；

隐私预算分配步骤：将连续序列分为n个时间戳，在其分配隐私预算，根据时间，分配的隐私预算递减。

作为本发明的进一步改进，在所述创建候选列表步骤中，首先，收集用户的数据集合S，记为D_S，将D_S传送给第三方，第三方做出统计，得到聚合后数据集合D_S；然后设置N(r,D)为某一条记录r在数据集D中出现的次数，N(r,D)为数值型数据，应用拉普拉斯实现机制，计算出拉普拉斯函数所对应的参数，将函数N(r,D)加入拉普拉斯噪声后，可满足差分隐私的条件，并最终得到出现频次最多的元素。

作为本发明的进一步改进，在所述收集数据步骤中，首先，构造k个哈希函数H＝{h₁,h₂,...,h_k}，给定ε差分隐私参数和用户上传的数据集d⁽¹⁾,d⁽²⁾,...,d⁽ⁿ⁾∈Dⁿ，对于数据集D中的每一条数据，应用Client算法，再利用CMS数据结构构造矩阵，最后，将矩阵传给第三方，第三方通过分析得到计算结果；Client算法：首先，设置差分隐私参数ε＞0和处理数据记录d∈D，对于一个数据项D→{0,1}^m，随机选择一个哈希函数，通过哈希算法得到编码向量v∈{0,1}^m；然后，对编码向量v∈{0,1}^m中的第h_j(d)位置为1，其他位置为0；最后，编码向量v中的每一个比特位以

的概率翻转，ε表示差分隐私参数，将隐私化编码向量

和选择的哈希函数发送到服务器端。

作为本发明的进一步改进，在所述隐私预算分配步骤中，首先从数据集(o₁,o₂,...,o_i-1)中选取最近非空的输出o_l；然后，计算当前输出c_i和最近非空输出o_l的相似度，利用平均绝对误差公式计算作为评价标准，使用拉普拉斯噪声机制对相似度加噪声；然后，计算当前剩余的隐私预算，比较相似度和拉普拉斯参数的大小，如果相似度小于设定值，就不输出当前结果，如果相似度大于设定值，可以对原始输出加相应噪声。

本发明还提供了一种基于混合差分隐私的流数据频数统计系统，包括：

创建候选列表模块：用于针对用户集合S，在保证差分隐私的前提下，近似地获得出现频数最多的记录；

收集数据模块：用于将用户在本地实现差分隐私算法，将隐私化数据传送到服务器端；

隐私预算分配模块：用于将连续序列分为n个时间戳，在其分配隐私预算，根据时间，分配的隐私预算递减。

作为本发明的进一步改进，在所述创建候选列表模块中，首先，收集用户的数据集合S，记为D_S，将D_S传送给第三方，第三方做出统计，得到聚合后数据集合D_S；然后设置N(r,D)为某一条记录r在数据集D中出现的次数，N(r,D)为数值型数据，应用拉普拉斯实现机制，计算出拉普拉斯函数所对应的参数，将函数N(r,D)加入拉普拉斯噪声后，可满足差分隐私的条件，并最终得到出现频次最多的元素。

作为本发明的进一步改进，在所述隐私预算分配模块中，首先从数据集(o₁,o₂,...,o_i-1)中选取最近非空的输出o_l；然后，计算当前输出c_i和最近非空输出o_l的相似度，利用平均绝对误差公式计算作为评价标准，使用拉普拉斯噪声机制对相似度加噪声；然后，计算当前剩余的隐私预算，比较相似度和拉普拉斯参数的大小，如果相似度小于设定值，就不输出当前结果，如果相似度大于设定值，可以对原始输出加相应噪声。

本发明还提供了一种基于混合差分隐私的流数据频数统计装置，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明中所述的流数据频数统计方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明中所述的流数据频数统计方法的步骤。

本发明的有益效果是：本发明采用差分隐私和本地差分隐私结合的方式，能够从数据收集和数据分析层面实现对数据的高效保护，且能提高流数据实时发布速率。

附图说明

图1是背景技术的示意图。

图2是背景技术的第一种方案示意图。

图3是背景技术的第二种方案示意图。

图4是背景技术的第三种方案示意图。

具体实施方式

缩略语和关键术语定义:

(1)ε-差分隐私：一个算法A满足ε-differential privacy(ε-DP)当且仅当对于任何数据集D₁和D₂只有一个元素不同,得到:

对于一个数据集D₁，删除或者修改其中任何一条记录变为D₂，在某个随机化算法在两个数据集下面得到相同输出的概率是近似的。差分隐私的定义仅仅对于随机化算法有作用。但是不适用于任何能给出确定性输出的算法。

差分隐私定义中的ε值提供隐私保护的能力，也被叫做隐私预算。针对差分隐私对于隐私泄露的描述，当隐私泄露值越小时，数据保护水平越高，当其为零时，两个数据集得到相同的输出，然而会使得所有的数据项相同，数据的价值会大大降低，因此隐私泄露的控制是综合数据的价值和对数据保护的程度而决定的。

(2)敏感度：差分隐私中通过加噪声的方式实现隐私保护，敏感度可以影响噪声，当噪声过大的时候，会影响数据可用性。下面是对于敏感度的定义。

给定查询函数f:D→R^d，函数f的敏感度是：

Δf＝max||f(D₁)-f(D₂)||

根据差分隐私的定义，相邻数据集D₁和D₂最多有一条记录不同，R指的是映射的实数空间，d指的是函数f的维度。其中扰动的实现主要基于对数据或者计算公式添加噪声的操作，所以，噪声的大小和允许隐私泄露范围的大小有关，也就是和敏感程度有关，过多的噪音会降低数据的价值，而过少的噪音会降低数据的安全性。

对于实现隐私保护的方法，目前采用的其中之一方法是拉普拉斯机制^[36]。这个机制是对于整型等类型的数据处理，另一种实现机制，指数机制面向可数类型的数据进行处理。因为差分隐私主要靠加噪音实现隐私保护，所以噪音方法会综合敏感度和隐私预算的两方面原因。

(3)拉普拉斯机制：拉普拉斯实现机制对于目标输出为整型等类型的数据，在输出之前，添加满足对应分布的扰动保护数据。拉普拉斯函数中，设置位置参数为0、变化参数b，它的分布满足以下函数：

给定任意函数f:D→R^d，表达式A(D)的输出满足下列等式，即满足ε-差分隐私

由此可见，添加噪声的大小与Δf和ε的取值相关。

因为拉普拉斯实现机制仅仅可以处理整型等数据，作用范围小，对于其他可数类型数据无法处理。基于这个原因，后续有研究人员提出了指数机制。

对于一个请求，它的输出范围是Range，在输出范围中的任一数值r∈Range是一个可数对象。对于这种机制，任一数值的映射关系q(D,r)→R叫做它的输出函数，它的大小决定r的好坏范围大小。

(4)指数机制：针对数据集D，存在随机算法A，分析结果r∈Range。若算法A以其

的情况从Range中选中并且输出r，就是说算法A提供ε-差分隐私保护。

差分隐私的定义主要针对个人信息的保护，对于攻击者获得的信息多少有相应的限制。而且，它还具有以下的属性：

可组合性：如果用保证程度分别为ε₁和ε₂的差分隐私来回应两个查询，则该对查询的差分隐私性等同于保证程度(ε₁+ε₂)。较高的ε值意味着较弱的保证。

后处理性：对于差分隐私的结果，没有限制可以做什么——无论它与什么结合或者怎么被转换，它仍然是差分隐私的。

如果说能在一定条件下无限检索数据库，那么理论上我可以还原这个数据库。差分隐私就是无论你怎么检索，都无法还原一个准确、完整的数据库。

(5)滑动窗口模型：首先，流数据是有序的、数量多的、不断到达的数据序列，在很多种研究工作中，流数据被当做一个根据时间的流动，数据在不断增长，形成动态数据集合。在滑动窗口模型中，设置固定长度为T窗口大小，在每个时间戳中，令数据集合为D＝{x₁,x₂,...,x_T}。数据集合中的每个数据点x_i包含第i个时间戳的信息。简单地说，如果x_i是一个直方图。对流数据建模分析，每一个部分都由起始位置，当前位置和窗口尺寸定义。经常来说，窗口大小值被设置为使用固定窗口大小|w|。在每个时间戳发布中，流数据直方图发布当前时间戳所对应的直方图。比如在医院监控中，要求统计医院患者的年龄分布情况。所以，根据时间戳的滑动，在每个窗口中实现符合差分隐私保护的直方图。

(6)不同距离测度概述：距离可以用来描述样本之间的相异度，本方案采用距离测度来衡量数据间的相似性。设x_i和x_j是两个p维的样本点，x_i＝{x_i1,x_i2,..,x_ip}′，x_j＝{x_j1,x_j2,..,x_jp}′，它们之间的距离d(x_i,x_j)应满足如下的条件：

(1)非负性：d(x_i,x_j)≥0。

(2)对称性：d(x_i,x_j)＝d(x_j,x_i)。

(3)三角不等性：d(x_i,x_j)≤d(x_i,x_m)+d(x_m,x_j)，其中x_m也是p维的样本点。

主要介绍以下三种距离测度：

(1)L1距离：

L1距离的计算相对容易，缺点是对数据之间相似度变化的敏感度不高。

(2)余弦距离：

余弦距离的计算时，首先令两个数据项为两条向量，然后计算向量之间的夹角，根据不同数据之间角度的变化，得出变化的相似度。

(3)马氏距离：

其中：

∑＝(σ_kt)_p*p

本发明公开了一种基于混合差分隐私的流数据频数统计方法,下面进行具体说明：

下面介绍创建候选列表的算法，使用差分隐私实现隐私保护。算法的目标是针对用户集合S，在保证差分隐私的前提下，近似地获得出现频数最多的记录。首先，收集用户S的数据集合，记为D_S。将其传送给可信第三方，第三方做出统计，得到聚合后数据集合D_S。下一步，针对频数统计这个问题，算法中设置N(r,D)为某一条记录r在D中出现的次数。N(r,D)为数值型数据，所以可以应用拉普拉斯实现机制，计算出拉普拉斯函数所对应的参数。将函数N(r,D)加入拉普拉斯噪声后，可满足差分隐私的条件，并最终得到出现频次最多的元素，即候选列表阶段。

根据上一小节输出得到的候选列表，针对用户集合C，每一个用户选择属于该候选列表的元素，作为将要传送的数据。在这个集合中，如果传送多个值给服务器端，会造成很高的敏感度，影响实验的效果。所以这里采用从集合中随机抽取其中一个元素。下面介绍收集数据阶段的算法，使用本地差分隐私实现隐私保护。算法的目标是在用户在本地实现差分隐私算法，将隐私化数据传送到服务器端。

下面将给出算法的完整框架：

算法2介绍了收集数据阶段的详细流程。首先，构造k个哈希函数H＝{h₁,h₂,...,h_k}，给定ε差分隐私参数和用户上传的数据集d⁽¹⁾,d⁽²⁾,...,d⁽ⁿ⁾∈Dⁿ。对于数据集中的每一条数据，应用Client算法，再利用CMS数据结构构造矩阵，最后，将矩阵传给第三方，第三方可以通过分析得到计算结果，下面介绍Client算法：

首先，设置差分隐私参数ε＞0和处理数据记录d∈D。由于目前直接编码方式导致数据可用性偏低，本发明提出改进的编码方式，能够提高数据可用性。对于一个数据项D→{0,1}^m，随机选择一个哈希函数，通过哈希算法得到v∈{0,1}^m。第二步，对编码向量v∈{0,1}^m中的第h_j(d)位置为1，其他位置为0。最后，编码向量v中的每一个比特位以

的概率翻转。最后，将这个隐私化的向量和选择的哈希函数发送到服务器端。

下面介绍算法4。首先，设置

对记录进行第二次的隐私化操作，然后对每一个记录

转换成

第二步，构造Count-Min Sketch矩阵M∈R^k*m，行表示哈希函数的个数，列表示哈希函数对应值的总和。数据集

表示从用户发送的数据。下面是对算法的详细描述：

最后，第三方得到Count-Min Sketch矩阵M，根据{h₁,h₂,...,h_k}，将候选列表的值分别使用k个哈希函数，映射到不同位置，根据映射到位置的数值，取平均数作为该数据项的估计值。

针对分配隐私预算问题，目前常用的分配方式为二分法，这种分配方式在前期分配大量隐私预算，后期分配过少隐私预算，进而产生较大噪声误差。这种分配策略的优点是隐私保护能力很高，缺点是数据可用性急剧降低。只适用于滑动窗口较小的情况。所以，在动态发布直方图阶段，本发明提出的隐私预算分配策略Budget Distribution(BD)，可以在不同滑动窗口大小上面有稳定的表现。其基本思路是，将连续序列分为n个时间戳，在其分配隐私预算，根据时间，分配的隐私预算递减。

算法5是BD算法的具体描述，首先选取最近非空的输出o_l，即分配隐私预算的输出c_i。然后，计算当前输出c_i和最近非空输出o_l的相似度。利用平均绝对误差公式计算(MeanAbsolute Error,MAE)作为评价标准。使用拉普拉斯噪声机制对相似度加噪声。下一步，计算当前剩余的隐私预算，目的是确保当前滑动窗口分配隐私预算的总和不超过总体的隐私预算。比较相似度和拉普拉斯参数的大小，如果相似度过低，就不输出当前结果，如果相似度高，可以对原始输出加相应噪声。

数据拥有者提供数据给可信第三方，第三方对收集的数据进行频数统计，发布统计结果。如图2所示。但是，攻击者可以根据频数统计结果，结合其他背景知识，推断出用户的隐私信息。比如，2006年，美国Netflix公司举办了一个算法竞赛，将原始数据集中的用户名做了随机化处理后，发布数据集给数据分析者使用。但是，对用户名进行扰动的方法是不能够保证隐私的。2007年，一些来自德克萨斯大学奥斯汀分校的两位研究员表示通过关联Netflix公开的数据和IMDB网站上公开的记录能够识别匿名后用户的身份。所以，针对以上问题，可以选择差分隐私的方法对频数统计结果进行扰动，能保证用户数据的安全性，同时有一定的精度损失。

如图3所示，可信第三方在发布频数统计结果之前，先执行差分隐私算法。这样对于攻击者，其无法根据背景知识推断用户的信息。但是，实际情况下，很难找到可信的第三方。第三方存在隐私泄露的可能性。比如被恶意攻击或者非授权地访问。后续研究者在差分隐私的基础上，提出了本地差分隐私算法。如图4所示，本地差分隐私算法将隐私化的操作转移到本地。但是存在一个问题，因为第三方收集到的数据为隐私化后的数据，为了对原始数据进行频数统计，第三方需要一个候选列表。同时，在很多场景下，需要对连续型的流数据进行处理和分析，得到连续发布的频数统计结果。所以，本发明设计出一种基于差分隐私的流数据频数统计方法。

本发明还公开了一种基于混合差分隐私的流数据频数统计系统，包括：

在所述创建候选列表模块中，首先，收集用户的数据集合S，记为D_S，将D_S传送给第三方，第三方做出统计，得到聚合后数据集合D_S；然后设置N(r,D)为某一条记录r在数据集D中出现的次数，N(r,D)为数值型数据，应用拉普拉斯实现机制，计算出拉普拉斯函数所对应的参数，将函数N(r,D)加入拉普拉斯噪声后，可满足差分隐私的条件，并最终得到出现频次最多的元素。

在所述收集数据模块中，首先，构造k个哈希函数H＝{h₁,h₂,...,h_k{，给定ε差分隐私参数和用户上传的数据集d⁽¹⁾,d⁽²⁾,...,d⁽ⁿ⁾∈Dⁿ，对于数据集D中的每一条数据，应用Client算法，再利用CMS数据结构构造矩阵，最后，将矩阵传给第三方，第三方通过分析得到计算结果；Client算法：首先，设置差分隐私参数ε＞0和处理数据记录d∈D，对于一个数据项D→{0,1}^m，随机选择一个哈希函数，通过哈希算法得到编码向量v∈{0,1}^m；然后，对编码向量v∈{0,1}^m中的第h_j(d)位置为1，其他位置为0；最后，编码向量v中的每一个比特位以

的概率翻转，ε表示差分隐私参数，将隐私化编码向量

和选择的哈希函数发送到服务器端。

在所述收集数据模块中，利用CMS数据结构构造矩阵的方法为：首先，设置

对记录进行第二次的隐私化操作，然后对每一个记录

转换成

然后，构造Count-Min Sketch矩阵M∈R^k*m，行表示哈希函数的个数，列表示哈希函数对应值的总和；数据集

表示从用户发送的数据；最后，第三方得到Count-Min Sketch矩阵M，根据{h₁,h₂,...,h_k}，将候选列表的值分别使用k个哈希函数，映射到不同位置，根据映射到位置的数值，取平均数作为该数据项的估计值。

在所述隐私预算分配模块中，首先从数据集(o₁,o₂,...,o_i-1)中选取最近非空的输出o_l；然后，计算当前输出c_i和最近非空输出o_l的相似度，利用平均绝对误差公式计算作为评价标准，使用拉普拉斯噪声机制对相似度加噪声；然后，计算当前剩余的隐私预算，比较相似度和拉普拉斯参数的大小，如果相似度小于设定值，就不输出当前结果，如果相似度大于设定值，可以对原始输出加相应噪声。

本发明还公开了一种基于混合差分隐私的流数据频数统计装置，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的流数据频数统计方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的流数据频数统计方法的步骤。

本发明的有益效果：

(1)本明对国内外研究学者对频数统计相关研究的调研和分析，以及对流数据发布工作的调研和分析，对其优缺点有详细的说明解释。基于可信第三方保护模型的开销小，实现方便，原因是它依赖一个可信的第三方，第三方保存的数据形式是原文数据，可能存在泄漏数据的风险，所以对个人隐私信息肯定会产生一定的影响。本发明采用差分隐私和本地差分隐私结合的方式，能够从数据收集和数据分析层面实现对数据的高效保护。

(2)本发明对静态数据集和动态数据集分别做了实验对比分析，针对动态数据集，使用适用于各个大小的滑动窗口模型可以实现合理地分配隐私预算。合理的隐私预算分配策略能大大降低总体误差，且能提高流数据实时发布速率。

(3)本发明进行了隐私性和安全性的分析，分别针对三种不同的攻击者能力，进行了相应的安全性证明。根据设置的隐私预算，攻击者可以获取预算下的信息，不能获取更多的甚至原始的信息。对算法隐私保护的能力做了量化的评价。

(4)本发明对算法的时空复杂度和通信开销做了理论分析，以对比实验验证该算法的正确性和高效性。本发明提出的基于混合差分隐私的频数统计扩展了布隆过滤器数据结构，使用了Count-Min Sketch数据结构能够很好的避免冲突碰撞，提高数据的可用性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于混合差分隐私的流数据频数统计方法，其特征在于，包括：

2.根据权利要求1所述的流数据频数统计方法，其特征在于，在所述创建候选列表步骤中，首先，收集用户的数据集合S，记为D_S，将D_S传送给第三方，第三方做出统计，得到聚合后数据集合D_S；然后设置N(r,D)为某一条记录r在数据集D中出现的次数，N(r,D)为数值型数据，应用拉普拉斯实现机制，计算出拉普拉斯函数所对应的参数，将函数N(r,D)加入拉普拉斯噪声后，可满足差分隐私的条件，并最终得到出现频次最多的元素。

3.根据权利要求1所述的流数据频数统计方法，其特征在于，在所述收集数据步骤中，首先，构造k个哈希函数H＝{h₁,h₂,...,h_k}，给定ε差分隐私参数和用户上传的数据集d⁽¹⁾,d⁽²⁾,...,d⁽ⁿ⁾∈Dⁿ，对于数据集D中的每一条数据，应用Client算法，再利用CMS数据结构构造矩阵，最后，将矩阵传给第三方，第三方通过分析得到计算结果；Client算法：首先，设置差分隐私参数ε＞0和处理数据记录d∈D，对于一个数据项D→{0,1}^m，随机选择一个哈希函数，通过哈希算法得到编码向量v∈{0,1}^m；然后，对编码向量v∈{0,1}^m中的第h_j(d)位置为1，其他位置为0；最后，编码向量v中的每一个比特位以

的概率翻转，ε表示差分隐私参数，将隐私化编码向量

和选择的哈希函数发送到服务器端。

4.根据权利要求3所述的流数据频数统计方法，其特征在于，在所述收集数据步骤中，利用CMS数据结构构造矩阵的方法为：首先，设置

对记录进行第二次的隐私化操作，然后对每一个记录

转换成

然后，构造Count-Min Sketch矩阵M∈R^k ^*m，行表示哈希函数的个数，列表示哈希函数对应值的总和；数据集

5.根据权利要求1所述的流数据频数统计方法，其特征在于，在所述隐私预算分配步骤中，首先从数据集(o₁,o₂,...,o_i-1)中选取最近非空的输出o_l；然后，计算当前输出c_i和最近非空输出o_l的相似度，利用平均绝对误差公式计算作为评价标准，使用拉普拉斯噪声机制对相似度加噪声；然后，计算当前剩余的隐私预算，比较相似度和拉普拉斯参数的大小，如果相似度小于设定值，就不输出当前结果，如果相似度大于设定值，可以对原始输出加相应噪声。

6.一种基于混合差分隐私的流数据频数统计系统，其特征在于，包括：

7.根据权利要求6所述的流数据频数统计系统，其特征在于，在所述创建候选列表模块中，首先，收集用户的数据集合S，记为D_S，将D_S传送给第三方，第三方做出统计，得到聚合后数据集合D_S；然后设置N(r,D)为某一条记录r在数据集D中出现的次数，N(r,D)为数值型数据，应用拉普拉斯实现机制，计算出拉普拉斯函数所对应的参数，将函数N(r,D)加入拉普拉斯噪声后，可满足差分隐私的条件，并最终得到出现频次最多的元素。

8.根据权利要求6至7任一项所述的流数据频数统计系统，其特征在于，在所述隐私预算分配模块中，首先从数据集(o₁,o₂,...,o_i-1)中选取最近非空的输出o_l；然后，计算当前输出c_i和最近非空输出o_l的相似度，利用平均绝对误差公式计算作为评价标准，使用拉普拉斯噪声机制对相似度加噪声；然后，计算当前剩余的隐私预算，比较相似度和拉普拉斯参数的大小，如果相似度小于设定值，就不输出当前结果，如果相似度大于设定值，可以对原始输出加相应噪声。

9.一种基于混合差分隐私的流数据频数统计装置，其特征在于：包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－5中任一项所述的流数据频数统计的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－5中任一项所述的流数据频数统计的步骤。