CN109117669B

CN109117669B - MapReduce相似连接查询的隐私保护方法及系统

Info

Publication number: CN109117669B
Application number: CN201810919923.5A
Authority: CN
Inventors: 金海�; 丁晓锋; 杨婉璐
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2020-08-28
Anticipated expiration: 2038-08-14
Also published as: CN109117669A

Abstract

本发明公开了一种MapReduce框架下相似连接查询的隐私保护方法及系统，其中，该方法针对相似连接查询的隐私泄露问题，结合差分隐私技术，达到既能保护数据隐私，又能提供给查询者满足需求的查询结果。具体为：将原数据进行预处理；构建隐私全局排序列表；实施过滤策略，产生候选集；对候选集中的相似对采用满足差分隐私的相似函数进行相似度计算及验证。本发明用以解决在连接查询中的数据安全性和可用性之间的矛盾，并且在MapReduce中实施支持隐私保护的相似连接查询来提高查询效率，引入了Laplace噪声机制来加强隐私保护性能。该发明保证了连接查询在可用性，安全性及高效性三方面的平衡。

Description

MapReduce相似连接查询的隐私保护方法及系统

技术领域

本发明属于数据安全领域，更具体地，涉及一种MapReduce框架下相似连接查询的隐私保护方法及系统。

背景技术

近年来，随着信息技术的飞速发展，数据收集和共享越来越便捷，也丰富了我们的生活。然而，当人们从大数据中受益时，保护个人隐私变得非常困难。如今非法泄露窃取个人信息作为商业用途等恶意使用个人敏感数据导致个人隐私岌岌可危，尤其是在云环境下该现象更普遍。例如典型的AOL公开匿名的搜索记录导致了数据泄露，以及近期Facebook承认将用户信息泄露给其他数据分析公司等。面对这严峻的形势，无论是在工业界或学术界，实施敏感数据保护都势在必行。现有的隐私保护技术主要可分为：数据扰动(如差分隐私等)，数据匿名化(如k-匿名等)，加密技术(如同态加密等)及访问控制技术(如强制访问控制等)，然而目前的方法都或多或少有些缺陷，如何改进完善这些技术也是研究者们关注的热点。

面向查询服务的数据隐私保护中常用的个人属性标识有显示标识符：能唯一标识单一个体的属性，如身份证号码、姓名等；准标识符：组合起来能唯一标识一个人的多个属性，如邮编、性别、生日等的联合表示；敏感属性：包含敏感数据的属性，尤其是涉及隐私的，如疾病、个人薪资、病人患病记录、单位财务信息等。我们目的也是希望在查询者进行数据查询时能保护数据的敏感属性不被泄露。连接查询是一种广泛应用于数据分析、搜索、整合等处理过程的基本操作，但随着数据量的增大，对存储空间和效率的要求越来越高，另外如果数据拥有者提供的数据包括个人的私人敏感信息，如身份信息或密码，通过连接查询操作能轻易获取到隐私信息。因此，设计高效的保护相似连接查询过程中数据的隐私信息至关重要。

目前，针对该问题的隐私保护主要有安全多方计算，但该方法在时间上的开销非常大，不适合海量数据的管理；对于数据匿名化技术容易受到链接攻击，并且需要提前建立攻击者模型，拓展性不够；现有一些提高MapReduce计算的安全和隐私方案，可是没有适用连接查询的可行技术；另外众多方法往往着重于相似连接查询的效率优化上，在隐私相关的挑战依然存在不足。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种MapReduce下相似连接查询的隐私保护方法及系统，由此解决相似性连接查询中存在的隐私泄露的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种MapReduce下相似连接查询的隐私保护方法，包括：

(1)对原始数据集中的每条记录分配记录号，提取关键词，并根据各条记录的记录号对记录进行划分，以均衡各结点负载，提高查询效率；

(2)在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率，从而得到每个关键词的权重，并对各关键词对应的权重均加上Laplace噪声机制，得到一个按序排列的隐私全局排序列表，存储于分布式文件系统中；

(3)根据所述隐私全局排序列表，提取各条记录的前缀，把前缀关键词作为key，对应的记录作为value，建立key/value对的倒排索引，按key进行分组，并采用长度过滤和位置过滤筛选后得到相似对的候选集；

(4)对所述候选集中的相似对两两进行相似度计算，并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定，以输出相似度大于预设相似度阈值的相似对，作为查询结果。

优选地，步骤(2)包括：

(2-1)扫描整个原始数据集，在第一个MapReduce任务中，对每条记录r_j，计算每个token在该条记录r_j中出现的次数，记为C_ij，其中，j表示第j条记录，i表示记录中的第i个token；

(2-2)将每个token和C_ij合并后作为key，对于每个key，由map函数产生(key，1)键值对，并在map函数之后使用combine函数统计该key在原始数据集中出现的次数，以减少reduce的任务开销；

(2-3)在reduce函数中，统计所有key的词频，记为R_ij，在R_ij值上加上Laplace噪声后作为每个key的权重，R_ij表示在第j条记录中，第i个token的词频；

(2-4)在第二个MapReduce任务中进行权重排序，由map函数交换键值对位置后交给reduce函数进行权重的排序处理得到隐私全局排序列表。

优选地，在步骤(2-3)中，由

确定每个token的权重，其中，

为服从尺度参数为

的Laplace分布的随机噪声，Δf为全局敏感度，∈₁为隐私保护预算，W_ij表示第j条记录中，第i个token的权重。

优选地，步骤(3)包括：

(3-1)根据所述隐私全局排序列表，提取每条记录前缀，把前缀token作为key值，与之对应的记录号及记录作为value值，所有的key/value对按key进行分组后，分配到各个reduce中，以进行前缀过滤，其中，共享相同前缀的记录被分到同一组中；

(3-2)进行长度过滤，由|R|×t≤|S|≤|R|/t及各记录的长度，判断key/value相似对是否可能出现在候选集中，其中，|R|表示数据集R的记录长度，|S|表示另一个数据集S的记录长度，t表示相似连接查询阈值；

(3-3)由

|R_l(w)∩S_l(w)|+min(|R|-pos(R，w)，|S|-pos(S，w))+1≥t进行位置过滤，R_l(w)为以元素w分割有序序列R中的左半部分，pos(R，w)为元素w在R中的位置，S_l(w)为以元素w分割有序序列S中的左半部分，pos(S，w)为元素w在S中的位置；

(3-4)经过前缀过滤、长度过滤及位置过滤后得到候选集。

优选地，步骤(4)包括：

(4-1)在reduce函数中，采用杰卡德Jaccard函数对得到的候选集中的相似对两两进行相似度计算；

(4-2)对各相似度值加入差分隐私Laplace噪声机制得到目标相似度；

(4-3)由于相似度范围为0到1，对所述目标相似度进行范围限定，将超出1的目标相似度值设定为1，小于0的目标相似度值设定为0。

按照本发明的另一方面，提供了一种MapReduce下相似连接查询的隐私保护系统，包括：

数据预处理模块，用于对原始数据集的每条记录分配记录号，提取关键词，并根据各条记录的记录号对记录进行划分，以均衡各结点负载，提高查询效率；

构建隐私全局排序列表模块，用于在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率，从而得到每个关键词的权重，并对各关键词对应的权重均加上Laplace噪声机制，得到一个按序排列的隐私全局排序列表，存储于分布式文件系统中；

过滤模块，用于根据所述隐私全局排序列表，提取各条记录的前缀，把前缀关键词作为key，对应的记录作为value，建立key/value对的倒排索引，按key进行分组，并采用长度过滤和位置过滤筛选后得到相似对的候选集；

相似度计算及验证模块，用于对所述候选集中的相似对两两进行相似度计算，并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定，以输出相似度大于预设相似度阈值的相似对，作为查询结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)查询结果的高可用性：通过和真实相似度值及相似度对数进行对比评估，保证了相似对的信息得以保留，相似度的扰动没有过大；

(2)相似连接查询的高安全性：能最大程度上保证任意个体信息不被泄露，针对相邻数据集(至多只相差一条记录)的查询结果输出概率比值不超过e^∈，并且敌手无法通过全局排序推测出原数据；

(3)相似连接查询的高效性：在实施隐私保护过程中通过高效的差分隐私技术保障在提供隐私保护的同时不带来更多的时间消耗；进一步地，基于MapReduce框架搭建分布式环境下支持隐私保护的相似连接查询，考虑了MapReduce中的隐私问题同时效率得到提升；

(4)相似连接查询的可用性，安全性及高效性三者的动态平衡机制得到极大改善，通过调节隐私预算参数能够保证高可用性，高安全性，并能保证查询的高效性。

附图说明

图1为本发明实施例提供的一种方法流程图；

图2为本发明实施例提供的一种MapReduce的执行框架图；

图3为本发明一实施例中构建隐私全局排序列表步骤的示意图；

图4为本发明一实施例中过滤步骤的示意图，其中：(a)为前缀提取示意图；(b)为倒排索引示意图；

图5为本发明一实施例中相似度计算及验证步骤中实施隐私保护策略的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种MapReduce框架下相似连接查询的隐私保护方法及系统，在MapReduce框架下设计高效的支持隐私保护的相似连接查询算法，弥补查询过程中及结果的隐私泄露问题，达到既能同时保护数据隐私，又能保障一定的实用性的目的，即提供给用户满足需求的查询结果。该发明保证了该查询在可用性、安全性及高效性三者上的平衡。

如图1所示为本发明实施例提供的一种MapReduce框架下相似连接查询的隐私保护方法，包括以下步骤：

(1)预处理：对原数据的每条记录分配ID号，提取关键词，并对记录进行划分；

在本发明实施例中，预处理的具体实现方式为：

根据输入的文本数据，对原始数据集中记录进行分割，提取出每条记录中有用的关键词，并对每条记录分配记录号(RID)。采用基于键的哈希划分方法，使用RID作为划分的主键。并且根据结点数及记录长度对数据分块，来平衡各结点的处理任务量。

在本发明实施例中，优先将输入数据根据其自身特性进行划分，使得之后的处理效率得到极大提升。

(2)构建隐私全局排序列表：在分布式计算结点上执行统计所有关键词在每行出现的频率及在文本中的逆向频率，得到每个关键词的权重，并对权重加上拉普拉斯Laplace噪声机制，得到一个从小到大排序的列表，存储于分布式文件系统(Hadoop DistributedFile System，HDFS)中；

在本发明实施例中，构建隐私全局排序列表的具体实现方式为：

根据过滤策略中的前缀过滤步骤需要一个全局排序来进行前缀的签名提取，前缀过滤的定义如下：给定一个全局排序，数据集中每条记录的token基于该全局排序进行重排，其中排序后的前p个token就是该记录中长度为p的前缀，所需的前缀长度取决于记录长度及相似度阈值，给定阈值为t，记录长度为L，则有

该策略规定相似的记录在其前缀中至少共享一个公共token。

其中，在本发明实施例中的token可以代表单词、标识、属性等。

构建一个合适的排序列表可以有利于使过滤策略提取出好的特征签名，筛选出更合适的候选集。而另一方面，由于该排序列表会在查询过程中进行输出，因此采用基于词频的排序方式会直接揭露原数据集的数据统计信息，很容易泄露出其中的敏感信息。

构建隐私全局排序列表步骤旨在为前缀过滤生成更好的签名的同时，保障原数据的隐私信息不被泄露。如图2所示，为本发明实施例提供的一种MapReduce的执行框架图，该步骤具体包括：

(2-1)扫描整个数据集，在第一个MapReduce任务中，对每条记录r_j计算每个token在该条记录中出现的次数，记为C_ij；

(2-2)将token和C_ij合并后作为key，统计每个key在文本中出现的次数。对于每个key，可以通过map函数产生(key，1)键值对，为减少map函数到reduce函数过程中的数据传输开销，在map函数之后可以使用combine函数计算出每个map中该key的次数和；

(2-3)在reduce函数中，统计所有词频，记为R_ij。在该值R_ij上加上Laplace噪声后作为每个token的权重，其计算公式如下：

其中

为服从尺度参数为

的Laplace分布的随机噪声，其概率密度函数

Δf为全局敏感度，通过推算可得Δf＝1，∈₁为隐私保护预算，通过调节该参数可以影响隐私保护水平，W_ij表示第j条记录中，第i个token的权重；

(2-4)第二个MapReduce任务进行权重排序，map函数接收第一阶段的输出结果，交换键值对位置后交给reduce函数进行从小到大排序处理。

如图3所示，为本发明一实施例中构建隐私全局排序列表步骤的示意图，其中第一个MapReduce任务分为Map阶段、中间阶段及Reduce阶段，包含M个Map分任务及K个Reduce分任务进行token权重计算，下一个MapReduce任务进行根据权重从小到大的排序及隐私全局列表的输出。

(3)过滤：根据步骤(2)得到的排序列表，利用前缀过滤策略提取记录前缀，把前缀关键词作为key，记录作为value，建立key/value对的倒排索引，按key进行分组，进一步采用长度过滤和位置过滤策略，筛选后得到相似对的候选集；

在本发明实施例中，有效的相似连接算法依赖于有效的过滤策略，这可以减少需要验证的候选集中相似对的数量。过滤步骤包含三个过滤策略，分别是前缀过滤、长度过滤及位置过滤。具体步骤包括：

(3-1)前缀过滤，两个集合R、S的交大于等于t的必要条件是集合R的(|R|-t+1)个前缀和集合S的(|S|-t+1)个前缀至少有一个公共元素。根据隐私全局排序列表，提取每条记录前缀，把前缀token作为key值，与之对应的记录号及记录作为value值，所有的值按key进行分组，那么共享相同前缀的记录会分到同一组中；

其中，集合R、S表示两个不同记录中的token集合。

图4给出前缀过滤一个示例，其中，图4中的(a)包含三条记录，假定t＝3，可分别计算出其前缀长度均为2，将记录中的token进行按词频排序后可得到长度为2的前缀；图4中的(b)为该前缀的倒排索引，根据前缀签名可依次对应到记录。

(3-2)长度过滤，两个集合R、S的交大于等于t，那么需满足：

通过第一个MapReduce任务中计算的记录长度来判断相似对是否可能出现在候选集中；

(3-3)位置过滤，两个集合R、S的交大于等于t的必要条件是对于任意元素w，|R_l(w)∩S_l(w)|+min(|R|-pos(R，w)，|S|-pos(S，w))+1≥t，其中R_l(w)为以元素w分割有序序列R中的左半部分，pos(R，w)为元素w在R中的位置；

(3-4)经过以上过滤策略筛选后，减少了需要进行相似度计算的相似对，得到最终的候选集。

(4)相似度计算及验证：对得到的候选集中的相似对两两进行相似度计算，相似度函数采用杰卡德(Jaccard)函数，并对相似度值加入Laplace噪声扰动后对范围进行限定，输出相似度大于给定阈值的相似对，发布查询结果。

其中，候选集中的相似对仍然存在不满足相似度大于阈值的记录对，因此需要两两进行相似度的计算来验证其值是否大于阈值。但是，如果直接对相似查询的结果进行发布，对方会轻易推测出原数据集中的某些信息，尤其当数据集中包含敏感信息那么会造成一定的损失，为此重新定义了相似度的计算公式，保证其满足差分隐私，并将其实施于MapReduce框架中。具体实现方式为：

(4-1)在reduce函数中进行相似度计算，相似度函数为Jaccard相似度，对于两个集合R、S，其相似度表示为：

(4-2)对该相似度加入差分隐私Laplace噪声机制，可得最终相似度为：

其中可推算出Δ＝1，∈₂为隐私预算参数，可通过调节该参数达到不同的隐私保护程度；

(4-3)每个reduce相互独立，根据差分隐私的并行组合性质可知，相似度计算的组合算法构成∈₂-差分隐私保护；

(4-4)由于相似度范围为0到1，引入范围限制器对SIM进行范围限定，将超出1的设定为1，小于0的值设定为0。

图5为将差分隐私实施于MapReduce的示意图，主要在Reducer引入了噪声发生器和范围限制器，分别用于对相似度计算过程中加入噪声及对输出结果值进行范围限定，避免隐私泄露。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种MapReduce下相似连接查询的隐私保护方法，其特征在于，包括：

(4)对所述候选集中的相似对两两进行相似度计算，并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定，以输出相似度大于预设相似度阈值的相似对，作为查询结果；

步骤(2)包括：

(2-1)扫描整个原始数据集，在第一个MapReduce任务中，对每条记录r_j，计算每个token在该条记录r_j中出现的次数，记为C_ij，其中，j表示第j条记录，i表示记录中的第i个token，所述token为单词、标识或属性；

(2-2)将每个token和C_ij合并后作为key，对于每个key，由map函数产生(key，1)键值对，并在map函数之后使用combine函数统计该key在原始数据集中出现的次数，以减少reduce函数的任务开销；

2.根据权利要求1所述的方法，其特征在于，在步骤(2-3)中，由

确定每个token的权重，其中，

为服从尺度参数为

3.根据权利要求1或2所述的方法，其特征在于，步骤(3)包括：

(3-1)根据所述隐私全局排序列表，提取每条记录前缀，把前缀token作为key值，与之对应的记录号及记录作为value值，所有的key/value对按key进行分组后，分配到各个reduce函数中，以进行前缀过滤，其中，共享相同前缀的记录被分到同一组中；

(3-3)由|R_l(w)∩S_l(w)|+min(|R|-pos(R，w)，|S|-pos(S，w))+1≥t进行位置过滤，R_l(w)为以元素w分割有序序列R中的左半部分，pos(R，w)为元素w在R中的位置，S_l(w)为以元素w分割有序序列S中的左半部分，pos(S，w)为元素w在S中的位置；

(3-4)经过前缀过滤、长度过滤及位置过滤后得到候选集。

4.根据权利要求3所述的方法，其特征在于，步骤(4)包括：

5.一种MapReduce下相似连接查询的隐私保护系统，其特征在于，包括：

相似度计算及验证模块，用于对所述候选集中的相似对两两进行相似度计算，并对计算出的各相似度值加入Laplace噪声扰动后对范围进行限定，以输出相似度大于预设相似度阈值的相似对，作为查询结果；

所述在分布式计算结点上统计所有关键词在每行出现的频率及在原始数据集中的逆向频率，从而得到每个关键词的权重，并对各关键词对应的权重均加上Laplace噪声机制，得到一个按序排列的隐私全局排序列表，存储于分布式文件系统中，包括：