CN104123504A

CN104123504A - 一种基于频繁项检索的云平台隐私保护方法

Info

Publication number: CN104123504A
Application number: CN201410305357.0A
Authority: CN
Inventors: 钟珞; 杨光; 李琳; 唐琨皓
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2014-10-29
Anticipated expiration: 2034-06-27
Also published as: CN104123504B

Abstract

本发明涉及一种基于频繁项检索的云平台隐私保护方法，该方法包括：根据关联规则算法抽取出数据的频繁项集；通过多关键字并行检索建立频繁项模型库；使用并行分布式排序算法对检索结果排序，找出敏感记录；在云平台上使用聚类算法对敏感记录进行差分隐私保护。本发明方法根据数据的频繁项的情况，检索出会暴露出用户信息的敏感记录，并针对性的做差分隐私保护。从而避免根据已知的非敏感信息推测出相关敏感信息。本方法只对敏感记录进行保护，未影响到其他信息量，在提高发布数据的效用的同时，减少了数据泄漏风险，保证了云平台上的数据安全。

Description

一种基于频繁项检索的云平台隐私保护方法

技术领域

本发明涉及云安全领域，具体是指一种基于频繁项检索的云平台隐私保护方法。

背景技术

隐私保护方法是一种伴随着数据应用而提出的，由实际应用所决定的数据保护方法，最先被用于统计领域。一般是通过引入统计模型和概率模型来实现保护在较低应用层次上数据的隐私。对于较高层次的数据应用，主要是用面向数据挖掘的隐私保护技术，根据不同数据挖掘操作的特性来实现对应用上隐私的保护。而各类应用中可以通用的隐私保护方法，一般由基于隐私保护的数据发布技术来实现。

目前，面对大数据，在云平台上的数据隐私保护方法，并不能满足对数据保护的需求，无法针对一些攻击模型。随着互联网技术不断的、飞速的发展，数据的共享变得越来越便捷，隐私数据泄露事件越来越多。个人隐私安全得不到保障。现有的大多数隐私保护都是针对保护敏感信息，没有考虑到敏感属性与特定实体的关联，无法阻止由非敏感信息对敏感信息的推测，但对全部信息进行保护又会失去数据本身的效用。

为了解决这个问题，需要研究怎样去在提高发布数据的效用的同时，减少数据泄露风险，保障云平台上的数据安全。依据频繁项对数据做差分隐私保护是一种有效的手段。依据频繁项的差分保护是指，根据频繁项的情况，检索出可能会被推测出的敏感记录，然后对这些敏感记录做差分隐私保护，从而保证其他数据的有效性和完整性。在保障数据效用的同时，减少了数据泄露的风险。

发明内容

鉴于上述现有技术的不足，本发明目的旨在提供一种基于频繁项检索的云平台隐私保护方法，该方法在云计算平台上，通过抽取出数据的频繁项，将可能被推测出的敏感记录检索出来，然后针对性的做数据差分隐私保护，本发明只保护需要被特别保护的数据，在提高发布数据的效用的同时，减少了数据泄露的风险，保障了数据安全，特别是能保障云平台上数据的安全。

实现本发明目的采用的技术方案是一种基于频繁项检索的云平台隐私保护方法，该方法包括：

(1)根据关联规则算法抽取出数据的频繁项集；

(2)通过多关键字并行检索建立频繁项模型库；

(3)使用并行分布式排序算法对检索结果排序，找出敏感记录；

(4)在云平台上使用聚类算法对敏感记录进行差分隐私保护。

在上述技术方案中，所述步骤(1)包括：

(1-1)根据数据情况和用户需要设定最小支持度和第1项候选集；

(1-2)分析原始数据的数据项，构建键值对序列集，通过键对序列集合第k项候选集的关联，找出频繁k项集；

(1-3)对频繁k项集的单表关联，并进行分布式剪枝，得出第k+1项候选集；

(1-4)对步骤(1-2)和(1-3)中的作业任务进行组合式链接执行，直到不能找出k+1项候选集。

在上述技术方案中，所述步骤(2)包括：

在云平台上，使用针对频繁项的多关键字并行检索，根据频繁项集中的各频繁项及其权值，以倒排索引的形式建立频繁项模型库。

在上述技术方案中，所述步骤(3)包括：

在云平台上，根据频繁项权值的分布情况，给评分设定一个阈值，以频繁项及其权值为关键字，使用并行分布式排序算法对检索结果进行排序，找出评分大于阈值的敏感记录。

在上述技术方案中，所述步骤(4)包括：

在云平台上，使用并行化的聚类算法对敏感记录进行聚类，从而将敏感记录划分为若干个簇，每个簇中的记录用该簇的中心点差分替换，达到差分隐私保护的目的。

现有的差分隐私保护方法无法解决云平台上数据安全性和数据效用的协调问题，不能做到既保障数据的安全又保障数据的效用。而本发明不同之处在于能够根据数据的频繁项针对性的做差分隐私保护，首先使用关联规则算法抽取出数据的频繁项，然后根据频繁项的情况检索出敏感数据，并对敏感数据做差分隐私保护。

本发明方法根据数据的频繁项的情况，检索出会暴露出用户信息的敏感记录，并针对性的做差分隐私保护。从而避免根据已知的非敏感信息推测出相关敏感信息。本方法只对敏感记录进行保护，未影响到其他信息量，在提高发布数据的效用的同时，减少了数据泄漏风险，保证了云平台上的数据安全。

附图说明

图1为本发明基于频繁项检索的云平台隐私保护方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1，本发明基于频繁项检索的云平台差分隐私保护方法，包括以下步骤：

步骤S100、根据关联规则算法抽取出数据的频繁项集，具体步骤为:

步骤S101、根据数据中项目的集合，数据集的大小等情况，以及使用该数据的用户的需要，来设定一个较为合理的最小支持度，作为支持度的比较标准。对原始的项目集合进行成分分析，排成频数低的项目，余下项目作为第1项候选集。

步骤S102、在hadoop云平台上，使用MapReduce技术，对原始数据集合进行处理，将其分割成键值对序列。在其他节点上，使用MapReduce对第k项候选集进行处理，并进行标记，当Map任务通过标示符识别出输入的行属于哪个阶段之后，对其进行分割，将连接的列作为key，其他列和标识符作为value输出。经Reduce任务解析后输出，计算出第k项候选集中各元素的支持度，将它们分别和步骤S101中设定的最小支持度做比较，找出对应支持度大于最小支持度的元素，这些元素组成频繁k项集。

步骤S103、通过频繁k项集的单表关联，将频繁k项集作为左右两表，在hadoop云平台上，使用MapReduce技术进行单表关联，先由map端识别分割，然后通过定制的Combiner进行剪枝，剪枝后交由reduce解析，实现频繁k项集中事务列表的求笛卡尔积运算。从而得到第k+1项候选集。

步骤S104、使用hadoop云平台上的Job和JobControl控制步骤S102和步骤S103中的作业任务。Job用来维护子任务的位置信息和依赖关系，JobControl用来控制整个作用的执行过程。

步骤S200、通过多关键字并行检索建立频繁项模型库：在hadoop云平台上，使用MapReduce技术，以频繁项为关键字，进行多关键字并行检索。根据频繁项使用的情况作为权值，将频繁项集中的各频繁项及其权值组成键值对序列，以倒排索引的形式建立频繁项模型库；

步骤S300、使用并行分布式排序对检索结果排序，找出敏感记录，具体步骤为：在hadoop云平台上，获取频繁项权值的均值，给评分设定一个阈值。以频繁项为主题，通过离线计算出一个PageRank向量集合。这个集合中，每个向量与一个频繁项相关。使用主题敏感的PageRank算法对检索结果进行排序，并计算数据记录与主题的匹配情况，找出评分大于阈值的敏感记录。

步骤S400、在云平台上使用聚类算法对敏感记录进行差分隐私保护，具体步骤为：在hadoop云平台上，使用MapReduce技术，通过基于划分的并行化Kmeans聚类算法对敏感记录进行聚类，从而将敏感记录划分为若干个簇，每个簇中的记录用该簇的中心点差分替换，使得同一簇中记录无法区分，达到差分隐私保护的目的。

上述方法中，对数据的频繁项进行了抽取获得频繁项集。然后检索这些频繁项，以倒排索引形式建立频繁项模型库。然后对频繁项模型库进行排序，找出会推测出敏感信息的敏感记录，针对这部分记录作差分隐私保护。这样就避免了不必要的信息损失，在保障数据效用的同时，减少数据隐私泄露，保障数据安全。更重要的是，面对云平台上的大数据的数据，可以使用此方法来进行数据保护，能够在保证数据效用的同时，减少数据隐私泄露，具有很大的价值，可以有效的加强数据保护方面的云安全。

Claims

1.一种基于频繁项检索的云平台隐私保护方法，其特征在于：

(1)根据关联规则算法抽取出数据的频繁项集；

(2)通过多关键字并行检索建立频繁项模型库；

(4)在云平台上使用聚类算法对敏感记录进行差分隐私保护。

2.根据权利要求1所述基于频繁项检索的云平台隐私保护方法，其特征在于，所述步骤(1)包括：

(1-2)分析原始数据的数据项，构建键值对序列集，通过键值对序列集合第k项候选集的关联，找出频繁k项集；

3.根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法，其特征在于，所述步骤(2)包括：

4.根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法，其特征在于，所述步骤(3)包括：

5.根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法，其特征在于，所述步骤(4)包括：