CN104123504A - 一种基于频繁项检索的云平台隐私保护方法 - Google Patents
一种基于频繁项检索的云平台隐私保护方法 Download PDFInfo
- Publication number
- CN104123504A CN104123504A CN201410305357.0A CN201410305357A CN104123504A CN 104123504 A CN104123504 A CN 104123504A CN 201410305357 A CN201410305357 A CN 201410305357A CN 104123504 A CN104123504 A CN 104123504A
- Authority
- CN
- China
- Prior art keywords
- frequent
- cloud platform
- data
- item
- secret protection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及一种基于频繁项检索的云平台隐私保护方法,该方法包括:根据关联规则算法抽取出数据的频繁项集;通过多关键字并行检索建立频繁项模型库;使用并行分布式排序算法对检索结果排序,找出敏感记录;在云平台上使用聚类算法对敏感记录进行差分隐私保护。本发明方法根据数据的频繁项的情况,检索出会暴露出用户信息的敏感记录,并针对性的做差分隐私保护。从而避免根据已知的非敏感信息推测出相关敏感信息。本方法只对敏感记录进行保护,未影响到其他信息量,在提高发布数据的效用的同时,减少了数据泄漏风险,保证了云平台上的数据安全。
Description
技术领域
本发明涉及云安全领域,具体是指一种基于频繁项检索的云平台隐私保护方法。
背景技术
隐私保护方法是一种伴随着数据应用而提出的,由实际应用所决定的数据保护方法,最先被用于统计领域。一般是通过引入统计模型和概率模型来实现保护在较低应用层次上数据的隐私。对于较高层次的数据应用,主要是用面向数据挖掘的隐私保护技术,根据不同数据挖掘操作的特性来实现对应用上隐私的保护。而各类应用中可以通用的隐私保护方法,一般由基于隐私保护的数据发布技术来实现。
目前,面对大数据,在云平台上的数据隐私保护方法,并不能满足对数据保护的需求,无法针对一些攻击模型。随着互联网技术不断的、飞速的发展,数据的共享变得越来越便捷,隐私数据泄露事件越来越多。个人隐私安全得不到保障。现有的大多数隐私保护都是针对保护敏感信息,没有考虑到敏感属性与特定实体的关联,无法阻止由非敏感信息对敏感信息的推测,但对全部信息进行保护又会失去数据本身的效用。
为了解决这个问题,需要研究怎样去在提高发布数据的效用的同时,减少数据泄露风险,保障云平台上的数据安全。依据频繁项对数据做差分隐私保护是一种有效的手段。依据频繁项的差分保护是指,根据频繁项的情况,检索出可能会被推测出的敏感记录,然后对这些敏感记录做差分隐私保护,从而保证其他数据的有效性和完整性。在保障数据效用的同时,减少了数据泄露的风险。
发明内容
鉴于上述现有技术的不足,本发明目的旨在提供一种基于频繁项检索的云平台隐私保护方法,该方法在云计算平台上,通过抽取出数据的频繁项,将可能被推测出的敏感记录检索出来,然后针对性的做数据差分隐私保护,本发明只保护需要被特别保护的数据,在提高发布数据的效用的同时,减少了数据泄露的风险,保障了数据安全,特别是能保障云平台上数据的安全。
实现本发明目的采用的技术方案是一种基于频繁项检索的云平台隐私保护方法,该方法包括:
(1)根据关联规则算法抽取出数据的频繁项集;
(2)通过多关键字并行检索建立频繁项模型库;
(3)使用并行分布式排序算法对检索结果排序,找出敏感记录;
(4)在云平台上使用聚类算法对敏感记录进行差分隐私保护。
在上述技术方案中,所述步骤(1)包括:
(1-1)根据数据情况和用户需要设定最小支持度和第1项候选集;
(1-2)分析原始数据的数据项,构建键值对序列集,通过键对序列集合第k项候选集的关联,找出频繁k项集;
(1-3)对频繁k项集的单表关联,并进行分布式剪枝,得出第k+1项候选集;
(1-4)对步骤(1-2)和(1-3)中的作业任务进行组合式链接执行,直到不能找出k+1项候选集。
在上述技术方案中,所述步骤(2)包括:
在云平台上,使用针对频繁项的多关键字并行检索,根据频繁项集中的各频繁项及其权值,以倒排索引的形式建立频繁项模型库。
在上述技术方案中,所述步骤(3)包括:
在云平台上,根据频繁项权值的分布情况,给评分设定一个阈值,以频繁项及其权值为关键字,使用并行分布式排序算法对检索结果进行排序,找出评分大于阈值的敏感记录。
在上述技术方案中,所述步骤(4)包括:
在云平台上,使用并行化的聚类算法对敏感记录进行聚类,从而将敏感记录划分为若干个簇,每个簇中的记录用该簇的中心点差分替换,达到差分隐私保护的目的。
现有的差分隐私保护方法无法解决云平台上数据安全性和数据效用的协调问题,不能做到既保障数据的安全又保障数据的效用。而本发明不同之处在于能够根据数据的频繁项针对性的做差分隐私保护,首先使用关联规则算法抽取出数据的频繁项,然后根据频繁项的情况检索出敏感数据,并对敏感数据做差分隐私保护。
本发明方法根据数据的频繁项的情况,检索出会暴露出用户信息的敏感记录,并针对性的做差分隐私保护。从而避免根据已知的非敏感信息推测出相关敏感信息。本方法只对敏感记录进行保护,未影响到其他信息量,在提高发布数据的效用的同时,减少了数据泄漏风险,保证了云平台上的数据安全。
附图说明
图1为本发明基于频繁项检索的云平台隐私保护方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1,本发明基于频繁项检索的云平台差分隐私保护方法,包括以下步骤:
步骤S100、根据关联规则算法抽取出数据的频繁项集,具体步骤为:
步骤S101、根据数据中项目的集合,数据集的大小等情况,以及使用该数据的用户的需要,来设定一个较为合理的最小支持度,作为支持度的比较标准。对原始的项目集合进行成分分析,排成频数低的项目,余下项目作为第1项候选集。
步骤S102、在hadoop云平台上,使用MapReduce技术,对原始数据集 合进行处理,将其分割成键值对序列。在其他节点上,使用MapReduce对第k项候选集进行处理,并进行标记,当Map任务通过标示符识别出输入的行属于哪个阶段之后,对其进行分割,将连接的列作为key,其他列和标识符作为value输出。经Reduce任务解析后输出,计算出第k项候选集中各元素的支持度,将它们分别和步骤S101中设定的最小支持度做比较,找出对应支持度大于最小支持度的元素,这些元素组成频繁k项集。
步骤S103、通过频繁k项集的单表关联,将频繁k项集作为左右两表,在hadoop云平台上,使用MapReduce技术进行单表关联,先由map端识别分割,然后通过定制的Combiner进行剪枝,剪枝后交由reduce解析,实现频繁k项集中事务列表的求笛卡尔积运算。从而得到第k+1项候选集。
步骤S104、使用hadoop云平台上的Job和JobControl控制步骤S102和步骤S103中的作业任务。Job用来维护子任务的位置信息和依赖关系,JobControl用来控制整个作用的执行过程。
步骤S200、通过多关键字并行检索建立频繁项模型库:在hadoop云平台上,使用MapReduce技术,以频繁项为关键字,进行多关键字并行检索。根据频繁项使用的情况作为权值,将频繁项集中的各频繁项及其权值组成键值对序列,以倒排索引的形式建立频繁项模型库;
步骤S300、使用并行分布式排序对检索结果排序,找出敏感记录,具体步骤为:在hadoop云平台上,获取频繁项权值的均值,给评分设定一个阈值。以频繁项为主题,通过离线计算出一个PageRank向量集合。这个集合中,每个向量与一个频繁项相关。使用主题敏感的PageRank算法对检索结果进行排序,并计算数据记录与主题的匹配情况,找出评分大于阈值的敏感记录。
步骤S400、在云平台上使用聚类算法对敏感记录进行差分隐私保护,具体步骤为:在hadoop云平台上,使用MapReduce技术,通过基于划分的并行化Kmeans聚类算法对敏感记录进行聚类,从而将敏感记录划分为若干个簇,每个簇中的记录用该簇的中心点差分替换,使得同一簇中记录无法区分,达到差分隐私保护的目的。
上述方法中,对数据的频繁项进行了抽取获得频繁项集。然后检索这些频繁项,以倒排索引形式建立频繁项模型库。然后对频繁项模型库进行排序,找出会推测出敏感信息的敏感记录,针对这部分记录作差分隐私保护。这样就避免了不必要的信息损失,在保障数据效用的同时,减少数据隐私泄露,保障数据安全。更重要的是,面对云平台上的大数据的数据,可以使用此方法来进行数据保护,能够在保证数据效用的同时,减少数据隐私泄露,具有很大的价值,可以有效的加强数据保护方面的云安全。
Claims (5)
1.一种基于频繁项检索的云平台隐私保护方法,其特征在于:
(1)根据关联规则算法抽取出数据的频繁项集;
(2)通过多关键字并行检索建立频繁项模型库;
(3)使用并行分布式排序算法对检索结果排序,找出敏感记录;
(4)在云平台上使用聚类算法对敏感记录进行差分隐私保护。
2.根据权利要求1所述基于频繁项检索的云平台隐私保护方法,其特征在于,所述步骤(1)包括:
(1-1)根据数据情况和用户需要设定最小支持度和第1项候选集;
(1-2)分析原始数据的数据项,构建键值对序列集,通过键值对序列集合第k项候选集的关联,找出频繁k项集;
(1-3)对频繁k项集的单表关联,并进行分布式剪枝,得出第k+1项候选集;
(1-4)对步骤(1-2)和(1-3)中的作业任务进行组合式链接执行,直到不能找出k+1项候选集。
3.根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法,其特征在于,所述步骤(2)包括:
在云平台上,使用针对频繁项的多关键字并行检索,根据频繁项集中的各频繁项及其权值,以倒排索引的形式建立频繁项模型库。
4.根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法,其特征在于,所述步骤(3)包括:
在云平台上,根据频繁项权值的分布情况,给评分设定一个阈值,以频繁项及其权值为关键字,使用并行分布式排序算法对检索结果进行排序,找出评分大于阈值的敏感记录。
5.根据权利要求1所述基于频繁项检索的云平台差分隐私保护方法,其特征在于,所述步骤(4)包括:
在云平台上,使用并行化的聚类算法对敏感记录进行聚类,从而将敏感记录划分为若干个簇,每个簇中的记录用该簇的中心点差分替换,达到差分隐私保护的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410305357.0A CN104123504B (zh) | 2014-06-27 | 2014-06-27 | 一种基于频繁项检索的云平台隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410305357.0A CN104123504B (zh) | 2014-06-27 | 2014-06-27 | 一种基于频繁项检索的云平台隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123504A true CN104123504A (zh) | 2014-10-29 |
CN104123504B CN104123504B (zh) | 2017-07-28 |
Family
ID=51768912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410305357.0A Expired - Fee Related CN104123504B (zh) | 2014-06-27 | 2014-06-27 | 一种基于频繁项检索的云平台隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123504B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138927A (zh) * | 2015-08-12 | 2015-12-09 | 中国联合网络通信集团有限公司 | 隐私数据保护方法及装置 |
CN105376247A (zh) * | 2015-11-30 | 2016-03-02 | 睿峰网云(北京)科技股份有限公司 | 一种基于频繁算法的异常流量的识别方法及装置 |
CN106778314A (zh) * | 2017-03-01 | 2017-05-31 | 全球能源互联网研究院 | 一种基于k‑means的分布式差分隐私保护方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN107506364A (zh) * | 2016-06-14 | 2017-12-22 | 富士施乐株式会社 | 数据处理系统和数据处理方法 |
CN107832633A (zh) * | 2017-11-22 | 2018-03-23 | 广西师范大学 | 关系事务数据发布的隐私保护方法 |
CN108520182A (zh) * | 2018-04-09 | 2018-09-11 | 哈尔滨工业大学深圳研究生院 | 一种基于差分隐私和关联规则的需求隐私保护方法 |
CN110633577A (zh) * | 2019-08-22 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 文本脱敏方法以及装置 |
CN113032824A (zh) * | 2021-03-01 | 2021-06-25 | 上海观安信息技术股份有限公司 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
CN117033947A (zh) * | 2023-10-08 | 2023-11-10 | 国网四川省电力公司电力科学研究院 | 一种隐私保护的云边协同的频繁项目挖掘方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920714B (zh) * | 2018-07-26 | 2021-10-01 | 上海交通大学 | 一种分布式环境下隐私保护的关联规则挖掘方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799810A (zh) * | 2009-02-06 | 2010-08-11 | 中国移动通信集团公司 | 一种关联规则挖掘方法及其系统 |
CN101866405A (zh) * | 2010-06-23 | 2010-10-20 | 江苏大学 | 一种关联规则挖掘中隐私数据的保护方法 |
CN103150515A (zh) * | 2012-12-29 | 2013-06-12 | 江苏大学 | 一种分布式环境下隐私保护的关联规则挖掘方法 |
CN103514267A (zh) * | 2013-09-04 | 2014-01-15 | 快传(上海)广告有限公司 | 一种网络关联信息获取方法和系统 |
-
2014
- 2014-06-27 CN CN201410305357.0A patent/CN104123504B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799810A (zh) * | 2009-02-06 | 2010-08-11 | 中国移动通信集团公司 | 一种关联规则挖掘方法及其系统 |
CN101866405A (zh) * | 2010-06-23 | 2010-10-20 | 江苏大学 | 一种关联规则挖掘中隐私数据的保护方法 |
CN103150515A (zh) * | 2012-12-29 | 2013-06-12 | 江苏大学 | 一种分布式环境下隐私保护的关联规则挖掘方法 |
CN103514267A (zh) * | 2013-09-04 | 2014-01-15 | 快传(上海)广告有限公司 | 一种网络关联信息获取方法和系统 |
Non-Patent Citations (3)
Title |
---|
张啸剑等: "差分隐私保护下一种精确挖掘top-k频繁模式方法", 《计算机研究与发展》 * |
李杨等: "差分隐私保护k-means聚类方法研究", 《计算机科学》 * |
胡彧等: "Hadoop下的分布式搜索引擎", 《计算机系统应用》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138927B (zh) * | 2015-08-12 | 2018-05-01 | 中国联合网络通信集团有限公司 | 隐私数据保护方法及装置 |
CN105138927A (zh) * | 2015-08-12 | 2015-12-09 | 中国联合网络通信集团有限公司 | 隐私数据保护方法及装置 |
CN105376247A (zh) * | 2015-11-30 | 2016-03-02 | 睿峰网云(北京)科技股份有限公司 | 一种基于频繁算法的异常流量的识别方法及装置 |
CN107506364B (zh) * | 2016-06-14 | 2021-09-21 | 富士胶片商业创新有限公司 | 数据处理系统和数据处理方法 |
CN107506364A (zh) * | 2016-06-14 | 2017-12-22 | 富士施乐株式会社 | 数据处理系统和数据处理方法 |
CN106778314A (zh) * | 2017-03-01 | 2017-05-31 | 全球能源互联网研究院 | 一种基于k‑means的分布式差分隐私保护方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN107480549B (zh) * | 2017-06-28 | 2019-08-02 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN107832633B (zh) * | 2017-11-22 | 2020-12-15 | 广西师范大学 | 关系事务数据发布的隐私保护方法 |
CN107832633A (zh) * | 2017-11-22 | 2018-03-23 | 广西师范大学 | 关系事务数据发布的隐私保护方法 |
CN108520182A (zh) * | 2018-04-09 | 2018-09-11 | 哈尔滨工业大学深圳研究生院 | 一种基于差分隐私和关联规则的需求隐私保护方法 |
CN110633577A (zh) * | 2019-08-22 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 文本脱敏方法以及装置 |
CN110633577B (zh) * | 2019-08-22 | 2023-08-29 | 创新先进技术有限公司 | 文本脱敏方法以及装置 |
CN113032824A (zh) * | 2021-03-01 | 2021-06-25 | 上海观安信息技术股份有限公司 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
CN113032824B (zh) * | 2021-03-01 | 2023-06-23 | 上海观安信息技术股份有限公司 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
CN117033947A (zh) * | 2023-10-08 | 2023-11-10 | 国网四川省电力公司电力科学研究院 | 一种隐私保护的云边协同的频繁项目挖掘方法 |
CN117033947B (zh) * | 2023-10-08 | 2023-12-22 | 国网四川省电力公司电力科学研究院 | 一种隐私保护的云边协同的频繁项目挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104123504B (zh) | 2017-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123504A (zh) | 一种基于频繁项检索的云平台隐私保护方法 | |
CN107766568B (zh) | 使用列式数据库中的直方图进行有效查询处理 | |
CN109299164A (zh) | 一种数据查询方法、计算机可读存储介质及终端设备 | |
US20180268166A1 (en) | Event processing system | |
US10685042B2 (en) | Identifying join relationships based on transactional access patterns | |
CN106970929B (zh) | 数据导入方法及装置 | |
Peruzzi et al. | A proposal for a multivariate quantitative approach to infer karyological relationships among taxa | |
US10901800B2 (en) | Systems for parallel processing of datasets with dynamic skew compensation | |
Yun et al. | Fastraq: A fast approach to range-aggregate queries in big data environments | |
Yan et al. | Scalable and robust key group size estimation for reducer load balancing in MapReduce | |
Slagter et al. | An adaptive and memory efficient sampling mechanism for partitioning in MapReduce | |
Li et al. | Self-feedback differential evolution adapting to fitness landscape characteristics | |
US10331646B2 (en) | Enhancements for optimizing query executions | |
Gao et al. | Handling data skew in MapReduce cluster by using partition tuning | |
CN107016039A (zh) | 数据库写入的方法和数据库系统 | |
US20210365300A9 (en) | Systems and methods for dynamic partitioning in distributed environments | |
Satish et al. | Big data processing with harnessing hadoop-MapReduce for optimizing analytical workloads | |
US20170371892A1 (en) | Systems and methods for dynamic partitioning in distributed environments | |
CN105045806A (zh) | 一种面向分位数查询的概要数据动态分裂与维护方法 | |
US9275091B2 (en) | Database management device and database management method | |
KR20160081231A (ko) | 이미지 기반 검색을 위한 맵리듀스 기반의 이미지 특징 추출 방법 및 시스템 | |
CN111274275B (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN111695153A (zh) | 一种多叉树森林k-匿名方法、系统、设备和可读存储介质 | |
CN103995831A (zh) | 基于物品间相似度的物品处理方法、系统和装置 | |
Yan | Design and analysis of parallel MapReduce based KNN-join algorithm for big data classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170728 Termination date: 20180627 |