CN105740727A - 隐私数据的分布式存储方法及系统 - Google Patents

隐私数据的分布式存储方法及系统 Download PDF

Info

Publication number
CN105740727A
CN105740727A CN201610073100.6A CN201610073100A CN105740727A CN 105740727 A CN105740727 A CN 105740727A CN 201610073100 A CN201610073100 A CN 201610073100A CN 105740727 A CN105740727 A CN 105740727A
Authority
CN
China
Prior art keywords
private data
mobile device
hadoop cluster
cluster platform
back end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610073100.6A
Other languages
English (en)
Inventor
金果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feixun Data Communication Technology Co Ltd
Original Assignee
Shanghai Feixun Data Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feixun Data Communication Technology Co Ltd filed Critical Shanghai Feixun Data Communication Technology Co Ltd
Priority to CN201610073100.6A priority Critical patent/CN105740727A/zh
Publication of CN105740727A publication Critical patent/CN105740727A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Abstract

本发明的隐私数据的分布式存储方法及系统,应用于移动设备网络中;所述方法包括:构建基于所述移动设备网络的Hadoop集群平台,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储;通过Hadoop集群平台的Map?Reduce计算框架对与用户输入的关键词相关的隐私数据进行计算,以实现响应所述查询的输出;从而就可以针对不同的用户锁定不同的特定隐私数据并进行快速的查询与访问。

Description

隐私数据的分布式存储方法及系统
技术领域
本发明涉及分布式存储技术领域,特别是涉及隐私数据的分布式存储方法及系统。
背景技术
移动设备(例如智能手机、平板等)因具有优秀的便携性受现在用户的广泛使用,然而正是由于这样的优点使得移动设备在使用过程中相对固定的设备更容易遗失、被盗或被外力破坏。一旦出现上述情况,用户的数据基本上没有恢复的可能,因此我们需要对移动设备的数据进行备份。
尤其是涉及隐私数据的存储,因为每个不同的用户个体的关注范围不同,而如果针对一个用户咨询其关心的隐私数据是什么,不同的人会说出不同的含义。
因此,面对以上两个问题,需要一种移动设备数据存储系统,且该存储系统能适配于各种用户所需求的隐私数据的获取(或称挖掘),已成为业内亟待解决的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供隐私数据的分布式存储方法及系统,用于解决现有技术中的各种问题。
为实现上述目的及其他相关目的,本发明提供一种隐私数据的分布式存储方法,应用于移动设备网络中;所述方法包括:构建基于所述移动设备网络的Hadoop集群平台,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储;所述Hadoop集群平台接收用户移动设备通过Map-Reduce程序生成的任务,以提供对所述存储的隐私数据的访问。
于本发明的一实施例中,所述存储的文件形式为HDFS文件。
于本发明的一实施例中,所述Hadoop集群平台包括:名称节点以及与所述名称节点一对多相连的数据节点;其中,所述存储文件的各个分块分别存储于各数据节点,所述名称节点用于管理各数据节点,所述数据节点位于移动网络内的移动设备,所述名称节点位于移动设备网络内的运营商设备。
于本发明的一实施例中,所述Hadoop集群平台通过Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作,并反馈操作结果。
于本发明的一实施例中,所述预定特征算法包括:对隐私数据进行分词预处理,过滤掉冗余信息,并通过统计以提取隐私信息的特征词组;所述特征词组用于作为隐私数据的索引,供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。
为实现上述目的及其他相关目的,本发明提供一种隐私数据的分布式存储系统,应用于移动设备网络中;所述系统包括:Hadoop集群平台,基于所述移动设备网络构建,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储;所述Hadoop集群平台,用于接收用户移动设备通过Map-Reduce程序生成的任务,以提供对所述存储的隐私数据的访问。
于本发明的一实施例中,所述存储的文件形式为HDFS文件。
于本发明的一实施例中,所述Hadoop集群平台包括:名称节点以及与所述名称节点一对多相连的数据节点;其中,所述存储文件的各个分块分别存储于各数据节点,所述名称节点用于管理各数据节点,所述数据节点位于移动网络内的移动设备,所述名称节点位于移动设备网络内的运营商设备。
于本发明的一实施例中,所述Hadoop集群平台通过Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作,并反馈操作结果。
于本发明的一实施例中,所述预定特征算法包括:对隐私数据进行分词预处理,通过统计以提取隐私信息的特征词组;所述特征词组用于作为隐私数据的索引,供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。
如上所述,本发明的隐私数据的分布式存储方法及系统,应用于移动设备网络中;所述方法包括:构建基于所述移动设备网络的Hadoop集群平台,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储;通过Hadoop集群平台的Map-Reduce计算框架对与用户输入的关键词相关的隐私数据进行计算,以实现响应所述查询的输出;从而就可以针对不同的用户锁定不同的特定隐私数据并进行快速的查询与访问。
附图说明
图1显示为本发明于一实施例中的隐私数据的分布式存储方法的流程示意图。
图2显示为本发明于一实施例中的隐私数据的分布式存储系统的结构示意图。
元件标号说明
1 移动设备网络
2 Hadoop集群平台
S1~S2 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明应用于移动设备网络中,所述移动设备包括智能手机或平板电脑等,所述移动设备网络例如为2G/3G/4G乃至5G移动通信网络和互联网络的结合,当然,亦可为较短距离通信的WiFi网络和互联网络的结合等,通过所述移动设备网络将各个移动设备通信连接,在移动设备间的交互中,会产生海量的用户数据,不同用户会有不同的隐私数据,而区分隐私数据的可以是关键词等。
请参阅图1,本发明提供一种隐私数据的分布式存储方法,应用于移动设备网络中;所述方法包括:
步骤S1:构建基于所述移动设备网络的Hadoop集群平台,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储。
于本发明的一实施例中,Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem),简称HDFS;在本实施例中,表现为所述Hadoop集群平台。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据;Hadoop由许多元素构成。其最底部是Hadoop Distributed File System(HDFS)即表现为所述Hadoop集群平台,它存储Hadoop集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、Map-Reduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
于本实施例中,所述Hadoop集群平台可实现于移动设备网络中的移动运营商终端,例如蜂窝移动通信用途的服务器组、甚至基站等;具体的,所述Hadoop集群平台包括:名称节点(NameNode)以及与所述名称节点一对多相连的数据节点(DataNode);其中,所述存储文件的各个分块(Block)分别存储于各数据节点,具体来讲,一个HDFS集群是由一个名称节点(它是一个管理文件命名空间和调节客户端访问文件的主服务器)和一些数据节点构成,通常是一个节点或一个机器,它来管理对应节点的存储,所以所述数据节点并不拘泥于实现在移动通信设备、基站或是服务器,所述名称节点用于管理各数据节点。
于本发明的一实施例中,所述预定特征算法包括:对隐私数据进行分词预处理,过滤掉冗余信息,并通过统计以提取隐私信息的特征词组;所述特征词组用于作为隐私数据的索引,供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。
举例来说,例如统计某一段时间内用户使用频次较多的词语,如“苹果”,则将其作为特征词组来建立与相关含有“苹果”隐私数据的索引,之后用户通过关键字进行所需隐私数据的搜索时候,Hadoop集群平台可通过比对所述关键字和特征词组以在存储数据中快速查询到所需数据。
步骤S2:所述Hadoop集群平台接收用户移动设备通过Map-Reduce程序生成的任务,以提供对所述存储的隐私数据的访问。
于本发明的一实施例中,在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker(例如设在所述运营商设备);另一个是TaskTracker(例如设在各移动设备),JobTracker是用于调度工作的,TaskTracker是用于执行工作的,一个Hadoop集群中只有一台JobTracker。
在分布式计算中,Map-Reduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。
具体来两个函数的实现,map函数接收一个<key,value>形式的输入,然后同样产生一个<key,value>形式的中间输出,Hadoop函数接收一个如<key,(list of values)>形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是<key,value>形式的,map和reduce的数量亦可由用户(例如移动设备用户)自行定义,并通过Map-reduce程序提交到平台。
具体的,一个Map-Reduce任务(iob)通常会把输入的数据集切分为若干独立的数据片(split),由Map任务(task)以完全并行的方式处理它们;split是一个逻辑概念,它只包含一些元数据信息,比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自已决定;Map-Reduce计算框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。
因此,通过Map-Reduce的计算框架实现对隐私数据的分发、跟踪、及执行的操作,并反馈操作结果。
通过这一平台,可自动通过建立hadoop集群平台,利HDFS分布式文件系统快速采集处理隐私数据,并进行隐私数据特征词组的提取计算,在移动互联网云环境下,拓展了不同客户隐私数据的定义,不同用户移动设备对隐私数据信息快速存取功能;让移动设备能快速存取个人隐私信息至周边的其他移动设备,且通过自动采集提取的来统计数据,令移动设备比用户自已更清楚其关注的隐私信息。
如图2所示,同上述方法原理相似的是,本发明提供一种隐私数据的分布式存储系统,应用于移动设备网络1中;所述系统包括:Hadoop集群平台2,基于所述移动设备网络1构建,用于采集所述移动设备网络1中各移动设备传送的隐私数据并按预定特征算法可索引地存储;所述Hadoop集群平台2,用于接收用户移动设备通过Map-Reduce程序生成的任务,以提供对所述存储的隐私数据的访问。
于本发明的一实施例中,所述存储的文件形式为HDFS文件。
于本实施例中,所述Hadoop集群平台2可实现于移动设备网络1中的移动运营商终端,例如蜂窝移动通信用途的服务器组、甚至基站等;具体的,所述Hadoop集群平台2包括:名称节点(NameNode)以及与所述名称节点一对多相连的数据节点(DataNode);其中,所述存储文件的各个分块(Block)分别存储于各数据节点,所述名称节点用于管理各数据节点。
于本发明的一实施例中,所述Hadoop集群平台2通过Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作,并反馈操作结果。
于本发明的一实施例中,所述预定特征算法包括:对隐私数据进行分词预处理,过滤掉冗余信息,并通过统计以提取隐私信息的特征词组;所述特征词组用于作为隐私数据的索引,供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。
综上所述,本发明的隐私数据的分布式存储方法及系统,应用于移动设备网络中;所述方法包括:构建基于所述移动设备网络的Hadoop集群平台,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储;通过Hadoop集群平台的Map-Reduce计算框架对与用户输入的关键词相关的隐私数据进行计算,以实现响应所述查询的输出;从而就可以针对不同的用户锁定不同的特定隐私数据并进行快速的查询与访问。
本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种隐私数据的分布式存储方法,其特征在于,应用于移动设备网络中;所述方法包括:
构建基于所述移动设备网络的Hadoop集群平台,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储;
所述Hadoop集群平台接收用户移动设备通过Map-Reduce程序生成的任务,以提供对所述存储的隐私数据的访问。
2.根据权利要求1所述的隐私数据的分布式存储方法,其特征在于,所述存储的文件形式为HDFS文件。
3.根据权利要求1所述的隐私数据的分布式存储方法,其特征在于,所述Hadoop集群平台包括:名称节点以及与所述名称节点一对多相连的数据节点;其中,所述存储文件的各个分块分别存储于各数据节点,所述名称节点用于管理各数据节点,所述数据节点位于移动网络内的移动设备,所述名称节点位于移动设备网络内的运营商设备。
4.根据权利要求1所述的隐私数据的分布式存储方法,其特征在于,包括,通过所述Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作,并反馈操作结果。
5.根据权利要求1所述的隐私数据的分布式存储方法,其特征在于,所述预定特征算法包括:对隐私数据进行分词预处理,通过统计以提取隐私信息的特征词组;所述特征词组用于作为隐私数据的索引,供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。
6.一种隐私数据的分布式存储系统,其特征在于,应用于移动设备网络中;所述系统包括:
Hadoop集群平台,基于所述移动设备网络构建,用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储;
所述Hadoop集群平台,用于接收用户移动设备通过Map-Reduce程序生成的任务,以提供对所述存储的隐私数据的访问。
7.根据权利要求6所述的隐私数据的分布式存储系统,其特征在于,所述存储的文件形式为HDFS文件。
8.根据权利要求6所述的隐私数据的分布式存储系统,其特征在于,所述Hadoop集群平台包括:名称节点以及与所述名称节点一对多相连的数据节点;其中,所述存储文件的各个分块分别存储于各所述数据节点,所述名称节点用于管理各所述数据节点。
9.根据权利要求6所述的隐私数据的分布式存储系统,其特征在于,所述Hadoop集群平台通过Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作,并反馈操作结果。
10.根据权利要求6所述的隐私数据的分布式存储系统,其特征在于,所述预定特征算法包括:对隐私数据进行分词预处理,通过统计以提取隐私信息的特征词组;所述特征词组用于作为隐私数据的索引,供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。
CN201610073100.6A 2016-02-02 2016-02-02 隐私数据的分布式存储方法及系统 Pending CN105740727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610073100.6A CN105740727A (zh) 2016-02-02 2016-02-02 隐私数据的分布式存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610073100.6A CN105740727A (zh) 2016-02-02 2016-02-02 隐私数据的分布式存储方法及系统

Publications (1)

Publication Number Publication Date
CN105740727A true CN105740727A (zh) 2016-07-06

Family

ID=56242187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610073100.6A Pending CN105740727A (zh) 2016-02-02 2016-02-02 隐私数据的分布式存储方法及系统

Country Status (1)

Country Link
CN (1) CN105740727A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341478A (zh) * 2016-09-13 2017-01-18 广州中大数字家庭工程技术研究中心有限公司 一种基于Hadoop的教育资源共享系统及实现方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075542A (zh) * 2011-01-26 2011-05-25 中国科学院软件研究所 一种云计算数据安全支撑平台
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN104133903A (zh) * 2014-08-04 2014-11-05 华中科技大学 一种基于隐私保护的数据索引方法
US20150120695A1 (en) * 2013-10-31 2015-04-30 Tata Consultancy Services Limited Indexing of file in a hadoop cluster
CN104820717A (zh) * 2015-05-22 2015-08-05 国网智能电网研究院 一种海量小文件存储及管理方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075542A (zh) * 2011-01-26 2011-05-25 中国科学院软件研究所 一种云计算数据安全支撑平台
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
US20150120695A1 (en) * 2013-10-31 2015-04-30 Tata Consultancy Services Limited Indexing of file in a hadoop cluster
CN104133903A (zh) * 2014-08-04 2014-11-05 华中科技大学 一种基于隐私保护的数据索引方法
CN104820717A (zh) * 2015-05-22 2015-08-05 国网智能电网研究院 一种海量小文件存储及管理方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王俊生 等: "《基于Hadoop的分布式搜索引擎关键技术》", 《北京信息科技大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341478A (zh) * 2016-09-13 2017-01-18 广州中大数字家庭工程技术研究中心有限公司 一种基于Hadoop的教育资源共享系统及实现方法

Similar Documents

Publication Publication Date Title
CN107515878B (zh) 一种数据索引的管理方法及装置
US20210211471A1 (en) Highly scalable four-dimensional web-rendering geospatial data system for simulated worlds
EP3726411A1 (en) Data desensitising method, server, terminal, and computer-readable storage medium
Ranjan Streaming big data processing in datacenter clouds
US9542440B2 (en) Enterprise graph search based on object and actor relationships
AU2015204742B2 (en) Methods for generating an activity stream
CN110019267A (zh) 一种元数据更新方法、装置、系统、电子设备及存储介质
CN103605848A (zh) 路径分析方法和装置
CN107181729B (zh) 在多租户云环境中的数据加密
CN102724290B (zh) 一种获取目标客户群的方法、设备及系统
CN108287889B (zh) 一种基于弹性表模型的多源异构数据存储方法和系统
US10033737B2 (en) System and method for cross-cloud identity matching
Xia et al. Optimizing an index with spatiotemporal patterns to support GEOSS Clearinghouse
CN105740727A (zh) 隐私数据的分布式存储方法及系统
KR20140137894A (ko) 센서 데이터 저장관리 장치
D'silva et al. Real-time processing of IoT events using a Software as a Service (SaaS) architecture with graph database
US9542457B1 (en) Methods for displaying object history information
Wu et al. Design and implementation of business-driven BI platform based on cloud computing
Mallios et al. A framework for clustering and classification of big data using spark
Dhabhai et al. A study of big data in cloud environment with their related challenges
Shetty et al. A novel web service composition and web service discovery based on map reduce algorithm
Gu et al. Consensus control and feedback graph co-design for MIMO discrete-time multi-agent systems
Velayutham et al. Web user interface based on OGC standards for sensor cloud using big data
CN104750709A (zh) 一种语义检索方法及系统
Harikumar et al. MapReduce model for K-Medoid clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706

RJ01 Rejection of invention patent application after publication