CN105740727A

CN105740727A - 隐私数据的分布式存储方法及系统

Info

Publication number: CN105740727A
Application number: CN201610073100.6A
Authority: CN
Inventors: 金果
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Shanghai Feixun Data Communication Technology Co Ltd
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2016-07-06

Abstract

本发明的隐私数据的分布式存储方法及系统，应用于移动设备网络中；所述方法包括：构建基于所述移动设备网络的Hadoop集群平台，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储；通过Hadoop集群平台的Map?Reduce计算框架对与用户输入的关键词相关的隐私数据进行计算，以实现响应所述查询的输出；从而就可以针对不同的用户锁定不同的特定隐私数据并进行快速的查询与访问。

Description

隐私数据的分布式存储方法及系统

技术领域

本发明涉及分布式存储技术领域，特别是涉及隐私数据的分布式存储方法及系统。

背景技术

移动设备(例如智能手机、平板等)因具有优秀的便携性受现在用户的广泛使用，然而正是由于这样的优点使得移动设备在使用过程中相对固定的设备更容易遗失、被盗或被外力破坏。一旦出现上述情况，用户的数据基本上没有恢复的可能，因此我们需要对移动设备的数据进行备份。

尤其是涉及隐私数据的存储，因为每个不同的用户个体的关注范围不同，而如果针对一个用户咨询其关心的隐私数据是什么，不同的人会说出不同的含义。

因此，面对以上两个问题，需要一种移动设备数据存储系统，且该存储系统能适配于各种用户所需求的隐私数据的获取(或称挖掘)，已成为业内亟待解决的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供隐私数据的分布式存储方法及系统，用于解决现有技术中的各种问题。

为实现上述目的及其他相关目的，本发明提供一种隐私数据的分布式存储方法，应用于移动设备网络中；所述方法包括：构建基于所述移动设备网络的Hadoop集群平台，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储；所述Hadoop集群平台接收用户移动设备通过Map-Reduce程序生成的任务，以提供对所述存储的隐私数据的访问。

于本发明的一实施例中，所述存储的文件形式为HDFS文件。

于本发明的一实施例中，所述Hadoop集群平台包括：名称节点以及与所述名称节点一对多相连的数据节点；其中，所述存储文件的各个分块分别存储于各数据节点，所述名称节点用于管理各数据节点，所述数据节点位于移动网络内的移动设备，所述名称节点位于移动设备网络内的运营商设备。

于本发明的一实施例中，所述Hadoop集群平台通过Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作，并反馈操作结果。

于本发明的一实施例中，所述预定特征算法包括：对隐私数据进行分词预处理，过滤掉冗余信息，并通过统计以提取隐私信息的特征词组；所述特征词组用于作为隐私数据的索引，供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。

为实现上述目的及其他相关目的，本发明提供一种隐私数据的分布式存储系统，应用于移动设备网络中；所述系统包括：Hadoop集群平台，基于所述移动设备网络构建，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储；所述Hadoop集群平台，用于接收用户移动设备通过Map-Reduce程序生成的任务，以提供对所述存储的隐私数据的访问。

于本发明的一实施例中，所述存储的文件形式为HDFS文件。

于本发明的一实施例中，所述预定特征算法包括：对隐私数据进行分词预处理，通过统计以提取隐私信息的特征词组；所述特征词组用于作为隐私数据的索引，供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。

如上所述，本发明的隐私数据的分布式存储方法及系统，应用于移动设备网络中；所述方法包括：构建基于所述移动设备网络的Hadoop集群平台，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储；通过Hadoop集群平台的Map-Reduce计算框架对与用户输入的关键词相关的隐私数据进行计算，以实现响应所述查询的输出；从而就可以针对不同的用户锁定不同的特定隐私数据并进行快速的查询与访问。

附图说明

图1显示为本发明于一实施例中的隐私数据的分布式存储方法的流程示意图。

图2显示为本发明于一实施例中的隐私数据的分布式存储系统的结构示意图。

元件标号说明

1 移动设备网络

2 Hadoop集群平台

S1～S2 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明应用于移动设备网络中，所述移动设备包括智能手机或平板电脑等，所述移动设备网络例如为2G/3G/4G乃至5G移动通信网络和互联网络的结合，当然，亦可为较短距离通信的WiFi网络和互联网络的结合等，通过所述移动设备网络将各个移动设备通信连接，在移动设备间的交互中，会产生海量的用户数据，不同用户会有不同的隐私数据，而区分隐私数据的可以是关键词等。

请参阅图1，本发明提供一种隐私数据的分布式存储方法，应用于移动设备网络中；所述方法包括：

步骤S1：构建基于所述移动设备网络的Hadoop集群平台，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储。

于本发明的一实施例中，Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem)，简称HDFS；在本实施例中，表现为所述Hadoop集群平台。HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上；而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求，可以以流的形式访问(streaming access)文件系统中的数据；Hadoop由许多元素构成。其最底部是Hadoop Distributed File System(HDFS)即表现为所述Hadoop集群平台，它存储Hadoop集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce引擎，该引擎由JobTrackers和TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、Map-Reduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

于本实施例中，所述Hadoop集群平台可实现于移动设备网络中的移动运营商终端，例如蜂窝移动通信用途的服务器组、甚至基站等；具体的，所述Hadoop集群平台包括：名称节点(NameNode)以及与所述名称节点一对多相连的数据节点(DataNode)；其中，所述存储文件的各个分块(Block)分别存储于各数据节点，具体来讲，一个HDFS集群是由一个名称节点(它是一个管理文件命名空间和调节客户端访问文件的主服务器)和一些数据节点构成，通常是一个节点或一个机器，它来管理对应节点的存储，所以所述数据节点并不拘泥于实现在移动通信设备、基站或是服务器，所述名称节点用于管理各数据节点。

举例来说，例如统计某一段时间内用户使用频次较多的词语，如“苹果”，则将其作为特征词组来建立与相关含有“苹果”隐私数据的索引，之后用户通过关键字进行所需隐私数据的搜索时候，Hadoop集群平台可通过比对所述关键字和特征词组以在存储数据中快速查询到所需数据。

步骤S2：所述Hadoop集群平台接收用户移动设备通过Map-Reduce程序生成的任务，以提供对所述存储的隐私数据的访问。

于本发明的一实施例中，在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker(例如设在所述运营商设备)；另一个是TaskTracker(例如设在各移动设备)，JobTracker是用于调度工作的，TaskTracker是用于执行工作的，一个Hadoop集群中只有一台JobTracker。

在分布式计算中，Map-Reduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：map和reduce，map负责把任务分解成多个任务，reduce负责把分解后多任务处理的结果汇总起来。

具体来两个函数的实现，map函数接收一个<key，value>形式的输入，然后同样产生一个＜key，value>形式的中间输出，Hadoop函数接收一个如<key，(list of values)>形式的输入，然后对这个value集合进行处理，每个reduce产生0或1个输出，reduce的输出也是<key，value>形式的，map和reduce的数量亦可由用户(例如移动设备用户)自行定义，并通过Map-reduce程序提交到平台。

具体的，一个Map-Reduce任务(iob)通常会把输入的数据集切分为若干独立的数据片(split)，由Map任务(task)以完全并行的方式处理它们；split是一个逻辑概念，它只包含一些元数据信息，比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自已决定；Map-Reduce计算框架会对Map的输出先进行排序，然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。

因此，通过Map-Reduce的计算框架实现对隐私数据的分发、跟踪、及执行的操作，并反馈操作结果。

通过这一平台，可自动通过建立hadoop集群平台，利HDFS分布式文件系统快速采集处理隐私数据，并进行隐私数据特征词组的提取计算，在移动互联网云环境下，拓展了不同客户隐私数据的定义，不同用户移动设备对隐私数据信息快速存取功能；让移动设备能快速存取个人隐私信息至周边的其他移动设备，且通过自动采集提取的来统计数据，令移动设备比用户自已更清楚其关注的隐私信息。

如图2所示，同上述方法原理相似的是，本发明提供一种隐私数据的分布式存储系统，应用于移动设备网络1中；所述系统包括：Hadoop集群平台2，基于所述移动设备网络1构建，用于采集所述移动设备网络1中各移动设备传送的隐私数据并按预定特征算法可索引地存储；所述Hadoop集群平台2，用于接收用户移动设备通过Map-Reduce程序生成的任务，以提供对所述存储的隐私数据的访问。

于本发明的一实施例中，所述存储的文件形式为HDFS文件。

于本实施例中，所述Hadoop集群平台2可实现于移动设备网络1中的移动运营商终端，例如蜂窝移动通信用途的服务器组、甚至基站等；具体的，所述Hadoop集群平台2包括：名称节点(NameNode)以及与所述名称节点一对多相连的数据节点(DataNode)；其中，所述存储文件的各个分块(Block)分别存储于各数据节点，所述名称节点用于管理各数据节点。

于本发明的一实施例中，所述Hadoop集群平台2通过Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作，并反馈操作结果。

综上所述，本发明的隐私数据的分布式存储方法及系统，应用于移动设备网络中；所述方法包括：构建基于所述移动设备网络的Hadoop集群平台，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储；通过Hadoop集群平台的Map-Reduce计算框架对与用户输入的关键词相关的隐私数据进行计算，以实现响应所述查询的输出；从而就可以针对不同的用户锁定不同的特定隐私数据并进行快速的查询与访问。

本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种隐私数据的分布式存储方法，其特征在于，应用于移动设备网络中；所述方法包括：

构建基于所述移动设备网络的Hadoop集群平台，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储；

所述Hadoop集群平台接收用户移动设备通过Map-Reduce程序生成的任务，以提供对所述存储的隐私数据的访问。

2.根据权利要求1所述的隐私数据的分布式存储方法，其特征在于，所述存储的文件形式为HDFS文件。

3.根据权利要求1所述的隐私数据的分布式存储方法，其特征在于，所述Hadoop集群平台包括：名称节点以及与所述名称节点一对多相连的数据节点；其中，所述存储文件的各个分块分别存储于各数据节点，所述名称节点用于管理各数据节点，所述数据节点位于移动网络内的移动设备，所述名称节点位于移动设备网络内的运营商设备。

4.根据权利要求1所述的隐私数据的分布式存储方法，其特征在于，包括，通过所述Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作，并反馈操作结果。

5.根据权利要求1所述的隐私数据的分布式存储方法，其特征在于，所述预定特征算法包括：对隐私数据进行分词预处理，通过统计以提取隐私信息的特征词组；所述特征词组用于作为隐私数据的索引，供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。

6.一种隐私数据的分布式存储系统，其特征在于，应用于移动设备网络中；所述系统包括：

Hadoop集群平台，基于所述移动设备网络构建，用于采集所述移动设备网络中各移动设备传送的隐私数据并按预定特征算法可索引地存储；

所述Hadoop集群平台，用于接收用户移动设备通过Map-Reduce程序生成的任务，以提供对所述存储的隐私数据的访问。

7.根据权利要求6所述的隐私数据的分布式存储系统，其特征在于，所述存储的文件形式为HDFS文件。

8.根据权利要求6所述的隐私数据的分布式存储系统，其特征在于，所述Hadoop集群平台包括：名称节点以及与所述名称节点一对多相连的数据节点；其中，所述存储文件的各个分块分别存储于各所述数据节点，所述名称节点用于管理各所述数据节点。

9.根据权利要求6所述的隐私数据的分布式存储系统，其特征在于，所述Hadoop集群平台通过Map-Reduce计算框架实现对隐私数据的分发、跟踪、及执行的操作，并反馈操作结果。

10.根据权利要求6所述的隐私数据的分布式存储系统，其特征在于，所述预定特征算法包括：对隐私数据进行分词预处理，通过统计以提取隐私信息的特征词组；所述特征词组用于作为隐私数据的索引，供与用户所输入的查询用途的关键词进行比对以索引对应的隐私数据。