CN109669987A

CN109669987A - 一种大数据存储优化方法

Info

Publication number: CN109669987A
Application number: CN201811528694.0A
Authority: CN
Inventors: 王芳; 李宏峰; 周茜; 王晓甜; 贺子洋; 李冲; 陈朝晖; 崔江洪; 石磊; 甄纲; 路磊; 赵利军; 黄朝霞; 李昕; 李云龙; 范盛荣; 刘国平
Original assignee: Wuhan Sheng Jetta Power Technology Co Ltd; State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Shijiazhuang Power Supply Co of State Grid Hebei Electric Power Co Ltd
Current assignee: Wuhan Sheng Jetta Power Technology Co Ltd; State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Shijiazhuang Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-23

Abstract

本发明涉及一种大数据存储优化方法，其将检测数据在RDD中进行分布式存储；将数据以RDD的方式分布式存储在Spark集群的数据节点中，然后基于Spark进行并行化KNN算法；本发明在HDFS基础上，建立分布式的面向列的数据库HBase，用于海量监测数据的存储和管理。监测数据在分布式系统中的数据分布策略，使用分布式系统进行数据存储和并行处理即数据的分布策略提升数据处理的效率。

Description

一种大数据存储优化方法

技术领域

本发明涉及一种大数据存储优化方法。

背景技术

随着移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。

数据按类型分为结构化数据、半结构化数据和非结构化数据，其中结构化数据是指能够以二维结构表示的一种数据类型，能通过关系型数据库存储；半结构化数据是指具有一定结构，但语义不够明确的一种数据类型，如邮件、HTML网页等，它们有些字段是确定的，也有些字段是不确定的；非结构化数据是指无法用二维结构表示的一种数据类型，主要包括办公文档、文本、图片、音视频文件等，无法采用关系型数据库进行处理。伴随社交网络的兴起和发展，产生了大量的UGC(User Generated Content，用户生成内容)，包括音频、视频、文本和图片等非结构化数据。在所有数据中，结构化数据占数据总量的20％，半结构化数据和非结构化数据占数据总量的80％，如何科学管理和合理应用这些数据显得日益重要。

现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台，其核心包括HDFS(Hadoop Distributed Files System，Hadoop分布式文件系统)。HDFS的众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上，搭建分布式集群，构成分布式系统。HBase(Hadoop DataBase，Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。

主流大数据并行计算系统在设计与实现的过程中通常只重点考虑某类大数据应用的共性问题，这些系统在处理具有其他特性的大数据分析应用问题时，存在性能优化的空间。Hadoop主要是针对离线批处理的大数据应用而设计的，其更多地追求高吞吐率而非低延时性。因此，Hadoop在处理大数据流计算问题时性能比较低下。

针对主流大数据并行计算系统Hadoop MapReduce在执行短作业的场景，以及大数据并行计算系统Spark在JVM堆存储(Heap Storage)高消耗的场景，本专利进行了相关性能优化研究，提高系统处理能力。

发明内容

本发明所要解决的技术问题是提供一种大数据存储优化方法，使用该方法可以有效提高后续数据处理的效率。

本发明所采用的技术方案是：一种大数据存储优化方法，其包括如下步骤：

步骤一、将检测数据在RDD中进行分布式存储；将数据以RDD的方式分布式存储在Spark集群的数据节点中。

步骤二、基于Spark进行并行化KNN算法。

基于Spark进行并行化KNN算法的具体算法过程为：

步骤一、初始化SparkContext环境参数。

步骤二、加载训练样本集TrainSet到RDD，在Spark集群的节点的内存中分布式存储TrainSet；执行RDD.map()算子，并行完成Ti-ainSet的格式转换，结果多元组形式。

步骤三、执行RDD.collect()算子，将分布式的RDD返回到Driver程序所在的节点，以scala Array数组形式存储，命名为TrainSet Array。

步骤四、计算一条待测样木和TrainSet中各样木的距离；利用广播算子SparkContext.broadcast()将TrainSet_Array发送到集群中的各个数据节点中，命名为trainDatas。

步骤五、利用广播算子SparkContext.broadcast()将KNN参数K发送到集群中的各个数据节点中。

步骤六、加载待测样本集Test Set到RDD，在Spark集群的节点的内存中分布式存储TestSet；执行RDD.map()算子，并行完成TrainSet的格式转换，结果为多元组形式。

步骤七、对转换后的TestSet RDD执行map()算子，执行并行化的映射，将单条测试样本映射为结果样本。

步骤八、将结果输出至HDFS或者其他持久化存储系统。

在步骤六中，map()算子过程如下:

步骤一、解析一条测试样本元组，提取各特征量。

步骤二、使用foreach算子，循环计算测试样木到训练样本的距离:

distanceset＝trainDatas.foreach(trainData一>(特征，距离，类别)})。

步骤三、按照距离递增顺序，对distance.set排序。

步骤四、定义映射var categoryCountMap＝Map[String,Int]()，使用categoryCountMap.foreach算子，统计前K个样本的类别。

步骤二中，RDD.map()算子代码为：

map(line＝>{var datas＝line.split("")(datas(0),datas(1),datas(2))})。

步骤一中的环境参数包括Spark集群Master节点、使用资源规模。

RDD利用map或flatMap或filter或join或groupBy或reduceByKey中的一种或几种对分布式数据记性处理。

Spark的数据处理包括MapReduce或SQL查询或流计算或机器学习或图计算中方式中的一种或几种。

基于Spark进行并行化KNN算法的输入、输出数据使用本地文件系统或HDFS。

基于Spark进行并行化KNN算法的算法输入包括：训练样本集TrainSet；待测样本集TestSe；结果集ResultSet路径；参数K。算法输出为结果集ResultSet。

本发明的积极效果为：本发明在HDFS基础上，建立分布式的面向列的数据库HBase，用于海量监测数据的存储和管理。监测数据在分布式系统中的数据分布策略，使用分布式系统(如，HDFS等)进行数据存储和并行处理即数据的分布策略提升数据处理的效率。

附图说明

图1为本发明Hadoop生态系统构成示意图；

图2为本发明HDFS系统架构示意图；

图3为本发明MapReduce的执行流程图；

图4为本发明监测数据在RDD中的存储示意图；

图5为本发明基于Spark进行并行化KNN算法数据处理流程图。

具体实施方式

Hadoop是Apache开源组织的一个分布式计算开源框架，适用搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。Hadoop生态系统如图1所示。

框架的核心是其最底部是Hadoop分布式文件系统(Hadoop Distributed FileSystem，简称HDFS)，为海量的数据提供了存储能力。HDFS的上一层是MapReduce引擎，为海量的数据提供了并行计算能力。HDFS、MapReduce、数据仓库工具Hive和分布式数据库Hbase涵盖了Hadoop分布式平台的技术核心。

HDFS采用主/从(Mater/Slave)结构，如图2所示。在图2中，HDFS集群拥有一个NameNode和多个DataNode。NameNode是系统的主控节点，保存管理所有的元数据，DataNode是数据节点，负责实际数据的存储。Secondary NameNode用于消除NameNode的单点故障。客户端通过NameNode以获取文件的元数据，之后与DataNode进行交互，完成文件存取。

HDFS文件通常被分割成多个数据块，以冗余备份的形式存储在多个DataNode。HDFS典型的部署是在一个专门的机器上运行NameNode，集群中的其他机器各运行一个DataNode。

MapReduce是一种并行编程模型，相对于MPI等传统编程框架，提供了更加简单、快捷的编程接口，使用户更容易编写“数据密集型”应用程序。MapReduce的主要思想是将问题拆解为映射(Map)够将计算任务分成多个独立的计算单元，和归约(Reduce)操作，其中Map能由集群中的多个计算节点进行分布式、并行地计算；Map的运行结果交由Reduce进行汇总，产生最终的计算结果。MapReduce的执行流程如图3所示。

在图3中，Map接收输入对(k₁,v₁)，并产生一个或多个输出对(k₂,v₂)。在Shuffle过程中，输出对被划分并传递给Reduce，拥有相同key的(key,value)对被放在同一组中(k2,list(v2))，交由Reduce处理并输出最终结果(k₃,v₃)。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。和传统关系数据库不同，HBase采用了BigTable的数据模型:增强的稀疏排序映射表(key/Value)，其中，键由行关键字、列关键字和时间戳构成。HBase提供了Native Java API,HBase Shell,RESTGatewey等多种访问接口，并支持使用MapReduce来处理HBase中的海量数据。在访问时，仅能通过主键((Row key)和主键的range来检索数据，可以存储结构化、半结构化以及非结构化的数据。

Spark的数据处理是建立在统一抽象的弹性分布式数据集(ResilientDistributed Datasets，简称RDD)之上，并以基本一致的方式应对各种数据处理场景，包括MapReduce,SQL查询，流计算，机器学习以及图计算等。RDD是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据，包括map,flatMap,filter,join,groupBy,reduceByKey等，使得对分布式数据的处理更加容易。

在执行模式识别之前，以RDD的方式分布式存储在Spark集群的各数据节点中。RDD可以被理解为一个大的数组，但这个数组是分布在集群上的。RDD在逻辑上是由多个分区(Partition)组成的。Partition在物理上对应某个数据节点上的一个内存存储块。执行KNN模式识别的过程，就是对RDD，使用一系列Spark算子，进行转换，最终获得类别的过程。监测数据在RDD中的存储如图4所示。

在图4中，RDD 1包含4个Partition(P 1,P2,P3,P4)，分别存储在3个节点(WorkerNode 1,Worker Node2,Worker Node3)中。RDD2包含2个Partition(P1,P2)，分别存储在2个节点(Worker Node3,Worker Node 1)中。

基于Spark进行并行化KNN算法KNN算法的基本思想是:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

基于Spark进行并行化KNN算法的输入、输出数据可以使用本地文件系统，或者HDFS；如果使用其他存储介质，如阿里云OSS等，则需要自行编写输入和输出代码部分。

基于Spark进行并行化KNN算法描述如下:

算法输入:训练样本集TrainSet；待测样本集TestSet；结果集ResultSet路径；参数K；

算法输出:结果集ResultSet。

算法过程:

(I)初始化助arkContext环境参数:Spark集群Master节点、使用资源规模等；

(2)加载训练样本集TrainSet到RDD，在Spark集群的节点的内存中分布式存储TrainSet；执行RDD.map()算子，并行完成Ti-ainSet的格式转换，结果多元组形式。RDD.map()算子代码如下:

map(line＝>{var datas＝line.split("")(datas(0),datas(1),datas(2))})

(3)执行RDD.collect()算子，将分布式的RDD返回到Driver程序所在的节点，以scala Array数组形式存储，命名为TrainSet Array；

(4)由于待测样本集是分布式存储的，为了计算一条待测样木和TrainSet中各样木的距离，需要利用广播(broadcast)算子SparkContext.broadcast()将TrainSet_Array发送到集群中的各个数据节点中，命名为trainDatas。broadcast的作用类似于Hadoop的distributed cache，但broadcast的内容可以跨作业共享。

(5)利用广播(broadcast)算子SparkContext.broadcast()将KNN参数K发送到集群中的各个数据节点中。

(6)加载待测样本集Test Set到RDD，在Spark集群的节点的内存中分布式存储TestSet；执行RDD.map()算子，并行完成TrainSet的格式转换，结果为多元组形式。

(7)对转换后的TestSet RDD执行map()算子，执行并行化的映射，将单条测试样本映射为结果样本(带标记的样木)。map()算子过程描述如下:

①解析一条测试样本元组，提取各特征量；

②使用foreach算子，循环计算测试样木到训练样本的距离:

distanceset＝trainDatas.foreach(trainData一>(特征，距离，类别)})

③按照距离递增顺序，对distance.set排序；

④定义映射var categoryCountMap＝Map[String,Int]()，使用categoryCountMap.foreach算子，统计前K个样本的类别。

(8)将结果输出至HDFS或者其他持久化存储系统(如，HBase等)。

基于Spark进行并行化KNN算法的执行过程建立在统一抽象的RDD之上的，是通过RDD的各类算子进行转换的过程，算法的数据处理流程如图5示。在图5中数据来源于HDFS，使用SparkContext的textFile()方法读取训练集和测试集文件，并将数据组织为RDD的形式。格式转换操作通过map算子完成。map对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。Collect算子是Acition类型的算子，用于将分布式的RDD返回到Driver程序所在的节点，以scala Array数组形式存储。broadcast算子是Acition类型的算子，用于将Driver节点上的数据广播到各个Worker所在的节点；saveAsTextFile算子用于将RDD存储于HDFS。

MapReduce是目前流行的并行编程框架。为了对比Spark和MapReduce在实现海量监测数据模式识别的性能，设现了基于Hadoop MapReduce的并行化KNN算法MR-KNN。

假设KNN的训练集可以作为缓存文件在每个节点上共享。测试集文件分块存储于HDFS o Map过程中，测试集的样本将逐条输入至map函数，在map函数中完成测试样本和训练样本距离的计算，并对距离进行排序，将距离最短的K个训练样本的类别输出至Reduce。在Reduce阶段完成类别的频率统计，并将频率最高的类别作为木次的分类结果，MR-KNN算法描述如下:

(1)输入:<key₁,value₁>；key₁是训练样本ID,value₁是训练样木值，可以用元组表达value₁＝(v₁,v₂,...,v_N)；

(2)输出:<key₃,value₃>；key₃是训练样本ID,value₃是训练样本值和类别，可以用元组表达value₃＝(v₁,v₂,...,v_N,C)；其中，C表示样木的类别；

(3)Setup过程:利用DistributedCache类(由Hadoop提供)，将训练集和参数K缓存到各个数据节点的内存；

(4)Map:

计算测试样本和训练样木的距离；

并对距离进行排序，将距离最短的K个训练样本的类别输出；

(5)Reduce:

统计类别频率，将样本值和频率最高的类别组织为value₃输出；

数据相关性的多副本一致性哈希存储算法，HDFS是分布式的文件系统，数据在上传后，会被拆分成多个数据块，按照特定的算法分布式存储到集群中的多个数据节点上，会提升后期使用MapReduee框架执行并行数据处理时的性能产生影响。

本明存储层为NameNode管理下的Hadoop集群。集群中的物理服务器通过Xen虚拟化技术建立同构的Linux系统，并使用Hadoop HDFS文件系统用于数据的存储。在HDFS基础上，建立分布式的面向列的数据库HBase，用于海量监测数据的存储和管理。多源监测数据在分布式系统中的数据分布策略，用分布式系统(如，HDFS等)进行数据存储和并行处理即数据的分布策略提升数据处理的效率。

Claims

1.一种大数据存储优化方法，其特征在于其包括如下步骤：

步骤一、将检测数据在RDD中进行分布式存储；将数据以RDD的方式分布式存储在Spark集群的数据节点中；

步骤二、基于Spark进行并行化KNN算法。

2.根据权利要求1所述的一种大数据存储优化方法，其特征在于基于Spark进行并行化KNN算法的具体算法过程为：

步骤一、初始化SparkContext环境参数；

步骤二、加载训练样本集TrainSet到RDD，在Spark集群的节点的内存中分布式存储TrainSet；执行RDD.map()算子，并行完成Ti-ainSet的格式转换，结果多元组形式；

步骤三、执行RDD.collect()算子，将分布式的RDD返回到Driver程序所在的节点，以scala Array数组形式存储，命名为TrainSet Array；

步骤四、计算一条待测样木和TrainSet中各样木的距离；利用广播算子SparkContext.broadcast()将TrainSet_Array发送到集群中的各个数据节点中，命名为trainDatas；

步骤五、利用广播算子SparkContext.broadcast()将KNN参数K发送到集群中的各个数据节点中；

步骤六、加载待测样本集Test Set到RDD，在Spark集群的节点的内存中分布式存储TestSet；执行RDD.map()算子，并行完成TrainSet的格式转换，结果为多元组形式；

步骤七、对转换后的TestSet RDD执行map()算子，执行并行化的映射，将单条测试样本映射为结果样本；

步骤八、将结果输出至HDFS或者其他持久化存储系统。

3.根据权利要求2所述的一种大数据存储优化方法，其特征在于在步骤六中，map()算子过程如下:

步骤一、解析一条测试样本元组，提取各特征量；

distanceset＝trainDatas.foreach(trainData一>(特征，距离，类别)})；

步骤三、按照距离递增顺序，对distance.set排序；

4.根据权利要求2所述的一种大数据存储优化方法，其特征在于步骤二中，RDD.map()算子代码为：

map(line＝>{var datas＝line.split("")(datas(0),datas(1),datas(2))})。

5.根据权利要求2所述的一种大数据存储优化方法，其特征在于步骤一中的环境参数包括Spark集群Master节点、使用资源规模。

6.根据权利要求1所述的一种大数据存储优化方法，其特征在于RDD利用map或flatMap或filter或join或groupBy或reduceByKey中的一种或几种对分布式数据记性处理。

7.根据权利要求1所述的一种大数据存储优化方法，其特征在于Spark的数据处理包括MapReduce或SQL查询或流计算或机器学习或图计算中方式中的一种或几种。

8.根据权利要求1所述的一种大数据存储优化方法，其特征在于基于Spark进行并行化KNN算法的输入、输出数据使用本地文件系统或HDFS。

9.根据权利要求2所述的一种大数据存储优化方法，其特征在于基于Spark进行并行化KNN算法的算法输入包括：训练样本集TrainSet；待测样本集TestSe；结果集ResultSet路径；参数K。

10.根据权利要求2或9所述的一种大数据存储优化方法，其特征在于基于Spark进行并行化KNN算法的算法输出为结果集ResultSet。