CN107566341A

CN107566341A - 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统

Info

Publication number: CN107566341A
Application number: CN201710638295.9A
Authority: CN
Inventors: 李鹏; 陈芳州; 徐鹤; 王汝传; 宋金全; 李亮德
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2018-01-09
Anticipated expiration: 2037-07-31
Also published as: CN107566341B

Abstract

本发明推出了一种基于联邦分布式文件存储系统的数据持久化存储方法及系统。本方法利用传感器收集物联网传送过来的数据，并上传到服务器同时对数据进行数据清洗划分以存入到具有不同备份策略的联邦HDFS中，联邦HDFS对数据进行持久化的存储，Spark Streaming读取联邦HDFS中的数据并进行处理，经过Spark Streaming处理后的结果数据分别写入到联邦HDFS和MySQL数据库中，对于写入到联邦HDFS的结果数据，在存储前也是要经过清洗划分再进行持久化的存储；对于写入到MySQL中的数据用于对结果数据进行分析。

Description

一种基于联邦分布式文件存储系统的数据持久化存储方法及系统

技术领域

本发明是属于基于云计算平台下的大数据存储领域。

背景技术

随着互联网的快速发展，各行各业逐渐的融入到互联网当中，使得互联网中的数据量呈几何倍的速度快速增长。因此如何有效的对数据进行存储与备份成为当今越来越受到关注的问题。如当今热门的电商中，海量的用户信息、商品信息以及交易信息的存储与备份就显得尤为重要。再或者，股票交易市场信息的备份与存储。海量数据的存储与备份，存储的方法与备份的策略越好，数据的可重用性就越高，并且能够有效的减少数据的二次处理的次数。相反，如果数据的存储与备份方法或策略不尽人意，则有可能导致重要的数据丢失或者是数据的多次处理，造成无法挽回的严重损失。在当今的云计算平台中，Hadoop中的HDFS能够有效的对海量数据进行存储与备份。

Hadoop是一个由Apache基金会所开发的分布式的系统的基础架构，用户可以在不了解底层细节的情况下充分利用集群的优势去进行高效的存储与运算。HDFS（HadoopDistributed File System）与MapReduce是Hadoop的核心组件。HDFS根据集群中各个节点的空间利用率来进行存储数据，并且由于其放宽了部分的POSIX的约束，因此能够实现流式读取文件系统的目的。在传统的HDFS中，数据备份数量是默认备份为三份，一份数据随机存储在集群中的一个机架中，另外两份数据存储在不同于第一份数据的另一个机架中。并且在HDFS集群中，数据的存储与读写都是由一个叫NameNode节点去进行管理与操作。

首先，这种传统的HDFS备份策略并不安全，容易发生单点故障，只要集群中的NameNode节点出现问题，则将导致整个集群的瘫痪，数据无法进行读取与写入。其次，数据的备份策略并不灵活，每个存储在HDFS集群中的数据文件，其备份数量是相同的，无法根据数据的重要性或者各方的因素对数据的备份数进行调整，达到不同文件拥有不同的备份数，这将导致集群会浪费大量的存储空间去存储并不重要的数据。

发明内容

针对云计算环境中日益受到关注的数据存储问题，本发明提出了一种基于联邦分布式文件存储系统的数据持久化存储方法，该方法是一种可以灵活存储和数据安全有效隔离的数据存储方法，利用联邦HDFS和Spark Streaming之间的数据存储与数据处理，对处理前的数据和处理后的数据进行灵活的存储，进而达到存储空间的节约、预防单点故障以及数据的安全有效隔离。

Spark Streaming 与MapReduce具有相似的开源计算框架，但其数据分析引擎是运行在内存中的，这使得Spark相比于Hadoop更适合大规模数据实时处理的要求并且其流处理能力还要强于Storm。Spark拥有快速的处理能力，易于使用，支持查询且丰富的数据来源等优点。Spark Streaming能够运行在100+的节点上并达到秒级延迟并具有高效和容错的特性。

为了实现上述技术目的，本发明采用如下具体技术方案：

一种基于联邦分布式数据存储系统的数据持久化存储方法，包括以下几个步骤：

S1、接收从物联网传送过来的数据并对其进行数据清洗划分；

S2、对于清洗划分后的数据以不同的备份策略存放到联邦HDFS中；

S3、Spark Streaming实时的从联邦HDFS中读取新增的数据文件进行数据的流式处理；

S4、经过Spark Streaming处理后的数据复制成两份分别存储进HDFS和

MySQL中，实时获取处理结果并对其进行持久化存储，同时对其进行分析。

2、步骤S1包括以下几个子步骤：

S1.1、启动Hadoop集群和Spark集群，并同时接收物联网所传送过来的数据；

S1.2、物联网的数据在传送给联邦HDFS前先经过数据清洗划分，决定其使用的备份策略，然后传入相应的NameNode；在存入HDFS集群之前，数据会被先切成HDFS所设置的block块大小的数个数据块，同时向NameNode发送写数据请求，NameNode记录block信息并返回可用的DataNode节点。

步骤S2中物联网的数据向DataNode发送过程以block为单位进行发送，并且发送过程以流式写入，流式写入步骤具体包括以下几个子步骤：

S2.1、将每个block以package为单位进行划分且每个package大小为64k；

S2.2、然后将第一个package发送给第一个DataNode节点；

S2.3、第一个DataNode节点接收完第一个package后将该package发送给第二个Datanode节点，同时接收第二个package；

S2.4、第二个Datanode接收完第一个package后将该package发送给第三个Datanode节点，同时接收第一个Datanode发送来的第二个package；

S2.5、以此类推，直到第一个block接收完毕，此时三个Datanode向NameNode，第一个Datanode节点向client发送数据接收完的消息；同时client收到第一个Datanode发来的消息后向Namenode发送第一个block发送完的消息并开始向HDFS发送第二个block数据，以此类推，直到所有的数据存入HDFS。

步骤S3具体包括以下几个子步骤：

S3.1、Spark Streaming与HDFS集群建立连接，Spark Streaming向NameNode发送读取请求；

S3.2、NameNode查看Metadata信息，返回block pool中block位置信息，读取block的顺序与HDFS存入block的顺序相同，同时创建Input Dstream接收器对象用于接收HDFS集群中的数据并存入到Spark内存中进行处理；

S3.3、Spark Streaming所接收的输入数据根据batch size被分成一段段数据DStream，DStream都会被转换成Spark中的RDD，然后触发RDD的action操作，创建Sparkaction；Spark Streaming对于每一个Spark action都会产生相对应的Spark job，这些Spark job会交给JobManager中的Jobs队列；

S3.4、JobManager把Spark Job提交到Spark Scheduler并将Job转换成大量的任务分发给Spark集群去处理。

步骤S4中，经过Spark Streaming处理后的数据分别存储进联邦HDFS集群中和MySQL中，存储进联邦HDFS集群进行持久化存储的方法与步骤2和步骤3的过程相同，存储进MySQL进行数据的分析。

一种基于联邦分布式数据存储系统的数据持久化存储系统，包括，联邦HDFS数据存储模块、数据筛选模块以及Spark Streaming数据处理模块，其中，

联邦HDFS数据存储模块拥有多个块存储池存储子模块对数据进行存储；

数据筛选模块用于在数据存储进入联邦HDFS数据存储模块之前，针对不同的数据进行数据帅选划分，筛选划分后的数据以不同的数据流存储进联邦HDFS中不同的块存储池存储子模块进行不同的备份存储机制；

Spark Streaming数据处理模块用于对联邦HDFS中的数据进行高效快速的数据处理，对于处理后的结果数据再次进行数据筛选划分后存储进联邦HDFS数据存储模块进行持久化存储。

本发明的有益效果是：

本发明提出了一种基于联邦分布式文件存储系统的数据持久化存储方法，能够对物联网所发送过来的数据以及处理后的数据进行灵活的备份存储，具有高容错性与安全性，能够有效的防止集群的单点故障，下面进行具体的说明。

安全性与隔离性：在传统的HDFS中，只有一个NameNode，只要该节点出现故障，整个集群将瘫痪；并且所有的用户只需通过该节点即可查看到集群中的所有数据，数据的安全性无法保证。而在Federation HDFS中，NameNode的数量不止一个，NameNode之间相互隔离，互相管理着自己的block pool，即使其中的一个NameNode出现故障，集群也不会瘫痪而只会影响到该NameNode的block pool；并且如果一个用户只能访问其中的一个NameNode，那只能访问到该NameNode中的block pool的数据，而无法访问整个集群的数据。

高容错性：在Federation HDFS中，每个数据块文件都有多个备份文件，在某个备份文件损坏时，会自动从其他未损坏的文件中读取并进行重新的备份，直到备份数达到所设置的备份值，并且能够自动的重新分配失败的任务。

灵活性：在传统的HDFS中，所有的数据备份策略都是相同的，这将导致即使是不重要的数据备份的数量也和重要的数据一样，甚至数据块的大小也一样，从而导致存储空间的浪费。而在Federation HDFS中，可设置多个不同的备份策略，这将有效的节约存储空间，将有限的资源使用在重要的数据上。

高扩展性：传统的HDFS集群中，只能做到DataNode的水平扩展，而在FederationHDFS中，NameNode也可以进行扩展，从而能够减轻NameNode中的内存和数据读写存储等服务压力。

高吞吐量：在HDFS集群中，集群数据的吞吐量受限于NameNode；而在FederationHDFS集群中，由于存在着多个NameNode，所以这些NameNode可同时进行数据的读写，从而提高数据读写时的吞吐量。

附图说明

图1是集群系统架构图

图2是HDFS数据存储流程图；

图3是HDFS数据读取流程图；

图4是Spark Streaming的数据处理流程图；

图5是数据处理流程图。

具体实施方案

下面结合说明书附图以及实施例对本发明技术方案作进一步详细说明。

本发明的方法利用联邦HDFS技术，对不同的块存储池设置不同的备份策略，对从物联网所接收的数据进行分类并分别存储进这些块存储池，Spark Streaming实时处理HDFS中新增的数据，对处理后的结果再次根据其重要性存储进联邦HDFS和MySQL数据库中，实现数据的灵活存储以及安全的隔离，并对处理后的数据进行分析，集群系统架构图如图1所示。

一. 体系结构

在传统的分布式存储系统HDFS中，因为其容易产生单点故障，导致因一个节点的故障而使整个集群瘫痪；数据备份策略单一，往往会导致存储空间浪费在不重要的数据上；且数据安全可靠性无法保证，导致数据容易被他们读取。而联邦HDFS可扩展并利用多个管理节点，采用块存储池来进行数据的灵活备份，并且块存储池之间的数据是完全隔离，使数据的安全性大大的提升。

分布式流处理框架有Storm与Spark Streaming，虽然这两个框架都提供可扩展性和容错性，但它们的根本区别在于它们的处理模型，而Storm处理的是每次传入的一个事件，Spark Streaming是处理某个时间段的事件流，且Spark Streaming 可以通过对批处理间隔的调整来达到对不同速度的数据流进行实时的处理。

本发明的方法是在云计算环境下进行的，选择Hadoop中的联邦HDFS对物联网传来的数据以及经过处理后的数据进行持久化的存储，选择Spark Streaming对联邦HDFS中新增的数据进行进行实时的处理。物联网传来的数据首先经过数据清洗，对于不同k值的数据进行划分，这里的k值可以是数据的优先级或者是数据的种类等等，以此来决定数据的备份策略。联邦HDFS将物联网传送过来的数据切成block，按照不同的备份策略和键值存储在联邦HDFS中的不同块存储池下，其中k值越大的也就是重要的数据其备份策略中的备份数越多，k值越小的也就是不重要的数据其备份策略中的备份数越小（至少为两份），这样从而能够有效的避免数据的丢失以及节约存储空间。联邦HDFS中分为NameNode，SecondaryNode,DataNode与block pool这几个角色。NameNode是Master节点，负责处理客户机的读写请求，管理数据块的映射，配置副本策略与管理各自的block pool；彼此相互间隔但共享DataNode的存储资源。SecondaryNode则是NameNode的冷备份，负责分担它的工作量。而DataNode则是salve节点，负责存储所有的block pool，执行对数据块的读写操作。SparkStreaming 将输入的数据按照batch size分成一段段的数据（Discretized Stream），每一段数据都转换为Spark中的RDD（Resilient Distributed Dated）并以类似批处理的方式处理使用RDD操作处理每一小块数据，每个小块都会生成一个Spark Job处理，处理后的结果可根据业务的需求在内存中进行叠加或存储在外部设备。同时Spark Streaming会将所接收的数据拷贝两份到其他的机器以保证其容错性。所以RDD中任意的数据丢失，都可以并行的在其他机器上将缺失的数据重新获得。

二. 方法流程

如图1所示，本发明进行异常数据筛选分为以下几个步骤：（1）接收从物联网传送过来的数据并对其进行数据清洗划分。（2）对于清洗划分后的数据以不同的备份策略存放到联邦HDFS中。（3）Spark Streaming实时的从联邦HDFS中读取新增的数据文件进行数据的流式处理。（4）经过Spark Streaming处理后的数据同样进行数据清洗划分后存入到联邦HDFS中，并同时存入到MySQL中进行数据分析，数据处理流程图如图5所示。

1. 联邦HDFS集群

如图2和图3所示，联邦HDFS集群在接收到清洗划分后的数据时，先会根据不同的备份策略所设定的block块大小先将数据切成相应的数据块（block默认是64M或128M），然后向NameNode请求存储，NameNode返回其可用的DataNode节点供数据块进行存储并根据其相应的备份策略进行相应的备份（默认备份数是3）。得到可存储的消息后将一块块block以顺序的流存储方式存储进HDFS中，其中每个block会被切分成以package为单位的数据块，直到该block的所有package全部传入完成，则才会传送下一个block；当所有的block全部传入联邦HDFS集群时，该数据存储结束。

2. Spark Streaming数据流处理

Spark Streaming创建Input Dstream接收器对象用于接收联邦HDFS中的新增数据并存入到Spark内存中进行处理。Spark Streaming所接收的输入数据根据batch size被分成一段段数据DStream，DStream都会被转换成Spark中的RDD，每个RDD都会生成一个SparkJob去进行处理，从而筛选出异常数据。在数据流处理过程中，通过对StreamingContext对象中的batchDuration的设置来优化实时处理，当发现数据处理时间很快时，增加batchDoration；如果数据处理时间很慢时，数据被滞留，则减少batchDuration。

本发明一种基于联邦分布式数据存储系统的数据持久化存储方法具体实现步骤如下：

步骤1：启动Hadoop集群和Spark集群，并同时接收物联网所传送过来的数据。

步骤2：物联网的数据在传送给联邦HDFS前先经过数据清洗划分，决定其使用的备份策略，然后传入相应的NameNode；在存入HDFS集群之前，数据会被先切成HDFS所设置的block块大小的数个数据块，同时向NameNode发送写数据请求，NameNode记录block信息并返回可用的DataNode节点。因为在本发明中client不为DataNode节点且备份数使用默认值3，那存储block时，规定为副本1随机选择一个节点；副本2选择不同于副本1的机架上的一个DataNode节点；副本3选择同副本2相同的机架的另一个DataNode节点。

步骤3：物联网的数据向DataNode发送过程以block为单位进行发送，并且发送过程以流式写入，流式写入步骤如下：

（1）将每个block以package为单位进行划分且每个package大小为64k；

（2）然后将第一个package发送给第一个DataNode节点；

（3）第一个DataNode节点接收完第一个package后将该package发送给第二个Datanode节点，同时接收第二个package；

（4）第二个Datanode接收完第一个package后将该package发送给第三个Datanode节点，同时接收第一个Datanode发送来的第二个package；

（5）以此类推，直到第一个block接收完毕，此时三个Datanode向NameNode，第一个Datanode节点向client发送数据接收完的消息；同时client收到第一个Datanode发来的消息后向Namenode发送第一个block发送完的消息并开始向HDFS发送第二个block数据，以此类推，直到所有的数据存入联邦HDFS，HDFS数据存储流程图如图2所示。

步骤4：Spark Streaming与HDFS集群建立连接，Spark Streaming向NameNode发送读取请求。NameNode查看Metadata信息，返回block pool中block位置信息，读取block的顺序与HDFS存入block的顺序相同，HDFS数据读取流程图如图3所示。同时创建Input Dstream接收器对象用于接收HDFS集群中的数据并存入到Spark内存中进行处理。Spark Streaming所接收的输入数据根据batch size被分成一段段数据DStream，DStream都会被转换成Spark中的RDD，然后触发RDD的action操作，创建Spark action；Spark Streaming对于每一个Spark action都会产生相对应的Spark job，这些Spark job会交给JobManager中的Jobs队列。JobManager把Spark Job提交到Spark Scheduler并将Job转换成大量的任务分发给Spark集群去处理，Spark Streaming数据处理流程图如图4所示。

步骤5：经过Spark Streaming处理后的数据分别存储进联邦HDFS集群中和MySQL中，存储进联邦HDFS集群进行持久化存储与步骤2和步骤3的过程相同。存储进MySQL进行数据的分析，整个数据处理流程图如图5所示。

Claims

1.一种基于联邦分布式数据存储系统的数据持久化存储方法，其特征在于，包括以下几个步骤：

2.根据权利要求1所述的基于联邦分布式数据存储系统的数据持久化存储方法，其特征在于，步骤S1包括以下几个子步骤：

3.根据权利要求1所述的基于联邦分布式数据存储系统的数据持久化存储方法，其特征在于，步骤S2中物联网的数据向DataNode发送过程以block为单位进行发送，并且发送过程以流式写入，流式写入步骤具体包括以下几个子步骤：

S2.2、然后将第一个package发送给第一个DataNode节点；

4.根据权利要求1所述的基于联邦分布式数据存储系统的数据持久化存储方法，其特征在于，步骤S3具体包括以下几个子步骤：

5.根据权利要求1所述的基于联邦分布式数据存储系统的数据持久化存储方法，其特征在于，步骤S4中，经过Spark Streaming处理后的数据分别存储进联邦HDFS集群中和MySQL中，存储进联邦HDFS集群进行持久化存储的方法与步骤2和步骤3的过程相同，存储进MySQL进行数据的分析。

6.一种基于联邦分布式数据存储系统的数据持久化存储系统，其特征在于，包括，联邦HDFS数据存储模块、数据筛选模块以及Spark Streaming数据处理模块，其中，