CN107391719A

CN107391719A - 一种云环境中分布式流数据处理方法及系统

Info

Publication number: CN107391719A
Application number: CN201710638294.4A
Authority: CN
Inventors: 李鹏; 李亮德; 徐鹤; 王汝传; 陈芳州; 宋金全
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-11-24

Abstract

本发明提出一种云环境中分布式流数据处理方法及系统，针对物联网时代数据量并发量大、流动快等特点，本发明用流式计算引擎Spark Streaming取代了传统的Lambda架构的MapReduce批处理计算，并通过实例化多个输入流实现对多表数据的流计算，将计算结果保存在分布式文件系统HDFS中，通过分布式查询系统Impala实现高效查询。

Description

一种云环境中分布式流数据处理方法及系统

技术领域

针对物联网时代数据量并发量大、流动快等特点，本发明设计了一种云环境中分布式流数据处理方法，用流式计算引擎Spark Streaming取代了传统的Lambda架构的的MapReduce批处理计算，并通过实例化多个输入流实现对多表数据的流计算，将计算结果保存在分布式文件系统HDFS中，通过分布式查询系统Impala实现高效查询。本发明属于基于云计算平台下的大数据处理领域。

背景技术

物联网技术飞速发展，对大数据处理技术提出了提出更严格的要求。物联网时代的大数据处理系统主要应对以下几个方面的挑战：

（1）需要处理的数据量更大、生成频率更快：与互联网相比，物联网的一大特征就是具有海量的节点，接入物联网的节点包含设备、物品、监测传感器、人和服务器等，在数据的数量、规模都不能和互联网时代同日而语；另一方面，由于物联网时代的传感器节点多数处于全天候工作状态，源源不断地产生数据。因此物联网生成数据的频率要远远高于互联网。

（2）对数据处理、传输速率要求更高：一方面，为了应对物联网数据海量性的要求，数据中心网必将汇聚更多的数据，对数据传输速率提出了更高的要求；另一方面，由于物联网直接连接现实物理世界，在诸如自动驾驶、智能监控等很多情况下，需要实时计算产生的数据，以及实时控制相应的传感节点和设备，因此必须提高数据传输和处理的速率。

（3）物联网时代数据更多样化：物联网的应用领域非常广泛，从智能物流、自动驾驶、智慧城市、自动监测、智慧农业、智能医疗、视频监控等，无一不是物联网技术的应用。因此，在物联网的不同应用领域，需要处理不同结构、不同格式、不同速率的数据，还需要处理图片、视频等非结构化数据，因此大数据处理系统要能够处理物联网产生的多种多样数据。

为满足低时延、高容错、易扩展等大数据处理系统关键特性，传统的大数据处理系统基于Lambda架构设计。Lambda结合了实时计算和全量计算两种架构，在结构可以分为三模块，即：1.实时处理模块（Real-Time Layer）:主要负责流式数据的计算。2.批处理模块（Batch Layer）：主要针对批处理数据完成周期性的全量计算。3.服务模块（ServingLayer）：主要负责给上模块应用提供访问接口，进行存储、查询等任务。Lambda的整体架构图如图1所示。

但是Lambda架构的缺点是需要维护流处理以及批处理两套代码，所有的算法都实现两次，一次是为批处理系统，另一次是为实时系统，还要求查询得到的是两个系统结果的合并，导致开发以及维护的难度加大。

发明内容

本发明的目的是提出一种云环境中分布式流数据处理方法，以提高流处理并行度、加快查询速度以及实现了对全量计算的优化。较之其他的大数据处理框架，该方法能更好地解决物联网时代多节点、分布式数据的实时处理与全量计算、快速查询等问题。

为了实现上述技术目的，本发明采用如下技术方案：

一种云环境中分布式流数据处理方法，所述方法应用于分布式数据处理系统，所述分布式数据处理系统包括分布式消息队列模块、流处理模块、批处理模块以及服务模块四个模块，所述方法包括以下几个步骤：

步骤1、物联网数据经过收集和聚合后进入分布式消息队列，分布式消息队列模块一方面将流式数据交给流处理模块进行处理，另一方面根据批处理周期将批处理数据保存下来；

步骤2、流处理模块完成对增量数据流的流式处理，并创建多个输入数据流完成对多表数据的并行处理，实时更新流式数据的处理结果；

步骤3、当批处理模块发起全量计算需求的时候，首先实例化一个流处理模块实例，根据批处理周期读取存储在分布式消息队列模块中的批处理数据，计算结果存储在分布式文件系统中；

步骤4、利用SQL语义的查询系统完成存储在分布式文件系统上的运算结果的查询。

步骤1中所述物联网数据包括温度数据、湿度数据以及经纬度数据。

步骤1中，物联网数据根据哈希等分区算法的计算结果，将消息发布到指定话题中分区里面，分布式队列集群接收到消息后，一方面将流式数据交予消费者的流处理模块处理，另一方面根据保留数据配置时长，将消息持久化到磁盘中，交予批处理模块进行全量计算。

步骤2中，流处理系统通过直接连接方式与分布式消息队列集群建立连接，通过创建直接数据流，新建直接的分布式队列离散数据流实例化对象，从分布式队列中拉取数据，并将数据流创建为离散数据流数据抽象，流处理模块创建输入流数据接收器对象，该接收器对象接受从分布式消息队列拉取得到的数据，存入内存中进行处理；流处理模块按照批处理时间将得到的数据划分为间隔时间很短离散数据集，对于每一个离散数据流，遍历数据流里面每一个弹性分布式数据集，判断每一个弹性分布式数据集是否为空，对于非空的数据集，通过隐式变换完成数据转换、以及异常数据的筛选，最后将结果转化为结构化数据抽象，将得到的既定的结构化数据格式数据写入到分布式文件系统中存储；

流处理模块处创建多个输入数据流实例分别处理不同表结构的数据，不同表结构的数据通过相应的输入数据流，将多个输入数据流聚合在一起，运行处理流程之后转化为数据结构确定的结构数据，从而对聚合之后的数据进行计算以及异常数据筛选。

步骤3中，当需要系统进行全量计算时，启动流处理作业的第二个实例对步骤1中分布式消息队列持久化到磁盘的批处理数据进行全量计算，之后直接把结果数据写入到分布式文件系统的新数据记录表中。

流处理模块获取数据以及计算的步骤与步骤2中相同。

步骤4中，利用SQL语义的查询系统完成存储在分布式文件系统上的运算结果的查询具体包括：客户端向查询系统提交SQL查询命令，查询系统前端将SQL语句通过单节点计划生成、并行化和分段转化为执行计划，主要包含两个阶段，第一阶段对SQL语句进行解析、分析、优化，第二阶段生成分布式执行计划，在分发执行计划后，查询系统使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，返回给客户端。

一种云环境中分布式流数据处理系统，包括以下四个模块：分布式消息队列模块：分布在不同位置、各个节点的传感器数据进入分布式消息队列，分布式消息队列将数据划分为多个分区存储，供后阶段的流处理和全量计算使用；

流处理模块：流处理模块处理的是最近的增量数据流，完成流式数据的实时计算以及异常数据的筛选，将实时处理结果输出到分布式文件系统临时存储中；

批处理模块：批处理模块完成周期性全量计算，当需要全量计算时，批处理模块重新发起一个流计算实例，读取一定批处理周期的数据，计算结果同样储存到分布式文件系统中；

服务模块：服务模块用于完成流处理模块和批处理模块数据的整合存储，并通过SQL语义的查询系统为用户提供查询接口。

所述分布式消息队列模块采用Kafka。

所述流处理模块中采用Spark Streaming引擎。

本发明云环境中分布式流数据处理方法的有益效果是：

与传统的流式计算与全量计算共存的系统相比，本发明只需要实现一份流式计算代码，降低了开发维护成本；再者，本发明采用多个数据流的流失数据处理来实现多表数据处理，实现了对不同数据结构、不同数据源的数据的分析、处理、存储；另外，本发明对存储在分布式文件系统内的数据采用Impala数据库进行快速，实现高效的数据查询管理。

下面对本发明方法的有益效果做详细的说明：

成本低、可维护性好：传统的Lambda架构需要在维护流处理代码之余，还需要维护一套功能相似的批处理代码。通过实例化流处理实例Spark Streaming取代原来批处理代码可以大大降低维护成本，然而Spark Streaming具有扩展性好、容错性好等优点，可以通过加大Input Stream并发量的方法对海量批处理数据加以处理。因此，本发明针对批处理系统进行优化，通过实例化全新的Spark Streaming实例来解决数据全量计算的问题，以取代原来的Lambda的批处理系统。

使用Kafka消息队列实现数据的存储，以及提供给多个订阅者使用，当需要进行重新计算时，启动流处理作业的第二个实例对之前获得的数据进行处理，运算结果存储到HDFS中。

本发明采用了全新Kappa架构，只需要维护实时流处理上一套Spark Streaming系统，且数据保存在Kafka中，避免批数据保存到HDFS等系统中，降低了成本和维护程度。

并发度高：本发明通过在Worker节点上对每个输入DStream一个Receiver并运行，以接收一个数据流。本发明通过创建多个输入DStream被配置从数据源接收不同分区的多表数据，每一个Input Stream接收处理一个表结构数据。

查询效率、实时性高：本发明的服务模块采用Impala查询系统取代了Hive查询系统，传统的Hive查询将HDFS结构化的数据映射为一张数据表，将SQL语句并行化，转化为MapReduce任务进行，因为Hive查询系统将查询任务分解为MapReduce任务进行处理，而Impala采用分布式查询引擎，在HDFS、HBase中直接采用JOIN、SELECT等SQL语句查询数据，为应用提供了交互式实时的SQL查询，大大降低了查询时延。

附图说明

图1是Lambda架构图，

图2是Kappa架构图，

图3是整体架构图，

图4是Spark的Executor和Driver与Kafka集群连接图，

图5是Spark Streaming算法流程图，

图6是多表数据处理流程图。

具体实施方式

本发明的设计方案强调提高对多节点、分布式数据的流处理、存储、查询三大过程的优化，以及对通过流处理实现对全量计算的优化。针对传统的Lambda架构的流处理阶段，本发明通过SparkStreaming应用程序中创建多个Input Dstream并行接收来自不同数据节点的数据；针对全量计算阶段，本发明通过创建新的SparkStreaming任务来代替传统的MapReduce批处理计算。

一、体系结构

本发明的体系架构可以划分为以下四个模块：

1.分布式消息队列模块：分布在不同位置、各个节点的传感器数据进入分布式消息队列，分布式消息队列将数据划分为多个分区存储，供后阶段的流处理和全量计算使用；

2.流处理模块（Speed Layer）：流处理模块使用Spark Streaming引擎，处理的是最近的增量数据流，完成流式数据的实时计算以及异常数据的筛选，将实时处理结果输出到HDFS临时存储中；

3.批处理模块：批处理模块完成周期性全量计算，当需要全量计算时，批处理模块重新发起一个Spark Streaming流计算实例，读取一定批处理周期的数据，计算结果同样储存到HDFS中；

4.服务模块：服务模块主要完成流处理模块和批处理模块数据的整合存储，并通过Impala查询系统为用户提供查询接口。整个体系结构如图3所示。

二、方法流程

下面以具体实施例对本发明技术方案作进一步详细说明。

本发明分为以下几个步骤处理分布式数据：

①分布在各个位置的物联网数据（温度、湿度、经纬度）数据经过收集和聚合后进入Kafka分布式消息队列，Kafka一方面将流式数据交给Spark Streaming进行处理，另一方面根据批处理周期将批处理数据保存下来；

②Spark Streaming完成对增量数据流的流式处理，并创建多个Input Dstream完成对多表数据的并行处理，实时更新流式数据的处理结果；

③当批处理模块发起全量计算需求的时候，首先实例化一个Spark Streaming实例，根据批处理周期读取存储在Kafka的批处理数据，计算结果存储在HDFS中；

④利用Impala查询系统完成存储在HDFS上的运算结果的查询。

考虑到物联网数据并发量大、速率高、吞吐量大等特点，本发明的消息队列采用高吞吐量的Kafka。Kafka主要由几个部分构成：

1.消息生产者（Producers）；

2.信息消费者（Consumers）；

3.缓存代理（Broker）；

4.话题（Topic）：一个Topic可以理解为一类消息，每个Topic被分为多个分区（Partition），每个分区在存储模块表现为可追加的log文件，每个分部到分区上的消息都被追加到log文件尾部，用偏移（offset）唯一标示每一个消息，偏移表示该消息在文件中的位置，是一个long型数据。本发明的Kafka集群采用分布式文件系统Zookeeper进行高可用、快读、分布式的协调服务。

物联网数据根据hash, round-robin等分区算法的计算结果，将消息发布到

指定话题（topic）中分区里面。Kafka集群接收到消息后，一方面将流式数据交予消费者的Spark Streaming引擎处理，一方面根据保留数据配置时长，将消息持久化到磁盘中，交予批处理模块的Spark Streaming进行全量计算。

增量数据流处理

本发明的实时处理模块和批处理模块的流式数据处理引擎采用Spark Streaming，Spark是一个与Hadoop的MapReduce计算框架类似的，快速、通用的大规模数据处理引擎。与Hadoop的MapReduce相比，Spark具有基于内存计算、可伸缩等诸多优点，核心是弹性分布式数据集RDD。Spark Streaming是在Spark上构建的实时计算框架，具有高吞吐、容错、支持实时数据流等特点，核心是高级抽象连续数据流Dstream。Spark Streaming的核心思想是在一系列较小时间间隔内，将计算划分为批次确定、状态无关的批次任务，每批次的任务对应的数据集并行地利用算子进行Map、Reduce操作。

Spark Streaming通过直接连接方式与Kafka集群建立连接，Spark的Driver和Executor与Kafka的连接图如图4所示。

在接收到实时数据流之后，Spark Streaming将按照批处理间隔batch size将流计算任务分解为多段数据，每一段数据都转换成一系列短小的批处理作业，每一段数据都被转化为Spark中的RDD（Resilient Distributed Dataset），对于非空的RDD，可以通过隐式变换的方式，调用toDF()函数将其转化为SQL单例对象，调用map和filter算子实现格式转换，最后将处理结果写入到HDFS中。Spark Streaming接收数据处理的主要算法流程如图5所示。

多表数据处理

在物联网时代，流式数据处理系统要处理的是多节点、分布式的流式数据，

温度、湿度等传感器的数据结构不尽相同。考虑到本发明要处理的数据量非常大、数据流速度非常快，因此在Spark Streaming处创建多个输入数据流实例分别处理不同表结构的数据。不同表结构的数据通过相应的输入数据流，将多个输入数据流根据某些字段，如ID、时间等聚合在一起，运行步骤3的处理流程之后转化为数据结构确定的DataFrame结构数据，从而对聚合之后的数据进行计算以及异常数据筛选。

流处理实现全量计算

根据全量计算的周期，设置Kafka集群的数据保留时间。当需要系统进行全量计算时，启动Spark Streaming流处理作业的第二个实例对Kafka持久化到磁盘的批处理数据进行全量计算，之后直接把结果数据写入到HDFS的新数据记录表中。

Impala分布式数据查询

客户端向Impala提交SQL查询命令，Impala前端将SQL语句通过单节点计划生成、并行化和分段转化为执行计划。主要包含两个阶段，第一阶段对SQL进行解析、分析、优化，第二阶段生成分布式执行计划，确定是否要添加exchange节点，选择join策略，最后以exchange对计划分段，段是Impala的基本运行单元。

Impala生成的执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个节点上的Impala执行查询，在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，避免把中间结果写入磁盘的步骤，从而减小磁盘读取数据的开销。

本发明一种云环境中分布式流数据处理方法主要实施流程如下：

步骤1:物联网数据根据hash, round-robin等分区算法的计算结果，将消息发布到指定话题（topic）中分区里面。Kafka集群接收到消息后，一方面将流式数据交予消费者的Spark Streaming引擎处理，一方面根据保留数据配置时长，将消息持久化到磁盘中，交予批处理模块的Spark Streaming进行全量计算。

步骤2：Spark通过直接连接方式与Kafka集群建立连接,只在driver端接收数据，通过调用KafkaUtils的createDirectStream方法，新建Direct KafkaInputDstream实例化对象，从Kafka中拉取数据，并将数据流创建为Dstream数据抽象，一个Dstream可以看做一个RDDs的序列。

步骤3：Spark Streaming创建Input Dstream接收器对象，该接收器对象接受来自步骤2中从Kafka拉取得到的数据，存入Spark内存中进行处理。Spark Streaming按照批处理时间将得到的数据划分为数据集Dstream。对于每一个Dstream，通过调用foreachRDD()方法访问该Dstream的每一个RDD，调用isEmpty()方法判断每一个RDD是否为空，对于非空的RDD，通过RDD的sparkContext获取其sparkContext实例化对象，将此sparkContext对象作为一个参数新建一个SQLContext对象，从而得到该RDD的SQLContext单例对象，从而导入该单例对象的implicits._，实现隐式变换。调用Spark Streaming集成的map、filter算子完成rdd的数据转换、以及异常数据的筛选，对生成的rdd调用toDF()方法将rdd转化为DataFrame数据抽象，将得到的DataFrame格式数据写入到HDFS中存储。

步骤4： Spark Streaming处创建多个输入数据流实例分别处理不同表结构的数据。不同表结构的数据通过相应的输入数据流，将多个输入数据流根据某些字段，如ID、时间等聚合在一起，运行步骤3的处理流程之后转化为数据结构确定的DataFrame结构数据，从而对聚合之后的数据进行计算以及异常数据筛选。

步骤6：当需要系统进行全量计算时，启动Spark Streaming流处理作业的第二个实例对步骤1中Kafka持久化到磁盘的批处理数据进行全量计算，Spark Streaming获取数据以及计算的步骤与步骤2、步骤3中相同，之后直接把结果数据写入到HDFS的新数据记录表中。

步骤7：客户端向Impala提交SQL查询命令，Impala前端将SQL语句通过单节点计划生成、并行化和分段转化为执行计划。主要包含两个阶段，第一阶段对SQL进行解析、分析、优化，第二阶段生成分布式执行计划，确定是否要添加exchange节点，选择join策略，最后以exchange对计划分段。在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，返回给客户端。

Claims

1.一种云环境中分布式流数据处理方法，所述方法应用于分布式数据处理系统，所述分布式数据处理系统包括分布式消息队列模块、流处理模块、批处理模块以及服务模块四个模块，其特征在于，所述方法包括以下几个步骤：

2.根据权利要求1所述的云环境中分布式流数据处理方法，其特征在于，步骤1中所述物联网数据包括温度数据、湿度数据以及经纬度数据。

3.根据权利要求1所述的云环境中分布式流数据处理方法，其特征在于，

4.根据权利要求1所述的云环境中分布式流数据处理方法，其特征在于，

5.根据权利要求4所述的云环境中分布式流数据处理方法，其特征在于，步骤3中，当需要系统进行全量计算时，启动流处理作业的第二个实例对步骤1中分布式消息队列持久化到磁盘的批处理数据进行全量计算，之后直接把结果数据写入到分布式文件系统的新数据记录表中。

6.根据权利要求5所述的云环境中分布式流数据处理方法，其特征在于，流处理模块获取数据以及计算的步骤与步骤2中相同。

7.根据权利要求1所述的云环境中分布式流数据处理方法，其特征在于，

8.一种云环境中分布式流数据处理系统，其特征在于，包括以下四个模块：分布式消息队列模块：分布在不同位置、各个节点的传感器数据进入分布式消息队列，分布式消息队列将数据划分为多个分区存储，供后阶段的流处理和全量计算使用；

9.根据权利要求8所述的云环境中分布式流数据处理系统，其特征在于，所述分布式消息队列模块采用Kafka。

10.根据权利要求8所述的云环境中分布式流数据处理系统，其特征在于，所述流处理模块中采用Spark Streaming引擎。