CN110377653A

CN110377653A - 一种实时大数据计算与存储方法及系统

Info

Publication number: CN110377653A
Application number: CN201910633540.6A
Authority: CN
Inventors: 吴信才; 吴亮; 万波; 黄颖; 黄胜辉; 黄波; 陈小佩; 尹培培
Original assignee: WUHAN ZONDY CYBER CO Ltd
Current assignee: WUHAN ZONDY CYBER CO Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-25
Anticipated expiration: 2039-07-15
Also published as: CN110377653B

Abstract

本发明涉及实时大数据技术领域，尤其涉及一种实时大数据计算与存储方法及其系统，其不同之处在于，其步骤包括：S1、通过数据转换模块提取多源异构数据并转换成统一格式的数据，将处理后的数据发送到输入控制模块；S2、由输入控制模块对输入的数据进行汇聚集中、缓存，并进行拦截、监控、调度一系列处理后批量转发给实时计算模块；S3、实时计算模块分为空间过滤计算和空间映射计算，计算完成后将计算结果发送给流数据服务模块；S4、通过流数据服务模块提供实时数据服务和历史数据服务。本发明可更高效地处理多源异构实时大数据。

Description

一种实时大数据计算与存储方法及系统

技术领域

本发明涉及实时大数据技术领域，尤其涉及一种实时大数据计算与存储方法及其系统。

背景技术

随着我国地理信息服务从专业化逐渐向大众化发展，其所产生的数据呈爆炸式增长，从而对地理信息实时数据的查询、分析和存储的要求也越来越高。实时数据是指从过程控制系统中实时采集的数据、向过程控制系统实时发送的数据以及对实时数据进行各种实时计算直接产生的中间数据。实时数据来源广，例如从物联网中多种类型的传感器获取的数据、位置信息数据、要素信息数据、新闻RSS数据、日志等。实时数据的计算一般都是针对海量数据进行的，实时计算最重要的一个需求是能够实时响应计算结果，一般要求为秒级。

目前，大数据背景下的实时数据面临流量巨大、流速特别快、难以快速计算与存储的问题。地理信息数据来源广，结构复杂，并且传统的大数据计算方法也受限于磁盘读写性能以及网络性能的相关约束，在进行实时数据的查询、计算和存储等各方面都不算是高效的。

鉴于此，为克服上述技术缺陷，提供一种实时大数据计算与存储方法及其系统成为本领域亟待解决的问题。

发明内容

本发明的目的在于克服现有技术的缺点，提供一种实时大数据计算与存储方法及其系统，可更高效地处理多源异构实时大数据。

为解决以上技术问题，本发明的技术方案为：一种实时大数据计算与存储方法，其不同之处在于，其步骤包括：

S1、通过数据转换模块提取多源异构数据并转换成统一格式的数据，将处理后的数据发送到输入控制模块；

S2、由输入控制模块对输入的数据进行汇聚集中、缓存，并进行拦截、监控、调度一系列处理后批量转发给实时计算模块；

S3、实时计算模块分为空间过滤计算和空间映射计算，计算完成后将计算结果发送给流数据服务模块；

S4、通过流数据服务模块提供实时数据服务和历史数据服务。

按以上方案，所述数据转换模块为ETL工具，所述输入控制模块为输入控制器Kafka。

按以上方案，所述ETL工具包括外置收集器和输入控制器。

按以上方案，所述外置收集器通过监控系统将新增的数据实时传到系统中，其包括：用于文件数据收集的Flume工具、Logstash工具和用于数据库数据接收及转换的Sqoop工具。

按以上方案，所述输入控制器是通过通信协议服务，将数据主动传到系统中，其包括：用于json、csv及时推送的Http和WS，用于json、csv、图片的二进制数据推送的TCP；用于视频数据的接收和推送的RTSP；对于不可直接处理的数据，可自定义规则进行数据转换。

按以上方案，所述实时计算模块的空间过滤流程的具体实施方式为：

1）从输入控制模块中获取Kafka缓存数据；

2）判定该数据与空间过滤区域是否为进入、出去的空间关系：

21）若该数据与空间过滤区域是进入、出去的空间关系，则：

211）分别进行当前数据与上一时刻数据的空间关系判别；

212）通过对比两次判别结果，计算得到进入、出去的空间关系；

213）将本次数据更新到历史数据中；

22）若该数据与空间过滤区域不是进入、出去的空间关系，则计算当前的空间关系；

3）判断当前空间关系是否满足用户输入：

31）若不满足用户输入，重新接收新的数据进行判断；

32）若满足用户输入，返回当前数据，进行其他处理。

按以上方案，所述实时计算模块的空间映射流程的具体实施方式为：

1）从输入控制模块获取Kafka缓存数据；

2）加载空间映射插件；

3）调用插件，执行函数，对实时获取的数据进行计算；

4）调取插件执行结果，计算结束。

按以上方案，所述步骤S4中，历史数据由ElasticSearch和PostgreSQL存储，其中ElasticSearch存储点数据，PostgreSQL存储线数据和面数据。

按以上方案，所述步骤S4中，实时数据服务是通过WebSocket协议将实时数据主动推送到其他模块。

一种实时大数据计算与存储系统，其特征在于：其包括

数据源模块：实时大数据包括传感器数据、位置信息、要素信息、新闻RSS以及日志信息，数据的格式包括GIS数据、文档数据、影像数据；

数据转换模块：通过ETL工具将多源异构数据转换成统一格式的数据；对于可直接处理的数据，通过ETL工具对数据进行清洗转换；对于不可直接处理的数据，可自定义规则进行数据转换；

输入控制模块：由输入控制器Kafka控制，由Kafka接收ETL工具清洗后的数据，将数据汇聚集中、缓存，在数据之间进行拦截、监控、调度一系列操作后转发给实时计算模块；

实时计算模块：实时计算模块基于Spark Streaming框架实现，将持续不断输入的数据流分发给各个计算节点，并在各个计算节点提供多个处理服务，从而实现对实时大数据的空间过滤、空间映射计算的功能；经Spark Streaming实时计算模块处理后的数据发送给流数据服务模块；

流数据服务模块：计算后的数据发送到流数据服务模块，提供数据的存储、查询服务，支持实时大数据的动态聚合显示和高效可视化表达；流数据服务分为实时和历史数据服务；历史数据主要由ElasticSearch和PostgreSQL存储，ElasticSearch存储点数据，PostgreSQL存储线数据和面数据；实时数据服务主要通过WebSocket协议主动推送到其他模块。

对比现有技术，本发明的有益特点为：

本发明具有多源异构数据的聚合、转换和缓存、发送的功能；另一方面，与SparkStreaming实时流计算框架深度融合，能够进行空间过滤、空间映射等多种实时数据计算功能；另外，通过ElasticSearch和PostgreSQL等工具，提供PB级大数据实时搜索、存储的功能。

附图说明

图1为本发明实施例的框架示意图；

图2为本发明实施例输入控制模块示意图；

图3为本发明实施例实时计算模块的空间过滤计算流程示意图；

图4为本发明实施例实时计算模块的空间映射计算流程示意图；

图5为本发明实施例流数据服务模块示意图；

图6为本发明实施例的一种实时大数据计算与存储处理流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在下文中，将参考附图来更好地理解本发明的许多方面。附图中的部件未必按照比例绘制。替代地，重点在于清楚地说明本发明的部件。此外，在附图中的若干视图中，相同的附图标记指示相对应零件。

如本文所用的词语“示例性”或“说明性”表示用作示例、例子或说明。在本文中描述为“示例性”或“说明性”的任何实施方式未必理解为相对于其它实施方式是优选的或有利的。下文所描述的所有实施方式是示例性实施方式，提供这些示例性实施方式是为了使得本领域技术人员做出和使用本公开的实施例并且预期并不限制本公开的范围，本公开的范围由权利要求限定。在其它实施方式中，详细地描述了熟知的特征和方法以便不混淆本发明。出于本文描述的目的，术语“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”和其衍生词将与如图1定向的发明有关。而且，并无意图受到前文的技术领域、背景技术、发明内容或下文的详细描述中给出的任何明示或暗示的理论限制。还应了解在附图中示出和在下文的说明书中描述的具体装置和过程是在所附权利要求中限定的发明构思的简单示例性实施例。因此，与本文所公开的实施例相关的具体尺寸和其他物理特征不应被理解为限制性的，除非权利要求书另作明确地陈述。

请参考图1至图6，本发明提供一种实时大数据计算与存储方法，在分布式计算机集群环境中，能很好实现对传感器数据、位置信息数据、要素信息数据、新闻RSS数据、日志等实时数据进行接收、汇聚、计算、存储等实时处理。具体是通过ETL、Kafka等工具进行实时数据聚合、转换，通过Spark Streaming框架进行流数据计算，通过ElasticSearch进行实时大数据存储、查询的技术，以达到处理多源异构实时大数据的目的。

本发明实施例中，首先由ETL工具对多源异构数据进行提取、转换，经过ETL工具处理后的数据发送至Kafka消息队列缓存；Kafka高性能消息缓存对输入的数据进行汇聚，然后经一系列拦截、监控、调度等处理后转发，Kafka可以实时地处理大量数据以满足各种需求场景；然后通过与Spark Streaming框架融合，构成处理器部分，实现空间过滤、空间映射等功能，空间过滤通过对当前数据与空间过滤区域的区域判定来计算空间关系，空间映射通过加载空间映射插件，调用函数来进行计算；最后由ElasticSearch、PostgreSQL等汇聚和存储数据，ElasticSearch存储点数据，PostgreSQL可存储线数据和面数据，由WebSocket协议主动推送到其他模块，提供数据服务。

本发明所涉及到的技术如下：

（1）ETL工具

ETL，是英文Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL 是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

（2）Kafka

Kafka是一个分布式消息队列，是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。它具备高吞吐量、低延迟、可扩展、可持久化、高容错性、高并发等特点。

（3）Spark Streaming

Spark是一个类似于MapReduce的分布式计算框架，其核心是弹性分布式数据集，提供了比MapReduce更丰富的模型，可以在快速在内存中对数据集进行多次迭代，以支持复杂的数据挖掘算法和图形计算算法。Spark Streaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。Spark Streaming在内部的处理机制是，接收实时流的数据，并根据一定的时间间隔拆分成一批批的数据，然后通过Spark Engine处理这些批数据，最终得到处理后的一批批结果数据。

（4）ElasticSearch

ElasticSearch是一个实时、分布式、搜索和分析引擎，它让以前所未有的速度处理大数据成为可能。它用于全文搜索、结构化搜索、分析以及将这三者混合使用。它的特点是：1）分布式的实时文件存储，每个字段都被索引并可被搜索；2）分布式的实时分析搜索引擎；3）可以扩展到上百台服务器，处理PB级结构化或非结构化数据。

（5）PostgreSQL

PostgreSQL是一个功能强大的开源对象关系数据库管理系统(ORDBMS)，用于安全地存储数据。它的特点是：1）支持文本，图像，声音和视频，并包括用于C/C++，Java，Perl，Python，Ruby，Tcl和开放数据库连接的编程接口；2）表可以设置为从“父”表继承其特征。

如图1所示，本发明的实时大数据计算服务框架包括以下部分：

数据源模块101：实时大数据包括传感器数据、位置信息、要素信息、新闻RSS以及日志信息等，这些数据的格式有GIS数据、文档数据、影像数据等。由于这些数据来源广，结构复杂，采集方式多样化，故需要发送到ETL工具模块进行数据转换。

数据转换模块102：通过ETL工具将多源异构数据转换成统一格式的数据。对于一些数据可以用已有的技术直接处理，通过现有的ETL工具对数据进行清洗转换；对于不可直接处理的数据，可自定义规则进行数据转换。具体的转换方法在图2中体现。由于ETL数据转换相较于Spark Streaming计算更快，所以可将数据推送到Kafka消息队列进行缓存，再发送到实时计算模块处理。

输入控制模块103：由输入控制器Kafka控制。由Kafka接收ETL工具清洗后的数据，将数据汇聚集中、缓存，在数据之间进行拦截、监控、调度等一系列操作后转发给SparkStreaming实时计算模块。

实时计算模块104：实时计算模块基于Spark Streaming框架实现，将持续不断输入的数据流分发给各个计算节点，并在各个计算节点提供多个处理服务，从而实现对实时大数据的空间过滤、空间映射计算等功能。具体的处理流程在图3、图4中体现。经SparkStreaming实时计算模块处理后的数据发送给流数据服务模块。

流数据服务模块105：计算后的数据发送给流数据服务模块，提供数据的存储、查询等服务，支持实时大数据的动态聚合显示和高效可视化表达。流数据服务分为实时和历史数据服务，历史数据主要由ElasticSearch和PostgreSQL存储，ElasticSearch存储点数据，PostgreSQL可存储线数据和面数据，实时数据服务主要通过WebSocket协议主动推送到其他模块。

图2是数据转换模块，是图1中102模块的具体转换方法。如图2所示，ETL工具包括外置收集器和输入控制器。

外置收集器201：外置收集器是通过监控系统，将新增的数据实时传到系统中。主要包括Flume工具、Logstash工具和Sqoop工具。Flume是一个实时数据收集工具，在分布式环境下，实现文件数据的收集，然后发送至Kafka缓存模块；Logstash工具是一个开源的服务器端数据处理管道，同样负责文件数据的收集； Sqoop工具是一个在Hadoop(Hive)与传统的数据库间进行数据的传递的工具，用于数据库数据的接收和转换。

输入控制器202：输入控制器是通过通信协议服务，将数据主动传到系统中。其中，Http和WS负责json、csv的及时推送；TCP负责json、csv以及图片等二进制数据的推送；RTSP负责视频数据的接收和推送。对于不可直接处理的数据，可自定义规则进行数据转换。

图3是实时计算模块中的空间过滤计算部分，是图1中104模块的空间过滤流程。

图4是实时计算模块中的空间映射计算部分，是图1中104模块的空间映射流程。

图5是流数据服务模块。是图1中105模块的具体实现方法。如图5所示，流数据服务包括历史数据服务和实时数据服务。

如图6所示，这是本发明的一种实时数据的处理流程示意图：

数据源模块601：一般的LBS数据都属于实时数据源，包括手机定位数据、视频流数据等。这里以出租车轨迹数据为例来说明。

Logstash数据过滤模块602：出租车轨迹数据可直接通过Logstash进行清洗转换。Logstash是一个开源的数据收集引擎，它可动态地将不同来源的数据源统一起来，实时解析，并转换成通用的格式，实时输出给Kafka缓存模块。

Kafka缓存模块603：Kafka收到Logstash传送来的数据后，将数据汇聚集中、缓存，在数据之间进行拦截、监控、调度等一系列操作后，转发给计算模块（空间过滤）。

空间过滤模块604：该模块为出租车轨迹数据的计算模块，数据通过Logstash处理、Kafka缓存之后发送过来，根据当前位置数据与空间过滤区域计算空间关系：首先判定出租车轨迹数据与空间过滤区域是否为进入、出去的空间关系，如果是进入、出去的空间关系，则分别进行当前位置与上一时刻位置的空间关系判定；如果不是进入、出去的空间关系，则直接将当前位置数据与空间过滤区域进行空间关系判定，得到计算结果。最后判断该计算结果是否满足用户输入，若满足用户输入，则在进行其他数据处理后发送给ElasticSearch进行保存，否则接收下一个数据进行计算。

ElasticSearch保存模块605：数据最终发送到ElasticSearch管理。达到出租车实时轨迹数据分布式存储、检索的效果。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种实时大数据计算与存储方法，其特征在于，其步骤包括：

2.根据权利要求1所述的实时大数据计算与存储方法，其特征在于：所述数据转换模块为ETL工具，所述输入控制模块为输入控制器Kafka。

3.根据权利要求2所述的实时大数据计算与存储方法，其特征在于：所述ETL工具包括外置收集器和输入控制器。

4.根据权利要求3所述的实时大数据计算与存储方法，其特征在于：所述外置收集器通过监控系统将新增的数据实时传到系统中，其包括：用于文件数据收集的Flume工具、Logstash工具和用于数据库数据接收及转换的Sqoop工具。

5.根据权利要求3所述的实时大数据计算与存储方法，其特征在于：所述输入控制器是通过通信协议服务，将数据主动传到系统中，其包括：用于json、csv及时推送的Http和WS，用于json、csv、图片的二进制数据推送的TCP；用于视频数据的接收和推送的RTSP；对于不可直接处理的数据，可自定义规则进行数据转换。

6.根据权利要求2所述的实时大数据计算与存储方法，其特征在于：所述实时计算模块的空间过滤流程的具体实施方式为：