CN107545014A

CN107545014A - 基于Storm的流计算即时处理系统

Info

Publication number: CN107545014A
Application number: CN201610502488.7A
Authority: CN
Inventors: 田娜; 杨庆双; 刘金华; 贾诗乐; 徐俊; 刘建宇; 崔雨玲; 杨宇全; 曹北建
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2018-01-05

Abstract

本发明公开了一种基于Storm的流计算即时处理系统，其包括四个部分，第一部分是数据接入该部分从前端业务系统获取数据；第二部分是最重要的Storm实时处理部分，数据从接入层接入，经过实时处理后传入数据落地层；第三部分为数据落地层，该部分指定了数据的落地方式；第四部分元数据管理器。通过对实际业务需求的调研以及算法的研究，形成满足实际业务的数据处理规则库，根据用户预定义的事件模型，实时高效地检测基本事件，直到组成事件模型的所有基本事件被检测到。本发明适用于处理对符合电网业务数据特征的数据流实时性要求极高的复杂分析计算，可达到加快数据分析速度、实时分析计算的目的。

Description

基于Storm的流计算即时处理系统

技术领域

本发明涉及智能配用电技术领域，尤其是一种基于Storm的流计算即时处理系统。

背景技术

目前国内外机构和组织中应用的许多数据管理系统很好地解决了低延时、高并发的问题，但是，这类系统不一定能完全适用于电网内的业务系统存储要求。目前的研究结果中缺乏可靠、扩展性强、能处理大规模数据和较为复杂需求的处理办法，尤其在非结构化数据处理以及实时流计算方面在电力行业仍缺乏有成效的典型应用，需要进一步研究符合电力行业特征的流计算技术和数据查询技术。

流计算方面，现有技术主要侧重于提升单台主机的处理能力，采用的基本模型包括界标模型、滑动窗口模型和衰减窗口模型：界标模型考虑所有的数据元组；滑动窗口模型考虑最近的多个元组；衰减窗口模型中元组的重要性随时间的推移而降低。存在的局限性包括：一是现有解决方案利用有限硬件资源，在较短时间内进行大规模数据的处理，需要与MapReduce等集约化的分布式框架进行深入整合；二是现有分布式数据流技术以降低网络开销为主要目的，而网络带宽并非系统唯一的资源瓶颈。

数据流计算必须满足一个新的现实需求：数据的价值随着时间的流逝而降低，所以事件出现后必须尽快地对它们进行处理，最好数据出现时便立刻对其进行处理，发生一个事件进行一次处理，而不是缓存起来成一批处理。在数据流模型中，需要处理的输入数据(全部或部分)并不存储在可随机访问的磁盘或内存中，它们以一个或多个“连续数据流”的形式到达。

发明内容

本发明要解决的技术问题是提供一种基于Storm的流计算即时处理系统，其可达到加快数据分析速度、实时分析计算的目的。

为了解决上述技术问题，本发明一种基于Storm的流计算即时处理系统，包括四个部分，

第一部分为数据接入层，数据接入该部分从前端业务系统获取数据，

数据接入层：该部分有多种数据收集方式，包括使用消息队列MetaQ，直接通过网络Socket传输数据，前端业务系统专有数据采集API、对Log的定时监控，

在数据接入层，应用动态实时数据捕获技术、增量数据捕获技术，结合数据捕获过程对生产终端影响降低方法，实现在尽可能降低生产终端影响的前提下，灵活捕获数据；

第二部分为Storm实时处理层，数据从数据接入层接入，经过实时处理后传入数据落地层，

Storm实时处理层：其中Nimbus负责资源分配和任务调度，Supervisor负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程，Worker在运行具体处理组件逻辑的进程，worker中每一个spout/bolt的线程称为一个task，具体业务需求：条件过滤、中间值计算、求topN、推荐系统、分布式RPC、热度统计，

在Storm实时处理层，基于流计算引擎，实现按照预定义的规则对数据进行处理并形成计算结果；

第三部分为数据落地层，该部分指定了数据的落地方式，数据落地层包括MetaQ、Mysql、HDFS和Lustre，

MetaQ：部分数据在经过实时处理后写入MetaQ中，后端业务系统从MetaQ中获取数据，

Mysql：作为数据落地的存储对象，适合中小量数据存储，

HDFS：HDFS及基于Hadoop的分布式文件系统，用于基于HDFS搭建出来的日志分析系统与Storm的连接，

Lustre：可为数据提供一个较大的数据目录，并用于数据归档保存，

在数据落地层，结合基于SQL的数据实时查询技术以及数据展现控件技术，实现计算结果的多维度、形式丰富的展现，支撑高级电网业务应用，基于分布式存储技术对落地数据与计算结果进行存储；

第四部分元数据管理器，其为系统的统一协调组件，用于指导前端业务系统的数据写入、通知实时处理部分数据类型及其他数据描述、指导数据落地。

本发明的有益效果是：本发明基于Storm的流计算即时处理架构，提出一种流计算即时处理技术，适用于处理对符合电网业务数据特征的数据流实时性要求极高的复杂分析计算，可达到加快数据分析速度、实时分析计算的目的。

附图说明

图1为本发明基于Storm的流计算即时处理系统的应用实施流程图；

图2为本发明中流计算引擎架构图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明：

基于Storm的流计算即时处理技术，其核心技术包括以下几方面：

1、关于流计算，主要用于对动态产生的数据进行实时计算并及时反馈结果，是指当一定时间、数据点数、滑动、跳动等窗口内应用系统产生的流动数据到达后不进行存储，而是将流式数据直接导入内存进行实时计算，从流动的、无序的数据中获取有价值的信息输出。

2、关于流式数据，是指电力企业每天的生产经营活动中产生的海量视频、音频、日志等流式数据，该类数据具有实时性、易失性、突发性、无序性、无限性等特征，业界常采用流计算处理技术解决此问题。

流式计算中数据流主要特征体现：

●实时性：流式数据是实时产生、实时计算、即时反馈，数据价值有效时间较短，需要足够低延迟计算能力，可快速进行数据计算；

●易失性：数据流到达后立即被计算使用,数据的使用往往是一次性、易丢失,即使重放,得到的数据流和之前的数据流也不尽相同，对于系统容错性要求较高；

●突发性：数据的产生完全由数据源确定,不同的数据源在不同时空范围内的状态不统一且发生动态变化,导致数据流的速率呈现出了突发性的特征.要求系统具有很好的可伸缩性、强大的系统计算能力和数据流量动态匹配能力；

●无序性：各数据源间互相独立、时间环境动态变化，无法保证数据流间数据元素的相对顺序及重放数据流和之前数据流中数据元素的一致性，导致各数据流之间、同一数据流内部各数据元素之间是无序的；

●无限性：数据是实时产生、动态增加的,潜在的数据量是无限的,无法用一个具体确定的数据实现对其进行量化。

3、关于数据流处理模式，区别于传统的数据处理模式，主要特点如下：

●流中的数据元素在线到达、实时流入系统，需要实时处理并给出结果；

●系统无法控制将要处理的数据流的顺序，无法对数据流是否按时序到达系统或单位时间内的数据流量进行预测；

●数据流是无线地、持续地产生和流入的，无法预知数据流的潜在大小；

●持续处理”是数据流应用的典型特征，数据流的处理是一次性的，不是静态的存储后处理，而是动态的随到随时处理；

●很多高级的关系型操作语义被引入数据流模型中，如针对数据流的查找、选择、连接等。

4、关于数据流系统，其操作分为有状态和无状态两种，无状态的算子包括union、filter等，有状态的算子包括sort、join、aggregate等。有状态的算子如果执行失败后，其保持的状态会丢失，重放数据流产生的状态和输出不一定和失效前保持一致，而无状态的算子失败后，重放数据流能够构建与之前一致的输出。

5、关于流计算技术，是一种高实时性的计算技术，指当一定时间窗口内应有系统产生的流动数据到达后不进行存储，而是将流式数据直接导入内存进行实时计算，从流动的、无序的数据中获取有价值的信息输出。流计算具备分布式、低延迟、高性能、可扩展、高容错、高可靠、消息严格有序、定制开发等特点，流计算适用于对动态产生的数据进行实时计算并及时反馈结果,但往往不要求结果绝对精确的应用场景。流计算技术在业界应用比较广泛，主要用于电信、电力、道路监控等行业及互联网行业的访问日志处理。

目前提出的流计算技术，或多或少遵循如下准则：

●保证数据处于流动之中：为降低对数据流的处理延迟，系统需要实时对数据处理然后丢弃；

●利用SQL对数据流进行查询操作：建立查询机制提取流中有价值信息，可通过改进SQL使之更适合面向数据流的应用，拓展SQL语法，增加功能，使之融入流计算，如StreamSQL的诞生；

●具有处理有缺陷数据流的能力：实时数据中数据处于动态，几乎不会存储在数据库中，当某些数据元祖出现延迟、丢失或乱序时将会导致查询失败，需要建立特别机制进行处理，一种典型方案是设立超时机制，时间一到就对已到达的数据进行部分计算。

●产生可预测的结果：流计算必须能够用可预测的方式处理时序数据以确保处理结果是可确定的或者是可预测的；

●兼容静态数据和流数据：很多面向数据流的应用需要将当前数据与过去数据对比，需要一定的历史数据进行对比，StreamSQL也需要能应对静态数据。

●保证数据安全性和可用性：流计算须采用高可靠性解决方案，保证关键数据不丢失，避免实时处理出现中断。

●具有自动拓展和分解功能：流计算引擎需要具备在分布式节点上拓展的能力，支持多核处理器和多线程的应用，负载增大时应采用均衡技术使负载转移到相对空闲的节点上去，以免系统出现瓶颈；

●具备瞬时响应能力：减少边界跨越，降低高速数据流系统延迟。

6、关于流计算框架，所描述的流计算框架，针对具有实时性、易失性、突发性、无序性、无限性等特征的流式大数据,理想的大数据流式计算系统应该表现出低延迟、高吞吐、持续稳定运行和弹性可伸缩等特性，通过引入Storm、JStorm支撑流式数据实时处理。

7关于Storm系统，是Twitter开源的分布式实时计算系统，遵循Eclipse PublicLicense 1.0,可方便地在一个计算机集群中编写、扩展复杂的实时计算，并保证每个消息都会得到处理，每秒可以处理数以百万计的消息，实时处理消息并更新数据库，可以使用任意编程语言来做开发。

Storm系统的主要特征为：

●简单编程模型：用户只需编写Spout和Bolt部分的实现,降低了实时大数据流式计算的复杂性；

●支持多种编程语言：可以在Storm之上使用各种编程语言，默认支持Clojure,Java,Ruby和Python,也可通过添加相关协议实现对新增语言的支持；

●(支持)作业级容错性：Storm会管理工作进程和节点的故障，保证每个数据流作业被完全执行；

●水平可扩展：计算可以在多个线程、进程和服务器之间并发执行；

●可靠的消息处理:Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。

●快速消息计算：通过ZeroMQ作为其底层消息队列,保证了消息能够得到快速的计算。

Storm的应用场景很多：实时分析、在线机器学习、持续计算、分布式RPC、ETL处理等。

8、关于面向电力大数据的分布式流式处理系统，其基本原理是：设计分布式多数据流即时处理架构并识别关键技术，完成广域分布式环境下的多源电网数据流计算关键技术研究，建立基于流计算的智能电网大数据即时处理计算框架，支持分布式、高可用、可扩展的电网大数据流准实时处理。在此基础上，设计满足多源异构海量数据处理需求的数据实时处理流计算算法，通过对算法中的本地阶段化流水线、中间结果缓存等关键技术瓶颈进行改进，为大规模电力数据流进行实时性和可伸缩性处理提供支撑，为电网大数据流计算应用系统的研发和在电网业务场景中的推广奠定基础。

9、关于流计算即时处理架构，是针对大数据环境下电力实时业务处理需求，结合处理规模、处理时延及容忍误差范围、容错等要求，综合考虑编程模型、消息处理、可靠性、扩展性及目前主流流计算产品的技术特征、运用领域及处理架构，提出的适用于电网大数据环境下健壮、高效、可扩展的流计算即时处理架构。

●基于Storm的流计算即时处理架构以及在并发模式下线程模型、I/O模型以及并发模型三方面的应用策略。

●流计算即时处理平台的开发运行架构，从底层封装屏蔽系统的流计算平台的复杂性，可配置的实现作业的定义、加载、发布、调度、监控告警等。

●针对单任务、多任务计算以及多流级联的动态计算技术，实现流计算链可视化生成。

(1)Storm整个数据处理流程包括四部分：

第一部分是数据接入该部分从前端业务系统获取数据。

数据接入层：该部分有多种数据收集方式，包括使用消息队列(MetaQ)，直接通过网络Socket传输数据，前端业务系统专有数据采集API、对Log的定时监控。

第二部分是最重要的Storm实时处理部分，数据从接入层接入，经过实时处理后传入数据落地层；

Storm实时处理层：其中Nimbus负责资源分配和任务调度；Supervisor负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程；Worker在运行具体处理组件逻辑的进程；worker中每一个spout/bolt的线程称为一个task。具体业务需求：条件过滤、中间值计算、求topN、推荐系统、分布式RPC、热度统计。

第三部分为数据落地层，该部分指定了数据的落地方式；

数据落地层：

MetaQ：部分数据在经过实时处理后写入MetaQ中，后端业务系统从MetaQ中获取数据。

Mysql：数据量不是非常大的情况下可使用Mysql作为数据落地的存储对象。Mysql对数据后续处理也是比较方便的，适合中小量数据存储。

HDFS：HDFS及基于Hadoop的分布式文件系统。许多日志分析系统都是基于HDFS搭建出来的，所以开发Storm与HDFS的数据落地接口将很有必要。

Lustre：Lustre作为数据落地的应用场景是数据量大且处理目的是作为归档处理。Lustre可为数据提供一个比较大(相当大)的数据目录，用于数据归档保存。

第四部分元数据管理器；

元数据管理器的设计目的是，系统的统一协调组件，指导前端业务系统的数据写入、通知实时处理部分数据类型及其他数据描述、指导数据落地。元数据设计可使用mysql存储元数据信息，结合缓存机制开源软件设计而成。

(2)基于Storm的流计算即时处理架构技术实现：

图1所示为流计算即时处理技术应用实施流程，通过对实际业务需求的调研以及算法的研究，形成满足实际业务的数据处理规则库，根据用户预定义的事件模型，实时高效地检测基本事件，直到组成事件模型的所有基本事件被检测到。

在数据接入层，应用动态实时数据捕获技术、增量数据捕获技术，结合数据捕获过程对生产终端影响降低方法，实现在尽可能降低生产终端影响的前提下，灵活捕获数据。

在数据处理层，基于流计算引擎(详见图2描述)，实现按照预定义的规则对数据进行处理并形成计算结果，以提升数据处理的性能与效率

在数据输出环节，结合基于SQL的数据实时查询技术以及数据展现控件技术，实现计算结果的多维度、形式丰富的展现，支撑高级电网业务应用；基于分布式存储技术对落地数据与计算结果进行存储。

(3)流计算引擎架构技术实现：

图2为流计算引擎架构，以经典开源项目HBase为底层存储系统，通过引擎状态存储组件实现本地缓存及存储持久化，通过核心组件的流式计算数据路由技术、流式计算数据状态保持技术等实现对电力流数据的高速即时计算处理。

涉及的支撑电力大数据环境下的流计算即时处理架构关键技术的主要内容包括：重点针对节点处理逻辑和配置文件的耦合分析，流计算配置动态部署和变更、运行监控的实现及数据流切分的策略对数据路由过程的影响研究；针对大数据环境下的电力实时处理业务需求的数据实时采集、数据实时计算、数据实时查询技术；满足异构数据实时接入，可动态扩展的数据捕获技术；适用于电力大数据大规模异构数据实时处理需求的流处理技术；支持电网应用模式的复杂事件处理语言设计；满足流计算中有状态或无状态处理节点处理需求的分布式NoSQL存储技术等。

通过算子组合(包括Table、Join、Distinct、Arg等)支撑定制化的流计算电力处理模型，实现电网定制化模型，具备快速支撑不同电网业务在线实时分析应用的能力。

对外支持SQL接口，为分布式实时计算提供了一组通用原语，支撑高级电网业务应用。

10、流计算即时处理技术，其适用范围：符合电网数据流特点，适用于电力数据流量异常庞大、生成速度迅猛等数据流，可解决大并发环境下对实时性要求极高的复杂数据进行分析计算问题，可达到加快数据分析速度、进行实时分析计算的目的。

11、流计算即时处理技术有效经验性验证方法：从电力大数据特征下的系统应用角度，开发电力大数据流计算即时处理系统原型，基于电力大数据高效存储系统，验证电力大数据流计算技术对于电网典型应用的有效性，反向促进整体架构及方案的完善。

综上所述，本发明的内容并不局限在上述的实施例中，本领域的技术人员可以在本发明的技术指导思想之内提出其他的实施例，但这些实施例都包括在本发明的范围之内。

Claims

1.一种基于Storm的流计算即时处理系统，其特征在于：包括四个部分，

Mysql：作为数据落地的存储对象，适合中小量数据存储，