CN109522138A

CN109522138A - 一种分布式流数据的处理方法及系统

Info

Publication number: CN109522138A
Application number: CN201811353095.XA
Authority: CN
Inventors: 李卫华; 张浩海; 刘迪; 丁学英; 郭文静; 王昊; 韩大为; 范利刚; 周巍; 杨甲明
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing China Power Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Beijing China Power Information Technology Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-26

Abstract

本发明公开了一种分布式流数据的处理方法，包括：当接收到任意流数据时，获取目标流数据的数据量，其中，所述目标流数据包含已经接收但未经过处理的各个流数据；判断所述数据量是否达到预设的数据量阈值；若是，将所述目标流数据分配给各个目标执行任务进行分布式处理。上述的处理方法，将目标流数据分配给各个目标执行任务进行分布式处理，针对同一数据量的目标流数据，处理速度快，风险侦测迟滞降低，同时采用多个目标执行任务进行并行处理，提高了处理的目标流数据的数据量，可以处理长周期的历史数据。

Description

一种分布式流数据的处理方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种分布式流数据的处理方法及系统。

背景技术

在互联网/移动互联网、物联网等应用场景中，个性化服务、用户体验提升、智能分析、事中决策等复杂的业务需求对大数据处理技术提出了更高的要求。以Hadoop为代表的批处理大数据系统需先将数据汇聚成批，当数据量达到预设的数量时，集中将批量数据加载至分析型数据仓库中，以进行高性能实时查询。

发明人对现有的大数据批处理方法进行研究发现，集中处理的方式经批量数据传递给一个执行任务(TaskManagers)进行处理，存在风险侦测迟滞高、处理时间长、无法处理长周期历史数据等问题。

发明内容

有鉴于此，本发明提供了一种分布式流数据的处理方法及系统，用以解决现有技术中集中处理的方式经批量数据传递给一个执行任务(Task Managers)进行处理，存在风险侦测迟滞高、处理时间长、无法处理长周期历史数据等问题。具体方案如下：

一种分布式流数据的处理方法，包括：

当接收到任意流数据时，获取目标流数据的数据量，其中，所述目标流数据包含已经接收但未经过处理的各个流数据；

判断所述数据量是否达到预设的数据量阈值；

若是，将所述目标流数据分配给各个目标执行任务进行分布式处理。

上述的方法，可选的，还包括：

当接收到处理完成指令时，将对应的数据转发至数据库进行存储。

上述的方法，可选的，还包括：

统计与每一个目标执行任务对应的流数据的处理时间；

当任意一个处理时间大于预设的处理时长时，将其对应的流数据作为第一流数据，停止对所述第一流数据进行处理。

上述的方法，可选的，还包括：

当接收到第二流数据处理请求时，对所述第二流数据进行处理，其中，所述第二流数据在所述目标流数据中的排序在所述第一流数据之后，所述第二流数据和所述第一流数据属于所述目标流数据。

上述的方法，可选的，将所述目标流数据分配给各个目标执行任务进行分布式处理，包括：

解析所述目标流数据中包含的各个流数据对应的业务类型；

依据每一个业务类型，查找与其对应的目标执行任务；

将与其对应的流数据发送给对应的目标执行任务进行处理。

上述的方法，可选的，将与其对应的流数据发送给对应的目标执行任务进行处理，包括：

解析所述流数据中包含的各个数据分配标识；

分别依据每一个分配标识，查找与其对应的目标处理逻辑；

依据所述目标处理逻辑对对应的流数据进行处理。

一种分布式流数据的处理系统，包括：

获取模块，用于当接收到任意流数据时，获取目标流数据的数据量，其中，所述目标流数据包含已经接收但未经过处理的各个流数据；

判断模块，用于判断所述数据量是否达到预设的数据量阈值；

处理模块，用于若是，将所述目标流数据分配给各个目标执行任务进行分布式处理。

上述的系统，可选的，还包括：

存储模块，用于当接收到处理完成指令时，将对应的数据转发至数据库进行存储。

上述的系统，可选的，所述处理模块包括：

解析单元，用于解析所述目标流数据中包含的各个流数据对应的业务类型；

查找单元，用于依据每一个业务类型，查找与其对应的目标执行任务；

处理单元，用于将与其对应的流数据发送给对应的目标执行任务进行处理。

上述的系统，可选的，所述处理单元包括：

解析子单元，用于解析所述流数据中包含的各个数据分配标识；

查找子单元，用于分别依据每一个分配标识，查找与其对应的目标处理逻辑；

处理子单元，用于依据所述目标处理逻辑对对应的流数据进行处理。

与现有技术相比，本发明包括以下优点：

本发明公开了一种分布式流数据的处理方法，包括：当接收到任意一个流数据时，获取已经接收但未经过处理的各个流数据的数据量，判断所述数据量是否达到预设的数据量阈值，若所述数据量已经达到所述预设的数据量阈值，将已经接收但未经过处理的各个流数据分配给各个目标执行任务进行分布式处理。上述的处理方法，将已经接收但未经过处理的各个流数据分配给各个目标执行任务进行分布式处理，针对同一数据量的已经接收但未经过处理的各个流数据，处理速度快，风险侦测迟滞降低，同时采用多个目标执行任务进行并行处理，提高了处理的已经接收但未经过处理的各个流数据的数据量，可以处理长周期的历史数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种数据的同步方法流程图；

图2为本申请实施例公开的一种数据的同步方法又一流程图；

图3为本申请实施例公开的一种数据的同步方法又一流程图；

图4为本申请实施例公开的一种数据的同步方法处理流程示意图；

图5为本申请实施例公开的一种数据的同步系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种分布式流数据的处理方法，所述方法应用在大数据处理过程中，本发明实施例中以基于Flink平台的分布式流数据处理方法为例进行说明，所述处理方法同样适用于其它优选平台，Flink平台是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能，Flink的核心是流数据流引擎，为数据流上的分布式计算提供数据分发，通信和容错。Flink在流引擎之上构建批处理，覆盖本机迭代支持，托管内存和程序优化。其中，所述流数据指一组顺序、大量、快速、连续到达的数据序列。所述处理方法的执行流程如图1所示，包括步骤：

S101、当接收到任意流数据时，获取目标流数据的数据量，其中，所述目标流数据包含已经接收但未经过处理的各个流数据；

本发明实施例中，流数据持续不断的发送的，当接收到任意一个流数据时，获取所述目标流数据的数据量，其中，所述目标包含已经接收但未经过处理的各个流数据，每接收到一个流数据，都会统计所述目标流数据的数据量。

S102、判断所述数据量是否达到预设的数据量阈值；

本发明实施例中，将所述数据量与所述预设的数据量阈值进行比较，判断所述数据量是否达到预设的数据量阈值，其中，所述预设的数据量阈值与Flink平台中各个执行任务的配置和实际情况有关，也可以依据经验值进行设定。若所述预设的数据量阈值为1时，所述处理方法为流处理，若所述预设的数据量阈值不为1时，所述处理方法为批处理。

S103、若是，将所述目标流数据分配给各个目标执行任务进行分布式处理。

本发明实施例中，若所述数据量达到所述预设的数据量阈值，将在所述Flink平台中查找与所述目标流数据对应的各个目标执行任务，将将所述目标流数据分配给各个目标执行任务进行分布式处理；若所述数量未达到所述预设的数据量阈值，继续接收数据源，其中，优选的，所述目标执行任务可以为虚拟机。

本发明实施例中，当接收到处理完成指令时，将对应的数据转发至数据库进行存储，其中，所述数据库可以为流式数据库或关系型数据库，例如，kafka、rabbitmq或者mysql等。

本发明实施例中，优选的，所述处理方法为了实现低迟滞可以实现在1min内甄别突发风险在100ms内返回处理结果并且可处理长达10年以上的历史周期数据以及支持高复杂度规则，如方差、标准差、K阶中心矩、最大连续统计等目标。

本发明实施例中，所述处理方法还包括：统计与每一个目标执行任务对应的流数据的处理时间，当任意一个处理时间大于预设的处理时长时，将其对应的流数据作为第一流数据，停止对所述第一流数据进行处理，其中，所述预设的处理时长是依据经验值或者具体情况进行设定的。

其中，上述的过程还包括:当接收到第二流数据处理请求时，对所述第二流数据进行处理，其中，所述第二流数据在所述目标流数据中的排序在所述第一流数据之后，所述第二流数据和所述第一流数据属于所述目标流数据。

本发明实施例中，将所述目标流数据分配给各个目标执行任务进行分布式处理的方法流程如图2所示，包括步骤：

S201、解析所述目标流数据中包含的各个流数据对应的业务类型；

本发明实施例中，所述目标流数据中包含的各个流数据的业务类型不同，解析所述目标流数据中包含的各个流数据对应的业务类型，并依据业务类型对所述各个流数据进行分类。

S202、依据每一个业务类型，查找与其对应的目标执行任务；

本发明实施例中，将所述Flink平台中的各个执行任务依据处理的流数据的业务类型不同进行标识，分别依据所述目标流数据中的每一个业务类型与所述Flink平台中各个执行任务的业务类型进行对比，查找与其对应的目标执行任务。

S203、将与其对应的流数据发送给对应的目标执行任务进行处理。

本发明实施例中，将与当前业务类型对应的流数据发送给对应的目标执行任务进行处理。

其中，所述目标执行任务中包含有至少一个目标处理逻辑，优选的，所述目标处理逻辑为按照FlinkAPI开发的jar包，真正执行数据处理的代码逻辑均在此jar包里，本发明实施例中，将与其对应的流数据发送给对应的目标执行任务进行处理的方法流程如图3所示，包括步骤：

S301、解析所述流数据中包含的各个数据分配标识；

本发明实施例中，解析对应的流数据中包含的分配标识，其中，所述分配标识与目标处理逻辑相对应，其中，所述分配标识可以为：数字、字母或者其它优选的标识。

S302、分别依据每一个分配标识，查找与其对应的目标处理逻辑；

本发明实施例中，分别依据每一个分配标识，在与其对应的目标执行任务中查找与其对应的目标处理逻辑。

S303、依据所述目标处理逻辑对对应的流数据进行处理。

本发明实施例中，运行所述目标处理逻辑实现对对应的流数据进行处理。

本发明实施例中，基于上述的处理方法，对基于Flink平台的流数据的处理过程进行说明，具体的处理流程如图4所示，其中，所述Flink平台环境，只有安装部署后才可以使用，逻辑上主要分为调度任务(Job Managers)，执行任务(Task Managers)和客户端(Clients)三部分。其中，

调度任务：主要是协调分布式任务的执行，自身并不真正的去执行任务,只起到管理集群的作用，一个Flink平台至少需要一个Job Manager。

执行任务：用来执行数据流任务或者子任务,缓存和交互数据流。正常运行起来处理数据，至少需要一个执行任务、一个执行任务就是一个运行起来的Java虚拟机(JavaVirtual Machine)。

客户端：按照FlinkAPI开发的jar包，真正执行数据处理的代码逻辑均在此jar包里。

平台流程：客户端提交给调度任务，然后调度任务协调给执行任务去运行。

其中，客户端中具体的处理流程为：

(1)获取Flink平台，只有获取到平台执行环境客户端才能与调度任务进行通信，其中，所述平台环境指当前对应的目标流数据从属于哪一个调度任务以及哪一个执行任务。

(2)数据获取，Flink平台支持获取批量数据与流式数据，例如，从kafka中获取实时的流数据。

(3)数据处理，Flink平台由低像高支持四层数据处理,分别是：

stateful stream processing:它允许用户可以自由地处理来自一个或多个流数据的事件，并使用一致或容错的状态。除此之外，用户可以注册事件时间和处理事件回调，从而使程序可以实现复杂的计算。

dataStream/dataSet API：这些API为数据处理提供了通用的构建模块，比如由用户定义的多种形式的转换(transformations)，连接(joins)，聚合(aggregations)，窗口操作(windows)，状态(state)等等。这些API处理的数据类型以类(classes)的形式由各自的编程语言所表示。

table API:是以表为中心的声明式DSL，其中表可能会动态变化(在表达流数据时)。TableAPI遵循关系模型：表具有附加的模式(类似于关系数据库中的表)，同时API提供可比较的操作，例如select、project、join、group-by、aggregate等。Table API程序声明式地定义了什么逻辑操作应该执行而不是准确地确定这些操作代码的看上去如何。尽管Table API可以通过多种类型的用户定义的函数进行扩展，其仍不如dataStream/dataSetAPI更具表达能力，但是使用起来却更加简洁，除此之外，Table API程序还可以在执行之前通过应用优化规则的优化器。

sqlAPI：最高层级的抽象，这一层抽象在语法与表达能力上与Table API类似,但是是以SQL查询表达式的形式表现程序，SQL抽象与Table API交互密切，同时SQL查询可以直接在Table API定义的表上执行。

其中，jar包是采用以上四种方法中的至少一种进行编写的。

(4)处理完的数据转发出去，Flink支持将数据转发至流式数据库或关系型数据库，例如kafka、rabbitmq或者mysql。

本发明实施例中，Flink包含：程序和数据流处理和并行数据流处理，其中：

程序和数据流处理：Flink程序的基本构建块是流和转换。流是(可能永无止境的)数据记录流，而转换是将一个或多个流作为一个或多个流的操作。输入，并产生一个或多个输出流。执行时，Flink程序映射到流数据流，由流和转换运算符组成。每个数据流都以一个或多个源开头，并以一个或多个接收器结束。数据流类似于任意有向无环图(DAG)。尽管通过迭代结构允许特殊形式的循环，但为了简单起见，我们将在大多数情况下对此进行掩饰。通常，程序中的转换与数据流中的运算符之间存在一对一的对应关系。但是，有时一个转换可能包含多个转换运算符。源数据流和接收器记录在流连接器和批处理连接器文档中。DataStream运算符和DataSet转换中记录了转换。

并行数据流处理：Flink中的程序本质上是并行和分布式的。在执行期间，流具有一个或多个流分区，并且每个运算符具有一个或多个运算符子任务。运算符子任务彼此独立，并且可以在不同的线程中执行，并且可能在不同的机器或容器上执行。运算符子任务的数量是该特定运算符的并行度。流的并行性始终是其生成运算符的并行性。同一程序的不同运算符可能具有不同的并行级别。

本发明实施例中，基于上述的一种分布式流数据的处理方法，本发明实施例中还提供了一种分布式流数据的处理系统，其中，所述处理系统的结构框如如图5所示，包括：

获取模块401，判断模块402和处理模块403。

其中，

所述获取模块401，用于当接收到任意流数据时，获取目标流数据的数据量，其中，所述目标流数据包含已经接收但未经过处理的各个流数据；

所述判断模块402，用于判断所述数据量是否达到预设的数据量阈值；

所述处理模块403，用于若是，将所述目标流数据分配给各个目标执行任务进行分布式处理。

本发明公开了一种分布式流数据的处理系统，包括：当接收到任意一个流数据时，获取已经接收但未经过处理的各个流数据的数据量，判断所述数据量是否达到预设的数据量阈值，若所述数据量已经达到所述预设的数据量阈值，将已经接收但未经过处理的各个流数据分配给各个目标执行任务进行分布式处理。上述的处理系统，将已经接收但未经过处理的各个流数据分配给各个目标执行任务进行分布式处理，针对同一数据量的已经接收但未经过处理的各个流数据，处理速度快，风险侦测迟滞降低，同时采用多个目标执行任务进行并行处理，提高了处理的已经接收但未经过处理的各个流数据的数据量，可以处理长周期的历史数据。

本发明实施例中，所述处理系统还包括：存储模块404。

其中，

所述存储模块404，用于当接收到处理完成指令时，将对应的数据转发至数据库进行存储。

本发明实施例中，所述处理模块403包括：

解析单元405，查找单元406和处理单元407。

其中，

所述解析单元405，用于解析所述目标流数据中包含的各个流数据对应的业务类型；

所述查找单元406，用于依据每一个业务类型，查找与其对应的目标执行任务；

所述处理单元407，用于将与其对应的流数据发送给对应的目标执行任务进行处理。

本发明实施例中，所述处理单元407包括：

解析子单元408，查找子单元409和处理子单元410。

其中，

所述解析子单元408，用于解析所述流数据中包含的各个数据分配标识；

所述查找子单元409，用于分别依据每一个分配标识，查找与其对应的目标处理逻辑；

所述处理子单元409，用于依据所述目标处理逻辑对对应的流数据进行处理。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种分布式流数据的处理方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种分布式流数据的处理方法，其特征在于，包括：

判断所述数据量是否达到预设的数据量阈值；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

统计与每一个目标执行任务对应的流数据的处理时间；

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，将所述目标流数据分配给各个目标执行任务进行分布式处理，包括：

解析所述目标流数据中包含的各个流数据对应的业务类型；

依据每一个业务类型，查找与其对应的目标执行任务；

将与其对应的流数据发送给对应的目标执行任务进行处理。

6.根据权利要求5所述的方法，其特征在于，将与其对应的流数据发送给对应的目标执行任务进行处理，包括：

解析所述流数据中包含的各个数据分配标识；

分别依据每一个分配标识，查找与其对应的目标处理逻辑；

依据所述目标处理逻辑对对应的流数据进行处理。

7.一种分布式流数据的处理系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，还包括：

9.根据权利要求7所述的方法，其特征在于，所述处理模块包括：

10.根据权利要求7所述的系统，其特征在于，所述处理单元包括：