CN114327678A

CN114327678A - 一种支持多引擎的实时数据处理系统及方法

Info

Publication number: CN114327678A
Application number: CN202111640018.4A
Authority: CN
Inventors: 林照; 吴强
Original assignee: China Telecom Fufu Information Technology Co Ltd
Current assignee: China Telecom Fufu Information Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12
Anticipated expiration: 2041-12-29
Also published as: CN114327678B

Abstract

本发明公开一种支持多引擎的实时数据处理系统及方法，对业务处理进行拆解，根据需要生成实现业务某特定功能的插件，插件与引擎无直接关系；分析业务需求进行处理流程编排，拖拽对应插件确认数据处理方法及数据流向，获取流程编排信息构建数据执行链路图；根据流程编排中生成的数据执行链路图，获取执行引擎信息，通过执行桥接器取到实际处理逻辑，调用执行。本发明基于多引擎支持插件式流程编排，允许定义每个处理环节，灵活度高，使用便捷。

Description

一种支持多引擎的实时数据处理系统及方法

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种支持多引擎的实时数据处理系统及方法。

背景技术

随着科技发展，在日常生活和经济建设中产生了海量数据，企业对数据时效性要求越来越高，第一时间利用好这些数据能更有效提高企业竞争力。目前实时数据处理技术也日益成熟，主流处理引擎包含Flink,Spark Stream,Storm等。通常实时处理模块逻辑代码与处理引擎融为一体，细小的调整对引擎或业务逻辑的变更影响面广。随着业务发展、新技术不断完善，在企业系统平台中使用新引擎成为可能，但因架构的限制，通常无法基于系统的现状快速切入与原有模块融合，而需要花费大量人力进行代码重构。从单体应用来看，在数据实时处理中，一般存在数据多样、业务场景复杂等情况，通常需要根据当前数据的特性及业务需求针对性处理，定制性高；并且实时应用通常由对应人员各自进行任务启停等处理，存在运维分散、多节点管理等问题。

现有技术存在如下问题：(1)处理引擎选择单一，对某实时数据处理业务仅支持一种处理引擎，无法自由选择，灵活性低。(2)多引擎使用受限，某类引擎仅限某专项处理类别或特定领域的使用，使用范围窄，不方便更新迭代。(3)新增引擎困难，在需要引入新引擎情况下，对现有架构改造较大，旧流程适应新引擎处理困难。(4)实时处理流程定制化高，代码复用性低、维护量大，通用性差。(5)实时任务管理缺少对多引擎的支持，任务处理分散，无统一任务管理模块。

发明内容

本发明的目的在于提供一种支持多引擎的实时数据处理系统及方法，对实时数据处理提供多引擎的支持，提供基于多引擎的流程编排，提供统一的实时任务管理，简化实时数据处理开发和运维过程，使实时应用有更高的通用性和使用价值。

本发明采用的技术方案是：

一种支持多引擎的实时数据处理方法，包括如下步骤：

步骤1、实时引擎及插件抽象构建:对业务处理进行拆解，分析业务需求生成实现业务的特定功能的插件，且插件与引擎无直接关系；

步骤2、分析业务需求进行处理流程编排:拖拽对应插件确认数据处理方法及数据流向，获取流程编排信息构建数据执行链路图；

步骤3、任务触发执行：根据流程编排中生成的数据执行链路图，获取执行引擎信息，通过执行桥接器取到实际处理逻辑并调用执行。

进一步地，步骤1中分析业务需求根据同质化的逻辑功能，构建处理某专项功能的通用插件，其他独特逻辑构建成专题插件。

进一步地，步骤1的具体步骤如下：

步骤1-1，在插件设计阶段确定插件的基本数据，保存后生成插件的唯一标识；基本数据包括插件的分类、名称信息、图标信息、页面参数信息、页面控件信息、上级必选插件、上级互斥插件；

步骤1-2，基于插件的分类信息确定插件处理逻辑的抽象类及抽象方法、数据接口；

步骤1-3，提供配置模板指导引擎定义，引擎为实时处理中最终调用的处理框架；

步骤1-4，提供执行桥接器设计，调用引擎API，实现插件的最终处理逻辑，建立插件与引擎之间关系，使插件定义的处理逻辑能被真正调用处理。

具体地，插件定义的处理逻辑根据需要同时关联调用多个引擎，多个引擎协调处理实现对应的插件功能。同一引擎可被多个插件关联调用，为多个插件提供对应的处理。

进一步地，步骤1-2中抽象的处理信息由引擎中执行桥接器实现逻辑；数据接口包含一个或多个数据输入接口、数据处理接口以及一个或多个数据输出接口；上级插件输出的数据做为本级插件的输入数据，经过本级插件处理后的输出数据做为下级插件的输入数据，插件之间通过标准的数据单元传递。

对于数据源类型的插件没有数据输入，对于输出类型的插件没有数据输出。

进一步地，步骤1-2中基于上级必选插件确认在流程编排中对应插件必须要选择指定的上级插件并连接；基于上级互斥插件确认在流程编排中对应插件不能指定上级插件。

进一步地，步骤1-3中只有成功定义的引擎才会生效并允许被使用；引擎设置信息包含类型、版本、目录信息、启动信息、停止信息、状态监控信息、执行参数等。

进一步地，步骤2在流程编辑画布中拖拽相关的插件，插件之间通过拉线建立上下级链路关系，在页面根据实际情况进行参数的选填，建立从数据采集、数据处理、数据输出的实时处理全流程，能直观展现业务处理过程。

进一步地，步骤3在执行过程中，获取执行引擎信息和执行链路图，通过执行桥接器转换生成当前引擎可识别的信息，调用引擎实际执行。

进一步地，步骤3在实时任务触发执行时，对多引擎的实时数据处理应用进行实时任务核心操作和实时任务标记操作；

其中，实时任务核心操作类型包括启动操作、重启操作、运行操作、监控操作、停止操作；启动操作用于后台进行任务启动相关操作；重启操作用于后台进行任务重启相关操作；运行操作表示任务正在运行，是一种任务状态；监控操作表示对运行中的任务进行监控不断去获取程序状态，如果异常停止则根据相关配置决定是否需要重启；停止操作用于后台进行任务停止相关操作；

实时任务标记操作类型包括启动标记操作、重启标记操作、停止标记操作；启动标记操作在任务管理页面对任务点击了启动，在后台进行一个标记，表示该任务需要被启动；重启标记操作在任务管理页面对任务点击了重启，在后台进行一个标记，表示该任务需要被重启；停止标记操作在任务管理页面对任务点击了停止，在后台进行一个标记，表示该任务需要被停止；启动异常、重启异常、停止异常、运行异常都属于标记类操作。

一种支持多引擎的实时数据处理系统，其包括引擎管理模块、插件管理模块、流程编排模块和实时任务调度模块；引擎管理模块提供实时数据处理的引擎设计，以定义引擎基础信息、执行信息和参数信息；引擎管理模块提供引擎桥接器设计，以根据引擎框架的API实现具体插件处理逻辑；引擎成功构建后在实时应用中被实际调用执行；插件管理模块提供实时数据处理的插件设计，以定义某一专项逻辑处理的抽象信息、页面展示信息；流程编排模块提供业务处理的流程编排，确认数据的处理逻辑，分析业务需求根据处理规则拖拽对应的插件，拼接生成数据执行链路图；实时任务调度模块提供业务处理的任务执行管理模块，提供统一多引擎的任务管理功能，提供启停、运维、监控操作。

本发明采用以上技术方案，具有如下优点：1.实时业务处理全流程支持多引擎，适用场景广，扩展性高。2.基于多引擎支持插件式流程编排，允许定义每个处理环节，灵活度高，使用便捷。3.提供引擎定义模板，通过引导式提示，快速新增引擎，并适配流程编排。4.实时业务处理插件式设计模式，便于扩展，通过不断丰富插件种类提高处理能力。5.提供一站式多引擎实时任务统一管理，提高运维和监控能力。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种支持多引擎的实时数据处理方法的功能架构示意图；

图2为本发明一种支持多引擎的实时数据处理方法的逻辑原理示意图。

图3为本发明一种支持多引擎的实时数据处理方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

如图1至3之一所示，本发明公开了一种支持多引擎的实时数据处理系统，其包括引擎管理模块、插件管理模块、流程编排模块和实时任务调度模块；引擎管理模块提供实时数据处理的引擎设计，以定义引擎基础信息、执行信息和参数信息；引擎管理模块提供引擎桥接器设计，以根据引擎框架的API实现具体插件处理逻辑；引擎成功构建后在实时应用中被实际调用执行；插件管理模块提供实时数据处理的插件设计，以定义某一专项逻辑处理的抽象信息、页面展示信息；流程编排模块提供业务处理的流程编排，确认数据的处理逻辑，分析业务需求根据处理规则拖拽对应的插件，拼接生成数据执行链路图；实时任务调度模块提供业务处理的任务执行管理模块，提供统一多引擎的任务管理功能，提供启停、运维、监控操作。

参照图2所示，一种支持多引擎实时数据处理方法较佳实施例方案，所述方法包括如下步骤：

步骤1、实时引擎及插件抽象构建，对业务处理进行拆解，根据需要生成实现业务某特定功能的插件，插件与引擎无直接关系。

步骤2、分析业务需求进行处理流程编排，拖拽对应插件确认数据处理方法及数据流向，获取流程编排信息构建数据执行链路图。

步骤3、任务触发执行，根据流程编排中生成的数据执行链路图，获取执行引擎信息，通过执行桥接器取到实际处理逻辑，调用执行。

进一步地，所述步骤1具体为：

分析业务需求，根据同质化的逻辑功能，构建处理某专项功能的通用插件，其他独特逻辑可构建成专题插件。具体为在插件设计阶段确定插件的分类、名称信息、图标信息、页面参数信息、页面控件信息、上级必选插件、上级互斥插件，数据保存后生成插件的唯一标识。

其中插件的分类信息确定了插件处理逻辑的抽象类及抽象方法、数据接口。具体为抽象的处理信息由引擎中执行桥接器实现逻辑。数据接口包含一个或多个数据输入接口，数据处理接口，一个或多个数据输出接口。上级插件输出的数据做为本级插件的输入数据，经过本级插件处理，输出数据做为下级插件的输入数据，插件之间通过标准的数据单元传递。对于数据源类型的插件没有数据输入，对于输出类型的插件没有数据输出。

其中上级必选插件确认了在流程编排中该插件必须要选择指定的上级插件并连接。

其中上级互斥插件确认了在流程编排中该插件不能指定上级插件。

基于数据源分类的插件包含:Kafka数据源，Rocketmq数据源，Socket数据源等；基于数据处理分类插件包含：内容解析插件，过滤插件，字段计算插件，关联匹配插件，加密插件，脱敏插件，窗口统计计算等；数据输出分类插件包含：Kafka输出插件，Jdbc输出插件，hbase输出插件；SQL脚本分类插件包含：流式SQL数据源插件，流式SQL数据处理插件，流式SQL数据输出插件。

提供配置模板指导引擎定义，引擎为实时处理中最终调用的处理框架，只有成功定义的引擎才会生效并允许被使用。引擎设置信息包含类型、版本、目录信息、启动信息、停止信息、状态监控信息、执行参数等。

提供执行桥接器设计，调用引擎API，实现插件的最终处理逻辑。建立插件与引擎之间关系，使插件定义的处理逻辑能被真正调用处理。实时处理开源引擎可包含但不限于flink、spark streaming。

进一步地，所述步骤2具体为：

分析实时业务的需求选用合适的插件进行流程编排，抽象定义数据的处理方法及流向。在流程编辑画布中拖拽相关的插件，插件之间通过拉线建立上下级链路关系，在页面根据实际情况进行参数的选填，建立从数据采集、数据处理、数据输出的实时处理全流程，能直观展现业务处理过程。

在流程编排中提供输入源插件、处理插件、输出源插件不同类型的实时处理插件，在流程配置中根据实际的业务场景拖拽不同的数据实时数据源，根据实际业务的需要拖拽不同的实时处理插件，根据输出的数据格式拖拽输出源的插件，通过组合构建数据执行链路图。本方法提供了数据源插件，字段解析插件，过滤插件，字段计算插件，字段匹配插件，数据输出插件，流式SQL插件等。

进一步地，所述步骤3具体为：

实时任务触发执行，对多引擎的实时数据处理应用进行启停、运维、监控操作。执行过程中，获取执行引擎信息和执行链路图，通过执行桥接器转换生成当前引擎可识别的信息，调用引擎实际执行。

实时任务核心操作类型包括启动操作，后台进行任务启动相关操作；重启操作，后台进行任务重启相关操作；运行操作，表示任务正在运行，是一种任务状态；监控操作，表示对运行中的任务进行监控不断去获取程序状态，如果异常停止则根据相关配置决定是否需要重启。停止操作，后台进行任务停止相关操作。

实时任务标记操作类型包括启动标记操作，在任务管理页面对任务点击了启动，在后台进行一个标记，表示该任务需要被启动；重启标记操作，在任务管理页面对任务点击了重启，在后台进行一个标记，表示该任务需要被重启；停止标记操作，在任务管理页面对任务点击了停止，在后台进行一个标记，表示该任务需要被停止。启动异常、重启异常、停止异常、运行异常都属于标记类操作。

实时处理过程通常几个操作过程:数据源连接处理、数据转换处理、流式SQL查询、窗口统计处理、状态计算处理、数据输出、自定义处理类。

所述数据源连接处理包含：Kafka数据源连接处理、Rocketmq数据源连接处理、Jdbc数据源连接处理、Hdfs数据源连接处理；

Kafka数据源连接处理用于访问Kafka中的主题内容进行连接处理，获取集群环境信息、生产者参数信息、主题信息进行处理；Rocketmq数据源连接处理，访问Rocketmq中的主题内容进行连接处理，获取集群环境信息、账号信息、主题信息进行处理；Jdbc数据源连接处理，通过Jdbc方式访问关系型数据库进行连接处理，获取服务器信息、驱动信息、账号信息、表信息、增量信息进行处理。Hdfs数据源连接处理，通过访问Hdfs系统中特定目录下的文件内容（文本格式）进行连接处理，获取集群信息、账号认证信息、目录信息、文件名信息进行处理。

内容解析处理指根据业务需要规整成几种常用标准格式，对主题的内容进行解析处理，生成标准格式的数据单元。

数据转换处理指在处理过程中根据需要对输入的数据进行转换处理，生成合规的数据。

数据过滤：根据过滤规则对输入的不合规的数据进行过滤处理；

数据选择：根据选择规则对输入的合规的数据进行选择处理；

数据加密：对重要的字段进行加密处理，根据配置的加密方式在处理过程中对指定的字段进行加密处理，根据数据的安全等级选用可逆加密和不可逆加密方式。

数据脱敏：对敏感的字段进行脱敏处理，可根据字段定义的脱敏类型进行数据的脱敏处理。包括姓名、身份证、年龄、住址、电话号码、账号等脱敏类。

数据匹配：对指定的字段进行数据的匹配处理，从匹配库中获取对应的扩展信息，把扩展的内容附加到输出信息中，实现流式数据关联查找，包含KV库匹配。

缓存处理：与数据匹配相结合，在数据进行匹配时候先从缓存中获取，若缓存中无数据再从实际数源中去加载，实际的载体可有hbase,redis。

进一步地，流式SQL查询用于在实时处理过程中根据需要可以进行流式SQL查询，简化应用开发的复杂度，进行实时统计分析。

进一步地，窗口统计处理基于时间窗口进行数据的统计计算，窗口中的记录当作一个批次的数据进行统计处理，包含水位线处理，解决数据延迟和乱序。

进一步地，状态计算处理用来处理各个元素或者事件时存储数据实现对流数据进行有状态的计算，包含键控状态和算子状态。

进一步地，数据输出根据配置输出的封装格式进行结果数据的封装。并根据配置目的存储方式进行数据的落地输出。数据写入Kafka，处理结果数据写入到Kafka中，在处理过程中进行Kafka的连接处理，主题名称的获取、字段信息的拼接处理；数据写入Hdfs，处理结果数据写入到Hdfs中，主要通过生成文件方式进行数据的输出，在处理过程中进行Hdfs的连接处理、字段的拼接处理。数据写入通用关系型数据库，处理结果数据通过Jdbc方式写入到通用关系型数据库中；数据写入Hbase，处理结果数据写入到Hbase中，在处理过程中进行rowkey的拼接，字段信息的拼接。

进一步地，自定义类处理对于自定义插件根据继承基本处理类进行处理功能自定义。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.一种支持多引擎的实时数据处理系统，其特征在于：其包括引擎管理模块、插件管理模块、流程编排模块和实时任务调度模块；引擎管理模块提供实时数据处理的引擎设计，以定义引擎基础信息、执行信息和参数信息；引擎管理模块提供引擎桥接器设计，以根据引擎框架的API实现具体插件处理逻辑；引擎成功构建后在实时应用中被实际调用执行；插件管理模块提供实时数据处理的插件设计，以定义某一专项逻辑处理的抽象信息、页面展示信息；流程编排模块提供业务处理的流程编排，确认数据的处理逻辑，分析业务需求根据处理规则拖拽对应的插件，拼接生成数据执行链路图；实时任务调度模块提供业务处理的任务执行管理模块，提供统一多引擎的任务管理功能，提供启停、运维、监控操作。

2.一种支持多引擎的实时数据处理方法，采用权利要求1所述的一种支持多引擎的实时数据处理系统，其特征在于：方法包括如下步骤：

步骤3、任务触发执行：根据流程编排中生成的数据执行链路图，获取执行引擎信息，通过执行桥接器获取到实际处理逻辑并调用执行。

3.根据权利要求2所述的一种支持多引擎的实时数据处理方法，其特征在于：步骤1中分析业务需求根据同质化的逻辑功能，构建处理某专项功能的通用插件，其他独特逻辑构建成专题插件；步骤1的具体步骤如下：

步骤1-3，提供配置模板指导引擎定义，引擎为实时处理中最终调用的处理框架;

4.根据权利要求3所述的一种支持多引擎的实时数据处理方法，其特征在于：步骤1-2中抽象的处理信息由引擎中执行桥接器实现逻辑；数据接口包含一个或多个数据输入接口、数据处理接口以及一个或多个数据输出接口；上级插件输出的数据做为本级插件的输入数据，经过本级插件处理后的输出数据做为下级插件的输入数据，插件之间通过标准的数据单元传递；基于上级必选插件确认在流程编排中对应插件必须要选择指定的上级插件并连接；基于上级互斥插件确认在流程编排中对应插件不能指定上级插件。

5.根据权利要求3所述的一种支持多引擎的实时数据处理方法，其特征在于：步骤1-3中只有成功定义的引擎才会生效并允许被使用；引擎设置信息包含类型、版本、目录信息、启动信息、停止信息、状态监控信息、执行参数。

6.根据权利要求2所述的一种支持多引擎的实时数据处理方法，其特征在于：步骤2在流程编辑画布中拖拽相关的插件，插件之间通过拉线建立上下级链路关系，在页面根据实际情况进行参数的选填，建立从数据采集、数据处理、数据输出的实时处理全流程，能直观展现业务处理过程。

7.根据权利要求2所述的一种支持多引擎的实时数据处理方法，其特征在于：步骤3在执行过程中，获取执行引擎信息和执行链路图，通过执行桥接器转换生成当前引擎可识别的信息，调用引擎实际执行；且在实时任务触发执行时，对多引擎的实时数据处理应用进行实时任务核心操作和实时任务标记操作。

8.根据权利要求7所述的一种支持多引擎的实时数据处理方法，其特征在于：步骤3实时处理过程包括:数据源连接处理、内容解析处理、数据转换处理、流式SQL查询、窗口统计处理、状态计算处理、数据输出、自定义处理类；

数据源连接处理包含：Kafka数据源连接处理、Rocketmq数据源连接处理、Jdbc数据源连接处理、Hdfs数据源连接处理；Kafka数据源连接处理用于访问Kafka中的主题内容进行连接处理，获取集群环境信息、生产者参数信息、主题信息进行处理；Rocketmq数据源连接处理，访问Rocketmq中的主题内容进行连接处理，获取集群环境信息、账号信息、主题信息进行处理；Jdbc数据源连接处理，通过Jdbc方式访问关系型数据库进行连接处理，获取服务器信息、驱动信息、账号信息、表信息、增量信息进行处理；Hdfs数据源连接处理，通过访问Hdfs系统中特定目录下的文件内容进行连接处理，获取集群信息、账号认证信息、目录信息、文件名信息进行处理；

内容解析处理指根据业务需要规整成常用标准格式，对主题的内容进行解析处理，生成对应标准格式的数据单元；

数据转换处理指在处理过程中根据需要对输入的数据进行转换处理以生成合规的数据；

流式SQL查询用于在实时处理过程中根据需要可以进行流式SQL查询，简化应用开发的复杂度，进行实时统计分析；

窗口统计处理基于时间窗口进行数据的统计计算，窗口中的记录当作一个批次的数据进行统计处理，包含水位线处理，解决数据延迟和乱序；

状态计算处理用来处理各个元素或者事件时存储数据实现对流数据进行有状态的计算，包含键控状态和算子状态；

数据输出根据配置输出的封装格式进行结果数据的封装，并根据配置目的存储方式进行数据的落地输出；数据输出针对不同数据源的写入情形处理方式如下：

数据写入Kafka，处理结果数据写入到Kafka中，在处理过程中进行Kafka的连接处理，主题名称的获取、字段信息的拼接处理；

数据写入Hdfs，处理结果数据写入到Hdfs中，通过生成文件方式进行数据的输出，在处理过程中进行Hdfs的连接处理、字段的拼接处理；

数据写入通用关系型数据库，处理结果数据通过Jdbc方式写入到通用关系型数据库中；

数据写入Hbase，处理结果数据写入到Hbase中，在处理过程中进行rowkey的拼接，字段信息的拼接；

自定义类处理对于自定义插件根据继承基本处理类进行处理功能的自定义。

9.根据权利要求8所述的一种支持多引擎的实时数据处理方法，其特征在于：数据转换处理包括如下：

数据加密：对重要的字段进行加密处理，根据配置的加密方式在处理过程中对指定的字段进行加密处理，根据数据的安全等级选用可逆加密和不可逆加密方式；

数据脱敏：对敏感的字段进行脱敏处理，根据字段定义的脱敏类型进行数据的脱敏处理；脱敏类型包括姓名、身份证、年龄、住址、电话号码、账号等；

数据匹配：对指定的字段进行数据的匹配处理，从匹配库中获取对应的扩展信息，把扩展的内容附加到输出信息中，实现流式数据关联查找；

缓存处理：与数据匹配相结合，在数据进行匹配时候先从缓存中获取，若缓存中无数据再从实际数源中加载。

10.根据权利要求7所述的一种支持多引擎的实时数据处理方法，其特征在于：步骤3的实时任务核心操作类型包括启动操作、重启操作、运行操作、监控操作、停止操作；启动操作用于后台进行任务启动相关操作；重启操作用于后台进行任务重启相关操作；运行操作表示任务正在运行，是一种任务状态；监控操作表示对运行中的任务进行监控不断去获取程序状态，如果异常停止则根据相关配置是否需要重启；停止操作用于后台进行任务停止相关操作；