CN117076508B

CN117076508B - 一种流数据处理系统支持批数据处理的方法

Info

Publication number: CN117076508B
Application number: CN202311346147.1A
Authority: CN
Inventors: 温立旭; 狄云; 胡蕾蕾; 林锋
Original assignee: Jiangsu Shudui Technology Co ltd
Current assignee: Jiangsu Shudui Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-12-29
Anticipated expiration: 2043-10-18
Also published as: CN117076508A

Abstract

本发明提供了一种流数据处理系统支持批数据处理的方法，包括：步骤1，配置数据输入节点；步骤2，定义转换规则节点；步骤3，配置输出节点；步骤4，编排任务流程；步骤5，执行任务调度：DolphinScheduler框架根据步骤4中配置好的任务的调度策略，自动触发和执行离线ETL任务；步骤6，离线任务实例停止：通过边界消息的方式，控制数据流的结束；步骤7，监控和管理：提供任务的链路监控、数据监控和告警功能，实时监测任务的执行情况和运行状态。通过本发明，可以让流数处理据框架上拥有运行批数据处理能力，使用统一接口方式来管理数据集成处理任务。

Description

一种流数据处理系统支持批数据处理的方法

技术领域

本发明属于计算机数据处理领域，尤其涉及一种流数据处理系统支持批数据处理的方法。

背景技术

传统的离线ETL场景中，通常需要使用多个独立的工具和框架进行数据抽取、转换和加载。这些工具之间缺乏紧密的集成和协作，导致数据处理流程复杂、效率低下，并且难以管理和监控。目前，Kafka Connect框架作为一种流数据集成解决方案，提供简单、可扩展和可靠的数据传输能力，广泛应用于实时数据处理场景。然而，对于离线ETL（Extract-Transform-Load，即抽取-转换-加载）场景，传统的Kafka Connect框架存在一些限制，无法满足精确时间范围（T + 1、T - 1等类似场景）下的大规模数据处理和数据转换的要求。

DolphinScheduler是一种开源的分布式任务调度框架，旨在提供高可靠性、高性能和高可扩展性的任务调度和管理解决方案。

因此，需要对Kafka Connect框架进行改造，并集成调度框架DolphinScheduler来简化离线ETL的开发和管理流程。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种流数据处理系统支持批数据处理的方法，包括以下步骤：

步骤1，配置数据输入节点：通过页面方式配置Kafka Connect框架中的输入连接器参数，定义来源数据源、来源字段信息；

步骤2，定义转换规则节点：使用Kafka Connect框架中Transforms组件来定义离线ETL任务的转换规则，例如：添加时间字段、数据过滤、数据映射等操作；

步骤3，配置输出节点：通过页面配置Kafka Connect框架中的输出连接器参数，定义目标数据源、字段映射信息；

步骤4，编排任务流程：以有向无环图DAG的方式在页面上将Kafka Connect节点和转换规则节点连接成完整ETL任务的执行流程图，再以http节点的形式同步到dolphinscheduler中，同时，设置任务实例的执行顺序，对于离线任务，在页面上设置任务的调度策略配置；

步骤5，执行任务调度：DolphinScheduler框架根据步骤4中配置好的任务的调度策略，自动触发和执行离线ETL任务；

步骤6，离线任务实例停止：通过边界消息的方式，控制数据流的结束；

步骤7，监控和管理：提供任务的链路监控、数据监控和告警功能，实时监测任务的执行情况和运行状态。

步骤4中，所述任务实例的执行顺序包含以下四种：

并行：如果对于同一个任务定义，同时有两个以上任务实例，则并行执行任务实例；

串行等待：如果对于同一个任务定义，同时有两个以上任务实例，则后面是实例会等待前面实例执行完成之后再执行；

串行抛弃：如果对于同一个工作流定义，同时有两个以上工作流实例，则抛弃后生成的工作流实例并清除正在跑的实例；

串行优先：如果对于同一个工作流定义，同时有两个以上工作流实例，则按照优先级串行执行工作流实例。

步骤4中，所述调度策略配置是通过CRON表达式的方式来配置，例如：每天中午12点触发，CRON表达式可以设置为：0 0 12 * * ?；

步骤5中，在执行时间增量抽取的相关任务时，使用DolphinScheduler内置参数的方式去解析动态时间表达式。

步骤6包括：

步骤6-1，在输入任务的WorkerSourceTask.poll()方法抽取完所有数据后，在最后一批数据的返回结果集（即：List<SourceRecord>）中加入离线任务抽取结束的消息，并保证消息处于返回结果集中的最后；同时保证Kafka（Kafka和kafka Connect是属于不同的框架，前者是一种消息队列框架，后者是数据集成框架，后者在使用过程中会依赖前者）中每个分区都会有边界消息；

步骤6-2，在经过转换规则节点时，通过过滤识别的方式，放行边界消息；

步骤6-3，在输出节点任务执行数据写入相关方法后，识别到消息流中的边界消息，然后等待所有分区的边界消息都到达后，发送停止任务消息到Kafka的主题topic中；在后端管理系统中监听主题topic，调用实例停止接口来停止离线任务实例。

步骤6-3中，所述相关方法指WorkerSinkTask的deliverMessage()方法。

步骤7中，所述链路的监控是监测任务使用到的数据源的可用情况，所述数据监控是监控任务在一个固定时间段内输入和输出的数据量是否满足预期值，当监控到异常时，通过短信或者邮件的方式发送告警信息到指定用户。

本发明还提供了一种存储介质，存储有计算机程序或指令，当所述计算机程序或指令被运行时，实现所述一种流数据处理系统支持批数据处理的方法。

本发明涉及Kafka、Kafka Connect框架、DolphinScheduler调度系统以及离线ETL使用等技术，旨在提供一种有效的数据集成方案，在支持实时数据流处理引擎的系统上扩展了离线数据处理能力。

有益效果：通过本发明，可以让流数处理据框架上拥有运行批数据处理能力，使用统一接口方式来管理数据集成处理任务。同时在集群部署时，运行批处理任务的时候，借助Kafka Connect框架的重平衡机制，可以保证服务的高可用，单一节点故障时，系统能够自动恢复中断的任务，这个是传统批处理框架无法实现的。对于整个系统，所有服务都是无状态的，可以非常便捷地进行服务扩容与缩容，满足不同资源场景使用。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是基于Kafka Connect和DolphinScheduler框架的离线ETL场景改造系统交互时序图。

图2是数据抽取和转换过程示意图。

图3是本发明实施例的流程图。

实施方式

如图1、图2所示，本发明提供了一种流数据处理系统支持批数据处理的方法，包括如下步骤：

步骤1，配置数据输入节点：通过页面方式配置Kafka Connect框架中的输入连接器参数，定义来源数据源、来源字段等信息；

步骤3，配置输出节点：通过页面配置Kafka Connect框架中的输出连接器参数，定义目标数据源、字段映射等信息；

步骤5，执行任务调度：DolphinScheduler框架根据任务的调度策略和依赖关系，自动触发和执行离线ETL任务。在执行时间增量抽取的相关任务时，借助DolphinScheduler内置参数的方式去解析动态时间表达式，例如：任务配置抽取T-1的数据，可以直接配置表达式 ${yyyyMMdd-1}，然后在调度执行时，会将表达式转换为具体日期再传入KafkaConnect的任务配置中。

步骤6，改造Kafka Connect框架：通过边界消息的方式，控制数据流的结束，此步骤是系统自动完成。具体流程如下：

通过这种方式，可以提供Kafka Connect框架自身“流转批”的数据集成能力，使其能够在数据抽取结束之后能停止相关工作线程。

步骤6-3中，所述相关方法指WorkerSinkTask的deliverMessage()方法。

步骤7，监控和管理：DolphinScheduler框架提供了任务监控和管理功能，实时监测任务的执行情况和运行状态。

本发明通过增加边界消息的方式来改造Kafka Connect组件，使其能够在数据抽取完成之后自动停止运行中的任务线程。

本发明通过结合Kafka Connect和DolphinScheduler框架的方式来做离线实例管理，在实时ETL处理能力基础上额外提供离线ETL处理能力。

根据本发明的一个实施例，如图3所示，假设当前需要每天凌晨1点从某个MSYQL数据源中将前一天的增量数据抽取至HIVE离线数仓中，在抽取过程中对表中字段需要做转换处理，对字段A做字符串截取操作，只取原始数据前6位。

首先，需要在页面配置MYSQL输入节点，其中包含需要抽取的MYSQL数据源信息（数据源用户、密码、地址等）、所需表名称以及需要的字段等信息，此外还需要配置数据抽取范围，相关条件如下: update_time>= ‘$[yyyyMMdd-1]’ and update_time<$[yyyyMMdd]，表示根据字段update_time来抽取前一天的数据。

输入节点配置完成后，添加一个字符串截取的转换节点，然后通过连线将输入节点和转换节点在页面连接起来。在转换节点配置中，选择所需要操作的字段名称，并设置截取范围。

然后，在页面中添加一个HIVE输出节点，将转换节点通过连线指向输出节点，在输出节点中，需要配置好HIVE数据源的一些基础配置以及输出的表、字段信息配置。

最后，在任务的调度策略配置中，配置相应的CRON表达式，每天凌晨1点执行对应参数如下：0 0 1 * * ?，并启用调度配置。

当时间到达凌晨1点之后，DolphinScheduler框架会执行调度任务，通过HTTP请求的方式来执行上面配置好的任务流程。在输入节点数据抽取完成之后，会将边界消息发送到消息流中，边界消息随着消息流会一直到达输出节点中。在输出节点处理到消息流时，表示所有数据都已经处理完成，这个时候通过“停止消息”的形式来触发离线任务实例的停止操作。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种流数据处理系统支持批数据处理的方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（read-only memory，ROM）或随机存储记忆体（random access memory，RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备（可以是个人计算机，服务器，单片机，MUU或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种流数据处理系统支持批数据处理的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种流数据处理系统支持批数据处理的方法，其特征在于，包括以下步骤：

步骤2，定义转换规则节点：使用Kafka Connect框架中Transforms组件来定义离线ETL任务的转换规则；

2.根据权利要求1所述的方法，其特征在于，步骤4中，所述任务实例的执行顺序包含以下四种：

3.根据权利要求2所述的方法，其特征在于，步骤4中，所述调度策略配置是通过CRON表达式的方式来配置。

4.根据权利要求3所述的方法，其特征在于，步骤5中，在执行时间增量抽取的相关任务时，使用DolphinScheduler内置参数的方式去解析动态时间表达式。

5.根据权利要求4所述的方法，其特征在于，步骤6包括：

步骤6-1，在输入任务的WorkerSourceTask.poll()方法抽取完所有数据后，在最后一批数据的返回结果集中加入离线任务抽取结束的消息，并保证消息处于返回结果集中的最后；同时保证Kafka中每个分区都会有边界消息；

6.根据权利要求5所述的方法，其特征在于，步骤6-3中，所述相关方法指WorkerSinkTask的deliverMessage()方法。

7.根据权利要求6所述的方法，其特征在于，步骤7中，所述链路的监控是监测任务使用到的数据源的可用情况，所述数据监控是监控任务在一个固定时间段内输入和输出的数据量是否满足预期值，当监控到异常时，通过短信或者邮件的方式发送告警信息到指定用户。

8.一种存储介质，其特征在于，存储有计算机程序或指令，当所述计算机程序或指令被运行时，实现如权利要求1至7中任一项所述的方法。