CN116149814A

CN116149814A - 一种基于kafka的数据持久化任务分布式调度方法及系统

Info

Publication number: CN116149814A
Application number: CN202310002375.0A
Authority: CN
Inventors: 王频; 刘树惠
Original assignee: Wuhan Zhongzhi Digital Technology Co ltd
Current assignee: Wuhan Zhongzhi Digital Technology Co ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-05-23

Abstract

本发明提供了一种基于KAFKA的数据持久化任务分布式调度方法及系统，该方法通过KAFKA向任务管理模块新增持久化任务，持久化任务执行器向NACOS注册服务信息，任务管理模块通过监听NACOS获取持久化任务执行器的上下线信息，并根据持久化任务执行器上下线情况动态分配任务，持久化任务执行器执行任务并将待持久化数据写入持久化存储组件中。本发明具有横向易于扩展、资源利用合理的特性，解决了当需要持久化的数据种类变多的时候，单体应用无法满足性能要求的问题，具有较高的实用价值。本发明采用任务调度集中管理的模式，持久化任务执行器采用分布式部署的方式，各个持久化任务执行器之间互不影响。本发明能够有效利用分布式资源，提高了系统的扩展性和健壮性。

Description

一种基于KAFKA的数据持久化任务分布式调度方法及系统

技术领域

本发明属于大数据应用技术领域，具体涉及一种基于KAFKA的数据持久化任务分布式调度方法及系统。

背景技术

随着数据接入种类越来越多，通过多线程的单体数据持久化应用使用的内存及线程越来越多，对服务器的性能等要求越来要高，服务器无法支撑单体应用的运行要求，且单体数据持久化应用无法满足分布式的要求。

Nacos是构建以“服务”为中心的现代应用架构(例如微服务范式、云原生范式)的服务基础设施，致力于微服务的发现、管理和信息配置，能帮助开发者快速实现动态服务发现、服务配置、服务元数据及流量管理，从而更敏捷、更容易的构建、交付和管理微服务平台。Nacos支持几乎所有主流类型(诸如：KubernetesService、gRPC&DubboRPCService、SpringCloudRESTfulService)的服务的发现、配置和管理。Nacos是开源的用于服务注册发现的组件。

Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue)，主要应用于大数据实时处理领域。

持久化就是将有用的数据以某种技术保存起来,将来可以再次取出来应用，包括和数据库相关的各种操作。持久化是一种数据库技术,将内存数据以文件的形式保存在永久介质中(磁盘等)。

Topic是消息发布(Pub)者和订阅(Sub)者之间的传输中介。设备可通过Topic实现消息的发送和接收，从而实现服务端与设备端的通信。

发明内容

本发明的目的在于克服现有技术之缺陷，本发明提供了一种基于KAFKA的数据持久化任务分布式调度方法及系统，将单体应用改进成分布式持久化任务系统，以更好地利用资源，提高系统的扩展性和健壮性。

为了到达预期效果，本发明采用了以下技术方案：

本发明公开了一种基于KAFKA的数据持久化任务分布式调度方法，包括：通过KAFKA向任务管理模块新增持久化任务，持久化任务执行器向NACOS注册服务信息，任务管理模块通过监听NACOS获取持久化任务执行器的上下线信息，并根据持久化任务执行器上下线情况动态分配任务，持久化任务执行器执行任务并将待持久化数据写入持久化存储组件中。

进一步地，通过KAFKA向任务管理模块新增持久化任务具体包括：通过持久化任务管理界面配置KAFKA地址，创建包含需要监听的KAFKA的TOPIC和对应字段的任务，将任务信息下发给任务管理模块。

进一步地，任务管理模块根据任务的TOPIC分区情况及各个持久化任务执行器负载情况动态分配任务，其中，优先将任务分配给负载较低的持久化任务执行器。

进一步地，任务管理模块根据各个持久化任务执行器的负载情况进行负载均衡处理，具体包括：向负载较高的持久化任务执行器发送取消执行部分任务的消息指令，并向负载较低的执行器发送新增执行任务的消息指令以执行被取消的任务。

进一步地，根据监听的KAFKA的TOPIC的分区数生成对应数量的消费者，不同的消费者分布到不同的持久化任务执行器中进行任务执行。

进一步地，持久化任务执行器采用分布式部署以实现任务调度集中管理，并支持动态扩展。

进一步地，当整个持久化任务执行器集群负载过高时，会自动启动一个全新的持久化任务执行器分担任务。

进一步地，当持久化任务执行器因不可控的原因下线后，该持久化任务执行器上尚未执行完毕的任务需要分配到其他持久化任务执行器继续执行。

本发明还公开了一种基于KAFKA的数据持久化任务分布式调度系统，包括：

KAFKA组件，用于向任务管理模块新增持久化任务；

NACOS组件，用于给持久化任务执行器注册服务信息；

任务管理模块，通过监听NACOS获取持久化任务执行器上下线信息，并根据持久化任务执行器上下线情况动态分配任务；

持久化任务执行器，用于执行任务并将任务数据写入持久化存储组件中；

存储组件，用于存储待持久化数据。

与现有技术相比，本发明的有益效果是：本发明提供了一种基于KAFKA的数据持久化任务分布式调度方法及系统，该方法通过KAFKA向任务管理模块新增持久化任务，持久化任务执行器向NACOS注册服务信息，任务管理模块通过监听NACOS获取持久化任务执行器的上下线信息，并根据持久化任务执行器上下线情况动态分配任务，持久化任务执行器执行任务并将待持久化数据写入持久化存储组件中。本发明具有横向易于扩展、资源利用合理的特性，解决了当需要持久化的数据种类变多的时候，单体应用无法满足性能要求的问题，具有较高的实用价值。本发明采用任务调度集中管理的模式，持久化任务执行器采用分布式部署的方式，各个持久化任务执行器之间互不影响。本发明能够有效利用分布式资源，提高了系统的扩展性和健壮性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明提供的一种基于KAFKA的数据持久化任务分布式调度方法的流程图。

图2是本发明提供的一种基于KAFKA的数据持久化任务分布式调度系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，本发明公开了一种基于KAFKA的数据持久化任务分布式调度方法，包括：首先，通过KAFKA向任务管理模块新增持久化任务，优选的实施例中，具体包括：通过持久化任务管理界面配置KAFKA地址，创建包含需要监听的KAFKA的TOPIC和对应字段的任务，将任务信息下发给任务管理模块。

然后，持久化任务执行器向NACOS组件服务注册发现中心注册服务信息，任务管理模块通过监听NACOS获取持久化任务执行器的上下线信息，并根据持久化任务执行器上下线情况动态分配任务；优选的实施例中，任务管理模块根据任务的TOPIC分区情况及各个持久化任务执行器负载情况动态分配任务，具体包括：优先将任务分配给负载较低的持久化任务执行器，根据监听的KAFKA的TOPIC的分区数生成对应数量的消费者，不同的消费者分布到不同的持久化任务执行器中进行任务执行，以防止某一个持久化任务执行器停止工作，导致整个消费任务终止。一个消费者对应一个任务，一个任务也对应着一个消费者。

其次，持久化任务执行器执行任务并将待持久化数据写入ElasticSearch、Hive、Impala、ClickHouse等大数据持久化存储组件中，优选的实施例中，持久化任务执行器采用分布式部署以实现任务调度集中管理，并支持动态扩展。优选的实施例中，当整个持久化任务执行器集群负载过高时，会自动启动一个全新的持久化任务执行器分担任务，以实现动态扩容。优选的实施例中，当持久化任务执行器因不可控的原因下线后，例如更换服务器、系统扩容等，该持久化任务执行器上尚未执行完毕的任务需要分配到其他持久化任务执行器继续执行，以达到容错的目的。优选的实施例中，当有新的持久化任务执行器上线时，任务管理模块重新计算各个持久化任务执行器执行任务的情况，任务管理模块根据各个持久化任务执行器的负载情况进行负载均衡处理，优选的实施例中，具体包括：向负载较高的持久化任务执行器发送取消执行部分任务的消息指令，并向负载较低的执行器发送新增执行任务的消息指令以执行被取消的任务。

参见图2，本发明还公开了一种基于KAFKA的数据持久化任务分布式调度系统，包括：

KAFKA组件，用于向任务管理模块新增持久化任务；优选的实施例中，具体包括：通过持久化任务管理界面配置KAFKA地址，创建包含需要监听的KAFKA的TOPIC和对应字段的任务，将任务信息下发给任务管理模块。

NACOS组件，用于给持久化任务执行器注册服务信息；优选的实施例中，具体包括：持久化任务执行器向NACOS组件服务注册发现中心注册服务信息。

任务管理模块，通过监听NACOS获取持久化任务执行器上下线信息，并根据持久化任务执行器上下线情况动态分配任务；优选的实施例中，具体包括：任务管理模块根据任务的TOPIC分区情况及各个持久化任务执行器负载情况动态分配任务，优选的实施例中，优先将任务分配给负载较低的持久化任务执行器，根据监听的KAFKA的TOPIC的分区数生成对应数量的消费者，不同的消费者分布到不同的持久化任务执行器中进行任务执行，以防止某一个持久化任务执行器停止工作，导致整个消费任务终止。优选的实施例中，一个消费者对应一个任务，一个任务也对应着一个消费者。

持久化任务执行器，用于执行任务并将待持久化数据写入持久化存储组件中；优选的实施例中，持久化任务执行器采用分布式部署以实现任务调度集中管理，并支持动态扩展。优选的实施例中，当整个持久化任务执行器集群负载过高时，会自动启动一个全新的持久化任务执行器分担任务，以实现动态扩容。优选的实施例中，当持久化任务执行器因不可控的原因下线后，例如更换服务器、系统扩容等，该持久化任务执行器上尚未执行完毕的任务需要分配到其他持久化任务执行器继续执行，以达到容错的目的。优选的实施例中，当有新的持久化任务执行器上线时，任务管理模块重新计算各个持久化任务执行器执行任务的情况，任务管理模块根据各个持久化任务执行器的负载情况进行负载均衡处理，优选的实施例中，具体包括：向负载较高的持久化任务执行器发送取消执行部分任务的消息指令，并向负载较低的执行器发送新增执行任务的消息指令以执行被取消的任务。

存储组件，用于存储待持久化数据，优选的实施例中，所述存储组件为ElasticSearch、Hive、Impala、ClickHouse等大数据持久化存储组件。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，包括：通过KAFKA向任务管理模块新增持久化任务，持久化任务执行器向NACOS注册服务信息，任务管理模块通过监听NACOS获取持久化任务执行器的上下线信息，并根据持久化任务执行器上下线情况动态分配任务，持久化任务执行器执行任务并将待持久化数据写入持久化存储组件中。

2.如权利要求1所述的一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，通过KAFKA向任务管理模块新增持久化任务具体包括：通过持久化任务管理界面配置KAFKA地址，创建包含需要监听的KAFKA的TOPIC和对应字段的任务，将任务信息下发给任务管理模块。

3.如权利要求2所述的一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，任务管理模块根据任务的TOPIC分区情况及各个持久化任务执行器负载情况动态分配任务，其中，优先将任务分配给负载较低的持久化任务执行器。

4.如权利要求3所述的一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，任务管理模块根据各个持久化任务执行器的负载情况进行负载均衡处理，具体包括：向负载较高的持久化任务执行器发送取消执行部分任务的消息指令，并向负载较低的执行器发送新增执行任务的消息指令以执行被取消的任务。

5.如权利要求2所述的一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，根据监听的KAFKA的TOPIC的分区数生成对应数量的消费者，不同的消费者分布到不同的持久化任务执行器中进行任务执行。

6.如权利要求1所述的一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，持久化任务执行器采用分布式部署以实现任务调度集中管理，并支持动态扩展。

7.如权利要求6所述的一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，当整个持久化任务执行器集群负载过高时，会自动启动一个全新的持久化任务执行器分担任务。

8.如权利要求1所述的一种基于KAFKA的数据持久化任务分布式调度方法，其特征在于，当持久化任务执行器因不可控的原因下线后，该持久化任务执行器上尚未执行完毕的任务需要分配到其他持久化任务执行器继续执行。

9.一种基于KAFKA的数据持久化任务分布式调度系统，其特征在于，包括：

KAFKA组件，用于向任务管理模块新增持久化任务；

NACOS组件，用于给持久化任务执行器注册服务信息；

存储组件，用于存储待持久化数据。

10.如权利要求9所述的一种基于KAFKA的数据持久化任务分布式调度系统，其特征在于，持久化任务执行器采用分布式部署以实现任务调度集中管理，并支持动态扩展。