CN114138434A

CN114138434A - 一种大数据任务调度系统

Info

Publication number: CN114138434A
Application number: CN202111376372.0A
Authority: CN
Inventors: 褚立强
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-04
Anticipated expiration: 2041-11-19
Also published as: CN114138434B

Abstract

本发明涉及一种大数据任务调度系统,属于计算机技术领域。所述系统包括：用户界面UI，用户采用界面化操作，用于生成任务调度请求；管理节点，用于接收用户界面UI发送的任务调度请求，并根据任务调度请求，选取符合选取标准的工作节点分配任务；分布式消息中间件，用于暂时存放管理节点分配好的任务；工作节点，用于执行管理节点分配的任务；etcd数据库，etcd数据库被容器化部署在所述系统中，用于记录管理节点和工作节点的注册和同步信息，实现分布式锁的功能。本发明的系统能够实现资源弹性扩容，提高并发度，节点故障时减少恢复时间。

Description

一种大数据任务调度系统

技术领域

本发明属于计算机技术领域，尤其涉及一种大数据任务调度系统。

背景技术

大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序(任务)运行在大数据平台之上，如：MapReduce、Hive、Spark、Shell、Python等。并且这些任务之间往往存在一定的依赖关系，此时手动执行任务就会明显效率低下。

大数据任务调度系统的出现，让开发者不需要关注任务具体是怎么提交、怎么调度、怎么执行、资源分配是否合理、依赖是否满足等，从而把更多的精力放到业务上去，而不用去关心数据什么时候产出，数据质量的问题等。

同时通过对整个任务生命周期的监控、集群资源的监控，动态分配调度队列，调整任务执行并发度，动态优化调度时间，在正常完成任务调度的同时做到资源的合理利用。

ApacheDolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

DolphinScheduler的架构及说明如下：

API:API接口层，主要负责处理前端UI层的请求。该服务统一提供

RESTfulapi向外部提供请求服务。

管理节点Server:采用分布式无中心设计理念，管理节点Server主要负责DAG任务切分、任务提交监控，并同时监听其它管理节点Server和工作节点Server的健康状态。管理节点Server服务启动时向Zookeeper注册临时节点，通过监听Zookeeper临时节点变化来进行容错处理。

TaskQueue：提供任务队列的操作，目前队列也是基于Zookeeper来实现。

工作节点Server:工作节点Server也采用分布式无中心设计理念，工作节点Server主要负责任务的执行和提供日志服务。工作节点Server服务启动时向Zookeeper注册临时节点，并维持心跳。

ZooKeeper：系统中的管理节点Server和工作节点Server节点都通过ZooKeeper来进行集群管理和容错。另外系统还基于ZooKeeper进行事件监听和分布式锁。

UI：系统的前端页面，提供系统的各种可视化操作界面。

DolphinScheduler目前的去中心化及组件高可用，主要通过将管理节点/工作节点注册到Zookeeper中，实现管理节点集群和工作节点集群无中心，并使用Zookeeper分布式锁来选举其中的一台管理节点或工作节点为“管理者”来执行任务。

1)去中心化问题：由于不存在“管理者”节点，所以每个节点都需要跟其他节点通信才得到必须要的机器信息，而分布式系统通信的不可靠性，则大大增加了上述功能的实现难度。另外，系统本身仍然是基于传统的物理机方式开发实现和部署使用的，在工作节点物理机上任务进程较多时容易相互影响，耗资源多的任务和耗资源少的任务混合在工作节点上执行。在等待任务较多的情况下，这种情况不能提升工作节点的并发度。

现在大数据业务、数据结构变更很频繁，调度系统中的任务也需要随时进行重新调整或开发新的任务流程。如果新的调度流程数据量庞大或业务逻辑复杂，就有可能对其他流程甚至整个系统产生重大负面影响，导致流程中断、业务处理受阻、系统崩溃等后果。

2)高可用问题：

目前很难真正做到管理节点的高可用，只是通过zookeeper来保证一个机器宕机之后，另外一台机器重新初始化。在生产环境中，管理节点需要初始化大量的数据在内存中，耗时较久。

而且，集群存储任务流元数据的数据库需要手动配置高可用，这种基于数据库本身的高可用仍然存在单点故障的可能性且配置复杂。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种大数据任务调度系统，通对整个系统进行容器化改造，充分利用集群资源，将任务实例进行隔离，提高并发度；引入分布式缓存和图数据库，解决管理节点切换时的资源和时间开销，实现真正的去中心化和高可用；对开源软件PostDock进行重新开发，使之实现系统中数据库的高可用；借助K8S的灰度发布功能，对于变动突然、强烈的业务需求、逻辑或数据构成提供缓冲，避免对其他流程或整个集群造成冲击。

根据本发明的一个方面，本发明提供了一种大数据任务调度系统，所述系统包括：

用户界面UI，用户采用界面化操作，用于生成任务调度请求；

管理节点，用于接收用户界面UI发送的任务调度请求，并根据所述任务调度请求，选取符合选取标准的工作节点分配任务，并将分配好的任务下发给分布式消息中间件；所述管理节点通过基于etcd分布式锁的节点竞选产生，最先获取所述分布式锁的节点当选为管理节点；

分布式消息中间件，用于暂时存放管理节点分配好的任务，以供工作节点和灰度机器执行各自的任务；

工作节点，用于执行管理节点分配的任务，向管理节点发送心跳和/或资源信息，并监控etcd数据库中管理节点信息更新情况，其中部分工作节点配置为灰度机器，所述灰度机器上部署有灰度策略，根据所述灰度策略执行灰度任务；

etcd数据库，所述etcd数据库被容器化部署在所述系统中，用于记录管理节点和工作节点的注册和同步信息，实现分布式锁的功能。

优选的，所述选取标准包括：可用阈值和资源权值，所述可用阈值是指工作节点资源在阈值之下时工作节点才是可用的；资源权值是指对工作节点的任务信息、资源使用信息进行加权计算之后的结果。

优选的，所述系统还包括与管理节点连接的分布式缓存数据库和图数据库；

所述分布式缓存数据库用于存储管理节点内存中的任务流数据；

所述图数据库用于存储任务流中各节点的依赖关系；

通过所述分布式缓存数据库和所述图数据库在所述管理节点发生故障时，实现任务调度与新管理节点的无缝衔接。

优选的，所述分布式消息中间件还用于根据队列的权值设置队列执行的优先级。

优选的，采用以下策略中的至少一项指定队列执行的优先级：

a)按照最大最小公平算法，若当前执行任务数+等待任务数<最大最小公平分片数，则权重最高的优先调度；若执行任务数都小于最小分片数，则队列空闲最多的优先调度；

b)根据队列最小份额、当前使用量、当前缓存区中的任务数和权重来划分优先级；

c)若当前使用量小于队列最小份额，则优先调度，或根据空闲份额的比例进行调度；

d)若当前使用量大于队列最小份额，则根据单位权重使用量的优先级进行调度。

优选的，所述系统包括API服务器，所述API服务器用于处理前端用户界面UI的请求，并将请求转发给管理节点。

优选的，基于etcd分布式锁的节点竞选成功后，管理节点将管理节点信息写入数据库中，并对所述管理节点信息进行更新，其他节点根据所述管理节点信息的更新情况确定是否重新参与竞选。

优选的，若管理节点超过指定时间未更新管理节点信息，则认为当前管理节点已停止工作，工作节点可参与竞选。

优选的，用户在所述用户界面UI上根据各作业属性信息，创建作业分类规则，筛选出灰度任务，然后按照一定的灰度比例定向发布到灰度机器上去执行；灰度策略的内容包括以下至少一项：灰度比例、时间范围、责任人、报警机器、任务维度、业务域维度、任务类型。

优选的，所述系统还包括告警模块，用于在任务执行失败或任务执行超时时进行报警提示。

有益效果：本发明通过基于K8S的大数据任务调度系统，实现系统内服务去中心化，管理节点和工作节点真正高可用。同时在工作节点task任务容器化拆分部署，把重量型任务和小任务隔开，通过任务容器化，做到进一步资源隔离。在系统部署时增加灰度机器，通过配置灰度策略，避免新增或变更强烈的任务对环境的破坏，使得新任务需求平滑落地。对开源项目进行重新开发，提供容器化高可用服务器集群，保证系统运行和任务元数据不丢失。引入分布式缓存和图数据库，用来保存任务流和依赖信息，在管理节点发生故障时，快速切换到新的管理节点，大幅度减少恢复时间。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是本发明的大数据任务调度系统结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例中涉及的技术术语的解释说明如下：

K8S：Kubernetes是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署，规划，更新，维护的一种机制。Kubernetes一个核心的特点就是能够自主的管理容器来保证云平台中的容器按照用户的期望状态运行。

灰度发布：是一种平滑过渡的发布方式，A/BTesting是一种灰度发布的方式，让一部分用户继续用原A系统/功能，一部分用户开始用B系统/功能。如果用户对B没有反对意见。那么逐步扩大范围，将所有用户都迁移到B上来。灰度发布更多强调的是单一的新功能或者改进的逐步放量直到全量应用的过程。

PostDock：开源项目，该项目在云和docker环境中提供高可用和自愈作用的Postgresql集群。

JanusGraph：一个高度可扩展的分布式图数据库，专门用于存储和查询包含数千亿个分布在多机群集中的极点和边缘的图形。

memcached：一个自由开源的，高性能，分布式内存对象缓存系统。

etcd：一个高可用的Key/Value存储系统，主要用于分享配置和服务发现。

最大最小公平算法：一种给多个用户分配一组资源的算法。形式化定义如下：资源按照需求递增的顺序进行分配；不存在用户得到的资源超过自己的需求；未得到满足的用户等价的分享资源。

图1是本发明的大数据任务调度系统结构示意图。如图1所示，本发明提供了一种大数据任务调度系统，所述系统包括：

用户界面UI，用户采用界面化操作，用于生成任务调度请求。该用户界面UI主要用于用户实现可视化操作。系统支持时间触发和作业依赖触发，支持作业失败自动重试，支持任务失败报警、超时报警。

具体地，用户采用界面化操作，通过拖拽等方式进行操作，系统支持时间触发和作业依赖触发；支持作业失败自动重试，可以设置自动重试次数，重试间隔等；支持任务失败报警，超时报警，到达指定时间未执行报警等异常情况的报警监控。

管理节点，用于接收用户界面UI发送的任务调度请求，并根据任务调度请求，选取符合选取标准的工作节点分配任务，并将分配好的任务下发给分布式消息中间件。管理节点通过基于etcd分布式锁的节点竞选产生，最先获取分布式锁的节点当选为管理节点。

具体地，所有节点不严格划分管理节点和工作节点，但同一时刻只能有一个管理节点管理整个集群，管理节点竞选基于etcd分布式锁，最先获取锁的节点会将节点管理节点信息写入数据库，其余节点获取该管理节点信息，并向该管理节点发送心跳及资源信息(任务信息，资源使用信息等)。

分布式消息中间件，用于暂时存放管理节点分配好的任务，以供工作节点和灰度机器执行各自的任务。分布式消息中间件还用于根据队列的权值设置队列执行的优先级。该分布式消息中间件可以采用RocketMQ。该分布式消息中间件采用以下策略指定队列执行的优先级：

工作节点，用于执行管理节点分配的任务；向管理节点发送心跳和/或资源信息，并监控etcd数据库中管理节点信息更新情况，部分工作节点配置为灰度机器，灰度机器上部署有灰度策略，根据灰度策略执行灰度任务。

优选地，用户在用户界面UI上根据各作业属性信息，创建作业分类规则，筛选出灰度任务，然后按照一定的灰度比例定向发布到灰度机器上去执行；灰度策略的内容包括：灰度比例、时间范围、责任人、报警机器、任务维度、业务域维度、任务类型。

具体地，基于K8S自身能力，以A/BTesting的方式实现灰度发布任务功能：

a)在部署时预备独立的机器部署工作节点服务，主要面向任务执行模型功能性的修改或者新增的场景。

b)用户根据各作业属性信息，创建作业分类规则，筛选出灰度任务，然后按照一定的灰度比例定向发布到灰度机器上去执行。

c)在灰度机器上，制定灰度策略，策略内容包括属性：灰度比例、时间范围、责任人、报警机器，及条件：任务维度、业务域维度(部门，业务线)、任务类型(单次，周期)、责任人。

d)灰度任务根据灰度策略执行，不执行普通任务，避免对线上数据造成影响，最终实现新调度流程的平滑发布。

etcd数据库，etcd数据库被容器化部署在系统中，用于记录管理节点和工作节点的注册和同步信息，实现分布式锁的功能。通过对etcd数据库进行镜像封装、配置文件适配处理，实现etcd数据库的容器化。

具体地，etcd数据库容器化高可用可参照现有的PostDock开源项目，进行镜像封装、二次开发和配置文件适配即可实现。

将etcd数据库安装包封装成docker镜像，参照PostDock对PostgreSQL的实现方式，实现其容器化高可用部署，在为K8S提供数据存储的同时，也作为本调度系统的元数据存储库，减少系统组件依赖。

系统还可以包括分布式缓存数据库和图数据库。分布式缓存数据库可以为Memcached数据库和图数据库可以为JanusGraph数据库。分布式缓存数据库用于存储任务流数据。图数据库用于存储任务流中各节点的依赖关系。通过分布式缓存数据库和图数据库在管理节点发生故障时，实现任务流数据、内存数据与新管理节点的无缝衔接，从而实现完全地去中心化与高可用。

系统还可以包括API服务器，API服务器用于处理前端用户界面UI的请求，并将请求转发给管理节点。

具体地，用户通过UI管理流程，UI将RestApi接口调用传递给APIServer。APIServer主要负责处理前端UI层的请求，将具体命令转发给管理节点。管理节点接收命令，负责进行DAG任务切分、任务提交监控，并同时监听工作节点的健康状态。

优选地，管理节点在接收到各工作节点反馈的心跳信息后，发送给etcd数据库进行存储。

需要说明的是，上述选取标准包括：可用阈值和资源权值，可用阈值是指工作节点资源在阈值之下时工作节点才是可用的；资源权值是指对工作节点的任务信息、资源使用信息进行加权计算之后的结果。

具体地，管理节点收到任务调度请求后，会根据工作节点反馈回来的心跳信息和资源信息来选取合适的工作节点执行任务。选取标准包括：可用阈值和资源权值，可用阈值指的是工作节点资源在阈值之下时工作节点才是可用的，比如内存阈值为60％；资源权值指的是对工作节点的任务信息、资源使用信息进行加权计算之后的结果，竞选时会将任务分配到取值最小的工作节点。

优选地，基于etcd分布式锁的节点竞选成功后，管理节点将管理节点信息写入数据库中，并对管理节点信息进行更新，其他节点根据管理节点信息的更新情况确定是否重新参与竞选。

具体地，最先获取锁的节点会将节点管理节点信息写入数据库，其余节点获取该管理节点信息，并向该管理节点发送心跳及资源信息(任务信息，资源使用信息等)，同时监控数据库中管理节点信息更新情况，如果管理节点超过指定时间未更新信息，则认为当前管理节点已停止工作，工作节点可参与竞选，竞选成功的节点将自己的管理节点信息写入数据库中，进而管理整个任务调度集群。

本发明的大数据任务调度系统基于K8S开发，参照主流大数据任务调度系统进行容器化改造，实施时容器化部署，实现资源弹性扩容。把每个内部组件打包成镜像，降低工作节点复杂度，具体任务实例也以容器方式执行和调度，把消耗资源较多的任务和消耗资源低的进行分离，工作节点只负责日志的收集和监控的上报，避免任务之间彼此影响，抢夺资源，最终提高并发度。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种大数据任务调度系统，其特征在于，所述系统包括：

2.根据权利要求1所述的大数据任务调度系统，其特征在于，所述选取标准包括：可用阈值和资源权值，所述可用阈值是指工作节点资源在阈值之下时工作节点才是可用的；资源权值是指对工作节点的任务信息、资源使用信息进行加权计算之后的结果。

3.根据权利要求1所述的大数据任务调度系统，其特征在于，所述系统还包括与管理节点连接的分布式缓存数据库和图数据库；

所述图数据库用于存储任务流中各节点的依赖关系；

4.根据权利要求3所述的大数据任务调度系统，其特征在于，所述分布式消息中间件还用于根据队列的权值设置队列执行的优先级。

5.根据权利要求4所述的大数据任务调度系统，其特征在于，采用以下策略中的至少一项指定队列执行的优先级：

6.根据权利要求1所述的大数据任务调度系统，其特征在于，所述系统包括API服务器，所述API服务器用于处理前端用户界面UI的请求，并将请求转发给管理节点。

7.根据权利要求1所述的大数据任务调度系统，其特征在于，基于etcd分布式锁的节点竞选成功后，管理节点将管理节点信息写入数据库中，并对所述管理节点信息进行更新，其他节点根据所述管理节点信息的更新情况确定是否重新参与竞选。

8.根据权利要求7所述的大数据任务调度系统，其特征在于，若管理节点超过指定时间未更新管理节点信息，则认为当前管理节点已停止工作，工作节点可参与竞选。

9.根据权利要求1所述的大数据任务调度系统，其特征在于，用户在所述用户界面UI上根据各作业属性信息，创建作业分类规则，筛选出灰度任务，然后按照一定的灰度比例定向发布到灰度机器上去执行；灰度策略的内容包括以下至少一项：灰度比例、时间范围、责任人、报警机器、任务维度、业务域维度、任务类型。

10.根据权利要求1所述的大数据任务调度系统，其特征在于，所述系统还包括告警模块，用于在任务执行失败或任务执行超时时进行报警提示。