CN110647387B

CN110647387B - 一种教育云大数据任务调度方法与系统

Info

Publication number: CN110647387B
Application number: CN201910808356.0A
Authority: CN
Inventors: 秦琪; 李琦
Original assignee: Wuhan Tianyu Education Technology Co ltd; Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Education Technology Co ltd; Wuhan Tianyu Information Industry Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-04-01
Anticipated expiration: 2039-08-29
Also published as: CN110647387A

Abstract

一种教育云大数据任务调度方法与系统，涉及大数据领域，包括：从多个数据源获取待处理源数据，对所述待处理源数据进行预处理依次得到源数据和相应的标准表，配置作业周期和调度参数，基于所述标准表创建多个数据模型，每个所述数据模型对应一个具有作业类型和依赖关系的作业；每一个作业根据所述作业周期生成多个任务，作业周期相同的任务存储在一个队列中，在每个队列中，每个周期内并发的任务随机先后排列，根据所述调度参数依次运行当前周期的所有所述任务。本发明根据数仓设计原则，创建不同层级的作业，放入对应队列，并指定队列并行度，按层级执行队列任务，有效提高调度执行效率。

Description

一种教育云大数据任务调度方法与系统

技术领域

本发明涉及大数据技术领域，具体来讲，涉及一种教育云大数据任务调度方法与系统。

背景技术

任务调度是基于操作系统的后台任务运行机制，根据一定的约束规定，将CPU分配给符合条件的任务使用。对于实时操作系统，任务调度直接影响其实时性能。任务调度主要用于后台任务运行，根据优先级对任务队列排序，以及加入高优先级的任务时中断低优先级的任务等。

现有任务调度技术尚不太成熟，常用的调度算法有优先选取其最早完成时间最小的一个任务进行调度和优先调度其最早完成时间最大的任务。但这两种方法也有一定的缺点和不足，因为对于优先选取最早完成时间最小的一个任务，如果任务集中存在过多执行时间比较小的任务，那么时间比较大的任务将无法得到及时执行。而优先调度最早完成时间最大的任务算法首先调度最早完成时间最大的任务，完成时间较小的任务等待时间过长，影响执行效率，也可能造成负载不均衡。

发明内容

为达到以上目的，本发明采取一种教育云大数据任务调度方法，包括：

A1、从多个数据源获取待处理源数据，对所述待处理源数据进行预处理依次得到源数据和相应的标准表，配置作业周期和调度参数，

基于所述标准表创建多个数据模型，每个所述数据模型对应一个具有作业类型和依赖关系的作业；

A2、每一个作业根据所述作业周期生成多个任务，作业周期相同的任务存储在一个队列中，在每个队列中，每个周期内并发的任务随机先后排列，根据所述调度参数依次运行当前周期的所有所述任务。

在上述技术方案的基础上，所述步骤A1中，多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型；

所述汇总表模型通过所述维度表模型、所述事实表模型以及所述指标表模型汇总处理得到。

在上述技术方案的基础上，所述步骤A2中，执行每一个所述任务前，判断其是否同时满足相应的所述调度参数和对应任务已完成，若是，执行所述任务；若否，将其重新放入相应所述队列末端继续等待执行；

所述对应任务为所述数据模型中与所述任务具有所述依赖关系的相应任务。

在上述技术方案的基础上，所述教育云大数据任务调度方法还包括：

A3、监控所述作业和所述任务的运行状态数据，以分别进行作业管理和任务管理；

所述作业管理包括查看、暂停以及删除所述作业；

所述任务管理包括查看运行日志和批量重跑所述任务。

在上述技术方案的基础上，所述调度参数包括生效日期、出错重试参数、定时调度参数；

所述生效日期用于设定作业的有效执行时间区间；

所述出错重试参数用于设定任务报错后自动重跑次数；

所述定时调度参数用于设定触发任务执行的时间。

在上述技术方案的基础上，所述步骤A1中，配置所述调度参数时，用户手动写入Hive Sql并选择调度参数，以在生成所述数据模型时，根据Hive语法树进行语法校验，并解析SQL中的输入输出表，根据与其他作业输入输出表的关联关系自动关联任务的上下游关系，进而生成作业的依赖关系。

一种教育云大数据任务调度系统，包括：

本地终端，用于从多个数据源获取待处理源数据，对所述待处理源数据进行预处理依次得到源数据和相应的标准表，配置作业周期和调度参数，基于所述标准表创建多个数据模型，每个所述数据模型对应一个具有作业类型和依赖关系的作业；

所述教育云大数据端，连接所述本地终端，用于将每一个作业根据所述作业周期生成多个任务，作业周期相同的任务存储在一个队列中，在每个队列中，每个周期内并发的任务随机先后排列，根据所述调度参数依次运行当前周期的所有所述任务。

在上述技术方案的基础上，多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型；

在上述技术方案的基础上，执行每一个所述任务前，判断其是否满足相应的所述调度参数，若是，执行所述任务；若否，将其重新放入相应所述队列末端继续等待执行。

在上述技术方案的基础上，所述教育云大数据任务调度系统还包括：

运行维护端，连接所述教育云大数据端，用于获取所述作业和所述任务的运行状态数据，以分别进行作业管理和任务管理；

所述作业管理包括查看、暂停以及删除所述作业；

所述任务管理包括查看运行日志和批量重跑所述任务。

本发明的有益效果在于：本发明根据数仓设计原则，创建不同层级的作业，放入对应队列，并指定队列并行度，按层级执行队列任务，有效提高调度执行效率。

附图说明

图1为本发明一种优选的实施例中，教育云大数据任务调度方法的流程图；

图2为本发明一种优选的实施例中，教育云大数据任务调度方法的系统结构示意图；

附图标记：

本地终端1，教育云大数据端2，运行维护端3。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

本发明公开一种教育云大数据任务调度方法与系统，应用于大数据领域。

一种教育云大数据任务调度方法，包括：

A1、从多个数据源获取待处理源数据，对上述待处理源数据进行预处理依次得到源数据和相应的标准表，配置作业周期和调度参数，基于上述标准表创建多个数据模型，每个上述数据模型对应一个具有作业类型和依赖关系的作业。

数据源类型支持Mysql，Oracle，MongoDB，Hive，HDFS，Hbase，Kafka等，添加数据源时还包括测试与数据源的连通性功能。

上述调度参数包括生效日期、出错重试参数、定时调度参数；上述生效日期用于设定作业的有效执行时间区间；上述出错重试参数用于设定任务报错后自动重跑次数；上述定时调度参数用于设定触发任务执行的时间。

A2、每一个作业根据上述作业周期生成多个任务，作业周期相同的任务存储在一个队列中，在每个队列中，每个周期内并发的任务随机先后排列，根据上述调度参数依次运行当前周期的所有上述任务。并提供重跑、补数等功能，数据分析人员可高效的进行数仓建设和运维，提高工作效率。

在本实施例中，在本地终端1，开发者在本地终端1部署数据同步模块下，选择数据源，创建标准表，基于创建好的标准表，在数据同步模块下配置作业周期和调度参数，在这个模块中可以选择“出错重试”“生效日期”“调度周期”“定时调度”“调度时间”“依赖上一周期”“调度依赖”等参数配置，以生成不同周期和类型的作业，便于调度系统对作业进行分层，确保上下游任务执行的优先级。配置完成后，形成一个作业，在教育云大数据端2，作业会按周期形成不同的任务，保存并提交运行，任务会以队列的形式先进先出依次运行，且按周期分组并发运行。

其中，通过数据集成，将异构数据源数据同步到大数据仓库以获取待处理源数据，对待处理源数据进行预处理包括首先进行数据过滤得到预处理标准表，再对预处理标准表进行数据开发(即进行数据清洗)得到符合预设要求的标准表，之后通过数据同步，基于标准表进行数据同步以将作业和依赖关系同步到下文提到的教育云服务器端。

通过数据建模，依照数仓建模分层的原则，能够基于标准表获取维度表模型、事实表模型以及指标表模型，基于维度表模型、事实表模型以及指标表模型获得汇总表模型，每个数据模型中包括多个表，每个数据模型对应一作业，每个作业都具有相应的作业类型和作业依赖。

在教育云大数据端2，开发者在教育云服务器端部署任务调度模块，提供RESTAPI接口创建大数据作业，按照以周期和作业类型分组并行、以队列形式依次调度运行的模式，判断队列中任务是否满足执行条件(定时时间、父任务执行状态)，不满足则重新放入对应优先级队列末尾继续等待执行，满足则执行此次任务。具体的，根据调度引擎生成的具体任务实例和提交的调度参数信息，触发运行指定的Python脚本，执行相应任务，业务过程存在数据库相应的表中。

作业根据作业类型和作业周期生成不同类型的任务，并按任务类型分发到消息中间件的不同队列，其中，作业周期相同的任务存储在一个队列中，在每个队列中，每个周期内并发的任务随机先后排列，根据上述调度参数依次运行当前周期的所有上述任务。从而实现任务执行按照作业周期分组并发运行，同一队列的任务以队列形式先进先出依次运行。并且，通过控制队列并行度，在每个队列中，使每个周期内并发的任务随机先后排列。

整个推送流程包括三方：本地终端1(即调度任务的生成端)、教育云服务器端(即调度任务的发送端和运行端)、数据处理和分析人员(即运行维护端3)。

开发者在本地终端1上，选择数据源，并创建标准表，接着创建同步作业，在页面的调度配置模块中选择同步所需的调度参数(出错重试、生效日期、调度周期、调度依赖等)，点击提交按钮，将数据同步作业给教育云服务器端，服务端存储作业调度信息，此流程完成同步作业的创建；

在数据开发页面手工写入Hive Sql并选择调度参数，提交数据开发作业；

在数据模型模块中，按照数仓建模流程，分别创建维度表作业、事实表作业、指标表作业、汇总表作业和集市表作业(将汇总hive表同步到关系型数据库)，选择调度参数，提交后再教育云服务端得到不同类型和周期的作业。

在教育云服务端，根据作业类型和周期，自动生成对应任务(如按天作业每天生成一个天任务、小时作业每小时生成一个小时任务)，并将不同的任务放入到不同层级的队列。

在调度任务查看端，可在运维监控页面监控上述作业和上述任务的运行状态数据，以分别进行作业管理和任务管理；上述作业管理包括查看、暂停以及删除上述作业；上述任务管理包括查看运行日志和批量重跑上述任务

由于目前大数据任务调度方法较为简单，有时候不能保证效率。本发明可以按作业周期(例如以小时或天为周期)的调度分开放消息中间件不同队列，可以程序控制并发消费的线程数从而控制并发消费的速率，可以通过设置调度参数指定作业有效时间、运行时间等。降低了CPU使用成本，提升数据分析人员体验。

目前大数据任务调度方法只是对于某个过程，无法贯通整个业务系统。本发明调度贯穿整个数据集成、数据模型、数据开放的业务过程，覆盖广，适用性强。

进一步的，上述步骤A2中，执行每一个上述任务前，判断其是否同时满足相应的上述调度参数和对应任务已完成，若是，执行上述任务；若否，将其重新放入相应上述队列末端继续等待执行；

上述对应任务为上述数据模型中与上述任务具有上述依赖关系的相应任务。

依赖关系：如果B作业执行的必须满足A作业执行成功这个条件，则A作业称为B作业的父作业，则产生B作业执行依赖于A作业的依赖关系，相同周期下产生相应的任务，则B任务依赖于A任务。依赖关系有两种产生方式，一种是手动在创建作业的调度模块参数里手动添加，另一种是解析Hive Sql语句自动添加。依赖作业的作用：任务执行前，需要判断此任务依赖关系，进而控制任务间的执行顺序，按正确流程处理数据，确保了数据的准确性。

具体的，调度程序会根据作业周期(如小时、天、周和月)和作业类型(如抽取作业、hive作业等)，定时将在有效时间区间内的作业生成为指定的任务，并放入不同的执行队列，接着判断队列中任务是否满足执行条件(如定时时间、父任务执行状态)，不满足则重新放入队列继续等待执行，满足则执行此次任务。

进一步的，上述教育云大数据任务调度方法还包括：

A3、监控上述作业和上述任务的运行状态数据，以分别进行作业管理和任务管理；

上述作业管理包括查看、暂停以及删除上述作业；

上述任务管理包括查看运行日志和批量重跑上述任务。

具体的，可记录所有运算操作的日志，包括info信息和error信息，方便开发人员、数据处理和分析人员查看场景运行日志，并进行报错原因和报错节点查找。

任务执行完成会记录任务日志，可以实时观察到任务的消费情况。可在执行任务的过程中解析任务日志，提取出抽取条数、错误类型等信息，便于同步作业量的统计和错误问题勘察。还可以将立即执行的任务日志通过websocket主动推送给前端页面，实现大数据任务与Web间的交互。

进一步的，上述步骤A1中，配置上述调度参数时，用户手动写入Hive Sql并选择调度参数，以在生成上述数据模型时，根据Hive语法树进行语法校验，并解析SQL中的输入输出表，根据与其他作业输入输出表的关联关系自动关联任务的上下游关系，进而生成作业的依赖关系。

具体的，对于数据同步任务队列，通过调用同步脚本，将数据源是mysql、mongo等数据库的数据集结合生成Python采集脚本，然后传送到HDFS。经过HDFS转化过得数据同步任务队列以Hive Sql的形式成为Hive Sql任务队列，通过调用Hive Sql脚本生成Hive Sql脚本，在数据库底层表中检查任务依赖，满足则解析队列里的参数，转化为大数据可执行的命令，重定向任务日志，并更新DB任务表，不满足则调整Hive Sql任务队列顺序，继续重复上述操作。

目前大数据任务调度方法处理任务间的依赖关系较为繁琐。本发明根据SQL解析的方式自动关联任务的上下游关系，减少不必要的手动依赖配置，从而减少数据分析人员的出错率。

进一步的，上述的任务调度方法的数据源支持五种程序类型，这五种程序类型的名称和作用如下：

sqoop是将关系型数据库(mysql,oracle等)抽取到大数据HDFS；

ongo是将mongodb抽取到大数据HDFS；hive是执行hive sql做数据清洗和数仓各层的计算；

spark是执行spark程序，数据清洗，计算，实时计算；

sqoopexport是把HDFS上的数据从HDFS导出到集市关系型数据库开发出去。

综上所述，本发明根据数仓设计原则，创建不同层级的作业，放入对应队列，并指定队列并行度，按层级执行队列任务，有效提高调度执行效率。

本发明根据Hive语法树进行语法校验，并解析SQL中的输入输出表，根据与其他作业输入输出表的关联关系自动判断依赖关系，减少因手工创建依赖关系造成任务出错。

本发明支持不同类型(Sqoop、Hive、Spark、Shell、Python等)大数据作业，适用范围广，以Python脚本驱动任务执行，便于拓展支持更多类型的作业。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种教育云大数据任务调度方法，其特征在于，包括步骤：

A1、从多个数据源获取待处理源数据，对所述待处理源数据进行预处理依次得到源数据和相应的标准表，配置作业周期和调度参数，基于所述标准表创建多个数据模型，每个所述数据模型对应一个具有作业类型和依赖关系的作业；

A2、每一个作业根据所述作业周期生成多个任务，作业周期相同的任务存储在一个队列中，在每个队列中，每个周期内并发的任务随机先后排列，根据所述调度参数依次运行当前周期的所有所述任务；

所述步骤A2中，执行每一个所述任务前，判断其是否同时满足相应的所述调度参数和对应任务已完成，若是，执行所述任务；若否，将其重新放入相应所述队列末端继续等待执行；

2.如权利要求1所述的教育云大数据任务调度方法，其特征在于，所述步骤A1中，多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型；

3.如权利要求1所述的教育云大数据任务调度方法，其特征在于，所述教育云大数据任务调度方法还包括：

所述作业管理包括查看、暂停以及删除所述作业；

所述任务管理包括查看运行日志和批量重跑所述任务。

4.如权利要求1所述的教育云大数据任务调度方法，其特征在于，所述调度参数包括生效日期、出错重试参数、定时调度参数；

所述生效日期用于设定作业的有效执行时间区间；

所述出错重试参数用于设定任务报错后自动重跑次数；

所述定时调度参数用于设定触发任务执行的时间。

5.如权利要求1所述的教育云大数据任务调度方法，其特征在于，所述步骤A1中，配置所述调度参数时，用户手动写入Hive Sql并选择调度参数，以在生成所述数据模型时，根据Hive语法树进行语法校验，并解析SQL中的输入输出表，根据与其他作业输入输出表的关联关系自动关联任务的上下游关系，进而生成作业的依赖关系。

6.一种教育云大数据任务调度系统，其特征在于，包括：

所述教育云大数据端，连接所述本地终端，用于将每一个作业根据所述作业周期生成多个任务，作业周期相同的任务存储在一个队列中，在每个队列中，每个周期内并发的任务随机先后排列，根据所述调度参数依次运行当前周期的所有所述任务；

执行每一个所述任务前，判断其是否满足相应的所述调度参数，若是，执行所述任务；若否，将其重新放入相应所述队列末端继续等待执行。

7.如权利要求6所述的教育云大数据任务调度系统，其特征在于，多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型；

8.如权利要求6所述的教育云大数据任务调度系统，其特征在于，所述教育云大数据任务调度系统还包括：

所述作业管理包括查看、暂停以及删除所述作业；

所述任务管理包括查看运行日志和批量重跑所述任务。