CN110647387B - 一种教育云大数据任务调度方法与系统 - Google Patents
一种教育云大数据任务调度方法与系统 Download PDFInfo
- Publication number
- CN110647387B CN110647387B CN201910808356.0A CN201910808356A CN110647387B CN 110647387 B CN110647387 B CN 110647387B CN 201910808356 A CN201910808356 A CN 201910808356A CN 110647387 B CN110647387 B CN 110647387B
- Authority
- CN
- China
- Prior art keywords
- task
- job
- data
- scheduling
- tasks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013499 data model Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000007726 management method Methods 0.000 claims description 24
- 238000012423 maintenance Methods 0.000 claims description 6
- 238000011144 upstream manufacturing Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种教育云大数据任务调度方法与系统,涉及大数据领域,包括:从多个数据源获取待处理源数据,对所述待处理源数据进行预处理依次得到源数据和相应的标准表,配置作业周期和调度参数,基于所述标准表创建多个数据模型,每个所述数据模型对应一个具有作业类型和依赖关系的作业;每一个作业根据所述作业周期生成多个任务,作业周期相同的任务存储在一个队列中,在每个队列中,每个周期内并发的任务随机先后排列,根据所述调度参数依次运行当前周期的所有所述任务。本发明根据数仓设计原则,创建不同层级的作业,放入对应队列,并指定队列并行度,按层级执行队列任务,有效提高调度执行效率。
Description
技术领域
本发明涉及大数据技术领域,具体来讲,涉及一种教育云大数据任务调度方法与系统。
背景技术
任务调度是基于操作系统的后台任务运行机制,根据一定的约束规定,将CPU分配给符合条件的任务使用。对于实时操作系统,任务调度直接影响其实时性能。任务调度主要用于后台任务运行,根据优先级对任务队列排序,以及加入高优先级的任务时中断低优先级的任务等。
现有任务调度技术尚不太成熟,常用的调度算法有优先选取其最早完成时间最小的一个任务进行调度和优先调度其最早完成时间最大的任务。但这两种方法也有一定的缺点和不足,因为对于优先选取最早完成时间最小的一个任务,如果任务集中存在过多执行时间比较小的任务,那么时间比较大的任务将无法得到及时执行。而优先调度最早完成时间最大的任务算法首先调度最早完成时间最大的任务,完成时间较小的任务等待时间过长,影响执行效率,也可能造成负载不均衡。
发明内容
为达到以上目的,本发明采取一种教育云大数据任务调度方法,包括:
A1、从多个数据源获取待处理源数据,对所述待处理源数据进行预处理依次得到源数据和相应的标准表,配置作业周期和调度参数,
基于所述标准表创建多个数据模型,每个所述数据模型对应一个具有作业类型和依赖关系的作业;
A2、每一个作业根据所述作业周期生成多个任务,作业周期相同的任务存储在一个队列中,在每个队列中,每个周期内并发的任务随机先后排列,根据所述调度参数依次运行当前周期的所有所述任务。
在上述技术方案的基础上,所述步骤A1中,多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型;
所述汇总表模型通过所述维度表模型、所述事实表模型以及所述指标表模型汇总处理得到。
在上述技术方案的基础上,所述步骤A2中,执行每一个所述任务前,判断其是否同时满足相应的所述调度参数和对应任务已完成,若是,执行所述任务;若否,将其重新放入相应所述队列末端继续等待执行;
所述对应任务为所述数据模型中与所述任务具有所述依赖关系的相应任务。
在上述技术方案的基础上,所述教育云大数据任务调度方法还包括:
A3、监控所述作业和所述任务的运行状态数据,以分别进行作业管理和任务管理;
所述作业管理包括查看、暂停以及删除所述作业;
所述任务管理包括查看运行日志和批量重跑所述任务。
在上述技术方案的基础上,所述调度参数包括生效日期、出错重试参数、定时调度参数;
所述生效日期用于设定作业的有效执行时间区间;
所述出错重试参数用于设定任务报错后自动重跑次数;
所述定时调度参数用于设定触发任务执行的时间。
在上述技术方案的基础上,所述步骤A1中,配置所述调度参数时,用户手动写入Hive Sql并选择调度参数,以在生成所述数据模型时,根据Hive语法树进行语法校验,并解析SQL中的输入输出表,根据与其他作业输入输出表的关联关系自动关联任务的上下游关系,进而生成作业的依赖关系。
一种教育云大数据任务调度系统,包括:
本地终端,用于从多个数据源获取待处理源数据,对所述待处理源数据进行预处理依次得到源数据和相应的标准表,配置作业周期和调度参数,基于所述标准表创建多个数据模型,每个所述数据模型对应一个具有作业类型和依赖关系的作业;
所述教育云大数据端,连接所述本地终端,用于将每一个作业根据所述作业周期生成多个任务,作业周期相同的任务存储在一个队列中,在每个队列中,每个周期内并发的任务随机先后排列,根据所述调度参数依次运行当前周期的所有所述任务。
在上述技术方案的基础上,多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型;
所述汇总表模型通过所述维度表模型、所述事实表模型以及所述指标表模型汇总处理得到。
在上述技术方案的基础上,执行每一个所述任务前,判断其是否满足相应的所述调度参数,若是,执行所述任务;若否,将其重新放入相应所述队列末端继续等待执行。
在上述技术方案的基础上,所述教育云大数据任务调度系统还包括:
运行维护端,连接所述教育云大数据端,用于获取所述作业和所述任务的运行状态数据,以分别进行作业管理和任务管理;
所述作业管理包括查看、暂停以及删除所述作业;
所述任务管理包括查看运行日志和批量重跑所述任务。
本发明的有益效果在于:本发明根据数仓设计原则,创建不同层级的作业,放入对应队列,并指定队列并行度,按层级执行队列任务,有效提高调度执行效率。
附图说明
图1为本发明一种优选的实施例中,教育云大数据任务调度方法的流程图;
图2为本发明一种优选的实施例中,教育云大数据任务调度方法的系统结构示意图;
附图标记:
本地终端1,教育云大数据端2,运行维护端3。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
本发明公开一种教育云大数据任务调度方法与系统,应用于大数据领域。
一种教育云大数据任务调度方法,包括:
A1、从多个数据源获取待处理源数据,对上述待处理源数据进行预处理依次得到源数据和相应的标准表,配置作业周期和调度参数,基于上述标准表创建多个数据模型,每个上述数据模型对应一个具有作业类型和依赖关系的作业。
数据源类型支持Mysql,Oracle,MongoDB,Hive,HDFS,Hbase,Kafka等,添加数据源时还包括测试与数据源的连通性功能。
上述调度参数包括生效日期、出错重试参数、定时调度参数;上述生效日期用于设定作业的有效执行时间区间;上述出错重试参数用于设定任务报错后自动重跑次数;上述定时调度参数用于设定触发任务执行的时间。
A2、每一个作业根据上述作业周期生成多个任务,作业周期相同的任务存储在一个队列中,在每个队列中,每个周期内并发的任务随机先后排列,根据上述调度参数依次运行当前周期的所有上述任务。并提供重跑、补数等功能,数据分析人员可高效的进行数仓建设和运维,提高工作效率。
在本实施例中,在本地终端1,开发者在本地终端1部署数据同步模块下,选择数据源,创建标准表,基于创建好的标准表,在数据同步模块下配置作业周期和调度参数,在这个模块中可以选择“出错重试”“生效日期”“调度周期”“定时调度”“调度时间”“依赖上一周期”“调度依赖”等参数配置,以生成不同周期和类型的作业,便于调度系统对作业进行分层,确保上下游任务执行的优先级。配置完成后,形成一个作业,在教育云大数据端2,作业会按周期形成不同的任务,保存并提交运行,任务会以队列的形式先进先出依次运行,且按周期分组并发运行。
其中,通过数据集成,将异构数据源数据同步到大数据仓库以获取待处理源数据,对待处理源数据进行预处理包括首先进行数据过滤得到预处理标准表,再对预处理标准表进行数据开发(即进行数据清洗)得到符合预设要求的标准表,之后通过数据同步,基于标准表进行数据同步以将作业和依赖关系同步到下文提到的教育云服务器端。
通过数据建模,依照数仓建模分层的原则,能够基于标准表获取维度表模型、事实表模型以及指标表模型,基于维度表模型、事实表模型以及指标表模型获得汇总表模型,每个数据模型中包括多个表,每个数据模型对应一作业,每个作业都具有相应的作业类型和作业依赖。
在教育云大数据端2,开发者在教育云服务器端部署任务调度模块,提供RESTAPI接口创建大数据作业,按照以周期和作业类型分组并行、以队列形式依次调度运行的模式,判断队列中任务是否满足执行条件(定时时间、父任务执行状态),不满足则重新放入对应优先级队列末尾继续等待执行,满足则执行此次任务。具体的,根据调度引擎生成的具体任务实例和提交的调度参数信息,触发运行指定的Python脚本,执行相应任务,业务过程存在数据库相应的表中。
作业根据作业类型和作业周期生成不同类型的任务,并按任务类型分发到消息中间件的不同队列,其中,作业周期相同的任务存储在一个队列中,在每个队列中,每个周期内并发的任务随机先后排列,根据上述调度参数依次运行当前周期的所有上述任务。从而实现任务执行按照作业周期分组并发运行,同一队列的任务以队列形式先进先出依次运行。并且,通过控制队列并行度,在每个队列中,使每个周期内并发的任务随机先后排列。
整个推送流程包括三方:本地终端1(即调度任务的生成端)、教育云服务器端(即调度任务的发送端和运行端)、数据处理和分析人员(即运行维护端3)。
开发者在本地终端1上,选择数据源,并创建标准表,接着创建同步作业,在页面的调度配置模块中选择同步所需的调度参数(出错重试、生效日期、调度周期、调度依赖等),点击提交按钮,将数据同步作业给教育云服务器端,服务端存储作业调度信息,此流程完成同步作业的创建;
在数据开发页面手工写入Hive Sql并选择调度参数,提交数据开发作业;
在数据模型模块中,按照数仓建模流程,分别创建维度表作业、事实表作业、指标表作业、汇总表作业和集市表作业(将汇总hive表同步到关系型数据库),选择调度参数,提交后再教育云服务端得到不同类型和周期的作业。
在教育云服务端,根据作业类型和周期,自动生成对应任务(如按天作业每天生成一个天任务、小时作业每小时生成一个小时任务),并将不同的任务放入到不同层级的队列。
在调度任务查看端,可在运维监控页面监控上述作业和上述任务的运行状态数据,以分别进行作业管理和任务管理;上述作业管理包括查看、暂停以及删除上述作业;上述任务管理包括查看运行日志和批量重跑上述任务
由于目前大数据任务调度方法较为简单,有时候不能保证效率。本发明可以按作业周期(例如以小时或天为周期)的调度分开放消息中间件不同队列,可以程序控制并发消费的线程数从而控制并发消费的速率,可以通过设置调度参数指定作业有效时间、运行时间等。降低了CPU使用成本,提升数据分析人员体验。
目前大数据任务调度方法只是对于某个过程,无法贯通整个业务系统。本发明调度贯穿整个数据集成、数据模型、数据开放的业务过程,覆盖广,适用性强。
进一步的,上述步骤A2中,执行每一个上述任务前,判断其是否同时满足相应的上述调度参数和对应任务已完成,若是,执行上述任务;若否,将其重新放入相应上述队列末端继续等待执行;
上述对应任务为上述数据模型中与上述任务具有上述依赖关系的相应任务。
依赖关系:如果B作业执行的必须满足A作业执行成功这个条件,则A作业称为B作业的父作业,则产生B作业执行依赖于A作业的依赖关系,相同周期下产生相应的任务,则B任务依赖于A任务。依赖关系有两种产生方式,一种是手动在创建作业的调度模块参数里手动添加,另一种是解析Hive Sql语句自动添加。依赖作业的作用:任务执行前,需要判断此任务依赖关系,进而控制任务间的执行顺序,按正确流程处理数据,确保了数据的准确性。
具体的,调度程序会根据作业周期(如小时、天、周和月)和作业类型(如抽取作业、hive作业等),定时将在有效时间区间内的作业生成为指定的任务,并放入不同的执行队列,接着判断队列中任务是否满足执行条件(如定时时间、父任务执行状态),不满足则重新放入队列继续等待执行,满足则执行此次任务。
进一步的,上述教育云大数据任务调度方法还包括:
A3、监控上述作业和上述任务的运行状态数据,以分别进行作业管理和任务管理;
上述作业管理包括查看、暂停以及删除上述作业;
上述任务管理包括查看运行日志和批量重跑上述任务。
具体的,可记录所有运算操作的日志,包括info信息和error信息,方便开发人员、数据处理和分析人员查看场景运行日志,并进行报错原因和报错节点查找。
任务执行完成会记录任务日志,可以实时观察到任务的消费情况。可在执行任务的过程中解析任务日志,提取出抽取条数、错误类型等信息,便于同步作业量的统计和错误问题勘察。还可以将立即执行的任务日志通过websocket主动推送给前端页面,实现大数据任务与Web间的交互。
进一步的,上述步骤A1中,配置上述调度参数时,用户手动写入Hive Sql并选择调度参数,以在生成上述数据模型时,根据Hive语法树进行语法校验,并解析SQL中的输入输出表,根据与其他作业输入输出表的关联关系自动关联任务的上下游关系,进而生成作业的依赖关系。
具体的,对于数据同步任务队列,通过调用同步脚本,将数据源是mysql、mongo等数据库的数据集结合生成Python采集脚本,然后传送到HDFS。经过HDFS转化过得数据同步任务队列以Hive Sql的形式成为Hive Sql任务队列,通过调用Hive Sql脚本生成Hive Sql脚本,在数据库底层表中检查任务依赖,满足则解析队列里的参数,转化为大数据可执行的命令,重定向任务日志,并更新DB任务表,不满足则调整Hive Sql任务队列顺序,继续重复上述操作。
目前大数据任务调度方法处理任务间的依赖关系较为繁琐。本发明根据SQL解析的方式自动关联任务的上下游关系,减少不必要的手动依赖配置,从而减少数据分析人员的出错率。
进一步的,上述的任务调度方法的数据源支持五种程序类型,这五种程序类型的名称和作用如下:
sqoop是将关系型数据库(mysql,oracle等)抽取到大数据HDFS;
ongo是将mongodb抽取到大数据HDFS;hive是执行hive sql做数据清洗和数仓各层的计算;
spark是执行spark程序,数据清洗,计算,实时计算;
sqoopexport是把HDFS上的数据从HDFS导出到集市关系型数据库开发出去。
综上所述,本发明根据数仓设计原则,创建不同层级的作业,放入对应队列,并指定队列并行度,按层级执行队列任务,有效提高调度执行效率。
本发明根据Hive语法树进行语法校验,并解析SQL中的输入输出表,根据与其他作业输入输出表的关联关系自动判断依赖关系,减少因手工创建依赖关系造成任务出错。
本发明支持不同类型(Sqoop、Hive、Spark、Shell、Python等)大数据作业,适用范围广,以Python脚本驱动任务执行,便于拓展支持更多类型的作业。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (8)
1.一种教育云大数据任务调度方法,其特征在于,包括步骤:
A1、从多个数据源获取待处理源数据,对所述待处理源数据进行预处理依次得到源数据和相应的标准表,配置作业周期和调度参数,基于所述标准表创建多个数据模型,每个所述数据模型对应一个具有作业类型和依赖关系的作业;
A2、每一个作业根据所述作业周期生成多个任务,作业周期相同的任务存储在一个队列中,在每个队列中,每个周期内并发的任务随机先后排列,根据所述调度参数依次运行当前周期的所有所述任务;
所述步骤A2中,执行每一个所述任务前,判断其是否同时满足相应的所述调度参数和对应任务已完成,若是,执行所述任务;若否,将其重新放入相应所述队列末端继续等待执行;
所述对应任务为所述数据模型中与所述任务具有所述依赖关系的相应任务。
2.如权利要求1所述的教育云大数据任务调度方法,其特征在于,所述步骤A1中,多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型;
所述汇总表模型通过所述维度表模型、所述事实表模型以及所述指标表模型汇总处理得到。
3.如权利要求1所述的教育云大数据任务调度方法,其特征在于,所述教育云大数据任务调度方法还包括:
A3、监控所述作业和所述任务的运行状态数据,以分别进行作业管理和任务管理;
所述作业管理包括查看、暂停以及删除所述作业;
所述任务管理包括查看运行日志和批量重跑所述任务。
4.如权利要求1所述的教育云大数据任务调度方法,其特征在于,所述调度参数包括生效日期、出错重试参数、定时调度参数;
所述生效日期用于设定作业的有效执行时间区间;
所述出错重试参数用于设定任务报错后自动重跑次数;
所述定时调度参数用于设定触发任务执行的时间。
5.如权利要求1所述的教育云大数据任务调度方法,其特征在于,所述步骤A1中,配置所述调度参数时,用户手动写入Hive Sql并选择调度参数,以在生成所述数据模型时,根据Hive语法树进行语法校验,并解析SQL中的输入输出表,根据与其他作业输入输出表的关联关系自动关联任务的上下游关系,进而生成作业的依赖关系。
6.一种教育云大数据任务调度系统,其特征在于,包括:
本地终端,用于从多个数据源获取待处理源数据,对所述待处理源数据进行预处理依次得到源数据和相应的标准表,配置作业周期和调度参数,基于所述标准表创建多个数据模型,每个所述数据模型对应一个具有作业类型和依赖关系的作业;
所述教育云大数据端,连接所述本地终端,用于将每一个作业根据所述作业周期生成多个任务,作业周期相同的任务存储在一个队列中,在每个队列中,每个周期内并发的任务随机先后排列,根据所述调度参数依次运行当前周期的所有所述任务;
执行每一个所述任务前,判断其是否满足相应的所述调度参数,若是,执行所述任务;若否,将其重新放入相应所述队列末端继续等待执行。
7.如权利要求6所述的教育云大数据任务调度系统,其特征在于,多个所述数据模型包括维度表模型、事实表模型、指标表模型以及汇总表模型;
所述汇总表模型通过所述维度表模型、所述事实表模型以及所述指标表模型汇总处理得到。
8.如权利要求6所述的教育云大数据任务调度系统,其特征在于,所述教育云大数据任务调度系统还包括:
运行维护端,连接所述教育云大数据端,用于获取所述作业和所述任务的运行状态数据,以分别进行作业管理和任务管理;
所述作业管理包括查看、暂停以及删除所述作业;
所述任务管理包括查看运行日志和批量重跑所述任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910808356.0A CN110647387B (zh) | 2019-08-29 | 2019-08-29 | 一种教育云大数据任务调度方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910808356.0A CN110647387B (zh) | 2019-08-29 | 2019-08-29 | 一种教育云大数据任务调度方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647387A CN110647387A (zh) | 2020-01-03 |
CN110647387B true CN110647387B (zh) | 2022-04-01 |
Family
ID=68991189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910808356.0A Active CN110647387B (zh) | 2019-08-29 | 2019-08-29 | 一种教育云大数据任务调度方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647387B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581207B (zh) * | 2020-04-13 | 2023-12-29 | 深圳市云智融科技有限公司 | Azkaban项目的文件生成方法、装置及终端设备 |
CN111666324B (zh) * | 2020-05-18 | 2023-06-27 | 新浪技术(中国)有限公司 | 一种关系型数据库之间的etl调度方法及装置 |
CN113742036B (zh) * | 2020-05-28 | 2024-01-30 | 阿里巴巴集团控股有限公司 | 指标处理方法、装置及电子设备 |
CN111857984A (zh) * | 2020-06-01 | 2020-10-30 | 北京文思海辉金信软件有限公司 | 银行系统中的作业调用处理方法、装置和计算机设备 |
CN112000722A (zh) * | 2020-08-17 | 2020-11-27 | 杭州数云信息技术有限公司 | 一种实时异构源数据同步系统及同步方法 |
CN112365114A (zh) * | 2020-08-24 | 2021-02-12 | 南方电网数字电网研究院有限公司 | 一种基于运维管理平台的电力作业计划管理方法 |
CN112328705B (zh) * | 2020-11-03 | 2023-10-24 | 成都中科大旗软件股份有限公司 | 支持任意配置周期的任务调度方法 |
CN114168314B (zh) * | 2021-10-27 | 2022-09-20 | 厦门国际银行股份有限公司 | 一种多线程并发的数据指标批量处理方法、装置及存储介质 |
CN115525680A (zh) * | 2022-09-21 | 2022-12-27 | 京信数据科技有限公司 | 数据处理作业调度方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102981904A (zh) * | 2011-09-02 | 2013-03-20 | 阿里巴巴集团控股有限公司 | 一种任务调度方法及系统 |
CN107111799A (zh) * | 2014-12-16 | 2017-08-29 | 微软技术许可有限责任公司 | 作业调度和监测 |
CN107102894A (zh) * | 2017-04-07 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 任务调度方法、装置和系统 |
CN107301087A (zh) * | 2017-06-28 | 2017-10-27 | 郑州云海信息技术有限公司 | 一种多线程系统的性能提升方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710365B2 (en) * | 2014-04-25 | 2017-07-18 | Wal-Mart Stores, Inc. | System and method for generating synthetic data for software testing purposes |
-
2019
- 2019-08-29 CN CN201910808356.0A patent/CN110647387B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102981904A (zh) * | 2011-09-02 | 2013-03-20 | 阿里巴巴集团控股有限公司 | 一种任务调度方法及系统 |
CN107111799A (zh) * | 2014-12-16 | 2017-08-29 | 微软技术许可有限责任公司 | 作业调度和监测 |
CN107102894A (zh) * | 2017-04-07 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 任务调度方法、装置和系统 |
CN107301087A (zh) * | 2017-06-28 | 2017-10-27 | 郑州云海信息技术有限公司 | 一种多线程系统的性能提升方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110647387A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647387B (zh) | 一种教育云大数据任务调度方法与系统 | |
CN105719126B (zh) | 一种基于生命周期模型的互联网大数据任务调度的系统及方法 | |
CN111125444A (zh) | 大数据任务调度管理方法、装置、设备及存储介质 | |
CN109508238A (zh) | 一种用于深度学习的资源管理系统及方法 | |
CN109388537B (zh) | 运行信息跟踪方法、装置及计算机可读存储介质 | |
CN106708740B (zh) | 脚本测试方法及装置 | |
CN110908641B (zh) | 基于可视化的流计算平台、方法、设备和存储介质 | |
CN111984390A (zh) | 任务调度方法、装置、设备及存储介质 | |
US11385898B2 (en) | Task orchestration method for data processing, orchestrator, device and readable storage medium | |
CN115061809B (zh) | 基于安卓的rpa多任务调度方法及系统 | |
JP7009643B2 (ja) | 実行可能論理を用いて構造化データアイテムを処理するためのキーベースのロギング | |
CN109299180B (zh) | 一种数据仓库etl操作系统 | |
US20190377666A1 (en) | Optimized testing system | |
CN115374102A (zh) | 数据处理方法及系统 | |
CN113741883B (zh) | 一种rpa轻量级数据中台系统 | |
CN116009428A (zh) | 基于流式计算引擎的工业数据监控系统和方法、介质 | |
CN108427709B (zh) | 一种多源海量数据处理系统及方法 | |
CN115034512A (zh) | 一种流程优化方法、系统、设备及计算机可读存储介质 | |
CN114372105A (zh) | 基于etl工具实现系统自动化巡检方法 | |
CN113947468A (zh) | 一种数据管理方法及平台 | |
CN113672452A (zh) | 一种数据采集任务的运行监控方法、系统 | |
CN109471709B (zh) | 基于Apache Oozie框架处理大数据的流程任务的调度方法 | |
CN116627609A (zh) | 基于Hive批处理的调度方法及装置 | |
CN115658635A (zh) | 日志分析方法及装置 | |
CN112130849B (zh) | 代码自动生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |