CN106484520A - 一种基于数据血缘关系的智能调度方法及系统 - Google Patents

一种基于数据血缘关系的智能调度方法及系统 Download PDF

Info

Publication number
CN106484520A
CN106484520A CN201610902445.8A CN201610902445A CN106484520A CN 106484520 A CN106484520 A CN 106484520A CN 201610902445 A CN201610902445 A CN 201610902445A CN 106484520 A CN106484520 A CN 106484520A
Authority
CN
China
Prior art keywords
task
data
hive
blood relationship
bit stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610902445.8A
Other languages
English (en)
Inventor
李冰
何良均
温宗臣
范卫卫
冯森林
张书凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd filed Critical BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority to CN201610902445.8A priority Critical patent/CN106484520A/zh
Publication of CN106484520A publication Critical patent/CN106484520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于数据血缘关系的智能调度方法,其能够正确地配置job,保障数据的正确性。该方法包括以下步骤:(1)在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库;(2)调度服务启动,根据任务信息和审计数据,智能调度任务,调整任务优先级;(3)监控审计服务启动,监控线上任务信息,并写入数据库。还有基于数据血缘关系的智能调度系统。

Description

一种基于数据血缘关系的智能调度方法及系统
技术领域
本发明涉及大数据处理的技术领域,尤其涉及一种基于数据血缘关系的智能调度方法,以及基于数据血缘关系的智能调度系统。
背景技术
现有的一种调度系统是LinkedIn开源的Azkaban,用户可以创建一个包括多个Job(任务)的workflow(工作流程),各个job之间的依赖关系由job文件中的dependency属性来配置,workflow打包上传到web service中,并配置相应的调度触发时间和周期,executorservice模块解析Job的依赖关系并执行相应的工作流。
现有的技术方案只能根据用户预先配置好的上下游关系,来确定job之间的依赖关系,且依赖关系一旦配置,不可在web界面修改,只能通过重新打包上传来修复。而且在大数据的应用场景中,数据的上下游都是不同的组产出的数据,在使用的过程中,难免会碰到不熟悉的数据,导致把job的依赖关系配错,继而导致数据结果的错误,造成不可预计的损失。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于数据血缘关系的智能调度方法,其能够正确地配置job,保障数据的正确性。
本发明的技术方案是:这种基于数据血缘关系的智能调度方法,该方法包括以下步骤:
(1)在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库;
(2)调度服务启动,根据任务信息和审计数据,智能调度任务,调整任务优先级;
(3)监控审计服务启动,监控线上任务信息,并写入数据库。
本发明通过在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库,根据任务信息和审计数据,智能调度任务,调整任务优先级,从而正确地配置job,保障数据的正确性。
还提供了一种基于数据血缘关系的智能调度系统,该系统包括:
用户配置任务模块,其配置来在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库;
用户任务执行模块,其配置来调度服务启动,根据任务信息和审计数据,智能调度任务,调整任务优先级;
任务监控审计模块,其配置来监控审计服务启动,监控线上任务信息,并写入数据库。
附图说明
图1所示为根据本发明的基于数据血缘关系的智能调度方法的流程图。
具体实施方式
如图1所示,这种基于数据血缘关系的智能调度方法,该方法包括以下步骤:
(1)在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库;
(2)调度服务启动,根据任务信息和审计数据,智能调度任务,调整任务优先级;
(3)监控审计服务启动,监控线上任务信息,并写入数据库。
本发明通过在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库,根据任务信息和审计数据,智能调度任务,调整任务优先级,从而正确地配置job,保障数据的正确性。
另外,所述步骤(1)中,任务是hive类型的任务,系统根据用户填写的sql,利用hive的词法解析、语法解析类遍历hive的抽象语法树,获取sql的输入表inputtable和输出表outputtable;或者直接利用hive自带的org.apache.hadoop.hive.ql.tools.LineageInfo工具来获取结果,根据hive元数据库,获得sql的inputpath和outputpath;根据inputpath和inputtable在平台的数据库中查询到相应的上游任务,并把任务的相应信息,包括inputpath和outputpath信息持久化到数据库中。
另外,所述步骤(1)中,任务是用户把job打包成jar来运行的,在任务执行过程中,根据任务生成的jobid,在hadoop的资源管理页面解析出任务的inputpath和outputpath,并持久化到数据库中。
另外,所述步骤(2)中,用户在平台配置好任务和调度周期之后,系统按预设规则调度执行任务;根据所述步骤(3)的任务的审计信息和当前集群的计算资源忙闲状态,智能调整任务的优先级,以保障重要数据的及时产出。
另外,所述步骤(3)中,系统对线上的所有任务的上下游关系以及数据的访问频次进行审计,根据下游依赖关系及数据访问频次,确定任务的优先级,对特殊的任务支持白名单/黑名单配置。
另外,为了让用户更好的了解当前的数据信息,根据智能分析和线上监控审计步骤,该方法还包括:把数据仓库的元数据展示在web上,并对各个表的依赖关系用树状图来展示。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于数据血缘关系的智能调度系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统,该系统包括:
用户配置任务模块,其配置来在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库;
用户任务执行模块,其配置来调度服务启动,根据任务信息和审计数据,智能调度任务,调整任务优先级;
任务监控审计模块,其配置来监控审计服务启动,监控线上任务信息,并写入数据库。
另外,所述用户配置任务模块中,任务是hive类型的任务,系统根据用户填写的sql,利用hive的词法解析、语法解析类遍历hive的抽象语法树,获取sql的输入表inputtable和输出表outputtable;或者直接利用hive自带的org.apache.hadoop.hive.ql.tools.LineageInfo工具来获取结果,根据hive元数据库,获得sql的inputpath和outputpath;根据inputpath和inputtable在平台的数据库中查询到相应的上游任务,并把任务的相应信息,包括inputpath和outputpath信息持久化到数据库中。
另外,所述用户配置任务模块中,任务是用户把job打包成jar来运行的,在任务执行过程中,根据任务生成的jobid,在hadoop的资源管理页面解析出任务的inputpath和outputpath,并持久化到数据库中。
另外,该系统还包括元数据平台,其配置来把数据仓库的元数据展示在web上,并对各个表的依赖关系用树状图来展示。
本发明的有益效果如下:
1.可以智能识别任务的依赖关系
2.自动调整任务的优先级
3.元数据可以结构化展示上下游关系
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (10)

1.一种基于数据血缘关系的智能调度方法,其特征在于:该方法包括以下步骤:
(1)在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库;
(2)调度服务启动,根据任务信息和审计数据,智能调度任务,调整任务优先级;
(3)监控审计服务启动,监控线上任务信息,并写入数据库。
2.根据权利要求1所述的基于数据血缘关系的智能调度方法,其特征在于:所述步骤(1)中,任务是hive类型的任务,系统根据用户填写的sql,利用hive的词法解析、语法解析类遍历hive的抽象语法树,获取sql的输入表inputtable和输出表outputtable;或者直接利用hive自带的org.apache.hadoop.hive.ql.tools.LineageInfo工具来获取结果,根据hive元数据库,获得sql的inputpath和outputpath;根据inputpath和inputtable在平台的数据库中查询到相应的上游任务,并把任务的相应信息,包括inputpath和outputpath信息持久化到数据库中。
3.根据权利要求1所述的基于数据血缘关系的智能调度方法,其特征在于:所述步骤(1)中,任务是用户把job打包成jar来运行的,在任务执行过程中,根据任务生成的jobid,在hadoop的资源管理页面解析出任务的inputpath和outputpath,并持久化到数据库中。
4.根据权利要求1所述的基于数据血缘关系的智能调度方法,其特征在于:所述步骤(2)中,用户在平台配置好任务和调度周期之后,系统按预设规则调度执行任务;根据所述步骤(3)的任务的审计信息和当前集群的计算资源忙闲状态,智能调整任务的优先级,以保障重要数据的及时产出。
5.根据权利要求1所述的基于数据血缘关系的智能调度方法,其特征在于:所述步骤(3)中,系统对线上的所有任务的上下游关系以及数据的访问频次进行审计,根据下游依赖关系及数据访问频次,确定任务的优先级,对特殊的任务支持白名单/黑名单配置。
6.根据权利要求1所述的基于数据血缘关系的智能调度方法,其特征在于:该方法还包括:把数据仓库的元数据展示在web上,并对各个表的依赖关系用树状图来展示。
7.一种基于数据血缘关系的智能调度系统,其特征在于:该系统包括:
用户配置任务模块,其配置来在系统web界面配置相关任务,系统自动匹配上游依赖信息,并把任务信息写入数据库;
用户任务执行模块,其配置来调度服务启动,根据任务信息和审计数据,智能调度任务,调整任务优先级;
任务监控审计模块,其配置来监控审计服务启动,监控线上任务信息,并写入数据库。
8.根据权利要求7所述的基于数据血缘关系的智能调度系统,其特征在于:所述用户配置任务模块中,任务是hive类型的任务,系统根据用户填写的sql,利用hive的词法解析、语法解析类遍历hive的抽象语法树,获取sql的输入表inputtable和输出表outputtable;或者直接利用hive自带的org.apache.hadoop.hive.ql.tools.LineageInfo工具来获取结果,根据hive元数据库,获得sql的inputpath和outputpath;根据inputpath和inputtable在平台的数据库中查询到相应的上游任务,并把任务的相应信息,包括inputpath和outputpath信息持久化到数据库中。
9.根据权利要求7所述的基于数据血缘关系的智能调度系统,其特征在于:所述用户配置任务模块中,任务是用户把job打包成jar来运行的,在任务执行过程中,根据任务生成的jobid,在hadoop的资源管理页面解析出任务的inputpath和outputpath,并持久化到数据库中。
10.根据权利要求7所述的基于数据血缘关系的智能调度系统,其特征在于:该系统还包括元数据平台,其配置来把数据仓库的元数据展示在web上,并对各个表的依赖关系用树状图来展示。
CN201610902445.8A 2016-10-17 2016-10-17 一种基于数据血缘关系的智能调度方法及系统 Pending CN106484520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610902445.8A CN106484520A (zh) 2016-10-17 2016-10-17 一种基于数据血缘关系的智能调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610902445.8A CN106484520A (zh) 2016-10-17 2016-10-17 一种基于数据血缘关系的智能调度方法及系统

Publications (1)

Publication Number Publication Date
CN106484520A true CN106484520A (zh) 2017-03-08

Family

ID=58270147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610902445.8A Pending CN106484520A (zh) 2016-10-17 2016-10-17 一种基于数据血缘关系的智能调度方法及系统

Country Status (1)

Country Link
CN (1) CN106484520A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549577A (zh) * 2018-04-23 2018-09-18 昆山融捷信息技术有限公司 智能调度业务数据处理方法
CN108564281A (zh) * 2018-04-13 2018-09-21 浙江传媒学院 基于结构化的外包工作任务调度系统的实现方法
CN109325078A (zh) * 2018-09-18 2019-02-12 拉扎斯网络科技(上海)有限公司 基于结构数据的数据血缘确定方法及装置
CN110019384A (zh) * 2017-08-15 2019-07-16 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置
CN110221818A (zh) * 2019-04-19 2019-09-10 新智云数据服务有限公司 数据关系的处理方法及系统
CN110555035A (zh) * 2018-05-31 2019-12-10 阿里巴巴集团控股有限公司 一种对查询语句进行优化的方法、装置
CN110764747A (zh) * 2019-10-22 2020-02-07 南方电网科学研究院有限责任公司 基于Airflow的数据计算调度方法
CN111581207A (zh) * 2020-04-13 2020-08-25 深圳市云智融科技有限公司 Azkaban项目的文件生成方法、装置及终端设备
CN113515546A (zh) * 2021-07-12 2021-10-19 中国工商银行股份有限公司 数据处理方法、装置和服务器
CN113535352A (zh) * 2021-06-28 2021-10-22 四川新网银行股份有限公司 一种基于调度配置生成血缘关系实现自动跑批的测试方法
CN114489679A (zh) * 2022-02-22 2022-05-13 北京科杰科技有限公司 一种hadoop大数据任务DAG依赖智能分析系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515290A (zh) * 2009-03-25 2009-08-26 中国工商银行股份有限公司 具有双向互动特征的元数据管理系统及其实现方法
CN102508639A (zh) * 2011-10-10 2012-06-20 北京邮电大学 一种基于卫星遥感数据特征的分布式并行处理方法
CN104077403A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 用于Alcedo数据库的计划任务的处理方法和处理装置
CN104735095A (zh) * 2013-12-18 2015-06-24 中国移动通信集团四川有限公司 一种云计算平台作业调度方法及装置
CN104915456A (zh) * 2015-07-03 2015-09-16 宁夏隆基宁光仪表有限公司 一种基于数据分析系统下的海量用电数据挖掘方法
CN104965754A (zh) * 2015-03-31 2015-10-07 腾讯科技(深圳)有限公司 任务调度方法及任务调度装置
CN105049795A (zh) * 2015-07-07 2015-11-11 合肥指南针电子科技有限责任公司 一种基于数据关联存储的监控系统
CN105430074A (zh) * 2015-11-13 2016-03-23 厦门大学 基于数据依赖性和访问量云数据分配存储优化方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515290A (zh) * 2009-03-25 2009-08-26 中国工商银行股份有限公司 具有双向互动特征的元数据管理系统及其实现方法
CN102508639A (zh) * 2011-10-10 2012-06-20 北京邮电大学 一种基于卫星遥感数据特征的分布式并行处理方法
CN104735095A (zh) * 2013-12-18 2015-06-24 中国移动通信集团四川有限公司 一种云计算平台作业调度方法及装置
CN104077403A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 用于Alcedo数据库的计划任务的处理方法和处理装置
CN104965754A (zh) * 2015-03-31 2015-10-07 腾讯科技(深圳)有限公司 任务调度方法及任务调度装置
CN104915456A (zh) * 2015-07-03 2015-09-16 宁夏隆基宁光仪表有限公司 一种基于数据分析系统下的海量用电数据挖掘方法
CN105049795A (zh) * 2015-07-07 2015-11-11 合肥指南针电子科技有限责任公司 一种基于数据关联存储的监控系统
CN105430074A (zh) * 2015-11-13 2016-03-23 厦门大学 基于数据依赖性和访问量云数据分配存储优化方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019384A (zh) * 2017-08-15 2019-07-16 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置
CN110019384B (zh) * 2017-08-15 2023-06-27 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置
CN108564281B (zh) * 2018-04-13 2022-04-05 浙江传媒学院 基于结构化的外包工作任务调度系统的实现方法
CN108564281A (zh) * 2018-04-13 2018-09-21 浙江传媒学院 基于结构化的外包工作任务调度系统的实现方法
CN108549577A (zh) * 2018-04-23 2018-09-18 昆山融捷信息技术有限公司 智能调度业务数据处理方法
CN110555035A (zh) * 2018-05-31 2019-12-10 阿里巴巴集团控股有限公司 一种对查询语句进行优化的方法、装置
CN109325078A (zh) * 2018-09-18 2019-02-12 拉扎斯网络科技(上海)有限公司 基于结构数据的数据血缘确定方法及装置
CN110221818A (zh) * 2019-04-19 2019-09-10 新智云数据服务有限公司 数据关系的处理方法及系统
CN110764747A (zh) * 2019-10-22 2020-02-07 南方电网科学研究院有限责任公司 基于Airflow的数据计算调度方法
CN111581207A (zh) * 2020-04-13 2020-08-25 深圳市云智融科技有限公司 Azkaban项目的文件生成方法、装置及终端设备
CN111581207B (zh) * 2020-04-13 2023-12-29 深圳市云智融科技有限公司 Azkaban项目的文件生成方法、装置及终端设备
CN113535352A (zh) * 2021-06-28 2021-10-22 四川新网银行股份有限公司 一种基于调度配置生成血缘关系实现自动跑批的测试方法
CN113535352B (zh) * 2021-06-28 2023-06-06 四川新网银行股份有限公司 一种基于调度配置生成血缘关系实现自动跑批的测试方法
CN113515546A (zh) * 2021-07-12 2021-10-19 中国工商银行股份有限公司 数据处理方法、装置和服务器
CN114489679A (zh) * 2022-02-22 2022-05-13 北京科杰科技有限公司 一种hadoop大数据任务DAG依赖智能分析系统及方法

Similar Documents

Publication Publication Date Title
CN106484520A (zh) 一种基于数据血缘关系的智能调度方法及系统
JP6523354B2 (ja) 改善されたインターフェースを備えるステートマシンビルダー及び状態非依存イベントの処理
US11216302B2 (en) Modifying task dependencies at worker nodes using precompiled libraries
US11947438B2 (en) Operation and maintenance system and method
US10878379B2 (en) Processing events generated by internet of things (IoT)
US20190340518A1 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
US20180307571A1 (en) Recovery strategy for a stream processing system
CN106980669B (zh) 一种数据的存储、获取方法及装置
CN104133772B (zh) 一种自动生成测试数据的方法
US20150006437A1 (en) Automating natural-language interactions between an expert system and a user
US9317814B2 (en) Automatically generating an ontology and axioms from a business-process model
WO2018126964A1 (zh) 任务执行方法、装置和服务器
CN108037919A (zh) 一种基于web的可视化大数据工作流配置方法及系统
US20210406281A1 (en) Data configuration query method and device
CN109840298A (zh) 大规模网络数据的多信息来源采集方法和系统
CN107506190A (zh) 基于Spring框架的XML文件修改方法及装置
CN110889272A (zh) 数据处理方法、装置、设备及存储介质
CN112000657A (zh) 数据管理方法、装置、服务器及存储介质
CN104462157B (zh) 一种文本数据二次结构化的方法及装置
CN110928941B (zh) 一种数据分片抽取方法及装置
CN108334524A (zh) 一种storm日志错误分析方法及装置
CN106502842A (zh) 数据恢复方法及系统
CN110489247A (zh) 一种数据实时集成方法及装置
WO2016012903A1 (en) A system for querying heterogeneous data sources and a method thereof
CN111984744B (zh) 基于远程通信和人工智能的信息处理方法及云端服务平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308

RJ01 Rejection of invention patent application after publication