CN114625517A - 一种dag图计算分布式大数据工作流任务调度平台 - Google Patents

一种dag图计算分布式大数据工作流任务调度平台 Download PDF

Info

Publication number
CN114625517A
CN114625517A CN202210385945.4A CN202210385945A CN114625517A CN 114625517 A CN114625517 A CN 114625517A CN 202210385945 A CN202210385945 A CN 202210385945A CN 114625517 A CN114625517 A CN 114625517A
Authority
CN
China
Prior art keywords
data
task scheduling
subsystem
scheduling
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210385945.4A
Other languages
English (en)
Inventor
王军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Saibo Yunrui Intelligent Technology Co ltd
Original Assignee
Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Saibo Yunrui Intelligent Technology Co ltd filed Critical Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority to CN202210385945.4A priority Critical patent/CN114625517A/zh
Publication of CN114625517A publication Critical patent/CN114625517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种DAG图计算分布式大数据工作流任务调度平台,包括:大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。

Description

一种DAG图计算分布式大数据工作流任务调度平台
技术领域
本发明涉及智能计算大数据调度领域,更具体地说,本发明涉及一种DAG图计算分布式大数据工作流任务调度平台。
背景技术
现阶段,大数据工作流任务调度一般通过数据筛选清洗等处理后按照前后队列进行顺序调度或进行集中调度,调度效率较低;如何进一步可视化交互处理仍需提高;如何将程序调用接口标准化以及合成工作流进行管控仍待改进;如何进行弹性容错实时工作流处理仍需提高;进行分布式并行资源调度与任务调度仍待完善;因此,有必要提出一种DAG图计算分布式大数据工作流任务调度平台,以至少部分地解决现有技术中存在的问题。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明;本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
为至少部分地解决上述问题,本发明提供了一种DAG图计算分布式大数据工作流任务调度平台,包括:
大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;
接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;
任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;
节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。
优选的,所述大数据工作流交互分系统包括:
DAG图作业拓扑子系统,用于通过DAG图描述处理作业拓扑;
数据处理知识挖掘子系统,用于通过大数据处理,挖掘提取大数据规律知识;
自动生成算法模型子系统,用于根据大数据规律知识通过自动生成多样化的可视化算法模型库。
优选的,所述接口标准任务管控分系统包括:
标准化接口子系统,用于通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;
工作流合成子系统,用于根据调用接口标准化,通过多种运算合成独立工作流;
算法库管理子系统,用于通过算法管理控制进行可视化算法模型库管控。
优选的,所述任务计算执行引擎分系统包括:
多源数据获取子系统,用于通过多源数据输入进行多种数据源数据获取,多种数据源包括:数据库输入数据源、多任务消息队列输入数据源和多终端逻辑输入数据源;
弹性容错处理子系统,用于通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;
数据传输输出子系统,用于通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
优选的,所述节点并行分布调度分系统包括:
提交驱动申请子系统,用于通过提交应用程序,调用资源调度器为驱动申请资源;
应用程序申请子系统,用于通过主节点申请,在驱动申请资源完成后,向主节点为应用程序申请资源;
执行分布调度子系统,用于通过分布式并行计算,进行分布式并行资源调度与任务调度。
优选的,所述自动生成算法模型子系统包括:
知识图谱创建单元,用于将大数据规律知识,按照节点关系规则创建知识图谱;
可视化模型库单元,用于将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
优选的,所述算法库管理子系统包括:
机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制。
优选的,所述多源数据获取子系统包括:
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
优选的,所述执行分布调度子系统包括:
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
集群分布计算单元,用于在高可用集群中多个DAG图计算节点上进行分布式的并行计算;在高可用集群中多个DAG图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个DAG图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为GPU并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的DAG图,所述DAG图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的DAG图中并行读取预设数量的待计算节点数据;其中,在从所述DAG图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
优选的,所述资源任务调度单元包括:
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
相比现有技术,本发明至少包括以下有益效果:
本发明一种DAG图计算分布式大数据工作流任务调度平台,通过大数据工作流交互,根据DAG图描述处理作业拓扑,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;通过高可用集群,进行弹性高吞吐的容错实时工作流处理;可以将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行进行分布式并行资源调度与任务调度;通过DAG图描述处理作业拓扑;数据处理知识挖掘通过大数据处理,挖掘提取大数据规律知识;可以自动生成算法模型;程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;使大数据工作流任务调度效率提高;进一步提高可视化交互处理水平;可以将程序调用接口标准化闭并改进合成工作流管控;能够进行弹性容错实时的工作流处理;可以完善分布式并行资源调度与任务调度;大幅提高资源调度与任务调度的效率和资源利用率。
本发明所述的一种DAG图计算分布式大数据工作流任务调度平台,本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的一种DAG图计算分布式大数据工作流任务调度平台结构图。
图2为本发明所述的一种DAG图计算分布式大数据工作流任务调度平台实施例2图。
图3为本发明所述的一种DAG图计算分布式大数据工作流任务调度平台实施例3图。
具体实施方式
下面结合附图以及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施;如图1-3所示,本发明提供了一种DAG图计算分布式大数据工作流任务调度平台,包括:
大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;
接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;
任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;
节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。
上述技术方案的工作原理为,一种DAG图计算分布式大数据工作流任务调度平台,包括:大数据工作流交互分系统与接口标准任务管控分系统进行数据传输,接口标准任务管控分系统并与任务计算执行引擎分系统进行数据传输,任务计算执行引擎分系统并行计算同时与节点并行分布调度分系统进行数据传输;大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。
上述技术方案的有益效果为,本发明一种DAG图计算分布式大数据工作流任务调度平台,通过大数据工作流交互,根据DAG图描述处理作业拓扑,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;通过高可用集群,进行弹性高吞吐的容错实时工作流处理;可以将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行进行分布式并行资源调度与任务调度;通过DAG图描述处理作业拓扑;数据处理知识挖掘通过大数据处理,挖掘提取大数据规律知识;可以自动生成算法模型;程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;使大数据工作流任务调度效率提高;进一步提高可视化交互处理水平;可以将程序调用接口标准化闭并改进合成工作流管控;能够进行弹性容错实时的工作流处理;可以完善分布式并行资源调度与任务调度;大幅提高资源调度与任务调度的效率和资源利用率。
在一个实施例中,所述大数据工作流交互分系统包括:
DAG图作业拓扑子系统,用于通过DAG图描述处理作业拓扑;
数据处理知识挖掘子系统,用于通过大数据处理,挖掘提取大数据规律知识;
自动生成算法模型子系统,用于根据大数据规律知识通过自动生成多样化的可视化算法模型库。
上述技术方案的工作原理为,大数据工作流交互分系统的DAG图作业拓扑子系统分别与数据处理知识挖掘子系统、自动生成算法模型子系统进行数据传输;通过DAG图描述处理作业拓扑;通过大数据处理,挖掘提取大数据规律知识;根据大数据规律知识通过自动生成多样化的可视化算法模型库。
上述技术方案的有益效果为,通过DAG图描述处理作业拓扑;通过大数据处理,挖掘提取大数据规律知识;根据大数据规律知识通过自动生成多样化的可视化算法模型库;通过大数据处理挖掘提取大数据规律知识,可以自动生成算法模型;
在一个实施例中,所述接口标准任务管控分系统包括:
标准化接口子系统,用于通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;
工作流合成子系统,用于根据调用接口标准化,通过多种运算合成独立工作流;
算法库管理子系统,用于通过算法管理控制进行可视化算法模型库管控。
上述技术方案的工作原理为,接口标准任务管控分系统的标准化接口子系统,通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;标准化接口子系统的标准化接口一端连接工作流合成子系统另一端连接算法库管理子系统;根据调用接口标准化,通过多种运算合成独立工作流;通过算法管理控制进行可视化算法模型库管控。
上述技术方案的有益效果为,通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化,提高应用程序调用的效率;根据调用接口标准化,通过多种运算合成独立工作流,增加工作流的处理速度;通过算法管理控制进行可视化算法模型库管控,提高算法模型库管控可视化水平。
在一个实施例中,所述任务计算执行引擎分系统包括:
多源数据获取子系统,用于通过多源数据输入进行多种数据源数据获取,多种数据源包括:数据库输入数据源、多任务消息队列输入数据源和多终端逻辑输入数据源;
弹性容错处理子系统,用于通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;
数据传输输出子系统,用于通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
上述技术方案的工作原理为,任务计算执行引擎分系统的多源数据获取子系统分别与数据库输入、多任务消息队列输入和多终端逻辑输入进行数据传输;多源数据获取子系统的数据源传输到弹性容错处理子系统,通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;弹性容错处理子系统传输数据到数据传输输出子系统输出数据,通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
上述技术方案的有益效果为,可以获取多源数据并分别与数据库输入、多任务消息队列输入和多终端逻辑输入进行多源数据相互传输,相互补充数据源;通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理,提高弹性容错处理能力;弹性容错处理子系统传输数据到数据传输输出子系统输出数据,通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面,提高实时可视化水平。
在一个实施例中,所述节点并行分布调度分系统包括:
提交驱动申请子系统,用于通过提交应用程序,调用资源调度器为驱动申请资源;
应用程序申请子系统,用于通过主节点申请,在驱动申请资源完成后,向主节点为应用程序申请资源;
执行分布调度子系统,用于通过分布式并行计算,进行分布式并行资源调度与任务调度。
上述技术方案的工作原理为,节点并行分布调度分系统通过提交驱动申请子系统与应用程序申请子系统进行数据传输,提交应用程序,调用资源调度器为驱动申请资源;应用程序申请子系统,向主节点为应用程序申请资源后传输指令数据到执行分布调度子系统;执行分布调度子系统通过分布式并行计算,进行分布式并行资源调度与任务调度。
上述技术方案的有益效果为,调用资源调度器为驱动申请资源,向主节点为应用程序申请资源后传输指令数据到执行分布调度子系统;使资源分配更加合理,避免资源过度占用;执行分布调度子系统通过分布式并行计算,进行分布式并行资源调度与任务调度,大幅提高资源调度与任务调度的效率和资源利用率。
在一个实施例中,所述自动生成算法模型子系统包括:
知识图谱创建单元,用于将大数据规律知识,按照节点关系规则创建知识图谱;
可视化模型库单元,用于将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
上述技术方案的工作原理为,自动生成算法模型子系统的知识图谱创建单元分别与数据处理知识挖掘子系统以及可视化模型库单元进行数据传输,将数据处理知识挖掘子系统传输的大数据规律知识,按照节点关系规则创建知识图谱;可视化模型库单元,将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
上述技术方案的有益效果为,将数据处理知识挖掘子系统传输的大数据规律知识,按照节点关系规则创建知识图谱;可视化模型库单元,将知识图谱创建单元知识图谱不同种类的数据可视化;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库;提高自动交互能力及丰富算法模型并能够提高可视化水平。
在一个实施例中,所述算法库管理子系统包括:
机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制;计算协同过滤管理控制信息协同预测值,计算公式如下:
Figure BDA0003593690280000081
其中,PCzmn为协同过滤管理控制信息协同预测值,Tpjmn为协同过滤管理控制共评价数量,i为第i个协同过滤管理控制共评价,Dmi为第i个协同过滤管理控制单评价预测值,Vmi为第i个协同过滤管理控制单评价实际值;如果协同过滤管理控制信息协同预测值越大,则协同过滤管理控制信息准确度越高;通过计算协同过滤管理控制信息协同预测值,提高协同过滤管理控制信息准确度。
上述技术方案的工作原理为,所述算法库管理子系统的机器学习算法管控单元和特征变换维度管控单元分别和管控构建评估调整单元进行数据传输,管控构建评估调整单元同时与保存加载模型管控单元和实用程序管理控制单元进行数据传输;机器学习算法管控单元对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;特征变换维度管控单元,对特征进行提取、变换、降维和选择管理控制;管控构建评估调整单元,对管控进行构建、评估和调整机器学习管控工具;保存加载模型管控单元,保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;实用程序管理控制单元,对实用程序线性统计及数据处理进行管理控制;计算协同过滤管理控制信息协同预测值,计算公式如下:
Figure BDA0003593690280000091
其中,PCzmn为协同过滤管理控制信息协同预测值,Tpjmn为协同过滤管理控制共评价数量,i为第i个协同过滤管理控制共评价,Dmi为第i个协同过滤管理控制单评价预测值,Vmi为第i个协同过滤管理控制单评价实际值;如果协同过滤管理控制信息协同预测值越大,则协同过滤管理控制信息准确度越高;通过计算协同过滤管理控制信息协同预测值,提高协同过滤管理控制信息准确度。
上述技术方案的有益效果为,所述算法库管理子系统包括:
机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制;计算协同过滤管理控制信息协同预测值,其中,PCzmn为协同过滤管理控制信息协同预测值,Tpjmn为协同过滤管理控制共评价数量,i为第i个协同过滤管理控制共评价,Dmi为第i个协同过滤管理控制单评价预测值,Vmi为第i个协同过滤管理控制单评价实际值;如果协同过滤管理控制信息协同预测值越大,则协同过滤管理控制信息准确度越高;通过计算协同过滤管理控制信息协同预测值,提高协同过滤管理控制信息准确度。
在一个实施例中,所述多源数据获取子系统包括:
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
上述技术方案的工作原理为,所述多源数据获取子系统包括:
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
上述技术方案的有益效果为,所述多源数据获取子系统包括:
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
在一个实施例中,所述执行分布调度子系统包括:
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
集群分布计算单元,用于在高可用集群中多个DAG图计算节点上进行分布式的并行计算;在高可用集群中多个DAG图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个DAG图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为GPU并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的DAG图,所述DAG图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的DAG图中并行读取预设数量的待计算节点数据;其中,在从所述DAG图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
上述技术方案的工作原理为,所述执行分布调度子系统包括:
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
集群分布计算单元,用于在高可用集群中多个DAG图计算节点上进行分布式的并行计算;在高可用集群中多个DAG图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个DAG图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为GPU并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的DAG图,所述DAG图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的DAG图中并行读取预设数量的待计算节点数据;其中,在从所述DAG图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
上述技术方案的有益效果为,所述执行分布调度子系统包括:
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
集群分布计算单元,用于在高可用集群中多个DAG图计算节点上进行分布式的并行计算;在高可用集群中多个DAG图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个DAG图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为GPU并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的DAG图,所述DAG图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的DAG图中并行读取预设数量的待计算节点数据;其中,在从所述DAG图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
在一个实施例中,所述资源任务调度单元包括:
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
上述技术方案的工作原理为,所述资源任务调度单元包括:
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
上述技术方案的有益效果为,所述资源任务调度单元包括:
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节与这里示出与描述的图例。

Claims (10)

1.一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,包括:
大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;
接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;
任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;
节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。
2.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述大数据工作流交互分系统包括:
DAG图作业拓扑子系统,用于通过DAG图描述处理作业拓扑;
数据处理知识挖掘子系统,用于通过大数据处理,挖掘提取大数据规律知识;
自动生成算法模型子系统,用于根据大数据规律知识通过自动生成多样化的可视化算法模型库。
3.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述接口标准任务管控分系统包括:
标准化接口子系统,用于通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;
工作流合成子系统,用于根据调用接口标准化,通过多种运算合成独立工作流;
算法库管理子系统,用于通过算法管理控制进行可视化算法模型库管控。
4.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述任务计算执行引擎分系统包括:
多源数据获取子系统,用于通过多源数据输入进行多种数据源数据获取,多种数据源包括:数据库输入数据源、多任务消息队列输入数据源和多终端逻辑输入数据源;
弹性容错处理子系统,用于通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;
数据传输输出子系统,用于通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
5.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述节点并行分布调度分系统包括:
提交驱动申请子系统,用于通过提交应用程序,调用资源调度器为驱动申请资源;
应用程序申请子系统,用于通过主节点申请,在驱动申请资源完成后,向主节点为应用程序申请资源;
执行分布调度子系统,用于通过分布式并行计算,进行分布式并行资源调度与任务调度。
6.根据权利要求2所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述自动生成算法模型子系统包括:
知识图谱创建单元,用于将大数据规律知识,按照节点关系规则创建知识图谱;
可视化模型库单元,用于将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
7.根据权利要求3所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述算法库管理子系统包括:
机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制。
8.根据权利要求4所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述多源数据获取子系统包括:
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
9.根据权利要求5所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述执行分布调度子系统包括:
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
集群分布计算单元,用于在高可用集群中多个DAG图计算节点上进行分布式的并行计算;在高可用集群中多个DAG图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个DAG图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为GPU并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的DAG图,所述DAG图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的DAG图中并行读取预设数量的待计算节点数据;其中,在从所述DAG图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
10.根据权利要求9所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述资源任务调度单元包括:
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
CN202210385945.4A 2022-04-13 2022-04-13 一种dag图计算分布式大数据工作流任务调度平台 Pending CN114625517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210385945.4A CN114625517A (zh) 2022-04-13 2022-04-13 一种dag图计算分布式大数据工作流任务调度平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210385945.4A CN114625517A (zh) 2022-04-13 2022-04-13 一种dag图计算分布式大数据工作流任务调度平台

Publications (1)

Publication Number Publication Date
CN114625517A true CN114625517A (zh) 2022-06-14

Family

ID=81906643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210385945.4A Pending CN114625517A (zh) 2022-04-13 2022-04-13 一种dag图计算分布式大数据工作流任务调度平台

Country Status (1)

Country Link
CN (1) CN114625517A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115454595A (zh) * 2022-09-01 2022-12-09 广州南方智能技术有限公司 一种算法程序的自动化调度系统、方法及存储介质
WO2023241000A1 (zh) * 2022-06-15 2023-12-21 苏州元脑智能科技有限公司 一种dag任务调度方法、装置、设备及存储介质
CN117610320A (zh) * 2024-01-23 2024-02-27 中国人民解放军国防科技大学 有向无环图工作流引擎循环调度方法、装置和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023241000A1 (zh) * 2022-06-15 2023-12-21 苏州元脑智能科技有限公司 一种dag任务调度方法、装置、设备及存储介质
CN115454595A (zh) * 2022-09-01 2022-12-09 广州南方智能技术有限公司 一种算法程序的自动化调度系统、方法及存储介质
CN117610320A (zh) * 2024-01-23 2024-02-27 中国人民解放军国防科技大学 有向无环图工作流引擎循环调度方法、装置和设备
CN117610320B (zh) * 2024-01-23 2024-04-02 中国人民解放军国防科技大学 有向无环图工作流引擎循环调度方法、装置和设备

Similar Documents

Publication Publication Date Title
CN114625517A (zh) 一种dag图计算分布式大数据工作流任务调度平台
CN104317658B (zh) 一种基于MapReduce的负载自适应任务调度方法
Cai et al. A delay-based dynamic scheduling algorithm for bag-of-task workflows with stochastic task execution times in clouds
Zhu et al. Scheduling stochastic multi-stage jobs to elastic hybrid cloud resources
CN102193832B (zh) 云端计算资源排程方法与应用的系统
Timpe Solving planning and scheduling problems with combined integer and constraint programming
CN108694090A (zh) 一种面向分布式机器学习的云计算资源调度方法
CN112416585B (zh) 面向深度学习的gpu资源管理与智能化调度方法
Damij et al. An approach to optimizing Kanban board workflow and shortening the project management plan
CN111984385A (zh) 基于装饰bim模型的任务调度方法和任务调度装置
US20080221857A1 (en) Method and apparatus for simulating the workload of a compute farm
CN114327829A (zh) 一种多核实时任务调度分析与仿真系统及方法
CN112488542A (zh) 基于机器学习的智慧工地智能物料调度方法及系统
Bessai et al. Resources allocation and scheduling approaches for business process applications in Cloud contexts
El-Kholany et al. Problem decomposition and multi-shot ASP solving for job-shop scheduling
Atli Tabu search and an exact algorithm for the solutions of resource-constrained project scheduling problems
Dziurzanski et al. Implementing digital twins of smart factories with interval algebra
CN115827258B (zh) 分布式任务运行方法、主控服务器、仿真计算节点及系统
Lin et al. A practical scheduling method based on workflow management technology
CN115033374A (zh) 一种多核可编程控制器的任务到线程匹配方法
Yau et al. New solution approaches to the general single-machine earliness-tardiness problem
Klanke et al. Short-term scheduling of make-and-pack processes in the consumer goods industry using discrete-time and precedence-based MILP models
JP2823520B2 (ja) リアルタイムアプリケーションタスクスケジューリング及び処理システム
CN113238841A (zh) 一种基于云计算技术的任务调度方法
Fang et al. Meta-process: a noval approach for decentralized execution of process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination