CN117349026A - 一种用于aigc模型训练的分布式算力调度系统 - Google Patents

一种用于aigc模型训练的分布式算力调度系统 Download PDF

Info

Publication number
CN117349026A
CN117349026A CN202311638860.3A CN202311638860A CN117349026A CN 117349026 A CN117349026 A CN 117349026A CN 202311638860 A CN202311638860 A CN 202311638860A CN 117349026 A CN117349026 A CN 117349026A
Authority
CN
China
Prior art keywords
task
unit
resource
node
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311638860.3A
Other languages
English (en)
Other versions
CN117349026B (zh
Inventor
张卫平
丁洋
王丹
邵胜博
李显阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Digital Group Co Ltd
Original Assignee
Global Digital Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Digital Group Co Ltd filed Critical Global Digital Group Co Ltd
Priority to CN202311638860.3A priority Critical patent/CN117349026B/zh
Publication of CN117349026A publication Critical patent/CN117349026A/zh
Application granted granted Critical
Publication of CN117349026B publication Critical patent/CN117349026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5011Pool
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5019Workload prediction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于AIGC模型训练的分布式算力调度系统,涉及电数字数据处理领域,包括资源注册模块、任务调度模块、智能决策模块和资源调配模块,所述资源注册模块用于记录所有计算资源的状态信息,所述任务调度模块用于完成对训练任务的初始分配,所述智能决策模块用于对训练过程进行智能分析,所述资源调配模块根据分析结果对计算资源进行动态调配;本系统能够对用于模型训练的算力资源进行动态调整,提高算力以及模型训练的效率。

Description

一种用于AIGC模型训练的分布式算力调度系统
技术领域
本发明涉及电数字数据处理领域,具体涉及一种用于AIGC模型训练的分布式算力调度系统。
背景技术
随着人工智能的发展,模型训练的需求也越来越大,而模型训练需要算力来执行,常见的方式是给算力资源设定固定的规则来执行训练任务,但这种方式会导致无法发挥出算力资源的最大潜力,从而降低模型训练的效率,因此,需要一种系统在训练过程中对算力资源进行调度,提高算力资源的有效利用率。
背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。
现在已经开发出了很多算力调度系统,经过大量的检索与参考,发现现有的调度系统有如公开号为CN116483546A所公开的系统,这些系统方法一般包括:获取各个训练任务的调度状态,调度状态包括调度成功以及调度未成功;对于调度状态为调度未成功的第一训练任务,获取目标集群资源的空闲资源量以及第一训练任务的最小资源需求量;若空闲资源量小于最小资源需求量,从调度状态为调度成功的第二训练任务中筛选出可分配资源的训练任务,以获取可分配资源;基于可分配资源以及所述空闲资源量,对第一训练任务进行任务调度。但该系统是通过获取任务、调度算力的方式来进行训练,但这种方式未考虑到整个训练任务的整体性,无法充分发挥算力资源的利用率。
发明内容
本发明的目的在于,针对所存在的不足,提出了一种用于AIGC模型训练的分布式算力调度系统。
本发明采用如下技术方案:
一种用于AIGC模型训练的分布式算力调度系统,包括资源注册模块、任务调度模块、智能决策模块和资源调配模块;
所述资源注册模块用于记录所有计算资源的状态信息,所述任务调度模块用于完成对训练任务的初始分配,所述智能决策模块用于对训练过程进行智能分析,所述资源调配模块根据分析结果对计算资源进行动态调配;
所述资源注册模块包括资源管理单元、状态监测单元和信息更新单元,所述资源管理单元用于负责管理注册到系统中的所有计算节点信息,所述状态监测单元用于实时监控各计算节点的状态,所述信息更新单元负责接收来自计算节点的状态更新;
所述任务调度模块包括任务接收单元和任务分配单元,所述任务接收单元用于接收用户提交的AIGC模型训练任务,所述任务分配单元用于对任务需求和资源状况进行分析,将任务分配到具体的节点执行;
所述智能决策模块包括预测模型单元和决策算法单元,所述预测模型单元用于对模型的资源使用趋势进行预测,所述决策算法单元用于生成优化的资源调度决策;
所述资源调配模块包括资源调度单元、资源监控单元和故障处理单元,所述资源调度单元用于执行智能决策模块给出的决策,进行资源的动态分配和调整,所述资源监控单元用于对资源调配的实施情况进行监控,所述故障处理单元用于对发现的节点故障进行响应;
进一步的,所述任务接收单元包括模型任务处理器和任务拆解处理器,所述模型任务处理器用于提供接口接收模型任务数据,所述任务拆解处理器用于将接收的模型任务进行拆解;
所述任务拆解处理器对识别出基础任务后根据下式计算出任务的锚定时间
其中,为前置任务的最大锚定时间,/>为目标任务的计算量,/>为标准处理速度;
进一步的,所述任务分配单元包括任务节点匹配处理器和任务转移处理器,所述任务节点匹配处理器用于将任务与节点进行匹配,所述任务转移处理器根据匹配结果将任务信息发送给对应的节点;
所述节点匹配处理器为每个节点设置一个分配池,并根据下式计算出每个节点的分配指数:
其中,n为分配池中已有的任务的数量,表示分配池中第i个任务的锚定时间,为标准处理能力,/>为标准周期时间,Ab为节点的处理能力参数;
所述节点匹配处理器将按序获取的任务添加进分配指数最小的分配池中;
进一步的,所述预测模型单元包括数据源接收寄存器和趋势预测处理器,所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据,所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间Lea;
进一步的,所述决策算法单元包括预测结果寄存器和优化决策处理器,所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的和Lea数据,所述优化决策处理器根据所述预测结果对未完成的任务进行调配。
本发明所取得的有益效果是:
本系统通过拆解任务、分配任务、训练预测和任务调配四个过程来实现在训练过程中优化算力资源,拆解任务和分配任务基于整个训练模型将任务分配给对应的算力节点,定下了一个算力应用的基调,保证了算力有效利用率的下限,而训练预测和任务调配则基于实际训练过程将任务在节点之间调配,提高了算力有效利用率的上限。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明整体结构框架示意图;
图2为本发明资源管理单元构成示意图;
图3为本发明任务接收单元构成示意图;
图4为本发明任务分配单元构成示意图;
图5为本发明决策算法单元构成示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一:本实施例提供了一种用于AIGC模型训练的分布式算力调度系统,结合图1,包括资源注册模块、任务调度模块、智能决策模块和资源调配模块;
所述资源注册模块用于记录所有计算资源的状态信息,所述任务调度模块用于完成对训练任务的初始分配,所述智能决策模块用于对训练过程进行智能分析,所述资源调配模块根据分析结果对计算资源进行动态调配;
所述资源注册模块包括资源管理单元、状态监测单元和信息更新单元,所述资源管理单元用于负责管理注册到系统中的所有计算节点信息,所述状态监测单元用于实时监控各计算节点的状态,所述信息更新单元负责接收来自计算节点的状态更新;
所述任务调度模块包括任务接收单元和任务分配单元,所述任务接收单元用于接收用户提交的AIGC模型训练任务,所述任务分配单元用于对任务需求和资源状况进行分析,将任务分配到具体的节点执行;
所述智能决策模块包括预测模型单元和决策算法单元,所述预测模型单元用于对模型的资源使用趋势进行预测,所述决策算法单元用于生成优化的资源调度决策;
所述资源调配模块包括资源调度单元、资源监控单元和故障处理单元,所述资源调度单元用于执行智能决策模块给出的决策,进行资源的动态分配和调整,所述资源监控单元用于对资源调配的实施情况进行监控,所述故障处理单元用于对发现的节点故障进行响应;
所述任务接收单元包括模型任务处理器和任务拆解处理器,所述模型任务处理器用于提供接口接收模型任务数据,所述任务拆解处理器用于将接收的模型任务进行拆解;
所述任务拆解处理器对识别出基础任务后根据下式计算出任务的锚定时间
其中,为前置任务的最大锚定时间,/>为目标任务的计算量,/>为标准处理速度;
所述任务分配单元包括任务节点匹配处理器和任务转移处理器,所述任务节点匹配处理器用于将任务与节点进行匹配,所述任务转移处理器根据匹配结果将任务信息发送给对应的节点;
所述节点匹配处理器为每个节点设置一个分配池,并根据下式计算出每个节点的分配指数:
其中,n为分配池中已有的任务的数量,表示分配池中第i个任务的锚定时间,为标准处理能力,/>为标准周期时间,Ab为节点的处理能力参数;
所述节点匹配处理器将按序获取的任务添加进分配指数最小的分配池中;
所述预测模型单元包括数据源接收寄存器和趋势预测处理器,所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据,所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间Lea;
所述决策算法单元包括预测结果寄存器和优化决策处理器,所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的和Lea数据,所述优化决策处理器根据所述预测结果对未完成的任务进行调配。
实施例二:本实施例包含了实施例一中的全部内容,提供了一种用于AIGC模型训练的分布式算力调度系统,包括资源注册模块、任务调度模块、智能决策模块和资源调配模块;
所述资源注册模块用于记录所有计算资源的状态信息,所述任务调度模块用于完成对训练任务的初始分配,所述智能决策模块用于对训练过程进行智能分析,所述资源调配模块根据分析结果对计算资源进行动态调配;
所述资源注册模块包括资源管理单元、状态监测单元和信息更新单元,所述资源管理单元用于负责管理注册到系统中的所有计算节点信息,所述状态监测单元用于实时监控各计算节点的状态,所述信息更新单元负责接收来自计算节点的状态更新;
计算节点信息包括CPU、GPU资源量,内存大小,存储容量,网络带宽等;
计算节点状态包括资源使用情况、运行状态、故障记录等;
所述任务调度模块包括任务接收单元和任务分配单元,所述任务接收单元用于接收用户提交的AIGC模型训练任务,所述任务分配单元用于对任务需求和资源状况进行分析,将任务分配到具体的节点执行;
所述智能决策模块包括预测模型单元和决策算法单元,所述预测模型单元用于对模型的资源使用趋势进行预测,所述决策算法单元用于生成优化的资源调度决策;
所述资源调配模块包括资源调度单元、资源监控单元和故障处理单元,所述资源调度单元用于执行智能决策模块给出的决策,进行资源的动态分配和调整,所述资源监控单元用于对资源调配的实施情况进行监控,所述故障处理单元用于对发现的节点故障进行响应;
结合图2,所述资源管理单元包括节点注册处理器、节点接入处理器和节点记录处理器,所述节点注册处理器用于提供注册界面并输入节点信息,所述节点接入处理器根据节点信息中的网络信息将节点接入到系统中,所述节点记录处理器对接入的新节点进行测试,并将输入的节点信息和测试的节点信息进行记录存储,输入的节点信息是与算力无关的信息,而测试的节点信息是与算力有关的信息;
结合图3,所述任务接收单元包括模型任务处理器和任务拆解处理器,所述模型任务处理器用于提供接口接收模型任务数据,所述任务拆解处理器用于将接收的模型任务进行拆解;
结合图4,所述任务分配单元包括任务节点匹配处理器和任务转移处理器,所述任务节点匹配处理器用于将任务与节点进行匹配,所述任务转移处理器根据匹配结果将任务信息发送给对应的节点;
所述任务拆解处理器对模型任务数据的拆解过程包括如下步骤:
S1、识别出一组输入输出关系作为一个目标任务,检测出目标任务包含的计算量;
S2、从现有任务中筛选出目标任务的前置任务,并根据下式计算出目标任务的锚定时间
其中,为前置任务的最大锚定时间,/>为目标任务的计算量,/>为标准处理速度;
S3、将目标任务添加进现有任务中;
S4、步骤S1至步骤S3直至对整个模型任务数据识别完毕;
所述节点匹配处理器将任务与节点进行匹配的过程包括如下步骤:
S21、将所有任务按照锚定时间从小到大进行排序;
S22、根据每个节点设置一个分配池,分配池中含有对应节点的处理能力参数Ab;
S23、根据下式计算出每个节点的分配指数:
其中,n为分配池中已有的任务的数量,表示分配池中第i个任务的锚定时间,为标准处理能力,/>为标准周期时间;
S24、从任务序列中按照顺序获取一个任务,将该任务添加进分配指数最小的分配池中;
S25、重复步骤S23和步骤S24,直至所有任务被添加进任务池中;
所述预测模型单元包括数据源接收寄存器和趋势预测处理器,所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据,所述趋势预测处理器根据节点状态数据对节点的资源使用趋势进行预测;
所述节点状态数据包括节点的实时算力使用比例和剩余任务比例/>,t表示时间;
所述趋势预测处理器的预测过程包括如下步骤:
S31、统计出每个节点的算力使用变化周期,并计算出第i个变化周期/>内的平均算力使用比例/>
S32、根据下式预测下个变化周期和下个周期的平均算力使用比例/>
其中,m为当前的算力使用变化周期数量;
S33、根据下式计算出每个节点的相对完成时间Lea:
结合图5,所述决策算法单元包括预测结果寄存器和优化决策处理器,所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的和Lea数据,所述优化决策处理器根据所述预测结果对未完成的任务进行调配;
所述优化决策处理器对预测结果进行处理的过程包括如下步骤:
S41、将节点按照Lea从小到大的顺序进行排序,第i个节点的Lea和分别用和/>表示;
S42、根据下式计算出调配判断值P(i):
其中,N为节点数量;
当P(i)大于阈值时,表示需要将第i个节点的任务调配给第N+1-i个节点;
S43、根据下式计算出调配任务数ntk:
其中,为任务量系数;
所述优化决策处理器将需要调配的两个节点信息与ntk打包成一个调配包,并将调配包发送给所述资源调配模块。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素可以更新的。

Claims (5)

1.一种用于AIGC模型训练的分布式算力调度系统,其特征在于,包括资源注册模块、任务调度模块、智能决策模块和资源调配模块;
所述资源注册模块用于记录所有计算资源的状态信息,所述任务调度模块用于完成对训练任务的初始分配,所述智能决策模块用于对训练过程进行智能分析,所述资源调配模块根据分析结果对计算资源进行动态调配;
所述资源注册模块包括资源管理单元、状态监测单元和信息更新单元,所述资源管理单元用于负责管理注册到系统中的所有计算节点信息,所述状态监测单元用于实时监控各计算节点的状态,所述信息更新单元负责接收来自计算节点的状态更新;
所述任务调度模块包括任务接收单元和任务分配单元,所述任务接收单元用于接收用户提交的AIGC模型训练任务,所述任务分配单元用于对任务需求和资源状况进行分析,将任务分配到具体的节点执行;
所述智能决策模块包括预测模型单元和决策算法单元,所述预测模型单元用于对模型的资源使用趋势进行预测,所述决策算法单元用于生成优化的资源调度决策;
所述资源调配模块包括资源调度单元、资源监控单元和故障处理单元,所述资源调度单元用于执行智能决策模块给出的决策,进行资源的动态分配和调整,所述资源监控单元用于对资源调配的实施情况进行监控,所述故障处理单元用于对发现的节点故障进行响应。
2.如权利要求1所述的一种用于AIGC模型训练的分布式算力调度系统,其特征在于,所述任务接收单元包括模型任务处理器和任务拆解处理器,所述模型任务处理器用于提供接口接收模型任务数据,所述任务拆解处理器用于将接收的模型任务进行拆解;
所述任务拆解处理器对识别出基础任务后根据下式计算出任务的锚定时间
其中,为前置任务的最大锚定时间,/>为目标任务的计算量,/>为标准处理速度。
3.如权利要求2所述的一种用于AIGC模型训练的分布式算力调度系统,其特征在于,所述任务分配单元包括任务节点匹配处理器和任务转移处理器,所述任务节点匹配处理器用于将任务与节点进行匹配,所述任务转移处理器根据匹配结果将任务信息发送给对应的节点;
所述节点匹配处理器为每个节点设置一个分配池,并根据下式计算出每个节点的分配指数:
其中,n为分配池中已有的任务的数量,表示分配池中第i个任务的锚定时间,/>为标准处理能力,/>为标准周期时间,Ab为节点的处理能力参数;
所述节点匹配处理器将按序获取的任务添加进分配指数最小的分配池中。
4.如权利要求3所述的一种用于AIGC模型训练的分布式算力调度系统,其特征在于,所述预测模型单元包括数据源接收寄存器和趋势预测处理器,所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据,所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间Lea。
5.如权利要求4所述的一种用于AIGC模型训练的分布式算力调度系统,其特征在于,所述决策算法单元包括预测结果寄存器和优化决策处理器,所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的
和Lea数据,所述优化决策处理器根据所述预测结果对未完成的任务进行调配。
CN202311638860.3A 2023-12-04 2023-12-04 一种用于aigc模型训练的分布式算力调度系统 Active CN117349026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311638860.3A CN117349026B (zh) 2023-12-04 2023-12-04 一种用于aigc模型训练的分布式算力调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311638860.3A CN117349026B (zh) 2023-12-04 2023-12-04 一种用于aigc模型训练的分布式算力调度系统

Publications (2)

Publication Number Publication Date
CN117349026A true CN117349026A (zh) 2024-01-05
CN117349026B CN117349026B (zh) 2024-02-23

Family

ID=89363475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311638860.3A Active CN117349026B (zh) 2023-12-04 2023-12-04 一种用于aigc模型训练的分布式算力调度系统

Country Status (1)

Country Link
CN (1) CN117349026B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785482A (zh) * 2024-02-26 2024-03-29 广州尚航信息科技股份有限公司 一种算力网络的算力调度系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019154371A1 (zh) * 2018-02-09 2019-08-15 中兴通讯股份有限公司 一种调度方法及调度系统
WO2022171082A1 (zh) * 2021-02-10 2022-08-18 中国移动通信有限公司研究院 信息处理方法、装置、系统、电子设备及存储介质
US20220269536A1 (en) * 2020-07-10 2022-08-25 Guangdong University Of Petrochemical Technology Multi-queue multi-cluster task scheduling method and system
CN115103404A (zh) * 2022-05-11 2022-09-23 北京邮电大学 一种算力网络中节点任务调度方法
US20220334882A1 (en) * 2019-09-27 2022-10-20 Guangdong Inspur Smart Computing Technology Co., Ltd. Resource management platform-based task allocation method and system
CN115562877A (zh) * 2022-11-15 2023-01-03 北京阿丘科技有限公司 分布式算力资源的编排方法、装置、设备及存储介质
WO2023020355A1 (zh) * 2021-08-20 2023-02-23 华为云计算技术有限公司 Ai模型的分布式训练方法和相关设备
WO2023125493A1 (zh) * 2021-12-27 2023-07-06 华为技术有限公司 资源管理方法、装置及资源管理平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019154371A1 (zh) * 2018-02-09 2019-08-15 中兴通讯股份有限公司 一种调度方法及调度系统
US20220334882A1 (en) * 2019-09-27 2022-10-20 Guangdong Inspur Smart Computing Technology Co., Ltd. Resource management platform-based task allocation method and system
US20220269536A1 (en) * 2020-07-10 2022-08-25 Guangdong University Of Petrochemical Technology Multi-queue multi-cluster task scheduling method and system
WO2022171082A1 (zh) * 2021-02-10 2022-08-18 中国移动通信有限公司研究院 信息处理方法、装置、系统、电子设备及存储介质
WO2023020355A1 (zh) * 2021-08-20 2023-02-23 华为云计算技术有限公司 Ai模型的分布式训练方法和相关设备
WO2023125493A1 (zh) * 2021-12-27 2023-07-06 华为技术有限公司 资源管理方法、装置及资源管理平台
CN115103404A (zh) * 2022-05-11 2022-09-23 北京邮电大学 一种算力网络中节点任务调度方法
CN115562877A (zh) * 2022-11-15 2023-01-03 北京阿丘科技有限公司 分布式算力资源的编排方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785482A (zh) * 2024-02-26 2024-03-29 广州尚航信息科技股份有限公司 一种算力网络的算力调度系统及方法
CN117785482B (zh) * 2024-02-26 2024-05-24 广州尚航信息科技股份有限公司 一种算力网络的算力调度系统及方法

Also Published As

Publication number Publication date
CN117349026B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN110096349B (zh) 一种基于集群节点负载状态预测的作业调度方法
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN111274036B (zh) 一种基于速度预测的深度学习任务的调度方法
CN110389820B (zh) 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
CN117349026B (zh) 一种用于aigc模型训练的分布式算力调度系统
CN105718479A (zh) 跨idc大数处理架构下执行策略生成方法、装置
CN105373432B (zh) 一种基于虚拟资源状态预测的云计算资源调度方法
CN105607952B (zh) 一种虚拟化资源的调度方法及装置
WO2020186872A1 (zh) 一种云中科学工作流下截止期限约束的费用优化调度方法
CN115543577B (zh) 基于协变量的Kubernetes资源调度优化方法、存储介质及设备
CN112306658A (zh) 一种多能源系统数字孪生应用管理调度方法
CN115168027A (zh) 一种基于深度强化学习的算力资源度量方法
Li et al. Cost-aware automatic scaling and workload-aware replica management for edge-cloud environment
CN108132840A (zh) 一种分布式系统中的资源调度方法及装置
Lu et al. InSTechAH: Cost-effectively autoscaling smart computing hadoop cluster in private cloud
Yang et al. A fully hybrid algorithm for deadline constrained workflow scheduling in clouds
Yang et al. Design of kubernetes scheduling strategy based on LSTM and grey model
Zhang et al. Autrascale: an automated and transfer learning solution for streaming system auto-scaling
CN115145709B (zh) 低碳大数据人工智能方法和医康养生态系统
CN114466014B (zh) 一种服务调度方法、装置、电子设备及存储介质
CN116109058A (zh) 一种基于深度强化学习的变电站巡视管理方法和装置
CN114968585A (zh) 资源配置方法、装置、介质和计算设备
CN115185650A (zh) 一种异构边缘算力网络任务调度方法
CN116820730B (zh) 多引擎计算系统的任务调度方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant