CN117349026A

CN117349026A - 一种用于aigc模型训练的分布式算力调度系统

Info

Publication number: CN117349026A
Application number: CN202311638860.3A
Authority: CN
Inventors: 张卫平; 丁洋; 王丹; 邵胜博; 李显阔
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Digital Group Co Ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-01-05
Anticipated expiration: 2043-12-04
Also published as: CN117349026B

Abstract

本发明提供了一种用于AIGC模型训练的分布式算力调度系统，涉及电数字数据处理领域，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块，所述资源注册模块用于记录所有计算资源的状态信息，所述任务调度模块用于完成对训练任务的初始分配，所述智能决策模块用于对训练过程进行智能分析，所述资源调配模块根据分析结果对计算资源进行动态调配；本系统能够对用于模型训练的算力资源进行动态调整，提高算力以及模型训练的效率。

Description

一种用于AIGC模型训练的分布式算力调度系统

技术领域

本发明涉及电数字数据处理领域，具体涉及一种用于AIGC模型训练的分布式算力调度系统。

背景技术

随着人工智能的发展，模型训练的需求也越来越大，而模型训练需要算力来执行，常见的方式是给算力资源设定固定的规则来执行训练任务，但这种方式会导致无法发挥出算力资源的最大潜力，从而降低模型训练的效率，因此，需要一种系统在训练过程中对算力资源进行调度，提高算力资源的有效利用率。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

现在已经开发出了很多算力调度系统，经过大量的检索与参考，发现现有的调度系统有如公开号为CN116483546A所公开的系统，这些系统方法一般包括：获取各个训练任务的调度状态，调度状态包括调度成功以及调度未成功；对于调度状态为调度未成功的第一训练任务，获取目标集群资源的空闲资源量以及第一训练任务的最小资源需求量；若空闲资源量小于最小资源需求量，从调度状态为调度成功的第二训练任务中筛选出可分配资源的训练任务，以获取可分配资源；基于可分配资源以及所述空闲资源量，对第一训练任务进行任务调度。但该系统是通过获取任务、调度算力的方式来进行训练，但这种方式未考虑到整个训练任务的整体性，无法充分发挥算力资源的利用率。

发明内容

本发明的目的在于，针对所存在的不足，提出了一种用于AIGC模型训练的分布式算力调度系统。

本发明采用如下技术方案：

一种用于AIGC模型训练的分布式算力调度系统，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块；

所述资源注册模块用于记录所有计算资源的状态信息，所述任务调度模块用于完成对训练任务的初始分配，所述智能决策模块用于对训练过程进行智能分析，所述资源调配模块根据分析结果对计算资源进行动态调配；

所述资源注册模块包括资源管理单元、状态监测单元和信息更新单元，所述资源管理单元用于负责管理注册到系统中的所有计算节点信息，所述状态监测单元用于实时监控各计算节点的状态，所述信息更新单元负责接收来自计算节点的状态更新；

所述任务调度模块包括任务接收单元和任务分配单元，所述任务接收单元用于接收用户提交的AIGC模型训练任务，所述任务分配单元用于对任务需求和资源状况进行分析，将任务分配到具体的节点执行；

所述智能决策模块包括预测模型单元和决策算法单元，所述预测模型单元用于对模型的资源使用趋势进行预测，所述决策算法单元用于生成优化的资源调度决策；

所述资源调配模块包括资源调度单元、资源监控单元和故障处理单元，所述资源调度单元用于执行智能决策模块给出的决策，进行资源的动态分配和调整，所述资源监控单元用于对资源调配的实施情况进行监控，所述故障处理单元用于对发现的节点故障进行响应；

进一步的，所述任务接收单元包括模型任务处理器和任务拆解处理器，所述模型任务处理器用于提供接口接收模型任务数据，所述任务拆解处理器用于将接收的模型任务进行拆解；

所述任务拆解处理器对识别出基础任务后根据下式计算出任务的锚定时间：

；

其中，为前置任务的最大锚定时间，/>为目标任务的计算量，/>为标准处理速度；

进一步的，所述任务分配单元包括任务节点匹配处理器和任务转移处理器，所述任务节点匹配处理器用于将任务与节点进行匹配，所述任务转移处理器根据匹配结果将任务信息发送给对应的节点；

所述节点匹配处理器为每个节点设置一个分配池，并根据下式计算出每个节点的分配指数：

；

其中，n为分配池中已有的任务的数量，表示分配池中第i个任务的锚定时间，为标准处理能力，/>为标准周期时间，Ab为节点的处理能力参数；

所述节点匹配处理器将按序获取的任务添加进分配指数最小的分配池中；

进一步的，所述预测模型单元包括数据源接收寄存器和趋势预测处理器，所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据，所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间Lea；

进一步的，所述决策算法单元包括预测结果寄存器和优化决策处理器，所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的和Lea数据，所述优化决策处理器根据所述预测结果对未完成的任务进行调配。

本发明所取得的有益效果是：

本系统通过拆解任务、分配任务、训练预测和任务调配四个过程来实现在训练过程中优化算力资源，拆解任务和分配任务基于整个训练模型将任务分配给对应的算力节点，定下了一个算力应用的基调，保证了算力有效利用率的下限，而训练预测和任务调配则基于实际训练过程将任务在节点之间调配，提高了算力有效利用率的上限。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1为本发明整体结构框架示意图；

图2为本发明资源管理单元构成示意图；

图3为本发明任务接收单元构成示意图；

图4为本发明任务分配单元构成示意图；

图5为本发明决策算法单元构成示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

实施例一：本实施例提供了一种用于AIGC模型训练的分布式算力调度系统，结合图1，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块；

所述任务接收单元包括模型任务处理器和任务拆解处理器，所述模型任务处理器用于提供接口接收模型任务数据，所述任务拆解处理器用于将接收的模型任务进行拆解；

；

所述任务分配单元包括任务节点匹配处理器和任务转移处理器，所述任务节点匹配处理器用于将任务与节点进行匹配，所述任务转移处理器根据匹配结果将任务信息发送给对应的节点；

；

所述预测模型单元包括数据源接收寄存器和趋势预测处理器，所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据，所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间Lea；

所述决策算法单元包括预测结果寄存器和优化决策处理器，所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的和Lea数据，所述优化决策处理器根据所述预测结果对未完成的任务进行调配。

实施例二：本实施例包含了实施例一中的全部内容，提供了一种用于AIGC模型训练的分布式算力调度系统，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块；

计算节点信息包括CPU、GPU资源量，内存大小，存储容量，网络带宽等；

计算节点状态包括资源使用情况、运行状态、故障记录等；

结合图2，所述资源管理单元包括节点注册处理器、节点接入处理器和节点记录处理器，所述节点注册处理器用于提供注册界面并输入节点信息，所述节点接入处理器根据节点信息中的网络信息将节点接入到系统中，所述节点记录处理器对接入的新节点进行测试，并将输入的节点信息和测试的节点信息进行记录存储，输入的节点信息是与算力无关的信息，而测试的节点信息是与算力有关的信息；

结合图3，所述任务接收单元包括模型任务处理器和任务拆解处理器，所述模型任务处理器用于提供接口接收模型任务数据，所述任务拆解处理器用于将接收的模型任务进行拆解；

结合图4，所述任务分配单元包括任务节点匹配处理器和任务转移处理器，所述任务节点匹配处理器用于将任务与节点进行匹配，所述任务转移处理器根据匹配结果将任务信息发送给对应的节点；

所述任务拆解处理器对模型任务数据的拆解过程包括如下步骤：

S1、识别出一组输入输出关系作为一个目标任务，检测出目标任务包含的计算量；

S2、从现有任务中筛选出目标任务的前置任务，并根据下式计算出目标任务的锚定时间：

；

S3、将目标任务添加进现有任务中；

S4、步骤S1至步骤S3直至对整个模型任务数据识别完毕；

所述节点匹配处理器将任务与节点进行匹配的过程包括如下步骤：

S21、将所有任务按照锚定时间从小到大进行排序；

S22、根据每个节点设置一个分配池，分配池中含有对应节点的处理能力参数Ab；

S23、根据下式计算出每个节点的分配指数：

；

其中，n为分配池中已有的任务的数量，表示分配池中第i个任务的锚定时间，为标准处理能力，/>为标准周期时间；

S24、从任务序列中按照顺序获取一个任务，将该任务添加进分配指数最小的分配池中；

S25、重复步骤S23和步骤S24，直至所有任务被添加进任务池中；

所述预测模型单元包括数据源接收寄存器和趋势预测处理器，所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据，所述趋势预测处理器根据节点状态数据对节点的资源使用趋势进行预测；

所述节点状态数据包括节点的实时算力使用比例和剩余任务比例/>，t表示时间；

所述趋势预测处理器的预测过程包括如下步骤：

S31、统计出每个节点的算力使用变化周期，并计算出第i个变化周期/>内的平均算力使用比例/>；

S32、根据下式预测下个变化周期和下个周期的平均算力使用比例/>：

；

其中，m为当前的算力使用变化周期数量；

S33、根据下式计算出每个节点的相对完成时间Lea：

；

结合图5，所述决策算法单元包括预测结果寄存器和优化决策处理器，所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的和Lea数据，所述优化决策处理器根据所述预测结果对未完成的任务进行调配；

所述优化决策处理器对预测结果进行处理的过程包括如下步骤：

S41、将节点按照Lea从小到大的顺序进行排序，第i个节点的Lea和分别用和/>表示；

S42、根据下式计算出调配判断值P(i)：

；

其中，N为节点数量；

当P(i)大于阈值时，表示需要将第i个节点的任务调配给第N+1-i个节点；

S43、根据下式计算出调配任务数ntk：

；

其中，为任务量系数；

所述优化决策处理器将需要调配的两个节点信息与ntk打包成一个调配包，并将调配包发送给所述资源调配模块。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的保护范围，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含于本发明的保护范围内，此外，随着技术发展其中的元素可以更新的。

Claims

1.一种用于AIGC模型训练的分布式算力调度系统，其特征在于，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块；

所述资源调配模块包括资源调度单元、资源监控单元和故障处理单元，所述资源调度单元用于执行智能决策模块给出的决策，进行资源的动态分配和调整，所述资源监控单元用于对资源调配的实施情况进行监控，所述故障处理单元用于对发现的节点故障进行响应。

2.如权利要求1所述的一种用于AIGC模型训练的分布式算力调度系统，其特征在于，所述任务接收单元包括模型任务处理器和任务拆解处理器，所述模型任务处理器用于提供接口接收模型任务数据，所述任务拆解处理器用于将接收的模型任务进行拆解；

；

其中，为前置任务的最大锚定时间，/>为目标任务的计算量，/>为标准处理速度。

3.如权利要求2所述的一种用于AIGC模型训练的分布式算力调度系统，其特征在于，所述任务分配单元包括任务节点匹配处理器和任务转移处理器，所述任务节点匹配处理器用于将任务与节点进行匹配，所述任务转移处理器根据匹配结果将任务信息发送给对应的节点；

；

其中，n为分配池中已有的任务的数量，表示分配池中第i个任务的锚定时间，/>为标准处理能力，/>为标准周期时间，Ab为节点的处理能力参数；

所述节点匹配处理器将按序获取的任务添加进分配指数最小的分配池中。

4.如权利要求3所述的一种用于AIGC模型训练的分布式算力调度系统，其特征在于，所述预测模型单元包括数据源接收寄存器和趋势预测处理器，所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据，所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间Lea。

5.如权利要求4所述的一种用于AIGC模型训练的分布式算力调度系统，其特征在于，所述决策算法单元包括预测结果寄存器和优化决策处理器，所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的

和Lea数据，所述优化决策处理器根据所述预测结果对未完成的任务进行调配。