CN112965813B

CN112965813B - 一种ai平台资源调控方法、系统及介质

Info

Publication number: CN112965813B
Application number: CN202110181340.9A
Authority: CN
Inventors: 袁利杰
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2023-01-10
Anticipated expiration: 2041-02-10
Also published as: CN112965813A

Abstract

本发明公开了一种AI平台资源调控方法，包括以下步骤：配置学习算法，基于学习算法获取资源数据；设定线性回归方程，基于资源数据和线性回归方程执行第一计算步骤，得到第一资源值；获取资源数据所对应的初始数据，基于初始数据和资源数据执行第二计算步骤，得到第二资源值；基于第一资源值和第二资源值执行第三计算步骤，得到资源分配值；根据资源分配值进行资源分配；本发明能够对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算，并将其整合为算法，提高了计算资源分配的稳定性和准确性，进而缩短了训练任务的训练时间，提高了AI算法的迭代次数，并大大提高了AI平台中资源的利用率和训练任务的处理效率。

Description

一种AI平台资源调控方法、系统及介质

技术领域

本发明涉及人工智能训练平台技术领域，特别是涉及一种AI平台资源调控方法、系统及介质。

背景技术

随着科技的进步，人工智能技术应用的越为广泛，其中AI平台中的AI模型算法为最常见的技术之一；AI模型算法在应用时，需要根据训练任务的需求分配对应的资源，因此AI平台的资源调控尤为关键；现有的AI平台资源调控方法是根据算法人员的经验进行资源的调控，这种方法分配的资源有很大的不确定性，并且当AI模型算法处理训练任务时，分配的资源占用也会发生一定的变化；但由于之前产生了资源分配的不确定性，这必定会影响AI模型算法处理任务的效率以及AI平台资源的利用率。

发明内容

本发明主要解决的是现有的AI平台资源调控方法导致AI平台的任务处理效率低及资源利用率低的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种AI平台资源调控方法，包括以下步骤：

配置学习算法，基于所述学习算法获取资源数据；

设定线性回归方程，基于所述资源数据和所述线性回归方程执行第一计算步骤，得到第一资源值；

获取所述资源数据所对应的初始数据，基于所述初始数据和所述资源数据执行第二计算步骤，得到第二资源值；

基于所述第一资源值和所述第二资源值执行第三计算步骤，得到资源分配值；

根据所述资源分配值进行资源分配。

作为一种改进的方案，所述第一计算步骤为：

在所述资源数据中设定第一资源数据和第二资源数据；

对所述第一资源数据进行向量化处理，得到第一特征数据；

在所述第二资源数据中选取基准数据，根据所述基准数据计算与所述第二资源数据对应的第二特征数据；

根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值。

作为一种改进的方案，所述第二计算步骤为：

根据所述初始数据计算所述资源数据所对应的剩余数据；

获取所述资源数据所对应的性能数据；

根据所述性能数据和所述剩余数据计算所述第二资源值。

作为一种改进的方案，所述第三计算步骤为：

对所述第一资源值和所述第二资源值采用相乘取整算法，得到所述资源分配值。

作为一种改进的方案，所述配置学习算法，基于所述学习算法获取资源数据的步骤进一步包括：

设定第一时间阈值；

获取训练任务；

根据所述学习算法对所述训练任务分配计算资源；

分配所述计算资源后，开始第一计时操作，生成第一时间；当所述第一时间达到所述第一时间阈值时，获取所述训练任务所占用的所述计算资源所对应的所述资源数据。

作为一种改进的方案，所述根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值的步骤进一步包括：

计算与所述第二特征数据对应的均方误差；

获取与所述线性回归方程对应的权重参数和偏置参数；

将所述均方误差作为所述线性回归方程的损失函数，并将所述第一特征数据、所述权重参数和所述偏置参数代入所述线性回归方程进行线性回归计算，得到与所述第二特征数据对应的所述第一资源值。

作为一种改进的方案，所述根据所述性能数据和所述剩余数据计算所述第二资源值的步骤进一步包括：

设定若干数据范围和与若干所述数据范围分别对应的权重值；

确定所述性能数据和所述剩余数据分别对应的第一数据范围和第二数据范围；

根据所述第一数据范围和所述第二数据范围分别对应的第一权重值和第二权重值执行第四计算步骤，得到所述第二资源值。

作为一种改进的方案，所述第四计算步骤为：

汇总所述第一权重值和所述第二权重值，得到若干第三权重值；

统计若干所述第三权重值中具有重复性的第三权重值的第一数量；

判断所述第一数量是否具有重复性；若是，则计算所述第一数量所对应的所述第三权重值的乘积，并定义所述乘积为所述第二资源值；若否，则选取所述第一数量所对应的所述第三权重值作为所述第二资源值。

本发明还提供一种AI平台资源调控系统，包括：

数据获取模块、数据计算模块和资源处理模块；

所述数据获取模块用于配置学习算法，并根据所述学习算法获取资源数据；

所述计算模块用于设定线性回归方程，并根据所述资源数据和所述线性回归方程执行第一计算步骤，得到第一资源值；

所述计算模块还用于获取所述资源数据所对应的初始数据，并根据所述初始数据和所述资源数据执行第二计算步骤，得到第二资源值；所述计算模块通过所述第一资源值和所述第二资源值执行第三计算步骤，得到资源分配值；

所述资源处理模块用于根据所述资源分配值进行资源分配。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述AI平台资源调控方法的步骤。

本发明的有益效果是：

1、本发明所述的AI平台资源调控方法，可以实现对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算，并将其整合为算法，提高了计算资源分配的稳定性和准确性，进而缩短了训练任务的训练时间，提高了AI算法的迭代次数，并大大提高了AI平台中资源的利用率和训练任务的处理效率。

2、本发明所述的AI平台资源调控系统，可以通过数据获取模块、数据计算模块和资源处理模块的相互配合，进而实现对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算，并将其整合为算法，提高了计算资源分配的稳定性和准确性，缩短了训练任务的训练时间，提高了AI算法的迭代次数，并大大提高了AI平台中资源的利用率和训练任务的处理效率。

3、本发明所述的计算机可读存储介质，可以实现引导数据获取模块、数据计算模块和资源处理模块进行配合，进而实现对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算，并将其整合为算法，提高了计算资源分配的稳定性和准确性，缩短了训练任务的训练时间，提高了AI算法的迭代次数，并大大提高了AI平台中资源的利用率和训练任务的处理效率，且有效的增加了所述AI平台资源调控方法的可操作性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的AI平台资源调控方法的流程图；

图2是本发明实施例1所述的AI平台资源调控方法的示意图；

图3是本发明实施例2所述的AI平台资源调控系统的架构图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

在本发明的描述中，需要说明的是，本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，IO(Input Output)是输入和输出，AI(Artificial Intelligence)是人工智能，GPU(Graphics Processing Unit)是图形处理器，CPU(Central Processing Unit/Processor)是中央处理器。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“学习算法”、“资源数据”、“资源值”、“资源分配值”、“剩余数据”、“性能数据”、“相乘取整算法”、“计时操作”、“特征数据”、“均方误差”、“损失函数”、“权重参数”、“偏置参数”、“重复性”、“权重值”应做广义理解。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

本实施例提供一种AI平台资源调控方法，如图1和图2所示，包括以下步骤：

S100、初始化任务环境；

步骤S100具体包括：

配置深度学习算法(即所述学习算法)；获取训练任务；根据深度学习算法为所述训练任务分配计算资源，此时任务环境初始化完毕；此步骤中，对于不同的训练任务，采用的算法模型是有区别的，且并不是所有的训练任务都要配置相同的计算资源；所以此步骤中对于AI平台先配置深度学习算法，通过该算法对训练任务进行AI平台中计算资源的分配，进而可以对训练任务所占用的计算资源数据进行采集。

S200、在所述任务环境中，获取资源数据；

步骤S200具体包括：

设定第一时间阈值；在步骤S100中对所述训练任务分配所述计算资源后，执行第一计时操作：即开始计时，并生成第一时间；比对第一时间和第一时间阈值，当第一时间达到第一时间阈值时，对步骤S100中深度学习算法所应用的训练任务所对应的资源数据进行获取；资源数据包括：深度学习框架、数据集类型、数据集大小、镜像信息、占用CPU核数和占用内存大小等；获取到资源数据后，执行以下步骤：

S300、根据所述资源数据采取第一计算步骤和第二计算步骤，分别得到对应的第一资源值和第二资源值；

步骤S300具体包括：

S301、对采集到的所述资源数据执行第一计算步骤，选取所述资源数据中的一些但非全部的数据在此举例：

设训练任务所采用的深度学习框架为x₁，数据集类型设为x₂，数据集大小设为x₃，镜像信息设为x₄，训练时间设为x₅；将上述数据进行向量化处理，定义处理后的数据为第一特征数据，即x_j；

设训练任务所占用CPU内核数量为y₁，训练任务所占用GPU卡数为y₂，训练任务所占用的内存大小为y₃，设定关键资源为基准参数；

在本实施例中，因对应的问题在于AI平台的训练任务处理，所以选取GPU资源作为关键资源，因此，设定y₂为所述基准参数；对应的有以下关系：y₁＝a*y₂，y₃＝b*y₂，对应的最终关系为：y＝c*y₂；该最终关系中，y代表对应训练任务的第一资源值；

通过线性回归算法计算y值：设定y₁、y₂、y₃为第二特征数据；计算所述第二特征数据的均方误差

其中n为随机变量；

设定所述均方误差为损失函数；根据该损失函数对训练任务执行第一训练步骤：即多次的训练和采集若干不同的第一特征数据，进而统计得出对应的权重参数w_j和偏置参数z；

设定线性回归方程；将所述第一特征数据、权重参数w_j和偏置参数z代入该线性回归方程；通过该线性回归方程计算y值；

线性回归方程为：

y＝∑x_j*w_j+z；

在本步骤中，直接将第一特征数据代入，即可得出对应的第一资源值，该第一资源值分别对应y₁、y₂、y₃；

针对于其他不同类型的训练任务，会有不同的第一特征数据和第二特征数据，可以根据第一计算步骤对应的更新该线性回归方程，进而得到与不同类型的训练任务对应的第一资源值。

S302、根据获取到的所述资源数据执行第二计算步骤：

获取AI平台的初始计算资源和计算资源的性能数据；根据所述资源数据计算AI平台的剩余资源数据(即剩余数据)，即将初始计算资源减去其对应的资源数据就得到了对应的剩余资源数据；根据该剩余资源数据和所述性能数据设定对应的权重值，定义该权重值为所述的第二资源值。

在本实施例中，性能数据包括：IO负载、CPU负载和网络负载等；以上列举的性能数据作为计算资源的主要依据；因为剩余资源数据和权重值是正相关关系，性能数据和权重值是负相关关系，所以根据性能数据的不同设定对应的权重值；

在本实施例中，仅作为说明，将剩余资源数据和性能数据划分为不同的三个阶段，即为：0～30％，30～60％，60～90％；可以将此数值定义为第一数据范围、第二数据范围和第三数据范围；

当处于0～30％的情况时，剩余资源数据和性能数据的权重值均为1.5；当处于30～60％的情况时，剩余资源数据和性能数据的权重值均为1，当处于60～90％的情况时，剩余资源数据和性能数据的权重值均为0.8；

以上的百分比阈值和权重值均可根据AI平台的规格进行对应的设定；对应的，因为性能数据和剩余资源数据的占比情况是不同的，所以设定权重计算关系：得到若干权重值后，根据重复性统计权重值的个数：即统计若干权重值中相同权重值的个数，设定权重值中相同权重值的个数最大的权重值作为所述第二资源值；若相同的权重值的个数相等，则将两个权重值相乘，得到的乘积作为所述第二资源值；

例如：若得到若干权重值1.5、1.5、1、0.8；则选择1.5作为所述第二资源值；若得到若干权重值为1、1、1.5、1.5，则选择1*1.5的乘积1.5作为权重值。

S400、根据所述第一资源值和所述第二资源值计算对应的资源分配值；

步骤S400具体包括：

将所述第一资源值和所述第二资源值执行第三计算步骤，得到所述资源分配值；第三计算步骤为：采用相乘取整算法：将所述第一资源值和所述第二资源值相乘并取整，得到的结果为所述资源分配值；取整方式按四舍五入即可；该资源分配值对应所述y₁、y₂、y₃；根据该资源分配值重新分配其对应的资源数据所对应的计算资源至所述训练任务。

通过本实施例中描述的方法，可以对于任何AI模型算法得到其对应的资源分配值；且根据该资源分配值分配资源必然不会存在不确定性，因为其权重值的计算加上线性回归的计算充分的提升了AI模型算法的迭代次数，提高了AI平台的资源利用率，同时也提高了AI平台的任务处理效率。

实施例2

本实施例提供一种AI平台资源调控系统，如图3所示，包括：

数据获取模块、数据计算模块和资源处理模块；

数据获取模块用于初始化任务环境；

数据获取模块操作时，具体包括：数据获取模块为AI平台配置深度学习算法(即所述学习算法)；数据获取模块获取训练任务；数据获取模块根据深度学习算法为所述训练任务分配计算资源，此时任务环境初始化完毕；

数据获取模块在所述任务环境中，获取资源数据；

数据获取模块操作时，具体包括：数据获取模块设定第一时间阈值；数据获取模块对所述训练任务分配所述计算资源后，执行第一计时操作：即数据获取模块开始计时，并生成第一时间；数据获取模块比对第一时间和第一时间阈值，当第一时间达到第一时间阈值时，数据获取模块对深度学习算法所应用的训练任务所对应的资源数据进行获取；资源数据包括：深度学习框架、数据集类型、数据集大小、镜像信息、占用CPU核数和占用内存大小等；数据获取模块获取到资源数据后，向所述数据计算模块发送第一计算信号：

数据计算模块用于在收到所述第一计算信号后，数据计算模块根据所述资源数据采取第一计算步骤和第二计算步骤，分别得到对应的第一资源值和第二资源值；

数据计算模块包括第一计算模块、第二计算模块和第三计算模块；

数据计算模块操作时，具体包括：收到第一计算信号后，第一计算模块执行第一计算步骤：第一计算模块设训练任务所采用的深度学习框架为x₁，数据集类型设为x₂，数据集大小设为x₃，镜像信息设为x₄，训练时间设为x₅；第一计算模块将上述数据进行向量化处理，并定义处理后的数据为第一特征数据，即x_j；

第一计算模块设训练任务所占用CPU内核数量为y₁，训练任务所占用GPU卡数为y₂，训练任务所占用的内存大小为y₃，第一计算模块设定关键资源为基准参数；第一计算模块根据该基准参数计算第二特征数据y₁、y₂、y₃；

第一计算模块计算所述第二特征数据的均方误差，并设定所述均方误差为损失函数；第一计算模块根据该损失函数对训练任务执行第一训练步骤：即多次的测试训练，得出对应的权重参数和偏置参数；

第一计算模块设定线性回归方程，并将所述第一特征数据、权重参数和偏置参数代入线性回归方程；通过该线性回归方程计算所述第一资源值；

得出第一资源值后，第一计算模块发送第二计算信号至所述第二计算模块；

第二计算模块用于在收到所述第二计算信号后，根据获取到的所述资源数据执行第二计算步骤：

第二计算模块获取AI平台的初始计算资源和计算资源的性能数据，并根据所述资源数据计算AI平台的剩余资源数据(即剩余数据)；第二计算模块根据该剩余资源数据和所述性能数据设定对应的权重值，定义该权重值为所述的第二资源值；

得到第二资源值后，所述第二计算模块向所述第三计算模块发送第三计算信号；

所述第三计算模块用于在收到所述第三计算信号后，根据所述第一资源值和所述第二资源值计算对应的资源分配值；

第三计算模块将所述第一资源值和所述第二资源值执行第三计算步骤，得到所述资源分配值；第三计算步骤为：第三计算模块采用相乘取整算法：第三计算模块将所述第一资源值和所述第二资源值相乘并取整，得到的结果为所述资源分配值；取整方式按四舍五入；该资源分配值对应所述y₁、y₂、y₃；

得出资源分配值后，第三计算模块发送与该资源分配值对应的分配信号至所述资源处理模块；

所述资源处理模块用于在收到所述分配信号后，根据所述资源分配值重新分配其对应的资源数据所对应的计算资源至所述训练任务。

通过本实施例中描述的系统，可以基于数据获取模块、数据计算模块和资源处理模块的相互配合对于任何AI模型算法得到其对应的资源分配值；通过该资源分配值对所述计算资源进行分配，提升了AI模型算法的迭代次数，提高了AI平台的资源利用率，同时也提高了AI平台的任务处理效率。

基于与前述实施例中一种AI平台资源调控方法同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述AI平台资源调控方法的步骤。

区别于现有技术，采用本申请一种AI平台资源调控方法、系统及介质可以通过本方法对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算，并将其整合为算法，提高了计算资源分配的稳定性和准确性，通过本系统为本方法提供了技术支撑，通过进而缩短了训练任务的训练时间，提高了AI算法的迭代次数，并大大提高了AI平台中资源的利用率和训练任务的处理效率。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种AI平台资源调控方法，其特征在于，包括以下步骤：

配置学习算法，基于所述学习算法获取资源数据；

根据所述资源分配值进行资源分配；

所述第一计算步骤为：在所述资源数据中设定第一资源数据和第二资源数据；对所述第一资源数据进行向量化处理，得到第一特征数据；在所述第二资源数据中选取基准数据，根据所述基准数据计算与所述第二资源数据对应的第二特征数据；根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值；

所述第一资源数据包括：深度学习框架、数据集类型、数据集大小、镜像信息和训练时间；

所述第二资源数据包括：训练任务所占用CPU内核数量、训练任务所占用GPU卡数和训练任务所占用的内存大小；

所述根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值的步骤进一步包括：计算与所述第二特征数据对应的均方误差；获取与所述线性回归方程对应的权重参数和偏置参数；将所述均方误差作为所述线性回归方程的损失函数，并将所述第一特征数据、所述权重参数和所述偏置参数代入所述线性回归方程进行线性回归计算，得到与所述第二特征数据对应的所述第一资源值；

所述第二计算步骤为：根据所述初始数据计算所述资源数据所对应的剩余数据；获取所述资源数据所对应的性能数据；根据所述性能数据和所述剩余数据计算所述第二资源值；

所述第三计算步骤为：对所述第一资源值和所述第二资源值采用相乘取整算法，得到所述资源分配值。

2.根据权利要求1所述的AI平台资源调控方法，其特征在于：所述配置学习算法，基于所述学习算法获取资源数据的步骤进一步包括：

设定第一时间阈值；

获取训练任务；

根据所述学习算法对所述训练任务分配计算资源；

分配所述计算资源后，开始第一计时操作，生成第一时间；

当所述第一时间达到所述第一时间阈值时，获取所述训练任务所占用的所述计算资源所对应的所述资源数据。

3.根据权利要求1所述的AI平台资源调控方法，其特征在于：所述根据所述性能数据和所述剩余数据计算所述第二资源值的步骤进一步包括：

4.根据权利要求3所述的AI平台资源调控方法，其特征在于：所述第四计算步骤为：

5.一种AI平台资源调控系统，其特征在于，包括：数据获取模块、数据计算模块和资源处理模块；

所述计算模块还用于在所述资源数据中设定第一资源数据和第二资源数据；所述计算模块对所述第一资源数据进行向量化处理，得到第一特征数据；所述计算模块在所述第二资源数据中选取基准数据，根据所述基准数据计算与所述第二资源数据对应的第二特征数据；所述计算模块根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值；

所述计算模块还用于计算与所述第二特征数据对应的均方误差；所述计算模块获取与所述线性回归方程对应的权重参数和偏置参数；所述计算模块将所述均方误差作为所述线性回归方程的损失函数，并将所述第一特征数据、所述权重参数和所述偏置参数代入所述线性回归方程进行线性回归计算，得到与所述第二特征数据对应的所述第一资源值；

所述计算模块还用于获取所述资源数据所对应的初始数据，并根据所述初始数据和所述资源数据执行第二计算步骤，得到第二资源值；所述计算模块通过所述第一资源值和所述第二资源值执行第三计算步骤，得到资源分配值；所述计算模块还用于根据所述初始数据计算所述资源数据所对应的剩余数据；所述计算模块获取所述资源数据所对应的性能数据；所述计算模块根据所述性能数据和所述剩余数据计算所述第二资源值；所述计算模块对所述第一资源值和所述第二资源值采用相乘取整算法，得到所述资源分配值；

所述资源处理模块用于根据所述资源分配值进行资源分配。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1~4中任一项所述AI平台资源调控方法的步骤。