CN112965813B - 一种ai平台资源调控方法、系统及介质 - Google Patents

一种ai平台资源调控方法、系统及介质 Download PDF

Info

Publication number
CN112965813B
CN112965813B CN202110181340.9A CN202110181340A CN112965813B CN 112965813 B CN112965813 B CN 112965813B CN 202110181340 A CN202110181340 A CN 202110181340A CN 112965813 B CN112965813 B CN 112965813B
Authority
CN
China
Prior art keywords
data
resource
value
calculation
linear regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110181340.9A
Other languages
English (en)
Other versions
CN112965813A (zh
Inventor
袁利杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110181340.9A priority Critical patent/CN112965813B/zh
Publication of CN112965813A publication Critical patent/CN112965813A/zh
Application granted granted Critical
Publication of CN112965813B publication Critical patent/CN112965813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种AI平台资源调控方法,包括以下步骤:配置学习算法,基于学习算法获取资源数据;设定线性回归方程,基于资源数据和线性回归方程执行第一计算步骤,得到第一资源值;获取资源数据所对应的初始数据,基于初始数据和资源数据执行第二计算步骤,得到第二资源值;基于第一资源值和第二资源值执行第三计算步骤,得到资源分配值;根据资源分配值进行资源分配;本发明能够对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算,并将其整合为算法,提高了计算资源分配的稳定性和准确性,进而缩短了训练任务的训练时间,提高了AI算法的迭代次数,并大大提高了AI平台中资源的利用率和训练任务的处理效率。

Description

一种AI平台资源调控方法、系统及介质
技术领域
本发明涉及人工智能训练平台技术领域,特别是涉及一种AI平台资源调控方法、系统及介质。
背景技术
随着科技的进步,人工智能技术应用的越为广泛,其中AI平台中的AI模型算法为最常见的技术之一;AI模型算法在应用时,需要根据训练任务的需求分配对应的资源,因此AI平台的资源调控尤为关键;现有的AI平台资源调控方法是根据算法人员的经验进行资源的调控,这种方法分配的资源有很大的不确定性,并且当AI模型算法处理训练任务时,分配的资源占用也会发生一定的变化;但由于之前产生了资源分配的不确定性,这必定会影响AI模型算法处理任务的效率以及AI平台资源的利用率。
发明内容
本发明主要解决的是现有的AI平台资源调控方法导致AI平台的任务处理效率低及资源利用率低的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种AI平台资源调控方法,包括以下步骤:
配置学习算法,基于所述学习算法获取资源数据;
设定线性回归方程,基于所述资源数据和所述线性回归方程执行第一计算步骤,得到第一资源值;
获取所述资源数据所对应的初始数据,基于所述初始数据和所述资源数据执行第二计算步骤,得到第二资源值;
基于所述第一资源值和所述第二资源值执行第三计算步骤,得到资源分配值;
根据所述资源分配值进行资源分配。
作为一种改进的方案,所述第一计算步骤为:
在所述资源数据中设定第一资源数据和第二资源数据;
对所述第一资源数据进行向量化处理,得到第一特征数据;
在所述第二资源数据中选取基准数据,根据所述基准数据计算与所述第二资源数据对应的第二特征数据;
根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值。
作为一种改进的方案,所述第二计算步骤为:
根据所述初始数据计算所述资源数据所对应的剩余数据;
获取所述资源数据所对应的性能数据;
根据所述性能数据和所述剩余数据计算所述第二资源值。
作为一种改进的方案,所述第三计算步骤为:
对所述第一资源值和所述第二资源值采用相乘取整算法,得到所述资源分配值。
作为一种改进的方案,所述配置学习算法,基于所述学习算法获取资源数据的步骤进一步包括:
设定第一时间阈值;
获取训练任务;
根据所述学习算法对所述训练任务分配计算资源;
分配所述计算资源后,开始第一计时操作,生成第一时间;当所述第一时间达到所述第一时间阈值时,获取所述训练任务所占用的所述计算资源所对应的所述资源数据。
作为一种改进的方案,所述根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值的步骤进一步包括:
计算与所述第二特征数据对应的均方误差;
获取与所述线性回归方程对应的权重参数和偏置参数;
将所述均方误差作为所述线性回归方程的损失函数,并将所述第一特征数据、所述权重参数和所述偏置参数代入所述线性回归方程进行线性回归计算,得到与所述第二特征数据对应的所述第一资源值。
作为一种改进的方案,所述根据所述性能数据和所述剩余数据计算所述第二资源值的步骤进一步包括:
设定若干数据范围和与若干所述数据范围分别对应的权重值;
确定所述性能数据和所述剩余数据分别对应的第一数据范围和第二数据范围;
根据所述第一数据范围和所述第二数据范围分别对应的第一权重值和第二权重值执行第四计算步骤,得到所述第二资源值。
作为一种改进的方案,所述第四计算步骤为:
汇总所述第一权重值和所述第二权重值,得到若干第三权重值;
统计若干所述第三权重值中具有重复性的第三权重值的第一数量;
判断所述第一数量是否具有重复性;若是,则计算所述第一数量所对应的所述第三权重值的乘积,并定义所述乘积为所述第二资源值;若否,则选取所述第一数量所对应的所述第三权重值作为所述第二资源值。
本发明还提供一种AI平台资源调控系统,包括:
数据获取模块、数据计算模块和资源处理模块;
所述数据获取模块用于配置学习算法,并根据所述学习算法获取资源数据;
所述计算模块用于设定线性回归方程,并根据所述资源数据和所述线性回归方程执行第一计算步骤,得到第一资源值;
所述计算模块还用于获取所述资源数据所对应的初始数据,并根据所述初始数据和所述资源数据执行第二计算步骤,得到第二资源值;所述计算模块通过所述第一资源值和所述第二资源值执行第三计算步骤,得到资源分配值;
所述资源处理模块用于根据所述资源分配值进行资源分配。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述AI平台资源调控方法的步骤。
本发明的有益效果是:
1、本发明所述的AI平台资源调控方法,可以实现对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算,并将其整合为算法,提高了计算资源分配的稳定性和准确性,进而缩短了训练任务的训练时间,提高了AI算法的迭代次数,并大大提高了AI平台中资源的利用率和训练任务的处理效率。
2、本发明所述的AI平台资源调控系统,可以通过数据获取模块、数据计算模块和资源处理模块的相互配合,进而实现对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算,并将其整合为算法,提高了计算资源分配的稳定性和准确性,缩短了训练任务的训练时间,提高了AI算法的迭代次数,并大大提高了AI平台中资源的利用率和训练任务的处理效率。
3、本发明所述的计算机可读存储介质,可以实现引导数据获取模块、数据计算模块和资源处理模块进行配合,进而实现对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算,并将其整合为算法,提高了计算资源分配的稳定性和准确性,缩短了训练任务的训练时间,提高了AI算法的迭代次数,并大大提高了AI平台中资源的利用率和训练任务的处理效率,且有效的增加了所述AI平台资源调控方法的可操作性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述的AI平台资源调控方法的流程图;
图2是本发明实施例1所述的AI平台资源调控方法的示意图;
图3是本发明实施例2所述的AI平台资源调控系统的架构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
在本发明的描述中,需要说明的是,本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,IO(Input Output)是输入和输出,AI(Artificial Intelligence)是人工智能,GPU(Graphics Processing Unit)是图形处理器,CPU(Central Processing Unit/Processor)是中央处理器。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“学习算法”、“资源数据”、“资源值”、“资源分配值”、“剩余数据”、“性能数据”、“相乘取整算法”、“计时操作”、“特征数据”、“均方误差”、“损失函数”、“权重参数”、“偏置参数”、“重复性”、“权重值”应做广义理解。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
本实施例提供一种AI平台资源调控方法,如图1和图2所示,包括以下步骤:
S100、初始化任务环境;
步骤S100具体包括:
配置深度学习算法(即所述学习算法);获取训练任务;根据深度学习算法为所述训练任务分配计算资源,此时任务环境初始化完毕;此步骤中,对于不同的训练任务,采用的算法模型是有区别的,且并不是所有的训练任务都要配置相同的计算资源;所以此步骤中对于AI平台先配置深度学习算法,通过该算法对训练任务进行AI平台中计算资源的分配,进而可以对训练任务所占用的计算资源数据进行采集。
S200、在所述任务环境中,获取资源数据;
步骤S200具体包括:
设定第一时间阈值;在步骤S100中对所述训练任务分配所述计算资源后,执行第一计时操作:即开始计时,并生成第一时间;比对第一时间和第一时间阈值,当第一时间达到第一时间阈值时,对步骤S100中深度学习算法所应用的训练任务所对应的资源数据进行获取;资源数据包括:深度学习框架、数据集类型、数据集大小、镜像信息、占用CPU核数和占用内存大小等;获取到资源数据后,执行以下步骤:
S300、根据所述资源数据采取第一计算步骤和第二计算步骤,分别得到对应的第一资源值和第二资源值;
步骤S300具体包括:
S301、对采集到的所述资源数据执行第一计算步骤,选取所述资源数据中的一些但非全部的数据在此举例:
设训练任务所采用的深度学习框架为x1,数据集类型设为x2,数据集大小设为x3,镜像信息设为x4,训练时间设为x5;将上述数据进行向量化处理,定义处理后的数据为第一特征数据,即xj
设训练任务所占用CPU内核数量为y1,训练任务所占用GPU卡数为y2,训练任务所占用的内存大小为y3,设定关键资源为基准参数;
在本实施例中,因对应的问题在于AI平台的训练任务处理,所以选取GPU资源作为关键资源,因此,设定y2为所述基准参数;对应的有以下关系:y1=a*y2,y3=b*y2,对应的最终关系为:y=c*y2;该最终关系中,y代表对应训练任务的第一资源值;
通过线性回归算法计算y值:设定y1、y2、y3为第二特征数据;计算所述第二特征数据的均方误差
Figure BDA0002942274230000071
其中n为随机变量;
设定所述均方误差为损失函数;根据该损失函数对训练任务执行第一训练步骤:即多次的训练和采集若干不同的第一特征数据,进而统计得出对应的权重参数wj和偏置参数z;
设定线性回归方程;将所述第一特征数据、权重参数wj和偏置参数z代入该线性回归方程;通过该线性回归方程计算y值;
线性回归方程为:
y=∑xj*wj+z;
在本步骤中,直接将第一特征数据代入,即可得出对应的第一资源值,该第一资源值分别对应y1、y2、y3
针对于其他不同类型的训练任务,会有不同的第一特征数据和第二特征数据,可以根据第一计算步骤对应的更新该线性回归方程,进而得到与不同类型的训练任务对应的第一资源值。
S302、根据获取到的所述资源数据执行第二计算步骤:
获取AI平台的初始计算资源和计算资源的性能数据;根据所述资源数据计算AI平台的剩余资源数据(即剩余数据),即将初始计算资源减去其对应的资源数据就得到了对应的剩余资源数据;根据该剩余资源数据和所述性能数据设定对应的权重值,定义该权重值为所述的第二资源值。
在本实施例中,性能数据包括:IO负载、CPU负载和网络负载等;以上列举的性能数据作为计算资源的主要依据;因为剩余资源数据和权重值是正相关关系,性能数据和权重值是负相关关系,所以根据性能数据的不同设定对应的权重值;
在本实施例中,仅作为说明,将剩余资源数据和性能数据划分为不同的三个阶段,即为:0~30%,30~60%,60~90%;可以将此数值定义为第一数据范围、第二数据范围和第三数据范围;
当处于0~30%的情况时,剩余资源数据和性能数据的权重值均为1.5;当处于30~60%的情况时,剩余资源数据和性能数据的权重值均为1,当处于60~90%的情况时,剩余资源数据和性能数据的权重值均为0.8;
以上的百分比阈值和权重值均可根据AI平台的规格进行对应的设定;对应的,因为性能数据和剩余资源数据的占比情况是不同的,所以设定权重计算关系:得到若干权重值后,根据重复性统计权重值的个数:即统计若干权重值中相同权重值的个数,设定权重值中相同权重值的个数最大的权重值作为所述第二资源值;若相同的权重值的个数相等,则将两个权重值相乘,得到的乘积作为所述第二资源值;
例如:若得到若干权重值1.5、1.5、1、0.8;则选择1.5作为所述第二资源值;若得到若干权重值为1、1、1.5、1.5,则选择1*1.5的乘积1.5作为权重值。
S400、根据所述第一资源值和所述第二资源值计算对应的资源分配值;
步骤S400具体包括:
将所述第一资源值和所述第二资源值执行第三计算步骤,得到所述资源分配值;第三计算步骤为:采用相乘取整算法:将所述第一资源值和所述第二资源值相乘并取整,得到的结果为所述资源分配值;取整方式按四舍五入即可;该资源分配值对应所述y1、y2、y3;根据该资源分配值重新分配其对应的资源数据所对应的计算资源至所述训练任务。
通过本实施例中描述的方法,可以对于任何AI模型算法得到其对应的资源分配值;且根据该资源分配值分配资源必然不会存在不确定性,因为其权重值的计算加上线性回归的计算充分的提升了AI模型算法的迭代次数,提高了AI平台的资源利用率,同时也提高了AI平台的任务处理效率。
实施例2
本实施例提供一种AI平台资源调控系统,如图3所示,包括:
数据获取模块、数据计算模块和资源处理模块;
数据获取模块用于初始化任务环境;
数据获取模块操作时,具体包括:数据获取模块为AI平台配置深度学习算法(即所述学习算法);数据获取模块获取训练任务;数据获取模块根据深度学习算法为所述训练任务分配计算资源,此时任务环境初始化完毕;
数据获取模块在所述任务环境中,获取资源数据;
数据获取模块操作时,具体包括:数据获取模块设定第一时间阈值;数据获取模块对所述训练任务分配所述计算资源后,执行第一计时操作:即数据获取模块开始计时,并生成第一时间;数据获取模块比对第一时间和第一时间阈值,当第一时间达到第一时间阈值时,数据获取模块对深度学习算法所应用的训练任务所对应的资源数据进行获取;资源数据包括:深度学习框架、数据集类型、数据集大小、镜像信息、占用CPU核数和占用内存大小等;数据获取模块获取到资源数据后,向所述数据计算模块发送第一计算信号:
数据计算模块用于在收到所述第一计算信号后,数据计算模块根据所述资源数据采取第一计算步骤和第二计算步骤,分别得到对应的第一资源值和第二资源值;
数据计算模块包括第一计算模块、第二计算模块和第三计算模块;
数据计算模块操作时,具体包括:收到第一计算信号后,第一计算模块执行第一计算步骤:第一计算模块设训练任务所采用的深度学习框架为x1,数据集类型设为x2,数据集大小设为x3,镜像信息设为x4,训练时间设为x5;第一计算模块将上述数据进行向量化处理,并定义处理后的数据为第一特征数据,即xj
第一计算模块设训练任务所占用CPU内核数量为y1,训练任务所占用GPU卡数为y2,训练任务所占用的内存大小为y3,第一计算模块设定关键资源为基准参数;第一计算模块根据该基准参数计算第二特征数据y1、y2、y3
第一计算模块计算所述第二特征数据的均方误差,并设定所述均方误差为损失函数;第一计算模块根据该损失函数对训练任务执行第一训练步骤:即多次的测试训练,得出对应的权重参数和偏置参数;
第一计算模块设定线性回归方程,并将所述第一特征数据、权重参数和偏置参数代入线性回归方程;通过该线性回归方程计算所述第一资源值;
得出第一资源值后,第一计算模块发送第二计算信号至所述第二计算模块;
第二计算模块用于在收到所述第二计算信号后,根据获取到的所述资源数据执行第二计算步骤:
第二计算模块获取AI平台的初始计算资源和计算资源的性能数据,并根据所述资源数据计算AI平台的剩余资源数据(即剩余数据);第二计算模块根据该剩余资源数据和所述性能数据设定对应的权重值,定义该权重值为所述的第二资源值;
得到第二资源值后,所述第二计算模块向所述第三计算模块发送第三计算信号;
所述第三计算模块用于在收到所述第三计算信号后,根据所述第一资源值和所述第二资源值计算对应的资源分配值;
第三计算模块将所述第一资源值和所述第二资源值执行第三计算步骤,得到所述资源分配值;第三计算步骤为:第三计算模块采用相乘取整算法:第三计算模块将所述第一资源值和所述第二资源值相乘并取整,得到的结果为所述资源分配值;取整方式按四舍五入;该资源分配值对应所述y1、y2、y3
得出资源分配值后,第三计算模块发送与该资源分配值对应的分配信号至所述资源处理模块;
所述资源处理模块用于在收到所述分配信号后,根据所述资源分配值重新分配其对应的资源数据所对应的计算资源至所述训练任务。
通过本实施例中描述的系统,可以基于数据获取模块、数据计算模块和资源处理模块的相互配合对于任何AI模型算法得到其对应的资源分配值;通过该资源分配值对所述计算资源进行分配,提升了AI模型算法的迭代次数,提高了AI平台的资源利用率,同时也提高了AI平台的任务处理效率。
基于与前述实施例中一种AI平台资源调控方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述AI平台资源调控方法的步骤。
区别于现有技术,采用本申请一种AI平台资源调控方法、系统及介质可以通过本方法对于AI平台中不同类型的训练任务所需要分配的计算资源进行合理的计算,并将其整合为算法,提高了计算资源分配的稳定性和准确性,通过本系统为本方法提供了技术支撑,通过进而缩短了训练任务的训练时间,提高了AI算法的迭代次数,并大大提高了AI平台中资源的利用率和训练任务的处理效率。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种AI平台资源调控方法,其特征在于,包括以下步骤:
配置学习算法,基于所述学习算法获取资源数据;
设定线性回归方程,基于所述资源数据和所述线性回归方程执行第一计算步骤,得到第一资源值;
获取所述资源数据所对应的初始数据,基于所述初始数据和所述资源数据执行第二计算步骤,得到第二资源值;
基于所述第一资源值和所述第二资源值执行第三计算步骤,得到资源分配值;
根据所述资源分配值进行资源分配;
所述第一计算步骤为:在所述资源数据中设定第一资源数据和第二资源数据;对所述第一资源数据进行向量化处理,得到第一特征数据;在所述第二资源数据中选取基准数据,根据所述基准数据计算与所述第二资源数据对应的第二特征数据;根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值;
所述第一资源数据包括:深度学习框架、数据集类型、数据集大小、镜像信息和训练时间;
所述第二资源数据包括:训练任务所占用CPU内核数量、训练任务所占用GPU卡数和训练任务所占用的内存大小;
所述根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值的步骤进一步包括:计算与所述第二特征数据对应的均方误差;获取与所述线性回归方程对应的权重参数和偏置参数;将所述均方误差作为所述线性回归方程的损失函数,并将所述第一特征数据、所述权重参数和所述偏置参数代入所述线性回归方程进行线性回归计算,得到与所述第二特征数据对应的所述第一资源值;
所述第二计算步骤为:根据所述初始数据计算所述资源数据所对应的剩余数据;获取所述资源数据所对应的性能数据;根据所述性能数据和所述剩余数据计算所述第二资源值;
所述第三计算步骤为:对所述第一资源值和所述第二资源值采用相乘取整算法,得到所述资源分配值。
2.根据权利要求1所述的AI平台资源调控方法,其特征在于:所述配置学习算法,基于所述学习算法获取资源数据的步骤进一步包括:
设定第一时间阈值;
获取训练任务;
根据所述学习算法对所述训练任务分配计算资源;
分配所述计算资源后,开始第一计时操作,生成第一时间;
当所述第一时间达到所述第一时间阈值时,获取所述训练任务所占用的所述计算资源所对应的所述资源数据。
3.根据权利要求1所述的AI平台资源调控方法,其特征在于:所述根据所述性能数据和所述剩余数据计算所述第二资源值的步骤进一步包括:
设定若干数据范围和与若干所述数据范围分别对应的权重值;
确定所述性能数据和所述剩余数据分别对应的第一数据范围和第二数据范围;
根据所述第一数据范围和所述第二数据范围分别对应的第一权重值和第二权重值执行第四计算步骤,得到所述第二资源值。
4.根据权利要求3所述的AI平台资源调控方法,其特征在于:所述第四计算步骤为:
汇总所述第一权重值和所述第二权重值,得到若干第三权重值;
统计若干所述第三权重值中具有重复性的第三权重值的第一数量;
判断所述第一数量是否具有重复性;若是,则计算所述第一数量所对应的所述第三权重值的乘积,并定义所述乘积为所述第二资源值;若否,则选取所述第一数量所对应的所述第三权重值作为所述第二资源值。
5.一种AI平台资源调控系统,其特征在于,包括:数据获取模块、数据计算模块和资源处理模块;
所述数据获取模块用于配置学习算法,并根据所述学习算法获取资源数据;
所述计算模块用于设定线性回归方程,并根据所述资源数据和所述线性回归方程执行第一计算步骤,得到第一资源值;
所述计算模块还用于在所述资源数据中设定第一资源数据和第二资源数据;所述计算模块对所述第一资源数据进行向量化处理,得到第一特征数据;所述计算模块在所述第二资源数据中选取基准数据,根据所述基准数据计算与所述第二资源数据对应的第二特征数据;所述计算模块根据所述第一特征数据、所述第二特征数据和所述线性回归方程计算所述第一资源值;
所述第一资源数据包括:深度学习框架、数据集类型、数据集大小、镜像信息和训练时间;
所述第二资源数据包括:训练任务所占用CPU内核数量、训练任务所占用GPU卡数和训练任务所占用的内存大小;
所述计算模块还用于计算与所述第二特征数据对应的均方误差;所述计算模块获取与所述线性回归方程对应的权重参数和偏置参数;所述计算模块将所述均方误差作为所述线性回归方程的损失函数,并将所述第一特征数据、所述权重参数和所述偏置参数代入所述线性回归方程进行线性回归计算,得到与所述第二特征数据对应的所述第一资源值;
所述计算模块还用于获取所述资源数据所对应的初始数据,并根据所述初始数据和所述资源数据执行第二计算步骤,得到第二资源值;所述计算模块通过所述第一资源值和所述第二资源值执行第三计算步骤,得到资源分配值;所述计算模块还用于根据所述初始数据计算所述资源数据所对应的剩余数据;所述计算模块获取所述资源数据所对应的性能数据;所述计算模块根据所述性能数据和所述剩余数据计算所述第二资源值;所述计算模块对所述第一资源值和所述第二资源值采用相乘取整算法,得到所述资源分配值;
所述资源处理模块用于根据所述资源分配值进行资源分配。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~4中任一项所述AI平台资源调控方法的步骤。
CN202110181340.9A 2021-02-10 2021-02-10 一种ai平台资源调控方法、系统及介质 Active CN112965813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110181340.9A CN112965813B (zh) 2021-02-10 2021-02-10 一种ai平台资源调控方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110181340.9A CN112965813B (zh) 2021-02-10 2021-02-10 一种ai平台资源调控方法、系统及介质

Publications (2)

Publication Number Publication Date
CN112965813A CN112965813A (zh) 2021-06-15
CN112965813B true CN112965813B (zh) 2023-01-10

Family

ID=76284680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110181340.9A Active CN112965813B (zh) 2021-02-10 2021-02-10 一种ai平台资源调控方法、系统及介质

Country Status (1)

Country Link
CN (1) CN112965813B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722292B (zh) * 2021-08-30 2024-02-09 深圳平安智慧医健科技有限公司 分布式数据系统的应灾处理方法、装置、设备及存储介质
CN114281528A (zh) * 2021-12-10 2022-04-05 重庆邮电大学 一种基于深度强化学习和异构Spark集群的节能调度方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN112215521A (zh) * 2020-10-29 2021-01-12 支付宝(杭州)信息技术有限公司 资源分配方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482407B2 (en) * 2016-11-14 2019-11-19 Apptio, Inc. Identifying resource allocation discrepancies
CN107995039B (zh) * 2017-12-07 2020-11-03 福州大学 面向云软件服务的资源自学习与自适应分配方法
CN110321222B (zh) * 2019-07-01 2021-05-07 中国人民解放军国防科技大学 基于决策树预测的数据并行作业资源分配方法
CN111314120A (zh) * 2020-01-23 2020-06-19 福州大学 基于迭代QoS模型的云软件服务资源自适应管理框架
CN111638959A (zh) * 2020-06-02 2020-09-08 山东汇贸电子口岸有限公司 云环境下基于负载回归预测的弹性伸缩方法及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN112215521A (zh) * 2020-10-29 2021-01-12 支付宝(杭州)信息技术有限公司 资源分配方法及装置

Also Published As

Publication number Publication date
CN112965813A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112965813B (zh) 一种ai平台资源调控方法、系统及介质
CN111258767B (zh) 复杂系统仿真应用的云计算资源智能分配方法与装置
CN108092804B (zh) 基于Q-learning的电力通信网效用最大化资源分配策略生成方法
US20210312295A1 (en) Information processing method, information processing device, and information processing program
CN110689136B (zh) 一种深度学习模型获得方法、装置、设备及存储介质
WO2022048557A1 (zh) Ai模型的训练方法、装置、计算设备和存储介质
Yan et al. Efficient selection of a set of good enough designs with complexity preference
CN115660078A (zh) 一种分布式计算方法、系统、存储介质和电子设备
CN116257363B (zh) 资源调度方法、装置、设备及存储介质
CN114675975B (zh) 一种基于强化学习的作业调度方法、装置及设备
Badri et al. A sample average approximation-based parallel algorithm for application placement in edge computing systems
CN114492742A (zh) 神经网络结构搜索、模型发布方法、电子设备和存储介质
CN115016938A (zh) 一种基于强化学习的计算图自动划分方法
Nascimento et al. A reinforcement learning scheduling strategy for parallel cloud-based workflows
Tembine Mean field stochastic games: Convergence, Q/H-learning and optimality
CN113158435A (zh) 基于集成学习的复杂系统仿真运行时间预测方法与设备
CN114830137A (zh) 用于生成预测模型的方法和系统
CN113992520B (zh) 一种虚拟网络资源的部署方法和系统
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
de Freitas Cunha et al. An SMDP approach for Reinforcement Learning in HPC cluster schedulers
CN114327925A (zh) 一种电力数据实时计算调度优化方法及系统
CN112257977B (zh) 模糊工时下资源受限的物流项目工期优化方法及系统
CN117435308B (zh) 一种基于并行计算算法的Modelica模型仿真方法及系统
CN111274109B (zh) 一种基于请求处理模拟的系统软硬件拓扑的评估方法及系统
EP4177794A1 (en) Operation program, operation method, and calculator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant