CN113190351A - 一种面向分布式深度学习训练任务的高效资源分配系统 - Google Patents

一种面向分布式深度学习训练任务的高效资源分配系统 Download PDF

Info

Publication number
CN113190351A
CN113190351A CN202110487973.2A CN202110487973A CN113190351A CN 113190351 A CN113190351 A CN 113190351A CN 202110487973 A CN202110487973 A CN 202110487973A CN 113190351 A CN113190351 A CN 113190351A
Authority
CN
China
Prior art keywords
queue
jobs
job
resource allocation
predictable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110487973.2A
Other languages
English (en)
Other versions
CN113190351B (zh
Inventor
李方舒
赵来平
曲雯毓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110487973.2A priority Critical patent/CN113190351B/zh
Publication of CN113190351A publication Critical patent/CN113190351A/zh
Application granted granted Critical
Publication of CN113190351B publication Critical patent/CN113190351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向分布式深度学习训练任务的高效资源分配系统,包括:初始资源配置模块;LAS队列;二分类器;性能模型;多级反馈队列MLFQ,首先将分布式深度学习作业分为可预测作业和不可预测作业,并对两类作业设置不同的作业优先级和资源调整方案。针对于可预测作业,资源调整的收益往往是可以预测的,因此每次调整都可以给集群带来收益。而不可预测作业,其收益往往不可知。此外,可预测作业和不可预测作业的优先级计算方式不同,可预测作业综合考虑资源调整和剩余作业完成时间来计算优先级,而不可预测作业通过已接受服务数来计算优先级。为了统一两类作业在集群中的统一调度,我们采用波达计数法来解决该问题。

Description

一种面向分布式深度学习训练任务的高效资源分配系统
技术领域
本发明属于云计算技术领域,特别涉及大型云计算集群下分布式训练任务的预测、调度和资源分配,具体涉及一种面向分布式深度学习训练任务的高效资源分配系统。
背景技术
近几年来,深度学习模型的参数规模和复杂度迅速增长。例如,GPT-2、Turing NLG和GPT-3等自然语言处理模型的参数数量分别从1.5亿个参数增加到了17亿和175亿个参数。此外,Facebook的模型参数复杂度在过去的两年中也增加了两倍。这些超大规模的模型数量将会导致较高的训练费用。例如使用Tesla V100云实例训练一次GPT-3的成本超过460万美元,如此高的成本严重限制了研究进展。因此,如何提高云计算集群的训练效益和资源利用率,是资源管理面临的一个重要挑战。
现有的工作对训练效益的提升方法主要分为两类:动态优先级调度和动态资源分配。动态作业优先级调度为每个作业分配一个随时间变化的优先级,并按照作业当前的优先级来调度作业。该方法类似于最少获得服务数(LAS)算法的调度算法,它可以保证短作业具有较高优先级,优先被调度。但是,由于作业的运行时资源是固定的,该方法反而降低了集群资源利用率。动态资源分配方法不改变作业的优先级,而是根据作业运行时的资源需求和集群变化的资源可用性来调整超参数或资源分配。一旦资源配置发生了变化,这些作业往往依赖于一个预测模型来预测作业的训练效益。然而,较差的预测精度,特别是对非收敛模型,会导致整体训练性能的降低。
发明内容
本发明的目的是提供一种面向分布式深度学习训练任务的高效资源分配系统,旨在解决大型分布式深度学习集群下的资源利用低效问题,通过对分布式深度学习任务的预测、调度和资源调整,最小化平均作业完成时间和提升集群资源利用率。
为实现本发明的目的,本发明提供的一种面向分布式深度学习训练任务的高效资源分配系统,包括:
初始资源配置模块,其用于为训练作业分配一个初始资源配置;
LAS队列,其用于将作业按照获得服务数升序排序;
二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;
性能模型,其用于该模型可以估计作业的作业完成时间JCT;
正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;
多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达技术的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;
资源分配调整单元,其用于根据MLFQ队列调整队所有作业的资源分配。
其中,
以每个作业的5个指标作为输入来设计二分类器,其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交,二分类器采用机器学习算法来识别可预测作业。
其中,
所述二分类器使用K邻近、逻辑回归、随机森林回归、支持向量空气机器、多层感知机MLP时的准确率结果。
其中,
采用组合子模型策略来预测作业的剩余步骤数目(si)和步骤处理速度(qi),使用ci示作业的完成时间。上述三个因子具有以下函数关系:
Figure BDA0003051189380000031
其中si和qi分别代表作业i的剩余训练步骤数和单个步骤的处理速度。
其中,
所述组合子模型包括用于在参数服务器系统中,对一批输入数据的进行处理,包括前向传播、后向传播、数据传输、模型更新、数据拉取的速度模型;
其中,
所述组合子模型包括用于来描述每个可预测作业的收敛速度的步数模型。
其中,
对于速度模型,采用离线拟合的方法测量了不同资源配置
Figure BDA0003051189380000033
下的作业训练速度(qi),并推导出了(α111222)和
Figure BDA0003051189380000032
的系数,使用最小二乘法来计算最适合的样本系数。
其中,
对于步数模型,采用在线拟合的方法,在每个训练步骤后收集数据点(l,k),用最小二乘法对预测模型进行拟合,找到(u0,u1)的最佳系数。
为了对分布式深度学习作业进行加速,现有的调度系统提出了许多不同的调度策略,可以大致分为两类,一类是以作业运行信息作为输入的动态优先级调度,另一类是以作业资源为核心的动态资源调整。虽然这些方法都可以从一定程度上提升作业的运行效率,但是收益往往是有限的,并且伴随着作业在时间或空间上的牺牲。为了弥补上述方案的不足,本发明提供了一种基于作业可预测性的同一资源分配系统。从作业优先级和资源动态调整两个角度对作业进行高效的资源调度。
相比于现有工作,本发明首先将分布式深度学习作业分为可预测作业和不可预测作业,并对两类作业设置不同的作业优先级和资源调整方案。针对于可预测作业,资源调整的收益往往是可以预测的,因此每次调整都可以给集群带来收益。而不可预测作业,其收益往往不可知,对其盲目的资源调整,通常会给集群带来负收益。此外,可预测作业和不可预测作业的优先级计算方式不同,可预测作业综合考虑资源调整和剩余作业完成时间来计算优先级,而不可预测作业通过已接受服务数来计算优先级。为了统一两类作业在集群中的统一调度,我们采用波达计数法来解决该问题。
相比于现有的工作,本发明具有显著的效果。在平均作业完成时间上,本发明的效果是最新调度器的3倍。在平均CPU资源和GPU资源的利用率上,本发明提升了系统平均20%以上的资源利用率。在作业排队时间上,本发明的效果是最新调度器的5倍。
附图说明
图1为本发明的系统架构示意图。
图2为基于多级反馈队列的波尔达计数法示例。
具体实施方式
本发明提出了基于分布式深度学习作业的统一计算分配方法,来最小化深度学习作业的平均完成时间。相比于现有的工作,本发明充分利用了训练作业的部分可预测性和异构CPU-GPU集群资源的特性。它将可预测作业和不可预测作业相结合一起在集群中进行调度。另一方面,本发明还支持按照最少获得服务数(LAS)算法来调度不可预测作业,从而减少作业的平均完成时间。
本发明提出了一种面向分布式深度学习训练任务的高效资源分配系统。该系统的基本思想是,在CPU和GPU混合资源上,可以准确识别部分可预测作业,并对可预测作业和不可预测作业做动态资源调度。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
对于本领域技术人员而言,可根据具体情况理解上述术语在本申请中的具体含义。
一、系统架构
图1是本申请系统的整体架构。
用户首先提交了一个训练作业,若用户指定了资源配置,则该作业以该配置运行,若没有指定资源配置,则由调度器分配一个初始资源配置。资源调度器根据作业和资源状态,定期调整资源分配和其他超参数配置,以最小化平均作业完成时间。受最少获得服务数(LAS)策略的启发,调度器维护了一个LAS队列,将作业(可预测作业和不可预测作业)按照获得服务数升序排序。因此,一个最新到达的作业将被放在队列的头部。然而,直接采用LAS队列是不可行的,因为CPU服务数(Scpu=cpu×time)和GPU服务数(Sgpu=gpu×time)不可同时进行比较。我们使用转换系数δ:Scpu=δ×Sgpu来解决这一问题,并通过多次实验来评价最佳的系数δ。
新提交的作业都是不可预测作业,调度器定期将这些作业放入二分类器中,来识别它们是否由不可预测作业转变为可预测作业。对于每一个可预测作业,我们建立了性能模型,该模型可以估计作业的作业完成时间(JCT),从而在不同的资源配置下展开作业调度和资源调整。根据性能模型和资源分配状态,我们可以推导出调整任意资源分配后,作业的JCT收益。如果一个正在运行的作业所分配的资源减少,那么它的JCT将会变长,反之亦然。作业的资源调整后得到两个队列,分别为正效益队列和负效益队列,分别放置JCT增加或减少的作业。
针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,本申请进一步设计了一种基于波达技术的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列(MLFQ),从而缓解不可预测作业长时间训练带来而导致其他作业饥饿的问题,然后,调度器根据MLFQ队列调整队所有作业的资源分配。集群中的监控器对所有运行中的作业进行监控,并不断收集作业的运行信息(例如损失值等),拟合并更新二分类器和性能分析模型。
二、二分类器
影响训练中作业可预测性的因素有很多,其中主要分为三种类型:(1)模型本身的特征。如参数大小、模型结构、损失值等。(2)训练框架的超参数。如参数服务器的数量、工作节点的数量、学习率、阶段(epoch)。(3)作业运行状态。如是否重新提交、CPU/GPU利用率、训练速度、收敛曲线。如表1所示,本申请总结了具有代表性的深度学习微基准测试,并从中选取了12个具有代表性的指标。
表1作业可预测性和指标间的相关性
Figure BDA0003051189380000061
本发明使用皮尔森相关系数、肯德尔相关系数和斯皮尔曼相关系数评估这些指标与作业可预测性之间的相关性,最终得到与可预测性有很强相关性的5个指标,包括最大完工时间、精度、损失值、吞吐量和是否重新提交。因此,我们以每个作业的5个指标作为输入来设计我们的二分类器。二分类器采用机器学习算法来识别可预测作业。为了获得准确的二分类器,我们通过采集8692个实际训练作业的5个指标建立了一个特征数据集。并使用数据集中90%的数据样本进行训练,使用剩下的10%的样本进行测试。我们最终得到的二分类器的准确率可以达到99%以上。
表2分别显示了二分类器使用K邻近(KNN)、逻辑回归(LR)、随机森林回归(RFR)、支持向量机(SVR)、多层感知机(MLP)时的准确率结果。评价指标包括精度、召回率、F1值和曲线下面积(AUC)。其中KNN和RFR的效果明显优于其他方法,精度高达99.8%。因此,在本发明的二分类器中选择KNN最为预测算法。
表2预测精度
Figure BDA0003051189380000071
三、预测模型和可预测作业
当位于LAS队列中的不可预测作业被确定为可预测后,调度系统就会为该作业建立一个准确的预测模型来估计不同资源配置下的作业完成时间(JCT)。在此基础上,本发明希望构建一个性能资源模型,该模型可以很好的描绘作业性能和资源(包括异构CPU和GPU资源)之间的关系。利用性能资源模型,可以在降低平均作业完成时间(JCT)的同时提高异构系统的资源效率。
为了精确预测作业的完成时间,我们采用组合子模型策略来预测作业的剩余步骤数目(si)和步骤处理速度(qi),使用ci表示作业i的完成时间。上述三个因子具有以下函数关系:
Figure BDA0003051189380000081
其中si和qi分别代表作业i的剩余训练步骤数和单个步骤的处理速度。
3.1速度模型
在参数服务器架构中,对一批输入数据的处理包括前向传播、后向传播、数据传输、模型更新、数据拉取。
前向传播:将一批输入数据转化为预测,与给定的标签进行比较,计算预测误差。
后向传播:使用计算的误差,通过后向传播计算每层可学习参数的梯度。
数据传输:工作节点向参数服务器节点传输梯度。
模型更新:每个参数服务器使用模型更新算法(SGD)来更新自己本地的模型参数。
数据拉取:工作节点从每个参数服务器拉取更新好的模型参数,并使用新的参数开启下一个训练步骤。
因此,单个步骤的处理速度为:
Figure BDA0003051189380000082
前向传播和后向传播
Figure BDA0003051189380000083
Figure BDA0003051189380000084
表示前向传播处理一个数据实例的时间,那么,处理一批大小为m的数据所需要的时间为
Figure BDA0003051189380000085
前向传播的时间随批处理数据的大小不同而不同,而后向传播通常与数据大小m无关,是一个固定的值。因此
Figure BDA0003051189380000086
Figure BDA0003051189380000087
在固定资源下变化不大。
当工作节点运行在CPU上时,通过拟合不同CPU资源下的性能曲线,我们发现前向和后向传播时间与所分配的CPU核心数呈现负指数关系,因此,我们得到公式:
Figure BDA0003051189380000091
其中α111是相关系数,
Figure BDA0003051189380000092
代表工作节点所分配的CPU核心数,mi为作业i的批大小。
当工作节点运行在GPU上时,如果有多个GPU分配给同一个工作节点时(较少网络开销),则会引入额外的局部梯度聚合开销。即每个GPU在后向传播中计算完梯度后,必须在本地进行梯度聚合,然后在将梯度发送给参数服务器。假设一个工作节点分配了gi个GPU,那么梯度聚合时间表示为
Figure BDA0003051189380000093
在使用GPU资源的情况下,我们得到的前向和后向传播公式为:
Figure BDA0003051189380000094
传输数据和拉取数据的时间
Figure BDA0003051189380000095
数据传输和数据拉取过程数据的大小是相同的,只是数据传输方向相反,因此有
Figure BDA0003051189380000096
假设网络带宽为N,Mi是作业i的参数大小。因为模型参数在参数服务器上平均分配,而网络带宽瓶颈往往在参数服务器端,所以一个步骤内的网络通信时间为
Figure BDA0003051189380000097
其中pi为参数服务器的数量,wi为工作节点的数量。此外,随着参数服务器和工作节点的增多,会产生额外的通信开销
Figure BDA0003051189380000098
因此,我们可以得到传输数据和拉取数据的时间为:
Figure BDA0003051189380000099
模型更新时间(tu):每个参数服务器使用梯度下降优化算法(SGD)来更新本地的模型参数。假设在一个参数服务器上更新所有参数M所花费的时间为tM,那么,每个参数服务器上的模型更新时间为tM/p。此外,我们发现模型参数更新时间与CPU核心数也具有负指数关系。因此,模型更新时间为:
Figure BDA00030511893800000910
其中α222是相关系数。由于参数服务器在CPU上的处理效率和GPU上相似,而GPU却十分昂贵,因此我们不考虑在参数服务器使用GPU资源。
3.2步数模型
为了预测作业达到预期精度所需要的步骤数k,本申请建立了一个子模型来描述每个可预测作业的收敛速度。从tensorflow官方给出的一些训练曲线发现,大多数深度学习模型使用随机梯度下降算法来更新模型参数,使用该算法的模型其损失值都随着训练步骤数的增多逐渐下降,并最终达到收敛。因此本申请可以选择下面的预测模型来拟合作业的损失曲线:
Figure BDA0003051189380000101
其中l代表损失值,u0,u1为非负系数。因此si可以通过ki减去已完成的步骤数算得。
3.3模型拟合
本发明采用拟合方法推导出速度模型和步数模型。对于速度模型,采用离线拟合的方法测量了不同资源配置
Figure BDA0003051189380000102
下的作业训练速度(qi),并推导出了(α111222)和
Figure BDA0003051189380000103
的系数。使用最小二乘法来计算最适合的样本系数。由于每次刻画训练只需要训练少量步骤数,时间仅需要几十秒,与几小时的训练时间相比,离线分析的成本可以忽略不计。在作业运行期间,当产生跟多的数据后,模型会不断更新。
对于步数模型,本发明采用在线拟合的方法,在每个训练步骤后收集数据点(l,k),用最小二乘法对预测模型进行拟合,找到(u0,u1)的最佳系数。因为频繁的曲线拟合代价昂贵,所以我们每隔几十步更新一次模型。随着数据的增多,模型的准确性也在不断升高。
需要说明的是,
1.可预测作业的资源分配
在得到可预测作业的预测模型后,该发明可以推导出最优的资源分配和参数服务器/工作节点的资源配置,从而最小化作业完成时间。但是,考虑到深度学习集群中的作业是连续到达的,因此我们需要最小化所有提交作业的剩余所需服务数,从而提高系统的长期资源效率。假设
Figure BDA0003051189380000111
代表作业i所需要的剩余服务数。在每个调度间隔,资源调度策略可以表述为:
目标:
Figure BDA0003051189380000112
约束条件:
Figure BDA0003051189380000113
Figure BDA0003051189380000114
Figure BDA0003051189380000115
其中
Figure BDA0003051189380000116
Figure BDA0003051189380000117
以及上述约束确保所有任务分配的GPU和CPU资源不超过系统的总CPU(C)和GPU(G)资源量。上述问题是一个非线性整数规划问题,因为ci不是一个线性函数。针对一般的NP难问题,我们设计了一种新的效用调度算法来解决它。
调度器不仅偏向于将更多的资源分配给那些可以从额外资源中获得收益的作业,还鼓励那些资源效益较低的作业为其他作业释放资源。因此,本申请调度算法运行如下:对于每个作业,调度器遍历五种资源
Figure BDA0003051189380000118
包括参数服务器数目、工作节点数目、GPU数目、参数服务器使用的CPU核心数、工作节点使用的CPU核心数。并分别计算增加单位量的五种资源和减少单位量的五种资源后的剩余服务数,选取这十种结果中的最小值。如果该作业的最终结果是增加资源,则将该作业放入正效益队列,若减少资源,则放入负效益队列。两个队列都按照Vi升序排序。该算法的时间复杂度为O(10J),其中J为作业总数量。
2.统一计算分配
到目前为止,只有可预测作业可以根据两个效益队列进行实际部署和处理。在LAS队列中仍有许多不可预测作业等待着。如何在可预测作业和不可预测作业之间分配异构的CPU/GPU资源是一个重大挑战。
为了将LAS队列中的任务和两个效益队列中的任务统一起来,本申请采用了波尔达计数法,这是一种用于选举获胜者的投票系统,每个投票人将候选人名单按照喜好排序进行投票。作业i从某一队列中收到的得分为J-irank,其中irank表示作业i在队列中的排序位置,通过计算不同作业在不同队列中的得分之和来计算获胜者。然而,由于不可预测作业只出现在LAS队列中,而可预测作业同时出现在正效益队列、负效益队列和LAS队列中,因此直接采用波尔达计数法对不可预测作业来说是不公平的。为了解决这一问题,我们将LAS队列分为两个独立的子队列,其中可预测LAS队列和不可预测LAS队列都以作业获得的服务数升序排序。如图2所示,可预测LAS队列与正效益队列和负效益队列相结合,从而计算所有可预测作业的得分。为了公平对比可预测作业和不可预测作业,不可预测LAS队列中的不可预测作业得分加倍。然后,将可预测作业和不可预测作业想结合,按照得分降序排序。
由于作业的优先级不断变化,导致作业间频繁的抢占,从而造成了巨大的开销。我们进一步将波尔达计数法应用到多级反馈队列上,即基于多级反馈队列的波尔达计数法。多级反馈队列每个队列都有一个阈值,而作业的得分作为作业的优先级,依次放入多级反馈队列中的对应位置。在调度过程中,优先调度高优先级队列中的作业,并抢占低优先级队列中的作业。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,包括:
初始资源配置模块,其用于为训练作业分配一个初始资源配置;
LAS队列,其用于将作业按照获得服务数升序排序;
二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;
性能模型,其用于该模型可以估计作业的作业完成时间JCT;
正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;
多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达技术的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;
资源分配调整单元,其用于根据MLFQ队列调整队所有作业的资源分配。
2.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
以每个作业的5个指标作为输入来设计二分类器,其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交,二分类器采用机器学习算法来识别可预测作业。
3.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述二分类器使用K邻近、逻辑回归、随机森林回归、支持向量空气机器、多层感知机MLP时的准确率结果。
4.根据权利要求3所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
采用组合子模型策略来预测作业的剩余步骤数目(si)和步骤处理速度(qi),使用ci示作业的完成时间。上述三个因子具有以下函数关系:
Figure FDA0003051189370000021
其中si和qi分别代表作业i的剩余训练步骤数和单个步骤的处理速度。
5.根据权利要求4所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述组合子模型包括用于在参数服务器系统中,对一批输入数据的进行处理,包括前向传播、后向传播、数据传输、模型更新、数据拉取的速度模型;
6.根据权利要求5所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述组合子模型包括用于来描述每个可预测作业的收敛速度的步数模型。
7.根据权利要求6所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
对于速度模型,采用离线拟合的方法测量了不同资源配置
Figure FDA0003051189370000022
下的作业训练速度(qi),并推导出了(α111222)和
Figure FDA0003051189370000023
的系数,使用最小二乘法来计算最适合的样本系数。
8.根据权利要求6所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
对于步数模型,采用在线拟合的方法,在每个训练步骤后收集数据点(l,k),用最小二乘法对预测模型进行拟合,找到(u0,u1)的最佳系数。
CN202110487973.2A 2021-05-06 2021-05-06 一种面向分布式深度学习训练任务的高效资源分配系统 Active CN113190351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110487973.2A CN113190351B (zh) 2021-05-06 2021-05-06 一种面向分布式深度学习训练任务的高效资源分配系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110487973.2A CN113190351B (zh) 2021-05-06 2021-05-06 一种面向分布式深度学习训练任务的高效资源分配系统

Publications (2)

Publication Number Publication Date
CN113190351A true CN113190351A (zh) 2021-07-30
CN113190351B CN113190351B (zh) 2022-06-21

Family

ID=76983495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110487973.2A Active CN113190351B (zh) 2021-05-06 2021-05-06 一种面向分布式深度学习训练任务的高效资源分配系统

Country Status (1)

Country Link
CN (1) CN113190351B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608875A (zh) * 2021-08-10 2021-11-05 天津大学 一种高吞吐云计算资源回收系统
CN114138477A (zh) * 2021-11-24 2022-03-04 中国人民解放军军事科学院战争研究院 一种信息系统运行态服务资源分配方法
CN115934362A (zh) * 2023-02-27 2023-04-07 北京大学 面向深度学习的服务器无感知计算集群调度方法及产品
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN116258199A (zh) * 2022-12-14 2023-06-13 浙江大学 面向大规模gpu集群的分布式训练时间预测方法及装置
CN116755893A (zh) * 2023-08-22 2023-09-15 之江实验室 面向深度学习的分布式计算系统的作业调度方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110126197A1 (en) * 2009-11-25 2011-05-26 Novell, Inc. System and method for controlling cloud and virtualized data centers in an intelligent workload management system
US20140143200A1 (en) * 2010-11-23 2014-05-22 Novell, Inc. System and method for determining fuzzy cause and effect relationships in an intelligent workload management system
CN111626430A (zh) * 2019-04-18 2020-09-04 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品
CN112714909A (zh) * 2018-09-18 2021-04-27 微软技术许可有限责任公司 合成数据任务的分类和资源分配的协调

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110126197A1 (en) * 2009-11-25 2011-05-26 Novell, Inc. System and method for controlling cloud and virtualized data centers in an intelligent workload management system
US20140143200A1 (en) * 2010-11-23 2014-05-22 Novell, Inc. System and method for determining fuzzy cause and effect relationships in an intelligent workload management system
CN112714909A (zh) * 2018-09-18 2021-04-27 微软技术许可有限责任公司 合成数据任务的分类和资源分配的协调
CN111626430A (zh) * 2019-04-18 2020-09-04 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608875A (zh) * 2021-08-10 2021-11-05 天津大学 一种高吞吐云计算资源回收系统
CN113608875B (zh) * 2021-08-10 2023-09-12 天津大学 一种高吞吐云计算资源回收系统
CN114138477A (zh) * 2021-11-24 2022-03-04 中国人民解放军军事科学院战争研究院 一种信息系统运行态服务资源分配方法
CN114138477B (zh) * 2021-11-24 2022-06-03 中国人民解放军军事科学院战争研究院 一种信息系统运行态服务资源分配方法
CN116258199A (zh) * 2022-12-14 2023-06-13 浙江大学 面向大规模gpu集群的分布式训练时间预测方法及装置
CN116258199B (zh) * 2022-12-14 2023-10-10 浙江大学 面向大规模gpu集群的分布式训练时间预测方法及装置
CN115934362A (zh) * 2023-02-27 2023-04-07 北京大学 面向深度学习的服务器无感知计算集群调度方法及产品
CN116155750A (zh) * 2023-04-19 2023-05-23 之江实验室 深度学习作业资源放置方法、系统、设备和存储介质
CN116755893A (zh) * 2023-08-22 2023-09-15 之江实验室 面向深度学习的分布式计算系统的作业调度方法和装置
CN116755893B (zh) * 2023-08-22 2023-11-17 之江实验室 面向深度学习的分布式计算系统的作业调度方法和装置

Also Published As

Publication number Publication date
CN113190351B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN113190351B (zh) 一种面向分布式深度学习训练任务的高效资源分配系统
CN107767022B (zh) 一种生产数据驱动的动态作业车间调度规则智能选择方法
Fan et al. Deep reinforcement agent for scheduling in HPC
CN110321222B (zh) 基于决策树预测的数据并行作业资源分配方法
CN103439886B (zh) 一种半导体生产线自适应动态调度装置
CN110737529A (zh) 一种面向短时多变大数据作业集群调度自适应性配置方法
CN102724103B (zh) 代理服务器、分层次网络系统及分布式工作负载管理方法
US20150113539A1 (en) Method for executing processes on a worker machine of a distributed computing system and a distributed computing system
CN111459617A (zh) 基于云平台的容器化应用自动分配优化系统及其方法
CN107070534A (zh) 一种中继卫星负载均衡的动态抢占式任务调度方法及系统
US10216543B2 (en) Real-time analytics based monitoring and classification of jobs for a data processing platform
CN111752708A (zh) 一种基于深度学习的存储系统自适应参数调优方法
CN106600058A (zh) 一种制造云服务QoS的组合预测方法
CN108170531B (zh) 一种基于深度信念网络的云数据中心请求流调度方法
CN112288341B (zh) 基于多智能体强化学习的信贷工厂订单调度方法及装置
CN115220898A (zh) 一种基于深度强化学习的任务调度方法、系统、装置及介质
CN117707759A (zh) 一种多租户gpu集群弹性配额调度方法和系统
Wang et al. Deepaalo: Auto-adjusting demotion thresholds for information-agnostic coflow scheduling
Reijnen et al. Job Shop Scheduling Benchmark: Environments and Instances for Learning and Non-learning Methods
CN117687760A (zh) 一种面向lvc仿真的容器云资源智能调度方法
CN116737394A (zh) 一种动态调整的安检集中判图任务分配方法
CN117808246A (zh) 柔性作业车间调度方法、装置及系统
CN116755888A (zh) 一种面向高性能计算云平台的作业调度装置及方法
Yang et al. On a Meta Learning-Based Scheduler for Deep Learning Clusters
CN111010695A (zh) 基于信道空闲时长预测的信道分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant