CN112052087A - 动态资源调整与迁移的深度学习训练系统及方法 - Google Patents

动态资源调整与迁移的深度学习训练系统及方法 Download PDF

Info

Publication number
CN112052087A
CN112052087A CN202010865757.2A CN202010865757A CN112052087A CN 112052087 A CN112052087 A CN 112052087A CN 202010865757 A CN202010865757 A CN 202010865757A CN 112052087 A CN112052087 A CN 112052087A
Authority
CN
China
Prior art keywords
resource
cluster
efficiency
job
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010865757.2A
Other languages
English (en)
Other versions
CN112052087B (zh
Inventor
谭光明
马立贤
邵恩
张春明
段勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuncai Chongqing Technology Co ltd
Original Assignee
Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences filed Critical Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Publication of CN112052087A publication Critical patent/CN112052087A/zh
Application granted granted Critical
Publication of CN112052087B publication Critical patent/CN112052087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种动态资源调整与迁移的深度学习训练方法,所述方法包括如下步骤:S1:调整机群中作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比;所述机群整体的计算效率进行量化,采用如下方法确定:
Figure DDA0002649679360000011
其中,P表示机群整体的计算效率,J表示当前集群中作业的总数,Ei(Wi)表示作业i的在使用资源Wi下的扩缩效率,Wi表示当前作业所使用的worker数量;S2:获取机群中所有作业的模型特征;S3:根据步骤S2的模型特征,对步骤S1调整后的作业资源进行迁移。本发明利用动态集群资源调整法,减少GPU资源的浪费,缩减作业运行时间,提高作业运行效率,达到系统平均作业运行效率与资源利用率最佳的状态。

Description

动态资源调整与迁移的深度学习训练系统及方法
技术领域
本发明涉及云计算资源调度技术领域,尤其涉及一种动态资源调整与迁移的深度学习训练系统及方法。
背景技术
深度学习训练作业是一种计算密集型任务,通常需要使用大量的GPU资源进行并行运算以加快作业的完成时间。对于已存在的深度学习框架如Tensorflow、MXNet、PyTorch等都是采用静态资源分配的方式,而静态资源分配往往一方面会导致资源的浪费另一方面也会造成作业运行效率不高。当有作业失败或采用抢占式调度器情景时都会面临作业重调度的问题,对于重调度的作业会出现以下两个问题:(1)空闲资源或可抢占资源无法满足出错重调度作业的资源需求数量时,重调度作业出现长时间排队,影响作业平均JCT性能。(2)重调度作业排队过程中,空闲的碎片计算资源因被闲置,而降低计算资源的利用率。通过动态资源扩缩,一方面计算出重调度作业的最佳资源数量、另一方面对正在运行的作业进行动态扩缩与作业迁移使得重调度的作业满足运行需求并保证资源的利用率与作业的运行效率。
因此,亟需一种基于重调度动态资源扩缩算法的深度学习训练系统及方法。
发明内容
有鉴于此,本发明提供一种动态资源调整与迁移的深度学习训练系统及方法。
本发明提供一种动态资源调整与迁移的深度学习训练方法,其特征在于:所述方法包括如下步骤:
S1:调整机群中作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比;
所述机群整体的计算效率进行量化,采用如下方法确定:
Figure BDA0002649679340000021
其中,P表示机群整体的计算效率,J表示当前集群中作业的总数,Ei(Wi)表示作业i的在使用资源Wi下的扩缩效率,Wi表示当前作业所使用的工作单元数量;
S2:获取机群中所有作业的模型特征;
S3:根据步骤S2的模型特征,对步骤S1调整后的作业资源进行迁移。
进一步,所述方法还包括:在动态资源调整的同时,通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。
进一步,步骤S1具体包括如下步骤:
S11:定义预设的资源调整粒度S,设机群中的作业集合[M1、M2、...MJ],其中,J集群中作业的总数,令N=(1…J);
当一个新作业到达机群中时,首先检查是否存在此作业对应的计算效率,若是,则直接计算机群整体计算效率;若否,进入下一步;
S12:从机群中的作业集合中依次取出作业MN进行Wi-1规模的缩容,同时,判断可利用的资源是否大于等于S,若是,对新作业同步进行Wi-1规模的扩容,其中Wi表示当前作业所使用的worker数量,若否,则结束对新作业的扩容;
S13:判断作业MN的缩容是否大于S,若是,判断N是否大于J,若是,则结束,若否,则计算机群作业MN的扩缩效率和新作业的扩缩效率,并令N=N+1,进入S12;若否,直接进入S12;
所述扩缩效率采用如下方法确定:
Figure BDA0002649679340000031
其中,E表示扩缩效率,Niter表示在一测试时间内的迭代的次数,w表示作业所有工作单元占用的GPU资源数量。
进一步,所述步骤S3包括以下步骤:
S31:当新作业到来时,获取当前集群剩余资源大小、剩余资源分布,同时,判断当前集群中的剩余资源是否为空,若不为空则进入步骤S32,若为空则进入步骤S33;
S32:若当前集群剩余资源不为空,则为新来的作业分配当前集群中的所有剩余资源;
S33:选择资源占用最多的运行作业进行缩容,缩容的容量为扩缩效率大于固定阈值τ为止,扩缩步长最少为1次;
S34:遍历所有可能存在的资源分配可能性,循环动态调整所有运行作业的数量,最大化优化集群整体计算效率;
S35:判断作业的大张量单元占比是否不小于预设的临界值,若是,则将作业所占用资源的工作单元尽量迁移到相同的节点,若否,则将作业所占用资源工作单元尽量迁移到不同的节点上充分利用资源的碎片。
相应地,本发明还提供一种动态资源调整与迁移的深度学习训练系统,其特征在于:所述系统包括:用于统计作业运行时各项数据的统计模块和用于动态调整作业的动态作业资源调整模块;
所述统计模块包括作业运行时工作状态日志代码生成子模块、用于提取作业模型特征的作业特征提取器和用于监控资源使用状态与作业运行时状态的监控器;
所述动态作业资源调整模块包括动态逐步调整作业资源与资源重启子模块、数据存储单元和作业资源迁移单元。
本发明的有益技术效果:本发明提供的动态资源扩缩与迁移的深度学习训练系统及方法利用动态集群资源调整法,减少GPU资源的浪费,缩减作业运行时间,提高作业运行效率,达到系统平均作业运行效率与资源利用率最佳的状态。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的训练系统结构图。
图2为本发明的训练方法流程图。
图3为本发明的训练系统的系统原理图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明:
本发明提供一种动态资源调整与迁移的深度学习训练方法,其特征在于:所述方法包括如下步骤:
S1:调整机群中作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比;
所述机群整体的计算效率进行量化,采用如下方法确定:
Figure BDA0002649679340000041
其中,P表示机群整体的计算效率,J表示当前集群中作业的总数,Ei(Wi)表示作业i的在使用资源Wi下的扩缩效率,Wi表示当前作业所使用的工作单元数量;
量化机群整体的计算效率。调整各个训练作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比。为了保证机群的整体计算效率达到最高,首先需要对机群整体计算效率进行量化。该量化过程需要通过不断改变机群中各个训练作业的工作单元数量,获得各个训练作业在不同资源用量配比条件下的扩缩效率E,并使机群整体计算效率P达到最大值。机群整体计算效P其含义是:在不断地改变所有作业的资源数量的过程中求得的机群中所有作业计算效率的总和。通过每个作业的计算效率,可以得到每个作业对应的工作单元数量。通过上式获取机群整体计算效率最大值并决定最终资源的分配。
S2:获取机群中所有作业的模型特征;
S3:根据步骤S2的模型特征,对步骤S1调整后的作业资源进行迁移。由于不同特征的模型在不同的资源拓扑下训练的效率会不同,因此通过作业特征提取器获取作业模型的特征,根据不同的模型特征做不同的作业资源迁移策略,提高作业的运行效率并减少资源碎片。
通过上述技术方案,减少GPU资源的浪费,缩减作业运行时间,提高作业运行效率,达到系统平均作业运行效率与资源利用率最佳的状态。
在本实施例中,所述方法还包括:在动态资源调整的同时,通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。在动态逐步调整作业资源的同时,需要通过迭代测试去获得某个作业在某个资源用量下的扩缩效率。为了防止资源的浪费通过主动保存检查点机制在作业迭代测试之后主动将训练的参数进行保存。
在本实施例中,步骤S1具体包括如下步骤:
S11:定义预设的资源调整粒度S,设机群中的作业集合[M1、M2、...MJ],其中,J集群中作业的总数,令N=(1…J);
当一个新作业到达机群中时,首先检查是否存在此作业对应的计算效率,若是,则直接计算机群整体计算效率;若否,进入下一步;
S12:从机群中的作业集合中取出作业MN进行Wi-1规模的缩容,同时,判断可利用的资源是否大于等于S,若是,对新作业进行Wi-1规模的扩容,其中Wi表示当前作业所使用的worker数量,若否,则结束对新作业的扩容;
S13:判断作业MN的缩容是否大于S,若是,判断N是否大于J,若是,则结束,若否,则计算机群作业MN的扩缩效率和新作业的扩缩效率,并令N=N+1,进入S12;若否,直接进入S12;
所述扩缩效率采用如下方法确定:
Figure BDA0002649679340000061
其中,E表示扩缩效率,Niter表示在一测试时间内的迭代的次数,w表示作业所有worker占用的GPU资源数量。
在本实施例中,所述步骤S3包括以下步骤:如图2所示,
S31:当新作业到来时,获取当前集群剩余资源大小、剩余资源分布,同时,判断当前集群中的剩余资源是否为空,若不为空则进入步骤S32,若为空则进入步骤S33;
S32:若当前集群剩余资源不为空,则为新来的作业分配当前集群中的所有剩余资源;
S33:选择资源占用最多的运行作业进行缩容,缩容的容量为扩缩效率大于固定阈值τ为止,扩缩步长最少为1次;
S34:遍历所有可能存在的资源分配可能性,循环动态调整所有运行作业的数量,最大化优化集群整体计算效率;对于之前在集群中已经运行过的作业,通过运行时作业统计模块将得到的扩缩效率进行存储以便下次使用。对于没有历史运行信息或新运行的作业则需要通过迭代测试获取扩缩效率。在所有作业进行迭代测试最优化整体计算效率过程中,通过主动checkpoint机制保存在迭代测试过程中的训练参数,当下一次重启时可以重新加载保存的参数避免资源的浪费。
S35:判断作业的大张量单元占比是否不小于预设的临界值,若是,则将作业所占用资源的工作单元尽量迁移到相同的节点,若否,则将作业所占用资源的worker尽量迁移到不同的节点上充分利用资源的碎片。通过步骤S35,可实现在重启动所有任务之前通过作业的迁移减少作业间的通信开销。
相应地,本发明还提供一种动态资源调整与迁移的深度学习训练系统,其特征在于:所述系统包括:用于统计作业运行时各项数据的统计模块和用于动态调整作业的动态作业资源调整模块;
所述统计模块包括作业运行时工作状态日志代码生成子模块、用于提取作业模型特征的作业特征提取器和用于监控资源使用状态与作业运行时状态的监控器;
所述动态作业资源调整模块包括动态逐步调整作业资源与资源重启子模块、数据存储单元和作业资源迁移单元。
如图1所示,本申请包含两个子模块:运行时作业统计模块、动态作业资源调整模。针对运行时作业统计模块,包括作业运行时工作状态日志代码生成子模块、用于提取作业模型特征的作业特征提取器和用于监控资源使用状态与作业运行时状态的监控器,具有如下三个特征:
(1)作业运行时工作状态日志代码生成:作业的运行日志是后续模块进动态作业资源调整的重要依据,由于作业运行日志一般都是出现在客户端代码,因此不能保证用户所定义的运行日志符合后续统计的需求。因此需要通过抽象语法树(AST)的方法解析用户端代码,并添加特定格式的运行时日志以满足后续作业动态调整的需求,具体的日志内容包括:作业迭代的次数、作业耗费的时间。
(2)作业特征提取器:用户定义的模型特征是作业迁移的重要依据,因为不同特征的模型在不同位置的放置策略下作业的运行效率会不同,通过分析客户端代码的模型定义,获取模型大张量单元操作的占比,来决定迁移的策略。对于大张量单元占比较高的模型如VGG,尽量将作业迁移至相同的节点上防止通信的开销;对于大张量单元占比小的模型行如Resnet,可以将作业分布在不同的节点上,利用资源碎片提高整体资源的利用率。
(3)资源使用状态与作业运行时状态监控器:提供了获取资源当前使用状态如剩余资源大小、剩余资源分布的接口;提供了获取作业运行时状态的接口,作业运行时状态包括:包括集群剩余资源分布、当前运行时作业的资源分布与作业扩缩效率。动态作业资源调整模块利用这两个接口进行资源的动态调整。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种动态资源调整与迁移的深度学习训练方法,其特征在于:所述方法包括如下步骤:
S1:调整机群中作业的资源配比,对机群整体的计算效率进行量化,寻找能使整体计算效率达到最大的作业资源配比;
所述机群整体的计算效率进行量化,采用如下方法确定:
Figure FDA0002649679330000011
其中,P表示机群整体的计算效率,J表示当前集群中作业的总数,Ei(Wi)表示作业i的在使用资源Wi下的扩缩效率,Wi表示当前作业所使用的工作单元数量;
S2:获取机群中所有作业的模型特征;
S3:根据步骤S2的模型特征,对步骤S1调整后的作业资源进行迁移。
2.根据权利要求1所述动态资源调整与迁移的深度学习训练方法,其特征在于:所述方法还包括:在动态资源调整的同时,通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。
3.根据权利要求2所述动态资源调整与迁移的深度学习训练方法,其特征在于:步骤S1具体包括如下步骤:
S11:定义预设的资源调整粒度S,设机群中的作业集合[M1、M2、...MJ],其中,J集群中作业的总数,令N=(1…J);
当一个新作业到达机群中时,首先检查是否存在此作业对应的计算效率,若是,则直接计算机群整体计算效率;若否,进入下一步;
S12:从机群中的作业集合中依次取出作业MN进行Wi-1规模的缩容,同时,判断可利用的资源是否大于等于S,若是,对新作业同步进行Wi-1规模的扩容,其中Wi表示当前作业所使用的worker数量,若否,则结束对新作业的扩容;
S13:判断作业MN的缩容是否大于S,若是,判断N是否大于J,若是,则结束,若否,则计算机群作业MN的扩缩效率和新作业的扩缩效率,并令N=N+1,进入S12;若否,直接进入S12;
所述扩缩效率采用如下方法确定:
Figure FDA0002649679330000021
其中,E表示扩缩效率,Niter表示在一测试时间内的迭代的次数,w表示作业所有工作单元占用的GPU资源数量。
4.根据权利要求2所述动态资源调整与迁移的深度学习训练方法,其特征在于:所述步骤S3包括以下步骤:
S31:当新作业到来时,获取当前集群剩余资源大小、剩余资源分布,同时,判断当前集群中的剩余资源是否为空,若不为空则进入步骤S32,若为空则进入步骤S33;
S32:若当前集群剩余资源不为空,则为新来的作业分配当前集群中的所有剩余资源;
S33:选择资源占用最多的运行作业进行缩容,缩容的容量为扩缩效率大于固定阈值τ为止,扩缩步长最少为1次;
S34:遍历所有可能存在的资源分配可能性,循环动态调整所有运行作业的数量,最大化优化集群整体计算效率;
S35:判断作业的大张量单元占比是否不小于预设的临界值,若是,则将作业所占用资源的工作单元尽量迁移到相同的节点,若否,则将作业所占用资源工作单元尽量迁移到不同的节点上充分利用资源的碎片。
5.一种动态资源调整与迁移的深度学习训练系统,其特征在于:所述系统包括:用于统计作业运行时各项数据的统计模块和用于动态调整作业的动态作业资源调整模块;
所述统计模块包括作业运行时工作状态日志代码生成子模块、用于提取作业模型特征的作业特征提取器和用于监控资源使用状态与作业运行时状态的监控器;
所述动态作业资源调整模块包括动态逐步调整作业资源与资源重启子模块、数据存储单元和作业资源迁移单元。
CN202010865757.2A 2020-07-14 2020-08-25 动态资源调整与迁移的深度学习训练系统及方法 Active CN112052087B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010676830 2020-07-14
CN2020106768301 2020-07-14

Publications (2)

Publication Number Publication Date
CN112052087A true CN112052087A (zh) 2020-12-08
CN112052087B CN112052087B (zh) 2023-06-13

Family

ID=73600246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010865757.2A Active CN112052087B (zh) 2020-07-14 2020-08-25 动态资源调整与迁移的深度学习训练系统及方法

Country Status (1)

Country Link
CN (1) CN112052087B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI756974B (zh) * 2020-12-09 2022-03-01 財團法人工業技術研究院 機器學習系統及其資源配置方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060143350A1 (en) * 2003-12-30 2006-06-29 3Tera, Inc. Apparatus, method and system for aggregrating computing resources
US20080256223A1 (en) * 2007-04-13 2008-10-16 International Business Machines Corporation Scale across in a grid computing environment
US20140019966A1 (en) * 2012-07-13 2014-01-16 Douglas M. Neuse System and method for continuous optimization of computing systems with automated assignment of virtual machines and physical machines to hosts
CN109656691A (zh) * 2017-10-11 2019-04-19 阿里巴巴集团控股有限公司 计算资源的处理方法、装置以及电子设备
CN109756366A (zh) * 2018-12-24 2019-05-14 上海欣方智能系统有限公司 基于caas的智能网scp云服务实现系统
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060143350A1 (en) * 2003-12-30 2006-06-29 3Tera, Inc. Apparatus, method and system for aggregrating computing resources
US20080256223A1 (en) * 2007-04-13 2008-10-16 International Business Machines Corporation Scale across in a grid computing environment
US20140019966A1 (en) * 2012-07-13 2014-01-16 Douglas M. Neuse System and method for continuous optimization of computing systems with automated assignment of virtual machines and physical machines to hosts
CN109656691A (zh) * 2017-10-11 2019-04-19 阿里巴巴集团控股有限公司 计算资源的处理方法、装置以及电子设备
CN109756366A (zh) * 2018-12-24 2019-05-14 上海欣方智能系统有限公司 基于caas的智能网scp云服务实现系统
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDREW J. YOUNGE等: "Efficient resource management for Cloud computing environments", 《INTERNATIONAL CONFERENCE ON GREEN COMPUTING》, pages 1 - 8 *
YANGHUA PENG等: "Optimus: an efficient dynamic resource scheduler for deep learning clusters", 《EUROSYS \'18: PROCEEDINGS OF THE THIRTEENTH EUROSYS CONFERENCE》, pages 1 - 14 *
孟湘来等: "云计算中网络资源配比优化调度模型仿真", 《科技通报》, vol. 31, no. 7, pages 186 - 189 *
李季: "基于深度强化学习的移动边缘计算中的计算卸载与资源分配算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 9, pages 136 - 495 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI756974B (zh) * 2020-12-09 2022-03-01 財團法人工業技術研究院 機器學習系統及其資源配置方法
US11954527B2 (en) 2020-12-09 2024-04-09 Industrial Technology Research Institute Machine learning system and resource allocation method thereof

Also Published As

Publication number Publication date
CN112052087B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
WO2021179462A1 (zh) 基于改进量子蚁群算法的Spark平台任务调度方法
CN110321222B (zh) 基于决策树预测的数据并行作业资源分配方法
CN111274036B (zh) 一种基于速度预测的深度学习任务的调度方法
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
CN110888714A (zh) 容器的调度方法、装置和计算机可读存储介质
US20230244537A1 (en) Efficient gpu resource allocation optimization method and system
CN111625331A (zh) 任务调度方法、装置、平台、服务器及存储介质
CN111209077A (zh) 深度学习框架设计方法
CN113515351A (zh) 一种基于能耗与QoS协同优化的资源调度实现方法
CN114237869B (zh) 基于强化学习的Ray双层调度方法、装置和电子设备
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN114661482B (zh) 一种gpu算力管理方法、介质、设备及系统
CN115543577A (zh) 基于协变量的Kubernetes资源调度优化方法、存储介质及设备
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
CN115150471A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN107203256B (zh) 一种网络功能虚拟化场景下的节能分配方法与装置
CN112052087B (zh) 动态资源调整与迁移的深度学习训练系统及方法
US20230275848A1 (en) Network-aware resource allocation
CN113535387A (zh) 一种异构感知的gpu资源分配与调度方法及系统
CN110928659B (zh) 一种具有自适应功能的数值水池系统远程多平台接入方法
CN117331668A (zh) 一种作业调度方法、装置、设备及存储介质
CN114860449B (zh) 数据处理方法、装置、设备和存储介质
CN115145709B (zh) 低碳大数据人工智能方法和医康养生态系统
CN115952054A (zh) 一种仿真任务资源管理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231219

Address after: Room 7-1, Building 3, No. 99 Chunhua Avenue, Xiantao Street, Yubei District, Chongqing, 401120

Patentee after: Zhongke Yuncai (Chongqing) Technology Co.,Ltd.

Address before: 401121 building A15, Pisces, No. 53, middle section of Huangshan Avenue, Yubei District, Chongqing

Patentee before: Western Institute of advanced technology, Institute of computing, Chinese Academy of Sciences

TR01 Transfer of patent right