CN112948109A - 一种ai计算集群的配额弹性调度方法、装置及介质 - Google Patents

一种ai计算集群的配额弹性调度方法、装置及介质 Download PDF

Info

Publication number
CN112948109A
CN112948109A CN202110193059.7A CN202110193059A CN112948109A CN 112948109 A CN112948109 A CN 112948109A CN 202110193059 A CN202110193059 A CN 202110193059A CN 112948109 A CN112948109 A CN 112948109A
Authority
CN
China
Prior art keywords
computing
cloud platform
container
quota
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110193059.7A
Other languages
English (en)
Other versions
CN112948109B (zh
Inventor
胡叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110193059.7A priority Critical patent/CN112948109B/zh
Publication of CN112948109A publication Critical patent/CN112948109A/zh
Application granted granted Critical
Publication of CN112948109B publication Critical patent/CN112948109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种AI计算集群的配额弹性调度方法,应用于云平台,包括以下步骤:根据所述云平台配置扫描间隔、扩容阈值以及扩容策略;扫描运行于云平台的容器的计算资源,并扫描云平台的计算资源;对所述容器正在运行的第一计算任务的第一计算资源,与容器即将运行的第二计算任务的第二计算资源进行最大化校验;判断容器的计算资源是否满足最大化校验,若不满足,则执行扩容策略步骤;检测云平台的计算资源是否达到扩容阈值,若达到,则对所述容器开启所述扩容策略,通过上述方式,本发明能够实现当云平台有较多空闲计算资源时,可以弹性分配计算资源给企业用户,使有需要的用户能够充分利用空闲资源开展任务,同时也提高了集群资源利用率。

Description

一种AI计算集群的配额弹性调度方法、装置及介质
技术领域
本发明涉及云计算技术领域,特别是涉及一种AI计算集群的配额弹性调度方法、装置及介质。
背景技术
随着人工智能技术以及云计算产业的不断发展,越来越多的企业开始构建自身的AI资源管理平台来支撑AI业务的开发与进行,为了即时、高效的利用云平台供应商的计算资源,在对运行于云平台上的企业租户来说,应该让云平台的计算资源动态变化。
然而现有的云平台计算资源配额往往按照租户与云平台的合约固定供给,即时云平台有极多的空闲计算资源,也无法按照实际场景为企业进行配额的扩容,这样影响了企业的AI业务的工作效率,另一方面也无法完全发挥云平台的计算资源。
发明内容
本发明主要解决的是无法根据云平台集群负载的情况,对企业提供动态调配计算资源配额的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种AI计算集群的配额弹性调度方法,应用于云平台,包括以下步骤:
初始化配置:根据所述云平台配置扫描间隔、扩容阈值以及扩容策略;
扫描资源:扫描运行于所述云平台的容器的计算资源,并扫描所述云平台的计算资源;
最大化校验:对所述容器正在运行的第一计算任务的第一计算资源,与所述容器即将运行的第二计算任务的第二计算资源进行最大化校验;
计算资源判断:判断所述容器的计算资源是否满足最大化校验,若不满足,则执行扩容策略步骤;则检测所述云平台的计算资源是否达到所述扩容阈值;
执行扩容策略:检测所述云平台的计算资源是否达到所述扩容阈值,若达到,则对所述容器开启所述扩容策略。
进一步,所述扫描资源的步骤进一步包括:扫描所述容器的GPU总量、GPU空闲量、CPU总量和CPU空闲量,并将扫描时间以及所述空闲量记录于数据库,扫描所述云平台的计算资源并更新环境变量。
进一步,所述最大化校验的步骤进一步包括:将所述第一计算资源与所述第二计算资源对应的GPU总量及CPU总量执行累加操作。
进一步,扫描所述云平台的计算资源并更新环境变量的步骤进一步包括:所述环境变量包括所述云平台已使用计算资源以及空闲量,更新所述云平台已使用计算资源以及空闲量至所述数据库。
进一步,所述计算资源判断的步骤进一步包括:检测所述空闲资源是否达到所述扩容阈值。
进一步,所述计算资源判断的步骤进一步还包括:若所述容器的计算资源满足最大化校验,则所述容器并行运行所述第一计算任务和所述第二计算任务。
进一步,所述执行扩容策略的步骤进一步包括:若所述云平台的计算资源未达到所述扩容阈值,则所述容器运行完成所述第一计算任务后,串行运行所述第二计算任务。
进一步,所述执行扩容策略的步骤进一步还包括:根据所述扩容策略增加所述容器的GPU及CPU数量。
本发明还提供一种AI计算集群的配额弹性调度系统,应用于云平台,所述系统包括:阈值配置模块、负载监控模块和配额弹性管理模块;
所述阈值配置模块用于设定扫描间隔、扩容阈值和扩容策略;
所述负载监控模块用于根据所述扫描间隔定期扫描所述云平台的计算资源,并扫描运行于所述云平台的容器的计算资源;
所述负载监控模块还用于进行最大化校验;
所述配额弹性管理模块判断所述云平台空闲计算资源是否满足所述扩容阈值,并根据最大化校验对所述容器执行所述扩容策略。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现一项所述的AI计算集群的配额弹性调度方法步骤。
本发明的有益效果是:
1、本发明所述的AI计算集群的配额弹性调度方法,可以实现当云平台有较多空闲计算资源时,可以弹性分配计算资源给企业用户,使有需要的用户能够充分利用空闲资源开展任务,同时也提高了集群资源利用率。
2、本发明所述的AI计算集群的配额弹性调度系统,可以实现周期监测容器以及云平台计算资源,并可以进行最大化校验,根据扩容阈值对云平台进行空闲计算资源的校验,并在校验成功后执行扩容策略。
3、本发明所述的AI计算集群的配额弹性调度方法,可以实现设定扩容阈值以及扩容策略,并对第一计算资源以及第二计算资源进行最大化校验,并判断云平台是否满足扩容阈值。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述的AI计算集群的配额弹性调度方法示意图;
图2是本发明实施例2所述的AI计算集群的配额弹性调度系统示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
需要说明的是,在本发明的描述中,GPU(Graphics Processing Unit)是图像处理器,CPU(central processing unit)是中央处理器。
实施例1
本发明实施例提供一种AI计算集群的配额弹性调度方法,请参阅图1,包括以下步骤:
S100、根据云平台的性能设定扫描间隔,设定扫描间隔为了定期的获取GPU及CPU资源负载信息的情况,写入配置文件int maxGPU=utils.getConf(“MaxGPU”),int gpuAdd=utils.getConf(“AddGPU”),并以同样的方式写入CPU配置文件,因为当企业用户提交给云平台进行计算的任务,所需GPU达到上限时,企业用户再进行提交的新任务将会等待,直到当前的计算任务完成,才会进行新任务的计算。
设定扩容阈值,根据云平台整体的性能设定扩容阈值,此数值可以根据云平台集群性能设定,代码
Figure BDA0002945908050000041
根据当前GPU的空闲数量判断是否对企业用户的计算配额进行弹性调度;
在本实施例中,理想化云平台有80张GPU,每一张GPU的性能几乎相近,设定,若云平台有至少40%的GPU空闲时,即可认定满足扩容阈值,即代码中的maxGPU,当有企业用户出现新任务排队时,并且满足扩容阈值,满足弹性调度的需求,即开始扩容策略。
设定扩容策略,此扩容策略,即当触发弹性调度时,设定需要为企业用户的计算任务扩容多少张GPU,以及最多可以进行几次扩容策略,因为需要平衡运行在云平台上所有的企业用户的计算需求,所以此扩容策略扩容几张GPU需要根据实际情况去判断,可以是1张,也可以是2张或4张,具体是几张不属于我们所要讨论的范围。
S200、资源监控,按照扫描时间定期的扫描云平台上GPU资源的使用情况,通过开源组件Prometheus、cAdvisor,而且还要扫描运行计算任务的容器的性能,此容器相当于企业用户与云平台供应商签订协议时所购买的额定的计算资源,我们通过基本的容器组件docker stats命令,监控容器的性能,监控容器的GPU总量、GPU空闲量、CPU总量和CPU空闲量,并在监控完成后将监控时间、GPU总量、GPU空闲量、CPU总量和CPU空闲量的数据记录在数据库中,还将运行容器的云平台的环境变量进行更新记录,方便进行调度判断。
当达到扫描间隔时,执行计算资源的扫描,企业用户的每一个计算任务相当于运行于独立的容器中,而容器运行于云平台上,不同的计算任务运行的不同的容器互不关联,可以并行运行也可以串行运行,扫描第一计算任务对应的容器所需的计算资源,并扫描第一计算任务的下一个计算任务所需的计算资源,为了方便说明,将第一计算任务下一个计算任务命名为第二计算任务,扫描第二计算任务所需的计算资源。
S300、对第一计算任务与第二计算任务所需的计算资源执行最大化校验,结合当前的运行容器的云平台性能,判断是否能够满足并行运行第一计算任务与第二计算任务的需求,若不能满足,则使用云平台的资源接口判断是否可以进行计算资源的配额扩充,例如,当第一计算任务对应的容器的性能为8卡,当容器接收到新任务时,结合当前剩余的计算资源,判断是否需要进行计算资源的配额弹性扩充,若需要,则判断云平台空闲的GPU是否超过设定的扩容阈值,若超过,则使用扩容策略对容器进行计算资源的扩容,此时容器得到扩容后的计算资源,变成12张GPU的容器,若云平台的剩余的空闲计算资源无法满足扩容阈值,则新的计算任务在容器继续等待,直到当前的第一计算任务完成后,串行运行第二计算任务,根据代码,如果扩容后的用户配额仍不满足,则返回false,if(gpuNum>gpuAva){return false;};
调用资源管理接口,判断GPU数量是否有可用资源,isAva=ResourceControl.getAvailableResource(gpuNum);
如果可以调度,则更新用户可用资源配额
Figure BDA0002945908050000061
实施例2
本发明实施例提供一种AI计算集群的配额弹性调度系统,请参阅图2,包括:阈值配置模块、负载监控模块和配额弹性管理模块;
阈值配置模块根据云平台或者用户需求设定扫描间隔、扩容阈值和扩容策略;
负载监控模块设有开源组件Prometheus、cAdvisor,或者直接通过容器管理组件docker stats命令获取容器的性能,负载监控模块根据扫描间隔进行扫描,其中容器相当于云平台上每个企业用户购买的计算资源集群,每个容器的性能都不同,所以监控容器的GPU总量、GPU空闲量、CPU总量、CPU空闲量,并且将监控的时间以及被监控的容器的GPU总量、GPU空闲量、CPU总量、CPU空闲量记录在数据库中,负载监控模块还用于监控云平台的环境变量,方便云平台管理人员进行调度判断。
配额弹性管理模块用于根据容器当前运行的第一计算任务,以及下一个要运行的第二计算任务,将第一计算任务与第二计算任务执行最大化校验,确定容器所需的GPU数量,配额弹性管理模块与云平台资源接口连接,当确认第一计算任务与第二计算任务累加后所需的GPU数量大于容器当前的GPU数量时,判断云平台剩余的计算资源是否扩容阈值,若需要执行扩容,则根据扩容策略为容器进行计算资源的扩容,若不需要扩容,则令第二计算任务等待第一计算任务结束后,再进行计算。
基于与前述实施例中方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述公开的一种AI计算集群的配额弹性调度方法的步骤。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种AI计算集群的配额弹性调度方法,应用于云平台,其特征在于,包括以下步骤:
初始化配置:根据所述云平台配置扫描间隔、扩容阈值以及扩容策略;
扫描资源:扫描运行于所述云平台的容器的计算资源,并扫描所述云平台的计算资源;
最大化校验:对所述容器正在运行的第一计算任务的第一计算资源,与所述容器即将运行的第二计算任务的第二计算资源进行最大化校验;
计算资源判断:判断所述容器的计算资源是否满足最大化校验,若不满足,则执行扩容策略步骤;
执行扩容策略:检测所述云平台的计算资源是否达到所述扩容阈值,若达到,则对所述容器开启所述扩容策略。
2.根据权利要求1所述的AI计算集群的配额弹性调度方法,其特征在于:所述扫描资源的步骤进一步包括:扫描所述容器的GPU总量、GPU空闲量、CPU总量和CPU空闲量,并将扫描时间以及所述空闲量记录于数据库,扫描所述云平台的计算资源并更新环境变量。
3.根据权利要求1所述的AI计算集群的配额弹性调度方法,其特征在于:所述最大化校验的步骤进一步包括:将所述第一计算资源与所述第二计算资源对应的GPU总量及CPU总量执行累加操作。
4.根据权利要求2所述的AI计算集群的配额弹性调度方法,其特征在于:扫描所述云平台的计算资源并更新环境变量的步骤进一步包括:所述环境变量包括所述云平台已使用计算资源以及空闲量,更新所述云平台已使用计算资源以及空闲量至所述数据库。
5.根据权利要求4所述的AI计算集群的配额弹性调度方法,其特征在于:所述计算资源判断的步骤进一步包括:检测所述空闲资源是否达到所述扩容阈值。
6.根据权利要求5所述的AI计算集群的配额弹性调度方法,其特征在于:所述计算资源判断的步骤进一步还包括:若所述容器的计算资源满足最大化校验,则所述容器并行运行所述第一计算任务和所述第二计算任务。
7.根据权利要求1所述的AI计算集群的配额弹性调度方法,其特征在于:所述执行扩容策略的步骤进一步包括:若所述云平台的计算资源未达到所述扩容阈值,则所述容器运行完成所述第一计算任务后,串行运行所述第二计算任务。
8.根据权利要求1所述的AI计算集群的配额弹性调度方法,其特征在于:所述执行扩容策略的步骤进一步还包括:根据所述扩容策略增加所述容器的GPU及CPU数量。
9.一种AI计算集群的配额弹性调度系统,应用于云平台,其特征在于,所述系统包括:阈值配置模块、负载监控模块和配额弹性管理模块;
所述阈值配置模块用于设定扫描间隔、扩容阈值和扩容策略;
所述负载监控模块用于根据所述扫描间隔定期扫描所述云平台的计算资源,并扫描运行于所述云平台的容器的计算资源;
所述负载监控模块还用于进行最大化校验;
所述配额弹性管理模块判断所述云平台空闲计算资源是否满足所述扩容阈值,并根据最大化校验对所述容器执行所述扩容策略。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-8任一项所述的AI计算集群的配额弹性调度方法步骤。
CN202110193059.7A 2021-02-20 2021-02-20 一种ai计算集群的配额弹性调度方法、装置及介质 Active CN112948109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110193059.7A CN112948109B (zh) 2021-02-20 2021-02-20 一种ai计算集群的配额弹性调度方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110193059.7A CN112948109B (zh) 2021-02-20 2021-02-20 一种ai计算集群的配额弹性调度方法、装置及介质

Publications (2)

Publication Number Publication Date
CN112948109A true CN112948109A (zh) 2021-06-11
CN112948109B CN112948109B (zh) 2023-03-21

Family

ID=76244759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110193059.7A Active CN112948109B (zh) 2021-02-20 2021-02-20 一种ai计算集群的配额弹性调度方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112948109B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515382A (zh) * 2021-07-22 2021-10-19 中移(杭州)信息技术有限公司 云资源的分配方法、装置、电子设备及程序产品
WO2023231145A1 (zh) * 2022-06-02 2023-12-07 慧壹科技(上海)有限公司 基于云平台的数据处理方法、系统、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144727A (zh) * 2018-08-21 2019-01-04 郑州云海信息技术有限公司 云数据系统中资源的管理方法和装置
CN109343965A (zh) * 2018-10-31 2019-02-15 北京金山云网络技术有限公司 资源调整方法、装置、云平台和服务器
CN109766175A (zh) * 2018-12-28 2019-05-17 深圳晶泰科技有限公司 面向高性能计算在云上的资源弹性伸缩系统及其调度方法
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质
CN110888743A (zh) * 2019-11-27 2020-03-17 中科曙光国际信息产业有限公司 一种gpu资源使用方法、装置及存储介质
CN111399989A (zh) * 2020-04-10 2020-07-10 中国人民解放军国防科技大学 一种面向容器云的任务抢占调度方法及系统
US20200233712A1 (en) * 2017-10-26 2020-07-23 Alibaba Group Holding Limited Data Processing Method, Apparatus, Storage Medium, Processor, and System
CN111866187A (zh) * 2020-06-30 2020-10-30 中科院计算所西部高等技术研究院 分布式深度学习推理云平台任务调度方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200233712A1 (en) * 2017-10-26 2020-07-23 Alibaba Group Holding Limited Data Processing Method, Apparatus, Storage Medium, Processor, and System
CN109144727A (zh) * 2018-08-21 2019-01-04 郑州云海信息技术有限公司 云数据系统中资源的管理方法和装置
CN109343965A (zh) * 2018-10-31 2019-02-15 北京金山云网络技术有限公司 资源调整方法、装置、云平台和服务器
CN109766175A (zh) * 2018-12-28 2019-05-17 深圳晶泰科技有限公司 面向高性能计算在云上的资源弹性伸缩系统及其调度方法
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质
CN110888743A (zh) * 2019-11-27 2020-03-17 中科曙光国际信息产业有限公司 一种gpu资源使用方法、装置及存储介质
CN111399989A (zh) * 2020-04-10 2020-07-10 中国人民解放军国防科技大学 一种面向容器云的任务抢占调度方法及系统
CN111866187A (zh) * 2020-06-30 2020-10-30 中科院计算所西部高等技术研究院 分布式深度学习推理云平台任务调度方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515382A (zh) * 2021-07-22 2021-10-19 中移(杭州)信息技术有限公司 云资源的分配方法、装置、电子设备及程序产品
CN113515382B (zh) * 2021-07-22 2024-04-09 中移(杭州)信息技术有限公司 云资源的分配方法、装置、电子设备及存储介质
WO2023231145A1 (zh) * 2022-06-02 2023-12-07 慧壹科技(上海)有限公司 基于云平台的数据处理方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN112948109B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
US20190050046A1 (en) Reducing Power Consumption in a Server Cluster
CN114741207B (zh) 一种基于多维度组合并行的gpu资源调度方法和系统
CN111338791A (zh) 集群队列资源的调度方法、装置、设备及存储介质
US20110173329A1 (en) Methods and Apparatus for Coordinated Energy Management in Virtualized Data Centers
CN113377540A (zh) 集群资源调度方法及装置、电子设备和存储介质
CN112948109B (zh) 一种ai计算集群的配额弹性调度方法、装置及介质
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
CN111796933B (zh) 资源调度方法、装置、存储介质和电子设备
CN112486642B (zh) 资源调度方法、装置、电子设备及计算机可读存储介质
CN116541134B (zh) 多架构集群中容器的部署方法及装置
CN106201701A (zh) 一种带任务重复的工作流调度算法
CN114661482B (zh) 一种gpu算力管理方法、介质、设备及系统
CN115543624A (zh) 异构算力编排调度方法、系统、设备及存储介质
CN106407007B (zh) 面向弹性分析流程的云资源配置优化方法
CN117149372A (zh) 任务调度方法、装置、设备及存储介质
CN104794000A (zh) 一种作业调度方法及系统
US5345579A (en) Approximate MVA solution system and method for user classes with a known throughput rate
CN112052087B (zh) 动态资源调整与迁移的深度学习训练系统及方法
CN112130974B (zh) 云计算资源配置方法、装置、电子设备与存储介质
CN115543765A (zh) 测试用例调度方法、装置、计算机设备和可读介质
CN114090201A (zh) 资源调度方法、装置、设备及存储介质
CN112948118A (zh) 边缘计算方法、平台、计算机设备和可读存储介质
CN117971505B (zh) 部署容器应用的方法及装置
CN118034867A (zh) 任务调度方法、装置、设备、介质及程序产品
CN116643890A (zh) 一种集群资源调度方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant