CN113467922A - 资源管理方法、装置、设备及存储介质 - Google Patents
资源管理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113467922A CN113467922A CN202010238609.8A CN202010238609A CN113467922A CN 113467922 A CN113467922 A CN 113467922A CN 202010238609 A CN202010238609 A CN 202010238609A CN 113467922 A CN113467922 A CN 113467922A
- Authority
- CN
- China
- Prior art keywords
- cloud
- training
- computing resource
- computing
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 117
- 238000007726 management method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 309
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000015654 memory Effects 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012544 monitoring process Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 230000006978 adaptation Effects 0.000 abstract description 18
- 230000001360 synchronised effect Effects 0.000 abstract description 10
- 238000010276 construction Methods 0.000 description 28
- 238000013473 artificial intelligence Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供一种资源管理方法、装置、设备及存储介质。在资源管理方法中,对训练任务对应的训练代码进行解析,可获取训练任务对应的训练数据以及训练任务的计算资源需求信息。基于此,可将训练数据同步至云平台上的云存储资源中,并根据计算资源需求信息在云平台上为该训练任务分配计算资源实例,实现了云平台上的存储资源和计算资源的自动适配,降低了资源适配的复杂度。
Description
技术领域
本申请涉及云计算技术领域,尤其涉及一种资源管理方法、装置、设备及存储介质。
背景技术
机器学习,是人工智能(Artificial Intelligence,AI)的核心,主要通过不同的算法来训练AI模型,进而基于AI模型使计算机具有智能性。
AI模型的训练,以海量的训练数据和大量的迭代优化计算为基础,因此对存储资源和计算资源的需求较高。基于此需求,在一些可提供海量存储资源和高性能计算资源的云平台进行AI模型训练,逐渐成为了一种趋势。
但是,基于云平台进行AI模型训练时,对人力的依赖较大,无法实现自动化的云资源分配。因此,有待提出一种解决方案。
发明内容
本申请的多个方面提供一种资源管理方法、装置、设备及存储介质,用以在人工智能计算时,实现自动化的资源分配。
本申请实施例提供一种资源管理方法,包括:获取训练任务对应的训练代码;解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息;将所述训练数据同步至云平台上的云存储资源,并在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例;将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务。
本申请实施例还提供一种资源管理装置,包括:训练任务监听模块,用于:获取训练任务对应的训练代码;训练任务解析模块,用于:解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息;云资源管理模块,用于:将所述训练数据同步至云平台上的云存储资源,并在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例;以及,将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务。
本申请实施例还提供一种资源管理设备,包括:存储器、处理器以及通信组件;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本申请实施例提供的资源管理方法。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时能够实现本申请实施例提供的资源管理方法。
本申请实施例提供的资源管理方法中,对训练任务对应的训练代码进行解析,可获取训练任务对应的训练数据以及训练任务的计算资源需求信息。基于此,可将训练数据同步至云平台上的云存储资源中,并根据计算资源需求信息在云平台上为该训练任务分配计算资源实例,实现了云平台上的存储资源和计算资源的自动适配,降低了资源适配的复杂度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一示例性实施例提供的资源管理方法的流程图;
图2为本申请一示例性实施例提供的即刻构建组件的功能交互示意图;
图3为本申请另一示例性实施例提供的资源管理方法的流程示意图;
图4为本申请一应用场景实施例的资源管理流程示意图;
图5a为本申请一示例性实施例提供的资源管理装置的流程示意图;
图5b为本申请一示例性实施例提供的即刻构建组件的结构示意图;
图6为本申请一示例性实施例提供的资源管理设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在AI领域,训练一个算法模型需要基于海量的训练数据进行大量的迭代优化计算,因此对存储资源和计算资源的需求较高。对于存在算法模型训练需求的用户而言,为降低训练所需的硬件设施成本,可借助服务商提供的IaaS(Infrastructure as a Service,基础设施即服务)资源实现算法模型训练操作。
IaaS,是将IT(Internet Technology,互联网技术)基础设施作为一种服务通过网络对外提供的一种服务模式。在这种服务模式下,用户可通过租用的方式,利用网络从IaaS服务商获得IT基础设施服务,例如可包括服务器、存储和网络等。
以IaaS服务商实现为云计算平台为例(以下简称云平台),云平台可向用户提供弹性的海量存储资源(如对象存储等);高性能的计算资源,如GPU(Graphics ProcessingUnit,图形处理器);大带宽的网络资源,如RDMA(Remote Direct Memory Access,远程直接数据存取)等等。
目前,使用云平台提供的IaaS资源训练人工智能模型时,用户可租用一台或多台带有GPU的云服务器,接着,将位于对象存储或本地的训练数据载入到云服务器的云盘上;接着,将训练代码上传至云服务器,并使用云服务器的GPU资源进行模型训练。但是,这种方式依赖于人工进行繁琐的云资源创建和适配操作。为解决该技术问题,在本申请一些实施例中,提供了一种解决方案,以下将结合附图进行示例性说明。
图1为本申请一示例性实施例提供的资源管理方法的流程示意图,如图1所示,该方法包括:
步骤101、获取训练任务对应的训练代码。
步骤102、解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息。
步骤103、将所述训练数据同步至云平台上的云存储资源,并在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例。
步骤104、将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务。
其中,训练任务,可包括多种训练AI模型的任务,例如,训练NLP(NaturalLanguage Processing,自然语言处理)模型的任务、训练CNN(Convolutional NeuralNetworks,卷积神经网络)模型的任务或者训练LSTM(Long Short-Term Memory,长短期记忆网络)模型的任务等等,本实施例包含但不限于此。
其中,训练数据(train date),包括用于训练AI模型的多种样本数据,根据训练任务的训练对象不同,训练数据也不同。例如,训练任务实现为训练NLP模型时,训练数据可实现为大量的语料集,包括文本语料以及语音语料等等。又例如,训练任务实现为训练CNN模型时,训练数据可实现为大量的样本图片,不再赘述。训练数据,可由训练任务的开发人员确定,开发人员可根据指定的开发规则,将训练数据的获取方式写入训练代码中。
其中,计算资源,指的是计算机程序运行时所需的处理器资源、内存资源、硬盘资源以及网络资源等等。计算资源需求信息,指的是用于描述执行训练任务所需的计算资源的信息。计算资源需求信息,可由训练任务的开发人员确定,并写入在训练代码中;或者,计算资源需求信息,可通过解析训练任务的实际需求并结合云平台上的计算资源存量状况确定,本实施例不做限制。
基于解析训练代码的操作,可自动获取训练任务对云平台上的云存储资源的需求和计算资源的需求,为后续的云上资源自动分配奠定了基础。
云存储资源,指的是云平台提供的云上存储资源。获取到训练数据后,可将训练数据同步至云平台上的云存储资源,进而,在云平台上执行训练任务时,可快速地从云存储资源中读取训练数据,提升训练效率。
计算资源实例,可实现为云平台上的云服务器实例。云服务器实例,是云平台上搭建的虚拟的计算环境,包含计算所需的处理器、内存、操作系统、带宽、磁盘等基础的计算组件。获取到训练任务对应的计算资源需求信息后,可在云平台上为训练任务分配与该计算资源需求信息适配的至少一个计算资源实例,以满足训练需求。
基于上述步骤完成云存储资源和计算资源的自动分配后,可将云存储资源提供给该至少一个计算资源实例,进而,该至少一个计算资源实例可根据训练代码以及训练数据,执行训练任务。
本实施例中,对训练任务对应的训练代码进行解析,可获取训练任务对应的训练数据以及训练任务的计算资源需求信息。基于此,可将训练数据同步至云平台上的云存储资源中,并根据计算资源需求信息在云平台上为该训练任务分配计算资源实例,实现了云平台上的存储资源和计算资源的自动适配,降低了资源适配的复杂度。
本申请的上述以及下述各实施例提供的资源管理方法,可基于能够执行资源管理逻辑的组件执行,如图2所示的即刻构建组件。该即刻构建组件可实现为插件或者应用程序。
在一些场景下,即刻构建组件运行于云平台上,用户将训练任务对应的训练代码上传至云平台上时,即刻构建组件可对该训练代码进行解析,并根据解析结果实现资源的自动适配操作。
在另一些场景下,即刻构建组件运行于用户的终端设备上,实现为用户测的常驻进程。可选地,该常驻进程可监听训练代码的开发过程,以自动获取训练代码并进行解析;或者,用户在终端设备上完成代码开发后,可主动触发启动即刻构建组件,以使即刻构建组件获取训练代码并进行解析,本实施例对此不做限制。
解析训练代码得到训练数据和计算资源需求信息后,如图2所示,即刻构建组件可根据训练数据对云上存储资源进行分配和管理;以及,根据计算资源需求信息,对云上计算资源进行分配和管理。需要说明的是,当即刻构建组件运行于终端设备上时,即刻构建组件可通过网络与云平台进行通信,以分配并管理云平台上的各种资源,不再赘述。
以下将结合图3,对即刻构建组件分配和管理云上存储资源和计算资源的可选实施方式进行进一步说明。
图3为本申请另一示例性实施例提供的资源管理方法的流程示意图,如图2所示,该方法包括:
步骤301、获取训练任务对应的训练代码。
步骤302、对所述训练代码进行编译,以获取所述训练代码调用的资源配置接口。
步骤303、根据所述资源配置接口的配置参数,获取所述训练任务对应的训练数据和计算资源需求信息。
步骤304、在所述云平台上,对所述训练数据进行备份,得到云备份数据。
步骤305、根据计算资源需求信息,在所述云平台上创建所述至少一个计算资源实例。
步骤306、根据所述云备份数据,在所述云平台上创建至少一个云盘;所述至少一个云盘的数量与所述至少一个计算资源实例的数量的适配。
步骤307、将所述至少一个云盘挂载到所述至少一个计算资源实例上,以在所述至少一个计算资源实例上,根据各自挂载的云盘提供的训练数据,执行对应的训练任务。
步骤308、在所述训练任务执行完毕时,释放所述至少一个计算资源实例以及所述至少一个云盘。
本实施例的执行主体为图2所示的即刻构建组件。
在步骤301-步骤303中,即刻构建组件在获取到训练任务对应的训练代码后,可对训练代码进行编译。
可选地,编译训练代码时,即刻训练组件可对训练代码进行词法分析以及语法分析。在上述分析的过程中,即刻训练组件可获取训练代码调用的接口,并识别每个接口是否为预定义的资源配置接口。其中,资源配置接口可以是预先与训练代码的开发人员进行约定的接口。开发人员基于约定的接口配置训练任务的资源相关信息,即刻构建组件基于开发人员对资源配置接口的配置,可分析训练任务对云上资源的需求。
可选地,资源配置接口可包括:用于配置训练数据的相关信息的训练数据配置接口,以及,用于配置计算资源需求信息的计算资源配置接口。以下将分别进行说明。
其中,针对训练数据配置接口,训练代码的开发人员可在训练代码中使用该接口,并定义该接口的配置参数,以指定训练数据的相关信息。即刻构建组件编译训练代码的过程中,可查询训练代码中是否调用了预定义的训练数据配置接口。可选地,训练数据配置接口的配置参数,可包括训练数据的存储地址。该地址可以是开发人员的终端设备上的地址,也可以是网络上的存储地址,本实施例不做限制。
可选地,在一些具体的场景下,该训练数据配置接口可实现为make_train_data(local_dir=dir)。开发人员可在训练代码中插入该接口,并配置训练数据在终端设备本地的存储路径。即刻构建组件可根据该本地存储路径,获取训练数据。
其中,针对计算资源配置接口,训练代码的开发人员可在训练代码中使用该接口,并定义该接口的配置参数,以设置对计算资源的需求。即刻构建组件编译训练代码的过程中,可查询训练代码中是否调用了预定义的训练数据配置接口。
可选地,计算资源配置接口的配置参数,可包括:训练任务所需的云上计算任务的相关参数。其中,云上计算任务,指的是借助云平台执行训练任务时,云平台上需要执行的计算作业(job)或任务(task)。可选地,云上计算任务的相关参数,可包括:云上计算任务的框架参数、云上计算任务的数量参数、云上计算任务各自的任务类型参数以及云上计算任务各自的任务角色参数中的至少一种。
其中,云上计算任务的框架参数,可用于配置云上计算任务的框架,例如,云上计算任务为单机任务,或者为分布式任务。
其中,云上计算任务的数量参数,用于配置云上计算任务的数量。例如,云上计算任务的数量为5,10或者20等等。
其中,云上计算任务各自的任务类型参数,用于配置各个云上计算任务的任务类型,例如,配置某一云上计算任务(task)为GPU任务类型,配置另一云上计算任务(task)为CPU任务类型,或者配置某一组云上计算任务为GPU任务类型等等。
其中,云上计算任务各自的任务角色参数,用于配置各个云上计算任务的角色。例如,配置某一云上计算任务的角色为:参数服务器。
可选地,除上述列举的计算资源配置参数之外,在一些可选的实施方式中,计算资源配置参数还可包括计算资源规格配置参数。该计算资源规格配置参数,可用于配置物理CPU型号、主频、内存、vCPU(虚拟处理器)等规格,本实施例不做限制。例如,用户可通过配置计算资源规格配置参数,要求某一云上计算任务对应的计算资源实例的内存不可小于512M。
需要说明的是,当训练任务所需的云上计算任务为多个时,开发人员可基于计算资源配置接口,独立配置每个云上计算任务的任务类型参数以及任务角色参数,或者,也可统一地为一组云上计算任务配置相同的任务类型参数和任务角色参数,具体可根据实际需求而定,本实施例不做限制。
基于上述计算资源配置接口的配置参数,即可构建组件可确定训练任务对应的计算资源需求信息,即:将训练任务所需的云上计算任务,映射为对云上计算资源的需求。以下将进行示例性说明。
可选地,即刻构建组件可根据该云上计算任务的框架参数,确定训练任务的计算资源框架需求信息。例如,训练任务为分布式任务时,所需的云上计算资源采用分布式框架进行部署。
可选地,即刻构建组件可根据该云上计算任务的数量参数,确定训练任务的计算资源数量需求信息。例如,训练任务需要5个云上计算任务执行时,所需的云上计算资源为5台云服务器。
可选地,即刻构建组件可根据云上计算任务各自的任务类型参数,确定训练任务的计算资源类型需求信息。例如,某一云上计算任务为GPU任务时,可确定该云上计算任务所需的云上计算资源为EGS(Elastic GPU Compute Service,弹性GPU计算服务器)。若某一组云上计算任务均为CPU任务时,可确定该组云上计算任务所需的云上计算资源为一组ECS(Elastic Compute Service,弹性计算服务器)实例。
可选地,即刻构建组件可根据云上计算任务各自的任务角色参数,确定训练任务对应的计算资源角色需求信息。例如,某一云上计算任务的任务角色为参数服务器,则可确定需将该云上计算任务对应的云上计算资源配置为参数服务器(parameter-server)框架中的服务器。
可选地,在一些可能的场景下,计算资源配置接口可实现为:
make_train_job(name=args.name,
num_tasks=args.machines,
instance_type=INSTANCE_TYPE)
基于上述接口,开发人员可通过配置args.machines,来配置训练任务所需的计算设备的数量,通过配置INSTANCE_TYPE来配置训练任务所需的计算设备的类型。即刻构建组件可根据num_tasks的值,创建一个或多个云上计算任务(task)。其中,每个云上计算任务对应的计算资源实例类型根据instance_type的值确定,不再赘述。
在步骤304中,获取到训练数据后,即刻构建组件可在云平台上对该训练数据进行备份,为便于描述和区分,将云平台上备份的训练数据描述为云备份数据。通过备份训练数据的操作,可将训练数据同步到云平台上,实现了云存储资源和云上计算资源的解耦。其中,云存储资源和云上计算资源的解耦,指的是降低云上存储资源对云上计算资源的依赖。其优势在于,在计算资源实例未创建完成之前,即可将训练数据同步到云平台上,降低了同步训练数据的操作对创建计算资源实例的操作的依赖,避免了在计算资源实例创建之后再将训练数据移动至计算资源实例上从而造成对时间的大量耗费。
可选地,在云平台上,对存储路径下的数据进行备份时,可在云平台上,为存储路径下的数据创建云盘快照(snapshot)。或者,可选地,可将该存储路径下的数据同步至平台上的指定文件存储设备。其中,该文件存储设备,可以是开发用户指定的,也可以是即刻构建组件为训练任务分配的。
可选地,即刻构建组件可监听该存储路径下的数据更新操作,并响应数据更新操作,根据该存储路径下更新后的数据,更新云备份数据。其中,更新后的数据,可包括更新后的增量数据或者减量数据。存在增量更新时,可将存储路径下的增量数据同步至云平台上。存在减量更新时,可将云备份数据中与存储路径下的减量数据对应的云备份数据进行删除。基于此,即刻构建组件可根据用户侧的数据增删情况,自动实现云备份数据的更新。
在步骤305,可选地,基于前述步骤的记载,计算资源需求信息包括:计算资源数量需求信息、计算资源类型需求信息、计算资源框架需求信息以及计算资源角色需求信息中的至少一种。
因此,在本步骤,可在云平台上,根据该计算资源数量需求信息、计算资源类型需求信息、计算资源框架需求信息以及计算资源角色需求信息中的至少一种,创建该至少一个计算资源实例。可选地,该至少一个计算资源实例,可以是ECS实例,也可以是EGS实例,本实施例不做限制。
步骤306、云备份数据位于云平台上,根据云备份数据,可快速创建云盘。特别地,当云备份数据实现为云盘快照时,根据云盘快照创建云盘所需的时间,可控制在秒级范围内,极大提升了云上资源的适配效率。
其中,云盘的数量与该至少一个计算资源实例的数量的适配。例如,计算资源实例的数量为5个时,可根据云备份数据生成5个云盘。其优势在于,当多个计算资源实例进行分布式处理的情况下,多个计算资源实例使用的训练数据具有一致性。
需要说明的是,步骤305和步骤306,可以不按照其在本实施例中出现的顺序执行,步骤305可以在步骤306之前执行,或者步骤306可以在步骤305之前执行,或者,步骤305和步骤306可以并行执行,本实施例对此不做限制。
步骤307、云盘带有文件系统,可挂载到云服务器实例上。基于此,在本步骤中,可将创建的该至少一个云盘挂载到该至少一个计算资源实例上。其中,每个计算资源实例上可挂载一个云盘,以满足每个计算资源实例对训练数据的需求以及对高速读取训练数据的需求。计算资源实例实现为ECS实例时,即刻构建组件可将云盘挂载在ECS实例上。相应地,计算资源实例实现为EGS实例时,即刻构建组件可将云盘挂载在EGS实例上。
接下来,可在每个计算资源实例上,根据每个计算资源各自挂载的云盘提供的训练数据,执行对应的训练任务。
在步骤308,即刻构建组件可进一步管理为训练任务分配的云上资源的生命周期。在训练任务执行完毕时,即刻构建组件可自动释放该至少一个计算资源实例以及该至少一个云盘,以供其他用户使用,不再赘述。
在本实施例中,即刻构建组件可通过分析训练任务对应的训练代码,自动为训练任务分配并管理云平台上的资源。进而,AI用户只需关注用于算法的代码实,无需手动执行云平台上的IaaS资源的构建、适配以及生命周期管理工作,进一步提升了训练效率。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤301至步骤303的执行主体可以为设备A;又比如,步骤301和302的执行主体可以为设备A,步骤303的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如301、302等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以下将结合图4,对本申请实施例提供的资源管理方法进行进一步说明。
首先,用户开发人工智能的算法程序,并申请执行训练任务。即刻构建组件监听并解析训练任务,根据解析结果,可获取训练所需的数据集的存储地址和所需的计算资源,并将训练任务映射成适配云上IaaS资源的执行命令。
接着,即刻构建组件可查询数据集云快照列表中,是否存在与该数据集的存储地址对应的数据集云快照;若存在,则执行下一步,即根据数据集云快照创建云盘;若不存在,则先创建或更新该数据集对应的数据集云快照,再根据创建或更新后的数据集云快照创建云盘。创建数据集云快照的操作,有利于将存储资源(云盘)和计算资源解耦。即刻构建组件从数据集云快照中创建的云盘可以为一个或多个,以保证分布式训练中的多台计算资源实例间的数据一致性。
接下来,即刻构建组件可执行适配云上IaaS资源的命令,查询云上的计算资源实例列表中,是否存在满足计算资源的需求的计算资源实例。若不满足,则创建训练所需的计算资源实例,例如EGS实例或者ECS实例。接下来,即刻构建组件可将云盘挂载到各个计算资源实例上,以在各计算资源实例上执行训练任务。训练任务结束后,即刻构建组件可根据需求,回收(释放)云上计算和存储资源,实现了云上资源的自动适配和管理。
图5a是本申请一示例性是实施例提供的资源管理装置的结构示意图,如图5a所示,该装置包括:
训练任务监听模块501,用于:获取训练任务对应的训练代码;
训练任务解析模块502,用于:解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息;
云资源管理模块503,用于:将所述训练数据同步至云平台上的云存储资源,并在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例;以及,将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务。
进一步可选地,训练任务解析模块502在解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息时,具体用于:对所述训练代码进行编译,以获取所述训练代码调用的资源配置接口;根据所述资源配置接口的配置参数,获取所述训练任务对应的训练数据和计算资源需求信息。
进一步可选地,框架所述资源配置接口的配置参数,包括:所述训练任务所需的云上计算任务的框架参数、所述云上计算任务的数量参数、所述云上计算任务各自的任务类型参数以及所述云上计算任务各自的任务角色参数中的至少一种。
进一步可选地,训练任务解析模块502在根据所述资源配置接口的配置参数,获取所述训练任务对应的计算资源需求信息时,可执行以下至少一种操作:根据所述云上计算任务的框架参数,确定所述训练任务的计算资源框架需求信息;根据所述云上计算任务的数量参数,确定所述训练任务的计算资源数量需求信息;根据所述云上计算任务各自的任务类型参数,确定所述训练任务的计算资源类型需求信息;根据所述云上计算任务各自的任务角色参数,确定所述训练任务对应的计算资源角色需求信息。
进一步可选地,云资源管理模块503在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例时,具体用于:根据所述训练任务对应的计算资源数量需求信息、计算资源类型需求信息、计算资源框架需求信息以及计算资源角色需求信息中的至少一种,在所述云平台上,创建所述至少一个计算资源实例。
进一步可选地,所述资源配置接口的配置参数,包括:所述训练数据的存储路径。
进一步可选地,云资源管理模块503在将所述训练数据同步至云平台上的云存储资源时,具体用于:在所述云平台上,对所述存储路径下的数据进行备份,得到云备份数据;根据所述云备份数据,在所述云平台上创建至少一个云盘;所述至少一个云盘的数量与所述至少一个计算资源实例的数量适配。
进一步可选地,云资源管理模块503在所述云平台上,对所述存储路径下的数据进行备份,得到云备份数据时,具体用于:在所述云平台上,为所述存储路径下的数据创建云盘快照;或者,将所述存储路径下的数据同步至所述云平台上的指定文件存储设备。
进一步可选地,训练任务监听模块501,还用于:监听所述存储路径下的数据更新操作;响应所述数据更新操作,根据所述存储路径下更新后的数据,更新所述云备份数据。
进一步可选地,云资源管理模块503在将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务时,具体用于:将所述至少一个云盘,分别挂载到所述至少一个计算资源实例上,以在所述至少一个计算资源实例上,根据各自挂载的云盘中的训练数据,执行对应的训练任务。
进一步可选地,云资源管理模块503还用于:若所述训练任务执行完毕,则释放所述至少一个计算资源实例以及所述云存储资源。本实施例中,对训练任务对应的训练代码进行解析,可获取训练任务对应的训练数据以及训练任务的计算资源需求信息。基于此,可将训练数据同步至云平台上的云存储资源中,并根据计算资源需求信息在云平台上为该训练任务分配计算资源实例,实现了云平台上的存储资源和计算资源的自动适配,降低了资源适配的复杂度。
可选地,在一些场景下,图5a所示的资源管理装置,可实现为图5b示意的即刻构建组件。其中,训练任务监听模块501可位于即刻构建组件中的用户训练任务监听层;训练任务解析模块502可位于即刻构建组件中的人工智能任务解析/映射层;云资源管理模块503可位于即刻构建组件中的云平台IaaS资源抽象层。其中,云平台IaaS资源抽象层,封装有云平台的openapi(开放接口)抽象层计算、存储和网络等资源,可对云平台上的IaaS资源的生命周期进行管理。基于上述多层共同协作,即刻构建组件实现了根据人工智能训练任务的代码快速构建训练所需的资源,并执行训练任务以及管理资源的生命周期的功能。
其中,用户训练任务监听层,主要用于监听用户训练任务和用户数据集的变动。其中,用户数据集包含训练任务所需的训练数据。用户训练任务监听层可截获用户训练任务对应的训练代码,并将训练代码转发给人工智能任务解析/映射层。与此同时,用户训练任务监听层还可根据用户数据集的增删情况,自动地将备份生成快照的任务或文件存储同步任务传递给人工智能任务解析/映射层。
其中,人工智能任务解析/映射层承接用户训练任务监听层的转发内容。该层可通过解析训练代码来解析训练任务,确定训练任务所需的云上计算任务,并将云上计算任务映射成云上的计算资源实例。例如,可将分布式的云上计算任务映射成云上的EGS实例或ECS实例。接着,可将创建计算资源实例的执行命令交给云平台IaaS资源抽象层。与此同时,该层还可将用户数据集映射到每个计算资源实例上,并将具体的创建存储资源的执行命令以及将存储资源挂载到计算资源实例上的执行命令传递至云平台IaaS资源抽象层。
其中,云平台IaaS资源抽象层承接人工智能任务解析/映射层,用于根据人工智能任务解析/映射层传递的执行命令,执行具体的资源创建和适配工作。例如,该层可根据创建计算资源实例的执行命令,创建指定数量的EGS实例或ECS实例。例如,该层可根据创建存储资源的执行命令,创建指定数量的创建存储资源。又例如,该层可根据将存储资源挂载到计算资源实例上的执行命令,将多个存储资源,分别挂载到每个计算资源实例上,不再赘述。
图6是本申请一示例性实施例提供的资源管理设备的结构示意图,如图6所示,该资源管理设备包括:存储器601以及处理器602。
存储器601,用于存储计算机程序,并可被配置为存储其它各种数据以支持在资源管理设备上的操作。这些数据的示例包括用于在资源管理设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
其中,存储器601可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器602,与存储器601耦合,用于执行存储器601中的计算机程序,以用于:获取训练任务对应的训练代码;解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息;将所述训练数据同步至云平台上的云存储资源,并在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例;以及,将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务。
进一步可选地,处理器602在解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息时,具体用于:对所述训练代码进行编译,以获取所述训练代码调用的资源配置接口;根据所述资源配置接口的配置参数,获取所述训练任务对应的训练数据和计算资源需求信息。
进一步可选地,框架所述资源配置接口的配置参数,包括:所述训练任务所需的云上计算任务的框架参数、所述云上计算任务的数量参数、所述云上计算任务各自的任务类型参数以及所述云上计算任务各自的任务角色参数中的至少一种。
进一步可选地,处理器602在根据所述资源配置接口的配置参数,获取所述训练任务对应的计算资源需求信息时,具体用于执行以下至少一种操作:根据所述云上计算任务的框架参数,确定所述训练任务的计算资源框架需求信息;根据所述云上计算任务的数量参数,确定所述训练任务的计算资源数量需求信息;根据所述云上计算任务各自的任务类型参数,确定所述训练任务的计算资源类型需求信息;根据所述云上计算任务各自的任务角色参数,确定所述训练任务对应的计算资源角色需求信息。
进一步可选地,处理器602在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例时,具体用于:根据所述训练任务对应的计算资源数量需求信息、计算资源类型需求信息、计算资源框架需求信息以及计算资源角色需求信息中的至少一种,在所述云平台上,创建所述至少一个计算资源实例。
进一步可选地,所述资源配置接口的配置参数,包括:所述训练数据的存储路径。
进一步可选地,处理器602在将所述训练数据同步至云平台上的云存储资源时,具体用于:在所述云平台上,对所述存储路径下的数据进行备份,得到云备份数据;根据所述云备份数据,在所述云平台上创建至少一个云盘;所述至少一个云盘的数量与所述至少一个计算资源实例的数量适配。
进一步可选地,处理器602在所述云平台上,对所述存储路径下的数据进行备份,得到云备份数据时,具体用于:在所述云平台上,为所述存储路径下的数据创建云盘快照;或者,将所述存储路径下的数据同步至所述云平台上的指定文件存储设备。
进一步可选地,处理器602,还用于:监听所述存储路径下的数据更新操作;响应所述数据更新操作,根据所述存储路径下更新后的数据,更新所述云备份数据。
进一步可选地,处理器602在将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务时,具体用于:将所述至少一个云盘,分别挂载到所述至少一个计算资源实例上,以在所述至少一个计算资源实例上,根据各自挂载的云盘中的训练数据,执行对应的训练任务。
进一步可选地,处理器602还用于:若所述训练任务执行完毕,则释放所述至少一个计算资源实例以及所述云存储资源。
进一步,如图6所示,该资源管理设备还包括:通信组件603、电源组件604等其它组件。图6中仅示意性给出部分组件,并不意味着资源管理设备只包括图5a所示组件。
其中,通信组件603被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G或5G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。
其中,电源组件604,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本实施例中,对训练任务对应的训练代码进行解析,可获取训练任务对应的训练数据以及训练任务的计算资源需求信息。基于此,可将训练数据同步至云平台上的云存储资源中,并根据计算资源需求信息在云平台上为该训练任务分配计算资源实例,实现了云平台上的存储资源和计算资源的自动适配,降低了资源适配的复杂度。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由资源管理设备执行的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种资源管理方法,其特征在于,包括:
获取训练任务对应的训练代码;
解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息;
将所述训练数据同步至云平台上的云存储资源,并在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例;
将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务。
2.根据权利要求1所述的方法,其特征在于,解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息,包括:
对所述训练代码进行编译,以获取所述训练代码调用的资源配置接口;
根据所述资源配置接口的配置参数,获取所述训练任务对应的训练数据和计算资源需求信息。
3.根据权利要求2所述的方法,其特征在于,所述资源配置接口的配置参数,包括:所述训练任务所需的云上计算任务的框架参数、所述云上计算任务的数量参数、所述云上计算任务各自的任务类型参数以及所述云上计算任务各自的任务角色参数中的至少一种。
4.根据权利要求3所述的方法,其特征在于,根据所述资源配置接口的配置参数,获取所述训练任务对应的计算资源需求信息,包括以下至少一种:
根据所述云上计算任务的框架参数,确定所述训练任务的计算资源框架需求信息;
根据所述云上计算任务的数量参数,确定所述训练任务的计算资源数量需求信息;
根据所述云上计算任务各自的任务类型参数,确定所述训练任务的计算资源类型需求信息;
根据所述云上计算任务各自的任务角色参数,确定所述训练任务对应的计算资源角色需求信息。
5.根据权利要求4所述的方法,其特征在于,在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例,包括:
根据所述训练任务对应的计算资源数量需求信息、计算资源类型需求信息、计算资源框架需求信息以及计算资源角色需求信息中的至少一种,在所述云平台上,创建所述至少一个计算资源实例。
6.根据权利要求2所述的方法,其特征在于,所述资源配置接口的配置参数,包括:所述训练数据的存储路径。
7.根据权利要求6所述的方法,其特征在于,将所述训练数据同步至云平台上的云存储资源,包括:
在所述云平台上,对所述存储路径下的数据进行备份,得到云备份数据;
根据所述云备份数据,在所述云平台上创建至少一个云盘;所述至少一个云盘的数量与所述至少一个计算资源实例的数量适配。
8.根据权利要求7所述的方法,其特征在于,在所述云平台上,对所述存储路径下的数据进行备份,得到云备份数据,包括:
在所述云平台上,为所述存储路径下的数据创建云盘快照;或者,
将所述存储路径下的数据同步至所述云平台上的指定文件存储设备。
9.根据权利要求7所述的方法,其特征在于,还包括:
监听所述存储路径下的数据更新操作;
响应所述数据更新操作,根据所述存储路径下更新后的数据,更新所述云备份数据。
10.根据权利要求7-9任一项所述的方法,其特征在于,将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务,包括:
将所述至少一个云盘,分别挂载到所述至少一个计算资源实例上,以在所述至少一个计算资源实例上,根据各自挂载的云盘中的训练数据,执行对应的训练任务。
11.根据权利要求1-9任一项所述的方法,其特征在于,还包括:
若所述训练任务执行完毕,则释放所述至少一个计算资源实例以及所述云存储资源。
12.一种资源管理装置,其特征在于,包括:
训练任务监听模块,用于:获取训练任务对应的训练代码;
训练任务解析模块,用于:解析所述训练代码,以获取所述训练任务对应的训练数据和计算资源需求信息;
云资源管理模块,用于:将所述训练数据同步至云平台上的云存储资源,并在所述云平台上分配与所述计算资源需求信息适配的至少一个计算资源实例;以及,将所述云存储资源提供给所述至少一个计算资源实例,以在所述至少一个计算资源实例上执行所述训练任务。
13.一种资源管理设备,其特征在于,包括:存储器、处理器以及通信组件;
所述存储器用于存储一条或多条计算机指令;
所述处理器用于执行所述一条或多条计算机指令以用于:执行权利要求1-11任一项所述的资源管理方法。
14.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被处理器执行时能够实现权利要求1-11任一项所述的资源管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238609.8A CN113467922B (zh) | 2020-03-30 | 2020-03-30 | 资源管理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238609.8A CN113467922B (zh) | 2020-03-30 | 2020-03-30 | 资源管理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113467922A true CN113467922A (zh) | 2021-10-01 |
CN113467922B CN113467922B (zh) | 2022-08-23 |
Family
ID=77866123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010238609.8A Active CN113467922B (zh) | 2020-03-30 | 2020-03-30 | 资源管理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113467922B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091688A (zh) * | 2021-11-25 | 2022-02-25 | 北京九章云极科技有限公司 | 一种计算资源获取方法、装置、电子设备和存储介质 |
CN114816758A (zh) * | 2022-05-10 | 2022-07-29 | 北京百度网讯科技有限公司 | 资源分配方法和装置 |
CN116521380A (zh) * | 2023-07-05 | 2023-08-01 | 之江实验室 | 一种资源自适应协同的模型训练加速方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110154341A1 (en) * | 2009-12-20 | 2011-06-23 | Yahoo! Inc. | System and method for a task management library to execute map-reduce applications in a map-reduce framework |
US20140189703A1 (en) * | 2012-12-28 | 2014-07-03 | General Electric Company | System and method for distributed computing using automated provisoning of heterogeneous computing resources |
CN109213600A (zh) * | 2018-09-11 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种基于ai云的gpu资源调度方法和装置 |
US20190303211A1 (en) * | 2018-03-30 | 2019-10-03 | EMC IP Holding Company LLC | Allocation of Shared Computing Resources Using Source Code Feature Extraction and Machine Learning |
CN110389834A (zh) * | 2019-06-28 | 2019-10-29 | 苏州浪潮智能科技有限公司 | 一种用于提交深度学习训练任务的方法和装置 |
CN110795141A (zh) * | 2019-10-12 | 2020-02-14 | 广东浪潮大数据研究有限公司 | 一种训练任务提交方法、装置、设备及介质 |
-
2020
- 2020-03-30 CN CN202010238609.8A patent/CN113467922B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110154341A1 (en) * | 2009-12-20 | 2011-06-23 | Yahoo! Inc. | System and method for a task management library to execute map-reduce applications in a map-reduce framework |
US20140189703A1 (en) * | 2012-12-28 | 2014-07-03 | General Electric Company | System and method for distributed computing using automated provisoning of heterogeneous computing resources |
US20190303211A1 (en) * | 2018-03-30 | 2019-10-03 | EMC IP Holding Company LLC | Allocation of Shared Computing Resources Using Source Code Feature Extraction and Machine Learning |
CN109213600A (zh) * | 2018-09-11 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种基于ai云的gpu资源调度方法和装置 |
CN110389834A (zh) * | 2019-06-28 | 2019-10-29 | 苏州浪潮智能科技有限公司 | 一种用于提交深度学习训练任务的方法和装置 |
CN110795141A (zh) * | 2019-10-12 | 2020-02-14 | 广东浪潮大数据研究有限公司 | 一种训练任务提交方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
韩景倜等: "云经纪的专业服务", 《助理云经纪师》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091688A (zh) * | 2021-11-25 | 2022-02-25 | 北京九章云极科技有限公司 | 一种计算资源获取方法、装置、电子设备和存储介质 |
WO2023093375A1 (zh) * | 2021-11-25 | 2023-06-01 | 北京九章云极科技有限公司 | 一种计算资源获取方法、装置、电子设备和存储介质 |
CN114816758A (zh) * | 2022-05-10 | 2022-07-29 | 北京百度网讯科技有限公司 | 资源分配方法和装置 |
CN114816758B (zh) * | 2022-05-10 | 2023-01-06 | 北京百度网讯科技有限公司 | 资源分配方法和装置 |
CN116521380A (zh) * | 2023-07-05 | 2023-08-01 | 之江实验室 | 一种资源自适应协同的模型训练加速方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113467922B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113467922B (zh) | 资源管理方法、装置、设备及存储介质 | |
JP7092736B2 (ja) | コンテナオーケストレーションサービスを使用した動的ルーティング | |
KR102162872B1 (ko) | 멀티 타스크 스케줄링 방법, 시스템, 애플리케이션 서버 및 컴퓨터 판독 가능한 저장매체 | |
CN107818112B (zh) | 一种大数据分析作业系统及任务提交方法 | |
CN111309448B (zh) | 基于多租户的管理集群的容器实例创建方法及装置 | |
US10366112B2 (en) | Compiling extract, transform, and load job test data cases | |
CN112698921B (zh) | 一种逻辑代码运行方法、装置、计算机设备和存储介质 | |
CN106681891A (zh) | 一种Java应用系统中调整日志级别的方法及装置 | |
CN104050216A (zh) | 用于定制化资源分配的文件系统管理器 | |
CN109309734B (zh) | 用于传输数据的方法及装置 | |
CN112596762A (zh) | 一种滚动升级方法及装置 | |
CN110990356B (zh) | 一种用于逻辑镜像的实时自动扩容方法和系统 | |
CN116325705A (zh) | 边缘计算环境中的管理任务流 | |
CN111177160B (zh) | 服务更新方法、装置、服务器及介质 | |
CN112463305A (zh) | 一种云端虚拟化gpu的管理方法、系统及相关装置 | |
CN112019362B (zh) | 数据传输方法、装置、服务器、终端、系统及存储介质 | |
CN112688980B (zh) | 资源分发方法、装置、计算机设备 | |
CN114860203A (zh) | 项目创建方法、装置、服务器及存储介质 | |
KR101838944B1 (ko) | 렌더링 시스템 및 방법 | |
CN114327770A (zh) | 容器集群管理系统及方法 | |
CN113805850A (zh) | 基于多种深度学习和机器学习框架的人工智能管理系统 | |
CN110321335B (zh) | 建模数据下载方法、装置、电子设备及计算机存储介质 | |
CN112817953A (zh) | 一种数据校验的方法、装置、计算机设备及计算机可读存储介质 | |
CN113504955A (zh) | 一种基于bpmn的航天工作流管理系统 | |
CN112527685B (zh) | 基于混合云的自动化测试方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |