CN114564302A - 一种gpu资源分配方法、系统、设备以及介质 - Google Patents
一种gpu资源分配方法、系统、设备以及介质 Download PDFInfo
- Publication number
- CN114564302A CN114564302A CN202210111346.3A CN202210111346A CN114564302A CN 114564302 A CN114564302 A CN 114564302A CN 202210111346 A CN202210111346 A CN 202210111346A CN 114564302 A CN114564302 A CN 114564302A
- Authority
- CN
- China
- Prior art keywords
- video memory
- persistent
- temporary
- training task
- gpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013468 resource allocation Methods 0.000 title claims abstract description 17
- 230000015654 memory Effects 0.000 claims abstract description 234
- 238000012549 training Methods 0.000 claims abstract description 123
- 230000002085 persistent effect Effects 0.000 claims abstract description 83
- 238000004140 cleaning Methods 0.000 claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007726 management method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5022—Mechanisms to release resources
Abstract
本发明公开了一种GPU资源分配方法,包括以下步骤:响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存;根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存;响应于检测到所述训练任务当前迭代结束,清理所述临时显存,当所述训练任务开始下一次迭代训练时,重新分配临时显存并继续使用初始分配的持久显存;响应于所述训练任务最后一次迭代训练结束,同时清理所述临时显存和所述持久显存。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案保障了GPU整体的利用率维持在较高水平,从而实现提升训练性能和提高数据中心资源利用率的目的。
Description
技术领域
本发明涉及GPU领域,具体涉及一种GPU资源分配方法、系统、设备以及存储介质。
背景技术
随着计算力大幅提高,人工智能业务的广泛落地,数据中心中出现不同种类的高性能设备来满足人工智能业务的不同计算需求,如通用GPU(Graphics Processing Unit,图形处理器)来满足训练要求,本专利目的是针对共享GPU技术的显存使用,尤其是任务时间片轮转(时分)方式,设计一种训练用持久显存和临时显存的使用和管理方法。该策略对主流训练框架在训练时模型对GPU显存使用和分配进行获取和分析,然后在显存分配时设置持久显存和临时使用显存,在多个共享GPU任务训练时只有临时显存进行换入换出操作,这样可以减少GPU时分共享时因显存频繁操作而产生的性能损失。该策略可以通过软件方法实现对模型显存使用情况的分析和管理,并且便于实现和应用,从而实现GPU的利用率提高和数据中心计算资源利用率提高等目标。
深度学习任务对GPU资源需求根据不同模型是多样的,针对显存各个不同的训练框架对底层GPU显存使用也是有不同的策略,在GPU时分共享场景下,训练过程中显存的频繁切换操作会对实际训练任务产生多余开销,造成整体性能下降。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种GPU资源分配方法,包括以下步骤:
响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存;
根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存;
响应于检测到所述训练任务当前迭代结束,清理所述临时显存,当所述训练任务开始下一次迭代训练时,重新分配临时显存并继续使用初始分配的持久显存;
响应于所述训练任务最后一次迭代训练结束,同时清理所述临时显存和所述持久显存。
在一些实施例中,根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存,进一步包括:
响应于当前GPU为共享GPU,获取当前CPU中已分配的持久显存的地址;
在已分配的持久显存的地址基础上偏移预设大小后为所述训练任务分配所述持久显存。
在一些实施例中,响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存,进一步包括:
利用所述训练任务中的劫持函数获取所述训练任务所需的显存类型和大小并发送到GPU的管理器。
在一些实施例中,根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存,进一步包括:
为每一个GPU的显存设置持久区域和临时区域;
统计每一个GPU中持久区域和临时区域的使用情况;
根据每一个GPU中持久区域和临时区域的使用情况为所述训练任务分配所述持久显存和/或临时显存。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种GPU资源分配系统,包括:
获取模块,配置为响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存;
分配模块,配置为根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存;
第一清理模块,配置为响应于检测到所述训练任务当前迭代结束,清理所述临时显存,当所述训练任务开始下一次迭代训练时,重新分配临时显存并继续使用初始分配的持久显存;
第二清理模块,配置为响应于所述训练任务最后一次迭代训练结束,同时清理所述临时显存和所述持久显存。
在一些实施例中,分配模块还配置为:
响应于当前GPU为共享GPU,获取当前CPU中已分配的持久显存的地址;
在已分配的持久显存的地址基础上偏移预设大小后为所述训练任务分配所述持久显存。
在一些实施例中,获取模块还配置为:
利用所述训练任务中的劫持函数获取所述训练任务所需的显存类型和大小并发送到GPU的管理器。
在一些实施例中,获取模块还配置为:
为每一个GPU的显存设置持久区域和临时区域;
统计每一个GPU中持久区域和临时区域的使用情况;
根据每一个GPU中持久区域和临时区域的使用情况为所述训练任务分配所述持久显存和/或临时显存。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种GPU资源分配方法的步骤。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种GPU资源分配方法的步骤。
本发明具有以下有益技术效果之一:本发明提出的方案通过对深度学习作业迭代内对GPU显存需求(类型、大小)进行分析,尤其针对GPU共享场景下,在GPU时分场景下对显存类型进行分区域(持久、临时)进行分配和管理,避免GPU共享时因显存内的数据频繁切换而造成性能损失,同时保障了GPU整体的利用率维持在较高水平,从而实现提升训练性能和提高数据中心资源利用率的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的GPU资源分配方法的流程示意图;
图2为本发明的实施例提供的GPU的显存区域设置示意图;
图3为本发明的实施例提供的GPU资源分配方法的流程框图;
图4为本发明的实施例提供的GPU资源分配系统的结构示意图;
图5为本发明的实施例提供的计算机设备的结构示意图;
图6为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
根据本发明的一个方面,本发明的实施例提出一种GPU资源分配方法,如图1所示,其可以包括步骤:
S1,响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存;
S2,根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存;
S3,响应于检测到所述训练任务当前迭代结束,清理所述临时显存,当所述训练任务开始下一次迭代训练时,重新分配临时显存并继续使用初始分配的持久显存;
S4,响应于所述训练任务最后一次迭代训练结束,同时清理所述临时显存和所述持久显存。
本发明提出的方案通过对深度学习作业迭代内对GPU显存需求(类型、大小)进行分析,尤其针对GPU共享场景下,在GPU时分场景下对显存类型进行分区域(持久、临时)进行分配和管理,在训练任务进行时分切换时,只有临时显存被释放,且下次针对该任务分配时也会指定特定内存区域分配,该设计能够实现训练任务的快速切换和高效的显存管理,避免GPU共享时因显存内的数据频繁切换而造成性能损失,同时保障了GPU整体的利用率维持在较高水平,从而实现提升训练性能和提高数据中心资源利用率的目的。
在一些实施例中,S1,响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存,进一步包括:
利用所述训练任务中的劫持函数获取所述训练任务所需的显存类型和大小并发送到GPU的管理器。
具体的,在训练任务提交到GPU运行前,在训练框架添加相应自定义内置劫持函数将训练所需要的显存使用信息进行收集并发送给显存使用管理器,显存使用管理器需要的信息主要包括即将运行训练任务所需要的显存类型和对应的大小(通过相应的cuda API进行获取)。这样,当训练任务launch到具体的GPU前,通过对CUDA的API获取框架对模型的显存类型、大小信息并存储到管理器中
在一些实施例中,根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存,进一步包括:
为每一个GPU的显存设置持久区域和临时区域;
统计每一个GPU中持久区域和临时区域的使用情况;
根据每一个GPU中持久区域和临时区域的使用情况为所述训练任务分配所述持久显存和/或临时显存。
具体的,如图2和图3所示,可以设计一个GPU显存共享管理器进程,主要进行实现GPU显存使用统计,获取训练实际显存需求和分配,这样在训练任务启动前GPU显存共享管理器获取和更新当前节点的各个GPU的资源和任务信息。然后根据管理器中已有的GPU使用信息,确定即将运行的GPU任务的内存方式进行和分配方法,即指定持久区域分配持久使用的显存区域,指定临时区域分配临时使用显存。这里持久和临时显存的起始地址在保证使用大小的情况下间隔尽量较远,保证后续共享任务正常使用。并且当前GPU时间运行的任务结束时,随即触发临时显存清理动作,持久显存不做处理,如果该任务已经是最后一次迭代,则将持久显存同步清理。
在一些实施例中,根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存,进一步包括:
响应于当前GPU为共享GPU,获取当前CPU中已分配的持久显存的地址;
在已分配的持久显存的地址基础上偏移预设大小后为所述训练任务分配所述持久显存。
具体的,如果有新的共享任务提交到该同一GPU上,则进行步骤2,执行步骤3时,持久显存分配到上个GPU时间片的任务之后,且需要有足够的offset,这里根据经验一般设置几百MB到几GB不等视模型和数据量而定(这里暂时设计为用户自定义,默认为100MB),然后更新管理器中的GPU使用信息。
本发明提出的方案通过分析深度学习框架在作业迭代内对GPU显存需求规律,将训练所使用的显存划分为持久显存和临时显存,设计和利用GPU显存共享管理器来实现控制。
GPU显存管理器需要获取当前节点GPU资源和使用情况,然后进行信息更新;在训练任务提交到GPU运行前,在训练框架添加相应自定义函数将训练所需要的显存使用信息进行收集并发送给显存使用管理器,显存使用管理器需要的信息主要包括即将运行训练任务所需要的显存类型和对应的大小(通过相应的cuda API进行获取);其次,在获取训练任务显存使用情况后,根据当前节点内GPU使用情况,进行显存的分配时使用,针对单任务和多任务共享时分为以下几种情况:
1、该GPU只运行单任务,显存管理则完全由训练框架的显存管理机制进行管理,本专利的显存管理器不做任何操作;
2、当该GPU为共享设备时,第一次分配训练任务时会指定一个内存区域进行持久显存的使用并将其对应任务信息记录在管理器中,当前GPU时间片任务运行完成后显存不释放,根据当前训练任务使用显存地址和新共享训练的信息来确定新任务的显存使用方式;
3、临时显存使用原则,不是共享GPU任务时,则为实际运行框架负责,当为GPU共享任务时,由于本专利针对时分任务,在做显存分配使用时,临时显存的内存地址也是指定使用的,因此在每次当前GPU时间片内运行的任务完成时进行主动的显存清理动作,以供后续共享任务使用。
这样训练任务在由训练框架对GPU发送运行kernel请求时,其中包含该训练过程中所需要的GPU显存使用类型(持久或是临时)和大小。并将当前任务显存使用类型、大小进行分析和记录,这些信息将被GPU显存共享控制器进行统一调度,由于在GPU时分共享的场景下存在多任务共用一个GPU,为此需要在持久和临时显存分配时指定内存区域进行分配,这样在任务切换时持久显存部分可以直接使用已分配的显存地址,而对临时显存进行随用随清理的策略即可,从而实现提升训练性能和提高数据中心资源利用率的目的。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种GPU资源分配系统400,如图4所示,包括:
获取模块401,配置为响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存;
分配模块402,配置为根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存;
第一清理模块403,配置为响应于检测到所述训练任务当前迭代结束,清理所述临时显存,当所述训练任务开始下一次迭代训练时,重新分配临时显存并继续使用初始分配的持久显存;
第二清理模块404,配置为响应于所述训练任务最后一次迭代训练结束,同时清理所述临时显存和所述持久显存。
在一些实施例中,分配模块402还配置为:
响应于当前GPU为共享GPU,获取当前CPU中已分配的持久显存的地址;
在已分配的持久显存的地址基础上偏移预设大小后为所述训练任务分配所述持久显存。
在一些实施例中,获取模块401还配置为:
利用所述训练任务中的劫持函数获取所述训练任务所需的显存类型和大小并发送到GPU的管理器。
在一些实施例中,获取模块401还配置为:
为每一个GPU的显存设置持久区域和临时区域;
统计每一个GPU中持久区域和临时区域的使用情况;
根据每一个GPU中持久区域和临时区域的使用情况为所述训练任务分配所述持久显存和/或临时显存。
基于同一发明构思,根据本发明的另一个方面,如图5所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种GPU资源分配方法的步骤。
基于同一发明构思,根据本发明的另一个方面,如图6所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种GPU资源分配方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种GPU资源分配方法,其特征在于,包括以下步骤:
响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存;
根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存;
响应于检测到所述训练任务当前迭代结束,清理所述临时显存,当所述训练任务开始下一次迭代训练时,重新分配临时显存并继续使用初始分配的持久显存;
响应于所述训练任务最后一次迭代训练结束,同时清理所述临时显存和所述持久显存。
2.如权利要求1所述的方法,其特征在于,根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存,进一步包括:
响应于当前GPU为共享GPU,获取当前CPU中已分配的持久显存的地址;
在已分配的持久显存的地址基础上偏移预设大小后为所述训练任务分配所述持久显存。
3.如权利要求1所述的方法,其特征在于,响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存,进一步包括:
利用所述训练任务中的劫持函数获取所述训练任务所需的显存类型和大小并发送到GPU的管理器。
4.如权利要求3所述的方法,其特征在于,根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存,进一步包括:
为每一个GPU的显存设置持久区域和临时区域;
统计每一个GPU中持久区域和临时区域的使用情况;
根据每一个GPU中持久区域和临时区域的使用情况为所述训练任务分配所述持久显存和/或临时显存。
5.一种GPU资源分配系统,其特征在于,包括:
获取模块,配置为响应于接收到训练任务,获取所述训练任务中携带的显存类型和大小,其中显存类型包括持久显存和临时显存;
分配模块,配置为根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存;
第一清理模块,配置为响应于检测到所述训练任务当前迭代结束,清理所述临时显存,当所述训练任务开始下一次迭代训练时,重新分配临时显存并继续使用初始分配的持久显存;
第二清理模块,配置为响应于所述训练任务最后一次迭代训练结束,同时清理所述临时显存和所述持久显存。
6.如权利要求5所述的系统,其特征在于,分配模块还配置为:
响应于当前GPU为共享GPU,获取当前CPU中已分配的持久显存的地址;
在已分配的持久显存的地址基础上偏移预设大小后为所述训练任务分配所述持久显存。
7.如权利要求1所述的系统,其特征在于,获取模块还配置为:
利用所述训练任务中的劫持函数获取所述训练任务所需的显存类型和大小并发送到GPU的管理器。
8.如权利要求7所述的系统,其特征在于,获取模块还配置为:
为每一个GPU的显存设置持久区域和临时区域;
统计每一个GPU中持久区域和临时区域的使用情况;
根据每一个GPU中持久区域和临时区域的使用情况为所述训练任务分配所述持久显存和/或临时显存。
9.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-4任意一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-4任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111346.3A CN114564302A (zh) | 2022-01-29 | 2022-01-29 | 一种gpu资源分配方法、系统、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111346.3A CN114564302A (zh) | 2022-01-29 | 2022-01-29 | 一种gpu资源分配方法、系统、设备以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564302A true CN114564302A (zh) | 2022-05-31 |
Family
ID=81714266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210111346.3A Pending CN114564302A (zh) | 2022-01-29 | 2022-01-29 | 一种gpu资源分配方法、系统、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564302A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601221A (zh) * | 2022-11-28 | 2023-01-13 | 苏州浪潮智能科技有限公司(Cn) | 一种资源的分配方法、装置和一种人工智能训练系统 |
CN115827253A (zh) * | 2023-02-06 | 2023-03-21 | 青软创新科技集团股份有限公司 | 一种芯片资源算力分配方法、装置、设备及存储介质 |
-
2022
- 2022-01-29 CN CN202210111346.3A patent/CN114564302A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601221A (zh) * | 2022-11-28 | 2023-01-13 | 苏州浪潮智能科技有限公司(Cn) | 一种资源的分配方法、装置和一种人工智能训练系统 |
CN115827253A (zh) * | 2023-02-06 | 2023-03-21 | 青软创新科技集团股份有限公司 | 一种芯片资源算力分配方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110537169B (zh) | 分布式计算系统中的集群资源管理 | |
US8631403B2 (en) | Method and system for managing tasks by dynamically scaling centralized virtual center in virtual infrastructure | |
CN110865867B (zh) | 应用拓扑关系发现的方法、装置和系统 | |
US9479358B2 (en) | Managing graphics load balancing strategies | |
CN114564302A (zh) | 一种gpu资源分配方法、系统、设备以及介质 | |
US20180255122A1 (en) | Learning-based resource management in a data center cloud architecture | |
US9569242B2 (en) | Implementing dynamic adjustment of I/O bandwidth for virtual machines using a single root I/O virtualization (SRIOV) adapter | |
US10241836B2 (en) | Resource management in a virtualized computing environment | |
CN109428913B (zh) | 一种存储扩容方法及装置 | |
WO2019153697A1 (zh) | 集群的资源调整方法、装置及云平台 | |
CN111328392A (zh) | 部分供应的虚拟机的部署 | |
US11093288B2 (en) | Systems and methods for cluster resource balancing in a hyper-converged infrastructure | |
CN111078404B (zh) | 一种计算资源确定方法、装置、电子设备及介质 | |
CN107665143B (zh) | 资源管理方法、装置及系统 | |
CN110795226A (zh) | 利用计算机系统处理任务的方法、电子设备和存储介质 | |
CN107203256B (zh) | 一种网络功能虚拟化场景下的节能分配方法与装置 | |
CN116010092A (zh) | 显存资源分配方法及装置 | |
US11182189B2 (en) | Resource optimization for virtualization environments | |
CN116510312A (zh) | 一种云游戏多开实现方法、装置、设备及存储介质 | |
CN114785693B (zh) | 基于分层强化学习的虚拟网络功能迁移方法及装置 | |
CN111475277A (zh) | 一种资源分配方法、系统、设备及机器可读存储介质 | |
CN116107753A (zh) | 一种任务节点分配方法、装置、电子设备及存储介质 | |
CN116069496A (zh) | 一种gpu资源调度的方法及装置 | |
CN115712485A (zh) | 一种基于iops和空间利用率的存储负载均衡方法、系统和存储介质 | |
CN111857992B (zh) | 一种Radosgw模块中线程资源分配方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |