CN114564302A

CN114564302A - 一种gpu资源分配方法、系统、设备以及介质

Info

Publication number: CN114564302A
Application number: CN202210111346.3A
Authority: CN
Inventors: 王超; 刘慧兴
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-31

Abstract

本发明公开了一种GPU资源分配方法，包括以下步骤：响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存；根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存；响应于检测到所述训练任务当前迭代结束，清理所述临时显存，当所述训练任务开始下一次迭代训练时，重新分配临时显存并继续使用初始分配的持久显存；响应于所述训练任务最后一次迭代训练结束，同时清理所述临时显存和所述持久显存。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案保障了GPU整体的利用率维持在较高水平，从而实现提升训练性能和提高数据中心资源利用率的目的。

Description

一种GPU资源分配方法、系统、设备以及介质

技术领域

本发明涉及GPU领域，具体涉及一种GPU资源分配方法、系统、设备以及存储介质。

背景技术

随着计算力大幅提高，人工智能业务的广泛落地，数据中心中出现不同种类的高性能设备来满足人工智能业务的不同计算需求，如通用GPU(Graphics Processing Unit，图形处理器)来满足训练要求，本专利目的是针对共享GPU技术的显存使用，尤其是任务时间片轮转(时分)方式，设计一种训练用持久显存和临时显存的使用和管理方法。该策略对主流训练框架在训练时模型对GPU显存使用和分配进行获取和分析，然后在显存分配时设置持久显存和临时使用显存，在多个共享GPU任务训练时只有临时显存进行换入换出操作，这样可以减少GPU时分共享时因显存频繁操作而产生的性能损失。该策略可以通过软件方法实现对模型显存使用情况的分析和管理，并且便于实现和应用，从而实现GPU的利用率提高和数据中心计算资源利用率提高等目标。

深度学习任务对GPU资源需求根据不同模型是多样的，针对显存各个不同的训练框架对底层GPU显存使用也是有不同的策略，在GPU时分共享场景下，训练过程中显存的频繁切换操作会对实际训练任务产生多余开销，造成整体性能下降。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种GPU资源分配方法，包括以下步骤：

响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存；

根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存；

响应于检测到所述训练任务当前迭代结束，清理所述临时显存，当所述训练任务开始下一次迭代训练时，重新分配临时显存并继续使用初始分配的持久显存；

响应于所述训练任务最后一次迭代训练结束，同时清理所述临时显存和所述持久显存。

在一些实施例中，根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存，进一步包括：

响应于当前GPU为共享GPU，获取当前CPU中已分配的持久显存的地址；

在已分配的持久显存的地址基础上偏移预设大小后为所述训练任务分配所述持久显存。

在一些实施例中，响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存，进一步包括：

利用所述训练任务中的劫持函数获取所述训练任务所需的显存类型和大小并发送到GPU的管理器。

为每一个GPU的显存设置持久区域和临时区域；

统计每一个GPU中持久区域和临时区域的使用情况；

根据每一个GPU中持久区域和临时区域的使用情况为所述训练任务分配所述持久显存和/或临时显存。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种GPU资源分配系统，包括：

获取模块，配置为响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存；

分配模块，配置为根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存；

第一清理模块，配置为响应于检测到所述训练任务当前迭代结束，清理所述临时显存，当所述训练任务开始下一次迭代训练时，重新分配临时显存并继续使用初始分配的持久显存；

第二清理模块，配置为响应于所述训练任务最后一次迭代训练结束，同时清理所述临时显存和所述持久显存。

在一些实施例中，分配模块还配置为：

在一些实施例中，获取模块还配置为：

为每一个GPU的显存设置持久区域和临时区域；

统计每一个GPU中持久区域和临时区域的使用情况；

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如上所述的任一种GPU资源分配方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种GPU资源分配方法的步骤。

本发明具有以下有益技术效果之一：本发明提出的方案通过对深度学习作业迭代内对GPU显存需求(类型、大小)进行分析，尤其针对GPU共享场景下，在GPU时分场景下对显存类型进行分区域(持久、临时)进行分配和管理，避免GPU共享时因显存内的数据频繁切换而造成性能损失，同时保障了GPU整体的利用率维持在较高水平，从而实现提升训练性能和提高数据中心资源利用率的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的GPU资源分配方法的流程示意图；

图2为本发明的实施例提供的GPU的显存区域设置示意图；

图3为本发明的实施例提供的GPU资源分配方法的流程框图；

图4为本发明的实施例提供的GPU资源分配系统的结构示意图；

图5为本发明的实施例提供的计算机设备的结构示意图；

图6为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种GPU资源分配方法，如图1所示，其可以包括步骤：

S1，响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存；

S2，根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存；

S3，响应于检测到所述训练任务当前迭代结束，清理所述临时显存，当所述训练任务开始下一次迭代训练时，重新分配临时显存并继续使用初始分配的持久显存；

S4，响应于所述训练任务最后一次迭代训练结束，同时清理所述临时显存和所述持久显存。

本发明提出的方案通过对深度学习作业迭代内对GPU显存需求(类型、大小)进行分析，尤其针对GPU共享场景下，在GPU时分场景下对显存类型进行分区域(持久、临时)进行分配和管理，在训练任务进行时分切换时，只有临时显存被释放，且下次针对该任务分配时也会指定特定内存区域分配，该设计能够实现训练任务的快速切换和高效的显存管理，避免GPU共享时因显存内的数据频繁切换而造成性能损失，同时保障了GPU整体的利用率维持在较高水平，从而实现提升训练性能和提高数据中心资源利用率的目的。

在一些实施例中，S1，响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存，进一步包括：

具体的，在训练任务提交到GPU运行前，在训练框架添加相应自定义内置劫持函数将训练所需要的显存使用信息进行收集并发送给显存使用管理器，显存使用管理器需要的信息主要包括即将运行训练任务所需要的显存类型和对应的大小(通过相应的cuda API进行获取)。这样，当训练任务launch到具体的GPU前，通过对CUDA的API获取框架对模型的显存类型、大小信息并存储到管理器中

为每一个GPU的显存设置持久区域和临时区域；

统计每一个GPU中持久区域和临时区域的使用情况；

具体的，如图2和图3所示，可以设计一个GPU显存共享管理器进程，主要进行实现GPU显存使用统计，获取训练实际显存需求和分配，这样在训练任务启动前GPU显存共享管理器获取和更新当前节点的各个GPU的资源和任务信息。然后根据管理器中已有的GPU使用信息，确定即将运行的GPU任务的内存方式进行和分配方法，即指定持久区域分配持久使用的显存区域，指定临时区域分配临时使用显存。这里持久和临时显存的起始地址在保证使用大小的情况下间隔尽量较远，保证后续共享任务正常使用。并且当前GPU时间运行的任务结束时，随即触发临时显存清理动作，持久显存不做处理，如果该任务已经是最后一次迭代，则将持久显存同步清理。

具体的，如果有新的共享任务提交到该同一GPU上，则进行步骤2，执行步骤3时，持久显存分配到上个GPU时间片的任务之后，且需要有足够的offset，这里根据经验一般设置几百MB到几GB不等视模型和数据量而定(这里暂时设计为用户自定义，默认为100MB)，然后更新管理器中的GPU使用信息。

本发明提出的方案通过分析深度学习框架在作业迭代内对GPU显存需求规律，将训练所使用的显存划分为持久显存和临时显存，设计和利用GPU显存共享管理器来实现控制。

GPU显存管理器需要获取当前节点GPU资源和使用情况，然后进行信息更新；在训练任务提交到GPU运行前，在训练框架添加相应自定义函数将训练所需要的显存使用信息进行收集并发送给显存使用管理器，显存使用管理器需要的信息主要包括即将运行训练任务所需要的显存类型和对应的大小(通过相应的cuda API进行获取)；其次，在获取训练任务显存使用情况后，根据当前节点内GPU使用情况，进行显存的分配时使用，针对单任务和多任务共享时分为以下几种情况：

1、该GPU只运行单任务，显存管理则完全由训练框架的显存管理机制进行管理，本专利的显存管理器不做任何操作；

2、当该GPU为共享设备时，第一次分配训练任务时会指定一个内存区域进行持久显存的使用并将其对应任务信息记录在管理器中，当前GPU时间片任务运行完成后显存不释放，根据当前训练任务使用显存地址和新共享训练的信息来确定新任务的显存使用方式；

3、临时显存使用原则，不是共享GPU任务时，则为实际运行框架负责，当为GPU共享任务时，由于本专利针对时分任务，在做显存分配使用时，临时显存的内存地址也是指定使用的，因此在每次当前GPU时间片内运行的任务完成时进行主动的显存清理动作，以供后续共享任务使用。

这样训练任务在由训练框架对GPU发送运行kernel请求时，其中包含该训练过程中所需要的GPU显存使用类型(持久或是临时)和大小。并将当前任务显存使用类型、大小进行分析和记录，这些信息将被GPU显存共享控制器进行统一调度，由于在GPU时分共享的场景下存在多任务共用一个GPU，为此需要在持久和临时显存分配时指定内存区域进行分配，这样在任务切换时持久显存部分可以直接使用已分配的显存地址，而对临时显存进行随用随清理的策略即可，从而实现提升训练性能和提高数据中心资源利用率的目的。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种GPU资源分配系统400，如图4所示，包括：

获取模块401，配置为响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存；

分配模块402，配置为根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存；

第一清理模块403，配置为响应于检测到所述训练任务当前迭代结束，清理所述临时显存，当所述训练任务开始下一次迭代训练时，重新分配临时显存并继续使用初始分配的持久显存；

第二清理模块404，配置为响应于所述训练任务最后一次迭代训练结束，同时清理所述临时显存和所述持久显存。

在一些实施例中，分配模块402还配置为：

在一些实施例中，获取模块401还配置为：

为每一个GPU的显存设置持久区域和临时区域；

统计每一个GPU中持久区域和临时区域的使用情况；

基于同一发明构思，根据本发明的另一个方面，如图5所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种GPU资源分配方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图6所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行如上的任一种GPU资源分配方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种GPU资源分配方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存，进一步包括：

3.如权利要求1所述的方法，其特征在于，响应于接收到训练任务，获取所述训练任务中携带的显存类型和大小，其中显存类型包括持久显存和临时显存，进一步包括：

4.如权利要求3所述的方法，其特征在于，根据所述显存类型和大小为所述训练任务分配对应大小的持久显存和/或临时显存，进一步包括：

为每一个GPU的显存设置持久区域和临时区域；

统计每一个GPU中持久区域和临时区域的使用情况；

5.一种GPU资源分配系统，其特征在于，包括：

6.如权利要求5所述的系统，其特征在于，分配模块还配置为：

7.如权利要求1所述的系统，其特征在于，获取模块还配置为：

8.如权利要求7所述的系统，其特征在于，获取模块还配置为：

为每一个GPU的显存设置持久区域和临时区域；

统计每一个GPU中持久区域和临时区域的使用情况；

9.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-4任意一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-4任意一项所述的方法的步骤。