CN112527513A

CN112527513A - 多个gpu动态分配方法及系统

Info

Publication number: CN112527513A
Application number: CN202110177762.9A
Authority: CN
Inventors: 蔡飞; 顾海林
Original assignee: Nanjing Feiling Intelligent Technology Co ltd
Current assignee: Nanjing Feiling Intelligent Technology Co ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-03-19
Anticipated expiration: 2041-02-09
Also published as: CN112527513B

Abstract

本发明属于GPU虚拟化领域，具体涉及一种多个GPU动态分配方法及系统，通过虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化，并对虚拟化后的每GPU进行节点注释，从而能根据使用需求对有节点注释的容器完成对GPU的分配，从而可帮助用户在有限数量的物理GPU背景下，满足多人独占GPU的需求，使得资源充分利用并有效降低硬件投入成本。

Description

多个GPU动态分配方法及系统

技术领域

本发明涉及GPU虚拟化领域，具体涉及一种多个GPU动态分配方法。

背景技术

随着近几年云计算、机器学习人工智能的兴起，GPU以成为必不可少的加速硬件，同时kubernetes+docker架构的普及，docker中使用GPU普遍存在于各个解决方案中。

现有技术中，GPU挂载到容器中使用，是独占的模式，无法让用户共享使用同一块GPU，即便是NVIDIA提供的虚拟GPU(vGPU)解决方案，也局限于借助虚拟机实现，无法与kubernetes融合在一起。

上述问题是目前亟待解决的。

发明内容

本发明所要解决的技术问题是提供一种多个GPU动态分配方法及系统。

本发明解决其技术问题所采用的技术方案是：提供一种多个GPU动态分配方法，包括：

依据虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化；

获取过滤条件以及绑定条件；

依据过滤条件，过滤出满足调度需求的节点；

依据绑定条件将对应的容器绑定到过滤后的node对应的虚拟化GPU上，并进行节点注释；

依据设备插件对具有节点注释的容器完成对多个GPU的分配。

在其中一个实施例中，所述依据设备插件对具有节点注释的容器完成对多个GPU的分配的方法包括：

获取当前节点上所有处于等待状态的节点；

过滤出等待状态的节点中有申请资源的节点；

过滤出等待状态的节点中已经被调度程序扩展器进行绑定过的节点；

过滤出还未被分配的节点；

将未分配的节点根据绑定(Bind)时间进行升序排序；

从未分配的节点中遍历挑选第一个要申请的资源和此次分配(Allocate)传入相等的节点，从而完成对GPU的分配。

在其中一个实施例中，所述从未分配的节点中遍历挑选第一个要申请的资源和此次分配(Allocate)传入相等的节点，从而完成对GPU的分配的方法还包括：

通过NvidiagRPC服务模块的注册(Register)功能，连接kubelet并向kubelet注册该插件；

依据NvidiagRPC服务模块提供启动和停止功能，初始化并启动gRPC服务；

使用分配(Allocate)功能，调用GPU调度程序分配资源并将分配结果设置到容器中，从而完成对GPU的分配。

在其中一个实施例中，在所述依据设备插件对具有节点注释的容器完成对多个GPU的分配之后还包括：

在对应的具有对具有节点注释的容器中的虚拟化GPU使用完成后，通过NvidiagRPC服务模块的停止功能，停止gRPC 服务并释放相应资源。

在其中一个实施例中，多个GPU动态分配方法还包括：

监控虚拟GPU的使用状况；

依据使用状况清理已经不在存活的虚拟GPU的配置。

在其中一个实施例中，所述多个GPU动态分配方法还包括

对GPU的显存资源使用进行模式判定，

依据模式判定结果对GPU的显存资源分配结果进行核验。

本发明还提供了一种多个GPU动态分配系统，包括：

资源定义模块，适于依据虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化；

获取模块，适于获取过滤条件以及绑定条件；

过滤模块，适于依据过滤条件，过滤出满足调度需求的节点；

绑定模块，适于依据绑定条件将对应的容器绑定到过滤后的node对应的虚拟化GPU上，并进行节点注释；

分配模块，适于依据设备插件对具有节点注释的容器完成对多个GPU的分配。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或一个以上的指令，所述一个或一个以上的指令内的权限管理装置的处理器执行时实现如上述的多个GPU动态分配方法。

本发明还提供了一种电子设备，包括存储器和处理器；所述存储器中存储有至少一条程序指令；所述处理器，通过加载并执行所述至少一条程序指令以实现如上述的多个GPU动态分配方法。

本发明的有益效果是：本发明提供了一种多个GPU动态分配方法及系统，通过虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化，并对虚拟化后的每GPU进行节点注释，从而能根据使用需求对有节点注释的容器完成对GPU的分配，从而可帮助用户在有限数量的物理GPU背景下，满足多人独占GPU的需求，使得资源充分利用并有效降低硬件投入成本。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明所提供的多个GPU动态分配方法的流程图。

图2是本发明所提供的多个GPU动态分配方法的原理框图。

图3是本发明所提供的电子设备的部分原理框图。

具体实施方式

现在结合附图对本发明作详细的说明。此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

请参阅图1，图1提供了一种多个GPU动态分配方法。多个GPU动态分配方法通过虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化，并对虚拟化后的每GPU进行节点注释，从而能根据使用需求对有节点注释的容器完成对GPU的分配，从而可帮助用户在有限数量的物理GPU背景下，满足多人独占GPU的需求，使得资源充分利用并有效降低硬件投入成本。

具体来说，多个GPU动态分配方法包括以下步骤：

S110：依据虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化。其中，预设份额为100，以百分比的形式对每一块的显存资源进行划分。

具体来说，虚拟GPU设备插件（vgpu-device-plugin）是基于Kubernetes提供的设备插件(Device Plugin)机制实现的自定义插件，该插件实现的目的是为了支持GPU资源细粒度划分和调度功能。该插件主要分为两部分：其中一部分为对接 Kubernetes的设备插件(Device Plugin)机制实现，另一部分则是进行虚拟GPU(vGPU)管理的虚拟GPU管理程序(vGPU Manager)。定义如下：

最大可用(limits):platform.ai/vgpu-memory:30

默认分配(requests):platform.ai/vgpu-memory:30

其中，30表示使用一块物理GPU的30%显存，具体值根据使用需求进行设定。

S120：获取过滤条件以及绑定条件。

具体来说，过滤条件以及绑定条件是自定义输入，用于筛选出符合条件的GPU。

S130：依据过滤条件，过滤出满足调度需求的节点。

S140：依据绑定条件将对应的容器绑定到过滤后的node对应的虚拟化GPU上，并进行节点注释。

S150：依据设备插件对具有节点注释的容器完成对多个GPU的分配。

具体来说，步骤S150包括以下步骤：

S151：获取当前节点上所有处于等待状态的节点；

S152：过滤出等待状态的节点中有申请资源的节点；

S153：过滤出等待状态的节点中已经被调度程序扩展器进行绑定过的节点；

S154：过滤出还未被分配的节点；

S155：将未分配的节点根据绑定时间进行升序排序；

S156：从未分配的节点中遍历挑选第一个要申请的资源和此次分配(Allocate)传入相等的节点，从而完成对GPU的分配。

通过步骤S150来筛选出服和用户需求的空闲的节点进行分配。

其中，步骤S156包括：通过NvidiagRPC服务模块的注册(Register)功能，连接kubelet并向kubelet注册该插件；

使用分配功能，调用GPU调度程序分配资源并将分配结果设置到容器中，从而完成对GPU的分配。

在本实施例中，多个GPU动态分配方法中在步骤S150之后还包括以下步骤：

在本实施例中，多个GPU动态分配方法还包括以下步骤：

S160：监控虚拟GPU的使用状况；依据使用状况清理已经不在存活的虚拟GPU的配置。

S170：对GPU的显存资源使用进行模式判定，依据模式判定结果对GPU的显存资源分配结果进行核验。

具体来说,步骤S170包括以下步骤：

S171：如果要分配的资源的值小于100，则判定其为共享模式；

S172：如果要分配的资源的值为100的整数倍，则判定其为独占模式，并且倍数值为要独占的GPU数目；

S173：如果要分配的资源的值大于100且不为100的整数倍，则返回错误，该错误在调度阶段即可返回错误；

因此，通过配置一个资源项即可表达共享和独占两种模式，当分配的资源不属于两种模式时，返回错误。

实施例2

请参阅图2，本实施例提供了一种多个GPU动态分配系统。多个GPU动态分配系统包括资源定义模块、获取模块、过滤模块、绑定模块以及分配模块。

资源定义模块，适于依据虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化。

最大可用(limits):platform.ai/vgpu-memory:30

默认分配(requests):platform.ai/vgpu-memory:30

获取模块，适于获取过滤条件以及绑定条件，具体来说，过滤条件以及绑定条件是自定义输入，用于筛选出符合条件的GPU。

具体来说，分配模块用于执行以下步骤：

S151：获取当前节点上所有处于等待状态的节点；

S152：过滤出等待状态的节点中有申请资源的节点；

S154：过滤出还未被分配的节点；

S155：将未分配的节点根据绑定时间进行升序排序；

通过步骤S150来筛选出服和用户需求的空闲的节点进行分配。

在本实施例中，多个GPU动态分配系统还包括以下模块：

启停模块，适于在对应的具有对具有节点注释的容器中的虚拟化GPU使用完成后，通过NvidiagRPC服务模块的停止功能，停止gRPC 服务并释放相应资源。

清理模块，适于监控虚拟GPU的使用状况；依据使用状况清理已经不在存活的虚拟GPU的配置。

模式判定模块，适于对GPU的显存资源使用进行模式判定，依据模式判定结果对GPU的显存资源分配结果进行核验。

具体来说,模式判定模块包括以下步骤：

S171：如果要分配的资源的值小于100，则判定其为共享模式；

实施例3

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或一个以上的指令，所述一个或一个以上的指令内的权限管理装置的处理器执行时实现实施例1所提供的多个GPU动态分配方法。

在本实施例中，过虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化，并对虚拟化后的每GPU进行节点注释，从而能根据使用需求对有节点注释的容器完成对GPU的分配，从而可帮助用户在有限数量的物理GPU背景下，满足多人独占GPU的需求，使得资源充分利用并有效降低硬件投入成本。

实施例4

请参阅图3，本发明实施例还提供了一种电子设备，包括：存储器502和处理器501；所述存储器502中存储有至少一条程序指令；所述处理器501，通过加载并执行所述至少一条程序指令以实现如实施例1所提供的多个GPU动态分配方法。

存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

综上所述，本发明提供了一种多个GPU动态分配方法及系统，通过虚拟GPU设备插件将多个GPU中每一块的显存资源抽象为预设份额，从而将物理GPU进行虚拟化，并对虚拟化后的每GPU进行节点注释，从而能根据使用需求对有节点注释的容器完成对GPU的分配，从而可帮助用户在有限数量的物理GPU背景下，满足多人独占GPU的需求，使得资源充分利用并有效降低硬件投入成本。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关的工作人员完全可以在不偏离本发明的范围内，进行多样的变更以及修改。本项发明的技术范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种多个GPU动态分配方法，其特征在于，包括：

获取过滤条件以及绑定条件；

依据过滤条件，过滤出满足调度需求的节点；

依据设备插件对具有节点注释的容器完成对多个GPU的分配。

2.如权利要求1所述的多个GPU动态分配方法，其特征在于，所述依据设备插件对具有节点注释的容器完成对多个GPU的分配的方法包括：

获取当前节点上所有处于等待状态的节点；

过滤出等待状态的节点中有申请资源的节点；

过滤出还未被分配的节点；

将未分配的节点根据绑定时间进行升序排序；

从未分配的节点中遍历挑选第一个要申请的资源和此次分配传入相等的节点，从而完成对GPU的分配。

3.如权利要求2所述的多个GPU动态分配方法，其特征在于，所述从未分配的节点中遍历挑选第一个要申请的资源和此次分配传入相等的节点，从而完成对GPU的分配的方法包括：

通过NvidiagRPC服务模块的注册功能，连接kubelet并向kubelet注册该插件；

4.如权利要求3所述的多个GPU动态分配方法，其特征在于，在所述依据设备插件对具有节点注释的容器完成对多个GPU的分配之后还包括：

5.如权利要求1所述的多个GPU动态分配方法，其特征在于，多个GPU动态分配方法还包括：

监控虚拟GPU的使用状况；

依据使用状况清理已经不在存活的虚拟GPU的配置。

6.如权利要求1所述的多个GPU动态分配方法，其特征在于，所述多个GPU动态分配方法还包括

对GPU的显存资源使用进行模式判定，

依据模式判定结果对GPU的显存资源分配结果进行核验。

7.一种多个GPU动态分配系统，其特征在于，包括：

获取模块，适于获取过滤条件以及绑定条件；

8.一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或一个以上的指令，其特征在于，所述一个或一个以上的指令内的权限管理装置的处理器执行时实现权利要求1至6中任一所述的多个GPU动态分配方法。

9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器中存储有至少一条程序指令；所述处理器，通过加载并执行所述至少一条程序指令以实现权利要求1-6中任一项所述的多个GPU动态分配方法。