CN113835897A

CN113835897A - 一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法

Info

Publication number: CN113835897A
Application number: CN202111151595.7A
Authority: CN
Inventors: 王明亮; 曹志鑫
Original assignee: Beijing Yunge Technology Co ltd
Current assignee: Beijing Yunge Technology Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-24

Abstract

本发明公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，所述方法为：通过T9K Device Plugin组件将GPU硬件注册为分布式计算集群Kubernetes的扩展资源，用户在Kubernetes上部署的工作负载可以直接申请使用该GPU扩展资源，通过T9K Scheduler组件进行调度，将申请GPU资源的Pod分配到具有足够GPU资源的节点上，根据具体的分配模式，将Kubernetes工作负载Pod分配到合适的节点上。本发明解决了现有GPU分配方式单一存在局限性的问题。

Description

一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法

技术领域

本发明涉及GPU资源分配技术领域，具体涉及一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法。

背景技术

Kubernetes是目前最常用的分布式计算平台，但是在Kubernetes上对GPU的使用并不完善。Kubernetes原生不支持GPU资源的分配，其他技术方式各有问题，例如：NVIDIA只支持一种GPU使用方式，不支持单个GPU的共享使用；VOLCANO只支持GPU的共享使用，且存在各种局限：如单个节点上不同GPU的显存必须一样、不能使用多个GPU，导致GPU使用灵活度较低。

发明内容

为此，本发明提供一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，以解决现有GPU分配方式单一存在局限性的问题。

为了实现上述目的，本发明提供如下技术方案：

本发明公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，所述方法为：

通过T9K Device Plugin组件将GPU硬件注册为分布式计算集群Kubernetes的扩展资源，用户在Kubernetes上部署的工作负载可以直接申请使用该GPU扩展资源，通过T9KScheduler组件进行调度，将申请GPU资源的Pod分配到具有足够GPU资源的节点上，根据具体的分配模式，将Kubernetes工作负载Pod分配到合适的节点上。

进一步地，所述分配方式包括：GPU共享模式、GPU独占模式、节点独占模式；

所述GPU共享模式：多个工作负载可以共享同一个物理GPU设备；

所述GPU独占模式：工作负载可以使用一个或多个物理GPU设备，不和其它负载共享；

所述节点独占模式：工作负载单独占据一个节点的所有资源。

进一步地，所述T9K Device Plugin组件将GPU硬件注册为扩展资源，注册完成后，用户可以使用GPU资源；

T9K Device Plugin组件向Kubernetes注册三种与GPU相关的扩展资源；

tensorstack.io/gpu-percent：共享GPU的资源数量，单位是GPU一定比例的显存；

tensorstack.io/gpu:独占GPU的资源数量，单位是1个GPU；

tensorstack.io/exclusive-node：独占节点的资源数量，值为1或0，1表示一个节点的所有资源。

进一步地，所述Kubernetes上具有GPU的节点通过标签进行分类，包括XGN和SGN两种类型：

XGN类型的节点上的GPU不可以被共享；

SGN类型的节点上的GPU只能共享使用。

进一步地，所述T9K Device Plugin组件工作原理为：

Kubernetes中有三种类型节点XGN，SGN，others；

T9K Device Plugin会被部署在XGN和SGN上，通过XGN和SGN上的GPU驱动获取GPU信息，根据获取的GPU信息向kubelet注册扩展资源，用户就可以创建工作负载Pod使用扩展资源。

进一步地，所述T9K Scheduler组件为调度器，负责将Kubernetes工作负载Pod分配到合适的节点上，所述T9K Device Plugin组件向Kubernetes申请进行扩展资源，扩展后的资源需要结合T9K Scheduler进行合理分配。

进一步地，所述T9K Scheduler组件针对扩展资源的调度分配方法为：

tensorstack.io/gpu-percent：节点是SGN类型，Pod被分配的GPU资源完全取决于T9K Scheduler，T9K Scheduler需要知道节点上每个GPU的剩余资源情况，而非剩余总资源情况，有某个GPU剩余资源满足Pod containers需求，T9K Scheduler将Pod分配到该节点且将该GPU的资源按量分配给Pod containers；

tensorstack.io/gpu:节点是XGN类型，且剩余资源总和大于Pod下所有containers的申请资源，T9K Scheduler会将Pod分配到该节点上，GPU的具体分配由kubelet完全独立决定；

tensorstack.io/exclusive-node：节点是XGN类型，且节点上没有其它非系统任务性质的Pod，T9K Scheduler会将Pod分配到该节点，Pod的container可以自由使用所有资源，包括GPU资源。

本发明具有如下优点：

本发明公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，针对Kubernetes分布式平台上对GPU资源需求不同的各种场景，设计三种GPU使用模式，通过将资源注册和调度器结合予以实现，方便用户在Kubernetes平台上灵活使用GPU资源，拓宽了使用场景，能够更加灵活的应用。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法流程图；

图2为本发明实施例提供的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法的T9K Device Plugin工作原理示意图；

图3为本发明实施例提供的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法的GPU独占模式实例示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，所述方法为：通过T9K Device Plugin组件将GPU硬件注册为分布式计算集群Kubernetes的扩展资源，用户在Kubernetes上部署的工作负载可以直接申请使用该GPU扩展资源，通过T9K Scheduler组件进行调度，将申请GPU资源的Pod分配到具有足够GPU资源的节点上，根据具体的分配模式，将Kubernetes工作负载Pod分配到合适的节点上。

在同一个集群中同时提供多种GPU使用模式，以适应不同场景需求，包括：GPU共享模式、GPU独占模式、节点独占模式；

所述GPU共享模式：多个工作负载可以共享同一个物理GPU设备；适用于短时间片突发模式使用GPU资源的工作负载，例如：较低QPS的机器学习模型伺服服务；交互式使用，例如在Jupyter Notebook中使用GPU。这些场景中，独占GPU资源导致浪费，适合使用GPU共享模式；

所述GPU独占模式：工作负载可以使用一个或多个物理GPU设备，不和其它负载共享；GPU独占模式适用于长期密集计算使用GPU资源的工作负载，例如：小规模的机器学习模型训练；

所述节点独占模式：工作负载单独占据一个节点的所有资源；节点独占模式适用于需要更加大量资源的工作负载，节点所有资源均给工作负载使用，同时计算任务有针对性的优化，可以充分利用一个物理节点内部的多个GPU设备和其拓扑结构。例如：大规模数据处理，大规模并行分布式的机器学习模型训练等。

Kubernetes，简称K8s，是用8代替8个字符“ubernete”而成的缩写。是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署，规划，更新，维护的一种机制。传统的应用部署方式是通过插件或脚本来安装应用。这样做的缺点是应用的运行、配置、管理、所有生存周期将与当前操作系统绑定，这样做并不利于应用的升级更新/回滚等操作，当然也可以通过创建虚拟机的方式来实现某些功能，但是虚拟机非常重，并不利于可移植性。新的方式是通过部署容器方式实现，每个容器之间互相隔离，每个容器有自己的文件系统，容器之间进程不会相互影响，能区分计算资源。相对于虚拟机，容器能快速部署，由于容器与底层设施、机器文件系统解耦的，所以它能在不同云、不同版本操作系统间进行迁移。容器占用资源少、部署快，每个应用可以被打包成一个容器镜像，每个应用与容器间成一对一关系也使容器有更大优势，使用容器可以在build或release的阶段，为应用创建容器镜像，因为每个应用不需要与其余的应用堆栈组合，也不依赖于生产环境基础结构，这使得从研发到测试、生产能提供一致环境。类似地，容器比虚拟机轻量、更“透明”，这更便于监控和管理。

T9K Device Plugin组件将GPU硬件注册为扩展资源，注册完成后，用户可以使用GPU资源。T9K Device Plugin组件向Kubernetes注册三种与GPU相关的扩展资源；

tensorstack.io/gpu-percent：共享GPU的资源数量，在本实施例中，单位是GPU1％的显存；例如：tensorstack.io/gpu-percent＝50表明GPU 50％的显存；

tensorstack.io/gpu:独占GPU的资源数量，单位是1个GPU；例如：tensorstack.io/gpu＝2表明2个GPU；

所述Kubernetes上具有GPU的节点通过标签进行分类，包括XGN和SGN两种类型：

XGN：节点有标签tensorstack.io/node-alloc-mode＝xgn，节点上的GPU不可以被共享；节点会被添加如下GPU扩展资源：tensorstack.io/gpu、tensorstack.io/exclusive-node。

SGN：节点有标签tensorstack.io/node-alloc-mode＝sgn，节点上的GPU只能共享使用；节点被添加如下GPU扩展资源：tensorstack.io/gpu-percent。

参考图2，所述T9K Device Plugin组件工作原理为：

Kubernetes中有多个节点NODE，XGN，SGN；

Device Plugin被部署在XGN和SGN上；

通过XGN和SGN上的GPU(例如：NVIDIA)驱动获取GPU信息；

根据获取的GPU信息向kubelet注册扩展资源；

XGN上有3个GPU，注册扩展资源：tensorstack.io/gpu:3，tensorstack.io/exclusive-node：1；

SGN上有4个GPU，注册扩展资源：tensorstack.io/gpu-percent:400；

用户就可以创建工作负载Pod使用扩展资源。

在完成资源的扩展后，需要通过T9K Scheduler对资源进行合理的分配。

T9K Scheduler组件为调度器，负责将Kubernetes工作负载Pod分配到合适的节点上，T9K Device Plugin只是向Kubernetes注册了扩展资源，对此类扩展资源的使用需要结合T9K Scheduler；

T9K Scheduler组件针对扩展资源的调度分配方法为：

例如：节点上有GPU 0{剩余tensorstack.io/gpu-percent:40}，GPU 1{剩余tensorstack.io/gpu-percent:50}。

情况1：Pod A请求资源tensorstack.io/gpu-percent:60，GPU 0和1的剩余显存均不足，T9K Scheduler不会将Pod分配到该节点。

情况2:Pod A请求资源tensorstack.io/gpu-percent:50，GPU 1剩余显存足够，T9K Scheduler将Pod分配到该节点，且将GPU 1的50％显存分配给Pod container，container会被设置环境变量NVIDIA_VISIBLE_DEVICES＝1、T9K_GPU_PERCENT＝50、T9K_GPU_MEMORY＝m表明container可以使用GPU 1的50％显存，显存大小为m MB。

例如Pod下只有一个container申请资源tensorstack.io/gpu:2，节点上有三个空闲GPU 1、2、3，T9K Scheduler将Pod分配到该节点上，然后kubelet再将节点上的GPU 1、2分配给container。T9K Device Plugin为container设置环境变量NVIDIA_VISIBLE_DEVICES:1，2以便NVIDIA container runtime限制container只能获取GPU 1，2的资源。

tensorstack.io/exclusive-node：节点是XGN类型，且节点上没有其它非系统任务性质的Pod运行，T9K Scheduler会将Pod分配到该节点，Pod的container会占据所有资源，包括GPU资源。

参考图1，具体的资源分配过程为：

用户创建Pod，T9K Scheduler接收Pod，判断Pod需求，是否为独占GPU模式，是独占GPU模式则尝试将Pod分配到资源充足的XGN；不是独占GPU模式则判断Pod是否为共享GPU模式，是共享GPU模式则尝试将Pod分配到资源充足的SGN，不是共享GPU模式则判断Pod是否为独占节点模式，是独占节点模式则尝试将Pod分配到未被分配资源的XGN，不是独占节点模式，则尝试将将Pod分配到资源充足的节点，成功分配，Pod成功运行，未成功分配则再次尝试为Pod分配资源，T9K Scheduler再次接收Pod，进行循环。

参考图3，在一个具体实施例中，用户创建只有一个container的Pod，申请资源tensorstack.io/gpu:1：

用户向Kubernetes API Server发送创建Pod的请求；

成功创建Pod；

T9K Scheduler监测到Pod；

T9K Scheduler将Pod分配到具有足够tensorstack.io/gpu资源的XGN上；

kubelet将GPU 1分配给Pod；

T9K Device Plugin为Pod设置环境变量NVIDIA_VISIBLE_DEVICES＝1。

本实施例公开的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，针对Kubernetes分布式平台上对GPU资源需求不同的各种场景，设计三种GPU使用模式，通过将资源注册和调度器结合予以实现，方便用户在Kubernetes平台上灵活使用GPU资源，拓宽了使用场景，能够更加灵活的应用。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，其特征在于，所述方法为：

2.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，其特征在于，所述分配方式包括：GPU共享模式、GPU独占模式、节点独占模式；

3.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，其特征在于，所述T9K Device Plugin组件将GPU硬件注册为扩展资源，注册完成后，用户可以使用GPU资源；

T9K Device Plugin组件向Kubernetes注册三种与GPU相关的扩展资源；

tensorstack.io/gpu:独占GPU的资源数量，单位是1个GPU；

4.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，其特征在于，所述Kubernetes上具有GPU的节点通过标签进行分类，包括XGN和SGN两种类型：

XGN类型的节点上的GPU不可以被共享；

SGN类型的节点上的GPU只能共享使用。

5.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，其特征在于，所述T9K Device Plugin组件工作原理为：

Kubernetes中有三种类型节点XGN，SGN，others；

6.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，其特征在于，所述T9K Scheduler组件为调度器，负责将Kubernetes工作负载Pod分配到合适的节点上，所述T9K Device Plugin组件向Kubernetes申请进行扩展资源，扩展后的资源需要结合T9KScheduler进行合理分配。

7.如权利要求1所述的一种在分布式计算集群Kubernetes上对GPU资源进行分配使用的方法，其特征在于，所述T9K Scheduler组件针对扩展资源的调度分配方法为：

tensorstack.io/gpu-percent：节点是SGN类型，Pod被分配的GPU资源完全取决于T9KScheduler，T9K Scheduler需要知道节点上每个GPU的剩余资源情况，而非剩余总资源情况，有某个GPU剩余资源满足Pod containers需求，T9K Scheduler将Pod分配到该节点且将该GPU的资源按量分配给Pod containers；