CN115964128A

CN115964128A - 一种异构gpu资源管理和调度方法和系统

Info

Publication number: CN115964128A
Application number: CN202211692191.3A
Authority: CN
Inventors: 王江勇; 王欣; 杨桃; 高鹏军; 孙晓宁; 李光辉
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-14

Abstract

本发明提出一种异构GPU资源管理和调度方法和系统，针对现有技术中同构GPU资源池化方法进行改进，通过整合不同厂商的异构GPU服务器，并在支持远程调用的虚拟化框架中集成各厂商驱动和软件库等，实现虚拟机可根据应用程序灵活使用各厂商的异构GPU资源。同时，本发明还计算不同节点的网络负载情况，提出网络感知的vGPU分配方法,减少远程调度框架带来的时间损耗。

Description

一种异构GPU资源管理和调度方法和系统

技术领域

本发明涉及计算机设备、云计算技术领域，具体涉及一种GPU资源池化及调度方法及系统。

背景技术

近年来，随着人工智能技术和应用的大规模发展，算力需求日益剧增。AI芯片是支撑算力的核心部件，目前以各类厂商GPU为主。云数据中心如何高效管理异构GPU资源，提高资源利用率已成为核心问题。

虚拟化技术可以使虚拟机使用GPU资源进行相应计算任务，提高了GPU资源使用效率。GPU虚拟化技术主要包括GPU直通、完全虚拟化和API远程调用。GPU直通技术的性能和兼容性较好，支持常见GPU，但无法实现资源切分。GPU完全虚拟化(vGPU)实现了GPU资源切分，性能损失较少，但各GPU厂商实现不一。API远程调用技术在软件库层实现虚拟化，在客户端拦截API调用，在远程GPU设备处理计算任务。优点是资源使用灵活，克服厂商软件栈闭源，但依赖网络，计算任务时间消耗较多。

目前GPU资源池化方案，通常是将插有GPU设备的服务器集中起来，组成GPU资源池。GPU池节点会安装服务程序，实现GPU虚拟化和远程调用后端功能。把物理GPU资源虚拟化，共享给多个远程用户使用。GPU池节点服务程序有Or ionX Server Service和Bitfusion Server等。普通服务器上创建的虚拟机部署上GPU客户端程序可以通过网络远程使用GPU池节点的vGPU资源，对于虚拟机上工作负载类似于使用本地GPU硬件。GPU池化通过软件方法，将GPU硬件资源实现为动态管理的资源池。现有方案中GPU池节点通常只作为GPU后端，并且只支持同构GPU。

发明内容

针对上述问题，本发明提供一种异构GPU资源池化方案，实现了云数据中心不同厂商异构GPU的统一资源管理。并提供一种网络感知的vGPU调度方法，解决远程调用过程中的时间损耗问题。

第一方面，本发明提供一种异构GPU资源管理和调度方法,所述方法包括以下步骤：

步骤S1，云管平台根据客户提交的需求创建虚拟机。

步骤S2，虚拟机创建完成后，所述虚拟机上运行的GPU C l i ent根据所述需求向控制节点发送vGPU资源请求。

步骤S3，控制节点根据GPU请求参数，在异构GPU资源池匹配满足需求的GPU池节点集合，并选取节点分配vGPU设备返回给请求的虚拟机。

步骤S4，GPU C l i ent根据创建的vGPU设备信息，远程使用vGPU。

步骤S5，GPU C l i ent释放vGPU资源，GPU Serv i ce清理并回收资源。

第二方面，本发明提供一种运行上述异构GPU资源管理和调度方法的系统，包含控制节点、客户端程序GPU C l i ent组件、后端服务程序GPU Serv i ce组件。

所述控制节点用于实现GPU资源池中所有GPU设备的资源管理和调度。

所述客户端程序GPU C l i ent组件运行于虚拟机，用于vGPU资源申请及释放。

所述后端服务程序GPU Serv i ce组件运行于GPU池节点，多个所述GPU池节点构成所述GPU资源池，所述GPU Serv i ce组件管理所在节点的GPU设备，并向控制节点注册GPU设备，提供所有可用vGPU类别。

与现有技术相比，本发明提出一种异构GPU资源池化方案和网络感知的调度方法，主要优点如下：

本发明针对同构GPU资源池化方法进行改进，通过整合不同厂商的异构GPU服务器，并在支持远程调用的虚拟化框架中集成各厂商驱动和软件库等，实现虚拟机可根据应用程序灵活使用各厂商的异构GPU资源。同时，本发明还计算不同节点的网络负载情况，提出网络感知的vGPU分配方法。减少远程调度框架带来的时间损耗。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对本发明或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1异构GPU池化示意图。

图2异构GPU远程调用框架示意图。

图3控制节点创建vGPU的示意图。

图4调度方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括这些要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明提供一种异构GPU资源管理和调度方法,所述方法包括以下步骤：

步骤S1，云管平台根据客户提交的需求创建虚拟机。

在具体实施中，客户提交的需求包括设备参数和使用模式。所述设备参数包括：vGPU数目、算力、显存、设备型号、软件栈。所述使用模式包括独占模式和共享模式。

步骤S2，虚拟机创建完成后，所述虚拟机上运行的GPU Cl i ent根据所述需求向控制节点发送vGPU资源请求。

在具体实施中，如图1所展示的异构GPU池化示意图，GPU池节点包括了x86和Arm架构服务器。单台服务器配置若干同构GPU设备。不同服务器配置不同厂商GPU设备。通过远程调用框架，跨节点虚拟机可通过网络远程使用各厂商的vGPU。

所述步骤S3，还具体包括以下子步骤：

步骤S301，控制节点的GPU管理器根据注册的GPU资源和vGPU类别，在异构GPU资源池中完成匹配，并选取网络负载最低的节点。

步骤S302，GPU管理器在所述网络负载最低的节点上选取vGPU；

步骤S303,GPU管理器完成vGPU创建并返回给GPU C l i ent。

在具体实施中，所述步骤S301，还可以包括以下子步骤：

S3011,控制节点获取待创建vGPU设备参数。

S3012，GPU管理器拉取各GPU Serv i ce注册的GPU设备参数和状态，并基于所述设备参数进行匹配。

S3013,若所有vGPU的设备参数均未匹配成功，则返回vGPU创建失败。否则在所有满足vGPU需求的设备上确认vGPU状态是否可用，并过滤vGPU状态为占用或不可用设备。

S3014,判断请求的vGPU使用模式是否为独占模式，若是则执行步骤S3015,否则执行S3016。

S3015,判断可用GPU设备所在节点集合中是否包含创建VM的宿主机，若是则直接创建vGPU，设置本地直接访问模式，并返回vGPU信息，否则执行S3016；

S3016,在可用GPU设备所在节点集合中选取网络评价负载最小的节点上创建vGPU，并返回vGPU信息。

步骤S4，GPU C l i ent根据创建的vGPU设备信息，远程使用vGPU。

如图2所示，异构GPU远程调用框架包含了GPU C l i ent(客户端程序)、传输层和GPU Serv i ce(后端服务程序)。

GPU C l i ent运行在虚拟机，包含应用程序运行时包装器库(runt ime wrapperl i brary)，它替换了虚拟机中GPU原生的运行时软件环境，比如NVI D IA显卡是CUDA API接口和运行时库，AMD显卡是H I P AP I接口和运行时库。包装器库修改了部分API接口，实现GPU算力/显存切分，在软件层实现了GPU共享。包装器库将应用程序AP I调用通过传输层转发到后端服务程序执行，并取回结果。

传输层在跨节点场景将依赖TCP/I P网络，而在相同节点上远程调用框架的传输层将切换为zero-copy内存共享机制，最小化通信开销。

GPU Servi ce(后端服务程序)运行在GPU池节点上，包含各厂商GPU设备驱动、运行时库。它执行来自GPU C l ient的API调用，使用不同进程在物理GPU上下文上为每个远程调用提供服务，从而实现GPU指令的真正执行。

由于不同厂商GPU硬件实现不同，且相应的软件栈也不同。异构GPU远程调框架需要为不同GPU设备适配不同的用户态API和运行时库。客户端程序对于NVI D IA GPU，使用CUDA Runt ime wrapper库。对于AMD GPU，使用H I P Runt ime wrapper库。以此类推，在其他GPU软件栈中，修改实现远程调用的前端模块。后端服务程序集成了多种GPU硬件驱动、多种GPU运行时库等。以此针对不同GPU设备能提供在远端执行的能力。

所有GPU池节点部署异构GPU远程调用框架的后端服务程序。普通宿主节点、GPU池节点上的虚拟机部署异构GPU远程调用框架的客户端程序。资源池中所有GPU设备资源管理和调度由控制节点负责。GPU池节点上的后端服务程序向控制节点发送GPU资源参数。控制节点监控所有GPU池节点GPU设备状态。控制节点接受来自客户端程序的vGPU请求和释放功能，并根据vGPU请求参数和全局GPU资源情况进行vGPU调度分配功能。

后端服务程序管理GPU池节点所有GPU资源，枚举所有可用的vGPU，并向控制节点注册资源。控制节点收到来自客户端程序的vGPU请求参数，包括数量、算力、显存、GPU型号、软件栈和使用模式。控制节点在各GPU池节点中匹配符合请求参数的vGPU。在满足vGPU的所有GPU池节点中，获取网络负载状态，优先选择网络负载低的GPU池节点中创建vGPU，并返回vGPU给客户端程序。当为客户端程序分配的vGPU资源与所在虚拟机的宿主机为同一节点，远程调用框架的传输层将切换为zero-copy内存共享机制。

vGPU使用模式分为独占模式和共享模式，独占模式是虚拟机长期使用分配的特定vGPU；共享模式指vGPU是动态分配，在应用程序运行时，vGPU资源才固定到具体物理GPU，AI应用结束，物理GPU资源及时释放。

图3展示了控制节点创建/释放vGPU资源的交互示意图。控制节点是整个异构GPU资源管理调度的核心，它由管理器和监控器组成。GPU C l i ent组件负责vGPU资源申请、释放等功能。GPU Serv i ce组件管理所在节点的GPU设备，并向控制节点注册GPU设备，提供所有可用vGPU类别。控制节点的监控器监测GPU设备资源利用率和状态。

步骤1，GPU C l i ent向控制节点提交vGPU需求参数，申请创建vGPU。步骤2，控制节点的GPU管理器根据注册的GPU资源和vGPU类别，在异构GPU资源池中完成匹配，并选取网络负载最低的节点。步骤3，GPU管理器在特定的GPU池节点选取vGPU。步骤4,GPU管理器完成vGPU创建并返回给GPU C l i ent。步骤5，GPU C l i ent根据创建的vGPU设备信息，远程使用vGPU。步骤6，GPU C l i ent释放vGPU资源，GPU Serv ice清理并回收资源。

图4展示了vGPU调度方法的流程图。控制节点GPU管理器首先获取待创建vGPU参数。GPU管理器拉取各GPU Serv i ce注册的vGPU设备参数和状态。分别在设备型号、vGPU数目、算力/显存、软件栈类型版本进行匹配。如果所有vGPU都不满足需求，则返回vGPU创建失败。在所有满足vGPU需求的设备上确认vGPU状态是否可用。如果请求的vGPU使用模式是独占模式，确认虚拟机和vGPU资源是否是同一节点。

以上方案中GPU池节点主要负责提供GPU资源和远程执行负载，本发明不再只将集中式GPU池节点作为GPU资源提供方。GPU池节点也可以是GPU资源使用方。可在GPU池节点创建虚拟机，并部署GPU客户端程序。提供更加灵活的vGPU使用策略。随着AI芯片的迅速发展，除了NVIDIA GPU还有AMD、I nte l GPU和其他国产AI加速卡。现有方案基于同构GPU资源，本发明考虑异构GPU服务器，将异构GPU服务器共同实现池化。通过统一的软件平台，虚拟机可以实现多厂商的GPU使用。

GPU池化的基础是支持GPU的跨节点调用，虚拟机可以部署到数据中心任意宿主机。GPU远程调用是从GPU虚拟化向GPU资源池化的关键一步。GPU远程调用依赖API Remot ing技术，API Remot i ng在前后端之间的传输层会存在一定时间损耗，主要由于网络延时和序列化开销。本发明考虑不同节点网络负载，提出网络感知的vGPU调度方案，减少虚拟机远程使用vGPU带来的性能损耗。

本发明还提供一种异构GPU资源管理和调度的系统，包含控制节点、客户端程序GPU C l ient组件、后端服务程序GPU Serv ice组件。

所述后端服务程序GPU Service组件运行于GPU池节点，多个所述GPU池节点构成所述GPU资源池，所述GPU Serv ice组件管理所在节点的GPU设备，并向控制节点注册GPU设备，提供所有可用vGPU类别。

在具体实施中，所述GPU池节点包括x86和Arm架构服务器，单台服务器配置若干同构GPU设备，不同服务器配置不同厂商GPU设备。

可以理解的是，本实施例提供的系统还可以用于实现本发明其他实施例所提供的方法中的各项步骤。

本发明还提供一种计算机设备。计算机设备以通用计算设备的形式表现。计算机设备的组件可以包括但不限于：一个或者多个处理器或者处理单元，系统存储器，连接不同系统组件的总线。

计算机设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器可以包括易失性存储器形式的计算机系统可读介质，存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

处理单元通过运行存储在系统存储器中的程序，从而执行各种功能应用以及数据处理，例如实现本发明其他实施例所提供的方法。

本发明还提供一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明其他实施例所提供的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种异构GPU资源管理和调度方法，其特征在于，所述方法包括以下步骤：

步骤S1，云管平台根据客户提交的需求创建虚拟机；

步骤S2，虚拟机创建完成后，所述虚拟机上运行的GPU Client根据所述需求向控制节点发送vGPU资源请求；

步骤S3，控制节点根据GPU请求参数，在异构GPU资源池匹配满足需求的GPU池节点集合，并选取节点分配vGPU设备返回给请求的虚拟机；

步骤S4，GPU Cl ient根据创建的vGPU设备信息，远程使用vGPU；

步骤S5，GPU Client释放vGPU资源，GPU Service清理并回收资源。

2.根据权利要求1所述的异构GPU资源管理和调度方法，其特征在于，

所述GPU池节点包括x86和Arm架构服务器；单台服务器配置若干同构GPU设备；不同服务器配置不同厂商GPU设备。

3.根据权利要求1所述的异构GPU资源管理和调度方法，其特征在于，所述步骤S1中客户提交的需求包括设备参数和使用模式；

所述设备参数包括：vGPU数目、算力、显存、设备型号、软件栈；

所述使用模式包括独占模式和共享模式。

4.根据权利要求3所述的异构GPU资源管理和调度方法，其特征在于，

所述步骤S3，具体包括以下子步骤：

步骤S301，控制节点的GPU管理器根据注册的GPU资源和vGPU类别，在异构GPU资源池中完成匹配，并选取网络负载最低的节点；

步骤S302，GPU管理器在所述网络负载最低的节点上选取vGPU；

步骤S303,GPU管理器完成vGPU创建并返回给GPU Cl ient。

5.根据权利要求4所述的异构GPU资源管理和调度方法，其特征在于，

所述步骤S301，具体包括以下子步骤：

S3011,控制节点获取待创建vGPU设备参数；

S3012，GPU管理器拉取各GPU Service注册的GPU设备参数和状态，并基于所述设备参数进行匹配；

S3013,若所有vGPU的设备参数均未匹配成功，则返回vGPU创建失败。否则在所有满足vGPU需求的设备上确认vGPU状态是否可用，并过滤vGPU状态为占用或不可用设备；

S3014,判断请求的vGPU使用模式是否为独占模式，若是则执行步骤S3015,否则执行S3016；

6.根据权利要求5所述的异构GPU资源管理和调度方法，其特征在于，

所述GPU设备参数包括以下参数中的一项或多项：设备型号、vGPU数目、算力、显存、软件栈类型版本。

7.一种运行如权利要求1所述的异构GPU资源管理和调度方法的系统，包含控制节点、客户端程序GPU Client组件、后端服务程序GPU Service组件，其特征在于，

所述控制节点用于实现GPU资源池中所有GPU设备的资源管理和调度；

所述客户端程序GPU Cl ient组件运行于虚拟机，用于vGPU资源申请及释放；

所述后端服务程序GPU Service组件运行于GPU池节点，多个所述GPU池节点构成所述GPU资源池，所述GPU Service组件管理所在节点的GPU设备，并向控制节点注册GPU设备，提供所有可用vGPU类别。

8.根据权利要求7所述的系统，其特征在于，所述GPU池节点包括x86和Arm架构服务器，单台服务器配置若干同构GPU设备，不同服务器配置不同厂商GPU设备。

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行程序，所述可执行程序使所述处理器执行如权利要求1-6任一项所述的异构GPU资源管理和调度方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行程序，所述可执行程序使处理器执行如权利要求1-6任一项所述的异构GPU资源管理和调度方法对应的操作。