CN116483562A

CN116483562A - 一种云平台gpu资源管理方法、装置、服务器及存储介质

Info

Publication number: CN116483562A
Application number: CN202310421157.0A
Authority: CN
Inventors: 蓝玉杰; 刘茂扬; 杨浩
Original assignee: Jinan Inspur Data Technology Co Ltd
Current assignee: Jinan Inspur Data Technology Co Ltd
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-25

Abstract

本发明提出了一种云平台GPU资源管理方法、装置、服务器及存储介质，方法包括：在资源池的每个资源节点中预设GPU检测程序；周期性地执行GPU检测程序以获得本地服务器上连接的GPU的数量和型号，并更新至资源池的GPU管理配置文件中；响应于接收到用户的服务请求，读取GPU管理配置文件以向用户提供可操作的GPU型号列表；响应于接收到用户基于GPU型号列表的配置请求，为用户创建工作负载，并为工作负载配置执行配置请求的管理节点以及提供负载计算的资源节点。本发明使得云平台可以通过本方法及装置，实现对指定GPU型号的资源调度，并允许用户指定GPU型号及其配额，通过配额监控实现了云平台对异构加速设备GPU的精细化管理控制，同时能够提高云平台的实用性。

Description

一种云平台GPU资源管理方法、装置、服务器及存储介质

技术领域

本发明设计云服务技术领域，尤其涉及一种云平台GPU资源管理方法、装置、服务器及存储介质、

背景技术

在云计算与机器学习高速发展的年代，GPU不再是作为单一的图形处理设备，还有另一种用法是异构加速设备。用于在机器学习中，实现比传统CPU更高算力的异构加速设备。而在云计算下，这些业务都被迁移至云上进行统一管理，并通过云平台中的GPU资源扩展管理程序对各资源节点下的GPU数量进行监控和管理；然而GPU资源扩展管理程序无法主动区分各资源节点下的GPU型号，导致现有云计算的GPU资源分配不能指定型号，不够灵活。

因此，如何提供一种更加灵活的GPU资源管理方法是本领域所亟需的。

发明内容

为了提供一种更加灵活的GPU资源管理方法。在本发明的第一方面，提出了一种云平台GPU资源管理方法，所述方法包括：在资源池的每个资源节点中预设GPU检测程序；周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号，并更新至资源池的GPU管理配置文件中；响应于接收到用户的服务请求，读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表；响应于接收到用户基于所述GPU型号列表的配置请求，为所述用户创建工作负载，并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。

在一个或多个实施例中，本发明的一种云平台GPU资源管理方法还包括：在所述GPU管理配置文件中为不同型号的GPU配置唯一的资源标签；响应于接收到负载请求，基于所述GPU管理配置文件中的资源标签调用对应型号的GPU执行负载计算。

在一个或多个实施例中，所述GPU检测程序还配置用于检测GPU的工作状态，并更新所述工作状态至所述GPU管理配置文件中；

其中，所述GPU的工作状态包括：独占工作或共享工作；

当处于共享工作状态时，所述GPU的工作状态进一步包括所述GPU的剩余算力。

在一个或多个实施例中，读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表，包括：从所述GPU管理配置文件中读取处于非独占工作状态下的GPU型号生成GPU型号列表，并为用户提供可用型号配额配置选项；其中，所述非独占工作状态包括处于非工作状态下的GPU以及处于共享工作状态下的GPU。

在一个或多个实施例中，响应于接收到用户基于所述GPU型号列表的配置请求，包括：接收用户对所述GPU型号列表中的可用型号配额配置选项的配置；将所述GPU型号列表返回给云平台的资源管理器。

在一个或多个实施例中，为所述用户创建工作负载，并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点，包括：由所述资源管理器为所述用户创建工作负载；创建管理节点并基于所述可用型号配额配置选项中的数据配置所述管理节点，以及从资源池中获取所述GPU管理配置文件；响应于接收到用户的负载请求，统计当前用户所有的GPU使用量并获取所述可用型号配额进行比较；响应于前用户对应型号的GPU使用量小于等于所述可用型号配额，基于所述GPU管理配置文件调用对应的资源节点提供负载计算。

在一个或多个实施例中，本发明的一种云平台GPU资源管理方法还包括；在资源池的管理检点中预设节点信息校准程序；由所述节点信息校准程序接收各个资源节点上报的资源信息，并对所述GPU管理配置文件进行维护更新；其中，所述资源信息包括GPU的型号、数量以及工作状态。

在本发明的第二方面，提出了一种云平台GPU资源管理装置，包括：部署模块，配置用于在资源池的每个资源节点中预设GPU检测程序；执行模块，配置用于周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号，并更新至资源池的GPU管理配置文件中；GPU型号列表生成模块，配置用于响应于接收到用户的服务请求，读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表；资源调度模块，配置用于响应于接收到用户基于所述GPU型号列表的配置请求，为所述用户创建工作负载，并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。

在本发明的第三方面，提出了一种云平台GPU资源管理服务器，包括：至少一个处理器；以及存储器，所述存储器中存储有可执行的计算机程序，所述计算机程序被所述字少一个处理器执行时用于实现如上述任意一实施例所述的一种云平台GPU资源管理方法的步骤，步骤包括：

在资源池的每个资源节点中预设GPU检测程序；周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号，并更新至资源池的GPU管理配置文件中；响应于接收到用户的服务请求，读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表；响应于接收到用户基于所述GPU型号列表的配置请求，为所述用户创建工作负载，并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。

在一个或多个实施例中，所述GPU检测程序还配置用于检测GPU的工作状态，并更新所述工作状态至所述GPU管理配置文件中。

在一个或多个实施例中，所述GPU的工作状态包括：独占工作或共享工作；当处于共享工作状态时，所述GPU的工作状态进一步包括所述GPU的剩余算力。

在本发明的第四方面，提出了一种可读存储介质，其特征在于，包括：可执行的计算机程序，所述计算机程序被执行器执行时用于实现如上述任意一实施例中的一种云平台GPU资源管理方法的步骤，步骤包括：

本发明的有益效果包括：本发明使得云平台可以通过本方法及装置，实现对指定GPU型号的资源调度，并允许用户指定GPU型号及其配额，通过配额监控，实现了云平台对异构加速设备GPU的精细化管理控制，同时也能够提高云平台的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的一种云平台GPU资源管理方法的工作流程图；

图2为根据本发明方法实现的一具体实施例的配额管理系统的数据流图；

图3为本发明的一种云平台GPU资源管理装置的结构示意图；

图4为本发明的一种云平台GPU资源管理服务器的结构示意图；

图5为本发明的可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

为了能够在云平台上实现更加灵活的GPU资源调度，本发明提出一种能够指定GPU型号的云平台GPU资源管理方法。具体实现方式如下：

图1为本发明的一种云平台GPU资源管理方法的工作流程图。如图1所示，本发明的一种云平台GPU资源管理方法的工作流程包括：步骤S1、在资源池的每个资源节点中预设GPU检测程序；步骤S2、周期性地执行GPU检测程序以获得本地服务器上连接的GPU数量和GPU型号，并更新至资源池的GPU管理配置文件中；步骤S3、响应于接收到用户的服务请求，读取GPU管理配置文件以向用户提供可操作的GPU型号列表；步骤S4、响应于接收到用户基于GPU型号列表的配置请求，为用户创建工作负载，并为工作负载配置执行配置请求的管理节点以及提供负载计算的资源节点。

具体的，为了在云平台中实现指定GPU型号的资源调度，本发明首先在云平台下的资源池的每个资源节点中预设GPU检测程序，每个资源节点即为一台物理服务器，GPU检测程序即运行在该物理服务器中，更具体的，例如，运行在该服务器的BMC(Base BoardManagement Controller))即基板管理器控制器上。在一个优选的实施例中，可以采用周期性执行该GPU检测程序的方式，周期性的获取挂载在该物理服务器下的GPU的数量和型号，并上报给资源池的控制节点，并由该控制节点将各资源节点上报的GPU信息汇总形成GPU管理配置文件；在用户向云平台发送服务请求时，云平台通过调取该GPU管理配置文件查看某一资源池中可用的GPU的数量及型号并向用户提供可操作的GPU型号列表；该GPU型号列表允许用户进行相关操作来实现指定所要使用的GPU型号及配额(即GPU的数量或者GPU的资源利用率)；云平台在接收到用户对上述GPU型号列表的配置后将根据用户的配置需求来为该用户创建负载，并为该工作负载配置执行配置请求(即所需的GPU型号和配额配)的管理节点以及提供负载计算的资源节点。更具体的，管理节点的主要作用是度配额的监控，当用户需要使用的指定型号的GPU超出配额时，大于配额时则不再向该用户分配更多的GPU资源。在一个可选的实施例中，该控制节点还用于在用户的负载请求超出配额时，向用户发出提示购买配额。

在一个实施例中，本发明的一种云平台GPU资源管理方法还包括：在GPU管理配置文件中为不同型号的GPU配置唯一的资源标签；响应于接收到负载请求，基于GPU管理配置文件中的资源标签调用对应型号的GPU执行负载计算。

具体的，为了使得云平台能够识别GPU型号，从而实现对指定型号GPU的资源调度，本实施例中以GPU型号为分类，为每一类GPU型号配置唯一对应的资源标签，如ResourceKey，使得GPU型号被当做是kubernetes中的一种资源来能够被指定调用。

在一个实施例中，本发明的GPU检测程序还配置用于检测GPU的工作状态，并更新工作状态至GPU管理配置文件中。具体的，GPU的工作状态包括独占工作或共享工作；当处于共享工作状态时，GPU的工作状态进一步包括GPU的剩余算力。其中，当用户请求以独占方式使用GPU时，即使该GPU处于空闲状态也将不会被云平台调用给其它用户使用；相反，当用户请求以共享方式使用GPU时，该GPU仍然可以被云平台调度给其它用户使用，直至该GPU的算力达到预设值。如总算力的百分之八十或百分之九十。

更具体的，GPU的工作状态的选项也可以在GPU型号列表中一并提供给用户。例如，在可用型号配额配置选项(包括型号和配额两个子选项)中再增加一个子选项——工作状态选择。例如，用户可以在可用型号配额配置选项配置包括：使用A100 SXM4 80GB型号的GPU，配额为3，工作状态为独占，即表明该用户想要以独占形式使用3个型号为A100SXM480GB的GPU。在另一个实施例中，可用型号配额配置选项配置包括：使用A100 SXM480GB型号的GPU，配额为3，工作状态为共享，即表明该用户想要以共享形式使用n个型号为A100 SXM4 80GB的GPU，且该n个型号为A100 SXM4 80GB的GPU总体算力相当于3个完整的A100 SXM480GB的GPU。至于，云平台将分配给该用户完全未被占用的GPU还是已被占用但还有剩余算力的GPU将视具体情况而定，且云平台当优先为该用户分配具有剩余算力的GPU，过程具体如下述实施例：

在一个优选地实施例中，读取GPU管理配置文件以向用户提供可操作的GPU型号列表，包括：从GPU管理配置文件中读取处于非独占工作状态下的GPU型号生成GPU型号列表，并为用户提供可用型号配额配置选项；其中，非独占工作状态包括处于非工作状态下的GPU以及处于共享工作状态下的GPU。其中，云平台将优先为该用户分配处于共享状态且具有剩余算力的GPU，当该资源池中处于共享工作状态下的GPU的数量不足以满足用户配额内的需求时，则为该用户提供处于非工作状态下(即未被占用)的GPU来为用户提供负载计算。需要说明的是本发明中的负载计算是指将用户的计算任务分配到不同的GPU上执行计算。

在一个实施例中，响应于接收到用户基于GPU型号列表的配置请求，包括：接收用户对GPU型号列表中的可用型号配额配置选项的配置；将GPU型号列表返回给云平台的资源管理器。

在一个实施例中，为用户创建工作负载，并为工作负载配置执行配置请求的管理节点以及提供负载计算的资源节点，包括：由资源管理器为用户创建工作负载；创建管理节点并基于可用型号配额配置选项中的数据配置管理节点，以及从资源池中获取GPU管理配置文件；响应于接收到用户的负载请求，统计当前用户所有的GPU使用量并获取可用型号配额进行比较；响应于前用户对应型号的GPU使用量小于等于可用型号配额，基于GPU管理配置文件调用对应的资源节点提供负载计算。

在一个实施例中，本发明的一种云平台GPU资源管理方法还包括；在资源池的管理检点中预设节点信息校准程序；由节点信息校准程序接收各个资源节点上报的资源信息，并对GPU管理配置文件进行维护更新；其中，资源信息包括GPU的型号、数量以及工作状态。

图2为根据本发明方法实现的一具体实施例的配额管理系统的数据流图。如图2所示，该实施例中的配额管理系统包括：GPU检测模块、GPU选择模块、节点信息校准模块、GPU选择模块、工作负载GPU配额校准模块和配额控制模块。其具体工作过程如下：

1)在资源池的每个节点中运行一个GPU检测模块，进行GPU型号和数量检测：

a)当GPU检测模块启动时，获取当前节点所有的PCI-E设备，通过与所有注册的GPU的PCI-E的Device ID与Vendor ID识别出当前节点所具备的GPU设备型号，并将这些数据整理上报给节点信息校准模块；

例如，PCI-E设备中Vendor ID为“10DE”代表的是NVIDIA Corporation，而DeviceID为“20B2”表示的是A100 SXM4 80GB这一型号的GPU卡；

2)在资源池的控制节点运行节点信息校准模块，进行数据汇总以及更新：

a)节点信息校准模块根据检测模块上报的GPU数据，为该节点设置带GPU型号的可用资源，并将所有检测模块的数据整理汇总写入配置文件gpu-avaliable-profile中；

3)配额控制模块读取上述配置文件gpu-avaliable-profile，向用户提供可管理的GPU型号列表，并支持用户设置租户的可用配额：

a)从配置文件中获取GPU型号以及对应型号的工作模式(独占/共享)，生成配置列表；

b)用户根据配置列表，可以为每种型号不同的工作模式设置一个最大使用量，即配额；

c)配额控制模块根据用户设置的配额，在该租户的配额控制器(设置于控制节点呃逆)中写入相应的控制逻辑；

4)用户在创建工作负载时，通过GPU选择模块，为工作负载选择一个具体的型号、工作模式和数量；

5)工作负载GPU配额校准模块根据GPU选择模块的信息，为工作负载管理的Pod添加对应的GPU型号、工作模式和数量的资源使用量

6)配额控制模块则会统计当前租户所有的Pod的GPU使用量、新建Pod的GPU使用量分配功能。

在本发明的第二方面，提出了提出了一种云平台GPU资源管理装置。图3为本发明的一种云平台GPU资源管理装置的结构示意图。如图3所示，本发明的一种云平台GPU资源管理装置包括：部署模块10，配置用于在资源池的每个资源节点中预设GPU检测程序；执行模块20，配置用于周期性地执行GPU检测程序以获得本地服务器上连接的GPU的数量和型号，并更新至资源池的GPU管理配置文件中；GPU型号列表生成模块30，配置用于响应于接收到用户的服务请求，读取GPU管理配置文件以向用户提供可操作的GPU型号列表；资源调度模块40，配置用于响应于接收到用户基于GPU型号列表的配置请求，为用户创建工作负载，并为工作负载配置执行配置请求的管理节点以及提供负载计算的资源节点。

具体的，本实施例中的一种云平台GPU资源管理装置由多个功能模块组成。该多个功能模块可以分别设置于云平台控制端或设置于计算节点的管理节点内，本发明对此不作限制。

在本发明的第三方面，提出了一种云平台GPU资源管理服务器。图4为本发明的一种云平台GPU资源管理服务器的结构示意图。如图4所示，本发明的云平台GPU资源管理服务器包括：至少一个处理器100；以及存储器200，存储器200中存储有可执行的计算机程序，计算机程序被字少一个处理器执行时用于实现如上述任意一方法实施例中的一种云平台GPU资源管理方法的步骤。

在本发明的第四方面，提出了一种可读存储介质。图5为本发明的可读存储介质的结构示意图。如图5所示，本发明的可读存储介质300中包含可执行的计算机程序301，计算机程序301被执行器执行时用于实现如上述任意一实施中的一种云平台GPU资源管理方法的步骤。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种云平台GPU资源管理方法，其特征在于，所述方法包括：

在资源池的每个资源节点中预设GPU检测程序；

周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号，并更新至资源池的GPU管理配置文件中；

响应于接收到用户的服务请求，读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表；

响应于接收到用户基于所述GPU型号列表的配置请求，为所述用户创建工作负载，并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。

2.根据权利要求1所述的一种云平台GPU资源管理方法，其特征在于，所述方法还包括：

在所述GPU管理配置文件中为不同型号的GPU配置唯一的资源标签；

响应于接收到负载请求，基于所述GPU管理配置文件中的资源标签调用对应型号的GPU执行负载计算。

3.根据权利要求1所述的一种云平台GPU资源管理方法，其特征在于，所述GPU检测程序还配置用于检测GPU的工作状态，并更新所述工作状态至所述GPU管理配置文件中；

其中，所述GPU的工作状态包括：独占工作或共享工作；

4.根据权利要求1或3所述的一种云平台GPU资源管理方法，其特征在于，读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表，包括：

从所述GPU管理配置文件中读取处于非独占工作状态下的GPU型号生成GPU型号列表，并为用户提供可用型号配额配置选项；

其中，所述非独占工作状态包括处于非工作状态下的GPU以及处于共享工作状态下的GPU。

5.根据权利要求4所述的一种云平台GPU资源管理方法，其特征在于，响应于接收到用户基于所述GPU型号列表的配置请求，包括：

接收用户对所述GPU型号列表中的可用型号配额配置选项的配置；

将所述GPU型号列表返回给云平台的资源管理器。

6.根据权利要求5所述的一种云平台GPU资源管理方法，其特征在于，为所述用户创建工作负载，并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点，包括：

由所述资源管理器为所述用户创建工作负载；

创建管理节点并基于所述可用型号配额配置选项中的数据配置所述管理节点，以及从资源池中获取所述GPU管理配置文件；

响应于接收到用户的负载请求，统计当前用户所有的GPU使用量并获取所述可用型号配额进行比较；

响应于前用户对应型号的GPU使用量小于等于所述可用型号配额，基于所述GPU管理配置文件调用对应的资源节点提供负载计算。

7.根据权利要求1所述的一种云平台GPU资源管理方法，其特征在于，所述方法还包括；

在资源池的管理检点中预设节点信息校准程序；

由所述节点信息校准程序接收各个资源节点上报的资源信息，并对所述GPU管理配置文件进行维护更新；

其中，所述资源信息包括GPU的型号、数量以及工作状态。

8.一种云平台GPU资源管理装置，其特征在于，包括：

部署模块，配置用于在资源池的每个资源节点中预设GPU检测程序；

执行模块，配置用于周期性地执行所述GPU检测程序以获得本地服务器上连接的GPU的数量和型号，并更新至资源池的GPU管理配置文件中；GPU型号列表生成模块，配置用于响应于接收到用户的服务请求，读取所述GPU管理配置文件以向用户提供可操作的GPU型号列表；

资源调度模块，配置用于响应于接收到用户基于所述GPU型号列表的配置请求，为所述用户创建工作负载，并为所述工作负载配置执行所述配置请求的管理节点以及提供负载计算的资源节点。

9.一种云平台GPU资源管理服务器，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器中存储有可执行的计算机程序，所述计算机程序被所述字少一个处理器执行时用于实现如上述权利要求1-8任意一项所述的一种云平台GPU资源管理方法的步骤。

10.一种可读存储介质，其特征在于，包括：

可执行的计算机程序，所述计算机程序被执行器执行时用于实现如上述权利要求1-8任意一项所述的一种云平台GPU资源管理方法的步骤。