CN111930498A

CN111930498A - 一种高效的gpu资源分配优化方法和系统

Info

Publication number: CN111930498A
Application number: CN202010601888.XA
Authority: CN
Inventors: 王斌
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-11-13
Anticipated expiration: 2040-06-29
Also published as: US20230244537A1; WO2022001086A1; CN111930498B

Abstract

本发明提出了一种高效的GPU资源分配优化方法和系统，该方法包括调用GPU的分配接口，获取GPU分配所需的GPU资源和数据信息；数据信息包括物理拓扑图结构、NUMA分组结构和作业信息。根据物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子；根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子。将得到的通信因子和碎片化因子做加权计算，确定目标函数值；目标函数值最小时为GPU资源最优分配方案。基于该方法，还提出了优化系统。本发明对GPU资源的分配不仅能够保证GPU的计算性能，而且还能极大减小GPU资源碎片产生，保证每个调度作业都能使用当前可用GPU资源的最优配置。

Description

一种高效的GPU资源分配优化方法和系统

技术领域

本发明属于GPU资源分配技术领域，特别涉及一种高效的GPU资源分配优化方法和系统。

背景技术

目前高性能计算和AI平台领域中的系统已有相关一些GPU分配技术实现，如：一种GPU拓扑分区方法与装置等。其实现原理：将GPU拓扑图中的多个 GPU随机划入两个分区中，计算GPU拓扑图中所有GPU的迁移增益，并用于根据多个GPU的物理拓扑信息确定多个GPU之间的互联带宽，并生成包括多个GPU的GPU拓扑图。最终选择跨分区连接的数量最小的拓扑图分区方案作为分区结果。此类技术仅实现了基于平台中各GPU卡之间的通信链路的最优选择，未考虑在系统中的运行作业的类型和特点：集群系统中运行的计算作业，数量多，优先级调度顺序不同，且不同的作业具有不同的资源(如GPU数量)要求。

按上述原有的GPU拓扑图方法，先调度到的作业优先按NUMA分组使用 GPU资源，就很容易出现GPU资源分配碎片，从而导致一些作业由于NUMA 分组可用率不足导致无法得到GPU资源运行，造成不必要的GPU资源性能浪费，降低系统平台的计算资源使用效率。所以，这就要求对系统GPU资源的分配算法需要进行最优化设计，不仅要考虑GPU的静态的通信物理拓扑图，还要考虑作业动态使用GPU而产生的资源碎片，以满足系统的高性能，如：通过GPU 的优化分配来提高AI系统的作业训练速度。

发明内容

为了解决上述技术问题，本发明提出了一种高效的GPU资源分配优化方法和系统，能够根据当前系统运行的作业和GPU资源使用情况,得出待调度作业所需GPU的最优选择。

为实现上述目的，本发明采用以下技术方案：

一种高效的GPU资源分配优化方法，包括以下步骤：

S1：获取GPU分配所需的GPU资源和数据信息；所述数据信息包括GPU 物理拓扑图结构、NUMA分组结构和作业信息；

S2：根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子；根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU 碎片化因子；

S3：将得到的通信因子和碎片化因子做加权计算，确定目标函数值；所述目标函数值最小时为GPU资源最优分配方案。

进一步的，在执行步骤S1之前，还包括调用GPU的分配接口，所述分配接口用于获取GPU分配所需的GPU资源。

进一步的，在执行完步骤S3之后，还包括将GPU资源最优分配方案更新并完成持久化。

进一步的，所述根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子的表达式为：

其中，GpusCommunicateCost为GPU拓扑通信因子；i为GPU静态拓扑图中 GPU方阵的行；j为GPU静态拓扑图中GPU方阵的列；n为GPU卡的数量。

进一步的，所述根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子的表达式为：

其中，GpusFragment为GPU碎片化因子；FreeGpusSocket(i)为计算第i组 socket中待分配gpus后，socket组剩下空闲可用gpus数量；TotalGpusSocket(i) 是计算第i组socket中全部gpus数量；sockets为NUMA分组数量；min_frags 为修正参数。

进一步的，所述将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值的表达式为：Y＝α*GpusCommunicateCost+β*GpusFragmentCost；

其中，Y为目标函数；α为通信因子系数；β为碎片化因子；且α+β＝1。

本发明还提出了一种高效的GPU资源分配优化系统，包括GPU分配模块、GPU状态机模块和快照模块；

所述GPU分配模块用于调用GPU的分配接口获取GPU资源以及从GPU状态机模块获取GPU数据信息，并根据获取的GPU资源和GPU数据信息，计算 GPU拓扑通信因子和GPU碎片化因子；将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值；以及调用快照模块；

所述GPU状态机模块用于为所述GPU分配模块提供GPU数据信息，以及编辑作业信息和同步更新NUMA分组；

所述快照模块用于存储更新后的GPU资源最优分配方案。

进一步的，所述GPU数据信息包括GPU物理拓扑图结构、NUMA分组结构和作业信息。

进一步的，所述GPU分配模块根据获取的GPU资源和GPU数据信息，计算GPU拓扑通信因子和GPU碎片化因子；将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值的过程为：

根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子；

根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定 GPU碎片化因子；

将得到的通信因子和碎片化因子做加权计算，确定目标函数值；所述目标函数值最小时为GPU资源最优分配方案。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提出了一种高效的GPU资源分配优化方法和系统，该方法包括调用 GPU的分配接口，获取GPU分配所需的GPU资源和GPU数据信息；数据信息包括GPU物理拓扑图结构、NUMA分组结构和作业信息。根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子；根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子。将得到的通信因子和碎片化因子做加权计算，确定目标函数值；目标函数值最小时为GPU资源最优分配方案。基于本发明提出的一种高效的GPU资源分配优化方法，还提出了一种高效的GPU资源分配优化系统。本发明使得对GPU资源的分配不仅能够保证GPU的计算性能，而且还能极大减小GPU资源碎片产生，非常适应集群系统中多业务类型、多资源需求场景下的GPU资源分配，保证每个调度作业都能使用当前可用GPU资源的最优配置，避免了由于作业类型和资源需求不同导致分配结果的性能差异，进一步提高集群系统GPU资源使用效率。对集群高性能计算作业和AI平台的训练任务来说，能够明显提升其运行速度和数量，最终提升平台业务的ARPU值。

附图说明

如图1为本发明实施例1中GPU分配策略示意图；

如图2为本发明实施例1中一种高效的GPU资源分配优化方法流程图；

如图3为本发明实施例1中GPU通信因子计算示意图；

如图4为本发明实施例1中一种高效的GPU资源分配优化系统示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

本发明实施例1提出了一种高效的GPU资源分配优化方法，能够根据当前系统运行的作业和GPU资源使用情况,得出待调度作业所需GPU的最优选择。算法不仅考虑了GPU的通信物理拓扑图，更重要的是引入了GPU资源分配碎片概念，本发明在做最优选择时，同时衡量GPU的物理资源和GPU的作业使用率。这样，算法实现了资源和作业双维度联合调度，能够更加全面地计算最优解。

如图1为本发明实施例1中GPU分配策略示意图；GPU分配碎片是从GPU 使用效率来考虑，从调度策略上看，尽可能地在GPU使用率高的NUMA(非统一内存访问)分组socket中分配GPU资源。在图1中，有两个socket分组socket-0 和socket-1，且socket-0中有2个GPU已使用，当需要再分配1个GPU时，A 组策略2是满足GPU分配碎片最小的策略。当需要在分配2个GPU时，B组策略3是满足GPU分配碎片最小的策略。GPU碎片指标，可以使用平均socket 的GPU空闲率表示。值越大，表示碎片化程度越高，值越小，碎片化程度越低。分配算法期望分配的GPU资源使得GPU碎片指标值最小。但是碎片指标又不是直接简单等于空闲率，如空闲率为100％时，不能按数值简单认为最大碎片产生。本发明给出了一种高效的GPU资源分配优化方法。如图2为本发明实施例1中一种高效的GPU资源分配优化方法流程图。

在步骤S201中，调用GPU的分配接口，分配接口用于获取GPU分配所需的GPU资源。

在步骤S202中，获取GPU分配所需的数据信息，其中数据信息包括GPU 物理拓扑图结构、NUMA分组结构和作业信息。

在步骤S203中，根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子，如图3为本发明实施例1中GPU通信因子计算示意图；GPU0卡和 GPU 1卡之间的comm_cost值为1；GPU 0和GPU 2之间的comm_cost为20。所以确定GPU拓扑通信因子的方法为：

在步骤S204中，根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子。其中确定GPU碎片化因子的方法为：

本发明中修正参数修正剩余空间可用的GPUS的碎片率。对于图1中，对于当需要在分配2个GPU时，如果不增加修正参数，B组策略2和B组策略3 按照不增加修正参数的公式，计算出来的值是相同的，但是很明显的，B组策略2中SOCKET0的碎片率为50％，SOCKET1的碎片率为50％。B组策略3中 SOCKET0的碎片率为0，SOCKET1的4个GPU都可以分配。B组策略3是满足 GPU分配碎片最小的策略。所以增加修正参数能够保证每个调度作业都能使用当前可用GPU资源的最优配置。

在步骤S204中，将得到的通信因子和碎片化因子做加权计算，确定目标函数值；目标函数值最小时为GPU资源最优分配方案。其中确定目标函数的表达式为：Y＝α*GpusCommunicateCost+β*GpusFragmentCost；

其中，Y为目标函数；α为通信因子系数；β为碎片化因子；且α+β＝1。可以可设置α＝0.5；β＝0.5；或者设置α＝0.6；β＝04。本发明保护的范围不局限于实时例。

在步骤S205中，确定GPU资源最优分配方案。

本发明还提出了一种高效的GPU资源分配优化系统，如图4为本发明实施例1中一种高效的GPU资源分配优化系统示意图。包括GPU分配模块、GPU 状态机模块和快照模块。

GPU分配模块、GPU状态机模块、快照模块按序启动后，分配装置对外提供资源分配接口。

GPU分配模块用于调用GPU的分配接口获取GPU资源以及从GPU状态机模块获取GPU数据信息，并根据获取的GPU资源和GPU数据信息，计算GPU 拓扑通信因子和GPU碎片化因子；将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值；以及调用快照模块。

GPU状态机模块用于为GPU分配模块提供GPU数据信息，以及编辑作业信息和同步更新NUMA分组。

快照模块用于存储更新后的GPU资源最优分配方案。

GPU数据信息包括GPU物理拓扑图结构、NUMA分组结构和作业信息。

GPU分配模块根据获取的GPU资源和GPU数据信息，计算GPU拓扑通信因子和GPU碎片化因子；将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值的过程为：根据GPU物理拓扑图中GPU静态拓扑图，确定 GPU拓扑通信因子；根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子；将得到的通信因子和碎片化因子做加权计算，确定目标函数值；目标函数值最小时为GPU资源最优分配方案。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种高效的GPU资源分配优化方法，其特征在于，包括以下步骤：

S1：获取GPU分配所需的GPU资源和数据信息；所述数据信息包括GPU物理拓扑图结构、NUMA分组结构和作业信息；

S2：根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子；根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子；

2.根据权利要求1所述的一种高效的GPU资源分配优化方法，其特征在于，在执行步骤S1之前，还包括调用GPU的分配接口，所述分配接口用于获取GPU分配所需的GPU资源。

3.根据权利要求1所述的一种高效的GPU资源分配优化方法，其特征在于，在执行完步骤S3之后，还包括将GPU资源最优分配方案更新并完成持久化。

4.根据权利要求1所述的一种高效的GPU资源分配优化方法，其特征在于，所述根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子的表达式为：

其中，GpusCommunicateCost为GPU拓扑通信因子；i为GPU静态拓扑图中GPU方阵的行；j为GPU静态拓扑图中GPU方阵的列；n为GPU卡的数量。

5.根据权利要求1所述的一种高效的GPU资源分配优化方法，其特征在于，所述根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子的表达式为：

其中，GpusFragment为GPU碎片化因子；FreeGpusSocket(i)为计算第i组socket中待分配gpus后，socket组剩下空闲可用gpus数量；TotalGpusSocket(i)是计算第i组socket中全部gpus数量；sockets为NUMA分组数量；min_frags为修正参数。

6.根据权利要求1所述的一种高效的GPU资源分配优化方法，其特征在于，所述将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值的表达式为：Y＝α*GpusCommunicateCost+β*GpusFragmentCost；

7.一种高效的GPU资源分配优化系统，其特征在于，包括GPU分配模块、GPU状态机模块和快照模块；

所述GPU分配模块用于调用GPU的分配接口获取GPU资源以及从GPU状态机模块获取GPU数据信息，并根据获取的GPU资源和GPU数据信息，计算GPU拓扑通信因子和GPU碎片化因子；将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值；以及调用快照模块；

所述快照模块用于存储更新后的GPU资源最优分配方案。

8.根据权利要求7所述的一种高效的GPU资源分配优化系统，其特征在于，所述GPU数据信息包括GPU物理拓扑图结构、NUMA分组结构和作业信息。

9.根据权利要求7所述的一种高效的GPU资源分配优化系统，其特征在于，所述GPU分配模块根据获取的GPU资源和GPU数据信息，计算GPU拓扑通信因子和GPU碎片化因子；将得到的GPU通信因子和GPU碎片化因子做加权计算，确定目标函数值的过程为：

根据GPU物理拓扑图中GPU静态拓扑图，确定GPU拓扑通信因子；

根据NUMA分组结构和作业信息，通过在GPY碎片计算时增加修正，确定GPU碎片化因子；