CN117311989B

CN117311989B - 一种gpu集群动态功率管理系统及方法

Info

Publication number: CN117311989B
Application number: CN202311595821.XA
Authority: CN
Inventors: 王晓丹; 王曦
Original assignee: Sichuan Bingji Technology Co ltd
Current assignee: Sichuan Bingji Technology Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-02-02
Anticipated expiration: 2043-11-28
Also published as: CN117311989A

Abstract

本发明涉及设备管理领域，公开了一种GPU集群动态功率管理系统及方法，包括如下步骤：任务管理模块基于历史任务数据对GPU集群进行分组，分成多个GPU子任务集群，并生成对应GPU子任务集群的GPU任务容器，获取GPU子任务集群的基础数据，并存储到对应GPU子任务集群的GPU任务容器；温度策略控制模块根据连接的GPU任务容器，建立GPU子任务集群温度策略动态调节列表；任务管理模块接收待处理任务，得到GPU子任务集群的数据处理特征，温度策略控制模块根据数据处理特征，生成温度控制策略，并将温度控制策略发送到散热管理模块；完成GPU集群动态功率管理。通过本发明，可以实现动态调节散热功率，确保GPU集群的稳定运行。

Description

一种GPU集群动态功率管理系统及方法

技术领域

本发明涉及设备管理领域，具体是一种GPU集群动态功率管理系统及方法。

背景技术

在现有的计算机技术中，GPU（图形处理器）集群被广泛应用于各种高性能计算和人工智能应用中。随着这些应用的复杂性和计算需求的增加，对GPU集群的效率和性能的要求也在不断提高。为了满足这种需求，许多技术都在试图优化GPU集群的功率管理。

现有的GPU集群功率管理系统主要可以分为两大类。一类是静态功率管理系统，这种系统预先根据应用的特性分配每个GPU的功率预算。这种方法的优点是简单易行，但在面对动态变化的应用负载时，无法做到实时调整，从而可能导致能源的浪费或者性能的不足。

另一类是动态功率管理系统，这种系统能够根据实时应用负载动态调整每个GPU的功率。例如，有些系统通过监测GPU集群的负载情况，根据负载对GPU的频率和电压进行动态调整。这些方法的优点是在面对动态应用负载时能够更有效地利用能源，但需要实时监测集群的负载情况，并且对控制算法的精度和响应速度有很高的要求。

此外，无论是静态还是动态功率管理系统，它们大多只考虑了GPU的计算功率本身，而忽视了其他资源的影响。例如，散热对GPU的影响。

因此，如何通过基于GPU计算任务的情况，来对散热功率进行调节，是当下行业研究人员需要研究的课题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种GPU集群动态功率管理方法，包括如下步骤：

步骤一，任务管理模块基于历史任务数据对GPU集群进行分组，分成多个GPU子任务集群，并生成对应GPU子任务集群的GPU任务容器，获取GPU子任务集群的基础数据，并存储到对应GPU子任务集群的GPU任务容器；

步骤二，通过GPU单元检测装置对各个GPU子任务集群进行测试，得到各个GPU子任务集群的性能测试数据；若得到的性能测试数据与基础数据中的标准性能数据一致，则测试通过，进入步骤三；

步骤三，将测试通过的GPU子任务集群对应的GPU任务容器与温度策略控制模块连接，温度策略控制模块根据连接的GPU任务容器，建立GPU子任务集群温度策略动态调节列表；

步骤四，任务管理模块接收待处理任务，并根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器，并将待处理任务发送到对应的GPU任务容器，GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征，得到GPU子任务集群的数据处理特征，温度策略控制模块根据数据处理特征，生成温度控制策略，并将温度控制策略发送到散热管理模块；

步骤五，散热管理模块根据温度控制策略对GPU子任务集群进行温度控制，并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动，若GPU子任务集群温度波动在设定的波动阈值范围内，则进入步骤七，否者进入步骤六；

步骤六，根据GPU子任务集群温度波动与波动阈值的差值反馈调节温度控制策略，使GPU子任务集群温度波动在设定的波动阈值范围内，返回步骤五；

步骤七，直到GPU子任务集群完成待处理任务的处理，完成GPU集群动态功率管理。

进一步的，所述的任务管理模块基于历史任务数据对GPU集群进行分组，分成多个GPU子任务集群，包括：根据设定的任务处理周期，得到同类任务的处理频率，根据处理频率不小于设定的频率阈值的任务的GPU算力需求信息，分别建立GPU子任务集群，得到多个GPU子任务集群。

进一步的，所述的获取GPU子任务集群的基础数据，包括：获取GPU子任务集群的标准性能数据以及标准功率数据。

进一步的，所述的通过GPU单元检测装置对各个GPU子任务集群进行测试，得到各个GPU子任务集群的性能测试数据；若得到的性能测试数据与基础数据中的标准性能数据一致，包括：

通过测试任务数据分别对各个GPU子任务集群进行测试，得到各个GPU子任务集群在各标准功率数据下的算力输出数据，若算力输出数据与标准性能数据中的算力差值在设定算力差值范围内，则性能测试数据与基础数据中的标准性能数据一致，否则，则不一致。

进一步的，所述的根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器，包括：根据待处理任务需求的算力数据，在GPU子任务集群温度策略动态调节列表匹配到不小于待处理任务需求的算力数据且为空闲状态的GPU任务容器。

进一步的，所述的GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征，得到GPU子任务集群的数据处理特征，包括：

所述的待处理任务的任务特征包括需求算力的大小以及运行时长，根据需求算力与GPU子任务集群的算力比例和运行时长，在云端数据服务器匹配到对应的温度上升率和温度波动阈值。

进一步的，所述的温度策略控制模块根据数据处理特征，生成温度控制策略，包括：根据温度上升率动态调节散热模块的散热功率，使GPU子任务集群的温度上升率在匹配的温度上升率范围内。

进一步的，所述的散热管理模块根据温度控制策略对GPU子任务集群进行温度控制，并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动，包括：所述的温度波动为在设定采集时长内，温度最高值与最低值的差值。

一种 GPU 集群动态功率管理系统，应用所述的一种 GPU 集群动态功率管理方法，包括GPU单元检测装置、任务管理模块、云端数据服务器、散热管理模块、故障检测装置、温度策略控制模块、通信装置和数据处理模块；

所述的GPU单元检测装置、任务管理模块、散热管理模块、故障检测装置、温度策略控制模块、通信装置分别与所述的数据处理模块连接，所述的云端数据服务器与所述的通信装置通信连接。

本发明的有益效果是：通过本发明所提供的技术方案，可以实现基于GPU集群的负载的情况，来动态调节散热功率，确保GPU集群的稳定运行。

附图说明

图1为一种GPU集群动态功率管理方法的流程示意图；

图2为一种GPU集群动态功率管理系统的原理示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

为了使本发明的目的，技术方案及优点更加清楚明白，结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”，“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程，方法，物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程，方法，物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程，方法，物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，一种GPU集群动态功率管理方法，包括如下步骤：

所述的任务管理模块基于历史任务数据对GPU集群进行分组，分成多个GPU子任务集群，包括：根据设定的任务处理周期，得到同类任务的处理频率，根据处理频率不小于设定的频率阈值的任务的GPU算力需求信息，分别建立GPU子任务集群，得到多个GPU子任务集群。

所述的获取GPU子任务集群的基础数据，包括：获取GPU子任务集群的标准性能数据以及标准功率数据。

所述的通过GPU单元检测装置对各个GPU子任务集群进行测试，得到各个GPU子任务集群的性能测试数据；若得到的性能测试数据与基础数据中的标准性能数据一致，包括：

所述的根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器，包括：根据待处理任务需求的算力数据，在GPU子任务集群温度策略动态调节列表匹配到不小于待处理任务需求的算力数据且为空闲状态的GPU任务容器。

所述的GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征，得到GPU子任务集群的数据处理特征，包括：

所述的温度策略控制模块根据数据处理特征，生成温度控制策略，包括：根据温度上升率动态调节散热模块的散热功率，使GPU子任务集群的温度上升率在匹配的温度上升率范围内。

所述的散热管理模块根据温度控制策略对GPU子任务集群进行温度控制，并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动，包括：所述的温度波动为在设定采集时长内，温度最高值与最低值的差值。

如图2所示，一种GPU集群动态功率管理系统，应用所述的一种GPU集群动态功率管理方法，包括GPU单元检测装置、任务管理模块、云端数据服务器、散热管理模块、故障检测装置、温度策略控制模块、通信装置和数据处理模块；

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种GPU集群动态功率管理方法，其特征在于，包括如下步骤：

步骤七，直到GPU子任务集群完成待处理任务的处理，完成GPU集群动态功率管理；

所述的根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器，包括：根据待处理任务需求的算力数据，在GPU子任务集群温度策略动态调节列表匹配到不小于待处理任务需求的算力数据且为空闲状态的GPU任务容器；

所述的待处理任务的任务特征包括需求算力的大小以及运行时长，根据需求算力与GPU子任务集群的算力比例和运行时长，在云端数据服务器匹配到对应的温度上升率和温度波动阈值；

2.根据权利要求1所述的一种GPU集群动态功率管理方法，其特征在于，所述的任务管理模块基于历史任务数据对GPU集群进行分组，分成多个GPU子任务集群，包括：根据设定的任务处理周期，得到同类任务的处理频率，根据处理频率不小于设定的频率阈值的任务的GPU算力需求信息，分别建立GPU子任务集群，得到多个GPU子任务集群。

3.根据权利要求2所述的一种GPU集群动态功率管理方法，其特征在于，所述的获取GPU子任务集群的基础数据，包括：获取GPU子任务集群的标准性能数据以及标准功率数据。

4.根据权利要求3所述的一种GPU集群动态功率管理方法，其特征在于，所述的通过GPU单元检测装置对各个GPU子任务集群进行测试，得到各个GPU子任务集群的性能测试数据；若得到的性能测试数据与基础数据中的标准性能数据一致，包括：

5.根据权利要求1所述的一种GPU集群动态功率管理方法，其特征在于，所述的散热管理模块根据温度控制策略对GPU子任务集群进行温度控制，并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动，包括：所述的温度波动为在设定采集时长内，温度最高值与最低值的差值。

6.一种GPU集群动态功率管理系统，其特征在于，应用权利要求1-5任一所述的一种GPU 集群动态功率管理方法，包括GPU单元检测装置、任务管理模块、云端数据服务器、散热管理模块、故障检测装置、温度策略控制模块、通信装置和数据处理模块；