CN112784435B

CN112784435B - 一种基于性能事件计数和温度的gpu实时功率建模方法

Info

Publication number: CN112784435B
Application number: CN202110147178.9A
Authority: CN
Inventors: 杨良怀; 陈敏丽; 范玉雷
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2023-05-23
Anticipated expiration: 2041-02-03
Also published as: CN112784435A

Abstract

本发明提出了一种基于性能事件计数和温度的GPU实时功率建模方法，基于GPU厂商所提供的内部硬件性能事件访问接口以及相关的GPU管理库，编写相应的数据采集程序来获取建模所需的训练数据D，再通过特征选择选出最终用于构建GPU实时功率模型的性能事件集合，最后利用回归树算法构建GPU实时功率回归预测模型，对于没有内置功率传感器的GPU也可以较准确的估计其实时功率。本发明所提出的GPU实时功率模型不仅能够精确的预测GPU的实时功率，还支持细粒度的功率剖析，这为GPU能效研究创造了更多节能的机会。

Description

一种基于性能事件计数和温度的GPU实时功率建模方法

技术领域

本发明涉及GPU服务器整机实时功率消耗领域，特别涉及GPU实时功率建模。

背景技术

目前针对传统数据库系统(主要耗能部件：处理器、内存、磁盘等)的实时功率建模已有大量的研究，从建模方法出发，可以将其分为两类：一类是基于利用率的整机功率模型；另一类是基于性能事件、C-States与利用率的整机功率模型。这对于所要探讨的GPU服务器系统整机实时功率建模具有一定的参考价值。

随着人工智能技术的快速发展，高吞吐量应用不断增多，GPU在大规模并行计算上的巨大优势，在很大程度上满足这些应用的性能需求，云服务提供商为此也增加了GPU服务器。在提供高性能计算服务的同时，数据中心耗能问题也日益凸显。为此高性能计算社区不断地追求软件和硬件上的创新，以实现更高能效的计算。在软件层面，已有多种深度学习加速库、框架被实现并应用于深度学习应用的加速；在硬件层面，适用于不同应用场景的GPU被设计出来用于加速计算过程。对于GPU服务器而言，其主要耗能部件包括：处理器、GPU、内存、磁盘、网卡等。相较于传统数据库系统整机实时功率建模，亟待解决的正是GPU实时功率建模问题。

GPU的功耗信息可以通过直接或间接的方式获取。对于有内置硬件传感器的计算机可以通过相应的接口周期性的采集功率数据；若没有，则可以在电源和GPU之间连接外部功率计以获取其实际功率值。这种通过内置传感器或外接功率计测量直接获取的功率值被认为是最准确的功耗信息来源。但使用外部功率计来直接测量GPU功率不适用于对计算机整机功耗的分析，并且会增加额外的硬件配置成本。但并不是所有的计算机都设有内置硬件传感器，此时则需要采用功耗建模的方式来间接估算GPU功耗。

目前国内外针对GPU功率建模的研究较为有限：Chen等人在其论文Statisti calGPU power analysis using tree-based methods中所介绍的通过GPU仿真工具GPGPU-Sim，将GPU功率和模拟GPU内核运行时观察到的指令类型、GPU硬件性能事件计数以及相关指标通过线性回归树和随机森林关联起来，以预测GPU内核的功耗。他们的工作建立在GPU仿真的基础上，对于GPU实时功率建模的参考价值较小；Karami等人在其论文Astatistical performance analyzer fra mework for OpenCL kernels on Nvidia GPUs中介绍到，通过结合主成分分析，构建了基于GPU硬件性能事件的多元回归线性模型，但硬件性能事件计数与实际功耗之间的关系是未知的，Song等人为避开前人所提出的功耗模型中固有的线性假设，在论文A Simplified and Accurate Model of Power-PerformanceEffi ciency on Emergent GPU Architectures中提出了基于人工神经网络构建了GPU功耗预测模型，但该模型的精度在很大程度上取决于所设计的神经网络架构以及参数配置上。上述所提及的GPU功率预测模型都无法适用于GPU实时功率预测。

对于GPU服务器，对显卡的性能分析尤为重要，主流的显卡都会提供相应的GPU管理库，其中英伟达显卡就提供有相应的英伟达管理库(NVIDIA Mana gement Library，NVML)，并在此基础上开发了命令行实用程序(NVIDIA Syst em Management Interface，nvidia-smi)，可用于周期性访问GPU内置的传感器，获取功率、温度数据。对于没有相关功率、温度传感器的GPU可以使用文献Statistical Power Consumption Analysis andModeling for GPU-based Computing所使用的方法来获取功率、温度数据。

发明内容

本发明要克服现有GPU功率模型不适用于实时功率预测的缺陷，提出一种基于性能事件计数和温度的GPU实时功率建模方法，实现对GPU在不同强度工作负载下实时功率的有效预测。

本发明解决其技术问题所采用的技术方案是：

一种基于性能事件计数和温度的GPU实时功率建模方法，包括如下步骤：

步骤一：GPU实时功率建模数据采集，对于不同厂商的GPU其内部的性能事件的设置存在较大的差异，因此首先需要基于GPU管理库和性能计数器访问接口开发相应的数据采集程序，再运行相关的GPU工作负载，选择合适的采样频率来获取GPU中所需硬件性能事件的计数值以及对应时刻下的GPU温度和功率信息，对于没有内置功率传感器的GPU则通过外接功率计的方式来获取实时功率数据。

步骤二：GPU硬件性能事件选择，找到适用于GPU实时功率建模的性能事件集合。具体的特征选择过程如下：

1)采用步骤一中所开发的数据采集程序，通过多次运行GPU工作负载以轮询的方式按1Hz采样频率采集GPU中所有性能事件计数值以及相应时刻的功率数据；

2)计算各GPU性能事件与功率之间的皮尔逊相关系数r。根据皮尔逊相关系数越近0，相关性越差；越接近-1，负相关性越好的原则，设置能够区别相关性低的阈值ε(一般设ε为0.5左右的值)，剔除相关系数r<ε的性能事件。

3)在剩余的性能事件集合中，使用特征子集搜索和子集评价算法，找出适用于GPU实时功率建模的候选性能事件集合；

4)剔除候选集中在不同类型负载下，与GPU功率并非始终强相关的性能事件，并保证最终选定的性能事件数小于GPU内置性能计数器个数。

步骤三：GPU实时功率预测模型构建，运行GPU工作负载通过步骤一的采集程序以一定的采样频率，采集步骤二所选定的GPU性能事件集计数值以及对应时刻下的GPU温度和功率数据作为GPU回归模型的训练数据集，用于构建G PU实时功率回归树模型，具体建模过程如下：

1)将步骤二所选定的性能事件集和GPU温度作为GPU实时功率回归预测模型的参数；

2)将训练数据集D＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，对于第i个样本(x_i,y_i),i∈[1,n]，x_i为样本i的特征向量，y_i为对应的预期值，用于GPU实时功率回归预测模型的训练；

3)遍历训练数据集所有特征A以及相应的所有可能切分点s，寻找切分特征A_i和切分点s’，将训练数据集划分成两个子集D₁、D₂，其中

使划分后的子集方差和最小，计算公式如下：

/>

其中，c₁、c₂分别为子集D₁、D₂的样本输出均值，计算公式如下：

重复上述的步骤直至满足停止条件：当切分后的子集样本数量小于所设定的参数n，则不再继续切分；

5)至此即完成了GPU实时功率回归树的构建。

本发明的技术构思为：GPU在运行过程中其温度是影响功率消耗的一个重要因素，基于GPU厂商所提供的内部硬件性能事件访问接口以及相关的GPU管理库，编写相应的数据采集程序来获取建模所需的训练数据D，再通过特征选择选出最终用于构建GPU实时功率模型的性能事件集合，最后利用回归树算法构建GPU实时功率回归预测模型，对于没有内置功率传感器的GPU也可以较准确的估计其实时功率。

本发明的有益效果为：通过步骤二选出了能够有效表征GPU实时功率的硬件性能事件集合，并结合了GPU温度，所构建的GPU实时功率回归预测模型能够准确估计GPU的实时功率，相对于GPU内置功率计，本发明支持更细粒度的采样频率为GPU服务器能效研究创造了更多节能的机会。

附图说明

图1是本发明的GPU实时功率建模架构图。

图2是本发明示例中做使用的NVIDIA K40M显卡温度与静态功率关系图。

图3是本发明的GPU实时功率建模方法流程图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

以配备有NVIDIA Tesla K40M显卡的DELL PowerEdge T630服务器为例，如下表1给出了NVIDIA Tesla K40M显卡的相关参数信息：

表1 NVIDIA Tesla K40M显卡参数

参照图1和3，一种基于性能事件计数和温度的GPU实时功率建模方法，包括如下步骤：

步骤一：GPU实时功率建模数据采集，所使用的是NVIDIA Tesla系列的显卡，其内部设有相应的温度和功率传感器，并且NVIDIA官方还提供了一个基于英伟达管理库(NVIDIA Management Library，NVML)开发的命令行实用程序(NVIDIA System ManagementInterface，nvidia-smi)可周期性访问GPU内置的传感器，获取实时的功率、温度数据。对于硬件性能事件计数的采集，我们基于NVIDIA提供有CUDA剖析工具接口(CUDA ProfilingTools Interface，CUP TI)开发了相关的性能事件计数采集程序，用于采集GPU硬件性能事件计数。

步骤二：GPU硬件性能事件选择，对于所使用的NVDIA Tesla K40M显卡，其内部设有141个硬件性能事件，但只提供了8个性能计数器，且在NVIDIA在CUPTI说明文档中提到存在部分性能事件无法同时被监听的问题，因此需要从上百种硬件性能事件中挑选出与GPU功率强相关的性能事件，且还要保证所选择的硬件性能事件集能够被同时监听。

为挑选出满足上述要求的GPU硬件性能事件集合，下面分四步对NVIDIA TeslaK40M的硬件性能事件进行筛选：

1)采用步骤一的数据采集程序，通过多次运行GPU测试基准Rodinia，以轮询的方式按1Hz采样频率采集GPU中所有性能事件计数值以及相应时刻的功率数据；

2)计算各GPU性能事件与功率之间的皮尔逊相关系数r，设阈值ε＝0.5，剔除相关系数r<ε的性能事件；

3)对剩余的GPU硬件性能事件集合，采用过滤式(Filter)特征选择策略，其中使用的搜索策略为Ranker，使用的特征子集评估器为ReliefFAttributeEval,得到候选的性能事件集合。

4)剔除候选集中在不同类型负载下，与GPU功率并非始终强相关的性能事件，并保证最终选定的性能事件数小于GPU内置性能计数器个数(这里是8个)。最终选定的性能事件集如表2所示，用于GPU实时功率预测模型的构建。

表2建模所选性能事件

步骤三：参照附图2，GPU温度和功率之间存在一定的线性关系，因此将温度也作为建模的参数之一，GPU实时功率预测模型构建，具体建模过程如下：

1)将步骤二所选的性能事件集计数值(即表2中所列)以及对应时刻下的温度，作为GPU实时功率回归预测模型的参数。

2)使用GPU测试基准Rodinia，通过步骤一的采集程序以1Hz的采样频率采集步骤二所选的性能事件集计数(active_cycles、inst_executed、inst_issued1、inst_issued2、l2_subp0_write_l1_sector_queries)、GPU温度以及GPU功率，作为GPU回归模型的训练数据集D，用于训练本发明所提出的GPU实时功率回归预测模型，以计算出待估参数。

3)将训练数据集D＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，对于第i个样本(x_i,y_i),i∈[1,n]，x_i为样本i的特征向量，y_i为对应的预期值，用于GPU实时功率回归预测模型的训练；

4)遍历训练数据集所有特征A以及相应的所有可能切分点s，寻找切分特征A_i和切分点s’，将训练数据集划分成两个子集D₁、D₂，其中

使划分后子集方差和最小，计算公式如下：

5)至此即完成了GPU实时功率回归树的构建。

本发明有助于对GPU服务器整机实时功率建模的研究，本发明所提出的GPU实时功率建模架构图见图1。本发明通过一定的特征选择步骤使所选的性能事件集能够有效的表征GPU的功率消耗。GPU的温度对其功率消耗也会产生较大的影响，因此在本发明中结合了GPU温度，并采用了适用于非线性回归场景的决策树算法来进一步提升模型的预测精度。本发明所提出的GPU实时功率模型不仅能够精确的预测GPU的实时功率，还支持细粒度的功率剖析，这为GPU能效研究创造了更多节能的机会。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于性能事件计数和温度的GPU实时功率建模方法，包括如下步骤：

步骤一：GPU实时功率建模数据采集，对于不同厂商的GPU其内部的性能事件的设置存在差异，因此首先需要基于GPU管理库和性能计数器访问接口开发相应的数据采集程序，再运行相关的GPU工作负载，选择合适的采样频率来获取GPU中所需硬件性能事件的计数值以及对应时刻下的GPU温度和功率信息，对于没有内置功率传感器的GPU则通过外接功率计的方式来获取实时功率数据；

步骤二：GPU硬件性能事件选择，找到适用于GPU实时功率建模的性能事件集合；具体的特征选择过程如下：

2)计算各GPU性能事件与功率之间的皮尔逊相关系数r；根据皮尔逊相关系数越接近0，相关性越差，越接近-1，负相关性越好的原则，设置能够区别相关性低的阈值ε，剔除相关系数r<ε的性能事件；

4)剔除候选集中在不同类型负载下，与GPU功率并非始终强相关的性能事件，保证最终选定的性能事件数小于GPU内置性能计数器个数；

步骤三：GPU实时功率预测模型构建，运行GPU工作负载，通过步骤一的采集程序以一定的采样频率，采集步骤二所选定的GPU性能事件集计数以及对应时刻下的GPU温度和功率数据作为GPU回归模型的训练数据集D，用于构建GPU实时功率回归树模型，具体建模过程如下：

3)遍历训练数据集所有特征A以及相应的所有可能切分点s，寻找切分特征A_i和切分点s’，将训练数据集D划分成两个子集D₁、D₂，其中

使切分后的子集方差和最小，计算公式如下：

重复直至满足停止条件：当切分后的子集样本数量小于所设定的参数n，则不再继续切分；

4)至此即完成了GPU实时功率回归树的构建。

2.如权利要求1所述的基于性能事件计数和温度的GPU实时功率建模方法，其特征在于：步骤一所述的采样频率，是指满足建模所需精度要求的采样频率，选择1～50Hz之间的采样频率。

3.如权利要求1所述的基于性能事件计数和温度的GPU实时功率建模方法，其特征在于：步骤二所述的阈值ε取0.5。