CN102880785A

CN102880785A - 针对gpu程序的源码级数据传输能耗估算方法

Info

Publication number: CN102880785A
Application number: CN2012102716426A
Authority: CN
Inventors: 张常有; 黄锟; 崔翔; 陈一峯; 张爽
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-08-01
Filing date: 2012-08-01
Publication date: 2013-01-16

Abstract

本发明公布了一种针对GPU程序的源码级数据传输能耗估算方法，包括如下步骤：基础参数测量计算：针对具体的CPU+GPU异构体系平台单机系统，进行系列基本测量，标定程序状态相关的基本参数；其中，需要测量的基本状态包括：空闲状态、CUDA库运行状态、MPI消息等待状态、数据传输状态；针对具体程序估算数据传输能耗：根据所述参数的标定值对具体程序中数据传输能耗部分进行估算和预测。通过本发明所述的能耗估算方法，能够建立从源程序经由程序状态到能耗的映射关系，可以定性地预测传输能耗，为程序代码级的数据传输能耗估算和优化提供参考。

Description

针对GPU程序的源码级数据传输能耗估算方法

技术领域

本发明提供了一种针对GPU众核程序运行状态进行源码级传输能耗的估算方法，具体内容针对特定GPU+CPU的异构体系平台下使用NVIDIA CUDA架构编写的程序，通过在源码级别的分析建模，进行数据传输操作的功耗的测量和能耗估算方法，属于面向新型计算机体系结构的程序设计方法领域。

背景技术

高性能计算(High Performance Computing，简称HPC)在现代科学研究、工业生产中发挥着越来越重要的作用。HPC利用高性能设备，通过多核、众核、集群、网格等多种并行计算的途径，获得超高的计算速度，完成超大规模的计算任务。

HPC在带来越来越高的计算性能的同时，其能耗也急剧增长。能耗问题越来越为计算机研究人员所重视。目前，针对高性能计算的能耗控制方法，通常实施在硬件电路和机器指令层面。然而，这两个层面的建模方法，对于普通程序员，都过于底层，不适合用于指导应用程序开发过程中的功耗估计与低功耗设计。

高性能计算通常需要在处理器、存储器、主机之间进行频繁的数据交换和网络通讯。因此，从程序员编程视角，程序的能耗主要包括两部分：一是计算能耗，主要耗费于处理器执行计算任务；二是数据传输能耗，指耗费于在不同（或相同）存储器之间转移数据上的电能。通常，计算能耗取决于算法的复杂程度等，比较复杂。传输能耗主要取决于数据传输的方法，相对计算能耗，建模方法比较明确，结果稳定。特别是在HPC领域，不同处理器、主机之间的数据搬运异常频繁，形式多样，准确预测传输能耗以指导程序调优，具有现实意义。

发明内容

本发明的目的是针对CPU+GPU模式的异构计算模型，提供一种基于程序状态的数据传输能耗测量、分析和建模方法，能够建立从程序状态到能耗的映射关系，为程序代码级的数据传输能耗估算和优化提供参考。

为了准确说明本发明，本文采用如下术语及含义。

GPU：Graphics Processing Unit，图形处理单元。GPU最初是为图形图像处理中涉及到的大规模数据处理而设计的专用处理器。之后，GPU被推广到了做通用计算，并且在一些并行度比较高的计算任务中能够发挥非常好的效果。

CUDA：NVIDIA公司推出的GPU通用计算处理架构。

PCIe：PCIe是联通计算机内部各硬件之间的一种主要通信通路。GPU接在计算机主板插槽上，通过PCIe，和计算机的其他芯片直接互联。

功率和功耗：功率是指单位时间内消耗的电量。下面为了叙述方便，功率特指电功率表的读数，等于整个计算机系统的总功率。用一个类似的概念--功耗，来代表程序运行在某一状态时，单位时间内的电能消耗。

能耗：指一段程序的执行时间内的电能消耗。

带宽：单位时间内可传输的数据量的大小，通常用于衡量数据传输的性能。

原语：指具有比较完整功能的一组程序语句。本文中的原语将改变程序的执行状态。

程序状态：指程序的运行状态。当程序仅创建一个线程时，程序状态即该线程状态。它通常对应于一个稳定的功耗值。

页锁定内存和可分页内存：页锁定内存(Pinned Memory)是指不会参与分页交换的内存，永远驻留在物理内存中。而相对地，可分页内存(Pageable Memory)是指会参与分页交换到硬盘上去的内存。

CPU+GPU异构计算模式：如图1所示，CPU+GPU异构计算模式是GPU辅助CPU进行计算的模式，通过把一部分计算任务交给GPU承担，可以提高计算速度。数据可以在主存和GPU显存(Device Memory)之间进行交换。图1为1个CPU和2个GPU的结构。采用的测量方法为多测试程序对整机的功耗进行测量，从而分解出不同原语的功耗及其累计关系。

本发明提供的技术方案如下：

一种针对GPU程序的源码级数据传输能耗估算方法，其特征是，包括如下步骤：

1）基础参数测量计算：针对具体的CPU+GPU异构体系平台单机系统，进行系列基本测量，标定程序状态相关的基本参数；其中，需要测量的基本状态包括：空闲状态、CUDA库运行状态、MPI消息等待状态、数据传输状态；

2）针对具体程序估算数据传输能耗：根据所述参数的标定值对具体程序中数据传输能耗部分进行估算和预测。

所述的源码级数据传输能耗估算方法，其特征是，步骤1）中，由于不同的GPU程序可能使用不同的传输模式和传输粒度组合，为了能够尽可能精确地估算传输能耗，先通过实验测量出平台本身在不同传输模式和传输粒度组合下的基本带宽和功耗数据。

所述的源码级数据传输能耗估算方法，其特征是，根据步骤1）得到的基本带宽和功耗数据，分析具体GPU程序的源码，根据数据传输模式和数据量，估算程序的消耗于数据传输方面的总能耗。

所述的源码级数据传输能耗估算方法，其特征是，线程执行不同原语后，处于多种状态的复合状态，其功耗可以近似分解为多个基本状态功耗的线性累加，简称为简单可加性，根据这种简单可加性，通过计算，完成基础数据的测量和程序能耗的估算。

所述的源码级数据传输能耗估算方法，其特征是，线程状态下的传输功耗的基本测量方法如下：分别测量计算机在空闲状态下的功耗P_I和每个原语执行后的功耗Px，Px的取值为P₁、P₂、P_CUDA或P_TRANS，P_CUDA=P₁-P_I，P_TRANS=P₂-P₁，P_TRANS就是测得的传输功耗；

其中，P₁为CUDA库装载执行之后的功耗读数；P₂为数据传输之后的功耗读数；P_CUDA为装载CUDA库原语执行后导致的功耗值增量；P_TRANS为CUDA中的数据传输原语执行后导致的功耗值增量。

所述的源码级数据传输能耗估算方法，其特征是，采用连续多遍传输的办法，使传输总时间达到10秒以上，从而获得n个功耗读数，重复各种数据传输模式，在不同数据传输粒度下，记录其功耗和带宽，计算平均带宽和平均功耗如下：

所述的源码级数据传输能耗估算方法，其特征是，用如下公式估算数据传输能耗：

所述的源码级数据传输能耗估算方法，其特征是，包括以下步骤：

1）将源程序映射为原语序列，提取出传输数据的原语；

2）确定程序的数据量；

3）列举程序中的各种数据传输模式；

4）从程序表达的算法推断各种数据传输模式对应的数据传输粒度；

5）测量计算出平均带宽和平均功耗；

6）计算数据传输能耗：

本发明的有益效果：通过本发明所述的能耗估算方法，能够建立从源程序经由程序状态到能耗的映射关系，可以定性地预测传输能耗，为程序代码级的数据传输能耗估算和优化提供参考。

附图说明

图1一个采用CPU+GPU异构计算模式的节点。

图2实施例测试程序得到的功率变化曲线。

图3GPU程序源码级的功耗估算步骤。

具体实施方式

本发明所述方法包括两部分：（1）针对具体的CPU+GPU单机系统，进行系列基本测量，标定程序状态相关的基本参数；（2）根据参数的标定值对具体程序中数据传输能耗部分估算和预测。本发明所涉及的CPU+GPU异构计算模式，是目前常见的一种HPC计算应用模型。

本发明的原理如下：

本发明基于程序的运行状态。运行状态可以由线程状态组合体现。

GPU程序通常包含1个或者多个线程，每个线程可能处于如下状态：线程启动、工作间隙、工作状态和/或线程销毁。

线程启动状态：指线程被创建，尚未开始任何计算任务或者数据传输。

工作状态：指线程进行计算或者数据传输的状态。工作状态分为两类，瞬时工作状态和连续工作状态。瞬时工作状态持续时间非常短，例如内存分配/释放、库加载等；而连续工作状态持续时间较长，例如处理器计算、数据传输等。

工作间隙状态：指的是程序暂停当前的工作状态，转换为工作前的准备状态。本发明中实现间隙状态的方法是调用了PThread程序中的sleep()函数。

线程销毁状态：线程执行结束，资源被释放。实际为虚状态，因为线程已经不存在。

并发状态：两个以上线程同时执行。每个线程的各自状态可以不相同。

程序状态持续处于一种状态阶段时，系统功耗保持不变；原语的执行将导致程序状态发生变化，系统功耗也将可能发生相应变化。原语与程序状态的映射关系如表1。

表1原语与程序状态的映射关系

本发明中需要测量的基本状态包括：空闲状态、CUDA库运行状态、MPI消息等待状态、数据传输状态。

空闲状态、CUDA库运行状态和MPI消息等待状态等，只和平台本身的配置有关。

而数据传输状态则较为复杂：CPU+GPU异构平台上的存储分主机存储器和设备存储器。主机存储器又分为页锁定内存和分页内存。在这些不同存储器之间的数据传输组合称为数据传输模式。不同数据传输模式有不同数据传输带宽，导致不同的数据传输功耗。实验表明，即使是相同的数据传输模式，在不同的数据传输粒度情况下，其传输带宽和传输功耗也相差很大。

不同的GPU程序可能使用了不同的传输模式和传输粒度组合。为了能够尽可能精确地估算传输能耗，可以先通过实验测量出平台本身在不同传输模式和传输粒度组合下的基本带宽和功耗数据。

有了以上基础数据。然后分析具体GPU程序的源码，根据数据传输模式和数据量，估算程序的消耗与数据传输方面的总能耗。

经过研究中的大量实验表明，线程执行不同原语后，处于多种状态的复合状态，其功耗可以近似分解为多个基本状态功耗的线性累加(简称为简单可加性)。有了这种简单可加性，就可以方便地通过数学计算，完成基础数据的测量和程序能耗的估算：

1.测量一些状态组合的功耗，通过计算，分解出该状态下，传输原语和其他原语带来的功耗；

2.对程序源码，作原语提取，根据基础测量数据进行计算，就能得出传输能耗。

本发明的主要内容包括：

A.线程状态下的功耗的基本测量方法

分别测量计算机在空闲状态下的功耗P_I和每个原语执行后的功耗Px。

Px可以是如下的一种：

●P₁为CUDA库装载（即LIB_LOAD(CUDA)）执行之后的功耗读数；

●P₂为数据传输（即DATA_TRANS(s)，其中s为数据传输的类型）之后的功耗读数；

●P_CUDA为装载CUDA库原语执行后导致的功耗值增量；

●P_TRANS为CUDA中的数据传输原语执行后导致的功耗值增量；

根据发明原理中提到的简单可加性，P_CUDA=P₁-P_I，P_TRANS=P₂-P₁。P_TRANS就是测得的传输功耗。

当传输粒度很小时，传输操作的功耗难以捕捉，因此可以采用连续多遍传输的办法。使传输总时间达到10秒以上，从而获得n个功耗读数，取平均值。

（公式1）

（公式2）

重复各种数据传输模式，在不同数据传输粒度下，记录其功耗和带宽。

B.能耗估算

根据公式3估计能耗值。

（公式3）

包括以下步骤：

1）将源程序映射为原语序列，提取出传输数据的原语；

2）确定程序的数据量；

3）列举程序中的各种数据传输模式；

5）根据公式1和公式2得到相应的带宽和功耗；

6）按照公式3估算数据传输能耗。

实施例1：

下面以具体的一个平台为例，详述如何按照之前描述的发明内容，针对一个具体例子进行传输功耗的预测。

测试平台为四核CPU，配置了NVIDIA GPU显卡Nvidia GTX285。

对应于发明内容，整个过程分为两大部分：基础参数测量计算和程序能耗预测。

A．基础参数测量

1.功耗的参数的测量

设计如下的测试程序(使用原语表示)，测量整个过程中的功率变化。表中第二列给出了原语序列，以及关键原语对应的功耗标记（本例不关心其他原语对应的功耗值）。

表2原语和功耗之间的映射关系

选择数据传输模式为从可分页内存（pageable memory）到GPU显存（device memory），粒度为64MB，运行该测试程序。同时，在电表上采集数据，得到功率变化曲线图[图2]。曲线分成若干段，对应原语引起的程序（或线程）状态变化。

从表2和图2，可以得到如下的数值对应关系：

P_I=0.5×(250.45+251.18)=250.8W

P_MPI+PI=273.20W

P_CUDA+MPI+P_I=0.5×(285.70+285.88)=285.79W

P_{CUDA+MPI+TRANS}+P_I=339.4W

P_CUDA+P_I=262.89W

继而可以推算出：

P_I=250.8W

P_MPI=273.20-250.8=22.40W

P_CUDA=262.89-250.8=12.09W

P_TRANS=53.61W

P_TPANS=53.61W就是测量得到的传输功耗。

然后重复上面的测试，只是变换传输粒度和存储器类型，进行反复测量得到各种传输粒度和存储器组合情况下的平均传输功耗。

2.带宽数据的测量

在1中进行功耗测试的同时，可以同时计算所选存储器类型和粒度组合对应的带宽数据，计算公式如下：

（公式4）

B.针对具体程序估算数据传输能耗

考虑这样一个具体的例子：使用GPU对1024个向量进行快速傅里叶变换(FFT)，每个向量的大小为2048B。按照图3所示的流程步骤估算程序能耗。

对1个向量进行FFT变换的过程，可以归纳为3个部分

从主存往显存拷贝数据；

对显存中的数据进行计算；

把计算结果从显存拷贝回主存。

1.将这个过程归纳为原语

序号	原语	功耗
			1	START_THREAD(x);	P_I
2	MEM_ALLOC(PTHREAD);
			3	LIB_LOAD(CUDA);	P_I+CUDA
4	MEM_ALLOC(CUDA)；
			5	DATA_TRANS(s);	P_I+CUDA+TRANS
6	CALCULATE();	--
			7	DATA_TRANS(s);	P_I+CUDA+TRANS
8	LIB_FREE(CUDA);	P_I
			9	Stop_THREAD(x);

传输数据的原语的序号为5和7。

2.确定数据传输量

一共1024个向量，每个向量都需要在主存和显存之间来回拷贝，总数据量大小为1024*2048B=2MB。

3.确定程序算法中的数据传输模式

从主存往显存拷贝数据的模式是，从pageable memory到device memory；

从显存往主存拷贝数据的模式是，从device memory到pageable memory。

4.确定每种传输模式下的数据传输粒度分布

为了比较不同存储器和粒度组合的功耗，我们考虑两种传输粒度

i).每次传输一个向量，重复1024次，粒度为2048B=2KB；

ii).所有向量合并到一次输出传输，传输1次，粒度为1024*2048=2MB。

5.从A中测得的结果，获得相应的带宽和功耗

从pageable memory到device memory：

在粒度i)下，带宽为0.15GB/s，平均传输功耗为2.15W

在粒度ii)下，带宽为4.88GB/s，平均传输功耗为51.3W

从device memory到pageable memory：

在粒度i)下，带宽为0.16GB/s，平均传输功耗为2.32W

在粒度ii)下，带宽为3.09GB/s，平均传输功耗为37.8W

6.按照公式3估计数据传输能耗

在粒度i)下，能耗估算值等于

W_{1} = \frac{2 MB \times 2.15 W}{0.15 GB / s} + \frac{2 MB \times 2.32 W}{0.16 GB / s}

在粒度ii)下，能耗估算值等于

W_{2} = \frac{2 MB \times 51.3 W}{4.88 GB / s} + \frac{2 MB \times 37.8 W}{3.09 GB / s}

计算表明ii)比i)节约26%的能耗。由此可以看出本发明所述的方法可以用来指导优化程序的设计，达到节能目的。

Claims

1.一种针对GPU程序的源码级数据传输能耗估算方法，其特征是，包括如下步骤：

2.如权利要求1所述的源码级数据传输能耗估算方法，其特征是，步骤1）中，由于不同的GPU程序可能使用不同的传输模式和传输粒度组合，为了能够尽可能精确地估算传输能耗，先通过实验测量出平台本身在不同传输模式和传输粒度组合下的基本带宽和功耗数据。

3.如权利要求2所述的源码级数据传输能耗估算方法，其特征是，根据步骤1）得到的基本带宽和功耗数据，分析具体GPU程序的源码，根据数据传输模式和数据量，估算程序的消耗于数据传输方面的总能耗。

4.如权利要求1所述的源码级数据传输能耗估算方法，其特征是，线程执行不同原语后，处于多种状态的复合状态，其功耗可以近似分解为多个基本状态功耗的线性累加，简称为简单可加性，根据这种简单可加性，通过计算，完成基础数据的测量和程序能耗的估算。

5.如权利要求1所述的源码级数据传输能耗估算方法，其特征是，线程状态下的传输功耗的基本测量方法如下：分别测量计算机在空闲状态下的功耗P_I和每个原语执行后的功耗Px，Px的取值为P₁、P₂、P_CUDA或P_TRANS，P_CUDA=P₁-P_I，P_TRANS=P₂-P₁，P_TRANS就是测得的传输功耗；

6.如权利要求1所述的源码级数据传输能耗估算方法，其特征是，采用连续多遍传输的办法，使传输总时间达到10秒以上，从而获得n个功耗读数，重复各种数据传输模式，在不同数据传输粒度下，记录其功耗和带宽，计算平均带宽和平均功耗如下：

7.如权利要求6所述的源码级数据传输能耗估算方法，其特征是，用如下公式估算数据传输能耗：

8.如权利要求1所述的源码级数据传输能耗估算方法，其特征是，包括以下步骤：

1）将源程序映射为原语序列，提取出传输数据的原语；

2）确定程序的数据量；

3）列举程序中的各种数据传输模式；

5）测量计算出平均带宽和平均功耗；

6）计算数据传输能耗：