CN102880785A - 针对gpu程序的源码级数据传输能耗估算方法 - Google Patents

针对gpu程序的源码级数据传输能耗估算方法 Download PDF

Info

Publication number
CN102880785A
CN102880785A CN2012102716426A CN201210271642A CN102880785A CN 102880785 A CN102880785 A CN 102880785A CN 2012102716426 A CN2012102716426 A CN 2012102716426A CN 201210271642 A CN201210271642 A CN 201210271642A CN 102880785 A CN102880785 A CN 102880785A
Authority
CN
China
Prior art keywords
power consumption
transmission
data
energy consumption
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102716426A
Other languages
English (en)
Inventor
张常有
黄锟
崔翔
陈一峯
张爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2012102716426A priority Critical patent/CN102880785A/zh
Publication of CN102880785A publication Critical patent/CN102880785A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了一种针对GPU程序的源码级数据传输能耗估算方法,包括如下步骤:基础参数测量计算:针对具体的CPU+GPU异构体系平台单机系统,进行系列基本测量,标定程序状态相关的基本参数;其中,需要测量的基本状态包括:空闲状态、CUDA库运行状态、MPI消息等待状态、数据传输状态;针对具体程序估算数据传输能耗:根据所述参数的标定值对具体程序中数据传输能耗部分进行估算和预测。通过本发明所述的能耗估算方法,能够建立从源程序经由程序状态到能耗的映射关系,可以定性地预测传输能耗,为程序代码级的数据传输能耗估算和优化提供参考。

Description

针对GPU程序的源码级数据传输能耗估算方法
技术领域
本发明提供了一种针对GPU众核程序运行状态进行源码级传输能耗的估算方法,具体内容针对特定GPU+CPU的异构体系平台下使用NVIDIA CUDA架构编写的程序,通过在源码级别的分析建模,进行数据传输操作的功耗的测量和能耗估算方法,属于面向新型计算机体系结构的程序设计方法领域。
背景技术
高性能计算(High Performance Computing,简称HPC)在现代科学研究、工业生产中发挥着越来越重要的作用。HPC利用高性能设备,通过多核、众核、集群、网格等多种并行计算的途径,获得超高的计算速度,完成超大规模的计算任务。
HPC在带来越来越高的计算性能的同时,其能耗也急剧增长。能耗问题越来越为计算机研究人员所重视。目前,针对高性能计算的能耗控制方法,通常实施在硬件电路和机器指令层面。然而,这两个层面的建模方法,对于普通程序员,都过于底层,不适合用于指导应用程序开发过程中的功耗估计与低功耗设计。
高性能计算通常需要在处理器、存储器、主机之间进行频繁的数据交换和网络通讯。因此,从程序员编程视角,程序的能耗主要包括两部分:一是计算能耗,主要耗费于处理器执行计算任务;二是数据传输能耗,指耗费于在不同(或相同)存储器之间转移数据上的电能。通常,计算能耗取决于算法的复杂程度等,比较复杂。传输能耗主要取决于数据传输的方法,相对计算能耗,建模方法比较明确,结果稳定。特别是在HPC领域,不同处理器、主机之间的数据搬运异常频繁,形式多样,准确预测传输能耗以指导程序调优,具有现实意义。
发明内容
本发明的目的是针对CPU+GPU模式的异构计算模型,提供一种基于程序状态的数据传输能耗测量、分析和建模方法,能够建立从程序状态到能耗的映射关系,为程序代码级的数据传输能耗估算和优化提供参考。
为了准确说明本发明,本文采用如下术语及含义。
GPU:Graphics Processing Unit,图形处理单元。GPU最初是为图形图像处理中涉及到的大规模数据处理而设计的专用处理器。之后,GPU被推广到了做通用计算,并且在一些并行度比较高的计算任务中能够发挥非常好的效果。
CUDA:NVIDIA公司推出的GPU通用计算处理架构。
PCIe:PCIe是联通计算机内部各硬件之间的一种主要通信通路。GPU接在计算机主板插槽上,通过PCIe,和计算机的其他芯片直接互联。
功率和功耗:功率是指单位时间内消耗的电量。下面为了叙述方便,功率特指电功率表的读数,等于整个计算机系统的总功率。用一个类似的概念--功耗,来代表程序运行在某一状态时,单位时间内的电能消耗。
能耗:指一段程序的执行时间内的电能消耗。
带宽:单位时间内可传输的数据量的大小,通常用于衡量数据传输的性能。
原语:指具有比较完整功能的一组程序语句。本文中的原语将改变程序的执行状态。
程序状态:指程序的运行状态。当程序仅创建一个线程时,程序状态即该线程状态。它通常对应于一个稳定的功耗值。
页锁定内存和可分页内存:页锁定内存(Pinned Memory)是指不会参与分页交换的内存,永远驻留在物理内存中。而相对地,可分页内存(Pageable Memory)是指会参与分页交换到硬盘上去的内存。
CPU+GPU异构计算模式:如图1所示,CPU+GPU异构计算模式是GPU辅助CPU进行计算的模式,通过把一部分计算任务交给GPU承担,可以提高计算速度。数据可以在主存和GPU显存(Device Memory)之间进行交换。图1为1个CPU和2个GPU的结构。采用的测量方法为多测试程序对整机的功耗进行测量,从而分解出不同原语的功耗及其累计关系。
本发明提供的技术方案如下:
一种针对GPU程序的源码级数据传输能耗估算方法,其特征是,包括如下步骤:
1)基础参数测量计算:针对具体的CPU+GPU异构体系平台单机系统,进行系列基本测量,标定程序状态相关的基本参数;其中,需要测量的基本状态包括:空闲状态、CUDA库运行状态、MPI消息等待状态、数据传输状态;
2)针对具体程序估算数据传输能耗:根据所述参数的标定值对具体程序中数据传输能耗部分进行估算和预测。
所述的源码级数据传输能耗估算方法,其特征是,步骤1)中,由于不同的GPU程序可能使用不同的传输模式和传输粒度组合,为了能够尽可能精确地估算传输能耗,先通过实验测量出平台本身在不同传输模式和传输粒度组合下的基本带宽和功耗数据。
所述的源码级数据传输能耗估算方法,其特征是,根据步骤1)得到的基本带宽和功耗数据,分析具体GPU程序的源码,根据数据传输模式和数据量,估算程序的消耗于数据传输方面的总能耗。
所述的源码级数据传输能耗估算方法,其特征是,线程执行不同原语后,处于多种状态的复合状态,其功耗可以近似分解为多个基本状态功耗的线性累加,简称为简单可加性,根据这种简单可加性,通过计算,完成基础数据的测量和程序能耗的估算。
所述的源码级数据传输能耗估算方法,其特征是,线程状态下的传输功耗的基本测量方法如下:分别测量计算机在空闲状态下的功耗PI和每个原语执行后的功耗Px,Px的取值为P1、P2、PCUDA或PTRANS,PCUDA=P1-PI,PTRANS=P2-P1,PTRANS就是测得的传输功耗;
其中,P1为CUDA库装载执行之后的功耗读数;P2为数据传输之后的功耗读数;PCUDA为装载CUDA库原语执行后导致的功耗值增量;PTRANS为CUDA中的数据传输原语执行后导致的功耗值增量。
所述的源码级数据传输能耗估算方法,其特征是,采用连续多遍传输的办法,使传输总时间达到10秒以上,从而获得n个功耗读数,重复各种数据传输模式,在不同数据传输粒度下,记录其功耗和带宽,计算平均带宽和平均功耗如下:
Figure BDA00001959091400031
Figure BDA00001959091400032
所述的源码级数据传输能耗估算方法,其特征是,用如下公式估算数据传输能耗:
Figure BDA00001959091400033
所述的源码级数据传输能耗估算方法,其特征是,包括以下步骤:
1)将源程序映射为原语序列,提取出传输数据的原语;
2)确定程序的数据量;
3)列举程序中的各种数据传输模式;
4)从程序表达的算法推断各种数据传输模式对应的数据传输粒度;
5)测量计算出平均带宽和平均功耗;
6)计算数据传输能耗:
Figure BDA00001959091400041
本发明的有益效果:通过本发明所述的能耗估算方法,能够建立从源程序经由程序状态到能耗的映射关系,可以定性地预测传输能耗,为程序代码级的数据传输能耗估算和优化提供参考。
附图说明
图1一个采用CPU+GPU异构计算模式的节点。
图2实施例测试程序得到的功率变化曲线。
图3GPU程序源码级的功耗估算步骤。
具体实施方式
本发明所述方法包括两部分:(1)针对具体的CPU+GPU单机系统,进行系列基本测量,标定程序状态相关的基本参数;(2)根据参数的标定值对具体程序中数据传输能耗部分估算和预测。本发明所涉及的CPU+GPU异构计算模式,是目前常见的一种HPC计算应用模型。
本发明的原理如下:
本发明基于程序的运行状态。运行状态可以由线程状态组合体现。
GPU程序通常包含1个或者多个线程,每个线程可能处于如下状态:线程启动、工作间隙、工作状态和/或线程销毁。
线程启动状态:指线程被创建,尚未开始任何计算任务或者数据传输。
工作状态:指线程进行计算或者数据传输的状态。工作状态分为两类,瞬时工作状态和连续工作状态。瞬时工作状态持续时间非常短,例如内存分配/释放、库加载等;而连续工作状态持续时间较长,例如处理器计算、数据传输等。
工作间隙状态:指的是程序暂停当前的工作状态,转换为工作前的准备状态。本发明中实现间隙状态的方法是调用了PThread程序中的sleep()函数。
线程销毁状态:线程执行结束,资源被释放。实际为虚状态,因为线程已经不存在。
并发状态:两个以上线程同时执行。每个线程的各自状态可以不相同。
程序状态持续处于一种状态阶段时,系统功耗保持不变;原语的执行将导致程序状态发生变化,系统功耗也将可能发生相应变化。原语与程序状态的映射关系如表1。
Figure BDA00001959091400051
表1原语与程序状态的映射关系
本发明中需要测量的基本状态包括:空闲状态、CUDA库运行状态、MPI消息等待状态、数据传输状态。
空闲状态、CUDA库运行状态和MPI消息等待状态等,只和平台本身的配置有关。
而数据传输状态则较为复杂:CPU+GPU异构平台上的存储分主机存储器和设备存储器。主机存储器又分为页锁定内存和分页内存。在这些不同存储器之间的数据传输组合称为数据传输模式。不同数据传输模式有不同数据传输带宽,导致不同的数据传输功耗。实验表明,即使是相同的数据传输模式,在不同的数据传输粒度情况下,其传输带宽和传输功耗也相差很大。
不同的GPU程序可能使用了不同的传输模式和传输粒度组合。为了能够尽可能精确地估算传输能耗,可以先通过实验测量出平台本身在不同传输模式和传输粒度组合下的基本带宽和功耗数据。
有了以上基础数据。然后分析具体GPU程序的源码,根据数据传输模式和数据量,估算程序的消耗与数据传输方面的总能耗。
经过研究中的大量实验表明,线程执行不同原语后,处于多种状态的复合状态,其功耗可以近似分解为多个基本状态功耗的线性累加(简称为简单可加性)。有了这种简单可加性,就可以方便地通过数学计算,完成基础数据的测量和程序能耗的估算:
1.测量一些状态组合的功耗,通过计算,分解出该状态下,传输原语和其他原语带来的功耗;
2.对程序源码,作原语提取,根据基础测量数据进行计算,就能得出传输能耗。
本发明的主要内容包括:
A.线程状态下的功耗的基本测量方法
分别测量计算机在空闲状态下的功耗PI和每个原语执行后的功耗Px。
Px可以是如下的一种:
●P1为CUDA库装载(即LIB_LOAD(CUDA))执行之后的功耗读数;
●P2为数据传输(即DATA_TRANS(s),其中s为数据传输的类型)之后的功耗读数;
●PCUDA为装载CUDA库原语执行后导致的功耗值增量;
●PTRANS为CUDA中的数据传输原语执行后导致的功耗值增量;
根据发明原理中提到的简单可加性,PCUDA=P1-PI,PTRANS=P2-P1。PTRANS就是测得的传输功耗。
当传输粒度很小时,传输操作的功耗难以捕捉,因此可以采用连续多遍传输的办法。使传输总时间达到10秒以上,从而获得n个功耗读数,取平均值。
(公式1)
Figure BDA00001959091400062
(公式2)
重复各种数据传输模式,在不同数据传输粒度下,记录其功耗和带宽。
B.能耗估算
根据公式3估计能耗值。
Figure BDA00001959091400071
(公式3)
包括以下步骤:
1)将源程序映射为原语序列,提取出传输数据的原语;
2)确定程序的数据量;
3)列举程序中的各种数据传输模式;
4)从程序表达的算法推断各种数据传输模式对应的数据传输粒度;
5)根据公式1和公式2得到相应的带宽和功耗;
6)按照公式3估算数据传输能耗。
实施例1:
下面以具体的一个平台为例,详述如何按照之前描述的发明内容,针对一个具体例子进行传输功耗的预测。
测试平台为四核CPU,配置了NVIDIA GPU显卡Nvidia GTX285。
对应于发明内容,整个过程分为两大部分:基础参数测量计算和程序能耗预测。
A.基础参数测量
1.功耗的参数的测量
设计如下的测试程序(使用原语表示),测量整个过程中的功率变化。表中第二列给出了原语序列,以及关键原语对应的功耗标记(本例不关心其他原语对应的功耗值)。
Figure BDA00001959091400072
Figure BDA00001959091400081
表2原语和功耗之间的映射关系
选择数据传输模式为从可分页内存(pageable memory)到GPU显存(device memory),粒度为64MB,运行该测试程序。同时,在电表上采集数据,得到功率变化曲线图[图2]。曲线分成若干段,对应原语引起的程序(或线程)状态变化。
从表2和图2,可以得到如下的数值对应关系:
PI=0.5×(250.45+251.18)=250.8W
PMPI+PI=273.20W
PCUDA+MPI+PI=0.5×(285.70+285.88)=285.79W
PCUDA+MPI+TRANS+PI=339.4W
PCUDA+PI=262.89W
继而可以推算出:
PI=250.8W
PMPI=273.20-250.8=22.40W
PCUDA=262.89-250.8=12.09W
PTRANS=53.61W
PTPANS=53.61W就是测量得到的传输功耗。
然后重复上面的测试,只是变换传输粒度和存储器类型,进行反复测量得到各种传输粒度和存储器组合情况下的平均传输功耗。
2.带宽数据的测量
在1中进行功耗测试的同时,可以同时计算所选存储器类型和粒度组合对应的带宽数据,计算公式如下:
Figure BDA00001959091400091
(公式4)
B.针对具体程序估算数据传输能耗
考虑这样一个具体的例子:使用GPU对1024个向量进行快速傅里叶变换(FFT),每个向量的大小为2048B。按照图3所示的流程步骤估算程序能耗。
对1个向量进行FFT变换的过程,可以归纳为3个部分
Figure BDA00001959091400092
从主存往显存拷贝数据;
Figure BDA00001959091400093
对显存中的数据进行计算;
Figure BDA00001959091400094
把计算结果从显存拷贝回主存。
1.将这个过程归纳为原语
  序号   原语   功耗
  1   START_THREAD(x);   PI
  2   MEM_ALLOC(PTHREAD);
  3   LIB_LOAD(CUDA);   PI+CUDA
  4   MEM_ALLOC(CUDA);
  5   DATA_TRANS(s);   PI+CUDA+TRANS
  6   CALCULATE();   --
  7   DATA_TRANS(s);   PI+CUDA+TRANS
  8   LIB_FREE(CUDA);   PI
  9   Stop_THREAD(x);
传输数据的原语的序号为5和7。
2.确定数据传输量
一共1024个向量,每个向量都需要在主存和显存之间来回拷贝,总数据量大小为1024*2048B=2MB。
3.确定程序算法中的数据传输模式
从主存往显存拷贝数据的模式是,从pageable memory到device memory;
从显存往主存拷贝数据的模式是,从device memory到pageable memory。
4.确定每种传输模式下的数据传输粒度分布
为了比较不同存储器和粒度组合的功耗,我们考虑两种传输粒度
i).每次传输一个向量,重复1024次,粒度为2048B=2KB;
ii).所有向量合并到一次输出传输,传输1次,粒度为1024*2048=2MB。
5.从A中测得的结果,获得相应的带宽和功耗
从pageable memory到device memory:
在粒度i)下,带宽为0.15GB/s,平均传输功耗为2.15W
在粒度ii)下,带宽为4.88GB/s,平均传输功耗为51.3W
从device memory到pageable memory:
在粒度i)下,带宽为0.16GB/s,平均传输功耗为2.32W
在粒度ii)下,带宽为3.09GB/s,平均传输功耗为37.8W
6.按照公式3估计数据传输能耗
在粒度i)下,能耗估算值等于
W 1 = 2 MB × 2.15 W 0.15 GB / s + 2 MB × 2.32 W 0.16 GB / s
在粒度ii)下,能耗估算值等于
W 2 = 2 MB × 51.3 W 4.88 GB / s + 2 MB × 37.8 W 3.09 GB / s
计算表明ii)比i)节约26%的能耗。由此可以看出本发明所述的方法可以用来指导优化程序的设计,达到节能目的。

Claims (8)

1.一种针对GPU程序的源码级数据传输能耗估算方法,其特征是,包括如下步骤:
1)基础参数测量计算:针对具体的CPU+GPU异构体系平台单机系统,进行系列基本测量,标定程序状态相关的基本参数;其中,需要测量的基本状态包括:空闲状态、CUDA库运行状态、MPI消息等待状态、数据传输状态;
2)针对具体程序估算数据传输能耗:根据所述参数的标定值对具体程序中数据传输能耗部分进行估算和预测。
2.如权利要求1所述的源码级数据传输能耗估算方法,其特征是,步骤1)中,由于不同的GPU程序可能使用不同的传输模式和传输粒度组合,为了能够尽可能精确地估算传输能耗,先通过实验测量出平台本身在不同传输模式和传输粒度组合下的基本带宽和功耗数据。
3.如权利要求2所述的源码级数据传输能耗估算方法,其特征是,根据步骤1)得到的基本带宽和功耗数据,分析具体GPU程序的源码,根据数据传输模式和数据量,估算程序的消耗于数据传输方面的总能耗。
4.如权利要求1所述的源码级数据传输能耗估算方法,其特征是,线程执行不同原语后,处于多种状态的复合状态,其功耗可以近似分解为多个基本状态功耗的线性累加,简称为简单可加性,根据这种简单可加性,通过计算,完成基础数据的测量和程序能耗的估算。
5.如权利要求1所述的源码级数据传输能耗估算方法,其特征是,线程状态下的传输功耗的基本测量方法如下:分别测量计算机在空闲状态下的功耗PI和每个原语执行后的功耗Px,Px的取值为P1、P2、PCUDA或PTRANS,PCUDA=P1-PI,PTRANS=P2-P1,PTRANS就是测得的传输功耗;
其中,P1为CUDA库装载执行之后的功耗读数;P2为数据传输之后的功耗读数;PCUDA为装载CUDA库原语执行后导致的功耗值增量;PTRANS为CUDA中的数据传输原语执行后导致的功耗值增量。
6.如权利要求1所述的源码级数据传输能耗估算方法,其特征是,采用连续多遍传输的办法,使传输总时间达到10秒以上,从而获得n个功耗读数,重复各种数据传输模式,在不同数据传输粒度下,记录其功耗和带宽,计算平均带宽和平均功耗如下:
Figure FDA00001959091300011
Figure FDA00001959091300012
7.如权利要求6所述的源码级数据传输能耗估算方法,其特征是,用如下公式估算数据传输能耗:
Figure FDA00001959091300021
8.如权利要求1所述的源码级数据传输能耗估算方法,其特征是,包括以下步骤:
1)将源程序映射为原语序列,提取出传输数据的原语;
2)确定程序的数据量;
3)列举程序中的各种数据传输模式;
4)从程序表达的算法推断各种数据传输模式对应的数据传输粒度;
5)测量计算出平均带宽和平均功耗;
6)计算数据传输能耗:
Figure FDA00001959091300022
CN2012102716426A 2012-08-01 2012-08-01 针对gpu程序的源码级数据传输能耗估算方法 Pending CN102880785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102716426A CN102880785A (zh) 2012-08-01 2012-08-01 针对gpu程序的源码级数据传输能耗估算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102716426A CN102880785A (zh) 2012-08-01 2012-08-01 针对gpu程序的源码级数据传输能耗估算方法

Publications (1)

Publication Number Publication Date
CN102880785A true CN102880785A (zh) 2013-01-16

Family

ID=47482107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102716426A Pending CN102880785A (zh) 2012-08-01 2012-08-01 针对gpu程序的源码级数据传输能耗估算方法

Country Status (1)

Country Link
CN (1) CN102880785A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090993A (zh) * 2014-05-30 2014-10-08 北京遥测技术研究所 一种甚长基线干涉测量相关处理实现方法
WO2015117459A1 (zh) * 2014-08-19 2015-08-13 中兴通讯股份有限公司 网元设备功耗的获取方法及装置
CN105959404A (zh) * 2016-06-27 2016-09-21 江苏易乐网络科技有限公司 一种基于云计算的gpu虚拟化平台
WO2020114311A1 (zh) * 2018-12-07 2020-06-11 中国科学院深圳先进技术研究院 一种基于机器学习的CPU与GPU异构SoC性能刻画方法
CN115599195A (zh) * 2022-12-14 2023-01-13 国网江苏省电力有限公司信息通信分公司(Cn) 一种基于cuda性能计数器的gpu能耗预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101573677A (zh) * 2007-01-07 2009-11-04 苹果公司 用于数据处理系统中的功率管理的方法和系统
CN101901042A (zh) * 2010-08-27 2010-12-01 上海交通大学 多gpu系统中基于动态任务迁移技术的降功耗方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101573677A (zh) * 2007-01-07 2009-11-04 苹果公司 用于数据处理系统中的功率管理的方法和系统
CN101901042A (zh) * 2010-08-27 2010-12-01 上海交通大学 多gpu系统中基于动态任务迁移技术的降功耗方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHANGYOU ZHANG等: "Energy-Aware GPU Programming at Source-Code Levels", 《TSINGHUA SCIENCE AND TECHNOLOGY》, vol. 17, no. 3, 30 June 2012 (2012-06-30), pages 1 - 9 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090993A (zh) * 2014-05-30 2014-10-08 北京遥测技术研究所 一种甚长基线干涉测量相关处理实现方法
CN104090993B (zh) * 2014-05-30 2017-01-25 北京遥测技术研究所 一种甚长基线干涉测量相关处理实现方法
WO2015117459A1 (zh) * 2014-08-19 2015-08-13 中兴通讯股份有限公司 网元设备功耗的获取方法及装置
CN105959404A (zh) * 2016-06-27 2016-09-21 江苏易乐网络科技有限公司 一种基于云计算的gpu虚拟化平台
WO2020114311A1 (zh) * 2018-12-07 2020-06-11 中国科学院深圳先进技术研究院 一种基于机器学习的CPU与GPU异构SoC性能刻画方法
CN115599195A (zh) * 2022-12-14 2023-01-13 国网江苏省电力有限公司信息通信分公司(Cn) 一种基于cuda性能计数器的gpu能耗预测方法及系统

Similar Documents

Publication Publication Date Title
Guerreiro et al. GPGPU power modeling for multi-domain voltage-frequency scaling
CN102854968B (zh) 一种虚拟机实时能耗计量方法
CN102880785A (zh) 针对gpu程序的源码级数据传输能耗估算方法
CN104657219A (zh) 一种用于异构众核系统下的应用程序线程数动态调整方法
Abdelaziz GPU-OpenCL accelerated probabilistic power flow analysis using Monte-Carlo simulation
Yuan et al. FUNWAVE‐GPU: Multiple‐GPU acceleration of a Boussinesq‐type wave model
Herdt et al. Towards early validation of firmware-based power management using virtual prototypes: A constrained random approach
CN103246541A (zh) 自动并行化多级并行代价评估方法
Diop et al. Power modeling for heterogeneous processors
Anzt et al. Analysis and optimization of power consumption in the iterative solution of sparse linear systems on multi-core and many-core platforms
NL2023815A (en) Numerical simulation method for unstructured grid tides and tidal currents based on gpu computation technology
Wang et al. Power Estimating Model and Analysis of General Programming on GPU.
Manousakis et al. TProf: An energy profiler for task-parallel programs
Wu et al. Utilizing hardware performance counters to model and optimize the energy and performance of large scale scientific applications on power-aware supercomputers
CN101976207A (zh) 一种面向gpu的数据流处理方法
CN101881995A (zh) 一种针对arm指令集的层次分类功耗测量方法
Lastra et al. Efficient multilayer shallow-water simulation system based on GPUs
Chen et al. Energy efficient parallel matrix-matrix multiplication for DVFS-enabled clusters
Jooya et al. Efficient design space exploration of GPGPU architectures
Wu et al. Power modelling and capping for heterogeneous ARM/FPGA SoCs
Yan et al. Accurate and low-overhead process-level energy estimation for modern hard disk drives
Li et al. A GPU-based parallel algorithm for large scale linear programming problem
CN106020982A (zh) 一种软件组件资源消耗模拟方法
Uddin et al. Signature-based high-level simulation of microthreaded many-core architectures
CN101882103A (zh) 一种嵌入式设备i/o接口的软件能耗统计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130116