CN104123452B - 基于模糊决策的gpu负载综合评判方法 - Google Patents
基于模糊决策的gpu负载综合评判方法 Download PDFInfo
- Publication number
- CN104123452B CN104123452B CN201410341239.5A CN201410341239A CN104123452B CN 104123452 B CN104123452 B CN 104123452B CN 201410341239 A CN201410341239 A CN 201410341239A CN 104123452 B CN104123452 B CN 104123452B
- Authority
- CN
- China
- Prior art keywords
- mrow
- mtd
- gpu
- load
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000003054 catalyst Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种基于模糊决策的GPU的负载评价方法,涉及计算机技术领域,可以正确对GPU的负载进行评价。所述方法包括:针对一个GPU来说,获得n时刻所述GPU的负载向量,然后计算获得n时刻评价负载用的评价负载向量L,综合所述评价负载向量L中的元素utilization,memory,pstates,以及occupancy进行模糊评判,获得模糊判决矩阵R;根据用户给出的诸因素权重分配为:W=(w1,w2,w3,w4)以及模糊判决矩阵计算获得综合评价A,对所述综合评价A进行归一化处理获得A′,根据最大隶属度原则获得所述GPU的负载情况。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于模糊决策的GPU(GraphicProcessing Unit,图形处理器)的负载评价方法。
背景技术
Kepler GK110(专为英伟达Tesla产品打造CUDA计算架构)由71亿个晶体管组成,可以提供超过每秒1万亿次双精度浮点计算的吞吐量,Kepler架构在电源效率方面,比Fermi的性能/功率比提高了3倍。完整Kepler GK110实施包括15 SMX单元和六个64位内存控制器。拥有192个单精度CUDA(Compute Unified Device Architecture,统一计算设备架构)核,64个双精度单元。
C-RAN(新型无线接入网架构)白皮书指出传统的无线接入网面临的挑战有大量基站导致高额能耗、潮汐效应导致基站利用率低下。把GPU作为资源池,进行基带处理,刚好解决了这个问题。基带处理就要求GPU可以任务级别的并行处理每个用户的需求。
GPU虽然提供了非常强大的数据级并行计算能力,不过对于任务级别的并行有比较大的限制。最新的kepler架构支持同时并发32个核函数。因此为了满足多任务的需求就需要在一个主机上装备多块GPU。对于多GPU系统需要解决GPU之间的负载均衡,才能达到最佳性能,因此正确评价某一个GPU的负载信息至关重要。
发明内容
本发明的实施例提供一种基于模糊决策的GPU的负载评价方法,可以正确地对GPU的负载进行评价。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于模糊决策的GPU的负载评价方法,包括:
针对一个GPU来说,获得n时刻所述GPU的负载向量。
所述GPU的负载向量表示如下:
Ln=<utilization,memory,pstates,occupancy>
其中,utilization:过去一个样本时间内所述GPU运行一个或者多个核函数的时间占总时间的百分比;memory:所述GPU已用全局内存占总的全局内存的百分比;pstates:即performance state的16个等级,p0(maximum performance)-p15(minimumperformance);occupancy:即achieved occupancy:所述GPU的每个sm中有多个warp调度器,每个调度器有一个硬件性能计数器,用来计数每个时钟周期活跃warp数,每个调度器计数结果之和除以sm活跃的总周期数,就可以得到这个sm的活跃warp数,除以sm理论最大warp数就是kernel执行期间这个sm的occupancy,所有sm的平均值就是整体的occupancy;
获得n时刻评价负载用的评价负载向量L,所述L满足以下公式:
L=70%×Ln+30%×Ln-1;
综合所述评价负载向量L中的元素utilization,memory,pstates,以及occupancy进行模糊评判,获得模糊判决矩阵:R=(rij)4×3;
根据用户给出的诸因素权重分配为:W=(w1,w2,w3,w4)以及模糊判决矩阵计算获得综合评价A,所述A满足以下公式:
A=W·R=(a1,a2,a3);
对所述综合评价A进行归一化处理获得A′,所述A′满足以下公式:
A′=(a1/s,a2/s,a3/s);其中,
根据最大隶属度原则获得所述GPU的负载情况。
上述技术方案提供的GPU的负载评价方法,综合GPU的多个参数utilization,memory,patates,occupancy,与现有技术众对GPU负载的评价都是基于单一参数相比,更加客观的反映了GPU负载信息,对GPU的负载评价更正确。
附图说明
图1为本发明实施例提供的一种基于模糊决策的GPU的负载评价方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于模糊决策的GPU的负载评价方法,如图1所示,所述方法包括以下步骤:
101、针对一个GPU来说,获得n时刻所述GPU的负载向量。
所述GPU的负载向量表示如下:
Ln=<utilization,memory,pstates,occupancy>
其中,utilization:过去一个样本时间内所述GPU运行一个或者多个核函数的时间占总时间的百分比;memory:所述GPU已用全局内存占总的全局内存的百分比;pstates:即performance state的16个等级,p0(maximum performance)-p15(minimumperformance);occupancy:即整体achieved occupancy:所述GPU的每个sm中有多个warp调度器,每个调度器有一个硬件性能计数器,用来计数每个时钟周期活跃warp数,每个调度器计数结果之和除以sm活跃的总周期数,就可以得到这个sm这段时间平均活跃warp数,除以sm理论最大warp数就是kernel执行期间这个sm的occupancy,所有sm的平均值就是GPU整体的occupancy。
102、获得n时刻评价负载用的评价负载向量L。
所述L满足以下公式:
L=70%×Ln+30%×Ln-1。
103、综合所述评价负载向量L中的元素utilization,memory,pstates,以及occupancy进行模糊评判,获得模糊判决矩阵:R=(rij)4×3。
所述评价负载向量L中的元素构成了因素集:
U={utilization,memory,pstates,occupancy}
进行模糊评判的评判集为:V={轻载,适中,重载}
1)对于元素utilization来说,utilization对评判集中的轻载,适中,重载的隶属函数如下所述:
utilization对轻载的隶属函数为:
utilization对适中的隶属函数为:
utilization对重载的隶属函数为:
2)对于元素memory来说,memory对评判集中的轻载,适中,重载的隶属函数如下所述:
memory对轻载的隶属函数为:
memory对适中的隶属函数为:
M2(memory)=sin(πmemory)(0≤memory≤1)
memory对重载的隶属函数为:
3)对于元素pstates来说,pstates对评判集中的轻载,适中,重载的隶属函数可在下述表1中查找:
表1
4)对于元素occupancy来说,occupancy对评判集中的轻载,适中,重载的隶属函数如下所述:
occupancy对轻载的隶属函数为:
occupancy对适中的隶属函数为:
occupancy对重载的隶属函数为:
根据以上函数构造模糊判决矩阵,矩阵的每一行对应一个单因素决策
矩阵中的L、M、H为查找表1获得的pstates的轻载、适中、重载函数。
104,根据用户给出的诸因素权重分配以及模糊判决矩阵,计算获得综合评价A。
用户给出的诸因素权重分配为:W=(w1,w2,w3,w4)
所述A满足以下公式:A=W·R=(a1,a2,a3)
模糊矩阵的乘法定义为:
105、对所述综合评价A进行归一化处理获得A′。
所述A′满足以下公式:A′=(a1/s,a2/s,a3/s)其中,
106、根据最大隶属度原则获得所述GPU的负载情况。
最大隶属度原则:取得向量A′的最大元素,如果第一个元素最大,则所述GPU的负载情况就是轻载,如果第二个元素最大,则所述GPU的负载情况就是适中,如果第三个元素最大,则所述GPU的负载情况最大就是重载。
这样,通过综合分析每个GPU的负载参数得出负载最轻GPU。从而用户可以选择负载最轻的GPU进行任务处理。可以更好的满足用户的实时性需求。使得每个GPU负载均衡,提高整个系统的吞吐量。
现有技术与本发明相比:
1、现有技术对GPU负载的评价都是基于单一参数,本发明则综合GPU的多个参数utilization,memory,pstates,occupancy,更加客观的反映了GPU负载信息。
2、本发明可以根据给出的诸因素权重分配进行评估,使结果更加满足用户的需求。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (1)
1.一种基于模糊决策的图形处理器GPU负载评价方法,其特征在于,包括:
针对一个GPU来说,获得n时刻所述GPU的负载向量;
所述GPU的负载向量表示如下:
Ln=<utilization,memory,pstates,occupancy>
其中,utilization:过去一个样本时间内所述GPU运行一个或者多个核函数的时间占总时间的百分比;memory:所述GPU已用全局内存占总的全局内存的百分比;pstates:即performance state的16个等级,pO(maximum performance)-p15(minimum performance);occupancy:即整体achieved occupancy:所述GPU的每个sm中有多个warp调度器,每个调度器有一个硬件性能计数器,用来计数每个时钟周期活跃warp数,每个调度器计数结果之和除以sm活跃的总周期数,就可以得到这个sm的活跃warp数,除以sm理论最大warp数就是kernel执行期间这个sm的occupancy,所有sm的平均值就是整体的occupancy;
获得n时刻评价负载用的评价负载向量L,所述L满足以下公式:
L=70%×Ln+30%×Ln-1;
综合所述评价负载向量L中的元素utilization,memory,pstates,以及occupancy进行模糊评判,获得模糊判决矩阵:R=(rij)4×3;
根据用户给出的诸因素权重分配为:W=(w1,w2,w3,w4)以及模糊判决矩阵计算获得综合评价A,所述A满足以下公式:
A=W·R=(a1,a2,a3);
对所述综合评价A进行归一化处理获得A′,所述A′满足以下公式:A′=(a1/s,a2/s,a3/s);其中,
根据最大隶属度原则获得所述GPU的负载情况;
最大隶属度原则:取得向量A′的最大元素,如果第一个元素最大,则所述GPU的负载情况就是轻载,如果第二个元素最大,则所述GPU的负载情况就是适中,如果第三个元素最大,则所述GPU的负载情况最大就是重载;
所述综合所述评价负载向量L中的元素utilization,memory,pstates,以及occupancy进行模糊评判,获得模糊判决矩阵:R=(rij)4×3,包括:
utilization对轻载的隶属函数为:
utilization对适中的隶属函数为:
utilization对重载的隶属函数为:
memory对轻载的隶属函数为:
memory对适中的隶属函数为:
M2(memory)=sin(πmemory)(0≤memory≤1)
memory对重载的隶属函数为:
,
pstates对轻载,适中,重载的隶属函数可在下述表1中查找:
表1
occupancy对轻载的隶属函数为:
occupancy对适中的隶属函数为:
occupancy对重载的隶属函数为:
根据以上函数构造模糊判决矩阵R如下所示:
<mrow>
<mi>R</mi>
<mo>=</mo>
<mfenced open = "(" close = ")">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mi>t</mi>
<mi>i</mi>
<mi>l</mi>
<mi>i</mi>
<mi>z</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mi>t</mi>
<mi>i</mi>
<mi>l</mi>
<mi>i</mi>
<mi>z</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>H</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mi>t</mi>
<mi>i</mi>
<mi>l</mi>
<mi>i</mi>
<mi>z</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mi>e</mi>
<mi>m</mi>
<mi>o</mi>
<mi>r</mi>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mi>e</mi>
<mi>m</mi>
<mi>o</mi>
<mi>r</mi>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>H</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mi>e</mi>
<mi>m</mi>
<mi>o</mi>
<mi>r</mi>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>L</mi>
</mtd>
<mtd>
<mi>M</mi>
</mtd>
<mtd>
<mi>H</mi>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mn>4</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>o</mi>
<mi>c</mi>
<mi>c</mi>
<mi>u</mi>
<mi>p</mi>
<mi>a</mi>
<mi>n</mi>
<mi>c</mi>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mn>4</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>o</mi>
<mi>c</mi>
<mi>c</mi>
<mi>u</mi>
<mi>p</mi>
<mi>a</mi>
<mi>n</mi>
<mi>c</mi>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>H</mi>
<mn>4</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>o</mi>
<mi>c</mi>
<mi>c</mi>
<mi>u</mi>
<mi>p</mi>
<mi>a</mi>
<mi>n</mi>
<mi>c</mi>
<mi>y</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
矩阵中R的L、M、H为查找表1获得的pstates的轻载、适中、重载函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410341239.5A CN104123452B (zh) | 2014-07-18 | 2014-07-18 | 基于模糊决策的gpu负载综合评判方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410341239.5A CN104123452B (zh) | 2014-07-18 | 2014-07-18 | 基于模糊决策的gpu负载综合评判方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123452A CN104123452A (zh) | 2014-10-29 |
CN104123452B true CN104123452B (zh) | 2017-10-10 |
Family
ID=51768861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410341239.5A Expired - Fee Related CN104123452B (zh) | 2014-07-18 | 2014-07-18 | 基于模糊决策的gpu负载综合评判方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123452B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843679B (zh) * | 2016-03-18 | 2018-11-02 | 西北工业大学 | 自适应众核资源调度方法 |
CN106447070A (zh) * | 2016-07-19 | 2017-02-22 | 东莞理工学院 | 基于模糊决策的输送车调度方法 |
US11494463B2 (en) | 2020-04-14 | 2022-11-08 | Microsoft Technology Licensing, Llc | Set operations using multi-core processing unit |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7421604B1 (en) * | 2005-07-25 | 2008-09-02 | Nvidia Corporation | Advanced voltage regulation using feed-forward load information |
CN102402462A (zh) * | 2010-09-30 | 2012-04-04 | 微软公司 | 用于对启用gpu的虚拟机进行负载平衡的技术 |
CN102692450A (zh) * | 2012-05-02 | 2012-09-26 | 江苏大学 | 基于模糊综合评判的金属拉深件成形裂纹状态识别方法 |
CN103761690A (zh) * | 2014-02-14 | 2014-04-30 | 国家电网公司 | 基于电网系统中电压无功控制系统的评估方法 |
CN103778591A (zh) * | 2012-10-18 | 2014-05-07 | 纬创资通股份有限公司 | 处理图形运算负载平衡的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7075541B2 (en) * | 2003-08-18 | 2006-07-11 | Nvidia Corporation | Adaptive load balancing in a multi-processor graphics processing system |
-
2014
- 2014-07-18 CN CN201410341239.5A patent/CN104123452B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7421604B1 (en) * | 2005-07-25 | 2008-09-02 | Nvidia Corporation | Advanced voltage regulation using feed-forward load information |
CN102402462A (zh) * | 2010-09-30 | 2012-04-04 | 微软公司 | 用于对启用gpu的虚拟机进行负载平衡的技术 |
CN102692450A (zh) * | 2012-05-02 | 2012-09-26 | 江苏大学 | 基于模糊综合评判的金属拉深件成形裂纹状态识别方法 |
CN103778591A (zh) * | 2012-10-18 | 2014-05-07 | 纬创资通股份有限公司 | 处理图形运算负载平衡的方法及系统 |
CN103761690A (zh) * | 2014-02-14 | 2014-04-30 | 国家电网公司 | 基于电网系统中电压无功控制系统的评估方法 |
Non-Patent Citations (2)
Title |
---|
单节点多GPU集群下HPL动态负载均衡优化;陈任之等;《计算机科学》;20130315;第40卷(第3期);全文 * |
基于Matlab的铁路环境噪声模糊评价;严冬松等;《中国铁道科学》;20110515;第32卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104123452A (zh) | 2014-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A network-centric hardware/algorithm co-design to accelerate distributed training of deep neural networks | |
CN107209545A (zh) | 在多核处理器中执行功率管理 | |
Zidenberg et al. | Multiamdahl: How should i divide my heterogenous chip? | |
CN104123452B (zh) | 基于模糊决策的gpu负载综合评判方法 | |
Tiwari et al. | Predicting optimal power allocation for cpu and dram domains | |
Chen et al. | Improving GPGPU performance via cache locality aware thread block scheduling | |
Noh et al. | FlexBlock: A flexible DNN training accelerator with multi-mode block floating point support | |
Neshatpour et al. | Energy-efficient acceleration of MapReduce applications using FPGAs | |
El-Khamra et al. | Performance evaluation of r with intel xeon phi coprocessor | |
Solis-Vasquez et al. | Evaluating the energy efficiency of OpenCL-accelerated AutoDock molecular docking | |
CN117407177B (zh) | 任务执行方法、装置、电子设备及可读存储介质 | |
Morganti et al. | Evaluating systems on chip through hpc bioinformatic and astrophysic applications | |
Wang et al. | SOLAR: Services-oriented learning architectures | |
Huang et al. | GPU Energy optimization based on task balance scheduling | |
Papakostas et al. | Parallel pattern classification utilizing GPU-based kernelized Slackmin algorithm | |
Maggioni et al. | GPU-based steady-state solution of the chemical master equation | |
Boughzala et al. | Predicting the energy consumption of CUDA kernels using SimGrid | |
Rojek et al. | Parallelization of EULAG model on multicore architectures with GPU accelerators | |
CN109684061A (zh) | 一种非结构网格众核粗粒度并行计算方法 | |
Yang et al. | An improved sparse matrix-vector multiplication kernel for solving modified equation in large scale power flow calculation on CUDA | |
Li et al. | A GPU-based parallel algorithm for large scale linear programming problem | |
Wyrzykowski et al. | Using blue gene/P and GPUs to accelerate computations in the EULAG model | |
TWI775151B (zh) | 圖形處理器及其矩陣運算的加速方法 | |
Delplace et al. | Comparing the performance and power usage of gpu and arm clusters for map-reduce | |
Habib | Cosmology and computers: HACCing the universe |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice | ||
DD01 | Delivery of document by public notice |
Addressee: Shi Jiaming Document name: payment instructions |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171010 |