CN109871237A - 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 - Google Patents
一种基于机器学习的CPU与GPU异构SoC性能刻画方法 Download PDFInfo
- Publication number
- CN109871237A CN109871237A CN201811495369.9A CN201811495369A CN109871237A CN 109871237 A CN109871237 A CN 109871237A CN 201811495369 A CN201811495369 A CN 201811495369A CN 109871237 A CN109871237 A CN 109871237A
- Authority
- CN
- China
- Prior art keywords
- gpu
- cpu
- event
- performance
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000010801 machine learning Methods 0.000 title claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000005265 energy consumption Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 20
- 230000005611 electricity Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 23
- 238000005457 optimization Methods 0.000 abstract description 4
- 230000006978 adaptation Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及信息技术领域,具体而言,涉及一种基于机器学习的CPU与GPU异构SoC性能刻画方法,其包括以下步骤:S1:采集大性能数据;所述大性能数据包括CPU硬件事件数据与GPU硬件事件数据;S2:对采集的大性能数据进行处理;S3:对CPU与GPU进行性能刻画;S4:进行系统能耗采集与分析。本发明一方面用户可以根据在CPU和GPU端监控硬件事件得到能够反映人工智能程序性能特点,从而为优化人工智能程序提供指导;另一方面用户可以根据人工智能程序的性能特点,为适应人工智能程序而特定地优化编译器或计算机微体系结构提供指导,最后用户可以通过本框架中使用的监控策略和分析方法对CPU与GPU进行监控与分析。
Description
技术领域
本发明涉及信息技术领域,具体而言,涉及一种基于机器学习的CPU与GPU异构SoC性能刻画方法。
背景技术
当前主流处理器是包含CPU核与GPU核的异构片上系统(SoC),并且人工智能研究与应用发展迅速。针对理解运行人工智能程序的这种异构SoC性能特征,提出CPU核与GPU核异构系统性能特征刻画模型。
处理器的性能刻画能够辅助改进数据中心的服务器结构设计。另外,分析处理器的性能特征有助于优化编译器达到加速程序执行的效果。处理器的性能特征也为众多应用分析与优化提供重要的参考依据。
当前主流的CPU性能特征分析通常使用Ahmad Yasin提出的Top-Down方法。该方法基于liunx内核中的perf工具构造一个自顶向下有层级的树结构。树节点的权值用于指导使用者重点关注真正有影响的那些因素,忽略不重要的部分。该方法的前提是使用者自选感兴趣的处理器微结构事件,而Intel处理器微结构事件数量多,从338到1423个不等。这种方法难以全面地分析CPU性能特征。
当前针对人工智能程序benchmark作CPU与GPU的异构SoC处理器性能刻画的方法如Mauricio Guignard等人提出的,该方法是刻画在异构SoC上运行人工智能程序的性能并且确定该平台的性能瓶颈。从而确定花费时间较多的操作的类型,以及从训练与推测的不同性能表现评估深度学习模型的相似性;理解并行扩展性的能力。这样难以深入分析异构SoC的性能特征及其原理。除此之外,该方法对能耗情况无从知晓。
发明内容
为解决上述背景技术中存在的问题,本发明提出一种基于机器学习的CPU与GPU异构SoC性能刻画方法,一方面用户可以根据在CPU和GPU端监控硬件事件得到能够反映人工智能程序性能特点,从而为优化人工智能程序提供指导;另一方面用户可以根据人工智能程序的性能特点,为适应人工智能程序而特定地优化编译器或计算机微体系结构提供指导。最后用户可以通过本框架中使用的监控策略和分析方法对CPU与GPU进行监控与分析。
本发明解决上述问题的技术方案是:一种基于机器学习的CPU与GPU异构SoC性能刻画方法,其特殊之处在于,包括以下步骤:
S1:采集大性能数据;所述大性能数据包括CPU硬件事件数据与GPU硬件事件数据;
S2:对采集的大性能数据进行处理;
S3:对CPU与GPU进行性能刻画;
S4:进行系统能耗采集与分析。
进一步地,上述步骤S1包括:
S101:按照One Counter One Event(OCOE)的模式收集CPU硬件事件;
S102:使用perf工具指定要采集的事件编码,采集间隔;
S103:按照One Running One Event(OROE)的模式收集GPU硬件事件;
S104:使用nvprof工具指定要采集的事件编码。
进一步地,上述步骤S2包括:
S201:CPU硬件事件处理部分,首先将运行时收集的事件原始格式转换成一次采样间隔多列的形式,接着再将不同运行时的列拼接成大数据矩阵,最后一列是IPC。
S202:GPU硬件事件处理部分,首先将kernel名转换成标准格式,再按照不同的kernel聚集已监控的事件的值,拼接成一个大kernel数据矩阵,最后再把IPC拼在最后一列。
进一步地,上述步骤S3包括:
S301:利用CPU部分的大数据矩阵训练一个GBRT机器学习模型,对特征进行排序,得到对IPC影响最重要的10个CPU硬件事件。
S302:利用GPU部分的大kernel数据矩阵按照所消耗时间的次序训练多个GBRT机器学习模型,对特征进行排序,得到对IPC影响最重要的10个GPU硬件事件。
进一步地,上述步骤S4包括:
S401:利用nvprof测量每一块GPU消耗的电能;
S402:利用电量测量仪UNIT-T UT230A/C-II测量服务器实际消耗电量。
本发明的优点:
本发明一种基于机器学习的CPU与GPU异构SoC性能刻画方法,通过linux内核工具perf与NVIDIA监控工具nvprof收集CPU硬件事件与GPU硬件事件信息。之后通过性能数据处理模块、性能刻画模块、能耗采集与分析模块来对异构的CPU与GPU SoC系统的性能进行分析与刻画。从而为处理器性能刻画提供更加可靠、详细的建议;本发明一方面用户可以根据在CPU和GPU端监控硬件事件得到能够反映人工智能程序性能特点,从而为优化人工智能程序提供指导;另一方面用户可以根据人工智能程序的性能特点,为适应人工智能程序而特定地优化编译器或计算机微体系结构提供指导,最后用户可以通过本框架中使用的监控策略和分析方法对CPU与GPU进行监控与分析。
附图说明
图1是本发明实施例中的基于机器学习的CPU与GPU异构SoC性能刻画方法流程图;
图2是本发明实施例中的基于机器学习的CPU与GPU异构SoC性能刻画方法的设计图;
图3是本发明实施例中的CPU硬件事件数据的矩阵拼接方法示意图;
图4是本发明实施例中的GPU硬件事件数据的矩阵拼接方法示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
参见图1,一种基于机器学习的CPU与GPU异构SoC性能刻画方法,主要包括四部分:
S1:采集大性能数据;所述大性能数据包括CPU硬件事件数据与GPU硬件事件数据;
S2:对采集的大性能数据进行处理;大性能数据处理包括CPU数据与GPU数据。其中CPU数据需要将每一次监控的硬件事件数据合并成大数据矩阵。GPU数据需要按照不同kernel函数对硬件事件数据合并成大数据矩阵。
S3:对CPU与GPU进行性能刻画,包括分别对CPU与GPU硬件事件数据建模,并对特征进行排序;选择最重要的前十个特征作为性能刻画的依据。
S4:进行系统能耗采集与分析,包括对整机电量消耗监控和对每一块GPU电量消耗监控。
参见图2,上述步骤S1包括:
S101:按照One Counter One Event(OCOE)的模式收集CPU硬件事件;
S102:使用perf工具指定要采集的事件编码,采集间隔;
S103:按照One Running One Event(OROE)的模式收集GPU硬件事件;
S104:使用nvprof工具指定要采集的事件编码。
具体地,步骤S1在CPU端和GPU端进行:
在CPU端,本发明使用Linux内核组件perf。Perf是Linux内核组件内用性能计数器监控的监控工具。本发明将人工智能程序运行在服务器,用一个监控进程名的程序监控何时人工智能程序开始执行,一旦开始,就开启perf监控。Perf监控按照OCOE的方式指定每一次运行程序需要监控多少个硬件事件。本发明使用的Intel(R)Xeon(R)CPU E5-2650v4@2.20GHz处理器的PMU提供6个性能计数器。因此一次性监控6个硬件事件,这6个硬件事件包括2个常驻事件:instruction,cycles.监控间隔为1000毫秒。程序运行完毕,则停止监控。为了收集全部事件的值,需要多次运行程序。
在GPU端,本发明使用NVIDIA监控工具nvprof。Nvprof是NVIDIA GPU专用的可监控CUDA,OpenACC或OpenMP应用的监控工具。本发明同样将人工智能程序运行在服务器,nvprof可将要执行的可执行语句作为参数传入nvprof工具。因为NVIDIA没有公开其GPU性能计数器的个数,所以本发明采用选取一部分硬件事件,程序运行一次就监控一个事件。指定--print-gpu-trace on.表示记录每一个kernel函数每一次被调用时事件的值。为了收集全部硬件事件的值,需要多次运行程序。
上述步骤S2包括:
S201:CPU硬件事件处理部分,首先将运行时收集的事件原始格式转换成一次采样间隔多列的形式,接着再将不同运行时的列拼接成大数据矩阵,最后一列是IPC。
S202:GPU硬件事件处理部分,首先将kernel名转换成标准格式,再按照不同的kernel聚集已监控的事件的值,拼接成一个大kernel数据矩阵,最后再把IPC拼在最后一列。
具体地,步骤S2包括在CPU端和GPU端进行:
在CPU端。将硬件事件整理成大数据矩阵,如图3所示的Mij。矩阵的列是硬件事件。矩阵的行是每个采集间隔。首先将原始某一次运行程序产生监控数据转换成小数据矩阵,如图3左上角的小矩阵mij,小数据矩阵的列是本次运行程序perf监控的除instruction和cycles之外的硬件事件如图3左上角的小矩阵的E1,E2,E3,E4,行是监控间隔。最后一列是IPC,IPC由instruction和cycles计算得到。其次将所有小数据矩阵的非IPC列拼接成大数据矩阵,拼接的方法是在这个大数据矩阵的对角线位置放置每一次监控产生的数据,如图3所示的对角线位置的拼接,其中最后一列是IPC,用作模型训练时的label数据。
在GPU端,按不同kernel将硬件事件整理成大数据矩阵,如图4所示的Mij。与CPU端不同的是,每次运行程序产生的硬件事件数据不再按照对角线位置拼接,而是按行统一拼接。每一行是nvprof工具设置的监控间隔。每一列是程序每一遍执行时监控的硬件事件,最后一列是IPC,用作模型训练时的label数据。
进一步地,上述步骤S3包括:
S301:利用CPU部分的大数据矩阵训练一个GBRT机器学习模型,对特征进行排序,得到对IPC影响最重要的10个CPU硬件事件;
S302:利用GPU部分的大kernel数据矩阵按照所消耗时间的次序训练多个GBRT机器学习模型,对特征进行排序,得到对IPC影响最重要的10个GPU硬件事件。
具体地,步骤S3包括CPU与GPU性能刻画:
在CPU端,根据CPU数据矩阵训练一个梯度提升回归树(Gradient BoostedRegression Tree,GBRT)机器学习模型。GBRT算法是一种预测精度高,适应性广泛的机器学习算法,适用于各类数据学习场景。本发明使用BGRT算法目的有两方面:一是该算法预测精度高;二是该算法能够学习特征(事件)的相对重要度,助于理解哪些因素(事件)是对预测(IPC)有关键影响。这一优势在本发明对事件的重要性排序特别重要。因此本发明使用GBRT算法。本发明利用数据矩阵的最后一列作为训练与测试集的Label,其余列作为数据集。将数据集和Label按照8:2的比例分为训练集与测试集。训练集数据用于训练GBRT算法。测试集用于验证模型的错误率。其中在训练集中,将数据按照交叉验证的方法多轮训练,以训练一个最优模型。在完成一次训练后,将最不重要的10个事件特征的数据去除,用剩下的事件特征数据作为数据集再次训练GBRT模型,这个过程称为“特征提纯”。这样做的原因是因为:CPU事件特征较多,数量从226-1423个不等,因此需要考虑模型是否过拟合。特征提纯直到得到错误率最低的GBRT模型。将该模型的特征排序作为本发明最终的CPU部分事件特征的重要性排序,并最终取前10重要的事件用作性能刻画。
在GPU端,同样用GPU硬件事件数据训练GBRT算法。数据的划分如同CPU端的8:2比例划分训练集与测试集。与CPU部分不同的是GPU的数据不进行“特征提纯”。原因是本发明GPU端的特征数是35,GPU端的特征数量较少,认为模型无过拟合影响。模型训练得到的事件特征重要性排序后,取前10重要的事件用作性能刻画。
综合CPU部分的监控数据与GPU部分的监控数据。根据最重要的事件刻画当前人工智能程序的性能特征。如图像分类程序中,CPU部分最重要的事件是Number of self-modifying-code machine clears detected.表示处理器清理时检测到的self-modifying-code数量。自修改代码(self-modifying-code)是在执行时更改其自身指令的代码,通常用于减少指令路径长度并提高性能,或者简单地减少否则重复的相似代码,从而简化维护。次重要的事件是Cycles stalled due to re-order buffer full,表示由于重排序缓存满了导致指令流水线停滞。GPU部分最重要的事件是Number of transactionsfor shared store accesses,表示共享存储访问的transaction数。Maxwell架构中最大transaction数量是128字节。对于一次共享加载指令,任何大于128字节访问的warp将导致多个transaction。该事件还包括由共享bank冲突引起的额外transaction。次重要的事件是Number of branch instructions executed per warp on a multiprocessor.表示多处理器每个warp分支指令执行次数。
进一步地,上述步骤S4包括:
S401:利用nvprof测量每一块GPU消耗的电能。
S402:利用电量测量仪UNIT-T UT230A/C-II测量服务器实际消耗电量。
具体地,步骤S4为:使用nvprof工具收集GPU能耗。通过配置nvprof参数system-profiling可得到每块GPU的的功率数据。根据GPU运行时间,可以得到运行程序时GPU消耗的电能。
使用电量测量仪工具收集服务器能耗。通过记录电压,电流,程序运行时间得到运行程序时服务器消耗的电能。如本发明使用UT230A/C-II电量测量仪记录电能数据。最后计算得到GPU耗电量的比例。如本发明发现,GPU的耗电量比例是27%--44%不等,说明执行人工智能程序需要消耗大量用电量。
以上所述仅为本发明的实施例,并非以此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的系统领域,均同理包括在本发明的保护范围内。
Claims (5)
1.一种基于机器学习的CPU与GPU异构SoC性能刻画方法,其特殊之处在于,包括以下步骤:
S1:采集大性能数据;所述大性能数据包括CPU硬件事件数据与GPU硬件事件数据;
S2:对采集的大性能数据进行处理;
S3:对CPU与GPU进行性能刻画;
S4:进行系统能耗采集与分析。
2.根据权利要求1所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法,其特殊之处在于:步骤S1包括:
S101:按照One Counter One Event的模式收集CPU硬件事件;
S102:使用perf工具指定要采集的事件编码,采集间隔;
S103:按照One Running One Event的模式收集GPU硬件事件;
S104:使用nvprof工具指定要采集的事件编码。
3.根据权利要求1所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法,其特殊之处在于:步骤S2包括:
S201:CPU硬件事件处理部分,首先将运行时收集的事件原始格式转换成一次采样间隔多列的形式,接着再将不同运行时的列拼接成大数据矩阵,最后一列是IPC;
S202:GPU硬件事件处理部分,首先将kernel名转换成标准格式,再按照不同的kernel聚集已监控的事件的值,拼接成一个大kernel数据矩阵,最后再把IPC拼在最后一列。
4.根据权利要求1所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法,其特殊之处在于:步骤S3包括:
S301:利用CPU部分的大数据矩阵训练一个GBRT机器学习模型,对特征进行排序,得到对IPC影响最重要的10个CPU硬件事件;
S302:利用GPU部分的大kernel数据矩阵按照所消耗时间的次序训练多个GBRT机器学习模型,对特征进行排序,得到对IPC影响最重要的10个GPU硬件事件。
5.根据权利要求1-3任一所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法,其特殊之处在于:步骤S4包括:
S401:利用nvprof测量每一块GPU消耗的电能;
S402:利用电量测量仪UNIT-T UT230A/C-II测量服务器实际消耗电量。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811495369.9A CN109871237B (zh) | 2018-12-07 | 2018-12-07 | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 |
PCT/CN2019/121592 WO2020114311A1 (zh) | 2018-12-07 | 2019-11-28 | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811495369.9A CN109871237B (zh) | 2018-12-07 | 2018-12-07 | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871237A true CN109871237A (zh) | 2019-06-11 |
CN109871237B CN109871237B (zh) | 2021-04-09 |
Family
ID=66917046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811495369.9A Active CN109871237B (zh) | 2018-12-07 | 2018-12-07 | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109871237B (zh) |
WO (1) | WO2020114311A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020114311A1 (zh) * | 2018-12-07 | 2020-06-11 | 中国科学院深圳先进技术研究院 | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 |
CN112784435A (zh) * | 2021-02-03 | 2021-05-11 | 浙江工业大学 | 一种基于性能事件计数和温度的gpu实时功率建模方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8112250B2 (en) * | 2008-11-03 | 2012-02-07 | International Business Machines Corporation | Processor power management |
CN106991030A (zh) * | 2017-03-01 | 2017-07-28 | 北京航空航天大学 | 一种基于在线学习的系统功耗优化的轻量级方法 |
CN107168859A (zh) * | 2017-05-09 | 2017-09-15 | 中国科学院计算技术研究所 | 用于安卓设备的能耗分析方法 |
CN107851066A (zh) * | 2015-07-16 | 2018-03-27 | 高通股份有限公司 | 基于运行时硬件计数器和对应用的离线建立简档的自适应高速缓存架构 |
CN107908536A (zh) * | 2017-11-17 | 2018-04-13 | 华中科技大学 | Cpu‑gpu异构环境中对gpu应用的性能评估方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880785A (zh) * | 2012-08-01 | 2013-01-16 | 北京大学 | 针对gpu程序的源码级数据传输能耗估算方法 |
CN108733531B (zh) * | 2017-04-13 | 2021-08-24 | 南京维拓科技股份有限公司 | 基于云计算的gpu性能监控系统 |
US20180341852A1 (en) * | 2017-05-24 | 2018-11-29 | International Business Machines Corporation | Balancing memory consumption of multiple graphics processing units in deep learning |
CN109871237B (zh) * | 2018-12-07 | 2021-04-09 | 中国科学院深圳先进技术研究院 | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 |
-
2018
- 2018-12-07 CN CN201811495369.9A patent/CN109871237B/zh active Active
-
2019
- 2019-11-28 WO PCT/CN2019/121592 patent/WO2020114311A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8112250B2 (en) * | 2008-11-03 | 2012-02-07 | International Business Machines Corporation | Processor power management |
CN107851066A (zh) * | 2015-07-16 | 2018-03-27 | 高通股份有限公司 | 基于运行时硬件计数器和对应用的离线建立简档的自适应高速缓存架构 |
CN106991030A (zh) * | 2017-03-01 | 2017-07-28 | 北京航空航天大学 | 一种基于在线学习的系统功耗优化的轻量级方法 |
CN107168859A (zh) * | 2017-05-09 | 2017-09-15 | 中国科学院计算技术研究所 | 用于安卓设备的能耗分析方法 |
CN107908536A (zh) * | 2017-11-17 | 2018-04-13 | 华中科技大学 | Cpu‑gpu异构环境中对gpu应用的性能评估方法及系统 |
Non-Patent Citations (4)
Title |
---|
ERIC GOURIOU等: "Linux kernel profiling with perf", 《WIKI》 * |
MAURICIO: "Performance Characterization of State-Of-The-Art Deep Learning Workloads on an IBM "Minsky" Platform", 《IEEE》 * |
NVIDIA: "Profiler User"s Guide", 《DOCS》 * |
邱晓杰: "功耗受限情况下多核处理器能效优化方案", 《CNKI》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020114311A1 (zh) * | 2018-12-07 | 2020-06-11 | 中国科学院深圳先进技术研究院 | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 |
CN112784435A (zh) * | 2021-02-03 | 2021-05-11 | 浙江工业大学 | 一种基于性能事件计数和温度的gpu实时功率建模方法 |
CN112784435B (zh) * | 2021-02-03 | 2023-05-23 | 浙江工业大学 | 一种基于性能事件计数和温度的gpu实时功率建模方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020114311A1 (zh) | 2020-06-11 |
CN109871237B (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Performance and power analysis of ATI GPU: A statistical approach | |
Capra et al. | Is software “green”? Application development environments and energy efficiency in open source applications | |
Li et al. | Strategies for energy-efficient resource management of hybrid programming models | |
US6996517B1 (en) | Performance technology infrastructure for modeling the performance of computer systems | |
Lopez-Novoa et al. | A survey of performance modeling and simulation techniques for accelerator-based computing | |
KR102237167B1 (ko) | 변환 생성용 시스템 | |
CN105975664B (zh) | 一种芯片功耗评估平台的评估方法 | |
Sanyal et al. | Simulation and big data challenges in tuning building energy models | |
CN109871237A (zh) | 一种基于机器学习的CPU与GPU异构SoC性能刻画方法 | |
Li et al. | A hybrid sample generation approach in speculative multithreading | |
Guo et al. | GEO-WMS: an improved approach to geoscientific workflow management system on HPC | |
Sun et al. | AdaPipe: Optimizing Pipeline Parallelism with Adaptive Recomputation and Partitioning | |
CN102760086B (zh) | 基于柔性测试技术的数据检测控制方法和装置 | |
Jelly et al. | Software engineering for parallel systems | |
Zhang et al. | A performance prediction scheme for computation-intensive applications on cloud | |
CN110990227A (zh) | 一种数值水池应用特征性能采集和监控系统及其运行方法 | |
Moore et al. | User-defined events for hardware performance monitoring | |
Fernando et al. | Workflowdsl: Scalable workflow execution with provenance for data analysis applications | |
Khaleghzadeh | Novel Data-Partitioning Algorithms for Performance and Energy Optimization of Data-Parallel Applications on Modern Heterogeneous HPC Platforms | |
CN110928705A (zh) | 面向高性能计算应用的通信特征模型方法及系统 | |
Jin | Virtualization technology for computing system: Opportunities and challenges | |
Zheng et al. | Gpuperfml: A performance analytical model based on decision tree for GPU architectures | |
Zhou et al. | A Heterogeneous Full-stack AI Platform for Performance Monitoring and Hardware-specific Optimizations | |
CN107256158A (zh) | 电力系统负荷削减量的检测方法和系统 | |
Fahringer et al. | Execution-driven performance analysis for distributed and parallel systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |