CN109871237A

CN109871237A - 一种基于机器学习的CPU与GPU异构SoC性能刻画方法

Info

Publication number: CN109871237A
Application number: CN201811495369.9A
Authority: CN
Inventors: 喻之斌; 林灵锋; 伍浩文
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-06-11
Anticipated expiration: 2038-12-07
Also published as: WO2020114311A1; CN109871237B

Abstract

本发明涉及信息技术领域，具体而言，涉及一种基于机器学习的CPU与GPU异构SoC性能刻画方法，其包括以下步骤：S1：采集大性能数据；所述大性能数据包括CPU硬件事件数据与GPU硬件事件数据；S2：对采集的大性能数据进行处理；S3：对CPU与GPU进行性能刻画；S4：进行系统能耗采集与分析。本发明一方面用户可以根据在CPU和GPU端监控硬件事件得到能够反映人工智能程序性能特点，从而为优化人工智能程序提供指导；另一方面用户可以根据人工智能程序的性能特点，为适应人工智能程序而特定地优化编译器或计算机微体系结构提供指导，最后用户可以通过本框架中使用的监控策略和分析方法对CPU与GPU进行监控与分析。

Description

一种基于机器学习的CPU与GPU异构SoC性能刻画方法

技术领域

本发明涉及信息技术领域，具体而言，涉及一种基于机器学习的CPU与GPU异构SoC性能刻画方法。

背景技术

当前主流处理器是包含CPU核与GPU核的异构片上系统(SoC)，并且人工智能研究与应用发展迅速。针对理解运行人工智能程序的这种异构SoC性能特征，提出CPU核与GPU核异构系统性能特征刻画模型。

处理器的性能刻画能够辅助改进数据中心的服务器结构设计。另外，分析处理器的性能特征有助于优化编译器达到加速程序执行的效果。处理器的性能特征也为众多应用分析与优化提供重要的参考依据。

当前主流的CPU性能特征分析通常使用Ahmad Yasin提出的Top-Down方法。该方法基于liunx内核中的perf工具构造一个自顶向下有层级的树结构。树节点的权值用于指导使用者重点关注真正有影响的那些因素，忽略不重要的部分。该方法的前提是使用者自选感兴趣的处理器微结构事件，而Intel处理器微结构事件数量多，从338到1423个不等。这种方法难以全面地分析CPU性能特征。

当前针对人工智能程序benchmark作CPU与GPU的异构SoC处理器性能刻画的方法如Mauricio Guignard等人提出的,该方法是刻画在异构SoC上运行人工智能程序的性能并且确定该平台的性能瓶颈。从而确定花费时间较多的操作的类型，以及从训练与推测的不同性能表现评估深度学习模型的相似性；理解并行扩展性的能力。这样难以深入分析异构SoC的性能特征及其原理。除此之外，该方法对能耗情况无从知晓。

发明内容

为解决上述背景技术中存在的问题，本发明提出一种基于机器学习的CPU与GPU异构SoC性能刻画方法，一方面用户可以根据在CPU和GPU端监控硬件事件得到能够反映人工智能程序性能特点，从而为优化人工智能程序提供指导；另一方面用户可以根据人工智能程序的性能特点，为适应人工智能程序而特定地优化编译器或计算机微体系结构提供指导。最后用户可以通过本框架中使用的监控策略和分析方法对CPU与GPU进行监控与分析。

本发明解决上述问题的技术方案是：一种基于机器学习的CPU与GPU异构SoC性能刻画方法，其特殊之处在于，包括以下步骤：

S1：采集大性能数据；所述大性能数据包括CPU硬件事件数据与GPU硬件事件数据；

S2：对采集的大性能数据进行处理；

S3：对CPU与GPU进行性能刻画；

S4：进行系统能耗采集与分析。

进一步地，上述步骤S1包括：

S101：按照One Counter One Event(OCOE)的模式收集CPU硬件事件；

S102：使用perf工具指定要采集的事件编码，采集间隔；

S103：按照One Running One Event(OROE)的模式收集GPU硬件事件；

S104：使用nvprof工具指定要采集的事件编码。

进一步地，上述步骤S2包括：

S201：CPU硬件事件处理部分，首先将运行时收集的事件原始格式转换成一次采样间隔多列的形式，接着再将不同运行时的列拼接成大数据矩阵，最后一列是IPC。

S202：GPU硬件事件处理部分，首先将kernel名转换成标准格式，再按照不同的kernel聚集已监控的事件的值，拼接成一个大kernel数据矩阵，最后再把IPC拼在最后一列。

进一步地，上述步骤S3包括：

S301：利用CPU部分的大数据矩阵训练一个GBRT机器学习模型，对特征进行排序，得到对IPC影响最重要的10个CPU硬件事件。

S302：利用GPU部分的大kernel数据矩阵按照所消耗时间的次序训练多个GBRT机器学习模型，对特征进行排序，得到对IPC影响最重要的10个GPU硬件事件。

进一步地，上述步骤S4包括：

S401：利用nvprof测量每一块GPU消耗的电能；

S402：利用电量测量仪UNIT-T UT230A/C-II测量服务器实际消耗电量。

本发明的优点：

本发明一种基于机器学习的CPU与GPU异构SoC性能刻画方法，通过linux内核工具perf与NVIDIA监控工具nvprof收集CPU硬件事件与GPU硬件事件信息。之后通过性能数据处理模块、性能刻画模块、能耗采集与分析模块来对异构的CPU与GPU SoC系统的性能进行分析与刻画。从而为处理器性能刻画提供更加可靠、详细的建议；本发明一方面用户可以根据在CPU和GPU端监控硬件事件得到能够反映人工智能程序性能特点，从而为优化人工智能程序提供指导；另一方面用户可以根据人工智能程序的性能特点，为适应人工智能程序而特定地优化编译器或计算机微体系结构提供指导，最后用户可以通过本框架中使用的监控策略和分析方法对CPU与GPU进行监控与分析。

附图说明

图1是本发明实施例中的基于机器学习的CPU与GPU异构SoC性能刻画方法流程图；

图2是本发明实施例中的基于机器学习的CPU与GPU异构SoC性能刻画方法的设计图；

图3是本发明实施例中的CPU硬件事件数据的矩阵拼接方法示意图；

图4是本发明实施例中的GPU硬件事件数据的矩阵拼接方法示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

参见图1，一种基于机器学习的CPU与GPU异构SoC性能刻画方法，主要包括四部分：

S2：对采集的大性能数据进行处理；大性能数据处理包括CPU数据与GPU数据。其中CPU数据需要将每一次监控的硬件事件数据合并成大数据矩阵。GPU数据需要按照不同kernel函数对硬件事件数据合并成大数据矩阵。

S3：对CPU与GPU进行性能刻画，包括分别对CPU与GPU硬件事件数据建模，并对特征进行排序；选择最重要的前十个特征作为性能刻画的依据。

S4：进行系统能耗采集与分析，包括对整机电量消耗监控和对每一块GPU电量消耗监控。

参见图2，上述步骤S1包括：

S101：按照One Counter One Event(OCOE)的模式收集CPU硬件事件；

S102：使用perf工具指定要采集的事件编码，采集间隔；

S103：按照One Running One Event(OROE)的模式收集GPU硬件事件；

S104：使用nvprof工具指定要采集的事件编码。

具体地，步骤S1在CPU端和GPU端进行：

在CPU端，本发明使用Linux内核组件perf。Perf是Linux内核组件内用性能计数器监控的监控工具。本发明将人工智能程序运行在服务器，用一个监控进程名的程序监控何时人工智能程序开始执行，一旦开始，就开启perf监控。Perf监控按照OCOE的方式指定每一次运行程序需要监控多少个硬件事件。本发明使用的Intel(R)Xeon(R)CPU E5-2650v4@2.20GHz处理器的PMU提供6个性能计数器。因此一次性监控6个硬件事件，这6个硬件事件包括2个常驻事件：instruction,cycles.监控间隔为1000毫秒。程序运行完毕，则停止监控。为了收集全部事件的值，需要多次运行程序。

在GPU端，本发明使用NVIDIA监控工具nvprof。Nvprof是NVIDIA GPU专用的可监控CUDA,OpenACC或OpenMP应用的监控工具。本发明同样将人工智能程序运行在服务器，nvprof可将要执行的可执行语句作为参数传入nvprof工具。因为NVIDIA没有公开其GPU性能计数器的个数，所以本发明采用选取一部分硬件事件，程序运行一次就监控一个事件。指定--print-gpu-trace on.表示记录每一个kernel函数每一次被调用时事件的值。为了收集全部硬件事件的值，需要多次运行程序。

上述步骤S2包括：

具体地，步骤S2包括在CPU端和GPU端进行：

在CPU端。将硬件事件整理成大数据矩阵，如图3所示的Mij。矩阵的列是硬件事件。矩阵的行是每个采集间隔。首先将原始某一次运行程序产生监控数据转换成小数据矩阵，如图3左上角的小矩阵mij，小数据矩阵的列是本次运行程序perf监控的除instruction和cycles之外的硬件事件如图3左上角的小矩阵的E1,E2,E3,E4，行是监控间隔。最后一列是IPC,IPC由instruction和cycles计算得到。其次将所有小数据矩阵的非IPC列拼接成大数据矩阵，拼接的方法是在这个大数据矩阵的对角线位置放置每一次监控产生的数据，如图3所示的对角线位置的拼接，其中最后一列是IPC，用作模型训练时的label数据。

在GPU端，按不同kernel将硬件事件整理成大数据矩阵，如图4所示的Mij。与CPU端不同的是，每次运行程序产生的硬件事件数据不再按照对角线位置拼接，而是按行统一拼接。每一行是nvprof工具设置的监控间隔。每一列是程序每一遍执行时监控的硬件事件，最后一列是IPC,用作模型训练时的label数据。

进一步地，上述步骤S3包括：

S301：利用CPU部分的大数据矩阵训练一个GBRT机器学习模型，对特征进行排序，得到对IPC影响最重要的10个CPU硬件事件；

具体地，步骤S3包括CPU与GPU性能刻画：

在CPU端，根据CPU数据矩阵训练一个梯度提升回归树(Gradient BoostedRegression Tree,GBRT)机器学习模型。GBRT算法是一种预测精度高，适应性广泛的机器学习算法，适用于各类数据学习场景。本发明使用BGRT算法目的有两方面：一是该算法预测精度高；二是该算法能够学习特征(事件)的相对重要度，助于理解哪些因素(事件)是对预测(IPC)有关键影响。这一优势在本发明对事件的重要性排序特别重要。因此本发明使用GBRT算法。本发明利用数据矩阵的最后一列作为训练与测试集的Label,其余列作为数据集。将数据集和Label按照8：2的比例分为训练集与测试集。训练集数据用于训练GBRT算法。测试集用于验证模型的错误率。其中在训练集中，将数据按照交叉验证的方法多轮训练，以训练一个最优模型。在完成一次训练后，将最不重要的10个事件特征的数据去除，用剩下的事件特征数据作为数据集再次训练GBRT模型，这个过程称为“特征提纯”。这样做的原因是因为：CPU事件特征较多，数量从226-1423个不等，因此需要考虑模型是否过拟合。特征提纯直到得到错误率最低的GBRT模型。将该模型的特征排序作为本发明最终的CPU部分事件特征的重要性排序，并最终取前10重要的事件用作性能刻画。

在GPU端，同样用GPU硬件事件数据训练GBRT算法。数据的划分如同CPU端的8：2比例划分训练集与测试集。与CPU部分不同的是GPU的数据不进行“特征提纯”。原因是本发明GPU端的特征数是35，GPU端的特征数量较少，认为模型无过拟合影响。模型训练得到的事件特征重要性排序后，取前10重要的事件用作性能刻画。

综合CPU部分的监控数据与GPU部分的监控数据。根据最重要的事件刻画当前人工智能程序的性能特征。如图像分类程序中，CPU部分最重要的事件是Number of self-modifying-code machine clears detected.表示处理器清理时检测到的self-modifying-code数量。自修改代码(self-modifying-code)是在执行时更改其自身指令的代码，通常用于减少指令路径长度并提高性能，或者简单地减少否则重复的相似代码，从而简化维护。次重要的事件是Cycles stalled due to re-order buffer full，表示由于重排序缓存满了导致指令流水线停滞。GPU部分最重要的事件是Number of transactionsfor shared store accesses，表示共享存储访问的transaction数。Maxwell架构中最大transaction数量是128字节。对于一次共享加载指令，任何大于128字节访问的warp将导致多个transaction。该事件还包括由共享bank冲突引起的额外transaction。次重要的事件是Number of branch instructions executed per warp on a multiprocessor.表示多处理器每个warp分支指令执行次数。

进一步地，上述步骤S4包括：

S401：利用nvprof测量每一块GPU消耗的电能。

具体地，步骤S4为：使用nvprof工具收集GPU能耗。通过配置nvprof参数system-profiling可得到每块GPU的的功率数据。根据GPU运行时间，可以得到运行程序时GPU消耗的电能。

使用电量测量仪工具收集服务器能耗。通过记录电压，电流，程序运行时间得到运行程序时服务器消耗的电能。如本发明使用UT230A/C-II电量测量仪记录电能数据。最后计算得到GPU耗电量的比例。如本发明发现，GPU的耗电量比例是27％--44％不等，说明执行人工智能程序需要消耗大量用电量。

以上所述仅为本发明的实施例，并非以此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的系统领域，均同理包括在本发明的保护范围内。

Claims

1.一种基于机器学习的CPU与GPU异构SoC性能刻画方法，其特殊之处在于，包括以下步骤：

S2：对采集的大性能数据进行处理；

S3：对CPU与GPU进行性能刻画；

S4：进行系统能耗采集与分析。

2.根据权利要求1所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法，其特殊之处在于：步骤S1包括：

S101：按照One Counter One Event的模式收集CPU硬件事件；

S102：使用perf工具指定要采集的事件编码，采集间隔；

S103：按照One Running One Event的模式收集GPU硬件事件；

S104：使用nvprof工具指定要采集的事件编码。

3.根据权利要求1所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法，其特殊之处在于：步骤S2包括：

S201：CPU硬件事件处理部分，首先将运行时收集的事件原始格式转换成一次采样间隔多列的形式，接着再将不同运行时的列拼接成大数据矩阵，最后一列是IPC；

4.根据权利要求1所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法，其特殊之处在于：步骤S3包括：

5.根据权利要求1-3任一所述的一种基于机器学习的CPU与GPU异构SoC性能刻画方法，其特殊之处在于：步骤S4包括：

S401：利用nvprof测量每一块GPU消耗的电能；