CN106649067A

CN106649067A - 一种性能和能耗预测方法及装置

Info

Publication number: CN106649067A
Application number: CN201611231820.7A
Authority: CN
Inventors: 刘琪骁; 喻之斌; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-10
Anticipated expiration: 2036-12-28
Also published as: CN106649067B

Abstract

本发明实施例公开了一种性能和能耗预测方法，用于解决如何预测程序在不同处理核内的不同频率下执行时产生的性能和能耗的问题。本发明实施例方法包括：读取程序执行时产生的PMC值；根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间；将所述PMC值和所述第一内存处理时间投入CPI模型，得到第一预测内存处理时间和第一预测总执行时间；根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间；根据所述第二预测总执行时间确定性能预测值和能耗预测值；输出所述性能预测值和所述能耗预测值。本发明实施例还提供一种性能和能耗预测装置。

Description

一种性能和能耗预测方法及装置

技术领域

本发明涉及处理器技术领域，尤其涉及一种性能和能耗预测方法及装置。

背景技术

当前计算机应用程序有多样化的特征，对资源的需求差异性很大，通过复杂的CPU(处理器)设计去满足程序的需求代价则是高昂的电能开销。而异构多核架构(如大小核架构)提供了差异化的处理平台，程序在处理能力强的核上执行能获得的平均性能更好，但是产生的能耗更高；相对的，程序在处理能力弱的核上运行产生的能耗低，但是平均性能差。同样，DVFS(Dynamic Voltage and Frequency Scaling,动态调整时钟频率)加深了这一处理差异性，在高频率下，程序性能好但是能耗高，反之亦然。但是异构核和DVFS的不同频率间，程序的性能变化并不是一致线性的。一些程序在处理能力强的核上执行的性能相对于弱核的提升不高，而一些程序在高频率下的执行性能相对于低频率下的提升也不高。

可见，异构多核架构提供了差异化的处理平台，同时，DVFS进一步增强了处理能力的差异化。这样的条件下，合理的选择CPU核和时钟频率执行程序以达到最优的性能和能耗就成为了本领域技术人员的重要研究课题。而研究该课题的基础，则是在异构多核架构且具备DVFS能力的处理器中，如何预测程序在不同处理核内的不同频率下执行时产生的性能和能耗。

发明内容

本发明实施例提供了一种性能和能耗预测方法及装置，能够实现程序在不同处理核内的不同频率下执行时产生的性能和能耗的预测。

本发明实施例提供的一种性能和能耗预测方法，应用于异构多核架构且具备DVFS能力的处理器，包括：

读取所述处理器的第一处理核上程序在预设第一频率下执行时产生的PMC值；

根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间；

将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间，所述CPI模型为预先建立的所述处理器的第二处理核与所述第一处理核的映射模型；

根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间，所述第二频率为所述第二处理核通过DVFS从所述第一频率调整至的下一个时钟频率；

根据所述第二预测总执行时间确定所述第二处理核上所述程序在第二频率下执行时的性能预测值和能耗预测值；

输出所述性能预测值和所述能耗预测值。

可选地，所述根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间包括：

根据读取到的所述PMC值确定所述程序执行时在各个时间点上由缓存访问失效事件导致的访问失效数量；

根据确定的所述访问失效数量计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间。

可选地，所述CPI模型通过以下步骤预先建立：

在用于训练的所述第一处理核和第二处理核上执行程序时，抽取所述程序执行时的PMC值和内存处理时间作为训练样本的输入，同时抽取所述程序执行时的CPI值作为所述训练样本的输出；

将所述训练样本的输入和输出投入预设的CPI模型模板中进行训练，训练完成后得到所述CPI模型。

可选地，将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间包括：

将所述第一内存处理时间投入所述CPI模型进行转换得到所述第一预测内存处理时间；

将所述PMC值和所述第一内存处理时间输入所述CPI模型，得到所述CPI模型输出的CPI值；

根据所述CPI值和所述第一频率确定所述第二处理核上所述程序在所述第一频率下执行时的第一预测总执行时间。

可选地，根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间包括：

根据所述第一预测内存处理时间和第一预测总执行时间确定所述第二处理核上所述程序在所述第一频率下执行时的第一预测处理核处理时间；

根据所述第一预测内存处理时间、所述第一预测处理核处理时间、所述第一频率和所述第二频率计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间。

可选地，在根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间之后，还包括：

根据所述第一内存处理时间和与所述第一频率对应的总执行时间确定所述第一处理核上所述程序在所述第一频率下执行时的第一处理核处理时间；

根据所述第一内存处理时间和所述第一处理核处理时间计算所述第一处理核上所述程序在所述第二频率下执行时所需的第三预测总执行时间；

根据所述第三预测总执行时间确定所述第一处理核上所述程序在第二频率下执行时的第二性能预测值和第二能耗预测值；

输出所述第二性能预测值和所述第二能耗预测值。

本发明实施例提供的一种性能和能耗预测装置，应用于异构多核架构且具备DVFS能力的处理器，包括：

PMC值读取模块，用于读取所述处理器的第一处理核上程序在预设第一频率下执行时产生的PMC值；

第一内存处理时间计算模块，用于根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间；

第一执行时间预测模块，用于将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间，所述CPI模型为预先建立的所述处理器的第二处理核与所述第一处理核的映射模型；

第二执行时间预测模块，用于根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间，所述第二频率为所述第二处理核通过DVFS从所述第一频率调整至的下一个时钟频率；

预测值确定模块，用于根据所述第二预测总执行时间确定所述第二处理核上所述程序在第二频率下执行时的性能预测值和能耗预测值；

输出模块，用于输出所述性能预测值和所述能耗预测值。

可选地，所述第一内存处理时间计算模块包括：

访问失效数量确定单元，用于根据读取到的所述PMC值确定所述程序执行时在各个时间点上由缓存访问失效事件导致的访问失效数量；

处理时间计算单元，用于根据确定的所述访问失效数量计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间。

可选地，所述第一执行时间预测模块包括：

预测处理时间转换单元，用于将所述第一内存处理时间投入所述CPI模型进行转换得到所述第一预测内存处理时间；

CPI值输出单元，用于将所述PMC值和所述第一内存处理时间输入所述CPI模型，得到所述CPI模型输出的CPI值；

预测总执行时间确定单元，用于根据所述CPI值和所述第一频率确定所述第二处理核上所述程序在所述第一频率下执行时的第一预测总执行时间。

可选地，所述性能和能耗预测装置还包括：

处理核处理时间确定模块，用于根据所述第一内存处理时间和与所述第一频率对应的总执行时间确定所述第一处理核上所述程序在所述第一频率下执行时的第一处理核处理时间；

第三执行时间预测模块，用于根据所述第一内存处理时间和所述第一处理核处理时间计算所述第一处理核上所述程序在所述第二频率下执行时所需的第三预测总执行时间；

第二预测值确定模块，用于根据所述第三预测总执行时间确定所述第一处理核上所述程序在第二频率下执行时的第二性能预测值和第二能耗预测值；

第二输出模块，用于输出所述第二性能预测值和所述第二能耗预测值。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，首先，读取所述处理器的第一处理核上程序在预设第一频率下执行时产生的PMC值；然后，根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间；接着，将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间，所述CPI模型为预先建立的所述处理器的第二处理核与所述第一处理核的映射模型；再之，根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间，所述第二频率为所述第二处理核通过DVFS从所述第一频率调整至的下一个时钟频率；根据所述第二预测总执行时间确定所述第二处理核上所述程序在第二频率下执行时的性能预测值和能耗预测值；最后，输出所述性能预测值和所述能耗预测值。本发明通过读取第一处理核上程序在第一频率下执行时产生的PMC值，经过分析计算，最后得到第二处理核上程序在第二频率下执行时的性能预测值和能耗预测值，实现了程序在不同处理核内的不同频率下执行时产生的性能和能耗的预测，为如何合理地选择处理核和时钟频率执行程序以达到最优的性能和能耗提供了重要的参照信息和选择依据。

附图说明

图1为本发明实施例中一种性能和能耗预测方法一个实施例流程图；

图2为本发明实施例中一种性能和能耗预测方法在一个应用场景下的流程示意图；

图3为本发明实施例中一种性能和能耗预测装置一个实施例结构图。

具体实施方式

本发明实施例提供了一种性能和能耗预测方法及装置，用于解决如何预测程序在不同处理核内的不同频率下执行时产生的性能和能耗的问题。

本发明着眼于程序在处理器(如ARM处理器)异构核的不同时钟频率下运行时的性能和功耗的相互映射。亦即，当程序在其中一处理核和任意时钟频率下运行一段时间后，对程序在该平台任一节点的任一时钟频率下运行时的性能和功耗做出预测。

本发明的模型为自底向上，切入点是处理器中的事件信息，也即程序在运行时候处理器中产生的事件集。由于处理器由不同的部件组成，而程序在执行时会在各部件间产生一定量的操作。当前的硬件设备商设计生产芯片时，通常会提供一系列寄存器，这些寄存器记录了芯片在工作时记录下的一些关键事件的发生数量，并提供接口供操作系统读取。这些事件间接的反映着程序运行时的性能，同时，这些事件的发生也造成了系统中功耗的产生。从而，可以理解为事件集即程序在计算机系统中运行时性能和功耗的抽象表达。本发明利用了在每一个时间点上读取到的PMC数值作为性能和能耗模型的输入。

在CPU核处于不同电压和频率下时，运行的程序的性能和能耗也将不同，并且不同的程序会呈现明显差异的变化率。当程序正常提交指令的时钟周期内，可以认为是主要在处理核中执行指令的过程。而提交指令流程被暂停，等待当前指令所进行的内存访问结束才能恢复提交指令的处理过程，也可认为是属于在内存系统中处理的过程。本发明主要通过在不同频率下程序执行时事件集的特征分析来判断程序在处理器和内存及其他模块中处理时间的时间比例，并由此实现性能和能耗的预测工作。

ARM的大小核架构下，大核和小核的微架构不同，主要表现在：指令执行模型，流水线设计，部件大小等不同。但是，大核和小核上的指令集相同，所以，当同一个程序在不同的处理核上执行的时候，程序的执行产生的动态指令流基本一致，区别在于大小核上产生事件数量的差异，和事件数量对于性能和能耗影响的差异，也即性能和能耗模型的差异。本发明通过研究相同的动态指令在大小核上将会产生的事件集信息，来完成对任务执行在不同核上性能和能耗的预测。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种性能和能耗预测方法一个实施例包括：

101、读取所述处理器的第一处理核上程序在预设第一频率下执行时产生的PMC值；

本实施例中，首先，可以读取所述处理器的第一处理核上程序在预设第一频率下执行时产生的PMC值。该PMC值即为事件计数器(Performance Monitoring Counters,PMC)记录的值。

可以理解的是，一个大小核架构的处理器，其上至少包括两个处理核，分别为第一处理核和第二处理核。其中，可以是第一处理核为大核，第二处理核为小核；也可以是第一处理核为小核，第二处理核为大核。可知，在步骤101中先选定一个处理核为第一处理核，也即当前处理核，则第二处理核相对第一处理核为异构核，简称异核。

在步骤101中，首先预设一个第一频率，在第一处理核上该程序在该第一频率下执行，获取执行过程中的PMC值。可以理解的是，该PMC值对应的执行过程的时间区间可以根据实际需求预先设定。

102、根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间；

在读取到所述PMC值之后，可以根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间。

可以理解的是，当程序在计算系统执行时，也即在处理核上执行时，其总的执行时间可以分为处理核处理时间和内存处理时间。处理核处理时间是处理核中执行指令并正常提交的时间。而内存处理时间是处理核内的指令执行流程因为高额的内存开销而暂停的时间。

因此，进一步地，上述步骤102可以包括：根据读取到的所述PMC值确定所述程序执行时在各个时间点上由缓存访问失效事件导致的访问失效数量；根据确定的所述访问失效数量计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间。

为便于说明，假设内存处理时间为MET，MET与程序当前执行中所产生的内存操作的数量线性相关，但是由于内存操作也具有并行特征，多个内存访问所造成的时延也会相互重叠，所以根据在每次时间点(假设共100次)上读取的内存访问数量，和这些内存访问占所有执行指令数量的比例进行线性回归分析，可通过如下公式计算MET：

其中，CM表示在程序执行时每个时间点上读取的最后一级缓存的访问失效数量，MPKI表示这些访问失效数量在每1000条指令中所占的比例，而μ为权重因子，可以通过训练集训练后经由线性回归得到。

103、将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间；

在根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间之后，可以将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间，其中，所述CPI模型为预先建立的所述处理器的第二处理核与所述第一处理核的映射模型。

进一步地，所述CPI模型可以通过以下步骤预先建立：

A、在用于训练的所述第一处理核和第二处理核上执行程序时，抽取所述程序执行时的PMC值和内存处理时间作为训练样本的输入，同时抽取所述程序执行时的CPI值作为所述训练样本的输出；

B、将所述训练样本的输入和输出投入预设的CPI模型模板中进行训练，训练完成后得到所述CPI模型。

对于上述步骤A和B，该CPI模型模板可以如下式(2)表示：

CPI＝γ₀Icount+γ₁ICA+γ₂DCA+γ₃LI+γ₄SI+γ₅BR+γ₆IntI+γ₇FPI+γ₈MET

可以理解的是，基于同属大小核架构的两个处理核不同的微架构特征建立，当程序执行时，可以根据PMC读数获取各个预设指令类型的指令数，根据第一处理核和第二处理核之间存在的基于事件数量的映射关系，可以建立起该CPI栈的模型。在上述式(2)中，各个指令类型的指令数分别包括执行指令数Icount、第一级指令缓存访问数ICA、数据缓存访问数DCA、存操作指令数LI、取操作指令数SI、分支指令数BR、整形指令数IntI和浮点指令数FPI。式(2)的方程可以通过训练集(所述训练样本的集合)训练确认各个参数γ。

进一步地，上述步骤103可以包括：

1031、将所述第一内存处理时间投入所述CPI模型进行转换得到所述第一预测内存处理时间；

1032、将所述PMC值和所述第一内存处理时间输入所述CPI模型，得到所述CPI模型输出的CPI值；

1033、根据所述CPI值和所述第一频率确定所述第二处理核上所述程序在所述第一频率下执行时的第一预测总执行时间。

对于上述步骤1031，在预先建立好的CPI模型下，γ₈已确定，由上述式(2)可知，第一预测内存处理时间等于γ₈MET，即等于所述第一内存处理时间乘以参数γ₈。

对于上述步骤1032，将所述PMC值和所述第一内存处理时间输入上述式(2)，可以得到输出的CPI值。

对于上述步骤1033，可以理解的是，在获取到输出的CPI值之后，可以根据该CPI值和第一频率计算程序在第二处理核上执行相同指令数所需的执行时间，如下式(3)所示：

其中，ET表示程序执行时的总执行时间，N_inst表示程序所需执行的指令数，而f表示对应的时钟频率。

通过上述式(3)的计算，可以确定所述第二处理核上所述程序在所述第一频率下执行时的第一预测总执行时间。

需要说明的是，由于第二处理核与第一处理核性能和构造上的差异，在经过CPI模型转换后，第二处理核上程序执行时的所述第一频率的值与第一处理核上程序执行时的第一频率的值可能不相等，但第二处理核上的第一频率与第一处理核上的第一频率存在对应的映射关系。因此，本实施例中为了方便表达，在第二处理核上程序执行时，其使用的对应时钟频率也表述为第一时钟频率。

104、根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间；

在得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间之后，可以根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间，所述第二频率为所述第二处理核通过DVFS从所述第一频率调整至的下一个时钟频率。

由上述内容可知，当程序在处理核上执行时，其总的执行时间可以分为处理核处理时间和内存处理时间，也即，总执行时间ET可以等于处理核处理时间CET加上内存处理时间MET。

因此，进一步地，上述步骤104可以包括：

1041、根据所述第一预测内存处理时间和第一预测总执行时间确定所述第二处理核上所述程序在所述第一频率下执行时的第一预测处理核处理时间；

1042、根据所述第一预测内存处理时间、所述第一预测处理核处理时间、所述第一频率和所述第二频率计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间。

对于上述步骤1041，可以通过如下式(4)表示：

CET＝ET-MET (4)

对于上述步骤1042，当第二处理核使用DVFS技术从第一频率f调整至下一个频率，也即第二频率f'时，在该f'下的总执行时间ET通过如下式(5)计算：

其中，上述的f为所述第一频率，f'为所述第二频率，ET(f')为第二频率下的总执行时间，MET(f)为第一频率下的内存处理时间，CET(f)为第一频率下的处理核处理时间。

可知，根据式(5)，将所述第一预测内存处理时间、所述第一预测处理核处理时间、所述第一频率和所述第二频率代入式(5)可以计算得到所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间。

105、根据所述第二预测总执行时间确定所述第二处理核上所述程序在第二频率下执行时的性能预测值和所需的能耗预测值；

在计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间之后，可以根据所述第二预测总执行时间确定所述第二处理核上所述程序在第二频率下执行时的性能预测值和所需的能耗预测值。

在对性能和能耗预测进行预测之前，可以先建立性能和能耗的预测模型。通过将可准确监测的性能(CPI)和能耗，结合同时监测得到的事件集，经过推导模型，分析与确定最相关的关键事件组合，并确定各项参数进行拟合。

对于性能，经过将各测试程序各时间段监测所得性能和同时得到的事件集相线性拟合，可得出的性能模型如下式(6)表示：

其中，事件数量(EventCount)可以通过所述第二预测总执行时间进行转换计算得到。参数α和β可以通过使用训练集，根据实际测得的性能和PMC值作为训练集，经过线性回归分析确定。

同理，对于能耗，其能耗模型可以如下式(7)表示：

其中，Power_s表示处理器的平台功耗，即处理器在不处理任务时所产生的功耗，而δ是跟性能模型中不同的一组权重参数，需要经过单独的训练集通过显现回归分析确定。

可知，通过上述式(6)和(7)，可以分别计算出所述第二处理核上所述程序在第二频率下执行时的性能预测值和所需的能耗预测值，从而实现程序在第二处理核内的第二频率下执行时产生的性能和能耗的预测。

106、输出所述性能预测值和所述能耗预测值。

在得到所述第二处理核上所述程序在第二频率下执行时的性能预测值和所需的能耗预测值之后，可以输出所述性能预测值和所述能耗预测值，为选择处理核和时钟频率执行程序以达到最优的性能和能耗提供重要的参照信息和选择依据。

本实施例中，进一步地，在上述步骤102之后，还可以包括：

201、根据所述第一内存处理时间和与所述第一频率对应的总执行时间确定所述第一处理核上所述程序在所述第一频率下执行时的第一处理核处理时间；

202、根据所述第一内存处理时间和所述第一处理核处理时间计算所述第一处理核上所述程序在所述第二频率下执行时所需的第三预测总执行时间；

203、根据所述第三预测总执行时间确定所述第一处理核上所述程序在第二频率下执行时的第二性能预测值和所需的第二能耗预测值；

204、输出所述第二性能预测值和所述第二能耗预测值。

对于上述步骤201～204，可以理解的是，在得到所述第一内存处理时间之后，可以以此为基础来预测所述第一处理核上所述程序在第二频率下执行时的性能和能耗的预测值，分别表述为第二性能预测值和所需的第二能耗预测值，其预测计算过程与上述步骤104～105同理，通过式(1)、(4)、(5)、(6)和(7)可以确定该第二性能预测值和所需的第二能耗预测值，并最后输出所述第二性能预测值和所述第二能耗预测值，实现程序在同一处理核下不同频率下执行时产生的性能和能耗的预测。

为便于理解，根据图1所描述的实施例，下面以一个实际应用场景对本发明实施例中的一种性能和能耗预测方法进行描述：

图2示出了本发明实施例中一种性能和能耗预测方法在一个应用场景下的流程示意图。

本应用场景下，在现有的ARM大小核架构(big.LITTLE)系统中展开，在ARM大小核的芯片上，由一组Cortex-A15和一组Cortex-A7处理核构成，两类处理核均使用了45纳米的制程工艺。Cortex-A15处理核使用了乱序执行的模型，适合进行负载量较大的运算。而Cortex-A7处理核使用了更节约功耗的按序执行模型，这样的特征也意味着A7上面更适合运行负载量较小的运算。尽管两个处理核均使用了超标量的设计，但是A15处理核上的微架构使用了更高的带宽，各部件的设计也更富余。两者均使用了2级缓存的架构，其中第一级缓存分为指令缓存和数据缓存，仅由各核单独使用，而2级缓存则由各组处理核间共享。在如下表1中简要介绍了两者的主要微架构特征值。

表1

由于处理器缓存中的具体状态信息在软件层面是不透明的，只能在软件层面通过PMC读数构建模型来达到间接监测任务缓存使用空间的目的。可以利用Linux操作系统的内核模块gator，可以高频率的读取一系列经过设置的PMC(最高至100,000次/秒)，在每一个时间点上读取到的数值都作为模型的输入。本应用场景中，PMC的读取频率设置为10KHz，而预测的频率设置为100Hz，也即在每10毫秒进行一次预测，每次预测可用的PMC读数为100次。

下面将对本应用场景下执行该性能和能耗预测方法的具体过程进行描述如下：

一、首先，程序开始执行时，当需要对该程序在不同核和不同时钟频率下性能和能耗进行预测时，则启动本发明的预测机制，在进行初始化进入后台等待到达预设时间点。当前执行程序的各初始状态设为0。

二、到达系统状态监测指定时间点后，读取所设定的PMC的监测值，并将每次读到的PMC值计入程序中。在到达预测时间点时，读出在所有时间点上读取的PMC值。

三、根据式(1)计算在之前时间里，该程序执行过程中内存操作所占用的内存处理时间。

四、根据读取的PMC和计算出的内存处理时间，投入式(2)的CPI模型，得到异核的预测内存处理时间和CPI值；然后得到异核的CPI值之后，根据式(3)计算异核的在当前频率下的预测总执行时间；

五、根据式(4)和式(5)计算异核在不同频率下的预测总执行时间；

六、基于异核在不同频率下的预测总执行时间，通过式(6)和式(7)计算异核在不同频率下程序执行时产生的性能和能耗的预测值。

七、判断是否还要继续预测，若是，则返回继续下一周期的预测，若否，则输出所有预测结果。

从上述描述内容可知，相对于现有技术，本发明具有以下优点：

1、提供在ARM大小核架构下基于实际系统的纯软件方法，结合了大小核异微架构的特点和DVFS对时钟频率的调整，实现了一体化的解决方案。

2、本发明基于事件在不同频率下特征的表达方式，通过基于事件的性能和能耗模型实现了在不同频率下程序执行性能和能耗的预测功能，并在实际系统中进行实现和验证。

3、本发明基于程序执行在大小核中产生CPI栈的转换，实现跨处理核的性能和能耗的预测功能，进一步结合不同频率下性能和能耗的预测方法，实现了在异核上不同时钟频率上性能和能耗的预测。

上面主要描述了一种性能和能耗预测方法，下面将对一种性能和能耗预测装置进行详细描述。

图3示出了本发明实施例中一种性能和能耗预测装置一个实施例结构图。

本实施例中，一种性能和能耗预测装置，应用于异构多核架构且具备DVFS能力的处理器，包括：

PMC值读取模块301，用于读取所述处理器的第一处理核上程序在预设第一频率下执行时产生的PMC值；

第一内存处理时间计算模块302，用于根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间；

第一执行时间预测模块303，用于将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间，所述CPI模型为预先建立的所述处理器的第二处理核与所述第一处理核的映射模型；

第二执行时间预测模块304，用于根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间，所述第二频率为所述第二处理核通过DVFS从所述第一频率调整至的下一个时钟频率；

预测值确定模块305，用于根据所述第二预测总执行时间确定所述第二处理核上所述程序在第二频率下执行时的性能预测值和所需的能耗预测值；

输出模块306，用于输出所述性能预测值和所述能耗预测值。

进一步地，所述第一内存处理时间计算模块可以包括：

进一步地，所述CPI模型可以通过以下模块预先建立：

训练样本抽取模块，用于在用于训练的所述第一处理核和第二处理核上执行程序时，抽取所述程序执行时的PMC值和内存处理时间作为训练样本的输入，同时抽取所述程序执行时的CPI值作为所述训练样本的输出；

模型训练模块，用于将所述训练样本的输入和输出投入预设的CPI模型模板中进行训练，训练完成后得到所述CPI模型。

进一步地，所述第一执行时间预测模块可以包括：

进一步地，所述第二执行时间预测模块可以包括：

第一预测处理核处理时间单元，用于根据所述第一预测内存处理时间和第一预测总执行时间确定所述第二处理核上所述程序在所述第一频率下执行时的第一预测处理核处理时间；

第二预测总执行时间计算单元，用于根据所述第一预测内存处理时间、所述第一预测处理核处理时间、所述第一频率和所述第二频率计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间。

进一步地，所述性能和能耗预测装置还可以包括：

第二预测值确定模块，用于根据所述第三预测总执行时间确定所述第一处理核上所述程序在第二频率下执行时的第二性能预测值和所需的第二能耗预测值；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种性能和能耗预测方法，应用于异构多核架构且具备DVFS能力的处理器，其特征在于，包括：

输出所述性能预测值和所述能耗预测值。

2.根据权利要求1所述的性能和能耗预测方法，其特征在于，所述根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间包括：

3.根据权利要求1所述的性能和能耗预测方法，其特征在于，所述CPI模型通过以下步骤预先建立：

4.根据权利要求1所述的性能和能耗预测方法，其特征在于，将所述PMC值和所述第一内存处理时间投入CPI模型，得到所述第二处理核上所述程序在所述第一频率下执行时的第一预测内存处理时间和第一预测总执行时间包括：

5.根据权利要求1所述的性能和能耗预测方法，其特征在于，根据所述第一预测内存处理时间和第一预测总执行时间计算所述第二处理核上所述程序在第二频率下执行时所需的第二预测总执行时间包括：

6.根据权利要求1至5中任一项所述的性能和能耗预测方法，其特征在于，在根据读取到的所述PMC值计算所述第一处理核上所述程序在所述第一频率下执行时的第一内存处理时间之后，还包括：

输出所述第二性能预测值和所述第二能耗预测值。

7.一种性能和能耗预测装置，应用于异构多核架构且具备DVFS能力的处理器，其特征在于，包括：

输出模块，用于输出所述性能预测值和所述能耗预测值。

8.根据权利要求7所述的性能和能耗预测装置，其特征在于，所述第一内存处理时间计算模块包括：

9.根据权利要求7所述的性能和能耗预测装置，其特征在于，所述第一执行时间预测模块包括：

10.根据权利要求7至9中任一项所述的性能和能耗预测装置，其特征在于，所述性能和能耗预测装置还包括：