CN112099614B

CN112099614B - 一种基于协同近似计算的众核系统能耗与性能优化方法

Info

Publication number: CN112099614B
Application number: CN202010765578.1A
Authority: CN
Inventors: 侯忻悦; 王小航
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2022-04-22
Anticipated expiration: 2040-08-03
Also published as: CN112099614A

Abstract

本发明公开了一种基于协同近似计算的众核系统能耗与性能优化方法，该方法能够在控制应用程序输出结果满足一定误差范围的前提下，联合不同抽象层采用多种近似技术，包括在应用层级减少应用程序的计算工作量，在网络层有选择地删除数据以减少网络拥塞，通过全局控制器的优化调控与局部控制器的资源配置，将近似计算应用于众核系统的不同抽象层。该发明基于质量模型衡量丢弃的数据的重要性，考虑通信与计算的协同管理，制定一个多目标优化问题，以最小化网络拥塞、应用程序运行时间并限制结果质量，为众核系统提供加快应用程序运行时间、减少能源消耗、提高芯片级能源效率的新方法。

Description

一种基于协同近似计算的众核系统能耗与性能优化方法

技术领域

本发明涉及众核系统的资源管理技术领域，具体涉及一种基于协同近似计算的众核系统能耗与性能优化方法。

背景技术

芯片多处理器已成为构建高性能计算机的主流，众核系统被广泛用在云计算服务器、大数据系统中提供足够的计算能力。晶体管缩放技术推动了众核系统的片上网络中可用的处理元件数量的迅猛增长，但由于Dennard缩放比例崩溃导致的过热问题，众核芯片无法随芯片面积正常缩放。在满足众核系统功耗预算的前提下，只能打开一部分节点的电源，而关闭其余节点的电源，旨在散热设计约束下工作，以防止可能的过热问题和芯片永久损坏。不幸的是，作为一种折衷方案，该解决方案阻止了峰值频率水平的运行，降低了芯片的能源效率，因此需要新颖的技术来最大化芯片的性能。由于跨晶体管的性能/功率效率在各种抽象层上都无法与众所周知的功率降低技术(例如DVFS和功率门控)保持同步，因此继续支持整个堆栈的精确计算可能不足以解决不断提高的能量效率挑战。

应对这一挑战的一种可能解决方案是近似计算。有大量的应用程序可以忍受近似误差，并且它们计算的很大一部分仍会产生对用户有用且质量可接受的输出，例如机器学习、搜索和多媒体应用已表现出固有的容错能力。这些应用激发了近似设计，可通过采用选择性近似来获得更好的性能。

整个硬件和软件堆栈中都有不同的近似技术。在软件层，常见的近似技术是时序松弛和特定于域的近似。例如，并行程序之间的同步或不同代码段之间的握手可以放松，以实现性能和能效方面的改进；还有，通过将数据分类为段来利用领域或特定于应用程序的知识，以便使用精确的计算来处理敏感复杂的数据，并使用近似的模块来处理不敏感的数据。在体系结构层，使用专用的近似硬件模块执行选择性的指令代码段；还有，通过使用关键路径的截断或通常使用近似的等效模块来实现复杂的模块，从而简化了硬件的体系结构复杂性。在硬件/电路层，通过降低电源电压以提高整体功率效率。

单方面的近似概念尽管有可能有助于提升某个抽象层上的性能表现，但不能保证芯片的最佳功率效率，同时，在一个抽象层引入近似计算可能会损害另一个抽象层的执行。因此，目前亟待将计算和通信基础设施结合在一起，探究不同抽象层之间采用多种近似技术的相关性，来指导各自的功率状态协调朝着适当的方向发展，最大程度地提高芯片上资源的利用潜力。

发明内容

本发明的目的在于克服现有近似技术应用于众核系统的不足，提供一种基于协同近似计算的众核系统能耗与性能优化方法，该方法能够在控制应用程序输出结果满足一定误差范围的前提下，通过联合不同抽象层采用多种近似技术，最大程度的优化众核系统的能耗和性能。

本发明的目的可以通过采取如下技术方案达到：

一种基于协同近似计算的众核系统能耗与性能优化方法，该方法考虑通信方面和计算方面的协同资源管理，涉及应用程序和网络层这两个不同抽象层，包括全局控制器、局部控制器、数据裁剪器和数据恢复器几个部分。

在选定的主控节点G上装配全局控制器。每隔固定时间τ，各个节点L统计上个时间间隔τ内的缓存缺失率cache miss rate和每时钟周期运行指令数instruction perclock，并发送给主控节点G。主控节点G根据各节点L的返回信息和用户对应用程序输出结果的质量要求为各个节点L分配一个最优配置，并将产生的配置信息通过网络发送到相应节点。其中，缓存缺失率cache miss rate简称CMR，每时钟周期运行指令数instructionper clock简称IPC。

应用程序的近似方法采用动态循环穿孔技术。在分析过程中，通过性能分析和质量约束来确定应用程序可进行穿孔的循环组合。在本系统下运行时，各节点的循环穿孔率由局部控制器根据全局控制器返回的配置信息中的循环穿孔率进行动态设置。

根据全局控制节点返回的配置信息中的数据丢弃率，局部控制器为每个即将注入网络的数据包进行数据丢弃率的设定，交由数据裁剪器进行处理。网络层的每个节点各配置一个数据裁剪器和一个数据恢复器，数据裁剪器在数据包注入网关前根据设置的数据丢弃率对其进行丢弃，数据恢复器在完成被近似数据包的接收后对其中丢失的数据进行恢复。

进一步地，通过降低系统对输出结果精确度的要求，分别在应用程序上进行循环穿孔，跳过应用程序中选定循环的选定指令；在网络层将片上网络中传输的数据进行有损压缩，减少在网络中传输的数据量，并在目的节点对丢失的数据进行恢复以确保数据的完整性。

进一步地，网络层数据裁剪器对数据近似的过程为：对每个等待注入网络的数据包中的原始数据序列，数据裁剪器根据局部控制器给定的数据丢弃率以随机间隔的数据单元进行数据裁剪，新产生的裁剪后的数据包比原始数据包要小。

进一步地，数据的恢复过程为：对裁剪过的数据序列，数据恢复器根据裁剪时所用的间隔，在被裁剪的数据内上插入恢复的数据单元，而恢复值采用被裁剪数据的相邻单元的数据平均值。

进一步地，全局控制器的具体控制过程为：

(1)建立质量模型

将具体的数据丢弃方法和循环穿孔方法嵌入到应用程序的源代码中，收集其对应用程序输出质量的影响。在质量模型的建立过程中，首先以不同的循环穿孔率和数据丢弃率执行修改后的应用程序，得到质量损失样本。再通过线性插值补全，建立一个二元多项式质量损失模型函数θ＝Q(x,y)，其中θ为应用程序质量损失的比例，x为数据丢弃率，y为循环穿孔率。该模型用来估计丢弃一定的数据和进行一定的循环穿孔后造成应用输出结果的质量误差。

(2)建立性能模型

在众核系统上，按照不同的数据丢弃率和循环穿孔率运行不同的基准测试程序并获取应用程序的运行时间和能耗，可以得到不同丢弃率下的时间样本和能耗样本。再通过线性插值补全，建立时间模型t＝T(x,y)和能耗模型p＝P(x,y),其中t为程序结束用时，p为程序完成能耗总量。

同时统计未采取近似手段时，运行应用程序，网络中产生的总数据量G_data，和循环穿孔段代码的执行指令总数G_loop，作为误差预算的参考。

(3)进行误差预算

根据用户定义的质量要求以及应用程序的特性，可以选择出丢弃数据预算和循环穿孔预算。设用户质量要求为θ₀，根据质量模型函数得到数据丢弃率和循环穿孔率的关系函数Q(x,y)＝θ₀。考虑应用程序本身的特性，针对数据密集型程序选择数据丢弃率较高的解，反之对于计算密集型程序选择穿孔率较高的解，最终根据等式选择出合适的解x₀和y₀。

整个系统的预算分为数据误差预算和穿孔误差预算，分别用符号g_data和g_loop表示,其值会随着时间更新。对于初始值g_data＝x₀G_data，更新的状态方程为

网络中有n个节点，x_i表示上个时间间隔全局控制器分配给i节点的数据丢弃率，k_i表示i节点在上个时间间隔发送的数据总量。对于穿孔误差预算，初始值g_loop＝y₀C_loop，更新的状态方程为

其中y_i表示上个时间间隔全局控制器分配给i节点的循环穿孔率，l_i表示i节点在上个时间间隔运行的循环穿孔段代码的执行指令总数。

当g_data和g_loop的值小于等于0时，全局控制器将不再控制各个节点进行近似，即近似已经达到预算上限。

(4)建立约束模型

约束模型为全局控制器提供决定各节点数据丢弃率和循环穿孔率的依据。在众核系统上，以不同的数据丢弃率和循环穿孔率来运行应用程序并统计其缓存缺失的值和循环穿孔代码段的指令运行总数，除以运行时间就能得到不同数据丢弃率和循环穿孔率所对应的缓存缺失率cache miss rate(CMR)和每时钟周期运行指令数instruction per clock(IPC)的样本数据。再通过线性插值补全可以分别得到两个近似约束模型，定义为r＝f₁(x,y)和c＝f₂(x,y),其中r为CMR，c为IPC。

每隔时间间隔τ，全局控制器收集各个节点的cache miss rate的值r_i和instruction per clock的值c_i。根据约束模型f₁和f₂，我们能找到x和y区间让r有更小的趋势和c更大的趋势，分别记为U_r和U_c。最终约束(x,y)∈U_r∩U_c

(5)多目标优化

用帕累托策略用于多目标优化。目标为性能和功耗，约束为(4)部分的约束范围。全局控制器收集到节点上一个时间段的缓存缺失率cache miss rate和每时钟周期运行指令数instruction per clock的值，根据建立好的约束模型得到数据丢弃率和循环穿孔率的约束范围，采用帕累托多目标优化得到帕累托前沿，筛选出合适的数据丢弃率和循环穿孔率返回给各节点的局部控制器。

目标函数：

最小化运行时间t＝T(x,y)和功耗p＝P(x,y)

约束函数：

(x,y)∈U_r∩U_c

局部控制过程为：

局部控制器得到全局控制器返回的结果x_i和y_i，在下一个时间间隔将数据裁剪器的丢弃率设置为x_i，将应用程序的循环穿孔率设置为y_i。并统计此节点当前时间间隔内的缓存缺失率cache miss rate和每时钟周期运行指令数instruction per clock，在本时间间隔结束的时候发送给全局控制器。

本发明相较于现有技术具有如下的优点及效果：

1)本发明中涉及的基于近似计算的众核系统资源管理领域尚且未有相关的协同近似计算的优化方法，与基于单层级或单组件的近似计算相比，协同近似计算更具改善整个众核系统的性能的潜力。

2)同时，关注不同抽象层之间的影响和联系，本发明提出跨层级的全局控制策略，基于质量模型衡量丢弃的数据的重要性，考虑通信与计算的协同管理，制定一个多目标优化问题，以最小化网络拥塞、应用程序运行时间并限制结果质量，为众核系统提供加快应用程序运行时间、减少能源消耗、提高芯片级能源效率的新方法。

附图说明

图1是应用程序运用的动态循环穿孔技术示意图；

图2是网络层数据裁剪与恢复的流程图；

图3是网络层的结构框图；

图4(a)是全局控制器收集局部信息图；

图4(b)是全局控制器发送配置信息图；

图5是众核系统在全局与局部控制机制下的近似过程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图3，C表示片上网络节点中的处理器核，M表示处理器Cache(高速缓冲存储器)，R表示路由器，NI表示网络接口。本发明中基于协同近似计算的众核系统能耗与性能优化方法涉及应用程序和网络层这两个不同抽象层，包括全局控制器、局部控制器、数据裁剪器和数据恢复器几个部分。

如图4(a)，在选定的主控节点G上装配全局控制器。每隔固定时间τ，各个节点L统计上个时间间隔τ内的缓存缺失率cache miss rate和每时钟周期运行指令数instructionper clock，并发送给主控节点G。如图4(b)，主控节点G根据各节点L的返回信息和用户对应用程序输出结果的质量要求为各个节点L分配一个最优配置，并将产生的配置信息通过网络发送到相应节点。

如图1所示，应用程序的近似方法采用动态穿孔技术。在分析过程中，通过性能分析和质量约束来确定应用程序可进行穿孔的循环组合。在本系统下运行时，各节点的循环穿孔率由局部控制器根据全局控制器返回的配置信息中的循环穿孔率进行动态设置。

本实施例中，根据全局控制节点返回的配置信息中的数据丢弃率，局部控制器为每个即将注入网络的数据包进行数据丢弃率的设定，交由数据裁剪器进行处理。网络层的每个节点各配置一个数据裁剪器和一个数据恢复器，数据裁剪器在数据包注入网关前根据设置的数据丢弃率对其进行丢弃，数据恢复器在完成被近似数据包的接收后对其中丢失的数据进行恢复。

数据的具体裁剪与恢复参见图2，例如有一个待处理的原始数据序列，数据裁剪器根据给定的数据丢弃率以随机的间隔进行数据裁剪，使得产生的裁剪数据包比原始数据包要小。数据恢复器根据裁剪时所用的间隔，在该数据序列上插入恢复的数据单元，而恢复值可以采用原被裁剪数据的相邻单元的数据平均值。

全局控制器的具体控制过程为：

(1)建立质量模型

将具体的数据丢弃方法和循环穿孔方法嵌入到应用程序的源代码中，收集其对应用程序输出质量的影响。在质量模型的建立过程中，首先以不同的循环穿孔率和数据丢弃率执行修改后的应用程序，得到质量损失样本。再通过线性插值补全，建立一个二元多项式质量损失模型函数θ＝Q(x,y)，其中θ为应用程序质量损失的比例，x为数据丢弃率，y为循环穿孔率。该模型用来估计丢弃一定的数据和进行一定的循环穿孔后造成应用输出结果的误差。

(2)建立性能模型

(3)进行误差预算

整个众核系统的预算分为数据误差预算和穿孔误差预算，分别用符号g_data和g_loop表示,其值会随着时间更新。对于初始值g_data＝x₀G_data，更新的状态方程为

网络中有n个节点，x_i表示上个时间间隔全局控制器分配给i节点的数据丢弃率，k_i表示i节点在上个时间间隔发送的数据总量。对于穿孔误差预算，初始值g_loop＝y₀G_loop，更新的状态方程为

(4)建立约束模型

(5)多目标优化

目标函数：

最小化运行时间t＝T(x,y)和功耗p＝P(x,y)

约束函数：

(x,y)∈U_r∩U_c

局部控制过程为：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于协同近似计算的众核系统能耗与性能优化方法，其特征在于，该优化方法考虑通信方面和计算方面的协同资源管理和由性能与能耗组成的多目标优化，该众核系统包括全局控制器、局部控制器、数据裁剪器和数据恢复器，该优化方法过程如下：

在选定的主控节点上装配全局控制器，每隔固定时间，根据每个节点的程序运行情况以及用户对应用程序输出结果的质量要求为各个节点动态分配一个最优配置，并将产生的配置信息通过网络发送到相应节点，所述的配置信息包括数据丢弃率和循环穿孔率；

在各个节点上装配局部控制器，根据收到的配置信息，为每个等待注入网络的数据包进行数据丢弃率的设定和为应用程序设定循环穿孔率；

根据全局控制节点返回的配置信息中的数据丢弃率，局部控制器为每个即将注入网络的数据包进行数据丢弃率的设定，交由数据裁剪器进行处理；网络层的每个节点各配置一个数据裁剪器和一个数据恢复器，所述的数据裁剪器在数据包注入网关前根据设置的数据丢弃率对其进行丢弃，所述的数据恢复器在完成被近似数据包的接收后对其中丢失的数据进行恢复；

其中，所述的全局控制器的控制过程为：

S1、建立质量模型：将具体的数据丢弃方法和循环穿孔方法嵌入到应用程序的源代码中，收集其对应用程序输出质量的影响，在质量模型的建立过程中，首先以不同的循环穿孔率和数据丢弃率执行修改后的应用程序，得到质量损失样本，再通过线性插值补全，建立一个二元多项式质量损失模型函数；

S2、建立性能模型：进行众核系统的仿真，按照不同的数据丢弃率和循环穿孔率运行不同的基准测试程序并获取应用程序的运行时间和能源消耗，得到不同丢弃率下的时间样本和能耗样本，再通过线性插值补全，建立时间模型和能耗模型；

S3、进行误差预算：根据用户定义的质量要求以及应用程序的特性，结合质量模型选择出丢弃数据预算和循环穿孔预算，其中，应用程序的总预算分为数据误差预算和循环穿孔误差预算，将每个节点经过近似的数据量和循环穿孔指令数从总预算中减去，若数据误差预算和循环穿孔误差预算均小于0，全局控制器将为所有节点发送不近似的配置信息；

S4、建立约束模型，众核系统以不同的数据丢弃率和循环穿孔率执行应用程序并统计其缓存缺失值和循环穿孔代码段的指令运行总数，除以运行时间得到不同数据丢弃率和循环穿孔率下所对应的缓存缺失率CMR和每时钟周期运行指令数IPC的样本数据，再通过线性插值补全分别得到关于循环穿孔的近似约束模型和关于数据丢弃的近似约束模型；

S5、模型约束与多目标优化：各节点实时返回节点的缓存缺失率CMR和每时钟周期运行指令数IPC给全局控制器，全局控制器将这些数据代入到建好的离线约束模型，得到数据丢弃率和循环穿孔率的取值范围，为后续多目标优化提供约束依据；

将帕累托策略运用于多目标优化问题，以性能和能耗为优化目标，以经过约束模型计算的约束范围为约束，采用帕累托多目标优化得到帕累托前沿，在帕累托前沿中筛选出合适的数据丢弃率和循环穿孔率返回给各节点的局部控制器。

2.如权利要求1所述的一种基于协同近似计算的众核系统能耗与性能优化方法，其特征在于，所述的优化方法中，由局部控制器每个时间间隔分别收集反映众核系统网络层通信情况的缓存缺失率CMR和反映应用程序指令运算情况的每时钟周期运行指令数IPC发送给全局控制器；由主控节点的全局控制器收集局部信息并通过全局控制器的控制过程进行优化调控。

3.如权利要求1所述的一种基于协同近似计算的众核系统能耗与性能优化方法，其特征在于，为了降低应用程序在众核系统运行后的输出精度，采用近似方法，分别为在应用程序上进行循环穿孔，跳过应用程序中选定循环的部分指令；在众核系统进行数据通信的网络层，对每个节点将传输的数据进行有损压缩，减少在片上网络中传输的数据量，并在目的节点对被压缩的数据进行恢复以确保数据的完整性。

4.如权利要求1所述的一种基于协同近似计算的众核系统能耗与性能优化方法，其特征在于，在应用程序上采用的近似方法为动态循环穿孔技术，在分析过程中，通过性能分析和质量约束来确定应用程序可进行穿孔的循环组合，应用程序在众核系统上运行时，各节点的循环穿孔率由局部控制器根据全局控制器返回的配置信息中的循环穿孔率进行动态设置。

5.如权利要求1所述的一种基于协同近似计算的众核系统能耗与性能优化方法，其特征在于，所述的数据裁剪器对数据裁剪的具体过程为：数据裁剪器根据给定的数据丢弃率以随机的间隔进行数据裁剪，使得产生的裁剪数据包比原始数据包要小。

6.如权利要求1所述的一种基于协同近似计算的众核系统能耗与性能优化方法，其特征在于，所述的数据恢复器对丢弃数据进行恢复过程为：数据恢复器根据裁剪时所用的间隔，在裁剪过的数据内插入恢复的数据单元，其中，恢复值采用原被裁剪数据的相邻单元的数据平均值。

7.如权利要求1所述的一种基于协同近似计算的众核系统能耗与性能优化方法，其特征在于，所述的局部控制器得到全局控制器返回的结果，在下一个时间间隔将数据裁剪器的数据丢弃率和应用程序的循环穿孔率设置为返回值，并统计此节点当前时间间隔内的缓存缺失率CMR和每时钟周期运行指令数IPC，在本时间间隔结束的时候发送给全局控制器。