CN114490506A

CN114490506A - 考虑通讯延迟与热效应的多核系统选核算法

Info

Publication number: CN114490506A
Application number: CN202210074492.3A
Authority: CN
Inventors: 王海; 祖柏杨; 胡强
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-05-13
Anticipated expiration: 2042-01-21
Also published as: CN114490506B

Abstract

本发明属于电子设计自动化领域，提出一种考虑通讯延迟的多核系统选核算法。本发明对二维同构多核芯片进行芯片热建模，相较于传统的芯片模型，这里主要使用2D‑mesh Noc架构芯片。本发明设计的技术方案可以有效的在多核暗硅芯片系统中进行选核，提升芯片性能并保证芯片可靠性与较低通讯延时。对于选核算法的计算过程，首先计算出候选核心的功率预算，然后构建候选核心与已选核心的通讯频次，通讯距离矩阵，计算当前候选核心对应的alpha向量，最后求解候选核心对应的有效翻转频率，选择有效翻转频率最大的候选核心作为下一个开启核心，最后重复上述过程直至所有任务都找到能映射的核心，并匹配核心的频率。本发明提出的多核系统的选核算法可以对二维同构多核暗硅芯片进行有效的选核并充分提高芯片性能。

Description

考虑通讯延迟与热效应的多核系统选核算法

技术领域

本发明属于电子设计自动化领域，涉及一种考虑通讯延迟与热效应的多核系统选核算法。

背景技术

由于登纳德缩放(Dennard Scaling)定律的失效，功率密度开始随集成密度上升，导致了集成电路中存在严重的热相关问题。因此，多核芯片核心必须部分关闭以防止可能的过热和永久损坏，这种现象被称为暗硅(Dark Silicon)。对于存在暗硅问题的多核芯片，在热约束条件下，我们需要确定合理的开启核心数量和分布，以及估计出各个核心合理的功耗预算(不超过阈值温度时能给与的最大功率)。对于目前的暗硅系统，尽管由于可靠性考虑，热约束不能改变，但可以应用一些动态优化技术来提高系统性能。例如，可以调整开启的核心的VF级别，因为VF级别和在核心上运行的任务决定了功耗，功耗不应该超过每个开启核心允许的最大功耗，以避免热紧急情况。

由于暗硅系统中存在大量潜在的开启核心分布，计算功率预算具有很大的挑战性。因此，现有的功率预算方法如TDP(Themal design power)和TSP(Themal safetypower)都必须考虑最坏的热分布情况，并计算相应悲观的功率预算来保证系统的稳定性。E.Rotem等提出了通用功率预算的TDP方法，为了保证绝对安全，TDP必须考虑暗硅系统在所有运行条件下(即不同的开启核心数和各种开启核心位置的组合)，并从所有这些情况中选择最低的功率预算作为最终的TDP功率预算。S Pagani等提出热安全功耗(Thermal SafePower,TSP)技术，相比于TDP多考虑了开启核心数目，即在有确定的开启核心分布时，TSP将根据该分布计算出最大允许功耗预算；否则，TSP将给出该开启核心数情况下，最坏开启核心分布情况下的最大允许功耗预算。H.Wang等提出一种基于贪心思想的动态功耗预算求解技术(Greedy Based Dynamic Power,GDP)，该方法通过寻找次优的核心分布以降低计算复杂度，从而快速求解功耗预算问题。但上述技术均忽视了片上网络(Network on Chip,NoC)的通信延迟问题，缺乏合理的任务映射策略来权衡暗硅系统的功率预算和通讯延迟。

上述问题总结为考虑开启核心数量与分布、核心温度传导、任务线程通信延迟的暗硅系统的功耗预算建模与任务映射问题。

发明内容

本发明针对背景技术存在的缺陷，提出了一种考虑通讯延迟与热效应的多核系统选核算法。本发明提出的技术着眼于在热设计约束下，通过考虑通讯延迟的影响，按任务的子线程选核，每次通过计算候选分布对应的功率预算与有效翻转频率，不断寻找局部最优的开启核心分布，最终取得次优解的选核算法。本发明的优化目标是找出某种开启核心分布，能够将任务映射到多核系统中，使得通信延迟时较低且功率预算较大。这种考虑通讯延迟与热效应的多核系统选核算法首先需要确定开启核心的数目及任务之间对应的通讯关系(即任务线程之间多少指令进行一次通讯)，然后按通信频率的从高到低一一进行任务映射，每一次映射时都对候选的开启核心分布依次求解该分布下的功率预算，结合对应分布下的通讯延时，求解其有效翻转频率，在所有的候选分布中选出有效翻转频率最大的开启核心分布，最后将所有的任务映射到多核系统中，求解最后的开启核心分布核对应的功率预算。

本发明的技术方案如下：

步骤一，从Hotspot中提取出二维同构多核芯片的热模型，其中包括芯片层，热介质层，散热传导层，散热层。提取出的热模型输出为信息矩阵，其中包括G电导信息矩阵、C电容电感信息矩阵、B功率输入矩阵。

步骤二，读取所有未完成映射的任务，构建任务的线程间通讯关系矩阵，包括多少指令数后相互通讯一次，不同任务的映射顺序是从高频率通讯的任务到低频率通讯的任务。

步骤三，读取单个任务间是否所有线程都完成映射，只考虑当前任务各子线程之间的相互影响，对当前要进行映射的子线程构建与已经映射的子线程的通讯矩阵，然后对当前要进行映射的子线程与已经映射的子线程构建候选核心的距离矩阵，遍历所有的候选核心，依次计算所有候选核心的功率预算，通过功率预算求解出所有候选核心对应的开启核心分布的有效时钟翻转频率，选择有效翻转频率最高的候选核心作为下一个开启核心，并更新当前已映射子线程对应的alpha数值。

步骤四，所有任务找到映射位置后，计算所有开启核心功率预算，结合映射任务的子线程的alpha数值，计算所有核心的总时钟频率，完成任务映射。

与现有技术相比，此发明的有点在于：算法同时考虑通讯延迟与热分布的均匀性，可以有效地对同构多核系统进行选核，能保障芯片工作在阈值温度下，将任务映射到核心上，提高多核系统的综合性能。

附图说明

图1为本发明中采用的二维同构多核芯片模型示意图；

图2为本发明中典型基于的NoC的暗硅系统核间通讯距离的示意图；

图3为本发明中线程映射到核心的示意图；

图4为本发明中考虑通讯延迟与热效应的多核系统选核算法的总体流程图；

图5为本发明中对任务的子线程映射的流程图。

具体实施方式

下面结合附图和实施例，详述本发明的技术方案。在本发明中所描述的实例只为一部分，不是全部适用的实例。基于本发明中的实例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实例，都属于本发明保护的范围。

图1为本发明中采用的二维同构多核芯片模型示意图。

在本发明中为了更好展示我们构建的多核系统热模型，这里将芯片层(chip)放大展示。如图1所示，这是一个25核二维同构多核暗硅芯片，图中数字为核心数的编号，方便后续进行说明，将这种芯片模型在HotSpot中画好版图并导出信息矩阵。

图2为本发明中通讯延迟的影响多核系统性能的示意图。

基于NoC的暗硅系统，以2D-Mesh的NoC拓扑结构为例，假定每个核心模块包括一个可用处理单元(PE)和一个路由单元(R)。若该系统具有个N核心，每个核心对应一个二维坐标(x,y)，且满足同构规则分布。则L_m,n表示了该片上网络或相邻路由之间的m核心与n核心的链路连接,在计算通信距离时，规定核间或者相邻路由单位距离为1，链路对应的曼哈顿距离为d(m,n)＝|x_m-x_n|+|y_m-y_n|。图中的红线表示核心m(1,1)与核心n(5,5)的通信链路，其对应的曼哈顿距离为8。

图3为本发明中线程映射到核心的示意图。

在本发明中，任务映射被定义为将应用子线程映射到不同的核心上的一一对应的过程，找到这样一组映射结果并给与映射的核心的功率预算视为算法完成。图中为三个任务的各线程映射到核心的一种结果，相同任务的子线程用相同颜色表示。

图4为本发明中考虑通讯延迟的多核系统算法的流程图。

在本发明中，采用迭代的方法每次找到一个开启核心位置。设定核心功率P＝αCef³，其中α定义为有效时钟翻转频率F_e与总时钟翻转频率F_s的比值，Ce是芯片的结构参数。稳态的功率预算由AT＝BP求解，其中A由hotspot的参数矩阵求解，T是核心的阈值温度向量，B是核心选择矩阵。由于通信延迟的存在，认为F_s＝F_e+F_c，其中F_c为用于通信的时钟频率，因此α一定是小于1的，且通信的延迟越大α会越小，但是通信延迟越大也往往意味着映射的结果越分散，功率预算也越高，因而总时钟翻转频率F_s越高。本算法的目的是寻找F_e(F_e＝αF_s)更大的映射(α，F_s是完成映射后线程对应的向量)，即有效时钟翻转频率最大的开启核心分布。

步骤1，首先读取芯片的热模型，求出对应的A矩阵；步骤二，对所有的任务进行通信量估计，并按照任务通信频次由高到低依次映射；步骤三，对任务一一进行映射，具体对任务子线程的映射方法见图5，直到所有任务都找到映射位置；步骤四，根据开启核心分布对应的alpha向量与功率预算求解对应核心的频率，至此，完成所有任务映射并给出开启核心的频率上限。

图5为本发明中对任务的子线程映射的流程图。

对任务子线程进行一一映射，例如，存在一个任务有两个相互通信的子线程，在映射完A线程后，进入判断当前任务是否完成，然后，开始对B线程进行映射。

步骤一，构建AB之间的通讯频次矩阵M，代表完成多少指令数进行一次通讯,τ定义单位曼哈顿距离单次通讯造成的延迟；步骤二，对距离关系矩阵进行构建，每一个B线程的候选核心于A线程都对应一个曼哈顿距离；步骤三，根据候选核心分布求解对应的功率预算；步骤四，通过通讯关系与功率预算，通过求解方程组得到一组F_s与各候选分布对应的α，即可求出各候选分布对应的有效翻转频率并记录；步骤五，找出所有候选核心中αF_s最大的位置作为B线程的映射位置。至此完成了示例中单个任务的子线程的映射，如果需要映射多个子线程，重复上述示例的步骤直至映射完任务的所有子线程。从有效翻转频率的角度看，实验结果符合原有假设，且该算法对比原有问题的解法有显著提升。

本发明设计了一种考虑通讯延迟与热效应的多核系统选核算法，以及实例对本发明的各个算法流程都进行了详细说明，但是并不局限于此，之后依然可以对其中的技术方案进行进一步的优化，这并不会使相应技术方案的本质脱离本发明各实例技术方案的精神和范畴。

Claims

1.一种考虑通讯延迟与热效应的多核系统选核算法，其特征值在于：基于二维同构多核芯片模型，提出一种同时考虑了通讯延迟与热效应的同构多核芯片选核算法；提出了对通讯延迟与热效应的性能优化问题的模型的建立方法；同时提出基于任务映射的通讯延迟的模型；在保证热稳定性的前提下，在选核过程中运用贪婪思想对所有任务进行映射，运用通讯延迟模型计算得到局部最优解，最终求解问题。

2.根据权力要求1所述的基于二维同构多核芯片模型，提出一种同时考虑了通讯延迟与热效应的同构多核芯片选核算法，其特征在于：在保证核心不超过阈值温度的情况下，提出一种基于贪婪思想的选核算法，使得每个新开启核心都取得在考虑通讯延迟的情况下的最优解，最终完成所有任务的映射的算法。

3.根据权力要求1所述的对通讯延迟与热效应的性能优化问题的模型的建立方法，其特征在于：在保证核心不超过阈值温度的情况下，计算得到功率预算，根据任务的映射结果结合通讯延迟模型建立频率与功率的关系式，并将功率预算与频率关系式联立作为问题进行求解。

4.根据权力要求1所述的基于任务映射的通讯延迟的模型，其特征在于：根据2D-meshNoc的拓扑结构计算子线程之间的曼哈顿距离，结合任务子线程之间的通讯频率与单位曼哈顿距离的延时求解子线程不同映射下的对应的alpha的方法。

5.根据权力要求1所述的在保证热效应的前提下，在选核过程中运用贪婪思想对所有任务进行映射，运用通讯延迟模型计算得到局部最优解，最终求解问题，其特征在于：在保证系统不超过阈值温度的前提下，每步只对任务的单个子线程进行映射选核，运用通讯延迟模型计算得到当前步骤对此线程映射的最优解，即有效翻转频率最大的映射，并最终对所有任务的所有子线程都一一映射的并最终完成所有任务。