CN114490506A - 考虑通讯延迟与热效应的多核系统选核算法 - Google Patents
考虑通讯延迟与热效应的多核系统选核算法 Download PDFInfo
- Publication number
- CN114490506A CN114490506A CN202210074492.3A CN202210074492A CN114490506A CN 114490506 A CN114490506 A CN 114490506A CN 202210074492 A CN202210074492 A CN 202210074492A CN 114490506 A CN114490506 A CN 114490506A
- Authority
- CN
- China
- Prior art keywords
- core
- communication delay
- kernel
- chip
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
- G06F15/7825—Globally asynchronous, locally synchronous, e.g. network on chip
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明属于电子设计自动化领域,提出一种考虑通讯延迟的多核系统选核算法。本发明对二维同构多核芯片进行芯片热建模,相较于传统的芯片模型,这里主要使用2D‑mesh Noc架构芯片。本发明设计的技术方案可以有效的在多核暗硅芯片系统中进行选核,提升芯片性能并保证芯片可靠性与较低通讯延时。对于选核算法的计算过程,首先计算出候选核心的功率预算,然后构建候选核心与已选核心的通讯频次,通讯距离矩阵,计算当前候选核心对应的alpha向量,最后求解候选核心对应的有效翻转频率,选择有效翻转频率最大的候选核心作为下一个开启核心,最后重复上述过程直至所有任务都找到能映射的核心,并匹配核心的频率。本发明提出的多核系统的选核算法可以对二维同构多核暗硅芯片进行有效的选核并充分提高芯片性能。
Description
技术领域
本发明属于电子设计自动化领域,涉及一种考虑通讯延迟与热效应的多核系统选核算法。
背景技术
由于登纳德缩放(Dennard Scaling)定律的失效,功率密度开始随集成密度上升,导致了集成电路中存在严重的热相关问题。因此,多核芯片核心必须部分关闭以防止可能的过热和永久损坏,这种现象被称为暗硅(Dark Silicon)。对于存在暗硅问题的多核芯片,在热约束条件下,我们需要确定合理的开启核心数量和分布,以及估计出各个核心合理的功耗预算(不超过阈值温度时能给与的最大功率)。对于目前的暗硅系统,尽管由于可靠性考虑,热约束不能改变,但可以应用一些动态优化技术来提高系统性能。例如,可以调整开启的核心的VF级别,因为VF级别和在核心上运行的任务决定了功耗,功耗不应该超过每个开启核心允许的最大功耗,以避免热紧急情况。
由于暗硅系统中存在大量潜在的开启核心分布,计算功率预算具有很大的挑战性。因此,现有的功率预算方法如TDP(Themal design power)和TSP(Themal safetypower)都必须考虑最坏的热分布情况,并计算相应悲观的功率预算来保证系统的稳定性。E.Rotem等提出了通用功率预算的TDP方法,为了保证绝对安全,TDP必须考虑暗硅系统在所有运行条件下(即不同的开启核心数和各种开启核心位置的组合),并从所有这些情况中选择最低的功率预算作为最终的TDP功率预算。S Pagani等提出热安全功耗(Thermal SafePower,TSP)技术,相比于TDP多考虑了开启核心数目,即在有确定的开启核心分布时,TSP将根据该分布计算出最大允许功耗预算;否则,TSP将给出该开启核心数情况下,最坏开启核心分布情况下的最大允许功耗预算。H.Wang等提出一种基于贪心思想的动态功耗预算求解技术(Greedy Based Dynamic Power,GDP),该方法通过寻找次优的核心分布以降低计算复杂度,从而快速求解功耗预算问题。但上述技术均忽视了片上网络(Network on Chip,NoC)的通信延迟问题,缺乏合理的任务映射策略来权衡暗硅系统的功率预算和通讯延迟。
上述问题总结为考虑开启核心数量与分布、核心温度传导、任务线程通信延迟的暗硅系统的功耗预算建模与任务映射问题。
发明内容
本发明针对背景技术存在的缺陷,提出了一种考虑通讯延迟与热效应的多核系统选核算法。本发明提出的技术着眼于在热设计约束下,通过考虑通讯延迟的影响,按任务的子线程选核,每次通过计算候选分布对应的功率预算与有效翻转频率,不断寻找局部最优的开启核心分布,最终取得次优解的选核算法。本发明的优化目标是找出某种开启核心分布,能够将任务映射到多核系统中,使得通信延迟时较低且功率预算较大。这种考虑通讯延迟与热效应的多核系统选核算法首先需要确定开启核心的数目及任务之间对应的通讯关系(即任务线程之间多少指令进行一次通讯),然后按通信频率的从高到低一一进行任务映射,每一次映射时都对候选的开启核心分布依次求解该分布下的功率预算,结合对应分布下的通讯延时,求解其有效翻转频率,在所有的候选分布中选出有效翻转频率最大的开启核心分布,最后将所有的任务映射到多核系统中,求解最后的开启核心分布核对应的功率预算。
本发明的技术方案如下:
步骤一,从Hotspot中提取出二维同构多核芯片的热模型,其中包括芯片层,热介质层,散热传导层,散热层。提取出的热模型输出为信息矩阵,其中包括G电导信息矩阵、C电容电感信息矩阵、B功率输入矩阵。
步骤二,读取所有未完成映射的任务,构建任务的线程间通讯关系矩阵,包括多少指令数后相互通讯一次,不同任务的映射顺序是从高频率通讯的任务到低频率通讯的任务。
步骤三,读取单个任务间是否所有线程都完成映射,只考虑当前任务各子线程之间的相互影响,对当前要进行映射的子线程构建与已经映射的子线程的通讯矩阵,然后对当前要进行映射的子线程与已经映射的子线程构建候选核心的距离矩阵,遍历所有的候选核心,依次计算所有候选核心的功率预算,通过功率预算求解出所有候选核心对应的开启核心分布的有效时钟翻转频率,选择有效翻转频率最高的候选核心作为下一个开启核心,并更新当前已映射子线程对应的alpha数值。
步骤四,所有任务找到映射位置后,计算所有开启核心功率预算,结合映射任务的子线程的alpha数值,计算所有核心的总时钟频率,完成任务映射。
与现有技术相比,此发明的有点在于:算法同时考虑通讯延迟与热分布的均匀性,可以有效地对同构多核系统进行选核,能保障芯片工作在阈值温度下,将任务映射到核心上,提高多核系统的综合性能。
附图说明
图1为本发明中采用的二维同构多核芯片模型示意图;
图2为本发明中典型基于的NoC的暗硅系统核间通讯距离的示意图;
图3为本发明中线程映射到核心的示意图;
图4为本发明中考虑通讯延迟与热效应的多核系统选核算法的总体流程图;
图5为本发明中对任务的子线程映射的流程图。
具体实施方式
下面结合附图和实施例,详述本发明的技术方案。在本发明中所描述的实例只为一部分,不是全部适用的实例。基于本发明中的实例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实例,都属于本发明保护的范围。
图1为本发明中采用的二维同构多核芯片模型示意图。
在本发明中为了更好展示我们构建的多核系统热模型,这里将芯片层(chip)放大展示。如图1所示,这是一个25核二维同构多核暗硅芯片,图中数字为核心数的编号,方便后续进行说明,将这种芯片模型在HotSpot中画好版图并导出信息矩阵。
图2为本发明中通讯延迟的影响多核系统性能的示意图。
基于NoC的暗硅系统,以2D-Mesh的NoC拓扑结构为例,假定每个核心模块包括一个可用处理单元(PE)和一个路由单元(R)。若该系统具有个N核心,每个核心对应一个二维坐标(x,y),且满足同构规则分布。则Lm,n表示了该片上网络或相邻路由之间的m核心与n核心的链路连接,在计算通信距离时,规定核间或者相邻路由单位距离为1,链路对应的曼哈顿距离为d(m,n)=|xm-xn|+|ym-yn|。图中的红线表示核心m(1,1)与核心n(5,5)的通信链路,其对应的曼哈顿距离为8。
图3为本发明中线程映射到核心的示意图。
在本发明中,任务映射被定义为将应用子线程映射到不同的核心上的一一对应的过程,找到这样一组映射结果并给与映射的核心的功率预算视为算法完成。图中为三个任务的各线程映射到核心的一种结果,相同任务的子线程用相同颜色表示。
图4为本发明中考虑通讯延迟的多核系统算法的流程图。
在本发明中,采用迭代的方法每次找到一个开启核心位置。设定核心功率P=αCef3,其中α定义为有效时钟翻转频率Fe与总时钟翻转频率Fs的比值,Ce是芯片的结构参数。稳态的功率预算由AT=BP求解,其中A由hotspot的参数矩阵求解,T是核心的阈值温度向量,B是核心选择矩阵。由于通信延迟的存在,认为Fs=Fe+Fc,其中Fc为用于通信的时钟频率,因此α一定是小于1的,且通信的延迟越大α会越小,但是通信延迟越大也往往意味着映射的结果越分散,功率预算也越高,因而总时钟翻转频率Fs越高。本算法的目的是寻找Fe(Fe=αFs)更大的映射(α,Fs是完成映射后线程对应的向量),即有效时钟翻转频率最大的开启核心分布。
步骤1,首先读取芯片的热模型,求出对应的A矩阵;步骤二,对所有的任务进行通信量估计,并按照任务通信频次由高到低依次映射;步骤三,对任务一一进行映射,具体对任务子线程的映射方法见图5,直到所有任务都找到映射位置;步骤四,根据开启核心分布对应的alpha向量与功率预算求解对应核心的频率,至此,完成所有任务映射并给出开启核心的频率上限。
图5为本发明中对任务的子线程映射的流程图。
对任务子线程进行一一映射,例如,存在一个任务有两个相互通信的子线程,在映射完A线程后,进入判断当前任务是否完成,然后,开始对B线程进行映射。
步骤一,构建AB之间的通讯频次矩阵M,代表完成多少指令数进行一次通讯,τ定义单位曼哈顿距离单次通讯造成的延迟;步骤二,对距离关系矩阵进行构建,每一个B线程的候选核心于A线程都对应一个曼哈顿距离;步骤三,根据候选核心分布求解对应的功率预算;步骤四,通过通讯关系与功率预算,通过求解方程组得到一组Fs与各候选分布对应的α,即可求出各候选分布对应的有效翻转频率并记录;步骤五,找出所有候选核心中αFs最大的位置作为B线程的映射位置。至此完成了示例中单个任务的子线程的映射,如果需要映射多个子线程,重复上述示例的步骤直至映射完任务的所有子线程。从有效翻转频率的角度看,实验结果符合原有假设,且该算法对比原有问题的解法有显著提升。
本发明设计了一种考虑通讯延迟与热效应的多核系统选核算法,以及实例对本发明的各个算法流程都进行了详细说明,但是并不局限于此,之后依然可以对其中的技术方案进行进一步的优化,这并不会使相应技术方案的本质脱离本发明各实例技术方案的精神和范畴。
Claims (5)
1.一种考虑通讯延迟与热效应的多核系统选核算法,其特征值在于:基于二维同构多核芯片模型,提出一种同时考虑了通讯延迟与热效应的同构多核芯片选核算法;提出了对通讯延迟与热效应的性能优化问题的模型的建立方法;同时提出基于任务映射的通讯延迟的模型;在保证热稳定性的前提下,在选核过程中运用贪婪思想对所有任务进行映射,运用通讯延迟模型计算得到局部最优解,最终求解问题。
2.根据权力要求1所述的基于二维同构多核芯片模型,提出一种同时考虑了通讯延迟与热效应的同构多核芯片选核算法,其特征在于:在保证核心不超过阈值温度的情况下,提出一种基于贪婪思想的选核算法,使得每个新开启核心都取得在考虑通讯延迟的情况下的最优解,最终完成所有任务的映射的算法。
3.根据权力要求1所述的对通讯延迟与热效应的性能优化问题的模型的建立方法,其特征在于:在保证核心不超过阈值温度的情况下,计算得到功率预算,根据任务的映射结果结合通讯延迟模型建立频率与功率的关系式,并将功率预算与频率关系式联立作为问题进行求解。
4.根据权力要求1所述的基于任务映射的通讯延迟的模型,其特征在于:根据2D-meshNoc的拓扑结构计算子线程之间的曼哈顿距离,结合任务子线程之间的通讯频率与单位曼哈顿距离的延时求解子线程不同映射下的对应的alpha的方法。
5.根据权力要求1所述的在保证热效应的前提下,在选核过程中运用贪婪思想对所有任务进行映射,运用通讯延迟模型计算得到局部最优解,最终求解问题,其特征在于:在保证系统不超过阈值温度的前提下,每步只对任务的单个子线程进行映射选核,运用通讯延迟模型计算得到当前步骤对此线程映射的最优解,即有效翻转频率最大的映射,并最终对所有任务的所有子线程都一一映射的并最终完成所有任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074492.3A CN114490506B (zh) | 2022-01-21 | 2022-01-21 | 考虑通讯延迟与热效应的多核系统选核算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074492.3A CN114490506B (zh) | 2022-01-21 | 2022-01-21 | 考虑通讯延迟与热效应的多核系统选核算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114490506A true CN114490506A (zh) | 2022-05-13 |
CN114490506B CN114490506B (zh) | 2023-07-07 |
Family
ID=81472524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210074492.3A Active CN114490506B (zh) | 2022-01-21 | 2022-01-21 | 考虑通讯延迟与热效应的多核系统选核算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490506B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118313332A (zh) * | 2024-05-30 | 2024-07-09 | 珠海凌烟阁芯片科技有限公司 | 芯片设计性能参数的相关性分析方法、装置、终端及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145388A (zh) * | 2017-05-25 | 2017-09-08 | 深信服科技股份有限公司 | 一种多任务环境下任务调度方法及系统 |
US20180183715A1 (en) * | 2016-12-26 | 2018-06-28 | Netspeed Systems, Inc. | System and method for network on chip construction through machine learning |
US10733350B1 (en) * | 2015-12-30 | 2020-08-04 | Sharat C Prasad | On-chip and system-area multi-processor interconnection networks in advanced processes for maximizing performance minimizing cost and energy |
CN112367279A (zh) * | 2020-10-30 | 2021-02-12 | 河南城建学院 | 一种基于二维mesh结构多核芯片组的路由方法及系统 |
CN112965441A (zh) * | 2021-02-01 | 2021-06-15 | 新代科技(苏州)有限公司 | 一种控制器通讯延迟补偿方法 |
CN113065229A (zh) * | 2021-03-10 | 2021-07-02 | 电子科技大学 | 一种众核暗硅芯片的实时功率预算技术 |
CN113158567A (zh) * | 2021-04-21 | 2021-07-23 | 中国人民解放军国防科技大学 | 一种液体状态机模型中通信的软硬件联合优化方法及系统 |
-
2022
- 2022-01-21 CN CN202210074492.3A patent/CN114490506B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733350B1 (en) * | 2015-12-30 | 2020-08-04 | Sharat C Prasad | On-chip and system-area multi-processor interconnection networks in advanced processes for maximizing performance minimizing cost and energy |
US20180183715A1 (en) * | 2016-12-26 | 2018-06-28 | Netspeed Systems, Inc. | System and method for network on chip construction through machine learning |
CN107145388A (zh) * | 2017-05-25 | 2017-09-08 | 深信服科技股份有限公司 | 一种多任务环境下任务调度方法及系统 |
CN112367279A (zh) * | 2020-10-30 | 2021-02-12 | 河南城建学院 | 一种基于二维mesh结构多核芯片组的路由方法及系统 |
CN112965441A (zh) * | 2021-02-01 | 2021-06-15 | 新代科技(苏州)有限公司 | 一种控制器通讯延迟补偿方法 |
CN113065229A (zh) * | 2021-03-10 | 2021-07-02 | 电子科技大学 | 一种众核暗硅芯片的实时功率预算技术 |
CN113158567A (zh) * | 2021-04-21 | 2021-07-23 | 中国人民解放军国防科技大学 | 一种液体状态机模型中通信的软硬件联合优化方法及系统 |
Non-Patent Citations (5)
Title |
---|
CHAE-EUN RHEE 等: ""Many-to-many core-switch mapping in 2-D mesh NoC architectures"", pages 1 - 6 * |
汪健 等: "多核系统中NoC通讯架构的关键技术" * |
汪健;张磊;赵忠惠;王少轩;陈亚宁;: "多核系统中NoC通讯架构的关键技术", 电子科技, vol. 25, no. 06, pages 47 - 52 * |
许川佩 等: "星型子网的NoC映射研究" * |
许川佩;陈于倩;颜晓凤;: "星型子网的NoC映射研究", 国外电子测量技术, vol. 29, no. 04, pages 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118313332A (zh) * | 2024-05-30 | 2024-07-09 | 珠海凌烟阁芯片科技有限公司 | 芯片设计性能参数的相关性分析方法、装置、终端及介质 |
CN118313332B (zh) * | 2024-05-30 | 2024-08-06 | 珠海凌烟阁芯片科技有限公司 | 芯片设计性能参数的相关性分析方法、装置、终端及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114490506B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787213B (zh) | 一种保持时间违反的修复方法 | |
US6950998B1 (en) | Place-and-route with power analysis | |
CN103916438B (zh) | 基于负载预测的云测试环境调度方法及其系统 | |
CN111914500B (zh) | 一种快速单磁通量子rsfq电路布局方法和装置 | |
CN103632001A (zh) | 基于缓冲单元复用的保持时间时序优化方法 | |
CN112651207B (zh) | 一种异步电路物理实现方法及系统 | |
CN106339350B (zh) | 众核处理器片上访存距离优化的方法及其装置 | |
CN114490506A (zh) | 考虑通讯延迟与热效应的多核系统选核算法 | |
CN106776023A (zh) | 一种自适应gpu统一染色阵列任务负载均衡方法 | |
US10860761B1 (en) | Systems and methods for enhanced clock tree power estimation at register transfer level | |
CN104992032B (zh) | 一种多电压域设计中保持时间的修正方法 | |
CN113065229A (zh) | 一种众核暗硅芯片的实时功率预算技术 | |
Kechiche et al. | Toward the Implementation of an ASIC‐Like System on FPGA for Real‐Time Video Processing with Power Reduction | |
CN111522420B (zh) | 一种基于功率预算的多核芯片动态热管理方法 | |
US10209765B2 (en) | Method for achieving low power consumption of three-dimensional measurement chip | |
Hu et al. | High-performance reconfigurable DNN accelerator on a bandwidth-limited embedded system | |
Lu et al. | Low-power clock tree synthesis for 3D-ICs | |
CN114880982A (zh) | 时钟树生成方法、装置、设备、存储介质和芯片 | |
CN103500284A (zh) | 一种片上供电网络无向量验证方法及验证系统 | |
WO2020233052A1 (zh) | 智能化路径规划方法、装置、设备及存储介质 | |
Hong et al. | Thermal-aware dynamic voltage frequency scaling for many-core processors under process variations | |
CN113360450B (zh) | 一种基于片上网络的构造启发式映射方法 | |
Chen et al. | Clock tree construction using gated clock cloning | |
CN117807950B (zh) | 一种考虑模块对称性的布图规划方法、系统及电子设备 | |
Luo et al. | A novel ant colony optimization based temperature-aware floorplanning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |