CN117827466A - 一种多核芯片的动态温度管理方法及系统 - Google Patents
一种多核芯片的动态温度管理方法及系统 Download PDFInfo
- Publication number
- CN117827466A CN117827466A CN202410240445.0A CN202410240445A CN117827466A CN 117827466 A CN117827466 A CN 117827466A CN 202410240445 A CN202410240445 A CN 202410240445A CN 117827466 A CN117827466 A CN 117827466A
- Authority
- CN
- China
- Prior art keywords
- temperature
- control
- sequence
- time
- current limiting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 37
- 230000015654 memory Effects 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000006403 short-term memory Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000013021 overheating Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002076 thermal analysis method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Feedback Control In General (AREA)
Abstract
本申请公开了一种多核芯片的动态温度管理方法及系统,属于芯片温度控制技术领域,包括:构建基于多层长短时记忆网络的温度预测模型,接收当前节点的温度数据和限流控制数据作为时序输入,输出不同限流等级下对应的多步温度预测结果;建立温度控制模型,将多步温度预测结果与表示安全温度上限的预设阈值逐步进行比较,形成温度约束控制目标;根据温度预测模型和温度控制模型,生成限流控制指令;根据所生成的限流控制指令,在预设的多级限流方案中选择匹配的路由器端口参数组合,以对连接于所述路由器的多核处理器核心进行对应粒度的数据包限流,从而控制芯片温度。针对现有技术中多核芯片存在温度过高的问题,有效控制芯片温度的上升。
Description
技术领域
本申请涉及芯片温度控制技术领域,更具体地说,涉及一种多核芯片的动态温度管理方法及系统。
背景技术
随着集成电路技术的发展,芯片向多核架构演进,而多核芯片因集成度高而存在严重的热问题。尤其在三维芯片中,多核之间距离缩短,但堆叠带来的更高功率密度使热问题更为复杂。如果温度过高会降低芯片性能并导致失效。因此,多核芯片急需有效的动态温度管理方法来控制芯片温度。
现有的动态温度管理方法存在缺陷:被动方法仅当测量温度超过阈值时才执行控制,对热点问题缺乏预见性;而主动方法中的温度预测不够精确,且温度预测与控制没有很好结合,无法实现最优决策。因此,设计一种温度预测模型与控制模型紧密结合的主动温度管理方法,进行优化控制以解决热点问题且减少性能损失,对多核芯片的可靠运行至关重要。
中国专利申请,申请号CN202111043131.4,公开日2021年12月7日,公开了一种基于长短时记忆神经网络的三维多核芯片温度预测方法及系统,其中所述方法采用的模型通过长短时记忆神经网络层与全连接层相结合实现,其中长短时记忆神经网络层接收历史温度信息作为输入;全连接层输出多个时间长度后的预测温度信息。本发明提出的方法可为多核芯片中动态温度管理模型提供时间与空间的热分析:即预测节点的温度变化和三维多核芯片的温度分布。但是该方案温度预测仅考虑了历史温度信息,存在多核芯片温度过高的问题。
发明内容
1.要解决的技术问题
针对现有技术中存在的多核芯片存在温度过高的问题,本申请提供了一种多核芯片的动态温度管理方法及系统,通过构建温度预测模型与温度控制模型,生成温度约束条件,求解控制序列,产生限流控制指令,并根据该指令对芯片核心进行细粒度的数据包限流,从而有效控制芯片温度的上升。
2.技术方案
本申请的目的通过以下技术方案实现。
本说明书实施例的一个方面提供一种多核芯片的动态温度管理方法,包括:构建基于多层长短时记忆网络的温度预测模型,接收当前节点的温度数据和限流控制数据作为时序输入,输出不同限流等级下对应的多步温度预测结果;建立温度控制模型,将温度预测模型在同一限流等级下输出的多步温度预测结果,与表示安全温度上限的预设阈值逐步进行比较,形成温度约束控制目标;根据温度预测模型和温度控制模型,生成限流控制指令;根据所生成的限流控制指令,在预设的多级限流方案中选择匹配的路由器端口参数组合,以对连接于所述路由器的多核处理器核心进行对应粒度的数据包限流,从而控制芯片温度;其中,限流控制指令由限流强度和限流持续时间两个参数组成;限流强度由端口队列缓存大小确定;限流持续时间由端口数据包发送比特率确定。
进一步的,温度预测模型具体采用多层长短时记忆网络构建;所述网络的输入层接收当前节点的温度采样数据和限流控制数据;网络的隐藏层采用多层LSTM结构,通过时间展开连接,提取温度序列和限流控制之间的时序关联特征;网络的输出层输出不同限流控制条件下对应的多步温度预测结果;其中,温度数据和限流控制数据按时间顺序构成二维序列输入;
进一步的,生成控制指令,包括:接收温度预测模型输出的多步温度预测结果;将接收的多步温度预测结果,与表示安全温度上限的预设阈值逐步进行比较,形成温度约束条件;设置包含温度惩罚项和控制增量惩罚项的目标函数;采用设置的目标函数求解温度约束条件的控制序列;根据控制序列,输出限流控制指令。
进一步的,多步温度预测结果,包括:采用长短时记忆网络作为温度预测模型的单步长预测器;将时刻k的输入温度序列Tk和控制序列Uk输入单步长预测器;输出时刻k+1的预测温度Tk+1;将预测温度Tk+1作为时刻k+1的输入温度,依次迭代单步预测得到多步温度预测结果。
进一步的,单步长预测温度,包括:输入时刻k的温度序列Tk和控制序列Uk到长短时记忆网络;按函数LSTM计算,并输出时刻k+1的预测温度Tk+1:
其中是输入温度序列,/>是输入控制序列,/>和/>都表示k+1时刻的预测温度;并且将长短时记忆神经网络抽象为函数/>;将k+1时刻的预测温度/>视为k+1时刻的真实温度,并更新k+1时刻的输入温度序列如下:
进一步的,两步长预测温度,包括:将时刻k预测得到的预测温度Tk+1作为时刻k+1的输入温度;重复单步长预测的计算,得到两步长预测温度Tk+2:
进一步的,目标函数表达式如下:
其中,为预测控制步长,/>是/>时刻的控制动作变化量,/>是k+i时刻的预测温度,/>和/>分别对应k+i时刻的温度加权系数和控制加权系数,/>为步长的折扣因子。
进一步的,温度控制模型采用期望的温度状态序列作为预测控制中的参考序列;
触发温度采用期望的温度状态序列/>
进一步的,通过最小化目标函数获取最佳的控制序列;
最小化目标函数通过如下公式计算:
本说明书实施例的另一个方面还提供一种多核芯片的动态温度管理系统,用于执行本申请的一种多核芯片的动态温度管理方法。
3.有益效果
相比于现有技术,本申请的优点在于:
通过多层长短时记忆网络构建的温度预测模型,能够准确预测多核芯片在不同限流控制条件下的多步温度变化,为及时采取控制措施提供了可靠依据;
利用温度预测模型输出的多步温度预测结果,与安全温度上限进行逐步比较,形成温度约束控制目标。这有效提高了对温度控制的精度,防止芯片超温发生;
通过生成限流控制指令,该方法考虑了限流强度和持续时间两个关键参数。限流强度由端口队列缓存大小确定,而持续时间由端口数据包发送比特率决定,从而实现对限流操作的智能化管理;
利用生成的限流控制指令,在预设的多级限流方案中选择合适的路由器端口参数组合,对连接于路由器的多核处理器核心进行细粒度的数据包限流。这有助于在不影响性能的前提下,有效地控制芯片温度;
通过动态温度管理方法,系统能够在多核芯片高负载情境下保持温度在安全范围内,从而提高系统稳定性和性能,防止因过热导致的性能下降和不稳定操作。
附图说明
图1为本申请面向三维片上网络多核芯片的主动式动态温度管理单元的架构图;
图2为本申请限流感知的神经网络温度预测器的结构图;
图3为本申请基于模型预测控制方法的温度控制器的结构图;
图4为本申请中三维片上网络多核系统结构图;
图5为本申请方法与对比方法的系统吞吐率对比图。
具体实施方式
下面结合说明书附图和具体的实施例,对本申请作详细描述。
实施例1
图1为本申请面向三维片上网络多核芯片的主动式动态温度管理单元的架构图,本申请提出一种面向三维多核芯片的主动动态温度管理单元,其整体框架包括限流感知的神经网络温度预测器、基于模型预测控制的温度控制器和细粒度的限流执行策略三个关键组成部分,通过三部分的深度融合与配合,实现对三维芯片的智能温度预测、最优温控决策和平稳执行控制,有效解决芯片的热挑战。限流感知的神经网络温度预测器,所述模块利用序列连接的LSTM网络,输入为温度读数和限流信息的二维时间序列,输出对未来多个时刻温度的预测。所述结构增强了对温控过程中的温度动态变化的建模与预测能力。基于模型预测控制的温度控制器,所述模块包含优化模型和优化器两部分。优化模型定义了考虑温度与性能的优化目标;优化器根据温度预测,遍历所有可能的控制策略,选择使优化目标达到最优的控制决策。细粒度的限流执行策略,所述模块提供多个细粒度的限流级别,接收控制器的限流决策,并平稳连续地执行不同程度的限流,实际调节芯片的温度。三个模块通过温度、限流信息的交互实现无缝连接:执行器的限流反馈到预测器的输入,提高预测精度;预测器输出温度预测到控制器进行决策;控制器决策传到执行器实施控制。所述设计有效提升了温度预测精度,使温控决策更加智能优化,执行更加平稳连续,能够在控制温度的同时最大程度地保持芯片性能,有效解决芯片的热问题,达到更优的温控与性能效果。
本申请将三维片上网络多核系统的工作分为普通运行阶段和重配置阶段两个阶段。普通运行阶段,在所述阶段,三维芯片系统正常运行计算任务,而温控单元不进行新的温控决策。所述阶段避免温控计算开销影响系统正常运行。重配置阶段,当普通运行阶段结束后,系统进入重配置阶段。所述阶段中的流程如下:温度传感器获取当前各节点的温度读数;根据当前温度更新温度历史缓存;温控单元的温度预测器、控制器和优化器进行工作,计算出新的温控决策;将新的温控决策广播发送到每个节点;每个节点根据收到的决策配置本地的限流策略。当重配置阶段结束,新的温控决策配置完成后,系统重新进入普通运行阶段。这样的两阶段交互方式,将复杂的温控计算限制在重配置阶段,避免影响系统的正常运行性能,使温控决策和执行更加高效。
重配置阶段开始时,三维芯片系统中的每个节点上的温度传感器获取所述节点的当前温度值。将每个节点获取到的当前温度与历史温度记录一起保存到温度历史缓冲区,为温度预测提供数据支撑。获取当前温度后,开启基于模型预测控制的温度控制器中的温控决策计算过程。温度控制器中的温度预测器模块加载温度历史缓冲区的信息,经过LSTM网络计算,预测出从当前时刻开始多个未来时刻的温度。温度控制器中的优化器模块将温度预测结果输入到优化模型中,遍历所有可能的控制命令,选择能达到优化目标的最优限流控制命令。优化器模块输出获得的最优限流控制命令,所述命令将在稍后执行限流以降低温度。温度预测器和优化器会迭代多轮计算,使温控决策迭代优化,逐步接近全局最优解。最终确定的温控决策会广播发送到每个节点,待进入执行阶段后,各节点根据决策执行限流。
在重配置阶段,温控单元的温度控制器模块经过优化计算,生成每个节点的最优限流控制动作。每个节点的温控单元会将计算得到的限流控制动作发送到一个中心控制节点。中心控制节点收集每个节点发送的限流控制信息,聚合形成一个包含全网所有节点控制动作的限流决策包。中心控制节点利用三维片上网络的广播通信能力,将限流决策包发送给全网所有节点。每个节点都会接收到中心节点广播的限流决策包,获得全网所有节点的控制信息。每个节点在决策包中检索出与自己对应的限流控制动作。至此,全网各节点获得了一个同步的限流控制决策,为后续执行阶段的开展做好了准备。每个节点将获得的限流控制动作保存到本地,待进入执行阶段后按照所述决策限流。这样通过广播通信和节点自主提取的方式实现全网节点对温控决策的高效同步。
当重配置阶段结束后,三维芯片系统进入普通运行阶段。每个节点读取在重配置阶段储存的限流控制动作。根据控制动作,每个节点针对其上的路由器芯片进行细粒度限流。限流策略提供多个级别,平稳调节流量。执行不同级别的限流,降低流经热点节点的流量,释放节点压力。通过限流降低热点节点的负载,使其计算和通信压力减小。负载降低导致热点节点的温升速度变缓,温度得到调节。不同粒度的限流平稳调节温度,避免系统性能剧烈波动。执行阶段的温度变化又反馈到下个重配置阶段,形成闭环控制。这样通过细粒度限流的平稳执行,达到控制温度的同时保持系统性能的效果。
本设计包括三个主要组成部分:限流感知的神经网络温度预测器,基于模型预测控制的温度控制器,细粒度限流执行策略。三个部分通过温度和限流信息的交互实现无缝连接:执行策略输出的限流等级作为预测器的输入,预测器输出的温度预测传递到控制器,控制器决策的限流等级反馈到执行策略。执行策略提供多个细粒度的限流等级,平稳连续地调节流量。预测器利用限流等级作为附加输入,提高不同限流下温度预测的精度。控制器根据不同限流下的温度预测,输出最优的限流控制等级。三者联合设计,相互协同,实现整体系统的温控决策和执行的优化。使温控更加智能、精确和平稳,在控制温度的同时最大限度保持系统性能。
温度预测器模块嵌入在基于模型预测控制的温度控制器中。温度控制器中的优化器模块与温度预测器进行交互。两模块之间形成循环迭代过程。优化器传入不同限流等级到预测器。预测器基于不同限流等级,生成对应的温度预测。预测结果反馈传回优化器。优化器根据预测结果判断最优限流等级。优化器输出限流等级,作为最终控制动作。重复上述循环,逐步逼近全局最优解。预测器与优化器的协同迭代,生成了更优的温控决策。这样通过两模块的紧密迭代,实现了精准的温度预测及其在最优控制决策中的有效利用。
图2为本申请限流感知的神经网络温度预测器的结构图,预测器使用串联的LSTM网络,最后接一全连接层,如图2所示。包含N个顺序连接的LSTM模块,用于提取时间序列特征。有M个神经元的全连接层,进行温度预测计算。LSTM的隐层和全连接层大小一致,均为M。输入为二维时间序列,包含温度和限流信息。LSTM模块捕捉时间序列的长期依赖。限流信息增强对温控过程的建模。LSTM分析输入时间序列,提取温度变化的特征。全连接层根据特征,输出多步温度的预测。LSTM和全连接层联合建立一个协同的温度预测模型。其中,预测器的输入序列是一个包含温度信息和限流信息/>的二维序列/>。
进一步的,温度预测器网络中的两个关键参数:输入序列长度N,全连接层大小M;这两个参数决定了网络的建模能力与计算复杂度。通过大量实验,选择了合适的组合:N=6,M=64;N=6,输入包含过去6个时刻的温度和限流数据,保证有效的时间相关性建模。M=64,网络层宽度为64,提供良好的温度特征学习表达。所述参数组合使预测器在性能和计算开销之间取得最优平衡。预测温度更加准确。预测计算量适中,不会太慢。通过综合考量性能和效率,选择了最优的参数设置。使温度预测既精确又高效。
进一步的,如图2所示,温度预测器按照时序单步预测温度,在单步预测的基础上,实现多步温度预测。将前一时刻的预测温度作为后一时刻的输入,迭代进行多步预测。持续递归,即可实现任意多步预测。每一步预测复用同一个LSTM模型,避免重复训练。在单步模型的基础上,扩展为多步模型,提高预测视角。迭代预测保证足够的历史输入,维持预测精度。可根据控制需要,生成不同未来时刻的温度预测。首先单步长预测温度的过程如下:
其中:是输入温度序列,是输入控制序列,/>和/>都表示k+1时刻的预测温度。并且本申请将长短时记忆神经网络抽象为函数/>。进一步,将k+1时刻的预测温度/>视为k+1时刻的真实温度,并更新k+1时刻的输入温度序列如下:
类似于单步长的温度预测步骤,本申请就得到两步长的温度预测器:
持续将预测温度假定为真实温度,并且迭代预测,本申请实现任意多步长的温度预测。
图3为本申请基于模型预测控制方法的温度控制器的结构图,如图3所示,温度控制器采用模型预测控制框架。定义温度的参考序列为触发温度。即期望的温度状态序列,为图3中的触发温度/>。设计新的模型预测控制优化目标函数,优化目标综合考虑了跟踪触发温度、系统性能和控制平稳三个目标。求解优化问题,决定最优的控制策略。迫使预测温度追踪触发温度。防止过度限流损害系统性能。使控制量变化平稳。所述模型预测控制器实现温控与性能的综合调度。
目标函数如下:
其中为预测控制步长,/>是/>时刻的控制动作变化量,/>是k+i时刻的预测温度,/>和/>分别对应k+i时刻的温度加权系数和控制加权系数,/>为步长的折扣因子。所述目标目标函数主要体现了三个主要控制目标:一是控制温度的上升,防止温度过高超过触发温度;二是要求系统在有负载任务时温度不能过低,防止温度控制策略过度损害系统性能;三是要求前后时刻的温控动作的变化幅度不要过于剧烈。此外温度加权系数和控制加权系数体现了本申请对以上目标不同的重视程度,步长的折扣因子体现了时间更近的动作具有更重要的作用。加权系数和折扣因子都为设置的超参数,本申请通过实验微调的方式确定了其最佳的取值。
进一步的,给出优化目标函数之后,提出的基于模型预测控制方法的温度控制器的目标抽象为产生最佳的控制动作序列来最小化所述目标目标函数,如下所示:在线性系统的模型预测控制模型中,通过动态矩阵控制算法计算得到关于优化目标函数的最优解。但是使用的限流感知的神经网络温度预测器的本质是一个复杂的非线性函数,一般无法求出一个控制域内的最优解。因此在图3中,本申请提出了一种优化器设计,并且在提出的基于模型预测控制方法的温度控制器中,优化器能和温度预测器不断循环迭代产生一个控制序列的最优解。
在第二个组成部分中,提出的基于模型预测控制方法的温度控制器中的优化器流程如下,其主要目的是根据上一次尝试的控制序列及其预测温度输出序列来修改更新本次尝试的控制序列。首先优化器获取上一次尝试的控制序列及其对应的预测温度序列,并初始化算法结束标志位。接着,按照时刻由近及远的顺序遍历预测温度序列,如果所述时刻的预测温度序列大于触发温度,则提高一次所述时刻对应的控制动作的限流等级,并结束遍历。然后更新优化器结束标志位,只有每一步长对应的预测温度小于触发温度或者对应的控制输出已经到达了最高等级,整个遍历过程才会结束。最后优化器输出新的控制序列和算法结束标志位。
在第二个组成部分中提出的基于模型预测控制方法的温度控制器的整体工作流程如下。首先初始化算法结束标志位、预测控制序列和控制序列。初始的控制序列都为限流等级0。片上网络节点温度传感器测量到当前温度后会更新历史温度缓冲器中的历史温度信息和历史控制信息,并开始这一传感采样时刻的控制策略选择。接着,针对初始的控制序列得到三个变量:一是初始控制序列下由限流感知的神经网络温度预测器得到的预测温度序列,二是初始控制序列下计算得到的目标目标函数的cost值,三是控制序列的第一个控制值所代表的当前采样时刻的限流控制等级。然后,进行预测器和优化器循环迭代生成最优控制序列的过程:优化器依据控制序列下得到的未来温度序列,优化更新产生新的控制序列,并检测所有可能的遍历是否已经结束,能否进行控制输出。预测器再根据优化的控制序列输入得到未来温度序列,同时计算所述控制序列的cost值,进行cost值与输出限流等级的更新,保留cost值更低的输出限流等级。优化器和预测其会重复上述过程,直到所有需要遍历的控制输入都已检测完成,及算法结束标志位为1。并最终输出使目标目标函数cost值最小的那个控制序列的第一个控制量,作为本时刻将要执行的限流等级。
图4为本申请中三维片上网络多核系统结构图,在第三个组成部分中,提出的细粒度的限流执行策略如图4所示,其综合考虑温度控制性能和优化探索开销的平衡,设置了四个限流执行等级,其具体实现方式为设置片上网络路由器输入输出端口的动态电压频率调节比例,使限流等级0到3对应的核心数据包限流比例为0%,78.2%,89.3%,100%。所述设置下的数据包限流比例能使四个限流等级下核心温度的降低分布更为均匀。
面向三维多核芯片的高效温度管理问题,本实施例在一个周期精确的三维片上网络多核系统仿真器中实现了提出的一种主动动态温度管理单元联合设计,具体包括三个主要组成部分:限流感知的神经网络温度预测器;基于模型预测控制方法的温度控制器;细粒度的限流执行策略。
三维片上网络多核系统平台实现了一个的网格拓扑结构的三维片上网络,运行频率为1GHz,如图4所示。多核系统平台中每个核心上都部署了一个温度传感器,传感器采样周期为1000万个时钟周期,即采样周期为10ms。多核系统平台中每个核心包括一个浮点数乘累加运算单元、存储模块和一个路由器模块。所述三维片上网络采用虫孔流控制策略和虚拟通道,并且采用了轮转仲裁策略。
本实施例中的主动动态温度管理单元框架使整个三维片上网络多核系统分为普通运行阶段和重配置阶段,并且三维片上网络多核系统的每个核心都包含一个温度控制器。在重配置阶段开始时温度传感器获取当前节点温度,并更新历史温度缓冲区,然后开启模型预测控制方法温度控制器,通过温度预测器和优化器的循环迭代优化,输出最优限流控制动作。接着,各个节点的限流控制动作通过片上网络进行广播和同步。然后,细粒度限流执行机制在三维片上网络多核系统进入普通运行阶段后,根据限流控制动作进行核心路由器限流,使局部热点负载压力降低,进而调节其温度。
本实施例在三维片上网络中的均匀随机流量模式,和向下-横向自适应确定性路由算法下和被动式温度管理方法(Reactive Dynamic Thermal Management,RDTM)、细粒度被动式温度管理方法、(Fine-Grained RDTM,FGR)、基于自回归滑动平均(Auto RegressiveMoving Average,ARMA)预测器的主动式温度管理方法和基于人工神经网络(ArtificialNeural Network,ANN)预测器的主动式温度管理方法进行对比。实验的数据包注入率为0.01,单位是每时钟周期向每个节点注入的数据包的数量。实验将应用上述方法下的系统最高温度限制在相同的阈值温度一下(94摄氏度),同时比较应用不同方法下的系统吞吐率的不同。
图5为本申请方法与对比方法的系统吞吐率对比图,实验结果如图5所示,横坐标表示不同的测试场景,纵坐标表示系统吞吐率。从结果可以看出,本申请的方法相比两种对比方法,在各个场景下的系统吞吐率指标均有提升。本申请方法在保证温度控制效果的前提下,吞吐率平均提升7.76%。这表示在相同执行时间内,本申请方法可以执行7.76%更多的任务,或对于执行相同数目任务,总的执行时间减少7.76%。,本申请方法在保证温度控制效果的前提下,吞吐率平均提升7.76%。这表示在相同执行时间内,本申请方法可以执行7.76%更多的任务,或对于执行相同数目任务,总的执行时间减少7.76%。本申请方法通过温度预测模型与控制模型协同工作,实现主动式温度管理,可以在更少影响性能的前提下有效控制温度。综上所述,实验结果证明本申请方法可以在保证温度控制的前提下,降低对系统性能的影响,提升系统吞吐率,即缩短多核芯片的总执行时间。
以上示意性地对本申请创造及其实施方式进行了描述,所述描述没有限制性,在不背离本申请的精神或者基本特征的情况下,能够以其他的具体形式实现本申请。附图中所示的也只是本申请创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与所述技术方案相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”所述元件。产品权利要求中陈述的多个元件也由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种多核芯片的动态温度管理方法,包括:
构建基于多层长短时记忆网络的温度预测模型,接收当前节点的温度数据和限流控制数据作为时序输入,输出不同限流等级下对应的多步温度预测结果;
建立温度控制模型,将温度预测模型在同一限流等级下输出的多步温度预测结果,与表示安全温度上限的预设阈值逐步进行比较,形成温度约束控制目标;
根据温度预测模型和温度控制模型,生成限流控制指令;
根据所生成的限流控制指令,在预设的多级限流方案中选择匹配的路由器端口参数组合,以对连接于所述路由器的多核处理器核心进行对应粒度的数据包限流,从而控制芯片温度;
其中,限流控制指令由限流强度和限流持续时间两个参数组成;限流强度由端口队列缓存大小确定;限流持续时间由端口数据包发送比特率确定。
2.根据权利要求1所述的多核芯片的动态温度管理方法,其特征在于:
温度预测模型具体采用多层长短时记忆网络构建;
所述网络的输入层接收当前节点的温度采样数据和限流控制数据;
网络的隐藏层采用多层LSTM结构,通过时间展开连接,提取温度序列和限流控制之间的时序关联特征;
网络的输出层输出不同限流控制条件下对应的多步温度预测结果;
其中,温度数据和限流控制数据按时间顺序构成二维序列输入。
3.根据权利要求2所述的多核芯片的动态温度管理方法,其特征在于:
生成控制指令,包括:
接收温度预测模型输出的多步温度预测结果;
将接收的多步温度预测结果,与表示安全温度上限的预设阈值逐步进行比较,形成温度约束条件;
设置包含温度惩罚项和控制增量惩罚项的目标函数;
采用设置的目标函数求解温度约束条件的控制序列;
根据控制序列,输出限流控制指令。
4.根据权利要求3所述的多核芯片的动态温度管理方法,其特征在于:
多步温度预测结果,包括:
采用长短时记忆网络作为温度预测模型的单步长预测器;
将时刻k的输入温度序列Tk和控制序列Uk输入单步长预测器;
输出时刻k+1的预测温度Tk+1;
将预测温度Tk+1作为时刻k+1的输入温度,依次迭代单步预测得到多步温度预测结果。
5.根据权利要求4所述的多核芯片的动态温度管理方法,其特征在于:
单步长预测温度,包括:输入时刻k的温度序列Tk和控制序列Uk到长短时记忆网络;按函数LSTM计算,并输出时刻k+1的预测温度Tk+1:
其中是输入温度序列,/>是输入控制序列,/>和/>都表示k+1时刻的预测温度;并且将长短时记忆神经网络抽象为函数/>;将k+1时刻的预测温度/>视为k+1时刻的真实温度,并更新k+1时刻的输入温度序列如下:
其中,表示时刻k+1的真实温度。
6.根据权利要求5所述的多核芯片的动态温度管理方法,其特征在于:
两步长预测温度,包括:将时刻k预测得到的预测温度Tk+1作为时刻k+1的输入温度;重复单步长预测的计算,得到两步长预测温度Tk+2:
其中,表示长短时记忆神经网络函数。
7.根据权利要求6所述的多核芯片的动态温度管理方法,其特征在于:
目标函数表达式如下:
其中,为预测控制步长,/>是/>时刻的控制动作变化量,/>是k+i时刻的预测温度,/>和/>分别对应k+i时刻的温度加权系数和控制加权系数,/>为步长的折扣因子。
8.根据权利要求7所述的多核芯片的动态温度管理方法,其特征在于:
温度控制模型采用期望的温度状态序列作为预测控制中的参考序列;
触发温度采用期望的温度状态序列/>。
9.根据权利要求8所述的多核芯片的动态温度管理方法,其特征在于:
通过最小化目标函数获取最佳的控制序列;
最小化目标函数通过如下公式计算:
其中,t(k)时刻k的真实温度。
10.一种多核芯片的动态温度管理系统,用于执行权利要求1至9任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410240445.0A CN117827466B (zh) | 2024-03-04 | 2024-03-04 | 一种多核芯片的动态温度管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410240445.0A CN117827466B (zh) | 2024-03-04 | 2024-03-04 | 一种多核芯片的动态温度管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117827466A true CN117827466A (zh) | 2024-04-05 |
CN117827466B CN117827466B (zh) | 2024-06-11 |
Family
ID=90509843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410240445.0A Active CN117827466B (zh) | 2024-03-04 | 2024-03-04 | 一种多核芯片的动态温度管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117827466B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200042221A (ko) * | 2018-10-15 | 2020-04-23 | 중앙대학교 산학협력단 | 모바일 단말 장치 내의 프로세서의 전력을 관리하는 장치 및 방법 |
US20200192705A1 (en) * | 2018-12-14 | 2020-06-18 | Advanced Micro Devices, Inc. | Apparatus and method for providing workload distribution of threads among multiple compute units |
CN113760660A (zh) * | 2021-09-07 | 2021-12-07 | 南京大学 | 一种基于长短时记忆神经网络的三维多核芯片温度预测方法及系统 |
CN115096476A (zh) * | 2022-06-23 | 2022-09-23 | 浙大城市学院 | 基于Lstm神经网络的温度传感器测试系统的工作方法 |
CN116307746A (zh) * | 2021-12-17 | 2023-06-23 | 广东电网有限责任公司广州供电局 | 基于分时体感温度相关性的lstm配变负荷预测实现方法 |
CN117074925A (zh) * | 2023-10-16 | 2023-11-17 | 中诚华隆计算机技术有限公司 | 一种3d芯片测试分析方法和系统 |
CN117193500A (zh) * | 2023-09-28 | 2023-12-08 | 苏州元脑智能科技有限公司 | 基于lstm的服务器动态管理方法、系统、终端及存储介质 |
-
2024
- 2024-03-04 CN CN202410240445.0A patent/CN117827466B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200042221A (ko) * | 2018-10-15 | 2020-04-23 | 중앙대학교 산학협력단 | 모바일 단말 장치 내의 프로세서의 전력을 관리하는 장치 및 방법 |
US20200192705A1 (en) * | 2018-12-14 | 2020-06-18 | Advanced Micro Devices, Inc. | Apparatus and method for providing workload distribution of threads among multiple compute units |
CN113760660A (zh) * | 2021-09-07 | 2021-12-07 | 南京大学 | 一种基于长短时记忆神经网络的三维多核芯片温度预测方法及系统 |
CN116307746A (zh) * | 2021-12-17 | 2023-06-23 | 广东电网有限责任公司广州供电局 | 基于分时体感温度相关性的lstm配变负荷预测实现方法 |
CN115096476A (zh) * | 2022-06-23 | 2022-09-23 | 浙大城市学院 | 基于Lstm神经网络的温度传感器测试系统的工作方法 |
CN117193500A (zh) * | 2023-09-28 | 2023-12-08 | 苏州元脑智能科技有限公司 | 基于lstm的服务器动态管理方法、系统、终端及存储介质 |
CN117074925A (zh) * | 2023-10-16 | 2023-11-17 | 中诚华隆计算机技术有限公司 | 一种3d芯片测试分析方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117827466B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108964042A (zh) | 基于深度q网络的区域电网运行点调度优化方法 | |
CN108650131B (zh) | 用于sdn网络中多控制器部署的处理系统 | |
Zhao et al. | Improved predictive control approach to networked control systems | |
Selvakumaran et al. | Optimal decentralized load frequency control in a parallel AC-DC interconnected power system through HVDC link using PSO algorithm | |
Yong | An improved artificial fish swarm algorithm for optimal operation of cascade reservoirs | |
CN111553469A (zh) | 一种无线传感器网络数据融合方法、装置和存储介质 | |
CN109725537A (zh) | 一种改进的线性最优半主动控制方法 | |
Sum-im | Economic dispatch by ant colony search algorithm | |
CN109408039A (zh) | 一种科技资源服务构件的优化配置方法 | |
CN112422699A (zh) | 一种基于动态调整的无人机集群行动方案生成方法 | |
Shi et al. | Adaptive output-feedback optimal control for continuous-time linear systems based on adaptive dynamic programming approach | |
JP2008271750A (ja) | 電力系統の電圧無効電力制御方法及び装置並びにプログラム | |
CN116627241A (zh) | 一种优化服务器能耗的方法、系统、设备和存储介质 | |
CN117827466B (zh) | 一种多核芯片的动态温度管理方法及系统 | |
Sun et al. | Asynchronous secure controller design for singularly perturbation stochastic semi-Markov jump CPSs with the memory-based dynamic event-triggered scheme against complex cyber-attacks | |
CN115408072A (zh) | 基于深度强化学习的快速适应模型构建方法及相关装置 | |
Cai et al. | Parallel pump and chiller system optimization method for minimizing energy consumption based on a novel multi-objective gorilla troops optimizer | |
CN105720574A (zh) | 基于spsa的电力系统单区域负荷频率的数据驱动控制方法 | |
CN109344955A (zh) | 无线传感器网络中的自适应混合目标跟踪方法 | |
WO2017006372A1 (en) | A Method of Optimal Scheduling and Real-time Control for an xManagement System | |
Wang et al. | Delay-Tolerant OCO With Long-Term Constraints: Algorithm and Its Application to Network Resource Allocation | |
Máthé et al. | Optimistic planning with a limited number of action switches for near-optimal nonlinear control | |
Yong et al. | Optimization strategy of SDN control deployment based on simulated annealing-genetic hybrid algorithm | |
Li et al. | Research on dynamic switch migration strategy based on fmopso | |
Mattioni et al. | Enhancing deep reinforcement learning with integral action to control tokamak safety factor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |