CN105550159A - 多核处理器片上网络的功率分配方法 - Google Patents

多核处理器片上网络的功率分配方法 Download PDF

Info

Publication number
CN105550159A
CN105550159A CN201510944486.9A CN201510944486A CN105550159A CN 105550159 A CN105550159 A CN 105550159A CN 201510944486 A CN201510944486 A CN 201510944486A CN 105550159 A CN105550159 A CN 105550159A
Authority
CN
China
Prior art keywords
network
router
chip
power
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510944486.9A
Other languages
English (en)
Other versions
CN105550159B (zh
Inventor
王领
王小航
位庆海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Guangzhou Institute of Advanced Technology of CAS
Original Assignee
Guangzhou Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Advanced Technology of CAS filed Critical Guangzhou Institute of Advanced Technology of CAS
Priority to CN201510944486.9A priority Critical patent/CN105550159B/zh
Publication of CN105550159A publication Critical patent/CN105550159A/zh
Application granted granted Critical
Publication of CN105550159B publication Critical patent/CN105550159B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/7825Globally asynchronous, locally synchronous, e.g. network on chip
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种多核处理器片上网络的功率分配方法,通过设定多核处理器片上网络路由器的动态功耗模型及片上网络的性能模型;在片上网络路由器消耗的总功率一定的情况下,通过动态规划算法求取片上网络路由器的最优工作频率,进而根据所述最优工作频率对片上网络的各路由器进行功率分配,使片上网络传送数据包的网络延迟最小。本发明根据每一个路由器的工作负载实时快速细颗粒度地为其分配功率,从而实现数据包传送的最小网络延迟,使得片上网络的总体性能达到最优,芯片的功耗最低,达到最优能量管理的目的。

Description

多核处理器片上网络的功率分配方法
技术领域
本发明涉及多核处理器技术领域,尤其涉及一种多核处理器片上网络的功率分配方法。
背景技术
为满足应用对计算性能的需求,众核芯片集成了众多处理器。然而,其快速上升的功耗成为众核芯片设计的挑战之一。片上网络(NoC,NetworkonChip)是多核或众核芯片中处理器核之间数据通信的网络,它的性能不仅直接影响着众核芯片的整体性能,而且功耗大约占芯片总功耗的10%-36%。在给定功率条件下使得片上网络的性能最优已经成为迫切需求。片上网络中路由器的工作负载(包的到达率)差异很大,需要对每一个路由器进行异构调整功率才能得到很好的性能。
随着CMOS技术的发展,众核芯片(多于16核)被广泛应用于云计算、移动高端设备和高实时性嵌入式终端设备等方面。但是技术的革新也带来了一些挑战,伴随着众核芯片集成规模和整体性能不断提升,其功耗也快速增长。受到芯片封装、散热和外部供电能力的影响,众核芯片的功耗必须受到限制。这带来了众核芯片设计的挑战,即如何在给定功耗限制条件下使得众核芯片的性能最优。
当前众核芯片设计的一个研究热点就是如何管理芯片功率,针对处理器,采用动态调节频率/电压(DVFS)技术或者关闭闲置电路(powergating)技术对处理器核进行功率调整,其基本思想是:当处理器核工作负载相对较低的时候就降低其电压/频率,而当处理器核工作负载相对较高的时候就升高其电压/频率,或者关闭部分暂时闲置电路。
对NoC进行功耗控制,根据其控制粒度,可以分为:(1)芯片层控制,将整个NoC看作一个整体进行功率分配。(2)粗颗粒度调节路由器功率,如VFIs(Voltage-frequencyislandpartitioning,电压频率岛划分),为了提高功率分配的粒度,将NoC中路由器划分区域,每个区域有相同的电压/频率。(3)调节每一个路由器,如SAPP(Scalableandadaptablepeakpowermanagement,可扩展的可适应峰值功率管理),每个路由器的频率是相同的。
现有方法在管理NoC的功率方面都有一定效果,但是它们尚未考虑到每个路由器的工作负载的差异,或者使得Ad-hoc方法表现欠佳,最终体现为通过片上网络传送数据包的延迟较大,使芯片的整体性能欠佳。实际上,优化NoC功率分配可以根据每个路由器的工作负载来调节其频率而实现。
发明内容
本发明的目的是为解决目前多核或众核芯片整体功耗受限情况下,片上网络功率分配未考虑到每个路由器的工作负载的差异,导致通过片上网络传送数据包的延迟较大,使芯片的整体性能欠佳的技术问题。
为了解决上述技术问题,本发明提供一种多核处理器片上网络的功率分配方法,其特征在于,包括如下步骤:
(1)设定多核处理器片上网络路由器的动态功耗模型及片上网络的性能模型;所述动态功耗模型用于确定所述路由器的功率与路由器的工作频率的关系,所述性能模型用于确定片上网络传送数据包的网络延迟;
(2)在片上网络路由器消耗的总功率一定的情况下,通过动态规划算法求取片上网络路由器的最优工作频率,进而根据所述最优工作频率对片上网络的各路由器进行功率分配,使片上网络传送数据包的网络延迟最小。
进一步地,步骤(1)中所述片上网络的性能模型为:
L = Σ s Σ d P s → d × [ Σ i = 1 n ϵ ( i ) × [ w i + t i ] ] ;
ϵ ( i ) = 1 , i ∈ Φ s → d 0 , i ∉ Φ s → d ;
式中,L为片上网络传送数据包的网络延迟,数据包由多个帧构成,第一个帧为帧头,其它帧为数据帧,传送一个数据包的网络延迟为帧头的等待时间和数据帧的传输时间之和;s表示源路由器,d表示目的路由器,Ps→d表示一个数据包从源路由器s产生并发送到目的路由器d的概率,n表示片上网络中路由器的数量,Φs→d表示一个数据包从源路由器s到目的路由器d所经过的路由器集合,wi表示路由器i中帧头的等待时间,ti表示路由器i中数据帧的传输时间。
进一步地,所述帧头的等待时间wi由下式求取:
w i = λ i 2 ( 1 - λ i / u i ) × E [ ( X i f i ) 2 ] + 1 2 f i × E ( V 2 ) E ( V ) ;
式中,λi表示路由器i的帧到达率,μi表示路由器i的服务率,Xi表示路由器i的服务时间分布,fi表示路由器i的工作频率,V表示路由器的平均剩余服务时间分布(当且仅当时钟周期有效的时候,一个帧的服务才有效,否则就需要等待)。
进一步地,所述数据帧的传输时间ti由下式求取:
t i = S i W ;
式中,Si表示数据包的大小,W表示片上网络带宽。
进一步地,所述步骤(2)中,对片上网络的各路由器进行功率分配时采用动态功率分配网络,所述动态功率分配网络包括若干网络单元,所述网络单元的数量与片上网络的路由器数量相同,每个路由器对应配置一个网络单元。
进一步地,所述动态功率分配网络为带权重的有向无环图DAG(V,E,w);
其中,V代表图的节点集,E代表边集,w代表边的权重。
进一步地,各所述网络单元适于在线监测Ps→d和λi,实时计算网络延迟L,并更新本网络单元和下一个网络单元之间相应边的权重w。
进一步地,各所述网络单元适于在所述动态功率分配网络中遍历一条边权重最短的路径。
进一步地,各所述网络单元适于根据所述片上网络路由器的最优工作频率计算各自对应路由器的功率并进行功率分配。
本发明提出的实时细颗粒度的功率分配方法ReFiFS(Real-timeFine-grainedFrequencyScaling),通过调控每个路由器节点的工作频率,使得片上网络中所有路由器节点的总功率不超过给定功率,从而片上网络能够正常运转;片上网络中每个路由器节点的工作频率独立控制,所有路由器的工作频率根据每个节点的工作负载及网络给定功率来实时调控,从而寻求网络数据传输延迟最小点;每个路由器节点工作频率的最优解,即网络数据传输的最小延迟,通过片上网络性能模型、功率模型以及动态规划算法求解实现;动态规划算法的求解过程中通过构建动态规划网络,寻求最小路径实现,从而实现计算并行化,减少每个节点的硬件开销和计算时间。本发明根据每一个路由器的工作负载实时快速细颗粒度地为其分配功率,从而实现数据包传送的最小网络延迟,使得片上网络的总体性能达到最优,芯片的功耗最低,达到最优能量管理的目的,且硬件开销大大降低。
附图说明
图1为本发明的支持动态功率分配的片上网络的拓扑图;
图2为动态功率分配网络的有向无环图DAG(V,E,w);
图3为片上网络的性能模型的归一化错误率的柱形图;
图4为当片上网络的输入功率为120W时,不同的输入图节点数量下,应用SSSP(Single-SourceShortestPath,单源最短路径并行算法)求得的归一化执行时间对比的柱形图;
图5为当片上网络的输入功率不同时,应用BFS(BreadthFirstSearch,图宽度优先并行搜索算法)求得的归一化执行时间对比的柱形图;
图6为当片上网络的输入功率相同时,分别应用SSSP、BFS和FastSort(快速排序并行算法)求得的归一化执行时间对比的柱形图。
具体实施方式
现在结合附图和实施例对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成,且其不应理解为对本发明的限制。
NoC动态功耗模型
在NoC中,路由器的功率与其电压和频率有关,所以构建路由器的功率和其频率之间的量化关系是有必要的。在给定路由器结构和电路实现情况下,可得到一个结构层的参数化NoC路由器功耗模型。例如,NoC中有4个路由器,其功耗可以表示为:Power=2·f1+f2+f3+2f4。则每个路由器的功耗可以表示为:
pi=g(fi)(1);
其中1≤i≤4,pi第i路由器的功率,fi表示第i个路由器的频率,g是路由器工作频率和路由器功率之间的函数关系式。
NoC性能模型
在NoC中,一个数据包由多个帧(flit)构成,第一个帧被称作为帧头(head-flit),其它帧被称作为数据帧(body-flit)。一个数据包的延迟包括帧头的等待时间和数据帧的传输时间。NoC的性能可以用数据包的网络延迟表示,延迟低则表明NoC性能好。如上述含4个路由器的NoC的例子,其性能可以表示为:LNoC=1/f1+2/f2+4/f3+3/f4,其中fi∈{2,4,6}。NoC延迟可以由公式(2)和公式(3)表示。
L = Σ s Σ d P s → d × [ Σ i = 1 n ϵ ( i ) × [ w i + t i ] ] - - - ( 2 ) ;
ϵ ( i ) = 1 , i ∈ Φ s → d 0 , i ∉ Φ s → d - - - ( 3 ) ;
其中s表示源路由器,d表示目的路由器,Ps→d表示一个数据包从源路由器s产生并发送到目的路由器d的概率,n表示网络中路由器数目,Φs→d表示某个数据包从s到d所经过的路由器集合,wi表示路由器i中head-flit的等待时间,ti表示路由器i中body-flit的传输时间。
帧头head-flit的等待时间和数据帧body-flit的传输时间分别可以由如下的公式(4)和(5)表示:
W i = λ i 2 ( 1 - λ i / u i ) × E [ ( X i f i ) 2 ] + 1 2 f i × E ( V 2 ) E ( V ) - - - ( 4 ) ;
t i = S i W - - - ( 5 ) ;
其中λi表示路由器i的帧到达率,μi表示路由器i的服务率,Xi表示路由器i的服务时间分布,fi表示路由器i的工作频率,V表示路由器的平均剩余服务时间分布(当且仅当时钟周期有效的时候,一个帧的服务才有效,否则就需要等待),Si表示数据包的大小(依赖于应用特征),W表示网络带宽。于是NoC中所有数据包的网络延迟可表示为:
L = Σ i = 1 n [ a i · h ( f i ) + b i ] - - - ( 6 ) ;
其中 a i = Σ s Σ d P s → d × ϵ ( i ) , h(fi)=wiai和bi独立于路由器的工作频率,可以周期性地计算得到。通过监测路由器帧的到达率等参数,公式(6)可以周期性地得到更新。
问题定义
假设NoC有n个路由器,路由器的频率定义为f1,f2,…,fn,每个路由器有M个可调频率F1,F2,…,FM,即fi∈{F1,F2,…,FM}。假设路由器的功耗可以由公式(1)表示,路由器的性能可以由公式(6)表示。那么在给定功率P的限制条件下,最大化NoC的性能(NoC网络延迟最小)问题可以转化成如下的问题:片上网络NoC中每个路由器分别从F1,F2,…,FM中选择一个合适的工作频率使得NoC的网络延迟最小(性能最优),且所有的路由器消耗的功率之和不能超过给定的功率P。例如,上述含4个路由器的NoC的例子中,假设功耗限制为P=20,那么在功耗限制条件下求取最优性能可以表示为:
在2·f1+f2+f3+2f4≤20时,求minLNoC=1/f1+2/f2+4/f3+3/f4,其中fi∈{2,4,6}。该问题在数学意义上就可以简单的表述为:
Σ i = 1 n g ( f i ) ≤ P - - - ( 7 ) ;
min L = Σ i = 1 n [ a i · h ( f i ) + b i ] - - - ( 8 )
其中fi∈{F1,F2,…,FM},M表示频率级别。
NoC功率分配方法
方法总体设计
根据上述定义的问题,该问题类似于一个多选择的背包问题,n个路由器对应于n组物品,第i组中有m个物品,对应于路由器i有m个可选频率,背包的容量即是NoC的可分配功率P。一旦从某一组中选定一个物品装入背包,对应于某个路由器工作在某一个频率下。第i组中的物品j有唯一的价值Vi,j和唯一的重量Wi,j对应于在NoC中第i个路由器工作在频率j的时候有唯一的网络延迟值Li,j和唯一的功率消耗Pi,j。
然而,背包问题可以利用动态规划算法在多项式时间来内求得最优解,动态规划算法的求解过程实际上可以看作是一个求解多阶段网络的过程。鉴于此,也可以通过先构建网络然后采用动态规划的思想来求解。其求解思想如下:
(fj∈{F1,F2,…,FM})表示前i个路由器的总功率为p的条件下产生的最小网络延迟。表示前i个路由器的功率之和。当第i个路由器设定频率为fk时,
如果 Σ j = 1 i - 1 g ( f j ) + g ( f k ) > p , 则Li,p=Li-1,p
否则 L i , p = min { L i - 1 , p , L i - 1 , p - g ( f i ) + a i h ( f k ) + b i | f k = F m } ,
Fm∈{F1,F2,…,FM}。
通过上面两步迭代n次后得到Ln,p,即求得功率限制P下,n个路由器的网络最小延迟。
为了能快速地求解上述问题,我们提出了一个ReFiFS(Real-timeFine-grainedFrequencyScaling,实时细颗粒度的功率分配方法)方法,在该方法中,通过使用动态功率分配网络PBN(PowerBudgetNetwork,PBN)来实现实时功率计算和分配,其整体框架如图1所示。
图1中每一个路由器配置一个PBN单元(主要负责在线功率计算和分配),所有的PBN单元构成一个PBN。每一个PBN单元主要负责:
(1)实时更新边的权重:在线监测Ps→d和λi,PBN单元中的计算单元按照公式(8)实时计算网络延迟,并更新本PBN单元和下一个PBN单元之间相应边权重w;
(2)求解PBN的最优解:NoC功率分配问题可以使用功率分配网络(PBN)来解决,寻求路由器的最优频率等价于在PBN中遍历一条权重最短的路径;
(3)在线完成功率分配。功率分配单元按照求解所得的频率值计算各自对应路由器的功率并进行功率分配。
在PBN中,每个节点表示不同的功率分配值。若路由器分配一个频率值产生的功耗等于相邻两个阶段中任意两个节点的功率分配值之差,则在这两点间加一条边。该边的权重是aih(fi)+bi(该频率之下得到的网络延迟,由公式(8)得到)。此时在PBN中遍历的一条路径对应于一个在功率限制条件下可行的功率分配方案,则遍历一条最短路径对应在功率限制条件下能得到性能最优(延迟最小)的功率分配方案。
最短路径方法求解该类问题最优解是十分有效的。如对上述的含4个路由器的NoC的例子,若NoC平均分配功率,则频率只能取f1=f2=f3=f4=2,得到的网络延迟是5;若用分块管理功率的方法,频率可为f1=f2=2,f3=f4=4,得到的延迟是3.25;但是若用最短路径方法求得频率为f1=2,f2=4,f3=4,f4=4,得到的网络延迟是2.5。
定义功率分配网络(PBN)
功率分配网络(PBN)是一个带权重的有向无环图DAG(V,E,w),V代表图的节点集,E代表边集,w代表边的权重,如图2所示。
·DAG(V,E,w)中有n+2个阶段,用si(1≤i≤n)表示,si表示第i个PBN单元,即每个PBN单元包含PBN的一列节点,s0和sn+1是虚拟阶段。
·DAG(V,E,w)有(pk+1)×n+2个节点,pk为不同的功率分配值,n表示有n个路由器。图中每一列表示一个阶段,共有n+2个阶段。其中阶段0和阶段n+1是虚拟阶段。节点用vi,j表示,其含义是从阶段0到阶段i总功耗等于j的节点。
·相邻两个阶段si和阶段si+1中的任意两个节点vi,j和vi+1,j,如果(0≤i≤n-1且1≤m≤M),那么在节点vi,j和vi+1,j之间加一条边e(i,j),(i+1,k)。同时这条边的权重w(i,j),(i+1,k)=ai+1.h(fi+1)+bi+1,即表示路由器i+1在此频率下产生的网络延迟为ai+1.h(fi+1)+bi+1。
·虚拟节点S和D。阶段0中只有一个节点S,用v0,0表示,阶段n中只有一个节点D,用表示。
图2中,边上的权重是相应路由器在某个频率f下产生的网络延迟,若要得到NoC最小网络延迟,仅需要找一条从节点S到节点D的最短路径,同时记录下该路径上每条边上的频率,从而求得每个路由器的频率值,根据该频率值计算并分配每个路由器的功率。
当NoC给定功率P发生变化时,PBN的结构不会发生变化(硬件设计的时候按照功耗模型(公式7)已固化),但是需要对网络的不同部分进行遍历求解最短路径,来更新一次所有的PBN单元的功率。例如在图2中,当功率从pk变化至pk-1时,仅仅需要对虚线pk-1以上的点以及相连的边求解最短路径即可。NoC功率限制类似于图中的虚线。通过将虚线向上或者向下移动来满足功率预算,虚线以上部分的最短路径即是问题的解。
更新PBN边的权重
由于网络中通信量有可能发生变化,就导致路由器工作负载(帧的到达率)发生变化,所以网络延迟模型中的第一阶段包的注入率Ps→d和第二阶段中路由器帧的到达率λi需要在线监测和计算,每个时间间隔更新PBN中每个边的权重L。PBN更新边的权重如算法1所示。
算法1.PBN更新边的权重
1.Input:Ps→d,λi.
Ps→d:theprobabilityofapacketisgeneratedinnodesanddeliveredtod.
λi:theflitarrivalrateofrouteri.
2.Output:w(n,j),(n+1,k):theweightofeachedgeafterassigningfi.
3.foreachstageifrom0ton-1do:
4.foreachnodevi,jparalleldo:
5.Foreache(i,j),(i+1,k)connectedtostageiandstagei+1do:
6.ifPs→dorλichangedthen
7.w(i,j),(i+1,k)=ai+1.h(fi+1)+bi+1
8.returnw(n,j),(n+1,k)
在算法1中,共有n个阶段,每个阶段最多有P+1个节点(P为不同的功率分配值),P+1个节点可在多个功率分配单元中并行计算。每个节点最多有M条边(M表示频率级别个数,是常数且远远小于n),所以该算法的时间复杂度为O(n)。
求解最优解
在得到PBN后,问题转化为在其中找从S到D的最短路径。为了加快求解速度,我们利用最短路径并行算法从目的节点D到源节点S反向并行搜索。在一次迭代中,当前阶段的每一个节点选择一条边,这条边的权重和后一个阶段中与该边相连节点已得到的最小延迟之和最小,同时用该最小值更新当前阶段中该节点的延迟。在下一次迭代中,该最小值被传递给前一个阶段中的所有节点。每个阶段中的所有节点被划分到PBN中的计算单元同时计算,该搜索可以在n次迭代内完成。每个阶段的所有节点同时并行计算下面的值。
L min ( v i , j ) = min ∀ v i , j , ∃ a n e d g e e ( i , j ) , ( i + 1 , k ) b e t w e e n v i , j a n d v i + 1 , k { w ( i , j ) , ( i + 1 , k ) + L min ( v i + 1 , k ) } - - - ( 9 ) ;
其中Lmin(vn+1,k)=0,且w(n,j),(n+1,k)=0,即与虚拟节点D相连的边权重为0。最终,计算可以表示为:
L min = min e ( i , j ) , ( i + 1 , k ) &Element; PATH S , D { &Sigma; i = 1 n &Sigma; 0 < j < p &Sigma; 0 < k < p w ( i , j ) , ( i + 1 , k ) } min &Sigma; i = 1 n a i &CenterDot; h ( f i ) + b i - - - ( 10 ) ;
PATHS,D表示从原节点S到目的节点D的路径集合。那么在最优路径上的每一个节点vi,j,从vi,j到vi+1,j的最优路径(对应于最优的频率f),可以由下面的公式得到:
v i + 1 , k = arg min &ForAll; v i + 1 , k , &Exists; a n e d g e e ( i , j ) , ( i + 1 , k ) b e t w e e n v i , j a n d v i + 1 , k { w ( i , j ) , ( i + 1 , k ) + L min ( v i + 1 , k ) } - - - ( 11 ) ;
算法2.最短路径并行算法
1.Input:w(i,j),(i+1,k):weightofeachedge.
2.Output:L(vi,j):theminimumcycleofeachnodeafterassigningfi.
3.Initialize:AllnodesL(vi,j)=∞,exceptLmin(D)=Lmin(vn+1,j)=0andw(n,j),(n+1,P)=0
4.foreachstageifromn-1to0do:
5.foreachnodevi,jparalleldo:
6.foreachedgee(i,j),(i+1,k)connectedtostageiandstagei+1do:
7.ifL(vi+1,j)+w(i,j),(i+1,k)<L(vi,j)then
8.L(vi,j)=L(vi+1,j)+w(i,j),(i+1,k)
9.fi=Fm(1≤i≤n,1≤m≤M)
10.returnashortweightpathfromStoDandcorrespondingtotheoptimalsolution.
并行求解最短路径如算法2所示。共有n个阶段,每个阶段最多有P+1个节点(P为不同的功率分配值),P+1个节点被划分到多个功率分配单元并行计算。每个节点最多有M条边(M表示频率级别个数,M是常数且远远小于n)。每次迭代仅仅涉及到“加”和“比较”操作符,可以在一个周期内完成,所以该算法的时间复杂度为O(n)。
本发明所进行的实验及结果如下:
实验环境设置
实验验证仿真环境是两个基于Alpha架构的CMP(ChipMulti-Processor,单芯片多处理器)和一个网络组成的2D(二维)NoC拓扑结构,每个CMP里面都集成了Orion2.0、McPAT和CACTI6.0,分别用来模拟NoC、处理器和存储器的功耗,该仿真平台的详细参数配置如表1所示。
表1仿真器参数配置
表2列出了三个典型的评测算法,SSSP(Single-SourceShortestPath,在图中求解单源最短路径并行算法)、BFS(BreadthFirstSearch,图宽度优先并行搜索算法)-图宽度优先并行搜索算法和FastSort(快速排序并行算法)。
表2评测算法
NoC延迟模型精确性分析
精确的性能模型在问题的解决中起到了重要作用。为了验证公式(6)中的网络延迟模型的精确性,我们设置不同的包的注入率,比较仿真器模拟结果和延迟模型计算结果,利用公式(12)计算,结果如图3所示。
&epsiv; = L m - L s L s &times; 100 % - - - ( 12 )
Lm是模型延迟,Ls是仿真器延迟。可以看出当包的注入率小于0.04flits/cycle的时候,模型的相对误差小于8%,所以,在包到达率较低的情况下,该延迟模型比较精确。
NoC性能评估
在下面的实验里,通过将评测算法加载到仿真器上面运行,仿真器记录算法执行时间(正比于网络延迟),并将它作为一个量化指标来验证比较我们提出的功率分配方法和其他方法对系统性能的影响,算法执行时间归一化到我们提出的方法ReFiFS。(1)VFIs方法是将路由器分组,每组路由器同一个电压/频率。(2)SAPP方法同构地调整路由器的频率。
在输入功率为120W条件下,当网络中通信量不同的时候(SSSP输入的DAG图的节点数目不同),评测算法SSSP归一化执行时间比较如图4所示。结果显示,相比VFIs和SAPP,ReFiFS分别平均减少了26.3%和22.3%的应用执行时间(最大分别减少了32.4%和28.6%)。
当NoC输入功率从120W减少到60W时,BFS归一化执行时间比较如图5所示。可见,相比VFIs和SAPP,ReFiFS平均分别减少了30.1%和28.6%的应用执行时间(最大分别减少了33.8%和31%)。
在相同输入功率件下,三个不同评测应用SSSP、BFS和FastSort归一化执行时间如图6所示。可以看出在相同的输入功率条件下,针对不同的测评应用,相比VFIs和SAPP,ReFiFS平均分别减少了29.9%和32.6%的应用执行时间(最大分别减少了48.4%和25.4%)。
硬件开销
本方法的硬件开销主要是由于PBN中的节点,在65nm下使用SynopsysDesignCompilerTSMC库,得到每个节点的面积是121μm2且消耗20μW功率(假设switchingactivity是0.5)。PBN中总共有(pk+1)×n个节点,实验平台一共有164个路由器节点,pk归一化为10,那么总共需要的芯片面积是218284μm2,需要的功率大约为36mW。实验证明,在一个8×8的2D网络里面,PBN仅仅占了很少一部分的芯片面积和功耗,硬件开销较低。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (9)

1.一种多核处理器片上网络的功率分配方法,其特征在于,包括以下步骤:
(1)设定多核处理器片上网络路由器的动态功耗模型及片上网络的性能模型;所述动态功耗模型用于确定所述路由器的功率与路由器的工作频率的关系,所述性能模型用于确定片上网络传送数据包的网络延迟;
(2)在片上网络路由器消耗的总功率一定的情况下,通过动态规划算法求取片上网络路由器的最优工作频率,进而根据所述最优工作频率对片上网络的各路由器进行功率分配,使片上网络传送数据包的网络延迟最小。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中所述片上网络的性能模型为:
L = &Sigma; s &Sigma; d P s &RightArrow; d &times; &lsqb; &Sigma; i = 1 n &epsiv; ( i ) &times; &lsqb; w i + t i &rsqb; &rsqb; ;
&epsiv; ( i ) = 1 , i &Element; &Phi; s &RightArrow; d 0 , i &NotElement; &Phi; s &RightArrow; d ;
式中,L为片上网络传送数据包的网络延迟,数据包由多个帧构成,第一个帧为帧头,其它帧为数据帧,传送一个数据包的网络延迟为帧头的等待时间和数据帧的传输时间之和;s表示源路由器,d表示目的路由器,Ps→d表示一个数据包从源路由器s产生并发送到目的路由器d的概率,n表示片上网络中路由器的数量,Φs→d表示一个数据包从源路由器s到目的路由器d所经过的路由器集合,wi表示路由器i中帧头的等待时间,ti表示路由器i中数据帧的传输时间。
3.根据权利要求2所述的方法,其特征在于,所述帧头的等待时间wi由下式求取:
w i = &lambda; i 2 ( 1 - &lambda; i / u i ) &times; E &lsqb; ( X i f i ) 2 &rsqb; + 1 2 f i &times; E ( V 2 ) E ( V ) ;
式中,λi表示路由器i的帧到达率,μi表示路由器i的服务率,Xi表示路由器i的服务时间分布,fi表示路由器i的工作频率,V表示路由器的平均剩余服务时间分布。
4.根据权利要求2所述的方法,其特征在于,所述数据帧的传输时间ti由下式求取:
t i = S i W ;
式中,Si表示数据包的大小,W表示片上网络带宽。
5.根据权利要求3所述的方法,其特征在于,所述步骤(2)中,对片上网络的各路由器进行功率分配时采用动态功率分配网络,所述动态功率分配网络包括若干网络单元,所述网络单元的数量与片上网络的路由器数量相同,每个路由器对应配置一个网络单元。
6.根据权利要求5所述的方法,其特征在于,所述动态功率分配网络为带权重的有向无环图DAG(V,E,w);
其中,V代表图的节点集,E代表边集,w代表边的权重。
7.根据权利要求6所述的方法,其特征在于,各所述网络单元适于在线监测Ps→d和λi,实时计算网络延迟L,并更新本网络单元和下一个网络单元之间相应边的权重w。
8.根据权利要求7所述的方法,其特征在于,各所述网络单元适于在所述动态功率分配网络中遍历一条边权重最短的路径。
9.根据权利要求8所述的方法,其特征在于,各所述网络单元适于根据所述片上网络路由器的最优工作频率计算各自对应路由器的功率并进行功率分配。
CN201510944486.9A 2015-12-16 2015-12-16 多核处理器片上网络的功率分配方法 Expired - Fee Related CN105550159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510944486.9A CN105550159B (zh) 2015-12-16 2015-12-16 多核处理器片上网络的功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510944486.9A CN105550159B (zh) 2015-12-16 2015-12-16 多核处理器片上网络的功率分配方法

Publications (2)

Publication Number Publication Date
CN105550159A true CN105550159A (zh) 2016-05-04
CN105550159B CN105550159B (zh) 2018-08-31

Family

ID=55829348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510944486.9A Expired - Fee Related CN105550159B (zh) 2015-12-16 2015-12-16 多核处理器片上网络的功率分配方法

Country Status (1)

Country Link
CN (1) CN105550159B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110430600A (zh) * 2019-08-09 2019-11-08 合肥工业大学 一种无线片上网络中基于错误避免策略的高效容错方法
CN111897648A (zh) * 2020-06-04 2020-11-06 华南理工大学 一种温度约束下的暗核感知众核系统处理器资源分配方法
CN112363610A (zh) * 2020-10-21 2021-02-12 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112363609A (zh) * 2020-10-21 2021-02-12 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112363612A (zh) * 2020-10-21 2021-02-12 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112394807A (zh) * 2020-11-17 2021-02-23 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112636974A (zh) * 2020-12-22 2021-04-09 安徽飞凯电子技术有限公司 一种基于大数据的通信设备智能监管系统
CN115250251A (zh) * 2021-04-26 2022-10-28 北京希姆计算科技有限公司 片上网络仿真中的传输路径规划方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227298A (zh) * 2008-01-09 2008-07-23 南京大学 基于片上网络的路由器功耗模型
JP2011082964A (ja) * 2009-09-08 2011-04-21 Nec Corp 集積回路およびデータ転送方法
CN102437953A (zh) * 2011-12-14 2012-05-02 清华大学 片上网络中的低功耗自适应路由方法
CN102857445A (zh) * 2012-09-10 2013-01-02 西安电子科技大学 片上网络路由器的低开销分配结构及分配方法
US20130219148A1 (en) * 2012-02-17 2013-08-22 National Taiwan University Network on chip processor with multiple cores and routing method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227298A (zh) * 2008-01-09 2008-07-23 南京大学 基于片上网络的路由器功耗模型
JP2011082964A (ja) * 2009-09-08 2011-04-21 Nec Corp 集積回路およびデータ転送方法
CN102437953A (zh) * 2011-12-14 2012-05-02 清华大学 片上网络中的低功耗自适应路由方法
US20130219148A1 (en) * 2012-02-17 2013-08-22 National Taiwan University Network on chip processor with multiple cores and routing method thereof
CN102857445A (zh) * 2012-09-10 2013-01-02 西安电子科技大学 片上网络路由器的低开销分配结构及分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周端 等: "低功耗片上网络路由器设计", 《计算机应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110430600A (zh) * 2019-08-09 2019-11-08 合肥工业大学 一种无线片上网络中基于错误避免策略的高效容错方法
CN111897648A (zh) * 2020-06-04 2020-11-06 华南理工大学 一种温度约束下的暗核感知众核系统处理器资源分配方法
CN112363609B (zh) * 2020-10-21 2023-03-24 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112363610A (zh) * 2020-10-21 2021-02-12 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112363609A (zh) * 2020-10-21 2021-02-12 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112363612A (zh) * 2020-10-21 2021-02-12 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112363612B (zh) * 2020-10-21 2022-07-08 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112363610B (zh) * 2020-10-21 2023-03-24 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112394807A (zh) * 2020-11-17 2021-02-23 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112394807B (zh) * 2020-11-17 2023-08-29 海光信息技术股份有限公司 一种降低片上网络功耗的方法、装置、cpu芯片及服务器
CN112636974A (zh) * 2020-12-22 2021-04-09 安徽飞凯电子技术有限公司 一种基于大数据的通信设备智能监管系统
CN112636974B (zh) * 2020-12-22 2022-08-02 安徽飞凯电子技术有限公司 一种基于大数据的通信设备智能监管系统
CN115250251A (zh) * 2021-04-26 2022-10-28 北京希姆计算科技有限公司 片上网络仿真中的传输路径规划方法、装置、电子设备及计算机可读存储介质
CN115250251B (zh) * 2021-04-26 2023-07-28 北京希姆计算科技有限公司 片上网络仿真中的传输路径规划方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN105550159B (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN105550159A (zh) 多核处理器片上网络的功率分配方法
JP7261507B2 (ja) 電気ヒートポンプ-熱電併給システムを最適化する調整方法及びシステム
CN103036792B (zh) 一种最大化最小公平多数据流传输调度方法
CN109829332A (zh) 一种基于能量收集技术的联合计算卸载方法及装置
CN105119289B (zh) 一种多区域电力系统完全分散式动态经济调度方法
Liu et al. Minimization of offloading delay for two-tier UAV with mobile edge computing
CN105242956A (zh) 虚拟功能服务链部署系统及其部署方法
CN103150003A (zh) 信息处理系统、该信息处理系统的节电控制方法和装置
CN103399626A (zh) 面向混合计算环境的功耗感知的并行应用调度系统及方法
CN103297341A (zh) 在域内路由器节点上配置流量的方法
Zhu et al. Drl-based deadline-driven advance reservation allocation in eons for cloud–edge computing
CN112202205A (zh) 一种多能源三级自律协同控制方法及装置
CN108256263A (zh) 一种电力系统混合仿真并行计算系统及其任务调度方法
Chen et al. Green parallel online offloading for DSCI-type tasks in IoT-edge systems
Li et al. Computation offloading strategy for improved particle swarm optimization in mobile edge computing
CN107591806B (zh) 一种考虑主动配电网有功调节能力的主网日前调度方法
CN104113473A (zh) 一种基于拉格朗日松弛的ip网络层功耗优化方法
Li et al. Blockchain-assisted virtual power plant framework for providing operating reserve with various distributed energy resources
Ji et al. A novel graph theory based two-stage minimum cost routing mechanism in energy internet
Ma et al. Elastic energy distribution of local area packetized power networks to mitigate distribution level load fluctuation
CN110475289B (zh) 一种面向超密集组网的负载均衡方法及系统
Lee et al. Game theory-based resource allocation strategy for clustering based wireless sensor network
KR102197767B1 (ko) 스마트 시티에서 신재생 에너지와 전기자동차 충전의 결합
CN106230750A (zh) 综合模块化航空电子系统信息延迟时间分析和分配方法
Sun et al. Distributed regulation allocation with aggregator coordinated electric vehicles

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170224

Address after: 1068 No. 518000 Guangdong city of Shenzhen province Nanshan District Shenzhen University city academy Avenue

Applicant after: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY

Applicant after: GUANGZHOU INSTITUTE OF ADVANCED TECHNOLOGY, CHINESE ACADEMY OF SCIENCES

Address before: 511458 Nansha District Haibin Road, Guangdong, China, No. 1121, No.

Applicant before: GUANGZHOU INSTITUTE OF ADVANCED TECHNOLOGY, CHINESE ACADEMY OF SCIENCES

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180831

Termination date: 20211216

CF01 Termination of patent right due to non-payment of annual fee