CN104579951B - 片上网络中新颖的故障与拥塞模型下的容错方法 - Google Patents

片上网络中新颖的故障与拥塞模型下的容错方法 Download PDF

Info

Publication number
CN104579951B
CN104579951B CN201410833884.9A CN201410833884A CN104579951B CN 104579951 B CN104579951 B CN 104579951B CN 201410833884 A CN201410833884 A CN 201410833884A CN 104579951 B CN104579951 B CN 104579951B
Authority
CN
China
Prior art keywords
node
fault
failure
path
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410833884.9A
Other languages
English (en)
Other versions
CN104579951A (zh
Inventor
欧阳鸣
欧阳一鸣
何鑫城
韩君
易茂祥
詹文法
安鑫
闫爱斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201410833884.9A priority Critical patent/CN104579951B/zh
Publication of CN104579951A publication Critical patent/CN104579951A/zh
Application granted granted Critical
Publication of CN104579951B publication Critical patent/CN104579951B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种片上网络中新颖的故障与拥塞模型下的容错方法,其特征是:使用一种新颖的相隔节点路径故障模型,使路由器以较小的开销为代价实现对两跳以内的路径故障状态的动态感知;同时,使用一种新颖的更能准确反映网络拥塞状态的拥塞模型获取下游节点的拥塞状态,结合故障感知的结果和拥塞状态信息,选取无故障且拥塞度小的路由器端口传输数据。在网络无故障时,本发明保证数据通过最优路径传输;当网络中出现故障时,本发明不仅可以实现容错还能保证网络具有良好的性能。

Description

片上网络中新颖的故障与拥塞模型下的容错方法
技术领域:
本发明属于集成电路芯片设计的容错技术领域,特别是一种片上网络中新颖的故障与拥塞模型下的容错方法。
技术背景:
随着单个芯片上集成的核越来越多,多核以及众核系统中同时有超过一个任务在执行的可能性也越来越大。这就使得单任务执行的片上系统(System-on-Chip, SoC)在发展过程中遭遇瓶颈。鉴于此,有研究者提出通过借鉴计算机网络和并行计算技术设计另一种新颖的片上互连架构——片上网络(Network-on-Chip,NoC),该架构达到了传统SoC不能实现的高带宽、低延时和可扩展性强等优点。
因为资源共享和并行性是NoC的优势,所以网络中会出现一项任务的执行引起其他任务执行效率下降的现象。为弥补这种情况带来的性能损失,有学者提出利用路由方法来隔离多任务。为了更好地提升网络性能,路由方法需要具备以下特点:(1)能够提供高效的适应性,避免网络中可能会出现的拥塞;(2)尽量避免使用不准确的冗余信息,该信息会错误估计网络的状态;(3)可以在多任务执行的过程中实现动态隔离,保证资源分配无冲突。但工艺不稳定性、电路老化等因素会引起NoC故障,因此,大多数现有的路由方法主要对NoC中的故障实现容错,而不考虑网络状态。
在现有技术中,有研究者提出划分区域的容错路由方法,该方法将故障路由器划分在水平方向不相邻的矩形故障区内。但可能会导致网络中边缘路由器出现故障而不纳入考虑范围的情况,也可能因为划分故障区域造成网络资源的浪费。另外,有些容错路由方法为了实现路由过程中的无死锁,提出采用转弯模型来避免死锁的发生,但这种容错路由方法适容忍的故障数量有限。
当网络中出现故障,采用的容错路由方法虽然能有效地实现容错,使数据最终到达目的节点。但是,在路由过程中绕路或者活锁的情况均可能发生,由此会引发网络延迟增加、性能下降。鉴于此,有学者提出在设计路由方法时考虑下游节点的拥塞情况,将下游输入端口中Buffer的空闲数作为拥塞参数,在路由数据的过程中充分考虑网络流量。但是,该拥塞参数只能反映输入端口Buffer的占用情况,并不能表示下游节点的数据传输状态。可能会导致数据可以路由至下游节点,但可能会出现由于下游节点输出端的数据过多而滞留在Buffer中的情况。
发明内容:
本发明是为了避免上述现有研究存在的不足之处,提供了一种片上网络中新颖的故障与拥塞模型下的容错方法。
本发明解决技术问题所采用的技术方案是:
一种片上网络中新颖的故障与拥塞模型下的容错方法,使用一种新颖的相隔节点路径故障模型,使路由器以较小的开销为代价实现对两跳以内的路径故障状态的动态感知;同时,使用一种新颖的更准确反映网络拥塞状态的拥塞模型获取下游节点的拥塞状态,结合故障感知的结果和拥塞状态信息,选取无故障且拥塞度小的路由器端口传输数据,其特征是包括以下步骤:
a、对当前节点到感知区域内的所有相隔节点的路径进行测试,得到对应路径的故障状态,存储在当前节点的故障向量表中,其中相隔节点表示为当前节点路由两跳到达的节点;
b、当数据传输到当前节点时,查询当前节点的故障感知区域内的故障向量表,获取当前节点到靠近目的节点的相隔节点的路径的故障状态,若靠近目的节点的路径均故障,转到c,否则转d;
c、查询当前节点的故障向量表中远离目的节点的路径故障状态,若均出现故障,则报错,否则转e;
d、获取当前节点的下一跳节点的CR值,选取其中一条CR值小且无故障的路径进行数据传输;
e、从远离目的节点的备选路径中,选取一条无故障且CR值小的路径输出数据。
所述步骤a中的故障向量表中记录的是当前节点到相隔节点的路径故障状态,故障向量表中用12-bit寄存器存储当前节点到所有相隔节点的路径故障状态。
所述步骤b中的故障感知区域表示的是从当前节点到所有相隔节点所经过的路径,即当前节点选择东、南、西、北(E、S、W、N)不同的输出端口路由两跳经过的所有路径。
所述步骤d中当前节点的下一跳节点的CR值是指每个节点的相应端口存储下游节点的CR值,该值记录的是当前节点中各端口请求交叉开关未应答次数的总和。
与已有技术相比,本发明效果体现在:
1、使用了12-bit的故障向量表,表示出当前节点两跳以内的所有路径故障状态,节省了一定的硬件开销。
2、使用了下游节点端口请求交叉开关未应答次数作为拥塞参数,有效地感知下游节点的整个流量状态。
3、综合了故障感知与拥塞感知模型的优势,在路由过程中不仅实现了容错还可以均衡网络流量,整个算法在实现过程中避免了死锁和活锁的发生。
附图说明:
图1是本发明中当前节点的RC模块。
图2是本发明中节点间路径故障模型的感知区域。
图3是本发明中节点间路径故障示意图。
图4是本发明中当前节点的故障向量表。
具体实施方式:
一种片上网络中新颖的故障与拥塞模型下的容错方法,使用一种新颖的相隔节点路径故障模型,使路由器以较小的开销为代价实现对两跳以内的路径故障状态的动态感知;同时,使用一种新颖的更准确反映网络拥塞状态的拥塞模型获取下游节点的拥塞状态,结合故障感知的结果和拥塞状态信息,选取无故障且拥塞度小的路由器端口传输数据,具体包括以下步骤:
a、对当前节点到感知区域内的所有相隔节点的路径进行测试,得到对应路径的故障状态,存储在当前节点的故障向量表中,其中相隔节点表示为当前节点路由两跳到达的节点;
b、当数据传输到当前节点时,查询当前节点的故障感知区域内的故障向量表,获取当前节点到靠近目的节点的相隔节点的路径的故障状态,若靠近目的节点的路径均故障,转到c,否则转d;
c、查询当前节点的故障向量表中远离目的节点的路径故障状态,若均出现故障,则报错,否则转e;
d、获取当前节点的下一跳节点的CR值,选取其中一条CR值小且无故障的路径进行数据传输;
e、从远离目的节点的备选路径中,选取一条无故障且CR值小的路径输出数据。
所述步骤a中的故障向量表中记录的是当前节点到相隔节点的路径故障状态,故障向量表中用12-bit寄存器存储当前节点到所有相隔节点的路径故障状态。
所述步骤b中的故障感知区域表示的是从当前节点到所有相隔节点所经过的路径,即当前节点选择东、南、西、北(E、S、W、N)不同的输出端口路由两跳经过的所有路径。
所述步骤d中当前节点的下一跳节点的CR值是指每个节点的相应端口存储下游节点的CR值,该值记录的是当前节点中各端口请求交叉开关未应答次数的总和。
下面结合图1至图4对本发明实施方式做进一步阐述,如下:
传统带有虚通道路由器的数据传输会依次经过路由计算(Routing Computation,RC),虚通道分配(Virtual Allocation, VA),交叉开关分配( Switch Allocation, SA),交叉开关传输 (Switch Transmission, ST)和链路传输 (Link Transmission, LT)五个阶段的流水。当数据到来,触发RC操作,RC模块包括路由功能和选择策略两个部分。如图1所示,输入当前节点与目的节点的坐标值到路由功能模块,计算出可能的输出通道,再结合下一跳的CR值和故障状态选出拥塞度较小的输出通道。
每个节点能够感知到两跳以内相隔节点的路径故障状态,其感知区域如图2所示。图2中Current Node表示当前节点,E(N,S,W)Node表示与当前节点相连的E(N,S,W)邻居节点,EE(SS,SW ,WS,SE,ES ,NN,NW ,NE,WW,WN,EN)Node表示从Current Node出发,分别沿着E,N,S,W四个方向经过两跳到达的节点。 其中,SW Node表示从Current Node出发经由SNode到达的节点,而WS Node表示从Current Node出发经由W Node到达的节点,实际上SWNode 和WS Node在物理上是同一个相隔节点。以此类推,SE Node与ES Node、 NW Node 和WN Node、 NE Node和 EN Node与上述情况一致。
如图2所示,本发明中相隔节点间路径故障模型的感知区域内共有8个相隔节点,Current Node需要12-bit的故障向量表示到所有相隔节点的路径故障状态,具体的故障向量如图2所示。通过寄存器值的与运算,就可以得出Current Node与邻居节点相连的路径是否故障,不需要额外添加寄存器表示该路径故障状态,节省了一定的硬件开销。以E方向为例,分别有EN Node、EE Node、ES Node三个相隔节点,对应的路径故障状态分别为L-EN、L-EE、L-ES。当L-EN、L-EE、L-ES中至少有一个为0时,则表示Current Node与E Node之间路径无故障;当L-EN、L-EE、L-ES均为1时分两种情况:(1)Current Node与E Node之间路径故障,数据无法到达EN Node、EE Node、ES Node;(2)Current Node与E Node之间路径无故障, ENode与EN Node、EE Node、ES Node三个相隔节点之间路径都出现故障,此时,尽管数据可以到达E Node但不能继续往下传输。如果使用这条路径,会导致回溯。因此,本发明定义当L-EN、L-EE、L-ES都为1时,等同于Current Node与E Node之间路径故障,E Node不可达。
对当前节点到所有相隔节点的路径进行测试,得到对应路径的故障状态,存储在当前节点的故障向量表中。如图3所示,Router 0为当前节点,Router 1为下游节点,Router 2为Router 0的相隔节点。相隔节点间路径故障状态表示为L-P1P2(P1,P2∈{ E,W,S,N })。如L-EE表示,数据从Router 0的E端口输出,到达Router 1后从E端口输出至Router2所经过的路径的故障状态(包括Router 0与Router 1之间的链路故障(图3中),Router1的输入Buffer故障(图3中),Router 1的内部通道故障(图3中),Router 1与Router 2之间的链路故障(图3中),Router 2的输入Buffer故障(图3中))。L-EE为0时,表示Router 0与Router 2之间的路径无故障,即Router 2可达;L-EE为1时,表示该条路径有故障,即Router 2不可达,这种故障状态可能由图3中的中一处或几处出现故障所导致。
当数据包传输到节点时,查询当前节点的故障向量表,如图4所示,读出当前节点到靠近目的节点的相隔节点的路径的故障状态,以E方向为例,若L-EE,L-ES,L-EN 处对应的故障向量均为1,则表示与E端口相连的链路故障,否则,该链路无故障。在路径无故障时,路由决策会根据拥塞参数选择一条最优路径输出数据。采用节点各端口申请输出但Crossbar未给予响应的个数作为拥塞参数,存储在CR中,进行路由计算时CR值会被传输至上游节点的RC模块,用于路由决策。为了保证CR值的实时性,每个时钟周期更新一次CR值。一旦采集到数据包申请输出端口但Crossbar未响应,CR值加1。当Crossbar在给定周期内未给予任何请求以应答信号,表示该交叉开关分配器故障,CR值置为最大。模型定义的参数反映整个路由器的拥塞情况,路由数据包时选出CR值小的输出通道。获取当前节点的下一跳节点的CR值,选取其中一条CR值小的作为路由路径。

Claims (3)

1.一种片上网络中新颖的故障与拥塞模型下的容错方法,使用一种新颖的相隔节点路径故障模型,使路由器以较小的开销为代价实现对两跳以内的路径故障状态的动态感知;同时,使用一种新颖的反映网络拥塞状态的拥塞模型获取下游节点的拥塞状态,结合故障感知的结果和拥塞状态信息,选取无故障且拥塞度小的路由器端口传输数据,其特征是包括以下步骤:
a、对当前节点到感知区域内的所有相隔节点的路径进行测试,得到对应路径的故障状态,存储在当前节点的故障向量表中,其中相隔节点表示为当前节点路由两跳到达的节点;
b、当数据传输到当前节点时,查询当前节点的故障感知区域内的故障向量表,获取当前节点到靠近目的节点的相隔节点的路径的故障状态,若靠近目的节点的路径均故障,转到c,否则转d;
c、查询当前节点的故障向量表中远离目的节点的路径故障状态,若均出现故障,则报错,否则转e;
d、获取当前节点的下一跳节点的CR值,选取其中一条CR值小且无故障的路径进行数据传输;当前节点的下一跳节点的CR值是指每个节点的相应端口存储下游节点的CR值,该值记录的是当前节点中各端口请求交叉开关未应答次数的总和;
e、从远离目的节点的备选路径中,选取一条无故障且CR值小的路径输出数据。
2.根据权利要求1所述的一种片上网络中新颖的故障与拥塞模型下的容错方法,其特征是所述步骤a中的故障向量表中记录的是当前节点到相隔节点的路径故障状态,故障向量表中用12-bit寄存器存储当前节点到所有相隔节点的路径故障状态。
3.根据权利要求1所述的一种片上网络中新颖的故障与拥塞模型下的容错方法,其特征是所述步骤b中的故障感知区域表示的是从当前节点到所有相隔节点所经过的路径,即当前节点选择东、南、西、北(E、S、W、N)不同的输出端口路由两跳经过的所有路径。
CN201410833884.9A 2014-12-29 2014-12-29 片上网络中新颖的故障与拥塞模型下的容错方法 Expired - Fee Related CN104579951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410833884.9A CN104579951B (zh) 2014-12-29 2014-12-29 片上网络中新颖的故障与拥塞模型下的容错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410833884.9A CN104579951B (zh) 2014-12-29 2014-12-29 片上网络中新颖的故障与拥塞模型下的容错方法

Publications (2)

Publication Number Publication Date
CN104579951A CN104579951A (zh) 2015-04-29
CN104579951B true CN104579951B (zh) 2018-03-23

Family

ID=53095184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410833884.9A Expired - Fee Related CN104579951B (zh) 2014-12-29 2014-12-29 片上网络中新颖的故障与拥塞模型下的容错方法

Country Status (1)

Country Link
CN (1) CN104579951B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024926B (zh) * 2015-07-23 2018-02-27 电子科技大学 一种应用于Mesh拓扑片上网络的故障信息传播方法
CN105656773B (zh) * 2016-03-24 2018-10-02 合肥工业大学 片上网络中针对瞬时故障和间歇性故障的高可靠链路容错模块及其方法
CN110430600B (zh) * 2019-08-09 2022-06-07 合肥工业大学 一种无线片上网络中基于错误避免策略的高效容错方法
CN110365579B (zh) * 2019-08-09 2021-05-04 合肥工业大学 无线片上网络中拥塞与故障感知无线路由器及其路由方法
CN111522775B (zh) * 2020-04-22 2023-05-16 合肥工业大学 片上网络路由装置及其控制方法
CN112468392B (zh) * 2020-10-21 2022-03-25 中山大学 一种处理多播流量死锁问题的片上网络及方法
CN112862068A (zh) * 2021-01-15 2021-05-28 复旦大学 面向复杂卷积神经网络的容错架构及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882783A (zh) * 2012-10-09 2013-01-16 上海交通大学 基于tsv的三维集成电路的片上网络的拓扑架构、路由方法
CN104052622A (zh) * 2014-06-23 2014-09-17 合肥工业大学 片上网络中基于故障通道隔离检测的路由器容错方法
CN104202253A (zh) * 2014-08-06 2014-12-10 长春理工大学 基于动态路由表的片上网络拥塞控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882783A (zh) * 2012-10-09 2013-01-16 上海交通大学 基于tsv的三维集成电路的片上网络的拓扑架构、路由方法
CN104052622A (zh) * 2014-06-23 2014-09-17 合肥工业大学 片上网络中基于故障通道隔离检测的路由器容错方法
CN104202253A (zh) * 2014-08-06 2014-12-10 长春理工大学 基于动态路由表的片上网络拥塞控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A new Fault-tolerant and Congestion-aware Adaptive Routing Algorithm for Regular Networks-on-Chip;Hamed S. Kia .et al;《IEEE》;20111231;全文 *

Also Published As

Publication number Publication date
CN104579951A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104579951B (zh) 片上网络中新颖的故障与拥塞模型下的容错方法
CN103986664B (zh) 一种用于片上网络的混合互连Mesh拓扑结构及其路由算法
US8819611B2 (en) Asymmetric mesh NoC topologies
US9077616B2 (en) T-star interconnection network topology
Akbari et al. AFRA: A low cost high performance reliable routing for 3D mesh NoCs
CN104539547B (zh) 一种用于三维集成电路片上网络的路由器及路由方法
Liu et al. Low cost fault-tolerant routing algorithm for networks-on-chip
CN102761475B (zh) 一种基于通道依赖关系图的片上互联网络容错路由方法
US10218581B2 (en) Generation of network-on-chip layout based on user specified topological constraints
CN109587048A (zh) 一种带有均衡策略的无虚通道容错路由算法
CN107612746A (zh) 一种构建Torus网络的方法、Torus网络和路由算法
Taheri et al. Advertiser elevator: A fault tolerant routing algorithm for partially connected 3D Network-on-Chips
Priya et al. Fault tolerance in network on chip using bypass path establishing packets
Kia et al. A new fault-tolerant and congestion-aware adaptive routing algorithm for regular networks-on-chip
CN113347029B (zh) 基于拓扑重构和路径规划的Torus网络容错方法
Rantala et al. Multi network interface architectures for fault tolerant Network-on-Chip
Yang et al. Fault-tolerant routing schemes in RDT (2, 2, 1)//spl alpha/-based interconnection network for networks-on-chip design
Coelho et al. A runtime fault-tolerant routing scheme for partially connected 3d networks-on-chip
Bishnoi Hybrid fault tolerant routing algorithm in NoC
Adamu et al. Review of deterministic routing algorithm for network-on-chip
Agyeman A low overhead fault reporting scheme for resilient 3D network-on-chip applications
Kamal et al. Network on chip: topologies, routing, implementation
Momeni et al. A low latency routing algorithm for irregular mesh network-on-chip
Sastry et al. HDL Design for 32 Port Real Time Tera Hertz (Tbps) Wi-Fi Router ASIC Soft IP Core for Complex Network-on-Chip Wireless Internet & Cloud Computing Applications
Wang et al. A hybrid on-chip network with a low buffer requirement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180323

Termination date: 20201229