CN102831037A - 一种数据通路分片的冗余保护结构 - Google Patents

一种数据通路分片的冗余保护结构 Download PDF

Info

Publication number
CN102831037A
CN102831037A CN2012102481613A CN201210248161A CN102831037A CN 102831037 A CN102831037 A CN 102831037A CN 2012102481613 A CN2012102481613 A CN 2012102481613A CN 201210248161 A CN201210248161 A CN 201210248161A CN 102831037 A CN102831037 A CN 102831037A
Authority
CN
China
Prior art keywords
fragment
data
component
fault
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102481613A
Other languages
English (en)
Other versions
CN102831037B (zh
Inventor
高旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210248161.3A priority Critical patent/CN102831037B/zh
Publication of CN102831037A publication Critical patent/CN102831037A/zh
Application granted granted Critical
Publication of CN102831037B publication Critical patent/CN102831037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明为一个片上网络容错路由器数据通路部件的容错保护结构,对于开销较大的部件先将其分片,再对分片进行冗余备份,以降低增加可靠性带来的面积开销。当某个分片出现故障时,数据使用的部件分片从故障分片开始依次下移,最后一路数据使用冗余分片进行传输。本发明中用两组多路选择器网络控制数据使用的分片,多路选择器的控制信号由“分片选通控制器”模块进行控制,该模块接收来自分片状态指示器模块传递来的分片故障信息,之后产生多路选择器的控制信号,数据根据多路选择器的选通情况选择合适的分片传输数据。由于单个分片出现错误的概率较大,因此使用本发明中的容错路由器恰好适合这种故障情况,可以保证片上网络性能不受任何损失。

Description

一种数据通路分片的冗余保护结构
技术领域
本发明涉及片上网络可靠性设计技术领域,为其中片上路由器数据通路部件的冗余备份结构。
背景技术
随着VLSI技术的发展,越来越多的片上处理单元(存储单元、信号处理单元、输入输出单元)将会被集成在同一个die上。片上网络(Network-on-Chip,NoC)依靠其可扩展性好,吞吐量大的特点逐渐成为片上互连的主要标准。随着芯片规模的不断扩大和集成度的不断提高,NoC的组件会受到两类错误的影响:(1)暂时性(transient)错误和(2)长期性(permanent)错误。这些错误会降低芯片的成品率并影响片上互连的效率和可靠性。
由于片上网络可以看成一组结构化路由器的互连结构,片上路由器负责网络流量控制和路由计算,其中流水线部件,存储部件,交叉互连开关以及通道属于“数据通路部件”,其它部件属于“控制部件”。在SMIC 90nm工艺下,假设路由器之间点对点通道的宽度是0.8mm(例如ARM9处理器内核),综合结果表明:通道,存储部件,流水线寄存器和交叉开关等“数据通路部件”的面积开销较大,占路由器面积的绝大部分。因此直接对这些部件做冗余将会使路由器面积成倍增长。因此,为保证在NoC组件出现故障情况下的通信效率,能够实现错误容忍的路由器结构是一种有效的解决方案。
以往的容错路由器设计大多使用对组件直接进行冗余备份的策略。它为每个路由器组件提供一个冗余部件,当一个部件出错停止工作时,可以使用冗余部件进行替代。这种设计可以在一定程度上提高路由器的容错能力,但是冗余策略需要较大的面积开销,使用冗余策略的路由器面积通常是原来的2倍(双模冗余DMR)或3倍(三模冗余TMR)。在NoC面积资源有限的情况下,这种容错策略难以满足要求。此外,正是由于冗余部件占用的芯片面积较大,故障概率也随之提高,严重时导致NoC停止工作。
由此可见,要实现对高可靠性的片上互连,保障片上网络正常工作,首先需要设计针对路由器组件的容错保护机制,控制提高可靠性带来的面积开销。尽管存在多种方法来提高片上路由器的可靠性,但是其中一些方法没能把面积开销降低到一定程度,一些方法面积开销虽然小,但是系统性能依旧随着故障增多迅速降低。例如,一种面积开销较小的数据通路部件保护机制如图1所示,这是一种基于数据通路分片技术的容错路由器结构的一部分,图中标示出了数据输入的N方向和输出的S方向。利用数据通路部件的可分片特点,时分复用正常工作的部件分片,从而降低传输延迟。考虑一个64bit的通道出错的情况,通常认为组成通道的64根导线全部失效,但是由于可以认为数据通道是由一组并行工作的通道“分片”(Slice)组成(4个通道“分片”,每个位宽16bit),分片之间互不影响。由于面积开销和故障数目存在正比关系,每个分片的面积较小,因此分片出错的概率很低,其中一个分片失效并不会影响其它分片正常工作。此时利用这些正常工作的分片,采用时分复用方法对数据进行传输可以在一定程度上提高路由器的容错能力,从而在提高可靠性的同时降低面积开销。对于其它数据通路部件,例如,一个64bit的先入先出(FIFO)存储部件可以分成4个位宽16bit的FIFO分片;一个64bit的交叉开关部件可以分成4个位宽16bit的开关部件分片等,如图1所示。此设计虽然能够在一定程度上降低面积开销,然而并没有考虑当分片故障数量增大时对性能的影响。在分片故障数量较大时,此设计会严重降低数据通路部件的吞吐量。
因此,如果能在此设计的基础上,结合传统的冗余策略,通过增加一级分片作为冗余备份,可在面积开销增大不多的情况下,大幅度提高系统的性能。
发明内容
本发明的任务在于,获得一个即可使面积开销小、功耗低,又可当故障分片数量增多时系统性能不受影响的容错保护结构。
本发明在原有分片的基础上增加一条冗余分片,用于在某个分片出错的情况下对其进行替代,在分片的前后端分别加入多个选择器,用于动态改变数据传输所使用的分片。本发明的关键点在于如何通过已得知的分片故障情况,控制多路选择器的控制信号合理的对故障分片进行替代。
该分片容错结构的主要特征在于:
(1)通过将待输入分片的每路数据信号连接至某个多路选择器的输入端,根据分片的故障情况,控制多路选择器的控制信号,达到改变数据使用的部件分片的目的。
(2)在多路选择器构成的分片选择结构中,共有两组多路选择器网络,一组多路选择器控制数据使用哪些正常的分片;另一组控制如何从分片中提取数据,并放到下一级需要使用这些数据的部件中。
适合本发明的一个优点在于,多路选择器网络可以适应任何一种分片故障的组合。当得知部件分片故障情况时,控制模块改变每个多路选择器的控制信号,改变数据所使用的分片。
适合本发明的另一个优点在于,系统性能不会由于分片故障数量增大而显著降低,由于本发明增加了一个冗余分片,由于分片出错的概率很小,1个或2个分片出错已经覆盖了大部分故障情况,而当这种情况发生时,使用本发明的容错保护结构,即使用冗余分片替代故障分片,可使性能不受任何影响。
附图说明
在附图的各图中举例而不是限制地说明本发明,其中:
图1以方框图的形式表示出使用数据通路部件分片容错策略的片上路由器NS方向数据流向示意图。
图2以具体电路的形式表示本发明的分片冗余保护结构。
图3以具体电路的形式表示如何将本发明的分片冗余保护结构和部件的分片容错策略结合到一起。
图1是本发明之前用来提高片上网络的可靠性的方法之一,使用该方法对数据通路部件进行分片容错,在分片故障数目较大时会影响网络性能。图2是本发明的分片冗余结构,表述了结构各部分的组成,该电路中标号和权利要求中的描述标号对应。图3是本发明的一个应用场景,对已使用分片容错策略进行保护的数据通路部件进行分片冗余备份,以提高系统性能。
具体实施方式
描述一种新颖的故障检测电路。在以下的详细描述中,为了彻底理解本发明,给出了许多具体细节,但是,本领域的普通技术人员都知道没有这些具体细节也可以实施本发明。在其它情况下,众所周知的方法、过程、元件和电路都没有详细描述,以便不使本发明模糊不清。
在图2中“分片故障指示器”用于指示数据即将进入的数据通路部件分片中有哪些出现了故障。以64bit带宽的数据通路部件为例,若此时分成4个分片(每个16bit),则分片故障指示器的输出为一个4bit的向量,每个bit用“0”和“1”分别代表对应的分片“未出错”和“出错”。例如,若分片状态指示器的输出为“0101”,表示第二和第四个分片出现故障。
“分片选通控制器”输出7bit的控制信号,每个bit的控制信号分别连入7个多路选择器的控制端口。7个多路选择器共分为两组,第一组为三个,第二组为四个。第一组的三个多路选择器Mux1,Mux2和Mux 3负责根据分片选通控制器给出的控制信号,把数据选进相应的部件分片中。在大多数情况下,若无故障的部件分片,也即分片故障状态指示器输出“0000”,分片选通控制器给第一组多路选择器网络输出的3个bit控制信号为“000”,则3个多路选择器选通下面一路信号,也即“b”路的数据信号,使其通过多路选择器进入数据通路的部件分片中传递。当分片中存在故障时,为了避开故障分片,多路选择器选择“a”路数据通过,数据使用的部件分片从故障分片开始依次下移一个。以图2中的情况为例,此时部件分片3为一个故障分片,“分片故障指示器”输出信号为“0010”,“分片选通控制器”输出“0x1”。第一路和第二路数据仍然使用部件分片1和2,然而原来使用部件分片3的第三路数据信号由于Mux 3选通了a路输入,使第三路数据选择部件分片4进行传输,而原来使用部件分片4的第四路数据选择“冗余分片”进行传输,也即从第三路信号开始,所使用的部件分片依次下移,最后一路数据使用冗余分片。在输出信号中有一个bit为“x”,表示这个bit的值可以是任意的(“0”或“1”均可),因为Mux2连接的部件分片为故障分片,因此无论选通哪路数据都可,并不会影响实际结果。
对于第二组多路选择器网络,包含Mux4,Mux5,Mux6和Mux7。它们负责根据“分片选通控制器”的输出来决定选择“a”路或者“b”路数据通过自身。仍旧以图2所示的情况为例。此时“分片选通控制器”向第二组的4个多路选择器的控制端输出的信号为“1100”,Mux4和Mux5选通a路信号,因为a路信号分别是第一路和第二路数据使用正常部件分片之后的输出。由于第三个部件分片出错,输入数据使用的部件分片依次下移,因此Mux6和Mux7选择b路数据信号通过自身。由此可见,虽然部件分片存在故障,但使用本发明可以使数据仍旧完好无损的输出到下一级数据通路部件。
图3为本发明的一个应用实例。在图1的基础上加入了本发明的分片冗余保护结构。图1虽然是提高可靠性的一种方法,但是对“链路分片”,“缓存分片”以及“交叉开关分片”均没有进行冗余备份,因此在这些部件故障数量较大时会严重影响系统性能。在使用本发明时,加装非常简单,在原有的数据通路部件分片的前端和后端加入上述两组多路选择器网络,在原有分片数量的基础上增加一级冗余分片,即可构成一个分片冗余备份结构。

Claims (3)

1.一种数据通路部件的容错保护装置,首先将部件进行分片,形成N个依次排列的部件分片,则输入的数据信号分为N路,其特征在于,该容错保护装置还包括分片故障状态指示模块、分片选通控制模块、排列在部件分片后的冗余分片、设置在部件分片和冗余分片前的N-1个依次排列的输入端多路选择器、以及设置在部件分片和冗余分片后的N个依次排列的输出端多路选择器,其中分片故障状态指示模块,用于指示数据即将进入的数据通路的部件分片的故障情况;分片选通控制模块,用于根据分片故障状态指示模块中指示的部件分片的故障情况选通多路选择器,选择合适的部件分片和冗余分片传输数据。
2.根据权利要求1所述的容错保护装置,其特征在于,若将部件分为N=4个分片,分别为部件分片1、部件分片2、部件分片3和部件分片4,此时输入的数据信号分为4路数据,分别为第一路数据,第二路数据、第三路数据和第四路数据,该容错保护装置包括3个输入端多路选择器,分别为Mux1、Mux2、和Mux3,4个输出端多路选择器,分别为Mux4,Mux5,Mux6,Mux7,多路选择器包括a输入口和b输入口;其中,
输入端多路选择器的连接关系为:
第一路数据直接连接部件分片1,同时连接至Mux1的a输入口;
第二路数据连接Mux1的b输入口,同时连接Mux2的a输入口;
第三路数据连接Mux2的b输入口,同时连接Mux3的a输入口;
第四路数据连接Mux3的b输入口,同时直接连接至冗余分片;
Mux1,Mux2和Mux3的输出端分别连接部件分片2,3和4;
输出端多路选择器的连接关系为:
部件分片1直接连接至Mux4的a输入口;
部件分片2同时连接Mux4的b输入口和Mux5的a输入口;
部件分片3同时连接Mux5的b输入口和Mux6的a输入口;
部件分片4同时连接Mux6的b输入口和Mux7的a输入口;
冗余分片直接连接至Mux7的b输入口。
3.根据权利要求1-2任一所述的容错保护装置,其特征在于,所述分片选通控制模块的输出的bit数为2N-1,每个bit代表的信息分别控制每个多路选择器。
CN201210248161.3A 2012-07-17 2012-07-17 一种数据通路分片的冗余保护结构 Active CN102831037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210248161.3A CN102831037B (zh) 2012-07-17 2012-07-17 一种数据通路分片的冗余保护结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210248161.3A CN102831037B (zh) 2012-07-17 2012-07-17 一种数据通路分片的冗余保护结构

Publications (2)

Publication Number Publication Date
CN102831037A true CN102831037A (zh) 2012-12-19
CN102831037B CN102831037B (zh) 2015-01-07

Family

ID=47334186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210248161.3A Active CN102831037B (zh) 2012-07-17 2012-07-17 一种数据通路分片的冗余保护结构

Country Status (1)

Country Link
CN (1) CN102831037B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104348738A (zh) * 2013-07-26 2015-02-11 华为技术有限公司 缓存器和路由器
CN104539547A (zh) * 2014-11-14 2015-04-22 中国科学院计算技术研究所 一种用于三维集成电路片上网络的路由器及路由方法
CN109062501A (zh) * 2018-07-05 2018-12-21 南京信息职业技术学院 一种基于ida算法的网盘聚合方法
CN111694271A (zh) * 2020-07-15 2020-09-22 中国核动力研究设计院 基于分布式控制系统的冗余容错控制系统和方法
CN112948167A (zh) * 2021-03-31 2021-06-11 地平线征程(杭州)人工智能科技有限公司 数据通路的保护电路、方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008038235A2 (en) * 2006-09-27 2008-04-03 Ecole Polytechnique Federale De Lausanne (Epfl) Method to manage the load of peripheral elements within a multicore system
CN101232456A (zh) * 2008-01-25 2008-07-30 浙江大学 一种分布式可测试片上网络路由器
CN101251816A (zh) * 2008-03-13 2008-08-27 中国科学院计算技术研究所 一种用于可编程器件的冗余系统及其冗余实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008038235A2 (en) * 2006-09-27 2008-04-03 Ecole Polytechnique Federale De Lausanne (Epfl) Method to manage the load of peripheral elements within a multicore system
CN101232456A (zh) * 2008-01-25 2008-07-30 浙江大学 一种分布式可测试片上网络路由器
CN101251816A (zh) * 2008-03-13 2008-08-27 中国科学院计算技术研究所 一种用于可编程器件的冗余系统及其冗余实现方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104348738A (zh) * 2013-07-26 2015-02-11 华为技术有限公司 缓存器和路由器
CN104348738B (zh) * 2013-07-26 2018-02-23 华为技术有限公司 缓存器和路由器
CN104539547A (zh) * 2014-11-14 2015-04-22 中国科学院计算技术研究所 一种用于三维集成电路片上网络的路由器及路由方法
CN104539547B (zh) * 2014-11-14 2017-10-10 中国科学院计算技术研究所 一种用于三维集成电路片上网络的路由器及路由方法
CN109062501A (zh) * 2018-07-05 2018-12-21 南京信息职业技术学院 一种基于ida算法的网盘聚合方法
CN111694271A (zh) * 2020-07-15 2020-09-22 中国核动力研究设计院 基于分布式控制系统的冗余容错控制系统和方法
CN111694271B (zh) * 2020-07-15 2022-02-01 中国核动力研究设计院 基于分布式控制系统的冗余容错控制系统和方法
CN112948167A (zh) * 2021-03-31 2021-06-11 地平线征程(杭州)人工智能科技有限公司 数据通路的保护电路、方法、装置及计算机可读存储介质
US12119072B2 (en) 2021-03-31 2024-10-15 Horizon Journey (Hangzhou) Artificial Intelligence Technology Co., Ltd. Protection circuit, method and apparatus for data path, and computer readable storage medium

Also Published As

Publication number Publication date
CN102831037B (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN102831037B (zh) 一种数据通路分片的冗余保护结构
Tsai et al. A fault-tolerant NoC scheme using bidirectional channel
US8315175B2 (en) Router switch fabric protection using forward error correction
Lehtonen et al. Self-adaptive system for addressing permanent errors in on-chip interconnects
Rossi et al. Configurable error control scheme for NoC signal integrity
WO2008128836A2 (en) Dynamically rerouting node traffic on a parallel computer system
CN102761475A (zh) 一种基于通道依赖关系图的片上互联网络容错路由方法
US10409686B2 (en) Apparatus and method to determine plural locations in communication circuits at which failures have occurred
Chatterjee et al. A spare router based reliable network-on-chip design
Khalil et al. Flexible self-healing router for reliable and high-performance network-on-chips architecture
CN101126994B (zh) 数据处理装置及其模式管理装置以及模式管理方法
CN105656773B (zh) 片上网络中针对瞬时故障和间歇性故障的高可靠链路容错模块及其方法
Zonouz et al. A fault tolerant NoC architecture for reliability improvement and latency reduction
Ren et al. A VLSI architecture for enhancing the fault tolerance of NoC using quad-spare mesh topology and dynamic reconfiguration
US7170908B2 (en) System and method of selecting sources for a network element having redundant sources
KR100277137B1 (ko) 전기 및 데이터 통신장치
Wang et al. A small-granularity solution on fault-tolerant in 2D-mesh Network-on-Chip
Shahiri et al. A reliable and high-performance network-on-chip router through decoupled resource sharing
US20150049758A1 (en) Hot carrier injection tolerant network on chip router architecture
JP3317678B2 (ja) データの伝送および経路選択を制御する方法
Wu et al. Exploration of a reconfigurable 2D mesh network-on-chip architecture and a topology reconfiguration algorithm
CN219695752U (zh) 一种串行通信电路
Chen et al. Slice router: For fine-granularity fault-tolerant Networks-on-Chip
Wächter et al. Mazenoc: Novel approach for fault-tolerant noc routing
CN221378621U (zh) 一种接口电路和soc芯片

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant