CN104133732B - 针对3D NoC中TSV故障分级的容错方法 - Google Patents
针对3D NoC中TSV故障分级的容错方法 Download PDFInfo
- Publication number
- CN104133732B CN104133732B CN201410284216.5A CN201410284216A CN104133732B CN 104133732 B CN104133732 B CN 104133732B CN 201410284216 A CN201410284216 A CN 201410284216A CN 104133732 B CN104133732 B CN 104133732B
- Authority
- CN
- China
- Prior art keywords
- tsv
- group
- fault
- data
- transmission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种3D NoC中TSV故障分级的容错方法,将TSV及数据位均分为四组,若TSV故障状态值在6以内,则通过利用剩余可用TSV实现组与组间及组内数据位间的串行传输,否则使用局域化的容错路由算法,先在本地存储的TSV状态表中找出最优TSV的地址,并将其作为临时目的地址添加到数据包头部以完成层间通信。本发明方案通过判定TSV链路的故障等级选择相应的容错方法,在保证系统拥有较高可靠性的同时,减少可用资源的浪费。
Description
技术领域
本发明涉及集成电路芯片的应用技术领域,尤其涉及一种针对3D NoC中TSV故障分级的容错方法。
背景技术
3D IC技术是通过短且密集的Through Silicon Via(TSV)将多层硅片堆叠在一起,缩短了链路长度,增加了链路带宽,从而提高网络性能并降低通讯延时,在半导体产业已获得可观收益。虽然在集成系统中使用3D Network on Chip(NoC)架构相比传统2D NoC具有更多优点,但存在多种因素会导致3D架构变成非全互连。其原因可分为两个方面:
1、因TSV故障而导致的非全互连。在3D IC的封装过程中,由于制造TSV时可能产生空隙或气泡,绑定时TSV与衬垫不重合,以及在焊接过程TSV间短路或TSV与衬垫间开路均会导致TSV故障。同时,TSV在使用过程中也容易出现故障。
2、在某些特定应用中因各个模块大小不一(上层一个IP核的面积与下层若干个IP核总面积相当,而上层的IP核只与下层中一个IP核通过TSV相连)而导致3D NoC非全互连。
由TSV故障而导致的非全互连,可引起系统性能下降,甚至可能引起NoC通讯系统工作的停止,或者死锁甚至可能使整个芯片报废。因此,在3D NoC中对TSV进行硬件容错变得尤为重要。同时,要保证非全互连3D NoC架构下的系统性能,对容错路由算法的研究也必不可少。一般对于TSV容错的方案可分为三类:
1、采用冗余TSV,为达到一定的容错能力,需要添加足够多的冗余TSV,带来较大的面积和功耗开销,且只能容数量有限的TSV故障。
2、对TSV进行加固,当TSV链路故障时,利用该链路内剩余可用TSV串行传输数据,减少了因TSV故障而带来的系统性能降低,但在不添加冗余TSV的情况下容错性能不高。
3、采用容错路由算法绕过故障节点,但是这种方法会带来延时和功耗的增加以及系统性能的下降,并且会带来部分系统无故障资源的浪费。
发明内容
本发明目的就是为了弥补已有技术的缺陷,提供一种针对3D NoC中TSV故障分级的容错方法。
本发明是通过以下技术方案实现的:
一种针对3D NoC中TSV故障分级的容错方法,操作步骤如下:
a、对TSV链路进行故障测试,得到TSV链路中各TSV位线的故障状态;
b、对TSV链路中各组TSV的故障状态进行判定,若无TSV故障则将该组故障状态标记为(00)2,若组内故障TSV数≤1/2组内TSV数,则将该组故障状态标记为(01)2,否则将其故障状态标记为(10)2;对于(00)2组所对应的数据一次传输完毕;对于(01)2组所对应的数据分两次传输;(10)2组所对应的数据通过非(10)2组TSV进行传输,当四组TSV状态值之和大于6时,该TSV链路不可用;
c、对于TSV链路存在故障且仍可用时,数据通过TSV进行串行传输;
d、对于不可用的TSV链路,数据通过局域化的容错路由算法,找出最优TSV完成传输。
步骤c中所述的的串行传输为:当存在(10)2故障状态组时,需进行组与组间的串行传输;若存在(01)2故障状态组,需进行组内的数据串行传输,在组间串行传输时,串行控制器首先让(00)2/(01)2组传输数据,当其中一组传输完毕后,串行控制器将(10)2组对应的数据分配到该组上传输即可,在进行组内数据串行传输时,首先将无故障TSV所对应的数据位发送出去,第二周期再将剩余数据位分配到无故障TSV上传输即可。
步骤d所述的局域化的容错路由算法为:首先,每个路由器均需存储距离该节点两跳内各节点UP/Down TSV可用状态的TSV状态表,其次,将TSV表在逻辑上将分为四个区域,最后,当IP核需要层间通信时,在数据包发往网络之前,根据目的节点方向来选择查找TSVUP Table/TSV Down Table,采用由近至远的方式选出可用的TSV地址,将该TSV地址作为临时目的地址放在数据包头部,利用XY-YX路由算法找到该地址后,去掉临时数据包头,根据原目的地址继续传输即可。
本发明的优点是:本发明是将TSV的硬件加固方法与容错路由算法相结合,在不同TSV故障状态下,采用相应的容错措施,当TSV故障状态值在一定范围内时,数据可通过重映射分多次传输出去,如此不但可以充分利用故障TSV链路中剩余可用的TSV,还能够降低因TSV链路故障造成的网络拥塞,当TSV链路确定不可用时,通过局域化的容错路由算法完成层间通信,保证了系统的可靠性,同时由于提出的路由算法可使数据包尽可能在最短路径上传输,也减少了延时及功耗开销。
附图说明
图1为N位数据可重映射的容错TSV架构。
图2为故障检测过程。
图3为TSV故障诊断向量对应的分组状态标记。
图4为15种组合方式下所需的周期数。
图5为TSV状态表。
图6为第四象限查找顺序。
具体实施方式
一种针对3D NoC中TSV故障分级的容错方法,操作步骤如下:
a、对TSV链路进行故障测试,得到TSV链路中各TSV位线的故障状态;
b、对TSV链路中各组TSV的故障状态进行判定,若无TSV故障则将该组故障状态标记为(00)2,若组内故障TSV数≤1/2组内TSV数,则将该组故障状态标记为(01)2,否则将其故障状态标记为(10)2;对于(00)2组所对应的数据一次传输完毕;对于(01)2组所对应的数据分两次传输;(10)2组所对应的数据通过非(10)2组TSV进行传输,当四组TSV状态值之和大于6时,该TSV链路不可用;
c、对于TSV链路存在故障且仍可用时,数据通过TSV进行串行传输;
d、对于不可用的TSV链路,数据通过局域化的容错路由算法,找出最优TSV完成传输。
为最大限度的利用链路带宽,本发明将TSV与数据位均分为四组。N位数据可重映射的容错TSV架构,具体如图1所示。
TSV故障测试:
为保证数据正确传输,需在路由器中添加用来判定TSV是否故障的诊断模块。该模块在系统启动或运行异常时,向TSV链路发送两个测试向量{0}、{1}。若TSV功能均良好,下游接收到的测试响应为{0}、{1},若TSV存在故障,下游接收到的测试响应中对应故障TSV的响应均为0,具体如图2所示。
TSV链路故障状态判定:
为避免资源浪费且不增加网络通信负担,本发明对故障TSV链路通过串行化方式传输数据。图1中串行控制器接收到Fault_Vector TSV故障诊断向量后,分析[0..7]、[8..15]、[16..23]及[24..31各组中TSV故障数,并判定该组的故障状态。若无TSV故障则将该组故障状态标记为(00)2;若组内故障TSV数≤1/2组内TSV数,则将该组故障状态标记为(01)2;否则将其故障状态标记为(10)2。如图3所示,故障诊断向量里的0表示TSV故障,1表示TSV功能良好,每8位下的00/01/10代表该组的故障状态。对于(01)2状态组所对应的数据将分两次传输,即需要两个周期才能传输完毕。(10)2状态组所对应的数据可通过非(10)2组TSV进行传输。
四个分组三种状态可有15种组合方式,具体如图4所示。在15种组合方式中有13种所需周期数均小于等于4。经分析可知,这13种组合方式下4组状态值之和均小于等于6,即m*(00)2+n*(01)2+t*(10)2≤6(其中m、n、t表示对应状态的个数)。当状态值之和大于6时,串行控制器通过TSV_available信号线告知路由器,其TSV链路不可用。
TSV串行传输数据:
本发明提出的串行可分两类,一类是存在(10)2组时,组与组间的串行传输;一类是存在 (01)2组时,组内数据的串行传输。当需要组间串行时,串行控制器会首先让(00)2/(01)2组传输数据,当其中一组传输完毕后,串行控制器将(10)2组对应的数据分配到该组上传输即可。当进行组内数据串行传输时,首先将无故障TSV所对应的数据位发送出去,第二周期再将剩余数据位分配到无故障TSV上传输即可。
局域化的容错算法:
本发明提出的局域化容错算法要求每个路由器需存储距离该节点两跳内各节点UP/Down TSV的可用状态,如图5所示。给出了节点(2,2,0)与节点(0,4,0)存储的UP TSV状态表。由于图中的3D架构只有两层,所以底层路由器只需存储一张TSV UP Table。表中阴影部分不存储数据,横向代表X坐标,纵向代表Y坐标,表中的1表示TSV无故障,0表示有故障。
本发明在逻辑上将TSV表分为四个区域,若网络规模为n×n的2D mesh,当前节点C的坐标为(xc,yc),则以C为中心所确定的四个区域坐标关系具体如下所示:
第一区域:xc<x≤xn-1 && yc≤y≤yn-1;
第二区域:x0≤x≤xc && yc<y≤yn-1;
第三区域:x0≤x<xc && y0≤y≤yc;
第四区域:xc≤x≤xn-1 && y0≤y<yc;
当IP核需要层间通信时,在数据包发往网络之前,根据目的节点方向来选择查找TSV UP Table/TSV Down Table,并选出可用的最优TSV地址。查找最优TSV的方法是,若当前节点的TSV故障,则根据目的节点在本层上的映射节点与当前节点的相对距离由近至远的方式逐一查找,见图6。
图6给出了第四区域内的查找顺序,其中1、2节点离当前节点C的网络距离为一跳,3、4、5节点离C两跳。
若该区域中无可用TSV,再根据映射节点更偏向哪一区域,并查找该区域内距离当前节点为一跳的TSV是否可用。若仍不可用再查找另一相邻区域内距离当前节点一跳的TSV是否可用,否则查找相反区域中距离当前节点一跳的TSV是否可用。若其它三个区域中距离当前节点为一跳的TSV均不可用,再按此顺序在三个区域中查找离当前节点两跳的TSV是否可用。比如映射节点在第四区域,若该区域中无可用TSV且映射节点比较靠近第一区域,则先查看该区域中距离C为一跳的TSV是否可用,否则在第三区域中查找距离C为一跳的TSV是否可用,若仍未查到,再查找第二区域中距离C为一跳的TSV是否可用。若距离C为一跳的TSV均不可用,再按此顺序查找距离C为两跳的TSV是否可用。
对于大规模网络来说,本发明查找到的TSV地址不一定最优,但相比最优传输路径只多出四跳,因在TSV表中查找到的TSV地址节点与当前节点间的距离最多为两跳。
若本地TSV可用,则根据目的节点所在方向,直接将数据包向上/向下传输,到达上/下层后再根据本发明的整体方案继续传输。若本地TSV不可用,在找到最优TSV的地址后,将其作为临时目的地址添加到临时数据包头中,使用XY-YX路由算法找到临时目的节点。到达目的节点后去掉临时数据包头,再根据目的节点的方向继续传输,直至到达目的节点。
Claims (1)
1.一种针对3D NoC中TSV故障分级的容错方法,其特征在于:操作步骤如下:
a、对TSV链路进行故障测试,得到TSV链路中各TSV位线的故障状态;
b、对TSV链路中各组TSV的故障状态进行判定,若无TSV故障则将该组故障状态标记为(00)2,若组内故障TSV数≤1/2组内TSV数,则将该组故障状态标记为(01)2,否则将其故障状态标记为(10)2;对于(00)2组所对应的数据一次传输完毕;对于(01)2组所对应的数据分两次传输;(10)2组所对应的数据通过非(10)2组TSV进行传输,当四组TSV状态值之和大于6时,该TSV链路不可用;
c、对于TSV链路存在故障且仍可用时,数据通过TSV进行串行传输;
d、对于不可用的TSV链路,数据通过局域化的容错路由算法,找出最优TSV完成传输;
步骤c中所述的串行传输为:当存在(10)2故障状态组时,需进行组与组间的串行传输;若存在(01)2故障状态组,需进行组内的数据串行传输,在组间串行传输时,串行控制器首先让(00)2/(01)2组传输数据,当其中一组传输完毕后,串行控制器将(10)2组对应的数据分配到该组上传输即可,在进行组内数据串行传输时,首先将无故障TSV所对应的数据位发送出去,第二周期再将剩余数据位分配到无故障TSV上传输即可;
步骤d所述的局域化的容错路由算法为:首先,每个路由器均需存储距离该节点两跳内各节点UP/Down TSV可用状态的TSV状态表,其次,将TSV表在逻辑上将分为四个区域,最后,当IP核需要层间通信时,在数据包发往网络之前,根据目的节点方向来选择查找TSV UPTable/TSV Down Table,采用由近至远的方式选出可用的TSV地址,将该TSV地址作为临时目的地址放在数据包头部,利用XY-YX路由算法找到该地址后,去掉临时数据包头,根据原目的地址继续传输即可。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410284216.5A CN104133732B (zh) | 2014-06-23 | 2014-06-23 | 针对3D NoC中TSV故障分级的容错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410284216.5A CN104133732B (zh) | 2014-06-23 | 2014-06-23 | 针对3D NoC中TSV故障分级的容错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104133732A CN104133732A (zh) | 2014-11-05 |
CN104133732B true CN104133732B (zh) | 2017-11-28 |
Family
ID=51806417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410284216.5A Active CN104133732B (zh) | 2014-06-23 | 2014-06-23 | 针对3D NoC中TSV故障分级的容错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104133732B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022051042A1 (en) * | 2020-09-04 | 2022-03-10 | Micron Technology, Inc | Redundant through-silicon vias |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740089B (zh) * | 2016-01-22 | 2018-11-06 | 合肥工业大学 | 一种基于数据位宽重组的三维片上网络容错电路及其容错方法 |
CN106503333B (zh) * | 2016-10-20 | 2019-01-25 | 桂林电子科技大学 | 一种三维片上网络测试规划方法 |
CN110620097A (zh) * | 2018-06-20 | 2019-12-27 | 北京信息科技大学 | 一种3d芯片冗余硅通孔的容错结构和方法 |
CN110323218B (zh) * | 2019-06-06 | 2020-11-03 | 安徽工程大学 | 一种面向三维集成电路中tsv的容错架构 |
CN110351192B (zh) * | 2019-08-15 | 2021-05-07 | 电子科技大学 | 一种面向片上网络的多层次动态可选复合型路由控制方法 |
CN112036458B (zh) * | 2020-08-21 | 2023-05-23 | 上海电机学院 | 一种滚动轴承故障诊断方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102709272A (zh) * | 2011-03-28 | 2012-10-03 | 财团法人工业技术研究院 | 硅通孔的容错单元与方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2194667B1 (en) * | 2008-12-03 | 2017-03-15 | Alcatel Lucent | Error control on-demand |
-
2014
- 2014-06-23 CN CN201410284216.5A patent/CN104133732B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102709272A (zh) * | 2011-03-28 | 2012-10-03 | 财团法人工业技术研究院 | 硅通孔的容错单元与方法 |
Non-Patent Citations (2)
Title |
---|
三维芯片过硅通孔容错技术研究;董福弟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130315;全文 * |
面向非全互连3D NoC可靠通信的分布式路由算法;欧阳一鸣,韩倩倩,梁华国,黄正峰,汪秀敏;《计算机辅助设计与图形学学报》;20140331;第26卷(第3期);全文 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022051042A1 (en) * | 2020-09-04 | 2022-03-10 | Micron Technology, Inc | Redundant through-silicon vias |
Also Published As
Publication number | Publication date |
---|---|
CN104133732A (zh) | 2014-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104133732B (zh) | 针对3D NoC中TSV故障分级的容错方法 | |
CN111326194B (zh) | 具有失效管理的3d堆叠式集成电路 | |
CN104539547B (zh) | 一种用于三维集成电路片上网络的路由器及路由方法 | |
CN110516272B (zh) | 一种三维集成电路缺陷tsv的动态自修复方法和装置 | |
TW201025543A (en) | Systems and methods utilizing redundancy in semiconductor chip interconnects | |
CN104052622B (zh) | 片上网络中基于故障通道隔离检测的路由器容错方法 | |
CN111326504B (zh) | 具有被配置成提供冗余点的功能块的3d堆叠式集成电路 | |
US11114417B2 (en) | Through-silicon via (TSV) test circuit, TSV test method and integrated circuits (IC) chip | |
CN104579951B (zh) | 片上网络中新颖的故障与拥塞模型下的容错方法 | |
CN105577539B (zh) | 一种面向非规则三维集成电路片上网络的路由方法及系统 | |
US10635538B2 (en) | Semiconductor device and control method thereof for processing | |
JP6428210B2 (ja) | 半導体装置および半導体装置の試験方法 | |
Refan et al. | Reliability in application specific mesh-based NoC architectures | |
Taheri et al. | Advertiser elevator: A fault tolerant routing algorithm for partially connected 3D Network-on-Chips | |
US8732647B1 (en) | Method for creating physical connections in 3D integrated circuits | |
Jiang et al. | Fault-Tolerant 3D-NoC architecture and design: recent advances and challenges | |
Salamat et al. | CoBRA: Low cost compensation of TSV failures in 3D-NoC | |
US11411861B2 (en) | Routing messages in an integrated circuit chip device using a crosslinked tree structure | |
Garbade et al. | Fault localization in NoCs exploiting periodic heartbeat messages in a many-core environment | |
Concatto et al. | Improving the yield of NoC-based systems through fault diagnosis and adaptive routing | |
CN118093501A (zh) | 一种堆叠芯片及其数据传输方法 | |
CN112148643A (zh) | 模块化集成电路装置中的分布式i/o接口 | |
Song et al. | Fault and self-repair for high reliability in die-to-die interconnection of 2.5 D/3D IC | |
Chan et al. | A strategy for interconnect testing in stacked mesh network-on-chip | |
US20240330222A1 (en) | REDUNDANCY SCHEME FOR ACTIVATING CIRCUITRY ON A BASE DIE OF A 3D stacked device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201229 Address after: 245000 No.50, Meilin Avenue, Huangshan Economic Development Zone, Huangshan City, Anhui Province Patentee after: Huangshan Development Investment Group Co.,Ltd. Address before: 230009 No. 193, Tunxi Road, Hefei, Anhui Patentee before: Hefei University of Technology |