CN112702285A - 容错架构构架系统与容错架构控制方法 - Google Patents

容错架构构架系统与容错架构控制方法 Download PDF

Info

Publication number
CN112702285A
CN112702285A CN202110003217.8A CN202110003217A CN112702285A CN 112702285 A CN112702285 A CN 112702285A CN 202110003217 A CN202110003217 A CN 202110003217A CN 112702285 A CN112702285 A CN 112702285A
Authority
CN
China
Prior art keywords
aet
units
unit
fault
peripheral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110003217.8A
Other languages
English (en)
Inventor
刘力政
邹卓
郑立荣
胡晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110003217.8A priority Critical patent/CN112702285A/zh
Publication of CN112702285A publication Critical patent/CN112702285A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/552Prevention, detection or correction of errors by ensuring the integrity of packets received through redundant connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了容错架构构架系统与容错架构控制方法,包括处理核心单元和外设单元,所述处理核心单元用于进行本地计算,所述外设单元用于进行全局通信和系统控制,所述处理核心单元包括至少两个AET细胞簇,所述AET细胞簇包括一个中心AET单元和三个外围AET单元,所述中心AET单元和外围AET单元的网络结构均相同,所述AET细胞簇的中心AET单元与三个所述外围AET单元均以120°的夹角相连接;至少两个所述AET细胞簇中的每个所述AET单元均包括三条通讯链路,所述处理核心单元配置有连接策略,所述连接策略包括使不同的AET细胞簇中的外围AET单元之间相互连接。本发明提供了一种容错架构构架系统与容错架构控制方法,该容错架构具有可伸缩、高度可靠和灵活的网络结构。

Description

容错架构构架系统与容错架构控制方法
技术领域
本发明涉及容错架构技术领域,具体为容错架构构架系统与容错架构控制方法。
背景技术
现代电子系统,不论是芯片级,还是板级,乃至于系统级,当某一部分甚至是某一个单元出错,整个系统将会受到破坏甚至失效。为了保证系统中数据和系统功能的完整性,传统的容错策略,如多模冗余容错,纠错码等方式;在传统的容错方式中应用最多的方法是采用冗余容错,冗余容错包含硬件冗余、时间冗余和信息冗余。其中较多采用二冗余度或多冗余度系统实现系统备份、恢复和不间断运行。对于双机备份设计,当两个模块均发生故障时系统将无法免除故障正常工作,容错能力有限。近年来随着计算机技术和电子技术的进步,出现了受生物启发的容错设计。如基于种群发生学的可进化硬件容错技术(EHW),进化硬件指可根据当前环境自动改变自身结构和功能以适应环境变化的硬件系统。它主要由可重配置硬件和配置引擎构成,但这种方法目前还是基本上局限于FPGA,FPAA和FPA的电路系统结构上,并且需要一个处理核来运行进化算法,容错速度慢。在现有的电路编码模式下,EHW技术受搜索空间大小和演化时间的限制,局限于一些简单电路的容错应用。
路由算法是片上网络(NoC)的研究重点,高效的路由策略不仅对网络功耗,而且还对传输延迟和拥塞信息造成控制。在2D Mesh结构中常采用的X-Y路由算法,但这种路由算法不具有容错性。在以往的路由容错中,一般采用改进型X-Y路由算法来实现。如转向模型路由算法,奇偶转弯模型,基于奇偶转弯模型的EX-XY路由算法。基于转弯模型的容错路由算法对于n维的网格结构网络最多容忍n-1个故障。但不支持在n维网络出现多于n-1的错误,可以容忍出错的节点数较少。EX-XY容错能力较好,然而这种以绕道方式的容错路由会使得了整体性能的降低。但这些处理方法会造成路由步长变长而导致通信效率变低、通信负载不均衡、死锁和阻塞的情况加剧。芯片上的功耗也会变的不均匀。可重构容错算法是另外一种容错路由算法,基于2D Mesh的片上网络可重构容错路由算法能够进行动态地可重构,从而不停地自适应因为路由器故障所引起的针对特定的片上网络拓扑中路由的修改,这种算法可以使得片上网络的成本降低,但主要运用于DSP IN结构的设计中。面向片上网络的间歇性和永久性故障的性能和延迟的可重构路由算法。在故障数可控时,可靠性可达90%,在故障数增加到一定数量时,但这种可靠性会大幅度降低。片上网络局部重构的路由的高稳定性容错路由算法使用一个局部路由的方法来绕过故障链接,可以确保数据流在任意形式下传输到目的地。但在存在故障情况下,该方案在寻找链接路径时不能总是利用通信路由器间的最短距离,而且不能平衡负载。
发明内容
本发明的目的在于提供了一种容错架构构架系统与容错架构控制方法,该容错架构具有可伸缩、高度可靠和灵活的网络结构,容错性强。
为实现上述目的,本发明提供如下技术方案:一种容错架构构架系统,包括处理核心单元和外设单元,所述处理核心单元用于进行本地计算,所述外设单元用于进行全局通信和系统控制,所述处理核心单元包括至少两个AET细胞簇,所述AET细胞簇包括一个中心AET单元和三个外围AET单元,所述中心AET单元和外围AET单元的网络结构均相同,所述AET细胞簇的中心AET单元与三个所述外围AET单元均以120°的夹角相连接;至少两个所述AET细胞簇中的每个所述AET单元均包括三条通讯链路,所述处理核心单元配置有连接策略,所述连接策略包括使不同的AET细胞簇中的外围AET单元之间相互连接,以使所述处理核心单元中的AET细胞簇相互之间形成全连接的封闭网络结构。
优选的,所述AET单元包括处理器和路由器,所述路由器至少具有三个输入端口,用于分别与AET单元相连接的其他AET单元中的路由器的端口相连接,所述处理器用于对所述AET单元的输入端口进行控制。
优选的,所述处理核心单元包括两个AET细胞簇,所述连接策略配置为每个AET细胞簇中的两个外围AET单元分与另一个AET细胞簇中的两个外围AET单元一一相连接形成一六边形的封闭环形结构,将此时处于六边形的所述封闭环形结构外侧的两个外围AET单元定义为第一AET单元,两个所述第一AET单元处于六边形的所述封闭环形结构的对位,所述连接策略还包括沿第一方向旋转,将与两个所述第一AET单元处于间位的外围AET 单元分别与两个所述第一AET单元进行连接,所述第一方向为顺时针方向或逆时针方向,所述连接策略还包括沿第一方向旋转,将与两个所述第一 AET单元处于邻位的外围AET单元与所述第一AET单元进行连接,所述连接策略还包括将两个所述第一AET单元相连接以使每个第一AET单元均形成三条通讯链路。
优选的,所述处理核心单元包括两个以上的AET细胞簇,所述连接策略配置为每个AET细胞簇中的外围AET单元分与相邻的AET细胞簇中的外围AET单元一一相连接形成六边形的封闭环形结构,若干个AET细胞簇按照六边形的封闭环形结构向周围拓扑延伸形成全连接的封闭网络结构;将两个以上AET细胞簇形成的封闭网络结构定义为第一网络结构,所述第一网络结构包括若干六边形的封闭环形结构,所述第一网络结构按照等效策略处理后形成最小网络结构;
所述最小网络结构包括两个AET细胞簇,每个AET细胞簇中的两个外围AET单元分与另一个AET细胞簇中的两个外围AET单元一一相连接形成一六边形的封闭环形结构,将此时处于六边形的所述封闭环形结构外侧的两个外围AET单元定义为第一AET单元,两个所述第一AET单元处于六边形的所述封闭环形结构的对位,沿第一方向旋转,与两个所述第一AET单元处于间位的外围AET单元分别与两个所述第一AET单元进行连接,所述第一方向为顺时针方向或逆时针方向,沿第一方向旋转,与两个所述第一 AET单元处于邻位的外围AET单元与所述第一AET单元进行连接,两个所述第一AET单元相连接以使每个第一AET单元均形成三条通讯链路;
所述等效策略包括将若干相互连接的所述封闭环形结构等效成一圆点,并以一任意所述封闭环形结构为中心,沿中心封闭环形结构的方向进行等效。
优选的,所述处理核心单元内的每个所述AET单元均设有临近感知策略,所述临近感知策略配置有第一周期,所述临近感知策略包括使所述AET 单元按照第一周期向与其连接的三个AET单元发送心跳信号。
优选的,所述处理核心单元还包括容错单元,所述容错单元包括计时器,所述容错单元配置有出错感知策略,所述出错感知策略配置有第一检测周期,所述出错感知策略被设置为在所述第一检测周期内均没有收到三个AET单元发送的心跳信号时,判断所述AET单元为故障状态。
优选的,所述处理核心单元还包括容错单元,所述容错单元包括计时器和计数器,所述容错单元配置有出错感知策略,所述出错感知策略配置有第二检测周期和第一数值,所述出错感知策略被设置为在所述第二检测周期内,接收到任意一个AET单元发送的心跳信号少于第一数值时,判断所述AET单元为故障状态。
一种容错架构控制方法,所述AET单元中的路由器包括一备用输入端口,所述外围AET单元还包括两个输出端口,用于与其他外围AET单元的输入端口相连接,所述容错架构控制方法包括切换策略,所述切换策略包括将判断为故障状态的AET单元进行旁路断接,当中心AET单元为故障状态时,将三个外围AET单元的连接端口进行连接,当外围AET单元为故障状态时,将与其连接的AET单元的连接端口相互连接,AET单元中连接端口的故障连接优先级次序为输入端口大于备用输入端口大于输出端口。
与现有技术相比,本发明的有益效果是:
本发明的容错架构中的AET细胞簇包括一个中心AET单元和三个外围 AET单元,中心AET单元和外围AET单元的网络结构均相同,AET细胞簇的中心AET单元与三个外围AET单元均以120°的夹角相连接,并且两个AET 细胞簇中的每个AET单元均包括三条通讯链路,相当于有三条不同的通讯路径可供选择。
本发明的容错架构中处理核心单元配置有连接策略,连接策略包括使不同的AET细胞簇中的外围AET单元之间相互连接,以使处理核心单元中的AET细胞簇相互之间形成全连接的封闭网络结构,该容错结构具有全封闭性,且该结构的网络连接是均匀的。
本发明的容错架构具有最小网络结构的容错结构,第一网络结构按照等效策略处理后均可以形成最小网络结构,最小网络结构也是封闭的,若干个AET细胞簇按照六边形的封闭环形结构向周围拓扑延伸形成全连接的封闭网络结构,这个网络架构可以扩展到具有相同结构的更大的蜂窝网络,该容错架构具有伸缩性。
本发明的容错架构控制方法可以将出现故障的AET单元旁路掉,在不影响其他节点通信的情况下能够绕过错误节点,实现了可塑重构,任何一个节点出错,整个网络架构依然能够保证完整性。
附图说明
图1为本发明一种容错架构构架系统中AET细胞簇的结构概念示意图;
图2为本发明一种容错架构构架系统中双簇构建的的网络拓扑图及等效立体结构图;
图3为本发明一种容错架构构架系统中4*4单元的网络拓扑图及等效立体结构图;
图4为本发明一种容错架构构架系统中由单簇扩展到8X8个AET单元的各阶段网络示意图;
图5为本发明一种容错架构构架系统中N*N个AET单元的网络拓扑结构图;
图6为本发明一种容错架构构架系统中第二种实施例下AET细胞簇的路由端口示意图;
图7为本发明一种容错架构控制方法中不同节点出错情况下的切换序列图;
图8为本发明一种容错架构控制方法中总线开关切换逻辑功能示意图。
图中:1、中心AET单元;2、外围AET单元;3、第一AET单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种容错架构构架系统中AET细胞簇的结构概念示意图,一种容错架构构架系统,包括处理核心单元和外设单元,所述处理核心单元用于进行本地计算,所述外设单元用于进行全局通信和系统控制,所述处理核心单元包括至少两个AET细胞簇,所述AET细胞簇包括一个中心AET单元1和三个外围AET单元2,所述中心AET单元1和外围AET单元2的网络结构均相同,所述AET细胞簇的中心AET单元1与三个所述外围AET单元2均以120°的夹角相连接;至少两个所述AET细胞簇中的每个所述AET单元均包括三条通讯链路,相当于有三条不同的通讯路径可供选择,所述处理核心单元配置有连接策略,所述连接策略包括使不同的AET细胞簇中的外围AET单元2之间相互连接,以使所述处理核心单元中的AET细胞簇相互之间形成全连接的封闭网络结构,该容错结构具有全封闭性,且该结构的网络连接是均匀的。
优选的,所述AET单元包括处理器和路由器,所述路由器至少具有三个输入端口,用于分别与AET单元相连接的其他AET单元中的路由器的端口相连接,所述处理器用于对所述AET单元的输入端口进行控制。
优选的,所述处理核心单元包括两个AET细胞簇,所述连接策略配置为每个AET细胞簇中的两个外围AET单元2分与另一个AET细胞簇中的两个外围AET单元2一一相连接形成一六边形的封闭环形结构,将此时处于六边形的所述封闭环形结构外侧的两个外围AET单元2定义为第一AET单元3,两个所述第一AET单元3处于六边形的所述封闭环形结构的对位,所述连接策略还包括沿第一方向旋转,将与两个所述第一AET单元3处于间位的外围AET单元2分别与两个所述第一AET单元3进行连接,所述第一方向为顺时针方向或逆时针方向,所述连接策略还包括沿第一方向旋转,将与两个所述第一AET单元3处于邻位的外围AET单元2与所述第一AET 单元3进行连接,所述连接策略还包括将两个所述第一AET单元3相连接以使每个第一AET单元3均形成三条通讯链路。
优选的,所述处理核心单元包括两个以上的AET细胞簇,所述连接策略配置为每个AET细胞簇中的外围AET单元2分与相邻的AET细胞簇中的外围AET单元2一一相连接形成六边形的封闭环形结构,若干个AET细胞簇按照六边形的封闭环形结构向周围拓扑延伸形成全连接的封闭网络结构;将两个以上AET细胞簇形成的封闭网络结构定义为第一网络结构,所述第一网络结构包括若干六边形的封闭环形结构,所述第一网络结构按照等效策略处理后形成最小网络结构;
所述最小网络结构包括两个AET细胞簇,每个AET细胞簇中的两个外围AET单元2分与另一个AET细胞簇中的两个外围AET单元2一一相连接形成一六边形的封闭环形结构,将此时处于六边形的所述封闭环形结构外侧的两个外围AET单元2定义为第一AET单元3,两个所述第一AET单元3 处于六边形的所述封闭环形结构的对位,沿第一方向旋转,与两个所述第一AET单元3处于间位的外围AET单元2分别与两个所述第一AET单元3 进行连接,所述第一方向为顺时针方向或逆时针方向,沿第一方向旋转,与两个所述第一AET单元3处于邻位的外围AET单元2与所述第一AET单元3进行连接,两个所述第一AET单元3相连接以使每个第一AET单元3 均形成三条通讯链路;
所述等效策略包括将若干相互连接的所述封闭环形结构等效成一圆点,并以一任意所述封闭环形结构为中心,沿中心封闭环形结构的方向进行等效。
如图1中(a)所示,四个具有相同网络结构的AET单元构成了一个簇,每个AET簇由均匀的细胞阵列构成,完成大规模并行计算或神经形态计算。簇里面其中有个单元以120°的夹角方向和其他三个单元连接,边缘的三个单元也将以120°的夹角方向和其他簇的单元连接。
在设计AET单元间通信网络时,需要考虑AET网络的以下特殊特性:1) 带宽要求不高,因为大多数AET单元间的交互都是本地的。2)网络应该是可靠和灵活的,也就是说,任何一对单元集群应该能够在任何时候相互通信,通信通道应该在延迟、带宽或其他指标方面提供某种保证。3)AET单元簇失效(以及由其引起的信道重建)不影响整个网络的连接。显然,细胞间通信网络与片上网络有许多相似之处,许多想法可以借鉴。每个单元由一个处理器和一个四端口路由器Rn组成。路由器Rn直接连接到三个相邻的路由器端口。两个簇以六边形网格拓扑结构排列,连接到北、西南、东南或南、西北、东北,这样,双簇即可以构成一个由两个相邻六边形蜂窝全连接的网络。
图2为双簇构建的的网络拓扑图及等效立体结构图,给出了双簇构建的网络拓扑图及等效立体结构示意图,这样结构的等效于有4条边共享的双六边形组成的立体结构。从该立体结构我们可以看出,由簇构成的网络结构可以构成全连接的封闭网络结构。
图3为4*4单元的网络拓扑图及等效立体结构图,描述了4个AET簇组成了一个4*4的细胞网络,形成了一个4六边形全连接蜂窝网络。同样右边是其等效的立体结构,从图中可以看出所构成全连接拓扑结构依然具有封闭性,并且该结构的网络连接是均匀的。
图4为一种容错架构构架系统中由单簇扩展到8X8个AET单元的各阶段网络示意图,该AET类脑容错结构具有良好的可伸缩性,图4中给出了该拓扑的一个扩展示意图,描述了从一个AET簇1*4个单元扩展到2*4,再由2*4个单元扩展到4*4个单元,最后扩展到8*8个单元的详细过程。在这个过程中,该拓扑结构始终保持完整性,并且具有封闭性和同质性。
图5为容错架构中N*N个AET单元的网络拓扑结构图,以类似的方式,这个网络架构可以扩展到具有相同结构的更大的蜂窝网络,如图所示。图5 显示了N*N(N=4n,n=1,2,3…)AET网格细节。这样,一个处理器将由成千上万个甚至百万个单元集群联网。
图6为一种容错架构构架系统中第二种实施例下AET细胞簇的路由端口示意图,所述AET单元中的路由器包括一备用输入端口,所述外围AET 单元2还包括两个输出端口,用于与其他外围AET单元2的输入端口相连接,所述处理核心单元内的每个所述AET单元均设有临近感知策略,所述临近感知策略配置有第一周期,所述临近感知策略包括使所述AET单元按照第一周期向与其连接的三个AET单元发送心跳信号。所述处理核心单元还包括容错单元,所述容错单元包括计时器,所述容错单元配置有出错感知策略,所述出错感知策略配置有第一检测周期,所述出错感知策略被设置为在所述第一检测周期内均没有收到三个AET单元发送的心跳信号时,判断所述AET单元为故障状态,策略对短暂性可恢复出错不敏感。
优选的,所述处理核心单元还包括容错单元,所述容错单元包括计时器和计数器,所述容错单元配置有出错感知策略,所述出错感知策略配置有第二检测周期和第一数值,所述出错感知策略被设置为在所述第二检测周期内,接收到任意一个AET单元发送的心跳信号少于第一数值时,判断所述AET单元为故障状态。多次不断重启出错在一定条件下触发故障状态,如果属于反复重启则触发故障状态,如果经过有限次重启后恢复了正常工作,则不触发临近故障状态。
假设AET系统中某一个节点出错,这一节点被旁路掉后,为了不影响其他节点之间的通信,与之相关的网络连接应该有另外一条连接路径来实现;故,提出了一种容错架构控制方法,所述AET单元中的路由器包括一备用输入端口,所述外围AET单元2还包括两个输出端口,用于与其他外围AET单元2的输入端口相连接,所述容错架构控制方法包括切换策略,所述切换策略包括将判断为故障状态的AET单元进行旁路断接,当中心AET 单元1为故障状态时,将三个外围AET单元2的连接端口进行连接,当外围AET单元2为故障状态时,将与其连接的AET单元的连接端口相互连接, AET单元中连接端口的故障连接优先级次序为输入端口大于备用输入端口大于输出端口。
图7为一种容错架构控制方法中不同节点出错情况下的切换序列图,该实施例下,将一个簇里面处于中心的单元节点叫中心节点,其他三个节点都称为侧节点。由于AET容错网络的均匀性,任何一个侧节点出错我们视作同一种出错状态。在初始状态均为正常的情况下,簇内的AET单元都是正常连接状态,第一步出错只能是中心节点或侧节点出错这两种情况。通过分析表明总共有四类不同的出错状态。以图7中第一种情况为例说明如下:
中心节点出错,该节点被旁路。三个侧节点的通信链路将通过交叉开关矩阵直接连接。需要注意的是下面两个节点的连接是启用了备份端口进行连接。侧节点出错时,跟该节点相关的通信端口将按照切换策略进行切换,为了保证网络的连通性。剩下正常单元的备份端口会被激活并切换到工作状态,依次直到簇内所有单元节点均出错的情况下,切换策略依然保证与该簇相邻的六个簇有通信连接。
为了更详细地描述备用电路的互连机制,如图6所示,假设集群包含A、 B、C和D单元,则每个单元X(X代表A、B、C、D)的簇内连接端口确定为 X1、X2、X3。与其他簇的连接端口被标记为XO2、XO3。备份电路端口设置为X4,备份电路连接用虚线表示。其中每个单元X的初始连接用实线所示。 A1连接B1 A2连接C1 A3连接D1。
表1-1显示了不同单元故障时的开关连接策略,故障可以是单个或多个。在表中,Xn-Xm(n,m=1,2,3,4)表示Xn连接到Xm。例如,如果单元A 失败,C1会切换到B1,D1会连接到B4。表中左边栏是出错节点,右边是出错后的切换情况。从表中我们可以看出,通过这种策略,在最终簇内所有单元节点均出错的情况下,依然可以使网络内其他的连接节点都有连接。
表1-1备份电路切换策略表
Figure RE-GDA0002978901430000121
图8为本发明容错架构控制方法中总线开关切换逻辑功能示意图,总线开关切换模块是FPGA里面实现的最重要的模块,我们按照前述的备份电路切换策略进行设计。ReSC芯片内部也有总线交换,但该总线交换受控于芯片内的处理器单元,用于实现片上的电路交换。因此为了实现本文所提出的备份电路切换策略,我们在FPGA中需要增加一层电路交换。如图8所示,将簇内四个单元所有的路由通信端口连接到FPGA中(包括用于备份的第四个端口),其中NIx,SIx,WIx,EIx是每个单元的四组的输入端口, NOx,SOx,WOx,EOx是每个单元的四组的输出端口(x=1,2,3,4)。按照前述备份电路切换策略进行连接,当AET单元出现错误时,端口连接在控制逻辑下按照预定的机制进行重构,以此保证物理通信的完整性。
工作原理:本发明的容错架构中的AET细胞簇包括一个中心AET单元1 和三个外围AET单元2,中心AET单元1和外围AET单元2的网络结构均相同,AET细胞簇的中心AET单元1与三个外围AET单元2均以120°的夹角相连接,并且两个AET细胞簇中的每个AET单元均包括三条通讯链路,相当于有三条不同的通讯路径可供选择;处理核心单元配置有连接策略,连接策略包括使不同的AET细胞簇中的外围AET单元2之间相互连接,以使处理核心单元中的AET细胞簇相互之间形成全连接的封闭网络结构,该容错结构具有全封闭性,且该结构的网络连接是均匀的;该容错架构具有最小网络结构的容错结构,第一网络结构按照等效策略处理后均可以形成最小网络结构,最小网络结构也是封闭的,若干个AET细胞簇按照六边形的封闭环形结构向周围拓扑延伸形成全连接的封闭网络结构,这个网络架构可以扩展到具有相同结构的更大的蜂窝网络,该容错架构具有伸缩性。容错架构控制方法可以将出现故障的AET单元旁路掉,在不影响其他节点通信的情况下能够绕过错误节点,实现了可塑重构,任何一个节点出错,整个网络架构依然能够保证完整性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (8)

1.一种容错架构构架系统,其特征在于,包括处理核心单元和外设单元,所述处理核心单元用于进行本地计算,所述外设单元用于进行全局通信和系统控制,所述处理核心单元包括至少两个AET细胞簇,所述AET细胞簇包括一个中心AET单元(1)和三个外围AET单元(2),所述中心AET单元(1)和外围AET单元(2)的网络结构均相同,所述AET细胞簇的中心AET单元(1)与三个所述外围AET单元(2)均以120°的夹角相连接;至少两个所述AET细胞簇中的每个所述AET单元均包括三条通讯链路,所述处理核心单元配置有连接策略,所述连接策略包括使不同的AET细胞簇中的外围AET单元(2)之间相互连接,以使所述处理核心单元中的AET细胞簇相互之间形成全连接的封闭网络结构。
2.根据权利要求1所述的一种容错架构构架系统,其特征在于:所述AET单元包括处理器和路由器,所述路由器至少具有三个输入端口,用于分别与AET单元相连接的其他AET单元中的路由器的端口相连接,所述处理器用于对所述AET单元的输入端口进行控制。
3.根据权利要求2所述的一种容错架构构架系统,其特征在于:所述处理核心单元包括两个AET细胞簇,所述连接策略配置为每个AET细胞簇中的两个外围AET单元(2)分与另一个AET细胞簇中的两个外围AET单元(2)一一相连接形成一六边形的封闭环形结构,将此时处于六边形的所述封闭环形结构外侧的两个外围AET单元(2)定义为第一AET单元(3),两个所述第一AET单元(3)处于六边形的所述封闭环形结构的对位,所述连接策略还包括沿第一方向旋转,将与两个所述第一AET单元(3)处于间位的外围AET单元(2)分别与两个所述第一AET单元(3)进行连接,所述第一方向为顺时针方向或逆时针方向,所述连接策略还包括沿第一方向旋转,将与两个所述第一AET单元(3)处于邻位的外围AET单元(2)与所述第一AET单元(3)进行连接,所述连接策略还包括将两个所述第一AET单元(3)相连接以使每个第一AET单元(3)均形成三条通讯链路。
4.根据权利要求2所述的一种容错架构构架系统,其特征在于:所述处理核心单元包括两个以上的AET细胞簇,所述连接策略配置为每个AET细胞簇中的外围AET单元(2)分与相邻的AET细胞簇中的外围AET单元(2)一一相连接形成六边形的封闭环形结构,若干个AET细胞簇按照六边形的封闭环形结构向周围拓扑延伸形成全连接的封闭网络结构;将两个以上AET细胞簇形成的封闭网络结构定义为第一网络结构,所述第一网络结构包括若干六边形的封闭环形结构,所述第一网络结构按照等效策略处理后形成最小网络结构;
所述最小网络结构包括两个AET细胞簇,每个AET细胞簇中的两个外围AET单元(2)分与另一个AET细胞簇中的两个外围AET单元(2)一一相连接形成一六边形的封闭环形结构,将此时处于六边形的所述封闭环形结构外侧的两个外围AET单元(2)定义为第一AET单元(3),两个所述第一AET单元(3)处于六边形的所述封闭环形结构的对位,沿第一方向旋转,与两个所述第一AET单元(3)处于间位的外围AET单元(2)分别与两个所述第一AET单元(3)进行连接,所述第一方向为顺时针方向或逆时针方向,沿第一方向旋转,与两个所述第一AET单元(3)处于邻位的外围AET单元(2)与所述第一AET单元(3)进行连接,两个所述第一AET单元(3)相连接以使每个第一AET单元(3)均形成三条通讯链路;
所述等效策略包括将若干相互连接的所述封闭环形结构等效成一圆点,并以一任意所述封闭环形结构为中心,沿中心封闭环形结构的方向进行等效。
5.根据权利要求4所述的一种容错架构构架系统,其特征在于:所述处理核心单元内的每个所述AET单元均设有临近感知策略,所述临近感知策略配置有第一周期,所述临近感知策略包括使所述AET单元按照第一周期向与其连接的三个AET单元发送心跳信号。
6.根据权利要求5所述的一种容错架构构架系统,其特征在于:所述处理核心单元还包括容错单元,所述容错单元包括计时器,所述容错单元配置有出错感知策略,所述出错感知策略配置有第一检测周期,所述出错感知策略被设置为在所述第一检测周期内均没有收到三个AET单元发送的心跳信号时,判断所述AET单元为故障状态。
7.根据权利要求5所述的一种容错架构构架系统,其特征在于:所述处理核心单元还包括容错单元,所述容错单元包括计时器和计数器,所述容错单元配置有出错感知策略,所述出错感知策略配置有第二检测周期和第一数值,所述出错感知策略被设置为在所述第二检测周期内,接收到任意一个AET单元发送的心跳信号少于第一数值时,判断所述AET单元为故障状态。
8.基于权利要求6或7所述的一种容错架构构架系统的容错架构控制方法,其特征在于:所述AET单元中的路由器包括一备用输入端口,所述外围AET单元(2)还包括两个输出端口,用于与其他外围AET单元(2)的输入端口相连接,所述容错架构控制方法包括切换策略,所述切换策略包括将判断为故障状态的AET单元进行旁路断接,当中心AET单元(1)为故障状态时,将三个外围AET单元(2)的连接端口进行连接,当外围AET单元(2)为故障状态时,将与其连接的AET单元的连接端口相互连接,AET单元中连接端口的故障连接优先级次序为输入端口大于备用输入端口大于输出端口。
CN202110003217.8A 2021-01-04 2021-01-04 容错架构构架系统与容错架构控制方法 Withdrawn CN112702285A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110003217.8A CN112702285A (zh) 2021-01-04 2021-01-04 容错架构构架系统与容错架构控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110003217.8A CN112702285A (zh) 2021-01-04 2021-01-04 容错架构构架系统与容错架构控制方法

Publications (1)

Publication Number Publication Date
CN112702285A true CN112702285A (zh) 2021-04-23

Family

ID=75514505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110003217.8A Withdrawn CN112702285A (zh) 2021-01-04 2021-01-04 容错架构构架系统与容错架构控制方法

Country Status (1)

Country Link
CN (1) CN112702285A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113382431A (zh) * 2021-06-16 2021-09-10 复旦大学 适用于大规模并行计算的节点间容错通信系统及通信方法
CN117785567A (zh) * 2024-02-28 2024-03-29 上海特高信息技术有限公司 一种基于连接方向的可重构容错策略及重构控制器
CN117785567B (zh) * 2024-02-28 2024-05-28 上海特高信息技术有限公司 一种基于连接方向的可重构容错策略及重构控制器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411599B1 (en) * 1998-05-29 2002-06-25 International Business Machines Corporation Fault tolerant switching architecture
CN101834797A (zh) * 2010-05-06 2010-09-15 复旦大学 一种针对片上网络的低复杂度和可扩展的容错路由算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411599B1 (en) * 1998-05-29 2002-06-25 International Business Machines Corporation Fault tolerant switching architecture
CN101834797A (zh) * 2010-05-06 2010-09-15 复旦大学 一种针对片上网络的低复杂度和可扩展的容错路由算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIZHENG LIU等: "A Design of Autonomous Error-Tolerant Architectures for Massively Parallel Computing", 《IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION (VLSI) SYSTEMS》 *
LIZHENG LIU等: "An Autonomous Error-Tolerant Architecture Featuring Self-reparation for Convolutional Neural Networks", 《2020 IEEE 91ST VEHICULAR TECHNOLOGY CONFERENCE (VTC2020-SPRING)》 *
LIZHENG LIU等: "Designing Bio-inspired Autonomous Error-Tolerant Massively Parallel Computing Architectures", 《2017 30TH IEEE INTERNATIONAL SYSTEM-ON-CHIP CONFERENCE (SOCC)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113382431A (zh) * 2021-06-16 2021-09-10 复旦大学 适用于大规模并行计算的节点间容错通信系统及通信方法
CN113382431B (zh) * 2021-06-16 2022-12-13 复旦大学 适用于大规模并行计算的节点间容错通信系统及通信方法
CN117785567A (zh) * 2024-02-28 2024-03-29 上海特高信息技术有限公司 一种基于连接方向的可重构容错策略及重构控制器
CN117785567B (zh) * 2024-02-28 2024-05-28 上海特高信息技术有限公司 一种基于连接方向的可重构容错策略及重构控制器

Similar Documents

Publication Publication Date Title
Pradhan Dynamically restructurable fault-tolerant processor network architectures
WO2008128836A2 (en) Dynamically rerouting node traffic on a parallel computer system
JPH02287668A (ja) 再構成可能な信号プロセッサ
US20130346934A1 (en) High-end fault-tolerant computer system and method for same
Abd-El-Barr et al. Reliability analysis and fault tolerance for hypercube multi-computer networks
Chau et al. A proposal for a fault-tolerant binary hypercube architecture
CN112702285A (zh) 容错架构构架系统与容错架构控制方法
CN112862068A (zh) 面向复杂卷积神经网络的容错架构及方法
Khalil et al. Flexible self-healing router for reliable and high-performance network-on-chips architecture
Siegel et al. An introduction to the multistage cube family of interconnection networks
Bataineh et al. Fault-tolerant multistage interconnection network
Min et al. Design and analysis of a multiprocessor system with extended fault tolerance
Liu et al. Designing bio-inspired autonomous error-tolerant massively parallel computing architectures
Koibuchi A partially network reconfiguration mechanism on two-dimensional mesh and torus with faults
She et al. A novel self-routing reconfigurable fault-tolerant cell array
Sødring et al. An analysis of connectivity and yield for 2D mesh based NoC with interconnect router failures
Tzeng Reconfiguration and analysis of a fault-tolerant circular butterfly parallel system
Guha et al. SOME REMARKS ON k-ϒ-INSENSITIVE GRAPHS IN NETWORK SYSTEM DESIGN
Liang et al. Design and analysis of fault-tolerant star networks
Yunus et al. Reliability performance of shuffle exchange omega network
Tzeng Reliable butterfly distributed-memory multiprocessors
Izadi et al. An augmented k-ary tree multiprocessor with real-time fault-tolerant capability
Izadi Fault-Tolerance in Augmented Hypercube Multicomputers
Duan et al. Fault-tolerant routing schemes for wormhole mesh
Gu et al. Research on network fault tolerance method on chip

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210423

WW01 Invention patent application withdrawn after publication