CN113382431A - 适用于大规模并行计算的节点间容错通信系统及通信方法 - Google Patents

适用于大规模并行计算的节点间容错通信系统及通信方法 Download PDF

Info

Publication number
CN113382431A
CN113382431A CN202110666592.0A CN202110666592A CN113382431A CN 113382431 A CN113382431 A CN 113382431A CN 202110666592 A CN202110666592 A CN 202110666592A CN 113382431 A CN113382431 A CN 113382431A
Authority
CN
China
Prior art keywords
node
nodes
fault
communication
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110666592.0A
Other languages
English (en)
Other versions
CN113382431B (zh
Inventor
郭勇良
刘力政
何璇
邹卓
胡晓明
郑立荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110666592.0A priority Critical patent/CN113382431B/zh
Publication of CN113382431A publication Critical patent/CN113382431A/zh
Application granted granted Critical
Publication of CN113382431B publication Critical patent/CN113382431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0289Congestion control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种适用于大规模并行计算的节点间容错通信系统及通信方法,通信系统包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并向交叉开关组发送指令信息以改变节点之间的连接关系。本发明的通信系统通过设置交叉开关组和交叉开关控制器,减少了数据的冗余,改善了网络堵塞情况。

Description

适用于大规模并行计算的节点间容错通信系统及通信方法
技术领域
本发明涉及容错架构技术领域,具体为一种适用于大规模并行计算的节点间容错通信系统及通信方法。
背景技术
随着集成电路技术的发展,多核系统中计算核心数量的增加,基于总线的片上系统(System-On-Chip)难以满足生产需求。取而代之的是片上网络(Network-On-Chip),它一方面继承了片上系统的优点,另一方面借鉴了计算机的通信,用路由器作为通信中的基本单元。对于一个片上网络而言,最重要的就是它的拓扑结构、路由算法和容错机制。如附图1所示为一个具有2D-Mesh结构的片上网络,其中,对于规模较小的片上网络而言,其发生故障的链路数量也比较小,可以采用一些传统的容错机制,比如双机备份、三模冗余,并不会向系统中注入过多的冗余。但是随着制造工艺的发展,大规模的片上网络也已经实现。对于芯片这种极其精密的产品,更换或者维修某个出现故障的部件是不现实的,但也不能因为一个部件的故障就弃用整块芯片,所以对于这种超大型的冰心计算系统而言,需要有可以保障系统在有多个故障出现时仍然可以正常工作的机制。
自主容错架构(以下简称AET)是一个具有Torus结构的片上网络,每个节点会和它邻近的三个节点组成一个AET簇,簇里面有个单元以120°的夹角方向和其他三个单元连接,边缘的三个单元也将以120°的夹角方向和其他簇的单元连接。许多个这样的簇向二维平面无限拓展,就形成了一个由六边形无缝填充的平面。图2描述的是一个具有64个节点的AET网络,形成了一个由32个六边形组成的全连接蜂窝网络。可以看出其所构成的全连接拓扑结构具有封闭性,并且该结构的网络连接是均匀的。
AET架构是通过模拟人脑神经元间的连接形成的结构,其容错性和功耗相比于传统的容错机制有很大的提升。但是AET架构的本质还是一个片上网络,其实现容错的手段还是依赖于节点之间的通信,这是一个隐患。因为当AET网络中的节点数量非常大时,网络中节点的通信变得频繁,可能会有很多不被需要的数据包,大大影响了网络的拥塞情况;除此之外,如果通信协议过于繁琐,还会导致系统在通信上开销的比重增加。
发明内容
本发明的目的在于提供了一种适用于大规模并行计算的节点间容错通信系统及通信方法,通过设置交叉开关组和交叉开关控制器,减少了数据的冗余,改善了网络堵塞情况。
为实现上述目的,本发明提供如下技术方案:一种适用于大规模并行计算的节点间容错通信系统,包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系。
优选的,所述节点包括四个通讯端口,其中三个所述通讯端口分别与邻近的三个节点相连接,另一个为备份端口。
优选的,所述AET簇包括四个节点,所述交叉开关组包括与所述AET 簇相匹配的四组输入信号端和输出信号端,其中每一组输入信号端和输出信号端分别包括四个接入端,用于连接两个不同节点的四个通讯端口。
优选的,所述节点还包括与所述交叉开关控制器相连接的contrl端口,所述节点的状态参数用于表示节点的忙闲状态以及是否出现故障,包括用于表示节点处于故障状态的故障参数、表示节点处于正常状态的正常参数和表示节点处于空闲状态的空闲参数,所述节点通过所述contrl端口向所述交叉开关控制器发送状态参数。
一种适用于大规模并行计算的节点间容错通信方法,所述通信方法包括通信策略,所述通信策略包括每个节点的通讯端口均设置为12位宽度的传输端口,其中,数据的0-7位用于存放需要传输的数据,8-12位为jump 参数,所述jump参数代表数据在AET网络中传输的次数,每当节点将数据进行发送时,jump参数将加1;所述通信策略配置为当节点的多个输入端口同时接收到数据信号时,只对jump参数最小的输入信号做出响应。
优选的,所述通信方法还包括所述节点将计算所得数据包从所有可用的通信端口发送至交叉开关组,所述交叉开关组根据交叉开关控制器接收到的每个邻近节点的状态参数将数据包传送至其他节点。
优选的,所述节点配置有故障上报策略,所述故障上报策略包括当识别节点处于故障状态时,所述节点通过Control端口向交叉开关控制器发送其地址信息,并通过四个输出端口同时发送错误代码信息。
优选的,所述交叉开关控制器配置有故障识别策略,所述故障识别策略包括若干节点均通过control端口按照固定时间周期向交叉开关控制器发送心跳信号,所述心跳信号包括所述节点的状态参数信息,所述故障识别策略配置为当交叉开关控制器超过固定时间周期未接收到来自所述节点的心跳信号时,认定所述节点处于故障状态;所述节点配置有休眠策略,所述休眠策略包括当所述节点的任一通讯端口输入错误代码信息时,所述节点的所有通讯端口均处于空闲状态,等待交叉开关组重新分配连接。
优选的,所述AET簇中的四个节点包括一个中间节点和三个边缘节点,三个所述边缘节点均以120度的夹角与所述中间节点相连接,所述交叉开关组配置有接线转换策略,所述接线转换策略包括当中间节点首先发生故障时,启动三个边缘节点的备份端口,并将边缘节点中连接中间节点的通讯端口和备份端口分别与其余两个边缘节点相连接;当一个边缘节点首先发生故障时,启动其余三个节点的备份端口,其中两个边缘节点的备份端口相互连接,中间节点的备份端口和连接故障节点的通讯端口分别和与故障节点相连接的其他AET簇中的节点相连。
优选的,当中间节点和一个边缘节点均发生故障时,启动其余两个边缘节点的备份端口,两个边缘节点的备份端口相互连接,并将两个边缘节点分别与中间节点相连的通讯端口与故障边缘节点相连接的其他AET簇中的节点相连;当中间节点和两个边缘节点均发生故障时,启动其余一个边缘节点的备份端口,所述边缘节点的两个剩余通讯端口分别与故障边缘节点相连接的其他两个AET簇中的两个节点相连;当两个边缘节点均发生故障时,启动其余节点的备份端口,其中一个边缘节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个 AET簇中的两个节点相连,中间节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连;
当三个边缘节点均发生故障时,启动中间节点的备份端口,中间节点的其中两个通讯端口与其中一个故障边缘节点相连接的其他两个AET簇中的两个节点相连,另外两个通讯端口与分别与另外两个故障边缘节点的相连接的两个其他AET簇节点中的一个节点相连,并将其他AET簇中的两个节点相互连接;当所述节点均发生故障时,将所有与三个故障边缘节点相连接的其他AET簇中节点两两相连。
与现有技术相比,本发明的有益效果是:
本发明的容错通信系统设置有交叉开关组和交叉开关控制器,交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,并且所有节点和所有交叉开关组均与交叉开关控制器相连接,用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系,容错系统不仅仅局限节点之间的通讯,交叉开关组和交叉开关控制器的设置减少了数据的冗余,改善了网络堵塞情况。
附图说明
图1为现有技术中具有2D-Mesh结构的片上网络连接示意图;
图2为现有技术中由64个节点组成的AET网络连接示意图;
图3为本发明一种适用于大规模并行计算的节点间容错通信系统中簇中节点相继出现故障时节点连接关系变化示意图;
图4为本发明一种适用于大规模并行计算的节点间容错通信系统中单个节点的模块设计示意图;
图5为本发明一种适用于大规模并行计算的节点间容错通信系统中交叉开关组的模型图;
图6为本发明一种适用于大规模并行计算的节点间容错通信系统中簇中节点依据接线转换策略的连接关系变化的状态图;
图7为本发明一种适用于大规模并行计算的节点间容错通信系统中节点的输入/输出端口示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图3所示,为本发明一种适用于大规模并行计算的节点间容错通信系统中簇中节点相继出现故障时节点连接关系变化示意图,一种适用于大规模并行计算的节点间容错通信系统包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系。该容错系统不仅仅局限节点之间的通讯,交叉开关组和交叉开关控制器的设置减少了数据的冗余,改善了网络堵塞情况。
所述节点包括四个通讯端口,其中三个所述通讯端口分别与邻近的三个节点相连接,另一个为备份端口,其中的三个端口在初始化时会连接到邻近的三个节点,剩余的一个端口会作为备份端口,在邻近的节点发生错误被孤立时使用。在一个簇中除了位于中心的1号节点(中间节点)的三个端口会连接到这个簇内的其他三个节点以外,其他三个节点的都会有两个端口连接到周围的簇,实现节点之间的通信;当一个AET簇内有节点发生错误时,这个簇就会根据错误节点的序号以及出错的次数来改变该簇内节点的连接方式,如图3(a)所示,由左至右,分别为簇内节点由中间节点率先发生故障至边缘节点逐渐发生故障的节点连接示意图,连接关系的变化和中间出错的时间有关,并且节点出错的顺序并不会影响最终的拓扑结构,“1号节点先出错,2号节点再出错”和“2号节点先出错,1号节点再出错”所造成的结果是一样的。当一个簇中所有的节点都发生了故障时,对于该簇周围的节点而言,这个簇就已经不存在了。
如图4和图5所示,为了实现对簇内节点的连接关系进行改变,需要一个交叉开关组(CrossBar Switch)来实现对节点之间的连接关系进行控制。每个节点至少需要连接到邻近的三个节点,而这样的连接一定不是通过节点间直接的物理通路进行连接的,为了实现节点之间的虚拟连接,我们在每个节点的发送端口和接收端口之间添加CrossBarSwitch作为中间件。这意味着节点在从某个发送端口发送数据包时,并不会直接发送到接收方的接收端口,而是先将数据包发送到CrossBar Switch,它会根据当前簇中节点的运行状态来决定这个数据包应该发往哪个节点。除此之外还需要一个交叉开关控制器(CrossBar Switch Controller)来接收每个节点的异常参数,CrossBar SwitchController会根据收到的控制信号来分析判断该簇当前所处的状态,并根据簇的状态来决定需要如何改变簇中节点的连接关系,然后发送一条指令到CrossBar Switch来改变簇内节点的连接关系。
所述AET簇包括四个节点,所述交叉开关组包括与所述AET簇相匹配的四组输入信号端和输出信号端,其中每一组输入信号端和输出信号端分别包括四个接入端,用于连接两个不同节点的四个通讯端口;所述节点还包括与所述交叉开关控制器相连接的contrl端口,所述节点的状态参数用于表示节点的忙闲状态以及是否出现故障,包括用于表示节点处于故障状态的故障参数、表示节点处于正常状态的正常参数和表示节点处于空闲状态的空闲参数,所述节点通过所述contrl端口向所述交叉开关控制器发送状态参数。节点用于通信的4号端口是备份端口,在没有感知到周围有故障节点的情况下,只会有三个端口处于正常工作状态。在感知到周围有故障节点时,就会启用4号端口,这样可以保证就算网络中出现了故障节点,节点之间的链接仍然是完整的,不会有正常工作的节点被孤立。
一种适用于大规模并行计算的节点间容错通信方法,所述通信方法包括通信策略,所述通信策略包括每个节点的通讯端口均设置为12位宽度的传输端口,其中,数据的0-7位用于存放需要传输的数据,8-12位为jump 参数,所述jump参数代表数据在AET网络中传输的次数,每当节点将数据进行发送时,jump参数将加1;所述通信策略配置为当节点的多个输入端口同时接收到数据信号时,只对jump参数最小的输入信号做出响应。添加 jump参数是简化了节点通信过程中带来的路由问题。
如图6所示,为通信系统中簇中节点依据接线转换策略的连接关系变化的状态图,簇内节点的链接关系的变化可以看作是一个有限状态机,簇中出现故障节点的数量和当前出现故障节点的位置会决定接下来簇中节点的连接关系发生什么样的变化。
所述通信方法还包括所述节点将计算所得数据包从所有可用的通信端口发送至交叉开关组,所述交叉开关组根据交叉开关控制器接收到的每个邻近节点的状态参数将数据包传送至其他节点。AET架构中的通信可以囊括为两类,第一类是节点之间的通信,第二类是节点与CrossBar Switch之间的通信。节点之间的通信应该从简设计,物理链路的链接和切换已经通过CrossBar Switch实现,还顺带解决了路由的问题,所以节点之间的通信可以选用广播的方式来实现,即节点不需要知道这个数据包时发送给谁的,只负责将数据包从所有可用的发送端口发送,CrossBar Switch负责将数据包可靠交付到接收端。
优选的,所述AET簇中的四个节点包括一个中间节点和三个边缘节点,三个所述边缘节点均以120度的夹角与所述中间节点相连接,所述交叉开关组配置有接线转换策略,所述接线转换策略包括当中间节点首先发生故障时,启动三个边缘节点的备份端口,并将边缘节点中连接中间节点的通讯端口和备份端口分别与其余两个边缘节点相连接;当一个边缘节点首先发生故障时,启动其余三个节点的备份端口,其中两个边缘节点的备份端口相互连接,中间节点的备份端口和连接故障节点的通讯端口分别和与故障节点相连接的其他AET簇中的节点相连;当中间节点和一个边缘节点均发生故障时,启动其余两个边缘节点的备份端口,两个边缘节点的备份端口相互连接,并将两个边缘节点分别与中间节点相连的通讯端口与故障边缘节点相连接的其他AET簇中的节点相连;当中间节点和两个边缘节点均发生故障时,启动其余一个边缘节点的备份端口,所述边缘节点的两个剩余通讯端口分别与故障边缘节点相连接的其他两个AET簇中的两个节点相连;当两个边缘节点均发生故障时,启动其余节点的备份端口,其中一个边缘节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连,中间节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连;当三个边缘节点均发生故障时,启动中间节点的备份端口,中间节点的其中两个通讯端口与其中一个故障边缘节点相连接的其他两个AET簇中的两个节点相连,另外两个通讯端口与分别与另外两个故障边缘节点的相连接的两个其他AET簇节点中的一个节点相连,并将其他AET簇中的两个节点相互连接;当所述节点均发生故障时,将所有与三个故障边缘节点相连接的其他AET簇中节点两两相连。
如图7所示,根据节点的忙闲状态status和故障状态is_error这两个参数可以将网络中的节点分为以下三类:
1)status=‘1’,is_error=‘1’,表示节点在工作中出现了故障;此时节点会通过自身的Control端口向CrossBar Switch Controller 发送自己的地址,并通过四个输出端口发送错误代码“101010101010”。
2)status=‘1’,is_error=‘0’,表示节点处于正常工作状态;此时节点的Control端口不传送任何信息到CrossBar Switch,四个输出端口的信息根据输入端口情况而产生不同的输出情况。如果任意端口的输入为“101010101010”,表明邻近的节点出现了错误,此时节点的输入和输出端口休眠,等待CrossBar Switch重新分配连接。如果接收到正常的运算结果,此时节点会将输入数据经过运算以后的结果通过所有输入为空的端口输出,如图5所示,此时只有2号端口有数据流入,节点在对输入数据进行处理以后从1号、3号和4号端口输出。
3)status=’0’,is_error=‘0’,表示节点处于空闲状态,此类节点的输入端口可能会接收到相邻节点的输出信号,但是不会将接收到的信号经过运算模块,也不会产生任何输出。
优选的,所述节点配置有故障上报策略,所述故障上报策略包括当识别节点处于故障状态时,所述节点通过Control端口向交叉开关控制器发送其地址信息,并通过四个输出端口同时发送错误代码信息。
优选的,所述交叉开关控制器配置有故障识别策略,所述故障识别策略包括若干节点均通过control端口按照固定时间周期向交叉开关控制器发送心跳信号,所述心跳信号包括所述节点的状态参数信息,所述故障识别策略配置为当交叉开关控制器超过固定时间周期未接收到来自所述节点的心跳信号时,认定所述节点处于故障状态;所述节点配置有休眠策略,所述休眠策略包括当所述节点的任一通讯端口输入错误代码信息时,所述节点的所有通讯端口均处于空闲状态,等待交叉开关组重新分配连接。
工作原理:本发明的容错通信系统设置有交叉开关组和交叉开关控制器,交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,并且所有节点和所有交叉开关组均与交叉开关控制器相连接,用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系,容错系统不仅仅局限节点之间的通讯,交叉开关组和交叉开关控制器的设置减少了数据的冗余,改善了网络堵塞情况,并且通过设置通信策略和故障上报策略可以实现节点之间的简单、高效通讯。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种适用于大规模并行计算的节点间容错通信系统,其特征在于,包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系。
2.根据权利要求1所述的一种适用于大规模并行计算的节点间容错通信系统,其特征在于:所述节点包括四个通讯端口,其中三个所述通讯端口分别与邻近的三个节点相连接,另一个为备份端口。
3.根据权利要求2所述的一种适用于大规模并行计算的节点间容错通信系统,其特征在于:所述AET簇包括四个节点,所述交叉开关组包括与所述AET簇相匹配的四组输入信号端和输出信号端,其中每一组输入信号端和输出信号端分别包括四个接入端,用于连接两个不同节点的四个通讯端口。
4.根据权利要求3所述的一种适用于大规模并行计算的节点间容错通信系统,其特征在于:所述节点还包括与所述交叉开关控制器相连接的contrl端口,所述节点的状态参数用于表示节点的忙闲状态以及是否出现故障,包括用于表示节点处于故障状态的故障参数、表示节点处于正常状态的正常参数和表示节点处于空闲状态的空闲参数,所述节点通过所述contrl端口向所述交叉开关控制器发送状态参数。
5.一种基于权利要求4所述的容错通信系统的容错通信方法,其特征在于,所述通信方法包括通信策略,所述通信策略包括每个节点的通讯端口均设置为12位宽度的传输端口,其中,数据的0-7位用于存放需要传输的数据,8-12位为jump参数,所述jump参数代表数据在AET网络中传输的次数,每当节点将数据进行发送时,jump参数将加1;所述通信策略配置为当节点的多个输入端口同时接收到数据信号时,只对jump参数最小的输入信号做出响应。
6.根据权利要求5所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述通信方法还包括所述节点将计算所得数据包从所有可用的通信端口发送至交叉开关组,所述交叉开关组根据交叉开关控制器接收到的每个邻近节点的状态参数将数据包传送至其他节点。
7.根据权利要求6所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述节点配置有故障上报策略,所述故障上报策略包括当识别节点处于故障状态时,所述节点通过Control端口向交叉开关控制器发送其地址信息,并通过四个输出端口同时发送错误代码信息。
8.根据权利要求7所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述交叉开关控制器配置有故障识别策略,所述故障识别策略包括若干节点均通过control端口按照固定时间周期向交叉开关控制器发送心跳信号,所述心跳信号包括所述节点的状态参数信息,所述故障识别策略配置为当交叉开关控制器超过固定时间周期未接收到来自所述节点的心跳信号时,认定所述节点处于故障状态;所述节点配置有休眠策略,所述休眠策略包括当所述节点的任一通讯端口输入错误代码信息时,所述节点的所有通讯端口均处于空闲状态,等待交叉开关组重新分配连接。
9.根据权利要求8所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述AET簇中的四个节点包括一个中间节点和三个边缘节点,三个所述边缘节点均以120度的夹角与所述中间节点相连接,所述交叉开关组配置有接线转换策略,所述接线转换策略包括当中间节点首先发生故障时,启动三个边缘节点的备份端口,并将边缘节点中连接中间节点的通讯端口和备份端口分别与其余两个边缘节点相连接;当一个边缘节点首先发生故障时,启动其余三个节点的备份端口,其中两个边缘节点的备份端口相互连接,中间节点的备份端口和连接故障节点的通讯端口分别和与故障节点相连接的其他AET簇中的节点相连。
10.根据权利要求9所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:当中间节点和一个边缘节点均发生故障时,启动其余两个边缘节点的备份端口,两个边缘节点的备份端口相互连接,并将两个边缘节点分别与中间节点相连的通讯端口与故障边缘节点相连接的其他AET簇中的节点相连;当中间节点和两个边缘节点均发生故障时,启动其余一个边缘节点的备份端口,所述边缘节点的两个剩余通讯端口分别与故障边缘节点相连接的其他两个AET簇中的两个节点相连;当两个边缘节点均发生故障时,启动其余节点的备份端口,其中一个边缘节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连,中间节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连;
当三个边缘节点均发生故障时,启动中间节点的备份端口,中间节点的其中两个通讯端口与其中一个故障边缘节点相连接的其他两个AET簇中的两个节点相连,另外两个通讯端口与分别与另外两个故障边缘节点的相连接的两个其他AET簇节点中的一个节点相连,并将其他AET簇中的两个节点相互连接;当所述节点均发生故障时,将所有与三个故障边缘节点相连接的其他AET簇中节点两两相连。
CN202110666592.0A 2021-06-16 2021-06-16 适用于大规模并行计算的节点间容错通信系统及通信方法 Active CN113382431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110666592.0A CN113382431B (zh) 2021-06-16 2021-06-16 适用于大规模并行计算的节点间容错通信系统及通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110666592.0A CN113382431B (zh) 2021-06-16 2021-06-16 适用于大规模并行计算的节点间容错通信系统及通信方法

Publications (2)

Publication Number Publication Date
CN113382431A true CN113382431A (zh) 2021-09-10
CN113382431B CN113382431B (zh) 2022-12-13

Family

ID=77574562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110666592.0A Active CN113382431B (zh) 2021-06-16 2021-06-16 适用于大规模并行计算的节点间容错通信系统及通信方法

Country Status (1)

Country Link
CN (1) CN113382431B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745489A (en) * 1994-04-15 1998-04-28 Dsc Communications Corporation Buffered crosspoint matrix for an asynchronous transfer mode switch and method of operation
CN103973482A (zh) * 2014-04-22 2014-08-06 南京航空航天大学 具有全局通信事务管理能力的容错片上网络系统及方法
CN112702285A (zh) * 2021-01-04 2021-04-23 复旦大学 容错架构构架系统与容错架构控制方法
CN112787872A (zh) * 2021-03-04 2021-05-11 中国航空工业集团公司西安航空计算技术研究所 一种分布式处理系统网络配置及重构方法
CN112862068A (zh) * 2021-01-15 2021-05-28 复旦大学 面向复杂卷积神经网络的容错架构及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745489A (en) * 1994-04-15 1998-04-28 Dsc Communications Corporation Buffered crosspoint matrix for an asynchronous transfer mode switch and method of operation
CN103973482A (zh) * 2014-04-22 2014-08-06 南京航空航天大学 具有全局通信事务管理能力的容错片上网络系统及方法
CN112702285A (zh) * 2021-01-04 2021-04-23 复旦大学 容错架构构架系统与容错架构控制方法
CN112862068A (zh) * 2021-01-15 2021-05-28 复旦大学 面向复杂卷积神经网络的容错架构及方法
CN112787872A (zh) * 2021-03-04 2021-05-11 中国航空工业集团公司西安航空计算技术研究所 一种分布式处理系统网络配置及重构方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
J. LIU,等: ""Nanocore/CMOS Hybrid System-on-Package(SoP) Architecture for"", 《5TH IEEE CONFERENCE ON NANOTECHNOLOGY》 *
LIZHENG LIU,等: ""A Design of Autonomous Error-Tolerant Architectures for Massively Parallel Computing"", 《IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION (VLSI) SYSTEMS》 *
LIZHENG LIU,等: ""Designing bio-inspired autonomous error-tolerant massively parallel computing architectures"", 《2017 30TH IEEE INTERNATIONAL SYSTEM-ON-CHIP CONFERENCE (SOCC)》 *
LIZHENG LIU: ""An Autonomous Error-Tolerant Architecture Featuring Self-reparation for Convolutional Neural Networks"", 《 2020 IEEE 91ST VEHICULAR TECHNOLOGY CONFERENCE (VTC2020-SPRING)》 *
康旭辉等: "基于SpaceVPX架构的星上高速载荷数据实时处理平台设计", 《航天器工程》 *

Also Published As

Publication number Publication date
CN113382431B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN103455005B (zh) 一种控制器冗余及切换方法
CN102577254B (zh) 故障安全通信的方法和系统
EP2085839B1 (en) Apparatus for unidirectionally interconnecting modules
CN101710314B (zh) 高速外围部件互连交换控制器及其实现方法
CN102387084B (zh) 基于RapidIO协议包交换的系统结构
CN112311642B (zh) 基于环形组网的汽车以太网冗余调度方法
CN108306777A (zh) 基于sdn控制器的虚拟网关主备切换方法及装置
CN103684716A (zh) 在可冗余操作的工业通信网络中传输消息的方法和可冗余操作的工业通信网络的通信设备
CN106506625A (zh) 四控服务器及四控服务器通信方法
CN105045181A (zh) Pas100控制系统的总体冗余构架
CN107612800A (zh) 一种连接profibus冗余网络与单总线网络的y型转换设备的实现方法及控制装置
CN110838962A (zh) 船用网络系统及船舶系统
CN110062303B (zh) 基于mesh网络的自适应大容量交叉光通信设备架构
CN113382431B (zh) 适用于大规模并行计算的节点间容错通信系统及通信方法
CA2025950C (en) Duplex structure signal transfer point system for common channel signalling system no. 7
CN112862068A (zh) 面向复杂卷积神经网络的容错架构及方法
CN109688017A (zh) 一种双星型冗余拓扑架构系统及架构实现方法
US20040042493A1 (en) System and method for communicating information among components in a nodal computer architecture
CN116846826A (zh) 一种高可靠自适应片上网络的路由器微体系结构
CN112069106A (zh) 一种基于fpga的多路服务器peci链路控制系统
CN204883335U (zh) Pas100控制系统的总线冗余构架
CN102904807A (zh) 一种通过数据分割传输实现容错可重构片上网络的方法
CN204904019U (zh) Pas100控制系统的总体冗余构架
CN204883339U (zh) Pas100控制系统的通信模块和总线冗余构架
CN204883337U (zh) Pas100控制系统的通信模块冗余构架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant