CN101354694A

CN101354694A - 基于mpu架构的超高扩展超级计算系统

Info

Publication number: CN101354694A
Application number: CNA2007100442308A
Authority: CN
Inventors: 邓越凡; 亚历山大·科罗布卡; 张鹏
Original assignee: Shanghai Redneurons Co Ltd
Current assignee: Shanghai Redneurons Co Ltd
Priority date: 2007-07-26
Filing date: 2007-07-26
Publication date: 2009-01-28
Anticipated expiration: 2027-07-26
Also published as: US8159973B2; CN101354694B; US20090094436A1

Abstract

本发明公开了一种基于MPU架构的超高扩展超级计算系统，旨在提供一系列在目前计算技术基础上面向百万亿次及千万亿次计算应用规模的均衡超级计算系统设计方案。该设计方案包括：MPU互连网络架构及其路由策略、互连网络通信子系统设计与实施，以及软硬件系统设计。该超级计算系统包括：多个处理节点(P－node)以提供并行处理能力和多个连接处理节点的轴突节点(A－node)以提供远程通信和外联扩展网络互连接口。其互连网络架构采用MPU架构，负责节点间通信的路由单元由“现场可编程逻辑门阵列”(FPGA，Field－programmable Gate Array)芯片或其它省时省钱方式实现，同时芯片中还可集成针对特定通信模式的模块化通信加速器，来进一步减少通信延迟。

Description

基于MPU架构的超高扩展超级计算系统

技术领域

本发明涉及高性能计算系统与多处理器系统架构，具体地说，涉及基于MPU架构的超高扩展超级计算系统。

背景技术

随着单处理器性能的不断提升，在高可用、高密度、高扩展超级计算系统的设计实施领域内，互连通信子系统的设计逐渐成为了全系统设计的瓶颈，使得互连通信子系统的性能远远不及处理性能的提升。为了更好地优化大规模并行处理系统中的计算能力与通信能力的平衡设计，同时保持良好的可编程性与应用可移植性，越来越多的高级互连网络架构被引入系统设计之中，其中具有代表性的系统设计有：IBM公司的BlueGene系列和Cray公司的RedStorm系列均采用了三维环绕网络系统；Columbia大学的QCDOC系统采用了精简的六维环绕网络系统。上述组织自行研制具有自主知识产权的多维网格互连系统，使其建造的超级计算系统具有更高的计算密度，并且较传统集群式系统，如基于胖树架构的Infiniband或Myrinet级联交换机，取得了更优的应用性能。而且，对Myrinet和Infiniband互连架构系统的观测显示：单链路上不断的数据传输错误会增加链接恢复与数据重传的时间开销，从而降低了互连网络的通信性能，系统规模增大时，这一问题变得更为突出。然而，多维网络架构互连系统设计通过在背板上提供大量稳定的数据通信连接很好地克服了这一缺陷，同时将若干揽线集束在一个插槽中进一步增加数据连接的稳定性，从而大大地增强数据连接在物理层上的健壮性。

进一步地，由于取消了大量单独交换机组成的外部级联交换矩阵，多维网格架构超级计算系统可以更加灵活地扩展。然后，同等规模具有数千节点的集群式系统需要数十台交换机来提供节点间的连接，节点间的网线连接物理距离将达到数十米，这一情形将造成系统维护上的困境，并增高维护费用。另外，集群式系统的容错性能主要是用来为大规模实际应用提供稳定持续的计算资源，这一性能的保证往往是要部署更多的冗余交换机，这会进一步增加外联交换矩阵的复杂性。然而，新型的多维网格架构超级计算机，如IBM公司的BlueGene，则是采用动态容错性路由机制，通过分离故障区域的方式，优化利用已有可利用数据链路来动态地规避故障节点，而不需要硬件系统过多的冗余配置。

发明内容

本发明的第一个目的是提供一种基于MPU架构的超高扩展超级计算系统，旨在以较低的成本、功耗与占地面积，来提供持续稳定的百万亿次、千万亿次及以上规模的高性能计算能力。

本发明的第二个目的是提供一种计算能力与通信能力相平衡的超级计算系统，该系统采用新型的多维MPU互连网络架构。上述MPU互连网络架构用来建设具有高可用带宽、低网络半径、低网络延迟、超高可扩展性的互连网络系统。

本发明的第三个目的是提供一种可自由扩展并具有良好兼容性的超级计算系统。该系统采用现场可编程逻辑门阵列(FPGA，Field-programmable GateArray)芯片实现进程间消息通信功能，从而组成全系统的路由通信网络，简称FIN(FPGA-based Inter-process communication Network)。FIN的采用一方面保证了系统对已有成熟处理器平台的兼容性，另一方面使我们也可以更专注于核心互连网络系统元件的研发，从而在很大的程度上保持了系统性能与先进处理器效能的同步提升，同时也保证了系统对用户应用加速模块如向量处理器具有良好的兼容性。另外，作为路由交换元件的FPGA芯片也可以是其它可重构系统芯片，或者是特定用途集成电路(ASIC)来实现系统互连网络构建。当规模生产出现时，路由交换元件与包括多级高速缓冲存储器和高速连接控制器在内的中央处理子系统可全部集成于同一芯片，实现系统级芯片(SoC，System-on-a-Chip)设计。

FIN设计理念进一步使设计者、开发者以及最终用户可以更加灵活地改进消息路由功能，以提升应用程序的并行性能。比如说，对于某一特定的应用，我们可以在可重构芯片中有针对地实现其特定的消息通信模式，来更好地加速程序运行。同时，在不改变其它功能模块的配置与设计的情况下，可重构芯片还可负担一部分CPU的计算负载。而且，在实现MPI的并行系统中，我们也可将常用消息通信子程序和一些聚合消息通信在路由芯片上加以实现和优化，来有效地减少系统的消息通信延迟，更充分地发掘MPU架构系统的特性。

本发明的第四个目的是提出建立一个多MPU并行计算系统，其中每个高密度紧密耦合的处理单元(Processing Cell)视为一个超节点(supernode)。每个处理单元包括若干的处理节点(P-node)及其对应的轴突节点(A-node)，组成了一个最基本的处理模块。采用张量扩展方式，互连多个上述的处理单元构成一部超高扩展并行计算系统。该系统具有较短的网络直径，较高的半带宽度，并且处理节点间存在的大量可用链路也保证了系统的高带宽和强健的容错性能。

考虑到占地面积和系统维护等因素，本发明提出的超级计算系统的首选硬件实现是基于刀片式机架解决方案。刀片式机架解决方案以较低的成本、能耗和占地面积实现了高密度高可用的多处理器并行计算系统。

本发明提出的超级计算系统包括多重互连网络系统。第一个网络系统实现一个基于MPU架构的互连网络，同时支持包括广播与All-gather等在内的全局通信操作。在所述的基于MPU架构互连网络系统中，每个处理节点位于一个由相邻节点组成的多维立方体体心。每个边界处理节点位于一个由相邻节点和拓扑循环映射节点组成的一个虚拟多维立方体体心。从而，整体的互连网络拓扑保持高度的一致连续性。

第二个网络系统实现一个扩展网络，这一网络通过轴突节点间的互连，用以提升全系统的中长程通信和全局聚合操作性能。在多维MPU架构的优化实现中，每个轴突节点与一个处理节点的子集互连，该子集中的处理节点构成两个等规模多维立方体的嵌套。上述的处理节点称为上述轴突节点的附属处理节点，上述的轴突节点称为上述处理节点的上游轴突节点。接下来，所有的轴突节点按照其逻辑位置，互连成为另一较小规模的MPU架构网络，也可是一个网格架构网络。同时，轴突节点也为其附属处理节点提供对于包括管理网络和存储网络等在内的互连接口。

第三个网络系统是千兆以太网组成的管理网络系统，用以实现远程全系统监控操作。

第四个网络系统负责外部高速存储。处理节点对外部文件系统的存取可借助其上游轴突节点的高速连接实现。

高性能计算(HPC，High-performance Computing)产业的发展趋势很好地印证了本发明所提出的基于MPU架构的超高扩展超级计算系统的价值。MPU架构是一种新型多维互连网络架构，充分发挥高扩展性与节点间紧密耦合的互连特性，同时通过轴突节点的配置，进一步地增强了远程通信与聚合通信性能，提供了统一的包括全局管理系统和外部文件系统在内的外连网络接口。另外，考虑到与现有不同处理器平台的兼容性和现有不同应用加速部件的移植性，我们将选取可重构(reconfigurable)系统芯片作为处理节点和轴突节点的路由交换逻辑的实现平台。

附图说明

图1是一个二维MPU互连网络架构示意图。

图2是一个二维MPU处理单元的内联网络系统。

图3是一个三维MPU处理单元的内联网络系统。

图4是一个三维MPU互连网络架构示意图。

图5是一个刀片节点配置框图，该刀片节点可容纳多处理节点和轴突节点。

图6是系统机框的内部设计。该机框一共两层，可容纳16个刀片节点。

图7是一个系统机框配置前视图。所有16个刀片节点配置在一个两层的计算与通信节点机框中。

图8是一个机柜散热系统示意图。

图9是一个系统节点功能框图，其中系统节点既可是处理节点也可是轴突节点。其中斜纹区域标明该功能模块仅在轴突节点中存在，而在处理节点中是不存在的。

图10是一个三维MPU网络架构系统节点的高速互连元件功能逻辑框图，其中系统节点既可是处理节点也可是轴突节点。

图11是交换结构示意图。

具体实施方式

下面根据图1至图11，给出本发明的较佳实施例，并予以详细描述，使能更好地理解本发明的功能、特点。

本发明提出的基于MPU架构的超高扩展超级计算系统是采用多重独立互连网络系统来实现多个处理节点和轴突节点的互连。所述的主处理器，MPU(Master Processing Unit)，指的是一个基本的处理单元，其中包括一个处理节点子集及其上游轴突节点，而且该子集中的处理节点通常实现了两个相同规模的多维网格拓扑的嵌套。所述MPU架构互连网络的进一步详细定义可在所引用的中国专利申请号(200610029753.0)，题为“内外连网络拓扑架构及自洽扩展该架构的并行计算系统”的中国专利中找到。

图1中给出了一个简单的二维MPU互连网络架构示意图。每八个处理节点组成一个如图2所示的处理单元，该处理单元中的八个处理节点构成两个正方形的嵌套，每四个处理节点组成其中一个正方形，每个处理节点均位于其四个邻节点的中心。两个相邻处理单元间通过对应边界处理节点间的互连接口实现对接。同时，该处理单元配置一个上游轴突节点A，与所有的处理节点互连。同时，通过互连所有的轴突节点形成一套外联扩展网络系统，负责中长程网络通信和聚合操作等，并提供与其它外联网络系统的互连接口。

考虑到目前技术水平，三维MPU互连网络架构作为推荐系统以下进行详述。同理，随着制造技术和工艺的提高，高维MPU互连网络架构也可进行相似地建造。此外，在下面的叙述中，我们采用现场可编程逻辑门阵列(FPGA，Field-programmable Gate Array)芯片实现进程间消息通信功能，完成我们的交换逻辑设计。因此，全系统的路由通信网络定义为FIN，即基于FPGA实现的进程间通信网络(FPGA-based Inter-process communication Network)。

然而，交换逻辑的实现并不局限于FPGA芯片及其它可编程芯片。特定用途集成电路(ASIC)芯片可被研发采用做高效高速交换逻辑芯片。其中的路由交换模块也可集成于中央处理子系统设计之中，从而实现系统级芯片SoC(System-on-a-Chip)设计理念。

图3是一个三维MPU处理单元的内联网络系统。16个处理节点组成一个基本的三维MPU互连网络架构，并构成了双立方体嵌套结构。所述内联网络系统共配置两个轴突节点A与B，每个轴突节点与一个虚拟立方体中的8个附属处理节点互连，即轴突节点A与处理节点A1至A8互连，轴突节点B与处理节点B1至B8互连。两个轴突节点同时提供与外联网络和扩展网络互连接口。

在三维MPU互连网络架构下，每个处理节点均位于其8个邻节点所构成的三维立方体之中。如图4所示，处理节点B1与处理节点A1至A8互连。每16个处理节点互连实现两个三维立方体的嵌套。如图4所示，8个处理节点A1至A8形成了一个立方体，另8个处理节点B1至B8形成了另一个立方体。通过体心连接方式，上述的两个立方体实现了嵌套连接。处理单元的边界处理节点处于其内部邻节点和外部邻节点共同组成的立方体体心。比如说，在4号处理单元中，处理节点B6连接到两个内部邻节点A6与A7，六个外部邻节点，即：5号处理单元的A5和A8、7号处理单元的A2和A3及8号处理单元的A1和A4。如图4中阴影部分所示，上述8个处理节点共同组成了4号处理节点中处理节点B6的邻节点，并形成了一个立方体。图4中的另一个相同区域标示1号处理单元中处理节点B6的所有8个邻节点形成的立方体。所以，第一个互连网路系统是通过处理节点间直接互连系统的一套MPU架构互连网络系统，负责全系统的点对点通信和一些包括广播与All-gether在内的全局通信操作。

依据中国专利申请号(200610030472.7)，题为“自洽多阶张量扩展方法及多MPU并行计算系统”的中国专利中所述，处理节点的一个子集配置一个负责提供外联网络接口和扩展网络接口的轴突节点，以使所有的轴突节点进一步按照MPU架构互连成为一个扩展网络子系统。上述的处理节点称为其轴突节点的附属处理节点，上述的轴突节点称为其处理节点的上游轴突节点。所述的由轴突节点构成的扩展网络子系统主要负责中长程通信与全局路由通信。

作为第三套网络子系统的管理网络系统，也通过轴突节点的外联网络接口实现，负责远程系统监控。这里，每个处理节点通过以太网连接与上游轴突节点的以太网交换机连接，轴突节点通过外联网络接口也外部监控网络子系统连接。

作为第四套网络子系统的外部文件系统，也通过轴突节点的外部高速连接通道实现，负责提供处理节点对外部文件系统的存储访问。每个轴突节点都配有支持光纤模块或Infiniband模块的扩展卡插槽，提供与外部文件系统的高速互连，每个处理节点通过上游节点完成其对外部文件系统的存储访问。

处理节点概述：

处理节点是一个包括中央处理子系统和路由单元在内的提供计算与通信资源的最小组成单位。

处理节点FPGA芯片(PNF，P-node FPGA)的功能模块：

如图10所示的PNF，主要负责处理节点与其邻处理节点、上游轴突节点和本地中央处理子系统间的消息通信。其中，轴突节点还可选择地配置一个或多个PCI-E扩展卡插槽(可支持光纤或Infiniband连接卡)，可提供与外部存储系统间的高速连接。如图所示的一个三维PNF构件包括：一个时钟与复原信号生成器、一个管理模块(控制状态寄存器)、9个与邻节点和上游轴突节点互连的Aurora IP适配层、一个负责在本地CPU与收发器间交换数据的交换结构、一个负责根据FIN交换协议在路由网路与本地CPU系统间加解数据包的适配层(FIN协议适配层)、一个负责FPGA芯片与本地CPU系统间数据传输的串行RapidIO(sRIO)或PCI-E IP适配层。

所述的时钟与复原信号生成器负责生成FPGA芯片各模块的时钟信号和复位信号。

所述的管理模块，即图10中的控制状态寄存器模块，负责记录一系列系统寄存器状态信息，同时为其它各模块提供对应寄存器的读写操作，并且记录各模块的汇总状态。FPGA芯片板上由管理模块控制的LED负责显示监控各模块的实时信息和状态。本地处理器子系统通过维护请求可对FPGA芯片系统寄存器进行访问。所述的FPGA芯片系统寄存器包括：全系统网络规模、交换结构的配置参数、Aurora链接状态及连接异常等信息。另外，系统寄存器还可用于追踪单链路上的收发数据包情况、缓冲区使用情况、错误标志等信息。

所述的sRIO/PCI-E IP适配层实现了FPGA芯片与本地处理子系统间的高速互连。该模块负责分离系统维护请求和对不同模块的通信请求。系统维护请求可完成对管理模块的配置，其它的通讯请求将被转发到FIN协议适配层继续分发处理。

所述的FIN协议适配层负责按照FIN交换协议将来自于本地处理子系统的原始数据包，封装成用于在互连网络中进行路由交换的数据包形式。相反地，当数据包从sRIO/PCI-E适配层发往本地处理子系统时，数据包的FIN路由信息将被去掉，恢复成本地处理子系统的原始数据包形式。同时，所述的FIN协议适配层也负责校验路由数据包的完成性。

所述的交换结构负责FPGA芯片中的数据转发。该交换结构实现了一个虚输出队列(VOQ)架构的交换结构。所述的虚输出队列在接收端存在多个缓冲队列负责缓存数据包，每个接收端通过交换结构，根据路由决策将数据发送到指定的发送端。每个缓冲队列可缓冲一个或多个最大长度的数据包。该交换结构同时实现了一个虚跨步(VCT，Virtual Cut-Through)传输机制，即当路由信息包获得可继续转发的资源后，数据包将继续前往下一站，而不必等到所有的数据均被缓存在本站，从而进一步减少数据包通过交换结构所造成的延迟。

所述的Aurora IP模块实现Aurora链路层点对点串行传输连接，负责与邻处理节点的PNF和上游轴突节点的ANF间进行高速数据传输。该模块也将向管理模块报告任何发生的链路故障。同时，该模块支持链路流控机制和链路级重传机制，从而保证为上层模块提供稳定有效的高速连接。

处理节点的功能框图：

如图9所示，处理节点包括：中央处理器子系统、CPLD芯片、EthernetPHY、FIN路由单元及包括Boot Flash、电源调节器、内存模块和温度传感器在内的其它支撑设备。

所述的中央处理器子系统包括：CPU、一个或多个浮点处理单元(FPU)、本地嵌入式多级高速存储器及其它的一些板上高速控制器，如I2C控制器、TSEC，DDR2SDRAM内存控制器和支持sRIO/PCI-E连接的控制器等。

所述的CPLD芯片通过局部总线与中央处理子系统互连，负责为片上其它各功能模块提供配置信息以及为FPGA芯片配置提供如节点编号和FIN网络规模等相关信息。

所述的Ethernet PHY负责处理节点本地处理子系统与上游轴突节点间的互连，完成管理网络子系统的功能。

轴突节点：作为一种扩展节点负责加强长程信息通讯能力和整合系统管理能力，既包括了与附属处理节点互连的内部接口，也包括了与外部网络互连的外部接口。按照中国专利申请号(200610030472.7)，题为“自洽多阶张量扩展方法及多MPU并行计算系统”的中国专利所述，与附属处理节点直接相连的轴突节点视为第一级轴突节点，或称一阶轴突节点。所述一阶轴突节点具有互连高速接口，所有的一阶轴突节点互连成为一个外联扩展网络，称为一阶扩展网络，负责中长程消息通信和全局操作等。类似地，二阶轴突节点直接与一阶节点的一个子集互连，同样地提供二阶轴突节点互连高速接口，所有的二阶轴突节点进一步互连成为另一个外联扩展网络，称为二阶扩展网络。二阶扩展网络系统更优地降低中远程消息路由延迟，更好地发挥全局操作的性能。依此方式，根据不同的互连网络规模及性能要求，多阶扩展网络系统即可创建。具体多阶张量扩展方法的实施方案详见中国专利申请号(200610030472.7)，题为“自洽多阶张量扩展方法及多MPU并行计算系统”的中国专利申请。

不失一般性，下面仅围绕一阶扩展网络系统进行描述，其特性可顺势推广到多阶扩展网络系统。

图5是一个刀片节点配置框图，该刀片节点可容纳多处理节点和轴突节点。考虑到占地面积和系统维护等因素，本发明提出的超级计算系统的首选硬件实现是基于刀片式机架解决方案。刀片式机架解决方案以较低的成本、能耗和占地面积实现了高密度高可用的多处理器并行计算系统。如图所示，每个刀片节点包含多个处理节点和轴突节点、PCI-E插槽、COM Express连接器、路由单元和电源调节器等。依据模块化计算机(COM，Computer-on-Module)模块的设计要求，每个系统节点，处理节点或轴突节点，可集成在一个竖插的处理板上。每个模块化处理板是一单板计算机包括处理器、内存及其它芯片组。多个上述的模块化处理板通过COM Express连接器实现与刀片节点背板互连。同时，电压调解器模块，板间网络路由器以及其他的一些如PCI-E插槽等辅助元器件，也集成在刀片节点上。刀片节点背部提供背板电源连接器和背板信号连接器，刀片节点的前端面板提供Reset和电源开关，以及监控指示灯等。

系统机框配置：如图6和7所示的一个7U高的系统机框可分两层容纳16个上述的刀片节点。所有刀片节点的电源和信号通信由刀片节点背板统一提供。每个刀片节点可沿导轨从前部直接插入机框内，由垂直放置的机框背板提供其电源接口和高速信号接口。每个机框的背部也提供可扩展的机框间的高速信号接口、用于外部管理网络的以太网接口和外部电源接口。个别机框可从装有多个机框的机柜中卸载，而不破环其它机框的配置。

系统机柜配置：每个48U高的机柜容纳6个7U高的机框及其支持设备，底部和顶部分别装配有支持热插拔的风扇，分别为底部和顶部三层机框进行散热。机柜中部的空隙可用来将底部的热风排出机柜，防止底部的热流影响顶部的制冷效果。同时，每个机柜配置AC/DC电源转换器，负责为每个机框统一供电。

图8是一个机柜散热系统示意图。每个机柜容纳6个机框，或96个刀片节点及其支持设备，底部和顶部分别装配有支持热插拔的风扇，分别为底部和顶部三层机框进行散热。机柜中部的空隙可用来将底部的热风排出机柜，防止底部的热流影响上半部的制冷效果。

图9是一个系统节点功能框图，其中系统节点既可是处理节点也可是轴突节点。其中斜纹区域标明该功能模块仅在轴突节点中存在，而在处理节点中是不存在的。图10是一个三维MPU网络架构系统节点的高速互连元件功能逻辑框图，其中系统节点既可是处理节点也可是轴突节点。图11是交换结构示意图。其交换结构采用虚输出队列(VOQ，Virtual Output Queue)架构，负责在本地CPU收发队列、内联网络系统各方向收发队列和上游轴突节点收发队列间进行数据传递。在接收端，存在多个缓冲队列，即虚通道(virtual channel)，可缓冲一个或多个最大长度的数据包。

多MPU超级计算系统：一个多MPU超级计算系统是指包括多个基于MPU架构处理单元、按照多阶张量方式扩展而成的一个多处理器计算系统，具有自洽多阶MPU互连网络拓扑架构。全系统的硬件实现是基于刀片式节点设计、每个机框中可容纳多直插式刀片节点，多机框及其供电和制冷系统统一集成在一个机柜中，以达到良好的可用性和可维护性，且减少占地面积、功耗和造价。同时，交换逻辑单元采取可重构芯片设计，来更好地兼容现有成熟的应用软件，并能更好支持新技术革新，以及更灵活地支持用户程序的可扩展性。

另外，一个混合超级计算系统可以采用传统的多维网络环绕(Torus)拓扑形式或者超立方(Hypercube)拓扑形式来构建消息传递的主干通信网，同时通过配置轴突节点，增加一套外联扩展网络系统，来加速中长程消息通信和全局操作等。其主要实施方案祥见中国专利申请号(200710042397.0)，题为“基于环绕网络与超立方网格架构的混合多阶张量扩展方法”的中国专利。上述的基于环绕网络架构的多阶张量扩展方法，将多个基于环绕网络架构、集成有外联扩展网络接口的超节点互连成为一部内外连嵌套网络系统；所述的每个超节点包括处理节点和轴突节点；所述的处理节点按照多维环绕网络架构互连成为一个内联网络系统，负责超节点的内部通信；所述的轴突节点与所有内部处理节点互连，提供一种外联扩展网络接口；所述的外联扩展网络接口按照多维环绕网络架构进一步互连成为一个外联网络系统，负责超节点间各类通信。上述的每个超节点的内联网络既可以是一个K维环绕网络架构，也可以是一个K维超立方网络架构。具体互连架构的实施方案详见中国专利申请号(200710042397.0)，题为“基于环绕网络与超立方网格架构的混合多阶张量扩展方法”的中国专利申请。

这里，主处理器(MPU，Master Processing Unit)是一个由多个处理节点和其上游轴突节点及其支撑设备共同组成的高性能处理单元。外联扩展网络可通过互连所有的轴突节点实现，其拓扑架构可采用多维MPU架构或多维环绕网络架构。上述的轴突节点可被视为一阶轴突节点，其互连生成的扩展网络称为一阶扩展网络。相似地，二阶扩展网络可通过添加与一阶轴突节点互连的二阶轴突节点来实现，所有的二阶轴突节点互连成为一个二阶扩展网络。该混合超级计算系统可实现环绕网络拓扑和多阶张量扩展方式的综合应用。

基于MPU架构的超高扩展计算系统可采用中国专利申请号(200610117704.2)，题为“基于MPU网络拓扑架构的高效中长程路由方法”的中国专利申请中所提出的路有策略，采用无死锁自适应路由方式更好地发掘MPU架构的内在特性。上述的基于MPU网络拓扑架构的高效中长程路由方法，包括如下步骤：建立基于MPU拓扑架构的几何坐标系统，所述MPU拓扑架构的每个节点唯一地对应于一个几何坐标点；将所有节点进行统一物理编号，即从几何坐标的第一个维度开始，按照坐标增长方向顺序编号，然后依次跨越各个维度；基于上述几何坐标系统和物理坐标系统，建立一套以信息交换为导向、动态的相对坐标系统；利用虚通道技术，得到路由网络中的一个虚通道的集合，将上述集合分成适应性虚拟网络和确定性虚拟网络；在所述适应性虚拟网络中进行信息路由；在所述确定性虚拟网络中进行信息路由。所述的建立相对坐标系统的步骤，即对于一个特定的信息，将其目的节点的几何坐标平移为相对坐标系的原点，源节点的几何坐标按照MPU架构的拓扑循环性质、并遵守整个相对坐标系统的最远点与原点的距离不大于网络直径的约束条件，平均分布在以原点为圆心、网络直径为半径的范围内。在K维MPU系统中，每个节点到其邻节点的一条单向物理链路为一个通道方向。上述的虚拟网络中的数据交换，采用虚跨步交换机制，且每条虚通道所对应的缓冲器至少可缓冲一个信息单元。

在上述的适应性虚拟网络中进行信息路由包括如下步骤：每个节点上，每条单向物理通道上至少设有一个虚通道；当信息包在某中间节点路由时，路由函数负责从2K个通道方向中，选取若干合格候选通道方向；在合格候选通道方向上，如果存在空闲的可用输出通道，则信息前往下游节点；如果信息在所确定的合格候选通道方向中，不能得到空闲的可用输出通道，那么启动基于超时机制的死锁探测和预防；如果信息堵塞时间超过了设定阀值，则被视为一个潜在的引发死锁的因素，而被转移到无死锁的确定性网络中继续路由。上述的选取若干合格候选通道方向的步骤具体包括：将能够在当前节点和目的节点之间找到最优路径的通道方向，优先值设定为1；将能够找到拥有比最优路径多2跳的次优路径的通道方向，优先值设定为2；其余通道方向的优先值设定为3。对于优先级为3的通道方向，每个信息从源节点到目的节点的路由过程中，最多允许通过M次优先级为3的通道方向，其中，M为有限非负整数；对于优先级为2的通道方向。如果一个信息通过了一次优先级为2的通道方向，则在其随后两次的通道方向选择中，必须都是优先级为1的通道方向；当信息采用一个优先级大于1的通道方向路由转发时，禁止回缩。

在上述的确定性虚拟网络中进行信息路由包括在已知的K维MPU系统中，选出K个线性无关的方向组成K维空间的一组基d；由这组基d形成一个K维MPU系统中的虚拟K维环绕网。采用虚跨步交换机制，利用虚通道技术，确定性虚拟网络在每个节点上具有2K个可用的通道方向，然后，选定下游路由节点的方向；检查下游节点的逃离通道是否满足报文注入限制条件；如果下游节点满足注入条件，则继续前往下游节点；否则等待。信息包在确定性路由网络中路由步骤为：步骤1：如果信息包到达目的节点，则弹出网络，否则直达步骤2。步骤2：信息包检查适应性网络是否存在空闲的候选通道方向，如果存在，信息包则注入到适应性路由网络，否则直达步骤3；步骤3：在确定性路由网络中，信息包如果要注入到一个新的单向环路由时，检查报文注入限制条件；如果仍在所在的单向环中路由，则只要下游节点存在一个空闲的信息包缓冲单位即可继续路由。

具体路由策略的实施方案详见中国专利申请号(200610117704.2)，题为“基于MPU网络拓扑架构的高效中长程路由方法”的中国专利申请。

前面提供了对较佳实施例的描述，以使本领域内的任何技术人员可使用或利用本发明。对该较佳实施例，本领域内的技术人员在不脱离本发明原理的基础上，可以作出各种修改或者变换。本发明不仅能够应用于并行计算机的内联网络系统的设计，而且可以应用于互联网核心路由器的内部交换网络结构的设计，以及任何的有关于交换网络结构的设计之中。应当理解，这些修改或者变换都不脱离本发明的保护范围。

Claims

1.一种基于MPU架构的超高扩展计算系统，包括：

a)由多个网络互连的多个处理节点和轴突节点，其中，每个处理节点包括一个或多个处理元件；每个轴突节点与所述处理节点的一个子集互连，负责为其附属处理节点提供与外联子网络系统间的互连、或加速全局中远程通信与聚合操作、或上述操作的组合；以及

b)所述的多个网络包括四个独立的网络子系统：一个MPU架构点对点网络，一个外联扩展网络，一个外部管理网络和一个外部存储网络。

2.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的MPU架构对两个相同规模的K维网格拓扑进行嵌套。

3.如权利1所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的MPU架构点对点网络包括一个K维互连网络系统，互连上述所有的处理节点；其中，每个所述的处理节点位于一个由其相邻节点组成的K维立方体中，同时与其相邻节点进行高速互连。

4.如权利要求2所述的基于MPU架构的超高扩展计算系统，其特征在于，每个边界处理节点均位于一个由其相邻节点和拓扑循环映射节点组成的一个虚拟多维立方体体心，同时与上述邻节点进行高速互连。

5.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，所述处理节点的一个子集共享一个轴突节点，该轴突节点为其附属处理节点提供外联网络系统连接；所述的轴突节点与该子集中的所有或者部分处理节点直接互连。

6.如权利要求5所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的外联网络系统包括一个由轴突节点互连而成的外联扩展网络子系统，负责中长程通信与全局通信操作；所述的轴突节点互连架构可采取多维MPU架构或者多维网格拓扑架构。

7.如权利要求5所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的外联网络系统包括一个由轴突节点提供接口的外部存储网络，负责处理节点通过其上游轴突节点对外部文件系统进行访问；所述轴突节点全部或部分通过外部高速交换机与外部文件系统互连。

8.如权利要求5所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的外联网络系统包括一个由轴突节点提供接口的外部管理系统，负责全系统的远程监控操作；每个处理节点通过以太网连接到其轴突节点，所述轴突节点通过外部以太网交换机提供远程系统监控与任务分配操作。

9.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，每个轴突节点包含一个提供高速连接的路由单元，负责该轴突节点与其附属处理节点与邻居轴突节点间的消息通信。

10.如权利要求9所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的轴突节点路由单元包括多个数据链路与其附属处理节点互连。

11.如权利要求10所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的数据链路可采用Aurora链路层点对点串行传输连接，负责在处理节点与轴突节点间路由芯片间高速传输数据。

12.如权利要求9所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的轴突节点路由单元包括外联接口，负责与其他轴突节点和外部文件系统互连。

13.如权利要求12所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的负责与其他轴突节点间互连的外联接口可采用Aurora链路层点对点串行传输协议。

14.如权利要求12所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的负责与外部文件系统互连的外联接口可采用Infiniband接口，完成轴突节点与外联Infiniband级联交换机信息交换。

15.如权利要求9所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的轴突节点路由单元包括一个虚输出队列(VOQ)架构的交换结构，所述的虚输出队列在接收端存在多个缓冲队列负责缓存数据包，每个接收端通过交换结构，根据路由决策将数据发送到指定的发送端；每个缓冲队列可缓冲一个或多个最大长度的数据包。

16.如权利要求9所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的轴突节点路由单元包括一个FIN协议适配层，负责根据FIN交换协议在路由网络与本地CPU系统间加解数据包，同时校验数据包的完整性。

17.如权利要求9所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的轴突节点路由单元包括一个负责FPGA芯片与本地CPU系统间数据传输的协议适配层；所述协议适配层可采用系统支持的串行RapdiIO，或PCI-Express，或HyperTransport协议，以更灵活有效地支持不同处理器的多种高级外连接口形式。

18.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，每个轴突节点包含一个以太网交换机，负责互连其附属处理节点的以太网接口，同时提供外部监控网络接口，支持外部监控网络对于轴突接点和处理节点的系统监控、任务分配的操作。

19.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，每个处理节点包含一个路由单元，负责与其邻节点和上游轴突节点进行消息通信。

20.如权利要求19所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的处理节点路由单元包括多个数据链路与其邻居处理节点和上游轴突节点互连。

21.如权利要求20所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的数据链路可采用Aurora链路层点对点串行传输连接，负责在路由芯片间高速传输数据。

22.如权利要求19所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的处理节点路由单元包括一个虚输出队列(VOQ)架构的交换结构；所述的虚输出队列在接收端存在多个缓冲队列负责缓存数据包，每个接收端通过交换结构，根据路由决策将数据发送到指定的发送端；每个缓冲队列可缓冲一个或多个最大长度的数据包。

23.如权利要求19所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的处理节点路由单元包括一个FIN协议适配层，负责根据FIN交换协议在路由网络与本地CPU系统间加解数据包，同时校验数据包的完整性。

24.如权利要求19所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的处理节点路由单元包括一个负责FPGA芯片与本地CPU系统间数据传输的协议适配层；所述协议适配层可采用系统支持的串行RapdiIO，或PCI-Express，或HyperTransport协议；模块化协议适配层的配置可更灵活有效地支持不同处理器的多种高级外连接口形式。

25.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，每个处理节点以太网连接接口，负责与其上游轴突节点以太网交换机互连，提供系统监控、任务分配等远程操作。

26.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的轴突节点可按照L维MPU架构互连成为一个扩展网络系统；其中，每个所述的轴突节点位于一个由其邻居轴突节点组成的L维立方体体心，同时与其邻节点进行高速互连。

27.如权利要求26所述的基于MPU架构的超高扩展计算系统，其特征在于，每个边界轴突节点均位于一个由其相邻节点和拓扑循环映射节点组成的一个虚拟L维立方体体心，同时与上述邻节点进行高速互连。

28.如权利要求26所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的由轴突节点组成的L维MPU架构实现了两个相同规模的L维网格拓扑的嵌套。

29.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的外部管理网络由处理节点和轴突节点的以太网互连实现；处理节点的以太网适配器连接到上游轴突节点的以太网交换机，轴突节点通过以太网接口进一步连接到外部以太网交换机。

30.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的外部存储网络由处理节点和轴突节点间的高速连接实现；处理节点通过与其上游轴突节点间连接和该轴突节点与外部存储系统间连接实现对外部文件系统的存取。

31.如权利要求30所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的外部文件系统可采用Infinband级联交换机矩阵实现。

32.如权利要求1所述的基于MPU架构的超高扩展计算系统，其特征在于，每个主处理器(MPU，Master Processing Unit)是一个由多个处理节点和其上游轴突节点及其支撑设备共同组成的高性能处理单元。

33.如权利要求32所述的基于MPU架构的超高扩展计算系统，其特征在于，所述主处理器中的所有处理节点形成两个相同规模的多维网格拓扑的嵌套互连。

34.如权利要求32所述的基于MPU架构的超高扩展计算系统，其特征在于，所述的其它支撑设备包括供电子系统、制冷子系统和板载温度监控传感器。

35.如权利要求32所述的基于MPU架构的超高扩展计算系统，其特征在于，一个或多个MPU处理单元可实现在一个刀片节点上，作为一个基本的计算服务节点。

36.如权利要求32所述的基于MPU架构的超高扩展计算系统，其特征在于，一个系统机框作为一个基本构造模块，可容纳十六个上述的刀片节点，同时通过系统背板为其提供电源和高速信号连接。

37.如权利要求32所述的基于MPU架构的超高扩展计算系统，其特征在于，一个系统机柜可容纳六个上述的系统机框，同时容纳包括外联扩展网络、存储网络、管理网络、供电子系统、制冷子系统和监管设施在内的支撑设备。

38.如权利要求37所述的基于MPU架构的超高扩展计算系统，其特征在于，上述的六个系统机框在一个机柜中按顶部三层和底部三层分别放置；机柜中部的剩余空间作为下部机框热风出口，以防止底部热流影响顶部的制冷效果。