CN107959643B - 一种通过交换芯片构建的交换系统及其路由算法 - Google Patents

一种通过交换芯片构建的交换系统及其路由算法 Download PDF

Info

Publication number
CN107959643B
CN107959643B CN201711483999.XA CN201711483999A CN107959643B CN 107959643 B CN107959643 B CN 107959643B CN 201711483999 A CN201711483999 A CN 201711483999A CN 107959643 B CN107959643 B CN 107959643B
Authority
CN
China
Prior art keywords
switching
exchange
dimension
node
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711483999.XA
Other languages
English (en)
Other versions
CN107959643A (zh
Inventor
苏勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuguang Information Industry Henan Co ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201711483999.XA priority Critical patent/CN107959643B/zh
Publication of CN107959643A publication Critical patent/CN107959643A/zh
Application granted granted Critical
Publication of CN107959643B publication Critical patent/CN107959643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • H04L49/1507Distribute and route fabrics, e.g. sorting-routing or Batcher-Banyan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/122Shortest path evaluation by minimising distances, e.g. by selecting a route with minimum of number of hops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种通过交换芯片构建的交换系统及其路由算法,该交换系统包括:3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括:3个交换主板,并且3个交换主板作Y维连接;以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接。本发明通过3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括3个交换主板,并且3个交换主板作Y维连接,以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接,从而基于商用交换芯片(或交换芯片)构建3D Torus架构的大端口交换机(或交换系统),以及还提出了路由算法,从而具有低延迟,高性能、低成本、低功耗的特点。

Description

一种通过交换芯片构建的交换系统及其路由算法
技术领域
本发明涉及通信领域,具体来说,涉及一种通过交换芯片构建的交换系统及其路由算法。
背景技术
随着技术进步和工艺发展,大数据、人工智能等高技术应用的迅猛发展,对高性能计算机的计算能力需求越来越强烈。目前,增强计算能力的方式如下:一种方式则是增强节点的计算能力,采用多核甚至众核处理器来提升单个节点的计算能力;一种方法是扩展系统规模,将大量的处理器互连起来,通过大量并行计算来提升系统的计算能力。
同时,如何保证大量处理器间的高效通信对互连网络提出了严峻挑战,该高效通信的要求为:超高带宽、超低延迟、超大规模。随着规模的不断增长,系统成本和能耗问题越发突出高性能互连网络该如何发展来应对这些挑战呢?互连网络的拓扑结构和路由算法从宏观上决定了网络的可扩展性和通信性能。网络可扩展性不仅受拓扑性质的限制,而且受到物理技术和管理需求,如封装工艺、系统冷却、电源功耗和传输管理等限制。
此外,对于系统设计来说:1、数据搬移的能量消耗是与数据传输的位率(bitrate)成正比的,链路带宽越高,能量消耗也越严重;2、信号传输的能量消耗与传输距离成正比,因此随着能耗问题越来越难以解决带宽倾向于变得愈加局部化。大端口交换机可有效应对这种局部通信特征,大量的通信集中在交换机内部进行,可有效降低对全局网络的通信压力,有利于提升系统性能,但是,大端口交换机的设计难度受限于芯片的晶体管数量,管脚数量,布局布线等众多因素,难以通过单一芯片直接构建,因此大端口交换机通常是通过内部互连多个交换芯片,对外形成一个“虚拟的”大端口交换机。例如,国际上老牌高性能互连网络设备厂商Mellanox以及现在大举进军高性能互连网络市场的处理器巨头Intel的大端口交换机都是内部集成多个交换机芯片构建大端口交换机,拓扑结构普遍采用胖树结构。二层胖树拓扑网络直径只有2跳,具有低延迟,高性能的优势,而且可提供无阻塞通信,但其代价是需要大量的冗余部件来保证高性能,因而其成本很高,功耗较大,而且大端口交换机价格昂贵。
此外,高性能计算的应用负载普遍具有局部性特征,例如,空间局部性和(或)时间局部性。基于应用的局部通信特征能够有效利用网络带宽,缩短消息延迟,提高网络吞吐率,通信局部性对计算效率有着重要影响,因此,应用的通信模式是网络设计的重要依据。另外,Agrawal认为如果不同节点间的通信概率随着物理距离而减少则并行应用具有通信局部性,应用的通信局部性有助于提高直接网络的吞吐率并降低延迟,以及Johnson认为并行应用通常可利用通信局部性来实现性能增益,通信局部性依赖算法和数据与处理器的映射和分配,因此,通信局部性使得低维网络更具有竞争力。
另外,IBM(International Business Machines Corporation,国际商业机器公司)的研究人员分析了11种典型高性能应用的通信模式,发现两个主导通信性能的规律:一是应用通信对象是有限的,而且通常很小;二是通信对象集通常不变或者变化缓慢。上面这两条规律说明高性能应用具有很好的空间局部性和时间局部性,此外,大部分高性能计算应用通信模式具有明显的局部性,通信度较低,通信对象通常是4到8个。
此外,伯克利的Vetter和Mueller指出大规模应用可扩展性效率最高的通信模式是处理器的平均通信拓扑度为3到7个通信目标或邻居。应用的通信矩阵分析显示大部分应用都具有邻居通信的特征,特别是像3D Stencil这类应用,每个节点至多和6个邻居通信,这是由其代码的计算结构所决定的,其通信矩阵呈现斜带状分布。
另外,Kenneth研究发现处理器间的通信模式由两种因素决定:算法天然的通信结构和应用软件进程被映射到处理器的方法,有些应用由于结构特性,天然地导致特殊的通信模式,如果并行计算应用存在大量通信局部性,自然的应该对此加以利用以提高系统效率,例如,有些流体动态计算应用对应的计算被分配在二维或三维空间,这导致物理拓扑的排列符合二维或三维Mesh(无线网格网络)结构(或Torus结构)。同时,Torus网络在Mesh网络的基础上增加环回链路来压缩网络直径,进一步提升性能,而且结构对称,具有较好的可扩展性。3D Torus(3维环绕)网络曾经在高性能互连领域占据主导地位,例如,Cray的T3D/T3E系列。针对高性能应用的这种通信局部性特征构建互连网络拓扑可有效降低通信延迟,提升系统性能。
此外,路由算法主要负责消息的有效传输,对于网络通信性能有着重要影响,该路由算法包括经典的Torus路由算法有维序路由算法、转向控制算法和自适应路由等。
另外,维序路由算法按照各维上偏移量之和计算出当前节点与目的节点之间的距离,数据包严格按维度增加或减少的次序依次通过所有维度,在当前维上的偏移量减为0后再转入下一维度。同时,维序路由算法是最短路径路由算法,路由效率最高,对于Mesh网络是无死锁的,但对于Torus网络是存在死锁的,不足之处是受网络拥塞影响比较大。
此外,自适应路由算法是根据通道的拥塞情况动态选择路由,好处是路由灵活,链路利用率高,具有容错能力,不足之处是非最短路径、算法复杂、容易死锁且存在乱序的问题。
另外,网络交换机需要一定的缓冲器用来存储数据包,但是缓冲器的容量是有限的。对于那些数据包头还没有到达目的节点的报文,一方面要请求缓冲器资源,同时又要占用当前缓冲报文的缓冲器,这种通道资源的循环占用就可能产生死锁。目前通过如下方式避免死锁:增加虚通道构建虚拟子网,通过分离流量可有效避免死锁,但是这种方法的缺点是所需资源比较多,对于采用高维度拓扑的超大规模网络会极大增加系统成本;采用逃逸虚通道也可以避免死锁,当发生拥塞时数据包进入逃逸虚通道路由,可化解拥塞情况,其不足之处在于逃逸通道的利用率比较低。
此外,国际、国内没有这种基于3D Torus拓扑结构构建大端口交换机的方法。国际上大端口高性能交换机主要是Mellanox、Intel等几个大厂家有能力生产,基于低端口交换芯片通过胖树拓扑构建大端口交换机,但是所需交换芯片数量和内部端口数量较多,而且胖树拓扑的交换机端口利用率低:设Pe为该网络中交换机用于连接终端处理节点的总端口数,Pt为该网络中交换机的总端口数,则该网络的交换机端口利用率为Pe/Pt×100%。如下表1所示,h表示胖树网络的高度;n表示mesh/torus网络的维度;m表示每个维度中交换机的数量;p表示每台交换机的端口数。
Figure BDA0001534376230000041
表1
另外,根据表1的内容,不难发现,胖树网络的交换机端口利用率始终低于33%,3层胖树只有20%。交换机端口利用率低就意味着需要更多的交换芯片,相应的需要更多的端口,现有技术条件下,端口数据传输所需的高速SERDES(它是一种主流的时分多路复用、点对点的串行通信技术),传输每bit数据功耗20-40PJ(皮焦耳),对于现在的主流高性能交换机带宽的100Gbps/端口,每个端口功耗2-4瓦,从而使得整个系统的构建成本随之升高和更高的功耗。此外,Mesh网络/Torus网络的端口利用率几乎总超过50%,这意味着更低的系统成本和功耗,并且对于具有显著局部通信特征的高性能应用,Mesh/Torus拓扑更是天然的契合应用对局部通信的需求,因而,如何通过Torus拓扑构建大端口交换机,并使得其具有低成本,低功耗,绿色环保等优点,成为本领域的技术人员所急需解决的技术问题。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种通过交换芯片构建的交换系统及其路由算法。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种通过交换芯片构建的交换系统。
该通过交换芯片构建的交换系统包括:3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括:3个交换主板,并且3个交换主板作Y维连接;以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接。
根据本发明的一个实施例,在每个交换主板上,3个交换芯片作X维连接包括:在每个交换主板上,任意1个交换芯片均与其他的2个交换芯片连接。
根据本发明的一个实施例,3个交换单元均设置在背板上,以及3个交换主板作Y维连接包括:在每个交换单元中,任意1个交换主板均通过背板与其他的2个交换主板连接。
根据本发明的一个实施例,每个交换单元均包括:第一交换主板、第二交换主板和第三交换主板,以及3个交换单元作Z维连接包括:任意1个交换单元中的第一交换主板均通过背板与其他的2个交换单元中的第一交换主板连接;任意1个交换单元中的第二交换主板均通过背板与其他的2个交换单元中的第二交换主板连接;以及任意1个交换单元中的第三交换主板均通过背板与其他的2个交换单元中的第三交换主板连接。
根据本发明的另一方面,提供了一种应用于上述通过交换芯片构建的交换系统的路由算法。
该路由算法包括:根据当前节点的位置坐标和目标节点的位置坐标,确定最短路径,并判断最短路径的链路资源是否可用;在最短路径的链路资源可用的情况下,通过最短路径进行数据的发送,然而在最短路径的链路资源不可用的情况下,判断当前节点和目标节点之间是否存在其他可用的链路资源;在当前节点和目标节点之间存在其他可用的链路资源的情况下,选择空闲的链路进行数据的发送,然而在当前节点和目标节点之间不存在其他可用的链路资源的情况下,通过维序路由算法进行数据的发送。
根据本发明的一个实施例,在根据当前节点的位置坐标和目标节点的位置坐标,确定最短路径之前还包括:根据预设的规则,定义每个交换芯片的位置坐标;以及根据每个节点所处的交换芯片上的端口,确定每个节点的位置坐标。
根据本发明的一个实施例,通过维序路由算法进行数据的发送包括:根据当前节点的X维位置坐标和目标节点的X维位置坐标,进行X维方向上的偏移;根据当前节点的Y维位置坐标和目标节点的Y维位置坐标,进行Y维方向上的偏移;以及根据当前节点的Z维位置坐标和目标节点的Z维位置坐标,进行Z维方向上的偏移。
根据本发明的一个实施例,还包括:将交换芯片之间的链路资源分离为两条虚通道。
根据本发明的一个实施例,还包括:在当前节点和目标节点之间不存在其他可用的链路资源的情况下,将当前虚通道切换至另外一条虚通道,随后通过维序路由算法进行数据的发送。
本发明的有益技术效果在于:
本发明通过3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括3个交换主板,并且3个交换主板作Y维连接,以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接,从而基于商用交换芯片(或交换芯片)构建3D Torus架构的大端口交换机(或交换系统),以及还提出了路由算法,从而具有低延迟,高性能、低成本、低功耗的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的交换系统的示意图;
图2是根据本发明实施例的交换系统内交换芯片端口的连接关系示意图;
图3是根据本发明实施例的交换系统的前面板端口布局示意图;
图4是根据本发明实施例的路由算法的流程图;
图5是根据本发明实施例的维序路由算法的具体流程图;
图6a和图6b是根据本发明实施例的拓扑路由死锁的示意图;
图7a和图7b是根据本发明实施例的死锁避免示意图;
图8是根据本发明实施例的路由算法的具体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种通过交换芯片构建的交换系统。
如图2所示,根据本发明实施例的通过交换芯片构建的交换系统包括:3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括:3个交换主板,并且3个交换主板作Y维连接;以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接。
在该实施例中,如图2所述,该交换系统包括:大端口交换机背板(或背板),在该大端口交换机背板上设有9块交换页板(或交换主板),按照图2从上至下的顺序,依次将上述9块交换页板进行划分成3个交换单元,其中,上面相邻的3个交换页板为第一交换单元,中间相邻的3个交换页板为第二交换单元,下面相邻的3个交换页板为第三交换单元,此外,在第一交换单元中,从上至下的三个交换页板依次为第一交换主板、第二交换主板和第三交换主板,另外两个交换单元中的设置与第一交换单元相同,在此不再重复描述。同时,在每个交换页板中,还设有3个交换芯片,并且3个交换芯片的X维度交换芯片的端口并通过交换页板连接,从而进行X维连接,以及在每个交换单元中,通过Y维度交换芯片的端口通过背板连接,从而进行Y维连接,以及在该交换系统中,通过Z维度交换芯片的端口通过背板连接,从而进行Z维连接。
借助于本发明的上述技术方案,通过3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括3个交换主板,并且3个交换主板作Y维连接,以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接,从而基于商用交换芯片(或交换芯片)构建3D Torus架构的大端口交换机(或交换系统),以及还提出了路由算法,从而具有低延迟,高性能、低成本、低功耗的特点。
根据本发明的一个实施例,在每个交换主板上,3个交换芯片作X维连接包括:在每个交换主板上,任意1个交换芯片均与其他的2个交换芯片连接。
根据本发明的一个实施例,3个交换单元均设置在背板上,以及3个交换主板作Y维连接包括:在每个交换单元中,任意1个交换主板均通过背板与其他的2个交换主板连接。
根据本发明的一个实施例,每个交换单元均包括:第一交换主板、第二交换主板和第三交换主板,以及3个交换单元作Z维连接包括:任意1个交换单元中的第一交换主板均通过背板与其他的2个交换单元中的第一交换主板连接;任意1个交换单元中的第二交换主板均通过背板与其他的2个交换单元中的第二交换主板连接;以及任意1个交换单元中的第三交换主板均通过背板与其他的2个交换单元中的第三交换主板连接。
为了更好的描述本发明的技术方案,下面通过具体的实施例进行详细的描述。
为解决现有技术中的问题,本发明基于商用交换芯片构建3D Torus架构的大端口交换机,并提出确定性维序路由算法和自适应路由算法以及基于虚通道的死锁避免方法,具有低延迟,高性能、低成本、低功耗的特点。
此外,由于Torus拓扑的网络直径相对于Mesh拓扑会进一步降低,对于本实例给出的3x3x3拓扑架构,Mesh拓扑的网络直径为6跳,而Torus拓扑仅为3跳,因此,采用Torus拓扑结构。以目前市场主流商用高性能交换芯片intel的48口OP交换芯片为例,构建基于3DTorus拓扑的大端口交换机,考虑无阻塞通信,48口交换机芯片,24端口用于连接节点,剩余24端口可以互连其他交换芯片构成3D Torus网络,24端口输入,24端口输出,因此每个交换芯片可以全速率转发节点发送进来的数据。此外,Torus拓扑的网络直径会随着拓扑规模的扩展而线性增长,因此,考虑到保证较好的通信性能,需要全面考量系统规模。同时,对于维度长度为3的torus拓扑,该维度上任意节点间通信距离只有1跳,具有最低的延迟,而且可提供较高的扩展性,所以,本发明设计以维度长度为3作为基本单位,进行规模扩展,该3DTorus拓扑具有3个维度、6个方向,每个方向需要4端口用于交换芯片间互连,可提供400Gpbs的带宽,同时,3x3x3=27个交换芯片即可互连27x24=648节点,因此,基于27个48端口交换芯片可构建648端口的大端口交换机,具有低成本,低功耗,高性能,环保节能的特点,同时,3D Torus大端口交换机内部通信距离最大3跳,相对于胖树拓扑的2跳,通信距离仅增加1跳,而系统成本和功耗却大大降低,具有很高的性价比。并且,该3D Torus大端口交换机拓扑结构如图1所示。
1、基于商用交换芯片构建3D Torus大端口交换机。
如前所述,超高网络带宽和严格的能耗要求限制了互连芯片的端口数目,决定了直接构建大端口路由器难以实现性能和扩展性的兼顾。面对这一挑战,针对应用的局部性通信特征本发明提出了一种面向高性能计算应用通信的交换系统,从而基于该交换系统,实现了应用通信模式与拓扑结构的匹配,达到性能、扩展性和成本三者的均衡,亦即实现网络与应用的协同设计(Co-design)。
1.1、拓扑构建方法
Torus拓扑结构简单、通信度低,而且与应用的局部通信模式非常匹配,因此以Torus拓扑作为拓扑架构是一种合理的选择,据此,我们提出了3D Torus结构,如图2所示,同时,由于各端口间连接密度较大,为清晰起见,这里分别画出了X、Y、Z各个维度的部分端口连接示意图,其中每块交换机页板上部署3个交换芯片,在页板上可连接X维度的各个端口;每3块页板构成Y维度,通过交换机背板进行连接;以3块页板为单位构建Z维度,共9块页板部署在交换机背板上,其中较细的连线表示Y维度交换芯片间的端口连接关系;较粗连线表示Z维度交换芯片间的端口连接关系。最下面一块页板加粗是为了便于区分,从而构建3DTorus的交换系统。
2.2、交换系统内部端口连接关系
各个维度的端口连接关系如下表2所示,其中1到8号端口对应X维度,9到16号端口对应Y维度,17到24号端口对应Z维度。同时,奇数端口2xi+1(0≤i≤11)作为本地端口,与对端交换芯片的2x(i+1)(0≤i≤11)号端口连接。此外,规定奇数端口为对应维度的正方向,偶数端口为负方向,并且基于intel的48口交换芯片,在每个维度可提供400Gbps的带宽。
Figure BDA0001534376230000101
表2
1.3、交换机前面板端口布局
每个交换芯片的其余24个端口用于对外连接节点,从而3x3x3=27个交换芯片即可互连27x24=648节点,因此,基于27个48端口交换芯片可构建648端口的大端口交换机,此外,大端口交换机前面板端口结构如图3所示。同时,交换机前面板的布局和内部的交换页板相对应,由9块端口模块构成,每个端口模块对应3个交换机芯片的端口,分为3行,每行24端口,对应一个交换芯片的25至48端口,自上而下每行对应1个交换芯片,共27行。
根据本发明的实施例,还提供了一种应用于上述通过交换芯片构建的交换系统的路由算法。
如图4所示,根据本发明实施例的路由算法包括:步骤S401,根据当前节点的位置坐标和目标节点的位置坐标,确定最短路径,并判断最短路径的链路资源是否可用;步骤S403,在最短路径的链路资源可用的情况下,通过最短路径进行数据的发送,然而在最短路径的链路资源不可用的情况下,判断当前节点和目标节点之间是否存在其他可用的链路资源;步骤S405,在当前节点和目标节点之间存在其他可用的链路资源的情况下,选择空闲的链路进行数据的发送,然而在当前节点和目标节点之间不存在其他可用的链路资源的情况下,通过维序路由算法进行数据的发送。
根据本发明的一个实施例,在根据当前节点的位置坐标和目标节点的位置坐标,确定最短路径之前还包括:根据预设的规则,定义每个交换芯片的位置坐标;以及根据每个节点所处的交换芯片上的端口,确定每个节点的位置坐标。
根据本发明的一个实施例,通过维序路由算法进行数据的发送包括:根据当前节点的X维位置坐标和目标节点的X维位置坐标,进行X维方向上的偏移;根据当前节点的Y维位置坐标和目标节点的Y维位置坐标,进行Y维方向上的偏移;以及根据当前节点的Z维位置坐标和目标节点的Z维位置坐标,进行Z维方向上的偏移。
根据本发明的一个实施例,还包括:将交换芯片之间的链路资源分离为两条虚通道。
根据本发明的一个实施例,还包括:在当前节点和目标节点之间不存在其他可用的链路资源的情况下,将当前虚通道切换至另外一条虚通道,随后通过维序路由算法进行数据的发送。
为了更好的描述本发明的技术方案,下面通过具体的实施例进行详细的描述。
2、路由算法设计
2.1、交换芯片位置信息标识
以每个交换芯片所在维度的位置坐标即可唯一表示节点位置信息,例如,根据本发明的一个实施例,SW-000表示交换芯片位于X维度0号,Y维度0号和Z维度0号的位置,相关交换芯片的具体设置可参见下表3。
SW-000 SW-001 SW-002
SW-010 SW-011 SW-012
SW-020 SW-021 SW-022
SW-100 SW-101 SW-102
SW-110 SW-111 SW-112
SW-120 SW-121 SW-122
SW-200 SW-201 SW-202
SW-210 SW-211 SW-212
SW-220 SW-221 SW-222
表3
此外,每个交换芯片的25至48号端口用于连接节点,因此,可直接利用交换芯片的命名对连接节点的端口进行命名,对应的节点命名也就唯一确定了,每个节点与其连接的交换芯片具有相同的X、Y、Z坐标信息,规定节点命名规则为:N-XYZ-P,这里N表示节点类型,XYZ分别对应所在交换芯片的X、Y、Z维度坐标,P为与其连接的端口号,对于交换芯片,P统一为0,例如,根据本发明的一个实施例,N-000-25表示交换芯片SW-000的25号端口连接的节点。
2.2、维序路由算法
维序路由算法是最短路径算法,平均通信距离最短,具有算法简单,便于硬件实现等优点,特别是对于本发明的所规定的交换芯片命名规则,可根据交换芯片命名在每个维度的坐标信息直接判断路由。对于3D Torus,可分解相互正交的X、Y、Z维度,很容易按照各维上偏移量之和计算出当前节点与目的节点之间的距离。按照维度长度递减的顺序遍历每个维度,每路由一步偏移量减1,在当前维的偏移量减为0后才计算下一维的偏移量,维序路由依次走完每个维度直至目标节点。
此外,当前节点接收到数据后,根据目标节点的坐标信息可判断路由,首先根据X维度的坐标与自己在X维度的坐标可判断在该维度如何路由,如图5所示,例如,在目标节点的X维度的坐标比当前节点的坐标大1的情况下,说明在X维度还有一跳可达,因此,从X维度的正方向端口转发即可,反之,如果是-1,说明目标节点在X维度的反方向,应该从负向端口输出,如果是-2,则可以走环回链路,只一跳可达,因此,从正向端口输出,同理,如果是2,则走负向端口即可。此外,如果坐标相同,说明X维度不需进行路由,转向Y维度进行判断,判断方法与X维度类似,最后进入Z维度,判断方法也是如此,最后X、Y、Z这3个维度的坐标都相同,在根据最后1位P来判断,从对应交换芯片的P端口输出即可到达目标节点,完成路由。
2.3、死锁避免算法
交换芯片需要一定的缓冲器buffer用来存储数据包,但是,缓冲器的容量是有限的,对于那些数据包头还没有到达目的节点的报文,一方面要请求缓冲器资源,同时又要占用当前缓冲报文的缓冲器,这种通道资源的循环占用就可能产生死锁。同时,死锁是影响系统性能的关键问题,而死锁避免又最难解决,因此死锁避免是需要重点解决的问题。此外,维序路由算法对应Mesh拓扑是没有死锁的,但是Torus天然的存在环回链路,对于维度长度大于4的Torus环路是存在死锁的,对于本发明的特例,3x3x3拓扑结构是无死锁的。为适应各种Torus规模,这里选取Torus环路中的4个交换芯片为例,阐述如何造成死锁的,如图6a所示,假设有4个交换芯片间的数据传输是单向逆时针的,从交换芯片SW0到交换芯片SW2;交换芯片SW1到交换芯片SW3;交换芯片SW2到交换芯片SW0;交换芯片SW3到交换芯片SW1,如果同时发生数据传输,则交换芯片SW0会占用数据通道VL01发送数据给交换芯片SW1,而交换芯片SW1会请求数据通道VL12,因此,VL01和VL12间具有相关性。交换芯片SW1会占用数据通道VL12发送数据给交换芯片SW2,而交换芯片SW2会请求数据通道VL23,因此,VL12和VL23间具有相关性。交换芯片SW2会占用数据通道VL23发送数据给交换芯片SW3,而交换芯片SW3会请求数据通道VL30,因此,VL23和VL30间具有相关性。交换芯片SW3会占用数据通道VL30发送数据给交换芯片SW0,而交换芯片SW0会请求数据通道VL01,因此,VL30和VL01间具有相关性。此外,根据Duato定理,如果通道扩展相关图连接成环,说明存在环回链路,则拓扑存在死锁,否则,拓扑是无死锁的,如图6b所示,通道扩展相关图成环,因此,存在死锁。
此外,可通过以下的方式避免死锁避免:将物理链路分离为多个虚通道可以去除通道间的循环依赖关系,是死锁避免的有效手段,因此,考虑增加虚通道来实现死锁避免,打破通道间的循环依赖关系,而且还可以减少物理链路空闲时间,提高网络吞吐率。针对Torus拓扑,采用2条虚通道即可避免死锁,即将物理链路的通信资源分离为2条虚通道VL0和VL1,同时,规定如果目标节点的坐标编号高于当前节点的坐标编号,则在VL0号虚通道路由;反之,在VL1号虚通道路由,从而这样可去除通道间的循环依赖关系,去除死锁。下面以前面描述的4个交换芯片间通信情况为例,说明分离虚通道是如何去除死锁的,如图7a所示,对于从交换芯片SW0到SW2的路由,根据自适应路由算法规定,首先交换芯片SW0会通过虚通道VL0_01发送数据,而对应的交换芯片SW1会请求虚通道VL0_12,因此,虚通道VL0_01和VL0_12具有相关性;对于从交换芯片SW1到SW3的路由,首先交换芯片SW1会通过虚通道VL0_12发送数据,而对应的交换芯片SW2会请求虚通道VL0_23,因此,虚通道VL0_12和VL1_23具有相关性;对于从交换芯片SW2到SW0的路由,首先交换芯片SW2会通过虚通道VL1_23发送数据,而对应的交换芯片SW3会请求虚通道VL1_30,因此,虚通道VL1_23和VL1_30具有相关性;对于从交换芯片SW3到SW1的路由,首先交换芯片SW3会通过虚通道VL1_30发送数据,而对应的交换芯片SW0会请求虚通道VL0_01,因此,虚通道VL1_30和VL0_01具有相关性,同时,对应的扩展通道相关图如图7b所示,可见并不成环,根据Duato定理可知网络不存在死锁。
2.4、自适应路由算法
维序路由虽然算法简单,快捷,却是状态无关算法,不考虑网络的拥塞状态,按固定的维度顺序进行路由,因此,容易发生拥堵,影响性能。如果采用自适应路由算法,可根据网络的状态自动选择路由,有利于缓解网络拥塞状况,提升系统性能。如果基于虚通道资源将网络划分为多个“虚拟子网”可以避免拥塞和死锁,但是所需资源较多,不利于硬件实现。本发明提出一种混合方式,可以基于较少的通道资源构建自适应路由算法,即可提升性能,又有效控制的系统成本。该路由算法包括:将物理通道划分为两类虚拟通道,在其中一类虚拟通道A中,采用自适应路由算法;在另外一类虚拟通道B中采用死锁避免的路由算法,从而只允许报文从虚拟通道A中切换到B中进行传输。当网络检测到报文在虚通道A中可能发生死锁时,报文请求虚拟通道B,一旦报文进入虚拟通道B之后,就按照死锁避免的路由算法完成传输,虚拟通道B又被成为逃逸通道。
此外,标准商用交换芯片的虚通道资源是8个虚通道(Virtual Lane,简称VL),同时,维序路由算法死锁避免需要2条虚通道,自适应路由最少需要1条虚通道,因此,基于1条虚通道资源科构建一个自适应路由虚拟子网,再基于2条独立虚通道构建维序路由子网,从而数据优先在自适应虚拟子网路由,但是该子网是存在死锁的,当发生拥塞或死锁时,从自适应虚拟子网逃离至维序路由子网,而维序路由子网是无死锁的,根据Duato定理,该路由最终是无死锁的。
该路由算法的具体实现如下:如图8所示,所有数据首先从2号虚通道VL2发送,在自适应虚拟子网传输期间可以根据网络拥塞状况,基于最短路径原则,灵活选择路由,尽可能的接近目标节点,例如,当X、Y、Z维度的通道资源都可用时,可根据网络拥塞情况(输出端口虚通道的buffer占用情况)可自适应的在X、Y、Z维度选择通道空闲的链路,沿最短路径传输数据,直至目标节点,当发生拥塞或死锁时,切换到维序路由子网:VL0/VL1,从而采用维序路由策略通过“逃逸通道”来避免路由死锁。
此外,由于自适应路由算法会充分利用网络链路资源,有可能造成数据因为某些拥塞链路而反复在部分空闲链路传输,为避免这种情况,规定不容许数据反复传输,即禁止将输入端口作为下一跳路由的输出端口,这样也避免了“活锁”。在有些情况下,某些报文即使没有被永久阻塞,它们也不能到达相应的目的节点,这是因为报文到达目的节点所请求的通道被其他报文占用,报文只能围绕着目的节点却永远不能到达目的节点,这种情况称为活锁,只有允许报文沿非最短路径发送时才会出现这种情况。
3、测试结果
本发明已经在Intel公司商用高性能网络模拟器Fabric_SIM上通过测试验证,测试3D Torus拓扑结构,验证路由算法正确,不存在死锁。
4、本发明的效果
Torus网络可有效压缩网络直径,降低通信延迟,提高网络性能,可有效应对大规模互连网络的需求,与胖树拓扑构建的大端口交换机相比,3D Torus拓扑构建大端口交换机具有高性能、低成本、低能耗、绿色环保等优势。同时,基于商用交换芯片构建3D Torus可突破大端口交换机技术封锁,显著降低系统成本,实现节能减排的科学发展理念,填补该领域技术空白。
此外,如下表4所示,基于3D Torus拓扑构建648端口交换机仅需27片交换芯片,48口OPA交换芯片市场价格为17400元,大端口交换机成本仅为469,800,然而,对应采用二层胖树拓扑构建624端口交换机就需要39片交换芯片,成本为678,600元。系统成本仅为胖树拓扑的69.2%。
从而,如果和市场主流高性能大端口交换机价格进行比较则更体现出本发明的优势,intel的192口交换机的市场价格是1,055,448元,768口的大端口交换机更是高达4,073,449元。
拓扑结构 端口数量 内部链路数量 网络直径 交换芯片数量 交换机成本
3D Torus 648 324 3 27 469,800
2层胖树 624 624 2 39 678,600
表4
综上所述,借助于本发明的上述技术方案,通过3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括3个交换主板,并且3个交换主板作Y维连接,以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接,从而基于商用交换芯片(或交换芯片)构建3D Torus架构的大端口交换机(或交换系统),以及还提出了路由算法,从而具有低延迟,高性能、低成本、低功耗的特点。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种通过交换芯片构建的交换系统,其特征在于,包括:3个交换单元,并且3个所述交换单元作Z维方向连接,以及每个所述交换单元包括:
3个交换主板,并且3个所述交换主板作Y维方向连接;以及
每个所述交换主板上均设置有3个所述交换芯片,并且在每个所述交换主板上,3个所述交换芯片作X维方向连接;
其中,所述X维方向连接是指X维方向所述交换芯片之间相互连接,所述Y维方向连接是指Y维方向所述交换主板之间相互连接,所述Z维方向连接是指Z维方向所述交换单元的所述交换主板之间相互连接;
其中,在每个所述交换主板上,3个所述交换芯片作X维方向连接包括:在每个所述交换主板上,任意1个所述交换芯片均与其他的2个所述交换芯片连接;
其中,3个所述交换单元均设置在背板上,以及3个所述交换主板作Y维方向连接包括:在每个所述交换单元中,任意1个所述交换主板均通过所述背板与其他的2个所述交换主板连接;
其中,每个所述交换单元均包括:第一交换主板、第二交换主板和第三交换主板,以及3个所述交换单元作Z维方向连接包括:
任意1个所述交换单元中的所述第一交换主板均通过所述背板与其他的2个交换单元中的所述第一交换主板连接;
任意1个所述交换单元中的所述第二交换主板均通过所述背板与其他的2个交换单元中的所述第二交换主板连接;以及
任意1个所述交换单元中的所述第三交换主板均通过所述背板与其他的2个交换单元中的所述第三交换主板连接。
2.一种应用于权利要求1所述的通过交换芯片构建的交换系统的路由算法,其特征在于,包括:
根据当前节点的位置坐标和目标节点的位置坐标,确定最短路径,并判断所述最短路径的链路资源是否可用;
在所述最短路径的链路资源可用的情况下,通过所述最短路径进行数据的发送,然而在所述最短路径的链路资源不可用的情况下,判断所述当前节点和所述目标节点之间是否存在其他可用的链路资源;
在所述当前节点和所述目标节点之间存在其他可用的链路资源的情况下,选择空闲的链路进行数据的发送,然而在所述当前节点和所述目标节点之间不存在其他可用的链路资源的情况下,通过维序路由算法进行数据的发送。
3.根据权利要求2所述的路由算法,其特征在于,在根据当前节点的位置坐标和目标节点的位置坐标,确定最短路径之前还包括:
根据预设的规则,定义每个所述交换芯片的位置坐标;以及
根据每个节点所处的交换芯片上的端口,确定所述每个节点的位置坐标。
4.根据权利要求3所述的路由算法,其特征在于,通过维序路由算法进行数据的发送包括:
根据所述当前节点的X维位置坐标和目标节点的X维位置坐标,进行X维方向上的偏移;
根据所述当前节点的Y维位置坐标和目标节点的Y维位置坐标,进行Y维方向上的偏移;以及
根据所述当前节点的Z维位置坐标和目标节点的Z维位置坐标,进行Z维方向上的偏移。
5.根据权利要求2所述的路由算法,其特征在于,还包括:
将所述交换芯片之间的链路资源分离为两条虚通道。
6.根据权利要求5所述的路由算法,其特征在于,还包括:
在所述当前节点和所述目标节点之间不存在其他可用的链路资源的情况下,将当前所述虚通道切换至另外一条所述虚通道,随后通过维序路由算法进行数据的发送。
CN201711483999.XA 2017-12-29 2017-12-29 一种通过交换芯片构建的交换系统及其路由算法 Active CN107959643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711483999.XA CN107959643B (zh) 2017-12-29 2017-12-29 一种通过交换芯片构建的交换系统及其路由算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711483999.XA CN107959643B (zh) 2017-12-29 2017-12-29 一种通过交换芯片构建的交换系统及其路由算法

Publications (2)

Publication Number Publication Date
CN107959643A CN107959643A (zh) 2018-04-24
CN107959643B true CN107959643B (zh) 2021-05-14

Family

ID=61957235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711483999.XA Active CN107959643B (zh) 2017-12-29 2017-12-29 一种通过交换芯片构建的交换系统及其路由算法

Country Status (1)

Country Link
CN (1) CN107959643B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246006B (zh) * 2018-08-15 2022-10-04 曙光信息产业(北京)有限公司 一种通过交换芯片构建的交换系统及其路由方法
CN114363241B (zh) * 2019-05-15 2023-02-28 清华大学 高维度Torus网络架构及自适应路由方法
CN112039678B (zh) * 2019-06-04 2021-11-19 清华大学 基于Torus网络的组播方法
US11108679B2 (en) * 2019-08-08 2021-08-31 Mellanox Technologies Tlv Ltd. Producing deadlock-free routes in lossless cartesian topologies with minimal number of virtual lanes
CN111208460B (zh) * 2020-01-23 2021-10-29 上海东软医疗科技有限公司 延长梯度功放寿命的方法及梯度功放的监控装置
US11184245B2 (en) * 2020-03-06 2021-11-23 International Business Machines Corporation Configuring computing nodes in a three-dimensional mesh topology
CN117319324A (zh) * 2022-06-23 2023-12-29 华为技术有限公司 计算系统及通信方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1431808A (zh) * 2003-01-27 2003-07-23 西安电子科技大学 一种大容量可扩展分组交换网络结构
CN1620047A (zh) * 2003-11-18 2005-05-25 华为技术有限公司 以太网交换机和路由器的统一平台系统
CN101924682A (zh) * 2009-06-11 2010-12-22 华为技术有限公司 一种高级电信计算架构交换系统、方法及通信设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150295756A1 (en) * 2014-04-10 2015-10-15 Nec Laboratories America, Inc. Hybrid Optical/Electrical Interconnect Network Architecture for Direct-connect Data Centers and High Performance Computers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1431808A (zh) * 2003-01-27 2003-07-23 西安电子科技大学 一种大容量可扩展分组交换网络结构
CN1620047A (zh) * 2003-11-18 2005-05-25 华为技术有限公司 以太网交换机和路由器的统一平台系统
CN101924682A (zh) * 2009-06-11 2010-12-22 华为技术有限公司 一种高级电信计算架构交换系统、方法及通信设备

Also Published As

Publication number Publication date
CN107959643A (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
CN107959643B (zh) 一种通过交换芯片构建的交换系统及其路由算法
US11362934B2 (en) Method to route packets in a distributed direct interconnect network
US8819611B2 (en) Asymmetric mesh NoC topologies
US8184626B2 (en) High-radix interprocessor communications system and method
CN101354694B (zh) 基于mpu架构的超高扩展超级计算系统
CN109189720B (zh) 层次化片上网络拓扑结构及其路由方法
EP2549388A1 (en) Computer system
CN108337196B (zh) 一种通过交换芯片构建的交换系统及其路由算法
CN108259387B (zh) 一种通过交换机构建的交换系统及其路由方法
CN111901257B (zh) 一种交换机、报文转发方法及电子设备
Wang et al. SprintNet: A high performance server-centric network architecture for data centers
US8953497B2 (en) Modified tree-based multicast routing schema
Xiang Deadlock-free adaptive routing in meshes with fault-tolerance ability based on channel overlapping
Wang et al. Understanding node connection modes in Multi-Rail Fat-tree
Moudi et al. A survey on emerging issues in interconnection networks
Rahman et al. Dynamic communication performance of a TESH network under the nonuniform traffic patterns
CN112988651B (zh) 计算系统、计算处理器和数据处理方法
CN117807017B (zh) 立方体超结点多平面互连的高性能计算机及其通信方法
CN110837489A (zh) 一种通过交换芯片构建的交换系统
Xu et al. A scalable smart router architecture with intelligent adaptive routing and fault-tolerant management
CN117931727A (zh) 一种片上网络系统拓扑生成方法
Song et al. SRFabric: A Semi‐Reconfigurable Rack Scale Topology
Sethu et al. IBM RS/6000 SP interconnection network topologies for large systems
CN116346521A (zh) 网络系统及数据传输方法
CN118101557A (zh) 片上网络结构及片上网络的流量均衡方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220810

Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240507

Address after: Room 168, 1st Floor, Building 10, No. 1 Courtyard, Longxing Jiayuan, southeast corner of the intersection of Longhu Inner Ring Road and Longzhiyuan East Ninth Street, Zhengdong New District, Zhengzhou City, Henan Province, 450018

Patentee after: Shuguang Information Industry (Henan) Co.,Ltd.

Country or region after: China

Address before: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

Country or region before: China

Patentee before: DAWNING INFORMATION INDUSTRY Co.,Ltd.