CN108429679A - 扩展型互连网络及其路由算法 - Google Patents
扩展型互连网络及其路由算法 Download PDFInfo
- Publication number
- CN108429679A CN108429679A CN201810367095.9A CN201810367095A CN108429679A CN 108429679 A CN108429679 A CN 108429679A CN 201810367095 A CN201810367095 A CN 201810367095A CN 108429679 A CN108429679 A CN 108429679A
- Authority
- CN
- China
- Prior art keywords
- plus
- interchangers
- node
- destination node
- hyperport
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
- H04L45/125—Shortest path evaluation based on throughput or bandwidth
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/20—Hop count for routing purposes, e.g. TTL
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/24—Multipath
- H04L45/245—Link aggregation, e.g. trunking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/25—Routing or path finding in a switch fabric
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multi Processors (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种扩展型互连网络及其路由算法。所述扩展型互连网络包括:基本互连网络和附加的I/O子网,其中,基本互连网络由多个通用交换机采用标准拓扑结构互连而成;附加的I/O子网包括至少一个Plus交换机,各Plus交换机通过HyperPort端口分别与各自对应的基本互连网络中的通用交换机的HyperPort端口连接,建立HyperPort链路,各Plus交换机除HyperPort端口以外的其他端口用于连接I/O节点。本发明能够满足计算密集型应用的计算需求,同时兼容I/O密集型应用的特殊应用场景。
Description
技术领域
本发明涉及高性能计算的互连网络技术领域,尤其涉及一种扩展型互连网络及其路由算法。
背景技术
典型的高性能计算的应用是以计算密集型应用为主,例如洋流模拟,科学计算等。计算密集型任务的特点是要进行大量的计算,消耗CPU资源,比如计算圆周率、对视频进行高清解码等等,全靠CPU的运算能力。
高性能计算的应用负载普遍具有局部性特征:空间局部性和(或)时间局部性。通信局部性对计算效率有着重要影响。直接网络允许对通信局部性有效利用,相对间接网络更具有优势,例如Mesh网格比较适合具有通信局部性的应用,但网络直径较大,传输延迟高。Torus网络在Mesh网络的基础上增加环回链路来压缩网络直径,进一步提升性能,而且结构对称,具有较好的可扩展性。3D Torus(3维环绕)网络曾经在高性能互连领域占据主导地位,例如Cray的T3D/T3E系列。但是随着高性能计算的飞速发展,系统规模越来越大,对互连网络的要求也提出严峻的挑战,提升网络维度可有效压缩网络直径,提升网络性能。因此,高维度互连网络成为了主流趋势,如高维度Torus网络。对于n维Torus网络,每个维度有正负2个方向,每个维度最少需要2个交换机端口用于互连。因此,共需要2n个端口,对于具有m个端口的商用交换机来说,剩余的(m-2n)个端口可以连接计算节点。如果每个维度的基数分别为K1,K2…Kn,则n维Torus网络可提供K1×K2×...×Kn×(m-n)个计算节点,网络的可扩展性非常好,具有极强的互连能力。例如,基于24端口的低端交换机。仅需12个端口就可构造6维Torus网络,每个交换机还可连接12个计算节点,压缩比为1:1。对于结构为[8,8,8,6,6,6]的6DTorus拓扑,网络可连接110592个交换机,系统可连接1327104个计算节点。基于廉价的低端口商用交换机即可构建百万计算节点规模的系统,可完全满足E级计算的互连需求。
但是随着技术进步,大数据、人工智能等新技术的迅猛发展,大量的I/O密集型应用对高性能计算的需求越来越大,例如,证券交易、实时航空预定、搜索引擎、在线游戏、关系型数据库、WEB应用等——交易越密集,对IOPS(每秒多少次输入/输出处理请求)要求越高。这类任务的特点是CPU消耗很少,由于IO的速度远远低于CPU和内存的速度,因此任务的大部分时间都在等待IO操作完成。
在实现本发明的过程中,发明人发现现有技术中至少存在如下技术问题:
现有的高性能计算Torus网络的拓扑结构只能满足计算密集型应用的需求,无法兼容I/O密集型应用。
发明内容
为解决上述问题,本发明提供一种扩展型互连网络及其路由算法,能够满足计算密集型应用的计算需求,同时兼容I/O密集型应用的特殊应用场景。
第一方面,本发明提供一种扩展型互连网络,包括:基本互连网络和附加的I/O子网,其中,
所述基本互连网络由多个通用交换机采用标准拓扑结构互连而成;
所述附加的I/O子网包括至少一个Plus交换机,各所述Plus交换机通过HyperPort端口分别与各自对应的所述基本互连网络中的通用交换机的HyperPort端口连接,建立HyperPort链路,各所述Plus交换机除所述HyperPort端口以外的其他端口用于连接I/O节点;
所述通用交换机及其连接的节点以及所述Plus交换机及其连接的节点具有唯一确定的设备编码,所述设备编码与设备的位置标识符LID建立有映射关系。
可选地,所述基本互连网络的拓扑结构采用高维度Torus网络。
可选地,所述HyperPort链路的带宽根据I/O数据的需求进行配置。
可选地,所述扩展型互连网络中的所有交换机及其连接的节点的编码信息包括:设备类型指示、维度坐标指示、Plus指示以及节点编号指示。
可选地,所述扩展型互连网络中的交换机的编码为0_coordinates_P_0,其中,第一个0表示交换机,coordinates表示所述交换机所在维度的坐标值,P表示所述交换机是否为Plus交换机,第二个0用于补位,无意义;
与所述交换机连接的节点的编码为1_coordinates_P_N,其中,1表示节点,coordinates和P采用与所述节点连接的交换机的coordinates和P相同的编码,N表示节点编号。
可选地,所述通用交换机之间的链路以及所述HyperPort链路都设置有2个虚通道,用于避免死锁。
第二方面,本发明提供一种应用于上述扩展型互连网络的路由算法,包括:
所述Plus交换机接收I/O节点发来的I/O数据,并将I/O数据从HyperPort链路转发至所述Plus交换机所连接的通用交换机;
接收I/O数据的通用交换机根据收到的数据包头内的目标节点的LID信息,解析出所述目标节点的编码信息,并根据维序路由算法在基本互连网络内部转发I/O数据,直至到达离所述目标节点最近的通用交换机;
所述离所述目标节点最近的通用交换机根据所述目标节点的编码信息判断所述目标节点是通用交换机连接的节点或者Plus交换机连接的I/O节点;
当所述目标节点是通用交换机连接的节点,则所述离所述目标节点最近的通用交换机根据所述目标节点的编码信息从对应端口输出数据至所述目标节点;
当所述目标节点是Plus交换机连接的I/O节点,则所述离所述目标节点最近的通用交换机从HyperPort链路发送数据至与其连接的Plus交换机,接收I/O数据的Plus交换机收到数据后,根据所述目标节点的编码信息从对应端口输出数据至所述目标节点。
可选地,所述根据维序路由算法在基本互连网络内部转发I/O数据,直至到达离所述目标节点最近的通用交换机包括:
由低到高依次遍历各个维度,在各个维度上,比较目标节点在当前维度的坐标和当前交换机维度的坐标,如果坐标相同,转向下一个维度,否则在当前维度按照最短路径路由,直至坐标相同,再转向下一个维度。
本发明提供的扩展型互连网络及其路由算法,采用商用交换机在标准的互连网络拓扑的基础上进行扩展,在高维度Torus拓扑的基础之上构建新颖的Torus Plus拓扑架构,在Torus网络主体保证计算密集型应用的计算需求,在Plus架构满足对I/O密集操作的需求。与现有技术相比,能够兼容计算密集型应用和I/O密集型应用的需求,实现超融合架构,既能提供高性能的计算能力,又能满足密集I/O操作的需求。同时提出确定性维序路由算法以及基于虚通道的死锁避免方法,具有低延迟,高性能、低成本、低功耗、超融合的特点。本发明提供的扩展型互连网络既可服务于典型高性能应用,又可服务于大数据、人工智能等现代数据中心业务。
附图说明
图1为本发明的扩展型互连网络采用2D Mesh Plus拓扑的结构示意图;
图2为本发明的扩展型互连网络采用3DTorus Plus拓扑的结构示意图;
图3为本发明的扩展型互连网络采用6DTorus Plus拓扑的结构示意图;
图4为Torus网络死锁示意图;
图5为Torus网络死锁避免示意图;
图6为Torus Plus网络死锁避免示意图;
图7为本发明的扩展型互连网络的路由算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种扩展型互连网络,包括:基本互连网络和附加的I/O子网,其中,
基本互连网络由多个通用交换机采用标准拓扑结构互连而成,用于满足计算密集型应用的数据传输;
附加的I/O子网包括至少一个Plus交换机,各Plus交换机通过HyperPort端口分别与各自对应的基本互连网络中的通用交换机的HyperPort端口连接,建立HyperPort链路,各Plus交换机除HyperPort端口以外的其他端口用于连接I/O节点;
各通用交换机及其连接的节点以及各Plus交换机及其连接的节点具有唯一确定的设备编码,设备编码与设备的位置标识符LID建立有映射关系。
在本发明实施例中,Plus交换机采用一种特殊的交换机结构,这种结构的交换机可以连接多个节点,仅用指定端口(HyperPort端口)连接到基本互连网络中的对应的通用交换机的指定端口(HyperPort端口),从而将附加的I/O子网连接到基本互连网络,并通过基本互连网络进行通信。但是HyperPort端口不能占用基本互连网络各维度的端口,保证基本互连网络可根据端口类型识别出附加的I/O子网,而且不会和基本互连网络混淆。
下面详细列举几个扩展型互连网络的拓扑结构。扩展型互连网络在拓扑连接时,基本互连网络的通用交换机分别遍历每个维度,将与其直接相邻的通用交换机连接起来(包含环回链路),然后将与之相连的节点连接即可构建硅立方拓扑。最后将Plus交换机的HyperPort端口与对应的通用交换机的HyperPort端口连接起来,建立HyperPort链路,即可构建扩展型互连网络。对于不连接Plus交换机的通用交换机,其HyperPort端口可以用来连接节点,不会浪费宝贵的端口资源,路由算法保证不会造成混淆。
为了清晰起见,先以简单的2D Mesh为例,阐述本发明实施例的扩展型互连网络的拓扑结构。如图1所示,4X4=16个通用交换机构成2D Mesh拓扑,每个通用交换机可连接1个(或多个)节点。Plus交换机可连接多个节点,只需保留一个HyperPort端口用来与通用交换机的HyperPort端口互连,其余端口可全部用来连接I/O节点,对于48口的Plus交换机来说,每台Plus交换机可连接47个节点。由于I/O密集型应用的I/O操作主要是大量高并发的小数据操作,因此,对带宽要求并不高,1个HyperPort端口足够满足带宽需求。如果某种应用的带宽需求较大,可定义多个HyperPort端口作为HyperPort链路来扩展I/O带宽,可灵活配置,应对不同I/O需求。
另外地,高维度Torus网络由于其网络性能优越,被广泛使用。当基本互连网络采用3D Torus拓扑结构时,可以构建扩展型互连网络3D Torus Plus。如图2所示,基本互连网络采用3x3x3的3D Torus拓扑结构,为清楚起见,图示中只展示了位于最外侧的交换机,位于网络内部的交换机并没有展示,9个Plus交换机分别通过HyperPort端口连接至对应的通用交换机的HyperPort端口。图示中,基本互连网络中各通用交换机之间的标准链路的带宽为400Gbps(多条并发链路合并),而Plus交换机和对应的通用交换机之间的HyperPort链路的带宽可以采用较低标准,例如100Gbps即可,因为有些应用的I/O读写带宽要求很低。3DTorus Plus网络中的Plus交换机所加载的节点数量可远远超过3D Torus网络中通用交换机的节点数量,主要用于加载I/O节点,极大的扩展了I/O处理能力。
又例如,当基本互连网络采用6D Torus拓扑结构时,可以构建扩展型互连网络6DTorus Plus。在这里,6D Torus Plus网络是以3D Torus Plus网络为基础的,通过将标准3DTorus网络中的每个节点替换为一个采用3D Torus Plus网络的交换机组,从而构成6DTorus Plus网络。以构建3x3x3x2x2x2的6D Torus Plus为例,如图3所示,图3<a>是2x2x2的标准3D Torus结构,图3<b>是3x3x3的3D Torus Plus结构,图3<a>所示的InterTorus交换机组是指图3<b>所示的完整的3X3X3 3D Torus Plus结构。将图3<a>中的每个节点都用图3<b>所示的3D Torus Plus结构的交换机组替换,也就是说,图3<a>是8个图3<b>所示的3DTorus Plus结构的交换机组构建的2x2x2的3D Torus结构,则得到3x3x3x2x2x2的6D TorusPlus拓扑结构。
这里图3<a>的黑线是表征内部3x3x3的3D Torus Plus交换机组之间相互连接的InterTorus链路,包括多条链路,只有Torus交换机间相互连接,连接方式类似于图3<b>Torus交换机间的互连,区别只是采用对位连接,即只连接在本维度偏移量差1的对应Torus交换机,保证只在本维度路由;Plus交换机间无需连接,只有一条HyperPort链路连接到对应的Torus交换机即可;图3<b>的细线是标准的Torus拓扑链路,链路带宽400Gbps(多条并发链路合并),而图3<b>的粗线是Plus拓扑连接Torus拓扑的HyperPort链路,链路带宽可以采用较低标准,例如100Gbps即可,因为有些应用的I/O读写带宽要求很低。这种架构的Plus交换机所加载的节点数量可远远超过Torus交换机的节点数量,主要加载I/O节点,极大的扩展了I/O处理能力。
通过上述的几个实施例,可以看出,扩展型互连网络能够快速扩展I/O资源池,实现IO虚拟化技术,基于现有Torus网络可快速扩展I/O子网,提供强大的I/O资源。而且网络协议统一,无需协议转换。扩展性好,配置灵活,Plus交换机可根据需求灵活部署,随时扩展。
仍然以6D Torus拓扑为例,分析Torus Plus拓扑的I/O子网的扩展性能。对于3x2x2x3x2x2的6D Torus网络,基于48口OPA交换机,每个交换机连接8个节点,系统可互连3x2x2x3x2x2x8=1152节点。Torus网络交换机其余40个端口可在6个维度的10个方向上提供4条并发链路,即400Gbps的高带宽。如果每个Torus交换机利用1个连接节点的端口作为HyperPort端口,连接1台Plus交换机,则每个Plus交换机可利用剩余的47的端口全部连接节点,系统可连接3x2x2x3x2x2x47=6768个I/O节点,而计算节点因为减少一个端口,每个Torus交换机只减少一个节点,即减少144个计算节点。如表1所示,如果相同的交换机数量,标准Torus拓扑最多只能连接2304节点(2套并发网络),仅为Torus Plus拓扑总节点数量的29.6%,可见其强大的I/O扩展能力。
表1 Torus网络和Torus Plus网络连接节点数量对比
另外需要说明的是,附加的I/O子网中的Plus交换机和基本互连网络中的通用交换机的结构和功能完全相同,都可以采用普通的商用交换机,只是Plus交换机所处的拓扑位置不同,不负责进行数据转发,只负责处理I/O数据。路由算法要保证Plus交换机只负责数据的第一跳发送和最后一跳接收,不参与中间的基本互连网络的路由数据转发。
为了便于路由算法的实现,本发明实施例的扩展型互连网络中的所有交换机(包括各通用交换机和各Plus交换机)以及所有交换机各自所连接的节点都按照下面的规则进行编码。编码信息包括:设备类型指示、维度坐标指示、Plus指示以及节点编号指示。
具体地,扩展型互连网络中的交换机的编码为0_coordinates_P_0,其中,第一个0表示交换机,coordinates表示所述交换机所在维度的坐标值,P表示所述交换机是否为Plus交换机,第二个0用于补位,无意义;与所述交换机连接的节点的编码为1_coordinates_P_N,其中,1表示节点,coordinates和P采用与所述节点连接的交换机的coordinates和P相同的编码,N表示节点编号。
还是以Torus Plus网络为例介绍编码规则。根据交换机和节点在拓扑中的位置关系,将交换机和节点所在各个维度的坐标信息进行编码。先以3D Torus Plus网络为例,交换机或节点的编码为T_X_Y_Z_P_N,其中,T表示设备类型,例如,0表示交换机,1表示节点,对于交换机,即T=0时,X、Y、Z为交换机所在维度的坐标值,P表示该交换机是否为Plus交换机,如果P为0,定义为通用交换机,由于在Torus网络中,也称为Torus交换机,如果P为1,定义为Plus交换机,Plus交换机具有与其直接连接的Torus交换机相同的维度坐标,区别只在于P的编码。对于交换机,N统一为0。对于节点,即T=1时,节点编码的X、Y、Z和P位采用与其连接的交换机相同的编码,最后一位N为与交换机连接的节点编号,表示交换机连接的不同节点,可简单的根据所连接交换机的端口号进行编码。
类似地,再以6D Torus Plus网络为例,交换机或节点的编码为T_X_Y_Z_a_b_c_P_N,其中T表示设备类型,例如,0表示交换机,1表示节点,对于交换机,X、Y、Z为交换机组节点所在维度的坐标值,a、b、c为交换机组内部的交换机所在维度的坐标值,P表示该交换机是否为Plus交换机,如果P为0,定义为通用交换机,由于在Torus网络中,也称为Torus交换机,如果P为1,定义为Plus交换机,Plus交换机具有与其直接连接的Torus交换机相同的维度坐标,区别只在于P的编码。对于交换机,N统一为0。对于节点,节点编码的X、Y、Z、a、b、c和P位采用与其连接的交换机相同的编码,最后一位N为与交换机连接的节点编号,表示交换机连接的不同节点,可简单的根据所连接交换机的端口号进行编码。
按照上述规则对扩展型互连网络中的设备进行编码后,每个设备的编码唯一确定,可根据设备编码建立与设备的位置标识符LID的映射关系,交换机收到数据后可根据目标的LID获取设备编码,进行路由判决。
另外需要说明的是,为了避免传输过程中出现死锁,本发明实施例的扩展型互连网络,在通用交换机之间的标准链路以及HyperPort链路都设置有2个虚通道,并在其中一个通用交换机设置时间线(dateline)。
死锁是指一组报文将永远被阻塞,每个报文总在请求其他报文占用的资源,而自己又占用着其他报文所请求的资源。虚通道可以用于提高交换机的交换能力,同时可以用于避免死锁,一般是通过buffer来实现。
对于Torus环绕网,天然的存在环路(为了减少网络直径,增加环回链路),导致通道资源的循环占用而发生死锁。如图4所示,以维度长度为4的环为例,单向链路,每个交换机都需要和间隔2跳的交换机进行数据传输,例如,交换机Tsw0需要向交换机Tsw2发送数据,则Tsw0会占用通道C0,并请求通道C1,因此,C0和C1具有相关性,所以,其通道相关图C0到C1是连接的。如果4个交换机都如此传输数据,则4个通道都存在相关性,因此,整个通道相关图连接成环。根据Duato定理,通道相关图连接成环,说明拓扑存在死锁。
对于这种死锁情况,可以通过增加虚通道来去除这种通道间的循环依赖关系来去除死锁。例如设置时间线(dateline)来破坏这种通道资源的循环占用来避免死锁。对于每个维度的环,选定一个节点作为时间线。网络包首先在虚通道0中传输,当进入时间线后,强制切换至虚通道1中传输,即可避免环路死锁。
如图5所示,每个交换机间的链路存在2个虚通道:vl0和vl1,分别记为v100~v103,v110~v113,在交换机Tsw3设置时间线,经过Tsw3的数据都在各链路的虚通道vl1传输,不途径Tsw3的数据都在各链路的虚通道vl0传输,并且不再切换回来,直至到达目标节点。从扩展通道相关图可见,不存在环路,因此,根据Duato定理,Torus网络无死锁。
如图6所示,对于附加的I/O子网,为了避免死锁,Plus交换机和对应的通用交换机之间的HyperPort链路也存在2个虚通道:vl0和vl1,分别记为pv100~pv103以示区别,为了清楚起见,图中只画出了v10通道。4个Torus交换机Tsw各自连接了一个Plus交换机Psw,数据从Plus交换机进入Torus网络,都是从各自HyperPort链路的vl0虚通道进入网络(图中命名为pvl0作为区别),在Torus网络都是严格按照维序路由算法进行数据转发,其扩展通道相关图不成环,因此,根据Duato定理,Torus Plus网络无死锁。
综上所述,本发明实施例提供的扩展型互连网络,基于采用标准拓扑结构的基本互连网络进行扩展,在基本互连网络的基础上加入附加的I/O子网,附加的I/O子网中的各Plus交换机通过HyperPort端口分别与各自对应的基本互连网络中的通用交换机的HyperPort端口连接,各Plus交换机除HyperPort端口以外的其他端口用于连接I/O节点。与现有技术相比,构建出的超融合、高性能的扩展型互连网络极大的扩展了I/O处理能力,能够兼容计算密集型应用和I/O密集型应用的需求,实现超融合架构,既能提供高性能的计算能力,又能满足密集I/O操作的需求,且在数据传输过程中无死锁。
本发明实施例还提供一种应用于上述扩展型互连网络的路由算法,如图7所示,以Torus Plus网络为例,包括:
S11、Plus交换机接收I/O节点发来的I/O数据,并将I/O数据从HyperPort链路转发至该Plus交换机所连接的Torus交换机,I/O数据进入Torus网络;
S12、接收I/O数据的Torus交换机根据收到的数据包头内的目标节点的LID信息,解析出目标节点的编码信息,并根据维序路由算法在Torus网络内部转发I/O数据,直至到达离目标节点最近的Torus交换机,离目标节点最近的Torus交换机即为和目标节点的维度坐标相同的Torus交换机;
S13、离目标节点最近的Torus交换机根据目标节点的编码信息中的Plus指示位P判断目标节点是Torus交换机连接的节点或者Plus交换机连接的I/O节点。如果P=0,进入S14,如果P=1,进入S15;
S14、当P=0时,说明目标节点是Torus交换机连接的节点,则该离目标节点最近的Torus交换机就是目标节点连接的交换机,根据目标节点的编码信息中的端口指示位N从交换机对应端口输出数据至目标节点;
S15、当P=1时,说明目标节点是Plus交换机连接的I/O节点,则该离目标节点最近的Torus交换机从HyperPort链路发送数据至与其连接的Plus交换机;
S16、接收I/O数据的Plus交换机收到数据后,判断目标节点各维度信息和自己都相同,且P=1,则当前Plus交换机就是目标节点连接的交换机,根据端口指示位N从交换机对应端口输出数据至目标节点。
进一步地,在步骤S12中,Torus网络内部的维序路由算法基于最短路径原则来设计。对于标准Torus网络,基于最短路径优先原则设计维序路由,根据目标节点和源节点的LID(位置标识符)确定其在拓扑中的位置关系,通过计算所在位置各个维度上的偏移量即可确定路由路径。
对于规则拓扑的6D Torus,可分解为若干个正交的维,很容易按照各维上偏移量之和计算出当前节点与目标节点之间的距离。按照维度长度递减的顺序遍历每个维度,每路由一步偏移量减1,在当前维的偏移量减为0后才计算下一维的偏移量。维序路由依次走完每个维度,即可到达目标节点。
具体地,基于最短路径原则,按照X、Y、Z、a、b、c的顺序依次遍历每个维度,直至目标终点。由低到高依次遍历X、Y、Z、a、b、c每个维度,比较目标节点在当前维度的坐标和当前交换机维度的坐标,如果相同,说明当前维度的坐标一致,不需在该维度路由,转向下一个维度进行比较。否则,说明当前维度还存在偏移量,则根据最短路径原则选择到目标最近的路径路由。如果目标维度坐标大于当前维度坐标且差值小于二分之一维度长度,说明目标维度在当前维度的正方向最近,则从当前维度的正方向端口输出,否则,虽然目标坐标大于当前坐标,但是差值大于二分之一维度长度,说明从负方向路由路径最近(因为Torus拓扑具有环回路径)。如果目标维度坐标小于当前维度坐标,且差值小于二分之一维度长度,说明从负方向路由距离最短,则从该维度的负方向端口输出,否则,差值大于二分之一维度长度,说明从正方向路由距离最近,则从该维度的正方向端口输出。差值等于二分之一维度长度可随机选择方向。
由于Torus Plus拓扑是在Torus拓扑之上扩展得到的,规定只有针对I/O节点的输出传输才会转发给Plus交换机,而且I/O数据的第一跳和最后一跳是
Torus交换机和Plus交换机之间进行转发,其他情况都是在Torus网络内部传输,统一遵循维序路由规则,因此,维序路由算法仍适用于Torus Plus网络。
本发明实施例的Torus Plus网络,在Intel公司商用高性能网络模拟器
Fabric_sim上通过测试验证,测试6D Torus Plus[3x2x2x3x2x2]拓扑结构,验证路由算法正确,不存在死锁。并且在基于Intel的48口OPA交换机构建的真实网络环境上进行了测试,在4D Torus[4x3x2x2]拓扑的基础上增加了1台Plus交换机和一个节点。验证路由算法正确,不存在死锁。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种扩展型互连网络,其特征在于,包括:基本互连网络和附加的I/O子网,其中,
所述基本互连网络由多个通用交换机采用标准拓扑结构互连而成;
所述附加的I/O子网包括至少一个Plus交换机,各所述Plus交换机通过HyperPort端口分别与各自对应的所述基本互连网络中的通用交换机的HyperPort端口连接,建立HyperPort链路,各所述Plus交换机除所述HyperPort端口以外的其他端口用于连接I/O节点;
所述通用交换机及其连接的节点以及所述Plus交换机及其连接的节点具有唯一确定的设备编码,所述设备编码与设备的位置标识符LID建立有映射关系。
2.根据权利要求1所述的扩展型互连网络,其特征在于,所述基本互连网络的拓扑结构采用高维度Torus网络。
3.根据权利要求1所述的扩展型互连网络,其特征在于,所述HyperPort链路的带宽根据I/O数据的需求进行配置。
4.根据权利要求1至3任一项所述的扩展型互连网络,其特征在于,所述扩展型互连网络中的所有交换机及其连接的节点的编码信息包括:设备类型指示、维度坐标指示、Plus指示以及节点编号指示。
5.根据权利要求4所述的扩展型互连网络,其特征在于,所述扩展型互连网络中的交换机的编码为0_coordinates_P_0,其中,第一个0表示交换机,coordinates表示所述交换机所在维度的坐标值,P表示所述交换机是否为Plus交换机,第二个0用于补位,无意义;
与所述交换机连接的节点的编码为1_coordinates_P_N,其中,1表示节点,coordinates和P采用与所述节点连接的交换机的coordinates和P相同的编码,N表示节点编号。
6.根据权利要求1所述的扩展型互连网络,其特征在于,所述通用交换机之间的标准链路以及所述HyperPort链路都设置有2个虚通道,且其中一个通用交换机设置时间线以避免死锁。
7.一种应用于上述权利要求1至6中任一项所述的扩展型互连网络的路由算法,其特征在于,包括:
所述Plus交换机接收I/O节点发来的I/O数据,并将I/O数据从HyperPort链路转发至所述Plus交换机所连接的通用交换机;
接收I/O数据的通用交换机根据收到的数据包头内的目标节点的LID信息,解析出所述目标节点的编码信息,并根据维序路由算法在基本互连网络内部转发I/O数据,直至到达离所述目标节点最近的通用交换机;
所述离所述目标节点最近的通用交换机根据所述目标节点的编码信息判断所述目标节点是通用交换机连接的节点或者Plus交换机连接的I/O节点;
当所述目标节点是通用交换机连接的节点,则所述离所述目标节点最近的通用交换机根据所述目标节点的编码信息从对应端口输出数据至所述目标节点;
当所述目标节点是Plus交换机连接的I/O节点,则所述离所述目标节点最近的通用交换机从HyperPort链路发送数据至与其连接的Plus交换机,接收I/O数据的Plus交换机收到数据后,根据所述目标节点的编码信息从对应端口输出数据至所述目标节点。
8.根据权利要求7所述的扩展型互连网络的路由算法,其特征在于,所述根据维序路由算法在基本互连网络内部转发I/O数据,直至到达离所述目标节点最近的通用交换机包括:
由低到高依次遍历各个维度,在各个维度上,比较目标节点在当前维度的坐标和当前交换机维度的坐标,如果坐标相同,转向下一个维度,否则在当前维度按照最短路径路由,直至坐标相同,再转向下一个维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367095.9A CN108429679B (zh) | 2018-04-23 | 2018-04-23 | 扩展型互连网络的拓扑结构及其路由方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367095.9A CN108429679B (zh) | 2018-04-23 | 2018-04-23 | 扩展型互连网络的拓扑结构及其路由方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108429679A true CN108429679A (zh) | 2018-08-21 |
CN108429679B CN108429679B (zh) | 2020-12-22 |
Family
ID=63161764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810367095.9A Active CN108429679B (zh) | 2018-04-23 | 2018-04-23 | 扩展型互连网络的拓扑结构及其路由方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108429679B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112039678A (zh) * | 2019-06-04 | 2020-12-04 | 清华大学 | 基于Torus网络的组播方法 |
CN113709040A (zh) * | 2021-08-31 | 2021-11-26 | 中国电子科技集团公司第五十八研究所 | 一种基于可扩展互联裸芯的封装级网络路由算法 |
CN113810286A (zh) * | 2021-09-07 | 2021-12-17 | 曙光信息产业(北京)有限公司 | 计算机网络系统及路由方法 |
CN114465904A (zh) * | 2020-10-21 | 2022-05-10 | 西门子(中国)有限公司 | 网络拓扑构建方法和计算设备 |
CN118474018A (zh) * | 2024-07-11 | 2024-08-09 | 山东云海国创云计算装备产业创新中心有限公司 | 基于Torus网络结构的路由方法、Torus网络结构、基于Torus网络结构的路由装置、计算机设备和计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN202940854U (zh) * | 2012-11-30 | 2013-05-15 | 中国舰船研究设计中心 | 基于公共计算服务的多i/o网络应用系统 |
CN103534987A (zh) * | 2011-06-07 | 2014-01-22 | 国际商业机器公司 | 虚拟网络配置和管理 |
US20150147057A1 (en) * | 2013-11-27 | 2015-05-28 | Vmware, Inc. | Placing a fibre channel switch into a maintenance mode in a virtualized computing environment via path change |
CN105900406A (zh) * | 2013-12-23 | 2016-08-24 | 瑞典爱立信有限公司 | 针对网络服务可用性的技术 |
CN106209653A (zh) * | 2014-09-22 | 2016-12-07 | 来克莎科技有限公司 | 路由架构 |
CN107181520A (zh) * | 2017-04-21 | 2017-09-19 | 中国科学院光电研究院 | 一种网络拓扑结构的组网方法及装置 |
CN107612746A (zh) * | 2017-10-12 | 2018-01-19 | 曙光信息产业股份有限公司 | 一种构建Torus网络的方法、Torus网络和路由算法 |
CN107710702A (zh) * | 2015-03-23 | 2018-02-16 | 艾易珀尼斯公司 | 数据中心的光子交换机、光子交换结构和方法 |
-
2018
- 2018-04-23 CN CN201810367095.9A patent/CN108429679B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103534987A (zh) * | 2011-06-07 | 2014-01-22 | 国际商业机器公司 | 虚拟网络配置和管理 |
CN202940854U (zh) * | 2012-11-30 | 2013-05-15 | 中国舰船研究设计中心 | 基于公共计算服务的多i/o网络应用系统 |
US20150147057A1 (en) * | 2013-11-27 | 2015-05-28 | Vmware, Inc. | Placing a fibre channel switch into a maintenance mode in a virtualized computing environment via path change |
CN105900406A (zh) * | 2013-12-23 | 2016-08-24 | 瑞典爱立信有限公司 | 针对网络服务可用性的技术 |
CN106209653A (zh) * | 2014-09-22 | 2016-12-07 | 来克莎科技有限公司 | 路由架构 |
CN107710702A (zh) * | 2015-03-23 | 2018-02-16 | 艾易珀尼斯公司 | 数据中心的光子交换机、光子交换结构和方法 |
CN107181520A (zh) * | 2017-04-21 | 2017-09-19 | 中国科学院光电研究院 | 一种网络拓扑结构的组网方法及装置 |
CN107612746A (zh) * | 2017-10-12 | 2018-01-19 | 曙光信息产业股份有限公司 | 一种构建Torus网络的方法、Torus网络和路由算法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112039678A (zh) * | 2019-06-04 | 2020-12-04 | 清华大学 | 基于Torus网络的组播方法 |
CN112039678B (zh) * | 2019-06-04 | 2021-11-19 | 清华大学 | 基于Torus网络的组播方法 |
CN114465904A (zh) * | 2020-10-21 | 2022-05-10 | 西门子(中国)有限公司 | 网络拓扑构建方法和计算设备 |
CN113709040A (zh) * | 2021-08-31 | 2021-11-26 | 中国电子科技集团公司第五十八研究所 | 一种基于可扩展互联裸芯的封装级网络路由算法 |
CN113810286A (zh) * | 2021-09-07 | 2021-12-17 | 曙光信息产业(北京)有限公司 | 计算机网络系统及路由方法 |
CN118474018A (zh) * | 2024-07-11 | 2024-08-09 | 山东云海国创云计算装备产业创新中心有限公司 | 基于Torus网络结构的路由方法、Torus网络结构、基于Torus网络结构的路由装置、计算机设备和计算机可读存储介质 |
CN118474018B (zh) * | 2024-07-11 | 2024-10-15 | 山东云海国创云计算装备产业创新中心有限公司 | 基于Torus网络结构的路由方法、Torus网络结构、基于Torus网络结构的路由装置、计算机设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108429679B (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108429679A (zh) | 扩展型互连网络及其路由算法 | |
CN107612746B (zh) | 一种构建Torus网络的方法、Torus网络和路由算法 | |
US20090016332A1 (en) | Parallel computer system | |
Maglione-Mathey et al. | Scalable deadlock-free deterministic minimal-path routing engine for infiniband-based dragonfly networks | |
CN109376867A (zh) | 两量子比特逻辑门的处理方法及装置 | |
CN103888360A (zh) | 基于贪婪算法的集合覆盖方法获取sdn网中服务节点的方法 | |
CN101420355B (zh) | 一种星簇双环片上网络拓扑结构装置 | |
US20230327976A1 (en) | Deadlock-free multipath routing for direct interconnect networks | |
CN103346967B (zh) | 一种数据中心网络拓扑结构及其路由方法 | |
CN108259387B (zh) | 一种通过交换机构建的交换系统及其路由方法 | |
Ascia et al. | Neighbors-on-path: A new selection strategy for on-chip networks | |
CN106101262A (zh) | 一种基于以太网的直连架构计算集群系统及构建方法 | |
CN104022950A (zh) | 一种可共享和自配置缓存的路由器结构 | |
Fan et al. | Disjoint paths construction and fault-tolerant routing in BCube of data center networks | |
Fan et al. | Fault-tolerant routing with load balancing in LeTQ networks | |
KR101242172B1 (ko) | 하이브리드 광학 네트워크-온-칩 시스템 및 그의 라우팅 방법 | |
CN114116596A (zh) | 面向片上神经网络的基于动态中继的无限路由方法和架构 | |
CN105281960A (zh) | 软件定义网络中流量项目的管理方法 | |
CN116016384B (zh) | 基于环形布局的可扩展片上网络拓扑结构及其路由方法 | |
CN108768864B (zh) | 一种易拓展高容错的数据中心网络拓扑系统 | |
Liu et al. | RTTM: a new hierarchical interconnection network for massively parallel computing | |
US7561584B1 (en) | Implementation of a graph property in a switching fabric for fast networking | |
Dong et al. | Fault-Tolerant Communication in HSDC: Ensuring Reliable Data Transmission in Smart Cities | |
Wang et al. | Hybrid-TF: A New Hybrid Interconnection Network Topology for High Performance Computing | |
Qi et al. | An improved sierpinski fractal based network architecture for edge computing datacenters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211011 Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing Patentee after: Dawning Information Industry (Beijing) Co.,Ltd. Patentee after: ZHONGKE SUGON INFORMATION INDUSTRY CHENGDU Co.,Ltd. Address before: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing Patentee before: Dawning Information Industry (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |