CN110300072B

CN110300072B - 一种互连交换模块及其相关设备

Info

Publication number: CN110300072B
Application number: CN201910076590.9A
Authority: CN
Inventors: 黄贻强
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-02-05
Filing date: 2019-01-26
Publication date: 2022-06-14
Anticipated expiration: 2039-01-26
Also published as: US11509538B2; US20200336386A1; US20190245751A1; CN110300072A; US11671330B2; US20210320846A1; US11070437B2; CN114759982A; US20230052529A1; US10742513B2

Abstract

一个互连交换模块(“ICAS模块”)包括n个端口群，每个端口群包括n‑1个界面，和互连网络，实现全网状拓扑结构，其中每个所述端口群包括多个界面，每个界面连接到各自其他端口群的一个对应界面。互连交换模块有用光学的來实现的，也有用电路的來实现的。在几个实施例中，互连交换模块用做构建可堆叠交换设备，用做构建多单元交换设备，用做取代数据中心网构交换机，用做构建全新、高效、高性价比的数据中心。

Description

一种互连交换模块及其相关设备

技术领域

本发明涉及计算机网络。特别是，本发明涉及一种互连交换模块、可堆叠交换设备、多单元交换设备、网络小群、扇出光纤缆线转置架和数据中心网络。

背景技术

近年来，由于人们对应用程序规模以及复杂性的需求迅猛增长，今天的网络基础设施正高速扩张、发展。随着越来越多的人连联起来，以及新产品和服务的应运而生，从数据中心流向互联网的数据流量，即“机器到用户”的流量非常庞大并仍保持迅猛增长。然而，当我们考虑到数据中心内的数据流量，即生成机器到用户数据流量所必须的“机器到机器”流量时，机器到用户的流量仅仅是“冰山一角”。一般来说，机器到机器的数据流量比机器到用户的数据流量要大几个数量级。

后端服务层和应用程序在数据中心内呈分布式逻辑互联。为服务每一个使用应用程序(“app”)或网站的用户，这些后端服务层和应用程序依靠彼此间广泛的实时“合作”，在前端为用户提供用户期待的可定制快速和无缝体验。为了紧跟需求增长速度，尽管内部应用程序为提高效率而不断进行优化，但相应的机器到机器流量的增长速度甚至比其持续优化的速度更快(例如，机器到机器的数据流量目前正以每年增长一倍余的速度扩张)。

能够快速运行、并支持快速增长，是数据中心基础设施设计理念的核心目标。此外，数据中心内的网络基础设施(“数据中心网络”)必须尽可能简单化，可以由一个小型的、高效的工程师团队负责管理。尽管数据中心网络的规模庞大并且仍在呈指数式增长，但它的发展方向是，使网络部署和网络操作随着时间的推进而变得更加容易和便捷。

其中一些应用程序需求与频繁使用数据分析工具(“大数据”)和人工智能 (“AI”)紧密相关。大数据和AI已经成为非常重要的分布式应用。运行这些应用程序需要处理大量的数据(例如，PB级)，使用强大的计算能力(例如，pflops级)，并且实现非常低的延迟(例如，在100纳秒内要有回应)。同时提供更强大的处理器(“向上扩大”)并且开发更大的并行处理(“向外扩展”)已成为实现高性能的首选方法。然而，不同于科学计算，大数据和AI应用是以服务形式交付给大量的全球用户。因此，与提供互联网服务的网络服务器一样，专用于大数据和AI应用的服务器集群已经成为数据中心的重要部分。

当下，数据中心网络已经在很大程度上从二层网络过渡到全三层网络(例如，运行边界网关协议(BGP)和等价多径协议(ECMP))。今天，一个大规模的数据中心通常以每秒贝脱比特的规模(千兆级)运行，预计在不久的将来，其规模将达到每秒数百贝脱比特。提供这样一个数据中心的费用为3亿美元到15亿美元不等。

在继续说明本专利内容之前让我们定意几个专业名词及其含意。

表1

回顾当前技术水平的数据中心基础设施对我们具有指导意义。在下列情况下，数据或流量聚合是指通信帧或数据包的多路复用。聚合模型和解聚模型是指通信网络的拓扑结构。数据聚合的概念与聚合模型和解聚模型的概念是一种正交关系。因此，一个解聚模型可以支持数据聚合，下面我们将讨论到。数据通信的一个基本概念是通信信道会出错。在这种通信信道上以过高的数据速率和过长的距离传输需要复杂且造价昂贵的收发器。因此，信道编码、错误检测和校正以及通信协议都是保证远距离传输数据并保持数据准确性的技术。过去，由于数据传输昂贵，数据聚合(例如，来自不同网流的多路复用和来自多个拓扑源的多路复用数据)和数据压缩确保了通信信道更高的利用率和有效的通信成本管控。这就是聚合(即在数据和拓扑结构中)范式的起源。这种范式主导了网络行业数十年。这种聚合在传输成本超过网络其它成本的广域网(WANs)中得到了广泛的应用。现在，数据交换的硬件架构也基于聚合，即每一个端口都与其他端口互接并聚合而来。在今天的通信网络中，数据通常在“上行链路”这往往是数据交换设备中最昂贵的端口上传输连接到外部网络(例如因特网)之前进行聚合。由于半导体、光学产品和互连技术以及规模经济的发展，网络成本大大降低。聚合模型并不一定是数据中心中唯一或最合适的解决方案。在今天的数据中心网络中，机器到机器的流量(“东/西向流量”)占据了大部分带宽，比机器到用户的带宽多了几个数量级，因此部署了多路径拓扑和路由(ECMP)，以便合起來的带宽变大。但是，流量仍然从所有的传入端口聚合到每一个传出端口。尽管如此，多路径拓扑传递了一个解聚模型的概念。下面的详细描述给多路径拓扑加予结构化和量化，并公开了一个与较传统的数据中心的聚合模型大不相同的本文称为“互连交换”(Interconnect as a Switch，ICAS)的解聚模型。

通常情况下，在企业或内网环境中数据流动形态相对可预知，并具有不太多的数据始点和数据终点。这些数据始点和数据终点通常通过数量相对较少的固定路径(“主要路径”)，其中还有一些是透过容错的备用的或“次要路径”进行连接。在这样的环境中，企业网络的路由协议在没有网络故障的情况下经过优化，会在每一对数据始点和数据终点之间选择一条最短的路径。

分布式计算框架(例如映射化简、Hadoop和Dryad)和网络服务(例如，网络搜索、电子商务、社交网络、数据分析、人工智能和科学计算)产生了一种要互连各式各样主机和具备大量聚合带宽的新计算模式。即使高端商用交換机也会存在端口不夠的情况，而造成了常见的分层结构演变为一种分层结构其上端(朝根部)具有更高速的端口和更大聚合带宽的胖树。需要大量集群内带宽的数据中心网络与以前的分层网络拓扑结构相背离。在多根树中，最短单路径路由协议会严重浪费可用带宽。ECMP作为一种改进后的多路径协议，可使用网流散列技术把网流靜態地分配到各个可用的路径上。ECMP巳被IEEE 802.1Q标准规范化了。由于ECMP多路径的对称性保证了网流在确定的路径上流动，允许通过多个“最佳路径”使“下一跳数据包转发”发送到单个终点。等价多路径路由可以与大多数路由协议结合使用，因为它是一个仅限于单个路由器的每跳决策。它可以通过对多条路径上的流量进行负载平衡从而大幅增加带宽。当网流的数据包到达交换机，并且有多条候选路径可用于将数据包转发到其终点时，数据包报头中选定的字段会被施加散列处理，以选择其中一条路径。通过这种方式，网流被分散在多个路径中，而且每个网流的数据包采用相同路径，从而维持数据包到达终点的顺序。

请注意，ECMP性能本质上取决于网流的大小和到达主机的网流的数量。当网络中的所有主机与所有其他的主机同时进行通信时，散列转发方式在流量均匀或者各个网流只持续一段短的往返延迟时间(“RTT”)时表现良好。不均匀的通信状态，尤其是那些涉及大块数据传输又没有仔细调度网流以避免网络瓶颈，在ECMP下的运行并不理想。

在下方详细描述中，术语“网构交换机”和“骨干交换机”可互换使用。当两个术语均出现在一个网络中时，网构交换机是指用于在TOR设备之间多路径联网的网络层中的设备，而骨干交换机是指用于在小群之间多路径联网的更高网络层中的设备。

胖树网络存在三大缺点，即1)由散列冲突引起的拥堵，2)由于聚合模型引起的拥堵，以及3)由于阻塞条件引起的拥堵。下文将进一步探讨这些拥堵状况。

首先，在ECMP下，两个或更多大型且长存网流可以散列到相同路径(“散列冲突”)，导致拥堵，如图1a所示。图1a显示四个网构交换机10-0至10-3互连五个 TOR交换机11-0至11-4的。如图1a所示，每一TOR交换机具有四个端口每个与各自网构交换机10-0至10-3的对应端口进行通信。每一网构交换机具有五个端口每个与各自TOR交换机11-0至11-4的对应端口进行通信。在图1a中，指向TOR交换机11- 0的两个网流源自TOR交换机11-1和11-2。然而，偶然情况下，各网流被散列到经过网构交换机10-0的路径上，从而导致网构交换机10-0指定端口101处拥堵。(当然，如果其中一个网流被散列到通过诸如网构交换机10-1的路径，则可以避免拥堵问题)。此外，通过散列将网流静态映射到路径上却没有考虑当前的网络利用率或网流的大小，以致所产生的碰撞淹没交换机缓冲区，降低整体交换机利用率并增加传输延迟。

第二，在胖树网络中，聚合流量的总带宽可能会超过所有网构交换机朝向同一个TOR交换机的全部下行链路合起来的带宽，从而导致聚合拥塞，如图1b所示。此聚合拥堵是当今交换网络聚合模型中的一大常见问题，并且需要做详尽的速率限制以避免拥堵。在图1b中，通过网构交换机12-0至12-3朝向TOR交换机13-0的网流来源自TOR交换机13-1至13-4，但是来自源头的聚合流量(来自TOR交换机13-1至13-3 和两个来自TOR交换机13-4)的总带宽超过所有网构交换机12-0至12-3的朝向TOR 交换机13-0的全部下行链路合起来的带宽。更具体的说，流量均匀分布在网构交换机 12-1至12-3上而没有拥堵；来自TOR交换机13-4的额外流量超过了网构交换机12-0 端口121下行链路的带宽，从而引起拥堵。

第三，有一个阻塞条件被称为“严格意义上的阻塞条件”它适用在统计复用的基于网流的网络(例如，TCP/IP网络)。当网流的数量和大小变得够大时，阻塞情况是由于路径多元化不足(或无力探究网络路径的多元性)造成的。图1c显示了胖树网络中的阻塞状况。如图1c所示，当从网构交换机14-0至14-1到TOR交换机15-0的路径繁忙起来并且从网构交换机14-2至14-3到TOR交换机15-3的路径繁忙起来，并且一个网流要通过TOR交换机15-0抵达TOR交换机15-3时，即会出现阻塞状况。TOR 交换机15-0至15-3之间的额外网流可以采用四条可用路径的其中一条。比如它采用了一条从TOR交換机15-3到网构交換机14-1然后从网构交換机14-1到TOR交換机 15-0的路径。但是，从网构交换机14-1到TOR交换机15-0的路径已经很忙。总体而言，将被阻塞的流量复用到现有流量会导致拥堵、延迟和/或数据包丢失增加。

在数据中心网络需求增长的同时，CMOS电路密度(“摩尔定律”)和输入输出电路数据率的增长速度似乎有所放缓。光刻成本和热密度最终限制了晶体管封装到单片封装中的数量。也就是说一个超大的存储或计算系统势必要通过多芯片來达成。不太可能像以往一样透过超高的集成密度把一个超大的系统集成在单一个芯片上。因此这里带出一个问题就是如何在芯片之间建设一个超大带宽互连。明白焊接在印刷电路板 (PCB)上的交换芯片采用高速串行差分输入输出电路向/从收发器模块传输和接收数据是具有指导意义的。收发器模块与不同系统中的另一收发器模块互连以完成网络通信。光收发器执行电光转换和光电转换。电气收发器执行复杂的电调制和解调转换。妨碍PCB上高速运作的主要障碍是来自表面效应、介电损耗、通道反射和串扰引起的铜质连线的频率相关的损耗。当数据速率超过几十个Gb/s，铜质连线面临带宽极限的挑战。为了满足对更大数据带宽的需求，高基数交换芯片集成了数百个差分输入输出电路。例如，Broadcom Trident-II芯片和BarefootNetwork Tofino芯片为10Gbps 传输和接收分别集成了2×128和2×260个差分输出输入电路。为了优化系统层面的端口密度，散热和带宽，输入输出电路和界面被集中在一起，按照电气和光学特性规范给予标准化。对SFP+來说是每端口带一对数据速率是10Gbps的TX和RX串行差分界面。对QSFP來说是每端口带四对每对数据速率是10Gbps的TX和RX串行差分界面共40Gb/s或4×10Gb/s数据速率。对QSFP28來说是每端口带四对每对数据速率是 25Gbps的TX和RX串行差分界面共100Gb/s或4×25Gb/s数据速率。对QSFP-DD來说是每端口带八对每对数据速率是50Gb/s的TX和RX串行差分界面共400Gb/s或 8×50Gb/s数据速率。当前技术水平的数据中心和交换芯片采用每端口带4至8对每对数据速率是10Gb/s或25Gb/s或50Gb/s的界面(TX，RX)作为设计时的考虑。这些分组并非唯一。作为光学互连标准的MTP/MPO限定每个端口可拥有多达48个界面，其中每个界面均会包含一对光纤，一个用于传输，一个则用于接收。然而，拥有多达48个界面的收发器模块的电气和光学规范尚未形成。本专利公开中，“端口群”的定义被扩展而包括跨越多个端口的更多界面(例如，来自2个QSFP的8个界面；来自8个QSFP的 32个界面等)。对本领域有经验的人能够理解到，本发明可在将来应用于4以外的多个不同数量的界面为一组的其他互连标准。

这些限制影响了数据中心网络，例如，增加了功耗、延缓了性能增加速度、以及增加了采购周期。这些发展使设备的电力需求，以及他们的冷却，设施空间，硬件成本，网络性能(例如，带宽、拥堵、延迟、管理)以及所需的较短的构建时间更加恶化。

对网络通信的影响有几个：

(a)网络行业可能没有足够大的经济规模来验证更小尺寸的CMOS技术的合理性；

(b)应该寻求更简单的解决方案来推进网络技术，而不是创造更复杂的解决方案并封装更多的晶体管。

(c)应寻求向外扩展解决方案(即，向上扩展解决方案的补充)，以解决应用问题(例如，大数据、AI、HPC和数据中心)；

(d)芯片端口密度(即，传统意义上的端口数量)增长趋于平缓¹；以及

(e)信号速率超过100G的界面的实现将会越来越困难²。

一直以来高速网络有两大类设计空间。在第一类设计空间中，HPC和超级计算网络通常采用直接网络拓扑结构。在直接网络拓扑结构中，每台交换机都被连接到服务

器以及拓扑结构中的其它交换机。常见的拓扑结构包括全网状(Mesh)，环面 (Torus)和超立方体(Hypercube)。这种类型的网络具有很高的资源利用率并通过始点和终点之间的各种长度路径提供高容量。然而选择哪条路径来转发流量最终是由交换机中的特殊协议(即，非最短路由)、网卡和终端主机应用逻辑来控制的。也就是需要算法或加以手动配置来达成路由。这种路由协议增加了开发人员的负担，并在应用程序和网络之间造成了过紧的耦合。

在第二类设计空间中，数据中心向外扩展导致了间接网络拓扑结构的发展，例如，折叠Clos和多根树(“胖树”)，其中，服务器被限制在网络结构的边缘。网络结构内部由专用交换机构成，这些专用交换机不被连接到任何服务器，而是简单地在网络结构内发送流量。这种类型的数据中心网络在应用程序和网络拓扑结构之间具有更松散的耦合，而将路径选择的负担放在网络交换机本身上。也就是基于互联网路由技术，如BGP(Border GatewayProtocol)路由协议。BGP路由协议有一套完善的防环路、最短路径和优化机制。但是对网络拓扑结构有严格的要求和限制。纯粹基于互联网BGP路由的数据中心技术不能有效地支持具有非最短路径拓扑的多路径拓扑结构的网络的。因此，数据中心网络传统上依赖于胖树拓扑,相对简单的路由和等价多路径选择机制(例如ECMP)。正是因为数据中心路由技术对网络拓扑有所限制。在数据中心技术的过去几年的发展中，尚未探索除了等成本多路径拓扑之外的非最短多径路径网络拓扑对数据中心的益处。

BGP和ECMP协议也並不是没有瑕疵的。ECMP依靠静态散列使网流通过一组最短等价路径到达终点。当没有网络故障时对分层拓扑结构(例如胖树)来说，ECMP路由已经足够了。然而，即使现在数据中心並没有采用使用不同长度路径的直接网络拓扑结构(例如，Dragonfly、HyperX、SlimFly、BCube和Flattened Butterfly)，是因为数据中心网络广泛采用商品数据中心交换机和ECMP所造成的限制。当局部拥堵或热点出现时ECMP会浪费网络容量，因为它忽略了不拥堵的较长路径。此外，在分层网络中，在出现故障而网络变成不再完全对称时，即使存在可用于提高网络利用率的非最短路径，ECMP也难以有效地进行路由。

图2a展示了典型的当前技术水平的数据中心网络架构，由三层交换设备组成–即实施在96个服务器小群21-0到21-95中的“架顶”(TOR)交换机和网构交换机；以及实施在4个骨干平面20-0到20-3中的骨干交换机–由互行链路互连成胖树拓扑结构。图2b展示了骨干平面的细节，其中骨干平面由48个的每个接至96个服务器小群的骨干交换机22-0至22-47组成。来自所有48个骨干交换机的连接被分组成96个互行链路，每个互行链路包含来自各自骨干交换机22-0到22-47的一个连接，每个互行链路总共有48个连接。图2c展示了服务器小群的细节，其中服务器小群由48个的每个连接到所有4个网构交换机23-0到23-3的TOR交换机24-0到24-47组成。结合来自图2b的连接信息，图2c服务器小群可以包括4个网构交换机23-0至23-3，每个网构交换机通过一个互行链路连接到各自4个骨干平面对应的一个，一个互行链路包括48个连接，每个连接连接到一个骨干平面中各自48个骨干交换机对应的一个。每个TOR交换机在12个QSFP界面中提供48个10G的连接作为下行链路以连接到服务器。图2d展示了边缘小群，这将在下面给出细节。

如图2b和图2c并结合图2a所示，TOR、网构和骨干层的交换机包括：(a)连接数据中心中服务器并且均匀分布在96个“服务器小群”中的TOR交换机层的96×48个 TOR交换机；(b)均匀分布在4个“骨干平面”中的骨干交换机层的4×48个骨干交换机； (c)均匀分布在96个服务器小群中的网构交换机层的96×4个网构交换机。另外，两个服务器小群可以改造成两个边缘小群。图2d展示了边缘小群。如图2d所示，边缘小群250可以包括4个边缘交换机25-0至25-3，每个边缘交换机通过一个互行链路连接到各自4个骨干平面对应的一个，一个互行链路包括48个连接，每个连接连接到一个骨干平面中各自48个骨干交换机对应的一个。每个边缘交换机可以包括互连外部网络的一个或多个上行链路。

服务器和骨干小群的详细实现方式结合图2a在图2b、2c中被进一步描述。这种配置将每个网构与骨干交换机装配在具有96个QSFP端口的8U多单元交换机箱中便于模块化。如图2c所示，每个TOR交换机由具有16个QSFP端口的交换机实现，每个 TOR交换机分配了12个QSFP端口与服务器以10G连接(即下行链路)也分配了4个 QSFP端口与在相同服务器小群中的4个网构交换机以40G连接。(在这个详细的描述中，QSFP意指40Gbits/秒的带宽，它可以设置成单个40G界面或4个10G界面，每个 40G界面包括4对收发光纤而每个10G界面包括1对收发光纤)。TOR交换机和网构交换机之间的40G界面用于小群内和小群间的数据流量。

服务器小群中的每个网构交换机是由具有96个QSFP端口的交换机实现，并分配(i)48个40G界面的48个QSFP端口给具有胖树拓扑结构的服务器小群中的48个 TOR交换机，以及(ii)48个40G界面的另外48个QSFP端口给与网构交換机连接的骨干平面里的48台骨干交換机。

骨干平面中的每个骨干交換机也是由具有96个QSFP端口的交换机来实现，并提供96个40G界面的96个QSFP端口，将96个的每个来自96个服务器小群中的网构交换机连接到骨干平面。通过骨干平面的数据流量大多是服务器小群间的通信。

在图2a的配置中，每个服务器小群包括(i)384个QSFP收发器，其中一半提供给骨干平面，其中一半提供给网构交换机的网络端；(ii)192个QSFP收发器提供给 TOR交换机网络端；(iii)576个收发器提供给服务器；(iv)192个光学QSFP光纤缆线，(v)36个专用集成电路用于实现网构交换机(ASIC)；以及(vi)48个ASIC用于实现TOR交换机。适用于该应用的ASIC可以是例如Trident-II以太网交换机 (“Trident-II ASIC”)。每个骨干平面包括4608个QSFP收发器、4608个QSFP光纤缆线和432个Trident-II ASIC。

图2a的实现方式实际上改善了拥堵性能，但并未消除拥堵。这个建立在聚合模型上的网络组织，旨在改善聚合模型下通信端口和传输介质的成本和使用率。尽管这种聚合模型对于广域网(例如，互联网)仍然有价值，但是在应用于局域网时，半导体技术的最新发展和其经济规模开始对这种聚合模型产生质疑。

发明内容

根据本发明的一个实施例，一种互连交换模块(“ICAS模块”)包括n个端口群，每个所述端口群包括n-1个界面；和一个互连网络，实现全网状拓扑结构，其中每个所述端口群包括多个界面，每个界面连接到各自其他端口群的一个对应界面。

根据本发明的一个实施例，一种可堆叠交换设备可以包括：一个或多个上述的互连交换模块、多个交换机元件以及可堆叠的机架式机箱、每个互连交换模块被连接至多个交换机元件，用于互连不同交换机元件的至少部分端口群的至少部分界面，以形成全网状非阻塞互连，用于互连不同交换机元件的至少部分端口群的其余界面被配置为上行链路的界面，互连交换模块和交换机元件封装在可堆叠的机架式机箱中。

根据本发明的一个实施例，一种多单元交换设备可以包括：一个或多个上述的互连交换模块，互连交换模块采用电路方式实现在PCB板上、多个交换机元件以及多单元机架式机箱、每个互连交换模块被连接至多个交换机元件，用于互连不同交换机元件的至少部分端口群的至少部分数据界面，以形成全网状非阻塞互连、用于互连不同交换机元件的至少部分端口群的其余数据界面被配置为上行链路的界面、互连交换模块和交换机元件封装在多单元机架式机箱中。

根据本发明的一个实施例，一种网络小群可以包括：多个第一层交换设备，每个具有多个下行链路的界面，用于从多个服务器接收数据信号并向多个服务器传输数据信号；多个第一层交换设备，每个具有多个网络侧的端口群；一个或多个第二层设备，用于互连第一层交换设备的部分端口群之间的至少部分界面，用于互连第一层交換设备的部分端口群的其余界面被配置为上行链路的界面；其中，第一层交换设备和第二层设备互连以实现既定数量的节点的全网状网络。

k个骨干平面每个包含p个互行链路用來连接p个网络小群每个包含k个架顶交换机。在一个骨干平面里，k个骨干交换机与一个扇出光纤缆线转置架互连。

根据本发明的一个实施例，一种扇出光纤缆线转置架可以包括：k个第一端口群通过多个第一光纤缆线与k个骨干交换机相对应的端口群连接；p个第二端口群通过连接多个第二光纤缆线形成p个互行链路。多个扇出光纤缆线用于交叉连接k个第一端口群和p个第二端口群，使得来自所有k个骨干交换机的连接被分组形成p个互行链路，每个互行链路包括来自每个骨干交换机的一个连接，并且每个互行链路共有k 个连接。

根据本发明的一个实施例，一种数据中心网络可以具有多个下行链路的界面，用于从多个服务器接收数据信号并向多个服务器传输数据信号，和多个上行链路的界面，用于连接互联网或连接相似配置的其他数据中心网络，该数据中心网络可以包括：一组网络小群(服务器小群/互连交换小群)，其中一组网络小群中的每一个网络小群包括:(a)一组第一层交换设备，提供部分界面作为下行链路的界面，并且将其余部份的界面分成一至多个网络侧的端口群，(b)一个或多个第二层设备用于互连第一层交换设备的部分端口群之间的至少部分界面，其中用于互连第一层交换设备的部分端口群的其余界面被配置为上行链路的界面，第一层交换设备和第二层设备互连以实现既定数量节点的全网状网络；以及一组交换机集群，其中一组交换机集群中的每一个交换机集群，包括一组第三层交换设备，其中每个第三层交换设备路由从每个一组网络小群中的一个相应第一层交换设备接收的多个数据信号，或者发送至每个一组网络小群中的一个相应第一层交换设备的多个数据信号。

通过简化数据中心网络基础设施并减少硬件需求，本发明涉及解决与设备电源需求及其散热，设备空间，硬件成本，网络性能(如带宽，拥堵和延迟，管理)以及建设周期短的有关难题。

考虑到下面结合附图的详细描述，可以更好地理解本发明。

附图说明

图1a展示了在ECMP下的胖树网络中由于散列冲突导致的拥堵。

图1b展示了胖树网络拓扑结构中的聚合拥堵。

图1c展示了由于胖树网络中出现阻塞条件而导致的拥堵。

图2a展示了当前技术水平的数据中心网络的架构。

图2b详细展示了图2a的数据中心网络的骨干平面的实现方式。

图2c详细展示了图2a的服务器小群使用四个网构交换机跨越48个架顶交换机来分发机器到机器的流量的一种实现方式。

图2d详细展示了图2a的边缘小群使用四个边缘交换机提供上行链路界面以连接到一个或多个外部网络的实现方式。

图3展示了具有9个节点网络的“全网状”拓扑结构。

图4a展示了根据图3的全网状拓扑结构以互连9个节点的ICAS模块400。

图4b根据本发明的一个实施例展示了9节点ICAS模块400的第7端口群的内部界面和外部界面之间的其中一种连接关系。

图5a根据本发明的一个实施例展示了以全网状拓扑结构连接每个TOR交换机51-0至51-8的端口群2的ICAS模块500。

图5b根据本发明的一个实施例展示了在图5a的全网状拓扑结构网络500透过ICAS2模块510的端口群50-1的内部界面52-1-7以及端口群50-7的内部界面52-7- 1，TOR交换机51-1的端口群2将数据包路由到TOR交换机51-7的端口群2。

图6a展示了网络600是图5a网络更加简洁的表现。

图6b展示了以便提供更大的带宽和路径多元化，额外的ICAS模块被添加到图6a网络600之后的网络620。

图7a展示了，在图2a的数据中心架构中，服务器小群的拓扑结构可以简化为 (4，48)二分图。

图7b展示了作为示例表示为(5,6)二分图的网络720。

图7c展示了隐藏在图7b的(5,6)二分图中的6节点全网图。

图8a根据本发明的一个实施例展示了改良的数据中心网络800；数据中心网络800包含20个骨干平面可提供上行链路801；和188服务器小群可提供上行链路 802，上行链路801和802连接一个或多个外部网络。

图8b详细展示了改进后的骨干平面820的实现，有20个骨干交换机可提供用于连接到外部网络的上行链路821。

图8c根据本发明的一个实施例详细显示了改良后而形成的(20，21)网构/TOR 拓扑结构,而使用20个网构交换机以分配20个架顶式交换机间的机器对机器的流量的服务器小群830的实现方式；第21个TOR交换机从改良后的服务器小群830中移除使得其连接可被用做上行链路831将网构交换机连接到外部网络。

图9a根据本发明的一个实施例展示了通过用ICAS小群91-0至91-197代替图8a 网络800中的服务器小群(例如，图8c的服务器小群830)的ICAS数据中心网络 900；并且图9c更详细地展示了每个ICAS小群；在图9a中，由20个骨干平面组成的上行链路901和188个ICAS小群组成的上行链路902，用于连接外部网络。

图9b根据本发明的一个实施例详细展示了，通过将扇出光纤缆线转置架整合到图8b的骨干平面820，而在数据中心网络900中实现的一个骨干平面920。骨干平面920 里的骨干交换机可提供上行链路921连接到外部网络。

图9c根据本发明的一个实施例详细展示了通过替换图8c的服务器小群830中的网构交换机83-0至83-19来实现的ICAS小群930的实施；并且每个ICAS小群提供 20×10G上行链路932用于连接到外部网络。

图9d展示了用高基数单芯片(即高端口数)交换集成电路实现的骨干交换机；这样的骨干交换机采用了目前有的最高端口数量的交换集成电路。

图9e展示了通过堆叠四个交换机每个由Trident-II ASIC(每个带96×10G的配置)和1个ICAS光纤机953形成的骨干交换机；ICAS光纤机953在一个1U机箱中包括四个ICAS模块95-0至95-3，每个ICAS模块配置有三份ICAS1X5，使得ICAS光纤机953向四个交换机96-0至96-3中的每个提供非阻塞1:1的订阅率。

图9f展示了基于ICAS的多单元交换设备的骨干交换机其中四个基于ICAS的网构卡97-0至97-3以全网状拓扑结构被连接至专用集成电路98-0至98-3，而专用集成电路98-0和98-1放置在线卡973中，以及专用集成电路98-2和98-3放置在线卡 974中。

为了便于在图之间交叉引用并简化详细描述，相同的元件被配给相同的附图标记。

具体实施方式

本发明通过基于新的网络拓扑结构消除了网构层中的交换机来简化网络架构，该拓扑结构在本文中称为“互连交换”(ICAS)拓扑结构。本发明的ICAS拓扑结构以“全网状”拓扑结构为基础。在全网状拓扑结构中，每个节点都连接到所有其它节点。图3 展示了9节点全网状拓扑结构的例子。全网状网络的固有连接可用来为网构层提供交换功能。

如下面进一步详细讨论的，ICAS拓扑结构使得数据中心网络远远优于使用胖树拓扑结构这一现有技术的数据中心网络。与其它网络拓扑结构不同，ICAS拓扑结构在网络上加予了一种结构化以大幅度降低拥堵。根据一个实施例中，本发明提供ICAS模块作为互连通信设备的一个组件。图4a展示了ICAS模块400，其根据图3的全网状拓扑结构互连9个节点。

图4a展示了具有端口群40-0至40-8的ICAS模块400而每个端口群提供8个外部界面和8个内部界面。在ICAS模块400中，每个端口群的每个内部界面连接到各自其它端口群的一个内部界面。实际上，每个端口群都通过其中一个内部界面与每个其它端口群连接。在这方面，每个“界面”包含一对收、发光纤能够支持，例如，10Gbps 的数据速率。在图4a中，每个端口群给编上一个0-8的索引。索引可以是任意的、不等数值(比如这9个端口群也可以给编上5，100，77，9，11，8，13，50，64作为索引)。9个端口群里的8个内部界面被冠上所连接端口群的索引(例如，第7个端口群的内部界面在第一个例子中为0,1,2,3,4,5,6和8；在第二个例子中为 5,100,77,9,11,8,13和64)。此外，端口群i的内部界面j连接到端口群j的内部界面i。ICAS模块400中的每个端口群的外部界面被依序编上0-7的索引。

图4b根据本发明详细展示了ICAS模块400中端口群7的内部界面与外部界面之间的连接关系。如图4b所示，在一个实施例中外部界面按索引顺序与内部界面一对一地连接(例如，对于端口群7，外部界面42-0到42-7依序连接到内部界面41-0到 41-6和41-8)。因此，对于端口群i，外部界面0-7分别连接到内部界面0，...，i- 1，i+1，...，8。因此，可以很容易地看出，任何一对端口群x和y是通过端口群y 的内部界面x和端口群x的内部界面y进行连接。该索引方式允许外部交换设备使用始点端口群和终点端口群的内部界面索引为数据包指定路径。在任何一对端口群之间不会发生拥堵情况(例如，基于散列冲突、聚合模型，或严格意义上的阻塞)。

ICAS模块的端口群內部之间的互连可以使用光介质來达成全网状结构。光介质可以为光纤和/或3D MEMS。3D MEMS內部使用可控微镜來建立光通路以达成全网状结构。上述兩种实现方式都採用MPO连接器。同时也可以使用电路來达成。用电路來实现时，ICAS模块的端口群是採用支持高速差分信号和有阻抗匹配的连接器焊接或压接在PCB板上。而端口群內部之间的互连是使用PCB板上的铜线差分对來实现的。因为不同等级的高速差分连接器和不同等级的PCB板上的铜线差分对的信号损耗差异很大，在连接器后端通常会增加有源芯片用來恢复与强化信号以增加信号在PCB板上的传输距离。当ICAS模块封装在1U至多U的机架式机箱中便形成了1U至多U的互连设备。基于ICAS的互连设备要与交换设备互连才会形成全网状非阻塞网络。在后面的多个实施例子中將会详细讲解这种新颖的网络。当1U至多U互连设备的ICAS模块的实现方式是基于光学的(基于光纤的和基于3D MEMS的)，连接ICAS互连设备和交换设备的将是MPO-MPO光纤缆线。当1U至多U互连设备的ICAS模块的实现方式是基于电路的(基于PCB+芯片的)，连接ICAS互连设备和交换设备的是DAC电缆或AOC有源光缆。

由于ICAS模块400中的交换是通过其连接被动地实现的，所以在执行交换功能时不会消耗功率。ICAS被动交换设备典型的端口群到端口群的延迟大约是10ns(例如，光纤的延迟为5ns/米)，这对数据中心应用、或大数据、AI和HPC环境是非常理想的。

在下面的表2中总结了图4a的ICAS模块400外部到内部连接方式的索引规则：

表2

图5a根据本发明的一个实施例展示了网络500，其中ICAS模块510and每个 TOR交换机51-0至51-8的端口群2以全网状拓扑结构连接。

图5b根据本发明的一个实施例展示了在图5a的全网状拓扑结构网络500中的ICAS模块510里，TOR交换机1的端口群51-1通过ICAS模块510端口群50-1的外部连接53-1-6和内部连接52-1-7，和ICAS模块510端口群50-7的内部连接52-7-1和外部连接53-7-1，将数据包路由到TOR交换机7的端口群51-7。如图5b所示，连接到ICAS模块510的端口群50-1的TOR交换机51-1收到数据包其终点可通过ICAS模块510的内部端口群52-1-7到达。TOR交换机51-1有一个包含8个连接54-1-0到 54-1-7的端口群(由两个QSFP端口组成)一对一映射到ICAS模块510的端口群50-1 的外部连接53-1-0到53-1-7，又依次按照ICAS模块510的端口群50-1的顺序一对一地映射到内部连接52-1-0,52-1-2至52-1-8。TOR交换机的端口群51-7包含8个连接54-7-0至54-7-7(由两个QSFP端口组成)一对一映射到ICAS模块510的端口群50- 7的外部连接53-7-0到53-7-7，又依次按照ICAS模块510的端口群50-7的顺序一对一地映射到内部连接52-7-0至52-7-6和52-7-8。TOR交换机端口中的每个连接可以是，例如，10G连接。由于ICAS模块510的端口群50-1和50-7是通过端口群中相应的内部连接52-1-7和52-7-1连接的，TOR交换机51-1通过其连接54-1-6发送数据包到ICAS模块510的外部连接53-1-6。由于ICAS模块510内的连接方式採用全网状拓扑结构，数据包被路由到ICAS模块510的外部连接53-7-1。

在全网状拓扑结构网络500中，每个TOR交换机的界面被重组成端口群，使得每个端口群包含8个界面。为了说明这种规划，来自每个TOR交换机的端口群2被连接到ICAS模块510。由于每个TOR交换机都有个自的通过ICAS模块510到每个其他TOR 交换机的专用路径，所以不会出现来自不同始点交换机的两个或更多网流被路由到终点交换机(“单点多源流量聚合”情况)的一个端口而造成拥堵。在这种情况下，例如，当各自具有10G数据流量的TOR交换机51-0至51-8将TOR交换机51-0作为终点，所有的网流都将通过各自的连接路由到各自的路径上。表3总结了各自的指定路径：

表3

换言之表3所述,与索引为i的端口群相连接的第一层交换机i与所述索引为j 的端口群相连接的第一层交换机j之间的单连接数据通过所述索引为i的端口群的所述索引为j的界面与所述索引为j的端口群的所述索引为i的界面直接传输。

在表3中(以及在这里的所有表中)，交换机始点和交换机终点各自由3个值指定：Ti.pj.ck，其中Ti是具有索引i的TOR交换机，pj是具有索引j的端口群和ck 是具有索引k的界面。类似地，ICAS模块500中的始点界面和终点界面也分别由3个值指定：ICASj.pi.ck，其中ICASj是具有索引j的ICAS模块，pi是具有索引i的端口群，并且ck是具有索引k的界面。

当一个ICAS网络的端口群与所有TOR交换机的端口群i连接时,这样的ICAS基于约定将被标记为带有索引i的ICASi。

即使当始点交换机从所有被连接的服务器接收到大量发送到相同终点交换机(“端到端流量聚合”例案)的聚合数据(例如，每秒80G比特)，拥堵还是可以在具有适当路由方法的全网状拓扑结构网络500中避免的。在这种例子下，将TOR交换机设想为由两组组成是有助益的：始点交换机i一组和其余的交换机0至i-1，i+1至8一组。其余的交换机在本文中统称为“网构群”。假设TOR交换机51-1从其全部被连接的服务器接收80Gbps(例如，8个10G网流)，所有都指定终点TOR交换机51-0。端到端流量聚合案例的路由方法是将聚合流量分配给图5a中的端口群51-1的8个10G界面，使得每个10G界面中的数据包被分发到网构群里每一个TOR交换机(表4A)：

表4A

请注意，路由到TOR交换机51-0的数据已到达其指定目标，因此不会进一步路由。然后除了TOR交换机51-0之外，网构群中的每个TOR交换机，将其收到的数据配给个自的界面0以转发给TOR交换机51-0(表4B)：

表4B

换言之所述索引为i的端口群相连接的第一层交换机i与所述索引为j的端口群相连接的第一层交换机j之间的至少一个多连接数据通过除发送方索引之外的至少一个其他所述端口群连接的第一层交换机中转传输，多连接数据抵达终点交换机的则不再继续路由传输。

更准确的说，索引为i的端口群相连接的第一层交换机i与所述索引为j的端口群相连接的第一层交换机j之间的多连接数据传输，包括：表4A所述第一层交换机i 通过所述索引为i的端口群的多个索引的界面连接多个相对应索引的第一层交换机进行传输；表4B所述多个所述索引的第一层交换机通过多个所述索引的端口群的多个所述索引为j的界面连接所述索引为j的第一层交换机的端口群的多个所述索引的界面进行传输；传输抵达终点交换机的则不再继续路由。

因此，本发明的全网状拓扑结构网络提供的性能与现有技术的网络拓扑结构(例如胖树)形成鲜明对比，现有技术在单点多源流量聚合和端到端流量聚合情况下无法避免网构交换机中的拥堵。

而且，如上所述，当TOR交换机51-0至51-8遵守m>2n-2法则时，其中m是网络侧的界面的数量(例如，与ICAS模块500中的端口群的界面)而n是TOR交换机输入界面的数量(例如，与数据中心内服务器的界面)，严格的阻塞条件得以避免。换言之，在任何流量的状况下，任何一对输入界面之间都存在静态路径。在电路交换网络中避免这种阻塞情况至关重要。

在图5a的全网状拓扑结构网络500中，ICAS模块500的每个端口群都有8个界面与相应的TOR交换机的端口群的8界面(例如，8个10G界面)连接。图5a的全网状拓扑结构网络500可以在图6a中以更简练的方式重新绘制，稍作修改。图6a展示了互连到每个TOR交换机61-0到61-8的端口群2的ICAS2模块60-2。在图6a中， TOR交换机61-0的端口群2与ICAS模块60-2(现标为'ICAS2')的端口群0之间的界面被展现成一条单线(例如，TOR交换机61-0的端口群2和ICAS模块60-2的端口群 0之间的单线)。当然，这样的线代表着TOR交换机与ICAS模块60-2中的对应端口群之间的所有8个界面。图6b所示就是这种情况其中每个TOR交换机63-0至63-8也具有4个端口群，允许配置出如图6b的网络620，其中在62-2之外增加了三个ICAS模块62-0，62-1和62-3，并在图6a的网络600中添加上各自的界面。

在全网状拓扑结构网络500中，均匀的流量可以散布到网构群，然后转发到其终点。在图6b的网络620中，可以使用额外的ICAS模块来提供更大的带宽。只要TOR 交换机中有额外的端口群可用，额外的ICAS模块可以被添加到网络中以增加路径多元化和带宽。

本发明的发明人详细研究了本发明的全网状拓扑结构与其他网络拓扑结构(例如图2a的数据中心网络中的胖树拓扑结构)之间的相似性和差异。发明人首先观察到，在图2a的数据中心网络架构中，服务器小群(“网构/TOR拓扑结构”)中展现的胖树网络只要其网构交换机仅仅在为来源自TOR交换机当中的流量履行互连功能即可以简化为(4,48)二分图。图7a显示了(4，48)这样的二分图。在图7a上方的一组节点0-3(“网构节点”)70-0到70-3代表图2a服务器集群中的四个网构交换机而下方的一组48个标记为71-0到71-47的节点(即“叶节点0-47”)代表图2a服务器群中的48个TOR交换机。

发明人发现，n节点全网图被隐藏在由具有(n-1，n)节点的二分图(即，具有 n-1个网构节点和n个TOR交换器叶节点的网络)所代表的一个”网构-叶”的网络中。作为示例，图7b显示了具有5个节点72-0至72-4和6个叶节点73-0至73-5的 (5,6)二分图。图7c显示了6节点的全网图740其中6个节点74-0到74-5隐藏在图7b的(5,6)二分图中。

这一发现导致了以下相当重大的结果：

(a)n节点全网图是隐藏在(n-1，n)二分图中的；并且(n-1，n)二分图和数据中心网构/TOR拓扑结构具有相似的连接特性；

(b)具有(n-1，n)网构/TOR拓扑结构的网络(即，具有n-1个网构交换机和n 个TOR交换机)可以与具有全网状拓扑结构的网络(例如，网络500图5a)一样在相同的连接特性下运行；

(c)在(n-1，n)网构/TOR拓扑结构网络中不需要网构交换机，因为网构交换机仅仅在TOR交换机之间履行互连功能，即这些网构交换机可以通过TOR交换机之间的全网状直连来替代；以及

(d)基于胖树拓扑结构的数据中心网络(例如Fabric/TOR拓扑结构)采用ICAS 模块即可大大改善其网络性能。

在下文中，用ICAS模块以取代网构交换机的数据中心网络可被称为“基于 ICAS”的数据中心网络。基于ICAS的数据中心网络具有以下优点：

(a)成本较低，因为不使用网构交换机；

(b)功耗较低，因为ICAS模块是被动的；

(c)拥堵较少，因为ICAS模块的一种解聚模型和路径多样性；

(d)延迟较低；

(e)实际上较少的网络层(小群间流量少兩跳，少群內流量少一跳)；

(f)作为数据中心网络具有更大的可扩展性。

这些结果可以有利地用在改进典型的当前技术水平的数据中心网络。图8a根据本发明的一个实施例展示了改进的数据中心网络800。数据中心网络800与图2a的数据中心网络使用相同类型的组件(即，骨干交换机，网构交换机和TOR交换机)，除了网构交换机的数量增加到比TOR交换机的数量少一个(图8c展示了等同数量的网构交换机和TOR交换机，因为其中一个TOR交换机，即第21个TOR交换机，被移除以便与其连接的來自20个网构交换机的20个界面能作为上行链路以连接到一个或多个外部网络)。

图8a显示了改进的数据中心网络的架构，由三层交换设备，即188个服务器小群81-0至81-187中的“架顶”(TOR)交换机和网构交换机，20个骨干平面80-0至 80-19中的脊椎交换机，按照胖树拓扑结构通过互行链路互连组织而成。互行链路指的是服务器小群与骨干平面之间的网络连接。例如，188个的每个服务器小群的互行链路k连接到骨干平面k，20个的每个骨干平面的互行链路p连接到服务器小群p。 20个的每个骨干平面可提供上行链路(例如上行链路801)和188个的每个服务器小群都可提供上行链路(例如，上行链路802)用于连接到一个或多个外部网络。在这个例子中，为了比较，选了服务器小群和骨干平面的数量，以便改进的数据中心网络 800和当前技术水平的数据中心网络200具有相同的网络特性(2.2Pbps服务器端总带宽；3:1超额订阅率–服务器端到网络端带宽比率；Trident-II ASIC)。改进的数据中心网络的其他配置也是可能的，例如，具有32个TOR的服务器小群或是具有48个 TOR的服务器小群，但是需要使用比Trident-II ASIC更高基数的交换芯片。

图8b显示了图8a的骨干平面的细节。在图8b中，骨干平面820由20个每个连接到188个服务器小群的骨干交换机82-0至82-19组成。来自所有20个骨干交换机的连接被分组为188个互行链路，每个互行链路包括来自每个骨干交换机82-0至82- 19的一个连接，而每个互行链路共有20个连接。

图8a服务器小群的细节在图8c显示。图8c中，服务器小群的网络侧的连接(而不是服务器侧的连接)被分类为小群内的链路(即，内行链路)和小群间的链路(即，互行链路)。这两种链路类型是互不相关的。小群内区域832由小群内的链路，小群内的20个TOR交换机84-0至84-19和20个网构交换机83-0至83-19通过链路互连成为胖树拓扑结构所组成。例如，20个的每个TOR交换机的连接k连接到网构交换机 k；20个的每个网构交换机的连接p连接到TOR交换机p。20个网构交换机的每个可提供上行链路(例如，上行链路831)以连接到外部网络。小群间的区域由小群间的链路(即，互行链路)，以及互行链路侧的20个TOR交换机84-0至84-19组成，每个互行链路提供20个10G连接以连接到同一脊椎平面上的所有20个骨干交换机。每个服务器小群总共有20个链路。例如，跨越188个服务器小群的188个的每个TOR交换机的互行链路k连接到骨干平面k；20个的每个骨干平面中的互行链路p连接到服务器小群p。每个TOR交换机提供12个QSFP端口其中包含48个10G连接作为下行链路链路以连接到服务器。

通过网构交换机的数据流量主要限于小群内。TOR交换机现在要路由小群内的流量和小群间的流量而变得更加复杂。在数据中心网络的建设中独立的链路类型促成了大规模的可扩展性。(由更高基数交换ASIC提供的更多其他独立的链路可以被用来达到更大连接规模的目的)。另外，数据中心网络800融合了全网状拓扑结构概念(不需要真正用上ICAS模块)以移除冗余的网络设备并允许使用创新的交换方法，实现“精减”的数据中心网络具备改进的数据流量特性。

如图8c，图8b和图8a所示，数据中心网络800包括平均分布在188个服务器小群中的20×188个TOR交换机和20×188个网构交换机，和平均分布在20个骨干平面上的20×20个骨干交换机。在图8a中，每个TOR交换机具有100个10G连接(即， 10G模式下的25个QSFP的带宽)，其中服务器端提供60个10G连接以及网络侧的提供40个10G连接。(在网络端连接中20个10G连接用于小群内的数据流量以及20个 10G连接用于小群间的数据流量)。在每个服务器小群中，网构交换机83-0至83-19 的每个都包含21个10G连接，其中20个10G连接的每个10G连接被用來连接每个 TOR交换机84-0至84-19,其余的被改造成连接到外部网络的上行链路。以这种方式，网构交换机83-0至83-19以21节点的全网状拓扑结构支持小群内区域的数据流量和服务器小群的上行链路(网构交换机0-19的上行链路为一个节点)。使用上述任何一种合适的路由算法再结合单源多点流量聚合以及端到端流量聚合，可以消除来自所有网构交换机的网络拥堵。

当每个服务器小群里的小群内区域中的网络跟全网状拓扑结构网络能够以相同的连接特性运行时，服务器小群里所有的20个网构交换机就可以被ICAS模块取代。数据中心网络800的网构交换机83-0至83-19被替换后所产生的基于ICAS的数据中心网络900在图9a中显示。为了与数据中心网络800的服务器小群区分开，网构交换机被ICAS模块所替换的服务器小群被称为“ICAS小群”。

图9a显示了基于ICAS的数据中心网络架构，由三层设备组成，即“架顶式” (TOR)交换机，实施在188个服务器小群91-0至91-187中的ICAS模块和实施在20 个骨干平面90-0到90-19中通过胖树拓扑结构以互行链路进行互连的骨干交换机。20 个骨干平面可提供上行链路901以及p个ICAS小群每个ICAS小群可提供20×10G上行链路902以连接到外部网络。数据中心网络中的各网元的数量仅为示意。

在一实施方式中，图9b显示了图9a中骨干平面的细节。在图9b中，骨干平面 920包括k个骨干交换机92-0至92-19和扇出光纤缆线转置架921。扇出光纤缆线转置架包括k个第一端口群923通过第一MPO-MPO光纤缆线与k个骨干交换机的相对应的端口群直接连接，每个第一端口群包括

个第一MPO光纤适配器，每个第一 MPO光纤适配器包括m个界面(一个界面含一根发送光纤通道和一根接收光纤通道)，并且來自k个第一端口群923的第一MPO光纤适配器通过第一MPO-LC扇出光纤缆线与 LC光纤适配器安装面板922连接，其中，k＝20，p＝188，m＝4，

是向上取整函数；扇出光纤缆线转置架921包括p个第二端口群924通过与第二MPO-MPO光纤缆线直接连接以形成互行链路99-0至99-187，每个第二端口群包括

个第二MPO光纤适配器，每个第二MPO光纤适配器包括m个界面(一个界面含一根发送光纤通道和一根接收光纤通道)，并且来自p个第二端口群的第二MPO光纤适配器通过第二MPO-LC扇出光纤缆线与LC光纤适配器安装面板922连接；第一MPO-LC扇出光纤缆线与第二MPO-LC扇出光纤缆线在LC光纤适配器安装面板922上对接以形成链路，通过该对接，所有来自k个骨干交换机92-0至92-19的链路被重组为p个互行链路99-0至 99-187，每个互行链路包含来自每个骨干交换机92-0至92-19的一个链路，每个互行链路共有20个链路。

在一实施方式中，图9b显示了图9a中骨干平面的细节。在图9b中，骨干平面 920包括k个骨干交换机92-0至92-19和扇出光纤缆线转置架921。扇出光纤缆线转置架包括:k个第一端口群923通过多个第一MPO-MPO光纤缆线与k个骨干交换机的相对应的端口群直接连接，每个第一端口群包括

个第一MPO光纤适配器，每个第一MPO光纤适配器包括m个界面(一个界面含一根发送光纤通道和一根接收光纤通道)，并且來自k个第一端口群923的多个第一MPO光纤适配器通过多个第一MPO-LC 扇出光纤缆线与LC光纤适配器安装面板922连接，其中，k＝20，p＝188，m＝4，

是向上取整函数；扇出光纤缆线转置架921包括p个第二端口群924通过与多个第二 MPO-MPO光纤缆线直接连接以形成互行链路99-0至99-187，每个第二端口群包括

个第二MPO光纤适配器，每个第二MPO光纤适配器包括m个界面(一个界面含一根发送光纤通道和一根接收光纤通道)，并且来自p个第二端口群924的多个第二 MPO光纤适配器通过多个第二MPO-LC扇出光纤缆线与LC光纤适配器安装面板922连接；多个第一MPO-LC扇出光纤缆线与多个第二MPO-LC扇出光纤缆线在LC光纤适配器安装面板922上交叉连接，通过交叉连接,所有来自k个骨干交换机92-0至92-19的链路被重组为p个互行链路99-0到99-187，每个互行链路包含来自每个骨干交换机 92-0到92-19的一个链路，每个互行链路共包含k个链路。

也就是说，在扇出光纤缆线转置架921的一侧是k个第一端口群923，每一个第一端口群包括

个第一MPO光纤适配器，其中，

是向上取整函数，每一个端口群透过

个第一MPO-MPO直通光纤缆线与一个骨干交换机相对应的一个端口群连接。在扇出光纤缆线转置架921的另一侧是p个第二端口群,每一个第二端口群包括

个第二MPO光纤适配器，其中，

是向上取整函数，每一个端口群连接

个第二MPO-MPO直通光纤缆线以形成连接到ICAS小群的互行链路。

正如前面的详细描述中指出的那样，当前技术水平的数据中心以及交换芯片在想法上将每个端口设计成有4个(TX，RX)界面每个10Gb/s或25Gb/s。交换设备在基于ICAS的数据中心内的连接层相互连。在这样的配置中，从QSFP收发器出来的QSFP 光纤缆线被分成4个界面，以及来自不同QSFP收发器的4个界面合并在一个QSFP光纤缆线中用以连接到另一个QSFP收发器。而且，是因为基于ICAS的数据中心网络的可扩展性骨干平面可以互连大量且不同数量的ICAS小群(例如，数百个)。这样的布线方案更合适被编排在可以是一个或多个机架的扇出光纤缆线转置架(例如，扇出光纤缆线转置架921)里并集成到骨干平面中。确切地说，骨干交换机和TOR交换机可以使用QSFP直通光纤缆线分别连接到扇出光纤缆线转置架。这种安排简化了数据中心的布线。图9b显示了图9a的数据中心网络900的这种配置。

在图9b所示的实施方式中，第一和第二光纤适配器为MPO光纤适配器，第一和第二光纤缆线为MPO-MPO光纤缆线，第一和第二扇出光纤缆线为MPO-LC扇出光纤缆线，第一和第二光纤适配器安装面板为LC适配器安装面板，在其他实施方式中，也可以采用其他类型的光纤适配器/光纤缆线/光纤适配器安装面板，例如FC、SC、LC、MU等。

图9c显示了图9a的ICAS小群的细节。在图9c中，ICAS小群的网络侧的界面 (而不是服务器侧的界面)分为小群内的链路(即，内行链路)和小群间的链路 (即，互行链路)而且这两类链路彼此独立。小群内的区域由20个TOR交换机93-0 至93-19之间的内行链路和ICAS模块931，通过全网状拓扑结构由10G连接互连组成。每个ICAS模块可提供20个10G上行链路932以连接到一个或多个外部网络。小群间的区域由互行链路组成。ICAS小群可以包含20个TOR交换机93-0至93-19，每个TOR交换机通过一个互行链路连接各自20个骨干平面对应的一个(即，骨干平面)，一个互行链路包括20个连接，每个连接连接到一个骨干平面各自20个骨干交换机对应的一个(即，骨干交换机)。例如，横跨188个ICAS小群里的188个的每一个 TOR交换机的互行链路k连接到骨干平面k；20个的每一个骨干平面的互行链路p连接到服务器小群p。每个TOR交换机在15×QSFP端口中提供60×10G界面作为连接服务器的下行链路。

通过ICAS模块的数据流量主要限于小群内的。TOR交换机现在要路由小群内的流量和小群间的流量而变得更加复杂。在数据中心网络的建设中独立的链路类型促成了大规模的可扩展性。(由更高基数交换ASIC提供的更多其他独立的链路可以被用来达到更大连接规模的目的)。

如图9c，图9b和图9a所示，每个TOR交换机分配，20个10G界面(10G模式下的5个QSFP)以连接到与其相关联的ICAS模块(例如，ICAS模块931)以支持小群内的流量，和5个10G模式的QSFP(20个10G界面)以连接到光纤缆线转置架以支持小群间的流量。如图9c所示，每个ICAS小群包含与100个QSFP直通光纤缆线连接的用于传输小群内的流量的20×5QSFP收发器，和用于服务器通信的20×15QSFP(10G 模式)收发器，共500个QSFP收发器。ICAS小群内的20个TOR交换机可以由20个 Trident-II ASIC实现。尽管图9c显示了每个ICAS小群有20个TOR交换机，ICAS模块可以扩展以便在ICAS小群中(基于32×QSFPTrident-II+交换机ASIC)连接多达 48个TOR交换机。

ICAS小群和骨干平面一起形成模块化网络拓扑结构，能够容纳数十万个以10G连接的服务器，能扩展到多个拍比特级对分带宽，并覆盖数据中心以便机架到机架具有改进的拥堵，非超额认购的性能。

根据本发明的一个实施例，如图9d所示，可以使用高基数(例如240×10G)单芯片交换设备来实现骨干交换机。单芯片的採用比基于机架的多单元(机架单元)交换设备和可堆叠交换设备的实施节省了额外的收发器，光纤缆线线，机架空间，延迟和功耗的成本。骨干交换机採用单芯片的缺点是其网络可扩展性，限制目前系统最多能达到240个ICAS小群。正如前面提到的，半导体的使用限制了高基交换集成电路的规模。

为了解决芯片端口数量上的限制，可以将基于ICAS模块的多个1U至多U互连设备和基于交换机元件的多个1U交换设备堆叠在一个或多个机架中并互连用以形成更高基数(即高网络端口数量)的可堆叠骨干交换设备。其中每个所述ICAS模块连接所述多个交换机元件，用于互连不同所述交换机元件的至少部分端口群的至少部分数据界面，以形成全网状非阻塞互连。所述用于互连不同所述交换机元件的至少部分端口群的其余数据界面被配置为上行链路。当1U至多U互连设备的ICAS模块的实现方式是基于光学的(基于光纤的和基于3D MEMS的)，MPO-MPO光纤缆线可以用來连接ICAS 互连设备和交换设备。当1U至多U互连设备的ICAS模块的实现方式是基于电路的 (基于PCB+芯片的)，DAC电缆或AOC有源光缆可以用來连接ICAS互连设备和交换设备。

图9e中显示了基于ICAS架构的可堆叠交换设备950的细节。图9e显示了ICAS 模块95-0到95-3以全网状拓扑结构连接四个Trident-II ASIC交换机96-0到96-3, 说明这些交换机是如何用来构建一个可堆叠的骨干交换机。如图9e所示交换机96-0 至96-3每个配置1:1订阅率在10G模式下具有24个QSFP的交换带宽以及在一个1U 机箱中集成四个ICAS模块95-0至95-3的ICAS设备953，每个ICAS模块包含三个 ICAS1X5子模块和每个子模块提供4个10G上行链路951。四个交换机96-0到96-3提供1.92Tbps带宽的端口952以连接到服务器。基于ICAS的可堆叠交换设备950提供 480Gbps(4×3×40Gbps)的总上行链路带宽以连接到一个或多个外部网络，形成总共有1.92Tbps交换带宽和1:1订阅率的全网状非阻塞互连。

基于ICAS架构的可堆叠交换设备具有改善网络拥堵的优点，比当前技术水平的数据中心所实施的交换设备节省成本，功耗和节省空间。如表5的“ICAS+可堆叠机箱”一栏所示，采用ICAS架构和基于ICAS架构的可堆叠交换设备的数据中心性能显着提高，总交换机ASIC数量节省53.5％，总功耗节省26.0％，总空间节省25.6％，并大大改善了网络拥堵性能。但总QSFP收发器的使用增加了2.3％。

上述可堆叠交换设备仅用于说明性目的。本领域的一个普通技术人员即可以拓展可堆叠交换设备的可扩展性。本发明不受图示的限制。

可堆叠交换设备解决了交换芯片网络端口数量不足的问题并使灵活的网络部置成为可能。但使用了相当数量的连接缆线和转换模块互连ICAS互连设备和交换设备而成。为了进一步減少使用缆线和转换模块，ICAS模块和交换芯片可以经由PCB板和连接器的电路方式互连，多单元交换设备便是基于这种架构的交换设备。基于ICAS的多单元交换设备其中的ICAS模块是用电路來实现的，ICAS模块的端口群是採用支持高速差分信号和有阻抗匹配的连接器焊接或压接在PCB板上。而端口群內部之间的互连是使用PCB板上的铜线差分对來实现的。因为不同等级的高速差分连接器和不同等级的PCB板上的铜线差分对的信号损耗差异很大，在连接器后端可以放置有源芯片用來恢复与强化信号以增加信号在PCB板上的传输距离。基于ICAS的多单元交换设备其中的ICAS模块实现在称为网构卡的PCB板上。或者是实现在称为背板的PCB板上。其中 PCB板上的铜线差分对互连PCB板上的高速差分连接器以形成ICAS架构下的全网状互连。而交换芯片和相关电路则是焊接在叫做线卡的PCB板上，线卡上帶高速差分连接器与网构卡上的高速差分适配器对接。一个基于ICAS的多元交换设备的多U机箱包含帶有多个ICAS网构卡、多个线卡和一至兩个基于MCU或CPU的控制卡、一至多个电源模块和散热风扇模组。“机架单位”(“RU”或简称“U”)是衡量数据中心机箱的高度并等于1.75英寸高。一个完整的机架有48U(48机架单位)的高度。

本发明的一个实施例还提供了一种基于机箱的多单元(机架单元)交换设备。多单元机箱交换设备将多个交换集成电路分组在多个线卡上。基于机箱的多单元交换设备通过基于PCB的网构卡或背板与线卡，控制卡，CPU卡互连，相应的节省了互连所需的收发器，光纤缆线和机架空间的成本。

图9f展示了基于ICAS架构的多单元机箱交换设备970的细节。图9f展示了四个基于ICAS架构的网构卡97-0至97-3每个以全网状拓扑结构互连到交换芯片98-0至 98-3。在图9f中，交换芯片98-0和98-1被放置在线卡973中，交换芯片98-2和 98-3被放置在线卡974中。线路卡973和974通过高速印刷电路板`(PCB)连接器连接到网构卡97-0至97-3。如图9f所示，四个基于Trident-II ASIC的交换机98-0 至98-3可用于构建多单元机箱交换机，每个交换机配置1:1订阅率在10G模式下具有 24个QSFP的交换带宽,和四个基于ICAS的网构卡97-0至97-3每个包含三份ICAS1X5 子模块，每个子模块提供4个10G上行链路971。两个线路卡提供总共1.92Tbps带宽的端口972以连接服务器。基于ICAS的多单元机箱交换设备970提供总带宽为 480Gbps(4×3×40Gbps)的上行链路带宽，以连接至一个或多个外部网络，形成总共有1.92Tbps交换带宽和1:1订阅率的全网状非阻塞互连。

带有采用基于ICAS全网状拓扑结构网构卡的多单元机箱式交换设备具有改善网络拥堵的好处，比采用胖树拓扑结构的基于ASIC的网构卡节省成本和功耗。如表 5“ICAS+多单元机箱”栏目所示，一个采用ICAS架构和基于ICAS架构的多单元机箱交换设备的数据中心性能表现卓越并且总QSFP收发器节省12.6％，总交换芯片节省 53.5％，总功耗节省32.7％，总空间节约29.95％，网络拥堵性能大幅提升。

上述多单元机箱交换设备仅用于说明目的。本领域的普通技术人员即可以拓展多单元机箱交换设备的可扩展性。本发明不受图示的限制。

基于多单元机箱的交换设备由于其系统复杂性并且整体上受到多单元机箱外形因素的限制具有更长的开发时间和更高的制造成本的缺点。然而多单元机箱式交换设备比单芯片交换设备提供了更大数量的端口。尽管可堆叠交换设备比基于多单元机箱的做法需要更多的收发器和光纤缆线，可堆叠交换设备的做法具有在内部网络互连中具有更高可管理性的优点，几乎无穷的可扩展性，并且需要更少的时间组装更大的交换设备。

所需材料以实现(i)图2a里使用当前技术水平的多单元交换设备(“胖树+多单元机箱”)的数据中心网络，(ii)图9a里使用基于ICAS的多单元交换设备“ICAS+ 多单元机箱”的数据中心网络900，(iii)图9a里使用基于ICAS的f“ICAS+可堆叠机箱”的数据中心网络900在表5中进行了总结和比较，

表5

如表5所示，基于ICAS的系统需要更少的功耗，ASIC和空间，从而降低材料成本和能源消耗。

提供以上详细描述是为了说明本发明的具体实施例，并非意在限制。在本发明的范围内的许多修改和变化是可能的。本发明在所附权利要求中进行了阐述。

Claims

1.一种互连交换模块（“ICAS模块”），其特征在于，包括

n个端口群，每个所述端口群包括n-1个内部界面和n-1个外部界面；和

互连网络，实现全网状拓扑结构，用于将每个所述端口群的每个所述内部界面各自互连到每个其他所述端口群的相应的一个所述内部界面；其中，

所述n个端口群里的n-1个内部界面被冠上所连接端口群的索引;所述索引为i的端口群的所述索引为j的内部界面连接所述索引为j的端口群的所述索引为i的内部界面，所述互连网络包括所有所述端口群之间的连接，并且该索引方式允许外部第一层交换机与所述端口群连接并为数据包指定路径，所述索引为i的端口群相连接的第一层交换机i与所述索引为j的端口群相连接的第一层交换机j之间的单链路数据通过所述索引为i的端口群的所述索引为j的内部界面与所述索引为j的端口群的所述索引为i的内部界面直接传输；

所述索引为i的端口群相连接的第一层交换机i与所述索引为j的端口群相连接的第一层交换机j之间的多链路数据通过除发送方的端口群索引之外的至少一个其他所述端口群连接的第一层交换机中转传输，抵达终点第一层交换机的所述多链路数据不再被继续路由传输。

2.如权利要求1所述的互连交换模块，其特征在于，所述端口群被配置成连接到外部网络的一组上行链路。

3.如权利要求1所述的互连交换模块，其特征在于，不同的所述端口群的所述界面之间通过光介质或电路连接。

4.如权利要求1所述的互连交换模块，其特征在于，所述端口群为光学或电路的，所述界面为光学或电路的。

5.一种可堆叠交换设备，其特征在于，包括：一个或多个如权利要求1所述的互连交换模块、多个所述第一层交换机以及多个1U到多U的机架式机箱，每个所述互连交换模块的部分端口群用于连接不同所述第一层交换机的部分端口群的部分界面，以形成所述全网状互连，从所述互连交换模块的端口群剩余的部分界面被配置作为外部网络上行链路的界面，所述互连交换模块和所述第一层交换机封装在所述机架式机箱中。

6.如权利要求5所述的可堆叠交换设备,其特征在于，每个所述互连交换模块的端口群的所述界面之间使用光学介质或电路连接。

7.如权利要求5所述的可堆叠交换设备，其特征在于，所述互连交换模块的端口群的每个界面与每个所述第一层交换机的端口群的每个界面连接。

8.一种多单元交换设备，其特征在于，包括：一个或多个如权利要求1所述的互连交换模块、多个所述第一层交换机以及多单元机架式机箱，所述互连交换模块采用电路方式实现在一个或多个PCB板上，每个所述互连交换模块的部分端口群用于连接不同所述第一层交换机的部分端口群的部分界面，以形成所述全网状互连，从所述互连交换模块的端口群剩余的部分界面被配置作为外部网络上行链路的界面，所述互连交换模块和所述第一层交换机封装在所述多单元机架式机箱中。

9.如权利要求8所述的多单元交换设备，其特征在于，每个所述互连交换模块的端口群的所述界面之间使用电路连接。

10.如权利要求8所述的多单元交换设备，其特征在于，每个所述互连交换模块的端口群与每个所述第一层交换机的端口群之间通过电路连接，并且所述互连交换模块封装成为网构卡（FabricCard）或背板(Backplane)。

11.一种网络小群，其特征在于，所述网络小群包括：

多个第一层交换设备，其界面分为下行链路界面，互行链路界面和内行链路界面，其中，下行链路界面被配置为从多个服务器接收数据信号并向多个服务器发送数据信号，其中，互行链路界面用于连接更高层交换设备，其中所述第一层交换设备的每个内行链路界面被配置并分组为一个至多个端口群;

具有根据权利要求1所述的互连交换模块的一个至多个第二层设备，其界面分为内行链路界面和上行链路界面，每个互连交换模块的内行链路界面被分到各端口群以连接所述第一层交换设备的相应的端口群，并且所述上行链路界面被配置为连接到外部网络；

所述网络小群与一个有(n-1,n)二分图结构的网络具备相同的全网络连接特性，其中所述具有（n-1，n）二分图结构的网络包括n个所述第一层交换设备和n-1个第二层网构交换设备，以及，

其中所述第一层交换设备和所述第二层网构交换设备以胖树拓扑结构互连，其中每个所述第一层交换设备的第k个内行链路界面分别连接所述第二层网构交换设备的第k个网构交换设备的一个内行链路界面，每个所述第二层网构交换设备的第p个内行链路界面分别连接所述第一层交换设备的第p个交换设备的一个内行链路界面。

12.如权利要求11所述的网络小群，其特征在于，所述的内行链路是基于光介质或电路的。

13.如权利要求11所述的网络小群，其特征在于，所述的互行链路是基于光纤的。

14.一种数据中心网络，其特征在于，包括多个根据权利要求11所述的网络小群，还包括多个骨干平面;其中多个所述骨干平面包括第二层骨干交换机;

其中所述骨干平面和所述网络小群通过互行链路互连;其中，每个所述网络小群的第k个互行链路分别连接第k个骨干平面的一个互行链路，并且每个所述骨干平面的第p个互行链路分别连接第p个网络小群的一个互行链路;多个下行链路用于向多个服务器接收数据信号并从所述多个服务器发送数据信号;

其中，多个上行链路包括以下中的至少一个：

骨干平面提供的多个上行链路的界面;

网络小群提供的多个上行链路的界面。