CN116506348A - 通信网络系统、报文转发方法及报文转发装置 - Google Patents

通信网络系统、报文转发方法及报文转发装置 Download PDF

Info

Publication number
CN116506348A
CN116506348A CN202210074370.4A CN202210074370A CN116506348A CN 116506348 A CN116506348 A CN 116506348A CN 202210074370 A CN202210074370 A CN 202210074370A CN 116506348 A CN116506348 A CN 116506348A
Authority
CN
China
Prior art keywords
basic interconnection
message
layer
basic
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210074370.4A
Other languages
English (en)
Inventor
陈仙萍
杨华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210074370.4A priority Critical patent/CN116506348A/zh
Publication of CN116506348A publication Critical patent/CN116506348A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/24Multipath

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供了一种通信网络系统、报文转发方法及报文转发装置。在实施例中,通信网络系统包括:M个基本互连单元,M个基本互连单元中的第i个基本互连单元包括多个交换设备,多个交换设备形成至少一个连接节点和至少两个多层网络,其中,多层网络的层数大于等于2,M为大于等于2的正整数,i为大于等于1,小于等于M的正整数;其中,至少一个连接节点分别连接至少两个多层网络和M个基本互连单元中其他基本互连单元的连接节点。本申请实施例提供的方案可减少两个基本互连单元之间的等价路径的数量和非等价路径的数量,降低两个基本互连单元之间的非等价路径之间的跳数的差异,从而降低通信网络的乱序和丢包的可能性,确保通信性能。

Description

通信网络系统、报文转发方法及报文转发装置
技术领域
本申请涉及通信技术领域,尤其涉及一种通信网络系统、报文转发方法及报文转发装置。
背景技术
目前,通过通信网络系统实现多个服务器之间的交互,通信网络系统包括多个group,多 个group之间进行全连接。其中,两级Fat-Tree网络构成一个group,group包括spine和 leaf两级交换机,相当于汇聚层和接入层交换机,接入层交换机连接计算机,计算机为主机 或服务器。示例地,如图1所示,通信网络系统包括4个group,即group1至group4,group1 至group4各自的第2层之间进行全连接。
但是,上述一个gruop的规模小。比如,通信网络系统内全部使用64端口交换机,上行 端口的数量等于下行端口的数量,一个group内的接入层有32个交换机,每个交换机连接 32个计算机,因此,一个group可以连接1024个计算机,即1K的组网规模。在需要搭建较大的组网规模以满足多种业务需求的时候,需要大量的group,使得多个group的汇聚层的交互设备之间存在大量直连的物理链路,一方面,会增加通信网络的非等价路径和等价路径 的数量,以及,非等价路径的之间的跳数差异,进而增加网络乱序的可能性;另一方面,会 降低两个group之间的带宽收敛比,降低组网的通信性能。比如,对于128K的组网规模,组 网内全部使用64端口交换机,一个group的组网规模为1K,需要128个group,对应的, 两个group之间的宽带收敛比为1/127。
发明内容
本申请实施例提供了一种通信网络系统、报文转发方法及报文转发装置,该系统在相同 数量的计算机下,由于基本互连单元的数量较少,一方面可以减少两个基本互连单元之间的 等价路径的数量和非等价路径的数量,降低两个基本互连单元之间的非等价路径之间的跳数 的差异,同时增加两个基本互连单元之间的带宽收敛比,从而降低通信网络的乱序和丢包的 可能性,进而确保通信网络系统的通信性能。
第一方面,本申请实施例提供了一种通信网络系统,包括:M个基本互连单元,M个基本 互连单元中的第i个基本互连单元包括多个交换设备,多个交换设备形成至少一个连接节点 和至少两个多层网络,其中,多层网络的层数大于等于2,M为大于等于2的正整数,i为大 于等于1,小于等于M的正整数;其中,至少一个连接节点分别连接至少两个多层网络和M 个基本互连单元中其他基本互连单元的连接节点。
本方案中,在相同数量的计算机下,由于基本互连单元的数量较少,一方面可以减少两 个基本互连单元之间的等价路径的数量和非等价路径的数量,降低两个基本互连单元之间的 非等价路径之间的跳数的差异,同时,提高两个基本互连单元之间的带宽收敛比,从而降低 通信网络的乱序和丢包的可能性,进而确保通信网络系统的通信性能。
在一种可能的实现方式中,多层网络的层数等于2,多层网络的顶层和底层的各交换设 备互连。
本实现方式中,可以选择两层全互连的多层网络,搭建的组网规模较小的基本互连单元。
在一种可能的实现方式中,多层网络的层数大于等于3,多层网络的拓扑结构为树形结 构。
本实现方式中,可以选择树形拓扑的网络搭建多层网络,搭建的组网规模较大的基本互 连单元。
在一种可能的实现方式中,M个基本互连单元中的部分单元的多层网络的层数不同。
本实现方式中,通过多层网络的层数不同,搭建不同组网规模的基本互连单元,从而搭 建不同组网规模的通信网络系统,满足不同的业务需求。
在一种可能的实现方式中,M个基本互连单元中的部分单元的多层网络的数量不同。
本实现方式中,通过多层网路的数量不同,搭建不同组网规模的基本互连单元,从而搭 建不同组网规模的通信网络系统,满足不同的业务需求。
第二方面,本申请实施例提供了一种报文转发方法,应用于M个基本互连单元中第i个 基本互连单元的连接节点内的交换设备,第i个基本互连单元包括多个交换设备,多个交换 设备形成的至少一个连接节点和至少两个多层网络,多层网络用于接收并转发连接的计算机 发送的报文,至少一个连接节点分别连接至少两个多层网络和M个基本互连单元中其他基本 互连单元各自的连接节点,M为大于等于2的正整数,i为大于等于1,小于等于M的正整数, 方法包括:接收第i个基本互连单元中的多个多层网络中任一网络转发的报文;确定报文对 应的目的地址;基于报文对应的目的地址,转发报文,以使报文传输至M个基本互连单元中 目的地址所属的基本互连单元。
本方案中,两个基本互连单元之间的等价路径的数量和非等价路径的数量较少,非等价 路径之间的跳数的差异较小,从而降低报文封装成的多个数据帧在转发过程中丢失和乱序的 可能性。
在一种可能的实现方式中,基于报文对应的目的地址,转发报文,包括:确定M个基本 互连单元中目的地址所属的基本互连单元;通过目标端口转发报文,目标端口连接目的地址 所属的基本互连单元。
该实现方式中,将报文直接转发至目的地址所属的基本互连单元,从而降低报文传输的 时延,确保报文传输的可靠性。
在一种可能的实现方式中,基于报文对应的目的地址,将报文转发至M个基本互连单元 中目的地址所属的基本互连单元,包括:基于报文对应的目的地址和交换设备存储的M个基 本互连单元之间的连接关系,确定多个目标端口,多个目标端口各自对应一条路径,路径的 终点均指示了目的地址所属的基本互连单元;基于多个目标端口转发报文,以使报文按照多 个目标端口各自对应的路径传输至目的地址所属的基本互连单元。
该实现方式中,通过多条路径将报文转发至目的地址所属的基本互连单元,从而降低报 文传输的时延,确保报文传输的可靠性。
第三方面,本申请实施例提供了一种报文转发装置,其特征在于,装置运行计算机程序 指令,以执行第二方面中所提供的方法。示例性的,该装置可以为芯片,处理器或交换设备。
第四方面,本申请实施例提供了一种交换设备,包括:至少一个存储器,用于存储程序; 至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于 执行第二方面中所提供的方法。
在一个例子中,该装置可以包括处理器,该处理器可以与存储器耦合,读取存储器中的 指令并根据该指令执行第二方面中所提供的方法。其中,该存储器可以集成在芯片或处理器 中,也可以独立于芯片或处理器之外。
第五方面,本申请实施例提供了一种计算机存储介质,计算机存储介质中存储有指令, 当指令在计算机上运行时,使得计算机执行第二方面中所提供的方法。
第六方面,本申请实施例提供了一种包含指令的计算机程序产品,当指令在计算机上运 行时,使得计算机执行第二方面中所提供的方法。
附图说明
图1是本申请实施例提供的现有技术;
图2a是本申请实施例提供的通信网络系统的系统架构图一;
图2b是本申请实施例提供的通信网络系统的系统架构图二;
图2c是本申请实施例提供的通信网络系统的系统架构图三;
图2d是本申请实施例提供的通信网络系统的系统架构图四;
图2e是本申请实施例提供的通信网络系统的系统架构图五;
图2f是本申请实施例提供的通信网络系统的系统架构图六;
图3a是本申请实施例提供的32K组网规模的基本互连单元的架构图;
图3b是本申请实施例提供的1024K组网规模的基本互连单元的架构图;
图4是本申请实施例提供的交换设备的结构示意图;
图5是本申请实施例提供的计算机的结构示意图;
图6是本申请实施例提供的报文转发路径的示意图;
图7是本申请实施例提供的一种报文转发方法的流程示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实 施例中的技术方案进行描述。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、 例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施 例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示 例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示 可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个 系统是指两个或两个以上的系统,多个终端是指两个或两个以上的终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐 含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味 着“包括但不限于”,除非是以其他方式另外特别强调。
请参阅图1,通信网络系统包括多个group,多个group的第2层的交换设备之间进行全 连接。图1示出了group1至group4各自的第2层之间进行全连接。应当理解,为保证附图 的简洁性,图1中仅示出4个group,但是,实际应用中通信网络系统中可以包括更多的group。
下文以64端口的交换设备搭建未收敛的128K组网规模的通信网络系统为例说明现有技 术的缺点,具体体现在:
1.一个group的组网规模较小。一个group内的第1层的交换设备最多可以有32个交换 机,每个交换设备连接32个计算机,因此,一个group最多可以连接1024个计算机,即1K 的组网规模。
2.一个group中的第2层的交换设备的带宽收敛比较小。对于128K的组网规模,一个 group最大可以达到1K的组网规模,因此需要128个group,对应的,两个group之间的宽带收敛比为1/127;因此,当业务需要跨group部署时,group之间的带宽瓶颈对于性能的影响很大。
3.通信网络系统的两个group之间的等价路径(从源计算机到目的计算机经过的交换机 的数量相同)和非等价路径较多,网络乱序和丢包的可能性较大,严重影响通信性能。比如, 任意两个group进行通信时,存在1跳至126跳的等价路径,其中,1跳的等价路径可以有 126条路径,非等价路径的数量为1跳至126跳的等价路径的数量之和。
4. 128个group之间的全连接复杂,给工程部署带来很大的挑战。
综上,现有技术中由于group的组网规模较小,因此,在需要搭建较大的组网规模时, 需要大量的group,使得group的第2层的交互设备之间存在大量直连的物理链路。一方面, 会增加两个group之间的等价路径的数量、非等价路径的数量、非等价路径之间的跳数的差 异,同时降低两个group之间的带宽收敛比,从而增加通信网络的乱序和丢包的可能性,进 而降低通信网络系统的通信性能。
为解决上述问题,本申请实施例提供了一种通信网络系统。图2a至图2f是本申请实施 例提供的一种通信网络系统的系统架构图。如图2a至图2f,该系统包括:M个基本互连单元, 对于M个基本互连单元的各单元,基本互连单元包括多个交换设备,多个交换设备形成若干 个连接节点和多个多层网络,连接节点连接M个基本互连单元中其他基本互连单元的连接节 点,使得M个基本互连单元中的任意两个基本互连单元之间通信。其中,图2a至图2f示意 示出了3个基本互连单元B1、B2和B3,分别包括个多层网络C1和C2,一个连接节点T1。
为了更为清晰的描述本申请实施例提供的通信网络系统的有益效果,下文以64端口的交 换设备搭建未收敛的128K组网规模的通信网络系统为例进行说明,具体体现在:
1、一个基本互连单元的组网规模最大可以达到32K,上文示出的一个group的组网规模 最大为1K。另外,考虑到AI业务需要至少4K的组网规模,因此,本申请实施例可以满足AI 业务的需求。示例地,如图3a所示,多层网络的第1层的每个交换设备的32个端口分别连接一个计算机,另外32个端口连接第2层的32个交换设备,多层网络最大的组网规模为1K。基本互连单元的组网规模至少可达32K。
因此,本申请实施例提供的基本互连单元可以搭建较大的组网规模,一方面满足不同的 业务需求,另一方面可以减少基本互连单元的数量。
2、4个基本互连单元即可搭建128K的组网规模。2个基本互连单元的连接节点的带宽收 敛比可以达到1/3。上文示出的2个group的第2层的交换设备的带宽收敛比仅仅为1/127。
因此,本申请实施例提供的基本互连单元的带宽收敛比较大,可确保通信性能。
3、对于4个基本互连单元,任意两个基本互连单元之间的通信,存在1跳至2跳的等价 路径,其中,1跳至2跳的等价路径分别可以有2条,非等价路径的数量为4。上文示出的任意多个group存在1跳至126跳的等价路径,其中,1跳的等价路径可以有126条,非等价 路径的数量为1跳至126跳的等价路径的数量之和。
因此,本申请实施例提供的两个基本互连单元之间的等价路径的数量和非等价路径的数 量较少,同时,非等价路径的跳数的差别均较小,从而降低网络乱序以及丢包的可能性,进 而确保通信网络的通信性能。
4、由于一个基本互连单元的组网规模较大,因此,基本互连单元之间的通信的流量相对 group之间的通信的流量大大降低。
因此,本申请实施例提供的两个基本互连单元之间通信的流量相对较小,从而可以在一 定程度上降低网络乱序以及丢包的可能性,进而确保通信网络的通信性能。
由此可知,本实施例中,该系统通过多个多层网络可以灵活的扩展基本互连单元的组网 规模,因此可通过较少的基本互连单元实现较大的组网规模,在进行跨单元通信时,一方面 可以减少两个基本互连单元之间的等价路径的数量和非等价路径的数量,降低两个基本互连 单元之间的非等价路径之间的跳数的差异,提高两个基本互连单元之间的带宽收敛比,减少 两个基本互连单元之间通信的流量,从而降低通信网络的乱序和丢包的可能性,进而确保通 信网络系统的通信性能。
值得注意的是,本申请实施例在设计通信网络时,可以使得基本互连单元内的计算机之 间的通信的优先级较高,与其他的基本互连单元的计算机之间的通信的优先级较低,从而使 得基本互连单元的组网规模越大,基本互连单元内部消耗的流量越多,不同基本互连单元之 间的通信的流量越少,从而确保不同基本互连单元之间的通信的性能,降低网络拥塞的可能 性以及数据传输的时延。
应当理解,考虑到交互设备的端口是有限的,通过增加连接节点所包括的交换设备的数 量,连接节点的数量,或者,多层网络的数量,从而在交换设备的端口的数量有限的前提下, 灵活的扩展基本互连单元的组网规模。在实际应用中,可以将一个交换设备作为一个连接节 点,也可以将多个交换设备作为一个连接节点,本实施例对此不做具体限定,具体需要结合 实际需求确定连接节点的数量,以及连接节点包括的交换设备的数量。另外,也可以通过扩 展连接节点的交换设备的端口的数量,在一定程度上扩展基本互连单元的组网规模。
应当理解,M个基本互连单元的连接节点之间的连接方式为直连,换言之,任意两个连 接节点之间的物理链路上不存在交换设备,从而确保通信性能。
作为一种可行的实现方式,M个基本互连单元连接多个计算机,多个计算机形成高性能 计算(High Performance Comput ing)集群。
在一个例子中,高性能计算集群可以解决大规模计算问题,如科学研究、气象预报、计 算模拟、生物制药、基因测序、图像处理、语音处理、人工智能模型的训练等。需要说明的 是,上述大规模计算问题仅仅作为示例并不构成具体限定,具体可以基于实际需求确定高性 能计算集群需要实现的业务。值得注意的是,由于基本互连单元可以通过多层网络的数量扩 展组网规模,因此,可以满足多种业务的需求,比如,AI业务。其中,AI业务可以连接为 基于人工智能技术实现的产品及功能,比如,语音助手、聊天机器人、客户机器人等产品, 字幕生成、语音输入、口语评测、目标检测等功能。
在一个例子中,计算机可以为服务器。
作为一种可行的实现方式,如图2a至图2f,图3a和图3b所示,M个基本互连单元中的 多个多层网络和若干个连接节点形成的网络的拓扑结构为大于等于3层的树形结构。
在一个例子中,树形结构可以为胖树。
示例地,如图2a至图2f所示,基本互连单元B1的拓扑结构为3层的胖树,其中,第1层可以理解为接入层,第2层可以理解为汇聚层,第3层可以理解为核心层。
示例地,如图2f所示,基本互连单元B2的拓扑结构为4层的胖树,对应的,多层网络1 和多层网络2各自包括P1和P2,其中,P1和P2可以理解为pod,pod包括交换设备数量相同的第1层和第2层,且第2层中的各交换设备连接第1层的各交换设备。
作为一种可行的实现方式,M个基本互连单元中任意两个基本互连单元的连接节点之间 存在一条或多条物理链路。
在连接节点的交换设备的端口的数量较多的情况下,基本互连单位的连接节点内的每个 交换机可以分别与M个基本互连单元中其他基本互连单元的连接节点进行全互连,连接的交 换机之间可以使用一条物理链路或者多条物理链路连接。值得注意的是,当连接的交换机之 间使用多条物理链路连接时,可以扩展带宽,进而确保通信性能。
示例地,如图2a所示,3个基本互连单元B1、B2和B3各自的第3层中编号相同的3个交换设备互连,且任意两个交换设备之间存在1条物理链路,对应的,B1、B2和B3中任意 两个连接节点T1之间存在2条物理链路。实际实施时,B1的连接节点T1内的各交换设备通 过2个端口中的一个端口连接B2的连接节点T1的交换设备的1个端口,另一个端口连接B3 的连接节点T1的交换设备的1个端口,这样,B1的连接节点T1通过4个端口连接B2和B3。
示例地,如图2c所示,3个基本互连单元B1、B2和B3各自的第3层中编号相同的3个交换设备互连,且任意两个交换设备之间存在2条物理链路,对应的,B1、B2和B3中任意 两个连接节点T1之间存在4条物理链路。实际实施时,B1的连接节点T1内的各交换设备通 过4个端口中的2个端口连接B2的连接节点T1的交换设备的2个端口,另2个端口连接B3 的连接节点T1的交换设备的2个端口,这样,B1的连接节点T1通过4个端口连接B2和B3。
另外,在连接节点的交换设备的端口的数量较少的情况下,基本互连单位的连接节点内 的交换设备的端口与M个基本互连单元中其他基本互连单元内的连接节点内的交换设备的端 口互连。
在连接节点的交换设备的端口的数量较少的情况下,基本互连单位的连接节点分别与M 个基本互连单元中其他基本互连单元内的连接节点全互连,不再要求基本互连单位的连接节 点内的每个交换机分别与M个基本互连单元中其他基本互连单元内的连接节点全互连。
示例地,如图2b所示,3个基本互连单元B1、B2和B3各自的第3层中编号为1的交换设备互连,从而实现3个基本互连单元B1、B2和B3的互连。实际实施时,B1的连接节点T1 内的一个交换设备通过2个端口中的一个端口连接B2的连接节点的交换设备的1个端口,另一个端口连接B3的连接节点的交换设备的1个端口,这样,连接节点T1通过2个端口连接 B2和B3。
作为一种可行的实现方式,M个基本互连单元中部分单元的连接的计算机的数量不同, 从而可灵活设计组网规模。
在一个例子中,基本互连单元中的部分多层网络可以不连接计算机,连接计算机的多层 网络各自连接的计算机的数量相同。
示例地,如图2d所示,基本互连单元B1、B2中的多层网络C1和C2各自连接的计算机的数量为4,基本互连单元B3中的多层网络C1连接的计算机的数量为4,C2未连接计算机。
在一个例子中,基本互连单元中的部分多层网络连接的计算机的数量不同。
示例地,如图2e所示,基本互连单元B1和B2中的多层网络C1和C2各自连接的计算机 的数量为4,基本互连单元B3中的多层网络C1和C2各自连接的计算机的数量为9。
在一个例子中,M个基本互连单元中部分单元的多层网络的层数不同,从而可灵活设计 基本互连单元的结构,满足多种组网规模的需求。
如图2f所示,基本互连单元B1的多层网络的层数为2,基本互连单元B2的多层网络的 层数为3。
在一个例子中,M个基本互连单元中部分单元的多层网络的数量不同,从而可灵活设计 基本互连单元的结构,满足不同的组网规模的需求。
如图2f所示,基本互连单元B1的多层网络的数量为2,基本互连单元B2的多层网络的 数量为3。
需要说明的是,层数不同的多层网络连接的计算机的数量不同。
如图2f所示,基本互连单元B1中的多层网络C1和C2各自连接的计算机的数量为4,基本互连单元B2多层网络C1和C2各自连接的计算机的数量为8。
作为一种可行的实现方式,多层网络的层数为2,多层网络的顶层和底层的交换设备之 间互连。
如图2a至2e所示,多层网络C1的顶层的多个交换设备作为一个节点,该节点连接第1 层的各交换设备。
在一个例子中,对于2层的多层网络的组网规模,若多层网络中交换设备的端口的数量 相同均为N,且带宽未收敛,则多层网络的2层各自的交互设备的数量为N/2;因此,多层网 络的组网规模为(N/2)2。若连接节点的交换设备的端口的数量和多层网络的端口的数量相同, 则基本互连单元的组网规模至少可以达到(N/2)3
示例地,如图3a所示,N为64,多层网络的第1层的每个交换设备的32个端口分别连接一个计算机,另外32个端口连接第2层的32个交换设备,多层网络最大的组网规模为1K。基本互连单元的组网规模至少可达32K。
作为一种可行的实现方式,多层网络的层数大于等于3,多层网络的拓扑结构为树形结 构。
多层网络的顶层的多个交换设备作为一个节点,底层的各交换设备分别作为一个节点, 顶层和底层之间的各层的多个交换设备形成多个节点,对于任意相邻的两层,上层的节点的 数量小于下层的节点的数量,从而使得相邻的两层的节点连接后形成树形拓扑的网络。
在一个例子中,多层网络可以为3层的胖树网络。对于3层的多层网络的组网规模,若 多层网络中交换设备的端口的数量相同均为N,且带宽未收敛,则多层网络的3层的第1层 和第2层各自的交互设备的数量为(N/2)2,第3层的交换设备的数量为(N/2)2;因此,多层网 络的组网规模为(N/2)3
示例地,如图3b所示,若N为64,多层网络的第1层的每个交换机的32个端口分别连接一个计算机,另外32个端口连接第2层的32个交换设备,多层网络最大的组网规模为32K。若基本互连单元的多层网络的个数为64个,则组网规模最大可达2048K。另外,第3层的一个交换设备连接第4层的两个交换设备,在实际应用中,第3层的交换设备可以通过连接的第4层的一个交换设备之间的链路转发数据,连接的第4层的一个交换设备之间的链路备用, 确保网络性能;在一些可能的情况,第3层的交换设备可以通过连接的第4层的2个交换设 备之间的链路转发数据,增加带宽,确保通信性能。
作为一种可行的实现方式,多层网络中的交换设备可以使用大量低性能的交换设备搭建, 降低网络建设成本。
在实际应用中,多层网络中的交换设备可以来自相同的生产商,也可以来自不同的生产 商,从而降低交换设备的的生产商的要求。
需要说明的是,位于同一层的交换设备优选相同,从而便于规划网络拓扑,可以提高通 信网络的规划效率。
作为一种可行的实现方式,连接节点内的交换设备的端口的数量大于多层网络中的交换 设备的端口的数量,减少连接节点内的交换设备的数量,多层网络和连接节点之间的连线简 单,提高通信网络的搭建效率。
需要说明的是,位于交换节点的交换设备优选相同。
作为一种可行的实现方式,多层网络的层数大于等于2,可以将第1层和第2层交换设 备通过背板连接,从而节约电缆资源,同时便于维护。
在一个例子中,可以通过专利申请号为201010224840.8提供的机柜连接多层网络中第1 层和第2层的交换设备。
进一步的,还可以将计算机和多层网络中第1层和第2层的交换设备通过背板连接。
进一步的,相同多层网络中的第1层和第2层分布在一个机柜中,不同的多层网络中的 第1层和第2层分布在不同的机柜,从而提高通信网络系统的搭建效率。另外,基本互连单 元内不同的多层网络可以分布在不同的机房,也可以分布在相同的机房内,具体需要结合实 际需求确定基本互连单元内不同的多层网络的分布情况。
在一个例子中,若多层网络的层数大于等于3,第2层和第3层的交换设备之间可以通 过光缆连接,换言之,多层网络通过光缆连接连接节点内的交换设备。
作为一种可行的实现方式,不同的基本互连单元可以分布在不同的机房,也可以分布在 相同的机房内,具体需要结合实际需求确定不同的基本互连单元的分布情况。
进一步地,不同基本互连单元的连接节点内的交换设备之间可以通过光缆连接,由于基 本互连单元的数量较少,因此可以在一定程度上降低通信网络系统搭建的成本。
需要说明的是,上述通信网络系统的结构和组网规模仅仅作为示例,并不构成限定,具 体可以结合实际需求设计通信网络系统和组网规模。
作为一种可行的实现方式,本申请实施例提供的基本互连单元中的多层网络可以将数据 转发至连接节点内的一个或多个交换设备,由连接节点内的交换设备实现不同基本互连单元 之间的通信。比如,两个基本互连单元之间可以通过多条路径传输不同流量的数据帧;再比 如,使用多条路径对所有数据帧进行负载均衡的选路传输,比如,假定有10个数据帧,有两 个路径可选择,一边各走5个数据帧。
其中,数据帧可以理解为报文封装后得到的多个帧。报文可以理解为计算机一次性要发 送的数据块。报文包含了将要发送的完整的数据信息,其长短很不一致,长度不限且可变。 在实际应用中,计算机会将报文会封装成多个数据帧在交换设备之间传输。数据帧中的帧头 或帧尾可以包括目的地址的信息,比如,MAC地址。其中,MAC地址为以太网地址(Ethernet Address)或物理地址(Physical Address),用于在网络中唯一标示一个网卡,一台计算机 若有一或多个网卡,则每个网卡都需要并会有一个唯一的MAC地址。
以上即是对本方案中涉及的通信网络系统的介绍。接下来对上述通信网络系统中的交换 设备和计算机的结构进行介绍。
首先介绍交换设备,图4示出了的一种交换设备的结构示意图。如图4所示,该交换设 备包括:处理器401,存储器402及网络接口403。其中,处理器401,存储器402及网络接口403可通过总线或其他方式连接。本申请实施例中,处理器401是交换设备的计算核心及控制核心。例如,处理器401可以对交换设备接收到的数据进行处理并控制交换设备转发处理后的数据。存储器403(memory)用于存放程序和数据。例如,存放的数据可以为MAC地 址表等,其中,MAC地址了指示了M个基本互连单元之间的连接的情况,比如,MAC地址表包 括M个基本互连单元各自连接的计算机的地址,以及,该地址对应的交换设备的端口的标识。例如,存放的数据可以为全网拓扑表征信息,全网拓扑表征信息可以包括M个基本互连单元中每个基本互连单元的标识,M个基本互连单元中任意交换设备所属的基本互连单元、所在的层数、端口集合、端口连接方式等。存储器403可能包含易失性存储器5021,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器5022 (non-volatile memory),例如至少1个磁盘存储器等。网络接口403用于收发数据,例如, 接收交换设备的控制器发送的数据,以实现交换设备的配置等。
接着介绍计算机,图5示出了的一种计算机的结构示意图。如图5所示,该计算机包括: 处理器501,存储器502及网络接口503。其中,处理器501,存储器502及网络接口503可通过总线或其他方式连接。本申请实施例中,处理器501是交换设备的计算核心及控制核心。 例如,处理器501可以对接收到的数据进行处理,实现不同的业务需求。存储器503(memory) 用于存放程序和数据。例如存放业务数据、用户行为数据等。存储器503可能包含易失性存 储器5021,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失 性存储器5022(non-volatile memory),例如至少1个磁盘存储器等。网络接口503用于收 发数据,例如,将处理器501处理后的数据发送至交换设备,或者,接收交换设备发送的数 据等。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、 专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或 者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
以上即是对本方案中涉及的通信网络系统,以及该通信网络系统中各个组成部分的介绍。 接下来对上述对通信网络系统的描述,介绍本方案提供的一种报文转发方案。需要说明的是, 该路由方案主要是介绍通信网络系统中基本互连单元中的连接节点内的交换设备的转发流量 较小的报文的过程。详见下文描述。
步骤1.交换设备接收所属基本互连单元内的多个多层网络中任一网络转发的报文。
请参考图2a,假设基本互连单元B1的多层网络C1转发计算机1发送的报文至连接节点 T1中的交换设备1或交换设备2。
步骤2.确定报文的目的地址,目的地址指示了计算机的地址。
交换设备解析数据帧中的帧头和帧尾,确定目的地址。
步骤3.确定目的地址所属的基本互连单元。
作为一种可行的实现方式,数据帧的帧头或帧尾包括基本互连单元的标识,对应的,交 换设备解析数据帧中的帧头和帧尾,确定目的地址所属的基本互连单元的标识。
作为一种可行的实现方式,交换设备基于目的地址和存储的M个基本互连单元之间的连 接关系,确定目的地址所属的基本互连单元。比如,交换设备存储全网拓扑表征信息,通过 全网拓扑表征信息即可确定目的地址所属的基本互连单元。
步骤4.通过目标端口转发报文,以将报文直接转发至目的地址所属的基本互连单元的 连接节点内的交换设备。
请参考图2a,假设目的地址指示的计算机位于基本互连单元B2内,则基本互连单元B1 的连接节点T1中的交换设备1转发报文至基本互连单元B2的连接节点T1中的交换设备1。
如图6所示,若基本互连单元B1和B2之间的计算机需要通信,可以通过链路X传输报 文至基本互连单元B2。
作为一种可行的实现方式,交换设备确定转发报文的至少一个目标端口,基于至少一个 目标端口转发报文。其中,至少一个目标端口连接目的地址所属的基本互连单元的连接节点 内的交换设备。
在一个例子中,交换设备具体可通过如下实现方式确定至少一个目标端口:
实现方式1:当交换设备通过一个端口连接目的地址所属的基本互连单元时,将该端口 作为目标端口。
实现方式2:当交换设备通过多个端口连接目的地址所属的基本互连单元时,从多个端 口中确定目标端口。换言之,可通过多链路转发报文。
示例地,具体可通过如下两种实现确定多个目标端口:
确定多个端口各自的链路度量值,基于链路度量值确定转发报文代价最小的一个或多个 端口,将转发报文代价最小的一个或多个端口分别作为目标端口。
其中,链路度量值指示了端口的链路转发报文的代价,比如,链路度量值越小说明使用 该端口转发报文的代价越小,则目标端口为链路度量值最小的端口。在一个例子中,交换设 备掌握和直接连接的交换设备之间的链路情况,以及,直接连接的交换设备和其连接的其他 的交换设备之间的链路情况,示例地,端口的链路度量值可以基于直接连接的交换设备之间 的链路情况,以及,直接连接的交换设备和其连接的其他的交换设备之间的链路情况确定。 需要说明的是,上述确定链路度量值的参数仅仅作为示例并不构成限定,具体可结合实际需 求设计确定链路度量值的参数和方法。
需要说明的是,由于通信网络是动态变化的,不同时段的端口的链路度量值不同,因此, 转发报文的目标端口也是动态变化。
通过以上技术方案可知,本实施例存在的有益效果是:
选择直连的链路转发小流量的报文,降低传输时延,确保报文传输的可靠性。
以上即是对本方案中提供的基本互连单元中的连接节点内的交换设备的报文转发方案方 案的介绍。接下来基于上文所描述的部分或全部内容,介绍本方案中提供的另一种报文转发 方案。需要说明的是,该报文转发方案主要是介绍通信网络系统中基本互连单元中的连接节 点内的交换设备的转发流量较大的报文的过程。详见下文描述。
步骤1.交换设备接收所属基本互连单元内的多个多层网络中任一网络发送的报文。
步骤2.确定报文的目的地址,目的地址指示了计算机的地址。
步骤3.基于报文对应的目的地址和交换设备存储的M个基本互连单元之间的连接关系, 确定多个目标端口,多个目标端口各自对应一条路径,路径的终点均指示了目的地址所属的 基本互连单元。
值得注意的是,多个路径可以为非等价路径。
作为一种可行的实现方式,确定非等价的多个路径各自的路径度量值,基于路径度量值 确定转发报文代价最小的多个路径,基于转发报文代价最小的多个路径确定多个目标端口。
值得注意的是,交换设备掌握完整的网络拓扑和所有链路的链路情况,比如,交换设备 可以存储全网拓扑表征信息,以及,各交换设备的端口连接的链路的链路情况。示例地,路 径的路径度量值可以通过如下参数确定:跳数(报文帧或报文包括到达目的地址对应的计算 机必须通过的交换设备的个数)、线路时延(报文从源计算机传到目的地址对应的计算机的时 间长短)、线路可靠性(指路径的差错率)。拥塞程度等。需要说明的是,上述确定路径度量 值的参数仅仅作为示例并不构成限定,具体可结合实际需求设计确定路径度量值的参数和方 法。
另外,交换设备之间的信息共享,从而使得不同基本互连单元的连接节点的交换设备的 路径达成一致,进而实现多路径转发报文。
需要说明的是,由于通信网络是动态变化的,不同时段的路径的链路度量值不同,因此, 转发报文的路径也是动态变化。
步骤4.通过多个目标端口转发封装报文得到的多个数据帧。
值得注意的是,由于基本互连单元的数量较少,因此不同基本互连单元的连接节点之间 的非等价路径和等价路径的数量并不多,从而降低报文乱序的可能性以及丢包率。
如图6所示,若基本互连单元B1和B2之间的计算机需要通信,可以通过路径X和路径 X传输报文至基本互连单元B2。路径Y包括两条链路,B1和B3之间的链路和B3和B2之间的链路。路径X和路径Y是非等价路径。
通过以上技术方案可知,本实施例存在的有益效果是:
本方案考虑到跨基本互连单元之间的非等价路径较少,通过多路径转发的大流量的报文 可降低报文乱序的可能性以及丢包率。
接下来,基于上文所描述的报文转发方案,对本申请实施例提供的一种报文转发方法进 行介绍。可以理解的是,该方法是基于上文所描述的报文转发方案提出,该方法中的部分或 全部内容可以参见上文对报文转发方案的描述。
请参阅图7,图7是本申请实施例提供的一种报文转发方法的流程示意图。可以理解, 该方法可以应用于上述第i个基本互连单元中的连接节点中的交换设备来执行,i为大于等 于1小于等于M的正整数。如图7所示,该报文转发方法包括:
步骤S701、接收第i个基本互连单元中的多个多层网络中任一网络转发的报文。
步骤S702、确定报文对应的目的地址。
步骤S703、基于报文对应的目的地址,转发报文,以使报文传输至M个基本互连单元中 目的地址所属的基本互连单元。
作为一种可行的实现方式,确定M个基本互连单元中目的地址所属的基本互连单元;通 过目标端口转发报文,目标端口连接所述目的地址所属的基本互连单元。
通过将报文直接转发到目的地址所属的基本互连单元,从而降低报文传输的时延,确保 报文传输的可靠性。
作为一种可行的实现方式,基于报文对应的目的地址和交换设备存储的M个基本互连单 元之间的连接关系,确定多个目标端口,多个目标端口各自对应一条路径,路径的终点指示 了目的地址所属的基本互连单元;基于多个目标端口转发报文,以使报文按照多个目标端口 各自对应的路径传输至目的地址所属的基本互连单元。
通过多个路径同时转发报文封装的多个数据帧,由于路径之间的跳数差异小。从而降低 报文传输的时延,确保报文传输的可靠性。
值得注意的是,考虑到连接节点内的交换设备之间没有连接,在实际应用中,通过多层 网络将报文转发至连接节点内的多个交换设备。
通过以上技术方案可知,本实施例存在的有益效果是:
由于两个基本互连单元之间的等价路径的数量和非等价路径的数量较少,同时,非等价 路径之间的跳数的差异较小,可以降低通信网络的乱序和丢包的可能性,进而确保通信网络 系统的通信性能。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指 令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存 储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编 程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、 电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM 或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而 使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以 是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当 使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包 括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产 生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算 机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通 过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务 器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无 线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可 读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服 务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、 光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid statedisk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并 不用来限制本申请的实施例的范围。

Claims (9)

1.一种通信网络系统,其特征在于,包括:
M个基本互连单元,所述M个基本互连单元中的第i个基本互连单元包括多个交换设备,所述多个交换设备形成至少一个连接节点和至少两个多层网络,其中,所述多层网络的层数大于等于2,所述M为大于等于2的正整数,所述i为大于等于1,小于等于M的正整数;其中,
所述至少一个连接节点分别连接所述至少两个多层网络和所述M个基本互连单元中其他基本互连单元的连接节点。
2.根据权利要求1所述的通信网络系统,其特征在于,所述多层网络的层数等于2,所述多层网络的顶层和底层的各交换设备互连。
3.根据权利要求1所述的通信网络系统,其特征在于,所述多层网络的层数大于等于3,所述多层网络的拓扑结构为树形结构。
4.根据权利要求1所述的通信网络系统,其特征在于,所述M个基本互连单元中的部分单元的多层网络的层数和/或数量不同。
5.一种报文转发方法,其特征在于,应用于M个基本互连单元中第i个基本互连单元的连接节点内的交换设备,所述第i个基本互连单元包括多个交换设备,所述多个交换设备形成的至少一个连接节点和至少两个多层网络,所述多层网络用于接收并转发连接的计算机发送的报文,所述至少一个连接节点分别连接所述至少两个多层网络和所述M个基本互连单元中其他基本互连单元各自的连接节点,所述M为大于等于2的正整数,所述i为大于等于1,小于等于M的正整数,所述方法包括:
接收第i个基本互连单元中的多个多层网络中任一网络转发的报文;
确定所述报文对应的目的地址;
基于所述报文对应的目的地址,转发所述报文,以使所述报文传输至所述M个基本互连单元中所述目的地址所属的基本互连单元。
6.根据权利要求5所示的报文转发方法,其特征在于,所述基于所述报文对应的目的地址,转发报文,包括:
确定所述M个基本互连单元中所述目的地址所属的基本互连单元;
通过目标端口转发所述报文,所述目标端口连接所述目的地址所属的基本互连单元。
7.根据权利要求5所示的报文转发方法,其特征在于,所述基于所述报文对应的目的地址,转发报文,包括:
基于所述报文对应的目的地址和所述交换设备存储的所述M个基本互连单元之间的连接关系,确定多个目标端口,多个目标端口各自对应一条路径,所述路径的终点指示了所述目的地址所属的基本互连单元;
通过所述多个目标端口转发所述报文,以使所述报文按照所述多个目标端口各自对应的路径传输至所述目的地址所属的基本互连单元。
8.一种报文转发装置,其特征在于,所述装置包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求5-7任一所述的方法。
9.一种计算机存储介质,所述计算机存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求5-7任一所述的方法。
CN202210074370.4A 2022-01-21 2022-01-21 通信网络系统、报文转发方法及报文转发装置 Pending CN116506348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210074370.4A CN116506348A (zh) 2022-01-21 2022-01-21 通信网络系统、报文转发方法及报文转发装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210074370.4A CN116506348A (zh) 2022-01-21 2022-01-21 通信网络系统、报文转发方法及报文转发装置

Publications (1)

Publication Number Publication Date
CN116506348A true CN116506348A (zh) 2023-07-28

Family

ID=87317182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210074370.4A Pending CN116506348A (zh) 2022-01-21 2022-01-21 通信网络系统、报文转发方法及报文转发装置

Country Status (1)

Country Link
CN (1) CN116506348A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117061423A (zh) * 2023-10-09 2023-11-14 苏州元脑智能科技有限公司 一种胖树网络的多机路由方法、装置、系统及存储介质
CN117081975A (zh) * 2023-10-17 2023-11-17 苏州元脑智能科技有限公司 拓扑结构及构建方法、报文发送方法、装置、设备和介质
CN117135107A (zh) * 2023-10-25 2023-11-28 苏州元脑智能科技有限公司 一种网络通信拓扑系统、路由方法、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117061423A (zh) * 2023-10-09 2023-11-14 苏州元脑智能科技有限公司 一种胖树网络的多机路由方法、装置、系统及存储介质
CN117061423B (zh) * 2023-10-09 2024-01-23 苏州元脑智能科技有限公司 一种胖树网络的多机路由方法、装置、系统及存储介质
CN117081975A (zh) * 2023-10-17 2023-11-17 苏州元脑智能科技有限公司 拓扑结构及构建方法、报文发送方法、装置、设备和介质
CN117081975B (zh) * 2023-10-17 2024-02-09 苏州元脑智能科技有限公司 拓扑结构及构建方法、报文发送方法、装置、设备和介质
CN117135107A (zh) * 2023-10-25 2023-11-28 苏州元脑智能科技有限公司 一种网络通信拓扑系统、路由方法、设备及介质
CN117135107B (zh) * 2023-10-25 2024-02-13 苏州元脑智能科技有限公司 一种网络通信拓扑系统、路由方法、设备及介质

Similar Documents

Publication Publication Date Title
CN116506348A (zh) 通信网络系统、报文转发方法及报文转发装置
KR101809396B1 (ko) 분산된 직접 상호 접속 네트워크에서 패킷을 라우팅하는 방법
KR100466083B1 (ko) 인터페이스 디바이스를 포함하는 장치 및 데이터 플로우 핸들링 방법
CN102282810B (zh) 负载平衡
KR100506323B1 (ko) 네트워크 프로세서를 사용하는 네트워크 스위치 및 그의방법
US9825844B2 (en) Network topology of hierarchical ring with recursive shortcuts
KR100481258B1 (ko) 네트워크 프로세서 프로세싱 콤플렉스 및 방법
Legtchenko et al. {XFabric}: A Reconfigurable {In-Rack} Network for {Rack-Scale} Computers
KR20020024332A (ko) 네트워크 프로세서, 메모리 조직 및 방법
Wang et al. SprintNet: A high performance server-centric network architecture for data centers
US11005724B1 (en) Network topology having minimal number of long connections among groups of network elements
CN112152924A (zh) 一种在数据中心网络中转发报文的方法及相关装置
US9529775B2 (en) Network topology of hierarchical ring with gray code and binary code
CN108123878A (zh) 一种路由方法、装置及数据转发设备
Sancho et al. Effective strategy to compute forwarding tables for InfiniBand networks
CN114124787A (zh) 数据发送方法、装置、设备及混合网络
CN108768864B (zh) 一种易拓展高容错的数据中心网络拓扑系统
CN113923158A (zh) 一种报文转发、路由发送和接收方法及装置
CN113132501A (zh) 单个ip地址管理多个光传送网设备的系统、方法、设备及介质
Sharma et al. Performance analysis of torus optical interconnect with data center traffic
CN110213170A (zh) 一种报文传输的方法及装置
CN107113244B (zh) 一种数据转发的方法、装置和系统
US11765103B2 (en) Large-scale network with high port utilization
WO2024093778A1 (zh) 一种报文处理方法以及相关装置
CN113630346B (zh) 分布式网络系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication