CN113472646B - 一种数据传输方法、节点、网络管理器及系统 - Google Patents

一种数据传输方法、节点、网络管理器及系统 Download PDF

Info

Publication number
CN113472646B
CN113472646B CN202110604511.4A CN202110604511A CN113472646B CN 113472646 B CN113472646 B CN 113472646B CN 202110604511 A CN202110604511 A CN 202110604511A CN 113472646 B CN113472646 B CN 113472646B
Authority
CN
China
Prior art keywords
node
transmission path
data packet
intermediate node
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110604511.4A
Other languages
English (en)
Other versions
CN113472646A (zh
Inventor
周超
徐世萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110604511.4A priority Critical patent/CN113472646B/zh
Publication of CN113472646A publication Critical patent/CN113472646A/zh
Priority to PCT/CN2022/095142 priority patent/WO2022253087A1/zh
Application granted granted Critical
Publication of CN113472646B publication Critical patent/CN113472646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/22Alternate routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Abstract

一种数据传输方法、节点、网络管理器及系统,用以实现传输路径故障的快速修复。该方法包括:网络管理器根据来自源节点的包括目的节点的标识的传输路径请求,在源节点和目的节点之间确定主传输路径和备传输路径,并下发给源节点;源节点当主传输路径传输数据报文发生故障时,利用备传输路径传输数据报文。

Description

一种数据传输方法、节点、网络管理器及系统
技术领域
本申请涉及通信技术领域,尤其涉及一种数据传输方法、节点、网络管理器及系统。
背景技术
在企业数据中心或超级运算中心中,面向高性能计算(high performancecomputing,HPC)业务的计算集群采用的网络架构通常为无限带宽(infiniband,IB)网络或者基于融合以太网的远程直接内存访问(RDMA over converged ethernet,RoCE)网络,其中RoCE网络允许在传统以太网中使用远程直接内存访问(remote direct memory access,RDMA)技术,基于传统以太网的成熟生态实现,成本相比IB网络优势明显,且版本演进速度远高于其他类型的网络,将会成为HPC业务未来主流的网络选型。
目前,为了优化RoCE网络的转发性能,通常采用源路由转发机制替代传统的互联网协议(internet protocol,IP)路由转发机制。如图1所示,在进行数据报文传输前,网络控制器首先向源节点下发传输路径的源路由路径,源路由路径中包括源节点向目的节点传输数据报文的传输路径上各节点的出端口的标识,而网络中每个节点的出端口直连网络中的一个其它节点,通过在数据报文中携带所述源路由路径的信息,位于传输路径上的各节点即可转发数据报文,实现数据报文从源节点到目的节点的传输。然而,现有源路由机制,源节点和目的节点依靠周期性的心跳连接来检测源节点和目的节点之间是否存在链路故障,并在检测到故障后重新请求网路控制器配置源节点和目的节点之间的源路由,故障的修复时间较长,用户体验较差。
发明内容
本申请提供一种数据传输方法、节点、网络管理器及系统,用以实现传输路径故障的快速修复。
第一方面,本申请提供了一种数据传输系统,所述数据传输系统可以基于RoCE网络进行数据传输,包括网络管理器、源节点和目的节点;所述源节点,用于向网络管理器发送传输路径请求,所述传输路径请求包括所述目的节点的标识;所述网络管理器,用于根据所述传输路径请求,在所述源节点和所述目的节点之间确定主传输路径和备传输路径,在源节点向目的节点传输数据报文之前,向所述源节点发送包括所述主传输路径和所述备传输路径的传输路径响应;所述源节点,还用于记录包括所述主传输路径和所述备传输路径的传输路径响应,并当所述主传输路径传输所述数据报文发生故障时,利用所述备传输路径传输所述数据报文。
采用上述方法,网络管理器在接收到源节点的传输路径请求后,除了为源节点的数据报文传输确定主传输路径外,还为源节点的数据报文传输确定一条或多条备传输路径,并向源节点返回主传输路径和备传输路径,源节点在主传输路径发生故障时,即可利用备传输路径传输数据报文,无需再请求网络管理器重新配置传输路径,有利于实现传输路径故障的快速修复,提高用户体验。
在一种可能的设计中,所述主传输路径和所述备传输路径之间尽可能的无交叉,也即主传输路径和备传输路径在源节点和目的节点之间共用的节点最少。
上述设计中,有利于避免因同一节点故障,导致主传输路径和备传输路径均无法传输数据报文的情况。
在一种可能的设计中,所述数据传输系统还包括:第一中间节点,其中所述第一中间节点是所述主传输路径中位于所述源节点和所述目的节点之间的任意一个节点;所述第一中间节点,用于根据所述数据报文,确定回退路径;所述第一中间节点,还用于当检测到所述主传输路径故障时,根据所述回退路径向所述源节点发送故障通告报文。
上述设计中,第一中间节点在检测到传输数据报文的主传输路径故障时,向源节点发送故障通告报文,有利于源节点对主传输路径故障的快速感知,实现传输路径故障的快速修复。
在另一种可能的设计中,所述数据传输系统还包括:一个或多个第二中间节点,其中所述一个或多个第二中间节点是所述主传输路径中位于所述源节点和所述第一中间节点之间的节点;所述第一中间节点根据所述数据报文,确定回退路径时,具体用于根据所述数据报文中携带的所述数据报文在所述一个或多个第二中间节点的入端口的标识,确定所述回退路径。
上述设计中,通过在数据报文中携带数据报文在第二中间节点的入端口的标识,有利于第一中间节点对故障通告报文的快速溯源回退。
在另一种可能的设计中,所述第一中间节点,还用于在向所述主传输路径中与所述第一中间节点相邻的下一跳节点转发所述数据报文之前,在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识。
上述设计中,第一中间节点在转发数据报文时,在数据报文中添加数据报文在第一中间节点的入端口的标识,有利于第一中间节点的后续节点在发现传输路径故障时,对故障通告报文的溯源回退。
在另一种可能的设计中,所述第一中间节点在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识时,具体用于将所述数据报文携带的源路由标签中记录的所述第一中间节点的出端口的标识替换为所述入端口的标识。
上述设计中,复用数据报文携带的源路由标签中出端口字段携带入端口的标识,有利于避免对数据报文传输格式的修改,提高数据报文的转发效率。
第二方面,本申请提供了一种数据传输方法,该方法包括:源节点向网络管理器发送传输路径请求,所述传输路径请求包括目的节点的标识;所述源节点接收来自所述网络管理器的包括主传输路径和备传输路径的传输路径响应,并记录包括所述主传输路径和所述备传输路径的传输路径响应;当所述主传输路径传输数据报文发生故障时,所述源节点利用所述备传输路径传输所述数据报文。
在一种可能的设计中,所述方法还包括:当所述源节点接收到来自第一中间节点的故障通告报文时,确定所述主传输路径传输数据报文发生故障,其中所述第一中间节点是所述主传输路径中位于所述源节点和所述目的节点之间的任意一个节点。
第三方面,本申请提供了一种数据传输方法,该方法包括:网络管理器接收来自源节点的传输路径请求,所述传输路径请求包括目的节点的标识;所述网络管理器在所述源节点和所述目的节点之间确定主传输路径和备传输路径;所述网络管理器在源节点向目的节点传输数据报文之前,向所述源节点发送包括所述主传输路径和所述备传输路径的传输路径响应。
第四方面,本申请提供了一种数据传输方法,该方法包括:第一中间节点接收来自源节点的数据报文,其中所述第一中间节点是位于所述源节点和所述数据报文的目的节点传输所述数据报文的主传输路径中的节点;所述第一中间节点根据所述数据报文,确定回退路径;当检测到所述主传输路径故障时,所述第一中间节点根据所述回退路径向所述源节点发送故障通告报文。
在一种可能的设计中,所述第一中间节点根据所述数据报文,确定回退路径,包括:所述第一中间节点根据所述数据报文中携带的所述数据报文在一个或多个第二中间节点的入端口的标识,确定所述回退路径,其中所述一个或多个第二中间节点是所述主传输路径中位于所述源节点和所述第一中间节点之间的节点。
在另一种可能的设计中,所述方法还包括:在向所述主传输路径中与所述第一中间节点相邻的下一跳节点转发所述数据报文之前,所述第一中间节点在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识。
在另一种可能的设计中,所述第一中间节点在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识,包括:所述第一中间节点将所述数据报文携带的源路由标签中记录的所述第一中间节点的出端口的标识替换为所述入端口的标识。
第五方面,本申请实施例提供一种数据传输装置,该装置具有实现上述第二方面及第二方面任意一种可能的设计中各个步骤的功能,所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元(模块),比如包括通信单元和处理单元。
在一种可能的设计中,该装置可以是芯片或者集成电路。
在一种可能的设计中,该装置包括处理器和接口电路,所述处理器与所述接口电路耦合,用于实现上述第二方面及第二方面任意一种可能的设计中各个步骤的功能。可以理解的是,接口电路可以为收发器或输入输出接口。该装置还可以包括存储器,所述存储器存储有可被处理器执行的用于实现上述第二方面及第二方面任意一种可能的设计中各个步骤的功能的程序。
在一种可能的设计中,该装置可以为源节点。
第六方面,本申请实施例提供一种数据传输装置,该装置具有实现上述第三方面中各个步骤的功能,所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元(模块),比如包括通信单元和处理单元。
在一种可能的设计中,该装置可以是芯片或者集成电路。
在一种可能的设计中,该装置包括处理器和接口电路,所述处理器与所述接口电路耦合,用于实现上述第三方面中各个步骤的功能。可以理解的是,接口电路可以为收发器或输入输出接口。该装置还可以包括存储器,所述存储器存储有可被处理器执行的用于实现上述第三方面中各个步骤的功能的程序。
在一种可能的设计中,该装置可以为网络管理器。
第七方面,本申请实施例提供一种数据传输装置,该装置具有实现上述第四方面及第四方面任意一种可能的设计中各个步骤的功能,所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元(模块),比如包括通信单元和处理单元。
在一种可能的设计中,该装置可以是芯片或者集成电路。
在一种可能的设计中,该装置包括处理器和接口电路,所述处理器与所述接口电路耦合,用于实现上述第四方面及第四方面任意一种可能的设计中各个步骤的功能。可以理解的是,接口电路可以为收发器或输入输出接口。该装置还可以包括存储器,所述存储器存储有可被处理器执行的用于实现上述第四方面及第四方面任意一种可能的设计中各个步骤的功能的程序。
在一种可能的设计中,该装置可以为第一中间节点。
第八方面,本申请实施例还提供了一种计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述第二至第四方面及第二至第四方面中任意一种可能的设计中提供的方法。
第九方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被计算机执行时,使得所述计算机执行上述第二至第四方面及第二至第四方面中任意一种可能的设计中提供的方法。
第十方面,本申请实施例还提供了一种芯片,所述芯片用于读取存储器中存储的计算机程序,执行上述第二至第四方面及第二至第四方面中任意一种可能的设计中提供的方法。
上述第二方面至第十方面所能达到的技术效果请参照上述第一方面所能达到的技术效果,这里不再重复赘述。
附图说明
图1为源路由转发机制示意图;
图2为本申请实施例提供的一种ECMP机制原理示意图;
图3为本申请实施例提供的一种AR机制原理示意图;
图4为本申请实施例提供的网络架构示意图之一;
图5为本申请实施例提供的数据传输系统的架构示意图之一;
图6为本申请实施例提供的一种数据传输方法的流程示意图;
图7为本申请实施例提供的网络架构示意图之二;
图8为本申请实施例源路由标签示意图之一;
图9为本申请实施例源路由标签示意图之二;
图10为本申请实施例提供的数据传输装置示意图之一;
图11为本申请实施例提供的数据传输装置示意图之二;
图12为本申请实施例提供的数据传输系统的架构示意图之二。
具体实施方式
在介绍本申请实施例之前,首先对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
1)、主机,又可以称为业务节点、通信节点等,可用于处理业务数据,具有收发功能,可以向其它主机发送数据和/或接收来自其它主机的数据。例如:主机可以是服务器、大数据平台、云端、云服务器、服务器集群、终端设备或计算机设备等等,也可以是这些设备中的部件,如芯片或芯片系统等。其中,计算机设备,可简称为计算机,是指具备网络数据存储、数据发送和数据接收等处理功能的设备。
2)、传输节点,又可以称为中间节点、交换节点等,是一种具备数据交换(转发)功能的设备,可以是交换机,也可以是路由器、网关等设备,还可以是其他具有数据交换功能的装置或设备,或者是这些设备中的部件,如芯片或芯片系统等。本申请实施例对此不限定。
3)、IP路由转发机制,通常是指基于报文的信息(如目的IP地址等)采用路由选择算法(如哈希算法等)实现路由转发的机制。以IP路由转发机制中的等价多路径(equalcost multipath,ECMP)机制和自适应路由(adaptive routing,AR)为例。如图2所示,ECMP机制使用哈希方法基于五元组(源IP地址、源端口、目的IP地址、目的端口和传输层协议)计算不同数据流转发的出端口,完成每个数据流和端到端传输路径的一一映射,不同的数据流被均匀的分配至各个端到端传输路径当中。由于每条流的五元组是确定的,因此每次ECMP哈希的出端口也是唯一确定的,该流的端到端传输路径也最终被唯一确定。然而,ECMP负载分担方案最大的问题是:当网络中流量大小分布不均时(大象流和老鼠流混合),将大流和小流等价看待并分配到不同传输路径上会导致各传输路径之间的负载严重不均衡。
如图3所示,AR机制参考了ECMP机制,在ECMP机制的基础上增加了对出端口队列拥塞状态的判断,如果拥塞超出门限则调整至其它端口,一定程度上避免了各传输路径之间的负载严重不均衡。但是ECMP机制和AR机制,均需传输路径上的各中间节点维护整个网络全局路由表以及执行路由选择算法,维护实现难度高、且由于每个中间节点均需执行路由选择算法传输时延较大,不如源路由机制概念简单,易于实现。
4)、源路由,也可以称为源路由机制,即数据传输的源节点(即发送节点)可以指定所发送的报文沿途经过的部分或全部传输节点(或中间节点)。如图1所示,已知源节点的出端口A与中间节点1连接、中间节点1的出端口B与中间节点2连接、中间节点2的出端口C与中间节点3连接、中间节点3的出端口D与中间节点4连接、中间节点4的出端口E与中间节点5连接、中间节点5的出端口F与目的节点连接,源节点可以在发送的数据报文中携带上述源节点的出端口A、中间节点1的出端口B、中间节点2的出端口C、中间节点3的出端口D、中间节点4的出端口E和中间节点5的出端口F的标识(也即传输路径的源路由路径)指示数据报文从源节点出发经过的每一跳节点为中间节点1、中间节点2、中间节点3、中间节点4、中间节点5和目的节点。
然而,现有源路由机制,源节点仅能依靠与目的节点间周期性的心跳连接来检测源节点和目的节点之间是否存在链路故障,并在检测到故障后重新请求网络控制器下发源节点和目的节点之间新传输路径的源路由路径,故障检测的效率较低,而且发现故障后,网络控制器需要重新扫描网络架构配置新传输路径,所需时间也较长,这种情况在网络架构复杂的情况下尤为严重,难以实现传输路径故障的快速修复。
有鉴于此,本申请实施例提供一种数据传输方案,用以通过网络管理器同时在源节点和目的节点确定主传输路径和备传输路径,实现传输路径发生故障后的快速修复。下面结合附图详细说明本申请实施例。
如图4所示,为本申请实施例适用的一种可能的胖树(Fat-Tree)网络架构下的数据传输系统示例,包括多个主机(如主机H11、主机H12等)、多个中间节点(如中间节点E11、中间节点A11、中间节点C11等)和网络管理器(fabric manager,FM)。其中,中间节点也可以称为传输节点,叶子(leaf)层和脊柱(spine)层的中间节点可以被划分为不同交付单元(point of delivery,POD)或集群,在每个POD中每个叶子层的中间节点与每个脊柱层的中间节点连接;同时每个脊柱层的中间节点可以与一个或多个超级脊柱(super-spine)层的中间节点连接,使得不同POD之间可以通过超级脊柱(super-spine)层的中间节点连接。其中,网络管理器具有网管功能,与网络中的各中间节点和主机直接或间接连接,可以提供网络的传输路径配置。在进行数据传输时,图4中的任一主机可以作为数据传输的源节点,即数据发送端,也可以作为数据传输的目的节点,即数据接收端。
为了实现本申请的数据传输方案,图4中的主机(如主机H11、主机H12等)可以包括RNIC网卡、主机代理(Host-agent)组件等组件,中间节点(如中间节点E11、中间节点A11、中间节点C11等)可以包括交换(Switch)组件和交换代理(Switch-agent)组件等组件,网络管理器可以包括全局的网络管理器控制器(FM-controller)组件、全局的网络管理器管理(FM-manager)组件等组件。具体的,如图5所示,数据传输系统中的网络管理器(FM)、主机(Host)和中间节点(如交换机(Switch))的组件根据功能不同,可分为转发面、控制面和管理面三个层级,其中转发面可以包括主机侧的RNIC网卡、中间节点侧的Switch组件;控制面包括主机侧的Host-agent组件、中间节点侧的Switch-agent组件和网络管理器侧的FM-controller组件;管理面包括网络管理器侧的FM-manager组件。FM-manager组件可以为中间节点下发端口配置(port config),也可以获知中间节点间的端口链路状态(port linkstatus)和端口输入/输出适配率(port input/output uitility rate)等信息,并可以将网络拓扑(network topology)等信息存储在数据库(data base,DB)。所述数据传输系统可以基于RoCE网络进行数据传输,在进行数据报文传输时,可以由主机侧的RNIC网卡向FM-controller组件请求传输路径,FM-controller组件向主机侧的RNIC网卡返回主传输路径和备传输路径,然后主机侧的RNIC网卡即可根据通过主传输路径和备传输路径和其它主机侧的RNIC网卡进行数据报文的传输。
图6为本申请实施例提供的一种数据传输方法示意图,该方法包括:
S601:源节点向网络管理器发送传输路径请求,所述网络管理器接收所述传输路径请求。
其中,所述传输路径请求包括目的节点的标识。
在一些实施中,源节点(如主机H11)中的某一应用(如HPC应用)被启动时,会触发源节点向目的节点(如主机H21)发起网络连接(如RDMA连接),用于源节点和目的节点之间传输某一业务的数据报文。具体的,当源节点中的某一应用被启动,向目的节点发起网络连接时,源节点可以向网络管理器发送包括目的节点的标识的传输路径请求,请求网络管理器为源节点配置向目的节点发送业务的数据报文的传输路径。
作为一种示例,源节点中的HPC应用被启动时,向目的节点发起RDMA连接时,可以由源节点的RDMA网络接口卡(RDMA network interface card,RNIC)向网络管理器发送包括目的节点的标识的传输路径请求,其中目的节点的标识可以为目的节点的身份标识号(identity document,ID)、IP地址等,本申请不作限定。
S602:所述网络管理器在所述源节点和所述目的节点之间确定主传输路径和备传输路径,并在源节点向目的节点传输数据报文之前,向所述源节点发送包括所述主传输路径和所述备传输路径的传输路径响应。
在本申请实施例中,网络管理器具有网管功能,与网络中的各中间节点(也可以称为传输节点)和主机直接或间接连接,可以提供网络的传输路径配置、各节点的性能控制等功能。在网络中各节点间(包括中间节点和主机间、以及中间节点和中间节点间)可以通过端口连接,如图7所示,中间节点E11可以通过端口16与中间节点A11的端口101连接。具体的,网络中各节点间的端口连接可以在节点(包括主机和中间节点)入网时由网络管理人员等配置,并由节点上报网络管理器,也可以由网络管理人员等通过网络管理器配置,并由网络管理器下发至相应节点,本申请对此不进行限定。
作为一种示例,网络管理器在接收到来自源节点的包括目的节点的标识的传输路径请求后,可以根据管理的网络的拓扑架构,为源节点和目的节点间确定多条共用中间节点最少传输路径,也即多条传输路径之间尽可能不包括重复的中间节点。如图7所示,网络管理器确定的传输路径包括传输路径1:源节点H11-中间节点E11-中间节点A11-中间节点C11-中间节点A21-中间节点E21-目的节点H21,以及传输路径2:源节点H11-中间节点E11-中间节点A12-中间节点C22-中间节点A22-中间节点E21-目的节点H21,其中传输路径1和传输路径2在脊柱(spine)层和超级脊柱(super spine)层无交叉,也即无共用中间节点。
网络管理器在源节点和目的节点间确定共用中间节点最少的多条传输路径后,可以将其中一条传输路径确定为主传输路径,其它传输路径确定为备传输路径,向源节点发送包括所述主传输路径和所述备传输路径的传输路径响应。具体的,网络管理器在多条传输路径中确定为主传输路径和备传输路径时,可以按照包括的中间节点最少的原则,将包括中间节点数量最少的传输路径作为主传输路径(如果包括中间节点数量最少的传输路径存在多条,可以在多条包括中间节点数量最少的传输路径中随机选取一条作为主传输路径),其它传输路径作为备传输路径;当然也可以按照平均负载最小的原则、传输时延最低的原则等在多条传输路径中选取主传输路径,其它传输路径作为备传输路径。
当然,网络管理器也可以直接向源节点发送包括所述多条传输路径的传输路径响应,由源节点在所述多条传输路径中选择一条作为主传输路径,其它传输路径作为备传输路径。
以源节点H11-中间节点E11-中间节点A11-中间节点C11-中间节点A21-中间节点E21-目的节点H21为主传输路径为例,其中源节点H11通过端口17与中间节点E11的端口102连接、中间节点E11通过端口18与中间节点A11的端口103连接、中间节点A11通过端口19与中间节点C11的端口104连接、中间节点C11通过端口20与中间节点A21的端口105连接、中间节点A21通过端口21与中间节点E21的端口106连接、中间节点E21通过端口22与目的节点H21的端口107连接,则网络管理器可以通过向源节点下发包括主传输路径的源路由路径的传输路径响应,将主传输路径发送给源节点,其中主传输路径的源路由路径可以包括主传输路径上由源节点向目的节点传输数据报文的各节点的出端口的标识。其中各节点的出端口的标识可以由节点的标识(如IP地址)和出端口的端口号组成,作为一种示例,所述主传输路径的源路由路径如下表1所示。
表1
Figure BDA0003093889720000081
其中,源节点H11、中间节点E11、中间节点A11、中间节点C11、中间节点A21、中间节点E21、目的节点H21的IP地址分别为IP H11、IP E11、IP A11、IP C11、IP A21、IP E21、IPH21。
S603:当所述源节点在所述主传输路径传输数据报文发生故障时,所述源节点利用所述备传输路径传输所述数据报文。
源节点从网络管理器获取到主传输路径和备传输路径后,通过在数据报文的携带的源路由标签中记录(或携带)主传输路径的源路由路径,通过主传输路径向目的节点传输数据报文。
在一种可能的实施中,源节点和目的节点之间还可以维持心跳连接,用于检测第一传输路径是否发生故障。例如,源节点可以按照设定周期(如1s、2s)等,通过主传输路径向目的节点发送心跳请求报文,如果在规定时间内(如1ms内)接收到目的节点回复的心跳响应报文,则说明主传输路径能够正常传输报文无故障,否则,确定主传输路径发生故障。
为了进一步提高故障检测效率,在另一种可能的实施中,数据报文从源节点发出后,数据报文每经过一跳转发,中间节点可以将数据报文在该节点的入端口的标识添加至数据报文中,方便传输路径发生故障时,故障通告报文的溯源回退。
作为一种示例,中间节点可以在转发数据报文时,将源路由标签中记录的该中间节点的出端口的标识替换为数据报文在该中间节点的入端口的标识。仍以数据报文通过上述主传输路径传输为例,数据报文携带源路由标签(即报文头)如图8所示,中间节点E11通过端口102(入端口)接收源节点H11发送的数据报文,中间节点E11在根据HOP1(IP E11+18)通过自身端口18(出端口)转发该数据报文时,将HOP1由IP E11+18修改为IP E11+102,同理,中间节点C11转发数据报文时,将HOP2由IP A11+19修改为IP A11+103等。
当主传输路径中任一中间节点被检测到出端口链路故障,数据报文无法转发时,该中间节点构造生成故障通告(failure notification,FN)报文,并从数据报文的入端口转发回退故障通告报文。其中故障通告报文中包括向源节点发送故障通告报文的回退路径的源路由路径(即指定回退路径上每一跳的出端口),其中回退路径的源路由路径可以从数据报文中获取。为了方便描述后续,本申请实施例的后续描述中,将上述主传输路径中检测到出端口链路故障的中间节点称为第一中间节点。
作为一种示例,如图7所述,数据报文携带如图8所示的用于指示主传输路径的源路由标签由主机H11(源节点)发出,经过主传输路径上的中间节点E11、中间节点A11和中间节点C11(位于源节点和第一中间节点间的多个第二中间节点)转发后,主传输路径上的中间节点A21(第一中间节点)接收到数据报文。其中,中间节点E11、中间节点A11和中间节点C11在转发数据报文时,将数据报文的源路由标签中记录的该中间节点的出端口的标识替换为数据报文在该中间节点的入端口的标识,中间节点A21接收到的数据报文携带的源路由如图9所示。假设主传输路径上的中间节点A21检测到向下一跳节点中间节点E21转发数据报文的端口21发生故障(如端口21与中间节点21的心跳连接中断或电连接中断等),中间节点A21根据数据报文中的源路由标签确定回退路径的源路由路径。如图9所示,中间节点A21根据源路由标签中的Hop1、Hop2、Hop3以及自身接收数据报文的端口105,确定回退路径的源路由路径为Hop 0(IP A21+105)、Hop1(IP C11+104)、Hop2(IP A11+103)、Hop3(IP E11+102)。
中间节点A21构造生成故障通告报文,故障通告报文携带的源路由标签中记录有Hop 0(IP A21+105)、Hop1(IP C11+104)、Hop2(IP A11+103)、Hop3(IP E11+102)的信息,中间节点A21从数据报文的入端口,即端口105向中间节点C11发送故障通告报文,依据故障通告报文携带的源路由标签中记录的Hop1(IP C11+104)、Hop2(IP A11+103)、Hop3(IPE11+102),中间节点C11、中间节点A11、中间节点E11逐跳转发故障通告报文,直至故障通告报文被主机H11接收,确定传输数据报文的主传输路径发生故障。
另外,为了提高故障通告报文传输的可靠性,中间节点可以针对故障通告报文预留资源(如预留带宽资源、转发队列资源等),以保障故障通告报文可无阻塞地、快速地溯源回退。
在一些实施中,源节点可以同时与多个目的节点传输不同业务的数据报文,为了便于源节点对发生故障的传输路径的定位,故障通告报文中还可以携带对应数据报文所属业务的业务流标识,其中数据报文所属业务的业务流标识可以从数据报文的报文头中的流标签(flow label)字段等中获取,业务流的标识可以为业务流传输对应的源IP、目的IP+队列对(queue pair,QP)标识(identifier,ID)等。
源节点在检测到主传输路径发生故障后,将数据报文的传输由主传输路径切换到网络管理器下发的备传输路径,即源节点利用备传输路径进行数据传输,可实现传输路径快速故障切换,达成业务流快速收敛的目标。
具体的,源节点在检测到主传输路径发生故障后,将数据报文携带的源路由标签中的源路由路径由主传输路径的源路由路径切换为备传输路径的源路由路径,即可实现传输路径快速故障切换,达成业务流快速收敛的目标。
另外,需要理解的是,本申请实施例提供的数据传输方案不仅适用于如图4所示的Fat-Tree网络架构,还可适应于3D/6D环(torus)拓扑网络架构、蜻蜓(dragonfly)拓扑网络架构等。
上述主要从源节点和第一中间节点、网络管理器之间交互的角度对本申请提供的方案进行了介绍。可以理解的是,为了实现上述功能,各网元(设备)包括了执行各个功能相应的硬件结构和/或软件模块(或单元)。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图10和图11为本申请的实施例提供的可能的数据传输装置的结构示意图。这些数据传输装置可以用于实现上述方法实施例中源节点或网络管理器或第一中间节点的功能,因此也能实现上述方法实施例所具备的有益效果。在本申请的实施例中,该数据传输装置可以是源节点或网络管理器或第一中间节点,还可以是应用于源节点或网络管理器或第一中间节点的模块(如芯片)。
如图10所示。数据传输装置1000可以包括:处理单元1002和通信单元1003,还可以包括存储单元1001。数据传输装置1000用于实现上述方法实施例中源节点或网络管理器或第一中间节点的功能。
一种可能的设计中,处理单元1002用于实现相应的处理功能。通信单元1003用于支持数据传输装置1000与其他网络实体的通信。存储单元1001,用于存储数据传输装置1000的程序代码和/或数据。可选地,通信单元1003可以包括接收单元和/或发送单元,分别用于执行接收和发送操作。
当数据传输装置1000用于实现方法实施例中源节点的功能时:所述通信单元1003,用于向网络管理器发送传输路径请求,所述传输路径请求包括目的节点的标识;以及接收来自所述网络管理器的包括主传输路径和备传输路径的传输路径响应;
所述处理单元1002,用于记录包括所述主传输路径和所述备传输路径的传输路径响应;
所述通信单元1003,还用于当所述主传输路径传输数据报文发生故障时,利用所述备传输路径传输所述数据报文。
在一种可能的设计中,所述处理单元1002,还用于当所述通信单元1003接收到来自第一中间节点的故障通告报文时,确定所述主传输路径传输数据报文发生故障,其中所述第一中间节点是所述主传输路径中位于所述源节点和所述目的节点之间的任意一个节点。
当数据传输装置1000用于实现方法实施例中网络管理器的功能时:所述通信单元1003,用于接收来自源节点的传输路径请求,所述传输路径请求包括目的节点的标识;
所述处理单元1002,用于在所述源节点和所述目的节点之间确定主传输路径和备传输路径;
所述通信单元1003,还用于在源节点向目的节点传输数据报文之前,向所述源节点发送包括所述主传输路径和所述备传输路径的传输路径响应。
当数据传输装置1000用于实现方法实施例中第一中间节点的功能时:所述通信单元1003,用于接收来自源节点的数据报文,其中所述第一中间节点是位于所述源节点和所述数据报文的目的节点传输所述数据报文的主传输路径中的节点;
所述处理单元1002,用于根据所述数据报文,确定回退路径;
所述通信单元1003,还用于当检测到所述主传输路径故障时,根据所述回退路径向所述源节点发送故障通告报文。
在一种可能的设计中,所述处理单元1002根据所述数据报文,确定回退路径时,具体用于根据所述数据报文中携带的所述数据报文在一个或多个第二中间节点的入端口的标识,确定所述回退路径,其中所述一个或多个第二中间节点是所述主传输路径中位于所述源节点和所述第一中间节点之间的节点。
在一种可能的设计中,所述处理单元1002,还用于在所述通信单元1003向所述主传输路径中与所述第一中间节点相邻的下一跳节点转发所述数据报文之前,在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识。
在一种可能的设计中,所述处理单元1002在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识时,具体用于将所述数据报文携带的源路由标签中记录的所述第一中间节点的出端口的标识替换为所述入端口的标识。
有关上述处理单元1002和通信单元1003更详细的描述可以直接参考方法实施例中相关描述直接得到,这里不加赘述。
如图11所示,数据传输装置1100包括处理器1110和接口电路1120。处理器1110和接口电路1120之间相互耦合。可以理解的是,接口电路1120可以为输入输出接口。可选的,数据传输装置1100还可以包括存储器1130,用于存储处理器1110执行的指令或存储处理器1110运行指令所需要的输入数据或存储处理器1110运行指令后产生的数据。
当数据传输装置1100用于实现适用于源节点或网络管理器或第一中间节点的数据传输方法时,处理器1110用于实现上述处理单元1002的功能,接口电路1120用于实现上述通信单元1003的功能。
作为本实施例的另一种形式,提供一种计算机可读存储介质,其上存储有指令,该指令被执行时可以执行上述方法实施例中适用于源节点或网络管理器或第一中间节点的数据传输方法。
作为本实施例的另一种形式,提供一种包含指令的计算机程序产品,该指令被执行时可以执行上述方法实施例中适用于源节点或网络管理器或第一中间节点的数据传输方法。
作为本实施例的另一种形式,提供一种芯片,所述芯片运行时,可以执行上述方法实施例中适用于源节点或网络管理器或第一中间节点的数据传输方法。
图12为本申请实施例提供的一种数据传输系统的架构示意图,所述数据传输系统包括网络管理器、源节点、目的节点和第一中间节点,其中所述网络管理器具有上述用于实现方法实施例中网络管理器的功能数据传输装置、源节点具有上述用于实现方法实施例中源节点的功能数据传输装置、第一中间节点具有上述用于实现方法实施例中第一中间节点的功能数据传输装置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)。
以上所述,仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式,可想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (13)

1.一种数据传输系统,其特征在于,包括网络管理器、源节点和目的节点;
所述源节点,用于向网络管理器发送传输路径请求,所述传输路径请求包括所述目的节点的标识;
所述网络管理器,用于根据所述传输路径请求,在所述源节点和所述目的节点之间确定主传输路径和备传输路径,在源节点向目的节点传输数据报文之前,向所述源节点发送包括所述主传输路径和所述备传输路径的传输路径响应;
所述源节点,还用于记录包括所述主传输路径和所述备传输路径的传输路径响应,并当所述主传输路径传输所述数据报文发生故障时,利用所述备传输路径传输所述数据报文;
所述数据传输系统还包括:第一中间节点,其中所述第一中间节点是所述主传输路径中位于所述源节点和所述目的节点之间的任意一个节点;
所述第一中间节点,用于根据所述数据报文,确定回退路径;
所述第一中间节点,还用于当检测到所述主传输路径故障时,根据所述回退路径向所述源节点发送故障通告报文;
其中,所述故障通告报文中包括向所述源节点发送所述故障通告报文的回退路径的源路由路径。
2.如权利要求1所述的数据传输系统,其特征在于,所述数据传输系统还包括:一个或多个第二中间节点,其中所述一个或多个第二中间节点是所述主传输路径中位于所述源节点和所述第一中间节点之间的节点;
所述第一中间节点根据所述数据报文,确定回退路径时,具体用于根据所述数据报文中携带的所述数据报文在所述一个或多个第二中间节点的入端口的标识,确定所述回退路径。
3.如权利要求1或2所述的数据传输系统,其特征在于,所述第一中间节点,还用于在向所述主传输路径中与所述第一中间节点相邻的下一跳节点转发所述数据报文之前,在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识。
4.如权利要求3所述的数据传输系统,其特征在于,所述第一中间节点在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识时,具体用于将所述数据报文携带的源路由标签中记录的所述第一中间节点的出端口的标识替换为所述入端口的标识。
5.一种数据传输方法,其特征在于,包括:
第一中间节点接收来自源节点的数据报文,其中所述第一中间节点是位于所述源节点和所述数据报文的目的节点传输所述数据报文的主传输路径中的节点;
所述第一中间节点根据所述数据报文,确定回退路径;
当检测到所述主传输路径故障时,所述第一中间节点根据所述回退路径向所述源节点发送故障通告报文;
其中,所述故障通告报文中包括向源节点发送故障通告报文的回退路径的源路由路径。
6.如权利要求5所述的方法,其特征在于,所述第一中间节点根据所述数据报文,确定回退路径,包括:
所述第一中间节点根据所述数据报文中携带的所述数据报文在一个或多个第二中间节点的入端口的标识,确定所述回退路径,其中所述一个或多个第二中间节点是所述主传输路径中位于所述源节点和所述第一中间节点之间的节点。
7.如权利要求5或6所述的方法,其特征在于,所述方法还包括:
在向所述主传输路径中与所述第一中间节点相邻的下一跳节点转发所述数据报文之前,所述第一中间节点在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识。
8.一种第一中间节点,其特征在于,包括:处理单元和通信单元;
所述通信单元,用于接收来自源节点的数据报文,其中所述第一中间节点是位于所述源节点和所述数据报文的目的节点传输所述数据报文的主传输路径中的节点;
所述处理单元,用于根据所述数据报文,确定回退路径;
所述通信单元,还用于当检测到所述主传输路径故障时,根据所述回退路径向所述源节点发送故障通告报文;
其中,所述故障通告报文中包括向源节点发送故障通告报文的回退路径的源路由路径。
9.如权利要求8所述的第一中间节点,其特征在于,所述处理单元根据所述数据报文,确定回退路径时,具体用于根据所述数据报文中携带的所述数据报文在一个或多个第二中间节点的入端口的标识,确定所述回退路径,其中所述一个或多个第二中间节点是所述主传输路径中位于所述源节点和所述第一中间节点之间的节点。
10.如权利要求8或9所述的第一中间节点,其特征在于,所述处理单元,还用于在所述通信单元向所述主传输路径中与所述第一中间节点相邻的下一跳节点转发所述数据报文之前,在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识。
11.如权利要求10所述的第一中间节点,其特征在于,所述处理单元在所述数据报文中添加所述数据报文在所述第一中间节点的入端口的标识时,具体用于将所述数据报文携带的源路由标签中记录的所述第一中间节点的出端口的标识替换为所述入端口的标识。
12.一种数据传输装置,其特征在于,所述装置包括处理器和存储器,所述存储器中用于存储计算机执行指令,所述数据传输装置运行时,所述处理器执行所述存储器中的计算机执行指令以利用所述数据传输装置中的硬件资源执行权利要求5-7中任一所述方法的操作步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被计算机执行时,使得所述计算机执行如权利要求5-7中任一项所述的方法的操作步骤。
CN202110604511.4A 2021-05-31 2021-05-31 一种数据传输方法、节点、网络管理器及系统 Active CN113472646B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110604511.4A CN113472646B (zh) 2021-05-31 2021-05-31 一种数据传输方法、节点、网络管理器及系统
PCT/CN2022/095142 WO2022253087A1 (zh) 2021-05-31 2022-05-26 一种数据传输方法、节点、网络管理器及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110604511.4A CN113472646B (zh) 2021-05-31 2021-05-31 一种数据传输方法、节点、网络管理器及系统

Publications (2)

Publication Number Publication Date
CN113472646A CN113472646A (zh) 2021-10-01
CN113472646B true CN113472646B (zh) 2023-02-10

Family

ID=77871896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110604511.4A Active CN113472646B (zh) 2021-05-31 2021-05-31 一种数据传输方法、节点、网络管理器及系统

Country Status (2)

Country Link
CN (1) CN113472646B (zh)
WO (1) WO2022253087A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472646B (zh) * 2021-05-31 2023-02-10 华为技术有限公司 一种数据传输方法、节点、网络管理器及系统
CN115442293B (zh) * 2022-08-27 2023-06-06 武汉烽火技术服务有限公司 一种寻路方法、装置、设备及可读存储介质
WO2024065481A1 (zh) * 2022-09-29 2024-04-04 新华三技术有限公司 一种数据处理方法、装置、网络设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047618B (zh) * 2006-03-29 2013-11-06 华为技术有限公司 获取网络路径信息的方法和系统
US8018843B2 (en) * 2006-09-19 2011-09-13 Futurewei Technologies, Inc. Faults propagation and protection for connection oriented data paths in packet networks
CN101192883A (zh) * 2006-11-21 2008-06-04 华为技术有限公司 Wdm光网络中组播保护方法
CN103856400B (zh) * 2012-11-29 2017-06-27 华为技术有限公司 FCoE报文转发方法、设备及系统
US9712381B1 (en) * 2014-07-31 2017-07-18 Google Inc. Systems and methods for targeted probing to pinpoint failures in large scale networks
CN110178410A (zh) * 2017-12-21 2019-08-27 华为技术有限公司 一种通信路径确定方法及网络设备
CN112787916B (zh) * 2019-11-01 2022-12-27 华为技术有限公司 一种路径保护方法和网络节点
CN113472646B (zh) * 2021-05-31 2023-02-10 华为技术有限公司 一种数据传输方法、节点、网络管理器及系统

Also Published As

Publication number Publication date
CN113472646A (zh) 2021-10-01
WO2022253087A1 (zh) 2022-12-08

Similar Documents

Publication Publication Date Title
CN113472646B (zh) 一种数据传输方法、节点、网络管理器及系统
US11558293B2 (en) Network controller subclusters for distributed compute deployments
US10469277B2 (en) Multicast group establishment method in fat-tree network, apparatus, and fat-tree network
KR101317969B1 (ko) 링크 애그리게이션 방법 및 노드
CN108023812B (zh) 云计算系统的内容分发方法及装置、计算节点及系统
US10404773B2 (en) Distributed cluster processing system and packet processing method thereof
US8938521B2 (en) Bi-directional synchronization enabling active-active redundancy for load-balancing switches
US8984114B2 (en) Dynamic session migration between network security gateways
US11750440B2 (en) Fast forwarding re-convergence of switch fabric multi-destination packets triggered by link failures
CN109600326B (zh) 数据或报文转发的方法、节点和系统
WO2021098425A1 (zh) 配置业务的服务质量策略方法、装置和计算设备
EP4325800A1 (en) Packet forwarding method and apparatus
KR20170000787A (ko) 서비스 펑션 체이닝의 안정성 보장을 위한 sff-sf 간 링크 구성 방법
CN102045259B (zh) 分组交换设备以及管理用户业务的方法
US10728328B2 (en) System and method for transmitting data via ethernet switch devices in an ethernet fabric
WO2015100551A1 (zh) 发送信息的方法、装置及系统
WO2022021253A1 (zh) 通信方法和通信装置
WO2021259097A1 (zh) 通信方法、通信设备及存储介质
CN116366593A (zh) 报文转发方法及相关装置
CN115022334A (zh) 流量分配方法、装置、电子设备及存储介质
JP2022518451A (ja) 高性能コンピューティング環境における複数の独立したレイヤ2(l2)サブネットにわたる単一の論理ipサブネットのためのシステムおよび方法
CN115150320A (zh) 报文传输方法、装置及系统
CN116938693A (zh) 用户迁移的方法、装置、系统及存储介质
CN113691446A (zh) 一种报文发送的方法和装置
US20090025014A1 (en) Data transfer method and system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant