CN118018488A - 网络集群系统、报文传输方法及网络设备 - Google Patents

网络集群系统、报文传输方法及网络设备 Download PDF

Info

Publication number
CN118018488A
CN118018488A CN202211399997.3A CN202211399997A CN118018488A CN 118018488 A CN118018488 A CN 118018488A CN 202211399997 A CN202211399997 A CN 202211399997A CN 118018488 A CN118018488 A CN 118018488A
Authority
CN
China
Prior art keywords
message
transmission
network
computing device
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211399997.3A
Other languages
English (en)
Inventor
宋一凡
周超
刘卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202211399997.3A priority Critical patent/CN118018488A/zh
Priority to PCT/CN2023/100997 priority patent/WO2024098757A1/zh
Publication of CN118018488A publication Critical patent/CN118018488A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/30Routing of multiclass traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种网络集群系统、报文传输方法及网络设备,网络集群系统包括多个物理分区,每个物理分区包括多个计算设备及网络设备,多个物理分区中的第一物理分区中的第一计算设备的网卡用于对数据包添加传输标记生成报文,并发送报文,传输标记指示报文的传输类型,传输类型包括短距传输和长距传输,短距传输为报文的目标计算设备与第一计算设备属于第一物理分区,长距传输为目标计算设备不属于第一物理分区;第一计算设备与目标计算设备之间的网络设备用于在接收到报文后,根据报文中的传输标记指示的报文的传输类型将报文通过不同的方式进行传输。根据本申请实施例的网络集群系统,能够降低报文的传输延时差距,提升网络性能。

Description

网络集群系统、报文传输方法及网络设备
技术领域
本申请涉及数据处理领域,尤其涉及一种网络集群系统、报文传输方法及网络设备。
背景技术
网络集群系统(例如数据中心网络等)通常包括多个计算设备集群,因此一般采用聚合以太网上的RDMA(RDMA over converged ethernet,RoCE)架构或者无限带宽(infiniband,IB)架构。流量控制技术用于防止网络在拥塞的情况下出现丢包从而保障网络的高效率,是实现无损网络的基本技术之一。随着网络集群系统技术不断发展,为了保证整体网络的低时延、无丢包、高吞吐,流量控制技术在网络中发挥着越来越重要的作用。
现有网络集群系统一般将待传输的报文按类型区分为计算类型、存储类型、控制类型和数据类型等。RoCE架构网络的流量控制技术主要是控制不同类型的报文进入不同的优先级队列中,不同的优先级队列有自己的优先级调度及流控制参数配置策略;IB架构网络的流量控制技术主要是控制不同类型的报文进入不同的虚拟通道(virtual lane,VL)中,不同的虚拟通道有自己的调度及流控制参数配置策略。这种流量控制方式在网络集群系统规模较小时流量控制效果较好,当网络集群系统规模变大时,报文的传输延时差距也变大,容易影响网络性能。
发明内容
有鉴于此,提出了一种网络集群系统、报文传输方法及网络设备,根据本申请实施例的网络集群系统,能够降低报文的传输延时差距,提升网络性能。
第一方面,本申请的实施例提供了一种网络集群系统,所述网络集群系统包括多个物理分区,每个物理分区包括多个计算设备及网络设备,所述多个物理分区中的第一物理分区中的第一计算设备的网卡用于对数据包添加传输标记生成报文,并发送所述报文,所述传输标记指示所述报文的传输类型,所述传输类型包括短距传输和长距传输,所述短距传输为所述报文的目标计算设备与所述第一计算设备属于所述第一物理分区,所述长距传输为所述目标计算设备不属于所述第一物理分区;所述第一计算设备与所述目标计算设备之间的网络设备用于在接收到所述报文后,根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输。
根据本申请实施例的网络集群系统,通过第一计算设备的网卡对数据包添加传输标记生成报文,并发送报文,由于传输标记指示报文的传输类型,因此使得接收报文的第一计算设备与目标计算设备之间的网络设备能够根据传输标记获取到传输类型信息;网络设备在接收到报文后,可以根据报文中的传输标记指示的报文的传输类型将报文通过不同的方式进行传输,由于传输类型包括短距传输和长距传输,短距传输为报文的目标计算设备与第一计算设备属于第一物理分区,长距传输为目标计算设备不属于第一物理分区,因此实现了跨分区报文与非跨分区报文的分开传输,使得不同传输类型的报文传输过程不会相互影响,提高了数据传输过程中的隔离性;分开传输报文使得允许使用独立的流控制参数,相比同一报文类型的报文共同传输、使得必须采用同样的流控制参数的现有技术,本申请实施例的网络集群系统使得流控制参数可以与报文更为适应,进而提升了网络集群系统的性能。
根据第一方面,在所述网络集群系统的第一种可能的实现方式中,所述物理分区为分发点POD。
根据第一方面,或第一方面的第一种可能的实现方式,在所述网络集群系统的第二种可能的实现方式中,所述网卡中包括所述网络集群系统的拓扑信息,所述网卡在接收到所述数据包后,根据所述数据包中包含的所述目标计算设备的地址及所述拓扑信息确定所述报文的传输类型。
通过这种方式,使得第一计算设备可以基于硬件的方式完成确定报文的传输类型、报文的生成和传输工作,不需软件参与,降低了软件层次的复杂程度。
根据第一方面的第二种可能的实现方式,在所述网络集群系统的第三种可能的实现方式中,所述拓扑信息保存在所述第一计算设备中,所述第一计算设备根据所述数据包中包含的所述目标计算设备的地址及所述拓扑信息确定所述报文的传输类型。
通过这种方式,使得第一计算设备可以基于软硬件结合的方式完成报文的传输类型的确定,可以降低网卡的数据处理成本和数据存储成本,并提升报文的传输类型的确定方式的灵活性。
根据第一方面,或以上第一方面的任意一种可能的实现方式,在所述网络集群系统的第四种可能的实现方式中,所述报文中还包括所述报文的报文类型,所述网络设备用于根据所述报文中的传输标记及所述报文类型将所述报文通过不同的方式进行传输。
通过这种方式,使得在不同传输类型的报文的传输过程不会相互影响的前提下,不同报文类型的报文的传输也不会相互影响,可以进一步提升网络计算系统的报文传输性能。
根据第一方面,或以上第一方面的任意一种可能的实现方式,在所述网络集群系统的第五种可能的实现方式中,所述根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输时,具体用于根据所述报文中的传输标记指示的报文的传输类型将所述报文放入不同的优先级队列或者虚拟通道。
通过这种方式,使得网络集群系统的报文传输方式更灵活。
第二方面,本申请的实施例提供了一种报文传输方法,所述方法应用于网络集群系统中的第一物理分区中的网络设备,所述网络集群系统包括多个物理分区,每个物理分区包括多个计算设备及网络设备,所述方法包括:接收到来自所述多个物理分区中的第一物理分区中的第一计算设备的报文;根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输,所述传输标记指示所述报文的传输类型,所述传输类型包括短距传输和长距传输,所述短距传输为所述报文的目标计算设备与所述第一计算设备属于所述第一物理分区,所述长距传输为所述目标计算设备不属于所述第一物理分区。
根据第二方面,在所述报文传输方法的第一种可能的实现方式中,所述物理分区为分发点POD。
根据第二方面,或第二方面的第一种可能的实现方式,在所述报文传输方法的第二种可能的实现方式中,所述报文中还包括所述报文的报文类型,所述网络设备用于根据所述报文中的传输标记及所述报文类型将所述报文通过不同的方式进行传输。
根据第二方面,或以上第二方面的任意一种可能的实现方式,在所述报文传输方法的第三种可能的实现方式中,所述根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输时,具体用于根据所述报文中的传输标记指示的报文的传输类型将所述报文放入不同的优先级队列或者虚拟通道。
第三方面,本申请的实施例提供了一种网络设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的报文传输方法。
第四方面,本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的报文传输方法。
第五方面,本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的报文传输方法。
本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出现有技术的网络集群系统的结构的示意图。
图2示出根据本申请实施例的网络集群系统的示意图。
图3a示出根据本申请实施例的网络集群系统实现报文传输的流程的示意图。
图3b示出根据本申请实施例的报文的示例。
图4示出根据本申请实施例的网络集群系统实现报文传输的流程的示意图。
图5示出根据本申请实施例的网络集群系统实现报文传输的流程的示意图。
图6示出根据本申请实施例的网络设备的示例性结构图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
网络集群系统(如数据中心网络等)通常包括多个计算设备,因此一般采用聚合以太网上的RDMA(RDMA over converged ethernet,RoCE)架构或者无限带宽(Infiniband,IB)架构。流量控制技术用于防止网络在拥塞的情况下出现丢包从而保障网络的高效率,是实现无损网络的基本技术之一。随着网络集群系统技术不断发展,设备间传输的报文的数据量更大、类型也更多,为了保证整体网络的低时延、无丢包、高吞吐,流量控制技术在网络中发挥着越来越重要的作用。
现有网络集群系统一般将报文按类型区分为计算类型、存储类型、控制类型和数据类型等。RoCE架构网络的流量控制技术主要是控制不同类型报文进入不同的优先级队列中,不同的优先级队列有自己的优先级调度及流控制参数配置策略。例如RoCE架构网络中常见的流量控制技术——基于优先级的流控制(priority-based flow control,PFC)技术,以流控制PFC水位线作为流控制参数,通过感知网络中的拥塞情况,当任意设备出现拥塞,导致数据报文占用缓存累积超过基于优先级的流控制(priority-based flowcontrol,PFC)水位线时,触发该设备的数据输入端口发送流量控制帧(Pause帧)到上游设备,控制上游设备停止数据报文的发送。IB架构网络的流量控制技术主要是控制不同类型的报文进入不同的虚拟通道(virtual lane,VL)中,不同的虚拟通道有自己的调度及流控制参数配置策略。例如IB架构网络中常见的流量控制技术——信用机制,由数据接收端向数据发送端授予信用,在数据发送端确认有信用的情况下才允许发送数据报文,无信用则暂停数据报文的发送。通过数据报文的暂停发送能有效控制缓存中累计的数据报文数量,防止数据溢出,即防止丢包。
在流量控制技术的基础之上,网络集群系统也会通过拥塞控制算法进一步提升整体网络性能。基于明确拥塞通告(explicit congestion notification,ECN)的端到端拥塞控制算法,如常见的数据中心网络的拥塞控制算法(data center quantized congestionnotification,DCQCN),根据网络拥塞情况在交换机对报文进行标记,通过数据接收端侧网卡根据标记指示运用对应的升速或降速策略,使得报文的传输速度提升或下降。
这种流量控制方式在网络集群系统规模较小时流量控制效果较好,但在网络集群系统规模变大时容易造成网络性能的下降。图1示出现有技术的网络集群系统的结构的示意图。
如图1所示,以数据中心网络为例,大规模的数据中心网络可能包括多个分发点(point of delivery,POD),每个分发点可能包括多个计算设备以及交换设备(例如交换机)。则对于数据中心网络中的各计算设备之间的数据报文传输,存在跨分发点传输和非跨分发点传输的情况。
例如,分发点Pod1可包括交换设备A、交换设备B、交换设备C、交换设备D,其中交换设备C、交换设备D分别连接有两个计算设备;分发点Pod2可包括交换设备E、交换设备F、交换设备G、交换设备H,其中交换设备G、交换设备H分别连接有两个计算设备。
假设交换设备C连接的一个计算设备作为源主机1,交换设备D连接的一个计算设备作为目的主机2,交换设备H连接的一个计算设备作为目的主机3,则源主机1发往目的主机2的数据报文即为非跨分发点传输的数据报文,源主机1发往目的主机3的数据报文即为跨分发点传输的数据报文。通常情况下,跨分发点传输的传输距离远大于非跨分发点传输的传输距离。
可以理解的是,传输距离长将导致数据报文的传输延时增大,使得目的主机响应时间滞后(100米光纤需要500ns的传输时延)。响应不及时在一定程度上会损害网络性能,影响整体网络的效率。且由于同一类型的报文是在同一优先级队列或虚拟通道中共同传输,所以若单纯调节流控制参数来适配跨分发点传输的数据报文,又会影响非跨分发点传输的数据报文传输时的网络性能。
有鉴于此,提出了一种网络集群系统、报文传输方法及网络设备,根据本申请实施例的网络集群系统,能够降低报文的传输延时差距,提升网络性能。
图2示出根据本申请实施例的网络集群系统的示意图。
如图2所示,本申请实施例的网络集群系统可以包括数据中心等大规模网络集群。网络集群系统包括多个物理分区(例如上文所述的分发点),每个分区中包括可以作为报文(包括数据包)传输的源主机或目的主机的计算设备,可选地,至少一个物理分区中还包括实现交换机功能的网络设备。
举例来说,本申请作为源主机或目的主机的计算设备可以是服务器等。
本申请实施例的网络集群系统,可将报文的传输方式区分为长距传输(例如上文所述的跨分发点传输)的传输方式以及短距传输(例如上文所述的非跨分发点传输)的传输方式,使得某一计算设备(例如下文所述的第一计算设备)在传输报文(包括数据包)到另一设备(例如下文所述的目标计算设备)时,根据不同的报文类型及报文的传输类型,可以采用不同的传输方式进行传输,例如通过不同的优先级队列或者虚拟通道传输,使得以长距传输的方式传输的报文不会影响以短距传输的方式传输的报文的传输情况;不同的优先级队列或者虚拟通道的流控制参数(相当于上文所述的基于优先级的流控制(priority-based flow control,PFC)水位线或明确拥塞通告(explicit congestion notification,ECN)水位线)可根据第一计算设备到目标计算设备的传输距离相应设置,以保证报文的数据传输效率较高。
参见图2,各计算设备之间的信息流传输需网络设备的协助,其中可以使用一个网络设备,也可以使用两个甚至更多的网络设备,本申请对此不作限制。其中作为源主机的计算设备到网络设备之间传输的是可以包括数据包的报文,网络设备到作为目的主机的计算设备之间传输的可以是数据包,也可以是包括数据包的报文。本申请对此不作限制。
下面介绍本申请实施例的网络集群系统实现报文传输的示例性方法。
在一种可能的实现方式中,本申请提出一种网络集群系统,网络集群系统包括多个物理分区,每个物理分区包括多个计算设备及网络设备。网络集群系统的示例可以参见图2。下面以多个物理分区中的第一物理分区中的第一计算设备向目标计算设备作为源主机传输报文、目标计算设备作为目的主机接收报文为例,介绍本申请实施例的报文传输方法。
图3a示出根据本申请实施例的网络集群系统实现报文传输的流程的示意图。图3a中以第一计算设备和目标计算设备之间仅通过一个网络设备传输报文作为示例。
如图3a所示,多个物理分区中的第一物理分区中的第一计算设备的网卡用于对数据包添加传输标记生成报文(步骤S31),并发送报文(步骤S32),传输标记指示报文的传输类型,传输类型包括短距传输和长距传输,短距传输为报文的目标计算设备与第一计算设备属于第一物理分区,长距传输为目标计算设备不属于第一物理分区。
其中,传输类型可以由第一计算设备确定,其示例性确定方式可以参见下文步骤S35的相关描述。网卡可以是被设计用来允许计算设备在网络上进行通讯的硬件,报文可以由网卡生成,网卡还负责报文的收发。图3b示出根据本申请实施例的报文的示例。其中报文可包括报文头和报文主体,数据包可设置在报文主体中,传输标记可以设置在报文头中。报文还可以包括更多的信息,如报文类型等,本申请对此不作限制。
生成报文的示例性方式可以参见下文步骤S34-步骤S36,以及图4、图5的相关描述。
第一计算设备与目标计算设备之间的网络设备用于在接收到报文后,根据报文中的传输标记指示的报文的传输类型将报文通过不同的方式进行传输(步骤S33)。其中,不同的传输方式可以是不同传输类型的报文分别传输等。其示例性实现方式可以参见下文对步骤S33的进一步描述。
在图3a的示例中,网络设备可以是向目标计算设备传输报文。可以理解的是,第一计算设备与目标计算设备之间还可以包括更多的网络设备,在此情况下,报文可以经过多个网络设备依次转发到目标计算设备,报文在每两个设备间的传输方式都可以是不同传输类型的报文分开传输的方式。
根据本申请实施例的网络集群系统,通过第一计算设备的网卡对数据包添加传输标记生成报文,并发送报文,由于传输标记指示报文的传输类型,因此使得接收报文的第一计算设备与目标计算设备之间的网络设备能够根据传输标记获取到传输类型信息;网络设备在接收到报文后,可以根据报文中的传输标记指示的报文的传输类型将报文通过不同的方式进行传输,由于传输类型包括短距传输和长距传输,短距传输为报文的目标计算设备与第一计算设备属于第一物理分区,长距传输为目标计算设备不属于第一物理分区,因此实现了跨分区报文与非跨分区报文的分开传输,使得不同传输类型的报文传输过程不会相互影响,提高了数据传输过程中的隔离性;分开传输报文使得允许使用独立的流控制参数,相比同一报文类型的报文共同传输、使得必须采用同样的流控制参数的现有技术,本申请实施例的网络集群系统使得流控制参数可以与报文更为适应,进而提升了网络集群系统的性能。
在一种可能的实现方式中,所述物理分区为分发点POD。分发点POD的示例可以参见上文及图1的相关描述。本领域技术人员应理解,物理分区也可以采用其他现有技术的方式实现,只要同一物理分区内的计算设备间传输距离小于不同物理分区内的计算设备间的传输距离即可,本申请对于物理分区的具体设置方式不做限制。
图4和图5分别示出根据本申请实施例的网络集群系统实现报文传输的流程的示意图。
如图4和图5所示,在网络设备接收第一计算设备发送的数据报文(步骤S31)之前,可以先配置好作为设备之间的传输介质的传输通道。其中网络集群系统是RoCE架构时传输通道可以是优先级队列,网络集群系统是IB架构时传输通道可以是虚拟通道。下面介绍本申请实施例配置传输通道的示例性方式。
在一种可能的实现方式中,步骤S31之前,所述方法还包括:
步骤S30,网络集群系统中的每一设备根据报文的全部传输类型,分别配置自身与网络设备之间的传输通道;其中,每一传输类型对应至少一个传输通道,不同传输类型对应的传输通道使用的流控制参数不同。
其中,网络集群系统是RoCE架构时流控制参数可以是上文所述的基于优先级的流控制PFC水位线,网络集群系统是IB架构时流控制参数可以是上文所述的明确拥塞通告ECN水位线。
举例来说,对于网络集群系统而言,其中的设备之间传输的报文的传输类型和报文类型通常是有限的,并与用户需求相关。在此情况下,如图4和图5所示,对于网络集群系统中的每一设备(图4和图5中仅示出第一计算设备和目标计算设备),可以先根据报文的全部传输类型的数量,再根据传输类型的数量配置自身与自身连接的网络设备之间的传输通道,使得每一传输类型对应至少一个传输通道。如果某一网络设备存在相连接的其他网络设备,则步骤S30也可以配置该网络设备与其他网络设备之间的传输通道。
其中,配置传输通道,可以是配置传输通道与传输类型的映射关系,使得网络设备根据传输类型可以确定报文可放入哪一传输通道;以及配置传输通道的流控制参数等等,使得网络设备可以确定报文放入的传输通道以何种传输速率传输报文。不同传输通道使用的流控制参数可以不同,并可以与传输通道对应的传输类型相关联。例如,在传输类型为长距传输时,流控制参数可以设置为对应较快的传输速率,以降低传输延时。反之,在传输类型为短距传输时,流控制参数可以设置为对应较慢的传输速率,以降低网络带宽占用。传输通道的具体配置方式可以基于现有技术实现,在此不再赘述。
通过这种方式,可以在保证网络性能的同时节省传输资源。
在一种可能的实现方式中,所述根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输(步骤S33)时,具体用于根据所述报文中的传输标记指示的报文的传输类型将所述报文放入不同的优先级队列或者虚拟通道。
通过这种方式,使得网络集群系统的报文传输方式更灵活。
举例来说,由上文描述可知,根据可能存在的报文的传输类型,网络设备和目标计算设备之间可以预先配置有多个传输通道,其中网络集群系统是RoCE架构时传输通道可以是优先级队列,网络集群系统是IB架构时传输通道可以是虚拟通道。使得每一传输通道对应一种传输类型。不同的传输通道可以分别配置与传输通道负责传输的报文的传输类型相适应的流控制参数,流控制参数用于调节报文的传输速率。基于此,网络设备根据报文中的传输标记指示的报文的传输类型将报文通过不同的方式进行传输时,可以是根据报文中的传输标记指示的报文的传输类型将报文放入不同的优先级队列或者虚拟通道进行传输,使得每个优先级队列或虚拟通道中传输的报文能够在满足需求的时间内传输至目标计算设备。
网络设备从第一计算设备处接收到的是报文,因此网络设备可以根据报文,分析确定该报文的传输方式。如上文所述,报文包括数据包,数据包中包含目标计算设备的地址,因此,首先根据该地址,可以确定网络设备的报文传输对象(例如目标计算设备),可选的传输通道可以是网络设备和目标计算设备之间的传输通道;进一步地,根据传输标记指示的传输类型,可以从网络设备和目标计算设备之间的传输通道中,找到与该传输类型相对应的任一的传输通道,将报文放入该传输通道即可。通过这种方式,可以保证网络设备将报文放入的传输通道的准确度。
可以理解的是,网络设备和目标计算设备之间配置有对应于传输类型的多个传输通道,且报文的数据量较大时,报文也可以被分为几部分,将各部分分别写入对应于传输类型的多个传输通道,传输到目标计算设备之后再由目标计算设备进行组合。本申请实施例对于网络设备和目标计算设备之间的每一传输通道传输的对象不作限制,只要网络设备可以将报文中的数据包全部传输至目标计算设备即可。
通过这种方式,使得报文的传输效率更高。
下面介绍第一计算设备生成报文的示例性方法。
在一种可能的实现方式中,步骤S31之前,所述方法还包括:
步骤S34,第一计算设备获取拓扑信息,拓扑信息指示网络集群系统中的各设备所属的物理分区;
步骤S35,第一计算设备根据拓扑信息以及数据包中包含的目标计算设备的地址确定报文的传输类型;
步骤S36,第一计算设备根据报文的传输类型确定传输标记。
通过这种方式,可以使得报文既包括需传输的数据包本身,又包括指示数据包的传输类型的信息,因此网络设备接收报文并传输报文时,能够保证报文的传输方式的准确度。
举例来说,拓扑信息可以指示网络集群系统中的各设备的地址与网络集群系统的各物理分区的关联关系,第一计算设备可以通过获取拓扑信息确定第一计算设备与网络集群系统中各设备是否处于同一物理分区,进而确定报文从第一计算设备到网络集群系统中的各设备的传输类型。数据包携带的地址可以是数据包的传输对象在网络集群系统中的地址,在图4和图5的示例中可以是目标计算设备的地址。在此情况下,第一计算设备根据拓扑信息以及数据包中包含的目标计算设备的地址即可确定报文的传输类型。第一计算设备根据数据包和报文的传输类型即可生成数据报文(步骤S31)。报文的示例可以参见上图3b。生成数据报文的过程中,报文的传输类型可以用于配置报文的字段(例如报文头)。可选地,字段可以配置为使用不同的值表示不同的传输类型,也可以配置为使用不同的标识表示不同的传输类型,本申请实施例对于字段的具体配置方式不作限制。配置字段的方式可以基于现有技术来实现,在此不再赘述。
示例性地,本申请实施例提出第一计算设备确定报文的传输类型(步骤S35)的两种方式。
如图4所示,在一种可能的实现方式中,所述网卡中包括所述网络集群系统的拓扑信息,所述网卡在接收到所述数据包后,根据所述数据包中包含的所述目标计算设备的地址及所述拓扑信息确定所述报文的传输类型。
例如,第一计算设备的网卡可以是能够通过编程改变功能的智能网卡。在此情况下,步骤S34-S36以及步骤S31可以由网卡完成。其中,获取拓扑信息,可以是开发者直接将拓扑信息写入网卡中。
目标计算设备的地址可指明该数据包的传输对象(在本申请实施例中以目标计算设备作为示例)是网络集群系统所包括的多个计算设备中的哪一个计算设备。在此情况下,结合拓扑信息,即可确定目标计算设备是否属于第一物理分区,进而确定报文从第一计算设备到目标计算设备的传输方式。例如,如果第一计算设备属于第一物理分区,目标计算设备也属于第一物理分区,则可认为第一计算设备与目标计算设备之间的报文的传输类型是短距传输;反之,如果第一计算设备属于第一物理分区,目标计算设备不属于第一物理分区,则可认为第一计算设备与目标计算设备之间的报文的传输类型是长距传输。
通过这种方式,使得第一计算设备可以基于硬件的方式完成确定报文的传输类型、报文的生成和传输工作,不需软件参与,降低了软件层次的复杂程度。
如图5所示,在另一种可能的实现方式中,所述拓扑信息保存在所述第一计算设备中,所述第一计算设备根据所述数据包中包含的所述目标计算设备的地址及所述拓扑信息确定所述报文的传输类型。
例如,第一计算设备可包括软件的统一多通信后端(unified communication X,UCX)以及硬件的网卡,该网卡可以是上述智能网卡,也可以是不能够通过编程改变功能的普通网卡,普通网卡仅能够基于已经根据确定的传输类型生成报文,并传输数据报文。在此情况下,拓扑信息可以保存在第一计算设备的存储器中,可以设置步骤S34-S36由统一多通信后端完成,步骤S31由网卡完成。其中,保存在第一计算设备中的拓扑信息,可以是统一多通信后端从软件层感知的。
统一多通信后端执行步骤S36确定传输类型的方式可以参见上文中由网卡确定传输类型的方式的示例。执行步骤S36之后,统一多通信后端可以将传输类型和数据包一同输出给网卡,使得网卡可以确定数据包和传输类型的对应关系。
通过这种方式,使得第一计算设备可以基于软硬件结合的方式完成报文的传输类型的确定,可以降低网卡的数据处理成本和数据存储成本,并提升报文的传输类型的确定方式的灵活性。
可选地,网络集群系统的结构可能发生变化,因此网络集群系统的结构每发生一次变化,第一计算设备的统一多通信后端可相应重新获取并保存新的拓扑信息,以保证使用拓扑信息确定的传输类型的准确度。
在一种可能的实现方式中,所述报文中还包括所述报文的报文类型,所述网络设备用于根据所述报文中的传输标记及所述报文类型将所述报文通过不同的方式进行传输。
举例来说,数据包还可包括指示数据包类型的标记,数据包类型可包括计算类型、存储类型、控制类型和数据类型等。根据不同类型的数据包生成的报文的类型也不同,例如计算类型的数据包生成的也是计算类型的报文,以此类推,本申请实施例的报文类型可以包括计算类型、存储类型、控制类型和数据类型等。本领域技术人员应理解,报文(和数据包)的类型应不止上述示例,本申请对此不作限制。
不同类型的报文的传输延时需求可能不同,对此,在网络设备接收到报文后,根据报文中的传输标记指示的报文的传输类型将报文通过不同的方式进行传输时,可以是根据报文中的传输标记及报文类型将报文通过不同的方式进行传输。
对此,在步骤S30中,网络集群系统中的每一设备也可以先确定报文类型与报文的传输类型的全部可能的组合,再根据组合的数量配置自身与自身连接的交换设备之间的传输通道,使得类型与传输方式的每一组合对应至少一个传输通道(优先级队列或者虚拟通道),不同的组合对应的传输通道不同。在步骤S31生成报文的过程中,在配置报文的字段时,可以是根据报文类型与报文的传输类型配置报文的字段,从而生成报文。在步骤S33中网络设备传输报文时,可以是先根据报文中的传输类型和报文类型的组合,确定对应的传输通道,再将报文放入确定的传输通道。
通过这种方式,使得在不同传输类型的报文的传输过程不会相互影响的前提下,不同报文类型的报文的传输也不会相互影响,可以进一步提升网络计算系统的报文传输性能。本申请的实施例提供了一种报文传输方法,所述方法应用于网络集群系统中的第一物理分区中的网络设备,所述网络集群系统包括多个物理分区,每个物理分区包括多个计算设备及网络设备,所述方法包括:接收到来自所述多个物理分区中的第一物理分区中的第一计算设备的报文;根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输,所述传输标记指示所述报文的传输类型,所述传输类型包括短距传输和长距传输,所述短距传输为所述报文的目标计算设备与所述第一计算设备属于所述第一物理分区,所述长距传输为所述目标计算设备不属于所述第一物理分区。
报文传输方法的具体实现方式的示例可以参见上文对网络集群系统中的网络设备的相关描述。
在一种可能的实现方式中,所述物理分区为分发点POD。
在一种可能的实现方式中,所述报文中还包括所述报文的报文类型,所述网络设备用于根据所述报文中的传输标记及所述报文类型将所述报文通过不同的方式进行传输。
在一种可能的实现方式中,所述根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输时,具体用于根据所述报文中的传输标记指示的报文的传输类型将所述报文放入不同的优先级队列或者虚拟通道。
本申请的实施例提供了一种网络设备,包括:处理器以及用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现上述报文传输方法。
本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述报文传输方法。
本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述报文传输方法。
图6示出根据本申请实施例的网络设备的示例性结构图。
如图6所示,网络设备可以具备交换功能,例如中继器、集线器、网桥、交换机等等。本申请实施例对网络设备的具体类型不作特殊限制。
网络设备可以包括处理器110,存储器121,通信模块160。可以理解的是,本申请实施例示意的结构并不构成对网络设备的具体限定。在本申请另一些实施例中,网络设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
处理器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110用过或使用频率较高的指令或数据,例如本申请实施例中的流控制参数等。如果处理器110需要使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
存储器121可以用于存储计算机可执行程序代码,该可执行程序代码包括指令。存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序等。存储数据区可存储网络设备使用过程中所获取或创建的数据(比如报文等)等。此外,存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在存储器121的指令,和/或存储在设置于处理器中的存储器的指令,实现上述网络设备所执行的各种方法。
通信模块160可以用于通过无线通信/有线通信的方式从其他装置或设备接收数据(例如本申请实施例中的报文),以及向其他装置或设备输出数据。例如可以提供包括WLAN(如Wi-Fi网络)、蓝牙(Bluetooth,BT)、全球导航卫星系统(global navigationsatellite system,GNSS)、调频(frequency modulation,FM)、近距离无线通信技术(nearfield communication,NFC)、红外技术(infrared,IR)等无线通信的解决方案。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory,EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory,SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(Digital Video Disc,DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换设备、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(Local Area Network,LAN)或广域网(WideArea Network,WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或可编程逻辑阵列(Programmable Logic Array,PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(方法)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application SpecificIntegrated Circuit,专用集成电路))来实现,或者可以用硬件和软件的组合,如固件等来实现。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种网络集群系统,其特征在于,所述网络集群系统包括多个物理分区,每个物理分区包括多个计算设备及网络设备,
所述多个物理分区中的第一物理分区中的第一计算设备的网卡用于对数据包添加传输标记生成报文,并发送所述报文,所述传输标记指示所述报文的传输类型,所述传输类型包括短距传输和长距传输,所述短距传输为所述报文的目标计算设备与所述第一计算设备属于所述第一物理分区,所述长距传输为所述目标计算设备不属于所述第一物理分区;
所述第一计算设备与所述目标计算设备之间的网络设备用于在接收到所述报文后,根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输。
2.根据权利要求1所述的网络集群系统,其特征在于,所述物理分区为分发点POD。
3.根据权利要求1或2所述的网络集群系统,其特征在于,所述网卡中包括所述网络集群系统的拓扑信息,所述网卡在接收到所述数据包后,根据所述数据包中包含的所述目标计算设备的地址及所述拓扑信息确定所述报文的传输类型。
4.根据权利要求3所述的网络集群系统,其特征在于,所述拓扑信息保存在所述第一计算设备中,所述第一计算设备根据所述数据包中包含的所述目标计算设备的地址及所述拓扑信息确定所述报文的传输类型。
5.根据权利要求1-4任意一项所述的网络集群系统,其特征在于,所述报文中还包括所述报文的报文类型,所述网络设备用于根据所述报文中的传输标记及所述报文类型将所述报文通过不同的方式进行传输。
6.根据权利要求1-5任意一项所述的网络集群系统,其特征在于,所述根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输时,具体用于根据所述报文中的传输标记指示的报文的传输类型将所述报文放入不同的优先级队列或者虚拟通道。
7.一种报文传输方法,其特征在于,所述方法应用于网络集群系统中的第一物理分区中的网络设备,所述网络集群系统包括多个物理分区,每个物理分区包括多个计算设备及网络设备,所述方法包括:
接收到来自所述多个物理分区中的第一物理分区中的第一计算设备的报文;
根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输,所述传输标记指示所述报文的传输类型,所述传输类型包括短距传输和长距传输,所述短距传输为所述报文的目标计算设备与所述第一计算设备属于所述第一物理分区,所述长距传输为所述目标计算设备不属于所述第一物理分区。
8.根据权利要求7所述的报文传输方法,其特征在于,所述物理分区为分发点POD。
9.根据权利要求7或8所述的报文传输方法,其特征在于,所述报文中还包括所述报文的报文类型,所述网络设备用于根据所述报文中的传输标记及所述报文类型将所述报文通过不同的方式进行传输。
10.根据权利要求7-9任意一项所述的报文传输方法,其特征在于,所述根据所述报文中的传输标记指示的报文的传输类型将所述报文通过不同的方式进行传输时,具体用于根据所述报文中的传输标记指示的报文的传输类型将所述报文放入不同的优先级队列或者虚拟通道。
11.一种网络设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令时实现权利要求7-10任意一项所述的方法。
12.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求7-10中任意一项所述的方法。
13.一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,其特征在于,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行权利要求7-10中任意一项所述的方法。
CN202211399997.3A 2022-11-09 2022-11-09 网络集群系统、报文传输方法及网络设备 Pending CN118018488A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211399997.3A CN118018488A (zh) 2022-11-09 2022-11-09 网络集群系统、报文传输方法及网络设备
PCT/CN2023/100997 WO2024098757A1 (zh) 2022-11-09 2023-06-19 网络集群系统、报文传输方法及网络设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211399997.3A CN118018488A (zh) 2022-11-09 2022-11-09 网络集群系统、报文传输方法及网络设备

Publications (1)

Publication Number Publication Date
CN118018488A true CN118018488A (zh) 2024-05-10

Family

ID=90945079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211399997.3A Pending CN118018488A (zh) 2022-11-09 2022-11-09 网络集群系统、报文传输方法及网络设备

Country Status (2)

Country Link
CN (1) CN118018488A (zh)
WO (1) WO2024098757A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503058B (zh) * 2016-09-27 2019-01-18 华为技术有限公司 一种数据加载方法、终端和计算集群
US11102079B2 (en) * 2018-04-17 2021-08-24 Microsoft Technology Licensing, Llc Cross-regional virtual network peering
CN111597148B (zh) * 2020-05-14 2023-09-19 杭州果汁数据科技有限公司 用于分布式文件系统的分布式元数据管理方法
CN113992561A (zh) * 2020-07-10 2022-01-28 华为技术有限公司 一种报文处理方法及装置

Also Published As

Publication number Publication date
WO2024098757A1 (zh) 2024-05-16

Similar Documents

Publication Publication Date Title
CN111682952B (zh) 针对体验质量度量的按需探测
US20210400537A1 (en) Cross-layer and cross-access technology traffic splitting and retransmission mechanisms
CN102055667B (zh) 用于实现网络规则的方法和设备
US10587494B2 (en) Network control method and apparatus
CN114173374A (zh) 多接入管理服务分组分类和优先级排定技术
JP6271039B2 (ja) ハイブリッドネットワークにおけるパス選択
US10484233B2 (en) Implementing provider edge with hybrid packet processing appliance
CN108199925A (zh) 一种数据发送方法、接收方法及装置
US8750129B2 (en) Credit-based network congestion management
CN118433113A (zh) 基于接收方的精密拥塞控制
KR102327904B1 (ko) 사용자 평면을 분리하기 위한 서비스 품질 구현들
US20170201459A1 (en) Traffic control on an on-chip network
US20190220311A1 (en) Method, apparatus and computer program product for scheduling dedicated processing resources
US10389601B2 (en) Dynamic adaptive network
CN105391647A (zh) 一种流量控制的方法及系统
CN105814850B (zh) 路由数据包的方法、节点和通信系统
CN108092787B (zh) 一种缓存调整方法、网络控制器及系统
CN117880201A (zh) 一种基于数据处理器的网络负载均衡方法、系统及装置
US10826831B2 (en) Dynamic protocol independent multicast load balancing
CN118018488A (zh) 网络集群系统、报文传输方法及网络设备
US9942147B2 (en) Method nodes and computer program for enabling of data traffic separation
WO2024041572A1 (zh) 业务处理方法、装置、设备、介质及程序产品
CN114567679B (zh) 数据传输方法及装置
US11909841B2 (en) System, apparatus and method for adaptive peer-to-peer communication with edge platform
US12010012B2 (en) Application-aware BGP path selection and forwarding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination