CN114979001B - 基于远程直接数据存取的数据传输方法、装置以及设备 - Google Patents
基于远程直接数据存取的数据传输方法、装置以及设备 Download PDFInfo
- Publication number
- CN114979001B CN114979001B CN202210557202.0A CN202210557202A CN114979001B CN 114979001 B CN114979001 B CN 114979001B CN 202210557202 A CN202210557202 A CN 202210557202A CN 114979001 B CN114979001 B CN 114979001B
- Authority
- CN
- China
- Prior art keywords
- queue
- transmission
- sub
- target
- sending
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 311
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000004044 response Effects 0.000 claims abstract description 100
- 238000012545 processing Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 abstract description 20
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/18—End to end
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/215—Flow control; Congestion control using token-bucket
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
- H04L47/62—Queue scheduling characterised by scheduling criteria
- H04L47/622—Queue service order
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开提供了一种基于远程直接数据存取的数据传输方法、装置以及设备,涉及计算机技术领域,尤其涉及数据传输技术领域。具体实现方案为:将多个发送队列中指向同一响应端的各发送WQE,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文;将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入,本公开实施例的技术方案提供一种RDMA通信负载均衡传输解决方案,有效缓解RDMA网络拥塞,提升RDMA网络的整体性能。
Description
技术领域
本公开涉及计算机技术领域,具体涉及数据传输技术领域,尤其涉及一种基于远程直接数据存取的数据传输方法、装置以及设备。
背景技术
RDMA(Remote Direct Memory Access,远程直接数据存取)具有高带宽、低时延、bypass Kenerl等特点,采用RDMA通信技术可以提高系统吞吐量、降低系统的网络通信延迟,目前在数据中心存储与计算网络中已有广泛应用。
现有的RDMA通信技术,IB(Infiniband,无限带宽)协议提出的RC(ReliableConnections,可靠连接)服务在大规模部署RDMA网络中,对内存资源开销太大,对应用软件的部署不友好;IB协议提出的UD(Unreliable Datagram,不可靠数据包)服务,虽然能解决内存资源开销问题,但是其不可靠传输,需上层应用来确保数据传输可靠性的特点,对应用软件来说不友好。
因此,在IB RD协议的基础上,提出了XRD协议与XRD协议相关问题的解决方案。但是又因为网络传输中ECMP(Equal-Cost Multipath Routing,等价路由)存在哈希冲突的问题,导致在大规模RDMA网络中出现的拥塞;当出现网络拥塞导致丢包时,RDMA带宽急剧下来,通信时延变大,给业务带来不好的体验。
发明内容
本公开提供了一种基于远程直接数据存取的数据传输方法、装置以及设备。
根据本公开的一方面,提供了一种基于远程直接数据存取的数据传输方法,由请求端执行,包括:
将多个发送队列中指向同一响应端的各发送WQE(Work Queue Element,工作队列元素),调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;
其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;
对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文;
将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入。
根据本公开的另一方面,提供了一种基于远程直接数据存取的数据传输方法,由响应端执行,包括:
在接收到请求端发送的目标发送报文时,根据目标发送报文中的共享队列标识和子队列标识,确定目标端对端接收子队列;
检测目标端对端接收子队列中是否存储与目标发送报文对应的目标接收WQE;
若否,则从多个接收队列中获取目标接收WQE调度至目标端对端接收子队列中;
根据目标端对端接收子队列中的目标接收WQE,将目标发送报文中的负载信息进行内存写入。
根据本公开的另一方面,提供了一种基于远程直接数据存取的数据传输装置,由请求端执行,包括:
发送元素调度模块,用于将多个发送队列中指向同一响应端的各发送WQE,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;
其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;
发送报文形成模块,用于对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文;
报文发送模块,用于将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入。
根据本公开的另一方面,提供了一种基于远程直接数据存取的数据传输装置,由响应端执行,包括:
目标端对端接收子队列确定模块,用于在接收到请求端发送的目标发送报文时,根据目标发送报文中的共享队列标识和子队列标识,确定目标端对端接收子队列;
目标接收WQE检测模块,用于检测目标端对端接收子队列中是否存储与目标发送报文对应的目标接收WQE;
目标接收WQE调度模块,用于若否,则从多个接收队列中获取目标接收WQE调度至目标端对端接收子队列中;
负载信息写入模块,用于根据目标端对端接收子队列中的目标接收WQE,将目标发送报文中的负载信息进行内存写入。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所提供的由请求端执行的基于远程直接数据存取的数据传输方法,或者执行由响应端执行的基于远程直接数据存取的数据传输方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开所提供的由请求端执行的基于远程直接数据存取的数据传输方法,或者执行由响应端执行的基于远程直接数据存取的数据传输方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开所提供的由请求端执行的基于远程直接数据存取的数据传输方法,或者由响应端执行的基于远程直接数据存取的数据传输方法。
本公开实施例的技术方案提供一种RDMA通信负载均衡传输解决方案,有效缓解RDMA网络拥塞,提升RDMA网络的整体性能。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种由请求端执行的基于远程直接数据存取的数据传输方法的流程示意图;
图2a是根据本公开实施例提供的另一种基于远程直接数据存取的数据传输方法的流程示意图;
图2b是根据本公开实施例提供的一种端对端与多路径关联示例图;
图2c为本公开实施例提供的一种QP SQ WQE入队Sub EE SQ队列示意图;
图3a是根据本公开实施例提供的一种由响应端执行的基于远程直接数据存取的数据传输方法的流程示意图;
图3b为本公开实施例提供的一种QP RQ WQE入队Sub EE RQ队列示意图;
图4是根据本公开实施例提供的一种基于远程直接数据存取的数据传输装置的结构示意图;
图5是根据本公开实施例提供的另一种基于远程直接数据存取的数据传输装置的结构示意图;
图6是根据本公开实施例提供的一种用来实现本公开实施例的基于远程直接数据存取的数据传输方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例提供的一种由请求端执行的基于远程直接数据存取的数据传输方法的流程示意图,本实施例适用于从请求端的指定存储位置直接提取指定数据并传输至响应端的情况,该方法可以通过基于远程直接数据存取的数据传输装置来执行,该装置可以通过软件和/或硬件的方式实现,并一般可以集成于终端的网卡中。参考图1,该方法具体包括如下步骤:
S110、将多个发送队列中指向同一响应端的各发送WQE,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中。
其中,发送队列可以指存放发送WQE的队列,发送WQE可以理解为发送任务,发送任务可以指在请求端侧下发的对待发送数据的发送通知,具体的,一个发送WQE指向一块存储设定数据的内存或者缓存区。
例如,请求端侧可以有多个发送队列。例如,请求端中的第一应用程序需要发送位于第一内存地址的第一数据、位于第二内存地址的第二数据和位于第三内存地址的第三数据至其他终端的内存中,则请求端下发与第一数据匹配的第一发送WQE、与第二数据匹配的第二发送WQE和与第三数据匹配的第三发送WQE3至与第一应用程序匹配的第一发送队列。具体的,第一发送WQE中记录该第一内存地址,第二发送WQE中记录该第二内存地址,第三发送WQE中记录该第三内存地址。
响应端可以是接收请求端传输的数据的终端,也即,与请求端共同实现RDMA的对端设备。
端对端共享发送队列可以是一种存放来自不同发送队列中发送WQE的队列,同一请求端侧可以包括至少一个端对端共享发送队列,每个端对端共享发送队列可以匹配一个响应端。
端对端发送子队列可以是端对端共享发送队列的下属队列,同一端对端共享发送队列可以匹配多个端对端发送子队列,该多个端对端发送子队列可以用于均衡同一端对端共享发送队列中的发送WQE负载。其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识。路由区分标识可以用于区分不同端对端发送子队列。
将指向同一响应端的各发送WQE由单个端对端共享发送队列进行存放及后续处理的话,与该端对端共享发送队列中各发送WQE对应的发送报文均会采用相同传输路径发送至同一响应端,可能会存在该传输路径负载过大而导致的阻塞问题。因此,在本公开实施例中,在请求端侧有数据发送需求并在多个发送队列中下发指向不同响应端的发送WQE时,可以将多个发送队列中指向同一响应端的各发送WQE,调度至与同一响应端对应的端对端共享发送队列下属的多个端对端发送子队列中,通过为多个端对端发送子队列配置不同的传输路径,可以将原来需要使用同一传输路径传输的多个发送报文打散至多个传输路径中进行报文传输,提供了一种RDMA通信负载均衡传输的新的实现方式。
S120、对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文。
其中,发送报文可以是对待发送数据进行打包得到的报文。可以从端对端共享发送队列中顺序获取一个待处理的发送WQE,进而,可以根据该发送WQE中记录的内存地址中,获取待发送数据,并将该待发送数据打包得到发送报文。
在本公开实施例中,可以按照每个端对端共享发送队列中发送WQE的排列顺序,依次将各发送WQE对应的待发送数据进行打包等处理操作,形成与各发送WQE匹配的发送报文。
S130、将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入。
其中,传输路径可以是请求端与响应端之间传输数据的路径,具体可以是传输发送报文的路径,在本公开实施例中,传输路径可以包含一条或者多条,由端对端发送子队列的路由区分标识进行确定。负载信息可以指从发送WQE中记录的内存地址处取到的待发送数据信息。
其中,对端地址标识可以用于指示响应端的地址。
在本公开实施例中,可以根据发送报文中携带的对端地址标识,将发送报文发送至与发送报文中的对端地址标识匹配的响应端。
在本公开实施例中,可以将与发送WQE匹配的各发送报文按照匹配的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,指示响应端将发送报文中的负载信息进行内存写入。
本公开实施例的技术方案,通过将多个发送队列中指向同一响应端的各发送WQE,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文;将各发送报文按照由路由区分标识确定的传输路径,发送至匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入,提供一种RDMA通信负载均衡传输解决方案,有效缓解RDMA网络拥塞,提升RDMA网络的整体性能。
图2a是根据本公开实施例提供的另一种基于远程直接数据存取的数据传输方法的流程示意图,本实施例在上述各实施例的基础上,对将多个发送队列中指向同一响应端的各发送WQE,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中的操作,进行细化。该方法可以由请求端执行,参考图2a,该方法具体包括如下步骤:
S210、获取与当前调度的目标发送WQE匹配的目标端对端共享发送队列标识和目标负载总量。
其中,端对端共享发送队列标识可以用于区分请求端侧指向不同响应端的多个端对端共享发送队列。目标负载总量可以是指目标发送报文的占用字节数,例如,50Bytes。
在本公开实施例中,在将多个发送队列中指向同一响应端的各发送WQE,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中过程中,具体可以根据多个发送队列中指向同一响应端的各发送WQE的调度需求,针对当前调度的目标发送WQE,获取与其匹配的目标端对端共享发送队列标识,以及目标负载总量。
S220、根据与目标端对端共享发送队列标识匹配的各端对端发送子队列的当前令牌数和目标负载总量,获取目标端对端发送子队列。
其中,令牌数可以是指端对端发送子队列的可承担量。所述当前令牌数由端对端发送子队列的当前调度权重和与已入队发送WQE匹配的发送报文负载总量共同确定。典型的,可以通过DWRR(Deficit Weighted Round Robin,差分加权轮循)调度算法实现。当前调度权重可以反映指端对端发送子队列的承担发送报文负载量的能力,即可以将发送WQE调度至端对端发送子队列的可能性。需要说明,每个端对端发送子队列可以具有相同的初始令牌数。
对于端对端发送子队列的令牌数,端对端发送子队列基于当前调度权重来增加令牌数,而已入队发送WQE匹配的负载总量来消耗令牌数。需要说明,在端对端发送子队列中有足够的令牌数时,才可以将发送WQE入队至端对端发送子队列中。
在本公开实施例中,对于与目标端对端共享发送队列标识匹配的各端对端发送子队列,可以获取匹配的当前令牌数,根据目标负载总量,获取目标端对端发送子队列。
可选的,各端对端发送子队列的当前调度权重具体可以通过实时获取各端对端发送子队列的路径拥塞信息;根据所述路径拥塞信息,更新各所述端对端发送子队列的当前调度权重。
其中,路径拥塞信息可以反映端对端发送子队列对应的传输路径的拥塞程度。
具体的,可以根据当前处理的端对端发送子队列的实时路径拥塞信息,确定匹配传输路径的数据传输拥塞程度,当拥塞程度越高,可以将当前处理的端对端发送子队列的当前调度权重更新为更小的权重,即将发送WQE调度至当前处理的端对端发送子队列的可能性更小,进而该端对端发送子队列对应的传输路径上的报文负载量会相应减少。相应的,拥塞程度越低,可以将当前处理的端对端发送子队列的当前调度权重更新为更大的权重,即将发送WQE调度至当前处理的端对端发送子队列的可能性更大,进而该端对端发送子队列对应的传输路径上的报文负载量会相应减大。
可选的,实时获取各端对端发送子队列的路径拥塞信息,可以包括:
实时获取各响应端针对接收到的发送报文所反馈的应答报文;根据各所述应答报文,计算各端对端发送子队列的报文往返时延,作为路径拥塞信息。
其中,应答报文可以是响应端向请求端反馈的对发送报文的接收情况进行描述的报文,应答报文可以包括对至少一个发送报文的反馈,即,可以包括对至少一个发送WQE的反馈。报文往返时延可以是请求端将发送报文发送出去的时刻与接收到匹配应答报文的时刻之间的时间差。
需要说明,报文往返时延越大,表明当前处理的端对端发送子队列对应的传输路径的拥塞程度越严重,相反的,报文往返时延越小,表明当前处理的端对端发送子队列对应的传输路径的拥塞程度越轻。
S230、将目标发送WQE调度至目标端对端发送子队列中,并根据目标负载总量,更新目标端对端发送子队列的当前令牌数。
在本公开实施例中,将目标发送WQE调度至目标端对端发送子队列中,可以将目标端对端发送子队列的当前令牌数减去目标发送报文的占用字节数,以获得更新后的目标端对端发送子队列的令牌数。
S240、对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文。
在本实施例的一个可选实施方式中,对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文,可以包括:
获取与当前处理发送WQE匹配的当前端对端发送子队列;根据当前端对端发送子队列的子队列发送上下文,生成与当前处理发送WQE对应的当前发送报文;根据与当前端对端发送子队列对应的路由区分标识,更新当前发送报文的用户数据报(UDP,User DatagramProtocol)源端口号。
相应的,将各发送报文按照由路由区分标识确定的传输路径,发送至匹配的响应端,可以包括:采用等价路由协议,将当前发送报文发送至匹配的响应端。
在本实施例中,考虑到在采用等价路由协议时,主要使用发送报文的五元组数据或者是七元组数据计算发送报文的哈希值,并基于不同的哈希值,选择将发送报文选择不同的传输路径进行传输。基于此,考虑到为了实现指向同一响应端的不同发送报文的哈希值不同,且保证发送报文的正确发送,选择使用不同端对端发送子队列的路由区分标识,对应更新发送报文的用户数据报源源端口号,以达到上述效果。
其中,子队列发送上下文可以主要存储端对端发送子队列的信息(子队列的地址,PI指针以及CI指针等),同时也记录报文发送状态与完成状态。根据与端对端发送子队列对应的子队列发送上下文,可以从端对端发送子队列中顺序获取一个待处理的发送WQE,进而,可以根据该发送WQE中记录的内存地址中,获取待发送数据,并将该待发送数据打包得到发送报文。子队列发送上下文与端对端发送子队列可以具有一一对应的关系。
其中,PI指针用于记录一个端对端发送子队列当前入队的发送WQE所在的存储位置,CI指针用于记录该端对端发送子队列当前出队的发送WQE所在的存储位置。
在本公开实施例中,端对端发送子队列中的存储的各发送WQE可以通过环形存储的方式进行入队处理,因此,需要在端对端发送子队列对应的子队列发送上下文中,存储PI指针以及CI指针。
在本实施例中,针对当前处理发送WQE,根据与其对应的当前端对端发送子队列的子队列发送上下文,对当前处理发送WQE进行处理得到当前发送报文,并根据当前端对端发送子队列的路由区分标识,更新当前发送报文的用户数据报源端口号,从而,在后续采用等价路由协议计算发送报文的哈希值时,不同用户数据报源端口号的发送报文,会计算得到不同的哈希值,进而由不同端对端发送子队列的发送WQE所生成的不同发送报文,会采用不同的传输路径,发送至同一响应端。
这样设置的好处在于,可以实现将发送至同一响应端的发送报文通过不同传输路径进行发送,为有效传输数据,避免发送拥塞提供条件。
可选的,在生成与当前处理发送WQE对应的当前发送报文之后,还可以将当前端对端发送子队列的子队列标识,以及与当前端对端发送子队列对应的端对端共享发送队列的共享队列标识加入至当前发送报文中;其中,共享队列标识和子队列标识用于控制响应端对与接收到的各发送报文匹配的接收WQE进行保序处理。
其中,子队列标识可以用于识别端对端发送子队列的身份。共享队列标识可以用于识别端对端共享发送队列的身份。
在本公开实施例中,可以为当前发送报文添加匹配的端对端发送子队列的子队列标识和端对端共享发送队列的共享队列标识。
这样设置的好处在于,可以使响应端在接收到发送报文时,在响应端侧确定与之匹配的端对端接收子队列和端对端共享接收队列,使响应端侧对发送报文匹配的接收WQE进行保序处理。
S250、将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入。
示例性的,图2b为提供的一种端对端与多路径关联示例图。其中,Local EE(Endto End,端对端)SQ(Send Queue,发送队列),具体是指请求端的一个端对端共享发送队列,Remote EE RQ(Receive Queue,接收队列),具体是指响应端的一个端对端共享接收队列。
Local EE SQ中包含多个Sub EE SQ(端对端发送子队列),Remote EE RQ中包含多个Sub EE RQ(端对端接收子队列),多个Sub EE SQ和多个Sub EE RQ共享EE SQ的端到端的节点信息(Local IP&MAC与Remote IP&MAC)。
其中,Local IP&MAC具体是指请求端的IP地址或者MAC地址,Remote IP&MAC具体是指响应端的IP地址或者MAC地址。
每个Sub EE SQ对应请求端与响应端之间的一条端对端通信路径信息;在每个发送报文中的Local IP&MAC与Remote IP&MAC确定的情况下,通过使用每个Sub EE SQ的路由区分标识更新发送报文中的UDP Source Port(用户数据报源端口号)的值,可以确保使用同一Sub EE SQ中的各发送WQE所生成的发送报文的传输路径是相同的,且不与该EE SQ内的其他Sub EE SQ占用同一条传输路径。
在创建与同一EE SQ对应的多个Sub EE SQ的时候,基于HCA(Host ChannelAdapte,主机适配器)网络管理平面来配置的Sub EE SQ的个数,或者,可以基于互联网中端到端链路的路径数量,来创建与EE SQ对应的Sub EE SQ的个数,应当注意,图2b中的一个EESQ对应4个Sub EE SQ仅作为示例。
本公开实施例的技术方案,通过获取与当前调度的目标发送WQE匹配的目标端对端共享发送队列标识和目标负载总量;根据与目标端对端共享发送队列标识匹配的各端对端发送子队列的当前令牌数和目标负载总量,获取目标端对端发送子队列;将目标发送WQE调度至目标端对端发送子队列中,并根据目标负载总量,更新目标端对端发送子队列的当前令牌数;对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文;将各发送报文按照由路由区分标识确定的传输路径,发送至匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入,提供一种RDMA通信负载均衡传输解决方案,有效缓解RDMA网络拥塞,提升RDMA网络的整体性能。
在上述技术方案的基础上,基于远程直接进行数据存取的数据传输方式,还可以包括:
根据网络拓扑结构,计算所述请求端与每个响应端之间的端对端链路数;根据各所述端对端链路数,确定与每个响应端对应的端对端共享发送队列中包括的端对端发送子队列数量;按照所述端对端发送子队列数量,建立与每个响应端的端对端共享发送队列分别匹配的多个端对端发送子队列。
其中,网络拓扑结构可以指网络节点的部署结构。端对端链路数可以是请求端与每个响应端之间进行数据传输的路径数。
在本公开实施例中,可以根据网络拓扑结构,计算请求端与每个响应端之间的端对端链路数;从而根据各端对端链路数,确定与每个响应端对应的端对端共享发送队列中包括的端对端发送子队列数量;按照端对端发送子队列数量,建立与每个响应端的端对端共享发送队列分别匹配的多个端对端发送子队列。
这样设置的好处在于,可以在请求端侧建立合理数量的端对端发送子队列,为数据传输提供匹配的传输条件。
示例性的,图2c为本公开实施例提供的一种QP SQ WQE入队Sub EE SQ队列示意图。Sub EE SQ入队调度Engine的特性如下:
Sub EE SQ入队调度Engine,可以通过硬化实现(FPGA或者ASIC)或者软件(CPU)实现;
Sub EE SQ入队调度Engine通过DWRR的调度算法实现;初始情况,所有Sub EE SQ的调度权重相同;DWRR的调度的权值按照WQE字节数来完成计数;应当注意,该处提及的DWRR调度,仅仅作为示例,其他类似的调度技术都可以作为本专利方案的自然延伸;
Sub EE SQ入队调度最小的元素是SQWQE,基于SQWQE指向数据传输数据量来完成计算;
当路径出现拥塞时,EE CC(Congestion Control,拥塞控制)Engine基于报文RTT时延或者其他检测拥塞的方法,将路径拥塞信息反馈到Sub EE SQ SCHe(ScheduleEngine,调度引擎),Sub EE SQ SCHe调整QP SQWQE入队权重;通过这种方式,防止QP SQWQE对应的PKT(Packet,数据包)进入拥塞路径中,加剧路径拥塞,且防止SQWQE得不到快速的调度;应当注意,该处提及的CC Engine将拥塞信息反馈给Sub EE SQ SCHe的方法,仅仅作为示例,其他类似的技术都可以作为本专利方案的自然延伸;
在EE Process Engine(端对端进程引擎)中处理Sub EE SQWQE时,Sub EE SQ发出的报文中需携带EEID(共享队列标识)及Sub EEID(子队列标识);
采用Sub EE的方式,同一EE内,多Sub EE可以被并发调度执行;同样的,同QP且同一目的地的SQWQE,可以进入不同的Sub EE SQ中被执行,并发调度执行;在单流性能无法达到端口线速的情况下,通过Sub EE的策略,SQWQE多路径并发调度执行,将整体性能提升到端口线速。
图3a是根据本公开实施例提供的一种由响应端执行的基于远程直接数据存取的数据传输方法的流程示意图,本实施例适用于接收由发送端所发送的数据并直接存储至接收端的指定存储位置的情况,该方法可以通过基于远程直接数据存取的数据传输装置来执行,该装置可以通过软件和/或硬件的方式实现,并一般可以集成于终端的网卡中。参考图3a,该方法具体包括如下步骤:
S310、在接收到请求端发送的目标发送报文时,根据目标发送报文中的共享队列标识和子队列标识,确定目标端对端接收子队列。
其中,端对端接收子队列与端对端发送子队列、端对端接收子队列的子队列标识与端对端发送子队列的子队列标识、端对端共享接收队列与端对端共享发送队列、及端对端共享接收队列的共享队列标识与端对端共享发送队列的共享队列标识均可以具有一一对应关系。
在本公开实施例中,在接收到请求端发送的目标发送报文时,可以根据目标发送报文中的共享队列标识和子队列标识,与响应端侧的共享队列标识和子队列标识进行匹配,确定目标端对端接收子队列。
S320、检测目标端对端接收子队列中是否存储与目标发送报文对应的目标接收WQE。
可选的,对一个发送WQE进行处理时,可以适应性的将相应的待发送数据分片打包成多个发送报文,且在响应端接收该多个发送报文时,还可以乱序接收,响应端接收到该多个发送报文中的一个时,可以及时将相应的接收WQE调度至对应的端对端共享接收队列中进行处理。
在本公开实施例中,响应端在接收到请求端发送的目标发送报文并确定匹配的目标端对端接收子队列的同时,还可以检测其中是否已经存储于目标发送报文对应的目标接收WQE,这样可以避免重复在接收队列中进行调度操作。
示例性的,第一发送WQE对应的第一待发送数据分片打包成第一发送报文、第二发送报文和第三发送报文,对应的该3个发送报文在响应端侧对应于第一接收WQE,对应于第一端对端接收子队列。响应端侧在接收到其中的一个报文如第一发送报文时,可以在第一端对端接收子队列中检测是否存储有第一接收WQE,以判断是否已经接收第二发送报文或者第三发送报文。
S330、若否,则从多个接收队列中获取目标接收WQE调度至目标端对端接收子队列中。
续S320示例,如果第一端对端接收子队列中没有第一接收WQE,可以从接收队列中将第一接收WQE调度至第一端对端接收子队列中,如果有,可以不执行调度操作,直接进行后续操作。
S340、根据目标端对端接收子队列中的目标接收WQE,将目标发送报文中的负载信息进行内存写入。
续S330示例,可以根据第一接收WQE,将当前接收到的目标发送报文例如,第一发送报文中的负载信息在响应端侧进行写入。
本公开实施例的技术方案,通过在接收到请求端发送的目标发送报文时,根据目标发送报文中的共享队列标识和子队列标识,确定目标端对端接收子队列;检测目标端对端接收子队列中是否存储与目标发送报文对应的目标接收WQE;若否,则从多个接收队列中获取目标接收WQE调度至目标端对端接收子队列中;根据目标端对端接收子队列中的目标接收WQE,将目标发送报文中的负载信息进行内存写入,提供一种RDMA通信负载均衡传输解决方案,有效缓解RDMA网络拥塞,提升RDMA网络的整体性能。
示例性的,图3b为本公开实施例提供的一种QP RQWQE入队Sub EE RQ队列示意图。在EE Process Engine中,通过报文中携带的EEID以及Sub EE ID,获取对应的Sub EE RQC;在需要消耗RQWQE的情况下,由Sub EE发起原子操作,获取QP RQWQE到Sub EE RQ队列中。
图4是根据本公开实施例提供的一种基于远程直接数据存取的数据传输装置的结构示意图。该装置可以用于执行本公开任意实施例提供的基于远程直接数据存取的数据传输方法。该装置可以由请求端执行,参考图4,该装置包括:发送元素调度模块410、发送报文形成模块420和报文发送模块430。其中:
发送元素调度模块410,用于将多个发送队列中指向同一响应端的各发送WQE,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;
其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;
发送报文形成模块420,用于对每个端对端发送子队列中的发送WQE进行按序处理,形成与发送WQE匹配的发送报文;
报文发送模块430,用于将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入。
上述装置中,可选的是,还包括,端对端发送子队列建立模块,用于:
根据网络拓扑结构,计算所述请求端与每个响应端之间的端对端链路数;
根据各所述端对端链路数,确定与每个响应端对应的端对端共享发送队列中包括的端对端发送子队列数量;
按照所述端对端发送子队列数量,建立与每个响应端的端对端共享发送队列分别匹配的多个端对端发送子队列。
上述装置中,可选的是,发送元素调度模块410,具体可以用于:
获取与当前调度的目标发送WQE匹配的目标端对端共享发送队列标识和目标负载总量;
根据与目标端对端共享发送队列标识匹配的各端对端发送子队列的当前令牌数和目标负载总量,获取目标端对端发送子队列;
其中,所述当前令牌数由端对端发送子队列的当前调度权重和与已入队发送WQE匹配的发送报文负载总量共同确定;
将目标发送WQE调度至目标端对端发送子队列中,并根据目标负载总量,更新目标端对端发送子队列的当前令牌数。
上述装置中,可选的是,还包括,调度权重更新模块,包括:
路径拥塞信息获取单元,用于实时获取各端对端发送子队列的路径拥塞信息;
调度权重更新单元,用于根据所述路径拥塞信息,更新各所述端对端发送子队列的当前调度权重。
上述装置中,可选的是,路径拥塞信息获取单元,具体用于:
实时获取各响应端针对接收到的发送报文所反馈的应答报文;
根据各所述应答报文,计算各端对端发送子队列的报文往返时延,作为路径拥塞信息。
上述装置中,可选的是,发送报文形成模块420,具体可以用于:
获取与当前处理发送WQE匹配的当前端对端发送子队列;
根据当前端对端发送子队列的子队列发送上下文,生成与当前处理发送WQE对应的当前发送报文;
根据与当前端对端发送子队列对应的路由区分标识,更新当前发送报文的用户数据报源端口号;
报文发送模块430,具体可以用于:
采用等价路由协议,将当前发送报文发送至与发送报文中的对端地址标识匹配的响应端。
上述装置中,可选的是,还包括,标识添加模块,用于在生成与当前处理发送WQE对应的当前发送报文之后:
将当前端对端发送子队列的子队列标识,以及与当前端对端发送子队列对应的端对端共享发送队列的共享队列标识加入至当前发送报文中;
其中,共享队列标识和子队列标识用于控制响应端对与接收到的各发送报文匹配的接收WQE进行保序处理。
本公开实施例所提供的基于远程直接数据存取的数据传输装置可执行本公开任意实施例所提供的由请求端执行的基于远程直接数据存取的数据传输方法,具备执行方法相应的功能模块和有益效果。
图5是根据本公开实施例提供的另一种基于远程直接数据存取的数据传输装置的结构示意图。该装置可以用于执行本公开任意实施例提供的基于远程直接数据存取的数据传输方法。该装置可以由响应端执行,参考图5,该装置包括:目标端对端接收子队列确定模块510、目标接收WQE检测模块520、目标接收WQE调度模块530和负载信息写入模块540。其中:
目标端对端接收子队列确定模块510,用于在接收到请求端发送的目标发送报文时,根据目标发送报文中的共享队列标识和子队列标识,确定目标端对端接收子队列;
目标接收WQE检测模块520,用于检测目标端对端接收子队列中是否存储与目标发送报文对应的目标接收WQE;
目标接收WQE调度模块530,用于若否,则从多个接收队列中获取目标接收WQE调度至目标端对端接收子队列中;
负载信息写入模块540,用于根据目标端对端接收子队列中的目标接收WQE,将目标发送报文中的负载信息进行内存写入。
本公开实施例所提供的基于远程直接数据存取的数据传输装置可执行本公开任意实施例所提供的由响应端执行的基于远程直接数据存取的数据传输方法,具备执行方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人数据信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如基于远程直接数据存取的数据传输方法。例如,在一些实施例中,基于远程直接数据存取的数据传输方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的基于远程直接数据存取的数据传输方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于远程直接数据存取的数据传输方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (18)
1.一种基于远程直接数据存取的数据传输方法,由请求端执行,包括:
将多个发送队列中指向同一响应端的各发送工作队列元素,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;
其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;
对每个端对端发送子队列中的发送工作队列元素进行按序处理,形成与发送工作队列元素匹配的发送报文;
将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入。
2.根据权利要求1所述的方法,还包括:
根据网络拓扑结构,计算所述请求端与每个响应端之间的端对端链路数;
根据各所述端对端链路数,确定与每个响应端对应的端对端共享发送队列中包括的端对端发送子队列数量;
按照所述端对端发送子队列数量,建立与每个响应端的端对端共享发送队列分别匹配的多个端对端发送子队列。
3.根据权利要求1所述的方法,其中,将多个发送队列中指向同一响应端的各发送工作队列元素,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中,包括:
获取与当前调度的目标发送工作队列元素匹配的目标端对端共享发送队列标识和目标负载总量;
根据与目标端对端共享发送队列标识匹配的各端对端发送子队列的当前令牌数和目标负载总量,获取目标端对端发送子队列;
其中,所述当前令牌数由端对端发送子队列的当前调度权重和与已入队发送工作队列元素匹配的发送报文负载总量共同确定;
将目标发送工作队列元素调度至目标端对端发送子队列中,并根据目标负载总量,更新目标端对端发送子队列的当前令牌数。
4.根据权利要求3所述的方法,还包括:
实时获取各端对端发送子队列的路径拥塞信息;
根据所述路径拥塞信息,更新各所述端对端发送子队列的当前调度权重。
5.根据权利要求4所述的方法,实时获取各端对端发送子队列的路径拥塞信息,包括:
实时获取各响应端针对接收到的发送报文所反馈的应答报文;
根据各所述应答报文,计算各端对端发送子队列的报文往返时延,作为路径拥塞信息。
6.根据权利要求1-5任一项所述的方法,其中,对每个端对端发送子队列中的发送工作队列元素进行按序处理,形成与发送工作队列元素匹配的发送报文,包括:
获取与当前处理发送工作队列元素匹配的当前端对端发送子队列;
根据当前端对端发送子队列的子队列发送上下文,生成与当前处理发送工作队列元素对应的当前发送报文;
根据与当前端对端发送子队列对应的路由区分标识,更新当前发送报文的用户数据报源端口号;
将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,包括:
采用等价路由协议,将当前发送报文发送至与发送报文中的对端地址标识匹配的响应端。
7.根据权利要求6所述的方法,在生成与当前处理发送工作队列元素对应的当前发送报文之后,还包括:
将当前端对端发送子队列的子队列标识,以及与当前端对端发送子队列对应的端对端共享发送队列的共享队列标识加入至当前发送报文中;
其中,共享队列标识和子队列标识用于控制响应端对与接收到的各发送报文匹配的接收工作队列元素进行保序处理。
8.一种基于远程直接数据存取的数据传输方法,由响应端执行,包括:
在接收到请求端发送的目标发送报文时,根据目标发送报文中的共享队列标识和子队列标识,确定目标端对端接收子队列;
其中,所述目标发送报文通过以下方式获得:
所述请求端将多个发送队列中指向同一响应端的各发送工作队列元素,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;对每个端对端发送子队列中的发送工作队列元素进行按序处理,形成与发送工作队列元素匹配的目标发送报文;
其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;
所述请求端将各目标发送报文按照由路由区分标识确定的传输路径,发送至与目标发送报文中的对端地址标识匹配的响应端;
检测目标端对端接收子队列中是否存储与目标发送报文对应的目标接收工作队列元素;
若否,则从多个接收队列中获取目标接收工作队列元素调度至目标端对端接收子队列中;
根据目标端对端接收子队列中的目标接收工作队列元素,将目标发送报文中的负载信息进行内存写入。
9.一种基于远程直接数据存取的数据传输装置,由请求端执行,包括:
发送元素调度模块,用于将多个发送队列中指向同一响应端的各发送工作队列元素,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;
其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;
发送报文形成模块,用于对每个端对端发送子队列中的发送工作队列元素进行按序处理,形成与发送工作队列元素匹配的发送报文;
报文发送模块,用于将各发送报文按照由路由区分标识确定的传输路径,发送至与发送报文中的对端地址标识匹配的响应端,以指示响应端将发送报文中的负载信息进行内存写入。
10.根据权利要求9所述的装置,还包括,端对端发送子队列建立模块,用于:
根据网络拓扑结构,计算所述请求端与每个响应端之间的端对端链路数;
根据各所述端对端链路数,确定与每个响应端对应的端对端共享发送队列中包括的端对端发送子队列数量;
按照所述端对端发送子队列数量,建立与每个响应端的端对端共享发送队列分别匹配的多个端对端发送子队列。
11.根据权利要求9所述的装置,其中,发送元素调度模块,具体用于:
获取与当前调度的目标发送工作队列元素匹配的目标端对端共享发送队列标识和目标负载总量;
根据与目标端对端共享发送队列标识匹配的各端对端发送子队列的当前令牌数和目标负载总量,获取目标端对端发送子队列;
其中,所述当前令牌数由端对端发送子队列的当前调度权重和与已入队发送工作队列元素匹配的发送报文负载总量共同确定;
将目标发送工作队列元素调度至目标端对端发送子队列中,并根据目标负载总量,更新目标端对端发送子队列的当前令牌数。
12.根据权利要求11所述的装置,还包括,调度权重更新模块,包括:
路径拥塞信息获取单元,用于实时获取各端对端发送子队列的路径拥塞信息;
调度权重更新单元,用于根据所述路径拥塞信息,更新各所述端对端发送子队列的当前调度权重。
13.根据权利要求12所述的装置,其中,路径拥塞信息获取单元,具体用于:
实时获取各响应端针对接收到的发送报文所反馈的应答报文;
根据各所述应答报文,计算各端对端发送子队列的报文往返时延,作为路径拥塞信息。
14.根据权利要求9-13任一项所述的装置,其中,发送报文形成模块,具体用于:
获取与当前处理发送工作队列元素匹配的当前端对端发送子队列;
根据当前端对端发送子队列的子队列发送上下文,生成与当前处理发送工作队列元素对应的当前发送报文;
根据与当前端对端发送子队列对应的路由区分标识,更新当前发送报文的用户数据报源端口号;
报文发送模块,具体用于:
采用等价路由协议,将当前发送报文发送至与发送报文中的对端地址标识匹配的响应端。
15.根据权利要求14所述的装置,还包括,标识添加模块,用于在生成与当前处理发送工作队列元素对应的当前发送报文之后:
将当前端对端发送子队列的子队列标识,以及与当前端对端发送子队列对应的端对端共享发送队列的共享队列标识加入至当前发送报文中;
其中,共享队列标识和子队列标识用于控制响应端对与接收到的各发送报文匹配的接收工作队列元素进行保序处理。
16.一种基于远程直接数据存取的数据传输装置,由响应端执行,包括:
目标端对端接收子队列确定模块,用于在接收到请求端发送的目标发送报文时,根据目标发送报文中的共享队列标识和子队列标识,确定目标端对端接收子队列;
其中,所述目标发送报文通过以下方式获得:
所述请求端将多个发送队列中指向同一响应端的各发送工作队列元素,调度至与同一端对端共享发送队列匹配的多个端对端发送子队列中;对每个端对端发送子队列中的发送工作队列元素进行按序处理,形成与发送工作队列元素匹配的目标发送报文;
其中,与同一端对端共享发送队列匹配的不同端对端发送子队列具有不同的路由区分标识;
所述请求端将各目标发送报文按照由路由区分标识确定的传输路径,发送至与目标发送报文中的对端地址标识匹配的响应端;
目标接收工作队列元素检测模块,用于检测目标端对端接收子队列中是否存储与目标发送报文对应的目标接收工作队列元素;
目标接收工作队列元素调度模块,用于若否,则从多个接收队列中获取目标接收工作队列元素调度至目标端对端接收子队列中;
负载信息写入模块,用于根据目标端对端接收子队列中的目标接收工作队列元素,将目标发送报文中的负载信息进行内存写入。
17. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的由请求端执行的基于远程直接数据存取的数据传输方法,或者,执行权利要求8中所述的由响应端执行的基于远程直接数据存取的数据传输方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的由请求端执行的基于远程直接数据存取的数据传输方法,或者执行根据权利要求8中所述的由响应端执行的基于远程直接数据存取的数据传输方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210557202.0A CN114979001B (zh) | 2022-05-20 | 2022-05-20 | 基于远程直接数据存取的数据传输方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210557202.0A CN114979001B (zh) | 2022-05-20 | 2022-05-20 | 基于远程直接数据存取的数据传输方法、装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114979001A CN114979001A (zh) | 2022-08-30 |
CN114979001B true CN114979001B (zh) | 2023-06-13 |
Family
ID=82985837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210557202.0A Active CN114979001B (zh) | 2022-05-20 | 2022-05-20 | 基于远程直接数据存取的数据传输方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114979001B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109491809A (zh) * | 2018-11-12 | 2019-03-19 | 西安微电子技术研究所 | 一种降低高速总线延迟的通信方法 |
CN113709057A (zh) * | 2017-08-11 | 2021-11-26 | 华为技术有限公司 | 网络拥塞的通告方法、代理节点、网络节点及计算机设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8458280B2 (en) * | 2005-04-08 | 2013-06-04 | Intel-Ne, Inc. | Apparatus and method for packet transmission over a high speed network supporting remote direct memory access operations |
WO2016101288A1 (zh) * | 2014-12-27 | 2016-06-30 | 华为技术有限公司 | 一种远程直接数据存取方法、设备和系统 |
CN110888827B (zh) * | 2018-09-10 | 2021-04-09 | 华为技术有限公司 | 数据传输方法、装置、设备及存储介质 |
CN114490462A (zh) * | 2020-10-28 | 2022-05-13 | 华为技术有限公司 | 网络接口卡、控制器、存储装置和报文发送方法 |
-
2022
- 2022-05-20 CN CN202210557202.0A patent/CN114979001B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113709057A (zh) * | 2017-08-11 | 2021-11-26 | 华为技术有限公司 | 网络拥塞的通告方法、代理节点、网络节点及计算机设备 |
CN109491809A (zh) * | 2018-11-12 | 2019-03-19 | 西安微电子技术研究所 | 一种降低高速总线延迟的通信方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114979001A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10333848B2 (en) | Technologies for adaptive routing using throughput estimation | |
US9185047B2 (en) | Hierarchical profiled scheduling and shaping | |
US9602428B2 (en) | Method and apparatus for locality sensitive hash-based load balancing | |
EP3707882A1 (en) | Multi-path rdma transmission | |
KR102177574B1 (ko) | 컴퓨팅 디바이스에서 패킷 수명을 예측하기 위한 큐잉 시스템 | |
US10374945B1 (en) | Application-centric method to find relative paths | |
WO2021103706A1 (zh) | 控制数据包发送方法、模型训练方法、装置及系统 | |
US11153221B2 (en) | Methods, systems, and devices for classifying layer 4-level data from data queues | |
CN114978433B (zh) | 数据传输方法、装置、设备、存储介质及计算机程序产品 | |
EP3334101B1 (en) | Load balancing eligible packets in response to a policing drop decision | |
US11509592B2 (en) | Dynamic network receiver-driven data scheduling over a datacenter network for managing endpoint resources and congestion mitigation | |
CN114979001B (zh) | 基于远程直接数据存取的数据传输方法、装置以及设备 | |
CN114979022B (zh) | 远程直接数据存取的实现方法、装置、适配器和存储介质 | |
US10129147B2 (en) | Network-on-chip flit transmission method and apparatus | |
CN117813595A (zh) | 用于远程直接存储器访问的设备和方法 | |
US10439952B1 (en) | Providing source fairness on congested queues using random noise | |
CN116915709B (zh) | 负载均衡的方法及装置、电子设备和存储介质 | |
US11909628B1 (en) | Remote direct memory access (RDMA) multipath | |
US11979476B2 (en) | High performance connection scheduler | |
CN114567687B (zh) | 报文转发方法、装置、设备、介质及程序产品 | |
US20240064077A1 (en) | Communication apparatus, relay apparatus, communication system, communication method, and program | |
US20240187336A1 (en) | Routing transport flows in a transport layer over multiple paths in a network layer | |
JP7251060B2 (ja) | 情報処理装置、情報処理システム及び情報処理プログラム | |
EP4131890A1 (en) | Scalable e2e network architecture and components to support low latency and high throughput | |
CN116232999A (zh) | 用于网络集群的流量调度方法及装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |