CN114726929A - 网络适配器中的连接管理 - Google Patents
网络适配器中的连接管理 Download PDFInfo
- Publication number
- CN114726929A CN114726929A CN202210006125.XA CN202210006125A CN114726929A CN 114726929 A CN114726929 A CN 114726929A CN 202210006125 A CN202210006125 A CN 202210006125A CN 114726929 A CN114726929 A CN 114726929A
- Authority
- CN
- China
- Prior art keywords
- wrs
- mcsq
- given
- network adapter
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000004891 communication Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 33
- 238000012546 transfer Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 12
- 239000003999 initiator Substances 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/382—Information transfer, e.g. on bus using universal interface adapter
- G06F13/385—Information transfer, e.g. on bus using universal interface adapter for adaptation of a particular data processing system to different peripheral devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
- H04L69/161—Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
- H04L41/0627—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/25—Routing or path finding in a switch fabric
- H04L49/253—Routing or path finding in a switch fabric using establishment or release of connections between ports
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/90—Buffering arrangements
- H04L49/9005—Buffering arrangements using dynamic buffer space allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/90—Buffering arrangements
- H04L49/901—Buffering arrangements using storage descriptor, e.g. read or write pointers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/30—Definitions, standards or architectural aspects of layered protocol stacks
- H04L69/32—Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
- H04L69/322—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
- H04L69/325—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the network layer [OSI layer 3], e.g. X.25
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/30—Definitions, standards or architectural aspects of layered protocol stacks
- H04L69/32—Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
- H04L69/322—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
- H04L69/326—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the transport layer [OSI layer 4]
Abstract
一种网络适配器包括网络接口、主机接口和处理电路。所述网络接口对接到用于与远程目标通信的通信网络。所述主机接口连接到主机,所述主机访问多通道发送队列(MCSQ),所述多通道发送队列(MCSQ)存储源自在所述主机上运行的客户端进程的工作请求(WR)。所述处理电路被配置为从所述MCSQ检索WR,并且将所述WR分发在由所述处理电路可访问的多个发送队列(SQ)中。
Description
技术领域
本文所描述的实施方式总体上涉及数据通信,并且尤其涉及用于网络适配器中的连接管理的方法和系统。
背景技术
InfiniBandTM(IB)是一种交换结构通信架构,主要用于高性能计算。它已被无线带宽贸易协会标准化。计算装置(主机处理器和外围装置)经由网络适配器(诸如网络接口控制器(NIC))连接到IB结构。IB限定分层硬件协议(物理层、链路层、网络层和输送层)和管理装置间初始化和通信的软件层两者。输送层负责有序的分组递送、划分、通道复用和输送服务,以及发送时的数据分段和接收时的重组。
使用可靠连接(RC)和动态连接(DC)输送服务通信的方法在本领域中是已知的。例如,美国专利8,213,315描述了一种通信方法,所述通信方法包括在网络接口装置中接收来自在发起者主机上运行的发起者进程的第一请求和第二请求,以经由分组网络相应地向在一个或多个目标节点上运行的第一目标进程和第二目标进程传输第一数据和第二数据。单个动态连接的发起者上下文被分配用于服务第一请求和第二请求两者。引用动态连接(DC)发起者上下文的第一连接分组指向第一目标进程,以便打开与第一目标进程的第一动态连接,接着在第一动态连接上传输第一数据。在传输第一数据之后,关闭第一动态连接,并且传输第二连接分组,以便打开与第二目标进程的第二动态连接,接着传输第二数据。
美国专利8,761,189描述了一种用于通信的方法,所述方法包括在网络接口控制器(NIC)中分配单个动态连接的(DC)发起者上下文,用于服务来自在发起者主机上运行的发起者进程的请求,以将数据传输到在一个或多个目标节点上运行的多个目标进程。NIC传输指向第一目标进程并且参考DC发起者上下文的第一连接分组,以便打开与第一目标进程的第一动态连接。响应于第一连接分组,NIC在分组网络上接收包含第一会话识别符(ID)的第一确认分组。在接收到第一确认分组之后,NIC在第一动态连接上将包含第一会话ID的一个或多个第一数据分组从NIC传输到第一目标进程。后续可以以类似方式处理与其他目标进程的动态连接。
发明内容
本文所描述的实施方式提供一种网络适配器,其包括网络接口、主机接口和处理电路。网络接口被配置为连接到用于与远程目标通信的通信网络。主机接口被配置为连接到主机,所述主机访问多通道发送队列(MCSQ),所述多通道发送队列(MCSQ)存储源自主机上运行的客户端进程的工作请求(WR)。处理电路被配置为从MCSQ检索WR,并且将检索到的WR分发在由处理电路可访问的多个发送队列(SQ)中。
在一些实施方式中,目标中的每个包括:(i)远程节点,其耦合到通信网络;或(ii)本地装置,其耦合到主机。在其他实施方式中,WR包括与相应SQ相关联的相应识别符,并且处理电路被配置为基于识别符在SQ之间分发WR。在其他实施方式中,处理电路被配置为,响应于检测到所述检索到的WR中的识别符在所述SQ中没有相关联的SQ,从所述多个SQ中选择可用的SQ,将所述识别符与所述可用的SQ相关联,并且在所述可用的SQ上发布所述WR。
在实施方式中,处理电路被配置为响应于检测到给定WR中的识别符与选定SQ相关联,在所述选定SQ上发布所述WR。在另一实施方式中,处理电路被配置为根据可靠连接(RC)协议来操作SQ,在所述可靠连接协议中,SQ被分配为持久地连接到相应的目标。在又一实施方式中,处理电路被配置为根据动态连接(DC)协议来操作SQ,所述动态连接(DC)协议允许给定SQ在不同时间连接到不同目标。
在一些实施方式中,主机在相应地与第一SQ池和第二SQ池相关联的第一MCSQ和第二MCSQ上发布WR,并且处理电路被配置为将来自第一MCSQ的WR分发到第一池中的SQ,并且将来自第二MCSQ的WR分发到第二池的SQ。在其他实施方式中,至少一个SQ在第一池和第二池之间共享,并且处理电路被配置为将来自第一MCSQ和第二MCSQ两者的WR发布到至少一个SQ。在其他实施方式中,处理电路被配置为在完成队列(CQ)上发布对应于在给定WR之前发布到所述MCSQ的WR的全部完成队列元素(CQE)之后,在由所述客户端进程可访问的所述CQ上发布指示所述给定WR的结束执行的所述CQE。
在实施方式中,处理电路被配置为独立于MCSQ中相应WR的顺序将CQE发布到CQ。在另一实施方式中,处理电路被配置为向已经与给定目标建立连接的给定SQ分发仅指定给定目标的WR,直到所述连接终止。在又一实施方式中,处理电路被配置为响应于检测到给定SQ中的故障,在CQ上发布指示所述故障的CQE。
在一些实施方式中,处理电路被配置为在CQ上发布指示要在给定SQ中执行的每个WR的故障的CQE。在其他实施方式中,处理电路被配置为在所述CQ上发布指示将被分发到给定SQ的来自MCSQ的每个WR的故障的CQE。在其他实施方式中,至少给定的WR指定从主机到目标的相应数据传输操作。在另外的其他实施方式中,至少给定的WR指定本地执行的操作。
根据本文所描述的实施方式,另外提供一种用于通信的方法,其包括在网络适配器中,所述网络适配器连接到用于与远程目标通信的通信网络并且还连接到主机,所述主机访问存储源自在主机上运行的客户端进程的工作请求(WR)的MCSQ,从MCSQ检索WR并且将检索到的WR分发到由所述处理电路可访问的多个发送队列(SQ)中。
附图说明
从下面结合附图对其实施方式的详细描述中,将更全面地理解这些和其他实施方式,在附图中:
图1是示意性地图示了根据本文所描述的实施方式的计算系统的框图,其中网络适配器管理多个通道上的主机通信;
图2是示意性地图示了根据本文所描述的实施方式的支持通过多个通道的通信的网络节点中的数据流的图;
图3是示意性地图示了根据本文所描述的实施方式的用于多通道传输的方法的流程图;以及
图4是示意性地图示了根据本文所描述的实施方式的使用DC和RC连接来单独管理通信的网络节点中的数据流的图。
具体实施方式
概述
本文所描述的实施方式提供用于将在多个通道上的通信管理卸载到网络适配器的方法和系统。
在数据中心和高性能计算(HPC)等各种应用中,主机运行与大量目标通信的客户端进程。主机通常包括用于在分组网络上与远程节点通信的网络适配器。网络适配器通常执行发布在一个或多个工作队列上的工作请求(WR),所述一个或多个工作队列经由通信网络连接到目标。用于数据传输的工作队列被称为发送队列(SQ),而用于数据接收的工作队列被称为接收队列(RQ)。WR指定所需的数据传送操作,例如,在主机上操作的客户端进程。网络适配器通过在主机可访问的完成队列(CQ)上发布完成队列元素(CQE)来通知WR的完成。
原则上,主机可以使用在主机的中央处理单元(CPU)上运行的软件程序来处理多通道通信。此类管理多个SQ的软件程序可以包括诸如程序或多个程序的组合,诸如客户端进程、通信栈和在主机和网络适配器之间进行调解的驱动程序。这类软件程序会反复检查哪些WR已经完成,并且按期望顺序发布其他未完成的WR。尽管以下公开主要涉及使用CPU实现的主机,但是所公开的实施方式类似地适用于使用实现主机的任何其他合适的处理单元,诸如,例如,图形处理单元(GPU)。
由于各种原因,在软件中管理多个SQ可以是不利的。首先,软件程序在执行任务时可能会消耗CPU周期,诸如在多个SQ中平衡工作负载和轮询CQ。这些CPU周期可以用于执行非通信操作,例如计算操作。软件程序通常还消耗相当大的带宽用于主机和网络适配器之间的通信,例如,在底层总线(例如,外围组件互连高速(PCIe)总线)上。此外,在软件中管理大量的SQ需要相当大的存储空间,并且可能导致主机CPU的高速缓存的缓存性能很差。
下面的描述主要涉及被称为可靠连接(RC)和动态连接(DC)的输送服务和协议。其他合适的输送服务或协议,诸如传输控制协议(TCP)也是适用的。
在RC协议中,连接是持久的,并且长时间占用相应SQ。因此,RC协议适用于要求中低可扩展性的应用。与RC的持久性质不同,根据DC协议配置的SQ是按需使用的,并且在完成数据传送操作时会断开。因此,给定的DC SQ可在不同时间连接到不同目标。
在执行指定数据传输操作的WR时,网络适配器通常以多个分组传输数据,其中对于每个传输的分组,网络适配器从目标接收确认(Ack)通知。在DC协议中,仅在收到当前数据传送的最后一个分组的Ack后,连接才会断开,并且变得可用于连接到另一目标。在一些实施方式中,网络适配器经由使用其他DC SQ处理经由一个或多个其他连接的通信,来利用传输最后一个分组和断开之间的时间间隔。作为一个示例,CPU可以应用基于散列的调度,在这种情况下,通过将合适的静态散列函数应用于例如WR中指定的目标地址,将WR发布在DC SQ上。然而,基于散列的调度可能会导致DC SQ中的工作负载不平衡。作为另一示例,CPU可在同一DC SQ上发布与公共流相关联的WR。如果没有可用的DC SQ,则CPU会等待直到一些DC SQ被释放。在此方案中,软件以异步进度模式操作,这给CPU带来了负担。
在所公开的实施方式中,网络适配器将主机软件从管理多个通道的负担卸载。为此,主机软件程序在公共多通道发送队列(MCSQ)上发布目的地为多个目标的WR。网络适配器从MCSQ检索WR,并且将其分发到连接到相关目标的SQ。具体来说,当已经为SQ设置了到目标的连接时,将使用它。否则,网络适配器分配新的连接上下文,使用所述上下文连接到远程对等体,并且通过已建立的连接将数据发送到远程对等体。网络适配器还将CQE发布到主机软件程序可访问的公共CQ。
在一些实施方式中,代替在队列中存储WR,SQ具有用于引用MCSQ中的WR的小存储空间,例如指向WR的指针。因此,由网络适配器处理的SQ比通常在软件中处理的具有全队列的SQ需要少得多的存储空间。
接下来,我们关注主要涉及网络适配器的实施方式。考虑包括网络接口、主机接口和处理电路的网络适配器。网络接口对接到用于与远程目标通信的通信网络。主机接口连接到主机,所述主机访问存储源自在主机上操作的客户端进程的WR的MCSQ,其中至少给定的WR指定从主机到目标的相应数据传输操作。替代地或另外地,至少给定的WR指定由网络适配器本地执行的操作,例如,存储器注册操作。处理电路从MCSQ中检索WR并且将检索到的WR分发在由处理电路可访问的多个SQ中。在本上下文中,将WR分发到SQ的操作意味着用于访问MCSQ的WR的信息被提供用于存储在SQ中。其访问信息因此被分发和存储用于SQ的WR本文被称为在SQ上发布的WR。处理电路调度发布在多个SQ上的WR的执行,并且在由客户端进程可访问的CQ上发布CQE,其中每个CQE指示一个或多个WR的结束执行。
主机与之通信的中的每个目标可以包括:(i)远程节点,其耦合到通信网络;或(ii)本地装置(诸如硬件加速器),其耦合到主机。
为了将WR从MCSQ分发到SQ,WR包括与相应SQ相关联的相应识别符,并且处理电路基于识别符在相应SQ之间分发WR。网络适配器可以从MCSQ检索尚未分配SQ的WR。在此情况下,处理电路从多个SQ中选择可用的SQ,将识别符与可用的SQ相关联,并且在可用的SQ上发布WR。响应于检测到给定WR中的识别符已经与选定的SQ相关联,处理电路在选定的SQ上发布WR。在一些实施方式中,WR和SQ之间的关联基于目标地址和网络状态。
在所公开的实施方式中,一些输送上下文可以使用RC协议,而其他输送上下文可以使用DC协议或用户数据报协议(UDP)。WR与SQ的关联可以通过选择特定类型的输送上下文来实现。替代地,网络适配器可在执行时选择输送上下文的最佳可用类型。
在实施方式中,主机在相应地与第一SQ池和第二SQ池相关联的第一MCSQ和第二MCSQ上发布WR。在此实施方式中,处理电路将来自第一MCSQ的WR分发到第一池中的SQ,并且将来自第二MCSQ的WR分发到第二池的SQ。SQ池可以是不相交的,替代地,至少一个SQ在第一SQ池和第二SQ池之间共享。在此情况下,处理电路将来自第一MCSQ和第二MCSQ两者的WR发送到至少一个SQ。
网络适配器以发布顺序执行发布到同一SQ的WR,但通常不保证发布在不同SQ上的WR的执行顺序与WR发布到MCSQ的相同顺序相匹配。
要以它们在MCSQ上发布的相同顺序执行WR,这些WR应发布在同一SQ上。为了以在MCSQ发布对应WR的相同顺序发布CQE,处理电路在CQ上发布对应于在给定WR之前发布到MCSQ的WR的全部CQE之后,在CQ上发布与给定WR对应的CQE。替代地,在允许无序执行的情况下,处理电路独立于MCSQ中的相应WR的顺序在CQ上发布CQE。
在一些实施方式中,在连接建立和终止之间,DC SQ服务于指定公共目标的WR。在此类实施方式中,处理电路向已经与给定目标的RQ建立连接的给定SQ分发仅指定给定目标的WR,直到连接终止。
使用SQ的连接可能会因各种原因而故障,诸如超出输送重试次数、重试接收器未就绪(RNR)否定确认(NACK)重试次数超出、远程访问错误和远程操作错误。
当连接故障时,网络适配器无法执行在对应SQ上发布的WR,并且因此不会在CQ上发布对应的CQE。这反过来可能会导致暂停从MCSQ WR检索目的地为使用其他SQ的其他连接。在一些实施方式中,网络适配器暂停执行与故障连接相关联的WR,但是保持执行活动连接的WR。具体地,响应于检测到给定SQ中的故障,处理电路在CQ上发布指示故障的CQE。例如,处理电路被配置为在CQ上发布指示要在给定SQ中执行的每个WR的故障的CQE。作为另一示例,处理电路被配置为在所述CQ上发布将被分发到给定SQ的来自MCSQ的每个WR的CQE。
主机软件识别故障连接的CQ,并且对应地采取行动,例如,从MCSQ移除对应的WR。在一些实施方式中,主机CPU尝试纠正错误,例如,通过重启会话或应用其他合适的纠正动作。在错误被纠正后,主机CPU排出其余的WR,并且从成功执行的最后一个WR开始重新发布它们。
在所公开的技术中,网络适配器从主机卸载多通道连接的管理。因此,主机发布指定可能在公共MCSQ上使用不同输送服务的多个不同目标的WR。网络适配器在连接到目标的多个SQ之间分发WR,并且在不涉及主机CPU的情况下在公共完成队列上发布完成通知。使用此方案,可以释放原本用于通信管理的CPU周期,例如用于计算任务。通过使用公共多通道队列(MCSQ工作队列),与使用单个工作队列相比,存储空间明显减少。此外,所公开的实施方式提高了CPU高速缓存性能。
系统描述
图1是示意性地图示了根据本文所描述的实施方式的计算系统20的框图,其中网络适配器管理多个通道上的主机通信。
在计算系统20中,网络节点24通过通信网络30与远程网络节点28通信。通信网络30可以包括任何合适的分组网络,诸如,例如,以太网网络或InfiniBandTM(IB)结构。
例如,计算系统20可以用于网络节点与其他网络节点交换大量数据的应用中,诸如,例如高性能计算、分布式计算和数据中心,仅举几例。
网络节点24包括中央处理单元(CPU)32形式的处理器和存储器34,它们通过合适的总线36互连。在本示例中,总线36包括外围组件互连快速(PCIe)总线。替代地,也可以使用其他合适的总线类型。网络节点24还包括用于连接到通信网络30的网络适配器38,诸如网络接口控制器(NIC)。为了简洁起见,CPU 32、存储器34和总线36(有或没有网络适配器)的组合也被称为“主计算机”或简称为“主机”。
网络适配器38包括:网络接口42,其耦合到通信网络30;以及主机接口44,其经由总线36耦合到CPU 32和存储器34。耦合在网络接口42和主机接口44之间的处理电路46生成用于在通信网络30上传输的传出分组,并且处理从通信网络接收的输入分组,如下所述。
在入口方向,处理电路46经由网络接口42对网络适配器中接收到的分组进行各种处理,诸如验证分组有效载荷中的数据的正确性、分组分类和优先级以及路由。出于分组分类和路由的目的,处理电路通常检查分组报头中的某些字段。报头字段包含寻址信息,诸如源地址和目的地地址以及端口号,以及所使用的底层网络协议。在出口方向上,处理电路46经由主机接口44从主机检索用于传输的数据,将数据打包成分组序列,并且经由通信网络30将分组传输到它们的目的地。
在公开的实施方式中,处理电路46使用工作队列48通过通信网络30通信。下面的描述主要将工作队列48称为用于数据传输的发送队列(SQ)。替代地,例如,在IB网络中,工作队列48包括队列对(QP),所述队列对(QP)包括发送队列(SQ)和接收队列(RQ)(未示出)。SQ或QP的SQ部分存储指定数据传输操作的工作请求(WR),而QP的RQ部分存储指定数据接收操作的WR。一些WR可以包括控制WR,例如,用于建立或终止连接。存储在WR中的WR由处理电路46执行。
用QP的术语来说,在QP上发布指定数据传输操作的WR,意味着WR将被发布在QP的SQ部分上。
数据传送操作的WR可以指定例如用作源缓冲器或目的缓冲器的存储器34中的缓冲器52,以及要传送的数据量。在实施方式中,数据传送操作可以包括直接访问存储器34而不涉及CPU 32的远程直接存储器访问(RDMA)操作。
下面的描述主要集中在主机向目标传输数据的出口方向,例如,经由网络适配器。在出口方向上,要传输的数据可以驻留在缓冲器52中。
在一些实施方式中,为了传输数据,处理电路46从相关SQ中检索WR,并且执行在WR中指定的数据传输操作。处理电路在一个或多个分组中传输数据,其中目标接收者通过向网络适配器发回Ack通知来确认每个分组。当数据传输完成时(例如,当网络适配器接收到最后一个分组的Ack时),处理电路在存储器34中的完成队列(CQ)58上发布完成队列元素(CQE)。CQE通知主机完成对应WR的执行。在一些实施方式中,单个CQE可以指示一个或多个WR的执行完成。
多通道发送队列(MCSQ)56接收来自多个进程50的写请求。如下面将要描述的,WR将由网络适配器38检索和执行。尽管图1描绘了单个MCSQ,但是在替代实施方式中,也可以使用多个MCSQ。
在本示例中,SQ 48、MCSQ 56和CQ 58驻留在主机24的存储器34中。然而,这并不是强制性的。在替代实施方式中,SQ 48中的一个或多个、MCSQ 56中的一个或多个和/或CQ 58中的一个或多个可以驻留在另一存储器(诸如网络适配器38的存储器(未示出))中。
在CPU 32上运行的客户端进程50(为简洁起见,还简称为“客户端”),诸如由应用软件生成的进程,与在远程网络节点28上运行的对等客户端(未示出)通信。
在一些实施方式中,一个或多个MCSQ 56用作客户端50的通信接口。客户端50可在对应于多个不同目标的给定MCSQ WR上发布,其中每个WR将被发布在连接到对应目标的SQ48上。如下文将详细描述的,处理电路从MCSQ检索WR,并且将WR分发到与所述MCSQ相关联的SQ中。处理电路还处理在CQ 58上发布CQE。经由单个MCSQ和公共CQ对接多通道通信的主机软件比由主机直接管理多个SQ和CQ要高效得多,并且需要更少的CPU周期。
在一些实施方式中,CPU 32包括高速缓冲存储器60,所述高速缓冲存储器60通常用于临时存储CPU所需的数据。处理本地高速缓存中的数据通常比处理驻留在存储器34中的数据快得多。在实施方式中,高速缓存存储一个或多个MCSQ,或此类MCSQ的相应部分。
在一些实施方式中,网络节点24包括协处理器,诸如加速器64。加速器可以包括例如在现场可编程门阵列中实现的硬件装置。加速器可以用于代表CPU快速执行各种数据处理任务,诸如数据压缩/解压缩、数据加密/解密等。在一些实施方式中,客户端50通过在MCSQ56上发布WR来与加速器64通信,其中WR将加速器指定为目标。
在一些实施方式中,为了在主机上运行的客户端进程和目标上运行的对等进程之间建立连接,主机向目标发送连接分组。建立连接后,在发起者主机侧分配SQ(48)和RQ,并且在目标侧分配对等RQ和SQ。要断开连接,发起者主机向目标方发送断开分组。
在一些实施方式中,SQ 48可以被配置为根据可靠连接(RC)协议或根据动态连接(DC)协议操作。
在RC输送服务中,主机和目标之间的连接是持久的,即打算在相对长的时间内保持活动状态。根据RC协议的连接可随时用于通信,因此可在需要时立即使用(或仅使用排序延迟)。因为在RC协议中,即使没有流量交换,连接也保持可用,所以RC会持续消耗两侧的SQ和RQ的存储空间。因此,RC不能很好地扩展以支持大量同时连接。
在DC输送服务中,主机和目标之间的连接是按需建立的。主机(或其网络适配器)可能保持SQ池,所述池通常比RC输送服务的SQ池小得多。当主机向给定目标传输数据时,会临时分配SQ来连接到此目标。传送操作完成后,连接将终止,并且SQ在池中变得可用于连接到其他目标。DC输送服务是可扩展的,因为它使用的共享SQ数量相对较少。DC输送服务的一个缺点是连接建立和终止所招致的延迟。
在所公开的实施方式中,单个工作队列(例如,MCSQ)服务于大量RC和DC SQ。与MCSQ相比,SQ消耗的存储空间要少得多,因为它们只需要少量的输送上下文存储空间和少量的存储空间来存储用于访问MCSQ中的WR的信息。当可用于WR发起者的存储器和/或高速缓存存储空间有限时,此类配置尤其有益。对接单个MCSQ而不是对接许多SQ通常也是有利的,并且对于具有有限资源的WR发起者也是如此。具有有限资源的WR发起者的示例包括对等硬件装置(例如,FPGA装置或GPU)、SoC、嵌入式CPU等。
通过网络适配器进行多通道管理
图2是示意性地图示了根据本文所描述的实施方式的支持通过多个通道的通信的网络节点100中的数据流的图。
将参考图1的网络节点24来描述网络节点100内的数据流。
在网络节点100中,多通道通信是通过主机的CPU 32执行的软件和由网络适配器38对多个连接的管理的组合来实现的。在图2中,水平虚线分隔主机软件域和网络适配器域。在本上下文中,软件域和网络适配器域相应地指由CPU 32和网络适配器38执行的相应处理。处理中涉及的数据结构(诸如MCSQ、SQ和CQ)可以驻留在任何合适的存储器(诸如存储器34或网络适配器的存储器(未示出))中。
在图2的示例中,软件域的元素(虚线上方)包括MCSQ 104,用于将WR对接到网络适配器。尽管图2描绘了单个MCSQ,但是在替代实施方式中,可以使用任何其他合适数量的MCSQ。
MCSQ 104从在主机WR上运行的客户端50接收指定数据传输操作。指定数据传输的WR包含指示在其上发布WR的SQ的识别符。
在RC协议中,单个SQ用于连接到单个目标,在这种情况下,分配给SQ的编号(例如,或QP编号)可以用作所述目标的SQ识别符。在DC协议中,相同的DC SQ用于在不同时间连接到不同目标。在此情况下,CPU为每个WR分配流识别符(流ID),然后将其发布在为相关流ID服务的DC SQ上。当没有SQ被分配给WR的流ID时,可用的DC SQ(如果有)将被分配给所述流ID,并且WR将被发布在所述DC SQ上。如果没有DC SQ可以用于发布WR,则分发器将等待,直到已使用的DC SQ中的一个变得可用。指定向给定目标的数据传输的WR将发布在服务于相关流ID的DC SQ上。如果此DC SQ当前正在为另一目标服务,则在为其之前发布的全部WR服务之后,DC SQ会重新连接以服务给定目标。
请注意,就目标而言,中的每个DC SQ都可以连接到任何期望的目标。在流ID方面—如果有一个DC SQ服务于流ID,那么具有此流ID的WR会被发布在此DC SQ上,以保证与同一流ID相关联的不同WR的执行顺序。这适用于目的地为相同或不同目标的WR。
CQ 112从网络适配器接收指示在MCSQ 104上发布的WR的执行完成的CQE。
给定的客户端50可以与多个目标通信。客户端通常在MCSQ上以某种期望的顺序发布WR。例如,在发布一个或多个用于向相同或另一目标发送数据的另外的WR之前,客户端可以发布用于向目标发送数据的一个或多个WR。
网络节点100包括输送引擎118。在本示例中,输送引擎包括在DC模式下操作的DCSQ 124的DC SQ池120,以及包括在RC模式下操作的RC SQ 126的RC SQ池122。
分发器128从MCSQ 104检索WR,并且在适当时将它们发布在DC SQ 124和RC SQ126上。在一些实施方式中,MCSQ中的每个WR包括指示在其上发布所述WR的DC SQ或RC SQ的识别符。给定的DC SQ可在不同时间为具有相同或不同目标的公共流ID的连接服务。给定的RC通常例如通过QP编号与给定SQ识别符相关联。
在一些实施方式中,对于DC SQ,分发器保持流ID和相应的活动DC SQ之间的映射表。当DC SQ完成其全部未决WR的执行时,分发器释放DC SQ和流ID之间的关联。
在一些实施方式中,分发器128在同一DC SQ上发布公共流ID的目标的WR。类似地,分发器128可在同一RC SQ上发布公共识别符(QP编号)的目标的WR。这保证了具有相同识别符的WR将以它们在MCSQ上发布的相同顺序依次执行。
输送引擎118从DC SQ 124和RC SQ 126读取WR并且执行它们。在一些实施方式中,输送引擎一次执行一个WR。在此类实施方式中,输送引擎使用任何合适的方法(例如,循环方法或随机)来选择DC SQ或RC SQ以从中执行WR。替代地,输送引擎支持并行地执行来自多个SQ的多个WR。例如,输送引擎可以并行地执行来自DC SQ的WR和来自RC SQ的WR,和/或并行地执行来自多个DC SQ和/或来自多个RC SQ的多个WR。
在执行WR时,输送引擎118例如从存储器34中的缓冲器52读取要传输的数据,将读取的数据打包成分组序列,并且例如通过通信网络30将分组传输到相关目标。对于发送的每个分组,输送引擎从目标接收Ack通知140。在接收到对应于当前WR的最后分组的Ack之后,输送引擎生成指示WR执行完成的CQE。输送引擎在CQ 112上发布CQE(对于DC SQ和RCSQ),主机可以访问这些CQ。
输送引擎以在相关MCSQ发布的相同顺序执行发布在DC SQ(或RC SQ)上的WR,但通常以不同于在MCSQ的顺序执行发布在不同DC SQ(或不同RC SQ)上的WR。此类无序执行可能由于各种原因而发生,诸如需要不同执行时间的WR、经历不同工作负载的SQ以及分配给不同SQ的不同优先级。
在一些实施方式中,输送引擎通过以有序或无序的方式在CQ上发布CQE来支持WR的有序或无序执行。
如上所述,WR的执行顺序通常不同于WR在MCSQ上发布的顺序。在有序模式中,重新排序缓冲器144以与在MCSQ上发布对应WR相同的顺序对输送引擎生成的CQE进行排序。在有序模式下,网络适配器仅在给定WR执行之前在MCSQ中发布的WR和在MCSQ发布的CQE之后发布对应于给定WR的CQE。在示例实施方式中,CQE重新排序可以基于分配给发布在MCSQ上的WR的序列号。在有序模式下,单个CQE可能对应多个WR,这减少了主机处理的CQE数量。例如,考虑在MCSQ上发布三个WR,三个连接中的每一个都有一个WR。在有序模式下,网络适配器只能为在MCSQ上发布的三个WR中执行的最后一个WR发布CQE。
在无序模式下,输送引擎118以WR完成的顺序发布CQE,这通常不同于WR在MCSQ上发布的顺序。例如,当主机(例如,客户端50)不期望WR中的任何特定执行顺序时,可以使用无序模式。因此,主机可以处理完成的WR,而不必等待先前较慢的WR完成执行。
在DC SQ池120中,在任何给定时间,DC SQ 124中的每个都可以参与连接或可用于建立新的连接。
输送引擎可能会断开在预限定时间内没有提交WR的已参与DC SQ,并且断开的DCSQ变得可用于其他连接。
在RC SQ池122中,即使当RC SQ没有提交执行的WR时,RC SQ 126也长时间连接到相应的目标。
当MCSQ 56故障时,网络节点100中的多通道通信可能会故障,例如,由于在将WR传递到MCSQ或从MCSQ传递出去时故障。在此情况下,在实施方式中,经由故障MCSQ的全部多通道通信被暂停。
当DC SQ或RC SQ故障时(例如由于连接超时),多通道通信也可能故障。在此情况下,在实施方式中,仅故障的DC SQ或RC SQ被暂停,而经由其他DC SQ和RC SQ的通信不间断地继续。
请注意,故障SQ中的WR不会被执行,并且因此输送引擎不会为这些WR生成CQE。这可能会阻止在MCSQ中执行与有效连接相关联的WR。在一些实施方式中,为了允许MCSQ的流畅操作,网络适配器生成指示故障的CQE,并且在CQ上发布它们。MCSQ可以响应此类CQE,就好像对应的WR已经完成一样。
在实施方式中,网络适配器为目的地为故障RC SQ或DC SQ的WR生成指示故障连接的CQE,并且在CQ上发布这些CQE。
当RC或DC SQ故障时,当前与故障SQ相关联的识别符被添加到黑名单160。SQ识别符可以包括用于RC的QP编号或用于DC的流ID。在TCP连接的情况下,SQ识别符可以包括五元组,所述五元组包括源地址和目的地地址、源端口号和目的地端口号以及底层协议。当分发器128从MCSQ 104读取WR时,黑名单过滤器154检查SQ的识别符是否在黑名单160中。如上所述,当识别符不在黑名单中时,分发器将WR发送到相关的SQ。当识别符在黑名单中时,黑名单过滤器阻止将WR发送到分发器。相反,网络适配器生成指示故障连接的CQE,并且在CQ112上发布CQE。在适当的稍后时间,例如,当故障被修复时,主机向网络适配器发送从黑名单移除SQ识别符的命令。
在图2的示例实施方式中,输送引擎118执行SQ中的WR。例如,输送引擎包括执行全部WR的单个执行引擎。替代地,输送引擎包括动态分配用于执行WR的多个执行引擎。
如上所述,MCSQ的数量不一定限于单个MCSQ。当有多个MCSQ时,连接到给定目标的SQ可以为多个MCSQ服务。
图1示出的计算系统(20)、网络节点(24)和网络适配器(38)配置是示例配置,选择它们纯粹是为了概念清楚。在替代实施方式中,也可以使用任何其他合适的计算系统、网络节点和网络适配器配置。为了清楚起见,图中省略了对于理解本发明的原理不必要的元素,诸如各种接口、寻址电路、定时和排序电路以及调试电路。
网络适配器38的一些元素,诸如处理电路46,可在硬件中(例如,在一个或多个专用集成电路(ASIC)或FPGA中)实现。另外地或替代地,处理电路46可以使用软件或使用硬件和软件元素的组合来实现。存储器34可以包括使用任何合适的存储技术的任何合适类型的存储器,诸如随机存取存储器(RAM)、动态RAM(DRAM)、诸如快闪存储器的非易失性存储器,或多种存储器类型的组合。
在一些实施方式中,网络适配器38的一些功能,例如处理电路46的功能,可由通用处理器执行,所述通用处理器以软件编程来执行本文所描述的功能。软件可以诸如通过网络以电子形式下载到处理器,或它可以替代地或另外地被提供和/或存储在非暂时性有形介质(诸如磁、光或电子存储器)上。
使用DC和RC协议的多通道通信方法
图3是示意性地图示了根据本文所描述的实施方式的用于多通道传输的方法的流程图。
所述方法将被描述为由图1的网络适配器38(更具体地,由网络适配器的处理电路46)执行,并且参考图2中包括网络适配器域的元素的图。
在描述图3的方法时,假设WR包括指示要在其上发布WR的SQ的识别符字段。
所述方法开始于网络适配器38在SQ初始化步骤200将DC SQ池120中的全部DC SQ124和RC SQ池122中的全部RC SQ 126的状态标记为可用。在识别符确定步骤204处,网络适配器从MCSQ 104中的第一WR(例如,在头部位置的WR)读取识别符字段。识别符取决于底层协议。例如,当WR指定使用DC协议传输时,识别符可以包括流识别符。替代地,当WR指定使用RC模式传输时,识别符可以包括QP编号。进一步替代地,当底层协议是TCP时,识别符可以包括五元组,所述五元组包括源地址和目的地地址、源端口号和目的地端口号以及底层协议。
在关联查询步骤208处,网络适配器检查识别符是否已经与DC SQ 124或RC SQ126中的任一个相关联,并且如果是,则在WR检索步骤212处从MCSQ检索第一WR。在WR发布步骤216处,网络适配器将WR发布在上面步骤208处确定的服务SQ上。在释放检查步骤220处,网络适配器检查是否有任何SQ已经被释放,如果是,则将释放的SQ的状态标记为可用。在步骤220之后,网络适配器循环回到步骤204以处理MCSQ 104中的后续WR。
当在步骤208处,识别符在DC SQ池或RC SQ池中没有关联的SQ时,网络适配器进行到SQ可用性检查步骤228,以根据需要检查DC SQ池中的可用DC SQ或RC SQ池中的RC SQ。当在步骤228没有找到变得可用的SQ时,相关池中的全部SQ都参与连接,并且网络适配器进行到等待步骤232,以等待DC SQ池中的一个(或多个)DC SQ或RC SQ池中的一个(或多个)RCSQ断开并且变得可用,并且循环回到步骤228。
当在步骤228找到可用的SQ时,网络适配器进行到分配步骤236,以分配找到的SQ来服务具有步骤204处的识别符的WR。进一步在步骤236,网络适配器在找到的SQ和目标的SQ之间建立连接,并且将找到的SQ的状态标记为参与。在步骤236之后,网络适配器进行到步骤212,接着是步骤216处,以检索当前的第一WR并且将其发布到在步骤236处分配的SQ上。
图4是示意性地图示了根据本文所描述的实施方式的在DC和RC连接上来单独管理通信的网络节点300中的数据流的图。
在图4中,RC和DC的WR是分开处理的。DC部分包括DC MCSQ104A(或多个DC MCSQ),保持DC分发器128A在DC SQ 124之间分发的WR。经由DC CQ 112A报告DCWR的完成。RC部分包括RC MCSQ 104B(或多个RCMSCQ),保持RC分发器128B在RC SQ126之间分发的WR。经由RC CQ112B报告RC WR的完成。DC和RC部分包括相应地用于处理DC SQ故障和RC SQ故障的单独的黑名单160A和160B以及单独的黑名单过滤器164A和164B。DC部分和RC部分中的每一个都包括用于对完成报告进行重新排序的重新排序缓冲器144。
DC和RC部分中的数据流使用单独的MCSQ,类似于上面图2中描述的功能和数据流,其中DC和RC使用公共MSCQ处理。
在一些实施方式中,主机在相应地与第一SQ池和第二SQ池相关联的第一MCSQ和第二MCSQ上发布WR。第一MCSQ和第二MCSQ中的每一者都可以是DC MCSQ或RC MCSQ。在此类实施方式中,网络适配器将来自第一MCSQ的WR分发到第一池中的SQ,并且将来自第二MCSQ的WR分发到第二池的SQ。在一些实施方式中,至少一个SQ在第一池和第二池(例如,两个都是DC SQ池或两个都是RC SQ池)之间共享,并且网络适配器将来自第一MCSQ和第二MCSQ两者的WR发布到至少一个SQ。
以上描述的实施方式是作为示例给出的,并且也可以使用其他合适的实施方式。
应理解,以上描述的实施方式是作为示例引用的,并且所附权利要求不限于上文具体示出和描述的内容。相反,所述范围包括上文描述的各种特征的组合和子组合,以及本领域技术人员在阅读前述描述后会想到的并且在现有技术中没有公开的其变化和修改。在本专利申请中通过引用并入的文件被认为是本申请的组成部分,除非在这些并入的文件中以与本说明书中明确或隐含的限定相冲突的方式限定任何术语,否则应仅考虑本说明书中的限定。
Claims (34)
1.一种网络适配器,包括:
网络接口,所述网络接口被配置为连接到用于与远程目标通信的通信网络;
主机接口,所述主机接口被配置为连接到主机,所述主机访问多通道发送队列(MCSQ),所述多通道发送队列(MCSQ)存储源自在所述主机上运行的客户端进程的工作请求(WR);以及
处理电路,所述处理电路被配置为:
从所述MCSQ检索WR并且将所述检索到的WR分发到由所述处理电路可访问的多个发送队列(SQ)中。
2.根据权利要求1所述的网络适配器,其中所述目标中的每个包括:(i)远程节点,其耦合到所述通信网络;或(ii)本地装置,其耦合到所述主机。
3.根据权利要求1所述的网络适配器,其中所述WR包括与相应SQ相关联的相应识别符,并且其中所述处理电路被配置为基于所述识别符在所述SQ之间分发所述WR。
4.根据权利要求3所述的网络适配器,其中所述处理电路被配置为响应于检测到所述检索到的WR中的所述识别符在所述SQ中没有相关联的SQ,从所述多个SQ中选择可用的SQ,将所述识别符与所述可用的SQ相关联,并且在所述可用的SQ上发布所述WR。
5.根据权利要求3所述的网络适配器,其中所述处理电路被配置为响应于检测到给定WR中的所述识别符与选定SQ相关联,在所述选定SQ上发布所述WR。
6.根据权利要求1所述的网络适配器,其中所述处理电路被配置为根据可靠连接(RC)协议来操作所述SQ,在所述可靠连接(RC)协议中,所述SQ被分配为持久地连接到相应的目标。
7.根据权利要求1所述的网络适配器,其中所述处理电路被配置为根据动态连接(DC)协议来操作所述SQ,所述动态连接(DC)协议允许给定SQ在不同时间连接到不同目标。
8.根据权利要求1所述的网络适配器,其中所述主机在相应地与第一SQ池和第二SQ池相关联的第一MCSQ和第二MCSQ上发布WR,并且其中所述处理电路被配置为将来自所述第一MCSQ的WR分发到所述第一池中的SQ,并且将来自所述第二MCSQ的WR分发到所述第二池的SQ。
9.根据权利要求8所述的网络适配器,其中至少一个SQ在所述第一池和所述第二池之间共享,并且其中所述处理电路被配置为将来自所述第一MCSQ和所述第二MCSQ两者的WR发布到所述至少一个SQ。
10.根据权利要求1所述的网络适配器,其中所述处理电路被配置为在完成队列(CQ)上发布对应于在给定WR之前发布到所述MCSQ的WR的全部完成队列元素(CQE)之后,在由所述客户端进程可访问的所述CQ上发布指示所述给定WR的结束执行的所述CQE。
11.根据权利要求1所述的网络适配器,其中所述处理电路被配置为独立于所述MCSQ中的相应WR的顺序而将CQE发布到CQ。
12.根据权利要求1所述的网络适配器,其中所述处理电路被配置为向已经与给定目标建立连接的给定SQ分发仅指定所述给定目标的WR,直到所述连接终止。
13.根据权利要求1所述的网络适配器,其中所述处理电路被配置为响应于检测到给定SQ中的故障,在CQ上发布指示所述故障的CQE。
14.根据权利要求13所述的网络适配器,其中所述处理电路被配置为在所述CQ上发布指示要在给定SQ中执行的每个WR的所述故障的CQE。
15.根据权利要求13所述的网络适配器,其中所述处理电路被配置为在所述CQ上发布指示将被分发到给定SQ的来自MCSQ的每个WR的所述故障的CQE。
16.根据权利要求1所述的网络适配器,其中至少给定的WR指定从所述主机到目标的相应数据传输操作。
17.根据权利要求1所述的网络适配器,其中给定的WR指定本地执行的操作。
18.一种用于通信的方法,包括:
在网络适配器中,所述网络适配器连接到用于与远程目标通信的通信网络,并且还连接到主机,所述主机访问存储源自在所述主机上运行的客户端进程的工作请求(WR)的MCSQ,
从所述MCSQ检索WR并且将所述检索到的WR分发在由所述网络适配器可访问的多个发送队列(SQ)中。
19.根据权利要求18所述的方法,其中所述目标中的每个包括:(i)远程节点,其耦合到所述通信网络;或(ii)本地装置,其耦合到所述主机。
20.根据权利要求18所述的方法,其中所述WR包括与相应SQ相关联的相应识别符,并且其中分发所述WR包括基于所述识别符在所述SQ之间分发所述WR。
21.根据权利要求20所述的方法,还包括响应于检测到检索到的WR中的所述识别符在所述SQ中没有相关联的SQ,从所述多个SQ中选择可用的SQ,将所述识别符与所述可用的SQ相关联,并且在所述可用的SQ上发布所述WR。
22.根据权利要求20所述的方法,还包括响应于检测到给定WR中的所述标识符与选定SQ相关联,在所述选定SQ上发布所述WR。
23.根据权利要求18所述的方法,还包括根据可靠连接(RC)协议来操作所述SQ,在所述可靠连接(RC)协议中,所述SQ被分配为持久地连接到相应的目标。
24.根据权利要求18所述的方法,还包括根据动态连接(DC)协议操作所述SQ,所述动态连接(DC)协议允许给定SQ在不同时间连接到不同目标。
25.根据权利要求18所述的方法,其中所述主机在相应地与第一SQ池和第二SQ池相关联的第一MCSQ和第二MCSQ上发布WR,并且其中分发所述WR包括将来自所述第一MCSQ的所述WR分发到所述第一池中的SQ,以及将来自所述第二MCSQ的所述WR分发到所述第二池的SQ。
26.根据权利要求25所述的方法,其中至少一个SQ在所述第一池和第二池之间共享,并且其中分发所述WR包括将来自所述第一MCSQ和所述第二MCSQ两者的WR发布到所述至少一个SQ。
27.根据权利要求18所述的方法,其中发布所述CQE包括在完成队列(CQ)上发布对应于在给定WR之前发布到所述MCSQ的WR的全部完成队列元素(CQE)之后,在由所述客户端进程可访问的所述CQ上发布指示所述给定WR的结束执行的所述CQE。
28.根据权利要求18所述的方法,其中发布所述CQE包括独立于所述MCSQ中的相应WR的顺序而将CQE发布到CQ。
29.根据权利要求18所述的方法,其中分发所述WR包括向与给定目标建立连接的给定SQ分发仅指定所述给定目标的WR,直到所述连接终止。
30.根据权利要求18所述的方法,其中发布所述CQE包括,响应于检测到给定SQ中的故障,在CQ上发布指示从所述MCSQ检索到的并且将被分发到所述给定SQ的每个WR的所述故障的CQE。
31.根据权利要求30所述的方法,其中发布所述CQE包括在CQ上发布指示要在所述给定SQ中执行的每个WR的所述故障的CQE。
32.根据权利要求30所述的方法,其中发布所述CQE包括在所述CQ上发布指示将被分发到所述给定SQ的来自所述MCSQ的每个WR的所述故障的CQE。
33.根据权利要求18所述的方法,其中给定的WR指定从所述主机到目标的相应数据传输操作。
34.根据权利要求18所述的方法,其中给定的WR指定本地执行的操作。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/142,366 | 2021-01-06 | ||
US17/142,366 US11451493B2 (en) | 2021-01-06 | 2021-01-06 | Connection management in a network adapter |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114726929A true CN114726929A (zh) | 2022-07-08 |
Family
ID=81927277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210006125.XA Pending CN114726929A (zh) | 2021-01-06 | 2022-01-05 | 网络适配器中的连接管理 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11451493B2 (zh) |
EP (1) | EP4027249A1 (zh) |
CN (1) | CN114726929A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112020002497T5 (de) | 2019-05-23 | 2022-04-28 | Hewlett Packard Enterprise Development Lp | System und verfahren zur dynamischen zuweisung von reduktionsmotoren |
US11622004B1 (en) * | 2022-05-02 | 2023-04-04 | Mellanox Technologies, Ltd. | Transaction-based reliable transport |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5887134A (en) * | 1997-06-30 | 1999-03-23 | Sun Microsystems | System and method for preserving message order while employing both programmed I/O and DMA operations |
US20120192190A1 (en) * | 2011-01-21 | 2012-07-26 | International Business Machines Corporation | Host Ethernet Adapter for Handling Both Endpoint and Network Node Communications |
US20140310369A1 (en) * | 2011-12-23 | 2014-10-16 | Vadim Makhervaks | Shared send queue |
CN105765910A (zh) * | 2013-01-17 | 2016-07-13 | 埃克索科茨股份有限公司 | 利用卸载处理器的调度和通信量管理 |
CN108885597A (zh) * | 2016-04-04 | 2018-11-23 | 马维尔国际贸易有限公司 | 用于使用直接目标访问经由通过结构的非易失性存储器桥接访问主机存储器的方法和系统 |
US20200314181A1 (en) * | 2019-04-01 | 2020-10-01 | Mellanox Technologies, Ltd. | Communication with accelerator via RDMA-based network adapter |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5970069A (en) * | 1997-04-21 | 1999-10-19 | Lsi Logic Corporation | Single chip remote access processor |
US8811417B2 (en) * | 2009-11-15 | 2014-08-19 | Mellanox Technologies Ltd. | Cross-channel network operation offloading for collective operations |
US10158702B2 (en) * | 2009-11-15 | 2018-12-18 | Mellanox Technologies, Ltd. | Network operation offloading for collective operations |
US8213315B2 (en) * | 2009-11-19 | 2012-07-03 | Mellanox Technologies Ltd. | Dynamically-connected transport service |
US8761189B2 (en) * | 2012-06-28 | 2014-06-24 | Mellanox Technologies Ltd. | Responding to dynamically-connected transport requests |
US9561469B2 (en) * | 2014-03-24 | 2017-02-07 | Johnson Matthey Public Limited Company | Catalyst for treating exhaust gas |
US10305772B2 (en) * | 2015-03-30 | 2019-05-28 | Mellanox Technologies, Ltd. | Using a single work item to send multiple messages |
US9985904B2 (en) | 2015-12-29 | 2018-05-29 | Amazon Technolgies, Inc. | Reliable, out-of-order transmission of packets |
US10148581B2 (en) * | 2016-05-30 | 2018-12-04 | Mellanox Technologies, Ltd. | End-to-end enhanced reliable datagram transport |
US10623521B2 (en) * | 2016-12-26 | 2020-04-14 | Mellanox Technologies, Ltd. | Distribution of messages to queues in a distributed computing environment |
-
2021
- 2021-01-06 US US17/142,366 patent/US11451493B2/en active Active
-
2022
- 2022-01-05 CN CN202210006125.XA patent/CN114726929A/zh active Pending
- 2022-01-05 EP EP22150387.3A patent/EP4027249A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5887134A (en) * | 1997-06-30 | 1999-03-23 | Sun Microsystems | System and method for preserving message order while employing both programmed I/O and DMA operations |
US20120192190A1 (en) * | 2011-01-21 | 2012-07-26 | International Business Machines Corporation | Host Ethernet Adapter for Handling Both Endpoint and Network Node Communications |
US20140310369A1 (en) * | 2011-12-23 | 2014-10-16 | Vadim Makhervaks | Shared send queue |
CN105765910A (zh) * | 2013-01-17 | 2016-07-13 | 埃克索科茨股份有限公司 | 利用卸载处理器的调度和通信量管理 |
CN108885597A (zh) * | 2016-04-04 | 2018-11-23 | 马维尔国际贸易有限公司 | 用于使用直接目标访问经由通过结构的非易失性存储器桥接访问主机存储器的方法和系统 |
US20200314181A1 (en) * | 2019-04-01 | 2020-10-01 | Mellanox Technologies, Ltd. | Communication with accelerator via RDMA-based network adapter |
Non-Patent Citations (2)
Title |
---|
叶庆;刘森;张严辞;: "基于Infiniband网络的消息传输技术研究", 四川大学学报(自然科学版), no. 02, 28 March 2015 (2015-03-28) * |
缪澄宇;雷咏梅;: "支持映射查找的MPICH分段消息队列", 计算机工程与设计, no. 10, 16 October 2016 (2016-10-16) * |
Also Published As
Publication number | Publication date |
---|---|
EP4027249A1 (en) | 2022-07-13 |
US20220217101A1 (en) | 2022-07-07 |
US11451493B2 (en) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11343198B2 (en) | Reliable, out-of-order transmission of packets | |
US10812380B2 (en) | Medical device communication method | |
US20220311544A1 (en) | System and method for facilitating efficient packet forwarding in a network interface controller (nic) | |
US10917344B2 (en) | Connectionless reliable transport | |
US10673772B2 (en) | Connectionless transport service | |
US10148581B2 (en) | End-to-end enhanced reliable datagram transport | |
JP5635117B2 (ja) | 動的接続された移送サービス | |
KR101941416B1 (ko) | 네트워킹 기술들 | |
US20140310369A1 (en) | Shared send queue | |
US20060230119A1 (en) | Apparatus and method for packet transmission over a high speed network supporting remote direct memory access operations | |
CN113490927A (zh) | 具有硬件集成和乱序放置的rdma输送 | |
EP4027249A1 (en) | Connection management in a network adapter | |
EP3928213A1 (en) | Rdma transport with hardware integration | |
US20220407824A1 (en) | Connection management in a network adapter | |
US11503140B2 (en) | Packet processing by programmable network interface | |
US8150996B2 (en) | Method and apparatus for handling flow control for a data transfer | |
US11444886B1 (en) | Out of order packet buffer selection | |
WO2023147440A2 (en) | System and method for one-sided read rma using linked queues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |