CN114153778A

CN114153778A - 跨网络桥接

Info

Publication number: CN114153778A
Application number: CN202111034294.6A
Authority: CN
Inventors: 丹尼尔·马可维奇; 艾丹·伯斯坦; 利兰·丽丝; 希勒尔·查普曼; 德罗尔·戈登伯格; 迈克尔·卡根; 阿维亚德·耶赫兹克尔; 彼得·巴内亚
Original assignee: Mellanox Technologies Ltd
Current assignee: Mellanox Technologies Ltd
Priority date: 2020-09-07
Filing date: 2021-09-03
Publication date: 2022-03-08
Also published as: EP3974998A3; US11750418B2; US20230353419A1; US20220078043A1; EP3974998A2

Abstract

一种跨网络桥接装置包括总线接口和桥接电路。总线接口被配置用于连接至系统总线。桥接电路被配置为在(i)在耦合到系统总线并由系统总线所服务的一个或多个本地设备与处于跨网络远离该装置的一个或多个远程处理器之间进行交换的系统总线事务与(ii)传达系统总线事务的数据单元之间进行转换，以用于作为网络分组通过网络向远程处理器发射以及从远程处理器接收。

Description

跨网络桥接

技术领域

本发明总体上涉及通信网络上的云计算，尤其涉及用于在此类网络上的云计算中分解远程服务器资源的方法和系统。

背景技术

云计算提供商可以使用设备分解来将服务器的资源灵活地分配给多个远程客户端。

在Meyer等人的“Disaggregated Computing.An Evaluation of Current Trendsfor Datacentres”(Procedia Computer Science 108C (2017)685–694)中，作者断言下一代数据中心可能将基于新兴的分解功能块为单位的范例，与主板为单位的当前状态不同。诸如计算、存储器和外围设备的多个功能块或模块将散布在整个系统中，并经由一个或多个高速网络而互连在一起。

在《NEC技术期刊》第9卷第2期《ICT系统的未来云平台专刊》的Takashi等人的“Scalable Resource Disaggregated Platform That Achieves Diverse and VariousComputing Services”中，作者描述了对云数据中心所提供的广泛服务的未来适应，这将需要同时处理来自不同用户的对数据存储、网络、数值分析和图像处理的多种需求的能力，并且引入资源分解的平台，该平台将可以通过在设备级别从资源池分配设备并扩展个体性能和功能性来执行计算。

发明内容

本文描述的本发明的实施方式提供了一种包括总线接口和桥接电路的跨网络桥接装置。总线接口被配置用于连接至系统总线。桥接电路被配置为在(i)在耦合到系统总线并由系统总线所服务的一个或多个本地设备与处于跨网络远离该装置的一个或多个远程处理器之间进行交换的系统总线事务与(ii)传达系统总线事务的数据单元之间进行转换，以用于作为网络分组通过网络向远程处理器发射以及从远程处理器接收。

在一个实施方式中，本地设备中的一个或多个包括图形处理单元 (GPU)。在另一实施方式中，本地设备中的一个或多个包括存储设备，并且网络分组中的一个或多个包括NVMe-over-fabrics(NVMe-F) 命令。

在一些实施方式中，数据单元被格式化为网络分组，并且桥接电路被配置为向网络适配器发射以及从网络适配器接收网络分组。在一个实施方式中，桥接电路被配置为维护多个队列对(QP)，每个QP 被指派给相应本地系统总线设备和相应远程处理器之间的相应连接，并且通过调度多个QP来发射和接收网络分组。在示例实施方式中，桥接电路被配置为维护在QP中排队的多个工作队列元素，其中每个工作队列元素被配置为定义系统总线事务中的一个或多个。

在所公开的实施方式中，桥接电路被配置为通过将系统总线事务中的两个或更多个合并在单个工作队列元素中来产生数据单元。在另一实施方式中，桥接电路被配置为将出站数据单元写入到存储器以作为网络分组通过网络发射，并且从存储器读取作为网络分组通过网络接收的入站数据单元。在又一个实施方式中，在数据单元和系统总线事务之间进行转换时，桥接电路被配置为修改系统总线事务中的一个或多个系统总线事务的一个或多个属性。

在一些实施方式中，系统总线包括快速外围组件互连(PCIe)总线。在一个实施方式中，系统总线事务包括PCIe事务层分组(TLP)。在其他实施方式中，系统总线包括计算快速链路(CXL)总线或Nvlink 总线。在示例实施方式中，数据单元包括第3层网络分组。在另一实施方式中，系统总线事务包括PCIe事务，并且数据单元包括远程直接存储器访问(RDMA)分组。在又一个实施方式中，系统总线事务包括PCIe事务，并且数据单元将作为SEND消息分组而被发射。

在一些实施方式中，桥接电路被配置为识别系统总线事务中的一个或多个包括消息信号中断(MSI-X)，并且响应于识别，将包括 MSI-X的系统总线事务转换为一个或多个RDMA扩展可靠连接(XRC) 消息。在一个实施方式中，桥接电路被配置为仅响应于识别给定系统总线事务匹配预定义标准而转换给定系统总线事务。在一个实施方式中，桥接电路被配置为仅响应于识别给定系统总线事务没有与本地系统总线地址交换而转换给定系统总线事务。

在一个实施方式中，本地设备中的至少一个包括由系统总线所服务的物理设备。在另一实施方式中，本地设备中的一个或多个包括在物理设备中指派的虚拟化设备。在一些实施方式中，在数据单元和系统总线事务之间进行转换时，桥接电路被配置为在出现在数据单元中的网络地址和出现在系统总线事务中的对应设备地址之间进行转换。

根据本发明的实施方式，另外提供了一种包括总线接口和桥接电路的跨网络桥接装置。总线接口被配置用于连接至系统总线。桥接电路被配置为在(i)在耦合到系统总线并由系统总线所服务的本地处理器与处于跨网络远离该装置的一个或多个远程处理器之间进行交换的系统总线事务与(ii)传达系统总线事务的数据单元之间进行转换，以用于作为网络分组通过网络向远程设备发射以及从远程设备接收。

在一个实施方式中，数据单元被格式化为网络分组，并且桥接电路被配置为向网络适配器发射以及从网络适配器接收网络分组。在另一实施方式中，桥接电路被配置为将出站数据单元写入到存储器以作为网络分组通过网络发射，并且从存储器读取作为网络分组通过网络接收的入站数据单元。

根据本发明的一个实施方式，还提供了一种远程系统总线分析装置，包括第一计算机、跨网络网桥(CNB)和第二计算机。第一计算机包括系统总线。CNB被配置为将在系统总线上交换的系统总线事务转换为网络分组，并通过网络发射网络分组。第二计算机被配置为通过网络从CNB接收网络分组，从接收到的网络分组中提取通过第一计算机的系统总线交换的系统总线事务，并分析系统总线事务。

在一些实施方式中，系统总线包括快速外围组件互连(PCIe)总线。

根据本发明的实施方式，还提供了一种跨网络桥接方法，包括操作耦合到系统总线并由系统总线所服务的一个或多个本地设备。使用桥接电路，在(i)在一个或多个本地设备和位于跨网络的一个或多个远程处理器之间进行交换的系统总线事务与(ii)传达系统总线事务的数据单元之间进行转换，以用于作为网络分组通过网络向远程处理器发射以及从远程处理器接收。

根据本发明的一个实施方式，还提供了一种跨网络桥接方法，包括操作耦合到系统总线并由系统总线所服务的本地处理器。使用桥接电路，在(i)在本地处理器和位于跨网络的一个或多个远程设备之间进行交换的系统总线事务与(ii)传达系统总线事务的数据单元之间进行转换，以用于作为网络分组通过网络向远程设备发射以及从远程设备接收。

根据本发明的实施方式，还提供了一种远程系统总线分析方法，包括使用跨网络网桥(CNB)，将在第一计算机的系统总线上交换的系统总线事务转换为网络分组，并通过网络发射网络分组。在第二计算机中，通过网络从CNB接收网络分组，从接收到的网络分组中提取通过第一计算机的系统总线交换的系统总线事务，然后分析系统总线事务。

本发明将通过以下对其实施方式的详细描述并结合附图而得到更全面的理解，其中：

附图说明

图1是示意性地图示出了根据本发明实施方式的服务器的架构的框图；

图2是示意性地图示出了根据本发明实施方式的包括客户端和服务器的网络的框图；

图3是示意性地图示出了根据本发明实施方式将设备的虚拟功能分配给客户端中央处理单元(CPU)的框图；

图4是示意性地图示出了根据本发明实施方式的在全隧道传递 SEND协议通信模式中与远程计算机的通信的序列图；

图5是示意性地图示出了根据本发明实施方式的在全隧道传递混合协议通信模式中与远程计算机的通信的序列图；

图6A是示意性地图示出了根据本发明实施方式的在单端隧道传递RDMA协议通信模式中服务器发起的与远程客户端的通信的序列图；

图6B是示意性地图示出了根据本发明实施方式的在单端隧道传递SEND协议通信模式中服务器发起的与远程客户端的通信的序列图；

图7A是示意性地图示出了根据本发明实施方式的遵守PCIe排序规则的具有多个并发队列的PCIe隧道传递的框图；

图7B是示意性地图示出了根据本发明实施方式的遵守相同缓存行排序规则的具有多个并发队列的PCIe隧道传递的框图；

图8是示意性地图示出了根据本发明实施方式的基于PCIe消息的中断扩展(MSI-X)隧道传递的框图；

图9是示意性地图示出了根据本发明实施方式的跨网络网桥 (CNB)中的消息路由的框图；

图10是示意性地图示出了根据本发明实施方式的具有CNB的服务器计算机的框图；

图11是示意性地图示出了根据本发明实施方式的基于单端 RDMA的写入TLP流程的流程图；

图12是示意性地图示出了根据本发明实施方式的基于单端 RDMA的读取TLP流程的流程图；和

图13是示意性地图示出了根据本发明实施方式的远程PCIe分析的框图。

具体实施方式

概述

设备分解允许包括诸如固态盘(SSD)或图形处理单元(GPU) 之类的计算设备的计算服务器在多个远程客户端之间共享设备或其部分。可以被远程客户端分解和共享的服务器中的计算设备为了简洁在下文中将其称为“设备”。

根据本发明的实施方式通常使用标准网络和标准网络协议来提供用于高效设备分解的装置和方法，其具有低CPU开销、低存储要求和良好响应时间。

在实施方式中，设备可以耦合到快速外围组件互连(PCIe)总线，并通过设备在PCIe上交换的事务层分组(TLP)来与远程客户端进行通信；在设备和客户端之间通过网络对设备透明地(并且在一些实施方式中对客户端透明地)隧道传递TLP。

尽管以下实施方式主要是指PCIe和PCIe TLP，但是在替代实施方式中也可以使用其他系统总线和总线协议；例如，在一些实施方式中，可以使用计算快速链路(CXL)或Nvlink。

在一些实施方式中，服务器可以包括跨网络网桥(CNB)，其通过PCIe总线监视TLP，确定TLP是否发往远程客户端，并且如果是，则通过网络向目的地客户端发送对应的消息。在一个实施方式中， CNB还接收发往设备的网络消息，并在PCIe上生成对应的TLP。

在一些实施方式中，可以使用双向隧道传递，其中服务器和对等客户端都包括CNB；在其他实施方式中，使用单端隧道传递 (Single-End-Tunneling)，其中只有服务器包括CNB，并且客户端发起的通信通过其他方式来完成(这种方式将在下文中描述)。

在实施方式中，服务器的设备可以被分解为可以同时被分配给多个客户端的虚拟功能。在一些实施方式中，单个客户端可以同时访问多于一个服务器中的虚拟功能。

在一个实施方式中，CNB将TLP转换成远程直接存储器访问 (RDMA)读取和/或写入消息，并使用RDMA通过网络协议传输消息，诸如Infiniband或聚合以太网上的RDMA(RoCE)技术(用于 RoCE背景，例如参见Shpiner等人的“RoCE Rocks without PFC: DetailedEvaluation”，2017年，内核旁路网络研讨会论文集，第25-30 页(doi:10.1145/3098583.3098588))。在另一实施方式中，CNB将 TLP转换成RDMA发送消息(下文将简称为SEND(发送)消息)。

以上，将描述五种示例通信模式以及对应的服务器和客户端配置：

·全隧道传递SEND协议模式；

·全隧道传递混合协议模式；

·单端隧道传递RDMA协议模式；

·单端隧道传递SEND协议模式；和

·混合模式

在实施方式中，服务器和客户端都维护队列对(QP)以处理对应于TLP的网络消息。在一个实施方式中，QP包括一个或多个工作队列来存储工作队列元素(WQE)，这些工作队列元素与被调度以在网络上进行传送的网络分组有关；对于每个工作队列，可能有一个对应的完成队列，它存储完成队列元素(CQE)，其对应于工作队列中的 WQE。

在一些实施方式中，CNB被配置为维护读取和写入工作队列，并以遵守PCIe排序规则的顺序从工作队列发布WQE(用于由NIC执行)。在其他实施方式中，CNB被配置为以遵守相同缓存行排序规则的顺序发布WQE。

根据一些实施方式，当将TLP转换成网络消息时，CNB被配置为通过合并多个消息来提高性能。在SEND协议通信模式下，CNB 被配置为在每个SEND操作中隧道传递多个TLP。在RDMA协议通信模式中，对于RDMA读取或RDMA写入，CNB被配置为将针对相邻地址范围的TLP序列合并为对应于连续PCIe地址空间的单个消息。将如下所述，如果合并可能违反排序规则，则合并也可能会受到限制。

在各种实施方式中，TLP隧道传递包括将基于消息的中断扩展 (MSI-X)分组从计算机(服务器或客户端)隧道传递到单个或多个对等体(或到对等体内的多个目的地)。

在一个实施方式中，CNB可以包括匹配寄存器，其存储用于TLP 报头的比较数据，包括“无关”字段。匹配寄存器还可以包括针对匹配TLP的路由信息。当TLP横穿PCIe总线时，CNB将TLP报头与比较数据进行比较；如果发现匹配，则CNB可以根据TLP报头和存储在对应的匹配寄存器中的路由信息将TLP隧道传递到QP，QP将通过网络向对等体发送通信消息。

在一些实施方式中，隧道传递写入TLP包括：a)将TLP报头与存储在匹配寄存器中的数据进行比较；b)确定TLP应该被隧道传递； c)为对应的网络分组设置流ID；d)发送WQE以供执行；以及e) 接收CQE，它用信号通知WQE执行的完成。

在实施方式中，隧道传递读取TLP类似于隧道传递写入TLP，不同之处在于，在d)之后，网络将接受来自对等体的响应消息，并在接收到响应分组之后发送CQE。

根据实施方式，当CNB改变隧道传递的TLP的字段(诸如请求方ID或TAG)时，CNB相应地修改TLP的ECEC字段。在一个实施方式中，ECRC被增量修改。

所使用的通信协议包括例如RDMA发送、RDMA写入和RDMA 读取。在其他实施方式中，该协议可以包括非易失性存储器快速结构 (NVMe-F)。进一步附加地或可替代地，可以使用任何其他合适的协议。

本发明的另一个实施方式提供了一种用于远程PCIe分析的系统，包括具有耦合到网络的CNB和PCIe的第一计算机。耦合到网络的第二计算机可以远程分析第一计算机中的PCIe事务，其中第一计算机的CNB可以被配置为将PCIe事务隧道传递给第二计算机以进行分析。在一些实施方式中，分析软件在第二计算机上运行并且可以具有在第一计算机中运行的代理。

总之，根据本发明的实施方式，设备分解由CNB提供，该CNB 使用标准通信协议将PCIe TLP隧道传递到对等计算机并且响应于通过网络从对等计算机接收到消息而将TLP注入到PCIe总线中。CNB 还可以被用于远程PCIe诊断。

所公开的技术可以被用于多种用例和环境中。在一些用例中，一个或多个分解的设备包括GPU。在其他用例中，例如使用诸如 NVMe-F之类的协议，所公开的CNB可以在存储应用中被使用。

在下面描述的实施方式中，客户端包括CPU，但是这种选择纯粹是为了举例。在其他实施方式中，所公开的技术可以被用于桥接在设备和任何其他类型的客户端之间，特别是诸如GPU之类的各种处理器之间。因此，术语“处理器”在本文中被用来指代CPU、GPU和其他合适的处理器类型。

系统描述

在下面的描述中，我们将使用术语“服务器”和“客户端”；虽然可能存在客户端和服务器的其他定义，但就我们的目的而言，客户端是通过通信网络访问由服务器所提供的服务的计算机硬件设备或软件，而服务器是专用于运行满足其他计算机需求的服务的计算机。

尽管下文描述的实施方式涉及包括PCIe系统总线的服务器和客户端，但是在替代实施方式中可以使用其他合适的系统总线，包括例如计算机快速链路(CXL)或Nvlink。

图1是示意性地图示出了根据本发明实施方式的服务器100的架构的框图。服务器100耦合到网络102，诸如以太网或InfiniBandTM(或任何其他合适的通信网络)，并且被配置为允许连接到网络的客户端 (未示出)访问设备104。设备104服务作为可以根据所公开的实施方式分解的设备的示例。此类设备可以包括(但不限于)固态磁盘 (SSD)或图形处理单元(GPU)、现场可编程门阵列(FPGA)和深度学习推理引擎。

根据本发明的实施方式，电路和合适的软件分解设备并将其暴露给耦合到网络的客户端。

服务器100还包括CPU 106、CPU本地存储器108(其存储本地 CPU数据和指令)和随机存取存储器(RAM)110。CPU 106、设备 104和RAM 110耦合到高速外围组件互连(PCIe)高速系统总线112 (在替代实施方式中可以使用其他合适的高速系统总线)。

CPU 106通过PCIe总线112和网络接口控制器(NIC)114在网络102上横向传送通信分组。(虽然NIC是以太网术语，但是在替代实施方式中可以使用其他类型的网络适配器，诸如InfiniBandTM主机通道适配器(HCA)，或任何其他合适的网络适配器。)

为了允许耦合到网络102的客户端处理器从设备104接收服务，服务器100还包括跨网络网桥(CNB)118。根据图1中所图示的示例实施方式，CNB 118被配置为对CPU 106透明地在PCIe事务层分组(TLP)和对应的网络分组之间进行转换(TLP包括PCIe总线上的一个或多个PCIe事务)。

在一些实施方式中，CNB 118包括用于连接到PCIe总线112的总线接口，在本示例中为PCIe接口120，以及被配置为执行各种CNB 功能的桥接电路122。本文描述的各种CNB也可以具有这种一般结构。在一些实施方式中，虽然不是必须的，但是CNB 118包括用于直接与 NIC 114通信的附加接口。在下面的描述中(图1和后续图)，为简洁起见，由桥接电路执行的动作被称为由CNB执行。

当服务器直接或通过RAM 110从客户端接收到发往设备104的分组时，CNB从NIC114接收分组，并生成将数据写入设备和/或RAM 中的对应的PCIe TLP。当设备104发起与客户端的通信时，设备通过 PCIe生成TLP；CNB拦截TLP，将TLP转换为通信分组，并通过NIC114将分组发送到网络。(分组和TLP之间的转换有时将被称为隧道传递。)

因此，根据图1的示例实施方式，设备104被分解并暴露给客户端；远程客户端可以使用TLP对服务器CPU透明地与设备通信；CNB 对CPU透明地在客户端和设备之间横向传送的分组之间桥接到TLP。

如可以领会的那样，图1中所图示的服务器100的配置是示例配置，其描述纯粹是为了概念清楚的缘故。在本发明的替代实施方式中可以使用其他合适的配置。例如，CPU106可以包括多个CPU；PCIe 总线112可以是任何其他合适的总线；本地存储器108可以被省略， RAM 110可以被省略。在一些实施方式中，可以存在本地存储器的和/或RAM的层次结构；在其他实施方式中，可以存在多个高速系统总线和多个设备。

根据本发明的一些实施方式，客户端计算机还可以包括与CNB 118(图1)相似或相同的跨网络网桥。

图2是示意性地图示出了根据本发明实施方式的包括客户端和服务器的网络200的框图。网络200包括分组交换网络102(图1)，其可以是以太网、InfiniBand^TM或任何其他合适的网络，以及通过网络通信的四个计算机：第一客户端202、第二客户端204、第一服务器206和第二服务器208。如可以领会的那样，附加的计算机可以耦合到网络102，包括(但不限于)附加的服务器和附加的客户端。

客户端202包括CPU 210、存储器212、网络接口控制器NIC 214 和跨网络网桥(CNB)216。根据图2中所图示的示例实施方式，上面提及的所有客户端202的子单元通过系统总线(例如，PCIe)互连。

当与耦合到网络102的服务器(例如，服务器206或服务器208) 通信时，CPU 210可以使用TLP将数据发送到远程服务器中的设备。 CNB 216被配置为拦截这样的TLP，并且使用例如完全RDMA协议或RDMA协议的SEND部分(将在下面描述)对CPU透明地将TLP 变换为网络分组；NIC 214然后将分组发送到远程服务器。

CNB 216还被配置为从远程服务器中的设备接收发往存储器212 的分组，将输入数据变换为TLP并将数据直接写入到存储器212中。

客户端204包括CPU 218、存储器220和NIC 222。客户端204 不包括CNB，因此，为了访问服务器206或208中的设备，客户端 204可以使用诸如RDMA之类的技术。客户端204不知道远程服务器的实现，特别是不知道远程服务器是否包括CNB。

服务器206包括通过PCIe系统总线互连的CPU 224、存储器226、 NIC 228和设备230。像服务器100(图1)一样，服务器206支持隧道传递并直接在网络分组和TLP之间进行转换。服务器206不知道远程客户端的实现，特别是不知道远程客户端是否包括CNB。

服务器208是更复杂服务器的示例，包括CPU 232、存储器234、两个NIC 236、CNB238和两个设备——设备0 240和设备1 242。这两个设备可以是相同的或不同的类型；两个NIC可以同时传送分组，增加通信带宽。CNB 238耦合到两个NIC，并在通过任一NIC横向传送的分组和对应的TLP之间进行转换。

因此，根据图2中所图示的示例配置，各种客户端和服务器可以通过网络彼此通信，包括具有或不具有CNB的服务器和客户端。服务器中的设备被分解并暴露给客户端。向客户端或服务器添加CNB 对软件是透明的。此外，向服务器添加CNB对所服务的客户端是透明的，向客户端添加CNB对提供服务的服务器是透明的。

如应当领会的那样，网络200的配置，包括客户端202、204和服务器206、208，是纯粹为了概念清楚的缘故而描述的示例配置。在本发明的替代实施方式中可以使用其他合适的配置。例如，在一些实施方式中，一些服务器也可以兼作客户端，并且一些客户端可以通过其他网络元件访问服务器；在其他实施方式中，一些服务器和/或客户端可以包括多个PCIe总线，而在其他实施方式中，一些服务器和/或客户端可以是多个耦合的计算机的聚合。

图3是示意性地图示出了根据本发明实施方式将设备的虚拟功能分配到客户端CPU的框图300。在示例实施方式中，设备可以包括存储设备(例如，SSD)或GPU，并且虚拟功能可以包括虚拟存储或处理功能。

示出了三个客户端——客户端A 302、客户端B 304和客户端C 306。客户端通过网络102(图1和图2)连接到两个设备——设备A 308和设备B 310。在一些实施方式中，两个设备可以在两个独立的服务器中；在其他实施方式中，这两个设备可以在同一服务器中。

根据图3中所图示的示例实施方式，两个设备中的每一个被划分为多个虚拟功能(VF)，这些虚拟功能被同时映射到客户端中的请求实体(例如，虚拟机(VM))——设备A308被划分为VF0 312、 VF1 314、VF2 316和VF3 318，而设备B 310被划分为VF0 320和 VF1322。在设备到客户端的TLP中，VF可以通过客户端CPU在访问设备时指定的地址，或者通过VF添加到网络传输的请求方ID或 PAS ID来标识。

根据图3中所图示的示例实施方式，VF0 312和VF1 314中的每一个都由具有不同地址范围的客户端A 302访问；客户端A可以在 VF0 312和VF1 314访问之间进行区分，因为它们包括不同的请求方 ID或PASID字段(从客户端A返回到设备A的完成指示将包括相同的请求方ID字段)。此外，根据图3的示例实施方式，客户端B 304 被分配了单个VF-VF2316，而客户端C306被分配了三个VF——设备A 308的VF3 318、设备B 310的VF0 320和VF1322。

在服务器侧，可以基于唯一的请求方ID、PCIe的进程地址空间标识符(PASID)，或者，基于地址范围，如果服务器包括输入输出存储器管理单元(IOMMU)，则可以区分由同一设备服务的不同客户端。

需要注意的是，并不是所有的请求方ID都需要被隧道传递；某些功能可以由本地CPU处理而无需CNB干预。

如应当领会的那样，图3中所图示的配置是纯粹为了概念清楚的缘故而描绘的示例配置。在本发明的替代实施方式中可以使用其他合适的配置。例如，一些服务器-客户端通信可以通过专用网络来完成，而一些服务器可以兼作客户端。

通信模式

根据本发明的实施方式，在客户端连接到服务器时，可以使用至少五种不同的客户端-服务器通信模式，如下表中所总结的那样 (“acked”是“确认”的缩写)：

在替代实施方式中可以使用其他合适的模式，包括但不限于本文的模式的组合；例如，在一个实施方式中，只有客户端具有CNB。

在一些通信模式中，客户端CPU可能不需要CNB，并且可以使用任何合适的客户端CPU，如下文将描述的。

全隧道传递发送协议

根据本发明的实施方式，可以设置全隧道传递SEND协议通信模式，其中客户端和服务器都包括CNB，并且客户端和服务器中的TLP 都通过在网络上横向传送的SEND消息隧道传递到对等计算机 (SEND是RDMA协议的一部分)。

图4是示意性地图示出了根据本发明实施方式的在全隧道传递 SEND协议通信模式中与远程计算机的通信的序列图400。由于全隧道传递SEND协议通信模式中的序列是对称的(相对于客户端-服务器)，所以图4涉及：发起方(或“请求方”)，包括CPU/设备/RAM 和CNB；以及响应方(或“目标”)，包括CPU/设备/RAM和CNB。发起方或响应方都可以是客户端或服务器。CPU/设备/RAM是客户端或服务器中的PCIe耦合的电路的聚合；通常，客户端侧不包括设备；并且，在一些实施方式中，任一侧可以不包括PCIe存储器。为简洁起见，我们将在下面将CPU/RAM/设备聚合称为CPU复合体。

图4图示出了以下对象之间的交互事件：发起方侧CPU复合体 402、发起方侧CNB404、通信网络406、响应方侧CNB 408和响应方侧CPU复合体410。(图4中所图示的CNB操作包括由CNB控制但由NIC的其他部分执行的操作。)图4描绘了写入(发起方到响应方)流程，然后是读取流程。

(从顶部开始)前三个事件描绘了发起方到响应方的写入。该序列以PCIe写入事件412开始，其中发起方的CPU执行写入TLP。发起方侧CNB拦截TLP，并根据地址范围或请求方ID(或PASID)确定TLP应被隧道传递到响应方(到服务器的远程设备，或客户端的存储器)，将来自TLP的数据封装在SEND消息中，并且在SEND事件414中，通过网络406将SEND消息发送到响应方侧CNB 408。然后，响应方侧CNB在写入PCIe事件416中，生成与(事件412的) 发起方侧TLP相对应的TLP；CNB可以相对于响应方的PCIe基地址寄存器(BAR)来对地址进行校正，以便指向响应方专用的地址范围。

接下来的六个事件描绘了发起方到响应方的读取。在PCIe读取事件418中，发起方的CPU从与响应方(存储器或设备)相关联的地址范围中生成读取TLP。发起方侧CNB 404拦截TLP并将TLP解释为读取请求。然后，CNB在SEND事件420中通过网络406向响应方侧CNB 408发送对应于读取请求的SEND消息。响应方侧(或请求方侧)CNB 408可以根据响应方PCIE BAR来改变地址(或请求方ID)，并且在PCIe读取事件422中，生成与发起方PCIe中的读取TLP相对应的读取TLP。

CPU复合体410接收PCIe读取事件，并且在完成事件424中，通过生成对应于完成事务的TLP来进行响应，就好像对由耦合到相同 PCIe的CPU发起的读取请求进行响应一样。TLP由响应方侧CNB 408 拦截，其在SEND事件426中通过网络406发送封装完成TLP的SEND消息。发起方侧CNB接收SEND消息，并且在完成事件428中生成完成TLP，该完成TLP对应于事件424的响应方侧PCIe完成TLP。

总之，图4中所图示的示例实施方式描述了具有发送通信模式的全隧道传递，其中：

·客户端和服务器都包含CLB。

·CLB捕获TLP并将TLP封装在跨网络发送的SEND消息中。

·响应于SEND消息，远程CNB注入TLP，并可以(在客户端侧) 将PCIe请求方ID修改为预期的本地请求方ID，或者关于设备(或虚拟设备)与远程PCIe中的BAR的偏移，(在服务器侧)修改地址。

·在读取TLP中，发起方CLB存储读取请求标签，并发送对应的 SEND消息；响应方生成响应SEND分组，并将其发送给发起方；然后发起方将响应隧道传递到本地PCIe。

全隧道传递混合协议

根据本发明的实施方式，可以在服务器和客户端之间设置全隧道传递混合协议通信模式，其中客户端和服务器都包括CNB。客户端和服务器中的TLP都隧道传递到对等体，在写入到设备时使用SEND 消息，并且在写入到客户端存储器时使用RDMA协议。

图5是示意性地图示出了根据本发明实施方式的在全隧道传递混合协议通信模式中与远程计算机的通信的序列图500。由于全隧道传递混合协议模式中的序列是对称的(相对于客户端-服务器)，图5 与上面的图4一样，涉及发起方和响应方，两者都包括CPU-RAM- 设备(“CPU复合体”)——发起方侧CPU复合体502和响应方侧 CPU复合体510。发起方侧还包括CNB 504，并且响应方侧还包括 CNB 508。

图5描绘了写入流程，然后是读取流程。(从顶部开始)前三个事件描绘了发起方到响应方的写入，并且可以与图4中所图示的前三个事件相同。该序列以PCIe写入事件512开始，其中发起方的CPU 复合体在PCIe上执行写入TLP。发起方的CNB拦截TLP，确定TLP 应被隧道传递到响应方，将来自TLP的数据封装在RDMA写入消息中，并且在RMA写入事件514中，通过网络406将RDMA写入消息发送到响应方侧CNB 508。然后，响应方侧CNB在写入PCIe事件 516中生成与(事件512的)发起方侧TLP相对应的TLP。

接下来的六个事件描绘了发起方到响应方的读取。在PCIe读取事件518处，发起方的CPU复合体从与响应方相关联的地址范围中生成读取TLP。发起方侧CNB 504拦截TLP并将其解释为远程读取请求；发起方的CPU复合体还存储用于读取TLP的标签ID。接下来，在SEND事件520中，发起方侧CNB通过网络406向响应方侧CNB 508发送对应于读取请求的SEND消息，响应方侧CNB 508在PCIe 读事件522中生成与发起方的PCIe中的读取TLP相对应的读取TLP (事件518)。

响应方侧CPU复合体510接收PCIe读取事件，并且在完成事件 524中，通过生成完成TLP来进行响应，就好像对由耦合到相同PCIe 的CPU发起的读取请求进行响应一样。TLP由响应方侧CNB 508拦截，其在SEND事件526中通过网络406发送封装从TLP返回的数据的SEND消息。RDMA写入协议绕过发起方侧CNB，并被发起方的CPU复合体处理，发起方的CPU复合体可以生成对应的TLP，以将输入数据写入本地RAM中(发起方的CPU还将标签与所存储的标签进行比较，以处理无序返回的分组)。

单端隧道传递RDMA协议

根据本发明的另外实施方式，服务器和客户端之间可以设置单端隧道传递RDMA协议通信模式，其中只有服务器包括CNB；因此，在实施方式中，服务器可以服务不包括CNB的客户端。此外，在实施方式中，服务器不知道对等客户端的配置，其可能包括或可能不包括CNB。

图6A是示意性地图示出了根据本发明实施方式的在单端隧道传递RDMA协议通信模式中服务器发起的与远程客户端的通信的序列图600。

图6A图示出了客户端侧CPU/RAM 602、客户端侧NIC 604、通信网络406、服务器侧CNB 606、服务器侧设备608和服务器侧CPU 610之间的交互事件。图6A描绘了写入(服务器到客户端)序列，然后是读取序列。

(从顶部开始)前三个事件描绘了服务器到客户端的写入。该序列从PCIe写入事件612开始，其中服务器的设备生成写入TLP。服务器侧CNB 606拦截TLP，确定TLP应被隧道传递到远程客户端(例如，基于地址范围)，将来自TLP的数据封装在RDMA写入消息中，并且在RDMA写入事件614中通过网络406向客户端侧CNB 604发送RDMA写入消息。然后，客户端侧CNB在PCIe写入事件616中生成与(事件612的)服务器侧TLP相对应的TLP。

接下来的八个事件描绘了服务器到客户端的读取。在PCIe读取事件618处，服务器的设备从与远程客户端相关联的地址范围中生成读取TLP。服务器侧CNB 606拦截TLP并将其解释为来自客户端的读取请求。CNB存储用于读取TLP的标签ID，并且在RDMA读取事件620中，通过网络406向客户端侧NIC 604发送对应于读取请求的RDMA读取消息，客户端侧NIC 604在PCIe读取事件622中生成与服务器PCIe中的PCIe读取TLP相对应的读取TLP(事件618)。

客户端CPU 602接收TLP读取消息，并且在完成数据事件624 中，通过完成指示和返回的数据在通过网络到服务器的消息中进行响应。该消息由服务器侧CNB 606接收，其在完成事件626中生成完成事务。

因此，根据图6A中所图示的示例实施方式，具有CNB的服务器可以与不包括CNB的客户端通信；在服务器侧，通信是CPU透明的。

单端隧道传递发送协议

根据本发明的实施方式，可以在服务器和客户端之间设置单端隧道传递SEND协议通信模式，其中服务器包括CNB，客户端包括减少功能性的CNB代理(其可以由软件实现)。

图6B是示意性地图示出了根据本发明实施方式的在单端隧道传递SEND协议通信模式中服务器发起的与远程客户端的通信的序列图 650。图6B图示出了客户端侧CPU/RAM652、客户端侧CNB代理 654、通信网络406、服务器侧CNB 656、服务器侧设备658和服务器侧CPU 660之间的交互事件。图6B描绘了写入(服务器到客户端) 流程，随后是读取流程和隧道完成信令。

(从顶部开始)前三个事件描绘了服务器到客户端的写入。该序列从PCIe写入事件662开始，其中服务器的设备在PCIe上生成写入 TLP。服务器侧CNB拦截TLP，确定TLP应被隧道传递到远程客户端(例如，基于地址范围)，将来自TLP的数据封装在SEND消息中，并且在SEND事件664中通过网络406向客户端侧CNB代理654 发送SEND消息。然后，CNB代理654将在写入PCIe事件666中生成与(事件662的)服务器侧TLP相对应的TLP。

接下来的八个事件描绘了服务器到客户端的读取。在PCIe读取事件668处，服务器的设备从与远程客户端相关联的地址范围中生成 TLP。服务器侧CNB 656拦截TLP并将其解释为读取请求。CNB存储用于读取TLP的标签ID，并且在SEND事件670中，通过网络406 向客户端侧CNB代理654发送与读取请求相对应的SEND消息，客户端侧CNB代理654在PCIe读取事件672中生成与服务器PCIe中的读取TLP相对应的读取TLP(事件668)。

客户端的CPU/RAM 652接收SEND消息，并且在完成事件674 中，通过生成完成TLP来进行响应，就好像对由耦合到相同PCIe的设备发起的读取请求进行响应一样。TLP被客户端侧CNB代理654 拦截，其在SEND事件676中通过网络406发送封装完成TLP的SEND 消息。服务器侧CNB接收消息，比较并生成完成TLP，该完成TLP 对应于客户端侧PCIe完成写入事件674。

混合通信模式

在本发明的又一些实施方式中，服务器和客户端之间可以设置混合通信模式，其中服务器仅包括CNB。

混合通信模式类似于单端隧道传递RDMA协议，不同之处在于它不是完全设备直通的(整个设备由远程客户端控制)——设备由服务器的CPU控制。

客户端的CPU借助于显式网络请求(例如，NVME-F命令包) 直接与服务器的CPU通信，后者继而又将请求递送给CNB。显式网络请求包括客户端发送给设备的地址。然后，响应于客户端已发送的地址，设备将从本地存储器执行TLP读取/写入。

在一个实施方式中，当混合通信模式可操作时，服务器的CNB 被配置为使用RDMA协议将具有客户端发送的地址的TLP隧道传递回客户端。

如应当领会的那样，上述各种通信模式是作为示例引用的示例模式，并且仅仅为了概念清楚的缘故而被示出。根据所公开的技术的客户端-服务器通信模式不限于上文的描述。在替代实施方式中，可以使用其他合适的模式。例如，包括CNB的客户端可以与不包括CNB 或包括CNB代理的服务器通信。在一些实施方式中，可以在单个服务器和/或单个客户端中使用多个CNB。CNB发送的消息可以由NIC 响应于CNB控制指示来发送，也可以由NIC和CNB之间的协作来发送。TLP有时可以包括多个TLP并且一个消息可以包括多个消息。

多个队列和合并

根据定义，PCIe强制执行事务排序(下面的写入指的是发布的写入事务)；例如，写入事务不能绕过写入，读取不能绕过写入，写入可以绕过写入并且读取可以绕过读取)。在支持较弱排序形式的本发明的一些实施方式中，其中排序由缓存的结构来保证(例如，TLP以相同的缓存行或缓存中使用的地址范围的相同子集为目标，诸如页面)，可以调用多个并发队列对，和/或可以使用WQE的合并。(在一些实施方式中，作为附加或代替合并，可以使用WQE的压缩；在一个实施方式中，WQE可以被加密。)

图7A示意性地图示出了根据本发明实施方式的遵守PCIe排序规则的具有多个并发队列的PCIe隧道传递的框图700。根据图7A中所图示的示例实施方式，跨网络桥接装置维护单个写入队列702、第一读取队列704、第二读取队列706和第三读取队列708。写入队列702 包括必须串行执行的写入请求——写入请求w0 710的执行必须先于写入请求w1712的执行，而写入请求w1 712的执行必须先于写入请求w3 714的执行。

队列704、706和708存储可以并行或以任何顺序执行的请求—— 读取请求r0716、读取请求r2 718和读取请求r3 720。然而，在(从对等计算机)接收到针对对应写入的网络完成指示(指示写入请求已被递送)之前，不可以执行读取请求。

为了改善延迟，在一些实施方式中，一些读取WQE被存储在写入队列702中并且将在先前的写入WQE之后立即被执行，而无需等待完成指示。在减少延迟的同时，这种技术也降低了队列并行度，并且可能会降低性能；因此，存储在队列702中的读取WQE的量应该根据期望的性能/延迟折衷来进行仔细调整。

因此，并发队列遵守PCIe排序规则。

图7B是示意性地图示出了根据本发明实施方式的遵守相同缓存行(或缓存地址子集)排序规则的具有多个并发队列的PCIe隧道传递的框图750。在实施方式中，相同缓存行排序规则意味着仅当两次访问的地址在同一缓存行中时才应保持排序。CNB可以包括散列表，以快速检查两个地址是否被包含在同一缓存行中，并且如果是，则对缓存访问进行排序。

第一队列752存储写入请求W0 754，随后是(并且因此必须按时间顺序在之前)读取请求R0 756。第二队列758存储写入请求W1 760；第三队列762存储读取请求R2 764；并且，第四队列764存储读取请求R3 770，随后是写入请求W3 772。根据图7B中所图示的示例实施方式，通过四个队列之间的基于散列的队列选择来保证相同缓存行排序。

刷新指示

根据实施方式，当采用宽松的排序(诸如相同缓存行)时，设备可能仍然偶尔需要有序执行。例如，设备可以将多个数据记录以宽松的顺序写入到存储器，然后写入数据就绪标签，指示所有记录都被存储在存储器中。数据就绪应在所有数据记录写入都完成之后被写入。

为此，在实施方式中，例如通过发送特定的TLP、匹配requestor_id/ 地址/pasid或通过特殊的CNB接口，设备被配置为发出刷新指示。 CNB被配置为在检测到刷新指示时停止桥接写入TLP，直到CNB接收到针对所有未完成网络请求的网络完成指示。

合并

根据本发明的实施方式，CLB可以合并多个TLP；这在协议报头相对于数据有效负载较大时可能会提高性能。

在上述的全隧道传递SEND协议和单端隧道传递SEND协议通信模式中，CNB被配置为在每个SEND操作中隧道传递多个TLP。

在基于RDMA的通信模式下，对于RDMA读取，CNB被配置为：

·维护未决读取TLP的群组(以下将被称为“会话”)列表，其中每个会话包括相同地址范围中的TLP(例如，会话中的最低地址和最高地址之间的距离不超过1KB)。

·如果TLP的地址在现有会话的地址范围内，则向现有会话添加新的TLP；否则——为TLP打开新会话。

·当尺寸足够大或计时器到期时终止会话。或者TLP的数量，；计时器到期变型。

·对于终止的会话——将对应的TLP整合为单个(如果可能的话——连续的)TLP，封装在RDMA消息中并进行发送。

在一些实施方式中，当需要严格的PCIe排序时，CNB被配置为仅当事务以连续地址为目标时才合并写入TLP。在一个实施方式中，当需要相同缓存行排序时，CNB被配置为避免合并未被映射到相同缓存行的读取和写入。在实施方式中，会话可以在第一TLP被合并时终止；在另一实施方式中，会话相对于TLP之间的到达时间而终止。在一些实施方式中，会话可以在字节数或TLP(任何TLP或预设类型的 TLP)的数量超过预设阈值时终止，在其他实施方式中，可以应用任何其他合适的标准来终止会话。

MSI-X处理

PCIe-3(和进一步的修订版)支持消息信号中断扩展 (Message-Signaled-Interrupt-Extended)(MSI-X)，通过专用TLP 将多达2,048个中断传输到多个目的地。根据本发明实施方式的CNB 将MSI-X TLP隧道传递到对等计算机。

图8是示意性地图示出了根据本发明实施方式的PCIe MSI-X中断隧道传递的框图800。

设备802通过本地PCIe总线生成PCIe MSI-X TLP。CNB 804识别MSI-X事务，并访问表806以将MSI-X TLP转换为对应的RDMA 扩展可靠连接(XRC)消息(在一些实施方式中，不需要表806，并且CNB根据PCIe MSI-X消息的地址或数据来构建消息)。

队列对808通过本地NIC 810和网络812向客户端发射RDMA 消息。在客户端中，远程NIC 812将消息引导到队列对816。

单个QP确保有序执行；XRC扩展传输报头(XRCETH)指定客户端(例如，不同的VM)中的XRC目标818，对应于MSI-X目标。 XRC目标向MSI-X电路发送对应的MSI-X中断，MSI-X电路由客户端MSI配置进程822预先配置。每个MSI-X电路820可以存储针对预配置的中断目标之一与服务器发送的中断数据相对应的中断数据。

如应当领会的那样，图8中所图示的MSI-X隧道传递的服务器和客户端配置是示例配置。在替代实施方式中可以使用其他合适的配置。例如，在一些实施方式中，客户端可以包括CNB，其可以将XRC转换为MSI-C TLP。

图9是示意性地图示出了根据本发明实施方式的跨网络桥接装置中的消息路由900的框图。服务器902通过网络904与第一客户端906 和第二客户端908通信。服务器902包括设备A 910、设备B 912和 CPU 914。设备和CPU通过PCIe系统总线916进行通信。服务器902 还包括被配置为通过网络将TLP隧道传递给客户端的CNB 918；以及NIC 920。

根据图9中所图示的示例实施方式，服务器分配三个队列对(QP) 以与客户端计算机中的对应QP通信——QP A 922，其被配置为通过网络与QP A’924通信；QP B 926，其被配置为与QP B’928通信；以及QP C 930，其被配置为与QP C’932通信。QP A’由第一客户端906维护，而QP B’928和QP C’932均由第二客户端908维护。

CNB 918被配置为监视PCIe总线并检测由设备910、912之一发起并发往客户端计算机的TLP。根据图9中所图示的示例实施方式，设备A TLP可以被隧道传递到第一客户端906中的QP A’924，或者到第二客户端928中的QP B’928，而设备B TLP可以仅被隧道传递到第二客户端中的QP C’932。

为此，CNB 918包括匹配寄存器——匹配寄存器934存储QP A 匹配规则，匹配寄存器936存储QP B匹配规则，并且匹配寄存器938 存储QP C匹配规则。根据图9中所图示的示例实施方式，如果匹配寄存器934检测到匹配，则CNB将TLP导向至QP A——例如，PCIe TLP由设备A生成，接收方id＝0，并且地址＝0x200。如果TLP由设备A生成，且接收方id＝1，则CNB进一步将TLP导向至QP B，而不管地址如何(由匹配寄存器938定义)；如果TLP由设备B生成，接收方ID＝3且地址＝0x8000(由匹配寄存器938定义)，则导向至 QP B。

在全隧道传递配置中，客户端的CNB中的匹配寄存器将被配置为匹配TLP地址，其中每个地址表示远程BAR地址。匹配寄存器将匹配请求方ID和服务器侧的地址。在一些实施方式中，当发生冲突匹配时将应用优先级匹配；例如，0到0x1000可以去到隧道1，但0x200-0x300可以覆盖并去到隧道2。

通常，与匹配寄存器的比较被视为预定义标准的示例实现。仅当 TLP与预定义标准匹配时，CNB才转换并发送给定的TLP。需要注意的是，如果CNB没有检测到任何匹配，则TLP不会被隧道传递(例如，当TLP指向本地PCIe地址时)。

如应当领会的那样，上面参考图9描述的服务器902和CNB 918 的配置是作为示例引用的示例配置，并且仅仅为了概念清楚的缘故而被示出。根据所公开的技术的服务器和CNB不限于上文的描述。在替代实施方式中，可以使用其他合适的配置。例如，匹配寄存器934、 936和938可以被存储在基于散列的RAM表中，或者被存储在三元内容可寻址存储器(TCAM)中。

图10是示意性地图示出了根据本发明实施方式的具有跨网络网桥的服务器1000的框图。服务器包括设备1002(例如GPU或SSD)、 PCIe总线1004、CNB 1006、CPU 1008(例如ARM)、网络适配器 1010和RAM 1012。CNB包括匹配寄存器1014、TLP注入电路1016 和隧道网关1018。

匹配寄存器1014被配置为检测应该被隧道传递到客户端的TLP 并且将这种匹配的TLP用信号通知给CNB的其他电路。匹配寄存器 1014还被配置为将其他TLP直接导向至CPU。

在一个实施方式中，为了通过网络发送分组，CNB 1006生成与匹配的TLP相对应的工作队列条目(WQE)并将WQE输出到RAM 1012(在写入每个WQE记录之后，CNB可以发送门铃指示)。网络适配器1010读取WQE，并且在完成先前的(或更高优先级的)WQE 之后，通过网络发送所请求的消息，并向CNB发送对应的完成队列条目(CQE)。

如可以领会的那样，本文描述的工作队列机制是作为示例引用的。替代实施方式可以使用其他机制在CPU和网络适配器之间传送分组发送/接收请求。

为了从客户端到设备桥接服务器接收的响应读取分组，CPU被配置为经由RAM1012向CNB发送读取响应指示。TLP注入电路生成对应于读取响应的TLP，并将TLP注入PCIe中。

当服务器接收到完成指示时，CPU 1008向CNB 1006的隧道网关 1018发送对应的指示，后者将(在TLP注入电路中)生成TLP以向设备指示完成。

根据图10中所图示的示例实施方式，CNB 1006处理分组和TLP 路由和控制。分组的有效负载(以及在一些实施方式中的部分报头) 直接在RAM和PCIe之间横向传送，可能通过检查/添加校验和、对准数据、校正(增量或通过重新计算)TLP ECRC字段以反映更改的请求方ID和TAG字段等的电路(为简单起见，未示出此类电路)。

如可以领会的那样，以上参考图10描述的服务器1000的配置是作为示例引用的示例配置，并且仅仅为了概念清楚的缘故而被示出。根据所公开的技术的服务器不限于上文的描述。在替代实施方式中，例如，匹配寄存器1014可以将非隧道传递的TLP直接发送到网络适配器而不是CPU。在另一实施方式中，CNB将门铃记录写入RAM中 (或者，例如写入CNB内的可寻址位置)，并将门铃指示发送到网络适配器1010。

图11是示意性地图示出了根据本发明实施方式的基于单端 RDMA的写入TLP流程的流程图1100。该流程由参考图10描述的服务器电路执行(以下描述中的所有服务器电路和所指明的单元编号均参考图10)。

流程开始于SEND-TLP步骤1102，其中设备1002通过PCIe总线发起写入TLP。接下来，在确定隧道传递步骤1104中，匹配寄存器1014将TLP报头与预先存储的比较数据进行比较，确定TLP是否应该被隧道传递，并且如果是，则根据匹配寄存器中存储的路由信息设置流ID(流ID可以指示打开的QP之一)。

如果TLP应该被隧道传递，则CNB在构建WQE步骤1106中构建对应于TLP的WQE，将WQE发送到RAM 1012，并且递增生产方索引。接下来，在发送门铃步骤1108处，CNB在RAM中写入对应于流参数的门铃记录，并发送门铃指示。

在网络控制器发送该分组之后，网络控制器在发送CQE步骤1110 中向CNB发送指示对应WQE完成的CQE。CNB在匹配流ID步骤 1112中检查CQE，将流ID与所有未决WQE的流ID进行比较，并递增对应的消费方索引。在步骤1112之后流程结束。(上面提到的生产方和消费方索引对于WQE与可能被乱序接收的CQE的匹配很有用。)

图12是示意性地图示出了根据本发明实施方式的基于单端 RDMA的读取TLP流程的流程图1200。与参考图11描述的写入TLP 示例一样，读取TLP流程由参考图10描述的服务器电路来执行，并且以下描述中的所有单元引用均参考其中所定义的电路。下面的一些步骤可能与流程1100的步骤相同。

该流程开始于SEND-TLP步骤1202，其中设备1002通过PCIe 总线发起读取TLP。接下来，在确定隧道传递步骤1204中，匹配寄存器1014将TLP报头与预先存储的比较数据进行比较，确定TLP是否应该被隧道传递，并且如果是，则设置流ID。

如果TLP应该被隧道传递，则CNB在构建WQE步骤1206中构建对应于TLP的WQE，将WQE发送到RAM 1012，并且递增生产方索引。接下来，在发送门铃步骤1208处，CNB在RAM中写入对应于流参数的门铃记录，并发送门铃指示。

在接收读取响应步骤1212处，网络适配器1010从客户端接收响应分组并将响应存储在RAM 1012中。接下来，在发送CQE步骤1214 中，网络适配器向CNB发送CQE。最后，在匹配流ID步骤1216中， CNB检查CQE，将流ID与所有未决WQE的流ID进行比较，并递增对应的消费方索引。在步骤1216之后流程结束。

应当理解，图11、图12中所图示的流程图是示例流程图，它们通过示例的方式被引用并且仅仅为了概念清楚的缘故而被示出。根据所公开的技术的流程图不限于上文的描述。在替代实施方式中，例如， CNB可以直接与网络适配器电路通信(不经由WQE/CQE)，可以跳过门铃记录更新状态，可以发送到由本地CPU轮询并在软件中处理的队列。

上文描述的技术也可应用于可以通过网络完成的PCIe事务的远程分析。

图13是示意性地图示出了根据本发明实施方式的远程PCIe分析的框图。用户1302在远程计算机1306上运行PCIe分析软件1304，以通过通信网络远程分析计算机1308中的TLP。计算机1308包括 CPU 1310、PCIe设备1312、PCIe总线1314和耦合到网络1318的NIC 1316。

根据图13中所图示的示例实施方式，计算机1308还包括CNB 1320，其被配置为通过网络1318将TLP隧道传递到远程计算机1306。

对于远程计算机1306对计算机1308的PCIe 1314的远程PCIe 分析，可以使用上文描述的任何单端通信模式。分析器软件激活运行在CPU 1310上的代理，该代理可以配置CNB 1320和NIC 1316以将选定的TLP隧道传递到远程计算机，从而允许分析软件观察计算机 1308中的TLP。

在一些实施方式中，远程计算机1306可以包括CNB，并且可以使用全隧道传递通信模式，以获得更好的性能。

如应当领会的那样，以上参考图13描述的远程PCIe分析配置以示例的方式被引用并且仅仅为了概念清楚的缘故而被示出。根据所公开的技术的远程PCIe分析不限于上文的描述。在替代实施方式中，可以使用其他合适的配置。例如，在一些实施方式中，不存在用户1302 (例如，远程PCIe分析以预设间隔自动完成，并且仅向系统管理员警告故障)。

上文描述的和图1至图13中图示的配置、流程图和序列图是纯粹为了概念清楚的缘故而示出的示例。在替代实施方式中可以使用任何其他合适的配置、流程图和序列图。例如，所描述的任何或所有 NIC可以被体现在例如通信交换机、路由器、具有交换能力的服务器或网络元件的聚合中。服务器和客户端的不同元件，包括CNB、CNB 元件(诸如接口和桥接电路、CNB代理和NIC)可以使用合适的硬件来实现，诸如在一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)中，使用软件、使用硬件或使用硬件和软件元件的组合来实现。

前面描述的所有计算机、处理器、CPU等可以包括一个或多个通用处理器，它们被用软件编程以执行本文描述的功能。例如，软件可以以电子形式通过网络或从主机下载到处理器，或者它可以可替代地或附加地被提供和/或被存储在非暂时性有形介质上，诸如磁、光、或电子存储器。

尽管本文描述的实施方式主要解决通信网络上的TLP桥接，但是本文描述的方法和系统也可以被使用在其他应用中，诸如在设备仿真中。

因此应该领会，上述实施方式是作为示例引用的，并且本发明不限于上文具体示出和描述的内容。相反，本发明的范围包括上文描述的各种特征的组合和子组合，以及是现有技术的并且本领域技术人员在阅读前述描述后会想到的并且未在本文中公开的变化和修改。

Claims

1.一种跨网络桥接装置，包括：

用于连接到系统总线的总线接口；和

桥接电路，所述桥接电路被配置为：在(i)在耦合到所述系统总线并由所述系统总线所服务的一个或多个本地设备与处于跨网络远离所述装置的一个或多个远程处理器之间进行交换的系统总线事务与(ii)传达所述系统总线事务的数据单元之间进行转换，以用于作为网络分组通过所述网络向所述远程处理器发射以及从所述远程处理器接收。

2.根据权利要求1所述的装置，其中所述本地设备中的一个或多个包括图形处理单元(GPU)。

3.根据权利要求1所述的装置，其中所述本地设备中的一个或多个包括存储设备，并且其中所述网络分组中的一个或多个包括NVMe-over-fabrics(NVMe-F)命令。

4.根据权利要求1所述的装置，其中所述数据单元被格式化为所述网络分组，并且其中所述桥接电路被配置为向网络适配器发射所述网络分组以及从所述网络适配器接收所述网络分组。

5.根据权利要求4所述的装置，其中所述桥接电路被配置为维护多个队列对(QP)，每个QP被指派给相应本地系统总线设备和相应远程处理器之间的相应连接，并且通过调度所述多个QP来发射和接收所述网络分组。

6.根据权利要求5所述的装置，其中所述桥接电路被配置为维护在所述QP中排队的多个工作队列元素，其中每个工作队列元素被配置为定义所述系统总线事务中的一个或多个。

7.根据权利要求1所述的装置，其中所述桥接电路被配置为通过将所述系统总线事务中的两个或更多个合并在单个工作队列元素中来产生数据单元。

8.根据权利要求1所述的装置，其中所述桥接电路被配置为将出站数据单元写入到存储器以作为网络分组通过所述网络发射，并且从所述存储器读取作为所述网络分组通过所述网络接收的入站数据单元。

9.根据权利要求1所述的装置，其中在所述数据单元和所述系统总线事务之间进行转换时，所述桥接电路被配置为修改所述系统总线事务中的一个或多个系统总线事务的一个或多个属性。

10.根据权利要求1所述的装置，其中所述系统总线包括快速外围组件互连(PCIe)总线。

11.根据权利要求1所述的装置，其中所述系统总线事务包括PCIe事务层分组(TLP)。

12.根据权利要求1所述的装置，其中所述系统总线包括计算快速链路(CXL)总线或Nvlink总线。

13.根据权利要求1所述的装置，其中所述数据单元包括第3层网络分组。

14.根据权利要求1所述的装置，其中所述系统总线事务包括PCIe事务，并且其中所述数据单元包括远程直接存储器访问(RDMA)分组。

15.根据权利要求1所述的装置，其中系统总线事务包括PCIe事务，并且其中所述数据单元将作为SEND消息分组而被发射。

16.根据权利要求1所述的装置，其中所述桥接电路被配置为识别所述系统总线事务中的一个或多个包括消息信号中断(MSI-X)，并且响应于所述识别，将包括所述MSI-X的所述系统总线事务转换为一个或多个RDMA扩展可靠连接(XRC)消息。

17.根据权利要求1所述的装置，其中所述桥接电路被配置为仅响应于识别给定系统总线事务匹配预定义标准而转换所述给定系统总线事务。

18.根据权利要求1所述的装置，其中所述桥接电路被配置为仅响应于识别给定系统总线事务没有与本地系统总线地址交换而转换所述给定系统总线事务。

19.根据权利要求1所述的装置，其中所述本地设备中的至少一个包括由所述系统总线所服务的物理设备。

20.根据权利要求19所述的装置，其中所述本地设备中的一个或多个包括在所述物理设备中指派的虚拟化设备。

21.根据权利要求1所述的装置，其中在所述数据单元和所述系统总线事务之间进行转换时，所述桥接电路被配置为在出现在所述数据单元中的网络地址和出现在所述系统总线事务中的对应设备地址之间进行转换。

22.一种跨网络桥接装置，包括：

用于连接到系统总线的总线接口；和

桥接电路，所述桥接电路被配置为：

在(i)在耦合到所述系统总线并由所述系统总线所服务的本地处理器与处于跨网络远离所述装置的一个或多个远程处理器之间进行交换的系统总线事务与(ii)传达所述系统总线事务的数据单元之间进行转换，以用于作为网络分组通过所述网络向所述远程设备发射以及从所述远程设备接收。

23.根据权利要求22所述的装置，其中所述数据单元被格式化为所述网络分组，并且其中所述桥接电路被配置为向网络适配器发射以及从所述网络适配器接收所述网络分组。

24.根据权利要求22所述的装置，其中所述桥接电路被配置为将出站数据单元写入到存储器以作为网络分组通过所述网络发射，并且从所述存储器读取作为所述网络分组通过所述网络接收的入站数据单元。

25.一种远程系统总线分析装置，包括：

包括系统总线的第一计算机；

跨网络网桥(CNB)，所述CNB被配置为将在所述系统总线上交换的系统总线事务转换为网络分组，并通过网络发射所述网络分组；和

第二计算机，所述第二计算机被配置为通过所述网络从所述CNB接收所述网络分组，从接收到的所述网络分组中提取通过所述第一计算机的所述系统总线交换的所述系统总线事务，并分析所述系统总线事务。

26.根据权利要求25所述的系统，其中所述系统总线包括快速外围组件互连(PCIe)总线。

27.一种跨网络桥接方法，包括：

操作耦合到系统总线并由所述系统总线所服务的一个或多个本地设备；以及

使用桥接电路，在(i)在所述一个或多个本地设备与处于跨网络的一个或多个远程处理器之间进行交换的系统总线事务与(ii)传达所述系统总线事务的数据单元之间进行转换，以用于作为网络分组通过所述网络向所述远程处理器发射以及从所述远程处理器接收。

28.根据权利要求27所述的方法，其中所述本地设备中的一个或多个包括图形处理单元(GPU)。

29.根据权利要求27所述的方法，其中所述本地设备中的一个或多个包括存储设备，并且其中所述网络分组中的一个或多个包括NVMe-over-fabrics(NVMe-F)命令。

30.根据权利要求27所述的方法，其中所述数据单元被格式化为所述网络分组，并且包括：向网络适配器发射和从所述网络适配器接收所述网络分组。

31.根据权利要求30所述的方法，还包括维护多个队列对(QP)，每个QP被指派给相应本地系统总线设备和相应远程处理器之间的相应连接，并且通过调度所述多个QP来发射和接收所述网络分组。

32.根据权利要求31所述的方法，其中维护所述QP包括：维护在所述QP中排队的多个工作队列元素，其中每个工作队列元素被配置为定义所述系统总线事务中的一个或多个。

33.根据权利要求27所述的方法，其中在所述系统总线事务和所述数据单元之间进行转换包括：通过将所述系统总线事务中的两个或更多个合并在单个工作队列元素中来产生数据单元。

34.根据权利要求27所述的方法，并且包括：将出站数据单元写入到存储器以作为网络分组通过所述网络发射，并且从所述存储器读取作为所述网络分组通过所述网络接收的入站数据单元。

35.根据权利要求27所述的方法，其中在所述数据单元和所述系统总线事务之间进行转换包括：修改所述系统总线事务中的一个或多个系统总线事务的一个或多个属性。

36.根据权利要求27所述的方法，其中所述系统总线包括快速外围组件互连(PCIe)总线。

37.根据权利要求27所述的方法，其中所述系统总线事务包括PCIe事务层分组(TLP)。

38.根据权利要求27所述的方法，其中所述系统总线包括计算快速链路(CXL)总线或Nvlink总线。

39.根据权利要求27所述的方法，其中所述数据单元包括第3层网络分组。

40.根据权利要求27所述的方法，其中所述系统总线事务包括PCIe事务，并且其中所述数据单元包括远程直接存储器访问(RDMA)分组。

41.根据权利要求27所述的方法，其中系统总线事务包括PCIe事务，并且其中所述数据单元将作为SEND消息分组而被发射。

42.根据权利要求27所述的方法，其中在所述系统总线事务和所述数据单元之间进行转换包括：识别所述系统总线事务中的一个或多个包括消息信号中断(MSI-X)，并且响应于所述识别，将包括所述MSI-X的所述系统总线事务转换为一个或多个RDMA扩展可靠连接(XRC)消息。

43.根据权利要求27所述的方法，其中在所述系统总线事务和所述数据单元之间进行转换包括：仅响应于识别给定系统总线事务匹配预定义标准而转换所述给定系统总线事务。

44.根据权利要求27所述的方法，其中在所述系统总线事务和所述数据单元之间进行转换包括：仅响应于识别给定系统总线事务没有与本地系统总线地址交换而转换所述给定系统总线事务。

45.根据权利要求27所述的方法，其中所述本地设备中的至少一个包括由所述系统总线所服务的物理设备。

46.根据权利要求45所述的方法，其中所述本地设备中的一个或多个包括在所述物理设备中指派的虚拟化设备。

47.根据权利要求27所述的方法，其中在所述数据单元和所述系统总线事务之间进行转换包括：在出现在所述数据单元中的网络地址和出现在所述系统总线事务中的相应设备地址之间进行转换。

48.一种跨网络桥接方法，包括：

操作耦合到系统总线并由所述系统总线所服务的本地处理器；以及

使用桥接电路在(i)在所述本地处理器和位于跨网络的一个或多个远程设备之间进行交换的系统总线事务与(ii)传达所述系统总线事务的数据单元之间进行转换，以用于作为网络分组通过所述网络向所述远程设备发射以及从所述远程设备接收。

49.根据权利要求48所述的方法，其中所述数据单元被格式化为所述网络分组，并且包括：向网络适配器发射和从所述网络适配器接收所述网络分组。

50.根据权利要求48所述的方法，其中并且包括：将出站数据单元写入到存储器以作为网络分组通过所述网络发射，并且从所述存储器读取作为所述网络分组通过所述网络接收的入站数据单元。

51.一种远程系统总线分析方法，包括：

使用跨网络网桥(CNB)，将在第一计算机的系统总线上交换的系统总线事务转换为网络分组，并通过网络发射所述网络分组；以及

在第二计算机中，通过所述网络从所述CNB接收所述网络分组，从接收到的所述网络分组中提取通过所述第一计算机的所述系统总线交换的所述系统总线事务，并分析所述系统总线事务。

52.根据权利要求51所述的方法，其中所述系统总线包括快速外围组件互连(PCIe)总线。