CN115994107B

CN115994107B - 存储设备的存取加速系统

Info

Publication number: CN115994107B
Application number: CN202310285923.5A
Authority: CN
Inventors: 张宥骏
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-14
Anticipated expiration: 2043-03-22
Also published as: CN115994107A

Abstract

本申请实施例提供了一种存储设备的存取加速系统，其中，该系统包括：中央处理器、PCIe设备、存储设备、计算芯片和内存，其中：PCIe设备包括根复合体设备、PCIe交换器和PCIe端点装置；中央处理器通过根复合体设备与PCIe交换器的上行端口通信连接，存储设备与PCIe交换器的下行端口通信连接，计算芯片通过PCIe端点装置与PCIe交换器的下行端口通信连接，且存储设备和计算芯片分别与不同的下行端口通信连接；中央处理器和计算芯片与不同的内存电连接。通过本申请解决了相关技术中应用于存储设备的存取加速系统架构易造成CPU满载的问题，达到了减少CPU的负载，并允许使用更多数量的PCIe设备的效果。

Description

存储设备的存取加速系统

技术领域

本申请实施例涉及计算机领域，具体而言，涉及一种存储设备的存取加速系统。

背景技术

近年随着机器学习（Machine learning）与大数据（Big Data）等领域越来越多数据中心使用现场可编程门阵列（Field Programmable Gate Array，FPGA）来加速推论（inference），高性能计算（High Performance Computing，HPC）中，FPGA提供了低延迟的加速功能，例如建筑设计建模、石油和天然气搜寻、核能发电仿真等等。FPGA通过减少复杂的瓶颈来分担中央处理器（Central Processing Unit，CPU）的工作负载。此外FPGA 还拥有实现哈希算法 (SHA)、重复数据删除功能、纠错码和压缩等等的能力。这种在线处理的方法是通过释放有限的处理器内存同时降低处理器上的计算负载，使系统架构具有双重计算的优势。通过这种架构CPU可以降低功耗并处于最佳工作的位置，用以实现数据中心的性能优化。

目前通常采用CPU与设备直连的架构，所有的外设组件互连标准（PeripheralComponent Interconnect Express，PCIe）装置都通过CPU根复合体（root complex）直连的方式链接至X86系统，所有数据传递都必须通过CPU去读取，在由CPU去分配数据给FPGA去作处理，而服务器产品通常外挂固态硬盘（SSD）的数量都非常多，另外还会外挂许多PCIe设备，若将上述架构应用于服务器中，容易造成CPU时常满载的问题，系统处理数据的效率也不佳。

发明内容

本申请实施例提供了一种存储设备的存取加速系统，以至少解决相关技术中应用于存储设备的存取加速系统架构易造成CPU满载的问题。

根据本申请的一个实施例，提供了一种存储设备的存取加速系统，包括中央处理器、PCIe设备、存储设备、计算芯片和内存，其中：PCIe设备包括根复合体设备、PCIe交换器和PCIe端点装置；中央处理器通过根复合体设备与PCIe交换器的上行端口通信连接，存储设备与PCIe交换器的下行端口通信连接，计算芯片通过PCIe端点装置与PCIe交换器的下行端口通信连接，且存储设备和计算芯片分别与不同的下行端口通信连接；中央处理器和计算芯片与不同的内存电连接。

在一个示例性实施例中，存取加速系统还包括：网络适配器，与PCIe交换器的下行端口通信连接，且网络适配器、存储设备和计算芯片分别与不同的下行端口通信连接。

在一个示例性实施例中，存取加速系统包括至少一个主机单元和至少一个运算单元，其中：每个主机单元包括一个中央处理器、一个根复合体设备以及一个内存；每个运算单元包括至少一个PCIe交换器、多个存储设备、至少一个计算芯片、至少一个PCIe端点装置以及至少一个内存；每个根复合体设备与至少一个运算单元中的PCIe交换器通信连接；在每个运算单元中，与根复合体设备通信连接的每个PCIe交换器与多个存储设备通信连接，每个计算芯片通过至少一个PCIe端点装置与至少一个PCIe交换器的通信连接，且计算芯片与内存一一对应地电连接。

在一个示例性实施例中，至少一个运算单元包括多个PCIe交换器和多个计算芯片，在同一运算单元中，PCIe交换器与计算芯片一一对应。

在一个示例性实施例中，同一运算单元中的每个PCIe交换器均与根复合体设备通信连接；在同一运算单元中，与任意一个计算芯片通信连接的多个PCIe端点装置与一个PCIe交换器的多个下行端口一一对应地通信连接。

在一个示例性实施例中，运算单元包括至少一个第一PCIe交换器和至少一个第二PCIe交换器，其中：每个第一PCIe交换器具有第一上行端口和多个第一下行端口，第一上行端口与根复合体设备通信连接，至少一个第一下行端口通过PCIe端点装置与计算芯片通信连接，剩余的第一下行端口与存储设备通信连接；每个第二PCIe交换器具有第二下行端口，第二下行端口通过PCIe端点装置与计算芯片通信连接。

在一个示例性实施例中，每个第二PCIe交换器的第一下行端口与数量相同的存储设备通信连接。

在一个示例性实施例中，每个第二PCIe交换器的第二下行端口通过数量相同的PCIe端点装置与至少一个计算芯片通信连接。

在一个示例性实施例中，在每个运算单元中，每个计算芯片通过多个第一PCIe端点装置与一个第一PCIe交换器通信连接，每个计算芯片通过多个第二PCIe端点装置与多个第二PCIe交换器一一对应地通信连接。

在一个示例性实施例中，在每个运算单元中，与同一计算芯片通信连接的第一PCIe端点装置和第二PCIe端点装置数量相同。

在一个示例性实施例中，在每个运算单元中，每个计算芯片分别与数量相同的第一PCIe端点装置和第二PCIe端点装置通信连接。

在一个示例性实施例中，在每个运算单元中，与每个第二PCIe交换器通信连接的第二PCIe端点装置的数量与计算芯片的数量相同。

在一个示例性实施例中，存取加速系统还包括：交换网端口，集成在多个PCIe交换器中，用于支持集成有交换网端口的一个PCIe交换器与另一个PCIe交换器之间的传输。

在一个示例性实施例中，存取加速系统包括多个第一运算单元，每个第一运算单元中具有集成在第一PCIe交换器中的第一交换网端口，不同的第一运算单元中的第一交换网端口之间通信连接。

在一个示例性实施例中，第一目标运算单元与多个第一运算单元中除第一目标运算单元之外的至少一个第二目标运算单元之间通过第一交换网端口通信连接，且第一目标运算单元中的第一交换网端口与每个第二目标运算单元的第一交换网端口一一对应。

在一个示例性实施例中，存取加速系统包括多个第二运算单元，第二运算单元中具有集成在第二PCIe交换器中的第二交换网端口，不同的第二运算单元中的第二交换网端口之间通信连接。

在一个示例性实施例中，第三目标运算单元与多个第二运算单元中除第三目标运算单元之外的至少一个第四目标运算单元之间通过第二交换网端口通信连接，且第三目标运算单元中的第二交换网端口与每个第四目标运算单元的第二交换网端口一一对应。

在一个示例性实施例中，存取加速系统包括第三运算单元，第三运算单元中具有集成在至少一个第一PCIe交换器中的第一交换网端口和集成在至少一个第二PCIe交换器中的第二交换网端口，第一交换网端口和第二交换网端口均为可切换端口，在至少一个第一交换网端口切换为第二上行端口，且至少一个第二交换网端口切换为第三下行端口的情况下，至少一个第二上行端口与至少一个第三下行端口一一对应地通信连接。

在一个示例性实施例中，存取加速系统包括多个第三运算单元，第二PCIe交换器中集成有可切换端口和第三交换网端口，不同的第三运算单元中的第三交换网端口之间通信连接。

在一个示例性实施例中，第五目标运算单元与多个第三运算单元中除第五目标运算单元之外的至少一个第六目标运算单元之间通过第三交换网端口通信连接，且第五目标运算单元中的第三交换网端口与每个第六目标运算单元的第三交换网端口一一对应。

通过本申请，计算芯片（如FPGA）以及存储设备（如NVMe 固态硬盘，NVMe SSD）不仅能够通过传统与中央处理器（CPU）直连的方式传输数据，也可以通过本实施例中存取加速系统架构（Storage Accelerate Architecture，SAA）实现FPGA等计算芯片与NVMe SSD等存储设备之间实现点对点传输，进而能够实现直接内存访问（Direct Memory Access，DMA）的功能。由于DMA是可以直接存取内存的技术，它允许硬件子系统可以独立直接地读写内存，不需要CPU介入处理，通过SAA即可将CPU的资源释放至其他应用，FPGA等计算芯片可以独立负责预处理/后处理数据。各个FPGA为一个数据处理的驱动引擎，添加到服务器的每个驱动器添加计算资源，从而减少 CPU 的负载，并允许使用更多数量的 PCIe 设备。因此，可以解决相关技术中应用于存储设备的存取加速系统架构易造成CPU满载的问题，达到减少CPU 的负载，并允许使用更多数量的 PCIe 设备的效果。

附图说明

图1是根据相关技术中的存储设备的存取加速系统的架构框图；

图2是根据本申请一个实施例的传输数据为与中央处理器直连的存取加速系统的架构框图；

图3是根据本申请一个实施例的传输数据为计算芯片与存储设备之间点对点传输的存取加速系统的架构框图；

图4是根据本申请一个实施例的具有多组主机单元和运算单元的存储设备的存取加速系统的架构框图；

图5是根据本申请一个实施例的具有多个第一PCIe交换器的存储设备的存取加速系统的架构框图；

图6是根据本申请另一个实施例的具有多组主机单元和运算单元的存储设备的存取加速系统的架构框图；

图7是根据本申请另一个实施例的具有多组主机单元和运算单元的存储设备的存取加速系统的架构框图；

图8是根据本申请另一个实施例的具有多组主机单元和运算单元的存储设备的存取加速系统的架构框图；

图9是根据图8所示的系统中每组主机单元和运算单元的架构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

外设组件互连标准：Peripheral Component Interconnect ExpressEnumeration，简称PCIe，例如HOST利用PCIe列举过程来获取完整的PCIe设备拓扑结构；

直接存取内存：Direct Memory Access，简称DMA，是计算器科学的一种内存访问技术，它允许硬件子系统可以独立直接地读写系统内存，而不需要中央处理器介入处理；

根复合体；root complex，装置将处理器和内存子系统连接到由一个或多个交换装置组成的PCI Express交换结构；

端点装置：End Point，本申请指的是PCIe端点装置。

如图1所示，为相关技术中CPU与设备直连的架构，包括CPU、根复合体（rootcomplex）、外设组件和内存（Memory），外设组件包括现场可编程门阵列（FieldProgrammable Gate Array，FPGA）、NVMe 固态硬盘（NVMe SSD）以及网络适配器（NetworkInterface Card，NIC），其中，所有的外设组件互连标准（Peripheral ComponentInterconnect Express，PCIe）装置都通过PCIe根复合体（root complex）直连的方式由PCIe链路（PCIe Link）链接至X86系统，所有数据传递都必须通过CPU去读取，在由CPU去分配数据给FPGA去作处理，而服务器产品通常外挂固态硬盘（SSD）的数量都非常多，另外还会外挂许多PCIe设备，若将上述架构应用于服务器中，容易造成CPU时常满载的问题，系统处理数据的效率也不佳。

在本申请的一个实施例中，提供了一种存储设备的存取加速系统，图2是根据本申请实施例的存储设备的存取加速系统的架构框图，如图2和图3所示，该存取加速系统包括中央处理器、PCIe设备、存储设备、计算芯片和内存，其中：

PCIe设备包括根复合体设备、PCIe交换器和PCIe端点装置；中央处理器通过根复合体设备与PCIe交换器的上行端口通信连接，存储设备与PCIe交换器的下行端口通信连接，计算芯片通过PCIe端点装置与PCIe交换器的下行端口通信连接，且存储设备和计算芯片分别与不同的下行端口通信连接；中央处理器和计算芯片与不同的内存电连接。

通过本实施例，计算芯片（如FPGA）以及存储设备（如固态硬盘）不仅能够通过传统与中央处理器（CPU）直连的方式传输数据（图2所示），也可以通过本实施例中存取加速系统架构（Storage Accelerate Architecture，SAA）实现FPGA等计算芯片与存储设备之间实现点对点传输（图3所示），进而能够实现直接内存访问（Direct Memory Access，DMA）的功能。由于DMA是可以直接存取内存的技术，它允许硬件子系统可以独立直接地读写内存，不需要CPU介入处理，通过SAA即可将CPU的资源释放至其他应用，FPGA等计算芯片可以独立负责预处理/后处理数据。各个FPGA为一个数据处理的驱动引擎，添加到服务器的每个驱动器添加计算资源，从而减少 CPU 的负载，并允许使用更多数量的 PCIe 设备。因此，解决了相关技术中应用于存储设备的存取加速系统架构易造成CPU满载的问题，达到了减少 CPU 的负载，并允许使用更多数量的 PCIe 设备的效果。

通过上述SAA架构实现计算芯片与存储设备之间实现点对点传输，达成DMA(Direct Memory Access)的功能。计算芯片与存储设备可以独立直接地读写内存，不需要CPU介入处理，通过SAA架构将CPU的资源释放至其他应用，计算芯片可以独立负责预处理/后处理数据。各个计算芯片为一个数据处理的驱动引擎，添加到服务器的每个驱动器添加计算资源，从而减少 CPU 的负载，并允许使用更多数量的PCIe设备，进而处理更庞大的数据库。

在一些示例性实施例中，存储设备可以为固态硬盘，如NVMe 固态硬盘（NVMeSSD），计算芯片可以为现场可编程门阵列（Field Programmable Gate Arrays，FPGA），FPGA加速器数据传输使用内部数据路径并节省宝贵的DRAM带宽，这种方式无需昂贵的x86系统即可扩展，避免FPGA独立加速器的不必要数据移动，存储设备内的数据可以安全地从存储设备点对点传输到FPGA。但并不局限于上述类型，如计算芯片还可以为通用图形处理器（General-purpose computing on graphics processing units，GPGPU），本实施例不作具体限定。

在一些示例性实施例中，存取加速系统还包括网络适配器（Network InterfaceCard，NIC），NIC与PCIe交换器的下行端口通信连接，且NIC、存储设备和计算芯片分别与不同的下行端口通信连接。

具体地，如图3所示，不仅FPGA与NVMe SSD之间能够通过SAA架构实现点对点传输，NIC Card也可以通过SAA实现资料的点对点传输，进而能达成DMA的功能。

在一些示例性实施例中，存取加速系统可以包括至少一个主机单元和至少一个运算单元，其中：每个主机单元包括一个中央处理器、一个根复合体设备以及一个内存；每个运算单元包括至少一个PCIe交换器、多个存储设备、至少一个计算芯片、至少一个PCIe端点装置以及至少一个内存；每个根复合体设备与至少一个运算单元中的PCIe交换器通信连接；在每个运算单元中，与根复合体设备通信连接的每个PCIe交换器与多个存储设备通信连接，每个计算芯片通过至少一个PCIe端点装置与至少一个PCIe交换器的通信连接，且计算芯片与内存一一对应地电连接。

具体地，以上述计算芯片为FPGA为例，上述运算单元可以称为FPGA运算设备（FPGAComputing Appliance，FCA），利用FCA中的FPGA可独立进行数据处理的特性，减少数据额外的移动量，通过FPGA去对多个存储设备（如NVMe SSD）实现点对点加速数据处理的目的，帮助系统内诸如NVMe SSD等存储设备做存储加速。

并且，在存取加速系统包括多个主机单元和多个运算单元的情况下，通过与同一主机单元（HOST单元）连接的多个FCA之间的并联处理技术，还可以实现数据处理速度的水平扩展，通过FCA的FPGA并联处理技术去实现巨量的数据同步处理。并且，还可以通过增加系统支持的FPGA数量，使得单一系统运算能力最大化。

在一个示例性实施例中，存取加速系统可以包括一一对应连接的多个主机单元和多个运算单元。通过星链拓朴连接多个主机单元（HOST单元），使得扩充系统更弹性，通过多个HOST单元来组成分布式集群系统来分散数据处理的风险并扩大处理能力，当单一系统之性能达到提升极限时，就可以用水平扩展来突破单系统硬件之限制。

具体地，以存取加速系统包括一一对应连接的多个主机单元（HOST单元）和多个运算单元（FCA）为例，如图4所示，HOST单元与FCA之间可以通过PCIe接口进行连接，并且通过NIC Card与其他HOST单元连接，实现并行提升的目的。当PCIe交换器（PCIe Switch）的下行端口（Downstream port）接上了网络适配卡（NIC Card）后，在服务器之间的数据封包可经由因特网传播，整个网络包含多个数据节点（HOST1、HOST2、Switch1、Switch2），其中，HOST1中具有CPU0，HOST2中具有CPU1，数据封包可以流过路径上的任意两个运算节点以及包含Switch下行端口的FPGA。FCA1中的交换机1与FCA2中的交换机2分别连接所外挂的NVMe SSD的数据，可以通过因特网将数据传输至FPGA作预处理，不但可以将系统支持FPGA的数量以倍数提升，并将系统可支持的NVMe SSD容量也是以倍数提升，达成储存容量变大与FPGA处理速度增加的目的，实现系统水平扩充的目的。

进一步地，不同系统中的多个PCIe交换器可以分别通过NIC Card连至英特网（Network）实现系统与系统的水平扩充。

在一个示例性实施例中，至少一个运算单元可以包括多个PCIe交换器和多个计算芯片，在同一运算单元中，PCIe交换器与计算芯片一一对应。

具体地，以上述计算芯片为FPGA为例，运算单元中的多个PCIe交换器通过HOST单元中的一个根复合体设备与CPU连接，多个FPGA通过与多个PCIe交换器通信连接实现并联，通过FPGA并联处理技术去实现巨量的数据同步处理。

在上述示例性实施例中，同一运算单元中的每个PCIe交换器可以均与根复合体设备通信连接；并且，在同一运算单元中，可以通过与任意一个计算芯片通信连接的多个PCIe端点装置（End Point，EP）实现与一个PCIe交换器的多个下行端口一一对应地通信连接。

具体地，以上述计算芯片为FPGA为例，运算单元中的多个第一PCIe交换器可以通过HOST单元中的一个根复合体设备与CPU连接，多个FPGA通过PCIe端点装置与上述多个第一PCIe交换器的第一下行端口通信连接实现并联，多个第二PCIe交换器的第二下行端口分别通过PCIe端点装置与每个FPGA通信连接，从而通过FPGA并联处理技术去实现巨量的数据同步处理。

在上述示例性实施例中，每个第二PCIe交换器的第一下行端口可以与数量相同的存储设备通信连接。

在上述示例性实施例中，每个第二PCIe交换器的第二下行端口可以通过数量相同的PCIe端点装置与至少一个计算芯片通信连接。

具体地，以上述计算芯片为FPGA为例，运算单元中的多个第一PCIe交换器可以通过HOST单元中的一个根复合体设备与CPU连接，每个FPGA通过多个PCIe端点装置与一个第一PCIe交换器的多个第一下行端口通信连接实现并联，每个第二PCIe交换器的多个第二下行端口分别通过多个PCIe端点装置与每个FPGA通信连接，从而通过FPGA并联处理技术去实现巨量的数据同步处理。

进一步地，还可以通过MCIO连接器增加系统扩充的弹性变化，以最大限度地提高系统数据处理能力。

在上述示例性实施例中，在每个运算单元中，可以使与同一计算芯片通信连接的第一PCIe端点装置和第二PCIe端点装置数量相同。

在一个示例性实施例中，在每个运算单元中，可以使每个计算芯片分别与数量相同的第一PCIe端点装置和第二PCIe端点装置通信连接。

在一个示例性实施例中，在每个运算单元中，还可以使与每个第二PCIe交换器通信连接的第二PCIe端点装置的数量与计算芯片的数量相同。

具体地，以上述运算单元包括多个计算芯片为例，如图5所示，多个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4）设定为一组x16lanes上行端口（Upstream Port）接至HOST 单元中的Root Complex，两组x16 lanes下行端口（Downstream Port）接至FPGA的两组Endpoint，八组x4 lanes下行端口（DownstreamPort）接至NVMe SSD的Endpoint，多个第二PCIe交换器（PCIe Switch 5，PCIe Switch6）设定为四组x16 lanes下行端口（Downstream Port）分别接至四个FPGA的四组Endpoint，从而通过FPGA并联处理技术去实现巨量的数据同步处理。

进一步地，上述多个FPGA可以利用其超路径互连（UltraPath Interconnect，UPI）的接口，达成FPGA互连的特性，让FPGA与FPGA之间可以更弹性的分配资源与共享信息，使得系统更加完善与便利。

在一个示例性实施例中，存取加速系统还包括交换网端口，交换网端口集成在多个PCIe交换器中，用于支持集成有交换网端口的一个PCIe交换器与另一个PCIe交换器之间的传输。

具体地，通过将交换网端口（Fabric port）集成在多个PCIe交换器（PCIe Switch）中，使PCIe Switch成为支持Fabric port的PCIe Switch，Fabric port主要功能为支持PCIe Switch与PCIe Switch之间互相传输，具有非阻塞（non-blocking）、线性加速等特性的I/O共享功能和DMA。

具体地，以如图5中所示的存取加速系统架构为例，此时，一组x16 lanes的交换网端口（Fabric port）可以连接至MCIO连接器作弹性运用。

具体地，PCIe Switch可以通过配置设定将第一PCIe交换器的端口设置为Fabricport，Fabric port可以将多系统底下的PCIe设备互相端点连结，使PCIe拓朴能够以低延迟与高性能的方式扩展，这种方式可以动态分配资源（FPGA、NVMe SSD、NIC）到不同的主机。

在上述示例性实施例中，第一目标运算单元与多个第一运算单元中除第一目标运算单元之外的至少一个第二目标运算单元之间通过第一交换网端口通信连接，且第一目标运算单元中的第一交换网端口与每个第二目标运算单元的第一交换网端口一一对应。

具体地，以图6所示的存取加速系统架构为例，包括多组主机单元（HOST）和运算单元（FCA），每组HOST和FCA如图5，同一组中的HOST通过根复合体（root complex）与FCA中的第一PCIe交换器链接，每个FCA包括多个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4），利用PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4的Fabric Port与另一个FCA中的PCIe Switch 1，PCIe Switch 2，PCIeSwitch 3，PCIe Switch 4的Fabric Port互连，从而通过Fabric Port端口的PCIe设备互相端点连结的特点，可以使两组系统共享底下所挂的NVMe SSD，实现NVMe SSD的动态分配。

在一个示例性实施例中，存取加速系统还可以包括多个第二运算单元，第二运算单元中具有集成在第二PCIe交换器中的第二交换网端口，不同的第二运算单元中的第二交换网端口之间通信连接。

具体地，PCIe Switch也可以通过配置设定将第二PCIe交换器的端口设置为Fabric port，Fabric port可以将多系统底下的PCIe设备互相端点连结，使PCIe拓朴能够以低延迟与高性能的方式扩展，这种方式可以动态分配资源（FPGA、NVMe SSD、NIC）到不同的主机。

在上述示例性实施例中，第三目标运算单元与多个第二运算单元中除第三目标运算单元之外的至少一个第四目标运算单元之间通过第二交换网端口通信连接，且第三目标运算单元中的第二交换网端口与每个第四目标运算单元的第二交换网端口一一对应。

具体地，以图7所示的存取加速系统架构为例，包括多组主机单元（HOST）和运算单元（FCA），每组HOST和FCA如图5，同一组中的HOST通过根复合体（root complex）与FCA中的第一PCIe交换器链接，系统中的每个运算单元（FCA）包括多个第二PCIe交换器（PCIeSwitch 5，PCIe Switch 6），多个FCA利用Switch 5与Switch 6的Fabric port通过MCIO线缆去实现多个系统的互联机制，每个FCA内各有多颗FPGA，通过动态分配资源，可以将FPGA内的资源作平衡分配，藉以偕同加速处理庞大的数据量。通过MCIO线缆也可以作更弹性的系统运用。

具体地，上述第一交换网端口可以通过动态切换的方式切换为第二上行端口，上述第二交换网端口可以通过动态切换的方式切换为第三下行端口，从而通过第二交换网端口与第三下行端口实现具有上述可切换端口的第一PCIe交换器与第二PCIe交换器之间的通信连接。

在上述示例性实施例中，存取加速系统可以包括多个第三运算单元，第二PCIe交换器中集成有可切换端口和第三交换网端口，不同的第三运算单元中的第三交换网端口之间通信连接。

具体地，以图8所示的存取加速系统架构为例，包括多组主机单元（HOST）和运算单元（FCA），同一组中的HOST通过根复合体（root complex）与FCA中的第一PCIe交换器链接，图9中示出了图8中任意一个A区域中的HOST和FCA，系统中的两个FCA均包括四个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4），以及两个第二PCIe交换器（PCIe Switch 5，PCIe Switch 6），通过动态切换的方式，将PCIe Switch 1与PCIe Switch 4连接至的MCIO X16连接器的端口从Fabric Port切换为下行端口（Downstream Port），然后将PCIe Switch 5与PCIe Switch 6的其中一个端口切换至上行端口（Upstream Port），并把两者用MCIO线缆连接在一起，使PCIe Switch 1、PCIe Switch5与PCIe Switch 2、PCIe Switch 6形成串联（Cascade）的PCIe拓朴，此时HOST单元可以直接对FPGA的四组endpoint同时做任务分配。

在上述示例性实施例中，第五目标运算单元可以与多个第三运算单元中除第五目标运算单元之外的至少一个第六目标运算单元之间通过第三交换网端口通信连接，且第五目标运算单元中的第三交换网端口与每个第六目标运算单元的第三交换网端口一一对应。

具体地，以图8和图9所示的存取加速系统架构为例，系统中的两个FCA均包括四个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4），以及两个第二PCIe交换器（PCIe Switch 5，PCIe Switch 6），PCIe Switch 5、PCIe Switch 6的Fabric port端口通过MCIO线缆接至另外一个Host单元中的PCIe Switch 5、PCIe Switch6，从而实现两个Host单元的系统就互相星链的互联拓朴，当一个HOST单元有运算的任务时，可以通过Fabric port端口去分配给任何一组FPGA，达成动态资源分配，进而增加系统运算单元运算能力，并将任务与数据分配给对方，实现多任务运算的目的，让资源可以最大化优化。

下面将结合具体实施例，进一步说明本申请中的上述存储设备的存取加速系统。

实施例1

如图4所示，本实施例中的存取加速系统架构包括一一对应连接的两个主机单元（HOST单元）和两个个运算单元（FCA1，FCA2），HOST单元与FCA之间可以通过PCIe接口进行连接，并且通过NIC Card与其他HOST单元连接，实现并行提升的目的；进一步地，不同系统中的多个PCIe交换器分别通过NIC Card连至英特网（Network）实现系统与系统的水平扩充。。

当PCIe交换器（PCIe Switch）的下行端口（Downstream port）接上了网络适配卡（NIC Card）后，在服务器之间的数据封包可经由因特网传播，整个网络包含多个数据节点（HOST1、Switch1、Switch2、HOST2），数据封包可以流过路径上的任意两个运算节点以及包含Switch下行端口的FPGA。

FCA1与FCA2互相连接FCT个别所外挂的NVMe SSD的数据，可以通过因特网将数据传输至FPGA作预处理，不但可以将系统支持FPGA的数量以倍数提升，并将系统可支持的NVMe SSD容量也是以倍数提升，达成储存容量变大与FPGA处理速度增加的目的，实现系统水平扩充的目的。

实施例2

如图5所示，本实施例中的存取加速系统架构包括四个计算芯片（FPGA1，FPGA2，FPGA3，FPGA4），四个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4）设定为一组x16 lanes上行端口（Upstream Port）接至HOST 单元中的RootComplex，两组x16 lanes下行端口（Downstream Port）接至FPGA的两组Endpoint，八组x4lanes下行端口（Downstream Port）接至NVMe SSD的Endpoint，多个第二PCIe交换器（PCIeSwitch 5，PCIe Switch6）设定为四组x16 lanes下行端口（Downstream Port）分别接至四个FPGA的四组Endpoint，一组x16 lanes的交换网端口（Fabric port）可以连接至MCIO连接器作弹性运用。

实施例3

如图6所示，本实施例中的存取加速系统架构包括两组HOST和FCA，同一组中的HOST通过根复合体（root complex）与FCA中的第一PCIe交换器链接，每个FCA包括：

四个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIeSwitch 4），两个第二PCIe交换器（PCIe Switch 5，PCIe Switch 6），其中，利用PCIeSwitch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4的Fabric Port与另一个FCA中的PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4的Fabric Port互连。

通过Fabric Port端口的PCIe设备互相端点连结的特点，可以使两组系统共享底下所挂的NVMe SSD，实现NVMe SSD的动态分配；并且，通过动态分配资源，可以将FPGA内的资源作平衡分配，藉以偕同加速处理庞大的数据量。通过MCIO线缆也可以作更弹性的系统运用。

实施例4

如图7所示，本实施例中的存取加速系统架构包括两组HOST和FCA，同一组中的HOST通过根复合体（root complex）与FCA中的第一PCIe交换器链接，每个FCA包括：

四个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIeSwitch 4），两个第二PCIe交换器（PCIe Switch 5，PCIe Switch 6），两个FCA利用Switch 5与Switch 6的Fabric port通过MCIO线缆去实现两个系统的互联机制，两组FCA内各有四颗FPGA。

实施例5

如图8和图9所示，本实施例中的存取加速系统架构包括两组HOST和FCA，同一组中的HOST通过根复合体（root complex）与FCA中的第一PCIe交换器链接，每个FCA包括四个第一PCIe交换器（PCIe Switch 1，PCIe Switch 2，PCIe Switch 3，PCIe Switch 4），以及两个第二PCIe交换器（PCIe Switch 5，PCIe Switch 6），其中：

通过动态切换的方式，将PCIe Switch 1与PCIe Switch 4连接至的MCIO X16连接器的端口从Fabric Port切换为下行端口（Downstream Port），然后将PCIe Switch 5与PCIe Switch 6的其中一个端口切换至上行端口（Upstream Port），并把两者用MCIO线缆连接在一起，使PCIe Switch 1、PCIe Switch 5与PCIe Switch 2、PCIe Switch 6形成串联（Cascade）的PCIe拓朴，此时HOST单元可以直接对FPGA的四组endpoint同时做任务分配；

PCIe Switch 5、PCIe Switch 6的Fabric port端口通过MCIO线缆接至另外一个Host单元中的PCIe Switch 5、PCIe Switch 6，从而实现两个Host单元的系统就互相星链的互联拓朴，当一个HOST单元有运算的任务时，可以通过Fabric port端口去分配给任何一组FPGA，达成动态资源分配，进而增加系统运算单元运算能力，并将任务与数据分配给对方，实现多任务运算的目的，让资源可以最大化优化。

从以上的描述中，可以看出，本公开上述的实施例实现了如下技术效果：

本实施例利用存储设备可独立进行数据处理的特性，减少数据额外的移动量，通过计算芯片（如FPGA）对存储设备（如NVMe SSD）实现点对点加速数据处理的目的，帮助系统内的存储设备SSD做存储加速；

通过运算单元（当计算芯片为FPGA时，运算单元为FPGA运算设备，FCA）的计算芯片并联处理技术去实现巨量的数据同步处理，通过运算单元与运算单元之间的并联处理技术去做数据处理速度的水平扩展，从而可以通过增加系统支持的计算芯片数量，使得单一系统运算能力最大化；

通过星链拓朴连结多个HOST单元，使得扩充系统更弹性，通过多个HOST单元来组成分布式集群系统来分散数据处理的风险并扩大处理能力，当单一系统之性能达到提升极限时，就可以用水平扩展来突破单系统硬件之限制；

通过存取加速系统架构（SAA）架构实现计算芯片与存储设备之间实现点对点传输，网络适配器（NIC Card）也可以通过SAA实现资料的点对点传输，进而能达成DMA的功能；

降低了系统延迟并克服按比例增大（scale-up）性能瓶颈，尤其多个HOST单元可以允许多路运算处理器同时处理多样且复杂的运算问题，以最大限度地提高系统数据处理能力，更可以通过多HOST单元的备援机制增加系统的稳定性，更能够提升系统的可靠度与弹性（resilient）。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种存储设备的存取加速系统，其特征在于，包括中央处理器、PCIe设备、存储设备、计算芯片和内存，其中：

所述PCIe设备包括根复合体设备、PCIe交换器和PCIe端点装置；

所述中央处理器通过所述根复合体设备与所述PCIe交换器的上行端口通信连接，所述存储设备与所述PCIe交换器的下行端口通信连接，所述计算芯片通过所述PCIe端点装置与所述PCIe交换器的下行端口通信连接，且所述存储设备和所述计算芯片分别与不同的所述下行端口通信连接；

所述中央处理器和所述计算芯片与不同的所述内存电连接，

所述系统包括多个主机单元和多个运算单元，所述运算单元包括至少一个第一PCIe交换器和至少一个第二PCIe交换器，其中：

每个所述第一PCIe交换器具有第一上行端口和多个第一下行端口，所述第一上行端口与所述根复合体设备通信连接，至少一个所述第一下行端口通过所述PCIe端点装置与所述计算芯片通信连接，剩余的所述第一下行端口与所述存储设备通信连接；

每个所述第二PCIe交换器具有第二下行端口，所述第二下行端口通过所述PCIe端点装置与所述计算芯片通信连接，

所述系统包括第三运算单元，所述第三运算单元中具有集成在至少一个所述第一PCIe交换器中的第一交换网端口和集成在至少一个所述第二PCIe交换器中的第二交换网端口，所述第一交换网端口和所述第二交换网端口均为可切换端口，在至少一个所述第一交换网端口切换为第二上行端口，且至少一个所述第二交换网端口切换为第三下行端口的情况下，至少一个所述第二上行端口与至少一个所述第三下行端口一一对应地通信连接。

2.根据权利要求1所述的系统，其特征在于，还包括：

网络适配器，与所述PCIe交换器的下行端口通信连接，且所述网络适配器、所述存储设备和所述计算芯片分别与不同的所述下行端口通信连接。

3.根据权利要求1所述的系统，其特征在于，

每个所述主机单元包括一个所述中央处理器、一个所述根复合体设备以及一个所述内存；

多个所述存储设备、至少一个所述计算芯片、至少一个所述PCIe端点装置以及至少一个所述内存；

每个所述根复合体设备与至少一个所述运算单元中的所述PCIe交换器通信连接；

在每个所述运算单元中，与所述根复合体设备通信连接的每个所述PCIe交换器与多个所述存储设备通信连接，每个所述计算芯片通过至少一个所述PCIe端点装置与至少一个所述PCIe交换器的通信连接，且所述计算芯片与所述内存一一对应地电连接。

4.根据权利要求3所述的系统，其特征在于，至少一个所述运算单元包括多个PCIe交换器和多个计算芯片，在同一所述运算单元中，所述PCIe交换器与所述计算芯片一一对应。

5.根据权利要求4所述的系统，其特征在于，

同一所述运算单元中的每个所述PCIe交换器均与所述根复合体设备通信连接；

在同一所述运算单元中，与任意一个所述计算芯片通信连接的多个所述PCIe端点装置与一个所述PCIe交换器的多个所述下行端口一一对应地通信连接。

6.根据权利要求3所述的系统，其特征在于，每个所述第一PCIe交换器的所述第一下行端口与数量相同的所述存储设备通信连接。

7.根据权利要求3所述的系统，其特征在于，每个所述第二PCIe交换器的所述第二下行端口通过数量相同的所述PCIe端点装置与至少一个所述计算芯片通信连接。

8.根据权利要求7所述的系统，其特征在于，在每个所述运算单元中，每个所述计算芯片通过多个第一PCIe端点装置与一个所述第一PCIe交换器通信连接，每个所述计算芯片通过多个第二PCIe端点装置与多个第二PCIe交换器一一对应地通信连接。

9.根据权利要求8所述的系统，其特征在于，在每个所述运算单元中，与同一所述计算芯片通信连接的所述第一PCIe端点装置和所述第二PCIe端点装置数量相同。

10.根据权利要求8所述的系统，其特征在于，在每个所述运算单元中，每个所述计算芯片分别与数量相同的所述第一PCIe端点装置和所述第二PCIe端点装置通信连接。

11.根据权利要求8所述的系统，其特征在于，在每个所述运算单元中，与每个所述第二PCIe交换器通信连接的所述第二PCIe端点装置的数量与所述计算芯片的数量相同。

12.根据权利要求3至11中任一项所述的系统，其特征在于，还包括：

交换网端口，集成在多个所述PCIe交换器中，用于支持集成有所述交换网端口的一个所述PCIe交换器与另一个所述PCIe交换器之间的传输。

13.根据权利要求12所述的系统，其特征在于，所述系统包括多个第一运算单元，每个所述第一运算单元中具有集成在所述第一PCIe交换器中的第一交换网端口，不同的所述第一运算单元中的所述第一交换网端口之间通信连接。

14.根据权利要求13所述的系统，其特征在于，第一目标运算单元与所述多个第一运算单元中除所述第一目标运算单元之外的至少一个第二目标运算单元之间通过所述第一交换网端口通信连接，且所述第一目标运算单元中的所述第一交换网端口与每个所述第二目标运算单元的所述第一交换网端口一一对应。

15.根据权利要求12所述的系统，其特征在于，所述系统包括多个第二运算单元，所述第二运算单元中具有集成在所述第二PCIe交换器中的第二交换网端口，不同的所述第二运算单元中的所述第二交换网端口之间通信连接。

16.根据权利要求15所述的系统，其特征在于，第三目标运算单元与所述多个第二运算单元中除所述第三目标运算单元之外的至少一个第四目标运算单元之间通过所述第二交换网端口通信连接，且所述第三目标运算单元中的所述第二交换网端口与每个所述第四目标运算单元的所述第二交换网端口一一对应。

17.根据权利要求12所述的系统，其特征在于，所述系统包括多个所述第三运算单元，所述第二PCIe交换器中集成有所述可切换端口和第三交换网端口，不同的所述第三运算单元中的所述第三交换网端口之间通信连接。

18.根据权利要求17所述的系统，其特征在于，第五目标运算单元与所述多个第三运算单元中除所述第五目标运算单元之外的至少一个第六目标运算单元之间通过所述第三交换网端口通信连接，且所述第五目标运算单元中的所述第三交换网端口与每个所述第六目标运算单元的所述第三交换网端口一一对应。