CN116644010A

CN116644010A - 一种数据处理方法、装置、设备及介质

Info

Publication number: CN116644010A
Application number: CN202310686129.1A
Authority: CN
Inventors: 张静东; 阚宏伟; 王江为; 王彦伟; 李仁刚; 郝锐
Original assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-08-25

Abstract

本发明公开了一种数据处理方法、装置、设备及介质，应用于数据处理技术领域，包括：基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，以便所述第一从设备对所述待处理数据进行处理，得到结果数据；获取所述第一从设备发送的所述结果数据；确定所述结果数据的目的地址，若所述目的地址指向第二从设备的存储空间，则通过第二高速串行计算机扩展总线标准链路将所述结果数据写入所述第二从设备的存储部件。现有技术中存在数据传输过程通信延时较高，并且硬件资源开销大的问题。本发明能够降低跨节点通信时延以及硬件资源开销。

Description

一种数据处理方法、装置、设备及介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种数据处理方法、装置、设备及介质。

背景技术

目前，在跨节点GPU(即Graphics Processing Unit，图形处理器)卡以及传统FPGA(即Field Programmable Gate Array，现场可编程门阵列)卡之间进行通信时，通常需要依赖服务器CPU(即Central Processing Unit，中央处理器)、内存和PCIe(即peripheralcomponent interconnect express，高速串行计算机扩展总线标准)Chip set(设备组)等参与，也即，需要通过PCIe接口总线与服务器紧耦合来使用，很难单独脱离主机CPU独立运行。这样，数据传输过程通信延时较高，并且硬件资源开销大的问题。

发明内容

有鉴于此，本发明的目的在于提供一种数据处理方法、装置、设备及介质，能够降低跨节点通信时延以及硬件资源开销。其具体方案如下：

第一方面，本发明公开了一种数据处理方法，应用于主现场可编程逻辑门阵列设备，包括：

基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，以便所述第一从设备对所述待处理数据进行处理，得到结果数据；

获取所述第一从设备发送的所述结果数据；

确定所述结果数据的目的地址，若所述目的地址指向第二从设备的存储空间，则通过第二高速串行计算机扩展总线标准链路将所述结果数据写入所述第二从设备的存储部件。

可选的，在所述基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件之后，还包括：

发送中断数据包通知所述第一从设备对所述待处理数据进行处理。

可选的，所述发送中断数据包通知所述第一从设备对所述待处理数据进行处理，包括：

基于所述第一从设备中寄存器在主现场可编程逻辑门阵列设备总线上的映射关系将所述中断数据包写入所述第一从设备的指定寄存器，以通知所述第一从设备对所述待处理数据进行处理。

可选的，还包括：

若所述目的地址指向本地设备的存储空间，则将所述结果数据写入本地存储部件。

可选的，还包括：

若所述目的地址指向本地的网络模块，则将所述结果数据发送至所述网络模块，并通过网络模块发送到网络。

可选的，还包括：

若所述目的地址指向本地的加速核心模块，则将所述结果数据发送至所述加速核心模块，并通过加速核心模块调用预设处理逻辑对所述结果数据进行处理。

可选的，还包括：

基于所述结果数据对应的描述符确定数据处理类型；

相应的，所述通过加速核心模块调用预设处理逻辑对所述结果数据进行处理，包括：通过加速核心模块调用所述数据处理类型对应的预设处理逻辑对所述结果数据进行处理。

可选的，所述通过加速核心模块调用所述数据处理类型对应的预设处理逻辑对所述结果数据进行处理，包括：

若所述数据处理类型为加密处理，则通过加速核心模块调用加密处理逻辑对所述结果数据进行加密处理；

若所述数据处理类型为压缩处理，则通过加速核心模块调用压缩处理逻辑对所述结果数据进行压缩处理；

若所述数据处理类型为先压缩处理、后加密处理，则通过加速核心模块调用压缩处理逻辑对所述结果数据进行压缩处理，得到压缩数据，调用加密处理逻辑对所述压缩数据进行加密处理。

可选的，所述发送中断数据包通知所述第一从设备之后，还包括：

当获取到所述第一从设备发送的通知，则从所述第一从设备的存储部件中读取所述结果数据；

其中，将所述结果数据由所述第一从设备存入所述第一从设备的存储部件。

可选的，在所述从所述第一从设备的存储部件中读取所述结果数据之后，还包括：

将所述结果数据缓存至本地设备的存储部件。

可选的，还包括：

利用加速核心模块对所述结果数据进行压缩，得到压缩数据，并对压缩数据进行加密，得到加密数据。

可选的，在对压缩数据进行加密，得到加密数据之后，还包括：

利用网络模块对加密数据进行封装，并通过光网络发送至其他节点。

可选的，所述从所述第一从设备的存储部件中读取所述结果数据，包括：

利用直接数据存取引擎从所述第一从设备的存储部件中读取所述结果数据。

可选的，还包括：

发现在位从设备，并为每个在位从设备分配总线地址空间，以完成在位设备注册；

为本地各模块分配总线地址空间。

可选的，所述第一从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡，所述第二从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡。

可选的，所述基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，包括：

从网络获取待处理数据，若待处理数据为加密数据，则进行解密，得到解密数据；

基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将所述解密数据写入所述第一从设备的存储部件。

从网络获取待处理数据，若待处理数据为压缩数据，则进行解压，得到解压后数据；

基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将所述解压后数据写入所述第一从设备的存储部件。

第二方面，本发明公开了一种数据处理装置，应用于主现场可编程逻辑门阵列设备，包括：

待处理数据写入模块，用于基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，以便所述第一从设备对所述待处理数据进行处理，得到结果数据；

结果数据获取模块，用于获取所述第一从设备发送的所述结果数据；

结果数据转发模块，用于确定所述结果数据的目的地址，若所述目的地址指向第二从设备的存储空间，则通过第二高速串行计算机扩展总线标准链路将所述结果数据写入所述第二从设备的存储部件。

第三方面，本发明公开了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现前述的数据处理方法。

第四方面，本发明公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的数据处理方法。

可见，本发明应用于主现场可编程逻辑门阵列设备，基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，以便所述第一从设备对所述待处理数据进行处理，得到结果数据，然后获取所述第一从设备发送的所述结果数据，确定所述结果数据的目的地址，若所述目的地址指向第二从设备的存储空间，则通过第二高速串行计算机扩展总线标准链路将所述结果数据写入所述第二从设备的存储部件。也即，本发明实施例中的主现场可编程逻辑门阵列设备，为从设备分配总线地址空间，基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入第一从设备的存储部件，获取第一从设备发送的对待处理数据进行处理得到的结果数据，在结果数据的目的地址指向第二从设备的存储空间时，通过第二高速串行计算机扩展总线标准链路将结果数据写入第二从设备的存储部件。这样，通过主现场可编程逻辑门阵列设备，为从设备分配总线地址空间，实现从设备跨节点的通信，从设备可以为图形处理器加速卡或现场可编程逻辑门阵列加速卡。

本申请的有益效果在于：降低从设备与服务器之间的耦合，能够降低跨节点通信时延以及硬件资源开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种GPUDirect P2P数据交互示意图；

图2为本发明实施例提供的一种GPUDirect RDMA数据交互示意图；

图3为本发明实施例提供的一种数据处理方法流程图；

图4为本发明实施例提供的一种具体的从设备示意图；

图5为本发明实施例提供的一种具体的主设备示意图；

图6为本发明实施例提供的一种从设备GPU卡的硬件存储资源在主设备的64位总线上的映射关系示意图；

图7为本发明实施例提供的一种主FPGA设备内部自身存储资源在总线上的映射关系示意图；

图8为本发明实施例提供的一种多个从设备的存储资源在主设备FPGA总线上的映射关系示意图；

图9为本发明实施例提供的一种设备注册流程图；

图10为本发明实施例提供的一种数据处理装置结构示意图；

图11为本发明实施例提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

GPUDirect Shared Memory(即直接共享内存)支持GPU与第三方PCIe设备通过共享的host memory(主机内存)实现共享内存。GPUDirect P2P(即GPUDirect Peer-to-Peer)是同一PCIe Root Complex(根设备)域下两个GPU设备直接互访GPU显存，GPU间不需要将数据拷贝到主机内存里中转，相比GPUDirect Shared Memory方案，减少了将数据从GPU显存拷贝到主机内存和从主机内存拷贝到GPU显存的步骤，降低了数据通路延时，提高了数据传输效率，参见图1所示，图1为本发明实施例提供的一种GPUDirect P2P数据交互示意图，但该方案是在同一服务器单节点内实现GPU显存数据交互的方案，方案依赖于主机CPU参与或者同一PCIe域下才能实现GPU间显存数据交互。其中，显存可以为GDDR(即Graphics DoubleData Rate，一种高效能显存)。GPUDirect(直接)RDMA(即Remote Direct Memory Access，远程直接数据存取)是利用RDMA相关技术、物理网卡和传输网络实现不同节点内GPU间直接交互显存数据的技术，该技术解决了传统网络(如TCP(即Transmission ControlProtocol，传输控制协议)/IP(即Internet Protocol，网际互连协议)数据传输过程中，数据传输需要经过CPU、主机缓存等环节，延时大、CPU占用率高等问题，实现了不同节点间通过网卡直接互访GPU显存的功能。参见图2所示，图2为本发明实施例提供的一种GPUDirectRDMA数据交互示意图。

GPUDirect P2P技术是基于GPU作为HOST下的PCIe设备开发实现，与其他设备通信依赖Host CPU、内存和PCIe Switch(即交换器)系统等参与，设备与服务器CPU、内存等通过PCIe紧耦合，通信仅限于单节点内的GPU卡。采用GPUDirect P2P技术进行GPU间显存数据交换时，仅限于同一PCIe域下的GPU间通过PCIe Chipset进行显存数据直接交互，如果跨两个CPU的PCIe域还需要CPU及CPU内存参与数据传输，跨CPU时该方案GPU间显存数据交互延时仍然很大，CPU开销也依然很大。GPUDirect RDMA技术虽然利用RDMA技术实现了跨节点间的GPU卡通信问题，但需要在同一PCIe域下的高性能网卡以及本地服务器CPU运行相关网络协议软件，帮助GPU完成跨节点的数据传输，GPU与服务器仍是通过PCIe连接的紧耦合关系，GPU无法独立于服务器单独运行，跨节点GPU间通信只能通过网卡连接到交换机的方式进行，通信网络拓扑不够灵活，数据包转发效率低、通信延时大。基于上述两种技术部署分布式计算系统平台时，所需主机CPU、内存和网卡等硬件设备数量巨大，数据中心机架空间占用多，部署和维护等成本都很高。

目前，在跨节点GPU卡以及传统FGPA卡之间进行通信时，通常需要依赖服务器CPU、内存和PCIe Chip set等参与，也即，需要通过PCIe接口总线与服务器紧耦合来使用，很难单独脱离主机CPU独立运行。这样，数据传输过程通信延时较高，并且硬件资源开销大的问题。为此，本发明提供了一种能够降低跨节点通信时延以及硬件资源开销。

参见图3所示，本发明实施例公开了一种数据处理方法，应用于主现场可编程逻辑门阵列设备，包括：

步骤S11：基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，以便所述第一从设备对所述待处理数据进行处理，得到结果数据。

在一种实施方式中，可以从网络获取待处理数据，若待处理数据为加密数据，则进行解密，得到解密数据；基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将所述解密数据写入所述第一从设备的存储部件。在另一种实施方式中，可以从网络获取待处理数据，若待处理数据为压缩数据，则进行解压，得到解压后数据；基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将所述解压后数据写入所述第一从设备的存储部件。在一种实施方式中，可以通过网络模块具体为RoCE(即RDMA over Converged Ethernet，基于融合以太网的RDMA)模块获取待处理数据并解析，通过加速核心模块对待处理数据进行解密以及解压，得到解压后数据，然后进行机密于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将解压后数写入所述第一从设备的存储部件。其中，存储部件可以为GDDR。待处理数据可以为远端管理控制平台发送的数据，也可以为其他主设备发送的数据，也可以为具有网络发送功能的其他从设备发送的数据。

可以理解的是，主现场可编程逻辑门阵列设备即主设备，主设备为现场可编程逻辑门阵列设备。本发明实施例可以发现在位从设备，并为每个在位从设备分配总线地址空间，以完成在位设备注册；并且，主设备为本地各模块分配总线地址空间。从设备基于主设备分配的总线地址空间为从设备自身的各模块分配总线地址空间。具体的，可以分配寄存器、内存不同总线地址空间和基地址给各个模块。从设备中存储资源在总线上的映射关系为：从主设备总线上得到的基地址开始，依次为配置空间寄存器、BAR寄存器和GDDR显存资源。主设备内部自身存储资源在总线上的映射关系为：从基地址开始，依次为配置空间寄存器、BAR寄存器空间和GDDR显存资源。寄存器和GDDR显存资源与模块相对应。

本申请实施例中，从设备均可以通用PCIe加速卡，比如为图形处理器加速卡或现场可编程逻辑门阵列加速卡。也即，所述第一从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡。FPGA是一种具有高可编程的多元异构芯片，内部具有丰富的硬件资源，如查找表、寄存器、DSP(即Digital Signal Processing，数字信号处理)核、AI(即ArtificialIntelligence，人工智能)核、PCIe HIP(即Hard Intellectual Property，硬核知识产权)、高速Serdes(即串行器和解串器)和总线互联资源等，用户可以使用这些资源实现各种数据处理引擎、复杂总线协议和网络协议等。GPU是一种专用的图形处理芯片，从早期用于图形图像处理，到目前广泛用于AI人工智能计算领域，也是一种重要的计算芯片。目前，GPU作为一种PCIe设备插接在数据中心服务器插槽上，往往通过PCIe与主机和其他节点通信，GPU间虽然具有灵活高速的NVLink(一种总线及其通信协议)通信技术，但这种技术局限于单节点内GPU通信，GPU无法直接与外部数据中心网络直接相连。RoCE是一种利用融合以太网络实现本地与远端内存直接访问的可靠传输协议，它可以降低数据搬移过程中对HOST主机CPU的开销，CPU只需负责控制面的管理工作。

在具体的实施方式中，从设备通过PCIe链路和SMBUS(即System Management Bus，系统管理总线)总线直连到主设备的PCIe插槽，主FPGA设备内部具有多个PCIerootcomplex模式的PCIe HIP硬核、带外监管模块、链路初始化模块、地址分配和转换模块、GDDR控制器(即显存控制器)、DMA(即直接数据存取)引擎、RoCE协议栈(即网络模块)、MAC控制器(即介质访问控制器)和加速核心。基于PCIe的GPU从设备芯片内部通常具有计算核心、GDDR控制器、PCIe HIP、BAR(即base address register，基地址寄存器)和Copy(数据搬移)引擎等，板卡上还有带外管理I2C(即Inter-Integrated Circuit，一种双向二线制同步串行总线)通道。例如，参见图4所示，图4为本发明实施例提供的一种具体的从设备示意图。参见图5所示，图5为本发明实施例提供的一种具体的主设备示意图。

其中，本发明的主设备具体包括如下几个模块：带外监管模块通过I2C总线连接从设备并读写从设备寄存器，得到从设备的状态数据，以监控和管理从设备；两个PCIe HIP工作在PCIe rootcomplex模式，对接从设备PCIe HIP，需要指出的是，图中以PCIe HIP0(即硬核知识产权0)和PCIe HIP1(即硬核知识产权1)为例，可以根据实际在位的从设备数量，扩展PCIe HIP；链路初始化模块将配置空间寄存器读写命令转化为标准PCIe TLP(即Transaction Layer Packet，事务层)包完成从设备PCIe的枚举、配置空间寄存器配置；总线地址分配与转换模块连接各个模块的控制状态寄存器接口和GDDR控制器、DMA引擎，分配寄存器、内存不同地址空间和基地址给各个模块；支持RoCEv2的网络协议模块，具有和其他节点内的异构设备进行远程直接内存数据搬移的功能，且保证FPGA卡与远端管理控制平台和其他FPGA卡的高带宽、可靠网络通信；MAC控制器模块主要负责收发网络数据包；GDDR控制器是一种高效能显存的控制器，所控制的显存工作频率更高、发热量和体积更小；DMA引擎接收处理来自从设备的TLP包内的负载数据，缓存至主设备GDDR或发送给加速核心处理或通过RoCE网络发送至其他节点设备。同理，来自主设备GDDR、加速核心或RoCE网络的数据也可以通过DMA引擎和PCIe HIP发送给从设备；加速核心可以是用部分FPGA逻辑资源硬件实现的算法核心，如加解密、压缩解压缩等，可以处理来自从设备DMA过来的、RoCE网络过来的和本地GDDR内的数据。其中，1至16表示传输路径，例如，1为带外监管模块与链路初始化模块之间的传输路径。

参见图6所示，图6为本发明实施例提供的一种从设备GPU卡的硬件存储资源在主设备的64位总线上的映射关系示意图，其中，从主设备总线上得到的基地址0x1000_0000_0000_0000开始,依次为配置空间寄存器、BAR寄存器和GDDR显存资源。参见图7所示，图7为本发明实施例提供的一种主FPGA设备内部自身存储资源在总线上的映射关系示意图，从基地址0x0开始，依次为配置空间寄存器、BAR寄存器空间和GDDR显存资源。参见图8所示，图8为本发明实施例提供的一种多个从设备的存储资源在主设备FPGA总线上的映射关系示意图，从低到高，依次为主设备本地的资源映射和各从设备的资源映射。

进一步的，参见图9，图9为本发明实施例提供的一种设备注册流程图。以节点内从设备GPU卡为例，系统上电初始化，从设备注册和从设备PCIe配置空间初始化、存储资源映射流程为：上电初始化主设备，由主设备触发，上电初始化从设备，从设备可以GPU卡或FPGA卡，判断与在位从设备是否link成功，也即，是否与在位从设备建立物理层连接，如果否，则进行失败次数统计，如果是，则进行配置空间扫描和寄存器读写，可以得到BAR寄存器所需内存大小，然后注册总线地址空间，之后广播新增从设备注册的总线地址空间，也即分配的总线地址空间，写入挂载的GDDR的指定空间，在位从设备、远端平台更新总线地址空间。

进一步的，本发明实施可以发送中断数据包通知所述第一从设备对所述待处理数据进行处理。在具体的实施方式中，可以基于所述第一从设备中寄存器在主现场可编程逻辑门阵列设备总线上的映射关系将所述中断数据包写入所述第一从设备的指定寄存器，以通知所述第一从设备对所述待处理数据进行处理。

步骤S12：获取所述第一从设备发送的所述结果数据。

步骤S13：确定所述结果数据的目的地址，若所述目的地址指向第二从设备的存储空间，则通过第二高速串行计算机扩展总线标准链路将所述结果数据写入所述第二从设备的存储部件。其中，所述第二从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡。

进一步的，若所述目的地址指向本地设备的存储空间，则将所述结果数据写入本地存储部件。

另外，若所述目的地址指向本地的网络模块，则将所述结果数据发送至所述网络模块，并通过网络模块发送到网络。

进一步的，若所述目的地址指向本地的加速核心模块，则将所述结果数据发送至所述加速核心模块，并通过加速核心模块调用预设处理逻辑对所述结果数据进行处理。

并且，在具体的实施方式中，可以基于所述结果数据对应的描述符确定数据处理类型；相应的，所述通过加速核心模块调用预设处理逻辑对所述结果数据进行处理，包括：通过加速核心模块调用所述数据处理类型对应的预设处理逻辑对所述结果数据进行处理。

其中，若所述数据处理类型为加密处理，则通过加速核心模块调用加密处理逻辑对所述结果数据进行加密处理；若所述数据处理类型为压缩处理，则通过加速核心模块调用压缩处理逻辑对所述结果数据进行压缩处理；若所述数据处理类型为先压缩处理、后加密处理，则通过加速核心模块调用压缩处理逻辑对所述结果数据进行压缩处理，得到压缩数据，调用加密处理逻辑对所述压缩数据进行加密处理。

也即，本发明实施中，描述符描述了针对结果数据的下一步操作，可以基于描述符和目的地址，将结果数据进行转发，并进行下一步操作。

在一种实施方式中，在发送中断数据包通知所述第一从设备之后，本发明实施例还可以，当获取到所述第一从设备发送的通知，则从所述第一从设备的存储部件中读取所述结果数据；其中，将所述结果数据由所述第一从设备存入所述第一从设备的存储部件。也即，第一从设备对所述待处理数据进行处理，得到结果数据之后，将所述结果数据由所述第一从设备存入所述第一从设备的存储部件。其中，利用直接数据存取引擎从所述第一从设备的存储部件中读取所述结果数据。

并且，在所述从所述第一从设备的存储部件中读取所述结果数据之后，可以将所述结果数据缓存至本地设备的存储部件。进一步的，利用加速核心模块对所述结果数据进行压缩，得到压缩数据，并对压缩数据进行加密，得到加密数据。之后利用网络模块对加密数据进行封装，并通过光网络发送至其他节点。

也即，在具体的实施方式中，从设备在得到结果数据之后，可以通知主设备到从设备读取，也可以将结果数据发送至主设备。

可以理解的是，本发明实施例中在主设备对PCIe从设备进行初始化、注册，完成存储资源的地址映射。并且，主设备内可以通过I2C通道形成的带外监管模块，对从设备和主设备监控管理。从内部总线接口转换为标准格式TLP包。另外，从设备与主设备之间均含有DMA控制器，当一方进行DMA操作时，不影响另一方的正常DMA操作；主设备FPGA与其他节点设备通过RoCE网络通信时，在本地进行加解密、压缩解压缩操作，保证数据通信安全，减少通信量，降低通信延迟；主设备DMA引擎所处理的数据的源或目的可以是从设备缓存、本地缓存，也可以是来自或发送给RoCE模块和加速核心模块再处理，可以使用不同的描述符进行标注区分。进一步的，结合图5，本发明提供的主设备，其中，DMA引擎、加速核心、RoCE模块支持多种数据流处理组合，下面进一步列举几种可实现的数据处理流程：

1、待处理数据从RoCE(网络模块)解析出来后，先经过加速核心解密、通过路径12存入主设备的GDDR，再从GDDR读出并利用加速核心进行解压缩，解压完毕后通过DMA引擎并基于路径11和9发送给PCIe HIP0，写入到PCIe HIP0对应的从设备0(GPU卡)的GDDR中，发送中断TLP包通知该GPU卡进行处理，具体的，DMA引擎发送中TLP包，依次经过总线地址分配与转换模块、链路初始化模块组包，得到针对指定寄存器的写包，写入该GPU卡的指定寄存器，依次通过图5中5、4、2路径。

2、从设备0GPU卡处理完数据后，写Doorbell(门铃)寄存器通知主FPGA设备内的DMA引擎读取其GDDR中的结果(依次通过图5中2、4、5路径)，DMA引擎得到数据后先缓存至主设备GDDR，由加速核心压缩压缩，再读取到加速核心加密，加密完成后发送给RoCE模块封装，通过光网络发送至其他节点(走路径16通过介质访问控制器发送至其他节点)；

3、DMA引擎可以根据从设备0GPU卡发过来的描述符和数据包的目的地址，进行下一步操作，如果地址指向从设备1的存储空间，则修改TLP包头相关信息通过DMA引擎转发至从设备1，具体的，通过PCIE HIP0获取数据，通过PCIE HIP0转发至从设备1(通过路径9、10)；如果地址指向本地设备的存储空间，则通过DMA引擎写入本地存储GDDR(通过路径9、11)；如果地址指向RoCE或加速核心，则通过DMA引擎送给RoCE模块封包发到网络(通过路径9、13、16)或给加速核心进一步处理(通过路径9、15)。

需要指出的是，本发明实施例中，从设备可以全部使用FPGA加速卡，也可以部分使用GPU加速卡，部分使用FPGA加速卡，从而组成异构加速系统；采用GPU卡或FPGA卡时，GPU卡或FPGA卡独立于传统的Host主板，通过PCIe链路作为endpoint(从设备)设备与主设备FPGA进行直连通信，完成作为从设备GPU卡或FPGA卡的枚举、配置和初始化等，可以降低GPU卡或FPGA卡和服务器的耦合度；不依赖HOST的CPU、内存和PCIe相关芯片组，降低用户使用GPU或FPGA资源时的这些资源的间接开销成本；本发明设备间通信采用成熟通用的PCIe链路及基于PCIe链路所支持的协议直连通信，灵活度高，具有更低的通信延迟；本发明单个主设备FPGA可支持和多个GPU卡或FPGA卡通过PCIe连接，并将每个从设备上的存储资源(带内BAR寄存器，带内缓存)全部映射在主设备内部互联总线上，使得主设备能够调度、使用从设备的资源；本发明主设备FPGA可用通过带外监管模块与从设备通过带外I2C通道通信，监控管理从设备状态；数据在输送给GPU卡前和从GPU卡输出后，均可在FPGA卡内进行二次处理(如加解密、压缩解压缩)，然后再发送给下一级处理模块或者通过光口发送出去，提高数据传输安全性、降低通信量和通信延时；本发明DMA引擎模块可根据PCIe TLP包地址转发TLP包到其他从设备，或存储到主设备GDDR中，或通过RoCE协议封装通过光网络转发到其他节点设备。

这样，通过主设备(可为一张FPGA加速卡)内的多个PCIe接口连接从设备，将基于PCIe的从设备和服务器主板的耦合度降低，灵活地完成从设备的初始化、注册和地址映射流程，通过DMA引擎连接主设备和从设备内多个模块，进行灵活的数据处理，有效地降低了设备间通信的延时，极大提高了与相邻节点扩展通信的能力，大大减少使用了基于PCIe设备的异构系统部署成本，为分布式应用提供了新的计算加速平台。可以解决现代数据中心基于GPU的AI训练过程中跨节点GPU间通信延迟大、依赖服务器CPU、内存和PCIe Chipset等参与，数据传输过程中硬件资源开销大的问题。

参见图10所示，本发明实施例公开了一种数据处理装置，应用于主现场可编程逻辑门阵列设备，包括：

待处理数据写入模块11，用于基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，以便所述第一从设备对所述待处理数据进行处理，得到结果数据；

结果数据获取模块12，用于获取所述第一从设备发送的所述结果数据；

结果数据转发模块13，用于确定所述结果数据的目的地址，若所述目的地址指向第二从设备的存储空间，则通过第二高速串行计算机扩展总线标准链路将所述结果数据写入所述第二从设备的存储部件。

可见，本发明实施例应用于主现场可编程逻辑门阵列设备，基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，以便所述第一从设备对所述待处理数据进行处理，得到结果数据，然后获取所述第一从设备发送的所述结果数据，确定所述结果数据的目的地址，若所述目的地址指向第二从设备的存储空间，则通过第二高速串行计算机扩展总线标准链路将所述结果数据写入所述第二从设备的存储部件。也即，本发明实施例中的主现场可编程逻辑门阵列设备，为从设备分配总线地址空间，基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入第一从设备的存储部件，获取第一从设备发送的对待处理数据进行处理得到的结果数据，在结果数据的目的地址指向第二从设备的存储空间时，通过第二高速串行计算机扩展总线标准链路将结果数据写入第二从设备的存储部件。这样，通过主现场可编程逻辑门阵列设备，为从设备分配总线地址空间，实现从设备跨节点的通信，从设备可以为图形处理器加速卡或现场可编程逻辑门阵列加速卡，降低从设备与服务器之间的耦合，能够降低跨节点通信时延以及硬件资源开销。

所述装置还包括中断通知模块，用于发送中断数据包通知所述第一从设备对所述待处理数据进行处理。

其中，中断通知模块，具体用于基于所述第一从设备中寄存器在主现场可编程逻辑门阵列设备总线上的映射关系将所述中断数据包写入所述第一从设备的指定寄存器，以通知所述第一从设备对所述待处理数据进行处理。

其中，结果数据转发模块13，还用于若所述目的地址指向本地设备的存储空间，则将所述结果数据写入本地存储部件。若所述目的地址指向本地的网络模块，则将所述结果数据发送至所述网络模块，并通过网络模块发送到网络。若所述目的地址指向本地的加速核心模块，则将所述结果数据发送至所述加速核心模块，并通过加速核心模块调用预设处理逻辑对所述结果数据进行处理。

并且，结果数据转发模块13，还用于基于所述结果数据对应的描述符确定数据处理类型；通过加速核心模块调用所述数据处理类型对应的预设处理逻辑对所述结果数据进行处理。具体的，若所述数据处理类型为加密处理，则通过加速核心模块调用加密处理逻辑对所述结果数据进行加密处理；若所述数据处理类型为压缩处理，则通过加速核心模块调用压缩处理逻辑对所述结果数据进行压缩处理；若所述数据处理类型为先压缩处理、后加密处理，则通过加速核心模块调用压缩处理逻辑对所述结果数据进行压缩处理，得到压缩数据，调用加密处理逻辑对所述压缩数据进行加密处理。

进一步的，所述装置还包括数据读取模块，具体用于当获取到所述第一从设备发送的通知，则从所述第一从设备的存储部件中读取所述结果数据；其中，将所述结果数据由所述第一从设备存入所述第一从设备的存储部件。

另外，所述装置还包括，数据缓存模块，用于在所述从所述第一从设备的存储部件中读取所述结果数据之后，将所述结果数据缓存至本地设备的存储部件。进一步的，所述装置还包括：加速核心模块，用于对所述结果数据进行压缩，得到压缩数据，并对压缩数据进行加密，得到加密数据；网络模块，用于对加密数据进行封装，并通过光网络发送至其他节点。

其中，数据读取模块，具体用于利用直接数据存取引擎从所述第一从设备的存储部件中读取所述结果数据。

另外，所述装置还包括从设备注册以及总线地址空间分配模块，用于发现在位从设备，并为每个在位从设备分配总线地址空间，以完成在位设备注册；为本地各模块分配总线地址空间。

所述第一从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡，所述第二从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡。

在一种实施方式中，待处理数据写入模块11，具体用于从网络获取待处理数据，若待处理数据为加密数据，则进行解密，得到解密数据；基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将所述解密数据写入所述第一从设备的存储部件。

在另一种实施方式中，待处理数据写入模块11，具体用于从网络获取待处理数据，若待处理数据为压缩数据，则进行解压，得到解压后数据；基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将所述解压后数据写入所述第一从设备的存储部件。

参见图11所示，本发明实施例公开了一种电子设备20，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，前述实施例公开的数据处理方法。

关于上述数据处理方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

并且，所述存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26；其中，所述电源23用于为所述电子设备20上的各硬件设备提供工作电压；所述通信接口24能够为所述电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

进一步的，本发明实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的数据处理方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种数据处理方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，应用于主现场可编程逻辑门阵列设备，包括：

获取所述第一从设备发送的所述结果数据；

2.根据权利要求1所述的数据处理方法，其特征在于，在所述基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件之后，还包括：

3.根据权利要求2所述的数据处理方法，其特征在于，所述发送中断数据包通知所述第一从设备对所述待处理数据进行处理，包括：

4.根据权利要求1所述的数据处理方法，其特征在于，还包括：

5.根据权利要求1所述的数据处理方法，其特征在于，还包括：

6.根据权利要求1所述的数据处理方法，其特征在于，还包括：

7.根据权利要求6所述的数据处理方法，其特征在于，还包括：

基于所述结果数据对应的描述符确定数据处理类型；

8.根据权利要求7所述的数据处理方法，其特征在于，所述通过加速核心模块调用所述数据处理类型对应的预设处理逻辑对所述结果数据进行处理，包括：

9.根据权利要求1所述的数据处理方法，其特征在于，所述发送中断数据包通知所述第一从设备之后，还包括：

10.根据权利要求9所述的数据处理方法，其特征在于，在所述从所述第一从设备的存储部件中读取所述结果数据之后，还包括：

将所述结果数据缓存至本地设备的存储部件。

11.根据权利要求10所述的数据处理方法，其特征在于，还包括：

12.根据权利要求11所述的数据处理方法，其特征在于，在对压缩数据进行加密，得到加密数据之后，还包括：

13.根据权利要求9所述的数据处理方法，其特征在于，所述从所述第一从设备的存储部件中读取所述结果数据，包括：

14.根据权利要求1所述的数据处理方法，其特征在于，还包括：

为本地各模块分配总线地址空间。

15.根据权利要求1所述的数据处理方法，其特征在于，所述第一从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡，所述第二从设备为图形处理器加速卡或现场可编程逻辑门阵列加速卡。

16.根据权利要求1至15任一项所述的数据处理方法，其特征在于，所述基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，包括：

17.根据权利要求1至15任一项所述的数据处理方法，其特征在于，所述基于为第一从设备分配的总线地址空间，并通过第一高速串行计算机扩展总线标准链路将待处理数据写入所述第一从设备的存储部件，包括：

18.一种数据处理装置，其特征在于，应用于主现场可编程逻辑门阵列设备，包括：

19.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至17任一项所述的数据处理方法。

20.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的数据处理方法。