CN114138481A

CN114138481A - 一种数据处理方法、装置及介质

Info

Publication number: CN114138481A
Application number: CN202111425760.3A
Authority: CN
Inventors: 刘钧锴; 阚宏伟; 王彦伟; 张翔宇; 韩海跃
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-04
Also published as: WO2023093043A1

Abstract

本申请公开了一种数据处理方法、装置及介质，包括：第一目标FPGA加速卡获取与自身连接的目标主机发送的计算开始命令，对待处理数据进行计算，得到中间结果数据，根据自身的配置信息将中间结果数据、下一步计算类型信息发送至下一个FPGA加速卡，下一个FPGA加速卡对中间结果数据进行计算，得到新中间结果数据，将新中间结果数据以及下一步计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；通过第二目标FPGA加速卡将最终结果数据返回至目标主机，以完成针对待处理数据的分布式计算。能够降低多块FPGA加速卡进行分布式计算时的计算延迟，从而提升计算效率。

Description

一种数据处理方法、装置及介质

技术领域

本申请涉及FPGA云平台技术领域，特别涉及一种数据处理方法、装置及介质。

背景技术

随着FPGA(即Field Programmable Gate Array，现场可编程与门阵列)处理能力的不断增强，越来越多的数据中心开始使用FPGA进行加速，以提高计算能力和灵活性。为了管理这些数量和种类越来越多的FPGA加速卡，FPGA云平台应用而生，以期解决当前FPGA加速卡部署、维护和管理难的问题。

目前，在云平台的管理下，由于单块FPGA加速卡逻辑资源有限，在复杂的计算任务通过一块FPGA加速卡无法实现时，需要将复杂的计算任务分为多个计算步骤，每个步骤分配给一块FPGA加速卡计算，多个FPGA加速卡按顺序计算完成后，返回主机最终结果。其中，多块FPGA加速卡间的数据传输和计算步骤之间的切换都由主机运行的软件完成，这样，多卡的分布式计算相对于单卡计算延迟会很大，计算效率低。

发明内容

有鉴于此，本申请的目的在于提供一种数据处理方法、装置及介质，能够降低多块FPGA加速卡进行分布式计算时的计算延迟，从而提升计算效率。其具体方案如下：

第一方面，本申请公开了一种数据处理方法，包括：

当第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据；

通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将所述新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；

通过所述第二目标FPGA加速卡将所述最终结果数据返回至所述第一目标FPGA加速卡；

通过第一目标FPGA加速卡将所述最终结果数据发送至所述目标主机，以完成针对所述待处理数据的分布式计算。

可选的，在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令之前，还包括：

通过所述目标主机获取参与计算的全部FPGA加速卡的配置信息，并将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡；

通过所述目标主机与其他主机通信，分别向所述其他主机发送所述其他主机各自对应的配置信息，以便所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

其中，所述全部FPGA加速卡中的非第二目标FPGA加速卡的配置信息均包括预设地址映射关系、下一个参与计算的FPGA加速卡的网络地址信息、下一步计算的计算类型信息，并且，所述预设地址映射关系为中间结果数据在自身的内存存储物理地址范围以及下一个参与计算的FPGA加速卡的内存存储物理地址范围之间的映射关系；所述第二目标FPGA加速卡的配置信息包括所述第一目标FPGA加速卡的网络地址信息，最终结果数据在自身的内存存储物理地址范围以及在所述目标主机的内存存储物理地址。

可选的，所述将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡，包括：

将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡的内部寄存器；

所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡，包括：

所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡的内部寄存器。

可选的，所述对待处理数据进行计算，得到中间结果数据，包括：

调用所述第一目标FPGA加速卡自身的kernel对待处理数据进行计算，得到中间结果数据，以便该kernel将所述中间结果数据写入所述第一目标FPGA加速卡的内存。

可选的，还包括：

在kernel向所述内存进行数据写入时，根据所述预设映射关系检测当前写入地址是否在所述中间结果数据在自身的内存存储物理地址范围内；

若是，则触发所述通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡的步骤。

可选的，所述通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，包括：

通过所述第一目标FPGA加速卡将所述中间结果数据转为数据包，并根据自身的配置信息在所述中间结果数据的最后一个数据包中添加下一步计算的计算类型信息；

将所述数据包发送至下一个FPGA加速卡，以便下一个FPGA加速卡接收到最后一个数据包时，根据最后一个数据包中的计算类型信息生成kernel调用命令，并利用所述kernel调用命令调用自身的kernel对所述中间结果数据进行相应的计算，得到新的中间结果数据。

可选的，所述通过所述第二目标FPGA加速卡将所述最终结果数据返回至所述第一目标FPGA加速卡，包括：

通过所述第二目标FPGA加速卡检测kernel计算完成后发给PCIE的中断信号；

当检测到所述中断信号，则将所述最终结果数据发送至所述第一目标FPGA加速卡。

第二方面，本申请公开了数据处理装置，应用于FPGA云平台，包括参与分布式计算的多个FPGA加速卡，以及分别与所述多个FPGA加速卡连接的主机，多个FPGA加速卡中包括第一目标FPGA加速卡、第二目标FPGA加速卡，其中，

所述第一目标FPGA加速卡，用于当获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据；根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将所述新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；

所述第二目标FPGA加速卡，用于将所述最终结果数据返回至所述第一目标FPGA加速卡；

所述第一目标FPGA加速卡，用于将所述最终结果数据发送至所述目标主机，以完成针对所述待处理数据的分布式计算。

可选的，所述目标主机，还用于获取参与计算的全部FPGA加速卡的配置信息，并将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡；与其他主机通信，分别向所述其他主机发送所述其他主机各自对应的配置信息，以便所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

第三方面，本申请实施例公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的数据处理方法。

可见，本申请当第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据，然后通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将所述新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据，之后通过所述第二目标FPGA加速卡将所述最终结果数据返回至所述第一目标FPGA加速卡，最后通过第一目标FPGA加速卡将所述最终结果数据发送至所述目标主机，以完成针对所述待处理数据的分布式计算。也即，本申请通过对参与分布式计算的各个FPGA加速卡进行配置，实现中间结果数据的自动传输、以及中间计算步骤对应的加速卡的自动计算以及最终结果数据的自动返回，避免了主机软件参与分布式计算过程，能够降低多块FPGA加速卡进行分布式计算时的计算延迟，从而提升计算效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种数据处理方法流程图；

图2为本申请提供的一种具体的FGPA云平台分布式计算主机和加速卡的结构示意图；

图3为本申请提供的一种FPGA加速卡静态区结构示意图；

图4为本申请提供的一种具体的FPGA加速卡结构示意图；

图5为本申请提供的一种具体的FPGA加速卡结构示意图；

图6为本申请提供的一种具体的数据处理方案实施架构图；

图7为本申请提供的一种数据处理装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在云平台的管理下，由于单块FPGA加速卡逻辑资源有限，在复杂的计算任务通过一块FPGA加速卡无法实现时，需要将复杂的计算任务分为多个计算步骤，每个步骤分配给一块FPGA加速卡计算，多个FPGA加速卡按顺序计算完成后，返回主机最终结果。其中，多块FPGA加速卡间的数据传输和计算步骤之间的切换都由主机运行的软件完成，这样，多卡的分布式计算相对于单卡计算延迟会很大，计算效率低。为此本申请实施例提供了一种数据处理方案，能够降低多块FPGA加速卡进行分布式计算时的计算延迟，从而提升计算效率。

参见图1所示，本申请实施例公开了一种数据处理方法，包括：

步骤S11：当第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据。

在具体的实施方式中，在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令之前，还包括：通过所述目标主机获取参与计算的全部FPGA加速卡的配置信息，并将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡；通过所述目标主机与其他主机通信，分别向所述其他主机发送所述其他主机各自对应的配置信息，以便所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

进一步的，在具体的实施方式中，本申请实施例可以将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡的内部寄存器；所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡的内部寄存器。其中，内部寄存器为BSP(即BoardSupport Package，板级支持包)中的内部寄存器。

也即，本申请实施例在计算开始之前，可以通过第一个参与分布式计算FPGA加速卡连接的目标主机对各个参与分布式计算的FPGA加速卡进行配置，在具体的实施方式中，目标主机通过PCI-E(即peripheral component interconnect express，一种高速串行计算机扩展总线标准)总线将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡的内部寄存器，通过网络与其他主机通信，分别向其他主机发送其他主机各自对应的配置信息，以便其他主机通过PCI-E总线将相应的配置信息配置至与自身连接的FPGA加速卡。配置完成后，目标主机向第一目标FPGA加速卡发送开始计计算命令。

并且，本申请实施例中，调用所述第一目标FPGA加速卡自身的kernel对待处理数据进行计算，得到中间结果数据，以便该kernel将所述中间结果数据写入所述第一目标FPGA加速卡的内存。同理，下一FPGA加速卡同样调用自身的kernel对待处理数据进行计算，得到相应的中间结果数据。

步骤S12：通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将所述新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据。

在具体的实施方式中，本申请实施例在kernel向所述内存进行数据写入时，根据所述预设映射关系检测当前写入地址是否在所述中间结果数据在自身的内存存储物理地址范围内；若是，则触发所述通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡的步骤。

通过所述第一目标FPGA加速卡将所述中间结果数据转为数据包，并根据自身的配置信息在所述中间结果数据的最后一个数据包中添加下一步计算的计算类型信息；将所述数据包发送至下一个FPGA加速卡，以便下一个FPGA加速卡接收到最后一个数据包时，根据最后一个数据包中的计算类型信息生成kernel调用命令，并利用所述kernel调用命令调用自身的kernel对所述中间结果数据进行相应的计算，得到新的中间结果数据。

在具体的实施方式中，kernel将所述中间结果数据写入所述第一目标FPGA加速卡的内存，第一目标FPGA加速卡中的BSP向本卡的MAC(即Media Access Control，媒体介入控制层)模块发起RDMA(即Remote Direct Memory Access，远程直接数据存取)命令，MAC模块根据配置信息将加速卡本地内存中的中间结果数据转换成RDMA数据包传输到下一加速卡内存，在发送中间结果数据的最后一个数据包中，数据包头部带有下一步计算的计算类型信息，下一加速卡接收到中间结果数据的最后一个数据包后，根据计算类型信息调用kernel进行相应的计算，下一加速卡kernel计算产生中间结果数据的同时，自动发起RDMA写命令传输给下一个加速卡，以此类推，直到计算的最后一个加速卡。最后一块加速卡kernel计算完成后将计算结果根据BSP中的配置信息，反馈给目标主机内存。

步骤S13：通过所述第二目标FPGA加速卡将所述最终结果数据返回至所述第一目标FPGA加速卡。

在具体的实施方式中，本申请实施例通过所述第二目标FPGA加速卡检测kernel计算完成后发给PCIE的中断信号；当检测到所述中断信号，则将所述最终结果数据发送至所述第一目标FPGA加速卡。

步骤S14：通过第一目标FPGA加速卡将所述最终结果数据发送至所述目标主机，以完成针对所述待处理数据的分布式计算。

也即，第二目标FPGA加速卡根据配置信息，即第一目标FPGA加速卡的网络地址信息，以及最终结果数据在自身的内存存储物理地址范围以及在所述目标主机的内存存储物理地址，将最终结果数据发送至目标主机。

参见图2所示，图2为本申请实施例提供的一种具体的FGPA云平台分布式计算主机和加速卡的结构示意图。在云平台的管理下，将复杂的计算任务分配给FPGA资源池中的某一个或者某几个FPGA中进行加速。资源池内的加速卡通过PCI-E与服务器连接，加速卡之间通过以太网进行数据传输。图2中以3个加速卡和3个主机为例，包括主机1、FPGA加速卡1，主机2、FPGA加速卡2，主机3、FPGA加速卡3。FPGA加速卡内部采用支持OpenCL编程的通用架构，分为静态区(BSP)和计算单元(kernel)两个部分。参见图3所示，图3为本申请实施例提供的一种FPGA加速卡静态区结构示意图。静态区包括与主机CPU单元连接的PCI-E模块、与网络连接的网络数据处理模块(MAC)、内存控制器(DDR_controller)等模块。主机通过PCI-E调用kernel开始计算，并获得计算完成信息。主机可以通过PCI-E和MAC模块与网络上的其他主机收发信息，也可以通过PCI-E向MAC发起RDMA写命令，MAC模块将本地加速卡内存数据转化为RDMA数据包传输给以太网上的其他加速卡内存。Kernel是由用户开发的计算单元，可以用OpenCL(即Open Computing Language，开放运算语言)编写，也可以用传统RTL(即register transfer language，寄存器传递语言)语言开发。Kernel可以通过BSP中的内存控制器读写FPGA加速卡内存。

需要指出的是，现有技术中，将复杂计算任务分为2个或多个计算步骤，每个步骤分配给一块FPGA加速卡计算，多个FPGA加速卡按顺序计算完成后，返回主机最终结果。以2个计算步骤为例，第一主机通过PCI-E发送指令使第一FPGA加速卡开始计算，kernel计算完成通过PCI-E发送中断信号给第一主机，第一主机得到第一块FPGA加速卡计算完成信息后，通过PCI-E向MAC发送RDMA写命令，将第一加速卡内存中的中间结果数据传输给第二加速卡内存，第一主机确认数据传输完成后，通知第二主机进行下一步计算，第二主机通过PCI-E发送指令使第二加速卡开始计算，kernel计算完成通过PCI-E发送中断信号给第二主机，第二主机发送消息通知第一主机计算结束。从前述分布式计算过程可以看出，多块卡间数据传输和计算步骤之间切换都由主机运行的软件完成，延迟会很大。本申请提出的方案，在不改变计算单元(kernel)的前提下，可以大幅降低FPGA云平台分布式计算的延迟。

参见图4所示，本申请实施例提供了一种具体的FPGA加速卡结构示意图。本申请实施例通过BSP中的内存检测模块以及命令合并模块实现。

内存检测模块处于kernel和内存控制器之间，可以透传kernel读写内存操作。内部包含内存映射表，记录中间结果数据在本卡内存存储物理地址和下一加速卡存储物理地址的映射关系，以及下一步计算类型信息和下一加速卡网络地址信息。当kernel将数据写入加速卡内存时，内存检测模块将写地址和本卡中间结果数据的内存存储物理地址的寄存器设置对比，数据写地址属于中间结果数据在本卡的内存存储物理地址范围以内，则判定kernel写入的数据为中间结果数据；通过查内存映射表得到存入下一加速卡内存的物理地址和加速卡网络地址信息。内存检测模块向MAC模块发出RDMA写命令，MAC模块从本卡内存读取中间结果数据，组成RDMA网络数据包发送到下一加速卡。内存检测模块检测到kernel写入中间结果数据的最后一个数据时，向MAC发出带有下一步计算类型的RDMA写命令，MAC发出的最后一个中间结果数据包，数据包头部带有下一步计算类型信息。

命令合并模块处于PCI-E总线和kernel之间，PCI-E总线操作可以通过命令合并模块透传到kernel。命令合并模块可以解析MAC模块接收的RDMA数据包，得到中间结果数据的最后一包数据是否到来信息和下一步计算类型。当中间结果数据的最后一包数据到来时，将其中包含的计算类型信息转化为调用kernel开始计算的PCI-E总线写寄存器命令，发送给kernel，使kernel开始计算。命令合并模块会检测kernel计算完成后发给PCI-E的中断信号，当命令合并模块属于计算过程的最后一块加速卡，并被设置目标主机内存存储计算结果的物理地址和第一目标FPGA加速卡的网络地址信息时，将kernel计算完成的中断信号转换为RDMA写命令发给MAC模块，MAC模块将计算结果通过网络发送至第一主机的内存。

这样，在不改变FPGA加速卡计算单元设计的前提下，使多步骤分布式计算不依赖主机软件的调度，实现了自动传输中间结果数据和自动进行下一步计算以及自动返回结果的功能。在不增加开发工作量的情况下，使FPGA云平台可以分布式进行复杂的大型计算，而不大幅增加计算的延迟。

下面以两步分布式计算为例，阐述本申请提供的数据处理方案：

参见图5所示，图5为本申请实施例提供的一种具体的FPGA加速卡结构示意图，使用的FPGA加速卡为浪潮f10a加速卡。本加速卡的FPGA为intel的arria10器件，与FPGA连接的有两个10G以太网光口，以及两个4GB的SDRAM作为存储器，可以通过PCI-E连接服务器的CPU。

参见图6所示，图6为本申请实施例提供的一种具体的数据处理方案实施架构图。计算的两个步骤分别由网络连接的两个FPGA加速卡完成。两块FPGA加速卡分别通过PCI-E与主机连接。首先第一主机通过PCI-E设置第一FPGA加速卡的BSP寄存器，确定第一步计算产生的中间结果数据在本加速卡内存存储物理地址范围、第二主机网络地址和中间结果数据在第二主机内存中的物理地址范围，以及第二步计算类型信息。第一主机通过网络将配置信息传递给第二主机，第二主机通过PCI-E配置第二FPGA加速卡的BSP寄存器，确定第一FPGA加速卡网络地址和最终结果数据在本卡以及第一主机内存中的存储物理地址。第一主机通过PCI-E调用第一FPGA加速卡的kernel开始计算，kernel将计算结果写入本卡内存，BSP中的内存检测模块检测kernel写本卡内存操作，并判断出写地址在设置的中间结果数据的存储物理地址范围之内，通过查表得到中间结果数据在第二FPGA加速卡的内存物理地址，向MAC模块发送RDMA写命令。MAC模块根据RDMA写命令，将本卡内存中的中间结果数据组成RDMA网络数据包发送到第二FPGA加速卡的MAC模块，第二FPGA加速卡的MAC模块将RDMA数据包中的中间结果数据写入第二FPGA加速卡中相应的内存物理地址中。当第一FPGA加速卡的BSP中的内存检测模块检测kernel写入中间结果数据的最后一个数据时，向MAC模块发送带有下一步计算类型信息的RDMA写命令，MAC模块发出带有下一步计算类型信息的最后一个中间结果数据包。当中间结果数据的最后一包到达第二FPGA加速卡MAC后，命令合并模块检测到中间结果最后一包到达并且得到下一步计算类型信息，将此信息转化为PCI-E总线写寄存器命令发送给kernel。第二块加速卡kernel开始计算，计算完成后，kernel发出中断信号。命令合并模块将kernel计算完成中断信号，转换为RDMA写命令发送给MAC模块。MAC模块将最终结果数据转化为RDMA数据包发送给第一FPGA加速卡的MAC模块，第一FPGA加速卡的MAC模块通过PCI-E将最终结果数据发送至第一主机内存中，第一主机软件轮询第一主机内存的计算结果缓存区，得到最终结果数据，分布式计算完成。

可见，本申请实施例通过对参与分布式计算的各个FPGA加速卡进行配置，实现中间结果数据的自动传输、以及中间计算步骤对应的加速卡的自动计算以及最终结果数据的自动返回，避免了主机软件参与分布式计算过程，能够降低多块FPGA加速卡进行分布式计算时的计算延迟，从而提升计算效率。

参见图7所示，本申请实施例提供了一种数据处理装置，应用于FPGA云平台，包括参与分布式计算的多个FPGA加速卡，以及分别与所述多个FPGA加速卡连接的主机，多个FPGA加速卡中包括第一目标FPGA加速卡11、第二目标FPGA加速卡12，其中，

所述第一目标FPGA加速卡11，用于当获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据；根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将所述新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡12计算完成，得到最终结果数据；

所述第二目标FPGA加速卡12，用于将所述最终结果数据返回至所述第一目标FPGA加速卡11；

所述第一目标FPGA加速卡11，用于将所述最终结果数据发送至所述目标主机，以完成针对所述待处理数据的分布式计算。

在具体的实施方式中，所述目标主机，还用于获取参与计算的全部FPGA加速卡的配置信息，并将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡；与其他主机通信，分别向所述其他主机发送所述其他主机各自对应的配置信息，以便所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

并且，在具体的实施方式中，目标主机将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡的内部寄存器；所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡的内部寄存器。

第一目标FPGA加速卡调用自身的kernel对待处理数据进行计算，得到中间结果数据，以便该kernel将所述中间结果数据写入所述第一目标FPGA加速卡的内存。

进一步的，在kernel向所述内存进行数据写入时，第一目标FPGA加速卡根据所述预设映射关系检测当前写入地址是否在所述中间结果数据在自身的内存存储物理地址范围内；若是，则触发所述通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡的步骤。

并且，所述第一目标FPGA加速卡将所述中间结果数据转为数据包，并根据自身的配置信息在所述中间结果数据的最后一个数据包中添加下一步计算的计算类型信息；将所述数据包发送至下一个FPGA加速卡，以便下一个FPGA加速卡接收到最后一个数据包时，根据最后一个数据包中的计算类型信息生成kernel调用命令，并利用所述kernel调用命令调用自身的kernel对所述中间结果数据进行相应的计算，得到新的中间结果数据。

所述第二目标FPGA加速卡检测kernel计算完成后发给PCIE的中断信号；当检测到所述中断信号，则将所述最终结果数据发送至所述第一目标FPGA加速卡。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的数据处理方法。

关于上述数据处理方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种数据处理方法、装置及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据处理方法，其特征在于，应用于FPGA云平台，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令之前，还包括：

3.根据权利要求2所述的数据处理方法，其特征在于，所述将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡，包括：

4.根据权利要求2所述的数据处理方法，其特征在于，所述对待处理数据进行计算，得到中间结果数据，包括：

5.根据权利要求4所述的数据处理方法，其特征在于，还包括：

6.根据权利要求1至5任一项所述的数据处理方法，其特征在于，所述通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，包括：

7.根据权利要求6所述的数据处理方法，其特征在于，所述通过所述第二目标FPGA加速卡将所述最终结果数据返回至所述第一目标FPGA加速卡，包括：

8.一种数据处理装置，其特征在于，应用于FPGA云平台，包括参与分布式计算的多个FPGA加速卡，以及分别与所述多个FPGA加速卡连接的主机，多个FPGA加速卡中包括第一目标FPGA加速卡、第二目标FPGA加速卡，其中，

9.根据权利要求8所述的数据处理装置，其特征在于，

所述目标主机，还用于获取参与计算的全部FPGA加速卡的配置信息，并将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡；与其他主机通信，分别向所述其他主机发送所述其他主机各自对应的配置信息，以便所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法。