CN114021715A

CN114021715A - 基于Tensorflow框架的深度学习训练方法

Info

Publication number: CN114021715A
Application number: CN202111163121.4A
Authority: CN
Inventors: 赵谦谦; 阚宏伟; 王彦伟
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-02-08

Abstract

本申请提供一种基于Tensorflow框架的深度学习训练方法，包括：接收深度学习训练请求；将深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点；将本地FPGA节点注册为Tensorflow框架对应的VFPGA设备；配置VFPGA设备的前向算子和反向算子，并编译前向算子和反向算子得到FPGA的bit文件；烧写bit文件到本地FPGA节点，生成本地FPGA节点对应的FPGA设备；利用FPGA设备执行深度学习训练。本申请降低了通信时延，从而提高了深度学习训练效率。本申请还提供一种基于Tensorflow框架的深度学习训练系统、FPGA板卡、计算机可读存储介质和电子设备，具有上述有益效果。

Description

基于Tensorflow框架的深度学习训练方法

技术领域

本申请涉及大数据领域，特别涉及一种基于Tensorflow框架的深度学习训练方法、系统、FPGA板卡、计算机可读存储介质和电子设备。

背景技术

Tensorflow是使用最为广泛的深度学习训练框架之一，大部分公司都将tensorflow作为首选训练框架。因此tensorflow得到了很多芯片厂商的支持，例如intel的CPU，AMD的CPU和APU，nvidia的GPU，intel和silinx等头部FPGA芯片厂商实现了FPGA支持tensorflow推理。但使用PCIE模式的主机进行模型训练时，受限于服务器中FGPA卡槽的个数，大规模部署时会成为瓶颈。同时，由于基于PCIE模式的多张FPGA板卡间通信需要借助CPU进行，通信时长较大，即通信受限。

发明内容

本申请的目的是提供一种基于Tensorflow框架的深度学习训练方法、系统、、FPGA板卡、计算机可读存储介质和电子设备，能够降低深度学习训练过程中的通信时延，提高深度学习训练效率。

为解决上述技术问题，本申请提供一种基于Tensorflow框架的深度学习训练方法，包括：

接收深度学习训练请求；

将所述深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点；

将所述本地FPGA节点注册为所述Tensorflow框架对应的VFPGA设备；

配置所述VFPGA设备的前向算子和反向算子，并编译所述前向算子和所述反向算子得到FPGA的bit文件；

烧写所述bit文件到所述本地FPGA节点，生成所述本地FPGA节点对应的FPGA设备；其中所述FPGA设备包含RDMA协议模块，所述RDMA协议模块用于FPGA设备之间实现全双工读写内存；

利用所述FPGA设备执行所述深度学习训练。

可选地，利用所述FPGA设备执行所述深度学习训练包括：

从数据集中获取待训练数据；

利用所述FPGA设备对所述待训练数据分别进行前向计算、反向传播和梯度计算，得到所述待训练数据对应的梯度值；

通过RDMA协议模块将所述梯度值在聚合通信模块内共享，并根据各所述FPGA设备的梯度值计算平均梯度；所述平均梯度确定损失函数最小值。

可选地，将所述深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点之前，还包括：

从FPGA板卡资源池确定所述深度学习训练请求对应的FPGA板卡；所述FPGA板卡资源池中的FPGA板卡包含独立供电单元。

可选地，所述FPGA板卡的网络传输层包括RDMA协议模块、网络物理层协议模块和网络应用层协议。

本申请还提供一种FPGA板卡，所述FPGA板卡的网络连接层设有RDMA协议模块，所述RDMA协议模块用于FPGA设备之间实现全双工读写内存。

可选地，所述FPGA板卡支持L3层网络策略和L4层网络策略。

可选地，所述FPGA板卡还包括独立供电单元。

本申请还提供一种基于Tensorflow框架的深度学习训练系统，包括：

请求接收模块，用于接收深度学习训练请求；

板卡虚拟化模块，用于将所述深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点；

节点注册模块，用于将所述本地FPGA节点注册为所述Tensorflow框架对应的VFPGA设备；

节点编译模块，用于配置所述VFPGA设备的前向算子和反向算子，并编译所述前向算子和所述反向算子得到FPGA的bit文件；

设备配置模块，用于烧写所述bit文件到所述本地FPGA节点，生成所述本地FPGA节点对应的FPGA设备；其中所述FPGA设备包含RDMA协议模块，所述RDMA协议模块用于FPGA设备之间实现全双工读写内存；

深度学习训练模块，用于利用所述FPGA设备执行所述深度学习训练。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种基于Tensorflow框架的深度学习训练方法，包括：接收深度学习训练请求；将所述深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点；将所述本地FPGA节点注册为所述Tensorflow框架对应的VFPGA设备；配置所述VFPGA设备的前向算子和反向算子，并编译所述前向算子和所述反向算子得到FPGA的bit文件；烧写所述bit文件到所述本地FPGA节点，生成所述本地FPGA节点对应的FPGA设备；其中所述FPGA设备包含RDMA协议模块，所述RDMA协议模块用于FPGA设备之间实现全双工读写内存；利用所述FPGA设备执行所述深度学习训练。

本申请通过将FPGA板卡虚拟为FPGA节点，且在FPGA板卡中设置RDMA协议模块，使得FPGA板卡之间可以实现全双工读写内存，及时进行数据交互，从而无需经由CPU中转，降低了通信时延，从而提高了深度学习训练效率。

本申请还提供一种基于Tensorflow框架的深度学习训练系统、、FPGA板卡、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种基于Tensorflow框架的深度学习训练方法的流程图；

图2为本申请实施例所提供的一种FPGA板卡结构示意图；

图3为传统FPGA训练的数据流向示意图；

图4为本申请实施例所提供的FPGA训练的数据流向示意图；

图5为本申请实施例所提供的一种基于Tensorflow框架的深度学习训练系统的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，本申请提供一种基于Tensorflow框架的深度学习训练方法，包括：

S101：接收深度学习训练请求；

S102：将所述深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点；

S103：将所述本地FPGA节点注册为所述Tensorflow框架对应的VFPGA设备；

S104：配置所述VFPGA设备的前向算子和反向算子，并编译所述前向算子和所述反向算子得到FPGA的bit文件；

S105：烧写所述bit文件到所述本地FPGA节点，生成所述本地FPGA节点对应的FPGA设备；

S106：利用所述FPGA设备执行所述深度学习训练。

为了更好的描述本实施例，下文先对本申请提供的一种FPGA板卡进行说明：

参见图2，本申请提供一种FPGA板卡，FPGA板卡的网络连接层设有RDMA协议模块，RDMA协议模块用于FPGA设备之间实现全双工读写内存。

FPGA板卡还可以支持L3层网络策略和L4层网络策略，还可以包括独立供电单元，从而使得FPGA板卡不依赖于CPU，可以进行独立网络计算，脱离主机作为集群中独立的计算单元。FPGA板卡的网络传输层包括RDMA协议模块、网络物理层协议模块和网络应用层协议。图2中，Kernel指FPGA内部实现的功能模块，需要烧写固化到FPGA内部存储。PR为FPGA的远程加载模块。Flash为固化FPGA程序用的存储，掉电不丢失程序。DMA为数据直接存取技术，无需CPU参与。DDR为内存控制器。PCIE为FPGA与Host之间连接的一种总线协议。RDMA一种高速低延迟网络通信协议。MAC为网络物理层协议模块。UDP为一种网络应用层协议Connet为FPGA内部的网络传输层。Match engine为流控、数据匹配分发、数据校验等功能模块总称。ETH为网络硬件模块。

FPGA设备包含RDMA协议模块，所述RDMA协议模块用于FPGA设备之间实现全双工读写内存。

在上文所述的FPGA板卡的基础上，下文针对本实施例提供的基于Tensorflow框架的深度学习训练方法进行说明：

接收到深度学习训练请求后，确定对应的FPGA板卡，可以从包含若干个FPGABOX中组成FPGA资源池中确定对应的FPGA板卡，当然所需要的FPGA板卡数量在此不作具体限定。即在将深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点之前，可以从FPGA板卡资源池确定深度学习训练请求对应的FPGA板卡。

此外，在使用FPGA资源前需要先将网络中的单个或多个FPGA虚拟为本地FPGA节点，支持的FPGA节点数量可以根据主机性能扩展为多个，然后就可以像访问PCIE接口的FPGA资源一样对网络FPGA资源进行使用。

此后将本地FPGA节点注册为Tensorflow框架对应的VFPGA设备，配置VFPGA设备的前向算子和反向算子，并编译前向算子和反向算子得到FPGA的bit文件。该过程均为实现基于Tensorflow框架的深度学习训练所执行的必要配置。

再烧写bit文件到本地FPGA节点后，本地FPGA节点可以参与基于Tensorflow框架的深度学习训练，由于本地FPGA节点即FPGA板卡包含了RDMA协议模块，则PGA间可以直接相互全双工读写内存。利用该高速通信机制，实现了FPGA内部的reduce kernel，用于训练中的FPGA节点间数据交互。

而利用所述FPGA设备执行所述深度学习训练可以包括如下步骤：

第一步、从数据集中获取待训练数据；

第二步、利用所述FPGA设备对所述待训练数据分别进行前向计算、反向传播和梯度计算，得到所述待训练数据对应的梯度值；

第三步、通过RDMA协议模块将所述梯度值在聚合通信模块内共享，并根据各所述FPGA设备的梯度值计算平均梯度；所述平均梯度确定损失函数最小值。

具体的，请见图3和图4，图3为传统FPGA训练的数据流向示意图，图4为本申请实施例所提供的FPGA训练的数据流向示意图，图3和图4中虚线框均表示FPGA板卡，Enqueuebuffer表示数据从CPU传输到FPGA的操作，MINI-batch:训练时每个步骤使用的小批量数据，Reduce为有一种聚合通信操作，PCIE为FPGA与主端设备之间连接的一种总线协议。

由图3可以明显看出，经过FPGA板卡输出的梯度需要经由PCIE纯属至CPU并经过GRPC框架返回至参数服务器，但如图4，本申请可以直接基于RDMA协议实现FPGA板卡之间的梯度数据共享，FPGA之间可以直接通过RDMA通信，从约定地址读取其他FPGA的梯度，只需要一次通信即可，大大节省了通信时延。

下面对本申请实施例提供的基于Tensorflow框架的深度学习训练系统进行介绍，下文描述的基于Tensorflow框架的深度学习训练系统与上文描述的基于Tensorflow框架的深度学习训练方法可相互对应参照。

参见图5，图5为本申请实施例所提供的一种基于Tensorflow框架的深度学习训练系统的流程图，本申请还提供一种基于Tensorflow框架的深度学习训练系统，包括：

请求接收模块，用于接收深度学习训练请求；

基于上述实施例，作为优选的实施例，板卡虚拟化模块包括：

从数据集中获取待训练数据；

基于上述实施例，作为优选的实施例，还包括：

板卡确定模块，用于从FPGA板卡资源池确定所述深度学习训练请求对应的FPGA板卡；所述FPGA板卡资源池中的FPGA板卡包含独立供电单元。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于Tensorflow框架的深度学习训练方法，其特征在于，包括：

接收深度学习训练请求；

将所述本地FPGA节点注册为所述Tensorflow框架对应的VFPGA设备；

利用所述FPGA设备执行所述深度学习训练。

2.根据权利要求1所述的深度学习训练方法，其特征在于，利用所述FPGA设备执行所述深度学习训练包括：

从数据集中获取待训练数据；

3.根据权利要求1所述的深度学习训练方法，其特征在于，将所述深度学习训练请求对应的FPGA板卡虚拟为本地FPGA节点之前，还包括：

4.根据权利要求3所述的深度学习训练方法，其特征在于，所述FPGA板卡的网络传输层包括RDMA协议模块、网络物理层协议模块和网络应用层协议。

5.一种FPGA板卡，其特征在于，所述FPGA板卡的网络连接层设有RDMA协议模块，所述RDMA协议模块用于FPGA设备之间实现全双工读写内存。

6.根据权利要求5所述的FPGA板卡，其特征在于，所述FPGA板卡支持L3层网络策略和L4层网络策略。

7.根据权利要求5所述的FPGA板卡，其特征在于，所述FPGA板卡还包括独立供电单元。

8.一种基于Tensorflow框架的深度学习训练系统，其特征在于，包括：

请求接收模块，用于接收深度学习训练请求；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的基于Tensorflow框架的深度学习训练方法的步骤。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-4任一项所述的基于Tensorflow框架的深度学习训练方法的步骤。