CN111488051A

CN111488051A - 基于cpu和fpga协同计算的云端深度神经网络优化方法

Info

Publication number: CN111488051A
Application number: CN202010153250.4A
Authority: CN
Inventors: 卢暾; 常玉虎; 顾宁
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-08-04

Abstract

本发明属于计算机体系结构设计技术领域，具体为一种基于CPU和FPGA协同计算的云端深度神经网络优化方法。该方法实现分为前端和后端两部分；前端是CPU为核心的服务器端，负责流程控制、数据接收和部分处理；后端是以FPGA为核心的加速部件，包括大规模并行处理器阵列、图形处理单元、专用集成电路以及PCI‑E接口，负责深度神经网络关键层的并行加速处理等。先将深度神经网络按不同层次划分为分别适合前端和后端处理的两个部分。前端将接收到的数据以数据流的形式，由DDR穿梭于前后端之间处理各个层或组合层。前端灵活的流程控制配合后端高效的并行结构，可大幅提高神经网络计算的能效比。

Description

基于CPU和FPGA协同计算的云端深度神经网络优化方法

技术领域

本发明属于计算机体系结构设计技术领域，具体涉及一种基于CPU和FPGA协同计算的云端深度神经网络优化方法。

背景技术

在多种交互方式并存的人机交互过程中，会产生不同特点的交互模态数据和所对应不同深度学习模型，如卷积神经网络（Convolutional neural networks，简称CNNs）模型等，而构建深度学习算法需要长时间和大量计算资源。目前主流的计算架构包括以下三种：GPU、FPGA和专用定制芯片（ASIC）。

GPU 最早是为生成基于多边形网络的计算机图形而设计的，实际上这些处理器也非常适用于运行神经网络和矩阵乘法方面的计算。但是每张GPU也会消耗大约 250 瓦的功率并且需要一个完整的计算机来支持运行。FPGA即现场可编程门阵列，是一种半定制电路，可以针对深度神经网络模型构建出定制处理器，但其基本单元的资源有限，无法完整处理大规模深度神经网络模型。ASIC具有速度快能耗低的优点，但其一旦定型就无法更改，不够灵活。

本发明基于CPU和FPGA协同计算架构，通过软硬件优化方法来解决目前大规模服务器集群在处理深度学习算法时存在着耗能高、性价比低、灵活性差、数据通信开销大等问题。

发明内容

本发明的目的在于提供一种基于CPU和FPGA协同计算的云端深度神经网络优化方法，用以解决目前大规模服务器集群在处理深度学习算法时存在着耗能高、性价比低、灵活性差、数据通信开销大等问题。

本发明提供的基于CPU和FPGA协同计算的云端深度神经网络优化方法，利用软硬件全可编程技术，将时序大数据、大规模场景深度信息、海量个体生理信息等数据通过外部存储接口实时调入与云服务器共享的板上内存池中，使CPU与FPGA实现协同异构模式计算。在协同计算过程中，主机中的CPU负责FPGA不擅长的复杂逻辑和事务处理等串行计算；FPGA通过共享内存池高速读取内存数据，充分调动内部的真值表、触发器以及其他硬件资源，动态实现多层次的深度学习模型的关键层（如卷积层和非线性层等），达到在硬件层次中加快模型响应速度的目的。二者各尽所能，充分发挥异构计算系统的处理能力。

本发明提供的优化方法，把深度神经网络按不同层次划分为分别适合前端和后端处理的两个部分；其中：

所述前端，是以CPU为核心的服务器端，包括CPU和PCI-E总线接口的主机、控制划分深度神经网络的程序和加速部件驱动，负责数据接收、流程控制和部分处理；

所述后端，是以FPGA为核心的加速部件，包括现场可编程门阵列（FPGA）、大规模并行处理器阵列、图形处理单元、专用集成电路以及PCI-E接口，负责深度神经网络关键层的并行加速处理。

前端中，数据接收具体可实现为RESTful架构风格的服务端，通过网络接收从外部客户端发来的多模态数据请求。前端根据请求的模态类型和任务要求，选择合适的深度处理模型。再根据数据规模权衡传输开销和加速效果，确定整体控制流程。

通常线性层的传输开销大于加速效果，将由前端完成处理；卷积层、非线性函数、池化层等加速效果显著的划分给后端处理，并参考后端预定义的网络类型，自动将原始处理层优化组合，对应到后端 FPGA的一个独立IP核，以减少数据传输损耗，提高性能。

后端中，加速实现以前端确定的组合层为主。本方法先将权衡加速开销之后可能用于后端加速的层全部筛选出来，再根据层的类型分类组合实现IP核。

前端将接收到的数据以数据流的形式，由DDR穿梭于前端和后端之间处理各个层或组合层。前端灵活的流程控制配合后端高效的并行结构，可大幅提高神经网络计算的能效比。

相比于单层或者完整模型的处理方式，本方法更具有灵活性，能够做到根据数据规模动态调整处理流程，避免频繁的数据交换或FPGA的线性处理。

本发明使用FPGA作为硬件加速，相较于软件加速，性能更高，较ASIC，更具有一定的灵活性，较GPU，功耗低，从而达到提升性能和降低功耗的效果。采用异构计算节点构建高性能分布式共享存储架构服务器，结合通用计算和算法硬件加速，适用于一定应用领域，兼顾了性能、功耗和应用灵活性，另外本发明设计的服务器占用空间小，价格相对商用CPU和GPU低，具有一定成本优势。

附图说明

图1是本发明方法流程示意图。

图2是后端加速处理示例流程图。

图3是后端并行处理示例图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

本发明提供了一种在服务器部件上实现深度神经网络的优化方法，所述服务器部件包括具有CPU的主机部件和连接到所述主机部件的硬件加速部件；所述深度神经网络包括多个层。所述方法包括：划分成分别适合前后端的两个部分。前端将接收到的数据以数据流的形式，由DDR穿梭于前后端之间处理各个层和组合层。

如图1所示，为在加速部件上实现深度神经网络加速的操作过程。首先在前端主机基于HTTP的RESTful架构接收外部数据，根据数据的模态类型和任务要求，选择合适的深度处理模型。再根据数据规模权衡传输开销和加速效果，分析深度神经网络模型参数，确定整体控制流程。将网络模型划分为两个部分。例如，可以将接收到的深度神经网络划分为包含具有较高存储器带宽要求的层(例如线性层)的前端部分，以及包含具有较低存储器带宽要求的层（例如卷积层）的后端部分。配置前端主机部件和后端加速部件穿梭实现相应部分。

其中，虚线代表的融合层是将多个层组合到单个FPGA IP核中。例如在融合卷积层和采样层之后，将卷积和采样两个操作融合到单个FPGA IP核中。这种融合运算不会将卷积层生成的中间结果写入内存，而是直接在FPGA 中完成流式计算，并将最终结果传输给前端。因为减少了额外的数据移动，所以能够提升性能。但是性能和灵活性通常不能兼得，FPGA的资源会限制组合的数量和深度。所以只能预先实现常用的组合层IP核，在前端划分模型时自己加以判断。

图2以卷积层为例展示了当数据穿梭到后端加速部件时的处理流程。FPGA先从存储器中读取数据，将输入数据加载到第一组输入数据缓冲器，再从缓冲器中读取卷积核的权重。将输入数据分割成N个切片，并将输入数据的N个切片加载到第一组输入数据缓冲器中。之后并行执行卷积操作，将结果移位到 FIFO 阵列和环形仲裁器。后端根据前端的命令判断是否将结果放入缓冲器，以执行下一次还是返回处理结果。

图3展示了后端加速部件中用于计算特征值的功能，以说明后端处理的并行特性。该功能包括流处理部件，用于将输入流分流成多个并行的子数据流。然后，特征状态机的集合在子流上并行操作以生成特征值。特征收集部件收集来自特征状态机的特征值，并使其可用于下游加速部件。特征收集部件通常可以用具有存储器存储指令的一个或多个计算机处理器，也可以在FPGA中采用专用逻辑门阵列来实现。在本方法中，特征收集工作由前端处理器完成。

下面结合实验对本发明的应用效果作详细的描述。

1、条件

本次实施实验在由一个Intel(R) Core(TM) i7-7700 CPU @ 3.60GHz，一个NVIDIAGeForce GTX 1080和一个Xilinx KCU1500 FPGA加速平台所组成的异构计算平台上进行。

2、实验内容

在上述异构计算系统中，测试用例选用基于Caffe 框架的手势识别模型，通过摄像头采集到实时图像，分别交由加速部件和 GPU 进行识别，记录计算时间和实时功率。其中加速部件功率由 xbsak query 命令测得，GPU 功率由 nvidia-smi 命令测得。单帧处理时间取测试场景时间段内的平均值，单帧功耗=平均功率*单帧处理时间。实验过程中，选取五个测试场景，测试结果概述如下：

1) 场景一中GPU单帧功耗为14.80mJ/f，加速部件单帧功耗为0.13mJ/f，加速部件与GPU的能效比为1/114；

2) 场景二中GPU单帧功耗为14.95mJ/f，加速部件单帧功耗为0.13mJ/f，加速部件与GPU的能效比为1/115；

3) 场景三中GPU单帧功耗为15.17mJ/f，加速部件单帧功耗为0.13mJ/f，加速部件与GPU的能效比为1/117；

4) 场景四中GPU单帧功耗为15.17mJ/f，加速部件单帧功耗为0.13mJ/f，加速部件与GPU的能效比为1/117；

5) 场景五中GPU单帧功耗为15.17mJ/f，加速部件单帧功耗为0.13mJ/f，加速部件与GPU的能效比为1/117。

3、结果分析

为了更好的展示实验结果，通过能效比参数更加直观的突出本发明在高性能和低能耗方面的提升效果。能效比定义如下：

能效比 = GPU平均功耗 * GPU单帧处理时间 / 加速部件平均功耗 / 加速部件单帧处理时间

= GPU单帧功耗 / 加速部件单帧功耗

从最终效果来看，本发明可以大幅提升性能和降低功耗。

以上所述仅为本发明的一种实施方式，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CPU和FPGA协同计算的云端深度神经网络优化方法，其特征在于，利用软硬件全可编程技术，将时序大数据、大规模场景深度信息、海量个体生理信息等数据通过外部存储接口实时调入与云服务器共享的板上内存池中，使CPU与FPGA实现协同异构模式计算；在协同计算过程中，主机中的CPU负责FPGA不擅长的复杂逻辑和事务处理串行计算；FPGA通过共享内存池高速读取内存数据，充分调动内部的真值表、触发器以及其他硬件资源，动态实现多层次的深度学习模型的关键层，从而在硬件层次中加快模型响应速度。

2.根据权利要求1所述的基于CPU和FPGA协同计算的云端深度神经网络优化方法，其特征在于，把深度神经网络按不同层次划分为分别适合前端和后端处理的两个部分，其中：

所述前端，是以CPU为核心的服务器端，包括CPU和PCI-E总线接口的主机、控制划分深度神经网络的程序和加速驱动部件，负责数据接收、流程控制和部分处理；

所述后端，是以FPGA为核心的加速部件，包括现场可编程门阵列、大规模并行处理器阵列、图形处理单元、专用集成电路以及PCI-E接口，负责实现深度神经网络关键层的并行加速；

前端中，数据接收采用RESTful架构的服务端，通过网络接收从外部客户端发来的多模态数据请求；根据请求的模态类型和任务要求，选择合适的深度处理模型；再根据数据规模权衡传输开销和加速效果，确定整体控制流程；

线性层的传输开销大于加速效果，划分给前端处理；卷积层、非线性函数、池化层等加速效果显著的划分给后端处理，并参考后端预定义的网络类型，自动将原始处理层优化组合，对应到后端 FPGA的一个独立IP核，以减少数据传输损耗，提高性能；

后端中，加速实现以前端确定的组合层为主；先将权衡加速开销之后可能用于后端加速的层全部筛选出来，再根据层的类型分类组合实现IP核；

前端将接收到的数据以数据流的形式，由DDR穿梭于前端和后端之间处理各个层或组合层；前端灵活的流程控制配合后端高效的并行结构，大幅提高神经网络计算的能效比。