CN109767002A

CN109767002A - 一种基于多块fpga协同处理的神经网络加速方法

Info

Publication number: CN109767002A
Application number: CN201910044478.7A
Authority: CN
Inventors: 秦刚; 姜凯; 于治楼
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-05-17
Anticipated expiration: 2039-01-17
Also published as: CN109767002B

Abstract

本发明公开一种基于多块FPGA协同处理的神经网络加速方法，涉及神经网络优化领域；建立神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，ZYNQ芯片根据神经网络的网络模型的复杂度、延迟要求和吞吐量的需求，将网络模型的参数按照层次分解，并根据参数分解的层次划分FPGA的流水级数，按照参数分解的层次下发参数到相应流水级数的FPGA，根据神经网络模型控制每一流水级数启动的FPGA，直至流水级数为最后一级的FPGA处理数据完成。

Description

一种基于多块FPGA协同处理的神经网络加速方法

技术领域

本发明公开一种基于多块FPGA协同处理的神经网络加速方法，涉及神经网络优化领域。

背景技术

神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。现有的神经网络模型中的一层还不能完善利用一块FPGA上进行并行实现，因此需要进行串行处理时降低了神经网络的处理性能，而采用多块FPGA的流水线分层实现就可以大大提升神经网络的处理性能。本发明提供一种基于多块FPGA协同处理的神经网络加速方法，利用本发明方法将所要实现的神经网络根据需要分层，以FPGA为基本单元进行流水化处理，实现在多块FPGA上分级数据处理，并可根据需要灵活实现最大吞吐量和最小延迟间的转换，提高了神经网络的能效比。

SoC称为系统级芯片,也称片上系统,它是一个有专用目标的集成电路,其中包含完整系统并有嵌入软件的全部内容。

发明内容

本发明针对现有技术的问题，提供一种基于多块FPGA协同处理的神经网络加速方法，可以大大实现提升神经网络的处理性能。

本发明提出的具体方案是：

一种基于多块FPGA协同处理的神经网络加速方法，建立神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，

ZYNQ芯片根据神经网络的网络模型的复杂度、延迟要求和吞吐量的需求，将网络模型的参数按照层次分解，并根据参数分解的层次划分FPGA的流水级数，按照参数分解的层次下发参数到相应流水级数的FPGA，根据神经网络模型控制每一流水级数启动的FPGA，直至流水级数为最后一级的FPGA处理数据完成。

所述的方法中ZYNQ芯片根据参数分解的层次划分FPGA的流水级数，并且每一流水级数不止一个FPGA。

所述的方法中每一流水级数的每个FPGA只实现整个神经网络的部分层的计算处理。

所述的方法中具体步骤为：

ZYNQ芯片根据神经网络的网络模型的复杂度、延迟要求和吞吐量的需求，判断实现网络模型以及实现神经网络是吞吐量优先还是延迟优先，

ZYNQ芯片根据优先级将网络模型的参数按照层次分解，并根据参数分解的层次划分FPGA的流水级数，按照参数分解的层次下发参数到相应流水级数的FPGA，

ZYNQ芯片将待处理的数据发送到流水级数为第一级的FPGA中，第一级的FPGA进行神经网络某一层或几层的计算处理，处理之后将第一级FPGA处理结果发送到第二级FPGA，第二级FPGA进行神经网络某一层或几层的计算处理，直至流水级数为最后一级的FPGA处理数据完成。

所述的方法中网络模型的参数分解的层次小于设定值时，每一块FPGA只进行神经网络一层的计算处理，使吞吐量最大化。

一种基于多块FPGA协同处理的神经网络加速器，包括神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，

所述的加速器中神经网络加速板卡上的ZYNQ芯片根据参数分解的层次划分FPGA的流水级数，并且每一流水级数不止一个FPGA。

所述的加速器中通过高速网口进行神经网络加速板卡间板级互联，所述的加速器能处理更大规模的神经网络。

本发明的有益之处是：

本发明提供一种基于多块FPGA协同处理的神经网络加速方法，建立神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，ZYNQ芯片根据神经网络的网络模型的复杂度、延迟要求和吞吐量的需求，将网络模型的参数按照层次分解，并根据参数分解的层次划分FPGA的流水级数，按照参数分解的层次下发参数到相应流水级数的FPGA，根据神经网络模型控制每一流水级数启动的FPGA，直至流水级数为最后一级的FPGA处理数据完成；

利用本发明方法将所要实现的神经网络根据需要分层，以FPGA为基本单元进行流水化处理，实现在多块FPGA上分级数据处理，并可根据需要灵活实现最大吞吐量和最小延迟间的转换，提高了神经网络的能效比。

附图说明

图1是本发明方法流程示意图；

图2是本发明加速器板卡上芯片连接示意图。

具体实施方式

本发明提供一种基于多块FPGA协同处理的神经网络加速方法，建立神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，

同时提供与上述方法相对应的一种基于多块FPGA协同处理的神经网络加速器，包括神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

利用本发明方法或加速器，处理某一神经网络的数据，过程如下：

建立神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片同各个FPGA芯片通过高速串行接口连接到互联芯片进行互联，ZYNQ上的ARM处理器运行LINUX系统，

ZYNQ芯片根据优先级将网络模型的参数按照层次分解，并根据参数分解的层次划分FPGA的流水级数，每块FPGA实现神经网络所需的卷积、池化、激活等基本单元，按照参数分解的层次ZYNQ芯片下发相应参数到相应流水级数的FPGA的外部存储中，ZYNQ芯片根据网络模型下发指令组合FPGA实现神经网络各层的网络，每一流水级数的每个FPGA只实现整个神经网络的部分层的计算处理，

ZYNQ芯片根据流水级数，将数据处理需要的FPGA依次上电，对不需要的FPGA不启动，同时根据神经网络模型将指令发送到各个FPGA的FIFO中进行存储，以决定每次启动哪些卷积计算单元，

ZYNQ随后将待处理的数据发送到流水级数为第一级的FPGA中，第一级的FPGA进行神经网络某一层或几层的计算处理，期间会根据下发的指令进行外部存储的读写，处理之后将第一级FPGA处理结果发送到第二级FPGA，流水线中进行下一层次的神经网络计算，第二级FPGA进行神经网络某一层或几层的计算处理，同时新的数据会下发到FPGA中，直至流水级数为最后一级的FPGA处理数据完成，最后一级FPGA将处理结果收集并上报。

在上述实施过程中，每一流水级数可以不止一个FPGA，同级的FPGA可以同时处理相似的数据，也可以处理不同的数据。

在上述实施例中，当网络模型的参数分解的层次小于设定值时，每一块FPGA只进行神经网络一层的计算处理，使吞吐量最大化，同时最大程度降低了DDR读写，只在最开始ZYNQ下发时进行读写，降低了系统的能耗。为了减少延迟，可以在一块FPGA中实现多个神经网络的层，减少FPGA间传输的延迟，此时，未用到的FPGA将经过ZYNQ调度，使其不用启动，以此降低整个系统的功耗。同样的如果神经网络的规模较大，现有板卡不能满足吞吐量要求，可以将多块板卡通过高速光网络接口进行级联，以实现更大规模的并行和流水线。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于多块FPGA协同处理的神经网络加速方法，其特征是

建立神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，

2.根据权利要求1所述的方法，其特征是ZYNQ芯片根据参数分解的层次划分FPGA的流水级数，并且每一流水级数不止一个FPGA。

3.根据权利要求1或2所述的方法，其特征是每一流水级数的每个FPGA只实现整个神经网络的部分层的计算处理。

4.根据权利要求3所述的方法，其特征是具体步骤为：

5.根据权利要求4所述的方法，其特征是网络模型的参数分解的层次小于设定值时，每一块FPGA只进行神经网络一层的计算处理，使吞吐量最大化。

6.一种基于多块FPGA协同处理的神经网络加速器，其特征是包括神经网络加速板卡，加速板卡上设置SOC芯片和FPGA，SOC芯片上包含ZYNQ芯片，ZYNQ芯片与每个FPGA互联，

7.根据权利要求6所述的加速器，其特征是神经网络加速板卡上的ZYNQ芯片根据参数分解的层次划分FPGA的流水级数，并且每一流水级数不止一个FPGA。

8.根据权利要求6或7所述的加速器，其特征是通过高速网口进行神经网络加速板卡间板级互联，所述的加速器能处理更大规模的神经网络。