CN110110850A

CN110110850A - 基于fpga前向反向可复用的处理单元实现方法

Info

Publication number: CN110110850A
Application number: CN201910354707.5A
Authority: CN
Inventors: 姜凯; 于治楼; 郝虹; 李朋; 梁智豪
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-09
Also published as: WO2020220479A1

Abstract

本发明提供一种基于FPGA前向反向可复用的处理单元实现方法，属于涉及智能计算技术领域，本发明针对前向推理和训练中反向传播问题，对处理单元进行复用，通过将所有待计算的参数分别进行缓存，并根据计算状态进行数据片选，满足不同阶段的计算任务，实现基于FPGA前向反向可复用的处理单元。由于此处理单元可同时满足推理与训练的计算需求，因此可提升FPGA的资源使用效率。

Description

基于FPGA前向反向可复用的处理单元实现方法

技术领域

本发明涉及智能计算技术，尤其涉及一种基于FPGA前向反向可复用的处理单元实现方法。

背景技术

卷积神经网络算法在人工智能领域中应用最为广泛的算法，广泛应用于安防、自动驾驶、计算机视觉等领域。CNN本质上是一个多层感知机，其成功的原因关键在于它所采用的局部连接和共享权值的方式，一方面减少了的权值的数量使得网络易于优化，另一方面降低了过拟合的风险。CNN是神经网络中的一种，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

各类应用所需智能算法对计算平台的运算能力要求越来越高。以图像类算法为例，性能较好的模型权重参数规模在65M以上，模型的单次前向推理操作数超过了10G Ops，诸如VGG-19模型，操作数已经达到40G Ops。经过计算，单处理器的理想性能应该满足4-8TOPS。因此，如何提高神经网络的数据传输效率和计算效率，成为AI领域的关键问题。

发明内容

为了解决以上技术问题，本发明提出了一种基于FPGA前向反向可复用的处理单元实现方法，可同时满足推理与训练的计算需求，因此可提升FPGA的资源使用效率。

本发明的技术方案是：

一种基于FPGA前向反向可复用的处理单元实现方法，针对前向推理和训练中反向传播问题，对处理单元进行复用，通过将所有待计算的参数分别进行缓存，并根据计算状态进行数据片选，满足不同阶段的计算任务。

进一步的，

处理单元复用体现在：单元包含对同层单元的输入输出通路，对下层单元的输出通路以及上层单元的输入通路。

进一步的，

待计算参数分别进行缓存体现为：数据缓存、参数缓存、阵列输出缓存、直接输出缓存这4个缓存，分别存储来自于上一层的待计算数据、待使用参数(权重)、乘法阵列计算后的计算数据、跨过本层直接传入下一层计算数据。

进一步的，

根据计算状态进行数据片选体现为：4个缓存通过仲裁单元进行控制，仲裁单元的仲裁原则通过标签缓存获取，而标签缓存由前一层处理单元输入。

进一步的，

处理单元处于整个计算网络的第L层，若输入数据缓存和参数缓存的为第L-1层input和weight，则仲裁单元选通两缓存将数据传送入乘法阵列计算，并将数据通过输出至同层累加单元通路进行下一步计算；其中，L为处理单元处于整个计算网络的层数，weight为权重。

再进一步的，

若输入数据为第L+1层δoutput和output的非线性函数求导结果δbias以及weight，则仲裁单元选通缓存将数据输入乘法阵列，并将数据通过阵列输出缓存，通过输出至上一层计算单元通路输出；

若输入数据为input和δbias，则直接将数据送入乘法阵列计算后于同层内部更新。

进一步的，

计算矩阵过大，同层扩展时通过输出至同层计算单元、同层计算单元输入通路执行。

进一步的，

跨层扩展时通过直接输出至下层计算单元通路执行。

附图说明

图1前向推理计算抽象模式图；

图2反向传播计算抽象模式图；

图3基于FPGA前向反向可复用处理单元架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于复杂的网络模型，如卷积神经网络，模型整体由多个不同类型的计算层组成。常见的计算层包括卷积层、全连接层、池化层、非线性层等。这些层之间的主要区别存在于输入特征图向量与权值向量进行计算的控制流之间的差异。计算角度上来看，卷积、全连接等层以向量的点乘操作为主，而池化、非线性等其它层则以向量的比较与位操作为主。

根据计算所需的硬件资源和重复频次差异，将相对计算比重较重的部分打包为主要的处理单元，而将比重较轻的部分根据模型结构的分布绑定在处理单元内或者放置在通用计算系统中。

本发明针对前向推理和训练中反向传播问题，对处理单元进行复用，通过将所有待计算的参数分别进行缓存，并根据计算状态进行数据片选，满足不同阶段的计算任务，实现基于FPGA前向反向可复用的处理单元。由于此处理单元可同时满足推理与训练的计算需求，因此可提升FPGA的资源使用效率。

其中，

处理单元复用体现在：单元包含对同层单元的输入输出通路、累加单元输出通路，对下层单元的输出通路以及上层单元的输入输出通路。

如图1为推理阶段的抽象模式，而训练阶段则需要添加修正变化量的处理，故图2抽象模式较推理阶段更为复杂。

在图1中，weight和input作为输入的矩阵向量乘部分。

图2中，δBias和weight作为输入的矩阵向量乘部分，δBias和input作为输入的向量乘标量部分，均可以由此处理单元处理。

如图3，例如处理单元处于整个计算网络的第L层，若输入数据缓存和参数缓存的为第L-1层input和weight(权重)，则仲裁单元选通两缓存将数据传送入乘法阵列计算，并将数据通过输出至同层累加单元通路进行下一步计算；

输出至同层计算单元、同层计算单元输入通路用于计算矩阵过大，同层扩展使用；

直接输出至下层计算单元通路用于跨层扩展。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于FPGA前向反向可复用的处理单元实现方法，其特征在于，

针对前向推理和训练中反向传播问题，对处理单元进行复用，通过将所有待计算的参数分别进行缓存，并根据计算状态进行数据片选，满足不同阶段的计算任务。

2.根据权利要求1所述的方法，其特征在于，

所述处理单元复用，即单元包含对同层单元的输入输出通路、累加单元输出通路，对下层单元的输出通路以及上层单元的输入输出通路。

3.根据权利要求2所述的方法，其特征在于，

所述待计算参数分别进行缓存，即数据缓存、参数缓存、阵列输出缓存、直接输出缓存这4个缓存，分别存储来自于上一层的待计算数据、待使用参数、乘法阵列计算后的计算数据、跨过本层直接传入下一层计算数据。

4.根据权利要求3所述的方法，其特征在于，

所述根据计算状态进行数据片，即4个缓存通过仲裁单元进行控制，仲裁单元的仲裁原则通过标签缓存获取，而标签缓存由前一层处理单元输入。

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

若输入数据为第L+1层δoutput和output的非线性函数求导结果δbias以及weight，则仲裁单元选通缓存将数据输入乘法阵列，并将数据通过阵列输出缓存，通过输出至上一层计算单元通路输出。

7.根据权利要求5所述的方法，其特征在于，

8.根据权利要求5所述的方法，其特征在于，

9.根据权利要求5所述的方法，其特征在于，

跨层扩展时通过直接输出至下层计算单元通路执行。