CN110110852A

CN110110852A - 一种深度学习网络移植到fpag平台的方法

Info

Publication number: CN110110852A
Application number: CN201910400926.2A
Authority: CN
Inventors: 闵锐; 王洁磊
Original assignee: Electric Coreda (chengdu) Technology Co Ltd
Current assignee: Aegis Defense Technology Chengdu Co ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-08-09
Anticipated expiration: 2039-05-15
Also published as: CN110110852B

Abstract

本发明公开了一种深度学习网络移植到FPAG平台的方法。本发明采用1bit的量化方案将原模型量化为二值深度学习模型，不仅将内存占用降低为原有的浮点型权值的1/32，而且由于其权值参数仅有二值状态，这样的二值运算可由逻辑门器件快速实现，在一定程度上可以大大缓解DSP资源不足的问题。

Description

一种深度学习网络移植到FPAG平台的方法

技术领域

本发明涉及一种深度学习网络移植到FPAG平台的方法。

背景技术

自从2006年深度神经网络学习技术被提出，深度学习的巨大潜力就开始吸引着无数的研究人员和一线工程师不断挖掘深度学习的极限。在这十余年中，有一大批的优秀科研工作作者创造性地提出了一个又一个令人瞩目的深度学习模型，不断将深度学习的能力极限向前拓展。

然而，即使今天的深度学习领域已经涌现出如此多的优秀模型算法，甚至在很多传统观念认为机器不可能超过人类的领域，深度学习网络也展现了不输于人类的表现。但如何将它们大规模地应用到各行各业还始终困扰着最优秀的研发人员。这是由于深度学习模型通常都有着巨量的模型参数和复杂的网络结构，运用这样的模型进行推理需要大量的计算存储资源并且耗费大量的时间，在一些对实时性要求较高的场景无法方便地应用。

随着硬件制造水平不断提升，高性能的CPU、GPU、FPGA甚至ASIC芯片的出现在一定程度解决了应用平台计算存储资源不足的问题，但是如何从模型本身入手对模型进行精简和改进来降低对硬件的需求也是目前一个热门的研究方向。在这样的背景下，模型的量化压缩涌现出了大量的优秀解决方案，通过将32bit的模型参数量化到16bit、8bit乃至1bit大大降低了使用这些模型进行推理所需要的计算资源和存储资源。大量的研究和实践都表明，采用合适巧妙的量化方案和合适的平台能够使得原模型在精度损失不大的情况下，大大提高模型的推理速度，并且在功耗表现上也有着巨大的提升。

发明内容

本发明的目的是，提供一种二值深度学习网络的FPGA移植优化方法，能够针对需要加速或移植的网络进行二值量化并优化，对比通用处理器能够在同等功耗和精确度损失很小的情况下获得数据处理速度的大幅提升，得到更好地模型推理加速效。本发明采用1bit的量化方案将原模型量化为二值深度学习模型，不仅将内存占用降低为原有的浮点型权值的1/32，而且由于其权值参数仅有二值状态，这样的二值运算可由逻辑门器件快速实现，在一定程度上可以大大缓解DSP资源不足的问题。

本发明的技术方案是：

一种二值深度学习网络的FPGA移植和优化方法，包括以下步骤：

步骤1：对要移植的目标模型参数进行二值量化。具体量化方法是如附图2所示，对一个尚未训练的模型前向传播时先将浮点型参数量化成二值参数，然后与输入特征值相乘并加上偏置项，通过池化和归一化操作，再经过激活函数得到输出特征值；在反向传播时，使用Tanh函数的导函数代替Sign函数的导函数，从而避免梯度消失。如此反复，直至模型收敛。

步骤2：对卷积层和全连接层进行优化。具体操作为使用同或操作代替二值乘法，使用popcount算法代替累加操作，从而实现卷积运算。其中，popcount算法原理如下表1所示，分别将二值乘法得到的0和1存入两个不同的栈空间里，在二值乘法计算完毕后，栈空间的最大索引值N和P即表示着栈内存储的0或1的个数，通过式SUM＝P-N即可计算出累加结果，也即卷积结果。

表1popcount算法栈空间示意

步骤3：池化层优化。具体操作是通过使用一个查找表实现的或门代替常规方法中用三个查找表构建的比较器，从而实现池化操作。

步骤4：批归一化及激活函数优化。具体操作是将激活函数和批归一化函数结合，结合后表示如下：

a_k ^b＝Sign(BatchNorm(a_k,θ_k))

＝Sign(γ_k(a_k-μ_k)×i_k+B_k)

式中a_k为卷积操作提取的特征值，θ_k＝(γ_k,μ_k,i_k,B_k)，γ_k为批归一化函数的缩放因子，μ_k为待归一化数据的均值，i_k为方差的倒数，B_k为平移因子，a_k ^b为经过批归一化函数和激活函数后的特征值。由于激活函数以0为阈值，当批归一化函数的输出值大于0时激活函数输出1，否则输出0(表示-1)，且批归一化函数为一个单调递增函数，所以我们通过求解解下式：

BatchNorm(τ_k,θ_k)＝0

即可计算结合后的复合函数的阈值τ_k：

我们只需比较输入值和阈值τ_k即可直接给出输出：若输入特征值a_k大于阈值τ_k，则输出值为1，否则输出为0。相比于直接计算归一化函数和激活函数，优化后计算量大大减少。

步骤5：将经过量化和优化步骤的模型移植到FPGA目标平台进行推理应用。

本发明的有益效果为，本发明通过神经网络模型参数二值化步骤将要移植的目标模型参数量化为1bit，由于二值运算可以通过硬件逻辑单元快速实现而不用依赖DSP器件的制约，这一特性使得二值深度学习网络特别适合使用FPGA平台进行加速计算，也可以因此获得数据处理速度的大幅提升，在一定程度上可以大大缓解DSP资源不足的问题。

附图说明

图1为二值深度学习网络的FPGA移植和优化流程图；

图2为本发明实施例二值深度学习网络训练框图；

图3为本发明实施例二值深度学习网络加速系统软硬件协同架构框图；

图4为本发明实施例中二值VGG模型移植优化后在CIFAR-10数据集上的部分推理测试结果图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细的说明。

实施例

本例中的FPGA平台是指集成了查找表(LTU)、触发器(FF)、数字处理单元(DSP)、存储单元RAM及锁相环PLL，并采用AXI总线进行片上片下的数据传输的系统。本发明实施例以这样的系统对VGG模型二值量化和移植加速优化为例进行说明，但本发明并不限于此。

附图1为本发明实施例的二值深度学习网络的FPGA移植和优化方法流程图，本发明依照附图1的处理流程对VGG模型进行移植和优化。步骤如下：

A、对原VGG模型进行二值量化，本实施例将原VGG模型的32bit浮点型参数量化、训练为1bit定点型参数。

B、对卷积层和全连接层进行优化。

C、池化层优化。

D、批归一化及激活函数优化。

E、将量化后的二值VGG模型移植至目标平台上运行，分别在MNIST、SVHN、CIFAR-10三个数据集上进行测试。

移植后的网络在MNIST、SVHN、CIFAR-10三个数据集上的测试表现如下表2所示：

表2二值神经网络在不同数据集下的识别误差

本实施例在CIFAR-10数据集上的部分测试结果见附图4。

Claims

1.一种深度学习网络移植到FPAG平台的方法，所述FPGA平台是指集成了查找表、触发器、数字处理单元、存储单元，并采用AXI总线进行片上片下数据传输的系统；其特征在于，所述方法包括以下步骤：

S1、选择要移植的深度学习网络模型，定义为目标模型，对目标模型的参数进行二值量化：将目标模型前向传播时使用二值权值量化，反向传播使用浮点数；所述二值权值量化的方法为：

其中，x表示输入的待量化的浮点数，x_b表示浮点数二值量化结果；

S2、卷积层的实现：对输入的数据结合步骤S1量化后的模型，使用同或操作进行处理，并使用popcount算法计算累加结果，从而实现卷积运算；所述popcount算法的实现方法是，在FPAG的存储单元中划分两个栈空间，一个栈空间用于存入同或操作得到的0，定义最大索引为N；另一个栈空间用于存入同或操作得到的1，定义最大索引为P；在同或操作结束后，通过SUM＝P-N计算出累加结果，也即卷积结果；

S3、池化层的实现：使用一个查找表实现的或门实现二值网络的池化操作；

S4、损失函数层的实现：将激活函数和批归一化函数结合，结合后表示如下

a_k ^b＝Sign(BatchNorm(a_k,θ_k))

＝Sign(γ_k(a_k-μ_k)×i_k+B_k)

式中a_k为卷积操作提取的特征值，θ_k＝(γ_k,μ_k,i_k,B_k)，γ_k为批归一化函数的缩放因子，μ_k为待归一化数据的均值，i_k为方差的倒数，B_k为平移因子，a_k ^b为经过批归一化函数和激活函数后的特征值；

再由下式，求得阈值τ_k：

将归一化函数和激活函数的计算定义为比较a_k和τ_k的值：若a_k小于τ_k，那么输出特征值为0，否则为1；

S5、根据上述步骤，将深度学习网络移植到FPGA对应的模块中，并使FPGA的数据输入和输出与深度学习网络的输入和输出对应，即在FPGA平台上实现深度学习网络的应用。