CN110766155A

CN110766155A - 一种基于混合精度存储的深度神经网络加速器

Info

Publication number: CN110766155A
Application number: CN201910922467.4A
Authority: CN
Inventors: 刘波; 朱文涛; 沈泽昱; 黄乐朋; 李焱; 孙煜昊; 杨军
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-02-07
Also published as: WO2021057085A1

Abstract

本发明公开了一种基于混合精度存储的深度神经网络加速器，属于计算、推算、计数的技术领域。该加速器包括片上缓存模块、控制模块、位宽可控的乘加批计算模块、非线性计算模块、寄存器阵列以及基于双查找表的霍夫曼解码模块，将权值的有效比特位和符号位参数存储在同一个存储器中，实现了混合精度的数据存储和解析，实现了对混合精度的数据和权重的乘加操作。通过基于混合精度的数据存储解析和基于双重查找表的霍夫曼解码实现了对不同精度下数据和权重的压缩和存储，减少了数据流，实现了基于深度神经网络的低功耗的数据调度。

Description

一种基于混合精度存储的深度神经网络加速器

技术领域

本发明公开了一种基于混合精度存储的深度神经网络加速器，涉及人工智能神经网络的数模混合集成电路设计，属于计算、推算、计数的技术领域。

背景技术

深度神经网络以其优越的性能被广泛地研究和应用。当前主流的深度神经网络拥有数以亿计的连接，访存密集型和计算密集型的特点使得它们很难被映射到资源和功耗都极为有限的嵌入式系统中。另外，当前深度神经网络朝着更加精确和功能更加强大方向发展的趋势使得深度神经网络的规模、需要的存储空间变得越来越大，计算开销以及复杂度也变得越来越大。

用于加速深度神经网络运算的传统定制硬件设计是从动态随机存取存储器中读取权重，其资源消耗为运算器执行操作的两个量级，这时候应用的主要功耗将由访存决定。因此，深度神经网络加速器的设计难点归于两点：1）深度神经网络的规模越来越大，访存问题成为神经网络运算中的最大瓶颈，特别是当权值矩阵的规模大于缓存容量的时候，神经网络的优势不能充分发挥；2）深度神经网络的结构决定了它的基础运算为大量的乘累加运算，而乘法一直是硬件资源消耗多、延时长和功耗大的算术运算，乘法运算的速度和功耗决定了深度神经网络加速器的性能。

传统的深度神经网络加速器主要通过例化大量的乘加计算单元以及存储单元以一步提高系统的可靠性和稳定性，大量的芯片面积以及大量的运转功耗限制了神经网络加速器在可便携交互设备中的部署。为了解决这些问题，目前最热门的技术就是对权重数据进行二值化处理，这种处理方式可极大地简化网络运算数据调度以及访存模式，但其网络精度损失较大，系统稳定性有待考证。本申请旨在通过基于权重数据混合精度的分级压缩存储技术在保证原始网络识别精度的基础上实现一种低功耗、低延时、高效率的数据调度方式以及网络批处理操作。

发明内容

为了解决传统神经网络加速器高功耗、高计算量以及高延时的弊端，本发明提供了一种基于混合精度存储的深度神经网络加速器，采用线下软件的权值分级和线上硬件混合精度存储的工作方式，通过基于双查找表的霍夫曼编码实现混合精度数据的分级存储来解决深度神经网络的访存问题，通过引入位宽可控的批量乘加操作实现对应分级权重的数据计算匹配并节省网络因大量乘法计算产生的功耗，实现了低功耗、低延时、高效率的数据调度和网络批处理操作，解决了二值化权重的神经网络虽能简化网络运算数据调度以及访存模式但网络精度损失较大的技术问题。

本发明为实现上述发明目的采用如下技术方案：

一种基于混合精度存储的深度神经网络加速器，首先通过线下软件处理（包括基于Caffe平台、Tensorflow平台实现神经网络混合精度训练，如果达到预定压缩比例则对网络参数进行混合存储并对权重参数进行霍夫曼编码得到首1位置索引）对权值进行了有效的压缩，实现了精度可调，从而降低了运算的复杂度。数据从直接内存存取中读入，进入输入数据缓存模块，在缓存控制模块的调度下进入位宽可控的批乘加计算模块。权重及编码后的位置索引参数先进入索引缓存模块。在缓存控制模块的控制下，权重直接存入位宽可控的批乘加计算模块中的基于混合精度的权重存储器，编码后的位置索引参数通过基于双查找表的霍夫曼解码器模块解码后输出给位宽可控的批乘加计算模块中的位宽控制单元。当数据进入位宽可控的批乘加计算模块时，权重通过基于混合精度的数据存储解析模块完成权重解析，乘加单元根据位宽控制单元的控制信号选择数据权重位宽，然后完成输入数据与权重的对应乘加计算操作，结果直接存储到寄存器阵列中。存储到寄存器阵列中的中间值经过非线性计算模块完成计算后，在控制模块的调度下选择存储到输出数据缓存模块或者返回寄存器阵列，再次进行非线性操作。

本发明采用上述技术方案，具有以下有益效果：

（1）本申请涉及的基于混合精度存储的深度神经网络加速器，对线下训练好的权重位置索引参数霍夫曼编码进行基于双查找表的霍夫曼解码，根据权重位置索引参数表征的权重访问次数选择乘法阵列的位宽控制信号实现了位宽可控的批乘加计算模块，对输入的数据和权重数据先进行位宽调整再进行混合精度数据的乘加计算，实现了加速器的精度可调，降低了运算的复杂度，在不降低神经网络精度的前提下，大大地减少了网络的计算量。

（2）通过对权重数据解析将不同精度权值的有效比特位和符号位及位置索引参数存储在同一个存储器中，实现了混合精度的数据存储和解析，结合双查找表的霍夫曼解码将组合电路划分为两个组来降低功耗，实现了对不同精度下数据和权重的压缩和存储，减少了数据流，实现了深度神经网络的低功耗数据调度和高速度的乘加运算。

附图说明

图1为本发明的整体架构示意图。

图2为本发明位宽可控的批乘加计算模块。

图3为本发明基于混合精度的数据存储解析模块。

图4为本发明基于双查找表的霍夫曼解码器模块。

具体实施方式

下面结合具体实施例进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的保护范围，在阅读了本发明之后，本领域技术人员所做出的各种等价形式的修改均落于本申请所附权利要求限定的范围。

本发明基于混合精度存储的深度神经网络加速器的整体架构如图1所示，工作时加速器通过接收线下训练和压缩的权值，在控制模块的控制和调度下完成不同精度权值的解码、全连接层以及激活层的运算。基于混合精度存储的深度神经网络加速器包括4个片上缓存模块、1个控制模块、16个混合精度近似乘加处理单元、1个非线性计算模块、1个寄存器阵列以及1个基于双查找表的参数霍夫曼解码模块。4个片上缓存模块包括：输入数据缓存模块、输出数据缓存模块、缓存控制模块以及索引缓存模块。

如图2所示，本发明的位宽可控的位宽批乘加计算模块包括：一个内部静态随机存取存储器、一个数据解析模块，一个位宽控制单元、一个乘加单元和一个先入先出缓存单元，该模块与基于双查找表的参数霍夫曼解码模块协同配合，对于不同查找表对应的解码分级权重数据进行不同位宽的网络批量数据乘加处理，具体地，对于访问频繁的查找表1所解码的权重数据对应高位宽乘加操作，对于访问次数少的查找表2所解码的权重数据对应低位宽乘加操作。这种神经网络计算方式可减少网络中大量冗余的乘法操作。

本发明的基于混合精度的数据存储解析模块如图3所示，在线下将权重分为4级，给较大的权值分配较多的比特数，给较小的权值分配较少的比特数。对于分级后的权重而言，为了尽可能有效地表征其大小，对于每一个权值，有三项数据需要进行存储：1）权值中舍去末位保留下来的几个比特的数；2）权值的符号位；3）权值的位置索引参数。在神经网络参数存储过程中，将权值的有效比特位，符号位参数和权值位置索引参数存储在同一个存储器中。存储权值的静态随机存取存储器数据位宽为16比特，而权值由于采用了混合精度的方法，不同大小的权值位宽不一样，因此，存储权值时采用了混合存储的方案，即静态随机存取存储器中每一行16比特数据包含多个权值。存取权重时，通过数据解析模块进行权重的存储和解析。

如图4所示，本发明的基于双查找表的霍夫曼解码器模块包括：两个查找表（查找表1，查找表2），一个桶形移位器、一个选择器、一个通过多路复用器（MUX）实现的选择单元、一个组成以及相对应的数据存储器和寄存器。查找表1较小，包含最常用的权重位置索引编码，而查找表2包含所有剩余的权重位置索引编码。常用的权重位置索引编码了调用频率高且精度要求高的高比特权值，剩余的权重位置索引编码了调用频率低且精度要求较低的低比特权值。选择单元是一个预解码块，用于确定在解码码字时使用哪个查找表，并控制多路复用器（MUX）在每个解码周期选择正确的输出。工作时，输入有效数据锁存在边沿触发器中；其中，触发器的使能信号为输出码长数据经过累加器产生的进位信号，触发器采用乒乓结构实现流水输出，并且输出数据作为桶型移位器的输入；桶形移位寄存器的移位信号为输出码长数据经过累加器产生的累加信号，例如，第一次的输出码长为3，则桶形移位器右移3位输出，第二次的输出码长为4，则桶形移位器右移7位输出；桶形移位器的输出结果会输入到选择单元中，对于一个13比特的输入数据，如果高7位数据不全为1，则查找表1的使能信号有效，且查找表1的输入为选择单元的输出（输入数据的高7位），如果前7位数据全为1，则查找表2的使能信号有效，并且查找表2的输入为选择单元的输出（输入数据的低6位）；选择单元会根据输入数据的高7位数据按位与的结果选择对应的查找表并控制选择器输出查表结果，即控制选择器输出对应编码的码长和标志状态。例如，输入一组编码，经过触发器之后得到一组32位的霍夫曼编码（32’b0011_1101_1111_1110_0110_0111_1110_0110），初始化的累加器的累加和的结果为0，故对应的桶形移位器的输出为13’b0_0110_0111_1110_0110，可以算出移位后数据结果的高7位不全为1，即按位与后的结果为0，故查找表1的使能信号有效，查找表2不工作，可以得到最后的输出结果为码长4’b0100（即十进制4），标志状态4’b0011(即S3)。码长通过一个累加器得到累加码长的和的结果为4，进位信号为0，故移位器左移4位得到13’b1_1110_0110_0111_1110，按照刚刚说明的解码流程会得到最后的输出结果，码长4’b1000（十进制8），标志状态4’b0111（即S7）。这时，码长结果会继续输入到累加器中，得到累加和为12，进位信号为0，故移位器左移12位得到13’b1_1101_1111_1110，输出解码结果的码长为4’b1010（十进制10），状态标志S9。码长结果会继续输入到累加器中，得到累加和为6，进位信号为1。此时进位信号有效，则FIFO读使能有效，新的16比特数据流（16’b0110_0110_0110_0110）输入到触发器中，移位器的输入更新为32’b0110_0110_0110_0110_0011_1101_1111_1110，继续进行移位操作。

基于混合精度存储的深度神经网络加速器的实现流程包括如下四个步骤。

步骤一：神经网络加速器首先通过线下软件处理（包括基于Caffe平台、Tensorflow平台实现神经网络混合精度训练，如果达到预定压缩比例则对网络参数进行混合存储并对权重参数进行霍夫曼编码得到位置索引参数）对权值进行了有效的压缩，实现了精度可调，从而降低了运算的复杂度。

步骤二：数据从直接内存存取中读入，进入输入数据缓存模块，在控制模块的调度下进入位宽可控的批乘加计算模块。权重及编码后的位置索引参数先进入索引缓存模块。在缓存控制模块的控制下，权重直接存入位宽可控的批乘加计算模块中的基于混合精度的权重存储器，编码后的位置索引参数通过基于双查找表的霍夫曼解码器模块解码后输出给位宽可控的批乘加计算模块中的位宽控制单元。

步骤三：当数据进入位宽可控的批乘加计算模块时，权重通过基于混合精度的数据存储解析模块完成权重解析，乘加单元根据位宽控制单元的控制信号选择数据权重位宽，然后完成输入数据与权重的对应乘加计算操作，结果直接存储到寄存器阵列中。

步骤四：存储到寄存器阵列中的中间值经过非线性计算模块完成计算后，在控制模块的调度下选择存储到输出数据缓存模块或者返回寄存器阵列，再次进行非线性操作。直接访存存取直接从输出数据缓存模块读取深度神经网络计算的数据。

Claims

1.一种基于混合精度存储的深度神经网络加速器，其特征在于，包括：

索引缓存模块，用于存储训练好的权重、权重符号位以及权重位置索引参数霍夫曼编码，

输入数据缓存模块，用于存储输入数据，

缓存控制模块，用于生成索引缓存模块和输入数据缓存模块的读写地址，

霍夫曼解码器，对权重位置索引参数的霍夫曼编码进行双查找表的霍夫曼解码完成位置索引操作，输出权重位置索引参数至索引缓存模块，

位宽可控的批乘加计算模块，对从索引缓存模块读取的权重按照权值大小分配存储单元的数据位宽，不同位宽的存储单元存储有各权重的有效位、符号位、位置索引参数，根据位置索引参数对从输入数据缓存模块读取的输入数据进行位宽调整，对经位宽处理后的输入数据和混合存储的权重进行乘加计算，输出乘加计算结果，

寄存器阵列，用于缓存乘加计算结果，

非线性计算模块，对读取的乘加计算结果进行非线性计算，

输出数据缓存模块，用于缓存乘加计算结果或非线性计算结果，及，

控制模块，用于生成索引缓存模块的读写指令、输入数据缓存模块的读写指令、霍夫曼解码器的工作指令、位宽可控的批乘加计算模块的位宽控制指令、非线性计算结果存储的调度指令。

2.根据权利要求1所述一种基于混合精度存储的深度神经网络加速器，其特征在于，所述霍夫曼解码器包括：

触发器，在累加器输出的进位信号的使能下输出读取的权重位置索引参数的霍夫曼编码至桶形移位器，

桶形移位器，在累加器输出的累加信号的使能下，对读取的权重位置索引参数霍夫曼编码进行移位操作后输出，

选择单元，对桶形移位器输出的权重位置索引参数霍夫曼编码的高位数据进行检测，在权重位置索引参数霍夫曼编码的高位数据不全为1时输出第一查找表的使能信号及多路复用器输出第一查找表查表结果的选择信号，在权重位置索引参数霍夫曼编码的高位数据全部为1时输出第二查找表的使能信号及多路复用器输出第二查找表查表结果的选择信号，

第一查找表，存储有常用的权重位置索引参数的霍夫曼编码，在选择单元的使能下输出权重位置索引参数霍夫曼编码高位数据的码长和标志状态，

第二查找表，存储有剩余的权重位置索引参数的霍夫曼编码，在选择单元的使能下输出权重位置索引参数霍夫曼编码低位数据的码长和标志状态，

多路复用器，在选择单元的使能下输出第一查找表的查表结果或第二查找表的查表结果，及，

累加器，对多路复用器输出的码长进行累加，输出进位信号至触发器，输出累加信号至桶形移位器。

3.根据权利要求1所述一种基于混合精度存储的深度神经网络加速器，其特征在于，所述位宽可控的批乘加计算模块包括多个PE单元，每个PE单元包括：

FIFO，用于缓存从输入数据缓存模块读取的输入数据，

存储器，读取索引缓存模块缓存的权重，按照权值大小为每个权重分配存储有效位、符号位、位置索引参数单元的数据位宽，

数据解析模块，对存储器存储的数据进行解析获得权重，根据解析获得的位置索引参数生成位宽控制信号，及，

乘加单元，在位宽控制信号的作用下对从FIFO读取的输入数据进行位宽调整，对位宽调整后的输入数据和数据解析模块输出的权重进行批乘加运算。

4.根据权利要求1所述一种基于混合精度存储的深度神经网络加速器，其特征在于，根据位置索引参数对从输入数据缓存模块读取的输入数据进行位宽调整具体为：在位置索引参数表征权重为调用频率高且精度要求高的高比特权值时将输入数据调整为高位宽数据，在位置索引参数表征权重为调用频率低且精度要求低的低比特权值时将输入数据调整为低位宽数据。

5.根据权利要求4所述一种基于混合精度存储的深度神经网络加速器，其特征在于，所述乘法单元为对数乘法器。

6.一种基于混合精度存储的深度神经网络加速方法，其特征在于，对权重位置索引参数的霍夫曼编码进行双查找表的霍夫曼解码完成位置索引操作，对权重按照权值大小分配存储单元的数据位宽，不同位宽的存储单元存储有各权重的有效位、符号位、位置索引参数，根据位置索引参数对输入数据进行位宽调整，对经位宽处理后的输入数据和混合存储的权重进行乘加计算。

7.根据权利要求6所述一种基于混合精度存储的深度神经网络加速方法，其特征在于，所述权重位置索引参数通过Caffe平台或Tensorflow平台线下训练获取。

8.根据权利要求6所述一种基于混合精度存储的深度神经网络加速方法，其特征在于，对权重位置索引参数的霍夫曼编码进行双查找表的霍夫曼解码完成位置索引操作的方法为：对权重位置索引参数的霍夫曼编码进行移位操作，在权重位置索引参数霍夫曼编码的高位数据不全为1时查找常用权重位置索引参数的霍夫曼编码表获取权重位置索引参数霍夫曼编码高位数据的码长，在权重位置索引参数霍夫曼编码的高位数据全部为1时查找剩余权重位置索引参数的霍夫曼编码表获取权重位置索引参数霍夫曼编码低位数据的码长，对获取的码长进行累加，根据累加结果更新权重位置索引参数霍夫曼编码的移位操作。