CN109635937B

CN109635937B - 一种面向低位宽卷积神经网络的低功耗系统

Info

Publication number: CN109635937B
Application number: CN201811646420.1A
Authority: CN
Inventors: 李丽; 陈沁雨; 傅玉祥; 何国强; 李伟; 程开丰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2023-07-11
Anticipated expiration: 2038-12-30
Also published as: CN109635937A

Abstract

本发明的面向低位宽卷积神经网络的低功耗系统包括：控制器、配置器、计算单元、片上存储单元、片上存储控制单元和总线接口；采用流处理架构，将总任务切分为几个子任务流水处理；发明了任务均衡切割策略，能提高吞吐率，减少每帧图像识别时间；其针对低位宽卷积神经网络算法特点，实现了一种硬件友好的算法优化，可省略批标准化层的处理步骤。该系统因其超低功耗，超小面积、吞吐率高的特点，非常适用于嵌入式、物联网应用领域，能够高效率完成图像识别、人脸识别等功能。

Description

一种面向低位宽卷积神经网络的低功耗系统

技术领域

本发明属于人工智能算法硬件加速领域，尤其涉及一种面向低位宽卷积神经网络的低功耗系统。

背景技术

卷积神经网络已被广泛应用于各种领域，包括图像识别，语音处理和自然语言处理。为了提高预测精度，卷积神经网络模型的结构越来越深。随之模型的参数数量也急剧增加，导致不可接受的功耗和延迟，这阻碍了诸如智能安全系统之类的嵌入式应用实现。这些问题引起了对卷积神经网络的算法和硬件设计的深入研究，以追求低功耗和高吞吐量。

就算法而言，一种方法是通过修剪冗余连接来压缩模型，从而产生稀疏的神经网络。然而，稀疏神经网络带来了额外的负载，例如霍夫曼编码和解码的过程。另一种更简单的方法是简单地训练低位宽CNN模型，每个权重和激活可以仅用几位表示，例如二值化网络或三值化网络。

近些年来针对这种低位宽网络的硬件设计越来越多，如何将算法映射到硬件计算单元上的方法主要分为三种，第一种是“一对多”，只用一种固定的计算单元，每层按顺序处理，这样逻辑简单但是资源利用率低，尤其是在处理全连接层时。第二种是“一对一”，根据每一层的大小单独优化设计其对应的计算单元，这样的设计逻辑复杂且无法应对网络的变化。基于以上的分析可知，这样的设计并不能很好地满足实际应用的需求。

发明内容

本发明的目的在于克服以上现有技术之不足，提供一种可以灵活支持多种卷积神经网络算法并且资源利用率高、吞吐率大、运行速度快、功耗低、面积小的面向低位宽卷积神经网络的低功耗系统，适用于嵌入式系统和物联网领域的应用实现，具体由以下技术方案实现：

所述面向低位宽卷积神经网络的低功耗系统，包括：控制器、配置器、计算单元、片上存储单元、片上存储控制单元和总线接口；控制器通过总线接口读入指令并对所述指令进行解码得到配置指令，再将配置指令传入配置器中，配置器根据配置指令重构数据通路，总线接口将数据通路中的数据传输到片上存储单元，计算单元从片上存储单元读取数据后进行计算，并将计算结果存回片上存储单元；片上存储控制单元控制片上存储单元和计算单元之间的交互。

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，所述计算单元，包括三个子计算单元分别为：两个用于处理卷积层的卷积层子计算单元和一个用于处理全连接层的全连接层子计算单元，每个子计算单元分别对应配置器中的特定配置信息单元，卷积子计算单元中包括阵列和激活量化池化单元，全连接子计算单元包括阵列和激活量化单元。

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，对于卷积层子计算单元，包括三种数据流动方式:

第一种数据流动方式:片间共享输入图像数据，使用不同卷积核；

第二种数据流动方式:片间共享卷积核；使用不同输入数据；

第三种为第一种数据流动方式与第二种数据流动方式的混合处理。

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，片上存储单元及片上存储控制单元分为数据和权重两个部分

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，卷积层子计算单元由4个片组成，每个片中由13行4列的低位宽计算单元组成；全连接层子计算单元由9个片组成，每个片只有1行4列的低位宽计算单元组成。

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，低位宽计算单元中包括：

一个查找表，用于查找算法优化后新的图像输入数据与卷积核权重的乘法结果；

一个加法器，用于累加乘法结果和新的偏置项；

一个计数器，用于控制有效信号的拉高或拉低。

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，所述查找表中存放着新乘法结果项；并通过配置的过程更新查找表存放的值，查找表中输出值时通过输入的数据和权重值来确定，查找表中输出值送入累加器，当由计数器和输入长度控制的输出有效信号拉高时，输出部分和作为最终的累加结果；查找表中存放的值的个数由具体输入数据和权重的位宽决定。

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，更新查找表的方式为通过阵列最右端流水传输到阵列最左端。

述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，该系统采用流处理架构，将一个总任务切割成几个子任务，分别交付不同的子计算单元处理，在此基础上采用任务均衡切割策略，使得每个子计算单元的处理时间几近相等。

所述面向低位宽卷积神经网络的低功耗系统的进一步设计在于，该系统采用了交织存储调度策略与所述流处理架构相适配，所述交织存储调度策略将片上数据存储单元分为两个层次：

帧级：存储体组0和存储体组1是从外部存储器交替地加载不同帧的输入特征图；所有偶数编号的存储单元组被配置为在一帧上收发数据，所有奇数编号的存储单元组支持另一帧；以此规律交替处理；

子计算单元级：每个计算单元对应于一组特定的存储单元组。

本发明的优点如下：

第一，具有异构计算单元的流处理架构可以有效地利用计算资源，尤其是可以解决很多加速器在处理全连接层时的资源利用率低的问题。

第二，提出了一种任务均衡切割策略，以最小化每个子计算单元的处理时间，提高吞吐量；此外，针对不同大小的卷积神经网络模型设计了三种数据流，可进一步提高吞吐量。

第三，该发明提出了一种硬件友好的算法，它将卷积层(或全连接层)和批量标准化层融合在一起；可以减少计算的冗余，降低功耗和面积开销。

第四，该发明设计了一种交织存储调度策略，能很好支持流处理架构流水执行图像识别的任务。

综上所述，本发明可以有效地提高低位宽卷积神经网络在实现硬件加速时的吞吐率和计算资源利用率；本发明面积小、功耗低，有着良好的实际应用价值，尤其是在嵌入式系统和物联网领域的应用中。

附图说明

图1为本发明的总体硬件架构示意图。

图2是本发明的异构计算单元示意图。

图3是本发明的数据流动方式示意图。

图4是本发明的算法优化示意图。

图5是本发明的最小计算单元示意图。

图6是本发明的交织存储调度策略的算法及示意图。

图7(a)是本发明与传统方案资源利用率的比较示意图；图7(b)是本发明与传统方案吞吐率的比较示意图。

具体实施方式

下面结合附图对本发明方案进行详细说明。

如图1，该实例的面向低位宽卷积神经网络的低功耗系统，主要由控制器、配置器、计算单元、片上存储单元、片上存储控制单元以及总线接口组成。配置器中包含三个配置单元，分别配置三个子计算单元的数据通路；片上存储及存储控制单元分为数据和权重两个部分；卷积子计算单元中包括阵列和激活量化池化单元，全连接子计算单元包括阵列和激活量化单元；指令通过总线接口传入到控制器中进行解码，解码后的配置指令读入配置器中，数据通路根据配置信息重构，数据由总线接口传输到片上存储单元，计算单元从片上存储单元读取数据后进行计算，结果存回片上存储单元，根据配置信息和控制信息决定是通过接口传输出片外或者留在片上存储单元；片上存储控制单元控制片上存储单元和计算单元之间的交互。

图2描述了卷积层子计算单元和全连接子计算单元的阵列部分；卷积层子计算单元由4个片组成，每个片中由13行4列的低位宽计算单元组成；全连接层子计算单元由9个片组成，每个片只有1行4列的低位宽计算单元组成；卷积层的数据处理更为密集，因此对应的硬件单元数量更多。

图3描绘了两种数据流动方式(DIOF和OIDF)；在DIOF数据流中，片间的图像输入数据是不同的(数据1-4)，而权重是相同的(均为核1-4)；在OIDF数据流中，片间的输入数据是相同的(均为数据1)，而权重是不同的，分别为卷积核1-4，卷积核5-8，卷积核9-12，卷积核13-16；这两种数据流分别适合卷积核少的卷积层和卷积核多的卷积层，当某卷积神经网络有的卷积层卷积核多，有的卷积层卷积核少，则适合混合使用DIOF和OIDF数据流。例如，AlexNet和VGG-16的网络属于每一层的卷积核都较多的类型，所以适合整个卷积都采用OIDF数据流；LeNet网络则比较适合采用Mixture数据流。令批标准化层的公式如下(合并同类项后)：

x_o＝px_i+q，

其中，x_i代表批标准化输入值，x_o代表批标准化输出值。

将其与卷积操作融合，如图4所示，可得一个新的乘法结果项和新的偏置项，其中M代表卷积核数量，C为通道数，H为输入图像的边长，E为输出图像的边长，R为卷积核的边长；因为本发明针对的是低位宽神经网络，乘法仅通过查找表的方式实现；所以融合卷积层和批处理层后所得到的新项可以通过配置信息的配置存入查找表，供直接读出，以此减少冗余计算。

如图5所示，低位宽计算单元(LPE)是该发明中的最小设计单元；该单元包含一个查找表(P-Table)，一个加法器，一个计数器以及若干寄存器；该单元支持跳零操作，遇到操作数有零的计算则跳过以降低功耗；P-Table中存放着一定数量的新乘法结果项；因为不同的网络有不同的新乘法结果项，可以通过配置的过程更新P-Table存放的值。P-Table中输出值时通过输入的数据和权重值确定，P-Table中输出值送入累加器，当由计数器和输入长度控制的输出有效信号拉高时，输出部分和作为最终的累加结果；P-Table中存放的值的个数由具体输入图像数据和权重的位宽决定，该发明中的某实例为2bit的图像数据和1bit的权重的网络，因此P-Table中有八个数据项。

如图6所示，为了保证无冲突数据访问，提高内存资源效率，本实施例提出了一种交织存储调度方案，将片上数据存储单元分为两个层次，分别为：

帧级：存储体组0和存储体组1从外部存储器交替地加载不同帧的输入特征图；这意味着所有偶数编号的存储单元组被配置为在一帧上收发数据，并且所有奇数编号的存储单元组支持另一帧；以此规律交替处理。

子计算单元级：每个计算单元对应于一组特定的存储单元组，例如，卷积层子计算单元0和卷积层子计算单元1分别连接到存储单元组0-3和存储单元组2-5，全连接层子计算单元0连接到存储单元组4-7。

该片上数据存储单元在CMOS 40nm的工艺下综合频率可达到800MHz，面积为0.17mm²，功耗100.1mW；以该加速器实现AlexNet为例，AlexNet包含五层卷积层，三层全连接层，通过任务均衡切割策略(CGTP)将卷积层分为两组，前两层卷积层为一组，后三层卷积层为另一组；全连接层独立为一组；分别映射在卷积层子计算单元0、1和全连接层子计算单元0上执行；执行时间分别为1.97ms、2.02ms、2.05ms，平均时间间隔取其最大的子单元执行时间，可得处理完一帧图像需要时间6.15ms，有效吞吐率为703.4GOp/s,资源利用率达到97.21％。

如图7(a)、图7(b)显示了本发明与传统方案相比的性能提升示意图，实验采用AlexNet、VGG-16、D-Net、S-Net四个典型卷积神经网络作为基准测试，分别就有无采用任务均衡切割策略以及三种不同的数据流动方式作为实验变量，可以观察到本发明可得到的最佳资源利用率和有效吞吐率相较传统方案提升了一倍。

本发明的技术方案采用流处理架构，将一个总任务切割成几个子任务，分别交付于不同的硬件计算单元处理。本实施例在此基础上采用任务均衡切割策略，减少流水处理停滞，使得每个子计算单元的处理时间几近相等，提高吞吐率。该策略以每一层的计算作为最小的任务分割颗粒，将网络中的卷积层分为两组，根据策略可以得到计算时间几近相当的两组卷积层，以此减少流水处理的停顿。

本实施例采用了一种交织存储调度策略；该策略用于支持本设计中的流处理架构和流水处理图像识别任务。将片上存储单元分为八组，分别编号。偶数和奇数编号的存储单元组分别处理不同帧的图像，子计算单元于存储单元并不是全互联的关系，而是有选择的连接；该策略可以很好支持流处理架构流水执行图像识别的任务。

本实施例针对卷积层子计算单元处理卷积层计算的过程，设计了三种数据流动方式，分别对应不同大小的卷积神经网络；第一种为片间共享输入图像数据，使用不同卷积核；第二种为片间共享卷积核；使用不同输入数据；第三种为前两种的混合处理。这三种数据流动方式分别适合每一层的卷积核都少的网络、每一层的卷积核都多的网络、卷积层的卷积核有多有少的网络。

本发明采用了一种硬件友好的算法优化，将同为线性操作的卷积层(或全连接层)和批处理层融合为一体，得到新的偏置项和乘法结果项。子计算单元中的低位宽计算单元是加速器中最小的计算单元，其包含一个寄存器组以及一个加法器，分别用于查找算法优化后新的乘法结果以及累加新的乘法结果和新的偏置项。

以上所述，仅是本发明的较佳实施例，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种面向低位宽卷积神经网络的低功耗系统，其特征在于：包括控制器、配置器、计算单元、片上存储单元、片上存储控制单元和总线接口；控制器通过总线接口读入指令并对所述指令进行解码得到配置指令，再将配置指令传入配置器中，配置器根据配置指令重构数据通路，总线接口将数据通路中的数据传输到片上存储单元，计算单元从片上存储单元读取数据后进行计算，并将计算结果存回片上存储单元；片上存储控制单元控制片上存储单元和计算单元之间的交互；所述计算单元，包括三个子计算单元分别为：两个用于处理卷积层的卷积层子计算单元和一个用于处理全连接层的全连接层子计算单元，每个子计算单元分别对应配置器中的特定配置信息单元，卷积子计算单元中包括阵列和激活量化池化单元，全连接子计算单元包括阵列和激活量化单元。

2.根据权利要求1所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：对于卷积层子计算单元，包括三种数据流动方式:

第二种数据流动方式:片间共享卷积核；使用不同输入数据；

3.根据权利要求1所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：片上存储单元及片上存储控制单元分为数据和权重两个部分。

4.根据权利要求3所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：卷积层子计算单元由4个片组成，每个片中由13行4列的低位宽计算单元组成；全连接层子计算单元由9个片组成，每个片只有1行4列的低位宽计算单元组成。

5.根据权利要求4所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：低位宽计算单元中包括：

一个加法器，用于累加乘法结果和新的偏置项；

一个计数器，用于控制有效信号的拉高或拉低。

6.根据权利要求5所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：所述查找表中存放着新乘法结果项；并通过配置的过程更新查找表存放的值，查找表中输出值时通过输入的数据和权重值确定，查找表中输出值送入累加器，当由计数器和输入长度控制的输出有效信号拉高时，输出部分和作为最终的累加结果；查找表中存放的值的个数由具体输入数据和权重的位宽决定。

7.根据权利要求6所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：更新查找表的方式为通过阵列最右端流水传输到阵列最左端。

8.根据权利要求1所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：该系统采用流处理架构，将一个总任务切割成几个子任务，分别交付不同的子计算单元处理，在此基础上采用任务均衡切割策略，使得每个子计算单元的处理时间几近相等。

9.根据权利要求1所述的面向低位宽卷积神经网络的低功耗系统，其特征在于：该系统采用了交织存储调度策略与流处理架构相适配，所述交织存储调度策略将片上数据存储单元分为两个层次：

帧级：存储体组0和存储体组1从外部存储器交替地加载不同帧的输入特征图；所有偶数编号的存储单元组被配置为在一帧上收发数据，所有奇数编号的存储单元组支持另一帧；以此规律交替处理；