CN109685208B

CN109685208B - 一种用于神经网络处理器数据稀梳化加速的方法及装置

Info

Publication number: CN109685208B
Application number: CN201811582787.1A
Authority: CN
Inventors: 翟云
Original assignee: Hefei Ingenic Technology Co ltd
Current assignee: Hefei Ingenic Technology Co ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2023-03-24
Anticipated expiration: 2038-12-24
Also published as: CN109685208A

Abstract

本发明公开了一种用于神经网络处理器数据稀梳化加速的方法及装置，首先RAM的读地址寄存器根据当前卷积的基本信息从FFR和WFR中分别读出对应的flag并根据计算的进程完成相应的自我更新；从FFR和WFR中读出的flag被存入RAM读出数据寄存器中；步骤3：RAM读出数据寄存器被送入FD，FD结合两边的flag产生出RAM的读地址寄存器；步骤4：根据RAM的读地址寄存器分别从FDR和WDR中读出相应的feature数据，并存入RAM读出数据寄存器；步骤5：RAM读出数据寄存器被送入PE，完成相应的乘累加操作。本发明的计算量、FDR和WDR的读取次数相对现有技术均减少了，有效的降低了功耗。

Description

一种用于神经网络处理器数据稀梳化加速的方法及装置

技术领域

本发明涉及神经网络技术领域，尤其涉及一种用于神经网络处理器数据稀梳化加速的方法及装置。

背景技术

神经网络：(Neural Network)，是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点(或称神经元) 之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数 (activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

为深度神经网络的一般结构虽然在人工智能领域取得了瞩目的成果，但数据量巨大，大量的参数如权重和bias数据，大量的中间隐层如feature map数据，像VGG16的参数量达到了138M个。如此巨大的数据量和运算量给AI芯片特别是端级AI芯片的设计带来了巨大的挑战，为此业界有提出了“剪枝”的方法，用来减少神经网络的参数量，韩松的deepcompression中提到了pruning策略示意图:通过pruning可以将一些为0的权重和featuremap去除，从来使得权重数据和feature map数据都拥有巨大的稀疏性。虽然神经网络权重数据和 feature map数据都拥有巨大的稀疏性，但对硬件设计来说，如何从功耗和性能的角度获得收益才是关键，显然现有技术并未很好的做好这一点。

发明内容

本发明所要解决的技术问题在于克服以上现有技术提出的缺陷，提供了一种用于神经网络处理器数据稀梳化加速的方法及装置。

本发明是通过以下技术方案实现的：一种用于神经网络处理器数据稀梳化加速的方法，其特征在于，该方法包括以下步骤：

步骤1：首先RAM的读地址寄存器ffr_raddr和RAM的读地址寄存器 wfr_raddr根据当前卷积的基本信息从FFR和WFR中分别读出对应的flag并根据计算的进程完成相应的自我更新；

步骤2：从FFR和WFR中读出的flag被存入RAM读出数据寄存器ffr_rdata 和RAM读出数据寄存器wfr_rdata中；

步骤3：RAM读出数据寄存器ffr_rdata和RAM读出数据寄存器wfr_rdata 被送入FD，FD结合两边的flag产生出RAM的读地址寄存器fdr_raddr和RAM 的读地址寄存器wdr_raddr；

步骤4：根据RAM的读地址寄存器fdr_raddr和RAM的读地址寄存器 wdr_raddr分别从FDR和WDR中读出相应的feature数据，并存入RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata；

步骤5：RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata 被送入PE，完成相应的乘累加操作。

作为本发明的优选方式之一，所述FDR的存储方式为：

；所述FFR的存储方式为：

；FDR存储feature map的数据本身，按水平方向光栅扫描的顺序存储，每个 entry存储一个feature值，FFR存储feature map的flag值，每个entry 8 个bit对应8个值，1表示非0，0表示为0。

作为本发明的优选方式之一，所述WDR的存储方式为：

；所述WFR的存储方式为：

；WFR的index 0对应L2，K2，M1，L1，K1，M0，L0，K0的flag(高位对应L2，低位对应K0)Index 1对应M2，高位7bit补0。

作为本发明的优选方式之一，所述FDR和WDR的读地址产生过程分别是： fdr_raddr:0(a0)->2(a2)->10(b2)；Wdr_raddr:0(K0)->6(K2)->7(L2)。

本发明还公开了一种用于神经网络处理器数据稀梳化加速的装置，包括以下模块：

数据更新模块：用于对RAM的读地址寄存器ffr_raddr和RAM的读地址寄存器wfr_raddr根据当前卷积的基本信息从FFR和WFR中分别读出对应的flag 并根据计算的进程完成相应的自我更新；

标记模块：用于从FFR和WFR中读出的flag被存入RAM读出数据寄存器 ffr_rdata和RAM读出数据寄存器wfr_rdata中；

读取地址模块：用于RAM读出数据寄存器ffr_rdata和RAM读出数据寄存器wfr_rdata被送入FD，FD结合两边的flag产生出RAM的读地址寄存器 fdr_raddr和RAM的读地址寄存器wdr_raddr；

特征存储模块：用于根据RAM的读地址寄存器fdr_raddr和RAM的读地址寄存器wdr_raddr分别从FDR和WDR中读出相应的feature数据，并存入RAM 读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata；

输出模块：用于RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器 wdr_rdata被送入PE，完成相应的乘累加操作。

本发明相比现有技术的优点在于：本发明的计算量、FDR和WDR的读取次数相对现有技术均减少了，有效的降低了功耗，另外卷积的计算过程因为稀疏性的数据跳过也被加速了。

附图说明

图1是本发明的卷积神经网络流程图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

为了便于理解，本发明以3x3卷积核为例：

input feature map(灰块值为0)

kernel(权重数据，灰块值为0)

普通情况下映射到计算单元的输入：

考虑稀疏性后映射到计算单元的输入：

；input feature map与weight parameter按kernel拉成一维输入，上例中sparsity直接略过，最终3个cycle完成一个3x3卷积核的所有乘法计算(若不略过则需要3x3＝9次乘累加运算)。

基于以上设计思路原理：如图1所示：本发明一种用于神经网络处理器数据稀梳化加速的方法，该方法包括以下步骤：

步骤1：首先RAM的读地址寄存器ffr_raddr和RAM的读地址寄存器 wfr_raddr根据当前卷积的基本信息从FFR和WFR(Weight Flag RAM)中分别读出对应的flag并根据计算的进程完成相应的自我更新；所述FFR的存储方式为：

所述WFR的存储方式为：

FFR存储feature map的flag值，每个entry 8个bit对应8个值，1表示非0，0表示为0；WFR的index 0对应L2，K2，M1，L1，K1，M0，L0， K0的flag(高位对应L2，低位对应K0)Index1对应M2，高位7bit补0；

步骤3：RAM读出数据寄存器ffr_rdata和RAM读出数据寄存器wfr_rdata 被送入FD(flag decoding)，FD结合两边的flag产生出RAM的读地址寄存器 fdr_raddr和RAM的读地址寄存器wdr_raddr(根据两边的flag显然可以计算出下一个有效的FDR和WDR读取位置)；

步骤4：根据RAM的读地址寄存器fdr_raddr和RAM的读地址寄存器wdr_raddr分别从FDR和WDR(Weight Data RAM)中读出相应的feature数据，并存入RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata；

所述FDR的存储方式为：

；FDR存储feature map的数据本身，按水平方向光栅扫描的顺序存储，每个 entry存储一个feature值。

所述WDR的存储方式为：

步骤5：RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata 被送入PE(计算单元)，完成相应的乘累加操作；

上述步骤过程不断按流水推进，直到所有的卷积计算完成，卷积窗口不断划动，重复上述过程即可。

为便于理解，作为本发明的优选方式之一，上例中FDR和WDR的读地址产生过程分别是：

fdr_raddr:0(a0)->2(a2)->10(b2)

(注：虽然b1非0，但对应位置的权重flag为0,所以被略过)

Wdr_raddr:0(K0)->6(K2)->7(L2)

(注：同样M0,M1,M2非0，但对应位置的feature为0,所以被略过)

根据上面的过程可以看出计算量、FDR和WDR的读取次数均减少了，这可以有效降低功耗；同样，卷积的计算过程因为稀疏性的数据跳过也被加速了。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于神经网络处理器数据稀梳化加速的方法，其特征在于，该方法包括以下步骤：

步骤1：首先RAM的读地址寄存器ffr_raddr和RAM的读地址寄存器wfr_raddr根据当前卷积的基本信息从FFR和WFR中分别读出对应的flag并根据计算的进程完成相应的自我更新；

步骤2：从FFR和WFR中读出的flag被存入RAM读出数据寄存器ffr_rdata和RAM读出数据寄存器wfr_rdata中；

步骤3：RAM读出数据寄存器ffr_rdata和RAM读出数据寄存器wfr_rdata被送入FD，FD结合两边的flag产生出RAM的读地址寄存器fdr_raddr和RAM的读地址寄存器wdr_raddr；

步骤4：根据RAM的读地址寄存器fdr_raddr和RAM的读地址寄存器wdr_raddr分别从FDR和WDR中读出相应的feature数据，并存入RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata；

步骤5：RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata被送入PE，完成相应的乘累加操作。

2.根据权利要求1所述的用于神经网络处理器数据稀梳化加速的方法，其特征在于，

所述FDR的存储方式为：

；所述FFR的存储方式为：

；FDR存储feature map的数据本身，按水平方向光栅扫描的顺序存储，每个entry存储一个feature值，FFR存储feature map的flag值，每个entry 8个bit对应8个值，1表示非0，0表示为0。

3.根据权利要求1所述的用于神经网络处理器数据稀梳化加速的方法，其特征在于，

所述WDR的存储方式为：

；所述WFR的存储方式为：

；WFR的index 0对应L2，K2，M1，L1，K1，M0，L0，K0的flag,高位对应L2，低位对应K0；WFR的Index 1对应M2，高位7bit补0。

4.根据权利要求2或3所述的用于神经网络处理器数据稀梳化加速的方法，其特征在于，所述FDR和WDR的读地址产生过程分别是：fdr_raddr:0(a0)->2(a2)->10(b2)；Wdr_raddr:0(K0)->6(K2)->7(L2)。

5.一种根据权利要求1-4任一所述的用于神经网络处理器数据稀梳化加速的方法的装置，其特征在于，包括以下模块：

数据更新模块：用于对RAM的读地址寄存器ffr_raddr和RAM的读地址寄存器wfr_raddr根据当前卷积的基本信息从FFR和WFR中分别读出对应的flag并根据计算的进程完成相应的自我更新；

标记模块：用于从FFR和WFR中读出的flag被存入RAM读出数据寄存器ffr_rdata和RAM读出数据寄存器wfr_rdata中；

读取地址模块：用于RAM读出数据寄存器ffr_rdata和RAM读出数据寄存器wfr_rdata被送入FD，FD结合两边的flag产生出RAM的读地址寄存器fdr_raddr和RAM的读地址寄存器wdr_raddr；

特征存储模块：用于根据RAM的读地址寄存器fdr_raddr和RAM的读地址寄存器wdr_raddr分别从FDR和WDR中读出相应的feature数据，并存入RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata；

输出模块：用于RAM读出数据寄存器fdr_rdata和RAM读出数据寄存器wdr_rdata被送入PE，完成相应的乘累加操作。