CN108122031B

CN108122031B - 一种低功耗的神经网络加速器装置

Info

Publication number: CN108122031B
Application number: CN201711379852.6A
Authority: CN
Inventors: 钟宇清; 黄磊; 莫冬春; 杨常星
Original assignee: Hangzhou Nationalchip Science & Technology Co ltd
Current assignee: Hangzhou Guoxin Microelectronics Co.,Ltd.
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2020-12-15
Anticipated expiration: 2037-12-20
Also published as: CN108122031A

Abstract

本发明涉及一种低功耗的神经网络加速器架构。现有技术功耗高、启动慢，数据吞吐量大。本发明包括CPU、神经网络加速模块、只读存储模块、内部可读写随机存储器、外部可读写随机存储器、可读写非易失性存储器、电源管理模块、两个电源域。神经网络加速模块，用于对神经网络的命令进行硬件加速，并支持权重拆分和按结构拆分的神经网络；只读存储模块，用于存储固化的神经网络权重参数和结构参数；内部可读写随机存储器为SRAM，外部可读写随机存储器为DRAM；两个电源域分为高频开启电源域A和低频开启电源域B。本发明升级过程中不需要更换所有掩膜，只需要更改其中一层掩膜，大幅降低了升级成本。

Description

一种低功耗的神经网络加速器装置

技术领域

本发明属于神经网络算法技术领域，具体涉及一种低功耗的神经网络加速器装置。

背景技术

近些年来随着神经网络算法的研究不断深入，其准确率在很多应用场合超过了所有传统机器学习算法。神经网络算法逐渐开始取代传统算法，开始被部署到终端设备上面。但是由于神经网络算法虽然准确率表现很好，但是其计算量非常巨大，从而导致内存带宽和整体功耗消耗很大。终端设备往往是嵌入式设备，有些甚至是干电池供电，功耗要求很高，带宽也很窄。

为了解决这个矛盾现在的方案大多采用云端加终端的方案进行部署，即终端做采集和预处理，云端做神经网络计算，暂时解决了这个矛盾。但是这种方案有明显的缺陷，在于必须连接网络，这就导致了延时问题，断网问题，功耗问题和安全问题。延时问题指的是，对于一些识别问题实时性好坏直接影响用户体验，但是如果是联网的终端实时性在信号差的情况下无法保证。断网问题指的是，有时候无法连接网络则设备无法工作。功耗问题指的是，虽然神经网络计算的功耗是节省下来了，但是由于设备要保证实时响应，必须保持网络连接无法做到快速启动，从而无法彻底关断主芯片和内存电源，导致即使触发事件很少也无法实现1个月以上级别的待机。这种长时间待机的场景在物联网应用中普遍存在，除此之外儿童玩具领域也要求较高。安全问题指的是，很多场合神经网络识别的图像和声音是私人数据。这些数据即使通过简单映射和加密，也不能完全保证黑客无法截取和破解。离线识别是最安全的解决途径。

为了解决云端加终端方案的不足，近来有些公司推出了神经网络加速芯片。这些芯片的加速方式大多围绕对计算本地化。采用的技术一般是低比特量化，熵编码压缩，大规模矩阵运算加速。从而部分解决了本地算力不足和功耗过高的问题。但是对于物联网中要求的超低功耗还是无法解决。原因是虽然采用了压缩技术但是权重还是过大，每次运行时候都需要导入权重导致系统启动速度较慢，无法做到断电实时启动，从而无法实现长时间待机。此外其带宽需求虽然有所下降，但是对于低成本方案，带宽瓶颈还是非常明显。其内存访问功耗得到一定程度的改善，但也需要继续优化。

为了进一步的降低带宽，降低功耗和加快启动速度。我们提出了一种低功耗的神经网络加速芯片架构。使得带宽和功耗进一步降低，且大大加快启动速度，从而支持断电快速启动。同时由于神经网络算法升级较快，我们也提供了一定的算法升级空间。

发明内容

本发明的目的在于针对上述提到的对于神经网络加速芯片的要求，提供一种低功耗的神经网络加速器芯片装置。

为了实现上述目的，本发明的具体技术方案是：

包括CPU、神经网络加速模块、只读存储模块、内部可读写随机存储器、外部可读写随机存储器、可读写非易失性存储器、电源管理模块、两个电源域。

所述CPU即通用中央处理器，用于对芯片中各个子模块进行调度，并控制开关低频开启电源域B。

所述的神经网络加速模块，用于对神经网络的命令进行硬件加速，并支持权重拆分和按结构拆分的神经网络；

所述的只读存储模块，用于存储固化的神经网络权重参数和结构参数；

所述的内部可读写随机存储器为SRAM，用于缓存神经网络非固化部分的权重参数和结构参数、神经网络加速模块输入输出结果以及CPU的数据和程序；

所述的外部可读写随机存储器为DRAM，用于存储神经网络非固化部分的权重参数和结构参数、神经网络加速模块输入输出结果以及CPU的数据和程序；

所述的可读写非易失性存储器，用于存储非固化的神经网络权重参数和结构参数，CPU程序和数据；

所述的电源管理模块，用于管理芯片中多个电源域的电源开关状态；

所述的两个电源域，分为高频开启电源域A和低频开启电源域B。

所述的神经网络加速模块支持神经网络按层拆分，存放于内部可读写随机存储器、外部可读写随机存储器和只读存储模块，支持每层的权重按不同位拆分存储于内部可读写随机存储器、外部可读写随机存储器和只读存储模块中。

所述的只读存储模块为片内ROM，支持随机读取或顺序读取，但不支持直接写入更改，其访问功耗低于内部和外部可读写随机存储器，只读存储模块的面积小于内部可读写随机存储器，其访问带宽高于外部可读写随机存储器；部分或者全部神经网络的权重参数和结构参数存储到该只读存储模块上，支持对只读存储模块中神经网络权重参数和结构参数低成本的升级方法。

所述的低成本的升级方法包括：预留一定的只读存储模块的存储空间，用于升级更大的模型，只读存储模块的0和1配置节点在芯片版图设计时限制在一层掩膜内。只读存储模块的0和1在升级时不需要重新生产所有掩膜，而只需要更改其中一层掩膜，大幅降低了ROM中神经网络模型更换的成本，提供了一定的算法升级空间。

所述的内部可读写随机存储器，访问功耗高于、面积大于只读存储模块，访问带宽高于外部可读写随机存储器，存储的数据能够实时更改；缓存部分神经网络临时计算数据、部分非固化的权重参数和结构参数以及其他小数据量的各种数据。

所述的外部可读写随机存储器，访问功耗高于内部可读写随机存储器，访问带宽低于内部可读写随机存储器，存储容量大于内部可读写随机存储器和只读存储模块，存储的数据能够实时更改；存储全部神经网络临时计算数据、非固化的权重参数和结构参数以及其他各种数据。

所述的高频开启电源域A在芯片通电后开启，CPU、神经网络加速模块、只读存储模块、内部可读写随机存储器、电源管理模块工作在高频开启电源域A；所述的低频开启电源域B由CPU通过电源管理模块控制开启，外部可读写随机存储器和可读写非易失性存储器工作在低频开启电源域B。

所述的神经网络加速模块支持按层拆分和恢复神经网络结构参数，并支持按不同位拆分和恢复权重参数，拆分后的结构参数和权重参数存储于内部可读写随机存储器、外部可读写随机存储器和只读存储模块；权重参数的拆分方式包括直接回填方式和相加方式。

所述的按层拆分和恢复神经网络结构参数包括：采用链式结构把每一层连接起来，标明每层算法结构以及使用的权重地址和数据地址；对于固化的神经网络结构参数，该链式结构完整存储于只读存储模块，或部分存储于只读存储模块；对于非固化的神经网络结构参数，该链式结构完整存储于内部可读写随机存储器或外部可读写随机存储器中，或部分存储于内部可读写随机存储器或外部可读写随机存储器中。

所述的直接回填方式，按照设定的高低分割位将权重参数拆分为两部分，拆分后的权重参数分别存储于内部可读写随机存储器或外部可读写随机存储器和只读存储模块中，即高位存储于只读存储模块中，低位存储于内部可读写随机存储器或外部可读写随机存储器中。例如：一个16bit权重，值为0x1234，高8bit存储于固化区域，即0x12存储于固化区域，低8bit存储于非固化区域，即0x34存储于非固化区域。

所述的相加方式，设定的高分割位和低分割位，高分割位的位置高于低分割位；将高于低分割位的权重差值参数作为高权重差值参数，存储于只读存储模块中，将低于高分割位的权重差值参数作为低权重差值参数，存储于内部可读写随机存储器或外部可读写随机存储器中；恢复时，将高权重差值参数的低位补零，将低权重差值参数的高位补全，如果低权重差值参数的最高位为零则补零，如果低权重差值参数的最高位为1则补1；将补位后的高权重差值参数和低权重差值参数相加，恢复完成。例如：原始权重为0x1234，高8bit存储于固化区域，即0x12存储于固化区域，但我们想修正原始权重变为0x1334，这时候非固化区域存储低9bit差值数据正0x134，对固化权重进行修正。

存储于只读存储模块的权重参数和结构参数包含一个或多个完整的神经网络权重数据和结构参数，或包含一个或多个部分的神经网络权重数据和结构参数。把神经网络参数分为权重参数和结构参数两个部分，可以将一部分进行固化，其拆分的手段还可以是把一个权重数据按位进行拆分，把高位部分固化。

通常激活检测神经网络用于初删选，并采用规模较小的神经网络，全部固化于ROM中。其运行功耗最小，但运行次数较多。输入参数和临时数据存储于SRAM中。比如人脸检测神经网络，人声检测神经网络。在检测到人脸或者人声时，开启后续识别网络，而识别网络一般较为复杂，部分或全部存储于片外可读写非易失性存储器中，运行于DRAM中。其功耗较大，启动较慢。激活检测神经网络的结构参数和权重参数存储于只读存储模块可以大幅减少访问内部可读写随机存储器、外部可读写随机存储器的次数。

通用的特征提取网络一般指图像或者声音识别中的前级网络，这些网络通用性比较好，一般是提取一些通用的特征信息。这些网络一般采用较大的通用数据集进行训练，训练完成后可以通过神经网络迁移学习方式嫁接到新的应用场景中去。这种迁移学习的方法一般对特征网络的权重只进行微调，有时部分使用原始值。因此我们采用部分存储权重参数和结构参数到只读存储模块的方法，可以减小只读存储模块的存储空间大小，并且把权重微调后的微小差值部分存储于可读写非易失性存储器中，在运行神经网络算法时再加载到内部可读写随机存储器和外部可读写随机存储器中。这样可以节省访问外部可读写随机存储器带宽，降低访问功耗，提升神经网络算法的启动速度。

一般采用多电源域的管理方式。内部可读写随机存储器、只读存储模块、神经网络加速模块和CPU属于电源域A，外部可读写随机存储器和可读写非易失性存储器属于电源域B。由于激活检测需要，电源域A的开启频率高于电源域B，但电源域A的平均功耗将小于电源域B。

附图说明

图1是本发明一种低功耗的神经网络加速器架构示意图；

图2是本发明中的一种神经网络加速模块的结构示意图。

具体实施方式

为了使得本发明的目的和优点更加清楚明白，这里将对本发明的具体实施方法做进一步详细说明。需要指出，本实施方法仅仅用于解释本发明，并不限定本发明的实施场景。

如图1所示，一个较完整的一种低功耗神经网络加速方案，包括了神经网络加速模块10、CPU20、只读存储模块50、内部可读写随机存储器60、外部可读写随机存储器70，外部可读写非易失性存储器80，电源管理模块30，总线40以及两个电源域100和200。

神经网络加速模块10，用于对神经网络进行加速运算。其可以读取只读存储模块50，内部可读写随机存储器60和外部可读写随机存储器70中存储神的经网络结构参数和权重，并根据结构参数中的要求，从指定位置读取数据和权重进行指定的通用运算，如乘法，加法，激活，池化等；也可以进行指定的非通用操作。

神经网络加速模块10，还包含了如图2所示的神经网络结构解析模块11，神经网络计算加速模块12，权重和数据缓存单元13，神经网络权重恢复模块14。

神经网络结构解析模块11，负责解析神经网络的结构参数，并总控整个取数据以及计算流程。其可以支持对神经网络进行按层的拆分存储，支持访问只读存储模块50，内部可读写随机存储器60和外部可读写随机存储器70。

权重和数据缓存单元13，负责缓存原始权重和数据，以提高神经网络计算加速模块的数据权重访问速度，在计算完成后把结果数据写入到内部可读写随机存储器60和外部可读写随机存储器70中。

神经网络权重恢复模块14，负责读取固化和非固化的权重，其支持权重按直接回填方式和相加方式进行恢复。

CPU20，此模块就是中央处理器，负责运行应用代码，驱动程序等。CPU20控制神经网络加速模块10，电源管理模块30。

电源管理模块30，可由CPU20控制其开关低频开启电源域。

只读存储模块50为片内ROM，支持随机读取或顺序读取，但不支持直接写入更改，其访问功耗低于内部和外部可读写随机存储器70，只读存储模块50的面积小于内部可读写随机存储器60，其访问带宽高于外部可读写随机存储器70；部分或者全部神经网络的权重参数和结构参数存储到该只读存储模块50上，支持对只读存储模块50中神经网络权重参数和结构参数低成本的升级方法。预留一定的只读存储模块50的存储空间，用于升级更大的模型，只读存储模块50的0和1配置节点在芯片版图设计时限制在一层掩膜内。只读存储模块50的0和1在升级时不需要重新生产所有掩膜，而只需要更改其中一层掩膜，大幅降低了ROM中神经网络模型更换的成本，提供了一定的算法升级空间。

内部可读写随机存储器60为SRAM，访问功耗高于、面积大于只读存储模块50，访问带宽高于外部可读写随机存储器70，存储的数据能够实时更改。用于缓存神经网络非固化部分的权重参数和结构参数、神经网络加速模块10输入输出结果以及CPU20的数据和程序。

外部可读写随机存储器70为DRAM，访问功耗高于内部可读写随机存储器60，访问带宽低于内部可读写随机存储器60，存储容量大于内部可读写随机存储器60和只读存储模块50，存储的数据能够实时更改。用于存储神经网络非固化部分的权重参数和结构参数、神经网络加速模块10输入输出结果以及CPU20的数据和程序。

外部可读写非易失性存储器80用于存储非固化的神经网络权重参数和结构参数，CPU20程序和数据。其访问功耗较高。

电源域A100是高频开启电源域在芯片通电后开启。CPU20、神经网络加速模块10、只读存储模块50、内部可读写随机存储器60、电源管理模块30工作在高频开启电源域A100中。

电源域B200是低频开启电源域，由CPU20通过电源管理模块30控制开启。外部可读写随机存储器70和外部可读写非易失性存储器80工作在低频开启电源域B。

使用上述硬件模块进行一个低功耗的神经网络加速方案开发时，一般需要进行下面的步骤：

1.在芯片设计过程中，将激活检测神经网络以及特征提取神经网络存储于只读存储模块50。

2.在算法开发过程中，基于存储于只读存储模块50的特征提取神经网络进行迁移学习。基于存储于只读存储模块50的激活检测神经网络进行多级启动设计。

3.对于存储于只读存储模块50的激活检测神经网络，在完成激活检测之后，如果有持续激活检测需求可以继续调用固化激活神经网络用以节省带宽和功耗。

4.对于存储于只读存储模块50的特征提取网络，在算法开发完成之后生成权重差值参数或者权重回填参数以及结构参数。存储于外部可读写非易失性存储器80中。

5.对于普通非固化网络，在算法开发完成之后生成对应的权重数据和结构参数数据。把对应的权重参数和结构参数烧写到外部可读写非易失性存储器80中。

对于需要完全更新存储于只读存储模块50中的神经网络权重参数和结构参数时，需要根据实际芯片使用的只读存储模块50大小进行优化裁剪。通过上述低成本的只读存储模块50升级方法对芯片中存储的神经网络权重参数和结构参数进行升级。

Claims

1.一种低功耗的神经网络加速器装置，包括CPU、神经网络加速模块、只读存储模块、内部可读写随机存储器、外部可读写随机存储器、可读写非易失性存储器、电源管理模块、两个电源域；其特征在于：

所述CPU即通用中央处理器，用于对芯片中各个子模块进行调度，并控制开关低频开启电源域B；

所述的两个电源域，分为高频开启电源域A和低频开启电源域B；

所述的神经网络加速模块支持神经网络按层拆分，存放于内部可读写随机存储器、外部可读写随机存储器和只读存储模块，支持每层的权重按不同位拆分存储于内部可读写随机存储器、外部可读写随机存储器和只读存储模块中；

所述的只读存储模块为片内ROM，支持随机读取或顺序读取，但不支持直接写入更改，其访问功耗低于内部和外部可读写随机存储器，只读存储模块的面积小于内部可读写随机存储器，其访问带宽高于外部可读写随机存储器；部分或者全部神经网络的权重参数和结构参数存储到该只读存储模块上，支持对只读存储模块中神经网络权重参数和结构参数低成本的升级方法；

所述的低成本的升级方法包括：预留一定的只读存储模块的存储空间，用于升级更大的模型，只读存储模块的0和1配置节点在芯片版图设计时限制在一层掩膜内。

2.如权利要求1所述的一种低功耗的神经网络加速器装置，其特征在于：

所述的内部可读写随机存储器，访问功耗高于、面积大于只读存储模块，访问带宽高于外部可读写随机存储器，存储的数据能够实时更改；缓存部分神经网络临时计算数据、部分非固化的权重参数和结构参数以及其他小数据量的各种数据；

3.如权利要求1所述的一种低功耗的神经网络加速器装置，其特征在于：

4.如权利要求1所述的一种低功耗的神经网络加速器装置，其特征在于：

5.如权利要求4所述的一种低功耗的神经网络加速器装置，其特征在于：

6.如权利要求4所述的一种低功耗的神经网络加速器装置，其特征在于：

所述的直接回填方式，按照设定的高低分割位将权重参数拆分为两部分，拆分后的权重参数分别存储于内部可读写随机存储器或外部可读写随机存储器和只读存储模块中，即高位存储于只读存储模块中，低位存储于内部可读写随机存储器或外部可读写随机存储器中。

7.如权利要求4所述的一种低功耗的神经网络加速器装置，其特征在于：

所述的相加方式，设定的高分割位和低分割位，高分割位的位置高于低分割位；将高于低分割位的权重差值参数作为高权重差值参数，存储于只读存储模块中，将低于高分割位的权重差值参数作为低权重差值参数，存储于内部可读写随机存储器或外部可读写随机存储器中；恢复时，将高权重差值参数的低位补零，将低权重差值参数的高位补全，如果低权重差值参数的最高位为零则补零，如果低权重差值参数的最高位为1则补1；将补位后的高权重差值参数和低权重差值参数相加，恢复完成。

8.如权利要求1所述的一种低功耗的神经网络加速器装置，其特征在于：

存储于只读存储模块的权重参数和结构参数包含一个或多个完整的神经网络权重数据和结构参数，或包含一个或多个部分的神经网络权重数据和结构参数。