CN111191775A

CN111191775A - 一种“三明治”结构的加速卷积神经网络的存储器

Info

Publication number: CN111191775A
Application number: CN201811356332.8A
Authority: CN
Inventors: 王镇
Original assignee: Nanjing Bosin Electronic Technology Co Ltd
Current assignee: Nanjing Bosin Electronic Technology Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2020-05-22
Anticipated expiration: 2038-11-15
Also published as: CN111191775B

Abstract

本发明公开了一种“三明治”结构的加速卷积神经网络的存储器，属于专用集成电路设计、和人工智能技术领域。该设计加速人工智能运算，与传统的用于神经网络加速器相比，采用了数据(特征值和权重)存储‑计算一体化的“三明治”结构，通过减少访问存储器的次数来有效降低芯片整体的功耗，提高能量效率。同时，采用可配置脉宽调制的模拟计算单元阵列完成卷积神经网络(CNN)中卷积运算的乘累加操作，进一步降低芯片功耗和减少芯片面积。核心设计包括：卷积计算阵列“三明治”结构(Sandwich‑RAM)设计、基于脉宽调制的模拟计算单元(Pulse Width Modulation Unit,PWMU)、延时敏感的控制电压产生电路(Delay Sensitive Control Voltage Generator,DSCVG)、可配置的脉冲产生电路(Pulse Generator)和复制计算单元的脉宽量化电路(Pulse Quantizer by Replica Cell,PQRC)。

Description

一种“三明治”结构的加速卷积神经网络的存储器

技术领域

本发明公开了一种“三明治”结构的加速卷积神经网络的存储器，属于专用集成电路设计技术领域。

背景技术

卷积神经网络（Convolutional Neural Network，CNN）已经成为机器学习的一项重要技术，在模式识别及其相关各种领域都取得了突破性的成果。在深度学习网络的实现中，大量的运算会消耗过多的能耗与硬件资源。因此，通过设计专用CNN专用硬件加速器来提高能效，将是未来人工智能的关键，也将成为未来产业界与学术界研究的热点。

经过十多年的参数经验积累和高速发展，大量文献证实CNN在图像分类领域拥有较好的准确率，但是，由于CNN中依旧涉及大量参数的访问和调用，使其很难在物联网(IoT)上做低功耗相关的嵌入式应用。最近，基于二值化权重网络(Binary Weight Network，BWN)的发展有效降低了CNN的计算复杂度。传统的CNN硬件架构是由相互独立的特征和权重存储器 (Memory)以及用于卷积计算的乘累加单元(MAC)构成，使完整CNN计算伴随有大量的数据读写操作。为了降低相关功耗，结合CNN的计算模式，提出了将计算单元嵌入在存储器中的方案，这被称为存储内计算的架构。但已经报道的存储内计算的架构依然存在不足，就BWN而言，计算过程中仍存在大量特征数据的存储器读写操作。

发明内容

本发明的发明目的是针对上述背景技术的不足，以高能效、低功耗为目标，提出了一种全新的计算模式和存储架构：、“三明治”结构的加速卷积神经网络的存储器。本发明将存有部分特征和权重的存储单元与卷积计算单元嵌入在一起形成一种类似“三明治”的结构来最小化数据的读取操作。本发明设计了一种嵌入存储器内部的，小巧而又灵活的基于脉宽调制的模拟计算单元。可配置的脉冲产生电路为上述计算单元生成标准的输入脉冲信号，一种延时敏感的控制电压产生电路生成用于脉宽调制的精准电压。脉宽调制的过程，就是卷积计算单元乘累加的过程，最终输出的脉冲信号由一种复制计算单元的脉宽量化电路量化处理，得到卷积计算的结果。

本发明为实现上述发明目的采用如下技术方案：

一种“三明治”结构的加速卷积神经网络的存储器，其核心设计包括：卷积计算阵列“三明治”结构(Sandwich-RAM)设计、基于脉宽调制的模拟计算单元(Pulse Width ModulationUnit, PWMU)、延时敏感的控制电压产生电路(Delay Sensitive Control VoltageGenerator, DSCVG)、可配置的脉冲产生电路(Pulse Generator)和复制计算单元的脉宽量化电路(Pulse Quantizer by Replica Cell, PQRC)；

卷积计算阵列“三明治”结构(Sandwich-RAM)，每个PWMU单元都和多组权重值（Weight）及特征值(Feature)的寄存器组紧密相连形成计算子单元，形如Features-PWMU-Weights的“三明治”结构。卷积计算阵列“三明治”结构由多个计算子单元构成，外围电路包括控制器、权重Weights预处理单元、特征Features载入单元、延时敏感的控制电压产生电路、可配置的脉冲产生电路、复制计算单元的脉宽量化电路。

基于脉宽调制的模拟计算单元(PWMU)，主要结构包括两个级联的脉冲计算单元(Delay Chain)和一个控制单元。控制单元控制计算累加类型。脉冲计算单元类似于反相器电路，根据特征输入数据，经过2-4译码器选择不同的参考电压(V_REF)控制下拉(放电)电路中NMOS的栅电压，进而调制输入标准脉冲 (加法使脉宽变宽，减法使脉宽变窄)，已调制的脉冲作为输入再传递到下一级的脉冲计算单元继续计算(脉宽调制)，脉冲宽度的变化经过一级级累加后，最后在脉宽量化电路(PQRC)中量化。

延时敏感的控制电压产生电路(DSCVG)，类似于DLDO原理，为PWMU中的脉冲计算单元提供额外的三组V_REF。电路由两组延时链、一组移位寄存器和对应数量的PMOS、另一组移位寄存器和对应数量的NMOS构成。采用反馈结构，实时动态调整V_REF。从而保证计算单元能够在这三个V_REF控制下，计算结果不会因为PVT的波动导致严重非线性偏差，可配置脉冲的产生电路，产生用于PWMU输入的标准脉冲。通过复制Delay Chain中相同的延时单元组成环形振荡器，经分频电路和使能信号产生脉宽合适的脉冲。

复制计算单元的脉宽量化电路(PQRC),用于量化脉冲宽度，实现模拟到数字的转化，电路由C²MOS采样寄存器、压缩加法器树、累加电路和产生采样时钟的压控振荡器(VCO)组成，该VCO中的延时单元电路与脉冲计算中单元相同，不同的是V_REF用电源电压VDD代替。

图1展示的是“三明治”结构的加速卷积神经网络的存储器的整体架构图，控制器(Controller)用于配置和监控Sandwich-RAM的计算模式和工作状态，权重预处理单元(Weights Pre-processing Unit)用于预处理权重数据以降低计算复杂度，后处理单元(Post-Processing Unit)包含累加存储器(Accumulation Memory)以及卷积神经网络中常用的数据处理层电路(Pooling、ReLu和Batch Normal), 累加存储器将每一行计算后的脉冲量化结果累加得到卷积运算结果(28行并行计算)。本发明所设计的“三明治”结构的加速卷积神经网络的存储器有两种工作模式：传统的SRAM模式和卷积计算Computing-SRAM模式。Sandwich-RAM包含28*112个处理块，每个处理块由用于存储部分特征数据、用于存储权重数据的移位寄存器组以及PWMU组成，其中SRAM共享脉冲计算单元，每次计算使用一个特征数据，同时，权重在计算过程中通过移位寄存器更新直到存储器中的特征值完成所有卷积操作。

传统存储内计算架构的计算模式是固定的，只能固定一行行或一列列的作计算，在卷积核(kernel)的大小发生变化时(CNN中不同卷积层的卷积核一般不同)，卷积计算效率会变低。本发明提出的Sandwich-RAM的卷积计算可以依据不同的网络层大小配置成三种模式：大窗口（Large-Window）模式、中窗口（Medium-Window）模式和小窗口（Small-Window）模式；Large-Window模式工作在大尺寸卷积核的卷积层，Medium-Window模式工作中等大小卷积核的卷积层，Large-Window模式工作在小卷积核的卷积层。这三种模式的划分有效提高了Sandwich-RAM的计算效率。控制器将输入的3维的特征值拆分成若干个2维的特征值，每次芯片内存储器预存储特征值并借助Sandwich-RAM完成卷积操作。

本发明采用上述技术方案，具有以下有益效果：

(1)在Sandwich-RAM架构下，最小化访问存储单元的次数，显著降低芯片功耗和提升能量效率；同时Sandwich-RAM的灵活性使系统应用范围更广。

(2)采用PWMU完成CNN的卷积操作，有效降低芯片面积和功耗，提高计算效率。

(3)通过DSCVG和PQRC显著减小了PVT对模拟计算结果的影响，提高了模拟计算精度。

附图说明

图1为本发明“三明治”结构的加速卷积神经网络的存储器的结构框图。

图2为本发明8位的脉宽调制的模拟计算单元的电路图。

图3为本发明基于脉宽调制的模拟计算单元的脉宽调制功能波形图。

图4为本发明延时敏感的控制电压产生电路图。

图5为本发明延时敏感的控制电压产生电路的时序波形图。

图6为本发明复制计算单元的脉宽量化电路图。

图7为本发明可配置脉冲的产生电路图。

图8为本发明存储器的总体结构框图

具体实施方式

下面结合附图详细说明技术方案。

本发明“三明治”结构的加速卷积神经网络的存储器的结构框图如图1所示，可配置的脉冲产生电路生成的标准脉冲信号从左边输入，在每个PWMU中被调制，再经过右边的PQRC量化后输出。Sandwich-RAM阵列的28行可以并行计算，每一行共用一段标准输入脉冲，累加存储器将28行的量化结果进行累加，之后对累加的数据通过Pooling、ReLu和BatchNormal操作，最后输出作为下一卷积层的输入，就这样一层接一层的计算，直到完成神经网络中所有的卷积计算。

基于脉宽调制的模拟计算单元(PWMU)的内部电路图如图2所示。PWMU有三条计算路径以实现不同的计算类型：加法路径(Add Path)、减法路径(Subtract Path)和旁路路径(Bypass Path)。每次计算选择其一，三条计算路径的选择由权重数据Weight(2bit)数值确定。本发明的应用是BWN神经网络，也就是权重固定为二值“+1”和“-1”，在实际电路中用W1表示Bypass标志位，W0表示“+1”和“-1”。与Weight相乘的另一个输入参数是表征图片特征值的Feature，PWMU中一个脉冲计算单元完成Feature数据其中2bit位的运算，所以对8bitFeature的处理是将其拆分为高低4位，高低4位借助两个级联的PWMU完成运算，每个PWMU中包含两个级联的脉冲计算单元，做这样的划分，旨在加大脉宽梯度变化范围和减小误差波动，有利于结合神经网络容错性，将能效作进一步的提升和处理。

图3展示的是PWMU的脉宽调制波形图， Negative的脉冲(左边)表示的是减法计算，Positive的脉冲(右边)表示的是加法计算。PWMU中的计算通过控制脉冲计算单元下拉电路的放电速度来表征，所以计算对输入脉冲的下降沿敏感。在做减法计算时，输入信号(D1_in)经过低两位脉冲计算单元1的第一个的计算反相器，信号反向，下降沿下降时间变长，再经过脉冲计算单元1的第二个反相器，信号反向，这个反相器是比较理想的反相器，不会过多的影响信号的上升下降时间。然后信号经过高两位脉冲计算单元2的计算，同脉冲计算单元1的计算原理一样。这样输出(D1_out)就是进行减法的计算结果，计算值体现在脉宽的变窄程度上。进行加法与做减法操作略微不同，因为计算单元只能对输入的下升沿计算，加法是脉宽展宽的过程，因此要对输入脉冲的第二个边沿做计算，所以加法是首先将输入信号反向，然后再对其(D2_in)做计算，此时脉冲计算单元1和脉冲计算单元2就会进行与之前减法一样类似的计算，最后输出(D2_out)就是进行加法的计算结果，计算值体现在脉宽的变宽程度上。在输出之前，还要经过一个反相器对脉冲信号进行反向，这样输入和输出脉冲就同相，以便下面进行连续的计算。

PWMU中2个级联脉冲计算单元：前一个脉冲计算单元表示低两位的计算，后面一个脉冲计算单元表示高两位的计算，利用增加负载，使后一个单元的放电时间更慢，延时更长，从而实现更高位权重的计算效果。如图2下图所示，对于脉冲计算单元1，输入脉冲在IN端输入，由X0，X1控制的2-4译码器选择V_REF [0-3]中的一个作为NMOS放电栅极的输入电压，来控制NMOS的放电，输出将作为脉冲计算单元2的输入进行更高位的X2，X3的计算。对于X2，X3高位的计算权重主要体现在负载电容上，调节负载，相同的X0，X1，X2，X3输入，脉冲计算单元2放电后脉宽的变化是脉冲计算单元1的4倍，以此达到高位和低位的区别。

脉冲脉宽的变化波形见图3下图，对于不同的输入值Feature，输入脉冲被调制后的宽度不一样，对于输入是正的情况，Feature值越大，脉冲越宽，对于负的情况，Feature值越大，脉宽越窄。一个PWMU中2个脉冲计算单元总共有4bit输入，计算结果有16种，对应16种不同的脉宽。具体来说，做加法的时候，脉冲宽度是变宽的，因此脉冲变化宽度方向是箭头方向，向右逐渐变宽，每一级的脉冲变化是10ps。做减法的时候，脉冲宽度是变窄的，因此脉冲变化宽度方向是箭头方向向左，向左逐渐变窄，每一级脉冲变化也是10ps。脉冲展宽和变窄的两种变化，是PWMU实现加减法的基本思想，脉冲展宽和变窄的级数变化，则是PWMU实现乘法的基本思想。

PWMU的计算过程中，特征控制着反相器的放电速度和延时，对于TSMC 28nm CMOS工艺，标称电压0.9V，以此电压(V0)控制脉冲计算单元的NMOS的放电速度作为参考基准，产生比此放电速度慢两倍、三倍和四倍的所对应的电压(V1,V2,V3)，为此设计了延时敏感的控制电压产生电路(DSCVG)，提供上述三组不同大小的、用于脉宽调制的精准电压V_REF。DSCVG的电路图如图4所示，电路由2组延时链、一组移位寄存器和对应数量的PMOS、另一组移位寄存器和对应数量的NMOS构成，延时链2中延时单元的数量为延时链1中演示单元的K(K=2，3，4)倍。采用反馈结构，实时动态调整三组V_REF。图5是DSCVG的时序波形图，在开始状态，输出电压V_REF预充电至高电平，此时延时链1中单元的延时等于延时链2中单元的延时，使能信号ENABLE的脉宽是由延时链长度决定的，因为延时链2比延时链1长，所以信号ENABLE2的脉宽大于信号ENABLE1脉宽。将ENABLE信号接入移位寄存器的异步复位端，即在高电平时，移位寄存器移位操作。第一个移位寄存器的数据端D始终接入高电平VDD，就可用ENABLE的脉宽，来控制数据“1”写入的个数，也就是控制移位寄存器输出“1”的个数，移位次数越多，开启的NMOS或PMOS的数目越多。此时，使能信号ENABLE2脉宽越宽，寄存器输出1的数量更多，所以导通的NMOS的数量比PMOS导通的数量更多，NMOS开关控制的放电电流比由PMOS开关控制的充电电流大，V_REF电压值开始下降。由于反馈的存在，当V_REF小于VDD，延时链1的延时增加，ENABLE1脉宽的宽度增加，这增加了到V_REF的充电电流，又由于充电电流的增加导致V_REF增加，在这个动态调节的过程中，当ENABLE1脉宽的宽度等于ENABLE2脉宽的宽度时，V_REF的充电电流等于放电电流，参考电压V_REF便达到稳定值。理论上，这种电路结构不需要为V_REF提供电流补充，所以耗电量可以忽略不计。

图6是复制计算单元的脉宽量化电路(PQRC)的电路图，电路由C²MOS采样寄存器、压缩加法器树、累加电路和产生采样时钟的压控振荡器(VCO)组成。为对抗PVT波动，保证PQRC的采样时钟在不同的PVT下也能对PWMU的输出完成采样，该VCO中的延时单元电路与PWMU内脉冲计算单元相同，所不同的是V_REF统一连接到电源电压。

图7是可配置脉冲的产生电路图，同样，为对抗PVT波动，标准输入脉冲产生电路中的延时单元与PWMU内脉冲计算单元相同。在延时单元的数量上，以大型神经网络AlexNet为例考虑最大的卷积核11*11，所以选取12个延时单元。在图7中，12个延时单元构成环形振荡器，该环形振荡器由一个使能信号控制，输出的CK信号经过分频电路，输出脉冲后，直接将环形振荡器的回路切断，输出电平停止跳变，这样就产生了一个脉冲。

Claims

1.一种“三明治”结构的加速卷积神经网络的存储器，其特征在于，包括：存内卷积计算阵列“三明治”结构(Sandwich-RAM)，每个PWMU单元都和多组权重值（Weight）及特征值(Feature)的寄存器组紧密相连形成一个计算子单元,形如Features-PWMU-Weights的“三明治”结构,外围电路包括控制器、Weights预处理单元、Feature载入单元、延时敏感的控制电压产生电路、可配置的脉冲产生电路和复制计算单元的脉宽量化电路,(1)基于脉宽调制的模拟计算单元(PWMU)，主要结构包括两个级联的脉冲计算单元(Delay Chain)和一个控制单元,控制单元控制本次计算的累加类型，脉冲计算单元类似于可控延时器，根据两位输入数据(取自Feature)，经过2-4译码器选择不同的参考电压(VREF)控制下拉(放电)电路中NMOS的栅电压以控制放电速度，进而调制输入脉冲的宽度 (加法使脉宽变宽，减法使脉宽变窄)，调制后脉冲作为输入再传递到下一级的脉冲计算单元继续计算(脉宽调制)，脉冲宽度的变化经过一级级累加后，最后在脉宽量化电路(PQRC)中测量转化为数字信号,(2)延时敏感的控制电压产生电路(DSCVG)，类似于数字低压降稳压器（Digital Low-dropoutregulator，DLDO）的原理，为PWMU中的脉冲计算单元提供三组不同VREF,该电路由2组延时链、一组移位寄存器和对应数量的PMOS、另一组移位寄存器和对应数量的NMOS构成,采用反馈结构，实时动态调整三组VREF，使得可控延时单元延时保持1倍、2倍、3倍和4倍关系，从而保证延时单元在VREF控制下，计算结果不会因为工艺、电压和温度（Process VoltageTemperature， PVT）波动导致严重非线性偏差,(3)可配置脉冲的产生电路，产生用于PWMU输入的标准脉冲,通过复制延时单元组成环形振荡器，经分频电路和使能信号产生脉宽合适的脉冲,(4)基于复制延时单元的脉宽量化电路(PQRC)，用于量化脉冲宽度，实现模拟到数字转化,电路由C2MOS采样寄存器、压缩加法器树、累加电路和产生采样时钟的压控振荡器(VCO)组成,该VCO中的延时单元电路与PWMU 中的相同，所不同的是其VREF均为电源电压。

2.根据权利要求1所述“三明治”结构的加速卷积神经网络的存储器，其特征在于，所述的基于脉宽调制的模拟计算单元(PWMU)由2条计算链组成，每条计算链由2个延时计算单元级联，完成数据(Feature)的高4位和低4位的计算,计算过程中根据数据高4位控制2条计算链的工作模式（如果高4位数据较大，则低4位不计算，如果高4位为0，则高4位不计算），从而减少计算量以减少能耗,

控制单元主要由多路选择器构成，由两位(其中1位表示权重Weight，另一位表示旁路Bypass)的移位寄存器控制，控制计算类型为加法、减法还是旁路。

3.根据权利要求1所述“三明治”结构的加速卷积神经网络的存储器，其特征在于，所述的基于脉宽调制的模拟计算单元(PWMU)中的2个级联的脉冲计算单元：前一个脉冲计算单元用于低两位计算，后面一个脉冲计算单元用于高两位计算，利用增加的负载电容，使第二个延时单元的放电时间为第一个延时单元的2倍，从而实现更高位权重的计算效果。

4.根据权利要求1所述“三明治”结构的加速卷积神经网络的存储器，其特征在于，所述的延时敏感的控制电压产生电路(DSCVG)的延时链2中的延时单元是延时链1中的K(K=2,3,4)倍,2组延时链产生2组不同脉宽的Enable信号，Enable信号的脉宽决定2组移位寄存器移位次数，移位寄存器D端始终连接VDD,移位次数越多，开启的NMOS或PMOS的数目越多，直接控制VREF的充电电路和放电电路上电流,通过负反馈电路，两组Enable信号的脉宽逐渐趋于相等，VREF达到稳定。