CN110428048A

CN110428048A - 一种基于模拟延时链的二值化神经网络累加器电路

Info

Publication number: CN110428048A
Application number: CN201910584269.1A
Authority: CN
Inventors: 单伟伟; 商新超
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-11-08
Anticipated expiration: 2039-07-01
Also published as: WO2021000469A1; CN110428048B

Abstract

本发明公开了一种基于模拟延时链的二值化神经网络累加器电路，属于基本电子电路的技术领域，包括具有2条延时链的延时链模块和脉冲产生电路，模拟延时链由多个串接的模拟延时单元构成，模拟延时单元采用6个MOS管，通过延时的大小来判断“0”和“1”。本发明利用模拟计算的方法取代传统数字电路设计中的累加计算，同时，该累加器结构可以在宽电压下稳定的工作，电路实现简单，有效降低了二值化神经网络累加计算的功耗，能大幅提升神经网络电路的能量效率。

Description

一种基于模拟延时链的二值化神经网络累加器电路

技术领域

本发明涉及一种基于模拟延时链的二值化神经网络累加器电路，涉及利用数模混合技术实现神经网络累加计算的电路，属于基本电子电路的技术领域。

背景技术

最近几年内，人工智能技术展现了其在图像识别，面部检测，语音识别，文字处理和人工智能游戏等领域方面的独特优势。在发达国家，人工智能已经成为了优先发展目标，其中，最为突出的是最近在深度学习(Deep Learning)领域的进展，百度、谷歌、微软、Facebook此类高端互联网公司的研究实践表明深度学习能够在图像感知方面达到甚至超过人类的水平。实现深度学习网络的一个最主要的挑战在于大量的运算会消耗过多的能源与硬件资源。

主流的神经网络结构数据位宽采用32bit，目前有逐步降低为16bit、8bit甚至是4bit的趋势，因此为了降低功耗，可以采用动态精度调整的方法来调节运算的位数，根据不同需要的场合动态地选择运算位宽来节省功耗，比4bit更激进的可以是2bit位宽，最极端的可以是1bit位宽。当位宽变为1bit的时候，神经网络就成了一种特殊的网络——二值化神经网络(Binary Neutral Network，BNN)。

功耗是限制神经网络面向应用的一大瓶颈，而二值神经网络是神经网络“小型化”探索中的一个重要方向。神经网络中有两个部分可以被二值化，一是网络的系数，二是网络的中间结果。通过把浮点单精度的系数变成正1或负1，系数的二值化能达成存储大小变为原来的1/32也就是3％的效果。另一方面，如果中间结果也变为二值，由于大部分计算都在1间进行，可以将浮点计算替换成整数位运算。相比于非二值化的网络，二值神经网络将大量的数学运算变成了位操作，这样大大减少了计算量，并且有效减少了存储量，使神经网络的应用门槛变得更低。

因计算的特殊性，二值化神经网络的乘运算与同或门运算一致，因此，在实际的芯片电路实现中，可以采用同或门来实现二值化神经网络的乘运算。二值化神经网络的整体运算过程包括乘运算和累加，根据累加后的结果判断1的数目决定最终的输出结果。因此，可以采用模拟计算的方式来判断累加后的结果。

本发明主要用于二值化神经网络的累加计算，从而降低神经网络计算的功耗。本申请设计的模拟延时单元可以通过控制数据端“D”的状态控制A到Y的延时。

发明内容

本发明的发明目的是针对上述背景技术的不足，提供了一种基于模拟延时链的二值化神经网络累加器电路，利用模拟计算的方式替代传统的数字电路累加计算，有效的降低了二值化神经网络累加计算的功耗，实现了高能效的二值化神经网络累加计算，解决了二值化神经网络累加计算能耗有待降低的技术问题。

本发明为实现上述发明目的采用如下技术方案：

一种基于模拟延时链的二值化神经网络系统，包括延时链模块和脉冲产生电路，延时链模块结构由两条延时链和一个D触发器构成，其中，每条延时链由N个模拟延时单元组成。模拟延时单元采用6个MOS管，通过延时时间的不同来判断输入数据是“0”还是“1”，延时链将N个模拟延时单元按照要求相连接，从而实现多输入数据的累加，并且判断出“1”的数目。

本发明所述的基于模拟延时链的二值化神经网络累加器电路，其设计方法包括如下步骤：

(1)模拟延时单元设计：首先完成模拟延时单元的尺寸设计，然后按照数字标准单元的版图设计规则绘制模拟延时单元；

(2)延时链模块：模拟延时单元设计完成后，利用标准单元库里的单元与模拟延时单元进行拼接，完成延时链模块的设计。

所述延时单元由3个NMOS管、1个PMOS管和一个反相器组成，外围输入数据与PMOS管、第一NMOS管的栅极相连，外围输入数据与第二NMOS管的栅极相连，第一NMOS管的源极与第二NMOS管的漏极以及第三NMOS管的漏极相连于节点n，第二NMOS管M3的源极和第三NMOS管的源极相连接地，PMOS管的漏极和第一NMOS管的漏极相连于节点m后作为反相器的输入端，反相器的输出即输出延时信号，PMOS管的源极和第三NMOS管的栅极均接电源。

所述延时链模块由两条延时链和一个D触发器构成，其中，每条延时链由n个模拟延时单元组成。模拟延时单元的数据输入端与外围输入数据相连，延时链1和延时链2的信号输出端分别连接D触发器的数据端和时钟端，脉冲产生电路的时钟信号输出端与延时模块的时钟信号输入端相连，D触发器的输出信号即延时信号的判断信号。

所述延时链模块的输入信号为时钟输入信号和n个外围输入数据，输出信号为数据输出标志信号。n个外围输入数据分别连接到n个延时单元的数据输入端，时钟输入信号输入到第一个延时单元的数据输入端，每个延时单元的输出端连接下个延时单元的数据输入端，延时链1的第n个延时单元的输出端连接D触发器的D端，延时链2的第n个延时单元的输出端连接D触发器的时钟CLK端，D触发器的输出信号Flag，即延时标志信号。

二值化神经网络的整体运算过程包括乘运算，累加，根据累加后的结果判断1的数目决定最终的输出结果。在实际的运算中，我们只需要知道二值化后的累加结果，即判断累加后的结果是大于0还是小于0，因此可以采用模拟计算的方式来判断累加后的结果。

本发明采用上述技术方案，具有以下有益效果：本发明利用模拟计算的方式实现神经网络的累加计算，将数字信号转换为模拟信号进行计算，能够有效的降低芯片的整体功耗，可以在宽电压下稳定的工作，同时，提出的延时单元面积开销较少，从而可以取得较高的功耗收益。

附图说明

图1为本发明的延时单元结构图。

图2为本发明的延时单元工作时序图。

图3为本发明的模拟延时链电路图。

图4为本发明的延时链模块的整体结构图。

图5为本发明的延时链模块的工作时序图。

图6为本发明的延时链模块的HSPICE仿真时序图。

图7为本发明的脉冲产生电路图。

图8为本发明的脉冲产生电路工作时序图。

具体实施方式

下面结合附图对发明的技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本发明的延时单元如图1所示，由3个NMOS管、1个PMOS管和一个反相器组成，外围输入数据A与PMOS管M1、NMOS管M2的栅极相连，外围输入数据D与NMOS管M3的栅极相连，NMOS管M2的源极与NMOS管M3和M4的漏极相连于节点n，NMOS管M3和M4的源极相连接地，PMOS管M1的源极和第三NMOS管M4的栅极均接电源，PMOS管M1和NMOS管M2的漏极相连于节点m后作为反相器U1的输入端，反相器的输出即输出延时信号。

本发明的延时单元工作时序图如图2所示，通过数据输入端D来控制MOS管M3是导通还是断开，当输入端D是“1”时，晶体管M3打开，当输入端A由“0”到“1”变化时，节点n的放电通路由晶体管M3和M4并联完成。当输入端D是“0”时，晶体管M3关闭，当输入端A由“0”到“1”变化时，节点n的放电通路只能通过晶体管M4完成，造成A到Y的延时增大。因此，可以通过数据输入端D来控制A到Y的延时。

本发明的模拟延时链电路如图3所示包括二个部分：延时链模块和脉冲产生电路，延时链模块由n个延时单元和一个D触发器构成，延时单元的数据输入端D与外围输入数据相连，延时链1和延时链2的信号输出端Y1、Y2分别连接D触发器的数据端和时钟端，脉冲产生电路的时钟信号输出端与延时模块的时钟信号输入端相连，D触发器的输出信号Flag即延时信号的判断信号。

本发明的延时链模块的整体结构如图4所示。神经网络的权重W1,W2,..,Wn和输入数据X1,X2,..,Xn进行同或运算，其输出结果D1,D2,..,Dn作为输入到延时链模块数据输入端的数据。延时链模块延时链模块由两条延时链和一个D触发器构成，其中，每条延时链由n个模拟延时单元组成。延时链1的输入数据为权重和图像同或后的数据D1,D2,..,Dn；延时链2为基准链，输入数据根据神经网络每一层的计算需要进行配置。延时链1和延时链2的信号输出端Y1、Y2分别连接D触发器的数据端和时钟端，脉冲产生电路的时钟信号输出端与延时模块的时钟信号输入端相连，D触发器的输出信号Flag即延时信号的判断信号。在神经网络训练阶段，需要对神经网络每一层的数据进行标准化处理，使输出规范化到正态分布N(0,1)，即批量归一化(Batch Normalization,BN)。批量归一化的计算公式如下式1.1所示：

其中，γ、β为缩放因子和偏置系数，是训练时的参数，用于对激活值进行仿射变化，以保证对原有输入的还原，x是输入数据集，μ_B表示的是输入数据集均值，σ_B表示的是输入数据集的标准差，ε是为了防止分母为0而加入的参数，通常为一很小的大于0的常数。

二值化神经网络将其权重矩阵中权重值和各个激活函数值均进行二值化(二值化为正1或负1)，由于其计算的特殊性，可以对二值化神经网络的批量归一化方法进行优化，二值化神经网络批量归一化的计算公式如下式1.2所示：

经过公式的变化，二值化神经网络的批量归一化就可以加到偏置上，因此，可以将偏置值直接加在基准延时链2上，根据网络训练的结果来配置延时链2的输入情况。

延时链模块的工作时序图如图5所示。为了比较延时链1和延时链2中“1”的数目，可以通过比较信号Y1和Y2到达的先后顺序来判断。将信号Y1和Y2分别接到D触发器的数据端和时钟端。在第一个时钟周期内，延时链1中“1”的数目多于延时链2中“1”的个数，Y1先到达，则D触发器采集到的数据为“1”；在第二个时钟周期内，延时链1中“1”的数目少于延时链2中“1”的个数，Y2先到达，则D触发器采集到的数据为“0”。

延时链模块的HSPICE仿真时序图如图6所示。当延时链1中“1”的数目小于延时链2时，信号Y2先到，此时D触发器采集到的数据(Flag)为“0”；当延时链1中“1”的数目多于延时链2时，信号Y1先到，此时D触发器采集到的数据(Flag)为“1”。

本发明的脉冲产生电路和工作时序图如图7所示。脉冲产生电路由3个与非门，一个反相器和延时模块组成，其中，可配延时模块可以完成延时大小不同的配置，从而实现脉冲宽度的调节。

本发明的脉冲产生电路工作时序图如图8所示。脉冲产生电路的基本原理是：当CLK为低电平时，节点X和Qb都为高电平，节点Y保持低电平；当CLK由低变为高电平时，首先节点Qb发生由高到低变化，从而导致节点Y由低到高变化，节点X由高到低变化，此时，节点Qb从低到高变化，完成整个过程的时间就是脉冲产生电路产生的脉冲宽度，因此，脉冲宽度是由延时链和三个与非门的延时共同决定的。

在具体的实施过程中，为了说明其在计算功耗方面的优势，将其与传统的加法器结构(采用工艺商提供的标准单元库中的全加器综合)进行比较。将64个单比特的数据分别采用传统数字加法器结构和本文设计的结构进行实现，并判断累加后“1”的数目。表1是与传统的数字加法器结构进行的数据对比，从表中数据可以看出，实现相同的64个单比特数据累加计算，功耗可以节省57％，并且性能有33.3％的提升。

表1传统数字电路64位单bit累加结构与本设计数据指标对比(0.81V，125℃，SS)

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.模拟延时单元，其特征在于，采用数字输入信号控制时钟输入信号的延迟，具体包括：PMOS管（M1）、第一NMOS管（M2）、第二NMOS管（M3）、第三NMOS管（M4）、反相器（U1），PMOS管（M1）的栅极与第一NMOS管（M2）的栅极并接后接时钟输入信号，PMOS管（M1）的漏极与第一NMOS管（M2）的漏极并接后与反相器（U1）的输入端连接，第二NMOS管（M3）的栅极接数字输入信号，第二NMOS管（M3）的漏极与第三NMOS管（M4）的漏极并接后与第一NMOS管（M2）的源极连接，PMOS管（M1）的源极和第三NMOS管（M4）的栅极均接电源，第二NMOS管（M3）的源极与第三NMOS管（M4）的源极共同接地。

2.模拟延时链，其特征在于，其特征在于，由多个如权利要求1所述的模拟延时单元串联而成，后一个模拟延时单元的数字信号输入端接前一个模拟延时单元的输出端。

3.二值化神经网络累加器电路，其特征在于，包括两条如权利要求2所述的模拟延时链及一个D触发器，两个模拟延时链的时钟信号输入端接同一脉冲时钟信号，第一模拟延时链中各模拟延时单元的数字数据输入端接二值化神经网络层权重参数和输入特征图数据的卷积结果，第二模拟延时链中各延时单元的数字数据输入端接对应于所述二值化神经网络层中各卷积单元计算结果的参考值，D触发器的数据输入端接第一模拟延时链的输出端，D触发器的时钟输入端接第二模拟延时链的输出端，D触发器比较两条模拟延时链输出信号到达的先后顺序输出标志信号。

4.根据权利要求3所述二值化神经网络累加器电路，其特征在于，所述二值化神经网络层权重参数和输入特征图数据的卷积结果通过对权重数据和输入特征图数据进行同或运算得到，第一模拟延时链中每一个模拟延时单元的数字数据输入端接一个同或门的输出端，同或门的两个输入端分别接一个卷积单元的权重数据和输入特征图数据。

5.根据权利要求3所述二值化神经网络累加器电路，其特征在于，所述二值化神经网络层中各卷积单元计算结果的参考值为训练所得到的每层网络的偏置值。

6.根据权利要求3所述二值化神经网络累加器电路，其特征在于，两个模拟延时链的时钟信号输入端接入的同一脉冲时钟信号由脉冲产生电路提供，该脉冲产生电路包括：第一至第三与非门、延时模块、反相器，第一与非门的两个输入端分别接时钟信号和第三与非门的输出端，延时模块的输入端和反相器的输入端均与第一与非门的输出端连接，第二与非门的两个输入端分别接延时模块的输出端和第三与非门的输出端，第三与非门的两个输入端分别接第二与非门的输出端和时钟信号，反相器输出脉冲时钟信号至两个模拟延时链的时钟信号输入端。