CN111614346B

CN111614346B - 基于延时信号的ai处理器的处理单元及累积单元

Info

Publication number: CN111614346B
Application number: CN202010528674.4A
Authority: CN
Inventors: 李磊; 周婉婷; 胡剑浩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2023-06-30
Anticipated expiration: 2040-06-11
Also published as: CN111614346A

Abstract

本发明公开了一种基于延时信号的AI处理器的处理单元及累积单元，该处理单元包括延迟单元、及与延迟单元连接的第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管、第六MOS管、第七MOS管、第八MOS管、第九MOS管、第十MOS管，第一MOS管和第二MOS管的漏极均与输入Vin_A连接，第三MOS管和第四MOS管的漏极均与输入Vin_B连接，第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管和第六MOS管的栅极均与输入w连接，第七MOS管、第八MOS管、第九MOS管和第十MOS管的栅极与输入x′连接。本发明通过延迟累积代替通常的数字累积，大大降低了运算的复杂度，以及硬件开销和功耗，并且提高了运算可靠性。

Description

基于延时信号的AI处理器的处理单元及累积单元

技术领域

本发明属于计算机和集成电路领域，具体涉及一种基于延时信号的AI处理器的处理单元及累积单元。

背景技术

在机器学习中，卷积神经网络CNN(Convolutional Neural Network)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，广泛应用于语音识别、图像处理和图像识别等领域。

其中CNN的累积可以表示为

其中σ(·)是激活函数，w_i是权值，x_i是相应的输入。

由于CNN采用累积运算，累积运算不仅会占用很大的硬件资源，而且会引入很高的能耗。因此能耗问题是人工智能芯片的关键问题。

随着技术的进步，M.Courbariaux和I.Hubara等于2016年提出了二值神经网络BNN(Binarized Neural Networks)，它采用二值的激活和权值(参考文献M.Courbariaux,I.Hubara,D.Soudry,R.EI-Yaniv,and Y.Bengio,“Binarized neural networks:Trainingneural networks with weights andactivations constrained to+1or-1,”arXivpreprint arXiv:1602.02830,2016.)。由于采用二值运算，BNN大大降低了相应的运算量和功耗。由此可见，对于机器学习的CNN和BNN的研究是非常有意义的。

现有的机器学习的累积器，一般有四种实现方式；(1)采用浮点数字信号进行累积运算；由于浮点运算的复杂度非常高，所以该种方法的功耗非常高，多见于高性能高精度的人工智能算法中。(2)采用定点数字信号进行累加处理；该方法相较于(1)在能耗方面有很大的改善，其功耗决定于采用的运算精度，最新的研究成果是二值神经网络。S.K.Esser,etal.,“Convolutional networks for fast,energy-efficient neuromorphiccomputing,”arXiv preprint arXiv:1603.08270,2016.(3)采用模拟电平累积进行处理，该方法和(4)都是在模拟域进行累积，相比于数字域，可以大大减低功耗。(4)基于延时累积进行处理，参考文献Daisuke Miyashita,Shouhei Kousai,Tomoya Suzuki,Jun Deguchi,"A Neuromorphic Chip Optimized for Deep Learning and CMOS Technology WithTime-Domain Analog and Digital Mixed-Signal Processing",Solid-State CircuitsIEEE Journal of,vol.52,no.10,pp.2679-2689,2017.，采用几个等校门电路便可以实现延时的累积。参考文献中的技术采用两个延迟单元，并采用两个延迟单元的延时差值作为延时累积的基准。

发明内容

本发明的主要目的在于提供一种基于延时信号的AI处理器的处理单元及累积单元，旨在解决现有的AI处理器的累积单元的耗费资源、能耗高等技术问题。

为实现上述目的，本发明提供一种基于延时信号的AI处理器的处理单元，包括第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管、第六MOS管、第七MOS管、第八MOS管、第九MOS管、第十MOS管及延迟单元；

所述第一MOS管和第二MOS管的漏极均与输入Vin_A连接，所述第三MOS管和第四MOS管的漏极均与输入Vin_B连接，所述第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管和第六MOS管的栅极均与输入w连接，所述第一MOS管和第三MOS管的源极连接延迟单元的输入端，所述第二MOS管的源极连接第五MOS管、第七MOS管和第八MOS管的源极，所述第四MOS管的源极连接第六MOS管、第九MOS管和第十MOS管的漏极，所述第五MOS管和第六MOS管的漏极连接延迟单元的输出端，所述第七MOS管、第八MOS管、第九MOS管和第十MOS管的栅极与输入x′连接，所述第七MOS管和第九MOS管的源极与输出Vout_A连接，所述第八MOS管和第十MOS管的源极与输出Vout_B连接。

进一步地，所述第一MOS管、第四MOS管、第五MOS管、第七MOS管和第十MOS管采用NMOS管。

进一步地，所述第二MOS管、第三MOS管、第六MOS管、第八MOS管、第九MOS管采用PMOS管。

本发明还提出了一种基于上述处理单元的累积单元，其包括多个级联的所述处理单元及一个D寄存器，其中处理单元PE0的输入Vin_A和输入Vin_B相连并连接激励信号，处理单元PE0的输出Vout_A和输出Vout_B分别与处理单元PE1的输入Vin_A和输入Vin_B连接，处理单元PE1与处理单元PEL-1之间L-1个处理单元依次级联连接，所述处理单元PEL-1的输入Vin_A和输入Vin_B分别与D寄存器的输入D和输入CK连接，所述D寄存器的输出Q输出运算结果。

本发明具有以下有益效果：

(1)本发明提出的处理单元具有简单高效的特点，除了延迟单元外只需要10个MOS管(相当于2.5个等效门)，大大降低了处理单元的面积开销和功耗开销；

(2)本发明采用整个延迟单元作为累积基准，提高了累积计算的分辨率，大大提高了运算的可靠性。

附图说明

图1是本发明的基于延时信号的AI处理器的处理单元结构示意图；

图2是本发明的累积单元的结构示意图。

其中附图标记为：第一MOS管-1、第二MOS管-2、第三MOS管-3、第四MOS管-4、第五MOS管-5、第六MOS管-6、第七MOS管-7、第八MOS管-8、第九MOS管-9、第十MOS管-10、延迟单元-11。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案为：

如图1所示，本发明的基于延时信号的AI处理器的处理单元，包括第一MOS管1、第二MOS管2、第三MOS管3、第四MOS管4、第五MOS管5、第六MOS管6、第七MOS管7、第八MOS管8、第九MOS管9、第十MOS管10及延迟单元11；

设定处理单元PE的输入分别为Vin_A、Vin_B、w和x′，处理单元PE的输出分别为Vout_A和Vout_B，处理单元PE中第一MOS管1和第二MOS管2的漏极均与输入Vin_A连接，第三MOS管3和第四MOS管4的漏极均与输入Vin_B连接，第一MOS管1、第二MOS管2、第三MOS管3、第四MOS管4、第五MOS管5和第六MOS管6的栅极均与输入w连接，第一MOS管1和第三MOS管3的源极连接延迟单元11的输入端，第二MOS管2的源极连接第五MOS管5、第七MOS管7和第八MOS管8的源极，第四MOS管4的源极连接第六MOS管6、第九MOS管9和第十MOS管10的漏极，第五MOS管5和第六MOS管6的漏极连接延迟单元11的输出端，第七MOS管7、第八MOS管8、第九MOS管9和第十MOS管10的栅极与输入x′连接，第七MOS管7和第九MOS管9的源极与输出Vout_A连接，第八MOS管8和第十MOS管10的源极与输出Vout_B连接。

其中第一MOS管1、第四MOS管4、第五MOS管5、第七MOS管7和第十MOS管10采用NMOS管。

第二MOS管2、第三MOS管3、第六MOS管6、第八MOS管8、第九MOS管9采用PMOS管。

上述处理单元PE中的MOS管作为传输门使用，MOS管的源极和漏极可以互换。

本发明相比于现有技术(Daisuke Miyashita,Shouhei Kousai,Tomoya Suzuki,Jun Deguchi,"A Neuromorphic Chip Optimized for Deep Learning and CMOSTechnology With Time-Domain Analog and Digital Mixed-Signal Processing",Solid-State Circuits IEEE Journal of,vol.52,no.10,pp.2679-2689,2017.)采用了更少的延迟单元，具体表现在本发明只使用一个延时单元，并以整个延时单元的延时作为累积基准；而现有技术采用可控制的两个延迟单元，并以两个延时单元的延时差作为累积基准。因此本发明不仅减少了延迟单元的数量，而且提高了累积延时的分辨率。

在上述基于延时信号的处理单元PE的基础上，本发明还提出了一种累积单元，如图2所示，其包括L个级联的所述处理单元PE及一个D寄存器，其中第一个处理单元PE0的输入Vin_A和输入Vin_B相连并连接激励信号Vin，处理单元PE0的输出Vout_A和输出Vout_B分别与第二个处理单元PE1的输入Vin_A和输入Vin_B连接，处理单元PE1与最后一个处理单元PEL-1之间L-1个处理单元依次级联连接，所述处理单元PEL-1的输入Vin_A和输入Vin_B分别与D寄存器的输入D和输入CK连接，所述D寄存器的作用在于实现激活函数σ(·)的功能，其输出Q输出运算结果y。

在上述累积单元的累积过程中，处理单元PEi的输入x′_i表示为

本发明提出的新的AI处理器的处理单元和累积单元通过延迟累积代替通常的数字累积，大大降低了运算的复杂度，以及硬件开销和功耗；相比于现有技术(DaisukeMiyashita,Shouhei Kousai,Tomoya Suzuki,Jun Deguchi,"A Neuromorphic ChipOptimized for Deep Learning and CMOS Technology With Time-Domain Analog andDigital Mixed-Signal Processing",Solid-State Circuits IEEE Journal of,vol.52,no.10,pp.2679-2689,2017.)采用两个延迟的差值作为基准，本发明采用整个延时单元的延时作为基准，从而提高了累积延时的分辨率和运算可靠性。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于延时信号的AI处理器的处理单元，其特征在于，包括第一MOS管(1)、第二MOS管(2)、第三MOS管(3)、第四MOS管(4)、第五MOS管(5)、第六MOS管(6)、第七MOS管(7)、第八MOS管(8)、第九MOS管(9)、第十MOS管(10)及延迟单元(11)；

所述第一MOS管(1)和第二MOS管(2)的漏极均与输入Vin_A连接，所述第三MOS管(3)和第四MOS管(4)的漏极均与输入Vin_B连接，所述第一MOS管(1)、第二MOS管(2)、第三MOS管(3)、第四MOS管(4)、第五MOS管(5)和第六MOS管(6)的栅极均与输入w连接，

所述第一MOS管(1)和第三MOS管(3)的源极连接延迟单元(11)的输入端，所述第二MOS管(2)的源极连接第五MOS管(5)的源极、第七MOS管(7)和第八MOS管(8)的漏极，

所述第四MOS管(4)的源极连接第六MOS管(6)的源极、第九MOS管(9)和第十MOS管(10)的漏极，

所述第五MOS管(5)和第六MOS管(6)的漏极连接延迟单元(11)的输出端，所述第七MOS管(7)、第八MOS管(8)、第九MOS管(9)和第十MOS管(10)的栅极与输入x′连接，

所述第七MOS管(7)和第九MOS管(9)的源极与输出Vout_A连接，所述第八MOS管(8)和第十MOS管(10)的源极与输出Vout_B连接；

所述第一MOS管(1)、第四MOS管(4)、第五MOS管(5)、第七MOS管(7)和第十MOS管(10)采用NMOS管；所述第二MOS管(2)、第三MOS管(3)、第六MOS管(6)、第八MOS管(8)、第九MOS管(9)采用PMOS管。

2.一种应用如权利要求1所述处理单元的累积单元，其特征在于，包括多个级联的所述处理单元及一个D寄存器，其中处理单元PE0的输入Vin_A和输入Vin_B相连并连接激励信号，处理单元PE0的输出Vout_A和输出Vout_B分别与处理单元PE1的输入Vin_A和输入Vin_B连接，处理单元PE1与处理单元PEL-1之间L-1个处理单元依次级联连接，所述处理单元PEL-1的输入Vin_A和输入Vin_B分别与D寄存器的输入D和输入CK连接，所述D寄存器的输出Q输出运算结果；处理单元PEi的输入x_i′表示为