CN111614346B - 基于延时信号的ai处理器的处理单元及累积单元 - Google Patents

基于延时信号的ai处理器的处理单元及累积单元 Download PDF

Info

Publication number
CN111614346B
CN111614346B CN202010528674.4A CN202010528674A CN111614346B CN 111614346 B CN111614346 B CN 111614346B CN 202010528674 A CN202010528674 A CN 202010528674A CN 111614346 B CN111614346 B CN 111614346B
Authority
CN
China
Prior art keywords
mos tube
processing unit
input
mos
tube
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010528674.4A
Other languages
English (en)
Other versions
CN111614346A (zh
Inventor
李磊
周婉婷
胡剑浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010528674.4A priority Critical patent/CN111614346B/zh
Publication of CN111614346A publication Critical patent/CN111614346A/zh
Application granted granted Critical
Publication of CN111614346B publication Critical patent/CN111614346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03KPULSE TECHNIQUE
    • H03K5/00Manipulating of pulses not covered by one of the other main groups of this subclass
    • H03K5/13Arrangements having a single output and transforming input signals into pulses delivered at desired time intervals
    • H03K5/133Arrangements having a single output and transforming input signals into pulses delivered at desired time intervals using a chain of active delay devices
    • H03K5/134Arrangements having a single output and transforming input signals into pulses delivered at desired time intervals using a chain of active delay devices with field-effect transistors
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03KPULSE TECHNIQUE
    • H03K5/00Manipulating of pulses not covered by one of the other main groups of this subclass
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03KPULSE TECHNIQUE
    • H03K5/00Manipulating of pulses not covered by one of the other main groups of this subclass
    • H03K2005/00013Delay, i.e. output pulse is delayed after input pulse and pulse length of output pulse is dependent on pulse length of input pulse
    • H03K2005/0015Layout of the delay element
    • H03K2005/00195Layout of the delay element using FET's
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Physics & Mathematics (AREA)
  • Nonlinear Science (AREA)
  • Manipulation Of Pulses (AREA)

Abstract

本发明公开了一种基于延时信号的AI处理器的处理单元及累积单元,该处理单元包括延迟单元、及与延迟单元连接的第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管、第六MOS管、第七MOS管、第八MOS管、第九MOS管、第十MOS管,第一MOS管和第二MOS管的漏极均与输入Vin_A连接,第三MOS管和第四MOS管的漏极均与输入Vin_B连接,第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管和第六MOS管的栅极均与输入w连接,第七MOS管、第八MOS管、第九MOS管和第十MOS管的栅极与输入x′连接。本发明通过延迟累积代替通常的数字累积,大大降低了运算的复杂度,以及硬件开销和功耗,并且提高了运算可靠性。

Description

基于延时信号的AI处理器的处理单元及累积单元
技术领域
本发明属于计算机和集成电路领域,具体涉及一种基于延时信号的AI处理器的处理单元及累积单元。
背景技术
在机器学习中,卷积神经网络CNN(Convolutional Neural Network)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,广泛应用于语音识别、图像处理和图像识别等领域。
其中CNN的累积可以表示为
Figure BDA0002534435930000011
其中σ(·)是激活函数,wi是权值,xi是相应的输入。
由于CNN采用累积运算,累积运算不仅会占用很大的硬件资源,而且会引入很高的能耗。因此能耗问题是人工智能芯片的关键问题。
随着技术的进步,M.Courbariaux和I.Hubara等于2016年提出了二值神经网络BNN(Binarized Neural Networks),它采用二值的激活和权值(参考文献M.Courbariaux,I.Hubara,D.Soudry,R.EI-Yaniv,and Y.Bengio,“Binarized neural networks:Trainingneural networks with weights andactivations constrained to+1or-1,”arXivpreprint arXiv:1602.02830,2016.)。由于采用二值运算,BNN大大降低了相应的运算量和功耗。由此可见,对于机器学习的CNN和BNN的研究是非常有意义的。
现有的机器学习的累积器,一般有四种实现方式;(1)采用浮点数字信号进行累积运算;由于浮点运算的复杂度非常高,所以该种方法的功耗非常高,多见于高性能高精度的人工智能算法中。(2)采用定点数字信号进行累加处理;该方法相较于(1)在能耗方面有很大的改善,其功耗决定于采用的运算精度,最新的研究成果是二值神经网络。S.K.Esser,etal.,“Convolutional networks for fast,energy-efficient neuromorphiccomputing,”arXiv preprint arXiv:1603.08270,2016.(3)采用模拟电平累积进行处理,该方法和(4)都是在模拟域进行累积,相比于数字域,可以大大减低功耗。(4)基于延时累积进行处理,参考文献Daisuke Miyashita,Shouhei Kousai,Tomoya Suzuki,Jun Deguchi,"A Neuromorphic Chip Optimized for Deep Learning and CMOS Technology WithTime-Domain Analog and Digital Mixed-Signal Processing",Solid-State CircuitsIEEE Journal of,vol.52,no.10,pp.2679-2689,2017.,采用几个等校门电路便可以实现延时的累积。参考文献中的技术采用两个延迟单元,并采用两个延迟单元的延时差值作为延时累积的基准。
发明内容
本发明的主要目的在于提供一种基于延时信号的AI处理器的处理单元及累积单元,旨在解决现有的AI处理器的累积单元的耗费资源、能耗高等技术问题。
为实现上述目的,本发明提供一种基于延时信号的AI处理器的处理单元,包括第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管、第六MOS管、第七MOS管、第八MOS管、第九MOS管、第十MOS管及延迟单元;
所述第一MOS管和第二MOS管的漏极均与输入Vin_A连接,所述第三MOS管和第四MOS管的漏极均与输入Vin_B连接,所述第一MOS管、第二MOS管、第三MOS管、第四MOS管、第五MOS管和第六MOS管的栅极均与输入w连接,所述第一MOS管和第三MOS管的源极连接延迟单元的输入端,所述第二MOS管的源极连接第五MOS管、第七MOS管和第八MOS管的源极,所述第四MOS管的源极连接第六MOS管、第九MOS管和第十MOS管的漏极,所述第五MOS管和第六MOS管的漏极连接延迟单元的输出端,所述第七MOS管、第八MOS管、第九MOS管和第十MOS管的栅极与输入x′连接,所述第七MOS管和第九MOS管的源极与输出Vout_A连接,所述第八MOS管和第十MOS管的源极与输出Vout_B连接。
进一步地,所述第一MOS管、第四MOS管、第五MOS管、第七MOS管和第十MOS管采用NMOS管。
进一步地,所述第二MOS管、第三MOS管、第六MOS管、第八MOS管、第九MOS管采用PMOS管。
本发明还提出了一种基于上述处理单元的累积单元,其包括多个级联的所述处理单元及一个D寄存器,其中处理单元PE0的输入Vin_A和输入Vin_B相连并连接激励信号,处理单元PE0的输出Vout_A和输出Vout_B分别与处理单元PE1的输入Vin_A和输入Vin_B连接,处理单元PE1与处理单元PEL-1之间L-1个处理单元依次级联连接,所述处理单元PEL-1的输入Vin_A和输入Vin_B分别与D寄存器的输入D和输入CK连接,所述D寄存器的输出Q输出运算结果。
本发明具有以下有益效果:
(1)本发明提出的处理单元具有简单高效的特点,除了延迟单元外只需要10个MOS管(相当于2.5个等效门),大大降低了处理单元的面积开销和功耗开销;
(2)本发明采用整个延迟单元作为累积基准,提高了累积计算的分辨率,大大提高了运算的可靠性。
附图说明
图1是本发明的基于延时信号的AI处理器的处理单元结构示意图;
图2是本发明的累积单元的结构示意图。
其中附图标记为:第一MOS管-1、第二MOS管-2、第三MOS管-3、第四MOS管-4、第五MOS管-5、第六MOS管-6、第七MOS管-7、第八MOS管-8、第九MOS管-9、第十MOS管-10、延迟单元-11。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案为:
如图1所示,本发明的基于延时信号的AI处理器的处理单元,包括第一MOS管1、第二MOS管2、第三MOS管3、第四MOS管4、第五MOS管5、第六MOS管6、第七MOS管7、第八MOS管8、第九MOS管9、第十MOS管10及延迟单元11;
设定处理单元PE的输入分别为Vin_A、Vin_B、w和x′,处理单元PE的输出分别为Vout_A和Vout_B,处理单元PE中第一MOS管1和第二MOS管2的漏极均与输入Vin_A连接,第三MOS管3和第四MOS管4的漏极均与输入Vin_B连接,第一MOS管1、第二MOS管2、第三MOS管3、第四MOS管4、第五MOS管5和第六MOS管6的栅极均与输入w连接,第一MOS管1和第三MOS管3的源极连接延迟单元11的输入端,第二MOS管2的源极连接第五MOS管5、第七MOS管7和第八MOS管8的源极,第四MOS管4的源极连接第六MOS管6、第九MOS管9和第十MOS管10的漏极,第五MOS管5和第六MOS管6的漏极连接延迟单元11的输出端,第七MOS管7、第八MOS管8、第九MOS管9和第十MOS管10的栅极与输入x′连接,第七MOS管7和第九MOS管9的源极与输出Vout_A连接,第八MOS管8和第十MOS管10的源极与输出Vout_B连接。
其中第一MOS管1、第四MOS管4、第五MOS管5、第七MOS管7和第十MOS管10采用NMOS管。
第二MOS管2、第三MOS管3、第六MOS管6、第八MOS管8、第九MOS管9采用PMOS管。
上述处理单元PE中的MOS管作为传输门使用,MOS管的源极和漏极可以互换。
本发明相比于现有技术(Daisuke Miyashita,Shouhei Kousai,Tomoya Suzuki,Jun Deguchi,"A Neuromorphic Chip Optimized for Deep Learning and CMOSTechnology With Time-Domain Analog and Digital Mixed-Signal Processing",Solid-State Circuits IEEE Journal of,vol.52,no.10,pp.2679-2689,2017.)采用了更少的延迟单元,具体表现在本发明只使用一个延时单元,并以整个延时单元的延时作为累积基准;而现有技术采用可控制的两个延迟单元,并以两个延时单元的延时差作为累积基准。因此本发明不仅减少了延迟单元的数量,而且提高了累积延时的分辨率。
在上述基于延时信号的处理单元PE的基础上,本发明还提出了一种累积单元,如图2所示,其包括L个级联的所述处理单元PE及一个D寄存器,其中第一个处理单元PE0的输入Vin_A和输入Vin_B相连并连接激励信号Vin,处理单元PE0的输出Vout_A和输出Vout_B分别与第二个处理单元PE1的输入Vin_A和输入Vin_B连接,处理单元PE1与最后一个处理单元PEL-1之间L-1个处理单元依次级联连接,所述处理单元PEL-1的输入Vin_A和输入Vin_B分别与D寄存器的输入D和输入CK连接,所述D寄存器的作用在于实现激活函数σ(·)的功能,其输出Q输出运算结果y。
在上述累积单元的累积过程中,处理单元PEi的输入x′i表示为
Figure BDA0002534435930000061
本发明提出的新的AI处理器的处理单元和累积单元通过延迟累积代替通常的数字累积,大大降低了运算的复杂度,以及硬件开销和功耗;相比于现有技术(DaisukeMiyashita,Shouhei Kousai,Tomoya Suzuki,Jun Deguchi,"A Neuromorphic ChipOptimized for Deep Learning and CMOS Technology With Time-Domain Analog andDigital Mixed-Signal Processing",Solid-State Circuits IEEE Journal of,vol.52,no.10,pp.2679-2689,2017.)采用两个延迟的差值作为基准,本发明采用整个延时单元的延时作为基准,从而提高了累积延时的分辨率和运算可靠性。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (2)

1.一种基于延时信号的AI处理器的处理单元,其特征在于,包括第一MOS管(1)、第二MOS管(2)、第三MOS管(3)、第四MOS管(4)、第五MOS管(5)、第六MOS管(6)、第七MOS管(7)、第八MOS管(8)、第九MOS管(9)、第十MOS管(10)及延迟单元(11);
所述第一MOS管(1)和第二MOS管(2)的漏极均与输入Vin_A连接,所述第三MOS管(3)和第四MOS管(4)的漏极均与输入Vin_B连接,所述第一MOS管(1)、第二MOS管(2)、第三MOS管(3)、第四MOS管(4)、第五MOS管(5)和第六MOS管(6)的栅极均与输入w连接,
所述第一MOS管(1)和第三MOS管(3)的源极连接延迟单元(11)的输入端,所述第二MOS管(2)的源极连接第五MOS管(5)的源极、第七MOS管(7)和第八MOS管(8)的漏极,
所述第四MOS管(4)的源极连接第六MOS管(6)的源极、第九MOS管(9)和第十MOS管(10)的漏极,
所述第五MOS管(5)和第六MOS管(6)的漏极连接延迟单元(11)的输出端,所述第七MOS管(7)、第八MOS管(8)、第九MOS管(9)和第十MOS管(10)的栅极与输入x′连接,
所述第七MOS管(7)和第九MOS管(9)的源极与输出Vout_A连接,所述第八MOS管(8)和第十MOS管(10)的源极与输出Vout_B连接;
所述第一MOS管(1)、第四MOS管(4)、第五MOS管(5)、第七MOS管(7)和第十MOS管(10)采用NMOS管;所述第二MOS管(2)、第三MOS管(3)、第六MOS管(6)、第八MOS管(8)、第九MOS管(9)采用PMOS管。
2.一种应用如权利要求1所述处理单元的累积单元,其特征在于,包括多个级联的所述处理单元及一个D寄存器,其中处理单元PE0的输入Vin_A和输入Vin_B相连并连接激励信号,处理单元PE0的输出Vout_A和输出Vout_B分别与处理单元PE1的输入Vin_A和输入Vin_B连接,处理单元PE1与处理单元PEL-1之间L-1个处理单元依次级联连接,所述处理单元PEL-1的输入Vin_A和输入Vin_B分别与D寄存器的输入D和输入CK连接,所述D寄存器的输出Q输出运算结果;处理单元PEi的输入xi′表示为
Figure QLYQS_1
CN202010528674.4A 2020-06-11 2020-06-11 基于延时信号的ai处理器的处理单元及累积单元 Active CN111614346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010528674.4A CN111614346B (zh) 2020-06-11 2020-06-11 基于延时信号的ai处理器的处理单元及累积单元

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010528674.4A CN111614346B (zh) 2020-06-11 2020-06-11 基于延时信号的ai处理器的处理单元及累积单元

Publications (2)

Publication Number Publication Date
CN111614346A CN111614346A (zh) 2020-09-01
CN111614346B true CN111614346B (zh) 2023-06-30

Family

ID=72196643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010528674.4A Active CN111614346B (zh) 2020-06-11 2020-06-11 基于延时信号的ai处理器的处理单元及累积单元

Country Status (1)

Country Link
CN (1) CN111614346B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076858A (ja) * 1998-08-31 2000-03-14 Hitachi Ltd 半導体装置
JP2009246617A (ja) * 2008-03-31 2009-10-22 Fujitsu Microelectronics Ltd 出力バッファ回路
CN110352436A (zh) * 2017-03-01 2019-10-18 国际商业机器公司 用于神经网络训练的具有迟滞更新的电阻处理单元
CN110414677A (zh) * 2019-07-11 2019-11-05 东南大学 一种适用于全连接二值化神经网络的存内计算电路
US10594334B1 (en) * 2018-04-17 2020-03-17 Ali Tasdighi Far Mixed-mode multipliers for artificial intelligence

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4434759B2 (ja) * 2004-01-23 2010-03-17 Necエレクトロニクス株式会社 演算増幅回路
KR102230784B1 (ko) * 2013-05-30 2021-03-23 삼성전자주식회사 Stdp 동작을 위한 시냅스 회로 및 시냅스 회로를 포함하는 뉴로모픽 시스템
US20190101952A1 (en) * 2017-09-30 2019-04-04 Intel Corporation Processors and methods for configurable clock gating in a spatial array

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076858A (ja) * 1998-08-31 2000-03-14 Hitachi Ltd 半導体装置
JP2009246617A (ja) * 2008-03-31 2009-10-22 Fujitsu Microelectronics Ltd 出力バッファ回路
CN110352436A (zh) * 2017-03-01 2019-10-18 国际商业机器公司 用于神经网络训练的具有迟滞更新的电阻处理单元
US10594334B1 (en) * 2018-04-17 2020-03-17 Ali Tasdighi Far Mixed-mode multipliers for artificial intelligence
CN110414677A (zh) * 2019-07-11 2019-11-05 东南大学 一种适用于全连接二值化神经网络的存内计算电路

Also Published As

Publication number Publication date
CN111614346A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
Song et al. TD-SRAM: Time-domain-based in-memory computing macro for binary neural networks
WO2023056779A1 (zh) 一种用于卷积神经网络的内存计算eDRAM加速器
CN110428048B (zh) 一种基于模拟延时链的二值化神经网络累加器电路
EP3985670A1 (en) Subunit, mac array, and analog and digital combined in-memory computing module having reconstructable bit width
Vijay et al. Design of unbalanced ternary logic gates and arithmetic circuits
US11762700B2 (en) High-energy-efficiency binary neural network accelerator applicable to artificial intelligence internet of things
CN114095027A (zh) 一种低压低功耗的异步逐次逼近式模数转换器装置
CN115390789A (zh) 基于磁隧道结计算单元的模拟域全精度存内计算电路及方法
CN111614346B (zh) 基于延时信号的ai处理器的处理单元及累积单元
Onizawa et al. Area/energy-efficient gammatone filters based on stochastic computation
Oh et al. 1.2-mw online learning mixed-mode intelligent inference engine for low-power real-time object recognition processor
CN102412809A (zh) 基于多输入浮栅mos管的阈值可调型施密特触发器电路
CN111639757A (zh) 一种基于柔性材料的模拟卷积神经网络
Zhang et al. An energy-efficient mixed-signal parallel multiply-accumulate (MAC) engine based on stochastic computing
CN115113679B (zh) 一种应用于存算一体的电流权值累加电路
MOHAMMADZADEH et al. State of art design of novel adder modules for future computing
Yamasaki et al. A high-speed median filter VLSI using floating-gate-MOS-based low-power majority voting circuits
Chen et al. An image recognition processor with time-domain accelerators using efficient time encoding and non-linear logic operation
TWI778886B (zh) 識別系統及其靜態隨機存取記憶體單元
US11990178B2 (en) Recognition system and SRAM cell thereof
Kumar et al. CMOS Circuits for Shape-Based Analog Machine Learning
CN203608178U (zh) 基于浮栅mos管的增强型动态全加器
Liu et al. Design of switched-current based low-power PIM vision system for IoT applications
Singh et al. Area-Efficient In-Memory Computation with Improved Linearity using Voltage-Controlled Delay Cell-based Ring Oscillator
Hang et al. A hamming neural network integrated circuit using neuron-MOS transistor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant