CN115481721B - 一种针对卷积神经网络的Psum计算电路 - Google Patents

一种针对卷积神经网络的Psum计算电路 Download PDF

Info

Publication number
CN115481721B
CN115481721B CN202211072991.5A CN202211072991A CN115481721B CN 115481721 B CN115481721 B CN 115481721B CN 202211072991 A CN202211072991 A CN 202211072991A CN 115481721 B CN115481721 B CN 115481721B
Authority
CN
China
Prior art keywords
psum
data
read
write
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211072991.5A
Other languages
English (en)
Other versions
CN115481721A (zh
Inventor
易冬柏
何乐年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211072991.5A priority Critical patent/CN115481721B/zh
Publication of CN115481721A publication Critical patent/CN115481721A/zh
Application granted granted Critical
Publication of CN115481721B publication Critical patent/CN115481721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/21Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
    • G11C11/34Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
    • G11C11/40Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
    • G11C11/41Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger
    • G11C11/413Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing, timing or power reduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种针对卷积神经网络的Psum计算电路,包括Psum存储器、读写控制器和加法器,其中的Psum存储器采用单口SRAM构成,并且使用双倍数据位宽,配合读写电路和加法器,可实现每个时钟进行一次读写操作及累加计算,并且极大减小电路面积。在卷积神经网络中NPU一般都设有输入特征图和输出特征图的缓存器(比Psum缓存器容量大的多),本发明利用输出特征图的缓存器做为缓存,只需要将Psum存储器的位宽设为2倍数据位宽,采用读写交错的控制方式也可以实现相同效率的Psum计算电路,并且减少了单独的Psum缓存器,进一步减小了电路面积。

Description

一种针对卷积神经网络的Psum计算电路
技术领域
本发明属于集成电路设计技术领域,具体涉及一种针对卷积神经网络的Psum计算电路。
背景技术
卷积神经网络计算量比常规图像处理大很多倍,在实际应用中,一般需要使用专用的神经网络计算单元(如NPU,神经网络处理器)进行计算。卷积神经网络中必定会使用多个特征图(feature map)进行权值累加,进行特征累加时需要频繁用到Psum(partial sum,部分和)计算,Psum计算电路的设计会直接影响NPU的计算效率和电路面积。
NPU是专门用于神经网络计算的处理器,它根据神经网络的特性可以实现超高并行计算及超高算力,NPU算力一般可达到0.5~100TOPS,是同等CPU算力的几百甚至几千倍。NPU设计架构大体由输入输出缓存、控制器及核心计算阵列三个部分组成。输入输出缓存分成三个部分,即输入特征图缓存、输出特征图缓存和权重缓存;控制器是由一系列的控制逻辑电路组成,用于控制数据流和核心计算阵列的工作模式;核心计算阵列是NPU的算力核心,一般由大量的乘加单元(MAC)和算术逻辑单元(ALU)组成2D的处理单元(PE)阵列。
Psum是核心计算阵列中必不可少的电路结构,NPU在进行神经网络计算时,将大量输入特征图与其权值进行卷积计算后再累加在一起,在这个计算过程需要进行大量的实时Psum计算,如果Psum计算效率无法匹配MAC单元速度的话将会极大的降低整个NPU计算效率,所以一般Psum电路设计时一般会采用寄存器阵列配合累加器来实现,这样的Psum电路设计简单,计算效率高。文献[Sharify S,Lascorz AD,Mahmoud M,et al.Laconic deeplearning inference acceleration[C]//the 46th International Symposium.2019.]以及文献[Shouyi,Yin,Peng,et al.AHigh Energy Efficient Reconfigurable HybridNeural Network Processor for Deep Learning Applications[J].IEEE Journal ofSolid-State Circuits,2017]中提出的Psum电路都是采用此种电路结构设计,但是在NPU在进行神经网络处理器计算时一般是以特征图为单位进行计算,这就要求Psum电路中寄存器阵列能存储整个特征图数据才能进行高效计算,由于特征图与网络模型相关,不同网络模型及不同层数的特征图分辨率都会有不同的大小,一般特征图分辨率在224×224~4×4,NPU要适配多种神经网络则Psum电路寄存器阵列需要支持最大分辨率特征图的存储。以存储分辨率224×224特征图为例,则寄存器阵列需要50176个数据寄存器,每个数据寄存器位宽要达到16或8位,如此庞大的寄存器阵列会明显增加NPU的成本和功耗。
发明内容
鉴于上述,本发明提供了一种针对卷积神经网络的Psum计算电路,可实现每个时钟进行一次读写操作及累加计算,并且极大减小电路面积。
一种针对卷积神经网络的Psum计算电路,包括:
Psum存储器,用于存储卷积神经网络输入特征图的Psum数据;
读写控制器,用于对Psum存储器进行读写操作并缓存相应数据结果,将读取的Psum数据传送给加法器,同时将加法器的计算结果写入Psum存储器中进行更新;
加法器,用于将新输入特征图经卷积过后的图像数据与读取到的Psum数据进行相加。
进一步地,所述Psum存储器按像素点对特征图数据进行存储,对于任一像素点,其Psum数据为之前输入的各特征图经卷积过后图像中对应像素点的像素累加值。
进一步地,所述读写控制器内部包含有读数据缓存器和写数据缓存器,其中读数据缓存器用于缓存从Psum存储器中读取到的部分数据,写数据缓存器用于缓存加法器计算得到的部分结果。
进一步地,所述Psum存储器采用单口SRAM(Static Random-Access Memory,静态随机存取存储器)构成,其位宽为双倍数据位宽,使得每个地址可存储2倍数据位宽的数据。
进一步地,所述读写控制器采用读写交错的控制方式对Psum存储器进行读写操作,以实现每个时钟都能读写一个数据的效率。
进一步地,所述读写控制器进行读写操作的具体过程分为2个时钟:
时钟1:读写控制器对Psum存储器先进行读操作,对于其任一地址存储的两个Psum数据,将其中的高位数据Psum2i+1缓存至读写控制器内部的读数据缓存器中,同时将低位数据Psum2i传送给加法器,由加法器将输入的INC_Pix2i与低位数据Psum2i相加后的结果Psum2i_r缓存至读写控制器内部的写数据缓存器中;
时钟2:读写控制器将内部读数据缓存器中缓存的高位数据Psum2i+1传送给加法器,由加法器将输入的INC_Pix2i+1与高位数据Psum2i+1相加后的结果Psum2i+1_r传送给读写控制器,读写控制器将内部写数据缓存器中缓存的结果Psum2i_r与Psum2i+1_r拼成2倍数据位宽的数据后写入Psum存储器以替换Psum2i和Psum2i+1
其中:INC_Pix2i和INC_Pix2i+1分别为新输入特征图经卷积过后图像中第2i个像素点和第2i+1个像素点的像素值,Psum2i和Psum2i+1分别为之前输入的各特征图经卷积过后图像中对应第2i个像素点和第2i+1个像素点的像素累加值,i为自然数。
基于上述技术方案,本发明具有以下有益技术效果:
1.本发明可以实现每个时钟完成一次Psum计算的速率,与采用寄存器阵列电路架构效率相同。
2.本发明Psum电路采用SRAM作为数据存储器,相比寄存器阵列的存储器结构可以大大降低电路面积,大概相当于寄存器阵列结构面积的1/7~1/10。
3.在Psum计算中,需要每个时钟对SRAM数据先进行读操作,将其与输入数据累加后再写回SRAM中,所以一个时钟周期需要对SRAM进行一次读和写操作,常规电路方案只能采用双口SRAM或者两块同等容量的单口SRAM,而双口SRAM比单口SRAM结构复杂,面积更大,功耗也更高,两个同等容量的SRAM又会使面积增大两倍。本发明采用双倍数据位宽的单口SRAM,配合采用数据缓存的方法将读写操作分成两个时钟,实现了只用一个同等容量的单口RAM达到相同的计算效率。
附图说明
图1为本发明Psum计算电路的结构示意图。
图2为Psum存储器的结构示意图。
图3为本发明Psum计算电路的读写时序示意图。
图4为NPU的总体结构示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
在卷积神经网络中,输出特征图(OUT_MI)由N个输入特征图(IN_Mi)与卷积核(Wi)做卷积运算后全加得出,如下式所示:
Figure GDA0004143434510000041
上面的公式又可转换为累加操作,如下式所示:
Figure GDA0004143434510000042
其中
Figure GDA0004143434510000043
一般由卷积运算电路得出,Psum_MI和INC_Mi的分辨率与OUT_MI一致。假设OUT_MI分辨率64×64,数据位宽为16位,则Psum_MI和INC_Mi的图像大小为64×64×16=8KB,由于Psum计算需要多个INC_Mi累加,所以需要能存储整个图像的缓存器,而图像缓存器一般有两种方案:一种方案是采用寄存器堆来存储图像,即每个图像数据使用一个16位的寄存器来存储,需要64×64个寄存器才能存储上面的图像,此方案的优点是控制简单,效率高,但是耗费的电路面积过大(寄存器堆面积一般是SRAM的7~10倍);另一种方案是采用SRAM(静态存储器)来缓存图像,此种方案电路面积小,但是控制电路相对复杂,由于卷积计算缩率比较快(每个时钟计算一笔数据),Psum计算要跟上卷积速度的话,需要每个时钟对SRAM分别进行一次读操作和写操作,这就需要使用双口SRAM做为存储器,但是双口SRAM的电路面积较大,一般为单口SRAM的1.8倍。
本发明提出一种新的Psum电路架构,在使用同等容量的单口SRAM情况下,Psum速度也可以达到每个时钟完成一笔累加运算,这样既达到高速率,又使得电路面积更小,其电路架构如图1所示,包括Psum存储器、读写控制器和加法器,该Psum计算电路中的Psum存储器采用单口SRAM构成,并且使用双倍数据位宽,配合读写电路和加法器,可实现每个时钟进行一次读写操作及累加计算,并且极大减小电路面积。
以上述特征图大小为例,则SRAM的数据位宽为32位,长度为2048,存储器结构如图2所示,每个地址存储2个数据位宽的数据,所以每次读SRAM可以读到2个Psum,同理每次写SRAM可以写入两个数据,再通过读写交错的控制方法即可实现每个时钟都读写一个数据的效率。
本发明Psum计算电路的读写时序如图3所示,读写控制器控制读写操作的流程分解成两个时钟:
时钟1:读写控制器对Psum先进行读操作,并将高位数据(Psum2N+1)存储到内部读数据缓存器中,同时将低位数据(Psum2N)传送给加法器,加法器将输入的INC_Pix2N和Psum2N数据相加后将其结果Psum2N_r缓存到写数据缓存器中。
时钟2:读写控制器将读数据缓存的数据(Psum2N+1)传送给加法器,加法器将输入的INC_Pix2N+1与Psum2N+1相加后将数据Psum2N+1_r发送给读写控制器,读写控制器将写数据缓存器Psum2N_r与Psum2N+1_r拼成32位数据,写入Psum缓存器中并替换Psum2N和Psum2N+1。
如图4所示,在卷积神经网络中NPU一般都设有输入特征图和输出特征图的缓存器(比Psum缓存器容量大的多),本发明利用输出特征图的缓存器做为缓存,只需要将Psum存储器的位宽设为2倍数据位宽,采用读写交错的控制方式也可以实现相同效率的Psum计算电路,并且减少了单独的Psum缓存器,进一步减小了电路面积。
在Psum计算中,需要每个时钟对SRAM数据先进行读操作,将其与输入数据累加后再写回SRAM中,所以一个时钟周期需要对SRAM进行一次读和写操作,常规电路方案只能采用双口SRAM或者两块同等容量的单口SRAM,而双口SRAM比单口SRAM结构复杂,面积更大,功耗也更高,两个同等容量的SRAM又会使面积增大两倍。本发明采用双倍数据位宽的单口SRAM,配合采用数据缓存的方法将读写操作分成两个时钟,实现了只用一个同等容量的单口RAM达到相同的计算效率。
以实际的NPU设计为实施例,NPU电路架构采用输入缓存、输出缓存、控制器及核心计算阵列的组合方式。在NPU开始计算时,输入缓存中的输入特征图和权值数据被控制器读出,发送给核心计算阵列进行卷积、池化和激活等运算,其结果存储到输出缓存中,以此数据流完成卷积神经网络中的一层计算,其他层的网络计算与此类似。在卷积层的计算中,核心计算阵列根据输入特征图和权值数据进行卷积计算后,将其结果发送Psum计算电路进行Psum计算,卷积和Psum计算采用流水线设计方式,保证每个时钟都能完成一笔Psun计算,当所有输入特征图全部完成卷积计算后Psum计算也会完成。以NPU最大支持特征图分辨率128×128的16位数据位宽为例,采用四种方案进行Psum电路设计:
1.寄存器阵列缓存Psum数据。
2.双口SRAM缓存Psum数据。
3.双倍数据位宽的单口SRAM缓存Psum数据。
4.采用双倍数据位宽的输出缓存作为Psum存储。
以上四种方案在40nm的工艺节点上电路综合所得出的Psum计算电路面积如下:
方案1电路面积:854800um2
方案2电路面积:166790um2
方案3电路面积:104244um2
方案4电路面积:2106um2
由以上结果可以明显看出本发明所提出Psum电路方案成本优势,方案3相比方案1减少了88%的面积,而方案4由于将输出缓存复用为作为Psum缓存器,使得Psum电路面积减少了99%以上。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明,熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (5)

1.一种针对卷积神经网络的Psum计算电路,其特征在于,包括:
Psum存储器,用于存储卷积神经网络输入特征图的Psum数据;
读写控制器,用于对Psum存储器进行读写操作并缓存相应数据结果,将读取的Psum数据传送给加法器,同时将加法器的计算结果写入Psum存储器中进行更新;
加法器,用于将新输入特征图经卷积过后的图像数据与读取到的Psum数据进行相加;
所述读写控制器采用读写交错的控制方式对Psum存储器进行读写操作,以实现每个时钟都能读写一个数据的效率,读写控制器进行读写操作的具体过程分为2个时钟:
时钟1:读写控制器对Psum存储器先进行读操作,对于其任一地址存储的两个Psum数据,将其中的高位数据Psum2i+1缓存至读写控制器内部的读数据缓存器中,同时将低位数据Psum2i传送给加法器,由加法器将输入的INC_Pix2i与低位数据Psum2i相加后的结果Psum2i_r缓存至读写控制器内部的写数据缓存器中;
时钟2:读写控制器将内部读数据缓存器中缓存的高位数据Psum2i+1传送给加法器,由加法器将输入的INC_Pix2i+1与高位数据Psum2i+1相加后的结果Psum2i+1_r传送给读写控制器,读写控制器将内部写数据缓存器中缓存的结果Psum2i_r与Psum2i+1_r拼成2倍数据位宽的数据后写入Psum存储器以替换Psum2i和Psum2i+1
其中:INC_Pix2i和INC_Pix2i+1分别为新输入特征图经卷积过后图像中第2i个像素点和第2i+1个像素点的像素值,Psum2i和Psum2i+1分别为之前输入的各特征图经卷积过后图像中对应第2i个像素点和第2i+1个像素点的像素累加值,i为自然数。
2.根据权利要求1所述的Psum计算电路,其特征在于:所述Psum存储器按像素点对特征图数据进行存储,对于任一像素点,其Psum数据为之前输入的各特征图经卷积过后图像中对应像素点的像素累加值。
3.根据权利要求1所述的Psum计算电路,其特征在于:所述读写控制器内部包含有读数据缓存器和写数据缓存器,其中读数据缓存器用于缓存从Psum存储器中读取到的部分数据,写数据缓存器用于缓存加法器计算得到的部分结果。
4.根据权利要求1所述的Psum计算电路,其特征在于:所述Psum存储器采用单口SRAM构成,其位宽为双倍数据位宽,使得每个地址可存储2倍数据位宽的数据。
5.根据权利要求1所述的Psum计算电路,其特征在于:该电路采用双倍数据位宽的单口SRAM,配合采用数据缓存的方法将读写操作分成两个时钟,实现了只用一个同等容量的单口RAM达到相同的计算效率。
CN202211072991.5A 2022-09-02 2022-09-02 一种针对卷积神经网络的Psum计算电路 Active CN115481721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211072991.5A CN115481721B (zh) 2022-09-02 2022-09-02 一种针对卷积神经网络的Psum计算电路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211072991.5A CN115481721B (zh) 2022-09-02 2022-09-02 一种针对卷积神经网络的Psum计算电路

Publications (2)

Publication Number Publication Date
CN115481721A CN115481721A (zh) 2022-12-16
CN115481721B true CN115481721B (zh) 2023-06-27

Family

ID=84421988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211072991.5A Active CN115481721B (zh) 2022-09-02 2022-09-02 一种针对卷积神经网络的Psum计算电路

Country Status (1)

Country Link
CN (1) CN115481721B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070178A (zh) * 2019-04-25 2019-07-30 北京交通大学 一种卷积神经网络计算装置及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480690B2 (en) * 2003-12-29 2009-01-20 Xilinx, Inc. Arithmetic circuit with multiplexed addend inputs
CN108805272A (zh) * 2018-05-03 2018-11-13 东南大学 一种基于fpga的通用卷积神经网络加速器
CN110533176B (zh) * 2018-05-25 2022-10-11 赛灵思电子科技(北京)有限公司 用于神经网络计算的缓存装置及其相关计算平台
CN113792868B (zh) * 2021-09-14 2024-03-29 绍兴埃瓦科技有限公司 神经网络计算模块、方法和通信设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070178A (zh) * 2019-04-25 2019-07-30 北京交通大学 一种卷积神经网络计算装置及方法

Also Published As

Publication number Publication date
CN115481721A (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN110097174B (zh) 基于fpga和行输出优先的卷积神经网络实现方法、系统及装置
CN107301455B (zh) 用于卷积神经网络的混合立方体存储系统及加速计算方法
CN111414994A (zh) 一种基于FPGA的Yolov3网络计算加速系统及其加速方法
CN108629406B (zh) 用于卷积神经网络的运算装置
CN108717571B (zh) 一种用于人工智能的加速方法和装置
CN116662727A (zh) 矩阵计算引擎
EP4318275A1 (en) Matrix multiplier and method for controlling matrix multiplier
CN111723336B (zh) 一种采用循环迭代方式的基于cholesky分解的任意阶矩阵求逆硬件加速系统
CN111859277B (zh) 一种稀疏矩阵向量乘法向量化实现方法
CN113313244B (zh) 面向加法网络的近存储神经网络加速器及其加速方法
CN115481721B (zh) 一种针对卷积神经网络的Psum计算电路
CN110490308B (zh) 加速库的设计方法、终端设备及存储介质
CN109800867B (zh) 一种基于fpga片外存储器的数据调用方法
US20230025068A1 (en) Hybrid machine learning architecture with neural processing unit and compute-in-memory processing elements
KR20240036594A (ko) 인-메모리 연산을 위한 부분 합 관리 및 재구성가능 시스톨릭 플로우 아키텍처들
CN113378115B (zh) 一种基于磁性随机存储器的近存稀疏向量乘法器
JP2023076026A (ja) 半導体装置
US20220164127A1 (en) Memory for an Artificial Neural Network Accelerator
CN114780057A (zh) 基于Saber密钥封装的多项式硬件乘法器及使用方法
CN114912596A (zh) 面向稀疏卷积神经网络的多chiplet系统及其方法
CN113392963A (zh) 基于fpga的cnn硬件加速系统设计方法
Shahan et al. FPGA based convolution and memory architecture for Convolutional Neural Network
Wang et al. An FPGA-Based Reconfigurable CNN Training Accelerator Using Decomposable Winograd
CN113177877B (zh) 一种面向slam后端优化的舒尔消除加速器
CN112487352B (zh) 可重构处理器上快速傅里叶变换运算方法及可重构处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant