CN110765411A - 一种卷积神经网络中卷积运算数据复用装置 - Google Patents

一种卷积神经网络中卷积运算数据复用装置 Download PDF

Info

Publication number
CN110765411A
CN110765411A CN201910837270.0A CN201910837270A CN110765411A CN 110765411 A CN110765411 A CN 110765411A CN 201910837270 A CN201910837270 A CN 201910837270A CN 110765411 A CN110765411 A CN 110765411A
Authority
CN
China
Prior art keywords
data
shifter
stored
row
flip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910837270.0A
Other languages
English (en)
Inventor
陶常勇
刘勤让
沈剑良
宋克
朱珂
高彦钊
陈艇
王元磊
林德伟
张波
张钦元
张霞
赵玉林
闻亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Binhai New Area Information Technology Innovation Center
Tianjin Core Haichuang Technology Co Ltd
Original Assignee
Tianjin Binhai New Area Information Technology Innovation Center
Tianjin Core Haichuang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Binhai New Area Information Technology Innovation Center, Tianjin Core Haichuang Technology Co Ltd filed Critical Tianjin Binhai New Area Information Technology Innovation Center
Priority to CN201910837270.0A priority Critical patent/CN110765411A/zh
Publication of CN110765411A publication Critical patent/CN110765411A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种卷积神经网络中卷积运算数据复用装置,包括4个RAM、一个数据整形复用器、以及一组乘累加计算单元,其中,第一RAM和第二RAM为真双端口ram,用于存放输入的待计算图像,第三ram用于存储卷积核,第四ram于存储乘累加后的结果;数据整形复用器包括一组D触发器搭建的时序电路,实现了对数据的复用;乘累加计算单元包括乘累加单元,多组乘累加单元组合在一起并行计算,构成一个乘累加计算单元。本发明通过构建一个数据整形复用器,实现了前后两个时钟周期数据的复用,使得每个时钟周期只读取部分数据到数据整形复用器中,通过在数据整形复用器中适当的移位操作就可以组合成下一排计算所需要的全部数据。

Description

一种卷积神经网络中卷积运算数据复用装置
技术领域
本发明涉及一种卷积神经网络中卷积运算数据复用装置。
背景技术
随着人工智能时代的到来,以卷积神经网络(ConvolutionNeuralNetwork,简称CNN)为代表的深度神经网络,已经广泛应用于图像分类、物体检测、视频监控等领域。然而,在以CPU或GPU为中心的通用计算系统中,难以应对CNN中大量的数据搬运和复杂的计算带来的挑战,尤其是CNN网络中计算规模最大的卷积核计算。以一副图像进行3x3卷积核计算为例,在计算的过程中存在大量的数据复用情况的发生,若每次计算都需要CPU从内存中读取9个待计算数据和9个卷积核数值,则最多时一幅图像内的同一个数据需要重复读取9次,当有9个卷积核需要同时计算时,则同一个数据需要重复读取81次。CPU大量的时间都会花费在数据的搬移上,大大影响了运算执行的效率。
发明内容
有鉴于此,本发明旨在提出一种卷积神经网络中卷积运算数据复用装置,以解决同一数据被大量重复从内存频繁搬移的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种卷积神经网络中卷积运算数据复用装置,包括4个RAM、一个数据整形复用器、以及一组乘累加计算单元,其中,
第一RAM和第二RAM为真双端口ram,连接数据整形复用器,用于存放输入的待计算图像,第三ram连接乘累加计算单元,用于存储卷积核,第四ram连接乘累加计算单元,用于存储乘累加后的结果;
数据整形复用器包括一组D触发器搭建的时序电路,实现了对数据的复用;
乘累加计算单元包括乘累加单元,多组乘累加单元组合在一起并行计算,构成一个乘累加计算单元,其中,乘累加单元包括一个乘法器和一个加法器。
进一步的,所述数据整形复用器包括四个行移位器,每一个行移位器内部包括深度为4宽度为1的移位寄存器,移位寄存器包括4个D触发器,在行移位器内部,数据移位的方向可以在两个方向上移位,在4个行移位器之间,也可以在两个方向上移位。
进一步的,所述数据整形复用器中,第一行移位器的输出端通过选通器连接第二行移位器,第四行移位器的输出端通过选通器连接第三行移位器,第二行移位器的输入端通过选通器连接第四行移位器的输入端,第一行移位器的输入端通过选通器连接第三行移位器的输入端,第一行移位器的输入端通过选通器连接第四行移位器的输入端。
进一步的,设计数据整形复用器4种动作,分别为上移、下移、左移、右移,
当左移发生时,每个行移位器中,第二D触发器reg2的数据存入第一D触发器reg1中,第三D触发器reg3的数据存入第二D触发器reg2中,第四D触发器reg4的数据存入第三D触发器reg3中,从ram中读出的数据分别存入每个行移位器的第四D触发器reg4中;
当右移发生时,每个行移位器中,第三D触发器reg3的数据存入第四D触发器reg4中,第二D触发器reg2的数据存入第三D触发器reg3中,第一D触发器reg1的数据存入第二D触发器reg2中,从ram中读出的数据分别存入每个行移位器的第一D触发器reg1中;
当上移发生时,第二行移位器中的数据存入第一行移位器中,第三行移位器中的数据存入第二行移位器中,第四行移位器中的输入存入第三行移位器中,从ram读出的数据存入第四行移位器中;
当下移发生时,第三行移位器中的数据存入第四行移位器中,第二行移位器中的数据存入第三行移位器中,第一行移位器中的数据存入第二行移位器中,从ram中读出的数据存入第一行移位器中。
相对于现有技术,本发明所述的一种卷积神经网络中卷积运算数据复用装置具有以下优势:
(1)本发明大幅降低了多个乘累加并行加速计算时对ram接口数据吞吐量的压力;
(2)本发明的数据整形复用器的电路只通过多组移位寄存器即可实现四个方向上的移动,电路结构实现简单;
(3)运用本发明的电路结构,数据整形复用器仅与乘累加加速单元的数量相关,而对乘累加加速单元原则上没有形状的限制,并不限定为正方形或矩阵形式,也不限定卷积神经网络的具体算法、卷积核尺寸和神经元数量,因此适用于所有存在大量数据复用的卷积运算中。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的实施例中卷积神经网络中卷积运算数据复用装置的结构示意图;
图2为本发明实施例所述的调整后的控制逻辑计算流程示意图;
图3为本发明实施例所述的PxQ个数据位置关系示意图;
图4为本发明实施例所述的数据整形复用器的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明提供一种卷积神经网络中卷积运算数据复用装置,共由四个RAM、一个数据整形复用器和一组乘累加计算单元组成,其中ram1和ram2为真双端口ram,用来存放输入的待计算图像,ram3用来存储卷积核,ram4用来存储乘累加后的结果。数据整形复用器由一组D触发器搭建的时序电路组成,实现了对数据的复用。一个乘法器和一个加法器构成一个乘累加单元,多组乘累加单元组合在一起并行计算,构成了一个乘累加并行加速计算部件。
假设并行乘累加单元的数量为N个,每个乘累加单元可以完成一个图像点的卷积计算,考虑到多组计算同时进行,则可由N个乘累加公式同时开展运算,为达到最优的数据复用效果,假设公式N=Q*P成立,则有如下公式表述计算过程:
Figure BDA0002192586700000041
式中,y表示输出图像中某一元素;
x表示输入图像的某一元素;
k表示卷积核的某一个值;
K表示卷积核的尺寸,卷积核的元素数目为K2个,对于某种卷积神经网络的某一层而言一般为一个常数,不同层的卷积核可能有所不同;
H的值与K值相关,当K为奇数时,
Figure BDA0002192586700000051
当K为偶数时,
Figure BDA0002192586700000052
考虑到每个公式由一个乘累加单元独立完成计算,多个乘累加单元并行工作,因此,在每个时钟周期,需要数据整形复用器输出N个输入图像x的数值和1个卷积核的k值。
如果再考虑到一副图像需要针对S个卷积核进行计算,则公式会变为:
Figure BDA0002192586700000053
式中,S表示卷积核的数量。
通过仔细观察上述公式,可以看到如下规律:
1)当某个时钟周期增加或减小1时,移位缓存阵列中只有Q个数据发生了更新,需要从RAM中重新读取;
2)当某个时钟周期r增加或减小1时,移位缓存阵列中只有P个数据发生了更新,需要从RAM中重新读取;
3)当某个时钟周期s增加或减小1时,移位缓存阵列的输出保持不变,只有卷积核的卷积值k需要更新。
因此,如果控制逻辑的计算顺序,使得同一时钟周期内l、r和s不会同时发生变化时,则每个时钟数据整形复用器从ram中读取的数据量不会超过P和Q最大值个数据。为了实现这一目的,可将每个计算公式调整为:
Figure BDA0002192586700000061
这样调整后,l、r和s的变化过程如图2所示,图2中定义了l_inr变量控制l变化的方向时递增还是递减的。
当P或Q的值比较大时,在ram的位宽和缓存设计中可以考虑将PxQ个数据按照位置关系平均分成16份,保存在两个RAM中,如图3所示,PxQ的第一组数据存放在RAM1的地址1里,第二组数据存放在RAM2的地址1里,第三组数据存放在RAM1的地址2里,依次类推。
在数据整形复用器中,需要设计Q组移位寄存器,每个移位寄存器的深度为P,当l变化1时,根据l变化的方向,每个移位寄存器均发生移位,移位的步进为1,宽度为1bit;当r发生变化时,则在Q组移位寄存器间进行移位,移位的步进为1,宽度为Pbit。因此,可将数据整形复用器的动作分为四类,右移、左移、下移、上移。具体情况下面根据一个具体实例予以说明。
为了更好的说明以上逻辑结构与工作过程,本文以一个实例为例详细进行说明,实例中假设卷积核的尺寸为3x3,因此K值为3;卷积核的数量为2,因此S的值为2;实例中乘累加的数量为16个,每个时钟周期可以进行16次乘加运算,因此N为16,P的值为4,Q的值为4。
输入图像在ram中的存储方式如表1所示,输入图像第一行的第一个元素存放在ram1的地址1里,用1.1表示;第二个元素存放在ram2的地址1里,用2.1表示;其他的元素一次类推;
表1
1.1 2.1 1.2 2.2 1.3 2.3 1.4 2.4 1.5 2.5
2.6 1.6 2.7 1.7 2.8 1.8 2.9 1.9 2.10 1.10
1.11 2.11 1.12 2.12 1.13 2.13 1.14 2.14 1.15 2.15
2.16 1.16 2.17 1.17 2.18 1.18 2.19 1.19 2.20 1.20
1.21 2.21 1.22 2.22 1.23 2.23 1.24 2.24 1.25 2.25
2.26 1.26 2.27 1.27 2.28 1.28 2.29 1.29 2.30 1.30
数据整形复用器内部逻辑结构如图4所示,图中,由四个行移位器组成,每一个行移位器内部由深度为4宽度为1的移位寄存器组成。在行移位器内部,数据移位的方向可以在两个方向上移位。在4个行移位器之间,也可以在两个方向上移位。为此,我们可以把数据整形复用器设计为4种动作,分别为上移、下移、左移、右移。
当左移发生时,每个行移位器中,reg2的数据存入reg1中,reg3的数据存入reg2中,reg4的数据存入reg3中,从ram中读出的数据分别存入每个行移位器的reg4中。
当右移发生时,每个行移位器中,reg3的数据存入reg4中,reg2的数据存入reg3中,reg1的数据存入reg2中,从ram中读出的数据分别存入每个行移位器的reg1中。
当上移发生时,行移位器2中的数据存入行移位器1中,行移位器3中的数据存入行移位器2中,行移位器4中的输入存入行移位器3中,从ram读出的数据存入行移位器4中;
当下移发生时,行移位器3中的数据存入行移位器4中,行移位器2中的数据存入行移位器3中,行移位器1中的数据存入行移位器2中,从ram中读出的数据存入行移位器1中。
则按照以上计算公式,完成16个公式的乘加计算需要18个时钟周期,这18个时钟周期输入到乘累加单元的数据如表2所示:
表2
Figure BDA0002192586700000081
表中斜体字为本周期需要从ram中读取的数据。
可以看到,当卷积核数量为1时,平均每个时钟周期只从ram中读取四个输入图像数据,当卷积核2时,平均每个时钟周期只需要从ram中读取2个输入图像数据即可。
应用本发明描述的逻辑电路,通过构建一个数据整形复用器,实现了前后两个时钟周期数据的复用,使得每个时钟周期只读取部分数据到数据整形复用器中,通过在数据整形复用器中适当的移位操作就可以组合成下一排计算所需要的全部数据,降低了多个乘累加单元并行执行时对ram接口访问的带宽需求,并且所设计的数据整形复用器的逻辑电路与乘累加单元的数量强相关,而与所采用的CNN算法、卷积核尺寸、神经元数量等信息无关。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种卷积神经网络中卷积运算数据复用装置,其特征在于:包括4个RAM、一个数据整形复用器、以及一组乘累加计算单元,其中,
第一RAM和第二RAM为真双端口ram,连接数据整形复用器,用于存放输入的待计算图像,第三ram连接乘累加计算单元,用于存储卷积核,第四ram连接乘累加计算单元,用于存储乘累加后的结果;
数据整形复用器包括一组D触发器搭建的时序电路,实现了对数据的复用;
乘累加计算单元包括乘累加单元,多组乘累加单元组合在一起并行计算,构成一个乘累加计算单元,其中,乘累加单元包括一个乘法器和一个加法器。
2.根据权利要求1所述的一种卷积神经网络中卷积运算数据复用装置,其特征在于:所述数据整形复用器包括四个行移位器,每一个行移位器内部包括深度为4宽度为1的移位寄存器,移位寄存器包括4个D触发器,在行移位器内部,数据移位的方向可以在两个方向上移位,在4个行移位器之间,也可以在两个方向上移位。
3.根据权利要求2所述的一种卷积神经网络中卷积运算数据复用装置,其特征在于:所述数据整形复用器中,第一行移位器的输出端通过选通器连接第二行移位器,第四行移位器的输出端通过选通器连接第三行移位器,第二行移位器的输入端通过选通器连接第四行移位器的输入端,第一行移位器的输入端通过选通器连接第三行移位器的输入端,第一行移位器的输入端通过选通器连接第四行移位器的输入端。
4.根据权利要求2所述的一种卷积神经网络中卷积运算数据复用装置,其特征在于:设计数据整形复用器4种动作,分别为上移、下移、左移、右移,
当左移发生时,每个行移位器中,第二D触发器reg2的数据存入第一D触发器reg1中,第三D触发器reg3的数据存入第二D触发器reg2中,第四D触发器reg4的数据存入第三D触发器reg3中,从ram中读出的数据分别存入每个行移位器的第四D触发器reg4中;
当右移发生时,每个行移位器中,第三D触发器reg3的数据存入第四D触发器reg4中,第二D触发器reg2的数据存入第三D触发器reg3中,第一D触发器reg1的数据存入第二D触发器reg2中,从ram中读出的数据分别存入每个行移位器的第一D触发器reg1中;
当上移发生时,第二行移位器中的数据存入第一行移位器中,第三行移位器中的数据存入第二行移位器中,第四行移位器中的输入存入第三行移位器中,从ram读出的数据存入第四行移位器中;
当下移发生时,第三行移位器中的数据存入第四行移位器中,第二行移位器中的数据存入第三行移位器中,第一行移位器中的数据存入第二行移位器中,从ram中读出的数据存入第一行移位器中。
CN201910837270.0A 2019-09-05 2019-09-05 一种卷积神经网络中卷积运算数据复用装置 Pending CN110765411A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910837270.0A CN110765411A (zh) 2019-09-05 2019-09-05 一种卷积神经网络中卷积运算数据复用装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910837270.0A CN110765411A (zh) 2019-09-05 2019-09-05 一种卷积神经网络中卷积运算数据复用装置

Publications (1)

Publication Number Publication Date
CN110765411A true CN110765411A (zh) 2020-02-07

Family

ID=69330495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910837270.0A Pending CN110765411A (zh) 2019-09-05 2019-09-05 一种卷积神经网络中卷积运算数据复用装置

Country Status (1)

Country Link
CN (1) CN110765411A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111610963A (zh) * 2020-06-24 2020-09-01 上海西井信息科技有限公司 芯片结构及其乘加计算引擎
CN112163612A (zh) * 2020-09-24 2021-01-01 深兰人工智能芯片研究院(江苏)有限公司 基于fpga的大模板卷积图像匹配方法、装置及系统
CN113971261A (zh) * 2020-07-23 2022-01-25 中科亿海微电子科技(苏州)有限公司 卷积运算装置、方法、电子设备及介质
CN116860181A (zh) * 2023-09-01 2023-10-10 深圳比特微电子科技有限公司 Sram阵列的数据选择装置、存储系统和系统级芯片
CN117273102A (zh) * 2023-11-23 2023-12-22 深圳鲲云信息科技有限公司 用于池化加速器的装置及方法和芯片电路及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110239032A1 (en) * 2008-12-04 2011-09-29 Canon Kabushiki Kaisha Convolution operation circuit and object recognition apparatus
CN106951395A (zh) * 2017-02-13 2017-07-14 上海客鹭信息技术有限公司 面向压缩卷积神经网络的并行卷积运算方法及装置
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器
CN109993272A (zh) * 2017-12-29 2019-07-09 北京中科寒武纪科技有限公司 卷积及降采样运算单元、神经网络运算单元和现场可编程门阵列集成电路

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110239032A1 (en) * 2008-12-04 2011-09-29 Canon Kabushiki Kaisha Convolution operation circuit and object recognition apparatus
CN106951395A (zh) * 2017-02-13 2017-07-14 上海客鹭信息技术有限公司 面向压缩卷积神经网络的并行卷积运算方法及装置
CN109993272A (zh) * 2017-12-29 2019-07-09 北京中科寒武纪科技有限公司 卷积及降采样运算单元、神经网络运算单元和现场可编程门阵列集成电路
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111610963A (zh) * 2020-06-24 2020-09-01 上海西井信息科技有限公司 芯片结构及其乘加计算引擎
CN111610963B (zh) * 2020-06-24 2021-08-17 上海西井信息科技有限公司 芯片结构及其乘加计算引擎
CN113971261A (zh) * 2020-07-23 2022-01-25 中科亿海微电子科技(苏州)有限公司 卷积运算装置、方法、电子设备及介质
CN112163612A (zh) * 2020-09-24 2021-01-01 深兰人工智能芯片研究院(江苏)有限公司 基于fpga的大模板卷积图像匹配方法、装置及系统
CN116860181A (zh) * 2023-09-01 2023-10-10 深圳比特微电子科技有限公司 Sram阵列的数据选择装置、存储系统和系统级芯片
CN116860181B (zh) * 2023-09-01 2024-02-02 深圳比特微电子科技有限公司 Sram阵列的数据选择装置、存储系统和系统级芯片
CN117273102A (zh) * 2023-11-23 2023-12-22 深圳鲲云信息科技有限公司 用于池化加速器的装置及方法和芯片电路及计算设备
CN117273102B (zh) * 2023-11-23 2024-05-24 深圳鲲云信息科技有限公司 用于池化加速器的装置及方法和芯片电路及计算设备

Similar Documents

Publication Publication Date Title
CN110765411A (zh) 一种卷积神经网络中卷积运算数据复用装置
JP7358382B2 (ja) 演算を加速するための加速器及びシステム
US11204976B2 (en) Expanded kernel generation
CN111667051B (zh) 适用边缘设备的神经网络加速器及神经网络加速计算方法
CN106970896B (zh) 面向向量处理器的二维矩阵卷积的向量化实现方法
US20190095776A1 (en) Efficient data distribution for parallel processing
US11507350B2 (en) Processing apparatus and processing method
CN110188869B (zh) 一种基于卷积神经网络算法的集成电路加速计算的方法及系统
WO2018132718A1 (en) Methods and apparatus for matrix processing in a convolutional neural network
CN108564168A (zh) 一种对支持多精度卷积神经网络处理器的设计方法
CN108629406B (zh) 用于卷积神经网络的运算装置
US20240265234A1 (en) Digital Processing Circuits and Methods of Matrix Operations in an Artificially Intelligent Environment
CN109472361B (zh) 神经网络优化方法
CN112119459A (zh) 用于张量数据的存储器布置
CN108170640B (zh) 神经网络运算装置及应用其进行运算的方法
CN110989920A (zh) 能量高效的存储器系统和方法
CN108717571B (zh) 一种用于人工智能的加速方法和装置
EP3709225A1 (en) System and method for efficient utilization of multipliers in neural-network computations
WO2023065983A1 (zh) 计算装置、神经网络处理设备、芯片及处理数据的方法
US10810696B2 (en) System and methods for computing 2-D convolutions and cross-correlations
CN110490308B (zh) 加速库的设计方法、终端设备及存储介质
CN111133455A (zh) 处理器及其控制方法
Zhou et al. A parallel ring ordering algorithm for efficient one-sided Jacobi SVD computations
CN115310037A (zh) 矩阵乘法计算单元、加速单元、计算系统和相关方法
CN110222815B (zh) 适用于深度学习硬件加速器的可配置激活函数装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200207