CN112836803A - 一种提高卷积运算效率的数据摆放方法 - Google Patents
一种提高卷积运算效率的数据摆放方法 Download PDFInfo
- Publication number
- CN112836803A CN112836803A CN202110157998.6A CN202110157998A CN112836803A CN 112836803 A CN112836803 A CN 112836803A CN 202110157998 A CN202110157998 A CN 202110157998A CN 112836803 A CN112836803 A CN 112836803A
- Authority
- CN
- China
- Prior art keywords
- characteristic values
- data
- eigenvalues
- sram
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 13
- 238000009825 accumulation Methods 0.000 claims description 10
- 238000012804 iterative process Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种提高卷积运算效率的数据摆放方法,包括以下步骤:w方向数据缓存模块从块数据缓存sram中取出特定数量的w方向特征值、h方向特征值和c方向特征值,根据第一预设数目将w方向特征值依次摆放到sram子模块中,根据第二预设数目将h方向特征值依次摆放到sram子模块中,根据第三预设数目将c方向特征值依次摆放到sram子模块中,通过迭代展开为一维数据保存在n个sram子模块中;将sram子模块中的一维数据发送到fifo缓存模块;将一维数据从fifo缓存模块发送到数据拼凑模块,根据filter窗口的尺寸对一维数据进行对应的重排序。本发明的有益效果是:通过多级缓存加速并重排序需要取进的数据,将数据输入划成更细的输入块,提高卷积的运算效率。
Description
技术领域
本发明涉及神经网络加速芯片卷积技术领域,尤其涉及一种提高卷积运算效率的数据摆放方法。
背景技术
随着人工智能的快速发展,人们对人工智能加速芯片的运算速度的要求也越来越高。而人工智能加速芯片中普遍采用的是神经网络结构,而卷积神经网络又是其核心的一种神经网络类型。在卷积神经网络的实现中,卷积的运算时间占了很大的一部分,所以如何提高卷积的运算效率,成为了提高神经网络加速芯片运算速度的关键。目前也有很多提高卷积运算效率的方法,但从卷积的数据输入的摆放角度还没有更好的方法。
发明内容
针对上述问题,本发明提出一种提高卷积运算效率的数据摆放方法,旨在改进数据摆放方法,以提高卷积运算效率。
为解决上述技术问题,本发明的技术方案如下:
一种提高卷积运算效率的数据摆放方法,包括以下步骤:
w方向数据缓存模块从块数据缓存sram中取出特定数量的w方向特征值、h方向特征值和c方向特征值,根据第一预设数目将所述w方向特征值依次摆放到sram子模块中,根据第二预设数目将所述h方向特征值依次摆放到sram子模块中,根据第三预设数目将所述c方向特征值依次摆放到sram子模块中,通过迭代展开为一维数据保存在n个sram子模块中;
将sram子模块中的一维数据发送到fifo缓存模块;
将一维数据从fifo缓存模块发送到数据拼凑模块,根据filter窗口的尺寸对所述一维数据进行对应的重排序;
其中,w为输入宽度,h为输入高度,c为通道数量,kw为卷积核的宽度,kh为卷积核的高度,sh为卷积核高度方向的步长,sw为卷积核宽度方向的步长。
在一些实施方式中,所述特定数量根据所述摆放的处理速度、kw、kh、c、sw和sh的支持范围,以及平均每个周期要求完成的卷积核乘累加运算组数的最低要求共同决定。
在一些实施方式中,所述第一预设数目、所述第二预设数目和所述第三预设数目在迭代过程数目变化或不变化。
在一些实施方式中,所述sram子模块和所述fifo缓存模块的数量一致。
在一些实施方式中,filter窗口的尺寸包括kw、kh和sh,且定义sw=1。
在一些实施方式中,所述重排序具体为:所述一维数据根据filter窗口的尺寸排序,分为c=1、c=4、c=8和c=16*n四类,当c=1,根据kw方向的特征值的不同数目,从每个所述fifo缓存模块中取出对应数目a的特征值,以拼凑出最大m个pixel特征值为限,且拼凑kw方向相邻的特征值;当c=4,根据kw方向的特征值的不同数目,从每个所述fifo缓存模块中取出对应数目a1的特征值,a1为c的倍数,以拼凑出最大m个pixel特征值为限,且拼凑kw方向相邻的特征值,当kw=3,取出对应的数目a2,a2=(m/3)取整数;当c=8或c=16*n,根据kw方向的特征值的不同数目,从每个所述fifo缓存模块中取出对应数目a3或a4的特征值,拼凑出最大m个pixel特征值,且拼凑kw方向相邻的两个特征值。
在一些实施方式中,若所述sram子模块的数量不足以重排序出wa_max个特征值组;
对于当c=16n,wa≤(wa_max/2)且wa>(wa_max/4),在c通道方向按照g1个特征值进行将特征值组拆分;
当c<16,wa≤(wa_max/2),ha>1,在kernal的h方向将两个特征值组同时输入卷积乘累加阵列;
当c=16n,ha>1,wa≤(wa_max/4),在c通道方向按g1个特征值划分并且在kernal的h方向将两个特征值组同时输入卷积乘累加阵列;
其中,wa为b个sram子模块的组合出来的特征值个数,wa_max为卷积每个周期能处理最大的wa数目,ha为每个sram子模块能组合出来h方向的特征值个数。
在一些实施方式中,若wa的数目不是2或者4的倍数,当wa<(wa_max/2),且当ha≥n1,将下一周期处理的kernal的h方向的部分wa数目,放到当前周期处理;
若wa的数目不是2或者4的倍数,当wa<(wa_max/4),且当ha≥n1,将下一周期处理的kernal的h方向的部分wa数目,放到当前周期处理,同时在c通道方向按照g1个特征值进行将特征值组拆分。
本发明的有益效果为:通过多级缓存加速并重排序需要取进的数据,将数据输入划成更细的输入块,提高卷积的运算效率。
附图说明
图1为本发明实施例公开的提高卷积运算效率的数据摆放方法的流程图;
图2为、卷积特征值的摆放示意图;
图3为、filter对应的特征值沿channel方向划分的示意图;
图4为h方向的两个kernal对应的特征值以虚线划分的示意图;
图5为h方向的两个kernal并在c方向进行划分的示意图;
图6为特殊数目wa的处理过程的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,下面结合附图和具体实施方式对本发明的内容做进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
如图1所示,本实施例提出了一种提高卷积运算效率的数据摆放方法,包括以下步骤:
步骤一,w方向数据缓存模块从块数据缓存sram中取出特定数量的w方向特征值、h方向特征值和c方向特征值,特定数量根据摆放的处理速度、kw、kh、c、sw和sh的支持范围,以及平均每个周期要求完成的卷积核乘累加运算组数的最低要求共同决定。根据第一预设数目将w方向特征值依次摆放到sram子模块(sram子模块属于w方向数据缓存模块的子模块)中,根据第二预设数目将h方向特征值依次摆放到sram子模块中,根据第三预设数目将c方向特征值依次摆放到sram子模块中,通过迭代展开为一维数据保存在n个sram子模块中,这样的设计主要是能同时从n个sram子模块取出n个w方向特征值,加快取数速度。
更进一步的,每一个sram子模块的数据摆放格式如图2所示,先摆c方向,从c0,c1等一直到ct。摆完ct后,接着摆ht方向,一个sram子模块能存ht*ct方向的特征值。然后n个sram之间按照wt方向存数据。这样就把一个三维的特征值,展开成一维数据保存在n个sram中。上述的第一预设数目、第二预设数目和第三预设数目均用t表示,三者的t都不一定相等的,只是描述这个过程仅仅处理整个三维特征值数据中的其中一个三维块数据,在迭代过程数目变化或不变化。
步骤二,将sram子模块中的一维数据发送到fifo缓存模块;sram子模块和fifo缓存模块的数量一致。fifo缓存模块的设置有利于在sh重组特征数据,不用重新访问sram子模块,可以直接从第一级输入fifo缓存模块中获得,能缓存sram子模块取出来的固定数目的特征值。在控制的设计上,能提前预读n个w方向特征值,并保证这部分特征值,大于或等于卷积运算乘累加单元的一个cycle消耗特征值的数目。这样就使得在整个数据到卷积乘加器阵列的重排序流水结构中,都能很好的流水进行,基本上没有气泡(过程打断)。
步骤三,将一维数据从fifo缓存模块发送到数据拼凑模块,根据filter窗口的尺寸对一维数据进行对应的重排序;filter窗口的尺寸包括kw、kh和sh,且定义sw=1。
其中,w为输入宽度,h为输入高度,c为通道数量,kw为卷积核的宽度,kh为卷积核的高度,sh为卷积核高度方向的步长,sw为卷积核宽度方向的步长。
相对于一般的卷积运算电路的数据输入,本发明通过多级缓存加速并重排序需要取进的数据,将数据输入划成更细的输入块,提高卷积的运算效率。每个cycle(周期)同时拼凑出十几组对应一个filter权重的特征数据。提高了卷积运算的利用率。
作为本发明的其中一种优选实施方案,重排序具体为:上述的一维数据根据filter窗口的尺寸排序,分为c=1、c=4、c=8和c=16*n四类,当c=1,根据kw方向的特征值的不同数目,从每个fifo缓存模块中取出对应数目a的特征值,以拼凑出最大m个pixel特征值为限,且拼凑kw方向相邻的特征值,例如kw=2,kw1的a个pixel要跟kw2的a个pixel拼到一起,并且拼起来之后要小于等于m;当c=4,根据kw方向的特征值的不同数目,从每个fifo缓存模块中取出对应数目a1的特征值,a1为c的倍数,以拼凑出最大m个pixel特征值为限,且拼凑kw方向相邻的特征值,当kw=3,取出对应的数目a2,a2=(m/3)取整数;当c=8或c=16*n,根据kw方向的特征值的不同数目,从每个fifo缓存模块中取出对应数目a3或a4的特征值,拼凑出最大m个pixel特征值,且拼凑kw方向相邻的两个特征值。当c=8,c=16*n的时候,根据最大m个pixel为限,根据kw,从每个w寄存器fifo中,取出对应的数目a3,a4,确保拼凑出来的特征值小于等于m。这样就使得不同的c,都能将输入的电路充分利用起来,提高其运算效率。
若sram子模块的数量不足以重排序出wa_max个特征值组,会影响数据输入的效率。因此,提出以下方法用于提高数据输入的效率:
对于当c=16n,wa≤(wa_max/2)且wa>(wa_max/4),在c通道方向按照g1个特征值进行将特征值组拆分;如图3所示,虚线部分为划分点。因为c方向不一样,这时候权重也会不一样,权重方向要做对应的处理。又因为取每个w的特征值的时候是先c,后h,所以在硬件上很好实现c方向的拆分,拆分之后的两部分特征值,同时输入卷积乘累加阵列,所以现在每个cycle处理的特征值个数为2*wa,相对不做处理,效率提高了一倍。
当c<16,wa≤(wa_max/2),ha>1,在kernal的h方向将两个特征值组同时输入卷积乘累加阵列;如图4所示,虚线部分为两个filter,h方向对应特征值的划分线。这样就能使得输入的特征值组提高一倍。而且因为c方向是一样,只是h方向不一样,对应的权重不需要做特殊处理。
当c=16n,ha>1,wa≤(wa_max/4),在c通道方向按g1个特征值划分并且在kernal的h方向将两个特征值组同时输入卷积乘累加阵列;如图5所示,虚线部分,分别是c方向,h方向的划分。在电路上,可以共用拆c和拼kernal h的电路结构,这时候同时输入拆c和拼kernal h方向得到的特征值组,输入为不处理的4倍效率。
其中,wa为b(b为正整数)个sram子模块的组合出来的特征值个数,wa_max为卷积每个周期能处理最大的wa数目,ha为每个sram子模块能组合出来h方向的特征值个数。
当wa的数目不是2或者4的倍数的时候,往往要将wa当作2或者4的倍数处理,这样就会使得有效率损失。例如wa为6,按照8处理,那么就会有(8-6)/wa_max的效率损失。为了处理类似情况,利用h kernal方向去填充没被用到wa电路。要对wa的特殊数目,进行针对性处理。
若wa的数目不是2或者4的倍数,当wa<(wa_max/2),且当ha≥n1(n1为正整数),将下一周期处理的kernal的h方向的部分wa数目,放到当前周期处理;如图6,当前k_h0(hkernal方向的当前kernal)wa个数目,与k_h1(h kernal方向的下一个kernal)h1_wa1=wa_max/2-wa拼接到当前周期t0来处理。在下一个周期t1,k_h1的h1_wa2=wa-h1_wa1=2*wa-(wa_max/2)(wa>(wa_max/4)),与k_h2(h1 kernal方向的下一个kernal),h2_wa1=wa_max/2-h1_wa2拼接到周期t1来处理。在下一个周期t2,k_h2的h2_wa2=wa-h2_wa1,与k_h3(h2kernal方向的下一个kernal),h3_wa1=wa_max/2-h2_wa2拼接到周期t2来处理。以此类推,直到在周期t_n(n个周期,n为正整数),hm_wa1=wa(hm_wa1为h kernal方向的n+1个kernal的wa拆分数目)。
若wa的数目不是2或者4的倍数,当wa<(wa_max/4),且当ha≥n1,将下一周期处理的kernal的h方向的部分wa数目,放到当前周期处理,同时在c通道方向按照g1个特征值进行将特征值组拆分。这样使得该情况下的数据输入依然能保持高效率,从而提高了卷积运算效率。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (8)
1.一种提高卷积运算效率的数据摆放方法,其特征在于,包括以下步骤:
w方向数据缓存模块从块数据缓存sram中取出特定数量的w方向特征值、h方向特征值和c方向特征值,根据第一预设数目将所述w方向特征值依次摆放到sram子模块中,根据第二预设数目将所述h方向特征值依次摆放到sram子模块中,根据第三预设数目将所述c方向特征值依次摆放到sram子模块中,通过迭代展开为一维数据保存在n个sram子模块中;
将sram子模块中的一维数据发送到fifo缓存模块;
将一维数据从fifo缓存模块发送到数据拼凑模块,根据filter窗口的尺寸对所述一维数据进行对应的重排序;
其中,w为输入宽度,h为输入高度,c为通道数量,kw为卷积核的宽度,kh为卷积核的高度,sh为卷积核高度方向的步长,sw为卷积核宽度方向的步长。
2.如权利要求1所述的提高卷积运算效率的数据摆放方法,其特征在于,所述特定数量根据所述摆放的处理速度、kw、kh、c、sw和sh的支持范围,以及平均每个周期要求完成的卷积核乘累加运算组数的最低要求共同决定。
3.如权利要求1所述的提高卷积运算效率的数据摆放方法,其特征在于,所述第一预设数目、所述第二预设数目和所述第三预设数目在迭代过程数目变化或不变化。
4.如权利要求1所述的提高卷积运算效率的数据摆放方法,其特征在于,所述sram子模块和所述fifo缓存模块的数量一致。
5.如权利要求1所述的提高卷积运算效率的数据摆放方法,其特征在于,filter窗口的尺寸包括kw、kh和sh,且定义sw=1。
6.如权利要求1所述的提高卷积运算效率的数据摆放方法,其特征在于,所述重排序具体为:所述一维数据根据filter窗口的尺寸排序,分为c=1、c=4、c=8和c=16*n四类,当c=1,根据kw方向的特征值的不同数目,从每个所述fifo缓存模块中取出对应数目a的特征值,以拼凑出最大m个pixel特征值为限,且拼凑kw方向相邻的特征值;当c=4,根据kw方向的特征值的不同数目,从每个所述fifo缓存模块中取出对应数目a1的特征值,a1为c的倍数,以拼凑出最大m个pixel特征值为限,且拼凑kw方向相邻的特征值,当kw=3,取出对应的数目a2,a2=(m/3)取整数;当c=8或c=16*n,根据kw方向的特征值的不同数目,从每个所述fifo缓存模块中取出对应数目a3或a4的特征值,拼凑出最大m个pixel特征值,且拼凑kw方向相邻的两个特征值。
7.如权利要求6所述的提高卷积运算效率的数据摆放方法,其特征在于,若所述sram子模块的数量不足以重排序出wa_max个特征值组;
对于当c=16n,wa≤(wa_max/2)且wa>(wa_max/4),在c通道方向按照g1个特征值进行将特征值组拆分;
当c<16,wa≤(wa_max/2),ha>1,在kernal的h方向将两个特征值组同时输入卷积乘累加阵列;
当c=16n,ha>1,wa≤(wa_max/4),在c通道方向按g1个特征值划分并且在kernal的h方向将两个特征值组同时输入卷积乘累加阵列;
其中,wa为b个sram子模块的组合出来的特征值个数,wa_max为卷积每个周期能处理最大的wa数目,ha为每个sram子模块能组合出来h方向的特征值个数。
8.如权利要求7所述的提高卷积运算效率的数据摆放方法,其特征在于,若wa的数目不是2或者4的倍数,当wa<(wa_max/2),且当ha≥n1,将下一周期处理的kernal的h方向的部分wa数目,放到当前周期处理;
若wa的数目不是2或者4的倍数,当wa<(wa_max/4),且当ha≥n1,将下一周期处理的kernal的h方向的部分wa数目,放到当前周期处理,同时在c通道方向按照g1个特征值进行将特征值组拆分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157998.6A CN112836803B (zh) | 2021-02-04 | 2021-02-04 | 一种提高卷积运算效率的数据摆放方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157998.6A CN112836803B (zh) | 2021-02-04 | 2021-02-04 | 一种提高卷积运算效率的数据摆放方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836803A true CN112836803A (zh) | 2021-05-25 |
CN112836803B CN112836803B (zh) | 2024-07-23 |
Family
ID=75932315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157998.6A Active CN112836803B (zh) | 2021-02-04 | 2021-02-04 | 一种提高卷积运算效率的数据摆放方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836803B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543139A (zh) * | 2017-09-22 | 2019-03-29 | 杭州海康威视数字技术股份有限公司 | 卷积运算方法、装置、计算机设备及计算机可读存储介质 |
CN109800857A (zh) * | 2018-12-21 | 2019-05-24 | 珠海亿智电子科技有限公司 | 一种空洞卷积加速系统及其方法 |
EP3489863A1 (en) * | 2017-11-28 | 2019-05-29 | Nanjing Horizon Robotics Technology Co., Ltd. | Method and apparatus for performing operation of convolutional layer in convolutional neural network |
CN109993293A (zh) * | 2019-02-28 | 2019-07-09 | 中山大学 | 一种适用于堆叠式沙漏网络的深度学习加速器 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
CN110414672A (zh) * | 2019-07-23 | 2019-11-05 | 江苏鼎速网络科技有限公司 | 卷积运算方法、装置及系统 |
KR20200043617A (ko) * | 2018-10-18 | 2020-04-28 | 한양대학교 산학협력단 | 고효율 연산 처리를 위한 인공 신경망 모듈 및 이의 스케쥴링 방법 |
US20200159809A1 (en) * | 2018-11-15 | 2020-05-21 | Imec Vzw | Convolution Engine for Neural Networks |
WO2020155044A1 (zh) * | 2019-01-31 | 2020-08-06 | 深圳市大疆创新科技有限公司 | 卷积计算的装置、方法、处理器和可移动设备 |
CN111931918A (zh) * | 2020-09-24 | 2020-11-13 | 深圳佑驾创新科技有限公司 | 神经网络加速器 |
-
2021
- 2021-02-04 CN CN202110157998.6A patent/CN112836803B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543139A (zh) * | 2017-09-22 | 2019-03-29 | 杭州海康威视数字技术股份有限公司 | 卷积运算方法、装置、计算机设备及计算机可读存储介质 |
EP3489863A1 (en) * | 2017-11-28 | 2019-05-29 | Nanjing Horizon Robotics Technology Co., Ltd. | Method and apparatus for performing operation of convolutional layer in convolutional neural network |
KR20200043617A (ko) * | 2018-10-18 | 2020-04-28 | 한양대학교 산학협력단 | 고효율 연산 처리를 위한 인공 신경망 모듈 및 이의 스케쥴링 방법 |
US20200159809A1 (en) * | 2018-11-15 | 2020-05-21 | Imec Vzw | Convolution Engine for Neural Networks |
CN109800857A (zh) * | 2018-12-21 | 2019-05-24 | 珠海亿智电子科技有限公司 | 一种空洞卷积加速系统及其方法 |
WO2020155044A1 (zh) * | 2019-01-31 | 2020-08-06 | 深圳市大疆创新科技有限公司 | 卷积计算的装置、方法、处理器和可移动设备 |
CN109993293A (zh) * | 2019-02-28 | 2019-07-09 | 中山大学 | 一种适用于堆叠式沙漏网络的深度学习加速器 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
CN110414672A (zh) * | 2019-07-23 | 2019-11-05 | 江苏鼎速网络科技有限公司 | 卷积运算方法、装置及系统 |
CN111931918A (zh) * | 2020-09-24 | 2020-11-13 | 深圳佑驾创新科技有限公司 | 神经网络加速器 |
Non-Patent Citations (5)
Title |
---|
MAURIZIO CAPRA等: "Hardware and software optimizations for accelerating deep neural networks:survey of current trends, challenges, and the road ahead", 《ARXIV》, 21 December 2020 (2020-12-21), pages 1 - 48 * |
VINEET PANCHBHAIYYE等: "A fifo based accelerator for convolutional neural networks", 《ICASSP 2020-2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICASSP)》, 9 April 2020 (2020-04-09), pages 1758 - 1762 * |
刘彬峰: "一种卷积神经网络加速电路的设计与FPGA实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 06, 15 June 2020 (2020-06-15), pages 135 - 7405 * |
匡鑫: "基于Zynq的卷积神经网络嵌入式加速系统设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 06, 15 June 2020 (2020-06-15), pages 137 - 79 * |
赵小强等: "基于FPGA的卷积神经网络加速器动态余数处理映射模型", 《计算机工程与科学》, vol. 43, no. 09, 24 August 2020 (2020-08-24), pages 1521 - 1528 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836803B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111242289B (zh) | 一种规模可扩展的卷积神经网络加速系统与方法 | |
CN110366732B (zh) | 用于在卷积神经网络中进行矩阵处理的方法和设备 | |
CN111445012A (zh) | 一种基于fpga的分组卷积硬件加速器及其方法 | |
CN110780923B (zh) | 应用于二值化卷积神经网络的硬件加速器及其数据处理方法 | |
US8441492B2 (en) | Methods and apparatus for image processing at pixel rate | |
US20210132903A1 (en) | Median Value Determination in a Data Processing System | |
CN112286864B (zh) | 加速可重构处理器运行的稀疏化数据处理方法及系统 | |
CN113298237B (zh) | 一种基于fpga的卷积神经网络片上训练加速器 | |
CN114116557A (zh) | 基于硬件加速器与数字信号处理器的信道估计装置及方法 | |
CN112862091A (zh) | 一种基于快速卷积的资源复用型神经网络硬件加速电路 | |
CN106682258B (zh) | 一种高层次综合工具中的多操作数加法优化方法及系统 | |
CN109447239B (zh) | 一种基于arm的嵌入式卷积神经网络加速方法 | |
CN112395549B (zh) | 一种用于矩阵乘法密集型算法的可重构矩阵乘法加速系统 | |
CN112836803A (zh) | 一种提高卷积运算效率的数据摆放方法 | |
CN110399971A (zh) | 一种卷积神经网络加速方法及装置、存储介质 | |
CN115982418B (zh) | 一种提升ai计算芯片超分运算性能的方法 | |
CN108184127B (zh) | 一种可配置的多尺寸dct变换硬件复用架构 | |
CN111814972A (zh) | 一种基于fpga的神经网络卷积运算加速方法 | |
CN214586992U (zh) | 神经网络加速电路、图像处理器及三维成像电子设备 | |
CN110517183B (zh) | 一种基于视网膜机制的高速低功耗图像处理器 | |
CN115731111A (zh) | 图像数据处理装置及方法、电子设备 | |
CN110807479A (zh) | 一种基于Kmeans算法的神经网络卷积计算加速方法 | |
CN110351482A (zh) | 图像预处理装置、方法和一种相机 | |
WO2003105088A1 (en) | Calculation method of a cumulative histogram | |
CN118261802A (zh) | 数据处理方法、协处理器、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |