CN109146072B - 基于卷积神经网络加速器的数据重用方法 - Google Patents
基于卷积神经网络加速器的数据重用方法 Download PDFInfo
- Publication number
- CN109146072B CN109146072B CN201810862232.6A CN201810862232A CN109146072B CN 109146072 B CN109146072 B CN 109146072B CN 201810862232 A CN201810862232 A CN 201810862232A CN 109146072 B CN109146072 B CN 109146072B
- Authority
- CN
- China
- Prior art keywords
- tile
- data
- module
- memory
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/544—Buffers; Shared memory; Pipes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Neurology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Image Generation (AREA)
Abstract
本发明公开了一种基于卷积神经网络加速器的数据重用方法,包括瓦片扫描模块接收命令模块的命令信息,命令信息包括需要将CNN作业分割成瓦片块的尺寸;瓦片扫描模块根据瓦片块的尺寸生成瓦片块的坐标,并发送给内存请求模块;内存请求模块生成内存读取请求,并将内存读取请求发送到内存模块中;内存模块依次返回瓦片块数据到输入激活权重缓存单元中,输入激活权重缓存单元保存接收到的瓦片块数据从而实现数据重用并将接收到的瓦片块数据发送到计算处理单元PE。本发明可以节省内存总线带宽和功耗,在有限的缓存大小中最大化数据重用。
Description
技术领域
本发明涉及卷积神经网络加速器技术领域,具体涉及一种基于卷积神经网络加速器的数据重用方法。
背景技术
卷积神经网络加速器在两个主要输入上操作,即“输入激活和权重。 IA数据(输入激活,Input Activation,简称IA)有3个维度,即W、H、C。权重数据有4个维度,即R、S、C、K。W、H、C、K可以是高达1024的大值。R、S可以是小值 (最高到5或7)。每个元素通常是16位数据。IA和权重数据需要有乘数和积累操作。典型的CNN加速器有大约1K个MAC单元。有了这种计算能力,它将需要大约50,000到3,000,000个周期才能完成CNN层的计算。加速器必须为MAC单元提供每个周期所需的所有输入IA和权重。系统的内存总线可以提供更少的带宽,因此它要求输入数据在加速器内部有很好的重用。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于卷积神经网络加速器的数据重用方法,本基于卷积神经网络加速器的数据重用方法可以节省内存总线带宽和功耗,在有限的缓存大小中最大化数据重用。
为实现上述技术目的,本发明采取的技术方案为:
一种基于卷积神经网络加速器的数据重用方法,包括执行数据重用方法的命令模块、瓦片扫描模块、内存请求模块、内存模块、输入激活权重缓存单元和计算处理单元PE;
包括以下步骤:
(1)瓦片扫描模块接收命令模块的命令信息,所述命令信息包括需要将CNN作业分割成瓦片块的尺寸;
(2)瓦片扫描模块根据瓦片块的尺寸生成瓦片块的坐标,并将瓦片块的坐标信息发送给内存请求模块中;
(4)内存请求模块根据瓦片块的坐标生成内存读取请求,并将内存读取请求发送到内存模块中;
(5)内存模块依次返回瓦片块数据到输入激活权重缓存单元中,输入激活权重缓存单元保存接收到的瓦片块数据从而实现数据重用并将接收到的瓦片块数据发送到计算处理单元PE。
作为本发明进一步改进的技术方案,所述的瓦片块的尺寸包括宽度维度上的尺寸、高度维度上的尺寸和权重维度上的尺寸。
作为本发明进一步改进的技术方案,所述的瓦片块的坐标包括宽度信息、高度信息和通道信息。
作为本发明进一步改进的技术方案,所述的步骤(2)还包括:瓦片扫描模块为瓦片块配置不同的计算处理单元PE;
配置方法包括:将相同的宽度信息、相同的高度信息且不同的通道信息的瓦片块数据分配给相同的计算处理单元PE。
作为本发明进一步改进的技术方案,所述的步骤(4)还包括:输入激活权重缓存单元保存接收到的瓦片块数据,并根据与接收到的瓦片块数据对应的瓦片块的配置方法将接收到的瓦片块数据发送到对应的计算处理单元PE中。
作为本发明进一步改进的技术方案,所述的CNN作业包括输入激活数据。
本发明的有益效果为:本发明可以通过对数据进行瓦片块分割处理,可以最大限度地重用输入激活权重缓存单元中的数据,并实现最小的内存访问带宽;在有限的缓存大小中最大化数据重用。
附图说明
图1为本发明的结构示意图。
图2为本发明的计算处理单元PE的分配图。
图3为本发明的瓦片块的W值权重图。
具体实施方式
下面根据图1至图3对本发明的具体实施方式作出进一步说明:
本发明在卷积神经网络加速器中设计一个瓦片扫描模块(Tile Scan,简称TS)。将输入激活数据分割为瓦片块并发送到后续的执行引擎PE(即计算处理单元PE)。 该分割发生在IA和权重的W、H、C和K维度上。 TS有多种扫描序列选择来分割瓦片。瓦片调度程序提供了可配置的序列,可以最大限度地重用数据缓存中的数据,并实现最小的内存访问带宽。具有最佳性能和功率的序列可能因层而异,并取决于输入激活(Input Activation,简称IA)数据的缓存和W缓存的大小。
参见图1,一种基于卷积神经网络加速器的数据重用方法,包括执行数据重用方法的命令模块、瓦片扫描模块、内存请求模块、内存模块、输入激活权重缓存单元和计算处理单元PE;本实施例中的计算处理单元PE包括4个,即PE0、PE1、PE2、PE3。
包括以下步骤:
(1)瓦片扫描模块接收命令模块的命令信息,所述命令信息包括需要将CNN作业分割成瓦片块的尺寸; 具体地,该命令信息包括IA和W的表面尺寸和一些配置寄存器值;
(2)瓦片扫描模块根据瓦片块的尺寸生成瓦片块的坐标,并将瓦片块的坐标信息发送给内存请求模块中;
(3)内存请求模块根据瓦片块的坐标生成内存读取请求,并将内存读取请求发送到内存模块中;
(4)内存模块依次返回瓦片块数据到输入激活权重缓存单元中,输入激活权重缓存单元保存接收到的瓦片块数据从而实现数据重用并将接收到的瓦片块数据发送到计算处理单元PE。
所述的瓦片块的尺寸包括宽度维度上的尺寸、高度维度上的尺寸和权重维度上的尺寸。
所述的瓦片块的坐标包括宽度信息、高度信息和通道信息。
所述的步骤(2)还包括:瓦片扫描模块为瓦片块配置不同的计算处理单元PE;配置方法包括:将相同的宽度信息、相同的高度信息且不同的通道信息的瓦片块数据分配给相同的计算处理单元PE。
所述的步骤(4)还包括:输入激活权重缓存单元保存接收到的瓦片块数据,并根据与接收到的瓦片块数据对应的瓦片块的配置方法将接收到的瓦片块数据发送到对应的计算处理单元PE中。
所述的CNN作业包括输入激活数据。
本实施例中的瓦片扫描块将整个CNN作业分割成更小的作业(即瓦片块)并将这些作业分配给可配置数量的处理引擎(Processing Engine,简称PE),又称为计算处理单元PE。
PE作业是去计算多个输出激活像素数。 IA数据的大小和瓦片的权重是可编程的。通常情况下,IA瓦片块数据的大小为8x8x8,权重的大小为RxSx8x16。 IA瓦片块数据大小也可以是8x16、4x16等。权重大小也可以是RxSx8x8。 瓦片块的delta C和K值也可能小于8。
具有相同W / H(宽度信息/高度信息)但不同C(通道信息)的作业应分配给相同的PE,以便PE可累积完整的OA而不生成部分总和。
W广播模式下的瓦片扫描分区序列示例:
首先将4个8x8x8(W方向元素数 x H方向元素数 x C方向元素数)瓦片块对应的瓦片块数据分配给4个PE。它们有不同的W / H坐标,但有相同的权重K = 0~15。 当其中一个PE完成瓦片块数据时,TS分配另一个具有相同W / H和更高通道的8x8x8的瓦片块对应的瓦片块数据给它,直到8x8xC在同一个PE中完成。然后分配另一个8x8x8与下一个W / H到PE。
所有PE同时处理相同的16 K权重。这称作W值广播。
还有另一种模式,即IA广播,其中所有PE在相同IA和不同权重下工作。在这种情况下,一个PE工作在16K的权重上,4个PE可以同时执行权重K = 0〜63。给定一定缓存大小的IA或W广播的选择可以根据不同的CNN层而不同,并且取决于IA / W大小、缓存大小以及随之而来的整体存储器带宽。
完成权重K = 0~15的一定数量瓦片块的所有通道后,TS重新进行具有下一个16 K权重的IA数据分割,直到所有重量都成了一个循环为止,然后切换到下一组IA瓦片块。
这样一组瓦片块数据的最佳数量应该使得在K循环中的IA数据全部可以保存在IA数据高速缓存(输入激活权重缓存单元)中,从而不需要IA数据重新加载。
如图2所示,该图中的每个瓦片柱由3个具相同W坐标(宽度信息)和H坐标(高度信息)但不同C坐标(通道信息)的瓦片块(图2中的方块)所组成。在本图中,瓦片柱0至3被TS指派给PE0至PE3。PE完成计算后,瓦片柱4至7被指派给PE0至PE3。最后一个瓦片柱8随后被指派给PE0。即具有相同W / H(宽度信息/高度信息)但不同C(通道信息)的作业应分配给相同的PE。
如图3所示,图中的每个立方体代表一个瓦片块的W(权重)。PE一次可以用瓦片块的IA来计算16 W。图中为32 W (K=0~31),其分为2组:K=0~15, K=16~31。在W广播(W值权重)模式下,TS以以下顺序用某个W组分割IA 瓦片块:
(1)以W K0~K15运行IA瓦片块0~11;
(2)以W K16~K31运行IA瓦片块0~11;
(3)以W K0~K15运行IA瓦片块12~23;
(4)以W K16~K31运行IA瓦片块12~23。
权重是每4个瓦片柱圈起来,而瓦片柱的数量是可编程的。
本发明实现了各种数据分割序列用于数据重用和存储带宽节省。不同的缓存大小和不同的层可以选择不同的序列。
本发明的保护范围包括但不限于以上实施方式,本发明的保护范围以权利要求书为准,任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。
Claims (6)
1.一种基于卷积神经网络加速器的数据重用方法,其特征在于,包括执行数据重用方法的命令模块、瓦片扫描模块、内存请求模块、内存模块、输入激活权重缓存单元和计算处理单元PE;
包括以下步骤:
(1)瓦片扫描模块接收命令模块的命令信息,所述命令信息包括需要将CNN作业分割成瓦片块的尺寸;
(2)瓦片扫描模块根据瓦片块的尺寸生成瓦片块的坐标,并将瓦片块的坐标信息发送给内存请求模块中;
(3)内存请求模块根据瓦片块的坐标生成内存读取请求,并将内存读取请求发送到内存模块中;
(4)内存模块依次返回瓦片块数据到输入激活权重缓存单元中,输入激活权重缓存单元保存接收到的瓦片块数据从而实现数据重用并将接收到的瓦片块数据发送到计算处理单元PE。
2.根据权利要求1所述的基于卷积神经网络加速器的数据重用方法,其特征在于,所述的瓦片块的尺寸包括宽度维度上的尺寸、高度维度上的尺寸和权重维度上的尺寸。
3.根据权利要求2所述的基于卷积神经网络加速器的数据重用方法,其特征在于,所述的瓦片块的坐标包括宽度信息、高度信息和通道信息。
4.根据权利要求3所述的基于卷积神经网络加速器的数据重用方法,其特征在于,所述的步骤(2)还包括:瓦片扫描模块为瓦片块配置不同的计算处理单元PE;
配置方法包括:将相同的宽度信息、相同的高度信息且不同的通道信息的瓦片块数据分配给相同的计算处理单元PE。
5.根据权利要求4所述的基于卷积神经网络加速器的数据重用方法,其特征在于,所述的步骤(4)还包括:输入激活权重缓存单元保存接收到的瓦片块数据,并根据与接收到的瓦片块数据对应的瓦片块的配置方法将接收到的瓦片块数据发送到对应的计算处理单元PE中。
6.根据权利要求1所述的基于卷积神经网络加速器的数据重用方法,其特征在于,所述的CNN作业包括输入激活数据。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810862232.6A CN109146072B (zh) | 2018-08-01 | 2018-08-01 | 基于卷积神经网络加速器的数据重用方法 |
US16/237,613 US11487989B2 (en) | 2018-08-01 | 2018-12-31 | Data reuse method based on convolutional neural network accelerator |
PCT/IB2019/056518 WO2020026158A2 (zh) | 2018-08-01 | 2019-07-31 | 基于卷积神经网络加速器的数据重用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810862232.6A CN109146072B (zh) | 2018-08-01 | 2018-08-01 | 基于卷积神经网络加速器的数据重用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109146072A CN109146072A (zh) | 2019-01-04 |
CN109146072B true CN109146072B (zh) | 2021-03-23 |
Family
ID=64798814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810862232.6A Active CN109146072B (zh) | 2018-08-01 | 2018-08-01 | 基于卷积神经网络加速器的数据重用方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11487989B2 (zh) |
CN (1) | CN109146072B (zh) |
WO (1) | WO2020026158A2 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146072B (zh) * | 2018-08-01 | 2021-03-23 | 上海天数智芯半导体有限公司 | 基于卷积神经网络加速器的数据重用方法 |
US11025907B2 (en) * | 2019-02-28 | 2021-06-01 | Google Llc | Receptive-field-conforming convolution models for video coding |
US10674152B2 (en) | 2018-09-18 | 2020-06-02 | Google Llc | Efficient use of quantization parameters in machine-learning models for video coding |
US10869036B2 (en) | 2018-09-18 | 2020-12-15 | Google Llc | Receptive-field-conforming convolutional models for video coding |
CN110070175B (zh) * | 2019-04-12 | 2021-07-02 | 北京市商汤科技开发有限公司 | 图像处理方法、模型训练方法及装置、电子设备 |
US11687789B2 (en) * | 2019-05-31 | 2023-06-27 | Apple Inc. | Decomposition of machine learning operations |
US11836635B2 (en) | 2019-05-31 | 2023-12-05 | Apple Inc. | Mutable parameters for machine learning models during runtime |
CN111210004B (zh) * | 2019-12-31 | 2022-03-25 | 深圳云天励飞技术股份有限公司 | 卷积计算方法、卷积计算装置及终端设备 |
WO2022040643A1 (en) * | 2020-08-21 | 2022-02-24 | Fu Zhi Sing | Processing unit architectures and techniques for reusable instructions and data |
KR20220049325A (ko) | 2020-10-14 | 2022-04-21 | 삼성전자주식회사 | 가속기 및 이를 포함한 전자 장치 |
KR20220071618A (ko) | 2020-11-24 | 2022-05-31 | 삼성전자주식회사 | 컨벌루션 연산을 위한 데이터 공유 방법, 페처 및 컨벌루션 연산 장치 |
KR20220090104A (ko) | 2020-12-22 | 2022-06-29 | 삼성전자주식회사 | 컨벌루션 연산을 위한 데이터 전송 방법, 페처 및 컨벌루션 연산 장치 |
CN113269302A (zh) * | 2021-05-11 | 2021-08-17 | 中山大学 | 面向2D和3D卷积神经网络的Winograd处理方法及系统 |
US11693692B2 (en) | 2021-06-17 | 2023-07-04 | International Business Machines Corporation | Program event recording storage alteration processing for a neural network accelerator instruction |
US11675592B2 (en) | 2021-06-17 | 2023-06-13 | International Business Machines Corporation | Instruction to query for model-dependent information |
US11734013B2 (en) | 2021-06-17 | 2023-08-22 | International Business Machines Corporation | Exception summary for invalid values detected during instruction execution |
US11797270B2 (en) | 2021-06-17 | 2023-10-24 | International Business Machines Corporation | Single function to perform multiple operations with distinct operation parameter validation |
US11669331B2 (en) | 2021-06-17 | 2023-06-06 | International Business Machines Corporation | Neural network processing assist instruction |
US11269632B1 (en) | 2021-06-17 | 2022-03-08 | International Business Machines Corporation | Data conversion to/from selected data type with implied rounding mode |
US11789646B2 (en) * | 2021-09-24 | 2023-10-17 | Intel Corporation | Methods, apparatus, and articles of manufacture to increase data reuse for multiply and accumulate (MAC) operations |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239706A1 (en) * | 2015-02-13 | 2016-08-18 | Qualcomm Incorporated | Convolution matrix multiply with callback for deep tiling for deep convolutional neural networks |
CN106250981B (zh) * | 2015-06-10 | 2022-04-01 | 三星电子株式会社 | 减少存储器访问和网络内带宽消耗的脉冲神经网络 |
US20160379109A1 (en) * | 2015-06-29 | 2016-12-29 | Microsoft Technology Licensing, Llc | Convolutional neural networks on hardware accelerators |
KR20180012439A (ko) * | 2016-07-27 | 2018-02-06 | 삼성전자주식회사 | 회선 신경망에서 가속기 및 이의 동작 방법 |
US20180096632A1 (en) * | 2016-09-30 | 2018-04-05 | Omar U. Florez | Technology to provide visual context to the visually impaired |
US11003985B2 (en) * | 2016-11-07 | 2021-05-11 | Electronics And Telecommunications Research Institute | Convolutional neural network system and operation method thereof |
US9928460B1 (en) * | 2017-06-16 | 2018-03-27 | Google Llc | Neural network accelerator tile architecture with three-dimensional stacking |
CN107657581B (zh) * | 2017-09-28 | 2020-12-22 | 中国人民解放军国防科技大学 | 一种卷积神经网络cnn硬件加速器及加速方法 |
CN108171317B (zh) * | 2017-11-27 | 2020-08-04 | 北京时代民芯科技有限公司 | 一种基于soc的数据复用卷积神经网络加速器 |
US11301728B2 (en) * | 2018-06-18 | 2022-04-12 | Apical Ltd. | Image processing using a neural network system |
CN109146072B (zh) * | 2018-08-01 | 2021-03-23 | 上海天数智芯半导体有限公司 | 基于卷积神经网络加速器的数据重用方法 |
-
2018
- 2018-08-01 CN CN201810862232.6A patent/CN109146072B/zh active Active
- 2018-12-31 US US16/237,613 patent/US11487989B2/en active Active
-
2019
- 2019-07-31 WO PCT/IB2019/056518 patent/WO2020026158A2/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN109146072A (zh) | 2019-01-04 |
US11487989B2 (en) | 2022-11-01 |
WO2020026158A2 (zh) | 2020-02-06 |
WO2020026158A3 (zh) | 2021-10-07 |
US20200042860A1 (en) | 2020-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146072B (zh) | 基于卷积神经网络加速器的数据重用方法 | |
Zhang et al. | DNNExplorer: a framework for modeling and exploring a novel paradigm of FPGA-based DNN accelerator | |
CN110458279B (zh) | 一种基于fpga的二值神经网络加速方法及系统 | |
Kim et al. | A novel zero weight/activation-aware hardware architecture of convolutional neural network | |
Ma et al. | Optimizing the convolution operation to accelerate deep neural networks on FPGA | |
CN108509270B (zh) | 一种国产申威26010众核处理器上K-means算法的高性能并行实现方法 | |
CN111898733B (zh) | 一种深度可分离卷积神经网络加速器架构 | |
CN107085562B (zh) | 一种基于高效复用数据流的神经网络处理器及设计方法 | |
CN104077233A (zh) | 单通道卷积层及多通道卷积层处理方法和装置 | |
CN112200300B (zh) | 卷积神经网络运算方法及装置 | |
US11604958B2 (en) | Method and apparatus for processing computation of zero value in processing of layers in neural network | |
Jin et al. | A parallel optimization method for stencil computation on the domain that is bigger than memory capacity of GPUs | |
CN108304925B (zh) | 一种池化计算装置及方法 | |
US20060161720A1 (en) | Image data transmission method and system with DMAC | |
Du et al. | Model parallelism optimization for distributed inference via decoupled CNN structure | |
CN112905530A (zh) | 片上架构、池化计算加速器阵列、单元以及控制方法 | |
CN115390788A (zh) | 基于fpga的图卷积神经网络稀疏矩阵乘法分配系统 | |
CN115983348A (zh) | 支持卷积神经网络扩展指令的risc-v加速器系统 | |
CN114995782A (zh) | 数据处理方法、装置、设备和可读存储介质 | |
US20230376733A1 (en) | Convolutional neural network accelerator hardware | |
Dai et al. | An energy-efficient bit-split-and-combination systolic accelerator for nas-based multi-precision convolution neural networks | |
Yang et al. | An energy-efficient and flexible accelerator based on reconfigurable computing for multiple deep convolutional neural networks | |
KR20230081530A (ko) | 메모리 액세스를 최소화하는 컨벌루션 뉴럴 네트워크 가속기 장치 | |
CN112579089B (zh) | 异构众核数据重用方法 | |
US20140237214A1 (en) | Apparatus and method of a concurrent data transfer of multiple regions of interest (roi) in an simd processor system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 201100 no.1628, sushao Road, Minhang District, Shanghai Applicant after: Shanghai Tiantian smart core semiconductor Co., Ltd Address before: 210012 4 floor, 5 software Avenue, Yuhuatai District, Nanjing, Jiangsu, 180 Applicant before: ILUVATAR COREX Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |