CN108229671A - 一种降低加速器外部数据存储带宽需求的系统和方法 - Google Patents

一种降低加速器外部数据存储带宽需求的系统和方法 Download PDF

Info

Publication number
CN108229671A
CN108229671A CN201810037870.4A CN201810037870A CN108229671A CN 108229671 A CN108229671 A CN 108229671A CN 201810037870 A CN201810037870 A CN 201810037870A CN 108229671 A CN108229671 A CN 108229671A
Authority
CN
China
Prior art keywords
data
multiply
accumulate
unit
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810037870.4A
Other languages
English (en)
Other versions
CN108229671B (zh
Inventor
李斌
罗聪
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810037870.4A priority Critical patent/CN108229671B/zh
Publication of CN108229671A publication Critical patent/CN108229671A/zh
Application granted granted Critical
Publication of CN108229671B publication Critical patent/CN108229671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Neurology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种降低加速器外部数据存储带宽需求的系统和方法,系统包括:乘法累加计算单元、缓存单元和算术逻辑计算单元,其中所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,所述计算矩阵用于并行地处理输入数据与权值的乘法累加操作,在所述计算矩阵中,数据向右或者向左地横向流动以及向上或者向下地纵向流动。使得PE计算子单元可以按行和按列加载输入数据,进而使得本系统中的数据具有复用性,减少了数据加载的次数,降低了对数据带宽的占用,从而实现降低卷积神经网络极速器外部数据的存储带宽需求。本发明可以广泛应用于数据处理领域。

Description

一种降低加速器外部数据存储带宽需求的系统和方法
技术领域
本发明涉及数据处理领域,尤其是一种降低加速器外部数据存储带宽需求的系统和方法。
背景技术
近年来,随着人工智能的热度上升,人们提出了越来越多的深度学习算法模型以解决当前存在的研究问题,而卷积神经网络在机器视觉领域上取得了巨大的成就。卷积神经网络由于其权值的可重用性大大降低了其权值参数的数量,加速了深度学习模型的计算效率。但是随着卷积神经网络的研究不断深入,层数更多、结构更加复杂的模型被提出来,其自身的大量卷积运算需要硬件加载其大量的权值数据与输入数据,因此嵌入式人工智能硬件处理单元对外部内存带宽的需求增大,而目前外部数据存储器的数据带宽成了卷积神经网络加速器发展的瓶颈。
为了解决内存带宽需求增大的问题,目前主要采取的方案是选用存储带宽更高的外部存储器。但是外部存储器的带宽的增加依赖于存储技术的发展,往往需要付出更高的成本。
因此市场上需要一种能够降低数据存储带宽需求的技术。
发明内容
为解决上述技术问题,本发明的第一目的在于:提供一种能够降低加速器外部数据存储带宽需求的系统。
本发明的第二目的在于:提供一种能够降低加速器外部数据存储带宽需求的方法。
本发明所采取的第一种技术方案是:
一种降低加速器外部数据存储带宽需求的系统,包括:
乘法累加计算单元,用于并行地对输入数据与权值进行处理以及向缓存单元或者算术逻辑单元输出数据,所述处理包括乘法累加操作、比较操作、批标准化操作和激活操作;所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,所述计算矩阵用于并行地处理输入数据与权值的乘法累加操作,在所述计算矩阵中,数据向右或者向左地横向流动以及向上或者向下地纵向流动,所述P为正整数;
缓存单元,用于存储乘法累加计算单元或者算术逻辑计算单元输出的数据;
算术逻辑计算单元,用于对乘法累加计算单元的输出数据和缓存单元中缓存的数据进行加减操作;
所述乘法累加计算单元、片上分布式缓存单元和算术逻辑计算单元之间两两相互连接。
进一步,所述计算矩阵中的每个PE计算子单元均包括一个用于暂存当前输入数据的第一寄存器、一个用于暂存来自右侧或者左侧的相邻PE计算子单元的数据的第二寄存器以及一个用于暂存来自下侧或者上侧的相邻PE计算子单元的数据的第三寄存器。
进一步,所述算术逻辑计算单元包括P*P个加减计算子单元,所述P*P个加减计算子单元用于并行地计算乘法累加计算单元或者缓存单元输出的多个数据,或者用于向乘法累加计算单元或者缓存单元并行地输出多个数据。
进一步,所述缓存单元为片上分布式缓存单元,所述缓存单元包括P*P个存储子单元,所述P*P个存储子单元用于并行地缓存乘法累加计算单元或者算术逻辑计算单元输出的多个数据,或者用于向乘法累加计算单元或者算术逻辑计算单元并行地输出已缓存的多个数据。
本发明所采取的第二种技术方案是:
一种降低加速器外部数据存储带宽需求的方法,包括以下步骤:
通过乘法累加计算单元加载卷积层的输入数据,并且将输入数据与权值进行乘法累加操作;
对完成乘法累加操作后得到的结果进行批标准化;
将批标准化得到的结果进行激活,得到特征图;
所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,所述计算矩阵用于并行处理输入数据与权值的乘法累加操作,在所述计算矩阵中,数据向右或者向左地横向流动以及向上或者向下地纵向流动。
进一步,所述批标准化的表达式为:
其中,yi表示输入数据经过批标准化后的结果,xi表示输入数据,γ表示比例系数,μ表示训练时最小批量数据集的平均值,β表示偏移量,ε表示一个大于零的常数,σ2表示训练时最小批量数据集的方差,m表示最小批量数据集的输入数据的个数。需要注意的是,所述ε是一个很小的正数,目的是为了防止σ2=0而导致公式运算出错。其中,γ、μ、β、σ2均是训练时得到的,因此本发明中仅仅是将这些外部得到的数据进行加、减或乘的操作即可达到本发明的技术效果,因此不对上述参数进行展开解释
进一步,所述将批标准化得到的结果进行激活,得到特征图这一步骤中,所述激活采用的激活函数的表达式为:
y=(x>0)?x:0.1*x;
y表示激活后特征图的输入数据,x表示激活前特征图的输入数据。
本发明系统的有益效果是:包括乘法累加计算单元、缓存单元和算术逻辑计算单元,所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,在所述计算矩阵中,数据可以向右或者向左地横向流动以及向上或者向下地纵向流动,使得PE计算子单元可以按行和按列加载输入数据,进而使得本系统中的数据具有复用性,减少了数据加载的次数,降低了对数据带宽的占用,从而实现降低卷积神经网络极速器外部数据的存储带宽需求。
本发明方法的有益效果是:包括通过乘法累加计算单元加载卷积层的输入数据,并且将输入数据与权值进行乘法累加操作;对完成乘法累加操作后得到的结果进行批标准化;和将批标准化得到的结果进行激活,得到特征图的步骤,所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,在所述计算矩阵中,数据可以向右或者向左地横向流动以及向上或者向下地纵向流动,使得PE计算子单元可以按行和按列加载输入数据,进而使得本方法中的数据具有复用性,减少了数据加载的次数,降低了对数据带宽的占用,从而实现降低卷积神经网络极速器外部数据的存储带宽需求。
附图说明
图1为本发明一种降低加速器外部数据存储带宽需求的系统的模块框图;
图2为乘法累加计算单元的内部模块框图;
图3为单个PE计算子单元的内部模块框图;
图4为并行卷积计算流程图;
图5是最大池化计算流程图;
图6为片上分布式缓存单元的内部模块框图;
图7为算术逻辑计算单元的内部模块框图;
图8为卷积操作数据状态控制流程图;
图9为本发明一种降低加速器外部数据存储带宽需求的方法的流程图。
具体实施方式
参照图1和图2,一种降低加速器外部数据存储带宽需求的系统,包括:
乘法累加计算单元,用于并行地对输入数据与权值进行处理以及向缓存单元或者算术逻辑单元输出数据,所述处理包括乘法累加操作、比较操作、批标准化操作和激活操作;所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,所述计算矩阵用于并行地处理输入数据与权值的乘法累加操作,在所述计算矩阵中,数据向右或者向左地横向流动以及向上或者向下地纵向流动,所述P为正整数;
缓存单元,用于存储乘法累加计算单元或者算术逻辑计算单元输出的数据;
算术逻辑计算单元,用于对乘法累加计算单元的输出数据和缓存单元中缓存的数据进行加减操作;
所述乘法累加计算单元、片上分布式缓存单元和算术逻辑计算单元之间两两相互连接。
参照图3,进一步作为优选的实施方式,所述计算矩阵中的每个PE计算子单元均包括一个用于暂存当前输入数据的第一寄存器、一个用于暂存来自右侧或者左侧的相邻PE计算子单元的数据的第二寄存器以及一个用于暂存来自下侧或者上侧的相邻PE计算子单元的数据的第三寄存器。
参照图6,进一步作为优选的实施方式,所述缓存单元为片上分布式缓存单元,所述缓存单元包括P*P个存储子单元(即图中的DRAM),所述P*P个存储子单元用于并行地缓存乘法累加计算单元或者算术逻辑计算单元输出的多个数据,或者用于向乘法累加计算单元或者算术逻辑计算单元并行地输出已缓存的多个数据。
参照图7,进一步作为优选的实施方式,所述算术逻辑计算单元包括P*P个加减计算子单元,所述P*P个加减计算子单元用于并行地计算乘法累加计算单元或者缓存单元输出的多个数据,或者用于向乘法累加计算单元或者缓存单元并行地输出多个数据。
参照图9,一种降低加速器外部数据存储带宽需求的方法,包括以下步骤:
通过乘法累加计算单元加载卷积层的输入数据,并且将输入数据与权值进行乘法累加操作;
对完成乘法累加操作后得到的结果进行批标准化;
将批标准化得到的结果进行激活,得到特征图;
所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,所述计算矩阵用于并行处理输入数据与权值的乘法累加操作,在所述计算矩阵中,数据向右或者向左地横向流动以及向上或者向下地纵向流动。
进一步作为优选的实施方式,所述批标准化的表达式为:
其中,yi表示输入数据经过批标准化后的结果,xi表示输入数据,γ表示比例系数,μ表示训练时最小批量数据集的平均值,β表示偏移量,ε表示一个大于零的常数,σ2表示训练时最小批量数据集的方差,m表示最小批量数据集的输入数据的个数。需要注意的是,所述ε是一个很小的正数(可以是0.01、0.1或者0.001等等),目的是为了防止σ2=0而导致公式运算出错。其中,γ、μ、β、σ2均是训练时得到的,因此本发明中仅仅是将这些外部得到的数据进行加、减或乘的操作即可达到本发明的技术效果,因此不对上述参数进行展开解释。
进一步作为优选的实施方式,所述将批标准化得到的结果进行激活,得到特征图这一步骤中,所述激活采用的激活函数的表达式为:
y=(x>0)?x:0.1*x;
y表示激活后特征图的输入数据,x表示激活前特征图的输入数据。
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。
本实施例在FPGA硬件平台上使用yolo卷积神经网络模型实现快速人脸检测,以说明本发明能够降低卷积神经网络硬件对外部数据存储带宽的需求。但是本发明的实施方式不限于此。
所述yolo卷积神经网络模型具有22层卷积层、5层最大池化层、两层连线层、一层重组层、一层分类层以及一层预处理模块,该模型可以实现输入图片数据的实时运算处理并输出检测结果。
在本实施例中,输入图片大小经过预处理后变为416*416,卷积核大小为3*3或者1*1,池化层步长大小为2*2,输入数据为32bit浮点数。卷积过程通过如图1所示的硬件架构进行处理,MAC计算单元(即乘法累加计算单元)用于处理乘法累加操作、最大池化操作和激活函数操作,ALU计算单元(即算术逻辑计算单元)用于处理加减操作,片上分布式DRAM存储单元(即缓存单元)用于存储中间值。
如图2所示,MAC计算单元中PE计算子单元是进行乘法累加操作和最大池化操作的基本计算单元,本实施例中总共有13*13个并行的PE计算子单元,这些PE计算子单元能够同时处理13*13个数据。如图3所示,每个PE计算子单元内部有三个输入寄存器,一个用于暂存当前输入数据的寄存器(即图中的寄存器N)、一个用于暂存来自右边PE计算子单元的数据的寄存器(即图中的寄存器R)和一个用于暂存来自底部PE计算子单元的数据的寄存器(即图中的寄存器B)。所述PE计算子单元内部还包括乘法器、累加器、比较器、选择器以及相应的控制逻辑电路。
如图1和图2所示,外部数据通过MAC计算单元的输入端加载,首先逐行加载数据进PE计算子单元(如图2所示,行输入接口加载数据加载行数据,即图中的B节点),MAC计算单元内部的PE计算子单元数据从下到上流动,完成所有PE计算子单元数据的初始化之后,开始从右边加载输入数据的列数据(如图2所示,列输入接口加载数据列数据,即图中的A节点,C点表示输入卷积核大小的输入节点),内部的PE计算子单元数据从右向左流动,实现数据的复用,降低数据带宽的需求。
为了简化该数据复用过程的说明,如图4所示,本实施例的PE计算子单元有2*2个,卷积核大小为3*3。为了方便区别不同的PE计算子单元,下面图标中以“PE0~PE3”表示四个不同的PE计算子单元。
(1)在#0时刻,初始化分别载入四个PE计算子单元输入数据X00、X10、X01、X11,与权值K00相乘,每个PE计算子单元计算后得到表1中的结果:
表1
(PE0)X00K00 (PE1)X10K00
(PE2)X01K00 (PE3)X11K00
(2)在#1时刻,左边PE0、PE2分别载入从右边PE1、PE3传递过来的X10、X11,右边PE1、PE3从新加载输入数据的X20、X21,同时与权值K10相乘,累加得到表2中的结果:
表2
(PE0)X00K00+X10K10 (PE1)X10K00+X20K10
(PE2)X01K00+X11K10 (PE3)X11K00+X21K10
(3)在#2时刻,左边PE0、PE2分别载入从右边PE1、PE3传递过来的X20、X21,右边PE1、PE3从新加载输入数据的X30、X31,同时与权值K20相乘,累加得到表3中的结果:
表3
(PE0)X00K00+X10K10+X20K20 (PE1)X10K00+X20K10+X30K20
(PE2)X01K00+X11K10+X21K20 (PE3)X11K00+X21K10+X31K20
(4)在#3时刻,第一行的卷积核与第一行的输入数据相卷积的水平方向计算完毕,输入数据向下滑动,上面的PE0、PE1分别载入从底部PE2、PE3传递过来的X01、X11,底部的PE2、PE3重新载入下一行输入数据X02、X12,同时与权值K01相乘,累加得到表4中的结果:
表4
(5)继续进行时刻#1和#2的操作,计算完毕该行水平位置的数据后再向下滑动,如此交替反复进行卷积计算,直到计算完毕卷积核与输入数据的所有卷积运算,最后计算结果为表5所示的结果:
表5
一个通道与卷积核计算的中间结果会存在片上分布式DRAM存储单元,下一个通道与卷积核计算后的结果通过ALU计算单元与存储在片上分布式DRAM存储单元的中间结果相加后再次存在片上分布式DRAM存储单元中,如此反复计算,直到所有通道与卷积核的计算完毕,再对得到的数据进行批标准化BN(Batch Normalization)操作,并且对批标准化的结果使用leaky激活函数进行激活。
所述批标准化BN表达式为:
其中
公式中的yi表示输入数据经过批标准化后的结果,xi表示输入数据,γ表示比例系数,μ表示训练时最小批量数据集的平均值,β表示偏移量,ε表示一个大于零的常数,σ2表示训练时最小批量数据集的方差,m表示最小批量数据集的输入数据的个数。需要注意的是,所述ε是一个很小的正数(可以是0.01、0.1或者0.001等等),目的是为了防止σ2=0而导致公式运算出错。
批标准化BN操作之后,采用激活函数对数据进行激活,所述leaky激活函数的表达式为:
y=(x>0)?x:0.1*x;
y表示激活后特征图的输入数据,x表示激活前特征图的输入数据。
最后计算结果再通过输出缓存模块把得到的新的feature map(特征图)数据存入DDR内存(即外部存储器)中。
最大池化操作由MAC计算单元中的PE计算子单元进行处理,图5示出了最大池化操作过程。即将分割的单元内最大的数据取出。
因此按照该计算过程,除了初始化需要加载13x13个输入数据外,开始计算之后,每次MAC计算单元只需要加载一列或者一行数据,即13个,而采用现有技术,仍然需要加载13x13个数据,因此,本发明的结构比现有技术降低了13x12个数据量的加载,比采用单数据流驱动的流水线卷积运算结构具有更高的数据复用性。
如图6所示,在本实施例中片上分布式DRAM存储单元划分为13x13个存储子单元(即图中的DRAM),用于同时能存储乘累加MAC计算单元或者ALU计算单元的13x13个输出数据,或者向这两个计算单元同时输出暂存的13x13个数据用于计算,在不影响数据的计算并行度的情况下减少了数据频繁地与外部存储单元的交互,从而减少了外部存储带宽的需求。
如图7所示,ALU计算单元划分为13x13个并行的加减计算子单元,用于能够同时计算MAC计算单元和片上分布式DRAM存储单元传过来的输出数据,或者向这两个单元输出加减计算完毕的输出结果,进行后续处理。由于其结构采取多个并行计算结构,不影响整个模块内部数据的计算并行度。
图8示出了该数据的卷积操作状态控制流程图,数据经过初始化加载进并行PE计算子单元,然后进入R、B模式,即行列加载模式,实现数据复用。当完成一个块的数据计算,如果尚未计算完一个输入特征图数据,将会继续初始化,再进行行列加载模式,当一个卷积核的所有通道计算完毕后,累加得到的最后结果进入后面的批标准化BN操作和激活操作,最后输出卷积操作过后的一个输出特征图。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种降低加速器外部数据存储带宽需求的系统,其特征在于,包括:
乘法累加计算单元,用于并行地对输入数据与权值进行处理以及向缓存单元或者算术逻辑单元输出数据,所述处理包括乘法累加操作、比较操作、批标准化操作和激活操作;所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,所述计算矩阵用于并行地处理输入数据与权值的乘法累加操作,在所述计算矩阵中,数据向右或者向左地横向流动以及向上或者向下地纵向流动,所述P为正整数;
缓存单元,用于存储乘法累加计算单元或者算术逻辑计算单元输出的数据;
算术逻辑计算单元,用于对乘法累加计算单元的输出数据和缓存单元中缓存的数据进行加减操作;
所述乘法累加计算单元、片上分布式缓存单元和算术逻辑计算单元之间两两相互连接。
2.根据权利要求1所述的一种降低加速器外部数据存储带宽需求的系统,其特征在于:所述计算矩阵中的每个PE计算子单元均包括一个用于暂存当前输入数据的第一寄存器、一个用于暂存来自右侧或者左侧的相邻PE计算子单元的数据的第二寄存器以及一个用于暂存来自下侧或者上侧的相邻PE计算子单元的数据的第三寄存器。
3.根据权利要求1所述的一种降低加速器外部数据存储带宽需求的系统,其特征在于:所述算术逻辑计算单元包括P*P个加减计算子单元,所述P*P个加减计算子单元用于并行地计算乘法累加计算单元或者缓存单元输出的多个数据,或者用于向乘法累加计算单元或者缓存单元并行地输出多个数据。
4.根据权利要求1所述的一种降低加速器外部数据存储带宽需求的系统,其特征在于:所述缓存单元为片上分布式缓存单元,所述缓存单元包括P*P个存储子单元,所述P*P个存储子单元用于并行地缓存乘法累加计算单元或者算术逻辑计算单元输出的多个数据,或者用于向乘法累加计算单元或者算术逻辑计算单元并行地输出已缓存的多个数据。
5.一种降低加速器外部数据存储带宽需求的方法,其特征在于,包括以下步骤:
通过乘法累加计算单元加载卷积层的输入数据,并且将输入数据与权值进行乘法累加操作;
对完成乘法累加操作后得到的结果进行批标准化;
将批标准化得到的结果进行激活,得到特征图;
所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵,所述计算矩阵用于并行处理输入数据与权值的乘法累加操作,在所述计算矩阵中,数据向右或者向左地横向流动以及向上或者向下地纵向流动,所述P为正整数。
6.根据权利要求5所述的一种降低加速器外部数据存储带宽需求的方法,其特征在于:所述批标准化的表达式为:
其中,yi表示输入数据经过批标准化后的结果,xi表示输入数据,γ表示比例系数,μ表示训练时最小批量数据集的平均值,β表示偏移量,ε表示一个大于零的常数,σ2表示训练时最小批量数据集的方差,m表示最小批量数据集的输入数据的个数。
7.根据权利要求5所述的一种降低加速器外部数据存储带宽需求的方法,其特征在于:所述将批标准化得到的结果进行激活,得到特征图这一步骤中,所述激活采用的激活函数的表达式为:
y=(x>0)?x:0.1*x;
其中,y表示激活后特征图的输入数据,x表示激活前特征图的输入数据。
CN201810037870.4A 2018-01-16 2018-01-16 一种降低加速器外部数据存储带宽需求的系统和方法 Active CN108229671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810037870.4A CN108229671B (zh) 2018-01-16 2018-01-16 一种降低加速器外部数据存储带宽需求的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810037870.4A CN108229671B (zh) 2018-01-16 2018-01-16 一种降低加速器外部数据存储带宽需求的系统和方法

Publications (2)

Publication Number Publication Date
CN108229671A true CN108229671A (zh) 2018-06-29
CN108229671B CN108229671B (zh) 2022-03-04

Family

ID=62640434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810037870.4A Active CN108229671B (zh) 2018-01-16 2018-01-16 一种降低加速器外部数据存储带宽需求的系统和方法

Country Status (1)

Country Link
CN (1) CN108229671B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635940A (zh) * 2019-01-28 2019-04-16 深兰人工智能芯片研究院(江苏)有限公司 一种基于卷积神经网络的图像处理方法及图像处理装置
CN109684089A (zh) * 2018-12-18 2019-04-26 创新奇智(广州)科技有限公司 一种基于预测模型的任务调度方法、系统及电子设备
CN110555512A (zh) * 2019-07-30 2019-12-10 北京航空航天大学 一种二值卷积神经网络数据重用方法及装置
CN110705687A (zh) * 2019-09-05 2020-01-17 北京三快在线科技有限公司 卷积神经网络硬件计算装置及方法
CN111045958A (zh) * 2018-10-11 2020-04-21 展讯通信(上海)有限公司 加速引擎及处理器
WO2020093669A1 (en) * 2018-11-06 2020-05-14 Genesys Logic, Inc. Convolution block array for implementing neural network application and method using the same, and convolution block circuit
CN111667062A (zh) * 2020-05-27 2020-09-15 上海赛昉科技有限公司 专用神经网络加速器的池化与向量运算的一致性变换方法
WO2021155669A1 (zh) * 2020-02-03 2021-08-12 苏州浪潮智能科技有限公司 一种基于分布式权值存储加速神经网络计算的架构及方法
CN113627600A (zh) * 2020-05-07 2021-11-09 合肥君正科技有限公司 一种基于卷积神经网络的处理方法及其系统
WO2023024668A1 (zh) * 2021-08-27 2023-03-02 深圳云天励飞技术股份有限公司 卷积计算方法、系统、设备及存储介质
WO2023071673A1 (zh) * 2021-10-29 2023-05-04 浪潮电子信息产业股份有限公司 卷积特征缓存方法、调用方法、装置、设备、介质及产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016000035A1 (en) * 2014-06-30 2016-01-07 Evolving Machine Intelligence Pty Ltd A system and method for modelling system behaviour
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN107463990A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种卷积神经网络的fpga并行加速方法
CN107508666A (zh) * 2017-08-31 2017-12-22 华南理工大学 一种基于rsa和sha‑512的低成本数字签名sopc设计方法
CN107992329A (zh) * 2017-07-20 2018-05-04 上海寒武纪信息科技有限公司 一种计算方法及相关产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016000035A1 (en) * 2014-06-30 2016-01-07 Evolving Machine Intelligence Pty Ltd A system and method for modelling system behaviour
CN107463990A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种卷积神经网络的fpga并行加速方法
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN107992329A (zh) * 2017-07-20 2018-05-04 上海寒武纪信息科技有限公司 一种计算方法及相关产品
CN107508666A (zh) * 2017-08-31 2017-12-22 华南理工大学 一种基于rsa和sha‑512的低成本数字签名sopc设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIWEI ZHANG ET.AL.: "Implementation and Optimization of the Accelerator Based on FPGA Hardware for LSTM Network", 《IEEE INTERNATIONAL SYMPOSIUM ON PARALLEL AND DISTRIBUTED PROCESSING WITH APPLICATIOINS AND 2017 IEEE INTERNATIONAL CONFERENCE ON UBIQUITOUS COMPUTING AND COMMUNICATIONS》 *
莫烦: "什么是批标准化", 《知乎HTTPS://ZHUANLAN.ZHIHU.COM /P/24810318》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045958A (zh) * 2018-10-11 2020-04-21 展讯通信(上海)有限公司 加速引擎及处理器
WO2020093669A1 (en) * 2018-11-06 2020-05-14 Genesys Logic, Inc. Convolution block array for implementing neural network application and method using the same, and convolution block circuit
CN109684089A (zh) * 2018-12-18 2019-04-26 创新奇智(广州)科技有限公司 一种基于预测模型的任务调度方法、系统及电子设备
CN109684089B (zh) * 2018-12-18 2020-08-18 创新奇智(广州)科技有限公司 一种基于预测模型的任务调度方法、系统及电子设备
CN109635940A (zh) * 2019-01-28 2019-04-16 深兰人工智能芯片研究院(江苏)有限公司 一种基于卷积神经网络的图像处理方法及图像处理装置
CN110555512B (zh) * 2019-07-30 2021-12-03 北京航空航天大学 一种二值卷积神经网络数据重用方法及装置
CN110555512A (zh) * 2019-07-30 2019-12-10 北京航空航天大学 一种二值卷积神经网络数据重用方法及装置
CN110705687A (zh) * 2019-09-05 2020-01-17 北京三快在线科技有限公司 卷积神经网络硬件计算装置及方法
WO2021155669A1 (zh) * 2020-02-03 2021-08-12 苏州浪潮智能科技有限公司 一种基于分布式权值存储加速神经网络计算的架构及方法
CN113627600A (zh) * 2020-05-07 2021-11-09 合肥君正科技有限公司 一种基于卷积神经网络的处理方法及其系统
CN113627600B (zh) * 2020-05-07 2023-12-29 合肥君正科技有限公司 一种基于卷积神经网络的处理方法及其系统
CN111667062A (zh) * 2020-05-27 2020-09-15 上海赛昉科技有限公司 专用神经网络加速器的池化与向量运算的一致性变换方法
WO2023024668A1 (zh) * 2021-08-27 2023-03-02 深圳云天励飞技术股份有限公司 卷积计算方法、系统、设备及存储介质
WO2023071673A1 (zh) * 2021-10-29 2023-05-04 浪潮电子信息产业股份有限公司 卷积特征缓存方法、调用方法、装置、设备、介质及产品

Also Published As

Publication number Publication date
CN108229671B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN108229671B (zh) 一种降低加速器外部数据存储带宽需求的系统和方法
US20230325348A1 (en) Performing concurrent operations in a processing element
CN108416422B (zh) 一种基于fpga的卷积神经网络实现方法及装置
US20230351186A1 (en) Processing for multiple input data sets
CN110097174B (zh) 基于fpga和行输出优先的卷积神经网络实现方法、系统及装置
CN108108811B (zh) 神经网络中的卷积计算方法和电子设备
US11775430B1 (en) Memory access for multiple circuit components
US20180197084A1 (en) Convolutional neural network system having binary parameter and operation method thereof
CN110543939B (zh) 一种基于fpga的卷积神经网络后向训练的硬件加速实现装置
US10545559B2 (en) Data processing system and method
CN108629406B (zh) 用于卷积神经网络的运算装置
US20160093343A1 (en) Low power computation architecture
CN110555516B (zh) 基于FPGA的YOLOv2-tiny神经网络低延时硬件加速器实现方法
US11120101B2 (en) Matrix multiplication system and method
CN111768458A (zh) 一种基于卷积神经网络的稀疏图像处理方法
CN111582465B (zh) 基于fpga的卷积神经网络加速处理系统、方法以及终端
EP4374296A1 (en) Hybrid machine learning architecture with neural processing unit and compute-in-memory processing elements
US11275997B1 (en) Weight loading in an array
CN114677548A (zh) 基于阻变存储器的神经网络图像分类系统及方法
CN111008691A (zh) 一种权值和激活值都二值化的卷积神经网络加速器架构
US20230376733A1 (en) Convolutional neural network accelerator hardware
CN116090518A (zh) 基于脉动运算阵列的特征图处理方法、装置以及存储介质
US20230047364A1 (en) Partial sum management and reconfigurable systolic flow architectures for in-memory computation
CN115222028A (zh) 基于fpga的一维cnn-lstm加速平台及实现方法
US20220164127A1 (en) Memory for an Artificial Neural Network Accelerator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant