CN107301456A - 基于向量处理器的深度神经网络多核加速实现方法 - Google Patents

基于向量处理器的深度神经网络多核加速实现方法 Download PDF

Info

Publication number
CN107301456A
CN107301456A CN201710384961.0A CN201710384961A CN107301456A CN 107301456 A CN107301456 A CN 107301456A CN 201710384961 A CN201710384961 A CN 201710384961A CN 107301456 A CN107301456 A CN 107301456A
Authority
CN
China
Prior art keywords
core
neural network
deep neural
vector processor
weight matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710384961.0A
Other languages
English (en)
Other versions
CN107301456B (zh
Inventor
郭阳
张军阳
扈啸
王慧丽
胡敏慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710384961.0A priority Critical patent/CN107301456B/zh
Publication of CN107301456A publication Critical patent/CN107301456A/zh
Application granted granted Critical
Publication of CN107301456B publication Critical patent/CN107301456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8053Vector processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于向量处理器的深度神经网络多核加速实现方法,步骤包括:S1.将待处理数据按一维向量输出,并作为输入值输入至目标深度神经网络;S2.由向量处理器中各个核依次计算目标深度神经网络中相邻两个隐层的权值矩阵,每次计算时,将输入值广播至各个核内的标量存储体中,同时加载相邻两个隐层的权值矩阵,将加载的权值矩阵进行划分后分别传输至各个核内的向量存储体中,启动各个核并行计算后得到多个向量计算结果并作为下一次计算的输入值。本发明实现方法简单、所需成本低、能够充分利用多核向量处理器的特性实现DNN的并行加速,并行性以及加速效果好等优点。

Description

基于向量处理器的深度神经网络多核加速实现方法
技术领域
本发明涉及大规模神经网络计算技术领域,尤其涉及一种基于向量处理器的深度神经网络多核加速实现方法。
背景技术
深度神经网络DNN(deep neural network,DNN)主要是指一种含有多个隐藏层的全连接神经网络,其中相邻层之间全连接、层内无连接,是深度学习中的一种重要神经网络模型。如图1所示,DNN模型一般有3层以上,每层的计算节点也有很多,相邻层的计算模型可以抽象成一个矩阵向量乘法操作,模型通过BP(back propagation,BP)算法进行训练。
由于深度神经网络模型往往有多层且每层有大量的节点,因此其计算属于典型的计算密集型,采用单核系统计算大规模多层的神经网络,往往不能取得很好的计算效果,基于单芯片已难以满足深度神经网络所需的高密集、实时运算等应用时的计算需求。
向量处理器是一种包括标量处理部件(SPU)和向量处理部件(VPU)的处理器结构,如图2所示为一个单核向量处理器的典型结构,其中标量处理部件负责标量任务的计算和流控,向量处理部件负责密集型且并行程度较高的计算,包括若干向量处理单元(VPE),每个处理单元上包含丰富的运算部件,具有非常强大的计算能力,可以大幅提高系统的计算性能。
向量处理器中向量处理部件内包含大量的向量处理单元(PE),这些处理单元都有各自的运算部件和寄存器,向量处理单元间则通过规约指令或混洗操作进行数据交互,如向量处理单元之间的数据相乘、比较等;标量处理单元主要负责流控和逻辑判断指令的处理,以及一些标量的数据访问操作、DMA的数据传输模式的配置等,其中向量处理单元运算所用的数据由向量数据存储单元提供,标量数据处理单元运算所用数据由标量数据存储单元提供。
应用向量处理器计算深度神经网络,可以有效提高深度神经网络的计算性能,但是目前通过向量处理器计算深度神经网络模型时,通常都是基于单核向量处理器实现,其仍然无法很好的满足深度神经网络所需的高密集、实时运算等的计算需求。因此,亟需提供一种基于多核向量处理器实现深度神经网络方法,以提高深度神经网络在高密集、实时运算等的计算性能。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、所需成本低、能够充分利用多核向量处理器的特性实现DNN的并行加速,且并行性以及加速效果好的基于向量处理器的深度神经网络多核加速实现方法。
为解决上述技术问题,本发明提出的技术方案为:
一种基于向量处理器的深度神经网络多核加速实现方法,步骤包括:
S1.将待处理数据按一维向量输出,并作为输入值输入至目标深度神经网络;
S2.由向量处理器中各个核依次计算目标深度神经网络中相邻两个隐层的权值矩阵,每次计算时,将输入值广播至各个核内的标量存储体中,同时加载相邻两个隐层的权值矩阵,将加载的所述权值矩阵进行划分后分别传输至各个核内的向量存储体中,启动各个核并行计算后得到多个向量计算结果并作为下一次计算的输入值。
作为本发明的进一步改进:所述步骤S2中每次计算时,具体通过启动DMA的广播传输模式,将输入值广播至各个核内的标量存储体中。
作为本发明的进一步改进:所述步骤S2中每次计算时,将加载的所述权值矩阵进行划分后,具体通过启动各个核DMA点对点传输方式,将划分后权值矩阵分别传输至各个核内的向量存储体中。
作为本发明的进一步改进:所述步骤S2中每次计算时,得到多个向量计算结果后,具体通过启动各个核的DMA将得到的多个向量计算结果输出至外部DDR中。
作为本发明的进一步改进:所述步骤S2中每次计算时,具体将加载的所述权值矩阵按列平均划分成多份。
作为本发明的进一步改进:所述步骤S2中每次计算时,得到多个向量计算结果后还包括由各个核对得到的所述向量计算结果进行激活函数处理,得到最终的向量计算结果步骤。
作为本发明的进一步改进:所述激活函数为sigmoid函数、ReLU函数、tanh函数中的一种。
作为本发明的进一步改进:所述步骤S2中每次计算前,还包括判断当前次所需计算的权值矩阵的状态,若判断到满足预设条件时,直接由指定核执行当前权值矩阵的计算。
作为本发明的进一步改进:所述预设条件具体为权值矩阵不能平均划分或权值矩阵规模小于预设值。
作为本发明的进一步改进:所述步骤S1中具体按列或行输出一维的向量数据作为目标深度神经网络的输入值。
与现有技术相比,本发明的优点在于:
1)本发明基于向量处理器的深度神经网络多核加速实现方法,通过多核向量处理器计算深度神经网络,在每次计算相邻两个隐层的权值矩阵时,将输入值广播至各个核内的标量存储体SM中,加载的权值矩阵进行划分后分别传输至各个核内的向量存储体AM中,使得待处理数据及每一层的计算结果采用标量取,层与层之间的权值矩阵则采用向量取,能够结合深度神经网络的计算特点以及多核向量处理器的结构特性,实现深度神经网络多核并行加速,核与核之间可以完全不相关的执行各自的任务,实现方法简单、所需的实现成本低,且并行执行效率高,能够满足大规模深度神经网络的高密集、实时运算等计算性能需求;
2)本发明基于向量处理器的深度神经网络多核加速实现方法,进一步通过在多核计算过程中配置不同的DMA传输方式,将数据通过DMA的广播传输模式传输至标量存储体SM,通过DMA点对点传输模式传输至对应的向量存储体AM,能够有效配合各核实现深度神经网络的并行计算;
3)本发明基于向量处理器的深度神经网络多核加速实现方法,进一步基于深度神经网络的计算特点,通过将每层计算任务进行平均分配,结合各核的DMA的相互配合,使得各核之间可以完全不相关的执行各自的任务,多核并行执行深度神经网络计算,大大提高了深度神经网络的计算效率;
4)本发明基于向量处理器的深度神经网络多核加速实现方法,进一步结合多核并行处理方式,当权值矩阵不能平均划分或权值矩阵规模小于预设值时,直接由指定核执行当前权值矩阵的计算,以避免使用多核难以获取好的加速效果,从而能够进一步提高整体加速效果。
附图说明
图1是深度神经网络结构的原理示意图。
图2是典型的单核向量处理器的结构示意图。
图3是本实施例基于向量处理器的深度神经网络多核加速实现方法的实现流程示意图。
图4是本实施例采用的多核向量处理器的结构示意图。
图5是本实施例步骤S2多核并行执行计算的详细流程示意图。
图6是本发明具体实施例(三层全连接神经网络)中深度神经网络的结构示意图。
图7是本发明具体实施例(三层全连接神经网络)中输入层与隐层之间权值矩阵划分原理示意图。
图8是本发明具体实施例(三层全连接神经网络)中单核矩阵向量乘法计算的原理示意图。
图9是本发明具体实施例(三层全连接神经网络)中从DDR广播至标量存储体的原理示意图。
图10是本发明具体实施例(三层全连接神经网络)中执行隐层与输出层计算的原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图3所示,本实施例基于向量处理器的深度神经网络多核加速实现方法,步骤包括:
S1.将待处理数据对输入图像的像素矩阵进行预处理,按列或行输出一维的向量数据后作为输入值输入至目标深度神经网络;
S2.待处理处理作为输入值由向量处理器中各个计算核共享,各个核依次计算目标深度神经网络中相邻两个隐层的权值矩阵,每次计算时,将输入值广播至各个核内的标量存储体SM中,同时加载相邻两个隐层的权值矩阵,将加载的权值矩阵进行划分后分别传输至各个核内的向量存储体AM中,启动各个核并行计算后得到多个向量计算结果并作为下一次计算的输入值。
本实施例中深度神经网络具体包含有一个输入层、N个中间隐层以及一个输出层,每层有数量不等的神经元节点,输入层节点对应的是输入的待处理数据,输出层节点对应为完成整个深度神经网络模型的计算结果。
本实施例上述基于多核向量处理器计算深度神经网络,在每次计算相邻两个隐层的权值矩阵时,将输入值广播至各个核内的标量存储体SM中,即待处理输入数据及每次的计算结果置入标量存储体SM中,加载的权值矩阵进行划分后分别传输至各个核内的向量存储体AM中,即权值矩阵置入向量存储体AM中,使得待处理数据及每一层的计算结果采用标量取,层与层之间的权值矩阵则采用向量取,核与核之间可以完全不相关的执行各自的任务,各核的计算结果再汇总输出,实现深度神经网络多核并行加速。
本实施例中,步骤S2中每次计算时,具体通过启动DMA的广播传输模式,将输入值广播至各个核内的标量存储体SM中;将加载的权值矩阵进行划分后,通过启动各个核DMA点对点传输方式,将划分后权值矩阵分别传输至各个核内的向量存储体AM中;以及得到多个向量计算结果后,通过启动各个核的DMA将得到的多个向量计算结果输出至外部DDR中。通过在多核计算过程中配置上述不同的DMA传输方式,将数据通过DMA的广播传输模式传输至标量存储体SM,通过DMA点对点传输模式传输至对应的向量存储体AM,能够有效配合各核实现深度神经网络的并行计算。
本实施例中,步骤S2中每次计算时,具体将加载的权值矩阵按列平均划分成多份,每份划分后权值矩阵通过DMA传输至各个核内的向量存储体AM中,以将权值矩阵平均分配给各个计算核。针对深度神经网络的计算特点,通过将每层计算任务进行平均分配,结合各核的DMA的相互配合,使得各核能够并行执行深度神经网络计算,核与核之间可以完全不相关的执行各自的任务,大大提高了深度神经网络的计算效率。
本实施例中,步骤S2中每次计算时,得到多个向量计算结果后还包括由各个核对得到的向量计算结果进行激活函数处理,得到最终的向量计算结果步骤,激活函数具体可以为sigmoid函数,如Sigmoid(f(x)=1/(1+e-x)),或为ReLU激活函数,如ReLU′(f(x)=max(0,x)),或tanh函数,如等,也可以根据实际需求采用其他激活函数。本实施例每次计算时,启动各个计算核计算时,具体由各个计算核基于各自分配到的权值矩阵同时完成矩阵乘法操作,得出多个一维的向量结果,向量计算结果再通过激活函数处理后输出至外部DDR中。
本实施例中,步骤S2中每次计算前,还包括判断当前次所需计算的权值矩阵的状态,若判断到满足预设条件时,如权值矩阵不能平均划分或权值矩阵规模小于预设值,此时由于使用多核难以取得好的加速效果,则直接由指定核执行当前权值矩阵的计算,能够进一步提高整体加速效果。
本实施例多核向量处理器如图4所示,包括M个核CORE0~COREM,每个核包括标量处理单元SPU、标量存储体SM以及向量处理单元VPU、向量存储体AM,各个核之间通过DMA传输数据。通过如图4所示向量处理器实现图像数据深度神经网络多核加速时,将输入图像的像素矩阵进行预处理,按列或行输出一维的向量数据后作为输入值输入至目标深度神经网络,如图5所示,步骤S2的详细步骤如下:
S21.准备输入图像数据和相邻层的权值矩阵;
S22.执行输入层与第一个隐层的权值矩阵计算,广播一维的图像数据至M个核的核内标量存储体中,同时加载输入层与第一个隐层的权值矩阵,并将该权值矩阵按列平均划分成M份,每份计算任务由相应的DMA传输至对应核的内部向量存储体AM中;
S23.M个计算核同时完成M个的矩阵向量乘法,得出M个一维的向量结果,由M个核同时对该M个向量结果进行激活函数处理,通过M个核的内部DMA将M个向量计算结果输出至外部DDR中;
S24.将上次计算输出至DDR中的数据通过广播传输至M个核的标量存储体SM中,同时加载第N1个隐层与第N1+1个隐层的权值矩阵,并将该矩阵按列的划分方式平均划分成M份,并由M个核的DMA传输至对应的核内AM中;
S25.M个计算核同时完成M个所分配矩阵向量乘法计算任务,得出M个一维的向量结果,由M个核同时对各自的矩阵向量乘法的结果进行激活函数处理,通过M个核的内部DMA将M个向量计算结果输出值外部DDR中;
S26.重复步骤S23~S25以完成下一相邻层的权值矩阵计算,直至完成整个深度神经网络的计算,输出最终计算结果。
本实施例由具体的向量处理器的结构、指令集以及所需计算的深度神经网络的规模,按照上述步骤生成对应的执行代码,实现不同规模多层的深度神经网络计算,实现原理简单且执行效率高。
以下以基于多核向量处理器实现三层的神经网络加速为例,进一步说明本发明。
本实施例多核向量处理器的核数M为12,深度神经网络的输入层节点对应的是输入图像的像素矩阵,输出层节点对应的是图像的分类目标值类别。如图6所示,本实施例深度神经网络输入图像尺寸为28×28,中间隐层节点为1152,输出层节点为10,根据输入数据需为一维向量数据且数据长度即为输入节点数,使得输入节点为784,实现深度神经网络多核加速的具体步骤为:
步骤1、对输入图像的像素矩阵进行预处理,并按列或行输出至一维的向量数据,作为深度神经网络的输入值,即1×784;
步骤2、通过核0启动DMA的广播传输模式,将1×784的标量数据广播至Core0~Core11的核内标量存储体中,即SM0~SM11中;
步骤3、输入层与隐层的权值矩阵为784×1152,将此权值矩阵根据列平均划分成12份,即1152/12=96,如图7所示,每个核被分到的数据矩阵为784×96;
步骤4、同时启动12个核DMA点对点传输方式,将784×96×12的数据量依次传入12个核的向量存储体中,即AM0~AM11中;
步骤5、12核同时进行矩阵向量乘法操作,每个核计算出96个结果元素,并进行激活函数处理,12核一共同时计算出96×12个向量元素;
单核矩阵向量乘法计算如图8所示,通过核内DMA每次一维的计算结果(784×1)置入标量存储体SM中,将划分后的权值矩阵(784×96)置入向量存储体AM中,经过计算后得到1×96的向量计算结果。
步骤6、同时启动12核的DMA将96×12个计算结果由核内AM导出至核外DDR存储体,数据从DDR广播至各核标量存储体SM具体如图9所示;
步骤7、启动DMA的广播传输,将步骤6中计算出的96×12个结果元素广播至12核的SM中;由于隐层至输出层的权值矩阵为1152×10,列数为10,列数过小不满足12核的划分方式,该计算任务则指定由Core0来完成计算,如图10所示;
步骤8、由Core0启动DMA将隐层至输出层的权值矩阵1152×10传输至Core0的AM中,由Core0完成最终的计算,并输出结果。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (10)

1.一种基于向量处理器的深度神经网络多核加速实现方法,其特征在于步骤包括:
S1.将待处理数据按一维向量输出,并作为输入值输入至目标深度神经网络;
S2.由向量处理器中各个核依次计算目标深度神经网络中相邻两个隐层的权值矩阵,每次计算时,将输入值广播至各个核内的标量存储体中,同时加载相邻两个隐层的权值矩阵,将加载的所述权值矩阵进行划分后分别传输至各个核内的向量存储体中,启动各个核并行计算后得到多个向量计算结果并作为下一次计算的输入值。
2.根据权利要求1所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述步骤S2中每次计算时,具体通过启动DMA的广播传输模式,将输入值广播至各个核内的标量存储体中。
3.根据权利要求2所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述步骤S2中每次计算时,将加载的所述权值矩阵进行划分后,具体通过启动各个核DMA点对点传输方式,将划分后权值矩阵分别传输至各个核内的向量存储体中。
4.根据权利要求3所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述步骤S2中每次计算时,得到多个向量计算结果后,具体通过启动各个核的DMA将得到的多个向量计算结果输出至外部DDR中。
5.根据权利要求1~4中任意一项所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述步骤S2中每次计算时,具体将加载的所述权值矩阵按列平均划分成多份。
6.根据权利要求1~4中任意一项所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述步骤S2中每次计算时,得到多个向量计算结果后还包括由各个核对得到的所述向量计算结果进行激活函数处理,得到最终的向量计算结果步骤。
7.根据权利要求6所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述激活函数为sigmoid函数、ReLU函数、tanh函数中的一种。
8.根据权利要求1~4中任意一项所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述步骤S2中每次计算前,还包括判断当前次所需计算的权值矩阵的状态,若判断到满足预设条件时,直接由指定核执行当前权值矩阵的计算。
9.根据权利要求8所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于:所述预设条件具体为权值矩阵不能平均划分或权值矩阵规模小于预设值。
10.根据权利要求1~4中任意一项所述的基于向量处理器的深度神经网络多核加速实现方法,其特征在于,所述步骤S1中具体按列或行输出一维的向量数据作为目标深度神经网络的输入值。
CN201710384961.0A 2017-05-26 2017-05-26 基于向量处理器的深度神经网络多核加速实现方法 Active CN107301456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710384961.0A CN107301456B (zh) 2017-05-26 2017-05-26 基于向量处理器的深度神经网络多核加速实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710384961.0A CN107301456B (zh) 2017-05-26 2017-05-26 基于向量处理器的深度神经网络多核加速实现方法

Publications (2)

Publication Number Publication Date
CN107301456A true CN107301456A (zh) 2017-10-27
CN107301456B CN107301456B (zh) 2020-05-12

Family

ID=60137813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710384961.0A Active CN107301456B (zh) 2017-05-26 2017-05-26 基于向量处理器的深度神经网络多核加速实现方法

Country Status (1)

Country Link
CN (1) CN107301456B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862378A (zh) * 2017-12-06 2018-03-30 芯原微电子(上海)有限公司 基于多核的卷积神经网络加速方法及系统、存储介质及终端
CN108197075A (zh) * 2017-12-29 2018-06-22 中国人民解放军国防科技大学 一种Inception结构的多核实现方法
CN108196882A (zh) * 2017-12-29 2018-06-22 普强信息技术(北京)有限公司 一种针对神经网络计算的加速方法及装置
CN108205703A (zh) * 2017-12-29 2018-06-26 中国人民解放军国防科技大学 多输入多输出矩阵平均值池化向量化实现方法
CN108920413A (zh) * 2018-06-28 2018-11-30 中国人民解放军国防科技大学 面向gpdsp的卷积神经网络多核并行计算方法
CN109597965A (zh) * 2018-11-19 2019-04-09 深圳力维智联技术有限公司 基于深度神经网络的数据处理方法、系统、终端及介质
CN109829542A (zh) * 2019-01-29 2019-05-31 武汉星巡智能科技有限公司 基于多核处理器的多元深度网络模型重构方法及装置
CN110197271A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110197270A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110197268A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
WO2019239254A1 (en) * 2018-06-14 2019-12-19 International Business Machines Corporation Parallel computational architecture with reconfigurable core-level and vector-level parallelism
CN110764885A (zh) * 2019-08-28 2020-02-07 中科晶上(苏州)信息技术有限公司 一种多移动设备的dnn任务的拆分和卸载方法
WO2020220479A1 (zh) * 2019-04-29 2020-11-05 山东浪潮人工智能研究院有限公司 基于fpga前向反向可复用的处理单元实现方法
CN113434813A (zh) * 2021-06-26 2021-09-24 上海寒武纪信息科技有限公司 一种基于神经网络的矩阵乘运算方法及相关装置
CN113988181A (zh) * 2021-10-26 2022-01-28 北京航空航天大学云南创新研究院 一种基于自适应前馈神经网络的目标分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622208A (zh) * 2011-01-27 2012-08-01 中兴通讯股份有限公司 一种多核可重构处理器簇及其实现重构的方法
WO2014105865A1 (en) * 2012-12-24 2014-07-03 Google Inc. System and method for parallelizing convolutional neural networks
CN104915322A (zh) * 2015-06-09 2015-09-16 中国人民解放军国防科学技术大学 一种卷积神经网络硬件加速方法及其axi总线ip核
CN105488565A (zh) * 2015-11-17 2016-04-13 中国科学院计算技术研究所 加速深度神经网络算法的加速芯片的运算装置及方法
CN105930902A (zh) * 2016-04-18 2016-09-07 中国科学院计算技术研究所 一种神经网络的处理方法、系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622208A (zh) * 2011-01-27 2012-08-01 中兴通讯股份有限公司 一种多核可重构处理器簇及其实现重构的方法
WO2014105865A1 (en) * 2012-12-24 2014-07-03 Google Inc. System and method for parallelizing convolutional neural networks
CN104915322A (zh) * 2015-06-09 2015-09-16 中国人民解放军国防科学技术大学 一种卷积神经网络硬件加速方法及其axi总线ip核
CN105488565A (zh) * 2015-11-17 2016-04-13 中国科学院计算技术研究所 加速深度神经网络算法的加速芯片的运算装置及方法
CN105930902A (zh) * 2016-04-18 2016-09-07 中国科学院计算技术研究所 一种神经网络的处理方法、系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GOPALAKRISHNA HEGDE 等: "CaffePresso: An optimized library for Deep Learning on embedded accelerator-based platforms", 《2016 INTERNATIONAL CONFERENCE ON COMPLIERS, ARCHITECTURES, AND SYTHESIS OF EMBEDDED SYSTEMS (CASES)》 *
GOPALAKRISHNA HEGDE 等: "Evaluating Embedded FPGA Accelerators for Deep Learning Applications", 《2016 IEEE 24TH ANNUAL INTERNATIONAL SYMPOSIUM ON FIELD-PROGRAMMABLE CUSTOM COMPUTING MACHINES (FCCM)》 *
JUNYANG ZHANG 等: "Vectorizable Design and Implementation of FFT Based on Fused Multiply-add Architectures", 《2016 3RD INTERNATIONAL CONFERENCE ON ENGINEERING TECHNOLOGY AND APPLICATION (ICETA 2016)》 *
RAQIBUL HASAN 等: "High throughput neural network based embedded streaming multicore processors", 《2016 IEEE INTERNATIONAL CONFERENCE ON REBOOTING COMPUTING (ICRC)》 *
张军阳: "面向多核向量处理器BLAS库的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862378A (zh) * 2017-12-06 2018-03-30 芯原微电子(上海)有限公司 基于多核的卷积神经网络加速方法及系统、存储介质及终端
CN107862378B (zh) * 2017-12-06 2020-04-24 芯原微电子(上海)股份有限公司 基于多核的卷积神经网络加速方法及系统、存储介质及终端
CN108197075A (zh) * 2017-12-29 2018-06-22 中国人民解放军国防科技大学 一种Inception结构的多核实现方法
CN108196882A (zh) * 2017-12-29 2018-06-22 普强信息技术(北京)有限公司 一种针对神经网络计算的加速方法及装置
CN108205703A (zh) * 2017-12-29 2018-06-26 中国人民解放军国防科技大学 多输入多输出矩阵平均值池化向量化实现方法
CN108197075B (zh) * 2017-12-29 2021-05-14 中国人民解放军国防科技大学 一种Inception结构的多核实现方法
CN110197270A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110197271A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110197268A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110197271B (zh) * 2018-02-27 2020-10-27 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110197270B (zh) * 2018-02-27 2020-10-30 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
WO2019239254A1 (en) * 2018-06-14 2019-12-19 International Business Machines Corporation Parallel computational architecture with reconfigurable core-level and vector-level parallelism
US11847553B2 (en) 2018-06-14 2023-12-19 International Business Machines Corporation Parallel computational architecture with reconfigurable core-level and vector-level parallelism
GB2588719A (en) * 2018-06-14 2021-05-05 Ibm Parallel computational architecture with reconfigurable core-level and vector-level parallelism
CN108920413A (zh) * 2018-06-28 2018-11-30 中国人民解放军国防科技大学 面向gpdsp的卷积神经网络多核并行计算方法
CN109597965A (zh) * 2018-11-19 2019-04-09 深圳力维智联技术有限公司 基于深度神经网络的数据处理方法、系统、终端及介质
CN109597965B (zh) * 2018-11-19 2023-04-18 深圳力维智联技术有限公司 基于深度神经网络的数据处理方法、系统、终端及介质
CN109829542A (zh) * 2019-01-29 2019-05-31 武汉星巡智能科技有限公司 基于多核处理器的多元深度网络模型重构方法及装置
WO2020220479A1 (zh) * 2019-04-29 2020-11-05 山东浪潮人工智能研究院有限公司 基于fpga前向反向可复用的处理单元实现方法
CN110764885A (zh) * 2019-08-28 2020-02-07 中科晶上(苏州)信息技术有限公司 一种多移动设备的dnn任务的拆分和卸载方法
CN110764885B (zh) * 2019-08-28 2024-04-09 中科晶上(苏州)信息技术有限公司 一种多移动设备的dnn任务的拆分和卸载方法
CN113434813A (zh) * 2021-06-26 2021-09-24 上海寒武纪信息科技有限公司 一种基于神经网络的矩阵乘运算方法及相关装置
CN113434813B (zh) * 2021-06-26 2024-05-14 上海寒武纪信息科技有限公司 一种基于神经网络的矩阵乘运算方法及相关装置
CN113988181A (zh) * 2021-10-26 2022-01-28 北京航空航天大学云南创新研究院 一种基于自适应前馈神经网络的目标分类方法

Also Published As

Publication number Publication date
CN107301456B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN107301456A (zh) 基于向量处理器的深度神经网络多核加速实现方法
CN207895435U (zh) 神经网络计算模组
CN107153873B (zh) 一种二值卷积神经网络处理器及其使用方法
CN105892989B (zh) 一种神经网络加速器及其运算方法
CN107578098B (zh) 基于脉动阵列的神经网络处理器
US10394929B2 (en) Adaptive execution engine for convolution computing systems
CN106951395B (zh) 面向压缩卷积神经网络的并行卷积运算方法及装置
CN105930902B (zh) 一种神经网络的处理方法、系统
CN106970896A (zh) 面向向量处理器的二维矩阵卷积的向量化实现方法
CN107578095B (zh) 神经网络计算装置及包含该计算装置的处理器
CN108205702A (zh) 一种多输入多输出矩阵卷积的并行处理方法
TW201824095A (zh) 用於稀疏神經網路加速的架構
CN109992743A (zh) 矩阵乘法器
CN108009627A (zh) 神经网络指令集架构
US20210241071A1 (en) Architecture of a computer for calculating a convolution layer in a convolutional neural network
CN107832804A (zh) 一种信息处理方法及相关产品
CN107886167A (zh) 神经网络运算装置及方法
CN109086244A (zh) 一种基于向量处理器的矩阵卷积向量化实现方法
CN107239824A (zh) 用于实现稀疏卷积神经网络加速器的装置和方法
CN107085562B (zh) 一种基于高效复用数据流的神经网络处理器及设计方法
WO2021026225A1 (en) System and method of accelerating execution of a neural network
CN109416756A (zh) 卷积器及其所应用的人工智能处理装置
CN110163333A (zh) 卷积神经网络的并行优化方法
CN108197075A (zh) 一种Inception结构的多核实现方法
CN110414672B (zh) 卷积运算方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant