CN109086244A - 一种基于向量处理器的矩阵卷积向量化实现方法 - Google Patents

一种基于向量处理器的矩阵卷积向量化实现方法 Download PDF

Info

Publication number
CN109086244A
CN109086244A CN201810758507.1A CN201810758507A CN109086244A CN 109086244 A CN109086244 A CN 109086244A CN 201810758507 A CN201810758507 A CN 201810758507A CN 109086244 A CN109086244 A CN 109086244A
Authority
CN
China
Prior art keywords
convolution
vector
convolution kernel
matrix
vector processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810758507.1A
Other languages
English (en)
Inventor
陈书明
杨超
扈啸
张军阳
李斌
陈海燕
陈伟文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810758507.1A priority Critical patent/CN109086244A/zh
Publication of CN109086244A publication Critical patent/CN109086244A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8053Vector processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于向量处理器的矩阵卷积向量化实现方法,该方法包括:将卷积核数据进行按行展开的重排序,并将重排后的卷积核数据放置在向量处理器的核内存储体中,各向量处理单元VPE并行进行卷积计算,每个向量处理单元VPE独立的计算单个的输出特征图,各向量处理单元VPE每次计算时,将输入数据的一个元素广播至向量处理器中各向量处理单元VPE,同时从核内存储体中加载指定行的多个卷积核数据并与广播的元素进行乘累加计算,其中输入数据和计算过程中的中间计算结果放置在核外DDR。本发明能够实现多维矩阵卷积计算的并行向量化,且具有实现方法简单、并行性好、卷积以及处理器的计算效率高等优点。

Description

一种基于向量处理器的矩阵卷积向量化实现方法
技术领域
本发明涉及基于卷积神经网络的深度学习技术领域,尤其涉及一种基于向量处理器的矩阵卷积向量化实现方法。
背景技术
随着深度学习技术的兴起,基于卷积神经网络的目标识别技术在图像识别、语音识别、自然语言处理等领域均有广泛的使用。矩阵卷积是一种计算密集型和访存密集型计算,而卷积神经网络模型中的矩阵卷积运算往往占据一个卷积神经网络模型计算量的85%以上,因此如何加速矩阵卷积运算是当前研究的一个重点和难点。
随着高密度大型线性方程组的求解、高清视频编解码、4G通信、数字图像处理等高密集、实时运算应用的不断涌现,计算机的体系结构出现了显著的变化,一些新型体系结构不断涌现,如GPU的众核体系结构、异构多核体系结构和向量处理器体系结构等,这些新型的体系结构在单芯片上集成了多个处理器核,每个核上包含丰富的处理部件,进而大幅度提高了芯片的计算性能。向量处理器就是其中的一种新型的体系结构,如图1所示,其一般包括向量处理器单元(VPU)和标量处理单元(SPU),向量处理部件中通常包含多个并行的向量处理单元(VPE),VPE之间可以通过规约和混洗进行数据交互,所有的VPE基于SIMD执行同样的操作。
矩阵卷积是卷积神经网络模型中常用的核心模块之一,其不仅是计算密集且访存密集,由于矩阵卷积计算中卷积核的规模一般比较小,因此若不能采取合理的计算方法,即使使用高性能的计算设备也难以发挥出应有的计算优势。具体来说,二维及多维矩阵卷积常用于图像处理中,若给定一个二维输入图像:
Xij(1≤i≤M,1≤j≤N)和滤波器fij(1≤i≤m,1≤j≤n),一般m<M,n<N,则卷积的输出结果计算公式为:由该计算公式可知,二维矩阵卷积计算的是一个卷积滤波尺寸内的点乘求和的结果,而在存储体中数据一般是按照一维连续存储的,向量处理器在加载数据的时候是地址连续加载数据,因此目前矩阵卷积的方式难以发挥出向量处理器的并行性。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、并行性好、卷积以及处理器的计算效率高的基于向量处理器的矩阵卷积向量化实现方法,能够实现多维矩阵卷积计算的并行向量化,可提高向量处理器并行性、能提高处理器运算效率。
为解决上述技术问题,本发明提出的技术方案为:
一种基于向量处理器的矩阵卷积向量化实现方法,其特征在于,该方法包括:将卷积核数据进行按行展开的重排序,并将重排后的卷积核数据放置在向量处理器的核内存储体中,各向量处理单元VPE并行进行卷积计算,每个向量处理单元VPE独立的计算单个的输出特征图,各向量处理单元VPE每次计算时,将输入数据的一个元素广播至向量处理器中各向量处理单元VPE,同时从所述核内存储体中加载指定行的多个卷积核数据并与广播的元素进行乘累加计算,其中输入数据和计算过程中的中间计算结果放置在核外DDR。
作为本发明的进一步改进,该方法的步骤为:
S1.确定每次可以同时计算的输出特征图的数量p;
S2.将输入特征图置入向量处理器的核外DDR中,将m个卷积核矩阵按行展开成列模式,得到重排后的卷积核矩阵并置入向量处理器的核内AM中,m为向量处理单元VPE的数量;
S3.每次广播核内AM的输入特征图的一个元素至各向量处理单元VPE,同时从核内AM中加载m个卷积核数据与广播的元素进行对应乘累加计算,直至完成n个输出特征图的计算,n为卷积核的数量。
作为本发明的进一步改进:所述步骤S1中具体根据向量处理器中向量处理单元VPE的数量m、卷积核的数量n、移动步长s以及卷积核的规模k×k,确定每次可以同时计算的输出特征图的数量p。
作为本发明的进一步改进:所述步骤S2中具体将m个卷积核中各个单核按行展开成列模式,即m个k×k规模的卷积核展开成k2行、m列的矩阵,使得m个k×k的卷积核按行排成一个k2×m的卷积核矩阵。
作为本发明的进一步改进,所述步骤S3的具体步骤为:
S31.取输入特征图的一个卷积核窗口;
S32.在当前卷积核窗口内取第一个元素广播至各向量处理单元VPE,同时加载m个卷积核元素,对应相乘并累加到向量累加寄存器中;
S33.重复执行步骤S32,直至完成当前卷积核窗口内各元素的计算,并行输出m个输出特征图的第一个结果元素;
S34.顺移至输入特征图的下一个卷积核窗口,同时将卷积核的加载地址复位至起始地址,返回执行步骤S32,直至完成n个输出特征图的计算。
作为本发明的进一步改进:所述卷积核窗口大小按照卷积核规模k×k进行设定。
作为本发明的进一步改进:所述步骤S32具体重复步骤S32k2次,即循环执行k×k次,完成当前卷积核窗口的计算。
作为本发明的进一步改进:所述步骤S34中具体按照移动步长s顺移卷积核窗口,即水平移动s个元素,顺移时按照先水平后垂直的顺序移动。
作为本发明的进一步改进:具体通过重复执行步骤S32~S34n/m次,以完成n个输出特征图的计算。
与现有技术相比,本发明的优点在于:
1)本发明基于向量处理器的矩阵卷积向量化实现方法,通过将卷积神经网络中的卷积核数据进行重排序,将重复使用率较高的重排后的卷积核数据放置在核内存储体,将输入数据和每层中间结果放置在核外DDR,使用广播的方式对多核处理器的所有核广播输入元素,可以将不易并行的多维矩阵卷积计算转换成易于并行的向量化操作,能够在降低卷积神经网络计算时间的同时,大大提高了向量处理器的计算效率。
2)本发明基于向量处理器的矩阵卷积向量化实现方法,进一步依据向量处理器的体系结构特点和卷积核的数量和规模,确定最优的多输出特征图的实现方式,有效地提高了向量处理器的计算访存比,将复用次数较多的卷积核按行展开置于核内AM中,避免了卷积核数据的重复访问,同时可以100%的利用向量处理器的向量处理单元VPE,每个PE独立的计算单个的输出特征图,避免了常规计算中的VPEs之间的数据交互,使得卷积的计算得以高效实现,实现简单,操作方便,能够充分挖掘向量处理器的指令、数据、任务等各个层次的并行性,从而充分发挥多MAC运算部件向量处理器所具有的高性能计算能力的优点。
附图说明
图1是向量处理器的一般结构示意图。
图2是本实施例基于向量处理器的矩阵卷积向量化实现方法的实现流程示意图。
图3是本实施例单个k×k规模的卷积核按行展开的实现原理示意图。
图4是本实施例N个3×3的卷积核展开成9×N的卷积核矩阵的实现原理示意图。
图5是本实施例输入特征图矩阵按行展开的实现原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
本发明基于向量处理器的矩阵卷积向量化实现方法包括:将卷积核数据进行按行展开的重排序,并将重排后的卷积核数据放置在向量处理器的核内存储体中,各向量处理单元VPE并行进行卷积计算,每个向量处理单元VPE独立的计算单个的输出特征图,各向量处理单元VPE每次计算时,将输入数据的一个元素广播至向量处理器中各向量处理单元VPE,同时从核内存储体中加载指定行的多个卷积核数据并与广播的元素进行乘累加计算,其中输入数据和计算过程中的中间计算结果放置在核外DDR。
本发明上述方法,通过将卷积神经网络中的卷积核数据进行重排序,将重复使用率较高的重排后的卷积核数据放置在核内存储体,将输入数据和每层中间结果放置在核外DDR,使用广播的方式对多核处理器的所有核广播输入元素,可以将不易并行的多维矩阵卷积计算转换成易于并行的向量化操作,能够在降低卷积神经网络计算时间的同时,大大提高了向量处理器的计算效率。
如图2所示,本实施例基于向量处理器的矩阵卷积向量化实现方法的具体步骤为:
S1.确定每次可以同时计算的输出特征图的数量p;
S2.将输入特征图置入向量处理器的核外DDR中,将m个卷积核矩阵按行展开成列模式,得到重排后的卷积核矩阵并置入向量处理器的核内AM中,m为向量处理单元VPE的数量;
S3.每次广播核内AM的输入特征图的一个元素至各向量处理单元VPE,同时从核内AM中加载m个卷积核数据与广播的元素进行对应乘累加计算,直至完成n个输出特征图的计算,n为卷积核的数量。
由于当前卷积神经网络模型中,卷积核的尺寸一般为方阵,本实施例中取卷积核的规模为k×k,即长等于高;输入数据可以是单/双精度图像数据或者经过激活函数处理后的单/双精度浮点值或者8/16位定点值。
本实施例中,步骤S1中具体根据向量处理器中向量处理单元VPE的数量m、卷积核的数量n、移动步长s以及卷积核的规模k×k,确定每次可以同时计算的输出特征图的数量p。VPE的数量m为每次计算得出的输出特征图的数量,即m=p,且一般n为m的整数倍,在实际的计算过程中,若n不为m的整数倍,则多余的输出特征图单独进行处理。
本实施例中,步骤S2中将m个卷积核矩阵进行重排时,具体将m个卷积核中各个单核按行展开成列模式,即m个k×k规模的卷积核展开成k2行、m列的矩阵,使得m个k×k的卷积核按行排成一个k2×m的卷积核矩阵。单个k×k规模的卷积核按行展开如图3所示,将卷积核数据按行展开为一列,将N个3×3的卷积核展开成9×N的卷积核矩阵如图4所示。
本实施例中,步骤S3的具体步骤为:
S31.取输入特征图的一个卷积核窗口;
S32.在当前卷积核窗口内取第一个元素广播至各向量处理单元VPE,同时加载m个卷积核元素,对应相乘并累加到向量累加寄存器中;
S33.重复执行步骤S32k2次,直至完成当前卷积核窗口内各元素的计算,并行输出m个输出特征图的第一个结果元素;
S34.顺移至输入特征图的下一个卷积核窗口,同时将卷积核的加载地址复位至起始地址,返回执行步骤S32,重复执行步骤S32~S34n/m次,完成n个输出特征图的计算。
本实施例中,卷积核窗口大小具体按照卷积核规模k×k进行设定,即卷积核窗口大小设定为k×k,。
本实施例中,步骤S34中具体按照移动步长s顺移卷积核窗口,即水平移动s个元素,一般移动步长为1、2或3,且设定水平步长与垂直步长相同,顺移时按照先水平后垂直的顺序移动。本实施例输入特征图按行展开如图5所示,即DDR中输入特征图每次取一个与k×k对应大小的卷积核窗口,且该窗口根据移动步长先水平移动,后垂直移动,移动顺序为从左到右、从上到下,从左上角开始按行取数,循环k×k次之后,水平移动s个元素,后续按同样的方式进行取数。
本实施例上述方法,能够依据向量处理器的体系结构特点和卷积核的数量和规模,确定最优的多输出特征图的实现方式,有效地提高了向量处理器的计算访存比,将复用次数较多的卷积核按行展开置于核内AM中,避免了卷积核数据的重复访问,同时可以100%的利用向量处理器的向量处理单元VPE,每个PE独立的计算单个的输出特征图,避免了常规计算中的VPEs之间的数据交互,使得卷积的计算得以高效实现,实现简单,操作方便,能够充分挖掘向量处理器的指令、数据、任务等各个层次的并行性,从而充分发挥多MAC运算部件向量处理器所具有的高性能计算能力的优点。
在具体应用实施例中,本发明基于向量处理器的矩阵卷积向量化实现方法的具体流程为:
(1)首先依据向量处理器中向量处理单元VPE的数量m、卷积核的数量n,卷积核的规模k×k,移动步长s,确定向量处理器可以同时计算出的输出特征图的数量p,其中取m为16、n取16、k取3、s取1,因此确定p=16,即可以同时计算得出16个输出特征图;
(2)将16个3×3的卷积核矩阵,毎个独立的卷积核按行展开成列模式组成9行16列的卷积核矩阵;
(3)将输入特征图置入向量处理器的DDR中,将步骤(2)中组成的卷积核矩阵由DMA传输置核内AM中;
(4)取输入特征图对应3×3的小方框(卷积核窗口),取第一个元素并广播至16个VPE中,同时使用向量指令从AM中加载16个卷积核矩阵的第一行的16个元素,使用乘加指令完成输入特征图第一个元素与16个卷积核元素相乘并累加至向量寄存器中;
(5)重复步骤(4)9次,同时完成16个输出特征图第一个输出元素的计算;
(6)将步骤(4)中输入特征图上的小方框按行移动1个步长,同时将AM中的卷积核矩阵的加载地址复位至起始地址;
(7)重复步骤(4)-(6)直至完成整个16幅输出特征图的计算。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (9)

1.一种基于向量处理器的矩阵卷积向量化实现方法,其特征在于,该方法包括:将卷积核数据进行按行展开的重排序,并将重排后的卷积核数据放置在向量处理器的核内存储体中,各向量处理单元VPE并行进行卷积计算,每个向量处理单元VPE独立的计算单个的输出特征图,各向量处理单元VPE每次计算时,将输入数据的一个元素广播至向量处理器中各向量处理单元VPE,同时从所述核内存储体中加载指定行的多个卷积核数据并与广播的元素进行乘累加计算,其中输入数据和计算过程中的中间计算结果放置在核外DDR。
2.根据权利要求1所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于,该方法的步骤为:
S1.确定每次可以同时计算的输出特征图的数量p;
S2.将输入特征图置入向量处理器的核外DDR中,将m个卷积核矩阵按行展开成列模式,得到重排后的卷积核矩阵并置入向量处理器的核内AM中,m为向量处理单元VPE的数量;
S3.每次广播核内AM的输入特征图的一个元素至各向量处理单元VPE,同时从核内AM中加载m个卷积核数据与广播的元素进行对应乘累加计算,直至完成n个输出特征图的计算,n为卷积核的数量。
3.根据权利要求2所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于:所述步骤S1中具体根据向量处理器中向量处理单元VPE的数量m、卷积核的数量n、移动步长s以及卷积核的规模k×k,确定每次可以同时计算的输出特征图的数量p。
4.根据权利要求2所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于,所述步骤S2中具体将m个卷积核中各个单核按行展开成列模式,即m个k×k规模的卷积核展开成k2行、m列的矩阵,使得m个k×k的卷积核按行排成一个k2×m的卷积核矩阵。
5.根据权利要求2所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于,所述步骤S3的具体步骤为:
S31.取输入特征图的一个卷积核窗口;
S32.在当前卷积核窗口内取第一个元素广播至各向量处理单元VPE,同时加载m个卷积核元素,对应相乘并累加到向量累加寄存器中;
S33.重复执行步骤S32,直至完成当前卷积核窗口内各元素的计算,并行输出m个输出特征图的第一个结果元素;
S34.顺移至输入特征图的下一个卷积核窗口,同时将卷积核的加载地址复位至起始地址,返回执行步骤S32,直至完成n个输出特征图的计算。
6.根据权利要求5所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于,所述卷积核窗口大小按照卷积核规模k×k进行设定。
7.根据权利要求5所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于,所述步骤S32具体重复步骤S32k2次,即循环执行k×k次,完成当前卷积核窗口的计算。
8.根据权利要求5所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于,所述步骤S34中具体按照移动步长s顺移卷积核窗口,即水平移动s个元素,顺移时按照先水平后垂直的顺序移动。
9.根据权利要求5~8中任意一项所述的基于向量处理器的矩阵卷积向量化实现方法,其特征在于,具体通过重复执行步骤S32~S34n/m次,以完成n个输出特征图的计算。
CN201810758507.1A 2018-07-11 2018-07-11 一种基于向量处理器的矩阵卷积向量化实现方法 Pending CN109086244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810758507.1A CN109086244A (zh) 2018-07-11 2018-07-11 一种基于向量处理器的矩阵卷积向量化实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810758507.1A CN109086244A (zh) 2018-07-11 2018-07-11 一种基于向量处理器的矩阵卷积向量化实现方法

Publications (1)

Publication Number Publication Date
CN109086244A true CN109086244A (zh) 2018-12-25

Family

ID=64837494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810758507.1A Pending CN109086244A (zh) 2018-07-11 2018-07-11 一种基于向量处理器的矩阵卷积向量化实现方法

Country Status (1)

Country Link
CN (1) CN109086244A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726800A (zh) * 2018-12-29 2019-05-07 北京中科寒武纪科技有限公司 运算方法、装置及相关产品
CN109740733A (zh) * 2018-12-27 2019-05-10 深圳云天励飞技术有限公司 深度学习网络模型优化方法、装置及相关设备
CN110580324A (zh) * 2019-07-23 2019-12-17 珠海格力电器股份有限公司 矩阵运算方法、装置、计算机设备和存储介质
CN110766157A (zh) * 2019-10-21 2020-02-07 中国人民解放军国防科技大学 多样本神经网络前向传播向量化实现方法
CN110782009A (zh) * 2019-10-17 2020-02-11 湖南大学 基于ARMv8体系的计算内核优化方法
CN110796236A (zh) * 2019-10-21 2020-02-14 中国人民解放军国防科技大学 多样本多通道卷积神经网络池化的向量化实现方法
CN110807170A (zh) * 2019-10-21 2020-02-18 中国人民解放军国防科技大学 多样本多通道卷积神经网络Same卷积向量化实现方法
CN110930290A (zh) * 2019-11-13 2020-03-27 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN111028126A (zh) * 2019-11-18 2020-04-17 中国航空工业集团公司西安航空计算技术研究所 一种gpu图像处理卷积过滤的实现方法
CN112101284A (zh) * 2020-09-25 2020-12-18 北京百度网讯科技有限公司 图像识别方法、图像识别模型的训练方法、装置及系统
WO2020258568A1 (zh) * 2019-06-28 2020-12-30 苏州浪潮智能科技有限公司 基于卷积神经网络的数据处理方法和装置
CN112541565A (zh) * 2019-09-20 2021-03-23 腾讯科技(深圳)有限公司 一种卷积计算数据流映射方法及装置
CN113344768A (zh) * 2021-08-02 2021-09-03 成都统信软件技术有限公司 一种图像矩阵卷积的实现方法、计算设备及储存介质
CN113469350A (zh) * 2021-07-07 2021-10-01 武汉魅瞳科技有限公司 一种适于npu的深度卷积神经网络加速方法和系统
CN113610211A (zh) * 2021-06-30 2021-11-05 山东云海国创云计算装备产业创新中心有限公司 一种卷积计算方法、系统、计算机设备及可读存储介质
CN113806261A (zh) * 2021-10-09 2021-12-17 中国人民解放军国防科技大学 一种面向向量处理器的池化向量化实现方法
CN116861149A (zh) * 2023-09-05 2023-10-10 之江实验室 卷积运算的优化方法、装置及处理器
CN116881618A (zh) * 2023-08-25 2023-10-13 之江实验室 通用矩阵乘计算优化方法、装置及处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315574A (zh) * 2016-04-26 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行矩阵乘运算的装置和方法
CN108205702A (zh) * 2017-12-29 2018-06-26 中国人民解放军国防科技大学 一种多输入多输出矩阵卷积的并行处理方法
CN108268425A (zh) * 2016-12-30 2018-07-10 英特尔公司 可编程矩阵处理引擎

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315574A (zh) * 2016-04-26 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行矩阵乘运算的装置和方法
CN108268425A (zh) * 2016-12-30 2018-07-10 英特尔公司 可编程矩阵处理引擎
CN108205702A (zh) * 2017-12-29 2018-06-26 中国人民解放军国防科技大学 一种多输入多输出矩阵卷积的并行处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张军阳 等: "二维矩阵卷积在向量处理器中的设计与实现", 《国防科技大学学报》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740733A (zh) * 2018-12-27 2019-05-10 深圳云天励飞技术有限公司 深度学习网络模型优化方法、装置及相关设备
CN109740733B (zh) * 2018-12-27 2021-07-06 深圳云天励飞技术有限公司 深度学习网络模型优化方法、装置及相关设备
CN109726800A (zh) * 2018-12-29 2019-05-07 北京中科寒武纪科技有限公司 运算方法、装置及相关产品
WO2020258568A1 (zh) * 2019-06-28 2020-12-30 苏州浪潮智能科技有限公司 基于卷积神经网络的数据处理方法和装置
CN110580324B (zh) * 2019-07-23 2020-11-17 珠海格力电器股份有限公司 图像矩阵运算方法、装置、计算机设备和存储介质
CN110580324A (zh) * 2019-07-23 2019-12-17 珠海格力电器股份有限公司 矩阵运算方法、装置、计算机设备和存储介质
CN112541565B (zh) * 2019-09-20 2023-08-29 腾讯科技(深圳)有限公司 一种卷积计算数据流映射方法及装置
CN112541565A (zh) * 2019-09-20 2021-03-23 腾讯科技(深圳)有限公司 一种卷积计算数据流映射方法及装置
CN110782009A (zh) * 2019-10-17 2020-02-11 湖南大学 基于ARMv8体系的计算内核优化方法
CN110782009B (zh) * 2019-10-17 2023-09-08 湖南大学 基于ARMv8体系的计算内核优化方法
CN110807170A (zh) * 2019-10-21 2020-02-18 中国人民解放军国防科技大学 多样本多通道卷积神经网络Same卷积向量化实现方法
CN110796236A (zh) * 2019-10-21 2020-02-14 中国人民解放军国防科技大学 多样本多通道卷积神经网络池化的向量化实现方法
CN110766157B (zh) * 2019-10-21 2022-03-18 中国人民解放军国防科技大学 多样本神经网络前向传播向量化实现方法
CN110766157A (zh) * 2019-10-21 2020-02-07 中国人民解放军国防科技大学 多样本神经网络前向传播向量化实现方法
CN110796236B (zh) * 2019-10-21 2022-06-17 中国人民解放军国防科技大学 多样本多通道卷积神经网络池化的向量化实现方法
CN110930290B (zh) * 2019-11-13 2023-07-07 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN110930290A (zh) * 2019-11-13 2020-03-27 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN111028126A (zh) * 2019-11-18 2020-04-17 中国航空工业集团公司西安航空计算技术研究所 一种gpu图像处理卷积过滤的实现方法
CN111028126B (zh) * 2019-11-18 2023-06-30 中国航空工业集团公司西安航空计算技术研究所 一种gpu图像处理卷积过滤的实现方法
CN112101284A (zh) * 2020-09-25 2020-12-18 北京百度网讯科技有限公司 图像识别方法、图像识别模型的训练方法、装置及系统
CN113610211A (zh) * 2021-06-30 2021-11-05 山东云海国创云计算装备产业创新中心有限公司 一种卷积计算方法、系统、计算机设备及可读存储介质
CN113610211B (zh) * 2021-06-30 2024-01-23 山东云海国创云计算装备产业创新中心有限公司 一种卷积计算方法、系统、计算机设备及可读存储介质
CN113469350A (zh) * 2021-07-07 2021-10-01 武汉魅瞳科技有限公司 一种适于npu的深度卷积神经网络加速方法和系统
CN113344768A (zh) * 2021-08-02 2021-09-03 成都统信软件技术有限公司 一种图像矩阵卷积的实现方法、计算设备及储存介质
CN113344768B (zh) * 2021-08-02 2021-10-15 成都统信软件技术有限公司 一种图像矩阵卷积的实现方法、计算设备及储存介质
CN113806261B (zh) * 2021-10-09 2023-06-20 中国人民解放军国防科技大学 一种面向向量处理器的池化向量化实现方法
CN113806261A (zh) * 2021-10-09 2021-12-17 中国人民解放军国防科技大学 一种面向向量处理器的池化向量化实现方法
CN116881618A (zh) * 2023-08-25 2023-10-13 之江实验室 通用矩阵乘计算优化方法、装置及处理器
CN116861149A (zh) * 2023-09-05 2023-10-10 之江实验室 卷积运算的优化方法、装置及处理器
CN116861149B (zh) * 2023-09-05 2024-01-09 之江实验室 卷积运算的优化方法、装置及处理器

Similar Documents

Publication Publication Date Title
CN109086244A (zh) 一种基于向量处理器的矩阵卷积向量化实现方法
JP6977239B2 (ja) 行列乗算器
CN108205701B (zh) 一种执行卷积计算的系统及方法
CN108205702B (zh) 一种多输入多输出矩阵卷积的并行处理方法
CN111937009A (zh) 脉动卷积神经网络
US11797855B2 (en) System and method of accelerating execution of a neural network
CN110415157B (zh) 一种矩阵乘法的计算方法及装置
CN106940815A (zh) 一种可编程卷积神经网络协处理器ip核
CN103049241B (zh) 一种提高cpu+gpu异构装置计算性能的方法
TW202123093A (zh) 實行卷積運算的系統及方法
CN113222101A (zh) 深度学习处理装置、方法、设备和存储介质
Motamedi et al. Fast and energy-efficient CNN inference on IoT devices
CN109165733A (zh) 多输入多输出矩阵最大值池化向量化实现方法
CN110135569A (zh) 一种异构平台神经元定位三级流水并行方法、系统及介质
CN103177414A (zh) 一种基于结构的图节点相似度并行计算方法
CN109416755A (zh) 人工智能并行处理方法、装置、可读存储介质、及终端
CN110414672B (zh) 卷积运算方法、装置及系统
Chang et al. VSCNN: Convolution neural network accelerator with vector sparsity
CN113254391B (zh) 一种神经网络加速器卷积计算和数据载入并行方法及装置
CN104572588B (zh) 矩阵求逆处理方法和装置
CN109447239B (zh) 一种基于arm的嵌入式卷积神经网络加速方法
CN114461978A (zh) 数据处理方法、装置、电子设备及可读存储介质
US20230267740A1 (en) Video data processing method and system, and relevant assemblies
CN109753682A (zh) 一种基于gpu端的有限元刚度矩阵模拟方法
CN113313252A (zh) 一种基于脉动阵列的深度可分离卷积实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181225