CN107305538A

CN107305538A - 一种子矩阵运算装置及方法

Info

Publication number: CN107305538A
Application number: CN201610258546.6A
Authority: CN
Inventors: 刘少礼; 张潇; 陈云霁; 陈天石
Original assignee: Beijing Zhongke Cambrian Technology Co Ltd
Current assignee: Cambricon Technologies Corp Ltd; Beijing Zhongke Cambrian Technology Co Ltd
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2017-10-31
Anticipated expiration: 2036-04-22
Also published as: CN107305538B; CN108388541B; CN108491359B; CN108388541A; CN108491359A

Abstract

本发明提供了一种子矩阵运算装置及方法，装置包括存储单元、寄存器单元和子矩阵运算单元，存储单元中存储有子矩阵数据，寄存器单元中存储有子矩阵信息，子矩阵运算单元根据子矩阵运算指令在寄存器单元中获取子矩阵信息，然后，根据该子矩阵信息在存储单元中获取相应的子矩阵数据，接着，根据获取的子矩阵数据进行子矩阵运算，得到子矩阵运算结果。本发明将参与计算的子矩阵数据暂存在高速暂存存储器上，使得子矩阵运算过程中可以更加灵活有效地支持不同宽度的数据，提升包含大量子矩阵计算任务的执行性能。

Description

一种子矩阵运算装置及方法

技术领域

本发明属于计算机领域，尤其涉及一种子矩阵运算装置及方法，用于根据子矩阵运算指令从矩阵数据中获取子矩阵数据，并根据该子矩阵数据执行子矩阵运算。

背景技术

当前计算机领域有越来越多的算法涉及到矩阵运算，包括人工神经网络算法和图形的渲染算法。与此同时，作为矩阵运算中的一个重要组成部分，子矩阵运算也越来越频繁的出现在各种计算任务中。所以对于那些面向解决矩阵运算问题的方案，必须同时考虑子矩阵运算实现的效率和难度。

在现有技术中一种进行子矩阵运算的已知方案是使用通用处理器，该方法通过通用寄存器堆和通用功能部件来执行通用指令，从而执行子矩阵运算。然而，该方法的缺点之一是单个通用处理器多用于标量计算，在进行子矩阵运算时运算性能较低。而使用多个通用处理器并行执行时，通用处理器之间的相互通讯又有可能成为性能瓶颈，同时，实现子矩阵运算的代码量也大于正常的矩阵运算。

在另一种现有技术中，使用图形处理器(GPU)来进行子矩阵计算，其中，通过使用通用寄存器堆和通用流处理单元执行通用SIMD指令来进行子矩阵运算。然而，上述方案中，GPU片上缓存太小，在进行大规模子矩阵运算时需要不断进行片外数据搬运，片外带宽成为了主要性能瓶颈。

在另一种现有技术中，使用专门定制的矩阵运算装置来进行子矩阵计算，其中，使用定制的寄存器堆和定制的处理单元进行子矩阵运算。然而，目前已有的专用矩阵运算装置受限于寄存器堆，不能够灵活地支持不同长度的子矩阵运算。

综上所述，现有的不管是片上多核通用处理器、片间互联通用处理器(单核或多核)、还是片间互联，图形处理器都无法进行高效的子矩阵运算，并且这些现有技术在处理子矩阵运算问题时存在着代码量大，受限于片间通讯，片上缓存不够，支持的子矩阵规模不够灵活等问题。

发明内容

(一)要解决的技术问题

本发明提供一种子矩阵运算装置及方法，能配合子矩阵运算指令集，高效地实现各种子矩阵运算。

(二)技术方案

本发明提供一种子矩阵运算装置，用于根据子矩阵运算指令从矩阵数据中获取子矩阵数据，并根据该子矩阵数据执行子矩阵运算，装置包括：

存储单元，用于存储矩阵数据；

寄存器单元，用于存储子矩阵信息；

子矩阵运算单元，用于获取子矩阵运算指令，并根据该子矩阵运算指令从所述寄存器单元中获取子矩阵信息，然后，根据该子矩阵信息在所述存储单元中的矩阵数据中获取子矩阵数据，接着，根据获取的子矩阵数据进行子矩阵运算，得到子矩阵运算结果。

本发明还提供一种子矩阵运算方法，用于根据子矩阵运算指令从矩阵数据中获取子矩阵数据，并根据该子矩阵数据执行子矩阵运算，方法包括：

S1，存储矩阵数据；

S2，存储子矩阵信息；

S3，获取子矩阵运算指令，并根据该子矩阵运算指令获取子矩阵信息，然后，根据该子矩阵信息从存储的矩阵数据中获取子矩阵数据，接着，根据获取的子矩阵数据进行子矩阵运算，得到子矩阵运算结果。

(三)有益效果

本发明提供的子矩阵运算装置，将参与计算的子矩阵数据暂存在高速暂存存储器上(Scratchpad Memory)，使得子矩阵运算过程中可以更加灵活有效地支持不同宽度的数据，提升包含大量矩阵计算任务的执行性能，本发明采用的指令具有精简的格式，使得指令集使用方便、支持的矩阵长度灵活。

附图说明

图1是是本发明提供的子矩阵运算装置的示意图。

图2是本发明提供的指令集格式示意图。

图3是本发明一个子矩阵的示意图。

图4是本发明实施例提供的子矩阵运算装置的示意图。

图5是本发明实施例提供的子矩阵运算装置执行子矩阵乘子矩阵指令的流程图。

图6是本发明实施例中矩阵数据和子矩阵数据的示意图。

图7是本发明实施例提供的子矩阵运算装置执行卷积神经网络运算的流程图。

具体实施方式

本发明提供一种子矩阵运算装置及方法，包括存储单元、寄存器单元和子矩阵运算单元，存储单元中存储有子矩阵数据，寄存器单元中存储有子矩阵信息，子矩阵运算单元根据子矩阵运算指令在寄存器单元中获取子矩阵信息，然后，根据该子矩阵信息在存储单元中获取相应的子矩阵数据，接着，根据获取的子矩阵数据进行子矩阵运算，得到子矩阵运算结果。本发明将参与计算的子矩阵数据暂存在高速暂存存储器上，使得子矩阵运算过程中可以更加灵活有效地支持不同宽度的数据，提升包含大量子矩阵计算任务的执行性能。其中高速暂存存储器可以通过各种不同存储器件(SRAM、DRAM、eDRAM、忆阻器、3D-DRAM和非易失存储等)实现。

图1是本发明提供的子矩阵运算装置的示意图，如图1所示，装置包括：

存储单元，用于存储矩阵数据；

寄存器单元，用于存储子矩阵信息，在具体应用中，可以由多个寄存器单元组成一个寄存器堆，每个寄存器单元存储有不同的子矩阵信息，需要说明书的是，子矩阵信息均为标量数据；

子矩阵运算单元，用于获取子矩阵运算指令，并根据该子矩阵运算指令从寄存器单元中获取子矩阵信息，然后，根据该子矩阵信息在存储单元中的矩阵数据中获取子矩阵数据，接着，根据获取的子矩阵数据进行子矩阵运算，得到子矩阵运算结果。

图2是本发明提供的指令集格式示意图，如图2所示，指令集采用Load/Store结构，子矩阵运算单元不会对内存中的数据进行操作。子矩阵指令集采用超长指令集架构(Very Long Instruction Word)，同时，指令集采用定长指令，使得子矩阵运算装置在上一条子矩阵运算指令的译码阶段就可以对下一条子矩阵运算指令进行取值。子矩阵运算指令包括一操作码和多个操作域，其中，操作码用于指示该子矩阵运算指令的功能，操作域用于指示该子矩阵运算指令的数据信息，数据信息为寄存器单元的编号或者立即数，子矩阵运算单元根据寄存器单元的编号访问对应的寄存器单元，从而获取子矩阵信息，或者，子矩阵运算单元也可以直接将立即数作为子矩阵数据进行相应的子矩阵运算。

需要说明的是，针对不同功能的运算指令，其操作码也不同，具体地，在本发明提供的一套指令集中，包含有不同功能的子矩阵运算指令：

子矩阵乘向量指令(SMMV)，根据该指令，装置从高速暂存存储器的指定起始地址，根据指令中子矩阵的行宽、列宽和行间距取出指定的子矩阵数据，同时取出向量数据，在矩阵运算单元中进行矩阵乘向量的乘法运算，并将结果写回至高速暂存存储器的指定地址；值得说明的是，向量可以作为特殊形式的矩阵(只有一行元素的矩阵)存储于高速暂存存储器中。

向量乘子矩阵指令(VMSM)，根据该指令，装置从高速暂存存储器的指定地址取出向量数据，同时根据指令中的子矩阵起始地址、子矩阵的行宽和列宽以及子矩阵的行间距取出指定的子矩阵，在矩阵单元中进行向量乘子矩阵的乘法运算，并将结果写回至高速暂存存储器的指定地址；值得说明的是，向量可以作为特殊形式的矩阵(只有一行元素的矩阵)存储于高速暂存存储器中。

子矩阵乘标量指令(SMMS)，根据该指令，装置从高速暂存存储器的指定地址，根据指令中的子矩阵的行宽和列宽以及子矩阵的行间距，取出指定的子矩阵数据，从标量寄存器堆的指定地址中取出指定的标量数据，在矩阵运算单元中进行子矩阵乘标量的运算，并将结果写回至高速暂存存储器的指定地址，需要说明的是，标量寄存器堆不仅存储有子矩阵的各种数据信息(包括起始地址、行宽、列宽和行间距)，还存有标量数据本身。

张量运算指令(TENS)，根据该指令，装置从高速暂存存储器取出指定的两块子矩阵数据，在矩阵运算单元中对两子矩阵数据进行张量运算，并将计算结果写回至高速暂存存储器的指定地址。

子矩阵加法指令(SMA)，根据该指令，装置从高速暂存存储器取出指定的两块子矩阵数据，在矩阵运算单元中对两子矩阵数据进行加法运算，并将计算结果写回至高速暂存存储器的指定地址。

子矩阵加法指令(SMS)，根据该指令，装置从高速暂存存储器取出指定的两块子矩阵数据，在矩阵运算单元中对两子矩阵数据进行减法运算，并将计算结果写回至高速暂存存储器的指定地址。

子矩阵乘法指令(SMM)，根据该指令，装置从高速暂存存储器取出指定的两块子矩阵数据，在矩阵运算单元中对两子矩阵数据进行对位乘法运算，并将计算结果写回至高速暂存存储器的指定地址。

卷积指令(CONV)，根据该指令，实现用卷积核对矩阵进行卷积滤波。装置从高速暂存存储器取出指定的卷积核矩阵，从待卷积矩阵存储的起始地址开始，对当前位置下卷积核覆盖的子矩阵数据进行滤波，即在矩阵运算单元中对卷积核和子矩阵进行对位乘法运算，并对得到的矩阵进行元素求和，得到当前位置的滤波结果，将结果写回至高速暂存存储器的指定地址。然后根据指令中给定的位移参数，在待卷积矩阵上移动至下一位置，重复上面的运算，直到移动至结束位置。

子矩阵搬运指令(SMMOVE)，根据该指令，装置将高速暂存存储器中存储的指定子矩阵存至高速暂存存储器的另一处地址。

另外，寄存器单元中存储的子矩阵信息包括子矩阵数据在存储单元中的起始地址(start_addr)、子矩阵数据的行宽(iter1)、子矩阵数据的列宽(iter2)、以及行间隔(stride1)，其中，行间隔是指子矩阵数据相邻两行间，上一行的行末数据到下一行的行首数据的数据间隔。如图3所示，矩阵数据实际在存储单元中是以一维的方式存储的，子矩阵的起始地址即图3中子矩阵左上角元素的地址，子矩阵的行宽即图3中子矩阵每一行元素的个数，子矩阵的列宽即图3中子矩阵每一列元素的个数，子矩阵的行间距即图3中子矩阵上一行最后一个元素到下一行第一个元素之间的地址间距。则装置在实际读取子矩阵数据时，只需要从start_addr开始，每读取iter1个数据后跳过stride1个数据再读取iter1个数据，重复iter2次即可获得完整的子矩阵数据。

进一步，子矩阵运算装置还包括指令处理单元，用于获取子矩阵运算指令，并对该子矩阵运算指令进行处理后，提供给子矩阵运算单元。具体地，指令处理单元包括取指模块、译码模块、指令队列及依赖关系处理单元，其中，取指模块获取子矩阵运算指令，译码模块对获取的子矩阵运算指令进行译码，指令队列对译码后的子矩阵运算指令进行顺序存储，依赖关系处理单元在子矩阵运算单元获取子矩阵运算指令前，判断该子矩阵运算指令与前一子矩阵运算指令是否访问相同的子矩阵数据，若是，则将该子矩阵运算指令存储在存储队列中，等待前一子矩阵运算指令执行完毕后，再将所述存储队列中的该子矩阵运算指令提供给所述子矩阵运算单元，否则，直接将该子矩阵运算指令提供给所述子矩阵运算单元。

进一步，存储单元还用于存储子矩阵运算结果，优选地，可采用高速暂存存储器作为存储单元，另外，本发明还包括输入输出单元，其与存储单元直接连接，输入输出单元用于将矩阵数据存储于存储单元，或者，从存储单元中获取子矩阵运算结果。

进一步，子矩阵运算单元包括子矩阵加法部件、子矩阵乘法部件、大小比较部件、非线性运算部件和子矩阵标量乘法部件。并且，子矩阵运算单元为多流水级结构，多流水级结构包括第一流水级、第二流水级和第三流水级，其中，子矩阵加法部件和子矩阵乘法部件处于第一流水级，大小比较部件处于第二流水级，非线性运算部件和子矩阵标量乘法部件处于第三流水级。

本发明还提供一种子矩阵运算方法，包括：

S1，存储矩阵数据；

S2，存储子矩阵信息；

进一步，在步骤S3之前，还包括：

获取子矩阵运算指令；

对获取的子矩阵运算指令进行译码；

判断该子矩阵运算指令与前一子矩阵运算指令是否访问相同的子矩阵数据，若是，则将该子矩阵运算指令存储在一存储队列中，等待前一子矩阵运算指令执行完毕后，再将执行所述步骤S3，否则，直接执行步骤S3。

进一步，步骤S3还包括，存储子矩阵运算结果。

进一步，方法还包括：步骤S4，获取存储的子矩阵运算结果。

进一步，子矩阵运算包括子矩阵加法运算、子矩阵乘法运算、大小比较运算、非线性运算和子矩阵标量乘法运算。并且，采用多流水级结构进行子矩阵运算，多流水级结构包括第一流水级、第二流水级和第三流水级，其中，在第一流水级进行子矩阵加法运算和子矩阵乘法运算，在第二流水级进行大小比较运算，在第三流水级进行非线性运算和子矩阵标量乘法运算。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图4是本发明实施例提供的子矩阵运算装置的示意图，如图4所示，装置包括取指模块、译码模块、指令队列、标量寄存器堆、依赖关系处理单元、存储队列、矩阵运算单元、高速暂存器、IO内存存取模块，其中：

取指模块，该模块负责从指令序列中取出下一条将要执行的指令，并将该指令传给译码模块；

译码模块，该模块负责对指令进行译码，并将译码后指令传给指令队列；

指令队列，考虑到不同指令在包含的标量寄存器上有可能存在依赖关系，用于缓存译码后的指令，当依赖关系被满足之后发射指令；

标量寄存器堆，提供装置在运算过程中所需的多个标量寄存器；

依赖关系处理单元，该模块处理指令与前一条指令可能存在的存储依赖关系。矩阵运算指令会访问高速暂存存储器，前后指令可能会访问同一块存储空间。为了保证指令执行结果的正确性，当前指令如果被检测到与之前的指令的数据存在依赖关系，该指令必须在存储队列内等待至依赖关系被消除。

存储队列，该模块是一个有序队列，与之前指令在数据上有依赖关系的指令被存储在该队列内直至存储关系被消除；

矩阵运算单元，该模块负责装置的所有子矩阵运算，包括但不限于子矩阵加法操作、子矩阵加标量操作、子矩阵减法操作、子矩阵减标量操作、子矩阵乘法操作、子矩阵乘标量操作、子矩阵除法(对位相除)操作、子矩阵与操作和子矩阵或操作，子矩阵运算指令被送往该运算单元执行；

高速暂存存储器器，该模块是矩阵数据专用的暂存存储装置，能够支持不同大小的矩阵数据；

IO内存存取模块，该模块用于直接访问高速暂存存储器，负责从高速暂存存储器中读取数据或写入数据。

图5是本发明实施例提供的矩阵运算装置执行子矩阵乘向量执行的流程图，如图5所示，执行子矩阵乘向量指令的过程包括：

S1，取指模块取出该条子矩阵乘向量指令，并将该指令送往译码模块。

S2，译码模块对指令译码，并将指令送往指令队列。

S3，在指令队列中，该子矩阵乘向量指令需要从标量寄存器堆中获取指令中操作域所对应的标量寄存器里的数据，包括输入向量地址、输入向量长度、输入子矩阵地址、输入子矩阵行宽、输入子矩阵列宽、输入子矩阵行间距、输出向量地址、输出向量长度。

S4，在取得需要的标量数据后，该指令被送往依赖关系处理单元。依赖关系处理单元分析该指令与前面的尚未执行结束的指令在数据上是否存在依赖关系。该条指令需要在存储队列中等待至其与前面的未执行结束的指令在数据上不再存在依赖关系为止。

S5，依赖关系不存在后，该条子矩阵乘向量指令被送往矩阵运算单元。矩阵运算单元根据所需数据的位置信息从高速暂存器中取出需要的子矩阵和向量数据，然后在矩阵运算单元中完成乘法运算。

S6，运算完成后，将结果写回至高速暂存存储器的指定地址。

图6为本发明实施例提供的矩阵运算单元进行卷积神经网络运算的方法的流程图，该方法主要由子矩阵运算指令实现。卷积神经网络的运算特征是：对于n×y×x规模的特征图像输入(其中n是输入特征图像数，y是特征图像长，x是特征图像宽)，有n×h×w规模的卷积核，卷积核在输入图像上不断移动，在每个位置卷积核与自己所覆盖的输入图像的数据进行卷积运算，得到输出图像上对应的一个点的值。针对这种运算特征，卷积神经网络可以由一条子矩阵卷积指令循环实现。在实际的存储中，如图6所示，数据存储时在图像个数的维度上展开，输入数据图像由n×y×x的三维数组变成y×(x×n)的二维矩阵，相同地，卷积核数据变成h×(w×n)的二维矩阵。如图7所示，实现卷积神经网络的过程包括：

S1，通过IO指令将待卷积的矩阵数据和卷积核矩阵数据存至矩阵专用高速暂存存储器的指定地址；

S2，译码器取出CONV运算指令，根据该指令，矩阵运算单元从高速暂存存储器中读取卷积核矩阵数据和该卷积核在输入图像起始位置的子矩阵数据。

S3，两矩阵数据在矩阵运算单元中进行对位相乘和元素累加求和的运算，并写回结果。然后矩阵运算单元继续读入卷积核，同时根据指令中位移参数得到的下一个待卷积的子矩阵的起始地址，读取数据。

S4，在CONV指令执行过程中，上面过程不断循环，直到完成卷积核在待卷积矩阵最后一个位置上的卷积运算。

S5，通过IO指令将卷积后的结果矩阵存至片外。

需声明，本实施例采用了一种更加高效的方法实现卷积运算，即将三维的输入图像和卷积核均展开成二维形式，实际上，这不是本发明的装置和方法实现卷积运算的唯一方式，一种更通用的方法是对输入的每一张二维图像，与对应的卷积核中的一个面通过子矩阵指令执行卷积运算，得到输出结果的一个部分和，最终的卷积结果是所有的二维图像和与之相对应的卷积核中的面进行卷积运算得到的部分和的累加。故，子矩阵运算指令可以以多种方式实现卷积操作。

综上所述，本发明提供矩阵运算装置，并配合相应的子矩阵运算指令集，能够很好地解决当前计算机领域越来越多的算法包含大量子矩阵运算的问题，相比于已有的传统解决方案，本发明可以具有指令集精简、使用方便、支持的子矩阵规模灵活、片上缓存充足等优点。本发明可以用于多种包含大量子矩阵运算的计算任务，包括目前表现十分出色的人工神经网络算法的反向训练和正向预测。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种子矩阵运算装置，用于根据子矩阵运算指令从矩阵数据中获取子矩阵数据，并根据该子矩阵数据执行子矩阵运算，其特征在于，装置包括：

存储单元，用于存储矩阵数据；

寄存器单元，用于存储子矩阵信息；

2.根据权利要求1所述的子矩阵运算装置，其特征在于，所述子矩阵运算指令包括一操作码和至少一操作域，其中，所述操作码用于指示该子矩阵运算指令的功能，操作域用于指示该子矩阵运算指令的数据信息。

3.根据权利要求2所述的子矩阵运算装置，其特征在于，所述数据信息为寄存器单元的编号，所述子矩阵运算单元根据寄存器单元的编号访问对应的寄存器单元，从而获取子矩阵信息。

4.根据权利要求1所述的子矩阵运算装置，其特征在于，所述子矩阵信息包括子矩阵数据在所述存储单元中的起始地址、子矩阵数据的行宽、子矩阵数据的列宽、以及行间隔，其中，行间隔是指子矩阵数据相邻两行间，上一行的行末数据到下一行的行首数据的数据间隔。

5.根据权利要求1所述的子矩阵运算装置，其特征在于，还包括：

指令处理单元，用于获取子矩阵运算指令，并对该子矩阵运算指令进行处理后，提供给所述子矩阵运算单元。

6.根据权利要求5所述的子矩阵运算装置，其特征在于，所述指令处理单元包括：

取指模块，用于获取子矩阵运算指令；

译码模块，用于对获取的子矩阵运算指令进行译码；

指令队列，用于对译码后的子矩阵运算指令进行顺序存储；

依赖关系处理单元，用于在所述子矩阵运算单元获取子矩阵运算指令前，判断该子矩阵运算指令与前一子矩阵运算指令是否访问相同的子矩阵数据，若是，则将该子矩阵运算指令存储在所述存储队列中，等待前一子矩阵运算指令执行完毕后，再将所述存储队列中的该子矩阵运算指令提供给所述子矩阵运算单元，否则，直接将该子矩阵运算指令提供给所述子矩阵运算单元。

7.根据权利要求1所述的子矩阵运算装置，其特征在于，所述存储单元还用于存储所述子矩阵运算结果。

8.根据权利要求7所述的子矩阵运算装置，其特征在于，还包括：

输入输出单元，用于将矩阵数据存储于所述存储单元，或者，从所述存储单元中获取子矩阵运算结果。

9.根据权利要求1所述的子矩阵运算装置，其特征在于，所述存储单元为高速暂存存储器。

10.根据权利要求1所述的子矩阵运算装置，其特征在于，所述子矩阵运算单元包括子矩阵加法部件、子矩阵乘法部件、大小比较部件、非线性运算部件和子矩阵标量乘法部件。

11.根据权利要求10所述的子矩阵运算装置，其特征在于，所述子矩阵运算单元为多流水级结构，所述多流水级结构包括第一流水级、第二流水级和第三流水级，其中，所述子矩阵加法部件和子矩阵乘法部件处于第一流水级，大小比较部件处于第二流水级，非线性运算部件和子矩阵标量乘法部件处于第三流水级。

12.一种子矩阵运算方法，用于根据子矩阵运算指令从矩阵数据中获取子矩阵数据，并根据该子矩阵数据执行子矩阵运算，其特征在于，方法包括：

S1，存储矩阵数据；

S2，存储子矩阵信息；

13.根据权利要求12所述的子矩阵运算方法，其特征在于，所述子矩阵运算指令包括一操作码和至少一操作域，其中，所述操作码用于指示该子矩阵运算指令的功能，操作域用于指示该子矩阵运算指令的数据信息。

14.根据权利要求12所述的子矩阵运算方法，其特征在于，所述子矩阵信息包括子矩阵数据在所述存储单元中的起始地址、子矩阵数据的行宽、子矩阵数据的列宽、以及行间隔，其中，行间隔是指子矩阵数据相邻两行间，上一行的行末数据到下一行的行首数据的数据间隔。

15.根据权利要求12所述的子矩阵运算方法，其特征在于，在所述步骤S3之前，还包括：

获取子矩阵运算指令；

对获取的子矩阵运算指令进行译码；

判断该子矩阵运算指令与前一子矩阵运算指令是否访问相同的子矩阵数据，若是，则将该子矩阵运算指令存储在一存储队列中，等待前一子矩阵运算指令执行完毕后，再将执行所述步骤S3，否则，直接执行所述步骤S3。

16.根据权利要求12所述的子矩阵运算方法，其特征在于，所述步骤S3还包括，存储所述子矩阵运算结果。

17.根据权利要求16所述的子矩阵运算方法，其特征在于，还包括：步骤S4，获取存储的子矩阵运算结果。

18.根据权利要求12所述的子矩阵运算方法，其特征在于，所述子矩阵运算包括子矩阵加法运算、子矩阵乘法运算、大小比较运算、非线性运算和子矩阵标量乘法运算。

19.根据权利要求18所述的子矩阵运算方法，其特征在于，采用多流水级结构进行子矩阵运算，所述多流水级结构包括第一流水级、第二流水级和第三流水级，其中，在所述第一流水级进行子矩阵加法运算和子矩阵乘法运算，在所述第二流水级进行大小比较运算，在所述第三流水级进行非线性运算和子矩阵标量乘法运算。