CN106445471A

CN106445471A - 处理器和用于在处理器上执行矩阵乘运算的方法

Info

Publication number: CN106445471A
Application number: CN201610894738.6A
Authority: CN
Inventors: 周妮; 漆维; 王勇; 欧阳剑
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2017-02-22
Anticipated expiration: 2036-10-13
Also published as: CN106445471B; US10140251B2; US20180107630A1

Abstract

本申请公开了处理器和用于在处理器上执行矩阵乘运算的方法。所述处理器的一具体实施方式包括数据总线以及由k个处理单元组成的阵列处理机，其中：所述数据总线，用于依次从M×N的被乘数矩阵中读取n列的行向量并输入至所述阵列处理机中的每个处理单元、从N×K的乘数矩阵中读取n×k的子矩阵并将所述子矩阵的每个列向量输入至所述阵列处理机中对应的处理单元以及将每个处理单元执行乘运算所得到的结果输出；所述阵列处理机中的每个处理单元，用于并行对输入的行向量以及列向量执行向量乘运算，每个处理单元包括由n个乘法器和n‑1个加法器组成的华莱士树乘法器。该实施方式提高了矩阵乘运算的处理效率。

Description

处理器和用于在处理器上执行矩阵乘运算的方法

技术领域

本申请涉及计算机技术领域，具体涉及计算机硬件技术领域，尤其涉及处理器和用于在处理器上执行矩阵乘运算的方法。

背景技术

深度学习技术是人工智能的核心，对很多应用都起到了非常大的推动作用。深度学习算法是典型计算密集型算法，作为该算法核心部分的矩阵乘法，是一种计算和数据密集型的运算。在需要较高计算效率的场景，矩阵算法通常需要使用基于FPGA或者ASIC的专用处理器来执行，专用处理器可以提供大量定制化的计算和存储资源。如果专用处理器中用于执行矩阵乘法算法的部分能采用合理的计算单元和存储结构，将会大大降低电路资源消耗，降低设计复杂度，提高芯片的性价比和能耗比。

现有专用处理器中执行矩阵乘法算法的硬件架构，在对M×N的矩阵与N×K的矩阵相乘时，通常在M和K两个维度进行并行度的挖掘。然而，由于深度学习算法中涉及的矩阵乘运算常常出现被乘数矩阵的行数较少甚至被乘数矩阵为单行矩阵的情形，在M维度挖掘并行度容易导致架构通用性较差；若仅从K维度挖掘，并行度受限于应用中K的规模，计算性能有限，导致利用率低。

发明内容

本申请的目的在于提出一种改进的处理器和用于在处理器上执行矩阵乘运算的方法，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种处理器方法，所述处理器包括数据总线以及由k个处理单元组成的阵列处理机，其中：所述数据总线，用于依次从M×N的被乘数矩阵中读取n列的行向量并输入至所述阵列处理机中的每个处理单元、从N×K的乘数矩阵中读取n×k的子矩阵并将所述子矩阵的每个列向量输入至所述阵列处理机中对应的处理单元以及将每个处理单元执行乘运算所得到的结果输出；所述阵列处理机中的每个处理单元，用于并行对输入的行向量以及列向量执行向量乘运算，每个处理单元包括由n个乘法器和n-1个加法器组成的华莱士树乘法器；其中，n、k、M、N均为大于1的整数。

在一些实施例中，所述处理器还包括：第一片上存储单元、第二片上存储单元以及第三片上存储单元；以及所述数据总线进一步用于：将所述被乘数矩阵以及所述乘数矩阵分别缓存至所述第一片上存储单元和所述第二片上存储单元；依次从所述第一片上存储单元以及所述第二片上存储单元分别读取对应的行向量和列向量到每个处理单元中；将每个处理单元执行乘加运算所得到的结果输出至所述第三片上存储单元；对所述第三片上存储单元的数据进行缓存。

在一些实施例中，所述数据总线的缓存操作以及所述阵列处理机中处理单元的运算操作以乒乓操作方式并行执行。

在一些实施例中，所述第一片上存储单元以行为单位进行数据存储，所述第二片上存储单元以列为单位进行数据存储。

在一些实施例中，所述第三片上存储单元以行为单位进行数据存储。

第二方面，本申请提供了一种用于在处理器上执行矩阵乘运算的方法，所述处理器包括k个处理单元组成的阵列处理机，所述方法包括：将M×N的被乘数矩阵中n列的行向量读取到所述阵列处理机中的每个处理单元上，每个处理单元包括由n个乘法器和n-1个加法器组成的华莱士树乘法器；将N×K的乘数矩阵中n×k的子矩阵中每个n行的列向量分别读取到所述阵列处理机中对应的处理单元上；使用各个处理单元并行对每个列向量与所述行向量执行向量乘运算，其中，每个处理单元中的华莱士树乘法器用于并行执行乘向量运算中的乘运算和加运算；将每个处理单元执行乘运算所得到的结果输出；其中，n、k、M、N均为大于1的整数。

在一些实施例中，所述处理器还包括第一片上存储单元、第二片上存储单元、第三片上存储单元；以及所述将M×N的被乘数矩阵中n列的行向量读取到每个处理单元上，包括：将所述被乘数矩阵缓存至第一片上存储单元；依次从第一片上存储单元读取行向量到所述阵列处理机的每个处理单元中；以及所述将N×K的乘数矩阵中n×k的子矩阵中每个n行的列向量分别读取到对应的处理单元上，包括：将所述乘数矩阵缓存至第二片上存储单元；依次从第二片上存储单元读取对应的子矩阵以将子矩阵中的各个列向量分别输出到所述阵列处理机中对应的处理单元上；以及所述将每个处理单元执行乘运算所得到的结果输出，包括：将每个处理单元执行乘加运算所得到的结果输出至第三片上存储单元；对所述第三片上存储单元的数据进行缓存。

在一些实施例中，以乒乓操作方式并行执行运算操作以及数据缓存操作。

在一些实施例中，所述方法还包括：以行为单位存储所述第一片上存储单元上的数据；以列为单位存储所述第二片上存储单元上的数据。

在一些实施例中，所述方法还包括：以行为单位存储所述第三片上存储单元上的数据。

本申请提供的处理器和用于在处理器上执行矩阵乘运算的方法，在对矩阵进行乘运算时，不对M维度进行并行度挖掘，使得处理器在处理涉及较多的向量与矩阵的乘运算的深度学习算法时，保证架构较高的通用性；此外，阵列处理机的多个PE以及PE内部的华莱士树乘法器分别可以在矩阵的K维度和N维度进行并行度挖掘，进一步提高了整体的并行度，从而加快了对矩阵乘运算的处理速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的处理器的一个实施例的结构示意图；

图3是根据图2对应实施例中阵列处理机的处理单元的结构示意图；

图4是根据本申请的处理器的又一个实施例的结构示意图；

图5是根据本申请的用于在处理器上执行矩阵乘运算的方法的一个实施例的流程图。

图6是循环执行图5实施例中所示方法的一种示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的处理器或用于在处理器上执行矩阵乘运算的方法的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括通用处理器101和专用服务器102。

通用处理器101用于将外部指令(例如矩阵运算)以及待处理的数据(例如矩阵)发送给专用处理器102，专用处理器102可以根据外部指令生成控制信号，以通过控制信号来控制内部的器件执行数据处理操作(例如矩阵运算)，最后处理生成的结果可以再发送回通用处理器101。其中，通用处理器101也可以称为主机，而专用处理器102可以是由FPGA(Field－Programmable Gate Array，即现场可编程门阵列服务器)设计而成。

需要说明的是，本申请实施例所提供的处理器一般是指图1中的专用处理器102，相应地，用于在处理器上执行指令的方法一般由专用处理器102执行。

应该理解，图1中的通用处理器101和专用处理器102的数目仅仅是示意性的。根据实现需要，可以具有任意数目的通用处理器和专用处理器。

继续参考图2，示出了根据本申请的处理器的一种结构示意图200。

如图2所示，处理器200包括数据总线201和阵列处理机202。其中，阵列处理机202包括处理单元(PE，Processing Element)2021、处理单元2022和处理单元2023。需要说明的是，图中各个部件的数目仅为示意性的，可以具有任意数目的数据总线和阵列处理机，阵列处理机202中的PE的数目为k个(k为大于1的整数)，而不限于图中所示的3个。

数据总线201可以用于从存储待执行矩阵乘运算的被乘数矩阵和乘数矩阵的存储器进行数据读取，并按照一定的规则将数据输入到阵列处理机202中相应的处理单元。以M×N(M、N均为大于1的整数)的被乘数矩阵与N×K(K为大于1的整数)的乘数矩阵为例，数据总线201可以依次从外部的存储器203中的被乘数矩阵中依次读取n列的行向量并输入至阵列处理机202的每个处理单元；与此同时，数据总线201可以依次从外部的存储器204中的乘数矩阵读取n×k(n是大于1的整数)的子矩阵，并将n×k的子矩阵中的k个列向量分别输入至阵列处理机202中k个PE中对应的PE中。从而，每个PE读取到的数据为相同的n列行向量和不同的n行列向量。此外，数据总线201还可以用于将每个PE所处理的计算结果输出到外部的存储器205。需要说明的是，存储器203、存储器204、存储器205可以是相同的设备，也可以是不同的设备。

阵列处理机202中的k个PE，可以同时根据输入至每个PE的n列的行向量和n行的列向量进行向量乘运算。从而，阵列处理机202中的k个PE可以并行处理k个向量乘运算。

阵列处理机202中的每个PE可以包括由n个乘法器和n-1个加法器组成的华莱士树乘法器。在该华莱士树乘法器中，n个乘法器并联设置，n-1个加法器则设置为多个彼此串联连接的加法器组，加法器组分别包括一个或多个并联设置的加法器，各个加法器组中加法器的数目依次为n/2，n/4……1。每两个乘法器进行运算所得到的乘积输入至第一个加法器组中的各个加法器，各个加法器组中每两个加法器进行运算所得到的加和输入至相邻的后续加法器组中的各个加法器中。从而，在对n列的行向量和n行的列向量执行向量乘运算时可以并行执行对应分量的乘运算。同时，也在对乘运算所得到的乘积进行累加操作时，可以并行执行加运算。

图3是n为4时每个PE的结构示意图。如图3所示，PE所包括的华莱士树乘法器由三个部分串联而成，分别是4个并联设置的乘法器301、302、303、304，2个并联设置的加法器305、306以及一个单独设置的加法器307。其中，4个并联设置的乘法器301、302、303、304可以用于对4列的行向量和4行的列向量中4组对应的分量进行乘运算。乘法器301、302的结果输入至加法器305，乘法器303、304的结果输入至加法器306。加法器305、加法器306用于并行执行对应的加法运算。加法器305、加法器306的运算结果均输入加法器307，加法器307进行加运算后将结果输出。在该华莱士树乘法器中，4个并联设置的乘法器301、302、303、304可以实现在N维度上挖掘并行度，加法器305、加法器306也能提高运算并行性。

本申请的上述实施例提供的处理器，在对矩阵进行乘运算时，不对M维度进行并行度挖掘，使得处理器在处理涉及较多的向量与矩阵的乘运算的深度学习算法时，保证架构较高的通用性；此外，阵列处理机的多个PE以及PE内部的华莱士树乘法器分别可以在矩阵的K维度和N维度进行并行度挖掘，进一步提高了整体的并行度，从而加快了对矩阵乘运算的处理速度。

继续参考图4，图4示出了根据本申请的处理器的又一种结构示意图400。

如图4所示。其中，处理器400可以包括：数据总线201、阵列处理机402、第一片上存储单元403、第二片上存储单元404以及第三片上存储单元405。

阵列处理机402以及其中的处理单元的结构可以参考图2对应实施例中的阵列处理机202，这里不再赘述。上述数据总线401用于执行以下功能：将被乘数矩阵以及乘数矩阵分别从外部的存储器406和存储器407缓存至第一片上存储单元403和第二片上存储单元404；依次从第一片上存储单元403以及第二片上存储单元404分别读取对应的行向量和列向量到每个处理单元中；将每个处理单元执行乘加运算所得到的结果输出至第三片上存储单元405；将第三片上存储单元的数据缓存至外部的存储器408。

可选的，第一片上存储单元403、第二片上存储单元404以及第三片上存储单元405可以采用静态随机存取存储器，这种存储器不需要刷新电路即能保存它内部存储的数据，具有较高的性能与更小的功耗。

可选的，第二片上存储单元404可以包括k个子存储单元，每个子存储单元n×k的子矩阵中k个列向量，从而使得数据总线401可以分别从各个子存储单元读取数据到阵列处理机402中对应的PE上。同样，与第三片上存储单元405也可以包括k个子存储单元，使得数据总线401可以将阵列处理机402中每个PE得到的运算结果写入第三片上存储单元405中对应的子存储单元。

在本实施例的一些可选实现方式中，数据总线401的缓存操作以及阵列处理机402中处理单元的运算操作以乒乓操作方式并行执行。在该实现方式中，数据缓存操作以及运算操作可以并行执行，从而使得从片外读取数据的时间以及将数据缓存至片外的时间可以被运算所占用的时间覆盖，从而进一步减少矩阵乘运算的时间。

在本实施例的一些可选实现方式中，第一片上存储单元403可以以行为单位进行数据存储，第二片上存储单元404可以以列为单位进行数据存储。由于第一片上存储单元403可以以行为单位进行数据存储，第二片上存储单元404可以以列为单位进行数据存储，在数据总线401从第一片上存储单元403读取行向量以及从第二片上存储单元404读取列向量到阵列处理机402中的PE中时，可以直接从第一片上存储单元403中一行的数据中读取需要的行向量以及从第二片上存储单元404中一列的数据中读取需要的列向量，从而提高读取效率。

在本实施例的一些可选实现方式中，第三片上存储单元405可以以行为单位进行数据存储。在深度学习算法中，上一个矩阵乘运算的结果常常用于下一次矩阵乘运算的被乘数矩阵，因此在第三片上存储单元405在以行为单位进行数据存储时，第一片上存储单元403可以直接从第三片上存储单元405读取数据，在不作处理情况下即可用作下一次矩阵乘运算。

本申请的上述实施例提供的处理器，相对于图2对应实施例中所提供的处理器，额外设置了用于对被乘数矩阵和乘数矩阵进行读缓存的片上存储单元以及用于对运算结果进行写缓存的片上存储单元，从而可以使得避免每次使用阵列处理机202进行矩阵乘运算的片段时都要等待从片外读取数据以及向片外写出数据的时间，消除大量的数据复用情况下对片外带宽的需求，有助于提高整体的处理效率。

继续参考图5，示出了根据本申请的用于在处理器上执行矩阵乘运算的方法的一个实施例的流程500。处理器包括k个处理单元组成的阵列处理机，用于在处理器上执行指令的方法，包括以下步骤：

步骤501，将M×N的被乘数矩阵中n列的行向量读取到阵列处理机中的每个处理单元上。

在本实施例中，处理器(例如图1中的专用处理器102)首先从M×N的被乘数矩阵中读取数据。其中，被乘数矩阵可以是存储在片外的存储单元(例如通用处理器CPU中的存储器)中，处理器从该存储单元即可读取到相应的数据。需要说明的是，被乘数矩阵也可以存储在其他存储单元中。在读取过程中，处理器每次读取被乘数矩阵中n列的行向量。由于被乘数矩阵有N列，因此对被乘数矩阵的一行数据遍历一次，需要读取次数为N/n。每次读取到的行向量，可以输入至阵列处理机的每个PE中，即k个PE分享同一个行向量。

步骤502，将N×K的乘数矩阵中n×k的子矩阵中每个n行的列向量分别读取到阵列处理机中对应的处理单元上。

在本实施例中，对应于步骤501中读取并输入至每个处理单元的行向量，处理器可以从N×K的乘数矩阵中每次读取n×k的子矩阵。对于每次读取到的n×k的子矩阵，处理器可以将k个列向量分别输入至阵列处理机的k个PE中，每个列向量对应一个PE，从而可以保证后续过程中k个PE可以同时处理k个向量乘运算，实现在K维度上的并行处理。

步骤503，使用各个处理单元并行对每个列向量与行向量执行向量乘运算。

在本实施例中，基于每次读取并输入至阵列处理机中各个处理单元的数据，处理器可以通过阵列处理机的各个处理单元执行行向量与子矩阵的乘操作，其中每个处理单元对行向量与列向量执行向量乘运算。具体的，由于k个处理单元读取到同样的行向量，而每个处理单元则读取到n×k的子矩阵中不同的列向量，因此k个处理单元可以实现k个列向量与同一个行向量的并行运算。

进一步的，由于每个处理单元包括由n个乘法器和n-1个加法器组成的华莱士树乘法器，对于每个处理单元，可以使用n个乘法器同时执行n列的行向量与n行的列向量进行相乘时涉及的n个分量乘运算，每次可以并行处理n个数字乘运算，同时，使用华莱士树乘法器中设置的加法器还可以对向量乘运算中涉及的数字加操作进行并行操作，从而实现在乘数矩阵N维度上并行度的挖掘，进一步提高处理的并行性，进而提高整体的处理效率。

步骤504，将每个处理单元执行乘运算所得到的结果输出。

基于步骤503中每个处理单元执行的向量乘运算，处理器可以通过每个处理单元将乘运算所得到的结果输出。由于步骤501中每次读取阵列处理机的数据仅为被乘数矩阵长度为N的一行数据中长度为n的向量，而步骤202中每次读取的也仅为N×K的乘数矩阵中n×k的子矩阵，可见上述方案中的各个步骤通常需要循环执行多次才能完成整个矩阵乘运算。

在本实施例的一些可选实现方式中，处理器可以按照图6所示方式循环执行步骤501和步骤502，以完成完整的矩阵乘运算。如图6所示，所执行的是被乘数矩阵为A(M×N)和乘数矩阵B(N×K)之间的矩阵乘运算。循环可以包括最内层循环、次内层循环以及最外层循环。

在最内层的循环中，可以使用步骤501对被乘数矩阵中单行N列的数据进行遍历，即沿着被乘数矩阵N维度的方向每次读取n列的行向量。对应的，在最内层的循环中可以使用步骤502对乘数矩阵N行k列的数据进行遍历，即沿着乘数矩阵N维度的方向每次读取n行k列的子矩阵。每完成一轮内循环，即可对被乘数矩阵中一行的数据和乘数矩阵中一个N行k列的数据的乘操作。可见，每次内循环每执行N/n次，即可触发后续的次外层循环执行一次。

在次内层循环中，可以在每完成一次最内层循环时使用步骤502对被乘数矩阵中K方向上的下一个N行k列的数据进行遍历，而步骤502则可以重新对单行N列的数据进行遍历。每完成一轮的次内层循环，即可完成被乘数矩阵的一行数据与整个乘数矩阵的乘操作。可见，次外层循环每执行K/k次，即可触发后续的最外层循环执行一次。

在最外层循环中，当乘数矩阵中的数据均遍历后，可以使用步骤501对被乘数矩阵中M维度的方向中下一个单行N列的数据进行遍历，直到处理完被乘数矩阵的M行。可见，最外层循环每执行M次，即可完成一次完整的矩阵乘运算。

在本实施例的一些可选实现方式中，上述处理器还包括第一片上存储单元、第二片上存储单元、第三片上存储单元。同时，步骤501包括：将被乘数矩阵缓存至第一片上存储单元；依次从第一片上存储单元读取行向量到阵列处理机的每个处理单元中。步骤502可以包括：将乘数矩阵缓存至第二片上存储单元；依次从第二片上存储单元读取对应的子矩阵以将子矩阵中的各个列向量分别输出到阵列处理机中对应的处理单元上。步骤504则可以包括：将每个处理单元执行乘运算所得到的结果输出，包括：将每个处理单元执行乘加运算所得到的结果输出至第三片上存储单元；对第三片上存储单元的数据进行缓存。该实现方式的具体处理可以参考图4对应实施例中相应的描述，这里不再赘述。

在本实施例的一些可选实现方式中，步骤501、步骤502、步骤503以及步骤504所涉及的运算操作以及数据缓存操作可以并行执行。其中，步骤503中涉及的为运算操作，步骤501、步骤502以及步骤504中涉及的为数据缓存操作。该实现方式的具体处理可以参考图4对应实施例中相应的实现方式，这里不再赘述。

在本实施例的一些可选实现方式中，上述方法还包括：以行为单位存储第一片上存储单元上的数据；以列为单位存储第二片上存储单元上的数据。该实现方式的具体处理可以参考图4对应实施例中相应的实现方式，这里不再赘述。

在本实施例的一些可选实现方式中，上述方法还包括：以行为单位存储第三片上存储单元上的数据。该实现方式的具体处理可以参考图4对应实施例中相应的实现方式，这里不再赘述。

本申请的上述实施例提供的方法，在对矩阵进行乘运算时，不对M维度进行并行度挖掘，使得在使用处理器处理涉及较多的向量与矩阵的乘运算的深度学习算法时，保证架构较高的通用性；此外，阵列处理机的多个PE以及PE内部的华莱士树乘法器分别可以在矩阵的K维度和N维度进行并行度挖掘，进一步提高了整体的并行度，从而加快了对矩阵乘运算的处理速度。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，该一个或者多个程序可以被包括k个处理单元组成的阵列处理机的处理器执行，当所述一个或者多个程序被一个处理器执行时，使得所述处理器：将M×N的被乘数矩阵中n列的行向量读取到所述阵列处理机中的每个处理单元上，每个处理单元包括由n个乘法器和n-1个加法器组成的华莱士树乘法器；将N×K的乘数矩阵中n×k的子矩阵中每个n行的列向量分别读取到所述阵列处理机中对应的处理单元上；使用各个处理单元并行对每个列向量与所述行向量执行向量乘运算，其中，每个处理单元中的华莱士树乘法器用于并行执行乘向量运算中的乘运算和加运算；将每个处理单元执行乘运算所得到的结果输出。其中，n、k、M、N均为大于1的整数。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种处理器，其特征在于，所述处理器包括数据总线以及由k个处理单元组成的阵列处理机，其中：

所述数据总线，用于依次从M×N的被乘数矩阵中读取n列的行向量并输入至所述阵列处理机中的每个处理单元、从N×K的乘数矩阵中读取n×k的子矩阵并将所述子矩阵的每个列向量输入至所述阵列处理机中对应的处理单元以及将每个处理单元执行乘运算所得到的结果输出；

所述阵列处理机中的每个处理单元，用于并行对输入的行向量以及列向量执行向量乘运算，每个处理单元包括由n个乘法器和n-1个加法器组成的华莱士树乘法器；

其中，n、k、M、N均为大于1的整数。

2.根据权利要求1所述的处理器，其特征在于，所述处理器还包括：第一片上存储单元、第二片上存储单元以及第三片上存储单元；以及

所述数据总线进一步用于：

将所述被乘数矩阵以及所述乘数矩阵分别缓存至所述第一片上存储单元和所述第二片上存储单元；

依次从所述第一片上存储单元以及所述第二片上存储单元分别读取对应的行向量和列向量到每个处理单元中；

将每个处理单元执行乘加运算所得到的结果输出至所述第三片上存储单元；

对所述第三片上存储单元的数据进行缓存。

3.根据权利要求2所述的处理器，其特征在于，所述数据总线的缓存操作以及所述阵列处理机中处理单元的运算操作以乒乓操作方式并行执行。

4.根据权利要求2或3所述的处理器，其特征在于，所述第一片上存储单元以行为单位进行数据存储，所述第二片上存储单元以列为单位进行数据存储。

5.根据权利要求4所述的处理器，其特征在于，所述第三片上存储单元以行为单位进行数据存储。

6.一种用于在处理器上执行矩阵乘运算的方法，其特征在于，所述处理器包括k个处理单元组成的阵列处理机，所述方法包括：

将M×N的被乘数矩阵中n列的行向量读取到所述阵列处理机中的每个处理单元上，每个处理单元包括由n个乘法器和n-1个加法器组成的华莱士树乘法器；

将N×K的乘数矩阵中n×k的子矩阵中每个n行的列向量分别读取到所述阵列处理机中对应的处理单元上；

使用各个处理单元并行对每个列向量与所述行向量执行向量乘运算，其中，每个处理单元中的华莱士树乘法器用于并行执行乘向量运算中的乘运算和加运算；

将每个处理单元执行乘运算所得到的结果输出；

其中，n、k、M、N均为大于1的整数。

7.根据权利要求6所述的方法，其特征在于，所述处理器还包括第一片上存储单元、第二片上存储单元、第三片上存储单元；以及

所述将M×N的被乘数矩阵中n列的行向量读取到每个处理单元上，包括：

将所述被乘数矩阵缓存至第一片上存储单元；

依次从第一片上存储单元读取行向量到所述阵列处理机的每个处理单元中；以及

所述将N×K的乘数矩阵中n×k的子矩阵中每个n行的列向量分别读取到对应的处理单元上，包括：

将所述乘数矩阵缓存至第二片上存储单元；

依次从第二片上存储单元读取对应的子矩阵以将子矩阵中的各个列向量分别输出到所述阵列处理机中对应的处理单元上；以及

所述将每个处理单元执行乘运算所得到的结果输出，包括：

将每个处理单元执行乘加运算所得到的结果输出至第三片上存储单元；

对所述第三片上存储单元的数据进行缓存。

8.根据权利要求7所述的方法，其特征在于，以乒乓操作方式并行执行运算操作以及数据缓存操作。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

以行为单位存储所述第一片上存储单元上的数据；

以列为单位存储所述第二片上存储单元上的数据。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

以行为单位存储所述第三片上存储单元上的数据。