CN108845828A

CN108845828A - 一种协处理器、矩阵运算加速方法及系统

Info

Publication number: CN108845828A
Application number: CN201810532625.0A
Authority: CN
Inventors: 王文青; 谢文刚; 孙长江; 林涛; 陈岚
Original assignee: ShenZhen Guowei Electronics Co Ltd
Current assignee: ShenZhen Guowei Electronics Co Ltd; Shenzhen State Micro Electronics Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-20
Anticipated expiration: 2038-05-29
Also published as: CN108845828B

Abstract

本申请适用于计算机技术领域，提供了一种协处理器、矩阵运算加速方法及系统，所述协处理器包括：控制器、寄存器组、乘加器MAC阵列、存储器；所述控制器解析向量扩展指令，根据解析结果调用并发送待运算数据到寄存器组；寄存器组转发待运算数据到MAC阵列，并转发运算结果到存储器，所述运算结果由MAC阵列对待运算数据进行矩阵运算得到，所述待运算数据和/或所述运算结果存在在存储器中。这一过程中MAC阵列根据向量扩展指令进行矩阵运算，而向量扩展指令由主处理器根据预设函数生成，保证了通用微处理器的算力；由寄存器组对各种数据进行转发存储，数据存储通道独立于向量扩展指令的接收通道，提高了通用微处理器运算过程中的数据吞吐量。

Description

一种协处理器、矩阵运算加速方法及系统

技术领域

本申请属于计算机技术领域，尤其涉及一种协处理器、矩阵运算加速方法及系统。

背景技术

大数据、云计算、物联网等技术发展的过程中会产生海量需要处理的数据，矩阵运算作为一种通用的数据处理方式，无论是在高性能运算评测过程中，还是在日常应用算法中，都占据着举足轻重的作用。由于矩阵运算数据量大，经常需要对运算过程进行加速处理，常用的矩阵运算加速处理器包括通用微处理器、数字信号处理器(Digital SignalProcessor，DSP)、图形处理器(Graphics Processing Unit，GPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)和现场可编程门阵列(Fieldprogrammable gate array，FPGA)等。通过上述方式虽然能加速矩阵运算过程，但不同的处理器适用的场景不同，还伴随着诸如功耗大、灵活性差等问题。例如通用微处理器虽然其应用生态极好，但运算能力较弱，还不能满足用户的需求。

发明内容

有鉴于此，本申请实施例提供了一种协处理器、矩阵运算加速方法及系统，以解决现有技术中通用微处理器在矩阵运算过程中运算能力差的问题。

本申请实施例的第一方面提供了一种协处理器，所述协处理器包括：控制器、寄存器组、乘加器MAC阵列以及存储器；

所述控制器用于解析协处理器接收的向量扩展指令，还用于根据对所述向量扩展指令的解析结果调用并发送待运算数据到所述寄存器组；

其中，所述向量扩展指令由主处理器根据所述待运算数据和预设函数生成，并通过二者之间的指令通道发送到所述协处理器；

所述寄存器组用于转发所述待运算数据到所述MAC阵列，还用于转发所述MAC阵列对所述待运算数据进行矩阵运算的运算结果到所述存储器，所述寄存器组的组数大于1；

所述MAC阵列用于根据所述解析结果对所接收到的待运算数据进行矩阵运算，以得到运算结果。

所述存储器用于存储所述待运算数据和/或所述运算结果。

本申请实施例的第二方面提供了一种矩阵运算加速方法，所述矩阵运算加速方法包括：

通过指令通道接收主处理器发送的向量扩展指令，解析所述向量扩展指令，得到解析结果，其中，所述向量扩展指令由所述主处理器根据待运算数据和预设函数生成；

根据所述解析结果调用并发送待运算数据到寄存器组，所述寄存器组的组数大于1；

指示所述寄存器组发送所述待运算数据到MAC阵列，所述MAC阵列用于对所述待运算数据进行矩阵运算，以得到运算结果；

指示所述寄存器组转发所述运算结果到存储器进行存储。

本申请实施例的第三方面提供了一种矩阵运算加速系统，所述矩阵运算加速系统包括：

接收单元，用于通过指令通道接收主处理器发送的向量扩展指令，解析所述向量扩展指令，得到解析结果，其中，所述向量扩展指令由所述主处理器根据待运算数据和预设函数生成；

数据发送单元，用于根据所述解析结果调用并发送待运算数据到寄存器组，所述寄存器组的组数大于1；

第一指示单元，用于指示所述寄存器组发送所述待运算数据到MAC阵列，所述MAC阵列用于对所述待运算数据进行矩阵运算，以得到运算结果；

第二指示单元，用于指示所述寄存器组转发所述运算结果到存储器进行存储。

本申请的实施例中提供了一种协处理器，所述协处理器包括控制器、寄存器组、乘加器MAC阵列以及存储器。所述协处理在通过与主处理器之间的指令通道接收到主处理器发送的向量扩展指令时，由所述控制器对所述向量扩展指令进行解析，根据解析结果获取并发送待运算数据到所述寄存器组，寄存器组将接收到的待运算数据转发到MAC阵列，以使MAC阵列根据控制器的解析结果对所述待运算数据进行矩阵运算，所述寄存器组将MAC阵列的运算结果转发至存储器进行存储。这一过程中协处理器中的MAC阵列根据所述向量扩展指令对待运算数据进行矩阵运算，而所述向量扩展指令由主处理器根据预设函数生成，保证了通用微处理器的算力；由协处理器的寄存器组对各种数据进行转发存储，数据存储通道独立于向量扩展指令的接收通道，提高了通用微处理器运算过程中的数据吞吐量，进而提高通用微处理器的运算能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的协处理器的结构示意图；

图2是本申请实施例二提供的MAC阵列为4*4阵列时，MAC阵列和寄存器组的分布图；

图3是本申请实施例三提供的矩阵运算加速方法的实现流程示意图；

图4是本申请实施提供的基于特定函数实现流程矩阵运算加速的示意图；

图5是本申请实施例提供的基于通用函数实现流程矩阵运算加速的流程示意图；

图6是本申请实施例四提供的矩阵运算加速系统的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

本申请的实施例中提供了一种协处理器，所述协处理器包括控制器、寄存器组、乘加器MAC阵列以及存储器。所述协处理在通过与主处理器之间的指令通道接收到主处理器发送的向量扩展指令时，由所述控制器对所述向量扩展指令进行解析，根据解析结果获取并发送待运算数据到所述寄存器组，寄存器组将接收到的待运算数据转发到MAC阵列，以使MAC阵列根据控制器的解析结果对所述待运算数据进行矩阵运算，所述寄存器组将MAC阵列的运算结果转发至存储器进行存储。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本申请实施例提供的协处理器的结构示意图，如图1所示，所述协处理1包括控制器11、寄存器组12、MAC阵列13以及存储器14，其中，

所述控制器11分别和所述MAC阵列13、所述寄存器组12相连接；

所述寄存器组12还与所述存储器14相连接，所述寄存器组12的组数大于1；

所述协处理器1通过指令通道与主处理器2实现通信。主处理器2与协处理器1在用于传输指令的接口交互遵循通用处理器的协处理接口规则。

所述控制器11用于解析协处理器1接收的向量扩展指令，还用于根据对所述向量扩展指令的解析结果调用并发送待运算数据到所述寄存器组12；

其中，所述向量扩展指令由主处理器2根据所述待运算数据和预设函数生成，并由主处理器2通过指令通道发送到所述协处理器1；

所述寄存器组12用于转发所述待运算数据到所述MAC阵列13，还用于转发所述MAC阵列13对所述待运算数据进行矩阵运算的运算结果到所述存储器14；

所述MAC阵列13用于根据所述解析结果对所接收到的待运算数据进行矩阵运算，以得到运算结果。

所述存储器14用于存储所述待运算数据和/或所述运算结果。

具体地，当主处理器2接收到矩阵运算任务时，根据所接收到的矩阵运算任务调用预设函数，并根据所述预设函数生成向量扩展指令，然后将所述向量扩展指令通过指令通道发送到协处理器1，协处理器1接收到所述向量扩展指令后，由其控制器11对所述向量扩展指令进行解析后，根据所得到的解析结果获取待运算数据，并将所述待运算数据发送到寄存器组12，寄存器组12获取到所述待运算数据后将其转发给MAC阵列13，以使MAC阵列13对所述待运算数据进行相应的矩阵运算。

MAC阵列13对所述待运算数据进行矩阵运算得到运算结果后，由所述寄存器组12将所述运算结果转发到所述存储器14，由所述存储器14对运算结果进行存储，所述存储器14包括互联高速存储器。

进一步地，所述协处理器1还包括片上存储器15和/或片外存储器16；

所述片上存储器15和/或片外存储器16通过片上总线与所述协处理器1或/和主处理器2相连接。在协处理器进行超大规模的矩阵运算时，若所述存储器不足以存储参与矩阵运算的待运算数据或运算结果时，协处理器中的控制器11还可通过片上总线与片上存储器15或者片外存储器16相连接以实现数据的存储。

进一步地，所述预设函数包括至少一条通用函数和至少一条特定函数，所述通用函数和所述特定函数均存储在函数库中，二者分别存储在通用函数库和特定函数库中。

所述预设函数根据所述待运算数据的维度和所述MAC阵列的维度之间的关系生成；也就是说根据待运算数据对应的矩阵维度、运算规则和MAC矩阵的维度生成所述预设函数。每个类型的矩阵运算均对应至少一种通用函数和至少一种特定函数；所述矩阵维度指矩阵的行数或列数。

所述通用函数指参与运算的矩阵维度任意值的矩阵运算函数；所述特定函数指参与运算的矩阵维度特殊且不变的矩阵运算函数(通过所述通用函数和所述特定函数生成的向量扩展指令指示矩阵运算的过程参加实施例三中对图4和图5的解析部分)；

进一步地，所述矩阵运算的运算类型包括矩阵加法、矩阵减法、矩阵转置、矩阵乘法、矩阵对位乘法中的一种或多种，进行所述矩阵运算时所述待运算数据的数据类型包括半精度数据、单精度数据和双精度数据。

MAC阵列13进行对待运算数据进行矩阵运算时，根据所述解析结果确定矩阵运算的类型。所述矩阵运算的类型包括：矩阵加法、矩阵减法、矩阵转置、矩阵乘法、矩阵对位乘法等运算类型中的一种或多种。待运算数据的数据类型也可以有不同类型，如半精度数据、单精度数据以及双精度数据的任意一种数据类型。所述MAC(乘加器)支持单指令的加法、减法、乘法、负乘法、乘加、乘减、负乘加、负乘加等运算类型。

进一步地，所述存储器14包括高速互联存储器，所述存储器14与寄存器组12进行数据传输的带宽可变，最大支持1024位。

实施例二：

本申请提供的另一实施例中所述MAC阵列包括m*n个MAC，所述m*n个MAC以二维矩阵式结构排列组成所述MAC阵列，其中，m和n均为不小于3的正整数。

进一步地，所述的寄存器组的排列结构与所述的MAC阵列的排列结构一致，即由m*n个寄存器组成。

本实施例中根据控制器11所解析的每条向量扩展指令中包括数据搬运指令和矩阵运算指令，所述数据搬运指令用于指示寄存器组12将待运算数据转发到MAC阵列13，还用于指示寄存器组12将MAC阵列13的运算结果转发到存储器14；所述矩阵运算指令用于指示所述MAC阵列13对接收到的待处理数据进行矩阵运算，所述矩阵运算指令可指示m*n个MAC同时进行矩阵运算。

图2示出了协处理器中寄存器组和MAC阵列为4*4阵列时的分布图，详述如下：

此时，所述寄存器组12包括寄存器组A、寄存器组B和寄存器组C；

所述寄存器组A用于转发第一待运算数据到所述MAC阵列13；

所述寄存器组B用于转发第二待运算数据到所述MAC阵列13；

相应地，所述寄存器组C用于转发所述第一待运算数据和第一待运算数据矩阵运算的运算结果到所述存储器14。

矩阵运算一般为两个矩阵之间的运算，因此，所述寄存器组12可以包括寄存器组A、B、C，寄存器组A用于转发第一待运算数据到所述MAC阵列13，寄存器组B用于转发第二待运算数据到所述MAC阵列13，相应的寄存器组C用于转发第一待运算数据和第二待运算数据矩阵运算的运算结果到所述存储器14。在MAC阵列13为4*4阵列时，寄存器组A中又包括寄存器组A0、A1、A2、A3，寄存器组A0中包括寄存器3、寄存器2、寄存器1和寄存器0四个寄存器，寄存器组A1、A2、A3的组成与寄存器组A0相同(如图2所示)，不再赘述。同样，寄存器组B中包括寄存器组B0、B1、B2、B3，寄存器组C中包括寄存器组C0、C1、C2、C3；寄存器组B0、B1、B2、B3以及寄存器组C0、C1、C2、C3的中每个寄存器组的组成结构均与寄存器组A0相同(如图2所示)。

MAC阵列13中的0-15个乘加器呈4*4阵列排布，寄存器组A、B、C分别与16个乘加器MAC相连接(具体连接关系请参见图2)，因此，每组寄存器组均有1～16种数据转发方法，具体转发数据方法的种类依据参与运算的矩阵或子矩阵的维度来灵活制定。

此时，协处理器1接收到向量扩展指令为矩阵运算指令时，每条矩阵运算指令包括4组指令，分别对应着寄存器组中的层次0、1、2、3(如寄存器组A0、A1、A2、A3或寄存器组B0、B1、B2、B3或寄存器组C0、C1、C2、C3)，MAC阵列13中编号为0-15的16个乘加器，根据所述矩阵运算指令从对应的寄存器获取待运算数据，并在进行矩阵运算后将运算结果暂存在寄存器组C0、C1、C2、C3中的一个或多个中，最终由暂存有运算结果的寄存器将运算结果转发给存储器14(即图2中的互联高速存储器)进行存储。

进一步地，所述MAC阵列13在进行矩阵运算的待运算数据类型包括半精度类数据、单精度类数据以及双精度类数据。

以上述4*4MAC阵列为例，所述半精度类数据指进行矩阵运算的两个矩阵为M*N和N*K型的矩阵,其中，M、N、K为均小于4的正整数，所述双精度类数据指进行矩阵运算的两个矩阵为M*N和N*K型的矩阵，其中，M、N、K均大于或等于4的正整数。

本申请的实施例中提供了一种协处理器，所述协处理器包括控制器、寄存器组、乘加器MAC阵列以及存储器。所述协处理在接收到主处理器发送的向量扩展指令时，由所述控制器对所述向量扩展指令进行解析，根据解析结果获取并发送待运算数据到所述寄存器组，寄存器组将接收到的待运算数据转发到MAC阵列，以使MAC阵列根据控制器的解析结果对所述待运算数据进行矩阵运算，所述寄存器组将MAC阵列的运算结果转发至存储器进行存储。这一过程中协处理器中的MAC阵列根据所述向量扩展指令对待运算数据进行矩阵运算，而所述向量扩展指令由主处理器根据预设函数生成，保证了通用微处理器的算力；由协处理器的寄存器组对各种数据进行转发存储，数据存储通道独立于向量扩展指令的接收通道，提高了通用微处理器运算过程中的数据吞吐量，进而提高通用微处理器的运算能力。

实施例三：

对应于上文实施例所述的协处理器，图3示出了本申请实施例提供的矩阵运算加速方法的实现流程图，详述如下：

所述矩阵运算加速方法运行于实施例一或实施例二所提供的协处理器中，包括：

步骤S31，通过指令通道接收主处理器发送的向量扩展指令，解析所述向量扩展指令，得到解析结果，其中，所述向量扩展指令由所述主处理器根据待运算数据和预设函数生成；

本申请提供的实施例中协处理器通过指令通道接收向量扩展指令，协处理器接收到所述向量扩展指令后，由其中设置的控制器对所述向量扩展指令进行解析，得到解析结果。其中所述主处理器所发送的向量扩展指令由其接收到的矩阵运算任务和预设函数生成。所述向量扩展指令包括数据搬运指令和矩阵运算指令，所述数据搬运指令用于指示所述控制器获取本次矩阵运算中的待运算数据，并指示寄存器组转发所述待运算数据。所述矩阵运算指令用于指示所述MAC矩阵对所述待运算数据进行相应的矩阵运算。

进一步地，所述预设函数包括至少一条通用函数和至少一条特定函数，所述通用函数和所述特定函数均存储在函数库中，二者可分别存储在通用函数库和特定函数库中。

所述预设函数根据所述待运算数据的维度和所述MAC阵列的维度之间的关系生成；也就是说根据待运算数据对应的矩阵维度、运算规则和MAC矩阵的维度生成所述预设函数。每个类型的矩阵运算均对应至少一种通用函数和至少一种特定函数。

步骤S32，根据所述解析结果调用并发送待运算数据到寄存器组，所述寄存器组的组数大于1；

该步骤中根据协处理器对接收到的向量扩展指令的分析结果中的数据搬运指令调用搬运指令对应的待运算数据，将所调用的待运算数据转发给寄存器组，所述寄存器组可包括多组。

可选地，主处理器和协处理器交互进行矩阵运算时，整个运算过程可进行一次向量扩展指令的发送、接收和解析，协处理器根据一次接收到的向量扩展指令解析出多条具体的控制指令(如数据搬运指令、矩阵运算指令以及存储指令等)。

进一步地，矩阵运算过程中主处理器也可多次发送向量扩展指令到协处理器，以分别控制数据搬运、矩阵运算以及运算结果存储的不同阶段。矩阵运算过程包括多次向量扩展指令的发送、解析与执行时，至少包括4条有效向量扩展指令的发送、解析与执行，分别为用于指示寄存器组转发第一矩阵数据(即第一待运算数据)到MAC阵列的数据搬运指令、指示寄存器组转发第二矩阵数据(即第二待运算数据)到MAC阵列的数据搬运指令、指示MAC阵列进行开始运算的矩阵运算指令以及指示寄存器组将运算结果转发到存储器的存储指令。

步骤S33，指示所述寄存器组发送所述待运算数据到MAC阵列，所述MAC阵列用于对所述待运算数据进行矩阵运算，以得到运算结果；

该步骤中协处理器指示寄存器根据向量扩展指令的分析结果将相应的待处理数据转发到MAC阵列，以使MAC阵列开始执行矩阵运算，并得到运算结果。

步骤S34，指示所述寄存器组转发所述运算结果到存储器进行存储。

本申请提供的实施例中根据对所述向量扩展指令的解析结果，指示寄存器组将得到的运算结果转发到所述存储器进行存储。

可选地，所述存储器包括高速互联存储器，所述存储器与寄存器组进行数据传输的带宽可变，最大支持1024位。

所述运算结果还可以存储在片上存储器或/和片外存储器中，其中，所述片上存储器和/或片外存储器通过片上总线与所述协处理器或/和主处理器相连接。在协处理器进行超大规模的矩阵运算时，若所述存储器不足以存储参与矩阵运算的待运算数据和运算结果时，协处理器中的控制器还可通过片上总线与片上存储器或者片外存储器相连接以实现数据的存储。

基于上述实施例一或上述实施例二中提供的协处理器，下面以4*4MAC阵列为例说明所述根据特定函数或通用函数所生成的向量扩展指令指示协处理器进行矩阵运算的过程。

图4是本申请实施例的基于特定函数实现流程矩阵运算加速的示意图。基于图2中协处理器，在MAC阵列为4*4时，所述预设函数中的特定函数实现半精度3*3维第一运算矩阵与半精度3*3维第二运算矩阵对位乘法的实施例流程详述如下：

步骤S41，获取并解析第一条向量扩展指令，根据解析结果指示寄存器转发第一待运算数据到MAC阵列；

具体地，控制器解析第一条向量扩展指令(此时的向量扩展指令仅包括数据搬运指令)，根据解析结果将获取的半精度3*3维第一运算矩阵(即第一待运算数据)存入到寄存器组A中，具体存储到寄存器组A0、A1、A2的层次0、1、2的寄存器中；

步骤S42，获取并解析第二条向量扩展指令，根据解析结果指示寄存器转发第二待运算数据到MAC阵列；

该步骤中，控制器根据第二条向量扩展指令(此时的向量扩展指令仅包括数据搬运指令)，将获取的半精度3*3维第二运算矩阵(即第二待运算数据)到寄存器组B中，具体存储到寄存器组B0、B1、B2的层次0、1、2的寄存器中；

步骤S43，获取并解析第三条向量扩展指令，根据解析结果指示MAC阵列进行矩阵运算，得到运算结果；

该步骤中，控制器解析第三条向量扩展指令(此时仅包括矩阵运算指令)，根据解析结果对MAC阵列中的0、1、2、4、5、6、8、9、10执行乘法运算，得到运算结果，并存储在寄存器组C中；

步骤S44，根据第四条向量扩展指令存储所述运算结果到存储器。

该步骤中，根据第四条向量扩展指令(此时仅包括矩阵运算指令)，将寄存器组C中所保存的MAC阵列中的0、1、2、4、5、6、8、9、10半精度对位矩阵乘法的运算结果存入互联高速存储器，具体涉及寄存器组C0、C1、C2的层次0、1、2的寄存器，其位宽为144。

进一步地，上述第一到第四条向量扩展指令可集成为一条向量扩展指令，由控制器一次性接收并解析后，再指示相应程序的执行。

图5是本申请实施例提供的基于通用函数实现流程矩阵运算加速的流程示意图。基于图2中协处理器，在MAC阵列为4*4时，所述预设函数中的通用函数实现双精度M*N维第一运算矩阵与双精度N*K维第二运算矩阵通用矩阵乘法的实施例流程图(矩阵维度参数M、N、K均大于或等于4)，具体流程说明如下：

步骤S51，协处理器根据向量扩展指令对所述第一运算矩阵和所述第二运算矩阵执行444子矩阵运算，得到第一子矩阵和第二子矩阵；

这里的向量扩展指令根据本次矩阵运算对应的通用函数生成，所述执行444子矩阵运算指，对所述M*N维第一运算矩阵与N*K维第二运算矩阵中任一四行四列组成的矩阵(例如第一运算矩阵的前四行四列组成的子矩阵和第二运算矩阵的前四行四列组成的子矩阵)执行矩阵乘法运算；已执行相应运算的行或/和列标记为已运算。

所述的444子矩阵运算，包括如下步骤：

(1)根据数据搬运指令存入双精度4*4维第一运算矩阵到寄存器组A中，具体涉及寄存器组A0、A1、A2、A3的层次0、1、2、3的寄存器，位宽1024；

(2)根据另一条数据搬运指令存入双精度4*4维第二运算矩阵到寄存器组B中，具体涉及寄存器组B0、B1、B2、B3的层次0、1、2、3的寄存器，位宽1024；

(3)根据矩阵运算指令对MAC阵列中的0～15执行乘法运算，参与运算的数据为寄存器组A和寄存器组B中层次0寄存器中的数据；

(4)根据矩阵运算指令对MAC阵列中的0～15执行3次乘加运算，参与运算的数据依次为寄存器组A和寄存器组B中层次1、2、3寄存器中的数据，需三条矩阵运算类向量扩展指令；

(5)根据存储指令将寄存器组C中所保存的MAC阵列中的0～15双精度通用矩阵乘法运算结果存入互联高速存储器，具体涉及寄存器组C0、C1、C2、C3的层次0、1、2、3的寄存器，位宽1024。

步骤S52，比较所述第一子矩阵的列维度N是否小于4，若列维度N<4，则执行步骤S53，否则返回步骤S51；

步骤S53，进行4N4子矩阵运算处理；

步骤S54，比较所述第二子矩阵的列维度K是否小于4，若列维度K<4，则执行步骤S55，否则返回步骤S51；

步骤S55，进行44K子矩阵运算处理；

步骤S56，比较再次计算后的第一子矩阵的行维度M是否小于4，若行维度M<4，则执行步骤S57，否则返回步骤S51；

步骤S57，进行M44子矩阵运算处理；

步骤S58，比较再次计算后剩余第一子矩阵的列维度N是否小于4，若列维度N<4，则执行步骤S59，否则返回步骤S57；

步骤S59，进行MN4子矩阵运算处理；

步骤S510，比较剩余第一子矩阵的列维度N是否小于4，若列维度N<4，则执行步骤S511，否则返回步骤S59；

步骤S511，进行M4K子矩阵运算处理；

步骤S512，比较剩余第二子矩阵的列维度K是否小于4，若列维度K<4，则执行步骤S513，否则返回步骤S59；

步骤S513，进行MNK子矩阵运算处理，至矩阵运算结束，以得到运算结果；

所述的4N4子矩阵运算处理、44K子矩阵运算处理、M44子矩阵运算处理、MN4子矩阵运算处理、M4K子矩阵运算处理、MNK子矩阵运算处理，步骤与所述的444子矩阵运算处理步骤一致，差异点是寄存器组中运算数据所占用的层次和对于运算指令所占用的MAC阵列中的数量，所述的M、N、K均是剩余子矩阵相应维度模4的余数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例四：

对应于上文实施例所述的协处理器，图6示出了本申请实施例提供的矩阵运算加速系统的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该矩阵运算加速系统包括：接收单元61、数据发送单元62、第一指示单元63以及第二指示单元64，其中

接收单元61，用于接收并解析主处理器发送的向量扩展指令，得到解析结果，其中，所述向量扩展指令由所述主处理器根据待运算数据和预设函数生成；

数据发送单元62，用于根据所述解析结果调用并发送待运算数据到寄存器组，所述寄存器组的组数大于1；

第一指示单元63，用于指示所述寄存器组发送所述待运算数据到MAC阵列，所述MAC阵列用于对所述待运算数据进行矩阵运算，以得到运算结果；

第二指示单元64，用于指示所述寄存器组转发所述运算结果到存储器进行存储。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种协处理器，其特征在于，所述协处理器包括：控制器、寄存器组、乘加器MAC阵列以及存储器；

所述存储器用于存储所述待运算数据和/或所述运算结果。

2.如权利要求1所述的协处理器，其特征在于，所述协处理器通过指令通道接收所述主处理器发送的所述向量扩展指令。

3.如权利要求1所述的协处理器，其特征在于，根据所述待运算数据的维度和所述MAC阵列的维度之间的关系生成所述预设函数。

4.如权利要求1所述的协处理器，其特征在于，所述预设函数与所述矩阵运算的类型相对应。

5.如权利要求1所述的协处理器，其特征在于，所述MAC阵列包括m*n个MAC，所述m*n个MAC以二维矩阵式结构排列组成所述MAC阵列，其中，m和n均为不小于3的正整数。

6.如权利要求1所述的协处理器，其特征在于，每组所述寄存器组的排列结构与所述MAC阵列的排列结构相同。

7.如权利要求1或6所述的协处理器，其特征在于，所述寄存器组包括寄存器组A、寄存器组B和寄存器组C；

所述寄存器组A用于转发第一待运算数据到所述MAC阵列；

所述寄存器组B用于转发第二待运算数据到所述MAC阵列；

相应地，所述寄存器组C用于转发所述第一待运算数据和第一待运算数据矩阵运算的运算结果到所述存储器。

8.如权利要求1所述的协处理器，其特征在于，所述协处理器还包括片上存储器和/或片外存储器；

所述片上存储器和/或片外存储器通过片上总线与所述协处理器或/和主处理器相连接。

9.如权利要求1所述的协处理器，其特征在于，所述矩阵运算的运算类型包括矩阵加法、矩阵减法、矩阵转置、矩阵乘法、矩阵对位乘法中的一种或多种，进行所述矩阵运算时所述待运算数据的数据类型包括半精度数据、单精度数据和双精度数据。

10.一种矩阵运算加速方法，其特征在于，所述矩阵运算加速方法包括：

指示所述寄存器组转发所述运算结果到存储器进行存储。

11.一种矩阵运算加速系统，其特征在于，所述矩阵运算加速系统包括：