CN111045958B

CN111045958B - 加速引擎及处理器

Info

Publication number: CN111045958B
Application number: CN201811185199.4A
Authority: CN
Inventors: 林威廷; 康一
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2022-09-16
Anticipated expiration: 2038-10-11
Also published as: CN111045958A

Abstract

一种加速引擎及处理器，加速引擎包括：控制序列发生器、预取缓存器、输入缓存器、乘法累加阵列以及输出缓存器，其中：控制序列发生器，与所述预取缓存器、所述输入缓存器以及所述输出缓存器耦接；预取缓存器，与CPU集群中的二级缓存以及所述输入缓存器耦接；输入缓存器，与乘法累加阵列耦接，适于从所述预取缓存器中读取所缓存的数据并缓存；乘法累加阵列，与输出缓存器耦接，适于对所述输入缓存器中缓存的数据进行乘法累加运算，并将运算结果输出至所述输出缓存器；输出缓存器，与所述二级缓存耦接，适于缓存所述乘法累加阵列输出的运算结果，以及将所缓存的运算结果输出至所述二级缓存。上述方案能够提高加速引擎的性能。

Description

加速引擎及处理器

技术领域

本发明涉及处理器领域，尤其涉及一种加速引擎及处理器。

背景技术

机器学习(Machine Learning)加速引擎(Acceleration Engine)已经成为最为热门的研究课题之一。例如，谷歌公司推出的高性能处理器(Tensor Processing Unit，TPU)，利用收缩阵列来提高计算推理能力以及吞吐量。英伟达(NVIDIA)公司采用基于加速引擎的图形处理器(Graphics Processing Unit，GPU)已经广泛应用在深度学习中的推断应用。

现有的加速引擎的运算性能较差。

发明内容

本发明实施例解决的是加速引擎的运算性能较差的问题。

为解决上述技术问题，本发明实施例提供一种加速引擎，包括：控制序列发生器、预取缓存器、输入缓存器、乘法累加阵列以及输出缓存器，其中：所述控制序列发生器，与所述预取缓存器、所述输入缓存器以及所述输出缓存器耦接，适于向所述预取缓存器发送第一数据读取指令、向所述输出缓存器发送数据输出指令、向所述输入缓存器发送第二数据读取指令；所述预取缓存器，与所述控制序列发生器、CPU集群中的二级缓存以及所述输入缓存器耦接，适于在接收到所述第一数据读取指令时，从所述二级缓存中读取数据并缓存；所述输入缓存器，与所述控制序列发生器、所述预取缓存器以及所述乘法累加阵列耦接，适于在接收到所述第二数据读取指令时，从所述预取缓存器中读取所缓存的数据并缓存；所述乘法累加阵列，与所述输入缓存器以及所述输出缓存器耦接，适于对所述输入缓存器中缓存的数据进行乘法累加运算，并将运算结果输出至所述输出缓存器；所述输出缓存器，与所述乘法累加阵列、所述二级缓存以及所述控制序列发生器耦接，适于缓存所述乘法累加阵列输出的运算结果，以及在接收到所述数据输出指令时将所缓存的运算结果输出至所述二级缓存。

可选的，所述加速引擎还包括：数据格式转换器，耦接在所述预取缓存器与所述输入缓存器之间，适于将所述预取缓存器输出的数据格式转换成所述输入缓存器支持的数据格式。

可选的，所述输入缓存器，适于在接收到所述第二数据读取指令时，读取所述数据格式转换器输出的数据。

可选的，所述预取缓存器，还包括：旋转器；所述旋转器适于对所述预取缓存器从所述二级缓存中依次读取到的两组长度为N比特的数据进行旋转移动，使得旋转移动后的所述读取到的两组长度为N比特的数据行对齐；所述预取缓存器的读端口数据宽度与写端口数据宽度均为2N比特；N为正整数。

可选的，所述数据格式转换器与所述输入缓存器一一对应。

可选的，所述乘法累加阵列，与所述输出缓存器耦接，还适于将所述输入缓存器中缓存的数据与所述输出缓存器中最新存入的运算结果进行乘法累加运算。

可选的，所述加速引擎还包括：存储器，与所述输出缓存器耦接；所述输出缓存器，还适于在其中存储的运算结果的个数大于预设值时，将其中存储的运算结果输出至所述存储器。

本发明实施例还提供了一种处理器，所述加速器包括上述任一种所述的加速引擎。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在加速引擎中，控制序列发生器向预取缓存器发送第一数据读取指令。预取缓存器根据第一数据读取指令，从CPU集群中的二级缓存中读取相应的数据并缓存。通过乘法累加阵列实现矩阵的运算，并将运算结果输出至输出缓存器。当输出缓存器接收到数据输出指令时，将存储的运算结果输出至二级缓存，从而实现对二级缓存中的矩阵数据进行运算。加速引擎直接对二级缓存中的数据进行运算，从而提高加速引擎的性能，实现对CPU运算的加速。

进一步，当输出缓存器中存储的运算结果的个数达到一定值时，将输出缓存器中存储的运算结果输出至存储器。当出现中断时，可以将存储器中存储的运算结果重新加载，从而可以降低计算量。

附图说明

图1是本发明实施例中的一种加速引擎的结构示意图；

图2是本发明实施例中的另一种加速引擎的结构示意图。

具体实施方式

如上所述，现有的加速引擎与CPU紧密耦合，灵活性较差。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，本发明实施例提供了一种加速引擎，包括：控制序列发生器11、预取缓存器12、输入缓存器13、乘法累加阵列14以及输出缓存器15，其中：

控制序列发生器11，与预取缓存器12、输入缓存器13以及输出缓存器15耦接，适于向预取缓存器12发送第一数据读取指令、向输入缓存器13发送第二数据读取指令、向输出缓存器15发送数据输出指令；

预取缓存器12，与控制序列发生器11、CPU集群中的二级缓存10以及输入缓存器13耦接，适于在接收到控制序列发生器11发送的第一数据读取指令时，从二级缓存10中读取数据并缓存；

输入缓存器13，与控制序列发生器11、预取缓存器12以及乘法累加阵列14耦接，适于在接收到控制序列发生器11发送的第二数据读取指令时，从预取缓存器12中读取所缓存的数据并缓存；

乘法累加阵列14，与输入缓存器13以及输出缓存器15耦接，适于对输入缓存器13中缓存的数据进行乘法累加运算，并将运算结果输出至输出缓存器15；

输出缓存器15，与乘法累加阵列14、二级缓存10以及控制序列发生器11耦接，适于缓存乘法累加阵列14输出的运算结果，并在接收到数据输出指令时将缓存的运算结果输出至二级缓存10。

在本发明实施例中，加速引擎可以搭建在CPU集群中的二级缓存10上，对CPU集群中的二级缓存10中存储的矩阵数据进行相应的运算。

在具体实施中，控制序列发生器11可以控制预取缓存器12的读取、输入缓存器13的读取以及输出缓存器15的输出。控制序列发生器11可以向预取缓存器12发送第一数据读取指令。预取缓存器12在接收到第一数据读取指令后，即可从CPU集群中的二级缓存10中读取第一数据读取指令对应的数据并缓存。

在本发明实施例中，预取缓存器12以行对齐格式存储数据，而输入缓存器13以收缩阵列所需的交错格式存储数据。因此，预取缓存器12输出数据的格式与输入缓存器13输入数据的格式不同。预取缓存器12的输出数据无法直接输入到输入缓存器13中。

在本发明实施例中，为将预取缓存器12的输出数据正常输入至输入缓存器13中，可以在预取缓存器12与输入缓存器13之间设置数据格式转换器16。数据格式转换器16可以接收预取缓存器12输出的行对齐格式的数据，将其转换成交错格式的数据并输出至输入缓存器13。

在具体实施中，数据格式转换器16可以与输入缓存器13一一对应。输入缓存器13的个数可以由需要进行运算的矩阵的个数决定。例如，加速引擎需要进行运算的矩阵为矩阵A和矩阵B，则输入缓存器13的个数为2个，其中一个用于存储矩阵A对应的数据，另一个用于存储矩阵B对应的数据。

在具体实施中，预取缓存器12的读端口和写端口宽度可以相同。然而，预取缓存器12从二级缓存10中读取到的数据的长度可能与写端口宽度不等，导致预取缓存器12无法将读取到的数据输出。

在本发明实施例中，为避免上述情况的出现，在预取缓存器12中可以设置有旋转器，通过旋转器对从二级缓存10中依次读取到的两组长度为N比特的数据进行旋转移动，从而使得旋转移动后的两组长度为N比特的数据行对齐，从而得到长度为2N比特的数据。

例如，预取缓存器的读端口和写端口宽度为32B。预取缓存器从二级缓存中读取到两个半行，其中一个半行为矩阵A的一行的结尾，另一个半行为矩阵A的下一行的开始的半行，此时，预取缓存器读取到的两组数据的长度均与预取缓存器的写端口的宽度不同。因此，通过旋转器对两个读取到的半行进行旋转移动，使得两个半行实现行对齐。在将两个半行进行行对齐后，将行对齐后的数据输出至数据格式转换器。

在具体实施中，为满足对任意大的矩阵进行运算，因此，可以预先对需要进行运算的矩阵进行处理。

在本发明一实施例中，将矩阵中相邻的16×16大小的区域作为分区，将相邻的8×8的分区作为块，对矩阵进行划分，从而将矩阵划分为多个块和多个分区。此时，一个分区内的矩阵元素的个数为256个，一个块内存在64个分区。

可以理解的是，在实际应用中，可以根据实际需求来对需要进行运算的矩阵进行分块处理。通过对矩阵进行分块处理，在运算过程中，对矩阵的分块进行运算，可以降低缓存器的读取带宽，降低成本。

在具体实施中，为降低输入缓存器13的大小，在计算两个矩阵之间的运算时，可以通过多次传递完成。例如，在计算矩阵A与矩阵B之间的乘积时，可以先将矩阵A中的一个块与矩阵B中的一个块进行运算，并将得到的运算结果存储在输出缓存区。之后，再进行矩阵A中的下一个块与矩阵B中的下一个块的运算。在对矩阵A中的块与矩阵B中的块进行运算时，结合最近一次得到的矩阵A中的块与矩阵B中的块的运算结果，对矩阵A中的块与矩阵B中的块进行运算。

在具体实施中，乘法累加阵列14还可以与输出缓存器15耦接。乘法累加阵列14在将输入缓存器13中缓存的数据进行乘法累加运算时，还可以将输入缓存器13中缓存的数据与输出缓存器15中最新存入的运算结果进行乘法累加运算。

换而言之，乘法累加阵列14是将输入缓存器13中缓存的数据与输出缓存器15中最新存入的运算结果进行乘法累加运算。

例如，输入缓存器包括第一输入缓存器和第二输入缓存器，其中：第一输入缓存器中存储的是矩阵A对应的块数据，第二输入缓存器中存储的是矩阵B对应的块数据，乘法累加阵列从第一输入缓存器中读取矩阵A的块数据2，从第二输入缓存器中读取矩阵B的块数据2，输出缓存器中最新存入的运算结果为矩阵A的块数据1与矩阵B的块数据1的运算结果1。则乘法累加阵列对矩阵A的块数据2、矩阵B的块数据2以及运算结果1进行乘法累加运算，得到运算结果2并输出至输出缓存器。

设定矩阵A的块数据2对应的长度为8bit，矩阵B的块数据2对应的长度为8bit，运算结果1对应的长度为32bit，则乘法累加阵列在进行运算时，分别输入长度为8bit的矩阵A的块数据2、长度为8bit的矩阵B的块数据2以及长度为32bit的运算结果1。

在具体实施中，加速引擎还可以包括存储器，存储器可以与输出缓存器15耦接。输出缓存器15可以获知其中存储的运算结果的个数。当输出缓存器15检测到其中存储的运算结果的个数达到预设值时，可以将存储的运算结果输出至存储器。若在后续的运算过程中出现中断。则可以从存储器中读取存储的运算结果并重新加载，无需重新开始计算，从而可以降低计算量。

参照图2，给出了本发明实施例中的另一种加速引擎。下面结合图1进行说明。

在图2中所提供的加速引擎，可以用于两个矩阵的运算。因此，在图2中，加速引擎的输入缓存器包括第一输入缓存器131以及第二输入缓存器132。相应地，加速引擎的数据格式转换器16也可以包括第一数据格式转换器161以及第二数据格式转换器162。

由此可见，本发明实施例提供的加速引擎中，控制序列发生器向预取缓存器发送第一数据读取指令。预取缓存器根据第一数据读取指令，从CPU集群中的二级缓存中读取相应的数据并缓存。通过乘法累加阵列实现矩阵的运算，并将运算结果输出至输出缓存器。当输出缓存器接收到数据输出指令时，将存储的运算结果输出至二级缓存，从而实现对二级缓存中的矩阵数据进行运算。加速引擎直接对二级缓存中的数据进行运算，从而提高加速引擎的性能，实现对CPU运算的加速。

在图1及图2中，为使图1与图2能够简洁地展示，控制序列发生器11与预取缓存器12、输入缓存器13以及输出缓存器15之间并没有使用线段连接。但是，在实际应用中，控制序列发生器11，与预取缓存器12、输入缓存器13以及输出缓存器15需要存在电连接关系。

本发明实施例还提供了一种处理器，包括本发明上述任一实施例中提供的加速引擎。

在具体实施中，针对一个处理器，可以设置一个对应的加速引擎，也可以设置多个加速引擎。当一个处理器包括多个加速引擎时，可以提高处理器的总数据吞吐量。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种加速引擎，其特征在于，包括：控制序列发生器、预取缓存器、输入缓存器、乘法累加阵列以及输出缓存器、存储器，其中：

所述控制序列发生器，与所述预取缓存器、所述输入缓存器以及所述输出缓存器耦接，适于向所述预取缓存器发送第一数据读取指令、向所述输出缓存器发送数据输出指令、向所述输入缓存器发送第二数据读取指令；

所述预取缓存器，与所述控制序列发生器、CPU集群中的二级缓存以及所述输入缓存器耦接，适于在接收到所述第一数据读取指令时，从所述二级缓存中读取数据并缓存；

所述输入缓存器，与所述控制序列发生器、所述预取缓存器以及所述乘法累加阵列耦接，适于在接收到所述第二数据读取指令时，从所述预取缓存器中读取所缓存的数据并缓存；

所述乘法累加阵列，与所述输入缓存器以及所述输出缓存器耦接，适于对所述输入缓存器中缓存的数据进行乘法累加运算，并将运算结果输出至所述输出缓存器；

所述输出缓存器，与所述乘法累加阵列、所述二级缓存以及所述控制序列发生器耦接，适于缓存所述乘法累加阵列输出的运算结果，以及在接收到所述数据输出指令时将所缓存的运算结果输出至所述二级缓存；

所述存储器，与所述输出缓存器耦接；所述输出缓存器，还适于在其中存储的运算结果的个数大于预设值时，将其中存储的运算结果输出至所述存储器。

2.如权利要求1所述的加速引擎，其特征在于，还包括：数据格式转换器，耦接在所述预取缓存器与所述输入缓存器之间，适于将所述预取缓存器输出的数据格式转换成所述输入缓存器支持的数据格式。

3.如权利要求2所述的加速引擎，其特征在于，所述输入缓存器，适于在接收到所述第二数据读取指令时，读取所述数据格式转换器输出的数据。

4.如权利要求2所述的加速引擎，其特征在于，所述预取缓存器，还包括：旋转器；所述旋转器适于对所述预取缓存器从所述二级缓存中依次读取到的两组长度为N比特的数据进行旋转移动，使得旋转移动后的所述读取到的两组长度为N比特的数据行对齐；所述预取缓存器的读端口数据宽度与写端口数据宽度均为2N比特；N为正整数。

5.如权利要求2所述的加速引擎，其特征在于，所述数据格式转换器与所述输入缓存器一一对应。

6.如权利要求1所述的加速引擎，其特征在于，所述乘法累加阵列，与所述输出缓存器耦接，还适于将所述输入缓存器中缓存的数据与所述输出缓存器中最新存入的运算结果进行乘法累加运算。

7.一种处理器，其特征在于，包括如权利要求1～6任一项所述的加速引擎。