CN116361609A

CN116361609A - 一种二维矩阵运算的降维数据处理方法及硬件构架

Info

Publication number: CN116361609A
Application number: CN202310324872.2A
Authority: CN
Inventors: 肖贞杰; 刘金良; 刘玉; 胡孔阳; 韩琼磊
Original assignee: Anhui Core Century Technology Co ltd
Current assignee: Anhui Core Century Technology Co ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-30

Abstract

本发明公开了一种二维矩阵运算的降维数据处理方法及硬件构架，包括N行N列二维矩阵运算单元、指令槽、重排寄存器；根据并行指令，将选中的带有寄存器源的运算矩阵进行映射降维，得到对应的一维向量，用于存放运算所需数据；译码器提供该一维向量的数据索引，将从通用寄存器堆中读取出的运算所需数据，存入一维向量的对应位置；最后将一维向量中的数据广播到对应行/列的运算单元，供后续运算使用。通过本发明提出的降维数据处理方法及硬件构架，使得后续寄存器译码信号和数据走线数量降低N倍，从而减少了硬件逻辑单元数量，降低了电路面积和功耗，减小了电路线布线难度。

Description

一种二维矩阵运算的降维数据处理方法及硬件构架

技术领域

本发明涉及DSP芯片设计技术领域，尤其是一种二维矩阵运算的降维数据处理方法及硬件构架。

背景技术

数字信号处理(DSP)技术，因其具有高速数据处理能力以及强大的指令系统，使其能够快速、实时地实现各种数字信号处理运算，而获得广泛应用。

在DSP芯片设计过程中，矩阵运算单元是芯片高算力的来源，也是DSP芯片设计的重点和难点。目前，对于N行N列的矩阵运算单元，现有的寄存器堆数据源选择方案是通过译码器一一对应的数据译码方式来实现。若每个运算单元需要一个寄存器数据源，则需要N*N个寄存器译码信号和N*N个寄存器数据位宽的电路走线；若每个运算单元需要两个寄存器数据源，则需要的寄存器译码信号和寄存器数据位宽的电路走线量会再多一倍，存在电路逻辑单元数量多、面积大、功耗高、布线难的缺点。

发明内容

针对上述技术问题，本发明提出一种二维矩阵运算的降维数据处理方法及硬件构架。

本发明保护一种二维矩阵运算的降维数据处理方法，对于N行N列的二维运算单元阵列，根据并行指令，将选中的带有寄存器源的运算矩阵进行映射降维，得到对应的一维向量，用于存放运算所需数据；译码器提供该一维向量的数据索引，将从通用寄存器堆中读取出的运算所需数据，存入一维向量的对应位置；最后将一维向量中的数据广播到对应行/列的运算单元，供后续运算使用。

进一步的，指令依次由指令类型代码、目的寻址代码、源1寻址代码、源2寻址代码构成；

目的寻址代码为ACC[r,#p,c,#q]，表示运算后的结果存入累加寄存器，选中的运算矩阵为从矩阵左上角坐标(r,c)起至右下角坐标(r+p-1,c+q-1)止，其中r+p≤N且c+q≤N；

源1、源2至少有一个来自通用寄存器，其寻址代码为R[s,#t]，表示选中的运算单元的计算数据来自通用寄存器堆，寄存器堆译码索引从s开始，连续t个，译码索引号分别为s、s+1、…、s+t-1，其中t<＝N，s+t≤K，K为通用寄存器堆的寄存器数量。

进一步的，映射降维为横向映射或纵向映射；若进行横向映射，则最后将一维向量中的数据广播到对应行的运算单元；若进行纵向映射，则最后将一维向量中的数据广播到对应列的运算单元。

本发明还保护一种二维矩阵运算的降维数据处理硬件构架，基于上述降维数据处理方法，包括N行N列二维矩阵运算单元、指令槽、重排寄存器；指令槽，用于存放指令，每个指令槽存放一个指令，其数量根据芯片设计需求确定；重排寄存器，用于存放映射降维后的运算所需数据，若映射降维为横向映射，重排寄存器中的数据广播到运算矩阵的对应行，若映射降维为纵向映射，重排寄存器中的数据广播到运算矩阵的对应列；源1、源2各匹配一个重排寄存器。

通过本发明提出的降维数据处理方法及硬件构架，使得后续寄存器译码信号和数据走线数量降低N倍，从而减少了硬件逻辑单元数量，降低了电路面积和功耗，减小了电路线布线难度。

附图说明

图1为N行N列的二维运算单元阵列示意图；

图2为PE电路结构图；

图3为矩阵乘法运算指令示意图；

图4为纵向映射降维示意图；

图5为纵向映射降维时的位置冲突示意图；

图6为源操作数获取及广播示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

本实施例结合图示，对本发明提供的二维矩阵运算的降维数据处理方法进行展开阐述。

图1为N行N列的二维运算单元阵列示意图，其中每个方形格表示一个运算单元PE，图2为PE电路结构图，由于PE电路结构属于现有技术，并非本发明的主要内容，在此不予赘述。

为了便于区分每个PE的位置，二维运算单元阵列中的每个PE单元有其坐标，为指令的定义提供了坐标支持，例如坐标(2,0)表示第2行、第0列的PE。

图3给出的指令示例是根据降维数据处理而设计的，依次由指令类型代码、目的寻址代码、源1寻址代码、源2寻址代码构成。

指令类型mat.mul.w表示该指令是32位数据的矩阵乘法运算。

目的寻址代码为ACC[r,#p,c,#q]，表示运算后的结果存入累加寄存器，选中的运算矩阵为从矩阵左上角坐标(r,c)起至右下角坐标(r+p-1,c+q-1)止，其中r+p≤N且c+q≤N。

源1寻址代码为R[s1,#t]，表示选中的运算单元的计算数据来自通用寄存器堆，寄存器堆译码索引从s1开始，连续t个，译码索引号分别为s1、s1+1、…、s+t-1，其中t<＝N，s1+t≤K，K为通用寄存器堆的寄存器数量。

源2寻址代码为R[s2,#t]，表示选中的运算单元的计算数据来自通用寄存器堆，寄存器堆译码索引从s2开始，连续t个，译码索引号分别为s2、s2+1、…、s+t-1，其中t<＝N，s2+t≤K，K为通用寄存器堆的寄存器数量。

两条指令中间以双竖线分隔，表示两条指令并行执行，例如mat.mul.wACC[2,#2,0,#3],R[s1,#3],R[s2,#3]||mat.mul.wACC[1,#2,4,#2],R[s1',#2],R[s2',#2]，就是并行执行的两条指令，其中，指令1选中的运算矩阵为从第2行第0列起的两行三列，指令2选中的运算矩阵为从第1行第4列起的两行两列，如图4所示。

指令1执行的操作是，将通用寄存器s1其连续3个数与通用寄存器s2起连续3个数逐一相乘，相乘的结果存入选中的累加寄存器中；指令2执行的操作是，将通用寄存器s1'其连续2个数与通用寄存器s2'起连续2个数逐一相乘，相乘的结果存入选中的累加寄存器中。

对选中的PE矩阵进行纵向映射降维，得到对应的一维向量，图4中以源1寄存器数据为例，得到一组源1的重排寄存器，用于为选中的PE矩阵运算提供源1寄存器数据。源2寄存器数据通过同样的方式获取。

当然，在纵向映射过程中，并行指令之间运算矩阵选择不能出现位置冲突，位置冲突示意参照图5，图5对应的并行指令为mat.mul.w ACC[2,#2,0,#3],R[s1,#3],R[s2,#3]||mat.mul.wACC[1,#1,2,#4],R[s1',#4],R[s2',#4]。指令1选中的运算矩阵为从第2行第0列起的两行三列，指令2选中的运算矩阵为从第1行第2列起的一行四列，在第2列产生位置冲突。若是发生位置冲突，则表示并行指令不满足指令约束要求，写指令时需避免位置冲突的发生。

本发明提出的降维数据处理，针对是来自通用寄存器的源操作数，因此源操作数采用寄存器寻址。译码器从指令中解析出数据索引，根据该索引从通用寄存器堆中读取出的运算所需数据，存入重排寄存器；最后将重排寄存器中的数据广播到对应列的运算单元(参照图6)，即一列运算单元共用同一个数据。图6示意为三个指令并行执行。

在矩阵乘法运算过程中，源1操作数与源2操作数分别输入对应PE，完成乘法操作，运算结果累加至ACC，实现乘累加运算。

本实施例主要以纵向映射为例进行说明，横向映射原理完全一致。当t＝p≠q时，选择横向映射；当t＝q≠p时，选择纵向映射；当t＝p＝q时，在不存在位置冲突的情况下，两者均可。由于同时实现纵向映射和横向映射，硬件开销较大，单独的纵向映射或横向映射即可满足应用需求。

实施例2

基于实施例1的二维矩阵运算的降维数据处理硬件构架，括N行N列二维矩阵运算单元、指令槽、重排寄存器。

指令槽，用于存放指令，每个指令槽存放一个指令，其数量根据芯片设计需求确定。

重排寄存器，用于存放映射降维后的运算所需数据，若映射降维为横向映射，重排寄存器中的数据广播到运算矩阵的对应行，若映射降维为纵向映射，重排寄存器中的数据广播到运算矩阵的对应列；源1、源2各匹配一个重排寄存器。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种二维矩阵运算的降维数据处理方法，其特征在于，对于N行N列的二维运算单元阵列，根据并行指令，将选中的带有寄存器源的运算矩阵进行映射降维，得到对应的一维向量，用于存放运算所需数据；译码器提供该一维向量的数据索引，将从通用寄存器堆中读取出的运算所需数据，存入一维向量的对应位置；最后将一维向量中的数据广播到对应行/列的运算单元，供后续运算使用。

2.根据权利要求1所述的二维矩阵运算的降维数据处理方法，其特征在于，指令依次由指令类型代码、目的寻址代码、源1寻址代码、源2寻址代码构成；

3.根据权利要求2所述的二维矩阵运算的降维数据处理方法，其特征在于，映射降维为横向映射或纵向映射；若进行横向映射，则最后将一维向量中的数据广播到对应行的运算单元；若进行纵向映射，则最后将一维向量中的数据广播到对应列的运算单元。

4.一种基于权利要求1所述二维矩阵运算的降维数据处理方法的硬件构架，其特征在于，包括N行N列二维矩阵运算单元、指令槽、重排寄存器；

指令槽，用于存放指令，每个指令槽存放一个指令，其数量根据芯片设计需求确定；