CN105373497B

CN105373497B - 基于dsp芯片的矩阵转置装置

Info

Publication number: CN105373497B
Application number: CN201510717170.6A
Authority: CN
Inventors: 刘宗林; 陈书明; 雷元武; 陈小文; 鲁建壮; 万江华; 陈海燕; 陈胜刚; 陈虎; 许邦建; 罗恒; 高泽龙
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2018-04-13
Anticipated expiration: 2035-10-29
Also published as: CN105373497A

Abstract

一种基于DSP芯片的矩阵转置装置，其包括：矩阵转置单元，用来将矩阵转置转换为若干基本块的转置，同时给DMA总线控制器发送读写控制参数，协调两个多体数据存储器的读写访问，实现基本矩阵读和写操作重叠；DMA总线控制器，用来发送读写控制参数，协调两个多体数据存储器的读写访问，实现基本矩阵读和写操作重叠；两个多体数据存储器，每个多体数据存储器包括多个随机存储器，用来负责缓存一个基本块数据；数据通路和命令通路异步处理单元，用来将TeraNet数据主机端口协议转换为内部DMA总线协议，将TeraNet命令从机端口协议转换为内部Pbus总线协议。本发明具有可实现矩阵转置功能、提升存储带宽利用率等优点。

Description

基于DSP芯片的矩阵转置装置

技术领域

本发明主要涉及到微处理器结构与芯片设计领域，特指一种基于DSP芯片的矩阵转置装置。

背景技术

矩阵是数据组织和存储的基本方式之一，广泛应用于信号图像处理(合成孔径雷达成像(SAR)成像、二维FFT)、模拟仿真等科学计算中。如何快速访问到矩阵中的数据元素，对处理器性能和存储带宽利用率的充分发挥起到重要作用。对矩阵的行顺序和列顺序交替访问是科学计算等应用领域中的一种重要的访存方式。如SAR成像中矩阵数据的行列方向分别代表方位向和距离向，计算过程中需要分别进行方位向和距离向压缩计算；二维FFT和二维图像处理等需要分别从两个维度对矩阵数据进行计算；矩阵求逆算法需要按行和按列访问数据矩阵。

然而，当前大部分大容量数据存储器(如DDR)和访存协议(如AXI协议)都是采用突发访问的方式实现通信带宽利用率最大化。按照传统的行优先存储模式将矩阵数据映射到DDR存储空间，矩阵行数据分布方向与DDR物理行平行，行数据将分布在尽可能少的物理行中；而矩阵列数据分布方向与物理行交叉，分布在多个不同的物理行中。矩阵应用程序对数据进行行列交替访问过程中，行连续访问的带宽利用率很高；而列连续访问的IO带宽利用率急剧下降，限制行列交替访问矩阵应用程序整体存储性能。

在基于突发的通信协议中，按列访问N*M的数据矩阵时，需要启动N*M次的突发访问，这种方式完全无法利用数据网络的流水缓存来提升存储通路的带宽利用率。同时，为了匹配日益提升的处理器计算性能，数据带宽也得到相应提升，目前处理器和DSP芯片(TI6678)的数据位宽扩展到256位，有些处理器芯片的数据位宽甚至达到1024位；然而，按列访问数据矩阵时，矩阵中的每个元素仅占用数据位宽的一小部分，其他的数据位宽无法使用，这也是导致按列访问数据矩阵时存储带宽利用率低的一个重要原因。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种可实现矩阵转置功能、提升存储带宽利用率的基于DSP芯片的矩阵转置装置。

为解决上述技术问题，本发明采用以下技术方案：

一种基于DSP芯片的矩阵转置装置，其包括：

矩阵转置单元，用来将矩阵转置转换为若干基本块的转置，同时给DMA总线控制器发送读写控制参数，协调两个多体数据存储器的读写访问，实现基本矩阵读和写操作重叠；

DMA总线控制器，用来发送读写控制参数，协调两个多体数据存储器的读写访问，实现基本矩阵读和写操作重叠；

两个多体数据存储器，每个多体数据存储器包括多个随机存储器，用来负责缓存一个基本块数据；

数据通路和命令通路异步处理单元，用来将TeraNet数据主机端口协议转换为内部DMA总线协议，将TeraNet命令从机端口协议转换为内部Pbus总线协议。

作为本发明的进一步改进：所述多体数据存储器提供多个独立端口以保证基本块能以行顺序写入，同时以列顺序读出。

作为本发明的进一步改进：所述两个多体数据存储器以乒乓方式实现基本块读操作和写操作重叠。

作为本发明的进一步改进：设置四种转置模式：

A、矩阵转置模式0：交叉存储到交叉存储；

B、矩阵转置模式1：分开存储到交叉存储；

C、矩阵转置模式2：交叉存储到分开存储；

D、矩阵转置模式3：分开存储到分开存储。

作为本发明的进一步改进：所述矩阵转置单元执行以下分块矩阵转置策略：

(a)将原始N₁*N₂矩阵分解若干基本块，通过一次按行读和按列写操作完成基本块转置；

(b)以基本块为元素，对基本块矩阵进行转置，实现整个矩阵的转置；基本块矩阵转置通过控制基本块转置的读、写地址完成；

(c)采用“乒乓”结构实现不同基本块的读操作时间和写操作时间重叠，AXI数据通路的读通路与写通路完全分开。

与现有技术相比，本发明的优点在于：

1、本发明的基于DSP芯片的矩阵转置装置，针对矩阵行访问和列访问存储带宽利用率差别大的问题，利用DSP芯片内部存储器，设计一个随机乒乓存储结构的矩阵转置装置。通过高效的矩阵转置操作和行访问操作实现矩阵列访问，大大提升了存储带宽利用率。

2、本发明的基于DSP芯片的矩阵转置装置，支持复数实部和虚部交叉存储和分开存储两种存储形式及两者之间的转换，支持矩阵元素为32位和64位的矩阵转置操作。

3、本发明的基于DSP芯片的矩阵转置装置，复用DSP内部的数据存储器，增加简单的DMA控制逻辑来实现基本矩阵数据块(简称基本块)的转置，然后通过读、写地址的控制实现基本块矩阵转置。具有实现简单、效率高、适用面广等优点，以突发方式访问基本块、基本块转置之间采用读和写重叠方式来提高存储带宽利用率。

附图说明

图1是本发明矩阵转置装置的拓扑结构示意图。

图2是采用两种数据组织方式(交叉存储和分开存储)的示意图。

图3是本发明在具体应用实例中采用矩阵转置模式0：交叉存储到交叉存储的示意图。

图4是本发明在具体应用实例中采用矩阵转置模式1：分开存储到交叉存储的示意图。

图5是本发明在具体应用实例中矩阵转置模式2：交叉存储到分开存储的示意图。

图6是本发明在具体应用实例中矩阵转置模式3：分开存储到分开存储的示意图。

图7是本发明在具体应用实例中基本矩阵转置的数据组织方式的示意图。

图8是本发明在具体应用实例中块矩阵转置组织方式的示意图。

图9是本发明在具体应用实例中块矩阵转置时空图的示意图。

图10是本发明在具体应用实例中矩阵转置控制状态机的示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1所示，本发明的基于DSP芯片的矩阵转置装置，包括：

两个多体数据存储器，每个多体数据存储器包括多个随机存储器，用来负责缓存一个基本块数据；多体数据存储器提供多个独立端口以保证基本块能以行顺序写入，同时以列顺序读出；两个多体数据存储器以乒乓方式实现基本块读操作和写操作重叠，最大化存储带宽利用率；

在数字信号处理领域，数据通常以复数方式组织，这类数据矩阵的组织有两种基本组织方式——实部虚部交叉存储和实部虚部分开存储。如图2所示，实部虚部交叉存储方式是数据采集后最常用的表达形式，单精度浮点形式的实数和虚部组成一个64位的复数；实部虚部分开存储方式是复数矩阵处理过程中另一种主要的表示形式，实部和虚部分别存储在两个连续的矩阵中，对应序号的两个单精度浮点数据视为一个复数。因此，本发明的数据矩阵转置可以用来适用于这两种形式，同时本发明的矩阵转置装置还可以实现复数矩阵这两种形式的相互转换。

针对复数矩阵的两种组织方式，本发明的矩阵转置装置设置四种转置模式：

A、矩阵转置模式0：交叉存储到交叉存储；

如图3所示，将地址Init_real指定的N1*N2的二维数据矩阵(64位)转置放置到地址Result_real位置，其中初始矩阵和转置后的矩阵均为连续矩阵。这种模式可以实现矩阵元素为64位的矩阵转置操作。

B、矩阵转置模式1：分开存储到交叉存储；

如图4所示，将两个N1*N2的二维数据矩阵(32位)，分别由地址Init_real和Init_imag指定，对应位置的数据合并成64位数据，然后转置放置到地址Result_real位置转置后结果可视为一个64位数据矩阵，其中两个初始矩阵和转置后的矩阵均为连续矩阵。这种模式能够将两个独立的32位矩阵对应位置组合，然后转置成64位矩阵。

C、矩阵转置模式2：交叉存储到分开存储；

如图5所示，对由地址Init_real指定64位N1*N2的二维数据矩阵进行转置，首先将每个64位数据分解为两个32位数据，然后对分解后的数据矩阵分别进行转置，两个转置后的32位矩阵分别存储到有地址Result_real和Result_imag指定的位置，其中64位的初始矩阵和两个32位转置后的矩阵均为连续矩阵。这种模式能够将一个64位矩阵拆分成两个32位矩阵，并完成矩阵转置操作。

D、矩阵转置模式3：分开存储到分开存储；

如图6所示，将地址Init_real指定的32位N1*N2的二维数据矩阵转置放置到地址Result_real位置，其中初始矩阵和转置后的矩阵均为连续矩阵。这种模式可以实现矩阵元素为32位的矩阵转置操作。

在具体应用实例中，矩阵转置单元的顶层通过TeraNet AXI主机接口以突发方式访问数据，矩阵转置单元将矩阵转置操作转换为若干突发访问。

为此，本发明的矩阵转置单元执行以下分块矩阵转置策略：

(a)将原始N₁*N₂矩阵分解若干基本块(基本块通常设置为方阵)，通过一次按行读和按列写操作完成基本块转置；

(c)采用“乒乓”结构实现不同基本块的读操作时间和写操作时间重叠，充分利用AXI数据通路的读通路与写通路完全分开，可以重叠读操作和写操作的优势。

假定每个多体数据存储器的存储容量为(M字节)，基本矩阵通常设置为方阵(规模为N)，则满足M≥8N²。本发明以M＝8K、N＝32为例进行说明，将矩阵转置的基本块设置为32*32点(每个点的数据为64位)，使用每个多体存储器来存储一个基本块，两个多体存储器以“乒乓”方式完成整个矩阵的转置。

在具体应用时中，多体数据存储器由4个存储体组成，基本矩阵转置的数据存储方式如图7所示。具体步骤如下：

步骤1：以行的顺序连续读取1K点的数据，并以体交叉方式存储到7个存储体中，即每4个连续的数据组成256位，这4点数据同时写入到4个存储体中的相同位置。基本矩阵中相邻行相同序号的数据存储到不同存储体内，这样保证按列读取时能同时取出相邻4行相同位置数据。如图7所示，第1行的第一个数据【序号为0】存储在RAM0的位置0，第2行的第一个数据【序号为32】存储在RAM1的位置8，第3行的第一个数据【序号为64】存储在RAM2的位置16，第4行的第一个数据【序号为96】存储在RAM3的位置24。对于任意数据i＝{Row[4:0],Col[4:0]}，则数据写入的存储体和体内地址为：

■存储体：Num_Bank[1:0]＝(Col[1:0]+Row[1:0])％4

■存储体地址：Addr_Bank[8:0]＝N/4＝{Row[4:0],Col[4:2]}

步骤2：以列的顺序连续将数据从多体存储器中读出，并组成256位的DMA突发，写入到存储器中。

块矩阵转置如图8所示，对于规模为N的FFT计算(N>1K)，N点的一维数据可视为二维矩阵(1024*R)*(1024*C)，其中R和C是一个可配置的参数，且保证R>0、C>0。假定初始数据矩阵起始地址为A_I，转换后数据矩阵起始地址为A_R，则矩阵中任意一个数据(序号为i，i<N)在目标矩阵中的位置为：

则行列位置：NC＝i％(1024*C)；

基本块的行列位置：

基本块内的行列位置：

NEC＝NC％1024＝(i％(1024*C))％1024

矩阵转置后对应的地址位置：

Addr_Trans[i]＝A_R+1024*C*(1024*NBC+NEC)+1024*NBR+NER

如图9所示，基本块矩阵转置采用“乒乓”方式重叠读、写时间开销，首先以行块的顺序读取基本块，以列块顺序写入到目标地址中，除第一个基本块的读和最后一个基本块的写不能重叠外，其余的都能重叠，最大化利用AXI读、写通路的数据带宽。

如图10所示，为矩阵转置控制状态转换图，其具体解释如下(其中TotalNum_Bmatrix表示基本块数，为R*C；Mode表示矩阵转置模式；CntBMatrix表示已经完成读的基本块的计数)。具体流程如下：

状态S0：控制状态处于空闲状态，等待启动命令。

状态S1-S4：完成第一个基本块的读操作，将数据写入到多体存储器0中。对应模式1，需要读取分开存储的实部基本块和虚部基本块，因此，这种模式下会经历S3和S4，完成虚部基本块的读操作。从图9可知，当转置矩阵仅仅包含一个基本块时，即TotalNum_Bmatrix＝R*C＝1*1时，完成该基本块读操作后即进入基本块写状态，即跳转到状态S9，否则进入基本块读操作和写操作交替过程，即跳转到状态S5。

状态S6-S8：完成第一个基本块写操作、最后一个基本块读操作和其他基本块的读写操作。对于模式1分开存储到交叉存储，需要读取分开存储的实部基本块和虚部基本块，该模式下会经历S7和S8，完成虚部基本块的读操作；对于模式2交叉存储到分开存储，需要以分开方式写回的实部基本块和虚部基本块，该模式下会经历S7和S8，完成虚部基本块的写操作。

本发明利用两个多体存储器采用乒乓方式实现基本块读和基本块写重叠，对状态S6-S8进行TotalNum_Bmatrix-1次遍历，完成后跳转到状态S9。对于第i次遍历状态S6-S8，完成第(i+1)个基本块的读操作，将该基本块数据写入到i％2个多体数据存储器中，同时，完成第i个基本块的写操作，将(i+1)％2个多体数据存储器写回到存储器指定位置。

状态S9-S12：完成最后一个基本矩阵块的写操作。对于模式2交叉存储到分开存储，需要以分开方式写回的实部基本块和虚部基本块，该模式下会经历S11和S12，完成虚部基本块的写操作。完成最后一个基本块写操作后，状态机跳转到状态S13。

状态S13：完成矩阵转置操作并向DSP内核发送矩阵转置完成中断，控制状态机跳转到空闲状态S0。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于DSP芯片的矩阵转置装置，其特征在于，包括：

数据通路和命令通路异步处理单元，用来将TeraNet数据主机端口协议转换为内部DMA总线协议，将TeraNet命令从机端口协议转换为内部Pbus总线协议；

设置四种转置模式：

A、矩阵转置模式0：交叉存储到交叉存储；

B、矩阵转置模式1：分开存储到交叉存储；

C、矩阵转置模式2：交叉存储到分开存储；

D、矩阵转置模式3：分开存储到分开存储。

2.根据权利要求1所述的基于DSP芯片的矩阵转置装置，其特征在于，所述多体数据存储器提供多个独立端口以保证基本块能以行顺序写入，同时以列顺序读出。

3.根据权利要求1所述的基于DSP芯片的矩阵转置装置，其特征在于，所述两个多体数据存储器以乒乓方式实现基本块读操作和写操作重叠。

4.根据权利要求1或2或3所述的基于DSP芯片的矩阵转置装置，其特征在于，所述矩阵转置单元执行以下分块矩阵转置策略：