CN104679690A

CN104679690A - 用于gpdsp的基于乒乓机制支持数据乱序返回的dma矩阵转置传输方法

Info

Publication number: CN104679690A
Application number: CN201510032874.XA
Authority: CN
Inventors: 马胜; 陈书明; 郭阳; 万江华; 杨柳; 孙书为; 李振涛; 陈海燕; 刘胜; 刘仲; 阳柳; 胡月安; 田玉恒; 王占立; 丁一博
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2015-06-03

Abstract

一种用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，在直接存储访问部件DMA的内部设有矩阵转置寄存器，当进行矩阵转置传输时，发出的读请求中包含返回数据应写入到矩阵转置寄存器中的行位置信息形成写地址；当接受到返回数据后，根据写地址将数据写入矩阵转置寄存器的相应行；当数据粒度要求被写满后，数据从矩阵转置寄存器中以列的方式读出，并计算出写地址，完成矩阵转置；在上述过程中，所述矩阵转置寄存器为两个，在上一个矩阵转置寄存器进行读操作时，开始进行下一个矩阵转置寄存器的写操作，将两次连续矩阵转置的读写矩阵转置寄存器操作并行处理。本发明具有原理清晰、工作可靠、适用范围广、效率高、具有较佳灵活性等优点。

Description

用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法

技术领域

本发明主要涉及到通用数字信号处理器(General Purpose Digital Signal Processor，DSP)领域，特指一种适用于通用数字信号处理器中直接存储访问(Direct Memory Access，DMA)部件的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法。

背景技术

现有技术中，有从业者提出了一种“通用计算数字信号处理器(GPDSP)”，其公开了一种既能保持嵌入式DSP基本特征和高性能低功耗的优势，又能高效支持通用科学计算的新型体系结构——多核微处理器GPDSP。GPDSP将嵌入式信号处理与通用科学计算相结合，既保持DSP嵌入式信号处理中的高度实时计算和低功耗的优点，又实现对通用科学计算的精度和通用性的支持。GPDSP提供了对64位运算的支持，可以实现对计算精度和寻址空间的大幅提升；GPDSP对操作系统进行了多层次支持，明显提高了GPDSP对任务管理、文件控制、进程调度、中断管理的软硬件支持，方便了通用任务调度操作。与此同时，多层次的支持方案也带来了硬件实现的灵活性；该方案也提出了面向“CPU+DSP”的统一并行编程方法，利于增强高级语言编程，特别是对多核、向量运算阵列等并行资源的开发效率，利于增强GPDSP通用性和易用性，利于扩展GPDSP可支持的应用范围。

尽管GPDSP具备上述显著优点，但是性能的提高是微处理器发展中永恒不变的主题。随着GPDSP性能的不断提高，单位时间内能处理的数据量越来越多，而“存储墙”问题限制了内核数据量的供给速度。为了防止内核处于“饥饿”状态，需采用后台执行的直接存储访问部件DMA操作完成数据搬移。这样可以在内核进行运算的同时进行数据搬移，隐藏部分或大部数据搬移时间。

当前存在一些关键应用程序需要使用大量矩阵转置操作，这些应用程序包括图形图像和视频处理领域中的滑窗类算法，科学计算领域中的HPL(High Performance Linpack)测试集，和信号处理领域的傅里叶变换及离散傅里叶变换等。为了提高这些关键应用程序的运行速度，要求直接存储访问部件DMA在后台搬移数据的同时能完成矩阵转置操作，这样当内核在进行运算时，无需再次对矩阵进行转置操作，从而显著提升运算的性能。

现有的直接存储访问部件DMA设计在支持矩阵转置传输时存在较大局限，它们一般要求矩阵转置的数据粒度与直接存储访问部件DMA的带宽相同，以便独立控制每个返回数据生成它们的写地址。这种方式实现的矩阵转置操作一次只能处理单位粒度的数据，在直接存储访问部件DMA的数据带宽远大于矩阵数据粒度的情况下，传输效率十分低下。同时，由于写地址的生成只能是按读请求发出的顺序进行，所以此种方案只能保证数据顺序返回情况下的正确性，在读请求的数据在乱序返回时，该方法不能完成矩阵转置操作。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理清晰、工作可靠、适用范围广、能提高效率、具有较佳灵活性的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法。

为解决上述技术问题，本发明采用以下技术方案：

一种用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，在直接存储访问部件DMA的内部设有深度为Y、宽度为Y*N bits的矩阵转置寄存器，当直接存储访问部件DMA进行矩阵转置传输时，发出的读请求中包含返回数据应写入到矩阵转置寄存器中的行位置信息，形成矩阵转置寄存器写地址；当直接存储访问部件DMA接受到返回数据后，根据矩阵转置寄存器写地址将数据写入矩阵转置寄存器的相应行；当矩阵转置寄存器按配置的数据粒度要求被写满后，数据从矩阵转置寄存器中以列的方式读出，并依据已配置的传输参数信息计算出写地址，完成矩阵转置的操作；在上述过程中，所述矩阵转置寄存器为两个，在上一个矩阵转置寄存器进行读操作时，开始进行下一个矩阵转置寄存器的写操作，将两次连续矩阵转置的读写矩阵转置寄存器操作并行处理。

作为本发明的进一步改进：当传输的矩阵数据粒度为N bits时，在上一批次Y个读请求的数据全部返回到矩阵转置寄存器中的一个后，即发出下一批次的Y个读请求，新的返回数据写入另一个矩阵转置寄存器。

作为本发明的进一步改进：所述传输的具体流程为：

S1：配置直接存储访问部件DMA的传输参数；

S2：直接存储访问部件DMA传输启动；若为矩阵转置传输模式，则直接存储访问部件DMA发出第一批次的矩阵转置的读请求；

S3：当读数据从目标存储返回后，直接存储访问部件DMA将其写入第一矩阵转置寄存器MTR0；

S4：当第一矩阵转置寄存器MTR0被写满后，数据被按列读出，同时直接存储访问部件DMA发出下一批矩阵转置的读请求，这些读请求的返回数据返回到第二矩阵转置寄存器MTR1；

S5：当第二矩阵转置寄存器MRT1写满后，以按列读出方式取出其中的数据，同时直接存储访问部件DMA再发出矩阵转置读请求，这些数据返回到第一矩阵转置寄存器MTR0；

S6：循环上述步骤S2～S5，按照上述规律进行传输，直到数据全部传输完成。

作为本发明的进一步改进：所述步骤S1中，所述传输参数包括传输模式、传输数据规模、源地址和目的地址信息。

作为本发明的进一步改进：所述步骤S2中，每个所述读请求包含一个矩阵转置标识信号和用来指示返回数据应写入到矩阵转置寄存器中的位置信息，即转置寄存器写地址。

作为本发明的进一步改进：在所述步骤S2～S5中，通过控制信号Sel对第一矩阵转置寄存器MTR0和第二矩阵转置寄存器MTR1进行选择；在进行矩阵转置前，第一矩阵转置寄存器MTR0的控制状态机STATE₀处于IDLE₀状态，第二矩阵转置寄存器MTR1的状态机STATE₁处于IDLE₁状态，Sel信号为0；当数据有效信号Data_Ready到达时，由于Sel＝0，STATE₀转换到Wrt₀状态，对第一矩阵转置寄存器MTR0进行写操作；当写满后，Sel信号转为1，STATE₀转换到Rd₀状态；当读完第一矩阵转置寄存器MTR0后，STATE₀自动转换到IDLE₀状态；在第一矩阵转置寄存器MTR0进行读操作的同时，由于Sel＝1，当下次Data_Ready到达时，STATE₁转换到Wrt₁状态，对第二矩阵转置寄存器MTR1进行写操作，写操作完后Sel信号转为0，STATE₁转换到Rd₁状态；读操作完后，STATE₁自动转换到IDLE₁状态。

与现有技术相比，本发明的优点在于：本发明的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，为数据返回乱序情况下的矩阵转置给出了一种合理的解决方法；整体上具有实现结构简单紧凑、原理清晰、工作可靠、适用范围广、用户编程简单等优点，在应用时对配置的DMA参数信息不需要进行复杂的计算，通过采用乒乓机制，大大提高了矩阵转置传输的效率，同时传输数据粒度可配置，因此可以支持N bits和2*N bits两种粒度，具有较高的灵活性。综上所述，本发明能在DMA传输过程中快速完成乱序返回数据的矩阵转置操作，有利于提高整个芯片的计算性能。

附图说明

图1是本发明方法在具体应用中的流程示意图。

图2是本发明在具体实施例中采用64bits数据粒度时转置寄存器写入过程示意图。

图3是本发明在具体实施例中采用64bits数据粒度时转置寄存器读出过程示意图。

图4是本发明在具体实施例中采用128bits数据粒度时转置寄存器写入过程示意图。

图5是本发明在具体实施例中采用128bits数据粒度时转置寄存器读出过程示意图。

图6是本发明在具体实施例中采用乒乓缓存机制的实现状态示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

本发明的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，其矩阵转置的数据粒度可以进行配置，支持N bits和2*N bits两种数据粒度。

为了完成数据乱序返回情况下的矩阵转置操作，本发明在直接存储访问部件DMA(DirectMemory Access，DMA)的内部设有深度为Y、宽度为Y*N bits的矩阵转置寄存器(DMA的数据带宽为Y*N bits)。

当直接存储访问部件DMA进行矩阵转置传输时，发出的读请求中包含返回数据应写入到矩阵转置寄存器中的行位置信息，即矩阵转置寄存器写地址WrtMTRAddr。当直接存储访问部件DMA接受到返回数据后，根据矩阵转置寄存器写地址WrtMTRAddr将数据写入矩阵转置寄存器的相应行。

当矩阵转置寄存器按配置的数据粒度要求被写满后，数据从矩阵转置寄存器中以列的方式读出，并发给地址生成模块。地址生成模块依据已配置的传输参数信息计算出写地址，完成矩阵转置的操作。

为了使直接存储访问部件DMA读请求的数据在乱序返回情况下能正确地写入矩阵转置寄存器，假设配置传输数据粒度为N bits，则直接存储访问部件DMA发出Y个读请求后，必须等到对应的Y个请求数据都按行写入转置寄存器，且全部按列读出直接存储访问部件DMA后，才能发出下Y个读请求。这种实现方式会影响到DMA矩阵转置传输的效率。

为了提高传输效率，本发明进一步引入了乒乓缓存机制。具体是指：使用了两套矩阵转置寄存器，支持在上一个矩阵转置寄存器进行读操作时，开始进行下一个矩阵转置寄存器的写操作，这可将两次连续矩阵转置的读写矩阵转置寄存器操作并行处理。具体而言，当传输的矩阵数据粒度为N bits时，当上一批次Y个读请求的数据全部返回到矩阵转置寄存器A后，即可发出下一批次的Y个读请求，新的返回数据写入矩阵转置寄存器B，这样可以使矩阵转置的效率提高一倍。

本发明在具体应用实例中，直接存储访问部件DMA的数据带宽为512bits，支持的矩阵转置传输粒度有64bits和128bits两种。本发明的矩阵转置寄存器(MTR)共有两个，分别是第一矩阵转置寄存器MTR0和第二矩阵转置寄存器MTR1，单个矩阵转置寄存器的深度为8，宽度为512bits。换言之，矩阵转置传输的数据粒度可配置，支持N bits和2N bits两种粒度。当矩阵转置的传输粒度配置为N bits时，DMA一次发出Y个读请求，当Y个读请求的数据全部返回给矩阵转置寄存器后，从低位的N列开始，取出每行的相同N列的数据组成宽度为DMA数据带宽Y*N bits的新数据，即转置后的数据。传输粒度为2N bits时，DMA一次发出Y/2个读请求，当Y/2个读请求的数据全部返回给矩阵转置寄存器后，从低位的2N列开始，取出每行的相同2N列的数据组成宽度为DMA数据带宽(Y/2)*2N bits的新数据，即转置后的数据。

如图1所示，本发明在具体应用时的详细流程为：

S1：配置直接存储访问部件DMA的传输参数；所述传输参数包括传输模式、传输数据规模、源地址和目的地址等信息。

S2：直接存储访问部件DMA传输启动；若为矩阵转置传输模式，则直接存储访问部件DMA发出第一批次的矩阵转置的读请求；每个读请求包含一个矩阵转置标识信号和用来指示返回数据应写入到转置寄存器中的位置信息——转置寄存器写地址。

S4：当第一矩阵转置寄存器MTR0被写满后，数据被按列读出，同时直接存储访问部件DMA发出下一批矩阵转置的读请求，这些读请求的返回数据返回到第二矩阵转置寄存器MTR1。

S5：当第二矩阵转置寄存器MRT1写满后，以按列读出方式取出其中的数据，同时直接存储访问部件DMA再发出矩阵转置读请求，这些数据返回到第一矩阵转置寄存器MTR0。

如图2所示，为在一个具体应用实例中以64bits数据粒度时转置寄存器写入过程的示意图。当直接存储访问部件DMA收到矩阵转置传输的读返回数据后，根据携带的转置寄存器写地址把数据写入到转置寄存器的相应行。受转置寄存器大小的限制，当配置数据粒度为64bits时，8个读返回数据可以将转置寄存器写满，因此，直接存储访问部件DMA一批次只发出8个读请求。

如图3所示，为在上述实施例中以64bits数据粒度时转置寄存器读出过程的示意图。当返回数据将转置寄存器写满后，直接存储访问部件DMA开始以按列读出方式取出其中的数据。首先取出转置寄存器每行的第0列，前面行的数据放在新组成的数据的低位，第7行第0列的数据取出放在新数据的最高位。下面的公式给出了64bits数据粒度时的矩阵转置过程，矩阵A的规模为8x8，单元数据粒度为64bits，它按照图2所述的方式写入转置寄存器。经过图3所述的方式读出转置寄存器后得到的矩阵是A^T矩阵。从矩阵A和A^T的组成示意图中可以看出矩阵A^T是矩阵A的转置矩阵。

A = [\begin{matrix} E_{0,7} & E_{0,6} & \cdot \cdot \cdot & E_{0,1} & E_{0,0} \\ E_{1,7} & E_{1,6} & \cdot \cdot \cdot & E_{1,1} & E_{1,0} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ E_{6,7} & E_{6,6} & \cdot \cdot \cdot & E_{6,1} & E_{6,0} \\ E_{7,7} & E_{7,6} & \cdot \cdot \cdot & E_{7,1} & E_{7,0} \end{matrix}],

A^{T} = [\begin{matrix} E_{7,0} & E_{6,0} & \cdot \cdot \cdot & E_{1,0} & E_{0,0} \\ E_{7,1} & E_{6,1} & \cdot \cdot \cdot & E_{1,1} & E_{0,1} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ E_{7,6} & E_{6,6} & \cdot \cdot \cdot & E_{1,6} & E_{0,6} \\ E_{7,7} & E_{6,7} & \cdot \cdot \cdot & E_{1,7} & E_{0,7} \end{matrix}]

如图4所示，为在另外一个实施例中以128bits数据粒度时转置寄存器写入过程的示意图。当直接存储访问部件DMA收到读返回数据后，根据转置寄存器写地址将数据写入转置寄存器的相应行。转置寄存器每行为512bits，只能存储4个128bits大小的数据单元。也就是说，进行128bits粒度矩阵转置时，单元矩阵的每行只有4列数据，因此，单元矩阵也只需包含4行数据，此时直接存储访问部件DMA一批次只发出4个读请求。

如图5所示，为在上述实施例中以128bits数据粒度时转置寄存器读出过程的示意图。当读请求数据全部返回转置寄存器后，直接存储访问部件DMA开始以按列读出方式取出其中的数据。首先取出第0行的第0列和第1列的数据放置在新组成的数据的低128位，前面行的数据放在新组成的数据的低位，第4行的第0列和第1列的数据放在新数据的最高128位。下面的公式给出了64bits数据粒度时的矩阵转置过程，矩阵B的规模为4x4，数据单元大小为128bits，每个数据单元由两个相邻的64bits的E_i,jE_i,j-1组成，它按照图4所述的方式写入转置寄存器。经过图5所述的方式读出转置寄存器后得到的矩阵是B^T，显然，矩阵B^T是矩阵B的转置矩阵。

B = [\begin{matrix} E_{0,7} E_{0,6} & E_{0,5} E_{0,4} & E_{0,3} E_{0,2} & E_{0,1} E_{0,0} \\ E_{1,7} E_{1,6} & E_{1,5} E_{1,4} & E_{1,3} E_{1,2} & E_{1,1} E_{1,0} \\ E_{2,7} E_{2,6} & E_{2,5} E_{2,4} & E_{2,3} E_{2,2} & E_{2,1} E_{2,0} \\ E_{3,7} E_{3,6} & E_{3,5} E_{3,4} & E_{3,3} E_{3,2} & E_{3,1} E_{3,0} \end{matrix}],

B^{T} = [\begin{matrix} E_{3,1} E_{3,0} & E_{2,1} E_{2,0} & E_{1,1} E_{1,0} & E_{0,1} E_{0,0} \\ E_{3,3} E_{3,2} & E_{2,3} E_{2,2} & E_{1,3} E_{1,2} & E_{0,3} E_{0,2} \\ E_{3,5} E_{3,4} & E_{2,5} E_{2,4} & E_{1,5} E_{1,4} & E_{0,5} E_{0,4} \\ E_{3,7} E_{3,6} & E_{2,7} E_{2,6} & E_{1,7} E_{1,6} & E_{0,7} E_{0,6} \end{matrix}]

如图6所示，是本发明所采用的乒乓缓存机制实现时的状态示意图。其中，控制信号Sel对两套转置寄存器(第一矩阵转置寄存器MTR0和第二矩阵转置寄存器MTR1)进行选择。在进行矩阵转置前，第一矩阵转置寄存器MTR0的控制状态机STATE₀处于IDLE₀状态，第二矩阵转置寄存器MTR1的状态机STATE₁处于IDLE₁状态，Sel信号为0。当数据有效信号Data_Ready到达时，由于Sel＝0，故STATE₀转换到Wrt₀状态，对第一矩阵转置寄存器MTR0进行写操作。当写满8行(64bits数据粒度)或4行(128bits数据粒度)后，Sel信号转为1，STATE₀转换到Rd₀状态。当读完第一矩阵转置寄存器MTR0的8行(64bits粒度)或4行(128bits粒度)后，STATE₀自动转换到IDLE₀状态。在第一矩阵转置寄存器MTR0进行读操作的同时，由于Sel＝1，当下次Data_Ready到达时，STATE₁转换到Wrt₁状态，对第二矩阵转置寄存器MTR1进行写操作，写操作完后Sel信号转为0，STATE₁转换到Rd₁状态。读操作完后，STATE₁自动转换到IDLE₁状态。这样就实现了乒乓缓存机制，在第一矩阵转置寄存器MTR0进行读操作时，对第二矩阵转置寄存器MTR1进行写操作，反之，在对第二矩阵转置寄存器MTR1进行读操作时，对第一矩阵转置寄存器MTR0进行写操作。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，其特征在于，在直接存储访问部件DMA的内部设有深度为Y、宽度为Y*N bits的矩阵转置寄存器，当直接存储访问部件DMA进行矩阵转置传输时，发出的读请求中包含返回数据应写入到矩阵转置寄存器中的行位置信息，形成矩阵转置寄存器写地址；当直接存储访问部件DMA接受到返回数据后，根据矩阵转置寄存器写地址将数据写入矩阵转置寄存器的相应行；当矩阵转置寄存器按配置的数据粒度要求被写满后，数据从矩阵转置寄存器中以列的方式读出，并依据已配置的传输参数信息计算出写地址，完成矩阵转置的操作；在上述过程中，所述矩阵转置寄存器为两个，在上一个矩阵转置寄存器进行读操作时，开始进行下一个矩阵转置寄存器的写操作，将两次连续矩阵转置的读写矩阵转置寄存器操作并行处理。

2.根据权利要求1所述的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，其特征在于，当传输的矩阵数据粒度为N bits时，在上一批次Y个读请求的数据全部返回到矩阵转置寄存器中的一个后，即发出下一批次的Y个读请求，新的返回数据写入另一个矩阵转置寄存器。

3.根据权利要求1或2所述的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，其特征在于，所述传输的具体流程为：

S1：配置直接存储访问部件DMA的传输参数；

4.根据权利要3所述的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，其特征在于，所述步骤S1中，所述传输参数包括传输模式、传输数据规模、源地址和目的地址信息。

5.根据权利要3所述的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，其特征在于，所述步骤S2中，每个所述读请求包含一个矩阵转置标识信号和用来指示返回数据应写入到矩阵转置寄存器中的位置信息，即转置寄存器写地址。

6.根据权利要3所述的用于GPDSP的基于乒乓机制支持数据乱序返回的DMA矩阵转置传输方法，其特征在于，在所述步骤S2～S5中，通过控制信号Sel对第一矩阵转置寄存器MTR0和第二矩阵转置寄存器MTR1进行选择；在进行矩阵转置前，第一矩阵转置寄存器MTR0的控制状态机STATE₀处于IDLE₀状态，第二矩阵转置寄存器MTR1的状态机STATE₁处于IDLE₁状态，Sel信号为0；当数据有效信号Data_Ready到达时，由于Sel＝0，STATE₀转换到Wrt₀状态，对第一矩阵转置寄存器MTR0进行写操作；当写满后，Sel信号转为1，STATE₀转换到Rd₀状态；当读完第一矩阵转置寄存器MTR0后，STATE₀自动转换到IDLE₀状态；在第一矩阵转置寄存器MTR0进行读操作的同时，由于Sel＝1，当下次Data_Ready到达时，STATE₁转换到Wrt₁状态，对第二矩阵转置寄存器MTR1进行写操作，写操作完后Sel信号转为0，STATE₁转换到Rd₁状态；读操作完后，STATE₁自动转换到IDLE₁状态。