CN110781447A

CN110781447A - 一种基于ddr的高效率矩阵转置处理方法

Info

Publication number: CN110781447A
Application number: CN201910996540.2A
Authority: CN
Inventors: 张为; 李欣桐
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-19
Filing date: 2019-10-19
Publication date: 2020-02-11
Anticipated expiration: 2039-10-19
Also published as: CN110781447B

Abstract

本发明公开了一种基于DDR的高效率矩阵转置处理方法，为DDR3 SDRAM的IP核搭配一个写RAM和一个读RAM；待转置的矩阵是单个数据64bit的128*128的矩阵，将该待转置矩阵每一行的数据为一个小矩阵；在写操作过程中每1个active信号写16个数据；在读操作过程中每1个active信号读8*16个数据；在DDR中按同一行间且数据循环跳读的规则读出，以尽可能地降低行active信号的出现。本发明解决了大阶数矩阵转置由于DDR SDRAM的跳行访问而造成系统整体处理速率下降的问题。通过矩阵分块技术，在小幅度降低写速率的基础上，大幅提升读速率，使矩阵转置时DDR的读写速率得以均衡，从而提高DDR读写的平均效率。

Description

一种基于DDR的高效率矩阵转置处理方法

技术领域

本发明属于雷达成像技术中数据转置领域，涉及一种针对于雷达成像过程中对较大数据量进行快速转置的处理方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar,SAR)是一种具有高分辨率成像效果的雷达，与传统雷达相比，SAR具有全天候，全天时，可穿透遮挡物的优势。在环境检测、地形侦察、目标识别等领域具有重要作用。SAR主要搭载在三种工作平台上，分别是机载、星载、弹载三种。通过对回波信号进行算法处理，可以获得聚焦后的SAR图像。以往的SAR成像系统不但构成复杂，制造成本很高，而且还有着较大的重量和体积。如今随着国外无人机、轻小型飞行器的快速发展，微型SAR成像处理受到了广泛关注。由于SAR的回波信号需要处理大量的数据，所以对数据的快速传输，处理提出了更高的要求。在SAR的回波数据处理流程中，傅里叶变换FFT和转置是应用较为频繁的两种基本操作。

微型SAR成像处理的需求，也就是对FPGA或是ASIC的需求，相比于ASIC的专用性所带来的高速高效，FPGA在这方面可能相对不足。然而一个专业的ASIC的开发周期较长，并且随着更新换代只能整体更换。FPGA的优势在于其编程开发的灵活性与升级算法的及时性。

通常来说，传统的转置方法在软件部分实现起来是十分简单的，它的优化也是易于完成。但在硬件中实现转置，如果不使用一些特殊的方法，会使得转置的过程变得漫长，并且会导致资源占用率较高。这对于有着大数据量待处理的SAR实时成像系统来说是不能接受的。所以国内的研究者在这方面也进行了研究，并且取得了一定的成果。在FPGA平台上使用搭载的DDR3SDRAM核，来实现数据的大容量的高速传输，并在传输的过程中完成转置。通过DDR系列双倍速率读写的特点，对这种转置方法进行研究，将极大地提高SAR整体的处理效率。SAR实时成像系统中实现矩阵转置的算法主要有：行进列出(如图1所示)、列进行出、流水平衡、分块等方法。常规的行进列出或是列进行出的方法会由于DDR内部行激活时间的存在，在跳读的时候会使得速率大大降低。

在之前的研究中，2013年，Zhou等人采用地址映射算法，结合大矩阵分子块的思路，并使用DDR换页存数据的思路，按同距离向和同方位向两种方法，对矩阵进行存储，在读出的过程通过偏移地址的表述计算，完成转置工作；2017年，Wu等人提出了分块转置方法的基本模型，即将128*128的标准方阵，分为16*8的小矩阵，使用分组写入，循环跳读读出的方式，在保证写入效率的情况下，提高了读出效率，使得DDR3的读写效率得到了一定的平衡，在这个思路下，提高了转置的整体效率。

发明内容

在FPGA上运行SAR实时成像系统时，使用常规转置方法在对大量数据进行转置的过程中，由于DDR所具有的行激活active信号所引起的读取效率低下的问题，同时为了对矩阵转置后的结果进行正确性验证，引入64bit的校验位。本发明提出一种基于DDR的高效率矩阵转置处理方法，

为了解决上述技术问题，本发明提出的一种基于DDR的高效率矩阵转置处理方法，使用DDR3SDRAM的IP核，为该IP核搭配一个写RAM和一个读RAM，并包括：

步骤一、待转置的矩阵是单个数据64bit的128*128的矩阵，将该待转置矩阵分为128个8*16的小矩阵，即每一行的数据构成了一个小矩阵；

步骤二、在写操作过程中每1个active信号写16个数据；

步骤三、在读操作过程中每1个active信号读8*16个数据；在读出时，通过控制器调控地址，在DDR中按同一行间且数据循环跳读的规则读出，以尽可能地降低行active信号的出现。

进一步讲，本发明矩阵转置处理方法的步骤二中，数据进入写RAM，当写RAM的写入全部完成后，开始DDR的数据写入，DDR的地址总线按照突发长度递增，其中地址位变化是对写RAM的读出地址位的变化；在写RAM中，每完成16个数据的读出，就切换到下一行，继续读对应的16个数据；按以上逻辑每完成8行数据的读取是一个小循环；然后，返回至这8行中的第一行，开始下一组16个数据的读取，依次执行以上逻辑，直到当前8行的数据全部完成读取之后，开始下一组8行数据的读出，循环操作，每完成8组数据的读取是一个大循环；按以上的大循环与小循环，最终完成16个大组的数据读取，每个大组中包含8个小组。

本发明的矩阵转置处理方法步骤三中，DDR中每行单次跳读8个数据，即在读RAM中这8个数据的地址按顺序递增，DDR中每行共读出16次；读出方式为：在一行中每读出一个数据就跳到下一个小块的对应位置，即越过中间间隔的15个数据；当读出本次循环的第8个数据之后，DDR的地址指针指向本行第一个小块中，尚未读出的首位数据的对应地址，重复之前的单行循环逻辑，在此同时，读RAM的地址指针指向下一行的对应位置；之后，重复以上过程，直到第16次循环完成后，DDR的地址位切换至下一行的首位，RAM中的地址指针指向下一行的对应位置；重复之前的所有步骤，直至DDR中读出8行数据之后，将RAM中的地址指针循环回矩阵第一行的对应位置；在这样的逻辑循环下，不断地重复之前的循环过程，直到DDR中数据读出完毕。

在数据全部写入读RAM后，读状态结束，可以用控制器进行数据校验，通过利用对角线在转置中不发生变化的特点，与待校验的两个数据进行高64位的作差，若对角线数据的校验位与其中一个数据的校验位的差值等于另一个数据的校验位，则这两个数据处于正确位置；并将校验结果输出至寄存器，正确为1，错误为0；可以在之后的报告中很方便地检查出来。

与现有技术相比，本发明的有益效果是：

本发明解决了可编程门阵列(Field Programmable Gate Array，FPGA)作为主处理芯片实现雷达信号处理时，大阶数矩阵转置由于双倍速率同步动态随机存储器(DoubleData Rate SDRAM,DDR SDRAM)的跳行访问而造成系统整体处理速率下降的问题。通过矩阵分块技术，在小幅度降低写速率的基础上，大幅提升读速率，使矩阵转置时DDR的读写速率得以均衡，从而提高DDR读写的平均效率。

附图说明

图1是常规矩阵转置的DDR3读写顺序；

图2是本发明实施例中分块式转置的工作流程；

图3是本发明实施例分块式DDR3矩阵转置写顺序；

图4是本发明分块式DDR3矩阵转置读顺序。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

本发明提出的一种基于DDR的高效率矩阵转置处理方法，使用DDR3SDRAM的IP核，为该IP核搭配一个写RAM和一个读RAM；待转置的矩阵是单个数据64bit的128*128的矩阵，将该待转置矩阵分为128个8*16的小矩阵，即每一行的数据构成了一个小矩阵；在写操作过程中每1个active信号写16个数据；在读操作过程中每1个active信号读8*16个数据；在读出时，通过控制器调控地址，在DDR中按同一行间且数据循环跳读的规则读出，以尽可能地降低行active信号的出现。

本发明的矩阵转置处理方法的工作流程如图2所示，下面结合图2进行具体描述。

(1)通过拼接的方式对原始数据进行拼接，将数据统计模块统计出的数据编号，制作成64bit的顺序数列。将每个数据对应的顺序数与数据拼接在一起，组合成128bit的待传输数据。添加64bit的顺序数列的意义在于，在矩阵转置完成后，由于数据量较多，不便于验证转置的正确性。通过对这64bit的校验位进行逻辑验证，较为快速、便捷地实现整个模块准确性的验证。当模块第一次验证通过后，可以取消校验这一步，使得整个使用流程更加的简洁，高效。

(2)完成校验位的拼接之后，数据会进入写RAM，当写RAM的写入全部完成后，可以开始DDR的数据写入。从写RAM读出到DDR的过程中，DDR的地址总线只需要不断地按照突发长度递增即可。主要的地址位变化还是对写RAM的读出地址位的变化。在写RAM中，每完成16个数据的读出，就切换到下一行，继续读对应的16个数据。按以上逻辑每完成8行，循环回这8行中的第一行，开始下一组16个数据的读取。依次执行以上逻辑，直到当前8行的数据全部完成读取之后，开始下一组8行数据的读出，不断循环操作。按以上的大循环与小循环，最终会有16个大组，每个大组中包含8个小组，这就对应了之前的对128*128矩阵分成16*8的分块策略。

(3)在等待数据完全写入之后，写状态就结束了，给出写完成的信号，DDR控制器会将DDR切换至读状态。在读状态中，由于本发明一方面考虑极大减少行active信号的出现，所以DDR的读出过程中，要尽量避免频繁的行变换。DDR中每行单次跳读8个数据，即在读RAM中这8个数据的地址按顺序递增，DDR中每行共读出16次；读出方式为：在一行中每读出一个数据就跳到下一个小块的对应位置，即越过中间间隔的15个数据；当读出本次循环的第8个数据之后，DDR的地址指针指向本行第一个小块中，尚未读出的首位数据的对应地址，重复之前的单行循环逻辑，在此同时，读RAM的地址指针指向下一行的对应位置；之后，重复以上过程，直到第16次循环完成后，DDR的地址位切换至下一行的首位，RAM中的地址指针指向下一行的对应位置；重复之前的所有步骤，直至DDR中读出8行数据之后，将RAM中的地址指针循环回矩阵第一行的对应位置；在这样的逻辑循环下，不断地重复之前的循环过程，直到DDR中数据读出完毕。

(4)在数据全部写入读RAM后，读状态结束，控制器进行数据校验。通过利用对角线在转置中不发生变化的特点，与待校验的两个数据进行高64位的作差。若对角线数据的校验位与其中一个数据的校验位的差值等于另一个数据的校验位，则说明这两个数据处于正确位置。并将校验结果输出至寄存器，正确为1，错误为0。这样对于错误位也可以在之后的报告中很方便的检查出来。

研究材料：

将使用的Xilinx公司的Kintex7系列的开发板，搭载了DDR3SDRAM的IP核，为该IP核，搭配一个写RAM和一个读RAM。

(1)为了将待转置矩阵分为128个8*16的小矩阵，每一行的数据构成一个小矩阵；首先，原始数据通过拼接模块，将64bit的计数前缀拼接在64bit原始数据的高地址位。内置一个简单计数模块，每完成一次拼接加1即可。目的是对数据进行编码，方便在转置完成之后，对转置的正确性进行矫正。

(2)之后，数据进入到写RAM中，由控制器模块控制写RAM的读出地址，DDR中的地址按突发长度为8为例。在这一步中DDR中的地址依次加8bit；配合图3，写RAM的读出地址按照如下规则变化：

a.每递增16个地址位，即每输出16个数据，地址位先归0，再加128*n。这一步换算至矩阵中，相当于将地址指针指向了下一行的首位，在这其中，n表示处于第几次大循环，整个写入过程共有16个大循环。

b.当第8行中对应的16个数读出完成之后，再次将地址位归0，加16*n，这一步换算至矩阵中，相当于将地址指针从第8行拉回至第1行，从当前大组的第二行第一个数开始。

之后，重复步骤a，b，以此类推，直至将1个大组写完之后，n+1，将地址位归0，加128*8*(n-1)＝1024*(n-1)，从下一大组第一行开始，重复步骤a,b，此为步骤c。之后，重复进行a,b,c三个步骤，直到将整个矩阵由写RAM到DDR写入完成。

(3)在数据写入完成之后，紧接着就是从DDR读出的过程。在这个读出的过程中，结合图4，DDR中的地址与读RAM中的写入地址按如下规则变化：

a.DDR中每读出1个数，对DDR的地址位加128，RAM的地址位依次加1；

b.每执行步骤a 7次，将DDR中的地址位归0，加8*n，在此处，n表示完成步骤a的次数；同时，将RAM中的地址位归0，加128*n，切换至下一行。之后，将n归0，重复步骤a,b。

c.每执行步骤b 15次，将DDR中的地址位归0，加1024*m，在此处，m表示DDR完成了m行的数据读取，即每完成步骤b 15次，m+1；在RAM中，将地址位归0，加2048*m。之后，重复步骤a,b,c。

d.每执行步骤c 7次，将DDR中的地址位归0，加8196*p，在此处，p表示DDR完成了p个大组的数据读取，即每完成步骤c 7次，p+1；在RAM中，将地址位归0，加8*p。之后，重复步骤a,b,c，直到完成所有数据的读取。

(4)在转置完成之后，对数据排列的正确性进行校验。核心思想遵循：设i>j，i表示待转置矩阵的行，j表示待转置矩阵的列，判断(i,i)-(j,i)是否与(i,j)的高64位相等，并将比较结果存入一个15bit的寄存器，低14位代表地址，第15位代表是否相等，如果相等，说明转置正确，并将其置1，反之置0。判断完成后，再将拼接的高64位校验位去掉即可。这一步的目的主要是验证转置的函数在设计过程中是否存在缺陷，以确保逻辑的正确性。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于DDR的高效率矩阵转置处理方法，使用DDR3 SDRAM的IP核，其特征在于，为所述IP核搭配一个写RAM和一个读RAM，并包括以下步骤：

步骤二、在写操作过程中每1个active信号写16个数据；

2.根据权利要求1所述的基于DDR的高效率矩阵转置处理方法，其特征在于，步骤二中，数据进入写RAM，当写RAM的写入全部完成后，开始DDR的数据写入；

从写RAM读出到DDR的过程中，DDR的地址总线按照突发长度递增，其中地址位变化是对写RAM的读出地址位的变化；在写RAM中，每完成16个数据的读出，就切换到下一行，继续读对应的16个数据；按以上逻辑每完成8行数据的读取是一个小循环；然后，返回至这8行中的第一行，开始下一组16个数据的读取，依次执行以上逻辑，直到当前8行的数据全部完成读取之后，开始下一组8行数据的读出，循环操作，每完成8组数据的读取是一个大循环；按以上的大循环与小循环，最终完成16个大组的数据读取，每个大组中包含8个小组。

3.根据权利要求2所述的基于DDR的高效率矩阵转置处理方法，其特征在于，DDR中的地址按突发长度为8，DDR的数据写入的具体过程如下：

A)写RAM中每递增16个地址位，即每输出16个数据，地址位先归0，再加128*n；换算至矩阵中，相当于将地址指针指向了下一行的首位，n表示处于第几次大循环，整个写入过程包括16个大循环；

B)当第8行中对应的16个数读出完成之后，再次将地址位归0，加16*n，换算至矩阵中，相当于将地址指针从第8行拉回至第1行，从当前大组的第二行第一个数开始；

C)重复上述步骤A)至步骤B)，直至将1个大组写完；

D)n+1，将地址位归0，加128*8*(n-1)＝1024*(n-1)，从下一大组第一行开始，重复步骤步骤A)至步骤B)；直至将整个矩阵由写RAM到DDR的写入完成。

4.根据权利要求1所述的基于DDR的高效率矩阵转置处理方法，其特征在于，步骤三中，DDR中每行单次跳读8个数据，即在读RAM中这8个数据的地址按顺序递增，DDR中每行共读出16次；读出方式为：在一行中每读出一个数据就跳到下一个小块的对应位置，即越过中间间隔的15个数据；当读出本次循环的第8个数据之后，DDR的地址指针指向本行第一个小块中，尚未读出的首位数据的对应地址，重复之前的单行循环逻辑，在此同时，读RAM的地址指针指向下一行的对应位置；之后，重复以上过程，直到第16次循环完成后，DDR的地址位切换至下一行的首位，RAM中的地址指针指向下一行的对应位置；重复之前的所有步骤，直至DDR中读出8行数据之后，将RAM中的地址指针循环回矩阵第一行的对应位置；在这样的逻辑循环下，不断地重复之前的循环过程，直到DDR中数据读出完毕。

5.根据权利要求4所述的基于DDR的高效率矩阵转置处理方法，其特征在于，DDR中的地址按突发长度为8，从DDR读出的具体过程如下，

A)DDR中每读出1个数，对DDR的地址位加128，读RAM的地址位依次加1；

B)每执行步骤A)7次，将DDR中的地址位归0，加8*n，在此处，n表示完成步骤A)的次数；同时，将读RAM中的地址位归0，加128*n，切换至下一行；之后，将n归0，重复步骤A)至步骤B)；

C)每执行步骤B15次，将DDR中的地址位归0，加1024*m，m表示DDR完成了m行的数据读取，即每完成步骤B15次，m+1；

在RAM中，将地址位归0，加2048*m；之后，重复步骤A)至步骤B)；

D)每执行步骤C 7次，将DDR中的地址位归0，加8196*p，p表示DDR完成了p个大组的数据读取，即每完成步骤C)7次，p+1；在读RAM中，将地址位归0，加8*p；之后，重复步骤A)、步骤B)和步骤C)，直到完成所有数据的读取。

6.根据权利要求1所述的基于DDR的高效率矩阵转置处理方法，其特征在于，在数据全部写入读RAM后，读状态结束，控制器进行数据校验。

7.根据权利要求6所述的基于DDR的高效率矩阵转置处理方法，其特征在于，控制器进行数据校验的过程是：

通过利用对角线在转置中不发生变化的特点，与待校验的两个数据进行高64位的作差，若对角线数据的校验位与其中一个数据的校验位的差值等于另一个数据的校验位，则这两个数据处于正确位置；并将校验结果输出至寄存器，正确为1，错误为0。

8.根据权利要求7所述的基于DDR的高效率矩阵转置处理方法，其特征在于，DDR中的地址按突发长度为8；设i>j,i表示待转置矩阵的行，j表示待转置矩阵的列，判断(i,i)-(j,i)是否与(i,j)的高64位相等，并将比较结果存入一个15bit的寄存器，低14位代表地址，第15位代表是否相等，如果相等，说明转置正确，并将该比较结果置1，反之置0。