CN102012802B

CN102012802B - 面向向量处理器数据交换的方法及装置

Info

Publication number: CN102012802B
Application number: CN 201010559387
Authority: CN
Inventors: 陈书明; 张凯; 陈海燕; 万江华; 孙永节; 彭元喜; 刘胜; 刘蓬侠; 胡春媚; 唐涛
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2010-11-25
Filing date: 2010-11-25
Publication date: 2013-01-16
Anticipated expiration: 2030-11-25
Also published as: CN102012802A

Abstract

一种面向向量处理器数据交换的方法及装置，该方法为：通过向量指令EXC完成两个向量寄存器之间指定部分内容的互相交换，向量指令EXC的指令格式为EXC mode VR_iVR_j，VR_i和VR_j用以指定要进行数据交换的两个向量寄存器，mode为一个立即数，用来指定这两个向量寄存器之间数据交换的模式，mode的取值为1、2、3……Log₂N，其中N为向量处理器中处理单元PE的数目，一般为2的整数次幂。该装置包括译码逻辑单元、两路选择器以及时钟信号单元。本发明具有原理简单、操作方便、能够快速完成特殊数据交换、缩短整个算法的运算时间、提高执行效率、可满足运算密集型应用需求等优点。

Description

面向向量处理器数据交换的方法及装置

技术领域

本发明主要涉及到向量处理器的设计领域，特指一种面向向量处理器数据交换的方法及装置。

背景技术

随着4G无线通信技术和高清视频图像处理技术的发展，向量处理器得到了广泛的应用。参见图1，为向量处理器的一般结构示意图。向量处理器一般由N个处理单元PE组成，每个PE包含数个功能单元，一般包括移位部件、ALU部件、乘法部件等，这些功能部件可以读写一组局部寄存器，每个PE包行一组局部寄存器，所有PE的同一编号的局部寄存器寄存器在逻辑上又组成一个向量寄存器。例如图示PE₁—PE_N的R₀寄存器在逻辑上组成了向量寄存器VR₀，每个PE所对应的R₀称为向量寄存器的一个元素。向量处理器采用SIMD的方式，在同一条向量指令的控制下，N个PE同时对各自的局部寄存器进行相同操作，用以开发应用程序的数据级并行性。

无线通信和视频图像处理算法中包含着大量高密集运算的子任务，如FFT/IFFT运算、矩阵求逆运算等。这些运算过程在映射到向量处理器上时，往往需要充分利用所有可并行的运算资源，以便于使其满足在功耗、实时行等方面的要求。然而，由于算法本身的特性和向量数据通路的限制，算法在执行过程中不同的处理单元之间不可避免地要进行数据交换。例如在基2FFT/IFFT算法中，本级蝶形运算所需要的数据并非和前一级蝶形运算的结果顺序对应。因此，在进行本级蝶形运算之前就需要将前一级的结果交换到需要它的PE中，以方便本级蝶形运算。参见图2，为16点基2FFT算法的4级蝶形运算示意图。图中所示x0-x15为位反序输入，X0-X15为顺序输出。图中每一级运算输入点之间的交叉箭头指示了要进行蝶形运算的一对输入点，在每一级蝶形运算中，每个点只参加一次蝶形运算。对于N点FFT共需要log₂N级蝶形运算，每一级共进行N/2次蝶形运算，产生N个结果被下一级蝶形运算使用。每一级蝶形运算所使用的一对输入点之间的距离都是前一级的2倍，如第一级是每两个连续的输入点之间做蝶形运算，即输入点之间的距离为1，第二级每个蝶形运算的两个输入点之间的距离为2，第三级每个蝶形运算的两个输入点之间的距离为4，依次类推，直至第log₂N级蝶形运算做完之后得到顺序输出的结果。

实现PE间的数据交换通常有两种途径：1.利用共享向量存储器；2.使用数据混洗单元。这两种方法在实现一般的数据交换时，效率是相当的。在实际应用中如FFT/IFFT、矩阵求逆等又往往大量需要如下这种特殊的数据交换方式：在数据交换完成后，要保证每个向量寄存器最终的内容既有一部分保持不变，又有一部分来自于其它向量寄存器。要用传统的方法实现上述的特殊数据交换，第一种方法需要向量处理器支持屏蔽字技术，所谓屏蔽字技术是指通过配置屏蔽字寄存器来控制某些PE不执行当前指令，在此基础上，还需要数条配置屏蔽字寄存器的指令和两条访问共享向量存储器的指令；第二种方法则需要多条混洗指令。这两种方法都增加了每次交换的时间和所使用的指令条数。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、操作方便、能够快速完成特殊数据交换、缩短整个算法的运算时间、提高执行效率的面向向量处理器数据交换的方法及装置，以满足运算密集型应用的需求。

为解决上述技术问题，本发明采用以下技术方案：

一种面向向量处理器数据交换的方法，其特征在于：通过向量指令EXC完成两个向量寄存器之间指定部分内容的互相交换，所述向量指令EXC的指令格式为EXC mode VR_i VR_j，所述VR_i和VR_j用以指定要进行数据交换的两个向量寄存器，所述mode为一个立即数，用来指定这两个向量寄存器之间数据交换的模式，所述mode的取值为1、2、3……Log₂N，其中N为向量处理器中处理单元PE的数目，为2的整数次幂。

作为本发明的进一步改进：

当mode的值为1时，表明该指令要执行的操作为将PE_k中的局部寄存器Ri中的内容和PE_k-1中的局部寄存器Rj中的内容相互交换，没有进行数据互换的局部寄存器中的内容保持不变，其中k=2、4…N；当mode的值为2时，表明该指令要执行的操作为将PE_k:PE_k+1中的局部寄存器Ri中的内容和PE_k-2:PE_k-1中的局部寄存器Rj中的内容相互交换，没有进行数据互换的局部寄存器中的内容保持不变，其中K=3、7…N-1；当mode的值为s时，表明该指令要执行的操作为将

中的局部寄存器Ri中的内容和

中的局部寄存器Rj中的内容相互交换，没有进行数据互换的局部寄存器中的内容保持不变，其中k=2^s-1+1、2^s-1+2^s……N-2^s-1+1。

本发明进一步提供一种面向向量处理器数据交换的装置，其特征在于：包括译码逻辑单元、两路选择器以及时钟信号单元，所述译码逻辑单元根据向量指令EXC的mode域进行译码，每次译码后产生N/2个有效的使能信号，每个使能信号分别连接至两个两路选择器的使能端；所述两路选择器的输入来自将要发生数据交换的两个局部寄存器的读端口；当使能信号有效时，两路选择器控制两个局部寄存器的内容各自写回到交换目的地所对应的局部寄存器写端口，当时钟信号有效时，完成两个局部寄存器内容的相互交换。

所述向量指令EXC的指令格式为EXC mode VR_i VR_j，所述VR_i和VR_j用以指定要进行数据交换的两个向量寄存器，所述mode为一个立即数，用来指定这两个向量寄存器之间数据交换的模式，所述mode的取值为1、2、3……Log₂N，其中N为向量处理器中处理单元PE的数目，为2的整数次幂。

中的局部寄存器Ri中的内容和

与现有技术相比，本发明的优点在于：本发明面向向量处理器数据交换的方法及装置，可支持在向量寄存器间进行特殊方式数据交换，并设计完成该功能的相应指令。通过本方法和装置能够减小FFT/IFFT和矩阵求逆等算法在向量处理器中的执行时间，有效压缩了代码长度。采用本发明设计的指令比传统的混洗单元实现代价低，在实现相同功能的情况下，降低了功耗。另外，本发明的装置，结构简单紧凑、成本低廉、操作十分方便、可靠性好。

附图说明

图1是向量处理器的一般结构示意图；

图2是16点FFT算法的4级蝶形运算示意图；

图3是本发明方法的执行流程示意图；

图4是本发明装置的结构原理示意图；

图5是本发明在8数据通路的向量处理器上的执行过程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图3所示，为本发明面向向量处理器数据交换的方法执行时的流程示意图，本发明通过向量指令EXC完成两个向量寄存器（由2N个局部寄存器组成）之间指定部分内容的互相交换，每次发生数据交换的局部寄存器有N个，即N/2对局部寄存器进行数据交换，内容保持不变的局部寄存器也为N个。向量指令EXC的指令格式为EXC mode VR_i VR_j，VR_i和VR_j用以指定要进行数据交换的两个向量寄存器，mode为一个立即数，用来指定这两个向量寄存器之间数据交换的模式，mode的取值为1、2、3……Log₂N，其中N为向量处理器中处理单元PE的数目，一般为2的整数次幂。即，执行时，首先根据指令EXC的操作数域VR_i和VR_j向寄存器发送读请求，将得到的数据记为VR_i’和VR_j’，然后根据mode域的数值对VR_i’和VR_j’进行部分数据互换，最后将得到的数值VR_i’和VR_j’重新写回到寄存器VR_i和VR_j中。

中的局部寄存器Ri中的内容和

如图4所示，本发明面向向量处理器数据交换的装置，包括译码逻辑单元、两路选择器以及时钟信号单元，译码逻辑单元根据向量指令EXC的mode域进行译码，每次译码后产生N/2个有效的使能信号，每个使能信号分别连接至两个两路选择器的使能端，这两个两路选择器的输入都来自与要执行数据交换的两个局部寄存器R_i和R_j的读端口，当使能信号为高电平时，R_i和R_j的数据被两个两路选择器分别选中到R_j和R_i的写端口，当时钟信号有效时，即实现了两个局部寄存器内容的相互交换。当使能信号为低电平时，R_i和R_j的内容则保持不变。

如图5所示，本发明在8数据通路的向量处理器上的执行过程示意图。对于8数据通路的向量处理器，EXC指令的mode域的取值可以为1、2、3，即EXC指令一共可以完成三种特殊类型的数据交换。下面将结合图2所示的16点基2FFT算法对本发明进行详细的说明。16点FFT共需4级蝶形运算，每一级要进行8个蝶形运算。

当mode值为1时，该指令执行的操作为将PE₂、PE₄、PE₆、PE₈中局部寄存器R_i中的内容分别与PE₁、PE₃、PE₅、PE₇中局部寄存器R_j中的内容相互交换，PE₁、PE₃、PE₅、PE₇中局部寄存器R_i和PE₂、PE₄、PE₆、PE₈中局部寄存器R_j的内容则保持不变。执行完此条指令后，每个PE内的局部寄存器R_i和R_j中的数据即为图2所示的16点FFT第一级蝶形运算所需要的输入数据。仅需要一条指令进行数据交换之后，就可以在8个PE上并行进行8个蝶形运算。

当mode值为2时，该指令执行的操作为将PE₃、PE₄、PE₇、PE₈中局部寄存器R_i中的内容分别与PE₁、PE₂、PE₅、PE₆中局部寄存器R_j中的内容相互交换，PE₁、PE₂、PE₅、PE₆中局部寄存器R_i和PE₃、PE₄、PE₇、PE₈中局部寄存器R_j的内容则保持不变。执行完此条指令后，每个PE内的局部寄存器R_i和R_j中的数据即为图2所示的16点FFT第二级蝶形运算所需要的输入数据。仅需要一条指令进行数据交换之后，就可以在8个PE上并行进行8个蝶形运算。

当mode值为3时，该指令执行的操作为将PE₅、PE₆、PE₇、PE₈中局部寄存器R_i中的内容分别与PE₁、PE₂、PE₃、PE₄中局部寄存器R_j中的内容相互交换，PE₁、PE₂、PE₃、PE₄中局部寄存器R_i和PE₅、PE₆、PE₇、PE₈中局部寄存器R_j的内容则保持不变。执行完此条指令后，每个PE内的局部寄存器R_i和R_j中的数据即为图2所示的16点FFT第二级蝶形运算所需要的输入数据。仅需要一条指令进行数据交换之后，就可以在8个PE上并行进行8个蝶形运算。

综上所述，通过本发明所实现的数据交换，可以最大限度的开发FFT算法在向量处理器上的并行度，有效提高了该算法在向量处理器中的执行效率。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种面向向量处理器数据交换的方法，其特征在于：通过向量指令EXC完成两个向量寄存器之间指定部分内容的互相交换，所述向量指令EXC的指令格式为EXC mode VR_i VR_j，所述VR_i和VR_j用以指定要进行数据交换的两个向量寄存器，所述mode为一个立即数，用来指定这两个向量寄存器之间数据交换的模式，所述mode的取值为1、2、3……Log₂N，其中N为向量处理器中处理单元PE的数目，为2的整数次幂；当mode的值为1时，表明该指令要执行的操作为将PE_k中的局部寄存器Ri中的内容和PE_k-1中的局部寄存器Rj中的内容相互交换，没有进行数据互换的局部寄存器中的内容保持不变，其中k=2、4…N；当mode的值为2时，表明该指令要执行的操作为将PE_k:PE_k+1中的局部寄存器Ri中的内容和PE_k-2:PE_k-1中的局部寄存器Rj中的内容相互交换，没有进行数据互换的局部寄存器中的内容保持不变，其中K=3、7…N-1；当mode的值为s时，表明该指令要执行的操作为将

中的局部寄存器Ri中的内容和

2.一种面向向量处理器数据交换的装置，其特征在于：包括译码逻辑单元、两路选择器以及时钟信号单元，所述译码逻辑单元根据向量指令EXC的mode域进行译码，每次译码后产生N/2个有效的使能信号，每个使能信号分别连接至两个两路选择器的使能端；所述两路选择器的输入来自将要发生数据交换的两个局部寄存器的读端口；当使能信号有效时，两路选择器控制两个局部寄存器的内容各自写回到交换目的地所对应的局部寄存器写端口，当时钟信号有效时，完成两个局部寄存器内容的相互交换；

所述向量指令EXC的指令格式为EXC mode VR_i VR_j，所述VR_i和VR_j用以指定要进行数据交换的两个向量寄存器，所述mode为一个立即数，用来指定这两个向量寄存器之间数据交换的模式，所述mode的取值为1、2、3……Log₂N，其中N为向量处理器中处理单元PE的数目，为2的整数次幂；

中的局部寄存器Ri中的内容和