CN105573716A

CN105573716A - 基于传输触发结构体系的专用指令集处理器

Info

Publication number: CN105573716A
Application number: CN201510939334.XA
Authority: CN
Inventors: 张犁; 徐欣冉; 李�杰; 李甫; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-05-11

Abstract

本发明公开了一种基于传输触发结构体系TTA的专用指令集处理器。主要解决传统传输触发结构体系TTA的结构复杂和扩展性差的问题。其由两个运算和比较复合单元、逻辑运算单元、移位运算单元、乘和乘累加复合单元、寄存器文件、程序存储单元、数据输入和输出存储单元及数据交换网络组成。其中，两个运算和比较复合单元均采用复用同一个加法器；乘和乘累加复合单元采用复用同一个乘法器；数据输入和输出存储单元均采用双页面的存储器缓存数据；数据交换网络采用多端口寄存器堆结构。本发明能根据具体应用对功能单元进行删减或添加，具有较强的设计重复利用性及较低的设计复杂度，可用于数字信号处理系统中进行数据的高速并行实时处理。

Description

基于传输触发结构体系的专用指令集处理器

技术领域

本发明属于数字信号处理技术领域，更进一步涉及一种专用指令集处理器，可应用于数字信号处理系统中进行数据的高速并行实时处理。

背景技术

传输触发结构体系TTA由Corporaal等人提出，其核心思想是利用数据传输来触发操作，即任何数据通过交换网络写入功能单元的特定寄存器的同时会触发一次相应功能单元的操作。传统的基于传输触发结构体系TTA架构的处理器由功能单元通过交换网络连接组成，功能单元包括算术运算单元、比较单元、逻辑运算单元、移位运算单元、乘法单元、乘累加单元、寄存器文件、程序存储单元、数据存储单元。传统传输触发结构体系TTA结构的交换网络是由总线组成的，结构复杂、不规整、扩展性差；算术运算单元与比较单元以及乘法单元与乘累加单元通常分立设计，造成电路资源浪费，功耗增加。数据存储单元采用普通的操作方式，吞吐率低。

传统TTA结构对长立即数的处理通常有两种方式，如图1所示，一种是在指令头增加一个长立即数标志LIT用于指定长立即数的位置，另一种是在指令尾增加显式立即数插槽，无论哪种方法都使得指令格式变长，造成程序存储器增大，电路资源和功耗随之增加。

发明内容

本发明的目的在于提出一种基于传输触发结构体系的专用指令集处理器，以解决传统传输触发结构体系TTA结构复杂、不规整、扩展性差，及算数运算单元和比较单元分立设计造成的电路资源浪费和功耗高的问题。

一种基于传输触发结构体系TTA的专用指令集处理器，包括：

算术运算单元：用于实现操作数的加、减法运算；

比较单元：用于比较两个有符号数的大小；

乘法单元：用于实现两个有符号数的乘法运算；

乘累加单元：用于实现乘累加运算；

逻辑运算单元：用于实现操作数的各种逻辑运算；

移位运算单元：用于实现移位操作运算；

寄存器文件：用于实现数据的暂存功能；

程序存储单元：用于存储处理器的指令，并且根据指令地址指针输出处理器将要执行的指令；

数据输入存储单元：用于高速缓存系统内的局部数据和外部的输入数据；

数据输出存储单元：用于高速缓存系统内的局部数据和处理后的数据；

数据交换网络：用于与上述各功能单元进行连接，以及根据程序存储单元输出的指令，使数据在各功能单元之间进行传输，并当数据传输到某个功能单元时，触发该功能单元进行运算；

其特征在于：

算术运算单元与比较单元，复用同一个加法器；

乘法单元和乘累加单元，复用同一个乘法器；

数据输入存储单元和数据输出存储单元，均采用双页面乒乓操作的双端口存储器构成；

程序存储单元中存储的处理器指令,包括有4条子指令，且最后一条子指令的字段与长立即数字段复用，当指令中有长立即数参与运算时，最后一个子指令再进行译码。

数据交换网络，采用多端口寄存器堆的连接结构，对处理器中的所有功能单元进行连接；

本发明与现有技术相比具有以下优点：

第一，由于本发明在设计交换网络时采用基于多端口寄存器堆的方式，克服了现有技术中采用总线方式所造成的结构复杂、不规整和扩展性差的不足，使得交换网络设计简单、结构规整。该交换网络不仅具有交换数据的功能，还具有数据暂存的功能。

第二，由于本发明的算术运算单元与比较单元复用同一个加/减法器，克服了现有技术中算术运算单元和比较单元因分立设计所造成的电路资源浪费的不足，使得处理器系统的电路资源利用率提升。

第三，由于本发明的处理器指令格式中的最后一条子指令字段与长立即数字段复用，克服了现有技术中因处理长立即数所造成的指令字变长，指令存储器增大的不足，使得处理器指令格式规整，有效减少指令存储器大小，降低功耗。

第四，本发明的处理器系统中的功能单元可以根据具体应用进行删减或增加，能够提高电路资源的利用效率。

第五，由于本发明的数据输入和输出存储器均采用双页面的存储器结构，因而具有很高的数据接口带宽并能够实现数据的高速存取与交换。

附图说明

图1为传统传输触发结构体系TTA结构指令格式；

图2为本发明的整体结构示意图；

图3为本发明中的算术运算单元与比较器复用的结构示意图；

图4为本发明的乘与乘累加复用的结构示意图。

图5为本发明的处理器指令格式示意图。

图6为本发明中的交换网络结构示意图；

具体实施方式

下面结合附图对本发明做进一步的详细描述。

本发明设计的处理器由不同的功能单元通过数据交换网络10连接而成，如图2所示。功能单元包括第一运算和比较复合单元1、第二运算和比较复合单元2、逻辑运算单元3、移位运算单元4、乘和乘累加复合单元5、寄存器文件6、程序存储单元7、数据输入存储单元8和数据输出存储单元9。除寄存器文件外，上述每一个功能单元都包括操作数寄存器、触发寄存器和结果寄存器。操作数寄存器用于存储功能单元的一个操作数，触发寄存器用于存储功能单元的另一个操作数，只有当触发寄存器有新值时，功能单元才会运算，并且把运算结果存到结果寄存器中。

所述两个运算与比较复合单元1和2，均采用复用同一个加法器，如图3所示，其用于实现对算术运算单元和比较单元的合并，每一个算术运算单元和比较单元均完成加法操作、减法操作以及比较操作。用该运算与比较复合单元进行加法操作，是用加法器直接进行加法运算；用该运算与比较复合单元进行减法操作，是将操作数2取反后加1，然后与操作数1相加；用该运算与比较复合单元进行比较操作，是将操作数1减去操作数2，然后将结果与零比较。当进行算术运算时，根据操作码产生相应操作的算术运算结果，此时比较结果不变；当进行比较运算时，根据操作码产生相应的减法算术运算结果和比较结果。

所述的逻辑运算单元3，是直接采用与、或、非和异或门电路，完成相应的与、或、非和异或逻辑运算。

所述的移位运算单元4，采用桶形移位器，完成逻辑左移、逻辑右移和算术右移运算。

所述的寄存文件6，采用16个通用寄存器，完成数据暂存功能。

所述的乘和乘累加复合单元5，复用同一个乘法器，如图4所示，其用于实现乘法单元和乘累加单元合并，完成乘操作和乘累加操作。用该乘和乘累加单元进行乘法操作，是运用现场可编程门阵列FPGA内部的专用乘法器单元直接进行乘法运算，这样能够提高乘法运算的速度；用该乘和乘累加单元进行乘累加操作，是采用流水线的方式，将乘到的结果存入中间寄存器中，然后再根据指令要求选择数据进行加法运算。

所述的数据输入存储单元8和输出存储单元9，均采用双页面乒乓操作的双端口存储器构建。双页面乒乓操作的双端口存储器，是由两个单端口存储器构成，用页面控制信号分别控制两个单端口的处理数据，当处理第一个单端口存储器里的数据时，后续的数据输入到第二个单端口存储器里；当处理第二个单端口存储器里面的数据时，后续的数据输入到第一个单端口存储器。用这种形式构建的存储器与外界交换原始数据和处理的结果数据时，能够达到极高的数据率，从而保证数据输入/输出的连续性。

所述的程序存储器7，用于存储处理器的指令，并且根据指令的地址指针输出将要执行的下一条指令，完成指令顺序执行操作、指令的无条件跳转操作以及指令的有条件跳转操作。用该程序存储器进行指令顺序执行操作，是通过当前指令地址得到紧接者当前指令的下一条指令地址；用该程序存储器进行指令的无条件跳转操作，是将指令跳转的目的地址通过交换网络传输到程序存储器的地址指针即可，指令的目的地址可以来源于短立即数、长立即数、通用寄存器文件或者其他功能单元的结果寄存器；用该程序存储器进行指令的有条件跳转操作，是结合第一运算和比较复合单元1的比较结果，产生“大于”、“小于”、“大于等于”、“小于等于”、“等于”和“不等于”6种条件，然后根据指令中的条件码决定指令是否跳转到目的地址。

程序存储器存储7中的指令格式，包括4条子指令，其中，每条子指令包括条件位、短立即数标志位、源地址和目的地址，如图5所示。条件位，用于结合第一运算和比较复合单元1和第二运算和比较复合单元2的比较运算的结果来决定本条子指令是否执行；短立即数标志位，用于指示本条子指令中的源地址是否为短立即数，当标志为真时，本条子指令的所指示的源数据为短立即数而不是源地址所指示的寄存器内的值；源地址，用于为数据交换网络10提供源寄存器地址；目的地址，用于为数据交换网络10提供目的寄存器地址。这4条子指令中的最后一条子指令字段与长立即数字段复用。其中长立即数的实现方法为，将第四个子指令作为结果寄存器，分配一个源地址。当有长立即数参与数据传输时，第四个子指令不参与指令译码，即第四个子指令译码电路的输出清零，如图6所示。

所述的交换网络10，包括寄存器堆输出部分和寄存器堆输入部分，如图6所示。其中：

在寄存器堆输出部分中，处理器中所有结果寄存器和所有通用寄存器的输出通过4个数据选择器产生4个数据输出，其中第一个数据输出102由交换网络10中源地址101控制数据选择器产生；第二个数据输出数据输出104由交换网络10中的源地址103控制数据选择器产生；第三个数据输出数据输出106由交换网络10中的源地址105控制数据选择器产生；第四个数据输出数据输出108由交换网络10中源地址107控制数据选择器产生。

在寄存器堆输入部分中，输出信号包括内部所有操作数寄存器、触发寄存器和通用寄存器的输入数据和使能信号。其中内部所有操作数寄存器、触发寄存器和通用寄存器的输入数据，是通过各个译码电路输出和寄存器堆输出部分中的数据输出进行与逻辑运算，然后再将运算结果进行或逻辑运算产生。即把交换网络10中第一个译码电路109的输出和寄存器堆输出部分中第一个数据输出102进行与逻辑运算产生第一个结果，把交换网络10中第二个译码电路1010的输出和寄存器堆输出部分中第二个数据输出104进行与逻辑运算产生第二个结果，把交换网络10中第三译码电路1011的输出和寄存器堆输出部分中第三个数据输出106进行与逻辑运算产生第三个结果，把交换网络10中第四译码电路1012的输出和寄存器堆输出部分中第四个数据输出108进行与逻辑运算产生第四个结果，然后把这四个运算结果进行或逻辑运算；所有功能单元的操作数寄存器、触发寄存器以及所有通用寄存器的使能信号，均是通过对4个译码电路输出对应位进行与逻辑运算而产生。

本发明系统的工作过程如下：

程序存储器7输出要执行的指令，数据交换网络10根据该指令要求，将数据从程序存储器7输出指令的源地址送到目的地址。当目的地址为第一运算和比较复合单元1、第二运算和比较复合单元2、逻辑运算单元3、移位运算单元4、乘和乘累加复合单元5的触发寄存器时，该功能单元根据相应的操作码进行运算并将运算结果存到结果寄存器中；当目的地址为程序存储单元7的触发寄存器时，程序存储单元根据第一运算和比较单元1的结果判定是否执行指令的跳转；当目的地址为数据输入存储单元8、输出存储单元9的触发寄存器时，根据相应的操作码完成存数据功能或者取数据功能。

本发明中设计的基于传输触发结构体系TTA架构专用指令集处理器，主要考虑了电路的可重复利用性，设计有一定的通用性。因此电路结构和相应的功能单元针对某一具体应用而言并不是最优化的，需要根据具体的应用适当地删减功能单元或者增加某些特殊功能单元，以达到“量身定做”的目标。

Claims

1.一种基于传输触发结构体系TTA的专用指令集处理器，包括：

算术运算单元：用于实现操作数的加、减法运算；

比较单元：用于比较两个有符号数的大小；

乘法单元：用于实现两个有符号数的乘法运算；

乘累加单元：用于实现乘累加运算；

逻辑运算单元：用于实现操作数的各种逻辑运算；

移位运算单元：用于实现移位操作运算；

寄存器文件：用于实现数据的暂存功能；

其特征在于：

算术运算单元与比较单元，复用同一个加法器构成；

乘法单元和乘累加单元，复用同一个乘法器；

程序存储单元中存储的处理器指令,包括有4条子指令，且最后一条子指令的字段与长立即数字段复用，当指令中有长立即数参与运算时，最后一个子指令不在进行译码

数据交换网络，采用多端口寄存器堆的连接结构，实现处理器中的所有功能单元间的数据传输与交换。

2.根据权利要求1所述的基于传输触发结构体系TTA的专用指令集处理器，其特征在于：程序存储单元中存储的每条子指令包括：

条件位，用于判断本条子指令是否执行；

短立即数标志位，用于指示随后的源地址是否为短立即数；

源地址，用于为数据交换网络提供源寄存器地址；

目的地址，用于为数据交换网络提供目的寄存器地址。

3.根据权利要求1所述的基于传输触发结构体系TTA的专用指令集处理器，其特征在于：双页面乒乓操作的双端口存储器，是由两个单端口存储器构成，用页面控制信号分别控制两个单端口的处理数据，当处理第一个单端口存储器里的数据时，后续的数据输入到第二个单端口存储器里；当处理第二个单端口存储器里面的数据时，后续的数据输入到第一个单端口存储器。

4.根据权利要求1所述的基于传输触发结构体系TTA的专用指令集处理器，其特征在于：数据交换网络采用基于多端口寄存器堆的连接结构，是把各个功能单元的源寄存器集中在一起，作为第一个4端口的寄存器堆，把各个功能单元的目的寄存器集中在一起，作为第二个4端口的寄存器堆，再将这两个寄存器堆的对应端口相连接。

5.根据权利要求4所述的基于传输触发结构体系TTA的专用指令集处理器，其特征在于：第一个4端口的寄存器堆，其读地址为程序存储单元中4条子指令的源寄存器地址，通过这4条子指令控制该寄存器堆四个输出端口的数据输出。

6.根据权利要求4所述的基于传输触发结构体系TTA的专用指令集处理器，其特征在于：第二个4端口的寄存器堆，其写地址为程序存储单元中4条子指令的目的寄存器地址，通过这4条子指令控制该寄存器堆四个输出端口的数据输入。