CN105607889A

CN105607889A - Gpdsp共享乘法器结构的定点浮点运算部件

Info

Publication number: CN105607889A
Application number: CN201510725430.4A
Authority: CN
Inventors: 雷元武; 彭元喜; 韩珊珊; 陈书明; 刘宗林; 田甜; 胡封林; 刘祥远; 刘仲; 陈海燕; 王耀华; 陈虎; 马胜; 孙书为; 许邦建
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2016-05-25

Abstract

本发明公开了一种GPDSP共享乘法器结构的定点浮点运算部件，包括：浮点乘加单元，用于支持双精度浮点操作和SIMD结构双单精度浮点乘法、乘加、乘减和复数乘法操作；定点乘加单元，用于支持64位有符号或无符号定点乘法操作和SIMD结构的双32位有符号或无符号定点乘法操作；64位定点乘法器，通过复用同一个乘法器的结构，将浮点尾数乘法视作无符号定点乘法进行运算。本发明具有能够提高硬件利用率、减少芯片面积等优点。

Description

GPDSP共享乘法器结构的定点浮点运算部件

技术领域

本发明主要涉及到微处理器结构与设计领域，特指一种适合高性能通用数字信号处理器(General-PurposeDigitalSignalProcessor，简称GPDSP)中具有共享乘法器结构的定点浮点乘积运算单元。

背景技术

传统数字信号处理领域中，数据通常以定点方式组织、存储和处理，传统DSP对定点运算提供很高的定点运算性能。然而，在现代通信、图像处理和雷达信号处理等应用领域，随着数据处理量加大、数据计算的精度和实时性要求的增加，通常需要使用更高性能的微处理器。对于数据精度和实时性的要求也在不断提高，由于算法具有高的浮点计算密集型，处理器的浮点数据处理能力显得越发重要。因此，通用高性能DSP需要对定点和浮点运算进行高效的硬件支持。

无论是定点算术和浮点算术，乘法是数字信号处理中的重要运算，许多运算的性能是由乘法运算所能达到的性能决定的。衡量数字信号处理器的性能的重要指标之一就是单位时间内所能完成乘累加运算的次数。工程和科学应用领域使用大量矩阵类运算，其中包含大量的点积操作，图形图像和通信领域内FFT/IFFT、FIR滤波运算，包含大量的复数乘法和乘加运算。

GPDSP的运算单元中有大量与乘法相关的指令需要用到定点乘法器，如定点乘加单元中的乘法运算、乘加运算、点积运算和复数乘法运算，浮点乘加单元中的单精度浮点尾数乘法，双精度浮点尾数乘法和乘累加、乘后加运算。通常情况下这些指令不同时执行，传统设计浮点与定点分别使用各自的乘法器完成相应运算。这样的设计导致硬件复用率低，占用面积大，浪费硬件资源。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种能够提高硬件利用率、减少芯片面积的GPDSP共享乘法器结构的定点浮点运算部件。

为解决上述技术问题，本发明采用以下技术方案：

一种GPDSP共享乘法器结构的定点浮点运算部件，包括：

浮点乘加单元，用于支持双精度浮点操作和SIMD结构双单精度浮点乘法、乘加、乘减和复数乘法操作；

定点乘加单元，用于支持64位有符号或无符号定点乘法操作和SIMD结构的双32位有符号或无符号定点乘法操作；

64位定点乘法器，通过复用同一个乘法器的结构，将浮点尾数乘法视作无符号定点乘法进行运算。

作为本发明的进一步改进：所述64位定点乘法器为采用4个32×32乘法器组成一个64位乘法器，用来完成定点32位SIMD乘法、64位乘法、SIMD单精度浮点尾数乘法以及双精度浮点尾数乘法。

作为本发明的进一步改进：在所述64位定点乘法器中，被乘数Src1和乘数Src2为64位定点乘法器的输入端，作为64位的定点输入或作为53位的浮点输入，经过操作数选择模块使操作数位宽适合32位乘法器；64位的定点输入分为低32位Src[31:0]和高32位Src[63:32],53位浮点操作分为低24位Src[23:0]和高29位Src[52:24]；浮点尾数乘法作为无符号定点乘法，不足32位的填0补齐。

作为本发明的进一步改进：在所述32×32乘法器采用基4Booth编码共产生17个部分积；第一级压缩是首先将其中的16个部分积使用四个4-2压缩器产生8个结果；第二级压缩将上一级的八个结果与未参与第一级压缩的一个部分积通过3个3-2压缩器压缩成6个结果；第三级压缩则是两个3-2压缩器产生4个结果；最后一级压缩用一个4-2压缩器得到最后的两个结果。

作为本发明的进一步改进：所述定点乘加单元中执行以下流水站：

E1站的加法器执行加法指令和减法指令，E1站输出加减法指令结果；

E1E2站同时执行32位乘法指令及乘加、乘减、点积、复数指令的乘法部分，E2站输出32位乘法器结果，结果写2拍；

E3站执行乘加、乘减、点积、复数等指令的加法部分，同时指令64位乘法指令，E3站输出乘加、乘减结果、64位乘法指令和CMUL复数乘法指令，后两者写2拍；

E4站执行点积和复数指令的最后处理，E4站输出点积和复数指令的结果。

作为本发明的进一步改进：所述浮点乘加单元中执行以下流水站：

E1站完成读操作数、例外判断、指数计算，乘法指令的部分积产生、和第一级的部分积压缩；

E2站完成乘法结果的第二级、第三级压缩，和128位的对阶移位；

E3站完成第四级的部分积压缩、乘法结果的计算，和128位的对阶移位；

E4站完成乘法结果的写回、对阶后加法结果的计算和前导0预测；

E5站根据前导0预测的结果，完成移位和指数修正操作；

E6站完成舍入、规格化和其余指令的结果写回。

与现有技术相比，本发明的优点在于：

1、本发明的GPDSP共享乘法器结构的定点浮点运算部件，定点与浮点运算单元共享乘法器，可以实现定点和浮点乘法及与乘法相关的复数乘法和点积指令。乘法器面积比传统设计减少一半，硬件资源利用率大幅提高。

2、本发明的GPDSP共享乘法器结构的定点浮点运算部件，可以支持定点加减法操作，定点MAC单元支持定点32位SIMD和64位加减法运算。

3、本发明的GPDSP共享乘法器结构的定点浮点运算部件，可以支持有符号立即数与地址寄存器相加减、通用寄存器与地址寄存器相加减的功能。

4、本发明的GPDSP共享乘法器结构的定点浮点运算部件，支持数据搬移功能，可实现立即数搬移到地址寄存器或通用寄存器、地址寄存器与通用寄存器之间、通用寄存器之间的数据搬移。

5、本发明的GPDSP共享乘法器结构的定点浮点运算部件，支持标向量广播指令，单字广播指令将标量寄存器中单字广播到向量寄存器中，双字广播指令是将标量寄存器对Src_o:Src_e中数据(双字)广播到向量寄存器对Dst_o:Dst_e中。

附图说明

图1是本发明的结构示意图。

图2是本发明在具体应用实例中共享64位乘法器的结构示意图。

图3是本发明在具体应用实例中32×32位乘法器的压缩结构示意图。

图4是本发明在具体应用实例中32位乘法器流水线划分示意图。

图5是本发明在具体应用实例中定点MAC各流水站划分示意图。

图6是本发明在具体应用实例中浮点MAC各流水站划分示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1所示，本发明的GPDSP共享乘法器结构的定点浮点运算部件，包含共享的64位定点乘法器、浮点乘加单元MAC(FMAC)和定点乘加单元MAC(IMAC)。浮点乘加单元FMAC支持IEEE-754标准的双精度浮点操作和IEEE-754标准的SIMD结构双单精度浮点乘法、乘加、乘减和复数乘法等操作；定点乘加单元IMAC支持64位有符号或无符号定点乘法操作和SIMD结构的双32位有符号或无符号定点乘法操作。

本发明的GPDSP共享乘法器结构的定点浮点运算部件，复用同一个乘法器的结构，将浮点尾数乘法视作无符号定点乘法进行运算，实现乘法器的复用。采用4个32×32乘法器组成一个64位乘法器，实现定点32位SIMD乘法、64位乘法、SIMD单精度浮点尾数乘法以及双精度浮点尾数乘法。乘法器面积比传统设计减少一半，硬件资源利用率大幅提高。

如图2所示，为本发明在具体应用实例中所采用的64位定点乘法器结构示意图。本发明采用4个32×32乘法器组成一个64位乘法器，该乘法器作为共享乘法器完成定点与浮点部件与乘法相关的功能。被乘数Src1和乘数Src2为共享乘法器的输入端，可以为64位的定点输入，也可以为53位的浮点输入，经过操作数选择模块使操作数位宽适合32位乘法器。64位的定点输入分为低32位Src[31:0]和高32位Src[63:32],53位浮点操作分为低24位Src[23:0]和高29位Src[52:24]。浮点尾数乘法可以看作无符号定点乘法，不足32位的填0补齐。每一个乘法器操作数的选择表1所示。

表1定点/浮点操作数选择

如图3所示，为本发明在具体应用实例中所采用的32×32位乘法器的压缩结构示意图，32位乘法器采用基4Booth编码共产生17个部分积。第一级压缩是首先将其中的16个部分积使用四个4-2压缩器产生8个结果；第二级压缩将上一级的八个结果与未参与第一级压缩的一个部分积通过3个3-2压缩器压缩成6个结果；第三级压缩则是两个3-2压缩器产生4个结果；最后一级压缩用一个4-2压缩器得到最后的两个结果。

如图4所示，为本发明在具体应用实例中各级压缩所处的流水站。部分积的产生，第一级压缩和第二级压缩在流水站的第一拍完成，第三级和第四级压缩以及压缩结果的相加在流水站的第二拍完成，两拍流水后产生四个中间结果Dst_1、Dst_2、Dst_3和Dst_4。由于四个乘法器的操作数分别是低位与低位的乘积、低位与高位的乘积、高位与低位的乘积及高位与低位的乘积，产生的中间结果组成类似部分积阵列的形式，低位相乘的中间结果即为最终结果的低位，无需进行符号位的扩展，高低位交错相乘得到的结果需要进行符号位扩展后与高位相乘结果相加最为最终结果的高位。

取Dst_1的低32位和Dst_4的低32位拼接成64位，即为32位SIMD乘法结果；取Dst_1与Dst_4拼接成128位，即为64位乘法结果；取Dst_1和Dst_4的低48位拼接成96位，即为SIMD单精度浮点尾数乘法；四个单精度中间结果Dst_1、Dst_2、Dst_3和Dst_4经过第五级压缩产生浮点双精度乘法结果。

乘加减运算需要在第二拍产生乘法结果后，在第三拍进行加法/减法运算，并在第三拍输出最终结果。点积运算与复数乘法运算同样也需要利用第二拍产生的乘法结果，进行加减与移位运算，在第四拍产生最后的结果。

所以这样的共享乘法器结果的方式相比于传统设计可以减少一个乘法器的面积，这对于需要进行大量与乘法相关运算的MAC单元来说，优势明显。可以提高硬件资源的利用率，减少浪费，同时并没有因为复用而产生关键路径，乘法器的面积相比复用之前可以降低约46％。复用后，运算单元面积减少，功耗降低，同时满足时序要求。

如图5所示，为本发明在具体应用实例中定点乘加单元MAC的各流水站划分示意图。定点MAC是MAC部件中执行定点加减法、定点乘法和乘累加等运算的功能单元，实现的主要功能如下：

A、实现32位SIMD/64位有/无符号加减法运算(8条指令)；

B、实现32位SIMD/64位有/无符号乘法运算(12条指令)；

C、实现有/无符号乘加减运算(8条指令)；

D、实现点积、复数乘法指令(9条指令)；

E、实现数据搬移、地址加减法、标向量广播指令(9条指令)。

各流水站执行的功能如下：

E1站的加法器执行加法指令和减法指令，E1站输出加减法指令结果。

E1E2站同时执行32位乘法指令及乘加、乘减、点积、复数等指令的乘法部分，E2站输出32位乘法器结果。结果写2拍。

E3站执行乘加、乘减、点积、复数等指令的加法部分，同时指令64位乘法指令，E3站输出乘加、乘减结果、64位乘法指令和CMUL复数乘法指令，后两者写2拍。

如图6所示，为浮点乘加单元MAC的流水站结构示意图。浮点MAC是MAC部件中执行浮点乘法和乘累加逻辑运算的功能单元，实现的主要功能如下：

A、实现双单精度(SIMD)/双精度浮点乘法运算(2条指令)；

B、实现双单精度(SIMD)/双精度浮点乘加运算(2条指令)；

C、实现双单精度(SIMD)/双精度浮点乘减运算(2条指令)；

D、单/双精度浮点加减法指令(4条)；

E、实现单精度浮点点积运算(1条指令)；

F、实现单精度浮点复数实部运算(1条指令)；

G、实现单精度浮点复数虚部运算(1条指令)。

各个流水站执行的功能如下：

E1站完成读操作数、例外判断、指数计算，乘法指令的部分积产生、和第一级的部分积压缩。

E2站完成乘法结果的第二级、第三级压缩，和128位的对阶移位(该对接移位器用于双精度对阶移位和双单精度FMULA低位操作的对接移位)。

E3站完成第四级的部分积压缩(用于双精度的乘法操作)、乘法结果的计算，和128位的对阶移位(该对阶移位器用于双精度对接移位、SIMD乘加部件高位的对接移位，和乘法后加减法操作的对接移位)。

E4站完成乘法结果的写回、对阶后加法结果的计算和前导0预测(其中加法操作和前导0预测，除乘法指令的所有指令一起复用)。

E5站根据前导0预测的结果，完成移位和指数修正操作。

E6站完成舍入、规格化和其余指令(除乘法指令)的结果写回。

通过采用上述结构，本发明的运算部件还可实现特有的功能：

(1)数据搬移的功能：五条指令可以实现将64位立即数搬移到寄存器中、64位寄存器之间数据的搬移、38位地址寄存器之间数据的搬移、将38位立即数搬移到地址寄存器中和将地址寄存器中的38位数据搬移到64位通用寄存器中。

(2)地址加减法：两条指令可以实现有符号立即数与地址寄存器相加减、通用寄存器与地址寄存器相加减的功能。操作数1来源于立即数或者通用寄存器，操作数2来源于基址寄存器AR0到AR15，或地址偏移寄存器OR0至OR15。相加减的结果写入地址寄存器。

(3)标向量单字、双字广播：标量执行单元和向量执行单元之间存在广播机制，加速向量数据的填充速度。标向量广播分为单字广播指令和双字广播指令。单字广播指令是将标量寄存器中单字广播到向量寄存器中。执行的过程中只需要对VRF文件进行一次写操作，完成1*16*64＝1024位数据传输。双字广播指令是将标量寄存器对Src_o:Src_e中数据(双字)广播到向量寄存器对Dst_o:Dst_e中，这里寄存器对简用偶数表示即VR0代表VR1：VR0。执行的过程中只需要对VRF文件进行一次写操作，完成2*16*64＝2048位数据传输。标向量广播指令可以极大程度的提高数据填充速度，降低存储带宽需求，提升了整体性能。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种GPDSP共享乘法器结构的定点浮点运算部件，其特征在于，包括：

2.根据权利要求1所述的GPDSP共享乘法器结构的定点浮点运算部件，其特征在于，所述64位定点乘法器为采用4个32×32乘法器组成一个64位乘法器，用来完成定点32位SIMD乘法、64位乘法、SIMD单精度浮点尾数乘法以及双精度浮点尾数乘法。

3.根据权利要求2所述的GPDSP共享乘法器结构的定点浮点运算部件，其特征在于，在所述64位定点乘法器中，被乘数Src1和乘数Src2为64位定点乘法器的输入端，作为64位的定点输入或作为53位的浮点输入，经过操作数选择模块使操作数位宽适合32位乘法器；64位的定点输入分为低32位Src[31:0]和高32位Src[63:32],53位浮点操作分为低24位Src[23:0]和高29位Src[52:24]；浮点尾数乘法作为无符号定点乘法，不足32位的填0补齐。

4.根据权利要求2所述的GPDSP共享乘法器结构的定点浮点运算部件，其特征在于，在所述32×32乘法器采用基4Booth编码共产生17个部分积；第一级压缩是首先将其中的16个部分积使用四个4-2压缩器产生8个结果；第二级压缩将上一级的八个结果与未参与第一级压缩的一个部分积通过3个3-2压缩器压缩成6个结果；第三级压缩则是两个3-2压缩器产生4个结果；最后一级压缩用一个4-2压缩器得到最后的两个结果。

5.根据权利要求1～4中任意一项所述的GPDSP共享乘法器结构的定点浮点运算部件，其特征在于，所述定点乘加单元中执行以下流水站：

6.根据权利要求1～4中任意一项所述的GPDSP共享乘法器结构的定点浮点运算部件，其特征在于，所述浮点乘加单元中执行以下流水站：

E5站根据前导0预测的结果，完成移位和指数修正操作；

E6站完成舍入、规格化和其余指令的结果写回。