CN115658007A

CN115658007A - 一种高带宽可配流水级的并行乘法器运算方法

Info

Publication number: CN115658007A
Application number: CN202211380540.8A
Authority: CN
Inventors: 赵春林; 周昱; 赵超男; 邵建; 俞德新
Original assignee: Cetc Shentai Information Technology Co ltd
Current assignee: Cetc Shentai Information Technology Co ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-01-31

Abstract

本发明涉及一种高带宽可配流水级的并行乘法器运算方法，采用流水线分割路径以提高乘法器的吞吐率，其中的并行乘法器包括改进型的基4‑Booth编码、符号补偿单元、部分积产生队列以及基于前缀加法器的4‑2华莱士压缩算法，并行乘法器整体采用改进型的基4‑Booth编码器和4‑2华莱士压缩算法的Wallace树为中心搭建，以及可配的流水级方案。本发明所述的并行乘法器运算方法，在于乘法器可与其他运算单元相结合以构成具有更多复杂功能的单元，为了提高整体的数据吞吐率，采用了可配置的多级流水线结构以匹配复杂功能单元的Throughputs，采用多级流水线结构可以解决处理器中数据处理的关键路径。

Description

一种高带宽可配流水级的并行乘法器运算方法

技术领域

本发明涉及计算器数字信号处理技术领域，尤其是指一种高带宽可配流水级的并行乘法器运算方法。

背景技术

随着多媒体应用、图像处理、虚拟现实、计算机视觉等新兴移动终端多媒体相关行业的快速发展，对处理器的性能提出了更严苛的要求。乘法运算单元作为处理器的核心组成单元，由于其较高的运算延迟在很大程度上决定了整个处理器系统的工作频率，大位宽的乘法器在提高计算效率的同时将消耗更大的芯片资源。因此，乘法器的速度和面积将决定整个处理器系统的性能和成本，往往作为重点优化单元以改善系统的优势。

近些年提出了基于各种算法的高速乘法器单元，其主要类型分为以下四种：基于加法树乘法器、基于并行运算乘法器、基于查找表的乘法器、基于移位相加的乘法器。其中，加法压缩树型的乘法器和并行算法的乘法器运算速度最快，缺点是随着乘数位数增加，消耗的硬件资源也会迅速增加；查找表乘法器通过操作数作为地址访问存有乘法结果的存储器，其速度取决于存储器的访问速度，当乘数的位数增加，存储器的空间会急剧增加；移位相加乘法器的资源消耗小，缺点是速度慢，难以实现处理器性能的提高。

发明内容

为解决上述技术问题，本发明的一种高带宽可配流水级的并行乘法器运算方法，采用流水线分割路径以提高乘法器的吞吐率，其中的并行乘法器包括改进型的基4-Booth编码、符号补偿单元、部分积产生队列以及基于前缀加法器的4-2华莱士压缩算法，并行乘法器整体采用改进型的基4-Booth编码器和4-2华莱士压缩算法的Wallace树为中心搭建，以及可配的流水级方案，而运算方法包括如下步骤：

步骤S1：基4-Booth算法编码成熟并生成四个相应的控制信号，以及乘数和被乘数；

步骤S2：根据乘数和被乘数极性，补偿编码后数据的符号以保证结果正确；

步骤S3：编码后的乘数与被乘数完成部分积的运算。

在本发明的一个实施例中，所述基于前缀加法器的4-2华莱士压缩树输入K个部分积乘法算子，有以改善算法的延迟。

在本发明的一个实施例中，所述符号补偿单元中设有符号标志位控制符号运算，使得并行乘法器可完成32位有符号和无符号数的运算；同时符号的高位扩展采用一次性符号补偿技术以解决运算过程的扩展不确定性和资源的过度消耗。该补偿方式具有运算方便，位数少等特点可进一步提高速度。

在本发明的一个实施例中，在于本发明中的华莱士压缩树中的加法单元采用并行前缀加法器，该加法器为超前进位加法器的改进架构。超前进位加法器只限于4位时才具有最高的效率。该加法器将N位加法器进位传播信号化简为N位子组合。因此多位前缀加法器由许多个相同的前缀运算单元组成，结构规整易实现。

在本发明的一个实施例中，在于对乘法算子的部分积相加，采用混合华莱士压缩树对乘法算子进行加处理，采用4-2，3-2混合压缩算法，每四个或三个乘积算子经过加法器压缩后生成两个加法算子和一个进位算子，混合压缩算法可有效降低关键路径的延迟。与传统华莱士树相比，面积和速度均得到较好的性能提高，兼具对称性和平衡性，更利于布局布线。

本发明的上述技术方案相比现有技术具有以下优点：本发明所述的并行乘法器运算方法，在于乘法器可与其他运算单元相结合以构成具有更多复杂功能的单元，为了提高整体的数据吞吐率，采用了可配置的多级流水线结构以匹配复杂功能单元的Throughputs，采用多级流水线结构可以解决处理器中数据处理的关键路径；编码器面积和延时与传统编码器有明显提高，并将扩展符号位与编码过程中的“补码加1”合并为偶数部分积，对称型的压缩华莱士树有利于布局布线。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明的一种高带宽可配流水级的乘法器架构示意图；

图2为基4-Booth部分积生成规则示意图；

图3为4:2压缩比加法器的逻辑示意图；

图4为基于4:2压缩比的混合Wallace树架构图。

具体实施方式

如图1所示，本实施例提供一种带宽可配流水级的并行乘法器运算方法，采用流水线分割路径以提高乘法器的吞吐率，其特征在于，其中的并行乘法器包括改进型的基4-Booth编码、符号补偿单元、部分积产生队列以及基于前缀加法器的4-2华莱士压缩算法，并行乘法器整体采用改进型的基4-Booth编码器和4-2华莱士压缩算法的Wallace树为中心搭建，以及可配的流水级方案。

如图一所示，基4-Booth编码阶段完成乘数的编码任务，基四BOOTH编码算法根据相邻高位、本位和相邻地位编码可将部分积减少到一半。该算法在保持低功耗时更适合大位宽运算，根据运算需求，插入两级或三级流水线，其中乘法器部分积生成阶段占用一个周期，压缩树采用2～3级流水结构。

采用基4-Booth编码算法编码乘数并生成四个相应的控制信号。乘数低位补0，每相邻三位编为一组，相邻两组公用紧邻的一位的方式进行分组，因此，32位数编码为16个组。通过基4-Booth编码后，可将32位部分积分成两部分，一部分是高31位，另一部分是最低位第0位。

为了便于压缩树计算，往往部分积以阵列形式存储。而部分积的排列受扩展位的影响，例如符号位和求补码时的取反加1。本发明采用部分积求补加1的位置于紧邻行的最低位以减少每个部分积的位数和部分积阵列的面积。

如图二所示，基4-Booth编码输入乘数的连续三位，根据每位值生成相应部分积。共有五种类型的部分积，分别为0，-A、+A、+2A、-2A，只需要对这五种部分积运算即可，此外，运算时尽量的提高0的个数以减少延迟和功耗。

如图二所示，-A:无需对操作数A取反再加1的运算，该运算会引入新的加法器并增大延迟，只需对操作数A取反，并在后期添加符号位实现统一符号补偿。该策略只在路径上引入取反的组合逻辑，相应延迟可忽略不计。

如图二所示,-2A:该部分积需要引入加法运算和移位运算，首先求出操作数A的反码，并在后期添加符号位实现统一符号补偿，再对其进行加法运算，该策略可快速有效得出部分积。

如图二所示,+2A:该部分积需要引入加法运算和移位运算，由于操作数A的正数，无需符号位补偿，只需要左移操作数A后进行加法运算，该策略可快速有效得出部分积。

溢出处理单元主要对第一级加法器的结果进行判断，如结果位宽越界则送入下一级的编解码单元和数据运算模块。译码器对前级加法器送入的结果进行选择并送入相应的寄存器以便乘单元运算。

基4-Booth算法具有低功耗和高速等特性，该算法需要乘数是奇数位，若是偶数则需要在最后一位补零。设乘数为B，基4-Booth算法原理为：

由此公式可知基4-Booth算法可减少一半的部分积。

如图三所示，此架构下的压缩加法器架构缩短了关键电路延迟，一个加法器具有五个权值相同的输入，该架构下的最长路径为三个异或门的输出端SUM。XOR0和XOR1的输出传入MUX1，通过{A0,A2}选出MUX1的输出(作为下一级的进位)。同时，XOR0，XOR1再次异或运算后与输入进位异或运算，最后的输出结果通过XOR3得出，该算法的关键路径为XOR1->XOR2->XOR3。

如图三所示，该架构的内部的基本单元采用并行前缀加法器，该算法的进位生成和进位传输的表达式与超前进位加法器相同，但这两个部分看成一对而不是单独的函数。成对后的表达式为(G,P)·(G',P')＝(G+PG'+PP')。利用结合律可产生各位的进位输出。所有进位产生和传播并行地通过点运算单元完成并同时输出进位信号。

如图四所示，该架构可快速实现加法压缩，此外为了提高算法的带宽和吞吐率，采用了流水线的方式，该流水线可配置为1级或2级，PipeLine1中的两个加法器结果打入流水线寄存器，随后寄存器值可同步参与运算。也可通过流水线控制信号将PipeLine1的结果直接ByPass到下一级完成运算。

进一步地，采用符号补偿方式避免不必要的资源浪费，通过一次性补偿产生对17个部分积的位扩展进行一次性补偿。该技术具有位数少、计算方便、可进一步提升乘法器的速度。

加法器阵列结构的Wallace压缩树，可有效改善乘法器的速度。串联两个3:2压缩比的加法器以生成4:2压缩比的加法器，优化结构后的4:2压缩比的全加器在关键路径延迟仅为3个异或门。

改善4:2压缩加法器的体系结构，对进位输出和输入的逻辑等价变换：

变换后的压缩加法器的四个输入同时参与运算，即对每一个部分积进行压缩，关键路径为3个异或门。

使用并行前缀加法器改善以往加法器大面积、高延迟、窄位宽的约束。该算法需将进位传播和进位组织递归成树形结构，进位产生和进位传播信号由块进位产生和块进位传播表达式所替代。将N位加法器的进位传播信号层次化地分解为N位子组合，进位传播过程被分解为两位的子组合。

可配流水级的方式可有效改善并行乘法器的时序问题，打散关键路径以提高并行乘法器的运算速度和处理器数据的带宽，解决不能同时参与运算导致的毛刺问题。由于不同位数的乘法器速度上具有较大的差距，因此选择可配流水级的设计，可以兼容多种位宽的处理器，只需要添加一个额外的控制信号即可实现该功能，本设计采用2～3级流水线设计,第一个部分积占用一个流水线级，压缩树占用一个或两个流水级，根据计算位宽可随意调基于整。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种高带宽可配流水级的并行乘法器运算方法，采用流水线分割路径以提高乘法器的吞吐率，其特征在于，其中的并行乘法器包括改进型的基4-Booth编码、符号补偿单元、部分积产生队列以及基于前缀加法器的4-2华莱士压缩算法，并行乘法器整体采用改进型的基4-Booth编码器和4-2华莱士压缩算法的Wallace树为中心搭建，以及可配的流水级方案，而运算方法包括如下步骤：

步骤S3：编码后的乘数与被乘数完成部分积的运算。

2.根据权利要求1所述的并行乘法器运算方法，其特征在于：所述基于前缀加法器的4-2华莱士压缩树输入K个部分积乘法算子，有以改善算法的延迟。

3.根据权利要求1所述的并行乘法器运算方法，其特征在于：所述符号补偿单元中设有符号标志位控制符号运算，使得并行乘法器可完成32位有符号和无符号数的运算；同时符号的高位扩展采用一次性符号补偿技术。

4.根据权利要求3所述的并行乘法器运算方法，其特征在于：其中符号的高位扩展，即将部分积的最高位(符号扩展位)取反，再在符号位左边置一个符号位，并在符号位的下一位加1，以此来完成符号位的扩展。

5.根据权利要求1所述的并行乘法器运算方法，其特征在于：所述4-2华莱士压缩算法中的加法单元采用并行前缀加法器，该加法器将N位加法器进位传播信号化简为N位子组合。

6.根据权利要求2所述的并行乘法器运算方法，其特征在于：在于对乘法算子的部分积相加，采用混合华莱士压缩树对乘法算子进行加处理，采用4-2，3-2混合压缩算法，每四个或三个乘积算子经过加法器压缩后生成两个加法算子和一个进位算子。