CN111930342B

CN111930342B - 一种针对规格化浮点数的误差无偏近似乘法器及其实现方法

Info

Publication number: CN111930342B
Application number: CN202010969041.7A
Authority: CN
Inventors: 卓成; 陈闯涛; 杨森
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-01-19
Anticipated expiration: 2040-09-15
Also published as: JP7016559B1; JP2022048965A; CN111930342A; US20220083313A1; US11429347B2

Abstract

本发明公开了一种针对规格化浮点数的误差无偏近似乘法器及其实现方法，误差无偏近似乘法器包括符号与指数位模块、尾数近似模块和规格化模块；符号与指数位模块处理浮点数的符号运算和指数位运算；尾数近似模块通过多级误差修正模块的结果求和得到不同精度要求下的尾数近似结果；规格化模块根据尾数的运算结果对指数位进行调整，同时处理指数位溢出的情况，得到最终的乘积结果。本发明针对IEEE 754标准下规格化浮点数的乘法运算，在可控制精度等级的情况下，误差分布无偏，同时有明显的面积、速度、能效提升；适用于图像处理、机器学习等应用。

Description

一种针对规格化浮点数的误差无偏近似乘法器及其实现方法

技术领域

本发明涉及低功耗设计、近似计算、图像处理、机器学习等工程技术领域，特别涉及一种针对规格化浮点数的误差无偏近似乘法器及其实现方法。

背景技术

随着物联网的设备的快速发展，智能移动和可穿戴设备的功耗成为了限制视频图像处理等计算密集型应用效果的因素之一。乘法是视频图像处理、卷积神经网络等应用中的关键操作，同时也是降低功耗的关键。特定应用如多媒体处理、神经网络具有对于误差的容忍特性，这意味着计算过程中的近似对于结果的影响很小，利用这些特性，可以在降低乘法器精度的情况下大幅降低功耗、面积同时提高速度。

近年来，近似乘法器的研究多针对于近似电路模块的设计，如近似的乘法或加法模块，通过重新设计加法模块的逻辑电路以简化电路的复杂度，如以近似的4-2 、15-4Compressors模块替代原有的加法电路，另外，Parag Kulkarni等人提出2×2近似乘法器，使用3 bit来表示乘法结果（误差概率1/16)，利用该近似乘法器生成修正误差，并通过添加移位来建立更大位宽的乘法器。这些近似乘法器由于其固定的逻辑设计无法做到精度的调节，并且一般平均误差较大。

其他的近似方法如DRUM乘法器，其通过截取为k长度的尾数，以该部分尾数的乘法结果近似尾数的乘积，通过调节k的值可调节结果精度，在截取尾数后补1使得结果误差无偏。CFPU，RMAC是针对于浮点数的近似乘法器，两者采用近似和精确乘法器混合的方法，当近似计算无法达到误差要求时采用精确乘法计算，两者误差要求的阈值可以调整但是无法调整近似部分的精度。以上三种近似乘法器仍需要精确乘法器的参与。ApproxLP通过以输入的线性迭代操作替换非线性的乘法操作，在不依赖精确乘法器的同时做到了实时精度调节的能力。相对于之前的乘法器在精度、面积等方面均有所提升，但是其缺少严格的理论支持和一般性的设计方法，这使得其线性迭代方法的精度无法达到最优化。

综上，提供一种用于低误差、低面积、低功耗的近似乘法器的一般性设计方法对于智能移动和可穿戴设备的发展十分关键。

发明内容

本发明的目的在于针对目前近似乘法器能效的现有技术的不足，提供了一种针对规格化浮点数的误差无偏近似乘法器及其实现方法，理论分析表明，以均方绝对误差为标准，该近似乘法器的线性误差迭代方法具有理论最优性，具有相对误差小、误差分布无偏、面积开销小、计算速度快，功耗小的优点。

本发明的目的是通过以下技术方案来实现的：一种针对规格化浮点数的误差无偏近似乘法器，所述误差无偏近似乘法器包括符号与指数位模块、尾数近似模块和规格化模块；

所述符号与指数位模块将输入的规格化浮点数的符号位做异或处理，对指数位做加法操作并减去偏移量

，其中为n指数位的位数；

所述尾数近似模块包括0级近似模块和多级误差修正模块，所述0级近似模块和多级误差修正模块均以浮点数的尾数作为输入，其中每个误差修正模块还需要一个使能信号；0级近似模块生成基础的近似尾数乘法结果，即

，误差修正模块在使能时输出渐进的误差修正，该误差修正为输入尾数的移位与一个常数求和，即

，

为第i级误差修正模块的输出结果，X,Y表示输入浮点数尾数代表的实际值，对于规格化的浮点数，其范围为

，A,B为右移位数，C为浮点数偏移值；尾数近似模块将0级近似模块与使能的误差修正模块的结果输出进行求和，得到近似的尾数乘积结果；

所述规格化模块对近似的尾数乘积结果进行调整使其规格化，即使其范围在

之间，同时对符号与指数位模块的输出进行相应调整，得到待输出的指数结果；最后对待输出的指数结果进行溢出判断，如果指数位向上溢出，将结果赋值为IEEE 754标准下的无穷；如果指数位向下溢出，将结果赋值为IEEE 754标准下的0；若不发生溢出，则将当前的符号位、待输出的指数结果以及近似的尾数乘积结果作为输出，得到两规格化浮点数近似乘法的最终结果。

进一步地，对指数位减去偏移量

具体为：对于IEEE 754标准下的32位浮点数，n=8；对于64位浮点数，n=11。

进一步地，误差无偏近似乘法器通过使能不同数量的误差修正模块，在计算过程中实时调整近似精度。

进一步地，符号与指数位模块的指数位输出结果为输入的规格化浮点数的指数位求和并减去偏移值

，指数位向高位做两位扩展，用以判断上下溢出；发生上溢出时最高两位为01，此时

，结果为过大而无法表示的数，即正负无穷，其中

表示规格化浮点数的指数位求和结果；发生下溢出最高两位为11，此时

，结果为过小而无法表示的数，即正负零；不发生溢出时最高两位为00。

进一步地，所述尾数近似模块默认输入浮点数为规格化浮点数，将尾数前补1得到范围在

之间的尾数实际值，并在最高位做位扩展即补0，使得尾数的表示范围为

； 0级近似模块生成基础的近似尾数乘法结果；误差修正模块采用对尾数进行线性处理的方法；误差修正模块中的符号、移位位数和偏移值由模块级数、输入尾数的所属范围决定。

进一步地，误差修正模块对两输入浮点数的尾数区间进行方形划分：第k级误差修正模块将尾数的范围

划分为

个相等的区间，需要尾数的前k位判断尾数的所属区间；两输入尾数的所属区间划分是互相独立的，即模块将

的输入区间划分为

个相同的方形；同时不同等级的误差修正模块是互相独立的，即每个模块的操作不依赖于其他模块的结果。

进一步地，误差修正模块的线性化近似方法根据线性代数中极小化问题原理得到在方形划分方式下最低的方均误差结果以及无偏的误差分布。

进一步地，规格化模块对尾数近似模块的输出结果和符号与指数位模块的输出结果进行处理，具体为：通过对尾数近似模块的输出结果乘以2、除以2或不处理使其数值处于

的范围，尾数近似模块的输出结果大于等于2时，将尾数近似模块的输出结果右移并将符号与指数位模块输出的指数结果部分减1；尾数近似模块的输出结果小于1时，将尾数近似模块的输出结果左移并将符号与指数位模块输出的指数部分加1；尾数近似模块的输出结果在

间时保持尾数近似模块和符号与指数位模块的输出结果不变；规格化模块对尾数近似模块的输出结果和符号与指数位模块的输出结果进行处理后，将处理后的尾数近似模块的输出结果作为待输出的尾数结果，将处理后的符号与指数位模块的指数部分作为待输出的指数结果。

进一步地，规格化模块对待输出的指数结果做溢出判断，当待输出的指数结果的高2位为01时表示发生向上溢出，结果赋值为符合IEEE 754标准的无穷，即指数位全为1，尾数位全为0；当待输出的指数结果的高2位为11时表示发生向下溢出，结果赋值为IEEE 754标准的零值，即指数位与尾数位全为0；当待输出的指数结果高2位为00时，不发生溢出，以符号与指数位模块输出中的符号位作为输出符号位，以待输出的指数结果去除高两位作为输出的指数位，以待输出的尾数结果去除高两位作为输出的尾数位。

本发明还提出一种针对规格化浮点数的误差无偏近似乘法器的实现方法，具体实现步骤如下：

（1）符号与指数位模块对输入的规格化浮点数中乘数与被乘数的符号位做异或处理，对指数位高位扩展2位，将乘数与被乘数的指数位求和并减去偏移量

，得到符号与指数位模块的指数位结果；

（2）尾数近似模块中的0级近似模块和多级误差修正模块均以浮点数的尾数作为输入，其中每个误差修正模块还需要一个使能信号；0级近似模块的输出为：

；第i级误差修正模块的输出为

；尾数近似模块对0级近似模块和使能的误差修正模块的结果进行求和，作为近似的尾数乘积结果输出；

（3）规格化模块以符号与指数位模块、尾数近似模块的输出为输入，通过对尾数近似模块的输出结果乘以2、除以2或不处理使其数值处于

的范围；当对尾数近似模块的输出除以2时，符号与指数位模块输出中的指数部分加1，当对尾数近似模块的输出乘以2 时，将符号与指数位模块输出中的指数部分减1，当对尾数近似模块的输出不处理时，符号与指数位模块输出中的指数部分也不处理，规格化模块得到待输出的尾数结果和待输出的指数结果；

（4）对于待输出的指数结果的高两位做溢出判断：当高两位为01时，向上溢出，将结果赋值为IEEE 754标准下的无穷；当高两位为11时，向下溢出，将结果赋值为IEEE 754标准下的0；当高两位为00时，结果不发生溢出，以符号与指数位模块输出中的符号位作为输出符号位；以待输出的指数结果去除高两位作为输出的指数位，以待输出的尾数结果去除高两位作为输出的尾数位。

本发明的有益效果如下：

1）本发明实现了针对规约形式浮点数的近似乘法器，在可控制精度等级的情况下，有明显的面积、速度、能效提升；适用于图像处理、机器学习等应用。

2）以移位和加法的方式对误差进行迭代修正，能够在计算过程中实时调节近似误差。

3）通过线性代数中的极小化问题得到迭代过程中的系数，达到了在输入独立判断情况下的最优近似同时保证了误差的无偏分布。

附图说明

图1是本发明所提出的针对规格化浮点数的误差无偏近似乘法器的总体架构示意图，包括三个模块：a）符号与指数位模块；b）尾数近似模块；c）规格化模块；

图2是本发明所提出的近似乘法器与ApproxLP在尾数近似部分的结构差异，a）为ApproxLP的尾数近似模块结构图；b）为本发明所提出的近似乘法器的尾数近似模块结构图；

图3是对于均匀分布的随机浮点数输入，不同近似等级下，本发明所提出的的近似乘法器的均方误差MSE、平均绝对误差MAE与最大误差Max Error示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提出的一种针对规格化浮点数的误差无偏近似乘法器，包括以下模块：

（1）符号与指数位模块：将输入的规格化浮点数的符号位做异或操作：

和

分别表示输入的两乘数的符号位，

为符号位做异或操作的结果。

对输入指数位做求和操作，并减去偏移值，得到符号位与指数位的指数结果

：

和

分别表示两乘数的输入指数位，将结果做位扩展为n+2位用于溢出判断：发生上溢出，即

时，最高两位为01；发生下溢出，即

时，最高两位为11。其中n为指数位的位数，对于IEEE 754标准下的 32位浮点数，n=8；对于64位浮点数，n=11。

（2）尾数近似模块：包括0级近似模块和多级误差修正模块，这些模块均以浮点数的尾数作为输入，其中每个误差修正模块还需要一个使能信号，误差无偏近似乘法器通过使能不同数量的误差修正模块，在计算过程中实时调整近似精度；尾数近似模块通过对输入尾数的线性操作近似非线性的乘法操作。线性操作指

，其中A’,B’,C’为常数，Z为近似结果，X,Y表示输入浮点数尾数代表的实际值，对于规约化的浮点数，其范围为

。为了避免再引入常数与输入的乘法操作，对于前两个系数的限制为其必须为2的幂次或较少数量的2的幂次的组合，将乘法操作转化成对于输入的移位和加法操作。尾数近似模块将0级近似模块与使能的误差修正模块的结果输出进行求和，得到近似的尾数乘积结果；

本发明所提出的近似乘法器，第k级近似将输入尾数的范围

划分为

个相等的区间，判断其所属区间需要尾数的前k位，两输入尾数的所属区间划分是互相独立的，即模块将

的输入区间划分为

个相同的方形；将前k位代表的实际值表示为

和

，则其所属区间的中点值为

和

，即在第

位小数补，记为

,

。例如：输入尾数

（二进制小数表示），第4级近似，需要X的小数位前 4位，

，X的所属区间为

，该区间的中点值为

。k级近似下的近似乘法结果记为

，根据极小化问题可以得到：

特别的，0级近似模块为k=0的情况，

。

时，

以保证各级模块结果的求和

。进一步的，计算

的表达式为：

每一级的误差修正模块仅涉及输入尾数的移位操作，第i级误差修正模块对输入右移i+1位；

表达式表示当

为1时，该表达式结果为1，当

为0时，该表达式结果为-1，即正负号由另一输入的第i位的值决定。偏移项

与输入的所属区间有关，对于i不大的情况，将其作为常数预先计算能够节省逻辑单元。

例如对于1级误差修正模块，输入区间被划分为

四个区间，对于不同的区间下偏移项的值如表1所示：

表1 不同的区间下偏移项的值

如图2所示，为本发明所提出的近似乘法器与ApproxLP在尾数近似部分的结构差异示意图。图2中a）为ApproxLP的尾数近似模块结构图，高等级误差修正模块依赖于低等级误差修正模块的判断结果；图2中b）为本发明所提出的近似乘法器的尾数近似模块结构图，不同等级模块之间没有依赖关系。相较于ApproxLP近似乘法器，本发明所提出近似乘法器对于两浮点数输入做独立判断，且不同级别模块的判断之间独立，高等级误差修正模块不依赖于低等级误差修正模块的判断结果，每个模块对于区域的判断无需用到所有位，这样的处理简化了判断逻辑和电路延时。并且如图3所示，对于均匀分布的随机浮点数输入，不同近似等级下，本发明所提出的的近似乘法器随着近似级数越多，均方误差MSE、平均绝对误差MAE与最大误差Max Error越小。

对于每一个区间数均需要一个预设的偏移值，这在低等级模块是十分方便且简洁的，然而这个数量与模块等级的复杂度是呈指数级别的，对于高等级的误差修正模块，提出以下优化方法：

第i级的误差修正结果等价于以下形式：

采用上述表达的近似模块增加了两次加法操作和一次移位和异或操作，但是不需要预先计算偏移值，这在近似等级较高时能大幅降低电路复杂度。

（3）规格化模块：规格化模块调整尾数近似模块输出结果的范围使其满足规格化要求。规格化浮点数的尾数范围为

，由于近似计算的原因，两尾数的近似乘积的范围为(0.5,4)，当尾数乘积结果在(0.5,1)范围时，最高两位为00，将结果左移一位作为待输出的尾数结果，并在符号位与指数位的指数结果减一作为待输出的指数结果；当尾数乘积结果在[2,4)范围时，最高位为1，将结果右移一位作为待输出的尾数结果并在符号位与指数位的指数结果加一作为待输出的指数结果；当尾数乘积结果在

范围时，最高两位为 01，无需移位直接作为待输出的尾数结果，且直接将指数位的指数结果作为待输出的指数结果。

上述操作后，对待输出的指数结果作如下判断：当待输出的指数结果的高2位为01时表示发生向上溢出，即过大而无法表示的表示数，结果赋值为符合IEEE 754标准的无穷，即指数位全为1，尾数位全为0；当最终指数结果的高2位为11时表示发生向下溢出，即过小而无法表示的数，结果赋值为IEEE 754标准的零值，即指数位与尾数位全为0。不发生溢出则以符号与指数位模块输出中的符号位作为输出符号位，以待输出的指数结果去除高两位作为输出的指数位，以尾数近似模块的输出的小数部分作为输出的尾数位。

本发明还提出一种针对规格化浮点数的误差无偏近似乘法器的实现方法，误差无偏近似乘法器包括符号与指数位模块、尾数近似模块和规格化模块；具体实现步骤如下：

，其中n为指数位的位数，得到符号与指数位模块的指数位结果；

（2）尾数近似模块包含0级近似模块和多级误差修正模块，以两规格化浮点数的尾数部分的实际值X,Y以及每一级误差修正模块的使能信号为输入；0级近似模块的输出为：

；第i级误差修正模块的输出为

，其中，X,Y表示输入浮点数尾数代表的实际值，对于规格化的浮点数，其范围为

，A,B 为右移位数，C为浮点数偏移值；正负号和A,B,C的值通过对于输入浮点数的尾数区间的方形划分后利用线性代数极小化问题确定；所述方形划分具体为：第k级误差修正模块将尾数的范围

划分为

个相等的区间，需要尾数的前k位判断尾数的所属区间；尾数近似模块对0级近似模块和使能的误差修正模块的结果进行求和，作为近似的尾数乘积结果输出。

的范围；当对尾数近似模块的输出除以2时，符号与指数位模块输出中的指数部分加1，当对尾数近似模块的输出乘以2 时，将符号与指数位模块输出中的指数部分减1，当对尾数近似模块的输出不处理时，符号与指数位模块输出中的指数部分也不处理，规格化模块得到待输出的尾数结果和待输出的指数结果。

（4）对于待输出的指数结果的高两位做溢出判断：当高两位为01时，向上溢出，将结果赋值为IEEE 754标准下的无穷；当高两位为11时，向下溢出，将结果赋值为IEEE 754标准下的0；当高两位为00时，结果不发生溢出，以符号与指数位模块输出中的符号位作为输出符号位，以待输出的指数结果去除高两位作为输出的指数位，以待输出的尾数结果去除高两位作为输出的尾数位。

本专利不局限于上述最佳实施方式。任何人在本专利的启示下都可以得出其他各种形式的用于可配置近似乘法器及其实现方法，凡依照本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，所述误差无偏近似乘法器包括符号与指数位模块、尾数近似模块和规格化模块；

，其中为n指数位的位数；

，

所述规格化模块对近似的尾数乘积结果进行调整使其规格化，使其范围在

2.根据权利要求1所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，对指数位减去偏移量

3.根据权利要求1所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，误差无偏近似乘法器通过使能不同数量的误差修正模块，在计算过程中实时调整近似精度。

4.根据权利要求1所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，符号与指数位模块的指数位输出结果为输入的规格化浮点数的指数位求和并减去偏移值

，符号与指数位模块的指数位输出结果为过大而无法表示的数，即正负无穷，其中

，符号与指数位模块的指数位输出结果为过小而无法表示的数，即正负零；不发生溢出时最高两位为00。

5.根据权利要求1所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，所述尾数近似模块默认输入浮点数为规格化浮点数，将尾数前补1得到范围在

之间的尾数实际值，并在最高位做位扩展，即补0，使得尾数的表示范围为

；0级近似模块生成基础的近似尾数乘法结果；误差修正模块采用对尾数进行线性处理的方法；误差修正模块中的符号、移位位数和偏移值由模块级数、输入尾数的所属范围决定。

6.根据权利要求1所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，误差修正模块对两输入浮点数的尾数区间进行方形划分：第k级误差修正模块将尾数的范围

划分为

的输入区间划分为

个相同的方形；同时不同等级的误差修正模块是互相独立的。

7.根据权利要求6所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，误差修正模块的线性化近似方法根据线性代数中极小化问题原理得到在方形划分方式下最低的方均误差结果以及无偏的误差分布。

8.根据权利要求1所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，规格化模块对尾数近似模块的输出结果和符号与指数位模块的输出结果进行处理，具体为：通过对尾数近似模块的输出结果乘以2、除以2或不处理使其数值处于

9.根据权利要求1所述的一种针对规格化浮点数的误差无偏近似乘法器，其特征在于，规格化模块对待输出的指数结果做溢出判断，当待输出的指数结果的高2位为01时表示发生向上溢出，结果赋值为符合IEEE 754标准的无穷，即指数位全为1，尾数位全为0；当待输出的指数结果的高2位为11时表示发生向下溢出，结果赋值为IEEE 754标准的零值，即指数位与尾数位全为0；当待输出的指数结果高2位为00时，不发生溢出，以符号与指数位模块输出中的符号位作为输出符号位，以待输出的指数结果去除高两位作为输出的指数位，以待输出的尾数结果去除高两位作为输出的尾数位。

10.一种基于权利要求1所述的针对规格化浮点数的误差无偏近似乘法器的实现方法，其特征在于，具体实现步骤如下：

，得到符号与指数位模块的指数位结果；

；第i级误差修正模块的输出为

的范围；当对尾数近似模块的输出除以2时，符号与指数位模块输出中的指数部分加1，当对尾数近似模块的输出乘以2时，将符号与指数位模块输出中的指数部分减1，当对尾数近似模块的输出不处理时，符号与指数位模块输出中的指数部分也不处理，规格化模块得到待输出的尾数结果和待输出的指数结果；