CN111857650A

CN111857650A - 一种基于镜像查找表实现任意浮点型运算的硬件计算系统及其计算方法

Info

Publication number: CN111857650A
Application number: CN202010773110.7A
Authority: CN
Inventors: 李丽; 杨和平; 傅玉祥; 陈辉; 蒋林; 李伟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-10-30
Anticipated expiration: 2040-08-04
Also published as: CN111857650B

Abstract

本发明涉及一种基于镜像查找表实现任意浮点型运算的硬件计算系统及其计算方法，计算系统包括调度模块，进行总体任务的调度和连接；镜像查找表模块，存储镜像查找表，实现多分类并行查找；延时模块，对输入数据进行延拍，实现流水计算；分段乘法器模块，将输入32位的定点型乘法因数分别分为4个8位的因子进行计算，对应相乘后，将输出数据整合截位，最终输出32位的乘法结果；数据处理单元模块，包含定浮转换单元和加法单元。有益效果：本发明采用镜像查找表和多段乘法器，内部运用多分类并行执行的方法，在确保硬件计算性能和精度高的前提下，降低算法的硬件资源开销，并降低实际硬件运行功耗和计算运行周期，适用于各种场景下类似

的计算。

Description

一种基于镜像查找表实现任意浮点型运算的硬件计算系统及其计算方法

技术领域

本发明涉及函数计算的硬件实现领域，具体涉及一种基于镜像查找表实现任意浮点型运算的硬件计算系统及其计算方法。

背景技术

查找表（Look_Up_Table）简称为LUT，在本质上实现的是一个静态的RAM，目前大量的用于硬件算法和函数的实现中，相较于传统逻辑算法实现，查找表方法在硬件实现中使用更少的时钟周期数以及更高的运行效率。但同时，查找表方法需要占用一部分硬件实现面积用于存储固定数值的点数，一般算法所需要的精度越高，查找表所需要存储的点数就会呈现几何倍数递增，导致硬件实现面积相对于其他类型的实现方式变大。LUT方式多数用于对精度要求不高，但对时序要求较高的硬件实现中，在当前硬件发展工业中，大多用于对幂指数函数、对数函数和神经网络的各类激活函数（sigmoid、tanh、relu等）等函数运算的硬件实现。

运算作为一种常见的基本运算函数，包含了开根、指数运算等基本运算的实现，在集成电路IP发展和实际工业运用中占据十分重要的地位。

当前对

运算主要的实现方式有线性近似、Talyor展开法以及传统的查找表等方式，这些方法大多存在硬件面积大、时序周期长、精度差等缺点，因此研究一种综合全面的

函数硬件IP实现，对于现代集成电路工业技术发展具有十分重要的意义。

发明内容

发明目的：旨在克服以上现有技术的不足，综合考虑硬件实现的精度、面积功耗和周期方面，提供一种利用镜像查找表和分段乘法器，在保证

函数实现的高精度的同时，降低硬件实现面积和功耗，减少运算时钟周期。

技术方案：一种基于镜像查找表实现任意浮点型运算的硬件计算系统，包括任务调度模块、镜像LUT模块、分段乘法器模块。

所述任务调度模块进行任务的调度和连接。所述任务调度模块按照任务调度调用延时模块和数据处理单元模块，将控制处理的数据送入镜像LUT模块和分段乘法器模块，最终输出指数函数的最终运算结果。

所述镜像LUT模块存储镜像查找表，根据输入模块判决信号判断查找类型是以2为底的对数函数结果，或者是2的指数函数结果。

所述分段乘法器模块对输入32位的乘法因数乘法分别分为4个8位的乘法因子计算，对应相乘后，将输出数据整合截位，最终输出乘法结果。

在进一步的实施例中，镜像查找表分为dataX和dataY ，两种数据的值对于以2为底的对数函数和2的指数函数来说，两者的值域和定义域互为对方的镜像对称映射，其中dataX 存储的数据为

，dataY存储的数据为

，以上两种数据在硬件中均采用浮点类型表示。为了保证镜像查找表的运行时序达到1.5Ghz以上，采用对镜像查找表进行多分类，将1024点按照数值范围划分数据域，共分为32类，每一类中采用32路并行查找的方式，极大提高硬件运行能力。

在进一步的实施例中，所述镜像LUT模块包括MUX选通，当选择信号指向

功能时，则采用以dataX为查找因子，dataY为查找结果；当选择信号指向

功能时，则翻转镜像，采用以dataY为查找因子，dataX为查找结果。通过该方式减少存储的数据量，降低

查找表的面积。

基于镜像查找表实现

的硬件计算系统的具体计算流程如下：

步骤1、对于

的

运算函数输入浮点型数据

和定点型数据

，分别送入延时单元，实现硬件全流水；

步骤2、将浮点型数据

分离出阶码

和尾数

，将尾数

和MUX选择信号送入镜像LUT模块中，等待计算出的

的结果和输出有效信号；

步骤3、当镜像查找表模块的输出有效信号有效时，其查找结果与阶码

通过加法单元可得

的结果，此结果与通过固定延时的定点型数据

同步送入分段乘法模块中；

步骤4、当分段乘法模块的输出有效信号有效时，将得到

的计算结果，随后分离出整数位

和正小数位

，再将

和

分别送入到延时模块和镜像查找表模块；

步骤5、当镜像查找表模块的输出有效信号有效时，其查找结果作为浮点型输出数据的小数位，之前的

加上偏移阶码127作为浮点型输出数据的整数位， x、y的符号位相异或可得到结果的符号位，即最后输出

的浮点型计算结果。

在进一步的实施例中，步骤2中当输入数据

有效时，通过数据处理单元模块中的定浮转换单元，将输入y转换为定点类型，再从输入x中分离出阶码

和尾数

，延时模块将定点型数据

、

的阶码

和尾数

分别进行固定延时，尾数

送入镜像查找表模块，用于查找

的计算结果。

在进一步的实施例中，步骤3中当接收到镜像LUT模块的输出有效信号后，将阶码和

的结果送入加法单元，等待经过加法单元的结果和加法器输出有效信号，再将加法结果进行定浮转换，与定点型数据

送入分段乘法器单元，进行乘法操作。

在进一步的实施例中，所述镜像LUT模块分时复用，同时实现以2为底的对数函数计算和以2为底的指数函数计算，通过输入的MUX信号对镜像LUT进行功能选择；镜像LUT模块内部进行多分类并行操作，根据输入的数据进行多路并行查找，首先查找输入数据的所在类别，随后进入该类别的数据池中查找出对应的结果数据。

在进一步的实施例中，所述的分段乘法模块实现浮点型数据的乘法功能，包含有两个乘法因数分别为：从延时模块接收到的定点型数据

从定浮转换单元中输出的

的定点型结果，分别将两个32位的乘法因数分别分为4段，每段数据位宽为8位，对应段进行乘法操作，最后输出为截位的32位定点型结果。

在进一步的实施例中，所述的输出32位浮点结果是由镜像查找表输出的结果、从

之积中分离的整数位加上127，拼接成一个32位的浮点型结果数据。

有益效果：本发明的基于镜像查找表实现的硬件实现方式采用浮点型数据格式，确保精度的条件下，针对工业中

运算所支持的数据范围确定最佳的位宽配置方式。该方法既满足传统LUT设计的低时钟周期，同时通过算法计算和运用函数的数学特性生成特殊镜像查找表，实现降低硬件实现面积、实际功耗以及运行周期数，提高时序性能。对当前各类实现方式进行综合权衡，对当前电子通信领域中

的硬件设计具有综合性的性能提升。

附图说明

图1是本发明基于镜像查找表实现

的硬件计算系统的模块示意图。

图2是实现任意浮点型

计算系统的流程图。

图3是镜像查找表（MIRROR_LUT）架构图。

图4是分段乘法器架构图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

申请人认为，当前对

为此，申请人综合考虑硬件实现的精度、面积功耗和周期方面，提供一种利用镜像查找表和分段乘法器，在保证

函数实现的高精度的同时，降低硬件实现面积和功耗，减少运算时钟周期，具体由以下技术方案实现。

实施例一：

本实例所述的基于镜像查找表实现

的硬件计算系统，主要是由任务调度模块、镜像LUT模块、延时模块、分段乘法器模块、数据处理单元模块组成，具体结构如图1所示。任务调度模块进行任务的调度和连接。镜像LUT模块存储镜像查找表，根据输入模块判决信号判断查找类型是以2为底的对数函数结果，或者是2的指数函数结果。分段乘法器模块对输入32位的乘法因数乘法分别分为4个8位的乘法因子计算，对应相乘后，将输出数据整合截位，最终输出乘法结果。

实施例二：

在实施例一的基础上，所述任务调度模块按照任务调度调用延时模块和数据处理单元模块，将控制处理的数据送入镜像LUT模块和分段乘法器模块，最终输出指数函数的最终运算结果。

实施例三：

在实施例一和实施例二的基础之上，所述计算系统计算指数函数的过程如下：

i.设定

，其中

和

的范围为任意的浮点数，

采用浮点型表示为

，

表示浮点数X的尾数、

表示浮点数X的阶码；

ii.当输入数据

和尾数

，延时模块将定点型数据

、

的阶码

和尾数

分别进行固定延时，尾数

送入镜像查找表模块，用于查找

的计算结果；

iii.当镜像查找表模块（此时计算以2为底的对数函数）的输出有效（valid）信号有效时，其查找结果与阶码

通过加法单元可得

的结果，此结果与通过固定延时的定点型

同步送入分段乘法模块中；

iv.当分段乘法模块的输出有效（valid）信号有效时，将得到

的计算结果，随后分离出整数位

和正小数位

，再将

和

分别送入到延时模块和镜像查找表模块。

当镜像查找表模块（此时计算以2为底的指数函数）的输出有效（valid）信号有效时，其查找结果作为浮点型输出数据的小数位，之前的

加上偏移阶码127（以单精度浮点型为例）作为浮点型输出数据的整数位， X、Y的符号位相异或可得到结果的符号位，即最后输出

的浮点型计算结果。

实施例四：

在实施例二的基础之上，所述镜像LUT模块可以实现查找以2为底数的对数计算结果和2的指数计算结果，通过输入的MUX信号对镜像LUT进行功能选择，同时，镜像LUT内部进行了多分类并行操作，对输入的数据进行分类操作，当满足分类要求时，则进入该分类池中进行并行查找对应的结果数据。所述的分段乘法模块实现浮点型数据的乘法功能，包含有两个乘法因数分别为：从延时模块接收到的定点型数据

从定浮转换单元中输出的

的定点型结果，分别将两个32位的乘法因数分别分为4段，每段数据位宽为8位，对应段进行乘法操作，最后输出为截位的32位定点型结果。所述的输出32位浮点结果是由镜像查找表输出的结果、从

实施例五：

上述实施例所述的基于镜像查找表实现

的硬件计算系统的实现原理如下：

形如

叫做

，其中

和的范围为任意的浮点数。假定

,

，底数

可用浮点型表示为

（

为尾数、

为阶码），则

其中，

为

分离出的整数，

为

分离出的正小数部分。最后输出的结果为镜像LUT输出的

的结果与

+127整合，具体为

+127作为32位浮点数表示的整数位，

的结果作为32位浮点数表示的小数位。

基于上述实施例所述的基于镜像查找表实现

的硬件计算系统，实施例五提出一种具体计算流程（如图2）：

步骤一：对于

运算函数输入浮点型数据

和定点型数据

,分别送入延时单元，实现硬件全流水。

步骤二：将浮点型数据

分离出阶码

和尾数

，将尾数

和MUX选择信号送入镜像LUT模块中，等待计算出的

的结果和输出有效（valid）信号。

步骤三：当接收到镜像LUT模块的输出有效（valid）信号后，将阶码

和

的结果送入加法单元，等待经过加法单元的结果和加法器输出有效（valid）信号，再将加法结果进行定浮转换，与定点型数据

送入分段乘法器单元，进行乘法操作。

步骤四：等待分段乘法器的计算结果和输出有效（valid）信号，将结果分离出整数部分

和正小数部分

，并将正小数部分

和MUX信号送入到镜像LUT模块，等待计算出的

的结果和输出有效（valid）信号。

步骤五：最后，在任务调度模块中，将

的计算结果作为32位浮点数据的小数位，

作为32位浮点数据的整数位，输出最终的指数函数运算结果。

本实例所述的基于镜像查找表实现

的硬件计算系统的镜像查找表（MIRROR_LUT）的设计，如图3所示，镜像查找表分为dataX和dataY ，两种数据的值对于以2为底的对数函数和2的指数函数来说，两者的值域和定义域互为对方的镜像对称映射，其中dataX 存储的数据为

，dataY存储的数据为

，以上两种数据在硬件中均采用浮点类型表示。为了保证镜像查找表的运行时序达到1.5Ghz以上，采用对镜像查找表进行多分类，将图中所示的1024点按照数值范围划分数据域，共分为32类，每一类中采用32路并行查找的方式，极大提高硬件运行能力。另外，镜像查找表模块含有MUX选通，当选择信号指向

查找表的面积。

本实例所述的基于镜像查找表实现

的硬件计算系统的分段乘法器的设计，如图4所示，将输入的32位乘法因子MUL_OP1和MUL_OP2分别分为4段，每段为8位数据，将分段的定点型数乘法因子对应进行乘法操作，每段都会得到16bit的结果数据，对四段结果数据进行截位操作，截取后8位进行位拼接，重新构成最终MUL_OP1和MUL_OP2的乘法结果。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于镜像查找表实现任意浮点型运算的硬件计算系统，其特征在于包括如下模块：

进行总体的任务调度和模块连接的任务调度模块；

用于存储对称映射的镜像查找表的镜像LUT模块；

用于将输出数据整合截位最终输出结果的分段乘法器模块。

2.根据权利要求1所述的一种基于镜像查找表实现任意浮点型运算的硬件计算系统，其特征在于，所述任务调度模块按照任务调度延时单元和数据处理单元模块，控制处理的数据送入镜像LUT模块和分段乘法器模块，最终得到运算结果；

所述镜像LUT模块存储对称映射的镜像查找表，并进一步根据输入模块判决信号判断查找类型；

所述分段乘法器模块进一步用于将输入的32位定点型乘法因数分别分为4个8位的因子进行计算，对应相乘后，将输出数据整合截位，最终输出32位的乘法结果。

3. 根据权利要求1所述的一种基于镜像查找表实现任意浮点型运算的硬件计算系统，其特征在于，所述镜像查找表包括dataX和dataY两种数据，其中dataX 存储的数据为

，dataY存储的数据为

。

4.根据权利要求3所述的一种基于镜像查找表实现任意浮点型运算的硬件计算系统，其特征在于，所述镜像LUT模块包括MUX选通，当选择信号指向

功能时，则翻转镜像，采用以dataY为查找因子，dataX为查找结果。

5.一种基于镜像查找表实现任意浮点型运算的硬件计算方法，其特征在于包括如下步骤：

步骤1、对于

的

运算函数输入浮点型数据

和定点型数据

，分别送入延时单元，实现硬件全流水；

步骤2、将浮点型数据

分离出阶码

和尾数

，将尾数

和MUX选择信号送入镜像LUT模块中，等待计算出的

的结果和输出有效信号；

通过加法单元可得

的结果，此结果与通过固定延时的定点型数据

同步送入分段乘法模块中；

步骤4、当分段乘法模块的输出有效信号有效时，将得到

的计算结果，随后分离出整数位

和正小数位

，再将

和

分别送入到延时模块和镜像查找表模块；

的浮点型计算结果。

6. 根据权利要求5所述的一种基于镜像查找表实现任意浮点型运算的硬件计算方法，其特征在于，步骤2中当输入数据

和尾数

，延时模块将定点型数据

、

的阶码

和尾数

分别进行固定延时，尾数

送入镜像查找表模块，用于查找

的计算结果。

7.根据权利要求5所述的一种基于镜像查找表实现任意浮点型运算的硬件计算方法，其特征在于，步骤3中当接收到镜像LUT模块的输出有效信号后，将阶码

和

送入分段乘法器单元，进行乘法操作。

8.根据权利要求5所述的一种基于镜像查找表实现任意浮点型运算的硬件计算方法，其特征在于，所述镜像LUT模块分时复用，同时实现以2为底的对数函数计算和以2为底的指数函数计算，通过输入的MUX信号对镜像LUT进行功能选择；镜像LUT模块内部进行多分类并行操作，根据输入的数据进行多路并行查找，首先查找输入数据的所在类别，随后进入该类别的数据池中查找出对应的结果数据。

9.根据权利要求5所述的一种基于镜像查找表实现任意浮点型运算的硬件计算方法，其特征在于，所述分段乘法模块实现32位定点型数据的乘法功能，其两个乘法因数分别为：从延时模块接收到的定点型数据

的定点型结果，两个32位的乘法因数被分为4段，每段数据位宽为8位，对应段进行乘法操作，最后输出为截位的32位定点型结果。