CN114860193A

CN114860193A - 一种用于计算Power函数的硬件运算电路及数据处理方法

Info

Publication number: CN114860193A
Application number: CN202210429140.5A
Authority: CN
Inventors: 宋宇鲲; 程甜甜; 韩帅鹏; 倪伟; 张多利
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-04-13
Filing date: 2022-04-22
Publication date: 2022-08-05

Abstract

本申请公开了一种用于计算Power函数的硬件运算电路及数据处理方法，其中，该硬件运算电路包括：对数计算模块，乘法模块和指数计算模块；对数计算模块被配置为根据第一参数的阶码生成第一中间参数，根据第一参数的尾数，采用查表和对数泰勒级数展开的方式计算第二中间参数，并根据第一中间参数和第二中间参数，生成对数计算结果；乘法模块用于计算对数计算结果与第二参数的乘积，将乘积记作乘法计算结果；指数计算模块被配置为根据乘法模块的乘法计算结果进行指数运算，生成第一参数和第二参数的Power函数运算结果。通过本申请中的技术方案，对Power函数的硬件运算电路进行优化，使其能够提供较高的计算精度、支持更广数据范围、减少资源占用。

Description

一种用于计算Power函数的硬件运算电路及数据处理方法

技术领域

本申请涉及硬件运算电路的技术领域，具体而言，涉及一种用于计算 Power函数的硬件运算电路及一种在工业硬件运算电路中的数据处理方法。

背景技术

Power函数是一种常见的超越函数，表达式为f(x,y)＝x^y，广泛应用于数字信号处理、人工智能、控制系统和导航系统等多个领域，其中，泰勒级数展开、傅里叶变换等科学计算都能转变成Power函数的综合运算。虽然关于Power函数的软件计算方法已经非常普遍，但是在实际工程应用中，常常需要对Power函数的运算进行专用硬件实现。

例如在相关文献《X-DSP IP核Power函数部件的设计与验证》中，其硬件结构主要分为对数通路、乘法通路以及指数通路。将Power函数通过数学变形转变为

利用对数通路计算对数log₂ x，再由乘法通路将参数y与对数结果相乘，最后由指数通路计算指数

最终得到Power函数结果。通过对输入数据区间进行划分，在每个等分区间内进行多项式逼近，其中，对数部分的逼近多项式采用三次四项式，指数部分采用二次三项式，利用查找表存储多项式系数。

而现有技术中，此类计算Power函数硬件电路通常存在以下问题：

1、由于用查找表存储系数，则存储资源由划分的区间大小和多项式展开的项数决定，通常需要消耗大量的存储资源；

2、由于存储的限制，划分的区间不能无限小，则要满足计算精度就需要较多的多项式展开项数，会带来更大的运算资源消耗和计算延迟。

3、利用切比雪夫算法在不同区间对目标函数逼近的方法，多项式不固定，且乘系数没有硬件技巧可使用，对多项式的实现上可优化空间小，乘加计算过多。

发明内容

本申请的目的在于：对Power函数的硬件运算电路进行优化，使其能够提供较高的计算精度、支持更广数据范围、减少资源占用。

本申请第一方面的技术方案是：提供了一种用于计算Power函数的硬件运算电路，该硬件运算电路包括：对数计算模块，乘法模块和指数计算模块；对数计算模块被配置为根据第一参数x的阶码E生成第一中间参数，根据第一参数x的尾数M，采用查表和对数泰勒级数展开的方式计算第二中间参数，并根据第一中间参数和第二中间参数，生成对数计算结果；乘法模块用于计算对数计算结果与第二参数y的乘积，将乘积记作乘法计算结果w；指数计算模块被配置为根据乘法模块的乘法计算结果w进行指数运算，生成第一参数x和第二参数y的Power函数运算结果，其中，指数运算的底数为2，指数运算的指数为乘法器的乘法计算结果w。

上述任一项技术方案中，进一步地，对数计算模块包括：对数预处理模块，对数泰勒计算单元以及对数后处理模块；对数预处理模块至少包括：对数查表单元，第一乘法器M0，对数组合逻辑单元，第二乘法器M1以及第一加法器A0，其中，对数查表单元被配置为根据第一参数x中尾数M的高q+1位进行第一查表，确定第一查表值e₁，并根据第一查表值e₁进行第二查表，确定第二查表值ln(f₁)；第一乘法器M0的输入端连接于对数查表单元，第一乘法器M0的输出端连接于对数组合逻辑单元，第一乘法器M0 被配置为对第一查表值e₁进行移位加1的操作结果f₁与乘法中间值1.M进行乘法运算，记作第一乘法值c，其中，乘法中间值1.M为1与第一参数x 的尾数M的和值；对数组合逻辑单元被配置为根据第一乘法值c确定第一逻辑值e₂以及第二逻辑值f2，其中，对数查表单元还被配置为根据第一逻辑值e₂用于通过查表的方式确定第三查表值ln(f₂)；第二乘法器M1的输入端分别连接于对数组合逻辑单元以及第一乘法器M0的输出端，第二乘法器 M1用于计算第二逻辑值f₂与第一乘法值c的乘积，记作第二乘法值k；第一加法器A0的输入端连接于对数查表单元，第一加法器A0被配置为计算第二查表值ln(f₁)与第三查表值ln(f2)的和值，记作第一和值；对数泰勒计算单元被配置为根据第二乘法值k计算第二中间参数；对数后处理模块用于根据第一中间参数和第二中间参数，生成对数计算结果。

上述任一项技术方案中，进一步地，对数组合逻辑单元被配置为根据第一乘法值c确定第一逻辑值e₂以及第二逻辑值f2，具体包括：步骤A，将第一乘法值c作为输入数据；步骤B，判断输入数据的判断位是否等于1，其中，判断位可以为第一乘法值c中符号位、整数位、符号位和整数位中的一种；若等于1，则在判断位与输入数据的其余位之间增加n个0或者1，以组成输出数据，其中，输出数据为第一逻辑值e₂；

若不等于1，即为0时，按照判断位、待增加数据、补码数据的形式组成输出数据，其中，待增加数据为n个0或者1，补码数据为输入数据的其余位的补码；步骤C，将第一逻辑值e₂作为输入数据，重新执行步骤B，以确定第二逻辑值f2。

上述任一项技术方案中，进一步地，对数后处理模块至少包括：第二加法器A1，第三乘法器M2以及第三加法器A2；第二加法器A1的输入端分别连接于第一加法器A0以及对数泰勒计算单元的输出端，第二加法器A1被配置为计算第一和值与第二中间参数的和值，记作第二和值；第三乘法器M2被配置为计算第二和值与1/ln(2)的乘积，记作第三乘法值；第三加法器A2被配置为计算第一中间参数与第三乘法值的和值，记作对数计算结果。

上述任一项技术方案中，进一步地，硬件运算电路用于计算双精度浮点数，对数泰勒计算单元包括：第一泰勒逻辑单元，第一乘法器组以及第一加法器组；第一泰勒逻辑单元用于根据第二乘法值k，确定第一中间取值 k-1；第一乘法器组包括乘法器M3、乘法器M4、乘法器M5以及乘法器 M6，其中，乘法器M3的两个输入端分别连接于第一泰勒逻辑单元的输出端，乘法器M4的一个输入端连接于第一泰勒逻辑单元的输出端，乘法器 M4的另一个输入端被输入常数1/3，乘法器M5的两个输入端分别连接于乘法器M3的输出端，乘法器M6的一个输入端连接于乘法器M3的输出端，乘法器M6的另一个输入端连接于乘法器M4的输出端；第一加法器组包括加法器A3，加法器A4以及加法器A5，其中，加法器A3的两个输入端分别连接于第一泰勒逻辑单元以及乘法器M3的输出端，加法器A4的两个输入端分别连接于乘法器M5以及乘法器M6的输出端，加法器A5的两个输入端分别连接于加法器A3以及加法器A4的输出端。

上述任一项技术方案中，进一步地，硬件运算电路用于计算单精度浮点数，对数泰勒计算单元包括：第二泰勒逻辑单元，乘法器M7以及加法器 A6；第二泰勒逻辑单元用于根据第二乘法值k，确定第二中间取值k-1；乘法器M7的两个输入端分别连接于第二泰勒逻辑单元的输出端；加法器A6 的一个输入端连接于乘法器M7的输出端，加法器A6的另一个输入端连接于第二泰勒逻辑单元的输出端。

上述任一项技术方案中，进一步地，指数计算模块至少包括：第四乘法器，指数组合逻辑单元，指数泰勒计算模块，第五乘法器以及输出组合逻辑单元；第四乘法器被配置为计算乘法器的乘法计算结果w中的小数部分与ln(2)的乘积，记作第四乘积b；指数组合逻辑单元被配置为根据第四乘积b确定第三逻辑值b_l；指数泰勒计算模块被配置为根据第三逻辑值b_l计算中间指数值；第五乘法器被配置为计算中间指数值与第四查表值e^bm的乘积，记作第五乘积，其中，第四查表值e^bm由第四乘积b确定，b_m＝b-b_l；输出组合逻辑单元被配置为根据乘法器的乘法计算结果w中的整数部分与第五乘积，确定第一参数x和第二参数y的Power函数运算结果。

上述任一项技术方案中，进一步地，第一参数x为Power函数的底数，第二参数y为Power函数的指数，第一参数x和第二参数y为64比特浮点型数据。

本申请第二方面的技术方案是：提供了一种基于FPGA的电路板，该电路板中集成有如上述第二方面技术方案中任意一项所述的硬件运算电路及其中的各个模块。

本申请第三方面的技术方案是：提供了一种在工业硬件运算电路中的数据处理方法，该数据处理方法包括：步骤1，根据第一参数x的阶码E 生成第一中间参数，根据第一参数x的尾数M，采用查表和对数泰勒级数展开的方式计算第二中间参数，并根据第一中间参数和第二中间参数，生成对数计算结果；步骤2，计算对数计算结果与第二参数y的乘积，将乘积记作乘法计算结果w；步骤3，根据乘法模块的乘法计算结果w进行指数运算，生成第一参数x和第二参数y的Power函数运算结果，其中，指数运算的底数为2，指数运算的指数为乘法器的乘法计算结果w。

上述任一项技术方案中，进一步地，步骤3具体包括：步骤31，计算乘法器的乘法计算结果w中的小数部分与ln(2)的乘积，记作第四乘积b；步骤32，根据第四乘积b确定第三逻辑值b_l；步骤33，根据第三逻辑值b_l计算中间指数值；步骤34，计算中间指数值与第四查表值

的乘积，记作第五乘积，其中，第四查表值

由第四乘积b确定，b_m＝b-b_l；步骤35，根据乘法器的乘法计算结果w中的整数部分与第五乘积，确定第一参数x和第二参数y的Power函数运算结果。

本申请中提到的各个模块可以通过FPGA烧结在电路板中实现，也可以直接在纳米芯片内部集成实现。

本申请的有益效果是：

本申请中的技术方案，通过在硬件运算电路分别设置对数计算模块、乘法模块和指数计算模块，将Power函数拆为对数函数和指数函数实现，利用查找表和泰勒级数展开式相结合的方法进行电路设计，通过数字迭代法和区间划分方法提高计算精度、扩展数据计算范围。该硬件运算电路的硬件资源开销小、计算精度高，支持数据范围广，还可分别计算指数函数和对数函数。

在本申请中的对数计算模块和指数计算模块中，通过对泰勒展开式计算前的预处理，缩小了进入泰勒展开式的数据范围，提高了精度，减少泰勒展开式的项数，进而减少乘加运算，降低延迟、减少运算器的硬件资源消耗，并且根据数据特点和范围设计查找表，减小存储资源。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的用于计算Power函数的硬件运算电路的示意框图；

图2是根据本申请的一个实施例的对数计算模块的示意框图；

图3是根据本申请的一个实施例的第一组合逻辑的实现方式的示意图；

图4是根据本申请的一个实施例的第二组合逻辑的实现方式的示意图；

图5(a)是根据本申请的一个实施例的第一逻辑值e₂处理过程的示意图；

图5(b)是根据本申请的一个实施例的第三逻辑值处理过程的示意图；

图5(c)是根据本申请的一个实施例的第一中间取值处理过程的示意图；

图6是根据本申请的一个实施例的第三组合逻辑的实现方式的示意图；

图7(a)是根据本申请的一个实施例的对数计算模块的泰勒级数展开式的结构示意图；

图7(b)是根据本申请的另一个实施例的对数计算模块的泰勒级数展开式的结构示意图；

图8是根据本申请的一个实施例的指数计算模块的示意框图；

图9(a)是根据本申请的一个实施例的指数泰勒计算模块实现的结构示意图；

图9(b)是根据本申请的另一个实施例的指数泰勒计算模块实现的结构示意图；

图10是根据本申请的一个实施例的在工业硬件运算电路中的数据处理方法的示意流程图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

实施例一：

如图1所示，本实施例提供了一种用于计算Power函数的硬件运算电路，该硬件运算电路包括：对数计算模块100，乘法模块和指数计算模块 200；对数计算模块100被配置为根据第一参数x的阶码E生成第一中间参数，根据第一参数x的尾数M，采用查表和对数泰勒级数展开的方式计算第二中间参数，并根据第一中间参数和第二中间参数，生成对数计算结果；乘法模块用于计算对数计算结果与第二参数y的乘积，将乘积记作乘法计算结果w；指数计算模块200被配置为根据乘法模块的乘法计算结果w进行指数运算，生成第一参数x和第二参数y的Power函数运算结果，其中，指数运算的底数为2，指数运算的指数为乘法器的乘法计算结果w。

本实施例中，第一参数x为Power函数的底数，第二参数y为Power 函数的指数，第一参数x和第二参数y为64比特浮点型数据。

如图2所示，本实施例示出了一种对数计算模块100的实现方式，假定输入x、y为浮点型，x、y属于双精度浮点数表示范围，输出Power函数计算结果也属于双精度浮点数表示范围，且输入x、y和输出均为64比特数据[x₆₃,x₆₂,…x₂,x₁,x₀]，输入x、y和输出均为规格化浮点数格式，即[x₆₃]表示符号位S，[x₆₂,x₆₁,…x₅₃,x₅₂]表示阶码E，[x₅₁,x₅₀,…x₁,x₀]表示尾数M。

进一步的，本实施例中的对数计算模块100包括：对数预处理模块201，对数泰勒计算单元202以及对数后处理模块203；对数预处理模块201至少包括：对数查表单元，第一乘法器M0，对数组合逻辑单元，第二乘法器 M1以及第一加法器A0，其中，对数查表单元被配置为根据第一参数x中尾数M的高q+1位进行第一查表，确定第一查表值e₁，并根据第一查表值e₁进行第二查表，确定第二查表值ln(f₁)；第一乘法器M0的输入端连接于对数查表单元，第一乘法器M0的输出端连接于对数组合逻辑单元，第一乘法器M0被配置为对第一查表值e₁进行移位加1的操作结果f₁与乘法中间值1.M进行乘法运算，记作第一乘法值c，其中，乘法中间值1.M为1与第一参数x的尾数M的和值；对数组合逻辑单元被配置为根据第一乘法值 c确定第一逻辑值e₂以及第二逻辑值f₂，其中，对数查表单元还被配置为根据第一逻辑值e₂用于通过查表的方式确定第三查表值ln(f₂)；第二乘法器 M1的输入端分别连接于对数组合逻辑单元以及第一乘法器M0的输出端，第二乘法器M1用于计算第二逻辑值f₂与第一乘法值c的乘积，记作第二乘法值k；第一加法器A0的输入端连接于对数查表单元，第一加法器A0被配置为计算第二查表值ln(f₁)与第三查表值ln(f₂)的和值，记作第一和值；

具体的，对数预处理模块201，用于利用数字迭代法对输入的第一参数 x进行预处理，对数预处理模块201的输入为第一参数x，三个输出分别为： k、E-offset和ln(f₁)+ln(f₂)。

对于第一个输出k，根据第一参数x的浮点数表示形式x＝2^E-offset×(1.M)的尾数1.M的数据特点，通过对数查表单元中的查找表和“移位+1”操作获取f_i，其中，f_i是使(1.M)∏f_i→1成立的序列。再通过连续乘法使1.M归一化，将归一化后的1.M和f_i通过乘法可得到k＝1.M×f₁×f₂。

对于第二个输出E-offset，由第一参数x的阶码E通过第一组合逻辑方式得到，第一组合逻辑的实现方式如图3所示，是阶码E的偏置，在双精度浮点数中offset为1023，是一个固定取值。

对于第三个输出ln(f₁)+ln(f₂)，参数e₁的求解式子为：

r＝2^q

式中，round()为四舍五入函数，r的取值是64，q为尾数M中的高位。

将提前计算好e₁的值存入对数查表单元的查找表中，e₁对应表的大小为 128*5bits，其中128为表深度，5为e₁的位宽，根据第一参数x的尾数M 中的高位[x₅₁,x₅₀,…x₄₆,x₄₅]作为地址查找得到对应的参数e₁；参数f₁可以通过参数e₁右移位加1得到；提前计算ln(f₁)的值存入对数查表单元中的查找表， ln(f₁)表大小为32*64bits，其中32为表深度，64为ln(f₁)的位宽，根据e₁作为地址得到对应的ln(f₁)；将f₁和1.M送入乘法器得到1.M×f₁，设定c＝1.M×f₁，其中1.M是1和x的52位尾数拼接得到的53位数据，c为59位数据。

在上述实施例的一个优选实现方式中，如图4所示，对数组合逻辑单元被配置为根据第一乘法值c，采用第二组合逻辑方式，依次确定第一逻辑值e₂以及第二逻辑值f₂，其中，第二组合逻辑方式具体包括：

判断输入数据的判断位是否等于1，其中，判断位可以为符号位、整数位、符号位和整数位中的一种；

若等于1，则在判断位与输入数据的其余位之间增加n个0或者1，以组成输出数据；

若不等于1，即为0时，则将输入数据的其余位取补码，并按照判断位、待增加数据、补码数据的形式组成输出数据，其中，待增加数据为n个0 或者1。

具体的，如图5(a)所示，根据第一乘法值c的数值进行第二组合逻辑运算，通过判断和取补得到第一逻辑值e₂；第一乘法值c对应图中in，作为输入数据，第一逻辑值e₂对应图5(a)中out，作为输出数据，第一乘法值c是正数，符号位为0，根据第一乘法值c的整数位c[58]作为多路选择器的判断位，n＝0，N＝51，M＝46，即当c[58]＝1时，e₂为{1’b1,c[51:46]}，当c[58]＝0 时，e₂为{1’b0,c[51:46]取补码}。

第二逻辑值f₂由第一逻辑值e₂进行第二组合逻辑运算，通过移位加1 得到；第一逻辑值e₂对应图中的in，第二逻辑值f₂对应图中的out，第一逻辑值e₂的最高位e2[6]为符号位，根据e2[6]作为多路选择器的判断位，n＝6， N＝5，M＝40，即当e2[6]＝0时，第二逻辑值f₂为{1’b1,6’b000000,e2[5:0]}，当e2[6]＝1时，第二逻辑值f₂为{1’b0,6’b111111,e2[5:0]取补码}。其中，1’b1 中第一个1表示1位，b表示二进制(h表示十六进制，d表示十进制)，第二个1表示二进制数字1；6’b000000同理，表示6位二进制数字”000000”； e2[5:0]表示e2的第0位到第5位，其中低位在右；完整表示f2是一个13 位(1+6+6)的数据，二进制表示为“1000000”和e2的低6位拼接而成。

需要说明的是，上述对数组合逻辑单元可利用Verilog HDL硬件描述语言进行RTL建模，通过FPGA或者ASIC实现。

提前计算ln(f₂)的值存入查找表，ln(f₂)表大小为128*64bits，其中128 为表深度，64为ln(f₂)的位宽，根据e₂作为地址得到对应的ln(f₂)；将ln(f₁)和 ln(f₂)送入加法器得到ln(f₁)+ln(f₂)；将f₂和c＝1.M×f₁送入乘法器得到 1.M×f₁×f₂，设定k＝1.M×f₁×f₂。

本实施例中，对数泰勒计算单元202被配置为根据第二乘法值k计算第二中间参数；

具体的，对数泰勒计算模块202用于通过对数泰勒级数展开式计算对数预处理模块得到的k的对数值；对数泰勒计算模块202的输入为k，输出为ln(k)。

在本实施例对数泰勒计算模块202的一种实现方式中，如图7(b)所示，当硬件运算电路用于计算双精度浮点数，对数泰勒计算单元202包括：第一泰勒逻辑单元，第一乘法器组以及第一加法器组；第一泰勒逻辑单元用于根据第二乘法值k，确定第一中间取值k-1；第一乘法器组包括乘法器 M3、乘法器M4、乘法器M5以及乘法器M6，其中，乘法器M3的两个输入端分别连接于第一泰勒逻辑单元的输出端，乘法器M4的一个输入端连接于第一泰勒逻辑单元的输出端，乘法器M4的另一个输入端被输入常数1/3，乘法器M5的两个输入端分别连接于乘法器M3的输出端，乘法器M6的一个输入端连接于乘法器M3的输出端，乘法器M6的另一个输入端连接于乘法器M4的输出端；第一加法器组包括加法器A3，加法器A4以及加法器 A5，其中，加法器A3的两个输入端分别连接于第一泰勒逻辑单元以及乘法器M3的输出端，加法器A4的两个输入端分别连接于乘法器M5以及乘法器M6的输出端，加法器A5的两个输入端分别连接于加法器A3以及加法器A4的输出端。

具体的，第一泰勒逻辑单元利用上述第二组合逻辑的方式，根据第二乘法值k，确定第一中间取值k-1；并将第一中间取值k-1记作a。具体过程如图5(c)所示，通过判断k的高位和上述第二组合逻辑的方式得到k-1 的取值，设定a＝k-1；k对应图中的in，a对应图中的out，k的最高位k[71] 为符号位，k是正数，符号位为0，k的次高位k[70]为整数位，根据k[71:70] 作为多路选择器的判断位，n＝0，N＝69，M＝0，即当k[71:70]＝01时，a为 {2’b00,k[69:0]}，当k[71:70]＝00时，a为{2’b10,k[69:0]取补码}。

本实施例中，泰勒级数展开式如下：

一共4项，用到4次乘法器和3次加法器，分别组成第一乘法器组以及第一加法器组。前两个乘法器M3、M4分别得到a²和

继续计算，后两个乘法器M5、M6分别得到a⁴和

其中，泰勒展开式中的系数

和

可以直接移位得到；然后进行加法，加法器A3、A4分别得到

和

加法器A5得到最终结果lnk＝ln(1.M×f₁×f₂)。

在本实施例对数泰勒计算模块202的另一种实现方式中，如图7(a) 所示，硬件运算电路用于计算单精度浮点数，对数泰勒计算单元202包括：第二泰勒逻辑单元，乘法器M7以及加法器A6；第二泰勒逻辑单元用于根据第二乘法值k，确定第二中间取值k-1；乘法器M7的两个输入端分别连接于第二泰勒逻辑单元的输出端；加法器A6的一个输入端连接于乘法器 M7的输出端，加法器A6的另一个输入端连接于第二泰勒逻辑单元的输出端。

此时，泰勒级数展开式取2项即可，如下：

具体过程不再赘述。

本实施例中，对数后处理模块203用于根据第一中间参数和第二中间参数，生成对数计算结果。

进一步的，对数后处理模块203至少包括：第二加法器A1，第三乘法器M2以及第三加法器A2；第二加法器A1的输入端分别连接于第一加法器A0以及对数泰勒计算单元202的输出端，第二加法器A1被配置为计算第一和值与第二中间参数的和值，记作第二和值；第三乘法器M2被配置为计算第二和值与1/ln(2)的乘积，记作第三乘法值；第三加法器A2被配置为计算第一中间参数与第三乘法值的和值，记作对数计算结果。

具体的，对数后处理模块203用于将对数预处理模块和对数泰勒计算模块得到的中间运算结果进行进一步乘加运算，得到对数计算模块的输出值log₂ x。

对数后处理模块203的输入为E-offset、ln(f₁)+ln(f₂)、ln(k)，输出为log₂ x；将对数预处理模块201得到的ln(f₁)+ln(f₂)和对数泰勒计算模块202得到的 lnk一起送入对数后处理模块203的第二加法器A1，第二加法器A1的结果通过第三乘法器M2与

相乘，得到

然后与对数预处理模块201中得到E-offset的通过第三加法器A2相加得到x 的对数计算结果log₂ x。

本实施例中，乘法模块用于计算对数计算结果与第二参数y的乘积，将乘积记作乘法计算结果w。

具体的，乘法模块将对数计算模块100输出值log₂ x与Power函数x^y中的第二参数(指数)y相乘得到w＝y×log₂(x)，具体过程不再赘述。

在上述是实施例的基础上，本实施例又示出了一种指数计算模块200 的实现方式，该指数计算模块200至少包括：第四乘法器，指数组合逻辑单元，指数泰勒计算模块502，第五乘法器以及输出组合逻辑单元；其中，第四乘法器和指数组合逻辑单元组成数预处理模块501，第五乘法器以及输出组合逻辑单元组成指数后处理模块503。

其中，第四乘法器被配置为计算乘法器的乘法计算结果w中的小数部分与ln(2)的乘积，记作第四乘积b；指数组合逻辑单元被配置为根据第四乘积b确定第三逻辑值b_l；指数泰勒计算模块502被配置为根据第三逻辑值b_l计算中间指数值；第五乘法器被配置为计算中间指数值与第四查表值

的乘积，记作第五乘积，其中，第四查表值

由第四乘积b确定，b_m＝b-b_l；输出组合逻辑单元被配置为根据乘法器的乘法计算结果w中的整数部分与第五乘积，确定第一参数x和第二参数y的Power函数运算结果。

具体的，如图8所示，指数预处理模块501的输入为乘法计算结果w，输出为w_i、b_l和

首先，通过拆分的形式，将浮点数表示形式的乘法计算结果w拆分成定点表示的整数w_i和小数部分w_f；将小数部分w_f和常数 ln(2)送入第四乘法器M3中，得到第四乘积b＝w_f×ln(2)；提前计算

的值存入查找表，

表大小为357*64bits，其中357为表深度，64为

的位宽，根据第四乘积b作为地址，通过查表的方式得到对应的第四查表值

其中，根据第四乘积b的数值进行第二组合逻辑计算得到第三逻辑值b_l。根据 b的数据特点，通过组合逻辑将b拆成两部分b_m和b_l，其中b＝b_l+b_m；并根据b的数据特点，通过查找表获取b_m的指数函数值，即第四查表值

本实施例中，b对应图5(b)中in，第三逻辑值b_l对应图中out，b最高位为符号位，根据b的符号位作为多路选择器的判断位，n＝8，N＝96，M＝0，即当b[106]＝0时，第三逻辑值b_l为{8’h00,b[96:0]}，当b[106]＝1时，第三逻辑值b_l为{8’h00,b[96:0]取补码}。

上述指数泰勒计算模块502用于通过指数泰勒级数展开式计算指数预处理模块501得到的第三逻辑值b_l的指数函数值，即中间指数值。

指数泰勒计算模块502的输入为第三逻辑值b_l，输出中间指数值

该部分的详细结构如图9(b)所示，以双精度浮点数输入情况为例，泰勒级数展开式如下：

一共5项，用到5次乘法器和3次加法器。具体实施过程如下：

如图6所示，利用第三组合逻辑方式，通过b_l的数值判断和计算得到1+b_l；通过定点形式的b_l直接得到双精度浮点数表示的1+b_l。根据b_l的符号位作为多路选择器的判断位，补全1+b_l的11位阶码，根据b_l的数值确定1+b_l的尾数；

第一次两个乘法器分别得到b_l ²和

继续计算，第二次两个乘法器分别得到b_l ⁴和

同时进行第一次加法，加法器得到

第三次乘法器得到

同时第二次一个加法器得到

最后加法得到最终结果

其中泰勒展开式中的系数

可拆成

可拆成

和

可以直接移位得到。

图9(a)为计算数据为单精度浮点数的情况下指数泰勒计算单元的结构，此时泰勒级数展开式取3项即可，如下：

具体过程不再赘述。

上述指数后处理模块503，用于将指数预处理模块和指数泰勒计算模块 502得到的中间运算结果进行进一步乘加运算，得到指数计算模块的输出值 2^w，也就是Power函数的最终结果x^y。

其输入为

w_i和

输出为e^b；将指数预处理模块501得到的中间计算结果

和指数泰勒计算模块502得到的

一起送入指数计算模块200 中的乘法器，得到e^b，即为

指数预处理模块501中得到的w的整数部分w_i，作为结果2^w的浮点表示形式的阶码，

作为尾数，再进行浮点数的规格化处理，得到最终Power函数运算结果x^y。

实施例二：

在上述实施例的基础上，如图10所示，本实施例提供了一种在工业硬件运算电路中的数据处理方法，该方法适用于硬件运算电路中的数据处理，该硬件运算电路可用于计算Power函数，该方法包括：

步骤1，根据第一参数x的阶码E生成第一中间参数，根据所述第一参数x的尾数M，采用查表和对数泰勒级数展开的方式计算第二中间参数，并根据所述第一中间参数和所述第二中间参数，生成对数计算结果；

具体的，Power函数为f(x,y)＝x^y(x>0)，函数的定义域x、y为实数R，实数域中令f(x,y)＝x^y有意义的定义域为x＞0，底数x可用浮点数形式表示 x＝2^E-offset×(1.M)，其中E为阶码，M为尾数，offset为阶码的偏置，1.M的范围是[1,2)。

对x^y进行公式变换

拆成对数函数和指数函数的形式计算；

对数函数计算包括：将log₂ x进行公式变换，利用数字迭代法对x的尾数1.M进行处理，将处理后的数据代入对数泰勒级数展开式中进行计算，然后代入对数变换后的公式计算得到对数值log₂ x；

指数函数计算包括：设定w＝y*log₂ x，将指数2^w进行公式变换，利用区间划分的方法对w进行处理，将处理后的数据代入指数泰勒级数展开式中进行计算，然后代入指数变换后的公式计算得到指数值2^w，即为Power 函数最终计算结果x^y。

具体的，对数计算是计算x的以2为底的对数值log₂ x，利用以自然常数e为底的对数泰勒级数展开式进行求解，为保证精度和展开式项数，需要对代入泰勒展开式的数进行处理，先将log₂ x做如下变形：

进一步缩小ln(1.M)中的1.M数据范围，数字迭代法对1.M进行处理包括：利用数据范围和查找表获取合适的f₁和f₂令1.M×f₁×f₂趋向于1，其中 f_i＝1+e_i*r^-i，e_i是以r＝2^q为基的数字集，i是迭代次数；

通过一系列乘法使1.M归一化，即(1.M)Πf_i→1，其中f_i＝1+e_i*r^-i，e_i是以r＝2^q为基的数字集，i是迭代次数；在本实施例中，设定迭代次数i＝2，则f_i获取过程如下：

设定(1.M)×f₁＝1，则

因此

其中round是取绝对值后四舍五入的结果，将得到的e₁的值带回f₁的表达式中计算出f₁的值；同理，

设定(1.M)×f₁×f₂＝1，则

因此

将得到的e₂的值带回f₂的表达式中计算出f₂的值；在硬件实现时，e₁是通过1.M的数值查表得到， e₂是通过(1.M)×f₁的数值特点直接得到，然后根据e₁和e₂分别查表得到ln(f₁) 和ln(f₂)，其中e₁、ln(f₁)和ln(f₂)提前存入查找表中；

设定k＝(1.M)×f₁×f₂，则

其中ln(k)用对数泰勒级数展开式进行求解，展开式如下：

其中k为数字迭代法对1.M处理后的结果k＝1.M×f₁×f₂；

至此，log₂ x全部求出，生成对数计算结果。

步骤2，计算对数计算结果与第二参数y的乘积，将乘积记作乘法计算结果w；

步骤3，根据乘法模块的乘法计算结果w进行指数运算，生成第一参数x和第二参数y的Power函数运算结果，其中，指数运算的底数为2，指数运算的指数为乘法器的乘法计算结果w。

进一步的，步骤3具体包括：

步骤31，计算乘法器的乘法计算结果w中的小数部分与ln(2)的乘积，记作第四乘积b；

步骤32，根据第四乘积b确定第三逻辑值b_l；

步骤33，根据第三逻辑值b_l计算中间指数值；

步骤34，计算中间指数值与第四查表值

的乘积，记作第五乘积，其中，第四查表值

由第四乘积b确定，b_m＝b-b_l；

步骤35，根据乘法器的乘法计算结果w中的整数部分与第五乘积，确定第一参数x和第二参数y的Power函数运算结果。

具体的，指数计算是计算以2为底、以w为指数的指数函数2^w，其中 w＝y×log₂ x，y是Power函数f(x,y)＝x^y的指数；利用以自然常数e为底的指数函数泰勒级数展开式进行求解，为保证精度和展开式项数，需要对代入展开式计算的数进行处理，具体处理工程如下：

利用区间划分法对w进行处理包括：将指数函数的指数w拆成整数w_i和小数w_f；

设定b＝w_f×ln2；

将[0,1]进行等区间划分，每个区间范围为

将b拆为区间端点b_m和区间内数据b_l，

通过查找表获得，

通过指数泰勒级数展开式获得；

设定b_l＝b-b_m，其中

将[-1,1]的区间等分成2t份，实施例中设定p＝9,t＝512；根据b的数值查表获得

b_l的指数值

通过指数泰勒展开式求解，展开式如下：

2^w的全部求解如下：

至此，2^w全部求出，也就是Power函数f(x,y)＝x^y的结果。

为了验证本实施例中计算Power函数的硬件运算电路的性能，将本实施例中的技术方案与相关文献《X-DSP IP核Power函数部件的设计与验证》中硬件结构作为对比方案，将两者的性能进行对比，如表1所示，需要说明的是，对比方案中仅采用单精度浮点数计算。

表1

在单精度下，由表1可知，两种电路精度一致，都为10^-7，满足单精度浮点数的精度要求；在运算资源方面，对比方案用了5个加法器和9个乘法器，本实施例设计的电路使用了5个加法器和8个乘法器，本实施例比对比方案减少了7％的运算资源；在存储资源方面，本实施例设计在单精度下计算所需的存储为16.2875k，而对比方案需要36k，本实施例所需的存储资源更少，比对比方案少54.76％；从计算周期来看，本实施例设计与对比方案中均采用乘法器延时2个周期，加法器延时1个周期，从表1中可以看出，本实施例设计的单精度下计算电路计算周期更长，比对比方案长 23.8％。

在双精度下所需要的存储资源，本实施例为32.28125k，相较于对比方案在单精度下的资源减少了10.33％。本实施例计算精度可达10^-16，需要9 个加法器和15个乘法器，从输入到输出需要29个周期。

从存储来看，对比方案中的查找表用来存放多项式系数，存储资源统计如下：对数部分将区间分为64份，多项式采用三次四项式，在[1,2)区间内再等分为32份，采用二级查找表，则对数部分存储资源为 (64+32)*4*32＝12k；指数部分将区间分为128份，多项式采用二次三项式，考虑到负数情况，用2^x和(1/2)^x两个函数逼近，指数部分存储资源为 128*3*32*2＝24k，对比方案一共消耗36k的存储资源。而本实施例用查找表存储预处理过程中产生的中间数据，对数5.1875k，指数11.1k，共需 16.2875k资源。

通过对上述性能指标进行对比分析，可以发现本实施例在保持高精度计算的同时，可以用更少的存储资源和计算资源，体现了本实施例设计的 Power函数硬件电路的优越性。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种用于计算Power函数的硬件运算电路及数据处理方法，其中，该硬件运算电路包括：对数计算模块，乘法模块和指数计算模块；对数计算模块被配置为根据第一参数x的阶码E生成第一中间参数，根据第一参数x的尾数M，采用查表和对数泰勒级数展开的方式计算第二中间参数，并根据第一中间参数和第二中间参数，生成对数计算结果；乘法模块用于计算对数计算结果与第二参数y的乘积，将乘积记作乘法计算结果w；指数计算模块被配置为根据乘法模块的乘法计算结果w进行指数运算，生成第一参数x和第二参数y的Power函数运算结果，其中，指数运算的底数为2，指数运算的指数为乘法器的乘法计算结果w。通过本申请中的技术方案，对Power函数的硬件运算电路进行优化，使其能够提供较高的计算精度、支持更广数据范围、减少资源占用。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种用于计算Power函数的硬件运算电路，其特征在于，所述硬件运算电路包括：对数计算模块，乘法模块和指数计算模块；

所述对数计算模块被配置为根据第一参数x的阶码E生成第一中间参数，根据所述第一参数x的尾数M，采用查表和对数泰勒级数展开的方式计算第二中间参数，并根据所述第一中间参数和所述第二中间参数，生成对数计算结果；

所述乘法模块用于计算所述对数计算结果与第二参数y的乘积，将所述乘积记作乘法计算结果w；

所述指数计算模块被配置为根据所述乘法模块的乘法计算结果w进行指数运算，生成所述第一参数x和所述第二参数y的Power函数运算结果，

其中，所述指数运算的底数为2，所述指数运算的指数为所述乘法器的乘法计算结果w。

2.如权利要求1所述的用于计算Power函数的硬件运算电路，其特征在于，所述对数计算模块包括：对数预处理模块，对数泰勒计算单元以及对数后处理模块；

所述对数预处理模块至少包括：对数查表单元，第一乘法器M0，对数组合逻辑单元，第二乘法器M1以及第一加法器A0，其中，

所述对数查表单元被配置为根据所述第一参数x中尾数M的高q+1位进行第一查表，确定第一查表值e₁，并根据所述第一查表值e₁进行第二查表，确定第二查表值ln(f₁)；

所述第一乘法器M0的输入端连接于所述对数查表单元，所述第一乘法器M0的输出端连接于所述对数组合逻辑单元，所述第一乘法器M0被配置为对所述第一查表值e₁进行移位加1的操作结果f₁与乘法中间值1.M进行乘法运算，记作第一乘法值c，其中，所述乘法中间值1.M为1与所述第一参数x的尾数M的和值；

所述对数组合逻辑单元被配置为根据所述第一乘法值c确定第一逻辑值e₂以及第二逻辑值f₂，其中，所述对数查表单元还被配置为根据第一逻辑值e₂用于通过查表的方式确定第三查表值ln(f₂)；

所述第二乘法器M1的输入端分别连接于所述对数组合逻辑单元以及所述第一乘法器M0的输出端，所述第二乘法器M1用于计算所述第二逻辑值f₂与第一乘法值c的乘积，记作第二乘法值k；

所述第一加法器A0的输入端连接于所述对数查表单元，所述第一加法器A0被配置为计算所述第二查表值ln(f₁)与所述第三查表值ln(f₂)的和值，记作第一和值；

所述对数泰勒计算单元被配置为根据所述第二乘法值k计算所述第二中间参数；

所述对数后处理模块用于根据所述第一中间参数和所述第二中间参数，生成所述对数计算结果。

3.如权利要求2所述的用于计算Power函数的硬件运算电路，其特征在于，所述对数组合逻辑单元被配置为根据所述第一乘法值c确定第一逻辑值e₂以及第二逻辑值f₂，具体包括：

步骤A，将所述第一乘法值c作为输入数据；

步骤B，判断所述输入数据的判断位是否等于1，其中，所述判断位可以为所述第一乘法值c中符号位、整数位、符号位和整数位中的一种；

若等于1，则在所述判断位与所述输入数据的其余位之间增加n个0或者1，以组成输出数据，其中，所述输出数据为所述第一逻辑值e₂；

若不等于1，即为0时，按照所述判断位、待增加数据、补码数据的形式组成所述输出数据，其中，所述待增加数据为n个0或者1，所述补码数据为所述输入数据的其余位的补码；

步骤C，将所述第一逻辑值e₂作为所述输入数据，重新执行步骤B，以确定所述第二逻辑值f₂。

4.如权利要求2所述的用于计算Power函数的硬件运算电路，其特征在于，所述对数后处理模块至少包括：第二加法器A1，第三乘法器M2以及第三加法器A2；

所述第二加法器A1的输入端分别连接于所述第一加法器A0以及所述对数泰勒计算单元的输出端，所述第二加法器A1被配置为计算所述第一和值与所述第二中间参数的和值，记作第二和值；

所述第三乘法器M2被配置为计算所述第二和值与1/ln(2)的乘积，记作第三乘法值；

所述第三加法器A2被配置为计算所述第一中间参数与所述第三乘法值的和值，记作所述对数计算结果。

5.如权利要求2所述的用于计算Power函数的硬件运算电路，其特征在于，所述硬件运算电路用于计算双精度浮点数，所述对数泰勒计算单元包括：第一泰勒逻辑单元，第一乘法器组以及第一加法器组；

所述第一泰勒逻辑单元用于根据所述第二乘法值k，确定第一中间取值k-1；

所述第一乘法器组包括乘法器M3、乘法器M4、乘法器M5以及乘法器M6，其中，所述乘法器M3的两个输入端分别连接于所述第一泰勒逻辑单元的输出端，所述乘法器M4的一个输入端连接于所述第一泰勒逻辑单元的输出端，所述乘法器M4的另一个输入端被输入常数1/3，所述乘法器M5的两个输入端分别连接于所述乘法器M3的输出端，所述乘法器M6的一个输入端连接于所述乘法器M3的输出端，所述乘法器M6的另一个输入端连接于所述乘法器M4的输出端；

所述第一加法器组包括加法器A3，加法器A4以及加法器A5，其中，所述加法器A3的两个输入端分别连接于所述第一泰勒逻辑单元以及所述乘法器M3的输出端，

所述加法器A4的两个输入端分别连接于所述乘法器M5以及乘法器M6的输出端，

所述加法器A5的两个输入端分别连接于所述加法器A3以及所述加法器A4的输出端。

6.如权利要求2所述的用于计算Power函数的硬件运算电路，其特征在于，所述硬件运算电路用于计算单精度浮点数，所述对数泰勒计算单元包括：第二泰勒逻辑单元，乘法器M7以及加法器A6；

所述第二泰勒逻辑单元用于根据所述第二乘法值k，确定第二中间取值k-1；

所述乘法器M7的两个输入端分别连接于所述第二泰勒逻辑单元的输出端；

所述加法器A6的一个输入端连接于所述乘法器M7的输出端，所述加法器A6的另一个输入端连接于所述第二泰勒逻辑单元的输出端。

7.如权利要求1至6中任一项所述的用于计算Power函数的硬件运算电路，其特征在于，所述指数计算模块至少包括：第四乘法器，指数组合逻辑单元，指数泰勒计算模块，第五乘法器以及输出组合逻辑单元；

所述第四乘法器被配置为计算所述乘法器的乘法计算结果w中的小数部分与ln(2)的乘积，记作第四乘积b；

所述指数组合逻辑单元被配置为根据所述第四乘积b确定第三逻辑值b_l；

所述指数泰勒计算模块被配置为根据所述第三逻辑值b_l计算中间指数值；

所述第五乘法器被配置为计算所述中间指数值与第四查表值

的乘积，记作第五乘积，其中，所述第四查表值

由所述第四乘积b确定，b_m＝b-b_l；

所述输出组合逻辑单元被配置为根据所述乘法器的乘法计算结果w中的整数部分与所述第五乘积，确定所述第一参数x和所述第二参数y的Power函数运算结果，

所述第一参数x为Power函数的底数，所述第二参数y为Power函数的指数，所述第一参数x和所述第二参数y为64比特浮点型数据。

8.一种基于FPGA的电路板，其特征在于，所述电路板中集成有权利要求1-7中任意一项所述的运算电路及其中的各个模块。

9.一种在工业硬件运算电路中的数据处理方法，其特征在于，所述方法包括：

步骤2，计算所述对数计算结果与第二参数y的乘积，将所述乘积记作乘法计算结果w；

步骤3，根据所述乘法模块的乘法计算结果w进行指数运算，生成所述第一参数x和所述第二参数y的Power函数运算结果，

10.如权利要求9所述的在工业硬件运算电路中的数据处理方法，其特征在于，所述步骤3具体包括：

步骤31，计算所述乘法器的乘法计算结果w中的小数部分与ln(2)的乘积，记作第四乘积b；

步骤32，根据所述第四乘积b确定第三逻辑值b_l；

步骤33，根据所述第三逻辑值b_l计算中间指数值；

步骤34，计算所述中间指数值与第四查表值

的乘积，记作第五乘积，其中，所述第四查表值

由所述第四乘积b确定，b_m＝b-b_l；

步骤35，根据所述乘法器的乘法计算结果w中的整数部分与所述第五乘积，确定所述第一参数x和所述第二参数y的Power函数运算结果。