CN102109973A

CN102109973A - 包含超越函数计算的处理器实现装置

Info

Publication number: CN102109973A
Application number: CN 201110050034
Authority: CN
Inventors: 刘小明; 洪一; 宋何娟; 龚晓华; 钟小艳
Original assignee: CETC 38 Research Institute
Current assignee: CETC 38 Research Institute
Priority date: 2011-03-02
Filing date: 2011-03-02
Publication date: 2011-06-29

Abstract

包含超越函数计算的处理器实现装置，属数字信号处理器技术领域。其目的是提供一种能够快速实现定点反正切、浮点倒数、浮点自然对数和浮点开方计算的硬件。该硬件电路依次由地址发生器和第一数据寄存器构成的取数级，由tab0、tab1、两个乘加模块和第二数据寄存器构成的执行级，以及由截位模块和标志生成模块构成的写回级组成三级流水的架构；取数级用于产生查表所需的地址，并将执行级和写回级所需的控制信号、变换后的输入数据以及地址信号寄存送到执行级计算；执行级用于完成定点反正切、浮点倒数、浮点自然对数和浮点开方的运算；写回级用于标志的生成以及运算结果的截位输出。

Description

包含超越函数计算的处理器实现装置

技术领域

本发明涉及一种包含超越函数计算的处理器实现装置,属数字信号处理器技术领域。

背景技术

目前，计算机对超越函数的计算，通常是采用软件来实现的。由于采用软件的方式实现超越函数的求解，其速度较慢，故无法满足对计算速度要求较高的场合，特别是无法满足数字信号处理领域中对对数及反三角函数之类的超越函数的快速求解。

发明内容

本发明的目的在于提供一种能够快速实现对定点反正切、浮点倒数、浮点自然对数和浮点开方进行计算的包含超越函数计算的处理器实现装置。

其技术方案是：一种包含超越函数计算的处理器实现装置，其特征在于：所述实现装置依次由地址发生器和第一数据寄存器构成的取数级，由tab0、tab1、两个乘加模块和第二数据寄存器构成的执行级，以及由截位模块和标志生成模块构成的写回级组成三级流水的架构；

取数级，根据控制信号和输入数据，用于在地址发生器内产生查表所需的地址，并将执行级和写回级所需的控制信号、变换后的输入数据以及地址信号寄存送到执行级计算；

执行级，用于完成定点反正切、浮点倒数、浮点自然对数和浮点开方的计算；

写回级，用于标志的生成以及运算结果的截位输出。

其技术效果是：本发明首先通过取数级将接收的数据表示成定点或浮点的形式，将其作为执行超越函数计算的输入值；然后通过执行级将特定函数按照泰勒公式展开，根据计算精度要求提取泰勒级数部分分项构成乘加形式，并通过查找表的方式获取部分分项值，在1个时钟周期内完成超越函数的近似值计算；最后通过写回级对中间计算结果进行修正，获取最终结果，从而实现对定点反正切、浮点倒数、浮点自然对数和浮点开方的快速计算。

附图说明

图1为本发明的电路框图。

图2为定点反正切arctg(x)的实现流程图。

图3为浮点倒数1/x的实现流程图。

图4为浮点自然对数ln(x)的实现流程图。

图5为浮点开方sqrt(x)的实现流程图。

具体实施方式

如图1所示，一种包含超越函数计算的处理器实现装置，依次由取数级、执行级和写回级组成三级流水的架构。

取数级由地址发生器和第一数据寄存器构成，根据控制信号和输入数据，用于在地址发生器内产生查表所需的地址，并将执行级和写回级所需的控制信号、变换后的输入数据以及地址信号寄存送到执行级计算。

执行级由tab0、tab1、两个乘加模块和第二数据寄存器构成，主要用于完成1/x、sqrt(x)和ln(x)的计算。其中，tab0中包含有用于查询的rec_tab、rec2_tab、sqr_tab、recsqr_tab和ln_tab五张表。Tab1中包括有用于查询的arctg_tab0、arctg_tab1、sqr_tab_fix和recsqr_tab_fix四张表，以及一个用于计算

Figure 2011100500348100002DEST_PATH_IMAGE001

的

的乘法器。通过Tab1可以完成arctan(x)以及浮点指数为奇数的开方运算。Tab0的查表结果通过乘加模块后可以直接得到1/x的计算结果。计算开方sqrt(x)时只能得到源操作数的浮点指数（无偏）为偶数的值，即

Figure 2011100500348100002DEST_PATH_IMAGE003

, 浮点指数（无偏）为奇数的值需根据tab1中查表结果计算，最终的计算结果要根据指数的奇偶性通过选择输出。计算ln(x)时利用tab0计算得到

，利用tab1计算得到

，最终合成

Figure 2011100500348100002DEST_PATH_IMAGE005

。

写回级由截位模块和标志生成模块构成，主要用于标志的生成以及运算结果的截位输出。标志寄存器分为浮点溢出，定点溢出及浮点非数，能够产生浮点溢出标志的主要有两种情况：一是计算浮点倒数时输入数据为浮点0；二是计算浮点开方时输入数据为浮点的无穷大。当浮点运算的输入源操作数为非数时，将产生浮点非数标志。只有计算ln(0)时才会产生定点溢出标志。截位模块主要完成计算结果的修正，并将最终结果截断成32位数据输出。

其实现定点反正切arctg(x)，浮点倒数1/x，浮点自然对数ln(x)及浮点开方sqrt (x)计算的流程如下：

1、完成32位定点数据的反正切计算：反正切的计算结果为16位定点数。在数学意义上，本发明实现arctg(x)所能接受的源操作数x，是一个大于等于-1，小于1的数。所得到结果，是把[0，65536)区间归一化到 [0,2∏）区间所得到的数值，即，若本发明取得一个结果Φ，那么数学意义上的弧度结果应该是。具体实现如下所示：

arctg(x)的Talor展开式为

Figure 2011100500348100002DEST_PATH_IMAGE007

，

令

,

取

Figure 2011100500348100002DEST_PATH_IMAGE009

,

,

则arctg(|x|)可表示成：

arctg(|x|)=arctg(x₀+x₁)=(x₀+x₁)-(x₀+x₁)³/3+(x₀+x₁)⁵/5-(x₀+x₁)⁷/7+……

= x₀-x₀ ³/3+x₀ ⁵/5-x₀ ⁷/7+……

+x₁(1-x₀ ²+x₀ ⁴-x₀ ⁶+……)+x₁ ²x₀(1-2x₀ ²+3x₀ ⁴-4x₀ ⁶+……)+……

= arctg(x₀)+x₁(1+x₀ ²)^-1+x₁ ²x₀(1+x₀ ²)^-2+…… (1)

如图2所示，在地址发生器中，首先计算x的绝对值|x|，即公式（1）中的

Figure 2011100500348100002DEST_PATH_IMAGE011

。提取 x₀作为查找表的入口地址，并将x₀、x₁及x的正负标识寄存下来，下一时钟节拍进入执行级开始计算。

实际计算时只提取展开式的前两项

就可以得到16位精度的计算结果。本装置中事先存储

Figure 2011100500348100002DEST_PATH_IMAGE013

和

两张表，表中数值也都精确到小数点后16位。由于本装置电路中的角度是以0～65535表示0~2∏,所以需要对

和

进行缩放，缩放的系数为

Figure 2011100500348100002DEST_PATH_IMAGE015

，即

(2)

Figure 2011100500348100002DEST_PATH_IMAGE017

(3)

(4)

查询执行级tab1中的arctg_tab0和arctg_tab1得到

Figure 2011100500348100002DEST_PATH_IMAGE019

及

的计算结果。arctg_tab0与arctg_tab1都是深度为256，字宽为18位的查询表。通过与tab1相连的乘加模块完成公式（4）的计算得到

Figure 2011100500348100002DEST_PATH_IMAGE021

，并将

与x的正负标识寄存。

写回级中的截位模块根据源操作数的正负对进行修正，完成arctg(x)的计算。如果x为正值则

，如果x为负值则

Figure 2011100500348100002DEST_PATH_IMAGE023

。由于乘加模块的运算结果为36bit，所以最终结果输出会将结果的低4去除。arctg(x)的运算不会产生标志位。

2、完成浮点倒数1/x的计算：假设

,取,

,

则

Figure 2011100500348100002DEST_PATH_IMAGE029

(5)

如图3所示，在地址发生器中，首先提取浮点x的尾数x₀+x₁和无偏指数exp。其中 x₀作为查找表的入口地址，x₀、x₁、无偏指数exp及x的正负标识被寄存下来，下一时钟节拍进入执行级开始计算。

需要得到16位精度的结果，执行级只需计算

。本装置中存储有和

两张表，结果都保留到16位精度，最终的计算结果可以表示为：

Figure 2011100500348100002DEST_PATH_IMAGE033

(6)

查询执行级tab0中的rec_tab和rec2_tab得到

和

Figure 2011100500348100002DEST_PATH_IMAGE035

。rec_tab和rec2_tab都是深度为256，字宽为18位的查询表。通过与tab0相连的乘加模块完成

的计算，并将该计算结果、x的正负标识及无偏指数exp寄存。

由于

是一个大于等于0.5小于1的值，需要将其左移一位后才能作为1/x的浮点尾数，并调整计算结果的无偏指数为

Figure 2011100500348100002DEST_PATH_IMAGE037

。规格化运算结果后输出。这些操作全部在写回级完成。

本发明对浮点倒数1/x计算结果的尾数可以精确到小数点后第16位。

3、完成浮点自然对数ln(x)的计算：原操作数x需要大于等于0。计算结果按照16位定点方式输出。实现装置中,ln(x)的结果输出还受一个4位控制信号cutnum的控制。若

则输出计算结果的整数部分，

Figure 2011100500348100002DEST_PATH_IMAGE039

则输出计算结果的整数部分加一位小数，

则输出计算结果的整数部分加两位小数，以此类推。

令

Figure 2011100500348100002DEST_PATH_IMAGE041

,

取

,

,

则

(7)

由于x₁/x₀小于1，所以ln(1+x₁/x₀)可以使用泰勒公式展开。

Figure 2011100500348100002DEST_PATH_IMAGE043

(8)

如图4所示，与计算浮点1/x相同，在地址发生器中，首先提取浮点自然对数x的尾数

和无偏指数exp。其中 x₀将作为查找表的入口地址，x₀、x₁、无偏指数exp及输出控制cutnum被寄存下来，下一时钟节拍进入执行级开始计算。

取泰勒展开的第一项参加计算就可以得到16精度的计算结果，即

。本装置中存有一张精度达到16位的自然对数表

Figure 2011100500348100002DEST_PATH_IMAGE045

，及一张精度达到16位的倒数表

，则最终的计算结果可以表示成：

(9)

查询执行级tab0中的rec_tab和ln_tab得到

和

Figure 2011100500348100002DEST_PATH_IMAGE047

。ln_tab也是深度为256，字宽为18位的查询表。通过与tab0相连的乘加模块完成的计算，与此同时利用tab1中的18bit乘法器计算

Figure 2011100500348100002DEST_PATH_IMAGE049

。

写回级的截位输出模块完成计算

。根据输出控制信号cutnum，按照全部整数、整数加一位小数、整数加两位小数及整数加三位小数四种方式中的一种输出结果。

4、完成浮点开方sqrt(x)的计算：原操作数x需要大于等于0；

假设

,

取

,

Figure 2011100500348100002DEST_PATH_IMAGE051

(10)

将

泰勒展开得：

Figure 2011100500348100002DEST_PATH_IMAGE053

(11)

取展开式的前两项参加运算

(12)

浮点开方运算时分浮点的指数为奇数和偶数两种情况：

当指数为偶数时：

Figure 2011100500348100002DEST_PATH_IMAGE055

(13)

当指数为奇数时：

(14)

如图5所示，浮点开方在取数级也是首先提取浮点x的尾数

和无偏指数exp。其中 x₀作为查找表的入口地址。

执行级tab0中的

Figure 2011100500348100002DEST_PATH_IMAGE057

、

；tab1中的

Figure 2011100500348100002DEST_PATH_IMAGE059

，

。sqr_tab、recsqr_tab和sqr_tab_fix、recsqr_tab_fix精度均为16位。执行级硬件电路通过tab0查询表sqr_tab和recsqr_tab计算

Figure 2011100500348100002DEST_PATH_IMAGE061

，并同时通过tab1查询表sqr_tab_fix及recsqr_tab_fix计算

。

写回级根据x无偏指数的奇偶性选择其中的一个结果输出：如果 x无偏指数为偶数时，写回级选择

Figure 2011100500348100002DEST_PATH_IMAGE063

作为最终结果输出；如果 x无偏指数为奇数，若

小于1，写回级则输出结果

Figure 2011100500348100002DEST_PATH_IMAGE065

，否则输出结果

，以保证最终计算结果符合单精度浮点的格式要求。

Claims

1.包含超越函数计算的处理器实现装置，其特征在于：所述硬件电路依次由地址发生器和第一数据寄存器构成的取数级，由tab0、tab1、两个乘加模块和第二数据寄存器构成的执行级，以及由截位模块和标志生成模块构成的写回级组成三级流水的架构；

写回级，用于标志的生成以和运算结果的截位输出。

2.根据权利要求1所述的包含超越函数计算的处理器实现装置，其特征在于：所述tab0中包含有用于查询的rec_tab、rec2_tab、sqr_tab、recsqr_tab和ln_tab五张表。

3.根据权利要求1所述的包含超越函数计算的处理器实现装置，其特征在于：所述Tab1中包含有用于查询的arctg_tab0、arctg_tab1、sqr_tab_fix和recsqr_tab_fix四张表，以及一个用于计算的

的乘法器。

4.根据权利要求1所述的包含超越函数计算的处理器实现装置，其特征在于：所述乘加模块为

。