CN103176767A

CN103176767A - 一种低功耗高吞吐的浮点数乘累加单元的实现方法

Info

Publication number: CN103176767A
Application number: CN2013100669016A
Authority: CN
Inventors: 沈海斌; 沈俊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-03-01
Filing date: 2013-03-01
Publication date: 2013-06-26
Anticipated expiration: 2033-03-01
Also published as: CN103176767B

Abstract

本发明公开了一种低功耗高吞吐的浮点数乘累加单元的实现方法。它的步骤如下：1）计算矢量点乘运算时，在N个周期内每周期输入一对操作数A与操作数B，前三级流水线执行操作数A与操作数B的浮点乘法操作；2）在第四级流水线将乘积进行权重转换，使尾数位宽增加，指数位宽减少；3）将转换后的乘积在第五级流水线进行累加操作，每周期完成一次乘积的累加；4）第六级流水线与第七级流水线完成权重的复原，在第N+6个周期输出最终乘累加的结果。本发明可完成任意长度N的矢量点乘运算,每周期计算一次乘累加,避免了处理器中寄存器的频繁存取操作。上述运算可以在N+6个周期内完成，兼容单精度与双精度浮点数，并有效降低浮点数运算的功耗。

Description

一种低功耗高吞吐的浮点数乘累加单元的实现方法

技术领域

本发明涉及中央处理器以及数字信号处理器中核心运算单元的设计领域，尤其涉及一种低功耗高吞吐的浮点数乘累加单元的实现方法。

背景技术

计算机和通讯技术的迅猛发展，极大的改变了我们的工作和生活方式,人类的生产生活越来越依赖计算机等设备，科学研究和工程应用都对浮点数的运算性能提出了很高的要求，其中乘累加是数字信号处理、科学计算中的关键运算单元。

在传统结构中，矢量点乘运算由于数据相关性的原因，流水线无法每个周期计算一次乘累加，所以吞吐率会大幅下降，其每秒浮点运算次数与峰值性能相距甚远。在实现诸如有限长单位冲激响应滤波器时，传统的浮点数运算装置需要多次寄存器存取操作才能完成，性能损失严重。另外，随着嵌入式手持设备越来越普及，系统的功耗越来越被人们所关注和研究，因而如何降低芯片功耗也成为当前集成电路设计中的关键因素之一。

发明内容

本发明的目的在于克服现有设计对矢量点乘操作的不足，提供一种低功耗高吞吐的浮点数乘累加单元的实现方法。

低功耗高吞吐的浮点数乘累加单元的实现方法的步骤如下：

1）提取计算矢量点乘运算

的个数N，在N个周期内每周期输入一对操作数A与操作数B，前三级流水线执行操作数A与操作数B的浮点乘法操作，得到乘积结果，乘积结果采用进位保留形式传递给下一级；

2）在第四级流水线将乘积进行位宽拓展，对于双精度浮点数将乘积从基2权重转换到基64权重，对于单精度浮点数将乘积从基2权重转换到基32权重，将权重提高以后，尾数位宽增加，指数位宽减少；

3）将转换后的乘积在第五级流水线进行累加操作，累加的临时结果反馈到输入端，与下一周期输入的乘积继续累加，直到N次全部完成，从而消除流水线的停顿，到达每周期完成一次乘积累加，累加器采用4-2进位保留加法器；

4）将进位保留结果通过第六级流水线与第七级流水线的最终加法器与移位器完成权重的复原，在第N+6个周期输出最终乘累加的结果。

所述的权重转换为：乘积需要的位宽调整采用基64-2/32-2转换模块，对于双精度浮点数指数的高5位保留，尾数根据指数低6位左移；对于单精度浮点数指数的高3位保留，尾数根据指数低5位左移。

所述的累加操作为：累加值根据三种指数差值的执行不同的常量移位，分别对应累加值右移位64位，左移位64位，或者不移位，将移位后的尾数相加，在累加器执行的过程中，如果累加的临时结果积累了超过63个零，那么需要将临时结果左移64位，从而使有效位大于53位。

与现有技术相比，本发明的有益效果在于：

1）本发明的浮点数乘累加装置可以完成任意长度N的矢量点乘运算,可以每周期计算一次乘累加,避免了处理器中寄存器的频繁存取操作。本发明可以全流水执行，上述运算可以在N+6个周期内完成，兼容单精度与双精度浮点数；

2）本发明执行一次长度为N的矢量点乘运算，规格化与舍入模块仅仅使用到一次，从而大幅降低了该类运算的功耗；

3）本发明具有模块化设计思想，可以运用到处理器，或者在FPGA上组成运算阵列，完全符合IEEE浮点数运算标准，针对矢量运算具有低功耗和高吞吐率的特点。

附图说明

图1是低功耗高吞吐的浮点数乘累加单元的实现方法的原理图；

图2是本发明的浮点数数据存储格式示意图；

图3是本发明的乘法器模块图；

图4是本发明的基64-2转换模块图；

图5是本发明的单周期累加算法的原理示意图；

图6是本发明的单周期累加模块图；

图7是本发明的低功耗原理示意图。

具体实施方法

如图1、2所示，低功耗高吞吐的浮点数乘累加单元的实现方法的步骤如下：

1）提取计算矢量点乘运算

如图3所示，乘法器采用booth编码与华莱士树实现，结果采用进位保留的形式，而不直接求出乘积结果，从而节约一个加法器的面积与功耗，最终结果求和会在累加完成后执行。为了保证同时兼容双精度与单精度浮点数。该乘法器采用硬件隔离的手段，在单精度模式下复用双精度模式下的运算逻辑，同时并行执行两组单精度浮点数。

如图4所示，所述的权重转换为：乘积需要的位宽调整采用基64-2/32-2转换模块，对于双精度浮点数指数的高5位保留，尾数根据指数低6位左移；对于单精度浮点数指数的高3位保留，尾数根据指数低5位左移。

扩展了尾数位宽后，使得在累加的过程中可以将规格化与舍入步骤后置到后续流水线，在完成所有累加之后只做一次处理。同理对于两组单精度浮点数而言，该模块将采用硬件隔离的手段，同时做两组基32-2的转换。经过转换以后的尾数宽度为116位，指数仅保留高5位。

如图5、6所示，所述的累加操作为：累加值根据三种指数差值的执行不同的常量移位，分别对应累加值右移位64位，左移位64位，或者不移位，将移位后的尾数相加，在累加器执行的过程中，如果累加的临时结果积累了超过63个零，那么需要将临时结果左移64位，从而使有效位大于53位。

对于基转换以后的乘积，如果乘积与累加临时结果的指数相差在1或0，那么直接将较小的数右移64位，再执行累加。如果乘积与累加临时结果的指数相差大于等于2，那么直接将较大数作为累加结果。

如图7所示，由于图1中第6,7级流水线在整个乘累加过程中只使用到一次，因此在累加过程中可以将其关闭，本发明采用简单的与门逻辑来隔离第6，7级的数据翻转，只要乘累加的数据还在第5级流水线反馈循环，那么控制信号将置为0，从而第6,7级的组合逻辑的信号将不会改变，当乘累加运算结束以后，第6,7级的控制信号将置为1，从而使得数据可以传递到后续模块。

本发明采用smic 0.13um工艺实现，频率可以达到400MHz，逻辑规模等效于50K标准与非门，动态功耗为54mW，由此可以看到本设计相比传统设计在不牺牲面积与速度的前提下，使得矢量点乘操作的效率大幅提高。计算一次

仅仅需要N+6个周期即可完成。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和润饰，都落入本发明的保护范围。

Claims

1.一种低功耗高吞吐的浮点数乘累加单元的实现方法，其特征在于，它的步骤如下：

1）提取计算矢量点乘运算

2.根据权利要求1所述的一种低功耗高吞吐的浮点数乘累加单元的实现方法，其特征在于所述的权重转换为：乘积需要的位宽调整采用基64-2/32-2转换模块，对于双精度浮点数指数的高5位保留，尾数根据指数低6位左移；对于单精度浮点数指数的高3位保留，尾数根据指数低5位左移。

3.根据权利要求1所述的一种低功耗高吞吐的浮点数乘累加单元的实现方法，其特征在于所述的累加操作为：累加值根据三种指数差值的执行不同的常量移位，分别对应累加值右移位64位，左移位64位，或者不移位，将移位后的尾数相加，在累加器执行的过程中，如果累加的临时结果积累了超过63个零，那么需要将临时结果左移64位，从而使有效位大于53位。