CN111124358A

CN111124358A - 一种序列累加器的运算方法和设备

Info

Publication number: CN111124358A
Application number: CN201911244644.4A
Authority: CN
Inventors: 满宏涛; 陈贝
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-08
Anticipated expiration: 2039-12-06
Also published as: CN111124358B

Abstract

本发明提供了一种序列累加器的运算方法和设备，该方法包括以下步骤：将数据缓存中存储的序列的值依次输入浮点加法器的第一输入端；将第一输入端中的序列的值依次与浮点加法器的第二输入端的值相加，并将结果输出到浮点加法器的输出端；将输出端输出的值依次输入到第二输入端中；响应于序列的值全部输入到浮点加法器中，将输出端输出的值输入到数据缓存的输入端，并将数据缓存中的值按顺序分别输入到第一输入端和第二输入端；经阈值周期后由浮点加法器的输出端输出结果。通过使用本发明的方法，能够有效减少因加法器延迟带来的流水线等待周期，具有运算周期短、资源利用率高、流水间隔小和缓存占用小等优点，可以灵活应用到不同的场景。

Description

一种序列累加器的运算方法和设备

技术领域

本领域涉及计算机领域，并且更具体地涉及一种序列累加器的运算方法和设备。

背景技术

对数据进行累加求和，是一个常见的数学运算，是各种复杂信号处理算法最重要的基础单元之一，现代各种先进的数字器件、电路、设备等，均包含累加器的设计。累加器是通过将加法器的输出反馈到输入端来实现，通过多次迭代完成一串序列的累加。对于浮点运算(或多bit的定点数据)，由于浮点加法器计算较复杂，需要经历对阶、尾数运算、结果规格化、舍入处理和溢出判断五个步骤，一般会有7～14级的流水延迟，也就是说在加法器输入端输入A和B两个浮点数，需要等待7～14个时钟周期后，才会输出A+B的结果C。加法器的这种延迟会造成在设计累加器时流水线的阻塞，传统累加器在处理加法器的延迟时采用了等待的方式，因此完成累加的运算时间较长。

现有的累加器运算周期长：完成一个长度为n的浮点序列累加需要n*k个时钟周期，对很多对运算时间苛刻的场景无法应用；资源利用率低：浮点加法器k个周期才使用一次，利用率低；流水间隔大：一个序列输入后，由于运算周期较长，如果后续还有序列需要进行计算，必须等待上一次全部完成计算，才可以输入，等待的间隔较大；缓存占用大：数据缓存的输入是连续输入的，读取时是间隔k的周期读取一个数据，所有整个缓存的大小要基本与数据序列的大小一致。一方面当n较大时，占用的缓存空间也较大；另一方面，累加器设计时需要预先知道待输入序列的最大个数，并限定待输入序列的最大个数，当待输入序列大于限定值时，需要重新调整累加器设计，应用起来不灵活。

发明内容

有鉴于此，本发明实施例的目的在于提出一种序列累加器的运算方法和设备，能够有效减少因加法器延迟带来的流水线等待周期，具有运算周期短、资源利用率高、流水间隔小和缓存占用小等优点，可以灵活应用到不同的场景。

基于上述目的，本发明的实施例的一个方面提供了一种序列累加器的运算方法，包括以下步骤：

将数据缓存中存储的序列的值依次输入浮点加法器的第一输入端；

将第一输入端中的序列的值依次与浮点加法器的第二输入端的值相加，并将结果输出到浮点加法器的输出端；

将输出端输出的值依次输入到第二输入端中；

响应于序列的值全部输入到浮点加法器中，并将输出端输出的值输入到数据缓存的输入端，将数据缓存中的值按顺序分别输入到第一输入端和第二输入端；

经阈值周期后由浮点加法器的输出端输出结果。

根据本发明的一个实施例，将第一输入端中的序列的值依次与浮点加法器的第二输入端的值相加包括：

在第一个阈值周期内，使第二输入端的值为0。

根据本发明的一个实施例，将结果输出到浮点加法器的输出端包括：

每个结果经过一个阈值周期后从输出端输出。

根据本发明的一个实施例，将数据缓存中的值按顺序分别输入到第一输入端和第二输入端包括：

将第奇数个值输入到第一输入端，并且将第偶数个值输入到第二输入端。

根据本发明的一个实施例，阈值周期为浮点加法器的延迟数。

本发明的实施例的另一个方面，还提供了一种序列累加器的运算设备，其特征在于，设备包括：

至少一个处理器；和

存储器，存储器存储有处理器可运行的程序代码，程序代码在被处理器运行时执行以下步骤：

将输出端输出的值依次输入到第二输入端中；

响应于序列的值全部输入到浮点加法器中，将输出端输出的值输入到数据缓存的输入端，并将数据缓存中的值按顺序分别输入到第一输入端和第二输入端；

经阈值周期后由浮点加法器的输出端输出结果。

在第一个阈值周期内，使第二输入端的值为0。

每个结果经过一个阈值周期后从输出端输出。

本发明具有以下有益技术效果：本发明实施例提供的序列累加器的运算方法，通过将数据缓存中存储的序列的值依次输入浮点加法器的第一输入端；将第一输入端中的序列的值依次与浮点加法器的第二输入端的值相加，并将结果输出到浮点加法器的输出端；将输出端输出的值依次输入到第二输入端中；响应于序列的值全部输入到浮点加法器中，将输出端输出的值输入到数据缓存的输入端，并将数据缓存中的值按顺序分别输入到第一输入端和第二输入端；经阈值周期后由浮点加法器的输出端输出结果的技术方案，能够有效减少因加法器延迟带来的流水线等待周期，具有运算周期短、资源利用率高、流水间隔小和缓存占用小等优点，可以灵活应用到不同的场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的序列累加器的运算方法的示意性流程图；

图2为根据本发明一个实施例的序列累加器的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明的实施例的第一个方面，提出了一种序列累加器的运算方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示，该方法可以包括以下步骤：

S1将数据缓存中存储的序列的值依次输入浮点加法器的第一输入端，不用等前一个值的计算结果计算出后再输入下一个值，而是连续不断的往浮点加法器中输入值；

S2就第一输入端中的序列的值依次与浮点加法器的第二输入端的值相加，并将结果输出到浮点加法器的输出端，第一输入端中的值依次与第二输入端的值相加，例如，第一输入端的第一个值与第二输入端的第一个值相加，等待阈值周期后才会在输出端输出结果，等待的过程中，不断进行第二个值、第三个值等的相加；

S3将输出端输出的值依次输入到第二输入端中，例如第一个阈值周期内进行了5组相加计算，第一个阈值周期之后刚好第一组的结果由输出端输出，将该第一组结果输入到第二输入端中，这时刚好序列中的第六个值输入到第一输入端，然后进行第一组的结果与第六个值的相加计算，依次类推；

S4响应于序列的值全部输入到浮点加法器中，将输出端输出的值输入到数据缓存的输入端，并将数据缓存中的值按顺序分别输入到第一输入端和第二输入端，序列的值全部输入到浮点加法器中最后的结果只剩下一个阈值周期内可以计算的相加组个数的值，例如一个阈值周期内可以算5组，那么最后只剩下5个值，将这5个值分别输入到第一输入端和第二输入端后，按照前面的步骤进行相加；

S5经阈值周期后由浮点加法器的输出端输出结果，相加到最后得到的值右输出端输出，最后相加用的时间应小于阈值周期。

通过以上技术方案，具有以下优点：

运算周期短，完成一个长度为n的浮点序列累加需要n+2k(k为阈值周期)个时钟周期(序列长度n往往远大于k)；所以本发明提出的设计方法将运算周期从传统的k*n量级，降低到n量级，运算周期减小到原来的1/k；

资源利用率高，浮点加法器在大部分时间里都是满负荷使用，利用率高；

流水间隔小，一个序列输入后基本上是流水计算，如果后续还有序列需要进行计算，只需等待2k个周期(k相对非常小)，就可以输入，等待的间隔非常小；

缓存占用小，数据缓存只需要设定为k大小即可，而且与输入序列的长度无关，累加器设计完成后，可灵活应用到不同的场景。

在本发明的一个优选实施例中，将第一输入端中的序列的值依次与浮点加法器的第二输入端的值相加包括：

在第一个阈值周期内，使第二输入端的值为0。序列中的值刚开始输入到第一输入端时，第二输入端是没有值的，因此，第一个阈值周期内输入的值全部与0相加。

在本发明的一个优选实施例中，将结果输出到浮点加法器的输出端包括：

每个结果经过一个阈值周期后从输出端输出。每组值相加得到结果都会延迟一个阈值周期才会输出，延迟期间不断进行第二组、第三组等的计算，在第一个阈值周期后会连续输出前面计算的结果。

在本发明的一个优选实施例中，将数据缓存中的值按顺序分别输入到第一输入端和第二输入端包括：

将第奇数个值输入到第一输入端，并且将第偶数个值输入到第二输入端。也就是顺序排位在第1、3、5等奇数的值输入到第一输入端，排位为偶数的值输入到第二输入端。

在本发明的一个优选实施例中，阈值周期为浮点加法器的延迟数。浮点加法器的延迟数一般范围为几个或者十几个时钟周期不等，根据情况或者器件而定，设定后不会改变，故这里使用常数k代表。

上述方法可以经由如图2所示的序列累加器实现，该序列累加器包括：浮点加法器：可以完成两个浮点数据的加法，浮点加法器的延迟数一般范围为几个或者十几个时钟周期不等，根据情况或者器件而定，设定后不会改变，故这里使用常数k代表；

数据缓存(FIFO)：能够写入数据并存储起来，读取时会按照输入的顺序输出，该缓存深度(大小)需要与数据序列的长度一致；

控制逻辑：主要完成整个累加器的流程控制功能；

通路开关(MUX)模块：该模块可以再控制逻辑的控制下，选通不同的数据通路。

经由如图2所示的序列累加器实现上述方法的实施例如下：

1.待计算序列按照输入顺序连续写入数据缓存中，假设数据序列总长度为n，按照输入顺序分别定义为D[0]、D[1]、D[2]、D[3]、……、D[n-2]、D[n-1]；

2.控制逻辑设置通路开关(MUX)模块选通1和2之间连通；

3.数据缓存中有数据后，控制逻辑即可从缓存中连续读出数据D[0]、D[1]、D[2]、……、D[k-1]送入浮点加法器的A端口，此时B端口无数据应保持为0值，此时刻浮点加法器将依次开始进行D[0]+0、D[1]+0、D[2]+0、……、D[k-1]+0的计算；

4.上一步会占用k个时钟周期，由于浮点加法器的延迟也是k个时钟周期，所以当上一步的D[k-1]+0输入浮点加法器开始计算后，浮点加法器的C端口刚好会输出D[0]+0的结果，同时由于通路开关(MUX)模块已选通1和2之间通路，C端口的输出D[0]+0结果会反馈到浮点加法器的B输入端口，该时刻控制逻辑从缓存中再次读取的数据为D[k]，此时刻浮点加法器将开始进行(D[0]+0)+D[k]的计算；

5.依次类推，后续浮点加法器会连续进行(D[1]+0)+D[k+1]、(D[2]+0)+D[k+2]、……、(D[k-1]+0)+D[2k-1]的计算；

6.上一步完成时，浮点加法器的B端口会是D[0]+0+D[k]的结果，A端口为从缓存中读取的D[2k]，此时刻浮点加法器将开始进行(D[0]+0+D[k])+D[2k]的计算；

7.依次类推，从初始读取缓存时刻起，经过n个周期的迭代累加运算后，缓存中的数据已全部读完，且浮点累加器中有k个数据正在进行运算；

8.控制逻辑设置通路开关(MUX)模块选通1和4之间连通、3和2之前连通；

9.在接下来的k的周期，浮点累加器中最后的k个正在进行运算结果将依次输出，根据通路开关(MUX)的选通情况，这些数据将依次写入数据缓存中，为表述方便将剩余的k个数据(累加的中间结果)记为T[0]、T[1]、T[2]、……、T[k-1]；

10.从缓存中读取数据，按照奇偶将T[0]、T[1]、T[2]、……、T[k-1]分别赋值到浮点加法器的A端口或者B端口，如A＝T[0]、B＝T[1]进行一次加法，之后A＝T[2]、B＝T[3]进行一次加法，依次类推；如果k为奇数，赋值到A＝T[k-1]后寄存并保持，等待浮点加法器新的输出后，再读取出来赋值给B，才开始这一次加法；

11.经过类似上一步的多次迭代操作后，最终会剩余2个数据进行最后一次加法，等待k的周期的延时后，将结果输出即可。

通过以上技术方案，能够有效减少因加法器延迟带来的流水线等待周期，具有运算周期短、资源利用率高、流水间隔小和缓存占用小等优点，可以灵活应用到不同的场景。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

基于上述目的，本发明的实施例的第二个方面，提出了一种序列累加器的运算设备，其特征在于，设备包括：

至少一个处理器；和

将输出端输出的值依次输入到第二输入端中；

经阈值周期后由浮点加法器的输出端输出结果。

在第一个阈值周期内，使第二输入端的值为0。

每个结果经过一个阈值周期后从输出端输出。

在本发明的一个优选实施例中，阈值周期为浮点加法器的延迟数。

需要特别指出的是，上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到上述方法的其他实施例中。

此外，上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

上述实施例，特别是任何“优选”实施例是实现的可能示例，并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims

1.一种序列累加器的运算方法，其特征在于，包括以下步骤：

将所述第一输入端中的所述序列的所述值依次与所述浮点加法器的第二输入端的值相加，并将结果输出到所述浮点加法器的输出端；

将所述输出端输出的值依次输入到所述第二输入端中；

响应于所述序列的值全部输入到所述浮点加法器中，将所述输出端输出的值输入到所述数据缓存的输入端，并将所述数据缓存中的值按顺序分别输入到所述第一输入端和所述第二输入端；

经阈值周期后由所述浮点加法器的输出端输出结果。

2.根据权利要求1所述的方法，其特征在于，将所述第一输入端中的所述序列的所述值依次与所述浮点加法器的第二输入端的值相加包括：

在第一个所述阈值周期内，使所述第二输入端的值为0。

3.根据权利要求1所述的方法，其特征在于，将结果输出到所述浮点加法器的输出端包括：

每个所述结果经过一个所述阈值周期后从所述输出端输出。

4.根据权利要求1所述的方法，其特征在于，将所述数据缓存中的值按顺序分别输入到所述第一输入端和所述第二输入端包括：

将第奇数个值输入到所述第一输入端，并且将第偶数个值输入到所述第二输入端。

5.根据权利要求1所述的方法，其特征在于，所述阈值周期为所述浮点加法器的延迟数。

6.一种序列累加器的运算设备，其特征在于，所述设备包括：

至少一个处理器；和

存储器，所述存储器存储有处理器可运行的程序代码，所述程序代码在被处理器运行时执行以下步骤：

将所述输出端输出的值依次输入到所述第二输入端中；

经阈值周期后由所述浮点加法器的输出端输出结果。

7.根据权利要求6所述的设备，其特征在于，所述将第一输入端中的所述序列的所述值依次与所述浮点加法器的第二输入端的值相加包括：

在第一个所述阈值周期内，使所述第二输入端的值为0。

8.根据权利要求6所述的设备，其特征在于，将结果输出到所述浮点加法器的输出端包括：

每个所述结果经过一个所述阈值周期后从所述输出端输出。

9.根据权利要求6所述的设备，其特征在于，将所述数据缓存中的值按顺序分别输入到所述第一输入端和所述第二输入端包括：

10.根据权利要求6所述的设备，其特征在于，所述阈值周期为所述浮点加法器的延迟数。