CN113378109B

CN113378109B - 一种基于存内计算的混合基快速傅里叶变换计算电路

Info

Publication number: CN113378109B
Application number: CN202110436350.2A
Authority: CN
Inventors: 黄科杰; 刘润; 沈海斌
Original assignee: Zhejiang University ZJU; Zhejiang Lab
Current assignee: Zhejiang University ZJU; Zhejiang Lab
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2023-09-12
Anticipated expiration: 2041-04-22
Also published as: CN113378109A

Abstract

本发明公开了一种基于存内计算的混合基快速傅里叶变换计算电路。存内计算阵列和电路中的存储模块相连接；地址生成模块和存储模块相连接，生成不同的地址数据控制存储模块中数据送入存内计算阵列中进行计算；数据流控制模块产生控制信号，通过与地址生成模块和存储模块的连接，控制整个系统中数据流的流动时序；存内计算阵列接收从存储模块中传入数据，经过计算后输出结果至存储模块中。本发明有效地利用存内计算低功耗和乘累加计算的特点，解决了传统快速傅里叶变换电路设计中高功耗，高延迟的技术问题。

Description

一种基于存内计算的混合基快速傅里叶变换计算电路

技术领域

本发明属于神经形态计算领域的一种神经形态计算电路，具体是涉及了一种基于存内计算(Computing in Memory)的混合基快速傅里叶变换(Mixed-Radix Fast FourierTransform)计算电路。

背景技术

傅里叶分析是一种广泛应用于工程，科学和数学等领域的将信号从原始域变换到频率域的分析方法，而快速傅里叶变换是其在实际中常用到的快速计算方法。快速傅里叶变换是一种高并行度，大数据量的计算方式，随之而来的是计算中产生的巨大功耗，这在低功耗终端应用中显现出巨大的挑战。与此同时，在传统的冯洛伊曼计算架构中，由于存储和计算模块的分离，数据在存储和计算模块中不断进行传输和计算，产生了严重的“内存墙”效应。随着摩尔定律即将走向终结，通过半导体工艺升级来提升处理器性能的方法已经难以维持。智能时代终端数量的爆炸式增长使得传统计算模式高成本，高功耗，高延迟和低能耗效率等问题日益严重，低功耗和大数据量的矛盾日益突出，急需要新的硬件架构和软件算法来提升计算和存储能力的同时，减少计算所产生的功耗。

存内计算技术是一种采用新型存储单元同时实现存储和计算的一种技术，是神经形态计算电路的一种实现方式。存内计算技术通过给存储器赋予计算功能，从而解决了冯洛伊曼架构中存在的内存墙问题，是一种非常适合用于进行低功耗计算的神经形态处理芯片设计的异构计算方式。存内计算中并行的输入输出方式适合于大数据量的并行计算，大大降低了计算延迟。同时，存内计算中并行乘累加的计算方式很适合快速傅里叶变换计算中所使用到的矩阵乘法，则采用存内计算的快速傅里叶变换计算就可以获得高并行，低功耗，低延迟的效果，从而提升电路对于快速傅里叶变换计算的处理性能。

如图1所示，现有的快速傅里叶变换处理器设计主要分为两种，一种是流水线式，一种是存储器中心式。流水线式快速傅里叶变换处理器通过对输入原始数据进行分类，每次计算其中一部分数据从而产生流水效果；以存储器为中心的设计模式则是将优化数据在存储器和计算单元的流动方式作为重点，设计不同的数据流模式以达到计算的目的。但是这两种方式仍然没有跳出传统的冯诺依曼设计结构，因此都会产生相当的功耗和一定的延迟。

发明内容

针对传统快速傅里叶变换电路设计中高功耗的特点，本发明提出了一种结合存内计算技术的快速傅里叶变换电路技术方案，本技术方案在实现低功耗计算的同时还可以实现高并行度和低延迟时间。

本发明结合快速傅里叶变换矩阵计算和存内计算乘累加的特点，设计混合基快速傅里叶变换的处理电路，能够在降低功耗的同时，实现高并行和低延迟的信号快速傅里叶变换处理。

本发明所采用的的技术方案是：

本发明包括存内计算阵列、存储模块、地址生成模块和数据流控制模块；

数据流控制模块，分别和地址生成模块和存储模块相连接，产生整个混合基快速傅里叶变换计算电路计算所需的数据流控制时序信号并发送到地址生成模块和存储模块，由地址生成模块结合存储模块控制计算数据经存内计算核的输入输出处理。

存内计算核，和存储模块相连接，用于接收来自存储模块的数据进行傅里叶变换运算获得结果并返回发送到存储模块；

存储模块，存储进行原始数据和存内计算核在每一级计算过程中所产生的数据；

地址生成模块，和存储模块连接，产生存内计算核在每一级计算过程中所需用的数据在存储模块中的地址，发送到存储模块使得存储模块按照地址中的数据发送到存内计算核。

快速傅里叶变换基于混合基分解之后，分解的每一部分傅里叶变换作为每一级。例如256＝16*16，则第一次的存内计算阵列DFT16计算称为第一级变换，第二次的DFT16称为第二级变换。

所述的存内计算核分成了用于对64点数数据运算的一个第一存内计算阵列、用于对32点数数据运算的两个第二存内计算阵列、用于对16点数数据运算的四个第三存内计算阵列和用于对8点数数据运算的八个第四存内计算阵列；两个第二存内计算阵列在位线上连接后和第一存内计算阵列在比特线上连接，每两个第三存内计算阵列在位线上连接后和一个第二存内计算阵列在比特线上连接，每两个第四存内计算阵列在位线上连接后和一个第三存内计算阵列在比特线上连接。

所述存储模块中所需运算的计算数据的点数分为2的幂次方，表示为2ⁿ，n为大于3的正整数；所需运算的计算数据的总点数划分为由8点数、16点数、32点数和64点数中之一或者多个组合所形成的相乘关系，进而将划分后的各组成点数对应的数据从存储模块发送到存内计算核中用于相同点数数据运算的存内计算阵列中进行。

不同的相乘关系导致需要计算的各组成点数对应的数据的地址不同，需要地址生成模块对应产生不同的地址。

本发明的存内计算单元有多种，可以是数字或者模拟，例如ReRAM电阻式存储器，但不限于此。

存内计算阵列主要由多个存内计算单元以行、列地阵列连接构成，同一列的存内计算单元均连接到同一位线上，同一行的存内计算单元均连接到同一比特线上，同一列的存内计算单元串接后接收外部输入的旋转因子，旋转因子赋值到各个存内计算单元中；各位线连接接收来自存储模块的输入数据，每一位线连接接收输入数据中的一个，每一比特线连接两个数模转换器后输出运算结果数据。

本发明中，存内计算阵列和电路中的存储模块相连接；地址生成模块和存储模块相连接，生成不同的地址数据控制存储模块中数据送入存内计算阵列中进行计算；数据流控制模块产生控制信号，通过与地址生成模块和存储模块的连接，控制整个系统中数据流的流动时序；存内计算阵列接收从存储模块中传入数据，经过计算后输出结果至存储模块中。

本发明的创新设计和有益效果如下：

本发明构建了混合基快速傅里叶变换和存内计算结合的电路(图5)。主要包括原始数据和各级中间计算数据存储模块，地址生成模块，数据流控制模块和存内计算阵列。

本发明对于原始数据和各级中间数据进行了量化。对于原始数据和每一级中间计算数据都采用有符号数的8比特量化方式，兼顾了数据的精度和每一级计算的延迟。在这种量化方式下，每一个数据都会量化到-128到127的范围中，这样可以让每一级的计算周期都变成8个时钟周期，同时保持相当的计算精度。

本发明构建了设计不同大小的存内离散傅里叶变换(Discrete FourierTransform)计算阵列，包括8点计算阵列，16点计算阵列，32点计算阵列和64点计算阵列(图5)。不同点数的计算阵列可以满足不同点快速傅里叶变换的分级要求，也可以满足相同点快速傅里叶变换不同分级方式的计算要求。这种不同点的阵列布置，可以使得快速傅里叶变换计算电路完成不同点的计算，从而大大提升整体电路的灵活性。

综合来说，本发明技术方案可以让混合基快速傅里叶变换得以在存内计算阵列中方便实现，从而达到低功耗，低延迟设计的目标。

本发明还包含有不同规模大小的存内计算阵列，能够完成不同分级方式下的快速傅里叶变换设计需求，提升了整体电路的灵活性。

附图说明

图1是现有存内计算电路结构图；

图2是现有离散傅里叶变换计算矩阵；

图3是253点快速傅里叶变换16*16混合基分级模式下数据流图；

图4是16点离散傅里叶存内计算示意图；

图5是本发明提出的混合基快速傅里叶存内计算结构示意图。

具体实施方式

下面结合附图对发明的具体实施方式做进一步的说明。

现有传统的离散傅里叶变换计算(图2)，采用的是矩阵计算形式。当需要进行离散傅里叶变换的数据量较大时，使用矩阵乘法形式计算十分不方便，尤其是使用存内计算阵列。对于较大点数的快速傅里叶变换计算，采用混合基分解方法将一个大型的旋转因子矩阵分解为多个小型的旋转因子矩阵。

假设离散傅里叶变换点数N＝r₁r₂是一个复合数，则其混合基分解之后的离散傅里叶变换公式为：

其中X(k₁，k₀)代表最终的计算结果值，n₁，n₀代表不同位的不同进制；r₁，r₂代表复合数n进行因数分解后的两个因子，也可以是多个因子；k₁，k₂代表两个频率分量；N代表需要进行离散傅里叶变换的点数；x(n₁，n₀)代表不同位的不同进制表示下需要进行离散傅里叶变换的原始数据；W代表每一级的旋转因子矩阵。表示该旋转因子矩阵中第k0行，n1列的元素，r1表示第一级DFT的旋转因子矩阵。

这样可以得到N＝r₁r₂的混合基FFT算法，首先将n表示为按r₂进制表示的形式n＝n₁r₂+n₀，即将x(n)分为r₂个r₁点的序列，然后再做r₂个r₁点的DFT得到X₁(k₀，k₀)；将X₁(k₀，k₀)乘以旋转因子后，再做r₁个r₂点的DFT得到X₂(k₀，k₁)，最后进行r₂进制整序，得到X(k₁，k₀)＝X(k)，X(k)表示快速傅里叶变换得到的最终结果。

由图1可见，在离散傅里叶变换数据量较大时，使用矩阵乘法形式计算针对现有的存内计算阵列十分不方便，因为旋转因子矩阵太大。

因此本发明针对存内计算核中的存内计算阵列拓扑布置进行改进。

本发明设计的计算电路如图5所示，包括采用了新型存储器件的存内计算阵列、存储模块、地址生成模块和数据流控制模块；

存储模块，存储进行需要进行快速傅里叶变换的原始数据和存内计算核在每一级计算过程中所产生的数据以及最终计算结果数据；

存内计算核分成了用于对64点数数据运算的一个第一存内计算阵列、用于对32点数数据运算的两个第二存内计算阵列、用于对16点数数据运算的四个第三存内计算阵列和用于对8点数数据运算的八个第四存内计算阵列；

两个第二存内计算阵列在位线上串接连接后和第一存内计算阵列在比特线上串接连接，每两个第三存内计算阵列在位线上串接连接后和一个第二存内计算阵列在比特线上串接连接，每两个第四存内计算阵列在位线上串接连接后和一个第三存内计算阵列在比特线上串接连接；形成了不同规模大小的存内计算阵列，包含不同分级结构的存内计算核；

本发明中，存储模块中所需运算的计算数据的点数分为2的幂次方，表示为2ⁿ，n为大于3的正整数；所需运算的计算数据的总点数划分为由8点数、16点数、32点数和64点数中之一或者多个组合所形成的相乘关系，进而将划分后的各组成点数对应的数据从存储模块发送到存内计算核中用于相同点数数据运算的存内计算阵列中进行。

例如，从存储模块发送到存内计算核的输入数据是点数为512的输入数据，将512划分为32点数数据和16点数数据相乘的关系，即512＝32*16，然后将32点数数据输入到从存储模块发送到存内计算核的用于对32点数数据运算的第二存内计算阵列中运算，运算后再将16点数数据输入到从存储模块发送到存内计算核的用于对16点数数据运算的第三存内计算阵列中运算，由第二存内计算阵列和第三存内计算阵列各自的运算结果进行相乘累加获得最终的点数512的输入数据的运算结果。

同时也可以将512划分为32点数数据和16点数数据相乘的关系等。例如将128点数数据划分为8*16；将256点数数据划分为16*16；将1024点数数据划分为32*32；将4096点数数据划分为64*64等。

如图4所示，存内计算阵列主要由多个存内计算单元以行、列地阵列连接构成，同一列的存内计算单元均连接到同一位线上，同一行的存内计算单元均连接到同一比特线上，同一列的存内计算单元串接后接收外部输入的旋转因子，旋转因子赋值到各个存内计算单元中；各位线连接接收来自存储模块的输入数据，每一位线连接接收输入数据中的一个，图4中X(0)表示输入数据中的第一个，输入数据中的一个输入到位线上的各个存内计算单元后和存内计算单元内存储的旋转因子进行相乘后经比特线输出，每一比特线连接各自的两个数模转换器后输出运算结果数据，图4中X₁(0)表示输出数据中的第一个，两个数模转换器分别用于实数和虚数的运算转换。

前述例如用于对8点数的数据进行运算的第四存内计算阵列中，设置8条位线和8条比特线，形成8行、8列的矩阵阵列排布。存内计算单元的本质是数据的乘累加和，输入数值转化为二进制形式，每次输入单比特的二进制数，控制相应的存储单元的计算。图4中，Wⁱ ^*j ₁₆表示共具有16行和16列中的第i+1行第j+1列的存内计算单元，存内计算单元共计具有16行和16列。

具体实施中，存内计算单元采用1R1T存储单元，包含了相串联的RRAM电阻和MOS管，MOS管的源极经RRAM电阻接地，同一列的1R1T存储单元中的所有MOS管的漏极和位线连接，同一行的1R1T存储单元中的所有MOS管的栅极均连接到各自的比特线上。

本发明大规模的阵列式存内计算单元构成的存内计算阵列，能实现在阵列的一个方向控制乘法计算数值，在阵列的另一个方向实现乘法计算数值的累加。

如图5所示，存储模块是由数字电路设计产生，分别和存内计算阵列、地址生成模块、数据流控制模块相连接；存储模块接收地址生成模块所产生的地址数据和数据流控制模块所产生的时序控制信号，将需要进行快速傅里叶变换的原始数据和每一级中需要进行快速傅里叶变换的数据分别送入到存内计算核的一个存内计算阵列中完成运算过程(整体的存内计算部分叫做存内计算核；而DFT8,16,32,64叫做一个存内计算阵列)，并接收存内计算阵列中每一级计算所产生的运算结果数据。

如图5所示，地址生成模块是由数字电路设计产生，产生存内计算阵列中每一级中需要进行快速傅里叶变换的数据来自存储模块中的地址，使得存储模块按照地址将地址对应的数据送入存内计算阵列进行运算。

如图5所示，数据流控制模块是由数字电路设计产生，产生整个系统计算所需要的数据流控制时序信号，控制地址生成模块产生每一级快速傅里叶变换的数据地址，控制存储模块将数据输入存内计算阵列，控制存储模块接收存内计算阵列所产生的运算结果数据。

本发明计算电路主要用于混合基的快速傅里叶变换计算，快速傅里叶变换所需要的旋转因子数据映射到相应的存内计算单元中，可以根据不同的存内计算单元选择合适的0和1的状态表示。

图3作为示例，显示的是256点快速傅里叶变换在16*16的混合基分级模式下的数据流图，体现出混合基分解下每一级抽取不同位序数据进行计算的特点。图3中分为左中右三个数据图表示，每两个数据图中间进行DFT16计算。在左边数据图和中间数据图之间进行第一级DFT16的计算；在中间数据图和右边数据图之间进行第二级DFT16的计算。第一级DFT16是左边数据图按列进行计算，第二级DFT16是中间数据图按行进行计算，每一级抽取的数据位序不同。

图4是一个16点离散傅里叶变换在存内计算中的示意图。存内单元存储的是旋转因子矩阵中的元素，也就是权重，输入数据量化成为8bit之后按比特从横向进入存内计算阵列，实现乘法运算，在纵向实现累加和计算，并输出最后结果。

在本发明上述计算电路拓扑结构的实施例及其计算流程如下：

原始计算数据先存放在存储模块中，确定好快速傅里叶变换的混合基分解形式之后，地址生成模块根据该混合基分解形式生成相应数据地址，送入到存储模块中；与此同时，数据流控制模块产生控制信号将存储模块中相应地址中的数据按照每比特为单位送入到存内计算阵列中去；在存内计算阵列中根据一定的时序完成相应的矩阵计算，数据流控制模块在一定的时序后，将输出数据送入到存储模块中存储起来，以供下一级计算使用。

由于进行了混合基的分解，每一级中需要抽取不同位序的输入数据送入到存内计算阵列中进行计算，地址生成模块需要产生每一级计算的输入数据在存储模块中的地址。对于不同的分级方式，存内计算阵列提供了8点，16点，32点和64点不同的存内计算阵列，可以计算不同点数的离散傅里叶变换，这样满足不同点的计算需求，体现了整体设计的灵活性。

由此实施可见，本发明可以有效地利用存内计算低功耗和乘累加计算的特点，设计了快速傅里叶变换的电路，解决了传统快速傅里叶变换电路设计中高功耗，高延迟的技术问题。

以上实施例仅用于说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解；其依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于存内计算的混合基快速傅里叶变换计算电路，其特征在于：

包括存内计算阵列、存储模块、地址生成模块和数据流控制模块；

数据流控制模块，分别和地址生成模块和存储模块相连接，产生整个混合基快速傅里叶变换计算电路计算所需的数据流控制时序信号并发送到地址生成模块和存储模块，由地址生成模块结合存储模块控制计算数据经存内计算核的输入输出处理；

地址生成模块，和存储模块连接，产生存内计算核在每一级计算过程中所需用的数据在存储模块中的地址，发送到存储模块使得存储模块按照地址中的数据发送到存内计算核；

所述的存内计算核分成了用于对64点数数据运算的一个第一存内计算阵列、用于对32点数数据运算的两个第二存内计算阵列、用于对16点数数据运算的四个第三存内计算阵列和用于对8点数数据运算的八个第四存内计算阵列；两个第二存内计算阵列在位线上连接后和第一存内计算阵列在比特线上连接，每两个第三存内计算阵列在位线上连接后和一个第二存内计算阵列在比特线上连接，每两个第四存内计算阵列在位线上连接后和一个第三存内计算阵列在比特线上连接；

2.根据权利要求1所述的一种基于存内计算的混合基快速傅里叶变换计算电路，其特征在于：存内计算阵列由多个存内计算单元以行、列地阵列连接构成，同一列的存内计算单元均连接到同一位线上，同一行的存内计算单元均连接到同一比特线上，同一列的存内计算单元串接后接收外部输入的旋转因子，旋转因子赋值到各个存内计算单元中；各位线连接接收来自存储模块的输入数据，每一位线连接接收输入数据中的一个，每一比特线连接两个数模转换器后输出运算结果数据。