CN110941792A

CN110941792A - 用于执行就地快速傅里叶变换的信号处理器、系统和方法

Info

Publication number: CN110941792A
Application number: CN201910798797.7A
Authority: CN
Inventors: A·R·胡加特; M·S·阿布拉哈姆斯
Original assignee: Semiconductor Components Industries LLC
Current assignee: Adikay LLC
Priority date: 2018-09-24
Filing date: 2019-08-27
Publication date: 2020-03-31
Anticipated expiration: 2039-08-27
Also published as: US10783216B2; CN110941792B; DE102019124676A1; US20200097519A1

Abstract

本发明题为“用于执行就地快速傅里叶变换的信号处理器、系统和方法”。本发明涉及用于执行就地快速傅里叶变换的信号处理器、系统和方法。根据各种实施方案，该装置包括RAM，RAM具有被划分成多个子存储器空间的单地址空间，其中子存储器空间的数量是FFT的长度的函数，使得两个输入始终来自不同的子存储器，两个输出也是如此。根据各种实施方案，该装置还可包括除法电路，除法电路被配置为执行“逐位”除法操作以便将来自上述单地址空间的地址转换为特定子存储器及其内的地址。根据各种实施方案，该装置还可包括能够执行蝶式操作的蝶式处理器。

Description

用于执行就地快速傅里叶变换的信号处理器、系统和方法

技术领域

本发明涉及用于执行就地快速傅里叶变换的信号处理器、系统和方法。

背景技术

诸如通信系统、信号处理系统和图像处理系统的各种应用利用各种信号处理操作，诸如快速傅里叶逆变换(IFFT)操作、快速傅里叶变换(FFT)操作等。为了执行这些操作，该系统可采用专用处理器来执行各种计算。一种类型的此类专用处理器可“就地”执行操作。在“就地”FFT操作的情况下，从存储器中的多个位置读取输入，并且将相同数量的输出写回到相同位置，从而覆写所输入的数据。在采用仅一个单端口存储器的情况下，必须按一次一个元素的方式读取数据，然后按一次一个元素的方式写回数据。因此存储器带宽变成专用处理器的速度的限制因素。将存储器划分成较小数量的子存储器以避免该带宽限制并不那么简单-在算法中的各个点处，可能需要FFT对来自相同子存储器的超过一个元素进行操作以执行算法的一个步骤，这会使操作慢下来。

发明内容

本发明所解决的技术问题是用于执行FFT的常规系统由于具有单端口存储器且会向相同子存储器读取和写入而具有较慢操作速度。

根据各种实施方案，该装置包括RAM，该RAM具有被划分成多个子存储器空间的单地址空间，其中子存储器空间的数量是FFT的长度的函数，使得两个输入始终来自不同的子存储器，两个输出也是如此。根据各种实施方案，该装置还可包括除法电路，该除法电路被配置为执行“逐位”除法操作以便将来自上述单地址空间的地址转换为特定子存储器及其内的地址。根据各种实施方案，该装置还可包括能够执行蝶式操作的蝶式处理器。

根据第一方面，被配置为执行就地快速傅里叶变换(FFT)的信号处理器包括：具有单地址空间的随机存取存储器(RAM)，其中该RAM被划分成固定数量的子存储器空间，并且其中该固定数量与FFT的长度互质；和蝶式处理器，该蝶式处理器连接到RAM并且被配置为：同时从固定数量的子存储器空间中的第一子存储器空间读取第一数据元素；以及从固定数量的子存储器空间中的第二子存储器空间读取第二数据元素；并且同时将第三数据元素写入到固定数量的子存储器空间中的第三子存储器空间；以及将第四数据元素写入到固定数量的子存储器空间中的第四子存储器空间。

在上述信号处理器的一个实施方案中，每个子存储器空间根据以下表达式与子存储器数量、分割地址和外部地址相关：A_s＝floor(A_e/M)，并且m＝A_e-M×A_s，其中M是子存储器空间的固定数量，m是子存储器数量，A_s是分割地址，并且A_e是外部地址。

在上述信号处理器的一个实施方案中，每个子存储器空间包括数据缓冲区，该数据缓冲区被配置为延迟将第五数据元素写入到第一子存储器空间和第二子存储器空间之一。

在上述信号处理器的一个实施方案中：蝶式处理器执行总数为H的蝶式处理操作以完成就地FFT；总数H中的每个蝶式处理操作在核心时钟的单个周期内执行；并且总数为H的蝶式处理操作在数量为K的核心时钟周期内完成，其中K等于H。

根据第二方面，用于执行就地快速傅里叶变换(FFT)的方法包括：提供具有单地址空间的主存储装置，其中该主存储装置按固定数量划分以形成多个子存储器空间，其中子存储器空间的固定数量与FFT的长度互质；使用蝶式处理器执行第一蝶式操作，该第一蝶式操作包括：同时从所述多个子存储器空间中的第一子存储器空间读取第一数据元素；以及从所述多个子存储器空间中的第二子存储器空间读取第二数据元素；处理第一数据元素和第二数据元素；并且将经处理的第一数据元素写入到第一子存储器空间；以及将经处理的第二数据元素写入到第二子存储器空间；使用蝶式处理器执行第二蝶式操作，该第二蝶式操作包括：从第一子存储器空间读取第三数据元素；并且延迟写入经处理的第一数据元素和第二数据元素之一以防止同时将第一数据元素和第二数据元素之一写入到第一子存储器空间并从第一存储器空间读取第三数据元素。

在上述方法的一个操作中：蝶式处理器执行总数为H的蝶式操作以完成就地FFT；总数H中的每个蝶式操作在核心时钟的单个周期内执行；并且总数为H的蝶式操作在数量为K的核心时钟周期内完成，其中K等于H。

根据第三方面，被配置为执行就地快速傅里叶变换(FFT)的系统包括：具有单地址空间的随机存取存储器(RAM)，其中该RAM被划分成固定数量的子存储器空间，并且其中子存储器空间的数量与FFT的长度互质；和蝶式处理器，该蝶式处理器连接到RAM并且被配置为执行多个蝶式操作，其中所述多个蝶式操作中的每个蝶式操作在核心时钟的连续周期开始；其中该系统防止同时对固定数量的子存储器空间中的相同子存储器空间读取数据和写入数据。

在上述系统的一个实施方案中：蝶式处理器执行总数为H的蝶式操作以完成就地FFT；并且总数为H的蝶式操作在数量为K的核心时钟周期内完成，其中K等于H。

在上述系统的一个实施方案中，在一个时钟周期中，蝶式处理器：同时从第一子存储器空间接收第一数据元素；以及从第二子存储器空间接收第二数据元素；处理第一数据元素和第二数据元素；并且同时将经处理的第一数据元素传输到第一子存储器空间；以及将经处理的第二数据元素传输到第二子存储器空间。

在上述系统的一个实施方案中：该系统根据具有系统频率的系统时钟操作，并且该蝶式处理器根据具有核心频率的核心时钟操作；核心频率高于系统频率；并且系统时钟控制进入系统的输入数据和离开系统的输出数据的传输速率。

本发明所实现的技术效果是通过对具有单地址空间的存储器内的子存储器空间同时读取两个元素并且同时写入两个元素来执行就地FFT，从而提高操作速度。

附图说明

当结合以下示例性附图考虑时，可参照具体实施方式更全面地了解本技术。在以下附图中，通篇以类似附图标记指代各附图中的类似元件和步骤。

图1是根据本技术的示例性实施方案的系统的框图；

图2代表性地示出了根据本技术的示例性实施方案的使用位反转输入时蝶式操作的顺序及数据输入和输出位置；

图3代表性地示出了根据本技术的示例性实施方案的使用非反转位输入时蝶式操作的顺序及数据输入和输出位置；

图4代表性地示出了根据本技术的示例性实施方案的除法操作；

图5代表性地示出了根据本技术的替代实施方案的存储设备中的寻址；

图6代表性地示出了根据本技术的替代实施方案的除法操作；

图7是用于执行8点基数2FFT的时序图；和

图8A至图8B是用于执行16点基数2FFT的时序图。

具体实施方式

本技术可在功能块部件和各种加工步骤方面进行描述。此类功能块可通过被配置成执行指定功能并且实现各种结果的任何数量的部件来实现。例如，本技术可以采用可执行各种功能的各种复用器、控制电路、蝶式处理器、计数器等。另外，本技术可结合任何数量的系统(诸如通信系统、信号处理系统、图像处理系统等)一起操作。

参见图1，系统100可被配置为执行各种信号处理操作，诸如快速傅里叶变换(FFT)。系统100可被配置为处理N点FFT，其中N是FFT的长度。另外，系统100可被配置为“就地”执行各种操作，其中特定操作周期的输入和输出被存储在相同存储器位置中。根据一个示例性实施方案，系统100可包括第一控制电路115、第二控制电路110、输入地址计数器105、输出地址计数器120、蝶式处理器130、旋转因子存储器125、多个写入复用器135、多个读取复用器190和主存储器160(诸如随机存取存储器(RAM)设备)。

根据一个示例性实施方案，系统100可被配置为接收各种输入控制信号和输入数据，并且传输各种输出控制信号和输出数据。例如，系统100可接收‘SYCN IN’信号和‘ENABLE IN’信号和输入数据(‘DATA IN’)。系统100可传输‘SYNC OUT’信号和‘ENABLEOUT’信号和输出数据(‘DATA OUT’)。

输入地址计数器105可被配置为接收各种控制信号，诸如‘SYNC IN’信号和‘ENABLE IN’信号。输入地址计数器105可包括常规计数器电路，并且可响应于控制信号(例如，‘SYNC IN’信号和‘ENABLE IN’信号)。例如，输入地址计数器105可根据控制信号来开始或停止。输入地址计数器105可生成控制信号，诸如‘START FFT’信号，并且将控制信号传输到第一控制电路115。例如，输入地址计数器105可被配置为在计数器已达到预定计数器数量时生成并传输‘START FFT’信号。

输入地址计数器105还可根据特定计数数量来生成输入地址信号‘Addr I’和输入信号(“输入有源”)。输入地址计数器105可将输入地址信号‘Addr I’和“输入有源”信号传输到第二控制电路110。

根据各种实施方案，输入地址计数器105可进一步被配置为对输入数据(‘DATAIN’)执行位反转。

第一控制电路115可被配置为执行各种控制功能，诸如启动FFT操作，发送FFT操作结束的信号，和/或地址生成。根据一个示例性实施方案，第一控制电路115连接到输入地址计数器105并且响应于‘START FFT’信号。例如，第一控制电路115可根据‘START FFT’信号来启动FFT操作。

另外，第一控制电路115可生成各种控制信号。例如，第一控制电路115可被配置为生成第一地址‘Addr A’和第二地址‘Addr B’，其中每个地址对应于主存储器160内的特定地址。第一控制电路115可将第一地址‘Addr A’和第二地址‘Addr B’传输到第二控制电路110。

在一个示例性实施方案中，第一控制电路115还可向第二控制电路110生成第一延迟的地址信号‘Addr_AD’(未示出)和第二延迟的地址信号‘Addr_BD’(未示出)。第一延迟的地址信号和第二延迟的地址信号分别是第一地址‘Addr A’和第二地址‘Addr B’的延迟版本。

第一控制电路115可进一步被配置为生成旋转地址‘Addr T’和停止信号(‘FFTDone’)。例如，第一控制电路115可根据FFT操作的特定阶段来生成旋转‘Addr T’，并且可在已完成FFT操作时生成停止信号。第一控制电路115可将旋转地址‘Addr T’传输到旋转因子存储器125，并且将停止信号传输到输出地址计数器120。

输出地址计数器120可包括常规计数器电路，并且可响应于停止信号‘FFT DONE’。输出地址计数器120还可根据特定计数数量来生成输出地址信号‘Addr O’和输出信号(“输出有源”)。输出地址计数器120可将输出地址信号‘Addr O’和输出信号(“输出有源”)传输到第二控制电路110。

输出地址计数器120还可生成可传输到伴侣电路(未示出)的各种控制信号，诸如‘SYNC OUT’信号和‘ENABLE OUT’信号。

主存储器160(也称为RAM)可用于存储FFT操作中所用的N个元素。RAM 160可具有单地址空间。根据一个示例性实施方案，RAM 160可被划分(即，分区)成多个M个子存储器空间165，其中每个子存储器空间165与分割地址A_s和外部地址A_e相关联。具体地讲，外部地址A_e按照以下关系式映射到共M个的子存储器空间m和分割地址A_s：A_s＝floor(A_e/M)，m＝A_e-M×A_s，其中M为子存储器空间165的总数。例如，并参见RAM 160被划分成5个子存储器空间(例如，“RAM 0”、“RAM 1”、“RAM 2”、“RAM 3”、“RAM 4”各自为子存储器空间165并且M＝5)的图5，外部地址0映射到RAM 0、分割地址0(即，A_e＝0，m＝0，A_s＝0)；外部地址1映射到RAM 1、分割地址0(即，A_e＝1，m＝1，A_s＝0)；外部地址4映射到RAM 4、分割地址0(即，A_e＝4，m＝4，A_s＝0)；外部地址5映射到RAM 0、分割地址1(即，A_e＝5，m＝0，A_s＝1)等。

应当注意，可修改上述寻址方法以适应具有任何数量子存储器空间的主存储器(RAM)。例如，RAM 160可具有3个子存储器空间、5个子存储器空间、7个子存储器空间等，并且子存储器空间的数量M可基于FFT的长度和/或蝶式处理器130的特定配置(例如，单基数基底、混合基数或分裂基数)。

根据一个示例性实施方案，子存储器空间的总数M与FFT的长度N互质。例如，对于32点FFT(其中N＝32)而言且在使用基数2FFT算法时，RAM 160可被划分成5个子存储器空间(即，M＝5)，这是由于5与32互质。对于243点FFT(其中N＝243)而言且在使用基数3FFT算法时，RAM 160可被划分成大于6的数量，诸如7或8个子存储器空间，这是由于7和8均与243互质。

在FFT的长度N是2的幂且因此基数基底R也是2的幂的情况下，RAM 160被划分成大于基数基底R两倍(或混合基数FFT的最大基数基底R两倍)的奇数个子存储器空间。

RAM 160可连接到第二控制电路110，并且被配置为从第二控制电路110接收外部地址A_e(例如，A0、A1、A2、A3、A4)和写入启用信号‘WE’。RAM 160还可被配置为接收数据输入，诸如数据输入‘2D0’、‘D1’、‘D2’、‘D3’和‘D4’。例如，RAM 160可连接到所述多个写入复用器135，其中每个写入复用器135传输单个数据输入。响应于外部地址A_e和写入启用信号‘WE’，RAM 160可将数据输出诸如数据输出‘Q0’、‘Q1’、‘Q2’、‘Q3’和‘Q’传输到所述多个读取复用器190。

蝶式处理器130可被配置为对N个元素(即，N点FFT)执行包括一个或多个蝶式操作的FFT算法，诸如库利-图基算法。一般来讲，对于长度N＝R^P的基数R实施方式而言，N点FFT需要R^P-1蝶式操作的P次传递(这可另选地表示为N/R蝶式操作的P次传递)。因此，例如，8点基数2FFT是4个蝶式操作的3次传递，并且16点基数2是8个蝶式操作的4次传递。完成FFT所需的蝶式操作总数H被描述为：H＝(N/R)log_(R)N。

例如，图2和图3示出了使用基数2的8点FFT，各有3次传递(例如，传递1、传递2、传递3)。每次传递包括4个蝶式操作，使得在每次传递期间，数据的每个元素被读取、处理并被其自身处理结果覆写。蝶式处理器130可被配置为对位反转输入(图2)或非反转位输入(图3)执行蝶式操作。

在常规系统中，图2和图3所示的每个蝶式操作将需要至少两个时钟周期以便读取其操作所需的数据。根据本技术的实施方案，图2和图3所示的每个蝶式操作将仅需要1个时钟周期就能在其可操作之前获得数据，因此蝶式处理器130可在每一个时钟周期开始对新数据的蝶式操作。在一个示例性实施方案中，蝶式处理器130可在内部流水化以使得在产生第一个结果之前需要多个时钟周期，但在每个时钟周期产生新的有效结果。

系统100可被配置为提供延迟，使得输出数据(例如，‘DA’和‘DB’)被写回到不在相同时钟周期中读取的子存储器165。另选地，每个子存储器空间165可包括一个或多个“先入先出”(FIFO)数据缓冲区以确保数据被写回一直等待到子存储器空间165不被读取。如上所述主存储器160向子存储器空间165的划分确保了数据以重复模式读取和写入。根据图1的示例性实施方案，在任何5个顺序时钟周期，可在两个连续时钟周期读取每个子存储器空间165，这使三个随后的连续时钟周期可用于将就地数据写回到读取该数据的相同子存储器空间165。这可使得每一个五时钟周期的组中有可用于数据导入或导出的空闲时钟周期。

蝶式处理器130可被配置为处理任何N点FFT，并且可使用任何数量的FFT算法以任何基数基底数量R(即，基数R)来形成。例如，蝶式处理器130可使用分裂基数FFT、混合基数FFT或单基数算法来实现。例如，512点FFT可使用256个蝶式操作的9次基数2传递、或者128个蝶式操作的4次基数4传递和256个蝶式操作的1次基数2传递的组合来执行。由于基数4传递需要4个输入，因此可能方便的是允许蝶式处理器130以2个基数2蝶式运算的方式并行操作。在混合基数FFT的情况下，24点FFT可使用12个蝶式操作的3次基数2传递和8个蝶式操作的1次基数3传递来执行。

根据各种实施方案，蝶式处理器130接收输入数据，诸如第一元素X_k和第二元素

其中p是集合{0，1，2，...，P-1}的一部分，k和k+2^P各自表示外部地址A_e，并且P是完成FFT操作所需的传递总数。根据一个示例性实施方案，蝶式处理器130同时接收第一元素X_k和第二元素

蝶式处理器130每次传递正好处理一次N点FFT的每个元素。

根据各种实施方案，蝶式处理器130生成输出诸如数据输出‘DA’和‘DB’作为蝶式操作的结果，并且将输出‘DA’，‘DB’传输到所述多个写入复用器135中的每个写入复用器135。

旋转因子存储器125可被配置为存储多个旋转因子。每个旋转因子T是蝶式操作中所用的常数系数。旋转因子存储器125可连接到蝶式处理器130，并且被配置为将旋转因子T传输到蝶式处理器130。每个旋转因子T的值可基于特定FFT体系结构(例如，分裂基数FFT、混合基数FFT、单基数FFT)，并且在任何特定时间传输到蝶式处理器130的特定旋转因子T可基于特定传递及FFT算法的该传递内的蝶式计数。

第二控制电路110可响应于来自第一控制电路115和输入地址计数器105的各种信号。第二控制电路110可被配置为执行各种控制功能，诸如地址转换，并且生成各种控制信号，诸如启用控制信号和复用器控制信号。例如，第二控制电路110可接收输入地址‘AddrI’、“输入有源”信号和第一地址‘Addr A’和第二地址‘Addr B’。响应于各种输入信号，第二控制电路110可生成并传输各种选择信号、地址信号和写入启用信号。

第二控制电路110可包括除法电路(未示出)，该除法电路被配置为按常数C执行除法操作以便将外部地址A_e转换为特定子存储器空间165和与该特定子存储器空间165相关联的分割地址A_s。根据各种实施方案，除法电路中所用的常数C可与子存储器空间165的总数M相同。例如，在本实施方案中，RAM 160包括五(5)个子存储器空间165，因此除法电路将被配置为除以5。因此，常数C可根据子存储器空间165的数量M而变化。

在一个实施方案中并参见图4，第二控制电路110和/或除法电路可被配置为执行逐位除法操作400。根据逐位除法操作400，B位的无符号整数被除以常数C。例如，在16位数的情况下，对于每个位b₁₅至b₃而言，除法操作的结果(即，第一商结果)被传输到第一加法器405并且余数(即，第一余数)被传输到第二加法器410。第二加法器410可接收多个第一余数以形成余数的总和。

然后可利用电路420(诸如只读存储器(ROM)设备或组合逻辑设备)生成输出，其中该输出的一部分(即，第二商结果)被传输到第三加法器415并且剩余的输出表示最终余数。电路420可包括查找表以有利于生成第二商结果和最终余数。例如，假定除数为5(即，C＝5)的除法且给定无符号16位数，如果位b₁₅表示32768，则32768/5＝6553余3，并且如果位b₁₄表示16384，则16384/5＝3276余4等。位b₂至b₀有余数，但没有除法结果(这是由于4/5＝0余4，2/5＝0余2，并且1/5＝0余1)。

如果b₁₅被设定(1)，则值6553被传输到第一加法器405并且值3被传输到第二加法器410。如果位b₁₅被清除(0)，则值0被传输到第一加法器405并且值0被传输到第二加法器410。类似地，如果位b₁₄被设定(1)，则值3276被传输到第一加法器405并且值4被传输到第二加法器410，而不论位b₁₅的结果如何。以相同方式处理每个位。该操作产生0至13099范围内的除法结果和0至40范围内的余数。然后可使用ROM或组合逻辑设备在该特定示例中将6位无符号整数除以5，从而再次产生商和余数。第三加法器415将4位数的商(0至8的范围)加到来自第一加法器405的除法结果，从而产生0至13107(＝65535/5)范围内的最终结果。该余数是0至4范围内的3位数。

在一个替代实施方案中并参见图6，除法电路可被配置为执行长除法操作600。根据本实施方案，长除法操作产生条件相关层，其中每个层依赖于来自前一层的结果。

每个写入复用器135有利于输入数据的选择及向RAM 160的传输。每个写入复用器135可连接到第二控制电路110并且被配置为接收选择信号，诸如选择信号‘W0_sel’、‘W1_sel’、‘W2_sel’、‘W3_sel’和‘W4_sel’，其中每个选择信号被传输到不同的写入复用器135。每个写入复用器135可进一步被配置为接收输入数据(‘DATA IN’)。每个写入复用器135可进一步被配置为从蝶式处理器130接收输出数据，诸如输出数据‘DA’、‘DB’。

根据各种实施方案，每个写入复用器135可包括用于选择若干输入信号之一并将若干输入信号之一传输到单个输出线的常规复用器电路。

每个读取复用器190有利于存储在RAM 160中的数据的检索和传输。例如，每个读取复用器190接收输出数据，例如数据‘Q0’、‘Q1’、‘Q2’、‘Q3’、‘Q4’。第一读取复用器190(0)可被配置为选择性地将数据从系统100向外传输到伴侣电路(未示出)。第二读取复用器190(1)和第三读取复用器190(2)可被配置为选择性地将数据传输到蝶式处理器130以便在蝶式操作中使用。

根据各种实施方案，每个读取复用器190可包括用于选择若干输入信号之一并将若干输入信号之一传输到单个输出线的常规复用器电路。

根据各种实施方案，系统100可由具有系统频率fs的系统时钟(未示出)控制，该系统时钟控制输入数据(‘DATA IN’)、输出数据(可由‘ENABLE IN’控制信号选通数据)和‘ENABLE OUT’控制信号的传输速率和时序。系统100可在每个子存储器空间165接收第一输入的同时断言‘SYNC IN’信号，并且可在每个子存储器空间165输出数据的同时断言‘SYNCOUT’信号。

根据各种实施方案，系统100还可包括具有核心频率fc的核心时钟。核心频率fc为系统频率fs的大约5至10倍。

主存储器160、第二控制电路110、所述多个读取复用器190和所述多个写入复用器130可统称为复合存储器。因此，复合存储器包括多个读取端口，例如‘Addr A’、‘QA’、‘AddrB’、‘QB’、‘Addr O’和‘DATA OUT’的端口。类似地，复合存储器还包括多个写入端口，例如‘Addr I’、‘DATA IN’、‘Addr AD’、‘DA’、‘Addr BD’和‘DB’的端口。

在操作中，并参见图1，本技术的各种实施方案执行就地快速傅里叶变换操作。根据各种实施方案，系统100可同时从主存储器160读取两个数据元素，并且在后续时钟周期中，同时将两个数据元素写入到主存储器160。

根据一个示例性操作，系统100接收输入数据并且将输入数据传输到所述多个写入复用器135。然后第二控制电路110可选择性地激活所述多个写入复用器135中的一者或多者，其中写入复用器的激活选择性地将若干输入之一输出到主存储器160。例如，第一写入复用器135(0)将数据传输到第一子存储器空间165(0)，第二写入复用器135(1)将数据传输到第二子存储器空间165(1)，第三写入复用器135(2)将数据传输到第三子存储器空间165(2)，第四写入复用器135(3)将数据传输到第四子存储器空间165(3)，并且第五写入复用器135(4)将数据传输到第五子存储器空间165(4)。

然后系统100可同时从主存储器160读取数据元素，诸如第一元素X_k和第二元素

其中每个元素存储在不同的子存储器空间165中。例如，第二控制电路110选择性地操作第二读取复用器190(1)和第三读取复用器190(2)，其中第二读取复用器和第三读取复用器中的每一者将若干输入之一传输到蝶式处理器130。蝶式处理器130接收输入‘QA’和‘QB’，执行蝶式操作，并且将该操作的结果(输出‘DA’和‘DB’)传输回到写入复用器135。写入复用器再次被选择性地激活以同时将输出‘DA’和‘DB’传输回到检索输入‘QA’和‘QB’的相同子存储器部件165。因此，FFT操作的结果被同时写回到主存储器160。根据各种实施方案，从主存储器160内的不同的子存储器空间165检索数据元素Xk，

作为上文相对于主存储器160所述的寻址模式的结果，系统100能够从相同主存储器160读取和写入数据。例如，对于32点FFT(长度为32)而言且在利用基数2算法时，每次传递P的寻址模式如下：

传递	用于读取/写入的外部地址(Ae)
		1	Ae，Ae+1
2	Ae，Ae+2
		3	Ae，Ae+4
4	Ae，Ae+8
		5	Ae，Ae+16

在另一个示例中，对于243点FFT(长度为243)而言且在利用基数3算法时，每次传递P的寻址模式如下：

传递	用于读取/写入的外部地址(Ae)
		1	Ae，Ae+1，Ae+2
2	Ae，Ae+3，Ae+6
		3	Ae，Ae+9，Ae+18
4	Ae，Ae+27，Ae+54
		5	Ae，Ae+81，Ae+162

该寻址模式允许系统100减少FFT算法的处理时间，并且还防止系统100从/向相同子存储器空间165读取/写入数据。因此，5个子存储器空间165(0)：165(4)可利用核心时钟的核心频率fc五倍的带宽来操作，这允许系统100每个核心时钟周期读取两个数据元素并且每个核心时钟周期写入两个数据元素。因此，核心时钟的每5个时钟周期之后出现空闲时钟周期，这允许未来/先前数据向系统100中/外的输入和输出。

参见图7，在一个示例性操作中，系统100可执行8点基数2FFT。在当前情况下，数据在其3位地址反转的情况下存储。之后，每个数据元素被除以5，因此数据元素X0和X5处于RAM0中，数据元素X4和X3处于RAM1中，数据元素X2和X7处于RAM2中，数据元素X6处于RAM3中，并且数据元素X1处于RAM4中。

在时钟周期0，从RAM0读取X0并且从RAM1读取X4。

在时钟周期1，从RAM2读取X2并且从RAM3读取X6，在蝶式处理器130中处理X0和X4以产生X0¹和X4¹。

在时钟周期2，从RAM4读取X1并且从RAM0读取X5，在蝶式处理器130中处理X2和X6以产生X2¹和X6¹，将X4¹写入到RAM1，并且由于RAM0忙碌，因此X0¹出现延迟。

在时钟周期3，从RAM1读取X3并且从RAM2读取X7，在蝶式处理器130中处理X1和X5以产生X1¹和X5¹，将X0¹写入到RAM0并且将X6¹写入到RAM3，由于RAM 2忙碌，因此X2¹出现延迟。

在时钟周期4，不读取数据，在蝶式处理器130中处理X3和X7以产生X3¹和X7¹，将X1¹写入到RAM4，将X2’写入到RAM2，并且将X5¹写入到RAM3。

在本实施方式中，FFT的每次传递仅需要4个时钟周期，并且从读取到写回的流水化延迟为3个时钟周期。该条件可引起蝶式处理器130停滞。例如，为了启动传递2，需要在时钟周期4读取X2¹，但X2¹尚未处于主存储器160中。因此，蝶式处理器130在读取X2¹之前必须一直等待到时钟周期5，并且这引起蝶式处理器130停滞，从而周期5中没有处理操作。在一个示例性实施方案中，从子存储器空间165读取可优先于写入到该相同子存储器空间165。

在当前情况下，系统100包括延迟(例如，‘DelayA’)以延迟将来自蝶式处理器130的结果写回到子存储器空间165之一。当蝶式处理器130正在从也正被写入的相同子存储器空间读取数据元素时，可能需要该延迟。例如，在时钟周期2中，蝶式处理器130正在读取X5，因此X0¹写入到RAM0被延迟一个时钟周期。

在采用较长FFT的替代操作中，并参见图8A至图8B，蝶式处理器130能够在FFT操作的持续时间内处理这些数据元素并且顺序地生成经处理的数据。例如，在采用长度16基数2FFT时，每次传递需要8个时钟周期，并且被操作的数据在下一次传递开始时对其有需要之前有充足的时间先被写回到RAM 160而不中止蝶式处理器130的操作。

在当前情况下，数据元素X0、X5、X10和X15存储在RAM0中；数据元素X8、X13和X6存储在RAM1中；数据元素X4、X14和X3存储在RAM2中；数据元素X12、X1和X11存储在RAM3中；并且X2、X9和X7存储在RAM4中。从主存储器160读取被表示为‘R’，写入到主存储器160被表示为‘W’，利用蝶式处理器130处理被表示为‘P’，并且延迟被表示为‘D’。例如，‘R0’表示读取X0，‘W0’表示写入X0，‘D0¹’表示延迟X0¹等。蝶式处理器130的结果用上标1、2、3和4表示，其中上标1表示第一次传递时处理的结果，上标2表示第二次传递时处理的结果，上标3表示第三次传递时处理的结果，并且上标4表示第四次传递时处理的结果。

在当前情况下，系统100包括第一延迟(例如，‘DelayA’)和第二延迟(例如，‘DelayB’)。第一延迟和第二延迟以如上所述的类似方式使用。

根据各种实施方案，蝶式处理器130执行总数为H的顺序蝶式处理操作以完成就地FFT。例如，在FFT为长度16的当前情况下，蝶式处理器130执行32个顺序蝶式处理操作(H＝32)。另外，每个蝶式处理操作在核心时钟的单个周期内执行，并且总数为H的蝶式处理操作(在这种情况下为32)在相同数量的核心时钟周期(即，32个核心时钟周期)内完成。因此，完成FFT所需的核心时钟周期的数量取决于FFT的长度、基数数量、传递次数和每次传递的蝶式操作数量。

在上述描述中，已结合具体示例性实施方案描述了所述技术。所示和所述特定具体实施方式用于展示所述技术及其最佳模式，而不旨在以任何方式另外限制本技术的范围。实际上，为简洁起见，方法和系统的常规制造、连接、制备和其它功能方面可能未详细描述。此外，多张图中示出的连接线旨在表示各种元件之间的示例性功能关系和/或步骤。在实际系统中可能存在多个替代的或另外的功能关系或物理连接。

已结合具体示例性实施方案描述了所述技术。然而，可在不脱离本技术的范围的情况下作出各种修改和变化。以示例性而非限制性方式考虑说明和附图，并且所有此类修改旨在包括在本技术的范围内。因此，应通过所述的一般实施方案及其在法律意义上的等同形式，而不是仅通过上述具体示例确定所述技术的范围。例如，除非另外明确说明，否则可以任何顺序执行任何方法或工艺实施方案中列举的步骤，并且不限于具体示例中提供的明确顺序。另外，任何装置实施方案中列举的部件和/或元件可以多种排列组装或者以其它方式进行操作配置，以产生与本技术基本上相同的结果，因此不限于具体示例中阐述的具体配置。

上文已经针对具体实施方案描述了有益效果、其它优点和问题解决方案。然而，任何有益效果、优点、问题解决方案或者可使任何具体有益效果、优点或解决方案出现或变得更明显的任何要素都不应被解释为关键、所需或必要特征或组成部分。

术语“包含”、“包括”或其任何变型形式旨在提及非排他性的包括，使得包括一系列要素的过程、方法、制品、组合物或装置不仅仅包括这些列举的要素，而且还可包括未明确列出的或此类过程、方法、制品、组合物或装置固有的其它要素。除了未具体引用的那些，本技术的实施所用的上述结构、布置、应用、比例、元件、材料或部件的其它组合和/或修改可在不脱离其一般原理的情况下变化或以其它方式特别适于具体环境、制造规范、设计参数或其它操作要求。

上文已结合示例性实施方案描述了本技术。然而，可在不脱离本技术的范围的情况下对示例性实施方案作出改变和修改。这些和其它改变或修改旨在包括在本技术的范围内，如以下权利要求书所述。

在一个实施方案中，信号处理器还包括：多个读取复用器，所述多个读取复用器连接在蝶式处理器与RAM之间并且被配置为选择性地将来自RAM的第一数据元素和第二数据元素传输到蝶式处理器；和多个写入复用器，所述多个写入复用器连接在蝶式处理器与RAM之间并且被配置为选择性地将来自蝶式处理器的第三数据元素和第四数据元素传输到RAM。

在一个实施方案中，信号处理器还包括除法电路，该除法电路被配置为将包括多个位的二进制数除以固定数量；其中：来自所述多个位中的每个位由2的幂表示；并且除法电路进一步被配置为将二进制数的每个位除以固定数量以获得多个除法结果和多个余数。

在一个实施方案中，每个子存储器空间根据以下表达式与子存储器数量、分割地址和外部地址相关：A_s＝floor(A_e/M)，并且m＝A_e-M×A_s，其中M是子存储器空间的固定数量，m是子存储器数量，A_s是分割地址，并且A_e是外部地址。

在一个实施方案中，子存储器空间的数量是奇数，并且FFT的长度是2的幂。

在一个实施方案中，每个子存储器空间包括数据缓冲区，该数据缓冲区被配置为延迟将第五数据元素写入到第一子存储器空间和第二子存储器空间之一。

在一个实施方案中，信号处理器还包括具有可变延迟的数据缓冲区，该数据缓冲区定位在蝶式处理器的输出与RAM的输入之间。

在一个实施方案中，蝶式处理器执行总数为H的蝶式处理操作以完成就地FFT；总数H中的每个蝶式处理操作在核心时钟的单个周期内执行；并且总数为H的蝶式处理操作在数量为K的核心时钟周期内完成，其中K等于H。

在一个操作中，所述多个子存储器空间中的每个子存储器空间根据以下表达式与子存储器数量、分割地址和外部地址相关：A_s＝floor(A_e/M)，并且m＝A_e-M×A_s，其中M是子存储器空间的固定数量，m是子存储器数量，A_s是分割地址，并且A_e是外部地址。

在一个操作中，蝶式处理器执行总数为H的蝶式操作以完成就地FFT；总数H中的每个蝶式操作在核心时钟的单个周期内执行；并且总数为H的蝶式操作在数量为K的核心时钟周期内完成，其中K等于H。

在一个实施方案中，该系统还包括除法电路，其中除法电路被配置为将二进制数的每个位除以固定数量以获得多个除法结果和多个余数。

在一个实施方案中，蝶式处理器执行总数为H的蝶式操作以完成就地FFT；并且总数为H的蝶式操作在数量为K的核心时钟周期内完成，其中K等于H。

在一个实施方案中，在一个时钟周期中，蝶式处理器同时从第一子存储器空间接收第一数据元素；以及从第二子存储器空间接收第二数据元素；处理第一数据元素和第二数据元素；并且同时将经处理的第一数据元素传输到第一子存储器空间；以及将经处理的第二数据元素传输到第二子存储器空间。

在一个实施方案中，子存储器空间的数量是奇数，并且蝶式处理器被配置为执行基数2FFT算法。

在一个实施方案中，该系统根据具有系统频率的系统时钟操作，并且该蝶式处理器根据具有核心频率的核心时钟操作；核心频率高于系统频率；并且系统时钟控制进入系统的输入数据和离开系统的输出数据的传输速率。

在一个实施方案中，每个子存储器空间包括数据缓冲区，该数据缓冲区被配置为提供写入数据与读取数据之间的延迟。

在一个实施方案中，该系统还包括具有可变延迟的数据缓冲区，该数据缓冲区定位在蝶式处理器的输出与RAM的输入之间。

Claims

1.一种信号处理器，所述信号处理器被配置为执行就地快速傅里叶变换FFT，所述信号处理器的特征在于包括：

随机存取存储器RAM，所述RAM具有单地址空间，其中所述RAM被划分成固定数量的子存储器空间，并且其中所述固定数量与FFT的长度互质；和

蝶式处理器，所述蝶式处理器连接到所述RAM并且被配置为：

同时

从所述固定数量的子存储器空间中的第一子存储器空间读取第一数据元素；以及

从所述固定数量的子存储器空间中的第二子存储器空间读取第二数据元素；并且

同时

将第三数据元素写入到所述固定数量的子存储器空间中的第三子存储器空间；以及

将第四数据元素写入到所述固定数量的子存储器空间中的第四子存储器空间。

2.根据权利要求1所述的信号处理器，所述信号处理器的特征在于每个子存储器空间根据以下表达式与子存储器数量、分割地址和外部地址相关：A_s＝floor(A_e/M)，并且m＝A_e-M×A_s，其中M是子存储器空间的所述固定数量，m是所述子存储器数量，A_s是所述分割地址，并且A_e是所述外部地址。

3.根据权利要求1所述的信号处理器，所述信号处理器的特征在于每个子存储器空间包括数据缓冲区，所述数据缓冲区被配置为延迟将第五数据元素写入到所述第一子存储器空间和所述第二子存储器空间之一。

4.根据权利要求1所述的信号处理器，所述信号处理器的特征在于：

所述蝶式处理器执行总数为H的蝶式处理操作以完成就地FFT；

所述总数H中的每个蝶式处理操作在核心时钟的单个周期内执行；并且

所述总数为H的蝶式处理操作在数量为K的核心时钟周期内完成，其中K等于H。

5.一种用于执行就地快速傅里叶变换FFT的方法，所述方法的特征在于包括：

提供具有单地址空间的主存储装置，其中所述主存储装置按固定数量划分以形成多个子存储器空间，其中子存储器空间的所述固定数量与FFT的长度互质；

使用蝶式处理器执行第一蝶式操作，第一蝶式操作包括：

同时

从所述多个子存储器空间中的第一子存储器空间读取第一数据元素；以及

从所述多个子存储器空间中的第二子存储器空间读取第二数据元素；

处理所述第一数据元素和所述第二数据元素；并且

将

经处理的第一数据元素写入到所述第一子存储器空间；以及

经处理的第二数据元素写入到所述第二子存储器空间；

使用所述蝶式处理器执行第二蝶式操作，第二蝶式操作包括：

从所述第一子存储器空间读取第三数据元素；以及

延迟写入经处理的所述第一数据元素和所述第二数据元素之一以防止同时将所述第一数据元素和所述第二数据元素之一写入到所述第一子存储器空间并从所述第一存储器空间读取所述第三数据元素。

6.根据权利要求5所述的方法，所述方法的特征在于：

所述蝶式处理器执行总数为H的蝶式操作以完成就地FFT；

所述总数H中的每个蝶式操作在核心时钟的单个周期内执行；并且

所述总数为H的蝶式操作在数量为K的核心时钟周期内完成，其中K等于H。

7.一种被配置为执行就地快速傅里叶变换FFT的系统，所述系统的特征在于包括：

随机存取存储器RAM，所述RAM具有单地址空间，其中所述RAM被划分成固定数量的子存储器空间，并且其中子存储器空间的数量与FFT的长度互质；和

蝶式处理器，所述蝶式处理器连接到所述RAM并且被配置为执行多个蝶式操作，其中所述多个蝶式操作中的每个蝶式操作在核心时钟的连续周期开始；

其中所述系统防止同时对所述固定数量的子存储器空间中的相同子存储器空间读取数据和写入数据。

8.根据权利要求7所述的系统，所述系统的特征在于：

所述蝶式处理器执行总数为H的蝶式操作以完成就地FFT；并且

9.根据权利要求7所述的系统，所述系统的特征在于，在一个时钟周期中，所述蝶式处理器：

同时

从第一子存储器空间接收第一数据元素：以及

从第二子存储器空间接收第二数据元素；

处理所述第一数据元素和所述第二数据元素；并且

同时

将经处理的第一数据元素传输到所述第一子存储器空间；以及

将经处理的第二数据元素传输到所述第二子存储器空间。

10.根据权利要求7所述的系统，所述系统的特征在于：

所述系统根据具有系统频率的系统时钟操作，并且所述蝶式处理器根据具有核心频率的所述核心时钟操作；

所述核心频率高于所述系统频率；并且

所述系统时钟控制进入所述系统的输入数据和离开所述系统的输出数据的传输速率。