CN105975436B

CN105975436B - 一种SoC系统中通用可配置加速单元的IP电路

Info

Publication number: CN105975436B
Application number: CN201610423662.9A
Authority: CN
Inventors: 汪健; 张跃玲; 张磊; 王镇; 赵忠惠; 陈亚宁; 吕江萍
Original assignee: China North Industries Group Corp No 214 Research Institute Suzhou R&D Center
Current assignee: China North Industries Group Corp No 214 Research Institute Suzhou R&D Center
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2023-08-01
Anticipated expiration: 2036-06-16
Also published as: CN105975436A

Abstract

本发明公开了一种SoC系统中通用可配置加速单元的IP电路。可实现快速傅里叶变换，且能够实现数字FIR滤波功能，并且可以实现模平方，乘累加以及相应的加窗运算等等运算，并且仅仅通过硬件结构实现加速算法，无需CPU等资源开销，提高SoC系统运算速度和提高CPU资源利用率。

Description

一种SoC系统中通用可配置加速单元的IP电路

技术领域

本发明属于半导体集成电路中数字集成电路技术领域，尤其涉及要求计算量复杂、计算速度快、占用面积小的SoC电路中，对要求进行加速单元设计的SoC领域提供一种占用面积小、运算速度快的加速算法实现方式，也可以应用于一些要求进行算法加速运算及一些特定运算快速实现的集成电路中。

背景技术

SoC(System On Chip，片上系统)系统中常常需要完成信息的获取、处理、存储、传输到执行，其中常常需要完成一些大数据的传输和运算，其中有一些常用的不可或缺并且非常基础的运算，如数字滤波，傅里叶变换，模平方，乘累加以及相应的加窗运算等等，而且每种运算又可以分为实数运算或者复数运算。这些运算有一些共同的特点，即都有一定的规律可循，都会有较多的数据流参与运算，参加运算的数据输出频率与输入频率一致。一般常常借助于内部处理器DSP或CPU运算完成，而借助于内部处理器，其运算能力是一个较大的问题，尤其是复数运算。通过软件实现复数运算，不仅会占用CPU的资源，影响CPU控制功能的发挥，更重要的是运算速度受到影响，这在某些实时性要求高的场合是无法接受的。比较好的一个解决措施是将这些运算做成硬件加速单元IP，与CPU一起完美的实现系统的功能，将CPU的能力发挥到最大化。因此要在SOC中增加运算加速单元IP，满足运算能力的要求。为了做到一定的通用性，加速单元设计成可配置类型，以便实现更多的运算。

中国发明专利申请“一种基于改进的高基CORDIC算法的复数乘法运算单元”(CN103488459A)，文中提出一种改进的高基CORDIC算法与基于改进的高基CORDIC算法的复数乘法运算单元。不同与本发明提出的实现复数乘法的方法，本发明中提出的硬件加速单元在实现复数乘法时，具有运算速度快，占用资源少等特性。

中国发明专利申请“一种FFT实现装置和方法”(CN104268124A)，文中提出克服FFT并行流水线结构硬件资源开销大而发明的一种FFT实现装置和方法，但其仍是并行FFT实现。相对本发明方法具有硬件资源开销大，内部实现结构复杂。

中国发明专利申请“一种可变点数的浮点FFT处理器”(CN104268122A)，文中提出的浮点FFT处理器，其占用资源多。和本发明提出的算法实现方案不同。

2014年03月12日专利库公开了一件名称为“一种支持多模式的并行FFT信号处理器及方法”(CN103634241A)，提出的并行FFT信号处理及方法，采用分时复用输入接口，对4路FFT数据流旁路不处理，并需要在输出接口使用分频时钟做为输出时钟。而本发明提出只需要一个工作时钟，工作状态稳定，使用资源少。

发明内容

本发明所要解决的技术问题是提供一种SoC系统中通用可配置加速单元的IP电路。

为解决上述技术问题，本发明提供一种SoC系统中通用可配置加速单元的IP电路，其特征是，可配置加速单元IP电路包括数据存储器、运算器和数据交换模块，其中，数据存储器中包括外部数据存储器、内部系数存储器和窗系数存储器，运算器包括实部运算器和虚部运算器；

通过配置外置的模式寄存器产生控制信号控制可配置加速单元IP电路；

内部系数存储器和窗系数存储器用于将存储的复数分为实部运算数据和虚部运算数据分别输入到实部运算器和虚部运算器；虚部运算器通过外部数据存储器把运算的中间运算结果的实数数据送入实部运算器内，实部运算器通过外部数据存储器把运算的中间运算结果的虚数数据送入虚部运算器内；

实部运算器和虚部运算器最后将输出的实部数据和虚部数据输出和输入至数据交换模块进行数据交换。

实部运算器和虚部运算器内部结构相同。

实部运算器和虚部运算器主要由阵列乘法器、累加器/加法器、多个MUX选择器和多个数据寄存器组成。

实部运算器和虚部运算器的时序相同。

输入的多个内部系数复数数据的实部数据先后在依次的一个时钟周期时刻存入寄存器reg1中，后分别在相应的下一个时钟周期分别送入寄存器reg2、reg4中；

虚部运算器运算的中间运算结果通过数据交换以及输入的内部系数复数数据的虚部数据也进入实部运算器内部并存入寄存器reg3中；

窗系数的实部数据及内部第一次碟算的实数结果数据通过MUX选择器与寄存器reg4中的数据经乘法器进行乘法运算，并把乘法运算结果送至寄存器reg5中；寄存器reg2、寄存器reg5及寄存器reg7中的数据经MUX选择器送至寄存器reg6中；寄存器reg6中的数据经累加器或加法器进行累加运算送到寄存器reg7中，寄存器reg7中的数据经反相器后随时钟流水送至寄存器reg8和reg9，同时经MUX选择送回寄存器reg2中并进行下一步流水运算；

同理，第二次碟算输入的复数数据的实部数据进入实部运算器内并也进行相同的流水运算，第二次碟算的窗系数进入实部运算器内部进行相同的串行流水运算；

最后在寄存器reg9读取第二次碟算运算的实部数据结果。

采用基4的寻址方式来完成基2的蝶算，即每次输入4个复数数据，完成4个点的4次蝶算，再输出4个结果，并按照每个主时钟周期输入或输出一个数据进行流水。

本发明所达到的有益效果：

本设计提出的是一种有效的快速傅里叶变换的实现方法，且能够实现数字FIR滤波功能，并且可以实现模平方，乘累加以及相应的加窗运算等等运算，并且仅仅通过硬件结构实现加速算法，无需CPU等资源开销，提高SoC系统运算速度和提高CPU资源利用率。

附图说明

图1 可配置加速单元IP结构简图；

图2 运算器电路内部硬件结构图；

图3 4点蝶算图；

图4 实部运算结构流程图；

图5 虚部运算结构流程图；

图6 实部算法流程图；

图7 虚部算法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

信号处理的基本结构是矢量运算，实数和复数矢量运算功能包括乘法、乘法累加和幅度平方，结合其它各种信号处理的算法可以完成频域滤波、信号分析和信号综合等功能，这就是SoC系统中的可配置加速单元IP的核心运算。通过对常用信号处理的分析，加速单元IP需要实现实数/复数的傅里叶变换、数字滤波、模平方、乘累加以及各种运算的加窗运算。在运算结构之外设置模式寄存器，可配置加速单元IP就是通过对模式寄存器的配置，产生相应的控制信号，实现各种运算。

可配置加速单元IP结构简图如图1所示，主要由数据存储器(包括外部数据存储器、内部系数存储器、窗系数存储器)、运算器、数据交换、模式寄存器部分组成，通过配置模式寄存器，产生各种相应模式下的控制信号到可配置加速单元的数据存储器、运算器、数据交换模块部分。内部系数数据存储器和窗系数存储器把复数分为实部运算数据和虚部运算数据分别输入到可配置加速单元的运算器部分，实部运算需要的数据进入实部运算器，虚部运算需要的数据进入虚部运算器；而虚部运算器的一部分中间运算结果会通过外部系数数据存储器把运算的实数部分送入实部运算器内，同理实部运算器的一部分中间运算结果会通过外部系数数据存储器把运算的虚数部分送入虚部运算器内；实部数据和虚部数据运算器内部具有相同的运算器硬件结构，并分为实部数据和虚部数据输出和进行相应的数据交换。

整个可配置加速单元IP的核心是运算器，所有的运算都是通过这一部分结构来完成。每个运算器都是由阵列乘法器、累加器(即乘累器)或加法器和数据寄存器组成的。运算器电路内部硬件结构图及内部硬件之间的连接关系如图2所示。实部和虚部具有相同的内部硬件资源结构，主要有寄存器、加法器、乘法器、MUX选择器组成。其流水运算及数据流水结构关系是A1、A2、B1、B2的实部数据先后在时钟周期clk1和时钟周期clk2、clk3、clk4时刻进入存入寄存器reg1中，后分别在相应的下一个时钟周期分别送入寄存器reg2、reg2、reg4、reg4中。虚部运算器的中间一些运算结果通过数据交换以及B1、B2的虚部也会进入实部运算器内部并存入寄存器reg3中。窗系数存储器的实部数据及内部第一次碟算的部分实数结果通过MUX选择与寄存器reg4中的数据进行乘法运算，并把乘法运算结果送至寄存器reg5中。寄存器reg2、寄存器reg5及寄存器reg7中的数据经MUX选择送至寄存器reg6中。寄存器reg6中的数据进行了累加运算送到寄存器reg7中，reg7中的数据经反相器后随时钟流水送至寄存器reg8和reg9，以及经MUX选择送回reg2中并进行下一步流水运算。同理第二次碟算A3、A4、B3、B4的实部数据进入实部运算器内并也进行相同的流水运算，第二次碟算的窗系数进入实部运算器内部进行相同的串行流水运算。最后在寄存器reg9读取第二次碟算运算的实部数据结果。硬件运算器结构实现简单，容易实现，节约成本。

运算器与数据存储器模块部分的外部数据存储器和窗系数存储器以及内部的系数存储器都有接口。在这些运算中最复杂的是复数快速傅里叶变换(FFT)及其逆变换(IFFT)算法和复数数字滤波(FIR)算法，这两个算法实现的同时，所需用到的结构可以满足模平方、乘累加等运算的需要。因此运算器结构的设计首先能够实现最复杂的FFT和FIR运算以及实现比较高的运算效率。

无窗快速傅里叶变换的算法是：

加窗快速傅里叶变换的算法为：

其中C(n)是窗系数，

式(1)和(2)中，h(n)是输入的数据流，N个点，由实部RE(n)和虚部IM(n)构成：

h(n)＝RE(n)+iIM(n) (3)

FFT运算的系数e^-j2πkn/N也是复数，可以表示为W_nR+iW_nI，W_nR为该复数的实部，W_nI为该复数的虚部。

FFT算法中最常用的是基2的蝶算，为了提高运算速度，同时兼顾FIR等算法的需要，采用基4的寻址方式来完成基2的蝶算，即每次输入4个数据，完成4个点的4次蝶算，再输出4个结果，并按照每个主时钟周期输入或输出一个数据进行流水。输入的数据表示为A1，B1，A2，B2，……，系数表示为W1，W2，……，均为复数，其实部以下标R表示，虚部以下标I表示。图3所示为四点FFT的运算过程，即蝶算过程。先以一个碟算过程为例进行说明，复数A1可分为实部和虚部，即A1也可以表示为A1＝A_R+iA_I，A_R为复数A1的实部，A_I为复数A1的虚部，同理B1可表示为B1＝B_R+iB_I，W1可以表示为W1＝W_R+iW_I。

根据复数运算法则,一个蝶算的过程是：

A1+B1W1＝(A_R+iA_I)+(B_R+iB_I)(W_R+iW_I)

＝(A_R+iA_I)+[(B_RW_R-B_IW_I)+i(B_RW_I+B_IW_R)]

＝[A_R+(B_RW_R-B_IW_I)]+i[A_I+(B_RW_I+B_IW_R)] (4)

通过对上述运算的分析，将整个运算器分为两部分，实部运算器(AE-RE)和虚部运算器(AE-IM)。运算器是这样分工的：凡是产生实部的运算都是在实部运算器中进行的，凡是产生虚部的运算都是在虚部运算器中进行的。因此两个运算器结构和时序都相同。这样既降低了运算器结构设计的复杂性，又提高了运算效率。具体的说来，式(4)中第一个括号内的A_R+(B_RW_R-B_IW_I)运算是在实部运算器中进行，第二个括号内的A_I+(B_RW_I+B_IW_R)是在虚部运算器中进行，且二者同时同步进行。从中可以看出，输入实部运算器的数据除了外部存贮器中存贮数据的实部之外，还需要与系数相乘的数据的虚部。输入虚部运算器的数据也是同样，那么运算器需要既能够输入外部数据存贮器中的数据，实部和虚部运算器相互之间还能够进行数据交换，以便完成复数运算操作。

实部/虚部运算器的结构流程图如图4和图5所示。实部和虚部具有相同的运算流程和需要的硬件资源结构，主要有乘法器、加法器及逻辑门实现，需要的硬件结构简单，容易实现。实部和虚部完成的算法流程和寄存器数据流水也相同。在运算过程中，实部和虚部同时进行，并且运算流程和硬件结构形同，而其中的流水过程如图6和图7所示。通过图6和图7可以看出实部和虚部具有相同的运算步骤和运算时序。

支持16点～1024点的FFT运算，采用200MHZ的时钟执行运算速度如下表：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种SoC系统中通用可配置加速单元的IP电路，其特征是，可配置加速单元IP电路包括数据存储器、运算器和数据交换模块，其中，数据存储器中包括外部数据存储器、内部系数存储器和窗系数存储器，运算器包括实部运算器和虚部运算器；

实部运算器和虚部运算器最后将输出的实部数据和虚部数据输出和输入至数据交换模块进行数据交换；

实部运算器和虚部运算器由阵列乘法器、累加器/加法器、多个MUX选择器和多个数据寄存器组成；

其中,所述实部运算器执行快速傅里叶变换的基2蝶算的流水运算包括如下步骤:

窗系数的实部数据及内部第一次蝶算的实部数据通过MUX选择器与寄存器reg4中的数据经乘法器进行乘法运算，并把乘法运算结果送至寄存器reg5中；寄存器reg2、寄存器reg5及寄存器reg7中的数据经MUX选择器送至寄存器reg6中；寄存器reg6中的数据经累加器或加法器进行累加运算送到寄存器reg7中，寄存器reg7中的数据经反相器后随时钟流水送至寄存器reg8和reg9，同时经MUX选择送回寄存器reg2中并进行下一步流水运算；

同理，第二次蝶算的实部数据进入实部运算器内并也进行相同的流水运算，第二次蝶算的窗系数的实部数据进入实部运算器内部进行相同的串行流水运算；

最后在寄存器reg9读取第二次蝶算运算的实部数据结果；

所述实部运算器和虚部运算器采用200MHZ的时钟执行运算速度。

2.根据权利要求1所述的SoC系统中通用可配置加速单元的IP电路，其特征是，实部运算器和虚部运算器内部结构相同。

3.根据权利要求1或2所述的SoC系统中通用可配置加速单元的IP电路，其特征是，实部运算器和虚部运算器的时序相同。

4.根据权利要求1所述的SoC系统中通用可配置加速单元的IP电路，其特征是，采用基4的寻址方式来完成基2的蝶算，即每次输入4个复数数据，完成4个点的4次蝶算，再输出4个结果，并按照每个主时钟周期输入或输出一个数据进行流水。