CN110321581A

CN110321581A - 一种基于hls的二维傅里叶变换ip核的设计方法

Info

Publication number: CN110321581A
Application number: CN201910206618.6A
Authority: CN
Inventors: 曹云峰; 王鹏; 许蕾; 丁萌; 庄丽葵; 王朝阳; 马宁
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-10-11

Abstract

本发明公开了一种基于HLS的二维傅里叶变换IP核的设计方法，具体为：将图像处理中的二维傅里叶变换拆分成两个一维傅里叶变换；利用DIT的基‑2快速傅里叶计算方法对一维傅里叶变换进行计算；采用HLS工具对处理长度分别为256和128的一维傅里叶变换IP核进行设计，包括旋转因子的加速设计、倒位序的设计以及傅里叶反变换的设计。本发明通过对二维傅里叶变换进行拆分，并采用快速傅里叶变换分别设计一维的傅里叶变换，利用简化算法在软件方面实现加速，利用HLS进行硬件IP核设计，利用并行计算在硬件上实现加速，将图像处理技术中的二维傅里叶变换加速后，有利于算法处理的实时性设计，提高图像处理算法的工业实用性。

Description

一种基于HLS的二维傅里叶变换IP核的设计方法

技术领域

本发明涉及一种二维傅里叶变换IP核的设计方法，特别是涉及一种基于HLS的二维傅里叶变换IP核的设计方法，属于图像处理技术领域。

背景技术

随着图像处理理论的日趋成熟，计算机视觉技术在各个领域得到了广泛的应用。而影响计算机视觉实际工程应用最大的问题是计算实时性较差。由于图像处理过程中需要处理大量的数据，因此可以利用FPGA的高并行能力来进行计算，通过设计图像处理算法的硬件IP(Intellectual Property，知识产权)核实现算法的加速。

硬件加速IP核的设计可以通过硬件描述语言Verilog HDL直接编写，使用于较简单的算法逻辑，也可以通过Xilinx公司的高级综合工具HLS(High Level Synthesis，高层次综合)实现，HLS可以将高级语言C/C++以及System C实现的算法转化成底层的硬件描述语言，因此它适用于较复杂的算法硬件设计。

二维傅里叶变换是图像处理中常用的技术，通常也是图像处理过程中比较复杂的过程，处理大量图像数据时耗时较多，即使采用二维快速傅里叶变换仍旧会对算法实现的实时性有影响。

发明内容

本发明所要解决的技术问题是：提供一种基于HLS的二维傅里叶变换IP核的设计方法，将二维傅里叶变换进行分离，简化为一维计算，利用快速傅里叶计算的方法进行加速，最后基于HLS的设计方法进行硬件IP核的设计，实现二维傅里叶计算的硬件加速。

本发明为解决上述技术问题采用以下技术方案：

一种基于HLS的二维傅里叶变换IP核的设计方法，包括如下步骤：

步骤1，将图像处理中的二维傅里叶变换拆分成两个一维傅里叶变换，令待处理图像的尺寸为256*128，则两个一维傅里叶变换处理的维度分别为256和128；

步骤2，利用DIT的基-2快速傅里叶计算方法对一维傅里叶变换进行计算；

步骤3，采用HLS工具对处理长度分别为256和128的一维傅里叶变换IP核进行设计，包括旋转因子的加速设计、倒位序的设计以及傅里叶反变换的设计；

其中，旋转因子的加速设计具体如下：

旋转因子的计算公式为：

其中，表示旋转因子，n＝0,1,…,N-1，m＝0,1,…,N-1，N表示一维傅里叶变换的长度；

对于长度分别为256和128的一维傅里叶变换进行计算时，预先计算出对应256和128序列的全部旋转因子值，存入到数组中，在进行HLS设计时，直接调用数组中对应的旋转因子值即可；

倒位序的设计具体如下：

256序列输入点序号p的变序操作为：

((p&0x80)>>7)|((p&0x40)>>5)|((p&0x20)>>3)|((p&0x10)>>1)|((p&0x08)<<1)|((p&0x04)<<3)|((p&0x02)<<5)|((p&0x01)<<7)；

128序列输入点序号q的变序操作为：

((q&0x40)>>5)|((q&0x20)>>3)|((q&0x10)>>1)|((q&0x08)<<1)|((q&0x04)<<3)|((q&0x02)<<5)；

傅里叶反变换的设计具体如下：

将傅里叶变换后的值取共轭，再调用一次傅里叶变换，得到的结果再取共轭，再乘以1/N即得到傅里叶反变换的结果；令输入序列为x(n)，取共轭后记为x^*(n)，x(n)傅里叶变换后得X(m)，取共轭后记为X^*(m)，有如下公式：

作为本发明的一种优选方案，步骤1所述将图像处理中的二维傅里叶变换拆分成两个一维傅里叶变换，公式如下：

其中，f(x,y)为原二维图像中第x行第y列的像素值，F(u,v)为二维傅里叶变换后第u行第v列的频域值，M、N分别为二维图像的行、列数；

拆分后为：

作为本发明的一种优选方案，步骤2所述利用DIT的基-2快速傅里叶计算方法对一维傅里叶变换进行计算，具体为：一个长度为N的傅里叶变换被分解成长度为N/2的两个傅里叶变换，计算结果为：

前半部分

后半部分

其中，x(2r)和x(2r+1)代表最初的输入点，X₁(k)和X₂(k)代表傅里叶变换后的点，W代表旋转因子，X(k)和代表傅里叶变换结果。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明提供的一种基于HLS的二维傅里叶变换IP核的设计方法，通过对二维傅里叶变换进行拆分，并采用快速傅里叶变换分别设计一维的傅里叶变换，利用简化算法在软件方面实现加速，利用HLS进行硬件IP核的设计，利用并行计算在硬件上实现加速，将常用的图像处理技术中的二维傅里叶变换加速后，有利于算法处理的实时性设计，提高图像处理算法的工业实用性。

附图说明

图1是本发明一种基于HLS的二维傅里叶变换IP核的设计方法的架构图。

图2是本发明二维傅里叶变换分解图。

图3是本发明倒位序变换示意图。

图4是本发明二维傅里叶反变换分解图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

根据图1，一种基于HLS的二维傅里叶变换IP核的设计方法，包括以下步骤：

1)将图像处理中的二维傅里叶变换拆分成两个一维的傅里叶变换，根据待处理图像的尺寸分别进行IP核的设计，假设图像尺寸为256*128，两个一维傅里叶变换处理的维度分别为256和128；

2)一维傅里叶变换采用基-2的快速傅里叶变换，减少所需的计算步骤，在算法上加速计算速度；

3)利用HLS分别设计处理长度为256和128的一维变换IP核，实现算法的硬件设计；

4)IP核的处理结果和Matlab的处理结果进行精度对比。

本发明基于HLS的二维傅里叶变换IP核包括二维傅里叶变换分离模块、快速傅里叶计算模块、二维傅里叶变换IP核设计模块；其中：

二维傅里叶变换分离模块，将二维变换分离成两个一维变换，简化处理过程，方便硬件加速设计的实现，如图2所示。

利用二维离散傅里叶变换处理一幅M行N列的二维图像f(x,y)，公式如下：

式中，f(x,y)为原二维像素矩阵中第x行第y列的像素值，F(u,v)为二维傅里叶变换后第u行第v列的频域值。

离散傅里叶变换中计算长度N的一维信号的公式如下：

式中，x(n)为一维的N点时域序列，n为时域点的位置，X(k)为一维的N点频域序列，k为频域点的位置。

将式(1)中的指数项进行拆分可得：

将上式分解得如下两部分，先得到F(x,v)，再由F(x,v)得到F(u,v)：

结合(2)式可知，二维的离散傅里叶变换可以拆分为两次一维的离散傅里叶变换，即先按行对列变量y做一次长度为N的一维离散傅里叶变换，再将计算结果按列对行变量x做一次长度为M傅里叶变换就可以得到该图像的傅里叶变换结果，先行再列也可以得到同样的答案。

快速傅里叶计算模块，利用基-2FFT(Fast Fourier Transform，快速傅里叶变换)实现一维傅里叶计算的加速，在软件算法上实现加速。

快速傅里叶计算方法主要包括两种，时间抽选法(Decimation In Time，DIT)和频率抽选法(Decimation In Frequency，DIF)。基于实现成本和实现速度的综合考虑，采用DIT的基-2FFT算法实现算法加速。使用基-2FFT计算的前提是，输入的计算序列数必须是2的整数次幂，不满足条件的序列需要填0补充至2的整数次幂。

引入旋转因子W的概念，见式(6)：

假设有离散信号x(N)，将N按奇偶性分为两列，每列的长度为N/2。

式中，x(2r)和x(2r+1)代表最初的输入点，X₁(k)和X₂(k)代表傅里叶变换后的点，W代表旋转因子，X(k)代表序列点数为N的傅里叶变换结果，x₁(r)和x₂(r)分别代表根据奇偶性划分的点。一个N点的傅里叶变换被分解成长度为N/2的两个傅里叶变换，这两个傅里叶变换按照式(9)又能组合成一个N点的傅里叶变换。由于x₁(r)和x₂(r)以及X₁(k)和X₂(k)都是N/2点的序列，即r、k满足r、k＝0,1,…,N/2-1。根据系数周期性可得：

再根据旋转因子性质：

可得：

①前半部分X(k)(k＝0,1,…,N/2-1)

②后半部分

因此，只要求出0到(N/2-1)区间的所有X₁(k)和X₂(k)值，即可求出0到(N-1)区间内的所有X(k)值，可以大大节省运算，提高运算速度。

二维傅里叶变换IP核设计模块，考虑到算法的实现难度，采用HLS进行硬件模块的设计，利用两个一维变换IP核组合运算，分别实现二维傅里叶变换的正变换和反变换。

二维傅里叶变换IP核设计模块，包括旋转因子的加速设计、倒位序的设计、傅里叶反变换的重复利用以及二维傅里叶正反变换的精度、速度验证：

(1)旋转因子的加速设计

为了加快算法的计算时间，采用了存入旋转因子的方法，旋转因子的计算公式如下：

从式(15)中可以看到，旋转因子的计算中存在着大量的正余弦运算，在程序运行中计算会耗费大量的时间，在计算M和N序列的傅里叶变换时，可以根据式(15)，利用Matlab计算出对应M和N序列的全部旋转因子，存入到数组中，在进行HLS设计时，只需调用数组中对应的旋转因子值即可。

(2)倒位序的设计

由上述介绍的基-2FFT的原理可知，输入序列不断地进行奇偶序列的分组，每次分组，输入序列的顺序就会被打乱，如果提前计算出分组后的序列顺序，就会节省时间。这种分组变换是有规律的，以一个8位的输入序列为例，输入序列为{x(0),x(1),…,x(7)}，变换后的序列顺序是{x(0),x(4),x(2),x(6),x(1),x(5),x(3),x(7)}，由于8可以写成2^3，因此需要进行三次分组，可将序列号写成3位2进制表示的形式，序号变换规律如图3所示。

从图3中可以看到，输入序号对应的二进制形式和输出序号对应的二进制成镜像相反，即位置出现倒序现象，结合到实施例的256和128序列点的变换，可以将输入点序号做以下操作：

256序列输入p的变序操作：

128序列输入q的变序操作：

((q&0x40)>>5)|((q&0x20)>>3)|((q&0x10)>>1)|((q&0x08)<<1)|((q&0x04)<<3)|((q&0x02)<<5)。

通过上面两个移位操作就能实现位序变换。

(3)傅里叶反变换的重复利用

反变换只需要将旋转因子换成再和1/N相乘即可，因此可以利用设计好的256和128的计算内核代码，假设输入序列为x(n)，取共轭记为x^*(n)，变换后得X(m)，取共轭后记为X^*(m)，可得下式：

因此只需要将傅里叶变换后的值取共轭，再调用一次傅里叶变换，得到的结果再取共轭，再乘1/N就可以得到反变换的结果，这样做的目的可以很大程度上缩短开发周期。二维反变换的计算流程如图4所示。

(4)二维傅里叶正反变换的精度、速度验证

两个一维IP核的计算结果分别和Matlab的计算结果进行对比，测试序列分别是128和256，结果分别如下：

1)128序列FFT

考虑到程序的健壮性，分别对实数输入和复数输入进行测试，实数序列输入为{0，1，…，127}，复数序列输入为{(0，0)，(1，-1j)，…，(127，-127j)}，j为虚数单位，由于数据太多，只展示部分结果，实数输入测试见下表：

复数输入测试见下表：

从表中可以看到，HLS处理结果精确到了0.000001，而Matlab只精确到了0.1，因此HLS的精度要更高，所有点的实部误差绝对值最大为0.043430，虚部误差绝对值最大为0.049561，综合可见128序列的FFT结果更加精准，内核的C仿真结果无误。

2)256序列FFT

分别对实数输入和复数输入进行测试，实数序列输入为{0，1，…，255}，复数序列输入为{(0，0)，(1，-1j)，…，(255，-255j)}，实数测试结果见下表：

复数测试结果见下表：

从表中可以看到，HLS精确到0.000001，而Matlab结果精确到了0，因此HLS的精度要更高，所有点的实部误差绝对值最大为0.466431，虚部误差绝对值最大为0.403549，综合可见256序列的FFT结果更加精准，内核的C仿真结果无误。

3)128序列IFFT

分别对实数输入和复数输入进行测试，实数序列输入为{0，1，…，127}，复数序列输入为{(0，0)，(1，-1j)，…，(127，-127j)}，实数测试结果见下表：

复数测试结果见下表：

从表中可以看到，HLS精确到0.000001，而Matlab结果精确到了0.0001，因此HLS的精度要更高，所有点的实部误差绝对值最大为0.000052，虚部误差绝对值最大为0.000040，综合可见128序列的IFFT结果更加精准，内核的C仿真结果无误。

4)256序列IFFT

分别对实数输入和复数输入进行测试，实数序列输入为{0，1，…，255}，复数序列输入为{(0，0)，(1，-1j)，…，(255，-255j)}，实数测试结果如下表：

复数测试结果见下表：

从表中可以看到，HLS精确到0.000001，而Matlab结果精确到了0.01，因此HLS的精度要更高，所有点的实部误差绝对值最大为0.004924，虚部误差绝对值最大为0.004903，综合可见256序列的IFFT结果更加精准，内核的C仿真结果无误。

本发明通过对二维傅里叶变换进行分解、算法快速计算设计、以及HLS硬件设计，实现了图像处理中常用的二维傅里叶变换的硬件加速IP核的设计，利用FPGA的并行处理能力加速计算，实现了二维傅里叶计算的高精度、高实时性的实现，由于二维傅里叶变换的通用性，本发明中的硬件加速IP核有广泛的使用场景，可以较好的满足工程应用中图像算法对实时性的要求，且本发明的设计模式可以供其他图像处理IP核的设计实现提供参考，对整个视觉算法的加速研究起到了推动的作用。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于HLS的二维傅里叶变换IP核的设计方法，其特征在于，包括如下步骤：

其中，旋转因子的加速设计具体如下：

旋转因子的计算公式为：

倒位序的设计具体如下：

256序列输入点序号p的变序操作为：

128序列输入点序号q的变序操作为：

傅里叶反变换的设计具体如下：

将傅里叶变换后的值取共轭，再调用一次傅里叶变换，得到的结果再取共轭，再乘以1/N即得到傅里叶反变换的结果；令输入序列为x(n)，取共轭后记为x*(n)，x(n)傅里叶变换后得X(m)，取共轭后记为X*(m)，有如下公式：

2.根据权利要求1所述基于HLS的二维傅里叶变换IP核的设计方法，其特征在于，步骤1所述将图像处理中的二维傅里叶变换拆分成两个一维傅里叶变换，公式如下：

拆分后为：

3.根据权利要求1所述基于HLS的二维傅里叶变换IP核的设计方法，其特征在于，步骤2所述利用DIT的基-2快速傅里叶计算方法对一维傅里叶变换进行计算，具体为：一个长度为N的傅里叶变换被分解成长度为N/2的两个傅里叶变换，计算结果为：

前半部分

后半部分