CN103956991B

CN103956991B - 一种基于cpu/gpu异构平台的fir滤波并行实现方法

Info

Publication number: CN103956991B
Application number: CN201410141793.9A
Authority: CN
Inventors: 王静温; 刘文俊; 苏丽; 丁兴文
Original assignee: Aerospace Long March Launch Vehicle Technology Co Ltd; Beijing Institute of Telemetry Technology
Current assignee: Aerospace Long March Launch Vehicle Technology Co Ltd; Beijing Institute of Telemetry Technology
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2017-09-29
Anticipated expiration: 2034-04-10
Also published as: CN103956991A

Abstract

本发明涉及一种基于CPU/GPU异构平台的FIR滤波并行实现方法，合理布局GPU kernel函数的网格结构，运行GPU kernel函数，由网格结构中每个块Block的所有线程Thread并行地将待滤波数据从GPU显存读取到GPU共享内存，每个Thread依据线性相位FIR滤波公式计算滤波结果，所有Thread并行计算，将GPU中所有Thread计算结果从GPU显存拷贝至CPU内存，从CPU内存输出FIR滤波器的滤波结果。本发明充分利用CPU/GPU并行处理的优势，克服目前软件实现FIR滤波计算速度低、占用资源较多的不足，解决了实时处理大数据量高速滤波的难题。

Description

一种基于CPU/GPU异构平台的FIR滤波并行实现方法

技术领域

本发明涉及一种基于CPU/GPU异构平台的FIR滤波并行实现方法，属于数字通信领域。

背景技术

FIR数字滤波器具有精确的线性相位，可以做成任意频率特性的滤波器，设计方法适应性强，实现起来结构简单，不存在稳定性问题。因此FIR滤波器被广泛应用于数字通信系统中的信号重建、相位均衡、自适应处理、图像处理和随机滤波等领域中。FIR滤波运算主要由移位寄存器、乘法器和加法器来完成。当采用大规模可编程逻辑器件(FPGA)作为FIR数字滤波器的实现载体时，由于FPGA器件的资源有限，因而直接采用乘加电路实现的FIR滤波器的最大阶数是一定的，且计算速度低、占用资源较多，无法满足实时处理要求的缺点。

发明内容

本发明解决的技术问题是：克服目前软件实现FIR滤波计算速度低、占用资源较多的不足，提供一种基于CPU/GPU异构平台的FIR滤波并行实现方法，提高了计算效率，减少了大数量滤波的运行时间，实现实时滤波的效果。

本发明的技术解决方案：提供了一种基于CPU/GPU异构平台的FIR滤波并行实现方法。充分利用CPU/GPU并行处理的优势，通过将FIR滤波计算密集的部分交由GPU计算，剩余部分仍由CPU负责计算，提高计算效率。在GPU计算FIR滤波时结合GPU共享内存读取数据的优势实现大数量的高速滤波。

具体步骤如下：

（1）将CPU内存待滤波的音频/视频数据拷贝至图形处理器GPU显存中；

（2）根据步骤（1）待滤波的音频/视频数据量和GPU共享内存大小合理布局GPUkernel函数的网格结构；

（3）步骤（2）网格结构中所有线程Thread运行GPU kernel函数，通过多个Thread并行地将步骤（1）中待滤波数据从GPU显存读取到GPU共享内存；

（4）每个Thread在步骤（3）共享内存上依据线性相位FIR直接型结构计算FIR滤波器的滤波结果。一个Thread计算一个滤波结果，所有Thread并行计算；

（5）将步骤（4）中所有Thread计算出的FIR滤波结果从GPU显存拷贝至CPU内存；

（6）从CPU输出FIR滤波器的滤波结果。

所述步骤（4）中FIR滤波计算公式为：

其中x(n)待滤波数据，n=0～+∞，h(k)为FIR滤波器系数，k=0～N,N为滤波器的阶数，取整数，y(n)为滤波器的滤波结果。

本发明与现有技术相比的优点在于：

（1）充分利用CPU/GPU异构平台的优势，通过将FIR密集计算部分交由GPU计算，剩余部分仍由CPU负责计算，通过GPU中大量线程并行处理提高计算效率。

（2）在GPU计算线性相位FIR滤波器中，充分利用共享内存访问时间短（仅一个时钟周期）的优势，避免在GPU显存中进行大量读写访问（其访问时间达500个时钟周期），在共享内存中完成FIR滤波计算，减少了读写访问时间。

（3）在FIR滤波计算中采用一个Thread计算一个滤波输出结果，GPU中所有Thread并行输出FIR滤波结果，提高了GPU中Thread的利用率。

附图说明

图1为CPU/GPU异构平台；

图2为FIR滤波并行处理流程；

图3为线性相位FIR滤波器的直接型结构。

具体实施方式

本发明的基本思路是：充分利用CPU/GPU异构平台的优势，通过将FIR密集计算部分交由GPU计算，剩余部分仍由CPU负责计算，提高计算效率。在GPU计算FIR滤波器时，利用共享内存访问周期短的优势，将数据读取到共享内存中从而避免大量数据在显存中读取。最后依据线性相位的FIR滤波直接型结构，使FIR滤波乘法算法减少一半，一个Thread计算一次的滤波结果，多个Thread同时进行FIR滤波计算，并行输出结果，减少运行时间。

下面结合附图和具体实施例对本发明作进一步详细的描述：

（1）如图2所示将CPU内存待滤波的音频\视频数据拷贝至GPU显存，可采用Memcpy函数实现，拷贝方向为：Host to Device。

（2）根据步骤（1）中待滤波的音频/视频数据量和GPU卡共享内存大小合理布局如图1所示的GPU线程网格结构及每个Block共享内存大小。在GPU中Thread数目越多，需分配共享内存就越多，但每块的共享内存大小受GPU卡物理性能影响。若分配的Thread数目少，则无法实现大数量的高速处理，需要折中选取Thread数目和所分配共享内存大小。

（3）步骤（2）网格结构中所有Thread运行GPU kernel函数，通过多个Thread并行地将待滤波数据从GPU显存读取到GPU共享内存，可直接利用线程索引将显存数组拷贝到共享内存。

（4）每个Thread在步骤（3）共享内存上，根据FIR滑动滤波算法计算FIR滤波器的滤波结果。其中FIR滤波计算流程如图3所示，每个Thread输出一个滤波结果。GPU分配的所有Thread并行输出所有滤波结果。

（5）将步骤（4）中所有Thread计算出的FIR滤波结果从GPU显存拷贝至CPU内存。可采用Memcpy函数实现，拷贝方向为Device to Host。

（6）从CPU输出FIR滤波器的滤波结果。

步骤（4）中FIR滤波计算公式为：

本发明涉及的kernel函数是在GPU编程中允许程序员定义一种C函数，称为内核。当一个内核被调用的时候，N个线程会并行执行这个内核，N的大小是由网格决定。

本发明涉及的GPU服务器异构平台架构如图1所示，其中GPU为CPU的显卡，是CPU的协处理器。它具有高度并行的架构，适于处理大量并行数据。可将代码的并行部分交由GPU计算，串行部分交由CPU计算。GPU并行函数的优化建立在合理布局线程的网格结构和优化存储访问上。本发明正是基于以上两点对FIR滤波进行并行优化设计，提高了计算效率，减少了运行时间。

以上所述，仅为本发明最佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims

1.一种基于CPU/GPU异构平台的FIR滤波并行实现方法，其特征在于:所述GPU为CPU的显卡，是CPU的协处理器，具有高度并行的架构，适于处理大量并行数据，能够将代码的并行部分交由GPU计算，串行部分交由CPU计算，GPU并行函数的优化建立在合理布局线程的网格结构和优化存储访问上，充分利用CPU/GPU异构平台的优势，通过将FIR密集计算部分交由GPU计算，剩余部分仍由CPU负责计算，提高计算效率，包括如下步骤：

(1)将CPU内存待滤波的音频/视频数据拷贝至图形处理器GPU显存中；

(2)根据步骤(1)待滤波的音频/视频数据量和GPU共享内存大小合

理布局GPU内核kernel函数的网格结构；所述的kernel函数是在GPU编程中允许程序员定义一种C函数，称为内核；当一个内核被调用的时候，N个线程会并行执行这个内核，N的大小是由网格决定；

(3)步骤(2)网格结构中所有线程Thread运行GPU kernel函数，通过多个Thread并行地将步骤(1)中待滤波数据从GPU显存读取到GPU共享内存；

(4)每个Thread在步骤(3)共享内存上依据线性相位FIR直接型结构计算FIR滤波器的滤波结果，使FIR滤波乘法算法减少一半；即先做加法后做乘法，一个Thread计算一个滤波结果，所有Thread并行计算；GPU分配的所有Thread并行输出所有滤波结果，提高了GPU中Thread的利用率；

(5)将步骤(4)中所有Thread计算出的FIR滤波结果从GPU显存拷贝至CPU内存；采用Memcpy函数实现，拷贝方向为Device to Host；在GPU计算线性相位FIR滤波器中，充分利用共享内存访问仅一个时钟周期的优势，避免在GPU显存中进行大量读写访问即其访问时间达500个时钟周期，在共享内存中完成FIR滤波计算，减少了读写访问时间；

(6)从CPU输出FIR滤波器的滤波结果。

2.根据权利要求1所述的一种基于CPU/GPU异构平台的FIR滤波并行实现方法，其特征在于：所述步骤(4)中FIR滤波计算公式为：

<mrow> <mi>y</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>h</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>

其中x(n)待滤波数据，n＝0～+∞，h(k)为FIR滤波器系数，k＝0～N,N为滤波器的阶数，取整数，y(n)为滤波器的滤波结果。