CN102340296A - 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 - Google Patents

一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 Download PDF

Info

Publication number
CN102340296A
CN102340296A CN2011102049466A CN201110204946A CN102340296A CN 102340296 A CN102340296 A CN 102340296A CN 2011102049466 A CN2011102049466 A CN 2011102049466A CN 201110204946 A CN201110204946 A CN 201110204946A CN 102340296 A CN102340296 A CN 102340296A
Authority
CN
China
Prior art keywords
data
kernel function
gpu
fir
thread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102049466A
Other languages
English (en)
Other versions
CN102340296B (zh
Inventor
汪晋宽
张春宏
韩英华
宋昕
高静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University Qinhuangdao Branch
Original Assignee
Northeastern University Qinhuangdao Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University Qinhuangdao Branch filed Critical Northeastern University Qinhuangdao Branch
Priority to CN 201110204946 priority Critical patent/CN102340296B/zh
Publication of CN102340296A publication Critical patent/CN102340296A/zh
Application granted granted Critical
Publication of CN102340296B publication Critical patent/CN102340296B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

为解决高阶数字FIR滤波器并行处理效率的问题,提出了一种高效的、适合GPU体系结构的高阶数字FIR滤波器并行处理算法,该方法采用重叠保留方法结合GPU自身结构特点优化实现高阶数字FIR的频域并行化处理。通过计算FIR频率响应系数,将待处理的输入数据传送给GPU;数据重叠搬移;滤波计算处理;数据合并搬移;将合并搬移结果Y={Y0,Y1,....,Yk-1}传送到主机内存等步骤完成高阶数字FIR滤波器频域并行处理。对比在CPU上单线程所实现的FIR频域重叠保留方法,其吞吐率,即每秒处理样点的数量有着极大地提高,典型的加速比在100倍以上。

Description

一种基于GPU的高阶数字FIR滤波器频域并行处理实现方法
技术领域
本发明涉及一种高阶数字FIR滤波器频域并行处理实现方法,特别是一种基于GPU的高阶数字FIR滤波器频域并行处理实现方法,属于数字信号处理领域。
技术背景
在数字信号处理系统中,数字有限冲击响应(FIR)滤波器是最为核心和基础的数字信号处理算法之一。由于数字FIR滤波器,特别是高阶的数字FIR滤波器的计算复杂度是相当高的,因而高效的、并行化的FIR实现方法对于加速FIR的处理是极其至关重要的。
目前,随着通用图形处理器(GPU)技术的迅猛发展,GPU正在被广泛地应用于众多的应用领域之中,由于GPU所具有的众核体系结构,使其能够提供十分强大的计算能力。
因此,对于FIR滤波器这种计算复杂度较高的算法,通过设计合理高效且适合GPU结构的并行算法,就可以使得FIR处理在GPU上得到很高的加速比,从而极大地缩短其处理时间。因此,研发适合于GPU体系结构的数字FIR滤波器并行处理算法,具有很高的实际价值和现实意义。
发明内容
本发明所要解决的技术问题是高阶数字FIR滤波器并行处理效率的问题,提出了一种高效的、适合GPU体系结构的高阶数字FIR滤波器并行处理算法,该方法采用重叠保留方法结合GPU自身结构特点优化实现高阶数字FIR的频域并行化处理。
为了发挥GPU众核的体系结构,需要将重叠保留方法的计算过程加以分解,并合理地将计算负载分配到在GPU上执行的每个线程中,同时还要优化各个线程对于GPU内存的访问,以最大限度地利用GPU所提供的存储带宽。在GPU的编程模型中,核函数(kernel)是由编程人员定义,并可以在GPU上由众多线程加以并行执行的功能单元。作为CPU加速器的GPU,是典型的fork-jion并行模式。在主机端启动核函数时,通过指定调用配置参数,编程人员可以控制启动执行核函数的线程数量以及线程的组织结构。如何将重叠保留方法中的计算过程分解成为不同的核函数,并确定各个核函数所要完成的处理,对于整个算法的并发执行效率起着至关重要的影响。如果核函数内部控制流比较复杂,则会大大地降低GPU的并行效率;然而如果核函数功能过于简单,将导致核函数的数量增加,从而增大启动核函数的总体时间,因此同样会降低GPU并行效率。
因此,根据GPU的自身结构特点,以及重叠保留方法所需的数据处理过程特性,提出了优化的核函数划分方法,即将重叠保留方法的处理划分为六个核函数:频响计算核函数、重叠搬移核函数、傅里叶变换核函数、乘法核函数、傅里叶逆变换核函数、合并搬移核函数,算法的总体处理过程如下:
根据通用图形处理器GPU众核体系结构的特点,将重叠保留方法的处理过程划分为六个核函数:频响计算核函数、重叠搬移核函数、傅里叶变换核函数、乘法核函数、傅里叶逆变换核函数、合并搬移核函数;
实现该方法的具体步骤如下:
步骤一、确定有限冲击响应FIR频率响应系数;
当给定的响应系数为FIR的冲击响应系数h={h(0),h(1),......,h(M-1)}时,将FIR的冲击响应系数h={h(0),h(1),......,h(M-1)},经过尾部填0扩展至长度为N,将扩展后的系数传送给GPU,启动频响计算核函数对FIR的冲击响应系数h进行N点的傅里叶变换,结果为有限冲击响应FIR频率响应系数H={H(0),H(1),......,H(N-1)},保存在GPU内存中;
当给定的响应系数为FIR频率响应系数H={H(0),H(1),......,H(N-1)}时,将频率响应系数H传给GPU,并保存在GPU内存中,保存时,第一个字节的地址为存储器位宽的整数倍;
步骤二、将待处理的输入数据传送给GPU;
将一块长度为Nblk的待滤波样点数据X={B0,B1,...,Bk-1}从主机内存中传入GPU的内存中,其中Nblk=k*L,k为整数,L为每个数据块的长度;其中Bi={Ci,Di},0≤i≤k-1,Ci表示在Bi中起点为0,而长度为L-M+1的连续样点数据块,Di表示在Bi中起点为L-M+1,而长度为M-1的连续样点数据块;
步骤三、数据的重叠搬移;
启动重叠搬移核函数完成数据重叠搬移操作,即将待滤波样点数据X={B0,B1,...,Bk-1}以及输入的长度为M-1的初始状态数据S0,重叠搬移为E={E0,E1,...,Ek-1},其中E0={S0,B0},其中,S0为上一次处理待滤波样点数据X时其中的Dk-1,对于i≠0的数据块Ei={Di-1,Bi},同时将Dk-1搬移到中S0,作为下一次处理过程的初始状态数据使用;
重叠数据的搬移分为三个步骤,第一步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将S0中第i个数据搬移到重叠搬移结果数据E0的S0中的第i的位置,然后再完成将Dk-1中第i个数据搬移到S0中的第i的位置;第二步,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将待滤波样点数据X的Bj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Bj(0≤j≤k-1)块中的第i的位置;第三步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将待滤波样点数据X的Dj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Dj(0≤j≤k-1)块中的第i的位置;
步骤四、滤波计算处理;
启动傅里叶变换核函数,完成对每个Ei做N点的傅里叶变换运算,得到运算结果F={F0,F1,...,Fk-1};然后启动乘法核函数完成Fi与系数H相乘操作,即Ii=Fi*H;然后启动傅里叶逆变换核函数,完成对每个Ii做N点的傅里叶逆变换运算,并得结果R={R0,R1,...,Rk-1};
在启动乘法核函数核函数时,启动N个线程同时工作,线程Ti(0≤i≤N-1)完成将Fj(0≤j≤k-1)中第i个数据与频响系数H中的第i个系数相乘,并将结果保存在Rj(0≤j≤k-1)块中的第i的位置;
步骤五、数据的合并搬移;
启动合并搬移核函数完成数据的合并搬移操作,即将结果数据R={R0,R1,...,Rk-1}合并搬移为Y={Y0,Y1,...,Yk-1},其中Ri={Zi,Yi},其中Zi表示在Ri中起点为0,长度为M-1的连续数据点所组成的数据块,Yi表示在Ri中起点为M-1,长度为L的连续数据点所组成的数据块;
在启动合并搬移核函数时,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将乘积Rj(0≤j≤k-1)中第M-1+i个数据搬移到结果数据Yj(0≤j≤k-1)块中的第i的位置,其中,启动的L个线程在同一时刻搬运长度为L的连续数据块;
步骤六、将合并搬移结果Y={Y0,Y1,...,Yk-1}传送到主机内存,若还有剩余数据需要处理重复步骤二,否则结束处理过程,完成高阶数字FIR滤波器频域并行处理。
有益效果:
通过对于GPU内存访问的优化设计,即所设计的重叠搬移以及合并搬移操作方法,较其他非连续的存储访问方法,能够最大限度地避免内存访问竞争的发生频率,从而可以有效地提高内存访问效率,并提高整体算法的执行效率。另外,通过优化线程组织结构以及启动线程的数量,能够达到最大限度地均衡各个流多处理器上的工作负载,从而提高GPU整体使用率。通过这些优化设计手段,较一般非优化设计,可平均提高执行效率10%左右。同时保存数据时,第一个字节的地址为存储器位宽的整数倍,以确保每次访问内存时能读取到最多的数据。
本发明方法对比在CPU上单线程所实现的FIR频域重叠保留方法,其吞吐率,即每秒处理样点的数量有着极大地提高,典型的加速比在100倍以上。如在GeForce580对于复数数据的处理可达到400M样点/秒。
附图说明
图1是通用数据重叠搬移操作图;
图2是实例数据重叠搬移操作图;
图3是通用数据合并搬移操作图;
图4是实例数据合并搬移操作图;
图5是并行FIR滤波处理流程框图;
具体实施方式
本实施例以1025点FIR为例,说明一个具体的实施方法。
我们选择傅里叶变换的长度为:211=2048=2K,L=1024,每次处理的数据长度:Nblk=220=1M,故k=Nblk/L=210=1024。
根据前面所述方法,我们创建下列在GPU上执行的核函数:
1)频响计算核函数
其输入为1025点的FIR时域冲击响应,所进行的处理是将1024个点的时域冲击响应在其尾部填充1023个0点,并进行2048点的傅里叶变换,从而得到相应的频率响应系数,并将其存储到GPU的共享内存中。
2)重叠搬移核函数
其处理是将输入的220点样本数据,进行重叠搬移。图1为通用的重叠搬移示意图,X={B0,B1,...,Bk-1}是输入的待滤波的数据块,其长度为Nblk=k*L;X是由k个子块Bi组成,0≤i≤k-1,每个子块的长度为L。每个子块Bi则是由长度为L-M+1的数据块Ci和长度为M-1的数据块Di组成,即Bi={Ci,Di}。S0是重叠搬移状态数据块,其长度为M-1,初始值为M-1个0。重叠搬移的结果是E={E0,E1,...,Ek-1}和S1 0,其中E0={S0,B0},对于i≠0的数据块Ei={Di-1,Bi},S1 0=Dk-1。而在本具体实例中由于L=M-1=1024,因此Ci数据块长度为0,即Di=Bi,具体搬移操作参见图2。重叠搬移过程分为三个步骤:
步骤201:启动1024个线程完成将状态数据块S0搬移到E0中,即将S0(m)搬移到e(m),其中0≤m≤1023,以及将D1023搬移到S1 0中。在此步骤中,线程根据下列搬移公式进行数据搬移:
线程t(i)需要搬移e(i)=S0(i),然后需要搬移S0(i)=x(220-210+i),其中0≤i≤1023。例如:线程t(0)将S0(0)搬移到x(0),将x(220-210)搬移到S0(0);
步骤202:启动1024个线程完成将待滤波数据X搬移到E的奇数块中。在此步骤中,线程根据下列搬移公式进行数据搬移:
线程t(i)需要搬移e((2*m+1)*210+i)=x(m*210+i),其中0≤i≤1023,m=0,1,...,210-1。例如:线程t(0)在m=0时,将数据x(0)搬移到e(1024),在m=1时,数据x(1024)搬移到e(3072);
步骤203:启动1024个线程完成待滤波数据X搬移到E的偶数块中。在此步骤中,线程根据下列搬移公式进行数据搬移:
线程t(i)需要搬移e((2*(m+1)*210+i)=x(m*210+i),其中0≤i≤1023,m=0,1,...,210-1。例如:线程t(0)在m=0时,将数据x(0)搬移到e(2048),在m=1时,数据x(1024)搬移到e(4096);
3)傅里叶变换核函数
其处理是将经过重叠搬移后的数据,进行傅里叶变换计算,其中傅里叶变换的长度为211=2048。
4)乘法核函数
其处理是将傅里叶变换的结果数据,与FIR频响系数相乘。在此过程中,启动2048个线程,并根据下列公式进行计算:
线程t(i)计算p(m*211+i)=e(m*211+i)*H(i)/211,其中,0≤i≤2047,m=0,1,...,210-1,e为重叠搬移操作的结果数据。例如:线程t(0)在m=0时,计算p(0)=e(0)*H(0)/211,在m=1时,计算p(211)=e(211)*H(0)/211
5)傅里叶逆变换核函数
其处理是将与频响系数相乘所得的结果数据,进行傅里叶逆变换计算,其中傅里叶逆变换的长度为211=2048。
6)合并搬移核函数
其处理是将傅里叶逆变换的结果数据,进行合并搬移。图3为通用的合并搬移示意图,将傅里叶逆变换的结果数据R={R0,R1,...,Rk-1}合并搬移为Y={Y0,Y1,...,Yk-1},其中Ri={Zi,Yi},其中Zi长度为M-1的连续数据点,Yi则是长度为L的连续数据点。而在本具体实例中,L=M-1=210=1024,具体搬移操作参见图4。在此过程中,启动1024个线程,并根据下列公式进行数据搬移操作:
线程t(i)需要搬移y(m*210+i)=r((2*m+1)*210+i),其中,0≤i≤1023,m=0,1,...,210-1,y为搬移后的结果数据。例如:线程t(0)在m=0时,将数据r(210)搬移到y(0),在m=1时,将数据r(3072)搬移到y(1024);
上面六个核函数是条件,有了上述的六个可在GPU上并行执行的核函数之后,我们就可以按照下述步骤来完成FIR的并行处理,其中具体的滤波计算处理操作参见图5:
步骤501:将1025点的FIR冲击响应数据从主机内存拷贝到GPU内存中,启动频响计算核函数,完成FIR频响系数的计算。
步骤502:将一块220=1M点的数据从主机内存拷贝到GPU内存中,在GPU上启动210个线程,用以执行重叠搬移核函数。
步骤503:执行傅里叶变换核函数。
步骤504:在GPU上启动211个线程,用以执行乘法核函数。
步骤505:执行傅里叶逆变换核函数。
步骤506:在GPU上启动210个线程,用以执行合并搬移核函数。
步骤507:将合并搬移的结果从GPU内存中拷贝到主机内存中,如果有待处理的数据,则转到步骤二执行。

Claims (1)

1.一种基于GPU的高阶数字FIR滤波器频域并行处理实现方法,其特征在于:根据通用图形处理器GPU众核体系结构的特点,将重叠保留方法的处理过程划分为六个核函数:频响计算核函数、重叠搬移核函数、傅里叶变换核函数、乘法核函数、傅里叶逆变换核函数、合并搬移核函数;
实现该方法的具体步骤如下:
步骤一、确定有限冲击响应FIR频率响应系数;
当给定的响应系数为FIR的冲击响应系数h={h(0),h(1),......,h(M-1)}时,将FIR的冲击响应系数h={h(0),h(1),......,h(M-1)},经过尾部填0扩展至长度为N,将扩展后的系数传送给GPU,启动频响计算核函数对FIR的冲击响应系数h进行N点的傅里叶变换,结果为有限冲击响应FIR频率响应系数H={H(0),H(1),......,H(N-1)},保存在GPU内存中;
当给定的响应系数为FIR频率响应系数H={H(0),H(1),......,H(N-1)}时,将频率响应系数H传给GPU,并保存在GPU内存中,保存时,第一个字节的地址为存储器位宽的整数倍;
步骤二、将待处理的输入数据传送给GPU;
将一块长度为Nblk的待滤波样点数据X={B0,B1,...,Bk-1}从主机内存中传入GPU的内存中,其中Nblk=k*L,k为整数,L为每个数据块的长度;其中Bi={Ci,Di},0≤i≤k-1,Ci表示在Bi中起点为0,而长度为L-M+1的连续样点数据块,Di表示在Bi中起点为L-M+1,而长度为M-1的连续样点数据块;
步骤三、数据的重叠搬移;
启动重叠搬移核函数完成数据重叠搬移操作,即将待滤波样点数据X={B0,B1,...,Bk-1}以及输入的长度为M-1的初始状态数据S0,重叠搬移为E={E0,E1,...,Ek-1},其中E0={S0,B0},其中,S0为上一次处理待滤波样点数据X时其中的Dk-1,对于i≠0的数据块Ei={Di-1,Bi},同时将Dk-1搬移到中S0,作为下一次处理过程的初始状态数据使用;
重叠数据的搬移分为三个步骤,第一步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将S0中第i个数据搬移到重叠搬移结果数据E0的S0中的第i的位置,然后再完成将Dk-1中第i个数据搬移到S0中的第i的位置;第二步,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将待滤波样点数据X的Bj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Bj(0≤j≤k-1)块中的第i的位置;第三步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将待滤波样点数据X的Dj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Dj(0≤j≤k-1)块中的第i的位置;
步骤四、滤波计算处理;
启动傅里叶变换核函数,完成对每个Ei做N点的傅里叶变换运算,得到运算结果F={F0,F1,...,Fk-1};然后启动乘法核函数完成Fi与系数H相乘操作,即Ii=Fi*H;然后启动傅里叶逆变换核函数,完成对每个Ii做N点的傅里叶逆变换运算,并得结果R={R0,R1,...,Rk-1};
在启动乘法核函数核函数时,启动N个线程同时工作,线程Ti(0≤i≤N-1)完成将Fj(0≤j≤k-1)中第i个数据与频响系数H中的第i个系数相乘,并将结果保存在Rj(0≤j≤k-1)块中的第i的位置;
步骤五、数据的合并搬移;
启动合并搬移核函数完成数据的合并搬移操作,即将结果数据R={R0,R1,...,Rk-1}合并搬移为Y={Y0,Y1,...,Yk-1},其中Ri={Zi,Yi},其中Zi表示在Ri中起点为0,长度为M-1的连续数据点所组成的数据块,Yi表示在Ri中起点为M-1,长度为L的连续数据点所组成的数据块;
在启动合并搬移核函数时,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将乘积Rj(0≤j≤k-1)中第M-1+i个数据搬移到结果数据Yj(0≤j≤k-1)块中的第i的位置,其中,启动的L个线程在同一时刻搬运长度为L的连续数据块;
步骤六、将合并搬移结果Y={Y0,Y1,...,Yk-1}传送到主机内存,若还有剩余数据需要处理重复步骤二,否则结束处理过程,完成高阶数字FIR滤波器频域并行处理。
CN 201110204946 2011-07-21 2011-07-21 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 Expired - Fee Related CN102340296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110204946 CN102340296B (zh) 2011-07-21 2011-07-21 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110204946 CN102340296B (zh) 2011-07-21 2011-07-21 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法

Publications (2)

Publication Number Publication Date
CN102340296A true CN102340296A (zh) 2012-02-01
CN102340296B CN102340296B (zh) 2013-12-25

Family

ID=45515836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110204946 Expired - Fee Related CN102340296B (zh) 2011-07-21 2011-07-21 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法

Country Status (1)

Country Link
CN (1) CN102340296B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103956991A (zh) * 2014-04-10 2014-07-30 北京遥测技术研究所 一种基于cpu/gpu异构平台的fir滤波并行实现方法
CN105656450A (zh) * 2015-12-31 2016-06-08 北京合康亿盛变频科技股份有限公司 整数运算的数字低通滤波方法及装置
CN105899268A (zh) * 2015-06-23 2016-08-24 中国科学院深圳先进技术研究院 基于gpu的并行心电信号分析方法
CN106973024A (zh) * 2017-03-23 2017-07-21 电子科技大学 60GHz毫米波通信系统中均衡器的低复杂度的实现方法
CN108270416A (zh) * 2016-12-30 2018-07-10 北京圣非凡电子系统技术开发有限公司 一种高阶插值滤波器及方法
CN109683018A (zh) * 2018-12-24 2019-04-26 电子科技大学 一种实时多帧频域数据的并行处理方法
CN113066249A (zh) * 2021-03-17 2021-07-02 成都华日通讯技术股份有限公司 基于无线电特征信息提取的无人机监测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661407A (zh) * 2009-09-30 2010-03-03 中兴通讯股份有限公司 一种并行结构的有限脉冲响应滤波器及其处理方法
US20100076941A1 (en) * 2008-09-09 2010-03-25 Microsoft Corporation Matrix-based scans on parallel processors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076941A1 (en) * 2008-09-09 2010-03-25 Microsoft Corporation Matrix-based scans on parallel processors
CN101661407A (zh) * 2009-09-30 2010-03-03 中兴通讯股份有限公司 一种并行结构的有限脉冲响应滤波器及其处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈孝良等: "《GPU实现的高速FIR数字滤波算法》", 《计算机辅助设计与图形学学报》, vol. 22, no. 9, 30 September 2010 (2010-09-30), pages 1435 - 1442 *
陈孝良等: "《基于GPU的多通道倍频并行算法研究》", 《仪器仪表学报》, vol. 31, no. 7, 31 July 2010 (2010-07-31), pages 1674 - 1680 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103956991A (zh) * 2014-04-10 2014-07-30 北京遥测技术研究所 一种基于cpu/gpu异构平台的fir滤波并行实现方法
CN103956991B (zh) * 2014-04-10 2017-09-29 北京遥测技术研究所 一种基于cpu/gpu异构平台的fir滤波并行实现方法
US10258250B2 (en) 2015-06-23 2019-04-16 Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences GPU-based parallel electrocardiogram signal analysis method, computer readable storage medium and device
CN105899268A (zh) * 2015-06-23 2016-08-24 中国科学院深圳先进技术研究院 基于gpu的并行心电信号分析方法
CN105899268B (zh) * 2015-06-23 2019-02-15 中国科学院深圳先进技术研究院 基于gpu的并行心电信号分析方法
CN105656450A (zh) * 2015-12-31 2016-06-08 北京合康亿盛变频科技股份有限公司 整数运算的数字低通滤波方法及装置
CN105656450B (zh) * 2015-12-31 2018-12-21 北京合康亿盛变频科技股份有限公司 整数运算的数字低通滤波方法及装置
CN108270416A (zh) * 2016-12-30 2018-07-10 北京圣非凡电子系统技术开发有限公司 一种高阶插值滤波器及方法
CN106973024A (zh) * 2017-03-23 2017-07-21 电子科技大学 60GHz毫米波通信系统中均衡器的低复杂度的实现方法
CN106973024B (zh) * 2017-03-23 2020-01-03 电子科技大学 60GHz毫米波通信系统中均衡器的低复杂度的实现方法
CN109683018A (zh) * 2018-12-24 2019-04-26 电子科技大学 一种实时多帧频域数据的并行处理方法
CN109683018B (zh) * 2018-12-24 2020-12-01 电子科技大学 一种实时多帧频域数据的并行处理方法
CN113066249A (zh) * 2021-03-17 2021-07-02 成都华日通讯技术股份有限公司 基于无线电特征信息提取的无人机监测系统

Also Published As

Publication number Publication date
CN102340296B (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN102340296B (zh) 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法
JP6977239B2 (ja) 行列乗算器
CN106445471A (zh) 处理器和用于在处理器上执行矩阵乘运算的方法
CN109284822A (zh) 一种神经网络运算装置及方法
CN104835110B (zh) 一种基于gpu的异步图数据处理系统
CN102375805B (zh) 面向向量处理器的基于simd的fft并行计算方法
CN110415157A (zh) 一种矩阵乘法的计算方法及装置
CN103956991B (zh) 一种基于cpu/gpu异构平台的fir滤波并行实现方法
CN110460443A (zh) 椭圆曲线密码的高速点加运算方法和装置
CN112784973A (zh) 卷积运算电路、装置以及方法
US20160140083A1 (en) Digital filter device, digital filtering method, and storage medium having digital filter program stored thereon
CN109472734A (zh) 一种基于fpga的目标检测网络及其实现方法
Ortega et al. Parallelizing AES on multicores and GPUs
Frey et al. Spinning relations: high-speed networks for distributed join processing
CN105894440B (zh) 一种图像多层数据处理方法和装置
CN112559952B (zh) 基于序列分层的异构众核快速傅里叶变换方法
CN113536228A (zh) 一种矩阵奇异值分解的fpga加速实现方法
Shahbahrami Algorithms and architectures for 2D discrete wavelet transform
Hu et al. Data optimization cnn accelerator design on fpga
CN106919536B (zh) 一种应用于三角矩阵与矩阵乘法的加速方法及其加速装置
Ma et al. Implementation of a digital down converter using graphics processing unit
CN107707178A (zh) 低通滤波器的滤波方法、低通滤波器及伺服驱动器
Anh et al. Reducing vector I/O for faster GPU sparse matrix-vector multiplication
TW202230176A (zh) 用於處理資料的方法及系統、以及包括合併核心的設備
da Silva et al. Exploring data streaming to improve 3d FFT implementation on multiple GPUs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131225

Termination date: 20160721

CF01 Termination of patent right due to non-payment of annual fee