CN102340296A - 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 - Google Patents
一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 Download PDFInfo
- Publication number
- CN102340296A CN102340296A CN2011102049466A CN201110204946A CN102340296A CN 102340296 A CN102340296 A CN 102340296A CN 2011102049466 A CN2011102049466 A CN 2011102049466A CN 201110204946 A CN201110204946 A CN 201110204946A CN 102340296 A CN102340296 A CN 102340296A
- Authority
- CN
- China
- Prior art keywords
- data
- kernel function
- gpu
- fir
- thread
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
为解决高阶数字FIR滤波器并行处理效率的问题,提出了一种高效的、适合GPU体系结构的高阶数字FIR滤波器并行处理算法,该方法采用重叠保留方法结合GPU自身结构特点优化实现高阶数字FIR的频域并行化处理。通过计算FIR频率响应系数,将待处理的输入数据传送给GPU;数据重叠搬移;滤波计算处理;数据合并搬移;将合并搬移结果Y={Y0,Y1,....,Yk-1}传送到主机内存等步骤完成高阶数字FIR滤波器频域并行处理。对比在CPU上单线程所实现的FIR频域重叠保留方法,其吞吐率,即每秒处理样点的数量有着极大地提高,典型的加速比在100倍以上。
Description
技术领域
本发明涉及一种高阶数字FIR滤波器频域并行处理实现方法,特别是一种基于GPU的高阶数字FIR滤波器频域并行处理实现方法,属于数字信号处理领域。
技术背景
在数字信号处理系统中,数字有限冲击响应(FIR)滤波器是最为核心和基础的数字信号处理算法之一。由于数字FIR滤波器,特别是高阶的数字FIR滤波器的计算复杂度是相当高的,因而高效的、并行化的FIR实现方法对于加速FIR的处理是极其至关重要的。
目前,随着通用图形处理器(GPU)技术的迅猛发展,GPU正在被广泛地应用于众多的应用领域之中,由于GPU所具有的众核体系结构,使其能够提供十分强大的计算能力。
因此,对于FIR滤波器这种计算复杂度较高的算法,通过设计合理高效且适合GPU结构的并行算法,就可以使得FIR处理在GPU上得到很高的加速比,从而极大地缩短其处理时间。因此,研发适合于GPU体系结构的数字FIR滤波器并行处理算法,具有很高的实际价值和现实意义。
发明内容
本发明所要解决的技术问题是高阶数字FIR滤波器并行处理效率的问题,提出了一种高效的、适合GPU体系结构的高阶数字FIR滤波器并行处理算法,该方法采用重叠保留方法结合GPU自身结构特点优化实现高阶数字FIR的频域并行化处理。
为了发挥GPU众核的体系结构,需要将重叠保留方法的计算过程加以分解,并合理地将计算负载分配到在GPU上执行的每个线程中,同时还要优化各个线程对于GPU内存的访问,以最大限度地利用GPU所提供的存储带宽。在GPU的编程模型中,核函数(kernel)是由编程人员定义,并可以在GPU上由众多线程加以并行执行的功能单元。作为CPU加速器的GPU,是典型的fork-jion并行模式。在主机端启动核函数时,通过指定调用配置参数,编程人员可以控制启动执行核函数的线程数量以及线程的组织结构。如何将重叠保留方法中的计算过程分解成为不同的核函数,并确定各个核函数所要完成的处理,对于整个算法的并发执行效率起着至关重要的影响。如果核函数内部控制流比较复杂,则会大大地降低GPU的并行效率;然而如果核函数功能过于简单,将导致核函数的数量增加,从而增大启动核函数的总体时间,因此同样会降低GPU并行效率。
因此,根据GPU的自身结构特点,以及重叠保留方法所需的数据处理过程特性,提出了优化的核函数划分方法,即将重叠保留方法的处理划分为六个核函数:频响计算核函数、重叠搬移核函数、傅里叶变换核函数、乘法核函数、傅里叶逆变换核函数、合并搬移核函数,算法的总体处理过程如下:
根据通用图形处理器GPU众核体系结构的特点,将重叠保留方法的处理过程划分为六个核函数:频响计算核函数、重叠搬移核函数、傅里叶变换核函数、乘法核函数、傅里叶逆变换核函数、合并搬移核函数;
实现该方法的具体步骤如下:
步骤一、确定有限冲击响应FIR频率响应系数;
当给定的响应系数为FIR的冲击响应系数h={h(0),h(1),......,h(M-1)}时,将FIR的冲击响应系数h={h(0),h(1),......,h(M-1)},经过尾部填0扩展至长度为N,将扩展后的系数传送给GPU,启动频响计算核函数对FIR的冲击响应系数h进行N点的傅里叶变换,结果为有限冲击响应FIR频率响应系数H={H(0),H(1),......,H(N-1)},保存在GPU内存中;
当给定的响应系数为FIR频率响应系数H={H(0),H(1),......,H(N-1)}时,将频率响应系数H传给GPU,并保存在GPU内存中,保存时,第一个字节的地址为存储器位宽的整数倍;
步骤二、将待处理的输入数据传送给GPU;
将一块长度为Nblk的待滤波样点数据X={B0,B1,...,Bk-1}从主机内存中传入GPU的内存中,其中Nblk=k*L,k为整数,L为每个数据块的长度;其中Bi={Ci,Di},0≤i≤k-1,Ci表示在Bi中起点为0,而长度为L-M+1的连续样点数据块,Di表示在Bi中起点为L-M+1,而长度为M-1的连续样点数据块;
步骤三、数据的重叠搬移;
启动重叠搬移核函数完成数据重叠搬移操作,即将待滤波样点数据X={B0,B1,...,Bk-1}以及输入的长度为M-1的初始状态数据S0,重叠搬移为E={E0,E1,...,Ek-1},其中E0={S0,B0},其中,S0为上一次处理待滤波样点数据X时其中的Dk-1,对于i≠0的数据块Ei={Di-1,Bi},同时将Dk-1搬移到中S0,作为下一次处理过程的初始状态数据使用;
重叠数据的搬移分为三个步骤,第一步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将S0中第i个数据搬移到重叠搬移结果数据E0的S0中的第i的位置,然后再完成将Dk-1中第i个数据搬移到S0中的第i的位置;第二步,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将待滤波样点数据X的Bj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Bj(0≤j≤k-1)块中的第i的位置;第三步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将待滤波样点数据X的Dj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Dj(0≤j≤k-1)块中的第i的位置;
步骤四、滤波计算处理;
启动傅里叶变换核函数,完成对每个Ei做N点的傅里叶变换运算,得到运算结果F={F0,F1,...,Fk-1};然后启动乘法核函数完成Fi与系数H相乘操作,即Ii=Fi*H;然后启动傅里叶逆变换核函数,完成对每个Ii做N点的傅里叶逆变换运算,并得结果R={R0,R1,...,Rk-1};
在启动乘法核函数核函数时,启动N个线程同时工作,线程Ti(0≤i≤N-1)完成将Fj(0≤j≤k-1)中第i个数据与频响系数H中的第i个系数相乘,并将结果保存在Rj(0≤j≤k-1)块中的第i的位置;
步骤五、数据的合并搬移;
启动合并搬移核函数完成数据的合并搬移操作,即将结果数据R={R0,R1,...,Rk-1}合并搬移为Y={Y0,Y1,...,Yk-1},其中Ri={Zi,Yi},其中Zi表示在Ri中起点为0,长度为M-1的连续数据点所组成的数据块,Yi表示在Ri中起点为M-1,长度为L的连续数据点所组成的数据块;
在启动合并搬移核函数时,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将乘积Rj(0≤j≤k-1)中第M-1+i个数据搬移到结果数据Yj(0≤j≤k-1)块中的第i的位置,其中,启动的L个线程在同一时刻搬运长度为L的连续数据块;
步骤六、将合并搬移结果Y={Y0,Y1,...,Yk-1}传送到主机内存,若还有剩余数据需要处理重复步骤二,否则结束处理过程,完成高阶数字FIR滤波器频域并行处理。
有益效果:
通过对于GPU内存访问的优化设计,即所设计的重叠搬移以及合并搬移操作方法,较其他非连续的存储访问方法,能够最大限度地避免内存访问竞争的发生频率,从而可以有效地提高内存访问效率,并提高整体算法的执行效率。另外,通过优化线程组织结构以及启动线程的数量,能够达到最大限度地均衡各个流多处理器上的工作负载,从而提高GPU整体使用率。通过这些优化设计手段,较一般非优化设计,可平均提高执行效率10%左右。同时保存数据时,第一个字节的地址为存储器位宽的整数倍,以确保每次访问内存时能读取到最多的数据。
本发明方法对比在CPU上单线程所实现的FIR频域重叠保留方法,其吞吐率,即每秒处理样点的数量有着极大地提高,典型的加速比在100倍以上。如在GeForce580对于复数数据的处理可达到400M样点/秒。
附图说明
图1是通用数据重叠搬移操作图;
图2是实例数据重叠搬移操作图;
图3是通用数据合并搬移操作图;
图4是实例数据合并搬移操作图;
图5是并行FIR滤波处理流程框图;
具体实施方式
本实施例以1025点FIR为例,说明一个具体的实施方法。
我们选择傅里叶变换的长度为:211=2048=2K,L=1024,每次处理的数据长度:Nblk=220=1M,故k=Nblk/L=210=1024。
根据前面所述方法,我们创建下列在GPU上执行的核函数:
1)频响计算核函数
其输入为1025点的FIR时域冲击响应,所进行的处理是将1024个点的时域冲击响应在其尾部填充1023个0点,并进行2048点的傅里叶变换,从而得到相应的频率响应系数,并将其存储到GPU的共享内存中。
2)重叠搬移核函数
其处理是将输入的220点样本数据,进行重叠搬移。图1为通用的重叠搬移示意图,X={B0,B1,...,Bk-1}是输入的待滤波的数据块,其长度为Nblk=k*L;X是由k个子块Bi组成,0≤i≤k-1,每个子块的长度为L。每个子块Bi则是由长度为L-M+1的数据块Ci和长度为M-1的数据块Di组成,即Bi={Ci,Di}。S0是重叠搬移状态数据块,其长度为M-1,初始值为M-1个0。重叠搬移的结果是E={E0,E1,...,Ek-1}和S1 0,其中E0={S0,B0},对于i≠0的数据块Ei={Di-1,Bi},S1 0=Dk-1。而在本具体实例中由于L=M-1=1024,因此Ci数据块长度为0,即Di=Bi,具体搬移操作参见图2。重叠搬移过程分为三个步骤:
步骤201:启动1024个线程完成将状态数据块S0搬移到E0中,即将S0(m)搬移到e(m),其中0≤m≤1023,以及将D1023搬移到S1 0中。在此步骤中,线程根据下列搬移公式进行数据搬移:
线程t(i)需要搬移e(i)=S0(i),然后需要搬移S0(i)=x(220-210+i),其中0≤i≤1023。例如:线程t(0)将S0(0)搬移到x(0),将x(220-210)搬移到S0(0);
步骤202:启动1024个线程完成将待滤波数据X搬移到E的奇数块中。在此步骤中,线程根据下列搬移公式进行数据搬移:
线程t(i)需要搬移e((2*m+1)*210+i)=x(m*210+i),其中0≤i≤1023,m=0,1,...,210-1。例如:线程t(0)在m=0时,将数据x(0)搬移到e(1024),在m=1时,数据x(1024)搬移到e(3072);
步骤203:启动1024个线程完成待滤波数据X搬移到E的偶数块中。在此步骤中,线程根据下列搬移公式进行数据搬移:
线程t(i)需要搬移e((2*(m+1)*210+i)=x(m*210+i),其中0≤i≤1023,m=0,1,...,210-1。例如:线程t(0)在m=0时,将数据x(0)搬移到e(2048),在m=1时,数据x(1024)搬移到e(4096);
3)傅里叶变换核函数
其处理是将经过重叠搬移后的数据,进行傅里叶变换计算,其中傅里叶变换的长度为211=2048。
4)乘法核函数
其处理是将傅里叶变换的结果数据,与FIR频响系数相乘。在此过程中,启动2048个线程,并根据下列公式进行计算:
线程t(i)计算p(m*211+i)=e(m*211+i)*H(i)/211,其中,0≤i≤2047,m=0,1,...,210-1,e为重叠搬移操作的结果数据。例如:线程t(0)在m=0时,计算p(0)=e(0)*H(0)/211,在m=1时,计算p(211)=e(211)*H(0)/211;
5)傅里叶逆变换核函数
其处理是将与频响系数相乘所得的结果数据,进行傅里叶逆变换计算,其中傅里叶逆变换的长度为211=2048。
6)合并搬移核函数
其处理是将傅里叶逆变换的结果数据,进行合并搬移。图3为通用的合并搬移示意图,将傅里叶逆变换的结果数据R={R0,R1,...,Rk-1}合并搬移为Y={Y0,Y1,...,Yk-1},其中Ri={Zi,Yi},其中Zi长度为M-1的连续数据点,Yi则是长度为L的连续数据点。而在本具体实例中,L=M-1=210=1024,具体搬移操作参见图4。在此过程中,启动1024个线程,并根据下列公式进行数据搬移操作:
线程t(i)需要搬移y(m*210+i)=r((2*m+1)*210+i),其中,0≤i≤1023,m=0,1,...,210-1,y为搬移后的结果数据。例如:线程t(0)在m=0时,将数据r(210)搬移到y(0),在m=1时,将数据r(3072)搬移到y(1024);
上面六个核函数是条件,有了上述的六个可在GPU上并行执行的核函数之后,我们就可以按照下述步骤来完成FIR的并行处理,其中具体的滤波计算处理操作参见图5:
步骤501:将1025点的FIR冲击响应数据从主机内存拷贝到GPU内存中,启动频响计算核函数,完成FIR频响系数的计算。
步骤502:将一块220=1M点的数据从主机内存拷贝到GPU内存中,在GPU上启动210个线程,用以执行重叠搬移核函数。
步骤503:执行傅里叶变换核函数。
步骤504:在GPU上启动211个线程,用以执行乘法核函数。
步骤505:执行傅里叶逆变换核函数。
步骤506:在GPU上启动210个线程,用以执行合并搬移核函数。
步骤507:将合并搬移的结果从GPU内存中拷贝到主机内存中,如果有待处理的数据,则转到步骤二执行。
Claims (1)
1.一种基于GPU的高阶数字FIR滤波器频域并行处理实现方法,其特征在于:根据通用图形处理器GPU众核体系结构的特点,将重叠保留方法的处理过程划分为六个核函数:频响计算核函数、重叠搬移核函数、傅里叶变换核函数、乘法核函数、傅里叶逆变换核函数、合并搬移核函数;
实现该方法的具体步骤如下:
步骤一、确定有限冲击响应FIR频率响应系数;
当给定的响应系数为FIR的冲击响应系数h={h(0),h(1),......,h(M-1)}时,将FIR的冲击响应系数h={h(0),h(1),......,h(M-1)},经过尾部填0扩展至长度为N,将扩展后的系数传送给GPU,启动频响计算核函数对FIR的冲击响应系数h进行N点的傅里叶变换,结果为有限冲击响应FIR频率响应系数H={H(0),H(1),......,H(N-1)},保存在GPU内存中;
当给定的响应系数为FIR频率响应系数H={H(0),H(1),......,H(N-1)}时,将频率响应系数H传给GPU,并保存在GPU内存中,保存时,第一个字节的地址为存储器位宽的整数倍;
步骤二、将待处理的输入数据传送给GPU;
将一块长度为Nblk的待滤波样点数据X={B0,B1,...,Bk-1}从主机内存中传入GPU的内存中,其中Nblk=k*L,k为整数,L为每个数据块的长度;其中Bi={Ci,Di},0≤i≤k-1,Ci表示在Bi中起点为0,而长度为L-M+1的连续样点数据块,Di表示在Bi中起点为L-M+1,而长度为M-1的连续样点数据块;
步骤三、数据的重叠搬移;
启动重叠搬移核函数完成数据重叠搬移操作,即将待滤波样点数据X={B0,B1,...,Bk-1}以及输入的长度为M-1的初始状态数据S0,重叠搬移为E={E0,E1,...,Ek-1},其中E0={S0,B0},其中,S0为上一次处理待滤波样点数据X时其中的Dk-1,对于i≠0的数据块Ei={Di-1,Bi},同时将Dk-1搬移到中S0,作为下一次处理过程的初始状态数据使用;
重叠数据的搬移分为三个步骤,第一步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将S0中第i个数据搬移到重叠搬移结果数据E0的S0中的第i的位置,然后再完成将Dk-1中第i个数据搬移到S0中的第i的位置;第二步,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将待滤波样点数据X的Bj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Bj(0≤j≤k-1)块中的第i的位置;第三步,启动M-1个线程同时工作,线程Ti(0≤i≤M-2)完成将待滤波样点数据X的Dj(0≤j≤k-1)块中第i个数据搬移到重叠搬移结果数据E的Dj(0≤j≤k-1)块中的第i的位置;
步骤四、滤波计算处理;
启动傅里叶变换核函数,完成对每个Ei做N点的傅里叶变换运算,得到运算结果F={F0,F1,...,Fk-1};然后启动乘法核函数完成Fi与系数H相乘操作,即Ii=Fi*H;然后启动傅里叶逆变换核函数,完成对每个Ii做N点的傅里叶逆变换运算,并得结果R={R0,R1,...,Rk-1};
在启动乘法核函数核函数时,启动N个线程同时工作,线程Ti(0≤i≤N-1)完成将Fj(0≤j≤k-1)中第i个数据与频响系数H中的第i个系数相乘,并将结果保存在Rj(0≤j≤k-1)块中的第i的位置;
步骤五、数据的合并搬移;
启动合并搬移核函数完成数据的合并搬移操作,即将结果数据R={R0,R1,...,Rk-1}合并搬移为Y={Y0,Y1,...,Yk-1},其中Ri={Zi,Yi},其中Zi表示在Ri中起点为0,长度为M-1的连续数据点所组成的数据块,Yi表示在Ri中起点为M-1,长度为L的连续数据点所组成的数据块;
在启动合并搬移核函数时,启动L个线程同时工作,线程Ti(0≤i≤L-1)完成将乘积Rj(0≤j≤k-1)中第M-1+i个数据搬移到结果数据Yj(0≤j≤k-1)块中的第i的位置,其中,启动的L个线程在同一时刻搬运长度为L的连续数据块;
步骤六、将合并搬移结果Y={Y0,Y1,...,Yk-1}传送到主机内存,若还有剩余数据需要处理重复步骤二,否则结束处理过程,完成高阶数字FIR滤波器频域并行处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110204946 CN102340296B (zh) | 2011-07-21 | 2011-07-21 | 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110204946 CN102340296B (zh) | 2011-07-21 | 2011-07-21 | 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102340296A true CN102340296A (zh) | 2012-02-01 |
CN102340296B CN102340296B (zh) | 2013-12-25 |
Family
ID=45515836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110204946 Expired - Fee Related CN102340296B (zh) | 2011-07-21 | 2011-07-21 | 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102340296B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103956991A (zh) * | 2014-04-10 | 2014-07-30 | 北京遥测技术研究所 | 一种基于cpu/gpu异构平台的fir滤波并行实现方法 |
CN105656450A (zh) * | 2015-12-31 | 2016-06-08 | 北京合康亿盛变频科技股份有限公司 | 整数运算的数字低通滤波方法及装置 |
CN105899268A (zh) * | 2015-06-23 | 2016-08-24 | 中国科学院深圳先进技术研究院 | 基于gpu的并行心电信号分析方法 |
CN106973024A (zh) * | 2017-03-23 | 2017-07-21 | 电子科技大学 | 60GHz毫米波通信系统中均衡器的低复杂度的实现方法 |
CN108270416A (zh) * | 2016-12-30 | 2018-07-10 | 北京圣非凡电子系统技术开发有限公司 | 一种高阶插值滤波器及方法 |
CN109683018A (zh) * | 2018-12-24 | 2019-04-26 | 电子科技大学 | 一种实时多帧频域数据的并行处理方法 |
CN113066249A (zh) * | 2021-03-17 | 2021-07-02 | 成都华日通讯技术股份有限公司 | 基于无线电特征信息提取的无人机监测系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661407A (zh) * | 2009-09-30 | 2010-03-03 | 中兴通讯股份有限公司 | 一种并行结构的有限脉冲响应滤波器及其处理方法 |
US20100076941A1 (en) * | 2008-09-09 | 2010-03-25 | Microsoft Corporation | Matrix-based scans on parallel processors |
-
2011
- 2011-07-21 CN CN 201110204946 patent/CN102340296B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076941A1 (en) * | 2008-09-09 | 2010-03-25 | Microsoft Corporation | Matrix-based scans on parallel processors |
CN101661407A (zh) * | 2009-09-30 | 2010-03-03 | 中兴通讯股份有限公司 | 一种并行结构的有限脉冲响应滤波器及其处理方法 |
Non-Patent Citations (2)
Title |
---|
陈孝良等: "《GPU实现的高速FIR数字滤波算法》", 《计算机辅助设计与图形学学报》, vol. 22, no. 9, 30 September 2010 (2010-09-30), pages 1435 - 1442 * |
陈孝良等: "《基于GPU的多通道倍频并行算法研究》", 《仪器仪表学报》, vol. 31, no. 7, 31 July 2010 (2010-07-31), pages 1674 - 1680 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103956991A (zh) * | 2014-04-10 | 2014-07-30 | 北京遥测技术研究所 | 一种基于cpu/gpu异构平台的fir滤波并行实现方法 |
CN103956991B (zh) * | 2014-04-10 | 2017-09-29 | 北京遥测技术研究所 | 一种基于cpu/gpu异构平台的fir滤波并行实现方法 |
US10258250B2 (en) | 2015-06-23 | 2019-04-16 | Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences | GPU-based parallel electrocardiogram signal analysis method, computer readable storage medium and device |
CN105899268A (zh) * | 2015-06-23 | 2016-08-24 | 中国科学院深圳先进技术研究院 | 基于gpu的并行心电信号分析方法 |
CN105899268B (zh) * | 2015-06-23 | 2019-02-15 | 中国科学院深圳先进技术研究院 | 基于gpu的并行心电信号分析方法 |
CN105656450A (zh) * | 2015-12-31 | 2016-06-08 | 北京合康亿盛变频科技股份有限公司 | 整数运算的数字低通滤波方法及装置 |
CN105656450B (zh) * | 2015-12-31 | 2018-12-21 | 北京合康亿盛变频科技股份有限公司 | 整数运算的数字低通滤波方法及装置 |
CN108270416A (zh) * | 2016-12-30 | 2018-07-10 | 北京圣非凡电子系统技术开发有限公司 | 一种高阶插值滤波器及方法 |
CN106973024A (zh) * | 2017-03-23 | 2017-07-21 | 电子科技大学 | 60GHz毫米波通信系统中均衡器的低复杂度的实现方法 |
CN106973024B (zh) * | 2017-03-23 | 2020-01-03 | 电子科技大学 | 60GHz毫米波通信系统中均衡器的低复杂度的实现方法 |
CN109683018A (zh) * | 2018-12-24 | 2019-04-26 | 电子科技大学 | 一种实时多帧频域数据的并行处理方法 |
CN109683018B (zh) * | 2018-12-24 | 2020-12-01 | 电子科技大学 | 一种实时多帧频域数据的并行处理方法 |
CN113066249A (zh) * | 2021-03-17 | 2021-07-02 | 成都华日通讯技术股份有限公司 | 基于无线电特征信息提取的无人机监测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102340296B (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102340296B (zh) | 一种基于gpu的高阶数字fir滤波器频域并行处理实现方法 | |
JP6977239B2 (ja) | 行列乗算器 | |
CN106445471A (zh) | 处理器和用于在处理器上执行矩阵乘运算的方法 | |
CN109284822A (zh) | 一种神经网络运算装置及方法 | |
CN104835110B (zh) | 一种基于gpu的异步图数据处理系统 | |
CN102375805B (zh) | 面向向量处理器的基于simd的fft并行计算方法 | |
CN110415157A (zh) | 一种矩阵乘法的计算方法及装置 | |
CN103956991B (zh) | 一种基于cpu/gpu异构平台的fir滤波并行实现方法 | |
CN110460443A (zh) | 椭圆曲线密码的高速点加运算方法和装置 | |
CN112784973A (zh) | 卷积运算电路、装置以及方法 | |
US20160140083A1 (en) | Digital filter device, digital filtering method, and storage medium having digital filter program stored thereon | |
CN109472734A (zh) | 一种基于fpga的目标检测网络及其实现方法 | |
Ortega et al. | Parallelizing AES on multicores and GPUs | |
Frey et al. | Spinning relations: high-speed networks for distributed join processing | |
CN105894440B (zh) | 一种图像多层数据处理方法和装置 | |
CN112559952B (zh) | 基于序列分层的异构众核快速傅里叶变换方法 | |
CN113536228A (zh) | 一种矩阵奇异值分解的fpga加速实现方法 | |
Shahbahrami | Algorithms and architectures for 2D discrete wavelet transform | |
Hu et al. | Data optimization cnn accelerator design on fpga | |
CN106919536B (zh) | 一种应用于三角矩阵与矩阵乘法的加速方法及其加速装置 | |
Ma et al. | Implementation of a digital down converter using graphics processing unit | |
CN107707178A (zh) | 低通滤波器的滤波方法、低通滤波器及伺服驱动器 | |
Anh et al. | Reducing vector I/O for faster GPU sparse matrix-vector multiplication | |
TW202230176A (zh) | 用於處理資料的方法及系統、以及包括合併核心的設備 | |
da Silva et al. | Exploring data streaming to improve 3d FFT implementation on multiple GPUs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131225 Termination date: 20160721 |
|
CF01 | Termination of patent right due to non-payment of annual fee |