CN111552559A

CN111552559A - 基于gpu的宽带信号ddc系统设计方法

Info

Publication number: CN111552559A
Application number: CN202010267001.8A
Authority: CN
Inventors: 刘宝勇; 刘凯; 孙霄杰; 郜婉军
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-18
Anticipated expiration: 2040-04-07
Also published as: CN111552559B

Abstract

本发明公开了一种基于GPU的宽带信号DDC系统设计方法，旨在利用GPU的轻量级线程和内核来并行执行复杂的数字信号处理功能，主要完成两项任务：数字信道化和采样率更改。以多相滤波数字信道化方法为方案主体，具备对宽带采集信号的群路化处理功能，DDC采样数据分多路并行输出。并结合高效重采样方法，使系统匹配任意输出采样率。本方法借助GPU强大的通用计算能力，挖掘算法的并行度，通过CUDA编程将算法移植到GPU异构平台上，并采用内存优化、线程组织调度优化、流处理架构等异构并行优化手段，有效的降低算法复杂度，使方案具备高吞吐量和高灵活性，适应实时处理的环境。

Description

基于GPU的宽带信号DDC系统设计方法

技术领域

本发明涉及一种基于GPU的宽带信号DDC系统设计方法。旨在利用GPU的轻量级线程和内核来并行执行复杂的信号处理功能。

背景技术

数字下变频(Digital down conversion，DDC)是软件无线电技术中连接ADC转换模块和数字化处理系统的重要模块，主要目的是经过数字混频将AD采集的中频数字信号频谱下变频到基带信号，然后完成抽取滤波恢复原始信号，解决了高速采样和低速数据不匹配的问题。DDC是A/D采样后首先要完成的处理工作，是系统中数字处理运算量最大的部分，有时会遇到采样率达到GHz的情况，最高工作速率只能达到几百兆赫兹的传统FPGA处理器很难处理高速率的数据，且存在灵活性不高、扩展性不强的缺点。图形处理单元(Graphicsprocessing unit，GPU)具有大量的并行运算资源，天然适用于异构并行计算。而且利用当代GPU平台不断增长的并行性和越发强大的通用计算能力，将数字信号处理模型映射到CPU-GPU异构模型上以实现更高的吞吐量的成果也越来越多。

由于信道化接收机能够在相同的到达时间处理多个信号并具有较高的拦截概率，成为了国内外研究的热门话题。信道化是在分离多个用户或频分复用(Frequencydivision multiplexing，FDM)方案中常见的信道的过程，即给定更宽的系统带宽和其中的许多信道，每个信道都占用自己的带宽，这是共享无线电频谱的一种常见方法，并且在包括射电天文学，广播电视等应用领域中都可以找到。信道化接收器有3个基本任务：下变频、滤波和变采样，通过过滤相邻通道，这些任务可以独立或共同完成。现代信道化器使用多速率信号处理技术同时完成不同的任务，例如使用多相滤波器组(polyphase filter bank，PFB)技术，该方法允许使用内积(Inner product，IP)和快速傅里叶变换(Fast Fouriertransform，FFT)操作的多合一解决方案，这种系统的输入是FDM信号，输出是TDM信号。对于基带处理，通常必须在固定时钟和某个所需的采样率之间进行采样率转换，这样可以从一个公共的固定时钟中适应许多不同的数据速率。

发明内容

针对上述现有技术中存在的缺陷，本发明摒弃基于传统FPGA处理硬件的方案，提供一种基于GPU的宽带信号DDC系统设计方法，利用GPU的轻量级线程和内核来并行执行复杂的信号处理功能，结合数字信道化算法和重采样算法完成方案设计。本发明的宽带信号DDC系统设计主要完成两项任务：数字信道化和采样率更改，这对于无线通信系统的大多数空中接口都是必需的。

为达到上述目的，本发明采用如下技术方案：

一种基于GPU的宽带信号DDC系统设计方法，具体步骤如下：

1)接收采样信号，采样率为f_s，按照固定时长打包为sr1；

2)预处理得到中心频率f_c，将采样信号以f_c为目标进行下变频，得到信号为sd1；

3)将信号sd1插值I倍抽取D倍，进行信号采样率转换匹配，得到采样率f_s*I/D的基带信号为src1，并结合方法并行度设计CUDA实现；

4)将信号src1通过Q路多相滤波信道化器，完成多信号并行处理，采样率变为(f_s*I/D)/Q，得到信号spcz1，其中包含Q路基带窄带信号为so1～soQ，并结合方法并行度设计CUDA实现；

5)通过CUDA编程将设计方法移植到CPU-GPU异构平台上执行，并采取内存优化、线程组织优化、流处理架构等并行优化方法，基于软件的系统设计具备高灵活性和高吞吐量。

与现有技术相比，本发明具有如下的优点：

本发明方法通过CUDA编程将设计方法移植到GPU异构平台上，并采用内存优化、线程组织优化、流处理架构等并行优化手段，有效的降低计算复杂度。具备对宽带采集信号的群路化处理功能，采样数据分多路并行输出，可以匹配任意输出采样率，并利用GPU平台得以高效实现。

本发明方法通过CUDA线程索引传入的输入流来消除串行算法中的二维缓冲区，该输入流以一维数组的形式呈现给GPU，这消除了执行2D移位寄存所需的额外缓冲内存和数据指针，以执行矢量化处理。此外将计算数据从GPU全局内存传输进共享内存中，利用合并访存的方式进行访问，并建立GPU常量内存存储多相结构滤波系数组等常量资源，以获得最轻量级的访存延迟。

本发明方法引入了为GPU中的线程组分配子通道的概念，通过对block块内线程分组的方式实现多任务协同处理，保证线程资源的高活跃率。信道化算法中以子信道映射线程组，从而允许跨多个块并行处理多个通道，实现可扩展的高吞吐量并行接收器。重采样算法中以每个点的卷积操作集映射线程组。此种设计模式具备极高灵活性和可扩展性，应对不同的GPU平台都能发挥出程序的最高性能。

实际中单路的数据往往不能使GPU满负载，通常使用CUDA流来进行多路数据的并行。深度优先模式使工作队列中相邻任务来自同一个流，后面紧邻任务被阻塞，因此流之间只有两个流相接部分才能得到并行。广度优先模式使工作队列中相邻任务来自不同流，任何相邻的任务之间不会再有依赖关系，得以实现高度并发的内核执行。

本发明利用GPU的轻量级线程和内核来并行执行复杂的信号处理功能。利用GPU设计前端接收器，并使其尽可能靠近天线，从而可以作为GPU前端(GFE)接收器实现加速提高性能，减轻射频前端(RF)的负担。我们寻求在硬件上执行最少的处理，并在基于软件的GPU上运行最大的功能。

附图说明

图1是宽带信号DDC系统设计流程图；

图2是多相滤波数字信道化原理框图；

图3是block单点映射线程组织形式；

图4是block多点映射线程组织形式。

图5是深度优先模式下的工作队列；

图6是深度优先模式下的时序；

图7是广度优先模式下的工作队列；

图8是广度优先模式下的时序。

具体实施方式

以下结合附图说明对本发明的实施例作进一步详细描述，但本实施例并不用于限制本发明，凡是采用本发明的相似结构及其相似变化，均应列入本发明的保护范围。

如图1所示，一种基于GPU的宽带信号DDC系统设计方法，具体步骤如下：

1)接收采样信号，采样率为f_s，按照固定时长打包为sr1；

所述步骤具体如下：接收光纤传来的采样信号，采样率为f_s，信号为Int16实信号，按照固定时长打包信号为sr1，数据长度为ILEN，各包之间持续接收。这里采用双缓存的方式进行文件的传输管理，即在主存端开辟两块缓存池用作文件存取，一块缓存进行读文件的同时，另一块缓存将存好的数据用来计算，以这种方式实现数据读取和计算的异步进行，达到持续接收包并隐藏数据传输时间的目的。

所述步骤具体如下：变频的主要目的是经过数字混频将AD采集的中频数字信号频谱下变频到基带信号，然后完成抽取滤波恢复原始信号，系统设计在重采样方法之前进行变频，是为了防止变换采样率之后丢失想要的信息。变频方法为：

后续通过在重采样方法中引入变频系数来实现此处变频功能。

3)将信号sd1插值I倍抽取D倍，进行信号采样率转换匹配，得到采样率f_s*I/D的基带信号为src1，长度为ILEN/D*I；

所述步骤具体如下：在数字信道化方法之前进行重采样，一方面是降低信号速率，减轻信道化部分处理数据流压力。另一方面是为了匹配输出采样率，满足实际需求。系统设计中的高效重采样方法为：

其中，X[]为输入信号，h[]为滤波系数，N为滤波阶数，I为插值倍数，D为抽取倍数，记

Q＝N/I，记((Dn))_I＝<Dn>_I表示取余。分析发现：

1、第n个输出X_ID(n)是将X(m)从

开始的连贯的Q个信号值

分别与

的Q个系数相乘后相加得到的。

2、加权系数

是周期性时变的，全部系数集有I个子集，每个子集例如g₁(m)中共有Q个系数，可以将其存成常量二维数组。计算第n个输出时，用的是第<n>_I个系数集，也就是说系数集一共有I个

即g₀(m)、g₁(m)……、g_I-1(m)。因此当计算标号n＝i*I～(i+1)*I-1,(i＝1,2,3,…)的输出时，所用的系数集与计算标号n＝1,2,3,…,I-1的输出用的系数集相同，都是g_n(m),(m＝0,1,…,Q-1).

将变频方法整合进重采样方法中有：

本设计以上述方法将下变频和重采样整合为重采样模块，并使用SRC内核实完成重采样方法的CUDA实现，设计中以各个点之间的卷积计算的独立性做为切入点，以每个点的计算集为单位映射到GPU的线程组。在CPU主存端按照特定的顺序将原始滤波器系数映射成二维常量数组，以实现计算时对缓冲区的连续性访问，达成提升性能的目的。同时在每次的点积计算时乘以一个变频系数，以这种方式集成变频的功能，SRC内核输出特定采样率的低速数据流，供信道化模块直接使用。

4)将信号src1通过Q路多相滤波信道化器，完成多信号并行处理，采样率变为(f_s*I/D)/Q，得到信号spcz1，其中包含Q路子信号；

所述步骤具体如下：通过信道化处理方法可以得到Q路基带信号，同时完成同信道数的下采样，可供后续数字化系统直接利用。如图2所示，多相滤波数字信道化方法原理框图中，数据换向器的作用是将输入数据连续地按列加载到M个子信道中。使用多相滤波器组(PFB)意味着具有并行布置的滤波器，不同子滤波器负责信号频谱的不同输出，作为多速率滤波器的多相滤波器同时执行采样率变化和低通滤波。后续操作是信道数点数的FFT，用来消除引用带通滤波器带来的相位偏移。这里说明具体实施过程和参数设计：假设原型低通滤波器的阶数为N，滤波器是一个数值固定的1*N数组，将一维滤波器数组映射成二维矩阵，这个二维矩阵就是多相滤波器组，它有Q行，Q为信道数，每行有M个系数，即子滤波器阶数。为了实现输入数据和滤波器的卷积操作，会生成一个和多相滤波器组矩阵大小相同的输入信号数据缓存区。按照从下到上的方式将输入数据以每Q个数为一组加载入数据缓存区，接着将数据缓存区中的输入信号数据和多相滤波器组数据按行进行内积，将每行的内积结果存储成1*Q数组做为一次输出结果。后续操作是将这个数组进行数据交换和进行Q点FFT变换。

本设计多相滤波IP内核和CUFFT内核在GPU上实现数字信道化方法。信道化方法中以每个子信道映射线程组，从而允许跨多个块并行处理多个通道，实现可扩展的高吞吐量并行接收器。对于IP计算，不创建任何缓冲区，而是使用巧妙的索引方案生成用于计算的一维输入数组。将对应的PFB子集分配给一个用于计算IP的块，该块是使用寄存器和块内共享内存SM执行的。通过将滤波器系数放在常量内存CM中以快速只读广播到多个块，可以进一步优化IP计算内核。IP操作完成后，将使用复杂的数据格式将数据写回到全局内存GM中并呈现给CUFFT内核，在每次fft计算中调整输出顺序之后，CUFFT可以为系统提供所有TDM合并写输出。

5)通过CUDA编程将设计方法移植到CPU-GPU异构平台上执行，并采取内存优化、线程组织优化、流处理架构等并行优化方法，基于软件的系统方法具备高灵活性和高吞吐量。

所述步骤具体如下：本设计采用内存优化、线程组织优化、流处理架构等并行优化手段，有效的降低计算复杂度，适应实时处理的环境。

1、针对内存方面，计算复杂度主要体现在对IP数据的非连续索引，这里通过巧妙CUDA线程索引传入的输入流来消除串行算法中的二维缓冲区，该输入流以一维数组的形式呈现给GPU，这消除了执行2D移位寄存所需的缓冲内存和数据指针等额外资源，而是执行矢量化处理。此外将计算数据从GPU全局内存传输进共享内存中，利用合并访存的方式进行访问，并建立GPU常量内存CM存储多相结构滤波系数组等常量资源，以获得最轻量级的访存延迟。

2、针对线程组织方面，在多相滤波IP内核中计算矩阵行内积的操作时，考虑到计算每位乘法之间是彼此独立的，可以利用GPU轻量线程资源并行化联动处理，但累加之间却存在依赖关系，无法直接并行化计算。如果直接使用各个线程进行累加，则会产生竞争冒险。竞争冒险是指多线程的环境下，由于线程间先后顺序导致的无法预测的结果。这里选择采用规约方法解决，规约求和实例中，对于长度为n的累加，首先启动n/2个线程，每个线程处理2个数据得到一个中间结果，然后重复这一操作，每次操作有效线程数减半，直到只剩下一个元素。可以知道串行执行时间为O(n)，而规约为O(log n)。

为了充分利用GPU资源，更加需要对线程分配方式进行设计。计内积长度为L，如果每个线程块一次跳动只处理一次行内积，如图3所示，那么有效线程数最多为L且只取决于L。以L长64为例，当block维度设置为512时，每个线程块用64个线程去做内积运算，其他448个线程什么都不做，所以有效线程数仅为64。虽然为程序分配了足够多的线程资源，但这只是虚假的满载，此时有效线程利用率仅为12.5％，需要去解决虚假满载的问题。

所以一个线程块不能在一次跳动只处理一个点，必须在一次跳动的过程中处理多个点，如图4所示，才能打破虚假满载的壁垒。假设一个block有n个线程，这里将每L个划分为一组，要求n为L的整数倍，每个线程按顺序都有一个索引ID号tid。那么可以让每一个线程组以tid/L做为组的唯一索引ID，以tid％L为每个线程的唯一组内索引ID，利用这两个ID去协调计算资源保证计算准确性，实现一个block块联动处理多个行内积，这样使得block内所有线程保持忙碌，达成真正意义上的设备满载。由于规约方法对每个点开辟共享内存，那么此方下，一个线程块内将开辟n/L个长度为L的共享内存，这是原来的n/L倍。同时，如果直接整个块规约只能得到一个结果，所以要利用线程组ID和组内线程ID实现整块共享内存内部分块规约，结合同步操作syncthread得到正确的n/L个结果。实施步骤如下：

a.将一个block映射多个计算输出的点，为每个block分配pid个线程，并将每个block按照长度L分成k个线程组，ID为k_i的线程组负责处理输入x_i对应的L次内积乘法，并将其记录至共享内存缓存tmp[k_i*L,k_i*L+L-1]的位置。

b.将共享内存tmp[0,k*L-1]规约计算出k个结果，作为一个block的输出结果。

c.为grid分配n个block，以grid一次处理的点数n*k为单位步长进行数据偏移，循环进行以上步骤，直到遍历完成所有点。

3、针对流处理方面，实际中单路数据往往不能使GPU满负载，通常使用CUDA流来进行多路数据的并行，流是GPU上的工作队列，同一流中的任务有序，流之间无序，在执行时流中的各个任务根据被调用的顺序动态的映射到硬件工作队列当中去。理论上当资源足够时，流之间可以实现并行。深度优先模式使工作队列中相邻任务来自同一个流，后面紧邻任务被阻塞，因此流之间只有两个流相接部分才能得到并行。广度优先模式使工作队列中相邻任务来自不同流，任何相邻的任务之间不会再有依赖关系，得以实现高度并发的内核执行。

假设对于两块内存A，B，各有k个任务，记做A_i，B_i。深度优先的工作队列：A₁ A₂…A_kB₁ B₂…B_k如图5所示，执行时序如图6所示，发现只有A_k与B₁得到了并行，这是因为同一个流之间存在依赖关系，CUDA执行A₁时，等到A₁返回再执行A₂，相反的，不同流之间不存在依赖关系，CUDA分配A_k后立即返回执行B₁，从而使得A_k与B₁并行。广度优先的工作队列：A₁ B₁ A₂B₂…A_k B_k如图7所示，执行时序如图8所示，此时相邻的任务间不存在依赖关系，CUDA执行完上一个任务后立即返回执行新的任务，并且任何任务只被同一流之前的任务所阻塞，保证了流内部的依赖性。

Claims

1.一种基于GPU的宽带信号DDC系统设计方法，其特征在于，利用GPU的轻量级线程和内核来并行执行复杂的信号处理功能，主要完成两项任务：数字信道化和采样率更改；具体步骤如下：

1)接收采样信号，采样率为f_s，按照固定时长打包为sr1；