CN111368252A

CN111368252A - 脉冲星相干消色散系统及方法

Info

Publication number: CN111368252A
Application number: CN202010130257.4A
Authority: CN
Inventors: 托乎提努尔; 王娜; 张海龙; 王杰
Original assignee: Xinjiang Astronomical Observatory of CAS
Current assignee: Xinjiang Astronomical Observatory of CAS
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03

Abstract

一种相干消色散的方法，包括以下步骤：读取脉冲星基带数据；对主机端CPU和设备端GPU变量和参数进行初始化；CPU和GPU的数据处理相对独立，通过指针传递方式，交换数据；将CPU内存的数据复制到GPU显存；设置及初始化FFT plan；计算FFT算法；CPU启动GPU kernel函数，分配GPU多线程任务，在频率域，计算脉冲星信号与星际介质函数chirp的乘法运算，在设备端GPU的多线程执行相干消色散处理算法；将GPU Kernel处理的结果转换成时域信号，设置1D逆IFFT plan；将处理结果复制到CPU，并且数据重叠的部分去掉；写入文件，如果所有数据的消色散处理结束，释放GPU设备端开辟的内存资源。本发明解决了由于相干消色散算法计算量巨大在CPU平台上无法实时计算的问题。

Description

脉冲星相干消色散系统及方法

技术领域

本发明涉脉冲星信号观测及搜寻技术领域，尤其涉及一种脉冲星相干消色散系统及方法。

背景技术

脉冲星是一种快速自转的中子星，具有非常高的密度和稳定的周期，它在绕自身旋转轴高速旋转的同时，电磁波沿磁极方向向外发射，当电磁波扫过地球时，地球上的射电望远镜会接收到周期性的脉冲信号。脉冲星信号在宇宙空间传播过程中遇到星际介质的影响。由于这些星际介质色散的影响，不同频率的无线电波的传播速度不同，高频传播的比低频快，因此脉冲星信号到达射电望远镜的时间有延迟，增加带宽会导致脉冲加宽，脉冲能量分散而使脉冲轮廓变形，灵敏度下降，甚至会将脉冲信号平消失。

由于脉冲星信号极其微弱，为了观测到清晰可见的脉冲轮廓需要对脉冲星信号进行色散处理。脉冲星消色散技术可以有效提高天文观测的灵敏度，提升观测系统的脉冲星识别和检测能力。近年来脉冲星科学研究和观测对消色散技术提出了更高的要求，具备超带宽、高速信号处理能力的消色散系统将是未来射电脉冲星观测设备发展的必然趋势，并且相关技术遇到很大挑战。现有的相干消色散处理技术具有如下缺陷：

(1)脉冲星相干消色散方法本身计算量巨大，包含FFT、IFFT及chirp函数乘法运算，现有的消色散处理方法运算效率相对较低，耗费时间长，无法满足高速实时的脉冲星观测需求。目前，普遍使用的相干消色散处理在计算机上通过串行的方式实现，因为使用CPU线程，无法进行高度并行化，运行效率低，速度慢。

(2)观测设备性能的提升迅速扩大了射电天文可观测天体信号的频率范围，随着观测带宽的不断增加，分辨率也越来越高，导致产生的数据量非常庞大，现有的相干消色散技术无法快速实时的处理海量数据。例如，超宽带接收机、多波束接收机及PAF接收机等前沿的观测设备产生的数据量非常巨大，通常是TB量级的，这种大数据的实时处理对相干消色散技术和色散处理算法提出了前所未有的挑战。

(3)由于现有的CPU相干消色散方法速度慢、实时数据处理性能较差等问题，无法满足脉冲星信号的搜寻需求。因此，脉冲星搜寻一般采用计算量较小的非相干消色散处理方法，但是这种方法无法完全消除脉冲星色散效应，一定程度上影响信号信噪比。

发明内容

有鉴于此，本发明的主要目的在于提供一种脉冲星相干消色散系统及方法，以期至少部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的一方面，提供了一种相干消色散的方法，包括以下步骤：

步骤1：读取脉冲星基带数据；对主机端CPU和设备端GPU变量和参数进行初始化；

步骤2：CPU和GPU的数据处理相对独立，通过指针传递方式，交换数据；

步骤3：将CPU内存的数据复制到GPU显存；

步骤4：设置及初始化FFT plan，使用cufftPlan1d(&plan,fftsize,CUFFT_C2C,BATCH)设置1D复数到复数FFT算法执行规则；

步骤5：计算FFT算法；

步骤6：CPU启动GPU kernel函数，分配GPU多线程任务，在频率域，计算脉冲星信号与星际介质函数chirp的乘法运算，在设备端GPU的多线程执行相干消色散处理算法；

步骤7：将GPU Kernel处理的结果转换成时域信号，设置1D逆IFFT plan，即计算逆快速傅里叶变换；

步骤8：将处理结果复制到CPU，并且数据重叠的部分去掉；

步骤9：写入文件，如果所有数据的消色散处理结束，释放GPU设备端开辟的内存资源。

其中，所述步骤1中脉冲星基带数据的格式为psrdada，文件包含头部信息和数据部分；

所述主机端CPU和设备端GPU变量和参数包括观测频率、带宽及DM值。

其中，所述步骤2中主机端CPU使用cudaMalloc函数，分配GPU内存空间。

其中，所述步骤3中GPU显存和CPU内存之间的数据传输，通过C和CUDA API的内存管理函数来实现的。

其中，所述步骤5中的FFT运算中N点复数采样的FFT中重叠n_DM点采样，FFT的运算使用CUDA并行架构的cuFFT library，其函数是一个全局函数，在整个程序中有效，并且只有Host能够调用该函数。

其中，所述FFT的运算无法在GPU上执行整个运算，完成cuFFT函数调用后，控制权将返回主机。

其中，所述步骤6中在GPU中计算星际介质逆传输函数，与CPU算法不同之处在于，FFT信号与H^-1(f)的复数乘法在GPU中进行独立并行计算，节省时间以及消除内存访问的延迟。

其中，所述步骤7中利用cuFFT的cufftExecC2C()函数并行高速实现快速傅里叶逆变换算法，将GPU Kernel处理的结果转换成时域信号

作为本发明的另一方面，还提供了一种相干消色散的系统，包括CPU和GPU，软件开发环境包括CUDA和Linux操作系统。

其中，所述CPU选用Intel Xeon E5-1620 CPU，所述GPU选用NVIDIA GPU，所述CUDA选用CUDA 10.0，所述Linux操作系统选用Ubuntu 18.04。

基于上述技术方案可知，本发明的脉冲星相干消色散系统及方法相对于现有技术至少具有如下有益效果之一：

(1)本发明解决了由于相干消色散算法计算量巨大在CPU平台上无法实时计算的问题。GPU消色散算法的性能获得很高的加速比，算法的计算性能得到了大幅提升，充分发挥了GPU并行计算平台的巨大优势，满足海量天文数据的实时消色散处理需求。GPU相干消色散处理方法易于GPU集群扩展，容易实现海量数据的实时处理，在脉冲星研究领域发展前景非常广阔。

(2)实现了CUDA多线程任务分配、管理及通信，高效利用GPU的多层次存储结构，提高了GPU资源利用率，进而减少了计算时间；实现了多任务并行处理，大幅提升了脉冲星信号消色散处理计算性能，提高了处理速度，达到了海量数据的实时相干消色散处理要求。

(3)本发明提出的脉冲星相干系统及方法有效解决脉冲星信号色散处理问题，能够快速获取脉冲星信号的真实轮廓，很大程度上提高脉冲星信号信噪比及脉冲星检测能力，可以用于快速射电爆、脉冲星搜寻，获取更高的信噪比。

附图说明

图1是本发明实施例利用GPU相干消色散的方法流程图；

图2是本发明实施例中重叠的FFT的示意图；

图3是本发明实施例中的Kernel线程布局图；

图4是本发明实施例中两种GPU平台TITAN V和Tesla k20消耗时间对比图；

图5是本发明实施例中GPU相干消色散加速比的示意图；

图6是本发明实施例相干消色散处理结果的示意图。

具体实施方式

本发明提供了一种脉冲星相干消色散系统及方法，高速消除脉冲星信号的色散效应，有效提高了消色散系统数据处理速度，优化CPU+GPU平台上的计算任务分配，充分发挥了GPU计算平台的优势。本发明实现的相干消色散系统采用了Intel Xeon E5-1620 CPU及NVIDIA GPU，软件开发环境使用了CUDA 10.0和Linux操作系统(Ubuntu 18.04)。

具体的，本发明公开了一种相干消色散的方法，如图1所示，包括以下步骤：

步骤3：将CPU内存的数据复制到GPU显存；

步骤5：计算FFT算法；

步骤8：将处理结果复制到CPU，并且数据重叠的部分去掉；

本发明还公开了一种相干消色散的系统，包括CPU和GPU，软件开发环境包括CUDA和Linux操作系统。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

相干消色散直接在基带信号中进行色散处理，计算量很大，实现起来相对复杂，首先读取脉冲星基带数据，并计算星际介质的逆传输滤波(chirp)函数，然后将读取的数据与星际阶级的逆传输函数进行卷积运算。但是，时域的星际介质滤波器实现计算量大，并且复杂，因此，通过FFT变换将时域信号转换成频域，然后与chirp函数进行乘法运算，最终把处理结果恢复原来的时域信号。采用FFT方式进行相干消色散时，每次取N个复数采样，并且n_DM采样是相互重叠的，消色散处理完之后，把重叠部分去掉，具体如图2所示。

GPU程序中，Kernel函数利用GPU多线程结构，并行、高速实现复数的乘法运算。cuFFT加速FFT计算并把处理结果写入到GPU的全局内存中，然后Host启动GPU线程，分配每个线程的计算任务。GPU启动的线程数量等于FFT的长度，先计算Chrip函数，然后计算FFT结果和Chirp函数的乘法运算。最终将结果写入到GPU的全局内存。GPU线程通过线程id的索引来读写全局内存的数据。复数乘法运算在GPU的寄存器中完成，从而减小全局内存的访问延迟。GPU启用的kernel线程布局如图3所示，线程和线程块都是2D布局，GPU kernel启用的线程索引为：

idx＝blockDim.x*gridDim.x*ix+ix.

其中，ix、iy分别表示为线程的x、y轴方向坐标。

ix＝blockIdx.x×blockDim.x+threadIdx.x

iy＝blockIdx.y×blockDim.y+threadIdx.y

CUDA kernel程序中，每个线程负责一个复数采样点的乘法运算。

FFT计算是影响相干消色散算法加速性能的主要因素，FFT点数增加，算法计算量迅速提高，难以实现数据的实时处理。CPU和GPU的相干消色散处理时间如表1所示。和CPU算法比，GPU并行算法得到了几十倍的加速比，具有显著的加速优势。

表1是GPU和CPU的相干消色散处理时间。由于FFT的计算量巨大，随着FFT点数增加，CPU、K20及TITAN V的数据处理时间也会增加，GPU的计算时间远远小于CPU。

表1相干消色散处理时间

(单位：ms)

FFT length	CPU	Tesla K20	TITAN V
				2<sup>10</sup>	0.223	0.798	0.136
2<sup>13</sup>	1.474	0.933	0.221
				2<sup>16</sup>	11.633	1.582	0.873
2<sup>19</sup>	152.008	7.703	6.255
				2<sup>22</sup>	1400.051	56.642	48.800
2<sup>25</sup>	13152.976	549.455	483.201

图4表示了两种GPU平台的计算时间，从图中可以看出，TITAN V和Tesla K20的相干消色散处理时间相差不大，FFT点数超过2²²之后，消耗时间曲线迅速上升，需要更多的时间来完成数据处理。

图5显示了GPU相干消色散算法的加速比，当FFT点数达到2²²时，GPU并行算法得到了最高加速比，约为CPU的28倍。TITAN V的加速比明显高于Tesla K20的加速比，如果处理的数据较大，TITAN V的加速性能更加显著。

本发明提出的GPU相干消色散方法一般用于处理非相干消色散无法消除的色散效应，如果把相干消色散运行在多个通道数据上，随着通道数量的增加GPU算法可以获得更好的加速比。对脉冲星PSR B1937+21进行相干消色散处理结果如图6所示，采用相干消色散方法理论上可得到脉冲星的真实轮廓，能够提高脉冲星信号的信噪比。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种相干消色散的方法，其特征在于，包括以下步骤：

步骤3：将CPU内存的数据复制到GPU显存；

步骤5：计算FFT算法；

步骤8：将处理结果复制到CPU，并且数据重叠的部分去掉；

2.根据权利要求1所述的方法，其特征在于，所述步骤1中脉冲星基带数据的格式为psrdada，文件包含头部信息和数据部分；

3.根据权利要求1所述的方法，其特征在于，所述步骤2中主机端CPU使用cudaMalloc函数，分配GPU内存空间。

4.根据权利要求1所述的方法，其特征在于，所述步骤3中GPU显存和CPU内存之间的数据传输，通过C和CUDA API的内存管理函数来实现的。

5.根据权利要求1所述的方法，其特征在于，所述步骤5中的FFT运算中N点复数采样的FFT中重叠n_DM点采样，FFT的运算使用CUDA并行架构的cuFFT library，其函数是一个全局函数，在整个程序中有效，并且只有Host能够调用该函数。

6.根据权利要求5所述的方法，其特征在于，所述FFT的运算无法在GPU上执行整个运算，完成cuFFT函数调用后，控制权将返回主机。

7.根据权利要求1所述的方法，其特征在于，所述步骤6中在GPU中计算星际介质逆传输函数，与CPU算法不同之处在于，FFT信号与H^-1(f)的复数乘法在GPU中进行独立并行计算，节省时间以及消除内存访问的延迟。

8.根据权利要求1所述的方法，其特征在于，所述步骤7中利用cuFFT的cufftExecC2C()函数并行高速实现快速傅里叶逆变换算法，将GPU Kernel处理的结果转换成时域信号。

9.一种采用如权利要求1-8任一所述的方法的相干消色散的系统，其特征在于，包括CPU和GPU，软件开发环境包括CUDA和Linux操作系统。

10.根据权利要求9所述的相干消色散的系统，其特征在于，所述CPU选用Intel XeonE5-1620 CPU，所述GPU选用NVIDIA GPU，所述CUDA选用CUDA 10.0，所述Linux操作系统选用Ubuntu 18.04。