CN112991140B

CN112991140B - 一种gpu并行加速的包络对齐快速实现方法

Info

Publication number: CN112991140B
Application number: CN202110200742.9A
Authority: CN
Inventors: 周峰; 袁万里; 刘磊; 白雪茹; 石晓然; 樊伟伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2022-11-18
Anticipated expiration: 2041-02-23
Also published as: CN112991140A

Abstract

本发明涉及雷达信号处理技术领域，公开了一种GPU并行加速的包络对齐快速实现方法，利用GPU强大的硬件性能对累积相邻相关包络对齐算法进行并行优化：首先对观测目标回波距离压缩结果插值处理，选定基准回波包络，利用GPU并行处理架构，同时计算其余回波与基准回波包络之间的相关函数值及偏移值，实现粗对齐；再计算粗对齐后所有回波的平均包络作为基准包络，利用GPU并行计算所有回波与该基准包络的相关函数值及偏移值，实现精对齐；最后迭代精对齐过程，直至迭代终止。本发明在保证包络对齐效果的基础上，大幅降低包络对齐算法的复杂度，提高计算效率，为实时ISAR成像提供支撑。

Description

一种GPU并行加速的包络对齐快速实现方法

技术领域

本发明涉及雷达信号处理技术领域，具体涉及一种GPU并行加速的包络对齐快速实现方法。

背景技术

在ISAR成像过程中，目标的运动包含平动分量和转动分量两部分，转动分量是实现ISAR方位成像的基础，而平动分量则会造成不同回波中目标包络的偏移和初相误差。包络校正是后续初相误差校正和方位成像的前提，常用方法可分为参数化包络对齐方法和非参数化包络对齐方法两类。

参数化方法通常使用高阶多项式建模目标平动分量，通过优化求解多项式参数，实现目标平动分量的精确估计和补偿。但是，当目标做复杂未知运动或雷达测量误差较大时，多项式模型难以准确表征目标平动分量，从而导致参数化方法的性能快速下降。

非参数化方法对目标的运动形式没有要求，因此适用范围更广。在ISAR成像过程中，因为两次回波间相隔时间很短，目标在这样短的时间内姿态变化很小，使得相邻两次回波间的包络相似度极高。因此可以通过搜索相邻两次回波包络间的互相关函数最大时对应的包络偏移量，并使用这个包络偏移量来补偿包络偏移，从而将相邻两次回波对齐。在使用上述相邻相关方法进行包络对齐的过程中，每次补偿的误差会随着回波次数的增多逐渐累积，造成目标包络在距离向发生“漂移”现象。在部分时刻虽然目标姿态变化较小，但可能由于目标几何形状在距离向的投影突变导致某次或某几次回波的包络与其它回波存在明显差异，从而导致搜索到的包络偏移量突变，使得回波出现“突跳”现象。为了克服回波“漂移”与“突跳”现象，有学者提出不只使用前一次回波，而是使用前面所有已对齐回波的加权和与未对齐的第一次回波做互相关的累积相邻相关包络对齐法。使用累积相邻相关包络对齐方法能够明显的降低误差累积和包络突变对包络对齐的影响。然而累积相邻相关包络对齐方法必须串行处理，运算效率较低，不利于实时ISAR成像，使得算法应用具有一定的局限性。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种GPU并行加速的包络对齐快速实现方法，通过对传统包络对齐算法的改进，充分利用GPU并行计算架构，在保证包络对齐效果的基础上，大幅降低包络对齐算法的复杂度，提高计算效率，为实时ISAR成像提供支撑。

为了达到上述目的，本发明采用以下技术方案予以实现。

一种GPU并行加速的包络对齐快速实现方法，距离压缩后的目标回波数据从计算机内存传输至GPU进行包络对齐处理，所述实现方法包括以下步骤：

步骤1，设距离压缩后的目标回波数据的方位向回波次数为M，距离向采样点数为N；则在GPU全局内存分别开辟大小为M×N×2×4个字节的数据存储区D，大小为k×M×N×2×4个字节的数据存储区S和H；D内存储距离压缩后的目标回波数据，即距离图像域数据Y；

其中，GPU中以float类型进行运算；k为插值倍数；

步骤2，对距离图像域数据Y进行IFFT变换得到对应距离数据域数据，再对该距离数据域数据进行插值处理和FFT变换，得到差值后的回波数据Z，采用绝对值核函数计算Z的绝对值，得到数据Q，Q存储于存储区S；

其中，GPU中每个block对应处理一次回波数据，M个block并行进行数据处理，每个block内至少包含N个线程，最多可分配1024个线程；

步骤3，随机选取数据Q的某次回波作为包络粗对齐的基准包络，利用GPU并行架构，将其余回波Q_i和基准包络并行执行互相关操作，计算每次回波对应的包络偏移量；据此对每次回波Y_i进行平移校正处理，得到校正后回波数据，并以此更新存储区D内的存储数据Y，实现其余回波与基准包络的粗对齐；

步骤4，对校正后的回波数据进行插值处理和FFT，得到校正后距离图像域回波数据，即新的Z值，并以该新的Z值更新存储区S内的存储数据Q；每个block并行对新的Z值求绝对值，得到数据F，将其存储于存储区H；

步骤5，对当前包络对齐结果F沿方位向求平均，得到平均包络，并将其作为新的基准包络，计算该新的基准包络的熵值；GPU并行对粗校准后的每次回波数据F_i分别与新的基准包络进行互相关操作，并计算新的包络偏移量；据此对每次回波数据Y_i进行当前次的包络平移校正，得到当前次校正回波数据。

步骤6，对当前次校正回波数据依次进行插值处理和FFT，得到当前次校正的距离图像域回波数据，并以该数据更新存储区S的存储数据Z；每个block并行对该数据Z求绝对值，以求得的当前次绝对值更新数据F；

步骤7，迭代执行步骤5-步骤6，直至满足迭代终止条件，对迭代终止时的回波数据Y做距离向的FFT，转换成距离图像域数据，即为包络对齐之后的数据；将其输出观测目标的回波包络对齐结果。

与现有技术相比，本发明的有益效果为：

本发明方法通过GPU的并行处理特点，实现雷达回波数据的快速包络对齐，其并行加速主要从两方面实现：一是减少迭代次数；当本发明最后一步的迭代为n次时，程序中所有的block都能同时并行执行，加上粗对齐一次计算，则本发明方法中迭代次数为n+1次。而CPU中去除第一次基准回波后串行迭代次数为M-1次。而在实际应用中，n一般为3～5次即可实现包络的精确对齐，远小于基于CPU的包络对齐方法所需的M-1次迭代，M一般取上百次。二是从每次迭代中，本发明都充分使用GPU强大的并行能力，对加法、乘法等基础操作实行并行化处理。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1为传统的累积相邻相关包络对齐方法实现流程图；

图2为本发明方法实现概要流程图；

图3为本发明中基于GPU并行加速的包络对齐快速实现方法具体流程图；

图4为本发明实施例雅克-42飞机实测回波数据包络对齐前后的结果图；其中，(a)为包络对齐前雅克-42飞机实测回波数据距离压缩结果图，(b)为本发明使用基于GPU并行加速的包络对齐快速实现方法对雅克-42飞机实测回波数据进行包络对齐后的结果图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域的技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。

参考图2和图3，本发明提供的一种GPU并行加速的包络对齐快速实现方法，包括以下步骤：

本发明GPU的待处理的输入数据为距离压缩后的目标回波数据，是从雷达系统的计算机内存传输至GPU进行包络对齐处理。

具体地，本发明在GPU中均以float类型进行运算，在GPU全局内存区开辟大小为M×N×2×4个字节的数据存储区D，用于存储从计算机内存传输到GPU的回波数据和从GPU传输回计算机内存的数据，开辟大小为k×M×N×2×4个字节的数据存储区S和H，用于存储距离压缩结果k倍插值后的数据，将计算机内存中目标距离压缩后回波数据传输到存储空间D中，将目标距离压缩结果用Y表示，其为距离图像域数据。

(2.1)由于GPU中block(块)数目通常远远大于回波数目M，因此，GPU中每个block内部仅需处理1次回波。而单个block中可以分配的最大线程数为1024，理论上单个block内的所有线程可以同时执行，并且所有的block也可以同时执行，所以先将Y做IFFT，变换到距离数据域，再通过并行的方法赋值给X，存储在数据存储区S，具体过程如下：

Y＝CUDA_IFFT(Y)

X＝[0 Y 0]

其中，0是行数为M、列数为(k-1)×N/2的全零矩阵，此时X为插值后的数据，为距离数据域，X的行数为M、列数为k×N，CUDA_IFFT算法为基于GPU的IFFT并行计算方法，此算法中的旋转变量是通过CPU计算传输到GPU内存的；

(2.2)本步骤中，每个block内部计算1次回波的FFT，所有block以及各个block内部的所有线程同时执行，其中在第i个block计算第i条回波的FFT，得到数据Z，该数据存储在数据存储区S，将X覆盖，Z为距离图像域数据：

Z＝CUDA_FFT(X)

(2.3)按照步骤(2.2)数据分配方法并行计算Z的绝对值，得到数据Q，Q为距离图像域，该数据存储在数据存储区S，将Z覆盖。

(3.1)随机选取数据Q的某次回波作为包络粗对齐的基准包络，本实施例选取Q的第一次回波作为基准包络；然后在GPU全局内存区开辟大小为k×N×2×4个字节的数据存储区G，用于存储基准包络向量J；

(3.2)通常GPU中包含的block数目远远大于回波数，因此可在M-1个block中同时计算各次回波与基准回波的互相关矩阵C_i：

C_i＝CUDA_IFFT(CUDA_FFT(Q_i)·(CUDA_FFT(J))^*)；

其中，Q_i为第i次回波数据向量，长度为k×N，C_i为长度为k×N的向量；()^*表示矩阵的共轭转置；

(3.3)在GPU中所有block同时求解各个block中C_i最大值所在的位置，即为第i次包络偏移量p；

所述C_i最大值所在的位置的求解过程为：将每次回波数据的N个采样点数据逐级切分成N/2组，每组包含两个数据采样点；然后，采用GPU的每个block中的N/2个线程并行计算每组中的最大值，按以上过程再对N/2个最大值结果进行两两分组，求每组的最大值，以此类推，直至剩余一组，该组的最大值即为C_i最大值所在的位置。以上求解过程利用分治算法思想。

(3.4)每个block中的所有线程并行以p为参量构造补偿相位，对Y进行平移校正，并覆盖原始的距离压缩回波数据，具体如下所示：

其中，Y(i，j)为第i次回波的第j个采样点数据。

(4.1)对校正后的回波数据Y进行数据插值，并采用步骤(2.2)并行计算方法对插值后数据计算FFT，得到新的Z(存储在数据存储区S，覆盖步骤(2.3)中的Q)，Z为距离图像域：

Z＝CUDA_FFT([0 Y 0])

(4.2)所有block同时对Z中的各次回波求绝对值，得到数据F(存储在数据存储区H)。

本步骤中，每个block内处理的是相同距离单元内的数据。

(5.1)将步骤4的粗对准处理结果即数据F的相同距离单元内的数据拷贝到对应block的共享内存，例如，将第0个距离单元内的数据拷贝到第0个block的共享内存内部，将第1个距离单元内的数据拷贝到第1个block的共享内存内部，以此类推；

(5.2)利用GPU的并行架构，对每个block内的相同距离单元数据求均值，并按照block的顺序存储在向量J中，作为新的基准回波，并采用熵值核函数求解J的熵s；

(5.3)利用(M-1)个block同时计算(M-1)次回波与J的互相关向量C_i：

C_i＝CUDA_IFFT(CUDA_FFT(F_i)·(CUDA_FFT(J))^*)；

其中，F_i为第i次回波数据向量，C_i是长度为k×N的向量；

(5.4)按照步骤(3.3)，在GPU中利用分治算法求解C_i中最大值所在的位置，即为第i次包络偏移量p；

(5.5)每个block中所有线程同时以p为参数构造补偿相位，对数据Y进行平移校正，并覆盖原始的压缩回波数据，具体如下所示：

其中，Y(i，j)为第i次回波第j个采样点数据。

(6.1)对当前次校正回波数据，即当前的数据Y进行插值处理，并采用(2.2)并行计算方法对插值后数据进行FFT变换，得到Z，Z为距离图像域：

Z＝CUDA_FFT([0 Y 0])

(6.2)所有block同时对各block中分配的Z中回波数据求绝对值，得到数据F(存储在数据存储区H)。

迭代执行步骤5-步骤6，直至满足迭代终止条件，对迭代终止时的回波数据Y做距离向的FFT，转换成距离图像域数据，即为包络对齐之后的数据；将其输出观测目标的回波包络对齐结果。

迭代终止条件为：相邻两次迭代的基准包络J的熵值差小于预先设定的门限值δ或者迭代次数大于预设最大迭代次数n；n为小于10的整数。

对迭代终止时的回波数据Y做距离向的FFT，将Y转换成距离图像域数据，即为包络对齐之后的数据；将其传输到计算机内存中。完成包络对齐过程。

本发明方法使用GPU对传统累积相邻相关包络对齐算法进行改进，在小转角的情况下，散射中心在相干积累时间内不会发生越距离单元徙动，且包络之间的相似性很高，此时可将整块数据直接应用上述步骤实现包络对齐；当转角比较大时，散射中心的各向异性变化和越距离单元徙动现象的存在，使得相干积累时间内不同时间段回波包络的相似性下降，此时可采用将回波数据分段的方法，每段回波数据中目标转角较小，将每段数据分别应用本发明所述步骤进行包络并行实现，最后再以第一段对齐后的回波数据平均包络为基础，将其余各段数据的平均包络和基准包络分别求互相关，求得其余各段数据与基准包络的偏移量，构造补偿相位，对不同段回波数据的包络进行整体校正，实现包络的精确对齐。

本发明基于GPU并行加速的包络对齐快速实现方法，利用GPU强大的硬件性能对累积相邻相关包络对齐算法进行并行优化：首先对观测目标回波距离压缩结果插值处理；然后选定基准回波包络，利用GPU并行处理架构，同时计算其余回波与基准回波包络之间的相关函数值，计算偏移值，实现其余回波与基准回波的粗对齐；再计算粗对齐后所有回波的平均包络作为基准包络，利用GPU并行处理架构，同时计算所有回波与该基准包络的相关函数值，计算偏移值，实现观测目标回波的进一步对齐；最后迭代上述过程，直至满足迭代终止条件，输出观测目标回波包络对齐结果。

本发明充分利用GPU的并行处理特点对包络对齐处理过程进行加速。主要从两方面进行：一是减少迭代次数，例如当步骤4迭代n次时，假定程序中所有的block都能同时并行执行，加上粗对齐一次计算，则本发明方法中迭代次数为n+1次，而CPU中去除第一次基准回波后串行迭代次数为M-1次，在实际应用中，n一般为3～5次即可实现包络的精确对齐，远小于基于CPU的包络对齐方法所需的M-1次迭代，M一般为上百次；二是从每次迭代中，都充分使用GPU强大的并行能力，对加法、乘法等基础操作实行并行化处理。

仿真实验

下面通过点目标仿真成像实验进一步说明本发明的有效性。

实验一：

1、仿真条件

数据：通过抽取和插值等处理准备不同距离点数和回波次数的雅克-42飞机实测数据，距离点数依次为128、256和512，方位回波次数依次为128、256和512；

参数：设定最大迭代次数5次，插值倍数为8倍，门限值为10^-3；

硬件：GPU型号GTX2080Ti，CUDA平台最多支持分配2147483647个block。

2、仿真实验内容及结果分析

基于雅克-42飞机的回波数据，具体如图4(a)所示。分别采用基于CPU的累积相邻相关包络对齐方法(如图1所示)及本发明方法进行包络对齐操作(如图3所示)，采用本发明的包络对齐方法得到的结果图如图4(b)所示，从图4中可以看出，本发明对回波数据中的平动分量进行了准确校正。对比两种实现方式的用时情况，结果如表1所示。

表1基于CPU的累积相邻相关包络对齐方法和本发明方法用时对比表

表1为使用本发明GPU并行加速的包络对齐快速实现方法和传统累积相邻相关包络对齐方法运行时间及加速比对比表；从表1中可以看出，本发明所使用的方法可以获得较高的加速比，当方位向点数为128和256时，随着距离向点数变化，加速比稳步提升，当方位向点数大于等于512时，随着距离向点数变化，加速比提升显著。当距离向点数不变，方位向变化时，加速比提升显著。

虽然，本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种GPU并行加速的包络对齐快速实现方法，距离压缩后的目标回波数据从计算机内存传输至GPU进行包络对齐处理，其特征在于，包括以下步骤：

其中，GPU中以float类型进行运算；k为插值倍数；

其中，GPU中每个block对应处理一次回波数据，M个block并行进行数据处理，每个block内至少包含N个线程；

步骤5，对当前包络对齐结果F沿方位向求平均，得到平均包络，并将其作为新的基准包络，计算该新的基准包络的熵值；GPU并行对粗校准后的每次回波数据F_i分别与新的基准包络进行互相关操作，并计算新的包络偏移量；据此对每次回波数据Y_i进行当前次的包络平移校正，得到当前次校正回波数据；

2.根据权利要求1所述的GPU并行加速的包络对齐快速实现方法，其特征在于，当目标转角较小时，即散射中心在相干积累时间内不发生越距离单元徙动，将整块回波数据直接应用于上述步骤1-7实现包络对齐；当目标转角较大时，即散射中心存在各向异性变化或越距离单元徙动现象，将回波数据先进行分段处理，使每段回波数据中目标的转角较小，再将每段数据分别应用于上述步骤1-7进行包络对齐。

3.根据权利要求1所述的GPU并行加速的包络对齐快速实现方法，其特征在于，所述对距离图像域数据Y进行IFFT变换得到对应距离数据域数据，再对该距离数据域数据进行插值处理和FFT变换，具体步骤为：

(2.1)GPU中block数目大于回波数目M，单个block内的所有线程并行执行；先将Y做IFFT，变换到距离数据域，再通过并行赋值给X，存储在数据存储区S，具体过程如下：

Y＝CUDA_IFFT(Y)

X＝[0 Y 0]

其中，0是行数为M、列数为(k-1)×N/2的全零矩阵，X为插值后的数据，即距离数据域数据，X的行数为M、列数为k×N；CUDA_IFFT为基于GPU的IFFT并行计算方法；

(2.2)所有block以及各个block内部的所有线程并行执行，其中在第i个block计算第i次回波的FFT，得到数据Z，该数据存储在数据存储区S，将X覆盖，Z为距离图像域数据：

Z＝CUDA_FFT(X)。

4.根据权利要求3所述的GPU并行加速的包络对齐快速实现方法，其特征在于，所述利用GPU并行架构，将其余回波Q_i和基准包络并行执行互相关操作，计算每次回波对应的包络偏移量，具体为：

(3.1)GPU中的(M-1)个block并行计算(M-1)次回波与基准回波的互相关矩阵C_i：

C_i＝CUDA_IFFT(CUDA_FFT(Q_i)·(CUDA_FFT(J))^*)；

其中，Q_i为第i次回波数据向量，长度为k×N；C_i为长度为k×N的向量；()^*表示矩阵的共轭转置；

(3.2)在GPU中所有block并行求解各个block中C_i最大值所在的位置，即为第i次包络偏移量p；

所述C_i最大值所在的位置的求解过程为：将每次回波数据的N个采样点数据逐级切分成N/2组，每组包含两个数据采样点；然后，采用GPU的每个block中的N/2个线程并行计算每组中的最大值，按以上过程再对N/2个最大值结果进行两两分组，求每组的最大值，以此类推，直至剩余一组，该组的最大值即为C_i最大值所在的位置。

5.根据权利要求4所述的GPU并行加速的包络对齐快速实现方法，其特征在于，所述对每次回波Y_i进行平移校正处理，具体为：

每个block中的所有线程并行以p为参量构造补偿相位，对Y进行平移校正，并覆盖原始的距离压缩回波数据，具体补偿更新公式：

其中，Y(i，j)为第i次回波的第j个采样点数据，()^*表示矩阵的共轭转置。

6.根据权利要求5所述的GPU并行加速的包络对齐快速实现方法，其特征在于，所述对当前包络对齐结果F沿方位向求平均，得到平均包络，并将其作为新的基准包络，计算该新的基准包络的熵值，具体步骤为：

(5.1)将步骤4的粗对准处理结果即数据F的相同距离单元内的数据拷贝到对应block的共享内存；

(5.2)利用GPU的并行架构，对每个block内的相同距离单元数据求均值，并按照block的顺序存储在向量J中，作为新的基准回波，并采用熵值核函数求解J的熵值。

7.根据权利要求6所述的GPU并行加速的包络对齐快速实现方法，其特征在于，所述GPU并行对粗校准后的每次回波数据F_i分别与新的基准包络进行互相关操作，并计算新的包络偏移量，具体为：

(5.3)利用(M-1)个block并行计算(M-1)次回波与J的互相关向量C_i：

C_i＝CUDA_IFFT(CUDA_FFT(F_i)·(CUDA_FFT(J))^*)；

其中，F_i为粗校准后的第i次回波数据向量，C_i是长度为k×N的向量；()^*表示矩阵的共轭转置；

(5.4)按照步骤(3.2)，在GPU中利用分治算法求解C_i中最大值所在的位置，即为第i次包络偏移量p；

(5.5)每个block中所有线程并行以p为参数构造补偿相位，对步骤3更新后的数据Y进行平移校正，并覆盖原始的压缩回波数据。

8.根据权利要求1所述的GPU并行加速的包络对齐快速实现方法，其特征在于，所述迭代终止条件为：相邻两次迭代的基准包络J的熵值差小于预先设定的门限值δ或者迭代次数大于预设最大迭代次数n；n为小于10的整数，δ为常数。