CN113359134B

CN113359134B - 基于嵌入式gpu的sar数据分布式实时成像处理系统及方法

Info

Publication number: CN113359134B
Application number: CN202110632051.6A
Authority: CN
Inventors: 杨涛; 许庆波; 孟凡腾; 孙光才
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2024-01-16
Anticipated expiration: 2041-06-07
Also published as: CN113359134A

Abstract

本发明公开了一种基于嵌入式GPU的SAR数据分布式实时成像处理系统及方法，所述系统包括一个主嵌入式GPU和数个从嵌入式GPU，所述主嵌入式GPU与FPGA模块I连接，从嵌入式GPU分别与一个FPGA模块II连接，所述FPGA模块I与FPGA模块II上均挂载有DDR3模块，FPGA模块I还分别与数个FPGA模块II连接；本发明能够加快SAR数据的处理速度，提高SAR数据成像的实时性。

Description

基于嵌入式GPU的SAR数据分布式实时成像处理系统及方法

技术领域

本发明属于雷达成像和信号处理技术领域，涉及一种基于嵌入式GPU的SAR数据分布式实时成像处理系统及方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar，SAR)是一种高分辨力的成像雷达，通过平台运动形成虚拟雷达孔径提高方位向分辨率，其本身的工作特性决定了SAR可以穿透云层和雾霾，不受天气状况的影响，SAR可以全天时、全天候的对地面进行观测，目前已广泛应用于军事和民用领域。

近年来，随着分辨率和测绘带宽的不断提高，SAR卫星获取的回波数据量急剧增长，给SAR数据处理带来巨大压力；传统的SAR数据处理是将原始数据下传地面进行处理，这种数据处理方式存在卫星全轨利用率低、数据传输压力大、系统反应时间长和地面接收系统复杂等问题，在轨SAR数据实时处理可以有效解决这一问题。

目前的在轨SAR数据实时处理通常采用“FPGA+DSP”硬件平台实现，但随着合成孔径雷达中对数字信号处理的要求越来越高，这类硬件平台也存在许多不足之处，比如系统结构复杂、算法实现难度大、硬件成本高、开发周期长等。

近年来，GPU并行计算技术高速发展，其强大的并行计算能力使得采用计算机GPU板卡能够极大地提高SAR成像算法的实时性，然而计算机的GPU板卡体积功耗都比较大，无法应用于SAR实时成像处理中；随着计算硬件的快速发展，嵌入式GPU的出现为许多实时数据处理提供了新平台；嵌入式GPU具有集成度高、成本低、功耗低、性能强等优势，而且基于CUDA的并行计算架构大大降低了在GPU上进行程序开发的难度，嵌入式GPU非常适合应用在SAR实时成像中，但单个嵌入式GPU计算资源有限，对于数据量较大的SAR回波数据处理比较困难。

发明内容

为了达到上述目的，本发明实施例提出了一种基于嵌入式GPU的SAR数据分布式实时成像处理系统，通过分布式架构将大数据量分割，由数个嵌入式GPU异步并行处理，有效解决单个嵌入式GPU无法处理大数据量SAR数据的问题，使数据处理速度得到极大提升。

本发明实施例还提供一种基于嵌入式GPU的SAR数据分布式实时成像处理方法，提高卫星全轨利用率，解决卫星、飞机等载荷有限的问题，使用嵌入式GPU提升分布式系统的性能功耗比，缩短成像处理时间，实现SAR数据在轨实时成像处理，具有低成本、性能功耗比低和复杂度低等优点。

本发明所采用的技术方案是，基于嵌入式GPU的SAR数据分布式实时成像处理系统，包括一个主嵌入式GPU和数个从嵌入式GPU，所述主嵌入式GPU与FPGA模块I连接，所述从嵌入式GPU分别与一个FPGA模块II连接，所述FPGA模块I分别与各FPGA模块II连接，所述FPGA模块I、FPGA模块II还分别与相应的DDR3模块连接；

所述主嵌入式GPU用于进行SAR数据转置、分割、成像处理和拼接；

所述从嵌入式GPU用于进行SAR数据的成像处理；

所述FPGA模块I和FPGA模块II用于主嵌入式GPU与从嵌入式GPU间的数据传输；

所述DDR3模块用于缓存FPGA模块I和FPGA模块II发送和接收的数据。

进一步的，所述从嵌入式GPU的数量为正奇数。

基于嵌入式GPU的SAR数据分布式实时成像处理方法，包括以下步骤：

步骤1，主嵌入式GPU和从嵌入式GPU分别使用统一内存寻址方式为SAR原始数据开辟内存空间，主嵌入式GPU将按距离向存储的SAR原始数据转置为按方位向存储，然后沿距离向进行数据分割，保留第一份数据，将其余数据分发给各从嵌入式GPU；

步骤2，主嵌入式GPU和从嵌入式GPU分别对数据进行去除距离弯曲处理；

步骤3，各从嵌入式GPU将去除距离弯曲的数据发送给主嵌入式GPU，主嵌入式GPU将数据按顺序拼接后，转置为按距离向排列，并按方位向对数据进行分割，保留第一份数据，将其余数据分发给各从嵌入式GPU；

步骤4，主嵌入式GPU和从嵌入式GPU分别对数据进行距离压缩和距离徙动矫正；

步骤5，各从嵌入式GPU将处理数据发送给主嵌入式GPU进行顺序拼接，而后将拼接数据转置为按方位向排列，并按距离向进行数据分割，保留第一份数据，将其余数据分发给各从嵌入式GPU；

步骤6，主嵌入式GPU和从嵌入式GPU分别对数据进行剩余相位补偿和方位压缩处理，各从嵌入式GPU将数据回传给主嵌入式GPU，主嵌入式GPU将数据按方位向拼接得到最终成像处理数据。

进一步的，步骤1中所述主嵌入式GPU进行数据转置时，主嵌入式GPU和从嵌入式GPU分别异步进行SAR系统参数初始化。

进一步的，所述步骤2中去除距离弯曲的过程如下：

主嵌入式GPU和从嵌入式GPU分别设置数据搬移核函数，对SAR数据进行一维平移操作，使用cuFFT库对平移数据进行一维方位向傅里叶变换，再进行一维平移操作；

设置第一核函数计算点目标数据对应的CS二次相位因子，将其与点目标数据点乘得到去距离弯曲数据。

进一步的，所述第一核函数其中/>为距离向时间，f_a为方位向多普勒，R_s为场景中心与雷达的距离，j为虚数单位，γ_e(f_a；R_B)为调频函数，a(f_a)为CS因子，R(f_a；R_s)为斜距与多普勒之间的关系，c为光速。

进一步的，所述步骤4中距离压缩和距离徙动矫正过程如下：

主嵌入式GPU和从嵌入式GPU分别调用cuFFT库对SAR数据进行一维距离向傅里叶变换，并设置第二核函数，并行计算每个点目标数据对应的相位因子，将其与点目标数据相乘；

再次调用cuFFT库对SAR数据进行一维距离向傅里叶逆变换，设置归一化处理核函数对其进行归一化处理。

进一步的，所述第二核函数

f_r为距离向多普勒，f_a为方位向多普勒，R_s为场景中心与雷达的距离，j为虚数单位，γ_e(f_a；R_s)为调频率随f_a和R_B变化的关系，R_B为雷达与参考点的距离，a(f_a)为CS因子，c为光速。

进一步的，所述步骤6中剩余相位补偿和方位压缩处理的过程如下：

主嵌入式GPU和从嵌入式GPU分别设置第三核函数，并行计算各点目标数据对应的用于剩余相位补偿和方位压缩的相位因子，将其与对应点目标数据相乘；

调用cuFFT库和归一化处理核函数，对SAR数据进行一维方位向傅里叶逆变换和归一化处理。

进一步的，所述第三核函数为距离向时间，f_a为方位向多普勒，R_B为雷达与参考点的距离，j为虚数单位，f_aM为位于载机正前方的点目标的回波信号的多普勒，/>λ为雷达载频波长，V为载机的飞行速度，Θ_Δ(f_a；R_B)为CS操作引起的剩余相位。

本发明的有益效果是：1、本发明采用嵌入式GPU作为SAR数据处理的硬件平台，并充分利用CUDA库，发挥GPU并行计算的优势，减少算法执行的时间，满足SAR数据在轨实时处理的要求，且嵌入式GPU相较于其他硬件平台具有集成度高、成本低、功耗低、性能强等优势；

2、本发明采用分布式架构，可以很好地解决卫星全轨道利用率低和单个嵌入式GPU计算资源有限，无法完成大点数SAR数据处理的问题，分布式架构可以将大数据量的SAR数据分割成嵌入式GPU易于处理的数据量，且在空间上可以互不干扰地并行处理数据，在时间上数据处理速度增加了数倍，可以实现更大的SAR数据计算处理能力，使得并行化处理技术得到极大提升；

3、本发明所述嵌入式GPU的编程语言为CUDA C语言，是对C语言的扩展，具有开发难度低、开发周期短等优点；

4、本发明针对嵌入式GPU的物理结构，采用统一内存寻址方式为数据开辟内存空间，避免使用cudaMemcpy函数在内存中进行无意义的数据复制操作，使用零拷贝内存的方式禁用L2缓存，即节约了内存空间又节省了数据传输耗时。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的系统框图。

图2是SAR数据成像处理的流程图。

图3是本发明的数据处理流程图，其中(a)是去距离弯曲阶段的数据转置分割图，(b)是距离压缩、距离徙动矫正阶段的数据转置分割图，(c)是方位压缩、剩余相位补偿阶段的数据转置分割图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

嵌入式GPU采用单片机系统设计的SoC芯片，集成了ARM结构处理器和GPU，GPU作为协同处理器与CPU协同合作完成数据处理，其中CPU的运算核心很少，因此负责一些逻辑复杂的串行程序，GPU拥有更多的运算核心，十分适合计算数据密集的并行任务，CUDA的编程模型为异构模型，需要CPU和GPU协同工作，一般将CPU称作主机端，将GPU称作设备端，CUDA程序中包含的主机程序和设备程序分别在CPU和GPU上运行。

实施例

如图1所示，基于嵌入式GPU的SAR数据分布式实时成像处理系统，包括一块主嵌入式GPU和三块从嵌入式GPU，主嵌入式GPU通过PCIe连接有FPGA模块I，三块从嵌入式GPU分别通过PCIe连接有FPGA模块II，FPGA模块I通过四通道SFP接口(QSFP)连接光纤与FPGA模块II连接，FPGA模块I、FPGA模块II均与DDR3模块连接，其中主嵌入式GPU作为主控单元，用于进行数据处理、数据分割和拼接，从嵌入式GPU作为协同处理单元，与主嵌入式GPU配合完成整个SAR数据的成像处理，FPGA模块I和FPGA模块II用于为主嵌入式GPU、从嵌入式GPU提供数据传输，DDR3模块用于缓存FPGA模块I和FPGA模块II发送和接收的数据。

现有技术使用传统计算机的GPU板卡对SAR数据进行处理，传统计算机GPU板卡的功耗约为嵌入式GPU板卡的几十倍，无法应用于星载SAR、弹载SAR等实际场景中，且传统计算机GPU板卡与CPU的异构计算架构为离散架构，GPU与CPU有各自独立的内存，两者之间需使用PCIe总线进行数据传输，在SAR数据量较大时数据传输耗时巨大，只能应用于SAR数据下传地面处理；本发明使用的嵌入式GPU与CPU的异构计算架构属于集成架构，即GPU和CPU集成在一个芯片上，两者共享同一物理存储空间，无需使用PCIe总线进行数据传输，使GPU与CPU的数据传输耗时为0，也无需在GPU和CPU上分别开辟重复储存空间，大大节约了嵌入式GPU的内存。

本发明所述SAR数据分布式实时成像处理系统，将嵌入式GPU作为主控单元，从嵌入式GPU作为协同处理单元，体积小、功耗低，非常适合在有低功耗、小尺寸的设备需求的实际场景中进行应用，且将分布式的各嵌入式GPU分布于多个卫星等设备中，可以有效解决卫星全轨利用率低的问题。

本发明在数据分发过程中主嵌入式GPU通过PCIe将SAR数据发送给FPGA模块I，FPGA模块I将数据缓存到其挂载的DDR3模块中，再通过QSFP将数据转发给各FPGA模块II，各FPGA模块II将数据缓存到其挂载的DDR3模块中，再通过PCIe将数据发送给各从嵌入式GPU，数据回送过程为数据分发过程的逆过程。

如图2所示为SAR数据成像处理的流程图，线频调变标(CS)算法适用于SAR数据的大距离徙动高分辨率成像处理，且该算法不需要插值处理，仅通过复数乘和傅里叶变换/傅里叶逆变换就可以完成精确成像处理，极大地降低了运算量，同时其对每个点目标数据的处理是完全独立的，适合使用拥有上百个核心的嵌入式GPU进行并行计算。

如图3所示，基于嵌入式GPU的SAR数据分布式实时成像处理方法，具体包括以下步骤：

步骤S1，主嵌入式GPU和从嵌入式GPU在主机端分别使用统一内存寻址(UnifiedMemory)方式为SAR原始数据开辟内存空间，即采用CUDA库中的cudaMallocManaged函数为数据开辟内存空间，用于存储SAR原始数据及主嵌入式GPU/从嵌入式GPU计算所需的数据，原始数据默认按距离向连续存储在主嵌入式GPU的内部LPDDR4中；

步骤S2，如图3中(a)所示，主嵌入式GPU在设备端设置矩阵转置核函数，将按距离向存储的SAR原始数据转置为按方位向进行存储；

步骤S3，主嵌入式GPU和从嵌入式GPU在主机端并行的进行SAR系统参数初始化，主机端和设备端是异步的，即一旦设备端核函数被调用，控制权立即被传回主机端，因此核函数在GPU上运行时，主机端可以执行其他函数对SAR系统参数进行初始化，GPU和CPU同时工作，有效隐藏SAR系统参数初始化耗时；

所述参数包括：光速c、雷达载频波长λ、基带信号的带宽B、采样间隔T_P、雷达发射信号的调频率γ、场景中心与雷达的距离R_s、卫星相对于地面的运行速度v、脉冲重复频率PRF、雷达接收系统的采样频率f_s、雷达与参考点的距离R_B、距离向采样点数N_r、方位向采用点数N_a、天线的有效孔径长度D_a；

步骤S4，主嵌入式GPU在主机端将数据沿距离向分割成四份，分割后的数据在方位向上连续，主嵌入式GPU保留第一份数据，将其余三份数据按顺序通过FPGA模块I、FPGA模块II分发给各从嵌入式GPU；

步骤S5，主嵌入式GPU和从嵌入式GPU均设置数据搬移核函数，异步运行数据搬移核函数对数据进行一维平移操作，将数据均分为左右两份后对调位置，以保证数据在傅里叶变换后零频分量位于频谱中心；

主嵌入式GPU和从嵌入式GPU均使用CUDA中高度优化的cuFFT库异步并行地对数据进行一维方位向傅里叶变换，并在傅里叶变换后调用数据搬移核函数进行一维平移操作；

在主嵌入式GPU和从嵌入式GPU中设置第一核函数，异步计算点目标数据对应的用以改变线调频率尺度的CS二次相位因子，并与对应的点目标数据点乘，将R_B的空变调整为非空变，以去除距离弯曲；

从嵌入式GPU将处理后的数据通过FPGA模块II回传到主嵌入式GPU，主嵌入式GPU将接收的数据按顺序拼接得到完整的去距离弯曲数据；

步骤S6，如图3中(b)所示，主嵌入式GPU调用矩阵转置核函数，将按方位向排列的数据转置为按距离向排列，并将数据按方位向分割成四份，数据在距离向上连续，主嵌入式GPU保留第一份数据，将其余三份数据通过FPGA模块I分发给各从嵌入式GPU；

步骤S7，主嵌入式GPU和从嵌入式GPU分别调用CUDA中高度优化的cuFFT库异步地对数据进行一维距离向傅里叶变换；

并设置第二核函数，并行计算每个点目标所对应的用于距离压缩和距离徙动校正的相位因子，并与对应的点目标数据相乘，完成距离压缩和距离徙动校正；

主嵌入式GPU和从嵌入式GPU再分别调用CUDA中高度优化的cuFFT库异步地对数据进行一维距离向傅里叶逆变换，由于cuFFT库进行傅里叶逆变换时未对结果进行归一化处理，设置归一化处理核函数，将傅里叶逆变换后的数据归一化处理，从嵌入式GPU将归一化后的数据通过FPGA模块II回传到主嵌入式GPU，主嵌入式GPU将数据按顺序拼接后得到距离向处理后的完整数据；

步骤S8，如图3中(c)所示，主嵌入式GPU调用矩阵转置核函数，将按距离向排列的数据转置成按方位向排列，将转置后的数据按距离向分割成四份，自身保留一份后，将其余三份数据通过FPGA模块I分发给各从嵌入式GPU；

步骤S9，主嵌入式GPU和从嵌入式GPU分别设置第三核函数，异步并行地计算每个点目标数据用于补偿剩余相位和方位压缩的相位因子，并与对应的点目标数据相乘，完成剩余相位补偿和方位压缩处理；

主嵌入式GPU和从嵌入式GPU分别调用CUDA中高度优化的cuFFT库异步地对数据进行一维方位向傅里叶逆变换，并调用归一化处理核函数对处理结果进行归一化，调用数据搬移核函数将归一化结果的零频分量搬移到频谱中心，各从嵌入式GPU将处理后的数据经FPGA模块II回传到主嵌入式GPU；

步骤S10，主嵌入式GPU将接收的数据按顺序拼接后，得到最终成像处理数据。

本发明针对多个嵌入式GPU的离散结构，采用Unified Memory进行内存管理，Unified Memory定义一个托管内存空间，内存空间中已分配的空间可以用相同的内存地址(即指针)在CPU和GPU上进行访问，Unified Memory提供了一个“单指针到数据”的模型，在概念上类似于零拷贝内存，但相比于零拷贝内存不会带来系统性能下降，还会避免开辟重复内存，有效节省了嵌入式GPU的内存空间，此外使用Unified Memory能够简化程序代码，提升了代码的可维护性。

本发明在SAR数据处理过程中执行的所有核函数均使用原地存储的方式，即输出结果覆盖输入结果，无需为输出结果单独开辟内存空间，达到内存复用的效果，有效降低了内存占用和内存分配耗时，提高SAR数据的处理速度和效率；本发明使用矩阵转置的方式在处理不用方向上的数据时，将数据按处理方向进行转置使其连续存续，使数据在该方向上可以被连续访问，大大提高了内存访问的效率和数据处理的性能。

优选的，步骤2中矩阵转置核函数具体步骤包括：

步骤21，设置核函数的二维线程块(block.x,block.y)大小为(32，32)，网格(grid.x,grid.y)大小为((Nr+block.x-1)/block.x,(Na+block.y-1)/block.y)；

步骤22，核函数中通过(blockIdx.x×blockDim.x+threadIdx.x,blockIdx.y×blockDim.y+threadIdx.y)建立线程索引映射到矩阵坐标上；

步骤23，设置共享内存，用来缓存整个线程块中的数据，共享内存具有低延迟和大带宽的特点，可以用来加速矩阵转置过程，为避免bank冲突，将共享内存大小设置为[32,(32+1)]，使用__syncthreads()函数进行线程块同步，将整个线程块的数据读取到共享内存中，再将共享内存中的数据按照转置后的索引输出到转置后的矩阵中。

优选的，步骤5中采用CUDA中高度优化的cuFFT库对数据进行一维方位向傅里叶变换，具体步骤包括：

步骤51，创建并配置一个cuFFT plan；

步骤52，使用cufftExecC2C函数执行cuFFT plan，由于算法中需要多次进行傅里叶变换及傅里叶逆变换，因此无需使用cudaFree和cufftDestory函数释放CUDA和cuFFT资源，在算法执行完毕统一进行资源释放，否则需要反复配置cuFFT plan，造成额外的时间开销。

优选的，步骤5中设置第一核函数，具体步骤包括：

步骤53，通过第一核函数计算用以改变线调频率尺度的CS二次相位因子，其中/>为距离向时间，f_a为方位向多普勒，j为虚数单位，γ_e(f_a；R_B)为调频函数，a(f_a)为CS因子，R(f_a；R_s)为斜距与多普勒之间的关系，c为光速；

步骤54，将计算出的CS二次相位因子与点目标数据相乘，得到去距离弯曲的数据。

优选的，步骤7中设置第二核函数，具体步骤包括：

步骤71，计算用于距离压缩和距离徙动校正的相位因子；

通过第二核函数计算出点目标所对应的用于距离压缩和距离徙动校正的相位因子，其中f_r为距离向多普勒，γ_e(f_a；R_s)为调频率随f_a和R_B变化的关系，因为γ_e(f_a；R_B)随R_B变化很小，为简化计算，用R_s替代R_B；

步骤72，将计算出的用于距离压缩和距离徙动校正的相位因子与点目标数据相乘，完成距离压缩和距离徙动校正。

优选的，步骤9中设置第三核函数，具体步骤包括：

步骤91，通过第三核函数计算用于方位压缩和补偿剩余相位的相位因子，其中f_aM为位于载机正前方的点目标的回波信号的多普勒，即最大多普勒，/>λ为雷达载频波长，V为载机的飞行速度，Θ_Δ(f_a；R_B)为CS操作引起的剩余相位；

步骤92，将计算出的用于方位压缩和补偿剩余相位的相位因子与点目标数据相乘，完成方位脉压和剩余相位补偿。

使用多个嵌入式GPU进行计算时，要求各算法的大量计算可以并行且运算之间没有耦合，而部分雷达成像算法无法对数据进行分割处理或是分割处理过程十分复杂，需要主从嵌入式GPU之间频繁通信，耗时严重，且对于不同算法数据分割方式也完全不同，这些都限制了嵌入式GPU在雷达成像算法中的应用，本发明考虑到CS算法流程中各成像步骤对应处理的数据块，避免不必要的数据通信，进行相应的程序优化以保证成像系统的处理速度和实时性，用于星载、机载、弹载等成像领域时还能减少成像系统的体积和负担。

本发明设置一个或多个从嵌入式GPU进行并行计算，使从嵌入式GPU的数量为正奇数，保证主嵌入式GPU和从嵌入式GPU的数量总和为2的倍数，以便能将SAR原始数据均匀分发给各嵌入式GPU；本发明根据线频调变标算法的特点对SAR数据进行分割，SAR原始数据是距离向和方位向的二维数据，但计算机的存储机构本质上是一维连续的，不连续读取数据会严重增加耗时，连续读取数据能加快SAR数据的处理速度；如在进行方位向处理，本发明对数据进行转置使其按方位向排列，分割后的数据在方位向上连续以便处理，本发明通过多次方位向与距离向的转置，使其在该方向数据连续，减少了跳地址读取数据的耗时，使数据读取和处理速度加快。

本发明通过上述步骤使用四个嵌入式GPU对原始数据为16384*16384点的SAR数据进行处理，其中采用的嵌入式GPU平台为NVIDIA Jetson Nano，内存为4GB，拥有128个CUDA核心，功耗为5/10W，上述SAR数据成像耗时为12s左右，与其他平台相比，本发明在低功耗下实现了大数据量的SAR数据成像处理，具有很高的性能功耗比，且耗时更短，实时性更好。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于嵌入式GPU的SAR数据分布式实时成像处理方法，其特征在于，包括以下步骤：

步骤6，主嵌入式GPU和从嵌入式GPU分别对数据进行剩余相位补偿和方位压缩处理，各从嵌入式GPU将数据回传给主嵌入式GPU，主嵌入式GPU将数据按方位向拼接得到最终成像处理数据；

所述步骤2中去除距离弯曲的过程如下：

设置第一核函数计算点目标数据对应的CS二次相位因子，将其与点目标数据点乘得到去距离弯曲数据；

所述步骤4中距离压缩和距离徙动矫正过程如下：

再次调用cuFFT库对SAR数据进行一维距离向傅里叶逆变换，设置归一化处理核函数对其进行归一化处理；

所述步骤6中剩余相位补偿和方位压缩处理的过程如下：

2.根据权利要求1所述的基于嵌入式GPU的SAR数据分布式实时成像处理方法，其特征在于，步骤1中所述主嵌入式GPU进行数据转置时，主嵌入式GPU和从嵌入式GPU分别异步进行SAR系统参数初始化。

3.根据权利要求1所述的基于嵌入式GPU的SAR数据分布式实时成像处理方法，其特征在于，所述第一核函数其中/>为距离向时间，f_a为方位向多普勒，R_s为场景中心与雷达的距离，j为虚数单位，γ_e(f_a；R_B)为调频函数，a(f_a)为CS因子，R(f_a；R_s)为斜距与多普勒之间的关系，c为光速。

4.根据权利要求1所述的基于嵌入式GPU的SAR数据分布式实时成像处理方法，其特征在于，所述第二核函数f_r为距离向多普勒，f_a为方位向多普勒，R_s为场景中心与雷达的距离，j为虚数单位，γ_e(f_a；R_s)为调频率随f_a和R_B变化的关系，R_B为雷达与参考点的距离，a(f_a)为CS因子，c为光速。

5.根据权利要求1所述的基于嵌入式GPU的SAR数据分布式实时成像处理方法，其特征在于，所述第三核函数为距离向时间，f_a为方位向多普勒，R_B为雷达与参考点的距离，j为虚数单位，f_aM为位于载机正前方的点目标的回波信号的多普勒，/>λ为雷达载频波长，V为载机的飞行速度，Θ_Δ(f_a；R_B)为CS操作引起的剩余相位。

6.根据权利要求1所述的基于嵌入式GPU的SAR数据分布式实时成像处理系统，其特征在于，所述从嵌入式GPU的数量为正奇数。