CN112764027A

CN112764027A - 基于cuda的mimo毫米波雷达三维成像方法及系统

Info

Publication number: CN112764027A
Application number: CN202011450836.3A
Authority: CN
Inventors: 陈振洪; 熊娣; 郭洧华; 李文扬; 崔婧
Original assignee: Beijing Institute of Radio Metrology and Measurement
Current assignee: Beijing Institute of Radio Metrology and Measurement
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-05-07
Anticipated expiration: 2040-12-10
Also published as: CN112764027B

Abstract

本发明公开一种基于CUDA的MIMO毫米波雷达三维成像方法及系统，包括：通过MIMO阵列对图像待检测区域进行聚焦区域自动定位处理，所述MIMO阵列由若干边界物理阵列构成，每个边界物理阵列分布物理阵元，物理阵元包括发射阵元与接收阵元，根据待检测区域的范围决定所述边界物理阵列单元的数量；读取MIMO阵列采集的目标数据，采用CUDA并行计算加速所述目标数据，通过多个CUDA kernel功能模块进行处理，将MIMO接收数据导入GPU显存，进行信号处理，本发明减少了冗余计算，保证了高分辨率，并行计算效率极高，且算法中各个信号处理过程都进行了CUDA kernel功能模块化，具有良好的移植性和普适性。

Description

基于CUDA的MIMO毫米波雷达三维成像方法及系统

技术领域

本发明属于雷达技术领域，特别是一种基于CUDA的MIMO毫米波雷达三维成像方法及系统。

背景技术

近距离主动毫米波雷达成像由于具有可穿透衣物、非电离无损人体健康、非接触无感知检测等优势，逐渐成为安全等级需求较高场景下的安检手段发展趋势。近距离主动毫米波雷达成像技术可用来对人体三维成像，并检测手枪、刀具、粉末、液体等多种危险可疑物品。

近年来，国际上已相继研究出一些性能优异的毫米波成像安检技术和系统。美国太平洋西北国家实验室提出的三维全息成像技术和系统(见文献1：Sheen D M,Mcmakin DL,Hall T E.Three-dimensional millimeter-wave imaging for concealed weapondetection.IEEE Transactions on Microwave Theory&Techniques,2001,49(9):1581-1592)是目前安检领域发展较为成熟且应用较为广泛的主流技术，该技术应用于一维线性阵列，配合机械扫描模式构建二维虚拟平面孔径，并且充分利用宽带信号的频率扩展信息，提升了分辨率，达到三维全息成像效果。然而，电扫描配合机械扫描的混合构建二维孔径方式降低了成像安检效率。德国Rohde&Schwarz公司提出一种通过式成像安检方法(见文献2：Frank Gumbmann,Sherif Sayed Ahmed,"Walk through screening with multistaticmmW technology,"Proc.SPIE 9993,Millimetre Wave and Terahertz Sensors andTechnology IX,999306(21October 2016))，该方法应用于电扫描模式二维平面阵列，能够实时采集成像区域内目标信息，但是成像算法过程计算复杂度较高，计算时间较长。麻省理工学院林肯实验室提出一种基于MIMO阵列的快速波数域成像算法(见文献3：W.F.Moulder,J.D.Krieger,J.J.Majewski,C.M.Coldwell,H.T.Nguyen,D.T.,Maurais-Galejs,T.L.Anderson,P.Dufilie,J.S.Herd,“Development of a high-throughput microwaveimaging system for concealed weapons detection,”2016IEEE InternationalSymposium on Phased Array Systems and Technology(PAST),2016)，可利用物理阵元数量较少的稀疏阵列构建大孔径二维虚拟阵列，电扫描模式配合快速傅里叶变换成像方法也提升了安检成像效率，然而想达到较好的实时成像效果，该方法需要进一步优化计算复杂度，且需要结合CUDA并行计算技术提升计算效率。

CUDA是NVIDIA公司研发的CPU+GPU异构模式工作平台，特别适合开展数据并行的计算密集型任务，可用来大为提升雷达成像效率。然而，现有的雷达成像CUDA并行计算技术主要是针对一些传统的特定算法，可移植性不强。此外，对GPU的利用率与计算覆盖率也需要进一步提高，从而达到更优的计算效率。

发明内容

本发明的目的在于提供一种基于CUDA的MIMO毫米波雷达三维成像方法，解决毫米波安检成像计算效率不高的问题。

有鉴于此，本发明提供一种基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于，包括：

通过MIMO阵列对图像待检测区域进行聚焦区域自动定位处理，所述MIMO阵列由若干边界物理阵列构成，每个边界物理阵列分布物理阵元，所述物理阵元包括发射阵元与接收阵元，根据待检测区域的范围决定所述边界物理阵列单元的数量；

读取MIMO阵列采集的目标数据，采用CUDA并行计算加速所述目标数据，所述CUDA并行计算通过多个CUDA kernel功能模块进行处理，将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示。

进一步地，通过MIMO阵列对待检测区域进行聚焦区域自动定位处理，包括：

MIMO稀疏阵列采集目标信号数据；

对所述目标信号数据进行单双基校准得到等效单基收发虚拟阵元接收信号；

在水平向和高度向对所述等效单基收发虚拟阵元接收信号进行二维傅里叶变换；

对变换后的信号进行相位因子补偿，得到补偿信号；

将所述补偿信号进行水平向和高度向的二维傅里叶逆变换，采取聚焦平面自动估计限定需要成像区域的距离向范围；

根据所述距离向范围进行选取区域的宽带信号数据累积拼接。

进一步地，将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示，包括：

首先，初始化MIMO阵列成像的CUDA并行计算技术的参数，将需要用到全局变量参数进行声明；

然后，读取MIMO阵列采集的目标数据到主机内存中进而转存至显存，分配需使用的主机内存及显存、进行成像处理中各个并行算法步骤的流程控制、将成像数据从显存中转出到主机内存并通过OpenCV进行成像展示、释放分配的内存。

本发明的另一目的在于提供一种基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于，包括：

获取多幅图像数据，通过MIMO阵列对各幅图像待检测区域进行聚焦区域自动定位处理，所述MIMO阵列由若干边界物理阵列构成，每个边界物理阵列分布物理阵元，所述物理阵元包括发射阵元与接收阵元，根据待检测区域的范围决定所述边界物理阵列单元的数量；

将多幅图像数据分配至多个GPU，在每个GPU中用CUDA流并行执行子任务，所述用CUDA流并行执行子任务，包括：读取MIMO阵列采集的目标数据，采用CUDA并行计算加速所述目标数据，所述CUDA并行计算通过多个CUDA kernel功能模块进行处理，将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示。

MIMO稀疏阵列采集目标信号数据；

对所述等效单基收发虚拟阵元接收信号进行单双基校准；

在水平向和高度向对所述单双基校准后的等效单基收发虚拟阵元接收信号进行二维傅里叶变换；

对变换后的信号进行相位因子补偿，得到补偿信号；

本发明的还一目的在于提供一种基于CUDA的MIMO毫米波雷达三维成像系统，其特征在于，包括：

定位处理单元，用于通过MIMO阵列对图像待检测区域进行聚焦区域自动定位处理，所述MIMO阵列由若干边界物理阵列构成，每个边界物理阵列分布物理阵元，所述物理阵元包括发射阵元与接收阵元，根据待检测区域的范围决定所述边界物理阵列单元的数量；

并行计算单元，用于读取MIMO阵列采集的目标数据，采用CUDA并行计算加速所述目标数据，所述CUDA并行计算通过多个CUDA kernel功能模块进行处理，将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示。

进一步地，所述并行计算单元，包括：

第一CUDA kernel功能模块，用于MIMO稀疏阵列采集目标信号数据；

第二CUDA kernel功能模块，用于对所述目标信号数据进行单双基校准得到等效单基收发虚拟阵元接收信号；

第三CUDA kernel功能模块，用于对所述等效单基收发虚拟阵元接收信号进行单双基校准；

第四CUDA kernel功能模块，用于在水平向和高度向对所述单双基校准后的等效单基收发虚拟阵元接收信号进行二维傅里叶变换；

第五CUDA kernel功能模块，用于对变换后的信号进行相位因子补偿，得到补偿信号；

第六CUDA kernel功能模块，用于将所述补偿信号进行水平向和高度向的二维傅里叶逆变换，采取聚焦平面自动估计限定需要成像区域的距离向范围；

第七CUDA kernel功能模块，用于根据所述距离向范围进行选取区域的宽带信号数据累积拼接。

本发明实现了以下显著的有益效果：

实现简单，包括：通过MIMO阵列对图像待检测区域进行聚焦区域自动定位处理，所述MIMO阵列由若干边界物理阵列构成，每个边界物理阵列分布物理阵元，所述物理阵元包括发射阵元与接收阵元，根据待检测区域的范围决定所述边界物理阵列单元的数量；读取MIMO阵列采集的目标数据，采用CUDA并行计算加速所述目标数据，所述CUDA并行计算通过多个CUDA kernel功能模块进行处理，将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示。大为减少了冗余计算，且保证了高分辨率，，并行计算效率极高，且算法中各个信号处理过程都进行了CUDA kernel功能模块化，具有良好的移植性和普适性。

附图说明

图1为本发明的基于CUDA的MIMO毫米波雷达三维成像安检场景及天线阵列示意图；

图2是MIMO阵列对目标的探测示意图；

图3是MIMO阵列聚焦区域自动定位快速三维成像计算流程示意图；

图4是CUDA线程层级及相互关系示意图；

图5是MIMO阵列成像的CUDA并行计算技术示意图；

图6为本发明的一种基于CUDA的MIMO毫米波雷达三维成像方法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明，根据下面说明和权利要求书，本发明的优点和特征将更清楚。需要说明的是，附图均采用非常简化的形式且均适用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是，为了清楚地说明本发明的内容，本发明特举多个实施例以进一步阐释本发明的不同实现方式，其中，该多个实施例是列举式而非穷举式。此外，为了说明的简洁，前实施例中已提及的内容往往在后实施例中予以省略，因此，后实施例中未提及的内容可相应参考前实施例。

虽然该发明可以以多种形式的修改和替换来扩展，说明书中也列出了一些具体的实施图例并进行详细阐述。应当理解的是，发明者的出发点不是将该发明限于所阐述的特定实施例，正相反，发明者的出发点在于保护所有给予由本权利声明定义的精神或范围内进行的改进、等效替换和修改。同样的元模块件号码可能被用于所有附图以代表相同的或类似的部分。

请参照图1至图6，本发明提供一种基于CUDA的MIMO毫米波雷达三维成像方法，包括：

步骤S101，通过MIMO阵列对图像待检测区域进行聚焦区域自动定位处理，所述MIMO阵列由若干边界物理阵列构成，每个边界物理阵列分布物理阵元，所述物理阵元包括发射阵元与接收阵元，根据待检测区域的范围决定所述边界物理阵列单元的数量；

步骤S102，读取MIMO阵列采集的目标数据，采用CUDA并行计算加速所述目标数据，所述CUDA并行计算通过多个CUDA kernel功能模块进行处理，将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示。

在一个实施例中，通过MIMO阵列对待检测区域进行聚焦区域自动定位处理，包括：

MIMO稀疏阵列采集目标信号数据；

对变换后的信号进行相位因子补偿，得到补偿信号；

在一个实施例中，将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示，包括：

MIMO稀疏阵列采集目标信号数据；

对所述等效单基收发虚拟阵元接收信号进行单双基校准；

对变换后的信号进行相位因子补偿，得到补偿信号；

本发明的还一目的在于提供一种基于CUDA的MIMO毫米波雷达三维成像系统，包括：

在一个实施例中，所述并行计算单元，包括：

本发明以物理阵元耗费较少、采集数据信息更快、虚拟孔径较大的MIMO阵列为收发天线阵列结构，采取一种聚焦区域自动定位快速三维成像技术，可通过聚焦平面的自动估计限定需要成像区域的范围，减少冗余计算，结合波数域变换、宽带积累层析处理进行快速三维成像。另外，本发明在提出优化快速成像算法的同时，也提出相应的可适用于MIMO成像的CUDA并行计算技术方案，在保证成像高分辨率的同时，大幅提升了安检成像的效率，推动MIMO阵列实时三维成像技术产品化的进程。综上所述，本发明具有以下优势：(1)提出MIMO阵列聚焦区域自动定位快速三维成像技术，相比于现有MIMO主流成像算法大为减少了冗余计算，且保证了高分辨率；(2)提出适用于MIMO阵列成像的CUDA并行计算技术方案，对GPU的利用率和覆盖率几乎达到百分百，并行计算效率极高，且算法中各个信号处理过程都进行了CUDA kernel功能模块化，具有良好的移植性和普适性。

作为具体的实施例，首先，MIMO阵列聚焦区域自动定位快速三维成像技术方法步骤如下：

近距离MIMO毫米波雷达实时三维成像安检场景及天线阵列示意图如图1所示，MIMO毫米波雷达安检设备可以安置在待安检场景中的走廊、入口等位置，待检人员可以非接触无停留无感知地通过安检设备，MIMO雷达系统发射24-32GHz的宽带线性调频信号探测目标，对成像区域采取电扫描模式，扫描时间＜50ms。相邻收发物理阵元间距为10mm，即对应30GHz的1个波长单元1λ，则通过等效相位中心虚拟阵元构建方法得到的相邻虚拟阵元间隔为λ/2，满足奈奎斯特采样定理。

MIMO阵列对目标的探测示意图如图2所示。完整的MIMO阵列系统是由若干边界物理阵列构成，每个边界物理阵列形状为矩形，物理阵元分布在其四条边上，发射阵列位于水平向(x轴)的边上，接收阵列分布在高度向(y轴)的边上。边界物理阵列的数量由实际所需要覆盖的成像范围决定。为了方便，现在对于单个边界物理阵列的信号处理展开研究，假定发射阵元数目为N_T，接收阵元数目为N_R。令天线阵列所在平面为距离向坐标为z₁，设任意发射阵元坐标为(x_T,y_T,z₁)，接收阵元坐标为(x_R,y_R,z₁)，需成像单散射点目标的坐标为(x_c,y_c,z_c)。则对应的接收信号可以表示为

其中，

f(x_c,y_c,z_c)表示信号的反射系数，

k＝2πf/c＝2π/λ表示信号波数，

表示发射阵元和目标之间传播的球面波，

表示由发射阵元和目标之间的相位距离造成的相位延迟，

表示接收阵元和目标之间传播的球面波，

表示由接收阵元和目标之间的相位距离造成的相位延迟。

根据公式(1)，可以看出接收信号中包含由收发阵元与目标之间的相对位移造成的两个延迟相位，为了能够采取适用于单基阵元的球面波—平面波分解转换，下边先采用单双基校准技术构建等效虚拟阵元作为单基收发阵元，然后再进一步开展信号处理。

如图2所示，等效虚拟阵元为发射阵元和接收阵元之间的中间位置等效点(x_v,y_v,z₁)，其中x_v＝(x_T+x_R)/2，y_v＝(y_T+y_R)/2。若存在单基收发阵元位于(x_v,y_v,z₁)处，那么其阵元接收信号为

对比公式(1)和公式(2)，可以通过如下单双基校准过程得到等效单基收发虚拟阵元接收信号为

其中，

公式(3)体现了将双基物理阵元接收信号近似转化为单基虚拟阵元接收信号的单双基校准方法。当发射阵元数目N_T，接收阵元数目为N_R时，可构建的等效虚拟阵元数目为N_TN_R，因此可以知道，使用MIMO阵列构建虚拟阵列可以达到减少物理阵元耗费，增大孔径，从而提升成像性能的效果。但需要注意的是，当收发阵元之间相隔较远时，单双基校准的误差也逐渐变大，因此，在设计物理阵列时要注意合理设计边界物理阵列的边长和每个边的阵元数量，在虚拟孔径和单双基校准精度之间进行折中考虑。

对公式(2)中的球面波指数项采取球面波—平面波分解转换可得

其中，

将公式(4)代入公式(2)中可得

其中，

表示信号反射系数的三维傅里叶变换，

则公式(5)可以表示为

对公式(6)左右两边进行水平向与高度向的二维傅里叶变换可得

将公式(3)代入公式(7)可得

传统波数域成像算法是对公式(8)左右两边进行3维傅里叶逆变换重构出目标信号，而此步骤需要额外的插值操作，耗费较多的计算时间。本发明采用宽带积累层析法可避免插值过程，具体做法是对应于每一个频点ω_i,1≤i≤N_f(N_f为频点数量)，对公式(8)左右两边进行二维傅里叶逆变换，得到对应每一个频点的窄带二维成像，再将所有频点的图像数据累积拼接，完成快速三维成像，可表示为

最后，可通过聚焦平面的自动估计与定位进一步减少宽带积累层析成像的计算量。由于

相当于保留了距离向波数域的信息，先遍历对应ω_i的N_TN_R个虚拟阵元接收信号进行取模操作，再进行全部元素模值的叠加，就得到了对应相应z向波数域的图像数据幅值和。当成像能够聚焦时，图像信号幅度值近似拥有sinc信号包络特征，当散焦时，主瓣宽度会延展，副瓣高度会增加。因此，相比于散焦平面成像信号的累加和，聚焦平面成像信号数据模值的累加和更低。基于此原理，可进行聚焦平面的自动估计，选取正确的聚焦距离值。此外，由于人体及随身携带的物品通常具有一定的距离向范围，因此可在选取好的聚焦距离周围进一步限定成像距离向区域范围，大为减少不必要的冗余计算以及背景噪声等带来的干扰，有效提升成像质量和成像效率。

作为具体的实施例，如图3所示，MIMO阵列聚焦区域自动定位快速三维成像技术方法计算流程概括为以下6步：(1)通过MIMO稀疏阵列采集目标信号数据；(2)通过单双基校准得到等效单基收发虚拟阵元接收信号；(3)在水平向和高度向对等效单基收发虚拟阵元接收信号进行二维傅里叶变换；(4)进行相位因子补偿；(5)进行水平向和高度向的二维傅里叶逆变换，采取聚焦平面自动估计限定需要成像区域的距离向范围；(6)进行选取区域的宽带信号数据累积拼接，完成快速三维成像。

作为具体的实施例，MIMO阵列成像的CUDA并行计算技术，即研究CUDA并行计算方法加速以上提出的MIMO阵列聚焦区域自动定位快速三维成像技术，完成实时安检成像。

然后，MIMO阵列成像的CUDA并行计算技术步骤如下：

CUDA是一种CPU+GPU异构计算架构，能够将CPU与GPU完美的互补使用，利用CPU完成逻辑运算和任务控制功能，利用GPU完成高度密集型的数据并行计算任务。根据CUDA的以上特性，本发明将MIMO阵列聚焦区域自动定位快速三维成像技术的CUDA架构设计为2部分：(1)算法流程控制由CPU完成；(2)上述成像过程中主要的6个步骤均由CUDA kernel函数完成，在GPU中并行实现。虽然CUDA提供一种联合使用CPU与GPU的高速并行计算方案，但是如果在CPU内存与GPU显存之间存在多次、大量的数据传输，会极大地影响算法的效率。本发明提供的CUDA并行计算方案只需要两次CPU内存与GPU显存之间的目标数据传输：在算法开始时将MIMO接收数据导入GPU显存、以及成像结束后将成像数据导出到CPU内存以通过OpenCV进行成像展示。综上，本发明能够完全的利用CPU和GPU的计算优势，最优化两者间的内存传输，具有极高的运算效率。

首先，初始化MIMO阵列成像的CUDA并行计算技术的参数，将需要用到全局变量参数在.h头文件中声明，包括：MIMO雷达的带宽、最小频率、最大频率，频率点数、频率步进、圆周率常数、毫米波传播速度、毫米波波长、水平方向物理阵元(发射阵元)数目N_T、高度方向物理阵元(接收阵元)数目N_R，虚拟阵元数目N_TN_R。

在声明完所需变量参数后，进行逻辑控制CPU流程的设计，CPU需控制的流程主要包括：读取MIMO阵列采集的目标数据到主机内存中进而转存至显存，分配需使用的主机内存及显存、进行成像处理中各个并行算法步骤的流程控制、对信号处理模块计时监测、将成像数据从显存中转出到主机内存并通过OpenCV进行成像展示、释放分配的内存。

成像处理的各个步骤都在GPU中通过CUDA kernel功能模块并行计算完成。CUDAkernel函数在主机中由__global__声明，在GPU中执行并行计算，使用时需要用<<<grid,block>>>指定并行运算线程数量。首先介绍grid和block的含义，如图4所示，kernel在GPU上执行时会启动调配的线程，任意kernel启动调配的线程称为网格(grid)，每个grid上的所有线程共享一致的全局内存，grid称为kernel中线程结构的第一层次，grid又可被分为很多线程块(block)，block是kernel中线程结构的第二层次，每个block是一个线程(thread)群组。同一个block中的所有线程可以通过共享内存(shared memory)进行通信以及同步，不同block之间的线程却不具备这个优势。CUDA kernel函数的设计理念就是根据需要处理的数据量大小合理分配grid和block的参数值，达到最大并行化计算的目的，同时灵活运用片上内存(比如共享内存)提升内存访问速率。

在处理MIMO阵列接收数据前，通过第1个CUDA kernel功能模块先行计算成像算法需要用到的毫米波信号相关中间参数，如毫米波波数，水平向、高度向、距离向波数步进等。线程网格grid可定义为1，由于需计算的步进等参数与频率采样点数息息相关，所以线程块block可定义为频点数量N_f(即每个block内的线程数量为N_f)。这里特别注意，根据CUDAblock内的线程数量取值要求及CUDA中最小硬件执行单元thread warp的执行条件，为了便于CUDA的并行计算，在设计系统平台时，频点数量N_f设计成32的倍数最佳。那么，每个线程都会执行计算参数的CUDA kernel函数，所有线程并行执行。

第2个CUDA kernel功能模块用于处理成像算法第一个步骤中的MIMO阵列接收信号，进行实虚部提取、降噪等计算。由于数据具有实虚部，grid取值为N_T×N_R×2，对应接收信号的所有虚拟阵元，block取值频点数量N_f。因而采集数据的数量和分配的总线程数量一致，可完全并行处理。处理完的数据可存储至cufftComplex型指针内存空间中，该类型指针对应每一个编号索引包含.x和.y两部分存储空间，可存储同一复数信号的实虚部，便于后续算法步骤进行复数的处理，此外在CUDA中使用cuFFT库进行复数的傅里叶变换及傅里叶逆变换也需要此种类指针。特别地，从本步CUDA kernel功能模块开始，本发明开始采用一种提高并行计算效率的技术—CUDA流(stream)技术。

这里简单介绍下CUDA流的主要用途和提高并行计算效率的原理。在实际安检成像中，往往需要对一个待测人员进行多角度多距离成像，即每个人员成多幅图像。随着需要成像数量的增多，需处理的数据量也会成倍增加，C/C++/MATLAB等传统计算架构中也不得不使用for循环完成计算不同图像的任务，这会较大影响计算效率。幸运的是，CUDA计算架构提供了一种可并行计算多幅图像的技术策略，即CUDA流。CUDA流和CUDA架构的异步并行处理技术联合协同，可完成内存显存间信息传输(通常需通过cudaHostAlloc函数分配页锁定内存配合CUDA流的应用)、不同CUDA kernel函数任务间的并行处理。对本发明的技术应用场景，在显存足够的条件下，可使用cudaStreamCreate函数创建与需成像图像数量相同的CUDA流，CUDA流编号与不同角度距离安检图像编号一一对应，通过CUDA kernel函数调用时的CUDA流指定指令将每一个CUDA kernel函数捆绑在对应CUDA流中，不同CUDA流并行执行，即可实现多幅图像的图像处理并行计算。

第3个CUDA kernel功能模块包含两个CUDA kernel函数，分别是阵列单双基校准因子计算CUDA kernel函数、接收信号的单双基校准CUDA kernel函数。阵列单双基校准因子计算CUDA kernel函数通过每一个虚拟阵元与相应的收发阵元匹配数学公式进行一一配对，计算每个虚拟阵元的单双基校准因子，其grid和block的分配需和总的虚拟阵元数目尽可能匹配一致，才能达到最优的并行效果，因此在设计阵列系统时收发阵元的数量也需尽可能设计为32的倍数。接收信号的单双基校准CUDA kernel函数总线程数分配为N_T×N_R×N_f，用于将接收信号与接收它的等效虚拟阵元对应的阵列单双基校准因子一一对应相乘，进行单双基校准。

第4个CUDA kernel功能模块采用cuFFT库在水平向和高度向对等效单基收发虚拟阵元接收信号进行二维傅里叶变换。cuFFT库提供了一系列函数帮助在GPU中进行一维、二维、三维的快速傅里叶变换及快速傅里叶逆变换，同时，cuFFT库也支持CUDA流的并行执行，同时进行多幅图像数据的并行处理。对应本步骤的二维傅里叶变换，首先，使用cufftHandle函数创建cuFFT句柄。再利用cufftPlanMany创建plan，设置好需进行二维傅里叶变换的每一水平高度面的数据尺度(即N_T×N_R)、需批量二维傅里叶变换的水平高度面数量(即N_f)等关键参数。然后，使用cufftExecC2C()函数执行单精度浮点数复数域到复数域的二维傅里叶变换。最后，使用cufftDestroy()函数销毁本次二维傅里叶变换plan以及分配的相应计算资源。

第5个CUDA kernel功能模块进行相位因子补偿，为了便于计算，block取值N_f，grid定义为二维结构(N_T,N_R)，线程总数仍为N_T×N_R×N_f，改变线程定义结构是为了将线程结构模仿成N_f个N_T×N_R面的图像数据，从而可将成像数据索引值与CUDA kernel函数线程索引值用数学表达式一一匹配对应，达到完全并行处理的效果。此种线程定义方式可避免使用for循环进行数据处理，在CUDA kernel函数中使用for循环会产生串行运算，影响计算效率。

第6个CUDA kernel功能模块由两部分组成：使用cuFFT进行水平向和高度向的二维傅里叶逆变换、研究设计CUDA kernel函数进行聚焦平面自动估计限定需要成像区域的距离向范围。使用cuFFT进行二维傅里叶逆变换的方法大致和第4个CUDA kernel功能模块一致，不同的是第4个CUDA kernel功能模块是傅里叶变换，需要在cufftExecC2C()中声明参数CUFFT_FORWARD，而进行傅里叶逆变换则需在cufftExecC2C()中声明参数CUFFT_INVERSE。在进行聚焦平面自动估计的CUDA kernel函数中，block取值N_T，grid取值二维结构(N_R,N_f)。使用共享内存进行所有水平向上的图像数据取模、数据累加求和的并行计算，如之前所述，共享内存是片上内存，使用共享内存可优化线程访问内存的速度。共享内存通过—CUDA中关键字__share__在CUDA kernel函数中声明，对于CUDA kernel函数中启动的每一个block，都将获得共享内存的一个副本，同一个block内的所有线程共享此内存，但无法读取不同block中的共享内存副本。水平向取模和累积求和之后，将共享内存中的数据导入全局内存，在高度向进行上述和值的叠加，完成全部求和，继而进行不同水平高度面幅值和的对比进行聚焦估计和区域限定。

第7个CUDA kernel功能模块完成选取区域的宽带信号数据累积拼接，实现快速三维成像。设距离向聚焦区域截取了N_f′个距离向切面，那么此CUDA kernel函数分配的线程总数为N_T×N_R×N_f′，进行N_f′个水平高度面中对应位置元素模值的叠加，就得到了最终的N_T×N_R成像总信息，完成成像。

为了便于更清晰的理解本发明提出的MIMO阵列成像的CUDA并行计算技术，将其具体步骤和操作总结如图5所示。经过CUDA并行计算后，安检成像结果视频可达到大于20帧/s的效果。

上述CUDA并行计算方法也可以轻易地推广至多GPU环境中，算法理论和步骤基本一致，唯一的区别是可以先行将多幅图像数据分配至多个GPU，在每个GPU中依然可用CUDA流进一步并行执行子任务，从而充分挖掘GPU的并行计算能力，提升成像效率。

综上所述，本发明提出的MIMO阵列聚焦区域自动定位快速三维成像技术及MIMO阵列成像的CUDA并行计算技术具有以下优势：(1)结合MIMO阵列虚拟阵列成像技术与聚焦区域自动估计定位技术，在保证构建了大成像虚拟孔径的同时减少了冗余计算；(2)成像处理完全使用CUDA技术在GPU中并行计算，对GPU的利用率和覆盖率几乎达到百分百；(3)只需成像处理前和成像处理结束后的两次CPU内存与GPU显存之间的数据传输，极大减少了内存传输时间损耗；(4)研究设计的CUDA kernel功能模块合理的分配grid和block参数，能够完全并行计算目标数据，避免了for循环的使用，减少串行计算时间的损耗；(5)算法中各个信号处理过程都进行了CUDA kernel功能模块化，具有良好的移植性和普适性。

作为具体的实施例，本发明针对的近距离MIMO毫米波安检设备及所提出的快速成像算法、CUDA并行计算技术适用但不局限于大客流场景下人员的安检成像。MIMO毫米波雷达安检设备可以安置在待安检场景中的走廊、入口等位置，待检人员可以非接触无停留无感知地通过安检设备，具有较高的安检效率，且使受检人员具有更好的安检体验。MIMO雷达系统发射24-32GHz的宽带线性调频信号探测目标，对成像区域采取电扫描模式，扫描时间＜50ms。相邻收发物理阵元间距为10mm，即对应30GHz的1个波长单元1λ，则通过等效相位中心虚拟阵元构建方法得到的相邻虚拟阵元间隔为λ/2，满足奈奎斯特采样定理。MIMO阵列获取被检测人员和物体的扫描信号并传送给CUDA并行计算信号处理平台，进行MIMO阵列聚焦区域自动定位快速三维成像及MIMO阵列成像的CUDA并行计算处理，输出高分辨毫米波视频速度大于20帧/秒。

作为具体的实施例，MIMO阵列系统由若干边界物理阵列构成，边界物理阵列也可视为成像雷达基本单元模块，每个边界物理阵列呈现矩形，物理阵元分布在其四条边上，发射阵元位于水平向(x轴)，接收阵元分布在高度向(y轴)。在设计搭建MIMO天线阵列时，根据待检测区域的范围决定水平向和高度向的边界物理阵列单元的数量。在这里需要说明的是，MIMO阵列也可以由具有其他阵型结构的稀疏阵列单元构成，根据实际需求和使用场景进行灵活变换，本发明研制的方法具有良好的移植性和普适性，可以很容易的推广到其他阵型结构的稀疏阵列。天线阵列的阵元参数以图2中单个边界物理阵列为例做出说明：天线阵列所在平面的距离向坐标设定为z₁；任意发射阵元坐标为(x_T,y_T,z₁)，发射阵元总数目为N_T；任意接收阵元坐标为(x_R,y_R,z₁)，接收阵元总数目为N_R；需成像单散射点目标的坐标为(x_c,y_c,z_c)。

作为具体的实施例，近距离毫米波探测场景下，信号波形是球面波而不能近似看为平面波，这给成像处理带来较大的困难，需要在进行球面波—平面波分解转换后再进行进一步的成像处理，但是球面波—平面波分解转换理论是基于单基收发阵元提出的。为了能够采取适用于单基阵元的球面波—平面波分解转换，本发明采用单双基校准技术构建等效虚拟阵元作为单基收发阵元进一步开展信号处理，等效虚拟阵元为发射阵元和接收阵元之间的中间位置等效点(x_v,y_v,z₁)，其中x_v＝(x_T+x_R)/2，y_v＝(y_T+y_R)/2，可以推出等效虚拟阵元数目为N_TN_R。因此可以知道，使用MIMO阵列构建虚拟阵列可以达到减少物理阵元耗费，增大孔径，从而提升成像性能的效果。但需要注意的是，当收发阵元之间相隔较远时，单双基校准的误差也逐渐变大，因此，在设计物理阵列时要注意合理设计边界物理阵列的边长和每个边的阵元数量，在虚拟孔径和单双基校准精度之间进行折中考虑。

MIMO阵列聚焦区域自动定位快速三维成像技术方法计算主要包含6个步骤：

(1)通过MIMO稀疏阵列采集目标信号数据s((x_T,x_R),(y_T,y_R),ω)；

(2)通过单双基校准得到等效单基收发虚拟阵元接收信号：

(3)在水平向和高度向对等效单基收发虚拟阵元接收信号进行二维傅里叶变换：

(4)进行相位因子补偿：

(5)进行水平向和高度向的二维傅里叶逆变换

采取聚焦平面自动估计限定需要成像区域的距离向范围；

(6)进行选取区域的宽带信号数据累积拼接，完成快速三维成像。

MIMO阵列聚焦区域自动定位快速三维成像技术结合了MIMO阵列虚拟阵列成像技术与聚焦区域自动估计定位技术，在保证构建了大成像虚拟孔径的同时减少了冗余计算。

CUDA是一种CPU+GPU异构计算架构，能够将CPU与GPU完美的互补使用，利用CPU完成逻辑运算和任务控制功能，利用GPU完成高度密集型的数据并行计算任务。本发明的算法流程控制由CPU完成，成像过程中主要的6个步骤均由CUDA kernel函数完成，在GPU中并行实现。

CUDA kernel函数在主机中由__global__声明，在GPU中执行并行计算，使用时需要用<<<grid,block>>>指定并行运算线程数量。grid和block代表kernel中线程结构不同层级，其相互关系反映在图4中。kernel在GPU上执行时会启动调配的线程，任意kernel启动调配的线程称为网格(grid)，每个grid上的所有线程共享一致的全局内存，grid称为kernel中线程结构的第一层次，grid又可被分为很多线程块(block)，block是kernel中线程结构的第二层次，每个block是一个线程(thread)群组。同一个block中的所有线程可以通过共享内存(shared memory)进行通信以及同步，不同block之间的线程却不具备这个优势。

本发明在研究设计CUDA kernel功能模块时，根据需要处理的数据量大小合理分配grid和block的参数值，使得目标数据可被CUDA kernel线程最大并行化计算，达到或接近完全并行处理的效果。同时本发明灵活运用片上内存(比如共享内存)，提升内存访问速率，增加成像效率。

首先，进行逻辑控制CPU流程的设计，先进行CPU前置处理，包括：初始化MIMO阵列成像的CUDA并行计算技术的参数，将需要用到全局变量参数在.h头文件中声明；读取MIMO阵列采集的目标数据到主机内存中进而转存至显存；分配需使用的主机内存及显存；进行成像处理中并行算法步骤的流程控制；对信号处理模块计时监测。

然后，开始GPU中的CUDA并行计算，包括以下步骤：

(1)通过第1个CUDA kernel功能模块并行计算成像算法需要用到的毫米波信号相关中间参数；

(2)通过第2个CUDA kernel功能模块并行处理成像算法第1个步骤中的MIMO阵列接收信号，进行实虚部提取、降噪等并行计算。从此步骤开始到成像处理结束，采用CUDA流技术提高并行计算效率；

(3)通过第3个CUDA kernel功能模块并行处理成像算法第2个步骤中的等效单基收发虚拟阵元接收信号的单双基校准任务。通过2个CUDA kernel函数分别进行阵列单双基校准因子的并行计算、接收信号单双基校准的并行处理。

(4)通过第4个CUDA kernel功能模块完成成像算法第3个步骤中的二维傅里叶变换的并行计算。采用cuFFT库在水平向和高度向对等效单基收发虚拟阵元接收信号进行并行二维傅里叶变换处理。

(5)通过第5个CUDA kernel功能模块完成成像算法第4个步骤中的相位因子补偿的并行处理。

(6)通过第6个CUDA kernel功能模块并行处理成像算法第5个步骤中水平向和高度向的二维傅里叶逆变换、采取聚焦平面自动估计技术限定成像距离向范围的两个任务：用cuFFT进行水平向和高度向的二维傅里叶逆变换；研究设计CUDA kernel函数进行聚焦平面自动估计限定需要成像区域的距离向范围，在kernel中使用共享内存优化线程访问内存的速度，提升并行计算效率。

(7)通过第7个CUDA kernel功能模块并行处理成像算法第6个步骤，进行选取区域的宽带信号数据累积拼接并行处理，实现快速三维成像。

本发明提出的MIMO阵列成像的CUDA并行计算技术具有以下优势：(1)成像处理完全使用CUDA技术在GPU中并行计算，对GPU的利用率和覆盖率几乎达到百分百；(2)只需成像处理前和成像处理结束后的两次CPU内存与GPU显存之间的数据传输，极大减少了内存传输时间损耗；(3)研究设计的CUDA kernel功能模块合理的分配grid和block参数，能够完全并行计算目标数据，避免了for循环的使用，减少串行计算时间的损耗；(4)算法中各个信号处理过程都进行了CUDA kernel功能模块化，具有良好的移植性和普适性。

本发明实现了以下显著的有益效果：

根据本发明技术方案和构思，还可以有其他任何合适的改动。对于本领域普通技术人员来说，所有这些替换、调整和改进都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于，包括：

2.根据权利要求1所述的基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于：通过MIMO阵列对待检测区域进行聚焦区域自动定位处理，包括：

MIMO稀疏阵列采集目标信号数据；

对变换后的信号进行相位因子补偿，得到补偿信号；

3.根据权利要求2所述的基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于：将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示，包括：

4.一种基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于，包括：

5.根据权利要求4所述的基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于：通过MIMO阵列对待检测区域进行聚焦区域自动定位处理，包括：

MIMO稀疏阵列采集目标信号数据；

对所述等效单基收发虚拟阵元接收信号进行单双基校准；

对变换后的信号进行相位因子补偿，得到补偿信号；

6.根据权利要求5所述的基于CUDA的MIMO毫米波雷达三维成像方法，其特征在于：将MIMO接收数据导入GPU显存，进行信号处理，从GPU显存中转出到主机内存并通过OpenCV进行成像展示，包括：

7.一种基于CUDA的MIMO毫米波雷达三维成像系统，其特征在于，包括：

8.根据权利要求7所述的基于CUDA的MIMO毫米波雷达三维成像系统，其特征在于：所述并行计算单元，包括：