CN117808689A

CN117808689A - 基于毫米波雷达与摄像头融合的深度补全方法

Info

Publication number: CN117808689A
Application number: CN202311448167.XA
Authority: CN
Inventors: 孙力娟; 高磊; 韩崇; 郭剑; 王娟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-04-02

Abstract

基于毫米波雷达与摄像头融合的深度补全方法，利用多模态融合与监督的方法，预处理毫米波雷达点云与摄像头图像数据，在训练中将毫米波雷达点云和摄像头图像作为神经网络的输入，累积多帧毫米波雷达点云并投影至图像上，同步毫米波雷达点云与图像数据，累积多帧激光雷达并执行光流估计与语义分割以去除噪音作为神经网络深度补全的标签监督。经过训练后的系统，只需要使用毫米波雷达点云与摄像头图像作为输入就可以实现对真实场景的深度补全的深度输出。通过上述方式，本方法能够实现在降低经济与计算成本且不考虑光照、恶劣天气条件等情况下提升对深度图的准确度，具有鲁棒性强，稳定性、实时性、高效性的特点。

Description

基于毫米波雷达与摄像头融合的深度补全方法

技术领域

本发明属于无线感知与计算机视觉交叉领域，涉及毫米波雷达和神经网络技术领域，具体涉及基于毫米波雷达与摄像头融合的深度补全方法。

背景技术

深度是人类感知世界的一个重要元素，它表征了人眼接收到二维图像视觉信号以外的第三维信息。人类对现实世界的视觉感知主要是三维的，而计算机中的视觉彩色图像对世界的建模常常是二维的。图像信息由摄像机中的感光元件捕获，并将三维世界空间中的点投影到二维摄像机平面上。所以，生活中常用的这些图像往往缺少深度维度，即成像模型中摄像机到成像点之间的距离。计算机视觉任务中引入场景深度信息对于诸多实际应用都是非常关键的，三维场景信息可以更好地优化目标检测、语义分割、目标跟踪等传统视觉任务。深度补全在自动驾驶、机器人、3D重建、无人机、增强现实、场景理解和物体形状估计等更高级别的工程应用中具有重要意义，对观察到的图像进行准确的密集深度感知是解决诸如避障、物体检测或识别以及3D场景重建等任务的先决条件。自动驾驶有可能成为未来新兴的交通方式，安全导航的关键在于精确感知车辆周围复杂的深度等交通信息，做出合理的指令。设计出体系完备且健壮的深度感知算法，不仅提高无人驾驶汽车的场景理解能力，三维重建所处的真实世界模型，极大方便交通出行，加速社会发展，而且有利于减少交通事故的发生频率并拯救许多人的生命。

标准的感知传感器，如摄像头、毫米波雷达、激光雷达和超声波传感器，通常将信号转换为可解释的信息。对3D环境的感知需要必要的移动信息，包括距离和深度计算。计算机视觉的蓬勃发展使得相机无处不在，但只有在使用人工智能算法解析相机捕获的图像数据后，才能感知周围环境。人类依赖于立体视觉，立体相机通过对传感器的刚性标定来模仿这种功能，然而立体相机视觉的一个局限性是它的刚性标定，从而限制了它在各种应用中的效用。一种方法是通过单目相机进行深度估计算法直接从单幅图像中估计场景深度，然而可视化方法往往产生较低的推理精度和较差的可泛化性，不适合在现实世界中部署。

激光雷达是一种可替代的光学传感器，它能以较少的限制获取更精确的深度信息，提供了准确和可靠的距离测量与真实的场景尺度，然而激光雷达是一种昂贵的传感器，对于诸多应用是负担不起的。为了解决单一相机的性能不足和激光雷达的成本，毫米波雷达作为一种成本低廉的替代方案，同样提供了如距离、多普勒速度、角度等感知信息，逐渐吸引研究者的注意，但是由于毫米波雷达本身数据的稀疏性和缺少包含毫米波雷达及其进行深度补全任务的大型的公开数据集的发布，相关研究并不多。

发明内容

针对上述技术问题，本发明提出了一种深度补全方法，利用毫米波雷达与摄像机融合进行深度补全，其优势在于鉴于单目相机的低鲁棒性与激光雷达的高昂成本，毫米波雷达作为一种成本低廉且全天候工作，不受恶劣天气影响，同时提供更长的传感范围(200—300米)，包括速度、动态状态和测量不确定性在内的更多属性。单目深度估计是一个不适定问题，因为单一视图无法提供足够的数据来生成符合几何约束的深度，毫米波雷达是另一种无处不在的传感器，其信号可以辅助生成深入的视觉线索。另外，基于毫米波雷达与摄像头融合的深度补全方法可以集成在能耗低、体积小的高速处理芯片上，这为嵌入到便携式设备中提供了可能。

基于毫米波雷达与摄像头融合的深度补全方法，包括如下步骤：

步骤1，对毫米波雷达系统初始化，配置信息采样的参数，包括收发天线对、采样点数、采样时间，同时利用摄像头拍摄下同一帧真实场景和激光雷达采集场景点云数据；

步骤2，对获得的图像信息进行相应预处理；对于图像信息，将RGB图像进行裁剪与下采样处理，对相邻图像帧计算光流、计算相机的内参矩阵和图像转换矩阵，并将图像流转换为正则归一化表示；计算场景目标语义分割；

步骤3，对获得的雷达数据进行相应预处理；对于毫米波雷达，累积多帧毫米波雷达以增强点云密度，提取毫米波雷达所包含的距离、方位角、多普勒等感知信息，计算毫米波雷达累积点云；对于激光雷达，累积多帧激光雷达以增强点云密度，同时借助图像光流与语义分割去除遮挡点云像素，计算密集点云标签，以监督毫米波雷达与相机融合的深度预测；

步骤4，将图像与毫米波雷达点云输入至CNN网络中进行训练，学习区域关联。在彩色图像中被投影的每个毫米波雷达像素周围的邻域上建模，定义一个区域，并在预定的阈值内，将该区域中的每个像素分类为具有与毫米波雷达像素相同的深度或不具有相同的深度，实现特征提取，计算毫米波雷达-相机关联区域；为了获得增强的毫米波雷达像素深度关联信息，需要累积多帧激光雷达生成密集深度图标签，通过计算毫米波雷达像素与激光雷达像素之间的差异，训练出与图像像素关联的增强毫米波深度点云；

步骤5，利用跨模态学习和监督学习的方法，将不同模态的图像信息、毫米波雷达点云、激光雷达点云进行交互；累积多帧激光雷达且进行去噪，得到密集的深度图标签；将关键帧图像和增强的多帧毫米波雷达点云作为深度预测训练网络的输入，通过CNN中不同的卷积层，学习邻域的亲和力，提取出图像与毫米波雷达点云在空间与时间等不同维度上的深度特征，学习毫米波雷达返回到像素的映射能力；通过跨监督学习的方式，计算毫米波雷达点云与图像融合后预测的像素级别的深度回归值；

步骤6，训练完成后的系统仅需毫米波雷达和相机实现对真实场景进行深度补全，无需激光雷达辅助。

进一步地，步骤1中，通过毫米波雷达采集真实场景的原始信号，设每个调频连续脉冲chirp的周期为t，S为频率增长斜率，τ为信号从雷达到目标然后返回的延迟，f为雷达的载波频率；雷达的发射信号S₁表示为：

S₁＝sin(2πft+πSt·t)

接受信号S₂表示为：

S₂＝sin[2πf(t-τ)+πS(t-τ)²]

经过混频器和低通滤波器后，输出的中频信号S为：

对上式进行一维傅里叶变换得到中频信号的频率为f_IF，设目标到雷达的距离为d，光速为c，公式为：

用上述方法重复对多个线性调频脉冲chirp进行相同处理，让后将处理后的信号拼接成一帧数据，得到来自于雷达的射频信号。

进一步地，步骤2中，对于摄像头采集的真实场景图像，将其转化为对应的尺寸大小为192×400×3的RGB图像进行存储。令分别表示RGB、深度、语义引导分支的中间特征图，/>表示按深度连接的特征图。逐通道注意力权重由

计算得到，其中表示F特征图的逐通道注意力权重，σ表示sigmoid函数，/>表示多层感知器(MLP)层的权重矩阵。参数r控制MLP层中可学习参数的个数。/>和/>分别表示平均与最大池化特征。逐通道注意力权重通过作用于F得到/>将F′输入到空间关注力模块得到F的空间注意力权值

其中σ表示sigmoid函数。/>和/>分别表示平均与最大池化特征。将空间关注力权值应用于F′，得到精细化融合特征图/>使得/>

进一步地，步骤3中，对于毫米波雷达，累积多帧毫米波雷达以增强点云密度，提取毫米波雷达所包含的距离、方位角、多普勒等感知信息，计算毫米波雷达累积点云。对于激光雷达点云数据，首先选取对应点云帧簇，累积连续多帧激光雷达，计算深度图光流，同时进行语义分割和目标检测获得语义图和目标边界框，计算由于时空累积所造成的落在语义图和边界框内外的差异过滤出遮挡点云像素，同时计算有效掩码以分析不同高度对深度补全的影响。

进一步地，步骤4中，在投影至彩色图像中的毫米波雷达像素周围的邻域上建模关联区域。在每个毫米波雷达像素位置周围定义一个关联区域，并在预定的阈值内，将该区域中的每个像素分类为具有与毫米波雷达点云像素相同的深度或不具有相同的深度。

网络输出z(i,j,k)通过一个Sigmoid函数来得到估计的关联区域置信度网络在0到1的范围内预测关联区域置信度，表示该区域中的每个像素与毫米波雷达像素具有相同深度的概率。毫米波雷达-摄像机关联区域给出了相邻像素具有与测量雷达像素相同深度的概率。将毫米波雷达深度连同预测的关联区域转换为部分填充的深度图像加上相应的置信度，给定雷达像素的N个邻像素中，每个邻像素的深度为d(i,j)，置信度为/>如果将多个毫米波雷达深度扩展到同一像素，则保留关联区域最大的毫米波雷达深度。扩充的深度表示为D(i,j)，置信度为/>许多低置信度的像素将有不正确的深度，将此扩展深度图像转换为多通道图像以代替消除低置信度深度，其中每个通道l给定深度D(i,j)，如果其置信度/>大于通道阈值T_l，其中l＝1,…,N_e,N_e是增强深度的通道总数。结果是一个多通道增强雷达图像，每个通道代表一个特定置信水平的雷达衍生深度。

进一步地，步骤5中，网络的特征提取(编码)层，由ResNet-18和卷积层组成。去掉了原ResNet的最后一个平均池化层和线性变换层。编码结构的第二个组成部分是卷积层，其内核大小为3×3。解码层由4个上采样层和一个双线性上采样层组成。使用UpProj模块作为的上采样层，但是用更大的内核大小的反褶积也可以达到相同的精度水平。

进一步地，步骤6中，整个数据处理和深度补全包括两阶段深度补全过程。估计每个毫米波雷达像素的关联区域，将其转换为增强毫米波雷达深度表示，并输入到执行常规深度补全的网络中。两个阶段都由累积的密集激光雷达监督，像素不具有激光雷达深度则给定零权重。网络首先使用具有跳过连接的编码器-解码器网络，其次使用多尺度金字塔CNN完成深度补全，整个系统训练完成后只需输入毫米波雷达点云与其对应场景的图像，就会高效回归深度图。

本发明的有益效果：

(1)本发明利用毫米波雷达和摄像机融合进行真实场景深度补全，毫米波雷达的电磁波不受光照、烟雾、可视距离等因素的影响，所以对于环境的要求较低，即使环境条件发生变化甚至恶劣条件下也可以有较高的深度感知可靠性和准确性；

(2)本发明利用毫米波雷达和摄像机融合进行真实场景深度补全，与激光雷达相比，毫米波雷达传感器具有更长的传感范围(200—300米)，包括速度、动态状态和测量不确定性在内的更多属性。最重要的是，调频连续波雷达价格低廉，比激光雷达低得多，且全天候工作，是现代自动雷达系统的关键传感器。

(3)本发明利用毫米波雷达和摄像机融合进行真实场景深度补全，毫米波雷达可以集成在能耗低、体积小的高速处理芯片上，具有较高的可移植性和可利用性。

附图说明

图1为本发明实施例中所述深度补全方法流程图。

图2为本发明实施例中毫米波雷达与摄像机关联区域网络示意图。

图3为本发明实施例中深度补全网络示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明提出了一种手部关键点追踪方法，利用毫米波雷达和摄像机融合进行真实场景深度补全，其优势在于毫米波雷达的电磁波不受光照、烟雾、可视距离等因素的影响，所以对于环境的要求较低，即使环境条件发生变化甚至恶劣条件下也可以有较高的深度感知可靠性和准确性；与激光雷达相比，毫米波雷达传感器具有更长的传感范围(200—300米)，包括速度、动态状态和测量不确定性在内的更多属性。最重要的是，调频连续波雷达价格低廉，比激光雷达低得多，且全天候工作，是现代自动雷达系统的关键传感器；毫米波雷达可以集成在能耗低、体积小的高速处理芯片上，具有较高的可移植性和可利用性。

如图1所示，本方法的主要步骤如下：

步骤1：对毫米波雷达系统初始化，配置信息采样的参数，包括收发天线对、采样点数、采样时间，同时利用摄像头拍摄下同一帧真实场景和激光雷达采集场景点云数据。

通过毫米波雷达采集真实场景的原始信号，设每个调频连续脉冲chirp的周期为t，S为频率增长斜率，τ为信号从雷达到目标然后返回的延迟，f为雷达的载波频率；雷达的发射信号S₁表示为：

S₁＝sin(2πft+πSt·t)

接受信号S₂表示为：

S₂＝sin[2πf(t-τ)+πS(t-τ)²]

经过混频器和低通滤波器后，输出的中频信号S为：

步骤2：对获得的图像信息进行相应预处理。

对于图像信息，将RGB图像进行裁剪与下采样处理，对相邻图像帧计算光流、计算相机的内参矩阵和图像转换矩阵，并将图像流转换为正则归一化表示；计算场景目标语义分割；对于摄像头采集的真实场景图像，将其转化为对应的尺寸大小为192×400×3的RGB图像进行存储。令分别表示RGB、深度、语义引导分支的中间特征图，/>表示按深度连接的特征图。逐通道注意力权重由

计算得到，其中表示F特征图的逐通道注意力权重，σ表示sigmoid函数，/>表示多层感知器(MLP)层的权重矩阵。参数r控制MLP层中可学习参数的个数。/>和/>分别表示平均与最大池化特征。逐通道注意力权重通过/>作用于F得到/>将F′输入到空间关注力模块得到F的空间注意力权值

其中σ表示sigmoid函数。/>和/>分别表示平均与最大池化特征。将空间关注力权值通过/>应用于F′，得到精细化融合特征图/>

步骤3：对获得的雷达数据进行相应预处理：

对于毫米波雷达，累积多帧毫米波雷达以增强点云密度，提取毫米波雷达所包含的距离、方位角、多普勒等感知信息，计算毫米波雷达累积点云；对于激光雷达点云数据，首先选取对应点云帧簇，累积连续多帧激光雷达以增强点云密度，计算深度图光流，同时进行语义分割和目标检测获得语义图和目标边界框，计算由于时空累积所造成的落在语义图和边界框内外的差异过滤出遮挡点云像素，同时计算有效掩码以分析不同高度对深度补全的影响，以监督毫米波雷达与相机融合的深度预测。

步骤4：将图像与毫米波雷达点云输入至CNN网络中进行训练，学习毫米波雷达-相机区域关联：

为了获得增强的毫米波雷达像素深度关联信息，需要累积多帧激光雷达生成密集深度图标签，通过计算毫米波雷达像素与激光雷达像素之间的差异，训练出与图像像素关联的增强毫米波深度点云；将特征图输入到CNN中不同的卷积层中，实现特征提取，计算毫米波雷达-相机关联。在投影至彩色图像中的毫米波雷达像素周围的邻域上建模关联区域。在每个毫米波雷达像素位置周围定义一个关联区域，并在预定的阈值内，将该区域中的每个像素分类为具有与毫米波雷达点云像素相同的深度或不具有相同的深度。定义h×w邻域中每个像素的关联有N＝w×h个元素，编码为一个N通道毫米波雷达摄像机关联区域，标记为A(i,j,k),k＝1,…,N,其中(i,j)为毫米波雷达像素坐标，领域中第k个像素与(i,j)有偏移(i_k,j_k)。若A(i,j,k)的相邻像素与毫米波雷达像素深度相同，则标记为1，否则为0。定义毫米波雷达像素深度d(i,j)与邻近的激光雷达像素深度d_T(i+i_k,j+j_k)之间的差值为

E_ijk＝d(i,j)-d_T(i+i_k,j+j_k)

且为相对深度差值，则

其中T_a表示绝对深度差值阈值，T_r表示相对深度差值阈值。

标签A(i,j,k)仅在(i,j)处同时存在毫米波雷达像素和激光雷达像素深度d_T(i+i_k,j+j_k)时才定义。定义一个二元权值w(i,j,k)∈{0,1}，当两个条件都满足时为1，否则为0。在训练过程中，最小化标签A(i,j,k)和预测关联区域之间的加权二元交叉熵损失

步骤5：利用跨模态学习和监督学习的方法，将不同模态的图像信息、毫米波雷达点云、激光雷达点云进行交互，联合训练。

累积多帧激光雷达且进行去噪，得到密集的深度图标签；将关键帧图像和增强的多帧毫米波雷达点云作为深度预测训练网络的输入，通过CNN中不同的卷积层，提取出图像与毫米波雷达点云在空间与时间等不同维度上的深度特征，学习毫米波雷达返回到像素的映射能力；通过跨监督学习的方式，计算毫米波雷达点云与图像融合后预测的像素级别的深度回归值。

网络的特征提取(编码)层，由ResNet-18和卷积层组成；去掉了原ResNet的最后一个平均池化层和线性变换层；编码结构的第二个组成部分是卷积层，其内核大小为3×3；解码层由4个上采样层和一个双线性上采样层组成；使用UpProj模块作为的上采样。

网络的邻域特征提取过程如下：

设X＝(x_m,n)∈R^M×N表示需要通过空间传播更新的二维特征图，其中x_m,n表示在(m,n)处的像素值，R^M×N表示二维空间。x_m,n在第t步与其局部邻域N_m,n的传播定义如下:

式中(m,n)和(i,j)分别为参考像素和领域像素的坐标；表示参考像素的亲和度；/>表示(m,n)和(i,j)像素之间的亲和力。等式右边第一项表示参考像素的传播过程，第二项表示其领域像素的传播过程，并按相应的亲和力加权。得到参考像素的亲和度(即保留原始值的程度)为

空间传播网络SPN和卷积空间传播网络CSPN在将信息从置信度较高的区域传播到具有数据依赖亲和力的置信度较低的区域方面是有效的。但是潜在改进受到固定局部邻域配置的固有限制，固定局部邻域配置忽略局部区域内的对象深度分布。因此，经常导致传播后的前景和背景对象像素的深度值混合。为了解决上述问题，引入了一种深度神经网络即非局部邻域空间传播网络NLSPN，其根据广域内的颜色和深度信息估计局部区域(即非局部)以外每个像素的邻域。非局部邻域定义如下:

其中I和D分别表示RGB和稀疏深度图像空间，是在可学习参数/>下，估计每个像素K个邻域的非局部邻域预测网络。对/>采用编码器-解码器CNN架构。x_m+p,n+q表示(m+p,n+q)坐标处的像素点，m、n为目标像素坐标点，p、q取自一维实数空间。

在固定局部邻域中，亲和力学习如何增益相邻像素的影响，同时抑制不相邻像素的影响。相反，非局部邻域的亲和学习集中在相关联的邻域上，这有利于学习过程。

网络的损失函数如下：

对于回归问题，损失函数选择Reversed Huber损失函数，记为berHu，定义为：

当像素深度误差e低于超参数T_c阈值时，其中T_c基于批处理中所有像素的最大绝对误差的20％计算得出，berHu作为平均绝对误差L₁，当误差超过c时，berHu近似于均方误差L₂；同时使用以下指标评估方法：

均方根误差RMSE：

平均绝对误差MAE：

相对误差REL：

其中V表示像素全集，v表示某一像素点，|V|表示像素样本个数，表示真实标签ground truth像素点深度值，/>表示预测出的像素点深度值。

相对误差在阈值内的预测像素的百分比δ_i:

其中y_i和分别是底数和预测值，card是集合的基数。δ_i越大，预测效果越好。

图像为每个毫米波雷达像素提供场景上下文，以及目标边界信息。毫米波雷达像素为解释上下文提供深度，并为预测附近像素的深度提供基础。由于毫米波雷达非常稀疏，将雷达从短时间历史中积累起来，并使用自我运动和径向速度将其转换为当前帧。图像光流和毫米波雷达场景流的配对提供了遮挡和深度差异线索。对于静态物体，当像素深度与雷达像素深度相同时，光流应完全等于毫米波雷达场景流。相反，从相机视图中被遮挡的毫米波雷达像素将与静态物体遮挡它们的光流具有不同的场景流。类似地，径向移动的物体将具有一致的流。通过提供流，期望网络将学会利用流相似性来预测每个毫米波雷达点云像素的关联区域。使用32行射线激光雷达作为深度标签，并注意到由单帧生成的稀疏深度标签将导致带有伪影的有偏差模型预测深度，即只有对具有标签真实值的像素的预测是合理的。使用半密集激光雷达深度作为标签，它是由累积多个激光雷达帧创建的。通过自我运动和标定参数，可以将所有静态点转换为目标图像帧。激光雷达点的场景流，称为激光雷达流，通过将激光雷达点投影到两个相邻图像上，并测量它们坐标的变化来计算的。在移动的物体上，点的位置随着物体的运动而修正。在静态可见物体上，激光雷达流将与光流相等，而在遮挡面上，激光雷达流通常与同一像素处的光流不同，计算光流，并通过其差值的L2范数来测量两个流在同一像素处的差值。流量差大于阈值T_f的点被丢弃为遮挡点。用时使用三维边界框和语义分割相结合的方法来去除出现在物体顶部的遮挡点。首先，利用三维包围盒投影和语义分割相结合的方法确定实例的精确像素区域。边界框边缘的最大深度用于确定落在物体上的激光雷达点是在物体上还是在物体后面。保留语义分割内和小于该最大距离的点，而分割内和边界框后的点被过滤为遮挡激光雷达点云像素。

步骤6：训练完成后的系统仅需毫米波雷达和相机实现对真实场景进行深度补全。

整个数据处理和深度补全包括两阶段深度补全过程。估计每个毫米波雷达像素的关联区域，将其转换为增强毫米波雷达深度表示，并输入到执行常规深度补全的网络中。两个阶段都由累积的密集激光雷达监督，像素不具有激光雷达深度则给定零权重。网络首先使用具有跳过连接的编码器-解码器网络，其次使用多尺度金字塔CNN完成深度补全，整个系统训练完成后只需输入毫米波雷达点云与其对应场景的图像，就会高效回归深度图。

在自动驾驶多模态公开数据集nuScenes上，使用不同模型(PyramidCNN，SPN，CSPN，NLSPN，S2D，Hourgalss-UpProj，PyramidCNN+NLSPN)进行实验，可得如下对比：

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.基于毫米波雷达与摄像头融合的深度补全方法，其特征在于：方法包括如下步骤：

步骤1，对毫米波雷达系统初始化，配置信息采样的参数，包括收发天线对、采样点数、采样时间，同时利用摄像头拍摄下同一帧真实场景，利用激光雷达采集场景点云数据；

步骤2，对获得的图像信息进行预处理；对于图像信息，将RGB图像进行裁剪与下采样处理，对相邻图像帧计算光流、计算相机的内参矩阵和图像转换矩阵，并将图像流转换为正则归一化表示；计算场景目标语义分割特征；

步骤3，对获得的雷达数据进行预处理；对于毫米波雷达，累积多帧毫米波雷达以增强点云密度，提取毫米波雷达所包含的距离、方位角、多普勒等感知信息，计算毫米波雷达累积点云；对于激光雷达，累积多帧激光雷达以增强点云密度，同时借助图像光流与语义分割去除遮挡点云像素，计算密集点云标签，以监督毫米波雷达与相机融合的深度预测；

步骤4，将图像与毫米波雷达点云输入至CNN网络中进行训练，学习区域关联；在彩色图像中被投影的每个毫米波雷达像素周围的邻域上建模，定义一个区域，并在预定的阈值内，将该区域中的每个像素分类为具有与毫米波雷达像素相同的深度或不具有相同的深度，实现特征提取，计算毫米波雷达-相机关联区域；为了获得增强的毫米波雷达像素深度关联信息，需要累积多帧激光雷达生成密集深度图标签，通过计算毫米波雷达像素与激光雷达像素之间的差异，训练出与图像像素关联的增强毫米波深度点云；

2.根据权利要求1所述的基于毫米波雷达与摄像机融合的深度补全方法，其特征在于：步骤1中，通过毫米波雷达采集真实场景的原始信号，设每个调频连续脉冲chirp的周期为t，S为频率增长斜率，τ为信号从雷达到目标然后返回的延迟，f为雷达的载波频率；雷达的发射信号S₁表示为：

S₁＝sin(2πft+πSt·t)

接受信号S₂表示为：

S₂＝sin[2πf(t-τ)+πS(t-τ)²]

经过混频器和低通滤波器后，输出的中频信号S为：

3.根据权利要求1所述的基于毫米波雷达与摄像机融合的深度补全方法，其特征在于：步骤2中，对于摄像头采集的真实场景图像，将其转化为对应的尺寸大小为192×400×3的RGB图像进行存储；令分别表示RGB、深度、语义引导分支的中间特征图，/>表示按深度连接的特征图；逐通道注意力权重由

计算得到，其中表示F特征图的逐通道注意力权重，σ表示sigmoid函数，表示多层感知器(MLP)层的权重矩阵；参数r控制MLP层中可学习参数的个数；/>和/>分别表示平均与最大池化特征；逐通道注意力权重通过/>作用于F得到/>将F′输入到空间关注力模块得到F的空间注意力权值

其中σ表示sigmoid函数；/>和/>分别表示平均与最大池化特征；将空间关注力权值通过/>应用于F′，得到精细化融合特征图/>

4.根据权利要求1所述的基于毫米波雷达与摄像机融合的深度补全方法，其特征在于：步骤3中，对于毫米波雷达，累积多帧毫米波雷达以增强点云密度，提取毫米波雷达所包含的距离、方位角、多普勒等感知信息，计算毫米波雷达累积点云；对于激光雷达点云数据，首先选取对应点云簇帧，累积连续多帧激光雷达以增强点云密度，计算深度图光流，同时进行语义分割和目标检测获得语义图和目标边界框，计算由于时空累积所造成的落在语义图和边界框内外的差异过滤出遮挡点云像素，同时计算有效掩码以分析不同高度对深度补全的影响，以监督毫米波雷达与相机融合的深度预测。

5.根据权利要求1所述的基于毫米波雷达与摄像机融合的深度补全方法，其特征在于：步骤4中，在投影至彩色图像中的毫米波雷达像素周围的邻域上建模关联区域；在每个毫米波雷达像素位置周围定义一个关联区域，并在预定的阈值内，将该区域中的每个像素分类为具有与毫米波雷达点云像素相同的深度或不具有相同的深度；定义h×w邻域中每个像素的关联有N＝w×h个元素，编码为一个N通道毫米波雷达摄像机关联区域，标记为A(i,j,k),k＝1,...,N，其中(i,j)为毫米波雷达像素坐标，领域中第k个像素与(i,j)有偏移(i_k,j_k)；若A(i,j,k)的相邻像素与毫米波雷达像素深度相同，则标记为1，否则为0；定义毫米波雷达像素深度d(i,j)与邻近的激光雷达像素深度d_T(i+i_k,j+j_k)之间的差值为

E_ijk＝d(i,j)-d_T(i+i_k,j+j_k)

且为相对深度差值，则

其中T_a表示绝对深度差值阈值，T_r表示相对深度差值阈值；

标签A(i,j,k)仅在(i,j)处同时存在毫米波雷达像素和激光雷达像素深度d_T(i+i_k,j+j_k)时才定义；定义一个二元权值w(i,j,k)∈{0,1}，当两个条件都满足时为1，否则为0；

在训练过程中，最小化标签A(i,j,k)和预测关联区域之间的加权二元交叉熵损失

网络输出z(i,j,k)通过一个Sigmoid函数来得到估计的关联区域置信度网络在0到1的范围内预测关联区域置信度，表示该区域中的每个像素与毫米波雷达像素具有相同深度的概率；毫米波雷达-摄像机关联区域给出了相邻像素具有与测量雷达像素相同深度的概率；将毫米波雷达深度连同预测的关联区域转换为部分填充的深度图像加上相应的置信度，给定雷达像素的N个邻像素中，每个邻像素的深度为d(i,j)，置信度为/>如果将多个毫米波雷达深度扩展到同一像素，则保留关联区域最大的毫米波雷达深度；扩充的深度表示为D(i,j)，置信度为/>许多低置信度的像素将有不正确的深度，将此扩展深度图像转换为多通道图像以代替消除低置信度深度，其中每个通道l给定深度D(i,j)，如果其置信度/>大于通道阈值T_l，其中l＝1,…,N_e,N_e是增强深度的通道总数；结果是一个多通道增强雷达图像，每个通道代表一个特定置信水平的雷达衍生深度。

6.根据权利要求1所述的基于毫米波雷达和摄像机融合的深度补全方法，其特征在于：步骤5中，网络的特征提取层，由ResNet-18和卷积层组成；去掉了原ResNet的最后一个平均池化层和线性变换层；编码结构的第二个组成部分是卷积层，其内核大小为3×3；解码层由4个上采样层和一个双线性上采样层组成；使用UpProj模块作为的上采样；

网络的邻域特征提取过程如下：

设X＝(x_m,n)∈R^M×N表示需要通过空间传播更新的二维特征图，其中x_m,n表示在(m,n)处的像素值，R^M×N表示二维空间；x_m,n在第t步与其局部邻域N_m,n的传播定义如下：

式中(m,n)和(i,j)分别为参考像素和领域像素的坐标；表示参考像素的亲和度；表示(m,n)和(i,j)像素之间的亲和力；等式右边第一项表示参考像素的传播过程，第二项表示其领域像素的传播过程，并按相应的亲和力加权；得到参考像素的亲和度/>即保留原始值的程度，为

空间传播网络SPN和卷积空间传播网络CSPN在将信息从置信度较高的区域传播到具有数据依赖亲和力的置信度较低的区域方面是有效的；但是潜在改进受到固定局部邻域配置的固有限制，固定局部邻域配置忽略局部区域内的对象深度分布；因此，经常导致传播后的前景和背景对象像素的深度值混合；为了解决上述问题，引入了一种深度神经网络即非局部邻域空间传播网络NLSPN，其根据广域内的颜色和深度信息估计局部区域以外每个像素的邻域；非局部邻域定义如下：

其中I和D分别表示RGB和稀疏深度图像空间，是在可学习参数/>下，估计每个像素K个邻域的非局部邻域预测网络；对/>采用编码器-解码器CNN架构；x_m+p,n+q表示(m+p,n+q)坐标处的像素点，m、n为目标像素坐标点，p、q取自一维实数空间；

在固定局部邻域中，亲和力学习如何增益相邻像素的影响，同时抑制不相邻像素的影响；相反，非局部邻域的亲和学习集中在相关联的邻域上，这有利于学习过程；

网络的损失函数如下：

对于回归问题，损失函数选择ReversedHuber损失函数，记为berHu，定义为：

均方根误差RMSE：

平均绝对误差MAE：

相对误差REL：

其中V表示像素全集，v表示某一像素点，|V|表示像素样本个数，表示真实标签ground truth像素点深度值，/>表示预测出的像素点深度值；

相对误差在阈值内的预测像素的百分比δ_i：

其中y_i和分别是ground truth和预测值，card是集合的基数；δ_i越大，预测效果越好；

图像为毫米波雷达像素提供场景上下文，以及目标边界信息；毫米波雷达像素为解释上下文提供深度，并为预测附近像素的深度提供基础；将毫米波雷达从短时间历史中积累起来，并使用自我运动和径向速度将其转换为当前帧；图像光流和毫米波雷达场景流的配对提供了遮挡和深度差异线索；使用三维边界框和语义分割相结合的方法来去除出现在物体顶部的遮挡点；首先，利用三维包围盒投影和语义分割相结合的方法确定实例的精确像素区域；边界框边缘的最大深度用于确定落在物体上的激光雷达点是在物体上还是在物体后面；保留语义分割内和小于该最大距离的点，而分割内和边界框后的点被过滤为遮挡激光雷达点云像素。

7.根据权利要求1所述的基于毫米波雷达和摄像机融合的深度补全方法，其特征在于：步骤6中，整个数据处理和深度补全包括两阶段深度补全过程；估计每个毫米波雷达像素的关联区域，将其转换为增强毫米波雷达深度表示，并输入到执行常规深度补全的网络中；两个阶段都由累积的密集激光雷达监督，像素不具有激光雷达深度则给定零权重；网络首先使用具有跳过连接的编码器-解码器网络，其次使用多尺度金字塔CNN完成深度补全，整个系统训练完成后只需输入毫米波雷达点云与其对应场景的图像，就会高效回归深度图。