CN114743079A

CN114743079A - 稀疏雷达和双目立体图像融合的3d目标检测方法及装置

Info

Publication number: CN114743079A
Application number: CN202210405709.4A
Authority: CN
Inventors: 阎维青; 苏凯祺; 徐金东; 刘兆伟; 任金来
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-12
Anticipated expiration: 2042-04-18
Also published as: CN114743079B

Abstract

本发明公开了一种稀疏雷达和双目立体图像融合的3D目标检测方法及装置，方法包括：对立体图像和稀疏LiDAR深度图分别进行特征编码后，基于注意力融合模块，将两条路径的特征信息进行融合，所述融合是从LiDAR深度图到立体图像；基于立体区域提取网络输出相应的左右感兴趣区域，将融合后的左右特征图一起输入到立体回归网络分支和深度预测分支，用于对3D边界框的位置、尺寸和方向进行预测。装置包括：处理器和存储器。本发明将立体相机与4激光束LiDAR传感器信息进行融合来达到现有先进水平，并以端到端的形式进行高速度检测。

Description

稀疏雷达和双目立体图像融合的3D目标检测方法及装置

技术领域

本发明涉及人工智能、计算机视觉、自动驾驶、3D目标检测领域，尤其涉及一种稀疏雷达和双目立体图像融合的3D目标检测方法及装置。

背景技术

由于激光雷达(Light Detection And Ranging，LiDAR)可以提供信息丰富的周围环境信息，所以目前自动驾驶的3D目标检测很大程度上都依赖于LiDAR。尽管信息精确，但因为固有的安全风险(例如，破坏、不利条件和盲点等)，过度依赖单个传感器是不够明智的。同时，远距离点云的分辨率较低和纹理信息较差也是一个很大的挑战。最有前途的候选者是机载立体或单目相机，它们同时提供细粒度的纹理和三原色(Red、Green、Blue，RGB)属性。然而，相机天生就存在深度模糊的问题。此外，立体或单目相机比LiDAR便宜几个数量级，帧率高和深度图密集。显然，每种类型的传感器都有其缺陷，联合起来可以视为对故障模式的一种可能的补救措施。有工作甚至指出多模态融合在困难情况下提供冗余，而不仅仅是互补。尽管利用协同效应是一个引人注目的研究热点，但整合相机视图和LiDAR鸟瞰图的优点并非易事。深度神经网络利用自然信号组成层次的特性，其中融合策略可能有所不同，可以分为以下两个类别：顺序融合和并行融合。

基于顺序融合的方法：这些方法以顺序的方式利用多阶段特征，其中当前的特征提取在很大程度上依赖于前一阶段。

Qi等人提出用于图像-深度数据的3D目标检测的视锥点云网络(FrustumPointNets for 3D Object Detection from RGB-D Data，Frustum PointNets)，首先利用标准的2D卷积神经网络(Convolutional Neural Network，CNN)目标检测器来提取2D区域，然后将2D候选框投影到3D视锥中的点云。接下来，使用类似用于3D分类和分割点集的深度学习点云网络(Deep Learning on Point Sets for 3D Classification andSegmentation，PointNet)的块来分割锥体内的每个点以获得用于进一步回归的兴趣点。Frustum PointNets采用成熟的2D检测方法来提供先验知识，这在一定程度上减少了3D搜索空间并启发了其后继者。尽管Frustum PointNets非常具有创新性，但这种级联方法的缺点是：Frustum PointNets严重依赖于2D检测器的准确性。考虑到距离较远时深度估计误差呈二次方增长，You等人提出了自动驾驶中3D目标检测的准确深度伪雷达++(AccurateDepth for 3D Object Detection in Autonomous Driving，Pseudo-LiDAR++)算法来对齐远距离目标。Pseudo-LiDAR++的主要贡献在于它提出了一种基于图形的深度校正(Graph-based Depth Correction，GDC)算法，该算法利用稀疏但准确的LiDAR点(例如，4个激光束)来消除基于立体的深度估计的偏差。具体来说，他们将一小部分稀疏的LiDAR点(即“地标”)投影到像素位置，并将它们分配给相应的3D伪LiDAR点作为“真实”LiDAR深度。注意，3D伪LiDAR点的深度是通过立体深度估计网络(Pyramid stereo matching network，PSMNET)获得的。为了校正深度值，Pseudo-LiDAR++首先通过k近邻(k-Nearest Neighbor，kNN)构造局部图，然后在“地标”的监督下更新图的权重。最后，信息在整个图上以忽略不计的成本传播。尽管Pseudo-LiDAR++巧妙地探索了一种混合方法来校正深度偏差，但它并不是一种端到端的方法。

基于并行融合的方法：这些方法融合特征空间中的模态以获得一种多模态表示，然后再馈入有监督学习器中。

Chen等人提出用于自动驾驶的多视图3D目标检测网络(Multi-View 3D ObjectDetection Network for Autonomous Driving,MV3D)，采用多视图表示，即鸟瞰图和正视图以及图像作为输入。MV3D首先通过点云的鸟瞰图表示生成一组精确的3D候选框。在给定高质量的3D建议的情况下，MV3D根据3D建议的坐标从多个视图中裁剪相应的区域。然后，使用深度多视图融合网络来融合区域特征。尽管MV3D利用了点云的多视图表示，但其缺点是：MV3D依赖于手工特征，这阻碍了其进一步提高并很快被其后继者超越。后来，Ku等人提出了来自视图聚合的联合3D建议生成和目标检测(Joint 3D Proposal Generation andObject Detection from View Aggregation，AVOD)，与MV3D略有不同的是它将融合策略进一步扩展到区域提议的早期阶段。具体来说，给定一组预定义的3D框(称为锚框)，分别从正视图特征图和俯视图(Bird's Eye View，BEV)特征图上来裁剪和调整两个相应的感兴趣区域，通过逐元素均值操作进行融合，然后AVOD将融合后的特征输入全连接层以检测目标。AVOD认为，这种微妙的操作可以生成高召回率建议并有利于定位精度，尤其是对于小目标。尽管AVOD提出的融合策略进一步提高了建议质量，但这种区域融合仅发生在特征金字塔的顶部。然而，中间特征对于检测来说也很重要。注意，MV3D和AVOD都是实例级的融合策略，然后像素级融合被提出用于深度协同。

现有技术大多采用了32或64激光束的LiDAR和RGB图像进行融合的方式进行3D目标检测，使3D目标检测的成本变的非常高。尽管Pseudo-LiDAR++探索了4激光束的LiDAR来校正立体图像深度偏差的方法，但它并不是一种端到端的方法，时间效率慢且立体图像深度图的生成用到了64个激光束的LiDAR信息监督。

发明内容

本发明提供了一种稀疏雷达和双目立体融合网络3D目标检测方法及装置，本发明将被动立体相机与主动4激光束LiDAR传感器信息进行融合来达到现有先进水平，并以端到端的形式进行高速度检测，详见下文描述：

第一方面，一种稀疏雷达和双目立体图像融合的3D目标检测方法，所述方法包括：

对立体图像和稀疏LiDAR深度图分别进行特征编码后，基于注意力融合模块，将两条路径的特征信息进行融合，所述融合是从LiDAR深度图到立体图像；

基于立体区域提取网络输出相应的左右感兴趣区域，将左右特征图被一起输入到立体回归网络分支和深度预测分支，用于对3D边界框的位置、尺寸和方向进行预测。

其中，所述立体回归网络分支，用于回归2D立体框、尺寸、视点角度和2D中心；所述深度预测分支，用于预测3D边界框中心的单变量深度。

进一步地，所述注意力融合模块将左稀疏LiDAR特征图与相应的左RGB特征图进行融合，右稀疏LiDAR特征图与相应的右RGB特征图进行融合。

其中，所述融合过程为：

其中，F_i表示融合的特征，

是编码器中每个阶段的最后一个块输出的特征，

指的是编码器的最后一个输出特征。

进一步地，所述方法还包括：

将稀疏LiDAR特征加入到图像特征中，并为每个特征级别设置权重w_i，通过计算稀疏LiDAR与其对应的立体图像特征图之间的相关性，得到相关性得分w_i，定义为：

其中，

是特征提取器中第i对立体图像特征图和稀疏LiDAR特征图，w_i是第i级别稀疏LiDAR特征图的权重，cos是余弦相似函数；

将F_i+1上采样2倍成F'_f∈R^H×W×C，应用1×1卷积运算分别将

投影成F'_r∈R^H×W×C，将

投影成F'_s∈R^H×W×C，描述为：

F_f＝upsample(F_i+1)

其中，upsample是通过最近邻内插进行的上采样操作，f_1×1表示1×1卷积层；

上采样的特征图与相应的F'_r特征图通过逐元素相加合并，在每个合并后的特征图上附加一个3×3卷积，将合并后的特征与应用权重为w_i的稀疏LiDAR特征F'_s进行相加，输出特征的计算方法如下：

F₅＝f_3×3(F'_r+w₅·F'_s)

其中，融合结果F_i是下一个融合阶段的更高级别特征，重复此过程，直到生成最终的特征图。

第二方面，一种稀疏雷达和双目立体图像融合的3D目标检测装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明提出了一种新的用于三维目标检测的多模式融合端到端学习框架，该框架有效地集成了稀疏激光雷达和立体图像的互补性；

2、本发明提出了一种深度注意特征融合模块，在融合重要的多模态空间特征的同时，探索稀疏激光雷达和立体图像中通道特征的相互依赖性；

3、本发明与无深度图监控的低成本传感器方法相比，该方法实现了最先进的性能。

附图说明

图1为一种稀疏雷达和双目立体融合网络3D目标检测方法的网络框架图；

图2为基于注意力机制的特征融合模块示意图；

图3为一种稀疏雷达和双目立体融合网络3D目标检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

3D目标检测是场景理解的重要任务之一，在自动驾驶、虚拟现实等领域有着广泛的应用。本发明实施例观察到，LiDAR、单目相机、双目相机等传感器都有自己的优点和缺点，没有一个能在所有实际场景中都表现良好。因此，一些工作研究如何融合多个模态以提供更准确的3D目标检测，并进一步提高目标检测器的性能。然而，这些方法通常使用32或64个光束的LiDAR信息作为输入，使3D检测成本变的非常高。因此，本发明实施例考虑将被动立体相机与主动4光束LiDAR传感器信息进行融合，这是一种实用且流行的选择。与64个光束的LiDAR传感器相比，只有4个光束的LiDAR传感器便宜了两个数量级，因此很容易负担得起。尽管4个光束的LiDAR传感器信息非常稀疏，不适合单独捕捉3D物体的形状，但如果与立体图像信息融合，它们就可以学习到更好的特征表示，从而产生更好的检测性能。

本发明实施例提出了一种新颖的多模态融合架构，该架构利用了稀疏LiDAR和立体图像特征融合的优势，产生了丰富的特征表示。值得注意的是，本发明实施例提出的架构是根据低成本传感器设计的。由于4光束LiDAR信息极其稀疏，因此与立体图像信息的融合是从LiDAR流到图像流，以利用LiDAR特征信息的精确性来增强图像特征。为此，本发明实施例首先从4光束LiDAR中获取稀疏但准确的深度信息，并用一种简单且快速的深度补全方法使其变得稠密。在对立体图像和稀疏LiDAR深度图分别进行特征编码后，提出了一个注意力融合模块，将两条路径的特征信息进行融合。该网络的下一个模块是立体区域提取网络(Region Proposal Network,RPN)，它可以输出相应的左右感兴趣区域(Region ofinterest，RoI)建议。然后，左右特征图被一起输入到两个不同的分支。一个是立体回归网络分支，用于回归准确的2D立体框、尺寸、视点角度和2D中心。另一个是深度预测分支，用于预测3D边界框中心的单变量深度z。

本发明实施例的目标是通过使用立体RGB图像和4光束LiDAR来检测和定位目标的3D边界框。检测流程包括三个阶段：首先，稀疏LiDAR图像和立体RGB图像(包括：左右两张图片，分别为左视点和右视点图像)分别使用ResNet-50编码器进行特征提取。然后，利用注意力机制将立体图像特征与其对应的稀疏LiDAR特征进行融合。最后，将融合后的特征对通过立体RPN后，对3D边界框的位置、尺寸和方向进行预测。

一、深度补全与特征提取

为了丰富普通立体(RGBs)3D目标检测网络的表示，本发明实施例决定加入来自LiDAR点云的几何信息。然而，并不是直接使用来自LiDAR的3D点云，而是通过使用校准参数将4光束LiDAR扫描信息重投影到左右图像坐标来形成对应于立体图像的两个稀疏LiDAR深度图。LiDAR可以为3D目标检测提供准确的3D信息。但是，可以观察到的是，普通64个光束的LiDAR信息是稀疏的，4个光束的LiDAR信息则是更为稀疏。因此，在这里，本发明实施例对生成的稀疏LiDAR深度图进行了类似于Ku等人方法的深度补全以生成稠密深度图。首先，使用一个简单的形态学操作序列和高斯模糊操作，用来自附近有效点的深度值填充稀疏深度图像中的空洞。然后，对填充的深度图像使用数据集中的最大深度值进行归一化，使得深度值介于0和1之间，最后，将其输入到编码器以提取特征。立体图像和稀疏LiDAR各自拥有一个特征编码器，且它们的特征编码器架构相同，编码器权重是由左右输入视图共享的。特征编码器是由一系列ResNet块和紧随其后的步长为2的卷积组成，将特征分辨率缩小到输入图像的1/16。

二、基于注意力机制的特征融合

本发明实施例采用深度融合的方法来对稀疏LiDAR和RGB特征进行逐层融合。具体来说，在该模块中，本发明实施例将左稀疏LiDAR特征图与相应的左RGB特征图进行融合，右稀疏LiDAR特征图与相应的右RGB特征图进行融合。其中，左右稀疏LiDAR特征和RGB特征进行逐层融合的融合方式相同。

对于具有L层的网络，早期融合在输入阶段结合了来自多种模态的特征：

其中，[D_l,l＝1,2,…,L]是特征变换函数，⊕是一个连接操作(例如，相加，拼接)，

分别是立体RGB图像和稀疏LiDAR数据的输入信息。与之相反，后期融合则是使用单独的子网络来独立学习特征转换，并在预测阶段组合它们的输出：

其中，D^rgb，D^sl分别是立体RGB图像和稀疏LiDAR数据的特征变换函数。为了使不同模态的中间层特征进行更多的交互，本发明实施例设计了以下深度融合过程：

其中，F_i表示融合的特征，

是编码器中每个阶段的最后一个块输出的特征，

指的是编码器的最后一个输出特征。更高分辨率的特征是通过对来自更高级别的空间信息更粗糙但语义信息更有效的特征图进行上采样而产生的。然后通过连接操作，使用来自图像路径和LiDAR路径的特征来增强这些特征。每个连接合并相同空间大小的特征图。图像路径和LiDAR路径的特征图具有较低级别的语义，但因为它被二次采样的次数较少，所以其激活定位更准确。因此，融合后得到的特征具有更高级别的语义信息和更高的分辨率，这对3D目标检测是有利的。由于输入的深度信息与解码器的输出密切相关，因此来自稀疏LiDAR深度图的特征应该在解码器中提供更大的贡献。

所以，本发明实施例将稀疏LiDAR深度图的特征加到解码器中的立体特征上，而不是拼接。这是因为求和对同一域两边的特征是有利的，可以鼓励解码器学习与深度更相关的特征，以便与稀疏LiDAR深度的特征保持一致。但是，4光束LiDAR信息过于稀疏，无法单独为3D检测提供足够的信息。故而，融合是从LiDAR流到图像流的，以增强图像特征。如上述公式所示，不同模态之间的特征在融合时处于平等地位，而不是加权，这可能导致不同模态的不同重要性无法正确体现。

为了解决这一问题，本发明实施例采用了一种注意力机制，将稀疏LiDAR特征加入到图像特征中，并为每个特征级别设置权重w_i。通过计算稀疏LiDAR与其对应的立体图像特征图之间的相关性，可以得到相关性得分w_i，其定义为：

其中，

是特征提取器中第i对立体图像特征图和稀疏LiDAR特征图，w_i是第i级别稀疏LiDAR特征图的权重，cos是余弦相似函数，T为转置，R表示实数域。技术上来说，本发明实施例首先将F_i+1上采样2倍成F'_f∈R^H×W×C(为简单起见，使用最近邻上采样)，其中H，W，C指的是特征F'_f的高度、宽度和通道数。然后，应用1×1卷积运算分别将F_i ^r投影成F'_r∈R^H×W×C，将

投影成F'_s∈R^H×W×C。这一过程可以描述为：

F'_f＝upsample(F_i+1) (7)

其中，upsample是通过最近邻内插进行的上采样操作，f_1×1指的是1×1卷积层。在每个阶段，转换的特征F'_r，F'_s的通道被统一为256维。

此外，上采样的特征图与相应的F'_r特征图(经过1×1卷积层以减少通道维度)通过逐元素相加合并。在每个合并后的特征图上附加一个3×3卷积，以减小上采样的混叠效应。最后，将合并后的特征与应用权重为w_i的稀疏LiDAR特征F'_s进行相加。输出特征的计算方法如下：

F₅＝f_3×3(F'_r+w₅·F'_s) (10)

其中，f_3×3表示3×3卷积层。融合结果F_i是下一个融合阶段的更高级别特征。重复此过程，直到生成最终的特征图。要开始迭代，只需生成初始融合特征图F₅，它可以表示为：

F_i＝f_3×3(F'_r+w_i·F'_s) (11)

其中，F'_r，F'_s分别是在解码器阶段中使用的立体图像和稀疏LiDAR的第5特征级别。

三、3D目标检测

本发明实施例采用立体RPN模块提取左右图像中每个目标的一对感兴趣区域(RoI)，其目的是为了避免左右图像之间所有像素的复杂匹配，并消除背景对目标检测的不利影响。立体RPN为左右图像上大小和位置相同的每个对象创建一个联合RoI，从而使联合RoI确保了每对RoI的起点。在立体RPN之后，本发明实施例有相应的左右建议对。在适当的金字塔级别分别在左右特征图上应用RoI Align。然后，将左右RoI特征连接起来并分别输入深度预测分支和立体回归分支。本发明实施例在深度预测分支中预测目标中心的3D深度。将z_max和z_min之间的深度划分为24个等级，用于估计目标的中心深度。该分支计算每个实例的视差以定位其位置，然后通过连接每个视差级别上的左右特征图来形成维度为d×h×w×f大小的代价体积。为了从代价体积中学习并对来自代价体积的特征表示进行下采样，使用了两个连续的3D卷积层，每个卷积层后面跟着一个3D最大池化层。由于视差与深度成反比，且两者都代表目标的位置，因此在制定代价体积后，将视差转换为深度表示。通过网络正则化，将3D CNN的下采样特征最终合并到3D框的中心深度的概率中。通过对每个深度z^*按其归一化概率进行加权求和，最终可以得到一个3D框中心z的深度，如下所示：

其中，N表示深度的等级数，P(i)指的是归一化的概率。除了深度预测分支外，本发明实施例还在立体回归分支首先使用两个连续的全连接层来提取语义特征，接下来使用四个子分支分别预测2D框、维度、视点角度和2D中心。

最后，3D边界框的状态可以由3D边界框的预测位置、方向和尺寸表示，其中3D边界框的位置可以由其中心位置(x,y,z)表示。

本发明实施例所提网络使用的多任务损失函数可以表示为：

其中，(·)^s,(·)^r和(·)^d分别代表立体RPN、立体回归和深度预测，下标box、dim、α、ctr分别表示2D立体框、尺寸、视点、2D中心的损失函数。

通过上述多任务损失函数对所有上述模块进行整合，通过该损失函数对各个模块训练的数据进行约束。

四、3D目标检测结果对比

如表1所示，本发明实施例报告了汽车类别的3D框(AP_3D)和鸟瞰视图(AP_bev)的平均精度。根据输入信号的不同，分别采用M表示单目图像、S表示立体图像和L#表示稀疏4光束LiDAR。PL(AVOD)是由DSGN在没有LiDAR监督的情况下报告的结果。本发明实施例在这里使用的是原始的KITTI评估指标。主要结果如表1所示，其中本发明实施例将本方法与以前从单目到双目的最先进的方法进行了比较。与以前基于单目的方法相比，本方法在所有IoU阈值的所有级别情况下都获得了显著的提高。与基于双目的方法相比，本方法在0.5IoU和0.7IoU情况下获得了最高性能。

表1在KITTI目标验证集上评估的3D目标检测结果对比

具体来说，本方法在0.7IoU的中等和困难级别上的AP_bev分别优于之前最先进的IDA-3D方法1.94％和1.67％。在AP_3D中可以看到类似的提升趋势，这表明本方法与其他方法相比可以取得一致的改进。在最具挑战性的指标AP_3D(IoU＝0.7)上，本方法在中等和困难级别的结果分别比IDA-3D高出2.32％和1.41％。虽然在简单级别情况时，本方法在AP_3D(IoU＝0.7)上的性能仅略胜于IDA-3D，但在困难级别中，本方法在AP_3D(IoU＝0.5)上获得了6.26％的显著改善。这可能是因为本方法侧重于提高目标的预测深度的精确性，并且通过引入稀疏LiDAR获得了更精确的深度。

表2Pseudo-LiDAR++和本方法在KITTI验证集上汽车类别的AP_bev和AP_3D(％)比较

本发明使用4光束LiDAR作为输入而不是64光束LiDAR作为输入或中间监督，将本方法与文献的方法进行比较是不公平的。因此，本方法与同样使用立体图像和稀疏雷达作为输入的Pseudo-LiDAR++方法进行了比较。由于Pseudo-LiDAR++并没有报告在无64光束LiDAR监督的情况下的实验结果，所以本方法在表2中给出了重新实现的结果。表2中的实验结果表明，本方法在某些指标上优于PL++(AVOD)方法。具体地说，在简单级别中，当IoU＝0.7时，AP_3D实现了11.3％的提高。对于AP_bev来说，本方法获得了7.82％以上的改进。这可能是因为本方法将3D点云投影到正视图像上，而卷积网络则更关注附近的物体。此外，在表2中还报告了本方法与PL++(AVOD)方法的运行时间的比较。本方法在推理时具有每帧0.116秒的高速度，远远超过PL++(AVOD)方法。效率的提高主要归功于本方法的网络设计，与PSMNet相比，本发明实施例设计的网络是一个具有轻量级模块的端到端网络。

五、消融实验结果与分析

表3在KITTI验证集上的消融实验

在这里，本方法分析了稀疏LiDAR、深度补全和注意力融合组件在本方法中的有效性。

当仅使用稀疏LiDAR时，本方法直接将稀疏LiDAR特征图与解码器中适当级别的相应立体图像特征图进行相加。当不使用深度补全时，本方法将稀疏LiDAR深度图视为深度特征提取器的输入。不使用注意力融合时，稀疏的LiDAR特征图与它对应的立体图像特征图的权重为1。

当仅使用稀疏LiDAR时，评价指标AP_3D和AP_bev在阈值为0.7的情况下的值都得到了显著的提高，这说明稀疏LiDAR对于高质量的3D检测是至关重要的。在中等级别的阈值IoU＝0.7情况下，没有深度补全组件使得AP_3D的百分比从38.83％下降到了37.31％。此外，在移除注意力融合的情况下，AP_bev的性能在简单级别的0.7IoU中下降了1.87％。通过将这三个关键组件结合起来使用，可以在所有指标上观察到获得了很大的改进，并且结果几乎超过了之前所有基于低成本的方法。

本发明实施例对每个损失进行了加权，以平衡后面的整个多任务损失。采用两个加权共享的ResNet-50结构分别作为立体图像和稀疏LiDAR的特征编码器。对于数据增强，将训练集中的左右图像进行翻转和交换，并对图像信息进行镜像。对于稀疏LiDAR，本发明实施例首先使用校准参数将其投影到图像平面上，然后应用与之前立体图像相同的翻转策略。本发明的模型是在PyTorch 1.1.0，CUDA 10.0下实现的。默认情况下，本发明实施例在4个NVIDIA Tesla V100 GPU上使用批量大小为4的GPU训练网络，进行65000次迭代，总训练时间约为26小时。本发明实施例使用随机梯度下降(SGD)优化器，初始学习率为0.02。SGD优化器的动量设置为0.9，权重衰减设置为0.0005。

一种稀疏雷达和双目立体图像融合的3D目标检测装置，参见图3，该装置包括：处理器1和存储器2，

对立体图像和稀疏LiDAR深度图分别进行特征编码后，基于注意力融合模块，将两条路径的特征信息进行融合，融合是从LiDAR深度图到立体图像；

其中，立体回归网络分支，用于回归2D立体框、尺寸、视点角度和2D中心；深度预测分支，用于预测3D边界框中心的单变量深度。

进一步地，注意力融合模块将左稀疏LiDAR特征图与相应的左RGB特征图进行融合，右稀疏LiDAR特征图与相应的右RGB特征图进行融合。

其中，融合过程为：

其中，F_i表示融合的特征，

是编码器中每个阶段的最后一个块输出的特征，

指的是编码器的最后一个输出特征。

进一步地，还包括：

其中，

将F_i+1上采样2倍成F'_f∈R^H×W×C，应用1×1卷积运算分别将

投影成F'_r∈R^H×W×C，将

投影成F'_s∈R^H×W×C，描述为：

F'_f＝upsample(F_i+1)

F₅＝f_3×3(F'_r+w₅·F'_s)

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种稀疏雷达和双目立体图像融合的3D目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种稀疏雷达和双目立体图像融合的3D目标检测方法，其特征在于，所述立体回归网络分支，用于回归2D立体框、尺寸、视点角度和2D中心；所述深度预测分支，用于预测3D边界框中心的单变量深度。

3.根据权利要求1所述的一种稀疏雷达和双目立体图像融合的3D目标检测方法，其特征在于，所述注意力融合模块将左稀疏LiDAR特征图与相应的左RGB特征图进行融合，右稀疏LiDAR特征图与相应的右RGB特征图进行融合。

4.根据权利要求1所述的一种稀疏雷达和双目立体图像融合的3D目标检测方法，其特征在于，所述融合过程为：

其中，F_i表示融合的特征，

是编码器中每个阶段的最后一个块输出的特征，F_l ^rgb,F_l ^sl指的是编码器的最后一个输出特征。

5.根据权利要求1所述的一种稀疏雷达和双目立体图像融合的3D目标检测方法，其特征在于，所述方法包括：

其中，

将F_i+1上采样2倍成F_f'∈R^H×W×C，应用1×1卷积运算分别将F_i ^r投影成F_r'∈R^H×W×C，将F_i ^s投影成F_s'∈R^H×W×C，描述为：

F'_f＝upsample(F_i+1)

F_r'＝f_1×1(F_i ^r)

F_s'＝f_1×1(F_i ^s)

上采样的特征图与相应的F_r'特征图通过逐元素相加合并，在每个合并后的特征图上附加一个3×3卷积，将合并后的特征与应用权重为w_i的稀疏LiDAR特征F_s'进行相加，输出特征的计算方法如下：

F₅＝f_3×3(F_r'+w₅·F_s')

融合结果F_i是下一个融合阶段的更高级别特征，重复此过程，直到生成最终的特征图。

6.一种稀疏雷达和双目立体图像融合的3D目标检测装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。