CN113989758A

CN113989758A - 一种用于自动驾驶的锚引导3d目标检测方法及装置

Info

Publication number: CN113989758A
Application number: CN202111250715.9A
Authority: CN
Inventors: 陶重犇; 郑四发; 曹杰程; 周锋; 张祖峰
Original assignee: Suzhou Automotive Research Institute of Tsinghua University
Current assignee: Suzhou Automotive Research Institute of Tsinghua University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-28

Abstract

本发明提出了一种用于自动驾驶的锚引导3D目标检测方法及装置，在第一阶段中，输入左右图像分别生成相应的概率图以生成稀疏锚点及稀疏锚框，再通过将左右锚作为一个整体生成2D预选框，第二阶段的关键点生成网络利用稀疏锚点信息生成关键点热图，并结合立体回归器融合生成3D预选框，针对原始图像在卷积后会出现像素级信息丢失的问题，通过Mask Branch生成的实例分割掩模结合实例级视差估计进行像素级优化。实验表明，本发明可以在减少计算量的同时保持较高的召回率，与现有方法相比，速度更快、鲁棒性更好、泛化能力更强。

Description

一种用于自动驾驶的锚引导3D目标检测方法及装置

技术领域

本发明涉及计算机技术，尤其涉及自动驾驶领域，具体公开了一种用于自动驾驶的锚引导3D目标检测方法及装置。

背景技术

作为自动驾驶领域基础之一的目标检测是近几年较为热门的话题。以Faster R-CNN, Mask R-CNN，SSD和YOLO系列为引导的2D目标检测无论是在精度还是检测速度上均达到了较高的水准。但是仅仅只有2D目标检测依旧不能满足自动驾驶领域的需求，因此3D目标检测应运而生。3D目标检测由于有着2D 目标检测无法提供的物体的空间位置和距离等对于自动驾驶至关重要的信息，因此3D目标检测可以在包括视觉感知，自动驾驶和运动预测等领域大力发展。但是，现阶段功能强大的3D检测器都严重依赖于雷达提供的数据信息，而高精度雷达的价格十分昂贵，很大程度上限制了目标检测发展。相比之下，立体相机的性价比和实用性都很高，这使得其在现阶段许多复杂应用场景中引起了越来越多的关注。立体相机通过焦距和基线来确定感知范围，所以对于有着巨大差异的对象也可以确保较高的深度精度。

现阶段主流的3D目标检测方法主要分成4类：基于单目图像的方法、基于立体图像的方法、基于图像和点云融合的方法以及基于原始点云的方法。在基于单目图像的方法中，G.Brazil 等人提出的M3D-RPN算法，该方法通过设计深度感知的卷积层来改善3D场景的性能，同时利用2D和3D透视图的几何关系在图像空间生成卷积特征。Z.Junning等人将网络结构与透视投影约束融合，提出了基于透视投影的单目3D目标检测算法。通过真实世界，相机与目标三者之间的变换关系求解3D目标边界模型。在基于立体图像的方法中，P. Li等人提出的Stereo RCNN算法通过提出的Stereo RPN模块预测左右2D框，并通过结合额外添加的分支预测关键点，视点和对象维度预测3D边界框。F X Dong等人提出的为双目立体视觉和三维激光扫描建立联合标定的新方法，使用双目立体相机提取三维坐标信息，使用激光测距雷达获取中心点坐标。基于图像和点云融合的方法：H. Su等人提出的SPLATNet算法先通过变换矩阵将点云从欧式矩阵转换到另一个能对稀疏无序数据高效组织的空间中，然后进行特征提取和融合，最后通过深度网络回归3D框。C.R.Qi等人的F-PointNet算法使用预训练的 2D 检测器从RGB图像中识别物体2D框和类别，并根据相机参数和三维椎体点云利用PointNet得到物体 Mask并估计3D边界框。Z.S.Wu等人提出了通过匈牙利算法进行最优匹配的基于激光点云和图像信息融合的算法，解决了单目3D检测不能约束3D中心的缺陷。基于原始点云的方法：B.Yang等人提出的PIXOR通过点云得到2D鸟瞰图 (Bird’s Eye ViewMap, BEV), 然后通过RetinaNet进行物体检测和定位。Z.Yang等人提出的STD先利用原始点云作为输入，然后通过球形锚框为每个点撒种来生成准确的提议。Z.Yi等人提出的方法仅使用雷达点云的位置信息进行体素化构建鸟瞰图，之后利用残差结构提取含有高层语义特征的多层次特征输出稠密的特征图。当前基于锚的双目3D目标检测算法存在的锚点数量选取较多，从而存在影响在线计算速度的问题。

发明内容

针对当前基于锚的双目3D目标检测算法存在的锚点数量选取较多，从而影响在线计算速度的问题，本发明提出了一种基于Stereo RCNN的锚引导3D目标检测算法FGASRCNN。与诸如Stereo RCNN之类的均匀锚点检测器相比，FGAS RCNN能根据对象大小和位置调整锚点的分布及大小。

本发明采用如下技术方案：

一种用于自动驾驶的锚引导3D目标检测方法，包括：第一阶段，输入左右图像，然后分别生成相应的前景位置概率图以生成稀疏锚点及稀疏锚框，再通过将左右锚作为一个整体生成2D预选框，得到新特征图；第二阶段，关键点生成网络利用稀疏锚点信息生成关键点热图，并结合立体回归器融合生成3D预选框；第三阶段，通过Mask Branch生成的实例分割掩模结合实例级视差估计进行像素级优化；完成3D目标检测。

本发明中，输入左右图像称为特征图，最大覆盖率IOU (Intersection overUnion)是指预测形状与最接近的地面真值(GroundTruth，GT)边界框有最高的覆盖率；第一阶段中，将一个1×1卷积应用到输入的特征图中，生成一个与特征图相同大小的概率图P以获取客观性得分，并通过Sigmod函数转化为概率值，公式(1)代表了检测对象在该位置上的概率。

式中：(x _a ,y _a)对应于输入特征图上的坐标，S代表了特征图的步长；

将概率高于预先设定的阈值的点作为可能存在对象的活动区，然后根据特征图以及概率图预测可能存在对象的活动区的形状，选择最大覆盖率的形状为预测锚框；

进一步的，依照特征金字塔体系结构在多尺度特征图中收集锚点，设定基础锚点，利用3×3卷积减少通道和两个全连接层对输入位置回归对象种类和框偏移量，然后将具有偏移量的可变形卷积应用到原始特征图中以获得新特征图；在每个尺度上连接左右输出的新特征图，并将串联后的特征馈入Stereo RPN网络得到精确的检测框。具体的，将左右特征图串联后输入到引导立体RPN网络中，并通过最大覆盖率匹配对应的检测框。本发明中，在进行感兴趣区域（ROI）采样时，只有在同一个锚点位置的左右两侧检测框同时与对应并最大覆盖率都大于0.5才会被作为前景；如果两侧检测框与同一个并最大覆盖率都大于0.8时，则认为这两个检测框预测同一个目标对象。

优选的，将左右特征图串联后输入到引导立体RPN网络中，采用公式（2）中的6个坐标参数化进行2D边界框的回归，然后通过对左右侧ROI区域使用非极大值抑制（NMS），再次进行检测框的筛选，得到2D预选框；

式中: x, y, w, h 代表了预测框的水平和垂直坐标，宽和高；x, x ^’, x _a分别代表了左预测框，右预测框和锚框的水平坐标。

本发明中，仅对观察到的物体分配锚点；与常规依赖锚点的均匀分布和预定义的多尺度框相比，本发明的不同之处在于仅对观察到的物体分配锚点，而不是均匀的分布在图像上，并且可以根据目标的几何形状来调整特征。

本发明中，第二阶段中，关键点生成网络仅对右侧图像进行关键点预测，并且仅将通过多级锚方案生成的新特征图作为输入。将第一阶段生成的每个尺度新特征图通过3个双线性插值进行3次上采样，并在每次后加入一个1×1卷积层以减小通道，在上采样之前要级联相应的特征图，将得到的多尺度特征图调整到最大尺度，并通过Softmax函数运算生成软权重∂，通过生成的软权重可以直观的看出每个尺度的重要程度，然后通过线性加权（公式（4））就可以获取尺度空间得分图S_scale，

本发明将2D边界框中心点热图定义为

，其中H, W代表输入图像的宽和高，C代表对象类别的数量，S代表了步长；将3D边界框顶点和中心点投影的9个透视点的热图定义为

；从2D边界框中心回归的局部偏移量定义为

；将最接近 V _C坐标的9个关键点认为是同一个对象的一组关键点坐标，并通过这9个关键点的18个约束来恢复对象的3D边界框。

本发明中，第三阶段中，对第一阶段的新特征图（左右）分别使用Mask RCNN中提出的ROI Align，之后合并左右ROI特征，并输入到两个全连接层以提取语义信息。通过立体回归器可以得到包括对象类别，立体边界框，物体尺寸和视点角度的4个输出；使用汽车前进方向以及ROI视角夹角作为视点回归角度，并选择[sinβ,cosβ]作为回归量避免不连续性，然后通过将回归角度与3D位置之间的关系去耦获得车辆方向；

上述3D边界框可以通过视点角度

，3D框中心坐标

和回归尺寸

，结合给定透视关键点信息可以推导出3D框顶点与2D框顶点间的对应关系，并通过高斯-牛顿法求解由投影变换得到的3D-2D关系公式（7）；

本发明将最小化3D关键点和2D关键点的重投影问题化为非线性最小二乘优化问题；

式中：关键点表示为

，其维度和方向分别为

；K是给定的相机固有矩阵，R代表3D框的旋转角度

；本发明取

；

对左侧图像使用ROI Alig从特征图中提取对象特征时生成了实例分割掩模，然后通过上述提供的2D边界框和实例分割掩模根据公式（8）可以从完整图像中裁剪并在水平方向上对齐左右ROIs；

式中：b _L和 b _R分别代表了左2边界框的左，右边框归一化坐标

；D _i(p)代表预测的实例视差值；

通过计算所有掩模区域内的像素的视差并结合基线B与相机内参f可以计算掩模内每个像素的3D位置和深度值，3D位置的计算公式为（9），

式中：(u _c, v _c) 代表相机中心像素位置；(f _u, f _v) 分别是相机的水平与垂直焦距；

其深度计算公式为，

式中：x _pl, x _pr分别代表了像素点p在左右边框中的水平坐标；

本发明设定的总匹配样本为掩模区域内所有像素的平方差总和：

式中： △Z _p表示的是掩模内的像素P与3D框中心的深度差值，I _L和I _R分别表示的是左右图像中的3通道RGB矢量。

优选的，通过最小化总匹配成本就能得到优化后的中心深入深度，优选使用的是枚举法来产生最优深度Z，具体的，在前文预估的3D框深度值Z_p的基础上以0.5米为间隔选择40个粗略深度，然后以0.05米为间隔对粗略深度再次枚举得到最优深度，通过对掩模区域内所有像素固定对齐深度，可以校正整个3D框，实现3D目标检测。

本发明公开了一种用于自动驾驶的锚引导3D目标检测的装置，用于上述锚引导3D目标检测方法，包括图像采集模块以及数据处理模块，数据处理模块包括立体RPN模块、关键点生成网络模块、立体回归和3D框估计模块、中心深度校正模块；具体的，数据处理模块为将图像采集模块收集的图片分别生成相应的前景位置概率图的模块、生成稀疏锚点及稀疏锚框的模块、将左右锚作为一个整体生成2D预选框的模块、利用稀疏锚点信息生成关键点热图的模块、结合立体回归器融合生成3D预选框的模块、通过Mask Branch生成的实例分割掩模的模块、实例级视差估计进行像素级优化的模块；图像采集模块为雷达传感器、摄像头。

本发明公开了一种电子设备，包括处理器与存储器，其中，存储器存储被处理器执行的指令，使得处理器可执行所述用于自动驾驶的锚引导3D目标检测方法。

本发明公开了一种存储计算机指令的计算机可读存储介质，所述计算机指令使得计算机执行所述用于自动驾驶的锚引导3D目标检测方法。

本发明进行了如下的创新：

（1）针对现存锚点选取方法计算量较大且速度较慢的问题，提出了一个基于自适应锚框的立体RPN方法。通过对左右输入图像分别生成前景位置概率图来确定锚点选取范围，并指导其学习有益于2D框的目标对象形状。将稀疏锚点与立体RPN结合的方法可以有效节省计算成本，提高计算效率；

（2）针对立体3D目标检测方法中3D边界框精度较低的问题，提出了一个基于金字塔网络的关键点生成网络。通过引入融合了高级特征的多级锚方案的特征图，对3D边界框9个关键点约束进行提取，并减少输入的负样本数量，提高正样本占比；

（3）针对卷积操作后会导致原始图像像素级信息丢失的问题，提出了一个基于像素级实例视差的3D边界框中心深度校正方法。通过将像素级实例视差与实例分割掩模融合，估测限定范围内的逐像素深度以优化中心深。

附图说明

图1为FGAS RCNN算法框架图；

图2为锚点生成方案；

图3为多级锚方案；

图4为目标分配；

图5为上采样流程；

图6为多任务检测头组成；

图7为裁剪对齐过程；

图8为视差误差(像素), 深度误差(m) 与物体距离(m) 的关系；

图9为可视化结果。从上至下分别表示关键点预测，3D边界框预测和鸟瞰图预测；

图10为RPN，Stereo-RPN，GS-RPN的IoU分布；

图11为ROI分类的PR曲线；

图12为RPN提案（上）与GS-RPN提案（下）；

图13为车载实验平台；

图14为不同标准下的3D 检测平均精度；

图15为可视化检测结果。

具体实施方式

本发明设计的一种使用稀疏锚进行左右感兴趣区域(Region Of Interest, ROI)提议的方法称为 FGAS-RCNN，该网络架构分为3个模块，使用ResNet-50作为骨干网。如图1所示，首先使用引导立体RPN模块（Guided Stereo RPN，GS RPN）对特征图输出前景位置的概率图，并生成稀疏锚点以预测对象形状。然后根据预测的锚点位置和锚框形状输出相应的左右ROI提案。而关键点检测网络模块通过多级锚方案以生成关键点热图，并预测包括3D边界框顶点和中心点在内的9个关键透视点，然后通过这些关键点得到的3D框约束来校正得到的粗略3D框。最后的中心深度校正模块主要利用对左右特征图使用ROIAlign生成的ROI及掩模生成实例分割掩模，结合视差计算每个像素的深度值以进行3D框中心深度优化。

实施例

本发明的FGAS RCNN具体如下。

1.1 立体RPN模块

区域候选网络（Region Proposal Network，RPN）通过在特征提取后利用3×3卷积减少通道和两个全连接层对输入位置回归对象种类和框偏移量。与常规依赖锚点的均匀分布和预定义的多尺度框相比，本发明的不同之处在于仅对观察到的物体分配锚点，而不是均匀的分布在图像上，并且可以根据目标的几何形状来调整特征。本发明的方案如图2所示，该方法包含2个分支，即锚点定位分支和锚框预测分支。

在锚点预测分支中，将一个1×1卷积应用到输入的特征图F _I中，生成一个与特征图相同大小的概率图P以获取客观性得分，并通过Sigmod函数转化为概率值。公式(1)代表了检测对象在该位置上的概率。

式中：(x _a ,y _a)对应于输入左特征图F _I上的坐标，S代表了特征图的步长。

本发明通过选择那些概率高于预先设定的阈值的点作为可能存在对象的活动区，可以在保证召回率的同时极大可能的缩小可能存在对象的区域。而锚框预测分支会根据给定的特征图F _I，以及锚点预测分支输出的概率图P预测这些概率高于阈值的位置的最佳形状，即该形状与最接近的地面真值(GroundTruth，GT)边界框有最高的覆盖率。本发明选择将能与最近GT框有最大覆盖率IOU (Intersection over Union)的w _a,h _a作为预测的锚框大小。与常规方法不同，本发明方法在每个位置仅有一个预测的最佳形状的锚框，而不是一组预定义的锚框。

由于本发明中的所有锚框都是随位置变化而变化的，所以本发明采用了如图3所示的多级锚方案。该方案依照特征金字塔（Feature Pyramid Network, FPN）体系结构在多尺度特征图中收集锚点，且这些锚点可以在所有尺度特征图中共享。为了实现不同大小的特征与相应大小的范围对应，该方案依据基础锚点形状和一个 3×3的可变卷积层从锚框预测分支输出中预测一个偏移量。然后将具有偏移量的可变形卷积应用到原始特征图F _I中以获得新特征图F _I ’。

在每个尺度上连接左右输出的新特征图，并将串联后的特征馈入Stereo RPN网络得到精确的检测框。如图4所示，与常规的对象目标不同，本发明将串联的左右特征图当成对象分类的目标。本发明将左右特征图串联后输入到GS RPN网络中，并通过IOU匹配对应的检测框。在进行ROI采样时，只有在同一个锚点位置的左右两侧检测框同时与对应并集GTBox的IOU都大于0.5才会被作为前景。并且如果两侧检测框与同一个并集GT Box的IOU都大于0.8时，则本发明认为这两个检测框预测同一个目标对象。

传统RPN回归器一般只有四个输出，而GS RPN的回归器一般有6个输出。本发明采用了公式2中的6个坐标参数化来进行2D边界框的回归。然后通过对左右侧ROI区域使用非极大值抑制（NMS），再次进行检测框的筛选。

本发明在训练中将每个ROI采样定义为一个多任务损失：L = L _cls + L _reg+ L _ga。除了常规的分类损失L _cls 和回归损失L _reg之外，本发明还引入引导锚损失L _ga。分类损失和回归损失的定义类似于^[1]。引导锚模块通过逐像素的S形函数对每个像素输出其为目标对象的概率，并通过对一些常用（w, h）进行采样来模拟所有数值的遍历，所以引导锚损失L _ga如下所示：

式中：i代表的是某个锚点对应的索引；P _i代表了该锚点是目标对象的概率；加权因子

，聚焦参数

，在本发明中选择

；（w, h）和（w _g, h _g）分别表示预测锚框和对应GT框的宽和高。

1.2 关键点生成网络

本发明的关键点生成网络仅对右侧图像进行关键点预测，并且仅将通过多级锚方案生成的新特征图作为输入。本发明从3D边界框的顶点和中心点生成透视点，然后将输出的中心点热图，顶点热图，顶点坐标和视点角度作为基本模块从而进行3D框回归和校正。

为了避免有小尺度情况带来的关键点重叠问题，本发明采取了如图5所示的方法。由于图像中的关键点不存在大小上的差异，所以本发明将多级锚方案生成的每个尺度特征图通过3个双线性插值进行3次上采样，并在每次后加入一个1×1卷积层以减小通道。在上采样之前要级联相应的特征图，将得到的F个多尺度特征图

调整到最大尺度大小，并通过Softmax函数运算生成软权重∂。通过这些生成的软权重可以直观的看出每个尺度的重要程度。然后通过线性加权就可以获取尺度空间得分图S_scale，

如图6所示，检测头主要有3个组件构成。通过将锚点位置作为可能存在的关键点位置可以有效避免在截断情况下对象的3D投影点超出图像边界的情况。本发明将2D边界框中心点热图定义为

，其中H, W代表输入图像的宽和高，C代表对象类别的数量，S代表了步长。检测头的另一个组成部分是3D边界框顶点和中心点投影的9个透视点的热图

。

从2D边界框中心回归的局部偏移量为

,本发明将最接近 V _C坐标的9个关键点认为是同一个对象的一组关键点坐标。并通过这9个关键点的18个约束来恢复对象的3D边界框。

虽然本发明通过多级锚方案消除了大量的负样本，但是关键点生成网络的训练目标依旧是为了解决正负样本与焦点损失的不平衡问题，

式中：N代表了图像中中心点和顶点的数量；n代表了不同的关键点通道（若n = c代表在中心点处，n = 9代表在顶点处）；α, β代表了用于平衡正负样本的权重的超参数；

式中：p代表了对象处于关键点处的估计概率。

1.3 立体回归和3D框估计

通过GS-RPN后，对左右特征图分别使用Mask RCNN中提出的ROI Align。之后合并左右ROI特征，并输入到两个全连接层以提取语义信息。通过立体回归器，本发明可以得到包括对象类别，立体边界框，物体尺寸和视点角度的4个输出。本发明使用汽车前进方向以及ROI视角夹角作为视点回归角度，并选择[sinβ,cosβ]作为回归量避免不连续性。然后通过将回归角度与3D位置之间的关系去耦获得车辆方向。将立体框与物体尺寸结合的方法可以更好的获得深度信息。

除了视点角度和深度信息，本发明还通过投影在2框中间的9个透视关键点为3D框估计提供额外的18个约束。对于一个输入图像 I，本发明的关键点检测网络会给出9个关键点来表示一组N个对象。相应的3D边界框可以通过视点角度

，3D框中心坐标

和回归尺寸

。然后通过给定透视关键点信息可以推导出3D框顶点与2D框顶点间的对应关系，并通过高斯-牛顿法求解由投影变换得到的3D-2D关系公式。

本发明将最小化3D关键点和2D关键点的重投影问题化为非线性最小二乘优化问题。

式中：关键点表示为

其维度和方向分别为

；K是给定的相机固有矩阵，R代表3D框的旋转角度

；本发明取

。

1.4 中心深度校正

本发明从左右边界框提供的视差信息中恢复了大致的深度信息，但是由于之前的处理过程丢失了大量像素级信息，所以本发明使用大量像素级测量来解决3D框中心深度的校正问题。

为了排除背景及其他对象的像素对校正的影响，如图7所示，本发明对左侧图像使用ROI Align从特征图中提取对象特征时生成了实例分割掩模。然后通过FGAS RCNN中提供的2D边界框和实例分割掩模可以从完整图像中裁剪并在水平方向上对齐左右ROIs。

；D _i(p)代表预测的实例视差值。

通过计算所有掩模区域内的像素的视差并结合基线B与相机内参f可以计算掩模内每个像素的3D位置和深度值，3D位置的计算公式为，

式中：(u _c, v _c) 代表相机中心像素位置；(f _u, f _v) 分别是相机的水平与垂直焦距。

而其深度计算公式为，

式中：x _pl, x _pr分别代表了像素点p在左右边框中的水平坐标。

通过最小化总匹配成本就能得到优化后的中心深入深度，本发明使用的是枚举法来产生最优深度Z。总的过程是先在前文预估的3D框深度值的基础上以0.5米为间隔选择40个粗略深度，然后以0.05米为间隔对粗略深度再次枚举得到最优深度。通过对掩模区域内所有像素固定对齐深度，可以校正整个3D框。并且因为掩模区域内的每个像素均贡献了深度估计值，所以可以避免立体深度估计中的不连续和不适定问题。

本发明将提出方法的总的多任务损失定义为：

式中：p, r作为上标分别代表RPN和RCNN。下标ga, sreg, key, ver分别代表引导锚模块，立体回归器，3D框中心点和顶点的损失。

最小化总匹配成本：

最小化总匹配成本的意思就是通过不断筛选随机数，寻找一个能使的总匹配成本最小的深度插值。然后将3D框中心深度与这个深度插值相加就得到优化后的中心深度；

预先设定的阈值的点：

该公式可以计算出检测对象位于图中某一个区域的概率。

地面真值：在数据集中，地面真值已经包含，对于数据集中的每一个目标物，数据集本身就已经对它进行了介绍，包括他的位置，方向等，这些信息可以方便确认提出方法检测到的目标物体与真实的目标物体之间的差距；关键点：本发明的关键点通过关键点生成模块寻找的，对于每一个目标物体，都会生成对应的中心点坐标，顶点坐标。

实验与分析

本发明在具有挑战性的Kitti和NuScenes3D对象检测基准上评估本发明提出的方法，并与最新方法进行了比较。然后本发明又进行了消融研究以分析提出方法不同组成部分的有效性。最后，本发明还提供了实际的车载实验平台及实验场地的相关介绍。本发明使用Ubuntu18.04，搭载i7-9700k CPU和双2080Ti GPU，PyTorch来运行本发明的网络。

Kitti上的3D目标检测实验

Kitti对象检测基准包含7481个训练图像和7518个测试图像。本发明根据^[18]将训练图像大致分为拥有3712个图像的训练集和3769个图像的测试集。遵循Kitti的设置，对象将根据2D边界框大小，遮挡和截断程度被分成：容易，中等和困难三个级别。本发明使用平均精度(AP)进行3D检测(AP _3d)和鸟瞰检测(AP _bev)来评估3D检测和定位的性能，如表1和表2所示，本发明将提出的方法以0.7和0.5作为IOU阈值与之前的基于图像的汽车类别3D检测最新方法进行了比较。

表2利用Kitti验证集评估的鸟瞰图和3D框的平均精度(AP)比较（IOU阈值为0.7）

在训练时，本发明的方法在指标上均优于Stereo RCNN。具体来说，这种优势来自于关键点检测网络提供的大量约束条件。

表3是在Kitti测试集上进行的测试，本发明将0.7作为IOU阈值，并与先前的立体方法进行了比较。与Stereo RCNN相比，本发明的方法在所有指标上均实现了提升。具体而言，与最新的OC-Stereo方法相比，本发明的方法在简单水平的鸟瞰图平均精度上提高了3.8%,在简单和中等的3D框平均精度上分别提升了约11%和2%。从表3中可以观察到我们的方法几乎超过了所有先前的立体方法。具体来说，我们的方法用于2D检测和分割的时间为0.11s，用于关键点生成网络的时间为0.08s，用于3D边界框回归和中心优化的时间为0.13s。

通过图8可以直观的看出随着物体距离的增加，视差与深度的误差呈现相反的趋势。并且，3D检测性能与物体距离也呈现反比例趋势。为了解决原始图像中像素级信息丢失问题，本发明方法希望使用像素级视差来进行优化。但是普通的像素级视差估计问题存在着过度平滑的问题，所以本发明使用了实例级视差估计作为实现亚像素匹配的信息。本发明方法的可视化结果如图9所示。

NuScenes上的3D目标检测实验

NuScenes数据集是最新的大规模自动驾驶数据集。为了加大数据集的挑战性，它收集了来自波士顿和新加坡的1000个驾驶场景。与Kitti数据集相比，NuScenes数据集通过6个多视图相机集32线Lidar收集数据，并提供了7倍多的对象注释。该数据集包含28130个训练样本和6019个验证样本。与Kitti数据集不同，NuScenes数据集一般使用NuScenesDetection Score (NDS)作为衡量指标。

通过在NuScenes数据集测试了FGAS RCNN以验证本发明方法的泛化性。表4提供了通过3D对象检测器实现的关于车辆类别的3类，mAP和NDS。通过表4可以观察到相比于最新的3D-CVF，本发明方法在mAP和NDS分别提升了大约5.99%和2.97%，并且在有关车辆类别的检测上，本发明方法显著优于其他方法。

消融实验，本发明提出方法的各部分模块的有效性。

GS RPN 本发明提出了以引导性的稀疏锚点来进行区域提案的方法。为了直观的了解这个模块的性能，本发明以每个图像300个样本的中等范围平均召回率(AR ₃₀₀, %)和2D检测平均精度(AP _2d, %)对FGAS- RCNN，Stereo-RCNN和Faster-RCNN进行比较。该测试均使用相同的骨干网和左右特征融合策略。

本发明还研究使用本发明的方法生成的提案的IOU分布情况，并与传统RPN方法进行了对比。如图10所示，通过观察RPN，Stereo-RPN和GS-RPN生成提案的IOU分布情况，可以明显观察到GS-RPN提供的高IOU提案数量更多。

位置阈值

能控制锚点分布的稀疏性。本发明选择通过改变位置阈值的方式来比较每个图像生成锚点的平均数量，平均召回率(Average Recall，AR)和推理运行时间，其结果如表5所示。

图11中的曲线展示了本发明方法与其他检测方法在ROI分类准确性上的比较情况，从图中可以看出本发明方法在提升检测效率的同时依旧可以保持较高的性能。

从表6的结果可以观察到，相比于Stereo-RPN，GS-RPN有着更多高IOU的积极提案，这使得本发明方法有着更高的平均精度。并且由于本发明方法可以在提案较少的情况下依旧保持较高的召回率，所以本发明可以在仅对300提案进行训练后依旧可以提高最终的mAP。

在表7中，本发明使用了相同的主干网络，超参数和增强方法，并展示了经过NMS处理后的Faster RCNN，Stereo RCNN及 FGAS RCNN的比较数据。从表内数据可以看出使用GSRPN可以在减少时间消耗的同时保持较高的召回率。相比于之前的方法，本发明方法在2D平均精度上全方位提升大约1.34%。

本发明方法在单幅图像上具有更高的召回率和检测精度，并且可以同时在左右图像中产生高质量提案而无需增加额外计算。传统RPN是基于滑动窗口的方法，而GS-RPN是基于引导锚的方法。本发明展示了基于滑动窗口和基于引导锚方法的提案的一些示例。如图12所示，相比于RPN，GS-RPN的锚框更集中在前景目标上。

关键点检测网络本发明提出了的提供关键点的方法可以提供18个约束以校正3D框。为了验证这种方法的好处，本发明评估了不使用关键点约束的粗略3D框性能及使用了关键点网络校正后的3D框性能。并且本发明还加入了利用回归视角和2D框信息生成关键点约束的方法以进行比较。如表8所示，由于关键点检测网络可以提供2D框以外的大量像素级约束，所以本发明提出的方法显著优于其他关键点检测方法，其中当IOU=0.7 时，简单和困难难度下分别提升了7.81%和8.17%。

实际平台测试

为了验证提出方法的有效性，本发明还在实际车载平台上进行了真实测试。如图13所示，该平台由多传感器构成。除了基础的16线雷达以外，该平台还加入了额外的两种LIDAR，包括Tele-15雷达和毫米波雷达。

现阶段限制基于激光雷达检测方法主要因素是固态激光雷达的价格。与常规激光雷达的高昂售价不同，Tele-15成功解决了价格问题。这款雷达通过牺牲探测角度从而实现长距离高精度探测，并且可以作为远距离毫米波雷达或者额外的安全冗余存在。该雷达的线束十分集中，通过的集中照射换取高密度点云，并提高有效探测距离。Tele-15雷达可以为高速行驶的车辆预留250米的处理距离。

本发明的实验平台中毫米波雷达主要负责前方较远距离处车辆的速度和距离，而Tele-15雷达作为其额外的安全冗余增加车辆的安全性；16线雷达负责短距离，大角度，低功率的探测任务。

在车载平台上的实验中，本发明选择通过三个方面来验证本发明方法在BEV目标检测和3D目标检测中的良好性能。图14比较了在不同的3D IOU标准和不同距离下FGASRCNN与Stereo RCNN的3D 检测平均精度AP _3d。图14由实际平台采集的真实数据构建，从图14中可以观察到本发明提出的方法在相同距离和相同3D IOU的情况下性能均高于StereoRCNN。其中，在距离为15m，IOU=0.65时，性能提升为10.17%。如图15所示，当IOU=0.7时，本发明方法在中等水平的鸟瞰平均精度可以达到较高水平的58.35%。

为了更直观的判断模型的优劣，本发明在加入对比模型时考虑了传感器的因素。从表9中可以看出，本发明方法在车辆类别的检测精度上均高于其他对比模型，分别达到了86.25%，79.57%和73.60%，平均精度也达到了79.81%。这些数据可以说明本发明提出方法的可泛化能力强。

本发明依托车载平台进行了真实场景下的测试及数据采集任务，并将点云数据输入到模型中进行了实时3D目标检测，其可视化结果如图15所示。本发明方法相比于其他最新方法能够输出精确度较高的高质量预测。在中远距离情况下，本发明提出的方法可以达到68.3%的平均精度。

参考文献如下：

[7] Li P, Chen X, Shen S. Stereo r-cnn based 3d object detection forautonomous driving [C]. Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2019: 7644-7652.

[16] Geiger A, Lenz P, Urtasun R. Are we ready for autonomous drivingthe kitti vision benchmark suite [C]. 2012 IEEE Conference on Computer Visionand Pattern Recognition. IEEE, 2012: 3354-3361.

[17] Caesr H, Bankiti V, Lang A H, et al. nuscenes: A multimodaldataset for autonomous driving [C]. Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition. 2020: 11621-11631.

[18] Che X, Luo X, Weng J, et al. Multi-View Gait Image Generationfor Cross-View Gait Recognition [J]. IEEE Transactions on Image Processing,2021, 30: 3041-3055.

[19] Yan C, Salman E. Mono3D: Open source cell library for monolithic3-D integrated circuits[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2017, 65(3): 1075-1085.

[20] Tung F, Little J J. MF3D: Model-free 3D semantic scene parsing[C]. 2017 IEEE International Conference on Robotics and Automation (ICRA).IEEE, 2017: 4596-4603.

[21] Li P, Zhao H, Liu P, et al. RTM3D: Real-time monocular 3Ddetection from object keypoints for autonomous driving[J]. arXiv preprintarXiv: 2001.03343, 2020, 2.

[22] Li B, Zhang T, Xia T. Vehicle detection from 3d lidar usingfully convolutional network[J]. arXiv preprint arXiv:1608.07916, 2016.

[23] Wang Y, Chao W L, Garg D, et al. Pseudo-lidar from visual depthestimation: Bridging the gap in 3d object detection for autonomous driving[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition. 2019: 8445-8453.

[24] Pon A D, Ku J, Li C, et al. Object-centric stereo matching for3d object detection[C]. 2020 IEEE International Conference on Robotics andAutomation (ICRA). IEEE, 2020: 8383-8389.

[25] Yan Y, Mao Y, Li B. Second: Sparsely embedded convolutionaldetection[J]. Sensors, 2018, 18(10): 3337.

[26] Ye Y, Chen H, Zhang C, et al. Sarpnet: Shape attention regionalproposal network for lidar-based 3d object detection[J]. Neurocomputing,2020, 379: 53-63.

[27] Lang A H, Vora S, Caesar H, et al. Pointpillars: Fast encodersfor object detection from point clouds[C]. Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2019: 12697-12705.

[28] Yoo J H, Kim Y, Kim J S, et al. 3d-cvf: Generating joint cameraand lidar features using cross-view spatial feature fusion for 3d objectdetection[J]. arXiv preprint arXiv:2004.12636, 2020, 3.

本发明提出了一种基于Stereo RCNN的锚引导3D目标检测算法。本发明方法充分利用输入图像的语义信息来指导稀疏锚点的生成，并通过预测锚点位置及其锚框形状生成非均匀锚点。通过关键点生成网络结合立体回归器生成3D边界框，随后通过使用实例视差和实例掩模计算特定区域内的逐像素深度来优化3D边界框精度。在公开数据集上的实验表明，本发明方法在保持同类算法高精度的同时提升了计算效率。此外，通过在不同的数据集上的实验证明了本发明方法的泛化性和可移植性，并且在不同环境下都具有较好的鲁棒性。

Claims

1.一种用于自动驾驶的锚引导3D目标检测方法，其特征在于，包括：第一阶段，输入左右图像，然后分别生成相应的前景位置概率图以生成稀疏锚点及稀疏锚框，再通过将左右锚作为一个整体生成2D预选框，得到新特征图；第二阶段，关键点生成网络利用稀疏锚点信息生成关键点热图，并结合立体回归器融合生成3D预选框；第三阶段，通过Mask Branch生成的实例分割掩模结合实例级视差估计进行像素级优化；完成3D目标检测。

2.根据权利要求1所述用于自动驾驶的锚引导3D目标检测方法，其特征在于，第一阶段中，将一个1×1卷积应用到输入的特征图中，生成一个与特征图相同大小的概率图P，并通过Sigmod函数公式(1)转化为概率值；

式中：(x _a ,y _a)对应于输入特征图上的坐标，S代表了特征图的步；

将概率高于预先设定的阈值的点作为可能存在对象的活动区，然后根据特征图以及概率图预测可能存在对象的活动区的形状，选择最大覆盖率的形状为预测锚框。

3.根据权利要求1所述用于自动驾驶的锚引导3D目标检测方法，其特征在于，第一阶段中，依照特征金字塔体系结构在多尺度特征图中收集锚点，设定基础锚点，利用3×3卷积减少通道和两个全连接层对输入位置回归对象种类和框偏移量，然后将具有偏移量的可变形卷积应用到原始特征图中以获得新特征图；在每个尺度上连接左右输出的新特征图，并将串联后的特征馈入Stereo RPN网络得到精确的检测框。

4.根据权利要求3所述用于自动驾驶的锚引导3D目标检测方法，其特征在于，第一阶段中，将左右特征图串联后输入到引导立体RPN网络中，并通过最大覆盖率匹配对应的检测框；将左右特征图串联后输入到引导立体RPN网络中，采用公式（2）中的6个坐标参数化进行2D边界框的回归，然后通过对左右侧ROI区域使用非极大值抑制（NMS），再次进行检测框的筛选，得到2D预选框；

5.根据权利要求1所述用于自动驾驶的锚引导3D目标检测方法，其特征在于，第二阶段中，关键点生成网络仅对右侧新特征图进行关键点预测。

6.根据权利要求1所述用于自动驾驶的锚引导3D目标检测方法，其特征在于，第二阶段中，将第一阶段生成的每个尺度新特征图通过3个双线性插值进行3次上采样，并在每次后加入一个1×1卷积层以减小通道，在上采样之前要级联相应的特征图，将得到的多尺度特征图调整到最大尺度，并通过Softmax函数运算生成软权重∂，然后通过线性加权（公式（4））就可以获取尺度空间得分图S_scale，

。

7.根据权利要求6所述用于自动驾驶的锚引导3D目标检测方法，其特征在于，第二阶段中，将2D边界框中心点热图定义为

；从2D边界框中心回归的局部偏移量定义为

8.根据权利要求1所述用于自动驾驶的锚引导3D目标检测方法，其特征在于，第三阶段中，对第一阶段的新特征图分别使用Mask RCNN中提出的ROI Align，之后合并左右ROI特征，并输入到两个全连接层以提取语义信息；使用汽车前进方向以及ROI视角夹角作为视点回归角度，并选择[sinβ,cosβ]作为回归量避免不连续性，然后通过将回归角度与3D位置之间的关系去耦获得车辆方向；3D边界框通过视点角度