CN114332792B

CN114332792B - 基于关键点多尺度融合的立体场景目标检测方法及系统

Info

Publication number: CN114332792B
Application number: CN202111499490.0A
Authority: CN
Inventors: 张新钰; 王力; 罗建曦; 刘玉超
Original assignee: Suzhou Jiashibao Intelligent Technology Co ltd
Current assignee: Suzhou Jiashibao Intelligent Technology Co ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-05-16
Anticipated expiration: 2041-12-09
Also published as: CN114332792A

Abstract

本发明涉及一种自动驾驶立体场景目标检测算法，特别是涉及基于关键点多尺度融合的立体场景目标检测方法及系统，所述方法包括：采集激光雷达点云数据，输入预先建立和训练好的多尺度融合网络，输出三维目标检测结果；所述多尺度融合网络，利用伪图像回归目标可能的中心点位置，基于关键点进行不同尺度体素的选取，生成对应不同尺度的伪图像并进行叠加，从而加强特征表达能力。本发明通过基于关键点的多尺度融合机制，有效加强点云数据的特征表达能力，从而提取到更加有效的特征，本发明的方法可以降低计算消耗和提升检测精度，有效提升三维目标检测的精度。

Description

基于关键点多尺度融合的立体场景目标检测方法及系统

技术领域

本发明涉及一种自动驾驶立体场景目标检测算法，特别是涉及基于关键点多尺度融合的立体场景目标检测方法及系统。

背景技术

自动驾驶四大核心技术分别是环境感知、精确定位、路径规划、线控执行。环境感知通过摄像头、超声波雷达、激光雷达和毫米波雷达等采集环境信息，以确定车辆周围的静态和动态场景状况。通过环境感知信息和车辆定位信息融合，为车辆运行生成路径规划，并为异常处理系统提供输入。线控执行则会通过轨迹跟踪对决策系统下达转向控制、驱动控制和制动控制。最后由执行层中具体的驱动程序和执行部件去执行决策层下达的指令。

目前实现自动驾驶的关键还是在于环境感知，如障碍物探测、车道线的检测、道路信息读取、地图构建与辅助定位和交通参与者(车辆、行人、动物等)探测与识别。其中主要的传感器是摄像头和激光雷达，摄像头的优势是成本低、2D算法发展成熟。其劣势也很明显，对于光照变化明显的场景、雨雪雾天气适应性较差，测距测速功能性能差。激光雷达的优势是在测距及分辨率上都有较高水平，方向性好且抗干扰能力强。

环境感知中三维目标检测能为车辆提供周围交通参与者的实时空间分布情况，是自动驾驶中的重要功能模块之一。目前基于激光雷达的三维目标检测方法中，按照点云的表现形式大致分为两类，即基于网格的方法和基于点的方法。基于网格的方法一般将不规则的点云转换为规则的表示，例如3D体素或2D鸟瞰图，可有效地通过3D或2D卷积神经网络学习点云特征用于三维检测。基于点的方法在PointNet及其变体的基础上，直接从原始点云中提取点云特征用于三维检测。通常，基于网格的方法计算效率更高，但不可避免的信息丢失降低了细粒度定位精度，而基于点的方法计算成本更高，但易于通过点集聚合获得更大的接受野，得到目标的精确位置信息。

由于点云的稀疏性，对于特征表达能力需要进一步的加强，其中一个重要的方面就是多尺度融合。在检测网络中，经常使用卷积神经网络来提取目标特征，高层网络的感受野较大，语义信息表征能力强，但是特征图的分辨率低，几何信息的表征能力弱、缺乏空间几何特征细节，适合检测大目标物体。而低层网络的感受野比较小，分辨率高，几何细节信息表征能力强，但是语义信息表征能力弱，适合检测小目标物体。将两种分辨率的特征进行融合之后，就使得特征不仅具有了更大的感受野，也具有了高分辨率，将得到一种兼具语义信息表征能力和几何细节表征能力的网络。例如，PV-RCNN在特征提取阶段设置了不同尺度的3D稀疏卷积层，然后将它们的点云特征和BEV特征进行了多尺度融合。而上述工作只是对同一分辨率的数据进行特征层面的融合机制，VoxelFPN实现了数据层面的多尺度融合工作，主要方法是在原始数据中将点云划分为不同分辨率的体素，提取到相同维度的特征向量，实现特征融合。以上工作首先可以说明多尺度融合的必要性，但是多尺度融合的方式依然存在着内存消耗大、推理时间长等问题。

由于点云的稀疏性，不同区域的点云密度差别明显，如果按照统一的尺寸对它们进行体素化，那么不同的体素中的点云的数量区别也会很大。基于体素的网络面对这种情况经常采用的一种方法是使用最远点采样，将不同的体素内的点云数量统一到同一数量，点云过少的体素会用零来补齐。这种采样的方法会使得点云密度大的体素中损失过多信息，所以有必要加入更高分辨率的体素来加强体素的表达能力。然而直接将不同尺寸的体素进行多尺度的叠加的效果并不能立竿见影，因为在将多种尺度的数据进行叠加的时候，也将数据中大量的噪声引入到了网络之中。而且这种直接融合所有数据的另外一个缺点是成倍的增加了运算量。

发明内容

本发明的目的在于克服现有技术缺陷，提出了基于关键点多尺度融合的立体场景目标检测方法及系统。

为了实现上述目的，本发明提出了一种基于关键点多尺度融合的立体场景目标检测方法，所述方法包括：

采集激光雷达点云数据，输入预先建立和训练好的多尺度融合网络，输出三维目标检测结果；

所述多尺度融合网络，利用伪图像回归目标可能的中心点位置，基于关键点进行不同尺度体素的选取，生成对应不同尺度的伪图像并进行叠加，从而加强特征表达能力。

作为上述方法的一种改进，所述多尺度融合网络包括体素化模块、特征提取模块、关键点获取模块、伪图像处理模块、拼接模块、2D卷积神经网络和检测头；其中，

所述体素化模块，用于读取激光雷达点云数据并进行BEV视角的体素化；

所述特征提取模块，用于对体素数据进行处理和特征提取，得到对应的小尺度伪图像；

所述关键点获取模块，用于通过小尺度伪图像回归目标对象可能的中心点位置，得到关键点；

所述伪图像处理模块，用于根据关键点重新选取用于多尺度融合的点云数据，经过特征提取，得到大尺度伪图像；

所述拼接模块，用于对不同尺度的伪图像在通道维度进行拼接，得到特征向量；

所述2D卷积神经网络，用于从特征向量中提取多尺度的特征信息，输出至检测头；

所述检测头，用于对2D卷积神经网络输出的特征信息进行处理，得到目标检测结果。

作为上述方法的一种改进，所述体素化模块的处理过程具体包括：

将点云数据在x_y平面上投影得到一个H*W的网格，进行划分得到H*W个体积为S*S的立柱，每个立柱内有多个点云数据；

将点云数据的每个点(x,y,z,r)由4个维度扩展为10个维度(x,y,z,r,x_c,y_c,z_c,x_p,y_p,z_p)，其中，(x,y,z)为三维坐标，r为反射率，(x_c,y_c,z_c)为立柱内一个点相对于柱体中心点的偏差，(x_p,y_p,z_p)为该点相对于网格中心点的偏差；

对于每个立柱，当点数多于N，进行随机采样得到N个点；当点数少于N以0值进行填充，形成对应该立柱的一个维度为(D,P,N)的张量，D为10，N为每个立柱的采样点数，P为立柱总数目H*W。

作为上述方法的一种改进，所述特征提取模块的处理过程具体包括：

对每个立柱张量的维度由D＝10扩展到C＝64维，得到维度为(C,P,N)的张量，按照立柱所在的维度进行Max Pooling操作，得到(C,P)维度的特征图，再将P转换为H*W，得到形如(C,H,W)的小尺度伪图像。

作为上述方法的一种改进，所述关键点获取模块的处理过程具体包括：

将原始激光雷达点云数据划分为多种尺度，不同尺度的立柱采用不同的分辨率，对分辨率为[S,S]的立柱进行编码，生成尺度为H*W的伪图像，将三维边界框中心点的x和y坐标映射到热力图中，得到关键点(C_x,C_y)：

其中，x_min,x_max,y_min和y_max分别为x和y坐标所能达到的最小值和最大值，h_w和h_l分别为热力图的宽和高。

作为上述方法的一种改进，所述伪图像处理模块的处理过程具体包括：

将关键点坐标(C_x,C_y)分别乘以8，在扩大8倍后的关键点周围选取立柱，根据车辆的长度设置固定边长的正方形范围，范围内的立柱保留并生成相应的大尺度伪图像。

作为上述方法的一种改进，所述拼接模块的处理过程具体包括：

对伪图像处理模块输出的大尺度伪图像通过自适应池化进行尺寸调整；并与特征提取模块输出的小尺度伪图像在通道维度进行拼接得到特征向量。

作为上述方法的一种改进，所述方法还包括：对多尺度融合网络进行训练的步骤；具体步骤如下：

使用标准的KITTI数据集格式数据，标注文件对应三维边界框，将三维边界框的中心点坐标映射到热力图中，得到关键点，生成训练集；

利用训练集对多尺度融合网络进行训练，得到训练好的多尺度融合网络。

一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

一种非易失性存储介质，用于存储计算机程序，所述计算机程序当被处理器执行时执行上述任一项所述的方法

与现有技术相比，本发明的优势在于：

1、本发明利用伪图像回归目标可能的中心点的位置，在中心点的位置选取不同尺度的体素，然后生成对应尺度的伪图像，再对这些伪图像叠加以加强其特征表达能力用于立体场景三维目标检测，实验数据验证本发明可以降低计算消耗和提升检测精度，有效地提升三维目标检测的精度；

2、本发明提出的基于关键点多尺度融合的立体场景三维目标检测方法，可以通过基于关键点的多尺度融合机制，有效加强点云数据的特征表达能力，从而提取到更加有效的特征。

附图说明

图1是本发明基于关键点多尺度融合的立体场景目标检测方法流程图；

图2是本发明基于关键点的多尺度融合网络的结构示意图。

具体实施方式

本发明提供了一种基于关键点多尺度融合的立体场景目标检测方法，包括步骤：

步骤1、本发明使用的数据集为标准的KITTI数据集的格式。

步骤2、读取点云数据，并对点云数据进行BEV(Birds’eye view)视角的体素化。

步骤3、进行体素数据处理和特征提取，获取相对应的伪图像。

步骤4、通过基于中心center-based的方法，利用伪图像获取目标对象的热力图，即利用伪图像回归目标对象可能的中心点位置。

步骤5、根据中心点的位置重新选取用于多尺度融合的点云，经过提取特征，得到高分辨率的伪图像。

步骤6、将步骤5得到的高分辨率伪图像特征进行自适应最大池化与步骤3得到的伪图像特征在通道维度进行拼接，输入到接下来的卷积层和检测头中。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示，本发明的实施例1提供了一种基于关键点多尺度融合的立体场景目标检测方法。包括步骤如下：

步骤1、本发明使用的数据集为标准的KITTI数据集的格式。由于算法的验证要保证公开有效，所以在公开数据集KITTI进行相关的实验。

步骤2、读取LIDAR点云并进行BEV视角的体素化，将点云在x_y平面上投影出来一个H*W的网格，将它们划分为H*W个体积为S*S的立柱(pillar)。每个pillar内有很多点云，原始的点云数据有(x,y,z,r)4个维度，r代表反射率。将其扩展为10个维度(x,y,z,r,x_c,y_c,z_c,x_p,y_p,z_p),带c下标的是点相对于柱子中心的偏差，带p下标的是对点相对于网格中心的偏差。每个柱子中点多于N的进行随机采样至N个点，少于N的进行填充0。于是就形成了一个维度为(D,P,N)的张量，D为10，N为每个pillar的采样点数，P为pillar总数目H*W。

步骤3、对张量化的点云进行数据处理和特征提取。将维度D＝10扩展到C＝64维，这样就获得了一个维度为(C，P，N)的张量。接着，按照pillar所在的维度进行Max Pooling操作，即获得了(C，P)维度的特征图。最后将P转换为H*W，就得到了形如(C，H，W)的伪图像。

步骤4、获取关键点。具体来说，将原始点云划分为多种尺度，不同尺度中pillar采用不同的分辨率。例如，首先我们对分辨率为[S，S]的pillar进行编码，生成尺度为H*W的伪图像，这将作为输入来预测物体的中心点位置。数据集中的标注label文件给出了三维边界框，需要将其中的x和y坐标映射到热力图中，所以这里的真值Ground Truth关键点的计算方法如下：

其中，C_x和C_y分别为Ground Truth关键点的x和y坐标，x和y为3D bounding box中心点的x和y坐标，x_min，x_max，y_min和y_max分别为x和y坐标所能达到的最小值和最大值，h_w和h_l分别为热力图的宽和高。

步骤5、获得了关键点的坐标之后，将其应用于更大尺度的数据之上。由于关键点表现在热力图当中而热力图相比于输入的伪图像缩减了4倍，所以首先应该将得到的关键点坐标乘4。[S/2，S/2]的pillar的长和宽相比于[S，S]也缩小了2倍，相应的关键点坐标就应该乘8。之后便是在关键点周围选取pillar，根据大部分车辆的长度设置了固定边长的正方形范围，范围内的pillar都会被保留下来并生成相应的伪图像。

步骤6、将步骤5得到的大尺度伪图像通过自适应池化的方法调整尺寸，与步骤3的小尺度伪图像在通道维度进行拼接获得128维的特征向量，用以接下来的2D卷积神经网络(2DCNN)进一步提取特征。2DCNN使用成熟的金字塔结构CNN来提取多尺度的特征信息，检测头(Detection head)也使用成熟的RPN head。图2是本发明基于关键点的多尺度融合网络的结构示意图。

实施例2

本发明的实施例2还可提供的一种计算机设备，包括：至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本上述的实施例中，还可通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例3

本发明实施例3提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现实施例1中方法的各个步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于关键点多尺度融合的立体场景目标检测方法，所述方法包括：

所述多尺度融合网络，利用伪图像回归目标可能的中心点位置，基于关键点进行不同尺度体素的选取，生成对应不同尺度的伪图像并进行叠加，从而加强特征表达能力；

所述多尺度融合网络包括体素化模块、特征提取模块、关键点获取模块、伪图像处理模块、拼接模块、2D卷积神经网络和检测头；其中，

2.根据权利要求1所述的基于关键点多尺度融合的立体场景目标检测方法，其特征在于，所述体素化模块的处理过程具体包括：

3.根据权利要求2所述的基于关键点多尺度融合的立体场景目标检测方法，其特征在于，所述特征提取模块的处理过程具体包括：

4.根据权利要求3所述的基于关键点多尺度融合的立体场景目标检测方法，其特征在于，所述关键点获取模块的处理过程具体包括：

其中，x_min,x_max,y_min和y_max分别为z和y坐标所能达到的最小值和最大值，h_w和h_l分别为热力图的宽和高。

5.根据权利要求4所述的基于关键点多尺度融合的立体场景目标检测方法，其特征在于，所述伪图像处理模块的处理过程具体包括：

6.根据权利要求5所述的基于关键点多尺度融合的立体场景目标检测方法，其特征在于，所述拼接模块的处理过程具体包括：

7.根据权利要求1所述的基于关键点多尺度融合的立体场景目标检测方法，其特征在于，所述方法还包括：对多尺度融合网络进行训练的步骤；具体步骤如下：

8.一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

9.一种非易失性存储介质，用于存储计算机程序，所述计算机程序当被处理器执行时执行权利要求1至7中任一项所述的方法。