CN113887462A

CN113887462A - 一种基于多帧点云数据的3d目标检测装置和方法

Info

Publication number: CN113887462A
Application number: CN202111190602.4A
Authority: CN
Inventors: 王念; 范圣印; 李雪
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-01-04
Anticipated expiration: 2041-12-06
Also published as: CN113887462B

Abstract

一种基于多帧点云数据的3D目标检测装置和方法，该装置包括布设在自动驾驶系统中的多帧3D点云数据采集单元、基于3D体素的CNN的提案生成单元、基于注意力机制的对齐单元、基于transformer的点云信息增强单元、单帧目标检测单元；该方法包括通过提案生成模块得到目标提案；对多帧点云的同一个目标的目标提案对齐；对点云信息做强化处理；调用单帧目标检测器、计算总损失、优化3D目标检测结果。本发明对同一个目标在不同帧间做目标对齐操作，有效解决动态物体以帧为单位进行多帧融合时产生的拖影问题，提高目标检测的准确率。本发明通过采用直接从骨干网络提取3D点云的特征得到特征图的方法，保留了点云数据的空间信息，有利于目标对齐、以及点云信息增强。

Description

一种基于多帧点云数据的3D目标检测装置和方法

技术领域

本发明属于机器人自动驾驶技术领域，尤其涉及一种基于多帧点云数据的3D目标检测装置和方法。

背景技术

目标检测是机器人自动驾驶技术领域一项传统任务，目前2D目标检测技术已经相当成熟，3D目标检测正处于高速发展的时期。在三维世界中，3D点云数据是通过激光雷达等扫描设备产生的，得到的点云数据具有稀疏、不规则且无序的特点。由于点云的稀疏性，单帧点云检测可能会有一些缺点，例如单帧点云中不可避免地会出现遮挡、长距离等一些问题，这些问题都会在一定程度上影响单帧目标检测器的检测精度。而多帧点云由于其包含了十分丰富的前景对象的时空信息，可以对其加以利用以提高目标检测器的检测精度，充分利用连续点云数据中的时空信息来设计多帧3D点云目标检测具有重要意义。

现有技术的多帧3D点云目标检测方法是以多帧的整帧为单位进行融合，事实上，一帧中非目标部分的融合对检测结果提升不大，而且各个帧中的目标不都是静止不动的，当以帧为单位进行多帧融合时，由于每一帧的目标不都是静止不动的，运动的目标在每一帧中位置都不同，融合后运动的物体会产生拖影。尽管现有技术对多帧融合拖影问题采用了初始特征层自适应对齐的方法、可以在一定程度上减小动态目标在帧间运动时产生的拖影所带来的影响，但是得到的特征权重图仍然是对一整帧级别的特征图进行加权融合，这种粗糙的以帧为单位进行融合的方式使得解决拖影问题效果不明显，没有产生实质性的突破。

发明内容

本发明为解决现有技术的问题，提出一种基于多帧点云数据的3D目标检测装置和方法，目的在于解决现有技术当以帧为单位进行多帧融合时，以粗糙的以帧为单位进行融合的方式使得解决拖影问题效果不明显、没有产生实质性的突破的问题。

本发明为解决其技术问题，采用以下技术方案：

一种基于多帧点云数据的3D目标检测装置，其特点是：该装置包括布设在自动驾驶系统中的多帧3D点云数据采集单元、基于3D体素的CNN的提案生成单元、基于注意力机制的对齐单元、基于transformer的点云信息增强单元、单帧目标检测单元；该基于3D体素的CNN的提案生成单元，其输入端接收多帧3D点云数据采集单元采集的多帧3D点云数据，输出端将多帧3D点云数据转换为多个特征图的每个特征图的多个目标框的大致位置；该基于注意力机制的对齐单元，其输入端分别接收所述提案生成单元输出的多个特征图的每个特征图的多个目标的大致位置、以及多帧3D点云传感器数据采集单元输入的多帧3D点云数据，输出端输出多个特征图分类对齐后的目标特征向量；所述基于transformer的点云信息增强单元，其输入端接收所述对齐单元输出的多个特征图分类对齐后的目标特征向量，然后把对齐以后的每一类的目标特征向量进行堆叠连接、得到堆叠连接后的特征Z，再将特征Z输入transformer，从而得到信息增强后单帧目标区域，输出端将增强后的单帧目标区域、以及单帧目标区域的大致位置发送给单帧目标检测单元；所述单帧目标检测单元，其输入端分别接收信息增强后的单帧目标区域信息、以及信息增强后的目标区域大致位置信息，输出端细化和微调信息增强后的目标区域的位置。

所述多帧3D点云数据采集单元，包括多帧数量设置模块、读取传感器数据模块、点云序列保存模块；该多帧数量设置模块用于设置能够达到预期融合效果的多帧数量；该读取传感器数据模块用于在设定时间范围内连续采集多帧3D点云数据；该点云序列保存模块用于保存指定时间范围内传感器采集的多帧数据，并将该数据发送给基于3D体素的CNN的提案生成单元、以及基于注意力机制的对齐单元。

所述基于3D体素的CNN的提案生成单元，包括降采样单元、生成2D特征图单元、调用生成目标提案单元；所述降采样单元将3D点云转换成3D体素并使用3D体素卷积网络降采样；所述生成2D特征图单元将降采样后的多帧3D特征体转换成为多帧2D的鸟瞰图特征图；所述调用生成目标提案单元将多帧2D的鸟瞰图特征图输入到目标提案生成网络，该目标提案生成网络对特征图进行处理、生成目标提案，所述目标提案为多帧的每帧特征图的多个目标的大致位置。

所述的基于注意力机制的对齐单元包括生成多帧2D特征图单元、映射并生成目标框单元、生成输入值Q、K、V单元，调用注意力机制结构单元；所述生成多帧2D特征图单元接收所述点云序列保存模块的数据，通过骨干网络直接对3D点云数据提取2D特征图；所述映射并生成目标框单元将所述提案生成单元的多个2D特征图的目标框映射到当前多个对应的2D特征图上，并通过映射关系生成当前多个对应的2D特征图的每个特征图的目标框；所述的生成输入值Q、K、V单元将多帧的当前帧特征图目标框的目标区域作为输入值QUERY Q，将多帧的历史帧的特征图目标框的目标区域作为输入值key K和value V，该多帧的当前帧为多帧当中时间最近的一帧，该多帧的历史帧为多帧当中时间较远的一帧或多帧；所述的调用注意力机制结构单元将Q、K、V输入到注意力机制结构中，得到多个特征图分类对齐后的目标特征向量，该分类对齐是指多个特征图上的相同目标进行归类并加以同类别的标记。

所述基于transformer的点云信息增强单元包括堆叠连接生成特征值单元、以及调用transformer实现多帧融合单元，所述堆叠连接生成特征值单元把对齐以后的每一类的目标特征向量进行堆叠连接，得到堆叠连接后的特征Z；所述调用transformer实现多帧融合单元将特征Z输入transformer，得到信息增强后的目标区域。

所述单帧目标检测单元，包括获取信息增强后的单帧目标区域模块、获取信息增强后的目标区域大致位置模块、细化和微调信息增强后的目标区域的大致位置模块、输出信息增强后的目标区域的精确位置模块；所述输出信息增强后的目标区域的精确位置模块根据获取信息增强后的单帧目标区域模块、以及获取信息增强后的目标区域大致位置模块的信息，并加以处理，输出信息增强后的目标区域的精确位置。

一种多帧点云数据3D目标检测方法，其特征在于，包括以下步骤：

步骤一、多帧点云的每一帧通过提案生成模块得到目标提案；

步骤二、对多帧点云的同一个目标的目标提案对齐；

步骤三、融合多帧点云的信息对目标级别的点云信息做强化处理；

步骤四、调用单帧目标检测器、计算总损失、优化3D目标检测结果。

所述步骤一的多帧点云的每一帧通过提案生成模块得到目标提案，具体过程如下：

1)多帧点云3D目标检测初始化：该初始化包括多帧数量设置、读取传感器数据、点云序列保存，该保存的点云序列用于步骤一的提案生成、以及步骤二的目标提案对齐；

2)将多帧3D点云转换成多帧3D体素、并使用3D体素卷积网络降采样：

3)将降采样后的多帧3D特征体转换成为多帧2D的鸟瞰图特征图；

4)调用生成目标提案网络生成目标提案：将多帧2D的鸟瞰图特征图输入到目标提案生成网络，该目标提案生成网络对特征图进行处理、生成目标提案。

5)计算目标提案网络的损失值，该损失值是指该网络训练过程中的输出值和正确值的误差，损失值越小训练效果越好。

所述步骤二的对多帧点云的同一个目标的提案对齐，具体过程如下：

1)通过骨干网络直接对3D点云数据提取特征生成多帧2D特征图；

2)将步骤一的2D特征图的目标框映射到当前对应的2D特征图上；

3)通过映射关系生成多帧的每一帧特征图的目标框，多帧的当前帧为时间最近的一帧，多帧的历史帧为时间较远的一帧或多帧；将多帧的当前帧特征图目标框的目标区域作为输入值QUERY Q，将多帧的历史帧的特征图目标框的目标区域作为输入值key K和value V；

4)将Q、K、V输入到注意力机制网络中；

5)根据注意力机制网络输出的数据计算该网络的损失函数，所述损失函数即为训练过程中的输出值和正确值的偏差，偏差越小效果越好。

6)得到多个特征图分类对齐后的目标特征向量。

所述步骤三的融合多帧点云的信息对目标级别的点云信息做强化处理，具体过程如下：

1)把对齐以后的每一类的目标特征向量进行堆叠连接，得到堆叠连接后的特征Z；

2)将特征Z输入transformer，得到信息增强后目标区域。

所述步骤四的调用单帧目标检测器、计算总损失、优化3D目标检测结果，具体过程如下：

1)调用单帧目标检测器:将增强后的单帧目标检测区域、以及单帧目标区域的大致位置发送给单帧目标检测单元；

2)计算总损失:所述的总损失包括:提案生成网络的损失、注意力机制结构的损失、单帧目标检测器的损失；

3)优化3D目标检测结果:采用总的损失函数并行训练各个模块的网络，所述并行训练各个模块的网络，就是各个模块的损失函数之间是相互匹配的、各个模块的损失函数是通过总的损失函数反推得到的，从而区别于串行训练网络时，其前、后模块的损失函数相对独立，且其前、后模块的训练也相对独立，导致前、后模块的损失函数之间需要反复匹配、以及前、后模块的训练也要反复训练的情况，所述各个模块包括提案生成网络、注意力机制结构、单帧目标检测器。

本发明的优点效果

1、本发明对同一个目标在不同帧间做目标对齐操作，有效解决动态物体以帧为单位进行多帧融合时产生的拖影问题，提高目标检测的准确率。通过基于3D体素CNN的提案生成模块生成各个目标对应的提案后，使用基于注意力机制的目标对齐模块来对齐多帧中同一个目标的所有提案，这种对各帧中目标对齐的操作，可以为之后进行目标级别的目标提案区域信息融合和增强做准备，从而有效解决动态物体以帧为单位进行多帧融合时产生的拖影问题。

2、本发明能有效利用时序点云中的时空信息。通过采用直接从骨干网络提取3D点云的特征得到特征图的方法，保留了点云数据的空间信息，这些被保留的空间信息对于有利于基于注意力机制的目标对齐、以及有利于基于transformer的点云信息增强。

附图说明

图1为本发明基于多帧点云数据的3D目标检测装置功能框图；

图2为本发明多帧3D点云数据采集单元功能框图；

图3为本发明基于3D体素的CNN提案生成单元功能框图；

图4为本发明基于注意力机制的对齐单元功能框图；

图5为本发明基于transformer的点云信息增强单元功能框图；

图6为本发明单帧目标检测单元功能框图；

图7为本发明多帧点云数据3D目标检测方法流程图。

具体实施方式

本发明的设计原理

1、单帧目标检测器和本发明设计目标：单帧目标检测器用于对当前获得的一帧数据进行目标定位。传统使用单帧目标检测器的方法是：给其一帧数据，单帧目标检测器接收数据后，对当前帧进行目标定位。由于该方法给出的单帧数据是没有经过增强处理的单帧原始数据，单帧原始数据往往是稀疏的或者被遮挡的质量不佳的数据，还由于传统方法中，在给出单帧数据的同时并没有给出目标的大概位置，需要单帧目标检测器从零做起进行目标定位，所以，传统的单帧目标检测器由于获得的目标区域的信息缺失以及从零做起进行目标定位，使得传统的单帧目标检测器的目标定位效率和定位精度均不能达到理想的要求。本发明的设计目标有2个，第一，利用多帧数据弥补单帧数据的缺陷，发送给单帧目标检测器的数据是信息增强以后的单帧数据；第二、发送单帧数据的同时，将目标框的大致位置也同时提供给单帧目标检测器，单帧目标检测器获得目标框的大致位置后，不需要从零做起进行定位，而是利用已有的定位基础，再进行小范围的精细位置调整。采用本发明方法后，第一，由于单帧目标检测器接收的单帧数据是增强信息后的数据，增强信息后的单帧数据更加有利于单帧目标定位进行目标位置的调整；第二，由于单帧目标检测器是在已有的目标大致位置确定的基础上进行小范围微调，因此，有效提高了定位精度和定位效率。

2、本发明的设计难点：难点之一在于：多帧是动态的、多帧之间时间不同步。当以帧为单位进行多帧融合时，由于每一帧的目标不都是静止不动的，运动的目标在每一帧中位置都不同，融合后运动的物体会产生拖影。难点之二在于：保留空间信息和损失空间信息的矛盾：将多帧3D点云转换成多帧3D体素、并使用3D体素卷积网络降采样、降采样后将3D特征图转换成为多帧2D鸟瞰图特征图。降采样后，虽然保留和突出了与目标物相关的信息、便于目标提案的生成、便于确定目标框的大致位置，但从3D空间转换为2D空间时会有一定的空间信息损失。这些空间信息损失对于后面的目标提案对齐、以及目标区域信息强化处理是非常不利的，因为损失的空间信息里面也包括目标区域本身的信息。当目标区域不需要对齐和不需要强化、而只是确定大致位置时，损失空间信息对于确定大致位置影响不大，但是当目标区域的大致位置确定以后，需要进一步进行目标提案对齐、以及目标区域信息强化时，此时由于目标区域本身损失了一部分空间信息，将会影响目标提案对齐、以及目标区域信息强化。

3、本发明的解决方案：对于难点之一的解决方案：避开多帧是动态的这个难题，把每一帧中的目标单独抠出来，再进行融合，在融合过程中，脱离了多个目标特征向量原有的物理位置、所以能够彻底解决拖影问题。单独抠出来进行融合，与不单独抠出来进行融合的区别在于：不单独抠出来的方法为整帧融合，整帧融合过程中原来的物理位置不会改变，所以融合以后的目标拖影仍然存在。所述把每一帧中的目标单独抠出来的步骤，即为步骤二的过程6)得到多个特征图分类对齐后的目标特征向量，该目标特征向量对应每一帧中的目标。对于难点之二的解决方案：分不同阶段采用不同的方法，当需要确定目标框的大致位置时，则采用减少运算信息提高运算效率的方法，此时采用卷积网络降采样，降采样后信息浓缩，运算速度快；当需要目标提案对齐、以及目标区域信息强化时，则采用保留空间信息的方法，此时换为另一个网络，由卷积网络改为骨干网络，骨干网络和卷积网络的不同点在于，没有降采样的过程，直接对3D点云数据提取特征生成多帧2D特征图，这样就保留了空间信息。此处的2D特征图是指二维矩阵，二维矩阵中也可以保留空间信息。

基于以上发明原理，本发明设计了一种基于多帧点云数据的3D目标检测装置。

一种基于多帧点云数据的3D目标增强装置如图1-图6所示，其特点是：该装置包括布设在车载自动驾驶系统中的多帧3D点云传数据采集单元、基于3D体素的CNN的提案生成单元、基于注意力机制的对齐单元、基于transformer的点云信息增强单元、单帧目标检测单元；该基于3D体素的CNN的提案生成单元，其输入端接收多帧3D点云数据采集单元采集的多帧3D点云数据，输出端将多帧3D点云数据转换为多个特征图的每个特征图的多个目标框的大致位置；该基于注意力机制的对齐单元，其输入端分别接收所述提案生成单元输出的多个特征图的每个特征图的多个目标的大致位置、以及多帧3D点云传感器数据采集单元输入的多帧3D点云数据，输出端输出多个特征图分类对齐后的目标特征向量；所述基于transformer的点云信息增强单元，其输入端接收所述对齐单元输出的多个特征图分类对齐后的目标特征向量，然后把对齐以后的每一类的目标特征向量进行堆叠连接、得到堆叠连接后的特征Z，再将特征Z输入transformer，从而得到信息增强后单帧目标区域，输出端将增强后的单帧目标区域、以及单帧目标区域的大致位置发送给单帧目标检测单元；所述单帧目标检测单元，其输入端分别接收信息增强后的单帧目标区域信息、以及信息增强后的目标区域大致位置信息，输出端细化和微调信息增强后的目标区域的大致位置。

所述多帧3D点云传数据采集单元，包括多帧数量设置模块、读取传感器数据模块、点云序列保存模块；该多帧数量设置模块用于设置能够达到预期融合效果的多帧数量；该读取传感器数据模块用于在设定时间范围内连续采集多帧3D点云数据；该点云序列保存模块用于保存指定时间范围内传感器采集的多帧数据，并将该数据发送给基于3D体素的CNN的提案生成单元、以及基于注意力机制的对齐单元。

所述的基于注意力机制的对齐单元包括生成多帧2D特征图单元、映射并生成目标框单元、生成输入值Q、K、V单元，调用注意力机制结构单元；所述生成多帧2D特征图单元接收所述点云序列保存模块的数据，再次对3D点云数据提取特征生成多帧2D特征图；所述映射并生成目标框单元将所述提案生成单元的多个2D特征图的目标框映射到当前多个对应的2D特征图上，并通过映射关系生成当前多个对应的2D特征图的每个特征图的目标框；所述的生成输入值Q、K、V单元将多帧的当前帧特征图目标框的目标区域作为输入值QUERY Q，将多帧的历史帧的特征图目标框的目标区域作为输入值key K和value V，该多帧的当前帧为多帧当中时间最近的一帧，该多帧的历史帧为多帧当中时间较远的一帧或多帧；所述的调用注意力机制结构单元将Q、K、V输入到注意力机制结构中，得到多个特征图分类对齐后的目标特征向量，该分类对齐是指多个特征图上的相同目标进行归类并加以同类别的标记。

所述基于transformer的点云信息增强单元包括堆叠连接生成特征值单元、以及调用transformer实现多帧融合单元，所述堆叠连接生成特征值单元把对齐以后的每一类的目标特征向量进行堆叠连接，得到堆叠连接后的特征Z；所述调用transformer实现多帧融合单元，将特征Z输入transformer，得到信息增强后的目标区域。

一种多帧点云数据3D目标检测方法，如图7所示，其特征在于，包括以下步骤：

具体过程如下：

1)多帧点云3D目标检测初始化：该初始化包括多帧数量设置、读取传感器数据、点云序列保存，该点云序列用于步骤一的提案生成、以及步骤二的目标提案对齐；

2)将多帧3D点云转换成多帧3D体素、并使用3D体素卷积网络降采样；

补充说明：

本发明采用卷积神经网络的目的是降采样，降采样效果是对原来的3D体素信息进行浓缩、浓缩后突出目标物信息。降采样后，卷积神经网络输出一个3D特整体，该3D特整体相比降采样前的3D体素突出了目标物信息，同时也损失了空间信息。损失的空间信息包括与目标信息无关的信息，同时，也包括目标物自身的信息，但总的效果是突出了目标物的信息。

补充说明：

3D特征体虽然突出了目标物的信息，但2D特征体相比3D特征体处理速度更快，精确度也较高，因此采用3D特征体转换为2D特征体的方法，兼顾了效率和精确度的二者平衡。

4)调用生成目标提案模块生成目标提案：将多帧2D的鸟瞰图特征图输入到目标提案生成网络，该目标提案生成网络对特征图进行处理、生成目标提案；

补充说明：

该生成目标提案模块属于第三方软件，本实施例仅对对该软件的工作原理作出以下简要说明：

a)在每个特征图上设置多个锚点，以每个锚点为中心点、在中心点周围设置具有不同尺度和宽高比的锚点框；

b)将当前特征图的每个锚点框分别输入到目标提案生成网络的两个网络层中去，一个为目标分类层，一个为目标偏移层；所述目标分类层用于计算当前锚点框里面的特征图是否属于目标；所述目标偏移层用于计算当前锚点框的中心点相对于目标框的中心点的偏移；

c)根据目标提案生成网络的目标分类层的输出概率值，确定每个特征图中唯一目标框，并且根据该目标提案生成网络的目标偏移层计算该目标框的大致位置；

d)获得多个特征图每个特征图的多个目标的大致位置。

步骤二、对多帧点云的同一个目标的目标提案对齐；

具体过程如下：

2)将步骤一目标提案得到的2D特征图的目标框映射到当前对应的2D特征图上；

补充说明：

第一、步骤二生成多帧2D特征图与步骤一生成的多帧2D特征图是不同的，步骤二采用了和步骤一卷积网络不同的骨干网络，直接从3D体素中提取2D特征图，其效果是保留了空间信息，而步骤一是采用卷积网络进行降采样，降采样的结果信息损失了一部分与目标信息无关的空间信息，而只保留了和目标物体有关的信息，采用卷积网络信息浓缩信息的目的是减少信息量、实现目标框的快速定位；而步骤二的2D特征图是用于后面的对齐和融合，那就需要信息全面、细腻，虽然步骤一和步骤二同样建立了2D特征图，但步骤一的2D特征图突出了目标物体的信息，步骤二的2D特征图补充了空间信息，因此步骤二的2D特征图不能借用步骤一的2D特征图。

第二、步骤二的目标提案对齐中可以借用步骤一的目标框的大致位置的结果，虽然步骤一的2D特征图的空间信息有所损失，但并不影响借用其目标框的位置信息，因此，将步骤一的目标框的位置映射到步骤二的对应的特征图上，但此时只是映射、还没有在步骤二的特征图上建立目标框；

4)将Q、K、V输入到注意力机制结构中；

6)得到多个特征图分类对齐后的目标特征向量。

补充说明

第一、这里所述的分类对齐不是物理位置的对齐而是相同目标的归类，分类对齐就是把相同目标归为一类，把不同目标归为另外一类。

第二、分类对齐后得到了目标特征向量。

具体过程如下：

2)将特征Z输入transformer，得到信息增强后目标区域。

补充说明：

关于transformer的内部结构和工作原理，参见《Temporal-Channel Transformerfor 3D Lidar-Based Video Object Detection in Autonomous Driving》

具体过程如下：

3)优化3D目标检测结果:采用总的损失函数，并行训练各个模块的网络，所述并行训练各个模块的网络，就是各个模块的损失函数之间是相互匹配的、各个模块的损失函数是通过总的损失函数反推得到的，从而区别于串行训练网络时，其前、后模块的损失函数相对独立，且其前、后模块的训练也相对独立，导致前、后模块的损失函数之间需要反复匹配、以及前、后模块的训练也要反复训练的情况，所述各个模块包括提案生成网络、注意力机制结构、单帧目标检测器。

补充说明：

调用单帧目标检测器：一般单帧目标检测器的使用方法为：给它输入一帧数据、单帧目标检测器输出一个单帧中目标的位置。本发明和常规方法的区别在于：其一、输入的单帧数据是多帧融合后信息增强的单帧数据，而非稀疏的或被遮挡的信息不完整的单帧数据，其二、不仅仅向单帧目标检测器输入信息增强后的单帧数据，还将该帧的目标提案一同输入到单帧目标检测器，所述的目标提案就是目标的大致位置。本实发明调用单帧目标检测器的目的在于细化之前的目标提案，所述细化之前的目标提案即为：精确目标的偏移和大小。

本发明使用Faster RCNN中最后的Classification部分来做单帧目标检测以得到最后的结果。单帧目标检测的工作机理是：首先由两个全连接层-relu层组成，然后分别输入两个网络层中，一个通过全连接层和softmax对目标提案进行分类，另一个通过全连接层对目标提案进行bounding box regression，获取更高精度的目标框。

实施例一:各个模块损失函数的计算

1)提案生成网络的损失计算：

该网络中损失函数有两个，一个是分类损失proposal_cls_loss，这里使用交叉熵，另一个是回归损失proposal_reg_loss，这里使用smooth L1 loss。整个提案生成网络的损失函数设置为：

proposal_loss＝proposal_reg_loss+proposal_cls_loss；

2)注意力机制结构的损失计算：

辅助损失来帮助训练该模块。具体来说，添加了一个单独的分类和回归头，使用对齐阶段提取的特征向量预测的目标提案与其相应的ground-truth box之间的盒残差作为该模块的损失，记为L_{cross_view}；

3)单帧目标检测其的损失计算：

单帧目标检测器进行了分类和回归任务，所以设置两个损失函数。一个是分类损失cls_loss，使用交叉熵，另一个是回归损失reg_loss，使用smooth L1loss。总损失box_loss计算如下：box_loss＝cls_loss+reg_loss；

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例。

Claims

1.一种基于多帧点云数据的3D目标检测装置，其特征在于：该装置包括布设在自动驾驶系统中的多帧3D点云数据采集单元、基于3D体素的CNN的提案生成单元、基于注意力机制的对齐单元、基于transformer的点云信息增强单元、单帧目标检测单元；该基于3D体素的CNN的提案生成单元，其输入端接收多帧3D点云数据采集单元采集的多帧3D点云数据，输出端将多帧3D点云数据转换为多个特征图的每个特征图的多个目标框的大致位置；该基于注意力机制的对齐单元，其输入端分别接收所述提案生成单元输出的多个特征图的每个特征图的多个目标的大致位置、以及多帧3D点云传感器数据采集单元输入的多帧3D点云数据，输出端输出多个特征图分类对齐后的目标特征向量；所述基于transformer的点云信息增强单元，其输入端接收所述对齐单元输出的多个特征图分类对齐后的目标特征向量，然后把对齐以后的每一类的目标特征向量进行堆叠连接、得到堆叠连接后的特征Z，再将特征Z输入transformer，从而得到信息增强后单帧目标区域，输出端将增强后的单帧目标区域、以及单帧目标区域的大致位置发送给单帧目标检测单元；所述单帧目标检测单元，其输入端分别接收信息增强后的单帧目标区域信息、以及信息增强后的目标区域大致位置信息，输出端输出信息增强后的目标区域的精确位置。

2.根据权利要求1所述一种基于多帧点云数据的3D目标检测装置，其特征在于：所述多帧3D点云数据采集单元，包括多帧数量设置模块、读取传感器数据模块、点云序列保存模块；该多帧数量设置模块用于设置能够达到预期融合效果的多帧数量；该读取传感器数据模块用于在设定时间范围内连续采集多帧3D点云数据；该点云序列保存模块用于保存指定时间范围内传感器采集的多帧数据，并将该数据发送给基于3D体素的CNN的提案生成单元、以及基于注意力机制的对齐单元。

3.根据权利要求1所述一种基于多帧点云数据的3D目标检测装置，其特征在于：所述基于3D体素的CNN的提案生成单元，包括降采样单元、生成2D特征图单元、调用生成目标提案单元；所述降采样单元将3D点云转换成3D体素并使用3D体素卷积网络降采样；所述生成2D特征图单元将降采样后的多帧3D特征体转换成为多帧2D的鸟瞰图特征图；所述调用生成目标提案单元将多帧2D的鸟瞰图特征图输入到目标提案生成网络，该目标提案生成网络对特征图进行处理、生成目标提案，所述目标提案为多帧的每帧特征图的多个目标的大致位置。

4.根据权利要求1所述一种基于多帧点云数据的3D目标检测装置，其特征在于：所述的基于注意力机制的对齐单元包括生成多帧2D特征图单元、映射并生成目标框单元、生成输入值Q、K、V单元，调用注意力机制结构单元；所述生成多帧2D特征图单元接收所述点云序列保存模块的数据，通过骨干网络直接对3D点云数据提取2D特征图；所述映射并生成目标框单元将所述提案生成单元的多个2D特征图的目标框映射到当前多个对应的2D特征图上，并通过映射关系生成当前多个对应的2D特征图的每个特征图的目标框；所述的生成输入值Q、K、V单元将多帧的当前帧特征图目标框的目标区域作为输入值QUERY Q，将多帧的历史帧的特征图目标框的目标区域作为输入值key K和value V，该多帧的当前帧为多帧当中时间最近的一帧，该多帧的历史帧为多帧当中时间较远的一帧或多帧；所述的调用注意力机制结构单元将Q、K、V输入到注意力机制结构中，得到多个特征图分类对齐后的目标特征向量，该分类对齐是指多个特征图上的相同目标进行归类并加以同类别的标记。

5.根据权利要求1所述一种基于多帧点云数据的3D目标检测装置，其特征在于：所述基于transformer的点云信息增强单元包括堆叠连接生成特征值单元、以及调用transformer实现多帧融合单元，所述堆叠连接生成特征值单元把对齐以后的每一类的目标特征向量进行堆叠连接，得到堆叠连接后的特征Z；所述调用transformer实现多帧融合单元将特征Z输入transformer，得到信息增强后的目标区域；所述单帧目标检测单元，包括获取信息增强后的单帧目标区域模块、获取信息增强后的目标区域大致位置模块、细化和微调信息增强后的目标区域的大致位置模块、输出信息增强后的目标区域的精确位置模块；所述输出信息增强后的目标区域的精确位置模块根据获取信息增强后的单帧目标区域模块、以及获取信息增强后的目标区域大致位置模块的信息，并加以处理，输出信息增强后的目标区域的精确位置。

6.一种基于权利要求1-5任意一项所述一种基于多帧点云数据的3D目标检测装置的多帧点云数据3D目标检测方法，其特征在于，包括以下步骤：

步骤二、对多帧点云的同一个目标的目标提案对齐；

7.根据权利要求6所述的多帧点云数据3D目标检测方法，其特征在于：所述步骤一的多帧点云的每一帧通过提案生成模块得到目标提案，具体过程如下：

4)调用生成目标提案网络生成目标提案：将多帧2D的鸟瞰图特征图输入到目标提案生成网络，该目标提案生成网络对特征图进行处理、生成目标提案；

8.根据权利要求6所述的多帧点云数据3D目标检测方法，其特征在于：所述步骤二的对多帧点云的同一个目标的提案对齐，具体过程如下：

3)通过映射关系生成多帧的每一帧特征图的目标框，多帧的当前帧为时间最近的一帧，多帧的历史帧为时间较远的一帧或多帧；将多帧的当前帧特征图目标框的目标区域作为输入值QUERY Q，将多帧的历史帧的特征图目标框的目标区域作为输入值key K和valueV；

4)将Q、K、V输入到注意力机制网络中；

5)根据注意力机制网络输出的数据计算该网络的损失函数，所述损失函数即为训练过程中的输出值和正确值的偏差，偏差越小效果越好；

6)得到多个特征图分类对齐后的目标特征向量。

9.根据权利要求6所述的多帧点云数据3D目标检测方法，其特征在于：所述步骤三的融合多帧点云的信息对目标级别的点云信息做强化处理，具体过程如下：

2)将特征Z输入transformer，得到信息增强后目标区域。

10.根据权利要求6所述的多帧点云数据3D目标检测方法，其特征在于：所述步骤四的调用单帧目标检测器、计算总损失、优化3D目标检测结果，具体过程如下：