CN113468950A

CN113468950A - 一种基于深度学习的无人驾驶场景下的多目标跟踪方法

Info

Publication number: CN113468950A
Application number: CN202110517071.9A
Authority: CN
Inventors: 高宠智; 文进; 张路玉; 郭启翔; 何薇; 谢斌; 吴明瞭; 刘磊; 胡博伦; 曾天灵; 刘海涛; 黎明; 余平兰; 刘霞
Original assignee: Dongfeng Automobile Co Ltd
Current assignee: Dongfeng Automobile Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-10-01

Abstract

一种基于深度学习的无人驾驶场景下的多目标跟踪方法，该方法包括以下步骤：S1、通过三维目标检测模型PointPillars对无人驾驶场景下的车辆进行检测，得到基于图像的二维检测框和基于点云的三维检测框；S2、以VGG16网络和PointNet网络为基础，分别对基于图像的二维检测框和基于点云的三维检测框进行特征提取，得到图像特征向量和点云特征向量，然后将图像特征向量和点云特征向量进行融合得到融合特征向量；S3、通过当前帧的融合特征向量、检测框信息和前一帧的融合特征向量、轨迹信息计算得到目前跟踪到的轨迹信息。本设计不仅提升了目标跟踪的精度，而且解决了复杂场景下目标间的遮挡问题。

Description

一种基于深度学习的无人驾驶场景下的多目标跟踪方法

技术领域

本发明涉及无人驾驶和人工智能领域，尤其涉及一种基于深度学习的无人驾驶场景下的多目标跟踪方法，主要适用于提升目标跟踪精度，解决复杂场景下目标间的遮挡问题。

背景技术

无人驾驶车辆在运动过程中的跟踪问题是一大难题。优秀的跟踪算法需要对前方的障碍物，尤其是行人和车辆有较好的检测和跟踪效果，准确判断其行为意图，从而进行合理的路径规划。多目标跟踪通过在视频序列中检测运动目标，并在不同帧中将这些目标一一对应，给出不同目标的运动轨迹，预测其短期运动趋势，并判断其行为意图。多目标跟踪结果可用于无人驾驶车辆进行避障策略的制定和动态路径的规划。

基于点云和图像融合的三维多目标跟踪系统，该技术采用目前主流的Tracking-by-Detection(先检测后跟踪)框架，一共可分为四个阶段：检测阶段、特征提取阶段、相似度计算阶段、数据关联与跟踪阶段。(1)检测阶段：输入源来自于单目相机拍摄的图像数据和激光雷达收集的点云数据，首先经过基于图像和点云融合的三维目标检测器AVOD提取出检测框，作为特征提取阶段的输入；(2)特征提取器阶段：利用VGG16网络对图像中检测到的二维目标检测框进行特征提取；(3)相似度计算阶段：输入来自特征提取阶段获取的目标表观特征和检测阶段获取的检测框信息到孪生网络中，通过孪生卷积神经网络来计算基于Bounding Box的相似度和基于外观特征的相似度，然后通过不同的权重分配来融合两相似度矩阵得到最终的相似度矩阵；(4)数据关联与跟踪阶段：输入相似度矩阵，利用自定义的卷积神经网络找出相邻两帧间相关联的目标，并赋予相同的身份信息，对于新出现的目标赋予新的身份信息，以完成对多目标的跟踪。该技术的缺点为：在复杂交通场景下，干扰物体与跟踪目标之间常常相互交错遮挡，这会带来目标身份不断切换的现象；图像数据的语义信息能够对目标的属性进行识别，激光点云的几何信息能够帮助改善遮挡问题，但是该技术仅在3D目标检测阶段使用到了点云数据，在后续的数据关联阶段使用的仍然是图像数据。因此，该技术没有充分的利用现有数据的特征，试图仅通过建模目标的表观特征来实现多目标的跟踪，却忽视了在特征提取阶段如何应对遮挡情况的发生。

基于单目相机的三维联合检测与跟踪，该技术同样采用的是先检测后跟踪的框架，整体分为两个网络：一个用于实现3D目标检测，一个用于实现多目标跟踪。单一输入源：RGB图像，来自单目相机。目标检测：使用Faster RCNN对RGB图像进行二维分类与检测，而后使用34层的DLA-UP网络对图像中的检测框进行进一步的特征提取，并作为一个3层的3*3卷积网络的输入，最后输出的是图像中目标的三维信息，包括中心点坐标、3D尺寸、深度以及朝向角。目标跟踪：数据关联和跟踪，基于检测框与轨迹的交并比和特征信息进行关联矩阵的计算，并将此作为匈牙利算法的输入，寻找轨迹与跟踪框之间的最优的匹配解。另外，本技术还使用了LSTM运动模型对轨迹进行预测和更新。该技术的缺点为：利用图像数据进行三维目标检测与跟踪，这本身就是一个病态问题，没有深度测量或者强先验信息的情况下，仅利用单一的视图并不能准确地估计道路环境的三维布局，例如当目标间存在严重遮挡时就不容易学习到目标的朝向角和深度信息；数据关联阶段使用的是非深度学习的方法，利用自定义的相似度计算机制进行目标间的匹配，虽然这种算法在一定程度上能够找出相邻两帧内相互匹配的目标，但是该方法发生目标误配的可能性仍较高。

发明内容

本发明的目的是克服现有技术中存在的目标跟踪精度低、忽视复杂场景下目标间遮挡的缺陷与问题，提供一种目标跟踪精度高、可有效解决复杂场景下目标间遮挡问题的基于深度学习的无人驾驶场景下的多目标跟踪方法。

为实现以上目的，本发明的技术解决方案是：一种基于深度学习的无人驾驶场景下的多目标跟踪方法，该方法包括以下步骤：

S1、通过三维目标检测模型PointPillars对无人驾驶场景下的车辆进行检测，得到基于图像的二维检测框和基于点云的三维检测框；

S2、以VGG16网络和PointNet网络为基础，分别对基于图像的二维检测框和基于点云的三维检测框进行特征提取，得到图像特征向量和点云特征向量，然后将图像特征向量和点云特征向量进行融合得到融合特征向量；

S3、通过当前帧的融合特征向量、检测框信息和前一帧的融合特征向量、轨迹信息计算得到目前跟踪到的轨迹信息。

步骤S1中，先在三维空间内对点云数据集合按照等尺寸柱均匀划分，提取柱内点云特征生成伪图像，再利用二维卷积神经网络提取伪图像的特征，然后通过检测头对目标对象进行三维边界框的生成与回归，得到基于点云的三维检测框。

步骤S1中，通过点云坐标系和图像坐标系之间的转换实现从三维到二维的投影，得到基于图像的二维检测框。

步骤S2中，对基于图像的二维检测框进行特征提取包括以下步骤：

先输入大小为224×224×3×M的图像数据集合，其中，M为当前图片中检测框的数量，再通过上采样处理后在不同卷积层分别输出分辨率为56×56×128×M、28×28×256×M、14×14×512×M、7×7×512×M的四个特征向量，然后通过横向连接的四个子网络再依次处理上述四个特征向量，最后输出大小为1×512×M的图像特征向量f_2D。

步骤S2中，对基于点云的三维检测框进行特征提取包括以下步骤：

先输入大小为1×3×L的点云数据集合，然后经过点云对齐、MLP特征映射以及平均池化操作后输出大小为1×512×M的点云特征向量f_3D。

步骤S2中，通过以下步骤得到融合特征向量：

将图像特征向量f_2D和点云特征向量f_3D一起输入到基于注意力机制的特征融合模块，通过不同的权重分配来有效的结合图像特征和点云特征，最终输出大小为1×512×M的融合特征向量F_T。

步骤S3具体包括以下步骤：

S31、输入当前帧的特征向量F_T、检测框信息D_T和前一帧的特征向量F_T-1、轨迹信息T_T-1，计算相似度矩阵，求得基于检测框的置信度、目标再出现与消失的概率分数；

S32、将数据关联看成是线性规划问题，在两帧检测框的条件下，利用线性规划求解器求出最优解；

S33、通过最优解为两帧内所有的检测框赋予连续的ID号、找到相关联的检测框分配相同的ID号、找出新出现的目标赋予新的连续的ID号，以实现两帧内目标跟踪；

S34、将已经匹配上的目标和新目标连接到历史跟踪轨迹中，以实现连续帧内的多目标跟踪。

步骤S31中，所述相似度矩阵利用图卷积网络进行计算。

步骤S31中，利用卷积网络对输入的图像特征和点云特征进行预测，预测每一个检测框属于车辆的概率，即基于检测框的置信度。

步骤S31中，所述目标再出现与消失的概率分数通过预测网络求得。

与现有技术相比，本发明的有益效果为：

1、本发明一种基于深度学习的无人驾驶场景下的多目标跟踪方法中，联合图像数据的语义信息和点云数据的几何信息进行目标跟踪，利用图像数据的语义信息对目标的属性进行识别，利用激光点云的集合信息改善目标遮挡问题；同时，为了增强匹配特征的判别能力，确保提取的特征能够解释目标的完整轮廓，以VGG16网络和PointNet网络为基础，分别对基于图像的二维检测框和基于点云的三维检测框进行特征提取。因此，本发明不仅提升了目标跟踪的精度，而且解决了复杂场景下目标间的遮挡问题。

2、本发明一种基于深度学习的无人驾驶场景下的多目标跟踪方法中，利用图卷积网络实现了相邻帧目标间的相似度计算，网络通过不断的学习来输出更加准确的目标间的相似度。因此，本发明准确度高。

3、本发明一种基于深度学习的无人驾驶场景下的多目标跟踪方法中，针对点云数据的特征提取，考虑到提取的数据为目标本身，高维特征中包含的信息对于后续关联阶段来说都是有价值的，所以将原PointNet模型中的最大池化操作换成了平均池化操作，以聚合高维空间中每一点的信息；针对图像数据的特征提取，在保留VGG16主干网络的基础上，额外添加了四个横向连接的小型子网络，用于实现高低层特征的融合。因此，本发明特征提取准确度高。

4、本发明一种基于深度学习的无人驾驶场景下的多目标跟踪方法中，考虑到太阳光强烈时RGB信息表征能力不足、在阴雨天气下点云信息可能丢失的情况，引入空间注意力模块，让网络自主学习到当前时刻输入特征的相对重要性，以实现更好的目标特征表达。因此，本发明目标特征表达效果好。

附图说明

图1是本发明的结构框图。

图2是本发明中目标检测算法的流程图。

图3是本发明中图像特征提取网络示意图。

图4是本发明中点云特征提取网络示意图。

图5是本发明中多源特征融合示意图。

图6是本发明中利用图卷积网络计算相似度的示意图。

图7是本发明中预测网络的示意图。

具体实施方式

以下结合附图说明和具体实施方式对本发明作进一步详细的说明。

参见图1至图7，一种基于深度学习的无人驾驶场景下的多目标跟踪方法，该方法包括以下步骤：

步骤S2中，通过以下步骤得到融合特征向量：

步骤S3具体包括以下步骤：

步骤S31中，所述相似度矩阵利用图卷积网络进行计算。

本发明的原理说明如下：

本设计利用机器学习和深度神经网络的方法建立端到端的跟踪系统，解决视频动态目标跟踪的问题。本设计提出的模型依旧遵循目前基于深度学习的多目标跟踪方法的主流框架：Tracking-by-Detection，框架一共可分为三个阶段：三维目标检测、多源特征提取与融合、数据关联与跟踪。

实施例：

先在三维空间内对点云数据集合按照等尺寸柱均匀划分，提取柱内点云特征生成伪图像，再利用二维卷积神经网络提取伪图像的特征，然后通过检测头对目标对象进行三维边界框的生成与回归，得到基于点云的三维检测框；

通过点云坐标系和图像坐标系之间的转换实现从三维到二维的投影，得到基于图像的二维检测框；

对基于图像的二维检测框进行特征提取包括以下步骤：先输入大小为224×224×3×M的图像数据集合，其中，M为当前图片中检测框的数量，再通过上采样处理后在不同卷积层分别输出分辨率为56×56×128×M、28×28×256×M、14×14×512×M、7×7×512×M的四个特征向量，然后通过横向连接的四个子网络再依次处理上述四个特征向量，最后输出大小为1×512×M的图像特征向量f_2D；

对基于点云的三维检测框进行特征提取包括以下步骤：先输入大小为1×3×L的点云数据集合，然后经过点云对齐、MLP特征映射以及平均池化操作后输出大小为1×512×M的点云特征向量f_3D；

通过以下步骤得到融合特征向量：将图像特征向量f_2D和点云特征向量f_3D一起输入到基于注意力机制的特征融合模块，通过不同的权重分配来有效的结合图像特征和点云特征，最终输出大小为1×512×M的融合特征向量F_T；

S3、通过当前帧的融合特征向量、检测框信息和前一帧的融合特征向量、轨迹信息计算得到目前跟踪到的轨迹信息；

S31、输入当前帧的特征向量F_T、检测框信息D_T和前一帧的特征向量F_T-1、轨迹信息T_T-1，利用图卷积网络计算相似度矩阵；利用卷积网络对输入的图像特征和点云特征进行预测，预测每一个检测框属于车辆的概率，即基于检测框的置信度；通过预测网络求得目标再出现与消失的概率分数；

Claims

1.一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S1中，先在三维空间内对点云数据集合按照等尺寸柱均匀划分，提取柱内点云特征生成伪图像，再利用二维卷积神经网络提取伪图像的特征，然后通过检测头对目标对象进行三维边界框的生成与回归，得到基于点云的三维检测框。

3.根据权利要求2所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S1中，通过点云坐标系和图像坐标系之间的转换实现从三维到二维的投影，得到基于图像的二维检测框。

4.根据权利要求3所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S2中，对基于图像的二维检测框进行特征提取包括以下步骤：

5.根据权利要求4所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S2中，对基于点云的三维检测框进行特征提取包括以下步骤：

6.根据权利要求5所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S2中，通过以下步骤得到融合特征向量：

7.根据权利要求6所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S3具体包括以下步骤：

8.根据权利要求7所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S31中，所述相似度矩阵利用图卷积网络进行计算。

9.根据权利要求7所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S31中，利用卷积网络对输入的图像特征和点云特征进行预测，预测每一个检测框属于车辆的概率，即基于检测框的置信度。

10.根据权利要求7所述的一种基于深度学习的无人驾驶场景下的多目标跟踪方法，其特征在于：步骤S31中，所述目标再出现与消失的概率分数通过预测网络求得。