CN114913206A

CN114913206A - 一种基于多模态融合的多目标跟踪的方法和系统

Info

Publication number: CN114913206A
Application number: CN202210529729.2A
Authority: CN
Inventors: 舒诚龙; 敖银辉; 黎明峻; 黄晋豪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-16

Abstract

本发明公开了一种基于多模态融合的多目标跟踪的方法和系统，包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块；其中，所述目标检测模块采用yolov4算法从图像获取目标的2D检测框，并采用PointPillars算法从点云获取目标的3D检测框，所述特征提取模块用于对检测框进行处理，提取目标的2D、3D外观特征，本发明通过多个独立的传感器特征提取来保持可靠性，利用多模态加权融合方式，得到更全面的目标特征，提高精度，可以有效避免单一传感器失效问题，使用图神经网络和图卷积优化目标关联，提升准确度，滤波预测更新，弥补目标的丢失问题，对多个目标进行实时跟踪，生成对应ID，关联前后帧的同一目标，实现高精度定位的效果。

Description

一种基于多模态融合的多目标跟踪的方法和系统

技术领域

本发明涉及多目标跟踪技术领域，具体是一种基于多模态融合的多目标跟踪的方法和系统。

背景技术

目标跟踪是计算机视觉的重要组成部分，与目标检测的输出不同，除了目标位置信息的检测框，还新增一个关联前后帧同一目标的ID。根据跟踪目标的数量分为单目标跟踪和多目标跟踪，单目标跟踪的是在视频的初始帧画面上框出单个目标，预测后续帧中该目标的大小与位置，而多目标跟踪是在事先不知道目标数量的情况下，对视频中的行人、汽车、动物等多个目标进行检测并赋予ID进行轨迹跟踪。被广泛应用于自动驾驶、智能监控、动作与行为分析等应用领域。

多目标跟踪一般分为离线多目标跟踪、在线多目标跟踪和近似在线多目标跟踪。其中离线多目标跟踪，使用当前帧前后的若干帧作为跟踪的判断依据。在线多目标跟踪不需要使用到当前帧之后的信息，只使用当前帧以及当前帧以前的帧的信息作为跟踪依据。而最近，又有一种新的跟踪方式，权衡前两种模式，在线模式的基础上，还利用了当前帧之后一小段时间的信息作为跟踪依据，被称作近似在线多目标跟踪。

当前被广泛研究的策略是基于检测的跟踪。先得到目标的定位框，然后根据定位框进行下一步的跟踪。其目地是将前一帧图像中的物体的定位框和后一帧图像中物体的定位框一一对应起来，这种对应关系拓展到整个视频流中便形成了视频中多个物体的跟踪轨迹，也就是多目标跟踪的跟踪结果。而要将前后帧的定位框进行对应的通常做法便是，对前后两帧的定位框所框定的内容提取特征，然后根据前后两帧的特征对比结果进行分配，最后得到最优的分配结果。

中国专利公开了一种基于多传感器数据融合的多目标跟踪方法(申请号202011006510.1)，该专利技术首先，通过多个传感器分别采集各个目标的位置信息，得到每个传感器对各个目标的观测数据。然后对各个目标的观测数据进行航迹关联，将各个观测数据进行分类，得到各个传感器对各个目标的航迹关联数据。再对目标的航迹关联数据进行滤波处理，得到每个传感器对各个目标的滤波轨迹，并获取各个目标的位置估计数据。接着计算传感器对目标的即时偏差，并计算传感器对目标的即时最优动态权值。最后将各个传感器对相同目标的位置估计数据和即时最优动态权值进行融合，得到同一目标在k时刻经过融合后的位置信息，完成目标的位置估计，实现多目标跟踪，但是，在特征提取及融合部分，该专利采用最近邻数据关联算法和滤波处理，对相同目标的位置估计数据和即时最优动态权值进行融合，鲁棒性较差；

中国专利还公开了一种基于图神经网络的多目标跟踪方法和系统(申请号CN201911312114.9)，该专利技术首先预处理训练集，得到节点集合、边集合和全局变量，然后放入图神经网络，得到外貌相似度矩阵和运动相似度矩阵。再使用优化算法，根据损失函数、所述外貌相似度矩阵和运动相似度矩阵训练所述图神经网络，确定所述图神经网络的设置参数，再训练，得到训练好的图神经网络。接着使用训练好的图神经网络处理数据集，得到相似度矩阵。最后使用匹配算法对所述相似度矩阵进行计算，得到数据集中目标的匹配结果，但是，在相似度计算部分，该专利采用的是两个图神经网络，分别计算外貌相似度矩阵和运动相似度矩阵，再加权合并得到一个相似度矩阵。使用的网络结构更加复杂，其运行速度就会降低；

现有论文Robust Multi-Modality Multi-Object Tracking，设计了一个通用的传感器不可知的多模态MOT框架(mmMOT)，其中每个模态(即传感器)能够独立执行其职责以保持可靠性。首先，在多传感器信息提取和融合的过程中，使用稀松耦合方案，保证系统的可靠性。具体流程：从相机的图像信息提取2D外观特征，从雷达的点云信息提取3D外观特征，然后在融合模块，可以选择不同的融合方式融合这些特征，再传递给邻接估计器，该估计器能够根据每个模态进行推理，接着放入线性规划模块，得到两帧目标的匹配关系及对应ID。其次，为了网络能够从不同模态进行推理，采用端对端的训练，这使得多模态的特征提取器和跨模态邻接估计器可以同时优化。最后首次将点云深度表示引入MOT的数据关联过程。但是，改论文具有以下缺点：

1、目标特征不够完整，对跟踪的精确度和准确度会产生一定的影响；

2、输入和输出，为相邻两帧的目标跟踪，一旦出现目标缺失，再出现，就会给同一个目标生成多个不同ID；

3、当目标缺失时，无法弥补目标信息，为后续提供有利信息。

因此，本领域技术人员提供了一种基于多模态融合的多目标跟踪的方法和系统，以解决上述背景技术中提出的问题。

发明内容

本发明的目的在于提供一种基于多模态融合的多目标跟踪的方法和系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于多模态融合的多目标跟踪的系统，包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块；其中，

所述目标检测模块采用yolov4算法从图像获取目标的2D检测框，并采用PointPillars算法从点云获取目标的3D检测框；

所述特征提取模块用于对检测框进行处理，提取目标的2D、3D外观特征；

所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合，得到一个节点信息；

所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值，得到初步亲和矩阵，再通过图神经网络，利用领域更新和图神经卷积，优化亲和矩阵；

所述数据关联模块采用线性规划处理亲和矩阵，并采用数据管理系统，赋予目标对应ID。

作为本发明进一步的方案：所述目标检测模块包括相机传感器及雷达传感器。

作为本发明再进一步的方案：所述特征提取模块分别利用VGG-16和PointNet对检测框进行处理。

作为本发明再进一步的方案：所述节点信息包括2D外观、2D运动、3D外观和3D运动特征。

本发明还涉及一种基于多模态融合的多目标跟踪的方法，包括如下步骤：

步骤1、使用单目相机和激光雷达两种传感器，收集图像和点云信息；

步骤2、在目标检测模块，使用yolov4算法从图像中获取目标的2D检测框，使用PointPillars算法从点云中获取目标的3D检测框；

步骤3、在2D框和3D框的关联部分，把3D检测框投影到2D图像上，然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU，利用贪心匹配，得到同一个目标的二维框和三维框；

步骤4、在特征提取模块，将二维检测框内信息裁剪并调整为224×224的图片，然后通过VGG-16网络获取目标2D外观特征，将三维检测框内信息通过PointNet网络获取目标3D外观特征；

步骤5、根据2D和3D关联的结果，将同一个目标的位置信息合并，得到检测值信息

是一个11维向量(x,y,z,θ,l,w,h,x₁,y₁,x₂,y₂)，目标轨迹状态为18维的向量T＝(x,y,z,θ,l,w,h,x₁,y₁,x₂,y₂,v_x,v_y,v_z,v_x1,v_y1,v_x2,v_x2)；

采用匀速模型，利用卡尔曼滤波进行预测，将前一帧的所有目标轨迹状态

进行前向预测，得到当前帧的预测位置：

x_pre＝x+v_x，y_pre＝y+v_y，z_pre＝z+v_z，

其中，v_x代表x方向上的位移变化量，大小等于前一帧该方向的位移量，利用微分原理，代替当前帧的位移量；

最后，当前帧的预测状态为：

步骤6、在特征融合模块对预测状态

取前11维，作为跟踪值的运动融合特征(1×11×(M+N))，其中M表示跟踪值的数量，N表示检测值的数量；

步骤7、再放入MLP中，得到(1×512×(M+N))维张量，经过三次堆叠，生成(3×512×(M+N))维张量；

步骤8、加入一种根据来自不同传感器信息的重要性，进行加权融合的的机制，每个传感器的初始权重

计算公式如下：

其中s代表传感器种类，

表示卷积参数，σ是sigmoid函数,

表示卷积操作；

步骤9、对初始权重进行全局优化，得到权重

其中，MLP代表神经网络；

步骤10、融合后的信息F_i ^fuse如下所示：

其中

表示元素乘法，分母里的

用于结果归一化；

步骤11、将运动特征与外观特征拼接，得到最终融合的总特征n，大小为(3×1024×(M+N))维张量，即节点特征；

步骤12、在相似度计算模块，先计算跟踪值和检测值的差的绝对值，得到初步亲和矩阵E^t，即边缘特征，

其中，

表示t时刻第i个跟踪值的特征信息，

表示t+1时刻第j个检测值值的特征信息，

表示第i个跟踪值与t帧的所有检测值的边缘特征；

步骤13、先根据设定一个阈值，当两帧间一组对象的检测中心距离小于阈值，才于二者间连边，再对连成边的节点进行领域更新，

其中，N(i)表示一组与t时刻第i个节点的邻域节点，MLP表示神经网络；

步骤14、加入图卷积，利用节点信息和边缘特征自身的信息，进行全局优化，得到对应权重，

W(E^t)＝ReLU(MLP(E^t))

其中，E^t表示边缘特征，W(E^t)表示灵活的滤波器，具有全局信息；

步骤15、设计四种估计器，来确定最终跟踪值和检测值的匹配关系，

自信度估计器，判断检测值是否可信，

其中，f_det表示检测值的最后一层特征；

亲和力估计器，判断跟踪值和检测值的匹配关系，

其中，f_ij表示检测到的对象对的匹配分数的最后一层特征；

开始和结束估计器，判断这条轨迹是新开始、跟踪中还是准备结束状态，

最后将所有的预测分数聚合到一个新向量

步骤16、训练网络，利用四种估计器和标签的关系，构建损失函数，

Loss＝L_link+αL_start+γL_end+βL_true

其中，α，γ，β表示各部分的权重，本实验

β＝1.5；

步骤17、在数据关联模块，从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后，框架从最小费用流图中找到最优解，对于当前帧中的一个检测值和其前一帧中的所有跟踪值，线性约束定义为以下形式：

对于前一帧中的一个跟踪值和当前帧中的所有检测，线性约束可以定义如下：

将这俩约束折叠成矩阵形式得到CY＝0，然后将数据关联问题表示为一个整数线性规划，如下所示：

argmax＝Θ(X)^TS

st.CS＝0,S∈{0,1}^S

其中，Θ(X)表示包含所有预测分数的平坦向量，CS表示一个满足两个线性约束方程的矩阵形式；

步骤18、新生ID，跟踪匹配目标，生成新的轨迹

赋予新ID，未跟踪匹配上的取消其ID，对于跟踪匹配上的目标，继续保持原有ID，其总运动特征，使用卡尔曼滤波进行更新运动特征，其外观特征保留原样，两部分特征，重新作为跟踪值的特征，进入下一次预测跟踪的循环，直到结束。

所述步骤2中获取目标的2D检测框即2D运动特征，包括目标的左上坐标(x₁,y₁)和右下坐标(x₂,y₂)，获取目标的3D检测框即3D运动特征，包括目标中心坐标(x,y,z)，朝向角θ，长宽高(l,w,h)。

所述步骤5中(v_x,v_y,v_z)表示三维空间的速度，(v_x1,v_y1,v_x2,v_x2)表示二维空间的速度。

与现有技术相比，本发明的有益效果是：

1、本发明通过多个独立的传感器特征提取来保持可靠性，利用多模态加权融合方式，得到更全面的目标特征，提高精度，可以有效避免单一传感器失效问题，使用图神经网络和图卷积优化目标关联，提升准确度，滤波预测更新，弥补目标的丢失问题，对多个目标进行实时跟踪，生成对应ID，关联前后帧的同一目标，实现高精度定位的效果。

2、通过使用多种传感器的信息，通过神经网络，学习传感器的重要性，采用注意力机制，加权融合2D和3D的外观特征，可以根据传感器的使用场景和接受到的特征信息，灵活处理目标特征，提高鲁棒性。

3、通过使用卡尔曼滤波，同时对2D和3D的运动特征进行预测，让跟踪值的预测值在当前时刻更接近于检测值的位置，这样同一目标，两者的特征更为接近，便于目标关联以及弥补目标检测的不足，对丢失目标，进行信息补充。

4、新加入图神经网络，利用邻域对节点特征进行更新，通过图卷积对边缘特征进行优化，使得所需要的相似性矩阵更具有区别性。

5、采用新的记忆管理系统，将未匹配上的检测值，作为下一次的跟踪值，放入多目标跟踪的循环中，实现跨帧匹配，同时，增加开始、结束和成功匹配ID的处理流程，大大减少生成新的跟踪轨迹次数。

附图说明

图1为一种基于多模态融合的多目标跟踪的系统的结构示意图。

图2为一种基于多模态融合的多目标跟踪的系统中卡尔曼滤波预测过程图。

图3为一种基于多模态融合的多目标跟踪的系统中图神经网络的构造图。

图4为一种基于多模态融合的多目标跟踪的系统中KITTI数据集上定性结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～4，本发明实施例中，一种基于多模态融合的多目标跟踪的系统，包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块，如图1所示，所述目标检测模块通过相机传感器及雷达传感器，使用yolov4算法从图像获取目标的2D检测框，并采用PointPillars算法从点云获取目标的3D检测框，所述特征提取模块分别利用VGG-16和PointNet对检测框处理，提取目标的2D、3D外观特征，所述特征融合模块用于将目标的多个特征通过神经网络进行加权融合，得到一个节点信息，包括2D外观、2D运动、3D外观和3D运动特征，所述相似度计算模块用于先计算跟踪值和检测值的差的绝对值，得到初步亲和矩阵，再通过图神经网络，利用领域更新和图神经卷积，优化亲和矩阵，所述数据关联模块采用线性规划处理亲和矩阵，得到对应的匹配关系，并采用数据管理系统，赋予目标对应ID。

步骤1、使用单目相机和激光雷达两种传感器，收集图像和点云信息，在KITTI数据集上进行训练和测试其可行性和鲁棒性；

步骤2、在目标检测模块，使用yolov4算法从图像中获取目标的2D检测框，即2D运动特征，包括目标的左上坐标(x₁,y₁)和右下坐标(x₂,y₂)，使用PointPillars算法从点云中获取目标的3D检测框，即3D运动特征，包括目标中心坐标(x,y,z)，朝向角θ，长宽高(l,w,h)；

步骤3、在2D框和3D框的关联部分，把3D检测框投影到2D图像上，然后计算投影后的2D框和原始2D检测器输出的2D检测框的IOU，利用贪心匹配，得到同一个目标的二维框和三维框，便于关联目标的位置信息；

是一个11维向量(x,y,z,θ,l,w,h,x₁,y₁,x₂,y₂)，目标轨迹状态为18维的向量T＝(x,y,z,θ,l,w,h,x₁,y₁,x₂,y₂,v_x,v_y,v_z,v_x1,v_y1,v_x2,v_x2)，其中，(v_x,v_y,v_z)表示三维空间的速度，(v_x1,v_y1,v_x2,v_x2)表示二维空间的速度；

进行前向预测，得到当前帧的预测位置，如图2所示：

x_pre＝x+v_x，y_pre＝y+v_y，z_pre＝z+v_z，

其中，v_x代表x方向上的位移变化量，大小等于前一帧该方向的位移量，利用微分原理，代替当前帧的位移量，另外，相邻帧的目标，朝向角和长宽高基本不变；

最后，当前帧的预测状态为：

步骤6、在特征融合模块对预测状态

步骤7、再放入MLP中，得到(1×512×(M+N))维张量，经过三次堆叠，生成(3×512×(M+N))维张量，因为外观特征是(3×512×(M+N))维张量，让两者统一维度，便于顺利拼接；

步骤8、加入一种根据来自不同传感器信息的重要性，进行加权融合的的机制，因为传感器信息的重要性在不同的情况下可能不同，例如，当光线暗淡或者曝光情况下时，图像清晰度直线下降，点云特征就会变得更重要，而当雨雪天气时，点云特征容易受到干扰，因此图像特征就会变得更重要，

每个传感器的初始权重

计算公式如下：

其中s代表传感器种类，

表示卷积参数，σ是sigmoid函数,

表示卷积操作；

步骤9、对初始权重进行全局优化，得到权重

其中，MLP代表神经网络；

步骤10、融合后的信息F_i ^fuse如下所示：

其中

表示元素乘法，分母里的

用于结果归一化；

其中，

表示t时刻第i个跟踪值的特征信息，

表示t+1时刻第j个检测值值的特征信息，

表示第i个跟踪值与t帧的所有检测值的边缘特征；

步骤13、使用图神经网络时，如图3所示，其中n表示节点特征，A表示外观特征，M表示运动特征，表示边缘特征，先根据设定一个阈值，只有当两帧间一组对象的检测中心距离小于阈值(3D和2D均小于)，才于二者间连边，再对连成边的节点进行领域更新，进一步完善节点特征，

步骤14、加入图卷积，利用节点信息和边缘特征自身的信息，进行全局优化，得到对应权重，进一步修正亲和矩阵，

W(E^t)＝ReLU(MLP(E^t))

其中，E^t表示边缘特征，W(E^t)表示灵活的滤波器，具有全局信息，用来优化边缘特征,得到更具有区别力的亲和矩阵；

自信度估计器，判断检测值是否可信，

其中，f_det表示检测值的最后一层特征；

亲和力估计器，判断跟踪值和检测值的匹配关系，

其中，f_ij表示检测到的对象对的匹配分数的最后一层特征；

最后将所有的预测分数聚合到一个新向量

Loss＝L_link+αL_start+γL_end+βL_true

其中，α，γ，β表示各部分的权重，本实验

β＝1.5；

步骤17、在数据关联部分，从根据训练完成的神经网络中得到跟踪值和检测值的预测得分后，框架需要从最小费用流图中找到最优解，如果一个检测值可信度高，那么它必须与前一帧中的另一个检测结果相关联，或者与新轨迹的开始相关联，因此，对于当前帧中的一个检测值和其前一帧中的所有跟踪值，线性约束可以定义为以下形式：

将这俩约束折叠成矩阵形式得到CY＝0，它已经编码了所有有效的轨迹，然后将数据关联问题表示为一个整数线性规划，如下所示：

argmax＝Θ(X)^TS

st.CS＝0,S∈{0,1}^S

其中，Θ(X)表示包含所有预测分数的平坦向量，CS表示一个满足两个线性约束方程的矩阵形式，和匈牙利算法类似，通过处理亲和矩阵，找到最优解。最终得到当前帧的跟踪值和检测值的对应关系；

步骤18、新生ID，一个目标能被连续跟踪上F_min帧，才生成新的轨迹

赋予新ID，

结束ID，未跟踪匹配上，仍将保持预测追踪F_max帧，如果在这段时间都没有匹配上，才会认为跟踪值消失，取消其ID，

对于跟踪匹配上的目标,继续保持原有ID，其总运动特征，使用卡尔曼滤波进行更新运动特征。其外观特征保留原样。两部分特征，重新作为跟踪值的特征，进入下一次预测跟踪的循环，直到结束，结果如图4、表一、表二所示。

表一、不同特征融合对比

表二、不同融合方式对比

特征	MOTA(％)↑	MOTP(％)↑	ID-SW↓	Frag↓
					串联	0.9226	0.9034	46	152
线性组合	0.9224	0.9034	48	159
					加权融合	0.9230	0.9034	41	148

综上就是多模态融合的多目标跟踪的流程，通过多个独立的传感器特征提取来保持可靠性，利用模态融合来提高精度，加入图神经网络优化关联准确度，做到多目标的实时准确跟踪。

运动预测部分，利用卡尔曼滤波对2D和3D的运动特征进行预测更新，让跟踪值在当前时刻更接近于检测值的位置，得到两者的特征更为接近，便于目标关联和解决目标丢失问题。

外观特征融合部分，采用注意力机制，通过不同传感器得到的目标特征，利用卷积参数来学习特征的重要性，再使用神经网络进一步优化权重，接着对特征加权融合，得到更符合实际场景的目标特征。

相似度计算部分，引入图神经网络，加入邻域更新，对节点进行迭代更新，使得正对特征差距变小，负对特征差距变大，加入图神经卷积，利用全局信息，进一步优化亲和矩阵。

记忆管理系统，将未匹配上的检测值，作为下一次的跟踪值。不仅仅局限于相邻帧，实现跨帧信息匹配。同时，设计了开始、结束和匹配的ID处理流程。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多模态融合的多目标跟踪的系统，其特征在于，包括目标检测模块、特征提取模块、特征融合模块、相似度计算模块及数据关联模块；其中，

2.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统，其特征在于，所述目标检测模块包括相机传感器及雷达传感器。

3.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统，其特征在于，所述特征提取模块分别利用VGG-16和PointNet对检测框进行处理。

4.根据权利要求1所述的一种基于多模态融合的多目标跟踪的系统，其特征在于，所述节点信息包括2D外观、2D运动、3D外观和3D运动特征。

5.一种基于多模态融合的多目标跟踪的方法，其特征在于，包括如下步骤：

步骤5、根据2D和3D关联的结果，将同一个目标的位置信息合并，得到检测值信息D_t ⁱ是一个11维向量(x,y,z,θ,l,w,h,x₁,y₁,x₂,y₂)，目标轨迹状态为18维的向量T＝(x,y,z,θ,l,w,h,x₁,y₁,x₂,y₂,v_x,v_y,v_z,v_x1,v_y1,v_x2,v_x2)；