CN115631214A

CN115631214A - 一种基于运动信息和语义信息的多目标跟踪方法及系统

Info

Publication number: CN115631214A
Application number: CN202211197971.0A
Authority: CN
Inventors: 韩飞; 王俊; 王曼; 杜超; 李思源
Original assignee: Shenzhen Cbpm & Xinda Banking Technology Co ltd
Current assignee: Shenzhen Cbpm & Xinda Banking Technology Co ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-20

Abstract

本发明公开了一种基于运动信息和语义信息的多目标跟踪方法及系统，属于视频多目标跟踪技术领域。具体包括：获取当前视频帧的输入，并对视频帧进行预处理，接着通过目标检测提取目标对象的特征并生成目标对象的检测框，然后获取检测框内目标对象的语义特征；最后送入跟踪模块，通过修改卡尔曼滤波的初始状态向量，以及使用两次匹配算法和匹配检测框和提取的语义特征，从而更加准确的跟踪目标。本发明既能提高卡尔曼预测框的准确性，同时又能不增加计算开销的条件下，提取目标的语义信息，防止跟踪对象的漂移的实时多目标跟踪。

Description

一种基于运动信息和语义信息的多目标跟踪方法及系统

技术领域

本发明属于视频多目标跟踪技术领域，具体涉及一种基于运动信息和语义信息的多目标跟踪方法及系统。

背景技术

基于视频的多目标跟踪任务，其目的是检测和预测一个视频流中多个目标对象的时空轨迹。多目标跟踪有广阔的应用场景，比如自动驾驶、视频监控等，由于其在各个领域的潜在应用，引起了研究人员的广泛关注。

现有技术中，基于检测的跟踪框架是多目标跟踪任务最有效的模式，其一般由两个部分组成：1、运动状态估计模块，用以预测目标对象在下一帧中的位置；2、关联模块，从每个视频帧中提取目标对象的特征嵌入，通过目标特征的相似性和运动一致性等信息实现不同帧中检测的关联以形成轨迹，目标的语义信息和运行信息都被量化为距离，并作为一个全局分配问题来解决关联任务。

现有技术存在以下技术问题：

1.现有跟踪算法都采用具有匀速模型假设的卡尔曼滤波器估计检测框下一帧的运动状态，但是目前卡尔曼滤波的初始状态向量表征使用的是检测框的长宽比而不是长宽值，这导致了不准确的长宽尺寸估计，同时由于目标运动不规则还会导致卡尔曼预测的震动。

2.匹配过程中需要结合目标的语义特征，通常使用额外的网络提取对象特征，但是使用网络提取目标的语义特征这个过程往往很耗时，难以做到实时的跟踪。

发明内容

针对上述现有技术中存在的问题，本发明提出了一种基于运动信息和语义信息的多目标跟踪方法及系统，其目的为：既能提高卡尔曼预测框的准确性，同时又能不增加计算开销的条件下，提取目标的语义信息，防止跟踪对象的漂移的实时多目标跟踪。

为实现上述目的本发明所采用的技术方案是：提供一种基于运动信息和语义信息的多目标跟踪方法，包括：

S1：获取当前视频帧的输入，然后对所述视频帧进行预处理，得到检测训练样本；

S2：将所述检测训练样本输入到yolox网络中，提取目标对象的特征并生成目标对象的检测框，通过检测框获取目标对象的坐标位置和类别；

S3：将同一视频帧中的目标对象具有不同的身份作为一个强监督属性，同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性，基于这两项属性训练得到目标对象的特征，通过在S2提取的目标对象的特征上添加一层卷积，输出目标对象的语义特征；

S4：进入跟踪过程时，首先获取目标对象的初始状态向量，然后通过目标对象的检测框和对应的语义特征，实现目标对象轨迹的连接，最后将检测框、语义特征和轨迹进行二次匹配，得到所有目标对象的运动轨迹，实现多目标的跟踪。

较优的，本发明S1中，对视频帧进行预处理包括：数据裁剪、数据增强和减均值除方差。

较优的，本发明S2具体为：

S2.1：将所述检测训练样本输入到yolox网络中；

S2.2：使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取，得到目标对象的特征，特征提取的公式如下所示：

其中，M表示提取的特征，im表示输入的检测训练样本，

表示参数w_b的Darknet53卷积神经网络；

S2.3:将提取到的特征输入到检测器中，对不同大小的目标对象生成对应的检测框，并对检测框的所有像素点进行边界预测，得到检测框坐标位置，检测框边界的预测值为：

其中，

表示第i个检测框的左上角和右下角坐标参数，x、y表示检测框边界的像素点；

S2.4：定义带有检测框的检测训练样本为特征图，对于在特征图中的每个像素点，通过下面的公式映射回视频帧位置：

其中，s表示缩放尺度，x′，y′表示在特征图中的位置，x,y表示采样的像素点映射到视频帧的位置；

S2.5：将落入检测框内且符合采样标准的像素点视为正样本，若某一像素点落入到同时落入到多个检测框内，根据多尺度预测处理，将会在不同层标记不同的类别。

较优的，本发明S3具体为：

S3.1：将同一视频帧中的目标对象具有不同的身份作为一个强监督属性

同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性

基于这两项属性训练得到目标对象的特征，公式如下：

其中，

损失表示同一视频帧中的目标对象具有不同的身份，以此作为一个强监督损失，N^t-1表示上一视频帧图像，i1,j1表示上一视频帧图像的检测目标对象，N^t表示当前视频帧图像，i2,j2表示当前视频帧图像的检测目标对象；

损失表示同一个对象往往出现在两个相邻的帧中，以此作为一个弱监督损失，其中j^*＝arg max M_i,j，表示最大匹配概率

大于次最大值，阈值m的值为0.5；

上式中，M_i,j表示经过归一化的目标对象的相似度矩阵，公式如下：

T＝2log(N^t-1+N^t+1)

其中，

大于次最大值，阈值m的值为0.5；

S3.2：在S2.2提取的目标对象的特征上添加一层卷积，输出目标对象的语义特征，公式如下：

f_i＝conv2d(M_i,256)

其中，f_i表示每个检测的目标对象i在S2.2提取的特征M_i通过卷积输出的256维特征。

较优的，本发明S4具体为：

S4.1:在多目标跟踪过程中，视频的第一帧时，根据目标对象的位置信息初始化所有目标对象并赋予其身份信息，然后基于卡尔曼预测，将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减，得到了目标对象在过去帧位置的预测，然后比对目标对象在过去帧的真实位置和预测位置的距离差异，然后将距离差异最近目标对象进行匹配，得到目标对象的初始状态向量，然后将S2得到的每个目标对象的检测框和S3得到的目标对象对应的语义特征送入到跟踪网络中，实现每个目标对象轨迹的连接；

S4.2:跟踪过程中采用二次连接预测目标对象的轨迹：首先将目标对象与S2得到的检测框进行匹配，并根据检测框的匹配得分进行排序，通过检测框阈值将所有检测框分为高得分检测框和低得分检测框；然后基于运动相似度和语义一致性，将高得分检测框、语义特征和轨迹进行初次匹配，具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息，公式如下：

其中，C_i,j表示关联的距离矩阵，两个id越接近值越小，

表示轨迹预测的检测框i和当前帧检测框j之间的iou距离，

表示轨迹预测的对象目标语义特征i和当前帧提取的语义特征j之间的cos距离，θ_f是语义特征的阈值，用于分离轨迹外观状态和检测语义特征向量的正关联，值为0.25，θ_iou是检测框距离阈值，用于拒绝错误的轨迹对和检测框；

S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配，若匹配成功，将该目标被认定为低得分，往往是被遮挡或者对象较小的情况，恢复的该目标对象并恢复目标对象的身份信息，若匹配失败，则将该目标对象认定为新对象，为其分配新的身份信息，直到所有目标对象匹配完成。

本发明还提出了一种基于运动信息和语义信息的多目标跟踪系统，包括：

输入模块：获取当前视频帧的输入，然后对所述视频帧进行预处理，得到检测训练样本；

检测模块：将所述检测训练样本输入到yolox网络中，提取目标对象的特征并生成目标对象的检测框，通过检测框获取目标对象的坐标位置和类别；

语义提取模块：将同一视频帧中的目标对象具有不同的身份作为一个强监督属性，同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性，基于这两项属性训练得到目标对象的特征，通过在检测模块提取的目标对象的特征上添加一层卷积，输出目标对象的语义特征；

跟踪模块：进入跟踪过程时，首先获取目标对象的初始状态向量，然后通过目标对象的检测框和对应的语义特征，实现目标对象轨迹的连接，最后将检测框、语义特征和轨迹进行二次匹配，得到所有目标对象的运动轨迹，实现多目标的跟踪。

较优的，本发明输入模块中，对视频帧进行预处理包括：数据裁剪、数据增强和减均值除方差。

较优的，本发明检测模块具体包括：

步骤2.1：将所述检测训练样本输入到yolox网络中；

步骤2.2：使用Darknet53卷积神经网络对检测训练样本进行多尺度的特征提取，得到目标对象的特征，特征提取的公式如下所示：

其中，M表示提取的特征，im表示输入的检测训练样本，

表示参数w_b的Darknet53卷积神经网络；

步骤2.3:将提取到的特征输入到检测器中，对不同大小的目标对象生成对应的检测框，并对检测框的所有像素点进行边界预测，得到检测框坐标位置，检测框边界的预测值为：

其中，

步骤2.4：定义带有检测框的检测训练样本为特征图，对于在特征图中的每个像素点，通过下面的公式映射回视频帧位置：

步骤2.5：将落入检测框内且符合采样标准的像素点视为正样本，若某一像素点落入到同时落入到多个检测框内，根据多尺度预测处理，将会在不同层标记不同的类别。

较优的，本发明语义提取模块具体包括：

步骤3.1：将同一视频帧中的目标对象具有不同的身份作为一个强监督属性

基于这两项属性训练得到目标对象的特征，公式如下：

其中，

大于次最大值，阈值m的值为0.5；

T＝2log(N^t-1+N^t+1)

其中，T表示softmax函数的尺度因子，由上一视频帧检测的目标对象和当前视频帧检测目标对象总和构成，

表示目标对象i,j的相似度矩阵，如果目标对象i和目标对象j共享相同的身份，则为s_i,j>0，否则s_i,j<0；

步骤3.2：在步骤2.2提取的目标对象的特征上添加一层卷积，输出目标对象的语义特征，公式如下：

f_i＝conv2d(M_i,256)

其中，f_i表示每个检测的目标对象i在步骤2.2提取的特征M_i通过卷积输出的256维特征。

较优的，本发明跟踪模块具体包括：

步骤4.1:在多目标跟踪过程中，视频的第一帧时，根据目标对象的位置信息初始化所有目标对象并赋予其身份信息，然后基于卡尔曼预测，将当前帧目标对象中心点和指向过去帧目标对象中心点方向的反向位移预测相减，得到了目标对象在过去帧位置的预测，然后比对目标对象在过去帧的真实位置和预测位置的距离差异，然后将距离差异最近目标对象进行匹配，得到目标对象的初始状态向量，然后将检测模块得到的每个目标对象的检测框和语义特征提取模块得到的目标对象对应的语义特征送入到跟踪网络中，实现每个目标对象轨迹的连接；

步骤4.2:跟踪过程中采用二次连接预测目标对象的轨迹：首先将目标对象与检测模块得到的检测框进行匹配，并根据检测框的匹配得分进行排序，通过检测框阈值将所有检测框分为高得分检测框和低得分检测框；然后基于运动相似度和语义一致性，将高得分检测框、语义特征和轨迹进行初次匹配，具体为使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息，公式如下：

其中，C_i,j表示关联的距离矩阵，两个id越接近值越小，

表示轨迹预测的检测框i和当前帧检测框j之间的iou距离，

步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配，若匹配成功，将该目标被认定为低得分，往往是被遮挡或者对象较小的情况，恢复的该目标对象并恢复目标对象的身份信息，若匹配失败，则将该目标对象认定为新对象，为其分配新的身份信息，直到所有目标对象匹配完成。

相比现有技术，本发明的技术方案具有如下优点/有益效果：

1.本发明采用去耦头策略、无锚点策略和高级标签分配策略，兼顾速度和效果更好的检测目标，从而得到更好的跟踪效果。

2.本发明改进卡尔曼滤波的初始状态向量表征使用的是检测框的长宽而不是长宽比，得到更加准确的宽度尺寸估计。

3.本发明通过使用无监督的特征提取网络，不增加计算开销的条件下，提取目标的语义信息，防止跟踪对象的漂移。

4.本发明通过使用通道注意力和图像注意力机制，使得关注减少冗余的环境信息可能误导检测和分类，同时加强目标相关特征的学习。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明一种基于运动信息和语义信息的多目标跟踪方法及系统的流程示意图。

图2是本发明实施例1的跟踪流程示意图。

具体实施方式

为使本发明目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

实施例1：

本实施例1提出了一种基于运动信息和语义信息的多目标跟踪方法，包括：

S1：获取当前视频帧的输入，然后对所述视频帧进行预处理，得到检测训练样本；对视频帧进行预处理包括：数据裁剪、数据增强和减均值除方差。

S2：将所述检测训练样本输入到yolox网络中，提取目标对象的特征并生成目标对象的检测框，通过检测框获取目标对象的坐标位置和类别；S2具体为：

S2.1：将所述检测训练样本输入到yolox网络中；

其中，M表示提取的特征，im表示输入的检测训练样本，

表示参数w_b的Darknet53卷积神经网络；

其中，

S2.5：将落入检测框内且符合采样标准的像素点视为正样本，此处符合标准的条件为：置信度得分高于设定阈值；若某一像素点落入到同时落入到多个检测框内，根据多尺度预测处理，将会在不同层标记不同的类别。

S3：将同一视频帧中的目标对象具有不同的身份作为一个强监督属性，同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性，基于这两项属性训练得到目标对象的特征，通过在S2提取的目标对象的特征上添加一层卷积，输出目标对象的语义特征；S3具体为：

基于这两项属性训练得到目标对象的特征，公式如下：

其中，

大于次最大值，阈值m的值为0.5；

T＝2log(N^t-1+N^t+1)

f_i＝conv2d(M_i,256)

S4：进入跟踪过程时，首先获取目标对象的初始状态向量，然后通过目标对象的检测框和对应的语义特征，实现目标对象轨迹的连接，最后将检测框、语义特征和轨迹进行二次匹配，得到所有目标对象的运动轨迹，实现多目标的跟踪。S4具体为：

S4.2:如图2所示，跟踪过程中采用二次连接预测目标对象的轨迹：首先将目标对象与S2得到的检测框进行匹配，并根据检测框的匹配得分进行排序，通过检测框阈值将所有检测框分为高得分检测框和低得分检测框；然后基于运动相似度和语义一致性，将高得分检测框、语义特征和轨迹进行初次匹配，具体为使用改进的卡尔曼滤波来预测目标对象在下一帧中的位置信息，这里使用IoU距离矩阵和余弦距离矩阵结合运动和外观信息，公式如下：

其中，C_i,j表示关联的距离矩阵，两个id越接近值越小，

表示轨迹预测的检测框i和当前帧检测框j之间的iou距离，

通过以上步骤，能将监控视频检测到的所有目标分配身份信息，通过联系相同身份的目标，即可生成该目标在视频中的运动轨迹，完成实时多目标的跟踪。

输入模块：获取当前视频帧的输入，然后对所述视频帧进行预处理，得到检测训练样本；对视频帧进行预处理包括：数据裁剪、数据增强和减均值除方差。

检测模块：将所述检测训练样本输入到yolox网络中，提取目标对象的特征并生成目标对象的检测框，通过检测框获取目标对象的坐标位置和类别；检测模块具体包括：

步骤2.1：将所述检测训练样本输入到yolox网络中；

其中，M表示提取的特征，im表示输入的检测训练样本，

表示参数w_b的Darknet53卷积神经网络；

其中，

语义提取模块：将同一视频帧中的目标对象具有不同的身份作为一个强监督属性，同时一个对象出现在两个相邻的视频帧中作为一个弱监督属性，基于这两项属性训练得到目标对象的特征，通过在检测模块提取的目标对象的特征上添加一层卷积，输出目标对象的语义特征；语义提取模块具体包括：

基于这两项属性训练得到目标对象的特征，公式如下：

其中，

大于次最大值，阈值m的值为0.5；

T＝2log(N^t-1+N^t+1)

f_i＝conv2d(M_i,256)

跟踪模块：进入跟踪过程时，首先获取目标对象的初始状态向量，然后通过目标对象的检测框和对应的语义特征，实现目标对象轨迹的连接，最后将检测框、语义特征和轨迹进行二次匹配，得到所有目标对象的运动轨迹，实现多目标的跟踪。跟踪模块具体包括：

其中，C_i,j表示关联的距离矩阵，两个id越接近值越小，

表示轨迹预测的检测框i和当前帧检测框j之间的iou距离，

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于运动信息和语义信息的多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的一种基于运动信息和语义信息的多目标跟踪方法，其特征在于，S1中，对视频帧进行预处理包括：数据裁剪、数据增强和减均值除方差。

3.根据权利要求1所述的一种基于运动信息和语义信息的多目标跟踪方法，其特征在于，S2具体为：

S2.1：将所述检测训练样本输入到yolox网络中；

其中，M表示提取的特征，im表示输入的检测训练样本，

表示参数w_b的Darknet53卷积神经网络；

其中，

4.根据权利要求3所述的一种基于运动信息和语义信息的多目标跟踪方法，其特征在于，S3具体为：

基于这两项属性训练得到目标对象的特征，公式如下：

其中，

大于次最大值，阈值m的值为0.5；

T＝2log(N^t-1+N^t+1)

f_i＝conv2d(M_i,256)

5.根据权利要求4所述的一种基于运动信息和语义信息的多目标跟踪方法，其特征在于，S4具体为：

其中，C_i,j表示关联的距离矩阵，两个id越接近值越小，

表示轨迹预测的检测框i和当前帧检测框j之间的iou距离，

S4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配，若匹配成功，将该目标被认定为低得分，恢复的该目标对象并恢复目标对象的身份信息，若匹配失败，则将该目标对象认定为新对象，为其分配新的身份信息，直到所有目标对象匹配完成。

6.一种基于运动信息和语义信息的多目标跟踪系统，包括：

7.根据权利要求6所述的一种基于运动信息和语义信息的多目标跟踪系统，其特征在于，输入模块中，对视频帧进行预处理包括：数据裁剪、数据增强和减均值除方差。

8.根据权利要求6所述的一种基于运动信息和语义信息的多目标跟踪系统，其特征在于，检测模块具体包括：

步骤2.1：将所述检测训练样本输入到yolox网络中；

其中，M表示提取的特征，im表示输入的检测训练样本，

表示参数w_b的Darknet53卷积神经网络；

其中，

9.根据权利要求8所述的一种基于运动信息和语义信息的多目标跟踪系统，其特征在于，语义提取模块具体包括：

基于这两项属性训练得到目标对象的特征，公式如下：

其中，

大于次最大值，阈值m的值为0.5；

T＝2log(N^t-1+N^t+1)

f_i＝conv2d(M_i,256)

10.根据权利要求9所述的一种基于运动信息和语义信息的多目标跟踪系统，其特征在于，跟踪模块具体包括：

其中，C_i,j表示关联的距离矩阵，两个id越接近值越小，

表示轨迹预测的检测框i和当前帧检测框j之间的iou距离，

步骤4.3:将匹配失败的目标对象和低得分检测框之间进行二次匹配，若匹配成功，将该目标被认定为低得分，恢复的该目标对象并恢复目标对象的身份信息，若匹配失败，则将该目标对象认定为新对象，为其分配新的身份信息，直到所有目标对象匹配完成。