CN116883458B

CN116883458B - 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统

Info

Publication number: CN116883458B
Application number: CN202311139793.0A
Authority: CN
Inventors: 黄章进; 高壮壮
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2024-01-09
Anticipated expiration: 2043-09-06
Also published as: CN116883458A

Abstract

本发明公开了一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，包括数据关联模块，用于计算目标轨迹和检测目标之间的相似度，根据相似度利用策略进行匹配；编码器‑解码器模块，用于接收连续两帧图像作为输入，得到当前帧k中的检测目标和置信度；Kalman滤波模块，根据历史检测目标位置信息对下一帧中检测目标位置进行预测；虚拟轨迹模块，利用过去若干帧中已建立的轨迹的检测框，计算得到目标轨迹的速度和方向信息，建立虚拟轨迹；运动补偿模块，在KF完成位置预测之前进行相机运动补偿，KF预测阶段使用校正后的状态向量和协方差矩阵。本发明可以更好地建模复杂体育场景中球员的运动特征，提高跟踪的准确性和鲁棒性。

Description

基于Transformer并融合以观测为中心运动特征的多目标跟踪系统

技术领域

本发明涉及计算机视觉目标跟踪技术领域，尤其涉及一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统。

背景技术

作为一项基本的视觉感知任务，多目标跟踪的目的是逐帧检测和跟踪所有特定类别的物体。由于检测算法的快速发展，检测和跟踪范式的性能得到很大的提高，因此可以更加关注目标身份的关联匹配问题。通过建立稳健的运动模型来预测目标的轨迹并生成轨迹，解决频繁遮挡和短期消失的问题。引入注意力机制，关注图像帧之间的联系，建立基于位置信息和运动状态的长期时空模型，取得良好的精度提升。

目前MOT基准数据集中的大部分目标物体都有明显的可区分的外观，而且视频序列的背景单一且相对静态，目标以均匀或接近线性的运动模式出现。所提出的深度学习模型可以很容易地建立一个稳健的目标运动模型或学习具有较大区分度的外观特征。SportsMOT数据集在体育比赛场景中收集，目标物体一般尺寸均匀，但目标往往保持高速和非线性运动，且经常出现遮挡。作为最经典的运动模型之一，卡尔曼滤波器是一个遵循典型预测-更新周期的递归贝叶斯滤波器。以观测为中心优化后的卡尔曼滤波器进行运动估计与外观重识别特征结合完成目标跟踪任务。复杂的体育运动场景中可能出现镜头偏移或快速运动等问题，摄像机运动补偿可以校正检测框位置的剧烈变化或漂移等现象。因此，如何提供一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统是本领域技术人员亟需解决的问题。

发明内容

本发明的一个目的在于提出一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，本发明以观测为中心优化的Kalman滤波器进行运动估计，并结合摄像机运动补偿来校正检测框位置的剧烈变化或漂移等现象，可以更好地建模复杂体育场景中球员的运动特征，提高跟踪的准确性和鲁棒性。

根据本发明实施例的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，其特征在于，包括：

数据关联模块，用于计算目标轨迹和检测目标之间的相似度，根据相似度利用策略进行匹配；

编码器-解码器模块，基于Transformer的多目标跟踪编码-解码网络，用于接收连续两帧图像作为输入，得到当前帧k中的检测目标和置信度；

Kalman滤波模块，根据历史检测目标位置信息对下一帧中检测目标位置进行预测；

虚拟轨迹模块，利用过去若干帧中已建立的轨迹的检测框，计算得到目标轨迹的速度和方向信息，建立虚拟轨迹；

运动补偿模块，在KF完成位置预测之前进行相机运动补偿，KF预测阶段使用校正后的状态向量和协方差矩阵。

可选的，所述数据关联模块中相似度的依据包括目标轨迹和检测目标之间的位置、运动和外观，具体包括：

采用Kalman滤波模块预测目标轨迹在新帧中的位置，计算目标轨迹的检测框之间的交叉-联合作为相似度；

物体在被遮挡一段时间后，通过外观相似性重新识别，外观相似度通过ReID特征计算。

可选的，所述Kalman滤波模块将检测目标描述为状态空间内的位置估计，所述状态空间内的位置估计用目标位置、速度、大小的状态向量表示，所述Kalman滤波模块包括

先验估计模块，对视频当前帧中的目标位置估计；

后验估计模块，对视频下一帧中的目标位置估计。

可选的，所述Kalman滤波模块在Kalman预测阶段将每个目标轨迹的位置更新到下一帧，在Kalman更新阶段将每次轨迹与新的检测相关联时被更新。

可选的，所述Kalman预测阶段包括：

；

所述Kalman更新阶段包括：

；

其中，表示过渡矩阵，/>表示协方差矩阵，/>表示Kalman 增益，/>表示观测矩阵，/>表示过程噪声协方差，/>表示测量噪声协方差；

基于DeepSORT算法将目标轨迹的状态表示为：

；

其中，u，v表示物体中心在图像平面上的二维坐标，s表示检测框面积，r表示检测框bbox的宽高比，和/>表示Kalman滤波预测的目标轨迹中心点的偏移量，/>表示Kalman滤波预测得到的检测框面积；

在连续时间步长上检测目标轨迹中心点的更新位置为：

；

其中，Δt为 1；

利用当前帧每个目标的检测框和预测边界框之间的交叉-联合距离计算运动成本矩阵：

;

其中，IoU表示检测框和预测边界框之间的交叉-联合，A表示检测框的面积，B表示预测边界框的面积。

可选的，所述Kalman滤波模块估计的目标轨迹中心点位置为和，则在时间帧k和时间帧k+△t之间的估计速度为：

;

计算得到速度估计的噪声为和/>对于方向估计，在时间帧k上，跟踪目标的真实标签中心点为/>，得出在时间帧/>和时间帧/>之间目标的实际运动方向为：

；

方向估计没有高斯噪声，则目标的运动方向在任意时间段为常数；方向估计有高斯噪声，即和/>考虑到arctan函数的单调性，通过分析tan简化对目标轨迹的方向估计，定义/>分析目标轨迹方向估计的噪声，,/>,/>则x和y共同形成一个高斯分布：

；

其中，，/>，/>，/>，而/>是x和y之间的相关系数；

进而计算得到变量z的概率密度函数的解：

；

其中：

；

可选的，所述虚拟轨迹模块包括KF状态参数更新：

当目标轨迹对应的Kalman滤波状态估计器在连续帧中都没有新的检测框数据输入时，KF根据之前的预测位置作为新一帧中状态更新输入递归地更新KF地参数；

假设目标0在时间帧k到k+T之间被遮挡，则对目标位置的估计为：

；

其中，，/>表示分别为在时间帧k中对目标速度的估计值；

对速度估计噪声的计算：,/>;

当跟踪目标被连续长期遮挡而无法提供检测框数据对KF进行有监督参数更新时，由KF进行线性运动假设估计得到的位置关于遮挡时间间隔以平方阶积累误差；

如果在目标被遮挡期间根据最后一次观测到和最近一次重新关联时的两个运动模式相匹配的真实值检测框建立一条虚拟轨迹，重新更新轨迹的 KF 的参数，基于运动模式相匹配以及虚拟观测值监督的参数更新将不再受遮挡引起的缺失观测迭代更新积累误差的影响；

一个轨迹在一段时间未被跟踪后再次与观测相关联，通过观测的虚拟轨迹对参数进行在线平滑，回到丢失的那段时间，用于修复时间间隔内的累积误差。

可选的，所述最后一次观测记为，将触发重新关联的观测记为/>，用不同的假设生成虚拟轨迹：

；

沿着这条虚拟轨迹，从k1的状态开始，通过预测和更新阶段的交替，对滤波器参数进行回检，刷新后的状态估计为：；

计算目标被长期遮挡期间虚拟轨迹检测框的公式为：

；

可选的，所述运动补偿模块包括使OpenCV库进行全局运动补偿，并进行仿射变换矩阵正校正检测框位置，将预测的检测框从第k-1帧的坐标系转换到第k帧中的坐标系。

可选的，所述转换步骤包括旋转缩放矩阵和平移矩阵/>，其中，，/>，平移矩阵转换检测框的中心点位置，旋转缩放矩阵转换检测目标KF的状态矢量和噪声矩阵，相机运动校正：

；

其中，和/>分别表示在视频序列第K帧中相机运动补偿前后的检测目标状对应KF状态向量；/>和/>分别表示检测目标第K帧中相机运动补偿前后的检测目标状对应KF态向量的协方差矩阵。

本发明的有益效果是：

本发明可以适应复杂体育场景中目标频繁消失重现的问题，补充了目标重现时基于外观重识别的轨迹恢复，降低了目标轨迹身份切换的数量。可以适应复杂体育场景中目标的长期遮挡和非线性运动。采用相机运动补偿校正图像中检测框的位置，在动态拍摄的体育场景视频序列中，使得Kalman滤波器预测的目标检测框位置更加准确。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统的流程图；

图2为本发明提出的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统中Kalman滤波预测和更新过程图；

图3为本发明提出的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统中建立虚拟轨迹位置估计示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，其特征在于，包括：

参考图2，本实施方式中，数据关联模块中相似度的依据包括目标轨迹和检测目标之间的位置、运动和外观，具体包括：

本实施方式中，Kalman滤波模块将检测目标描述为状态空间内的位置估计，状态空间内的位置估计用目标位置、速度、大小的状态向量表示，Kalman滤波模块包括

先验估计模块，对视频当前帧中的目标位置估计；

后验估计模块，对视频下一帧中的目标位置估计。

本实施方式中，Kalman滤波模块在Kalman预测阶段将每个目标轨迹的位置更新到下一帧，在Kalman更新阶段将每次轨迹与新的检测相关联时被更新。

本实施方式中，Kalman预测阶段包括：

；

Kalman更新阶段包括：

；

基于DeepSORT算法将目标轨迹的状态表示为：

；

在连续时间步长上检测目标轨迹中心点的更新位置为：

；

其中，Δt为 1；

;

本实施方式中，Kalman滤波模块估计的目标轨迹中心点位置为和，则在时间帧k和时间帧k+Δt之间的估计速度为：

;

计算得到速度估计的噪声为和/>；

对于方向估计，在时间帧k上，跟踪目标的真实标签中心点为，得出在时间帧和时间帧/>之间目标的实际运动方向为：

；

其中，，/>，/>，/>,而/>是x和y之间的相关系数；

进而计算得到变量z的概率密度函数的解：

；

其中：

；

参考图3，本实施方式中，虚拟轨迹模块包括KF状态参数更新：

当目标轨迹对应的Kalman滤波状态估计器在连续帧中都没有新的检测框数据输入时，KF根据之前的预测位置作为新一帧中状态更新输入递归地更新 KF 地参数；

假设目标O在时间帧k到k+T之间被遮挡，则对目标位置的估计为：

；

其中，，/>表示分别为在时间帧k中对目标速度的估计值；

对速度估计噪声的计算：,/>;

本实施方式中，最后一次观测记为，将触发重新关联的观测记为/>，用不同的假设生成虚拟轨迹：

；

沿着这条虚拟轨迹，从k1的状态开始，通过预测和更新阶段的交替，对滤波器参数进行回检，刷新后的状态估计为：

；

计算目标被长期遮挡期间虚拟轨迹检测框的公式为：

；

本实施方式中，运动补偿模块包括使OpenCV库进行全局运动补偿，并进行仿射变换矩阵正校正检测框位置，将预测的检测框从第k-1帧的坐标系转换到第k帧中的坐标系。

本实施方式中，转换步骤包括旋转缩放矩阵和平移矩阵/>，其中，，/>，平移矩阵转换检测框的中心点位置，旋转缩放矩阵转换检测目标KF的状态矢量和噪声矩阵，相机运动校正：

；

实施例1

基于Transformer的多目标跟踪模型使用TransCenter网络模型，用于网络训练的数据集输入图像的尺寸为640×1088，编码器共有四层，用于每个图像特征尺度和相应的隐藏层维度为h=[64，128，320，512]，解码器的输出维度为h=256。网络使用Adam优化器，学习率为2e-4，训练50轮。基准跟踪模型的检测分支输出的检测目标按照阈值0.6和0.1划分，检测置信度得分大于0.6划分为高分检测，介于0.1和0.6之间的划分为低分检测。

重识别特征提取网络使用FastReID库，基于SBS框架和ResNet50作为backbone实现，训练采用的数据集由SportsMOT单目视频序列数据集生成，根据体育场景中比赛时间和背景场地特点，分段划分生成同一目标三个不同视角下不同图像的重识别数据集。输入的图像尺寸为384×128，学习率设置为3.5e-4，训练60轮。

速度方向一致性计算针对复杂体育场景中的非线性运动和变速运动，为了确定运动方向，需要物体在两个时间帧上的状态，其时间差Δt。如果Δt很小，由于估计对状态噪声的敏感性，速度噪声将是显著的。当Δt较大时，由于时间误差放大和线性运动假设失效，方向估计的噪声也会很大。使用历史观测信息代替估计值减少运动方向计算的噪声，引入其一致性项来帮助关联，相机运动补偿在Kalman滤波器完成位置预测之前进行相机运动补偿，然后 Kalman滤波器预测阶段使用校正后的状态向量和协方差矩阵。

实施例完成后对轨迹和检测目标根据代价矩阵使用匈牙利算法进行关联分配。关联完成后，对轨迹状态的更新就是对轨迹对应 Kalman滤波的参数更新，若发生观测目标遮挡问题导致轨迹失联，回查到该轨迹最后一次出现的观测信息，在当前帧重新出现观测信息的时间帧之间建立虚拟轨迹，对Kalman滤波更新参数。然后，更新失联轨迹的跟踪状态及其历史观测信息。初始化剩余未匹配检测框的轨迹，消除以判定超过生命周期的轨迹，这里轨迹的生命周期设置为60帧。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，其特征在于，包括：

运动补偿模块，在KF完成位置预测之前进行相机运动补偿，KF预测阶段使用校正后的状态向量和协方差矩阵；

所述数据关联模块中相似度的依据包括目标轨迹和检测目标之间的位置、运动和外观，具体包括：

物体在被遮挡一段时间后，通过外观相似性重新识别，外观相似度通过ReID特征计算；

所述Kalman滤波模块将检测目标描述为状态空间内的位置估计，所述状态空间内的位置估计用目标位置、速度、大小的状态向量表示，所述Kalman滤波模块包括

先验估计模块，对视频当前帧中的目标位置估计；

后验估计模块，对视频下一帧中的目标位置估计；

所述Kalman滤波模块在Kalman预测阶段将每个目标轨迹的位置更新到下一帧，在Kalman更新阶段将每次轨迹与新的检测相关联时被更新；

所述Kalman预测阶段包括：

；

所述Kalman更新阶段包括：

；

基于DeepSORT算法将目标轨迹的状态表示为：

;

在连续时间步长上检测目标轨迹中心点的更新位置为：

;

其中，Δt为 1；

;

其中，IoU表示检测框和预测边界框之间的交叉-联合，A表示检测框的面积，B表示预测边界框的面积；

所述Kalman滤波模块估计的目标轨迹中心点位置为和，则在时间帧k和时间帧k+Δt之间的估计速度为：

;

计算得到速度估计的噪声为和/>;

;

方向估计没有高斯噪声，则目标的运动方向在任意时间段为常数；方向估计有高斯噪声，即和/>，考虑到arctan函数的单调性，通过分析tan简化对目标轨迹的方向估计，定义/>分析目标轨迹方向估计的噪声，，/>，/>，则x和y共同形成一个高斯分布：

;

其中，，/>，/>，/>，而/>是x和y之间的相关系数；

进而计算得到变量z的概率密度函数的解：

;

其中：

;

。

2.根据权利要求1所述的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，其特征在于，所述虚拟轨迹模块包括KF状态参数更新：

；

其中，，/>表示分别为在时间帧k中对目标速度的估计值；

对速度估计噪声的计算：，/>；

3.根据权利要求2所述的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，其特征在于，所述最后一次观测记为，将触发重新关联的观测记为/>，用不同的假设生成虚拟轨迹：

;

计算目标被长期遮挡期间虚拟轨迹检测框的公式为：

。

4.根据权利要求1所述的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，其特征在于，所述运动补偿模块包括使OpenCV库进行全局运动补偿，并进行仿射变换矩阵正校正检测框位置，将预测的检测框从第k-1帧的坐标系转换到第k帧中的坐标系。

5.根据权利要求4所述的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统，其特征在于，转换步骤包括旋转缩放矩阵和平移矩阵，其中，，，平移矩阵转换检测框的中心点位置，旋转缩放矩阵转换检测目标 KF的状态矢量和噪声矩阵，相机运动校正：

;