CN116883458B - 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统 - Google Patents
基于Transformer并融合以观测为中心运动特征的多目标跟踪系统 Download PDFInfo
- Publication number
- CN116883458B CN116883458B CN202311139793.0A CN202311139793A CN116883458B CN 116883458 B CN116883458 B CN 116883458B CN 202311139793 A CN202311139793 A CN 202311139793A CN 116883458 B CN116883458 B CN 116883458B
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- detection
- track
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 81
- 238000001514 detection method Methods 0.000 claims abstract description 98
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000001914 filtration Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/60—Rotation of a whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,包括数据关联模块,用于计算目标轨迹和检测目标之间的相似度,根据相似度利用策略进行匹配;编码器‑解码器模块,用于接收连续两帧图像作为输入,得到当前帧k中的检测目标和置信度;Kalman滤波模块,根据历史检测目标位置信息对下一帧中检测目标位置进行预测;虚拟轨迹模块,利用过去若干帧中已建立的轨迹的检测框,计算得到目标轨迹的速度和方向信息,建立虚拟轨迹;运动补偿模块,在KF完成位置预测之前进行相机运动补偿,KF预测阶段使用校正后的状态向量和协方差矩阵。本发明可以更好地建模复杂体育场景中球员的运动特征,提高跟踪的准确性和鲁棒性。
Description
技术领域
本发明涉及计算机视觉目标跟踪技术领域,尤其涉及一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统。
背景技术
作为一项基本的视觉感知任务,多目标跟踪的目的是逐帧检测和跟踪所有特定类别的物体。由于检测算法的快速发展,检测和跟踪范式的性能得到很大的提高,因此可以更加关注目标身份的关联匹配问题。通过建立稳健的运动模型来预测目标的轨迹并生成轨迹,解决频繁遮挡和短期消失的问题。引入注意力机制,关注图像帧之间的联系,建立基于位置信息和运动状态的长期时空模型,取得良好的精度提升。
目前MOT基准数据集中的大部分目标物体都有明显的可区分的外观,而且视频序列的背景单一且相对静态,目标以均匀或接近线性的运动模式出现。所提出的深度学习模型可以很容易地建立一个稳健的目标运动模型或学习具有较大区分度的外观特征。SportsMOT数据集在体育比赛场景中收集,目标物体一般尺寸均匀,但目标往往保持高速和非线性运动,且经常出现遮挡。作为最经典的运动模型之一,卡尔曼滤波器是一个遵循典型预测-更新周期的递归贝叶斯滤波器。以观测为中心优化后的卡尔曼滤波器进行运动估计与外观重识别特征结合完成目标跟踪任务。复杂的体育运动场景中可能出现镜头偏移或快速运动等问题,摄像机运动补偿可以校正检测框位置的剧烈变化或漂移等现象。因此,如何提供一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,本发明以观测为中心优化的Kalman滤波器进行运动估计,并结合摄像机运动补偿来校正检测框位置的剧烈变化或漂移等现象,可以更好地建模复杂体育场景中球员的运动特征,提高跟踪的准确性和鲁棒性。
根据本发明实施例的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,其特征在于,包括:
数据关联模块,用于计算目标轨迹和检测目标之间的相似度,根据相似度利用策略进行匹配;
编码器-解码器模块,基于Transformer的多目标跟踪编码-解码网络,用于接收连续两帧图像作为输入,得到当前帧k中的检测目标和置信度;
Kalman滤波模块,根据历史检测目标位置信息对下一帧中检测目标位置进行预测;
虚拟轨迹模块,利用过去若干帧中已建立的轨迹的检测框,计算得到目标轨迹的速度和方向信息,建立虚拟轨迹;
运动补偿模块,在KF完成位置预测之前进行相机运动补偿,KF预测阶段使用校正后的状态向量和协方差矩阵。
可选的,所述数据关联模块中相似度的依据包括目标轨迹和检测目标之间的位置、运动和外观,具体包括:
采用Kalman滤波模块预测目标轨迹在新帧中的位置,计算目标轨迹的检测框之间的交叉-联合作为相似度;
物体在被遮挡一段时间后,通过外观相似性重新识别,外观相似度通过ReID特征计算。
可选的,所述Kalman滤波模块将检测目标描述为状态空间内的位置估计,所述状态空间内的位置估计用目标位置、速度、大小的状态向量表示,所述Kalman滤波模块包括
先验估计模块,对视频当前帧中的目标位置估计;
后验估计模块,对视频下一帧中的目标位置估计。
可选的,所述Kalman滤波模块在Kalman预测阶段将每个目标轨迹的位置更新到下一帧,在Kalman更新阶段将每次轨迹与新的检测相关联时被更新。
可选的,所述Kalman预测阶段包括:
;
;
所述Kalman更新阶段包括:
;
;
;
其中,表示过渡矩阵,/>表示协方差矩阵,/>表示Kalman 增益,/>表示观测矩阵,/>表示过程噪声协方差,/>表示测量噪声协方差;
基于DeepSORT算法将目标轨迹的状态表示为:
;
其中,u,v表示物体中心在图像平面上的二维坐标,s表示检测框面积,r表示检测框bbox的宽高比,和/>表示Kalman滤波预测的目标轨迹中心点的偏移量,/>表示Kalman滤波预测得到的检测框面积;
在连续时间步长上检测目标轨迹中心点的更新位置为:
;
;
其中,Δt为 1;
利用当前帧每个目标的检测框和预测边界框之间的交叉-联合距离计算运动成本矩阵:
;
其中,IoU表示检测框和预测边界框之间的交叉-联合,A表示检测框的面积,B表示预测边界框的面积。
可选的,所述Kalman滤波模块估计的目标轨迹中心点位置为和,则在时间帧k和时间帧k+△t之间的估计速度为:
;
;
计算得到速度估计的噪声为和/>对于方向估计,在时间帧k上,跟踪目标的真实标签中心点为/>,得出在时间帧/>和时间帧/>之间目标的实际运动方向为:
;
方向估计没有高斯噪声,则目标的运动方向在任意时间段为常数;方向估计有高斯噪声,即和/>考虑到arctan函数的单调性,通过分析tan简化对目标轨迹的方向估计,定义/>分析目标轨迹方向估计的噪声,,/>,/>则x和y共同形成一个高斯分布:
;
其中,,/>,/>,/>,而/>是x和y之间的相关系数;
进而计算得到变量z的概率密度函数的解:
;
其中:
;
;
;
可选的,所述虚拟轨迹模块包括KF状态参数更新:
当目标轨迹对应的Kalman滤波状态估计器在连续帧中都没有新的检测框数据输入时,KF根据之前的预测位置作为新一帧中状态更新输入递归地更新KF地参数;
假设目标0在时间帧k到k+T之间被遮挡,则对目标位置的估计为:
;
;
其中,,/>表示分别为在时间帧k中对目标速度的估计值;
对速度估计噪声的计算:,/>;
当跟踪目标被连续长期遮挡而无法提供检测框数据对KF进行有监督参数更新时,由KF进行线性运动假设估计得到的位置关于遮挡时间间隔以平方阶积累误差;
如果在目标被遮挡期间根据最后一次观测到和最近一次重新关联时的两个运动模式相匹配的真实值检测框建立一条虚拟轨迹,重新更新轨迹的 KF 的参数,基于运动模式相匹配以及虚拟观测值监督的参数更新将不再受遮挡引起的缺失观测迭代更新积累误差的影响;
一个轨迹在一段时间未被跟踪后再次与观测相关联,通过观测的虚拟轨迹对参数进行在线平滑,回到丢失的那段时间,用于修复时间间隔内的累积误差。
可选的,所述最后一次观测记为,将触发重新关联的观测记为/>,用不同的假设生成虚拟轨迹:
;
沿着这条虚拟轨迹,从k1的状态开始,通过预测和更新阶段的交替,对滤波器参数进行回检,刷新后的状态估计为:;
计算目标被长期遮挡期间虚拟轨迹检测框的公式为:
;
可选的,所述运动补偿模块包括使OpenCV库进行全局运动补偿,并进行仿射变换矩阵正校正检测框位置,将预测的检测框从第k-1帧的坐标系转换到第k帧中的坐标系。
可选的,所述转换步骤包括旋转缩放矩阵和平移矩阵/>,其中,,/>,平移矩阵转换检测框的中心点位置,旋转缩放矩阵转换检测目标KF的状态矢量和噪声矩阵,相机运动校正:
;
;
;
;
其中,和/>分别表示在视频序列第K帧中相机运动补偿前后的检测目标状对应KF状态向量;/>和/>分别表示检测目标第K帧中相机运动补偿前后的检测目标状对应KF态向量的协方差矩阵。
本发明的有益效果是:
本发明可以适应复杂体育场景中目标频繁消失重现的问题,补充了目标重现时基于外观重识别的轨迹恢复,降低了目标轨迹身份切换的数量。可以适应复杂体育场景中目标的长期遮挡和非线性运动。采用相机运动补偿校正图像中检测框的位置,在动态拍摄的体育场景视频序列中,使得Kalman滤波器预测的目标检测框位置更加准确。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统的流程图;
图2为本发明提出的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统中Kalman滤波预测和更新过程图;
图3为本发明提出的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统中建立虚拟轨迹位置估计示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,其特征在于,包括:
数据关联模块,用于计算目标轨迹和检测目标之间的相似度,根据相似度利用策略进行匹配;
编码器-解码器模块,基于Transformer的多目标跟踪编码-解码网络,用于接收连续两帧图像作为输入,得到当前帧k中的检测目标和置信度;
Kalman滤波模块,根据历史检测目标位置信息对下一帧中检测目标位置进行预测;
虚拟轨迹模块,利用过去若干帧中已建立的轨迹的检测框,计算得到目标轨迹的速度和方向信息,建立虚拟轨迹;
运动补偿模块,在KF完成位置预测之前进行相机运动补偿,KF预测阶段使用校正后的状态向量和协方差矩阵。
参考图2,本实施方式中,数据关联模块中相似度的依据包括目标轨迹和检测目标之间的位置、运动和外观,具体包括:
采用Kalman滤波模块预测目标轨迹在新帧中的位置,计算目标轨迹的检测框之间的交叉-联合作为相似度;
物体在被遮挡一段时间后,通过外观相似性重新识别,外观相似度通过ReID特征计算。
本实施方式中,Kalman滤波模块将检测目标描述为状态空间内的位置估计,状态空间内的位置估计用目标位置、速度、大小的状态向量表示,Kalman滤波模块包括
先验估计模块,对视频当前帧中的目标位置估计;
后验估计模块,对视频下一帧中的目标位置估计。
本实施方式中,Kalman滤波模块在Kalman预测阶段将每个目标轨迹的位置更新到下一帧,在Kalman更新阶段将每次轨迹与新的检测相关联时被更新。
本实施方式中,Kalman预测阶段包括:
;
;
Kalman更新阶段包括:
;
;
;
其中,表示过渡矩阵,/>表示协方差矩阵,/>表示Kalman 增益,/>表示观测矩阵,/>表示过程噪声协方差,/>表示测量噪声协方差;
基于DeepSORT算法将目标轨迹的状态表示为:
;
其中,u,v表示物体中心在图像平面上的二维坐标,s表示检测框面积,r表示检测框bbox的宽高比,和/>表示Kalman滤波预测的目标轨迹中心点的偏移量,/>表示Kalman滤波预测得到的检测框面积;
在连续时间步长上检测目标轨迹中心点的更新位置为:
;
;
其中,Δt为 1;
利用当前帧每个目标的检测框和预测边界框之间的交叉-联合距离计算运动成本矩阵:
;
其中,IoU表示检测框和预测边界框之间的交叉-联合,A表示检测框的面积,B表示预测边界框的面积。
本实施方式中,Kalman滤波模块估计的目标轨迹中心点位置为和,则在时间帧k和时间帧k+Δt之间的估计速度为:
;
;
计算得到速度估计的噪声为和/>;
对于方向估计,在时间帧k上,跟踪目标的真实标签中心点为,得出在时间帧和时间帧/>之间目标的实际运动方向为:
;
方向估计没有高斯噪声,则目标的运动方向在任意时间段为常数;方向估计有高斯噪声,即和/>考虑到arctan函数的单调性,通过分析tan简化对目标轨迹的方向估计,定义/>分析目标轨迹方向估计的噪声,,/>,/>则x和y共同形成一个高斯分布:
;
其中,,/>,/>,/>,而/>是x和y之间的相关系数;
进而计算得到变量z的概率密度函数的解:
;
其中:
;
;
;
参考图3,本实施方式中,虚拟轨迹模块包括KF状态参数更新:
当目标轨迹对应的Kalman滤波状态估计器在连续帧中都没有新的检测框数据输入时,KF根据之前的预测位置作为新一帧中状态更新输入递归地更新 KF 地参数;
假设目标O在时间帧k到k+T之间被遮挡,则对目标位置的估计为:
;
;
其中,,/>表示分别为在时间帧k中对目标速度的估计值;
对速度估计噪声的计算:,/>;
当跟踪目标被连续长期遮挡而无法提供检测框数据对KF进行有监督参数更新时,由KF进行线性运动假设估计得到的位置关于遮挡时间间隔以平方阶积累误差;
如果在目标被遮挡期间根据最后一次观测到和最近一次重新关联时的两个运动模式相匹配的真实值检测框建立一条虚拟轨迹,重新更新轨迹的 KF 的参数,基于运动模式相匹配以及虚拟观测值监督的参数更新将不再受遮挡引起的缺失观测迭代更新积累误差的影响;
一个轨迹在一段时间未被跟踪后再次与观测相关联,通过观测的虚拟轨迹对参数进行在线平滑,回到丢失的那段时间,用于修复时间间隔内的累积误差。
本实施方式中,最后一次观测记为,将触发重新关联的观测记为/>,用不同的假设生成虚拟轨迹:
;
沿着这条虚拟轨迹,从k1的状态开始,通过预测和更新阶段的交替,对滤波器参数进行回检,刷新后的状态估计为:
;
计算目标被长期遮挡期间虚拟轨迹检测框的公式为:
;
本实施方式中,运动补偿模块包括使OpenCV库进行全局运动补偿,并进行仿射变换矩阵正校正检测框位置,将预测的检测框从第k-1帧的坐标系转换到第k帧中的坐标系。
本实施方式中,转换步骤包括旋转缩放矩阵和平移矩阵/>,其中,,/>,平移矩阵转换检测框的中心点位置,旋转缩放矩阵转换检测目标KF的状态矢量和噪声矩阵,相机运动校正:
;
;
;
;
其中,和/>分别表示在视频序列第K帧中相机运动补偿前后的检测目标状对应KF状态向量;/>和/>分别表示检测目标第K帧中相机运动补偿前后的检测目标状对应KF态向量的协方差矩阵。
实施例1
基于Transformer的多目标跟踪模型使用TransCenter网络模型,用于网络训练的数据集输入图像的尺寸为640×1088,编码器共有四层,用于每个图像特征尺度和相应的隐藏层维度为h=[64,128,320,512],解码器的输出维度为h=256。网络使用Adam优化器,学习率为2e-4,训练50轮。基准跟踪模型的检测分支输出的检测目标按照阈值0.6和0.1划分,检测置信度得分大于0.6划分为高分检测,介于0.1和0.6之间的划分为低分检测。
重识别特征提取网络使用FastReID库,基于SBS框架和ResNet50作为backbone实现,训练采用的数据集由SportsMOT单目视频序列数据集生成,根据体育场景中比赛时间和背景场地特点,分段划分生成同一目标三个不同视角下不同图像的重识别数据集。输入的图像尺寸为384×128,学习率设置为3.5e-4,训练60轮。
速度方向一致性计算针对复杂体育场景中的非线性运动和变速运动,为了确定运动方向,需要物体在两个时间帧上的状态,其时间差Δt。如果Δt很小,由于估计对状态噪声的敏感性,速度噪声将是显著的。当Δt较大时,由于时间误差放大和线性运动假设失效,方向估计的噪声也会很大。使用历史观测信息代替估计值减少运动方向计算的噪声,引入其一致性项来帮助关联,相机运动补偿在Kalman滤波器完成位置预测之前进行相机运动补偿,然后 Kalman滤波器预测阶段使用校正后的状态向量和协方差矩阵。
实施例完成后对轨迹和检测目标根据代价矩阵使用匈牙利算法进行关联分配。关联完成后,对轨迹状态的更新就是对轨迹对应 Kalman滤波的参数更新,若发生观测目标遮挡问题导致轨迹失联,回查到该轨迹最后一次出现的观测信息,在当前帧重新出现观测信息的时间帧之间建立虚拟轨迹,对Kalman滤波更新参数。然后,更新失联轨迹的跟踪状态及其历史观测信息。初始化剩余未匹配检测框的轨迹,消除以判定超过生命周期的轨迹,这里轨迹的生命周期设置为60帧。
本发明可以适应复杂体育场景中目标频繁消失重现的问题,补充了目标重现时基于外观重识别的轨迹恢复,降低了目标轨迹身份切换的数量。可以适应复杂体育场景中目标的长期遮挡和非线性运动。采用相机运动补偿校正图像中检测框的位置,在动态拍摄的体育场景视频序列中,使得Kalman滤波器预测的目标检测框位置更加准确。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,其特征在于,包括:
数据关联模块,用于计算目标轨迹和检测目标之间的相似度,根据相似度利用策略进行匹配;
编码器-解码器模块,基于Transformer的多目标跟踪编码-解码网络,用于接收连续两帧图像作为输入,得到当前帧k中的检测目标和置信度;
Kalman滤波模块,根据历史检测目标位置信息对下一帧中检测目标位置进行预测;
虚拟轨迹模块,利用过去若干帧中已建立的轨迹的检测框,计算得到目标轨迹的速度和方向信息,建立虚拟轨迹;
运动补偿模块,在KF完成位置预测之前进行相机运动补偿,KF预测阶段使用校正后的状态向量和协方差矩阵;
所述数据关联模块中相似度的依据包括目标轨迹和检测目标之间的位置、运动和外观,具体包括:
采用Kalman滤波模块预测目标轨迹在新帧中的位置,计算目标轨迹的检测框之间的交叉-联合作为相似度;
物体在被遮挡一段时间后,通过外观相似性重新识别,外观相似度通过ReID特征计算;
所述Kalman滤波模块将检测目标描述为状态空间内的位置估计,所述状态空间内的位置估计用目标位置、速度、大小的状态向量表示,所述Kalman滤波模块包括
先验估计模块,对视频当前帧中的目标位置估计;
后验估计模块,对视频下一帧中的目标位置估计;
所述Kalman滤波模块在Kalman预测阶段将每个目标轨迹的位置更新到下一帧,在Kalman更新阶段将每次轨迹与新的检测相关联时被更新;
所述Kalman预测阶段包括:
;
;
所述Kalman更新阶段包括:
;
;
;
其中,表示过渡矩阵,/>表示协方差矩阵,/>表示Kalman 增益,/>表示观测矩阵,/>表示过程噪声协方差,/>表示测量噪声协方差;
基于DeepSORT算法将目标轨迹的状态表示为:
;
其中,u,v表示物体中心在图像平面上的二维坐标,s表示检测框面积,r表示检测框bbox的宽高比,和/>表示Kalman滤波预测的目标轨迹中心点的偏移量,/>表示Kalman滤波预测得到的检测框面积;
在连续时间步长上检测目标轨迹中心点的更新位置为:
;
;
其中,Δt为 1;
利用当前帧每个目标的检测框和预测边界框之间的交叉-联合距离计算运动成本矩阵:
;
其中,IoU表示检测框和预测边界框之间的交叉-联合,A表示检测框的面积,B表示预测边界框的面积;
所述Kalman滤波模块估计的目标轨迹中心点位置为和,则在时间帧k和时间帧k+Δt之间的估计速度为:
;
;
计算得到速度估计的噪声为和/>;
对于方向估计,在时间帧k上,跟踪目标的真实标签中心点为,得出在时间帧和时间帧/>之间目标的实际运动方向为:
;
方向估计没有高斯噪声,则目标的运动方向在任意时间段为常数;方向估计有高斯噪声,即和/>,考虑到arctan函数的单调性,通过分析tan简化对目标轨迹的方向估计,定义/>分析目标轨迹方向估计的噪声,,/>,/>,则x和y共同形成一个高斯分布:
;
其中,,/>,/>,/>,而/>是x和y之间的相关系数;
进而计算得到变量z的概率密度函数的解:
;
其中:
;
;
。
2.根据权利要求1所述的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,其特征在于,所述虚拟轨迹模块包括KF状态参数更新:
当目标轨迹对应的Kalman滤波状态估计器在连续帧中都没有新的检测框数据输入时,KF根据之前的预测位置作为新一帧中状态更新输入递归地更新KF地参数;
假设目标0在时间帧k到k+T之间被遮挡,则对目标位置的估计为:
;
;
其中,,/>表示分别为在时间帧k中对目标速度的估计值;
对速度估计噪声的计算:,/>;
当跟踪目标被连续长期遮挡而无法提供检测框数据对KF进行有监督参数更新时,由KF进行线性运动假设估计得到的位置关于遮挡时间间隔以平方阶积累误差;
如果在目标被遮挡期间根据最后一次观测到和最近一次重新关联时的两个运动模式相匹配的真实值检测框建立一条虚拟轨迹,重新更新轨迹的 KF 的参数,基于运动模式相匹配以及虚拟观测值监督的参数更新将不再受遮挡引起的缺失观测迭代更新积累误差的影响;
一个轨迹在一段时间未被跟踪后再次与观测相关联,通过观测的虚拟轨迹对参数进行在线平滑,回到丢失的那段时间,用于修复时间间隔内的累积误差。
3.根据权利要求2所述的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,其特征在于,所述最后一次观测记为,将触发重新关联的观测记为/>,用不同的假设生成虚拟轨迹:
;
沿着这条虚拟轨迹,从k1的状态开始,通过预测和更新阶段的交替,对滤波器参数进行回检,刷新后的状态估计为:
;
计算目标被长期遮挡期间虚拟轨迹检测框的公式为:
。
4.根据权利要求1所述的一种基于Transformer并融合以观测为中心运动特征的多目标跟踪系统,其特征在于,所述运动补偿模块包括使OpenCV库进行全局运动补偿,并进行仿射变换矩阵正校正检测框位置,将预测的检测框从第k-1帧的坐标系转换到第k帧中的坐标系。
5.根据权利要求4所述的一种基于Transformer并融合以观测为中心运动特征的多目
标跟踪系统,其特征在于,转换步骤包括旋转缩放矩阵和平移矩阵,其中,,,平移矩阵转换检测框的中心点位置,旋转缩放矩阵转换检测目标
KF的状态矢量和噪声矩阵,相机运动校正:
;
;
;
;
其中,和/>分别表示在视频序列第K帧中相机运动补偿前后的检测目标状对应KF状态向量;/>和/>分别表示检测目标第K帧中相机运动补偿前后的检测目标状对应KF态向量的协方差矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139793.0A CN116883458B (zh) | 2023-09-06 | 2023-09-06 | 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139793.0A CN116883458B (zh) | 2023-09-06 | 2023-09-06 | 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116883458A CN116883458A (zh) | 2023-10-13 |
CN116883458B true CN116883458B (zh) | 2024-01-09 |
Family
ID=88271848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311139793.0A Active CN116883458B (zh) | 2023-09-06 | 2023-09-06 | 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883458B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370484B (zh) * | 2023-12-07 | 2024-02-13 | 广州斯沃德科技有限公司 | 一种轨迹信息的处理方法、装置、电子设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018078431A (ja) * | 2016-11-09 | 2018-05-17 | 日本放送協会 | オブジェクト追跡装置及びそのプログラム |
CN110569719A (zh) * | 2019-07-30 | 2019-12-13 | 中国科学技术大学 | 一种动物头部姿态估计方法及系统 |
WO2020248248A1 (en) * | 2019-06-14 | 2020-12-17 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for object tracking |
CN113269098A (zh) * | 2021-05-27 | 2021-08-17 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于无人机的多目标跟踪定位与运动状态估计方法 |
CN113723190A (zh) * | 2021-07-29 | 2021-11-30 | 北京工业大学 | 一种面向同步移动目标的多目标跟踪方法 |
CN115511920A (zh) * | 2022-07-12 | 2022-12-23 | 南京华康智能科技有限公司 | 一种基于DeepSort和DeepEMD的检测跟踪方法和系统 |
EP4125037A1 (en) * | 2021-07-29 | 2023-02-01 | Beijing Tusen Zhitu Technology Co., Ltd. | Multiple target tracking method and apparatus, calculating device and storage medium |
CN116152297A (zh) * | 2023-03-21 | 2023-05-23 | 江苏大学 | 一种适应车辆运动特点的多目标跟踪方法 |
CN116309731A (zh) * | 2023-03-09 | 2023-06-23 | 江苏大学 | 一种基于自适应卡尔曼滤波的多目标动态跟踪方法 |
CN116630376A (zh) * | 2023-06-06 | 2023-08-22 | 哈尔滨理工大学 | 基于ByteTrack的无人机多目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11094070B2 (en) * | 2019-04-23 | 2021-08-17 | Jiangnan University | Visual multi-object tracking based on multi-Bernoulli filter with YOLOv3 detection |
-
2023
- 2023-09-06 CN CN202311139793.0A patent/CN116883458B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018078431A (ja) * | 2016-11-09 | 2018-05-17 | 日本放送協会 | オブジェクト追跡装置及びそのプログラム |
WO2020248248A1 (en) * | 2019-06-14 | 2020-12-17 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for object tracking |
CN110569719A (zh) * | 2019-07-30 | 2019-12-13 | 中国科学技术大学 | 一种动物头部姿态估计方法及系统 |
CN113269098A (zh) * | 2021-05-27 | 2021-08-17 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于无人机的多目标跟踪定位与运动状态估计方法 |
CN113723190A (zh) * | 2021-07-29 | 2021-11-30 | 北京工业大学 | 一种面向同步移动目标的多目标跟踪方法 |
EP4125037A1 (en) * | 2021-07-29 | 2023-02-01 | Beijing Tusen Zhitu Technology Co., Ltd. | Multiple target tracking method and apparatus, calculating device and storage medium |
CN115511920A (zh) * | 2022-07-12 | 2022-12-23 | 南京华康智能科技有限公司 | 一种基于DeepSort和DeepEMD的检测跟踪方法和系统 |
CN116309731A (zh) * | 2023-03-09 | 2023-06-23 | 江苏大学 | 一种基于自适应卡尔曼滤波的多目标动态跟踪方法 |
CN116152297A (zh) * | 2023-03-21 | 2023-05-23 | 江苏大学 | 一种适应车辆运动特点的多目标跟踪方法 |
CN116630376A (zh) * | 2023-06-06 | 2023-08-22 | 哈尔滨理工大学 | 基于ByteTrack的无人机多目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
基于稀疏贝叶斯模型的特征选择;祝璞;黄章进;;计算机工程(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116883458A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269098B (zh) | 一种基于无人机的多目标跟踪定位与运动状态估计方法 | |
CN107292911B (zh) | 一种基于多模型融合和数据关联的多目标跟踪方法 | |
CN109949375B (zh) | 一种基于深度图感兴趣区域的移动机器人目标跟踪方法 | |
CN102881024B (zh) | 一种基于tld的视频目标跟踪方法 | |
Cai et al. | Robust visual tracking for multiple targets | |
CN112883819A (zh) | 多目标跟踪方法、装置、系统及计算机可读存储介质 | |
CN107169989B (zh) | 一种基于数据关联与轨迹评估的多目标跟踪方法 | |
CN116883458B (zh) | 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统 | |
CN101853511A (zh) | 一种抗遮挡目标轨迹预测跟踪方法 | |
CN116128932B (zh) | 一种多目标跟踪方法 | |
CN107622507B (zh) | 一种基于深度学习的空中目标跟踪方法 | |
CN112488057A (zh) | 一种利用人头点定位和关节点信息的单相机多目标跟踪方法 | |
CN106846367B (zh) | 一种基于运动约束光流法的复杂动态场景的运动物体检测方法 | |
CN110569706A (zh) | 一种基于时间和空间网络的深度集成目标跟踪算法 | |
CN111639570B (zh) | 一种基于运动模型和单目标线索的在线多目标跟踪方法 | |
CN114623817A (zh) | 基于关键帧滑窗滤波的含自标定的视觉惯性里程计方法 | |
Schwarcz et al. | 3d human pose estimation from deep multi-view 2d pose | |
Engilberge et al. | Multi-view tracking using weakly supervised human motion prediction | |
CN110660084A (zh) | 一种多目标跟踪的方法及装置 | |
JP7316236B2 (ja) | 骨格追跡方法、装置およびプログラム | |
CN113379801A (zh) | 一种基于机器视觉的高空抛物监测定位方法 | |
CN106570536A (zh) | 一种时差定位系统目标高精度跟踪滤波方法 | |
Lepetit et al. | Robust data association for online application | |
CN106934818B (zh) | 一种手部运动跟踪方法及系统 | |
Zhang et al. | AIPT: Adaptive information perception for online multi-object tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |