CN112734809A - 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 - Google Patents
基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 Download PDFInfo
- Publication number
- CN112734809A CN112734809A CN202110083052.XA CN202110083052A CN112734809A CN 112734809 A CN112734809 A CN 112734809A CN 202110083052 A CN202110083052 A CN 202110083052A CN 112734809 A CN112734809 A CN 112734809A
- Authority
- CN
- China
- Prior art keywords
- target detection
- tracking
- kcf
- frame
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 110
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 230000004044 response Effects 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 abstract description 26
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241001239379 Calophysus macropterus Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006911 nucleation Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请揭示了一种基于Deep‑Sort跟踪框架的在线多行人跟踪方法及装置,该方法包括:利用视频帧输入生成目标检测框;计算目标检测框的余弦距离;将目标检测框输入至融合的Vgg‑16网络模型中,将提取的特征值和轨迹输入至KCF中,计算出目标检测框的欧氏距离;根据余弦距离和欧氏距离,结合每个目标检测框的总距离以及Deep‑Sort跟踪框架的匹配级联方式,输出跟踪结果。本申请将Deep‑Sort跟踪算法中的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能;通过针对高斯核相关滤波器跟踪行人运动产生的漂移现象,提出峰值旁瓣比,将多个相关滤波器衔接起来,以达到更高的跟踪准确率和精确率。
Description
技术领域
本发明属于多行人跟踪技术领域,涉及一种基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置。
背景技术
多行人跟踪是视频监控领域中常见场景之一,其含义是将行人运动视频输入至多行人跟踪算法中,得到各个行人的运动轨迹,包括轨迹的起始与终结。对这些行人轨迹可根据实际用途进行进一步的分析,如行人异常行为分析,因此多行人跟踪在监控视频分析中具有承上启下的作用,使监控信息更具有价值。随着深度学习的蓬勃发展,一大批基于深度学习的多行人跟踪方法也快速涌现,如C-COT,DeepSort,MOTDT,DeepMOT等,这使得跟踪效能大大提升。其中,DeepSort是在Sort算法的基础上进行一些改进,加入了外观特征相似度分量以及更加完备的跟踪逻辑,这些使得跟踪器的性能大幅度提高。Deep-Sort分为特征提取,建立运动模型和轨迹分配三部分,其中第二部分的运动模型采用卡尔曼滤波。
在实际应用中,除卡尔曼滤波外还可采取相关滤波及粒子滤波等运动模型。卡尔曼滤波是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法。简而言之,即先由状态方程进行估计,再由观测方程对估计进行纠正。卡尔曼滤波的使用是有前提的,那就是系统噪声必须符合高斯分布及必须是线性系统。然而在实际场景中,这两点不容易同时满足,于是有学者提出了粒子滤波,粒子滤波的优势在于对运动系统没有什么要求。粒子滤波的核心思想就是基于强化学习的优化,其性能可以在去掉高斯假设和线性假设之后仍然保持最优。但其需要通过多次迭代来计算最优,所以复杂程度很高,因此卡尔曼滤波相对于粒子滤波,仍是用途较广的算法。除对运动系统有要求外,当运动目标长时间被遮挡时卡尔曼滤波很可能存在目标跟踪丢的情况,于是很多学者都在研究更鲁棒性的算法。为实现高精确度和快速的目标跟踪,相关滤波是近年来比较热门的方法。相关滤波跟踪的基本思想是设计一个滤波模板,利用该模板与目标候选区域做相关运算,最大输出响应的位置即为当前帧的目标位置。但是目前所有的相关滤波跟踪方法仍然无法解决遮挡和光照变化等因素造成的干扰,这对跟踪性能的MOTA和MOTP的提高带来一定的影响。因此,需要进一步解决遮挡和光照的干扰,以更好地提升跟踪器性能。
Deep-Sort是一种tracking-by-detection的跟踪方法,即先检测出某一帧中出现的所有行人,然后判断这些行人是否是与前一帧有关联的目标。以某一个行人为例:在Deep-Sort中先使用卡尔曼滤波计算出当前帧该行人(设为轨迹i)在下一帧视频中可能出现的位置,记为yi。检测出下一帧中出现的行人,第j个检测框设为dj,将这两值的马氏距离设为第一个测度,即:d(1)(i,j)=(dj-yi)Tsi -1(dj-yi)。第二个测度为在外观空间中第i个轨迹与第j个检测之间的最小余弦距离,即:d(2)(i,j)=min{1-rj Trk (i)|rk (i)∈Ri}。将这两个测度融合成为一个相似度度量,将此度量带入匈牙利分配方法中,找到下一帧中与该轨迹相关联的检测框,即该行人在下一帧中出现的位置。
核相关滤波(简称KCF)以其简单、快捷、准确的特性在视觉跟踪中广受好评。其主要思想是通过样本训练一个分类器,即找到一个函数f(z)=wTz,使它满足其中xi是样本,yi是此区域是目标的概率,λ是一个控制过度拟合的正则化参数。为了简化求解过程,引入了循环矩阵X,循环矩阵的另一个作用是增加样本量,此外通过离散傅里叶变换(DFT)进一步简化计算加快求解过程。假设f(z)非线性且w是样本的线性函数,即将所有对样本之间的点积存储在核矩阵K中,其中元素为Kij=κ(xi,xj)。通过核技巧,可将非线性函数转变成核的线性函数对参数w的求解也转换成对α的求解。将核化后岭回归的解α=(K+λI)-1y映射在傅里叶域化简后解为其中kxx是K=C(kxx)的第一行,C()是将括号中向量变成循环矩阵的映射,向量上的符号表明的是向量的DFT。在测试时为了快速计算候选区域响应值,将f(z)=(Kz)Tα映射在傅里叶域中得到这样仅需计算两个向量的点乘便可计算出响应值,其中Kz=C(kxz)。这里核函数采用高斯核函数,同样也在傅里叶域中进行化简,于是有对于多通道,由于DFT具有线性性,计算核时将傅里叶域中每个通道的结果进行求和即可。如:x=(x1,....,xc),则有
接下来更新新一帧目标的位置,然后继续在新的一帧上训练核相关滤波。
现有技术存在以下缺点:
(1)Deep-Sort在建立行人运动模型时采用卡尔曼滤波,此方法原理简单,计算简便,但其对行人的运动有一定要求:行人的运动必须在线性系统中,当行人运动长时间被遮挡时会存在行人跟踪丢失的情况。
(2)KCF因为在跟踪过程当中目标框是已经设定好的,从始至终大小未发生变化,但是在一般的跟踪序列当中,目标大小很难长时间保持恒定,这会导致跟踪器在跟踪过程中目标框出现漂移,即所谓的跟踪漂移。除此之外,如果目标的外观比较稳定,单个KCF跟踪器将顺利定位目标。但在真正场景中跟踪时,外观虽在短期内可能保持稳定,但从长期来看,外部环境中断是时有发生,这部分变化必须予以足够的重视,如遮挡、光照等问题。
发明内容
本申请提供了一种新的基于Deep-Sort跟踪框架的在线多行人跟踪方法,技术方案如下:
第一方面,本申请提供了一种基于Deep-Sort跟踪框架的在线多行人跟踪方法,所述方法包括:
将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
可选地,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
可选地,所述将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,包括:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
可选地,所述对KCF进行优化,包括:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
可选地,所述结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果,包括:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
第二方面,本申请还提供一种基于Deep-Sort跟踪框架的在线多行人跟踪装置,所述装置包括:
生成模块,被配置为将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
第一计算模块,被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
第二计算模块,被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
第三计算模块,被配置为根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
输出模块,被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
可选的,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
可选的,所述第二计算模块还被配置为执行如下操作:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
可选的,所述第二计算模块还被配置为执行如下操作:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
可选的,所述输出模块还被配置为:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
本申请至少可以实现如下有益效果:
通过将Deep-Sort跟踪算法中的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能;通过针对高斯核相关滤波器跟踪行人运动产生的漂移现象,提出峰值旁瓣比,将多个相关滤波器衔接起来,以达到更高的跟踪准确率和精确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法的流程图;
图2A是本申请一个实施例提供的Vgg-16网络在融合时的示意图;
图2B是是本申请一个实施例中提供的计算欧式距离的示意图
图3是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法的流程图,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法可以包括如下步骤:
步骤101,将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
行人检测模型可以对图像中的人体目标进行识别,并输出识别到的人体目标所在的方框,并将该方框记为目标检测框。
步骤102,利用目标检测框输入至行人再识别网络中提取第一特征值,利用第一特征值计算目标检测框的余弦距离;
步骤103,将目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹;
步骤104,将第二特征值和轨迹输入至优化后的高斯核相关滤波器KCF中,计算出目标检测框的欧氏距离,KCF引入峰值旁瓣比PSR以监测KCF的跟踪状态;
卷积神经网络提取的卷积特征已经替代了传统的手工特征。较高层的卷积特征具有更丰富的语义特征,更利于跟踪目标。同时随着网络层数增多,池化层使卷积特征丧失了特征之间的位置信息并且降低了卷积特征的空间分辨率,而较低的分辨率会影响跟踪的精度。故在本专利中,提取特征采用一个融合的Vgg-16网络结构。
对于Pooling和Upscale结构,在Vgg-16网络中,Conv3_3、Conv4_3、Conv5_3的输出端特征图大小分别为输入图像的1/4、1/8、1/16,但在融合时必须使得三层卷积特征的尺度保持一致。因此选用Conv4_3为基准,分别对Conv3_3和Conv5_3的特征图进行降维和升维。对Conv3_3输出的特征图加入Max pooling结构,Max pooling结构可将Conv3_3特征图的尺度降维至输入图像的1/8;对于Conv5_3特征图的Upscale结构,使用2*2的Deconv层来实现上采样效果,将Conv5_3特征图的尺度变为原图像的1/8。
Concatenation层将尺度一致的卷积特征以连接的方式构建为新的多通道特征。Convf层是卷积核大小为1*1的卷积层,1*1的卷积核可对Concatenation层产生的冗余特征进行降维,得到冗余信息更少的综合特征。
在训练网络时,采用迁移学习提高模型的泛化能力。故本申请使用的预训练的Vgg-16模型对除融合模块之外的模型参数进行初始化,并固定此部分参数,仅对融合模块所涉及到的参数进行训练。完整的深度卷积融合网络架构见表1和图2A。
Name | Type | Outputsize | Name | Type | Outputsize | |
Conv1_1 | Conv+Relu | 224*224*64 | Conv4_1 | Conv+Relu | 28*28*512 | |
Conv1_2 | Conv+Relu | 224*224*64 | Conv4_2 | Conv+Relu | 28*28*512 | |
Pool1 | Max-pool | 112*112*64 | Conv4_3 | Conv+Relu | 28*28*512 | |
Conv2_1 | Conv+Relu | 112*112*128 | Pool4 | Max-pool | 14*14*512 | |
Conv2_2 | Conv+Relu | 112*112*128 | Conv5_1 | Conv+Relu | 14*14*512 | |
Pool2 | Max-pool | 56*56*128 | Conv5_2 | Conv+Relu | 14*14*512 | |
Conv3_1 | Conv+Relu | 56*56*256 | Conv5_3 | Conv+Relu | 14*14*512 | |
Conv3_2 | Conv+Relu | 56*56*256 | Downscale | Max-pool | 28*28*256 | |
Conv3_3 | Conv+Relu | 56*56*256 | Upscale | Deconv | 28*28*512 | |
Pool3 | Max-pool | 28*28*256 | Concat | Concat | 28*28*1280 | |
Convf | Conv | 28*28*512 |
表1
请参见图2B所示,其是本申请一个实施例中提供的计算欧式距离的示意图,本申请在将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离时,包括如下:
步骤S1、对KCF进行优化,将第二特征值和轨迹输入至优化后的KCF中,计算出目标检测框的响应值;
本申请中的滤波器采用改进后的高斯核相关滤波器KCF,引入峰值旁瓣比(PSR),以监测KCF的跟踪状态。
在对KCF进行优化时,首先,根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;然后,在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
步骤S2、利用响应值计算峰值旁瓣比PSR的分数值;
目标y的峰值和方差衡量了待选择目标和已生成轨迹之间的相似性,也反映了跟踪的可靠性。即PSR得分越高,表明y的更多样本将会集中在峰值区域,这进一步说明KCF运行得很好。反之,PSR下降反应y方差变大,这表明观测值的特征与参考值差异性较大,特征的变化增加了相似度度量空间中候选样本与参考样本之间的距离。
因此,我们使用PSR上的阈值Sth来衡量KCF跟踪器的状态。当PSR分数s小于Sth时,我们停止更新以及在线训练新的KCF。具体步骤如下:根据此帧(设为t)轨迹的状态提取特征xt,训练一个新的KCF模型。在t+1帧时,先在第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到该区域的响应值yt+1。然后计算PSR分数进行评判,若响应值大于阈值,则更新参数后继续使用此KCF,反之,则在t+1帧根据提取特征训练一个新的KCF,依此类推。
步骤S3、当分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的欧氏距离;
预定阈值为5.99。
步骤S4、当分数值小于预定阈值时,停止更新,并在线训练新的KCF。
步骤105,根据余弦距离和欧氏距离,计算每个目标检测框的总距离;
步骤106,结合每个目标检测框的总距离以及Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
在结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果时,匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;在匹配成功时,输出跟踪结果;在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
本申请中的跟踪器以Deep-Sort在线多目标跟踪算法为框架,用高斯核相关滤波器替代原本的卡尔曼滤波器,其余部分如计算检测与轨迹余弦相似度和关联匹配逻辑等保持不变。
为了关联跟踪集和检测集,通过结合运动信息和外观信息构造代价矩阵,其中通过KCF计算最大响应值确定位置,该运动信息可使短期预测达到理想效果;同时计算外观的余弦距离有助于考虑长时间遮挡问题,这些信息对恢复跟踪ID的身份非常有用。该代价矩阵中的元素定义为ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j),其中d(1)(i,j)=(dj-yi)T(dj-yi),表示计算某帧的KCF预测的第i个轨迹位置yi和当前时刻检测到的第j个检测框位置dj的欧氏距离,即步骤103得出。表示由第i个轨迹与第j个检测提取的外观特征而计算的最小余弦距离,即步骤102计算得出。同时对这两个距离分别设置阈值和当满足的值为1时,我们就认为这是一个可接受的关联。
每个轨迹分为三种状态,分别是暂定状态、已确定状态及已删除状态。如果某次检测结果中的某个检测始终无法与已经存在的轨迹进行关联,那么则认为可能出现了新轨迹。在新创建的轨迹没有收集到足够的证据之前都是暂定状态。新轨迹的前三帧的状态是暂定状态,三帧后可确定为已确定状态或已删除状态。若该轨迹连续三帧都可找到相应的检测与其配对,则该轨迹被标记为已确定状态,反之被确定为已删除状态。若已确定状态的轨迹超过预定义的最大范围Amax(设为30帧)仍未出现相匹配的检测,则该轨迹被认为已经离开了场景并且被从轨迹集中删除。
跟踪具体流程属于本领域技术人员均可以实现的,本申请中就不再赘述。
本提案用于参考的评价指标是MOT数据集的常见评价指标,主要包括MOTA、MOTP、MT、ML、ID、FM等。
MOTA是多目标跟踪准确率,该指标综合评价跟踪器误报、漏报、身份变换等方面。MOTP是跟踪精确率,表明标注与预测的边界框的不匹配度。MT为跟踪部分大于80%的跟踪轨迹占真实总轨迹数的比例。ML是丢失部分大于80%的跟踪轨迹数占真实总轨迹数的比例。ID表示真实轨迹的预计身份发生变化的次数。FM表明一个轨迹因漏检而中断的次数。
MOTA与MOTP的计算公式分别为:
其中:mt、fpt、mmet分别为第t帧估计出的假反例、假正例以及身份变换的数量,gt为所有帧真正目标数的总和。ct表示第t帧的由KCF预测位置与检测出位置相匹配的个数,为每对匹配计算出的匹配误差,即第t帧下目标与其配对假设位置之间的距离。
综上所述,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法,基于Deep-Sort跟踪算法的改进,将线性的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能,使跟踪算法鲁棒性更强且更有效率。
通过引入卷积神经网络特征融合提取特征及峰值旁瓣比,使相关滤波适应性更强,精确度越高。从而使跟踪算法效果更加优良。
图3是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置的结构示意图,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置可以包括:生成模块310、第一计算模块320、第二计算模块330、第三计算模块340和输出模块350。
生成模块310,被配置为将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
第一计算模块320,被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
第二计算模块330,被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
第三计算模块340,被配置为根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
输出模块350,被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
可选的,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
可选的,所述第二计算模块330还被配置为执行如下操作:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
可选的,所述第二计算模块330还被配置为执行如下操作:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
可选的,所述输出模块350还被配置为:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
综上所述,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置,基于Deep-Sort跟踪算法的改进,将线性的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能,使跟踪算法鲁棒性更强且更有效率。
通过引入卷积神经网络特征融合提取特征及峰值旁瓣比,使相关滤波适应性更强,精确度越高。从而使跟踪算法效果更加优良。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于Deep-Sort跟踪框架的在线多行人跟踪方法,其特征在于,所述方法包括:
将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
2.根据权利要求1所述的方法,其特征在于,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
4.根据权利要求3所述的方法,其特征在于,所述对KCF进行优化,包括:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
5.根据权利要求1所述的方法,其特征在于,所述结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果,包括:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
6.一种基于Deep-Sort跟踪框架的在线多行人跟踪装置,其特征在于,所述装置包括:
生成模块,被配置为将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
第一计算模块,被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
第二计算模块,被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
第三计算模块,被配置为根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
输出模块,被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
7.根据权利要求6所述的装置,其特征在于,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
9.根据权利要求8所述的装置,其特征在于,所述第二计算模块还被配置为执行如下操作:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
10.根据权利要求6所述的装置,其特征在于,所述输出模块还被配置为:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110083052.XA CN112734809B (zh) | 2021-01-21 | 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110083052.XA CN112734809B (zh) | 2021-01-21 | 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112734809A true CN112734809A (zh) | 2021-04-30 |
CN112734809B CN112734809B (zh) | 2024-07-05 |
Family
ID=
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379793A (zh) * | 2021-05-19 | 2021-09-10 | 成都理工大学 | 基于孪生网络结构和注意力机制的在线多目标跟踪方法 |
CN114120188A (zh) * | 2021-11-19 | 2022-03-01 | 武汉大学 | 一种基于联合全局和局部特征的多行人跟踪方法 |
CN114359579A (zh) * | 2022-01-10 | 2022-04-15 | 杭州巨岩欣成科技有限公司 | 泳池防溺水人体目标跟踪方法、装置、计算机设备及存储介质 |
CN114581491A (zh) * | 2022-04-30 | 2022-06-03 | 苏州浪潮智能科技有限公司 | 一种行人轨迹跟踪方法、系统及相关装置 |
CN115082526A (zh) * | 2022-07-26 | 2022-09-20 | 复亚智能科技(太仓)有限公司 | 目标追踪方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767405A (zh) * | 2017-09-29 | 2018-03-06 | 华中科技大学 | 一种融合卷积神经网络的核相关滤波目标跟踪方法 |
CN110175649A (zh) * | 2019-05-28 | 2019-08-27 | 南京信息工程大学 | 一种关于重新检测的快速多尺度估计目标跟踪方法 |
CN111292355A (zh) * | 2020-02-12 | 2020-06-16 | 江南大学 | 一种融合运动信息的核相关滤波多目标跟踪方法 |
CN111428642A (zh) * | 2020-03-24 | 2020-07-17 | 厦门市美亚柏科信息股份有限公司 | 一种多目标跟踪算法、电子装置及计算机可读存储介质 |
CN111488795A (zh) * | 2020-03-09 | 2020-08-04 | 天津大学 | 应用于无人驾驶车辆的实时行人跟踪方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767405A (zh) * | 2017-09-29 | 2018-03-06 | 华中科技大学 | 一种融合卷积神经网络的核相关滤波目标跟踪方法 |
CN110175649A (zh) * | 2019-05-28 | 2019-08-27 | 南京信息工程大学 | 一种关于重新检测的快速多尺度估计目标跟踪方法 |
CN111292355A (zh) * | 2020-02-12 | 2020-06-16 | 江南大学 | 一种融合运动信息的核相关滤波多目标跟踪方法 |
CN111488795A (zh) * | 2020-03-09 | 2020-08-04 | 天津大学 | 应用于无人驾驶车辆的实时行人跟踪方法 |
CN111428642A (zh) * | 2020-03-24 | 2020-07-17 | 厦门市美亚柏科信息股份有限公司 | 一种多目标跟踪算法、电子装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
CHEN BIN ET AL.: "Design of Power Intelligent Safety Supervision System Based on Deep Learning", 《2018 IEEE INTERNATIONAL CONFERENCE ON AUTOMATION, ELECTRONICS AND ELECTRICAL ENGINEERING》, pages 154 - 157 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379793A (zh) * | 2021-05-19 | 2021-09-10 | 成都理工大学 | 基于孪生网络结构和注意力机制的在线多目标跟踪方法 |
CN113379793B (zh) * | 2021-05-19 | 2022-08-12 | 成都理工大学 | 基于孪生网络结构和注意力机制的在线多目标跟踪方法 |
CN114120188A (zh) * | 2021-11-19 | 2022-03-01 | 武汉大学 | 一种基于联合全局和局部特征的多行人跟踪方法 |
CN114120188B (zh) * | 2021-11-19 | 2024-04-05 | 武汉大学 | 一种基于联合全局和局部特征的多行人跟踪方法 |
CN114359579A (zh) * | 2022-01-10 | 2022-04-15 | 杭州巨岩欣成科技有限公司 | 泳池防溺水人体目标跟踪方法、装置、计算机设备及存储介质 |
CN114581491A (zh) * | 2022-04-30 | 2022-06-03 | 苏州浪潮智能科技有限公司 | 一种行人轨迹跟踪方法、系统及相关装置 |
CN115082526A (zh) * | 2022-07-26 | 2022-09-20 | 复亚智能科技(太仓)有限公司 | 目标追踪方法及装置 |
CN115082526B (zh) * | 2022-07-26 | 2023-02-03 | 复亚智能科技(太仓)有限公司 | 目标追踪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Fast online tracking with detection refinement | |
CN108470332B (zh) | 一种多目标跟踪方法及装置 | |
CN108062531B (zh) | 一种基于级联回归卷积神经网络的视频目标检测方法 | |
Zhang et al. | Deepvoting: A robust and explainable deep network for semantic part detection under partial occlusion | |
CN110175649B (zh) | 一种关于重新检测的快速多尺度估计目标跟踪方法 | |
CN111046732B (zh) | 一种基于多粒度语义解析的行人重识别方法及存储介质 | |
CN107194950B (zh) | 一种基于慢特征分析的多人跟踪方法 | |
US11062455B2 (en) | Data filtering of image stacks and video streams | |
Wang et al. | Point linking network for object detection | |
CN110427871A (zh) | 一种基于计算机视觉的疲劳驾驶检测方法 | |
Li et al. | Robust object tracking with discrete graph-based multiple experts | |
CN111583300A (zh) | 一种基于富集目标形态变化更新模板的目标跟踪方法 | |
CN106056627B (zh) | 一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法 | |
CN115223191A (zh) | 一种群养生猪行为的识别和跟踪方法 | |
Bashar et al. | Multiple object tracking in recent times: A literature review | |
Li et al. | Robust visual tracking with occlusion judgment and re-detection | |
Wang et al. | Mpanet: Multi-patch attention for infrared small target object detection | |
CN111415370A (zh) | 一种基于嵌入式的红外复杂场景目标实时跟踪方法及系统 | |
CN110472607A (zh) | 一种船舶跟踪方法及系统 | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education | |
Fan et al. | MP-LN: motion state prediction and localization network for visual object tracking | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
CN114187546B (zh) | 组合性动作识别方法及系统 | |
CN112734809A (zh) | 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 | |
CN112614158B (zh) | 一种采样框自适应的多特征融合在线目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |