CN109636829B - 一种基于语义信息和场景信息的多目标跟踪方法 - Google Patents

一种基于语义信息和场景信息的多目标跟踪方法 Download PDF

Info

Publication number
CN109636829B
CN109636829B CN201811410922.4A CN201811410922A CN109636829B CN 109636829 B CN109636829 B CN 109636829B CN 201811410922 A CN201811410922 A CN 201811410922A CN 109636829 B CN109636829 B CN 109636829B
Authority
CN
China
Prior art keywords
target
frame
tracking
scene
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811410922.4A
Other languages
English (en)
Other versions
CN109636829A (zh
Inventor
桑农
皮智雄
秦淮
高常鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811410922.4A priority Critical patent/CN109636829B/zh
Publication of CN109636829A publication Critical patent/CN109636829A/zh
Application granted granted Critical
Publication of CN109636829B publication Critical patent/CN109636829B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种基于语义信息和场景信息的多目标跟踪方法,包括:分别预测场景中各个跟踪目标在当前帧中的位置,利用检测模型对所预测的位置进行修正并获得其语义得分;将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合语义得分和相似度,从而得到目标框的跟踪得分;根据目标框的跟踪得分更新场景网格的场景模型,根据场景模型计算目标框的场景置信度,并根据场景置信度更新目标框的跟踪得分;利用检测模型获得当前帧的检测结果,将目标框与检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果。本发明能够提高多目标跟踪的鲁棒性和准确性。

Description

一种基于语义信息和场景信息的多目标跟踪方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于语义信息和场景信息的多目标跟踪方法。
背景技术
多目标跟踪是计算机视觉领域的一项重要任务,在自动驾驶、机器人导航以及运动分析等方面有重要的应用价值。多目标跟踪的目标是估计场景中所有跟踪目标在每一帧图像中的位置并且保持同一目标的id不变,以生成目标轨迹。已有的多目标跟踪算法可分为两类:离线算法和在线算法。在离线算法中,多目标跟踪任务通常被描述为一个最优化问题,通过建立简化模型如网络流模型、k部图模型或图割模型,利用优化算法求取最优解,在优化过程中,为得到某一帧的跟踪结果,需要使用该帧之后的时间步信息,因此这类方法不适用于实时在线跟踪。而在线算法在解决当前帧跟踪问题时,仅使用当前帧以及历史信息,应用范围更广。
在线多目标方法中,会同时使用到检测算法和单目标跟踪算法,目前高精度的检测算法均使用深度学习,典型的检测网络有二阶段检测网络Faster-RCNN和RFCN,以及一阶段检测网络YOLO和SSD,其中Faster-RCNN能够达到最高的检测精度;目前主流的单目标跟踪算法有相关滤波和深度学习两个分支,深度学习类算法速度慢,精度高,而相关滤波类算法有效率高的优势,同时也能达到较高的精度。然而,现有的在线多目标跟踪算法只是机械地组合检测算法和单目标跟踪算法,实际上检测和跟踪是单独处理的,这样处理会带来两个问题:(1)检测过程仅针对单幅图像,没有利用视频的序列信息,容易出现轨迹不连续现象;(2)跟踪过程没有利用检测时使用的语义信息,容易发生跟踪漂移。由于存在这两个问题,现有的多目标跟踪算法无法克服频繁遮挡、场景复杂和相机运动等问题。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于语义信息和场景信息的多目标跟踪方法,其目的在于,通过融合序列信息、语义信息和场景信息,提高多目标跟踪的鲁棒性。
为实现上述目的,按照本发明的一个方面,提供了一种基于语义信息和场景信息的多目标跟踪方法,包括如下步骤:
(1)分别预测场景中各个跟踪目标在当前帧中的位置,利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分;
(2)将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合语义得分和相似度,从而得到目标框的跟踪得分;
(3)根据目标框的跟踪得分更新场景网格的场景模型,根据场景模型计算目标框的场景置信度,并根据场景置信度更新目标框的跟踪得分;
(4)利用检测模型获得当前帧的检测结果,将目标框与检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果;
其中,检测模型以VGG16的前12层为基础网络的Faster-RCNN,检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分;语义得分用于表示对应位置处的目标为跟踪目标的可能性,历史轨迹为跟踪目标在起始帧至上一帧中的位置序列,场景网格为由场景图像预先划分所得的网格,场景模型用于计算目标框的场景置信度,场景置信度用于表示跟踪目标出现在场景网格中的可能性。
进一步地,步骤(1)包括:
若当前帧的上一帧为视频序列中的第一帧,则以第一帧的检测结果所确定的位置为中心确定矩形搜索区域;否则,以上一帧的跟踪结果所确定的位置为中心确定矩形搜索区域;
利用基于HOG特征和颜色直方图特征的相关滤波算法,根据所确定的矩形搜索区域预测场景中各个跟踪目标在当前帧中的位置;
利用检测模型的stage2结构对所预测的位置进行边框回归(bounding box)操作,从而对所预测的位置进行修正并获得其语义得分。
利用检测模型对预测位置进行修正并获得相应的语义得分,能够将检测过程的语义信息和跟踪过程中的序列信息有机融合在一起,从而降低跟踪漂移的可能性并提升检测的召回率。
进一步地,步骤(2)包括:
对于任意一个目标框B,提取其表观特征向量xt,并获得对应的跟踪目标T在第a帧至第t-1帧的轨迹的表观特征向量xa:t-1
计算表观特征向量xt和表观特征向量xa:t-1之间的余弦相似度Pmatch,并由此计算目标框B的跟踪得分为:St=Prec*Pmatch
更新跟踪目标T在第a帧至第t帧的轨迹的表观特征向量为:xa:t=(1-ω)xa:t-1+ωxt
其中,a为起始帧编号,t为当前帧编号,Prec为目标框B的语义得分,ω为加权系数。
在计算目标框的跟踪得分时,同时利用了语义得分和与历史轨迹之间的相似度,能够进一步实现语义信息和序列信息的有机融合。
更进一步地,步骤(2)还包括:根据跟踪得分St调整加权系数ω的取值,所采用的公式为:
Figure GDA0002743776660000041
其中,Sa:t-1为跟踪目标T在第a帧至第t-1帧的跟踪得分的算术平均值。
在决定轨迹状态时充分考虑历史信息,即利用跟踪目标在历史轨迹中的踪得分的算术平均值更新加权系数,能够让跟踪更稳定。
进一步地,场景模型的表达式为:
Figure GDA0002743776660000042
其中,Ppers表示目标框的场景置信度得分,h表示目标框高度,μ和σ分别为目标框高度的均值和方差。
使用类高斯模型作为网格的场景模型,能够根据视角情况、目标位置和高度判断目标合理性。
进一步地,步骤(3)中,根据目标框的跟踪得分更新场景网格的场景模型,包括:
对于任意一个场景网格G,获得当前帧中属于场景网格G的目标框总数n以及起始帧至上一帧中属于网格G的目标框总数N;
根据目标框总数n和目标框总数N更新均值μ为:
Figure GDA0002743776660000043
根据目标框总数n和目标框高度分别更新辅助变量α和β为:
Figure GDA0002743776660000044
根据辅助变量α和β更新方差σ为:
Figure GDA0002743776660000051
其中,属于场景网格G的目标框的底部中心位于场景网格G且跟踪得分大于预设的第一阈值,μ'、α'和β'分别表示均值μ、辅助变量α和辅助变量β更新前的取值,hi表示当前帧中属于场景网格G的第i个目标框的高度。
仅使用置信度较高(高于第一阈值)的目标来更新场景模型,能够降低由于误检引入的误差;并且通过动态更新,能够以较小的计算代价随时对模型进行调整,从而提高模型的准确度。
更进一步地,步骤(3)中,根据场景置信度得分更新目标框的跟踪得分的方式为:
对于任意一个目标框B,若其跟踪得分低于预设的高分阈值且高于预设的低分阈值,则获得其底部中心所在场景网格的场景模型M,并根据场景模型M计算目标框B的场景置信度
Figure GDA0002743776660000052
利用置信度得分
Figure GDA0002743776660000053
更新目标框B在当前帧的跟踪得分为:
Figure GDA0002743776660000054
在多目标跟踪过程中,若目标框的跟踪得分高于高分阈值,则可直接认为是可靠跟踪;若目标框的跟踪得分低于低分阈值,则可直接认为是不可靠跟踪;若目标框的跟踪得分在两阈值之间的跟,则是待定的,所以用场景信息来辅助判断对应跟踪目标的可靠程度;因此,对于跟踪得分位于高分阈值和低分阈值之间的目标框,利用场景模型更新其跟踪得分,能够提高其跟踪得分的准确度;
基于上述更新跟踪得分的方法,能够让不符合场景模型的目标框跟踪得分降低,同时符合场景模型的目标框跟踪得分升高,从而从待定目标里面区分可靠跟踪和不可靠跟踪;
若目标框B的跟踪得分高于高分阈值或低于低分阈值,则其跟踪得分St保持不变;
其中,η为平滑度因子,St'为跟踪得分St更新前的取值。
基于场景信息更新目标框的跟踪得分,能够同时实现语义信息、序列信息以及场景信息的融合,能够提高跟踪的准确性,有效减少虚检和漏检的情况。
更进一步地,步骤(4)中,将目标框与检测结果进行匹配,包括:
对于任意一个跟踪目标T,若其目标框B与检测结果中目标D的检测位置之间的IOU大于预设的第二阈值,则判定跟踪目标T匹配到检测位置,且跟踪目标T与目标D匹配;若目标框B与检测结果中所有目标的检测位置之间的IOU均不大于第二阈值,则判定跟踪目标未匹配检测位置。
进一步地,步骤(4)中,根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,包括:
若目标框的跟踪得分低于低分阈值,则判定该目标框所对应的跟踪目标在当前帧中为丢失目标;
对于当前帧中的任意一个丢失目标Ttl,分别计算其目标框与检测结果中每一个检测位置之间的表观相似度,若所计算的任意一个表观相似度大于预设的第三阈值,则判定丢失目标Ttl被重新找到,并将其作为跟踪目标进行跟踪;
对于历史帧Fterm中的任意一个丢失目标Thl,若至当前帧的连续Tterm帧中丢失目标Thl均未被重新找到,则判定其轨迹终止;
对于检测结果中任意一个目标d,若未匹配到跟踪目标且其语义得分高于高分阈值,则初始化目标d为待定新目标;
对于历史帧Finit中的任意一个待定新目标dnew,若至当前帧的连续Tinit帧中待定新目标dnew均匹配到检测位置,且与所有丢失目标之间的表观相似度均低于第三阈值,则判定待定新目标dnew为新目标;若至当前帧的连续Tinit帧中待定新目标dnew在任意一帧中未匹配到检测位置,则判定待定新目标dnew为虚检并将其轨迹丢弃;若至当前帧的连续Tinit帧中待定新目标dnew与任意一个丢失目标之间的表观相似度高于第三阈值,则将待定新目标dnew识别为之前丢失的跟踪目标并进行跟踪;
其中,所述表观相似度为表观特征向量之间的余弦相似度,所述历史帧Fterm与当前帧间隔Tterm帧,所述历史帧Finit与当前帧间隔Tinit帧。
以上确定目标状态的方法,基于融合了语义信息、序列信息和场景信息的跟踪得分确定当前帧中的丢失目标,并结合匹配结果和历史帧序列中的跟踪结果进一步确定当前帧中的丢失目标的状态并生成新目标,能够准确地跟踪目标的轨迹及状态,从而提高轨迹的连续性。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的基于语义信息和场景信息的多目标跟踪方法,利用检测模型获得目标框的语义得分,并融合跟踪位置的语义信息和与历史轨迹之间的相似度以得到目标框的跟踪得分,实现了语义信息和序列信息的有机融合,由此能够降低跟踪漂移的可能性并提高检测的召回率;根据目标框的场景置信度得分更新目标框的跟踪得分,进一步实现了语义信息、序列信息以及场景信息之间的融合,由此能够提高跟踪的准确性,有效减少虚检和漏检的情况。
(2)本发明所提供的基于语义信息和场景信息的多目标跟踪方法,基于融合了语义信息、序列信息和场景信息的跟踪得分确定当前帧中的丢失目标,并结合匹配结果和历史帧序列中的跟踪结果进一步确定当前帧中的丢失目标的状态并生成新目标,能够准确地跟踪目标的轨迹及状态,从而提高轨迹的连续性。
(3)本发明所提供的基于语义信息和场景信息的多目标跟踪方法,在融合目标框的语义得分和与历史轨迹之间的相似度以得到目标框的跟踪得分的同时,会根据历史信息更新用于计算跟踪得分的加权系数,由此使得跟踪更稳定。
附图说明
图1为本发明实施例提供的基于语义信息和场景信息的多目标跟踪方法的流程图;
图2为本发明实施例提供的检测网络和细节网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于语义信息和场景信息的多目标跟踪方法,其总体思路在于:在跟踪的过程中同时融合语义信息、序列信息和场景信息以提高跟踪的准确度、降低跟踪漂移的可能性并提升检测的召回率;基于跟踪得分确定当前帧中的丢失目标,并结合匹配结果和历史帧序列中的跟踪结果进一步确定当前帧中的丢失目标的状态并生成新目标,以准确地跟踪目标的轨迹及状态,从而提高轨迹的连续性。
在以下发明实施例中,所使用的检测模型以VGG16的前12层为基础网络的Faster-RCNN,检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分;训练检测模型的视频序列来自于标准的数据集MOT16,跟踪目标为行人,该数据集由14个视频序列组成,其中7个为训练视频序列,另外7个为测试序列,主要场景为步行街、马路、商场内部,不同视频序列的拍摄视角有差异,视频序列中广泛存在相机抖动、拥挤环境、复杂场景等问题。应当理解的是,其他标准数据集,如MOT15、MOT17等也可用作训练该检测模型的视频序列。
本发明所提供的基于语义信息和场景信息的多目标跟踪方法,如图1所示,包括如下步骤:
(1)分别预测场景中各个跟踪目标在当前帧中的位置,利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分;语义得分用于表示对应位置处的目标为跟踪目标的可能性;
在一个可选的实施方式中,步骤(1)具体包括:
若当前帧的上一帧为视频序列中的第一帧,则以第一帧的检测结果所确定的位置为中心确定矩形搜索区域;否则,以上一帧的跟踪结果所确定的位置为中心确定矩形搜索区域;
利用基于HOG特征和颜色直方图特征的相关滤波算法,根据所确定的矩形搜索区域预测场景中各个跟踪目标在当前帧中的位置;
利用检测模型的stage2结构对所预测的位置进行边框回归(boundingboxregression)操作,从而对所预测的位置进行修正并获得其语义得分;其中,检测模型的stage2结构如图2中所示,用于在特征图上取出感兴趣区域位置的特征,经过3个全连接层,得到用来区分人和背景的特征向量,再将该特征向量分别输入额外的两个全连接层,得到语义得分和边框回归结果;
利用检测模型对预测位置进行修正并获得相应的语义得分,能够将检测过程的语义信息和跟踪过程中的序列信息有机融合在一起,从而降低跟踪漂移的可能性并提升检测的召回率;
(2)将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合语义得分和相似度,从而得到目标框的跟踪得分;历史轨迹为跟踪目标在起始帧至上一帧中的位置序列;
在一个可选的实施方式中,步骤(2)具体包括:
对于任意一个目标框B,提取其表观特征向量xt,并获得对应的跟踪目标T在第a帧至第t-1帧的轨迹的表观特征向量xa:t-1
计算表观特征向量xt和表观特征向量xa:t-1之间的余弦相似度Pmatch,并由此计算目标框B的跟踪得分为:St=Prec*Pmatch
更新跟踪目标T在第a帧至第t帧的轨迹的表观特征向量为:xa:t=(1-ω)xa:t-1+ωxt
其中,a为起始帧编号,t为当前帧编号,Prec为目标框B的语义得分,ω为加权系数;
在计算目标框的跟踪得分时,同时利用了语义得分和与历史轨迹之间的相似度,能够进一步实现语义信息和序列信息的有机融合;
在另一个可选的实施方式中,步骤(2)除以上操作外还包括:根据跟踪得分St调整加权系数ω的取值,所采用的公式为:
Figure GDA0002743776660000101
其中,Sa:t-1为跟踪目标在第a帧至第t-1帧的跟踪得分的算术平均值;
在决定轨迹状态时充分考虑历史信息,即利用跟踪目标在历史轨迹中的踪得分的算术平均值更新加权系数,能够让跟踪更稳定;
(3)根据目标框的跟踪得分更新场景网格的场景模型,根据场景模型计算目标框的场景置信度,并根据场景置信度更新目标框的跟踪得分;场景网格为由场景图像预先划分所得的网格,场景模型用于计算目标框的场景置信度,场景置信度用于表示跟踪目标出现在场景网格中的可能性;
在一个可选的实施方式中,场景模型的表达式为:
Figure GDA0002743776660000111
其中,Ppers表示目标框的场景置信度得分,h表示目标框高度,μ和σ分别为目标框高度的均值和方差;
使用类高斯模型作为网格的场景模型,能够根据视角情况、目标位置和高度判断目标合理性;
基于以上场景模型,步骤(3)中,根据目标框的跟踪得分更新网格的场景模型,包括:
对于任意一个场景网格G,获得当前帧中属于场景网格G的目标框总数n以及起始帧至上一帧中属于场景网格G的目标框总数N;属于场景网格G的目标框的底部中心位于场景网格G且跟踪得分大于预设的第一阈值thp
根据目标框总数n和目标框总数N更新均值μ为:
Figure GDA0002743776660000112
根据目标框总数n和目标框高度分别更新辅助变量α和β为:
Figure GDA0002743776660000113
根据辅助变量α和β更新方差σ为:
Figure GDA0002743776660000121
其中,μ'、α'和β'分别表示均值μ、辅助变量α和辅助变量β更新前的取值,hi表示当前帧中属于场景网格G中的第i个目标框的高度;
根据场景置信度得分更新目标框的跟踪得分的方式为:
对于任意一个目标框B,若其跟踪得分低于预设的高分阈值thh且高于预设的低分阈值thl,则获得其底部中心所在场景网格的场景模型M,并根据场景模型M计算目标框B的场景置信度得分
Figure GDA0002743776660000122
利用置信度得分
Figure GDA0002743776660000123
更新目标框B在当前帧的跟踪得分为:
Figure GDA0002743776660000124
在多目标跟踪过程中,若目标框的跟踪得分高于高分阈值thh,则可直接认为是可靠跟踪;若目标框的跟踪得分低于低分阈值thl,则可直接认为是不可靠跟踪;若目标框的跟踪得分在两阈值之间的跟,则是待定的,所以用场景信息来辅助判断对应跟踪目标的可靠程度;因此,对于跟踪得分位于高分阈值thh和低分阈值thl之间的目标框,利用场景模型更新其跟踪得分,能够提高其跟踪得分的准确度;
基于上述更新跟踪得分的方法,能够让不符合场景模型的目标框跟踪得分降低,同时符合场景模型的目标框跟踪得分升高,从而从待定目标里面区分可靠跟踪和不可靠跟踪;
若目标框B的跟踪得分高于高分阈值thh或低于低分阈值thl,则其跟踪得分St保持不变;
其中,η为平滑度因子,St'为跟踪得分St更新前的取值;
基于场景信息更新目标框的跟踪得分,能够同时实现语义信息、序列信息以及场景信息的融合,能够提高跟踪的准确性,有效减少虚检和漏检的情况;
(4)利用检测模型获得当前帧的检测结果,将目标框与检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果;
在一个可选的实施方式中,将目标框与检测结果进行匹配,包括:
对于任意一个跟踪目标T,若其目标框B与检测结果中目标D的检测位置之间的IOU大于预设的第二阈值thm,则判定跟踪目标T匹配到检测位置,且跟踪目标T与目标D匹配;若目标框B与检测结果中所有目标的检测位置之间的IOU均不大于第二阈值thm,则判定跟踪目标未匹配检测位置;
具体地,步骤(4)中根据匹配结果和目标框的跟踪得分确定跟踪目标的状态,包括:
若目标框的跟踪得分低于低分阈值thl,则判定该目标框所对应的跟踪目标在当前帧中为丢失目标;
对于当前帧中的任意一个丢失目标Ttl,分别计算其目标框与检测结果中每一个检测位置的表观相似度,若所计算的任意一个表观相似度大于预设的第三阈值thA,则判定丢失目标Ttl被重新找到,并将其作为跟踪目标进行跟踪;
对于历史帧Fterm中的任意一个丢失目标Thl,若至当前帧的连续Tterm帧中丢失目标Thl均未被重新找到,则判定其轨迹终止;
对于检测结果中任意一个目标d,若为匹配到跟踪目标且其语义得分高于高分阈值thh,则初始化目标d为待定新目标;
对于历史帧Finit中的任意一个待定新目标dnew,若至当前帧的连续Tinit帧中待定新目标dnew均匹配到检测位置,且与所有丢失目标之间的表观相似度均低于第三阈值thA,则判定待定新目标dnew为新目标;若至当前帧的连续Tinit帧中待定新目标dnew在任意一帧中未匹配到检测位置,则判定待定新目标dnew为虚检并将其轨迹丢弃;若至当前帧的连续Tinit帧中待定新目标dnew与任意一个丢失目标之间的表观相似度高于第三阈值thA,则将待定新目标dnew识别为之前丢失的跟踪目标并进行跟踪;
以上确定目标状态的方法,基于融合了语义信息、序列信息和场景信息的跟踪得分确定当前帧中的丢失目标,并结合匹配结果和历史帧序列中的跟踪结果进一步确定当前帧中的丢失目标的状态并生成新目标,能够准确地跟踪目标的轨迹及状态,从而提高轨迹的连续性。
在上述方法中,各阈值均为根据实际的应用场景预设的阈值,在本实施例中,第一阈值thp的取值高于检测模型的得分阈值(语义得分高于检测模型的得分阈值的目标为跟踪目标),第二阈值thm的取值大于0.5,第三阈值、高分阈值和低分阈值则均根据目标框的语义得分的统计结果设定,以上设定使得上述多目标跟踪方法较高的准确度。应当理解的是,在其他应用中,根据具体的应用场景,上述阈值可能会有不同的设定方法。
在以上方法中,使用细节网络(Detail Net)提取目标框或检测位置的表观特征向量。细节网络的结构如图2所示,提取用于区分不同的人的特征向量,该细节网络结构与基本网络(检测网络)结构相同,但没有语义得分和边框回归层,其网络参数则与基本网络不同,是用id损失(区分不同的人)训练得到的。
以MOT16数据集为视频序列,分别测试本发明所提供的多目标跟踪方法(DTCloud)和现有的在线多目标跟踪方法(oICF、STAM16和AMIR)之间的性能并进行比较,比较指标包括多目标跟踪综合准确率(MOTA),该指标越高,表示多目标跟踪算法综合性能越好;多目标跟踪精度(MOTP),反映跟踪目标框与groundtruth的接近程度,越高越好;总虚检数量(FP)和总漏检数量(FN),越低越好;基本跟踪正确目标比例(MT),即80%或以上的轨迹被正确跟踪的目标占总目标的比例,越高越好;基本丢失目标比例(ML),即80%或以上的轨迹未被正确跟踪的目标占总目标的比例,越低越好;轨迹间断总次数(Frag),越低越好;其中,最为重要的指标为MOTA。具体的性能测试结果如表1所示。根据表1所示的结果可知,本发明所提供的基于语义信息和场景信息的多目标跟踪方法,其MOTA指标高于其他方法,且MT和ML指标较优,说明本发明所提供的基于语义信息和场景信息的多目标跟踪方法,整体性能优于其他方法,且漏检较少,跟踪准确率较高。
表1多目标跟踪方法性能指标
方法 类型 MOTA↑ MOTP↑ MT↑ ML↓ FP↓ FN↓
oICF 在线 43.2% 74.3% 11.3% 48.5% 6651 96515
STAM16 在线 46.0% 74.9% 14.6% 43.6% 6895 91117
AMIR 在线 47.2% 75.8% 14.0% 41.6% 2681 92856
DTCloud 在线 49.0% 75.6% 15.8% 37.9% 4116 87973
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于语义信息和场景信息的多目标跟踪方法,其特征在于,包括如下步骤:
(1)分别预测场景中各个跟踪目标在当前帧中的位置,利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分;
(2)将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合所述语义得分和所述相似度,从而得到目标框的跟踪得分;
(3)根据目标框的跟踪得分更新场景网格的场景模型,根据所述场景模型计算目标框的场景置信度,并根据所述场景置信度更新目标框的跟踪得分;
(4)利用所述检测模型获得当前帧的检测结果,将目标框与所述检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果;
其中,所述检测模型是以VGG16的前12层为基础网络的Faster-RCNN,所述检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分;所述语义得分用于表示对应位置处的目标为跟踪目标的可能性,所述历史轨迹为跟踪目标在起始帧至上一帧中的位置序列,所述场景网格为由场景图像预先划分所得的网格,所述场景模型用于计算目标框的场景置信度,所述场景置信度用于表示跟踪目标出现在场景网格中的可能性;
所述步骤(3)中,根据目标框的跟踪得分更新场景网格的场景模型,包括:
对于任意一个场景网格G,获得当前帧中属于所述场景网格G的目标框总数n以及起始帧至上一帧中属于所述场景网格G的目标框总数N;
根据所述目标框总数n和所述目标框总数N更新目标框高度的均值μ为:
Figure FDA0002769132400000021
根据所述目标框总数n和目标框高度分别更新辅助变量α和β为:
Figure FDA0002769132400000022
根据所述辅助变量α和β更新目标框高度的方差σ为:
Figure FDA0002769132400000023
其中,属于所述场景网格G的目标框的底部中心位于所述场景网格G且跟踪得分大于预设的第一阈值,μ'、α'和β'分别表示所述均值μ、所述辅助变量α和所述辅助变量β更新前的取值,hi表示当前帧中属于所述场景网格G的第i个目标框的高度。
2.如权利要求1所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(1)包括:
若当前帧的上一帧为视频序列中的第一帧,则以第一帧的检测结果所确定的位置为中心确定矩形搜索区域;否则,以上一帧的跟踪结果所确定的位置为中心确定矩形搜索区域;
利用基于HOG特征和颜色直方图特征的相关滤波算法,根据所确定的矩形搜索区域预测场景中各个跟踪目标在当前帧中的位置;
利用所述检测模型的stage2结构对所预测的位置进行边框回归操作,从而对所预测的位置进行修正并获得其语义得分。
3.如权利要求1或2所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(2)包括:
对于任意一个目标框B,提取其表观特征向量xt,并获得对应的跟踪目标T在第a帧至第t-1帧的轨迹的表观特征向量xa:t-1
计算所述表观特征向量xt和所述表观特征向量xa:t-1之间的余弦相似度Pmatch,并由此计算所述目标框B的跟踪得分为:St=Prec*Pmatch
更新所述跟踪目标T在第a帧至第t帧的轨迹的表观特征向量为:xa:t=(1-ω)xa:t-1+ωxt
其中,a为起始帧编号,t为当前帧编号,Prec为所述目标框B的语义得分,ω为加权系数。
4.如权利要求3所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(2)还包括:根据所述跟踪得分St调整所述加权系数ω的取值,所采用的公式为:
Figure FDA0002769132400000031
其中,Sa:t-1为所述跟踪目标T在第a帧至第t-1帧的跟踪得分的算术平均值。
5.如权利要求1或2所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述场景模型的表达式为:
Figure FDA0002769132400000032
其中,Ppers表示目标框的场景置信度,h表示目标框高度,μ和σ分别为目标框高度的均值和方差。
6.如权利要求5所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(3)中,根据所述场景置信度更新目标框的跟踪得分的方式为:
对于任意一个目标框B,若其跟踪得分低于预设的高分阈值且高于预设的低分阈值,则获得其底部中心所在场景网格的场景模型M,并根据所述场景模型M计算所述目标框B的场景置信度
Figure FDA0002769132400000041
利用所述置信度
Figure FDA0002769132400000042
更新所述目标框B在当前帧的跟踪得分为:
Figure FDA0002769132400000043
若所述目标框B的跟踪得分高于所述高分阈值或低于所述低分阈值,则其跟踪得分St保持不变;
其中,η为平滑度因子,St'为所述跟踪得分St更新前的取值。
7.如权利要求1或2所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(4)中,将目标框与所述检测结果进行匹配,包括:
对于任意一个跟踪目标T,若其目标框B与所述检测结果中目标D的检测位置之间的IOU大于预设的第二阈值,则判定所述跟踪目标T匹配到检测位置,且所述跟踪目标T与所述目标D匹配;若所述目标框B与所述检测结果中所有目标的检测位置之间的IOU均不大于所述第二阈值,则判定所述跟踪目标未匹配到检测位置。
8.如权利要求6所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(4)中,根据匹配结果和目标框的跟踪得分确定跟踪目标的状态,包括:
若目标框的跟踪得分低于预设的低分阈值,则判定该目标框所对应的跟踪目标在当前帧中为丢失目标;
对于当前帧中的任意一个丢失目标Ttl,分别计算其目标框与所述检测结果中每一个检测位置之间的表观相似度,若所计算的任意一个表观相似度大于预设的第三阈值,则判定所述丢失目标Ttl被重新找到,并将其作为跟踪目标进行跟踪;
对于历史帧Fterm中的任意一个丢失目标Thl,若至当前帧的连续Tterm帧中所述丢失目标Thl均未被重新找到,则判定其轨迹终止;
对于所述检测结果中的任意一个目标d,若未匹配到跟踪目标且其语义得分高于预设的高分阈值,则初始化所述目标d为待定新目标;
对于历史帧Finit中的任意一个待定新目标dnew,若至当前帧的连续Tinit帧中所述待定新目标dnew均匹配到检测位置,且与所有丢失目标之间的表观相似度均低于所述第三阈值,则判定所述待定新目标dnew为新目标;若至当前帧的连续Tinit帧中所述待定新目标dnew在任意一帧中未匹配到检测位置,则判定所述待定新目标dnew为虚检并将其轨迹丢弃;若至当前帧的连续Tinit帧中所述待定新目标dnew与任意一个丢失目标之间的表观相似度高于所述第三阈值,则将所述待定新目标dnew识别为之前丢失的跟踪目标并进行跟踪;
其中,所述表观相似度为表观特征向量之间的余弦相似度,所述历史帧Fterm与当前帧间隔Tterm帧,所述历史帧Finit与当前帧间隔Tinit帧。
CN201811410922.4A 2018-11-24 2018-11-24 一种基于语义信息和场景信息的多目标跟踪方法 Expired - Fee Related CN109636829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811410922.4A CN109636829B (zh) 2018-11-24 2018-11-24 一种基于语义信息和场景信息的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811410922.4A CN109636829B (zh) 2018-11-24 2018-11-24 一种基于语义信息和场景信息的多目标跟踪方法

Publications (2)

Publication Number Publication Date
CN109636829A CN109636829A (zh) 2019-04-16
CN109636829B true CN109636829B (zh) 2021-01-01

Family

ID=66069367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811410922.4A Expired - Fee Related CN109636829B (zh) 2018-11-24 2018-11-24 一种基于语义信息和场景信息的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN109636829B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832343B (zh) * 2019-04-17 2024-04-09 北京京东乾石科技有限公司 跟踪方法和装置、存储介质
CN110111363A (zh) * 2019-04-28 2019-08-09 深兰科技(上海)有限公司 一种基于目标检测的跟踪方法及设备
CN110176024B (zh) * 2019-05-21 2023-06-02 腾讯科技(深圳)有限公司 在视频中对目标进行检测的方法、装置、设备和存储介质
CN110378195B (zh) * 2019-05-27 2021-10-15 浙江工业大学 基于直方图缓存法的多目标跟踪方法
CN110349184B (zh) * 2019-06-06 2022-08-09 南京工程学院 基于迭代滤波和观测判别的多行人跟踪方法
CN110287877B (zh) * 2019-06-25 2023-01-06 腾讯科技(深圳)有限公司 视频目标的处理方法及装置
CN110363791B (zh) * 2019-06-28 2022-09-13 南京理工大学 一种融合单目标跟踪结果的在线多目标跟踪方法
CN110428447B (zh) * 2019-07-15 2022-04-08 杭州电子科技大学 一种基于策略梯度的目标跟踪方法与系统
CN110532883B (zh) * 2019-07-30 2023-09-01 平安科技(深圳)有限公司 应用离线跟踪算法对在线跟踪算法进行改进
CN110517285B (zh) * 2019-08-05 2021-09-10 西安电子科技大学 基于运动估计me-cnn网络的大场景极小目标跟踪
CN110443852B (zh) * 2019-08-07 2022-03-01 腾讯科技(深圳)有限公司 一种图像定位的方法及相关装置
CN110688896A (zh) * 2019-08-23 2020-01-14 北京正安维视科技股份有限公司 一种行人徘徊检测方法
CN110796678B (zh) * 2019-10-29 2023-06-09 中山大学 一种基于IoU的水下多目标跟踪方法
CN110766715B (zh) * 2019-10-31 2022-05-31 智慧视通(杭州)科技发展有限公司 一种结合单目标轨迹的多目标跟踪方法
CN111723632B (zh) * 2019-11-08 2023-09-15 珠海达伽马科技有限公司 一种基于孪生网络的船舶跟踪方法及系统
CN110969648B (zh) * 2019-12-11 2022-05-20 华中科技大学 一种基于点云序列数据的3d目标跟踪方法及系统
CN111161314B (zh) * 2019-12-17 2024-03-12 中国科学院上海微系统与信息技术研究所 目标对象的位置区域确定方法、装置、电子设备及存储介质
CN111401383B (zh) * 2020-03-06 2023-02-10 中国科学院重庆绿色智能技术研究院 基于图像检测的目标框预估方法、系统、设备及介质
CN111460926B (zh) * 2020-03-16 2022-10-14 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
CN111639551B (zh) * 2020-05-12 2022-04-01 华中科技大学 基于孪生网络和长短期线索的在线多目标跟踪方法和系统
CN111639570B (zh) * 2020-05-20 2023-04-18 华中科技大学 一种基于运动模型和单目标线索的在线多目标跟踪方法
CN113744302B (zh) * 2020-05-27 2024-02-02 北京机械设备研究所 动态目标行为预测方法和系统
CN111860187A (zh) * 2020-06-24 2020-10-30 广东邦鑫数据科技股份有限公司 一种高精度的佩戴口罩识别方法及系统
CN111860373B (zh) * 2020-07-24 2022-05-20 浙江商汤科技开发有限公司 目标检测方法及装置、电子设备和存储介质
CN111985379A (zh) * 2020-08-13 2020-11-24 中国第一汽车股份有限公司 基于车载雷达的目标追踪方法、装置、设备及车辆
CN112016440B (zh) * 2020-08-26 2024-02-20 杭州云栖智慧视通科技有限公司 一种基于多目标跟踪的目标推送方法
CN112084914B (zh) * 2020-08-31 2024-04-26 的卢技术有限公司 一种融合空间运动和表观特征学习的多目标跟踪方法
CN112258552A (zh) * 2020-09-15 2021-01-22 青岛邃智信息科技有限公司 一种社区监控场景下行人多目标跟踪方法
CN112863187B (zh) * 2021-01-18 2022-04-15 阿波罗智联(北京)科技有限公司 感知模型的检测方法、电子设备、路侧设备和云控平台
CN113744313B (zh) * 2021-09-06 2024-02-02 山东工商学院 基于目标移动轨迹预测的深度学习集成的跟踪算法
CN114049383B (zh) * 2022-01-13 2022-04-22 苏州浪潮智能科技有限公司 一种多目标跟踪方法、设备及可读存储介质
CN117173221B (zh) * 2023-09-19 2024-04-19 浙江大学 一种基于真实性分级与遮挡恢复的多目标跟踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007001962A2 (en) * 2005-06-20 2007-01-04 Kurzweil Technologies, Inc. Systems and methods for generating biological material
CN101409831A (zh) * 2008-07-10 2009-04-15 浙江师范大学 一种多媒体视频对象处理方法
CN106066993A (zh) * 2016-05-23 2016-11-02 上海交通大学 一种人群语义分割方法及系统
US10114724B1 (en) * 2015-12-04 2018-10-30 A9.Com, Inc. Techniques for real time server testing in a production environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007001962A2 (en) * 2005-06-20 2007-01-04 Kurzweil Technologies, Inc. Systems and methods for generating biological material
CN101409831A (zh) * 2008-07-10 2009-04-15 浙江师范大学 一种多媒体视频对象处理方法
US10114724B1 (en) * 2015-12-04 2018-10-30 A9.Com, Inc. Techniques for real time server testing in a production environment
CN106066993A (zh) * 2016-05-23 2016-11-02 上海交通大学 一种人群语义分割方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REAL-TIME MULTIPLE PEOPLE TRACKING WITH DEEPLY LEARNED CANDIDATE SELECTION AND PERSON RE-IDENTIFICATION;Long Chen等;《arXiv:1809.04427[cs.CV]》;20180912;正文第3.1至3.5节 *
基于显著性的视觉目标跟踪研究;伍博;《中国博士学位论文全文数据库》;20180115;全文 *

Also Published As

Publication number Publication date
CN109636829A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109636829B (zh) 一种基于语义信息和场景信息的多目标跟踪方法
CN111488795B (zh) 应用于无人驾驶车辆的实时行人跟踪方法
CN109360226B (zh) 一种基于时间序列多特征融合的多目标跟踪方法
CN107516321B (zh) 一种视频多目标跟踪方法及装置
CN107145862B (zh) 一种基于霍夫森林的多特征匹配多目标跟踪方法
CN110853078B (zh) 一种基于遮挡对的在线多目标跟踪方法
CN105678338B (zh) 基于局部特征学习的目标跟踪方法
CN110288627B (zh) 一种基于深度学习和数据关联的在线多目标跟踪方法
CN107133970B (zh) 基于运动信息的在线多目标跟踪方法及装置
CN110738690A (zh) 一种基于多目标追踪框架的无人机视频中车速校正方法
CN111476817A (zh) 一种基于yolov3的多目标行人检测跟踪方法
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN111160212B (zh) 一种基于YOLOv3-Tiny改进的跟踪学习检测系统及方法
CN114879696A (zh) 轨迹匹配方法、装置、设备和介质
CN110781785A (zh) 基于Faster RCNN算法改进的交通场景下行人检测方法
CN107844739B (zh) 基于自适应同时稀疏表示的鲁棒性目标追踪方法
CN111161325A (zh) 基于卡尔曼滤波与lstm的三维多目标跟踪方法
CN111931571B (zh) 基于在线增强检测的视频文字目标追踪方法与电子设备
CN112037268B (zh) 一种动态场景下的基于概率传递模型的环境感知方法
CN116645396A (zh) 轨迹确定方法、装置、计算机可读存储介质及电子设备
He et al. Fast online multi-pedestrian tracking via integrating motion model and deep appearance model
CN114926859A (zh) 一种结合头部跟踪的密集场景下行人多目标跟踪方法
Yi et al. Multi-Person tracking algorithm based on data association
CN110211150B (zh) 一种具有尺度协调机制的实时视觉目标识别方法
CN112560651B (zh) 基于深度网络和目标分割结合的目标跟踪方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210101

Termination date: 20211124