CN112734809A - 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 - Google Patents

基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 Download PDF

Info

Publication number
CN112734809A
CN112734809A CN202110083052.XA CN202110083052A CN112734809A CN 112734809 A CN112734809 A CN 112734809A CN 202110083052 A CN202110083052 A CN 202110083052A CN 112734809 A CN112734809 A CN 112734809A
Authority
CN
China
Prior art keywords
target detection
tracking
kcf
frame
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110083052.XA
Other languages
English (en)
Other versions
CN112734809B (zh
Inventor
陈颖萱
林焕凯
王祥雪
陈利军
董振江
刘双广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Gosuncn Technology Group Co Ltd
Original Assignee
Xidian University
Gosuncn Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Gosuncn Technology Group Co Ltd filed Critical Xidian University
Priority to CN202110083052.XA priority Critical patent/CN112734809B/zh
Priority claimed from CN202110083052.XA external-priority patent/CN112734809B/zh
Publication of CN112734809A publication Critical patent/CN112734809A/zh
Application granted granted Critical
Publication of CN112734809B publication Critical patent/CN112734809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请揭示了一种基于Deep‑Sort跟踪框架的在线多行人跟踪方法及装置,该方法包括:利用视频帧输入生成目标检测框;计算目标检测框的余弦距离;将目标检测框输入至融合的Vgg‑16网络模型中,将提取的特征值和轨迹输入至KCF中,计算出目标检测框的欧氏距离;根据余弦距离和欧氏距离,结合每个目标检测框的总距离以及Deep‑Sort跟踪框架的匹配级联方式,输出跟踪结果。本申请将Deep‑Sort跟踪算法中的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能;通过针对高斯核相关滤波器跟踪行人运动产生的漂移现象,提出峰值旁瓣比,将多个相关滤波器衔接起来,以达到更高的跟踪准确率和精确率。

Description

基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置
技术领域
本发明属于多行人跟踪技术领域,涉及一种基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置。
背景技术
多行人跟踪是视频监控领域中常见场景之一,其含义是将行人运动视频输入至多行人跟踪算法中,得到各个行人的运动轨迹,包括轨迹的起始与终结。对这些行人轨迹可根据实际用途进行进一步的分析,如行人异常行为分析,因此多行人跟踪在监控视频分析中具有承上启下的作用,使监控信息更具有价值。随着深度学习的蓬勃发展,一大批基于深度学习的多行人跟踪方法也快速涌现,如C-COT,DeepSort,MOTDT,DeepMOT等,这使得跟踪效能大大提升。其中,DeepSort是在Sort算法的基础上进行一些改进,加入了外观特征相似度分量以及更加完备的跟踪逻辑,这些使得跟踪器的性能大幅度提高。Deep-Sort分为特征提取,建立运动模型和轨迹分配三部分,其中第二部分的运动模型采用卡尔曼滤波。
在实际应用中,除卡尔曼滤波外还可采取相关滤波及粒子滤波等运动模型。卡尔曼滤波是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法。简而言之,即先由状态方程进行估计,再由观测方程对估计进行纠正。卡尔曼滤波的使用是有前提的,那就是系统噪声必须符合高斯分布及必须是线性系统。然而在实际场景中,这两点不容易同时满足,于是有学者提出了粒子滤波,粒子滤波的优势在于对运动系统没有什么要求。粒子滤波的核心思想就是基于强化学习的优化,其性能可以在去掉高斯假设和线性假设之后仍然保持最优。但其需要通过多次迭代来计算最优,所以复杂程度很高,因此卡尔曼滤波相对于粒子滤波,仍是用途较广的算法。除对运动系统有要求外,当运动目标长时间被遮挡时卡尔曼滤波很可能存在目标跟踪丢的情况,于是很多学者都在研究更鲁棒性的算法。为实现高精确度和快速的目标跟踪,相关滤波是近年来比较热门的方法。相关滤波跟踪的基本思想是设计一个滤波模板,利用该模板与目标候选区域做相关运算,最大输出响应的位置即为当前帧的目标位置。但是目前所有的相关滤波跟踪方法仍然无法解决遮挡和光照变化等因素造成的干扰,这对跟踪性能的MOTA和MOTP的提高带来一定的影响。因此,需要进一步解决遮挡和光照的干扰,以更好地提升跟踪器性能。
Deep-Sort是一种tracking-by-detection的跟踪方法,即先检测出某一帧中出现的所有行人,然后判断这些行人是否是与前一帧有关联的目标。以某一个行人为例:在Deep-Sort中先使用卡尔曼滤波计算出当前帧该行人(设为轨迹i)在下一帧视频中可能出现的位置,记为yi。检测出下一帧中出现的行人,第j个检测框设为dj,将这两值的马氏距离设为第一个测度,即:d(1)(i,j)=(dj-yi)Tsi -1(dj-yi)。第二个测度为在外观空间中第i个轨迹与第j个检测之间的最小余弦距离,即:d(2)(i,j)=min{1-rj Trk (i)|rk (i)∈Ri}。将这两个测度融合成为一个相似度度量,将此度量带入匈牙利分配方法中,找到下一帧中与该轨迹相关联的检测框,即该行人在下一帧中出现的位置。
核相关滤波(简称KCF)以其简单、快捷、准确的特性在视觉跟踪中广受好评。其主要思想是通过样本训练一个分类器,即找到一个函数f(z)=wTz,使它满足
Figure BDA0002909796330000021
其中xi是样本,yi是此区域是目标的概率,λ是一个控制过度拟合的正则化参数。为了简化求解过程,引入了循环矩阵X,循环矩阵的另一个作用是增加样本量,此外通过离散傅里叶变换(DFT)进一步简化计算加快求解过程。假设f(z)非线性且w是样本的线性函数,即
Figure BDA0002909796330000022
将所有对样本之间的点积
Figure BDA0002909796330000023
存储在核矩阵K中,其中元素为Kij=κ(xi,xj)。通过核技巧,可将非线性函数转变成核的线性函数
Figure BDA0002909796330000024
对参数w的求解也转换成对α的求解。将核化后岭回归的解α=(K+λI)-1y映射在傅里叶域化简后解为
Figure BDA0002909796330000025
其中kxx是K=C(kxx)的第一行,C()是将括号中向量变成循环矩阵的映射,向量上的符号表明的是向量的DFT。在测试时为了快速计算候选区域响应值,将f(z)=(Kz)Tα映射在傅里叶域中得到
Figure BDA0002909796330000026
这样仅需计算两个向量的点乘便可计算出响应值,其中Kz=C(kxz)。这里核函数采用高斯核函数,同样也在傅里叶域中进行化简,于是有
Figure BDA0002909796330000027
对于多通道,由于DFT具有线性性,计算核时将傅里叶域中每个通道的结果进行求和即可。如:x=(x1,....,xc),则有
Figure BDA0002909796330000028
接下来更新新一帧目标的位置,然后继续在新的一帧上训练核相关滤波。
现有技术存在以下缺点:
(1)Deep-Sort在建立行人运动模型时采用卡尔曼滤波,此方法原理简单,计算简便,但其对行人的运动有一定要求:行人的运动必须在线性系统中,当行人运动长时间被遮挡时会存在行人跟踪丢失的情况。
(2)KCF因为在跟踪过程当中目标框是已经设定好的,从始至终大小未发生变化,但是在一般的跟踪序列当中,目标大小很难长时间保持恒定,这会导致跟踪器在跟踪过程中目标框出现漂移,即所谓的跟踪漂移。除此之外,如果目标的外观比较稳定,单个KCF跟踪器将顺利定位目标。但在真正场景中跟踪时,外观虽在短期内可能保持稳定,但从长期来看,外部环境中断是时有发生,这部分变化必须予以足够的重视,如遮挡、光照等问题。
发明内容
本申请提供了一种新的基于Deep-Sort跟踪框架的在线多行人跟踪方法,技术方案如下:
第一方面,本申请提供了一种基于Deep-Sort跟踪框架的在线多行人跟踪方法,所述方法包括:
将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
可选地,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
可选地,所述将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,包括:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
利用所述响应值计算峰值旁瓣比PSR的分数值,所述PSR的分数公式为:
Figure BDA0002909796330000031
所述分数公式中y为目标检测框的响应值,μ和σ分别表示为响应值的均值和标准差;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
可选地,所述对KCF进行优化,包括:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
可选地,所述结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果,包括:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
第二方面,本申请还提供一种基于Deep-Sort跟踪框架的在线多行人跟踪装置,所述装置包括:
生成模块,被配置为将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
第一计算模块,被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
第二计算模块,被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
第三计算模块,被配置为根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
输出模块,被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
可选的,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
可选的,所述第二计算模块还被配置为执行如下操作:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
利用所述响应值计算峰值旁瓣比PSR的分数值,所述PSR的分数公式为:
Figure BDA0002909796330000051
所述分数公式中y为目标检测框的响应值,μ和σ分别表示为响应值的均值和标准差;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
可选的,所述第二计算模块还被配置为执行如下操作:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
可选的,所述输出模块还被配置为:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
本申请至少可以实现如下有益效果:
通过将Deep-Sort跟踪算法中的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能;通过针对高斯核相关滤波器跟踪行人运动产生的漂移现象,提出峰值旁瓣比,将多个相关滤波器衔接起来,以达到更高的跟踪准确率和精确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法的流程图;
图2A是本申请一个实施例提供的Vgg-16网络在融合时的示意图;
图2B是是本申请一个实施例中提供的计算欧式距离的示意图
图3是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法的流程图,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法可以包括如下步骤:
步骤101,将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
行人检测模型可以对图像中的人体目标进行识别,并输出识别到的人体目标所在的方框,并将该方框记为目标检测框。
步骤102,利用目标检测框输入至行人再识别网络中提取第一特征值,利用第一特征值计算目标检测框的余弦距离;
步骤103,将目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹;
步骤104,将第二特征值和轨迹输入至优化后的高斯核相关滤波器KCF中,计算出目标检测框的欧氏距离,KCF引入峰值旁瓣比PSR以监测KCF的跟踪状态;
卷积神经网络提取的卷积特征已经替代了传统的手工特征。较高层的卷积特征具有更丰富的语义特征,更利于跟踪目标。同时随着网络层数增多,池化层使卷积特征丧失了特征之间的位置信息并且降低了卷积特征的空间分辨率,而较低的分辨率会影响跟踪的精度。故在本专利中,提取特征采用一个融合的Vgg-16网络结构。
对于Pooling和Upscale结构,在Vgg-16网络中,Conv3_3、Conv4_3、Conv5_3的输出端特征图大小分别为输入图像的1/4、1/8、1/16,但在融合时必须使得三层卷积特征的尺度保持一致。因此选用Conv4_3为基准,分别对Conv3_3和Conv5_3的特征图进行降维和升维。对Conv3_3输出的特征图加入Max pooling结构,Max pooling结构可将Conv3_3特征图的尺度降维至输入图像的1/8;对于Conv5_3特征图的Upscale结构,使用2*2的Deconv层来实现上采样效果,将Conv5_3特征图的尺度变为原图像的1/8。
Concatenation层将尺度一致的卷积特征以连接的方式构建为新的多通道特征。Convf层是卷积核大小为1*1的卷积层,1*1的卷积核可对Concatenation层产生的冗余特征进行降维,得到冗余信息更少的综合特征。
在训练网络时,采用迁移学习提高模型的泛化能力。故本申请使用的预训练的Vgg-16模型对除融合模块之外的模型参数进行初始化,并固定此部分参数,仅对融合模块所涉及到的参数进行训练。完整的深度卷积融合网络架构见表1和图2A。
Name Type Outputsize Name Type Outputsize
Conv1_1 Conv+Relu 224*224*64 Conv4_1 Conv+Relu 28*28*512
Conv1_2 Conv+Relu 224*224*64 Conv4_2 Conv+Relu 28*28*512
Pool1 Max-pool 112*112*64 Conv4_3 Conv+Relu 28*28*512
Conv2_1 Conv+Relu 112*112*128 Pool4 Max-pool 14*14*512
Conv2_2 Conv+Relu 112*112*128 Conv5_1 Conv+Relu 14*14*512
Pool2 Max-pool 56*56*128 Conv5_2 Conv+Relu 14*14*512
Conv3_1 Conv+Relu 56*56*256 Conv5_3 Conv+Relu 14*14*512
Conv3_2 Conv+Relu 56*56*256 Downscale Max-pool 28*28*256
Conv3_3 Conv+Relu 56*56*256 Upscale Deconv 28*28*512
Pool3 Max-pool 28*28*256 Concat Concat 28*28*1280
Convf Conv 28*28*512
表1
请参见图2B所示,其是本申请一个实施例中提供的计算欧式距离的示意图,本申请在将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离时,包括如下:
步骤S1、对KCF进行优化,将第二特征值和轨迹输入至优化后的KCF中,计算出目标检测框的响应值;
本申请中的滤波器采用改进后的高斯核相关滤波器KCF,引入峰值旁瓣比(PSR),以监测KCF的跟踪状态。
在对KCF进行优化时,首先,根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;然后,在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
步骤S2、利用响应值计算峰值旁瓣比PSR的分数值;
PSR的分数公式为:
Figure BDA0002909796330000071
分数公式中y为目标检测框的响应值,μ和σ分别表示为响应值的均值和标准差。
目标y的峰值和方差衡量了待选择目标和已生成轨迹之间的相似性,也反映了跟踪的可靠性。即PSR得分越高,表明y的更多样本将会集中在峰值区域,这进一步说明KCF运行得很好。反之,PSR下降反应y方差变大,这表明观测值的特征与参考值差异性较大,特征的变化增加了相似度度量空间中候选样本与参考样本之间的距离。
因此,我们使用PSR上的阈值Sth来衡量KCF跟踪器的状态。当PSR分数s小于Sth时,我们停止更新以及在线训练新的KCF。具体步骤如下:根据此帧(设为t)轨迹的状态提取特征xt,训练一个新的KCF模型。在t+1帧时,先在第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到该区域的响应值yt+1。然后计算PSR分数进行评判,若响应值大于阈值,则更新参数后继续使用此KCF,反之,则在t+1帧根据提取特征训练一个新的KCF,依此类推。
步骤S3、当分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的欧氏距离;
预定阈值为5.99。
步骤S4、当分数值小于预定阈值时,停止更新,并在线训练新的KCF。
步骤105,根据余弦距离和欧氏距离,计算每个目标检测框的总距离;
步骤106,结合每个目标检测框的总距离以及Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
在结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果时,匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;在匹配成功时,输出跟踪结果;在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
本申请中的跟踪器以Deep-Sort在线多目标跟踪算法为框架,用高斯核相关滤波器替代原本的卡尔曼滤波器,其余部分如计算检测与轨迹余弦相似度和关联匹配逻辑等保持不变。
为了关联跟踪集和检测集,通过结合运动信息和外观信息构造代价矩阵,其中通过KCF计算最大响应值确定位置,该运动信息可使短期预测达到理想效果;同时计算外观的余弦距离有助于考虑长时间遮挡问题,这些信息对恢复跟踪ID的身份非常有用。该代价矩阵中的元素定义为ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j),其中d(1)(i,j)=(dj-yi)T(dj-yi),表示计算某帧的KCF预测的第i个轨迹位置yi和当前时刻检测到的第j个检测框位置dj的欧氏距离,即步骤103得出。
Figure BDA0002909796330000081
表示由第i个轨迹与第j个检测提取的外观特征而计算的最小余弦距离,即步骤102计算得出。同时对这两个距离分别设置阈值
Figure BDA0002909796330000091
Figure BDA0002909796330000092
当满足
Figure BDA0002909796330000093
的值为1时,我们就认为这是一个可接受的关联。
每个轨迹分为三种状态,分别是暂定状态、已确定状态及已删除状态。如果某次检测结果中的某个检测始终无法与已经存在的轨迹进行关联,那么则认为可能出现了新轨迹。在新创建的轨迹没有收集到足够的证据之前都是暂定状态。新轨迹的前三帧的状态是暂定状态,三帧后可确定为已确定状态或已删除状态。若该轨迹连续三帧都可找到相应的检测与其配对,则该轨迹被标记为已确定状态,反之被确定为已删除状态。若已确定状态的轨迹超过预定义的最大范围Amax(设为30帧)仍未出现相匹配的检测,则该轨迹被认为已经离开了场景并且被从轨迹集中删除。
跟踪具体流程属于本领域技术人员均可以实现的,本申请中就不再赘述。
本提案用于参考的评价指标是MOT数据集的常见评价指标,主要包括MOTA、MOTP、MT、ML、ID、FM等。
MOTA是多目标跟踪准确率,该指标综合评价跟踪器误报、漏报、身份变换等方面。MOTP是跟踪精确率,表明标注与预测的边界框的不匹配度。MT为跟踪部分大于80%的跟踪轨迹占真实总轨迹数的比例。ML是丢失部分大于80%的跟踪轨迹数占真实总轨迹数的比例。ID表示真实轨迹的预计身份发生变化的次数。FM表明一个轨迹因漏检而中断的次数。
MOTA与MOTP的计算公式分别为:
Figure BDA0002909796330000094
Figure BDA0002909796330000095
其中:mt、fpt、mmet分别为第t帧估计出的假反例、假正例以及身份变换的数量,gt为所有帧真正目标数的总和。ct表示第t帧的由KCF预测位置与检测出位置相匹配的个数,
Figure BDA0002909796330000096
为每对匹配计算出的匹配误差,即第t帧下目标与其配对假设位置之间的距离。
综上所述,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法,基于Deep-Sort跟踪算法的改进,将线性的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能,使跟踪算法鲁棒性更强且更有效率。
通过引入卷积神经网络特征融合提取特征及峰值旁瓣比,使相关滤波适应性更强,精确度越高。从而使跟踪算法效果更加优良。
图3是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置的结构示意图,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置可以包括:生成模块310、第一计算模块320、第二计算模块330、第三计算模块340和输出模块350。
生成模块310,被配置为将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
第一计算模块320,被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
第二计算模块330,被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
第三计算模块340,被配置为根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
输出模块350,被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
可选的,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
可选的,所述第二计算模块330还被配置为执行如下操作:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
利用所述响应值计算峰值旁瓣比PSR的分数值,所述PSR的分数公式为:
Figure BDA0002909796330000101
所述分数公式中y为目标检测框的响应值,μ和σ分别表示为响应值的均值和标准差;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
可选的,所述第二计算模块330还被配置为执行如下操作:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
可选的,所述输出模块350还被配置为:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
综上所述,本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置,基于Deep-Sort跟踪算法的改进,将线性的卡尔曼滤波换成高斯核相关滤波,使运动模型可建立在更加丰富的运动场景中,同时加快估计行人运动位置的计算时间,提升算法性能,使跟踪算法鲁棒性更强且更有效率。
通过引入卷积神经网络特征融合提取特征及峰值旁瓣比,使相关滤波适应性更强,精确度越高。从而使跟踪算法效果更加优良。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于Deep-Sort跟踪框架的在线多行人跟踪方法,其特征在于,所述方法包括:
将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
2.根据权利要求1所述的方法,其特征在于,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
3.根据权利要求1所述的方法,其特征在于,所述将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,包括:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
利用所述响应值计算峰值旁瓣比PSR的分数值,所述PSR的分数公式为:
Figure FDA0002909796320000011
所述分数公式中y为目标检测框的响应值,μ和σ分别表示为响应值的均值和标准差;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
4.根据权利要求3所述的方法,其特征在于,所述对KCF进行优化,包括:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
5.根据权利要求1所述的方法,其特征在于,所述结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果,包括:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
6.一种基于Deep-Sort跟踪框架的在线多行人跟踪装置,其特征在于,所述装置包括:
生成模块,被配置为将采集到的视频帧输入至行人检测模型中,生成包含行人的目标检测框;
第一计算模块,被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值,利用所述第一特征值计算所述目标检测框的余弦距离;
第二计算模块,被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹,将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中,计算出所述目标检测框的欧氏距离,所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态;
第三计算模块,被配置为根据所述余弦距离和所述欧氏距离,计算每个目标检测框的总距离;
输出模块,被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式,输出跟踪结果。
7.根据权利要求6所述的装置,其特征在于,所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8,所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练,所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构,以将Comv3_3特征图的尺度降维至输入图像的1/8;所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构,以将Comv5_3特征图的尺度升维至输入图像的1/8。
8.根据权利要求6所述的装置,其特征在于,所述第二计算模块还被配置为执行如下操作:
对KCF进行优化,将所述第二特征值和所述轨迹输入至优化后的KCF中,计算出所述目标检测框的响应值;
利用所述响应值计算峰值旁瓣比PSR的分数值,所述PSR的分数公式为:
Figure FDA0002909796320000031
所述分数公式中y为目标检测框的响应值,μ和σ分别表示为响应值的均值和标准差;
当所述分数值大于预定阈值时,利用响应值最高的坐标和各轨迹的坐标计算欧氏距离,输出计算得到的所述欧氏距离,所述预定阈值为5.99;
当所述分数值小于所述预定阈值时,停止更新,并在线训练新的KCF。
9.根据权利要求8所述的装置,其特征在于,所述第二计算模块还被配置为执行如下操作:
根据第t帧轨迹的状态提取特征xt,训练一个新的KCF模型;
在第t+1帧时,在所述第t帧的轨迹位置处进行采样得到目标模板xt+1,由第t帧训练好的KCF进行计算得到所述区域的响应值yt+1,计算PSR分数,若PSR分数大于预定阈值,则更新参数后继续使用更新后的KCF,若PSR分数小于预定阈值,则在第t+1帧根据提取特征训练一个新的KCF。
10.根据权利要求6所述的装置,其特征在于,所述输出模块还被配置为:
匹配级联,利用匈牙利算法对跟踪目标和所述目标检测框进行匹配;
在匹配成功时,输出跟踪结果;
在匹配未成功时,计算所述目标检测框和各轨迹间的IOU值,再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。
CN202110083052.XA 2021-01-21 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 Active CN112734809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110083052.XA CN112734809B (zh) 2021-01-21 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110083052.XA CN112734809B (zh) 2021-01-21 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN112734809A true CN112734809A (zh) 2021-04-30
CN112734809B CN112734809B (zh) 2024-07-05

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379793A (zh) * 2021-05-19 2021-09-10 成都理工大学 基于孪生网络结构和注意力机制的在线多目标跟踪方法
CN114120188A (zh) * 2021-11-19 2022-03-01 武汉大学 一种基于联合全局和局部特征的多行人跟踪方法
CN114359579A (zh) * 2022-01-10 2022-04-15 杭州巨岩欣成科技有限公司 泳池防溺水人体目标跟踪方法、装置、计算机设备及存储介质
CN114581491A (zh) * 2022-04-30 2022-06-03 苏州浪潮智能科技有限公司 一种行人轨迹跟踪方法、系统及相关装置
CN115082526A (zh) * 2022-07-26 2022-09-20 复亚智能科技(太仓)有限公司 目标追踪方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767405A (zh) * 2017-09-29 2018-03-06 华中科技大学 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN110175649A (zh) * 2019-05-28 2019-08-27 南京信息工程大学 一种关于重新检测的快速多尺度估计目标跟踪方法
CN111292355A (zh) * 2020-02-12 2020-06-16 江南大学 一种融合运动信息的核相关滤波多目标跟踪方法
CN111428642A (zh) * 2020-03-24 2020-07-17 厦门市美亚柏科信息股份有限公司 一种多目标跟踪算法、电子装置及计算机可读存储介质
CN111488795A (zh) * 2020-03-09 2020-08-04 天津大学 应用于无人驾驶车辆的实时行人跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767405A (zh) * 2017-09-29 2018-03-06 华中科技大学 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN110175649A (zh) * 2019-05-28 2019-08-27 南京信息工程大学 一种关于重新检测的快速多尺度估计目标跟踪方法
CN111292355A (zh) * 2020-02-12 2020-06-16 江南大学 一种融合运动信息的核相关滤波多目标跟踪方法
CN111488795A (zh) * 2020-03-09 2020-08-04 天津大学 应用于无人驾驶车辆的实时行人跟踪方法
CN111428642A (zh) * 2020-03-24 2020-07-17 厦门市美亚柏科信息股份有限公司 一种多目标跟踪算法、电子装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN BIN ET AL.: "Design of Power Intelligent Safety Supervision System Based on Deep Learning", 《2018 IEEE INTERNATIONAL CONFERENCE ON AUTOMATION, ELECTRONICS AND ELECTRICAL ENGINEERING》, pages 154 - 157 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379793A (zh) * 2021-05-19 2021-09-10 成都理工大学 基于孪生网络结构和注意力机制的在线多目标跟踪方法
CN113379793B (zh) * 2021-05-19 2022-08-12 成都理工大学 基于孪生网络结构和注意力机制的在线多目标跟踪方法
CN114120188A (zh) * 2021-11-19 2022-03-01 武汉大学 一种基于联合全局和局部特征的多行人跟踪方法
CN114120188B (zh) * 2021-11-19 2024-04-05 武汉大学 一种基于联合全局和局部特征的多行人跟踪方法
CN114359579A (zh) * 2022-01-10 2022-04-15 杭州巨岩欣成科技有限公司 泳池防溺水人体目标跟踪方法、装置、计算机设备及存储介质
CN114581491A (zh) * 2022-04-30 2022-06-03 苏州浪潮智能科技有限公司 一种行人轨迹跟踪方法、系统及相关装置
CN115082526A (zh) * 2022-07-26 2022-09-20 复亚智能科技(太仓)有限公司 目标追踪方法及装置
CN115082526B (zh) * 2022-07-26 2023-02-03 复亚智能科技(太仓)有限公司 目标追踪方法及装置

Similar Documents

Publication Publication Date Title
Shen et al. Fast online tracking with detection refinement
CN108470332B (zh) 一种多目标跟踪方法及装置
CN108062531B (zh) 一种基于级联回归卷积神经网络的视频目标检测方法
Zhang et al. Deepvoting: A robust and explainable deep network for semantic part detection under partial occlusion
CN110175649B (zh) 一种关于重新检测的快速多尺度估计目标跟踪方法
CN111046732B (zh) 一种基于多粒度语义解析的行人重识别方法及存储介质
CN107194950B (zh) 一种基于慢特征分析的多人跟踪方法
US11062455B2 (en) Data filtering of image stacks and video streams
Wang et al. Point linking network for object detection
CN110427871A (zh) 一种基于计算机视觉的疲劳驾驶检测方法
Li et al. Robust object tracking with discrete graph-based multiple experts
CN111583300A (zh) 一种基于富集目标形态变化更新模板的目标跟踪方法
CN106056627B (zh) 一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法
CN115223191A (zh) 一种群养生猪行为的识别和跟踪方法
Bashar et al. Multiple object tracking in recent times: A literature review
Li et al. Robust visual tracking with occlusion judgment and re-detection
Wang et al. Mpanet: Multi-patch attention for infrared small target object detection
CN111415370A (zh) 一种基于嵌入式的红外复杂场景目标实时跟踪方法及系统
CN110472607A (zh) 一种船舶跟踪方法及系统
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
Fan et al. MP-LN: motion state prediction and localization network for visual object tracking
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
CN114187546B (zh) 组合性动作识别方法及系统
CN112734809A (zh) 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置
CN112614158B (zh) 一种采样框自适应的多特征融合在线目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant