CN111882581B - 一种深度特征关联的多目标跟踪方法 - Google Patents

一种深度特征关联的多目标跟踪方法 Download PDF

Info

Publication number
CN111882581B
CN111882581B CN202010705694.4A CN202010705694A CN111882581B CN 111882581 B CN111882581 B CN 111882581B CN 202010705694 A CN202010705694 A CN 202010705694A CN 111882581 B CN111882581 B CN 111882581B
Authority
CN
China
Prior art keywords
target
network
matrix
video frame
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010705694.4A
Other languages
English (en)
Other versions
CN111882581A (zh
Inventor
李辉
刘亚鹏
张淑军
董燕
王俊印
徐凌伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Hangxing Technology Co ltd
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202010705694.4A priority Critical patent/CN111882581B/zh
Publication of CN111882581A publication Critical patent/CN111882581A/zh
Application granted granted Critical
Publication of CN111882581B publication Critical patent/CN111882581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种深度特征关联的多目标跟踪方法,包括:S1.提取原始的视频帧Vt,Vt‑n,进行处理,输出It,It‑n,Ct,Ct‑n;S2.对数据进行预处理;S3.在深度特征提取器中进行通道数的缩减,组成含有512个通道数的特征集合Ft和Ft‑n;S4.将特征矩阵Ft和Ft‑n进行关联性分析,得到跟踪目标的轨迹Tt;本方法通过加深网络深度提取更丰富的语义信息,通过融合多层次特征保留更多细节信息,用共享权重的孪生网络联合训练不需连续的帧,解决目标遮挡问题,在计算中添加额外的列行表示对象的进出,解决跟踪对象进出视频帧的问题,整体上提高目标关联的性能,具有保留更多的细节信息、追踪结果准确的特点。

Description

一种深度特征关联的多目标跟踪方法
技术领域
本发明涉及计算机视觉和图形学技术领域,具体涉及一种深度特征关联的多目标跟踪方法。
背景技术
视频多目标跟踪(MOT)是计算机视觉中一个重要的组成部分,在智能监控、无人驾驶、智能机器人,智能人机交互、医学场景等领域都有其独特的应用价值;视频的多目标跟踪可分为基于初始帧的跟踪和基于目标检测的跟踪;前者在视频第一帧中选择跟踪的目标,之后交给跟踪算法实现目标的跟踪;这种方式只能跟踪第一帧选中的目标,如果后续帧中出现了新的目标,算法是跟踪不到的;这种方式的优点是速度相对较快;缺点是不能跟踪新出现的目标;后者分为目标检测和目标关联两个部分,在视频每帧中先检测出来所有感兴趣的目标,然后将其与前一帧中检测出来的目标进行关联来实现目标跟踪;这种方式的优点是可以在整个视频中跟踪随时可能出现的新目标,但前提是得有一个好的目标检测算法;
近年来,随着深度学习方面研究的发展,目标检测取得了很大的进步,然而用于跟踪的目标关联部分在深度学习中收益颇浅,仍然有许多的问题有待解决,例如:多目标之间的频繁遮挡问题会严重影响帧与帧之间的同一目标关联的准确度;目标关联时特征提取部分提取的特征是否含有更丰富的信息也会直接影响帧间目标关联的准确度。以往传统的方法是依赖于建立目标的运动模型,利用邻近性,分组以及计算帧间目标的外观的相似性去计算帧间目标的亲密关系;
在专利号为CN201910429444.X,专利名称为《一种基于深度学习和数据关联的在线多目标跟踪》的发明专利中,为了解决在复杂场景中具有相似外观的目标相互遮挡时,现有多目标跟踪技术存在严重编号切换、跟踪漂移等问题,提出了一种新的多目标跟踪方法,从多个角度解决多目标跟踪问题,在拥挤、频繁遮挡发生的复杂交通场景下,该算法能实现准确、稳定的多目标跟踪,但该方法存在:(1)融合多帧的历史外观会大大增加计算量,减慢运行速度;(2)没有通过计算不必连续的两帧的关联分析来解决目标之间的遮挡问题;(3)目标特征提取的语义信息不丰富,细节保留不够多的问题;
在专利号为CN201910190955.0,专利名称为《一种基于多特征最优关联的在线多目标跟踪方法》的发明专利中,方法重点解决在复杂场景下,例如摄像头相对运动、目标重叠遮挡、外观巨变等,导致的目标跟踪丢失,鲁棒性差等问题,但该方法存在:(1)两帧中目标进行关联度计算时没有用到不连续的帧来解决目标之间遮挡的问题;(2)目标的特征提取时没有关注全局信息;
在《复杂场景下基于检测的数据关联多目标跟踪方法研究》这一现有文献中,解决了由于受背景噪声等情况的干扰,视频序列中的运动目标检测可靠性较低,将这些检测目标作为跟踪目标候选区域时,容易发生目标跟丢和漂移等现象;视野中存在频繁遮挡、相似目标、目标形变等复杂场景,增加了多目标跟踪器发生身份误切换等错误的概率等问题,但该方法存在:(1)没有采用不必连续的两帧来解决目标之间的遮挡问题;(2)光流的方法太过耗费计算资源,大大减慢运行的速度的问题;
发明内容
针对上述存在的问题,本发明旨在提供一种深度特征关联的多目标跟踪方法,通过加深网络的深度提取更丰富的语义信息,通过融合多层次的特征保留更多的细节信息,用共享权重的孪生网络联合训练一对不需连续的帧,解决目标遮挡问题,在相似矩阵的计算中添加了额外的列行去表示对象的进出,解决跟踪对象进出视频帧的问题,从而整体上提高目标关联的性能,具有可以保留更多的细节信息、追踪结果准确的特点。
为了实现上述目的,本发明所采用的技术方案如下:
一种深度特征关联的多目标跟踪方法,包括以下过程:
S1.提取原始的视频帧Vt,Vt-n,并利用目标检测器对原始视频帧进行处理,输出视频帧集It,It-n,及其目标中心点坐标信息集Ct,Ct-n
S2.对目标检测器传来的视频帧集It,It-n,结合目标中心点坐标信息集Ct,Ct-n,进行预处理,并将处理后的视频帧It和其上所有目标的中心点集合Ct,以及It-n和其上所有目标的中心点集合Ct-n输入到深度特征提取器中;
S3.在深度特征提取器中选取特定的6层的输出到1×1卷积核进行通道数的缩减,组成含有512个通道数的特征集合Ft和Ft-n
S4.将S3得到的大小为512×Nm的特征矩阵Ft和Ft-n进行关联性分析,运用相似性矩阵结合损失子函数共同得出两帧之间目标的关联度,进而得到跟踪目标的轨迹Tt
优选的,步骤S1所述的原始的视频帧Vt,Vt-n不必为连续的两帧,且间隔不超过5帧。
优选的,步骤S2所述的预处理的具体过程包括:
S201.首先对视频数据集It和It-n进行光度畸变处理,以像素值尺度[0.7,1.5]范围中的一个随机值改变图片大小,接着以饱和度尺度[0.7,1.5]范围中的一个随机值转换成HSV空间,最后,以同样饱和度尺度[0.7,1.5]范围中的一个随机值,转回到RGB中;
S202.使用图像像素均值扩张帧,像素值尺度变化范围[1,1.2];
S203.对图像进行裁剪,裁剪像素尺度范围在[0.8,1]之间,同时裁剪后的图像需要包含所有检测目标的中心点,形成经预处理后的跟踪数据集MOT17的检测结果;
其中:所述的跟踪数据集MOT17的检测结果包含预处理后的视频帧集It和It-n及其目标中心点坐标信息集Ct,Ct-n
优选的,在步骤S3所述的深度特征提取器中:
(1)主干网络使用FPN101网络,且在所述FPN101网络中嵌入Non_Local网络,以及在网络后面添加反卷积网络,得到重构图,用以计算重构损失;
(2)在FPN101网络中设置有平滑网络层,涉及通道数改变的地方,均利用平滑网络层作平滑处理。
优选的,步骤S3所述的在深度特征提取器中选取特定的6层的输出到1×1卷积核进行通道数缩减,组成含有512个通道数的特征集合Ft和Ft-n的具体步骤包括:
S301.将预处理后的包含所有目标中心点坐标的Ct和Ct-n以及视频帧集It和It-n一同输入到FPN101网络中,进行特征提取;
S302.利用latlayer、toplayer网络块、conv2和max2d得到特定的6层特征,并利用1×1卷积核将扩增后的6层特征通道数进行缩减;
S303.将S302中的输出6层特征进行线性拼接,得到含有512个通道数的特征集合Ft和Ft-n
其中:所述Ft和Ft-n就是Nm个目标的此种特征图组成,大小为Nm×512。
优选的,步骤S4所述的关联性分析的过程为:
S401.将经深度特征提取阶段处理所有目标后得到的特征矩阵Ft和Ft-n进行组合,得到1024×Nm×Nm的特征矢量Ψ(t-n,t);
S402.利用压缩网络对特征矢量Ψ(t-n,t)进行压缩,得到Nm×Nm大小的关联矩阵M;
S403.经分类器处理后得到初步的关联概率矩阵A,所述关联概率矩阵A包含行关联概率矩阵A1,列关联概率矩阵A2和经max计算的关联概率矩阵;
S404.然后结合视频帧中目标间真实的关联度矩阵Lt-n,t,利用损失函数进行损失度计算,计算出最终的目标之间的关联度,进而得到跟踪目标的轨迹Tt
其中:Nm表示视频帧中可跟踪目标的最大数目,Lt-n,t大小是(Nm+1)×(Nm+1)。
优选的,在步骤S403所述的计算过程中,考虑了目标的出现和离开,具体过程为:
(1)在关联矩阵M的基础上分别新添加一列表示跟踪目标的进入当前帧,得到目标出现后的关联矩阵M1
(2)新添加一行表示跟踪目标在当前帧已离开,得到目标离开后的关联矩阵M2
(3)然后分别经行和列的分类器得到行目标关联概率矩阵A1和列目标关联概率矩阵A2,初步估计出两帧中带有目标进出视频帧关联信息的各个目标之间的关联概率。
优选的,在步骤S404所述的计算过程中,利用损失函数进行损失度计算的具体过程包括:
(1)在经步骤S403得到行关联概率矩阵A1,列关联概率矩阵A2和经max计算的关联概率矩阵后,利用初步估计出来的关联概率和真实的关联矩阵Lt-n,t进行对比;
(2)通过设置的损失函数进行计算,从而反馈给初始关联概率计算阶段,让其计算结果逐渐逼近真实结果;
(3)得到不同帧目标与目标之间的相似度后,在两帧中判定为同一目标的中心点坐标之间建立线性联系,当运行测试时,这种联系会以轨迹的形式显示出来,即得到跟踪目标的轨迹Tt
优选的,步骤S404(2)所述的损失函数包括四个损失子函数,前向损失Of、后向损失Ob、一致性损失Oc和交叉损失Oa,四个损失子函数的函数模型分别为:
Figure BDA0002594666770000071
Figure BDA0002594666770000072
Figure BDA0002594666770000073
Figure BDA0002594666770000074
Figure BDA0002594666770000075
其中:L1和L2分别是去掉Lt-n,t最后一行和最后一列所得到的关联矩阵;L3是同时去掉Lt-n,t最后一行和最后一列所得到的关联矩阵;⊙代表哈达玛积,即两个同维矩阵的逐元素对应相乘的乘积;
Figure BDA0002594666770000076
将矩阵参数中的所有系数归纳为一个标量值;
Figure BDA0002594666770000077
Figure BDA0002594666770000078
表示A1,A2经列行裁剪后得到不包含目标进出视频帧的关联概率矩阵。
本发明的有益效果是:本发明公开了一种深度特征关联的多目标跟踪方法,与现有技术相比,本发明的改进之处在于:
(1)为了能够提高目标关联的性能,实现更好的多目标跟踪,本发明设计了一种深度特征关联的多目标跟踪方法,将深度特征提取器中原有的VGG及扩展网络用FPN101网络进行了替代,使网络深度更深,提取特征的语义信息更丰富,解决了网络深度不深,提取特征的语义信息不丰富的缺点;
(2)同时,本发明把Non_Local网络移植到FPN101网络中,使其关注全局信息,从而在语义信息丰富的同时能够保留更多的细节信息;
(3)本发明在考虑到平滑的网络层更加有利于特征细节的保留,改进的网络中涉及改变通道数的时候,在网络中涉及到的通道数改变的地方都是采用平滑网络,因此在使用时,不是一次性压缩到所需的通道数,而是使通道数逐渐减少至所需通道数;
(4)本发明利用重构图像时产生的重构损失进一步使特征图保留更多的细节信息,有利于提高目标关联度计算的准确性。
附图说明
图1为本发明深度特征关联的多目标跟踪方法的原理图。
图2为本发明跟踪目标深度特征提取简略流程图。
图3为本发明关联性分析流程图。
图4为本发明实施例1第1帧和第30帧的目标关联矩阵图。
其中:在图2中:每个矩形块代表一个网络块,数字为经网络块处理后输出的通道数,其中⊕代表特征图的向量和。
在图4中:(a)代表第一帧真实目标,(b)代表第30帧真实目标,(c)为虚拟目标补充后的矩阵,(d)为带有重识别功能的矩阵。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
参照附图1-4所示的一种深度特征关联的多目标跟踪方法,包括以下过程:
S1.提取原始的视频帧Vt,Vt-n,并利用目标检测器对原始视频帧进行处理,输出带有目标边界框信息集It,It-n及其目标中心点坐标信息集Ct,Ct-n,所述原始的视频帧Vt,Vt-n不必为连续的两帧,但间隔不应超过5帧(n<=5),这样做能够解决目标之间相互遮挡的问题,又避免因目标位置变化太大,出现跟踪丢失的情况,之后,对原始视频帧Vt,Vt-n利用目标检测器处理后,输出视频帧集It,It-n及其目标中心点坐标信息集Ct,Ct-n
其中:同时提取原始的视频帧Vt,Vt-n的原因是:网络需要使用视频的时空信息,而且关联肯定至少两方的参与,所以需要对连续视频帧中间隔不超过n帧的两帧视频帧进行特征提取,如果超过两帧会增加计算资源的消耗,两帧中的目标位置相对稍有变动,分别代表第t-n帧和第t帧视频帧。
S2.以往训练多目标数据集的方法,缺乏充分捕捉相机光度畸变、背景场景变化和其他实际因素的能力,所以,本发明首先对目标检测器传来的视频帧集It,It-n,结合目标中心点坐标信息集Ct,Ct-n,进行预处理,并将处理后的视频帧It和其上所有目标的中心点集合Ct,以及It-n和其上所有目标的中心点集合Ct-n输入到深度特征提取器中,其具体步骤包括:
S201.首先对视频数据集It和It-n进行光度畸变处理,以像素值尺度[0.7,1.5]范围中的一个随机值改变图片大小,接着以饱和度尺度[0.7,1.5]范围中的一个随机值转换成HSV空间,最后,以同样饱和度尺度[0.7,1.5]范围中的一个随机值,转回到RGB中;
S202.使用图像像素均值扩张帧,像素值尺度变化范围为[1,1.2];
S203.对图像进行裁剪,使裁剪像素范围在[0.8,1]之间,同时裁剪后的图像需要包含所有检测目标的中心点,形成经预处理后的跟踪数据集MOT17的检测结果;
其中:所述的跟踪数据集MOT17的检测结果包含预处理后的视频帧集It和It-n及其目标中心点坐标信息集Ct,Ct-n
S3.进行深度特征的提取,此步骤的目的是尽可能使提取的目标特征含有更多的细节信息,但又不能大幅增加计算量,最后使输出视频帧中所有目标的特征图更加适和关联度计算阶段;
故本发明对深度特征提取器的FPN网络上进行修改,使用FPN101网络作为深度特征提取器的主干网络,因为FPN是传统CNN网络对图片信息进行表达输出的一种增强,目的是为了改进CNN网络的特征提取方式,从而可以使最终输出的特征更好地表示出输入图片各个维度的信息;
同时针对改进后的FPN101网络:一是考虑到关注全局信息对特征提取的影响,Non_Local网络基于图片滤波领域的非局部均值滤波操作思想,提出了一个泛化、简单、可直接嵌入到当前网络的非局部操作算子,可以捕获时间(一维时序信号)、空间(图片)和时空(视频序列)的长范围依赖,而且,非局部操作计算效率很高,要达到同等效果,只需要更少的堆叠层,另外,非局部操作可以保证输入尺度和输出尺度不变,这种设计可以很容易嵌入到目前的网络架构中,基于此,本文在FPN101网络中添加了具有很好移植性的non_local网络;二是考虑到平滑的网络层更加有利于特征细节的保留,改进的FPN101网络中涉及改变通道数的时候,不是一次性压缩到所需的通道数,而是使通道数逐渐减少至所需通道数,所述涉及平滑处理的网络层包括latlayer,toplayer和压缩网络;三是利用反卷积产生的重构图对比原图产生的重构损失,用于特征提取中保留目标更多的细节特征,因此在在FPN101网络中设置反卷积层;
其中:所述网络中的latlayer,toplayer网络块和压缩网络都是做了平滑处理;
本深度特征提取步骤的具体过程是:在深度特征提取器中选取特定的6层输出到1×1卷积核进行通道数的缩减,组成含有512个通道数的特征集合Ft和Ft-n,具体过程如下(如图2所示):
S301.将预处理后的包含所有目标中心点坐标的Ct和Ct-n以及视频帧集It和It-n一同输入到FPN101网络中,进行特征提取;
S302.利用latlayer、toplayer网络块、conv2和max2d得到特定的6层特征,并利用1×1卷积核将扩增后的6层特征通道数进行缩减;
S303.将S302中的输出6层特征进行线性拼接,得到含有512个通道数的特征集合Ft和Ft-n
其中:所述Ft和Ft-n就是Nm个目标的此种特征图组成,大小为Nm×512。
S4.关联性分析
将S3得到的大小为512×Nm的特征矩阵Ft和Ft-n进行关联性分析,运用相似性矩阵结合前向损失、后向损失、一致性损失、交叉损失,四个损失子函数共同得出两帧之间目标的关联度,进而得到跟踪目标的轨迹Tt,其具体过程包括(如图3所示):
S401.将经深度特征提取阶段处理所有目标后得到的特征矩阵Ft和Ft-n进行组合,得到1024×Nm×Nm的特征矢量Ψ(t-n,t);
S402.然后经过压缩矩阵网络对特征矢量Ψ(t-n,t)进行压缩,得到Nm×Nm大小的关联矩阵M,图表1所示:
表1压缩网络详细信息
Figure BDA0002594666770000121
S403.经分类器处理后得到初步的关联概率矩阵A,所述关联概率矩阵A包含行关联概率矩阵A1,列关联概率矩阵A2和经max计算的关联概率矩阵;
S404.然后结合视频帧中目标间真实的关联度矩阵Lt-n,t,利用损失函数进行损失度计算,计算出最终的目标之间的关联度;
其中:Nm表示视频帧中可跟踪目标的最大数目,Lt-n,t大小是(Nm+1)×(Nm+1)。
在步骤S403中:考虑到在进行多目标的跟踪过程中,肯定存在跟踪对象离开当前帧和新的目标进入当前帧的情况,由图3容易看出:(1)本发明在关联矩阵M的基础上分别新添加一列表示跟踪目标的进入当前帧(前面帧没有目标,当前帧有,为跟踪新目标),得到M1;(2)新添加一行表示跟踪目标在当前帧已离开(前面帧有,当前帧没有),得到M2;(3)然后分别经行和列的分类器得到行目标关联概率矩阵A1和列目标关联概率矩阵A2,初步估计出两帧中带有目标进出视频帧关联信息的各个目标之间的关联概率。
在步骤S404中:(1)经步骤S403得到了行关联概率矩阵A1,列关联概率矩阵A2和经max计算的关联概率矩阵,初步估计出来的关联概率会和真实的关联矩阵Lt-n,t进行对比;(2)通过设置的损失函数进行计算,从而反馈给初始关联概率计算阶段,让其计算结果逐渐逼近真实结果;(3)得到不同帧目标与目标之间的相似度后,在两帧中判定为同一目标的中心点坐标之间建立线性联系,当运行测试时,这种联系会以轨迹的形式显示出来,即得到跟踪目标的轨迹Tt
这里设置了四个损失子函数,前向损失Of:激励从Lt-n到Lt的正确关联;后向损失Ob:激励从Lt到Lt-n的正确关联;一致性损失Oc:拒绝Of与Ob之间的任何不同;交叉损失Oa:抑制非极大值前向或后向关联度预测,所述四个损失子函数的函数模型为:
Figure BDA0002594666770000131
Figure BDA0002594666770000132
Figure BDA0002594666770000141
Figure BDA0002594666770000142
Figure BDA0002594666770000143
其中:L1和L2分别是去掉Lt-n,t最后一行和最后一列所得到的关联矩阵;L3是同时去掉Lt-n,t最后一行和最后一列所得到的关联矩阵;⊙代表哈达玛积,即两个同维矩阵的逐元素对应相乘的乘积;
Figure BDA0002594666770000144
将矩阵参数中的所有系数归纳为一个标量值;
Figure BDA0002594666770000145
Figure BDA0002594666770000146
表示A1,A2经列行裁剪后得到不包含目标进出视频帧的关联概率矩阵。
实施例1
利用本实施例,对目标出现和离开的计算原理进行进一步的说明:
图4中Nm=5,代表一帧中最多有5个追踪目标,所以有一个5行5列的矩阵,为介绍方便,行中数字代表第30帧所有目标编号,列中数字代表第一帧所有目标编号,且相同目标编号一致;但第1帧和第30帧都只有4个对象,所以(c)中用X补全矩阵,可以看到不同帧同一目标交点数值为1,其余为0;(d)中的
Figure BDA0002594666770000147
用来表示目标进出视频帧,拿本例子来说,最后一行第一列为1代表目标5进入第30帧,最后一列倒数第二行为1代表目标4在第1帧存在但在第30帧已离开;(d)中行列式去掉最后一行即为A1的样式,去掉最后一列即为A2的样式。
实施例2:利用本实施例对改进后的FPN101网络的计算原理进行进一步的说明:相比于随着VGG网络的加深,一些小目标的信息可能会丢失,FPN则用来解决物体检测中多尺度的问题,是在ResNet网络的基础上进行的改进,采用了自顶向下及横向连接的方式,用来增加底层的语义信息,生成表达能力更强的特征图,以用来计算下一阶段计算机视觉任务;目前来看,FPN最常用于多目标检测及目标分割方向,用于多目标跟踪方向的很少,但其出色的特征提取能力正适合于本发明中多目标关联的特征提取阶段;
(1)下面将在FPN在目标检测方向的实验数据来反映FPN强大的特征提取能力;得到的实验数据对比如表2所示:
表2 FastR_CNN添加FPN前后对比
Figure BDA0002594666770000151
由表2可以看出,添加FPN后Fast R-CNN特征维度由1024减少到256维(这样可以大大的减少一些运算量,包括前向和反向运算);训练时间由原来的44.6小时减少到现在的10.6小时,速度提升了4倍;推理时间由原来的0.32s减少到现在的0.15s,最后其精确度提升了2个百分点。主要原因就是通过FPN获得了更加鲁棒的高层语义特征,这一优点用于多目标跟踪也将会提升目标跟踪的性能;
(2)与VGG-16作为主干网络对比实验结果,如表3所示:
表3与VGG-16作为主干网络对比实验结果
Figure BDA0002594666770000161
由表3可容易看出,在COCO不同数据集上实验结果表明,使用了FPN以ResNet为主干网络的方法在平均精度上相比以VGG-16为主干网络的方法有了很大的提升,尤其是在小物体的检测APs指标上。
综合上述两个实施例的结果均表明,本发明所设计的深度关联的多目标跟踪方法相比现有的跟踪方法具有能够提高目标关联的性能,实现更好的多目标跟踪、提取语义信息丰富的同时能够保留更多的细节信息、可以保留更多的特征细节、追踪准确性高的优点。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种深度特征关联的多目标跟踪方法,其特征在于:包括以下过程:
S1.提取原始的视频帧Vt,Vt-n,并利用目标检测器对原始视频帧进行处理,输出视频帧集It,It-n,及其目标中心点坐标信息集Ct,Ct-n
步骤S1所述的原始的视频帧Vt,Vt-n不必为连续的两帧,且间隔不超过5帧;
S2.对目标检测器传来的视频帧集It,It-n,结合目标中心点坐标信息集Ct,Ct-n,进行预处理,并将处理后的视频帧It和其上所有目标的中心点集合Ct,以及It-n和其上所有目标的中心点集合Ct-n输入到深度特征提取器中;
步骤S2所述的预处理的具体过程包括:
S201.首先对视频数据集It和It-n进行光度畸变处理,以像素值尺度[0.7,1.5]范围中的一个随机值改变图片大小,接着以饱和度尺度[0.7,1.5]范围中的一个随机值转换成HSV空间,最后,以同样饱和度尺度[0.7,1.5]范围中的一个随机值,转回到RGB中;
S202.使用图像像素均值扩张帧,像素值尺度变化范围[1,1.2];
S203.对图像进行裁剪,裁剪像素尺度范围在[0.8,1]之间,同时裁剪后的图像需要包含所有检测目标的中心点,形成经预处理后的跟踪数据集MOT17的检测结果;
其中:所述的跟踪数据集MOT17的检测结果包含预处理后的视频帧集It和It-n及其目标中心点坐标信息集Ct,Ct-n
S3.在深度特征提取器中选取特定的6层的输出到1×1卷积核进行通道数的缩减,组成含有512个通道数的特征集合Ft和Ft-n
步骤S3所述的在深度特征提取器中选取特定的6层的输出到1×1卷积核进行通道数缩减,组成含有512个通道数的特征集合Ft和Ft-n的具体步骤包括:
S301.将预处理后的包含所有目标中心点坐标的Ct和Ct-n以及视频帧集It和It-n一同输入到FPN101网络中,进行特征提取;
S302.利用latlayer、toplayer网络块、conv2d和max2d得到特定的6层特征,并利用1×1卷积核将扩增后的6层特征通道数进行缩减;
所述利用latlayer、toplayer网络块、conv2d和max2d得到特定的6层特征的过程包括:
(1)输入图像;
(2)经过layers网络将图像的目标检测框的通道维度由3变为64,再经过依次连接的layer1、layer2、layer3、layer4网络处理后目标检测框各层特征的通道维度分别变为256、512、1024和2048;
其中:layerl、layer2、layer3、layer4之后还分别连接latlayer1、 latlayer2、latlayer3、toplayer;
(3)对layer4层获得的特征用toplayer网络块处理,一方面,所述经toplayer网络块处理的特征经conv2d处理后进入Selector5,所述经conv2d处理的特征经max2d处理后进入Selector6;
(4)另一方面,经过toplayer网络块处理后的特征直接进入Selector4进行处理;同时,经toplayer网络块处理后的特征与latlayerl模块处理的特征进行融合,以进入Selector3;经latlayer2模块处理的特征与Selector3进行融合,以进入Selector2;经latlayerl模块处理的特征与Selector2进行融合,以进入Selectorl;
S303.将S302中的输出6层特征进行线性拼接,得到含有512个通道数的特征集合Ft和Ft-n
其中:所述Ft和Ft-n就是Nm个目标的此种特征图组成,大小为Nm×512;
在所述的深度特征提取器中:
(1)主干网络使用FPN101网络,且在所述FPN101网络中嵌入Non_Local网络,以及在网络后面添加反卷积网络,得到重构图,用以计算重构损失;
(2)在FPN101网络中设置有平滑网络层,涉及通道数改变的地方,均利用平滑网络层作平滑处理;
S4.将S3得到的大小为512×Nm的特征矩阵Ft和Ft-n进行关联性分析,运用相似性矩阵结合损失子函数共同得出两帧之间目标的关联度,进而得到跟踪目标的轨迹Tt
2.根据权利要求1所述的一种深度特征关联的多目标跟踪方法,其特征在于:步骤S4所述的关联性分析的过程为:
S401.将经深度特征提取阶段处理所有目标后得到的特征矩阵Ft和Ft-n进行组合,得到1024×Nm×Nm的特征矢量Ψ(t-n,t);
S402.利用压缩网络对特征矢量Ψ(t-n,t)进行压缩,得到Nm×Nm大小的关联矩阵M;
S403.经分类器处理后得到初步的关联概率矩阵A,所述关联概率矩阵A包含行关联概率矩阵A1,列关联概率矩阵A2和经max计算的关联概率矩阵;
S404.然后结合视频帧中目标间真实的关联度矩阵Lt-n,t,利用损失函数进行损失度计算,计算出最终的目标之间的关联度,进而得到跟踪目标的轨迹Tt
其中:Nm表示视频帧中可跟踪目标的最大数目,Lt-n,t大小是(Nm+1)×(Nm+1)。
3.根据权利要求2所述的一种深度特征关联的多目标跟踪方法,其特征在于:步骤S403所述的经分类器处理后得到初步的关联概率矩阵A的计算过程考虑了目标的出现和离开,其具体过程包括:
(1)在关联矩阵M的基础上分别新添加一列表示跟踪目标的进入当前帧,得到目标出现后的关联矩阵M1
(2)新添加一行表示跟踪目标在当前帧已离开,得到目标离开后的关联矩阵M2
(3)然后分别经行和列的分类器得到行目标关联概率矩阵A1和列目标关联概率矩阵A2,初步估计出两帧中带有目标进出视频帧关联信息的各个目标之间的关联概率。
4.根据权利要求3所述的一种深度特征关联的多目标跟踪方法,其特征在于:步骤S404所述的利用损失函数计算跟踪目标的轨迹Tt的过程包括:
(1)在经步骤S403得到行关联概率矩阵A1,列关联概率矩阵A2和经max计算的关联概率矩阵后,利用初步估计出来的关联概率和真实的关联矩阵Lt-n,t进行对比;
(2)通过设置的损失函数进行计算,从而反馈给初始关联概率计算阶段,让其计算结果逐渐逼近真实结果;
(3)得到不同帧目标与目标之间的相似度后,在两帧中判定为同一目标的中心点坐标之间建立线性联系,当运行测试时,这种联系会以轨迹的形式显示出来,即得到跟踪目标的轨迹Tt
5.根据权利要求4所述的一种深度特征关联的多目标跟踪方法,其特征在于:步骤S404(2)所述的损失函数包括四个损失子函数,前向损失Of、后向损失Ob、一致性损失Oc和交叉损失Oa,四个损失子函数的函数模型分别为:
Figure FDA0003861808060000041
Figure FDA0003861808060000042
Figure FDA0003861808060000043
Figure FDA0003861808060000044
Figure FDA0003861808060000051
其中:L1和L2分别是去掉Lt-n,t最后一行和最后一列所得到的关联矩阵;L3是同时去掉Lt-n,t最后一行和最后一列所得到的关联矩阵;⊙代表哈达玛积,即两个同维矩阵的逐元素对应相乘的乘积;∑将矩阵参数中的所有系数归纳为一个标量值;
Figure FDA0003861808060000052
Figure FDA0003861808060000053
表示A1,A2经列行裁剪后得到不包含目标进出视频帧的关联概率矩阵。
CN202010705694.4A 2020-07-21 2020-07-21 一种深度特征关联的多目标跟踪方法 Active CN111882581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010705694.4A CN111882581B (zh) 2020-07-21 2020-07-21 一种深度特征关联的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010705694.4A CN111882581B (zh) 2020-07-21 2020-07-21 一种深度特征关联的多目标跟踪方法

Publications (2)

Publication Number Publication Date
CN111882581A CN111882581A (zh) 2020-11-03
CN111882581B true CN111882581B (zh) 2022-10-28

Family

ID=73156317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010705694.4A Active CN111882581B (zh) 2020-07-21 2020-07-21 一种深度特征关联的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN111882581B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330718B (zh) * 2020-11-12 2022-08-23 重庆邮电大学 一种基于cnn的三级信息融合视觉目标跟踪方法
CN113343795B (zh) * 2021-05-24 2024-04-26 广州智慧城市发展研究院 一种目标关联视频追踪处理方法
CN113762231B (zh) * 2021-11-10 2022-03-22 中电科新型智慧城市研究院有限公司 端对端的多行人姿态跟踪方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764063A (zh) * 2018-05-07 2018-11-06 华中科技大学 一种基于特征金字塔的遥感影像时敏目标识别系统及方法
CN110084124A (zh) * 2019-03-28 2019-08-02 北京大学 基于特征金字塔网络的特征增强目标检测方法
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN111325279A (zh) * 2020-02-26 2020-06-23 福州大学 一种融合视觉关系的行人与随身敏感物品跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764063A (zh) * 2018-05-07 2018-11-06 华中科技大学 一种基于特征金字塔的遥感影像时敏目标识别系统及方法
CN110084124A (zh) * 2019-03-28 2019-08-02 北京大学 基于特征金字塔网络的特征增强目标检测方法
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN111325279A (zh) * 2020-02-26 2020-06-23 福州大学 一种融合视觉关系的行人与随身敏感物品跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Deep Affinity Network for Multiple Object Tracking";ShiJie Sun et al.;《arxiv》;20190716;第1-15页 *

Also Published As

Publication number Publication date
CN111882581A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111882581B (zh) 一种深度特征关联的多目标跟踪方法
CN110570458B (zh) 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN113240691B (zh) 一种基于u型网络的医学图像分割方法
CN111260661B (zh) 一种基于神经网络技术的视觉语义slam系统及方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN111027505B (zh) 一种基于显著性检测的分层多目标跟踪方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN111652081A (zh) 一种基于光流特征融合的视频语义分割方法
CN112651423A (zh) 一种智能视觉系统
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
CN116129289A (zh) 一种注意力边缘交互的光学遥感图像显著性目标检测方法
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
Wu et al. Scene completeness-aware lidar depth completion for driving scenario
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN116051950A (zh) 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测
CN115512263A (zh) 一种面向高空坠物的动态视觉监测方法及装置
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
Zhu et al. A Pose Estimation Method in Dynamic Scene with Yolov5, Mask R-CNN and ORB-SLAM2
CN114155273B (zh) 一种结合历史轨迹信息的视频图像单目标跟踪方法
CN117474801B (zh) 一种融合时空频信息的非均匀遥感视频影像去雾方法
CN117557782B (zh) 一种多尺度特征融合和边界信息注意的视频显著目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231215

Address after: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee after: Shenzhen lizhuan Technology Transfer Center Co.,Ltd.

Address before: 266061 Qingdao University of Science & Technology, 99 Songling Road, Laoshan District, Qingdao, Shandong

Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY

Effective date of registration: 20231215

Address after: No. 30316, 3rd Floor, Acceleration Building, Jiangdong E-commerce Industrial Park, No. 86 Qiongshan Avenue, Lingshan Town, Meilan District, Haikou City, Hainan Province, 570100

Patentee after: Hangxing Technology (Hainan) Co.,Ltd.

Patentee after: Liang Guoxing

Address before: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee before: Shenzhen lizhuan Technology Transfer Center Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240205

Address after: Room 801, 7th Floor, Building 3, No. 128 South Fourth Ring West Road, Fengtai District, Beijing, 100000

Patentee after: BEIJING ZHONGKE HANGXING TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: No. 30316, 3rd Floor, Acceleration Building, Jiangdong E-commerce Industrial Park, No. 86 Qiongshan Avenue, Lingshan Town, Meilan District, Haikou City, Hainan Province, 570100

Patentee before: Hangxing Technology (Hainan) Co.,Ltd.

Country or region before: China

Patentee before: Liang Guoxing