CN112001225B - 一种在线多目标跟踪方法、系统及应用 - Google Patents

一种在线多目标跟踪方法、系统及应用 Download PDF

Info

Publication number
CN112001225B
CN112001225B CN202010642053.9A CN202010642053A CN112001225B CN 112001225 B CN112001225 B CN 112001225B CN 202010642053 A CN202010642053 A CN 202010642053A CN 112001225 B CN112001225 B CN 112001225B
Authority
CN
China
Prior art keywords
matrix
target
feature
frame
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010642053.9A
Other languages
English (en)
Other versions
CN112001225A (zh
Inventor
李洁
王飞
陈威
续拓
刘学文
张翔宇
焦群翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010642053.9A priority Critical patent/CN112001225B/zh
Publication of CN112001225A publication Critical patent/CN112001225A/zh
Application granted granted Critical
Publication of CN112001225B publication Critical patent/CN112001225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉与深度学习技术领域,公开了一种在线多目标跟踪方法、系统及应用,将视频当前帧图像输入到卷积神经网络中;在卷积神经网络中卷积后,对不同目标在不同通道特征图上的特征进行提取;融合所提取到的特征为一个特征矩阵;将视频下一帧图像输入,重复上述步骤得到该帧的特征矩阵;将当前帧的特征矩阵与之前得到的前n(1≤n≤30)帧特征矩阵进行数据关联操作;将数据关联操作后的结果利用改进后的匈牙利算法实现目标之间的正确跟踪,实现多目标跟踪方法。根据实验结果,本发明的在线多目标跟踪方法有效提高了跟踪准确度,且在复杂场景下也有很好的鲁棒性。

Description

一种在线多目标跟踪方法、系统及应用
技术领域
本发明属于计算机视觉与深度学习技术领域,尤其涉及一种在线多目标跟踪方法、系统及应用。
背景技术
随着人工智能科技的不断发展,越来越多的科学技术得到了大幅度更新,例如计算机视觉,现在主流的方法都是端到端的利用卷积神经网络提取图像特征并利用特征实现下一步如分类检测等任务。要做的多目标跟踪也是如此,充分利用卷积神经网络的特征,实现对检测目标的跟踪与标定。多目标跟踪技术在无人机,自动驾驶,运动分析,教育等领域有着显著的应用。在线多目标跟踪技术有着几十年的发展历史,其主要任务是对不同帧中的目标建立联系,实现跨帧的跟踪多个目标并绘制其运动轨迹。随着深度学习的发展,计算机视觉领域诸多任务的性能有了明显的提升,但是对于多目标跟踪来说,由于其复杂的场景,目标个数的多变,多目标之间频繁的遮挡以及目标的复杂运动等情况,多目标跟踪任务的精度依然差强人意。
目前,主流的多目标跟踪方法主要分为两大类,第一种是对多目标的位置进行预测再数据关联,对多目标特征进行提取再数据关联。两种方法虽然都需要数据关联的操作,但是第一步任务有所不同,通常使用传统方法对目标未来帧中位置的预测,而使用深度学习中的卷积神经网络来提取目标特征并在当前帧数据关联。这样做原因在于传统方法对目标特征的提取主要依靠人工标定,这样提取到的特征可解释性好,但是效果很差。而深度学习中卷积神经网络的特征提取能力很强,因此可以有效的提取到目标的大部分特征并利用该特征做数据关联操作。
由Zhu,J.等人于2018年发表于ECCV上的《Online Multi-Object Tracking withDual Matching Attention Networks.》(以下简称DMAN)是使用传统方法做多目标跟踪的典型算法,作者利用改善后的ECO跟踪器训练出所需要的滤波器,再加之双注意力机制对目标进行预测从而实现多目标跟踪。DMAN算法理论虽然完善,但是实验结果并不优秀,以后会有更多的改进空间。
申请公开号为CN110288627A的名为一种基于深度学习和数据关联的在线多目标跟踪方法的发明专利,该方法主要利用了深度余弦度量学习模型来提取外观特征,进一步利用卡尔曼滤波算法来预测目标位置,最后使用数据关联得到跟踪结果。该方法结合了深度学习及传统算法两者的优势实现跟踪算法,虽然巧妙的结合了预测与特征提取两个主要方法来解决多目标跟踪的难题,但是由于使用了卡尔曼滤波会存在跟踪速度慢的缺点。
通过上述分析,现有技术存在的问题及缺陷为:传统方法对目标特征的提取主要依靠人工标定,提取到的特征效果很差,跟踪精度较低;深度学习的方法处于起步阶段,会存在实时跟踪能力弱、跟踪目标漂移等问题。
解决以上问题及缺陷的难度为:目标跟踪中的最常见难点就是遮挡问题。造成遮挡的原因有很多,比如目标在运动中被静止的物体遮挡,或者被另一个目标遮挡。遮挡的程度也不尽相同,可能是目标完全被遮挡消失,也可能目标部分特征被遮挡。目标在被遮挡的过程与离开遮挡物体的过程是目标慢慢消失与消失后再出现的过程,如何处理这两种过程,就是解决遮挡问题难点的方法。目标跟踪的第二个难点就是背景的复杂度,目标所处场景不可能是单一且长期不发生改变的,随着目标从光线暗到光线明的场景,从背景颜色深到颜色浅的场景,算法都是需要进行适应并渐渐改变所提取的特征点,这样才能保证算法的鲁棒性。
解决以上问题及缺陷的意义为:多目标跟踪技术在学术领域与工程应用中,都有着十分重要的研究地位与价值,尤其在公共安全、国防安全、智慧城市、自动驾驶等领域有着重要意义,这足以说明改进和提升多目标跟踪算法性能意义重大。
发明内容
针对现有技术存在的问题,本发明提供了一种在线多目标跟踪方法、系统及应用。
本发明是这样实现的,一种在线多目标跟踪方法,所述在线多目标跟踪方法包括:
将视频图像当前帧t输入卷积神经网络中;
对卷积神经网络中的特征图进行再次卷积,进一步泛化特征,然后根据目标在原图中的位置等比例在特征图中找到相应位置,提取目标特征;
将从不同通道中提取出来的特征拼接并融合,得到当前帧t的全部目标融合后的特征矩阵;
将当前帧t的特征矩阵与前t-n(1≤n≤30)帧的特征矩阵进行数据关联操作,找到相似度最匹配的检测;
利用改进后的匈牙利算法对数据关联后的关联矩阵进行目标匹配同时最终轨迹进行在线更新。
进一步,所述在线多目标跟踪方法将待检测视频帧图像输入到卷积神经网络中,进行卷积操作提取特征,提取特征包括:
(1)使用的卷积神经网络共有16层,分别在3、6、9、12、14、15、16层实现残差拼接操作,其中y表示得到的特征,xn表示第n层输入的特征,n=3、6、9、12、14、15、16,F表示残差拼接操作,公式为:
y=F(xn)+xn
对提取到的特征进一步泛化;
(2)根据每一帧的目标m,有其基于原图的坐标(xm,ym,wm,hm),其中xm,ym表示目标m的左上角坐标位置,wm,hm表示目标边界框的宽和高,那么,当前卷积层大小是原卷积层的
Figure BDA0002571857660000031
倍,那么,现在的目标边界框坐标为/>
Figure BDA0002571857660000032
(3)采用ROI align的方法将目标边界框坐标映射到当前层特征图上,ROIalign取消了量化操作,对于量化中产生的坐标为浮点数的像素,利用双线性插值计算其像素值,
进一步,所述在线多目标跟踪方法的不同通道中特征融合方法包括:
(1)将ROI align后得到的每一个卷积层卷积之后的特征进行拉伸操作,拉伸操作是将原来的三维矩阵转换成二维矩阵,即Xw×h×n的矩阵拉伸成Xm×n,其中m=w×h;
(2)对于一层卷积得到了一个Xm×n特征,对所有7个通道都进行特征矩阵拉伸操作,得到了7个Xm×n特征矩阵;
(3)对于这样的7个Xm×n特征矩阵,对其进行拼接操作,将7个Xm×n特征矩阵,从第一个到最后一个横向排列,得到当前目标的大特征矩阵Xr×n,其中r=m×7;
(4)对于一个目标将其从7个通道提取出来的所有特征进行融合,得到了Xr×n的特征矩阵,特征矩阵融合该目标在不同通道上的不同特征,将当前帧所有目标的Xr×n二维特征矩阵融合成Xr×d×n的全部目标的特征矩阵,其中d是当前帧的目标个数。
进一步,所述将当前帧t的特征矩阵与前t-n(1≤n≤30)帧的特征矩阵进行数据关联操作,找到相似度最匹配的检测包括:
(1)将当前帧特征提取与融合的矩阵储存为特征矩阵,对视频中所有帧都进行这样的操作,储存特征矩阵;
(2)将当前帧的特征矩阵与前n(1≤n≤30)帧的特征矩阵进行矩阵运算,具体操作为:首先将
Figure BDA0002571857660000041
的第一层平面扩展成与前n(1≤n≤30)帧中某一帧大小相同的矩阵/>
Figure BDA0002571857660000042
进行相似度比对操作,当前帧特征矩阵,l表示矩阵的第一维度即矩阵的长,w表示矩阵的第二维度即矩阵的宽,h表示矩阵的第三维度即矩阵的高;公式如下:
Yn=(X′n-Xp)2
Yn是当前帧第一个检测目标与第前n(1≤n≤30)帧特征矩阵的相似度比较;
(3)对Yn进行降维操作,使得检测得到的数值为一个具体数值,具体操作为:对Yn进行降维操作,计算Yn每一个平面上的平均值,得到一维数组;该数组上的某一个数越小,意味着这个数是当前帧第一个目标与第前n(1≤n≤30)帧的某一个目标越相近;
(4)重复第(2),(3)步,将第(2)步的第一个平面改为第二个平面再进行扩展操作,也得到了一个数组,其含义在第(3)步已经解释,将该帧所有目标进行比对后的所有数组拼接成一个二维矩阵。
进一步,采用了改进后的匈牙利算法对步骤四的结果进行数据关联,得到更精准的跟踪结果,包括:
(1)由得到的是一个二维矩阵,其横向每一排代表当前检测的第一个目标与之前存在的所有目标的相似度大小,数值越大则更有把握说明当前检测目标就是之前检测目标的跟踪结果;先对这个矩阵每一列取最大值并记录;
(2)若每列的最大值对应的行数都不相同,那么可以直接得出结果,令最大值的列数为每一行目标的跟踪结果。若有某俩或三列等的最大值行数都相同,那么证明有一个目标可能特征与之前帧的某几个目标的特征类似,那么,取相似度最大的检测为该行的跟踪结果,并删去相似度小的检测的最大值,进而去找其第二大的值;
(3)再次重复(2)步骤,直到每一行都有不同的最大值为止。若当前帧出现新目标,与之前所有帧的相似度都较低,在比较前设置阈值,若超过阈值在进行(2)步骤,若一整行都未超过阈值,则标其为新检测。
本发明的另一目的在于提供一种运行所述在线多目标跟踪方法的在线多目标跟踪系统,所述在线多目标跟踪系统包括:
视频输入模块,用于将视频当前帧图像输入到卷积神经网络中;
特征提取模块,用于在卷积神经网络中卷积后,对不同目标在不同通道特征图上的特征进行提取;
特征矩阵处理模块,用于融合所提取到的特征为一个特征矩阵;将视频下一帧图像输入,重复得到该帧的特征矩阵;
数据关联模块,用于将当前帧的特征矩阵与之前得到的前n帧特征矩阵进行数据关联操作;
目标跟踪模块,用于将数据关联操作后的结果利用改进后的匈牙利算法实现目标之间的正确跟踪,实现多目标跟踪方法。
本发明的另一目的在于提供一种无人机,所述无人机在线多目标跟踪系统安装有所述的在线多目标跟踪系统。
本发明的另一目的在于提供一种自动驾驶系统,所述自动驾驶系统在线多目标跟踪系统安装有所述的在线多目标跟踪系统。
本发明的另一目的在于提供一种运动分析系统,所述运动分析系统在线多目标跟踪系统安装有所述的在线多目标跟踪系统。
本发明的另一目的在于提供一种教育控制系统,所述教育控制系统在线多目标跟踪系统安装有所述的在线多目标跟踪系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明充分使用卷积神经网络内部特征的在线多目标跟踪方法,通过对卷积神经网络中的多通道特征的提取与融合,实现对当前帧的所有目标与之前帧中的目标建立联系,对视频中多个目标进行跟踪。
本发明提出了一种基于卷积神经网络中多通道特征提取与融合的在线多目标跟踪方法。本发明充分的利用了卷积神经网络中不同通道下的不同特征图的特征,对特征进行提取与融合,从而得到能描述物体特征的有效特征矩阵。进一步,对融合后的特征矩阵采用改进后的匈牙利算法进行数据关联操作,能有效的将不同帧中的不同目标准确的关联在一起,从而实现多目标跟踪的任务。本发明对目标消失后再出现,目标部分遮挡以及目标的复杂运动等情况有较高的关联准确率,同时也有着较强的鲁棒性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的在线多目标跟踪方法流程图。
图2是本发明实施例提供的在线多目标跟踪系统的结构示意图;
图2中:1、视频输入模块;2、特征提取模块;3、特征矩阵处理模块;4、数据关联模块;5、目标跟踪模块。
图3是本发明实施例提供的在线多目标跟踪方法实现流程图。
图4是本发明实施例提供的输入输出整体框架图。
图5是本发明实施例提供的残差拼接操作图。
图6是本发明实施例提供的数据关联演示图。
图7是本发明实施例提供的MOT数据集跟踪结果展示图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种在线多目标跟踪方法、系统及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的在线多目标跟踪方法包括以下步骤:
S101:将视频当前帧图像输入到卷积神经网络中;
S102:在卷积神经网络中卷积后,对不同目标在不同通道特征图上的特征进行提取;
S103:融合所提取到的特征为一个特征矩阵;将视频下一帧图像输入,重复上述步骤得到该帧的特征矩阵;
S104:将当前帧的特征矩阵与之前得到的前n帧特征矩阵进行数据关联操作;
S105:将数据关联操作后的结果利用改进后的匈牙利算法实现目标之间的正确跟踪,实现多目标跟踪方法。
本发明提供的在线多目标跟踪方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的在线多目标跟踪方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的在线多目标跟踪系统包括:
视频输入模块1,用于将视频当前帧图像输入到卷积神经网络中;
特征提取模块2,用于在卷积神经网络中卷积后,对不同目标在不同通道特征图上的特征进行提取;
特征矩阵处理模块3,用于融合所提取到的特征为一个特征矩阵;将视频下一帧图像输入,重复上述步骤得到该帧的特征矩阵;
数据关联模块4,用于将当前帧的特征矩阵与之前得到的前n帧特征矩阵进行数据关联操作;
目标跟踪模块5,用于将数据关联操作后的结果利用改进后的匈牙利算法实现目标之间的正确跟踪,实现多目标跟踪方法。
下面结合附图对本发明的技术方案作进一步的描述。
本发明提供的在线多目标跟踪方法包括以下步骤:
将视频图像当前帧t直接输入卷积神经网络中;
对卷积神经网络中的特征图进行再次卷积,进一步泛化特征。然后根据目标在原图中的位置等比例在特征图中找到相应位置,提取目标特征;
将从不同通道中提取出来的特征拼接并融合,得到当前帧t的全部目标融合后的特征矩阵;
将当前帧t的特征矩阵与前t-n(1≤n≤30)帧的特征矩阵进行数据关联操作,找到相似度最匹配的检测;
利用改进后的匈牙利算法对数据关联后的关联矩阵进行目标匹配同时最终轨迹进行在线更新。
如图3所示,本发明实施例提供的基于卷积神经网络多通道特征提取与融合的在线多目标跟踪方法具体包括以下步骤:
步骤一,构建多通道卷积神经网络用于特征提取:
考虑到要充分提取目标的特征与背景信息,为行人的多目标跟踪构建基于深度学习的卷积神经网络,网络模型结构示意图如图4所示。
图4左下角是待跟踪图像的输入,同时还会输入图像中目标的坐标(xm,ym,wm,hm),图2的右下角是图像的输出,还有目标框与之前目标的匹配输出。中间部分就是卷积神经网络的卷积部分,这里使用了13层全卷积层与8层全卷积层的组合,从这21层中提取8层不同通道的不同特征,依次为依据做数据关联操作。
步骤二,利用构建的模型提取多通道特征:为了得到更好的泛化特征,本发明在21层卷积神经网络的基础之上对不同层(3、6、9、12、15、19、20、21层)进行进一步卷积,将不同通道的不同特征通过进一步卷积操作,泛化出本发明需要的简化特征。同时,为了保证网络反向传播能够顺利进行,本发明在网络中使用了图5所示的残差拼接模块,使得信息反向传播时不会出现梯度弥散的情况。残差拼接的公式如下:
y=F(xn)+xn
经过残差拼接的卷积层之后,可以得到不同通道的特征,这些特征若用于计算会出现数据爆炸,所以这里本发明为了减少计算量,对目标的多通道特征采用了ROI align的下采样操作,同时将不同特征进行融合,为后续的操作提供更好的基础。ROI align的方法是将目标边界框坐标映射到当前层特征图上,ROIalign取消了量化操作,对于量化中产生的坐标为浮点数的像素,利用双线性插值计算其像素值。双线性插值指的是有两个变量的插值函数的线性插值扩展,其具体操作在图中右上角显示。其公式如下:
假设本发明想知道函数f在点P=(x,y)的值,已知的是函数f在四个点Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)与Q22=(x2,y2)的值,那么使用双线性插值即可计算出P=(x,y)位置处的值。方法如下:
首先计算在x方向上的线性插值,得到:
Figure BDA0002571857660000101
Figure BDA0002571857660000102
在y方向的线性插值为:
Figure BDA0002571857660000103
同理,最后要求出f(x,y),其方法与上述类似。
使用双线性插值方法可以对特征进行下采样,将冗余的特征信息去除,提取出目标特征的信息主干,减少计算量的同时增加了跟踪精度。
步骤三,卷积神经网络的训练:
框架搭建完成之后需要对框架模型进行训练,训练本发明采用的是MOT17数据集,该数据集是大型的行人行驶场景数据集。本发明使用步骤一中搭建好的网络模型,输入是MOT17数据集的图像与标注目标的坐标框(xm,ym,wm,hm),经过前向传播提取目标的特征并融合得到特征矩阵进行存储,同时利用当前帧与前n的目标特征进行比对,在反向传播时,为了让相同的目标相似度更加高而修改卷积层的卷积参数。本发明的最小化目标函数的公式如下:
Figure BDA0002571857660000104
本发明公式由两部分组成分别是Dice系数与L2损失函数。Dice系数是分割上常用的损失函数,其具体计算方法如下:
Figure BDA0002571857660000111
其中A和B是两个不同的矩阵,表示着真实的相似度与预测的相似度对比,A和B矩阵统一证明本发明的算法有效。
L2损失函数是常用的损失函数之一,其核心思想是计算两个矩阵之间的距离,其公式为:
Figure BDA0002571857660000112
在模型训练过程中,本发明使用了SGD(随机梯度下降法)算法进行梯度反向传播,BATCH_SIZE设为4,学习率为0.0001,训练的epoch为100。
步骤四,利用网络实现行人多目标跟踪:
训练结束之后需要使用网络实现多目标跟踪,输入图像数据与目标检测框,输出跟踪结果。网络主要的作用是实现对图像的特征提取与融合操作。将目标的特征融合为特征矩阵之后,保存到内存之中,下一帧图像也进行特征提取与融合,同时与上一帧的特征矩阵进行比较,输出相似度比较矩阵。使用此矩阵进行下一步的数据关联操作。
步骤五,数据关联:
由步骤四本发明得到的是一个二维矩阵,其横向每一排代表当前检测的第一个目标与之前存在的所有目标的相似度大小,数值越大则本发明更有把握说明当前检测目标就是之前检测目标的跟踪结果。这样,本发明先对这个矩阵每一列取最大值并记录;
若每列的最大值对应的行数都不相同,那么可以直接得出结果,令最大值的列数为每一行目标的跟踪结果。若有某俩或三列等的最大值行数都相同,那么证明有一个目标可能特征与之前帧的某几个目标的特征类似,那么,本发明取相似度最大的检测为该行的跟踪结果,并删去相似度小的检测的最大值,进而去找其第二大的值;
再次重复上一步,直到每一行都有不同的最大值为止。(若当前帧出现新目标,与之前所有帧的相似度都较低,所以本发明在比较前设置阈值,若超过阈值在进行上一步,若一整行都未超过阈值,则标其为新检测)。
通过此方法即可实现数据关联操作,从而对图像中的不同目标的特征矩阵实现跟踪操作。
下面结合仿真对本发明的技术效果作详细的描述。
1.仿真条件:
本发明是在中央处理器为Intel(R)Corei7-77003.60GHZ、内存16G、显卡为NVIDIA1080Ti、显存11G、WINDOWS10操作系统上,运用PyCharm软件使用Pytorch进行仿真。
2.仿真内容:
将本发明的多目标方法在MOT Challenge公开平台上的所有测试集中进行测试,根据官方评价指标代码进行测试集效果评价,同时跟国际领先的多目标跟踪算法进行对比,得到如下表所示对比结果。
3.仿真实验结果及分析:
表1 MOT17数据集下本发明算法与其他优秀算法比较
MOTA↑ MOTP↑ FP↓ FN↓ IDSW↓ HZ↑
TLMHT 50.6 77.6 22213 255030 1407 2.6
MHT_bLSTM 47.5 77.5 25981 268042 2069 1.9
IOU17 45.5 76.9 19993 281643 5988 1522.9
LM_NN 45.1 78.9 10834 296451 2286 0.9
LSST17O 52.7 76.2 22512 241936 2167 1.8
DMANs 48.2 75.7 26218 263608 2194 0.3
GMPHD_DAL 44.4 77.4 19170 283380 11137 3.4
Ours 49.2 77.3 22921 258384 5813 3.7
表1显示的是本发明的算法与其他优秀算法的比较结果。表格中向上箭头表示该指标越大越好,向下箭头表示该指标越小越好。从两表中可以看出本发明算法在各项指标上都处于靠前的地位,在MOT17数据集中,与2019年新出的LSST17O模型相比,在MOTA上有着些许差距,低了3.5个百分点,但是在MOTP与HZ指标上本发明算法是高于它的。对于基准算法IOU17,本算法在除了HZ的其他指标上都有了很大的超越。总体来说,本发明算法能力平均,在各项指标都有良好的表现,特别是MOTP指标超越了表格中很多算法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种在线多目标跟踪方法,其特征在于,所述在线多目标跟踪方法包括:
将视频图像当前帧t输入卷积神经网络中;
对卷积神经网络中的特征图进行再次卷积,进一步泛化特征,然后根据目标在原图中的位置比例在特征图中找到相应位置,提取目标特征;
将从不同通道中提取出来的特征拼接并融合,得到当前帧t的全部目标融合后的特征矩阵;
将当前帧t的特征矩阵与前t-n帧的特征矩阵进行数据关联操作,找到相似度最匹配的检测目标,其中1≤n≤30;
利用改进后的匈牙利算法对数据关联后的关联矩阵进行目标匹配同时最终轨迹进行在线更新;
所述在线多目标跟踪方法的不同通道中特征融合方法包括:
(1)将ROI align后得到的每一个卷积层卷积之后的特征进行拉伸操作,拉伸操作是将原来的三维矩阵转换成二维矩阵,即Xw×h×n的矩阵拉伸成Xm×n,其中m=w×h;
(2)对于一层卷积得到了一个Xm×n特征,对所有7个通道都进行特征矩阵拉伸操作,得到了7个Xm×n特征矩阵;
(3)对于这样的7个Xm×n特征矩阵,对其进行拼接操作,将7个Xm×n特征矩阵,从第一个到最后一个横向排列,得到当前目标的大特征矩阵Xr×n,其中r=m×7;
(4)对于一个目标将其从7个通道提取出来的所有特征进行融合,得到了Xr×n的特征矩阵,特征矩阵融合该目标在不同通道上的不同特征,将当前帧所有目标的Xr×n二维特征矩阵融合成Xr×d×n的全部目标的特征矩阵,其中d是当前帧的目标个数;
所述在线多目标跟踪方法将待检测视频帧图像输入到卷积神经网络中,进行卷积操作提取特征,提取特征包括:
(1)使用的卷积神经网络共有16层,分别在3、6、9、12、14、15、16层实现残差拼接操作,其中y表示得到的特征,xL表示第L层输入的特征,L=3、6、9、12、14、15、16,F表示残差拼接操作,公式为:
y=F(xL)+xL
对提取到的特征进一步泛化;
(2)根据每一帧的目标o,有其基于原图的坐标(xo,yo,wo,ho),其中xo,yo表示目标o的左上角坐标位置,wo,ho表示目标边界框的宽和高,那么,当前卷积层大小是原卷积层的
Figure FDA0004136576150000021
倍,那么,现在的目标边界框坐标为/>
Figure FDA0004136576150000022
(3)采用ROI align的方法将目标边界框坐标映射到当前层特征图上,ROI align取消了量化操作,对于量化中产生的坐标为浮点数的像素,利用双线性插值计算其像素值;
采用了改进后的匈牙利算法进行数据关联,得到更精准的跟踪结果,包括:
(1)对于一二维矩阵,其横向每一排代表当前检测的第一个目标与之前存在的所有目标的相似度大小,数值越大则更有把握说明当前检测目标就是之前检测目标的跟踪结果;先对这个矩阵每一列取最大值并记录;
(2)若每列的最大值对应的行数都不相同,那么可以直接得出结果,令最大值的列数为每一行目标的跟踪结果,若有大于等于两列的最大值行数都相同,那么证明有一个目标可能特征与之前帧的某几个目标的特征类似,那么,取相似度最大的检测为该行的跟踪结果,并删去相似度小的检测的最大值,进而去找其第二大的值;
(3)再次重复(2)步骤,直到每一行都有不同的最大值为止,若当前帧出现新目标,与之前所有帧的相似度都较低,在比较前设置阈值,若超过阈值再进行(2)步骤,若一整行都未超过阈值,则标其为新检测目标;
所述将当前帧t的特征矩阵与前t-n帧的特征矩阵进行数据关联操作,找到相似度最匹配的检测目标包括:
(1)将当前帧的特征提取与融合的矩阵储存为特征矩阵,对视频中所有帧都进行这样的操作,储存特征矩阵;
(2)将当前帧的特征矩阵与前n帧的特征矩阵进行矩阵运算,具体操作为:首先将
Figure FDA0004136576150000031
的第一层平面扩展成与前n帧中某一帧大小相同的矩阵/>
Figure FDA0004136576150000032
进行相似度比对操作,当前帧特征矩阵,l表示矩阵的第一维度即矩阵的长,w表示矩阵的第二维度即矩阵的宽,h表示矩阵的第三维度即矩阵的高;公式如下:
Yn=(X′n-Xp)2
Yn是当前帧第一个检测目标与第前n帧特征矩阵的相似度比较,其中1≤n≤30;
(3)对Yn进行降维操作,使得检测得到的数值为一个具体数值,具体操作为:对Yn进行降维操作,计算Yn每一个平面上的平均值,得到一维数组;该数组上的某一个数越小,意味着这个数是当前帧第一个目标与第前n帧的某一个目标越相近,其中1≤n≤30;
(4)重复第(2),(3)步,将第(2)步的第一个平面改为第二个平面再进行扩展操作,也得到了一个数组,其含义在第(3)步已经解释,将该帧所有目标进行比对后的所有数组拼接成一个二维矩阵。
2.一种运行权利要求1所述在线多目标跟踪方法的在线多目标跟踪系统,其特征在于,所述在线多目标跟踪系统包括:
视频输入模块,用于将视频当前帧图像输入到卷积神经网络中;
特征提取模块,用于在卷积神经网络中卷积后,对不同目标在不同通道特征图上的特征进行提取;
特征矩阵处理模块,用于融合所提取到的特征为一个特征矩阵;将视频下一帧图像输入,重复得到该帧的特征矩阵;
数据关联模块,用于将当前帧的特征矩阵与之前得到的前n帧特征矩阵进行数据关联操作;
目标跟踪模块,用于将数据关联操作后的结果利用改进后的匈牙利算法实现目标之间的正确跟踪,实现多目标跟踪方法;
所述在线多目标跟踪方法的不同通道中特征融合方法包括:
(1)将ROI align后得到的每一个卷积层卷积之后的特征进行拉伸操作,拉伸操作是将原来的三维矩阵转换成二维矩阵,即Xw×h×n的矩阵拉伸成Xm×n,其中m=w×h;
(2)对于一层卷积得到了一个Xm×n特征,对所有7个通道都进行特征矩阵拉伸操作,得到了7个Xm×n特征矩阵;
(3)对于这样的7个Xm×n特征矩阵,对其进行拼接操作,将7个Xm×n特征矩阵,从第一个到最后一个横向排列,得到当前目标的大特征矩阵Xr×n,其中r=m×7;
(4)对于一个目标将其从7个通道提取出来的所有特征进行融合,得到了Xr×n的特征矩阵,特征矩阵融合该目标在不同通道上的不同特征,将当前帧所有目标的Xr×n二维特征矩阵融合成Xr×d×n的全部目标的特征矩阵,其中d是当前帧的目标个数;
所述在线多目标跟踪方法将待检测视频帧图像输入到卷积神经网络中,进行卷积操作提取特征,提取特征包括:
(1)使用的卷积神经网络共有16层,分别在3、6、9、12、14、15、16层实现残差拼接操作,其中y表示得到的特征,xL表示第L层输入的特征,L=3、6、9、12、14、15、16,F表示残差拼接操作,公式为:
y=F(xL)+xL
对提取到的特征进一步泛化;
(2)根据每一帧的目标o,有其基于原图的坐标(xo,yo,wo,ho),其中xo,yo表示目标o的左上角坐标位置,wo,ho表示目标边界框的宽和高,那么,当前卷积层大小是原卷积层的
Figure FDA0004136576150000041
倍,那么,现在的目标边界框坐标为/>
Figure FDA0004136576150000042
(3)采用ROI align的方法将目标边界框坐标映射到当前层特征图上,ROI align取消了量化操作,对于量化中产生的坐标为浮点数的像素,利用双线性插值计算其像素值;
采用了改进后的匈牙利算法进行数据关联,得到更精准的跟踪结果,包括:
(1)对于一二维矩阵,其横向每一排代表当前检测的第一个目标与之前存在的所有目标的相似度大小,数值越大则更有把握说明当前检测目标就是之前检测目标的跟踪结果;先对这个矩阵每一列取最大值并记录;
(2)若每列的最大值对应的行数都不相同,那么可以直接得出结果,令最大值的列数为每一行目标的跟踪结果,若有大于等于两列的最大值行数都相同,那么证明有一个目标可能特征与之前帧的某几个目标的特征类似,那么,取相似度最大的检测为该行的跟踪结果,并删去相似度小的检测的最大值,进而去找其第二大的值;
(3)再次重复(2)步骤,直到每一行都有不同的最大值为止,若当前帧出现新目标,与之前所有帧的相似度都较低,在比较前设置阈值,若超过阈值再进行(2)步骤,若一整行都未超过阈值,则标其为新检测目标;
所述将当前帧t的特征矩阵与前t-n帧的特征矩阵进行数据关联操作,找到相似度最匹配的检测目标包括:
(1)将当前帧的特征提取与融合的矩阵储存为特征矩阵,对视频中所有帧都进行这样的操作,储存特征矩阵;
(2)将当前帧的特征矩阵与前n帧的特征矩阵进行矩阵运算,具体操作为:首先将
Figure FDA0004136576150000051
的第一层平面扩展成与前n帧中某一帧大小相同的矩阵/>
Figure FDA0004136576150000052
进行相似度比对操作,当前帧特征矩阵,l表示矩阵的第一维度即矩阵的长,w表示矩阵的第二维度即矩阵的宽,h表示矩阵的第三维度即矩阵的高;公式如下:
Yn=(X′n-Xp)2
Yn是当前帧第一个检测目标与第前n帧特征矩阵的相似度比较,其中1≤n≤30;
(3)对Yn进行降维操作,使得检测得到的数值为一个具体数值,具体操作为:对Yn进行降维操作,计算Yn每一个平面上的平均值,得到一维数组;该数组上的某一个数越小,意味着这个数是当前帧第一个目标与第前n帧的某一个目标越相近,其中1≤n≤30;
(4)重复第(2),(3)步,将第(2)步的第一个平面改为第二个平面再进行扩展操作,也得到了一个数组,其含义在第(3)步已经解释,将该帧所有目标进行比对后的所有数组拼接成一个二维矩阵。
3.一种无人机,其特征在于,所述无人机在线多目标跟踪系统安装有权利要求2所述的在线多目标跟踪系统。
4.一种自动驾驶系统,其特征在于,所述自动驾驶系统在线多目标跟踪系统安装有权利要求2所述的在线多目标跟踪系统。
5.一种运动分析系统,其特征在于,所述运动分析系统在线多目标跟踪系统安装有权利要求2所述的在线多目标跟踪系统。
6.一种教育控制系统,其特征在于,所述教育控制系统在线多目标跟踪系统安装有权利要求2所述的在线多目标跟踪系统。
CN202010642053.9A 2020-07-06 2020-07-06 一种在线多目标跟踪方法、系统及应用 Active CN112001225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010642053.9A CN112001225B (zh) 2020-07-06 2020-07-06 一种在线多目标跟踪方法、系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010642053.9A CN112001225B (zh) 2020-07-06 2020-07-06 一种在线多目标跟踪方法、系统及应用

Publications (2)

Publication Number Publication Date
CN112001225A CN112001225A (zh) 2020-11-27
CN112001225B true CN112001225B (zh) 2023-06-23

Family

ID=73466724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010642053.9A Active CN112001225B (zh) 2020-07-06 2020-07-06 一种在线多目标跟踪方法、系统及应用

Country Status (1)

Country Link
CN (1) CN112001225B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614156A (zh) * 2020-12-16 2021-04-06 深圳市安软科技股份有限公司 一种多目标跟踪网络模型的训练方法、装置及相关设备
CN112488061B (zh) * 2020-12-18 2022-04-29 电子科技大学 一种联合ads-b信息的多航空器检测与跟踪方法
CN113158800A (zh) * 2021-03-19 2021-07-23 上海云赛智联信息科技有限公司 围界入侵混合检测方法及围界入侵混合检测系统
CN113657215A (zh) * 2021-08-02 2021-11-16 大连理工大学 一种基于目标检测的应用于无人船上的目标跟踪方法
CN113409361B (zh) * 2021-08-12 2023-04-18 深圳市城市交通规划设计研究中心股份有限公司 一种多目标跟踪方法、装置、计算机及存储介质
CN113762231B (zh) * 2021-11-10 2022-03-22 中电科新型智慧城市研究院有限公司 端对端的多行人姿态跟踪方法、装置及电子设备
CN115147457B (zh) * 2022-07-08 2024-07-30 河南大学 基于时空感知的记忆增强型自监督跟踪方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2007259030A1 (en) * 2006-06-13 2007-12-21 Bae Systems Plc Improvements relating to target tracking
CN106780552A (zh) * 2016-11-08 2017-05-31 西安电子科技大学 基于局部区域联合跟踪检测学习的抗遮挡目标跟踪方法
CN107167784A (zh) * 2017-07-05 2017-09-15 电子科技大学 一种基于多通道比相定位的多人体目标定位跟踪方法
CN107993245A (zh) * 2017-11-15 2018-05-04 湖北三江航天红峰控制有限公司 一种空天背景多目标检测和跟踪方法
CN108875588A (zh) * 2018-05-25 2018-11-23 武汉大学 基于深度学习的跨摄像头行人检测跟踪方法
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法
CN109829436A (zh) * 2019-02-02 2019-05-31 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
CN111241343A (zh) * 2020-01-07 2020-06-05 西安电子科技大学 一种道路信息监控与分析检测方法、智慧交通控制系统
CN111260543A (zh) * 2020-01-19 2020-06-09 浙江大学 一种基于多尺度图像融合和sift特征的水下图像拼接方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144761B2 (en) * 2016-04-04 2021-10-12 Xerox Corporation Deep data association for online multi-class multi-object tracking

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2007259030A1 (en) * 2006-06-13 2007-12-21 Bae Systems Plc Improvements relating to target tracking
CN106780552A (zh) * 2016-11-08 2017-05-31 西安电子科技大学 基于局部区域联合跟踪检测学习的抗遮挡目标跟踪方法
CN107167784A (zh) * 2017-07-05 2017-09-15 电子科技大学 一种基于多通道比相定位的多人体目标定位跟踪方法
CN107993245A (zh) * 2017-11-15 2018-05-04 湖北三江航天红峰控制有限公司 一种空天背景多目标检测和跟踪方法
CN108875588A (zh) * 2018-05-25 2018-11-23 武汉大学 基于深度学习的跨摄像头行人检测跟踪方法
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法
CN109829436A (zh) * 2019-02-02 2019-05-31 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
CN111241343A (zh) * 2020-01-07 2020-06-05 西安电子科技大学 一种道路信息监控与分析检测方法、智慧交通控制系统
CN111260543A (zh) * 2020-01-19 2020-06-09 浙江大学 一种基于多尺度图像融合和sift特征的水下图像拼接方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Hierarchical multi-modal fusion FCN with attention model for RGB-D tracking;Ming-xin Jiang 等;《Information Fusion》;20191031;第50卷;1-8 *
一种结合粒子滤波和张量子空间的目标跟踪算法;温静 等;《光子学报》;20101231;第39卷(第6期);1047-1052 *
基于双相关滤波器的多通道尺度自适应目标跟踪;韩晓微 等;《仪器仪表学报》;20191231;第40卷(第11期);73-81 *
基于深度特征共享的行人检测与跟踪研究;宋欢欢;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215;第2020年卷(第2期);I138-1633 *
适用于复杂场景的多目标跟踪算法;孙宇嘉 等;《仪器仪表学报》;20191231;第40卷(第3期);126-137 *

Also Published As

Publication number Publication date
CN112001225A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112001225B (zh) 一种在线多目标跟踪方法、系统及应用
CN112084868B (zh) 一种基于注意力机制的遥感图像中目标计数方法
CN113807187B (zh) 基于注意力特征融合的无人机视频多目标跟踪方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
CN110659664B (zh) 一种基于ssd的高精度识别小物体的方法
CN112529904B (zh) 图像语义分割方法、装置、计算机可读存储介质和芯片
CN112101221A (zh) 一种用于交通信号灯实时检测与识别的方法
CN117079139B (zh) 一种基于多尺度语义特征的遥感图像目标检测方法及系统
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113592026A (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及系统
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN115082293A (zh) 一种基于Swin Transformer和CNN双分支耦合的图像配准方法
CN112907573B (zh) 一种基于3d卷积的深度补全方法
CN114120069B (zh) 基于方向自注意力的车道线检测系统、方法和存储介质
CN111242026A (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN111882581B (zh) 一种深度特征关联的多目标跟踪方法
CN115131760A (zh) 一种基于改进特征匹配策略的轻量级车辆追踪方法
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN113256546A (zh) 一种基于彩色图指导的深度图补全方法
CN110020688B (zh) 基于深度学习的遮挡行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant