CN111882580B - 一种视频多目标跟踪方法及系统 - Google Patents
一种视频多目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN111882580B CN111882580B CN202010693529.1A CN202010693529A CN111882580B CN 111882580 B CN111882580 B CN 111882580B CN 202010693529 A CN202010693529 A CN 202010693529A CN 111882580 B CN111882580 B CN 111882580B
- Authority
- CN
- China
- Prior art keywords
- target
- video
- tracking
- similarity
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 118
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 22
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 230000000452 restraining effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 241001239379 Calophysus macropterus Species 0.000 description 3
- 101000642315 Homo sapiens Spermatogenesis-associated protein 17 Proteins 0.000 description 3
- 102100036408 Spermatogenesis-associated protein 17 Human genes 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视频多目标跟踪方法及系统,将含有待跟踪目标的视频抽取为连续的视频帧,并通过孪生网络学习帧之间的时序信息;通过深度卷积神经网络基于连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征;基于多尺度目标特征得到目标位置检测结果,以及有效的目标外观特征描述向量;基于目标外观特征描述向量,计算当前视频帧与预设时间内的历史视频帧之间的外观特征相似度;基于目标位置检测结果,计算运动特征相似度;将外观特征相似度和运动特征相似度的乘积作为目标与轨迹之间的相似度,确定各个目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。本发明在保证领先的跟踪性能的基础上,大幅度提升了跟踪速度,具有很高的应用价值。
Description
技术领域
本发明属于计算机视觉与模式识别领域,更具体地,涉及一种视频多目标跟踪方法及系统。
背景技术
计算机视觉是赋予机器视觉能力的一门科学,通过一系列的图像处理技术,使得计算机对输入的图像或者视频具备一定的识别分析能力,在一定领域达到甚至超越人类。近年来,随着科学技术的不断发展与进步,越来越多的智能设备如电脑、手机、视频监控走进人们的生活,海量视频数据的不断涌现和硬件计算能力的不断提升,为计算机视觉的飞速发展奠定了基础,同时也带来了巨大的机遇和挑战。多目标跟踪的目的是在视频序列中同时跟踪多个目标,在空间上输出目标在每一帧图像中的位置,在时间上维持帧与帧之间目标身份一致性,并最终给出多个目标的运动轨迹。多目标跟踪可以为行为分析、内容理解、事件预警等高层视觉任务提供支持,有着广泛的应用价值。
根据算法在进行目标匹配过程中使用的视频帧信息,可以将多目标跟踪算法分为离线多目标跟踪和在线多目标跟踪。其中离线多目标跟踪使用整个视频中的信息完成数据关联,通常使用优化问题来解决,比如最小代价流、最小多割图等。而在线多目标跟踪仅使用当前帧之前的视频帧进行目标跟踪,常见的有判断可信度的相关滤波算法、以及多维分配算法(Multidimensional Assignment,MDA)。早在20世纪70年代,相关滤波技术就已应用在单目标跟踪研究中,基于相关滤波的多目标跟踪方法的主要思路是利用之前已经获得的目标先验知识,通过状态转移模型对目标接下来的状态进行预测,然后根据当前观测状态对预测模型进行修正。后来,一些文章通过初始化多个单目标跟踪器实现了对视频中多个目标的跟踪,但仍会存在跟踪速度慢、容易发生跟踪漂移等问题。随着深度学习的发展,基于深度卷积神经网络的特征提取模式逐渐代替了传统的手工特征,并取得了更好的跟踪精度。近年来目标检测领域的快速发展,使得基于目标检测的视频多目标跟踪方法取得了突破性的进展。首先通过预训练的目标检测器确定每一帧中目标位置,然后将其作为网络输入,使用深度卷积网络生成目标描述向量,计算帧与帧之间的目标相似度,最后将数据关联看作多维分配问题,使用匈牙利算法等完成目标与目标之间的在线匹配,以实现多目标跟踪。
虽然深度学习的发展为多目标跟踪技术带来了新的方向,但是跟踪场景的复杂性,以及当前算法的不够完善,使其在实际应用方面受到诸多限制。通常,基于目标检测的视频多目标跟踪算法可以分为三个阶段:特征提取、相似度计算、数据关联。当前跟踪算法在各个阶段主要面临以下问题:目前视频多目标跟踪算法多以目标检测器的输出作为输入,在整体上难以实现对视频内容的实时跟踪处理。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种视频多目标跟踪方法及系统,旨在解决当前视频目标跟踪方法难以做到实时跟踪的问题。
为实现上述目的,第一方面,本发明提供一种视频多目标跟踪方法,包括如下步骤:
S110,将含有待跟踪目标的视频抽取为连续的视频帧,并通过孪生网络学习视频帧之间的时序信息;
S120,通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征;
S130,基于所述多尺度目标特征检测目标的位置,得到目标位置检测结果;
S140,基于所述多尺度目标特征学习目标的外观特征,并根据目标位置检测结果进行筛选,得到有效的目标外观特征描述向量;
S150,基于目标外观特征描述向量,计算当前视频帧与预设时间内的历史视频帧之间的外观特征相似度;基于目标位置检测结果,计算目标检测位置与预测位置之间的距离作为运动特征相似度;将外观特征相似度和运动特征相似度的乘积作为目标与轨迹之间的相似度,确定各个目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
可选地,所述步骤S110具体包括如下步骤:
S110.1,将视频逐帧拆解,得到连续的视频帧,并根据标注信息得到目标位置和跟踪ID;
具体地,标注信息来自深度卷积神经网络的训练数据,包含目标位置、身份ID等信息。
S110.2,在同一视频的预设时间内随机抽取两视频,并根据跟踪ID生成两视频帧目标之间的关联矩阵;
S110.3,将随机抽取的两视频帧进行图像增强,然后进行图像信息标准化,最后输入孪生网络使其学习两视频帧之间的时序信息。
可选地,所述步骤S120具体包括如下步骤:
S120.1,将随机抽取的两视频帧输入到深度卷积神经网络;
S120.2,在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征,并采用特征金字塔(feature pyramid networks,FPN)结构将提取的特征融合,得到多尺度目标特征。
可选地,所述步骤S130具体包括如下步骤:
S130.1,将所述多尺度目标特征输入目标检测模块,以使目标检测模块对多尺度目标特征进行适应性目标检测学习;
S130.2,将目标检测模块的输出划分为多个目标检测区域,每个目标检测区域检测落在其中的目标,得到落在其中的目标类别和目标位置。
具体地,实际预测的是目标真实位置与锚点Anchor之间的相对偏移量,根据偏移量可以反推目标真实位置。
可选地,所述步骤S140具体包括如下步骤:
S140.1,将所述多尺度目标特征输入目标跟踪模块,以使目标跟踪模块对多尺度目标特征进行适应性目标跟踪学习;
S140.2,将目标跟踪模块的输出划分为多个目标跟踪区域,每个目标跟踪区域生成此区域内目标的外观特征描述向量;
S140.3,根据两视频帧图像中各自的目标外观特征描述向量,使用向量内积计算两两目标之间的相似度,得到相似度矩阵;并根据两视频帧图像目标标注信息,生成目标关联矩阵;
S140.4,使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离,用于约束目标跟踪模块的学习方向,使得目标跟踪模块学习到有效的目标运动轨迹的描述向量。
可选地,所述步骤S150具体包括如下步骤:
S150.1,根据目标外观特征描述向量,使用向量内积计算当前视频帧内目标与预设时间内的历史视频帧内目标之间的目标外观特征相似度;
S150.2,使用卡尔曼滤波对目标运动轨迹建模,计算目标检测位置和目标预测位置之间的距离作为目标运动特征相似度;
S150.3,计算目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,使用匈牙利算法确定目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
第二方面,本发明提供一种视频多目标跟踪系统,包括:
视频抽取单元,用于将含有待跟踪目标的视频抽取为连续的视频帧,并通过孪生网络学习视频帧之间的时序信息;
特征提取单元,用于通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征;
位置检测单元,用于基于所述多尺度目标特征检测目标的位置,得到目标位置检测结果;
外观描述单元,用于基于所述多尺度目标特征学习目标的外观特征,并根据目标位置检测结果进行筛选,得到有效的目标外观特征描述向量;
目标跟踪单元,用于基于目标外观特征描述向量,计算当前视频帧与预设时间内的历史视频帧之间的目标外观特征相似度;基于目标位置检测结果,计算目标检测位置与目标预测位置之间的距离作为目标运动特征相似度;将目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,确定各个目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
可选地,所述步视频抽取单元具体用于将视频逐帧拆解,得到连续的视频帧,并根据标注信息得到目标位置和跟踪ID;在同一视频的预设时间内随机抽取两视频,并根据跟踪ID生成两视频帧目标之间的关联矩阵;以及将随机抽取的两视频帧进行图像增强,然后进行图像信息标准化,最后输入孪生网络使其学习两视频帧之间的时序信息。
可选地,所述特征提取单元具体用于将随机抽取的两视频帧输入到深度卷积神经网络;以及在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征,并采用特征金字塔FPN结构将提取的特征融合,得到多尺度目标特征。
可选地,所述位置检测单元具体用于将所述多尺度目标特征输入目标检测模块,以使目标检测模块对多尺度目标特征进行适应性目标检测学习;以及将目标检测模块的输出划分为多个目标检测区域,每个目标检测区域检测落在其中的目标,得到落在其中的目标类别和目标位置。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提出一种视频多目标跟踪方法及系统,使用深度卷积神经网络计算得到输入视频图像的多尺度信息,目标检测模块输出目标类别与其在视频帧图像中的位置,目标跟踪模块将检测到的目标同历史帧进行关联,判断目标身份,完成目标跟踪;将目标检测和数据关联融合到一个端到端的统一框架中,两者共享目标基础特征,并分别进行针对性学习,实现对视频中多个目标的实时跟踪处理。
本发明直接在一个端到端的框架中同时输出目标的检测结果和跟踪结果,相比其他多目标跟踪算法,省去了目标检测带来的时间损失,极大提高了算法的跟踪效率,在大部分算法跟踪速度小于10Hz的情况下,本发明的跟踪方法的跟踪速度远大于10Hz,实现了对视频多目标跟踪的实时处理,具有极大的应用价值。
附图说明
图1是本发明提供的视频多目标跟踪方法流程图;
图2是现有基于目标检测的视频多目标跟踪算法模块图;
图3是本发明提出的融合目标检测与数据关联的视频多目标跟踪算法模块图;
图4是本发明提出的融合目标检测与数据关联的视频多目标跟踪算法结构图;
图5是本发明中的网络最终输出结果示意图;
图6是本发明中的目标跟踪模块输出结果与训练目标格式说明图;
图7是本发明提供的视频多目标跟踪系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
随着深度学习和目标检测领域的飞速发展,基于目标检测的多目标跟踪算法取得了远超传统算法的性能表现,但是其在跟踪速度方面却难以达到实时性要求,成为其实际应用中的一大制约条件。基于目标检测的多目标跟踪算法将跟踪任务分为两部分:1)使用预先训练的目标检测模型确定待跟踪目标在每一个视频帧中的位置;2)根据目标检测结果,提取目标特征,对帧与帧之间的目标进行匹配关联,确定对应关系。两者之间相互独立,且存在先后关系,导致算法很难达到实时性要求。
为了提高算法跟踪效率,本发明提出一种融合目标检测与数据关联的视频多目标跟踪算法,将目标检测和数据关联融合到一个端到端的统一框架中,两者共享目标基础特征,并分别进行针对性学习,实现对视频中多个目标的实时跟踪处理。
图1为本发明提供的视频多目标跟踪方法流程图,如图1所示,包括如下步骤:
S110,将含有待跟踪目标的视频抽取为连续的视频帧,并通过孪生网络学习视频帧之间的时序信息;
S120,通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征;
S130,基于所述多尺度目标特征检测目标的位置,得到目标位置检测结果;
S140,基于所述多尺度目标特征学习目标的外观特征,并根据目标位置检测结果进行筛选,得到有效的目标外观特征描述向量;
S150,基于目标外观特征描述向量,计算当前视频帧与预设时间内的历史视频帧之间的外观特征相似度;基于目标位置检测结果,计算目标检测位置与预测位置之间的距离作为运动特征相似度;将外观特征相似度和运动特征相似度的乘积作为目标与轨迹之间的相似度,确定各个目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
可选地,所述步骤S110具体包括如下步骤:
S110.1,将视频逐帧拆解,得到连续的视频帧,并根据标注信息得到目标位置和跟踪ID;
具体地,标注信息来自深度卷积神经网络的训练数据,包含目标位置、身份ID等信息。
S110.2,在同一视频的预设时间内随机抽取两视频,并根据跟踪ID生成两视频帧目标之间的关联矩阵;
S110.3,将随机抽取的两视频帧进行图像增强,然后进行图像信息标准化,最后输入孪生网络使其学习两视频帧之间的时序信息。
具体地,在步骤S110的跟踪数据预处理阶段:首先将视频逐帧拆解,得到连续的视频帧,并根据标注信息得到目标位置和跟踪ID;在同一视频的时间间隔不超过Δt时间内随机抽取两帧,并根据跟踪ID生成两帧目标之间的关联矩阵;将随机抽取的两帧图像进行对比度调整、光照变化、添加随机噪声等数据增强方式,然后使用z-score标准化方法对图像信息标准化,最后将其缩放为864×480统一大小并输入孪生网络进行学习。
可选地,所述步骤S120具体包括如下步骤:
S120.1,将随机抽取的两视频帧输入到深度卷积神经网络;
S120.2,在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征,并采用特征金字塔(feature pyramid networks,FPN)结构将提取的特征融合,得到多尺度目标特征。
具体地,在步骤S120的目标特征提取阶段:特征提取阶段使用共享权重参数的DarkNet53网络和FPN结构完成。首先去掉DarkNet53网络的最后一层全连接层,并将两帧视频帧作为输入。在DarkNet53网络的第26层、43层、52层分别提取下采样8倍、16倍、32倍的深度卷积特征,并使用FPN结构进行特征融合,得到多尺度目标特征,作为目标检测和目标跟踪的基础特征。
可选地,所述步骤S130具体包括如下步骤:
S130.1,将所述多尺度目标特征输入目标检测模块,以使目标检测模块对多尺度目标特征进行适应性目标检测学习;
S130.2,将目标检测模块的输出划分为多个目标检测区域,每个目标检测区域检测落在其中的目标,得到落在其中的目标类别和目标位置。
具体地,实际预测的是目标真实位置与锚点Anchor之间的相对偏移量,根据偏移量可以反推目标真实位置。
具体地,在步骤S130的目标检测阶段:将前面特征提取模块得到的多尺度特征输入目标检测模块,适用步长为1的BottleNetck结构,对输入特征进行针对性学习,以适应目标检测的任务需求。将BottleNeck输出的特征图划分为108×60得网格,每个网格对应原图8×8的目标区域。在每个网格中设置形状大小、长宽比例不一的6的预设Anchor,每个Anchor可以看做是一个目标检测器,每个网格中的目标检测器只负责检测目标中心点落在该网格中的目标。每个目标检测器可以分为两部分,分类和回归。分类部分使用交叉熵损失函数,指导模型输出正确的目标类别;回归部分使用smoothL1损失函数,让目标学习输出Anchor位置和目标真正位置之间的相对偏移量。
可选地,所述步骤S140具体包括如下步骤:
S140.1,将所述多尺度目标特征输入目标跟踪模块,以使目标跟踪模块对多尺度目标特征进行适应性目标跟踪学习;
S140.2,将目标跟踪模块的输出划分为多个目标跟踪区域,每个目标跟踪区域生成此区域内目标的外观特征描述向量;
S140.3,根据两视频帧图像中各自的目标外观特征描述向量,使用向量内积计算两两目标之间的相似度,得到相似度矩阵;并根据两视频帧图像目标标注信息,生成目标关联矩阵;
S140.4,使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离,用于约束目标跟踪模块的学习方向,使得目标跟踪模块学习到有效的目标运动轨迹的描述向量。
具体地,在步骤S140的目标跟踪阶段:将特征提取模块得到的多尺度特征输入目标跟踪模块,同样使用步长为1的BottleNeck结构,对输入特征进行进一步学习,使其适应目标跟踪的任务需求,与步骤3结构一致,参数不共享。将BottleNeck输出的特征图划分为108×60的网格,每个网格的对应位置与目标检测阶段相同,并输出一个256维的特征向量,看做目标中心落在此网格内的目标描述向量。根据两帧图像中各自的目标描述向量,使用向量内积计算两两目标之间的相似度,得到相似度矩阵,并根据两帧图像目标标注信息,生成目标关联矩阵。使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离,用于约束目标跟踪模块的学习方向。
可选地,所述步骤S150具体包括如下步骤:
S150.1,根据目标外观特征描述向量,使用向量内积计算当前视频帧内目标与预设时间内的历史视频帧内目标之间的目标外观特征相似度;
S150.2,使用卡尔曼滤波对目标运动轨迹建模,计算目标检测位置和目标预测位置之间的距离作为目标运动特征相似度;
S150.3,计算目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,使用匈牙利算法确定目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
具体地,在步骤S150的跟踪推理阶段:将视频按照顺序逐帧进行数据预处理,首先将其缩放为864×480同一大小,然后进行标准化处理:
其中,x,x′分别表示处理前后图像像素值,mean(x),std(x)分别表示图像像素值的均值和标准差,将标准化之后的数据x′输入训练好的DarkNet53网络。
根据目标检测分支输出的检测结果,筛选目标跟踪分支输出的有效的目标描述向量。根据目标描述向量,使用向量内积计算当前帧目标与Δt时间内的历史帧之间的目标外观特征相似度。使用卡尔曼滤波对目标运动轨迹建模,计算检测位置和预测位置之间的距离作为目标运动特征相似度。计算目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,使用匈牙利算法确定目标与轨迹之间的最佳匹配关系,得到跟踪结果。
本发明可以分为三个组成部分,分别为特征提取模块、目标检测模块、目标跟踪模块。其中特征提取模块使用深度卷积神经网络计算得到输入视频图像的多尺度信息,目标检测模块输出目标类别与其在视频帧图像中的位置,目标跟踪模块将检测到的目标同历史帧进行关联,判断目标身份,完成目标跟踪。
首先,图2显示目前两阶段基于目标检测的视频多目标跟踪算法模块图,对比图3本发明提出的融合目标检测和数据关联的跟踪算法,本发明方法简化跟踪流程,去除多次特征提取的冗余操作,将视频帧中提取的多尺度特征同时用于目标检测和多目标跟踪,有利于提高跟踪效率。具体实施方式如图4所示,网络在训练过程中使用孪生网络结构,每次输入图像都是同一视频中时间跨度不超过Δt的两帧图像,整体可以分为特征提取模块、目标检测模块和目标跟踪模块三部分。
特征提取模块由主干网络DarkNet53和多尺度特征融合FPN结构组成。首先对于每组输入视频帧,将其缩放至864×480统一大小,然后进行对比度、饱和度调整,添加噪声的数据增强方式,增强网络训练的泛化能力。将数据增强后的图像输入到去除池化层和全连接层的DarkNet53全卷积网络中,并分别在26层、43层、52层分别提取下采样8倍、16倍、32倍的深度卷积特征,然后使用FPN结构,将不同尺度的特征上采样到同一纬度下,得到融合的目标多尺度信息Φ,用于目标检测模块和目标跟踪模块。
目标检测模块输出结果如图5所示。使用基于Anchor的检测结构,首先使用步长为1的BottleNeck对输入特征Φ进行进一步学习,使其适应目标检测的任务需求。然后将得到的特征图分为108×60的网格,在每个网格中设置尺度大小和长宽比例不同的6个Anchor,每个Anchor看做是一个检测器,负责检测目标中心位置落在所在网格的目标。每个检测器又可以分成目标分类和目标回归两个子功能,其中分类部分输出C×6×108×60的多维张量,C代表目标类别,这里C=2;回归部分输出目标位置相对于Anchor的位置偏移,结果为4×6×108×60,目标位置用[x,y,w,h]的四元组表示,其中x,y表示目标中心点横纵坐标,w,h表示目标长宽。在损失函数方面,目标分类部分使用交叉熵损失函数:
LC=-∑pi*log(qi)
其中,qi=exp(xi)/∑exp(xj)表示预测类别概率,pi为目标真实类别,此处,下标i表示样本数,下标j表示目标类别总数。
回归损失部分,使用smooth L1作为目标位置回归的损失函数。
其中表示网络输出的目标预测位置,/>表示目标真实坐标经如下非线性变换,映射到特征图上的位置:
这里表示Anchor的大小与位置,/>表示目标标注位置。
目标跟踪模块同样使用步长为1的BottleNeck结构进行进一步学习,使其适应目标跟踪的任务要求。同样将输出特征图划分为108×60的网格,每个网格与检测部分具有相同的感应区域,最终输出256×108×60的目标描述向量,后根据目标检测的输出结果,判断包含目标的网格,即可找到对应的目标描述向量。为了衡量目标描述向量的准确性,同时使得相同目标的目标描述向量相近,不同目标的目标描述向量相远,使用FocalLoss约束跟踪模块的学习方向。
最终,损失函数可以表述为以下形式:
其中,S1,S2为目标相似度矩阵按行、按列softmax计算得到的分布概率,G为根据标注信息得到的目标关联矩阵,表示两目标之间存在匹配关系,/>表示不存在匹配关系,其中S,G输出结果如图6所示。此处,i和j分别表示相似度矩阵的行列下标。在测试阶段,网络只需要计算得到每个目标的目标描述向量x∈R256,即可使用余弦相似度计算目标与跟踪轨迹之间的距离:
其中,表示组成轨迹Ti的目标的特征描述向量,取相似度的负数得到代价矩阵,将数据关联看作指派问题,并使用匈牙利算法计算代价最小的指派策略,完成数据关联。
assignment=Hungarian(-S)
assignment表示目标与跟踪轨迹之间的匹配关系,即最终的跟踪结果,Hungarian表示匈牙利算法。
为了证明本方法在跟踪速度和跟踪精度上的性能表现,本发明通过以下实验进行验证与分析:
实验数据集:
MOTChallenge是目前最为流行的多目标跟踪测试平台,被广泛采用到多目标跟踪器的性能衡量过程中。这其中2DMOT15、MOT16、MOT17都是视频监控中采集到的真实场景,既包含静止摄像机,也包含移动摄像机,是衡量多目标跟踪效果的优先选择。MOT15数据集包含11个训练视频序列和11个测试视频序列;MOT16与MOT17均包含相同的7个训练视频序列和7个测试视频序列,MOT17在MOT16的基础上给出了DPM、SDP、FRCNN三种检测器的结果,以便更好的衡量跟踪算法的鲁棒性。
评价指标:
采用MOTChallenge提出的衡量标准检验模型性能:
MOTA:多目标跟踪准确率,结合了False Positive样本、丢失目标和id切换频率三项指标,使衡量多目标跟踪器性能的主要评价指标。
MOTA=1-(∑t(mt+fpt+mmet))/(∑tgt)
其中,mt、fpt和mmet分别表示在视频第t帧的丢失目标数、False Positive数以及匹配错误目标数。
MOTP:多目标跟踪精度,主要用来衡量目标检测模型预测目标位置与真实位置之间的偏移误差:
其中,表示视频第t帧中第i个目标预测误差,ct表示视频第t帧含有的目标数。
IDF1:正确识别的检测与平均真实数和计算检测数之比。
MT:大部分被跟踪到的目标轨迹,指的是预测目标轨迹与目标真实轨迹重合率超过80%的样本。
ML:大部分跟踪失败的目标轨迹,指的是预测目标轨迹与真实目标轨迹重合率不超过20%的样本。
FP:False Positive样本数。
FN:False Negative样本数。
IDSw:预测跟踪目标id切换次数。
Hz:表示跟踪算法的计算速度。
最终实验结果如下表所示:
表1本发明与其他视频目标跟踪方法的结果对比表
从上面表1可以看到,本发明实现了较好的跟踪性能,在MOTA、IDF1等方面都实现了领先的跟踪指标。另一方面,在跟踪速度上,本发明直接在一个端到端的框架中同时输出目标的检测结果和跟踪结果,相比其他多目标跟踪算法,省去了目标检测带来的时间损失,极大提高了算法的跟踪效率,在大部分算法跟踪速度小于10Hz的情况下,本发明的跟踪方法的跟踪速度均在10Hz以上,远大于10Hz,实现了对视频多目标跟踪的实时处理,具有极大的应用价值。
图7为本发明提供的视频多目标跟踪系统架构图,如图7所示,包括:
视频抽取单元710,用于将含有待跟踪目标的视频抽取为连续的视频帧,并通过孪生网络学习视频帧之间的时序信息;
特征提取单元720,用于通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征;
位置检测单元730,用于基于所述多尺度目标特征检测目标的位置,得到目标位置检测结果;
外观描述单元740,用于基于所述多尺度目标特征学习目标的外观特征,并根据目标位置检测结果进行筛选,得到有效的目标外观特征描述向量;
目标跟踪单元750,用于基于目标外观特征描述向量,计算当前视频帧与预设时间内的历史视频帧之间的目标外观特征相似度;基于目标位置检测结果,计算目标检测位置与目标预测位置之间的距离作为目标运动特征相似度;将目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,确定各个目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
具体地,图7中各个单元的功能可参见前述方法实施例中的详细介绍,在此不做赘述。
本发明是关于一种融合目标检测与关联的视频多目标跟踪方法及系统,用以解决目前基于目标检测的视频多目标跟踪方法普遍难以实现对视频的实时跟踪处理问题。目前视频多目标跟踪算法多采用两阶段方式执行,首先使用预训练的检测器确定目标位置,然后将其做重识别问题进行数据关联,在特征提取阶段有较多的计算冗余,导致跟踪效率很低。本发明将目标检测模块和目标跟踪模块融合到一个统一的深度神经网络框架中,两者共用目标基础特征,并行执行,跟踪模块仅在最后进行数据关联时调用检测结果做掩码处理,提高了算法执行效率。通过实验验证表明,本发明在保证领先的跟踪性能的基础上,大幅度提升了跟踪速度,具有很高的应用价值。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种视频多目标跟踪方法,其特征在于,包括如下步骤:
S110,将含有待跟踪目标的视频抽取为连续的视频帧,并通过孪生网络学习视频帧之间的时序信息;
S120,通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征;
S130,基于所述多尺度目标特征检测目标的位置,得到目标位置检测结果;
S140,基于所述多尺度目标特征学习目标的外观特征,并根据目标位置检测结果进行筛选,得到有效的目标外观特征描述向量;
所述步骤S140具体包括如下步骤:
S140.1,将所述多尺度目标特征输入目标跟踪模块,以使目标跟踪模块对多尺度目标特征进行适应性目标跟踪学习;
S140.2,将目标跟踪模块的输出划分为多个目标跟踪区域,每个目标跟踪区域生成此区域内目标的外观特征描述向量;
S140.3,根据两视频帧图像中各自的目标外观特征描述向量,使用向量内积计算两两目标之间的相似度,得到相似度矩阵;并根据两视频帧图像目标标注信息,生成目标关联矩阵;
S140.4,使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离,用于约束目标跟踪模块的学习方向,使得目标跟踪模块学习到有效的目标外观特征描述向量;
S150,基于目标外观特征描述向量,计算当前视频帧与预设时间内的历史视频帧之间的目标外观特征相似度;基于目标位置检测结果,计算目标检测位置与目标预测位置之间的距离作为目标运动特征相似度;将目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,确定各个目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
2.根据权利要求1所述的视频多目标跟踪方法,其特征在于,所述步骤S110具体包括如下步骤:
S110.1,将视频逐帧拆解,得到连续的视频帧,并根据标注信息得到目标位置和跟踪ID;
S110.2,在同一视频的预设时间内随机抽取两视频,并根据跟踪ID生成两视频帧目标之间的关联矩阵;
S110.3,将随机抽取的两视频帧进行图像增强,然后进行图像信息标准化,最后输入孪生网络使其学习两视频帧之间的时序信息。
3.根据权利要求2所述的视频多目标跟踪方法,其特征在于,所述步骤S120具体包括如下步骤:
S120.1,将随机抽取的两视频帧输入到深度卷积神经网络;
S120.2,在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征,并采用特征金字塔FPN结构将提取的特征融合,得到多尺度目标特征。
4.根据权利要求1或3所述的视频多目标跟踪方法,其特征在于,所述步骤S130具体包括如下步骤:
S130.1,将所述多尺度目标特征输入目标检测模块,以使目标检测模块对多尺度目标特征进行适应性目标检测学习;
S130.2,将目标检测模块的输出划分为多个目标检测区域,每个目标检测区域检测落在其中的目标,得到落在其中的目标类别和目标位置。
5.根据权利要求1或3所述的视频多目标跟踪方法,其特征在于,所述步骤S150具体包括如下步骤:
S150.1,根据目标外观特征描述向量,使用向量内积计算当前视频帧内目标与预设时间内的历史视频帧内目标之间的目标外观特征相似度;
S150.2,使用卡尔曼滤波对目标运动轨迹建模,计算目标检测位置和目标预测位置之间的距离作为目标运动特征相似度;
S150.3,计算目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,使用匈牙利算法确定目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
6.一种视频多目标跟踪系统,其特征在于,包括:
视频抽取单元,用于将含有待跟踪目标的视频抽取为连续的视频帧,并通过孪生网络学习视频帧之间的时序信息;
特征提取单元,用于通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征;
位置检测单元,用于基于所述多尺度目标特征检测目标的位置,得到目标位置检测结果;
外观描述单元,用于基于所述多尺度目标特征学习目标的外观特征,并根据目标位置检测结果进行筛选,得到有效的目标外观特征描述向量;具体地,将所述多尺度目标特征输入目标跟踪模块,以使目标跟踪模块对多尺度目标特征进行适应性目标跟踪学习;将目标跟踪模块的输出划分为多个目标跟踪区域,每个目标跟踪区域生成此区域内目标的外观特征描述向量;根据两视频帧图像中各自的目标外观特征描述向量,使用向量内积计算两两目标之间的相似度,得到相似度矩阵;并根据两视频帧图像目标标注信息,生成目标关联矩阵;以及使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离,用于约束目标跟踪模块的学习方向,使得目标跟踪模块学习到有效的目标外观特征描述向量;
目标跟踪单元,用于基于目标外观特征描述向量,计算当前视频帧与预设时间内的历史视频帧之间的目标外观特征相似度;基于目标位置检测结果,计算目标检测位置与目标预测位置之间的距离作为目标运动特征相似度;将目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度,确定各个目标与轨迹之间的最佳匹配关系,得到多目标的跟踪结果。
7.根据权利要求6所述的视频多目标跟踪系统,其特征在于,所述视频抽取单元具体用于将视频逐帧拆解,得到连续的视频帧,并根据标注信息得到目标位置和跟踪ID;在同一视频的预设时间内随机抽取两视频,并根据跟踪ID生成两视频帧目标之间的关联矩阵;以及将随机抽取的两视频帧进行图像增强,然后进行图像信息标准化,最后输入孪生网络使其学习两视频帧之间的时序信息。
8.根据权利要求7所述的视频多目标跟踪系统,其特征在于,所述特征提取单元具体用于将随机抽取的两视频帧输入到深度卷积神经网络;以及在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征,并采用特征金字塔FPN结构将提取的特征融合,得到多尺度目标特征。
9.根据权利要求6或8所述的视频多目标跟踪系统,其特征在于,所述位置检测单元具体用于将所述多尺度目标特征输入目标检测模块,以使目标检测模块对多尺度目标特征进行适应性目标检测学习;以及将目标检测模块的输出划分为多个目标检测区域,每个目标检测区域检测落在其中的目标,得到落在其中的目标类别和目标位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010693529.1A CN111882580B (zh) | 2020-07-17 | 2020-07-17 | 一种视频多目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010693529.1A CN111882580B (zh) | 2020-07-17 | 2020-07-17 | 一种视频多目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111882580A CN111882580A (zh) | 2020-11-03 |
CN111882580B true CN111882580B (zh) | 2023-10-24 |
Family
ID=73154830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010693529.1A Active CN111882580B (zh) | 2020-07-17 | 2020-07-17 | 一种视频多目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111882580B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489076B (zh) * | 2020-12-06 | 2024-05-28 | 北京工业大学 | 一种多目标跟踪方法与系统 |
CN112580467B (zh) * | 2020-12-08 | 2024-07-02 | 平安国际智慧城市科技股份有限公司 | 视频回归测试方法、装置、计算机设备及存储介质 |
CN112560658B (zh) * | 2020-12-10 | 2024-01-26 | 昆仑数智科技有限责任公司 | 一种预警方法、装置、电子设备及计算机可读存储介质 |
CN112488061B (zh) * | 2020-12-18 | 2022-04-29 | 电子科技大学 | 一种联合ads-b信息的多航空器检测与跟踪方法 |
CN112561964A (zh) * | 2020-12-21 | 2021-03-26 | 上海立可芯半导体科技有限公司 | 在多目标跟踪中目标关联度量距离动态融合的方法和装置 |
CN112750147A (zh) * | 2020-12-31 | 2021-05-04 | 鹏城实验室 | 一种行人多目标跟踪方法、装置、智能终端及存储介质 |
CN112381107A (zh) * | 2021-01-13 | 2021-02-19 | 湖南苏科智能科技有限公司 | 基于深度学习的物品x光检测方法、装置和计算机设备 |
CN112801017B (zh) * | 2021-02-09 | 2023-08-04 | 成都视海芯图微电子有限公司 | 一种视觉场景描述方法及系统 |
CN113344968A (zh) * | 2021-05-18 | 2021-09-03 | 苏州云视图信息科技有限公司 | 一种果园水果识别与产量统计系统和方法 |
CN113409356A (zh) * | 2021-06-23 | 2021-09-17 | 之江实验室 | 一种相似度计算方法和多目标跟踪方法 |
CN113409361B (zh) * | 2021-08-12 | 2023-04-18 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种多目标跟踪方法、装置、计算机及存储介质 |
CN113744316A (zh) * | 2021-09-08 | 2021-12-03 | 电子科技大学 | 一种基于深度神经网络的多目标跟踪方法 |
CN113963375A (zh) * | 2021-10-20 | 2022-01-21 | 中国石油大学(华东) | 一种基于区域的多特征匹配速滑运动员多目标跟踪方法 |
CN113689472A (zh) * | 2021-10-26 | 2021-11-23 | 城云科技(中国)有限公司 | 一种运动目标检测方法、装置及应用 |
CN114155475B (zh) * | 2022-01-24 | 2022-05-17 | 杭州晨鹰军泰科技有限公司 | 无人机视角下端到端的人员动作识别方法、设备及介质 |
CN115309940B (zh) * | 2022-08-10 | 2023-05-19 | 公诚管理咨询有限公司 | 基于工地执法记录仪的智慧施工数据分析方法及其系统 |
CN115909173B (zh) * | 2023-01-05 | 2023-09-26 | 北京百度网讯科技有限公司 | 物体跟踪方法、跟踪模型训练方法、装置、设备和介质 |
CN116309726A (zh) * | 2023-04-07 | 2023-06-23 | 北京甲板智慧科技有限公司 | 基于ar互动游戏场景的多目标实时跟踪方法及装置 |
CN116403170A (zh) * | 2023-06-02 | 2023-07-07 | 江西省水投江河信息技术有限公司 | 一种用于运砂船及采砂船的多目标跟踪方法及系统 |
CN117576164B (zh) * | 2023-12-14 | 2024-05-03 | 中国人民解放军海军航空大学 | 基于特征联合学习的遥感视频海陆运动目标跟踪方法 |
CN118334562B (zh) * | 2024-06-14 | 2024-09-06 | 湖北微模式科技发展有限公司 | 一种视频分区布局分析方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017156886A (ja) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法 |
CN108320297A (zh) * | 2018-03-09 | 2018-07-24 | 湖北工业大学 | 一种视频目标实时跟踪方法及系统 |
CN109872342A (zh) * | 2019-02-01 | 2019-06-11 | 北京清帆科技有限公司 | 一种特定场景下的目标跟踪方法 |
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110135314A (zh) * | 2019-05-07 | 2019-08-16 | 电子科技大学 | 一种基于深度轨迹预测的多目标跟踪方法 |
CN110378931A (zh) * | 2019-07-10 | 2019-10-25 | 成都数之联科技有限公司 | 一种基于多摄像头的行人目标移动轨迹获取方法及系统 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN110675429A (zh) * | 2019-09-24 | 2020-01-10 | 湖南人文科技学院 | 基于孪生网络和相关滤波器的长短程互补型目标跟踪方法 |
CN111161311A (zh) * | 2019-12-09 | 2020-05-15 | 中车工业研究院有限公司 | 一种基于深度学习的视觉多目标跟踪方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129934A1 (en) * | 2016-11-07 | 2018-05-10 | Qualcomm Incorporated | Enhanced siamese trackers |
US10957053B2 (en) * | 2018-10-18 | 2021-03-23 | Deepnorth Inc. | Multi-object tracking using online metric learning with long short-term memory |
-
2020
- 2020-07-17 CN CN202010693529.1A patent/CN111882580B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017156886A (ja) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法 |
CN108320297A (zh) * | 2018-03-09 | 2018-07-24 | 湖北工业大学 | 一种视频目标实时跟踪方法及系统 |
CN109872342A (zh) * | 2019-02-01 | 2019-06-11 | 北京清帆科技有限公司 | 一种特定场景下的目标跟踪方法 |
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110135314A (zh) * | 2019-05-07 | 2019-08-16 | 电子科技大学 | 一种基于深度轨迹预测的多目标跟踪方法 |
CN110378931A (zh) * | 2019-07-10 | 2019-10-25 | 成都数之联科技有限公司 | 一种基于多摄像头的行人目标移动轨迹获取方法及系统 |
CN110490906A (zh) * | 2019-08-20 | 2019-11-22 | 南京邮电大学 | 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法 |
CN110675429A (zh) * | 2019-09-24 | 2020-01-10 | 湖南人文科技学院 | 基于孪生网络和相关滤波器的长短程互补型目标跟踪方法 |
CN111161311A (zh) * | 2019-12-09 | 2020-05-15 | 中车工业研究院有限公司 | 一种基于深度学习的视觉多目标跟踪方法及装置 |
Non-Patent Citations (7)
Title |
---|
Deep affinity network for multiple object tracking;Sun S J 等;《 IEEE transactions on pattern analysis and machine intelligence》;第43卷(第01期);104-119 * |
Detect to Track and Track to Detect;Christoph Feichtenhofer 等;《Detect to Track and Track to Detect》;3057-3065 * |
Distractor-aware siamese networks for visual object tracking;Zheng Zhu 等;《Proceedings of the European Conference on Computer Vision(ECCV)》;101-117 * |
Online Multi-Object Tracking with Historical Appearance Matching and Scene Adaptive Detection Filtering;Yoon Young-chul 等;《2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS)》;1-6 * |
SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks;Bo Li 等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;4277-4286 * |
基于深度学习的视频多目标跟踪算法研究;储琪;《中国博士学位论文全文数据库 (信息科技辑)》(第08期);I138-43 * |
融合目标检测与数据关联的视频多目标跟踪算法研究;王现瑞;《中国优秀硕士学位论文全文数据库 (信息科技辑)》(第01期);I138-1040 * |
Also Published As
Publication number | Publication date |
---|---|
CN111882580A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111882580B (zh) | 一种视频多目标跟踪方法及系统 | |
CN109344725B (zh) | 一种基于时空关注度机制的多行人在线跟踪方法 | |
CN107818571B (zh) | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN109145836B (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
CN108961308B (zh) | 一种漂移检测的残差深度特征目标跟踪方法 | |
CN103886325B (zh) | 一种分块的循环矩阵视频跟踪方法 | |
CN111862145B (zh) | 一种基于多尺度行人检测的目标跟踪方法 | |
CN104835178A (zh) | 一种低信噪比运动小目标的跟踪与识别的方法 | |
CN113192105B (zh) | 一种室内多人追踪及姿态估量的方法及装置 | |
CN111582349B (zh) | 一种基于YOLOv3和核相关滤波改进的目标跟踪算法 | |
CN107463898A (zh) | 基于视觉传感网络的舞台表演行为异常监控方法 | |
CN101344966A (zh) | 一种智能视觉监控中检测异常目标行为的方法 | |
CN107622507B (zh) | 一种基于深度学习的空中目标跟踪方法 | |
Yang et al. | Visual tracking with long-short term based correlation filter | |
CN112541424A (zh) | 复杂环境下行人跌倒的实时检测方法 | |
CN111639570B (zh) | 一种基于运动模型和单目标线索的在线多目标跟踪方法 | |
CN113971688B (zh) | 一种增强id重识别的无锚多目标跟踪方法 | |
CN111462180B (zh) | 基于与或图aog的目标跟踪方法 | |
Zhang et al. | Residual memory inference network for regression tracking with weighted gradient harmonized loss | |
CN117710689A (zh) | 基于粒子滤波的高精度sar图像目标检测方法及系统 | |
CN117689995A (zh) | 一种基于单目图像的未知航天器层级检测方法 | |
CN114937239B (zh) | 行人多目标跟踪识别方法及跟踪识别装置 | |
CN115100249B (zh) | 一种基于目标跟踪算法的智慧工厂监控系统 | |
Wu et al. | A Novel Gesture Recognition Model Under Sports Scenarios Based on Kalman Filtering and YOLOv5 Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |