CN116245913A - 基于层次化上下文引导的多目标跟踪方法 - Google Patents

基于层次化上下文引导的多目标跟踪方法 Download PDF

Info

Publication number
CN116245913A
CN116245913A CN202310117211.2A CN202310117211A CN116245913A CN 116245913 A CN116245913 A CN 116245913A CN 202310117211 A CN202310117211 A CN 202310117211A CN 116245913 A CN116245913 A CN 116245913A
Authority
CN
China
Prior art keywords
context
frame
features
feature
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310117211.2A
Other languages
English (en)
Inventor
张宝鹏
李芮
王子印
滕竹
刘瑜淼
李棋瑞
陈晧阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aifushi Suzhou Special Equipment Co ltd
Beijing Jiaotong University
Original Assignee
Aifushi Suzhou Special Equipment Co ltd
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aifushi Suzhou Special Equipment Co ltd, Beijing Jiaotong University filed Critical Aifushi Suzhou Special Equipment Co ltd
Priority to CN202310117211.2A priority Critical patent/CN116245913A/zh
Publication of CN116245913A publication Critical patent/CN116245913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于层次化上下文引导的多目标跟踪方法,并提出了一种新的分层上下文引导网络,该网络通过分层地视频帧全局处理、局部处理和对象包围框处理来执行检测、包围框特征提取和对象位置细化。该跟踪器分别以全局和局部的方式学习视频帧的时间和空间上下文特征,引导多尺度特征聚合,从而定位感兴趣的区域,提取丰富的包围框特征。这样,每个检测的包围框除了语义信息外,还包含上下文关系信息,减少了不完整或不清楚的对象的重要信息的丢失。基于学习到的上下文特征,设计了一个上下文引导的对象位置细化模块,通过传播对象在每一帧的包围框特征来学习目标对象轨迹片段的代表性特征,并根据代表性特征生成位置细化后的对象。

Description

基于层次化上下文引导的多目标跟踪方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于层次化上下文引导的多目标跟踪方法。
背景技术
随着深度学习的发展,卷积神经网络应用在越来越多的场景中,而多目标跟踪由于其在视频监控、人机交互和虚拟现实中的广泛应用,在计算机视觉领域受到越来越多的重识。多目标跟踪旨在定位给定视频序列中的多个目标对象,为不同的对象分配不同的身份ID并记录每个ID在视频中的轨迹。目前,随着基于卷积神经网络的目标检测技术不断发展,基于检测的跟踪算法已成为多目标跟踪的主流方向。基于检测的跟踪算法首先需要在每个视频帧上执行目标检测获取每帧的检测结果,然后根据检测结果进行数据关联以创建每个对象在视频中的轨迹。
一阶段多目标跟踪方法的核心思想是在一个深度学习网络中同时进行目标检测和跟踪,通过共享大部分计算量来减少推理时间。最近,一种同时兼容跟踪效率和精度的一阶段多目标跟踪方法被提出,它是一个anchor-free的方法,使用ResNet-34结构作为骨干网络,使其能够很好的兼容精度和速度,通在骨干网络上添加Deep Layer Aggregation(DLA)结构来实现不同尺度的检测,这种网络设计可以根据目标的尺度和姿势动态地适应感受野,同时有助于缓解对齐问题。
该方法的框架如图2所示,主要由用于提取特征的特征提取网络,检测部分和嵌入ID的重识别3个部分。其中,检测分支分别用热图去预测物体中心的位置、获取目标的中心偏移量和估计目标边界框的高度和宽度,重识别分支的目的是产生能够区分物体的特征。检测部分和重识别部分共享特征提取网络提取到的特征,并同时进行训练学习。这些一次性方法虽然节省了一些计算量,但在跟踪场景复杂的情况下性能仍然有限。
发明内容
本发明的实施例提供了一种基于层次化上下文引导的多目标跟踪方法,用于解决现有技术中存在的技术问题。
为了实现上述目的,本发明采取了如下技术方案。
基于层次化上下文引导的多目标跟踪方法,包括:
S1基于原始视频序列,令t表示原始视频序列的第t帧;
S2当t=1时,通过上下文引导的多尺度聚合模块处理原始视频序列,获得目标对象在当前帧的检测值Dt、检测值对应的包围框特征
Figure BDA0004078994910000021
和当前视频帧的特征
Figure BDA0004078994910000022
并使用检测值Dt初始化目标对象Ot,使用检测值对应的包围框特征
Figure BDA0004078994910000023
初始化对象的包围框特征
Figure BDA0004078994910000024
使用目标对象的包围框特征
Figure BDA0004078994910000025
初始化对象轨迹片段的代表性特征
Figure BDA0004078994910000026
当t>1时,通过上下文引导的多尺度聚合模块处理原始视频序列的第t帧和第t-1帧,挖掘获得当前帧的具有时空上下文信息的视频帧特征
Figure BDA0004078994910000027
并根据上下文信息的引导获取第t帧图像中的检测值Dt,检测值对应的包围框特征
Figure BDA0004078994910000028
和第t帧图像的特征
Figure BDA0004078994910000029
S3通过上下文引导的对象位置细化模块,通过目标对象在第t-1帧时的包围框特征
Figure BDA00040789949100000210
初始化该目标对象在第t-1帧时轨迹片段的代表性特征
Figure BDA00040789949100000211
获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征
Figure BDA00040789949100000212
S4基于步骤S3获得的更新后的轨迹片段的代表性特征
Figure BDA00040789949100000213
和步骤S2得到的具有时空上下文信息的视频帧特征
Figure BDA00040789949100000214
通过上下文引导的对象位置细化模块进行处理,获得位置细化后目标对象Rt
S5基于步骤S2得到的第t帧图像中的检测值Dt、检测值对应的包围框特征
Figure BDA00040789949100000215
步骤S3获得的更新后的目标对象在第t帧时的轨迹片段的代表性特征
Figure BDA00040789949100000216
和步骤S4得到的位置细化后的目标对象Rt,构建二部图;
S6基于二部图通过匈牙利算法进行匹配;
S7基于步骤S6的匹配结果获得目标的跟踪轨迹结果,包括:将检测值Dt的位置坐标作为与该检测值Dt匹配的目标对象在当前帧的位置,与该目标对象对应的包围框特征
Figure BDA00040789949100000217
作为该目标对象在当前帧的特征;
S8判断原始视频序列的处理是否结束,若是,则输出所有的目标的跟踪轨迹结果,否则,执行针对原始视频序列下一帧的处理操作。
优选地,上下文引导的多尺度聚合模块包括全局时序上下文挖掘子模块和基于补丁的空间上下文挖掘子模块;
全局时序上下文学习子模块用于处理不同帧之间的时间上下文关系,通过将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征,然后对连接特征进行视频帧全局的时间上下文学习,计算当前帧特征的每个像素与前一帧所有像素之间的关系,并将计算结果输送到局部空间上下文学习子模块;
局部空间上下文学习子模块用于:基于全局时序上下文学习子模块的计算结果,利用ResNet34进行渐进式编码获得多尺度特征金字塔,对多尺度特征金字塔每一层的特征进行交叉分割,生成多个局部特征,然后对每个局部特征独立地进行空间上下文学习以获得特定范围的空间上下文关系,拼接同一层特征中地所有具有空间上下文信息地局部特征以得到特征金字塔中每一层完整的具有空间上下文的特征图,最后使用深层聚合方法对多尺度特征金字塔每一层的特征图进行聚合操作,获得多尺度聚合的当前视频的特征
Figure BDA0004078994910000031
基于多尺度聚合特征定位感兴趣的区域,获得检测值Dt和检测值的包围框特征
Figure BDA0004078994910000032
优选地,局部空间上下文学习子模块通过式
Figure BDA0004078994910000033
Figure BDA0004078994910000034
计算获得多尺度聚合的当前视频的特征
Figure BDA0004078994910000035
式中,Y为模块学到的具有上下文信息的特征,X为输入特征,在计算时间上下文关系时,X为当前帧和前一帧底层特征串联后的结果,在计算空间上下文时,X为多尺度金字塔中每一层进行交叉分割后的局部特征,W1,W2,W3,W4表示4个卷积层,Softmax表示激活函数,Maxpool为最大池化操作,
Figure BDA0004078994910000036
是一个系数,具体是通过自注意力机制计算获得的特征关系;
局部空间上下文学习子模块将计算获得的多尺度聚合的当前视频的特征
Figure BDA0004078994910000037
输送到检测分支和包围框特征提取分支中,得到当前帧的检测值Dt、检测值对应的包围框特征
Figure BDA0004078994910000038
优选地,步骤S3包括:通过式
Figure BDA0004078994910000039
计算获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征
Figure BDA00040789949100000310
式中,j表示第j个目标对象,
Figure BDA00040789949100000311
表示该目标对象在第t-1帧时的包围框特征,
Figure BDA00040789949100000312
代表该目标对象在第t-1帧时轨迹片段的代表性特征。
优选地,步骤S4包括:
S41将具有时空上下文信息的当前视频帧帧特征
Figure BDA00040789949100000313
和上一视频帧帧特征
Figure BDA00040789949100000314
输入到编码器中进行编码;
S42通过式
Figure BDA0004078994910000041
将步骤S3获得的
Figure BDA0004078994910000042
与子步骤S41获得的编码结果输入到解码器中进行对象探查,计算获得细化对象Rt;式中,TransD和TransE是Transformer结构的编码器和解码器,f(.)是由卷积层组成的用于预测目标对象中心点位置,偏移量和包围框的函数。
由上述本发明的实施例提供的技术方案可以看出,本发明提供一种基于层次化上下文引导的多目标跟踪方法,并提出了一种新的分层上下文引导网络,该网络通过分层次自下而上的全局处理、局部处理和对象包围框处理来执行检测、包围框特征提取和对象位置细化。具体而言,该网络的多尺度聚合模块分别以全局和局部的方式学习时间和空间上下文特征,引导多尺度特征聚合,从而定位感兴趣的区域,提取丰富的包围框特征。这样,每个检测值的包围框特征除了语义信息外,还拥有上下文关系,减少了不完整或不清楚的对象的重要信息的丢失。最后,基于学习到的上下文特征,设计了一个上下文引导的对象位置细化模块,通过传播对象在历史帧中的包围框特征来学习该对象轨迹片段的代表性特征,并利用代表性特征和多尺度聚合模块的上下文特征在每一帧中生成位置细化后的对象,这种方式可以缓解对象和检测之间的错误匹配。以此来提高多目标跟踪任务模型在复杂跟踪场景中的性能。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于层次化上下文引导的多目标跟踪方法的处理流程图;
图2为现有技术的多目标跟踪处理过程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明提供一种基于层次化上下文引导的多目标跟踪方法,用于解决现有技术中存在的如下技术问题:
现有的很多多目标跟踪技术已经实现了一阶段方法,但是这些一阶段方法虽然大大提高了多目标跟踪的效率,但忽略了该方法的性能。在实际应用中,经常会遇到非常复杂的情况:物体的数量往往多达几十甚至数百个,物体间频繁的相互作用和遮挡很容易导致物体外观不完整或不清晰。而现有的很多一阶段方法由于缺乏对上下文线索的综合考虑,性能仍然局限于复杂的跟踪场景。
有鉴于此,本发明提出了一种用于一阶段多目标跟踪任务的新型分层上下文引导网络,该网络由上下文引导的多尺度聚合模块和上下文引导的对象位置细化模块组成。其中,为了减少由于相似目标对象的干扰、外观不完整或不清晰的目标对象所造成的性能限制,设计了上下文引导的多尺度聚合模块,该模块以全局和局部的方式学习视频帧的时空上下文信息,,指导多尺度特征聚合,以进行检测和包围框特征提取;为了有效地缓解错误匹配并处理长期遮挡问题,再多尺度聚合模块的基础上设计了上下文引导的对象位置细化模块用于调整对象的位置。
参见图1,本发明提供一种基于层次化上下文引导的多目标跟踪方法,包括如下步骤:
S1基于原始视频序列,令t表示原始视频序列的第t帧;
S2当t=1时,通过上下文引导的多尺度聚合模块处理原始视频序列,获得目标对象在当前帧的检测值Dt、检测值对应的包围框特征
Figure BDA0004078994910000061
和当前视频帧的特征
Figure BDA0004078994910000062
并使用检测值Dt初始化目标对象Ot,使用检测值对应的包围框特征
Figure BDA0004078994910000063
初始化对象的包围框特征
Figure BDA0004078994910000064
使用目标对象的包围框特征
Figure BDA0004078994910000065
初始化对象轨迹片段的代表性特征
Figure BDA0004078994910000066
当t>1时,通过上下文引导的多尺度聚合模块处理原始视频序列的第t帧和第t-1帧,挖掘获得当前帧的具有时空上下文信息的视频帧特征
Figure BDA0004078994910000067
并根据上下文信息的引导获取第t帧图像中的检测值Dt,检测值对应的包围框特征
Figure BDA0004078994910000068
和第t帧图像的特征
Figure BDA0004078994910000069
S3通过上下文引导的对象位置细化模块,通过目标对象在第t-1帧时的包围框特征
Figure BDA00040789949100000610
初始化该目标对象在第t-1帧时轨迹片段的代表性特征
Figure BDA00040789949100000611
获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征
Figure BDA00040789949100000612
S4基于步骤S3获得的更新后的轨迹片段的代表性特征
Figure BDA00040789949100000613
和步骤S2得到的具有时空上下文信息的视频帧特征
Figure BDA00040789949100000614
通过上下文引导的对象位置细化模块进行处理,获得位置细化后目标对象Rt
S5基于步骤S2得到的第t帧图像中的检测值Dt、检测值对应的包围框特征
Figure BDA00040789949100000615
步骤S3获得的更新后的目标对象在第t帧时的轨迹片段的代表性特征
Figure BDA00040789949100000616
和步骤S4得到的位置细化后的目标对象Rt,构建二部图;
S6基于二部图通过匈牙利算法进行匹配;
S7基于步骤S6的匹配结果获得目标的跟踪轨迹结果,包括:将检测值Dt的位置坐标作为与该检测值Dt匹配的目标对象在当前帧的位置,与该目标对象对应的包围框特征
Figure BDA00040789949100000617
作为该目标对象在当前帧的特征;
S8判断原始视频序列的处理是否结束,若是,则输出所有的目标的跟踪轨迹结果,否则,执行针对原始视频序列下一帧的处理操作。
本发明提供的方法,首先需要对视频序列进行目标检测,然后将目标检测框中的目标进行特征提取,计算前后两帧目标之间的匹配程度并进行数据关联得到目标轨迹。
在多目标跟踪的实际应用场景中,往往需要根据一段没有任何标注信息的视频序列获得目标在视频序列中的运动轨迹,因此首先需要知道目标可能出现的位置,随着目标检测技术的不断提高,通过目标检测的方法获取视频中目标可能存在的位置成为多目标跟踪的主流。
在掌握目标可能出现的位置之后,如何将相邻视频帧之间同一个目标的位置关联起来得到目标在整个视频序列中的轨迹,即数据关联,是多目标跟踪中需要解决的关键问题。在步骤S2的实施例中,首先需要根据第1帧中的目标检测框对目标进行轨迹初始化,然后进行后续帧的数据关联。处理完所有视频帧后,输出每个目标对应的轨迹,即每个目标出现在哪一帧的哪个位置。
本发明模型整体框架由上下文引导的多尺度聚合和上下文引导的对象细化两个模块组成。在本发明中,将视频序列的每一帧依次输入到多尺度聚合模块和对象位置细化模块中得到视频帧中的检测值、检测值所对应包围框的特征、目标对象轨迹片段的代表性特征、经过位置细化后的目标对象,根据得到的这些结果构造二部图,并使用匈牙利算法进行数据关联,得到检测值和经过细化后的目标对象之间的匹配结果,最后根据匹配结果得到跟踪结果。
在本发明提供的方法中提出了一种用于一阶段多目标跟踪任务的新型分层上下文引导网络,该网络中包含一种新的上下文引导的多尺度聚合模块和上下文引导的对象位置细化模块。
分析发现现有一阶段多目标跟踪模型由于相似目标对象的干扰、外观不完整或不清晰会造成性能限制,为此设计了一个上下文引导的多尺度聚合模块,该模块使用ResNet34作为骨干网络。由于不同检测的空间拓扑结构不同,且随时间变化,多尺度聚合模块中的上下文学习有助于对检测的理解和定位。此外,该模块提供的具有时空上下文信息的视频帧特征为后续的对象位置细化奠定了坚实的基础。该模块通过全局时序上下文学习和局部空间上下文学习两个步骤来学习视频帧中的上下文关系,指导多尺度特征聚合,减少混合个体,生成具有更清晰边界的区别性嵌入。
上下文引导的多尺度聚合是为了减少由于相似目标的干扰、外观不完整或不清晰的目标对象所造成的性能限制,提高聚合特征的有效性而设计的,该模块包括全局时序上下文学习和局部空间上下文挖掘两个步骤,以此来学习上下文关系指导多尺度特征聚合。
关于上下文引导的多尺度聚合模块,具体提供的优选实施例中提出了一种分层学习上下文时空特征的方法。不同于现有的方法(图2),考虑到在视频序列中,相邻数据帧的每个像素点都可能发生变化,而在同一数据帧中,像素点之间的变化往往与其近邻点紧密相关,因此采用一种从全局到局部的方式学习空间上下文。具体地,提出一个上下文学习模块,以Resnet50作为特征提取器,在Resnet50得到的底层特征中以全局方式使用上下文学习模块学习时间上下文,并在之后的多尺度特征金字塔中以局部方式学习目标与其周围环境的空间上下文信息。上下文学习模块的计算公式如公式(1)(2)所示,Y为模块学到的具有上下文信息的特征。X为输入特征,在以全局方式使用上下文学习模块学习时间上下文时,X为当前帧的底层特征和前一帧视频的底层特征串联后的结果;在以局部方式学习空间上下文时,X为将多尺度金字塔中各层特征进行均匀划分后的结果(进行交叉分割后的局部特征)。W1,W2,W3,W4表示4个卷积层,Softmax表示激活函数,Maxpool为最大池化操作,
Figure BDA0004078994910000081
是一个系数,具体是通过已知的自注意力机制计算获得的特征关系。
Figure BDA0004078994910000082
Figure BDA0004078994910000083
在上下文引导的多尺度聚合模块中,本实施例使用深层聚合方法对得到的各层具有时空上下文信息的特征进行聚合,以得到当前帧的特征
Figure BDA0004078994910000084
然后将该特征输送到检测分支和包围框特征提取分支中,得到当前帧的检测值Dt、检测值对应的包围框特征
Figure BDA0004078994910000085
全局时序上下文学习是以不同帧作为研究对象的,用以研究不同帧之间的时间上下文关系,并将得到的输出传递给空间上下文学习中。局部空间上下文学习以得到的时间上下文特征为前提,进而利用深层聚合方法得到多尺度聚合特征,从而定位感兴趣的区域,提取丰富的包围框特征。该模块得到的输出会传入到上下文引导的对象位置细化模块中进行处理。
具体的,上下文引导的多尺度聚合模块使用ResNet34作为骨干网络。全局时序上下文学习是以不同帧作为研究对象的,用以研究不同帧之间的时间上下文关系。它将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征,然后通过上下文学习模块对连接特征进行全局的时间上下文学习,计算当前帧特征的每个像素与前一帧所有像素之间的关系。将得到的输出传递给空间上下文学习中。局部空间上下文挖掘以时间上下文的特征为前提,利用ResNet34进行渐进式编码得到多尺度特征金字塔。对于每一层特征都执行相同的操作:对特征进行交叉分割生成多个局部特征,然后对每个局部特征独立地进行空间上下文学习以获得特定范围的空间上下文关系,拼接同一层特征中地所有具有空间上下文信息地局部特征以得到特征金字塔中每一层完整的具有空间上下文的特征图,最后使用深层聚合方法对多尺度特征金字塔每一层的特征图进行聚合操作,获得视频帧的多尺度聚合特征
Figure BDA0004078994910000086
基于多尺度聚合特征定位感兴趣的区域,获得检测值Dt、检测值的包围框特征
Figure BDA0004078994910000087
如果存在长期遮挡,则会导致目标预测失败,因此,如何减轻跟踪中被跟踪对象的错误匹配和检测的问题成为一个不容忽视的问题,由此设计了上下文引导的对象位置细化模块,它借助学习到的具有时空上下文信息的视频帧特征和更新的轨迹片段代表性特征来探索每一帧中对象的可能位置,以获得每帧中尽可能接近真实目标的细化目标。该模块由轨迹片段的代表性特征更新和对象位置细化两部分组成,它通过传播对象在历史帧中的包围框特征来学习该对象轨迹片段的代表性特征,并利用代表性特征和多尺度聚合模块的上下文特征在每一帧中生成位置细化后的对象。使用轨迹片段的代表性特征代替目标对象在单独一帧中的包围框特征,可以为对象位置细化提供更可靠的特征信息,抑制一些噪声查询导致的细化失败。轨迹片段的代表性特征传递了之前所见对象的语义、上下文和位置信息,因位置细化模块可以达到良好的跟踪对象位置细化效果。在这个模块的作用下,细化后的目标更接近真实位置,提高了目标与检测之间的关联性能。
具体的,在上下文引导的对象位置细化模块中提出了目标对象的包围框特征和其轨迹片段的代表性特征这两个概念。目标对象的包围框特征是指目标在某一帧中的特征,轨迹片段的代表性特征是指该目标在一个时间段内的具有代表性的特征。全局时序上下文学习子模块用于处理不同帧之间的时间上下文关系,通过将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征,然后对连接特征进行视频帧全局的时间上下文学习,计算当前帧特征的每个像素与前一帧所有像素之间的关系,并将计算结果输送到所述的局部空间上下文学习子模块。
局部空间上下文学习子模块用于:基于全局时序上下文学习子模块的计算结果,利用ResNet34进行渐进式编码获得多尺度特征金字塔,对多尺度特征金字塔每一层的特征进行交叉分割,生成多个局部特征,然后对每个局部特征独立地进行空间上下文学习以获得特定范围的空间上下文关系,拼接同一层特征中地所有具有空间上下文信息地局部特征以得到特征金字塔中每一层完整的具有空间上下文的特征图,最后使用深层聚合方法对多尺度特征金字塔每一层的特征图进行聚合操作,获得多尺度聚合的当前视频的特征
Figure BDA0004078994910000091
基于多尺度聚合特征定位感兴趣的区域,获得检测值Dt和检测值的包围框特征
Figure BDA0004078994910000092
具体地,利用前一帧跟踪得到的所有目标对象的包围框特征更新其轨迹片段的代表性特征,如公式(3)所示。其中j表示第j个目标对象,
Figure BDA0004078994910000093
表示其在第t-1帧时的包围框特征,
Figure BDA0004078994910000094
代表其在第t-1帧时轨迹片段的代表性特征。对于在第t-1帧中刚出现的目标,我们直接使用其在第t-1帧中的包围框特征初始化该轨迹片段的代表性特征。
Figure BDA0004078994910000101
在本发明提供的优选实施例中,步骤S4具体包括:
S41将具有时空上下文信息的当前视频帧帧特征
Figure BDA0004078994910000102
和上一视频帧帧特征
Figure BDA0004078994910000103
输入到编码器中进行编码;
S42通过式
Figure BDA0004078994910000104
将步骤S3获得的
Figure BDA0004078994910000105
与子步骤S41获得的编码结果输入到解码器中进行对象探查,计算获得细化对象Rt;式中,TransD和TransE是Transformer结构的编码器和解码器,f(.)是由卷积层组成的用于预测目标对象中心点位置,偏移量和包围框的函数。
如图1模型流程图所示,本发明整体流程步骤为:
1.给定一个需要进行多目标跟踪的视频序列,将其输入到模型中。
2.使用t表示输入视频的第t帧,从t=1开始直至处理完视频序列的所有视频帧。当t=1时,将第一帧输入到上下文引导的多目标聚合模块中,获得检测值Dt,检测值对应的包围框特征
Figure BDA0004078994910000106
和当前视频帧的特征
Figure BDA0004078994910000107
并使用Dt初始化目标对象Ot,使用
Figure BDA0004078994910000108
初始化目标对象的包围框特征
Figure BDA0004078994910000109
使用
Figure BDA00040789949100001010
初始化轨迹片段的代表性特征
Figure BDA00040789949100001011
3.当t>1时,将当前帧和上一帧的底层特征输入到上下文引导的多特征聚合模块中,通过学习时间和空间上下文来获得获得检测值Dt,检测值对应的包围框特征
Figure BDA00040789949100001012
和当前视频帧的特征
Figure BDA00040789949100001013
4.轨迹片段的代表性特征
Figure BDA00040789949100001014
进行更新,将第(t-1)帧的对象包围框特征
Figure BDA00040789949100001015
传播到历史轨迹片段代表性特征
Figure BDA00040789949100001016
中来更新第t帧中的轨迹片段代表性
Figure BDA00040789949100001017
5.利用上下文引导的对象位置细化模块产生位置细化后的对象Rt
6.根据Dt
Figure BDA00040789949100001018
和Rt构建二部图,其中二部图中的亲和力的值包括
Figure BDA00040789949100001019
Figure BDA00040789949100001020
之间的欧式距离、Dt和Rt的中心点之间的欧氏距离;
7.在二部图上使用匈牙利算法进行结果匹配。在数据关联中,我们将检测值的位置坐标作为与其匹配的对象在当前帧的位置,对应的包围框特征作为该对象在当前帧的特征。此外,还提出一种双重验证策略来处理长期遮挡的物体。具体来说,我们使用匈牙利算法来获得二部图的匹配结果。与细化对象不匹配的检测会产生一个新对象,而与检测不匹配的细化对象在被丢弃前最多会休眠50帧。通过计算出的亲和度值将新对象与休眠对象进行比较,确定新对象是否属于休眠对象。通过在线存储休眠对象,并将休眠对象与新对象进行比较,可以有效地抑制长期遮挡对象的跟踪失败。对于不属于任何休眠对象的新对象,我们将其视为一个真正的新目标对象。
8.根关联结果生成目标轨迹;
9.判断整个视频序列是否结束,若已经结束,输出所有目标的跟踪轨迹;否则,执行下一帧的跟踪操作。
综上所述,本发明提供一种基于层次化上下文引导的多目标跟踪方法,并提出了一种新的分层上下文引导网络,该网络通过分层全局处理、局部处理和对象处理来执行检测、特征提取和对象位置细化。具体而言,该跟踪器分别以全局和局部的方式学习时间和空间上下文特征,引导多尺度聚合,从而定位感兴趣的区域,提取丰富的包围框特征。这样,每个检测的嵌入除了语义信息外,还拥有上下文关系,减少了不完整或不清楚的对象的重要信息的丢失。最后,基于学习到的上下文特征,设计了一个上下文引导的对象位置细化模块,通过传播对象在每一帧的包围框特征来学习目标对象轨迹片段的代表性特征,并根据代表性特征生成位置细化后的对象,可以缓解对象和检测之间的错误匹配。以此来提高多目标跟踪任务模型在复杂跟踪场景中的性能。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.基于层次化上下文引导的多目标跟踪方法,其特征在于,包括:
S1基于原始视频序列,令t表示原始视频序列的第t帧;
S2当t=1时,通过上下文引导的多尺度聚合模块处理原始视频序列,获得目标对象在当前帧的检测值Dt、检测值对应的包围框特征
Figure FDA0004078994900000011
和当前视频帧的特征
Figure FDA0004078994900000012
并使用检测值Dt初始化目标对象Ot,使用检测值对应的包围框特征
Figure FDA0004078994900000013
初始化对象的包围框特征
Figure FDA0004078994900000014
使用目标对象的包围框特征
Figure FDA0004078994900000015
初始化对象轨迹片段的代表性特征
Figure FDA00040789949000000117
当t>1时,通过上下文引导的多尺度聚合模块处理原始视频序列的第t帧和第t-1帧,挖掘获得当前帧的具有时空上下文信息的视频帧特征
Figure FDA0004078994900000016
并根据上下文信息的引导获取第t帧图像中的检测值Dt,检测值对应的包围框特征
Figure FDA0004078994900000017
和第t帧图像的特征
Figure FDA0004078994900000018
S3通过上下文引导的对象位置细化模块,通过目标对象在第t-1帧时的包围框特征
Figure FDA0004078994900000019
初始化该目标对象在第t-1帧时轨迹片段的代表性特征
Figure FDA00040789949000000110
获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征
Figure FDA00040789949000000111
S4基于步骤S3获得的更新后的轨迹片段的代表性特征
Figure FDA00040789949000000112
和步骤S2得到的具有时空上下文信息的视频帧特征
Figure FDA00040789949000000113
通过上下文引导的对象位置细化模块进行处理,获得位置细化后目标对象Rt
S5基于步骤S2得到的第t帧图像中的检测值Dt、检测值对应的包围框特征
Figure FDA00040789949000000114
步骤S3获得的更新后的目标对象在第t帧时的轨迹片段的代表性特征
Figure FDA00040789949000000115
和步骤S4得到的位置细化后的目标对象Rt,构建二部图;
S6基于二部图通过匈牙利算法进行匹配;
S7基于步骤S6的匹配结果获得目标的跟踪轨迹结果,包括:将检测值Dt的位置坐标作为与该检测值Dt匹配的目标对象在当前帧的位置,与该目标对象对应的包围框特征
Figure FDA00040789949000000116
作为该目标对象在当前帧的特征;
S8判断原始视频序列的处理是否结束,若是,则输出所有的目标的跟踪轨迹结果,否则,执行针对原始视频序列下一帧的处理操作。
2.根据权利要求1所述的方法,其特征在于,步骤S2中,所述上下文引导的多尺度聚合模块包括全局时序上下文挖掘子模块和基于补丁的空间上下文挖掘子模块;
所述全局时序上下文学习子模块用于处理不同帧之间的时间上下文关系,通过将上一帧的底层特征与当前帧的底层特征进行串联生成连接特征,然后对连接特征进行视频帧全局的时间上下文学习,计算当前帧特征的每个像素与前一帧所有像素之间的关系,并将计算结果输送到所述的局部空间上下文学习子模块;
所述的局部空间上下文学习子模块用于:基于所述全局时序上下文学习子模块的计算结果,利用ResNet34进行渐进式编码获得多尺度特征金字塔,对多尺度特征金字塔每一层的特征进行交叉分割,生成多个局部特征,然后对每个局部特征独立地进行空间上下文学习以获得特定范围的空间上下文关系,拼接同一层特征中地所有具有空间上下文信息地局部特征以得到特征金字塔中每一层完整的具有空间上下文的特征图,最后使用深层聚合方法对多尺度特征金字塔每一层的特征图进行聚合操作,获得多尺度聚合的当前视频的特征
Figure FDA0004078994900000021
基于多尺度聚合特征定位感兴趣的区域,获得检测值Dt和检测值的包围框特征
Figure FDA0004078994900000022
3.根据权利要求2所述的方法,其特征在于,所述局部空间上下文学习子模块通过式
Figure FDA0004078994900000023
Figure FDA0004078994900000024
计算获得多尺度聚合的当前视频的特征
Figure FDA0004078994900000025
式中,Y为模块学到的具有上下文信息的特征,X为输入特征,在计算时间上下文关系时,X为当前帧和前一帧底层特征串联后的结果,在计算空间上下文时,X为多尺度金字塔中每一层进行交叉分割后的局部特征,W1,W2,W3,W4表示4个卷积层,Softmax表示激活函数,Maxpool为最大池化操作,
Figure FDA0004078994900000026
是一个系数,具体是通过自注意力机制计算获得的特征关系;
所述局部空间上下文学习子模块将计算获得的多尺度聚合的当前视频的特征
Figure FDA0004078994900000027
输送到检测分支和包围框特征提取分支中,得到当前帧的检测值Dt、检测值对应的包围框特征
Figure FDA0004078994900000028
4.根据权利要求1所述的方法,其特征在于,步骤S3包括:通过式
Figure FDA0004078994900000029
计算获得更新后的该目标对象在第t帧时的轨迹片段的代表性特征
Figure FDA00040789949000000210
式中,j表示第j个目标对象,
Figure FDA00040789949000000211
表示该目标对象在第t-1帧时的包围框特征,
Figure FDA00040789949000000212
代表该目标对象在第t-1帧时轨迹片段的代表性特征。
5.根据权利要求1所述的方法,其特征在于,步骤S4包括:
S41将具有时空上下文信息的当前视频帧帧特征
Figure FDA00040789949000000213
和上一视频帧帧特征
Figure FDA00040789949000000214
输入到编码器中进行编码;
S42通过式
Figure FDA0004078994900000031
将步骤S3获得的
Figure FDA0004078994900000032
与子步骤S41获得的编码结果输入到解码器中进行对象探查,计算获得细化对象Rt;式中,TransD和TransE是Transformer结构的编码器和解码器,f(.)是由卷积层组成的用于预测目标对象中心点位置,偏移量和包围框的函数。
CN202310117211.2A 2023-01-30 2023-01-30 基于层次化上下文引导的多目标跟踪方法 Pending CN116245913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310117211.2A CN116245913A (zh) 2023-01-30 2023-01-30 基于层次化上下文引导的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310117211.2A CN116245913A (zh) 2023-01-30 2023-01-30 基于层次化上下文引导的多目标跟踪方法

Publications (1)

Publication Number Publication Date
CN116245913A true CN116245913A (zh) 2023-06-09

Family

ID=86625637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310117211.2A Pending CN116245913A (zh) 2023-01-30 2023-01-30 基于层次化上下文引导的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN116245913A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475387A (zh) * 2023-12-04 2024-01-30 北京国遥新天地信息技术股份有限公司 一种利用Hive离线分析技术及伴随思想进行渔船双拖分析的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475387A (zh) * 2023-12-04 2024-01-30 北京国遥新天地信息技术股份有限公司 一种利用Hive离线分析技术及伴随思想进行渔船双拖分析的方法
CN117475387B (zh) * 2023-12-04 2024-04-30 北京国遥新天地信息技术股份有限公司 一种利用Hive离线分析技术及伴随思想进行渔船双拖分析的方法

Similar Documents

Publication Publication Date Title
Qi et al. FTC-Net: Fusion of transformer and CNN features for infrared small target detection
Liu et al. Counting people by estimating people flows
CN110853074A (zh) 一种利用光流增强目标的视频目标检测网络系统
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
Teng et al. Three-step action search networks with deep q-learning for real-time object tracking
An Anomalies detection and tracking using Siamese neural networks
Ma et al. Deep trajectory post-processing and position projection for single & multiple camera multiple object tracking
Zhang et al. Cross-domain attention network for unsupervised domain adaptation crowd counting
Li et al. An end-to-end identity association network based on geometry refinement for multi-object tracking
CN116245913A (zh) 基于层次化上下文引导的多目标跟踪方法
Lee et al. Decode-MOT: How can we hurdle frames to go beyond tracking-by-detection?
Zhang et al. Spatiotemporal adaptive attention 3D multiobject tracking for autonomous driving
Chu et al. Illumination-guided transformer-based network for multispectral pedestrian detection
Wang et al. Non-local attention association scheme for online multi-object tracking
Duan [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video
Gu et al. STMT: Spatio-temporal memory transformer for multi-object tracking
CN117173607A (zh) 多层级融合多目标跟踪方法、系统及计算机可读存储介质
Zhu et al. Spatio-temporal hierarchical feature transformer for UAV object tracking
Amshavalli et al. Real-time institution video data analysis using fog computing and adaptive background subtraction
CN112734800A (zh) 一种基于联合检测与表征提取的多目标跟踪系统和方法
Wang et al. Sture: Spatial–temporal mutual representation learning for robust data association in online multi-object tracking
Cao et al. A long-memory pedestrian target tracking algorithm incorporating spatiotemporal trajectory feature enhancement model
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法
Ren et al. CountingMOT: Joint Counting, Detection and Re-Identification for Multiple Object Tracking
CN115082854A (zh) 一种面向安防监控视频的行人搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination