CN117036397A - 一种基于融合信息关联和相机运动补偿的多目标跟踪方法 - Google Patents

一种基于融合信息关联和相机运动补偿的多目标跟踪方法 Download PDF

Info

Publication number
CN117036397A
CN117036397A CN202310701851.8A CN202310701851A CN117036397A CN 117036397 A CN117036397 A CN 117036397A CN 202310701851 A CN202310701851 A CN 202310701851A CN 117036397 A CN117036397 A CN 117036397A
Authority
CN
China
Prior art keywords
detection
detection result
target
matrix
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310701851.8A
Other languages
English (en)
Inventor
冯堂虎
梁秀波
张启飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310701851.8A priority Critical patent/CN117036397A/zh
Publication of CN117036397A publication Critical patent/CN117036397A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于融合信息关联和相机运动补偿的多目标跟踪方法,该方法包括:YOLOX目标检测器加入Re‑ID分支后进行训练;通过YOLOX目标检测器获取目标位置及外观信息;基于卡尔曼滤波对历史轨迹在当前帧的位置进行预测,通过相机运动补偿进行修正;融合外观、位置、运动方向信息计算用于匹配的代价矩阵,使用匈牙利匹配算法完成对高置信度检测结果与现存轨迹的匹配,融合位置、运动方向信息完成对低置信度检测结果与现存轨迹的匹配;根据匹配后的检测结果对目标轨迹进行管理。本发明通过融合外观、位置、方向信息完成轨迹与检测结果的关联,通过相机运动补偿修正卡尔曼滤波估计结果,使得复杂场景下轨迹连续性更具鲁棒性。

Description

一种基于融合信息关联和相机运动补偿的多目标跟踪方法
技术领域
本发明涉及计算机视觉跟踪领域,尤其涉及一种基于融合信息关联和相机运动补偿的多目标跟踪方法。
背景技术
多目标跟踪技术旨在检测并跟踪视频中多个目标,并保持视频中同一个目标唯一的身份标识。现已广泛应用在视频监控、自动驾驶、视频分析以及人机交互等领域。
近年来,由于基于深度学习的目标检测技术的快速发展,先进行目标检测后完成目标跟踪的范式成为主流的多目标跟踪实现方案。目标检测主要负责检测图像中目标位置、大小、置信度等信息。YOLO系列检测器、CenterNet检测器等以实时的性能获得较高的检测精度,极大的推动了目标跟踪等下游任务的研究。
目前,主流的多目标跟踪算法在检测之后的数据关联阶段主要利用两类模型来完成轨迹和检测结果的关联:一种是位置与运动模型:位置与运动模型:基于匀速模型假设,通过卡尔曼滤波算法预测轨迹在当前帧中的位置、速度等状态信息;计算检测结果与预测结果IOU相似度,通过匈牙利匹配或贪心匹配策略来完成跟踪轨迹与检测结果的关联。另一种是外观模型:为了进一步加强跟踪关联的正确性以及重新匹配消失的目标,外观模型引入目标的深度特征,通过计算轨迹对应目标的深度特征与检测目标深度特征的余弦相似度,通过匈牙利匹配或贪心匹配策略来完成关联步骤。
基于以上两类模型,代表性算法主要包括基于Sort、DeepSort的多目标跟踪算法。为了进一步提升算法性能、减少计算代价,JDE范式的多目标跟踪算法将Re-ID深度特征的提取扩展到检测中,通过共享参数的方式提升了计算的实时性并取得了不错的跟踪效果。
多目标跟踪场景的复杂性对检测以及关联步骤带来了极大的挑战。在拥挤、遮挡、模糊场景下,基于Re-ID网络的深度特征变得可靠性降低;在相机运动、长期遮挡场景下,基于IOU相似度的匹配往往不准确。以上问题导致了目标轨迹的连续性较差、轨迹身份切换频繁。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于融合信息关联和相机运动补偿的多目标跟踪方法。
本发明的目的是通过以下技术方案来实现的:一种基于融合信息关联和相机运动补偿的多目标跟踪方法,包括以下步骤:
S1、对目标数据集进行处理以构建训练集,在YOLOX目标检测器上加入Re-ID分支,并基于训练集对修改后的YOLOX目标检测器进行训练,以获取训练好的YOLOX目标检测器;
S2、对视频当前帧图像利用YOLOX目标检测器获取检测结果;其中,所述检测结果包括目标检测框、置信度以及外观特征向量;
S3、基于卡尔曼滤波对现存轨迹在当前帧图像中的位置进行预测,通过相机运动补偿修正卡尔曼滤波对当前帧图像的运动状态估计,以获取修正后的估计状态信息及其对应的估计协方差矩阵;
S4、融合外观特征向量、修正后的估计状态信息以及运动方向信息计算第一代价矩阵,并通过匈牙利匹配方法完成高置信度检测的检测结果与现存轨迹的第一次匹配;融合修正后的估计状态信息以及运动方向信息计算第二代价矩阵,并通过匈牙利匹配方法完成低置信度检测的检测结果与现存轨迹的第二次匹配;
S5、根据步骤S4中匹配后的检测结果对目标轨迹进行管理;其中,所述管理包括创建、删除和更新。
进一步地,所述步骤S1包括以下子步骤:
S11、采集目标数据集并对其中的数据进行处理,将同一个ID身份的需要检测的目标数据标注为一个类别,根据处理后的目标数据集构建训练集;
S12、对YOLOX目标检测器的检测头进行修改:将分类分支改为输出2个通道,分别代表前景、背景的分类概率;增加Re-ID分支,以为特征图每个位置输出128维的外观特征;
S13、构建多任务损失函数,并在训练集上对修改后的YOLOX目标检测器进行训练,以获取训练好的YOLOX目标检测器;其中,所述多任务损失函数包括分类损失、检测框回归损失、IOU损失以及Re-ID损失。
进一步地,所述步骤S12中,修改后的YOLOX目标检测器的检测头包括分类分支、Re-ID分支和检测框回归分支,其中,所述分类分支包括用于输出前景的分类概率的通道和用于输出背景的分类概率的通道;所述Re-ID分支为特征图每个位置输出128维的外观特征,Re-ID分支包括位置感知空间注意力机制,所述位置感知空间注意力机制包括1x1卷积层、最大池化层、平均池化层和sigmoid激活函数;所述检测框回归分支包括用于输出4维检测框坐标的分支和用于输出IOU质量估计分数的分支。
进一步地,所述步骤S2包括以下子步骤:
S21、将视频当前帧图像输入到YOLOX目标检测器中,以获取检测结果;其中,所述检测结果包括前景分类概率、IOU质量分数、检测框回归结果和外观特征向量;
S22、使用IOU质量分数与前景分类概率相乘作为置信度,基于该置信度,使用非极大值抑制对检测结果进行筛选处理,以获取筛选后的检测结果;其中,筛选后的检测结果包括目标检测框、置信度和外观特征向量。
进一步地,所述使用非极大值抑制对检测结果进行筛选处理具体为:将置信度小于预设的第一置信度阈值的检测框去除;通过计算剩余检测框之间的交并比,以去除重复的检测框。
进一步地,所述步骤S3包括以下子步骤:
S31、基于卡尔曼滤波匀速模型对现存轨迹在当前帧图像中的运动状态进行估计,以获取估计状态信息和对应的估计协方差矩阵;
S32、通过相机运动补偿采用图像配准方法计算前后两帧图像的背景区域中关键点的仿射变换矩阵;
S33、使用仿射变换矩阵对当前帧图像中目标的估计状态信息和对应的估计协方差矩阵进行修正,以获取修正后的估计状态信息及其对应的估计协方差矩阵。
进一步地,所述步骤S4包括以下子步骤:
S41、设置第二置信度阈值和第三置信度阈值,将置信度大于第二置信度阈值的检测结果定义为高置信度检测,将置信度大于等于第三置信度阈值且小于等于第二置信度阈值的检测结果定义为低置信度检测;
S42、根据步骤S2获取的检测结果和步骤S3获取的修正后的估计状态信息以及步骤S41中高置信度检测的定义获取高置信度检测的检测结果,计算高置信度检测的检测结果与现存轨迹的第一位置相似度矩阵、第一外观特征相似度矩阵以及第一方向一致性矩阵,并加权融合相似性信息,以计算第一代价矩阵;并根据第一代价矩阵采用匈牙利匹配方法完成检测结果与现存轨迹的第一次匹配;
S43、根据步骤S2获取的检测结果和步骤S3获取的修正后的估计状态信息以及步骤S41中低置信度检测的定义获取低置信度检测的检测结果,计算低置信度检测的检测结果与现存轨迹的第二位置相似度矩阵和第二方向一致性矩阵,并加权融合相似性信息,以计算第二代价矩阵;并根据第二代价矩阵采用匈牙利匹配方法完成检测结果与现存轨迹的第二次匹配。
进一步地,所述第一位置相似度矩阵过计算估计框和检测框的交并比来表示,其中估计框通过修正后的估计状态信息获取;
所述第一外观特征相似度矩阵通过计算现存轨迹外观特征向量和检测外观特征向量的余弦相似度来表示;
所述第一方向一致性矩阵通过计算现存轨迹运动方向和当前匹配的运动方向夹角的余弦值来表示;
所述第一代价矩阵通过第一位置相似度矩阵、第一外观相似度矩阵和第一方向一致性矩阵获取,表示为:
Ctotal=-(0.5×Areid+0.5×Adirection+Aiou)
其中,Ctotal为第一代价矩阵,Areid为第一外观相似度矩阵,Adirection为第一方向一致性矩阵,Aiou为位置相似度矩阵。
进一步地,所述根据步骤S4中匹配后的检测结果对目标轨迹进行管理,具体包括:
对于匹配成功的现存轨迹,使用匹配的检测结果通过卡尔曼滤波的更新过程更新目估计状态向量及其对应的估计协方差矩阵,以获取当前帧图像的最新轨迹位置,并通过指数移动平均更新轨迹的外观特征;
对于未匹配成功的高置信度的检测结果,创建并初始化一个新的轨迹;
对于未匹配成功的现存轨迹,且连续大于30帧图像均未匹配成功,则删除该现存轨迹。
进一步地,所述通过指数移动平均更新轨迹的外观特征具体为:将检测结果中的外观特征向量通过指数移动平均方式与轨迹的外观特征按照以下公式进行融合,以更新轨迹的外观特征;
其中,为对应t帧图像时第i个轨迹的外观特征向量,a是平滑指数,/>表示第t帧与第i个现存轨迹匹配的检测结果中的外观特征向量。
与现有技术相比,本发明的有益效果是:本发明提出了一种在复杂场景下更具鲁棒性的多目标跟踪方法,针对独立Re-ID网络获取外观特征带来的较高计算代价,将Re-ID分支加入到YOLOX目标检测器中,并通过加入位置感知的注意力机制来降低Re-ID任务与目标检测任务的矛盾;本发明通过融合方向一致性、外观相似度、IOU相似度等信息,提升了关联匹配的准确性,有利于提高可靠性;本发明通过相机运动补偿算法修正卡尔曼滤波估计状态,进一步保证了相机运动场景下的关联匹配的准确性。
附图说明
图1为本发明的基于融合信息关联和相机运动补偿的多目标跟踪方法的流程图;
图2为本发明的加入Re-ID分支的检测网络总体结构图;
图3为本发明的Re-ID分支的位置感知空间注意力机制的网络结构图;
图4为本发明的相机运动补偿修正前后跟踪效果对比图;其中,(a)表示无相机运动补偿时的跟踪效果图,(b)表示相机运动补偿修正后的跟踪效果图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明的基于融合信息关联和相机运动补偿的多目标跟踪方法,首先修改YOLOX目标检测器的检测头,加入Re-ID分支以减少独立Re-ID网络带来的计算代价,为了降低检测任务和Re-ID任务竞争矛盾,Re-ID分支在较早层采用独立的分支,并加入位置感知空间注意力机制。数据关联阶段,为了加强关联的准确性,融合运动方向一致性、外观相似性、IOU相似性信息;为了解决相机运动导致的卡尔曼滤波估计状态不准确,加入相机运动补偿算法修正估计状态,进一步提升了关联的正确性;能够为复杂场景下的多目标跟踪提供了更具鲁棒性的跟踪方法。
该多目标跟踪方法如图1所示,具体包括以下步骤:
S1、对目标数据集进行处理以构建训练集,在YOLOX目标检测器上加入Re-ID分支,并基于训练集对修改后的YOLOX目标检测器进行训练,以获取训练好的YOLOX目标检测器。
S11、采集目标数据集并对其中的数据进行处理,将同一个ID身份的需要检测的目标数据标注为一个类别,根据处理后的目标数据集构建训练集。
本实施例中,目标数据集可以是任何领域需要进行跟踪任务的数据集,例如行人跟踪任务、车辆跟踪任务等等。采集目标数据集并对其中的数据进行处理,对目标数据集上每个实例的边界框坐标、目标ID、帧序号、类别等信息进行标注,将目标数据集中属于同一个ID身份的标注为一个类别。然后根据处理后的目标数据集构建训练集。
进一步地,行人跟踪任务的目标数据集包括MOT17数据集和MOT20数据集等,车辆跟踪任务的目标数据集包括BDD100K数据集和UA-DETRAC数据集等。应当理解的是,可以根据实际需要选择对应的目标数据集。
S12、对YOLOX目标检测器的检测头进行修改:将分类分支改为输出2个通道,分别代表前景、背景的分类概率;增加Re-ID分支,以为特征图每个位置输出128维的外观特征。
本实施例中,修改后的YOLOX目标检测器的检测头如图2所示,该检测头一共包含3个分支,分别是:分类分支、Re-ID分支和检测框回归分支。其中,分类分支为2个通道的输出,一个通道输出前景的分类概率,另一个通道输出背景的分类概率;Re-ID分支为特征图每个位置输出128维的外观特征,Re-ID分支包括位置感知空间注意力机制;检测框回归分支包括两个分支,一个分支用于输出4维的检测框坐标,另一个分支用于输出IOU质量估计分数。
进一步地,为减少检测任务与Re-ID任务的矛盾,Re-ID分支加入了位置感知空间注意力机制,位置感知空间注意力机制的结构如图3所示,位置感知空间注意力机制包括1x1卷积层、最大池化层、平均池化层和sigmoid激活函数。具体地,位置感知空间注意力机制将位置坐标与Re-ID分支特征图合并,通过1x1卷积融入空间信息,再通过最大池化和平均池化后将最大池化和平均池化后的特征图进行合并,再通过一个1x1卷积和sigmoid激活后输出空间注意力图,空间注意力图与Re-ID分支特征图做逐元素相乘后得到融入空间信息的特征图。
S13、构建多任务损失函数,并在训练集上对修改后的YOLOX目标检测器进行训练,以获取训练好的YOLOX目标检测器。其中,多任务损失函数包括分类损失、检测框回归损失、IOU损失以及Re-ID损失。
进一步地,分类分支用于确定前景和背景的分类概率,采用二元交叉熵损失函数构建分类损失,其表达式为:
其中,Lcls表示分类损失,N为正样本点总数,xxyc表示网络在(x,y)位置第c个通道的输出值,yxyc表示与之对应的真实值,正样本点的真实值为1,负样本点的真实值为0。
进一步地,检测框回归分支用于预测检测框的左上角坐标和宽高,采用L1损失函数构建检测框回归损失,其表达式为:
其中,Lreg表示检测框回归损失,N为正样本点总数,分别为网络预测的第i个正样本点的宽、高以及左上角坐标,wi、hi、xi、yi则为与之对应的真实值。
进一步地,IOU损失学习检测框的质量,只对前景位置采用二元交叉熵损失函数构建IOU损失,其表达式为:
其中,Lobj表示IOU损失,N为正样本点总数,xi表示网络预测的第i个正样本点的IOU,yi表示网络预测框与目标真实值框之间的IOU。
需要说明的是,不对背景位置计算IOU损失。
进一步地,Re-ID损失学习目标的深度特征,通过学习一个分类任务来解决,对于目标数据集中具有相同身份的目标确定为一个类别,提取正样本点对应的外观特征输入到一个全连接层和softmax层进行K个类别分类,采用交叉熵损失函数来学习,公式如下:
其中,Lidentity表示Re-ID损失,N为正样本点总数,K为目标数据集身份数目,Li为第i个正样本点对应的one-hot编码的类别标签,Pi为第i个正样本点的预测的K个类别的概率分布,k表示目标数据集中的第k个身份。
综上所述,多任务损失函数的表达式为:
Ldet=Lobj+Lreg+Lcls(5)
其中,Ltotal表示多任务损失,Ldet仅表示无实际意义的中间变量,w1、w2是两个可学习的参数用以平衡两个任务的学习。
S2、对视频当前帧图像利用YOLOX目标检测器获取检测结果。其中,检测结果包括目标检测框、置信度以及外观特征向量。
S21、将视频当前帧图像输入到YOLOX目标检测器中,以获取检测结果。其中,检测结果包括前景分类概率、IOU质量分数、检测框回归结果和外观特征向量。
应当理解的是,YOLOX目标检测器的输出即为检测结果,通过检测头的3个分支得到检测结果,分类分支的2个通道输出前景分类概率和背景分类概率,检测框回归分支的2个分支输出IOU质量分数和检测框回归结果,Re-ID分支输出外观特征向量,其中,检测框回归结果包括检测框的坐标和宽高信息。
S22、使用IOU质量分数与前景分类概率相乘作为置信度,基于该置信度,使用非极大值抑制对检测结果进行筛选处理,以获取筛选后的检测结果。其中,筛选后的检测结果包括目标检测框、置信度和外观特征向量。
需要说明的是,YOLOX目标检测器输出的结果中会有大量质量参差不齐或者重复的检测框,因此,需要对检测结果进行筛选处理,去除质量参差不齐或者重复的检测框。
本实施例中,使用非极大值抑制对检测结果进行筛选处理具体为:将置信度小于预设的第一置信度阈值的检测框去除,如此可以去掉一部分质量差的检测框;通过计算剩余检测框之间的交并比,以去除重复的检测框。其中,交并比指的是两个检测框之间的重叠程度。
进一步地,第一置信度阈值的范围为0-1。
S3、基于卡尔曼滤波对现存轨迹在当前帧图像中的位置进行预测,通过相机运动补偿修正卡尔曼滤波对当前帧图像的运动状态估计,以获取修正后的估计状态信息及其对应的估计协方差矩阵。
S31、基于卡尔曼滤波匀速模型对现存轨迹在当前帧图像中的运动状态进行估计,以获取估计状态信息和对应的估计协方差矩阵。
应当理解的是,卡尔曼滤波匀速模型将每个目标在帧间的移动假设为线性匀速模型,将每个目标状态建模为一个8维状态向量,表示为:
其中,X表示卡尔曼滤波目标状态向量,xc,yc,w,h表示目标的中心点坐标和宽高,为对应状态的变化速度。
本实施例中,基于卡尔曼滤波匀速模型对现存轨迹在当前帧图像中的运动状态进行预测,可以得到当前帧中目标的估计状态信息以及对应的估计协方差矩阵/>应当理解的是,估计状态信息/>是一个8维状态向量,该估计状态信息包括目标的中心点坐标和宽高以及对应状态的变化速度。
S32、通过相机运动补偿采用图像配准方法计算前后两帧图像的背景区域中关键点的仿射变换矩阵。
进一步地,图像配准方法为增强的相关系数(ECC)最大化或基于ORB、SIFT特征点的匹配。
需要说明的是,相机运动主要通过静止区域的关键点匹配来确定,因此,计算前后两帧图像的背景区域中关键点的仿射变换矩阵,仿射变换矩阵可以表述为2x3的矩阵:
S33、使用仿射变换矩阵对当前帧图像中目标的估计状态信息和对应的估计协方差矩阵进行修正,以获取修正后的估计状态信息及其对应的估计协方差矩阵。
需要说明的是,仿射变换矩阵平移部分只影响目标中心点位置,而其他部分则影响整个状态向量,因此,通过仿射变换矩阵修正卡尔曼滤波对当前帧图像的运动状态估计,可以获得修正后的更准确的估计状态,相机运动补偿修正前后的跟踪效果如图4所示,可以看出,修正后的跟踪效果更佳。
本实施例中,通过仿射变换矩阵修正卡尔曼滤波对当前帧图像的运动状态估计的过程可以表述为:
其中,A表示仿射变换矩阵,M包含仿射变换矩阵的缩放和旋转部分,T包含平移部分;对于估计的状态向量Mc为定义的补偿矩阵,Tc为定义的平移补偿矩阵。通过公式(12)可以得到补偿后的状态向量Xc,即修正后的估计状态信息;通过公式(13),可以得到补偿后的协方差矩阵Pc,即修正后的估计状态对应的估计协方差矩阵。
S4、融合外观特征向量、修正后的估计状态信息以及运动方向信息计算第一代价矩阵,并通过匈牙利匹配方法完成高置信度检测的检测结果与现存轨迹的第一次匹配;融合修正后的估计状态信息以及运动方向信息计算第二代价矩阵,并通过匈牙利匹配方法完成低置信度检测的检测结果与现存轨迹的第二次匹配。
应当理解的是,修正后的估计状态信息包括了目标的中心点坐标和宽高,因此通过前后两帧图像中的中心点坐标即可得到运动方向信息。
S41、设置第二置信度阈值和第三置信度阈值,将置信度大于第二置信度阈值的检测结果定义为高置信度检测,将置信度大于等于第三置信度阈值且小于等于第二置信度阈值的检测结果定义为低置信度检测。
进一步地,第二置信度阈值和第三置信度阈值的取值范围为0-1,且第二置信度阈值大于第三置信度阈值。
需要说明的是,第二置信度阈值为高置信度阈值thigh,第三置信度阈值为低置信度阈值tlow,将置信度大于thigh的检测结果定义为高置信度检测,介于[tlow,thigh]的检测结果定义为低置信度检测,通过使用将检测结果划分为高、低置信度检测来进行二次关联,可以充分利用低置信度检测来减少检测丢失的情况,减少假负例,保持轨迹连续性。
S42、根据步骤S2获取的检测结果和步骤S3获取的修正后的估计状态信息以及步骤S41中高置信度检测的定义获取高置信度检测的检测结果,计算高置信度检测的检测结果与现存轨迹的第一位置相似度矩阵、第一外观特征相似度矩阵以及第一方向一致性矩阵,并加权融合相似性信息,以计算第一代价矩阵;并根据第一代价矩阵采用匈牙利匹配方法完成检测结果与现存轨迹的第一次匹配。
应当理解的是,第一代价矩阵主要由第一位置相似度矩阵、第一外观相似度矩阵和第一方向一致性矩阵组成。
本实施例中,第一位置相似度矩阵通过计算估计框和检测框的交并比来表示,其中估计框通过修正后的估计状态信息获取;第一外观相似度矩阵通过计算现存轨迹外观特征向量和检测外观特征向量的余弦相似度来表示;第一运动方向一致性矩阵通过计算现存轨迹运动方向和当前匹配的运动方向夹角的余弦值来表示。应当理解的是,假设当前为第t帧,现存轨迹运动方向为轨迹从t-2帧到t-1帧的运动方向;当前匹配的运动方向为t帧检测结果与t-1帧轨迹之间的运动方向,通过计算现存轨迹运动方向和当前匹配的运动方向夹角的余弦值即可获取第一方向一致性矩阵。
进一步地,融合多种相似性信息的第一代价矩阵计算公式如下:
Ctotal=-(0.5×Areid+0.5×Adirection+Aiou)(14)
其中,Ctotal为第一代价矩阵,Areid为第一外观相似度矩阵,Adirection为第一方向一致性矩阵,Aiou为位置相似度矩阵。
获取到第一代价矩阵后,再基于匈牙利匹配方法根据第一代价矩阵Ctotal来完成数据的第一次关联过程,即可完成检测结果与现存轨迹的第一次匹配。
S43、根据步骤S2获取的检测结果和步骤S3获取的修正后的估计状态信息以及步骤S41中低置信度检测的定义获取低置信度检测的检测结果,计算低置信度检测的检测结果与现存轨迹的第二位置相似度矩阵和第二方向一致性矩阵,并加权融合相似性信息,以计算第二代价矩阵;并根据第二代价矩阵采用匈牙利匹配方法完成检测结果与现存轨迹的第二次匹配。
需要说明的是,低置信度检测往往由于遮挡、模糊的场景,Re-ID特征变得不可靠,因此这里选择放弃计算外观特征。
应当理解的是,第二位置相似度矩阵和第二方向一致性矩阵以及第二代价矩阵的计算方法与步骤S42中的计算方法相同。
获取到第二代价矩阵后,再基于匈牙利匹配方法根据第二代价矩阵来完成数据的第二次关联过程,即可完成检测结果与现存轨迹的第二次匹配。
S5、根据步骤S4中匹配后的检测结果对目标轨迹进行管理;其中,管理包括创建、删除和更新。
本实施例中,根据步骤S4中匹配后的检测结果对目标轨迹进行管理具体包括:
S51、对于匹配成功的现存轨迹,使用匹配的检测结果通过卡尔曼滤波的更新过程更新目估计状态向量及其对应的估计协方差矩阵,以获取当前帧图像的最新轨迹位置,并通过指数移动平均更新轨迹的外观特征。
具体地,对于匹配的检测值,通过卡尔曼滤波的更新过程更新目标的估计状态向量X和估计协方差矩阵P。将检测的外观特征通过指数移动平均方式与对应轨迹的外观特征进行融合,其融合方式如下:
其中,表示是第t帧与第i个现存轨迹匹配的检测结果的外观特征,/>则对应t帧时第i个轨迹的外观特征,a是平滑指数,这里取0.9。
S52、对于未匹配成功的高置信度检测的检测结果,创建并初始化一个新的轨迹。
需要说明的是,对于未匹配的低置信度检测,含有大量背景区域,为了防止出现较多的假正例,这里仅对未匹配的高置信度检测进行初始化新的轨迹,认为是一个新出现的目标。
S53、对于未匹配成功的现存轨迹,且连续大于30帧图像均未匹配成功,则删除该现存轨迹。
应当理解的是,一个现存轨迹如果连续30帧都未匹配上,可以认为此目标已经消失,因此删除该现存轨迹。
本发明通过提供一种基于融合信息关联和相机运动补偿的多目标跟踪方法,将Re-ID分支扩展到YOLOX目标检测器,减少了采用独立网络提取外观特征的计算量,保证了计算的实时性;融合方向一致性、外观相似度、位置相似度等信息进行数据关联,使用相机运动补偿参数修正卡尔曼滤波估计状态,进一步增强了数据关联的准确度。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,包括以下步骤:
S1、对目标数据集进行处理以构建训练集,在YOLOX目标检测器上加入Re-ID分支,并基于训练集对修改后的YOLOX目标检测器进行训练,以获取训练好的YOLOX目标检测器;
S2、对视频当前帧图像利用YOLOX目标检测器获取检测结果;其中,所述检测结果包括目标检测框、置信度以及外观特征向量;
S3、基于卡尔曼滤波对现存轨迹在当前帧图像中的位置进行预测,通过相机运动补偿修正卡尔曼滤波对当前帧图像的运动状态估计,以获取修正后的估计状态信息及其对应的估计协方差矩阵;
S4、融合外观特征向量、修正后的估计状态信息以及运动方向信息计算第一代价矩阵,并通过匈牙利匹配方法完成高置信度检测的检测结果与现存轨迹的第一次匹配;融合修正后的估计状态信息以及运动方向信息计算第二代价矩阵,并通过匈牙利匹配方法完成低置信度检测的检测结果与现存轨迹的第二次匹配;
S5、根据步骤S4中匹配后的检测结果对目标轨迹进行管理;其中,所述管理包括创建、删除和更新。
2.根据权利要求1所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述步骤S1包括以下子步骤:
S11、采集目标数据集并对其中的数据进行处理,将同一个ID身份的需要检测的目标数据标注为一个类别,根据处理后的目标数据集构建训练集;
S12、对YOLOX目标检测器的检测头进行修改:将分类分支改为输出2个通道,分别代表前景、背景的分类概率;增加Re-ID分支,以为特征图每个位置输出128维的外观特征;
S13、构建多任务损失函数,并在训练集上对修改后的YOLOX目标检测器进行训练,以获取训练好的YOLOX目标检测器;其中,所述多任务损失函数包括分类损失、检测框回归损失、IOU损失以及Re-ID损失。
3.根据权利要求2所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述步骤S12中,修改后的YOLOX目标检测器的检测头包括分类分支、Re-ID分支和检测框回归分支,其中,所述分类分支包括用于输出前景的分类概率的通道和用于输出背景的分类概率的通道;所述Re-ID分支为特征图每个位置输出128维的外观特征,Re-ID分支包括位置感知空间注意力机制,所述位置感知空间注意力机制包括1x1卷积层、最大池化层、平均池化层和sigmoid激活函数;所述检测框回归分支包括用于输出4维检测框坐标的分支和用于输出IOU质量估计分数的分支。
4.根据权利要求1所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述步骤S2包括以下子步骤:
S21、将视频当前帧图像输入到YOLOX目标检测器中,以获取检测结果;其中,所述检测结果包括前景分类概率、IOU质量分数、检测框回归结果和外观特征向量;
S22、使用IOU质量分数与前景分类概率相乘作为置信度,基于该置信度,使用非极大值抑制对检测结果进行筛选处理,以获取筛选后的检测结果;其中,筛选后的检测结果包括目标检测框、置信度和外观特征向量。
5.根据权利要求4所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述使用非极大值抑制对检测结果进行筛选处理具体为:将置信度小于预设的第一置信度阈值的检测框去除;通过计算剩余检测框之间的交并比,以去除重复的检测框。
6.根据权利要求1所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述步骤S3包括以下子步骤:
S31、基于卡尔曼滤波匀速模型对现存轨迹在当前帧图像中的运动状态进行估计,以获取估计状态信息和对应的估计协方差矩阵;
S32、通过相机运动补偿采用图像配准方法计算前后两帧图像的背景区域中关键点的仿射变换矩阵;
S33、使用仿射变换矩阵对当前帧图像中目标的估计状态信息和对应的估计协方差矩阵进行修正,以获取修正后的估计状态信息及其对应的估计协方差矩阵。
7.根据权利要求1所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述步骤S4包括以下子步骤:
S41、设置第二置信度阈值和第三置信度阈值,将置信度大于第二置信度阈值的检测结果定义为高置信度检测,将置信度大于等于第三置信度阈值且小于等于第二置信度阈值的检测结果定义为低置信度检测;
S42、根据步骤S2获取的检测结果和步骤S3获取的修正后的估计状态信息以及步骤S41中高置信度检测的定义获取高置信度检测的检测结果,计算高置信度检测的检测结果与现存轨迹的第一位置相似度矩阵、第一外观特征相似度矩阵以及第一方向一致性矩阵,并加权融合相似性信息,以计算第一代价矩阵;并根据第一代价矩阵采用匈牙利匹配方法完成检测结果与现存轨迹的第一次匹配;
S43、根据步骤S2获取的检测结果和步骤S3获取的修正后的估计状态信息以及步骤S41中低置信度检测的定义获取低置信度检测的检测结果,计算低置信度检测的检测结果与现存轨迹的第二位置相似度矩阵和第二方向一致性矩阵,并加权融合相似性信息,以计算第二代价矩阵;并根据第二代价矩阵采用匈牙利匹配方法完成检测结果与现存轨迹的第二次匹配。
8.根据权利要求7所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述第一位置相似度矩阵过计算估计框和检测框的交并比来表示,其中估计框通过修正后的估计状态信息获取;
所述第一外观特征相似度矩阵通过计算现存轨迹外观特征向量和检测外观特征向量的余弦相似度来表示;
所述第一方向一致性矩阵通过计算现存轨迹运动方向和当前匹配的运动方向夹角的余弦值来表示;
所述第一代价矩阵通过第一位置相似度矩阵、第一外观相似度矩阵和第一方向一致性矩阵获取,表示为:
Ctotal=-(0.5×Areid+0.5×Adirection+Aiou)
其中,Ctotal为第一代价矩阵,Areid为第一外观相似度矩阵,Adirection为第一方向一致性矩阵,Aiou为位置相似度矩阵。
9.根据权利要求1所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述根据步骤S4中匹配后的检测结果对目标轨迹进行管理,具体包括:
对于匹配成功的现存轨迹,使用匹配的检测结果通过卡尔曼滤波的更新过程更新目估计状态向量及其对应的估计协方差矩阵,以获取当前帧图像的最新轨迹位置,并通过指数移动平均更新轨迹的外观特征;
对于未匹配成功的高置信度的检测结果,创建并初始化一个新的轨迹;
对于未匹配成功的现存轨迹,且连续大于30帧图像均未匹配成功,则删除该现存轨迹。
10.根据权利要求9所述的基于融合信息关联和相机运动补偿的多目标跟踪方法,其特征在于,所述通过指数移动平均更新轨迹的外观特征具体为:将检测结果中的外观特征向量通过指数移动平均方式与轨迹的外观特征按照以下公式进行融合,以更新轨迹的外观特征;
其中,为对应t帧图像时第i个轨迹的外观特征向量,a是平滑指数,/>表示第t帧与第i个现存轨迹匹配的检测结果中的外观特征向量。
CN202310701851.8A 2023-06-14 2023-06-14 一种基于融合信息关联和相机运动补偿的多目标跟踪方法 Pending CN117036397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310701851.8A CN117036397A (zh) 2023-06-14 2023-06-14 一种基于融合信息关联和相机运动补偿的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310701851.8A CN117036397A (zh) 2023-06-14 2023-06-14 一种基于融合信息关联和相机运动补偿的多目标跟踪方法

Publications (1)

Publication Number Publication Date
CN117036397A true CN117036397A (zh) 2023-11-10

Family

ID=88643626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310701851.8A Pending CN117036397A (zh) 2023-06-14 2023-06-14 一种基于融合信息关联和相机运动补偿的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN117036397A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522924A (zh) * 2023-11-22 2024-02-06 重庆大学 基于检测定位置信度指导的深度关联多目标跟踪方法
CN117809054A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种基于特征解耦融合网络的多目标跟踪方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522924A (zh) * 2023-11-22 2024-02-06 重庆大学 基于检测定位置信度指导的深度关联多目标跟踪方法
CN117809054A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种基于特征解耦融合网络的多目标跟踪方法
CN117809054B (zh) * 2024-02-29 2024-05-10 南京邮电大学 一种基于特征解耦融合网络的多目标跟踪方法

Similar Documents

Publication Publication Date Title
CN111127513B (zh) 一种多目标跟踪方法
CN109360226B (zh) 一种基于时间序列多特征融合的多目标跟踪方法
CN113506317B (zh) 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
CN109344725B (zh) 一种基于时空关注度机制的多行人在线跟踪方法
CN114972418B (zh) 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法
CN111488795A (zh) 应用于无人驾驶车辆的实时行人跟踪方法
CN117036397A (zh) 一种基于融合信息关联和相机运动补偿的多目标跟踪方法
CN113409361B (zh) 一种多目标跟踪方法、装置、计算机及存储介质
CN110751096A (zh) 一种基于kcf轨迹置信度的多目标跟踪方法
CN116309731A (zh) 一种基于自适应卡尔曼滤波的多目标动态跟踪方法
CN111639570B (zh) 一种基于运动模型和单目标线索的在线多目标跟踪方法
CN116883458B (zh) 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统
CN112528730B (zh) 一种匈牙利算法下基于空间约束的成本矩阵优化方法
CN110569706A (zh) 一种基于时间和空间网络的深度集成目标跟踪算法
CN116402850A (zh) 一种面向智能驾驶的多目标跟踪方法
CN114913206A (zh) 一种基于多模态融合的多目标跟踪的方法和系统
CN115100565B (zh) 一种基于空间相关性与光流配准的多目标跟踪方法
CN116777956A (zh) 基于多尺度航迹管理的运动目标筛选方法
CN116630376A (zh) 基于ByteTrack的无人机多目标跟踪方法
CN115861386A (zh) 通过分而治之关联的无人机多目标跟踪方法与装置
CN111612816B (zh) 运动目标跟踪的方法、装置、设备及计算机存储介质
CN113920168A (zh) 一种音视频控制设备中图像跟踪方法
CN114842047A (zh) 基于运动先验的孪生网络卫星视频目标跟踪方法
CN117011335B (zh) 一种基于自适应双解码器的多目标跟踪方法及系统
CN117809054B (zh) 一种基于特征解耦融合网络的多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination