CN117809054A

CN117809054A - 一种基于特征解耦融合网络的多目标跟踪方法

Info

Publication number: CN117809054A
Application number: CN202410223678.XA
Authority: CN
Inventors: 陈云芳; 吕尊威; 张伟; 付雄
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02
Anticipated expiration: 2044-02-29
Also published as: CN117809054B

Abstract

本发明属于计算机视觉领域，具体涉及一种基于特征解耦融合网络的多目标跟踪方法，该方法包括如下步骤：利用DLA‑34骨干网络对输入帧进行预处理得到多尺度特征；构建特征融合解耦层分别提取目标位置特征和Re‑ID特征，减少多任务特征学习竞争；基于提取到的特征，采用自适应加权融合计算策略得到关联代价矩阵，输入匈牙利匹配算法得到关联结果从而构建目标轨迹；依据轨迹对的位置和时间信息进行全局轨迹链接，提升目标跟踪稳定性。本发明从特征融合角度对多任务学习冲突问题进行优化，所提出的方法是一种良好解决任务冲突问题，且具有高稳定性的多目标跟踪方法。

Description

一种基于特征解耦融合网络的多目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于特征解耦融合网络的多目标跟踪方法。

背景技术

多目标跟踪应用广泛，包括监控系统、行为分析和自动驾驶等，近年来受到越来越多的关注。基于检测的目标追踪方法主导了多目标追踪领域，其中，一阶段方法如FairMOT、ByteTrack将检测和ID嵌入特征提取模型整合到同一个网络之中，通过对预测头修改的同时得到检测结果和ID嵌入特征，但检测任务本质是扩大类间差异和最小化类内方差，而Re-ID任务主要关注最大化类内方差，两者使用同一骨干网络产生的特征不可避免产生竞争问题，现有方法都没有考虑到检测特征和Re-ID之间的本质区别，因此这种设计在提升速度的同时也导致了跟踪性能的下降。

另一方面，随着目标检测器的发展，基于运动的多目标跟踪方法得到重视，但很少结合外观特征对多目标跟踪方法进行优化，将运动信息与外观特征进行整合将会提升多目标跟踪方法的鲁棒性。此外，大多数利用强检测器得到视觉特征，但是遮挡、运动模糊以及外观高度相似等情况不可避免，这会使得视觉特征中包含显著噪声。此外，在轨迹关联过程中，为了构建轨迹链，最常用的方法就是使用Re-ID模型结合卡尔曼滤波等运动模型直接计算外观和运动特征相似度，然后利用匈牙利算法解决检测关联问题，相似度计算的准确性决定了跟踪性能。然而，多目标跟踪不同于目标检测等视觉任务，多目标追踪往往需要面对长短期遮挡以及相机运动等复杂场景，在这些场景中，卡尔曼滤波线性假设的局限性导致了许多错误。

此外，GIAOTracker等方法为了追求高精度的跟踪，采用ResNet50-TP提取轨迹的3D特征，并与额外的时空特征进行关联。这意味着要对大量的参数进行调优，导致了大量的计算成本和较差的鲁棒性，因此需要额外的调优实验。此外，过度依赖外观特征容易受到噪声的影响。

发明内容

发明目的，本发明提供了一种基于特征解耦融合网络的多目标跟踪方法，特征融合解耦层缓解多目标跟踪过程中任务竞争问题，引入自适应融合代价矩阵生成策略，依靠视觉特征弥补运动特征的局限性，通过全局链接模型，提高跟踪稳定性。

技术方案：为了解决上述技术问题，本方法提出一种基于特征解耦融合网络的多目标跟踪方法，该方法包括如下步骤：

步骤1，对多行人目标视频数据集预处理，将数据集每一帧输入基于DLA-34构建的骨干网络学习多尺度特征；

步骤2，将多尺度特征输入检测分支进行特征融合，特征融合方法采用自下而上的融合方法，以获得目标位置信息；

步骤3，将多尺度特征送入Re-ID分支进行特征融合，采用自上而下的方法来融合特征图，以获得目标外观特征信息；

步骤4，基于步骤2和步骤3提取到的目标位置信息和外观特征信息，利用自适应加权融合策略计算得到关联代价矩阵，采用匈牙利算法基于代价矩阵得到目标初步关联跟踪结果；

步骤5，利用每帧跟踪结果构建目标跟踪轨迹，依据轨迹时间与位置信息，利用多层感知机MLP预测轨迹同属一个目标的概率，利用jonker-volgenant算法完成轨迹链接以实现对目标稳定跟踪。

进一步的，步骤1中，将包含帧的多行人目标视频图像序列中每一帧缩放为1088×608像素的固定大小输入DLA-34骨干网络，获得4种尺度的特征图/>，/>，分别对应输入特征图下采样4、8、16和32倍。

进一步的，步骤2中，将多尺度特征图输入迭代深度聚合IDA模块得到目标位置信息用于检测，具体过程如公式（1）所示：

（1）

其中，表示由可变形卷积和反卷积组成的上采样操作，/>表示用于改变特征通道的/>卷积层，/>被用作检测分支的输入特征图，输入多层卷积网络获得每一帧中所有目标的位置信息/>表示检测到的目标个数，分别代表第/>个目标的左上角/>轴坐标、目标的宽、高和目标检测置信度，其中，/>轴坐标、目标的宽和高构成目标的位置检测框。

进一步的，步骤3中，采用一种自上而下的方法融合多尺度特征图获得外观特性信息，具体如公式（2）所示：

（2）

其中，表示/>激活函数，/>被用作Re-ID分支的输入特征图，输入多层卷积层网络提取每个像素位置上的外观特征向量，记作/>。

进一步的，步骤4中，采用自适应加权融合策略基于步骤2和3得到的目标位置信息和外观特征向量/>得到关联代价矩阵，设/>分别代表位置相似度与外观相似度矩阵，/>的第i行、第j列元素对应计算方式为：

（3）

为上一帧跟踪的目标在当前帧中由卡尔曼滤波算法得到的预测位置框集合，在第一帧中为空，/>为上一帧跟踪的目标个数，/>分别代表第i个目标的左上角/>轴坐标、目标的宽和高；/>和/>分别为/>和/>中一个目标的检测位置框和预测位置框，/>为包含/>和/>的最小外接矩阵；

E的第i行、第j列元素对应计算方式为：

（4）

其中，是从/>的/>和/>位置框中心点处提取的外观特征向量；/>和分别被定义为E中第i行、第j列的最高值和次高值的差，E第i行、第j列元素对应的修正权重/>为：

（5）

将修正权重用作关联匹配的代价矩阵，其中，第i行、第j列元素的计算方式为：

。

进一步的，步骤4中，利用匈牙利算法进行目标关联过程如下：

根据第一置信度阈值和第二置信度阈值/>将步骤2中得到的D分为两部分；对于置信度高于/>的检测框，将其放入高分检测集合/>中；对于置信度在/>到中间的检测框，将他们放入低分数检集合/>中；第一次关联匹配在/>和/>之间执行，使用匈牙利算法完成基于代价矩阵/>的第一次匹配；将/>中未匹配的检测结果保存至/>，将/>中未匹配的目标保存至/>；第二次关联使用匈牙利算法对检测框/>和/>进行匹配，在每一帧进行关联匹配后，基于卡尔曼滤波对现有/>进行更新，并将/>作为新目标加入/>。

进一步的，在步骤5中，为中每个目标依据最近30帧的帧编号/>和中心点坐标创建轨迹/>，对于短于30帧长度的轨迹，采用零向量对轨迹进行填充；任选一个轨迹对/>与/>沿着时间维度/>用/>卷积核提取时间特征，用/>卷积核对/>三个不同维度特征进行融合；轨迹对转化为两个特征映射，分别经过池化压缩后转为两个特征向量，接着进行向量拼接/>操作；拼接后的向量包含时间与位置信息，送入MLP预测/>与/>同属于一个目标的概率；基于预测的概率，利用jonker-volgenant算法完成轨迹链接，两段轨迹被链接为一个目标的连续轨迹，实现对目标稳定跟踪。

有益效果，与现有技术相比，本发明的技术方案具有以下有益技术效果：

（1）在特征融合层，分别采用不同的特征融合结构，由于Re-ID特征倾向于学习更高层次的语义特征，以区分同质对象之间的不同特征，本发明的技术方案设计了一个自底向上的特征融合模块单独对Re-ID特征进行融合，通过不同的特征融合策略，减少任务竞争。

（2）引入高性能的检测器得到高质量的视觉特征，通过外观区分度获得自适应融合权重以计算位置相似度和外观特征相似度的加权和，得到关联匹配代价矩阵，以更好的利用视觉信息。

（3）通过轨迹对之间的位置和时间信息预测两个输入轨迹是否同属于一个ID，若同属于一个目标则进行连接，这种方式独立于外观特征信息，通过较低计算成本减少轨迹中断问题，提升跟踪鲁棒性。

附图说明

图1是本发明的方法流程图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

如图1所示，本发明提出一种基于特征解耦融合网络的多目标跟踪方法，该方法包括如下步骤：

（1）

（2）

（3）

E的第i行、第j列元素对应计算方式为：

（4）

（5）

。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于特征解耦融合网络的多目标跟踪方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于特征解耦融合网络的多目标跟踪方法，其特征在于，步骤1中，将包含帧的多行人目标视频图像序列中每一帧缩放为1088×608像素的固定大小输入DLA-34骨干网络，获得4种尺度的特征图/>，/>，分别对应输入特征图下采样4、8、16和32倍。

3.根据权利要求2所述的一种基于特征解耦融合网络的多目标跟踪方法，其特征在于，步骤2中，将多尺度特征图输入迭代深度聚合IDA模块得到目标位置信息用于检测，具体过程如公式（1）所示：

（1）

4.根据权利要求3所述的一种基于特征解耦融合网络的多目标跟踪方法，其特征在于，步骤3中，采用一种自上而下的方法融合多尺度特征图获得外观特性信息，具体如公式（2）所示：

（2）

5.根据权利要求4所述的一种基于特征解耦融合网络的多目标跟踪方法，其特征在于，步骤4中，采用自适应加权融合策略基于步骤2和3得到的目标位置信息和外观特征向量/>得到关联代价矩阵，设/>分别代表位置相似度与外观相似度矩阵，/>的第i行、第j列元素对应计算方式为：

（3）

为上一帧跟踪的目标在当前帧中由卡尔曼滤波算法得到的预测位置框集合，在第一帧中为空，/>为上一帧跟踪的目标个数；/>和/>分别为/>和/>中一个目标的检测位置框和预测位置框，/>为包含/>和/>的最小外接矩阵；

E的第i行、第j列元素对应计算方式为：

（4）

（5）

。

6.根据权利要求5所述的一种基于特征解耦融合网络的多目标跟踪方法，其特征在于，步骤4中，利用匈牙利算法进行目标关联过程如下：

根据第一置信度阈值和第二置信度阈值/>将步骤2中得到的D分为两部分；对于置信度高于/>的检测框，将其放入高分检测集合/>中；对于置信度在/>到/>中间的检测框，将他们放入低分数检集合/>中；第一次关联匹配在/>和/>之间执行，使用匈牙利算法完成基于代价矩阵/>的第一次匹配；将/>中未匹配的检测结果保存至/>，将/>中未匹配的目标保存至/>；第二次关联使用匈牙利算法对检测框和/>进行匹配，在每一帧进行关联匹配后，基于卡尔曼滤波对现有/>进行更新，并将/>作为新目标加入/>。

7.根据权利要求6所述的一种基于特征解耦融合网络的多目标跟踪方法，其特征在于，在步骤5中，为中每个目标依据最近30帧的帧编号/>和中心点坐标/>创建轨迹，对于短于30帧长度的轨迹，采用零向量对轨迹进行填充；任选一个轨迹对/>与/>沿着时间维度/>用/>卷积核提取时间特征，用/>卷积核对/>三个不同维度特征进行融合；轨迹对转化为两个特征映射，分别经过池化压缩后转为两个特征向量，接着进行向量拼接/>操作；拼接后的向量包含时间与位置信息，送入MLP预测/>与/>同属于一个目标的概率；基于预测的概率，利用jonker-volgenant算法完成轨迹链接，两段轨迹被链接为一个目标的连续轨迹，实现对目标稳定跟踪。