CN114332701B

CN114332701B - 一种基于任务区分检测再识别联合网络的目标跟踪方法

Info

Publication number: CN114332701B
Application number: CN202111609870.5A
Authority: CN
Inventors: 郑锦; 许银翠; 王念
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-05-28
Anticipated expiration: 2041-12-27
Also published as: CN114332701A

Abstract

本发明提出一种基于任务区分检测再识别联合网络的目标跟踪方法。该方法基于FairMOT构建任务区分的多特征融合目标检测再识别联合网络，将目标检测任务和目标再识别特征提取任务集成在同一个联合网络中，利用骨干网络提取共享特征，进而根据任务特点进行有区分性的多特征融合，平衡目标检测和目标再识别特征提取任务的同时，充分考虑了两个任务对特征要求的侧重点，提升了目标检测与再识别特征提取的准确性，进而实现准确的多目标跟踪。其中在多特征融合网络中采用多任务分层的特征融合结构或多任务独立的特征融合结构，使得两个不同任务能够融合不同尺度的信息，更早地实现了面向任务的特征分离，得到对不同子任务分支更有利的融合特征。

Description

一种基于任务区分检测再识别联合网络的目标跟踪方法

技术领域

本发明涉及一种基于任务区分检测再识别联合网络的目标跟踪方法，实现视频中多目标的跟踪，属于计算机视觉技术领域。

背景技术

视频多目标跟踪是计算机视觉领域的重要问题之一，其主要目的是在视频每一帧中以目标框的形式定位每个目标的位置，进而形成目标运动轨迹，同时，属于同一个目标的目标框需要给出同一个身份标记。因此，视频多目标跟踪任务的本质是目标定位与目标关联，前者主要由目标检测技术实现，而后者主要通过目标再识别特征提取、目标间相似度计算与目标匹配这三个关键步骤实现。目标检测与再识别特征提取是多目标跟踪的重要研究内容，一方面，提高目标检测性能以尽可能多地检测到真实的目标是跟踪的基础，另一方面，提高目标特征的表达能力以尽可能准确地区分同类目标的不同目标实例，才能实现对目标身份唯一性的准确再识别。然而，现有的视频多目标跟踪算法，大多独立地进行目标检测与再识别特征提取，即对当前帧先进行目标检测以得到目标框，然后再对检测到的目标提取再识别特征用于后续的目标匹配，确定是否为同一目标。这种两步式操作需要对同一视频帧进行两次以上的特征提取，时间开销大，难以满足实时性要求，应用场景十分受限。因此，本发明提出构建目标检测再识别联合网络以实现多目标跟踪，通过共享骨干网络特征的方式减少特征提取时间。重点研究如何在联合网络中设计更适合目标检测任务与再识别任务的差异性特征，从而实现更为准确高效的视频多目标跟踪。

多目标跟踪的两大任务是目标定位与目标关联，目标关联即目标身份维持。考虑到效率问题，联合网络的构建是有必要的，此类方法先采用一个骨干网络提取共享特征，后面连接不同任务的分支以同时完成目标检测与再识别特征的提取，通过共享骨干网络特征的方式减少特征提取时间，大幅提升多目标跟踪算法的时间效率。但是，联合网络需要提取目标检测特征和目标再识别特征，如何在同一个网络中更为准确地提取出这两种不同的特征，以适应不同的任务需要，成为联合网络的构建难点。现有方法Mots(参考《Mots:Multi-object tracking and segmentation》刊于《Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition》，2019年)在MaskR-CNN目标检测网络中添加用于目标再识别特征提取的网络分支，实现了目标检测与再识别特征提取联合网络的构建，相比检测与再识别任务两步串联的方法，算法的时间效率大幅提升。但是该方法将再识别特征提取分支置于次要的地位，再识别特征的表达能力不足，造成大量目标身份ID切换频繁的问题。

为了更好地平衡检测与再识别特征提取任务，FairMOT(参考《FairMOT:On thefairness of detection and re-identification in multiple object tracking》刊于《arXiv e-prints》，2020年)使用基于关键点检测的目标检测方法替换MaskR-CNN中基于区域检测的目标检测方法，消除了原算法在目标候选框包含多个目标时存在的再识别特征二义性问题，并使用相同结构的网络分支对目标检测与再识别特征提取任务进行训练，从而更公平地对待这两个任务。但是该方法忽略了目标检测与再识别特征提取由于任务不同，因此对目标特征描述的侧重点也应该不同的问题，按照相同方式提取的特征，其针对性不足，因此对目标特征描述的准确性也受到影响。一般而言，目标检测在于区分目标与背景，侧重于空间信息丰富的低层特征，而目标再识别在于区分目标与目标，侧重于语义信息丰富的高层特征。因此对这两个任务采取相同网络结构、仅在任务网络分支结构中利用不同损失函数的约束对提取到的完全相同的特征进行训练，不足以适应不同任务。

为此，本申请提出了一种基于任务区分检测再识别联合网络的目标跟踪方法，实现视频多目标跟踪。该方法在FairMOT目标检测再识别联合网络的基础上，提出任务区分的多特征融合，分别用于目标检测与再识别特征提取这两个任务。具体地，将目标检测任务和目标再识别特征提取任务集成在同一个联合网络中，首先通过骨干网络提取到共享特征，然后利用多特征融合网络对共享特征进行进一步融合处理，其中，在多特征融合网络中采用多任务分层的特征融合结构或多任务独立的特征融合结构，使得两个不同的任务能够融合不同层次、不同尺度的信息，并将得到的融合特征输入到任务不同、结构相同的分支中训练，从而使得不同任务获得更有针对性的、更适合自身任务特点的融合特征，更早地实现了面向任务的特征分离，提升了目标检测与目标再识别的准确性。

发明内容

本发明的目的是提供一种基于任务区分的多特征融合目标检测再识别联合网络，实现视频多目标跟踪。该联合网络不仅能够同时完成目标检测与目标再识别特征提取两个任务，在提升效率的同时实现目标定位和目标关联匹配，而且还能够学习到适合不同任务的融合特征，提高了目标检测和再识别的准确性。

为实现上述目的，本发明采用的技术方案流程如下：

一种基于任务区分检测再识别联合网络的目标跟踪方法，其特征在于包括如下步骤：

(1)利用骨干网络提取共享特征：对输入的当前帧图像，利用深层聚合网络DLA作为骨干网络提取图像特征，DLA输出阶段1至阶段N共计N个阶段不同尺度的特征图，作为后续多特征融合网络的输入，也是后续目标检测和再识别特征提取的共享特征；

(2)利用多特征融合网络提取任务区分特征：从所获得的N个阶段不同尺度的特征图中分别选择适用于目标检测和再识别特征提取这两个不同任务的特征图，输入多特征融合网络进行融合，采用多任务特征融合结构得到分别用于目标检测和再识别特征提取两个任务的两种融合特征；

所述多特征融合结构包括：多任务分层的特征融合结构，或多任务独立的特征融合结构；

多任务分层、多任务独立的特征融合结构具体操作过程为：在DLA骨干网络输出的阶段1至阶段N的N个不同尺度的特征图中，选择阶段1到阶段M的低层特征图，经过多特征融合后作为后续目标检测任务分支的输入，选择阶段1到阶段N的高低层特征图，经过多特征融合后作为后续目标再识别特征提取任务分支的输入；上述多任务分层、多任务独立的多特征融合过程通过一个共享参数的多特征融合网络，或两个独立的多特征融合网络，得到的融合特征分别作为后续目标检测和再识别特征提取任务分支的输入；

(3)利用多任务分支分别完成目标检测和目标再识别特征提取：将所获得的用于目标检测和再识别特征提取两个任务的两种融合特征，分别输入目标检测任务分支和再识别特征提取任务分支后，每个分支通过不同的损失函数约束进行训练，以分别完成目标检测任务和目标再识别特征提取任务；

其中目标检测任务分支由热力图分支、尺寸分支和偏移量分支构成，损失函数约束中热力图分支采用尺寸自适应的像素级逻辑回归损失函数，尺寸分支和偏移量分支均采用L1损失进行训练，热力图分支确定目标中心点位置，尺寸分支确定目标长、宽，偏移量分支精准定位目标中心点位置偏移量，由此定位当前帧中目标的位置；

其中目标再识别特征提取任务分支中将每个目标作为一类，通过卷积层-ReLU激活层-卷积层，采用分类任务的损失函数进行训练，得到提取的特征，表示为嵌入表征向量，依据目标检测任务得到的目标中心点位置，从全图的嵌入表征向量立方体中提取目标所在位置的嵌入表征向量，用于目标间表观相似度计算，由此确定目标身份ID，实现多目标跟踪。

如上所述的方法，其特征在于步骤(1)中利用DLA骨干网络提取图像特征的具体过程为：DLA骨干网络中的核心模块为层级深度聚合网络HDA模块，HDA模块为树状链接的层次结构,通过树结构融合多个卷积块，根据树结构的深度不同对应一系列卷积块输入，将各个层次聚合为不同等级的表征，实现通道方向上的聚合,每一个HDA模块都输出一个对应分辨率的聚合结果，这些聚合结果称为HDA聚合节点，每个HDA模块对应一个不同的阶段；而迭代深度聚合网络IDA模块对所述HDA聚合节点进行链接,当获得不同阶段的HDA聚合节点后，通过IDA特征融合网络链接不同阶段的特征，实现分辨率和尺度方向上的聚合；不同阶段通过HDA模块聚合和IDA链接后的结果，输出不同阶段具有不同尺度的特征图。

如上所述的方法，其特征在于多特征融合的具体融合过程为：采用IDA特征融合网络，通过IDA模块对DLA骨干网络输出的不同阶段具有不同尺度的特征图进行链接。

如上所述的方法，其特征在于通过IDA特征融合网络进行链接的具体操作过程为：IDA模块对不同阶段具有不同尺度的特征图进行链接,使用IDA模块进行多尺度特征图链接时，先对低分辨率特征图进行上采样，通过迭代地进行特征的插值与聚合，从浅到深地融合多个阶段的特征，形成一个越来越深的解码器，最终输出深度融合的高分辨率特征。

如上所述的方法，其特征在于步骤(1)中DLA骨干网络输出阶段1至阶段N共计N个阶段不同尺度的特征图，N＝4。

如上所述的方法，其特征在于多任务特征融合结构中选择阶段1到阶段M的低层特征图，经过多特征融合后作为后续目标检测任务分支的输入，M＝3。

与现有技术相比，本发明所提供的基于任务区分检测再识别联合网络的目标跟踪方法，针对现有联合网络中目标检测和再识别特征提取任务地位不平衡导致的再识别特征表达能力不足、大量目标身份切换频繁的问题，提出在骨干网络提取共享特征后，针对不同任务使用相同结构的网络分支对模型进行训练，从而更公平地对目标检测任务和目标再识别特征提取任务进行训练；针对两个任务对目标特征的侧重点不同，设计多任务分层的特征融合结构和多任务独立的特征融合结构，通过更早地对两个任务的特征进行区分，提升目标检测与目标再识别特征的准确性，从而提升多目标跟踪的准确性。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

图1为任务区分的检测再识别联合网络整体框架图；

图2为DLA骨干网络结构图；

图3为IDA特征融合网络。

具体实施方式

前已述及，本发明提出一种基于任务区分检测再识别联合网络的目标跟踪方法，下面结合附图说明本发明的具体实施方式。

(1)整体流程

本发明提出任务区分检测再识别联合网络，实现视频多目标跟踪。所述任务区分检测再识别联合网络的整体框架图如附图1所示，主要包括三个部分：(1)骨干网络；(2)多特征融合网络；(3)多任务分支。这三个部分也是本发明提出方法的三个步骤。

对输入的当前帧，首先利用DLA骨干网络(如附图2所示)提取出图像中用于目标检测任务和目标再识别特征提取任务的共享特征，DLA可以输出1到N各个不同阶段的特征图。越低层的特征图能更好地保留原图场景中的低层信息，如边缘、纹理、空间分布等，对需要判断目标位置的目标检测任务更有利；越高层的特征图空间信息逐渐丢失，而与再识别任务相关的高层语义信息则逐渐突出，更适合目标身份的确认。因此，本发明提出根据任务特点有选择地学习到适合的特征，将其作为后续多特征融合网络的输入。

在多特征融合网络中，根据任务的不同对多尺度特征图进行有针对性的融合。具体地，对于目标检测任务，考虑到其更关注目标位置，定位的准确性要求更多低层特征的引入，因此融合阶段1到阶段M(M<N)的特征图得到检测特征；对于目标再识别特征提取任务，考虑到需要区分不同目标实例，目标位置和表观差异都非常重要，因此通过迭代地进行特征的插值和聚合，从浅到深地融合阶段1到阶段N的多个阶段特征图得到再识别特征。上述多个阶段特征图通过IDA特征融合网络进行融合，其中，IDA模块对DLA输出的不同阶段具有不同尺度的特征图进行链接。如附图3所示,使用IDA模块进行多尺度特征图链接时，需要对低分辨率特征图进行上采样，通过迭代地进行特征的插值与聚合，从浅到深地融合多个阶段的特征，形成一个越来越深的解码器，最终输出深度融合的高分辨率特征，作为后续目标检测和再识别特征提取任务分支的输入。DLA输出1到N个不同阶段的特征图，N＝4。多特征融合中，目标检测任务融合阶段1到阶段M的特征图，M＝3；目标再识别特征提取任务融合阶段1到阶段N的特征图，N＝4。

最后将融合后的特征输入目标检测任务分支和再识别特征提取任务分支,各任务分支采用不同的损失函数约束进行训练，以分别完成目标检测任务和目标再识别特征提取任务。这样在平衡不同任务地位的同时，也考虑到不同任务对目标特征的侧重点差异，对两个任务的特征进行有区分的训练，提升目标检测与目标再识别特征的准确性。

其中，目标检测任务由热力图分支、尺寸分支和偏移量分支构成，定位当前帧中目标的位置；目标再识别特征提取分支依据目标检测任务得到的目标中心点位置，从全图的嵌入表征向量立方体中提取目标所在位置的嵌入表征向量，用于目标间表观相似度的计算，由此确定目标身份ID，实现多目标跟踪。

(2)骨干网络

采用一个骨干网络DLA提取目标检测任务和目标再识别特征提取任务所需要的共享特征。

本发明以深层聚合网络(Deep Layer Aggregation,DLA)作为骨干网络，其完整的网络结构图如图2所示，核心模块为由点线框表示的层级深度聚合网络(HierarchicalDeepAggregation,HDA)和由点线箭头表示的迭代深度聚合网络(IterativeDeepAggregation,IDA)。图中虚线框表示聚合节点，虚线箭头表示二倍下采样过程。HDA模块为树状链接的层次结构，能够更好地传播特征和梯度，IDA模块负责链接不同阶段(Stage)的特征。所述阶段即为每个HDA模块。

在骨干网络DLA中，每一个HDA模块都输出一个对应分辨率的聚合结果，即图2中点线框内最右上角的聚合节点，而IDA模块对这些聚合节点进行链接融合。一方面，HDA模块通过在通道方向的聚合实现对语义信息的融合,另一方面，IDA模块通过在分辨率和尺度方向的聚合实现空间信息的融合。

最后，DLA输出阶段1至阶段N这N个阶段不同尺度的特征图，并调整大小为相同尺寸C×H×W，作为后续多特征融合网络的输入。H×W为输入图像的分辨率，C为通道数。

(3)多特征融合网络

对DLA输出的阶段1至阶段N这N个阶段不同尺度的特征图，采用多任务分层的多特征融合结构，使得目标检测任务和目标再识别特征提取任务能够在一个多特征融合网络中通过共享参数，融合对各自任务更有利的特征；采用多任务独立的多特征融合结构，构造两个相互独立、不共享参数的特征融合网络融合多阶段的特征。得到的融合特征的维度为H/4×W/4×64，H×W为模型的输入图像的分辨率。

(3.1)多任务分层的特征融合结构：对DLA输出的阶段1至阶段N这N个阶段不同尺度的特征图，选择阶段1到阶段M的特征图作为后续目标检测任务的多特征融合网络的输入，选择阶段1到阶段N的特征图作为后续目标再识别特征提取任务的多特征融合网络的输入。目标检测任务使用空间信息较为丰富的低层特征进行融合，目标再识别特征提取任务进一步融合语义信息更突出的高阶特征，通过高低层特征融合提升目标身份的辨识能力。

采用多任务分层的多特征融合结构，使得目标检测任务和目标再识别特征提取任务能够在一个多特征融合网络中通过共享参数，融合对各自任务更有利的特征。多特征融合网络采用IDA特征融合网络，即基于IDA模块进行特征融合，IDA模块对DLA输出的不同阶段具有不同尺度的特征图进行链接，使用IDA模块进行多尺度特征图链接时，需要对低分辨率特征图进行上采样，通过迭代地进行特征的插值与聚合，从浅到深地融合多个阶段的特征，形成一个越来越深的解码器，最终输出深度融合的高分辨率特征。

(3.2)多任务独立的特征融合结构：对DLA输出的阶段1至阶段N这N个阶段不同尺度的特征图，选择阶段1到阶段M的特征图作为后续目标检测任务的多特征融合网络的输入，选择阶段1到阶段N的特征图作为后续目标再识别特征提取任务的多特征融合网络的输入。分别为目标检测任务和目标再识别特征提取任务构造两个独立的多特征融合网络，这两个独立的特征融合网络相互独立、不共享参数，融合多阶段的特征，分别用于后续的目标检测和再识别特征提取。所述多特征融合网络采用IDA特征融合网络。

(4)多任务分支

得到区分目标检测任务和再识别特征提取任务的融合特征后，这些融合特征分别输入目标检测任务分支、再识别特征提取任务分支，通过相同结构的网络分支进行训练，而这两个网络分支采用不同的损失函数进行约束，每个分支预测结果的维度为H/4×W/4×S，其中H×W为模型的输入图像的分辨率，S表示每个分支对应的通道数。每个分支均以融合特征作为输入，先通过一个卷积层，再用ReLU层激活，最后通过一个卷积层，输出预测结果。

目标检测任务分支中，将多特征融合网络输出的目标检测特征分别输入热力图分支、尺寸分支和偏移量分支，损失函数约束中热力图分支采用尺寸自适应的像素级逻辑回归损失函数，尺寸分支和偏移量分支均采用L1损失进行训练，热力图分支确定目标中心点位置，尺寸分支确定目标长、宽，偏移量分支精准定位目标中心点位置偏移量，由此定位当前帧中目标的位置；目标再识别特征提取任务分支中，将多特征融合网络输出的再识别特征输入嵌入表征向量分支，将每个目标作为一类，通过卷积层-ReLU激活层-卷积层，采用分类任务的损失函数进行训练，得到提取的特征，表示为嵌入表征向量，依据目标检测任务得到目标的中心点位置，从全图的嵌入表征立方体中提取目标的嵌入表征向量，用于目标间表观相似度计算，通过相似度计算结果判断目标ID。最终，目标检测分支定位目标位置，目标特征提取分支对所提取的表征向量计算相似度实现目标匹配，最终实现多目标跟踪。

以上公开的仅为本发明的具体实例，根据本发明提供的思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。

Claims

1.一种基于任务区分检测再识别联合网络的目标跟踪方法，其特征在于包括如下步骤：

（1）利用骨干网络提取共享特征：对输入的当前帧图像，利用深层聚合网络DLA作为骨干网络提取图像特征，DLA输出阶段1至阶段N共计N个阶段不同尺度的特征图，作为后续多特征融合网络的输入，也是后续目标检测和再识别特征提取的共享特征；

（2）利用多特征融合网络提取任务区分特征：从所获得的N个阶段不同尺度的特征图中分别选择适用于目标检测和再识别特征提取这两个不同任务的特征图，输入多特征融合网络进行融合，采用多任务特征融合结构得到分别用于目标检测和再识别特征提取两个任务的两种融合特征；

所述多任务特征融合结构包括：多任务分层的特征融合结构、多任务独立的特征融合结构；

（3）利用多任务分支分别完成目标检测和目标再识别特征提取：将所获得的用于目标检测和再识别特征提取两个任务的两种融合特征，分别输入目标检测任务分支和再识别特征提取任务分支后，每个分支通过不同的损失函数约束进行训练，以分别完成目标检测任务和目标再识别特征提取任务；

2.如权利要求1所述的方法，其特征在于步骤（1）中利用DLA骨干网络提取图像特征的具体过程为：DLA骨干网络中的核心模块为层级深度聚合网络HDA模块，HDA模块为树状链接的层次结构,通过树结构融合多个卷积块，根据树结构的深度不同对应一系列卷积块输入，将各个层次聚合为不同等级的表征，实现通道方向上的聚合,每一个HDA模块都输出一个对应分辨率的聚合结果，这些聚合结果称为HDA聚合节点，每个HDA模块对应一个不同的阶段；而迭代深度聚合网络IDA模块对所述HDA聚合节点进行链接,当获得不同阶段的HDA聚合节点后，通过IDA特征融合网络链接不同阶段的特征，实现分辨率和尺度方向上的聚合；不同阶段通过HDA模块聚合和IDA链接后的结果，输出不同阶段具有不同尺度的特征图。

3.如权利要求1所述的方法，其特征在于多特征融合的具体融合过程为：采用IDA特征融合网络，通过IDA模块对DLA骨干网络输出的不同阶段具有不同尺度的特征图进行链接。

4.如权利要求2或3所述的方法，其特征在于通过IDA特征融合网络进行链接的具体操作过程为：IDA模块对不同阶段具有不同尺度的特征图进行链接,使用IDA模块进行多尺度特征图链接时，先对低分辨率特征图进行上采样，通过迭代地进行特征的插值与聚合，从浅到深地融合多个阶段的特征，形成一个越来越深的解码器，最终输出深度融合的高分辨率特征。

5.如权利要求1所述的方法，其特征在于步骤（1）中DLA骨干网络输出阶段1至阶段N共计N个阶段不同尺度的特征图，N=4。

6.如权利要求1所述的方法，其特征在于选择阶段1到阶段M的低层特征图，经过多特征融合后作为后续目标检测任务分支的输入，M=3。