CN113139620A

CN113139620A - 基于目标关联学习的端到端多目标检测与跟踪联合方法

Info

Publication number: CN113139620A
Application number: CN202110526361.XA
Authority: CN
Inventors: 冯欣; 吴浩铭; 龙建武; 陈斌; 潘攀; 陈志�
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-07-20

Abstract

本发明公开了基于目标关联学习的端到端多目标检测与跟踪联合方法，具体包括以下步骤：S1、网络通过两个孪生的骨干网络接受时间上连续的两帧；S2、两个骨干网络通过共享参数数据，并同时提取两帧中所有目标的高级语义特征，并结合基于中心点的目标检测方法的训练去学习预测场景中所有目标的中心点位置；S3、根据预测的中心点位置，回溯网络的特征层，找到目标对应特征区域的特征向量作为目标的表观特征；S4、包含外观特征相似度矩阵并结合目标的空间关系及运动关系：根据相同帧之间目标的相对位置关系所形成的相对位置矩阵，不同帧之间目标的位移相似度矩阵，通过结合三种相似度矩阵从而实现前后帧的多目标跟踪。本发明提高跟踪效率。

Description

基于目标关联学习的端到端多目标检测与跟踪联合方法

技术领域

本发明涉及一种目标追踪的技术领域，由于是一种基于基本信念函数在证据理论中考虑信念熵的的基于目标关联学习的端到端多目标检测与跟踪联合方法。

背景技术

随着人工智能的不断发展与计算机硬件性能的逐渐提高，以深度卷积神经网络为基础的深度学习方法在计算机视觉的各个应用上都取得了极大的成功，自动驾驶视觉感知是深度学习技术得以大力发展的应用领域，其包含目标检测、多目标跟踪等技术，能够实现目标位置、移动方向、速度的自动感知，为驾驶车辆自动避障、目标交互等重要应用提供有力的技术支撑。

多目标跟踪从跟踪方式上主要分为在线跟踪与离线跟踪。其中，在线跟踪要求当前帧的跟踪结果只与当前帧及前帧中的信息相关。而离线跟踪的跟踪可利用所有帧的信息，从而能够获得全局最优解。因此，在线跟踪通常用于实时的应用情况，而离线跟踪通常用于对一段视频的离线分析，如目标行为分析等。由于可利用信息较少，在线跟踪方法要同时满足高跟踪精度和低时延是极具挑战的。

目前主流的多目标跟踪方法是基于tracking-by-detection的跟踪框架，即通过检测结果进行跟踪。近些年，基于深度学习的tracking-by-detection跟踪方法取得了不错的跟踪效果。这类方法通常通过三步实现跟踪结果：(1)对每帧图像进行目标检测，得到所有目标的位置和边框；(2)在得到目标区域的基础上，使用特征描述方法或进行表观特征的提取；(3)通过计算目标间表观特征的相似度进行帧间目标的匹配以得到每个目标的跟踪结果。因此，在这样的框架下，目标检测结果的准确性对于后续跟踪结果的好坏有很大的影响。

近年来，深度神经网络推动目标检测算法快速发展。其中包含：1)基于锚框(anchor)的多阶段检测算法，如:Faster R-CNN、Mask R-CNN等在检测精度上有很大优势；2)基于锚框(anchor)的单阶段检测算法，如SSD、YOLO、RetinaNet等目标检测算法是适合实时应用的目标检测算法；3)基于关键点的无锚框(anchor-free)目标检测算法，如CornerNet、CenterNet等综合了速度与精度,上述的这些是目前目标检测领域的研究热点，考虑到目标检测对后续目标跟踪的重要性。

基于每一帧得到的目标定位结果，多目标跟踪问题可归为数据关联问题，即跨帧关联相同目标。大多数tracking-by-detection的跟踪算法利用目标的特征描述来实现目标之间的匹配。例如传统采用像素模板、颜色直方图、基于梯度表示的HOG特征和基于混合颜色和纹理特征的协方差矩阵等目标的特征描述方法再利用匈牙利算法。然而，这些特征描述很难处理被遮挡或光照变化情况下的目标以及非刚性目标，如姿态变化较大的行人目标等。因此往往会联合采用基于空间关系的目标匹配方法，通过交并比、光流法获取帧间目标的空间关系进行目标空间上的匹配，

相对于传统的特征提取方法，基于深度卷积神经网络如ResNet、VGG的特征提取方法虽然能够提取到目标的高级语义特征以进行更准确的目标匹配，但ResNet、VGG等常用骨干网络有着较多的网络参数，会导致跟踪效率的低下。

针对实时跟踪应用场景下有着较高的实时性要求，本发明提出了一个基于目标关联学习的端到端目标检测与多目标跟踪联合方法，使用一个轻量级的骨干网络便能同时对图像中所有目标进行检测与特征提取，避免了重复使用特征提取网络依次对所有目标进行特征提取的方式，有效的提高了目标特征提取的效率。不同于tracking-by-detection框架，本发明在对目标进行检测的同时从最具有区分性目标特征的提取层进行了对目标表观特征的提取。基于目标检测下的特征提取过程不增加任何计算量，提高了整个跟踪过程的效率。在目标匹配跟踪过程中通过目标关联网络分支来学习目标间的相似度并直接得到匹配跟踪结果，和基于目标中心点的检测网络形成端到端的高效目标检测与跟踪方法。同时，本发明也考虑了目标间的空间关系，通过交并比在空间上对目标进行匹配，有效的防止了两个不同目标因外观相似造成的错误匹配情况。

DeepSORT是最早的基于深度学习的tracking-by-detection跟踪方法。DeepSORT在检测过程中采用了Faster R-CNN的检测思想，即通过RPN网络来减少负样本以提高检测精度。在检测到目标后，DeepSORT采用了基于行人重识别数据预训练的卷积神经网络来提取目标的表观特征，并通过计算目标特征的余弦相似度来实现目标间的匹配。除了目标表观特征的匹配，DeepSORT还根据目标当前位置来预测目标在下一帧的位置，并结合交并比(Intersection over Union，IOU)进一步预测目标匹配的可能性。DeepSORT采用了精确度较高的二阶段目标检测网络，同时考虑了目标的表观特征和位置信息以获得更加准确的跟踪结果。然而，DeepSORT的目标特征提取网络需要多次输入目标区域图像以提取目标的表观特征。这种情况下，当目标个数过多时，算法的跟踪效率就会大大降低。这对于在线跟踪来说，是一个必须要解决的难题。

为了提高基于深度学习的tracking-by-detection算法的效率，DAN采用了目标关联的思想对目标进行匹配。该方法在目标检测之后，通过从目标检测网络提取目标的表观特征，再根据不同帧间目标特征得到目标特征组合矩阵，最后，通过关联匹配网络学习目标间的相似度，从而实现目标间的匹配及跟踪结果。DAN在特征提取时考虑了图片的背景信息，同时通过直接计算目标之间的匹配相似度加强了对目标可区分性表观特征的提取；其关联匹配网络可直接输出目标间的匹配结果，实现了较高效的跟踪效果。但和DeepSORT一样，DAN同样使用了多个卷积神经网络进行目标检测和跟踪，并且采用了参数量较大的VGG网络作为特征提取骨干网络，这些因素仍然限制了该方法的跟踪效率。

综上所述，目前的多目标跟踪方法均无法得到目标检测和帧间多目标关联匹配，而导致效率低的问题。

发明内容

本发明的目的在于提供基于目标关联学习的端到端多目标检测与跟踪联合方法，以解决上述背景技术中提出的现有的多阶段的目标检测与跟踪方法的效率低，不适合实时的应用场景的问题，本发明通过使用单一网络同时实现目标检测与层间特征融合的可区分特征提取，并采用目标关联网络学习目标间的特征关联性，端到端地实现多目标跟踪结果，相比现有先进的多目标跟踪算法在速度和精度上都有明显的提升，是一个可满足实际应用的高效目标检测和跟踪方法。

为实现上述目的，本发明提供如下技术方案：基于目标关联学习的端到端多目标检测与跟踪联合方法，具体包括以下步骤：

S1、首先，该网络通过两个孪生的骨干网络分别接受时间上连续的两帧I_t1、I_t2图片；

S2、两个骨干网络通过共享参数数据，并同时提取两帧中所有目标的高级语义特征，并结合基于中心点的目标检测方法的训练去学习预测场景中所有目标的中心点位置C_t1、C_t2；

S3、根据预测的中心点位置，回溯网络的特征层，找到目标对应特征区域的特征向量作为目标的表观特征，即得到F_t1、F_t2；

S4、将从不同帧提取的目标表观特征向量进行两两组合得到目标表观特征矩阵G_t1，t2，并考虑目标的空间关系及运动关系，然后根据相同帧之间目标的相对位置关系所形成的相对位置矩阵、不同帧之间目标的位移相似度矩阵后，通过结合三种相似度矩阵，最终得到目标相似度匹配矩阵M_t1,t2，从而实现前后帧的多目标跟踪从而实现前后帧的多目标跟踪。

进一步，在步骤S1中骨干网络采用了轻量化的DLA34网络结构，其主要由迭代深度聚合IDA和层次深度聚合HDA构成，迭代深度聚合IDA结构融合了相邻模块内的最后一层特征层，通过对不同尺度的特征层进行融合，使得更深层的特征层的目标语义信息更加丰富；层次深度聚合HDA结构将各个模组内不同通道的特征图融合，实现对各滤波器提取的不同角度的特征进行融合，且加入了可变形卷积操作，以使网络能够对姿态变化较多的目标提取鲁棒特征，保证中心点的目标检测网络的输出特征分辨率大小为原图的1/4。

在目标检测阶段中本发明采用基于中心点的目标检测方法，其动机主要来源于以下三个方面：1)目标的中心点往往是目标特征的聚集点。在网络的高层特征层上，中心特征点在原图上的感受野区域相对于其它特征点往往包含了更多的目标区域，因此中心点提取到的表观特征包含了更丰富的表观信息。2)在目标检测基础上的多目标跟踪方法更关注于目标中心点位置及目标的特征区分能力，而通用目标检测方法主要学习目标的区域定位和类别识别，因此，有必要采用适合于多目标跟踪的目标检测框架。3)目前，基于关键点的目标检测算法已取得了极大的发展，如CenterNet，CornerNet等。这些方法已证明采用基于中心点的目标检测方法比现有的基于anchor的目标检测方法更高效且准确，本发明采用了轻量化的DLA34网络结构，其网络参数量远小于目前常用的特征提取骨干网络ResNet101，如图2所示，箭头上带有小方块的走向图即表示IDA结构，在图2中该结构融合了相邻模块内的最后一层特征层，通过对不同尺度的特征层进行融合，使得更深层的特征层的目标语义信息更加丰富；图2中方块模块中带有小圆点的均包含HDA结构，该结构将各个模组内不同通道的特征图融合，实现对各滤波器提取的不同角度的特征进行融合，图2中箭头上带有三角形点的表示的特征层融合过程加入了可变形卷积操作，以使网络能够对姿态变化较多的目标提取鲁棒特征，由于加入可变形卷积的DLA34网络的检测结果要优于不加入可变形卷积的DLA34，因此板发明基于检测跟踪的多目标跟踪方法在骨干网络中加入可变形卷积后的检测预测结果对于后续的跟踪匹配阶段是更加有利的，最终，基于中心点的目标检测网络的输出特征分辨率大小为原图的1/4，特征图上的每个特征点将用于回归和分类预测；

进一步，在步骤S2中基于中心点的目标检测方法过程中含有目标检测网络的损失函数，该损失函数包括中心关键点的预测损失L_center、中心点位置预测的偏移损失L_offset以及目标区域范围的预测损失L_bbox三个部分，L_center的定义公式如下：

其中，Y^p表示预测的热图上每个特征点属于目标中心点的概率，Y表示真实热图上的特征点是目标中心点的概率，β表示对正负样本进行调节的超参数,α表示对易分类样本及难分类样本进行调节的超参数,Otherwise表示除了正样本之外的其他样本；

L_center用来计算预测的热图上每个特征点与真实热图上每个特征点之间的交叉熵，真实热图是通过高斯核得到，即以目标中心为均值为0，峰值为1的中心点，沿远离中心的方向上各点的标注值按照高斯分布依次递减，该损失函数采用了focal loss，能够有效解决正负样本不平衡的问题；

中心点位置偏移损失L_offset的定义公式如下：

其中，C^p表示预测的目标中心偏移值，C表示原图上的目标中心坐标，S表示最终特征层相对于原图的下采样次数，L_offset通过L1 loss计算在下采样过程中目标中心坐标因无法整除而造成的坐标偏移与预测的坐标偏移间的差异损失；

目标区域范围的预测损失L_bbox是目标长宽范围的损失主要训练目标的长宽参数预测，其定义如下：

L_bbox＝|B^p-B| (3)

其中B^p表示目标的预测长宽，B表示目标的真实长宽，L_bbox通过L1 loss计算预测的目标长宽与实际目标长宽的差异损失；

上述公式中：L_center计算预测的热图上每个特征点与真实热图上每个特征点之间的交叉熵，真实热图是通过高斯核得到，即以目标中心为均值为0，峰值为1的中心点，沿远离中心的方向上各点的标注值按照高斯分布依次递减，该损失函数采用了focal loss，能够有效解决正负样本不平衡的问题；L_offset通过L1 loss计算在下采样过程中目标中心坐标因无法整除而造成的坐标偏移与预测的坐标偏移间的差异损失；L_bbox通过L1 loss计算预测的目标长宽与实际目标长宽的差异损失。

对于在每一层特征层上目标的中心特征点来说，其包含的目标表征信息是最丰富的，基于中心点的目标检测网络后，可以得到每个目标的中心点位置，进而得到目标相对于整张图大小的相对中心点位置，而现有的多目标跟踪方法通常通过额外训练一个网络来提取目标特征，这样往往会大幅度增加算法的计算复杂度，因此发明提出从基于中心点的目标检测的网络推理预测的同时提取目标的特征，从而在不增加计算量的情况下提取目标的中心点特征，具体地，本发明根据目标的相对中心点位置从各个特征层提取目标的中心点对应位置的特征向量，显然，每个目标都有其最合适的特征提取层，通过聚类各个目标对应合适的感受野大小选取了对于目标最具有区分性的特征层(包含不同尺度)，并通过融合不同尺度的特征层的目标特征，使得目标的表观特征具有尺度不变性，因此，进一步，在步骤S3中根据预测的中心点位置，回溯网络的特征层的具体方法是根据目标的相对中心点位置从各个特征层提取目标的中心点对应位置的特征向量，首先通过聚类各个目标对应合适的感受野大小选取了对于目标最具有区分性的特征层；且在提取的每个特征层后分别经过一个3×3的卷积层以改变特征图的通道数使提取到的特征向量长度保持一致，最后，将从这四个特征层提取到的特征向量通过首尾相连的方式得到目标最终特征向量F，其维度为520维，具体如公式(4)所示：

F＝concat(f₁(C_r),f₂(C_r),f₃(C_r),f₄(C_r)) (4)

其中，C_r表示从骨干网络不同特征层中提取出的特征向量，f表示不同特征提取层经过3×3卷积后再通过目标相对中心点位置C_r提取得到的特征向量，其维度均为130维。

进一步，在相似度匹配矩阵中增加一列新的向量来表示目标消失的可能性，此时目标关联网络分支的匹配损失函数设计如公式(5)所示。

其中，L_m用于计算目标关联网络预测的相似度匹配矩阵中每一行与真实相似度匹配矩阵中每一行的交叉熵，其中i表示行的索引，Y_i表示真实的相似度匹配矩阵第i行，Y_i ^p表示预测的相似度匹配矩阵第i行；

进一步，实现正确匹配，在对轨迹中多个目标的表观特征与当前需跟踪的目标的表观特征进行匹配的过程中，需要进行目标跟踪策略操作，具体步骤如下：

S5-1、检测当前帧所有目标，若当前帧为初始帧，为每个对象新建一个已确定轨迹，将对象的特征向量分别加入对应的已确定轨迹中，跳转到步骤S5-4；若当前帧不是初始帧，将目标与轨迹进行相似度匹配，得到目标与轨迹的表观匹配矩阵；

S5-2、通过IOU计算目标与轨迹的空间匹配矩阵，并结合表观匹配矩阵得到当前目标与已确定轨迹的最终匹配矩阵，对匹配矩阵使用匈牙利算法，可得到未匹配的目标、未匹配的已确定轨迹、未匹配的待确定轨迹、匹配到的已确定轨迹和目标以及匹配到的待确定轨迹和目标；

S5-3、对于未匹配目标，设定为待确定轨迹；对于未匹配的已确定轨迹，则将其未匹配次数加一，如果轨迹的未匹配次数大于f_um，则认为该轨迹所对应的目标已经消失，并删除掉该轨迹；对于未匹配的待确定轨迹，删除掉该轨迹；对于匹配到的已确定轨迹和目标，则将匹配到的目标加入轨迹中，若轨迹中的目标数大于m，则删除轨迹中最早加入的目标；对于匹配到的待确定轨迹和目标，将匹配的目标加入轨迹中且其连续匹配数加一，若待确定轨迹的连续匹配数大于等于三，则变为已确定轨迹；

S5-4、对下一帧图像进行跟踪，跳转到步骤S5-1。

进一步，在步骤S1中为了增加更多不同的训练数据对以及防止两张图片中同一目标的变化过大，两张图像间的帧间间隔不定但不得超过最大帧间间隔数30帧。

与现有技术相比，本发明的有益效果如下：本发明使用单一的骨干网络同时实现了视频帧中的目标检测及对目标的表观特征进行提取，不同于传统的“tracking-by-detection”方法训练额外的网络来提取目标特征，该方法的目标特征提取过程不增加任何计算量，目标特征提取后，本发明设计了目标关联网络分支来直接学习目标间的特征关联性从而得到目标之间的匹配跟踪结果，整个跟踪过程基于一个端到端的网络结构，避免了重复输入检测后的目标进入特征提取网络进行特征提取，有效的增加了跟踪速度，同时，基于目标感受野的特征提取层选取以及关联网络分支对两两目标进行相似度预测的方式有效的增加了多目标跟踪的准确性，虽然本发明也考虑了基于空间的目标IOU匹配方法，但是目标检测边框的准确性会对匹配结果造成严重的影响，因此本发明之后会考虑目标间新的空间关系来进行目标间更准确的空间信息匹配，并结合表观特征来进行更加准确的多目标跟踪。

附图说明

图1为本发明公开的基于目标关联学习的端到端多目标检测与跟踪联合方法的网络整体架构图；

图2为基于中心点的目标检测方法框架图；

图3为目标大小与合适感受野图；

图4为目标表观特征提取图；

图5为目标关联网络预测过程图；

图6为真实匹配矩阵图；

图7为本发明公开的基于目标关联学习的端到端多目标检测与跟踪联合方法中匹配网络架构图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1、图7所示，本发明提供的一种实施例：基于目标关联学习的端到端多目标检测与跟踪联合方法，具体包括以下步骤：

如图7所示，F^N表示外观特征矩阵，S^N表示外观特征相似度矩阵，F^E表示相对位置(方向)特征矩阵，S^E表示相对位置相似度矩阵，S^S表示位移相似度矩阵，F^E计算方式：检测结果获得的目标中心点坐标，每个目标对应其它目标的方向向量，2*80，我们将前后帧目标进行组合得到F^E∈R^{(2*2*80)*80*80}，S^S计算方式：我们认为对行人跟踪场景来说相近两帧之间相同目标其速度变化不大，因此可用目标中心点的空间距离来表示两个目标的相似度，即不同帧的节点之间的包含了目标间的空间相似性，空间相似度的计算公式如下：

因此本发明通过根据目标表观特征矩阵G_t1，t2并结合匹配网络获得外观特征矩阵F^N，通过前后帧目标两两组合的方式得到前后帧的外观特征矩阵F^N _t1,t2∈R^80×80×1040，以及外观特征相似度矩阵S^N，并考虑目标的空间关系及运动关系，得到相对位置相似度矩阵，以及位移相似度矩阵S^S，并根据检测结果获得的目标中心点坐标，每个目标对应其它目标的方向向量，2*80，我们将前后帧目标进行组合得到相对位置(方向)特征矩阵F^E，F^E计算方式为F^E∈R^{(2*2*80)*80*80}，最终通过结合三种相似度矩阵从而实现前后帧的多目标跟踪。

其中d_i,j为前一帧的第i个节点和后一帧的第j个节点间的归一化距离，即两个节点对应目标中心点坐标的欧式距离与图片上对角线长度的比值，通过归一化节点间的欧式距离以防止不同分辨率图片造成的误差，得到节点间的空间距离后，使用径向基函数e^-x将节点间的空间距离转化为空间相似度，可以看出公式(5.1)将节点间的空间相似度进行了归一化，当节点间的归一化距离d_i,j＝0时，其空间相似度最大为1，当节点间的归一化距离d_i,j＝1时，即节点所对应目标分别处于图片的对角点上，其空间相似度值最小为0，对于补充的无效节点，若有边与其相连则边所包含的空间相似度为0。

其中，Y^p表示预测的热图上每个特征点属于目标中心点的概率，Y表示真实热图上的特征点是目标中心点的概率，β表示对正负样本进行调节的超参数,α表示对易分类样本及难分类样本进行调节的超参数,Otherwise表示除了正样本之外的其他样本；本发明需要说明的是Y^p为一体，只表示预测(prediction)的目标中心点的概率，为了与label Y进行区分从而添加P，这里的P没有含义。

中心点位置偏移损失L_offset的定义公式如下：

L_bbox＝|B^p-B| (3)

F×concat(f₁(C_r),f₂(C_r),f₃(C_r),f₄(C_r)) (4)

其中，C_r表示从骨干网络不同特征层中提取出的特征向量，f表示不同特征提取层经过3＝3卷积后再通过目标相对中心点位置C_r提取得到的特征向量，其维度均为130维。C_r表示从骨干网络不同特征层(4s、8s、16s、32s)中提取出的特征向量，具体参见图4。

进一步，由于图像序列的跟踪过程中往往存在前帧目标在后帧中消失或者新的目标在后帧中出现的情况，因此，在相似度匹配矩阵中增加一列新的向量来表示目标消失的可能性，此时目标关联网络分支的匹配损失函数设计如公式(5)所示。

其中，L_m用于计算目标关联网络预测的相似度匹配矩阵中每一行与真实相似度匹配矩阵中每一行的交叉熵，其中i表示行的索引，Y_i表示真实的相似度匹配矩阵第i行，Y_i ^p表示预测的相似度匹配矩阵第i行；真实相似度匹配矩阵的构成如图6所示。图中两张图像分别为视频序列的前后帧。相似度匹配矩阵的列代表前帧的目标序号，行代表后帧的目标序号。X表示目标数不足而填充的表观特征为零向量的目标，DP为新添列用来表示目标消失的可能性，两两目标的值表示目标间的相似度，图6中的匹配结果如下，前后图像的目标匹配结果为前帧目标1、2与后帧目标1、3匹配，前帧目标3、4消失，后帧目标2为新出现的目标，目标X不会与任何目标进行匹配。

在本实施例中，所述目标大小与合适感受野的关系如图3所示，图片通过被线框选中部分中线框加上三角形点的代表目标的边框，线框无三角形点的代表最合适的感受野大小，其中图3(a)中的目标因为像素较少导致语义信息不足，需要加入部分背景信息作为目标的额外表观特征，因此较小目标的感受野区域比目标的实际区域要大许多，而对于图3(b)中较大的目标，因其像素较多而语义信息充足，因此其感受野区域能够包含目标的原像素即可，为了获取目标不同尺度的特征从而得到更加鲁棒的目标表观特征，本发明选择了如图4所示虚线框中的四个模块，分别是不同层次特征层中的最后一层作为目标的表观特征提取层，且在每个特征提取层后分别经过一个3＝3的卷积层以改变特征图的通道数使提取到的特征向量长度保持一致，最后，将从这四个特征层提取到的特征向量拼接在一起得到目标的表观特征向量，并用公式(4)获得；

为了使后续目标关联网络的输入大小一致，必须保持每张图像得到的目标表观特征向量个数一致，对于图像中的目标数未达到设定的最大目标数N_m的情况，通过添加零向量来对目标表观特征向量个数进行补充。通过统计训练集中图像所包含的最大目标数量，本发明设置总目标个数N_m＝80且假设测试集中的目标个数同样不超过80个。

在本实施例中，目标关联网络分支连接在特征提取层之后，用于学习预测目标间表观特征向量的相似度，如图5所示，骨干网络提取到前后帧所有目标的特征后，通过前后帧目标两两组合的方式得到前后帧的目标表观特征矩阵F_t1,t2∈R^80×80×1040，将此矩阵输入由1×1卷积堆叠构成的目标关联网络分支网络，特征矩阵经过多层卷积并同时进行通道缩减，最终学习预测帧间目标的相似度匹配矩阵M_t1,t2∈R^80×80，关联网络中1×1点卷积的设计使关联网络对帧间目标进行直接而有效的相似度计算，同时有效降低了网络的计算量，网络卷积的输出通道数量依据512、256、128、64、1逐渐减小，以使目标表观特征矩阵能够逐渐映射得到相似度匹配矩阵。

在本实施例中，本发明除了目标的表观特征匹配，还将轨迹中多个目标的表观特征与当前需跟踪的目标的表观特征进行匹配，同时，还需要考虑目标之间的空间关系，通过前后帧目标间边框的交并比进一步约束目标间的匹配，具体通过将目标的表观特征匹配、目标的整个轨迹匹配以及目标空间关系约束相加融合得到最终前后帧目标的匹配矩阵。

虽然通过对相似度匹配矩阵使用匈牙利算法能够得到两帧中目标间的匹配跟踪结果，但是对当前帧进行目标跟踪时，若仅考虑前一帧的目标表征信息是不充分的。本发明在进行目标跟踪时，除了目标的表观特征匹配，还将轨迹中多个目标的表观特征与当前需跟踪的目标的表观特征进行匹配，其中轨迹表示跟踪序列中属于同一目标的目标集合。通过这种匹配方式，对于每条轨迹中偶尔出现的错误匹配不会影响到后续目标的正确匹配，增强了目标匹配的鲁棒性，同时，本发明还考虑了目标之间的空间关系，即通过前后帧目标间边框的交并比(即Intersection over Union，IOU值)进一步约束目标间的匹配，通过将目标的表观特征匹配、目标的整个轨迹匹配以及目标空间关系约束相加融合得到最终前后帧目标的匹配矩阵，对于目标的出现和消失情况，本发明考虑若一条轨迹在f_um＝5帧中没有任何目标与其匹配，则认为该轨迹所对应的目标已经消失。此外，考虑到目标可能出现误检测的情况，因此，对于没有任何轨迹与检测到的目标进行匹配的情况，则设该目标为待定目标；如果接下来连续2帧都有目标与其匹配，则将该待定目标确认为新出现的目标，同时加入作为已确定轨迹。

基于目标匹配结果，目标跟踪策略如下：

进一步，在对轨迹中多个目标的表观特征与当前需跟踪的目标的表观特征进行匹配的过程中，需要进行目标跟踪策略操作，具体步骤如下：

S5-4、对下一帧图像进行跟踪，跳转到步骤S5-1。

因此本发明通过使用单一网络同时实现目标检测与层间特征融合的可区分特征提取，并采用目标关联网络学习目标间的特征关联性，端到端地实现多目标跟踪结果，相比现有先进的多目标跟踪算法在速度和精度上都有明显的提升，是一个可满足实际应用的高效目标检测和跟踪方法。

实验分析：

考虑到自动驾驶场景下最频繁出现的行人目标，本实施例使用了目前多目标跟踪领域广泛使用的多目标行人跟踪数据集MOT17，由于MOT17的测试集不提供测试集的真实跟踪标签，仅能将测试集的跟踪结果通过有限次提交到MOT Challenge官网来获取跟踪准确性指标结果来评估算法，因此本发明在进行消融实验时选取了训练集中一个较长的视频序列作为验证集。

1.1多目标行人跟踪数据集MOT17

相对于其它目标，作为分刚体目标的行人目标拥有丰富的姿态变化，因此对该类目标进行准确的检测和跟踪是目前该领域的难点。MOT17的训练集和测试集各包含7个视频序列，每个视频序列均在不同的场景下拍摄，且每个场景的背景都较复杂，行人的数量多且密集，最多时高达80人。同时，行人间存在频繁地交互及遮挡现象，某些场景下的行人目标较小，还有些视频含有拍摄镜头不断移动的情况。复杂的背景以及过多的小目标使得目标检测算法很难对所有目标进行精准的检测，镜头移动造成的目标差异过大、多个目标的频繁交互以及遮挡等情况使得跟踪算法很难对目标保持精准的匹配跟踪，因此在MOT17数据集上实现多目标跟踪具有很大的挑战性。

1.2评测标准

多目标跟踪中最重要的评价指标为MOTA，该指标表示了多目标跟踪的跟踪准确性，其由三个部分组成，分别为FP、FN、ID Switch，其中FP为误判数，表示错误检测的目标数。FN为缺失数，表示某个已知轨迹本能匹配某个目标，却未与该目标匹配的次数。ID-Switch为误匹配数，表示某个已知轨迹错误的匹配到了不属于该轨迹的目标的次数。MOTP表示跟踪到的目标的位置与真实位置的误差，该指标衡量了跟踪估计目标位置精确度的能力。Hz表示算法每秒钟能处理的帧数，该指标在本发明衡量了多目标跟踪算法的跟踪速度。除了上述较重要的指标外，还有IDF1、MT和ML，分别表示了正确识别的检测与平均真实数和计算检测数之比、预测轨迹占该正确轨迹的80％的轨迹相对所有轨迹的比例和预测轨迹的丢失数占该正确轨迹的20％的轨迹相对所有轨迹的比例。

1.3训练细节

本发明的实验环境是Ubuntu 16.04，使用单张RTX 2080Ti对模型进行训练。训练步骤分为三步，第一步，冻结目标关联网络分支以及特征提取层后的3×3卷积层的参数，使用CrowHuman行人检测数据集，通过目标中心点检测损失函数训练骨干网络，输入的图片分辨率大小为512×512。训练的batchsize大小为64，训练周期数为140。初始学习率设置为0.025，在第90、120个周期时分别降低10倍学习率。第二步，将第一步得到的模型作为预训练模型，冻结目标关联网络分支以及特征提取层后的3×3卷积层的参数，使用MOT17数据集，通过目标中心点检测损失函数训练骨干网络。这一步中，输入的图片分辨率大小为544×960，batchsize大小为16，训练周期数设置为70。初始学习率设置为0.000125，在第60个周期时降低10倍学习率。最后，冻结骨干网络的参数，使用MOT17数据集，通过匹配损失函数训练目标关联分支以及特征提取层后的3×3卷积层。该步训练输入的图像分辨率大小为544×960，batchsize大小为3，训练周期数为35。初始学习率设置为0.01，并在第13、22、28、35个周期时分别降低10倍学习率。

表1为特征提取层选取

表2跟踪参数设定

表3与其它算法的结果对比

1.4实验结果与分析

为了获取目标不同尺度的特征，并结合各个目标的感受野区域考虑，本发明选择了在骨干网络中第4、8、16、32倍下采样分辨率特征层中的最后一层作为目标表观特征的提取层。为了探究不同的特征提取层对于跟踪结果的影响，选择了如图4虚线框所示的更高层的特征提取层来进行对比。对于不同特征提取层的选取，在MOT17测试集上的实验结果如表1所示，↑表示该指标的值越高越好，↓表示该指标的值越低越好。从表1中可以看出，使用更高层的特征提取层的目标表观特征进行匹配跟踪时的ID Switch个数有明显的增加，跟踪过程中出现了更多误匹配的现象。因此，相对于本发明选取的特征提取层，更高层的特征提取层并不能够提取到目标更有区分性的表观特征。

在跟踪过程中，本发明考虑了轨迹允许存在的最大目标数以及轨迹允许存在的连续最大未匹配次数。对于轨迹中允许存在的最大目标数，若个数过多会造成轨迹中最早加入的目标与后续目标的位移与姿态相差过大而很难进行正确匹配，若个数较少会造成轨迹中最后加入的错误匹配目标继续匹配到错误的目标。对于轨迹允许存在的连续最大未匹配次数，若次数过多则会造成本已经消失的轨迹再次与目标进行匹配，若次数过少会因轨迹对应目标偶尔出现的遮挡情况被判定轨迹已经消失而无法再次参与匹配。对于这两个参数的不同设定在MOT17测试集上的实验结果如表2所示，当轨迹中的最大目标数为5且轨迹允许存在的连续最大未匹配次数为5时，达到最高的跟踪准确度。

表3总结了目前先进的在线和离线跟踪方法的结果。LSST提出了使用前后帧的目标信息和连续帧的目标信息来对目标进行匹配跟踪；MPNTraker构造了一个图结构，将所有帧的目标作为结点，跨帧间的目标间存在边，通过图卷积网络来学习预测目标间的关联性；EDMT提出了一种新型增强目标检测，主要用于优化拥挤人群场景下的多目标跟踪效果；MHT_DAM提出了一种获取目标长期的运动和外观模型的方法，并为每个目标构造了跟踪树，为数据关联问题提供一个系统的解决方法；IOU17直接通过目标间的交并比(Intersectionover Union，IOU)的值判断是否为同一目标从而进行匹配跟踪；DeepMOT提出了深度匈牙利网络，通过直接优化多目标跟踪指标MOTA来训练深度匈牙利网络；Tracktor17通过对象检测器的边界框来预测对下一帧中的新位置；FWT提出了一种多个检测器的多目标检测跟踪方法，通过全身和头部检测器以检测那些被严重遮挡的行人目标，基于检测结果提高跟踪精度；JDE在YOLOv3的基础上加入了关联嵌入分支，在检测目标的同时对目标的表征进行提取从而进行快速跟踪。虽然离线跟踪比在线跟踪使用了更多的目标跟踪信息，但本发明的方法在各个指标下仍然超越了离线跟踪方法。可以看到，对于MOT17测试集，本发明提出的方法在三个指标上均优于其他方法，且在其他指标上仍然具有竞争力，本发明基于anchor-free的目标检测算法相对于其它多目标跟踪中使用基于anchor的目标检测方法会出现更多的错误检测目标，进而会导致错误检测的目标可能错误的匹配已存在轨迹，因此FP和ID-Switch情况会相对较多。同时，本发明考虑了包括目标检测过程的整个跟踪过程的预测速度，对于其他方法，其跟踪速度指标仅计算了跟踪匹配的过程，未考虑目标检测的时间消耗，因此对于包含目标检测过程的整个多目标跟踪过程，部分方法的跟踪速度要小于其原文的跟踪速度。

实验结果表明：在MOT17数据集上，该方法的多目标跟踪综合准确度指标MOTA达到65.2，整体的预测速度达到9帧每秒，比现有先进的多目标跟踪算法在速度和精度上都有明显的提升，是一个可满足实际应用的高效目标检测和跟踪方法，因为本发明提出了一种基于目标关联学习的端到端多目标检测与跟踪方法研究，该方法使用单一的骨干网络同时实现了视频帧中的目标检测及对目标的表观特征进行提取，不同于传统的“tracking-by-detection”方法训练额外的网络来提取目标特征，该方法的目标特征提取过程不增加任何计算量，目标特征提取后，本发明设计了目标关联网络分支来直接学习目标间的特征关联性从而得到目标之间的匹配跟踪结果，整个跟踪过程基于一个端到端的网络结构，避免了重复输入检测后的目标进入特征提取网络进行特征提取，有效的增加了跟踪速度，同时，基于目标感受野的特征提取层选取以及关联网络分支对两两目标进行相似度预测的方式有效的增加了多目标跟踪的准确性，虽然本发明也考虑了基于空间的目标IOU匹配方法，但是目标检测边框的准确性会对匹配结果造成严重的影响，因此本发明之后会考虑目标间新的空间关系来进行目标间更准确的空间信息匹配，并结合表观特征来进行更加准确的多目标跟踪。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.基于目标关联学习的端到端多目标检测与跟踪联合方法，其特征在于具体包括以下步骤：

2.根据权利要求1所述的基于目标关联学习的端到端多目标检测与跟踪联合方法，其特征在于：在步骤S1中骨干网络采用了轻量化的DLA34网络结构，其主要由迭代深度聚合IDA和层次深度聚合HDA构成，迭代深度聚合IDA结构融合了相邻模块内的最后一层特征层，通过对不同尺度的特征层进行融合，使得更深层的特征层的目标语义信息更加丰富；层次深度聚合HDA结构将各个模组内不同通道的特征图融合，实现对各滤波器提取的不同角度的特征进行融合，且加入了可变形卷积操作，以使网络能够对姿态变化较多的目标提取鲁棒特征，保证中心点的目标检测网络的输出特征分辨率大小为原图的1/4。

3.根据权利要求2所述的基于目标关联学习的端到端多目标检测与跟踪联合方法，其特征在于：在步骤S2中基于中心点的目标检测方法过程中含有目标检测网络的损失函数，该损失函数包括中心关键点的预测损失L_center、中心点位置预测的偏移损失L_offset以及目标区域范围的预测损失L_bbox三个部分，L_center的定义公式如下：

中心点位置偏移损失L_offset的定义公式如下：

L_bbox＝|B^p-B| (3)

其中B^p表示目标的预测长宽，B表示目标的真实长宽，L_bbox通过L1 loss计算预测的目标长宽与实际目标长宽的差异损失。

4.根据权利要求3所述的基于目标关联学习的端到端多目标检测与跟踪联合方法，其特征在于：在步骤S3中根据预测的中心点位置，回溯网络的特征层的具体方法是根据目标的相对中心点位置从各个特征层提取目标的中心点对应位置的特征向量，首先通过聚类各个目标对应合适的感受野大小选取了对于目标最具有区分性的特征层；且在提取的每个特征层后分别经过一个3×3的卷积层以改变特征图的通道数使提取到的特征向量长度保持一致，最后，将从这四个特征层提取到的特征向量通过首尾相连的方式得到目标最终特征向量F，其维度为520维，具体如公式(4)所示：

F＝concat(f₁(C_r),f₂(C_r),f₃(C_r),f₄(C_r)) (4)

5.根据权利要求4所述的基于目标关联学习的端到端多目标检测与跟踪联合方法，其特征在于：在相似度匹配矩阵中增加一列新的向量来表示目标消失的可能性，此时目标关联网络分支的匹配损失函数设计如公式(5)所示。

其中，L_m用于计算目标关联网络预测的相似度匹配矩阵中每一行与真实相似度匹配矩阵中每一行的交叉熵，其中i表示行的索引，Y_i表示真实的相似度匹配矩阵第i行，Y_i ^p表示预测的相似度匹配矩阵第i行。

6.根据权利要求5所述的基于目标关联学习的端到端多目标检测与跟踪联合方法，其特征在于：在对轨迹中多个目标的表观特征与当前需跟踪的目标的表观特征进行匹配的过程中，需要进行目标跟踪策略操作，具体步骤如下：

S5-4、对下一帧图像进行跟踪，跳转到步骤S5-1。

7.根据权利要求6所述的基于目标关联学习的端到端多目标检测与跟踪联合方法，其特征在于：在步骤S1中为了增加更多不同的训练数据对以及防止两张图片中同一目标的变化过大，两张图像间的帧间间隔不定但不得超过最大帧间间隔数30帧。