CN111882580B

CN111882580B - 一种视频多目标跟踪方法及系统

Info

Publication number: CN111882580B
Application number: CN202010693529.1A
Authority: CN
Inventors: 凌贺飞; 王现瑞; 黄昌喜
Original assignee: Yuanshen Technology Hangzhou Co ltd
Current assignee: Yuanshen Technology Hangzhou Co ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2023-10-24
Anticipated expiration: 2040-07-17
Also published as: CN111882580A

Abstract

本发明提供一种视频多目标跟踪方法及系统，将含有待跟踪目标的视频抽取为连续的视频帧，并通过孪生网络学习帧之间的时序信息；通过深度卷积神经网络基于连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征；基于多尺度目标特征得到目标位置检测结果，以及有效的目标外观特征描述向量；基于目标外观特征描述向量，计算当前视频帧与预设时间内的历史视频帧之间的外观特征相似度；基于目标位置检测结果，计算运动特征相似度；将外观特征相似度和运动特征相似度的乘积作为目标与轨迹之间的相似度，确定各个目标与轨迹之间的最佳匹配关系，得到多目标的跟踪结果。本发明在保证领先的跟踪性能的基础上，大幅度提升了跟踪速度，具有很高的应用价值。

Description

一种视频多目标跟踪方法及系统

技术领域

本发明属于计算机视觉与模式识别领域，更具体地，涉及一种视频多目标跟踪方法及系统。

背景技术

计算机视觉是赋予机器视觉能力的一门科学，通过一系列的图像处理技术，使得计算机对输入的图像或者视频具备一定的识别分析能力，在一定领域达到甚至超越人类。近年来，随着科学技术的不断发展与进步，越来越多的智能设备如电脑、手机、视频监控走进人们的生活，海量视频数据的不断涌现和硬件计算能力的不断提升，为计算机视觉的飞速发展奠定了基础，同时也带来了巨大的机遇和挑战。多目标跟踪的目的是在视频序列中同时跟踪多个目标，在空间上输出目标在每一帧图像中的位置，在时间上维持帧与帧之间目标身份一致性，并最终给出多个目标的运动轨迹。多目标跟踪可以为行为分析、内容理解、事件预警等高层视觉任务提供支持，有着广泛的应用价值。

根据算法在进行目标匹配过程中使用的视频帧信息，可以将多目标跟踪算法分为离线多目标跟踪和在线多目标跟踪。其中离线多目标跟踪使用整个视频中的信息完成数据关联，通常使用优化问题来解决，比如最小代价流、最小多割图等。而在线多目标跟踪仅使用当前帧之前的视频帧进行目标跟踪，常见的有判断可信度的相关滤波算法、以及多维分配算法(Multidimensional Assignment，MDA)。早在20世纪70年代，相关滤波技术就已应用在单目标跟踪研究中，基于相关滤波的多目标跟踪方法的主要思路是利用之前已经获得的目标先验知识，通过状态转移模型对目标接下来的状态进行预测，然后根据当前观测状态对预测模型进行修正。后来，一些文章通过初始化多个单目标跟踪器实现了对视频中多个目标的跟踪，但仍会存在跟踪速度慢、容易发生跟踪漂移等问题。随着深度学习的发展，基于深度卷积神经网络的特征提取模式逐渐代替了传统的手工特征，并取得了更好的跟踪精度。近年来目标检测领域的快速发展，使得基于目标检测的视频多目标跟踪方法取得了突破性的进展。首先通过预训练的目标检测器确定每一帧中目标位置，然后将其作为网络输入，使用深度卷积网络生成目标描述向量，计算帧与帧之间的目标相似度，最后将数据关联看作多维分配问题，使用匈牙利算法等完成目标与目标之间的在线匹配，以实现多目标跟踪。

虽然深度学习的发展为多目标跟踪技术带来了新的方向，但是跟踪场景的复杂性，以及当前算法的不够完善，使其在实际应用方面受到诸多限制。通常，基于目标检测的视频多目标跟踪算法可以分为三个阶段：特征提取、相似度计算、数据关联。当前跟踪算法在各个阶段主要面临以下问题：目前视频多目标跟踪算法多以目标检测器的输出作为输入，在整体上难以实现对视频内容的实时跟踪处理。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种视频多目标跟踪方法及系统，旨在解决当前视频目标跟踪方法难以做到实时跟踪的问题。

为实现上述目的，第一方面，本发明提供一种视频多目标跟踪方法，包括如下步骤：

S110，将含有待跟踪目标的视频抽取为连续的视频帧，并通过孪生网络学习视频帧之间的时序信息；

S120，通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征；

S130，基于所述多尺度目标特征检测目标的位置，得到目标位置检测结果；

S140，基于所述多尺度目标特征学习目标的外观特征，并根据目标位置检测结果进行筛选，得到有效的目标外观特征描述向量；

S150，基于目标外观特征描述向量，计算当前视频帧与预设时间内的历史视频帧之间的外观特征相似度；基于目标位置检测结果，计算目标检测位置与预测位置之间的距离作为运动特征相似度；将外观特征相似度和运动特征相似度的乘积作为目标与轨迹之间的相似度，确定各个目标与轨迹之间的最佳匹配关系，得到多目标的跟踪结果。

可选地，所述步骤S110具体包括如下步骤：

S110.1，将视频逐帧拆解，得到连续的视频帧，并根据标注信息得到目标位置和跟踪ID；

具体地，标注信息来自深度卷积神经网络的训练数据，包含目标位置、身份ID等信息。

S110.2，在同一视频的预设时间内随机抽取两视频，并根据跟踪ID生成两视频帧目标之间的关联矩阵；

S110.3，将随机抽取的两视频帧进行图像增强，然后进行图像信息标准化，最后输入孪生网络使其学习两视频帧之间的时序信息。

可选地，所述步骤S120具体包括如下步骤：

S120.1，将随机抽取的两视频帧输入到深度卷积神经网络；

S120.2，在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征，并采用特征金字塔(feature pyramid networks，FPN)结构将提取的特征融合，得到多尺度目标特征。

可选地，所述步骤S130具体包括如下步骤：

S130.1，将所述多尺度目标特征输入目标检测模块，以使目标检测模块对多尺度目标特征进行适应性目标检测学习；

S130.2，将目标检测模块的输出划分为多个目标检测区域，每个目标检测区域检测落在其中的目标，得到落在其中的目标类别和目标位置。

具体地，实际预测的是目标真实位置与锚点Anchor之间的相对偏移量，根据偏移量可以反推目标真实位置。

可选地，所述步骤S140具体包括如下步骤：

S140.1，将所述多尺度目标特征输入目标跟踪模块，以使目标跟踪模块对多尺度目标特征进行适应性目标跟踪学习；

S140.2，将目标跟踪模块的输出划分为多个目标跟踪区域，每个目标跟踪区域生成此区域内目标的外观特征描述向量；

S140.3，根据两视频帧图像中各自的目标外观特征描述向量，使用向量内积计算两两目标之间的相似度，得到相似度矩阵；并根据两视频帧图像目标标注信息，生成目标关联矩阵；

S140.4，使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离，用于约束目标跟踪模块的学习方向，使得目标跟踪模块学习到有效的目标运动轨迹的描述向量。

可选地，所述步骤S150具体包括如下步骤：

S150.1，根据目标外观特征描述向量，使用向量内积计算当前视频帧内目标与预设时间内的历史视频帧内目标之间的目标外观特征相似度；

S150.2，使用卡尔曼滤波对目标运动轨迹建模，计算目标检测位置和目标预测位置之间的距离作为目标运动特征相似度；

S150.3，计算目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度，使用匈牙利算法确定目标与轨迹之间的最佳匹配关系，得到多目标的跟踪结果。

第二方面，本发明提供一种视频多目标跟踪系统，包括：

视频抽取单元，用于将含有待跟踪目标的视频抽取为连续的视频帧，并通过孪生网络学习视频帧之间的时序信息；

特征提取单元，用于通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征；

位置检测单元，用于基于所述多尺度目标特征检测目标的位置，得到目标位置检测结果；

外观描述单元，用于基于所述多尺度目标特征学习目标的外观特征，并根据目标位置检测结果进行筛选，得到有效的目标外观特征描述向量；

目标跟踪单元，用于基于目标外观特征描述向量，计算当前视频帧与预设时间内的历史视频帧之间的目标外观特征相似度；基于目标位置检测结果，计算目标检测位置与目标预测位置之间的距离作为目标运动特征相似度；将目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度，确定各个目标与轨迹之间的最佳匹配关系，得到多目标的跟踪结果。

可选地，所述步视频抽取单元具体用于将视频逐帧拆解，得到连续的视频帧，并根据标注信息得到目标位置和跟踪ID；在同一视频的预设时间内随机抽取两视频，并根据跟踪ID生成两视频帧目标之间的关联矩阵；以及将随机抽取的两视频帧进行图像增强，然后进行图像信息标准化，最后输入孪生网络使其学习两视频帧之间的时序信息。

可选地，所述特征提取单元具体用于将随机抽取的两视频帧输入到深度卷积神经网络；以及在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征，并采用特征金字塔FPN结构将提取的特征融合，得到多尺度目标特征。

可选地，所述位置检测单元具体用于将所述多尺度目标特征输入目标检测模块，以使目标检测模块对多尺度目标特征进行适应性目标检测学习；以及将目标检测模块的输出划分为多个目标检测区域，每个目标检测区域检测落在其中的目标，得到落在其中的目标类别和目标位置。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提出一种视频多目标跟踪方法及系统，使用深度卷积神经网络计算得到输入视频图像的多尺度信息，目标检测模块输出目标类别与其在视频帧图像中的位置，目标跟踪模块将检测到的目标同历史帧进行关联，判断目标身份，完成目标跟踪；将目标检测和数据关联融合到一个端到端的统一框架中，两者共享目标基础特征，并分别进行针对性学习，实现对视频中多个目标的实时跟踪处理。

本发明直接在一个端到端的框架中同时输出目标的检测结果和跟踪结果，相比其他多目标跟踪算法，省去了目标检测带来的时间损失，极大提高了算法的跟踪效率，在大部分算法跟踪速度小于10Hz的情况下，本发明的跟踪方法的跟踪速度远大于10Hz，实现了对视频多目标跟踪的实时处理，具有极大的应用价值。

附图说明

图1是本发明提供的视频多目标跟踪方法流程图；

图2是现有基于目标检测的视频多目标跟踪算法模块图；

图3是本发明提出的融合目标检测与数据关联的视频多目标跟踪算法模块图；

图4是本发明提出的融合目标检测与数据关联的视频多目标跟踪算法结构图；

图5是本发明中的网络最终输出结果示意图；

图6是本发明中的目标跟踪模块输出结果与训练目标格式说明图；

图7是本发明提供的视频多目标跟踪系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

随着深度学习和目标检测领域的飞速发展，基于目标检测的多目标跟踪算法取得了远超传统算法的性能表现，但是其在跟踪速度方面却难以达到实时性要求，成为其实际应用中的一大制约条件。基于目标检测的多目标跟踪算法将跟踪任务分为两部分：1)使用预先训练的目标检测模型确定待跟踪目标在每一个视频帧中的位置；2)根据目标检测结果，提取目标特征，对帧与帧之间的目标进行匹配关联，确定对应关系。两者之间相互独立，且存在先后关系，导致算法很难达到实时性要求。

为了提高算法跟踪效率，本发明提出一种融合目标检测与数据关联的视频多目标跟踪算法，将目标检测和数据关联融合到一个端到端的统一框架中，两者共享目标基础特征，并分别进行针对性学习，实现对视频中多个目标的实时跟踪处理。

图1为本发明提供的视频多目标跟踪方法流程图，如图1所示，包括如下步骤：

可选地，所述步骤S110具体包括如下步骤：

具体地，在步骤S110的跟踪数据预处理阶段：首先将视频逐帧拆解，得到连续的视频帧，并根据标注信息得到目标位置和跟踪ID；在同一视频的时间间隔不超过Δt时间内随机抽取两帧，并根据跟踪ID生成两帧目标之间的关联矩阵；将随机抽取的两帧图像进行对比度调整、光照变化、添加随机噪声等数据增强方式，然后使用z-score标准化方法对图像信息标准化，最后将其缩放为864×480统一大小并输入孪生网络进行学习。

可选地，所述步骤S120具体包括如下步骤：

S120.1，将随机抽取的两视频帧输入到深度卷积神经网络；

具体地，在步骤S120的目标特征提取阶段：特征提取阶段使用共享权重参数的DarkNet53网络和FPN结构完成。首先去掉DarkNet53网络的最后一层全连接层，并将两帧视频帧作为输入。在DarkNet53网络的第26层、43层、52层分别提取下采样8倍、16倍、32倍的深度卷积特征，并使用FPN结构进行特征融合，得到多尺度目标特征，作为目标检测和目标跟踪的基础特征。

可选地，所述步骤S130具体包括如下步骤：

具体地，在步骤S130的目标检测阶段：将前面特征提取模块得到的多尺度特征输入目标检测模块，适用步长为1的BottleNetck结构，对输入特征进行针对性学习，以适应目标检测的任务需求。将BottleNeck输出的特征图划分为108×60得网格，每个网格对应原图8×8的目标区域。在每个网格中设置形状大小、长宽比例不一的6的预设Anchor，每个Anchor可以看做是一个目标检测器，每个网格中的目标检测器只负责检测目标中心点落在该网格中的目标。每个目标检测器可以分为两部分，分类和回归。分类部分使用交叉熵损失函数，指导模型输出正确的目标类别；回归部分使用smoothL1损失函数，让目标学习输出Anchor位置和目标真正位置之间的相对偏移量。

可选地，所述步骤S140具体包括如下步骤：

具体地，在步骤S140的目标跟踪阶段：将特征提取模块得到的多尺度特征输入目标跟踪模块，同样使用步长为1的BottleNeck结构，对输入特征进行进一步学习，使其适应目标跟踪的任务需求，与步骤3结构一致，参数不共享。将BottleNeck输出的特征图划分为108×60的网格，每个网格的对应位置与目标检测阶段相同，并输出一个256维的特征向量，看做目标中心落在此网格内的目标描述向量。根据两帧图像中各自的目标描述向量，使用向量内积计算两两目标之间的相似度，得到相似度矩阵，并根据两帧图像目标标注信息，生成目标关联矩阵。使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离，用于约束目标跟踪模块的学习方向。

可选地，所述步骤S150具体包括如下步骤：

具体地，在步骤S150的跟踪推理阶段：将视频按照顺序逐帧进行数据预处理，首先将其缩放为864×480同一大小，然后进行标准化处理：

其中，x,x′分别表示处理前后图像像素值，mean(x),std(x)分别表示图像像素值的均值和标准差，将标准化之后的数据x′输入训练好的DarkNet53网络。

根据目标检测分支输出的检测结果，筛选目标跟踪分支输出的有效的目标描述向量。根据目标描述向量，使用向量内积计算当前帧目标与Δt时间内的历史帧之间的目标外观特征相似度。使用卡尔曼滤波对目标运动轨迹建模，计算检测位置和预测位置之间的距离作为目标运动特征相似度。计算目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度，使用匈牙利算法确定目标与轨迹之间的最佳匹配关系，得到跟踪结果。

本发明可以分为三个组成部分，分别为特征提取模块、目标检测模块、目标跟踪模块。其中特征提取模块使用深度卷积神经网络计算得到输入视频图像的多尺度信息，目标检测模块输出目标类别与其在视频帧图像中的位置，目标跟踪模块将检测到的目标同历史帧进行关联，判断目标身份，完成目标跟踪。

首先，图2显示目前两阶段基于目标检测的视频多目标跟踪算法模块图，对比图3本发明提出的融合目标检测和数据关联的跟踪算法，本发明方法简化跟踪流程，去除多次特征提取的冗余操作，将视频帧中提取的多尺度特征同时用于目标检测和多目标跟踪，有利于提高跟踪效率。具体实施方式如图4所示，网络在训练过程中使用孪生网络结构，每次输入图像都是同一视频中时间跨度不超过Δt的两帧图像，整体可以分为特征提取模块、目标检测模块和目标跟踪模块三部分。

特征提取模块由主干网络DarkNet53和多尺度特征融合FPN结构组成。首先对于每组输入视频帧，将其缩放至864×480统一大小，然后进行对比度、饱和度调整，添加噪声的数据增强方式，增强网络训练的泛化能力。将数据增强后的图像输入到去除池化层和全连接层的DarkNet53全卷积网络中，并分别在26层、43层、52层分别提取下采样8倍、16倍、32倍的深度卷积特征，然后使用FPN结构，将不同尺度的特征上采样到同一纬度下，得到融合的目标多尺度信息Φ，用于目标检测模块和目标跟踪模块。

目标检测模块输出结果如图5所示。使用基于Anchor的检测结构，首先使用步长为1的BottleNeck对输入特征Φ进行进一步学习，使其适应目标检测的任务需求。然后将得到的特征图分为108×60的网格，在每个网格中设置尺度大小和长宽比例不同的6个Anchor，每个Anchor看做是一个检测器，负责检测目标中心位置落在所在网格的目标。每个检测器又可以分成目标分类和目标回归两个子功能，其中分类部分输出C×6×108×60的多维张量，C代表目标类别，这里C＝2；回归部分输出目标位置相对于Anchor的位置偏移，结果为4×6×108×60，目标位置用[x,y,w,h]的四元组表示，其中x,y表示目标中心点横纵坐标，w,h表示目标长宽。在损失函数方面，目标分类部分使用交叉熵损失函数：

L_C＝-∑p_i*log(q_i)

其中，q_i＝exp(x_i)/∑exp(x_j)表示预测类别概率，p_i为目标真实类别，此处，下标i表示样本数，下标j表示目标类别总数。

回归损失部分，使用smooth L1作为目标位置回归的损失函数。

其中表示网络输出的目标预测位置，/>表示目标真实坐标经如下非线性变换，映射到特征图上的位置：

这里表示Anchor的大小与位置，/>表示目标标注位置。

目标跟踪模块同样使用步长为1的BottleNeck结构进行进一步学习，使其适应目标跟踪的任务要求。同样将输出特征图划分为108×60的网格，每个网格与检测部分具有相同的感应区域，最终输出256×108×60的目标描述向量，后根据目标检测的输出结果，判断包含目标的网格，即可找到对应的目标描述向量。为了衡量目标描述向量的准确性，同时使得相同目标的目标描述向量相近，不同目标的目标描述向量相远，使用FocalLoss约束跟踪模块的学习方向。

最终，损失函数可以表述为以下形式：

其中，S1,S2为目标相似度矩阵按行、按列softmax计算得到的分布概率，G为根据标注信息得到的目标关联矩阵，表示两目标之间存在匹配关系，/>表示不存在匹配关系，其中S,G输出结果如图6所示。此处，i和j分别表示相似度矩阵的行列下标。在测试阶段，网络只需要计算得到每个目标的目标描述向量x∈R²⁵⁶，即可使用余弦相似度计算目标与跟踪轨迹之间的距离：

其中，表示组成轨迹T_i的目标的特征描述向量，取相似度的负数得到代价矩阵，将数据关联看作指派问题，并使用匈牙利算法计算代价最小的指派策略，完成数据关联。

assignment＝Hungarian(-S)

assignment表示目标与跟踪轨迹之间的匹配关系，即最终的跟踪结果，Hungarian表示匈牙利算法。

为了证明本方法在跟踪速度和跟踪精度上的性能表现，本发明通过以下实验进行验证与分析：

实验数据集：

MOTChallenge是目前最为流行的多目标跟踪测试平台，被广泛采用到多目标跟踪器的性能衡量过程中。这其中2DMOT15、MOT16、MOT17都是视频监控中采集到的真实场景，既包含静止摄像机，也包含移动摄像机，是衡量多目标跟踪效果的优先选择。MOT15数据集包含11个训练视频序列和11个测试视频序列；MOT16与MOT17均包含相同的7个训练视频序列和7个测试视频序列，MOT17在MOT16的基础上给出了DPM、SDP、FRCNN三种检测器的结果，以便更好的衡量跟踪算法的鲁棒性。

评价指标：

采用MOTChallenge提出的衡量标准检验模型性能：

MOTA：多目标跟踪准确率，结合了False Positive样本、丢失目标和id切换频率三项指标，使衡量多目标跟踪器性能的主要评价指标。

MOTA＝1-(∑_t(m_t+fp_t+mme_t))/(∑_tg_t)

其中，m_t、fp_t和mme_t分别表示在视频第t帧的丢失目标数、False Positive数以及匹配错误目标数。

MOTP：多目标跟踪精度，主要用来衡量目标检测模型预测目标位置与真实位置之间的偏移误差：

其中，表示视频第t帧中第i个目标预测误差，c_t表示视频第t帧含有的目标数。

IDF1：正确识别的检测与平均真实数和计算检测数之比。

MT：大部分被跟踪到的目标轨迹，指的是预测目标轨迹与目标真实轨迹重合率超过80％的样本。

ML：大部分跟踪失败的目标轨迹，指的是预测目标轨迹与真实目标轨迹重合率不超过20％的样本。

FP：False Positive样本数。

FN：False Negative样本数。

IDSw：预测跟踪目标id切换次数。

Hz：表示跟踪算法的计算速度。

最终实验结果如下表所示：

表1本发明与其他视频目标跟踪方法的结果对比表

从上面表1可以看到，本发明实现了较好的跟踪性能，在MOTA、IDF1等方面都实现了领先的跟踪指标。另一方面，在跟踪速度上，本发明直接在一个端到端的框架中同时输出目标的检测结果和跟踪结果，相比其他多目标跟踪算法，省去了目标检测带来的时间损失，极大提高了算法的跟踪效率，在大部分算法跟踪速度小于10Hz的情况下，本发明的跟踪方法的跟踪速度均在10Hz以上，远大于10Hz，实现了对视频多目标跟踪的实时处理，具有极大的应用价值。

图7为本发明提供的视频多目标跟踪系统架构图，如图7所示，包括：

视频抽取单元710，用于将含有待跟踪目标的视频抽取为连续的视频帧，并通过孪生网络学习视频帧之间的时序信息；

特征提取单元720，用于通过深度卷积神经网络基于所述连续的视频帧和时序信息提取待跟踪目标的多尺度目标特征；

位置检测单元730，用于基于所述多尺度目标特征检测目标的位置，得到目标位置检测结果；

外观描述单元740，用于基于所述多尺度目标特征学习目标的外观特征，并根据目标位置检测结果进行筛选，得到有效的目标外观特征描述向量；

目标跟踪单元750，用于基于目标外观特征描述向量，计算当前视频帧与预设时间内的历史视频帧之间的目标外观特征相似度；基于目标位置检测结果，计算目标检测位置与目标预测位置之间的距离作为目标运动特征相似度；将目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度，确定各个目标与轨迹之间的最佳匹配关系，得到多目标的跟踪结果。

具体地，图7中各个单元的功能可参见前述方法实施例中的详细介绍，在此不做赘述。

本发明是关于一种融合目标检测与关联的视频多目标跟踪方法及系统，用以解决目前基于目标检测的视频多目标跟踪方法普遍难以实现对视频的实时跟踪处理问题。目前视频多目标跟踪算法多采用两阶段方式执行，首先使用预训练的检测器确定目标位置，然后将其做重识别问题进行数据关联，在特征提取阶段有较多的计算冗余，导致跟踪效率很低。本发明将目标检测模块和目标跟踪模块融合到一个统一的深度神经网络框架中，两者共用目标基础特征，并行执行，跟踪模块仅在最后进行数据关联时调用检测结果做掩码处理，提高了算法执行效率。通过实验验证表明，本发明在保证领先的跟踪性能的基础上，大幅度提升了跟踪速度，具有很高的应用价值。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频多目标跟踪方法，其特征在于，包括如下步骤：

所述步骤S140具体包括如下步骤：

S140.4，使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离，用于约束目标跟踪模块的学习方向，使得目标跟踪模块学习到有效的目标外观特征描述向量；

S150，基于目标外观特征描述向量，计算当前视频帧与预设时间内的历史视频帧之间的目标外观特征相似度；基于目标位置检测结果，计算目标检测位置与目标预测位置之间的距离作为目标运动特征相似度；将目标外观特征相似度和目标运动特征相似度的乘积作为目标与轨迹之间的相似度，确定各个目标与轨迹之间的最佳匹配关系，得到多目标的跟踪结果。

2.根据权利要求1所述的视频多目标跟踪方法，其特征在于，所述步骤S110具体包括如下步骤：

3.根据权利要求2所述的视频多目标跟踪方法，其特征在于，所述步骤S120具体包括如下步骤：

S120.1，将随机抽取的两视频帧输入到深度卷积神经网络；

S120.2，在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征，并采用特征金字塔FPN结构将提取的特征融合，得到多尺度目标特征。

4.根据权利要求1或3所述的视频多目标跟踪方法，其特征在于，所述步骤S130具体包括如下步骤：

5.根据权利要求1或3所述的视频多目标跟踪方法，其特征在于，所述步骤S150具体包括如下步骤：

6.一种视频多目标跟踪系统，其特征在于，包括：

外观描述单元，用于基于所述多尺度目标特征学习目标的外观特征，并根据目标位置检测结果进行筛选，得到有效的目标外观特征描述向量；具体地，将所述多尺度目标特征输入目标跟踪模块，以使目标跟踪模块对多尺度目标特征进行适应性目标跟踪学习；将目标跟踪模块的输出划分为多个目标跟踪区域，每个目标跟踪区域生成此区域内目标的外观特征描述向量；根据两视频帧图像中各自的目标外观特征描述向量，使用向量内积计算两两目标之间的相似度，得到相似度矩阵；并根据两视频帧图像目标标注信息，生成目标关联矩阵；以及使用FocalLoss分别按行和列计算相似度矩阵和目标关联矩阵之间的距离，用于约束目标跟踪模块的学习方向，使得目标跟踪模块学习到有效的目标外观特征描述向量；

7.根据权利要求6所述的视频多目标跟踪系统，其特征在于，所述视频抽取单元具体用于将视频逐帧拆解，得到连续的视频帧，并根据标注信息得到目标位置和跟踪ID；在同一视频的预设时间内随机抽取两视频，并根据跟踪ID生成两视频帧目标之间的关联矩阵；以及将随机抽取的两视频帧进行图像增强，然后进行图像信息标准化，最后输入孪生网络使其学习两视频帧之间的时序信息。

8.根据权利要求7所述的视频多目标跟踪系统，其特征在于，所述特征提取单元具体用于将随机抽取的两视频帧输入到深度卷积神经网络；以及在深度卷积神经网络的不同预设层分别提取不同下采样倍数的深度卷积特征，并采用特征金字塔FPN结构将提取的特征融合，得到多尺度目标特征。

9.根据权利要求6或8所述的视频多目标跟踪系统，其特征在于，所述位置检测单元具体用于将所述多尺度目标特征输入目标检测模块，以使目标检测模块对多尺度目标特征进行适应性目标检测学习；以及将目标检测模块的输出划分为多个目标检测区域，每个目标检测区域检测落在其中的目标，得到落在其中的目标类别和目标位置。