CN111681264A

CN111681264A - 一种监控场景的实时多目标跟踪方法

Info

Publication number: CN111681264A
Application number: CN202010507898.7A
Authority: CN
Inventors: 张奎; 陈清梁; 王超
Original assignee: Zhejiang Xinzailing Technology Co ltd
Current assignee: Zhejiang Xinzailing Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-18

Abstract

本发明涉及一种监控场景的实时多目标跟踪方法，包括以下步骤：S1.获取监控场景的实时图像；S2.检测单元接收所述实时图像，并对所述实时图像进行目标检测，获取所述实时图像中的候选目标的检测框，以及与所述检测框相对应的候选目标特征；S3.跟踪单元对下一帧所述实时图像中的所述检测框与历史帧实时图像中跟踪到的所述候选目标特征进行目标关联性判断，并基于判断结果对所述实时图像中的目标进行跟踪。本发明使用一个网络同时预测检测(目标位置)和目标的特征，相对于传统的检测和跟踪分两步做的方案资源占用少，效率更高。

Description

一种监控场景的实时多目标跟踪方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种监控场景的实时多目标跟踪方法。

背景技术

深度学习作为机器学习领域中一个新的研究方向，目前已经在图像识别，语音识别，自然语言处理等相关领域都取得很多成果。在线的多目标跟踪系统，尤其使对行人的跟踪，能够得到目标出现在当前场景后的运动轨迹，在安防领域具有较大的使用价值。

目前的跟踪方法往往分为两步，第一步先在图像中做目标检测来获取目标的位置、第二步获取目标区域的特征描述，然后对视频序列中的目标位置和特征描述进行关联来得到目标的行动轨迹。然而这样的方法处理效率较慢，尤其是第二步的特征提取，其处理速度于目标数量成比例增长。在结合深度学习做检测和特征提取时，很难达到实时的处理速度。

发明内容

本发明的目的在于提供一种监控场景的实时多目标跟踪方法，解决检测跟踪效率低的问题。

为实现上述发明目的，本发明提供一种监控场景的实时多目标跟踪方法，包括以下步骤：

S1.获取监控场景的实时图像；

S2.检测单元接收所述实时图像，并对所述实时图像进行目标检测，获取所述实时图像中的候选目标的检测框，以及与所述检测框相对应的候选目标特征；

S3.跟踪单元对下一帧所述实时图像中的所述检测框与历史帧实时图像中跟踪到的所述候选目标特征进行目标关联性判断，并基于判断结果对所述实时图像中的目标进行跟踪。

根据本发明的一个方面，所述检测单元包括：主干网络模块、映射模块、反卷积模块、平滑模块、检测框生成模块和候选目标特征输出模块；

所述映射模块、所述反卷积模块、所述平滑模块分别设置有多个。

根据本发明的一个方面，所述反卷积模块由一个步进为1的卷积层和一个步进为2的反卷积层构成；

所述映射模块采用一个卷积层进行映射；

所述平滑模块由一个卷积层构成。

根据本发明的一个方面，所述检测框生成模块包括三个子模块，各所述子模块分别由两个卷积层构成。

根据本发明的一个方面，所述主干网络模块包括依次连接的输入层、向量卷积运算层、第一网络层、第二网络层、第三网络层和第四网络层；

所述映射模块具有三个，其中，第一映射模块与所述第三网络层相连，第二映射模块与所述第二网络层相连，第三映射模块与所述第一网络层相连；

所述平滑模块具有三个，其中，第一平滑模块与所述第一映射模块相连，第二平滑模块与所述第二映射模块相连，第三平滑模块与所述第三映射模块相连；

所述反卷积模块具有三个，其中，所述第一反卷积模块与所述第四网络层和所述第一平滑模块相连，所述第二反卷积模块与所述第一平滑模块和所述第二平滑模块相连，所述第三反卷积模块与所述第二平滑模块和所述第三平滑模块相连；

所述第三平滑模块与所述检测框生成模块和所述候选目标特征输出模块相连。

根据本发明的一个方面，步骤S2中，包括：

S21.所述输入层接收所述实时图像，且所述实时图像依次经过所述向量卷积运算层、所述第一网络层、所述第二网络层、所述第三网络层和所述第四网络层进行处理；

S22.所述第四网络层将接收到的图像数据输送至所述第一反卷积模块，所述第一反卷积模块对所述图像数据处理后输送至所述第一平滑模块；

S23.所述第三网络层将接收到的图像数据输送至所述第一映射模块，所述第一平滑模块接收所述第一映射模块和所述第一反卷积模块输出的所述图像数据并统一处理后输送至所述第二反卷积模块，所述第二反卷积模块将所述图像数据进行处理后输送至所述第二平滑模块；

S24.所述第二网络层将接收到的图像数据输送至所述第二映射模块，所述第二平滑模块接收所述第二映射模块和所述第二反卷积模块输出的所述图像数据并统一处理后输送至所述第三反卷积模块，所述第三反卷积模块将所述图像数据进行处理后输送至所述第三平滑模块；

S25.所述第一网络层将接收到的图像数据输送至所述第三映射模块，所述第三平滑模块接收所述第三映射模块和所述第三反卷积模块输出的所述图像数据并统一处理后输送至所述检测框生成模块和所述候选目标特征输出模块；

S26.所述检测框生成模块基于所述第三反卷积模块输出的所述图像数据生成所述检测框，所述候选目标特征输出模块基于所述第三反卷积模块输出的所述图像数据生成所述候选目标特征。

根据本发明的一个方面，步骤S26中，若所述实时图像为3×H×W，则所述检测框生成模块的输出为：

其中，3是实时图像的RGB三个颜色分量，5表示(confidence，x，y，w，h)中的5个值，confidence为候选目标特征的置信度，x,y,w,h为候选目标特征的检测框的参数；

若所述实时图像为H×W，则所述候选目标特征输出模块的输出为：

其中，C为特征维度。

根据本发明的一个方面，所述检测单元还包括：损失函数模块；其中，所述损失函数模块中的损失函数为：

其中，s_b,s_e为可学习的检测损失L_box和候选目标特征re-id损失L_emb的权重，L_box为目标检测损失函数，L_emb为候选目标特征的损失函数。

根据本发明的一个方面，在训练阶段，对于输出的候选目标特征，接了一个全连接层，其输出单元数量为训练集中的目标ID总数，对于全连接层的输出和目标的真值ID使用了交叉熵损失函数。

根据本发明的一个方面，所述跟踪单元包括：Boxes模块、Tracklets模块和目标关联模块；

所述Boxes模块用于接收所述检测单元输出的检测框，所述Tracklets模块用于存储历史帧中所跟踪到的所述候选目标特征并根据关联的结果对所述候选目标特征的状态进行更新，所述目标关联模块用于判断所述检测框与所述候选目标特征的关联性；

所述Tracklets模块接收到的所述候选目标特征所对应的实时图像在时序上滞后于所述Boxes模块接收到的所述检测框所对应的实时图像。

根据本发明的一个方面，所述Boxes模块和所述Tracklets模块所接收的所述实时图像在时序上相差一帧。

根据本发明的一个方面，步骤S3中，跟踪单元对下一帧所述实时图像中的所述检测框与历史帧所述实时图像中跟踪到的所述候选目标特征进行目标关联性判断的步骤中，采用匹配距离计算公式进行位置和特征的关联性判断，其匹配距离计算公式为：

Dists＝w_fD_f+w_iouD_iou

其中，w_f和w_iou分别表示权重值；D_f表示特征距离，D_iou为检测框的重叠率距离。

根据本发明的一个方面，所述匹配距离计算公式中，特征距离D_f采用特征长度L度量，则特征距离D_f表示为：

其中，f_d为当前所述实时图像中的检测出的候选目标，f_t为历史帧图像中跟踪到的候选目标特征；

所述匹配距离计算公式中，检测框的重叠率距离D_iou表示为：

D_iou＝1-iou

其中，iou表示两个目检测框的重叠率，其表示为：

其中，S表示两个检测框的重叠区域面积，其表示为：

S＝(min(x₁+w₁,x₂+w₂)-max(x₁,x₂))×(min(y₁+h₁,y₂+h₂)-max(y₁,y₂))

其中，x₁、y₁、w₁、h₁为第一个检测框的参数，x₂、y₂、w₂、h₂为第二个检测框的参数。

根据本发明的一个方面，采用匹配距离计算公式进行位置和特征的关联性判断的步骤中，包括：

S31.使用卡尔曼滤波对Tracklets模块中的每个候选目标特征的位置进行预测；

S32.对于Boxes模块中的每一个候选目标特征的检测框，与Tracklet s模块中的所有候选目标特征，使用所述匹配距离计算公式计算匹配距离,如果Boxes模块中当前帧有n个检测框，Tracklets模块中有m个已跟踪到的候选目标特征，则构建距离矩阵D_n×m，并进行关联性判断。

根据本发明的一个方面，步骤S32中，使用匈牙利算法进行Boxes模块中检测框与Tracklets模块中已跟踪到的候选目标特征的匹配，并分以下几种情况：

S321.若Boxes模块中的检测框未匹配上所述Tracklets模块中已跟踪到的候选目标特征，则所述Boxes模块中未匹配的检测框所对应的候选目标特征是新出现的目标，则将未匹配的检测框所对应的候选目标特征加入tracklets模块中；

S322.若所述Tracklets模块中已跟踪到的候选目标特征未匹配上所述Boxes模块中的检测框，则所述Tracklets模块中已跟踪到的候选目标特征在所述Boxes模块中的当前帧未出现，则所述Tracklets模块中为未匹配上的所述候选目标特征的丢失次数增加1次；

S323.若Boxes模块中的检测框与所述Tracklets模块中已跟踪到的候选目标特征相匹配，如果匹配距离<距离阈值,则表明匹配正确，更新所述Tracklets模块中的所述候选目标特征；

如果匹配距离≥距离阈值，则表明匹配失败，则按步骤S321在所述tracklets模块中加入未匹配的检测框所对应的候选目标特征，以及按步骤S322在所述Tracklets模块中为未匹配上的所述候选目标特征的丢失次数增加1次。

根据本发明的一个方面，若所述候选目标特征的丢失次数达到设定阈值，则所述候选目标特征的丢失状态标记为消失，在所述Tracklets模块中移除该所述候选目标特征；

根据本发明的一个方面，步骤S323中，更新所述Tracklets模块中的所述候选目标特征的步骤中，包括：

S3231.使用卡尔曼滤波更新所述Tracklets模块中的所述候选目标特征的位置；

S3231.将所述Tracklets模块中的所述候选目标特征更新为f＝a×f_t+(1-a)×f_b，其中，a为小于1的常数；

S3231.将所述Tracklets模块中的所述候选目标特征的丢失次数和丢失状态重置。

根据本发明的一种方案，通过深度学习网络同时预测目标在图像中的位置矩形框及该目标的特征，结合卡尔曼滤波、目标中心点位置和目标的特征来进行视频序列中目标的关联跟踪，具有速度快、精度高且能很好的处理遮挡问题的特点。

根据本发明的一种方案，使用一个网络同时预测检测(目标位置)和目标的特征，能够达到25fps的处理速度，相对于传统的检测和跟踪分两步做的方案资源占用少，效率更高。

根据本发明的一种方案，在进行检测跟踪的过程中，对于目标的特征提取，转换为训练集中多个目标的分类任务，从而使不同目标的特征间距达到最大化，提升跟踪准确性。

附图说明

图1示意性表示根据本发明的一种实施方式的监控场景的实时多目标跟踪方法的步骤框图；

图2示意性表示根据本发明的一种实施方式的监控场景的实时多目标跟踪方法的系统结构图；

图3示意性表示根据本发明的一种实施方式的检测单元的流程图；

图4示意性表示根据本发明的一种实施方式的跟踪单元的流程图。

具体实施方式

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在针对本发明的实施方式进行描述时，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”所表达的方位或位置关系是基于相关附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

下面结合附图和具体实施方式对本发明作详细地描述，实施方式不能在此一一赘述，但本发明的实施方式并不因此限定于以下实施方式。

结合图1和图2所示，根据本发明的一种实施方式，本发明的一种监控场景的实时多目标跟踪方法，包括以下步骤：

S1.获取监控场景的实时图像；

S2.检测单元接收实时图像，并对实时图像进行目标检测，获取实时图像中的候选目标的检测框，以及与检测框相对应的候选目标特征；

S3.跟踪单元对下一帧实时图像中的检测框与历史帧实时图像中跟踪到的候选目标特征进行目标关联性判断，并基于判断结果对实时图像中的目标进行跟踪。

根据本发明，先获得对当前图像中的候选目标的特征框，然后获得特征框位置的候选目标特征。这样在当前图像变和历史帧图像中，采用当前帧中的检测框与历史帧中已经跟踪到的候选目标特征进行位置和特征的关联，通过两个关联结果的加权处理，得出最终的关联结果。

如图3所示，根据本发明的一种实施方式，检测单元包括：主干网络模块、映射模块(即project*模块)、反卷积模块(即deconv*模块)、平滑模块(即smooth*模块)、检测框生成模块(即Detection模块)和候选目标特征输出模块(即Embedding模块)。在本实施方式中，主干网络模块中的主干网络采用标准的resnet18网络，当然，若搭载该主干网络模块的芯片或服务器端的计算能力较高，也可以将主干网络模块中的主干网络选择为resnet34网络或者DLA34网络等更复杂的网络，使得主干网络模块的处理效果更优。

根据本发明的一种实施方式，映射模块、反卷积模块、平滑模块分别设置有多个。在本实施方式中，反卷积模块由一个步进为1(即stride＝1)的卷积层和一个步进为2(即stride＝2)的反卷积层构成；

在本实施方式中，映射模块对于主干网络模块中不同的层的特征使用一个卷积层来进行映射；

在本实施方式中，平滑模块由一个卷积层构成。

根据本发明的一种实施方式，检测框生成模块包括三个子模块，各所述子模块分别由两个卷积层构成。

如图3所示，根据本发明的一种实施方式，主干网络模块包括依次连接的输入层(即input层)、向量卷积运算层(即conv1层)、第一网络层(即layer1层)、第二网络层(即layer2层)、第三网络层(即layer3层)和第四网络层(即layer4层)。

在本实施方式中，映射模块(即project*模块)具有三个，其中，第一映射模块(即project1模块)与第三网络层(即layer3层)相连，第二映射模块(即project2模块)与第二网络层(即layer2层)相连，第三映射模块(即project3模块)与第一网络层(即layer1层)相连。

在本实施方式中，平滑模块(即smooth*模块)具有三个，其中，第一平滑模块(即smooth1模块)与第一映射模块(即project1模块)相连，第二平滑模块(即smooth2模块)与第二映射模块(即project2模块)相连，第三平滑模块(即smooth3模块)与第三映射模块(即project3模块)相连。

在本实施方式中，反卷积模块(即deconv*模块)具有三个，其中，第一反卷积模块(即deconv1模块)与第四网络层(即layer4层)和第一平滑模块(即smooth1模块)相连，第二反卷积模块(即deconv2模块)与第一平滑模块(即smooth1模块)和第二平滑模块(即smooth2模块)相连，第三反卷积模块(即deconv3模块)与第二平滑模块(即smooth2模块)和第三平滑模块(即smooth3模块)相连。

在本实施方式中，第三平滑模块(即smooth3模块)与检测框生成模块(即Detection模块)和候选目标特征输出模块(即Embedding模块)相连。

结合图1、图2和图3所示，根据本发明的一种实施方式，步骤S2中，检测单元接收实时图像，并对实时图像进行目标检测，获取实时图像中的候选目标特征，以及与候选目标特征相对应的检测框的步骤中包括：

S21.输入层(即input层)接收实时图像，且实时图像依次经过向量卷积运算层(即conv1层)、第一网络层(即layer1层)、第二网络层(即layer2层)、第三网络层(即layer3层)和第四网络层(即layer4层)进行处理；

S22.第四网络层(即layer4层)将接收到的图像数据输送至第一反卷积模块(即deconv1模块)，第一反卷积模块(即deconv1模块)对图像数据处理后输送至第一平滑模块(即smooth1模块)；

S23.第三网络层(即layer3层)将接收到的图像数据输送至第一映射模块(即project1模块)，第一平滑模块(即smooth1模块)接收第一映射模块(即project1模块)和第一反卷积模块(即deconv1模块)输出的图像数据并统一处理后输送至第二反卷积模块(即deconv2模块)，第二反卷积模块(即deconv2模块)将图像数据进行处理后输送至第二平滑模块(即smooth2模块)；

S24.第二网络层(即layer2层)将接收到的图像数据输送至第二映射模块(即project2模块)，第二平滑模块(即smooth2模块)接收第二映射模块(即project2模块)和第二反卷积模块(即deconv2模块)输出的图像数据并统一处理后输送至第三反卷积模块(即deconv3模块)，第三反卷积模块(即deconv3模块)将图像数据进行处理后输送至第三平滑模块(即smooth3模块)；

S25.第一网络层(即layer1层)将接收到的图像数据输送至第三映射模块(即project3模块)，第三平滑模块(即smooth3模块)接收第三映射模块(即project3模块)和第三反卷积模块(即deconv3模块)输出的图像数据并统一处理后输送至检测框生成模块(即Detection模块)和候选目标特征输出模块(即Embedding模块)；

S26.检测框生成模块(即Detection模块)基于第三反卷积模块(即deconv3模块)输出的图像数据生成检测框，候选目标特征输出模块(即Embedding模块)基于第三反卷积模块(即deconv3模块)输出的图像数据生成候选目标特征。

根据本发明的一种实施方式，步骤S26中，若输入的实时图像为3×H×W，则检测框生成模块(即Detection模块)的输出为：

的候选检测输出，其中，3是实时图像的RGB三个颜色分量，5表示(confidence，x，y，w，h)中的5个值，confidence为候选目标特征的置信度，x,y,w,h为候选目标特征的检测框的参数；

若输入的实时图像为H×W，则候选目标特征输出模块(即Embedding模块)的输出为：

的候选目标特征，其中，C为特征维度。在本实施方式中，特征维度可设置为256，这样使得设备的运行和资源的分配更为合理。当然，特征纬度的值还可以设置为其它数值，可根据设备的运行处理能力进行相应的调整。

根据本发明的一种实施方式，检测单元还包括：对于模型参数进行训练评估的损失函数模块；其中，损失函数模块中的损失函数为：

根据本发明的一种实施方式，在训练阶段，对于输出的候选目标特征，接了一个全连接层，其输出单元数量为训练集中的目标ID总数，对于全连接层的输出和目标的真值ID使用了交叉熵损失函数。在进行关联判断的时候只使用了候选目标的特征，但是在训练过程种，为了是不同ID的目标的特征具有可区分性，这里通过对特征进一步接全连接层当做分类任务来训练来实现，即如果训练集有100个ID，那这里就把这些目标当做100类的分类任务，通过这样使得学习到的目标特征对不同ID的差异达到最大

如图4所示，根据本发明的一种实施方式，跟踪单元包括：Boxes模块、Tracklets模块和目标关联模块(即Association模块)。在本实施方式中，Boxes模块用于接收检测单元输出的检测框，Tracklets模块用于存储历史帧中所跟踪到的候选目标特征并根据关联的结果对候选目标特征的状态进行更新，目标关联模块用于判断检测框与候选目标特征的关联性。在本实施方式中，Tracklets模块接收到的候选目标特征所对应的实时图像在时序上滞后于Boxes模块接收到的检测框所对应的实时图像。可以理解的，Tracklets模块维护的是历史帧跟踪到的目标，Boxes模块是当前帧检测到的目标。Trackets模块会根据关联的结果，Boxes模块中的目标如果在Tracklets模块中不存在，则需要在Tracklets模块中新增改目标；如果已经存在，则需要对tracklets模块中的目标使用与之对应的boxes模块的目标，进行状态更新，更新包括位置和特征两个方面。

根据本发明的一种实施方式，Boxes模块和Tracklets模块所接收的实时图像在时序上相差一帧。

参见图3所示，根据本发明的一种实施方式，Boxes模块接收t时刻的实时图像image_t通过检测模块得到的候选目标特征的检测框n×(x,y,w,h)及候选目标特征的特征n×256，其中n为当前(即t时刻)实时图像的目标数量，表述为b_i＝(x,y,w,h,f)；Tracklets模块获取的为截至上一帧(即t-1时刻)实时图像，跟踪到的候选目标特征，其包含两种目标，一种为已跟踪到的目标，另一种为Lost(跟丢)的目标，即上一帧实时图像作为Boxes模块输入进行关联性判断过程中未关联的目标，表示为t_j＝(x,y,w,h,f,lost_count,is_lost)；lost_count表示连续多少帧该目标未再次出现，当lost_count不等于0时，is_lost为1，否则为0；目标关联模块(即Association模块)对当前(t时刻)Bboxes模块中实时图像中的检测框和已有的Tracklets模块中上一帧(t-1时刻)实时图像中的候选目标特征进行关联。

根据本发明的一种实施方式，步骤S3中，跟踪单元对下一帧所述实时图像中的所述检测框与历史帧所述实时图像中跟踪到的所述候选目标特征进行目标关联性判断的步骤中，目标关联模块(即Association模块)对于当前图像的所有目标，在Tracklets模块中已有的实施图像中寻找相似度最高的获选目标特征，在本实施方式中，采用匹配距离计算公式进行位置和特征的关联性判断，其匹配距离计算公式为：

Dists＝w_fD_f+w_iouD_iou

其中，w_f和w_iou分别表示权重值；D_f表示特征距离，D_iou为检测框的重叠率距离。在本实施方式中，w_f和w_iou取值为0.7和0.2。

匹配距离计算公式中，特征距离D_f采用特征长度L度量，则特征距离D_f表示为：

其中，f_d为当前实时图像中的检测出的候选目标，f_t为历史帧图像中跟踪到的候选目标特征。在本实施方式中，特征长度L可为256。在本实施方式中，特征距离度量方式可以为L1距离度量，当然也可使用L2距离或者余弦距离。需要指出的，L1和L2或者余弦都是计算特征间距离的方式。

在匹配距离计算公式中，检测框的重叠率距离D_iou表示为：

D_iou＝1-iou

其中，iou表示两个目检测框的重叠率，其表示为：

其中，S表示两个检测框的重叠区域面积，其表示为：

根据本发明的一种实施方式，采用匹配距离计算公式进行位置和特征的关联性判断的步骤中，包括：

S31.使用卡尔曼滤波对Tracklets模块中的每个候选目标特征的位置即(x,y,w,h)进行预测；

S32.对于Boxes模块中的每一个候选目标特征的检测框b_i，与Tracklets模块中的所有候选目标特征t_j，使用匹配距离计算公式计算匹配距离d_ij,如果Boxes模块中当前帧有n个检测框，Tracklets模块中有m个已跟踪到的候选目标特征，则构建距离矩阵D_n×m，并进行关联性判断。

根据本发明的一种实施方式，步骤S32中，使用匈牙利算法进行Boxes模块中检测框与Tracklets模块中已跟踪到的候选目标特征的匹配，并分以下几种情况：

S321.若Boxes模块中的检测框未匹配上Tracklets模块中已跟踪到的候选目标特征(即未匹配上的b_i)，则Boxes模块中未匹配的检测框所对应的候选目标特征是新出现的目标，则将未匹配的检测框所对应的候选目标特征加入tracklets模块中，记为，t_m+1＝(x,y,w,h,f,m+1,0)；

S322.若Tracklets模块中已跟踪到的候选目标特征未匹配上Boxes模块中的检测框(即未匹配上的t_j)，则Tracklets模块中已跟踪到的候选目标特征在Boxes模块中的当前帧未出现，则Tracklets模块中为未匹配上的候选目标特征的丢失次数(lost_count)增加1次；

S323.若Boxes模块中的检测框与Tracklets模块中已跟踪到的候选目标特征相匹配(即b_i匹配上t_j)，如果匹配距离d_ij<距离阈值T,则表明匹配正确，更新Tracklets模块中的候选目标特征；

如果匹配距离≥距离阈值，则表明匹配失败，则按步骤S321在tracklets模块中加入未匹配的检测框所对应的候选目标特征(即更新b_i)，以及按步骤S322在Tracklets模块中为未匹配上的候选目标特征的丢失次数增加1次(即更新t_j)；

在本实施方式中，距离阈值T为0.5；

在本实施方式中，若候选目标特征的丢失次数达到设定阈值(如30次)，则候选目标特征的丢失状态标记为消失，在Tracklets模块中移除该候选目标特征。

根据本发明的一种实施方式，步骤S323中，更新Tracklets模块中的候选目标特征的步骤中，包括：

S3231.使用卡尔曼滤波更新Tracklets模块中的候选目标特征的位置(即更新t_j的(x,y,w,h))；

S3231.将Tracklets模块中的候选目标特征t_j更新为f＝a×f_t+(1-a)×f_b，其中，a为小于1的常数，在本实施方式中，a＝0.9；在本实施方式中，更新的是候选目标特征t_j的特征(即跟踪目标的特征)，其中f_t为Tracklets模块中候选目标特征t_j中所包含的特征，f_d为当前实时图像中与该跟踪目标关联上的检测目标的特征。需要指出的是，Tracklets模块中已跟踪到的(历史帧)的候选目标特征t_j即为跟踪目标，当前实时图像检测到的目标为检测目标(即当前帧中与检测框相对应的候选目标特征)。

S3231.将Tracklets模块中的候选目标特征的丢失次数和丢失状态重置(即t_j的lost_count和is_lost均置为0)。

上述内容仅为本发明的具体方案的例子，对于其中未详尽描述的设备和结构，应当理解为采取本领域已有的通用设备及通用方法来予以实施。

以上所述仅为本发明的一个方案而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种监控场景的实时多目标跟踪方法，包括以下步骤：

S1.获取监控场景的实时图像；

2.根据权利要求1所述的监控场景的实时多目标跟踪方法，其特征在于，所述检测单元包括：主干网络模块、映射模块、反卷积模块、平滑模块、检测框生成模块和候选目标特征输出模块；

3.根据权利要求2所述的监控场景的实时多目标跟踪方法，其特征在于，所述反卷积模块由一个步进为1的卷积层和一个步进为2的反卷积层构成；

所述映射模块采用一个卷积层进行映射；

所述平滑模块由一个卷积层构成。

4.根据权利要求3所述的监控场景的实时多目标跟踪方法，其特征在于，所述检测框生成模块包括三个子模块，各所述子模块分别由两个卷积层构成。

5.根据权利要求4所述的监控场景的实时多目标跟踪方法，其特征在于，所述主干网络模块包括依次连接的输入层、向量卷积运算层、第一网络层、第二网络层、第三网络层和第四网络层；

6.根据权利要求5所述的监控场景的实时多目标跟踪方法，其特征在于，步骤S2中，包括：

7.根据权利要求6所述的监控场景的实时多目标跟踪方法，其特征在于，步骤S26中，若所述实时图像为3×H×W，则所述检测框生成模块的输出为：

其中，C为特征维度。

8.根据权利要求2至7任一项所述的监控场景的实时多目标跟踪方法，其特征在于，所述检测单元还包括：损失函数模块；其中，所述损失函数模块中的损失函数为：

9.根据权利要求8所述的监控场景的实时多目标跟踪方法，其特征在于，在训练阶段，对于输出的候选目标特征，接了一个全连接层，其输出单元数量为训练集中的目标ID总数，对于全连接层的输出和目标的真值ID使用了交叉熵损失函数。

10.根据权利要求8所述的监控场景的实时多目标跟踪方法，其特征在于，所述跟踪单元包括：Boxes模块、Tracklets模块和目标关联模块；

11.根据权利要求10所述的监控场景的实时多目标跟踪方法，其特征在于，所述Boxes模块和所述Tracklets模块所接收的所述实时图像在时序上相差一帧。

12.根据权利要求1至11任一项所述的监控场景的实时多目标跟踪方法，其特征在于，步骤S3中，跟踪单元对下一帧所述实时图像中的所述检测框与历史帧所述实时图像中跟踪到的所述候选目标特征进行目标关联性判断的步骤中，采用匹配距离计算公式进行位置和特征的关联性判断，其匹配距离计算公式为：

Dists＝w_fD_f+w_iouD_iou

13.根据权利要求12所述的监控场景的实时多目标跟踪方法，其特征在于，所述匹配距离计算公式中，特征距离D_f采用特征长度L度量，则特征距离D_f表示为：

D_iou＝1-iou

其中，iou表示两个目检测框的重叠率，其表示为：

其中，S表示两个检测框的重叠区域面积，其表示为：

S＝(min(x₁+w₁,x₂+w₂)-max(x₁,x₂))×(min(y₁+h₁,y₂+h₂)-max(y₁,2))

14.根据权利要求13所述的监控场景的实时多目标跟踪方法，其特征在于，采用匹配距离计算公式进行位置和特征的关联性判断的步骤中，包括：

S32.对于Boxes模块中的每一个候选目标特征的检测框，与Tracklets模块中的所有候选目标特征，使用所述匹配距离计算公式计算匹配距离,如果Boxes模块中当前帧有n个检测框，Tracklets模块中有m个已跟踪到的候选目标特征，则构建距离矩阵D_n×m，并进行关联性判断。

15.根据权利要求14所述的监控场景的实时多目标跟踪方法，其特征在于，步骤S32中，使用匈牙利算法进行Boxes模块中检测框与Tracklets模块中已跟踪到的候选目标特征的匹配，并分以下几种情况：

16.根据权利要求15所述的监控场景的实时多目标跟踪方法，其特征在于，若所述候选目标特征的丢失次数达到设定阈值，则所述候选目标特征的丢失状态标记为消失，在所述Tracklets模块中移除该所述候选目标特征。

17.根据权利要求16所述的监控场景的实时多目标跟踪方法，其特征在于，步骤S323中，更新所述Tracklets模块中的所述候选目标特征的步骤中，包括：