CN114022803B

CN114022803B - 一种多目标跟踪方法、装置、存储介质及电子设备

Info

Publication number: CN114022803B
Application number: CN202111167804.7A
Authority: CN
Inventors: 李晓川; 李仁刚; 赵雅倩; 郭振华; 范宝余
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-11-14
Anticipated expiration: 2041-09-30
Also published as: CN114022803A

Abstract

本发明公开了一种多目标跟踪方法、装置、存储介质及电子设备，包括：获取视频流中的多个图像帧；采用行人检测网络模型以及头部检测网络模型对多个图像帧进行检测，得到行人检测框集合以及头部检测框集合；对行人检测框集合以及头部检测框集合进行筛除，得到行人筛选框、行人筛除框以及头部筛选框；根据行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合；根据检测框集合中的相邻帧得到多目标的目标跟踪轨迹。通过实施本发明，设置头部检测网络模型对行人中的头部进行检测，并利用头部筛选框对行人筛选框和行人筛除框进行匹配召回，得到了更为精准的检测框集合；由此避免了由于跟踪目标数量较多造成的漏帧现象和ID漂移现象。

Description

一种多目标跟踪方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种多目标跟踪方法、装置、存储介质及电子设备。

背景技术

一直以来，行人目标跟踪都是计算机视觉领域最重要的研究方向之一，由于较高的落地价值和实用性，行人目标跟踪受到各方面研究人员的重视，大量科研人员跻身其科研社区中。在过去几十年，目标跟踪取得了长足的发展。2010年之前，目标跟踪主要采取各种经典算子来实现，如均值滤波(Mean－shift)、粒子滤波(Particle Filter)及卡尔曼滤波(Kalman Filter)等经典算子。2010年后，目标检测算法的快速发展改变了跟踪算法原有的发展方向，基于目标检测的跟踪算法(Tracking－By－Detection)成为主流。

多目标跟踪(MOT)是目标跟踪领域一个较难的课题，由于其跟踪目标数量较多，会造成较多的漏帧(False Negative)现象及ID漂移(ID－Switch)现象，而在拥挤人群跟踪领域，由于各目标之间高度重合，会加剧这种漏帧现象。因此，如何创新地利用目标检测算法解决拥挤人群的漏帧及ID漂移现象是目前亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种多目标跟踪方法、装置、存储介质及电子设备，以解决现有技术中基于目标检测算法进行多目标跟踪时会造成漏帧现象以及ID漂移现象的技术问题。

本发明提出的技术方案如下：

本发明实施例第一方面提供一种多目标跟踪方法，包括：获取视频流中的多个图像帧；根据预先生成的行人检测网络模型以及头部检测网络模型对多个图像帧进行检测，得到行人检测框集合以及头部检测框集合；对所述行人检测框集合以及头部检测框集合进行冗余框筛除，得到行人筛选框、行人筛除框以及头部筛选框；根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合；根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹。

可选地，根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合，包括：将所述头部筛选框和所述行人筛选框进行匹配，得到未匹配成功的头部筛选框；根据所述未匹配成功的头部筛选框和所述行人筛除框进行匹配，召回匹配成功的行人筛除框；根据召回的行人筛除框和所述行人筛选框得到检测框集合。

可选地，所述预先生成的行人检测网络模型以及头部检测网络模型根据行人检测数据集和预设的检测网络模型生成；所述预设的检测网络模型包括：双阶段检测模型或单阶段检测模型。

可选地，所述头部检测网络模型采用以下方式生成：将所述行人检测数据集分为第一数据子集和第二数据子集；对所述第一数据子集设置头部粗标签，得到第一头部训练集；根据所述第一头部训练集对预设的网络模型进行训练得到第一头部训练模型；采用所述第一头部训练模型对所述第二数据子集进行检测，得到第一头部预测结果；根据所述头部预测结果对预设的网络模型进行训练得到第一头部检测网络模型。

可选地，所述头部检测网络模型生成方式还包括：采用所述第一头部检测网络模型对所述第一数据子集进行检测，得到第二头部预测结果；根据所述第二头部预测结果对所述第一头部检测网络模型进行训练，得到第二头部检测网络模型。

可选地，对所述第一数据子集设置头部粗标签，包括：在所述第一数据子集中行人框的预设位置处，选取行人框的预设高度和预设宽度作为头部检测框位置；根据所述头部检测框位置生成头部粗标签。

可选地，根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹，包括：将所述检测框集合中的检测框进行匹配，得到相邻帧的检测框；将相邻帧的检测框进行合并，得到多目标的目标跟踪轨迹。

本发明实施例第二方面提供一种多目标跟踪装置，包括：图像帧获取模块，用于获取视频流中的多个图像帧；检测模块，用于根据预先生成的行人检测网络模型以及头部检测网络模型对多个图像帧进行检测，得到行人检测框集合以及头部检测框集合；筛除模块，用于对所述行人检测框集合以及头部检测框集合进行冗余框筛除，得到行人筛选框、行人筛除框以及头部筛选框；匹配召回模块，用于根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合；融合模块，用于根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹。

本发明实施例第三方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的多目标跟踪方法。

本发明实施例第四方面提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如本发明实施例第一方面及第一方面任一项所述的多目标跟踪方法。

本发明提供的技术方案，具有如下效果：

本发明实施例提供的一种多目标跟踪方法、装置、存储介质及电子设备，设置行人检测网络模型和头部检测网络模型对视频流中的图像帧进行检测，得到行人检测框集合和头部检测框集合，对于得到的检测框集合，对其进行冗余框筛除，得到对应的筛选框和筛除框；之后采用头部筛选框对行人筛选框和行人筛除框进行匹配召回，得到检测框集合，基于该检测框集合确定了多目标的跟踪轨迹。由此，该方法通过在行人目标检测中设置了头部检测网络模型对行人中的头部进行检测，同时利用由冗余框筛除得到的头部筛选框对行人筛选框和行人筛除框进行匹配召回，得到了更为精准的检测框集合；相比现有技术中直接采用非极大值抑制算法进行筛框，该检测框的确定方式可以解决现有技术中筛框不准确的问题。通过该检测框集合获取目标跟踪轨迹，能够提高行人跟踪的准确性，同时避免了现有技术中由于跟踪目标数量较多造成的漏帧现象和ID漂移现象。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的多目标跟踪方法的流程图；

图2是根据本发明另一实施例的多目标跟踪方法的流程图；

图3是根据本发明另一实施例的多目标跟踪方法的流程图；

图4是根据本发明实施例的多目标跟踪装置的结构框图；

图5是根据本发明另一实施例的多目标跟踪装置的结构框图；

图6是根据本发明另一实施例的多目标跟踪装置的结构框图；

图7是根据本发明另一实施例的多目标跟踪装置的结构框图；

图8是根据本发明实施例提供的计算机可读存储介质的结构示意图；

图9是根据本发明实施例提供的电子设备的结构示意图。

具体实施方式

正如在背景技术中所述，目前在进行多目标跟踪时通常采用基于目标检测的多目标跟踪算法，该算法流程如下：通过神经网络对图像进行目标检测算法推理，得到初始检测框集合。对得到的初始检测框集合中的若干检测框进行非极大抑制(NMS)算法筛框，对交并比(IoU)过高的检测框集合进行合并或删除，从而删除冗余框，得到筛选后的检测框集合，其目的在于保证同一行人只有1个对应框产生。将相邻帧之间的检测框集合进行匈牙利匹配，得到相邻图之间的行人匹配关系。对后续所有帧依次重复上述步骤，得到每个行人的跟踪轨迹。

然而，在实际研发过程中发现拥挤人群由于其行人之间的IoU较高，因此在删除冗余框时会导致部分重合度较高的真行人被误删；而提高删框IoU的阈值又会导致同一行人的冗余框得不到有效筛除，因此，如何为拥挤人群设计有效的筛框逻辑是实现多目标跟踪算法检测结果准确性的重点。

有鉴于此，本发明实施例提供一种多目标跟踪方法，提出一种有效的筛框逻辑。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种多目标跟踪方法，如图1所示，该方法包括如下步骤：

步骤S101：获取视频流中的多个图像帧；具体地，该多目标跟踪可以是针对行人的跟踪。为了获取包含行人的视频流，可以通过监控设备获取，例如各个路口安装的监控视频，包括地铁出口、超市出口、商场出口、火车站出口、学校内等不同户外场合下的视频流数据；还可以通过各类交通设备获取，例如道路上安装的卡口相机等设备获取视频流数据。本发明实施例对获取视频流的方式不做限定。在获取视频流之后，可以采用现有的图像帧提取技术，获取该视频流中的单帧图像。

步骤S102：根据预先生成的行人检测网络模型以及头部检测网络模型对多个图像帧进行检测，得到行人检测框集合以及头部检测框集合；具体地，在获取多个图像帧之后，可以将其输入到预先生成的行人检测网络模型Model－p和头部检测网络模型Model－h中，检测得到多个图像帧中的行人和头部，从而得到行人检测框集合Bp_raw以及头部检测框集合。

在一实施方式中，在预先生成行人检测网络模型时，可以采用行人检测数据集对预设的网络模型进行训练，得到行人检测网络模型。其中，行人检测数据集中包含多张图片，每张图片中采用行人框标签标注出了图片中包含的行人。预设的网络模型可以是现有的双阶段检测模型或单阶段检测模型。其中，双阶段检测模型是采用一个阶段提出备选框，一个阶段对备选框进行判断，双阶段检测网络是一个两阶段级联的网络，目前常用的双阶段检测模型主要是RCNN系列的网络。单阶段检测模型是整个生成备选框的过程一体化的实现，常用的有YOLO系列和SSD(single shot detector)。

具体地，当选择双阶段检测模型时，可以采用faster RCC双阶段检测器，具体包括采用CNN网络提取特征；采用RPN网络(Region Proposal Network)进行区域提名；最后设置分类层(softmax)以及回归网络。当选择单阶段检测模型时，可以采用YOLO单阶段检测器。

在一实施方式中，在生成头部检测网络模型时，可以通过对行人检测数据集设置头部标签，同时采用上述预设的网络模型进行训练得到。

步骤S103：对所述行人检测框集合以及头部检测框集合进行冗余框筛除，得到行人筛选框、行人筛除框以及头部筛选框。

在一实施方式中，在对检测框进行冗余框筛除时，可以采用现有的非极大值抑制算法(Non－Maximum Suppression，NMS)。通过该非极大值抑制算法，设置阈值，将计算的交并比(IoU)和该阈值比较，筛选得到筛选框。具体地，可以先采用非极大值抑制算法对行人检测框集合Bp_raw进行筛除，筛选得到行人筛选框Bp_remain；并保留删除的行人筛除框Bp_remove。同时还可以采用非极大值抑制算法对头部检测框集合进行筛除，得到头部筛选框Bh。

步骤S104：根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合。具体地，在筛选得到行人筛选框、行人筛除框以及头部筛选框后，可以将头部筛选框和行人筛选框进行匹配，并召回因检测置信得分低的行人筛除框，得到更准确的检测框集合。

步骤S105：根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹。具体地，当确定行人检测框集合之后，可以基于该检测框集合中的相邻帧检测框合并得到多目标的目标跟踪轨迹。

本发明实施例提供的多目标跟踪方法，设置行人检测网络模型和头部检测网络模型对视频流中的图像帧进行检测，得到行人检测框集合和头部检测框集合，对于得到的检测框集合，对其进行冗余框筛除，得到对应的筛选框和筛除框；之后采用头部筛选框对行人筛选框和行人筛除框进行匹配召回，得到检测框集合，基于该检测框集合确定了多目标的跟踪轨迹。由此，该方法通过在行人目标检测中设置了头部检测网络模型对行人中的头部进行检测，同时利用由冗余框筛除得到的头部筛选框对行人筛选框和行人筛除框进行匹配召回，得到了更为精准的检测框集合；相比现有技术中直接采用非极大值抑制算法进行筛框，该检测框的确定方式可以解决现有技术中筛框不准确的问题。通过该检测框集合获取目标跟踪轨迹，能够提高行人跟踪的准确性，同时避免了现有技术中由于跟踪目标数量较多造成的漏帧现象和ID漂移现象。

作为本发明实施例的一种可选的实施方式，如图2所示，根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合，包括如下步骤：

步骤S201：将所述头部筛选框和所述行人筛选框进行匹配，得到未匹配成功的头部筛选框。具体地，当通过非极大值抑制算法得到行人筛选框和头部筛选框之后，可以将二者中包含的检测框进行一对一的匹配，然后将头部筛选框中没有和行人筛选框中的检测框匹配成功的头部检测框筛选出来，没有匹配成功的头部检测框构成了未匹配成功的头部筛选框。

步骤S202：根据所述未匹配成功的头部筛选框和所述行人筛除框进行匹配，召回匹配成功的行人筛除框。具体地，在得到未匹配成功的头部筛选框之后，可以将其中的头部检测框与行人筛除框中的行人检测框进行匹配，当匹配成功时，将匹配成功的行人检测框召回，得到匹配成功的行人筛除框。在一实施方式中，在采用非极大值抑制算法对行人检测框集合进行冗余框筛除时，某一行人检测框可能会因为和另一检测框的交并比高于额定阈值，且检测置信得分高于另一检测框而被筛除，进入到行人筛除框中。由此，导致头部筛选框和行人筛选框匹配时匹配不成功，因此需要和行人筛除框中的检测框匹配，召回被筛除的相应的检测框。

步骤S203：根据召回的行人筛除框和所述行人筛选框得到检测框集合。具体地，在召回匹配成功的行人筛除框后，可以将其和行人筛选框合并，从而得到准确的检测框集合。

作为本发明实施例的一种可选的实施方式，如图3所示，头部检测网络模型采用以下方式生成：

步骤S301：将所述行人检测数据集分为第一数据子集和第二数据子集；具体地，为了得到更准确的头部检测网络模型，可以将行人检测数据集分为两部分即两个数据子集，第一数据子集作为训练数据集，第二数据子集作为检测数据集，也可以互换。其中，在进行划分时，可以均等的划分，也可以按照其他比例划分，本发明实施例对于每个数据子集中包含的样本个数不做限定。

步骤S302：对所述第一数据子集设置头部粗标签，得到第一头部训练集；具体地，当采用第一数据子集作为训练数据集时，对第一数据子集中的每个样本图片设置头部粗标签，得到头部训练集。

在一实施方式中，在设置头部粗标签时，可以在所述第一数据子集中各个样本图片的行人框的预设位置处，选取行人框的预设高度和预设宽度作为头部检测框位置；根据所述头部检测框位置生成头部粗标签。其中，由于头部通常在行人框的上部的中间位置，由此，该预设位置可以是行人框的上中部。在确定大概位置后，可以选取行人框高的1/7，行人框宽的1/3作为头部检测框的大小。

步骤S303：根据所述第一头部训练集对预设的网络模型进行训练得到第一头部训练模型。具体地，在得到第一头部训练集后，将其输入到预设的网络模型中进行训练即可得到第一头部训练模型Model－h_alpha。其中，该预设的网络模型可以选择上述形成行人检测网络模型时采用的预设网络模型，如faster RCC双阶段检测器或YOLO单阶段检测器。也可以选择其他网络模型，本发明实施例对此不做限定。

步骤S304：采用所述第一头部训练模型对所述第二数据子集进行检测，得到第一头部预测结果。具体地，由于形成第一头部训练模型时采用的样本集是对行人样本集按照预设方式标注得到的，可能会存在标注不准确的问题，由此对于其形成的头部粗标签也可以称为头部伪标签。

在一实施方式中，在训练得到第一头部训练模型后，可以将第二数据子集输入到该第一头部训练模型中检测，得到第一头部预测结果。该第一头部预测结果中包含了行人框内部的头部框，可以将其作为头部训练集的头部标签。

步骤S305：根据所述头部预测结果对预设的网络模型进行训练得到第一头部检测网络模型。具体地，在得到头部预测结果之后，由于该结果中包含头部检测框的头部标签，可以采用该预测结果对预设的网络模型进行训练，得到第一头部检测网络模型Model－h_beta。

步骤S306：采用所述第一头部检测网络模型对所述第一数据子集进行检测，得到第二头部预测结果；具体地，由于第一头部检测网络模型实际上是由第二数据子集得到的，因此，可以将第一数据子集也加入到该模型的训练过程中。在一实施方式中，采用第一头部检测网络模型对所述第一数据子集进行检测，得到第二头部预测结果。该第二头部预测结果中包含了第一数据子集中头部检测框的头部标签。

步骤S307：根据所述第二头部预测结果对所述第一头部检测网络模型进行训练，得到第二头部检测网络模型。具体地，在得到第二头部预测结果后，可以将其对第一头部检测网络模型进行训练，得到第二头部检测网络模型，即最终头部检测网络模型Model－h。由此，该第二头部检测网络模型采用第一数据子集和第二数据子集作为样本集，相比只采用一个数据子集或者按照预设方式确定头部标签的方式，提高了该模型的训练精度。

作为本发明实施例的一种可选的实施方式，根据检测框集合中的相邻帧得到多目标的目标跟踪轨迹，包括：将检测框集合中的检测框进行匹配，得到相邻帧的检测框；将相邻帧的检测框进行合并，得到多目标的目标跟踪轨迹。具体地，在得到行人的检测框集合后，在该集合中对相邻帧的检测框进行匹配，其中，在匹配时，可以采用匈牙利匹配算法；经过相邻帧的检测框匹配可以得到相邻图之间的行人匹配关系，由此，将该匹配的相邻帧检测框合并即可得到多目标的目标跟踪轨迹。

本发明实施例还提供一种多目标跟踪装置，如图4所示，该装置包括：

图像帧获取模块10，用于获取视频流中的多个图像帧；具体内容参见上述方法实施例对应部分，在此不再赘述。

检测模块20，用于根据预先生成的行人检测网络模型以及头部检测网络模型对多个图像帧进行检测，得到行人检测框集合以及头部检测框集合；具体内容参见上述方法实施例对应部分，在此不再赘述。

筛除模块30，用于对所述行人检测框集合以及头部检测框集合进行冗余框筛除，得到行人筛选框、行人筛除框以及头部筛选框；具体内容参见上述方法实施例对应部分，在此不再赘述。

匹配召回模块40，用于根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合；具体内容参见上述方法实施例对应部分，在此不再赘述。

融合模块50，用于根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹。具体内容参见上述方法实施例对应部分，在此不再赘述。

本发明实施例提供的多目标跟踪装置，设置行人检测网络模型和头部检测网络模型对视频流中的图像帧进行检测，得到行人检测框集合和头部检测框集合，对于得到的检测框集合，对其进行冗余框筛除，得到对应的筛选框和筛除框；之后采用头部筛选框对行人筛选框和行人筛除框进行匹配召回，得到检测框集合，基于该检测框集合确定了多目标的跟踪轨迹。由此，该装置通过在行人目标检测中设置了头部检测网络模型对行人中的头部进行检测，同时利用由冗余框筛除得到的头部筛选框对行人筛选框和行人筛除框进行匹配召回，得到了更为精准的检测框集合；相比现有技术中直接采用非极大值抑制算法进行筛框，该检测框的确定方式可以解决现有技术中筛框不准确的问题。通过该检测框集合获取目标跟踪轨迹，能够提高行人跟踪的准确性，同时避免了现有技术中由于跟踪目标数量较多造成的漏帧现象和ID漂移现象。

本发明实施例提供的多目标跟踪装置的功能描述详细参见上述实施例中多目标跟踪方法描述。

在一实施方式中，如图5所示，匹配召回模块40包括：

匹配模块41，用于将所述头部筛选框和所述行人筛选框进行匹配，得到未匹配成功的头部筛选框；具体内容参见上述方法实施例对应部分，在此不再赘述。

召回模块42，用于根据所述未匹配成功的头部筛选框和所述行人筛除框进行匹配，召回匹配成功的行人筛除框；具体内容参见上述方法实施例对应部分，在此不再赘述。

集合模块43，用于根据召回的行人筛除框和所述行人筛选框得到检测框集合。具体内容参见上述方法实施例对应部分，在此不再赘述。

在一实施方式中，如图6所示，头部检测网络模型生成模块包括：

划分模块21，用于将所述行人检测数据集分为第一数据子集和第二数据子集；具体内容参见上述方法实施例对应部分，在此不再赘述。

标签设置模块22，用于对所述第一数据子集设置头部粗标签，得到第一头部训练集；具体内容参见上述方法实施例对应部分，在此不再赘述。

第一训练模块23，用于根据所述第一头部训练集对预设的网络模型进行训练得到第一头部训练模型；具体内容参见上述方法实施例对应部分，在此不再赘述。

第一检测模块24，用于采用所述第一头部训练模型对所述第二数据子集进行检测，得到第一头部预测结果；具体内容参见上述方法实施例对应部分，在此不再赘述。

第二训练模块25，用于根据所述头部预测结果对预设的网络模型进行训练得到第一头部检测网络模型。具体内容参见上述方法实施例对应部分，在此不再赘述。

第二检测模块26，用于采用所述第一头部检测网络模型对所述第一数据子集进行检测，得到第二头部预测结果；具体内容参见上述方法实施例对应部分，在此不再赘述。

第三训练模块27，用于根据所述第二头部预测结果对所述第一头部检测网络模型进行训练，得到第二头部检测网络模型。具体内容参见上述方法实施例对应部分，在此不再赘述。

在一实施方式中，如图7所示，融合模块50包括：

相邻检测模块51，用于将所述检测框集合中的检测框进行匹配，得到相邻帧的检测框；具体内容参见上述方法实施例对应部分，在此不再赘述。

合并模块52，用于将相邻帧的检测框进行合并，得到多目标的目标跟踪轨迹。具体内容参见上述方法实施例对应部分，在此不再赘述。

本发明实施例还提供一种存储介质，如图8所示，其上存储有计算机程序601，该指令被处理器执行时实现上述实施例中多目标跟踪方法的步骤。该存储介质上还存储有音视频流数据，特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本发明实施例还提供了一种电子设备，如图9所示，该电子设备可以包括处理器501和存储器502，其中处理器501和存储器502可以通过总线或者其他方式连接，图9中以通过总线连接为例。

处理器501可以为中央处理器(Central Processing Unit，CPU)。处理器501还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器502作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器501通过运行存储在存储器502中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的多目标跟踪方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储处理器501所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至处理器501。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器502中，当被所述处理器501执行时，执行如图1－3所示实施例中的多目标跟踪方法。

上述电子设备具体细节可以对应参阅图1至图3所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种多目标跟踪方法，其特征在于，包括：

获取视频流中的多个图像帧；

根据预先生成的行人检测网络模型以及头部检测网络模型对多个图像帧进行检测，得到行人检测框集合以及头部检测框集合；

对所述行人检测框集合以及头部检测框集合进行冗余框筛除，得到行人筛选框、行人筛除框以及头部筛选框；

根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合；

根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹；

根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合，包括：

将所述头部筛选框和所述行人筛选框进行匹配，得到未匹配成功的头部筛选框；

根据所述未匹配成功的头部筛选框和所述行人筛除框进行匹配，召回匹配成功的行人筛除框；

根据召回的行人筛除框和所述行人筛选框得到检测框集合。

2.根据权利要求1所述的多目标跟踪方法，其特征在于，所述预先生成的行人检测网络模型以及头部检测网络模型根据行人检测数据集和预设的检测网络模型生成；所述预设的检测网络模型包括：双阶段检测模型或单阶段检测模型。

3.根据权利要求2所述的多目标跟踪方法，其特征在于，所述头部检测网络模型采用以下方式生成：

将所述行人检测数据集分为第一数据子集和第二数据子集；

对所述第一数据子集设置头部粗标签，得到第一头部训练集；

根据所述第一头部训练集对预设的网络模型进行训练得到第一头部训练模型；

采用所述第一头部训练模型对所述第二数据子集进行检测，得到第一头部预测结果；

根据所述头部预测结果对预设的网络模型进行训练得到第一头部检测网络模型。

4.根据权利要求3所述的多目标跟踪方法，其特征在于，所述头部检测网络模型生成方式还包括：

采用所述第一头部检测网络模型对所述第一数据子集进行检测，得到第二头部预测结果；

根据所述第二头部预测结果对所述第一头部检测网络模型进行训练，得到第二头部检测网络模型。

5.根据权利要求3所述的多目标跟踪方法，其特征在于，对所述第一数据子集设置头部粗标签，包括：

在所述第一数据子集中行人框的预设位置处，选取行人框的预设高度和预设宽度作为头部检测框位置；

根据所述头部检测框位置生成头部粗标签。

6.根据权利要求1所述的多目标跟踪方法，其特征在于，根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹，包括：

将所述检测框集合中的检测框进行匹配，得到相邻帧的检测框；

将相邻帧的检测框进行合并，得到多目标的目标跟踪轨迹。

7.一种多目标跟踪装置，其特征在于，包括：

图像帧获取模块，用于获取视频流中的多个图像帧；

检测模块，用于根据预先生成的行人检测网络模型以及头部检测网络模型对多个图像帧进行检测，得到行人检测框集合以及头部检测框集合；

筛除模块，用于对所述行人检测框集合以及头部检测框集合进行冗余框筛除，得到行人筛选框、行人筛除框以及头部筛选框；

匹配召回模块，用于根据所述行人筛选框、行人筛除框以及头部筛选框进行匹配和召回，得到检测框集合；

所述匹配召回模块包括：

匹配模块，用于将所述头部筛选框和所述行人筛选框进行匹配，得到未匹配成功的头部筛选框；

召回模块，用于根据所述未匹配成功的头部筛选框和所述行人筛除框进行匹配，召回匹配成功的行人筛除框；

集合模块，用于根据召回的行人筛除框和所述行人筛选框得到检测框集合；

融合模块，用于根据所述检测框集合中的相邻帧得到多目标的目标跟踪轨迹。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1－6任一项所述的多目标跟踪方法。

9.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1－6任一项所述的多目标跟踪方法。