CN112750147A

CN112750147A - 一种行人多目标跟踪方法、装置、智能终端及存储介质

Info

Publication number: CN112750147A
Application number: CN202011641353.1A
Authority: CN
Inventors: 薛斌; 王耀威; 袁锦宇; 杨洲鑫
Original assignee: Dalian University of Technology; Peng Cheng Laboratory
Current assignee: Dalian University of Technology; Peng Cheng Laboratory
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-04

Abstract

本发明公开了一种行人多目标跟踪方法、装置、智能终端及存储介质，其中，上述行人多目标跟踪方法包括：获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；获取目标视频序列；基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果；输出上述跟踪结果。本发明方案有利于提高跟踪速度，满足实时性要求。

Description

一种行人多目标跟踪方法、装置、智能终端及存储介质

技术领域

本发明涉及多目标跟踪技术领域，尤其涉及的是一种行人多目标跟踪方法、装置、智能终端及存储介质。

背景技术

随着深度学习技术的不断发展，多目标跟踪技术越来越得到重视。多目标跟踪，其主要任务是给定一个图像序列，找到图像序列中运动的物体，并将图像序列不同帧中的运动物体一一对应，然后给出不同物体的运动轨迹。这些物体可以是任意的，如行人、车辆、运动员、各种动物等等，而研究最多、最有价值，且应用最广泛的是行人跟踪。

近年来，随着无人驾驶技术的发展，行人多目标跟踪技术逐渐成为研究热点，利用多目标跟踪技术可以将车辆周围对应的目标运行轨迹预测出来，提前规避障碍，保证行驶安全。这种场景下，要求行人多目标跟踪的跟踪速度快，能满足实时性要求。但现有技术中，通常将行人多目标跟踪分成检测与外观特征预测两个单独的子任务进行处理。现有技术的问题在于，将行人多目标跟踪分成检测与外观特征预测两个单独的子任务，影响跟踪速度，无法满足实时性要求。

因此，现有技术还有待改进和发展。

发明内容

本发明的目的在于提供一种行人多目标跟踪方法、装置、智能终端及存储介质，旨在解决现有技术中行人多目标跟踪的跟踪速度慢，不能满足实时性要求的问题。

为了实现上述目的，本发明第一方面提供一种行人多目标跟踪方法，其中，上述方法包括：

获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；

获取目标视频序列；

基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果；

输出上述跟踪结果。

可选的，上述获取目标神经网络模型，包括：

构建待训练神经网络模型；

获取训练集；

基于上述训练集对上述待训练神经网络模型进行训练，获取上述目标神经网络模型。

可选的，上述获取训练集包括：

获取检测数据集和行人重识别数据集；

基于上述检测数据集和上述行人重识别数据集中的数据进行自动标注获取训练集。

可选的，上述基于上述检测数据集和上述行人重识别数据集中的数据进行自动标注获取训练集包括：

分别基于上述检测数据集和上述行人重识别数据集获取检测图像和行人重识别图像；

将上述行人重识别图像分割为黑白二值图像；

提取分割后的掩膜在上述行人重识别图像中的对应部分，作为分割图像；

预测上述检测图像的深度信息，基于上述深度信息对上述检测图像划分区域；

基于上述分割图像的尺寸将上述分割图像贴在上述检测图像的对应区域，获得训练图像；

基于上述训练图像的集合获得上述训练集。

可选的，上述基于上述训练集对上述待训练神经网络模型进行训练，获取上述目标神经网络模型，包括：

基于上述训练集对上述待训练神经网络模型进行训练，获取训练后的神经网络模型；

对上述训练后的神经网络模型进行稀疏化训练；

基于稀疏化训练后的模型权重，删除预设的目标稀疏数量的卷积通道，获得上述目标神经网络模型。

可选的，上述基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果，包括：

对于上述目标视频序列中的一帧对应的输入图像，通过上述目标神经网络模型中的检测器预测上述输入图像中行人目标的位置；

通过卡尔曼滤波器对已有轨迹预测下一帧的位置；

基于行人特征与交并比，将上述检测器的预测目标与已有轨迹关联，保持前后帧中同一行人目标的身份ID一致，获取上述跟踪结果。

可选的，上述输出上述跟踪结果，包括：基于上述跟踪结果，将每个上述行人目标的轨迹可视化输出，输出时，不同身份ID的行人目标的边界框颜色不同。

本发明第二方面提供一种行人多目标跟踪装置，其中，上述装置包括：

目标神经网络模型获取模块，用于获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；

目标视频序列获取模块，用于获取目标视频序列；

跟踪模块，用于基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果；

输出模块，用于输出上述跟踪结果。

本发明第三方面提供一种智能终端，包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的程序，上述程序被上述处理器执行时实现上述任意一种行人多目标跟踪方法的步骤。

本发明第四方面提供一种计算机可读存储介质，上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现上述任意一种行人多目标跟踪方法的步骤。

由上可见，本发明方案获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；获取目标视频序列；基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果；输出上述跟踪结果。由于本发明方案中获取的目标神经网络模型可以通过合一模型提取输入图像的总特征并获取特征图，通过分离结构对特征图进行分离，先合一后分离，使得外观特征提取子模型和检测子模型可以共享特征，将两个不同的子任务结合起来共同预测，有利于提高跟踪速度，满足实时性要求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种现有技术中二阶段检测跟踪框架示意图；

图2是本发明实施例提供的一种现有技术中一阶段检测跟踪框架示意图；

图3是本发明实施例提供的一种行人多目标跟踪方法的流程示意图；

图4是本发明实施例图3中步骤S10的具体流程示意图；

图5是本发明实施例提供的一种待训练神经网络模型的框架示意图；

图6是本发明实施例图5中合一模型的结构示意图；

图7是本发明实施例图6中基础模型的具体结构示意图；

图8是本发明实施例图6中融合块的具体结构示意图；

图9是本发明实施例图4中步骤S12的具体流程示意图；

图10是本发明实施例图9中步骤S122的具体流程示意图；

图11是本发明实施例提供的一种行人重识别图像；

图12是本发明实施例图11分割获得的黑白二值图像；

图13是本发明实施例图12中提取的掩膜示意图；

图14是本发明实施例提供的一种深度信息示意图；

图15是本发明实施例提供的一种基于图13和图14获得的整合图；

图16是本发明实施例图4中步骤S13的具体流程示意图；

图17是本发明实施例图3中步骤S30的具体流程示意图；

图18是本发明实施例提供的一种行人多目标跟踪装置的结构示意图；

图19是本发明实施例提供的一种智能终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

我们每天获取的信息有70％的来源于眼睛，如果赋予机器设备人类眼睛的特性，可以节省大量劳动力，改善人类的生活方式。例如，商场、街道的监控下需要有专门安保人员观察，时间久了视觉疲劳，难以及时发现并追踪肇事人员，而使用多目标追踪技术，则可以根据监控画面自动追踪对应人员，掌握其行进轨迹。在无人驾驶领域，利用多目标跟踪技术可以将车辆周围的目标运行轨迹预测出来，提前规避障碍，保证行驶安全。

多目标跟踪是指对目标视频中感兴趣的多个目标对象进行跟踪，从视频的各个图像帧中识别目标对象的位置，进而确定目标对象在视频中的运动轨迹的技术。多目标跟踪技术作为计算机视觉中的一项中间层任务，需要依赖其他底层任务来完成，如目标检测，行人重识别等。同时也是其他的高层任务(如动作识别，行为分析等)的基础。多目标跟踪的主要应用场景包括：视频监控，用于检测异常行为，节省大量的人力物力；人机交互，实现对于复杂场景中目标交互的识别与处理；虚拟现实和增强现实，比如游戏中角色运动的设置；医疗诊断等。

工业界最流行的多目标跟踪框架是tracking-by-detection模式，即先检测再跟踪模式，对于检测跟踪合一的方法也有一些研究。现有技术中一种方法以YOLOv3作为检测器，原本检测端只预测目标类别、位置以及目标存在与否的置信度。但同时，会添加一个新的外观特征向量预测，用于后续跟踪过程中判断前后两帧的目标是否一致。该实现方法可以减少内存消耗。但这种方法模型提取总特征的骨干网络(例如ResNet50)通常采用深层卷积神经网络，模型尺寸过大，不利于嵌入式设备的移植；且训练过程中检测任务与预测外观特征任务相互干扰，跟踪性能无法达到最优。

多目标跟踪方法主要分为两大类：二阶段和一阶段。二阶段的方法是检测与行人重识别(ReID，Re-identification)任务分离的，分别使用单独的网络进行预测。先通过检测算法选定目标所存在的位置，再根据预测的位置裁剪出对应的区域送入ReID子网络提取embedding特征。因为目标检测任务与embedding特征提取任务没有特征复用，计算成本高，速度慢，难以支持实时应用。图1为一种对应的二阶段检测跟踪框架示意图，如图1所示，包含检测子模型和连接在检测子模型之后的外观特征提取子模型，先利用检测子模型预测出当前帧的行人位置，再将检测结果送入外观特征提取子模型预测每个目标的外观特征向量，依据外观特征向量将检测结果与当前轨迹相关联，实现多目标跟踪。这种跟踪方法会增加额外的时间开销，跟踪实时性低。

一阶段的方法以单独的网络在共享特征前提下同时完成检测与embedding预测，减少部分重复计算。如Wang等人于2020年在ECCV会议中发表了“Towards Real-TimeMulti-Object Tracking”，该文在YOLOv3的检测端新增了一个embedding预测分支并进行端到端的学习；又如在CPPR 2020会议上，Zhang等人在“A Simple Baseline for Multi-Object Tracking”论文中在CenterNet这种anchor-free(无锚)检测方法基础上添加embedding预测分支，该方法比起传统的anchor-based手段，有利于减少同一目标身份的交换次数。图2是一种一阶段检测跟踪框架示意图，如图2所示，在合一模型提取到的特征图上直接预测两个对应的输出。但是检测任务与外观特征提取任务是两个完全不相干的任务，因此直接用一个特征图表征两类任务结果会引起训练中参数优化方向的混乱，最终两类任务均不能学习到最优的参数，影响跟踪性能。

目前，针对行人的多目标跟踪技术备受关注。行人多目标跟踪需要实现的是：对监控捕获到的连续视频序列，用设计的算法或模型定位行人目标在图像中的位置并持续跟踪下去。基于实际使用的需要，所设计的算法或模型要求能移植在一些嵌入式平台或着不含GPU加速的设备上，速度保持实时，性能处于优良。现有技术中，通常将行人多目标跟踪分成检测与外观特征预测两个单独的子任务进行处理。现有技术的问题在于，将行人多目标跟踪分成检测与外观特征预测两个单独的子任务，影响跟踪速度，无法满足实时性要求。

为了解决现有技术中的问题，本发明提供一种行人多目标跟踪方法、装置、智能终端及存储介质，上述行人多目标跟踪方法获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；获取目标视频序列；基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果；输出上述跟踪结果。由于本发明方案中获取的目标神经网络模型可以通过合一模型提取输入图像的总特征并获取特征图，通过分离结构对特征图进行分离，先合一后分离，使得外观特征提取子模型和检测子模型可以共享特征且基于分离结构缓解两个子任务的相互干扰，将两个不同的子任务结合起来共同预测，有利于提高跟踪速度，满足实时性要求。

示例性方法

如图3所示，本发明实施例提供一种行人多目标跟踪方法，上述方法包括如下步骤：

步骤S10，获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型。

其中，上述目标神经网络模型为用于进行行人多目标跟踪的神经网络模型，上述输入图像为输入上述目标神经网络模型中进行跟踪检测的图像。上述目标神经网络模型为先合一，后分离的结构，可以通过上述合一模型对输入图像进行总特征提取获得特征图，这一部分提取到的总特征可以被检测子模型和外观特征提取子模型共享，从而提高跟踪的实时性；然后通过分离结构对特征图中的特征进行分离，缓解两个子模型的相互干扰，使得检测子模型和外观特征提取子模型都能学习到最优的参数，进一步优化跟踪性能。

步骤S20，获取目标视频序列。

其中，上述目标视频序列是需要进行行人多目标跟踪的视频序列，可以为事先录制好的视频，也可以是通过摄像机等设备实时获取的视频，在此不做具体限制，上述目标图像可以为上述目标视频序列中的一帧的图像。

步骤S30，基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果。

步骤S40，输出上述跟踪结果。

由上可见，本发明实施例提供的行人多目标跟踪方法获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；获取目标视频序列；基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果；输出上述跟踪结果。由于本方案中获取的目标神经网络模型可以通过合一模型提取输入图像的总特征并获取特征图，通过分离结构对特征图进行分离，先合一后分离，使得外观特征提取子模型和检测子模型可以共享特征，将两个不同的子任务结合起来共同预测，有利于提高跟踪速度，满足实时性要求。

具体的，如图4所示，本实施例中，上述步骤S10包括：

步骤S11，构建待训练神经网络模型。

步骤S12，获取训练集。

步骤S13，基于上述训练集对上述待训练神经网络模型进行训练，获取上述目标神经网络模型。

具体的，图5是本实施例提供的一种待训练神经网络模型的框架示意图，如图5所示，上述待训练神经网络模型中，将检测子模型与外观特征提取子模型结合在一个网络中，采用先合一后分离的方式，节省了计算资源，提升跟踪的速度与性能，以满足实时性的需求。具体的，前半部分的合一模型提取到关于输入图像的总特征，并以特征图的形式存储，这部分的特征被检测子模型与外观提取子模型共享，从而可以节省计算资源。紧接着，特征流向了两个分支，上分支负责预测目标的外观特征向量，下分支负责预测目标信息(包括目标的位置、类别等)。本实施例中，上述分离结构包括上述上分支和下分支，其中，上分支由3个卷积组成，卷积核大小分别为1、3、1；下分支由2各卷积核大小为3的卷积组成。实际使用中，上述分离结构的具体结构以及具体的卷积核大小还可以根据实际需求进行调整，在此不做具体限定。

上述分离结构可以在几乎不影响跟踪速度的前提下，缓解在训练过程中两个子模型(检测子模型与外观提取子模型)的相互干扰，使得两个子模型都可以学习到最优的参数，进一步优化跟踪性能。

进一步的，图6是本发明实施例中提供的合一模型的结构示意图，本发明实施例提供的合一模型是一种轻量化合一模型，如图6所示，包括基础模型、融合块以及自上而下的特征金字塔结构，图6中，将输入图像输入上述轻量化合一模型以进行分析。图7和图8分别示出了上述基础模型和融合块的结构。如图7所示，基础模型的设计从减少卷积的计算量出发，若输入的尺寸为H x W x Ci(H、W、Ci分别表示输入的高、宽和通道数)，卷积核的大小是K x K，输出的通道数为Co，则总计算量为H x W x K x K x Co x Ci。卷积核的大小一般设定为1或者3，通道数可以人为设定，所以输入的尺寸很大程度上决定计算量的大小。上述基础模型中主要是两个重复结构，以卷积核为3、步长(stride)为2的卷积配合深度可分离卷积将原图像迅速下采样至4倍的大小。在网络的初始阶段，即输入图像分辨率较大的阶段，这种快速下采样操作可以最大程度的降低计算量，但是缺乏了对图像语义信息的提取。因此，本发明在后续阶段又配合着融合块，强化缺失的图像特征。

具体的，如图8所示，上述融合块分成两个分支，左分支即为残差结构，与右分支的输出相加操作。右分支包含了两个重复的结构，每个结构中还包含了深度可分离卷积。首先，对输入进行深度卷积，结果继续输送给两个分支，左分支为深度可分离卷积，右分支为1x1、3x3、1x1卷积小结构，两个分支的结果按照通道叠加。因为嵌入了深度可分离卷积，融合块在保持轻量化的同时，增加了卷积神经网络的学习能力，将前端基础模型的损失特征以融合的方式细粒化。融合块分为3个阶段，每个阶段又会进行一次下采样，在网络中重复次数分别为3、4、4。三个阶段融合块的输出最后送入特征金字塔网络将深层网络的语义信息弥补到浅层网络。

其中，上述各卷积核的大小、重复次数等都可以根据实际需求进行调整，在此不做具体限定。如此，本发明实施例提供的轻量化的合一模型相较于现有技术中用于提取总特征的骨干网络，模型尺寸小，有利于嵌入式设备的移植，且可以保持较好的性能。

具体的，如图9所示，本实施例中，上述步骤S12包括：

步骤S121，获取检测数据集和行人重识别数据集。

步骤S122，基于上述检测数据集和上述行人重识别数据集中的数据进行自动标注获取训练集。

具体的，基于深度学习的多目标跟踪方法，其模型训练依赖于大量多目标跟踪数据集。这些数据集在人工标注过程中较为繁琐，不仅要标注每幅图像中目标的坐标位置和类别信息，还要标注其身份ID信息。现有公开的多目标跟踪数据量相对较少，在公开的行人数据集(如MOT17、MOT20等)中大约可以获取到4万张已经标注好的图像，4万的数据量难以支持强鲁棒性模型的训练。而人工拍摄、截取视频再标注，将会耗费巨大的时间和人力。

因此，本发明实施例中可以基于公开的行人检测数据集(如Wider Pedestrian等)和行人重识别图像(如Market-1501等)中的数据进行整合并自动标注获取训练集，从而从根本上缓解数据量少，人工标注成本高的问题，还可以丰富检测数据。当然，如果可以获取到足够多的多目标跟踪数据量，也可以直接基于多目标跟踪数据获取训练集，在此不做具体限定。

具体的，如图10所示，本实施例中，上述步骤S122包括：

步骤S1221，分别基于上述检测数据集和上述行人重识别数据集获取检测图像和行人重识别图像。

步骤S1222，将上述行人重识别图像分割为黑白二值图像。

步骤S1223，提取分割后的掩膜在上述行人重识别图像中的对应部分，作为分割图像。

步骤S1224，预测上述检测图像的深度信息，基于上述深度信息对上述检测图像划分区域。

步骤S1225，基于上述分割图像的尺寸将上述分割图像贴在上述检测图像的对应区域，获得训练图像。

步骤S1226，基于上述训练图像的集合获得上述训练集。

其中，上述分割后的掩膜为分割后的二值黑白图像中的掩膜，具体为与检测到的行人相对应的掩膜。

具体的，图11为本实施例提供的一种行人重识别图像，以图像显著性方法将行人重识别图像分割为黑白二值图像，其结果如图12所示。提取分割后的掩膜(mask)在行人重识别原图中对应的部分，如图13所示。预测上述检测图像的深度信息，如图14所示，基于上述深度信息对上述检测图像划分区域。本实施例中，按照深度值将图像分为三个区域(小、中、大)。其中，深度图归一化后的像素值在0-0.3为大区域，0.3-0.6为中区域，0.6-1为小区域。依据分割出的行人重识别图像尺寸，依据近大远小的准则贴在对应区域。具体的，若行人重识别图像面积为S，检测图像的面积为Q，则S/Q<0.3粘贴在小区域，0.3≤S/Q<0.6粘贴在中区域，S/Q≥0.6粘贴在大区域，获得的整合图如图15所示。其中，上述划分的区域的数量以及对应的区域划分范围可以根据实际需求进行调整，在此不做具体限定。图15中，各人员面部对应的灰色部分是为保护相关人员的隐私所添加的马赛克，与本发明内容无关。

具体的，如图16所示，本实施例中，上述步骤S13包括：

步骤S131，基于上述训练集对上述待训练神经网络模型进行训练，获取训练后的神经网络模型。

步骤S132，对上述训练后的神经网络模型进行稀疏化训练。

步骤S133，基于稀疏化训练后的模型权重，删除预设的目标稀疏数量的卷积通道，获得上述目标神经网络模型。

其中，上述预设的目标稀疏数量为预先设置的需要删除的卷积通道的数目。具体的，对构建的神经网络模型进行训练后，为了实现“网络瘦身”的目的，减小网络尺寸，以便移植，可以进一步进行稀疏化训练。具体的，将神经网络中BN层的缩放变量以L1正则化的方式加入到损失函数中，进行预设次数的迭代训练。根据稀疏化训练后的模型权重，在不损失过多性能的前提下，删除适当层数的卷积通道。其中，上述预设次数为预先设定的迭代次数，本实施例中，可以取30次，实际使用中可以进行调整，在此不做具体限定。

具体的，如图17所示，本实施例中，上述步骤S30包括：

步骤S31，对于上述目标视频序列中的一帧对应的输入图像，通过上述目标神经网络模型中的检测器预测上述输入图像中行人目标的位置。

步骤S32，通过卡尔曼滤波器对已有轨迹预测下一帧的位置。

步骤S33，基于行人特征与交并比，将上述检测器的预测目标与已有轨迹关联，保持前后帧中同一行人目标的身份ID一致，获取上述跟踪结果。

本实施例中，采用卡尔曼滤波器进行轨迹检测，检测器的耗时将高于跟踪器。因此，可以采用跳帧的方式检测目标，不检测期间依靠卡尔曼滤波器跟踪。可选的，可以预先设置帧间隔数目，每隔帧间隔数目对应的帧数进行一次检测，例如设置3～5帧进行一次检测，本实施例中优选为每5帧进行一次检测。具体的，将实时获取的视频序列输入到训练好的目标神经网络模型中，得出行人目标的位置和外观特征信息；将检测的结果与现有轨迹按照预测的外观特征相互关联；对于匹配到的轨迹根据交并比最大原则关联，而对于未匹配的检测结果，则生成新的轨迹。跟踪过程中，每5秒(本实施例中，一帧对应一秒)检测一次，其余帧中均以卡尔曼滤波器对轨迹进行预测，检测时用结果将对应轨迹的卡尔曼滤波器状态更新。如此，可以提高跟踪速度，以满足跟踪的实时性。

可选的，上述步骤S40包括：基于上述跟踪结果，将每个上述行人目标的轨迹可视化输出，输出时，不同身份ID的行人目标的边界框颜色不同，而同一身份ID的行人目标的边界框颜色相同。如此，方便工作人员进行观察。

可选的，上述方法不仅可以用于对行人进行多目标跟踪，还可以适当调整后用于对其它移动物体进行多目标跟踪，在此不做具体限定。

具体的，下表为本实施例提供的各跟踪方法的实验性能和模型尺寸对比结果，本实验是在Intel酷睿i7-10750H CPU上进行的，采用公开的行人数据集以及拍摄收集标注的街道监控场景数据集进行训练和测试。本次模型先在ImageNet上做一个分类预训练并加载该权重训练后续任务，一共迭代140次。最终在MOT16上进行测试，具体结果见下表。在评价跟踪性能时，主要参考的指标有两个，MOTA和IDS，MOTA越高表示性能越好，IDS越低表示跟踪过程中身份ID交换越少。由表可见，本方案中的模型以24s的实时速度保持领先，且尺寸小，便于移植。

跟踪方法	FPS	MOTA	IDs	IDF1	MOTP	Model Size
							传统两阶段方法	2s	64.1	1496	66.8	0.221	298M
轻量级合一模型	24s	60.4	1252	63.9	0.195	8M
							轻量级合一模型+分离结构	24s	62.6	1084	65.5	0.203	8.5M

示例性设备

如图18中所示，对应于上述行人多目标跟踪方法，本发明实施例还提供一种行人多目标跟踪装置，上述行人多目标跟踪装置包括：

目标神经网络模型获取模块810，用于获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型。

目标视频序列获取模块820，用于获取目标视频序列。

跟踪模块830，用于基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果。

输出模块840，用于输出上述跟踪结果。

由上可见，本发明实施例提供的行人多目标跟踪装置通过目标神经网络模型获取模块810获取目标神经网络模型，其中，上述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对上述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；通过目标视频序列获取模块820获取目标视频序列；通过跟踪模块830基于上述目标神经网络模型对上述目标视频序列进行行人多目标跟踪，获取跟踪结果；通过输出模块840输出上述跟踪结果。由于本方案中获取的目标神经网络模型可以通过合一模型提取输入图像的总特征并获取特征图，通过分离结构对特征图进行分离，先合一后分离，使得外观特征提取子模型和检测子模型可以共享特征，将两个不同的子任务结合起来共同预测，有利于提高跟踪速度，满足实时性要求。

可选的，上述目标神经网络模型获取模块810具体用于：构建待训练神经网络模型；获取训练集；基于上述训练集对上述待训练神经网络模型进行训练，获取上述目标神经网络模型。

其中，上述构建待训练神经网络模型包括构建如图5至图8所示的神经网络模型。上述获取训练集包括：获取检测数据集和行人重识别数据集；基于上述检测数据集和上述行人重识别数据集中的数据进行自动标注获取训练集。

具体的，本实施例中，上述目标神经网络模型获取模块810具体通过以下过程获取训练集：分别基于上述检测数据集和上述行人重识别数据集获取检测图像和行人重识别图像；将上述行人重识别图像分割为黑白二值图像；提取分割后的掩膜在上述行人重识别图像中的对应部分，作为分割图像；预测上述检测图像的深度信息，基于上述深度信息对上述检测图像划分区域；基于上述分割图像的尺寸将上述分割图像贴在上述检测图像的对应区域，获得训练图像；基于上述训练图像的集合获得上述训练集。

可选的，上述基于上述训练集对上述待训练神经网络模型进行训练，获取上述目标神经网络模型，包括：基于上述训练集对上述待训练神经网络模型进行训练，获取训练后的神经网络模型；对上述训练后的神经网络模型进行稀疏化训练；基于稀疏化训练后的模型权重，删除预设的目标稀疏数量的卷积通道，获得上述目标神经网络模型。从而实现“网络瘦身”的目的，减小网络尺寸，以便移植。

可选的，上述跟踪模块830具体用于：对于上述目标视频序列中的一帧对应的输入图像，通过上述目标神经网络模型中的检测器预测上述输入图像中行人目标的位置；通过卡尔曼滤波器对已有轨迹预测下一帧的位置；基于行人特征与交并比，将上述检测器的预测目标与已有轨迹关联，保持前后帧中同一行人目标的身份ID一致，获取上述跟踪结果。进一步的，可以采用跳帧的方式检测目标，不检测期间依靠卡尔曼滤波器跟踪。可选的，可以设置3～5帧进行一次检测，本实施例中优选为每5帧进行一次检测。

可选的，上述输出模块840具体用于：基于上述跟踪结果，将每个上述行人目标的轨迹可视化输出，输出时，不同身份ID的行人目标的边界框颜色不同，而同一身份ID的行人目标的边界框颜色相同。如此，方便工作人员进行观察。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图19所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现上述任意一种行人多目标跟踪方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图19中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括有存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的程序，上述程序被上述处理器执行时进行以下操作指令：

获取目标视频序列；

输出上述跟踪结果。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现本发明实施例提供的任一种行人多目标跟踪方法所述的步骤。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。对于各个公式中表现形式相同的量，如无特殊说明则表示相同的量，各个公式之间可以相互参照。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种行人多目标跟踪方法，其特征在于，所述方法包括：

获取目标神经网络模型，其中，所述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对所述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；

获取目标视频序列；

基于所述目标神经网络模型对所述目标视频序列进行行人多目标跟踪，获取跟踪结果；

输出所述跟踪结果。

2.根据权利要求1所述的行人多目标跟踪方法，其特征在于，所述获取目标神经网络模型，包括：

构建待训练神经网络模型；

获取训练集；

基于所述训练集对所述待训练神经网络模型进行训练，获取所述目标神经网络模型。

3.根据权利要求2所述的行人多目标跟踪方法，其特征在于，所述获取训练集包括：

获取检测数据集和行人重识别数据集；

基于所述检测数据集和所述行人重识别数据集中的数据进行自动标注获取训练集。

4.根据权利要求3所述的行人多目标跟踪方法，其特征在于，所述基于所述检测数据集和所述行人重识别数据集中的数据进行自动标注获取训练集包括：

分别基于所述检测数据集和所述行人重识别数据集获取检测图像和行人重识别图像；

将所述行人重识别图像分割为黑白二值图像；

提取分割后的掩膜在所述行人重识别图像中的对应部分，作为分割图像；

预测所述检测图像的深度信息，基于所述深度信息对所述检测图像划分区域；

基于所述分割图像的尺寸将所述分割图像贴在所述检测图像的对应区域，获得训练图像；

基于所述训练图像的集合获得所述训练集。

5.根据权利要求2所述的行人多目标跟踪方法，其特征在于，所述基于所述训练集对所述待训练神经网络模型进行训练，获取所述目标神经网络模型，包括：

基于所述训练集对所述待训练神经网络模型进行训练，获取训练后的神经网络模型；

对所述训练后的神经网络模型进行稀疏化训练；

基于稀疏化训练后的模型权重，删除预设的目标稀疏数量的卷积通道，获得所述目标神经网络模型。

6.根据权利要求1所述的行人多目标跟踪方法，其特征在于，所述基于所述目标神经网络模型对所述目标视频序列进行行人多目标跟踪，获取跟踪结果，包括：

对于所述目标视频序列中的一帧对应的输入图像，通过所述目标神经网络模型中的检测器预测所述输入图像中行人目标的位置；

通过卡尔曼滤波器对已有轨迹预测下一帧的位置；

基于行人特征与交并比，将所述检测器的预测目标与已有轨迹关联，保持前后帧中同一行人目标的身份ID一致，获取所述跟踪结果。

7.根据权利要求6所述的行人多目标跟踪方法，其特征在于，所述输出所述跟踪结果，包括：基于所述跟踪结果，将每个所述行人目标的轨迹可视化输出，输出时，不同身份ID的行人目标的边界框颜色不同。

8.一种行人多目标跟踪装置，其特征在于，所述装置包括：

目标神经网络模型获取模块，用于获取目标神经网络模型，其中，所述目标神经网络模型包括：用于提取输入图像的总特征获取特征图的合一模型，用于对所述特征图进行分离的分离结构，和基于分离后的特征图分别预测获取目标的外观特征向量和目标信息的外观特征提取子模型和检测子模型；

目标视频序列获取模块，用于获取目标视频序列；

跟踪模块，用于基于所述目标神经网络模型对所述目标视频序列进行行人多目标跟踪，获取跟踪结果；

输出模块，用于输出所述跟踪结果。

9.一种智能终端，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1-7任意一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的方法的步骤。