CN112926410A

CN112926410A - 目标跟踪方法、装置、存储介质及智能视频系统

Info

Publication number: CN112926410A
Application number: CN202110150356.3A
Authority: CN
Inventors: 裴炜冬; 郑永勤; 甘嘉诚
Original assignee: Shenzhen Valuehd Corp
Current assignee: Shenzhen Valuehd Corp
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-08
Anticipated expiration: 2041-02-03
Also published as: CN112926410B

Abstract

本发明公开了一种目标跟踪方法、装置、存储介质及智能视频系统，涉及目标跟踪技术领域，包括获取视频帧图像；利用训练获得的行人‑人头检测模型对视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框；根据目标行人的行人检测框和人头检测框，判断行人检测框的高度是否小于预设倍数的所述人头检测框的高度；若是，则对目标行人的人头进行跟踪，以获取目标行人的坐标信息；否则，利用训练获得的行人重识别模型提取目标行人的特征信息，对目标行人进行跟踪，以获取目标行人的坐标信息。本发明解决了现有的目标跟踪方法存在准确度较低的问题，有效防止对目标行人进行跟踪时出现目标ID切换的情况发生，保证了跟踪目标的准确度。

Description

目标跟踪方法、装置、存储介质及智能视频系统

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种目标跟踪方法、装置、存储介质及智能视频系统。

背景技术

随着互联网的高速发展，远程视频业务的迅猛增长，越来越多的智能视频系统方案在教育、娱乐、直播等领域得到广泛使用。在这种智能视频系统方案中应用的目标跟踪方法，结合了多重深度学习算法，以对目标人物进行特写跟踪，比如，教室内教师跟踪、舞台上表演者跟踪、直播间主播跟踪等等。

由于多用途场景变化、物体遮挡、多目标重叠等因素的影响，以及目标运动速度和运动轨迹的不确定性，导致现有的目标跟踪方法难以在保证精度的情况下实现实时跟踪，常规的目标跟踪方法也难以到达良好的跟踪效果。

因此，现有的目标跟踪方法存在准确度较低的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于：提供一种目标跟踪方法、装置、存储介质及智能视频系统，旨在解决现有的目标跟踪方法存在准确度较低的技术问题。

为实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种目标跟踪方法，所述方法包括以下步骤：

获取视频帧图像；

利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框；

根据所述目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度；

若所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度，则根据所述行人检测框，对所述目标行人进行跟踪，以获取所述目标行人的坐标信息；

若所述行人检测框的高度小于预设倍数的所述人头检测框的高度，则根据所述人头检测框，对所述目标行人的人头进行跟踪，以获取所述目标行人的坐标信息。

可选地，上述目标跟踪方法中，在利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框的步骤之前，所述方法还包括：

以开源网络结构为基础，基于滤波器数目、网络深度和网络层的核大小，按照预设规则对所述开源网络结构进行裁剪，以获得初始网络结构；

利用训练样本对所述初始网络结构进行训练，获得行人-人头检测模型，其中，所述训练样本包括数据增强后的图像。

可选地，上述目标跟踪方法中，所述根据所述行人检测框，对所述目标行人进行跟踪，以获取所述目标行人的坐标信息的步骤，具体包括：

根据所述行人检测框，对所述视频帧图像中的目标行人进行图像抠取，获得目标行人区域图像；

利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取，以获得所述目标行人的特征信息；

根据所述特征信息，利用改进的Deep SORT跟踪算法对所述目标行人进行跟踪，以获取所述目标行人的坐标信息，其中，所述改进的Deep SORT跟踪算法基于Deep SORT网络框架和Kalman跟踪算法获得。

可选地，上述目标跟踪方法中，在利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取，以获得所述目标行人的特征信息的步骤之前，所述方法还包括：

以ReID-Strong-Baseline为基础网络，用最大值池化替代所述基础网络中的生成均值池化，并去掉所述基础网络中的IBN结构，获得初始基础网络；

根据所述初始基础网络，利用神经网络模型和圆损失函数建立待训练模型；

利用训练数据集，对所述待训练模型进行训练，获得行人重识别模型，其中，所述行人重识别模型的特征维度基于矩阵运算库确定，所述训练数据集包括行人图像。

可选地，上述目标跟踪方法中，在利用训练数据集，对所述待训练模型进行训练，获得行人重识别模型的步骤之前，所述方法还包括：

获取DukeMTMC-ReID数据集、Market-1501数据集和MSMT17数据集；

将所述DukeMTMC-ReID数据集、所述Market-1501数据集和所述 MSMT17数据集合并，获得初始数据集；

对所述初始数据集中的行人图像进行裁剪，获得第一数据集，所述第一数据集中行人图像的行人与所述行人图像的边界的距离小于预设距离；

对所述第一数据集中的行人图像的行人进行部分裁剪或遮挡，获得训练数据集。

可选地，上述目标跟踪方法中，所述根据所述特征信息，利用改进的Deep SORT跟踪算法对所述目标行人进行跟踪，以获取所述目标行人的坐标信息的步骤，具体包括：

利用Kalman跟踪算法对所述行人检测框进行跟踪预测，获得行人跟踪框；

将所述行人跟踪框中目标行人的特征信息在特征池内进行级联匹配和 IoU匹配，获得目标行人的ID匹配结果；

根据所述目标行人的ID匹配结果，获取所述目标行人的坐标信息。

可选地，上述目标跟踪方法中，所述若所述行人检测框的高度小于预设倍数的所述人头检测框的高度，则根据所述人头检测框，对所述目标行人的人头进行跟踪，以获取所述目标行人的坐标信息的步骤，具体包括：

若所述行人检测框的高度小于预设倍数的所述人头检测框的高度，则根据所述人头检测框，利用SORT跟踪算法对所述目标行人的人头进行跟踪，以关联到所述目标行人的人头ID；

将所述目标行人的人头ID所在的坐标信息作为所述目标行人的坐标信息。

第二方面，本发明提供了一种目标跟踪装置，所述装置包括：

图像获取模块，用于获取视频帧图像；

目标检测模块，用于利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框；

判断模块，用于根据所述目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度；

行人跟踪模块，用于当所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度时，根据所述行人检测框，对所述目标行人进行跟踪，以获取所述目标行人的坐标信息；

人头跟踪模块，用于当所述行人检测框的高度小于预设倍数的所述人头检测框的高度时，根据所述人头检测框，对所述目标行人的人头进行跟踪，以获取所述目标行人的坐标信息。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，以实现如上述的目标跟踪方法。

第四方面，本发明提供了一种智能视频系统，所述系统包括：

单目摄像头、处理器、转动云台和变倍摄像头，以及存储器；其中，所述存储器上存储有计算机程序；

所述单目摄像头，用于拍摄视频，并传送至所述处理器；

所述处理器，用于执行所述存储器上存储的计算机程序，实现如上述的目标跟踪方法，以获取目标行人的坐标信息，并根据所述坐标信息生成控制指令发送至所述转动云台和所述变倍摄像头；

所述转动云台，用于根据所述处理器的控制指令转动，以调整所述变倍摄像头的视角；

所述变倍摄像头，用于根据所述处理器的控制指令进行变倍拍摄，以对所述目标行人进行特写实时跟踪。

本发明提供的上述一个或多个技术方案，可以具有如下优点或至少实现了如下技术效果：

本发明提出的一种目标跟踪方法、装置、存储介质及智能视频系统，通过根据行人-人头检测模型进行目标检测获得的目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度，以此判断目标行人是否存在严重遮挡；再针对遮挡不严重的目标行人，对该目标行人进行跟踪，针对遮挡严重的目标行人，对该目标行人的人头进行跟踪；本发明针对不同遮挡情况对不同的跟踪对象进行跟踪，有效针对完整行人、部分遮挡行人，以及多人交叉导致的遮挡严重行人等不同情况的目标行人进行实时跟踪，防止出现目标行人ID切换的情况，保证了跟踪目标的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的这些附图获得其他的附图。

图1为本发明实施例一提供的一种目标跟踪方法的流程示意图；

图2为本发明实施例一提供的一种目标跟踪方法中步骤S4.3的Deep SORT行人跟踪流程图；

图3为图2中级联匹配的详细流程图；

图4为图2中IoU匹配的详细流程图；

图5为图2中更新矩阵和特征池的详细流程图；

图6为本发明实施例一提供的一种目标跟踪方法中步骤S5的SORT人头跟踪流程图；

图7为本发明实施例一提供的一种目标跟踪方法中步骤B1采用的基础网络的结构示意图；

图8为本发明实施例一提供的一种目标跟踪方法中步骤B2采用的神经网络模型的模块示意图；

图9为本发明实施例二提供的一种目标跟踪装置的功能模块示意图；

图10为本发明实施例三提供的一种智能视频系统的结构连接示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连；可以是两个元件内部的连通，也可以是两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二” 的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/ 或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或 B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

术语解释：

ReID：Person re-identification，行人重识别，也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术；

NNIE：Neural Network Inference Engine，神经网络推理引擎，是海思媒体系统级芯片中专门针对神经网络特别是深度学习卷积神经网络进行加速处理的硬件单元；

NPU：Neural-network Processing Unit，嵌入式神经网络计算单元，也称 NPU协处理器，采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据；

IN：Instance Normalization，实列正则化，对一个批次中单个图片进行归一化处理；

BN：Batch Normalization，批归一化，对整个批次的所有图片进行归一化处理，提取出平均值；

IBN：Intent-based Network，基于意图的网络，是一种智能的拓扑结构，是IN和BN的结合，能够监控整体网络性能、识别问题并自动解决问题；

ResNet：Residual Network，残差网络，是由一系列残差块构建的网络；

IoU：Intersection over Union，交并比，交集和并集的比值；

ReLU：Rectified Linear Unit，线性整流函数，又称修正线性单元，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数；

Kalman算法：卡尔曼滤波算法，是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法；

Hungarian算法：匈牙利算法，是一种在多项式时间内求解任务分配问题的组合优化算法。

对现有技术的分析发现，使用目标特写跟踪技术的智能视频系统，一般由设置有嵌入式系统级芯片的主机、进行教师特写、表演者特写、主播特写等的转动云台、多方位高清摄像头及麦克风等设备组成。

目前的目标特写跟踪方法结合了多重深度学习算法，比如，深度学习行人检测算法、深度学习ReID算法、Kalman跟踪算法、匈牙利匹配算法等，其中的难点在于，在现有嵌入式设备的基础上保证精度的情况下达到实时跟踪，并在多目标交叉、物体遮挡、部分目标的情况下保持ID不丢失。由于目标数量随机，目标极可能相互重叠干扰，以及目标运动速度和轨迹不确定，使得常规的运动目标跟踪方法难以到达良好的跟踪效果。

传统的跟踪算法，比如背景差、帧差法、光流算法、粒子滤波算法等，这类算法过于依赖背景，如果背景变动较大，比如教室场景投影的PPT变化、舞台背景变化等情况，会对检测目标的判定、跟踪效果造成极大的干扰，而且对多人交叉、物体遮挡等复杂问题毫无办法，从而大大影响跟踪效果；

结合传统的跟踪算法得到的目标检测算法，比如SSD检测算法和KCF跟踪算法，每检测一帧，跟踪若干帧，这类算法相比传统的跟踪算法的优势在于，可以准确确定出运动目标是人，从而避免其他非人的运动目标干扰，但是这类算法仍然无法解决多目标交叉后，当前跟踪目标容易出现目标ID切换的问题；

目前也有提出一些结合Kalman跟踪算法的目标检测算法或ReID算法，这类算法相比传统的跟踪算法和目标检测算法的优势在于，可以解决多人交叉的问题，但是这类算法对于遮挡严重的行人目标仍然无法解决准确性的问题。

鉴于现有技术中目标跟踪方法存在准确度较低的技术问题，本发明提供了一种目标跟踪方法，总体思路如下：

获取视频帧图像；利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框；根据所述目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度；若所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度，则根据所述行人检测框，对所述目标行人进行跟踪，以获取所述目标行人的坐标信息；若所述行人检测框的高度小于预设倍数的所述人头检测框的高度，则根据所述人头检测框，对所述目标行人的人头进行跟踪，以获取所述目标行人的坐标信息。

通过上述技术方案，根据行人-人头检测模型进行目标检测获得的目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度，以此判断目标行人是否存在严重遮挡；再针对遮挡不严重的目标行人，对该目标行人进行跟踪，针对遮挡严重的目标行人，对该目标行人的人头进行跟踪；本发明针对不同遮挡情况对不同的跟踪对象进行跟踪，有效针对完整行人、部分遮挡行人，以及多人交叉导致的遮挡严重行人等不同情况的目标行人进行实时跟踪，防止出现目标行人ID切换的情况，保证了跟踪目标的准确度。

实施例一

参照图1至图8，本发明第一实施例提供了一种目标跟踪方法，应用于智能视频系统，所述系统包括：单目摄像头、处理器、转动云台和变倍摄像头，以及存储器；其中，所述存储器上存储有计算机程序；

所述单目摄像头，用于拍摄视频，并传送至所述处理器；

所述处理器，用于执行所述存储器上存储的计算机程序，实现本实施例提供的目标跟踪方法，以获取目标行人的坐标信息，并根据所述坐标信息生成控制指令发送至所述转动云台和所述变倍摄像头；

在具体实施过程中，所述系统可应用到教室内教师跟踪特写、舞台上表演者跟踪特写、直播间主播跟踪特写等领域。其中，单目摄像头可以为单目高清摄像头；转动云台可以为自由度转动云台，转动云台的数量可以为1台，与变倍摄像头连接，根据处理器的控制指令转动，以调整变倍摄像头的视角，转动云台的数量也可以为2台，还可以根据接收的外部控制指令或处理器的控制指令转动，以分别调整单目摄像头和变倍摄像头的视角；变倍摄像头可以为光学变倍摄像头。

下面结合图1的流程示意图，对本实施例提供的目标跟踪方法进行详细描述。本实施例以海思Hi3519ANNIE作为该目标跟踪方法的运算硬件，结合瑞芯微芯片中的前向推理框架(RKNN)，在相应的NPU上实现前向推理。为了达到耗时和精度的权衡，本实施例还针对不同厂家对深度学习算子(op) 的支持与否及不同表现，对该方法的模型结构、数据增强及模型训练方法等多方面进行实验，得出适合该NNIE的目标跟踪方法。所述方法具体包括以下步骤：

步骤S1：获取视频帧图像。

具体的，所述步骤S1，可以包括：

获取单目摄像头采集的视频流；

从所述视频流中获取视频帧图像；

将所述视频帧图像调整为固定尺寸的视频帧图像，其中，固定尺寸的大小根据硬件的实际情况预先设定。

步骤S2：利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框。

在具体实施过程中，将调整为固定尺寸的视频帧图像输入到行人-人头检测模型中，该行人-人头检测模型对视频帧图像中的行人进行检测，获得目标行人的行人检测框和人头检测框，即在该视频帧图像中，用行人检测框标记目标行人的躯干，用人头检测框标记目标行人的人头。

步骤S3：根据所述目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度。

具体的，通过判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度来判断目标行人是否存在严重遮挡，再针对不同的遮挡情况分别对应采用不同的跟踪方法对不同的跟踪对象进行目标跟踪。

本实施例中，根据所述目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于3倍的所述人头检测框的高度；若所述行人检测框的高度小于3倍的所述人头检测框的高度，则判定所述目标行人存在严重遮挡；若所述行人检测框的高度大于或等于3倍的所述人头检测框的高度，则判定所述目标行人不存在严重遮挡。

步骤S4：若所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度，则根据所述行人检测框，对所述目标行人进行跟踪，以获取所述目标行人的坐标信息。

具体的，所述步骤S4可以包括：

步骤S4.1：若所述行人检测框的高度大于或等于预设倍数的所述人头检测框的高度，则根据所述行人检测框，对所述视频帧图像中的目标行人进行图像抠取，获得目标行人区域图像。

步骤S4.2：利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取，以获得所述目标行人的特征信息。

本实施例中，根据所述行人检测框对所述视频帧图像中的目标行人进行图像抠取，获得64x128的目标行人区域图像，再将该目标行人区域图像输入训练获得的行人重识别模型，得到所述目标行人的特征信息。

步骤S4.3：根据所述特征信息，利用改进的Deep SORT跟踪算法对所述目标行人进行跟踪，以获取所述目标行人的坐标信息，其中，所述改进的Deep SORT跟踪算法基于Deep SORT网络框架和Kalman跟踪算法获得。

具体的，如图2所示为Deep SORT行人跟踪流程图，所述步骤S4.3可以包括：

步骤S4.3.1：利用Kalman跟踪算法对所述行人检测框进行跟踪预测，获得行人跟踪框。

具体的，获得行人跟踪框之后，还对各个参数进行初始化。

在具体实施过程中，所述步骤S4.3.1可以包括：

S4.3.1.1：基于Deep SORT网络框架的状态变量表示所述行人检测框的状态；

具体的，Deep SORT网络框架中对于状态变量x的设定是一个八维向量：

其中，u,v分别表示目标行人区域图像的中心位置的x坐标和y坐标，γ表示目标行人区域图像的纵横比，h表示目标行人区域图像的高，

分别表示u,v,γ,h的速度变量。

S4.3.1.2：向前推算所述状态变量，获得状态变量预测值：

其中，

表示当前时刻的状态变量预测值，x表示状态，t表示当前时刻， t-1表示上一时刻，带-的变量表示预测值，不带-的变量表示更新值，B表示控制矩阵，B_t表示当前时刻的控制矩阵，u表示系统输入速度值，u_t表示当前时刻的系统输入速度值。

S4.3.1.3：向前推算所述Kalman跟踪算法中的误差协方差矩阵，获得误差协方差矩阵预测值：

其中，∑表示误差协方差矩阵，

表示当前时刻的误差协方差矩阵预测值，F表示状态转移矩阵，P表示系统协方差矩阵，P_t-1表示上一时刻的系统协方差矩阵，Q表示过程协方差矩阵；

其中，Kalman跟踪算法中系统协方差矩阵、过程协方差矩阵和测量协方差矩阵的初始状态如下：

其中，diag表示对角矩阵，P表示系统协方差矩阵，Q表示过程协方差矩阵，R表示测量协方差矩阵，σ_p表示位置的标准差，σ_v表示速度的标准差；

状态转移矩阵的初始状态如下：

本实施例中，由于侧身、正身及部分遮挡的情况都会影响行人的纵横比，且差别很可观，因此添加纵横比调制参数进行改进，根据实际测试结果，对协方差矩阵、过程协方差矩阵和测量协方差矩阵进行改进后得到：

其中，σ_d表示纵横比调制参数；

本实施例对σ_p、σ_v和σ_d的参数值进行调节，比如，确定σ_p、σ_v和σ_d的值为1/5、1/40、1/30。

S4.3.1.4：计算Kalman增益：

K_t＝P_t ^-H^T(HP_t ^-H^T+R)^-1，

其中，K表示滤波增益矩阵，H表示观测变量，K_t表示当前时刻的Kalman 滤波增益矩阵，P_t ^-表示当前时刻的系统协方差矩阵预测值，R表示测量协方差矩阵；

S4.3.1.4：根据观测变量更新状态变量和误差协方差矩阵，得到状态变量更新值和误差协方差矩阵更新值；

具体的，观测变量与状态变量的关系式为：

其中，z表示观测值；

更新状态变量和误差协方差矩阵后，得到状态变量更新值：

其中，

表示当前时刻的状态变量更新值；

以及误差协方差矩阵更新值：

P_t＝(I-K_tH)P_t ^-，

其中，P_t表示当前时刻的系统协方差矩阵，I表示目标行人区域图像。

步骤S4.3.2：将所述行人跟踪框中目标行人的特征信息在特征池内进行级联匹配和IoU匹配，获得目标行人的ID匹配结果；

具体的，在进行级联匹配之前，先进行一次IoU匹配，去掉行人检测框中置信度小于0.7的行人检测框，并在进行级联匹配和IoU匹配之后，更新矩阵和特征池。

在具体实施过程中，所述步骤S4.3.2可以包括：

步骤S4.3.2.1：先对所述行人检测框的宽度进行扩充，以使所述行人跟踪框的高宽比达到预设比值；

本实施例中，考虑到该方法在海思Hi3519A NNIE上不能逐帧检测且跟踪目标的个人运动速度有慢有快，对行人检测框的宽度进行扩充，比如，使得行人检测框的高度为2.2倍的行人检测框的宽度，根据该行人检测框得到的行人跟踪框的高宽比就达到2.2，这样，能保证在级联匹配失效时，使得IoU匹配尽可能地起作用。

步骤S4.3.2.2：对所述行人检测框和行人跟踪框进行第一次IoU匹配；

步骤S4.3.2.3：当行人检测框和行人跟踪框之间有重叠时，记录该行人跟踪框的下标，否则，拒绝向所述特征池内送所述目标行人的特征信息；

在具体实施过程中，当前一些级联匹配方法中，是将所有确定状态的行人跟踪框对应的检测目标的特征全部送到特征池里，这种方式并不合理。比如，当多人交叉时，行人检测框中包含了多个行人的躯干，导致在行人重识别模型进行特征提取后得到的特征信息并不纯净，因此，在进行余弦相似度对比时会影响精度，从而导致目标ID切换现象发生。本实施例中，先进行一次IoU匹配，当发现行人检测框和行人跟踪框两两之间有重叠时，记录下该行人跟踪框的下标，如果没有重叠，则后续会拒绝向特征池里送特征信息，本实施例中去掉行人检测框中置信度小于0.7的行人检测框，可以提高当前目标人物的ID信息匹配的精度。

步骤S4.3.2.4：将该下标对应的行人跟踪框中目标行人的特征信息送入特征池内进行级联匹配，得到部分匹配的行人跟踪框；

具体的，如图3所示为图2中级联匹配的详细流程图，先分配跟踪参数和检测参数，计算代价矩阵和余弦分布；计算Kalman算法跟踪到的每个行人跟踪框平均轨道的位置和实际检测的行人检测框之间的平方马氏距离；将余弦代价矩阵中行人跟踪框和行人检测框之间的平方马氏距离大于马氏距离阈值的对应值置为无穷大，方便后续计算；将余弦代价矩阵中行人跟踪框和行人检测框之间的余弦距离大于阈值的对应值置为较大，方便后续删除；然后使用Hungarian算法对行人跟踪框和行人检测框进行匹配，并返回匹配结果；对匹配结果进行筛选，删除余弦分布过大的结果，得到初步匹配结果、不匹配的行人跟踪框和不匹配的行人检测框，其中，具体参数设置可根据实际情况设定。

在具体实施方式中，目前的一些Deep SORT框架中，马氏距离阈值为余弦分布的95％置信度，该阈值在没有行人交叉时尚且有效，但当多个行人交叉，且当前跟踪的目标行人被前面的行人遮挡导致无法检测时，容易出现ID 信息匹配失效。对此，本实施例引入行人重识别模型最大的作用就在于，当目标行人被遮挡后，能够拉回行人检测框到当前跟踪目标，避免目标ID切换。若直接用现有的马氏距离阈值，行人重识别模型则不能解决遮挡导致的目标 ID切换问题。因此，为了保证行人重识别模型有更好的效果，本实施例通过收集到的包括不同大小、不同距离、不同身高和身形的行人的一组测试数据集，根据测试得出的卡方阈值，以及行人检测框的中心位置的坐标x、中心位置的坐标y、纵横比aspect、身高h，得出最佳马氏距离阈值为20.5。

步骤S4.3.2.5：对剩下未匹配的行人跟踪框继续进行第二次IoU匹配，得到匹配的行人跟踪框；

具体的，如图4所示为图2中IoU匹配的详细流程图，先将只有一帧为匹配的行人跟踪框看做IoU的候选，超过的视为不匹配的行人跟踪框；计算行人跟踪框候选和不匹配的行人检测框之间的IoU距离；再将IoU距离大于阈值0.7的置大，方便后续剔除；再使用Hungarian算法对行人跟踪框和行人检测框进行匹配，并返回匹配结果；对匹配结果进行筛选，删除IoU较小的区域，得到再次匹配结果、不匹配的行人跟踪框和不匹配的行人检测框，其中，具体参数设置可根据实际情况设定。

在特征池里进行级联匹配后得到了部分匹配结果，以及不匹配的行人跟踪框和不匹配的行人检测框，再对不匹配的行人跟踪框和不匹配的行人检测框进行IoU匹配，得到剩下的匹配结果，两种匹配结果合并为整个匹配结果，匹配更准确。

步骤S4.3.2.6：将所述匹配的行人跟踪框对应的行人ID作为所述目标行人的ID匹配结果；

步骤S4.3.2.7：根据所述目标行人的ID匹配结果更新Kalman跟踪算法中的矩阵和特征池，以对下一帧视频帧图像进行跟踪时使用。

具体的，如图5所示为图2中更新矩阵和特征池的详细流程图，先更新行人跟踪框对Kalman跟踪的新的均值和协方差；判断行人跟踪框的状态是否被确认正常，再判断是否需要删除行人跟踪框，即删除不满足确认条件和未匹配数目超过了循环检测帧数的行人跟踪框；然后对不匹配的行人检测框重新分配新ID，使用新的行人跟踪框及对应的ID和特征更新矩阵和特征池，便于下一帧计算。

步骤S4.3.3：根据所述目标行人的ID匹配结果，获取所述目标行人的坐标信息。

具体的，将所述行人ID对应所在的行人跟踪框的坐标信息作为获取的所述目标行人的坐标信息。

步骤S5：若所述行人检测框的高度小于预设倍数的所述人头检测框的高度，则根据所述人头检测框，对所述目标行人的人头进行跟踪，以获取所述目标行人的坐标信息。

具体的，所述步骤S5可以包括：

步骤S5.1：若所述行人检测框的高度小于预设倍数的所述人头检测框的高度，则根据所述人头检测框，利用SORT跟踪算法对所述目标行人的人头进行跟踪，以关联到所述目标行人的人头ID；

步骤S5.2：将所述目标行人的人头ID所在的坐标信息作为所述目标行人的坐标信息。

具体的，该步骤不需要进行行人重识别，不是用步骤S4的Deep SORT 跟踪算法进行人头跟踪，只是单纯利用SORT人头跟踪算法对所述目标行人的人头进行跟踪，是因为遮挡严重的行人的特征与完整行人的特征差别较大，若还用Deep SORT行人跟踪算法，又会引起目标ID切换，导致跟踪目标丢失。因此，通过判断行人检测框的高度是否小于预设倍数的所述人头检测框的高度，对应利用不同的跟踪方法和不同的对象对目标进行跟踪，就不会存在目标ID切换现象。

如图6所示为SORT人头跟踪流程图，利用SORT人头跟踪算法对所述目标行人的人头进行跟踪，可以包括：

对人头检测框和前一状态跟踪的人头检测框做Kalman跟踪预测，得到当前跟踪人头的人头跟踪框；

对所述人头跟踪框进行IOU匹配，得到匹配的人头跟踪框，未匹配的人头检测框和未匹配的人头跟踪框；

针对匹配的人头跟踪框进行Kalman滤波更新，再根据更新的人头跟踪框进行后续视频帧图像的Kalman滤波预测；

对未匹配的人头检测框继续获取新的人头跟踪框，再根据新的人头跟踪框进行Kalman滤波预测；

对未匹配的人头跟踪框则直接删除当前的人头跟踪框。

在具体实施方式中，根据所述匹配的人头跟踪框的位置信息关联所述目标行人的人头ID，将所述目标行人的人头ID所在的坐标信息作为所述目标行人的坐标信息。

本实施例中，添加人头检测的作用有两点，一是由于进行行人重识别之前需要抠图，通过人头检测，可以避免扩臂、举手等动作影响目标行人的躯干的扣取，可防止影响行人重识别的效果；二是通过关联目标行人的人头检测框和行人检测框对应的ID，并通过人头检测框和行人检测框判断是否存在严重遮挡，当下半身存在严重遮挡，比如，舞台上的桌子对表演者的遮挡，教室内的讲台对教师的遮挡，直播间的椅子对主播的遮挡等等，本实施例由于人头检测框和行人检测框共同关联了ID，所以在行人跟踪和人头跟踪之间切换就不会导致ID混乱。

在一种实施方式中，在利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框的步骤之前，所述方法还包括行人-人头检测模型的训练方法。考虑到当前NNIE硬件的算力限制，以及前向推理框架与模型数量成正比的因素，本实施例采用多分类单模型的方法获得本实施例的行人-人头检测模型。

所述行人-人头检测模型的训练方法包括以下步骤：

步骤A1：以开源网络结构为基础，基于滤波器数目、网络深度和网络层的核大小，按照预设规则对所述开源网络结构进行裁剪，以获得初始网络结构。

具体的，所述开源网络结构包括YOLOv3、YOLOv4、SSD-Inceptionv3、 CenterNet_ResNet中的一种；

本实施例中，由于不同的开源网络结构在不同硬件上的表现差异较大，需要将开源网络结构结合前向推理试验后的精度和速度进行对比，来选择适合的开源网络结构。本实施例采用YOLOv4网络。

由于大多开源网络结构都比较大，所需算力较高，一般是适用于高算力设备的网络模型，比如GPU、高端CPU、算力较强的NPU等等。而实际的硬件难以支持结构较大的开源网络，因此，需要针对本实施例的低算力硬件对网络结构进行裁剪，使其能在NNIE上正常运行。

本实施例中，基于滤波器数目对YOLOv4网络进行裁剪，比如，将原本 128*128的网络均匀裁剪为64*64的网络，具体裁剪大小根据硬件实际情况设定；基于网络深度对YOLOv4网络进行裁剪，裁剪掉重复的层；基于网络层的核大小对YOLOv4网络进行裁剪，在卷积层和池化层使用小尺度的核，具体尺度根据实际情况设定。裁剪时，需要对整个结构均匀地进行裁剪，而不是直接裁剪掉边缘，均匀地进行裁剪可以避免网络出现头重脚轻或头轻脚重的情况，影响网络收敛。

步骤A2：确定所述初始网络结构的回归损失函数和激活函数。

具体的，所述回归损失函数包括L2损失函数、Focal loss、GIOU Loss、 DIOULoss、CIOU Loss中的一种；

本实施例采用CIOU Loss函数，该CIOU Loss函数的表达式为：

其中，L_CIou表示CIOU Loss函数，b,b^gt分别表示预测框的中心点和真实框的中心点，ρ表示预测框的中心点和真实框的中心点之间的欧式距离，c表示同时包含预测框和真实框的最小闭包区域的对角线距离，IoU表示真实目标框与实际检测目标框的交集，或真实目标框与实际检测目标框的并集，α表示权重，ν表示长宽比相似性。

具体的，所述激活函数包括mish ReLU激活函数和/或leaky ReLU激活函数。

本实施例中，由于NNIE不支持mish ReLU激活函数，因此，本实施例只在训练初期用mish ReLU激活函数，后期训练时再用leaky ReLU激活函数对网络模型进行微调。其中，leaky ReLU激活函数的表达式为：

其中，x表示输入值，i表示数值，x_i表示第i个输入值，α_i表示系数；

mish ReLU激活函数的表达式为：

Mish Re LU＝x*tanh(log(1+e^x))，

其中，e^x表示指数函数。

步骤A3：利用训练样本对所述初始网络结构进行训练，获得行人-人头检测模型，其中，所述训练样本包括数据增强后的图像。

其中，在利用训练样本对所述初始网络结构进行训练之前，获取训练样本，对所述训练样本中的图像进行数据增强。

具体的，通过调整所述训练图像的图片角度、色调范围及饱和度与曝光大小，对所述训练图像进行数据增强，获得不同的训练图像，目的是为了通过对比试验，得出速度和精度最佳的网络模型。利用训练样本对所述初始网络结构进行多次蒸馏训练，并对比多次训练得到的多个网络模型，保留其中精度和速度最高的网络模型，作为获得的行人-人头检测模型。

在另一种实施方式中，在利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取，以获得所述目标行人的特征信息的步骤之前，所述方法还包括行人重识别模型的训练方法。

所述行人重识别模型的训练方法包括以下步骤：

步骤B1：以ReID-Strong-Baseline为基础网络，用最大值池化(Max Pooling) 替代所述基础网络中的生成均值池化(GeM Pooling)，并去掉所述基础网络中的IBN结构，获得初始基础网络。

具体的，所述ReID-Strong-Baseline基础网络中，GeM Pooling的表达式为：

其中，f^(g)表示特征图像经过生成均值池化的结果，k表示标号，K表示特征图像的面积，p_k表示调节参数，χ_k表示当前卷积核大小位置内的最大输入值。

如图7所示为ReID-Strong-Baseline基础网络的结构示意图，图7(a)为原始的Res Net网络结构，图7(b)和图7(c)分别为将IN和BN进行组合的两种Res Net-IBN网络结构，图7(b)和图7(c)的区别在于插入IN的顺序不一样，IN可以学习视觉表现变化的相关性，BN可以学习内容相关的信息，Res Net-IBN网络结构可以加速训练，还可以学习到更加有区分性的特征，有助于在不增加计算量的情况下，提升模型的准确性。但本实施例中，考虑到NNIE的特性，以ReID-Strong-Baseline为基础网络，用Max Pooling替代所述基础网络中的GeM Pooling，并去掉所述基础网络中的IBN结构，获得初始基础网络，以使该初始基础网络中的op都支持NNIE。

步骤B2：根据所述初始基础网络，利用神经网络模型和圆损失(Circle Loss) 函数建立待训练模型。

具体的，Circle Loss函数的表达式为：

其中，L_circle表示Circle Loss损失函数，K和L均表示正负样本个数，γ表示函数调节因子，s_n表示类间相似度，s_p表示类内相似度，α_n表示s_n的调节因子，α_p表示s_p的调节因子。

本实施例中，测试不同的神经网络模型在Hi3519ANNIE上的耗时和精度后，决定采用Inception-ResNet50神经网络模型，如图8所示为该神经网络模型的模块示意图，图中，Conv即Convolution，表示多项式相乘。该神经网络模型结合了Inception网络结构与ResNet网络结构，Inception结构可以学习到更加细致的特征，ResNet网络结构可以学习到更加抽象的特征，二者结合的神经网络模型可以学习到更丰富的特征，有利于分类和回归。

步骤B3：利用训练数据集，对所述待训练模型进行训练，获得行人重识别模型，其中，所述行人重识别模型的特征维度基于矩阵运算库确定，所述训练数据集包括行人图像。

具体的，在步骤B3之前，所述方法还包括获取训练数据集的方法，所述方法具体包括：

步骤B3.1：获取DukeMTMC-ReID数据集、Market-1501数据集和 MSMT17数据集。

步骤B3.2：将DukeMTMC-ReID数据集、Market-1501数据集和MSMT17 数据集合并，获得初始数据集。

为了解决检测行人与ReID训练集的数据平衡问题，将DukeMTMC-ReID 数据集、Market-1501数据集和MSMT17数据集合并为一个数据集，获得初始训练集。其中，DukeMTMC数据集是一个大规模标记的多目标多摄像机行人跟踪数据集，Market-1501数据集是一个行人跟踪数据库，MSMT17数据集是涵盖了多场景多时段的，更接近真实场景的大型数据集。

步骤B3.3：对所述初始数据集中的行人图像进行裁剪，获得第一数据集，所述第一数据集中行人图像的行人与所述行人图像的边界的距离小于预设距离。

具体的，通过YOLOv4行人模型对所述初始数据集中的行人图像进行裁剪，获得第一训练集，该第一数据集中，行人图像的行人与所述行人图像的边界的距离小于根据实际情况设定的预设距离，即使得行人图像的边界贴近行人图像的行人，目的是为了使通过该训练集训练得到的模型的精度更高。

步骤B3.3：对所述第一数据集中的行人图像进行部分裁剪或遮挡，获得训练数据集。

具体的，为了增加对部分行人和遮挡行人的识别率，对所述第一数据集还进行部分裁剪或遮挡，以模拟真实环境中的多个行人交叉、物体遮挡行人、部分显露行人等行人遮挡环境，获得训练数据集。

具体的，该步骤B3中，则利用步骤B3.1至步骤3.3获得的进行数据增强后的训练数据集对所述待训练模型进行训练，从而获得行人重识别模型。由于开源网络结构与常用的行人检测数据存在偏差，如果直接使用开源网络结构的数据进行训练，训练出的模型去做推理会存在一定的偏差，为了消除这种偏差，本实施例直接用该方法所用的行人检测模型去检测训练集的行人，并对其中的行人进行截取，使得训练和测试的行人场景一致，从而提高了行人重识别模型的精度。

具体的，所述行人重识别模型的特征维度基于矩阵运算库确定。

在本实施例中，所述矩阵运算库可以包括Eigen3库，为了加速推理，利用Eigen3库进行矩阵运算，由于Eigen3库初始化矩阵的维度不能超过256维，考虑到行人重识别模型进行推理的速度和精度的平衡，本实施例确定行人重识别模型的特征维度为256维。

本实施例提供的一种目标跟踪方法，通过根据行人-人头检测模型进行目标检测获得的目标行人的行人检测框和人头检测框，判断所述行人检测框的高度是否小于预设倍数的所述人头检测框的高度，以此判断目标行人是否存在严重遮挡；再针对遮挡不严重的目标行人，对该目标行人进行跟踪，针对遮挡严重的目标行人，对该目标行人的人头进行跟踪；本发明针对不同遮挡情况对不同的跟踪对象进行跟踪，有效针对完整行人、部分遮挡行人，以及多人交叉导致的遮挡严重行人等不同情况的目标行人进行实时跟踪，防止出现目标行人ID切换的情况，保证了跟踪目标的准确度。本实施例针对当前硬件条件中的行人检测模型、人头检测模型和行人重识别模型进行改进，获得行人-人头检测模型和改进后的行人重识别模型，使精度和速度达到平衡；采用数据增强技术对行人-人头检测模型和行人重识别模型进行训练，提高了模型的精度，可进一步提高了目标跟踪的准确度。

实施例二

基于同一发明构思，参照图9，本发明第二实施例提供了一种目标跟踪装置，结合图9的功能模块示意图，对本实施例提供的目标跟踪装置进行详细描述，所述装置包括：

图像获取模块，用于获取视频帧图像；

其中，对应程序模块的功能的具体实施方式参照实施例一中的具体描述，本实施例在此不再重复赘述。

实施例三

基于同一发明构思，本实施例提供了一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，所述计算机程序被处理器执行时可以实现如下方法步骤：

获取视频帧图像；

上述方法步骤的具体实施例过程可参见实施例一，本实施例在此不再重复赘述。

实施例四

基于同一发明构思，参照图10，本发明第四实施例提供了一种智能视频系统，结合图10的结构连接示意图，对本实施例提供的智能视频系统进行详细描述，所述系统包括：

所述单目摄像头，用于拍摄视频，并传送至所述处理器；

所述处理器，用于执行所述存储器上存储的计算机程序，实现如实施例一中所述的目标跟踪方法，以获取目标行人的坐标信息，并根据所述坐标信息生成控制指令发送至所述转动云台和所述变倍摄像头；

其中，处理器用于执行如上述实施例一中所述的目标跟踪方法中的全部或部分步骤。存储器用于存储各种类型的数据，这些数据例如可以包括电子设备中的任何应用程序或方法的指令，以及应用程序相关的数据。

所述处理器可以是专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件 (ProgrammableLogic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如上述实施例一中所述的目标跟踪方法中的全部或部分步骤。

所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称 SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器 (Programmable Read-Only Memory，简称PROM)，只读存储器(Read-OnlyMemory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本实施例提供的一种智能视频系统，解决了目标行人被遮挡时，系统跟踪的行人ID容易丢失的问题，避免行人被遮挡时因为目标ID切换导致特写画面被带走，保证特写跟踪的实时性和准确性。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均包括在本发明的专利保护范围内。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括以下步骤：

获取视频帧图像；

2.如权利要求1所述的目标跟踪方法，其特征在于，在利用训练获得的行人-人头检测模型对所述视频帧图像进行目标检测，获得目标行人的行人检测框和人头检测框的步骤之前，所述方法还包括：

3.如权利要求1所述的目标跟踪方法，其特征在于，所述根据所述行人检测框，对所述目标行人进行跟踪，以获取所述目标行人的坐标信息的步骤，具体包括：

4.如权利要求3所述的目标跟踪方法，其特征在于，在利用训练获得的行人重识别模型对所述目标行人区域图像进行特征提取，以获得所述目标行人的特征信息的步骤之前，所述方法还包括：

5.如权利要求4所述的目标跟踪方法，其特征在于，在利用训练数据集，对所述待训练模型进行训练，获得行人重识别模型的步骤之前，所述方法还包括：

获取DukeMTMC-ReID数据集、Market-1501数据集和MSMT17数据集；

将所述DukeMTMC-ReID数据集、所述Market-1501数据集和所述MSMT17数据集合并，获得初始数据集；

6.如权利要求3所述的目标跟踪方法，其特征在于，所述根据所述特征信息，利用改进的Deep SORT跟踪算法对所述目标行人进行跟踪，以获取所述目标行人的坐标信息的步骤，具体包括：

将所述行人跟踪框中目标行人的特征信息在特征池内进行级联匹配和IoU匹配，获得目标行人的ID匹配结果；

7.如权利要求1所述的目标跟踪方法，其特征在于，所述若所述行人检测框的高度小于预设倍数的所述人头检测框的高度，则根据所述人头检测框，对所述目标行人的人头进行跟踪，以获取所述目标行人的坐标信息的步骤，具体包括：

8.一种目标跟踪装置，其特征在于，所述装置包括：

图像获取模块，用于获取视频帧图像；

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序可被一个或多个处理器执行，以实现如权利要求1至7中任意一项所述的目标跟踪方法。

10.一种智能视频系统，其特征在于，所述系统包括：

所述单目摄像头，用于拍摄视频，并传送至所述处理器；

所述处理器，用于执行所述存储器上存储的计算机程序，实现如权利要求1至7中任意一项所述的目标跟踪方法，以获取目标行人的坐标信息，并根据所述坐标信息生成控制指令发送至所述转动云台和所述变倍摄像头；