CN113256690A

CN113256690A - 一种基于视频监控的行人多目标跟踪方法

Info

Publication number: CN113256690A
Application number: CN202110664925.6A
Authority: CN
Inventors: 胡谋法; 张瑶; 张路平; 王珏; 卢焕章; 赵菲; 肖山竹; 陶华敏; 沈杏林; 邓秋群
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-08-13
Anticipated expiration: 2041-06-16
Also published as: CN113256690B

Abstract

本申请涉及一种基于视频监控的行人多目标跟踪方法，所述方法以监控视频中的行人目标作为应用场景，采用Faster RCNN网络获得场景内目标检测结果，以无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块，对目标检测结果提取行人运动特征和行人表观特征，并进行目标之间的相似度比较，得到最终目标检测结果在各帧之间的正确关联。本发明采用改进的DEEPSORT网络根据行人真实场景中的运动状态，重新建立视频监控下的行人目标非线性运动模型，采用适用性更广的无迹卡尔曼滤波模块方法代替卡尔曼滤波模块进行运动特征的提取，以及行人目标实时状态的更新，提高监控场景下行人目标跟踪的准确性。

Description

一种基于视频监控的行人多目标跟踪方法

技术领域

本申请涉及多目标跟踪技术领域，特别是涉及一种基于视频监控的行人多目标跟踪方法。

背景技术

视觉多目标跟踪技术利用数字信号处理技术，检测视频场景中感兴趣的多个目标并进行正确、稳定的跟踪，是当前热门的智能安防、自动驾驶系统的基础性技术之一。视觉多目标跟踪可以视为在目标检测基础上的数据关联问题，因此，视觉多目标跟踪涉及到目标检测、特征提取、相似度计算、数据关联等多项子任务。多目标跟踪除了面临到单目标跟踪存在的目标形变、环境变化等挑战之外，视觉多目标跟踪任务还面临着由于目标增加所带来的新的挑战：

（1）场景中感兴趣的目标数量不确定

（2）目标与背景存在遮挡或者感兴趣目标之间的互相遮挡

（3）同类目标之间的相似度高，可区分特征不明显

随着智能图像处理技术的发展，为了克服上述难点，当前视觉多目标跟踪技术取得了一定的进展，但是传统的基于深度学习的视觉多目标跟踪方法对于感兴趣的多目标运动建模的精细度不够，通常简单的将目标运动建模为简单的匀速直线运动，在对运动特征依赖性较高的场景下跟踪错误较多。

发明内容

基于此，有必要针对上述技术问题，提供一种既能提高跟踪准确度，又能改进行人目标运动预测跟踪的基于视频监控的行人多目标跟踪方法。

一种基于视频监控的行人多目标跟踪方法，所述方法包括：

获取监控视频数据，并进行预处理得到检测训练样本。

构建行人多目标跟踪网络；所述行人多目标跟踪网络包括：Faster RCNN网络和改进的DEEPSORT网络，所述Faster RCNN网络用于行人目标检测得到行人目标；所述改进的DEEPSORT网络用于提取所述行人目标中的行人表观特征和行人运动特征，并采用巴氏距离进行相似度计算和匹配，得到行人目标ID分配结果；所述改进的DEEPSORT网络是对DEEPSORT网络中用于行人运动预测与更新的模块进行了改进后的网络，改进点包括：对行人目标重新进行非线性运动建模，并构建无迹卡尔曼滤波模块，用所述无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块；

利用所述检测训练样本对所述Faster RCNN网络进行训练，得到训练好的目标检测网络。

利用所述重识别训练样本对所述行人重识别网络进行训练，得到训练好的行人重识别网络。

获取待测监控视频数据，并进行预处理得到待测样本。

将所述待测样本输入到训练好的所述行人多目标跟踪网络中进行行人目标跟踪，得到各行人运动轨迹。

在其中一个实施例中，构建行人多目标跟踪网络，步骤中：对行人目标重新进行非线性运动建模，并构建无迹卡尔曼滤波模块，用所述无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块，包括：

将初始的行人匀速运动改为CA运动模型，用一个9维空间表示轨迹某时刻的状态，运动模型表达式如下式所示：

其中：

、

表示目标的检测框的中心点坐标，

表示检测框的宽高比，

表示检测框的高度，

、

表示检测框的中心点坐标变化率，

表示检测框的宽高比的变化率，

表示检测框的高度变化率，

为目标前后帧运动形成的角度差。

利用UT变换与比例修正对称采样策略选取Sigma点，并根据得到的Sigma点进行类似卡尔曼滤波的预测与更新两阶段，得到无迹卡尔曼滤波模块。

在其中一个实施例中，所述Faster RCNN网络包括用于特征提取的骨干网络、用于目标候选框提取的RPN网络以及用于进一步分类和检测框回归的头网络；所述骨干网络是卷积神经网络VGG。

利用所述检测训练样本对所述Faster RCNN网络进行训练，得到训练好的目标检测网络，包括：

将所述检测训练样本输入到所述骨干网络中，得到特征图。

将所述特征图输入到所述RPN网络中，得到目标候选检测框。

将所述特征图和所述目标候选检测框输入到所述头网络中，得到目标分类结果和检测回归框。

根据所述目标分类结果、所述检测回归框以及对应所述检测训练样本的真实标注信息，采用预设的损失函数和Adam优化器，采用反向传播算法对所述Faster RCNN网络的参数进行更新，得到训练好的目标检测网络。

在其中一个实施例中，利用所述重识别训练样本对所述行人重识别网络进行训练，得到训练好的行人重识别网络，包括：

将所述重识别训练样本输入到所述行人重识别网络中，得到行人表观特征；所述行人重识别网络是小型残差卷积神经网络。

根据所述行人表观特征和所述重识别训练样本，采用交叉熵损失函数和Adam优化器，采用反向传播算法对所述小型残差卷积神经网络的参数进行更新，得到训练好的行人重识别网络。

在其中一个实施例中，所述改进的DEEPSORT网络还包括：相似度计算模块和数据关联优化模块。

将所述待测样本输入到训练好的所述行人多目标跟踪网络中进行行人目标跟踪，得到各行人运动轨迹，包括：

将所述待测样本输入到训练好的所述Faster RCNN网络中，得到待测特征图。

将所述待测特征图输入到训练好的所述行人重识别网络中，得到待测行人表观特征。

将所述待测特征图输入到所述无迹卡尔曼滤波模块中，得到待测行人运动特征。

根据所述待测行人表观特征和所述待测行人运动特征，在相似度计算模块中采用巴氏距离计算检测框向量化后的近似度，并根据计算得到的两个相似性度量构建关联代价矩阵。

根据所述关联代价矩阵，在关联优化模块中采用匈牙利算法，得到每一帧各行人目标的检测框中心位置与对应的行人ID。

以最终的检测框的中心位置代替行人，绘制同一行人ID信息在时间系列上的轨迹。

上述一种基于视频监控的行人多目标跟踪方法，所述方法以监控视频中的行人目标作为应用场景，采用Faster RCNN网络获得场景内目标检测结果，以无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块，对目标检测结果提取行人运动特征和行人表观特征，并进行目标之间的相似度比较，得到最终目标检测结果在各帧之间的正确关联。本发明采用改进的DEEPSORT网络根据行人真实场景中的运动状态，重新建立视频监控下的行人目标非线性运动模型，采用适用性更广的无迹卡尔曼滤波模块方法代替卡尔曼滤波模块进行运动特征的提取，以及行人目标实时状态的更新，提高监控场景下行人目标跟踪的准确性。

附图说明

图1为一个实施例中基于视频监控的行人多目标跟踪方法的流程示意图；

图2为另一个实施例中基于视频监控的行人多目标跟踪方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于视频监控的行人多目标跟踪方法，该方法包括以下步骤：

步骤100：获取监控视频数据，并进行预处理得到检测训练样本和重识别训练样本。

检测训练样本包括：行人标注图片与标注信息，用于训练用于行人目标检测的Faster RCNN网络。

重识别训练样本用于训练DEEPSORT中用于行人表观特征提取的行人重识别网络。

步骤102：构建行人多目标跟踪网络。

行人多目标跟踪网络包括：Faster RCNN网络和改进的DEEPSORT网络。

Faster RCNN网络用于行人目标检测得到行人目标。

改进的DEEPSORT网络用于提取行人目标的行人表观特征和行人运动特征，并采用巴氏距离进行相似度计算和匹配，得到行人目标ID分配结果。

改进的DEEPSORT网络是对DEEPSORT网络中用于行人运动预测与更新的模块进行了改进后的网络，改进点包括：对行人目标重新进行非线性运动建模，并构建无迹卡尔曼滤波模块，用无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块；改进的DEEPSORT网络还包括用于提取行人表观特征的行人重识别网络。

DeepSORT算法是将目标的外观信息加入到帧间匹配的计算中，这样在目标被遮挡但后续再次出现的情况下，还能正确匹配ID，从而减少ID切换。

其中：DEEPSORT在提取运动特征过程中假定目标运动为线性高斯状态，使用卡尔曼滤波(Kalman filtering，简称KF）模块进行目标运动预测和更新，而在现实绝大多数场景下，行人目标的运动状态具有极大的不确定性和随机性，基于KF模块获得的行人目标运动预测与更新结果并不准确。本发明根据具体监控场景内行人运动的先验信息，重新建模行人运动模型，使用适用性更广的无迹卡尔曼滤波(Unscented Kalman Filter，简称：UKF)替换KF，获得更准确的行人运动特征。

步骤104：利用检测训练样本对Faster RCNN网络进行训练，得到训练好的目标检测网络。

步骤106：利用重识别训练样本对行人重识别网络进行训练，得到训练好的行人重识别网络。

行人重识别(Person re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

步骤108：获取待测监控视频数据，并进行预处理得到待测样本。

步骤110：将待测样本输入到训练好的行人多目标跟踪网络中进行行人目标跟踪，得到各行人运动轨迹。

输入视频流，运行过程中可以记录每一帧各行人目标的检测框中心位置与对应的行人ID，从而形成视频中每个感兴趣行人目标的轨迹。

上述一种基于视频监控的行人多目标跟踪方法中，所述方法以监控视频中的行人目标作为应用场景，采用Faster RCNN网络获得场景内目标检测结果，以无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块，对目标检测结果提取行人运动特征和行人表观特征，并进行目标之间的相似度比较，得到最终目标检测结果在各帧之间的正确关联。本发明采用改进的DEEPSORT网络根据行人真实场景中的运动状态，重新建立视频监控下的行人目标非线性运动模型，采用适用性更广的无迹卡尔曼滤波模块方法代替卡尔曼滤波模块进行运动特征的提取，以及行人目标实时状态的更新，提高监控场景下行人目标跟踪的准确性。

在其中一个实施例中，步骤102中：对行人目标重新进行非线性运动建模，并构建无迹卡尔曼滤波模块，用无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块，还包括：将初始的行人匀速运动改为CA运动模型，用一个9维空间表示轨迹某时刻的状态，运动模型表达式如下式所示：

（1）

其中：

、

表示检测框的中心点坐标，

表示检测框的宽高比，

表示检测框的高度，

、

表示检测框的中心点坐标变化率，

为表示检测框的宽高比变化率，

表示检测框的高度变化率，

为目标前后帧运动形成的角度差。

在其中一个实施例中，Faster RCNN网络包括用于特征提取的骨干网络、用于目标候选框提取的RPN网络以及用于进一步分类和检测框回归的头网络；骨干网络是卷积神经网络VGG。步骤104还包括：将检测训练样本输入到骨干网络中，得到特征图；将特征图输入到RPN网络中，得到目标候选检测框；将特征图和目标候选检测框输入到头网络中，得到目标分类结果和检测回归框；根据目标分类结果、检测回归框以及对应检测训练样本的真实标注信息，采用预设的损失函数和Adam优化器，采用反向传播算法对Faster RCNN网络的参数进行更新，得到训练好的目标检测网络。

在其中一个实施例中，步骤106还包括：将重识别训练样本输入到行人重识别网络中，得到行人表观特征；行人重识别网络是小型残差卷积神经网络；根据行人表观特征和与重识别训练样本，采用交叉熵损失函数和Adam优化器，采用反向传播算法对小型残差卷积神经网络的参数进行更新，得到训练好的行人重识别网络。

在其中一个实施例中，改进的DEEPSORT网络还包括：相似度计算模块和数据关联优化模块；步骤110还包括：将待测样本输入到训练好的Faster RCNN网络中，得到待测特征图；将待测特征图输入到训练好的行人重识别网络中，得到待测行人表观特征；将待测特征图输入到无迹卡尔曼滤波模块中，得到待测行人运动特征；根据待测行人表观特征和待测行人运动特征，在相似度计算模块中采用巴氏距离计算检测框向量化后的近似度，并根据计算得到的两个相似性度量构建关联代价矩阵；根据关联代价矩阵，在关联优化模块中采用匈牙利算法，得到每一帧各行人目标的检测框中心位置与对应的行人ID；以最终的检测框的中心位置代替行人，绘制同一行人ID信息在时间系列上的轨迹。

在一个具体的实施例中，如图2所示，提供了一种基于视频监控的行人多目标跟踪方法，具体的实现流程包括：

步骤一：收集行人训练数据集和行人重识别数据集；

Faster RCNN网络的训练数据集的收集与预处理：收集COCO检测数据集和MOT16行人跟踪数据集中的行人标注图片与标注信息。由于两个数据集存在标注格式不一致的情况，将MOT16中的标注格式进行转换为COCO的.json文件格式。

行人重识别训练数据集收集：收集MARS与Market1501数据集。

步骤二：使用TENSORFLOW深度学习框架搭建Faster RCNN网络模型并进行训练。

2.1、Faster RCNN网络由以下部分组成：特征提取骨干网络VGG16、目标候选框提取网络RPN以及用于进一步分类和检测框回归的头网络。使用TENSORFLOW深度学习框架依次搭建VGG16特征提取网络，在此基础上，将输出的特征图输入RPN网络得到候选检测框，最后将特征图用于进一步分类目标、回归检测框，获得Faster RCNN网络的输出结果。

2.2、在2.1搭建好了Faster RCNN网络模型的基础上，根据网络的输入与输出，以及对应数据集的真实标注信息，设定损失函数进行训练，再使用反向传播算法更新网络参数；训练Faster RCNN过程中：选择Adam优化器，初始学习率设为0.001，训练轮次为70，批量大小为16。

步骤三：搭建改进的DEEPSORT多目标跟踪模型，使用行人重识别网络提取行人表观特征，并以Faster RCNN的输出检测结果作为输入，完成Faster RCNN+改进的DEEPSORT的行人跟踪模型的搭建；其中行人重识别网络类型是小型残差网络。

3.1、对行人目标重新进行非线性运动建模，设计无迹卡尔曼滤波（UnscentedKalman Filter，简称：UKF）模块。

（1）重新设计行人的运动模型，将初始的行人匀速运动改为CA运动模型，用一个9维空间表示轨迹某时刻的状态，分别是检测框的中心点坐标、宽高比、高、角度以及前面四项的速度信息，建立运动模型如式（1）所示，然后使用一个非线性的UKF模块进行目标运动状态的预测和更新。

根据数据集的场景对参数进行始化，其中检测框的中心点坐标、宽高比、高以及这四个参数的速度信息根据检测结果进行初始化，检测框的上述8个参数的标准差根据DEEPSORT算法中的设置进行初始化；角度设置为

，角度标准差设置为

。

（2）利用UT变换与比例修正对称采样策略选取Sigma点，利用得到的Sigma点进行类似的KF的预测与更新两阶段。

3.2、搭建改进的DEEPSORT网络，改进的DEEPSORT网络包括UKF模块、小型残差网络。

（1）UKF模块包含行人运动目标的预测与更新两个阶段。预测阶段：根据上一帧目标的速度与位置信息，预测其在下一帧中的状态；更新阶段：根据预测结果与当前帧的检测结果结合估计当前目标的真实状态。

（2）行人重识别网络利用获取的重识别训练数据，采用交叉熵作为训练损失函数，训练轮次为70，优化器为Adam，初始学习率为0.001，训练完成后，测试输出128维的低维向量用于后续相似度计算。行人重识别网络结构如表1所示。

表1：行人重识别网络结构:

（3）匈牙利算法作为数据关联算法，利用巴氏距离计算检测框向量化后的相似度，结合这两个相似性度构建关联代价矩阵，输入匈牙利算法即可获得每一帧各行人目标的检测框中心位置与对应的行人ID。

步骤四：使用Faster RCNN+DEEPSORT+UKF模型进行行人目标跟踪获取各行人运动轨迹。

4.1以最终的检测框的中心位置代替行人，绘制同一行人ID在时间系列上的轨迹。

本发明实现监控视频下行人多目标跟踪，同时克服传统方法跟踪准确度的不足以及基于深度学习的多目标跟踪方法对于行人目标建模的粗糙性。

表2显示了本发明在MOT16数据集中预设行人运动角度为0°和5°时的多目标跟踪指标结果，可知在常用的多目标跟踪指标上，本发明取得了在准确度和跟踪稳定度上较为均衡的结果。

表2

其中：MOTA表示多目标跟踪准确度，是一个结合虚警、漏警、目标ID切换指标的综合评定指标，是评价多目标跟踪算法中最重要的一个指标；MOTP表示多目标跟踪精度，表示检测框与真实目标框的重合度；MT表示真实轨迹中满足高于80%时间都能成功匹配的轨迹占比；ML表示真实轨迹中满足小于20%时间都能成功匹配的轨迹占比；IDS表示一个跟踪的目标ID发生跳变的次数；FM表示真实轨迹被打断的次数；FP即虚警，表示跟踪到的目标不是感兴趣目标的数量；FN即漏警，表示未跟踪到感兴趣目标的数量。由此可见，MOTA、MOTP、MT数值越高表明跟踪效果越好，ML、IDS、FM、FP、FN数值越低表明跟踪效果越差。

本发明采用Faster RCNN+DEEPSORT+UKF检测跟踪模型，通过结合深度学习在图像处理领域的突出优势与UKF在非线性运动目标的跟踪优势，提高监控视频下多行人的跟踪准确度。

应该理解的是，虽然图1~2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1~2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于视频监控的行人多目标跟踪方法，其特征在于，所述方法包括：

获取监控视频数据，并进行预处理得到检测训练样本和重识别训练样本；

构建行人多目标跟踪网络；所述行人多目标跟踪网络包括：Faster RCNN网络和改进的DEEPSORT网络；所述Faster RCNN网络用于行人目标检测得到行人目标；所述改进的DEEPSORT网络用于提取所述行人目标中的行人表观特征和行人运动特征，并采用巴氏距离进行相似度计算和匹配，得到行人目标ID分配结果；所述改进的DEEPSORT网络是对DEEPSORT网络中用于行人运动预测与更新的模块进行了改进后的网络，改进点包括：对行人目标重新进行非线性运动建模，并构建无迹卡尔曼滤波模块，用所述无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块；所述改进的DEEPSORT网络还包括用于提取行人表观特征的行人重识别网络；

利用所述检测训练样本对所述Faster RCNN网络进行训练，得到训练好的目标检测网络；

利用所述重识别训练样本对所述行人重识别网络进行训练，得到训练好的行人重识别网络；

获取待测监控视频数据，并进行预处理得到待测样本；

2.根据权利要求1所述的方法，其特征在于，构建行人多目标跟踪网络，步骤中：对行人目标重新进行非线性运动建模，并构建无迹卡尔曼滤波模块，用所述无迹卡尔曼滤波模块替换DEEPSORT网络中的卡尔曼滤波模块，包括：