CN110298867A

CN110298867A - 一种视频目标跟踪方法

Info

Publication number: CN110298867A
Application number: CN201910541036.3A
Authority: CN
Inventors: 吴斌; 贠周会; 谢吉朋; 王欣欣; 应艳丽; 叶超; 王旭; 黄江林; 贾楠; 陈栢栋
Original assignee: Jiangxi Hongdu Aviation Industry Group Co Ltd
Current assignee: Jiangxi Hongdu Aviation Industry Group Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-10-01
Anticipated expiration: 2039-06-21
Also published as: CN110298867B

Abstract

本发明公开了一种视频目标跟踪方法，包括以下步骤：S1、对视频流进行解码获取图像数据；S2、将解码后的图像数据选取当前帧输入到SSD模型中，进行多目标识别，提取图像中的各类目标类别信息、目标位置框信息和目标图像框面积信息；S3、初始化卡尔曼滤波器，根据前一帧图像中的目标位置框信息预测下一帧目标位置框信息；S4、利用改进的匈牙利算法对步骤S2提取到的目标位置框信息与步骤S3预测的目标位置框信息进行最优匹配；S5、获取下一帧图像数据，重复步骤S2、S3，实现多连续帧视频中的多目标跟踪。该方法克服了多目标运动交叠、部分遮挡、形变等情况，实现对视频多目标的有效跟踪，速度快、效率高，可广泛应用于实战中。

Description

一种视频目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，具体是一种视频目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域中非常具有挑战性的问题之一。视觉目标跟踪的任务是在视频序列中给定目标在初始帧的状态(即位置、尺寸等信息)的情况下，估计目标在后续帧的状态，而视频多目标跟踪是指需要对同一场景下的多类目标进行跟踪。视频多目标跟踪包括目标检测和目标跟踪两个步骤：其中，常见的目标检测方法有光流法、帧间差分法、背景减差法和基于深度学习的目标检测方法等；比较成熟目标跟踪方法有卡尔曼滤波器算法、Meanshift算法和Camshift算法。虽然近年来视觉目标跟踪技术发展迅速，但是由于在跟踪过程中多种目标、多目标间交替遮挡、外观形变、快速运动、光照变化、尺度变化和背景复杂等因素的影响，视觉目标跟踪技术的应用仍然困难重重。。

发明内容

为解决上述问题，本发明提供一种视频目标跟踪方法。

本发明采用的技术方案是：一种视频目标跟踪方法，包括以下步骤：

S1、对视频流进行解码获取图像数据；

S2、将步骤S1解码后的图像数据选取一帧输入到SSD模型中，进行多目标识别，提取图像中的各类目标类别信息、目标位置框信息和目标图像框面积信息；

S3、初始化卡尔曼滤波器，根据前一帧图像中的目标位置框信息预测下一帧目标位置框信息；

S4、利用改进的匈牙利算法对步骤S2提取到的目标信息与步骤S3预测的目标信息进行最优匹配；由于卡尔曼滤波预测是基于上一帧的目标位置预测下一帧的目标位置，所以预测目标的信息数据(除了目标框位置信息以外的其他信息数据，比如目标类别、目标面积框信息等)即为上一帧的目标的信息数据；

S5、获取S1解码的下一帧图像数据，重复步骤S2、S3，实现多连续帧视频中的多目标跟踪。

进一步地，所述步骤S1中，利用ffmpeg、cuda对实时视频流或者本地视频文件进行硬解码、图像转换，得到能进行计算的图像数据。

进一步地，所述步骤S1中，利用OpenCV的函数进行实时视频流或者本地视频文件读取，得到能进行计算的图像数据。

进一步地，所述步骤S2中，需要先在ubuntu下配置caffe环境，对caffe中的SSD算法的C++进行重新编译，然后将步骤S1解码后的图像数据输入到SSD模型中，进行多目标识别。

进一步地，所述步骤S2中，包括获取目标RGB颜色直方图，利用视频结构化获取目标的更多信息。

进一步地，所述步骤S2中，目标的更多信息包括针对行人获取性别、年龄、衣着特征，针对车辆获取车牌号、车辆类别、颜色、品牌信息。

进一步地，所述步骤S2中，目标类别包括人，自行车，小车，大巴车，摩托车，动物。

进一步地，所述步骤S4中，将步骤S2提取到的目标位置框信息、目标类别信息、目标图像框面积信息以及步骤S3预测的目标位置框信息，进行归一化处理，计算欧式距离

其中

x₁表示提取到的目标位置框中心点位置，x₂表示预测的目标位置框中心点位置；

y₁表示提取到的目标类别，y₂表示预测的目标类别；

z₁表示提取到的目标图像框面积，z₁表示预测的目标图像框面积，a、b、c分别为目标位置框中心点位置、目标类别、目标图像框面积的权重系数。

本发明的有益效果是：本发明提供的基于多特征融合的视频多目标跟踪方法，将多目标识别、多目标跟踪、目标特征提取、视频目标结构化、目标最优匹配进行有效集成，该方法通过基于并行的多目标检测有效提高检测效率，并将目标特征信息进行提取，结合多目标结构化、多目标跟踪和基于特征的最优匹配方法，克服多目标运动交叠、部分遮挡、形变等情况，实现对视频多目标的有效跟踪，具有速度快、效率高的优点，可广泛应用于实战中，能够创造一定的经济效益和使用价值。

附图说明

图1为本发明视频多目标跟踪方法的具体流程图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例和附图对本发明作进一步详述，该实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

实施例

一种视频目标跟踪方法，包括以下步骤：

S1、对视频流进行解码获取图像数据

利用ffmpeg、cuda对实时视频流或者本地视频文件进行硬解码、图像转换，得到能进行计算的图像数据，也可以利用OpenCV的函数进行实时视频流或者本地视频文件读取，得到能进行计算的图像数据。

S2、先在ubuntu下配置caffe环境，对caffe中的SSD算法的C++进行重新编译；然后将步骤S1解码后的图像数据选取当前帧输入到SSD模型中，进行多目标识别，提取图像中的各类目标类别信息(其中目标类别包括人，自行车，小车，大巴车，摩托车，猫，狗等，目标种类可通过重新训练算法进行更改)、目标位置框信息(目标在图像中的位置坐标x[横坐标,纵坐标]，例如[50,60])；根据各目标类别信息y，检测目标的图像框面积信息z，也可以通过算法获取目标RGB颜色直方图，利用视频结构化获取目标的更多信息(比如针对行人获取性别、年龄、衣着特征等，针对车辆获取车牌号、车辆类别、颜色、品牌等)。

S3、初始化卡尔曼滤波器，将步骤2中的多个目标位置框信息输入到基于卡尔曼滤波的目标跟踪算法中，使得系统能够在当前场景下对目标位置进行预测；即根据前一帧图像中的目标位置框信息预测下一帧目标位置框信息；

S4、利用改进的匈牙利算法对步骤S2提取到的目标信息与步骤S3预测的目标信息进行最优匹配(距离最近)；

针对图像数据：未改进前的匈牙利算法是根据目标检测的各目标图像框的中心点坐标x₁与预测的各目标图像框的中心点x₂，利用欧式距离或者余弦相似度，求取最佳匹配。

改进后的匈牙利算法为：将步骤S2提取到的目标图像框的特征数据与预测的目标图像框的特征数据中，由于卡尔曼滤波预测是基于上一帧的目标位置预测下一帧的目标位置，所以预测目标的信息数据(除了目标框位置信息以外的其他信息数据，比如目标类别、目标面积框信息等)即为上一帧的目标的信息数据，选取目标类别、目标框图像面积等(包括但不限于可选取步骤S2中的更多的目标类别属性)，按照一定的比例系数(例如选定中心点坐标x、目标类别y、目标框图像面积z三个因素，对数据进行归一化处理，按照权重系数a:b:c(例如0.3:0.4:0.3)，利用欧式距离

其中

y₁表示提取到的目标类别，y₂表示预测的目标类别；

S5、对步骤S4得到的各目标的欧式距离，利用匈牙利算法进行最优匹配，完成检测目标与预测目标之间的匹配，获取S1解码的下一帧图像数据，重复步骤S2、S3，实现多连续帧视频中的多目标跟踪，克服多目标运动交叠、部分遮挡、形变等情况。

系统环境需求：本例使用工作站，显卡GTX1080；系统：ubuntu；软件：cuda、ffmpeg、caffe、OpenCV。

本发明提出的视频多目标跟踪方法，基于多目标检测和多特征匹配：利用目标检测方法将视频画面中的目标检测出来、标定坐标、提取目标特征信息，然后利用目标跟踪算法和改进的匈牙利算法对目标进行跟踪与匹配。当出现多目标交叠、部分遮挡、形变等情况时，利用该方法，可实现对多目标的正确跟踪。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种视频目标跟踪方法，其特征在于，包括以下步骤：

S1、对视频流进行解码获取图像数据；

S4、利用改进的匈牙利算法对步骤S2提取到的目标信息与步骤S3预测的目标信息进行最优匹配；

S5、获取S1解码的下一帧图像数据，重复步骤S2和S3，实现多连续帧视频中的多目标跟踪。

2.根据权利要求1所述的一种视频目标跟踪方法，其特征在于，所述步骤S1中，利用ffmpeg、cuda对实时视频流或者本地视频文件进行硬解码、图像转换，得到能进行计算的图像数据。

3.根据权利要求1所述的一种视频目标跟踪方法，其特征在于，所述步骤S1中，利用OpenCV的函数进行实时视频流或者本地视频文件读取，得到能进行计算的图像数据。

4.根据权利要求1所述的一种视频目标跟踪方法，其特征在于，所述步骤S2中，需要先在ubuntu下配置caffe环境，对caffe中的SSD算法的C++进行重新编译，然后将步骤S1解码后的图像数据输入到SSD模型中，进行多目标识别。

5.根据权利要求1所述的一种视频目标跟踪方法，其特征在于，所述步骤S2中，包括获取目标RGB颜色直方图，利用视频结构化获取目标的更多信息。

6.根据权利要求5所述的一种视频目标跟踪方法，其特征在于，所述步骤S2中，目标的更多信息包括针对行人获取性别、年龄以及衣着特征，针对车辆获取车牌号、车辆类别、颜色以及品牌信息。

7.根据权利要求1所述的一种视频目标跟踪方法，其特征在于，所述步骤S2中，目标类别包括人、自行车、小车、大巴车、摩托车和动物。

8.根据权利要求1所述的一种视频目标跟踪方法，其特征在于，所述步骤S4中，将步骤S2提取到的目标位置框信息、目标类别信息、目标图像框面积信息以及步骤S3预测的目标位置框信息，进行归一化处理，计算欧式距离

其中x₁表示提取到的目标位置框中心点位置，x₂表示预测的目标位置框中心点位置；

y₁表示提取到的目标类别，y₂表示预测的目标类别；