CN113283279A

CN113283279A - 一种基于深度学习的视频中多目标跟踪方法及装置

Info

Publication number: CN113283279A
Application number: CN202110098995.XA
Authority: CN
Inventors: 詹瑾; 赵慧民; 谢桂园
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-08-20
Anticipated expiration: 2041-01-25
Also published as: CN113283279B

Abstract

本发明公开了一种基于深度学习的视频中多目标跟踪方法及装置，其中，所述方法包括：基于预置摄像头设备采集当前环境中的跟踪目标视频信息；对采集到的跟踪目标视频信息进行分帧处理，并按照预置摄像头设备曝光时间在分帧处理形成的视频序列帧上标注时间戳，获得标注视频序列帧；对标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景；对每一帧的目标前景和对应的目标背景进行特征提取处理，获得每一帧的目标前景和对应的目标背景特征信息；将每一帧的目标前景和对应的目标背景特征信息输入目标轨迹跟踪网络中，并输出跟踪目标的跟踪预测运动轨迹。在本发明实施例中，可以准确的进行目标的轨迹跟踪预测。

Description

一种基于深度学习的视频中多目标跟踪方法及装置

技术领域

本发明涉及视觉跟踪技术领域，尤其涉及一种基于深度学习的视频中多目标跟踪方法及装置。

背景技术

目标跟踪技术一直是计算机视觉研究领域中的热点之一，目标的不定向运动改变了目标和场景的外观模式、非刚性目标结构、目标间及目标与场景间的遮挡、摄像机的运动等情况使目标跟踪任务变得更加困难。跟踪可简单地定义为估计物体围绕一个场景运动时在图像平面中轨迹，即一个跟踪系统给同一个视频中不同帧的跟踪目标分配相一致的标签。目标跟踪是一个颇具挑战性的问题。在计算机视觉领域目标跟踪是一项重要工作。随着高性能计算机的增多，物美价廉摄影机的普及，对自动视频分析与日俱增的需求引起人们对目标跟踪算法浓厚兴趣。

现有视频中的多目标跟踪算法普遍需要较大量的计算，并且跟踪过程中容易发生目标偏移，很难实现真正意义上的实时跟踪，并且跟踪效果较差。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于深度学习的视频中多目标跟踪方法及装置，使得在目标跟踪的过程中，计算量减少，并且实现实时的准确跟踪，并具有较高的跟踪效果。

为了解决上述技术问题，本发明实施例提供了一种基于深度学习的视频中多目标跟踪方法，所述方法包括：

基于预置摄像头设备采集当前环境中的跟踪目标视频信息，所述跟踪目标为一个或多个；

对采集到的跟踪目标视频信息进行分帧处理，并按照预置摄像头设备曝光时间在分帧处理形成的视频序列帧上标注时间戳，获得标注视频序列帧；

对所述标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景；

对每一帧的目标前景和对应的目标背景进行特征提取处理，获得每一帧的目标前景和对应的目标背景特征信息；

将所述每一帧的目标前景和对应的目标背景特征信息输入目标轨迹跟踪网络中，并输出所述跟踪目标的跟踪预测运动轨迹。

可选的，所述基于预置摄像头设备采集当前环境中的跟踪目标视频信息之前，还包括：

基于所述预置摄像头设备采集当前环境中的背景视频图像信息，并在采集到的背景视频图像信息中的背景位置的标定。

可选的，所述对采集到的跟踪目标视频信息进行分帧处理，包括：

对采集到的跟踪目标视频信息按照所述预置摄像头设备的曝光率进行分帧处理，获得分帧后的视频序列帧；

对所述分帧后的视频序列帧按照曝光率间隔除去进行序列帧冗余处理，获得视频序列帧。

可选的，所述对所述标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景，包括：

确定所述标注视频序列帧对应的背景视频图像信息，获得每一帧的标注视频序列帧对应帧的目标背景；

将所述标注视频序列帧中的每一帧依次与对应的目标背景进行差值运算处理，获得每一帧的目标前景。

可选的，所述对每一帧的目标前景和对应的目标背景进行特征提取处理，包括：

选定预设阈值，基于预设阈值对每一帧的目标前景和对应的目标背景进行二值化处理，并基于二值化处理结果进行特征提取处理。

可选的，所述基于预设阈值对每一帧的目标前景和对应的目标背景进行二值化处理，包括：

对所述每一帧的目标前景和对应的目标背景进行灰度化处理，获得灰度化后的每一帧的目标前景和对应的目标背景；

当所述灰度化后的每一帧的目标前景和对应的目标背景的像素值大于或等于所述预设阈值时，令该像素值为1，当所述灰度化后的每一帧的目标前景和对应的目标背景的像素值小于所述预设阈值时，令该像素值为0。

可选的，所述目标轨迹跟踪网络为训练收敛的YOLOv3网络模型；

在所述YOLOv3网络模型训练前，确定所述YOLOv3网络模型的损失函数，所述损失函数由目标定位偏移量损失、目标置信度损失、目标分类损失组成；

对所述YOLOv3网络模型的节点参数进行裁剪压缩处理，获得压缩后的YOLOv3网络模型，所述裁剪压缩处理为基于权重和稀疏正则进行裁剪压缩处理；

对压缩后的YOLOv3网络模型中的每一层参数进行正则化，获得正则化项；

基于所述正则化项对对所述损失函数进行损失函数的更新，获得更新后的待训练YOLOv3网络模型。

可选的，所述待训练YOLOv3网络模型的训练过程包括：

通过所述预置摄像头设备采集当前环境中的训练视频信息，并训练数据集，所述训练数据集由若干帧的训练目标前景和对应帧的目标背景的特征信息组成，并且人工标注所述若干帧的训练目标前景和对应帧的目标背景的训练目标运动轨迹；

将所述训练集划分为训练数据和测试数据，其中训练数据和测试数据的比值为9比1；

将所述训练数据输入所述待训练YOLOv3网络模型进行训练，并在训练完成之后，将所述测试数据输入进行测试，输出测试数据集中的训练目标运动轨迹；

将测试数据集中的训练目标运动轨迹与对应的人工标注所述若干帧的训练目标前景和对应帧的目标背景的训练目标运动轨迹进行匹配，获得匹配结果；

若所述匹配结果大于或等于预设结果时，所述待训练YOLOv3网络模型训练收敛；

否则，基于反向传播算法对所述待训练YOLOv3网络模型的网络层参数进行更新，并基于所述训练数据继续训练直至收敛或达到训练阈值为止。

可选的，所述方法还包括：

基于所述跟踪目标的跟踪预测运动轨迹实时进行显示和偏离运动轨迹的预警，同时实时记录所述跟踪目标的跟踪预测运动轨迹。

另外，本发明实施例还提供了一种基于深度学习的视频中多目标跟踪装置，所述装置包括：

采集模块：用于基于预置摄像头设备采集当前环境中的跟踪目标视频信息，所述跟踪目标为一个或多个；

分帧处理模块：用于对采集到的跟踪目标视频信息进行分帧处理，并按照预置摄像头设备曝光时间在分帧处理形成的视频序列帧上标注时间戳，获得标注视频序列帧；

分离模块：用于对所述标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景；

特征提取模块：用于对每一帧的目标前景和对应的目标背景进行特征提取处理，获得每一帧的目标前景和对应的目标背景特征信息；

轨迹预测模块：用于将所述每一帧的目标前景和对应的目标背景特征信息输入目标轨迹跟踪网络中，并输出所述跟踪目标的跟踪预测运动轨迹。

在本发明实施例中，可以使得在目标跟踪的过程中，计算量减少，并且在跟踪过程中使得目标发生跟踪偏移在可接受的范围内，从而实现实时的准确跟踪，并具有较高的跟踪效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于深度学习的视频中多目标跟踪方法的流程示意图；

图2是本发明实施例中的基于深度学习的视频中多目标跟踪装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1是本发明实施例中的基于深度学习的视频中多目标跟踪方法的流程示意图。

如图1所示，一种基于深度学习的视频中多目标跟踪方法，所述方法包括：

S11：基于预置摄像头设备采集当前环境中的跟踪目标视频信息，所述跟踪目标为一个或多个；

在本发明具体实施过程中，所述基于预置摄像头设备采集当前环境中的跟踪目标视频信息之前，还包括：基于所述预置摄像头设备采集当前环境中的背景视频图像信息，并在采集到的背景视频图像信息中的背景位置的标定。

具体的，在通过预置摄像头设备采集当前环境中的跟踪目标视频信息之前，需要通过该预置摄像头设备采集当前环境中的背景视频图像信息，并且在采集到的背景图像信息中进行背景位置的标定，方便后续在对目标跟踪的时候，确定目标的位置和判断轨迹跟踪中的预测轨迹是否正确。并且预置摄像头设备为可调节采集角度的设备，并且在不同的位置上设置有多个预置摄像头设备，跟踪目标可以为一个也可以为多个；并且可以在复杂的环境中现实多目标同时进行运动轨迹跟踪。

S12：对采集到的跟踪目标视频信息进行分帧处理，并按照预置摄像头设备曝光时间在分帧处理形成的视频序列帧上标注时间戳，获得标注视频序列帧；

在本发明具体实施过程中，所述对采集到的跟踪目标视频信息进行分帧处理，包括：对采集到的跟踪目标视频信息按照所述预置摄像头设备的曝光率进行分帧处理，获得分帧后的视频序列帧；对所述分帧后的视频序列帧按照曝光率间隔除去进行序列帧冗余处理，获得视频序列帧。

具体的，需要对采集到的跟踪目标视频信息进行分帧，方便后续的处理，分帧是按照阈值摄像头设备的曝光率来进行的，若曝光率为每秒25次，则将每秒采集到的跟踪目标视频信息拆分为25帧，从而获得分帧后的视频序列帧；一般情况下现有的设备曝光率较高，在分帧处理后，每一帧中目标的移动距离较少，甚至无法明显区别，因此，可以续分帧后的视频序列帧进行冗余去除，一般根据曝光率间隔去除的方式进行，从而得到视频序列帧；同时，为了防止后续序列帧中出现混乱，需要根据预置摄像头设备的曝光时间在分帧处理形成的矢量序列帧上标注上相对于的时间戳，从而得到标注视频序列帧。

S13：对所述标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景；

在本发明具体实施过程中，所述对所述标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景，包括：确定所述标注视频序列帧对应的背景视频图像信息，获得每一帧的标注视频序列帧对应帧的目标背景；将所述标注视频序列帧中的每一帧依次与对应的目标背景进行差值运算处理，获得每一帧的目标前景。

具体的，需要确定标注视频序列帧中每一帧的目标前景和目标背景，因此，因此确定该标准视频序列帧对应的背景视频图像信息，该背景视频图像信息为预先采集并保持的，从而确定每一帧的标准视频序列帧对应帧的目标背景；然后通过差值运算即可提取到每一帧的目标前景，即将标注视频序列帧中的每一帧依次与对应的目标背景进行差值运算处理，获得每一帧的目标前景。

S14：对每一帧的目标前景和对应的目标背景进行特征提取处理，获得每一帧的目标前景和对应的目标背景特征信息；

在本发明具体实施过程中，所述对每一帧的目标前景和对应的目标背景进行特征提取处理，包括：选定预设阈值，基于预设阈值对每一帧的目标前景和对应的目标背景进行二值化处理，并基于二值化处理结果进行特征提取处理。

进一步的，所述基于预设阈值对每一帧的目标前景和对应的目标背景进行二值化处理，包括：对所述每一帧的目标前景和对应的目标背景进行灰度化处理，获得灰度化后的每一帧的目标前景和对应的目标背景；当所述灰度化后的每一帧的目标前景和对应的目标背景的像素值大于或等于所述预设阈值时，令该像素值为1，当所述灰度化后的每一帧的目标前景和对应的目标背景的像素值小于所述预设阈值时，令该像素值为0。

具体的，对对每一帧的目标前景和对应的目标背景进行特征提取处理一般是通过二值化实现，即先进行二值化处理，后进行特征提取；在二值化处理的时候，需要进行阈值选择，即选择预设阈值，一般采用加权阈值，即对目标区域和非目标区域进行区分，由全局阈值和局部阈值进行加权得到，具体的加权计算公式如下：

加权因子λ(i,j)由标准差决定，如下公式：

其中，T(i,j)为加权阈值，λ(i,j)为加权因子，(i,j)表示目标图像信息的每一个像素点的坐标，i，j＝1,2,3,...,n，T_sauvola为局部阈值，T_otsu全局阈值；s(k,p)为滤波后的目标图像信息的标准差，max(s(k,p))为滤波后的目标图像信息的最大标准差，k，P分别表示目标图像信息的坐标。

在选定预设阈值之后，根据该预设阈值对每一帧的目标前景和对应的目标背景进行二值化处理，然后根据二值化处理结果进行特征提取处理。

在二值化过程中，首先需要对每一帧的目标前景和对应的目标背景进行灰度化处理，获得灰度化后的每一帧的目标前景和对应的目标背景；当灰度化后的每一帧的目标前景和对应的目标背景的像素值大于或等于所述预设阈值时，令该像素值为1，当灰度化后的每一帧的目标前景和对应的目标背景的像素值小于所述预设阈值时，令该像素值为0；即可完成二值化处理；可根据二值化处理的结构提取相应的特征信息。

S15：将所述每一帧的目标前景和对应的目标背景特征信息输入目标轨迹跟踪网络中，并输出所述跟踪目标的跟踪预测运动轨迹。

在本发明具体实施过程中，所述目标轨迹跟踪网络为训练收敛的YOLOv3网络模型；在所述YOLOv3网络模型训练前，确定所述YOLOv3网络模型的损失函数，所述损失函数由目标定位偏移量损失、目标置信度损失、目标分类损失组成；对所述YOLOv3网络模型的节点参数进行裁剪压缩处理，获得压缩后的YOLOv3网络模型，所述裁剪压缩处理为基于权重和稀疏正则进行裁剪压缩处理；对压缩后的YOLOv3网络模型中的每一层参数进行正则化，获得正则化项；基于所述正则化项对对所述损失函数进行损失函数的更新，获得更新后的待训练YOLOv3网络模型。

进一步的，所述待训练YOLOv3网络模型的训练过程包括：通过所述预置摄像头设备采集当前环境中的训练视频信息，并训练数据集，所述训练数据集由若干帧的训练目标前景和对应帧的目标背景的特征信息组成，并且人工标注所述若干帧的训练目标前景和对应帧的目标背景的训练目标运动轨迹；将所述训练集划分为训练数据和测试数据，其中训练数据和测试数据的比值为9比1；将所述训练数据输入所述待训练YOLOv3网络模型进行训练，并在训练完成之后，将所述测试数据输入进行测试，输出测试数据集中的训练目标运动轨迹；将测试数据集中的训练目标运动轨迹与对应的人工标注所述若干帧的训练目标前景和对应帧的目标背景的训练目标运动轨迹进行匹配，获得匹配结果；若所述匹配结果大于或等于预设结果时，所述待训练YOLOv3网络模型训练收敛；否则，基于反向传播算法对所述待训练YOLOv3网络模型的网络层参数进行更新，并基于所述训练数据继续训练直至收敛或达到训练阈值为止。

具体的，该目标轨迹跟踪网络为训练收敛的YOLOv3网络模型；即将每一帧的目标前景和对应的目标背景特征信息输入训练收敛的YOLOv3网络模型中，在模型内部进行相应的计算，输出跟踪目标的跟踪预测运动轨迹。

在该YOLOv3网络模型训练前，需要确定YOLOv3网络模型的损失函数，并且该损失函数由目标定位偏移量损失、目标置信度损失、目标分类损失组成；具体如下：

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)；

其中，λ₁、λ₂、λ₃为平衡系数。

目标置信度损失L_conf(o,c)采用的是二值交叉熵损失，具体如下：

其中，o_i∈{0,1}，表示预测目标边界框i中是否真实存在目标，0表示不存在，1表示存在；

表示预测目标矩形框i内是否存在目标的Sigmoid概率。

目标分类损失同样采用的是二值交叉熵损失，具体如下：

其中，O_ij∈{0,1},表示预测目标边界框i中是否真实存在第j类目标，0表示不存在，1表示存在；

表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。

目标定位偏移量损失L_loc(l,g)采用真实偏差值与预测偏差值差的平方和，具体如下：

其中，

表示与之匹配的GTbox与默认框之间的坐标偏移量；

表示预测矩形框坐标偏移量。

在对YOLOv3网络模型的节点参数进行裁剪压缩处理时，采用的是基于权重和稀疏正则进行裁剪压缩处理；通过权重加上稀疏正则来进行裁剪，首先使用组稀疏方法对分组特征添加稀疏正则来修剪权重矩阵的列，在通过排他性稀疏来增强组间竞争，两种结合取得了很好的裁剪效果。在压缩裁剪之后，需要对初始损失函数进行相应的更新，因此，首先需要对压缩后的YOLOv3网络模型中的每一层参数进行正则化，获得正则化项，然后通过正则项来对该损失函数进行更新，从而得到更新后的待训练YOLOv3网络模型。

YOLOv3网络模型的训练过程如下：

首先需要通过预置摄像头设备采集当前环境中的训练视频信息，并训练数据集，该训练数据集由若干帧的训练目标前景和对应帧的目标背景的特征信息组成，并且人工标注所述若干帧的训练目标前景和对应帧的目标背景的训练目标运动轨迹；然后将训练及获得为训练数据和测试数据，其中训练数据和测试数据的比值为9比1；将训练数据输入所述YOLOv3网络模型进行训练，并在训练完成之后，将测试数据输入进行测试，输出测试数据集中的训练目标运动轨迹；将测试数据集中的训练目标运动轨迹与对应的人工标注若干帧的训练目标前景和对应帧的目标背景的训练目标运动轨迹进行匹配，获得匹配结果；若所述匹配结果大于或等于预设结果时，所述YOLOv3网络模型训练收敛；否则，基于反向传播算法对所述YOLOv3网络模型的网络层参数进行更新，并基于所述训练数据继续训练直至收敛或达到训练阈值为止。

在本发明具体实施过程中，所述方法还包括：基于所述跟踪目标的跟踪预测运动轨迹实时进行显示和偏离运动轨迹的预警，同时实时记录所述跟踪目标的跟踪预测运动轨迹。

具体的，通过该跟踪目标的跟踪预测运动轨迹实时推送至用户绑定的终端进行显示，并且在该目标偏离运动轨迹时向用户发出相应的预警，同时实时记录该跟踪目标的跟踪预测运动轨迹。

实施例

请参阅图2，图2是本发明实施例中的基于深度学习的视频中多目标跟踪装置的结构组成示意图。

如图2所示，一种基于深度学习的视频中多目标跟踪装置，所述装置包括：

采集模块21：用于基于预置摄像头设备采集当前环境中的跟踪目标视频信息，所述跟踪目标为一个或多个；

分帧处理模块22：用于对采集到的跟踪目标视频信息进行分帧处理，并按照预置摄像头设备曝光时间在分帧处理形成的视频序列帧上标注时间戳，获得标注视频序列帧；

分离模块23：用于对所述标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景；

特征提取模块24：用于对每一帧的目标前景和对应的目标背景进行特征提取处理，获得每一帧的目标前景和对应的目标背景特征信息；

加权因子λ(i,j)由标准差决定，如下公式：

轨迹预测模块25：用于将所述每一帧的目标前景和对应的目标背景特征信息输入目标轨迹跟踪网络中，并输出所述跟踪目标的跟踪预测运动轨迹。

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)；

其中，λ₁、λ₂、λ₃为平衡系数。

表示预测目标矩形框i内是否存在目标的Sigmoid概率。

目标分类损失同样采用的是二值交叉熵损失，具体如下：

表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。

其中，

表示与之匹配的GTbox与默认框之间的坐标偏移量；

表示预测矩形框坐标偏移量。

YOLOv3网络模型的训练过程如下：

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于深度学习的视频中多目标跟踪方法及装置进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的视频中多目标跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频中多目标跟踪方法，其特征在于，所述基于预置摄像头设备采集当前环境中的跟踪目标视频信息之前，还包括：

3.根据权利要求1所述的视频中多目标跟踪方法，其特征在于，所述对采集到的跟踪目标视频信息进行分帧处理，包括：

4.根据权利要求1所述的视频中多目标跟踪方法，其特征在于，所述对所述标注视频序列帧进行目标前景和目标背景分离处理，获得每一帧的目标前景和对应帧的目标背景，包括：

5.根据权利要求1所述的视频中多目标跟踪方法，其特征在于，所述对每一帧的目标前景和对应的目标背景进行特征提取处理，包括：

6.根据权利要求5所述的视频中多目标跟踪方法，其特征在于，所述基于预设阈值对每一帧的目标前景和对应的目标背景进行二值化处理，包括：

7.根据权利要求1所述的视频中多目标跟踪方法，其特征在于，所述目标轨迹跟踪网络为训练收敛的YOLOv3网络模型；

8.根据权利要求7所述的视频中多目标跟踪方法，其特征在于，所述待训练YOLOv3网络模型的训练过程包括：

9.根据权利要求1所述的视频中多目标跟踪方法，其特征在于，所述方法还包括：

10.一种基于深度学习的视频中多目标跟踪装置，其特征在于，所述装置包括：