CN117011343A

CN117011343A - 一种面向拥挤场景的光流引导多目标跟踪方法

Info

Publication number: CN117011343A
Application number: CN202311002146.5A
Authority: CN
Inventors: 张弘; 万家旭; 杨一帆; 刘翰阳
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-11-07
Anticipated expiration: 2043-08-09
Also published as: CN117011343B

Abstract

本发明提出了一种面向拥挤场景的光流引导多目标跟踪方法，针对现有的多目标跟踪算法进行优化设计，提出了光流引导分支，利用光流信息引导多帧目标特征转移，一方面利用了时序信息，将上下文特征以光流形式引入多目标跟踪当中，本发明提升了模型的跟踪精度，另一方面光流分支设计简单，可保证整体模型实时运行。

Description

一种面向拥挤场景的光流引导多目标跟踪方法

技术领域

本发明涉及视频处理、目标跟踪技术领域，具体涉及一种面向拥挤场景的光流引导多目标跟踪方法。

背景技术

多目标跟踪作为计算机视觉领域中一个十分重要的任务，近年来引起业内人士的广泛关注。多目标跟踪的目的是在视频流中识别所有感兴趣的目标，并接下来的数帧中，跟踪器可以自动跟踪所有的目标，并实时发现新出现的目标，从而满足实际中的各种需求。多目标跟踪在军事打击、视频监控、视觉导航、人机交互以及增强现实等方面都有着大量应用。

目前，面向拥挤场景的多目标跟踪仍然存在许多困难。现有的多目标跟踪方法大多分为两类，一类是单帧多目标跟踪方法，如FairMOT。该类方法使用目标检测网络对视频中的每一帧进行目标的检测，并将检测结果与之前帧的结果进行匹配，从而获得当前检测结果的对应身份识别信息。然而，该类方法在面对拥挤场景时，由于大量依赖检测，导致在拥挤场景时精度不高，无法利用时序信息来提升跟踪精度。另一类是时序多目标跟踪方法，如SiamMOT等，该类方法利用视频帧间的运动和时序信息，将多帧或整个视频作为输入进行检测。但由于输入为多帧或视频，实时性难以保证，无法满足多目标跟踪实时的实际需求。

总而言之，现有技术在面对拥挤场景时，难以做到高精度，高速度的多目标跟踪。

发明内容

本发明针对现有技术对拥挤场景的精度低，速度慢等问题，提出了一种面向拥挤场景的光流引导多目标跟踪方法针，对现有的多目标跟踪算法进行优化设计，提出了光流引导分支，利用光流信息引导多帧目标特征转移，一方面利用了时序信息，将上下文特征以光流形式引入多目标跟踪当中，提升了模型的跟踪精度，另一方面光流分支设计简单，可保证整体模型实时运行。本发明快速有效的处理视频上下文信息，实现高精度，高速度的多目标跟踪。

为达到上述目的，本发明采用如下技术方案：

一种面向拥挤场景的光流引导多目标跟踪方法，包括以下步骤：

步骤(1)将标注好的拥挤场景多目标跟踪数据集划分为训练集和测试集，并对训练集和测试集进行预处理；其中训练集与测试集中的每份数据包含两张图片，即当前帧图片与之前帧图片；

步骤(2)利用深度卷积神经网络实现对当前帧图片与之前帧图片的特征提取，得到当前帧特征图与之前帧特征图；

步骤(3)将当前帧图片与之前帧图片一起送入光流网络，得到两帧光流图，随后将之前帧特征图与两帧光流图送入光流引导模块，生成引导特征图；

步骤(4)将引导特征图与当前帧特征图进行并联，之后使用单阶段检测头FCOS对深度卷积神经网络提取后特征进行目标类别与位置信息的预测，然后进行位置信息的解码，得到检测结果；

步骤(5)将当前帧检测结果与之前帧跟踪结果输入到运动学跟踪中，得到跟踪结果；

进一步地，所述步骤(2)中，深度卷积神经网络包含13个深度可分离模块。深度可分离模块由一个卷积核大小为K，卷积核层数为C_i的分组卷积，一个卷积核大小为1，卷积核输入层数为C_i，卷积层输出层数为C_o的卷积，两个批归一化层，两个激活层组成。

进一步地，所述步骤(3)中，深度卷积网络中每一个模块都由自注意力模块构成；自注意力模块包含注意力模块，批归一化模块，FFN模块，其参数为通道数C；光流网络包含8个自注意力模块；其中，第一个与第二个的通道数为32，第三个与第四个的通道数为64，第五个与第六个的通道数为128，第七个与第八个的通道数为256；光流引导模块由可变形卷积组成，可变形卷积的输入为偏置与特征图；将光流图作为偏置，之前帧特征图作为特征图进行输入；可变形卷积的通道数为256。

进一步地，所述步骤(4)中，单阶段检测头FCOS包含两个卷积分支：分支一包含两个卷积层，用于预测检测框的置信度，其输出张量的维度为目标类别数；分支二包含两个卷积层，用于预测包围框的相关参数。

进一步地，所述步骤(5)中，运动学跟踪采用IOU跟踪方法，将之前帧跟踪结果与当前帧检测结果计算交并比，得到IOU矩阵；在IOU矩阵中进行匈牙利二分图匹配，得到最优IOU匹配结果，即为当前帧跟踪结果。

与现有技术相比，本发明的有益效果在于：

(1)本发明提出了基于深度光流网络的光流引导模块，将光流信息引入到多目标跟踪当中，在同样利用时序信息的前提下，大量减少了计算量与计算成本，使得计算设备在算力不足条件下也能有效对目标进行跟踪，其实时性得以保证，同时提高了方法的跟踪精度。

(2)本发明在整体网络框架设计合理，采用双流分支并行处理多张图片输入，最大化硬件性能，提升算力资源利用率。同时最后跟踪方法采用运动学跟踪，减少跟踪部分的算力开销，提升整体跟踪效率。

(3)本发明在检测头设计中，通过采用包含两个卷积分支的FCOS检测头，对位置信息及类别信息进行预测时进行直接预测。相较于两阶段的检测网络，能够显著提升检测网络的运算速度，适宜于对实时处理有需求的场景。

附图说明

图1是本发明的一种面向拥挤场景的光流引导多目标跟踪方法的整体流程图；

图2是特征提取网络的详细结构图；其中，图2中的(1)为深度卷积神经网络结构图，其为图1中的特征提取网络的具体结构；图2中的(2)为深度可分离卷积结构图，为图2中的(1)的每一层的具体结构。

图3是光流网络的详细结构图；

图4是本发明实施时输入的原始图像案例；

图5是采用本发明方法获得的跟踪结果，行人为跟踪目标；

图6是采用本发明方法与其他常用方法的对比结果。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明的一种面向拥挤场景的光流引导多目标跟踪方法，包括以下步骤：

步骤(1)将标注好的多目标跟踪数据集划分为训练集和测试集，并对训练集和测试集进行预处理；其中训练集与测试集中的每份数据包含两张图片，即当前帧图片与之前帧图片。

步骤(2)利用深度卷积神经网络实现对当前帧图片与之前帧图片的特征提取，得到当前帧特征图与之前帧特征图。

所述步骤(2)中所述深度卷积神经网络结构如图2的(1)所示，深度卷积网络中每一个模块都由深度可分离模块构成。深度可分离模块由一个卷积核大小为K，卷积核层数为C_i的分组卷积，一个卷积核大小为1，卷积核输入层数为C_i，卷积层输出层数为C_o的卷积，两个批归一化层，两个RELU激活层组成。深度可分离模块的具体结构如图2的(2)所示，其中RELU指RELU激活函数，BN为批归一化层，CONV指一个卷积核大小为1，卷积核输入层数为C_i，卷积层输出层数为C_o的卷积，DWCONV指一个卷积核大小为K，卷积核层数为C_i的分组卷积。深度卷积神经网络包含13个深度可分离模块，具体参数如表1所示。

表1

卷积序号	K	C_i	C_o
				1	3	16	32
2	3	32	64
				3	3	64	64
4	3	64	128
				5	3	128	128
6	3	128	256
				7	5	256	256
8	5	256	256
				9	5	256	256
10	5	256	256
				11	5	256	256
12	5	256	512
				13	5	512	512

步骤(3)将当前帧图片与之前帧图片一起送入光流网络，得到两帧光流图，随后将之前帧特征图与两帧光流图送入光流引导模块，生成引导特征图。

所述步骤(3)中所述光流网络结构如图3所示。深度卷积网络中每一个模块都由自注意力模块构成。自注意力模块包含注意力模块，批归一化模块，FFN模块等，其参数为通道数C。光流网络包含8个自注意力模块，具体参数如表2所示。

表2

光流引导模块由可变形卷积组成，其输入为偏置与特征图。本发明将光流图作为偏置，之前帧特征图作为特征图进行输入。在实验中，可变形卷积的通道数为256。

所述步骤(5)中运动学跟踪采用IOU跟踪方法。将之前帧跟踪结果与当前帧检测结果计算交并比(IOU)，得到IOU矩阵。在IOU矩阵中进行匈牙利二分图匹配，得到最优IOU匹配结果，即为当前帧跟踪结果。

实施例

实验环境配置如下，以GPU(型号为gtx3090)作为计算平台，采用GPU并行计算框架，选取Pytorch作为卷积网络框架进行训练，并在gtx3090上进行模型速率验证，本发明具体步骤包括：

步骤(1)将标注好的多目标跟踪数据集划分为训练集和测试集，并对训练集和测试集进行预处理；其中训练集与测试集中的每份数据包含两张图片，当前帧图片与之前帧图片；

步骤(2)依照图1中的网络架构图，图2的深度卷积网络架构图，图3的光流网络结构图构建神经网络；

步骤(3)在训练过程中，将训练集中的图片输入到神经网络结构中，得到检测模块的损失loss；

步骤(4)通过自适应学习率调整算法、利用Pytorch框架中的自动求导机制对网络整体进行训练，得到训练好的模型参数并保存网络模型；

步骤(5)调用网络模型对实际的测试集中数据进行推理计算，得到对应的置信度预测结果、中心点偏移量、包围框参数，然后通过参数解码及NMS得到最终应当保留的跟踪，计算出模型精度；

(6)在RTX3090上部署模型并测试模型速度，在gtx3090上使用TensorRT作为部署框架。

结合上述步骤，本发明包括如下计算方式：

(1)检测模块的损失loss的计算方法为：

在检测过程中，使用一个5维的向量[t,r,b,l,p]来表征物体的包围框。其中t,r,b,l均为向量，表示四个边界的中点相较于检测框中心点的偏移向量；P为置信度预测结果，如图3所示。

基于此，检测模块的损失函数包含以下几个部分：

(1)分类损失L_h：

其中，和p分别代表类别的真值图和预测图，i表示图上的第i个像素，α和β为超参数，用于控制两种情况下的权重比，N是前景目标的数量，p_i为第i个像素的预测分类，/>为第i个像素的真实分类，L_h为分类损失。

(2)位置回归损失：

位置回归损失主要包括包围框中心点的偏移损失L₀、包围框形状参数的偏移损失L_b、包围框偏转角度的偏移损失L_α，它们的定义依次为：

其中，和o_k分别为第k个包围框的中心点的真值和预测值；/>和b_k分别为第k个包围框的形状参数的真值和预测值；α_i和/>分别为第k个包围框的偏转角度的真值和预测值，N是前景目标的数量，/>表示损失函数。

K为包围框的标号，假设包围框共有N个，K的标号从1开始到N结束。

(2)运动学跟踪计算方法

在该过程中，使用一个4维的向量[x,y,w,h]来表征物体的包围框。其中x,y,w,h均为向量，表示该包围框的左上角X轴坐标，左上角Y轴坐标，包围框的X轴长度与包围框的Y轴长度。

对于所有的检测框D_i，计算其对任一跟踪框T_j的交并比IOU(i,j):

其中，是检测框D_i左上角X轴坐标，左上角Y轴坐标，包围框的X轴长度与包围框的Y轴长度，/>是检测框D_i左上角X轴坐标，左上角Y轴坐标，包围框的X轴长度与包围框的Y轴长度。如果该交并比大于阈值，则认为该检测框与跟踪框重复，删去该检测框。如果小于阈值，则认为该检测框为新出现的物体，给与新的身份标号。该阈值一般根据场景设置，默认阈值为0.5。∩表示交集，∪表示并集。

与现有技术相比，本发明利用光流信息引导多帧目标特征转移，一方面利用了时序信息，将上下文特征以光流形式引入多目标跟踪当中，提升了模型的跟踪精度，另一方面光流分支设计简单，可保证整体模型实时运行。跟踪结果如图5所示，与其他方法的对比如图6所示。

需要强调的是：以上仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种面向拥挤场景的光流引导多目标跟踪方法，其特征在于，包括以下步骤：

步骤(5)将当前帧检测结果与之前帧跟踪结果输入到运动学跟踪中，得到跟踪结果。

2.根据权利要求1所述的一种面向拥挤场景的光流引导多目标跟踪方法，其特征在于：所述步骤(2)中，深度卷积神经网络包含13个深度可分离模块；深度可分离模块由一个卷积核大小为K，卷积核层数为C_i的分组卷积，一个卷积核大小为1，卷积核输入层数为C_i，卷积层输出层数为C_o的卷积，两个批归一化层，两个激活层组成。

3.根据权利要求1所述的一种面向拥挤场景的光流引导多目标跟踪方法，其特征在于：所述步骤(3)中，深度卷积网络中每一个模块都由自注意力模块构成；自注意力模块包含注意力模块，批归一化模块，FFN模块，其参数为通道数C；光流网络包含8个自注意力模块；其中，第一个与第二个的通道数为32，第三个与第四个的通道数为64，第五个与第六个的通道数为128，第七个与第八个的通道数为256；光流引导模块由可变形卷积组成，可变形卷积的输入为偏置与特征图；将光流图作为偏置，之前帧特征图作为特征图进行输入；可变形卷积的通道数为256。

4.根据权利要求1所述的面向拥挤场景的光流引导多目标跟踪方法，其特征在于：所述步骤(4)中，单阶段检测头FCOS包含两个卷积分支：分支一包含两个卷积层，用于预测检测框的置信度，其输出张量的维度为目标类别数；分支二包含两个卷积层，用于预测包围框的相关参数。

5.根据权利要求1所述的面向拥挤场景的光流引导多目标跟踪方法，其特征在于：所述步骤(5)中，运动学跟踪采用IOU跟踪方法，将之前帧跟踪结果与当前帧检测结果计算交并比，得到IOU矩阵；在IOU矩阵中进行匈牙利二分图匹配，得到最优IOU匹配结果，即为当前帧跟踪结果。