CN115359407A

CN115359407A - 一种视频中的多车辆跟踪方法

Info

Publication number: CN115359407A
Application number: CN202211070668.4A
Authority: CN
Inventors: 王连涛; 王钦旭
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-18

Abstract

本发明公开了一种视频中的多车辆跟踪方法，包括构建车辆检测与自监督视觉表征学习相融合的深度神经网络模型，构造实例和维度双重对比的目标特征损失函数和目标检测损失函数，将网络模型在无身份标签的目标检测数据集下训练，构造添加占位符机制的视觉相似性关联方法；将待进行多车辆跟踪的视频数据逐帧转化为图像，依次传入训练好的神经网络进行车辆的目标检测和特征提取，对相邻两帧图像间的所有车辆特征进行关联匹配，遍历全部帧图像后得到检测区域内所有车辆的跟踪结果。本发明减少了额外计算开销，提高了模型计算速度，极大地降低了构建目标跟踪数据集的成本，避免车辆目标因暂时遮挡消失又重新出现导致的跟踪不稳定，使多车辆跟踪更加准确。

Description

一种视频中的多车辆跟踪方法

技术领域

本发明属于模式识别技术领域，涉及一种视频中的多车辆跟踪方法。

背景技术

多车辆跟踪任务包括了目标检测、视觉表征和数据关联三个模块。在现有的多车辆跟踪方法中，模型多为两阶段模式，即先对待检测区域进行目标检测，再将检测的目标图像或提取的目标特征进行视觉表征和数据关联；模型的训练大多需要在专门的具有目标位置、目标大小和目标身份信息的数据集上进行，需要大量的人工标注；在多车辆目标跟踪过程中，常因为车辆目标被遮挡后又重新出现而导致跟踪丢失。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种视频中的多车辆跟踪方法，减少了额外计算开销，提高了模型计算速度，极大地降低了构建目标跟踪数据集的成本，有效的记录消失和新出现的车辆，避免车辆目标因暂时遮挡消失又重新出现导致的跟踪不稳定，使多车辆跟踪更加准确。

为达到上述目的，本发明是采用下述技术方案实现的：

一种视频中的多车辆跟踪方法，包括如下步骤：

对采集的图像进行图像随机变换，形成数据增强算法集合

采用随机抽样的方法将图像数据集等分为若干个实例集Z_i，每个实例集都有对应的标签集E_i，i∈{1,2,…T}，T为实例集个数；

从数据增强算法集合

中随机选取一种算法

对每个实例Z_i,E_i进行变换，获得样本集合Z'_i,E'_i；

根据样本集合构建车辆检测与自监督视觉表征学习相融合的深度神经网络模型的主干网络模型，成对提取两个样本集合Z_i和Z'_i的特征矩阵，记为h_i和h'_i；

根据样本集合的特征矩阵构建具有相同结构的分支网络，分别对特征矩阵h_i和h_i′进行预测，得到热力图F_i和F'_i，中心偏移O_i和O'_i，目标大小S_i和S'_i；

根据相同结构的分支网络构建车辆检测与自监督视觉表征学习相融合的深度神经网络模型的目标特征表征网络模型和投影层网络模型，两个特征矩阵h_i和h'_i通过目标特征表征网络得到目标特征表征H_i和H'_i，目标特征表征H_i和H'_i经投影得到目标特征矩阵，记为L_i和L'_i；

将目标特征矩阵L_i和L'_i分别沿行列向量划分，得到实例特征和维度特征，构建正、负实例特征对和相关、无关维度特征对；

通过余弦距离度量函数计算实例特征对间的特征关系，通过相关系数度量函数计算维度特征对间的特征关系，构造实例特征和维度特征双重对比损失函数作为目标特征损失函数；

利用高斯模型将标签E_i,E'_i中真实边界框信息映射为热力图

并计算标签目标中心点偏移量

和目标大小

通过Focal Loss损失函数计算样本热力特征图F_i与

F'_i与

之间的关系，通过

损失函数计算样本中心点偏移量O_i与

O'_i与

之间的关系和样本目标大小S_i与

S'_i与

之间的关系，根据计算的损失函数，构造目标检测损失函数，并与样本维度双重对比损失函数构成模型的目标检测与特征计算的总损失函数；

根据目标检测与特征计算的总损失函数对构建的车辆检测与自监督视觉表征学习相融合的深度神经网络模型进行训练；

视频数据集

包含N帧图像，将第一帧图像I¹送入经过训练的深度神经网络模型中，得到相应的中心点位置P¹、边界框大小S¹和目标的特征矩阵H¹，初始化所有目标的身份信息和轨迹信息；

对连续两帧的图像的特征矩阵进行关联算法获得帧间目标的关联关系，对于同一目标进行轨迹更新，对新出现的目标为其初始化身份和轨迹；

深度神经网络模型遍历完所有帧图像后最终获得视频数据的跟踪结果

可选的，图像随机变换包括随机水平翻转、随机灰度化、颜色抖动、高斯模糊、高斯噪声、锐化和过曝。

可选的，图像数据集为目标检测数据集，即每张图像都包含目标位置和大小的标签信息；对于图像中的某一目标k，其标签信息为

为目标边界框左上角的横纵坐标值，

为目标边界框宽高。

可选的，车辆检测与自监督视觉表征学习相融合的深度神经网络模型的主干网络模型为编码器f(·)；编码器f(·)为由多层卷积神经网络组成的网络模型，编码器f(·)用于提取样本集合的嵌入表示，计算公式如下：

B是样本集合中的样本数量，D是嵌入向量的大小，

表示实数集。

可选的，编码器f(·)包括DarkNet-53、ResNet-50、DLA-34。

可选的，具有相同结构的分支网络为预测头p_j(·)，j＝{1,2,3},分别用于预测热力图、中心偏移向量和目标大小；

每个预测头p_j(·)对特征图进行卷积核大小为3×3的卷积计算，通过批次归一化层和非线性激活函数计算后，通过1×1的卷积计算得到样本集合的预测矩阵，用来对样本集合的嵌入表示进行预测，计算公式如下：

I是样本热力特征图的大小；

J是样本目标中心点偏移向量预测的大小；

K是样本目标尺寸预测的大小。

可选的，目标特征表征网络模型为目标特征表征器c(·)，投影层网络模型为投影头g(·)；

目标特征表征器c(·)包括卷积神经网络和特征通道集合网络，目标的特征表示为经卷积计算所得特征矩阵的目标中心点坐标处所有通道的集合，计算公式如下：

N是样本目标中心点的数量,D是卷积计算所得特征矩阵的通道数；

投影头g(·)包含三层全连接网络，前两层之后连接批次归一化层和非线性激活函数，计算得到样本集合的特征矩阵，计算公式如下：

M是样本输出目标特征矩阵的大小。

可选的，将两个特征矩阵L_i和L'_i按行划分，得到实例表示集合

t表示图像增强算法，其中1为不使用图像增强算法，i为实例索引，从集合S中构造实例对

为正对，i≠j为负对；将两个特征矩阵L_i和L'_i按列划分，得到特征维度集合

p为维度索引，从集合D中构造维度对

为相关对，p≠k为无关对。

可选的，通过余弦距离度量函数计算实例特征对间的相似度，余弦距离度量函数公式为：

|·|表示求样本特征的模长；

通过相关系数度量函数计算维度特征对间的相关性，相关系数度量函数公式为：

和

是维度特征中所有元素的平均值；

实例特征对比损失函数为：

维度特征对比损失函数为：

τ₁,τ₂为损失函数的超参数，表示温度参数；

结合实例特征对比损失函数

和维度特征对比损失函数

得到目标特征损失函数如下：

其中λ为控制损失平衡的参数。

可选的，样本数据集中表示目标位置和大小的标签信息为(x₁,y₁,x₂,y₂)，其中心点

向下取整得

利用高斯模型将标签中真实边界框信息映射为热力图

其计算公式为：

Y_xy为热力图映射值，表示热力图

上(x,y)坐标像素的值，

是与边界框大小相关的方差，若两个中心点的高斯分布发生重叠，则取最大值；

计算标签目标中心点偏移量

和目标大小

公式如下：

p_i,p'_i分别为Z_i,Z'_i的目标中心点坐标值；

可选的，通过Focal Loss损失函数计算样本热力特征图F_i与

F'_i与

之间的关系，Focal Loss损失函数公式为：

表示热力特征图F_i,F'_i上(x,y)处坐标像素的估计值，c为待检测目标的类别数；α和β为超参数，用于均衡难易样本数量；Y_xyc表示热力特征图

上(x,y)处坐标像素的标签值；N是样本目标中心点的数量；

通过

损失函数计算样本中心点偏移量O_i与

O'_i与

之间的关系，其损失函数计算公式为：

通过

损失函数计算样本目标大小S_i与

S'_i与

之间的关系，其损失函数计算公式为：

通过固定权重的方式将三个分支的损失函数相加，以得到检测目标的整体损失，其损失函数计算公式如下：

λ₁,λ₂为固定权重；

将目标检测损失函数与目标特征损失函数结合，构造整体的损失函数，计算公式如下：

其中w₁,w₂是平衡两个任务的可学习参数。

可选的，将变换的样本集合Z'_i和标签集合E'_i，与原样本集合Z_i和原标签集合E_i成对地输入深度神经网络模型，样本集合经计算得到特征矩阵，特征矩阵经计算得到对应的预测热力图、中心偏移量和目标大小，特征矩阵再经计算得到对应的目标特征矩阵，标签集合经计算得到对应的标签热力图、中心偏移量和目标大小，将预测热力图、中心偏移量和目标大小、目标特征矩阵、标签热力图、中心偏移量和目标大小的结果代入目标检测与特征计算总损失函数中进行计算，深度神经网络模型根据总损失函数反向传播以自动调整优化模型参数。

可选的，将视频数据集

中的第一张图像I¹输入已经训练好的深度神经网络模型中获得初始化的身份信息和轨迹信息，其计算公式如下：

H¹＝c(f(I¹))；

由热力图F¹和中心点偏移量O¹可以计算出目标中心点位置，计算公式如下：

P¹＝q(F¹,O¹)。

可选的，将视频数据集

中的所有图像送入经过训练的深度神经网络模型中进行计算，记录跟踪目标的轨迹

其中

表示目标i在t帧的轨迹信息，

为中心点坐标，

为边界框大小，

为目标的特征表示，ID_i为目标的身份标识，l_i为存活时间参数；

通过基于特征表示相似性的数据关联算法AFRS获得连续两帧图像帧间目标的关联关系，计算公式为：

相似度矩阵

N^t-1,N^t为第t-1,t帧图像中的目标数量，若目标i和目标j具有相同身份，则S_i,j>0，否则S_i,j<0；

在相似度矩阵S_i,j后面增加一列固定数值的列向量P作为占位符构成新矩阵

P的数值为相似度矩阵S_i,j中除对角线以外所有元素的平均值，占位符用于匹配消失的目标或新出现的目标；

将相似度矩阵S'i,j沿行向量进行带温度系数的Softmax函数计算，得到每行都包含了当前目标与两帧内所有目标的相似度结果的关联矩阵M：

T为温度参数，

使用自适应温度调节T：

T＝2log(N^t-1+N^t+1)；

记录所有目标的检测结果

其中N^t表示第t帧图像中的目标数量，

对连续两帧图像的特征矩阵进行AFRS关联算法，若当前帧存在目标i，并与上一帧关联成功，则使用检测结果

对目标轨迹进行更新，同时将中心点坐标

边界框大小

身份标识ID_i以及当前帧数t保存到跟踪结果

中。若关联失败，则保持上一帧的轨迹信息不变，并将存活时间l_i加1，若l_i>30，则认为该目标已经离开跟踪画面。

可选的，将视频数据集逐帧输入经过训练的深度神经网络模型得到对应的目标检测预测和目标特征矩阵，代入AFRS关联算法，关联各目标之间的特征关系，记录所有目标轨迹和身份信息于跟踪结果

中。

与现有技术相比，本发明所达到的有益效果：

本发明提供的一种视频中的多车辆跟踪方法，构建了一种车辆检测与自监督视觉表征相融合的跟踪框架，将传统的两阶段式车辆跟踪模型中的目标检测和视觉表征模块相融合，同时进行目标检测和高鉴别性视觉表征的学习，减少额外的计算开销，提高模型计算速度；

本发明通过数据增强算法获得同一图像的不同视图样本，并根据实例和维度双重对比损失函数最大化不同视图样本相同目标间的关系，使模型能够提取到准确的目标特征，相对于传统的基于监督学习的目标跟踪算法而言，在训练时不依赖数据集中的身份标签而学习目标自身的信息，在传统的目标检测数据集上就能训练，不需要再构建专门的目标跟踪数据集，极大地降低了需要人工标注的数据集的成本；

本发明设计了添加占位符机制的视觉相似性关联算法AFRS，以目标特征表示为基础，计算帧间目标对的相似度，构建关联矩阵，更简单地识别出消失和新出现的目标，在多车辆场景下仍能对全部车辆目标进行准确跟踪，并暂时保存消失目标的特征，设置存活时间来判断目标是否离开跟踪画面，极大地缓解了因目标遮挡带来的跟踪不稳定问题。

附图说明

图1为本发明实施例的车辆检测与自监督视觉表征学习相融合的深度神经网络模型训练流程图；

图2为本发明实施例UA-DETRAC数据集部分样例；

图3为本发明实施例数据增强变换图片；

图4为本发明实施例添加占位符机制的视觉相似性关联方法流程图；

图5为本发明实施例多车辆跟踪流程图；

图6为本发明实施例待进行多车辆跟踪的道路监控视频数据的初始帧图像和末尾帧图像；

图7为本发明实施例多车辆跟踪结果展示。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本文中所披露范围的端点和任何值都不限于该精确的范围或值，这些范围或值应该理解为包含接近这些范围或值的值。对于数值范围来说，各个范围的端点值之间、各个范围的端点值和单独的点值之间，以及单独的点值之间可以彼此组合而得到一个或多个新的数值范围，这些数值范围应被视为在本文中具体公开。

出于本说明书和所附权利要求书的目的，除非另有陈述，否则所有表达量、百分数或比例的数字及本说明书和所附权利要求书中所用的其他数值被理解为在所有情况下都由术语“约”修饰。此外，本文公开的所有范围都包括端点在内且可独立组合。

实施例一

图2为UA-DETRAC数据集中部分样例展示，该数据集采集了现实世界24个不同地点超过14万帧的道路监控视频图像，并对其中8250辆车进行身份标注，数据集标注了超121万个带标签的对象边界框。

如图1至7所示，一种视频中的多车辆跟踪方法，包括如下步骤：

S1，对图像进行图像随机变换，形成数据增强算法集合

图像随机变换为随机水平翻转、随机灰度化或颜色抖动，各个方法的具体参数依循当前自监督训练的通用方案设置；

S2，采用随机抽样的方法将图像数据集等分为若干个实例集Z_i，每个实例集都有对应的标签集E_i，i∈{1,2,…T}，T为实例集个数；

图像数据集为目标检测数据集，即每张图像都包含目标位置和大小的标签信息；对于图像中的某一目标k，其标签信息为

为目标边界框左上角的横纵坐标值，

为目标边界框宽高；

S3，从数据增强算法集合

中随机选取一种算法

对每个实例Z_i,E_i进行变换，获得样本集合Z'_i,E'_i；

实例Z_i经过数据增强算法

变换后，其标签信息也经历相同变换，以保证变换后的标签信息E'_i与Z'_i对应；

S4，根据样本集合构建车辆检测与自监督视觉表征学习相融合的深度神经网络模型的主干网络模型，成对提取两个样本集合Z_i和Z'_i的特征矩阵，记为h_i和h'_i；

构建的车辆检测与自监督视觉表征学习相融合的深度神经网络模型的主干网络模型为编码器f(·)；

编码器f(·)为DLA-34网络模型，编码器f(·)用于提取样本集合的嵌入表示，计算公式如下：

B是样本集合中的样本数量，D是嵌入向量的大小，

表示实数集；

S5，根据样本集合的特征矩阵构建三个具有相同结构的分支网络，分别对特征矩阵h_i和h_i′进行预测，得到热力图F_i和F'_i，中心偏移O_i和O'_i，目标大小S_i和S'_i；

三个具有完全相同结构的分支网络为预测头p_j(·)，j＝{1,2,3},分别用于预测热力图、中心偏移向量和目标大小；

其中每个预测头p_j(·)对特征图先进行卷积核大小为3×3的卷积计算，再通过批次归一化层和非线性激活函数计算后，最终通过一个1×1的卷积计算得到样本集合的预测矩阵，用来对S4中的样本集合的嵌入表示进行预测，计算公式如下：

I是样本热力特征图的大小；

J是样本目标中心点偏移向量预测的大小；

K是样本目标尺寸预测的大小。

S6，根据相同结构的分支网络构建车辆检测与自监督视觉表征学习相融合的深度神经网络模型的目标特征表征网络模型和投影层网络模型，两个特征矩阵h_i和h'_i通过目标特征表征网络得到目标特征表征H_i和H'_i，目标特征表征H_i和H'_i经投影得到目标特征矩阵，记为L_i和L'_i；

目标特征表征网络模型为目标特征表征器c(·)，投影层网络模型为投影头g(·)；

目标特征表征器c(·)包括两层卷积神经网络和一个特征通道集合网络，目标的特征表示为经卷积计算所得特征矩阵的目标中心点坐标处所有通道的集合，计算公式如下：

M是样本输出目标特征矩阵的大小；

S7，将目标特征矩阵L_i和L'_i分别沿行列向量划分，得到实例特征和维度特征，构建正、负实例特征对和相关、无关维度特征对；

两个特征矩阵L_i和L'_i按行划分，得到实例表示集合

为正对，i≠j为负对；两个特征矩阵L_i和L'_i按列划分，得到特征维度集合

p为维度索引，从集合D中构造维度对

为相关对，p≠k为无关对；

S8，通过余弦距离度量函数计算实例特征对间的相似度，通过相关系数度量函数计算维度特征对间的相关性，构造实例特征和维度特征双重对比损失函数作为目标特征损失函数；

余弦距离度量函数公式为：

||·||表示求样本特征的模长；

Claims

1.一种视频中的多车辆跟踪方法，其特征在于，包括如下步骤：

对采集的图像进行图像随机变换，形成数据增强算法集合

从数据增强算法集合

中随机选取一种算法

对每个实例Z_i,E_i进行变换，获得样本集合Z′_i,E′_i；

利用高斯模型将标签E_i,E'_i中真实边界框信息映射为热力图

并计算标签目标中心点偏移量

和目标大小

通过Focal Loss损失函数计算样本热力特征图F_i与

F'_i与

之间的关系，通过

损失函数计算样本中心点偏移量O_i与

O'_i与

之间的关系和样本目标大小S_i与

S'_i与

视频数据集

2.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：车辆检测与自监督视觉表征学习相融合的深度神经网络模型的主干网络模型为编码器f(·)；编码器f(·)为由多层卷积神经网络组成的网络模型，编码器f(·)用于提取样本集合的嵌入表示，计算公式如下：

B是样本集合中的样本数量，D是嵌入向量的大小，

表示实数集。

3.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：具有相同结构的分支网络为预测头p_j(·)，j＝{1,2,3},分别用于预测热力图、中心偏移向量和目标大小；

I是样本热力特征图的大小；

J是样本目标中心点偏移向量预测的大小；

K是样本目标尺寸预测的大小。

4.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：目标特征表征网络模型为目标特征表征器c(·)，投影层网络模型为投影头g(·)；

M是样本输出目标特征矩阵的大小。

5.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：将两个特征矩阵L_i和L'_i按行划分，得到实例表示集合

i＝j为正对，i≠j为负对；将两个特征矩阵L_i和L'_i按列划分，得到特征维度集合

p为维度索引，从集合D中构造维度对

p＝k为相关对，p≠k为无关对。

6.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：通过余弦距离度量函数计算实例特征对间的相似度，余弦距离度量函数公式为：

||·||表示求样本特征的模长；

和

是维度特征中所有元素的平均值；

实例特征对比损失函数为：

维度特征对比损失函数为：

τ₁,τ₂为损失函数的超参数，表示温度参数；

结合实例特征对比损失函数

和维度特征对比损失函数

得到目标特征损失函数如下：

其中λ为控制损失平衡的参数。

7.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：样本数据集中表示目标位置和大小的标签信息为(x₁,y₁,x₂,y₂)，其中心点

向下取整得

利用高斯模型将标签中真实边界框信息映射为热力图

其计算公式为：

Y_xy为热力图映射值，表示热力图

上(x,y)坐标像素的值，

计算标签目标中心点偏移量

和目标大小

公式如下：

p_i,p'_i分别为Z_i,Z'_i的目标中心点坐标值；

8.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：通过Focal Loss损失函数计算样本热力特征图F_i与

F'_i与

之间的关系，Focal Loss损失函数公式为：

上(x,y)处坐标像素的标签值；N是样本目标中心点的数量；

通过

损失函数计算样本中心点偏移量O_i与

O'_i与

之间的关系，其损失函数计算公式为：

通过

损失函数计算样本目标大小S_i与

S'_i与

之间的关系，其损失函数计算公式为：

λ₁,λ₂为固定权重；

其中w₁,w₂是平衡两个任务的可学习参数。

9.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：将视频数据集

H¹＝c(f(I¹))；

P¹＝q(F¹,O¹)。

10.根据权利要求1所述的一种视频中的多车辆跟踪方法，其特征在于：将视频数据集

其中

表示目标i在t帧的轨迹信息，

为中心点坐标，

为边界框大小，

相似度矩阵

将相似度矩阵S'_i,j沿行向量进行带温度系数的Softmax函数计算，得到每行都包含了当前目标与两帧内所有目标的相似度结果的关联矩阵M：

T为温度参数，

使用自适应温度调节T：

T＝2log(N^t-1+N^t+1)；

记录所有目标的检测结果

其中N^t表示第t帧图像中的目标数量，

对目标轨迹进行更新，同时将中心点坐标

边界框大小

身份标识ID_i以及当前帧数t保存到跟踪结果