CN116402850A

CN116402850A - 一种面向智能驾驶的多目标跟踪方法

Info

Publication number: CN116402850A
Application number: CN202310267551.3A
Authority: CN
Inventors: 罗玉涛; 罗荣
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-07

Abstract

本发明公开了一种面向智能驾驶的多目标跟踪方法，包括检测网络、多尺度重识别网络、分级匹配机制和轨迹优化网络，本发明的检测网络以YOLOv5为基础，将注意力机制融入到其骨干网络中，并在其头部网络添加四倍下采样微小目标预测头，提升定位重要特征和微小目标检测的能力，针对同类目标特征相似度高难以区分的问题，多尺度重识别网络的瓶颈层采用多流结构，并使用注意力机制将多流特征进行聚合，实现多尺度特征的动态融合，提升目标外观特征的表达能力，为了减少遮挡时目标置信度降低从而造成漏检的情况，在数据关联中设计了分级匹配机制。最后还应用了两个即插即用的轻量级模型进行轨迹全局链接和平滑补全。

Description

一种面向智能驾驶的多目标跟踪方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种面向智能驾驶的多目标跟踪方法。

背景技术

多目标跟踪作为一项关键的计算机视觉任务，在智能驾驶、视频监控、人流计数等领域有着广泛应用。多目标跟踪的主要目的为将输入的视频序列中每一帧相同的目标赋予同一个身份ID以实现数据关联和生成目标轨迹。

多目标跟踪是视觉场景理解的一个重要组成部分。目标检测困难、相互遮挡严重以及目标间相似度较高等挑战严重影响着多目标跟踪模型的精度与准确度。

发明内容

为了克服现有技术的上述缺点与不足，本发明的目的在于提供一种面向智能驾驶的多目标跟踪方法。

本发明的目的通过以下技术方案实现：

一种面向智能驾驶的多目标跟踪方法，包括：

检测网络：用于对输入的视频序列中的人和车辆进行识别，并生成包围框及包围框的前景置信度，所述检测网络包括输入端、骨干网络、颈部网络及头部网络，所述骨干网络融入坐标注意力机制；

多尺度重识别网络：对于检测网络生成的包围框及历史轨迹的包围框进行多尺度特征提取，生成外观特征向量；所述多尺度重识别网络包括由多个感受野不同的卷积特征流构成的瓶颈网络；

分级匹配机制：首先对检测网络生成的检测框按前景置信度分为高分检测框和低分检测框，对历史轨迹进行卡尔曼滤波算法预测，生成预测框，并与高分检测框计算马氏距离得到运动特征关联度量，再通过多尺度重识别网络提取高分检测框的特征向量和历史轨迹最近N帧的包围框特征向量，并计算这N帧包围框中与高分检测框的最小余弦距离从而得到外观特征关联度量，随后将运动特征和外观特征的关联度量进行线性加权得到代价矩阵，通过匈牙利算法进行级联匹配，后续再对未匹配成功的历史轨迹和高分检测框进行交并比匹配，最后再将低分检测框与交并比匹配失败的轨迹再进行一次交并比匹配，任意一次匹配成功的历史轨迹将通过卡尔曼滤波进行更新，最后仍未成功的历史轨迹则进行删除；

轨迹优化网络：包括无外观链接模型和高斯平滑插值模型，所述无外观链接模型将所有轨迹进行全局关联，所述高斯平滑插值模型将轨迹空白进行平滑补全，使得所得轨迹更加接近真实轨迹。

进一步，所述头部网络的下采样倍率分别是4倍下采样分支、8倍下采样分支、16倍下采样分支及32倍下采样分支。

进一步，所述瓶颈网络中每个流所关注的特征尺度由指数决定，由CBAM注意力机制作为各特征流的统一聚合门，生成通道权值进行动态融合，最后由原输入和所有流融合后的输出进行残差连接得到最终输出。

进一步，所述多尺度重识别网络还包括轻量组件，所述轻量组件由轻量卷积、批量正则化和激活函数构成。

进一步，所述轻量卷积为LiteCONV模块，用深度可分离卷积实现，所述深度可分离卷积包括点卷积核和深度卷积核。

进一步，所述分级匹配机制用于解决目标被长时间遮挡后，再出现无法与该目标的历史轨迹匹配成功的问题，具体步骤为：

将目标的运动状态定义为正态分布的8维向量(u,v,γ,h,u’,v’,γ’,h’)，分别为目标检测框的中心点坐标、宽高比、高度以及它们在各自坐标系对时间的导数，随后使用卡尔曼滤波算法对现有轨迹进行预测，生成当前帧的预测框，此时使用马氏距离衡量预测框和检测框的运动状态相似度；

使用多尺度重识别网络将所有轨迹最近N帧的目标框与当前帧所有检测框提取多尺度特征，计算每个检测框和每条轨迹最近N帧目标框所提取的多尺度特征的最小余弦距离，用于衡量检测框与轨迹的外观信息相似度；

对上述步骤得到的运动状态相似度和外观信息相似度进行线性加权，得到当前帧检测框和历史轨迹的代价矩阵；

同时，对马氏距离和最小余弦距离设计阈值，低于马氏距离阈值或高于最小余弦距离阈值的配对，在代价矩阵中设为无穷大；

根据预测框的更新状态，即该预测框距离上一次与检测框匹配成功的帧数差从小到大排序，帧数差越小越优先根据代价矩阵通过匈牙利算法进行匹配，通过匹配结果，划分匹配成功的集合，未匹配的轨迹集合和未匹配的检测框集合，匹配成功的集合将加入到历史轨迹中，未匹配的集合和未确认态的轨迹一起再进行交并比匹配，仍未匹配的检测框将创建未确认状态的新轨迹，连续三次匹配被确认为新轨迹则转为确认态，而仍未匹配的轨迹若为未确认状态，或为确认状态但距离上一次成功匹配的帧数差超出最大限制，则将轨迹进行删除。

进一步，所述高斯平滑插值模型具体是一种轻量级的插值算法高斯平滑插值，采用高斯过程回归来模拟非线性运动。

进一步，所述N为100帧。

进一步，所述无外观链接模型具体是采用两个轨迹作为输入，其中一个轨迹是采用最近30帧的位置和帧数组成，若当前轨迹的帧数小于30，则使用0进行填充。

进一步，所述无外观链接模型具体为：时间模块沿时间维度使用7×1卷积核提取特征，随后融合模块使用1×3卷积核以整合所有维度信息，并将生成的两个特征图分别池化并压缩为特征向量后进行连接，最后通过一个多层感知机模型预测关联的置信度分数。

与现有技术相比，本发明具有以下优点和有益效果：

(1)本发明针对远处目标占据像素面积较小难以检测的问题，检测网络以YOLOv5为基础，将注意力机制融入到其骨干网络中，并在其头部网络添加四倍下采样微小目标预测头，提升定位重要特征和微小目标检测的能力；

(2)针对同类目标特征相似度高难以区分的问题，重识别网络的瓶颈层采用多流结构，并使用注意力机制将多流特征进行聚合，实现多尺度特征的动态融合，提升目标外观特征的表达能力。为了减少遮挡时目标置信度降低从而造成漏检的情况，在数据关联中设计了分级匹配机制。最后还应用了两个即插即用的轻量级模型进行轨迹全局链接和平滑补全。

附图说明

图1是本发明实施例的检测网络结构图；

图2是本发明实施例的多尺度重识别网络的瓶颈模块结构图；

图3是本发明实施例的分级匹配机制流程图；

图4是本发明实施例的无外观链接模型原理图；

图5是本发明实施例的高斯平滑插值的效果图；

图6是本发明的工作流程图。

具体实施方式

下面结合实施例，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图6所示，一种面向智能驾驶的多目标跟踪方法，主要针对智能驾驶过程中对行人和车辆的多目标跟踪，采用基于检测的跟踪框架。目标跟踪就是把每帧相同目标的检测框进行关联匹配，历史轨迹即目前之前的运动轨迹。具体包括：

检测网络：对输入的视频序列中的行人和车辆进行检测识别，并生成包围框，包含包围框中心点的图像坐标，包围框宽度和宽高比四个参数，同时生成包围框的前景置信度，所述包围框即检测框。

如图1所示，所述测网络包括输入端、骨干网络、颈部网络及头部网络。

所述骨干网络(主干网络)在YOLOv5的基础上将其中的C3模块引入CA坐标注意力机制融合为C3CA模块，CA注意力机制模块旨在增强移动网络学习特征的表达能力，它可以对网络中的任意中间特征张量进行转化变化后输出同样尺寸的张量。

头部网络现有技术提供三个尺度的预测头更好的适配不同大小的目标物体，它们的下采样倍率分别是8倍、16倍和32倍：大尺度预测头具有较大的分辨率，用来预测小尺寸目标；小尺度预测头具有较大的感受野，用来预测大尺寸目标。但是在智能驾驶的场景中，离摄像头远的行人和车辆往往占用的像素很小，需要较小的感受野才可以减少漏检的情况。因此，在检测网络中增加了一个4倍下采样分支：原始图片经过主干网络提取特征后在颈部网络中使用合并的方式进行特征融合，最后经头部网络H2处理后得到一个160×160×128维度的特征图，H2预测头输出的特征图分辨率较高，具有更为准确的位置信息，对于小目标的检测更为精确，提升定位重要特征和微小目标检测的能力。

所述多尺度重识别网络如图2所示：用于对于检测网络生成的包围框及历史轨迹的包围框进行多尺度特征提取，生成外观特征向量；所述多尺度重识别网络包括由多个感受野不同的卷积特征流构成的瓶颈网络。

由于传统用于目标跟踪的重识别网络大多借鉴了为通用目标分类问题设计的体系结构，却难以区分相似目标之间的特征差别。本发明的多尺度重识别网络的瓶颈模块采用了多流设计，可用于提取行人的多尺度特征，增强跟踪过程中对于相似特征的行人和车辆的区分能力，减少轨迹身份跳变的次数。

多尺度重识别网络的瓶颈模块由多个感受野不同的卷积特征流组成，每个流所关注的特征尺度由指数决定，由CBAM注意力机制作为各特征流的统一聚合门，生成通道权值进行动态融合，最后由原输入和所有流融合后的输出进行残差连接得到最终输出。

所述轻量卷积为LiteCONV模块，用深度可分离卷积实现，所述深度可分离卷积包括点卷积核和深度卷积核。一个标准卷积核4D张量(k，k，c1，c2)分解为一个点卷积核4D张量(1，1，c1，c2)和一个深度卷积核4D张量(k，k，1，c2)。若输出特征图的宽高分别为w和h，则通过深度可分离卷积将计算量由h×w×k²×c1×c2减少为h×w×c2×(k²+c1)，而参数量由k²×c1×c2减少为(k²+c1)×c2。因此将标准卷积块改为由深度可分离卷积块组成的轻量卷积块可大大减少网络的计算量和参数量。

分级匹配机制：本发明的分级匹配机制用于用于解决目标被长时间遮挡后，再出现无法与该目标的历史轨迹匹配成功的问题。

也就是，当两个目标相互遮挡时，被遮挡的目标的历史轨迹在当前帧无法匹配到目标，目标短暂消失的情况。之后被遮挡的目标再次出现的时候，应该尽量让目标的ID保持不变，以减少ID切换次数。具体的匹配流程如附图3所示：

(1)将目标的运动状态定义为正态分布的8维向量(u,v,γ,h,u’,v’,γ’,h’)，分别为目标框的中心点坐标、宽高比、高度以及它们在各自坐标系对时间的导数，随后使用卡尔曼滤波算法对现有轨迹进行预测，生成当前帧的预测框。此时使用马氏距离衡量预测框和检测框的运动状态相似度。

(2)使用多尺度重识别网络将所有轨迹最近100帧的目标框与当前帧所有检测框提取多尺度特征，计算每个检测框和每条轨迹最近100帧目标框所提取的多尺度特征的最小余弦距离，用于衡量检测框与轨迹的外观信息相似度。

(3)对上述步骤得到的运动状态相似度和外观信息相似度进行线性加权，得到当前帧检测框和历史轨迹的代价矩阵。同时，为了减少匹配次数，需过滤掉运动状态或外观信息相似度相差较大的配对，因此对马氏距离和最小余弦距离设计阈值。低于马氏距离阈值或高于最小余弦距离阈值的配对，在代价矩阵中设为无穷大以方便匈牙利算法进行计算，提升效率。

(4)根据预测框的更新状态，即该预测框距离上一次与检测框匹配成功的帧数差从小到大排序，帧数差越小越优先根据代价矩阵通过匈牙利算法进行匹配，通过匹配结果，划分匹配成功的集合，未匹配的轨迹集合和未匹配的检测框集合。匹配成功的集合将加入到历史轨迹中，未匹配的集合和未确认态的轨迹一起再进行交并比匹配，仍未匹配的检测框将创建未确认状态的新轨迹，连续三次匹配被确认为新轨迹则转为确认态，而仍未匹配的轨迹若为未确认状态，或为确认状态但距离上一次成功匹配的帧数差超出最大限制，则将轨迹进行删除。

在第(4)步中，对于未匹配成功的轨迹和检测框将会进行多次匹配确认，尽可能地弥补漏检，目标相互遮挡等导致短时间内无法匹配的情况造成的影响。然而对于目标长时间被遮挡，超出了上一次成功匹配的最大帧数差，则轨迹将会被删除，再次出现时，由于没有对应的历史轨迹，则会被认为出现了新目标，重新分配ID发生身份跳变。因此本发明在此基础上，提出分级匹配机制，用于进一步改善身份跳变的问题。

基于检测的跟踪算法十分依赖于检测器的性能，当目标被遮挡时，检测器得到的置信度较低，大部分的跟踪算法会将低置信度的检测框删除以排除误检测成目标的背景。但同时，当目标被遮挡或者运动模糊时也会造成目标置信度较低，直接删除低置信度的检测框也会使得跟踪过程中目标丢失和轨迹被打断。

进一步，分级匹配机制处理中也可以选择其它帧，不限于100帧，帧数越多效果越好，但是相应的速度会下降，本方法综合考虑选择100帧。

本发明将检测框按置信度划分为高分检测框和低分检测框。首先高分检测框仍然执行上述中的级联匹配，在交并比匹配完成后，未匹配成功的轨迹与低分检测框再进行一次交并比匹配，此时仍未匹配的低分检测框将被视为背景进行删除，仍未匹配成功的轨迹和此次匹配成功的轨迹和第一次匹配的处理一致。

为了追求高度准确的关联，本发明将轨迹进行全局关联。由于依赖外观特征需要大量的计算资源，且容易受到运动模糊等噪声影响，本发明使用无外观链接模型。附图4显示了其框架。它采用两个轨迹Ti和Tj作为输入，其中T*是用最近30帧的位置和帧数组成，若当前轨迹的帧数小于30，则使用0进行填充。图中的时间模块沿时间维度使用7×1卷积核提取特征，随后融合模块使用1×3卷积核以整合所有维度信息，并将生成的两个特征图分别池化并压缩为特征向量后进行连接，最后通过一个多层感知机模型预测关联的置信度分数。此时轨迹的全局连接则转化为线性分配问题进行求解。

针对因为检测缺失造成的轨迹空白，目前常用的方法为线性插值。然而由于缺失运动信息，它的准确性是有限的。尽管已有相关策略来提高准确性，如引入单目标跟踪、卡尔曼滤波等算法，但同时也带来了额外的耗时量。本发明使一种轻量级的插值算法高斯平滑插值，该算法采用高斯过程回归来模拟非线性运动。

首先，为第i个轨迹制定高斯平滑插值模型如下：

p_t＝f⁽ⁱ⁾(t)+ε

其中t∈F即为帧数，p_t∈P为轨迹在帧数t时的包围框信息，ε为高斯噪声。

给定跟踪和线性插值的轨迹，并假设其服从一个高斯过程f(i)∈GP(0,k(·,·))，其中

是径向基函数核。基于高斯过程的性质，设新的轨迹帧数集合为F*，其平滑位置P*可由下式预测：

P^*＝K(F^*,F)(K(F,F)+σ²I)^-1P

其中K(·,·)是基于k(·,·)的协方差函数，此外，超参数λ用于控制轨迹的平滑度，与轨迹长度l有关。一般来说，λ通过以下式子选取，其中τ取10。

λ＝τ*log(τ³/l)

附图5举例说明了高斯平滑插值和线性插值之间的效果差异。原始的跟踪结果通常包括噪声振动和轨迹空白，线性插值忽略了运动信息直接将空白处用直线填充，而高斯平滑插值通过自适应平滑度平滑整个轨迹同时解决了这两个问题。

为了保证跟踪效果，本发明设计了分离式结构的跟踪器。为了解决目标检测困难的问题，检测模块基于YOLOv5网络模型，将坐标注意力机制融入到骨干网络中的C3模块以及在头部网络中添加微小目标预测头；为了更有效地区分同类目标间的相似特征，设计了可以获得多尺度特征的重识别网络；为了减少相互遮挡带来的轨迹身份跳变，利用卡尔曼滤波和匈牙利算法建立了分级匹配的机制，辅以无外观链接模型和高斯平滑插值模型进行轨迹优化，使得跟踪轨迹更加接近真实轨迹。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向智能驾驶的多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的多目标跟踪方法，其特征在于，所述头部网络的下采样倍率分别是4倍下采样分支、8倍下采样分支、16倍下采样分支及32倍下采样分支。

3.根据权利要求1所述的多目标跟踪方法，其特征在于，所述瓶颈网络中每个流所关注的特征尺度由指数决定，由CBAM注意力机制作为各特征流的统一聚合门，生成通道权值进行动态融合，最后由原输入和所有流融合后的输出进行残差连接得到最终输出。

4.根据权利要求1所述的多目标跟踪方法，其特征在于，所述多尺度重识别网络还包括轻量组件，所述轻量组件由轻量卷积、批量正则化和激活函数构成。

5.根据权利要求4所述的多目标跟踪方法，其特征在于，所述轻量卷积为LiteCONV模块，用深度可分离卷积实现，所述深度可分离卷积包括点卷积核和深度卷积核。

6.根据权利要求1-5任一项所述的多目标跟踪方法，其特征在于，所述分级匹配机制用于解决目标被长时间遮挡后，再出现无法与该目标的历史轨迹匹配成功的问题，具体步骤为：

7.根据权利要求1所述的多目标跟踪方法，其特征在于，所述高斯平滑插值模型具体是一种轻量级的插值算法高斯平滑插值，采用高斯过程回归来模拟非线性运动。

8.根据权利要求1所述的多目标跟踪方法，其特征在于，所述N为100帧。

9.根据权利要求1所述的多目标跟踪方法，其特征在于，所述无外观链接模型具体是采用两个轨迹作为输入，其中一个轨迹是采用最近30帧的位置和帧数组成，若当前轨迹的帧数小于30，则使用0进行填充。

10.根据权利要求9所述的多目标跟踪方法，其特征在于，所述无外观链接模型具体为：时间模块沿时间维度使用7×1卷积核提取特征，随后融合模块使用1×3卷积核以整合所有维度信息，并将生成的两个特征图分别池化并压缩为特征向量后进行连接，最后通过一个多层感知机模型预测关联的置信度分数。