CN113963168B

CN113963168B - 一种改进的高精度端到端车辆多目标跟踪方法

Info

Publication number: CN113963168B
Application number: CN202111349929.1A
Authority: CN
Inventors: 鲍泓; 徐歆恺; 宁晴; 付一豪; 王晨曦; 潘卫国; 徐成
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-06-21
Anticipated expiration: 2041-11-15
Also published as: CN113963168A

Abstract

本发明涉及一种改进的高精度端到端车辆多目标跟踪方法，包括：基于改进的Faster R‑CNN模型对车辆进行检测，得到目标检测数据集；将所述目标检测数据集输入到区域生成网络模块中进行相似度学习，得到待匹配的候选目标数据集，最后通过最近邻匹配方法完成所述待匹配的候选目标数据集的匹配。本发明改进了Quasi‑Dense跟踪方法，结合了注意力机制、自适应等思想，提升模型对于尺度变化较大的目标检测和跟踪的能力，在网络结构中使用空间注意力机制，同时在设定锚框时使用启发式方法，改进模型的跟踪效果，有效的降低了跟踪时ID切换的次数。

Description

一种改进的高精度端到端车辆多目标跟踪方法

技术领域

本发明涉及自动驾驶多目标跟踪技术领域，具体是一种改进的高精度端到端车辆多目标跟踪方法。

背景技术

多目标跟踪是计算机视觉的一个关键问题，通常用于无人驾驶领域，通过跟踪车辆附近目标的运动，实时并且准确地判断周围车辆以及行人轨迹，为无人驾驶决策模块提供数据支持，并在危险发生前及时减速避让，尽可能避免交通事故。

多目标跟踪通常基于先检测后跟踪的多目标跟踪框架，主要包括目标检测、特征提取、目标关联三个部分。随着检测技术的发展，基于检测的多目标跟踪算法发展较快，比如sort跟踪器使用简单的卡尔曼滤波逐帧处理数据关联，并使用匈牙利算法进行目标匹配。DeepSort模型在sort跟踪器的基础上改进，使用卷积神经网络完成重识别，提取目标表观特征进行最近邻匹配，在改善遮挡问题的同时，减轻了身份识别错误的现象；并在被检测目标与跟踪轨迹关联问题上使用级联匹配方法，对出现频率较为频繁的目标赋予优先匹配权，解决连续预测的概率弥散问题。

基于检测方法的三个模块(目标检测、特征提取、目标关联)是相互独立的，使得这种方法跟踪时间较长且无法进行全局优化，很多研究者对端到端跟踪方法展开了研究。端到端跟踪方法不再将检测和跟踪看成两个独立的步骤，而是将检测和跟踪联合优化，典型的工作包括Detect&Track模型、Tracktor以及Quasi-Dense等。Detect&Track模型采用基于相关性的回归跟踪器完成跟踪，完成了目标检测和跟踪工作的联合优化，Tracktor直接采用探测器进行跟踪，但它高度依赖于小的先验跨框架位移，本发明提出的基于Faster R-CNN算法的Quasi-Dense跟踪方法提出了准稠密匹配方法，只将对象与特征嵌入相关联，具有更好的精度。

发明内容

本发明提出一种改进的高精度端到端多目标车辆跟踪方法，针对无人驾驶场景下，车辆多目标跟踪中跟踪标识错配问题，改进Quasi-Dense端到端跟踪方法的网络结构，提高模型跟踪的精度。

为实现上述目的，本发明提供了如下方案：

一种改进的高精度端到端车辆多目标跟踪方法，包括：

基于改进的Faster R-CNN模型对车辆进行检测，得到目标检测数据集；将所述目标检测数据集输入到区域生成网络模块中进行相似度学习，得到待匹配的候选目标数据集，最后通过最近邻匹配方法完成所述待匹配的候选目标数据集的匹配。

优选的，在所述改进的Faster R-CNN模型中，骨干网络采用resnet50网络结构，用于提取输入图像的卷积特征，得到特征图。

优选的，对所述resnet50网络结构中的可变卷积与仅使用键值内容特征的Transformer组合模块进行整合，并应用在所述骨干网络中conv4和conv5矩阵卷积运算中。

优选的，对所述可变卷积与仅使用键值内容特征的Transformer组合模块进行整合的过程包括：

以Quasi-Dense作为基线，在所述骨干网络中加入空间注意力机制，基于所述空间注意力机制，计算所述可变卷积和Transformer组合模块的多头注意力特征，在所述可变卷积中调整元素的采样位置，得到每个查询键值对的注意力权重。

优选的，所述多头注意力特征的表达式为：

其中，待查元素的索引和内容分别为q和z_q，键值元素的索引和内容分别为k和x_k，m索引注意力头，待查元素相关的键值区域为Ω_q，第m个注意力的权重为A_m(q,k,z_q,x_k)，待学习的权重为W_m和W′_m，M表示注意力头数量，取8。

优选的，所述Transformer组合模块将所述多头注意力特征拆分为四个不同的注意力因素，基于所述四个不同的注意力因素的和，计算所述每个查询键值对的注意力权重，其表达式为：

其中，待查元素的索引和内容分别为q和z_q，键值元素的索引和内容分别为k和x_k，m为索引注意力头，第m个Transformer注意力的权重用

表示，注意力因素用ε_j表示，在注意力模块中引入了手动开关，来激活或者关闭四个不同注意力因素的某一项，用

来表示，

的取值范围为{0,1}。

优选的，将所述目标检测数据集输入到区域生成网络模块中进行相似度学习的过程为：

基于启发式方法在所述区域生成网络模块中设定锚框，得到带有锚框的目标检测数据集，对所述带有锚框的目标检测数据集进行训练，得到关键帧图像和参考帧图像，对所述关键帧图像和所述参考帧图像中的目标进行相似度学习，得到所述待匹配的候选目标数据集。

优选的，在所述区域生成网络模块中设定锚框的方法包括：

用四维向量(x,y,w,h)表示目标的位置，空间坐标中心点用(x,y)表示，(w,h)分别表示目标的宽度和高度，待匹配的候选目标数据集图像用I表示，目标的位置分布的公式为：

p(x,y,w,h∣I)＝p(x,y∣I)p(w,h∣x,y,I)；

基于所述目标的位置分布结果，对所述锚框的形状进行预测，对输入的目标数据图像做一个1×1卷积后执行sigmoid函数，得到概率值p(x,y|I)；

优选的，得到所述概率值p(x,y|I)后，对所述锚框的宽w‘和高h‘进行预测，其转换公式为：

w‘＝σ·s·e^dw,h‘＝σ·s·e^dh

其中，s表示步长，σ表示经验尺度因子，dw为特征图中每个元素的宽，e^dw表示对dw求以数学常数e为底的指数，dh为特征图中每个元素的高，e^dh为对dh求以数学常数e为底的指数。

优选的，基于双向softmax函数对所述待匹配的候选目标数据集进行匹配，其中，所述双向softmax函数的表达式为：

其中，当前帧中有N个目标，特征用n表示，过去的x'帧中有M‘个候选目标，特征用m‘表示，当前帧中第i'个目标与过去x'帧中第j'个目标的相似度用f(i',j')表示，n_i'表示当前帧中第i'个目标的特征，nk′表示当前帧中第k′个目标的特征，m‘_j'表示第j'个候选目标的特征，m‘k′表示第k′个候选目标的特征。

本发明的有益效果为：

本发明针对无人驾驶场景下，车辆多目标跟踪中跟踪标识错配问题，改进Quasi-Dense端到端跟踪方法的网络结构，提高模型跟踪的精度。本发明还结合了注意力机制、自适应等思想，提升模型对于尺度变化较大的目标检测和跟踪的能力，在网络结构中使用空间注意力机制，同时在设定锚框时使用启发式方法，改进模型的跟踪效果，有效的降低了跟踪时ID切换的次数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例改进的Faster R-CNN网络结构示意图；

图2为本发明实施例中Transformer组合模块示意图；

图3为本发明方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对无人驾驶场景下，车辆多目标跟踪中跟踪标识错配问题，改进Quasi-Dense端到端跟踪方法的网络结构，提高模型跟踪的精度。检测部分使用改进的Faster R-CNN算法检测车辆；跟踪部分直接使用区域生成网络生成的候选框进行训练，对关键帧和参考帧中的目标进行相似度学习，之后使用简单的最近邻匹配方法来完成不同目标的匹配。在检测部分骨干网络中加入空间注意力机制，在区域生成网络中，使用启发式方法来完成锚框的设定，网络结构如附图1所示。

本实施例硬件环境的处理器为Intel(R)Xeon(R)Silver 4110 CPU@2.10GHz，内存为64GB，显卡为GeForce RTX 2080Ti×4，Ubuntu16.04LTS操作系统。

基于改进的Faster R-CNN模型对车辆进行检测，得到目标检测数据集；将所述目标检测数据集输入到区域生成网络模块中进行相似度学习，得到待匹配的候选目标数据集，最后通过最近邻匹配方法完成所述待匹配的候选目标数据集的匹配。方法流程图如附图3所示。

在改进的Faster R-CNN模型中，骨干网络采用resnet50网络结构，可变卷积与仅使用键值内容特征的Transformer组合模块，在骨干网络中将组合模块整合，应用在conv4和conv5阶段。

步骤1.1：以Quasi-Dense作为基线，在所述骨干网络中加入空间注意力机制，基于所述空间注意力机制，计算所述可变卷积和Transformer组合模块的多头注意力特征，在所述可变卷积中调整元素的采样位置，得到每个查询键值对的注意力权重。

在空间注意力中将Transformer、可变卷积均看作是广义注意力公式的实例化，多头注意力特征的通用表达公式：

其中，待查元素的索引和内容分别用q和z_q表示，键值元素的索引和内容分别用k和x_k表示，用m索引注意力头，待查元素相关的键值区域用Ω_q表示，第m个注意力的权重用A_m(q,k,z_q,x_k)表示，待学习的权重用W_m和W_m'表示。本实施例中使用的注意力包括8个注意力头，即M＝8。

步骤1.2：Transformer将注意力权重拆为四项：ε₁包括两部分：待查询目标的内容特征、键值内容特征；ε₂包括两部分：待查询目标的内容特征、待查询目标与键值的相对位置；ε₃只包括一部分内容，就是键值的内容特征；ε4只包括一部分内容，就是待查询目标与键值的相对位置，Transformer基于四个不同注意力因素的和来计算每个查询键值对的注意力权重，表达式为：

在注意力模块中引入了手动开关，来激活或者关闭四个不同注意力因素的某一项，用m索引注意力头，第m个Transformer注意力的权重用

表示，注意力因素用ε_j表示，四个不同的注意力因素分别为ε₁，ε₂，ε₃，ε₄，在注意力模块中引入了手动开关，来激活或者关闭四个不同注意力因素的某一项，用

来表示，

的取值范围是{0,1}，激活用1表示，不使用该项注意力因素用0表示，这里仅激活ε₃。

步骤1.3：在可变卷积中，增加了可学习的偏移量来调整关键元素的采样位置，可学习的偏移量是依据待查询内容来预测的，对于输入来讲注意力权重是动态的，注意力权重的表达式：

其中用m索引注意力头，第m个可变卷积注意力头用

表示，待查元素的索引和内容分别用q和z_q表示，键值元素的索引用k表示，预定偏移量用p_m表示，

根据可学习变量w_m将待查询内容z_q变换为可变偏移量，函数G是双线性插值核函数。

在本实施例中，可变卷积与仅使用键值内容特征ε₃的Transformer组合模块如图2所示，在骨干网络中将组合模块整合，应用在conv4和conv5阶段。

步骤2：在区域生成网络模块使用启发式方法设定锚框。

步骤2.1、用四维向量(x,y,w,h)表示目标的位置和形状，空间坐标中心点用(x,y)表示，(w,h)分别表示目标的宽度和高度，待匹配的候选目标数据集图像用I表示，目标位置分布的公式为：

p(x,y,w,h∣I)＝p(x,y∣I)p(w,h∣x,y,I)；

基于所述目标形状和位置的分布结果，对所述锚框的形状进行预测，对输入的目标数据图像做一个1×1卷积后执行sigmoid函数，得到概率值p(x,y|I)。

得到所述概率值p(x,y|I)后，对所述锚框的宽w‘和高h‘进行预测，其转换公式为：

w‘＝σ·s·e^dw,h‘＝σ·s·e^dh

其中，s表示步长，σ表示经验尺度因子，取8，dw为特征图中每个元素的宽，e^dw表示对dw求以数学常数e为底的指数，dh为特征图中每个元素的高，e^dh为对dh求以数学常数e为底的指数。

在本实施例中，每个位置都只与一个逐步预测形状的锚框相关联，而不是预先设定形状的锚框，锚框大小更加灵活。

启发式设定锚框的方法在生成锚框时通过两部分来完成：位置预测、形状预测，增加了启发式设定锚框的区域生成网络可以获得高质量的候选框。

步骤3：对所述带有锚框的目标检测数据集进行训练，得到关键帧图像和参考帧图像，对所述关键帧图像和所述参考帧图像中的目标进行相似度学习。

步骤4：对关键帧图像和参考帧图像中的目标进行相似度学习，给定一个关键帧，随机选择一个参考帧，两帧之间的距离为k，k∈[-3,3]。

步骤5：对不同目标的匹配使用双向softmax，在匹配过程中通过双向匹配来解决误报、身份标识错配、新出现对象以及终止的轨迹的问题，在t帧有N个检测的目标，N个目标的特征用n表示，过去的x'帧中有M‘个候选目标，特征用m‘表示，当前帧中第i'个目标与过去x'帧中第j'个目标的相似度用f(i',j')表示，n_i'表示当前帧中第i'个目标的特征，nk′表示当前帧中第k′个目标的特征，m‘_j'表示第j'个候选目标的特征，m‘k′表示第k′个候选目标的特征，双向softmax的表达式为：

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种改进的高精度端到端车辆多目标跟踪方法，其特征在于，包括：

基于改进的Faster R-CNN模型对车辆进行检测，得到目标检测数据集；将所述目标检测数据集输入到区域生成网络模块中进行相似度学习，得到待匹配的候选目标数据集，最后通过最近邻匹配方法完成所述待匹配的候选目标数据集的匹配；

在所述改进的Faster R-CNN模型中，骨干网络采用resnet50网络结构，用于提取输入图像的卷积特征，得到特征图；

对所述resnet50网络结构中的可变卷积与仅使用键值内容特征的Transformer组合模块进行整合，并应用在所述骨干网络中conv4和conv5矩阵卷积运算中；

对所述可变卷积与仅使用键值内容特征的Transformer组合模块进行整合的过程包括：

以Quasi-Dense作为基线，在所述骨干网络中加入空间注意力机制，基于所述空间注意力机制，计算所述可变卷积和Transformer组合模块的多头注意力特征，在所述可变卷积中调整元素的采样位置，得到每个查询键值对的注意力权重；

所述多头注意力特征的表达式为：

其中，待查元素的索引和内容分别为q和z_q，键值元素的索引和内容分别为k和x_k，m索引注意力头，待查元素相关的键值区域为Ω_q，第m个注意力的权重为A_m(q,k,z_q,x_k)，待学习的权重为W_m和W′_m，M表示注意力头数量，取8；

所述Transformer组合模块将所述多头注意力特征拆分为四个不同的注意力因素，基于所述四个不同的注意力因素的和，计算所述每个查询键值对的注意力权重，其表达式为：

其中，第m个Transformer注意力的权重用

来表示，

的取值范围为{0,1}；其中，所述四个不同注意力因素包括ε₁：待查询目标的内容特征、键值内容特征；ε₂：待查询目标的内容特征、待查询目标与键值的相对位置；ε₃：键值的内容特征；ε₄：待查询目标与键值的相对位置；将所述目标检测数据集输入到区域生成网络模块中进行相似度学习的过程为：

基于启发式方法在所述区域生成网络模块中设定锚框，得到带有锚框的目标检测数据集，对所述带有锚框的目标检测数据集进行训练，得到关键帧图像和参考帧图像，对所述关键帧图像和所述参考帧图像中的目标进行相似度学习，得到所述待匹配的候选目标数据集；

在所述区域生成网络模块中设定锚框的方法包括：

p(x,y,w,h∣I)＝p(x,y∣I)p(w,h∣x,y,I)；

w‘＝σ·s·e^dw,h‘＝σ·s·e^dh

2.根据权利要求1所述的改进的高精度端到端车辆多目标跟踪方法，其特征在于，基于双向softmax函数对所述待匹配的候选目标数据集进行匹配，其中，所述双向softmax函数的表达式为：

其中，当前帧中有N个目标，特征用n表示，过去的x'帧中有M‘个候选目标，特征用m‘表示，当前帧中第i'个目标与过去x'帧中第j'个目标的相似度用f(i',j')表示，n_i'表示当前帧中第i'个目标的特征，n_k′表示当前帧中第k′个目标的特征，m‘_j′表示第j′个候选目标的特征，m‘_j′表示第k′个候选目标的特征。