CN114972410A

CN114972410A - 一种多级匹配视频赛车追踪方法及系统

Info

Publication number: CN114972410A
Application number: CN202210682158.6A
Authority: CN
Inventors: 邹才刚
Original assignee: Shanghai Yingpu Technology Co ltd
Current assignee: Shanghai Yingpu Technology Co ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-08-30

Abstract

本发明公开了一种多级匹配视频赛车追踪方法及系统，使用预先训练的目标检测模型对赛车视频逐帧进行目标车辆检测，得到检测结果，所述结果包括目标检测框及检测结果置信度；将提取到的目标检测框区域图像输入至二级网络中提取出车辆外观特征；结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果。兼顾运动特征和外观特征，可实现对某些特殊镜头的追踪，例如长时间的遮挡，两帧之间目标移动的位置太大等。

Description

一种多级匹配视频赛车追踪方法及系统

技术领域

本发明涉及目标追踪技术领域，具体涉及一种多级匹配视频赛车追踪方法及系统。

背景技术

随着人工智能技术的发展，越来越多的技术被应用到视频的处理中，在以往的赛车比赛中，我们有时需要提取不同镜头类的精彩镜头进行集锦，通常的做法是通过人工获取某些车辆的片段，这样会会花费大量的时间。我们希望能通过技术手段来获取每辆车在视频的轨迹，实现自动提取，已有的技术路径大多是通过目标检测的方法对车辆进行检测，结合ocr的结果来确定某一辆车在视频片段中出现的位置，但由于赛车的快速移动，镜头角度的切换，以及车辆的相互遮挡，很多车牌被遮挡，导致无法准确的获取一个镜头内车辆的完整轨迹。现有的目标追踪方法通常无法兼顾运动特征和外观特征，实现对某些特殊镜头的追踪，例如长时间的遮挡，两帧之间目标移动的位置太大等，这些都是在视频赛车中需要解决的问题。

发明内容

为此，本发明提供一种多级匹配视频赛车追踪方法及系统，以解决现有视频赛车目标追踪方法无法兼顾运动特征和外观特征，对某些特殊镜头例如长时间的遮挡，两帧之间目标移动的位置太大等，无法准确的获取一个镜头内车辆的完整轨迹的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种多级匹配视频赛车追踪方法，其特征在于，所述方法包括：

使用预先训练的目标检测模型对赛车视频逐帧进行目标车辆检测，得到检测结果，所述结果包括目标检测框及检测结果置信度；

将提取到的目标检测框区域图像输入至二级网络中提取出车辆外观特征；

结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果。

进一步地，结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果，具体包括：

通过设置置信度阈值将检测结果分为高分框和低分框；对已创建的目标跟踪轨迹开始先在高分框之间进行匹配，如果没匹配上，再使用低分框和没有匹配上高分框的跟踪轨迹进行匹配。

进一步地，结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果，具体还包括：

对于没有匹配上跟踪轨迹，得分又足够高的高分框，对其新建一个跟踪轨迹。

对于没有匹配上检测框的跟踪轨迹，保留连续多帧，直至目标再次出现再进行匹配。

针对于当前帧的目标检测结果，通过卡尔曼滤波进行预测得到一个相邻帧的检测框；

根据目标的检测结果和预测框结果，基于运动特征计算马氏距离获得空间位置差异；并根据不同帧目标的外观特征计算余弦距离获得外观相似度；

对计算的马氏距离和余弦距离进行加权求和得到代价矩阵，通过匈牙利算法进行匹配，将不符合马氏距离阈值的匹配项设为无限大后去除掉，对每一帧的结果进行多目标级联匹配，最终得到视频每一帧目标之间的关联结果。

进一步地，所述方法还包括，对目标检测模型进行训练，具体为：

选取包含不同赛车型号的视频片段进行等间隔抽帧，将抽取的每一帧进行标注每一辆赛车的最小外接矩形框，构建训练集，使用所述训练集对模型进行训练。

进一步地，所述目标检测模型采用yolox网络模型。

进一步地，所述方法还包括：在yolox主干网的输出头添加一个二级网络，通过所述二级网络对获取的目标检测区域进行外观特征提取。

根据本发明实施例的第二方面，提出了一种多级匹配视频赛车追踪系统，所述系统包括：

目标检测模块，用于使用预先训练的目标检测模型对赛车视频逐帧进行目标车辆检测，得到检测结果，所述结果包括目标检测框及检测结果置信度；

外观特征提取模块，用于将提取到的目标检测框区域图像输入至二级网络中提取出车辆外观特征；

车辆追踪模块，用于结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果。

本发明具有如下优点：

本发明提出的一种多级匹配视频赛车追踪方法及系统，使用预先训练的目标检测模型对赛车视频逐帧进行目标车辆检测，得到检测结果，所述结果包括目标检测框及检测结果置信度；将提取到的目标检测框区域图像输入至二级网络中提取出车辆外观特征；结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果。兼顾运动特征和外观特征，可实现对某些特殊镜头的追踪，例如长时间的遮挡，两帧之间目标移动的位置太大等。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种多级匹配视频赛车追踪方法的流程示意图；

图2为本发明实施例1提供的一种多级匹配视频赛车追踪方法的具体实施过程示意图；

图3为本发明实施例1提供的一种多级匹配视频赛车追踪方法中车辆外观提取网络示意图；

图4为本发明实施例1提供的一种多级匹配视频赛车追踪方法中级联匹配的步骤示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种多级匹配视频赛车追踪方法，所述方法包括：

S100、使用预先训练的目标检测模型对赛车视频逐帧进行目标车辆检测，得到检测结果，所述结果包括目标检测框及检测结果置信度。

S200、将提取到的目标检测框区域图像输入至二级网络中提取出车辆外观特征。

S300、结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果。

具体实施过程如下，参考图2：

1.车辆检测

1)赛车数据集的构建

选取包含不同赛车型号的视频片段进行等间隔抽帧，将抽取的每一帧进行标注每一辆赛车的最小外接矩形框，其类别统一设置为一类，标注数量大约为2000帧左右，构建训练集，使用所述训练集对模型进行训练。

2)模型训练和推理

选取yolox作为检测模型，利用标注好的数据训练出一个赛车检测模型。利用该模型，对视频中的每一帧进行检测，并输出检测结果。对于每一帧画面，获取到车辆位置的四个参数(x0,y0,w,h)以及检测结果的置信度conf，并记录每一辆车的帧号frame。获取到连续帧的结果之后，接下来就是对检测结果进行追踪。

2.车辆追踪：

1)初始化，根据第一帧的检测结果，创建一个初始化的追踪器(tracks)，并通过卡尔曼滤波预测出相邻帧的检测框。并确定tracks的状态。

2)马氏距离的计算：马氏距离利用运动特征，即不同帧之间目标的空间位置信息。马氏距离通过计算检测位置和平均追踪位置之间的标准差将状态测量的不确定性进行了考虑，通过马氏距离来反映空间位置的差异，马氏距离相似度度量计算公式如下：

d_j表示第j个检测框的位置；y_i表示第i个追踪器的对目标的预测位置，S_i表示检测框和预测框之间的协方差矩阵。

3)外观信息的提取以及相似度计算：考虑到视频中的赛车的快速运动，往往两帧之间的运动差距较大，纯粹考虑运动距离匹配的依据往往难以取得理想的效果，特别是当不同的车辆交叉出现的时候，纯粹的运动特征往往难以取得合理的匹配，通过对目标检测区域的提取，并利用一个轻量级的二级网络提取外观特征络，得到reid特征。

本实施例通过在yolox主干网的输出头添加一个二级网络，通过所述二级网络对获取的目标检测区域进行外观特征提取。特征提取网络结构如图3所示。网络的输入为目标检测结果区域，输出为1×512的特征向量。表观特征余弦距离度量公式如下

其中，r_j对应第j个检测的特征向量，

对应跟踪的特征向量。通过该公式计算得到第i个物体跟踪的所有特征向量和第j个物体的之间的最小余弦距离。该距离表面不同帧之间的目标的外观相似度。

4)目标置信度分级：考虑到检测结果中对于相同范围内的置信度的关联度更高，通过设置置信度阈值将检测结果分为高分框和低分框。开始先在高分框之间进行匹配。第二次使用低分框和第一次没有匹配上高分框的跟踪轨迹(例如在当前帧受到严重遮挡导致得分下降的物体)进行匹配。对于没有匹配上跟踪轨迹，得分又足够高的检测框，我们对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹，我们会保留30帧，在其再次出现时再进行匹配。

5)级联匹配：

计算运动特征的马氏距离，通过门控矩阵，将不符合马氏距离阈值的匹配项设为无限大，得到结果B；

reid的余弦距离和马氏距离得到cost矩阵，计为C，其计算公式如下：

c_i,j＝λd^(1)(i,j)+(1-λ)d⁽²⁾(i,j)

根据预测框的更新状态(这里更新状态是指，这个预测框距离上一次被匹配成功的时间)，越新的预测框(也即距离上一次被匹配上的帧数越短的)，越优先根据C的结果进行匈牙利算法进行匹配，最后根据B中的结果划分匹配上的集合和未匹配上的集合。对每一帧的结果进行多目标级联匹配，通过匹配可得到每一帧中目标车辆的编号，编号相同的车辆归类于同一跟踪轨迹，即可得到最终整个视频系列每一帧目标之间的关联结果。级联匹配的具体步骤如图4所示。

实施例2

与上述实施例1相对应的，本实施例提出了一种多级匹配视频赛车追踪系统，所述系统包括：

本发明实施例提供的一种多级匹配视频赛车追踪系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种多级匹配视频赛车追踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种多级匹配视频赛车追踪方法，其特征在于，结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果，具体包括：

3.根据权利要求2所述的一种多级匹配视频赛车追踪方法，其特征在于，结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果，具体还包括：

4.根据权利要求3所述的一种多级匹配视频赛车追踪方法，其特征在于，结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果，具体还包括：

5.根据权利要求1所述的一种多级匹配视频赛车追踪方法，其特征在于，结合车辆的运动特征和外观特征，并根据目标检测框置信度进行多级匹配完成车辆追踪，得到视频每一帧目标之间的关联结果，具体包括：

对计算的马氏距离和余弦距离进行加权求和得到代价矩阵，通过匈牙利算法进行匹配，将不符合马氏距离阈值的匹配项设为无限大后去除掉，对每一帧的结果进行多目标级联匹配，得到视频每一帧目标之间的关联结果。

6.根据权利要求1所述的一种多级匹配视频赛车追踪方法，其特征在于，所述方法还包括，对目标检测模型进行训练，具体为：

7.根据权利要求1所述的一种多级匹配视频赛车追踪方法，其特征在于，所述目标检测模型采用yolox网络模型。

8.根据权利要求7所述的一种多级匹配视频赛车追踪方法，其特征在于，所述方法还包括：在yolox主干网的输出头添加一个二级网络，通过所述二级网络对获取的目标检测区域进行外观特征提取。

9.一种多级匹配视频赛车追踪系统，其特征在于，所述系统包括：