CN115082517B

CN115082517B - 基于数据增强的赛马场景多目标追踪方法

Info

Publication number: CN115082517B
Application number: CN202210573112.0A
Authority: CN
Inventors: 吴永贤; 刘旭宇; 颜旭立; 田星; 钟灿琨
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2024-04-19
Anticipated expiration: 2042-05-25
Also published as: CN115082517A

Abstract

本发明公开了一种基于数据增强的赛马场景多目标追踪方法，包括：1)对原始赛马训练视频、测试视频的每一帧图像进行人工标注，得到原始赛马训练标注视频、测试标注视频；2)采用ACGAN网络对原始赛马训练标注视频进行数据增强，获得GAN赛马标注伪视频；3)采用FairMOT多目标追踪模型对原始赛马训练标注视频和GAN赛马标注伪视频进行训练，得到最终的赛马场景多目标追踪模型；4)输入原始赛马测试视频至赛马场景多目标追踪模型中，得到处理后的赛马追踪测试视频，与原始赛马测试标注视频进行结果比较，判断追踪效果。本发明提高了目标追踪的准确度，缓解赛马场景下在出现遮挡、镜头切换和冲刺模糊现象时的身份ID频繁切换问题，进一步可实现更灵活和精确的下游应用。

Description

基于数据增强的赛马场景多目标追踪方法

技术领域

本发明涉及多目标追踪和对抗生成网络的技术领域，尤其是指一种基于数据增强的赛马场景多目标追踪方法。

背景技术

目标追踪是计算机视觉的重要组成部分。现有的目标跟踪方法依据目标个数分为单目标追踪和多目标追踪，在视频监控、自动驾驶和人群行为分析中有着广泛的应用。单目标追踪在检测跟踪目标时关注目标实时动作变化和外部环境干扰下的外形变化；而多目标追踪除了监控单个目标，还需要识别场景中的目标数量并维持目标的ID。此外，目标间相似的外貌特征、其他目标的遮挡、轨迹的初始化和终止和不同目标之间的轨迹干扰也增加了多目标追踪的难度。

多目标追踪的大部分研究工作都应用于固定摄像机下的行人识别和车辆跟踪问题。而赛马场景中，赛马选手的背景会随着马匹的奔跑和摄像机的切换发生变化，是一个更具有挑战性的问题。赛马场景下多目标跟踪的难点包括三点：(1)竞赛时出现的马匹加速减速情况会导致出现选手遮挡和轨迹交错现象；(2)赛马场的椭圆形设置和场地内的障碍物导致赛马追踪视频中需要进行镜头切换，而非传统多目标追踪问题中的固定视角跟踪；(3)当终点线临近时，赛马选手的冲刺会导致他们的身体变得模糊，即多目标追踪目标对象的特征会丢失。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于数据增强的赛马场景多目标追踪方法，能够使用对抗生成网络对赛马视频数据进行增强，尤其是对赛马视频中出现选手遮挡、镜头切换和冲刺模糊现象的帧进行数据增强，缓解赛马场景对象难以检测问题，同时提高了身份重识别的准确率，进一步可以实现更灵活和精确的下游应用。

为实现上述目的，本发明所提供的技术方案为：基于数据增强的赛马场景多目标追踪方法，包括以下步骤：

1)遵循MOT16标注基准和赛马选手标注规范，对原始赛马训练视频和原始赛马测试视频的每一帧图像进行人工标注，得到原始赛马训练标注视频和原始赛马测试标注视频，标注信息包括当前帧号、当前帧标注框数量、选手标注框ID、标注框中心位置和标注框大小；

2)采用ACGAN网络对原始赛马训练标注视频进行数据增强，获得GAN赛马标注伪视频；

3)采用FairMOT多目标追踪模型对原始赛马训练标注视频和GAN赛马标注伪视频进行训练，得到最终的赛马场景多目标追踪模型；

4)输入原始赛马测试视频至赛马场景多目标追踪模型中，得到赛马场景多目标追踪模型处理后的赛马追踪测试视频，与原始赛马测试标注视频进行结果比较，判断追踪效果。

进一步，在步骤1)中，在标记赛马选手时，为了后续步骤能够得到高质量的GAN赛马标注伪视频和准确率高的赛马场景多目标追踪模型，遵循以下规范：

①每个标记框应当尽可能框住对应的每一位赛马选手的所有像素，并与赛马选手边界对齐；

②当一个赛马选手被部分遮挡时，若这个赛马选手的一半像素是可见的或者能够通过可见部分识别出这个赛马选手的身份，则对这个赛马选手进行标注，根据相邻帧、其他选手标注框的大小和视频逻辑线索来估计选手的预期位置和大小，并按预期框住整个赛马选手，即包括被遮挡的部分，若选手被完全遮挡或不能通过可见像素识别出赛马选手身份，则不对其进行标注；

③赛马视频中摄像机切换的片段，同一帧会同时出现两匹相同的马匹和两名相同身份的赛马选手，当同一帧中出现多个相同的赛马选手时，标注最清晰的选手，不够清晰的赛马选手不做标注；

④赛马冲刺时出现的赛马选手模糊情况，依据前后帧和预期路径对其进行标注；

赛马视频中每一帧的赛马选手都根据以上四点规范手动进行标注，得到原始赛马训练标注视频和原始赛马测试标注视频，同时赛马时有正面场景、侧面场景和背面场景，选择的赛马视频都包含以上三个场景。

进一步，所述步骤2)包括以下步骤：

2.1)针对步骤1)标注的原始赛马训练标注视频，依据标注框将赛马选手图片摘取出来，每一帧的一名赛马选手图片形成一个样本，组成赛马选手样本集；对赛马选手样本集进行筛选，过滤掉背景杂乱且赛马选手被严重遮挡或模糊的图像，筛选后，一个视频的同一名赛马选手的所有图片样本构成该名选手的ACGAN训练样本序列；为提高数据增强网络训练时每批次赛马选手姿势的多样性并防止过度拟合，训练前分别打乱每名赛马选手的ACGAN训练样本序列；

2.2)构建ACGAN网络对原始赛马训练标注视频进行数据增强，ACGAN网络是一种利用辅助信息进行分类的对抗生成网络衍生模型，使用标签信息来训练整个对抗网络，并将判别器从真假二元分类器重构为能够区分数据类别的多元分类器；

ACGAN网络由生成器G和判别器D组成；ACGAN网络的判别器D除了需要区分数据是真实数据还是生成器G生成的伪数据以外，还旨在对数据进行分类识别，对应地，ACGAN网络损失函数需要包括真假损失L_valid和正确类别损失L_cat，两损失表示如下：

L_valid＝E[log P(V＝real|D_real)]+E[log P(V＝fake|D_fake)]

L_cat＝E[log P(C＝c|D_all)]

式中，L_valid是判别器D判断图片是否为真的损失，L_cat是判别器D判断图片分类正确的损失，D_real和D_fake分别表示为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片；P(C＝c|D_all)表示赛马选手属于哪一类别的概率，c表示赛马选手的一个类别，C表示当前赛马选手所属类别；real和fake分别表明数据为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片，V为当前赛马选手图片的真假判断，P(V＝real|D_real)是指赛马选手图片为ACGAN训练样本序列中的原始赛马选手图片的概率，P(V＝real|D_fake)是指赛马选手图片为生成器G生成的伪赛马选手图片的概率；采用log函数使概率呈对数概率分布，E指符合赛马选手图片数据分布的期望值；

判别器D试图区分数据的来源并准确分类，而生成器G旨在混淆真假，整个ACGAN网络的损失函数如下：

D:max(L_cat+L_valid)

G:min(L_cat-L_valid)

式中，max和min指将ACGAN网络在使L_cat+L_valid最大化时，使L_cat-L_valid最小化；

2.3)将打乱后的ACGAN训练样本序列输入ACGAN网络中，生成伪赛马选手图片；对伪赛马选手图片进行再处理，过滤掉质量差和失真的图片；

2.4)用ACGAN网络生成的伪赛马选手图片替换原始赛马训练标注视频中对应类别的赛马选手图片；对原始赛马训练标注视频中的所有赛马选手重复此过程以创建GAN赛马标注伪视频。

进一步，在步骤3)中，使用的FairMOT多目标追踪模型是一种一阶段多目标追踪网络模型，在主干网络上采用两个均匀的分支来分别学习目标检测任务和身份重识别任务，所述步骤3)包括以下步骤：

3.1)构建FairMOT多目标追踪模型，具体模型结构叙述如下：

使用DLA-34作为主干网络，DLA-34使用残差连接来扩展卷积神经网络，并迭代地集成网络不同阶层和块之间的信息，同时将上采样阶段的标准卷积改为3×3可变形卷积，这种结构允许在后续阶段更加细化特征，定义DLA-34的输入图像尺寸为H_image×W_image，H_image表示输入图像的高，W_image表示输入图像的宽；

在主干网络上，FairMOT建立了目标检测分支和身份重识别分支；目标检测分支采用三个平行检测头来记录标注框的位置、偏移程度和标注框大小，三个平行检测头分别是热图检测头、中心偏移检测头和标注框尺寸检测头，每个检测头由一个3×3的卷积层和一个1×1的卷积层组成；热图的峰值被认为是物体中心的位置，使用维度为1×H×W的热图检测头来定位赛马选手的中心，H＝H_image/4，W＝W_image/4；维度为2×H×W的中心偏移检测头用于校正DLA-34中下采样产生的离散化误差，以调整热图估计的中心点的位置；维度为2×H×W的标注框尺寸检测头估计标注边界框的宽度和高度；身份重识别分支的目的是为相邻帧中的同一赛马选手赋予相同的标签，不同的赛马选手赋予不同的标签，该分支使用128核的卷积层为每个边界框提取特征，生成的特征图的维度为128×H×W；

FairMOT多目标追踪模型从原始赛马训练标注视频中输入一张带有标注框的图片M∈R^(W×H×3)，R表示实数集，图片中第i个赛马选手标注框左上角和右下角的位置记分别为和/> 表示第i个赛马选手标注框左上角位置的横坐标，/>表示第i个赛马选手标注框左上角位置的纵坐标，/>表示第i个赛马选手标注框右下角位置的横坐标，/>表示第i个赛马选手标注框右下角位置的纵坐标；第i个标注框的中心点位置zⁱ表示为表示第i个赛马选手标注框中心点位置的横坐标，/>表示第i个赛马选手标注框中心点位置的纵坐标，其计算方式为/>依据FairMOT多目标追踪模型的主干网络DLA-34步长，将FairMOT多目标追踪模型中的特征图重写为表示第i个赛马选手的实际标注框中心，/>表示第i个赛马选手的实际标注框中心点位置的横坐标，/>表示第i个赛马选手的实际标注框中心点位置的纵坐标，第i个赛马选手的实际标注框的宽wⁱ和高hⁱ分别表示为/>和/>则第i个选手的实际标注框Gⁱ的表示为/>

依据热图值来计算中心点的位置，赛马选手的实际标注框中心热图值H_xy的计算公式如下：

式中，x和y为FairMOT多目标追踪模型的预测标注框的中心点位置的横坐标和纵坐标，σ_c为标准差，N代表当前帧中的实际标注框的数量；对应地，预测标注框的中心位置热图值用表示，则实际标注框和预测标注框之间的误差L_center利用热图计算如下，其中α和β为预先自主设定的参数：

对目标对象的中心位置进行预测后，使用中心偏移检测头来微调预测标注框的中心点位置，L_offset表示为预测标注框偏移损失，表示为：

式中，实际中心偏移量为对应的估计中心偏移量；

得到目标对象的预测位置后，对象的尺寸由标注框尺寸检测头来估计；分别用sⁱ＝(wⁱ,hⁱ)和来表示实际标注框大小和预测标注框大小，/>表示预测标注框的宽，/>表示预测标注框的高，则标注框尺寸差异损失函数L_size计算如下：

结合以上三项损失，用于优化FairMOT目标检测能力的损失函数L_detect表示为：

L_detect＝L_center+L_offset+L_size

目标检测分支检测到目标后，身份重识别分支对标注框中的对象的特征进行学习，将当前对象与其他对象区分开来；利用卷积层提取特征并组合成特征图I∈R^W×H×128，对于每一个中心点位置在(x,y)的对象，特征图被记为I_x,y；因此对于从检测层得到的每一个实际标注框Gⁱ，身份特征向量表示为则身份重识别分支损失L_id计算如下：

式中，K代表标注对象类别的数量；通过Lⁱ(k)为单热编码将第k个对象编码，p(k)为第k个对象的预测的类别的可能性分布；

为了平衡目标检测分支和身份重识别分支，确保模型不会过多依赖检测器，依据同方差不确定性理论引入参数u₁和u₂来计算整个模型的损失L_mot，表示为：

3.2)FairMOT多目标追踪模型构建完成后，输入原始赛马训练标注视频和GAN赛马标注伪视频训练，得到最终的赛马场景多目标追踪模型。

进一步，在步骤4)中，输入原始赛马测试视频至赛马场景多目标追踪模型中，得到赛马场景多目标追踪模型处理后的赛马追踪测试视频，选择MOTA、IDF1、ID和FP指标来衡量多目标追踪的效果，并与原始赛马测试标注视频进行结果比较，着重观察在遮挡、镜头切换、冲刺模糊时目标检测情况和ID变化情况。

与现有技术相比，本发明具有如下优点与有益效果：

1、本发明首次将多目标追踪应用到赛马应用中，并针对赛马的特性规范标注数据。

2、本发明采用ACGAN网络对原始赛马训练标注视频进行数据增强，将数据增强后的GAN赛马标注伪视频和原始赛马训练标注视频一起投入FairMOT多目标追踪模型进行训练。与没有进行数据增强的多目标追踪模型相比，跟踪精度明显提高，ID切换现象明显减少，在目标检测和身份重识别两个任务上，效果都明显优于没有进行数据增强的方法。

3、本发明选择的FairMOT多目标追踪模型对比其它多目标追踪模型，采用了无锚点的框架，并均匀学习目标检测任务和身份重识别任务，不过度依赖检测器的准确率，身份重识别时的ID切换现象明显降低。同时，在同一个网络中完成目标检测任务和身份重识别任务，视频推理速度快。

4、本发明方法在计算机视觉任务中具有广泛的使用空间，操作简单、适应性强，具有广阔的应用前景。

附图说明

图1为本发明所使用U形赛道赛马视频实例示意图。

图2为赛马视频标注规范示意图。

图3为赛马视频数据增强方法整体框架示意图。

图4为ACGAN网络结构示意图。

图5为ACGAN网络生成图片实例示意图。

图6为ACGAN网络生成图片姿势示意图。

图7为赛马视频生成示意图。

图8为FairMOT多目标追踪模型结构示意图。

图9为FairMOT多目标追踪模型的主干网络DLA-34示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述。

针对如图1所示的赛马视频，本实施例提供了一种基于数据增强的赛马场景多目标追踪方法，使用了ACGAN网络及FairMOT多目标追踪模型，其包括以下步骤：

1)对26个原始赛马训练视频和4个原始赛马测试视频的每一帧图像进行人工标注，标注信息包括当前帧号、当前帧标注框数量、选手标注框ID、标注框中心位置和标注框大小。如图2所示，基于MOT16标注基准制定赛马选手标注规范，赛马标注规范如下：

④赛马冲刺时出现的赛马选手模糊情况，依据前后帧和预期路径对其进行标注。

赛马视频中每一帧的参赛选手都根据以上四点规范手动进行标注，得到原始赛马训练标注视频、原始赛马测试标注视频。由于赛马在白天和夜晚都有比赛，实例分别选择了15个白天和15个夜间视频进行标记，在每组15个视频中，13个用作原始赛马训练视频，2个用作原始赛马测试视频。同时赛马有正面场景、侧面场景和背面场景，选择的训练视频都包含以上三个场景。

2)如图3所示，采用ACGAN网络对原始赛马训练视频进行数据增强，ACGAN网络是一种利用辅助信息进行分类的GAN衍生模型。利用ACGAN对步骤1)中获得的26个原始赛马训练标注视频进行数据增强，其中包括13个白天原始赛马训练标注视频和13个夜晚原始赛马训练标注视频，包括以下步骤：

2.1)依据标注框将赛马选手图片摘取出来，每一帧的一名赛马选手图片形成一个样本，组成赛马选手样本集；对赛马选手样本集进行筛选，过滤掉背景杂乱且赛马选手被严重遮挡或模糊的图像，筛选后，一个视频的同一名赛马选手的所有图片样本构成该名选手的ACGAN训练样本序列；为提高数据增强网络训练时每批次赛马选手姿势的多样性并防止过度拟合，训练前分别打乱每名赛马选手的ACGAN训练样本序列。

2.2)构建ACGAN网络。ACGAN由生成器G和判别器D组成，ACGAN网络结构如图4所示。当前实例中，生成器由4个反卷积层组成，用于将输入噪声转换为64×64的图像，对应地，判别器由4个卷积层组成。在使用Leaky Relu作为激活函数之前，使用批量归一化来避免梯度消失并加快收敛速度。

ACGAN网络的判别器D除了需要区分数据是真实数据还是生成器G生成的伪数据以外，还旨在对数据进行分类识别，对应地，ACGAN网络损失函数需要包括真假损失L_valid和正确类别损失L_cat，两损失表示如下：

L_valid＝E[log P(V＝real|D_real)]+E[log P(V＝fake|D_fake)]

L_cat＝E[log P(C＝c|D_all)]

D:max(L_cat+L_valid)

G:min(L_cat-L_valid)

2.3)将打乱后的ACGAN训练样本序列输入ACGAN网络中进行训练。考虑到赛马通常有8到12名参赛者的特点，每4名参赛者的ACGAN训练样本序列分为一组，形成ACGAN的训练集。经过20000个轮次的训练，得到了可以区分赛马选手身份的清晰图片。ACGAN产生图片效果如图5所示，每名参赛者生成和自己外貌特征相似且姿势不尽相同的样本。同时，参赛者生成图片包括正面图片、侧面图片和背面图片，如图6所示。对ACGAN网络生成的伪赛马选手图像进行再处理，过滤掉质量差和失真的图像。

2.4)用ACGAN网络生成的伪赛马选手图片替换原始赛马训练标注视频中对应类别的赛马选手图片，替换示例如图7所示。对原始赛马训练标注视频中的所有赛马选手重复此过程，得到26个GAN赛马标注伪视频，其中包括13个白天GAN赛马标注伪视频和13个夜晚GAN赛马标注伪视频。

3)采用FairMOT多目标追踪模型对26个原始赛马训练标注视频和26个GAN赛马标注伪视频进行训练，得到最终的赛马场景多目标追踪模型，具体包括以下步骤：

3.1)构建FairMOT多目标追踪模型。FairMOT多目标追踪模型是一种一阶段多目标追踪网络模型，在主干网络上采用两个均匀的分支来分别学习目标检测任务和身份重识别任务。如图8所示，具体模型结构叙述如下：

FairMOT多目标追踪模型使用DLA-34作为主干网络，如图9所示，DLA-34使用残差连接来扩展卷积神经网络，并迭代地集成网络不同阶层和块之间的信息，同时将上采样阶段的标准卷积改为3×3可变形卷积，这种结构允许在后续阶段更加细化特征，定义DLA-34的输入图像尺寸为H_image×W_image，H_image表示输入图像的高，W_image表示输入图像的宽。

在主干网络上，FairMOT建立了目标检测分支和身份重识别分支；目标检测分支采用三个平行检测头来记录标注框的位置、偏移程度和标注框大小，三个平行检测头分别是热图检测头、中心偏移检测头和标注框尺寸检测头，每个检测头由一个3×3的卷积层和一个1×1的卷积层组成；热图的峰值被认为是物体中心的位置，使用维度为1×H×W的热图检测头来定位赛马选手的中心，H＝H_image/4，W＝W_image/4；维度为2×H×W的中心偏移检测头用于校正DLA-34中下采样产生的离散化误差，以调整热图估计的中心点的位置；维度为2×H×W的标注框尺寸检测头估计标注边界框的宽度和高度；身份重识别分支的目的是为相邻帧中的同一赛马选手赋予相同的标签，不同的赛马选手赋予不同的标签，该分支使用128核的卷积层为每个边界框提取特征，生成的特征图的维度为128×H×W。

式中，实际中心偏移量为对应的估计中心偏移量。

L_detect＝L_center+L_offset+L_size

目标检测分支检测到目标后，身份重识别分支对标注框中的对象的特征进行学习，将当前对象与其它对象区分开来；利用卷积层提取特征并组合成特征图I∈R^W×H×128，对于每一个中心点位置在(x,y)的对象，特征图被记为I_x,y；因此对于从检测层得到的每一个实际标注框Gⁱ，身份特征向量表示为则身份重识别分支损失L_id计算如下：

3.2)FairMOT多目标追踪模型构建完成后，输入原始赛马训练标注视频和GAN赛马标注伪视频训练。由于赛马场景包括白天和夜晚两组，因此我们对26个白天赛马训练标注视频和26个夜晚赛马训练标注视频，包括13个白天原始赛马训练标注视频、13个白天GAN赛马标注伪视频、13个夜晚原始赛马训练标注视频和13个夜晚GAN赛马标注伪视频，分别训练30个轮次，得到白天赛马场景多目标追踪模型和夜晚赛马场景多目标追踪模型。

4)分别输入白天原始赛马测试视频和夜晚原始赛马测试视频进行测试，得到白天赛马场景多目标追踪模型和夜晚赛马场景多目标追踪模型处理后的白天赛马追踪测试视频和夜晚赛马追踪测试视频。采用没有进行数据增强的FairMOT多目标追踪模型和赛马场景多目标追踪模型进行对比，选择MOTA、IDF1、ID和FP指标来衡量多目标追踪的效果，并将赛马场景多目标追踪模型处理后的白天赛马追踪测试视频和夜晚赛马追踪测试视频与白天原始赛马测试标注视频和夜晚原始赛马测试标注视频进行结果比较，着重观察在遮挡、镜头切换、冲刺模糊时目标检测情况和ID变化情况。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于数据增强的赛马场景多目标追踪方法，其特征在于，包括以下步骤：

使用的FairMOT多目标追踪模型是一种一阶段多目标追踪网络模型，在主干网络上采用两个均匀的分支来分别学习目标检测任务和身份重识别任务，所述步骤3)包括以下步骤：

3.1)构建FairMOT多目标追踪模型，具体模型结构叙述如下：

式中，实际中心偏移量为对应的估计中心偏移量；

L_detect＝L_center+L_offset+L_size

3.2)FairMOT多目标追踪模型构建完成后，输入原始赛马训练标注视频和GAN赛马标注伪视频训练，得到最终的赛马场景多目标追踪模型；

2.根据权利要求1所述的基于数据增强的赛马场景多目标追踪方法，其特征在于，在步骤1)中，在标记赛马选手时，为了后续步骤能够得到高质量的GAN赛马标注伪视频和准确率高的赛马场景多目标追踪模型，遵循以下规范：

3.根据权利要求1所述的基于数据增强的赛马场景多目标追踪方法，其特征在于，所述步骤2)包括以下步骤：

L_valid＝E[log P(V＝real|D_real)]+E[log P(V＝fake|D_fake)]

L_cat＝E[log P(C＝c|D_all)]

D:max(L_cat+L_valid)

G:min(L_cat-L_valid)

4.根据权利要求1所述的基于数据增强的赛马场景多目标追踪方法，其特征在于，在步骤4)中，输入原始赛马测试视频至赛马场景多目标追踪模型中，得到赛马场景多目标追踪模型处理后的赛马追踪测试视频，选择MOTA、IDF1、ID和FP指标来衡量多目标追踪的效果，并与原始赛马测试标注视频进行结果比较，着重观察在遮挡、镜头切换、冲刺模糊时目标检测情况和ID变化情况。