CN115082517B - 基于数据增强的赛马场景多目标追踪方法 - Google Patents
基于数据增强的赛马场景多目标追踪方法 Download PDFInfo
- Publication number
- CN115082517B CN115082517B CN202210573112.0A CN202210573112A CN115082517B CN 115082517 B CN115082517 B CN 115082517B CN 202210573112 A CN202210573112 A CN 202210573112A CN 115082517 B CN115082517 B CN 115082517B
- Authority
- CN
- China
- Prior art keywords
- horse racing
- horse
- player
- video
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 84
- 238000012360 testing method Methods 0.000 claims abstract description 35
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 60
- 241000270281 Coluber constrictor Species 0.000 claims description 10
- 241000777300 Congiopodidae Species 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 10
- OQZCSNDVOWYALR-UHFFFAOYSA-N flurochloridone Chemical compound FC(F)(F)C1=CC=CC(N2C(C(Cl)C(CCl)C2)=O)=C1 OQZCSNDVOWYALR-UHFFFAOYSA-N 0.000 claims description 10
- 241000282326 Felis catus Species 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 241001239379 Calophysus macropterus Species 0.000 claims description 3
- 241000283086 Equidae Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000012958 reprocessing Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009192 sprinting Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明公开了一种基于数据增强的赛马场景多目标追踪方法,包括:1)对原始赛马训练视频、测试视频的每一帧图像进行人工标注,得到原始赛马训练标注视频、测试标注视频;2)采用ACGAN网络对原始赛马训练标注视频进行数据增强,获得GAN赛马标注伪视频;3)采用FairMOT多目标追踪模型对原始赛马训练标注视频和GAN赛马标注伪视频进行训练,得到最终的赛马场景多目标追踪模型;4)输入原始赛马测试视频至赛马场景多目标追踪模型中,得到处理后的赛马追踪测试视频,与原始赛马测试标注视频进行结果比较,判断追踪效果。本发明提高了目标追踪的准确度,缓解赛马场景下在出现遮挡、镜头切换和冲刺模糊现象时的身份ID频繁切换问题,进一步可实现更灵活和精确的下游应用。
Description
技术领域
本发明涉及多目标追踪和对抗生成网络的技术领域,尤其是指一种基于数据增强的赛马场景多目标追踪方法。
背景技术
目标追踪是计算机视觉的重要组成部分。现有的目标跟踪方法依据目标个数分为单目标追踪和多目标追踪,在视频监控、自动驾驶和人群行为分析中有着广泛的应用。单目标追踪在检测跟踪目标时关注目标实时动作变化和外部环境干扰下的外形变化;而多目标追踪除了监控单个目标,还需要识别场景中的目标数量并维持目标的ID。此外,目标间相似的外貌特征、其他目标的遮挡、轨迹的初始化和终止和不同目标之间的轨迹干扰也增加了多目标追踪的难度。
多目标追踪的大部分研究工作都应用于固定摄像机下的行人识别和车辆跟踪问题。而赛马场景中,赛马选手的背景会随着马匹的奔跑和摄像机的切换发生变化,是一个更具有挑战性的问题。赛马场景下多目标跟踪的难点包括三点:(1)竞赛时出现的马匹加速减速情况会导致出现选手遮挡和轨迹交错现象;(2)赛马场的椭圆形设置和场地内的障碍物导致赛马追踪视频中需要进行镜头切换,而非传统多目标追踪问题中的固定视角跟踪;(3)当终点线临近时,赛马选手的冲刺会导致他们的身体变得模糊,即多目标追踪目标对象的特征会丢失。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于数据增强的赛马场景多目标追踪方法,能够使用对抗生成网络对赛马视频数据进行增强,尤其是对赛马视频中出现选手遮挡、镜头切换和冲刺模糊现象的帧进行数据增强,缓解赛马场景对象难以检测问题,同时提高了身份重识别的准确率,进一步可以实现更灵活和精确的下游应用。
为实现上述目的,本发明所提供的技术方案为:基于数据增强的赛马场景多目标追踪方法,包括以下步骤:
1)遵循MOT16标注基准和赛马选手标注规范,对原始赛马训练视频和原始赛马测试视频的每一帧图像进行人工标注,得到原始赛马训练标注视频和原始赛马测试标注视频,标注信息包括当前帧号、当前帧标注框数量、选手标注框ID、标注框中心位置和标注框大小;
2)采用ACGAN网络对原始赛马训练标注视频进行数据增强,获得GAN赛马标注伪视频;
3)采用FairMOT多目标追踪模型对原始赛马训练标注视频和GAN赛马标注伪视频进行训练,得到最终的赛马场景多目标追踪模型;
4)输入原始赛马测试视频至赛马场景多目标追踪模型中,得到赛马场景多目标追踪模型处理后的赛马追踪测试视频,与原始赛马测试标注视频进行结果比较,判断追踪效果。
进一步,在步骤1)中,在标记赛马选手时,为了后续步骤能够得到高质量的GAN赛马标注伪视频和准确率高的赛马场景多目标追踪模型,遵循以下规范:
①每个标记框应当尽可能框住对应的每一位赛马选手的所有像素,并与赛马选手边界对齐;
②当一个赛马选手被部分遮挡时,若这个赛马选手的一半像素是可见的或者能够通过可见部分识别出这个赛马选手的身份,则对这个赛马选手进行标注,根据相邻帧、其他选手标注框的大小和视频逻辑线索来估计选手的预期位置和大小,并按预期框住整个赛马选手,即包括被遮挡的部分,若选手被完全遮挡或不能通过可见像素识别出赛马选手身份,则不对其进行标注;
③赛马视频中摄像机切换的片段,同一帧会同时出现两匹相同的马匹和两名相同身份的赛马选手,当同一帧中出现多个相同的赛马选手时,标注最清晰的选手,不够清晰的赛马选手不做标注;
④赛马冲刺时出现的赛马选手模糊情况,依据前后帧和预期路径对其进行标注;
赛马视频中每一帧的赛马选手都根据以上四点规范手动进行标注,得到原始赛马训练标注视频和原始赛马测试标注视频,同时赛马时有正面场景、侧面场景和背面场景,选择的赛马视频都包含以上三个场景。
进一步,所述步骤2)包括以下步骤:
2.1)针对步骤1)标注的原始赛马训练标注视频,依据标注框将赛马选手图片摘取出来,每一帧的一名赛马选手图片形成一个样本,组成赛马选手样本集;对赛马选手样本集进行筛选,过滤掉背景杂乱且赛马选手被严重遮挡或模糊的图像,筛选后,一个视频的同一名赛马选手的所有图片样本构成该名选手的ACGAN训练样本序列;为提高数据增强网络训练时每批次赛马选手姿势的多样性并防止过度拟合,训练前分别打乱每名赛马选手的ACGAN训练样本序列;
2.2)构建ACGAN网络对原始赛马训练标注视频进行数据增强,ACGAN网络是一种利用辅助信息进行分类的对抗生成网络衍生模型,使用标签信息来训练整个对抗网络,并将判别器从真假二元分类器重构为能够区分数据类别的多元分类器;
ACGAN网络由生成器G和判别器D组成;ACGAN网络的判别器D除了需要区分数据是真实数据还是生成器G生成的伪数据以外,还旨在对数据进行分类识别,对应地,ACGAN网络损失函数需要包括真假损失Lvalid和正确类别损失Lcat,两损失表示如下:
Lvalid=E[log P(V=real|Dreal)]+E[log P(V=fake|Dfake)]
Lcat=E[log P(C=c|Dall)]
式中,Lvalid是判别器D判断图片是否为真的损失,Lcat是判别器D判断图片分类正确的损失,Dreal和Dfake分别表示为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片;P(C=c|Dall)表示赛马选手属于哪一类别的概率,c表示赛马选手的一个类别,C表示当前赛马选手所属类别;real和fake分别表明数据为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片,V为当前赛马选手图片的真假判断,P(V=real|Dreal)是指赛马选手图片为ACGAN训练样本序列中的原始赛马选手图片的概率,P(V=real|Dfake)是指赛马选手图片为生成器G生成的伪赛马选手图片的概率;采用log函数使概率呈对数概率分布,E指符合赛马选手图片数据分布的期望值;
判别器D试图区分数据的来源并准确分类,而生成器G旨在混淆真假,整个ACGAN网络的损失函数如下:
D:max(Lcat+Lvalid)
G:min(Lcat-Lvalid)
式中,max和min指将ACGAN网络在使Lcat+Lvalid最大化时,使Lcat-Lvalid最小化;
2.3)将打乱后的ACGAN训练样本序列输入ACGAN网络中,生成伪赛马选手图片;对伪赛马选手图片进行再处理,过滤掉质量差和失真的图片;
2.4)用ACGAN网络生成的伪赛马选手图片替换原始赛马训练标注视频中对应类别的赛马选手图片;对原始赛马训练标注视频中的所有赛马选手重复此过程以创建GAN赛马标注伪视频。
进一步,在步骤3)中,使用的FairMOT多目标追踪模型是一种一阶段多目标追踪网络模型,在主干网络上采用两个均匀的分支来分别学习目标检测任务和身份重识别任务,所述步骤3)包括以下步骤:
3.1)构建FairMOT多目标追踪模型,具体模型结构叙述如下:
使用DLA-34作为主干网络,DLA-34使用残差连接来扩展卷积神经网络,并迭代地集成网络不同阶层和块之间的信息,同时将上采样阶段的标准卷积改为3×3可变形卷积,这种结构允许在后续阶段更加细化特征,定义DLA-34的输入图像尺寸为Himage×Wimage,Himage表示输入图像的高,Wimage表示输入图像的宽;
在主干网络上,FairMOT建立了目标检测分支和身份重识别分支;目标检测分支采用三个平行检测头来记录标注框的位置、偏移程度和标注框大小,三个平行检测头分别是热图检测头、中心偏移检测头和标注框尺寸检测头,每个检测头由一个3×3的卷积层和一个1×1的卷积层组成;热图的峰值被认为是物体中心的位置,使用维度为1×H×W的热图检测头来定位赛马选手的中心,H=Himage/4,W=Wimage/4;维度为2×H×W的中心偏移检测头用于校正DLA-34中下采样产生的离散化误差,以调整热图估计的中心点的位置;维度为2×H×W的标注框尺寸检测头估计标注边界框的宽度和高度;身份重识别分支的目的是为相邻帧中的同一赛马选手赋予相同的标签,不同的赛马选手赋予不同的标签,该分支使用128核的卷积层为每个边界框提取特征,生成的特征图的维度为128×H×W;
FairMOT多目标追踪模型从原始赛马训练标注视频中输入一张带有标注框的图片M∈R(W×H×3),R表示实数集,图片中第i个赛马选手标注框左上角和右下角的位置记分别为和/> 表示第i个赛马选手标注框左上角位置的横坐标,/>表示第i个赛马选手标注框左上角位置的纵坐标,/>表示第i个赛马选手标注框右下角位置的横坐标,/>表示第i个赛马选手标注框右下角位置的纵坐标;第i个标注框的中心点位置zi表示为 表示第i个赛马选手标注框中心点位置的横坐标,/>表示第i个赛马选手标注框中心点位置的纵坐标,其计算方式为/>依据FairMOT多目标追踪模型的主干网络DLA-34步长,将FairMOT多目标追踪模型中的特征图重写为 表示第i个赛马选手的实际标注框中心,/>表示第i个赛马选手的实际标注框中心点位置的横坐标,/>表示第i个赛马选手的实际标注框中心点位置的纵坐标,第i个赛马选手的实际标注框的宽wi和高hi分别表示为/>和/>则第i个选手的实际标注框Gi的表示为/>
依据热图值来计算中心点的位置,赛马选手的实际标注框中心热图值Hxy的计算公式如下:
式中,x和y为FairMOT多目标追踪模型的预测标注框的中心点位置的横坐标和纵坐标,σc为标准差,N代表当前帧中的实际标注框的数量;对应地,预测标注框的中心位置热图值用表示,则实际标注框和预测标注框之间的误差Lcenter利用热图计算如下,其中α和β为预先自主设定的参数:
对目标对象的中心位置进行预测后,使用中心偏移检测头来微调预测标注框的中心点位置,Loffset表示为预测标注框偏移损失,表示为:
式中,实际中心偏移量 为对应的估计中心偏移量;
得到目标对象的预测位置后,对象的尺寸由标注框尺寸检测头来估计;分别用si=(wi,hi)和来表示实际标注框大小和预测标注框大小,/>表示预测标注框的宽,/>表示预测标注框的高,则标注框尺寸差异损失函数Lsize计算如下:
结合以上三项损失,用于优化FairMOT目标检测能力的损失函数Ldetect表示为:
Ldetect=Lcenter+Loffset+Lsize
目标检测分支检测到目标后,身份重识别分支对标注框中的对象的特征进行学习,将当前对象与其他对象区分开来;利用卷积层提取特征并组合成特征图I∈RW×H×128,对于每一个中心点位置在(x,y)的对象,特征图被记为Ix,y;因此对于从检测层得到的每一个实际标注框Gi,身份特征向量表示为则身份重识别分支损失Lid计算如下:
式中,K代表标注对象类别的数量;通过Li(k)为单热编码将第k个对象编码,p(k)为第k个对象的预测的类别的可能性分布;
为了平衡目标检测分支和身份重识别分支,确保模型不会过多依赖检测器,依据同方差不确定性理论引入参数u1和u2来计算整个模型的损失Lmot,表示为:
3.2)FairMOT多目标追踪模型构建完成后,输入原始赛马训练标注视频和GAN赛马标注伪视频训练,得到最终的赛马场景多目标追踪模型。
进一步,在步骤4)中,输入原始赛马测试视频至赛马场景多目标追踪模型中,得到赛马场景多目标追踪模型处理后的赛马追踪测试视频,选择MOTA、IDF1、ID和FP指标来衡量多目标追踪的效果,并与原始赛马测试标注视频进行结果比较,着重观察在遮挡、镜头切换、冲刺模糊时目标检测情况和ID变化情况。
与现有技术相比,本发明具有如下优点与有益效果:
1、本发明首次将多目标追踪应用到赛马应用中,并针对赛马的特性规范标注数据。
2、本发明采用ACGAN网络对原始赛马训练标注视频进行数据增强,将数据增强后的GAN赛马标注伪视频和原始赛马训练标注视频一起投入FairMOT多目标追踪模型进行训练。与没有进行数据增强的多目标追踪模型相比,跟踪精度明显提高,ID切换现象明显减少,在目标检测和身份重识别两个任务上,效果都明显优于没有进行数据增强的方法。
3、本发明选择的FairMOT多目标追踪模型对比其它多目标追踪模型,采用了无锚点的框架,并均匀学习目标检测任务和身份重识别任务,不过度依赖检测器的准确率,身份重识别时的ID切换现象明显降低。同时,在同一个网络中完成目标检测任务和身份重识别任务,视频推理速度快。
4、本发明方法在计算机视觉任务中具有广泛的使用空间,操作简单、适应性强,具有广阔的应用前景。
附图说明
图1为本发明所使用U形赛道赛马视频实例示意图。
图2为赛马视频标注规范示意图。
图3为赛马视频数据增强方法整体框架示意图。
图4为ACGAN网络结构示意图。
图5为ACGAN网络生成图片实例示意图。
图6为ACGAN网络生成图片姿势示意图。
图7为赛马视频生成示意图。
图8为FairMOT多目标追踪模型结构示意图。
图9为FairMOT多目标追踪模型的主干网络DLA-34示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述。
针对如图1所示的赛马视频,本实施例提供了一种基于数据增强的赛马场景多目标追踪方法,使用了ACGAN网络及FairMOT多目标追踪模型,其包括以下步骤:
1)对26个原始赛马训练视频和4个原始赛马测试视频的每一帧图像进行人工标注,标注信息包括当前帧号、当前帧标注框数量、选手标注框ID、标注框中心位置和标注框大小。如图2所示,基于MOT16标注基准制定赛马选手标注规范,赛马标注规范如下:
①每个标记框应当尽可能框住对应的每一位赛马选手的所有像素,并与赛马选手边界对齐;
②当一个赛马选手被部分遮挡时,若这个赛马选手的一半像素是可见的或者能够通过可见部分识别出这个赛马选手的身份,则对这个赛马选手进行标注,根据相邻帧、其他选手标注框的大小和视频逻辑线索来估计选手的预期位置和大小,并按预期框住整个赛马选手,即包括被遮挡的部分,若选手被完全遮挡或不能通过可见像素识别出赛马选手身份,则不对其进行标注;
③赛马视频中摄像机切换的片段,同一帧会同时出现两匹相同的马匹和两名相同身份的赛马选手,当同一帧中出现多个相同的赛马选手时,标注最清晰的选手,不够清晰的赛马选手不做标注;
④赛马冲刺时出现的赛马选手模糊情况,依据前后帧和预期路径对其进行标注。
赛马视频中每一帧的参赛选手都根据以上四点规范手动进行标注,得到原始赛马训练标注视频、原始赛马测试标注视频。由于赛马在白天和夜晚都有比赛,实例分别选择了15个白天和15个夜间视频进行标记,在每组15个视频中,13个用作原始赛马训练视频,2个用作原始赛马测试视频。同时赛马有正面场景、侧面场景和背面场景,选择的训练视频都包含以上三个场景。
2)如图3所示,采用ACGAN网络对原始赛马训练视频进行数据增强,ACGAN网络是一种利用辅助信息进行分类的GAN衍生模型。利用ACGAN对步骤1)中获得的26个原始赛马训练标注视频进行数据增强,其中包括13个白天原始赛马训练标注视频和13个夜晚原始赛马训练标注视频,包括以下步骤:
2.1)依据标注框将赛马选手图片摘取出来,每一帧的一名赛马选手图片形成一个样本,组成赛马选手样本集;对赛马选手样本集进行筛选,过滤掉背景杂乱且赛马选手被严重遮挡或模糊的图像,筛选后,一个视频的同一名赛马选手的所有图片样本构成该名选手的ACGAN训练样本序列;为提高数据增强网络训练时每批次赛马选手姿势的多样性并防止过度拟合,训练前分别打乱每名赛马选手的ACGAN训练样本序列。
2.2)构建ACGAN网络。ACGAN由生成器G和判别器D组成,ACGAN网络结构如图4所示。当前实例中,生成器由4个反卷积层组成,用于将输入噪声转换为64×64的图像,对应地,判别器由4个卷积层组成。在使用Leaky Relu作为激活函数之前,使用批量归一化来避免梯度消失并加快收敛速度。
ACGAN网络的判别器D除了需要区分数据是真实数据还是生成器G生成的伪数据以外,还旨在对数据进行分类识别,对应地,ACGAN网络损失函数需要包括真假损失Lvalid和正确类别损失Lcat,两损失表示如下:
Lvalid=E[log P(V=real|Dreal)]+E[log P(V=fake|Dfake)]
Lcat=E[log P(C=c|Dall)]
式中,Lvalid是判别器D判断图片是否为真的损失,Lcat是判别器D判断图片分类正确的损失,Dreal和Dfake分别表示为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片;P(C=c|Dall)表示赛马选手属于哪一类别的概率,c表示赛马选手的一个类别,C表示当前赛马选手所属类别;real和fake分别表明数据为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片,V为当前赛马选手图片的真假判断,P(V=real|Dreal)是指赛马选手图片为ACGAN训练样本序列中的原始赛马选手图片的概率,P(V=real|Dfake)是指赛马选手图片为生成器G生成的伪赛马选手图片的概率;采用log函数使概率呈对数概率分布,E指符合赛马选手图片数据分布的期望值;
判别器D试图区分数据的来源并准确分类,而生成器G旨在混淆真假,整个ACGAN网络的损失函数如下:
D:max(Lcat+Lvalid)
G:min(Lcat-Lvalid)
式中,max和min指将ACGAN网络在使Lcat+Lvalid最大化时,使Lcat-Lvalid最小化;
2.3)将打乱后的ACGAN训练样本序列输入ACGAN网络中进行训练。考虑到赛马通常有8到12名参赛者的特点,每4名参赛者的ACGAN训练样本序列分为一组,形成ACGAN的训练集。经过20000个轮次的训练,得到了可以区分赛马选手身份的清晰图片。ACGAN产生图片效果如图5所示,每名参赛者生成和自己外貌特征相似且姿势不尽相同的样本。同时,参赛者生成图片包括正面图片、侧面图片和背面图片,如图6所示。对ACGAN网络生成的伪赛马选手图像进行再处理,过滤掉质量差和失真的图像。
2.4)用ACGAN网络生成的伪赛马选手图片替换原始赛马训练标注视频中对应类别的赛马选手图片,替换示例如图7所示。对原始赛马训练标注视频中的所有赛马选手重复此过程,得到26个GAN赛马标注伪视频,其中包括13个白天GAN赛马标注伪视频和13个夜晚GAN赛马标注伪视频。
3)采用FairMOT多目标追踪模型对26个原始赛马训练标注视频和26个GAN赛马标注伪视频进行训练,得到最终的赛马场景多目标追踪模型,具体包括以下步骤:
3.1)构建FairMOT多目标追踪模型。FairMOT多目标追踪模型是一种一阶段多目标追踪网络模型,在主干网络上采用两个均匀的分支来分别学习目标检测任务和身份重识别任务。如图8所示,具体模型结构叙述如下:
FairMOT多目标追踪模型使用DLA-34作为主干网络,如图9所示,DLA-34使用残差连接来扩展卷积神经网络,并迭代地集成网络不同阶层和块之间的信息,同时将上采样阶段的标准卷积改为3×3可变形卷积,这种结构允许在后续阶段更加细化特征,定义DLA-34的输入图像尺寸为Himage×Wimage,Himage表示输入图像的高,Wimage表示输入图像的宽。
在主干网络上,FairMOT建立了目标检测分支和身份重识别分支;目标检测分支采用三个平行检测头来记录标注框的位置、偏移程度和标注框大小,三个平行检测头分别是热图检测头、中心偏移检测头和标注框尺寸检测头,每个检测头由一个3×3的卷积层和一个1×1的卷积层组成;热图的峰值被认为是物体中心的位置,使用维度为1×H×W的热图检测头来定位赛马选手的中心,H=Himage/4,W=Wimage/4;维度为2×H×W的中心偏移检测头用于校正DLA-34中下采样产生的离散化误差,以调整热图估计的中心点的位置;维度为2×H×W的标注框尺寸检测头估计标注边界框的宽度和高度;身份重识别分支的目的是为相邻帧中的同一赛马选手赋予相同的标签,不同的赛马选手赋予不同的标签,该分支使用128核的卷积层为每个边界框提取特征,生成的特征图的维度为128×H×W。
FairMOT多目标追踪模型从原始赛马训练标注视频中输入一张带有标注框的图片M∈R(W×H×3),R表示实数集,图片中第i个赛马选手标注框左上角和右下角的位置记分别为和/> 表示第i个赛马选手标注框左上角位置的横坐标,/>表示第i个赛马选手标注框左上角位置的纵坐标,/>表示第i个赛马选手标注框右下角位置的横坐标,/>表示第i个赛马选手标注框右下角位置的纵坐标;第i个标注框的中心点位置zi表示为 表示第i个赛马选手标注框中心点位置的横坐标,/>表示第i个赛马选手标注框中心点位置的纵坐标,其计算方式为/>依据FairMOT多目标追踪模型的主干网络DLA-34步长,将FairMOT多目标追踪模型中的特征图重写为 表示第i个赛马选手的实际标注框中心,/>表示第i个赛马选手的实际标注框中心点位置的横坐标,/>表示第i个赛马选手的实际标注框中心点位置的纵坐标,第i个赛马选手的实际标注框的宽wi和高hi分别表示为/>和/>则第i个选手的实际标注框Gi的表示为/>
依据热图值来计算中心点的位置,赛马选手的实际标注框中心热图值Hxy的计算公式如下:
式中,x和y为FairMOT多目标追踪模型的预测标注框的中心点位置的横坐标和纵坐标,σc为标准差,N代表当前帧中的实际标注框的数量;对应地,预测标注框的中心位置热图值用表示,则实际标注框和预测标注框之间的误差Lcenter利用热图计算如下,其中α和β为预先自主设定的参数:
对目标对象的中心位置进行预测后,使用中心偏移检测头来微调预测标注框的中心点位置,Loffset表示为预测标注框偏移损失,表示为:
式中,实际中心偏移量 为对应的估计中心偏移量。
得到目标对象的预测位置后,对象的尺寸由标注框尺寸检测头来估计;分别用si=(wi,hi)和来表示实际标注框大小和预测标注框大小,/>表示预测标注框的宽,/>表示预测标注框的高,则标注框尺寸差异损失函数Lsize计算如下:
结合以上三项损失,用于优化FairMOT目标检测能力的损失函数Ldetect表示为:
Ldetect=Lcenter+Loffset+Lsize
目标检测分支检测到目标后,身份重识别分支对标注框中的对象的特征进行学习,将当前对象与其它对象区分开来;利用卷积层提取特征并组合成特征图I∈RW×H×128,对于每一个中心点位置在(x,y)的对象,特征图被记为Ix,y;因此对于从检测层得到的每一个实际标注框Gi,身份特征向量表示为则身份重识别分支损失Lid计算如下:
式中,K代表标注对象类别的数量;通过Li(k)为单热编码将第k个对象编码,p(k)为第k个对象的预测的类别的可能性分布;
为了平衡目标检测分支和身份重识别分支,确保模型不会过多依赖检测器,依据同方差不确定性理论引入参数u1和u2来计算整个模型的损失Lmot,表示为:
3.2)FairMOT多目标追踪模型构建完成后,输入原始赛马训练标注视频和GAN赛马标注伪视频训练。由于赛马场景包括白天和夜晚两组,因此我们对26个白天赛马训练标注视频和26个夜晚赛马训练标注视频,包括13个白天原始赛马训练标注视频、13个白天GAN赛马标注伪视频、13个夜晚原始赛马训练标注视频和13个夜晚GAN赛马标注伪视频,分别训练30个轮次,得到白天赛马场景多目标追踪模型和夜晚赛马场景多目标追踪模型。
4)分别输入白天原始赛马测试视频和夜晚原始赛马测试视频进行测试,得到白天赛马场景多目标追踪模型和夜晚赛马场景多目标追踪模型处理后的白天赛马追踪测试视频和夜晚赛马追踪测试视频。采用没有进行数据增强的FairMOT多目标追踪模型和赛马场景多目标追踪模型进行对比,选择MOTA、IDF1、ID和FP指标来衡量多目标追踪的效果,并将赛马场景多目标追踪模型处理后的白天赛马追踪测试视频和夜晚赛马追踪测试视频与白天原始赛马测试标注视频和夜晚原始赛马测试标注视频进行结果比较,着重观察在遮挡、镜头切换、冲刺模糊时目标检测情况和ID变化情况。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.基于数据增强的赛马场景多目标追踪方法,其特征在于,包括以下步骤:
1)遵循MOT16标注基准和赛马选手标注规范,对原始赛马训练视频和原始赛马测试视频的每一帧图像进行人工标注,得到原始赛马训练标注视频和原始赛马测试标注视频,标注信息包括当前帧号、当前帧标注框数量、选手标注框ID、标注框中心位置和标注框大小;
2)采用ACGAN网络对原始赛马训练标注视频进行数据增强,获得GAN赛马标注伪视频;
3)采用FairMOT多目标追踪模型对原始赛马训练标注视频和GAN赛马标注伪视频进行训练,得到最终的赛马场景多目标追踪模型;
使用的FairMOT多目标追踪模型是一种一阶段多目标追踪网络模型,在主干网络上采用两个均匀的分支来分别学习目标检测任务和身份重识别任务,所述步骤3)包括以下步骤:
3.1)构建FairMOT多目标追踪模型,具体模型结构叙述如下:
使用DLA-34作为主干网络,DLA-34使用残差连接来扩展卷积神经网络,并迭代地集成网络不同阶层和块之间的信息,同时将上采样阶段的标准卷积改为3×3可变形卷积,这种结构允许在后续阶段更加细化特征,定义DLA-34的输入图像尺寸为Himage×Wimage,Himage表示输入图像的高,Wimage表示输入图像的宽;
在主干网络上,FairMOT建立了目标检测分支和身份重识别分支;目标检测分支采用三个平行检测头来记录标注框的位置、偏移程度和标注框大小,三个平行检测头分别是热图检测头、中心偏移检测头和标注框尺寸检测头,每个检测头由一个3×3的卷积层和一个1×1的卷积层组成;热图的峰值被认为是物体中心的位置,使用维度为1×H×W的热图检测头来定位赛马选手的中心,H=Himage/4,W=Wimage/4;维度为2×H×W的中心偏移检测头用于校正DLA-34中下采样产生的离散化误差,以调整热图估计的中心点的位置;维度为2×H×W的标注框尺寸检测头估计标注边界框的宽度和高度;身份重识别分支的目的是为相邻帧中的同一赛马选手赋予相同的标签,不同的赛马选手赋予不同的标签,该分支使用128核的卷积层为每个边界框提取特征,生成的特征图的维度为128×H×W;
FairMOT多目标追踪模型从原始赛马训练标注视频中输入一张带有标注框的图片M∈R(W×H×3),R表示实数集,图片中第i个赛马选手标注框左上角和右下角的位置记分别为和/> 表示第i个赛马选手标注框左上角位置的横坐标,/>表示第i个赛马选手标注框左上角位置的纵坐标,/>表示第i个赛马选手标注框右下角位置的横坐标,/>表示第i个赛马选手标注框右下角位置的纵坐标;第i个标注框的中心点位置zi表示为 表示第i个赛马选手标注框中心点位置的横坐标,/>表示第i个赛马选手标注框中心点位置的纵坐标,其计算方式为/>依据FairMOT多目标追踪模型的主干网络DLA-34步长,将FairMOT多目标追踪模型中的特征图重写为 表示第i个赛马选手的实际标注框中心,/>表示第i个赛马选手的实际标注框中心点位置的横坐标,/>表示第i个赛马选手的实际标注框中心点位置的纵坐标,第i个赛马选手的实际标注框的宽wi和高hi分别表示为/>和/>则第i个选手的实际标注框Gi的表示为/>
依据热图值来计算中心点的位置,赛马选手的实际标注框中心热图值Hxy的计算公式如下:
式中,x和y为FairMOT多目标追踪模型的预测标注框的中心点位置的横坐标和纵坐标,σc为标准差,N代表当前帧中的实际标注框的数量;对应地,预测标注框的中心位置热图值用表示,则实际标注框和预测标注框之间的误差Lcenter利用热图计算如下,其中α和β为预先自主设定的参数:
对目标对象的中心位置进行预测后,使用中心偏移检测头来微调预测标注框的中心点位置,Loffset表示为预测标注框偏移损失,表示为:
式中,实际中心偏移量 为对应的估计中心偏移量;
得到目标对象的预测位置后,对象的尺寸由标注框尺寸检测头来估计;分别用si=(wi,hi)和来表示实际标注框大小和预测标注框大小,/>表示预测标注框的宽,/>表示预测标注框的高,则标注框尺寸差异损失函数Lsize计算如下:
结合以上三项损失,用于优化FairMOT目标检测能力的损失函数Ldetect表示为:
Ldetect=Lcenter+Loffset+Lsize
目标检测分支检测到目标后,身份重识别分支对标注框中的对象的特征进行学习,将当前对象与其他对象区分开来;利用卷积层提取特征并组合成特征图I∈RW×H×128,对于每一个中心点位置在(x,y)的对象,特征图被记为Ix,y;因此对于从检测层得到的每一个实际标注框Gi,身份特征向量表示为则身份重识别分支损失Lid计算如下:
式中,K代表标注对象类别的数量;通过Li(k)为单热编码将第k个对象编码,p(k)为第k个对象的预测的类别的可能性分布;
为了平衡目标检测分支和身份重识别分支,确保模型不会过多依赖检测器,依据同方差不确定性理论引入参数u1和u2来计算整个模型的损失Lmot,表示为:
3.2)FairMOT多目标追踪模型构建完成后,输入原始赛马训练标注视频和GAN赛马标注伪视频训练,得到最终的赛马场景多目标追踪模型;
4)输入原始赛马测试视频至赛马场景多目标追踪模型中,得到赛马场景多目标追踪模型处理后的赛马追踪测试视频,与原始赛马测试标注视频进行结果比较,判断追踪效果。
2.根据权利要求1所述的基于数据增强的赛马场景多目标追踪方法,其特征在于,在步骤1)中,在标记赛马选手时,为了后续步骤能够得到高质量的GAN赛马标注伪视频和准确率高的赛马场景多目标追踪模型,遵循以下规范:
①每个标记框应当尽可能框住对应的每一位赛马选手的所有像素,并与赛马选手边界对齐;
②当一个赛马选手被部分遮挡时,若这个赛马选手的一半像素是可见的或者能够通过可见部分识别出这个赛马选手的身份,则对这个赛马选手进行标注,根据相邻帧、其他选手标注框的大小和视频逻辑线索来估计选手的预期位置和大小,并按预期框住整个赛马选手,即包括被遮挡的部分,若选手被完全遮挡或不能通过可见像素识别出赛马选手身份,则不对其进行标注;
③赛马视频中摄像机切换的片段,同一帧会同时出现两匹相同的马匹和两名相同身份的赛马选手,当同一帧中出现多个相同的赛马选手时,标注最清晰的选手,不够清晰的赛马选手不做标注;
④赛马冲刺时出现的赛马选手模糊情况,依据前后帧和预期路径对其进行标注;
赛马视频中每一帧的赛马选手都根据以上四点规范手动进行标注,得到原始赛马训练标注视频和原始赛马测试标注视频,同时赛马时有正面场景、侧面场景和背面场景,选择的赛马视频都包含以上三个场景。
3.根据权利要求1所述的基于数据增强的赛马场景多目标追踪方法,其特征在于,所述步骤2)包括以下步骤:
2.1)针对步骤1)标注的原始赛马训练标注视频,依据标注框将赛马选手图片摘取出来,每一帧的一名赛马选手图片形成一个样本,组成赛马选手样本集;对赛马选手样本集进行筛选,过滤掉背景杂乱且赛马选手被严重遮挡或模糊的图像,筛选后,一个视频的同一名赛马选手的所有图片样本构成该名选手的ACGAN训练样本序列;为提高数据增强网络训练时每批次赛马选手姿势的多样性并防止过度拟合,训练前分别打乱每名赛马选手的ACGAN训练样本序列;
2.2)构建ACGAN网络对原始赛马训练标注视频进行数据增强,ACGAN网络是一种利用辅助信息进行分类的对抗生成网络衍生模型,使用标签信息来训练整个对抗网络,并将判别器从真假二元分类器重构为能够区分数据类别的多元分类器;
ACGAN网络由生成器G和判别器D组成;ACGAN网络的判别器D除了需要区分数据是真实数据还是生成器G生成的伪数据以外,还旨在对数据进行分类识别,对应地,ACGAN网络损失函数需要包括真假损失Lvalid和正确类别损失Lcat,两损失表示如下:
Lvalid=E[log P(V=real|Dreal)]+E[log P(V=fake|Dfake)]
Lcat=E[log P(C=c|Dall)]
式中,Lvalid是判别器D判断图片是否为真的损失,Lcat是判别器D判断图片分类正确的损失,Dreal和Dfake分别表示为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片;P(C=c|Dall)表示赛马选手属于哪一类别的概率,c表示赛马选手的一个类别,C表示当前赛马选手所属类别;real和fake分别表明数据为ACGAN训练样本序列中的原始赛马选手图片和生成器G生成的伪赛马选手图片,V为当前赛马选手图片的真假判断,P(V=real|Dreal)是指赛马选手图片为ACGAN训练样本序列中的原始赛马选手图片的概率,P(V=real|Dfake)是指赛马选手图片为生成器G生成的伪赛马选手图片的概率;采用log函数使概率呈对数概率分布,E指符合赛马选手图片数据分布的期望值;
判别器D试图区分数据的来源并准确分类,而生成器G旨在混淆真假,整个ACGAN网络的损失函数如下:
D:max(Lcat+Lvalid)
G:min(Lcat-Lvalid)
式中,max和min指将ACGAN网络在使Lcat+Lvalid最大化时,使Lcat-Lvalid最小化;
2.3)将打乱后的ACGAN训练样本序列输入ACGAN网络中,生成伪赛马选手图片;对伪赛马选手图片进行再处理,过滤掉质量差和失真的图片;
2.4)用ACGAN网络生成的伪赛马选手图片替换原始赛马训练标注视频中对应类别的赛马选手图片;对原始赛马训练标注视频中的所有赛马选手重复此过程以创建GAN赛马标注伪视频。
4.根据权利要求1所述的基于数据增强的赛马场景多目标追踪方法,其特征在于,在步骤4)中,输入原始赛马测试视频至赛马场景多目标追踪模型中,得到赛马场景多目标追踪模型处理后的赛马追踪测试视频,选择MOTA、IDF1、ID和FP指标来衡量多目标追踪的效果,并与原始赛马测试标注视频进行结果比较,着重观察在遮挡、镜头切换、冲刺模糊时目标检测情况和ID变化情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210573112.0A CN115082517B (zh) | 2022-05-25 | 2022-05-25 | 基于数据增强的赛马场景多目标追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210573112.0A CN115082517B (zh) | 2022-05-25 | 2022-05-25 | 基于数据增强的赛马场景多目标追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115082517A CN115082517A (zh) | 2022-09-20 |
CN115082517B true CN115082517B (zh) | 2024-04-19 |
Family
ID=83249514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210573112.0A Active CN115082517B (zh) | 2022-05-25 | 2022-05-25 | 基于数据增强的赛马场景多目标追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115082517B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486313B (zh) * | 2023-06-25 | 2023-08-29 | 安元科技股份有限公司 | 一种适应场景的视频分析系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161309A (zh) * | 2019-11-19 | 2020-05-15 | 北航航空航天产业研究院丹阳有限公司 | 一种车载视频动态目标的搜索与定位方法 |
CN112288008A (zh) * | 2020-10-29 | 2021-01-29 | 四川九洲电器集团有限责任公司 | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 |
CN114241053A (zh) * | 2021-12-31 | 2022-03-25 | 北京工业大学 | 基于改进的注意力机制FairMOT多类别跟踪方法 |
CN114387265A (zh) * | 2022-01-19 | 2022-04-22 | 中国民航大学 | 一种基于添加注意力模块的无锚框检测、跟踪统一方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580487A (zh) * | 2018-06-08 | 2019-12-17 | Oppo广东移动通信有限公司 | 神经网络的训练方法、构建方法、图像处理方法和装置 |
US11132780B2 (en) * | 2020-02-14 | 2021-09-28 | Huawei Technologies Co., Ltd. | Target detection method, training method, electronic device, and computer-readable medium |
-
2022
- 2022-05-25 CN CN202210573112.0A patent/CN115082517B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161309A (zh) * | 2019-11-19 | 2020-05-15 | 北航航空航天产业研究院丹阳有限公司 | 一种车载视频动态目标的搜索与定位方法 |
CN112288008A (zh) * | 2020-10-29 | 2021-01-29 | 四川九洲电器集团有限责任公司 | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 |
CN114241053A (zh) * | 2021-12-31 | 2022-03-25 | 北京工业大学 | 基于改进的注意力机制FairMOT多类别跟踪方法 |
CN114387265A (zh) * | 2022-01-19 | 2022-04-22 | 中国民航大学 | 一种基于添加注意力模块的无锚框检测、跟踪统一方法 |
Non-Patent Citations (1)
Title |
---|
深度学习的目标跟踪算法综述;李玺;查宇飞;张天柱;崔振;左旺孟;侯志强;卢湖川;王菡子;;中国图象图形学报;20191216(12);第5-28页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115082517A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472554B (zh) | 基于姿态分割和关键点特征的乒乓球动作识别方法及系统 | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN111611905B (zh) | 一种可见光与红外融合的目标识别方法 | |
CN108388885B (zh) | 面向大型直播场景的多人特写实时识别与自动截图方法 | |
US20230289979A1 (en) | A method for video moving object detection based on relative statistical characteristics of image pixels | |
Yao et al. | When, where, and what? A new dataset for anomaly detection in driving videos | |
CN106707296A (zh) | 一种基于双孔径光电成像系统的无人机检测与识别方法 | |
CN107133610B (zh) | 一种复杂路况下行车流量视觉检测与计数方法 | |
CN106886778B (zh) | 一种监控场景下车牌字符分割与识别方法 | |
CN111260738A (zh) | 基于相关滤波和自适应特征融合的多尺度目标跟踪方法 | |
CN105913002B (zh) | 视频场景下在线自适应的异常事件检测方法 | |
CN108268871A (zh) | 一种基于卷积神经网络的端到端的车牌识别方法和系统 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN113128507B (zh) | 一种车牌识别方法、装置、电子设备及存储介质 | |
CN112733680B (zh) | 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备 | |
CN107122732B (zh) | 一种监控场景下高鲁棒性的快速车牌定位方法 | |
CN107609509A (zh) | 一种基于运动显著性区域检测的动作识别方法 | |
CN106529441B (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
CN106096523A (zh) | 一种视频图像序列中运动目标的检出与异常行为分析算法 | |
CN115082517B (zh) | 基于数据增强的赛马场景多目标追踪方法 | |
CN111597992B (zh) | 一种基于视频监控的场景物体异常的识别方法 | |
CN113255549B (zh) | 一种狼群围猎行为状态智能识别方法及系统 | |
CN106778675B (zh) | 一种视频图像中目标对象的识别方法和装置 | |
CN113011408A (zh) | 多帧图片序列的字符识别、车辆识别码识别方法及系统 | |
CN116665097A (zh) | 一种结合上下文感知的自适应目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |