CN113362372B

CN113362372B - 一种单目标追踪方法及计算机可读介质

Info

Publication number: CN113362372B
Application number: CN202110570260.2A
Authority: CN
Inventors: 赵生捷; 王长海; 韩丰夏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-05-02
Anticipated expiration: 2041-05-25
Also published as: CN113362372A

Abstract

本发明涉及一种单目标追踪方法及计算机可读介质，其中单目标追踪方法包括：步骤1：获取待检测的视频帧序列，对所有的视频帧进行数据增强预处理；步骤2：将视频帧序列输入训练好的单目标检测模型；步骤3：单目标检测模型输出目标分类结果和对应的边界框估计值；步骤4：筛选目标分类结果中的待追踪单目标，输出其边界框估计值，完成单目标追踪。与现有技术相比，本发明具有目标追踪性能好等优点。

Description

一种单目标追踪方法及计算机可读介质

技术领域

本发明涉及计算机视觉跟踪技术领域，尤其是涉及一种基于遮挡检测和DiMP检测模型的单目标追踪方法及计算机可读介质。

背景技术

视觉对象跟踪是计算机视觉领域最重要的研究课题之一，它具有许多不同的应用，例如自动驾驶，机器人技术，智能运输系统，人机交互和视频监控等。一般情况下，单目标跟踪的过程为跟踪方法根据给定视频序列的每帧第一帧中的初始边界框，自动估计任意对象的位置。近年来，一种基于判别模型预测的跟踪器因其出色的判别能力和跟踪性能而在视觉跟踪领域引起了极大关注，该方法通过将目标特征与背景区别开来对目标对象进行定位，并训练网络来预测真值框和估计的边界框之间重叠大小。然而，上述跟踪方法只能跟踪对初始帧具有最大响应的目标对象。在遮挡，照明变化和背景混乱的情况下，该跟踪方法容易出现故障。目标遮挡作为视觉跟踪中最具挑战性的问题之一。在复杂的现实生活环境中非常普遍，遮挡可以具体分为两种情况。一种是语义遮挡，可以看作是干扰因素，另一种是非语义遮挡。

目前在目标追踪技术领域，一个优选地算法为DiMP算法，该算法虽然实现了目标检测追踪，但是该算法在应对形变、遮挡、快速移动模糊等挑战时，会有较大的跟踪失败的概率，尤其是在面对容易遮挡的环境中会出现目标丢失、目标漂移等问题，导致后续的跟踪过程难以修正与进行。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种目标追踪性能好的单目标追踪方法及计算机可读介质。

本发明的目的可以通过以下技术方案来实现：

一种单目标追踪方法，所述的单目标追踪方法包括以下步骤：

步骤1：获取待检测的视频帧序列，对所有的视频帧进行数据增强预处理；

步骤2：将视频帧序列输入训练好的单目标检测模型；

步骤3：单目标检测模型输出目标分类结果和对应的边界框估计值；

步骤4：筛选目标分类结果中的待追踪单目标，输出其边界框估计值，完成单目标追踪。

优选地，所述的单目标检测模型包括：

第一特征提取模块，输入为目标的模板图像，输出的特征用于训练模型预测模块；

第二特征提取模块，输入为待跟踪的图像，输出的特征分别输入到级联金字塔模块和特征拼接模块；

级联金字塔模块，对输入的前一视频帧图像和第二特征提取模块输出的待跟踪图像特征进行级联操作，将级联特征输入到特征拼接模块；

特征拼接模块，拼接第二特征提取模块输出的待跟踪图像特征和级联金字塔输出的级联特征，将拼接特征输出到卷积块；

模型预测模块，通过模板图像特征以元学习的方式预测卷积块的权重，并将权重输出到卷积块；

卷积块，根据模型预测模块输出的权重参数对拼接特征进行卷积操作，输出目标分类结果和对应的边界框估计值。

更加优选地，所述的第一特征提取模块和第二特征提取模块均为ResNet50卷积神经网络。

更加优选地，所述的级联金字塔模块具体为：

给出图像的深度特征为

级联金字塔模块的输出

为：

F₁'＝SAB(F₁)

F₂'＝SAB([F₂；F₁'；PrPool(F₁')])

F₃'＝SAB([F₃；F₂'；PrPool(F₂')])

F'＝SAB([F₄；F₃'；PrPool(F₃')])

其中，F₁、F₂、F₃和F₄分别为输入的四张图像的深度特征；F₁'、F₂'、F₃'和F₄'分别为输入的四张图像深度特征对应级联结构的的输出；PrPool运算符表示ROI合并层；SAB运算符表示空间注意力模块运算。

更加优选地，所述的空间注意力模块运算SAB具体为：

空间注意力输出F^s的计算方法为：

其中，F为图像的深度特征；F^*为F精准池化后的输出结果；AvgPool表示平均池化层；MaxPool表示最大池化层；Conv为卷积操作。

更加优选地，所述的模型预测模块具体为判别式模型。

优选地，所述的单目标检测模型的训练方法为：

获取训练集样本；

扩展训练集样本；

使用训练集训练单目标检测模型，直到获取最小化损失函数，完成模型训练。

更加优选地，所述的扩展训练集样本的方法为：

对训练集样本进行随机遮挡处理，在正样本中随机以若干帧为周期，在前一帧真实目标框的中心点附近若干个像素以内随机生成其他帧内的目标从而生成具有语义遮挡和非语义遮挡的数据集，获得扩展后的训练样本数据集。

更加优选地，所述的损失函数具体为：

其中，λ为正则化参数；τ_w(x)是由w作为权重的卷积神经网络提取的外观深度特征；训练集S_train是从训练数据集图像中提取的具有相应真实标签的数据集和；残差块r(τ_w(x),c)用于计算真值边界框与位置预测之间的误差。

一种计算机可读介质，所述的计算机可读介质内存储有如上述中任一项所述的单目标追踪方法。

与现有技术相比，本发明具有以下有益效果：

目标追踪性能好：本发明中的单目标追踪方法设计了一个级联的金字塔模块来融合先前目标外观的不同部分，可以处理语义遮挡并提高跟踪器的鲁棒性；并且融合了空间注意力模块，引入注意机制，有助于模块辨别特征的哪一部分最重要，并处理非语义遮挡；将级联金字塔模块和空间注意力模块集成到判别式模型中，大大提高了单目标的检测和追踪性能；经过验证，本发明中的单目标追踪方法对于遮挡、光照变化、快速移动和尺度变化等均具有较好的适应能力，系统的鲁棒性强，追踪性能好。

附图说明

图1为本发明中单目标追踪方法的流程示意图；

图2为本发明中单目标检测模型的结构示意图；

图3为本发明中级联金字塔模块的结构示意图；

图4为本发明中空间注意力模块的结构示意图；

图5为本发明实施例中对比实验在OTB-100数据集中的成功率图；

图6为本发明实施例中对比实验在OTB-100数据集中的准确图；

图7为本发明实施例中对比实验在OTB-100数据集中具有遮挡的情况下的成功率图；

图8为本发明实施例中对对比实验在OTB-100数据集中具有光照变化的情况下的成功率图；

图9为本发明实施例中对对比实验在OTB-100数据集中快速移动的情况下的成功率图；

图10为本发明实施例中对对比实验在OTB-100数据集中具有尺度变化的情况下的成功率图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于遮挡检测和DiMP检测模型的单目标追踪方法，其流程如图1所示，包括：

步骤2：将视频帧序列输入训练好的单目标检测模型；

本实施例中的单目标检测模型的结构如图2所示，包括：

(1)特征提取模块

数量为两个，分别为第一特征提取模块和第二特征提取模块。

第一特征提取模块，输入为目标的模板图像，输出的特征用于训练模型预测模块。

第二特征提取模块，输入为待跟踪的图像，输出的特征分别输入到级联金字塔模块和特征拼接模块。

本实施例中的两个特征提取模块均为ResNet50卷积神经网络。

(2)级联金字塔模块

对输入的前一视频帧图像和第二特征提取模块输出的待跟踪图像特征进行级联操作，将级联特征输入到特征拼接模块。

级联金字塔模块，本质上是一种多尺度特征的融合的方法，因为在深度卷积神经网络中，高层网络的卷积核的感受野较大，对图像特征表示的抽象能力强，但图像特征表示的几何信息弱；低层网络卷积核感受野较小，图像特征表示的几何信息强，图像特征表示的抽象表示能力弱。所以,在无人驾驶场景下进行目标跟踪的遮挡感知，很重要的一种思路就是融合多尺度的图像特征，结合目标轮廓等几何信息和整体的语义信息两种信息对是否是待跟踪的目标进行判别。

因此，本算法针对判别模型预测网络设计了级联金字塔模块。如图3所示，首先，将前一帧分为四个相等的部分，并调整分辨率为224×224。级联金字塔模块接收输入图像并使用预训练的卷积残差网络ResNet50计算其特征，并获得中间层输出作为特征输出。ResNet50深度神经网络的权重在级联金字塔模块中是参数共享的。一方面，通过将卷积神经网络的低层和高层网络进行级联获得几何表示能力和抽象表示能力；另一方面，通过将前述已经分割好的视频帧的不同部分的特征进行融合，以此提高模型对发生遮挡的情况进行感知。

以ResNet作为基础结构的深度神经网络为例，若给出的深度特征为

级联金字塔模块的输出

为：

F₁'＝SAB(F₁)

F₂'＝SAB([F₂；F₁'；PrPool(F₁')])

F₃'＝SAB([F₃；F₂'；PrPool(F₂')])

F'＝SAB([F₄；F₃'；PrPool(F₃')])

在该模块中，采用2×2内核大小作为精确池化层，最终生成的特征相互串联以进行级联，从而提高了网络的判别能力。

(3)级联金字塔模块中的空间注意力模块

如图4所示，空间注意力集中在信息部分的哪一部分，并处理非语义遮挡。为了计算空间注意力，空间注意力模块接收从级联金字塔模块的主干卷积神经网络中提取的第三层特征以及精确的池化层输出。首先在通道之间应用最大池化和平均池化操作，这对于突出显示信息区域非常有效，然后将它们连接在一起，并采用卷积层以获得空间注意力输出。

空间注意力输出F^s的计算方法为：

其中，F为图像的深度特征；F^*为F精准池化后的输出结果；AvgPool表示平均池化层，在降低特征参数的同时更多的保留图像的背景信息；MaxPool表示最大池化层，在降低特征参数的同时更多的保留图像的纹理信息；Conv为……。

对特征图应用平均池化层和最大池化层再拼接是为了结合前述级联金字塔模块从多个尺度的角度捕获目标的可能存在的遮挡信息。

(4)特征拼接模块，拼接第二特征提取模块输出的待跟踪图像特征和级联金字塔输出的级联特征，将拼接特征输出到卷积块。

(5)模型预测模块，采用判别式模型，通过模板图像特征以元学习的方式预测卷积块的权重，并将权重输出到卷积块。

(6)卷积块，根据模型预测模块输出的权重参数对拼接特征进行卷积操作，输出目标分类结果和对应的边界框估计值。

本实施例中单目标检测模型的训练方法为：

获取训练集样本；

扩展训练集样本；

为了训练单目标跟踪模型在跟踪过程中对遮挡挑战更加的鲁棒，使用遮挡训练样本对遮挡情况进行模拟训练非常重要。这是确保网络可以有效学习区分遮挡情况的能力所必需的。因此，本算法在使用训练集进行训练的时候，对训练集样本进行了随机遮挡处理以扩展训练集样本，具体方法为：

本实施例以20帧为周期，在前一帧真实目标框的中心点附近40个像素以内随机生成其他帧内的目标从而生成具有语义遮挡和非语义遮挡的数据集，以解决训练数据的正负样本用平衡的问题。

单目标检测模型的最终目标是要优化预测的边界框位置与真实的边界框位置的交并比最小，所以本实施例以边界框的均方损失误差为基础，提出一种新的损失函数，具体为：

在训练时，使用Nvidia Titan V GPU上进行端到端的训练，训练使用的优化器是Adam，其初始学习率为10-²，每20个周期将其降低5倍。

本实施例还涉及一种计算机可读介质，该介质内存储有如上述任一项所述的单目标检测模型。

本实施例选用三种不同的数据集来对本申请中的单目标追踪方法进行验证，具体为：

1、选择实验数据集

OTB-100是单目标跟踪下的数据集，包括连续的100个的视频序列，不同的视频序列还标有不同的标签，这些属性可以代表目标跟踪领域的常见的挑战。例如，IV表示光照变化，SV表示目标大小的变化，OCC表示遮挡，DEF表示目标形变，MB表示运动模糊，FM表示目标快速移动，IPR表示平面内旋转，OPR表示平面外旋转，OV表示离开视野，BC表示相似的背景，LR表示低的分辨率挑战。

VOT-2018数据集一个针对单目标跟踪的性能测试平台，每年都会有对应的单目标跟踪挑战赛。VOT提出，评价系统应该在跟踪器跟丢的时候检测到跟踪失败的情况，并在跟踪失败情况发生的5帧之后对跟踪器重新初始化，这样可以充分利用数据集。

TrackingNet数据集是现有的大规模的目标检测的数据集Youtube-BB的子集，该数据集包含30000左右个视频。TrackingNet是针对单目标跟踪的第一个大规模的数据集，它包含了丰富的目标类别的分布，用来测试目标跟踪算法，可以较好地反映在真实世界的目标跟踪效果。

2、实验的评价指标

(1)OTB-100评价指标主要有成功率图(Success Plot)和精确图(PrecisionPlot)两种评价方法。

成功率图(Success Plot)的绘制方法是计算成功跟踪的视频帧占所有视频帧的百分比值。为了判断某一帧是否成功被跟踪，首先定义重合率得分(overlap score，OS)，对于跟踪算法在当前帧得到的边界框记为a，而真实的边界框记为b，重合率定义为

当某一帧的重合率得分大于一个设定的阈值时即为成功跟踪。总的成功的帧占所有帧的百分比即为成功率。

精确图(Precision Plot)是估计的目标位置的中心点与人工标注的真实目标边界框的中心点，这两者的欧式距离小于给定阈值的视频帧的百分比的一条曲线，该图可以反映预测边界框的精准程度，但该图无法反映目标物体大小与尺度的变化带来的影响。

(2)VOT2018数据集主要有三个评价指标，准确率、鲁棒性、平均重叠期望

准确率(Accuracy)，评价跟踪器跟踪目标的准确度，数值越大，准确度越高，它是当前帧的真实边界框和预测边界框的交并比的平均值。

第t帧的准确率定义为：

其中，

代表第t帧跟踪器预测的目标的边界框，

代表第t帧真实的边界框。

鲁棒性(Robustness)，评价跟踪器跟踪目标的稳定性，数值越大，稳定性越差，它是一个跟踪器在跟踪失败次数的平均数。

其中，N_rep表示跟踪器在一个序列上重复跑的次数，F(k)是在k的失败次数。

平均重叠期望(Expected Average Overlap，EAO)，这个指标是只针对基于交并比定义的准确率，是平均覆盖率值在视频帧间隔内的积分除以正则化项。

(3)TrackingNet数据集的评价指标也有三个，精确率(Precision)、成功率(Success)、归一化精确率(Normalized Precision)。该评价指标中前两个指标的定义和OTB-100数据集的定义相同，而归一化精确率则是由于精确度的度量依赖于图像尺度的大小和真实的边界框的大小，将图像边界框归一化后可以更加准确的体现精确率。

3、实验的评价基准算法

选取目前具有代表性的算法在OTB-100、VOT2018和TrackingNet三个数据集上进行了相同实验环境的验证，包括：ECO算法、SiamRPN算法、Da-SiamRPN算法、SiamRPN++算法、ATOM算法、DiMP-50算法。

4、对比实验

(1)在OTB-100数据集上对提出的算法验证，结果如图5和图6所示。使用第一帧真实边界框中目标作为目标模板，然后运行跟踪算法得到平均精度和成功率，这种方法被称为One-Pass Evaluation(OPE)，可以看出本实施例中的单目标追踪方法在OPE成功率图得到的成功率最高，精确图也有不错的效果，该结果验证了本实施例中的单目标追踪方法可以提高单目标跟踪算法的精度。

在OTB-100数据集上还进行了例如光照、遮挡、变形等极端情况的成功率，分别如图7～10所示。结果表明得益于引入级联金字塔模块和空间注意力模块本实施例中的单目标追踪算法对目标的尺度变换和遮挡的挑战表现最好，同时在快速移动和光照变化的情况挑战结果也非常优秀。

(2)在VOT2018数据集挑战上验证了算法效果，得到表1所示数据。通过分析该表的数据，可以得到本实施例中的单目标追踪方法在EAO和Accuracy两项指标上都优于其他算法，在Robustness效果也较DiMP算法有一定的提升。

表1 VOT2018数据集对比实验

(3)对于TrackingNet，得到对比结果如表2所示，TrackingNet是一种较大规模的数据集，它包含了丰富的目标类别的分布，可以较好地反映在真实世界的目标跟踪效果。通过分析该表的数据，本实施例中的单目标追踪方法跟踪效果相对于其他算法是最好的，可以进一步说明在真实场景中的准确性和鲁棒性都很好。

表2 TrackingNet数据集对比实验结果

	Precision(％)	Norm.Prec(％)	Success(％)
				ECO	49.2	61.8	55.4
SiamFC	53.3	66.6	57.1
				SiamRPN	55.2	69.9	60.2
DaSiamRPN	59.1	73.3	63.8
				ATOM	64.8	77.1	70.3
SiamRPN++	69.4	80.0	73.3
				DiMP-50	68.7	80.1	74.0
Ours	68.9	81.1	74.0

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。