CN114399661A

CN114399661A - 一种实例感知主干网络训练方法

Info

Publication number: CN114399661A
Application number: CN202111670920.0A
Authority: CN
Inventors: 黄姗姗; 马龙; 吴海波; 杨静; 彭扬帆; 徐玉; 赵佳尧; 杜江斌; 魏邹建
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-26

Abstract

本发明涉及一种实例感知主干网络训练方法，应用于多目标视觉跟踪，包括网络模型预训练和模型微调再训练，其中网络模型预训练具体为：将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数；使用中间参数执行反向传播更新中间参数；执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距；迭代执行正向传播和反向传播得到最优目标分类主干网络。通过本发明提供的技术方案，能实现实例类间间距和类内间距同时增加，提高了多目标视觉跟踪的成功率和精度，同时不改变原始主干网络的网络结构、训练数据和超参数，使用极为便利。

Description

一种实例感知主干网络训练方法

技术领域

本发明属于多目标跟踪技术领域，特别涉及一种实例感知主干网络训练方法。

背景技术

视觉跟踪是计算机视觉(CV)中的一项基本任务，具有视频监控、机器人技术和人机交互等应用，其目的是根据第一帧图像中指定的目标信息预测后续视频帧中目标的位置和形状。在过去十几年中，基于卷积神经网络(CNN)的视觉跟踪取得了显著的进展。然而，由于诸多因素，设计高精度视觉跟踪器仍然是一项具有挑战性的任务，其中最重要的因素之一是来自相似目标的干扰(IST)。在具有大量同类相似实例的场景中，IST经常导致跟踪器漂移，给视觉跟踪带来很大困难。

现代视觉跟踪器的主流结构可分为特征提取主干网络、特征融合模块和边界框预测模块。传统主干网络通常在图像分类框架下进行预训练，这种训练方法鼓励主干网络只提取不同类别实例的类间特征。然而，视觉跟踪不仅需要区分目标和属于其他类别的背景杂波，还需要区分属于同一类别目标的实例。这需要特征网络提取具有类间和类内实例区分性的特征。

发明内容

本发明的目的在于提供一种实例感知主干网络训练方法，采用主流的目标分类主干网络，在不改变原始主干网络的网络结构、训练数据、超参数的基础上，通过训练网络时增加实例感知分散约束，以解决现有主干网络不能提取同一类别实例的类内特征进行视觉跟踪的缺陷。

本发明解决其技术问题提供的技术方案如下：

本发明提供一种实例感知主干网络训练方法，应用于多目标跟踪，包括网络模型预训练，具体为：将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数；使用中间参数执行反向传播更新中间参数；执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距，提高了视觉跟踪的成功率和精度；迭代执行正向传播和反向传播得到最优目标分类主干网络。

本发明的有益效果为：本发明通过在原始主干网络具有类间区分约束的基础上增加实例感知分散约束，引导目标分类主干网络同时增加类间间距和类内间距，从而提高了视觉跟踪的成功率和精度；同时，所使用的主干网络不改变原始的网络结构、初始化方法、训练数据和超参数，未增加使用视觉跟踪的工作负载，使用方法极为便利。

附图说明

下面结合附图对本发明作进一步说明。

图1是网络模型预训练的方法流程图。

图2是AlexNet的conv5和fc8层从左到右的特征分布示意图。

图3是VGG19的conv4_4、conv5_4和fc8层从左到右的特征分布示意图。

图4是ResNet50的conv3_3、conv4_6、conv5_3和fc8层从左到右的特征分布示意图。

具体实施方式

下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现代跟踪器中使用的主干网络原本是用于图像分类任务的，而不是视觉跟踪。因此，使用该类主干网络提取的特征不完全适用于视觉跟踪。因此，现有技术提出了一些特征筛选、融合和调整方法来提取有利于视觉跟踪的特征。其中经过证明，较高的主干网络层编码更多的语义特征，而较低的主干网络层提取更多的鉴别信息，可以更好地将目标与具有类似外观的干扰物分开。因此，本发明在跟踪过程中同时使用了高层和低层网络的特征。其中，进一步发现，只有一部分主干网络神经元与目标跟踪任务是相关的。基于这一发现提出了特征图筛选方法，以去除噪声和不相关的特征图；这种方法可以减少计算冗余，提高跟踪精度。此外，基于转换器的方法通过使用注意机制进行特征融合，该机制基于自注意和互注意进行上下文特征增强。注意机制有助于融合主干网络特征，以获得用于视觉跟踪的有用语义信息。此外，使用跟踪数据精调主干网络可以部分地提高特征的类内区分能力。但因为跟踪数据量相对较少，这种提高是非常有限的，特别是对于需要在线训练的DCF等方法。上述方法主要着眼于修改分类主干网络提取的特征以利于视觉跟踪，尽管它们可以部分地补偿特征的不足；然而，这种补偿是非常有限的。例如，通过特征筛选、融合、调整和其他策略，很难增强原始特征所缺乏的、但对于跟踪任务非常重要的类内区分能力。本发明旨在构建一个具有实例感知功能的主干特征网络。

请参考图1,本发明提供一种实例感知主干网络训练方法，应用于多目标视频跟踪，包括网络模型预训练，具体为：将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数；使用中间参数执行反向传播更新中间参数；执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距；迭代执行正向传播和反向传播得到最优目标分类主干网络。

具体地，多目标跟踪数据集采用常用的用于目标跟踪的数据集，目标分类主干网络采用主流的原始主干网络。正向传播指对神经网络沿着输入层到输出层的顺序，依次计算并存储模型的中间变量参数。反向传播则沿着从输出层到输入层的顺序，依据链式法则，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。图像分类网络通常由一系列卷积层和几个全连接层(FC层)组成。这些卷积层通常被用作各类视觉任务的主干特征网络。主干网各的一般运作为：一张图像输入到主干网络，然后通过一系列卷积层。每个卷积层输出一组特征图，这些特征图也是下一个卷积层的输入。从主干网络的最后一个卷积层输出的特征被合并或展平为特征向量。特征向量通过最后几个FC层输出类别编码向量，我们期望分类网络输出一个正确的One-hot分类向量。即，与输入图像类别对应的元素为1，其他元素为0。这意味着我们要求所有属于同一类别的图像在通过分类网络后输出相同的分类向量。这一要求在网络训练过程中通过反向传播传递到主干网络的每个卷积层，以限制每个卷积层对于属于同一类别的图像输出在特征空间中尽可能接近的特征。在实际的视频跟踪中，每一网络层的特征都密集地分布在特征空间中。而且，离输出层越近，特征分布越集中。相同及似实例的特征距离过近，不利于视觉跟踪任务。这是因为与图像分类任务不同，图像分类任务只需要区分不同类别的目标，视觉跟踪任务不仅需要区分不同类别的目标，还需要区分相似的实例。这些实例的特征如果在特征空间中过于接近则会给实例区分带来困难。视觉跟踪要求主干网络能够提供易于区分属于同类和不同类目标的特征。我们希望在与原始主干网络相同的分类数据集(如ImageNet)上重新训练具有相同网络结构的主干网络。该主干网络提取的特征能够有效区分不同类目标和属于同一类的不同实例。为了实现这一目标，我们需要修改分类网络的训练过程。通过构造一个实例感知分散约束来引导分类网络同时输出具有类内和类间鉴别力的分类向量，并通过反向传播使得主干网络学习如何提取同时具有类间和类内鉴别力的特征。通过反向传播，引导主干网络也倾向于生成具有类似特点的特征，在实际跟踪中，随着训练的进行，相似目标的特征逐渐聚集，类别之间的界限逐渐形成。表明主干网络提取的特征具有较好的类间鉴别能力。

需要说明的是，在实际的网络训迭代过程中，可将迭代次数预设，预设值根据预测结果情况设置为20～200次，以期望得到满意的目标分类主干网络。

进一步地，实例感知分散约束为类内方差约束，类内方差约束用于引导目标分类主干网络对于同类目标输出具有较大方差的分类向量，以增加同类目标的类内间距。类内方差约束与类内距离和正则化项共同构建类内损失函数。

具体地，在网络训练中，使用类内和类间损失函数同时进行反向传播。其中，类内损失函数由类内方差、类间距离及正则化项组成。类内方差约束属于同一类别的特征相近但通过方差约束使类内间距增加从而利于正确的跟踪，正则化项用于约束特征中心接近于原点以确保可以被激活。

进一步地，请参考图2、图3、图4，所选用的多目标跟踪数据集可为OTB-2015、LaSOT或UAV123，所选用的原始目标分类主干网络为AlexNet、、VGG19或ResNet50及其优化网络。具体地，OTB2015分析是目前使用最广泛最权威的数据库，包含100个视频序列。LaSOT包含1400个视频，每个序列平均2512帧，每一帧都经过仔细检查和手动标记，并在需要时对结果进行目视检查和纠正。这样，可以生成大约352万个高质量的边界框标注。此外，LaSOT包含70个类别，每个类别包含20个序列。LaSOT是迄今为止最大的具有高质量手动密集注释的对象跟踪数据集，与之前的数据集不同，LaSOT提供了可视化边界框注释和丰富的自然语言规范，这些规范被证明对各种视觉任务都是有益的，包括视觉跟踪，通过鼓励和促进探索集成视觉和语言功能，以实现强大的跟踪性能。对于目标分类主干网络，UAV123主要由91个无人机视频组成，其中有数个视频序列较长，拆分成三四个较短的片段，使用多次，所以有123个groundtruth，其中包含20个长视频即UAV20L。AlexNet由5个卷积层(conv)和3个全联接层(fc)组成，激活函数使用ReLU，整个网络有6200万以上的可训练的参数。经典的AlexNet虽然它在识别效果方面非常令人惊艳，但是这些都是建立在对超参数进行大量的调整的基础上，它并没有提出一种明确的模型设计规则以便指导后续的新网络模型设计，这也限制了它的迁移能力。VGG作为卷积神经网络模型的基础模块，用于特征提取。VGG相对于AlexNet的优势之一：VGG提出用基础块代替网络层的思想，这使得它在构建深度网络模型时可以重复使用这些基础块。与AlexNet指代单一的模型不同，VGG包含多个不同的模型，主要包括VGG-11、VGG-13、VGG-16、VGG-19，后面的数字11、13、16、19是网络层数，VGG19包含了19个隐藏层(16个卷积层和3个全连接层)，结构简洁，使用很小的卷积核(3×33×3)构建各种深度的卷积神经网络结构，能够取得较好的识别精度。相比于VGG19，ResNet50没有使用全连接层，而使用了全局平均池化层，可以减少大量参数。

进一步地，实例感知主干网络训练方法采用t-SNE算法降维。

具体地，t-SNE是用于降维的一种机器学习算法，是一种非线性降维算法，非常适用于高维数据降维到2维或者3维，进行可视化。

进一步地，实例感知主干网络训练方法还包括模型微调再训练，具体为：对实际场景的目标跟踪视频进行目标标定后再对经过网络模型预训练的目标分类主干网络再次训练，从而对模型参数进行调优以使目标分类主干网络适应实际场景的目标跟踪。

具体地，使用常用数据集训练的模型不一定适用于实际运用场景，需要采用一些实际应用场景的视频跟踪数据对目标进行深度训练和参数微调，以提高网络模型的针对性和鲁棒性，通过模型微调再训练网络的流程为，首先将第一帧图像作为输入，并给出目标的初始坐标，然后对目标进行候选窗口的选择，卷积池化后将候选窗口的特征作为输入；当跟踪视频帧数没有达到预先设定的长时阈值且对当前目标的评估得分小于零时：对第一帧图像中的目标进行正负样本的采样，训练包含域模型，对全连接层和分类器进行参数训练；在下一帧图像中，提取目标的正样本候选窗口，计算得到候选正样本中的最高分，若最高得分大于设定的阈值，则将此样本添加到正样本库，并利用包含域模型确定最终的目标位置；若最高得分小于设定的阈值，则说明网络参数已不满足当前的跟踪，故利用正负样本库来再次训练更新全连接层和分类器参数；当跟踪视频帧数达到预先设定的长时阈值时，利用正负样本库数据对全连接层和分类器进行参数训练更新。

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书不应理解为对本发明的限制。

Claims

1.一种实例感知主干网络训练方法，应用于多目标视频跟踪，其特征在于，包括网络模型预训练，具体为：

将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数；

使用中间参数执行反向传播更新中间参数；执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距；

迭代执行正向传播和反向传播得到最优目标分类主干网络。

2.如权利要求1所述实例感知主干网络训练方法，其特征在于，所述实例感知分散约束为类内方差约束，所述类内方差约束用于引导目标分类主干网络对于同类目标输出具有较大方差的分类向量，以增加同类目标的类内间距。

3.如权利要求2所述实例感知主干网络训练方法，其特征在于，所述类内方差约束与类内距离和正则化项共同构建类内损失函数。

4.如权利要求1所述实例感知主干网络训练方法，其特征在于，所述多目标跟踪数据集为OTB-2015、LaSOT或UAV123。

5.如权利要求1所述实例感知主干网络训练方法，其特征在于，所述目标分类主干网络为AlexNet、VGG19或ResNet50。

6.如权利要求1所述实例感知主干网络训练方法，其特征在于，所述实例感知主干网络训练方法采用t-SNE算法降维。

7.如权利要求1所述实例感知主干网络训练方法，其特征在于，所述实例感知主干网络训练方法还包括模型微调再训练，具体为：对实际场景的目标跟踪视频进行目标标定后再对经过网络模型预训练的目标分类主干网络再次训练，从而对模型参数进行调优以使目标分类主干网络适应实际场景的目标跟踪。