CN114022516A

CN114022516A - 一种基于高秩特征和位置注意力的双模态视觉跟踪方法

Info

Publication number: CN114022516A
Application number: CN202111346472.9A
Authority: CN
Inventors: 王福田; 杨岚岚; 李成龙; 汤进; 罗斌
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-08

Abstract

本发明公开一种基于高秩特征和位置注意力的双模态视觉跟踪方法，提供一种基于高秩特征和位置注意力的双模态视觉跟踪方法，通过在主干网络中引入目标位置注意力模块来关注目标位置信息，并利用高秩指导模块关注重要的通道并指导可见光和热红外特征图的融合，进一步提高目标跟踪的效果，可根据目标结果的成功与否来判断是否更新网络模型。本发明能够更加精确定位目标的位置，同时减少噪声干扰。

Description

一种基于高秩特征和位置注意力的双模态视觉跟踪方法

技术领域

本发明属于计算机视觉技术，具体涉及一种基于高秩特征和位置注意力的双模态视觉跟踪方法。

背景技术

视觉目标跟踪作为计算机视觉中的一项重要任务，并在许多领域有着广泛的应用，如军事领域，智能交通和视频监视等领域。

近年来，视觉目标跟踪取得了巨大的进去，尤其是RGB(可见光)跟踪。然而，在恶劣的环境条件下，例如低照度、下雨和烟雾，RGB跟踪的性能不能令人满意。热红外传感器为这些情况提供了更稳定的信号，并且热感相机最近变得更加经济实惠，因此热红外图像已被应用于许多计算机视觉任务。热传感器基于来自人体表面血管或任何物体热分布的热辐射，它们对光照变化、物体的伪装和姿态变化不敏感，并具有很强的穿透烟雾和霾的能力，因此能够为可视摄像机提供很强的补充信息。但是与视觉传感器相比，热传感器具有高图像噪声和低分辨率，并且边缘和纹理信息较差。因此，近年来RGBT(可见光和热红外)跟踪受到了广泛的关注，并取得了巨大的进步。

但是，在有效融合RGB和热红外方面，仍然有很多问题要解决。比如：如何融合RGB和热红外，使得充分利用两者的互补性。

目前RGBT跟踪方法主要是两方面。一方面，如何为RGBT跟踪设计合适的表示学习框架，已有的算法提出了一种跨模态排序算法来计算每个面片的重要性权重，然后构造目标对象的鲁棒RGBT特征描述；另一方面，如何实现不同模式的自适应融合进行RGBT跟踪，已有的算法基于贝叶斯滤波框架下的协同稀疏表示，通过优化每个模态的可靠性权重在线进行融合，或者根据分类得分，利用最大阈值原则优化模态权重。

上述这些方法仍然存在一些不足，如下：

(1)现有技术是以端到端的方式自适应融合可见光和热红外的特征，通常是先对可见光和热红外两个模态分别建模，接着自适应的学习每个模态的权重来融合两个模态。自适应在线计算的方法通道会加重算法模型的计算负担，忽略了滤波器自身的特性。

(2)现有技术通过引入共享特征和特有特征来增强特征提取的能力，但是没有关注到特征间存在大量的冗余信息，这样做往往容易引入噪声。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于高秩特征和位置注意力的双模态视觉跟踪方法，通过在主干网络中引入目标位置注意力模块来关注目标位置信息，并利用高秩指导模块关注重要的通道并指导可见光和热红外特征图的融合，进一步提高目标跟踪的效果。

技术方案：本发明的一种基于高秩特征和位置注意力的双模态视觉跟踪方法，包括以下步骤：

步骤1：对配准的多模态图像，在其相应可见光和热红外视频中分别取视频的第一帧图像，在第一帧上会手动框出要跟踪的目标框，然后以目标框的中心点为均值进行高斯分布采样，总共采集若干(例如256个)候选样本框；

步骤2：将步骤1所得两个模态的候选样本框分别输入到网络模型中，通过网络模型的主干网络对这两个模态的候选样本框进行特征提取，

主干网络使用VGG-M的前三个卷积层，这三个卷积层上均添加有一个分支，通过该分支引入目标位置注意力模块以此来关注跟踪目标的位置信息；

其中，对于第一层卷积层，直接对可见光和热红外两个模态的特征图做加法操作，然后送入到目标位置注意力模块；

对于第二层卷积层在其目标位置注意力模块的分支上引入卷积和池化操作，通过卷积和池化使得此处目标位置注意力模块的分支特征图与主干网络的特征图大小匹配；

步骤3：在第三层卷积操作后，对于可见光和热红外两个模态的主干网络均后引入有高秩指导模块，通过高秩指导模块指导两个模态融合，同时删除噪声通道对应的特征图；

步骤4：将经过高秩指导模块融合特征(cat后的特征图)送入到三个全连接层，一共有三个全连接层；前两个全连接层后均加入神经元随机激活函数，来缓解过拟合的问题；第三个全连接层用以分样本框是正样本还是负样本，并在第三层全连接层后引入softmax层，经过softmax计算得到候选样本框的正负样本得分，正样本中得分最高的候选框即预测为要跟踪的目标结果；

步骤5：根据上述所得要跟踪的目标结果的成功与否来判断是否更新模型，若跟踪失败则进行一次短期更新；若跟踪成功则继续跟踪下一帧图片；且每隔十帧图像，则进行一次长期更新。

进一步地，所述步骤2中主干网络使用的是VGG-M的前三个卷积层，这三层卷积层的卷积核大小分别为7x7、5x5和3x3。

进一步地，所述步骤3中高秩指导模块指导可见光和热红外这两个模态特征融合的具体过程如下：

首先分别计算两个模态图像经第三层卷积层所得特征图对应的秩信息，然后对这两个模态的秩分别做归一化操作，对于秩的值低于设定阈值的特征图做置零操作，接着将归一化后的两个秩值作为权重来指导可见光和热红外两个模态的特征融合；

此处，特征融合方式是对可见光和热红外图像的特征图进行cat操作，即按照第一维度(上下)进行链接。此处使用高秩信息做删选，删除掉冗余的信息，以此达到减少噪声对网络的影响。

进一步地，所述步骤4中三个全连接层的通道数分别是1024、512和2。

进一步地，所述步骤4中神经元随机激活函数采用Dropout函数，将其作为训练深度神经网络的一种trick供选择，在每个训练批次中，通过忽略一半的特征检测器(让一半的隐层节点值为0)，进而可以明显地减少过拟合现象。

进一步地，所述步骤5中，当所得目标结果得分大于零时，认为跟踪成功；当所得目标结果得分小于零时，则认为跟踪失败。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明的使用VGG-M作为主干网络进行提取特征，并在卷积层引入目标位置注意力模块，通过目标位置注意力模块来关注跟踪目标的位置信息，更有利于定位目标。

(2)本发明还在第三层卷积层后引入高秩特征指导模块，高秩特征指导模块通过来排序通道的重要性，也就是关注了不同模态不同通道重要性不同处，更有利于可见光和热红外图像之间的融合。

(3)本发明中对于秩较小的特征图采用置零操作，以此来缓解低质量特征图带来的噪声问题，从而达到更好的目标跟踪效果。

附图说明

图1为本发明的整体流程示意图；

图2为实施例中的网络模型结构示意图；

图3为实施例中的可见光图像；

图4为实施例中对应的热红外图像；

图5为实施例中所得秩信息示意图；

图6为实施例在数据集GTOT上对比示意图；

图7为实施例在数据集RGBT234上对比示意图；

其中，图6(a)和图7(a)为位置误差阈值曲线图，图6(b)和图7(b)为重叠阈值对比图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：

如图1所示，本实施例的一种基于高秩特征和位置注意力的双模态视觉跟踪方法，包括以下步骤：

步骤1：对配准的多模态图像，在其相应可见光和热红外视频中分别取视频的第一帧图像，在第一帧上会手动框出要跟踪的目标框，然后以目标框的中心点为均值进行高斯分布采样，总共采集若干候选样本框；

步骤2：将步骤1所得两个模态的候选样本框分别输入到网络模型中，如图2所示，通过网络模型的主干网络对这两个模态的候选样本框进行特征提取，主干网络使用VGG-M的前三个卷积层，这三个卷积层上均添加有一个分支，通过该分支引入目标位置注意力模块以此来关注跟踪目标的位置信息；

实施例2：

此处两个模态图如3和图4所示。本实施例包括训练和测试两个过程，具体如下步骤：

(1)网络训练过程：

(1.1)由于需要离线计算秩此处分两次训练网络。首先加载预训练模型用在VCC-M的前三层卷积层参数上。本实施例的主干网络有三层卷积层，每层卷积层的卷积核大小分别为7x7、5x5和3x3，每一层卷积层都包含激活函数Relu层，第一层卷积层和第二层卷积层还含有局部响应函数LRN层和最大池化函数层。本实施例的三个卷基层上都有一个分支，用来引入目标位置注意模块，每个分支的卷积大小以匹配主干特征图的大小来设置。

(1.2)在第一次训练时，在每一帧图像上都手工标注好的真值框，用手工标注好的真值框来训练整个网络。具体训练时，在真值框附近选择256个候选样本框，这256个候选样本框根据真值框与候选样本之前的交并比(IOU)分为正样本和负样本。当IOU大于等于0.7时认为是正样本，当IOU小于等于0.5时认为时负样本。

(1.3)使用随机梯度下降算法(SGD)训练此处上述网络，使用交叉熵损失对网络进行100次迭代epoch iterations；在每一次的迭代过程中均此处从每一个视频序列中随机选择8帧，接着从每一帧中选取64个正样本和192个正样本。对于正样本的判断，此处将与真值框的IOU大于0.7判断为正样本，与真值框的交并比小于0.5的判断为负样本。训练时进行多域训练。

(1.4)第二次训练，在第一次训练得到网络模型后，此处随机选择5个视频序列，跟踪计算这5个序列中第2张图片的特征图的秩，之所以不选择第一张，是因为算法在第一张图片时进行了困难负样本挖掘。此处保存5个视频序列第2张图片的特征图秩的信息，然后计算其平均值。然后将特征图的平均秩作为权重乘到特征图上去，然后再训练网络，对于超参数的设置和第一次训练时基本一至，唯一不同的是迭代次数，第二次训练的迭代次数是500。

上述步骤(1.2)和步骤(1.3)中，候选样本框也可以选择其他数量。本实施例基于Manet算法使用256个候选框。同时，正负样本比例满足为1：3即可。

(2)网络跟踪过程：

(2.1)在跟踪视频中，会在第一帧给出要跟踪的目标的真值框，然后采样500个正样本和5000个负样本，在跟踪第一帧时会进行30次迭代训练。然后使用这5500个正负样本训练网络模型，得到新的fc6层。这时固定卷积层的学习率，第一个和第二个全连接层的学习率设为0.0005，最后一层全连接层的学习率设置为0.001。初始化工作结束后，那前一帧的目标的位置求均值，然后使用高斯分布采样，采取256个候选样本框。

(2.2)将候选样本框送入到主干网络中，在每一层卷基层上添加一个分支引入目标位置注意模块，使网络更好的定位到目标的位置。在跟踪时是不使用高秩特征指导融合模块的，因为特征图的平均秩是离线计算的，根据保存的特征图秩的信息作为权重来指导模态融合即可；将经过秩指导融合后的特征图送入到全连接层中，全连接层有三层，在最后一层全连接层后接一个softmax层，以此得到正负样本的得分。

(2.3)当网络模型预测的目标结果得分大于零时，认为跟踪成功；当模型预测的目标结果得分小于零时，则认为跟踪失败。当跟踪成功时，便在当前帧进行正负样本采集，主要采集50个正样本和200个负样本，并把这250个样本框加入到正负样本集中。当正负样本集中帧数大于100时，便从最早帧的正样本框开始丢弃，若帧数大于20，则从最早帧的负样本框开始丢弃。

当跟踪失败时，需要对网络模型进行短期更新：从正负样本集中抽取32个正样本框和96个负样本框来微调全连接层的参数。

(2.4)在网络模型进行在线跟踪时，不仅有前面跟踪失败时的短期更新，在每跟踪10帧时便会自动进行一次长期更新。长期更新的做法与短期更新是一样的。若网络模型既不满足长期更新也不满足短期更新时，便直接进行下一帧图像的目标跟踪。

如表1和表2所示，本实施例中，将本发明技术方案与其他现有技术的精确度和成功率对比。

表1在数据集GTOT上的结果

表2在数据集RGBT234上的结果

此处准确度是输出位置框与真值边界框的距离低于预定义阈值的帧的百分比；成功率是输出边界框和真值边界框之间的重叠率大于阈值的帧的百分比

如图6和图7所示，本实施例采用不同的线性来描述在不同数据集上，本发明技术方案与现有技术方案在位置误差阈值和重叠阈值的对比示意图。图6和图7的四幅图表明本发明技术方案在准确度上优于目前发表的所有RGBT的跟踪算法。

Claims

1.一种基于高秩特征和位置注意力的双模态视觉跟踪方法，其特征在于：包括以下步骤：

步骤1：对配准的多模态图像，在其相应可见光和热红外视频中分别取视频的第一帧图像，在第一帧上框出要跟踪的目标框，然后以目标框的中心点为均值进行高斯分布采样，总共采集若干个候选样本框；

步骤4：将经过高秩指导模块融合特征送入到三个全连接层，一共有三个全连接层；前两个全连接层后均加入神经元随机激活函数，来缓解过拟合的问题；第三个全连接层用以分样本框是正样本还是负样本，并在第三层全连接层后引入softmax层，经过softmax计算得到候选样本框的正负样本得分，正样本中得分最高的候选框即预测为要跟踪的目标结果；

步骤5：根据上述所得要跟踪的目标结果的成功与否来判断是否更新网络模型，若跟踪失败则进行一次短期更新；若跟踪成功则继续跟踪下一帧图片；且每隔十帧图像，则进行一次长期更新。

2.根据权利要求1所述基于高秩特征和位置注意力的双模态视觉跟踪方法，其特征在于：所述步骤2中主干网络使用的是VGG-M的前三个卷积层，这三层卷积层的卷积核大小分别为7x7、5x5和3x3。

3.根据权利要求1所述基于高秩特征和位置注意力的双模态视觉跟踪方法，其特征在于：所述步骤3中高秩指导模块指导可见光和热红外这两个模态特征融合的具体过程如下：

此处，特征融合方式是对可见光和热红外图像的特征图进行cat操作。

4.根据权利要求1所述基于高秩特征和位置注意力的双模态视觉跟踪方法，其特征在于：所述步骤4中三个全连接层的通道数分别是1024、512和2。

5.根据权利要求1所述基于高秩特征和位置注意力的双模态视觉跟踪方法，其特征在于：所述步骤4中神经元随机激活函数采用Dropout函数，将其作为训练深度神经网络的一种trick供选择，在每个训练批次中，通过忽略一半的特征检测器来减少过拟合现象。

6.根据权利要求1所述基于高秩特征和位置注意力的双模态视觉跟踪方法，其特征在于：所述步骤5中，当所得目标结果得分大于零时，认为跟踪成功；当所得目标结果得分小于零时，则认为跟踪失败。