CN113837296B

CN113837296B - 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统

Info

Publication number: CN113837296B
Application number: CN202111144930.0A
Authority: CN
Inventors: 汤进; 朱立顺; 李成龙
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-05-31
Anticipated expiration: 2041-09-28
Also published as: CN113837296A

Abstract

一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统，属于计算机视觉技术领域，解决如何为基于鲁棒实例表示的RGBT跟踪找到最佳的融合网络结构，从而进一步提高跟踪性能的问题，本发明的技术方案在离线搜索阶段，为了提取对光照变化、运动模糊和尺度变化等各种挑战具有鲁棒性的共享特征表示，引入了多域学习框架来离线搜索通用融合空间中的融合网络结构。在线跟踪阶段，从实例感知的融合空间中，在线搜索每个视频序列的融合结构以应对特定于实例的挑战；这种两阶段搜索算法可以动态更新视频融合策略，从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构，进一步提高跟踪性能。

Description

一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统

技术领域

本发明属于计算机视觉技术领域，涉及一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统。

背景技术

目标跟踪是计算机视觉领域中的一个热点问题。目标跟踪也是无人驾驶，智能交通和智能监控的关键技术之一。目标跟踪是在给定初始帧的包围盒的情况下，估计目标在后续帧中的位置。目前的跟踪算法大多基于可见光单一模态条件，在一些极端条件下会受到较大的影响，比如恶劣天气和光照强烈变化等，单一模态跟踪算法往往表现的不尽人意。可见光和热红外的模态融合跟踪被称为RGBT(Red Green Blue Thermal)跟踪，由于可见光信息和热红外信息是相互补充的，已经被证明是可以提高跟踪性能的有效方法。尽管RGBT跟踪已经取得了很大的进展，但由于复杂场景和环境下信息融合的困难，RGBT跟踪仍然是一项具有挑战性的任务。

由于RGBT跟踪具有巨大的潜在价值和应用前景，从传统的基于稀疏表示的方法到深度学习方法，RGBT领域涌现出了许多卓有成效的研究成果。虽然这些RGBT跟踪器已经取得了不错的进展，但仍然存在一些悬而未决的问题。首先，这些手动设计的RGBT跟踪器需要大量重复实验、专家经验和科学直觉。其次，这些融合策略忽视了跨层融合的潜在好处。最后，由于结构固定，这些跟踪器通常难以应对跟踪过程中的各种挑战。

现有方式存在着如下缺点：1)手工设计的融合网络需要大量重复的实验、专家经验和科学直觉，不同卷积层的融合具有不同的效果，找到一个最优的融合结构需要耗费大量的人力物力；2)由于手工设计的模型结构是固定的，因此难以应对跟踪中出现的各种挑战。

公开号为CN110349185A、公开日期为2019年10月18日的中国发明专利申请《一种RGBT目标跟踪模型的训练方法及装置》具体公开了：1)构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型，稠密特征聚合模块包括提取可见光图像特征的第一卷积层序列；以及提取热红外图像特征的第二卷积层序列，第一卷积层中的与第二卷积层中深度相同的卷积层为配对卷积层；除第一个配对卷积层以外的配对卷积层均对应一个特征聚合层，第一个配对卷积层的卷积结果输入到下一个配对卷积层的特征聚合层中；分类模块包括依次串联的若干层全连接层；2)使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练跟踪模型，得到目标跟踪模型。但是文献并未解决上述问题。

发明内容

本发明所要解决的技术问题在于如何为基于鲁棒实例表示的RGBT跟踪找到最佳的融合网络结构，从而进一步提高跟踪性能的问题。

本发明是通过以下技术方案解决上述技术问题的：

一种基于两阶段融合结构搜索的RGBT视觉跟踪方法，包括以下步骤：

S1、离线搜索阶段，设计一个通用搜索空间，同时输入一对配准的多模态图像，通过使用多域学习的训练方式以及基于预测器的渐进式搜索方法，离线搜索通用的融合网络结构，使用搜索到的通用的融合网络结构提取图像特征；

S2、在线跟踪阶段，将所述的通用的融合网络结构进行固定，在第一层全连接层处设计一个实例感知搜索空间，根据每个视频的第一帧来选择全连接层的融合网络结构，在后续帧的跟踪中继续使用这一融合网络结构；

S3、把得到的图像特征在最后一个全连接层后送入softmax层，得到样本的得分，正样本中得分最高的就是预测的目标跟踪结果，并根据跟踪结果的成功与否判断是否更新融合网络结构。

本发明的技术方案在离线搜索阶段，为了提取对光照变化、运动模糊和尺度变化等各种挑战具有鲁棒性的共享特征表示，引入了多域学习框架来离线搜索通用融合空间中的融合网络结构。在线跟踪阶段，从实例感知的融合空间中，在线搜索每个视频序列的融合结构以应对特定于实例的挑战；这种两阶段搜索算法可以动态更新视频融合策略，从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构，进一步提高跟踪性能。

作为本发明技术方案的进一步改进，步骤S1中所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数：Tanh、ReLU、PReLU、LReLU、ReLU6。

作为本发明技术方案的进一步改进，步骤S1中所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成。

作为本发明技术方案的进一步改进，步骤S2中所述的实例感知搜索空间的模态融合方式包括：加法、减法、取最大值、取最小值、取平均值和拼接。

作为本发明技术方案的进一步改进，步骤S3中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为：当目标的得分大于零时，判定为跟踪成功，当目标得分小于零时，判定为跟踪失败时，此时进行更新融合网络结构。

一种基于两阶段融合结构搜索的RGBT视觉跟踪系统，包括：

离线搜索模块，用于设计一个通用搜索空间，同时输入一对配准的多模态图像，通过使用多域学习的训练方式以及基于预测器的渐进式搜索方法，离线搜索通用的融合网络结构，使用搜索到的通用的融合网络结构提取图像特征；

在线跟踪模块，用于将所述的通用的融合网络结构进行固定，在第一层全连接层处设计一个实例感知搜索空间，根据每个视频的第一帧来选择全连接层的融合网络结构，在后续帧的跟踪中继续使用这一融合网络结构；

判断更新模块，用于把得到的图像特征在最后一个全连接层后送入softmax层，得到样本的得分，正样本中得分最高的就是预测的目标跟踪结果，并根据跟踪结果的成功与否判断是否更新融合网络结构。

作为本发明技术方案的进一步改进，离线搜索模块中所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数：Tanh、ReLU、PReLU、LReLU、ReLU6。

作为本发明技术方案的进一步改进，离线搜索模块中所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成。

作为本发明技术方案的进一步改进，在线跟踪模块中所述的实例感知搜索空间的模态融合方式包括：加法、减法、取最大值、取最小值、取平均值和拼接。

作为本发明技术方案的进一步改进，判断更新模块中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为：当目标的得分大于零时，判定为跟踪成功，当目标得分小于零时，判定为跟踪失败时，此时进行更新融合网络结构。

本发明的优点在于：

(1)本发明的技术方案在离线搜索阶段，为了提取对光照变化、运动模糊和尺度变化等各种挑战具有鲁棒性的共享特征表示，引入了多域学习框架来离线搜索通用融合空间中的融合网络结构。在线跟踪阶段，从实例感知的融合空间中，在线搜索每个视频序列的融合结构以应对特定于实例的挑战；这种两阶段搜索算法可以动态更新视频融合策略，从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构，进一步提高跟踪性能；

(2)把神经结构搜索技术引入模态融合，可以避免手工设计所需要的大量重复实验、专家经验和科学直觉，使模态之间的融合自动化；

(3)基于渐进式神经结构搜索算法实现通用融合网络的搜索，模态间不同层的融合往往具有不同的效果，通过渐进式神经结构搜索来实现在已有搜索空间中搜索一个最佳的融合结构，将多域训练引入搜索框架，使得搜索到的融合网络能够处理各种通用挑战；

(4)引入实例感知搜索来应对跟踪过程中的各种挑战，每个视频都有各种各样的挑战，只使用一个固定的结构难以应对不同视频中的不同挑战，从实例感知的融合空间中，在线搜索每个视频序列的融合结构以应对特定于实例的挑战。

附图说明

图1是本发明实施例一的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法的流程图；

图2是本发明实施例一的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法的离线搜索阶段是通用融合结构搜索网络模型示意图；

图3是本发明实施例一的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法的在线跟踪阶段是实例感知融合结构搜索网络模型示意图；

图4是本发明本发明一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统实验结果展示图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述：

实施例一

如图1、2所示，一种基于两阶段融合结构搜索的RGBT视觉跟踪方法，具体包括离线搜索和在线跟踪两个阶段：

如图1所示，在离线搜索阶段设计一个通用搜索空间，包括VGG-M卷积层不同融合的方式、五种激活函数Tanh、ReLU、PReLU、LReLU、ReLU6。搜索空间的大小与可能的融合层数成指数关系，因此根据融合层数逐步探索搜索空间，这与渐进式神经结构搜索的思想是一致的，从简单的融合层数为1开始，依次扩展融合层的数目。训练一个代理函数来进一步指导搜索空间的探索，为了学习到不同视频中目标的共性，采用多域学习的训练方式，假设用K个视频做训练，一共做N次循环。每个mini-batch的构成是从某一视频中随机采8帧图片，在这8帧图片中随机采样32个正样本和96个负样本。在每一次循环中会做K次迭代，依次用K个视频的mini-batch来做训练，重复进行N次循环。在离线搜索阶段搜索的结构是由堆叠一系列的卷积层、非线性层(ReLU、LReLU)和池化层所组成的，在进行在线跟踪的时候将其固定，离线搜索阶段具体包括以下步骤：

(1)首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数，全连接层是随机初始化的。特征提取器由三个卷积层和激活函数Relu组成，其中前两层有局部响应函数LRN以及最大值池化层函数MaxPool，而卷积核大小分别为7*7*96、5*5*256、3*3*512。

(2)初始化一些融合层数L＝1的候选结构描述，根据描述构造该融合网络，为了学习不同视频目标的共性，使用多域方法将这些融合网络进行训练。

(3)使用人工标注好的可见光热红外数据集来训练整个网络，用K个视频来做训练，一共做N次循环，每次循环使用随机梯度法进行K次迭代。在第k次迭代，每个minibatch(batchsize＝128，包含32个正样本和96个负样本)是从第(k mod K)个视频序列中随机抽取八帧配对的可见光和热红外图片通过高斯分布采样生成的，同时更换对应视频序列的第(k mod K)个fc6层。卷积层学习率设置为0.0001，全连接层的学习率设置为0.0002。保存模型，进行测试，得到网络真实的精度。

(4)用(2)中的候选结构描述和对应的真实精度，使用随机梯度下降去训练一个模型预测器(RNN模型)，学习率设置为0.001，迭代50次。

(5)依次扩展融合层数L＝2...4，生成候选结构描述，通过预测器预测候选结构的精度，根据预测精度采样前G个结构描述，根据描述构造前G个融合网络，使用(3)进行训练，然后进行测试，得到网络真实精度。再将这些结构描述和精度去更新预测器。

(6)最后得到一个最好的融合网络结构，保存该模型，用于在线跟踪阶段，在线跟踪阶段将其进行固定。

如图2所示，在线跟踪阶段在全连接层处(fc4)设计了一个实例感知搜索空间(加法、减法、取最大值、取最小值、取平均值和拼接)，根据每个视频的第一帧来选择全连接层的融合结构，在后续帧的跟踪中继续使用这一融合结构，在线跟踪阶段包括以下步骤：

(1)根据多模态视频序列中提供的一对第一帧真值框，我们抽取S₊＝500(IOU≥0.7)个正样本和S_-＝5000(IOU≤0.3)个负样本作为训练样本，训练迭代次数设置为30次。使用这5500个样本分别初始化六种网络模型(加、减、最大值、最小值、平均值、拼接)，分别得到新的fc6层。此时固定卷积层的学习率，fc6的学习率设置为0.001，前两个全连接层学习率设置为0.0005。然后计算500个正样本在六种网络模型中的得分，选取得分最大的样本所在的结构作为该视频的融合结构，后续帧继续沿用此融合结构，初始化结束后，把前一帧的目标位置求均值，使用高斯分布采样，以(0.09r²,0.09r²,0.25)为协方差。产生256个候选样本，其中r为前一帧目标框的宽和高的平均值。

(2)将候选样本送入到特征提取网络，分别将最后一个卷积层不同模态的特征图和经过通用融合网络之后的特征图送入不同的全连接层fc4_R、fc4_T、fc4_F，将fc4_R和fc4_T按照上一个步骤选择的融合结构进行融合得到一个向量，然后再和fc4_F进行通道维度的拼接，继续传入下一层的全连接层，在最后一层全连接层送入softmax函数得到二分类得分，分别记为f⁺(xⁱ)(正样本得分)和f^-(xⁱ)(负样本得分),而下一帧的目标位置再由下式产生：其中，xⁱ表示采样的第i个样本，x^*为预测的目标位置。

(3)当目标的得分大于零时，判定为跟踪成功。在当前帧进行正负样本采样，包含50个正样本(IOU≥0.6)和200个负样本(IOU≤0.3)，把他们加入到正负样本数据集中。在正负样本数据集中帧数超过100个则抛弃最早的那些帧的正样本区域，帧数个数若超过20个则抛弃最早的那些帧的负样本区域。当目标得分小于零时，即跟踪失败时将进行短期更新，从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数，迭代10次，学习率设置为0.00003。

如图3所示，在线跟踪过程中会执行长期更新，每10帧进行一次长期更新，从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数，迭代10次，学习率设置为0.00003。如不满足短期更新和长期更新的条件，则直接跟踪下一帧，模型不更新。

如图4所示，本发明展示的实验结果图，分别在公开的数据集GTOT和RGBT234上进行了测试，并将测试结果与其他的跟踪器在SR(成功率)和PR(准确度)上进行了评估。其中TFAS表示本发明的跟踪结果精度，可以很明显的看到相比于其他方法，其跟踪性能更好。

本发明的技术方案把神经结构搜索技术引入模态融合，使模态之间进一步实现优质的特征互补；离线搜索阶段离线搜索，在通用融合空间通过引入多域训练方式、使用渐进式结构搜索算法搜索通用的融合结构，使得融合结构更为鲁棒；在线跟踪阶段在线跟踪，在实例感知搜索空间根据视频的不同动态更新融合策略，以处理特定实例的挑战。

把神经结构搜索技术引入模态融合，可以避免手工设计所需要的大量重复实验、专家经验和科学直觉，使模态之间的融合自动化。

基于渐进式神经结构搜索算法实现通用融合网络的搜索，模态间不同层的融合往往具有不同的效果，通过渐进式神经结构搜索来实现在已有搜索空间中搜索一个最佳的融合结构，将多域训练引入搜索框架，使得搜索到的融合网络能够处理各种通用挑战。

引入实例感知搜索来应对跟踪过程中的各种挑战，每个视频都有各种各样的挑战，只使用一个固定的结构难以应对不同视频中的不同挑战，从实例感知的融合空间中，在线搜索每个视频序列的融合结构以应对特定于实例的挑战。

本实施例的两阶段搜索算法可以动态更新视频融合策略，从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构，进一步提高跟踪性能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于两阶段融合结构搜索的RGBT视觉跟踪方法，其特征在于，包括以下步骤：

所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数：Tanh、ReLU、PReLU、LReLU、ReLU6；

所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成；

离线搜索阶段具体包括以下步骤：

（1）首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数，全连接层是随机初始化的；特征提取器由三个卷积层和激活函数Relu组成，其中前两层有局部响应函数LRN以及最大值池化层函数MaxPool，而卷积核大小分别为7*7*96、5*5*256、3*3*512；

（2）初始化融合层数L=1的候选结构描述，根据描述构造融合网络，使用多域方法将融合网络进行训练；

（3）使用人工标注好的可见光热红外数据集来训练整个网络，用K个视频来做训练，一共做N次循环，每次循环使用随机梯度法进行K次迭代；在第k次迭代，每个minibatch是从第个视频序列中随机抽取八帧配对的可见光和热红外图片通过高斯分布采样生成的，同时更换对应视频序列的第/>个/>层；卷积层学习率设置为0.0001，全连接层的学习率设置为0.0002；保存模型，进行测试，得到网络真实的精度；

（4）用步骤（2）中的候选结构描述和对应的真实精度，使用随机梯度下降去训练一个模型预测器，学习率设置为0.001，迭代50次；

（5）依次扩展融合层数L=2...4，生成候选结构描述，通过预测器预测候选结构的精度，根据预测精度采样前G个结构描述，根据描述构造前G个融合网络，使用步骤（3）进行训练，然后进行测试，得到网络真实精度；再将这些结构描述和精度去更新预测器；

（6）最后得到一个最好的融合网络结构，保存该模型，用于在线跟踪阶段，在线跟踪阶段将其进行固定；

所述的实例感知搜索空间的模态融合方式包括：加法、减法、取最大值、取最小值、取平均值和拼接；

在线跟踪阶段具体包括以下步骤：

（1）根据多模态视频序列中提供的一对第一帧真值框，抽取个正样本和/>个负样本作为训练样本，训练迭代次数设置为30次；使用这5500个样本分别初始化六种网络模型，分别得到新的/>层；此时固定卷积层的学习率，的学习率设置为0.001，前两个全连接层学习率设置为0.0005；然后计算500个正样本在六种网络模型中的得分，选取得分最大的样本所在的结构作为该视频的融合结构，后续帧继续沿用此融合结构，初始化结束后，把前一帧的目标位置求均值，使用高斯分布采样，以/>为协方差，产生256个候选样本，其中r为前一帧目标框的宽和高的平均值；

（2）将候选样本送入到特征提取网络，分别将最后一个卷积层不同模态的特征图和经过通用融合网络之后的特征图送入不同的全连接层fc4_R、fc4_T、fc4_F，将fc4_R和fc4_T按照上一个步骤选择的融合结构进行融合得到一个向量，然后再和fc4_F进行通道维度的拼接，继续传入下一层的全连接层，在最后一层全连接层送入softmax函数得到二分类得分，分别记为和/>,而下一帧的目标位置再由下式产生：/>，其中，/>表示采样的第i个样本，/>为预测的目标位置；

（3）当目标的得分大于零时，判定为跟踪成功；在当前帧进行正负样本采样，包含50个正样本和200个负样本/>，把它们加入到正负样本数据集中；在正负样本数据集中帧数超过100个则抛弃最早的那些帧的正样本区域，帧数个数若超过20个则抛弃最早的那些帧的负样本区域；当目标得分小于零时，即跟踪失败时将进行短期更新，从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数，迭代10次，学习率设置为0.00003；

2.根据权利要求1所述的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法，其特征在于，步骤S3中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为：当目标的得分大于零时，判定为跟踪成功，当目标得分小于零时，判定为跟踪失败时，此时进行更新融合网络结构。

3.一种基于两阶段融合结构搜索的RGBT视觉跟踪系统，其特征在于，包括：

离线搜索阶段具体包括以下步骤：

在线跟踪阶段具体包括以下步骤：

4.根据权利要求3所述的一种基于两阶段融合结构搜索的RGBT视觉跟踪系统，其特征在于，判断更新模块中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为：当目标的得分大于零时，判定为跟踪成功，当目标得分小于零时，判定为跟踪失败时，此时进行更新融合网络结构。