CN115018884A

CN115018884A - 基于多策略融合树的可见光红外视觉跟踪方法

Info

Publication number: CN115018884A
Application number: CN202210871982.6A
Authority: CN
Inventors: 李成龙; 程致远; 鹿安东; 张彰; 王亮; 李尚泽
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-09-06
Anticipated expiration: 2042-07-19
Also published as: CN115018884B

Abstract

本发明公开一种基于多策略融合树的可见光红外视觉跟踪方法，所述方法包括：获取可见光图像样本和热红外图像样本；将可见光图像样本和热红外图像样本输入至预先训练好的目标跟踪网络模型，目标跟踪网络模型包括可见光模态适配器、热红外模态适配器、融合树网络和实例适配器，各模态对应的适配器包括多个网络层级；融合树网络当前层级的输出特征与各模态对应的适配器当前层级的输出特征进行矩阵相加融合后传入各模态对应的适配器的下一层级网络中；将各模态对应的适配器最后一层级输出的模态特征图拼接后输入实例适配器，预测目标跟踪结果。本发明引入特殊的多策略融合树结构来实现多种不同融合策略的结合，以在复杂场景中获得稳健融合结果。

Description

基于多策略融合树的可见光红外视觉跟踪方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于多策略融合树的可见光红外视觉跟踪方法。

背景技术

目标跟踪，其主要就是指通过计算机技术或是其他的专业设备，并根据某一种特殊算法来实现对于目标的跟踪定位处理，将具体的位置以及动向信息作为基础，采取与之对应的处理措施。目标跟踪在工业界有着广泛的应用如安防监控，自动驾驶，行为分析等，如果各类仪器设备能够实现高效的跟踪识别，就能够完成各类较为复杂的任务，也正是由于目标跟踪技术所具备的现代化特征，使其在民用领域以及军事领域当中得到了广泛应用。

目前，基于检测跟踪框架的目标跟踪，实质上是基于一个性能良好的分类器对于目标和背景的一个二分类的问题。先在根据第一帧给定的目标位置上，通过设定一个阈值来确认目标和背景的样本，以此来初始化目标跟踪的模型，在进行后续帧中目标的跟踪。在后续帧中，依然是对上一帧所预测的目标位置附近进行高斯分布采样，并使用分类器来区分目标样本和背景样本，并选择其中最高得分的正样本来作为下一帧目标的预测位置。

传统的目标跟踪一般都是基于单模态的，例如：可见光(波长0.4-0.7)图像包含了丰富的几何和纹理细节，但是对于光线比较敏感，在复杂场景中图像所能传递的信息质量会受到较大的影响，如：雾霾与强烈的光照变化等。而热红外(波长3-12)图像反映的是场景中表面温度的分布情况，从而对于光照变化不敏感，具有很好的云雾穿透，以及特殊的识别伪装能力，但是该模态的图像存在一些局限性，比如分辨率一般较低，边缘模糊，且容易受温度分布影响。

RGBT跟踪利用可见光和热红外数据的互补特性来实现全天候的持续定位目标，作为一个多模态表示学习问题，充分挖掘两个模态之间的互补信息，来实现复杂场景和具有多种挑战环境下具有鲁棒的RGBT跟踪，但是在应对多种复杂问题前提下，如何实现两种模态有效的融合是目前所需要解决的一个问题。

现有的研究工作通常根据输入的两种不同模态图像质量预测模态的权重来整合两种模态的多尺度特征，还有一些采用注意力机制自适应地融合不同层的模态特征。这些方法试图使用单一策略融合方案来处理所有可能的变化，而忽略了对多策略融合机制的探索，这是在复杂场景中获得稳健融合结果的有效方法。

相关技术中，公布号为CN110148104A的中国发明专利申请公开了一种基于显著性分析与低秩表示的红外与可见光图像融合方法，其通过构建输入源图像的分层树形结构，考虑了图像块的特征相似性，得到的树形结构能够反映出目标在图像中的全局显著特性，其通过对输入图像中的部分区域进行处理然后通过简单的融合规则，进行融合。一方面，该方案所关注参数为整个图像中的部分参数，图像融合效果欠佳；另一方面，该方案所采用的简单的融合规则无法复杂场景中所有可能的变化，无法在复杂场景中获得稳健的融合结果。

发明内容

本发明所要解决的技术问题在于如何实现多种不同融合策略的结合，在复杂场景中获得稳健的融合结果。

本发明通过以下技术手段实现解决上述技术问题的：

本发明提出了一种基于多策略融合树的可见光红外视觉跟踪方法，所述方法包括：

获取可见光图像样本和热红外图像样本；

将所述可见光图像样本和所述热红外图像样本输入至预先训练好的目标跟踪网络模型，其中，所述目标跟踪网络模型包括可见光模态适配器、热红外模态适配器、融合树网络和实例适配器，所述可见光模态适配器、所述热红外模态适配器和所述融合树网络均包括多个网络层级；

将所述可见光图像样本作为所述可见光模态适配器和所述融合树网络的输入，所述融合树网络当前层级的输出特征与所述可见光模态适配器当前层级的输出特征进行矩阵相加融合后传入所述可见光模态适配器的下一层级网络中；

将所述热红外图像作为所述热红外适配器和所述融合树网络的输入，所述融合树网络当前层级的输出特征与所述热红外模态适配器当前层级的输出特征进行矩阵相加融合后传入所述热红外模态适配器的下一层级网络中；

将所述可见光模态适配器最后一层级输出的模态特征图与所述热红外模态适配器最后一层级输出的模态特征图进行拼接，得到拼接特征图；

将所述拼接特征图输入所述实例适配器，预测目标跟踪结果。

本发明引入特殊的多策略融合树结构来实现多种不同融合策略的结合，来充分探索这些模态信息最有效的融合策略，利用这些特别的融合策略相互结合，解决复杂场景和多挑战任务中不同模态融合问题，减少这些因素对目标跟踪的影响，以在复杂场景中获得稳健融合结果。

进一步地，所述可见光模态适配器和所述热红外模态适配器均包括n个层级的适配网络，其中，上一层级的适配网络的输出作为下一层级的适配网络的输入；

所述可见光模态适配器中最后一层级的适配网络的输出与所述热红外模态适配器最后一层级的适配网络的输出经拼接后作为所述实例适配器的输入。

进一步地，前(n-1)个所述适配网络包括依次连接卷积函数、最大池化函数、局部响应归一化函数以及激活函数；最后一层级的适配网络包括依次连接的卷积函数和激活函数，n≥2且为整数。

进一步地，所述融合树网络包括n个层级的分支网络，其中，所述可见光图像样本和所述热红外图像样本均作为第一个层级的分支网络的输入，第一个层级的分支网络的输出作为第二层级的分支网络的输入；剩余层级的分支网络中，上一层级的分支网络的输出与下一层级的分支网络的输入之间连接有聚合模块；

所述融合树网络中当前层级的分支网络的输出特征与所述可见光模态适配器中当前层级的适配网络的输出特征经矩阵相加操作后作为所述可见光模态适配器中下一层级的适配网络的输入；

所述融合树网络中当前层级的分支网络的输出特征与所述热红外模态适配器中当前层级的适配网络的输出特征经矩阵相加操作后作为所述热红外模态适配器中下一层级的适配网络的输入。

进一步地，第n个层级的所述分支网络包括3^(n-1)个分支，第一个层级所述分支网络中的一个分支的起点连接一通用适配器，分支上设置有通道注意力模块作为叶子节点，第(n-1)个层级所述分支网络中每三个分支的起点连接一通用适配器，通道注意力模块、空间注意力模块和位置注意力模块分别设置于三个分支作为叶子节点；

上一层级所述分支网络中的分支的终点连接下一层级所述分支网络中的通用适配器。

进一步地，所述通用适配器采用模态共享卷积函数，用于提取所述可见光图像样本和所述热红外图像样本的共有特征。

进一步地，所述实例适配器包括带有神经远随机激活的第一全连接层、第二全连接层和一个带有softmax层的第三连接层；

第一全连接层和第二全连接层均接有激活函数，第一全连接层、第二全连接层和第三连接层依次连接。

进一步地，所述聚合模块包括依次连接的卷积函数和局部响应归一化函数。

进一步地，所述目标跟踪网络模型的预训练过程包括：

使用ImageNet数据集进行分类网络VGG-M的预训练，并加载前三层卷积层的原有参数，作为所述可见光模态适配器和所述热红外模态适配器的初始化参数；

基于标定好目标的正负样本数据集，使用随机梯度下降法对所述可见光模态适配器和所述热红外模态适配器进行训练，得到所述可见光模态适配器和所述热红外模态适配器的第一模型参数；

将所述初始化参数和所述第一模型参数加载至所述融合树网络，并使用随机梯度下降法对所述融合树网络进行训练，得到所述融合树网络的第二模型参数

加载所述第一模型参数和第二模型参数，并使用随机梯度下降法对所述目标跟踪网络模型进行训练，得到训练好的所述目标跟踪网络模型。

进一步地，所述方法还包括：

在目标跟踪过程中，每十帧对所述目标跟踪网络模型进行一次长期更新；

在基于所述目标跟踪结果，确定目标跟踪失败时，对所述目标跟踪网络模型进行一次短期更新。

本发明的优点在于：

(1)本发明引入特殊的多策略融合树结构来实现多种不同融合策略的结合，来充分探索这些模态信息最有效的融合策略，利用这些特别的融合策略相互结合，解决复杂场景和多挑战任务中不同模态融合问题，减少这些因素对目标跟踪的影响，以在复杂场景中获得稳健融合结果。

(2)多策略融合树结构利用三种互补的注意力模块来模拟模态融合特征，即通道，空间和位置三种不同角度来实现该结构的多策略性质，此外通过集成模块来聚合多策略融合特征，增强跟踪任务中每种模态的特征表示；保证独立出模态特定特征的同时，充分探索这些模态信息最有效的融合策略，利用这些特别的融合策略相互结合提高适配器对特征的细节辨别能力；使得每个模态的特征表达更加完整，以此增加特征表达的丰富性进一步提高跟踪的鲁棒性，从而达到良好的多模态视频跟踪效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明一实施例中基于多策略融合树的可见光红外视觉跟踪方法的流程示意图；

图2是本发明一实施例中目标跟踪网络模型的结构示意图；

图3是本发明一实施例中融合树网络的模型结构示意图；

图4是本发明一实施例中三种注意力模块的结构示意图；

图5是本发明一实施例中基于多策略融合树的可见光红外视觉跟踪方法的整体流程示意图；

图6是本发明一实施例中实验结果对比示意图，其中，(a)为在公开的数据集GTOT上进行的测试，并将测试结果与其他的跟踪器在SR(成功率)和PR(准确度)上进行的评估结果，(b)为在公开的数据集RGBT234上进行的测试，并将测试结果与其他的跟踪器在SR(成功率)和PR(准确度)上进行的评估结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提出了一种基于多策略融合树的可见光红外视觉跟踪方法，所述方法包括以下步骤：

S10、获取可见光图像样本和热红外图像样本。

具体地，本实施例基于一对配准的多模态视频的第一帧，通过给定的第一帧中目标的真值框的坐标，以真值框的中心点为均值进行高斯分布采样，具体以(0.09s²,0.09s²,0.25)为协方差，产生256个候选样本包括可见光图像样本和热红外图像样本，其中：s为前一帧目标宽和高之和的平均值。

S20、将所述可见光图像样本和所述热红外图像样本输入至预先训练好的目标跟踪网络模型，其中，所述目标跟踪网络模型包括可见光模态适配器、热红外模态适配器、融合树网络和实例适配器，所述可见光模态适配器、所述热红外模态适配器和所述融合树网络均包括多个网络层级。

具体地，可见光模态适配器和热红外模态适配器分别用于对可见光图像样本和热红外图像样本进行特征提取，并且两个模态的图像样本并行传递于融合树网络中。

S30、将所述可见光图像样本作为所述可见光模态适配器和所述融合树网络的输入，所述融合树网络当前层级的输出特征与所述可见光模态适配器当前层级的输出特征进行矩阵相加融合后传入所述可见光模态适配器的下一层级网络中。

S40、将所述热红外图像作为所述热红外适配器和所述融合树网络的输入，所述融合树网络当前层级的输出特征与所述热红外模态适配器当前层级的输出特征进行矩阵相加融合后传入所述热红外模态适配器的下一层级网络中。

S50、将所述可见光模态适配器最后一层级输出的模态特征图与所述热红外模态适配器最后一层级输出的模态特征图进行拼接，得到拼接特征图。

S60、将所述拼接特征图输入所述实例适配器，预测目标跟踪结果。

本实施例中，可见光模态适配器、热红外模态适配器分别用于提取可见光图像和热红外图像的特定特征，多策略融合树网络提取可见光图像样本和热红外图像样本的共有特征并进行特征融合，将每个层级的融合特征与各自模态的模态适配器输出特征进行矩阵相加融合，再传入下一级的适配器中，保证独立出模态特定特征的同时，充分探索这些模态信息最有效的融合策略，利用这些特别的融合策略相互结合，解决复杂场景和多挑战任务中不同模态融合问题，减少这些因素对目标跟踪的影响，以在复杂场景中获得稳健融合结果。

这里需要说明的是，传统的对输入的红外图像与可见光图像执行图像块的划分，获取的图像块按字典语义顺序拉伸成向量形式，然后将所有图像块的向量按列堆叠，得到两种图像块数据矩阵；分别构建一个分层树形结构，按照其位置关系以及特征相似性进行不同程度的聚合，分别得到两种图像在不同阈值下的由粗糙至精细的聚合结果，使得两种不同的模态特征的质量足够高。

本实施例与之不同的是，本实施例通过利用树结构由上到下的路径逐渐增大的优势。将红外图像与可见光图像首先相加直接输入到融合树结构的模态共享卷积函数之中进行计算，得到的结果通过不同的注意力结构进行计算。因为树结构的特点我们能得到多种不同的路径计算结果(通过不同的注意力结构计算的都算作一种独特路径的特征表达)，我们在每一个层级(树的层级)将多条路径得到的结果进行融合，在最后一个层级得到九种不同路径的特征表达进行融合，从树结构由上到下来看实现了由粗到细的精细化融合结果。使得两种模态特征更好的融合交互，并且在目标跟踪任务中取得一定的效果，使得定位目标的准确度获得提升。

在一实施例中，所述步骤S10，具体包括以下步骤：

由跟踪视频序列的提供的第一帧对的多模态图像和框定目标区域的真值框，按照如下策略随机产生5500个正样本和负样本，使用这些样本初始化跟踪模型，构建新的层。将这些样本设为batchsize＝128大小的minibatch进行初始化训练，其中包含32个正样本和96个负样本。固定卷积层的学习率，设定层的学习率为0.001，余下的全连接层学习率设定为0.0005，共迭代三十次。

根据给定的初始真值框按照以下策略随机产生1000个正样本，用来进行边界框回归训练，也即是由给出的测试序列的第一帧，使用目标位置附近样本的最后一层卷积输出的特征训练一个简单的线性回归模型，来预测目标的精确位置。在随后的帧中，如果待评估的样本可靠，便利用回归模型评估方程式调整目标的位置。其中具体参数设定是，将这些样本设定batchsize＝256大小的minibatch进行训练，共迭代五次，并微调边界回归权重参数。

初始化训练和边界框回归完成后，以前一帧目标位置为均值，以(0.09s²,0.09s²,0.25)为协方差。

在一实施例中，如图2所示，所述可见光模态适配器和所述热红外模态适配器均包括n个层级的适配网络，其中，上一层级的适配网络的输出作为下一层级的适配网络的输入；

其中，前(n-1)个所述适配网络包括依次连接卷积函数、最大池化函数、局部响应归一化函数以及激活函数；最后一层级的适配网络包括依次连接的卷积函数和激活函数，n≥2且为整数，卷积函数为卷积核尺寸为3x3或1x1的小卷积。

需要说明的是，本实施例中n取值为至少2个，基于目标跟踪网络模型的运算效率和精度综合考虑，将n值设为3，具体可采用分类网络VGG-M的前三层卷积层作为主干网络，其中三层卷积的大小分别为7*7*96、5*5*256、3*3*512，每个卷积层后面都接有激活函数ReLu，并且前两层卷积还带有局部响应函数LRN以及最大值池化层函数MaxPool。

在一实施例中，所述融合树网络包括n个层级的分支网络，其中，所述可见光图像样本和所述热红外图像样本均作为第一个层级的分支网络的输入，第一个层级的分支网络的输出作为第二层级的分支网络的输入；剩余层级的分支网络中，上一层级的分支网络的输出与下一层级的分支网络的输入之间连接有聚合模块；

需要说明的是，因为目标跟踪任务中如果网络层数过大，就会导致最后的特征信息值极小，差异性也会下降，难以定位目标位置，这不利于目标跟踪任务，本实施例设置为[1,3]更加合理。

如图3所示，以融合树网络包括3个层级的分支网络为例，第一个层级的分支网络包括一个分支，分支的起点为通用适配器，通用适配器的输入为可见光图像样本和热红外图像样本，通用适配器的输出作为通道注意力模块的输入；第二层级的分支网络包括三个分支，每个分支的起点均为通用适配器，通道适配器的输入为第一层级中通道注意力模块的输出，通道注意力模块、空间注意力模块和位置注意力模块分别作为三个分支的叶子节点，通用适配器的输出作为三种类型的注意力模块的输入；第三层级的分支网络包括9个分支，每三个分支的起点连接一通用适配器，通道注意力模块、空间注意力模块和位置注意力模块分别作为一个通用适配器所连接的三个分支的叶子节点，第二层级的分支网络中的三个叶子节点的输出分别作为第三层级分支网络中三个通用适配器的输入。

需要说明的是，由于树结构中从根到叶节点可以形成多种不同的路径，随着层级的增加，路径的选择也在不断增多，这样既可以加快提取特征的效率，并且在准确性上也有足够的提升当前节点在每种融合策略中都继承了之前节点的特征，形成了从粗到细的特征融合过程。我们在不同路径(融合策略)上增添了一些注意力节点可以从不同的角度提取各种多模态特征。由于特定模态适配器的层级具有3层；并且考虑到跟踪模型的应用价值，过深的网络层级提取到的特征差距较小，难以计算足够分辨目标位置的信息，因此构建了具有三个层级网络的融合树，为特征融合提供了九种融合策略。

本实施例中，融合树网络结构中主要同时输入可见光模态以及热红外模态样本，其中融合树网络结构的通用适配器采用模态共享卷积函数，用于提取所述可见光图像样本和所述热红外图像样本的共有特征，其采用的三层卷积层与可见光模态适配器中的卷积层采用相同的构造，利用三种互补的注意力模块来模拟模态融合特征，即通道，空间和位置三种不同角度来实现该结构的多策略性质，每个注意力模块输出节点为独特的特征表达，9种不同特征组合，每种组合有不同的关注侧重点，目标在不同框中会有不同特征信息，对不同特征信息进行融合，通过使用三个互补的注意力模块作为叶子节点在三个卷积阶段从不同角度对融合特征进行建模，此外通过聚合模块来聚合多策略融合特征，增强跟踪任务中每种模态的特征表示。保证独立出模态特定特征的同时，充分探索这些模态信息最有效的融合策略，利用这些特别的融合策略相互结合提高适配器对特征的细节辨别能力。

在一实施例中，所述聚合模块包括依次连接的卷积函数和局部响应归一化函数，用于对每一层分支网络中各叶子节点的输出特征进行融合后作为各模态对应的适配器中下一层级的适配网络的输入。

在一实施例中，所述实例适配器包括带有神经远随机激活的第一全连接层、第二全连接层和一个带有softmax层的第三连接层；

需要说明的是，第一至第三全连接层的各自的维度分别为1024*512、512*512、512*2，各模态对应的适配器的最后一层级的输出经concatenate函数进行基于通道维度拼接后得到一个最终特征图，再输入实例适配器，实例适配器是有三个全连接层组成，并且为了减少全连接层的过拟合，前两个全连接层采用了名为dropout(神经元随机激活)的正规化方法，最后一个全连接层是含有softmax层对每个候选样本特征计算其正负得分：f⁺(xⁱ)和f^-(xⁱ)，最后由下式预测跟踪目标的位置：

其中，xⁱ表示采样的第i个样本，f⁺(xⁱ)表示获取的正样本得分，f^-(xⁱ)表示获取的负样本得分，x^*为预测的目标位置。

在进行softmax分类得到每个样本的得分，最后选择最高正样本得分为预测的目标跟踪结果，若得分大于零则目标位置预测正确，否则预测失败。

在一实施例中，如图4所示，通道注意力模块，空间注意力模块，位置注意力模块是由单一的卷积层，非线性层(ReLu)，一些池化层和其他激活函数(Sigmoid和Softmax)所组成，其中：

通道注意力模块通过两种池化层(最大池化以及平均池化)，1x1卷积层以及激活函数Sigmoid组成。

空间注意力模块主要通过最大值以及平均值优先计算输入特征的权值，在通过卷积层以及激活函数Sigmoid进行预测得到。

位置注意力模块则是由两个横向以及纵向特殊的条状池化层，以及卷积层归一化层(BatchNorm)，对应的激活函数(Softmax)所组成。

在一实施例中，所述目标跟踪网络模型的预训练过程包括以下步骤：

(1)使用ImageNet数据集进行分类网络VGG-M的预训练，并加载前三层卷积层的原有参数，作为所述可见光模态适配器和所述热红外模态适配器的初始化参数；

具体地，使用ImageNet数据集进行预训练的分类网络VGG-M，并截取前三层卷积层作为主干网络，并加载网络的原有参数，作为各模态对应的特定适配器的初始化参数。

(2)基于标定好目标的正负样本数据集，使用随机梯度下降法对所述可见光模态适配器和所述热红外模态适配器进行训练，得到所述可见光模态适配器和所述热红外模态适配器的第一模型参数；

具体地，通过利用标定好目标的可见光红外数据集训练两个模态对应的特定适配器的参数并将这些参数保存起来。假设数据集中存在K个标注序列，则建立K个层，其中K个层为全连接层，每个全连接层对应一个视频序列，在每一帧中根据给定的真值框选取1000的样本数。其中572个表示正样本，剩下的样本数表示负样本，以IOU表示采集样本与真值框之间的交并比。

通过采集的正负样本，构建正负样本数据集并用于对各模态对应的特定适配器进行训练，使用随机梯度下降法进行50次迭代训练，每次迭代根据以下方法处理：

第k轮迭代中的minibatch(batchsize＝128)是由第K个视频序列中随机抽取8帧配对(可见光与热红外图像帧与帧之间对应)的可见光红外图像随机产生，其中，包含32个正样本和96个负样本，并激活对应的最后一层全连接层。并设定卷积层的学习率为0.0001，全连接层的学习率为0.0002。保存最后得到的两个模态特定适配器的训练模型。

K表示训练集中视频序列的个数，也等于最后一层全连接层的个数，为了保证训练集中每一个视频序列始终和属于该序列的全连接层对应，则第k轮训练当前的全连接层时需要使用第kmodK个视频序列。

(3)将所述初始化参数和所述第一模型参数加载至所述融合树网络，并使用随机梯度下降法对所述融合树网络进行训练，得到所述融合树网络的第二模型参数

具体地，将初始化参数和第一模型参数加载至融合树网络，保证其固定不变，采用上述步骤(2)的训练方法，将融合树网络结构的卷积层的学习率设置为0.0001，网络模型的全连接层的学习率为0.0002，其他注意力层的学习率设置为0.0001。使用随机梯度下降法进行50次迭代训练，得到第二模型参数。保存最后得到的融合树网络结构的训练模型。

(4)加载所述第一模型参数和第二模型参数，并使用随机梯度下降法对所述目标跟踪网络模型进行训练，得到训练好的所述目标跟踪网络模型。

加载第一模型参数和第二模型参数，保证这些参数固定不变，采用上述步骤(2)中的训练方法，将网络模型的全连接层学习率设置为0.0001，并且使用随机梯度下降法进行20次迭代训练，保存最后得到的所有参数模型，用以跟踪测试。

在一实施例中，如图5所示，根据最高正样本得分为预测的目标跟踪结果，根据跟踪结果判定是否选择进行模型更新，具体为：

(1)在目标跟踪过程中，每十帧对所述目标跟踪网络模型进行一次长期更新：

当判定目标跟踪成功时，在当前帧采集50个正样本和200个负样本，并加入总的正负样本数据集，由于卷积层参数在跟踪过程中参数不变，故可将这些样本以卷积后的特征保存。其中，总的正样本集保存最近100次跟踪成功帧的正样本，总的负样本集保存最近20次跟踪成功帧的负样本。

在线跟踪时会设定长期更新，其更新规则为每10帧更新一次。其使用的训练样本是由最近100帧成功跟踪收集的正样本和最近20帧成功跟踪收集的负样本所组成。同样设定全连接层学习率为0.0003，batchsize为128，其中32个正样本和96个负样本，共迭代10次，微调全连接层的权重参数。

(2)目标跟踪失败时，对目标跟踪网络模型进行一次短期更新：

当判定跟踪失败时也即目标得分小于0时将进行短期更新，从正负样本集中抽出最近20帧跟踪成功收集的正负样本，以及第一帧中产生的正负样本组成一个训练集。设定全连接层的学习率为0.0003，batchsize为128，其中32个正样本和96个负样本，共迭代10次，微调全连接层的权重参数。

进一步地，如图6所示，本实施例分别在公开的数据集GTOT和RGBT234上进行了测试，并将测试结果与其他的跟踪器在SR(成功率)和PR(准确度)上进行了评估。其中，FTNet表示本发明的跟踪结果精度，可以很明显的看到相比于其他方法，其跟踪性能均匀较大程度的提升。

进一步地，当不满足短期更新和长期更新条件时，不更新模型，直接跟踪下一帧。

需要说明的是，短期更新是指：即在上一帧目标区域附近采样大量的样本框，然后输入分类器得到的大量的结果。挑选其中最大值，便认为这个目标就是定位到的目标。短期更新的过程中只会将这个最大值送入网络计算下一帧的位置，并不会再次生成新的样本框。

长期更新是指：由于短期更新不断改变得到的结果(反复取最新的一帧里最大值)，会引入累计误差(每一次都会有一定的计算偏差)，一段时间后就会使得样本得分较差。所以每间隔固定时间做一次网络的更新，此时再将上一帧的样本周围区域生成大量的样本框再输入到网络之中重新计算最大的结果，本算法设定的间隔为8帧。

短期更新的作用是减少了样本框的反复生成，在跟踪过程中更快的预测下一帧的结果。而长期跟踪作用是在解决短期跟踪产生的累计误差，也是纠正框的偏移或者框的大小变化的一种方式。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述方法包括：

获取可见光图像样本和热红外图像样本；

2.如权利要求1所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述可见光模态适配器和所述热红外模态适配器均包括n个层级的适配网络，其中，上一层级的适配网络的输出作为下一层级的适配网络的输入；

3.如权利要求2所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，前(n-1)个所述适配网络包括依次连接卷积函数、最大池化函数、局部响应归一化函数以及激活函数；最后一层级的适配网络包括依次连接的卷积函数和激活函数，n≥2且为整数。

4.如权利要求2所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述融合树网络包括n个层级的分支网络，其中，所述可见光图像样本和所述热红外图像样本均作为第一个层级的分支网络的输入，第一个层级的分支网络的输出作为第二层级的分支网络的输入；剩余层级的分支网络中，上一层级的分支网络的输出与下一层级的分支网络的输入之间连接有聚合模块；

5.如权利要求4所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，第n个层级的所述分支网络包括3^(n-1)个分支，第一个层级所述分支网络中的一个分支的起点连接一通用适配器，分支上设置有通道注意力模块作为叶子节点，第(n-1)个层级所述分支网络中每三个分支的起点连接一通用适配器，通道注意力模块、空间注意力模块和位置注意力模块分别设置于三个分支作为叶子节点；

6.如权利要求5所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述通用适配器采用模态共享卷积函数，用于提取所述可见光图像样本和所述热红外图像样本的共有特征。

7.如权利要求1所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述实例适配器包括带有神经远随机激活的第一全连接层、第二全连接层和一个带有softmax层的第三连接层；

8.如权利要求1所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述聚合模块包括依次连接的卷积函数和局部响应归一化函数。

9.如权利要求1所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述目标跟踪网络模型的预训练过程包括：

10.如权利要求1所述的基于多策略融合树的可见光红外视觉跟踪方法，其特征在于，所述方法还包括：