CN111476823A

CN111476823A - 基于多挑战交互学习的实时rgbt跟踪方法及装置

Info

Publication number: CN111476823A
Application number: CN202010387475.6A
Authority: CN
Inventors: 李成龙; 刘飞; 汤进; 刘磊
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-07-31
Anticipated expiration: 2040-05-09
Also published as: CN111476823B

Abstract

本发明涉及基于多挑战交互学习的实时RGBT跟踪方法及装置，包括以下步骤；S1、训练网络模型；所述网络模型包括依次串联的第一主干网络模块、第二主干网络模块、第三主干网络模块、自适应感兴趣区域对准操作层、全连接层；所述第一主干网络模块包括第一双流CNN网络模块、第一挑战感知器分支模块，S2、基于训练后的网络模型进行跟踪，确定目标位置。本发明实现了RGBT多模态的视频跟踪，有效的增加了特征表达的丰富性，提高了跟踪的鲁棒性，并达到了实时的跟踪性能，一定程度上解决了RGBT跟踪中缺少大规模的带标注的数据集，并且使用小规模的训练数据进行的学习无法捕获目标的外观多样性的问题。

Description

基于多挑战交互学习的实时RGBT跟踪方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及基于多挑战交互学习的实时RGBT跟踪方法及装置。

背景技术

RGBT(RGBT(Red Green Blue Thermal，红绿蓝热红外)跟踪的任务是利用RGB和热红外信息的互补优势，在给定第一帧的初始状态的情况下，估计视频序列后续帧中指定目标的状态(即位置和大小)。由于RGBT跟踪在全天候和全天候监视以及无人驾驶等方面的潜在价值，RGBT跟踪也变得越来越流行。尽管RGBT跟踪已经取得了许多突破，但仍然存在部分挑战，包括光照变化，热交叉和遮挡等，这仍然是未解决的。

从简单的加权融合和稀疏表示到深度学习技术，已经提出了许多有效的算法来解决RGBT跟踪的问题。目前，深度学习跟踪器成为了该研究领域的主流。这些跟踪器可以分为三类，包括多模式表示模型(例如MANet)，多模式融合模型(例如mfDiMP)以及它们的混合形式(例如DAPNet)。尽管这些算法在RGBT跟踪中都取得了巨大的成功，但并未考虑在不同挑战下的目标外观表示变化可能会限制其跟踪器性能。

RGB和热源数据拥有共享的和特有的挑战，如何探索和利用这些挑战，在RGBT跟踪的目标外观表示中起着至关重要的作用。现有的RGBT跟踪数据集为每个视频帧手动标注的五个挑战属性，即照度变化(IV)，快速运动(FM)，比例变化(SV)，遮挡(OCC)和热交叉(TC)。其中FM，SV和OCC是这两个模态(RGB模态、T模态)共享的挑战，而IV、TC分别是RGB、T模态特有的挑战。当前的RGBT跟踪算法并未充分考虑不同模态的互补挑战特征优势，而事实上，例如RGB模态特有挑战IV，若算法在当前模态的训练处于劣势(即无法在该挑战下取得良好的跟踪效果)，可以结合在该挑战下处于优势(与劣势相反)的T模态训练的特征信息，最终生成稳定的目标外观表示。

例如申请号为“CN201910630002.1”的发明专利申请公开了一种RGBT目标跟踪模型的训练方法及装置，方法包括：1)、构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型，稠密特征聚合模块包括提取可见光图像特征的第一卷积层序列；以及提取热红外图像特征的第二卷积层序列，第一卷积层中的与第二卷积层中深度相同的卷积层为配对卷积层；除第一个配对卷积层以外的配对卷积层均对应一个特征聚合层，第一个配对卷积层的卷积结果输入到下一个配对卷积层的特征聚合层中；分类模块包括依次串联的若干层全连接层；2)、使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练跟踪模型，得到目标跟踪模型，但是该方案仅是通过构建由稠密特征聚合模块以及分类模块组成的跟踪模型，并未充分利用两个模态之间的挑战标注去实现鲁棒的目标外观表示。

发明内容

本发明所要解决的技术问题主要是如何利用模态共享和特定挑战标注实现鲁棒的目标外观表示问题。

本发明通过以下技术手段实现解决上述技术问题的：

基于多挑战交互学习的实时RGBT跟踪方法，包括以下步骤；

S1、训练网络模型；

所述网络模型包括依次串联的若干级主干网络模块、自适应感兴趣区域对准操作层、全连接层；所述若干级主干网络模块包括第一主干网络模块、第二主干网络模块、第三主干网络模块，所述第一主干网络模块包括并行的第一双流CNN网络模块、第一挑战感知器分支模块，

所述第一双流CNN网络模块包括第一卷积层、第二卷积层、第一线性激活模块、第一CONCAT层、第一聚合层、第四线性激活模块；

所述第一挑战感知器分支模块包括第一挑战感知器模块、第二挑战感知器模块、第三挑战感知器模块，第一挑战感知器模块、第二挑战感知器模块、第三挑战感知器模块均通过堆叠在一起的CONV层、LRN层、maxpool层组成；

所述第一卷积层、第二卷积层获取不同模态下目标的通用特征；

所述第一挑战感知器模块为模态特有的挑战感知分支，还包括第一IV模块、第一TC模块以及第一GM模块；所述第一IV模块、第一TC模块从某一模态的目标获取照度变化特征信息和热交叉特征信息，同时所述第一IV模块将获取的照度变化特征信息传递至第一GM模块；

所述第三挑战感知器模块与第一挑战感知器模块相同，所述第三挑战感知器模块包括第二IV模块、第二TC模块以及第二GM模块，所述第二IV模块从另一模态的目标中获取照度变化特征信息，所述第二TC模块从另一模态的目标中获取热交叉特征信息，同时所述第二TC模块将获取的热交叉特征信息传递至第二GM模块；

同时所述第一TC模块将获取的热交叉特征信息传递至第二GM模块；所述第二IV模块将获取的照度变化特征信息传递至第一GM模块；所述第一GM模块、第二GM模块将获取的特征信息传输至第一CONCAT层处进行维度拼接；

所述第二挑战感知器模块包括FM模块、OCC模块、SV模块，所述FM模块、OCC模块、SV模块分别从两种模态下的目标获取快速运动信息、比例变化信息、遮挡信息；并将信息发送至第一CONCAT层处进行维度拼接；

所述第一CONCAT层将拼接后的信息传递至第一聚合层处，所述第一聚合层将第一CONCAT层传递的特征信息与第一卷积层传递的特征信息进行相加处理，并发送至第一线性激活模块处；所述第一聚合层还将第一CONCAT层传递的特征信息与第二卷积层传递的特征信息进行相加处理，并发送至第四线性激活模块处；

所述第一线性激活模块与第四线性激活模块将池化后的特征信息依次传递至第二主干网络模块、第三主干网络模块处；经过第三主干网络模块输出的特征信息传递至自适应感兴趣区域对准操作层，得到最终的样本特征图，并保存该样本特征图，自适应感兴趣区域对准操作层将样本特征图输入至全连接层，经过全连接层分类处理后得到每个样本的得分；取得分最高的样本位置作为当前帧预测的视觉跟踪结果；

S2、基于训练后的网络模型进行跟踪，确定目标位置。

本发明实现了RGBT多模态的视频跟踪，有效的增加了特征表达的丰富性，提高了跟踪的鲁棒性，并达到了实时的跟踪性能，一定程度上解决了RGBT跟踪中缺少大规模的带标注的数据集，并且使用小规模的训练数据进行的学习无法捕获目标的外观多样性的问题。

作为本发明进一步的方案：所述第一GM模块、第二GM模块相同；

所述第一GM模块中包括若干个依次串联的卷积模块，所述卷积模块由CONV层、ReLU层堆叠在一起组成，先验模态下的特征信息输入至卷积模块中，并依次传递至最后一个卷积模块，将先验模态下特征信息传递至门处理模块处，所述门处理模块将处理后的先验模态下特征信息与最后一个卷积模块处理后的特征信息进行相乘运算处理，并将相乘运算处理后的特征信息与引导莫模态下特征信息进行相加运算处理，输出融合结果。

作为本发明进一步的方案：所述第一GM模块中卷积模块中，卷积层卷积核大小为1×1；所述第一GM模块的公式如下；

γ＝ReLU(ω₂*ReLU(ω₂*x+b₁)+b₂)

其中，其中ω_i、b_i(i＝1，2)分别表示卷积层的权重和偏差。x、z分别表示先验模态和引导模态的特征信息，σ是S型函数，γ、

分别表示没有和有门操作的点状特征位移的参数。

作为本发明进一步的方案：所述第一聚合层包括依次堆叠在一起的CONV层、LRN层，且第一聚合层的COVN层卷积核大小为1×1。

作为本发明进一步的方案：所述第一线性激活模块与第四线性激活模块相同，所述第一线性激活模块由ReLU层、LRN层、maxpool层依次堆叠组成，所述第一线性激活模块与第四线性激活模块将池化后的特征信息传递至第二主干网络模块处。

作为本发明进一步的方案：所述第二主干网络模块与第一主干网络模块的区别为，所述包括第二双流CNN网络模块、第二挑战感知器分支模块；

所述第二双流CNN网络模块包括第三卷积层、第四卷积层、第六挑战感知器模块、第二线性激活模块、第二CONCAT层、第二聚合层、第五线性激活模块；

所述第二挑战感知器分支模块包括第四挑战感知器模块、第五挑战感知器模块；

所述第二线性激活模块、第五线性激活模块均由ReLU层、LRN层依次堆叠组成；所述第二线性激活模块、第五线性激活模块将数据传递至第三主干网络模块中。

作为本发明进一步的方案：所述第三主干网络模块与第一主干网络模块的区别为，包括第三双流CNN网络模块、第三挑战感知器分支模块；

所述第三双流CNN网络模块包括第五卷积层、第六卷积层、第三CONCAT层、第三聚合层、第六线性激活模块以及第四CONCAT层；

所述第三挑战感知器分支模块包括第七挑战感知器模块、第八挑战感知器模块、第九挑战感知器模块、第三线性激活模块，

所述第三线性激活模块、第六线性激活模块由ReLU组成，所述第三线性激活模块、第六线性激活模块将特征信息发送至第四CONCAT层处进行维度拼接。

作为本发明进一步的方案：所述步骤S1包括；

S11、首先删除第一GM模块、第二GM模块、第三GM模块、第一聚合模块、第二聚合模块、第三聚合模块后，训练模型中第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块；包括；

首先初始化第一双流CNN网络模块、第二双流CNN网络模块、第三双流CNN网络模块的参数，这些参数在此阶段是固定的；

然后删除第一GM模块、第二GM模块、第三GM模块、第一聚合模块、第二聚合模块、第三聚合模块，初始化第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块以及全连接层，接着设置第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块、全连接层的学习率；

最后进行迭代训练；

S12、训练第一GM模块、第二GM模块、第三GM模块；

S13、训练第一聚合模块、第二聚合模块、第三聚合模块；训练数据集中所有具有挑战性和非挑战性的帧来训练第一聚合模块、第二聚合模块、第三聚合模块和全连接层，并同时微调第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块的参数。

作为本发明进一步的方案：所述步骤S2包括；

S21、基于带有初始边界框的第一帧中，获取样本进行初始化训练；

在带有初始边界框的第一帧中采集样本，所述样板包括若干个正样本和负样本，

使用所述样本进行迭代训练来微调网络中全连接层的参数；

S22、初始化训练完成后，获取若干个候选样本；

S23、将获得的若干个候选样本输入到网络模型中；

候选样本输入网络模型中，最终输出所需要的特征图；特征图会传递至全连接层中，每个候选样本会被全连接层判定为正样本f⁺(xⁱ)和负样本的得分f^-(xⁱ)，再利用公式

获得下一帧的目标位置，其中xⁱ表示采样的第i个候选样本，x^*为预测的目标位置，正样本f⁺(xⁱ)得分最高的目标位置，即为预测的跟踪结果；

S24、从第二帧开始，如果跟踪得分大于预定义的阈值，则认为跟踪成功；如果小于预定义的阈值，则认为跟踪失败，并执行步骤S25；

所述步骤S24还包括长期更新，长期跟新包括；收集若干个正向样本、和若干个负向样本进行在线更新，每若干帧进行一次长期更新；

S25、进行短期更新，短期更新超参数与长期更新相同。

基于所述的基于多挑战交互学习的实时RGBT跟踪方法的跟踪装置，包括；

训练模块，用于训练网络模型；

跟踪模块，用于基于训练后的网络模型进行跟踪，确定目标位置。

本发明的优点在于：

1、本发明通过引入了分别与第一双流CNN网络模块、第二双流CNN网络模块、第三双流CNN网络模块并行的第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块，学习不同层次的挑战特征，且根据五种常见挑战设计出模态特有的以及模态共享的挑战感知分支，第一挑战感知器模块、第三挑战感知器模块为模态特有的挑战感知分支；第二挑战感知器模块为模态共享的挑战分支；每个挑战感知器模块中包含的GM模块能够抑制弱模态噪声的传播，并与第一卷积层、第二卷积层获取的通用特征信息进行结合形成了目标的完整表示，充分考虑了不同模态的互补挑战特征优势，如利用了T模态上训练的IV特征的优势(即热红外模态对光照变化不敏感)将劣势结合优势，互补特征交互学习可以更好的融合两个模态特征，并减少整体挑战难度，将劣势结合优势，互补特征交互学习可以更好的融合两个模态特征，并减少整体挑战难度，克服了两种模态互补特征进行交互学习的问题，利用模态共享和特定挑战标注实现了鲁棒的目标外观表示。

2、本发明中还引入第一聚合层来解决跟踪过程中挑战不可知的问题，引入自适应感兴趣区域对准操作层来加快跟踪过程中候选区域的特征提取过程，同时利用了挑战属性的标注来减轻RGBT跟踪中训练数据不足的影响，实现了RGBT多模态的视频跟踪，有效的增加了特征表达的丰富性，提高了跟踪的鲁棒性，并达到了实时的跟踪性能，一定程度上解决了RGBT跟踪中缺少大规模的带标注的数据集以及使用小规模的训练数据进行学习无法捕获目标外观多样性的问题。

3、本发明中，第一GM模块即使在存在某些弱模态的情况下也能增强判别能力，从而将识别特征信息从一种模态转换到另一种模态；第一GM模块中的，RELU层(非线性激活层)来学习非线性映射，并且通过S形激活函数的门控机制来实现门操作，从而抑制弱模态噪声的传播。

4、本发明中，第一聚合模块能够避免差异在聚合操作中的分散，且第一聚合层与第一CONCAT层等串联连接操作来聚合所有挑战感知功能，卷积核大小为1×1的卷积层自适应地提取挑战特征并同时实现降维。

附图说明

图1为本发明实施例1的流程方框示意图。

图2为本发明实施例1提供的网络模型的第一部分结构示意图。

图3为本发明实施例1提供的网络模型的第二部分结构示意图。

图4为本发明实施例1提供的网络模型中第一挑战感知器模块的结构示意图。

图5为本发明实施例1提供的自适应感兴趣区域对准操作层的结构示意图。

图6为本发明实施例1提供的网络模型中第一聚合层的结构示意图。

图7为本发明实施例2的结构示意图。

图中，101-第一卷积层，102-第二卷积层，103-第三卷积层，104-第四卷积层，105-第五卷积层，106-第六卷积层，201-第一挑战感知器模块，202-第二挑战感知器模块，203-第三挑战感知器模块，204-第四挑战感知器模块，205-第五挑战感知器模块，206-第六挑战感知器模块，207-第七挑战感知器模块，208-第八挑战感知器模块，209-第九挑战感知器模块，301-第一线性激活模块，302-第二线性激活模块，303-第三线性激活模块，401-第一CONCAT层，402-第二CONCAT层，403-第三CONCAT层，404-第四CONCAT层，501-第一聚合层，502-第二聚合层，503-第三聚合层，601-第四线性激活模块、602-第五线性激活模块、603-第六线性激活模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好地理解本发明，首先对RGBT进行简单的介绍，RGBT(Red Green BlueThermal，红绿蓝热红外)跟踪任务是利用RGB和热红外信息(T)的互补优势；现有的RGBT跟踪数据集包括为每个视频帧手动标注的五个挑战属性，即照度变化(IV，IlluminationVariety)，快速运动(FM，Fast Motion)，比例变化(SV，Scale Variety)，遮挡(OCC，Occlusion)和热交叉(TC，Thermal crossover)；而需要进行跟踪的目标通常包括两种模态：RGB模态和T模态，两种模态中，有模态共享的挑战属性，为FM，SV和OCC；还有模态特有的挑战属性，为IV和TC。

在机器学习中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据，通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

微调，是通过一定的数据来慢慢调整网络模型参数的过程(即利用微调技术进行调整参数)，是人工智能中十分常见的常规技术手段。

实施例1

如图1、图2、图3，图1为本发明实施例1的流程方框示意图，图2为本发明实施例1提供的网络模型的第一部分结构示意图，图3为本发明实施例1提供的网络模型的第二部分结构示意图(图2和图3一起构成一个完整的网络模型，分成两个图是为了方便更清楚的显示网络模型各部分的结构)，基于多挑战交互学习的实时RGBT跟踪方法，包括以下步骤；

S1、训练网络模型，

所述网络模型包括依次串联的若干级主干网络模块、自适应感兴趣区域对准操作层(Adaptive RoIAlign层)、全连接层；所述若干级网络模块包括第一主干网络模块、第二主干网络模块、第三主干网络模块，其中；

所述第一主干网络模块包括并行的第一双流CNN网络模块、第一挑战感知器分支模块，所述第一双流CNN网络模块包括第一卷积层101、第二卷积层102、第一线性激活模块301、第一CONCAT层401(即concatenate函数层，concatenate为连接的意思，起到连接的作用)、第一聚合层501、第四线性激活模块601；

所述第一挑战感知器分支模块包括第一挑战感知器模块201、第二挑战感知器模块202、第三挑战感知器模块203，第一挑战感知器模块201、第二挑战感知器模块202、第三挑战感知器模块203的结构相同，如图5，图5为本发明实施例1提供的网络模型中第一挑战感知器模块的结构示意图，第一挑战感知器模块201通过依次堆叠在一起的CONV层、LRN层(Local Response Normalization，局部响应归一化层)、maxpool层(最大池化层)组成；

所述第一卷积层101、第二卷积层102获取不同模态下目标的通用特征；本实施例中，所述第一卷积层101获取RGB模态下的通用特征信息，例如大小、高度等，所述第二卷积层102获取T模态下的通用特征信息，例如大小、高度等；

所述第一挑战感知器模块201为模态特有的挑战感知分支，还包括第一IV模块、第一TC模块以及第一GM模块(Guied modle，指导模块)，其中，所述第一IV模块、第一TC模块可以从某一模态(RGB模态或者T模态，本实施例中优选为RGB模态下的目标)的目标获取照度变化特征信息和热交叉特征信息，所述第一IV模块将获取的照度变化特征信息传递至第一GM模块，所述第一TC模块将获取的获取照度变化特征信息传递至第三挑战感知器模块203处；

所述第三挑战感知器模块203与第一挑战感知器模块201相同，所述第三挑战感知器模块203包括第二IV模块、第二TC模块以及第二GM模块，所述第二IV模块、第二TC模块从另一模态的目标中获取照度变化特征信息和热交叉特征信息，同时所述第二TC模块将获取的热交叉特征信息传递至第二GM模块；所述第一TC模块将获取的热交叉特征信息传递至第二GM模块；所述第二IV模块将获取的照度变化特征信息传递至第一GM模块；所述第一GM模块、第二GM模块将获取的特征信息传输至第一CONCAT层401处进行维度拼接；

进一步的，本实施例中，所述第一GM模块、第二GM模块相同，所以此处仅以第一GM模块作为示例进行详细描述，

如图4，图4为本发明实施例1提供的网络模型中第一GM模块的结构示意图，所述第一GM模块中包括若干个依次串联的卷积模块901，所述卷积模块由CONV层、ReLU层(Rectified LinearUnit,线性整流函数)堆叠在一起组成，先验模态(feature maps oftheconditional modality)下的特征信息传递至第一个卷积模块901处，并依次传递至最后一个卷积模块901，最后一个卷积模块901将该特征信息至门处理模块902(即图4中的gate)处，所述门处理模块902将处理后的特征信息与最后一个卷积模块处理后的特征信息进行相乘运算处理，并将相乘运算处理后的特征信息与引导模态(feature maps ofthe guidedmodality)下的特征信息进行相加运算处理，输出融合后的特征信息；

具体的，实施例中所述卷积模块901优选为两个。

需要说明的是，所述第一GM模块即使在存在某些弱模态的情况下也能增强判别能力，从而将识别特征信息从一种模态转换到另一种模态。对于某些任务(如目标跟踪)，空间信息至关重要，而空间信息需要将一种模态转换到另一种模态，因此应在特征信息跟踪过程中需要加以考虑。而第一GM模块可以增强某些较弱模态的辨别能力，弱模态指的是在某些挑战下跟踪效果较差的模态。

第一GM模块能够将特征信息从一种模态转移到另一种模态。而由于存在一些弱模态(例如RGB模态中的照明变化和热模态中的热交叉)，第一GM模块中的门机制(门处理模块902)能够抑制弱模态噪声的传播，所述卷积模块901中卷积层的卷积核大小为1×1，然后是RELU层(非线性激活层)来学习非线性映射，并且通过S形激活函数的门控机制来实现门操作；

所述第一GM模块的公式如下：

γ＝ReLU(ω₂*ReLU(ω₂*x+b₁)+b₂)

其中，ω_i、b_i(i＝1，2)分别表示卷积层的权重和偏差，x、z分别表示先验模态和引导模态的特征信息，σ是S型函数，γ、

分别表示没有和有门操作的点状特征位移的参数。

所述第二挑战感知器模块202为模态共享的挑战分支，包括FM模块、OCC模块、SV模块，所述FM模块、OCC模块、SV模块分别从两种模态下的目标获取快速运动信息、比例变化信息、遮挡信息；并将这些特征信息发送至第一CONCAT层401处进行维度拼接；

所述第一CONCAT层401将拼接后的特征信息传递至串联的第一聚合层501处，所述第一聚合层501将第一CONCAT层401传递的特征信息与第一卷积层101传递的特征信息进行相加处理，并发送至第一线性激活模块301处；所述第一聚合层501还将第一CONCAT层401传递的特征信息与第二卷积层102传递的特征信息进行相加处理，并发送至第四线性激活模块601处；

为了避免这些差异在聚合层中的分散，如图6，图6为本发明实施例1提供的第一聚合层501的结构示意图，所述第一聚合层501包括依次堆叠在一起的CONV层、LRN层，且第一聚合层501的COVN层卷积核大小为1×1，能够自适应地提取挑战特征并同时实现降维。

所述第一线性激活模块301与第四线性激活模块601相同，所以此处仅对第一线性激活模块301进行说明；所述第一线性激活模块301由ReLU层(Rectified Linear Unit,线性整流函数层)、LRN层(Local Response Normalization，局部响应归一化层)、maxpool层(最大池化层)依次堆叠组成；

所述第一线性激活模块301与第四线性激活模块601分别将池化后的特征信息传递至第二主干网络模块处。

所述第二主干网络模块包括第二双流CNN网络模块、第二挑战感知器分支模块；

所述第二双流CNN网络模块包括第三卷积层103、第四卷积层104、第六挑战感知器模块206、第二线性激活模块302、第二CONCAT层402、第二聚合层502、第五线性激活模块602；所述第二挑战感知器分支模块包括第四挑战感知器模块204、第五挑战感知器模块205；

所述第二主干网络模块与第一主干网络模块的区别为，所述第二线性激活模块302、第五线性激活模块602均由ReLU层、LRN层依次堆叠组成，其余同第一主干网络模块相同，此处不再进行详细描述；

所述第二线性激活模块302、第五线性激活模块602将数据传递至第三主干网络模块中。

所述第三主干网络模块包括第三双流CNN网络模块、第三挑战感知器分支模块；所述第三双流CNN网络模块包括第五卷积层105、第六卷积层106、第三CONCAT层403、第三聚合层503、第六线性激活模块602以及第四CONCAT层404；所述第三挑战感知器分支模块包括第七挑战感知器模块207、第八挑战感知器模块208、第九挑战感知器模块209、第三线性激活模块303，

所述第三网络模块与第二网络模块的区别为，所述第三线性激活模块303、第六线性激活模块603由ReLU组成，所述第三线性激活模块303、第六线性激活模块603将特征信息发送至第四CONCAT层404处进行维度拼接，其余同所述第二主干网络模块相同；

所述第四CONCAT层404将维度拼接后的特征信息传递至自适应感兴趣区域对准操作层，所述自适应感兴趣区域对准操作层根据不同的候选区域得到最终的特征图，并保存该层输出的样本特征图，自适应感兴趣区域对准操作层将样本特征图输入至全连接层，所述全连接层包括依次串联的FC4(fully connected)、FC5、FC6，经过FC4、FC5、FC6分类处理后得到每个样本的得分；取得分最高的样本位置作为当前帧预测的视觉跟踪结果。

所述网络模型能够充分实现互补特征进行交互学习，例如RGB模态特有挑战IV，若算法在当前模态的训练处于劣势(即无法在该挑战下取得良好的跟踪效果)；而T模态上训练的IV特征(热红外模态对光照变化不敏感)却处于优势，有着较好的跟踪效果，从而实现将劣势结合优势。

训练网络模型包括如下步骤；

S11、删除第一GM模块、第二GM模块、第三GM模块、第一聚合模块501、第二聚合模块502、第三聚合模块503后，训练模型中第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块；

具体的，首先初始化第一双流CNN网络模块、第二双流CNN网络模块、第三双流CNN网络模块的参数，这些参数在此阶段是固定的；

然后删除第一GM模块、第二GM模块、第三GM模块、第一聚合模块501、第二聚合模块502、第三聚合模块503(保持其不参与初始化过程)，并初始化第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块以及全连接层，并将第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块学习率设置为0.001，全连接层的学习率设置为0.0005，

最后进行迭代训练，训练轮次数设置为1000，迭代训练过程中使用优化策略进行优化，优化策略是动量为0.9的随机梯度下降(SGD)方法，并将权重衰减设置为0.0005，且随机梯度下降方法是为现有技术，不再本发明的保护范围之内，此处不再进行详细说明。

S12、训练第一GM模块、第二GM模块、第三GM模块；在步骤S11中预先训练第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块的数据集可以用于训练第一GM模块、第二GM模块、第三GM模块，所述数据集对应于IV、TC这两个挑战，而超参数设置与S11步骤相同；

S13、训练第一聚合层501、第二聚合层502、第二聚合层503和全连接层，该步骤中，数据集中所有具有挑战性和非挑战性的帧来训练第一聚合层501、第二聚合层502、第二聚合层503和全连接层，并同时微调第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块的参数。微调是为了修复步骤S11、步骤中S12预先训练的第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块、第一GM模块、第二GM模块、第三GM模块的参数。

具体过程为：将数据集中所有具有挑战性和非挑战性的帧对第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块、第一GM模块、第二GM模块、第三GM模块进行迭代训练，并将迭代训练次数设置为1000，所述第一聚合层501、第二聚合层502、第二聚合层503的学习率设置为0.0005，所述第一双流CNN网络模块、第二双流CNN网络模块、第三双流CNN网络模块的学习率设置为0.0001，需要说明的是，该步骤与步骤S11采用相同的优化策略。

所述数据集为现有的，此处不再进行详细说明。

S2、基于训练后的网络模型，跟踪目标，包括；

S21、基于初始边界框的第一帧中，获取样本进行初始化训练；

具体的，在带有初始边界框的第一帧中，采集样本，所述样板包括若干个正样本和负样本，本实施例中优选为500个正样本和5000个负样本，正样本的IOU(IntersectionoverUnio，测量标准)大于0.7，负样本的IoU小于0.3；

需要说明的是，采集样本的过程为现有技术，并不在本发明的保护范围之内，此处不再进行详细描述。

使用所述样本(500个正样本和5000个负样本)进行迭代训练以微调全连接层的参数，迭代次数为50个轮次，其中FC6的学习率设置为0.001，FC4、FC5的学习率设置为0.0005；

另外，再从带有初始边界框的第一帧中获取IoU大于0.6的1000个正样本，用来训练边界框回归量，从而调整边界框，是跟踪结果更加准确，训练过程中超参数设定与微调全连接层参数过程相同；

S22、初始化训练完成后，获取若干个候选样本；

具体的，获取当前跟踪视频序列的RGB模态、T模态对应的第一帧，通过给定的第一帧中目标的真值框，以真值框的中心点为均值进行高斯分布采样，以(0.09r²,0.09r²,0.25)为协方差，产生256对候选样本，其中：r为前一帧目标框的宽和高的平均值。

S23、将获得的若干个候选样本输入到网络模型中，

网络模型中，第一卷积层101、第二卷积层102的核尺寸为7×7；

第三卷积层103、第四卷积层104的核尺寸为5×5；第五卷积层105、第六卷积层106的核尺寸为3×3；

所述第一挑战感知器分支模块中的卷积核大小为3×3，第二挑战感知器分支模块中的卷积核大小为3×3，第三挑战感知器分支模块的卷积核大小为1×1；

候选样本输入网络模型中，通过最终输出所需要的特征图；特征图会传递至全连接层中，每个候选样本会被FC6判定为正样本f⁺(xⁱ)和负样本的得分f^-(xⁱ)，再利用公式

S24、从第二帧开始，如果正样本f⁺(xⁱ)得分最大的数值大于预定义的阈值(根据经验该阈值通常设置为0)，则认为跟踪成功；如果小于预定义的阈值，则认为跟踪失败，并执行步骤S25；

需要说明的是，所述步骤S24还包括长期更新，长期跟新包括；收集20个正向样本(IoU大于0.7)和100个负向样本(IoU小于0.3)进行在线更新，以适应目标在跟踪过程中的外观变化，具体以每10帧进行一次长期更新，FC6的学习率设置为0.003，FC4、FC5的学习率设置为0.0015，迭代次数设置为15。

S25、进行短期更新，短期更新的超参数与长期更新中的相同，更新过程也与长期更新相同。

S26、使用经过训练的网络来计算这些候选区域的得分，从而可以分为正样本和负样本，选择具有最高得分的候选区域样本作为跟踪结果。

实施例2

图7为本发明实施例2的结构示意图，如图7，基于所述的基于多挑战交互学习的实时RGBT跟踪方法的跟踪装置，包括，

训练模块，用于训练网络模型；还包括；

所述网络模型包括依次串联的若干级主干网络模块、自适应感兴趣区域对准操作层(Adaptive RoI Align层)、全连接层；所述若干级主干网络模块包括第一主干网络模块、第二主干网络模块、第三主干网络模块，所述第一主干网络模块包括并行的第一双流CNN网络模块、第一挑战感知器分支模块，

跟踪模块，用于基于训练后的网络模型进行跟踪，确定目标位置，还包括；

基于带有初始边界框的第一帧中，获取样本进行初始化训练；在带有初始边界框的第一帧中采集样本，所述样板包括若干个正样本和负样本，使用所述样本进行迭代训练来微调网络中全连接层的参数；初始化训练完成后，获取若干个候选样本；将获得的若干个候选样本输入到网络模型中；候选样本输入网络模型中，最终输出所需要的特征图；特征图会传递至全连接层中，每个候选样本会被全连接层判定为正样本f⁺(xⁱ)和负样本的得分f^-(xⁱ)，再利用公式

从第二帧开始，如果跟踪得分大于预定义的阈值，则认为跟踪成功；如果小于预定义的阈值，则认为跟踪失败，并进行短期更新。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于多挑战交互学习的实时RGBT跟踪方法，其特征在于，包括以下步骤；

S1、训练网络模型；

所述网络模型包括依次串联的若干级主干网络模块、自适应感兴趣区域对准操作层、全连接层；所述若干级网络主干模块包括第一主干网络模块、第二主干网络模块、第三主干网络模块，

所述第一主干网络模块包括并行的第一双流CNN网络模块、第一挑战感知器分支模块，

所述第一双流CNN网络模块包括第一卷积层(101)、第二卷积层(102)、第一线性激活模块(301)、第一CONCAT层(401)、第一聚合层(501)、第四线性激活模块(601)；

所述第一挑战感知器分支模块包括第一挑战感知器模块(201)、第二挑战感知器模块(202)、第三挑战感知器模块(203)，第一挑战感知器模块(201)、第二挑战感知器模块(202)、第三挑战感知器模块(203)均通过堆叠在一起的CONV层、LRN层、maxpool层组成；

所述第一卷积层(101)、第二卷积层(102)获取不同模态下目标的通用特征；

所述第一挑战感知器模块(201)为模态特有的挑战感知分支，还包括第一IV模块、第一TC模块以及第一GM模块；所述第一IV模块、第一TC模块从某一模态的目标获取照度变化特征信息和热交叉特征信息，同时所述第一IV模块将获取的照度变化特征信息传递至第一GM模块；

所述第三挑战感知器模块(203)与第一挑战感知器模块(201)相同，所述第三挑战感知器模块(203)包括第二IV模块、第二TC模块以及第二GM模块，所述第二IV模块从另一模态的目标中获取照度变化特征信息，所述第二TC模块从另一模态的目标中获取热交叉特征信息，同时所述第二TC模块将获取的热交叉特征信息传递至第二GM模块；

同时所述第一TC模块将获取的热交叉特征信息传递至第二GM模块；所述第二IV模块将获取的照度变化特征信息传递至第一GM模块；所述第一GM模块、第二GM模块将获取的特征信息传输至第一CONCAT层(401)处进行维度拼接；

所述第二挑战感知器模块(202)包括FM模块、OCC模块、SV模块，所述FM模块、OCC模块、SV模块分别从两种模态下的目标获取快速运动信息、比例变化信息、遮挡信息；并将信息发送至第一CONCAT层(401)处进行维度拼接；

所述第一CONCAT层(401)将拼接后的信息传递至第一聚合层(501)处，所述第一聚合层(501)将第一CONCAT层(401)传递的特征信息与第一卷积层(101)传递的特征信息进行相加处理，并发送至第一线性激活模块(301)处；所述第一聚合层(501)还将第一CONCAT层(401)传递的特征信息与第二卷积层(102)传递的特征信息进行相加处理，并发送至第四线性激活模块(601)处；

所述第一线性激活模块(301)与第四线性激活模块(601)将池化后的特征信息依次传递至第二主干网络模块、第三主干网络模块处；经过第三主干网络模块输出的特征信息传递至自适应感兴趣区域对准操作层，得到最终的样本特征图，并保存该样本特征图，自适应感兴趣区域对准操作层将样本特征图输入至全连接层，经过全连接层分类处理后得到每个样本的得分；取得分最高的样本位置作为当前帧预测的视觉跟踪结果；

S2、基于训练后的网络模型进行跟踪，确定目标位置。

2.根据权利要求1所述的基于多挑战交互学习的实时RGBT跟踪方法，其特征在于，所述第一GM模块、第二GM模块相同；

所述第一GM模块中包括若干个依次串联的卷积模块(901)，所述卷积模块(901)由CONV层、ReLU层堆叠在一起组成，先验模态下的特征信息输入至卷积模块(901)中，并依次传递至最后一个卷积模块(901)，将先验模态下特征信息传递至门处理模块处，所述门处理模块将处理后的先验模态下特征信息与最后一个卷积模块(901)处理后的特征信息进行相乘运算处理，并将相乘运算处理后的特征信息与引导莫模态下特征信息进行相加运算处理，输出融合结果。

3.根据权利要求2所述的基于多挑战交互学习的实时RGBT跟踪方法，其特征在于，所述第一GM模块中卷积模块(901)中，卷积层卷积核大小为1×1；所述第一GM模块的公式如下；

γ＝ReLU(ω₂*ReLU(ω₂*x+b₁)+b₂)

其中，其中ω_i、b_i(i＝1，2)分别表示卷积层的权重和偏差，x、z分别表示先验模态和引导模态的特征信息，σ是S型函数，γ、

分别表示没有和有门操作的点状特征位移的参数。

4.根据权利要求1所述的基于多挑战交互学习的实时RGBT跟踪方法，其特征在于，所述第一聚合层(501)包括依次堆叠在一起的CONV层、LRN层，且第一聚合层(501)的COVN层卷积核大小为1×1。

5.根据权利要求1所述的基于多挑战交互学习的实时RGBT跟踪方法，其特征在于，所述第一线性激活模块(301)与第四线性激活模块(601)相同，所述第一线性激活模块(301)由ReLU层、LRN层、maxpool层依次堆叠组成，所述第一线性激活模块(301)与第四线性激活模块(601)将池化后的特征信息传递至第二主干网络模块处。

6.根据权利要求4所述的基于多挑战交互学习的实时RGBT跟踪方法，其特征在于，所述第二主干网络模块与第一主干网络模块的区别为，所述包括第二双流CNN网络模块、第二挑战感知器分支模块；

所述第二双流CNN网络模块包括第三卷积层(103)、第四卷积层(104)、第六挑战感知器模块(206)、第二线性激活模块(302)、第二CONCAT层(402)、第二聚合层(502)、第五线性激活模块(602)；

所述第二挑战感知器分支模块包括第四挑战感知器模块(204)、第五挑战感知器模块(205)；

所述第二线性激活模块(302)、第五线性激活模块(602)均由ReLU层、LRN层依次堆叠组成；所述第二线性激活模块(302)、第五线性激活模块(602)将数据传递至第三主干网络模块中。

7.根据权利要求3所述的基于多挑战交互学习的实时RGBT跟踪方法，其特征在于，所述第三主干网络模块与第一主干网络模块的区别为，包括第三双流CNN网络模块、第三挑战感知器分支模块；

所述第三双流CNN网络模块包括第五卷积层(105)、第六卷积层(106)、第三CONCAT层(403)、第三聚合层(503)、第六线性激活模块(602)以及第四CONCAT层(404)；

所述第三挑战感知器分支模块包括第七挑战感知器模块(207)、第八挑战感知器模块(208)、第九挑战感知器模块(209)、第三线性激活模块(603)，

所述第三线性激活模块(303)、第六线性激活模块(603)由ReLU组成，所述第三线性激活模块(303)、第六线性激活模块(603)将特征信息发送至第四CONCAT层(404)处进行维度拼接。

8.根据权利要求1-7任一所述的基于多挑战交互学习的实时RGBT跟踪方法，所述步骤S1包括；

S11、删除第一GM模块、第二GM模块、第三GM模块、第一聚合模块(501)、第二聚合模块(502)、第三聚合模块(503)后，训练网络模型中第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块；包括；

然后删除第一GM模块、第二GM模块、第三GM模块、第一聚合模块(501)、第二聚合模块(502)、第三聚合模块(503)，初始化第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块以及全连接层，并设置第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块以及全连接层的学习率；

最后进行迭代训练；

S12、训练第一GM模块、第二GM模块、第三GM模块；

S13、训练第一聚合模块(501)、第二聚合模块(502)、第三聚合模块(503)；训练数据集中所有具有挑战性和非挑战性的帧来训练第一聚合模块(501)、第二聚合模块(502)、第三聚合模块(503)和全连接层，并同时微调第一挑战感知器分支模块、第二挑战感知器分支模块、第三挑战感知器分支模块的参数。

9.根据权利要求8所述的基于多挑战交互学习的实时RGBT跟踪方法，所述步骤S2包括；

使用所述样本进行迭代训练来微调网络中全连接层的参数；

S22、初始化训练完成后，获取若干个候选样本；

S23、将获得的若干个候选样本输入到网络模型中；

S25、进行短期更新，短期更新超参数与长期更新相同。

10.基于权利要求1-9任一所述的基于多挑战交互学习的实时RGBT跟踪方法的跟踪装置，其特征在于，包括；

训练模块，用于训练网络模型；