CN110349185A

CN110349185A - 一种rgbt目标跟踪模型的训练方法及装置

Info

Publication number: CN110349185A
Application number: CN201910630002.1A
Authority: CN
Inventors: 李成龙; 罗斌; 朱亚彬; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-18
Anticipated expiration: 2039-07-12
Also published as: CN110349185B

Abstract

本发明公开了一种RGBT目标跟踪模型的训练方法及装置，方法包括：1)、构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型，稠密特征聚合模块包括提取可见光图像特征的第一卷积层序列；以及提取热红外图像特征的第二卷积层序列，第一卷积层中的与第二卷积层中深度相同的卷积层为配对卷积层；除第一个配对卷积层以外的配对卷积层均对应一个特征聚合层，第一个配对卷积层的卷积结果输入到下一个配对卷积层的特征聚合层中；分类模块包括依次串联的若干层全连接层；2)、使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练跟踪模型，得到目标跟踪模型。本发明实施例可以使目标识别结果更加准确。

Description

一种RGBT目标跟踪模型的训练方法及装置

技术领域

本发明涉及一种模型训练方法及装置，更具体涉及一种RGBT目标跟踪模型的训练方法及装置。

背景技术

传统的目标识别都是基于单模态的，例如都是基于可见光的。可见光图像中包含了丰富的几何和纹理细节，但是可见光图像对光线比较敏感，在复杂场景中图像所能传递的信息质量会受到较大的影响。热红外图像反应的是场景中表面温度的分布情况，从而对光照变化不敏感，具有很好的穿透性以及特殊的识别伪装的能力。因此，可以利用两个模态的互补的特点，利用RGBT(Red Green Blue Thermal，红绿蓝热红外)跟踪技术将可见光图像中的特征与红外图像中的特征进行融合，能够利用模态间互补性在具有挑战性的环境中实现稳健的跟踪性能。尽管在RGBT跟踪方面取得了很大进展，但仍有许多问题需要解决，其中如何有效地融合RGB和热红外源是提高跟踪性能的核心因素，目前仍未得到很好的解决。

目前，现有的一些RGBT跟踪方法使用手动权重来实现RGB和热红外数据的融合，但它们的通用性和可扩展性都很低。还有一些方法通过融合不同模态的特征或重构系数，在贝叶斯滤波框架中进行联合稀疏表示，但是当某个模态质量很差时，它通常会引入冗余和噪声信息。最近，一些RGBT跟踪工作重点引入模态权重，以实现不同源数据的自适应融合：兰等人使用最大边际原则根据分类分数优化模态权重；李等人利用重建残基来规范模态权重学习。然而，当重建残差或分类分数不足以反映模态可靠性时，这些工作将失败。另外，以上工作仅仅依靠手工制作的特征来定位物体，因此很难处理由变形、背景杂波、部分遮挡和低照明引起的显著外观变化的挑战。进一步的，李等人采用了双流CNN网络和融合网络来融合这两种模式，但是，该模式只采用了高度语义特征，导致目标跟踪结果的性能较低，尤其是定位结果不够准确。

发明内容

本发明所要解决的技术问题在于提供了一种RGBT目标跟踪模型的训练方法及装置，以解决现有技术中跟踪结果不够准确的技术问题。

本发明是通过以下技术方案解决上述技术问题的：

本发明实施例提供了一种RGBT目标跟踪模型的训练方法，所述方法包括：

1)、构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型，其中，

稠密特征聚合模块包括若干层提取可见光图像特征的第一卷积层序列；以及若干层提取热红外图像特征的第二卷积层序列，第一卷积层序列中的卷积层数量等于第二卷积层序列中的卷积层数量；第一卷积层中的与第二卷积层中深度相同的卷积层为配对卷积层；除第一个配对卷积层以外的配对卷积层均对应一个特征聚合层，第一个配对卷积层的卷积结果输入到下一个配对卷积层的特征聚合层中；从第三个配对卷积层开始，将第三个配对卷积层作为当前配对卷积层，当前配对卷积层对应的特征聚合层将前一个特征聚合层的聚合特征、当前配对卷积层中的卷积层的卷积结果进行特征聚合，直至最后一个特征聚合层；

分类模块包括依次串联的若干层全连接层；

2)、使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练所述跟踪模型，得到目标跟踪模型。

可选的，第一个配对卷积层的卷积结果输入到下一个配对卷积层的特征聚合层中，包括：

第一个配对卷积层的卷积结果经过最大池化处理后输入到下一个配对卷积层的特征聚合层中。

可选的，前一个特征聚合层的聚合特征，包括：

最大池化后的前一个特征聚合层的输出特征。

可选的，所述特征聚合层，包括：依次串联的第三卷积层、非线性激活函数层以及局部响应归一化层，其中，

所述第三卷积层为卷积核尺寸为1*1卷积层；

非线性激活函数层，用于：利用公式，计算非线性输出结果，其中，X_F为非线性输出结果；σ()为激活函数；∑为求和函数；W_i为卷积核；b为偏置；x_i为第i个特征通道的特征；n为特征通道的数量；

局部响应归一化层，用于：利用公式，B＝LRN(X_F)，计算聚合后的特征，其中，B为聚合后的特征；LRN()为局部响应归一化函数。

可选的，所述稠密特征聚合模块以及分类模块之间还设有特征剪切模块，特征剪切模块包括：全局平均池化层以及权重随机选择层，其中，

全局平均池化层用于：利用公式，计算各个特征通道的激活状态，其中，

score_i为第i个特征通道的激活状态；W为特征图像的宽；H为特征图像的高；∑为求和函数；J为像素点的横坐标；K为像素点的纵坐标；x_i为第i个特征通道的特征；

权重随机选择层用于，利用公式，计算各个特征通道的被选择权重，其中，

key_i为第i个通道的被选择权重；r_i为介于0和1之间的标量；score_i为第i个特征通道的激活状态。

可选的，所述步骤2)，包括：

选取K个可见光视频序列以及K个热红外视频序列，且可见光视频序列与热红外视频序列是逐帧对应的；

从每一个可见光视频序列中选取第一预设数量个视频帧，并从每一个视频帧中选择第二预设数量个正样本以及第三预设数量个负样本，对第二预设数量个正样本以及第三预设数量个负样本进行标记并将标记后样本作为预先标记的可见光图像样本；

从每一个热红外视频序列中选取第一预设数量个视频帧，并从每一个视频帧中选择第二预设数量个正样本以及第三预设数量个负样本，对第二预设数量个正样本以及第三预设数量个负样本进行标记并将标记后样本作为预先标记的热红外图像样本；

使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练所述跟踪模型。

可选的，所述方法还包括：

3)、接收待识别可见光图像序列以及对应与所述待识别可见光图像序列的待识别热红外图像序列；

4)、从所述待识别可见光图像序列的第一帧图像以及所述待识别热红外图像序列的第一帧图像中分别提取第四预设数量个正样本以及第五预设数量个负样本；

5)、将第四预设数量个正样本以及第五预设数量个负样本输入到目标跟踪模型中，对目标跟踪模型中的模型参数进行调节，直至跟踪模型的迭代次数不低于第一预设阈值；在目标跟踪模型迭代次数不低于第一预设阈值的情况下，将所述目标跟踪模型作为最终跟踪模型；

6)、将待识别可见光图像序列的第一帧图像作为第一当前帧，将所述待识别热红外图像序列的第一帧图像作为第二当前帧；将所述第一当前帧与所述第二当前帧输入到所述最终跟踪模型中，得到当前识别结果；

7)、将第一当前帧的下一帧作为第一当前帧，将第二当前帧的下一帧作为第二当前帧，并返回执行步骤6)，直至达到待识别可见光图像序列以及待识别热红外图像序列的最后一帧。

可选的，在执行步骤6)中的所述将所述第一当前帧与所述第二当前帧输入到所述最终跟踪模型中，得到当前识别结果步骤时，所述方法还包括：

判断是否达到所述最终跟踪模型的更新条件，其中，所述更新条件包括：当前识别结果对应的最大得分低于第二预设阈值、输入到跟踪模型中的视频帧的数量达到第六预设数量；

若是，扩充预先标记的可见光图像样本的数量以及预先标记的热红外图像样本的数量，并返回执行步骤2)，直至达到待识别可见光图像序列以及待识别热红外图像序列的最后一帧。

本发明实施例还提供了一种RGBT目标跟踪模型的训练装置，所述装置包括：

构建模块，用于构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型，其中，

分类模块包括依次串联的若干层全连接层；

训练模块，用于使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练所述跟踪模型，得到目标跟踪模型。

可选的，构建模块，用于：

可选的，前一个特征聚合层的聚合特征，包括：

最大池化后的前一个特征聚合层的输出特征。

所述第三卷积层为卷积核尺寸为1*1卷积层；

局部响应归一化层，用于：利用公式，B＝LRN(ReLU)，计算聚合后的特征，其中，B为聚合后的特征；LRN()为局部响应归一化函数。

可选的，所述训练模块，用于：

可选的，所述装置还包括：

接收模块，用于接收待识别可见光图像序列以及对应与所述待识别可见光图像序列的待识别热红外图像序列；

提取模块，用于从所述待识别可见光图像序列的第一帧图像以及所述待识别热红外图像序列的第一帧图像中分别提取第四预设数量个正样本以及第五预设数量个负样本；

将第四预设数量个正样本以及第五预设数量个负样本输入到目标跟踪模型中，对目标跟踪模型中的模型参数进行调节，直至跟踪模型的迭代次数不低于第一预设阈值；在目标跟踪模型迭代次数不低于第一预设阈值的情况下，将所述目标跟踪模型作为最终跟踪模型；

设置模块，用于将待识别可见光图像序列的第一帧图像作为第一当前帧，将所述待识别热红外图像序列的第一帧图像作为第二当前帧；将所述第一当前帧与所述第二当前帧输入到所述最终跟踪模型中，得到当前识别结果；

返回模块，用于将第一当前帧的下一帧作为第一当前帧，将第二当前帧的下一帧作为第二当前帧，并触发设置模块，直至达到待识别可见光图像序列以及待识别热红外图像序列的最后一帧。

可选的，设置模块，用于：

若是，扩充预先标记的可见光图像样本的数量以及预先标记的热红外图像样本的数量，并触发训练模块，直至达到待识别可见光图像序列以及待识别热红外图像序列的最后一帧。

本发明相比现有技术具有以下优点：

本发明实施例中，使用了包括若干层提取可见光图像特征的第一卷积层序列；以及若干层提取热红外图像特征的第二卷积层序列的稠密特征聚合模块，可以以一种稠密递归的方式聚合所有层的外观细节和语义特征，相对于现有技术中仅利用高度语义特征，本发明实施例应用的外观细节和语义特征更加全面，因此，目标跟踪结果更加准确。

附图说明

图1为本发明实施例提供的一种RGBT目标跟踪模型的训练方法的流程示意图；

图2为本发明实施例提供的一种RGBT目标跟踪模型的训练方法的中得到的目标跟踪模型的结构示意图；

图3为本发明实施例提供的一种RGBT目标跟踪模型的训练方法的中特征聚合层的结构示意图；

图4为本发明实施例提供的一种RGBT目标跟踪模型的训练方法的另一种流程图；

图5为本发明实施例提供的一种RGBT目标跟踪模型的训练装置的结构示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例提供了一种RGBT目标跟踪模型的训练方法及装置，下面首先就本发明实施例提供的一种RGBT目标跟踪模型的训练方法进行介绍。

图1为本发明实施例提供的一种RGBT目标跟踪模型的训练方法的流程示意图；图2为本发明实施例提供的一种RGBT目标跟踪模型的训练方法的中得到的目标跟踪模型的结构示意图；如图1和图2所示，所述方法包括：

S101：构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型，其中，

稠密特征聚合模块包括若干层提取可见光图像特征的第一卷积层序列；以及若干层提取热红外图像特征的第二卷积层序列，第一卷积层序列中的卷积层数量等于第二卷积层序列中的卷积层数量；第一卷积层中的与第二卷积层中深度相同的卷积层为配对卷积层；除第一个配对卷积层以外的配对卷积层均对应一个特征聚合层，第一个配对卷积层的卷积结果经过最大池化处理后输入到下一个配对卷积层的特征聚合层中；从第三个配对卷积层开始，将第三个配对卷积层作为当前配对卷积层，当前配对卷积层对应的特征聚合层将最大池化后的前一个特征聚合层的输出特征、当前配对卷积层中的卷积层的卷积结果进行特征聚合，直至最后一个特征聚合层；

分类模块包括依次串联的若干层全连接层，分类模态由三层全连接层，图2中的fc4、fc5以及fc6，和一个SoftMax分类函数组成。

示例性的，稠密特征聚合模块用来融合不同模态的特征，特征剪切模块用来剪切聚合后冗余和噪声的特征。

目标跟踪模型包括一个稠密特征聚合模块，一个剪切模块，和一个分类模块，其中，

稠密特征聚合模块中使用的卷积层可以为VGG-M网络的前三层卷积层。但是，在本发明实施例中为了增大感受野，将VGG-M网络的前三层卷积层的结构调整为如表1所示。稠密特征聚合模块包括3层提取可见光图像特征的第一卷积层序列，如Con-V1、Con-V2、Con-V3；还包括了3层提取热红外图像特征的第二卷积层序列，如Con-T1、Con-T2、Con-T3；且，第一卷积层序列中的第一个卷积层Con-V1与第二卷积序列中的第一个卷积层Con-T1为第一个配对卷积层；第一卷积层序列中的第二个卷积层Con-V2与第二卷积序列中的第二个卷积层Con-T2为第二个配对卷积层；第一卷积层序列中的第三个卷积层Con-V3与第二卷积序列中的第三个卷积层Con-T3为第三个配对卷积层。

第一个配对卷积层中的各个卷积层得到的特征图像经过最大池化层处理后输入到第二配对卷积层对应的特征聚合层中，其中，最大池化层对应图2中的M节点。

第二配对卷积层中的各个卷积层得到的特征图像输入到第二配对卷积层对应的特征聚合层中，第二配对卷积层对应的特征聚合层将第一个配对卷积层中的各个卷积层得到的特征图像经过最大池化层处理后的数据、第二配对卷积层中的各个卷积层得到的特征图像进行特征聚合处理；然后将聚合后的特征输入到第三配对卷积层中。

表1为每个卷积层序列中各个卷积层结构示意，如表1所示，

表1

所述特征聚合层，包括：依次串联的第三卷积层、非线性激活函数层以及局部响应归一化层，其中，

所述第三卷积层为卷积核尺寸为1*1卷积层；

上述处理方式可以产生1024个尺寸为5*5的特征图，这些特征图包含着不同的语义和外观细节信息。这种聚合模块可以将多个模态的外观细节信息和语义信息从浅到深的进行聚合，从而得到更加丰富的特征表示。

我们的聚合子模块可以与任何现有的预训练模型相结合，而不会干扰原始特征的传播。

第三配对卷积层中的各个卷积层得到的特征图像输入到第三配对卷积层对应的特征聚合层中，第三配对卷积层对应的特征聚合层将第二个配对卷积层对应的聚合后的特征、第三配对卷积层中的各个卷积层得到的特征图像进行特征聚合处理；然后将聚合后的特征输入到特征剪切模块中。

特征剪切模块用来剪切聚合后冗余和噪声的特征，从而训练出更加鲁棒的特征表达网络；具体过程为：

特征剪切模块包括：全局平均池化层以及权重随机选择层，其中，

特征剪切模块可以通过特征剪切模块来选择响应得分更大的特征通道，相反有较小响应的噪声和冗余的特征通道，会被我们置零，从而失活掉，进而可以解决聚合后特征冗余和噪声的干扰。

需要强调的是，VGG-M网络为现有的卷积神经网络，本发明实施例在此并不对其作出限定。

S102：使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练所述跟踪模型，得到目标跟踪模型。

具体的，S102包括：选取K个可见光视频序列以及K个热红外视频序列，且可见光视频序列与热红外视频序列是逐帧对应的；从每一个可见光视频序列中选取第一预设数量个视频帧，并从每一个视频帧中选择第二预设数量个正样本以及第三预设数量个负样本，对第二预设数量个正样本以及第三预设数量个负样本进行标记并将标记后样本作为预先标记的可见光图像样本；从每一个热红外视频序列中选取第一预设数量个视频帧，并从每一个视频帧中选择第二预设数量个正样本以及第三预设数量个负样本，对第二预设数量个正样本以及第三预设数量个负样本进行标记并将标记后样本作为预先标记的热红外图像样本；使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练所述跟踪模型。

示例性的，本发明在Pytorch0.41，酷睿i7-7700K CPU(Center Processing Unit，中央处理器)和英伟达GTX 1080Ti GPU(Graphics Processing Unit，图形处理器)环境下进行目标跟踪模型的训练，包括以下步骤：

选取K对RGBT的视频序列作为训练数据集，每个视频序列中都包括相同帧数的可见光视频序列以及热红外视频序列。

对每个序列选取8帧图片，根据高斯与均值采样方法从每帧图片选取32个正样和96个负样本，其中正样本与目标真值框的交并比为[0.7,1]，负样本与目标真值框的交并比为[0,0.5]。

把可见光视频序列对应的正样本以及负样本输入到S101步骤中构建的跟踪模型中的第一卷积层序列中，将热红外视频序列对应的正样本以及负样本输入到S101步骤中构建的跟踪模型中的第二卷积层序列中。

然后，由特征剪切模块失活部分特征通道，把处理过得特征输入分类模块进行分类。

重复上述过程，训练时卷积层的学习率为0.0001，全连接层的学习率为0.001，且使用SGD优化器进行模型迭代求优，直至迭代次数达到100*K次，得到训练好的目标跟踪模型。

应用本发明图1所示实施例，使用了包括若干层提取可见光图像特征的第一卷积层序列，以及若干层提取热红外图像特征的第二卷积层序列的稠密特征聚合模块，可以以一种稠密递归的方式聚合所有层的外观细节和语义特征，相对于现有技术中仅利用高层语义特征，本发明实施例应用的外观细节和语义特征更加全面，因此，目标跟踪结果更加准确。

图4为本发明实施例提供的一种RGBT目标跟踪模型的训练方法的另一种流程图；如图4所示，所述方法还包括：

S103：接收待识别可见光图像序列以及对应与所述待识别可见光图像序列的待识别热红外图像序列；

输入待跟踪的成对的RGBT视频序列，并加载训练好的目标跟踪模型。

每一对RGBT视频序列中都包括相同帧数的可见光视频序列以及热红外视频序列。

S104：从所述待识别可见光图像序列的第一帧图像以及所述待识别热红外图像序列的第一帧图像中分别提取第四预设数量个正样本以及第五预设数量个负样本。

在可见光视频序列的第一帧的目标位置附近选取500个正样本，5000个负样本，正负样本与真值框的交并比分别为[0.7,1]，[0,0.5]；

在热红外视频序列的第一帧的目标位置附近选取500个正样本，5000个负样本，正负样本与真值框的交并比分别为[0.7,1]，[0,0.5]。

需要强调的是，目标位置附近是指，以目标的中心点为中心的设定范围内；或者以目标的边缘为起点，该起点上下左右的设定范围内。

S105：将第四预设数量个正样本以及第五预设数量个负样本输入到目标跟踪模型中，对目标跟踪模型中的模型参数进行调节，直至跟踪模型的迭代次数不低于第一预设阈值；在目标跟踪模型迭代次数不低于第一预设阈值的情况下，将所述目标跟踪模型作为最终跟踪模型；

需要强调的是，在微调的过程中，卷积层的参数都是固定的，只微调全连接层的参数，且fc4、fc5的学习率为0.0001，fc6的学习率为0.001。

S106：将待识别可见光图像序列的第一帧图像作为第一当前帧，将所述待识别热红外图像序列的第一帧图像作为第二当前帧；将所述第一当前帧与所述第二当前帧输入到所述最终跟踪模型中，得到当前识别结果。

对于待识别可见光图像序列，将第一帧图像的下一帧图像作为第一当前帧图像，对于待识别热红外图像序列，将第一帧图像的下一帧图像作为第二当前帧图像，使用最终跟踪模型对第一当前帧图像以及第二当前帧图像进行目标跟踪：

首先在第一当前帧的对应于上一帧图像中的目标位置的附近选取256个候选框；在第二当前帧的对应于上一帧图像中的目标位置的附近选取256个候选框。第二当前帧的256个候选框完全与第一当前帧的256个候选框的位置和尺度是相同的，所以实际的候选框数量为256个。

然后把这256个候选框输入最终跟踪模型求每个候选框的分类得分，将得分最高的候选框作为目标框。

在实际应用中，可以使用岭回归函数对目标框进行尺度估计，利用公式，其中，xⁱ为候选样本，λ为平衡参数，N为候选框的个数，tⁱ表示真值框与当前候选框的位置和尺度信息的偏移量，w为待优化的参数。上述公式的第一项为保真项，w^Txⁱ表示候候选样本的预测偏移量，整个公式第一项的意思是让当前候选框预测的偏移量尽可能的等于真实的偏移量。第二项是正则项，它的作用防止模型过拟合。在测试时我们用Δ_*＝w^Tx_t去预测偏移量，其中Δ_*＝(Δ_x,Δ_y,Δ_w,Δ_h)表示在位置x,y和尺度w,h上的偏移量，x_t表示为当前帧的候选样本。并且当前帧候选样本估计后的位置和尺度为P_*＝P_o+Δ_*，P_o表示当前帧候选框原始的位置和尺度信息，P_*表示当前帧候选框估计后的位置和尺度信息其中。进而可以得出第一当前帧以及第二当前帧中的目标位置以及尺度大小。

S107：将第一当前帧的下一帧作为第一当前帧，将第二当前帧的下一帧作为第二当前帧，并返回执行步骤S106，直至达到待识别可见光图像序列以及待识别热红外图像序列的最后一帧。

应用本发明上述实施例，可以对RGBT视频序列中的目标进行识别，进而可以实现目标的跟踪。

在本发明实施例的一种具体实施方式中，在执行步骤S106中的所述将所述第一当前帧与所述第二当前帧输入到所述最终跟踪模型中，得到当前识别结果步骤时，所述方法还包括：

判断是否达到所述最终跟踪模型的更新条件，其中，所述更新条件包括：当前识别结果对应的最大得分低于第二预设阈值、输入到跟踪模型中的视频帧的数量达到第六预设数量；若是，扩充预先标记的可见光图像样本的数量以及预先标记的热红外图像样本的数量，并返回执行步骤S102，直至达到待识别可见光图像序列以及待识别热红外图像序列的最后一帧。

示例性的，更新条件包括短期更新条件和长期更新条件，其中，

短期更新条件包括：如当前识别结果的得分最大的候选框得分低于设置的阈值等。

长期更新条件包括：指每10帧视频更新一次。

在对最终跟踪模型进行更新后，判断第一当前帧以及第二当前帧是否是最后一帧，若是最后一帧，目标识别及跟踪结束，否则跟踪继续；

扩充预先标记的可见光图像样本的数量以及预先标记的热红外图像样本的数量，可以为：将待识别可见光视频序列以及待识别热红外视频序列中已被识别的视频帧以及对应的识别结果作为样本加入到之前的用于训练目标跟踪模型的样本集中，得到新的样本集，然后用这个新的样本集进行更新后的模型的训练。

需要强调的是，在最终目标跟踪模型的更新过程中，卷积层的参数都是固定的，只微调全连接层的参数，且fc4、fc5的学习率为0.0001，fc6的学习率为0.001。另外，在进行待识别可见光图像序列以及待识别热红外图像序列中的目标识别与跟踪时，剪切模块并不参与目标识别，这样会大大增加网络的效率。

与本发明图1所示实施例相对应，本发明实施例还提供了一种RGBT目标跟踪模型的训练装置。

图5为本发明实施例提供的一种RGBT目标跟踪模型的训练装置的结构示意图，如图5所示，所述装置包括：

构建模块501，用于构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型，其中，

分类模块包括依次串联的若干层全连接层；

训练模块502，用于使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练所述跟踪模型，得到目标跟踪模型。

应用本发明图5所示实施例，使用了包括若干层提取可见光图像特征的第一卷积层序列；以及若干层提取热红外图像特征的第二卷积层序列的稠密特征聚合模块，可以以一种稠密递归的方式聚合所有层的外观细节和语义特征，相对于现有技术中仅利用高层语义特征，本发明实施例应用的外观细节和语义特征更加全面，因此，目标跟踪结果更加准确。

在本发明实施例的一种具体实施方式中，构建模块501，用于：

在本发明实施例的一种具体实施方式中，前一个特征聚合层的聚合特征，包括：

最大池化后的前一个特征聚合层的输出特征。

在本发明实施例的一种具体实施方式中，所述特征聚合层，包括：依次串联的第三卷积层、非线性激活函数层以及局部响应归一化层，其中，

所述第三卷积层为卷积核尺寸为1*1卷积层；

在本发明实施例的一种具体实施方式中，所述稠密特征聚合模块以及分类模块之间还设有特征剪切模块，特征剪切模块包括：全局平均池化层以及权重随机选择层，其中，

在本发明实施例的一种具体实施方式中，所述训练模块502，用于：

在本发明实施例的一种具体实施方式中，所述装置还包括：

在本发明实施例的一种具体实施方式中，设置模块，用于：

若是，扩充预先标记的可见光图像样本的数量以及预先标记的热红外图像样本的数量，并触发训练模块502，直至达到待识别可见光图像序列以及待识别热红外图像序列的最后一帧。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种RGBT目标跟踪模型的训练方法，其特征在于，所述方法包括：

分类模块包括依次串联的若干层全连接层；

2.根据权利要求1所述的一种RGBT目标跟踪模型的训练方法，其特征在于，第一个配对卷积层的卷积结果输入到下一个配对卷积层的特征聚合层中，包括：

3.根据权利要求1所述的一种RGBT目标跟踪模型的训练方法，其特征在于，前一个特征聚合层的聚合特征，包括：

最大池化后的前一个特征聚合层的输出特征。

4.根据权利要求1所述的一种RGBT目标跟踪模型的训练方法，其特征在于，所述特征聚合层，包括：依次串联的第三卷积层、非线性激活函数层以及局部响应归一化层，其中，

所述第三卷积层为卷积核尺寸为1*1卷积层；

5.根据权利要求1所述的一种RGBT目标跟踪模型的训练方法，其特征在于，所述稠密特征聚合模块以及分类模块之间还设有特征剪切模块，特征剪切模块包括：全局平均池化层以及权重随机选择层，其中，

6.根据权利要求1所述的一种RGBT目标跟踪模型的训练方法，其特征在于，所述步骤2)，包括：

7.根据权利要求1所述的一种RGBT目标跟踪模型的训练方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的一种RGBT目标跟踪模型的训练方法，其特征在于，在执行步骤6)中的所述将所述第一当前帧与所述第二当前帧输入到所述最终跟踪模型中，得到当前识别结果步骤时，所述方法还包括：

9.一种RGBT目标跟踪模型的训练装置，其特征在于，所述装置包括：

分类模块包括依次串联的若干层全连接层；

10.根据权利要求9所述的一种RGBT目标跟踪模型的训练装置，其特征在于，构建模块，用于：