CN110874590B

CN110874590B - 基于适配器互学习模型的训练及可见光红外视觉跟踪方法

Info

Publication number: CN110874590B
Application number: CN201911128548.3A
Authority: CN
Inventors: 李成龙; 钱存; 鹿安东; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2023-02-28
Anticipated expiration: 2039-11-18
Also published as: CN110874590A

Abstract

本发明涉及基基于适配器互学习模型的训练及可见光红外视觉跟踪方法，包括以下步骤；S11、构建网络模型；S12、使用人工标注好的可见光热红外数据集来训练整个网络模型；S21、获取当前帧的候选样本；S22、根据候选样本，预测目标位置；S23、判断当前帧是否跟踪成功。本发明通过在多适配器(包括模式适配器、通用适配器和实例适配器)的基础上引入适配器互学习模块，实现双向跨模态信息传递，以充分利用RGBT跟踪中不同特征学习方式的互补优势来进一步提高跟踪性。

Description

基于适配器互学习模型的训练及可见光红外视觉跟踪方法

技术领域

本申请涉及计算机视觉领域，尤其涉及基于适配器互学习模型的训练及可见光红外视觉跟踪方法。

背景技术

目标跟踪作为计算机视觉领域中的一个热点问题；目标跟踪也是无人驾驶，智能交通和智能监控的关键技术之一。

现在的基于检测跟踪的方法主要是训练一个二分类器，可以有效的区分背景和前景，首先在视频序列中给出第一帧的bounding box(边界框)的条件下，设定一个具体的阈值来确定正负样本；在视频的后续帧中，依然是对上一帧所预测的结果附近进行高斯采样，对得到的样本进行正负样本二分类，正样本中得分最高的就是下一帧预测的结果。

目前的跟踪算法大多基于可见光单一模态条件下，但是在一些极端条件下会受到较大的影响，比如恶劣天气和光照强烈变化等，单模态跟踪算法往往表现的不尽人意，因为可见光图像对于光线比较敏感，在光照这一类的挑战环境会受到严重的影响。而热红外图像主要是根据场景中物体表面温度来成像，对于光照的变化不敏感，因此处理光照变化挑战有天然的优势。美中不足的是热红外图像也存在着边缘迷糊，受温度影响较大的缺点。

如何利用两个模态之间的优势互补是我们首先要解决的问题。目前的RGBT(RedGreen Blue Thermal，红绿蓝热红外)跟踪方法主要从两个方面，一方面是研究如何融合深度卷积神经网络中的可见光和热红外模态，通过学习模态共享和模态特定的特征表示。引入三种类型的适配器，包括模式适配器、通用适配器和实例适配器，以捕获特定于模态、模态共享和实例感知的目标表示；模态共享特征在不同模态的协同表示中起着关键作用，模态特定特征用于表示不同模态的互补信息。

另一种方法是引入模态权重，用于不同模态的自适应融合。通过对每个模态分别建模，然后通过学习表示不同模态质量的模态权重来整合不同的模态特征。

但是模态间的交互，往往只存在模态共享特征间，而这些方法都忽略了模态特有特征交互的作用；从而导致不同模态的不充分融合，会限制跟踪性能。

发明内容

本发明所要解决的技术问题在于提供基于适配器互学习模型的训练及可见光红外视觉跟踪方法，以解决RGBT跟踪方法中模态的不充分融合的问题。

本发明通过以下技术手段实现解决上述技术问题的：

基于适配器互学习模型的训练方法，包括以下步骤；

S11、构建网络模型；所述网络模型由依次串联的多级适配器模块、concatnate函数、实例适配器组成，多级适配器模块输出不同模态的特征图并通过concatnate函数按通道维度的拼接得到一个整体的特征图，传递至实例适配器进行计算；

S12、使用人工标注好的可见光热红外数据集来训练整个网络模型；

通过在多适配器(包括模式适配器、通用适配器和实例适配器)的基础上引入适配器互学习模块，实现双向跨模态信息传递，以充分利用RGBT跟踪中不同特征学习方式的互补优势来进一步提高跟踪性能。

作为本发明进一步的方案：所述多级适配器模块分别由依次串联的第一级适配器模块、第二级适配器模块、第三级适配器模块组成；

所述第一级适配器模块中包括两个第一模态适配器、第一通用适配器、两个适配器互学习模块，将候选样本分别送入不同模态相对应的第一模态适配器中、第一通用适配器中，第一通用适配器主要提取模态共享特征，两个第一模态适配器提取模态特定特征，再分别输送至两个适配器互学习模块中，进行模态间的特征调制，两个适配器互学习模块将调制好的特征分别与对应模态的第一通用适配器输出特征做加法操作，进行特征融合，然后依次传入第二级适配器模块、第三级适配器模块中；第三级适配器模块输出不同模态的特征图并通过concatnate函数按通道维度的拼接得到一个整体的特征图，传递至实例适配器进行计算；

所述第二级适配器模块包括两个第二模态适配器、第二通用适配器、两个适配器互学习模块；

所述第三级适配器模块包括两个第三模态适配器、第三通用适配器、两个适配器互学习模块；

且两个第二模态适配器、第二通用适配器、两个适配器互学习模块的传递关系；以及两个第三模态适配器、第三通用适配器、两个适配器互学习模块之间的传递关系与第一级适配器模块中传递关系相同。

作为本发明进一步的方案：所述第一模态适配器由卷积核大小为7*7的卷积层、ReLU激活函数、批归一化层、随机失活函数层、最大池化层组成；且所述第一模态适配器为两个，分别为可见光模态适配器、热红外模态适配器；

所述第一通用适配器由卷积核大小为7*7的卷积层、激活函数ReLU层、局部响应函数LRN层、最大值池化层组成；

所述第二级适配器模块由第二模态适配器、与第二模态适配器并行的第二通用适配器组成，所述第二模态适配器由卷积核大小为1*1的卷积层、ReLU激活函数、批归一化层、随机失活函数层、最大池化层组成；

所述第二通用适配器由卷积核大小为5*5的卷积层、激活函数ReLU层、局部响应函数LRN层、最大值池化层组成；

所述第三级适配器模块由第三模态适配器、与第三模态适配器并行的第三通用适配器组成；其中，所述第三模态适配器由卷积核大小为1*1的卷积层、ReLU激活函数、批归一化层、随机失活函数层组成；所述第三通用适配器由卷积核大小为3*3的卷积层、局部响应函数LRN层组成。

作为本发明进一步的方案：所述实例适配器由带有Dropout层的两个FC层和一个带由softmax层的FC层依次串联所组成。

作为本发明进一步的方案：所述适配器互学习模块由第一级学习模块、第二级学习模块组成，且第一级学习模块和第二级学习模块相同，第一级学习模块包括依次串联的两个卷积层、sigmoid激活函数层、特征级的乘操作模块组成；当特征输入至第二个卷积层卷积操作后，并将结果传递至乘操作模块处；同时第二个卷积层还与sigmoid激活函数层串联并将结果传递至sigmoid激活函数层处，且所述sigmoid激活函数层进行抑制处理后将结果传输至乘操作模块处，与经过两次卷积操作的结果进行相乘操作，再与另一个特征进行相乘操作得到一个输出结果，记为第一输出结果；

同时输入第一级学习模块的特征还同时输入至第二级学习模块处，第二级学习模块包括依次串联的两个卷积层、sigmoid激活函数层、特征级的乘操作模块组成，第二级学习模块的输出结果与第一输出结果进行相加操作；

当热红外模态特有特征与可见光模态特有特征进行特征调制时，将热红外模态特有特征送入到第一级学习模块后得到的特征图对可见光模态特有特征图进行相乘操作；送入第二级学习模块后得到的特征图与可见光模态特有模态经过相乘的特征图进行相加操作；同理可得到可见光模态对热红外模态的特征调制。

作为本发明进一步的方案：所述步骤S12包括；

S1201、在视频帧的真值框附近选择n₁个样本；n₁个样本中包括正样本和负样本；

S1202，得到的正样本、负样本，使用随机梯度法进行迭代训练。

基于所述的适配器互学习模型的训练方法的可见光红外视觉跟踪方法，包括以下步骤：

S21、输入当前跟踪的视频帧，在前一帧预测的目标位置周围用高斯采样获取当前帧的候选样本；

S22、根据候选样本，预测目标位置；

S23、判断当前帧是否跟踪成功，如果当目标的得分大于零时，判定为跟踪成功，执行步骤1)；当目标得分小于零时，则判定为跟踪失败，执行步骤2)。

作为本发明进一步的方案：所述步骤S21包括；

由跟踪视频序列的提供的第一帧图像作为前一帧；由前一帧和框定目标位置区域的真值框，按照高斯分布随机产生若干个样本，并进行若干次的迭代训练，完成网络模型的初始化；

初始化结束后，把前一帧的目标位置求均值，使用高斯分布采样，以(0.09r²,0.09r²,0.25)为协方差；产生候选样本，其中：r为前一帧目标框的宽和高的平均值。

作为本发明进一步的方案：所述步骤S22包括；

将候选样本分别送入到相对应的第一模态适配器中、第一通用适配器中，第一通用适配器主要提取模态共享特征，两个第一模态适配器提取模态特定特征，再分别输送至两个适配器互学习模块中，进行模态间的特征调制，两个适配器互学习模块将调制好的特征分别与对应模态的第一通用适配器特征做加法操作进行特征融合，然后依次传入第二级适配器模块、第三级适配器模块中；在最后一个卷积层将不同模态的特征图通过Concatnate函数按通道维度的拼接得到一个整体的特征图，在把它送入最后的实例适配器进行计算，在第三全连接层后送入softmax函数得到二分类得分，分别记为f⁺(xⁱ)(正样本得分)和f^-(xⁱ)(负样本得分),而再利用公式

预测出当前的目标位置，其中xⁱ表示采样的第i个样本，x^*为预测的目标位置。

作为本发明进一步的方案：

所述步骤1)为；其中，在当前帧进行正负样本采样保存至总的正负样本数据集中；

所述步骤2)为；跟踪失败时进行短期更新；短期更新包括抽取样本并微调全连接层的参数。

且所述步骤S23还包括长期更新，如不满足短期更新和长期更新的情况，则直接跟踪下一帧，模型不更新，直至最后一帧结束；

长期更新为每隔若干帧进行一次，从正负样本集中抽出样本并微调全连接层的参数，进行迭代训练更新。

本发明的优点在于：

1、本发明包括多级适配器模块、Concatnate函数、实例适配器，多级适配器模块能够实现双向跨模态信息传递，以充分利用RGBT跟踪中不同特征学习方式的互补优势来进一步提高跟踪性能。

2、本发明在模式适配器、通用适配器和实例适配器的基础上引入适配器互学习模块，实现双向跨模态信息传递。

3、现存的方法是引入模态权重，用于不同模态的自适应融合。通过对每个模态分别建模，然后通过学习表示不同模态质量的模态权重来整合不同的模态特征。这些方法往往存在着参数的冗余，容易引入噪声和误差，从而抑制了模态互补的优势；而本发明中适配器互学习模块中含有sigmoid激活函数，其中sigmoid激活函数充当门机制来抑制噪声；从而克服了现有方法中存在着参数的冗余、容易引入噪声和误差的问题。

附图说明

图1为本发明实施例1的流程方框图。

图2为本发明实施例2的流程方框图。

图3为本发明中网络模型的流程图。

图4为本发明中适配器互学习模块的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1、图3、图4，图1为本发明实施例1的流程方框图；图3为本发明中网络模型的流程图；图4为本发明中适配器互学习模块的流程图；基于适配器互学习模型的训练过程，包括以下步骤；

图3为本发明中适配器互学习模块的流程图；如图3，本实施例中，所述多级适配器模块分别由依次串联的用于将样本输出成不同模态特征图的第一级适配器模块、第二级适配器模块、第三级适配器模块组成；且每一级适配器模所包括的适配器连接关系相同；所以本实施例中以第一级适配器模块为例进行详细描述，

所述第一级适配器模块中包括两个第一模态适配器、第一通用适配器、两个适配器互学习模块，将候选样本分别送入到相对应的第一模态适配器中、第一通用适配器中，第一通用适配器主要提取模态共享特征，两个第一模态适配器提取模态特定特征，再分别输送至两个适配器互学习模块中，进行模态间的特征调制，两个适配器互学习模块将调制好的特征分别与对应模态的第一通用适配器输出特征做加法操作进行特征融合，然后依次传入第二级适配器模块、第三级适配器模块中；

其中，第一级适配器模块的输出结果输送至两个第二模态适配器、第二通用适配器中，两个第二模态适配器提取模态特定特征，再分别输送至两个适配器互学习模块中，进行模态间的特征调制，两个适配器互学习模块将调制好的特征分别与对应模态的第二通用适配器输出特征做加法操作，进行特征融合；传递至第三级适配器模块中；

其中，两个第三模态适配器提取模态特定特征，再分别输送至两个适配器互学习模块中，进行模态间的特征调制，两个适配器互学习模块将调制好的特征分别与对应模态的第三通用适配器输出特征做加法操作，进行特征融合；第三级适配器模块输出不同模态的特征图并通过concatnate(拼接)函数层按通道维度的拼接得到一个整体的特征图，传递至最后的实例适配器进行计算。

优选的，所述第一模态适配器由依次串联的卷积核大小为7*7的卷积层、ReLU激活函数、批归一化层、随机失活函数层、最大池化层组成；且所述第一模态适配器为两个，分别为可见光模态适配器、热红外模态适配器。

所述第一通用适配器由依次串联的卷积核大小为7*7的卷积层、激活函数ReLU(Rectified Linear Unit,线性整流函数)层、局部响应函数LRN(Local ResponseNormalization)层、最大值池化层组成；

所述第二级适配器模块由第二模态适配器、与第二模态适配器并行的第二通用适配器组成，所述第二模态适配器由依次串联的卷积核大小为1*1的卷积层、ReLU激活函数、批归一化层、随机失活函数层、最大池化层组成；且所述第二模态适配器为两个，分别为可见光模态适配器、热红外模态适配器；

所述第二通用适配器由依次串联的卷积核大小为5*5的卷积层、激活函数ReLU层、局部响应函数LRN层、最大值池化层组成；

所述第三级适配器模块由第三模态适配器、与第三模态适配器并行的第三通用适配器组成；其中，所述第三模态适配器由依次串联的卷积核大小为1*1的卷积层、ReLU激活函数、批归一化层、随机失活函数层组成；所述第三通用适配器由卷积核大小为3*3卷积层、局部响应函数LRN层组成；且所述第三模态适配器为两个，分别为可见光模态适配器、热红外模态适配器。

所述实例适配器由带有Dropout层的两个FC层(fully connected，全连接层)和一个带由softmax层的FC层(全连接层)依次串联所组成。

其中带有Dropout层的两个FC层、softmax层的FC层分别记为第一全连接层、第二全连接层、第三全连接层，大小分别为1024、512、2。

所述适配器互学习模块由第一级学习模块、第二级学习模块组成，且第一级学习模块和第二级学习模块相同，本实施例中，第一级学习模块包括依次串联的两个卷积核为1*1的卷积层、sigmoid激活函数层、特征级的乘操作模块组成；当特征输入至两个串联的卷积层中的第二个卷积层卷积操作后，并将结果传递至乘操作模块处；同时第二个卷积层还与sigmoid激活函数层串联从而将结果传递至sigmoid激活函数层处，且所述sigmoid激活函数层进行抑制处理后将结果传输至乘操作模块处，与经过两次卷积操作的结果进行相乘操作，再与另一个特征进行相乘操作得到一个输出结果，记为第一输出结果，

同时输入第一级学习模块的特征还同时输入至第二级学习模块处，第二级学习模块包括依次串联的两个卷积核为1*1的卷积层、sigmoid激活函数层、特征级的乘操作模块组成，且传递关系与第一级学习模块相同；第二级学习模块的输出结果与第一输出结果进行相加操作，实现特征调制；

本实施例中，当热红外模态特有特征与可见光模态特有特征进行特征调制时，将热红外模态特有特征送入到第一级学习模块后得到的特征图对可见光模态特有特征图进行相乘操作；同时将热红外模态特有特征送入第二级学习模块处理后得到的特征图与可见光模态特有特征经过相乘操作的输出结果进行相加操作；得到热红外模态对可见光模态的特征调制。

同理，将可见光模态特有特征送入到第一级学习模块后得到的特征图对热红外模态特有特征图进行相乘操作，同时将可见光模态特有特征送入第二级学习模块处理后得到的特征图与热红外模态特有特征经过相乘的输出结果进行相加操作，可得到可见光模态对热红外模态的特征调制。

其中，sigmoid激活函数充当门机制来抑制噪声；以此实现模态间的特征互补，进一步提高目标跟踪的。

S12、使用人工标注好的可见光热红外数据集来训练整个网络模型；具体包括；

S1201、获取正样本、负样本；具体为在视频帧的真值框附近选择n₁个样本，且n₁为正整数；本实施例中优选为250个样本，包含S₊＝50(IOU≥0.7)个正样本和S_-＝200(IOU≤0.5)个负样本；其中，S₊表示正样本，S_-表示负样本，IOU表示采集样本与真值框之间的交并比；

需要强调的是，视频帧的真值框附近是指，以视频帧的真值框的中心点为中心的设定范围内；或者以其为起点，该起点上下左右的设定范围内。

S1202，得到的正样本、负样本，使用随机梯度法进行迭代训练；具体如下；

在迭代训练的时候使用随机梯度法进行n₂次迭代，且n₂为正整数；本实施例中优选为100次迭代，且在每次迭代过程中，每一个视频序列对应着一个新的第三全连接层来进行训练，第一全连接层、第二全连接层的视频序列共享；

在迭代训练过程中，每次迭代都需要保证每个全连接层使用的是与其对应的视频序列来进行训练，因此在第x轮迭代中的minibatch(batchsize＝128)是从第xmodK个视频序列中随机抽取8帧图像通过高斯分布采集正负样本，同时更换对应视频序列的第(kmodK)个第三全连接层，其中，mod代表求余函数；x为正整数；

进一步的，所有的卷积层学习率设置为0.0001，第一全连接层、第二全连接层、第三全连接层的学习率设置为0.0002；并保存最终的网络模型；

其中，第一帧的真值框是通过手工标注。

实施例2

如图2、图3及图4，图2为本发明实施例2的流程方框图；图3为本发明中网络模型的流程图；图4为本发明中适配器互学习模块的流程图；基于适配器互学习模型的可见光红外视觉跟踪方法，包括以下步骤：

由跟踪视频序列的提供的第一帧图像作为前一帧；由前一帧和框定目标位置区域的真值框，按照高斯分布随机产生若干个样本，并进行若干次的迭代训练，完成网络模型的初始化。

具体的，本实施例中，按照高斯分布随机产生5500个样本，S₊＝500(IOU≥0.7)和S_-＝5000(IOU≤0.3)；训练迭代次数设置为30次；使用这5500个样本初始化训练网络模型，得到新的第三全连接层。此时固定所有卷积层的学习率，第三全连接层的学习率设置为0.001，第一全连接层、第二全连接层的学习率均设置为0.0001；完成网络模型的初始化；

初始化结束后，把前一帧的目标位置求均值，使用高斯分布采样，以(0.09r²,0.09r²,0.25)为协方差；产生256个候选样本，其中：r为前一帧目标框的宽和高的平均值；

需要说明的是，高斯分布为现有技术，不在本发明的保护范围内，此处不再进行详细描述。

S22、根据候选样本，预测目标位置；

将候选样本分别送入到相对应的第一模态适配器中、第一通用适配器中，两个第一模态适配器提取模态特定特征，再分别输送至两个适配器互学习模块中，进行模态间的特征调制，两个适配器互学习模块将调制好的特征分别与对应模态的第一通用适配器输出特征做加法操作，进行特征融合，然后依次传入第二级适配器模块、第三级适配器模块中；第三级适配器模块处理后的输出结果经过Concatnate函数，将拼接后的输出结果传递至实例适配器进行计算，在第三全连接层后送入softmax函数得到二分类得分，分别记为f⁺(xⁱ)(正样本得分)和f^-(xⁱ)(负样本得分),而再利用公式

预测出当前的目标位置，其中xⁱ表示采样的第i个样本，x^*为预测的目标位置；

S23、判断当前帧是否跟踪成功，如果当目标的得分大于零时，判定为跟踪成功，执行步骤1)；当目标得分小于零时，则判定为跟踪失败，执行步骤2)；

所述步骤1)为：跟踪成功时，在当前帧进行正负样本采样，包含50个正样本(IOU≥0.6)和200个负样本(IOU≤0.3)，且总的正样本集保存最近100次跟踪成功帧的正样本，总的负样本集保存最近20次跟踪成功帧的负样本；

所述步骤2)为：跟踪失败时会进行短期更新，短期更新包括抽取样本并微调全连接层的参数，具体的，从总的正负样本数据集中抽出32个正样本和96个负样本微调全连接层的参数，迭代10次，第三全连接层设置为0.001，第一全连接层、第二全连接层设置为0.0001。

且所述步骤S23还包括长期更新，在线目标跟踪过程中，执行长期更新，每10帧进行一次长期更新，从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数，迭代10次，第三全连接层设置为0.001，第一全连接层、第二全连接层设置为0.0001；如不满足短期更新和长期更新的情况，则直接跟踪下一帧，模型不更新，直至最后一帧结束。

如下表1和表2，表1和表2为本发明的实验结果图，分别在公开的数据集GTOT和RGBT234上进行了测试，并将测试结果与其他的跟踪器在SR(成功率)和PR(准确度)上进行了评估。其中MALT表示本发明的跟踪结果精度，可以很明显的看到相比于其他方法，其跟踪性能均匀较大程度的提升。表1和表2中，Trackers为跟踪器的名称；

MALT为Deep Mutual Adapter Learning for Robust RGBT Tracking(本发明的方法)；

SGT为Weighted sparse representation regularized graph learning forrgb-t object tracking；rgb-t；

MDNet为Learning multi-domain con volutional neural networks forvisual tracking；

DAT为Deep Attentive Tracking via Reciprocative Learning；

ECO为Efficient convolution operators for tracking；

RT-MDNet为Real-time mdnet；

SRDCF为Learning spatially regularized correlation filters for visualtracking；

ADNet为Action-decision networks for visual tracking with deepreinforcement learning；

MANet为Multiadapter rgbt tracking；

DANet为Dense Feature Aggregation and Pruning for RGBT Tracking；

FANet为Quality-Aware Feature Aggregation Network for RGB-T Tracking。

Trackers	MALT	SGT	MDNet	DAT	ECO	RT-MDNet	SRDCF	ADNet
									PR	0.874	0.851	0.8	0.771	0.77	0.745	0.719	0.718
SR	0.707	0.628	0.637	0.618	0.631	0.613	0.591	0.629

表1

表2

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于适配器互学习模型的训练方法的可见光红外视觉跟踪方法，其特征在于，所述基于适配器互学习模型的训练方法，包括以下步骤：

S11、构建网络模型；所述网络模型由依次串联的用于将样本输出成不同模态特征图的多级适配器模块、Concatenate函数、实例适配器组成，多级适配器模块输出不同模态的特征图并通过Concatenate函数按通道维度的拼接得到一个整体的特征图，传递至实例适配器进行计算；

所述多级适配器模块分别由依次串联的第一级适配器模块、第二级适配器模块、第三级适配器模块组成；

所述第一级适配器模块中包括两个第一模态适配器、第一通用适配器、两个适配器互学习模块，将候选样本分别送入不同模态相对应的第一模态适配器中、第一通用适配器中，第一通用适配器用于提取模态共享特征，两个第一模态适配器提取模态特定特征，再分别输送至两个适配器互学习模块中，进行模态间的特征调制，两个适配器互学习模块将调制好的特征分别与对应模态的第一通用适配器输出特征做加法操作，进行特征融合，然后依次传入第二级适配器模块、第三级适配器模块中；

且两个第二模态适配器、第二通用适配器、两个适配器互学习模块的传递关系；以及两个第三模态适配器、第三通用适配器、两个适配器互学习模块之间的传递关系与第一级适配器模块中传递关系相同；

所述第一模态适配器由卷积层、ReLU激活函数、批归一化层、随机失活函数层、最大池化层组成；且所述第一模态适配器包括为可见光模态适配器、热红外模态适配器；

所述第一通用适配器由卷积层、激活函数ReLU层、局部响应函数LRN层、最大值池化层组成；

所述第二级适配器模块由第二模态适配器、与第二模态适配器并行的第二通用适配器组成，

所述第二模态适配器由卷积层、ReLU激活函数、批归一化层、随机失活函数层、最大池化层组成；所述第二模态适配器包括可见光模态适配器、热红外模态适配器；

所述第二通用适配器由卷积层、激活函数ReLU层、局部响应函数LRN层、最大值池化层组成；

所述第三级适配器模块由第三模态适配器、与第三模态适配器并行的第三通用适配器组成；其中，所述第三模态适配器由卷积层、ReLU激活函数、批归一化层、随机失活函数层组成；且所述第三模态适配器包括为可见光模态适配器、热红外模态适配器；所述第三通用适配器由卷积层、局部响应函数LRN层组成；

所述实例适配器由带有Dropout层的两个全连接层和一个带由softmax层的全连接层依次串联所组成；

所述适配器互学习模块由第一级学习模块、第二级学习模块组成，且第一级学习模块和第二级学习模块相同，第一级学习模块包括依次串联的两个卷积层、sigmoid激活函数层、特征级的乘操作模块组成；当特征输入至第二个卷积层卷积操作后，并将结果传递至乘操作模块处；同时第二个卷积层还与sigmoid激活函数层串联并将结果传递至sigmoid激活函数层处，且所述sigmoid激活函数层进行抑制处理后将结果传输至乘操作模块处，与经过两次卷积操作的结果进行相乘操作，再与另一个特征进行相乘操作得到一个输出结果，记为第一输出结果；

所述步骤S12包括；

S1201、在视频帧的真值框附近选择n₁个样本；n₁个样本中包括正样本和负样本；且n₁为正整数；

S1202、得到的正样本、负样本，使用随机梯度法进行迭代训练；

基于适配器互学习模型的训练方法的可见光红外视觉跟踪方法包括以下步骤：

S21、输入当前跟踪的视频帧，在前一帧预测的目标位置周围用高斯采样获取当前帧的候选样本；所述步骤S21包括：

初始化结束后，把前一帧的目标位置求均值，使用高斯分布采样，以(0.09r²,0.09r²,0.25)为协方差；产生候选样本，其中：r为前一帧目标框的宽和高的平均值；

S22、根据候选样本，预测目标位置；所述步骤S22包括：

将候选样本分别送入到相对应的第一模态适配器中、第一通用适配器中，依次传递至实例适配器中进行计算，在第三全连接层后送入softmax函数得到二分类得分值，分别记为f⁺(xⁱ)和f^-(xⁱ),而再利用公式

预测出当前的目标位置，其中，xⁱ表示采样的第i个样本，x^*为预测的目标位置，f+(xⁱ)为正样本得分和f-(xⁱ)为负样本得分；

所述步骤1)为：其中，在当前帧进行正负样本采样保存至总的正负样本数据集中；

所述步骤2)为：跟踪失败时进行短期更新；短期更新包括抽取样本并微调全连接层的参数；

所述步骤S23还包括长期更新，如不满足短期更新和长期更新的情况，则直接跟踪下一帧，模型不更新，直至最后一帧结束；