CN113077491A

CN113077491A - 基于跨模态共享和特定表示形式的rgbt目标跟踪方法

Info

Publication number: CN113077491A
Application number: CN202110359997.XA
Authority: CN
Inventors: 王福田; 张淑云; 汤进; 罗斌; 李成龙
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-06
Anticipated expiration: 2041-04-02
Also published as: CN113077491B

Abstract

本发明公开一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法，对可见光视频和对应的热红外视频进行配准和标注，按照要求将其分成训练集和测试集；利用VGG‑M网络来提取不同模态的模态特定特征，利用共享特征提取模块来提取两个模态之间的模态共享特征，同时在共享特征提取模块中使用多尺度特征融合的策略来增强特征以提高其鲁棒性。本发明在光照变化强烈、夜晚等极端条件下跟踪上目标，通过焦点损失函数使训练的模型更加关注于难以分类的样本，提高模型的鲁棒性。

Description

基于跨模态共享和特定表示形式的RGBT目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域中的重要研究方向，其在监控系统、自动驾驶等领域有着广泛的应用。目标跟踪的任务是在给定某视频序列第一帧中目标的位置和大小的情况下，对视频后续帧的目标状态和大小进行估计。

近年来深度学习发展迅速，越来越多的研究人员将深度学习相关技术应用于目标跟踪领域使得目标跟踪技术取得了很大的进步。因为极端的天气(如雾，霾等)、相机的抖动、光照条件不好等原因使得可见光模态下的图片成效效果不好，所以基于可见光模态的目标跟踪算法很难应对这些复杂的环境。热红外摄像机拍摄的图像是根据温度成像的，相对于可见光相机，热红外成像仪对光照不敏感、具有很强的雾霾穿透力等。近些年，随着热红外技术的不断成熟，其被广泛应用于各个领域，如军事、人机交互等。RGBT目标跟踪通过聚合两个模态的数据来克服复杂场景对单模态跟踪的影响从而进一步提高性能。

在基于可见光和热红外模态的视频目标跟踪中，不同模态之间既有各自独特的视觉模式，也有一些共有的视觉模式。可见光模态下的图片颜色信息丰富，空间分辨率较高，而热红外模态下的图片是根据温度成像，在雾、霾等情况下成像效果好；同时可见光模态和热红外模态之间共享一些信息，如对象的边界，空间的布局和一些细粒度的纹理信息等等。

现有RGBT跟踪算法一般使用不同模态的特定特征进行融合，没有考虑到两个模态之间的共享特征。同时现有RGBT跟踪算法在训练期间一般都使用传统的二分类交叉熵损失函数来训练模型，这样在训练期间无法使模型更加偏重于困难样本，所以本跟踪算法使用焦点损失函数来进行训练，自适应降低易分样本的权重而增加难分的样本的权重。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法，利用可见光模态和热红外模态之间的互补性，在光照变化强烈的极端条件下进行目标跟踪。

技术方案：本发明的一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法，包括以下步骤：

S1、构建多模态数据集

将可见光-热红外视频中可见光图片和热红外图片进行初筛、配准和标注，形成RGBT目标跟踪数据集，并分成训练集和测试集；

S2、对训练集和测试集中的可见光图片和热红外图片进行预处理；

S3、建RGBT目标跟踪模型。

该RGBT目标跟踪模型使用的深度网络框架为PyTorch，包括注意力机制模块，共享特征提取模块和特定特征提取模块，特定特征提取模块使用VGG-M网络的前三层卷积层。

本过程中选取MDNet跟踪器作为baseline跟踪器，加载两个结构相同且参数不同的VGG-M网络分别对可见光和热红外分支进行特定特征的提取，在共享特征提取模块中，采用多尺度融合方法来对特征进行增强；然后将模态特定特征和模态共享特征进行进行元素级相加；训练期间使用焦点损失函数，用于自适应降低易分样本的权重，使得模型更加偏向于难分类的样本；具体步骤如下：

S3.1、将预处理好的可见光图片和热红外图片同时输入到网络中；

S3.2、提取不同模态的特定特征，即加载两个结构相同且参数不同的VGG-M网络分别对输入的可见光图片和热红外图片进行特征提取；

S3.3、对步骤S3.2所得两个模态的特定特征使用注意力机制模块提高特征的判别性；

S3.4、在共享特征提取模块中使用多尺度特征融合法加强特征表示，并输出两个模态之间的共享特征；

3.5、先将两个模态各自的模态特定特征和模态共享特征进行融合来提高特征的鲁棒性，然后再将两个模态融合后的特征进行级联；

S3.6、不同视频中的目标对象在外观、大小等方面有所差异，所以建立一个多域学习网络来学习目标对象的共性；该多域学习网络包括四个全连接层依次为：FC1，FC2，FC3和FC4；

S3.7、在训练期间使用焦点损失函数来训练网络模型；

焦点损失函数公式如下：

FL(p_t)＝-(1-p_t)^γlog(p_t)

其中，γ是一个超参数，代表容易分类的样本和难分类样本的权重差别的难度；y∈{±1}代表的是样本的真实标签，在二分类中样本标签y＝1和y＝-1分别代表的是正样本和负样本，它们之间是互斥的，p∈[0,1]代表的是当y＝1时类的估计概率。

进一步地，所述步骤S1中将配准后可见光图片和热红外图片分别放在infrared和visible两个文件夹内；对可见光图片和热红外图片进行标注，即对图片中包含目标的部分画框，生成的坐标格式为(xmin，ymin，width，height)，其中，(xmin，ymin)代表目标左上角信息，(width，height)分别代表目标框的宽和高；标注完成后，对应的帧值信息写入infrared.txt和visible.txt中，和上面两个文件夹存放在同一目录下。

所述步骤S2中将训练集中标注完成的可见光图片和热红外图片进行预处理，即将每一张图片所在的路径位置、图片名称、帧值(目标的左上角位置和长宽)均写到pkl文件中，以方便在训练时候读入图片；

对测试集中的可见光图片和热红外图片进行预处理，将测试集中的序列名称写入到txt文本中，方便后续的读入。

进一步地，所述步骤S3.2中模态特定特征提取模块包括以下内容：

(A)第一层为卷积层，使用7*7*96卷积核，步长为2，对图片进行卷积操作，然后使用一个LRN(局部响应归一化)层来归一化数据，帮助模型快速收敛并提高模型的泛化能力。；然后使用3*3的Max Pool操作；

(B)第二层为卷积层，使用5*5*256卷积核，步长为2，对图片进行卷积操作，再使用一个LRN层归一化数据；

(C)第三层为卷积层，使用3*3*512卷积核进行卷积操作。

进一步地，所述步骤S3.3中注意力机制对模态特定特征进行增强的具体方法：

(A)将输入的模态特定特征，分别经过基于width和height的全局最大池化和全局平均池化，然后分别经过MLP(多层感知器)；将MLP输出的特征进行基于元素级的相加操作，再经过sigmoid激活操作，生成通道注意力图，将该图和输入的特征做元素级乘法操作获得新特征；

(B)空间注意力机制：将经过通道注意力机制模块输出的特征图作为输入特征图；首先做一个基于通道的全局最大池化和全局平均池化，然后将这两个结果基于通道方向做级联操作；然后经过一个卷积操作，降维为1个通道；再经过sigmoid生成空间注意力图，最后将该图和该模块的输入特征做乘法，得到最终生成的特征。

进一步地，所述步骤S3.4中不同模态之间的共享特征提取模块包括以下内容：上层先使用3*3的Max Pool操作，步长为1；再使用3*3的卷积操作，步长为1；下层使用3*3的卷积操作，步长为2。这是一个简单的多尺度融合方法，用来特征进行增强。

进一步地，所述步骤S3.6中的多域学习网络包括四个全连接层，分别为FC1，FC2，FC3，FC4；四个全连接层的输出通道大小分别为1024、512、512、2；在训练期间，最后一个全连接层FC4具有K个分支，每个分支对应一个单独的域，且每个分支都包含一个二分类层，用于区分目标和背景。

有益效果：与现有技术相比，本发明具有以下优点：

(1)为得到更加鲁棒的模态特定特征，本发明在提取特征之后使用注意力机制。

(2)本发明在共享特征提取模块中使用多尺度特征融合的方法来获取更加强大的特征表示。

(3)为在训练期间使模型更加注重困难样本，本发明在训练期间使用焦点损失函数，使用焦点损失函数来进行训练，降低易分样本的权重而增加难分的易错样本的权重。

附图说明

图1为本发明中的网络结构示意图；

图2为本发明的整体流程示意图；

图3为本发明中共享特征提取模块示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本发明的一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法，首先，对可见光图片和相应的热红外图片进行标配准和标注，分成训练集和测试集；构建RGBT目标跟踪模型，RGBT目标跟踪模型利用VGG-M网络来提取两个不同模态的模态特定特征，在共享特征提取模块中提取两个模态的模态共享特征，同时在共享特征提取模块中使用多尺度特征融合的策略来增强特征。

如图2所示，具体包括以下步骤：

S1、构建多模态数据集，将可见光图片和热红外图片进行配准和标注形成RGBT目标跟踪数据集，分别为训练集和测试集；

上述过程中，先对采集好的多模态视频先进行人工校对筛选出合适的视频序列，再人工标注帧值，并标注上对应的挑战因素；

S2、对训练集中的图片进行预处理，即将每一张图片所在的路径位置、图片名称、帧值(目标的左上角位置和长宽)均写到pkl文件中，以方便在训练时候读入图片；对测试集中的图片进行预处理，将测试集中的序列名称写入到txt文本中，方便后续的读入；

S3、构建RGBT目标跟踪模型，该RGBT目标跟踪模型使用的深度网络框架为PyTorch，包括模态特定特征提取模块、注意力机制模块和模态共享提取特征模块(如图3所示)。

1)将可将光图片和热红外图片输入到目标跟踪网络MDNet中，用VGG-M特征提取模块的前三层卷积层来分别提取可见光和热红外图片特征。通过加载VGG-M预训练网络，结构相同但参数不一致的网络分别针对不同模态提取不同模态的特征。

2)模态特定特征提取模块

(a)第一层为卷积层，使用7*7*96卷积核，步长为2，对图像进行卷积操作，然后使用一个LRN(局部响应归一化)层来归一化数据，帮助模型快速收敛并提高模型的泛化能力。然后使用3*3的Max Pool操作。

(b)第二层为卷积层，使用5*5*256卷积核，步长为2，对图像进行卷积操作，再使用一个LRN层归一化数据。

(c)第三层为卷积层，使用3*3*512卷积核进行卷积操作。

3)在特定特征提取模块中使用注意力机制来增强模态特定特征：

4)在共享特征提取模块中，使用多尺度特征融合的方法来加强特征；将模态特定特征和模态共享特征进行相加得到新的特征，再将两个模态的新特征进行级联。

5)将融合之后的特征送入全连接层，为防止过度拟合，建立一个多域学习网络，该多域学习网络网络由四个全连接层FC1，FC2，FC3，FC4组成。；这四个全连接层的输出通道大小分别为1024、512、512、2。在训练期间，最后一个全连接层FC4具有K个分支，每个分支对应一个单独的域。每个分支都包含一个二分类层，用于区分目标和背景。

6)在训练期间，使用焦点损失函数进行训练。之前的RGBT目标跟踪方法在训练期间使用二分类损失函数，这样会使在训练的时候容易分类的样本和难分类的样本起到一样的作用，但是在训练期间应该更加注重难分类的样本。焦点损失函数很好的解决了这个问题，使模型在训练期间偏重于难分类的样本。损失函数公式如下：

FL(p_t)＝-(1-p_t)^γlog(p_t)

其中，y∈{±1}代表的是样本的真实标签，在二分类中样本标签y＝1和y＝-1分别代表的是正样本和负样本，它们之间是互斥的，p∈[0,1]代表的是当y＝1时类的估计概率；γ是一个超参数，它代表的是容易分类的样本和难分类样本的权重差别的难度，这里设置的值为2。

实施例：

如图1所示，本实施例将不同模态的特定特征和共享特征融合之后，将其作为输入送入到全连接层中进行前景和背景的分类，训练期间使用焦点损失函数使网络模型更加注重于难以分类的样本，提高模型的判别能力。整个目标跟踪过程中，其训练使用的优化器是随机梯度下降法，初始的学习率为0.0001，训练次数为50次，最终的模型收敛到最优。

Claims

1.一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法，其特征在于：包括以下步骤：

S1、构建多模态数据集

将可见光-热红外视频中可见光和热红外图片进行初筛、配准和标注，形成RGBT目标跟踪数据集，并分成训练集和测试集；

S2、对训练集和测试集中的图片进行预处理；

S3、构建RGBT目标跟踪模型，

该RGBT目标跟踪模型使用的深度网络框架为PyTorch，包括注意力机制模块、共享特征提取模块和特定特征提取模块，具体步骤如下：

S3.2、提取不同模态的特定特征，即加载两个结构相同且参数不同的VGG-M网络分别对训练集中的可见光图片和热红外图片进行特征提取；

S3.4、在共享特征提取模块中使用多尺度特征融合方法来提高特征的鲁棒性，并输出两个模态之间的共享特征；

3.5、将两个模态各自的特定特征和共享特征进行融合，然后再将两个模态融合后的特征进行级联；

S3.6、建立一个多域学习网络来学习目标对象的共性；该多域学习网络包括四个全连接层依次为：FC1，FC2，FC3和FC4；

S3.7、在训练期间使用焦点损失函数来训练网络模型；

焦点损失函数公式如下：

FL(p_t)＝-(1-p_t)^γlog(p_t)

2.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法，其特征在于：所述步骤S1中先对拍摄到的可见光以及热红外视频中的图片进行初步的筛选，再对其进行人工标注帧值，即对图片中包含目标的候选框，生成的坐标格式为(xmin，ymin，width，height)，其中，(xmin，ymin)代表目标左上角坐标信息，(width，height)分别代表目标的宽和高；然后按照要求划分为训练集和测试集；同时对训练集和测试集中的视频序列标注相应的挑战因素。

3.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法，其特征在于：所述步骤S2中将训练集中标注完成的可见光图片和热红外图片进行预处理，即将每一张图片所在的路径位置、图片名称、帧值(目标的左上角位置和长宽)均写到pkl文件中，以方便在训练时候读入图片；视频序列的可将光图片和热红外图片分别放在infrared和visible两个文件夹内，对应的帧值信息存放在infrared.txt和visible.txt中，和infrared、visible这两个文件夹放在同一目录下；

4.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法，其特征在于：所述S3.2中模态特定特征的特征提取模块如下：

(A)第一层为卷积层，使用7*7*96卷积核，步长为2，对图片进行卷积操作，然后使用一个LRN层来归一化数据；然后使用3*3的Max Pool操作；

(C)第三层为卷积层，使用3*3*512卷积核进行卷积操作。

5.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法，其特征在于：所述步骤S3.3中注意力机制对模态特定特征进行增强的具体方法：

(A)将输入的模态特定特征，分别经过基于width和height的全局最大池化和全局平均池化，然后分别经过多层感知器MLP；将MLP输出的特征进行基于元素级的相加操作，再经过sigmoid激活操作，生成通道注意力图，将该图和输入的特征做元素级乘法操作获得新特征；

(B)空间注意力机制：将经过通道注意力机制模块输出的特征图作为输入特征图；先做一个基于通道的全局最大池化和全局平均池化，然后将这两个结果基于通道方向做级联操作；然后经过一个卷积操作，降维为1个通道；再经过sigmoid生成空间注意力图，最后将该图和该模块的输入特征做乘法，得到最终生成的特征。

6.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法，其特征在于：所述步骤S3.4中不同模态之间的共享提取模块包括以下内容：上层先使用3*3的Max Pool操作，步长为1；再使用3*3的卷积操作，步长为1；下层使用3*3的卷积操作，步长为2。

7.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法，其特征在于：所述步骤S3.6中的多域学习网络包括四个全连接层，分别为FC1，FC2，FC3，FC4；四个全连接层的输出通道大小分别为1024、512、512、2；在训练期间，最后一个全连接层FC4具有K个分支，每个分支对应一个单独的域，且每个分支都包含一个二分类层，用于区分目标和背景。