CN112801182B

CN112801182B - 一种基于困难样本感知的rgbt目标跟踪方法

Info

Publication number: CN112801182B
Application number: CN202110111705.0A
Authority: CN
Inventors: 涂铮铮; 林春; 李成龙; 汤进; 罗斌
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-11-04
Anticipated expiration: 2041-01-27
Also published as: CN112801182A

Abstract

本发明公开一种基于困难样本感知的RGBT目标跟踪方法，包括对行可见光图片和热红外图片进行配准标注分成训练集和测试集，然后对构建对应模型对预处理后的图片进行训练和测试；模型中包括实时跟踪网络RT‑MDNet、VGG‑M特征提取模块、前景增强模块、特征嵌入模块和二分类模块，本发明在低光照光照变化强烈等极端条件下跟踪上目标，通过前景增强模块来增强前景信息抑制背景信息，并通过困难样本感知损失函数，挖掘更多困难样本，辅助分类器目标背景的分类。

Description

一种基于困难样本感知的RGBT目标跟踪方法

技术领域

本发明属于计算机视觉目标跟踪技术，具体涉及一种基于困难样本感知的RGBT目标跟踪方法。

背景技术

视频目标跟踪作为计算机视觉中的一个重要分支，在视频监控、无人机巡航、智能监控等应用中起到了关键的作用，同时也能帮助解决其他计算机视觉任务。目标跟踪是给出第一帧中的目标，在后续帧中利用一个合适大小的矩形框实现目标物体的跟踪，其中包含每一帧中物体的尺度信息和位置信息。

随着深度学习的快速发展，视频目标跟踪的性能问题得到了很大的提升，但在跟踪问题中仍然有很多的问题需要进一步的解决。视频目标跟踪是基于视频帧来处理的，所以在视频帧跟踪的过程中，背景和前景都会发生变化，因此主要的挑战包括：遮挡、形变、背景杂乱、尺度变化、光照等，这些挑战无疑增加了视频目标跟踪的难度。当前一些跟踪器有针对性地解决相关的挑战以此来提高跟踪的效率。同时也出现了利用其他模态的图片信息来弥补单个模态的缺陷，减缓甚至消除单个模态下某些挑战的影响。因此，越来越多的研究关注于利用多模态的互补信息来提高跟踪性能，热红外模态尤其适合于低光照或者光照变化强烈的条件下。

近年来，研究者们提出众多深度度量学习方法，并在图像检索、行人车辆的重识别以及目标跟踪上取得很好的效果。深度度量学习方法通过采用卷积神经网络作为其嵌入函数，极大的提高了嵌入表达的性能。具体来说，这些方法训练神经网络将图像投影到一个嵌入空间上，如果两个样本示例在语义上相似，那么样本间的欧式距离或马氏距离就会比较小，否则距离就会比较大。因此，深度度量学习的加入，可以辅助分类器对样本进行更好的分类，可以应用于许多分类任务中。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于困难样本感知的RGBT目标跟踪方法，通过挖掘更多有价值的困难样本加入训练，提高RGBT目标跟踪模型的判别性和鲁棒性。

技术方案：本发明的一种基于困难样本感知的RGBT目标跟踪方法，包括以下步骤：

步骤S1、构建数据库，获得数据集；

采集多模态相机拍摄的图片，并对图片进行人工配准和标注，按要求筛选出适合训练和测试的图片，并标注上相应挑战，形成对应训练集和测试集；

步骤S2、分别对训练集RGBT234和测试集GTOT中的图片进行预处理，即将每一张图片所在的路径位置和图片内目标所处的像素位置均分别加入到各自的XML文件内，以方便后续对图片的读入；

步骤S3、通过MLX文件读取对应图片信息，所述图片信息包括图片的路径、图片内目标的坐标等，然后对训练集中的图片进行数据增强的预处理(例如旋转、缩放、平移、翻转、裁剪等)，进而扩充训练集中的图片数据量，丰富图片的数据量；

步骤S4、构建优化目标跟踪模型，该模型中包括实时跟踪网络RT-MDNet、VGG-M特征提取模块、前景增强模块、特征嵌入模块和二分类模块；具体方法为：

S4.1、将预处理后的可见光图片和热红外图片同时输入到网络中(基础网是RT-MDNet)；

S4.2、加载两个结构相同且参数不同的VGG-M特征提取模块分别对两个数据源(即是指训练集中的可见光图片和热红外图片)的数据进行特征提取；

S4.3、针对步骤S4.2所提取的特征，使用全局平均池化GAP层和softmax层进行特征融合；即计算每个模态的特征图的全局平均池化的结果，然后送到softmax，计算其通道权重，然后将每个模态的特征的通道权重和特征相乘再拼接；

S4.4、使用自适应的ROIAlign将原图(此处原图是指步骤S4.1中输入的可见光和热红外图片)上样本的矩形包围盒映射到原图的特征图上，得到相应的样本特征；

S4.5、将步骤S4.4提取的样本特征通过前景增强模块生成前景掩膜，用于增强前景特征；即通过前景增强模块来增强前景的特征并同时抑制背景噪声带来的负面影响；

S4.6、使用困难感知的结构性损失函数挖掘更多困难样本来训练特征嵌入空间，用来辅助分类器目标背景的分类；

S4.7、使用softmax损失函数计算二分类损失，再与困难样本感知的结构性损失函数一起共同更新网络参数。

进一步地，所述步骤1中多模态相机拍摄的图片包括可见光图片和热红外图片；人工标注时使用labelimg标注软件，对包含目标的部分画框，生成的坐标格式为(xmin，ymin，width，height)，

其中，(xmin，ymin)代表目标左上角信息，(width，height)表示的是目标框的宽和高。

进一步地，所述步骤S2中将标注完成的可见光图片和热红外图片分别放在nfrared和visible两个文件夹内，坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。

进一步地，所述步骤S4.2中将可将光图片和热红外图片输入到网络后，使用两个结构相同但参数不同的VGG-M预训练网络分别对这两个不同模态提取不同模态的特征；每个VGG-M预训练网络均包括三层卷积层，分别是：

第一层为卷积层，使用7*7*96卷积核，步长为2，对图像进行卷积操作，然后使用局部响应归一化LRN层归一化数据，帮助模型快速收敛并提高模型的泛化能力，然后使用3*3的Max Pool操作；

第二层为卷积层，使用5*5*256卷积核，步长为2，对图像进行卷积操作，再使用一个LRN层归一化数据；

第三层为卷积层，使用3*3*512卷积核进行卷积操作。

进一步地，所述步骤S4.3中使用全局平均池化GAP层和softmax层融合两个模态的特征。

进一步地，所述步骤S4.5中使用前景增强模块对目标增强的详细方法为：

(1)对于同一个特征图分别经过两个相同结构的网络：前景网络和背景网络；前景网络中先使用目标增强模块对前景目标进行学习前景的mask，这样学习到的前景特征的信息被加强，而背景的噪声信息一定程度上也能被压制，然后使用中间的目标注意力损失函数对前景mask的学习；最终得到对应特征图。

其中，目标增强模块的网络结构通过对应卷积操作进行目标增强，依次为：使用1*1*256卷积核来对特征进行降维，3*3*128的卷积核继续提取特征，1*1*64卷积核进行特征降低维数减少网络参数。

(2)将所得特征图对应通道的特征值进行相加求平均，然后按照通道池化操作通过一个sigmoid函数，就生成对应一个前景mask。

(3)生成前景mask后，对背景的mask进行掩膜，通过目标注意力损失函数对mask学习，公式如下所示：

上式中，Z^f是前景的mask掩膜，F^g是增强后的前景特征，B^g是增强后的背景特征，

和

是对F和B在空间维度上执行l₂规范化的结果；F是前景的特征，B是背景的特征，g是增强操作，因此F^g和B^g是增强后的前景和背景特征，f和b是前景和背景的上标，l是范式约束，l²是二范约束；c指的是通道的标志，是第几通道；Z^f是生成的mask掩膜。

进一步地，所述步骤4中对经过前景增强模块增强的特征进行特征嵌入，方法如下：

按照样本与锚框的距离分别为正负样本加上权值：对于正样本，样本与锚框的距离越小权值越小，而样本与锚框的距离越大，则说明此正样本属于困难样本，因此赋予的权值相应加大；对于负样本，样本与锚框的距离越小，则说明此负样本可能越属于困难负样本，则赋予的权值相应的更大，对于简单负样本赋予的权值更低；

通过上述过程挖掘更多的困难样本加入训练，同时也利用了所有样本的全局信息，能够学习到一个更具判别性的特征嵌入空间，辅助分类器的分类；

相关损失函数公式如下所示：

式(6)中N_S是三元组的对数，a是下标，f_a是锚框的特征，

和

是正样本和负样本特征的集合，而m是正负样本之间的间距。这里的f_i是样本的特征集合中的其中一个；公式(8)是样本的加权策略，

和

是对应的每一个正样本和负样本获得的权重值；d()是欧式距离公式，

是个预先设置的值，通过公式(8)获得每个正负样本的权值，公式(7)是所有样本的欧式距离加权求平均的结果。

进一步地，所述步骤S4.6中在训练时，学习率设置为0.0001，训练次数设置为450次，得到的模型大致为最优模型。

有益效果：本发明利用可见光模态和热红外模态的互补性，使得在低光照、光照变化强烈等极端条件下也能跟踪上目标，通过增强前景信息抑制背景信息的前景增强网络，同时利用困难样本感知的损失函数来挖掘更多有价值困难样本，最终训练生成对应信息更具丰富的特征嵌入空间，实现辅助分类器目标背景的分类。

附图说明

图1为本发明的整体流程示意图；

图2为本发明的整体网络结构示意图；

图3为本发明中前景增强模块的网络结构示意图；

图4为本发明中目标增强网络示意图；

图5为本发明中困难样本感知损失函数示意图；

图6为本发明中加权策略示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1和图2所示，本发明的一种基于困难样本感知的RGBT目标跟踪方法，包括以下步骤：

步骤S1、构建数据库，获得数据集

采集多模态相机拍摄的图片，并对图片进行人工配准和标注，按要求筛选出适合训练和测试的图片，并标注上相应挑战，形成对应训练集和测试集；人工标注时使用labelimg标注软件，对包含目标的部分画框，生成的坐标格式为(xmin，ymin，width，height)，其中，(xmin，ymin)代表目标左上角信息，(width，height)表示的是目标框的宽和高。

步骤S2、分别对训练集RGBT234和测试集GTOT中的图片进行预准备，即将每一张图片所在的路径位置和图片内目标所处的像素位置均分别加入到各自的XML文件内，以方便后续对图片的读入。例如，本实施例中将标注完成的可见光图片和热红外图片分别放在infrared和visible两个文件夹内，坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。

步骤S3、通过MLX文件读取对应图片信息，包括图片的路径、图片内目标的坐标等然后对训练集中的图片进行预处理(旋转、缩放、平移、翻转、裁剪等数据增强操作)，进而扩充训练集中的图片数据量，丰富图片的数据量。

S4.1、将预处理后的可见光图片和热红外图片同时输入到网络中；

S4.2、加载两个结构相同且参数不同的VGG-M特征提取模块分别对两个数据源的数据进行特征提取；每个VGG-M预训练网络均包括三层卷积层，分别是：

第三层为卷积层，使用3*3*512卷积核进行卷积操作

S4.3、针对步骤S4.2所提取的特征，使用全局平均池化GAP层和softmax层融合两个模态的特征；

S4.4、使用自适应的ROI Align将原图上样本的矩形包围盒映射到原图的特征图上，得到相应的样本特征；

上述步骤S4.5中使用前景增强模块对目标增强的详细方法为：

(1)、对于同一个特征图分别经过两个相同结构的网络：前景网络和背景网络；前景网络中先使用目标增强模块对前景目标进行学习前景的mask，这样学习到的前景特征的信息被加强，而背景的噪声信息一定程度上也能被压制，然后使用中间的目标注意力损失函数对前景mask的学习；最终得到对应特征图

其中，目标增强模块的网络结构通过对应卷积操作进行目标增强，依次为：使用1*1*256卷积核来对特征进行降维，3*3*128的卷积核继续提取特征，1*1*64卷积核进行特征降低维数减少网络参数；

(2)、将所得特征图对应通道的特征值进行相加求平均，然后按照通道池化操作通过一个sigmoid函数，就生成对应一个前景mask；

(3)、生成前景mask后，对背景的mask进行掩膜，通过目标注意力损失函数对mask学习，公式如下所示：

和

是对F和B在空间维度上执行l₂规范化的结果。

如图4至图6所示，将上述已经过前景特征增强后的样本特征放入一个特征嵌入层，学习一个特征空间用于拉近同类样本，使非同类样本距离变大。方法如下：

Claims

1.一种基于困难样本感知的RGBT目标跟踪方法，其特征在于：包括以下步骤：

步骤S1、构建数据库，获得数据集

采集多模态相机拍摄的图片，并对图片进行人工配准和标注，按要求筛选出适合训练和测试的图片，并标注上相应标签，形成对应训练集和测试集；

步骤S2、分别对训练集和测试集中的图片进行预准备，即将每一张图片所在的路径位置和图片内目标所处的像素位置均加入到一个各自的XML文件内，以方便后续对图片的读入；

步骤S3、通过XML文件读取对应图片信息，所述图片信息包括图片的路径、图片内目标的坐标，然后对训练集中的图片进行数据增强的预处理操作，进而扩充训练集中的图片数据量；

S4.2、加载两个结构相同但参数不同的VGG-M特征提取模块分别对训练集中的可见光图片和热红外图片进行特征提取；

S4.4、使用自适应的ROIAlign将原图上样本的矩形包围盒映射到原图的特征图上，得到相应的样本特征；原图是指步骤S4.1中输入的可见光图片和热红外图片；

S4.5、将步骤S4.4提取的样本特征通过前景增强模块生成前景掩膜来增强前景特征，具体方法为：

(1)对于同一个特征图分别经过两个相同结构的网络：前景网络和背景网络；前景网络中先使用目标增强模块对前景目标进行学习前景的mask，然后使用中间的目标注意力损失函数对前景mask的学习；最终得到对应特征图；

(2)将所得特征图对应通道的特征值进行相加求平均，然后按照通道池化操作通过一个sigmoid函数，就生成对应一个前景mask；

上式中，Z^f是前景的mask掩膜，F^g是增强后的前景特征，Z^b是背景的mask掩膜，B^g是增强后的背景特征，

和

是对F和B在空间维度上执行l²规范化的结果；F是前景的特征，B是背景的特征；g是增强操作，因此F^g和B^g是增强后的前景和背景特征，L_t是指目标注意力损失函数；f和b是前景和背景的上标；l²是范式约束，c指的是通道的标志，是第几通道；

S4.6、使用困难样本感知的结构性损失函数挖掘更多困难样本来训练特征嵌入空间，用来辅助分类器目标背景的分类；

2.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法，其特征在于：所述步骤S1中多模态相机拍摄的图片包括可见光图片和热红外图片；人工标注时使用labelimg标注软件，对包含目标的部分画框，生成的坐标格式为(xmin，ymin，width，height)，其中，(xmin，ymin)代表目标左上角信息，(width，height)表示的是目标框的宽和高。

3.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法，其特征在于：所述步骤S2中将标注完成的热红外图片和可见光图片分别放在infrared和visible两个文件夹内，坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。

4.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法，其特征在于：所述步骤S4.2中将可见光图片和热红外图片输入到网络后，使用两个结构相同但参数不同的VGG-M特征提取模块分别对这两个不同模态提取不同模态的特征；每个VGG-M特征提取模块均包括三层卷积层，分别是：

第一层为卷积层，使用7*7*96卷积核，步长为2，对图像进行卷积操作，然后使用局部响应归一化LRN层归一化数据，然后使用3*3的Max Pool操作；

第三层为卷积层，使用3*3*512卷积核进行卷积操作。

5.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法，其特征在于：所述步骤S4中对经过前景增强模块增强的特征进行特征嵌入，方法如下：

困难样本感知的结构性损失函数公式如下所示：