CN112418203B

CN112418203B - 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法

Info

Publication number: CN112418203B
Application number: CN202011251625.7A
Authority: CN
Inventors: 梅峻熙; 康彬; 颜俊; 吴晓欢
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-08-30
Anticipated expiration: 2040-11-11
Also published as: CN112418203A

Abstract

本发明提出了一种基于双线性汇合的图卷积网络的RGB‑T目标跟踪方法，包括以下步骤：步骤S1：将特征分为模板嵌入对和候选嵌入对，模板嵌入对由可见光和红外图像的第一帧区域组成；步骤S2：在候选嵌入对中截取和模板嵌入对相同大小的图像，经过卷积神经网络提取特征，形成四个多通道的特征图；步骤S3：将特征图利用图卷积神经网络进行训练，得到最终特征图；步骤S4：将最终特征图进行双线性汇合的操作，得到一个相识度的得分值；步骤S5：重复S2‑S4的步骤，将每次得到的得分值拼接成矩阵，根据最大的得分值所在的位置定位出目标所在的位置；实现整个的跟踪效果；本发明使得特征图之间的内在元素交互作用不能得到充分挖掘的缺陷。

Description

基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法

技术领域

本发明涉及一种图形跟踪方法，具体的说是一种RGB-T跟踪方法，属于视觉跟踪技术领域。

背景技术

随着物联网的快速发展，热红外相机已经成为经济实惠的产品，并成功应用于先进驾驶辅助系统和智能车辆/公路系统。这种相机可以捕捉到温度在绝对零度以上的对象发出的热红外辐射，更适合于夜间监视。因此，RGB相机和热红外相机的联合使用有两个优点：1)热红外相机对光照变化有较强的鲁棒性，可以为在弱光条件下捕捉到的可见光光谱提供补充数据；2)RGB相机的灰度特征有助于解决基于热红外相机的监控中的交叉问题。因此，RGB-T跟踪中使用RGB特征和热红外特征可以有效地解决恶劣天气的挑战。

在RGB-T跟踪中，RGB和热视频序列是成对获得的(参见图1，其中汽车是严重被遮挡的，在热红外图像中很把汽车从背景中区分开)。为了解决多模型融合问题，探索RGB与热信息的互补性，最先进的方法可以简要地分为三类。第一种是基于粒子融合的RGB-T跟踪器。第二种是建立多图融合模型，有效探索RGB与热目标块之间的空间关系。第三种多模态融合依赖于稀疏表示。上述的方法均利用手工特征进行多模型融合。与手工特征相比，深卷积特征能够提取目标的平移和轻量级不变的深层语义信息，具有较强的鲁棒性。Siamese网络以其简单的网络结构和快速的跟踪速度成为基于RGB摄像机的视觉跟踪的研究热点。在基于Siamese网络的RGB跟踪中，Bertinetto等人最先设计了Siamese网络结构，当前的跟踪结果是通过有序计算模板图像与搜索区域内每个候选图像之间的相似度得到的。通常采用互相关作为相似性度量。为了进一步提高Bertinetto的工作效率，以下研究可以简单地分为三个方面：1)基于注意力的连体网络，它有效地利用后向传播梯度和信道注意机制，使目标外观集中在信息子区域上：2)基于局部模式的Siamese网络，它可以探索不同目标块之间的空间关系；3)基于RPN的Siamese网络，在Siamese网络中引入区域建议网络，避免了耗时的多尺度估计步骤。由于以下挑战，上述工作都不容易扩展到RGB-T跟踪中：1)现有的RGB跟踪器在Siamese网络中探索了不同目标块之间的关系，并引入了注意机制，但这些工作都是在单一的图像域(RGB域)进行的。

发明内容

本发明的目的是提供一种基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法，克服上述技术只在单一的图像域(RGB域)进行跟踪，以及不能利用了多源嵌入对中存在的固有的部分-特征交互作用，使得特征图之间的内在元素交互作用不能得到充分挖掘的缺陷。

本发明的目的是这样实现的：一种基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法，包括以下步骤：

步骤S1：将特征的嵌入分为模板嵌入对和候选嵌入对，每个嵌入对又分别由两个流向组成，构建出一个四流的卷积神经网路结构，模板嵌入对由可见光和红外图像的第一帧GroundTruth区域组成；

步骤S2：在候选嵌入对中截取和模板嵌入对相同大小的图像，和上述的模板嵌入对共同经过卷积神经网络提取特征，形成四个多通道的特征图；

步骤S3：将S2中得到的特征图再利用图卷积神经网络进行训练，得到最终特征图；

步骤S4：将步骤S3中最终特征图进行双线性汇合的操作，再经过两层全连接接网络得到两个双线性向量，然后将这两个双线性向量作内积的运算，最终得到一个相识度的得分值；

步骤S5：重复S2-S4的步骤，将每次得到的得分值拼接成相似度得分的矩阵，根据最大的得分值所在的位置定位出目标所在的位置；实现整个的跟踪效果；

作为本发明的进一步技术方案,步骤S2中，所选取的卷积神经网络结构为VGG-16网络，同时为了使提取的特征更具鲁棒性，选取了VGG-16不同层的特征，将低层的位置信息与高层的语义信息相结合，最终输出为融合了多个层级信息的四个多通道的特征图。

作为本发明的进一步限定，步骤S3中，利用S2中多通道特征图的特点，根据特征图像素点的空间排列顺序构造出图卷积神经网络的节点，两个相邻节点之间进行连接构成了图卷积神经网络的边，图的结构可以表达为：Φ₁(v,ε)，其中v表示图的结点集合，ε表示图的边集合，然后经过两层图卷积神经网络之后生成特征表达能力更强的特征图。

作为本发明的进一步改进，步骤S4中，采用双线性汇合的方式，利用外积来探索特征通道之间的成对相关性具体为：将S3中前两个流的最终特征图，以及后两个流的最终特征图分别进行双线性汇合的操作，得到两个特征图的大小分别为A∈R^M×K×C和B∈R^M×K×C，然后将A和B重新构造为矩阵

和

用外积将两个张量的每个位置相乘，并将所有乘积合并在一起，最终得到的双线性向量可以表示为：

其中

其中，

向量u中的第(j-1)·C+i个元素表示为

表示第i个通道的特征图重新构造的一维向量，

i，j分别表示双线性矩阵的第i行，第j列。C为特征图总的通道数。由于此时的双线性向量u为一个高维的向量，为了降低整个模型的参数量，从而减少内存消耗，提高跟踪的速度；使用了两层全连接网络结构最终得到了降维之后的双线性向量，然后将这两个降维之后的双线性向量作内积的运算，得到一个相识度的得分值。

作为本发明的进一步改进，步骤S5中，在候选嵌入对中按照从左到右，从上到下的顺序依次的截取和模板嵌入对相同大小的区域，然后重复步骤S2-S4，将每一个得分值也按照相同的顺序拼接成一个相似度得分图，用Q(Z,X)来表示这个相似度得分图则最终的表达式为：

其中，k为在候选嵌入对中截取相同大小的模板嵌入对的次数，也就是获取到的总的相似度得分值的个数，其中和分别为模板嵌入对和截取的候选图像嵌入对，矩阵中的元素为每一步得到的相似度得分值。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明充分利用红外图像的特点，可以在弱光条件下为可见光图像提供补充数据；因此，RGB-T跟踪可以有效地解决恶劣天气以及遮挡等因素的挑战；

2.本发明提出的基于双线性汇合的四流图卷积网络结构，充分利用了多源嵌入对中存在的固有的部分-特征交互作用，不同特征图之间的内在元素交互作用可以得到充分利用，使得所学习到的特征更具鲁棒性，从而提升跟踪的精度；

3.本发明没有使用互相关来评估样本与候选样本之间的相似度，而是采用一种基于内积的Logist损失来端到端地训练特征嵌入对和基于双线性汇合的图卷积网络，这种方式更能准确的评估截取图像与目标模板之间的真实得分，使得跟踪的效果更好，泛化能力更强。

附图说明

图1是现有的RGB234数据集的一个具有挑战性的场景图。

图2是本发明实施方式方法的整体流程图。

图3是本发明实施时GTOT数据集的总体跟踪性能图，其中，(a)the precisionplot,(b)the success plot，距离精度得分和AUC得分分别显示在两幅图的图例中。

图4是本发明实施时RGBT234数据集的总体跟踪性能，其中，(a)the precisionplot,(b)the success plot。

图5是本发明实施时的六个视频对的定性结果图，其中，(a)Diamond视频对，(b)Elecbike3视频对，(c)Fog视频对，(d)Kite4视频对，(e)Manafterrain视频对，(f)Nightthreepeople视频对。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图2所示，本实施例提出了一种基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法，包括以下步骤：

步骤S1：将特征的嵌入分为模板嵌入对和候选嵌入对，每个嵌入对又分别由两个流向组成，构建出一个四流的卷积神经网路结构，模板嵌入对由可见光和红外图像的第一帧GroundTruth区域组成，模板嵌入对Z₁和Z₂的大小为112×112；候选区域嵌入对X₁和X₂的大小为224×224；选择VGG-16网络作为卷积神经网络，为了使提取的特征更具鲁棒性，选取了VGG-16的第9、10、12、13层的特征图，将低层的位置信息与高层的语义信息相结合；所有特征图的大小调整为14×14，每层的特征图数目为512；我们将四个层特征图拼接在一起，最终输出为融合了多个层级信息的四个特征图，每个通道的维度为2048维；然后将这些特征作为图卷积网络的输入；

步骤S3：将S2中得到的特征图再利用图卷积神经网络进行训练，得到最终特征图；将前两个流的最终特征图，以及后两个流的最终特征图分别进行双线性汇合的的操作后，分别会得到一个高维的双线性向量u，然后使用了两层全连接网络结构，第一个隐藏层神经元的个数为1024，第二个隐藏层神经元的个数为256，这样就得到了降维之后的双线性向量u的维度为256，然后将这两个降维之后的双线性向量u作内积的运算，最终得到一个相识度的得分值；表示模板嵌入对和截取的图像区域的相识程度；在训练阶段我们采用学习率为0.01的ADAM优化算法。对模型进行了50个epoch的训练，batch size为64。在训练过程中，我们首先使用ImageNet大规模视觉识别挑战(ILSVRC2015)数据集中的视频来训练FS-Siamese。然后，我们使用RGBT234中的前5帧热视频序列进行微调；

步骤S4：将步骤S3中最终特征图进行双线性汇合的操作，具体的：两个特征图的大小分别为A∈R^6×6×256和B∈R^6×6×256，然后将A和B重新构造为矩阵A∈R^36×256和B∈R^36×256，用外积将两个张量的每个位置相乘，并将所有乘积合并在一起，得到的双线性向量

其中u∈R^65536×1。再经过两层全连接网络得到最终的两个双线性向量u1＝u2∈R^1024×1，然后将这两个双线性向量作内积的运算，最终得到一个相识度的得分值Score＝u1·u2；

步骤S5：与滑动窗口的思想类似，在候选嵌入对中按照从左到右，从上到下的顺序依次的截取和模板嵌入对相同大小的区域，然后重复步骤S2-S4，以步长为8的大小进行截取，然后将每一个得分值也按照相同的顺序拼接成一个相似度得分图:

其中Q(Z,X)∈R^17×17，由于候选图像的的大小为224*224，所以需要通过插值的方法将Q(Z,X)上采样到与候选图像相同的大小，然后得分最高的值所在的位置即为目标物体的中心位置。从而实现对物体的跟踪效果。

为了测试网络结构的有效性，在两个广泛使用的RGB-T数据集上进行了全面的实验：如图3-4所示的GTOT数据集和RGBT234数据集。与目前最先进的方法相比，本发明FS-Siamese网络在两个数据集上都能获得优异的性能。我们采用四个客观指标(positionerror,overlap score,precision plot and success plot)对跟踪性能进行评价。

总体跟踪性能在GTOT数据集上，如图3所示，从测试中可以清楚地看到，本发明方法提供了最佳的精度性能，特别地，本发明方法的距离精度得分高于ECO-RGBT 5％以上。图3(a)中的跟踪性能可以验证所提出的融合模块的有效性。在图3(b)中本发明方法也给出了最高的AUC得分，本发明方法比最好的RGB-T跟踪器SGT高1％。这可以说明本发明方法可以使用边界框缩放以定位目标。在RGBT234数据集上的表现，如图4所示。RGBT234包含更多的视频对和更具挑战性的因素。因此，它提供的跟踪性能的测试是令人信服。从图4(a)我们可以清楚地看到距离精度得分本发明方法明显高于其他13种比较方法。同样，本发明方法在success plot中也取得了第一的位置，如图4(b)所示。在AUC得分上本发明方法比基于相关滤波器的跟踪器，如MDNet+RGBT和ECO+RGBT高出1.5％。进一步验证了本发明所提出的网络结构的有效性。

最后选择6个场景作为示例来展示图5中的定性跟踪性能，其中，从每个场景中随机选择3个视频序列，在Diamond序列中运动目标经常被树干遮挡。最先进的方法往往在严重遮挡后失去目标。从图5(a)我们可以清楚地看到，无论是部分遮挡还是重度遮挡，本发明方法仍然可以跟踪目标。目标和相邻的行人一起移动，造成图5(b)中严重的背景混乱。在这种情况下，本发明方法可以取得和ECO-RGBT相同的效果，提供良好的跟踪性能。如图5(c)所示，它含有严重的雾霾。除了这个具有挑战性的因素外，它还涉及遮挡和背景混乱的情况。通过测试，我们可以清楚地看到，本发明方法仍然可以使用合适的边界框来定位目标。风筝序列是一个非常有挑战性的序列，因为目标真的很小。在风筝序列中，其他方法在第300帧后会开始有一定程度的漂移，而本发明方法仍然可以在整个视频帧中跟踪风筝。如图5(d)所示。图5(e)和(f)在下雨和夜间的场景中遭受低照度。根据这两个例子，可以看出本发明方法可以有效地使用热信息补充RGB序列。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法，其特征在于，包括以下步骤：

步骤S4：将步骤S3中最终特征图进行双线性汇合的操作，再经过两层全连接网络得到两个双线性向量，然后将这两个双线性向量作内积的运算，最终得到一个相识度的得分值；步骤S4中，采用双线性汇合的方式，利用外积来探索特征通道之间的成对相关性具体为：将S3中前两个流的最终特征图，以及后两个流的最终特征图分别进行双线性汇合的操作，得到两个特征图的大小分别为A∈R^M×K×C和B∈R^M×K×C，然后将A和B重新构造为矩阵

和

其中

其中，

向量u中的第(j-1)·C+i个元素表示为

表示第i个通道的特征图重新构造的一维向量，

i，j分别表示双线性矩阵的第i行，第j列；C为特征图总的通道数；

步骤S5：重复S2-S4的步骤，将每次得到的得分值拼接成相似度得分的矩阵，根据最大的得分值所在的位置定位出目标所在的位置；实现整个的跟踪效果。

2.根据权利要求1所述的基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法，其特征在于，步骤S2中，所选取的卷积神经网络结构为VGG-16网络，且选取了VGG-16不同层的特征，并将低层的位置信息与高层的语义信息相结合，最终输出为融合了多个层级信息的四个多通道的特征图。

3.根据权利要求2所述的基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法，其特征在于，步骤S3中，利用S2中多通道特征图的特点，根据特征图像素点的空间排列顺序构造出图卷积神经网络的节点，两个相邻节点之间进行连接构成了图卷积神经网络的边，图的结构可以表达为：Φ₁(v,ε)，其中v表示图的结点集合，ε表示图的边集合，然后经过两层图卷积神经网络之后生成特征表达能力更强的特征图。

4.根据权利要求3所述的基于双线性汇合四流网络的鲁棒性RGB-T跟踪方法，其特征在于，步骤S5中，在候选嵌入对中按照从左到右，从上到下的顺序依次的截取和模板嵌入对相同大小的区域，然后重复步骤S2-S4，将每一个得分值也按照相同的顺序拼接成一个相似度得分图，用Q(Z,X)来表示这个相似度得分图则最终的表达式为：