CN113256677A

CN113256677A - 一种图注意力视觉目标跟踪方法

Info

Publication number: CN113256677A
Application number: CN202110411058.5A
Authority: CN
Inventors: 程强; 邵燕燕; 郭东岩; 崔滢
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-08-13

Abstract

一种图注意力视觉目标跟踪方法，包括以下步骤：(1)裁剪选择的目标跟踪数据集；(2)搭建用来提取图像特征的全卷积孪生神经网络；(3)搭建图注意力模块；(4)搭建分类回归网络；(5)经过分类回归网络后，计算出特征响应图上的每个像素点对应的包围框和前景得分，根据对应的包围框和前景得分进一步计算每个像素点的总得分，得分最高的点即为被跟踪目标的中心点；(6)使用训练数据集对上述模型进行训练，获得训练好的网络模型，进而使用该网络对待测模型进行目标跟踪定位。本发明提升了跟踪的精度和速度。

Description

一种图注意力视觉目标跟踪方法

技术领域

本方法涉及视觉目标跟踪领域，更具体地，涉及一种图注意力视觉目标跟踪方法。

背景技术

一直以来，视觉目标跟踪方法的研究都是计算机视觉领域中的热门之一，其在自动辅助驾驶、智能视频监控以及人机交互等场景中表现出极不可或缺的作用。视觉中的目标跟踪方法要求在连续帧中预测目标的尺度及其位置变化时总保持精准以及预测连续，以确定目标运动的动态信息，如速度，方向等，从而完成更加高级的视觉任务。由于被跟踪的目标往往存在被遮挡、发生形变、后景扰乱等一系列因素的干扰，因此，建立一个精度高且泛化的目标跟踪模型仍然是一个巨大的挑战。

已有的目标跟踪方法可以分为三种，经典的目标跟踪方法、基于相关滤波的目标跟踪方法以及基于深度学习的目标跟踪方法。

基于深度学习的目标跟踪方法已被证明对图像、视频等的处理有着极强的天然优势，这是因为它可以经过大量数据集的训练，来得到相对有效的语义特征模型。随着深度学习以及其他各相关方向的发展，类似数据集数据量不足、在线跟踪计算的复杂度导致的实时性较差，以及对硬件要求较高等诸多问题已经被逐渐地缓解或解决。在不断发展的过程中，基于深度学习的目标跟踪方法在精度和速度上已经超过了经典方法。

近年来，基于孪生神经网络的跟踪器因其出色的性能而备受关注。孪生神经网络将视觉跟踪任务定义为目标匹配问题，目的是学习目标模板和搜索区域之间的一般相似映射。基于孪生神经网络跟踪器的主要结构可以概括为三个部分：用于模板和搜索区域特征提取的孪生神经网络，一个用于两个孪生神经网络分支信息嵌入的相似度匹配模块，以及用于从相似度图进行特征解码的跟踪头。许多研究人员致力于优化孪生神经网络模型以获得更好的特征表示，或者设计新的跟踪头以实现更有效的边界框回归。但是，关于信息嵌入的工作很少。

SiamFC的开创性方法构建了用于特征提取的孪生神经网络模型，并利用互相关层嵌入了两个分支。它以模板特征为内核，直接在搜索区域上执行卷积运算，并获得单个通道响应图。本质上，这里的相关可以看作是模板和搜索区域之间的相似度计算，并且所获得的响应图是用于目标位置预测的相似度图。在进行了这种相似性学习工作之后，许多研究人员试图增强用于特征表示的孪生神经网络模型，但仍利用互相关来进行信息嵌入。

DSiam添加了在线学习模块来解决目标外观变化和背景抑制转换，以改善特征表示。它着重于增强模型更新能力，同时仍基于单通道响应图来计算对象的位置。SA-Siam利用双重孪生神经网络来训练语义分支和外观分支。每个分支都是一个经过单独训练的学习相似性的孪生神经网络，但在测试时进行了组合以相互补充。RASNet引入了空间注意和通道注意机制，以增强深度模型的判别能力。GCT采用时空图卷积网络进行目标建模。由于在测试过程中会搜索多个比例来处理对象的比例变化，因此这些孪生神经网络跟踪器非常耗时。

SiamRPN在孪生神经网络特征提取网络的末尾添加了两个用于区域提案的分支：一个分类分支用于锚的背景前景分类，一个回归分支用于改进细化提案。为了嵌入锚的信息，SiamRPN通过级联多个独立的互相关层，进行上道互相关层，输出多道响应图。基于SiamRPN，DaSiamRPN设计了一个可感知干扰物的模块来执行增量学习，并获得了针对语义干扰物的更多判别特征。为了解决数据不平衡问题，C-RPN提出在孪生神经网络中将一系列RPN从深高层过渡到浅低层。这可以在较早的级联阶段滤除易负锚点，并在各个阶段保留硬样本。SiamRPN++和SiamDW都研究了深化神经网络以提高跟踪性能。这些基于RPN的跟踪器在丢弃传统的多尺度测试的同时，在性能上取得了很大的成功。它们的主要缺点是它们对与锚点相关的超参数很敏感。

除了深化孪生神经网络外，SiamRPN++还提供了一个深度互相关层，用于嵌入目标模板和搜索区域分支的信息。具体来说，它使用两个分支的特征图执行逐个通道的关联操作。通过用深度互相关代替上通道互相关，解决了两个分支参数分布不平衡的问题，使训练过程更稳定，信息关联更有效地预测边界框。此后的工作致力于消除锚的负面影响。一些无锚的跟踪器，例如SiamFC++、SiamCAR、SiamBAN和Ocean等，实现了最先进的跟踪性能。他们将跟踪任务作为一个联合分类和回归问题来处理，并以每像素预测的方式使用一个或多个头来直接预测客观性和返回响应图的边界框。Ocean进一步应用了在线更新模块来动态调整跟踪器。通过丢弃锚点和提案，这些无锚点跟踪器摆脱了冗长的超参数调整和为数据集提供先验信息(如数据规模和比例分布)的要求。

由于传统的互相关操作会带来很多背景信息，这可能会使目标特征不堪重负，并导致对类似干扰因素的敏感性。为了解决这个问题，一种像素全局匹配的方法来抑制背景干扰的方法被提出。但是，类似于互相关，这种相关方法仍将固定比例的裁剪区域作为模板特征。

发明内容

针对现有方法存在的不足，本发明提供了一种图注意力视觉目标跟踪方法，在速度和精度方面都取得了良好的结果。

为了解决上述问题，本发明提供如下的技术方案：

一种图注意力视觉目标跟踪方法，包括以下步骤：

(1)裁剪选择的目标跟踪数据集，根据目标在图像中的位置，在原始数据集中裁剪出模板图像和搜索区域图像，构成孪生神经网络两个分支的输入；

(2)搭建用来提取图像特征的全卷积孪生神经网络，该网络包含两个结构完全相同的卷积神经网络作为分支，用来提取(1)中裁剪好的模板图像和搜索区域图像的特征，使用掩码将模板图像边界框中的特征提取，只取提取过的像素作为新的模板特征，将模板特征与搜索区域特征作为图注意力模块的输入；

(3)搭建图注意力模块，用来处理孪生网络的特征输入，图注意力模块通过将特征向量进行内积来进行相似度度量，进而聚合搜索区域本身的特征以获得更强大的特征表示，将该特征表示降维后作为分类回归的网络的输入；

(4)搭建分类回归网络，将降维后的特征表示响应图作为分类回归网络的输入，分类分支预测每个像素点的类别同时给出相应位置的中心得分，回归分支输出像素点与上、下、左、右四条包围框的距离；

(5)经过分类回归网络后，计算出特征响应图上的每个像素点对应的包围框和前景得分，根据对应的包围框和前景得分进一步计算每个像素点的总得分，得分最高的点即为被跟踪目标的中心点；

(6)使用训练数据集对上述模型进行训练，获得训练好的网络模型，进而使用该网络对待测模型进行目标跟踪定位。

进一步，所述步骤(1)中，为了与其他跟踪器进行公平的比较，所选跟踪训练集均是官方网站提供的特定训练集，如：COCO，ImageNet DET，ImageNet VID或YouTube-BB等。

更进一步，所述步骤(2)对模板框和搜索框使用同样的卷积主干网络进行特征提取，同时进行参数共享，特征提取使用的是在模板框的标记边界框B_t的监督下，对目标感知模板特征区域进行选择的机制，通过将B_t投影到特征图F_t上，可以得到感兴趣的区域R_t，只取R_t中的像素作为模板特征。

更进一步，所述步骤(3)中使用完全二分图的思路在目标模板和搜索区域之间建立局部到局部的对应关系。将提取后的模板特征R_t和搜索区域特征F_s中的每个特征映射1×1×c网格视为一个节点，通过取其进行线性变换后的内积来计算相关得分来得到对应的相似度度量，将聚合后的特征与搜索区域节点特征进行融合来获得更强大的目标信息赋予的特征表示R，降维后的响应图R^*作为分类回归子网络的输入。

更进一步，所述步骤(4)中通过对R^*上的位置(i,j)进行前、后景分类并回归出包围框，再还原到搜索框中对应的映射(x,y)来完成相关的操作，其分为两个子任务：a)分类分支用来计算R^*中像素点属于前、后景的概率；b)回归分支用来计算R^*中像素点的相应包围框。

更进一步，所述步骤(5)的在跟踪过程中，边界框的大小和纵横比通常会在连续帧之间看到微小的变化，为了监督使用这种时空一致性的预测，我们引入了尺度变化惩罚p_ij来重新排序分类分数，并将分数最高的点作为中心点，在中心点邻域附近选择k个像素点，最终预测是所选k个回归框的加权平均值。

更进一步，所述步骤(6)中获取测试集图像中第一帧目标的位置，通过裁剪模板框中的目标来进一步提取特征，将其作为目标模板图像特征图，提取后续帧中对应的搜索区域图像特征图传入图注意力模块进一步聚合提取特征，最后进行分类回归操作，计算出目标在后续帧中的位置。

本发明的有益效果主要表现在：

1)提出了一个图注意力模块来实现信息的局部—局部匹配。与传统的基于互相关的搜索方法相比，该方法能够极大地消除其缺陷，有效地将目标信息从模板传递到搜索区域。

2)提出了一种目标感知的孪生网络图注意力跟踪网络与图注意力模块用于一般目标跟踪。这个框架简单而有效。与以往采用预固定全局特征匹配的方法相比，该模型能够适应不同目标的尺寸和长宽比变化。

3)跟踪的精度和速度都得到了提升。

附图说明

图1为本发明的网络框架结构示意图。

具体实施方式

为使本发明更容易理解、优势更加清楚，下面结合附图和具体实施例，对本发明实施例中的技术方案作详细说明。

参照图1，一种图注意力视觉目标跟踪方法，包括以下步骤：

(1)裁剪选择的目标跟踪数据集，根据目标在图像中的位置，在原始数据集中裁剪出模板图像和搜索区域图像，构成孪生神经网络两个分支输入的训练集；

(2)搭建用来提取图像特征的全卷积孪生神经网络，该网络包含两个结构完全相同的卷积神经网络作为分支，用来提取(1)中裁剪好的模板图像和搜索区域图像的特征，使用掩码将模板图像边界框中的特征提取，只取提取的像素作为新的模板特征，将模板特征与搜索区域特征作为图注意力模块的输入；

(5)经过分类回归网络后，特征响应图上的每个像素点都计算出对应的包围框和前景得分，根据对应的包围框和前景得分计算每个像素点的总得分，得分最高的点即为被跟踪目标的中心点；

(6)使用训练数据集对上述模型进行训练，获得训练好的网络模型，进而使用该网络对待测模型进行目标跟踪定位；

本实施例中，在给定模板块T和搜索区域S的两幅图像的情况下，首先利用孪生神经网络提取特征得到两幅特征图F_t和F_s，为了生成一个图，将特征映射的每个1×1×c网格视为一个节点(部分)，其中c表示特征通道的数量，设V_t为包含F_t所有节点的节点集，V_s为F_s的另一个节点集，受图注意力网络的启发，本发明利用完全二分图G＝(V,E)来建模目标与搜索区域之间的部分级关系，其中V＝V_s∪V_t，

进一步定义二分图G的两个子图

对于每个(i,j)∈E，让e_ij表示节点i∈V_s和节点j∈V_t的相关分数：

其中，

和

是节点i和节点j的特征向量，由于搜索区域中的位置与模板的局部特征越相似，则越有可能是前景，因此应该向那里传递更多的目标信息；因此，希望评分e_ij与两个节点特征的相似度成正比，本发明简单地使用特征之间的内积作为相似性度量，为了自适应地学习节点之间的更好表示，本发明首先对节点特征进行线性变换，然后取变换后的特征向量之间的内积来计算相关得分，形式上，

其中，W_s和W_t是线性变换矩阵；

为了平衡发送到搜索区域的信息量，使用softmax函数对e_ij进行规整：

直观上，a_ij根据第j部分的观点来衡量跟踪器应该对第i部分投入多少注意力；

利用从G_t中的所有节点传递到G_s中的第i个节点的关注度，计算节点i的聚集表示

其中W_v是线性变换的矩阵；

最后，将聚合的特征与节点特征

进行融合，以获得更强大的目标信息赋予的特征表示：

其中||表示向量拼接。通过并行计算所有的

是

产生后续任务的响应映射；

传统的基于互相关的方法只是简单地裁剪模板F_t的中心区域作为目标特征，与搜索区域F_s进行匹配，从而将大量的背景信息传递给响应映射，特别是当模板目标以极端长宽比给出时；为了解决这一问题，本发明研究了一种在模板块中标记边界框B_t监督下的目标感知模板特征区域选择机制，通过将B_t投影到特征图F_t上，可以得到感兴趣的区域R_t，只取R_t中的像素作为模板特征：

通过这个简单的操作，获得的特征图

是维度(w，h，c)的张量，其中w和h对应于模板边界框B_t的宽度和高度，而c是F_t通道的数量；

每个元素

被认为是模板子图G_t中的一个节点，同时，各元素F_s(m,n,:)被视为搜索子图G_s中的一个节点。这两个子图作为图形注意模块的输入，用于信息嵌入，由于G_t中的元素在特征图

上以网格模式排列，我们可以用1×1的卷积来实现线性变换；

观察发现在每次卷积后应用批处理归一化可以有效地提高性能。但由于无法预先确定不同跟踪对象对应的维数w和h，因此不能直接对尺度变量

进行批处理归一化操作，为了解决这个问题，重新计算

如下：

训练模型和测试模型的细节介绍：训练中采用经过修改的GoogLeNet(Inceptionv3)作为特征提取的骨干网络，用ImageNet上预训练的权重初始化骨干，训练批次大小设置为76，总共20个时期采用随机梯度下降进行训练，使用的学习率对于前5个预热迭代周期从0.005线性增加到0.01，然后对于其他15个迭代周期指数衰减到0.0005；在前10个迭代周期，我们冻结骨干网中的参数来训练图注意网络和头网络，在接下来的10个迭代周期，冻结了GoogLeNet的第一和第二阶段，并对第三和第四阶段进行微调。

表1是本发明与其他方法的跟踪器在GOT-10K数据集上的结果对比。其中，AO代表预测的包围框和真实包围框的重叠率，SR_0.5代表重叠率在50％以上的比例，SR_0.75代表重叠率在75％以上的比例，从表1中可以看出本发明在跟踪的精度和速度与其他跟踪器相比，都有明显的优势；表1为GOT-10K数据集测试结果对比。

表1。

Claims

1.一种图注意力视觉目标跟踪方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的一种图注意力视觉目标跟踪方法，其特征在于，所述步骤(1)中，所选跟踪训练集均是COCO、ImageNet DET、ImageNet VID或YouTube-BB。

3.如权利要求1或2所述的一种图注意力视觉目标跟踪方法，其特征在于，所述步骤(2)对模板框和搜索框使用同样的卷积主干网络进行特征提取，同时进行参数共享，特征提取使用的是在模板框的标记边界框B_t的监督下，对目标感知模板特征区域进行选择的机制；通过将B_t投影到特征图F_t上，可以得到感兴趣的区域R_t，只取R_t中的像素作为模板特征。

4.如权利要求1或2所述的一种图注意力视觉目标跟踪方法，其特征在于，所述步骤(3)中使用完全二分图的思路在目标模板和搜索区域之间建立局部到局部的对应关系，将提取后的模板特征R_t和搜索区域特征F_s中的每个特征映射1×1×c网格视为一个节点，通过取其进行线性变换后的内积来计算相关得分来得到对应的相似度度量，将聚合后的特征与搜索区域节点特征进行融合来获得更强大的目标信息赋予的特征表示R，降维后的响应图R^*作为分类回归子网络的输入。

5.如权利要求1或2所述的一种图注意力视觉目标跟踪方法，其特征在于，所述步骤(4)中通过对R^*上的位置(i,j)进行前、后景分类并回归出包围框，再还原到搜索框中对应的映射(x,y)来完成相关的操作，其分为两个子任务：a)分类分支用来计算R^*中像素点属于前、后景的概率；b)回归分支用来计算R^*中像素点的相应包围框。

6.如权利要求1或2所述的一种图注意力视觉目标跟踪方法，其特征在于，所述步骤(5)的在跟踪过程中，边界框的大小和纵横比会在连续帧之间看到微小的变化，为了监督使用这种时空一致性的预测，引入了尺度变化惩罚p_ij来重新排序分类分数，并将分数最高的点作为中心点，在中心点邻域附近选择k个像素点，最终预测是所选k个回归框的加权平均值。

7.如权利要求1或2所述的一种图注意力视觉目标跟踪方法，其特征在于，所述步骤(6)中获取测试集图像中第一帧目标的位置，通过裁剪模板框中的目标来进一步提取特征，将其作为目标模板图像特征图；提取后续帧中对应的搜索区域图像特征图传入图注意力模块进一步聚合提取特征，最后进行分类回归操作，计算出目标在后续帧中的位置。