CN111462175B

CN111462175B - 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备

Info

Publication number: CN111462175B
Application number: CN202010166240.4A
Authority: CN
Inventors: 陈汉造; 邢晓芬; 徐向民; 郭锴凌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-02-10
Anticipated expiration: 2040-03-11
Also published as: CN111462175A

Abstract

本发明提供了一种时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备；其中方法包括如下步骤：预处理训练数据；训练卷积神经网络模型；分别提取目标跟踪视频的第一帧图像、搜索帧图像以及搜索帧前T帧图像的特征；将第一帧图像的特征和搜索帧图像的特征进行互相关操作，得到第一互相关响应图R1；采用三维卷积方式对搜索帧前T帧图像的特征进行融合生成注意力响应图；将注意力响应图和第一帧图像的特征相乘，得到新的模板帧特征；将新的模板帧特征和搜索帧的特征进行互相关操作，得到第二互相关响应图R2；将R1和R2中APCE系数较大的一项作为最新跟踪对象。本发明能够适应目标的变形和遮挡；在不影响速度的情况下有效提高跟踪精度。

Description

时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备

技术领域

本发明涉及图像目标跟踪技术领域，更具体地说，涉及一种时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备。

背景技术

目标跟踪是深度学习领域的基本任务之一。跟踪目标是单个的、任意的，并且在跟踪时仅使用视频的第一帧进行初始化。在跟踪过程中，通常伴随着背景的变化以及目标的位移和旋转。

当前有两种主要的视觉跟踪策略。第一个基于经典的分类与更新方法。它需要在线更新分类器或目标外观模型，然后在下一帧的候选样本中选择最佳匹配。具体地说，相关滤波器的基本思想是设计一个滤波器模板，利用该模板对目标候选区域进行相关运算。响应图中最大输出的位置是当前帧的目标位置。随着深度学习的发展，此类方案还通过引入深度神经网络实现了显着的性能提升。基于相关滤波器的跟踪器在跟踪过程中需要在线更新模板，由于在线更新模型非常耗时，因此此类跟踪器很难达到实时的跟踪速度。一些基于上述方法的最先进的深度跟踪器，尽管确实可以达到很高的准确性，但大多数情况下不是实时的。

第二个是近年来发展迅速的孪生系列跟踪网络，这些跟踪网络使用模板帧和搜索帧进行模板匹配以获得响应图。孪生系列跟踪器，又称SiamFC跟踪器，最大优势是其实时速度。但是，SiamFC跟踪器使用的模板帧从头到尾始终是第一帧，并且随着目标和背景在跟踪过程中发生变化，不会对模板进行任何修改。这种基于匹配的跟踪器缺乏良好的在线适应性，因此无法很好地捕获目标。与基于在线更新的分类器的跟踪器相比，这使它们仍然具有较大的精度差距。当相似的目标共存于目标邻域或目标发生显着变化时，基于匹配的跟踪器往往会失败，因为这些因素很容易干扰预先学习的匹配模型。

SiamFC跟踪器结构如上图1所示，其中z表示样本图像(即目标)，x表示待搜索图像。其后续工作很多。如果低级特征足以跟踪目标，EAST跟踪器会提前停止特征提取程序，以加快跟踪速度。CFNet跟踪器为低层CNN特性引入相关滤波器，在不影响精度的情况下加快跟踪速度。

为了获得更好的性能，SINT跟踪器结合了光流信息，但由于光流计算代价昂贵，其跟踪速度只有4fps。SiamRPN跟踪器引入RPN网络解决了尺度变换问题，在提高速度的同时提高了精度。SiamDW跟踪器改进了特征提取器，使用更深更广的网络进行特征提取。

对于暹罗网络，其两个分支可以在跟踪阶段保持固定或在线更新，以适应目标外观的变化。DSiam跟踪器从之前的帧中在线学习目标表观上的变化和背景抑制，获得了性能提升，但是速度有一定的下降。

总的来说，对于像ECO那样的在线更新的深度跟踪器，速度几乎无法满足实时要求。而像GOTURN那样直接以最后一帧为模板的跟踪器，容易造成累积误差。如果跟踪器仅使用第一帧作为模板帧(例如SiamFC跟踪器)，则最新帧的信息会丢失。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备，能够适应目标的变形和遮挡；在不影响速度的情况下有效提高跟踪精度。

为了达到上述目的，本发明通过下述技术方案予以实现：一种时空卷积孪生匹配网络目标跟踪方法，其特征在于：包括如下步骤：

S1步，预处理训练数据，将训练数据图片处理成设定尺寸格式，并使跟踪目标处于训练数据图片的中间；

S2步，利用预处理好的训练数据来训练卷积神经网络模型；

S3步，进行目标跟踪：

S31步，输入目标跟踪视频；利用训练好的卷积神经网络模型分别提取目标跟踪视频的第一帧图像、搜索帧图像以及搜索帧前T帧图像的特征；

S32步、将第一帧图像的特征和搜索帧图像的特征进行互相关操作，得到第一互相关响应图R1；

S33步、采用三维卷积方式对搜索帧前T帧图像的特征进行融合，生成注意力响应图；将注意力响应图和第一帧图像的特征相乘，得到新的模板帧特征；将新的模板帧特征和搜索帧的特征进行互相关操作，得到第二互相关响应图R2；

S34步、分别计算第一互相关响应图R1和第二互相关响应图R2的APCE系数；将第一互相关响应图R1和第二互相关响应图R2中APCE系数较大的一项作为最新跟踪对象；

S35步、以最新跟踪对象作为跟踪目标来进行目标跟踪。

优选地，所述S1步中，预处理训练数据是指，将训练数据图片进行缩放和裁剪，使跟踪目标位于训练数据图片的中间，空白填充每个通道中所有像素的平均值；训练数据图片中，跟踪目标区域设定为正类，背景区域设为负类。

优选地，所述S33步中，采用三维卷积方式对搜索帧前T帧图像的特征进行融合，生成注意力响应图，是指：首先对搜索帧前T帧图像进行二维卷积以获得T*H*W*C的特征图；其中，C代表特征图的厚度，H代表特征图的高度，W代表特征图的宽度；然后使用卷积核大小为T的一维卷积运算获得H*W*C的特征图，进而生成注意力响应图。

优选地，所述S33步中，第二互相关响应图R2的计算方式为：

其中，corr(·)是相关运算；F_t表示第t帧图像的输入图像；t为搜索帧编码；

代表由经过训练的卷积神经网络提取的深层特征；Λ(·)表示引入注意力信息的三维卷积模块。

一种时空卷积孪生匹配网络目标跟踪装置，其特征在于：包括：

卷积神经网络模型训练模块；用于预处理训练数据，将训练数据图片处理成设定尺寸格式，并使跟踪目标处于训练数据图片的中间；利用预处理好的训练数据来训练卷积神经网络模型；

以及目标跟踪模块；

其中，目标跟踪模块包括：

特征提取子模块，用于输入目标跟踪视频；利用训练好的卷积神经网络模型分别提取目标跟踪视频的第一帧图像、搜索帧图像以及搜索帧前T帧图像的特征；

第一互相关响应图生成子模块，用于将第一帧图像的特征和搜索帧图像的特征进行互相关操作，得到第一互相关响应图R1；

第二互相关响应图生成子模块，用于采用三维卷积方式对搜索帧前T帧图像的特征进行融合，生成注意力响应图；将注意力响应图和第一帧图像的特征相乘，得到新的模板帧特征；将新的模板帧特征和搜索帧的特征进行互相关操作，得到第二互相关响应图R2；

判断子模块，用于分别计算第一互相关响应图R1和第二互相关响应图R2的APCE系数；将第一互相关响应图R1和第二互相关响应图R2中APCE系数较大的一项作为最新跟踪对象；

以及跟踪子模块，用于以最新跟踪对象作为跟踪目标来进行目标跟踪。

一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述时空卷积孪生匹配网络目标跟踪方法。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现上述时空卷积孪生匹配网络目标跟踪方法。

与现有技术相比，本发明具有如下优点与有益效果：

本发明通过时空卷积对最新帧的信息进行建模，使用最新帧计算注意力响应图，然后用注意力响应图更新第一帧得到模板帧特征，能够适应目标的变形和遮挡而无需引入累积错误；本发明采用三维卷积跟踪模块，可在不影响速度的情况下学习帧间信息，提高跟踪精度；该模块可以轻松地嵌入到不同的孪生跟踪器中。

附图说明

图1是现有SiamFC跟踪器的结构图；

图2是本发明目标跟踪方法的流程图；

图3是本发明目标跟踪方法处理过程示意图；

图4(a)至图4(i)是本发明目标跟踪方法的注意力机制效果示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

本实施例一种时空卷积孪生匹配网络目标跟踪方法。本发明分析了初始帧和最新帧之间的关系，通过时空卷积对最新帧的信息进行建模，然后利用注意机制对初始帧进行变换，得到更适合的模板帧。该跟踪器在基本不降低速度的前提下，提高了跟踪精度。该模块可以添加到不同的孪生跟踪器中，是一种通用的优化方法。

如图2所示，包括如下步骤：

预处理训练数据是指，将训练数据图片进行缩放和裁剪，具体来说，按比例缩放图像，将每个训练数据图片裁剪为255*255的大小。使跟踪目标位于训练数据图片的中间，空白填充每个通道中所有像素的平均值。训练数据图片中，跟踪目标区域设定为正类，背景区域设为负类。

S2步，利用预处理好的训练数据来训练卷积神经网络模型。训练时，为了模拟跟踪过程中的偏离，最新T帧图像输入也被裁剪为127*127的大小，但跟踪目标不再位于中间，因为不同帧之间存在一些偏移。选择帧时，第一帧和最新帧的帧数之差是随机的，但是最新T帧和搜索帧必须是相邻帧，以此保证训练和跟踪之间的一致性。

将训练好的卷积神经网络模型用于视频跟踪，所有参数都经过离线训练，并且在跟踪过程中不再更新参数。为了提高跟踪速度，可以裁剪先前搜索帧的特征图以获得对应的原始模板特征图，从而加速获得搜索帧前T帧图像的特征。

S3步，进行目标跟踪。跟踪过程如图3所示。

S31步，输入目标跟踪视频；利用训练好的卷积神经网络模型分别提取目标跟踪视频的第一帧图像、搜索帧图像以及搜索帧前T帧图像的特征。

S32步、将第一帧图像的特征和搜索帧图像的特征进行互相关操作，得到第一互相关响应图R1。

S33步、采用三维卷积方式对搜索帧前T帧图像的特征进行融合，生成注意力响应图；具体地说，首先对搜索帧前T帧图像进行二维卷积以获得T*H*W*C的特征图；其中，C代表特征图的厚度，H代表特征图的高度，W代表特征图的宽度；然后使用卷积核大小为T的一维卷积运算获得H*W*C的特征图，进而生成注意力响应图。

将注意力响应图和第一帧图像的特征相乘，得到新的模板帧特征；将新的模板帧特征和搜索帧的特征进行互相关操作，得到第二互相关响应图R2。

第二互相关响应图R2的计算方式为：

S34步、分别计算第一互相关响应图R1和第二互相关响应图R2的APCE系数；将第一互相关响应图R1和第二互相关响应图R2中APCE系数较大的一项作为最新跟踪对象。

S35步、以最新跟踪对象作为跟踪目标来进行目标跟踪。

其原理是：输入具有多个分支，包括第一帧图像、搜索帧图像以及搜索帧前T帧图像；多个输入将分别通过二维卷积层获取提取的特征图；然后通过时间卷积融合搜索帧前T帧图像的特征，并将获得的特征用于计算第一帧图像的特征的通道注意力信息和空间注意力信息，以获得新的模板帧特征；传统二维卷积神经网络专注于提取图像的空间特征，但无法有效地建模时间信息。本发明中，三维卷积的特征用于建模多个帧；对搜索帧前T帧图像进行二维卷积以获得T*H*W*C的特征图；然后使用卷积核大小为T的一维卷积运算获得H*W*C的特征图；汇总有关最新T帧的信息。

由于跟踪期间最新帧不可避免地发生漂移，因此第一帧和最新帧的特征图通常在空间上不对齐，因此第一帧的特征图和最新帧的最终H*W*C特征图不应直接添加。本发明中，最新帧的特征不用于直接添加，而是转换为第一帧的特征图的校正，即对第一帧的注意力机制。

图4(a)至图4(c)、图4(d)至图4(f)、图4(g)至图4(i)是三组注意力机制效果的可视化；分别表示OTB-2015数据集中的FaceOcc1、Dog、Suv序列。图4(a)、图4(d)和图4(g)分别表示三组初始帧的图像，图4(b)、图4(e)和图4(h)分别表示三组搜索帧的图像，图4(c)、图4(f)和图4(i)分别表示三组此时对初始帧的注意。当最新帧中的对象被变换或遮挡时，注意机制可以帮助模型聚焦到需要聚焦的区域。

另外，如果在跟踪过程中始终使用具有三维卷积的结果，则在遮挡目标时会影响注意力因素，这可能导致无法很好地反映目标的最新状态。因此，本发明引入了LMCF跟踪器中提出的APCE指标。在跟踪每一帧时，计算出两个特征图，包括第一互相关响应图R1和第二互相关响应图R2。在LMCF论文中，APCE分数用于确定是否在线更新，而在本发明中，其用于确定使用哪个特征图。在计算两个响应图的相应APCE分数之后，本发明的跟踪器将APCE分数最大的响应图作为最终结果。如果仅将响应图的最大值用作指标而不是APCE分数，则会发现通过注意力机制获得的响应图的最大值始终小于不加注意力机制的，因为经过Sigmoid后的系数总是小于1。由于搜索帧前T帧图像使用共享的卷积层，因此可以在跟踪过程中重用以前的卷积结果。最终模型的速度几乎与原始SiamFC的速度相同，只是有一个附加的一维卷积层。

带有Res22特征提取器的跟踪器的速度约为67帧/秒，实现了实时跟踪，与原始的SiamFC、SiamDW跟踪器相比，速度几乎没有下降。

为验证本发明时空卷积孪生匹配网络目标跟踪方法，将本发明目标跟踪方法在OTB-2015与其他现有方法进行效果对比。OTB-2015是一个非常经典的目标跟踪基准库，它包含大约100个真实世界的视频，有两个主要的评估指标。

第一个是成功情节：地面真值与预测边界盒的交集决定了跟踪是否成功，多个IOU阈值用于计算多个成功率；以IOU为横坐标，成功率为纵坐标，得到一条曲线；此图为成功图，图的AUC为一般评价指标。

第二个是精确绘图：利用地面真值与预测边界盒的中心距离来评价跟踪精度；成功率由不同的距离阈值计算；同样，以距离阈值为横坐标，成功率为纵坐标，可以得到一个图；该图为精度图，图的20像素横坐标的成功率是一个通用的评价指标。图例中的分数表示当精确图的位置阈值为20像素时的平均精度，而成功图的区域暗曲线(AUC)为20像素时的平均精度。

表1跟踪器在OTB2015上的AUC指标对比

跟踪器	AUC
		Siam3D-Res22(本发明目标跟踪方法)	0.656
SiamFC-Res22	0.641
		Siam3D-AlexNet(本发明目标跟踪方法)	0.603
SiamFC	0.582
		MUSTer	0.571
MEEM	0.524
		STRUCK	0.462
SCM	0.446
		CXT	0.413
ASLA	0.409

表2跟踪器在OTB2015上的精度指标对比

跟踪器	精度
		Siam3D-Res22(本发明目标跟踪方法)	0.88
SiamFC-Res22	0.85
		Siam3D-AlexNet(本发明目标跟踪方法)	0.79
SiamFC	0.77
		MUSTer	0.77
MEEM	0.76
		STRUCK	0.64
SCM	0.58
		CXT	0.57
ASLA	0.55

实验结果如表1和表2所示。本发明目标跟踪方法在0TB-2015的AUC为0.656，精度为0.88。Siam3D-Res22表示本发明跟踪器使用SiamDW中的Res22网络作为特征提取器网络结构。

表3注意力机制的效果分析：

表3分析了各种不同组合在OTB-2015上的分数。AlexNet和Res22分别表示本发明中使用的不同特征提取器。“无注意力”表示原始的SiamFC和SiamDW跟踪器。“通道注意力”表示移动了空间注意力模块。“通道+空间注意力”代表本发明最终的网络结构。

通过实验结果可以发现，无论是在原有的AlexNet之后添加模块，还是在更深层的ResNet之后添加注意力模块，跟踪器都能得到很好的性能改善。对于注意力模块的设计，如果去除空间注意力，则性能下降。只有同时加入通道注意力和空间注意力，模型才能达到最佳性能。因为空间注意有助于更好地提取目标在初始帧中的特征，减少背景干扰。

实施例二

为实现实施例一所述的时空卷积孪生匹配网络目标跟踪方法，本实施例提供一种时空卷积孪生匹配网络目标跟踪装置，包括：

以及目标跟踪模块；

其中，目标跟踪模块包括：

实施例三

本实施例一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的时空卷积孪生匹配网络目标跟踪方法。

实施例四

本实施例一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现实施例一所述的时空卷积孪生匹配网络目标跟踪方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种时空卷积孪生匹配网络目标跟踪方法，其特征在于：包括如下步骤：

S2步，利用预处理好的训练数据来训练卷积神经网络模型；

S3步，进行目标跟踪：

S35步、以最新跟踪对象作为跟踪目标来进行目标跟踪。

2.根据权利要求1所述的时空卷积孪生匹配网络目标跟踪方法，其特征在于：所述S1步中，预处理训练数据是指，将训练数据图片进行缩放和裁剪，使跟踪目标位于训练数据图片的中间，空白填充每个通道中所有像素的平均值；训练数据图片中，跟踪目标区域设定为正类，背景区域设为负类。

3.根据权利要求1所述的时空卷积孪生匹配网络目标跟踪方法，其特征在于：所述S33步中，采用三维卷积方式对搜索帧前T帧图像的特征进行融合，生成注意力响应图，是指：首先对搜索帧前T帧图像进行二维卷积以获得T*H*W*C的特征图；其中，C代表特征图的厚度，H代表特征图的高度，W代表特征图的宽度；然后使用卷积核大小为T的一维卷积运算获得H*W*C的特征图，进而生成注意力响应图。

4.根据权利要求1所述的时空卷积孪生匹配网络目标跟踪方法，其特征在于：所述S33步中，第二互相关响应图R2的计算方式为：

5.一种时空卷积孪生匹配网络目标跟踪装置，其特征在于：包括：

以及目标跟踪模块；

其中，目标跟踪模块包括：

6.一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-4中任一项所述的时空卷积孪生匹配网络目标跟踪方法。

7.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-4中任一项所述的时空卷积孪生匹配网络目标跟踪方法。