CN114119669A

CN114119669A - 一种基于Shuffle注意力的图匹配目标跟踪方法与系统

Info

Publication number: CN114119669A
Application number: CN202111438516.0A
Authority: CN
Inventors: 王军; 章利民
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01

Abstract

本发明提出一种基于Shuffle注意力的图匹配目标跟踪方法与系统，该方法包括：基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络；建立目标跟踪算法模型；采用离线方式对目标跟踪算法模型进行端对端训练；初始化视频序列的第一帧以获取目标模板图像，在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像，并将目标模板图像以及搜索区域图像送入到特征提取主干网络中以获得深度特征；对深度特征进行图匹配操作，以获得相似性得分图；对相似性得分图进行前景与背景的区别以及预测框的角点进行调整，以确定最终的目标跟踪位置。本发明具有很好的鲁棒性与实时性，实现良好的目标图像跟踪效果。

Description

一种基于Shuffle注意力的图匹配目标跟踪方法与系统

技术领域

本发明涉及计算机视觉与数字图像处理技术领域，特别涉及一种基于Shuffle注意力的图匹配目标跟踪方法与系统。

背景技术

近年来，视觉跟踪是计算机视觉中的重要研究课题之一，视觉跟踪的目的是在给定被跟踪目标在视频第一帧中的初始状态后，通过对目标表观以及运动信息建模，确定目标在后续帧中的位置和尺度变化。特别在最近几年，随着深度学习的飞速发展，目标跟踪领域也随之取得了很大的进展。然而，在复杂场景下，实现鲁棒与准确的目标跟踪仍然极具挑战，例如需要解决遮挡、运动模糊、尺度变化以及光照变化等一系列因素带来的影响。

具体而言，视觉跟踪算法一般包括两类：一种是基于生成式模型的跟踪算法，另一种是基于判别式模型的视觉目标跟踪算法。1、基于生成式模型的跟踪算法，将跟踪问题转化为在搜索区域寻找最适合的候选样本，搜索区域通常由初始帧目标的位置和大小决定。早期的跟踪算法大多以生成式模型为主，具体包括光流法、均值偏移以及稀疏表示等。2、基于判别式模型的视觉目标跟踪算法，将跟踪问题视为一个二分类问题，同时将前景和背景考虑进去训练一个分类器，将分类器置信度最高的为区域视为当前帧的目标位置，同时在跟踪过程中，将前一帧的结果作为样本更新分类器，这类方法也被称为tracking-by-detection法。

目前，基于深度学习的目标跟踪算法主要是充分利用深度特征强大的表征能力，并在目标跟踪领域取得了巨大的成功。在常见的测试数据库OTB2015以及VOT上，这几年深度学习跟踪算法占据了领先地位。然而，现有技术中，部分视觉跟踪算法的表观模型鲁棒性与精确度均不是很理想，无法很好地处理低分辨率、复杂背景、光照变化、以及遮挡等外观变化所带来的影响。

发明内容

鉴于上述状况，有必要解决现有技术中，部分视觉跟踪算法的表观模型鲁棒性与精确度均不是很理想，无法很好地处理低分辨率、复杂背景、光照变化、以及遮挡等外观变化所带来的影响。

本发明实施例提供了一种基于Shuffle注意力的图匹配目标跟踪方法，其中，所述方法包括如下步骤：

步骤一：基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络，所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取；

步骤二：根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型；

步骤三：对目标跟踪数据集进行预处理，在每个数据迭代周期内动态调整学习率，并采用离线方式对所述目标跟踪算法模型进行端对端训练；

步骤四：在进行过端对端训练的目标跟踪算法模型中，初始化视频序列的第一帧以获取目标模板图像，在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像，并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征；

步骤五：对目标模板图像和搜索区域图像的深度特征进行图匹配操作，以获得目标模板图像与搜索区域图像之间的相似性得分图；

步骤六：利用所述分类子网络对相似性得分图进行前景与背景的区别，利用所述回归子网络对相似性得分图中预测框的角点进行调整，直至所述视频序列结束以确定最终的目标跟踪位置。

本发明提出的一种基于Shuffle注意力的图匹配目标跟踪方法，联合卷积神经网络与Shuffle注意力模型，充分挖掘空间方向与通道方向之间的特征相关性，以获取得到更为稀疏以及更为鲁棒的深度特征；此外，通过图注意力匹配对目标模板图像特征和搜索区域图像特征进行相似性得分计算，并利用分类子网络和回归子网络对预测框进行精细化调整，以确定最终的目标跟踪位置。本发明所提出的基于Shuffle注意力的图匹配目标跟踪方法，具有很好的鲁棒性与实时性，可更好地处理外观变化，包括遮挡、光照变化以及运动模糊等，最终可实现良好的目标图像的跟踪效果。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，在所述步骤一中，利用特征提取主干网络对目标模板图像以及搜索区域图像进行深度特征提取的方法包括如下步骤：

通过所述卷积神经网络对目标模板图像以及搜索区域图像进行深度特征提取；

通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，在所述步骤一中，通过所述卷积神经网络提取到的深度特征表示为

其中，r表示深度特征，

表示实数，C、H和W分别表示通道数，高度以及宽度。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，所述通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘的方法包括如下步骤：

通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征；

在划分为D组子特征后，将每一组子特征划分为两部分，包括第一部分子特征以及第二部分子特征；

利用全局平均池化对所述第一部分子特征进行尺寸调整，然后通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征；

通过组归一化对所述第二部分子特征沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征；

将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组，以得到特征挖掘后的子特征。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征，具体表示为：

其中，r_k表示第k组子特征，k∈{1，2，...，D}D表示子特征的组数；

在划分为D组子特征后，将每一组子特征划分为两部分，包括第一部分子特征r_ka以及第二部分子特征r_kb，即r_k＝[r_ka，r_ka]；

利用全局平均池化对第一部分子特征r_ka进行尺寸调整，具体表示为：

其中，r’_ka表示经尺寸调整后的第一部分子特征，m与n分别表示空间位置的横坐标与纵坐标。

通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征，具体表示为：

r″_ka＝σ(w₁r′_ka+b)·r_ka

其中，r″_ka表示特征挖掘后的第一部分子特征，w₁和b分别表示特征尺度缩放以及偏移量，σ为激活函数。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，通过组归一化对第二部分子特征r_kb沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征r″_kb，具体表示为：

r″_kb＝σ(w₂GN(r_kb)+b)·r_kb

其中，w₂表示特征尺度缩放，GN表示组归一化；

将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组，以得到特征挖掘后的子特征，具体表示为：

r″_k＝[r″_ka，r″_kb]

其中，r″_k表示特征挖掘后的子特征。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，通过特征提取主干网络提取得到的深度特征包括目标模板深度特征F_t以及搜索区域深度特征F_s，令V_t包括目标模板深度特征F_t表示的所有节点，V_s包括搜索区域深度特征F_s表示的所有节点；

利用完全二分图G＝(V，E)建模目标模板与搜索区域不同节点之间的相关性以得到关联分数；V＝V_s∪V_t和

其中，V表示目标模板图像与搜索区域图像的节点集，E表示以目标模板图像与搜索区域图像顶点连线的边集，u表示目标模板图像中的节点元素，v表示搜索区域图像中的节点元素。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，对于搜索区域i节点以及目标模板j节点之间对应的所述关联分数表示为：

其中，e_i，j表示所述关联分数，

和

分别表示搜索区域i节点和目标模板j节点对应的特征向量，f为相似性函数；

其中，W_s和W_t均为不同的线性变换矩阵，T为转置操作。

所述一种基于Shuffle注意力的图匹配目标跟踪方法，其中，所述方法还包括：

利用softmax函数对所述关联分数进行归一化处理以到节点间权重值，具体表示为：

其中，a_ij表示跟踪器根据目标模板j节点给予搜索区域i节点的节点间权重值，e_ik表示搜索区域i节点与目标模板k节点之间的相似性分数；

通过所述节点间权重值计算得到目标模板子完全二分图G_t中所有节点信息在搜索区域子完全二分图G_s中的节点聚合，具体表示为：

其中，V_i表示目标模板子完全二分图G_t中所有节点信息在搜索区域子完全二分图G_s中的第i个节点聚合表示特征，W_v表示线性变换矩阵，目标模板子完全二分图G_t＝(V_t，φ)，搜索区域子完全二分图G_s＝(V_s，φ)，φ表示空集；

将目标模板子完全二分图G_t中所有节点信息在搜索区域子完全二分图G_s中的第i个节点聚合表示特征V_i与搜索区域i节点对应的特征向量

进行融合，以得到更鲁棒的搜索区域i节点对应的特征向量，具体表示为：

其中，

为所述更鲁棒的搜索区域i节点对应的特征向量，ReLU表示激活函数。

本发明还提出一种基于Shuffle注意力的图匹配目标跟踪系统，其中，所述系统包括：

第一构建模块，用于基于卷积神经网络与Shume注意力模块建立特征提取主干网络，所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取；

第二构建模块，用于根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型；

第一训练模块，用于对目标跟踪数据集进行预处理，在每个数据迭代周期内动态调整学习率，并采用离线方式对所述目标跟踪算法模型进行端对端训练；

特征提取模块，用于在进行过端对端训练的目标跟踪算法模型中，初始化视频序列的第一帧以获取目标模板图像，在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像，并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征；

得分计算模块，用于对目标模板图像和搜索区域图像的深度特征进行图匹配操作，以获得目标模板图像与搜索区域图像之间的相似性得分图；

目标跟踪模块，用于利用所述分类子网络对相似性得分图进行前景与背景的区别，利用所述回归子网络对相似性得分图中预测框的角点进行调整，直至所述视频序列结束以确定最终的目标跟踪位置。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于Shuffle注意力的图匹配目标跟踪方法的流程图；

图2为本发明提出的基于Shuffle注意力的图匹配目标跟踪系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

现有技术中，部分视觉跟踪算法的表观模型鲁棒性与精确度均不是很理想，无法很好地处理低分辨率、复杂背景、光照变化、以及遮挡等外观变化所带来的影响。

为了解决这一技术问题，本发明提出一种基于Shuffle注意力的图匹配目标跟踪方法，请参阅图1，该方法包括如下步骤：

S101，基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络，所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取。

在本步骤中，利用特征提取主干网络对目标模板图像以及搜索区域图像进行深度特征提取的方法包括如下步骤：

S1011，通过所述卷积神经网络对目标模板图像以及搜索区域图像进行深度特征提取。

通过所述卷积神经网络提取到的深度特征表示为

其中，r表示深度特征，

表示实数，C、H和W分别表示通道数，高度以及宽度。

S1012，通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘。

具体的，通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘的方法包括如下步骤：

S1012a，通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征。

具体表示为：

其中，r_k表示第k组子特征，k∈{1，2，...，D}，D表示子特征的组数。

S1012b，在划分为D组子特征后，将每一组子特征划分为两部分，包括第一部分子特征以及第二部分子特征。

具体的，在划分为D组子特征后，将每一组子特征划分为两部分，包括第一部分子特征r_ka以及第二部分子特征r_kb，即r_k＝[r_ka，r_kb]。

S1012c，利用全局平均池化对所述第一部分子特征进行尺寸调整，然后通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征。

其中，r′_ka表示经尺寸调整后的第一部分子特征，m与n分别表示空间位置的横坐标与纵坐标。

r″_ka＝σ(w₁r′_ka+b)·r_ka

S1012d，通过组归一化对所述第二部分子特征沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征。

具体的，通过组归一化对第二部分子特征r_kb沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征r″_kb，具体表示为：

r″_kb＝σ(w₂GN(r_kb)+b)·r_kb

其中，w₂表示特征尺度缩放，GN表示组归一化。

S1012e，将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组，以得到特征挖掘后的子特征。

具体的，将特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组，以得到特征挖掘后的子特征，具体表示为：

r″_k＝[r″_ka，r″_kb]

其中，r″_k表示特征挖掘后的子特征。

S102，根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型。

在此需要说明的是，通过特征提取主干网络提取得到的深度特征包括目标模板深度特征F_t以及搜索区域深度特征F_s。

令V_t包括目标模板深度特征F_t表示的所有节点，V_s包括搜索区域深度特征F_s表示的所有节点；

利用完全二分图G＝(V，E)建模目标模板与搜索区域不同节点之间的相关性以得到关联分数；V＝V_s∪F_t和

对于搜索区域i节点以及目标模板j节点之间对应的所述关联分数表示为：

其中，e_i，j表示所述关联分数，

和

分别表示搜索区域i节点和目标模板j节点对应的特征向量，f为相似性函数。

为了自适应地学习节点之间更好的表示，本实施例中首先对节点特征进行线性变换，然后取变换后的特征向量之间的内积来计算上述的关联分数，具体表示为：

其中，W_s和W_t均为不同的线性变换矩阵，T为转置操作。

为了使目标模板图像更好地在搜索区域进行传播，利用softmax函数对所述关联分数进行归一化处理以到节点间权重值，具体表示为：

其中，a_ij表示跟踪器根据目标模板j节点给予搜索区域i节点的节点间权重值，e_ik表示搜索区域i节点与目标模板k节点之间的相似性分数。

进一步的，通过节点间权重值计算得到目标模板子完全二分图G_i中所有节点信息在搜索区域子完全二分图G_s中的节点聚合，具体表示为：

其中，V_i表示目标模板子完全二分图G_t中所有节点信息在搜索区域子完全二分图G_s中的第i个节点聚合表示特征，W_v表示线性变换矩阵，目标模板子完全二分图G_t＝(V_t，φ)，搜索区域子完全二分图G_s＝(V_s，φ)，φ表示空集。

再次，将目标模板子完全二分图G_t中所有节点信息在搜索区域子完全二分图G_s中的第i个节点聚合表示特征V_i与搜索区域i节点对应的特征向量

其中，

为所述更鲁棒的搜索区域i节点对应的特征向量，ReLU表示激活函数。可以理解的，本步骤可获取得到更为鲁棒的搜索区域的节点对应的特征向量。

S103，对目标跟踪数据集进行预处理，在每个数据迭代周期内动态调整学习率，并采用离线方式对所述目标跟踪算法模型进行端对端训练。

需要指出的是，对目标跟踪数据集GOT-10k以及COCO数据集裁剪为统一尺寸大小511×511，并对小样本数据进行数据扩增和平衡类别分布。同时，在离线端到端的训练阶段，在前5个迭代周期采取线性增加学习率至0.01，在后15个迭代周期采取指数下降学习率至0.005。

S104，在进行过端对端训练的目标跟踪算法模型中，初始化视频序列的第一帧以获取目标模板图像，在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像，并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征。

需要指出的是，初始化第一帧视频序列，以得到127×127×3目标模板图像和搜索区域图像。在下一帧中以前一帧目标中心位置截取287×287×3大小的搜索区域图像，并送入特征提取主干网络以获取各自的深度特征。此外，对不足尺寸则采用三通道均值进行填充。

S105，对目标模板图像和搜索区域图像的深度特征进行图匹配操作，以获得目标模板图像与搜索区域图像之间的相似性得分图。

需要特别指出的是，传统的交叉相关对目标模板和搜索区域图像进行匹配操作是一种线性过程，导致了空间语义信息丢失。然而，图注意力匹配(即图匹配操作)则充分挖掘非线性空间信息，意完成目标模板图像在搜索区域图像中的传播。

S106，利用所述分类子网络对相似性得分图进行前景与背景的区别，利用所述回归子网络对相似性得分图中预测框的角点进行调整，直至所述视频序列结束以确定最终的目标跟踪位置。

请参阅图2，本发明还提出一种基于Shuffle注意力的图匹配目标跟踪系统，其中，所述系统包括依次连接的第一构建模块、第二构建模块、第一训练模块、特征提取模块、得分计算模块以及目标跟踪模块；

第一构建模块，用于基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络，所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取；

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。