CN115619822A

CN115619822A - 一种基于对象级变换神经网络的跟踪方法

Info

Publication number: CN115619822A
Application number: CN202211113345.9A
Authority: CN
Inventors: 产思贤; 陶健; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-01-17

Abstract

一种基于对象级变换神经网络的跟踪方法，包括：1)根据给定的视频序列和第一帧的标注信息Box₁，获取待跟踪视频序列的跟踪模板Z和动态局部模板Z_dl；其中动态局部模板Z_dl由跟踪模板Z处理后获得，包含9个局部模板；2)根据上一帧的标注信息，获取待跟踪视频序列的搜索图片S_i；3)基于步骤1)和步骤2)将跟踪模板Z、动态局部模板Z_dl和搜索图片S_i作为对象级变换神经网络的输入，获取特征编码后的搜索图片特征X；4)基于步骤3)将编码后的搜索图片特征X作为角点预测网络的输入，获得当前帧中目标定位信息Box_i；5)通过动态局部模板更新策略更新局部模板。本发明将对象级的注意力设计为窗户注意力，从而有效地避免背景信息分散注意力。

Description

一种基于对象级变换神经网络的跟踪方法

技术领域

本申请属于图像处理技术领域，尤其涉及一种基于对象级变换神经网络的跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域的一项基本任务，其目标是基于初始人工标注来估计任意感兴趣目标的未来状态。因此，视觉目标跟踪已被广泛应用于自动驾驶、人机交互系统和智能监控。随着视觉变换神经网络的普及，视觉目标跟踪的跟踪性能得到了进一步的提高，但仍有许多挑战尚未克服，如剧烈变形、部分遮挡、复杂背景和尺度变化。

大多数基于孪生网络的跟踪器采用相关性方法计算模板和搜索区域之间的亲和力。这种计算过程容易受到局部最优问题的影响。最近，基于变换神经网络的跟踪器通过引入变换神经网络的自注意模块或交叉注意模块来提高视觉跟踪的性能。MixFormer和SBT进一步描述了单流单阶段的框架，它产生了更紧凑和整洁的跟踪范式。然而，这些范式的全局视角忽略了前景和背景之间的区别。大量的背景标记不可避免地导致注意力模块对对象的判别信息失去关注。OSTrack提出了早期消除模块，该模块通过早期获得的相似度评分的先验值来消除背景标记。SparseTT引入了一个稀疏变换神经网络，特征的每个令牌(token)分数仅由top-K令牌分数决定，以提高前景背景的辨别能力。

此外，测试阶段跟踪目标外观变化也是跟踪漂移的核心因素。解决这一问题需要一种有效的在线更新策略。然而，大多数更新策略引入数个完整的历史跟踪结果(与初始模板大小相同)来获时序信息。于是时序信息的丰富性与计算复杂度之间存在着内在的矛盾。

发明内容

本申请的目的是提供一种基于对象级变换神经网络的跟踪方法，在现有技术方案中引入对象级变换神经网络和动态局部模板更新策略，以克服上述背景技术中所提出的技术问题。

本发明包括以下步骤：

一种基于对象级变换神经网络的跟踪方法，通过构建的对象级变换神经网络进行目标跟踪，其特征在于包括以下步骤：

1)根据给定的视频序列和第一帧的标注信息Box₁，获取待跟踪视频序列的跟踪模板Z和动态局部模板Z_dl；其中动态局部模板Z_dl由跟踪模板Z处理后获得，包含9个局部模板；

2)根据上一帧的标注信息，获取待跟踪视频序列的搜索图片S_i；

3)基于步骤1)和步骤2)将跟踪模板Z、动态局部模板Z_dl和搜索图片S_i作为对象级变换神经网络的输入，获取特征编码后的搜索图片特征X；

4)基于步骤3)将编码后的搜索图片特征X作为角点预测网络的输入，获得当前帧中目标定位信息Box_i；

5)通过动态局部模板更新策略更新局部模板；根据步骤4)预测的Box_i，使用与步骤1)一样的方式获取当前动态局部模板Z_dli。同时，根据Box_i通过PrRoIPooling获取对应Z_dli中9个局部模板的特征向量，并输入到质量评估网络获取可靠性评分；根据得到的可靠性评分和动态局部模板Z_dli，对历史动态局部模板Z_dl进行更新，确保后续跟踪的稳定性和精确性。

注意，整个跟踪过程步骤1)仅在第一帧实现，步骤2)到5)不断循环直至跟踪结束。

在步骤1)中所述获取待跟踪视频序列的跟踪模板Z和动态局部模板Z_dl，包括以下子步骤：

(11)将人为标注的跟踪目标包围框信息放大预设第一倍数，从待根据视频序列第一帧图片中裁剪出跟踪模板Z；

(12)复制一份跟踪模板Z，以滑动窗口的方式分割出九块局部模板Z_dl；其中滑动窗口宽高为跟踪模板大小的二分之一，步长为跟踪模板大小的四分之一。

在步骤2)中所述获取待跟踪视频序列的搜索图片S_i，具体方法为：

将上一帧的跟踪结果信息Box_i-1放大预设第二倍数，从当前待处理的帧中裁剪出搜索图片。

在步骤3)中，所述获取对象级变换神经网络，包括以下子步骤：

(31)跟踪模板

动态局部模板

与搜索特征

拼接在一起作为对象变换神经网络的输入

(32)将输入X进行拆分和变形后通过全卷积嵌入层进行下采样；

(33)将下采样后的特征进行特征编码；

(34)对象级变换神经网络采用分层的多阶段架构，分为三个阶段，每个阶段之前通过全卷积嵌入层对特征进行下采样。在每个阶段，重复执行相同的操作数次，编码输入特征中的目标判别性信息，其中第一阶段和第二阶段重复一次，第三阶段重复九次。

(35)特征编码部分包含级联的对象级注意力和通道注意力；其中对象级注意力采用迭代二分聚类算法将输入

经过k个迭代后划分为2k个对象簇。在第每次迭代，随机初始化两个簇中心

和

公式如下：

其中

表示输入X中的某一个向量，m＝N/2。然后将簇中心移动两次保证可靠性，采用如下操作：

[c₁；c₂]＝Softmax([c₁；c₂]X^T)X (2)

其中

表示两个簇中心的拼接，T表示转置。然后计算余弦距离率r如下：

其中D(a，b)表示计算a和b之间的余弦距离。最后，对余弦距离率进行排序，将输入X划分为两个簇，具体公式如下：

其中

和

表示两个划分后的簇，argsort表示获取排序后的下标。k个迭代后，我们将特征序列

进行空间注意力编码，具体方法如下：

其中

由

经过线性层后生成。h表示计算过程中头的数量，d＝C/h，T表示转置。最终，获得经过对象级注意力编码后的特征

通道注意力将对象级注意力编码后的特征

进行编码，具体公式如下：

其中

由X_SA经过线性层后生成。h表示计算过程中头的数量，d＝C/h，T表示转置。最终，获得经过通道注意力编码后的特征

在步骤5)中，所述动态局部模板更新策略，包括以下子步骤：

(51)根据步骤1)，获取新的动态局部模板；

(52)利用PrRoIPooling从抽取对应的九个特征向量

将X_roi和跟踪模板特征

作为可靠性评分计算过程的输入；

(53)质量评估网络具体公式如下：

S_roi＝σ(W₁R_roi) (8)

其中

表示可靠性评分。

由X_roi经过全连接层生成，

由X_Z经过全连接层生成。W₁全连接层操作，σ表示激活函数ReLU，T表示转置。

(54)为了避免引入过多跟踪目标的中间局部模板，仅再对应位置进行局部模板更新，具体如下：

其中，argsort表示获取排序后的下标，topk表示选择前k个，

和

分别表示历史的和当前的动态局部模板。

(55)每20帧更新一次动态局部模板。

本发明的优点是：引入对象级注意力以捕获相似对象之间的微小差异进行跟踪；首先，通过聚类相似的对象向量，将对象级注意力设计为窗口注意力，有效地避免了外部背景信息的干扰；其次，设计了一种新的动态局部模板更新策略为视觉目标跟踪引入时序信息，实现了时间信息丰富度与计算量之间的权衡；动态局部模板更新策略维护九个局部模板，这些模板独立采样自历史跟踪结果。

附图说明

图1为本申请基于对象级变换神经网络的跟踪方法流程图。

图2为本申请对象级变换神经网络结构示意图。

图3为本申请质量评估网络结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提出了一种基于对象级变换神经网络的跟踪方法，包括：

步骤S1、获取待跟踪视频序列的跟踪模板和动态局部模板。

对于需要进行目标跟踪的视频序列，本实施例首先获取其跟踪模板Z。具体的，将人为标注的跟踪目标包围框信息Box₁放大预设第一倍数，从待根据视频序列第一帧图片I₁中裁剪出跟踪模板Z。

例如将包围框信息Box₁放大2倍，然后第一帧图片I₁中裁剪出跟踪模版Z，包围框信息Box₁包括跟踪目标包围框的左上角坐标和右下角坐标。

在获取到跟踪模板Z之后，本实例初始化其动态局部模板Z_dl。具体的，设计一个步长为Z大小四分之一，大小为Z二分之一的滑动窗口对Z进行切分，获取包含九个局部模板的动态局部模板Z_dl。

例如Z₁的宽高分别为W_Z和H_Z，则滑动窗口的步长为

和

窗口大小为

和

最终得到九个局部模板，大小为

和

步骤S2、从待跟踪视频序列中获取当前搜索图片。

本实例将上一帧的跟踪结果信息放大预设第二倍数，从当前待处理的帧中裁剪出搜索图片。

例如，根据上一帧的跟踪结果Box_i-1，对输入的图片I_i，i∈[2，n]，根据上一帧的跟踪结果的包围框信息，放大5倍然后裁剪出搜索图片S_i。同理上一帧的跟踪结果Box_i-1，包括跟踪目标包围框的左上角坐标和右下角坐标。

步骤S3、将目标模板、动态局部模板和搜索图片输入对象级变换神经网络，编码跟踪目标的判别性特征，辅助预测目标位置Box_i。

对象级变换神经网络采用分层的多阶段架构，分为三个阶段，每个阶段之前通过全卷积嵌入层对特征进行下采样。在每个阶段，会对输入特征进行数次对象注意力编码和通道注意力编码，其中第一阶段和第二阶段重复一次，第三阶段重复九次。

第一阶段，将目标模板

动态局部模板

与搜索特征

各自经过一个共享的全卷积嵌入层进行下采样获得跟踪模板特征

动态局部模板特征

与搜索特征

并拼接在一起作为输入

编码对象信息。

需要说明的是，

通常用来表示特征的尺寸，C表示通道数，H表示高度，W表示宽度，B表示输入的批处理大小。编码对象信息的过程中采用对象级注意力和通道注意力编码判别性信息。

对象级注意力编码过程首先通过迭代二分聚类算法将输入

和

公式如下：

其中

[c₁；c₂]＝Softmax([c₁；c₂]X^T)X (2)

其中

其中

和

进行一般的空间注意力计算，具体方法如下：

其中

由

经过线性层后生成。h表示注意力计算中头的数量，d＝C/h，T表示转置。最终，获得经过对象级注意力编码后的特征

通道注意力编码过程将对象级注意力编码后的特征

继续通道注意力编码，具体公式如下：

其中

由X_SA经过线性层后生成。h表示注意力计算中头的数量，d＝C/h，T表示转置。最终，获得经过对象级注意力编码后的特征

需要注意的是该阶段特征编码重复一次。

第二阶段，将第一阶段编码后的的特征

进行拆分变形后再次输入共享的全卷积嵌入层进行下采样，获得跟踪模板特征

动态局部模板特征

与搜索特征

并拼接在一起作为输入

再一次进行特征编码。需要注意的是该阶段仅包含一次特征编码计算。

第三阶段，将第二阶段编码后的的特征

动态局部模板特征

与搜索特征

并拼接在一起作为输入

进行特征编码。需要注意的是该阶段重复九次特征编码计算。

步骤S4、将步骤3输出的特征

拆分为跟踪模板特征

动态局部模板特征

与搜索特征

对

进行降维预测跟踪目标的角点，获得跟踪目标的包围框信息。

本步骤将搜索特征

变形为一个新的特征图

方便后续的角点预测，该过程需要经过3层全连接层(FCN)，并且通过soft-argmax归一化，F通过三层全连接层得到预测结果的左上角和右下角的概率分布P_tl(x，y)和P_br(x，y)，然后分别经过soft-argmax函数，得到包围框的左上角和右下角的坐标

其中，

表示：预测包围框的左上角坐标；

表示：预测包围框的左上角坐标；P_tl(x，y)表示：预测包围框左上角坐标的概率分布；P_br(x，y)表示：预测包围框右下角坐标的概率分布。

根据概率分布的期望值得到预测结果左上角和右下角的坐标，然后获得包围框结果，最终获得跟踪结果Box_i。

步骤S5、根据预测的跟踪结果Box_i，利用PrRoIPooling从

中抽取对应的九个特征向量

将X_roi和跟踪模板特征

作为输入，通过交叉注意力获得每个局部模板的可靠性评分。同时从第i帧中裁切获得新的动态局部模板

通过对比可靠性评分，对动态局部模板进行更新。

本步骤将将X_roi和跟踪模板特征

作为输入获得每个局部模板的可靠性评分，具体公式如下：

S_roi＝σ(W₁R_roi) (8)

其中

表示可靠性评分。

由X_roi经过全连接层生成，

由

经过全连接层生成。W₁全连接层操作，σ表示激活函数ReLU，T表示转置。然后，每20帧更新一次动态局部模板。为了避免引入过多跟踪目标的中间局部模板，仅再对应位置进行局部模板更新，具体如下：

其中，argsort表示获取排序后的下标，topk表示选择前k个，

和

分别表示历史的和当前的动态局部模板

和

对于如图2所示的整个深度学习模型，需要进行两阶段训练后才能够进行实际的应用，训练过程如下：

第一阶段，对训练数据集进行预处理，选取视频序列中间隔为T的两帧，根据标注信息，依照裁切模板图片和搜索图片到128×128和320×320尺寸，动态局部模板包含九块尺寸为64×64的局部模板；

将预处理后的训练数据集输入到深度学习模型，进行训练，训练中计算联合损失，进行反向传播，更新模型参数，完成训练。

联合损失采用如下公式表示：

其中，L_iou表示交并比损失，用来衡量真值与预测值的距离，L₁表示平均绝对误差损失，λ_iou、

表示对应损失函数的权重，例如分别是5和2，b_i和

表示真值和预测的包围框。

训练过程中，批处理大小为80，学习率从0.0001下降到0.00001，使用AdamW算法迭代训练500次并保存每次迭代结果，后100次迭代以整体网络学习率的十分之一开始训练。需要注意的是该阶段仅对变换神经网络的参数进行微调

第二阶段，对质量评估网络的参数进行微调。对训练数据集进行预处理，选取视频序列中间隔为T的两帧，根据标注信息，依照裁切模板图片和搜索图片到128×128和320×320尺寸，动态局部模板包含九块尺寸为64×64的局部模板；

将预处理后的训练数据集输入到深度学习模型，进行训练，训练中计算交叉熵损失，进行反向传播，更新模型参数，完成训练。

交叉熵损失采用如下公式表示：

其中，y_i表示真值，存在跟踪目标为1，不存在为0。p_i表示最终预测的可靠性分数。

训练过程中，批处理大小为256，学习率从0.0001下降到0.00001，使用AdamW算法迭代训练40次并保存每次迭代结果，后10次迭代以整体网络学习率的十分之一开始训练。需要注意的是该阶段仅微调质量评估网络的参数，变换神经网络的参数全程被冻结。

本发明通过利用对象级变换神经网络编码跟踪模板、动态局部模板和搜索图片中具有判别性的目标信息，聚类相似的对象令牌，将对象级的注意力设计为窗户注意力，从而有效地避免背景信息分散注意力。其次，通过设计一种新的动态局部模板更新策略，为单目标跟踪引入时序信息，实现了时间信息丰富和计算负担之间的权衡。动态局部模板更新策略维护了九个局部模板，这些模板是在测试过程中独立进行采样的。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于对象级变换神经网络的跟踪方法，通过构建的对象级变换神经网络进行目标跟踪，其特征在于：包括以下步骤：

5)通过动态局部模板更新策略更新局部模板；根据步骤4)预测的Box_i，使用与步骤1)一样的方式获取当前动态局部模板Z_dli；同时，根据Box_i通过PrRoIPooling获取对应Z_dli中9个局部模板的特征向量，并输入到质量评估网络获取可靠性评分；根据得到的可靠性评分和动态局部模板Z_dli，对历史动态局部模板Z_dl中评分低的部分进行替换。

2.根据权利要求1所述的基于对象级变换神经网络的跟踪方法，其特征在于：步骤1)所述的获取待跟踪视频序列的跟踪模板Z和动态局部模板Z_dl，包括以下子步骤：

3.根据权利要求1所述的基于对象级变换神经网络的跟踪方法，其特征在于：步骤2)所述的获取待跟踪视频序列的搜索图片S_i，具体方法为：

4.根据权利要求1所述的基于对象级变换神经网络的跟踪方法，其特征在于：步骤3)所述的获取对象级变换神经网络，包括以下子步骤：

(31)跟踪模板