CN114399533B

CN114399533B - 一种基于多层次注意力机制的单目标追踪方法

Info

Publication number: CN114399533B
Application number: CN202210047253.9A
Authority: CN
Inventors: 阳春华; 安栋; 赵于前; 张帆; 张俊
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2024-04-16
Anticipated expiration: 2042-01-17
Also published as: CN114399533A

Abstract

本发明公开了一种基于多层次注意力机制的单目标追踪方法，其实施方案为：(1)获取数据集与追踪标签；(2)选取并裁剪追踪样本；(3)提取、展平、拼接样本图像特征图；(4)构建多层次注意力网络；(5)构建特征增强模块；(6)构建目标预测网络；(7)获取追踪模型；(7)构建损失函数；(8)训练追踪模型；(9)单目标追踪。本发明构建的追踪模型，利用多层次注意力网络对搜索区域和模板的图像特征进行全局的相关性建模，产生多层的注意力特征；利用特征增强模块对多层注意力特征进行融合，获得目标的最终预测结果。该模型能够解决当追踪目标发生大的形变时难以追踪的问题，并可有效提高单目标追踪的准确率和鲁棒性。

Description

一种基于多层次注意力机制的单目标追踪方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于多层次注意力机制的单目标追踪方法。

背景技术

单目标追踪是指在连续的视频帧序列中，建立所追踪目标的位置关系，得到目标完整的运动轨迹。一般来说，单目标追踪的基本问题可以概括为：在一个视频的初始帧中给定待追踪的目标后，在后续的视频帧中，使得计算机能够准确而持续地追踪到目标所在位置。单目标追踪在行为理解、视频监控、自动驾驶和机器人技术等领域具有重要应用价值。例如，在行为理解领域中，通过对某一目标连续的追踪来分析其行为的意义；在视频监控领域中，通过对目标的连续追踪来持续捕获目标的动作和移动方向，实现对目标监控的目的。

传统的单目标追踪方法包括MOSSE法、CSK法、DSST法和STRCF法等，这些方法由于追踪精度低、模型丰富性被限制等缺点已逐渐被基于深度学习方法所取代。现有基于深度学习的单目标追踪模型大多建立在卷积神经网络上，利用卷积神经网络的图像特征提取能力对目标特征点之间的相互关系进行建模。由于卷积神经网络中卷积核有限的感受野，基于卷积神经网络的追踪模型无法有效建立图像长距离特征之间的相互关系，因此，当追踪目标发生大的形变时，基于卷积神经网络的单目标追踪方法不能有效捕获目标所有特征点之间的相关性，无法得到精确的追踪结果。

发明内容

本发明的目的在于克服现有基于卷积神经网络的单目标追踪方法的不足，提出一种基于多层次注意力机制的单目标追踪方法，该方法利用多层次注意力网络对搜索区域和模板的图像特征进行全局的相关性建模，产生多层的注意力特征；利用特征增强模块对多层注意力特征进行融合；利用目标预测网络获得对目标的预测结果。

为实现上述目的，本发明提供以下技术方案：

一种基于多层次注意力机制的单目标追踪方法，包括以下步骤：

(1)获取数据集与追踪标签：

从单目标追踪公开数据集中获取追踪视频的帧序列与对应的追踪标签；

(2)选取并裁剪追踪样本，具体包括以下步骤：

(2-a)读取步骤(1)获取的追踪视频帧序列，将第一帧作为初始模板帧，从第二帧开始逐帧读取，并将之作为搜索帧；在初始模板帧和搜索帧之间选取一帧作为动态模板帧，选取方式为：

其中，表示动态模板帧的相对位置，n_S代表搜索帧的相对位置，N为动态模板帧的更新间隔，N为正整数，且取值范围为[1,300]，符号/>表示向下取整；

(2-b)将初始模板帧、动态模板帧和搜索帧分别裁剪到H_T2×W_T2和H_S×W_S像素大小，并将它们分别作为初始模板、动态模板和搜索区域，其中H_i和W_i(i＝T₁,T₂,S)分别代表高度和宽度，且H_i和W_i(i＝T₁,T₂,S)都为正整数，取值范围为[50,500]；

(3)提取、展平、拼接样本图像特征图，具体包括以下步骤：

(3-a)利用卷积神经网络提取步骤(2)获得的初始模板、动态模板和搜索区域的图像特征，分别得到特征图和/>其中R代表实数，k代表模板和搜索区域经过图像特征提取后尺寸缩小的倍数，k取正整数，且k的取值范围为[2,64]；C代表得到的特征图的通道数，C取正整数，且C的取值范围为[2,2048]；

(3-b)展平并拼接特征图和f_S，得到特征序列/>其中特征序列f_α的长度X_α由特征图/>和f_S的高和宽计算得到，X_α的定义如下：

(4)构建多层次注意力网络，具体包括以下步骤：

(4-a)构建自注意力模块，该模块一共包含n组相同的自注意力层，自注意力层由一个多头注意力模块，两个残差与批归一化模块，一个前馈模块组成；步骤(3-b)得到的特征序列f_α依次经过这n组自注意力层，分别得到自注意力特征矩阵Sⁱ，i＝1,2,…,n；

(4-b)构建自增强模块，该模块一共包含n组相同的自增强层，自增强层由一个多头注意力模块，一个残差与批归一化模块组成；

(4-c)构建相互注意力模块，该模块一共包含n组相同的相互注意力层，相互注意力层与(4-a)所述自注意力层在结构上完全一致；

(4-d)构建随机初始化矩阵q∈R^1×C，其中R代表实数，C与步骤(3-a)中特征图的通道数相同；

(4-e)将随机初始化矩阵q输入到步骤(4-b)构建的第一组自增强层，得到注意力特征矩阵E¹，将E¹与步骤(4-a)中得到的自注意力特征矩阵S¹输入到步骤(4-c)构建的第一组相互注意力层，得到相互注意力特征矩阵M¹；将M¹输入到步骤(4-b)构建的第二组自增强层，得到注意力特征矩阵E²，将E²与步骤(4-a)中得到的自注意力特征矩阵S²输入到步骤(4-c)构建的第二组相互注意力层，得到相互注意力特征矩阵M²；以此类推，直到得到最后一个相互注意力特征矩阵Mⁿ；

(5)构建特征增强模块，具体包括以下步骤：

(5-a)利用sigmoid激活函数将步骤(4-a)得到的自注意力特征矩阵S¹内部特征值映射为0到1分布，并与步骤(4-a)得到的自注意力特征矩阵Sⁿ逐像素相乘，得到自注意力特征增强矩阵H，H的计算公式如下：

其中表示逐像素相乘操作；

(5-b)将步骤(5-a)得到的自注意力特征增强矩阵H和步骤(4-e)中得到的相互注意力特征矩阵Mⁿ逐列数乘，获得H和Mⁿ之间的相似性关联矩阵D，逐列数乘的操作定义如下：

其中⊙表示逐列数乘操作，C与步骤(3-a)中特征图的通道数相同，X_α与步骤(3-b)中特征序列f_α的长度相同；再将H与D逐像素相乘，得到目标特征描述矩阵T，T的计算公式如下：

(6)构建目标预测网络：

构建目标预测网络，该网络一共包含五组结构相同的卷积块，将步骤(5-b)得到的目标特征描述矩阵T依次经过这五组卷积块，得到目标矩形框的左上角、左下角、右上角和右下角的坐标和/>该矩形框所在区域即为最终目标的预测结果；

(7)获取追踪模型：

结合步骤(4)构建的多层次注意力网络、步骤(5)构建的特征增强模块和步骤(6)构建的目标预测网络，获得最终的追踪模型；

(8)构建损失函数：

根据单目标追踪的任务特点构建基于平均绝对误差损失与广义交并比损失的损失函数L_mix，定义如下：

其中L₁表示平均绝对误差损失，L_Giou表示广义交并比损失，和λ_Giou为平衡L₁和L_Giou的超参数，/>和λ_Giou为正实数，且取值范围为[1，20]；x_tl，x_bl，x_tr和x_br分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的x值，y_tl，y_bl，y_tr和y_br分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的y值，A表示预测目标矩形框的面积，B表示标签矩形框的面积，Z表示包围预测目标矩形框和标签矩形框的最小矩形面积；

(9)训练追踪模型：

利用步骤(3)得到的特征序列f_α训练步骤(7)构建完成的追踪模型，根据步骤(8)构建的损失函数得到损失值，并使用随机梯度下降法更新追踪模型内的参数，直到损失函数的损失值不再下降，得到训练好的追踪模型；

(10)单目标追踪：

获取单目标追踪视频的帧序列，首先按照步骤(2)选取并裁剪追踪样本，再按照步骤(3)分别提取、展平、拼接样本图像特征图，得到特征序列，将特征序列输入到步骤(9)得到的训练好的追踪模型，输出目标追踪结果。

步骤(1)中的单目标追踪公开数据集包括：数据集GOT-10K，LaSOT，TrackingNet和COCO2017。

步骤(4)构建的自注意力层、自增强层和相互注意力层内部的多头注意力模块，其作用是计算输入特征矩阵中的各特征之间的注意力权重，输出注意力特征矩阵，计算过程为：

MultiHead(Q,K,V)＝Concat(G₁,…,G_j,…,G_t)P^O

其中，MultiHead(Q,K,V)表示输出的注意力特征矩阵，Concat表示拼接操作，softmax(·)表示激活函数，Q、K和V由输入多头注意力模块的特征矩阵构成，对于自注意力层和自增强层内部的多头注意力模块，Q＝K＝V＝F，其中F表示输入的特征矩阵；对于相互注意力层内部的多头注意力模块，Q＝E，K＝V＝S，其中E代表自增强层的输出，S代表自注意力层的输出；t表示多头注意力模块中注意力头的个数，t为正整数，且取值范围为[1,16]；G_j表示第j个注意力头得到的注意力特征矩阵，j＝1,2,…,t；分别表示第j个注意力头的Q、K和V参数矩阵，P^O表示调整最终输出的参数矩阵；/>和P^O都是通过步骤(9)训练追踪模型时得到的；T表示转置操作符，d是超参数，用于保证softmax激活函数的性能，d为正实数，且取值范围为[1,1000]。

步骤(4-a)和(4-c)构造的自注意力层和相互注意力层内部的前馈模块为前馈神经网络。

步骤(6)中的卷积块包括一个卷积层，一个批归一化层与一个Relu激活层。

步骤(4)中的n为正整数，其取值范围为[1,20]。

本发明与现有技术相比，有以下优点：

(1)本发明利用多层自注意力模块对搜索区域和模板的图像特征进行全局的相关性建模，产生多层的注意力特征，利用相互注意力模块与每一层的注意力特征进行交互，获得追踪目标的空间位置，该方法能够提高当目标发生大的形变时的追踪精度。

(2)本发明利用特征增强模块融合多层次注意力网络中自注意力模块和相互注意力模块的注意力特征，丰富了追踪目标外观的特征描述，能够实现更准确的目标追踪，且鲁棒性好。

附图说明

图1本发明实施方式的一种基于多层次注意力机制的单目标追踪方法流程图；

图2本发明实施方式的多层次注意力网络结构图；

图3本发明实施方式的自注意力层结构图；

图4本发明实施方式的自增强层结构图；

图5本发明实施方式的相互注意力层结构图；

图6本发明实施方式的特征增强模块结构图；

图7本发明实施方式的追踪结果与其他方法追踪结果对比图。

具体实施方式

下面说明本发明具体实施方式：

实施例1

图1所示为本发明实施方式的一种基于多层次注意力机制的单目标追踪方法流程图，具体步骤如下：

步骤1，获取数据集与追踪标签。

从单目标追踪公开数据集GOT-10K，LaSOT，TrackingNet和COCO2017中获取追踪视频的帧序列与对应的追踪标签。

步骤2，选取并裁剪追踪样本。

其中，表示动态模板帧的相对位置，n_S代表搜索帧的相对位置，N为动态模板帧的更新间隔，本实例优选N为200，符号/>表示向下取整；

(2-b)将初始模板帧、动态模板帧和搜索帧分别裁剪到128×128、128×128和320×320像素大小，并将它们分别作为初始模板、动态模板和搜索区域。

步骤3，提取、展平、拼接样本图像特征图。

(3-a)利用卷积神经网络ResNet50提取步骤(2)获得的初始模板、动态模板和搜索区域的图像特征，分别得到特征图和/>其中R代表实数，k代表模板和搜索区域经过图像特征提取后尺寸缩小的倍数，且k＝16，C代表得到的特征图的通道数，且C＝256。卷积神经网络也可以取GoogLeNet，此时k＝8，C＝480；或者取MobileNet，此时k＝16，C＝256；或者取ShuffleNet，此时k＝16，C＝480；或者取VGGNet，此时k＝16，C＝512。

(3-b)展平并拼接特征图和f_S，得到通道数为256的特征序列其中特征序列f_α的长度X_α计算过程如下：

则f_α∈R^528×256。

步骤4，构建多层次注意力网络。

图2所示为本发明实施方式的多层次注意力网络结构图，优选图中n为6，具体步骤如下：

(4-a)构建自注意力模块，该模块一共包含6组相同的自注意力层，图3所示为本发明实施方式的自注意力层结构图，自注意力层由一个多头注意力模块，两个残差与批归一化模块，一个前馈模块组成，前馈模块为前馈神经网络；步骤(3-b)得到的特征序列f_α依次经过这6组自注意力层，分别得到大小为528×256的自注意力特征矩阵S¹、S²、S³、S⁴、S⁵、S⁶。

(4-b)构建自增强模块，该模块一共包含6组相同的自增强层，图4所示为本发明实施方式的自增强层结构图，自增强层由一个多头注意力模块，一个残差与批归一化模块组成；

(4-c)构建相互注意力模块，该模块一共包含6组相同的相互注意力层，图5所示为本发明实施方式的相互注意力层结构图，相互注意力层与(4-a)所述自注意力层在结构上完全一致；

自注意力层、自增强层和相互注意力层内部的多头注意力模块，其作用是计算输入特征矩阵中的各特征之间的注意力权重，输出注意力特征矩阵，计算过程为：

MultiHead(Q,K,V)＝Concat(G₁,…,G_j,…,G_t)P^O

其中，MultiHead(Q,K,V)表示输出的注意力特征矩阵，Concat表示拼接操作，softmax(·)表示激活函数，Q、K和V由输入多头注意力模块的特征矩阵构成，对于自注意力层和自增强层内部的多头注意力模块，Q＝K＝V＝F，其中F表示输入的特征矩阵；对于相互注意力层内部的多头注意力模块，Q＝E，K＝V＝S，其中E代表自增强层的输出，S代表自注意力层的输出；t表示多头注意力模块中注意力头的个数，本实例优选t为8；G_j表示第j个注意力头得到的注意力特征矩阵，j＝1,2,…,t；分别表示第j个注意力头的Q、K和V参数矩阵，P^O表示调整最终输出的参数矩阵；/>和P^O都是通过步骤(9)训练追踪模型时得到的；T表示转置操作符，d是超参数，用于保证softmax激活函数的性能，本实例优选d为32。

(4-d)构建随机初始化矩阵q∈R^1×256，其中R代表实数。

(4-e)将随机初始化矩阵q输入到步骤(4-b)构建的第一组自增强层，得到大小为1×256的注意力特征矩阵E¹，将E¹与步骤(4-a)中得到的自注意力特征矩阵S¹输入到步骤(4-c)构建的第一组相互注意力层，得到大小为1×256的相互注意力特征矩阵M¹；将M¹输入到步骤(4-b)构建的第二组自增强层，得到大小为1×256的注意力特征矩阵E²，将E²与步骤(4-a)中得到的自注意力特征矩阵S²输入到步骤(4-c)构建的第二组相互注意力层，得到大小为1×256的相互注意力特征矩阵M²；将M²输入到步骤(4-b)构建的第三组自增强层，得到大小为1×256的注意力特征矩阵E³，将E³与步骤(4-a)中得到的自注意力特征矩阵S³输入到步骤(4-c)构建的第三组相互注意力层，得到大小为1×256的相互注意力特征矩阵M³；将M³输入到步骤(4-b)构建的第四组自增强层，得到大小为1×256的注意力特征矩阵E⁴，将E⁴与步骤(4-a)中得到的自注意力特征矩阵S⁴输入到步骤(4-c)构建的第四组相互注意力层，得到大小为1×256的相互注意力特征矩阵M⁴；将M⁴输入到步骤(4-b)构建的第五组自增强层，得到大小为1×256的注意力特征矩阵E⁵，将E⁵与步骤(4-a)中得到的自注意力特征矩阵S⁵输入到步骤(4-c)构建的第五组相互注意力层，得到大小为1×256的相互注意力特征矩阵M⁵；将M⁵输入到步骤(4-b)构建的第六组自增强层，得到大小为1×256的注意力特征矩阵E⁶，将E⁶与步骤(4-a)中得到的自注意力特征矩阵S⁶输入到步骤(4-c)构建的第六组相互注意力层，得到大小为1×256的相互注意力特征矩阵M⁶。

步骤5，构建特征增强模块。

图6所示为本发明实施方式的特征增强模块结构图，图中的n与步骤4中n的优选值相同，等于6，具体包括以下步骤：

(5-a)利用sigmoid激活函数将步骤(4-a)得到的自注意力特征矩阵S¹内部特征值映射为0到1分布，并与步骤(4-a)得到的自注意力特征矩阵S⁶逐像素相乘，得到大小为528×256的自注意力特征增强矩阵H，H的计算公式如下：

其中表示逐像素相乘操作；

(5-b)将步骤(5-a)得到的自注意力特征增强矩阵H和步骤(4-e)中得到的相互注意力特征矩阵M⁶逐列数乘，获得H和M⁶之间的相似性关联矩阵D，D的大小为528×256，逐列数乘的操作定义如下：

其中⊙表示逐列数乘操作；再将H与D逐像素相乘，得到目标特征描述矩阵T，T的计算公式如下：

步骤6，构建目标预测网络。

构建目标预测网络，该网络一共包含五组结构相同的卷积块，其中，每组卷积块包括一个卷积层，一个批归一化层与一个Relu激活层，将步骤(5-b)得到的目标特征描述矩阵T依次经过这五组卷积块，得到目标矩形框的左上角、左下角、右上角和右下角的坐标和/>该矩形框所在区域即为最终目标的预测结果。

步骤7，获取追踪模型。

结合步骤(4)构建的多层次注意力网络、步骤(5)构建的特征增强模块和步骤(6)构建的目标预测网络，获得最终的追踪模型。

步骤8，构建损失函数。

其中L₁表示平均绝对误差损失，L_Giou表示广义交并比损失，和λ_Giou为平衡L₁和L_Giou的超参数，本实施例分别优选/>和λ_Giou为5和2；x_tl，x_bl，x_tr和x_br分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的x值，y_tl，y_bl，y_tr和y_br分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的y值，A表示预测目标矩形框的面积，B表示标签矩形框的面积，Z表示包围预测目标矩形框和标签矩形框的最小矩形面积。

步骤9，训练追踪模型。

利用步骤(3)得到的特征序列f_α训练步骤(7)构建完成的追踪模型，根据步骤(8)构建的损失函数得到损失值，并使用随机梯度下降法更新追踪模型内的参数，直到损失函数的损失值不再下降，得到训练好的追踪模型。

步骤10，单目标追踪。

实施例2

采用实施例1中的方法在测试集GOT-10K、LaSOT和TrackingNet上进行单目标追踪实验。本实验基于CUDA10.0和cuDNN7.6.4的Pytorch1.5.1框架实现，使用搭载了NVIDIAGeForce RTX 2080Ti(11GB)硬件的Linux服务器训练并测试。

本实施例对TrDiMP、TrSiam、Ocean、KYS、DCFST、SiamFC++、PrDiMP50、CGACD、SiamAttn、MAML、D3S、SiamCAR、DiMP50、SiamPRN++和ATOM十五个单目标追踪模型与本发明方法在测试集上进行对比。对于测试集GOT-10K，选取重叠面积比(AO)和成功率(SR)作为测试指标，AO表示预测目标矩形框与标签矩形框的重叠面积占标签矩形框面积的百分比；SR选取SR_0.5和SR_0.75，分别表示AO超过50％和75％的帧数占总帧数的百分比。对于测试集LaSOT和TrackingNet，选取成功度(SC)、精确度(PS)和归一化精确度(PS_Norm)作为测试指标，SC表示预测目标矩形框与标签矩形框的交并比(IoU)，PS表示预测目标矩形框中心与标签矩形框中心距离小于20像素的帧数占总帧数的百分比，PS_Norm的计算公式如下：

其中，U_all表示总帧数，表示L小于/>的帧数，L的计算公式如下：

其中，和/>分别表示预测目标矩形框中心点坐标的x值和y值，x_c和y_c分别表示标签矩形框中心点坐标的x值和y值，wd和hg分别表示标签矩形框的宽度和高度。

对比结果如表1所示，可以发现，使用本发明对单目标追踪的结果相较于其他方法的追踪结果更为准确。

图7所示为本发明实施方式的追踪结果与其他方法追踪结果对比图。图7中第一、二、三行分别为追踪目标发生大的形变、环境光线明暗变化、背景干扰的情况。可以看出，本发明方法相较于PrDiMP50、DCFST、DiMP50、KYS、ATOM模型，对目标的追踪更加准确。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围之内。

表1

(注：表中数值均为百分数，单位为％，符号“-”表示其他方法的所有者未公布对应的测试结果)。

Claims

1.一种基于多层次注意力机制的单目标追踪方法，其特征在于包括以下步骤：

(1)获取数据集与追踪标签：

(2)选取并裁剪追踪样本，具体包括以下步骤：

(3)提取、展平、拼接样本图像特征图，具体包括以下步骤：

(4)构建多层次注意力网络，具体包括以下步骤：

(4-e)将随机初始化矩阵q输入到步骤(4-b)构建的第一组自增强层，得到注意力特征矩阵E¹，将E¹与步骤(4-a)中得到的自注意力特征矩阵S¹输入到步骤(4-c)构建的第一组相互注意力层，得到相互注意力特征矩阵M¹；将M¹输入到步骤(4-b)构建的第二组自增强层，得到注意力特征矩阵E²，将E²与步骤(4-a)中得到的自注意力特征矩阵S²输入到步骤(4-c)构建的第二组相互注意力层，得到相互注意力特征矩阵M²；依此类推，直到得到最后一个相互注意力特征矩阵Mⁿ；

(5)构建特征增强模块，具体包括以下步骤：

其中表示逐像素相乘操作；

(6)构建目标预测网络：

(7)获取追踪模型：

(8)构建损失函数：

(9)训练追踪模型：

(10)单目标追踪：

2.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法，其特征在于，所述步骤(1)中，单目标追踪公开数据集包括：数据集GOT-10K，LaSOT，TrackingNet和COCO2017。

3.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法，其特征在于，步骤(4)构建的自注意力层、自增强层和相互注意力层内部的多头注意力模块，其作用是计算输入特征矩阵中的各特征之间的注意力权重，输出注意力特征矩阵，计算过程为：

MultiHead(Q,K,V)＝Concat(G₁,…,G_j,…,G_t)P^O

4.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法，其特征在于，步骤(4-a)和(4-c)构造的自注意力层和相互注意力层内部的前馈模块为前馈神经网络。

5.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法，其特征在于，步骤(6)中的卷积块包括一个卷积层，一个批归一化层与一个Relu激活层。

6.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法，其特征在于，步骤(4)中的n为正整数，其取值范围为[1,20]。