CN116342648A

CN116342648A - 基于混合结构注意力引导的孪生网络目标跟踪方法

Info

Publication number: CN116342648A
Application number: CN202310196504.4A
Authority: CN
Inventors: 路文; 朱振杰; 田高; 徐浩然; 郑永; 张立泽
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-27

Abstract

本发明基于混合结构注意力引导的孪生网络目标跟踪方法，具体为：将目标跟踪数据集划分为训练集和测试集，再对数据集进行预处理；构建混合结构注意力特征融合模块；构建基于混合结构注意力引导的孪生网络目标跟踪算法模型；利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练，得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型；将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理，得到每个测试样本的跟踪结果。本发明方法解决了现有目标跟踪方法精度低的问题。

Description

基于混合结构注意力引导的孪生网络目标跟踪方法

技术领域

本发明属于目标跟踪方法技术领域，具体涉及基于混合结构注意力引导的孪生网络目标跟踪方法。

背景技术

目标跟踪是在机器人视觉、视频监控、导弹制导和无人驾驶等领域有广泛应用的技术。为了实现高精度、稳健的目标跟踪，需要设计有效的目标跟踪算法。在真实场景中对目标进行跟踪时，会面临目标形变、目标被遮挡、相似目标干扰等多种挑战因素，为更好的应对这些挑战，出现了孪生网络目标跟踪算法。然而，目前孪生网络结构目标跟踪算法通过互相关实现模板特征和搜索区域特征的简单融合，丢失了丰富的语义信息。为了解决这个问题，于是提出了基于Transformer的孪生网络目标跟踪算法，Transformer由于其在长距离依赖建模方面的优点，被应用于孪生网络目标跟踪中的特征融合阶段，实现模板和搜索区域之间的信息整合。但是，Transformer不具有学习局部细节信息的优势，导致跟踪算法容易受到相似目标干扰而陷入次优解，成为设计高精度目标跟踪算法的瓶颈。

发明内容

本发明的目的是提供基于混合结构注意力引导的孪生网络目标跟踪方法，解决了现有目标跟踪方法精度低的问题。

本发明所采用的技术方案是，基于混合结构注意力引导的孪生网络目标跟踪方法，具体按照以下步骤实施：

步骤1，将目标跟踪数据集划分为训练集和测试集，再对数据集进行预处理；

步骤2，构建混合结构注意力特征融合模块；

步骤3，构建基于混合结构注意力引导的孪生网络目标跟踪算法模型；

步骤4，利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练，得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型；

步骤5，将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理，得到每个测试样本的跟踪结果。

本发明的特点还在于，

步骤1中，目标跟踪数据集进行预处理的具体过程为：

S1：截取初始视频帧目标区域作为标定模板，并将标定模板缩放至尺寸为128×128；

S2：在当前帧以目标为中心截取搜索大小为256×256的图像区域作为搜索区域图像；

S3：截取当前帧的目标区域为动态模板，并将动态模板缩放至尺寸为128×128。

步骤2的具体过程为：

设有图像特征x_m和图像特征x_n，将图像特征x_m和图像特征x_n分别经过卷积核大小为3×3卷积构成的卷积层学习局部细节信息和引入位置信息，得到图像特征x'_m和图像特征x'_n，设图像特征x'_m经过线性层得到的查询向量x_q，图像特征x'_n经过线性层得到的值向量x_v和键向量x_k，经过混合结构注意力中的多头互注意力层，获取到不同通道维度下可以反映图像特征x'_m和图像特征x'_n之间相互关联程度的注意力图，表达式为：

式中，x_s是图像特征x'_m的注意力图，d表示键向量的维度；

将多头互注意力层输出的注意力图x_s与图像特征x'_m相加经过残差单元，则实现图像特征x'_m和图像特征x'_n中有效信息的聚合。

步骤3中，基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分。

步骤3的具体过程为：

步骤3.1，将步骤1得到的搜索区域图像、标定模板图像和动态模板图像分别经过特征提取网络ResNet50，得到标定模板特征、动态模板特征和搜索区域特征；

步骤3.2，利用特征融合网络将标定模板特征、动态模板特征融合为模板特征，再将模板特征与搜索区域特征相互融合，得到搜索区域特征的注意力图、模板特征的注意力图，将搜索区域特征和搜索区域特征的注意力图相加后经过残差单元，输出集成了目标位置信息的搜索区域特征，将模板特征和模板特征的注意力图相加后经过残差单元，输出集成了目标关键信息的模板特征；

步骤3.3，利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析，得到跟踪目标框。

步骤3.1中，特征提取网络ResNet50为孪生网络结构，将ResNet50中的第三个Layer的步距参数设为1，使第三个Layer和第二个Layer的输出特征图大小一样，从第三个Layer获取到输入图像特征。

步骤3.2的具体过程为：利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合，得到模板特征，再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合；

则模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为：

将步骤3.1得到的搜索区域特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征，将步骤3.1得到的模板特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征，设搜索区域特征经过线性层得到查询向量s_q、值向量s_v和键向量s_k，模板特征经过线性层得到查询向量t_q、值向量t_v和键向量t_k，经过混合结构注意力中的多头互注意力层，分别获取到不同通道维度下可以反应搜索区域特征和模板特征之间相互关联程度的注意力图，表达式为：

式中，a_s是搜索区域特征的注意力图，包含目标的位置信息，a_t表示模板特征的注意力图，包含能识别出目标的关键信息，d表示键向量的维度；

搜索区域特征和注意力图a_s相加后经过残差单元，输出集成了目标位置信息的搜索区域特征；

模板特征和注意力图a_t相加后经过残差单元，输出集成了目标关键信息的模板特征。

步骤3.3，分类与回归网络的结构为：分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成，回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成。

步骤4中，训练过程中采用损失函数进行反向传播，更新模型权值参数，则损失函数如下：

L＝λ₁L_reg+λ₂L_cls

式中，L_reg是回归任务的损失值，L_cls是分类任务的损失值，λ₁是回归损失的权重，λ₂是分类损失的权重；

其中，

式中，IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比，y_reg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值，y_reg＝(x_l,y_l,x_r,y_r)，x_l和y_l是标签框的左上角坐标相对基准坐标的偏移值，x_r和y_r是标签框的右下角坐标相对基准坐标的偏移值，

表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值，

和/>

是预测跟踪目标框的左上角坐标相对基准坐标的偏移值，/>

和

是预测跟踪目标框的右下角坐标相对基准坐标的偏移值；

其中，

式中，M表示正样本和负样本的数量和，

是第i个样本的标签值，y_i是第i个样本预测值。

正样本、负样本通过在标签框中划分椭圆区域来划分，以标签框的中心点作为椭圆的中心，标签框的长度作为椭圆的长轴，宽度作为短轴，采样点落在椭圆区域外则为负样本，中心点不变，标签框的长度一半作为椭圆的长轴，宽度的一半作为短轴，在划分出一个小的椭圆区域，落在这个区域则为正样本。

本发明的有益效果是：本发明方法结合卷积和Transformer实现了基于混合结构注意力的特征融合模块，可以进行局部细粒度特征学习和全局特征聚合，并构建了基于混合结构注意力引导的孪生网络目标跟踪算法模型，实现模板特征和搜索区域特征的信息集成，提升跟踪算法精确定位目标的能力，同时，基于混合结构注意力引导的孪生网络目标跟踪算法模型的模板分支的输入端增加了动态模板，即同时输入标定模板和动态模板，并利用混合结构注意力学习和集中标定模板和动态模板中目标的细粒度特征，得到可以适应目标形态变化的模板特征，本发明方法能在复杂环境下稳健的跟踪目标。

附图说明

图1为本发明基于混合结构注意力引导的孪生网络目标跟踪方法的流程图；

图2为本发明方法中数据集预处理的流程图；

图3为本发明方法与现有技术成功率对比图；

图4为本发明方法与现有技术精确度对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于混合结构注意力引导的孪生网络目标跟踪方法，如图1所示，具体按照以下步骤实施：

步骤1，将目标跟踪数据集根据帕累托原则，数据集中80％的图像数据作为训练集，20％的图像作为测试集，其中训练集包括图像数据和目标的标签框信息，测试集只包含图像数据，再对数据集进行预处理，得到搜索区域图像、标定模板图像和动态模板图像；

如图2所示，目标跟踪数据集进行预处理的具体过程为：

S3：截取当前帧的目标区域为动态模板，并将动态模板缩放至尺寸为128×128；

步骤2，构建混合结构注意力特征融合模块；

具体过程为：

式中，x_s是图像特征x'_m的注意力图，d表示键向量的维度；

将多头互注意力层输出的注意力图x_s与图像特征x'_m相加经过残差单元，则实现图像特征x'_m和图像特征x'_n中有效信息的聚合；

步骤3，构建基于混合结构注意力引导的孪生网络目标跟踪算法模型，基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分；

特征提取网络为孪生网络结构，具体采用ResNet50并将ResNet50中的第三个Layer的步距参数设为1，使第三个Layer和第二个Layer的输出特征图大小一样，从第三个Layer获取到输入图像特征；

具体过程为：

利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合，得到模板特征，该模板特征能够精确表示目标外观模型，再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合；

模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为：

模板特征和注意力图a_t相加后经过残差单元，输出集成了目标关键信息的模板特征；

该过程中搜索区域特征和模板特征之间可以进行多次相互融合，从而将注意力逐渐集中到目标上，本发明中融合了四次，最后，特征融合网络输出包含目标位置信息的搜索区域特征；

步骤3.3，利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析，得到跟踪目标框；

分类与回归网络的结构为：分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成，回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成；

步骤4，利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练，训练过程中采用损失函数进行反向传播，更新模型权值参数，得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型；

本发明采用基于混合结构注意力引导的孪生网络目标跟踪算法模型联合计算分类任务损失和回归任务损失，则损失函数如下：

L＝λ₁L_reg+λ₂L_cls

式中，L_reg是回归任务的损失值，L_cls是分类任务的损失值，λ₁是回归损失的权重，λ₁＝1.0，λ₂是分类损失的权重，λ₂＝1.0；

在计算损失时引入权重参数λ₁、λ₂，通过调整权重参数，强化模型区分目标和背景的能力，提升跟踪器在复杂场景下的跟踪能力；

本发明构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型采用无锚点框结构，因此可以直接预测跟踪目标框的大小，回归任务的损失值通过计算标签框区域和预测跟踪目标框区域的交集与并集之比得到，具体表达式如下：

式中，IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比，当IOU的值是1时，标签框的区域和跟踪框的区域完全重合，此时损失值为0，y_reg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值，y_reg＝(x_l,y_l,x_r,y_r)，x_l和y_l是标签框的左上角坐标相对基准坐标的偏移值，x_r和y_r是标签框的右下角坐标相对基准坐标的偏移值，

表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值，/>

和/>

是预测跟踪目标框的左上角坐标相对基准坐标的偏移值，/>

和/>

是预测跟踪目标框的右下角坐标相对基准坐标的偏移值，回归任务中采用IOU损失函数，可以将目标框作为一个整体行优化，提高了预测跟踪目标框的质量；

分类任务的损失值采用二分类交叉熵损失函数，具体表达式如下：

式中，M表示正样本和负样本的数量和，

是第i个样本的标签值，y_i是第i个样本预测值；

正样本、负样本通过在标签框中划分椭圆区域来划分，以标签框的中心点作为椭圆的中心，标签框的长度作为椭圆的长轴，宽度作为短轴，采样点落在椭圆区域外则为负样本，中心点不变，标签框的长度一半作为椭圆的长轴，宽度的一半作为短轴，在划分出一个小的椭圆区域，落在这个区域则为正样本；

本发明方法与现有技术的实验对比结果如下：

OTB100数据集是Wu等人提出的被广泛应用在目标跟踪中的数据集，包含100个具有挑战性的测试场景，由灰度数据和彩色数据共同构成的，其中包括尺度变化、遮挡、形变、背景干扰、旋转、运动模糊等视觉跟踪中常见的挑战因素。OTB100数据集的根据跟踪精确度和跟踪成功率评测目标跟踪算法的性能。跟踪精确度是跟踪结果的中心位置和真实的目标中心之间的误差，通过精确度图(Precision Plot)显示；跟踪成功率反应的是跟踪框和真实目标框的重叠率，通过成功率图(Success Plot)显示。

在该数据集中，本方法和当前多个优秀的方法做了比较，如图3所示，目标跟踪方法根据曲线下面积(Area Under Curve，AUC)分数进行排序，则本发明方法与目前优秀的方法相比，AUC分数和Precision分数均达到了最优，其中AUC分数超过第二名1.2％，证明增强模型学习细节信息的能力可以减少跟踪漂移现象，提高跟踪成功率，如图4所示，目标跟踪方法根据中心距离误差阈值(Location error threshold)为20的精确度分数(Precision)进行排序，本方法的Precision分数超过第二名0.6％，结合跟踪成功率和跟踪精确度结果，证明本发明方法能够达到优秀的跟踪性能。

Claims

1.基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，具体按照以下步骤实施：

步骤2，构建混合结构注意力特征融合模块；

2.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤1中，目标跟踪数据集进行预处理的具体过程为：

3.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤2的具体过程为：

式中，x_s是图像特征x'_m的注意力图，d表示键向量的维度；

将多头互注意力层输出的注意力图x_s与图像特征x′_m相加经过残差单元，则实现图像特征x′_m和图像特征x′_n中有效信息的聚合。

4.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤3中，基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分。

5.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤3的具体过程为：

6.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤3.1中，特征提取网络ResNet50为孪生网络结构，将ResNet50中的第三个Layer的步距参数设为1，使第三个Layer和第二个Layer的输出特征图大小一样，从第三个Layer获取到输入图像特征。

7.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤3.2的具体过程为：利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合，得到模板特征，再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合；

8.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤3.3，分类与回归网络的结构为：分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成，回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成。

9.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，步骤4中，训练过程中采用损失函数进行反向传播，更新模型权值参数，则损失函数如下：

L＝λ₁L_reg+λ₂L_cls

其中，

和/>

是预测跟踪目标框的左上角坐标相对基准坐标的偏移值，/>

和

是预测跟踪目标框的右下角坐标相对基准坐标的偏移值；

其中，

式中，M表示正样本和负样本的数量和，

是第i个样本的标签值，y_i是第i个样本预测值。

10.根据权利要求9所述的基于混合结构注意力引导的孪生网络目标跟踪方法，其特征在于，所述正样本、负样本通过在标签框中划分椭圆区域来划分，以标签框的中心点作为椭圆的中心，标签框的长度作为椭圆的长轴，宽度作为短轴，采样点落在椭圆区域外则为负样本，中心点不变，标签框的长度一半作为椭圆的长轴，宽度的一半作为短轴，在划分出一个小的椭圆区域，落在这个区域则为正样本。