CN114596338A

CN114596338A - 一种考虑时序关系的孪生网络目标跟踪方法

Info

Publication number: CN114596338A
Application number: CN202210497757.0A
Authority: CN
Inventors: 孙仕棚; 兰时勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-06-07
Anticipated expiration: 2042-05-09
Also published as: CN114596338B

Abstract

本发明涉及单目标跟踪技术领域，具体公开了一种考虑时序关系的孪生网络目标跟踪方法。本发明用于解决传统孪生网络跟踪器中无法使用视频时序信息，难以有效提升跟踪准确率和鲁棒性的问题；本发明首先使用残差网络ResNet‑50提取目标模板图像序列和搜索区域图像的特征；然后设计了基于多层感知机的时序信息融合网络，将目标模板图像序列的时间信息融入到目标模板特征中，从而实现更鲁棒性的跟踪性能；接着使用包含时间信息的目标模板特征和搜索区域特征获取响应图；最后根据响应图实现目标的精确定位，从而提升跟踪器的准确率。

Description

一种考虑时序关系的孪生网络目标跟踪方法

技术领域

本发明涉及单目标跟踪技术领域，具体为一种考虑时序关系的孪生网络目标跟踪方法。

背景技术

近年来，视觉目标跟踪任务成为了计算机视觉领域的一个重要研究内容。孪生网络凭借着结构简单、性能高效的优势成为了目前目标跟踪算法的主流。传统孪生网络目标跟踪算法包括目标模板分支和搜索区域分支，两个分支的输入分别是裁剪的单张图像块，无法使用视频的时间信息，因此跟踪鲁棒性较差。为了预测目标物体的位置，使用相关操作让目标模板和搜索区域之间产生联系得到响应图，再根据响应图进行分类和回归，最后输出目标物体的预测位置。但相关操作自身是一种局部匹配的方法，得到的预测结果是搜索区域中的局部最优结果，因此跟踪准确率较低。

发明内容

针对上述问题，本发明的目的在于提供一种考虑时序关系的孪生网络目标跟踪方法，可以在传统孪生网络跟踪框架中使用视频的时间信息。对目标模板图像序列和搜索区域图像进行特征提取的骨干网络；提取目标模板特征序列中的时间信息的时序信息融合网络；基于交叉注意力设计的目标位置预测网络。将上述网络模型在指定训练数据集上进行离线训练，得到收敛的跟踪模型。使用训练好的跟踪模型在给定的视频中进行在线跟踪，可准确的预测出目标物体的位置。技术方案如下：

一种考虑时序关系的孪生网络目标跟踪方法，包括以下步骤：

步骤1：构建考虑时序关系的孪生网络目标跟踪模型，包括特征提取网络，时序信息融合网络和目标位置预测网络；

步骤2：选取目标损失函数和训练数据集，对上述孪生网络目标跟踪模型进行离线训练，直到网络模型收敛为止；

步骤3：将训练好的考虑时序关系的孪生网络目标跟踪模型在给定视频上进行在线跟踪。

进一步的，所述步骤1中构建考虑时序关系的孪生网络目标跟踪模型，具体包括：

步骤1.1：选取残差网络ResNet-50作为特征提取网络，其输入为3张目标模板图像，以及1张搜索区域图像；残差网络ResNet-50模型共有4层，取第3层的输出作为提取的特征，得到目标模板特征f _t1、f _t2和f _t3，以及搜索区域特征f _s；

步骤1.2：构建基于多层感知机的时序信息融合网络，根据提取的目标模板特征f _t1、f _t2和f _t3，得到包含时间信息的目标模板特征f _t；

步骤1.3：使用交叉注意力获取包含时间信息的目标模板特征f _t和搜索区域特征f _s之间的响应图，根据响应图计算相似度得分预测目标物体的位置。

更进一步的，所述步骤1.2中构建基于多层感知机的时序信息融合网络，具体包括：

所述基于多层感知机的时序信息融合网络包括LayerNorm归一化层、全连接层和ReLU激活层；其输入为三个目标模板特征f _t1、f _t2和f _t3，将每一个目标模板特征的宽和高合为一个空间维度，此时目标模板特征变为一个二维矩阵，对该矩阵进行转置；

将处理后的三个目标模板特征按照通道维度依次拼接在一起，得到新的目标模板特征f _t1，2,3，其通道维度包含帧与帧之间的时序关系，使用关注全局信息的多层感知机去提取蕴含的时间信息，即

将f _t1，2,3通过一个LayerNorm归一化层，再依次通过三个全连接层和两个ReLU激活层，提取到目标模板特征f _t1，2,3中的时间信息，最后得到包含时间信息的目标模板特征f _t；其表达式为：f _t=MLP _time（ft ₁，ft ₂，ft ₃），

其中，MLP _time为时序信息融合网络；

ReLU激活函数公式表达为：

其中，x表示前一个全连接层的输出值；

基于多层感知机的时序信息融合网络公式表达为：

f _out=w ₃（w ₂（w ₁ f _in+b ₁）+b ₂）+b ₃

其中，w ₁，w ₂和w ₃是权重参数，b ₁，b ₂和b ₃为偏置矩阵，用于避免模型过拟合；f _in表示网络的输入，f _out表示网络的输出。

更进一步的，所述步骤1.3中预测目标物体的位置，具体包括：

使用交叉注意力得到的响应图，依次经过LayerNorm归一化层、全连接层和Sigmoid激活层，得到相似度得分图，得分范围为（0，1），表示当前位置为目标物体的概率；规定相似度得分大于或等于阈值得分s _thres，则判定为目标物体；

相似度得分图的一个像素点对应搜索区域图像中对应区域；相似度得分大于阈值s _thres，则该区域是目标物体，则取出相似度得分图中左上角大于阈值得分s _thres的坐标（x ₁，y ₁）和右下角大于阈值得分s _thres的坐标（x ₂，y ₂），将其映射到搜索区域图像中得到目标物体的预测框。

更进一步的，所述交叉注意力的计算公式表示为：

其中，d _Linear(ft)为Linear(ft)的维度，Linear为全连接层，softmax为归一化函数，公式表达为：

其中，x _i为第i个节点输出，N为输出节点的总数，e为自然指数。

更进一步的，所述步骤2中选取目标损失函数和训练数据集，具体包括：

训练考虑时序关系的孪生网络目标跟踪模型时，使用L ₂损失和IoU损失，L ₂损失的计算公式为：

其中，（x ₁，y ₁）为预测框的左上角坐标，（x ₂，y ₂）为预测框的右下角坐标；（t _x1，t _y1）和（t _x2，t _y2）分别为目标真实框的左上角坐标和右下角坐标；

IoU损失的计算公式为：

其中，

为目标真实框的面积，

为预测框的面积；

最终的损失函数计算公式为：loss=loss _L2+loss _IoU。

使用标注了目标真实框标签的训练集，并在所述训练集的同一个视频序列中，任意选取三帧图片作为目标模板帧，相邻两帧之间的帧差最大为10；随机选取先前确定的目标模板帧后100帧以内的某一帧作为搜索区域帧；

上述目标模板帧和搜索区域帧分别为以目标物体为中心裁剪出的目标模板图像和搜索区域图像。

更进一步的，所述步骤3具体包括：

步骤3.1：给定一段需要跟踪的视频，在初始帧中选取感兴趣的目标物体，并以该目标物体为中心裁剪出目标模板图像；

步骤3.2：在第二帧中以上一帧目标物体位置为中心裁剪出搜索区域图像；

步骤3.3：把在初始帧中获取的目标模板图像复制为3份，作为目标模板图像序列，和在第二帧中获取的搜索区域图像一起输入考虑时序关系的孪生网络目标跟踪模型中，得到第二帧中目标物体的预测位置；

步骤3.4：以预测位置为中心在第二帧图像中裁剪出目标模板图像，插入到目标模板图像序列最后，并删除第一个目标模板图像；

步骤3.5：以第二帧中目标物体的预测位置为中心在第三帧中裁取出搜索区域图像；

步骤3.6：再次将目标模板图像序列和搜索区域图像输入考虑时序关系的孪生网络目标跟踪模型中，得到第三帧中目标物体的预测位置；

步骤3.7：以预测位置为中心在第三帧图像中裁剪出目标模板图像，插入到目标模板图像序列最后，并删除第一个目标模板图像；

步骤3.8：以第三帧中目标物体的预测位置为中心在第四帧中裁取出搜索区域图像；

步骤3.9：将目标模板图像序列和搜索区域图像输入考虑时序关系的孪生网络目标跟踪模型中，得到第四帧中目标物体的预测位置；重复进行下一帧目标物体的位置预测，直至视频跟踪结束。

与现有技术相比，本发明的有益效果是：本发明通过设计的时序信息融合网络对视频的时间信息进行使用，目的是提升传统孪生网络跟踪器的鲁棒性；本发明设计了基于交叉注意力的目标位置预测网络，目的是获取搜索区域上的全局最优结果，解决了目前传统孪生网络跟踪器中使用的相关操作容易导致目标定位时陷入局部最优的问题，可有效提升跟踪器的准确率。

附图说明

图1为本发明考虑时序关系的孪生网络目标跟踪框架图。

图2（a）为基于多层感知机的时序信息融合网络结构图。

图2（b）为基于多层感知机的时序信息融合网络流程图。

图3为交叉注意力的示意流程图。

图4为在线跟踪示意流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。针对目前传统孪生网络目标跟踪算法无法使用视频时间信息，导致跟踪鲁棒性较差，且在目标位置预测时易陷入局部最优，导致跟踪准确率较低的问题，本实例提供了一种考虑时序关系的孪生网络目标跟踪算法，如图1所示，其步骤如下：

1、使用骨干网络对输入进行特征提取

选取残差网络ResNet-50作为特征提取网络，输入分别是3张3×160×160（3表示RGB三通道）的目标模板图像和1张3×320×320的搜索区域图像，使用残差网络ResNet-50作为骨干网络对输入图像进行特征提取，其权重参数是共享的。ResNet-50网络模型共有四层输出，取第三层输出作为提取的特征，分别得到目标模板特征序列f _t1、f _t2和f _t3（大小都为1024×20×20）和搜索区域特征f _s（大小为1024×40×40）。

2、使用时序信息融合网络对目标模板特征序列进行时间信息提取

使用交叉注意力获取目标模板特征f _t和搜索区域特征f _s之间的响应图，根据响应图计算相似度得分确定目标物体的位置。

交叉注意力的计算公式表示为：

基于多层感知机的时序信息融合网络如图2（a）和图2（b）所示，输入上步骤中的目标模板特征序列f _t1、f _t2和f _t3。将每一个目标模板特征f _t1、f _t2和f _t3的宽高维度分别合为一个空间维度，f _t1、f _t2和f _t3便从一个三维的特征转换为一个二维的矩阵，将该矩阵转置后，得到的特征尺寸为（20×20）×1024，将其依次按照通道维度拼接起来，得到（20×20）×（1024×3）的目标模板特征f _t1，2,3，其通道维度包含目标模板帧与帧之间的时序关系。

设计的基于多层感知机的时序信息融合网络是由LayerNorm归一化层、全连接层和ReLU激活层组成的。使用该时序信息融合网络提取目标模板特征f _t1，2,3中的时间信息，得到包含时序关系的目标模板特征f _t。

目标模板特征f _t1，2,3的通道维度中含有帧与帧之间的时序关系，因此使用关注全局信息的多层感知机去提取蕴含的时间信息。首先将f _t1，2,3通过一个LayerNorm归一化层，然后依次通过三个全连接层和两个ReLU激活层，最后得到包含时间信息的目标模板特征f _t（大小为（20×20）×1024）。

ReLU激活函数公式表达为：

基于多层感知机的时序信息融合网络公式表达为：fout=w ₃（w ₂（w ₁ fin+b ₁）+b ₂）+b ₃

其中，w ₁，w ₂和w ₃是权重参数，b ₁，b ₂和b ₃为偏置矩阵，可避免模型过拟合。

3、根据目标位置预测网络推测目标物体的位置

将搜索区域特征f _s的宽高维度合为一个维度，并进行矩阵的转置后，大小变为（40×40）×1024。使用交叉注意力获取包含时间信息的目标模板特征f _t和搜索区域特征f _s之间的响应图，如图3所示。

f _s经过一个全连接层得到（40×40）×512的输出矩阵，f _t分别经过一个全连接层得到（20×20）×512的输出矩阵。（40×40）×512的矩阵与一个（20×20）×512的矩阵做矩阵乘法运算，得到（40×40）×（20×20）的结果，将该结果映射到另一个（20×20）×512的矩阵上（即进行矩阵乘法运算），得到（40×40）×512的映射结果，最后通过一个全连接层，便得到了（40×40）×256的响应图。

将上述的响应图通过一个多层感知机网络，该网络是由LayerNorm归一化层、三个全连接层和两个ReLU激活层组成的，第一个全连接层将通道数目从256降为64，第二个全连接层将通道数目从64降为8，第三个全连接层将通道数目降为1，接着通过一个Sigmoid激活层得到40×40的相似度得分图，得分范围为（0，1），表示当前位置为目标物体的概率。规定相似度得分大于或等于阈值得分s _thres，则判定为目标物体。Sigmoid函数的公式表达为：

相似度得分图上的一个像素点映射到320×320的搜索区域图像中

=8 ×8的区域，对应的是8×8的区域范围。规定相似度得分大于阈值s _thres，则该区域是目标物体。因此获取相似度得分图左上角大于阈值得分s _thres的点和右下角大于阈值得分s _thres的点，将其映射到搜索区域中便是预测的目标框。

4、对考虑时序关系的孪生网络目标跟踪模型进行离线训练

选取带标签（标注了目标物体的真实位置）的数据集（COCO，LaSOT，GOT-10k和TrackingNet）来训练该网络模型。目标模板图片序列任意选取同一视频中的三帧图片，相邻两帧之间的帧差不大于10。随机选取目标模板图片序列最后一张图片的后100帧以内的图片作为搜索区域图片。分别以目标物体为中心将目标模板图片序列和搜索区域图片裁剪出160×160和320×320的目标模板图像序列和搜索区域图像，搜索区域图像中的目标物体可适当偏移。

在训练网络模型时使用的目标损失函数包括L ₂损失和IoU损失，以保证模型的收敛。在训练开始阶段，需设置较小的阈值得分s _thres，随着损失值越来越小，再逐步增大阈值得分s _thres，但不建议超过0.8。

L ₂损失的计算公式为：

其中，（x ₁，y ₁）为预测框的左上角坐标，（x ₂，y ₂）为预测框的右下角坐标，（t _x1，t _y1）和（t _x2，t _y2）分别为目标真实框的左上角坐标和右下角坐标。

IoU损失的计算公式为：

其中，

为目标真实框的面积，

为预测框的面积。

最终的损失函数计算公式为：loss=loss _L2+loss _IoU。

5、使用训练好的考虑时序关系的孪生网络目标跟踪模型进行在线跟踪

图4是考虑时序关系的孪生网络目标跟踪模型在线跟踪示意流程图，其输入分别是第t-1帧、第t-2帧、第t-3帧裁剪的160×160的目标模板图像序列，和第t帧以第t-1帧预测的目标物体为中心裁剪的320×320的搜索区域图像。通过调节不同的阈值得分s _thres，可以输出模型预测第t帧中目标物体的准确位置。

当t等于2时，第1帧裁取的目标模板图像复制为3份作为目标模板图像序列。当t等于3时，将第二帧裁取的目标模板图像插入到目标模板图像序列的末尾，并删除第一个目标模板图像。

本实施例公开了如下技术方案：

A1、考虑时序关系的孪生网络目标跟踪模型构建方法，包括：

1）提取目标模板图像序列特征和搜索区域特征的骨干网络，ResNet-50网络；

2）提取目标模板特征序列的时间信息的时序信息融合网络；

3）使用交叉注意力获取包含时间信息的目标模板特征和搜索区域特征之间的响应图；

4）根据响应图获取相似度得分图，然后输出目标物体的预测位置。

A2、对于A1所述的方法，构建基于多层感知机的时序信息融合网络具体包括：LayerNorm层归一化，三个全连接层和两个ReLU激活层。

A3、对于A1所述的方法，使用交叉注意力获取响应图，具体包括：

1）目标模板特征分别通过两个全连接层得到f _tl1和f _tl2，搜索区域特征通过一个全连接层得到f _sl；

2）将f _tl1和f _s进行矩阵乘法运算，然后将结果映射到f _tl2上；

3）将上述结果通过一个全连接层得到响应图。

A4、对于A1所述的方法，根据响应图获取相似度得分图，然后输出目标物体的预测位置，具体包括：

1）将响应图通过LayerNorm归一化层、三个全连接层和两个ReLU激活层；

2）上述结果通过Sigmoid激活函数后得到相似度得分图；

3）设置合理的阈值得分s _thres，把相似度得分图中左上角和右下角大于s _thres的点映射到搜索图像中，输出目标的预测位置。

A5、考虑时序关系的孪生网络目标跟踪模型离线训练方法，具体包括：

1）选取带标签的训练集，包括COCO、GOT-10k、TrackingNet和LaSOT数据集；

2）使用的目标损失函数有L ₂损失和IoU损失。

A6、考虑时序关系的孪生网络目标跟踪模型在线跟踪方法，具体包括：

1）第一帧目标物体位置已知的情况下，对第二帧目标物体位置的预测；

2）第二帧目标物体位置预测出的情况下，对第三帧目标物体位置的预测；

3）对后续帧目标物体位置的持续预测，直至视频结束。

Claims

1.一种考虑时序关系的孪生网络目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种考虑时序关系的孪生网络目标跟踪方法，其特征在于，所述步骤1中，构建考虑时序关系的孪生网络目标跟踪模型，具体包括：

3.根据权利要求2所述的一种考虑时序关系的孪生网络目标跟踪方法，其特征在于，所述步骤1.2中，构建基于多层感知机的时序信息融合网络，具体包括：

将f _t1，2,3通过一个LayerNorm归一化层，再依次通过三个全连接层和两个ReLU激活层，提取到目标模板特征f _t1，2,3中的时间信息，最后得到包含时间信息的目标模板特征f _t；其表达式为：f _t=MLP _time（ft ₁，ft ₂，ft ₃）

其中，MLP _time为时序信息融合网络；

ReLU激活函数公式表达为：

其中，x表示前一个全连接层的输出值；

基于多层感知机的时序信息融合网络公式表达为：

f _out=w ₃（w ₂（w ₁ f _in+b ₁）+b ₂）+b ₃

4.根据权利要求3所述的一种考虑时序关系的孪生网络目标跟踪方法，其特征在于，所述步骤1.3中，预测目标物体的位置，具体包括：

5.根据权利要求4所述的一种考虑时序关系的孪生网络目标跟踪方法，其特征在于，所述交叉注意力的计算公式表示为：

6.根据权利要求1所述的一种考虑时序关系的孪生网络目标跟踪方法，其特征在于，所述步骤2中，选取目标损失函数和训练数据集，具体包括：

IoU损失的计算公式为：

其中，

为目标真实框的面积，

为预测框的面积；

最终的损失函数计算公式为：loss=loss _L2+loss _IoU；

上述目标模板帧和搜索区域帧分别为以目标物体为中心裁剪出目标模板图像和搜索区域图像。

7.根据权利要求1所述的一种考虑时序关系的孪生网络目标跟踪方法，其特征在于，所述步骤3具体包括：