CN114387459A

CN114387459A - 动态双模板更新的单目标跟踪方法及存储介质

Info

Publication number: CN114387459A
Application number: CN202210095816.1A
Authority: CN
Inventors: 符强; 梁栩欣; 纪元法; 孙希延; 任风华; 贾茜子; 梁维彬; 付文涛
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-22

Abstract

本发明公开了动态双模板更新的单目标跟踪方法及存储介质，所述方法，包括步骤10、读取视频序列；步骤20、读取视频序列的第一帧图像及其标注数据，进行初始化模板得到模板图像；步骤30、读取下一帧图像，处理为搜索区域图像；步骤40、将所述模板图像和所述搜索区域图像同时送入预设强特征提取网络，分别获得模板特征图和搜索区域特征图；步骤50、对所述模板特征图和搜索区域特征图进行相似度匹配计算，输出相似度得分响应图，得到初步跟踪预测结果。本发明动态双模板更新的单目标跟踪方法，为一种结合强特征提取网络和动态双模板更新策略的目标跟踪方法，当所跟踪的目标所在的视频序列较为复杂时，仍然有较高精确率和鲁棒性跟踪。

Description

动态双模板更新的单目标跟踪方法及存储介质

技术领域

本发明涉及视觉深度特征提取网络的目标跟踪技术领域，特别是涉及动态双模板更新的单目标跟踪方法及存储介质。

背景技术

实现在复杂视频序列中的鲁棒性和高精确率目标跟踪一直是视觉目标跟踪领域一个极具挑战的难题。近几年，基于孪生网络的目标跟踪算法受到广泛关注与深入研究，成为了单目标跟踪的主流基准框架。基于孪生网络的目标跟踪算法将目标跟踪任务视为相似度匹配问题，通过计算模板分支和搜索分支的相似度得分来预测目标的中心位置和跟踪框。模板图像由视频序列第一帧的目标标注数据裁剪初始化而来，搜索区域图像则由当前帧图像裁剪得到的。模板分支和搜索分支共享一个深度特征提取网络，因此基于孪生网络的视觉目标跟踪算法在跟踪精确率和跟踪速度上都达到了非常优异的性能。

然而，大多数基于孪生网络的目标跟踪算法依赖复杂庞大的卷积神经网络作为特征提取网络，并且依赖多个大型数据集对特征提取网络进行离线训练，在跟踪阶段采用由第一帧初始化而来的固定模板，当所跟踪的目标所在的视频序列较为复杂，该深度特征提取网络对该目标的特征提取效果会比较差，导致最终的跟踪精确率较严重下降。

发明内容

本发明针对现有技术当所跟踪的目标所在的视频序列较为复杂，该深度特征提取网络对目标的特征提取效果较差，导致最终的跟踪精确率下降的技术问题，提出以下技术方案。

本发明采用的一种技术方案是：

动态双模板更新的单目标跟踪方法，包括：

步骤10、读取视频序列；

步骤20、读取视频序列的第一帧图像及其标注数据，进行初始化模板得到模板图像；

步骤30、读取下一帧图像，处理为搜索区域图像；

步骤40、将所述模板图像和所述搜索区域图像同时送入预设强特征提取网络，分别获得模板特征图和搜索区域特征图；

步骤50、对所述模板特征图和搜索区域特征图进行相似度匹配计算，输出相似度得分响应图，得到初步跟踪预测结果。

进一步地，所述步骤20具体包括：

读取视频序列的第一帧图像的标注数据提供的目标中心点坐标、边界框宽度和边界框长度，即获取目标的真实边界框；

将目标中心点坐标映射到第一帧图像中，基于目标中心点坐标对第一帧图像进行裁剪，得到与边界框宽度和边界框长度对应的图像块；

将裁剪得到的图像块重新采样调整为预设尺寸的图形块，将调整后的图形块作为模板图像。

进一步地，所述步骤50之后，所述方法还包括：

步骤60、计算所述响应图的置信度，根据所述置信度确定动态双模板更新策略：

如果置信度符合模板备份条件，则根据所述初步跟踪预测结果裁剪当前帧图像保存为备份模板，进入步骤70；

如果置信度符合双模板启动条件，则将初始模板和备份模板加权融合获得新模板，重复步骤40和步骤50后，直接进入步骤70；

如果是其他情况，直接进入步骤70；

步骤70、将所述初步跟踪预测结果作为最终跟踪预测结果。

进一步地，所述根据所述置信度确定动态双模板更新策略具体包括：

对当前帧响应图的置信度进行判断：将当前帧响应图的置信度记为T_i，预设的置信度上限阈值记为T_u，预设的置信度下限阈值记为T_d；所述动态双模板更新策略具体如下：

所述其他情况具体为：当T_i>T_d时，将所述初步跟踪预测结果作为最终跟踪预测结果；

所述置信度符合模板备份条件具体为：当T_i>T_u时，将所述初步跟踪预测结果作为最终跟踪预测结果，同时利用所述初步跟踪预测结果裁剪当前帧图像，进行裁剪的参数设置与初始化模板的初始化过程一致，将该裁剪图像保存为所述备份模板；

所述置信度符合双模板启动条件具体为：当T_i<T_d时，将所述备份模板和初始模板加权融合为所述新模板，重复步骤40和步骤50后，直接进入步骤70。

进一步地，所述步骤70之后，所述方法还包括：

重复步骤30到步骤70，直至视频序列的所有图像帧处理完毕，跟踪结束。

进一步地，所述预设强特征提取网络包括预先离线训练的强特征提取网络，所述预先离线训练的强特征提取网络的构建步骤包括：

步骤41、构建改进的Bottleneck模块，在所述改进的Bottleneck模块的末端接入中心裁剪模块以消除特征图填充带来的目标位置偏移影响，由此构成强特征提取网络主体子网络；

步骤42、将多个所述强特征提取网络主体子网络堆叠构成强特征提取网络的主体；

步骤43、在所述强特征提取网络的主体后接入通道空间注意力网络，构成所述预设强特征提取网络。

进一步地，所述构建改进的Bottleneck模块具体为：

将Bottleneck模块的中间卷积层输出通道数加倍，得到强特征提取网络主体的Bottleneck模块。

进一步地，所述通道空间注意力网络包括通道注意力子网络和空间注意力子网络：所述步骤43具体包括：

输入特征首先通过所述通道注意力子网络，输出通道加权的特征图，所述通道加权的特征图再通过空间注意力子网络，输出在通道加权基础上的空间加权特征图。

进一步地，所述预先离线训练的强特征提取网络的训练步骤包括：

利用目标跟踪数据集对强特征提取网络进行离线训练，按照预设参数设置，训练得到强特征提取网络的权重参数。本发明采用的另一种技术方案是：计算机可读存储介质，所述计算机可读存储介质中存储有程序数据，所述程序数据在被处理器执行时，用于实现如上所述的方法。

本发明的有益效果是：区别于现有技术的情况，本发明提供动态双模板更新的单目标跟踪方法，包括步骤10、读取视频序列；步骤20、读取视频序列第一帧图像及其标注数据，初始化模板；步骤30、读取下一帧图像，处理为搜索区域图像；步骤40、将模板图像和所述搜索区域图像同时送入预设强特征提取网络，分别获得模板特征图和搜索区域特征图；步骤50、对所述模板特征图和搜索区域特征图进行相似度匹配计算，输出相似度得分响应图，得到初步跟踪预测结果。本发明动态双模板更新的单目标跟踪方法，为一种结合强特征提取网络和动态双模板更新策略的目标跟踪方法，当所跟踪的目标所在的视频序列较为复杂时，仍然有较高精确率和鲁棒性跟踪。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本发明提供的动态双模板更新的单目标跟踪方法一实施例的流程图；

图2是本发明提供的动态双模板更新的单目标跟踪方法另一实施例的流程图；

图3是本发明提供的动态双模板更新的单目标跟踪方法又一实施例的流程图；

图4是本发明提供的动态双模板更新的单目标跟踪方法的预设强特征提取网络的结构框图；

图5是本发明提供的动态双模板更新的单目标跟踪装置一实施例的结构框图；

图6是本发明提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部方法和流程。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

大多数基于孪生网络的目标跟踪算法依赖复杂庞大的卷积神经网络作为特征提取网络，并且依赖多个大型数据集对特征提取网络进行离线训练，在跟踪阶段采用由第一帧初始化而来的固定模板，当所跟踪的目标所在的视频序列较为复杂，或该目标类别不包括在离线训练的大型数据集上时，该深度特征提取网络对该目标的特征提取效果会非常差，导致最终的跟踪精确率严重下降。

本发明针对上述现存技术问题，设计了一种结合强特征提取网络和动态双模板更新策略的目标跟踪方法，能够实现在光照变化、背景干扰、快速运动和运动模糊等复杂挑战下的高精确率和鲁棒性跟踪。

针对现有的基于孪生网络的目标跟踪方法依赖大型数据集对特征提取网络离线端到端训练学习到的目标通用匹配能力非常局限于训练数据集，且在跟踪阶段无在线更新微调处理，仅采用由第一帧初始化得到的模板，导致无法适应较为复杂的场景如光照变化、背景干扰、快速运动和运动模糊等场景下的跟踪任务，跟踪精确度低、跟踪不鲁棒的问题。

为解决现有技术中存在的上述问题，本发明设计了一种结合强特征提取网络和动态双模板更新策略的目标跟踪方法，能够实现在复杂挑战下的高精确度、鲁棒性跟踪。

参阅图1，图1是本发明提供的动态双模板更新的单目标跟踪方法一实施例的流程图。

本发明实施例的动态双模板更新的单目标跟踪方法，包括，

步骤10、读取视频序列；

步骤20具体可以包括：

将裁剪得到的图像块重新采样调整为预设尺寸(例如127×127)的图形块，将调整后的图形块作为模板图像。

步骤30、读取下一帧图像，处理为搜索区域图像；具体地，处理为搜索区域图像可以在裁剪等图像处理措施。其中，搜索区域图像也为搜索分支输入图像。

进一步地，结合图2，所述步骤50之后，所述方法还包括：

如果是其他情况，直接进入步骤70；具体地，这里的其他情况是指非第一种和第二种的情况。

步骤70、将所述初步跟踪预测结果作为最终跟踪预测结果。

在一个实施例中，所述根据所述置信度确定动态双模板更新策略具体包括：

对当前帧响应图的置信度进行判断；将当前帧响应图的置信度记为T_i，预设的置信度上限阈值记为T_u，预设的置信度下限阈值记为T_d，所述动态双模板更新策略具体如下：

进一步地，所述步骤70之后，所述方法还包括：

在一些实施例中，所述计算所述响应图的置信度，进入动态双模板更新策略判断分支的步骤具体包括：

计算响应图的平均峰值相关能量，保存为当前帧响应图的置信度，将当前帧响应图的置信度置入所述动态双模板更新策略判断分支。

在一些实施例中，所述输出相似度得分响应图的步骤之后，所述方法还包括：

获取响应图的最大响应值。

上述实施例为动态双模板更新的单目标跟踪方法的在线跟踪过程。下面接着阐述本发明动态双模板更新的单目标跟踪方法具体还包含的强特征提取网络的构建、强特征提取网络的训练过程。

在一些实施例中，结合图3和图4，所述预设强特征提取网络包括预先离线训练的强特征提取网络。可选地，所述预先离线训练的强特征提取网络的构建步骤包括：

进一步地，结合图4，所述通道空间注意力网络包括通道注意力子网络和空间注意力子网络：所述步骤43具体包括：

在一些实施例中，所述预先离线训练的强特征提取网络的训练步骤包括：

利用目标跟踪数据集对强特征提取网络进行离线训练，按照预设参数设置，训练得到强特征提取网络的权重参数。。具体地，预定数据集具体为大型数据集GOT10K。

预设参数设置具体如下所述：

1、采用GOT10K近百万对(例如937500对)图像作为训练图像，训练多个周期(例如50个周期)，每个周期包含万对以上(例如18750对)图像。

2、设置模板分支输入图像尺寸(即设置模板图像尺寸)，例如设为127×127，设置搜索分支输入图像尺寸(即设置搜索区域图像尺寸)，例如设为255×255。

3、采用SDG进行训练(采用SDG函数训练网络)，设置momentum、batchsize和学习率的参数。例如将momentum设为0.9，batchsize设为32，学习率以指数衰减方式从0.01衰减至0.00001。

4、设置使用的损失函数，例如采用BCEWithLogitsLoss。

按以上设置，训练结束后得到最终的带权重强特征提取网络。

本发明的有益效果是：区别于现有技术的情况，本发明提供的动态双模板更新的单目标跟踪方法，为一种结合强特征提取网络和动态双模板更新策略的目标跟踪方法，能够实现在光照变化、背景干扰、快速运动和运动模糊等复杂挑战下的高精确率和鲁棒性跟踪。

本发明提供的动态双模板更新的单目标跟踪方法为一种结合强特征提取网络和动态双模板更新策略的目标跟踪方法，具体包含强特征提取网络的构建、强特征提取网络的训练以及在线跟踪三大部分。

一、强特征提取网络的构建

本发明基于孪生网络跟踪方法，整体框架由模板分支、搜索分支、相似度计算模块和跟踪预测模块构成。其中，模板分支和搜索分支共享一个强特征提取网络，该强特征提取网络的构建具体如下步骤所述：

1、构建一个改进的Bottleneck模块，具体为将Bottlenec模块的中间卷积层输出通道数加倍，得到强特征提取网络主体的Bottleneck子模块。

2、在步骤1构建的改进Bottleneck模块末端接入一个中心裁剪模块模块，构成强特征提取网络主体的子网络。中心裁剪模块具体为裁剪输入特征图的外围一圈，保留特征图的中心部分，以消除随着网络加深对特征图的填充操作给目标的位置带来显著偏移的影响。

3、将步骤2构造的强特征提取网络主体的子网络堆叠为强特征提取网络的主体，堆叠的数量具体为7。

4、在步骤3所构建的强特征提取网络的主体末端接入通道空间注意力网络，构造为最终的强特征提取网络。通道空间注意力网络具体为：输入特征首先通过通道注意力子网络，输出通道加权的特征图，然后该通道加权的特征图再通过空间注意力子网络，输出在通道加权基础上的空间加权特征图。

二、强特征提取网络的训练

本发明所设计的强特征提取网络，在大型数据集GOT10K上进行离线训练。参数设置具体如下所述：

1、采用GOT10K共937500对图像作为训练图像，共训练50个周期，每个周期包含18750对图像。

2、模板分支输入图像尺寸为127×127，搜索分支输入图像尺寸为255×255。

3、采用SDG进行训练，momentum设为0.9，batchsize设为32，学习率以指数衰减方式从0.01衰减至0.00001。

4、损失函数采用BCEWithLogitsLoss。

三、在线跟踪

1、读取视频序列。

2、读取视频序列第一帧图像及其标注数据，初始化模板。

3、读取下一帧图像，裁剪为搜索分支输入图像。

4、将模板图像和搜索区域图像同时送入预设的强特征提取网络，分别输出模板特征图和搜索区域特征图。

5、对模板特征图和搜索区域特征图进行相似度匹配计算，具体为对两个特征图进行互相关计算，输出响应图。

6、获取响应图的最大响应值，得到初步的跟踪预测结果。

7、计算响应图的平均峰值相关能量，保存为当前帧响应图的置信度。

8、对当前帧响应图的置信度进行判断。将当前响应图的置信度记为T_i，预设的置信度上限阈值记为T_u，预设的置信度下限阈值记为T_d，本发明设计的动态双模板更新策略具体如下所述：

(1)当T_i>T_d时，所述步骤6所得的初步跟踪预测结果作为最终跟踪预测结果。

(2)当T_i>T_u时，所述步骤6所得的初步跟踪预测结果作为最终跟踪预测结果，同时利用该跟踪预测结果裁剪当前帧图像，进行裁剪的参数设置与初始模板初始化过程一致，将该裁剪图像保存为备份模板。

(3)当T_i<T_d时，将备份模板和初始模板加权融合为新模板，重复步骤4-6得到最终的跟踪预测结果。

9、重复步骤3-8至视频序列的所有图像帧处理完毕，跟踪结束。

本发明设计了一种强特征提取网络，能够为目标跟踪任务提取强表征能力、强判别力的特征图，显著提升了目标跟踪的成功率和精确率。

本发明设计了一种动态双模板更新策略用于在线跟踪，实现了在光照变化、背景干扰、快速运动和运动模糊等复杂挑战下的高精确率、鲁棒性跟踪。

发明人在数据集OTB2015上的测试评估结果表明，本发明设计的动态双模板更新的单目标跟踪方法，整体跟踪成功率(AUC)达到0.666，跟踪精确率达到0.879，优于SiamFC、SiamRPN、DaSiamRPN等主流先进算法。

根据上述实施例，本发明提出动态双模板更新的单目标跟踪装置。具体参阅图5，图5是本发明提供的动态双模板更新的单目标跟踪装置一实施例的结构示意图。

动态双模板更新的单目标跟踪装置100中包括处理器110和存储器120。其中处理器110和存储器120耦接。存储器120中存储有计算机程序，计算机程序用于执行上述动态双模板更新的单目标跟踪方法。

具体参阅图6，图6是本发明提供的计算机可读存储介质一实施例的结构示意图。

计算机可读存储介质200中包括程序数据210。程序数据210在被处理器执行时，可以实现上述动态双模板更新的单目标跟踪方法。

区别于现有技术的情况，本发明提供动态双模板更新的单目标跟踪方法。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.动态双模板更新的单目标跟踪方法，其特征在于，包括：

步骤10、读取视频序列；

步骤30、读取下一帧图像，处理为搜索区域图像；

2.根据权利要求1所述的方法，其特征在于，所述步骤20具体包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤50之后，所述方法还包括：

如果是其他情况，直接进入步骤70；

步骤70、将所述初步跟踪预测结果作为最终跟踪预测结果。

4.根据权利要求3所述的方法，其特征在于，所述根据所述置信度确定动态双模板更新策略具体包括：

所述其他情况具体为：当T_i＞T_d时，将所述初步跟踪预测结果作为最终跟踪预测结果；

所述置信度符合模板备份条件具体为：当T_i＞T_u时，将所述初步跟踪预测结果作为最终跟踪预测结果，同时利用所述初步跟踪预测结果裁剪当前帧图像，进行裁剪的参数设置与初始化模板的初始化过程一致，将该裁剪图像保存为所述备份模板；

所述置信度符合双模板启动条件具体为：当T_i＜T_d时，将所述备份模板和初始模板加权融合为所述新模板，重复步骤40和步骤50后，直接进入步骤70。

5.根据权利要求4所述的方法，其特征在于，所述步骤70之后，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述预设强特征提取网络包括预先离线训练的强特征提取网络，所述预先离线训练的强特征提取网络的构建步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述构建改进的Bottleneck模块具体为：

8.根据权利要求7所述的方法，其特征在于，所述通道空间注意力网络包括通道注意力子网络和空间注意力子网络：所述步骤43具体包括：

9.根据权利要求8所述的方法，其特征在于，所述预先离线训练的强特征提取网络的训练步骤包括：

利用目标跟踪数据集对强特征提取网络进行离线训练，按照预设参数设置，训练得到强特征提取网络的权重参数。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序数据，所述程序数据在被处理器执行时，用于实现如权利要求1-9任一项所述的方法。