CN113129335A

CN113129335A - 一种基于孪生网络的视觉跟踪算法及多模板更新策略

Info

Publication number: CN113129335A
Application number: CN202110321037.4A
Authority: CN
Inventors: 齐飞; 刘朝辉; 石光明; 梅辉
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-07-16
Anticipated expiration: 2041-03-25
Also published as: CN113129335B

Abstract

本发明公开了一种基于孪生网络的视觉跟踪算法及多模板更新策略，通过利用孪生子网络提取模板特征和搜索特征；利用可分离卷积衡量两者之间的相关度，获得响应图；通过预测网络的分类和回归子网络子网络融合所述响应特征图，分别获得类别概率和边界框的偏移量。采用尺度正则化的交并比损失函数训练边界框回归网络，实验表明跟踪器达到了先进的水平，为解决跟踪器在长程跟踪中模板退化问题提出一种多模板更新策略，该策略分为模板更新决策，模板选择策略及模板融合策略三个部分。在跟踪期间，维护一个模板池来存储目标外观的动态变化。提出的多模板更新策略，在牺牲少量速度条件下，有效提升跟踪算法的精度，实现了跟踪精度和效率的平衡。

Description

一种基于孪生网络的视觉跟踪算法及多模板更新策略

技术领域

本发明涉及计算机视觉中单目标跟踪技术领域，尤其涉及一种基于孪生网络的视觉跟踪算法及多模板更新策略。

背景技术

视觉跟踪算法主要分为两大类别：生成式方法和判别式跟踪方法。本文主要关注于判别式跟踪算法，即将跟踪问题形式化为训练分类器，当前帧目标区域为正样本，背景区域为负样本，训练一个分类器，用于区分前景目标和背景，然后在下一帧寻找最优区域。在判别式跟踪算法中，最受关注的是基于相关滤波的方法。近些来，随着深度学习在计算机视觉的广泛应用，将相关滤波和卷积神经网络相结合的基于孪生网络的算法应运而生。基于孪生网络的跟踪器大致可分为两类：anchor-based和anchor-free跟踪算法。为了解决SiamFC网络无法精确预测边界框的问题。提出了基于区域候选网络的孪生跟踪器SiamRPN。区域候选网络是目标检测算法FasterRCNN提出，专门用于回归候选框的网络结构，通过预测锚框的偏移量来预测边界框，大大提高了跟踪精度，但同时相比SiamFC速度有所下降。基于孪生网络的相关跟踪器随着网络的加深，跟踪准确性上升幅度逐渐减小，算法存在上限，其原因在于网络中的padding操作会网络的学习产生位置偏见。针对此，SiamRPN++和SiamDW采用了两种不同的策略解决这个问题，SiamRPN++提出对数据作偏移采样可以缓解该现象，而SiamDW则设计一种新的内部裁剪残差模块，将padding影响的特征裁剪出去。这两类算法从不同的角度解决了学习存在的位置偏见，使得跟踪性能进一步提升。模板更新问题对于长程的目标跟踪任务至关重要，现有基于孪生网络的跟踪器通常仅使用初始模板，而初始帧虽然可靠，但无法有效表示目标所有的外观状态。在长程的视频序列中，目标的外观通常会发生动态变化，模板更新则是为了维持模板的有效性，减小跟踪偏移的风险。目前，存在一些工作尝试解决跟踪过程中的模板更新问题。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中视频跟踪算法存在无法准确预测边框尺度大小，造成位置跟踪偏差的技术问题。同时现有的基于孪生网络的跟踪算法仅利用初始目标状态作为模板特征，在长程跟踪过程中存在模板退化问题，无法跟踪目标的动态变化。

发明内容

本申请实施例通过提供一种基于孪生网络的视觉跟踪算法及多模板更新策略，解决了现有技术中视频跟踪算法存在无法准确预测边框尺度大小以及模板退化问题。鉴于上述问题，提出了本申请实施例提供一种基于孪生网络的视觉跟踪算法及多模板更新策略。

第一方面，本申请实施例提供了一种基于孪生网络的视觉跟踪算法，所述算法包括孪生子网络、预测网络，所述算法包括：利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；通过预测网络的回归子网络对响应特征图进行融合，输出每个位置的偏移量；本发明采用尺度正则化的交并比损失函数训练边界框回归网络；另一方面，本申请还提供了一种多模板更新策略，嵌入应用于所述算法中，所述多模板更新策略包括：预设模板池基数；获得跟踪过程中的目标外观状态信息；根据所述预设模板池基数、所述目标外观状态信息，构建模板池；获得初始模板；将所述初始模板作为第一查询量，对所述模板池进行元素检索，获得第一模板；将初始模板的响应特征图和当前第一模板的响应特征图分别送入预测网络，最后在输出端作融合生成最终的响应图和边界框。

第三方面，本申请还提供了一种基于孪生网络的视频跟踪器，其中，所述视频跟踪器包括所述的算法和所述的多模板更新策略。

第四方面，本申请还提供了一种基于孪生网络的视觉跟踪系统，所述系统包括：

第一提取单元，所述第一提取单元用于利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；

第一获得单元，所述第一获得单元用于利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；

第二获得单元，所述第二获得单元用于通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；

第三获得单元，所述第三获得单元用于通过预测网络的回归子网络对所述响应特征进行融合，输出每个位置坐标的偏移量，其中，所述回归子网络采用尺度正则化的交并比损失函数来训练网络参数。

第五方面，本发明提供了一种基于孪生网络的视觉跟踪系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面所述算法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、本申请实施例提供了一种基于孪生网络的视觉跟踪算法，所述算法包括孪生子网络、预测网络，所述算法包括：利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；通过预测网络的回归子网络对所述特征进行融合，输出每个位置的偏移量。通过增加边界框的尺度惩罚正则化项，可以解决当前技术中根据预测的边界框和真值框的交并比来计算损失，交并比仅能衡量两者的重叠度，但是无法准确预测边界框的尺度大小。增加边界框的尺度惩罚正则化项弥补了这一缺点，不仅考虑了边界框与真值的重叠度，同时能够预测边界框的长宽比，进一步提高预测网络对目标边框的拟合度。从而解决了现有技术中视频跟踪算法存在无法准确预测边框尺度大小，造成位置跟踪偏差的技术问题。达到了增加边界框的尺度惩罚正则化项实现了不仅考虑边界框与真值的重叠度，同时能够预测边界框的长宽比，进一步提高预测网络对目标边框的拟合度，准确预测边框尺度大小，避免位置跟踪偏差的技术效果。

2、本申请实施例提供了一种多模板更新策略，嵌入应用于所述算法中，所述多模板更新策略包括：预设模板池基数；获得跟踪过程中的目标外观状态信息；根据所述预设模板池基数、所述目标外观状态信息，构建模板池；获得初始模板；将所述初始模板作为第一查询量，对所述模板池进行元素检索，获得当前第一模板；分别计算所述初始模板、所述第一模板与搜索帧特征的相关滤波，获得初始模板的相关特征图、当前第一模板相关特征图；所述初始模板相关特征图、当前第一模板相关特征图分别送入预测网络中，在输出端作融合操作生成最终预测值。在目标跟踪过程中，维护一个固定大小的模板池，该模板池中存储了跟踪过程中目标的不同外观状态，从中选择一个最优的状态作为模板，用于辅助当前帧的目标跟踪，避免单一模板匹配的局限性，实现既捕捉了视频中目标的动态变化，又缓解了单一模板带来的模板退化问题，减小跟踪漂移的风险，从而解决了现有技术中仅使用初始模板，无法有效表示目标所有的外观状态。在长程的视频序列中，目标的外观通常会发生动态变化，造成模板退化的问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于孪生网络的视觉跟踪算法的流程示意图；

图2为本申请实施例一种多模板更新策略的流程示意图；

图3为本申请实施例一种基于孪生网络的视觉跟踪系统的结构示意图；

图4为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一提取单元11，第一获得单元12，第二获得单元13，第三获得单元14，总线300，接收器301，处理器302，发送器303，存储器304，总线接口305。

具体实施方式

本申请实施例通过提供一种基于孪生网络的视觉跟踪算法及多模板更新策略，解决了现有技术中视频跟踪算法存在无法准确预测边框尺度大小，造成位置跟踪偏差的技术问题。下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

视觉跟踪算法主要分为两大类别：生成式方法和判别式跟踪方法。本文主要关注于判别式跟踪算法，即将跟踪问题形式化为训练分类器，当前帧目标区域为正样本，背景区域为负样本，训练一个分类器，用于区分前景目标和背景，然后在下一帧寻找最优区域。在判别式跟踪算法中，最受关注的是基于相关滤波的方法。近些来，随着深度学习在计算机视觉的广泛应用，将相关滤波和卷积神经网络相结合的基于孪生网络的算法应运而生。基于孪生网络的跟踪器大致可分为两类：anchor-based和anchor-free跟踪算法。为了解决SiamFC网络无法精确预测边界框的问题。提出了基于区域候选网络的孪生跟踪器SiamRPN。区域候选网络是目标检测算法FasterRCNN提出，专门用于回归候选框的网络结构，通过预测锚框的偏移量来预测边界框，大大提高了跟踪精度，但同时相比SiamFC速度有所下降。基于孪生网络的相关跟踪器随着网络的加深，跟踪准确性上升幅度逐渐减小，算法存在上限，其原因在于网络中的padding操作会网络的学习产生位置偏见。针对此，SiamRPN++和SiamDW采用了两种不同的策略解决这个问题，SiamRPN++提出对数据作偏移采样可以缓解该现象，而SiamDW则设计一种新的内部裁剪残差模块，将padding影响的特征裁剪出去。这两类算法从不同的角度解决了学习存在的位置偏见，使得跟踪性能进一步提升。模板更新问题对于长程的目标跟踪任务至关重要，现有基于孪生网络的跟踪器通常仅使用初始模板，而初始帧虽然可靠，但无法有效表示目标所有的外观状态。在长程的视频序列中，目标的外观通常会发生动态变化，模板更新则是为了维持模板的有效性，减小跟踪偏移的风险。但现有技术中视频跟踪算法存在无法准确预测边框尺度大小，造成位置跟踪偏差的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；通过预测网络的回归子网络对所述响应特征进行融合，输出每个位置坐标的偏移量，其中，所述回归子网络采用尺度正则化的交并比损失函数来训练网络参数。达到了增加边界框的尺度惩罚正则化项实现了不仅考虑边界框与真值的重叠度，同时能够预测边界框的长宽比，进一步提高预测网络对目标边框的拟合度，准确预测边框尺度大小，避免位置跟踪偏差的技术效果。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于孪生网络的视觉跟踪算法，所述算法包括孪生子网络、预测网络，所述算法包括：

步骤S100：利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；

具体而言，基于孪生网络的视觉跟踪算法因为能够较好的平衡跟踪速度和精度两个因素，利用孪生子网络作为特征提取网络，通过共享权重的孪生子网络分别提取目标模板特征即模板特征和搜索帧特征即搜索特征。

步骤S200：利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；

步骤S300：通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；

进一步而言，所述分类子网络采用卷积块堆积而成，每个所述卷积块由3x3卷积层、BN层和激活层构成。

具体而言，经过相关操作后，网络会送入预测网络进行预测，预测网络则解耦为分类和回归两个子任务，分类子网络采用卷积块堆叠而成，用于融合响应特征图的通道信息。每个卷积块由3x3卷积层、BN层和ReLU激活层构成。最后利用1个3x3的卷积层生成最后的类别标签，由于跟踪仅需要分类正样本，因此类别通道的个数设置为2。

步骤S400：通过预测网络的回归子网络对所述响应特征进行融合，输出每个位置坐标的偏移量，其中，所述回归子网络采用尺度正则化的交并比损失函数来训练网络参数。

具体而言，与分类分支网络近似，回归分支也利用卷积块设计用于特征融合，最后输出每个位置的偏移量，每个位置由四维的向量表示，表示该位置坐标距离四个边的距离。为了获得更加精确的边界框，本申请实施例提出了尺度正则化的交并比损失函数(Scaleregularited Intersection over Union，SIoULoss)，在IoUloss的基础上，增加了边界框的尺度惩罚正则化项。IoULoss根据预测的边界框和真值框的交并比来计算损失，交并比仅能衡量两者的重叠度，但是无法准确预测边界框的尺度大小。因此SIoULoss弥补了这一缺点，不仅考虑了边界框与真值的重叠度，同时能够预测边界框的长宽比，进一步提高预测网络对目标边框的拟合度。边界框回归损失函数由IoU损失和尺度正则化项构成

其中ρ表示欧式距离，w和h分别表示预测框的宽度和高度，w^gt和h^gt表示真值框的宽度和高度，C_w和C_h则表示最小外接矩阵的宽度和高度，γ表示权重系数。达到了增加边界框的尺度惩罚正则化项实现了不仅考虑边界框与真值的重叠度，同时能够预测边界框的长宽比，进一步提高预测网络对目标边框的拟合度，准确预测边框尺度大小，避免位置跟踪偏差的技术效果。

实施例二

如图2所示，本申请实施例提供了一种多模板更新策略，嵌入应用于实施例一所述算法中，所述多模板更新策略包括：

将本实施例多模板更新策略嵌入实施例一的算法中，进一步提高跟踪准确度，避免位置根据偏差，多模板更新策略只要包括三方面的问题：1.模板池的更新；2.最优模板的选择策略。3.模板的融合策略。

步骤S1000：预设模板池基数；

具体而言，设置模板池大小，即放多少个模板在其中，预设模板池基数不应设置过大，模板池过大不仅会包含目标的冗余状态，而且增加模板检索的复杂度，从而降低跟踪的速度；模板池过小则无法有效存储目标的不同状态，模板池大小经验性设置为5到10。

步骤S2000：获得跟踪过程中的目标外观状态信息；

具体而言，在目标跟踪过程中，维护一个固定大小的模板池，该模板池中存储了跟踪过程中目标的不同外观状态，通过不同外观状态确保在长程的视频序列中，目标的外观发生动态变化，模板进行更新维持了模板的有效性，从而减小跟踪偏移的风险，又缓解了单一模板仅使用初始模板带来的模板退化问题。

步骤S3000：根据所述预设模板池基数、所述目标外观状态信息，构建模板池；

进一步而言，所述根据所述预设模板池基数、所述目标外观状态信息，构建模板池之后，本申请实施例步骤S3000包括：

步骤S3100：根据所述模板池，获得模板池元素相关能量指标；

步骤S3200：根据所述模板池元素相关能量指标，获得模板池能量指标均值；

步骤S3300：获得当前帧响应图的相关能量指标；

步骤S3400：获得预设能量阈值；

步骤S3500：根据所述预设能量阈值、所述模板池能量指标均值，获得模板池更新能量标准值；

步骤S3600：当所述当前帧响应图的相关能量指标超出所述模板池更新能量标准值时，获得第一更新指令，所述第一更新指令用于将所述当前帧的目标位置特征添加至所述模板池中。

进一步而言，所述获得第一更新指令之后，本申请实施例步骤S3600包括：

步骤S3610：判断所述模板池的元素数量是否超出所述预设模板池基数；

步骤S3620：当超出时，获得第一删除指令，所述第一删除指令用于将所述模板池中保存时间最长的模板进行删除。

具体而言，何时更新模板，涉及到更新时机的选择问题，也关系到模板池中模板的有效性，由于无法预先获得视频序列中跟踪目标的先验知识(如：类别信息)和目标所在的环境信息，因此需要根据目标的外观变化选择合适的时机更新模板，视频序列中图像帧间的时序信息是非常重要的特征，但是现阶段建模时序信息是非常有挑战性的工作。平均峰值相关能量(average peak cross energy,APCE)指标可以用于判断跟踪结果的可靠性，APCE值越大，代表响应图的分布比较理想，置信度大的像素区域比较集中，边缘背景区域置信度值较小。因此我们通过响应图的apce指标来判断是否更新模板池，维护模板池的同时利用变量apce_mean来表示模板池中所有元素的apce的均值，当且仅当当前帧响应图的apce超过apce_mean一定的阈值，将当前帧目标位置的特征添加到模板池中。这一操作不仅保证了模板池中的每个元素的可靠性，同时使模板池中始终保持对目标不同状态的有效表示。我们以队列的数据结构存储目标的模板，当元素个数超过设定的阈值时，遵循先入先出的更新方式，即最先加入模板池的模板先被更新，以此类推。

步骤S4000：获得初始模板；

步骤S5000：将所述初始模板作为第一查询量，对所述模板池进行元素检索，获得第一模板，所述第一模板用于辅助所述初始模板；

进一步而言，所述将所述初始模板作为第一查询量，对所述模板池进行元素检索，获得第一模板，本申请实施例步骤S5000包括：

步骤S5100：分别计算所述初始模板与所述模板池中每个元素的相似度；

步骤S5200：根据所有相似度，获得第一相似度，所述第一相似度为最小相似度；

步骤S5300：根据所述第一相似度，获得模板池元素；

步骤S5400：根据所述模板池元素，获得所述第一模板。

具体而言，模板退化主要原因在初始模板与当前帧搜索目标对象的外观差别较大，使得孪生网络后续的分类分支与回归分支生成的边界框不精确，从而增加了跟踪漂移的风险。而模板池中的元素反映了目标在视频序列中的动态变化，因此从模板池中选择恰当的目标特征可以弥补单一初始模板带来的模板退化问题。本发明以初始模板作为第一查询量，从模板池中检索到最佳的元素，从而解决模板选择问题。我们通过计算初始模板与模板池每个元素的相似度，选择相似度最小的元素作为当前模板，该选择策略的初衷在于好的模板能弥补初始模板的不足，因此差异性越大表示该元素捕获了与初始模板不同的另一个角度的目标外观状态。

步骤S6000：分别计算所述初始模板、所述第一模板与搜索特征的相关滤波，获得初始模板相关度、第一模板相关度；

步骤S7000：将初始模板的响应特征图和当前模板的响应特征图分别送入预测网络，最后在输出端作融合生成最终的响应图和边界框。

进一步而言，所述最终预测值为所述初始模板输出预测值与所述第一模板输出预测值的加权平均。

具体而言，模板选择后，为了避免直接加和操作带来的模板污染问题，本申请实施例分别计算初始模板和第一模板即选择的当前模板与搜索帧图像特征的相关滤波，然后在分类子网络和回归子网络的输出作融合生成最后的响应图和边界框。本申请实施例采用对预测结果采用简单的线性加权的融合方式，不但弥补了初始模板信息量不足的缺陷，而且使得该模板更新策略无需训练即可适应于基于孪生网络框架的跟踪器算法。达到了利用目标不同状态的多模板进行最优状态模板的选择更新，用于辅助当前帧的目标跟踪，避免单一模板匹配的局限性，实现既捕捉了视频中目标的动态变化，又缓解了单一模板带来的模板退化问题，减小跟踪位移的风险，从而解决了现有技术中仅使用初始模板，无法有效表示目标所有的外观状态。在长程的视频序列中，目标的外观通常会发生动态变化，造成跟踪位置偏移的技术问题。

实施例三

本申请实施例提供了一种基于孪生网络的视频跟踪器，包括实施例一所述基于孪生网络的视频跟踪算法及实施例二所述的多模板更新策略。

一个高质量的孪生网络跟踪器框架通常满足以下要求：1.获取强有力目标的特征表达，2.准确衡量模板特征和搜索帧特征的相关程度，3.精确预测目标的位置和边界框的大小。4.在跟踪期间采取有效的模板更新策略保证跟踪的稳定性。利用实施例一所述的算法和实施例二所述的多模板更新策略有效提升了上述几方面的要求。

实施例一中的一种基于孪生网络的视觉跟踪算法的各种变化方式和具体实例、实施例二中一种多模板更新策略的各种变化方式和具体实例同样适用于本实施例的一种基于孪生网络的视频跟踪器，通过前述对一种基于孪生网络的视觉跟踪算法和一种多模板更新策略的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于孪生网络的视频跟踪器的实施方法，所以为了说明书的简洁，在此不再详述。

实施例四

为了更加具体了解本申请实施例的一种基于孪生网络的视频跟踪算法、一种多模板更新策略，下面结合具体的实验设置及实验结果分析进行详细介绍。

实验设置：采用ResNet50作为基础主干网络，该网络参数预训练在ImageNet数据集上，利用预训练的网络参数初始化模型。为了有效利用多尺度层级特征，将ResNet50后三个残差模块的输出在通道上级联在一起。模板图像和搜索帧图像的大小分别为127，255，输出的响应图大小为25x25。本实施例选择随机梯度下降算法(Stochastic gradientdescent,SGD)作为优化器训练网络模型，初始学习率为0.005，学习率采用指数衰减的策略。整个网络一共迭代训练20轮，在前5个epoch，采用warmup策略预训练网络模型。前10个epoch，冻结主干网络的参数，然后在第11个epoch解冻主干网络的后三个残差模块。训练数据集来自COCO、ImageNetVID、YouteBB、ImageNet DET，从视频序列中采样模板图像和搜索图像二元组作为训练样本。模板图像和搜索图像的最大间隔设置为200帧，每轮训练采样600000的样本，batch size大小设置为64。

将多模板更新策略嵌入到基于孪生网络的视频跟踪算法中，为了便于区分，将其命名为MTTracker。实验超参数设置如下，首先模板池大小设置为5。模板池过大不仅会包含目标的冗余状态，而且增加模板检索的复杂度，从而降低跟踪的速度；模板池过小则无法有效存储目标的不同状态。初始模板特征与待选模板池中的元素之间的相似性度量函数选择欧式距离。融合策略中的权重因子经验性设置为0.8，该参数衡量了在跟踪期间初始模板的可信度，最终的预测值为初始模板和当前模板输出预测值的加权平均。

实验结果分析：OTB50数据集结果

OTB50在2013年被提出，包含50个视频序列，其中25％为灰度序列。通过实验人员手动标记了11种不同属性的测试序列，代表了视觉跟踪任务中的挑战性的方面。如光照变化，尺度变化，遮挡，外观形变，非刚性的物体形变，运动模糊，快速运动，平面内旋转，平面外旋转，离开视野，背景干扰，目标分辨率较低这些不同的属性覆盖了跟踪任务的多个场景，能够有效全面评估跟踪器的性能，因此OTB数据集作为benchmark被广泛应用到衡量不同目标跟踪算法的好坏。OTB的评价指标主要有准确率图(precision plot)和成功率图(success plot)OTB50数据集每个视频的平均帧数较多，属于长程跟踪任务。目标在其场景的变化比较频繁，因此跟踪任务更具有挑战型，非常适用于测试模板更新策略。本实施例将提出的多模板更新算法和多个现有的跟踪器进行比较，首先从整体的精度图和成功率图指标上，本实施例的算法MTTracker实现了最好的结果。在基准算法的基础上嵌入多模板更新策略，MTTracker通过牺牲较小跟踪速度的代价，就可以实现在精度和成功率两个指标上分别提升2.2％和2.1％，如下表1、表2所示，MTTracker实现了在跟踪速度和精度的平衡。

表1：OTB50数据集的实验结果(PRE，SUC分别表示精度和成功率)

表2：OTB50数据集上不同属性视频序列的实验结果

OTB50数据集包含11中不同属性的视频序列，包括光照变化，尺度变化，物体形变，动作模糊，快速运动，旋转，背景干扰等。为了进一步分析MTTracker在不同属性视频上的增益，接下来将对每个属性的视频序列的跟踪结果单独进行分析。从表格1中我们发现，针对于背景干扰(Background Clutter，BC)，光照变化(Illumination Variation，IV)，运动模糊(Motion Blur，MB)，遮挡(Occlusion，OCC)，平面外旋转(Out-of-plane Rotation，OPR)，尺度变化(Scale Variation，SV)，超出视野(Out of view，OV)，外观形变(Deformation，DEF)的跟踪场景，多模板更新策略提升的跟踪效果比较明显，而多模板更新策略对于快速运动(Fast Motion，FM)，平面内旋转(In-Plane Rotation)，分辨率低(Low Resolution，LR)等跟踪场景有略微的提升。

UAV123数据集结果

UAV123主要是以空中的角度视野拍摄的视频序列，该数据集旨在用于长程的空中目标的跟踪。UAV123总共包含123个视频序列，超过110K帧的图像数据。数据中的对象主要包含快速运动，大尺度变化，光照变化和遮挡等模式，使得跟踪具有一定的挑战性。所有的视频序列使用标准的边界框完全注释，同时包含了视频的属性标注信息。本实施例将本申请的一种基于孪生网络的视频跟踪算法与SiamCAR，SiamRPN++，DaSiamRPN，ECO等多个跟踪算法进行比较，如下表3所示。本申请的一种基于孪生网络的视频跟踪算法取得了最好的结果，同时可以发现在本申请的一种基于孪生网络的视频跟踪算法上增加模板更新策略后，MTTracker可以在精度和成功率两个指标上分别实现0.5％和1.3％的提升，实验验证了本申请实施例的有效性。

表3：UAV123的实验对比结果

实施例五

基于与前述实施例中一种基于孪生网络的视觉跟踪算法同样发明构思，本发明还提供了一种基于孪生网络的视觉跟踪系统，如图3所示，所述系统包括：

第一提取单元11，所述第一提取单元11用于利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；

第一获得单元12，所述第一获得单元12用于利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；

第二获得单元13，所述第二获得单元13用于通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；

第三获得单元14，所述第三获得单元14用于通过预测网络的回归子网络对所述响应特征图进行融合，输出每个位置的偏移量。

进一步而言，所述分类子网络和回归子网络采用卷积块堆积而成，每个所述卷积块由3x3卷积层、BN层和激活层构成。

前述图1实施例一中的一种基于孪生网络的视觉跟踪算法的各种变化方式和具体实例同样适用于本实施例的一种基于孪生网络的视觉跟踪系统，通过前述对一种基于孪生网络的视觉跟踪算法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于孪生网络的视觉跟踪系统的实施方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图4来描述本申请实施例的电子设备。

图4图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种基于孪生网络的视觉跟踪算法的发明构思，本发明还提供一种基于孪生网络的视觉跟踪系统，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种基于孪生网络的视觉跟踪算法的任一方法的步骤。

其中，在图4中，总线架构(用总线300来代表)，总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

1、本申请实施例提供了一种基于孪生网络的视觉跟踪算法，所述算法包括孪生子网络、预测网络，所述算法包括：利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；通过预测网络的回归子网络对所述特征图进行融合，输出每个位置的偏移量。通过增加边界框的尺度惩罚正则化项。可以解决当前技术中根据预测的边界框和真值框的交并比来计算损失，交并比仅能衡量两者的重叠度，但是无法准确预测边界框的尺度大小。增加边界框的尺度惩罚正则化项弥补了这一缺点，不仅考虑了边界框与真值的重叠度，同时能够预测边界框的长宽比，进一步提高预测网络对目标边框的拟合度。从而解决了现有技术中视频跟踪算法存在无法准确预测边框尺度大小，造成位置跟踪偏差的技术问题。

2、本申请实施例提供了一种多模板更新策略，嵌入应用于所述算法中，所述多模板更新策略包括：预设模板池基数；获得跟踪过程中的目标外观状态信息；根据所述预设模板池基数、所述目标外观状态信息，构建模板池；获得初始模板；将所述初始模板作为第一查询量，对所述模板池进行元素检索，获得第一模板，所述第一模板用于辅助所述初始模板；分别计算所述初始模板、所述第一模板与搜索特征的相关滤波，获得初始模板相关度、第一模板相关度；通过预测网络的分类子网络和回归子网络对所述初始模板相关度、第一模板相关度进行融合，生成最终预测值。在目标跟踪过程中，维护一个固定大小的模板池，该模板池中存储了跟踪过程中目标的不同外观状态，从中选择一个最优的状态作为模板，用于辅助当前帧的目标跟踪，避免单一模板匹配的局限性，实现既捕捉了视频中目标的动态变化，又缓解了单一模板带来的模板退化问题，减小跟踪位移的风险，从而解决了现有技术中仅使用初始模板，无法有效表示目标所有的外观状态。在长程的视频序列中，目标的外观通常会发生动态变化，造成跟踪漂移的技术问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于孪生网络的视觉跟踪算法，所述算法包括孪生子网络、预测网络和损失函数的设计，其中，所述算法包括：

利用孪生子网络提取特征，所述特征包括模板特征、搜索特征；

利用可分离卷积衡量所述模板特征与搜索特征每个通道上模式的相关度，获得响应特征图；

通过预测网络的分类子网络融合所述响应特征图的通道信息，获得预测类别；

通过预测网络的回归子网络对所述响应特征进行融合，输出每个位置坐标的偏移量，其中，所述回归子网络采用尺度正则化的交并比损失函数来训练网络参数。

2.如权利要求1所述的算法，其中，所述回归子网络采用尺度正则化的交并比损失函数来训练网络参数，包括：

所述回归损失函数由IoU损失和尺度正则化项构成，公式为

其中ρ表示欧式距离，w和h分别表示预测框的宽度和高度，w^gt和h^gt表示真值框的宽度和高度，C_w和C_h则表示最小外接矩阵的宽度和高度，γ表示正则化系数。

3.一种多模板更新策略，应用于权利要求1-2所述算法中，其中，所述多模板更新策略包括：

预设模板池基数；

获得跟踪过程中的目标外观状态信息；

根据所述预设模板池基数、所述目标外观状态信息，构建模板池；

获得初始模板；

将所述初始模板作为第一查询量，对所述模板池进行元素检索，获得第一模板，所述第一模板用于辅助所述初始模板；

分别计算所述初始模板、所述第一模板与搜索特征的相关滤波，获得初始模板相关度、第一模板相关度；

通过预测网络的分类子网络和回归子网络对所述初始模板相关度和第一模板相关度进行预测，并在输出端进行融合，输出最终预测值。

4.如权利要求3所述的多模板更新策略，其中，根据所述预设模板池基数、所述目标外观状态信息，构建模板池，包括：

根据所述模板池，获得模板池中每个元素的相关能量指标；

根据所述模板池元素相关能量指标，获得模板池能量指标均值；

获得当前帧的类别响应图的相关能量指标；

获得预设能量阈值；

根据所述预设能量阈值、所述模板池能量指标均值，获得模板池更新能量标准值；

当所述当前帧响应图的相关能量指标超出所述模板池更新能量标准值时，获得第一更新指令，所述第一更新指令用于将所述当前帧检测的目标状态特征添加至所述模板池中。

5.如权利要求4所述的多模板更新策略，其中，所述获得第一更新指令之后，包括：

判断所述模板池的元素数量是否超出所述预设模板池基数；

当超出时，获得第一删除指令，所述第一删除指令用于将所述模板池中保存时间最长的模板进行删除。

6.如权利要求3所述的多模板更新策略，其中，所述将所述初始模板作为第一查询量，对所述模板池进行元素检索，获得第一模板，所述第一模板用于辅助所述初始模板，包括：

分别计算所述初始模板与所述模板池中每个元素的相似度；

根据所有相似度，获得第一相似度，所述第一相似度为最小相似度；

根据所述第一相似度，获得模板池元素；

根据所述模板池元素，获得所述第一模板。

7.如权利要求3所述的多模板更新策略，其中，所述最终预测值为所述初始模板输出预测值与所述第一模板输出预测值的加权平均。

8.一种基于孪生网络的视频跟踪器，其中，所述视频跟踪器包括权利要求1-2任一所述算法和权利要求3-7任一所述多模板更新策略。

9.一种基于孪生网络的视觉跟踪系统，应用于权利要求1-2任一所述算法，其中，所述系统包括：

10.一种基于孪生网络的视频跟踪系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-2所述算法的步骤。