CN112164094A

CN112164094A - 一种基于孪生网络的快速视频目标跟踪方法

Info

Publication number: CN112164094A
Application number: CN202011004976.8A
Authority: CN
Inventors: 葛洪伟; 邵江南; 杨金龙; 江明
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2021-01-01

Abstract

本发明公开了一种基于孪生网络的快速视频目标跟踪方法，属于模式识别和智能信息处理领域。该方法利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支，得到SiamRCCA模型，并设定相似性响应图的损失掩码Mask_n×n，并在离线训练SiamRCCA模型时根据Mask_n×n提高难分样本损失值的权重，增强了对相似语义目标的辨别力，解决了跟踪过程中目标形变、相似物体干扰等复杂情况下容易跟踪漂移或丢失的问题，且SiamRCCA模型为非对称结构，即残差连接和注意力模块均只应用于模板分支即对首帧目标的特征提取阶段，避免了在双分支网络中简单地增加网络层而影响跟踪速度，同时充分利用第一帧目标信息，提升了模型的跟踪精度。

Description

一种基于孪生网络的快速视频目标跟踪方法

技术领域

本发明涉及一种基于孪生网络的快速视频目标跟踪方法，属于模式识别和智能信息处理领域。

背景技术

目标跟踪是计算机视觉的重要分支之一，广泛应用于人机交互、智能机器人、自动驾驶、视频监控和智慧城市等领域。尽管视觉跟踪技术在过去数十年中得到了长足的发展，但由于目标遮挡、尺度变化、快速运动、相似物体干扰等跟踪环境因素的复杂多变，且实时性与精度要求高，仍面临着严峻的挑战。

近年来，深度学习发展日趋成熟，在目标跟踪领域内的应用也越来越广泛。深度学习能够利用大量已知数据训练网络模型学习对目标特征信息的拟合能力，能够捕捉目标的深度语义特征，具有强大的表征能力，因而众多结合深度卷积神经网络的目标跟踪算法开始涌现并吸引大量国内外学者不断研究和探索。而由于基于分类网络的深度跟踪算法速度慢且模型提取的特征难以保留位置和纹理信息等问题，孪生网络(Siamese Network)模型开始被应用于目标跟踪并逐渐占据主导地位：

Bertinetto等(Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional siamese networks for object tracking[C]//European conference oncomputer vision.Springer,Cham,2016:850-865.)提出基于全卷积孪生网络的视觉跟踪算法SiamFC，使用两个相同结构和参数的网络分支提取目标和候选域特征，通过卷积操作进行相似性计算，从而估计目标位置，这种简单而有效的模型结构大大提升了跟踪速度与精度。此后，基于SiamFC改进的孪生跟踪算法层出不穷：

Li等将区域建议网络与孪生网络结合提出SiamRPN算法，通过替换传统的尺度金字塔得到更广泛的采样区间，并使用分类分支和回归分支分别用于判别目标和微调模型输出的目标位置；Li等将较深层的VGG-16卷积网络用于特征提取提出SiamVGG算法，通过利用更高维度的目标特征获得更鲁棒的特征表达，从而提高跟踪效果；Zhang等则提出了SiamDW跟踪算法，通过设计CIR(cropping-inside residual units)块缓和深层网络中所使用的padding操作会造成目标空间信息丢失的问题，从而将ResNet、Inception这样更深更宽的网络模型用于目标跟踪领域中来。

这些基于相似性学习的孪生网络模型，依赖于视频域第一帧目标特征的有效性，而大多数的孪生网络算法都不能充分利用首帧目标信息，多只通过引入更深、更复杂的网络模型提取更高维度的目标特征，这在一定程度上提高了跟踪精度，但也增加了模型训练的复杂度并严重影响了跟踪速度；且由于卷积特征的平移不变性，孪生跟踪模型难以应付相似语义物体的干扰。

发明内容

为了解决上述至少一个问题，本发明提供了一种基于孪生网络的快速视频目标跟踪方法，所述方法包括：

利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支，得到目标跟踪网络模型SiamRCCA；

设定相似性响应图的损失掩码Mask_n×n，并在离线训练SiamRCCA模型时根据Mask_n×n提高难分样本损失值的权重；所述相似性响应图的损失掩码Mask_n×n为：

Mask_n×n＝Norm(Relu(V_n×n-V_n×n[t]))

其中，Norm(·)为归一化操作，V_n×n为相似度响应值图，大小为n×n；V_n×n[t]为SiamRCCA模型对真实目标点t的响应值；Relu(·)为激活函数；

采用离线训练完成后的SiamRCCA模型进行目标跟踪。

可选的，所述利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支，包括：

对SiamFC孪生网络模型的模板分支的第二层卷积特征F_2,256*12*12进行下采样操作，得到下采样特征F_2d,256*6*6；

对模板分支所提取到的首帧目标特征F_ori,256*6*6，通过全局平均池化和全连接层，确定相应特征通道权重并捕捉各特征通道和其相邻k＝3个通道之间的依赖关系，得到1*256维度的通道加权系数C_1*256；

利用C_1*256对F_ori,256*6*6各对应特征通道进行加权，通过残差连接将加权后所得特征和下采样特征F_2d,256*6*6进行线性融合，得到最终的模板分支特征。

可选的，所述方法包括：

(1)同时迭代训练SiamRCCA模型的模板分支和搜索分支，训练时通过所述损失掩码提高难分负样本的损失值权重；

(2)输入视频帧序列和第1帧图像N₁的目标位置(X₁,Y₁,H₁,W₁)，其中X₁为目标中心位置横坐标，Y₁为目标中心位置纵坐标，H₁为跟踪边界框高度，W₁为跟踪边界框宽度；

(3)通过SiamRCCA模板分支提取第1帧图像N₁的目标特征F₁；

(4)对于视频帧序列第t帧图像N_t，取(X_t-1,Y_t-1,3H_t-1+W_t-1,3W_t-1+H_t-1)区域作为搜索框，并将搜索框分别放缩尺度S₁、S₂、S₃后截取三个不同大小的候选域，并将所有候选域统一双三次插值为255×255大小，得到三个相同大小的搜索域；

(5)通过SiamRCCA搜索分支提取上述三个搜索域的深度特征，并分别计算与目标特征F₁的相似度响应，得到响应图分别记为：Response₁、Response₂、Response₃；

(6)计算最大响应值所对应的响应图Response_k和放缩尺度S_k，k∈{1,2,3}；

(7)利用余弦窗对Response_k进行边缘响应值抑制；

(8)通过放缩尺度S_k和8)进行边缘响应值抑制处理后的Response_k的最大值位置计算当前帧目标位置(X_t,Y_t,H_t,W_t)；

(9)重复步骤(4)～(8)，直至当前序列所有帧跟踪结束，以确定目标在当前帧中的位置。

可选的，优化后的最小化损失函数L(Y_n×n,V_n×n)为：

μ为控制损失掩码在损失值计算中的影响系数，V_n×n[i]为SiamRCCA模型输出的相似性响应图中的第i点的响应值；Y_n×n[i]∈[0,1]为相应点真实样本类别，其中1为正样本中心区域点，其余为0；Mask_n×n[i]为SiamRCCA模型输出的相似性响应图中的第i点对应的损失掩码。

可选的，迭代训练SiamRCCA模型的模板分支和搜索分支时，设定训练学习率初始值为0.01，衰减系数为0.8685，训练50个epoch，模型激活函数为Mish，采用随机梯度下降优化策略对最小化损失函数L(Y_n×n,V_n×n)进行优化，其中：Y_n×n为真实样本分布，V_n×n为SiamRCCA模型输出的相似性响应值图。

可选的，所述Norm(·)为：

其中，S为归一化的向量。

可选的，所述尺度S₁、S₂、S₃分别取值：

S₁＝1.0572^-1，S₂＝1，S₃＝1.0572。

可选的，对Response_k进行边缘响应值抑制时，余弦窗权重系数设置为0.2356。

本发明还提供一种目标跟踪网络模型SiamRCCA，所述目标跟踪网络模型为利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支得到模型。

本发明还提供一种基于孪生网络的快速视频目标跟踪方法在人机交互、智能机器人、自动驾驶、视频监控和智慧城市中的应用方法，所述基于孪生网络的快速视频目标跟踪方法为利用上述目标跟踪网络模型SiamRCCA进行目标跟踪的方法。

本发明有益效果是：

(1)本发明使用残差连接融合浅层结构特征与深层语义特征，提高了模型的表征能力，使得模型在利用深层的语义信息进行候选样本判别的同时能够利用浅层结构特征以实现更精确的目标定位。

(2)本发明引入ECA通道注意力模块，使模型自适应地对不同语义目标特征通道加权，提高了模型的泛化能力。

(3)本发明设计一种基于相关性响应值的权重掩码，在离线训练时对相似语义目标的损失值提高权重，以使模型在端到端的离线学习中增强对相似语义目标的辨别力，解决了跟踪过程中目标形变、相似物体干扰等复杂情况下容易跟踪漂移或丢失的问题。

(4)本发明的模型改进均集中于离线训练和模板分支的对第一帧目标特征提取阶段，充分利用首帧目标信息，克服了现有跟踪方法只能通过引入更深、更复杂的网络模型提高跟踪精度带来的跟踪速度慢的问题，而且SiamRCCA模型为非对称结构，即残差连接和注意力模块均只应用于模板分支即对首帧目标的特征提取阶段，避免了在双分支网络中简单地增加网络层而影响跟踪速度，最大程度地避免了对跟踪速度的影响，同时提升了模型的跟踪性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一个实施例的实现流程图。

图2是一个实施例的SiamRCCA模型的主要结构示意图。

图3是一个实施例中SiamRCCA模型各卷积层输出特征可视化图。

图4为一个实施例中SiamRCCA和对比跟踪算法在OTB2013标准数据集上综合精度和跟踪成功率对比图；其中图4A为综合精度；图4B为跟踪成功率。

图5为一个实施例中SiamRCCA和对比跟踪算法在OTB50标准数据集上综合精度和跟踪成功率对比图；其中图5A为综合精度；图5B为跟踪成功率。

图6为一个实施例中SiamRCCA和对比跟踪算法在OTB100标准数据集上综合精度和跟踪成功率对比图；其中图6A为综合精度；图6B为跟踪成功率。

图7为实施例一中SiamRCCA和对比跟踪算法在TempleColor128标准数据集上综合精度和跟踪成功率对比图；其中图7A为综合精度；图7B为跟踪成功率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为方便本领域技术人员了解本方案，首先对本领域涉及的基础理论进行介绍如下：

1.SiamFC算法

SiamFC网络模型由两个共享权重的分支组成：模板分支和搜索分支，分别用于对首帧目标和输入图像提取特征，并将所提取的特征输入到互相关层进行相似性计算，以实现对运动目标的定位跟踪。

SiamFC算法的关键是离线学习一个相似性度量函数f(·)，用于计算两个分支所提取特征的相似度，通过最高响应点预估目标位置，从而进行后续操作，函数f(·)如下所示：

式中：z为首帧目标图像，x为输入的搜索图像，

为各分支对相应图像所提取的深度特征，*为互相关运算；b∈R^n×n为各位置点取值的偏置信号，其中R^n×n为n×n的实数矩阵，n则表示矩阵维度。f(·)输出z和x间的相关性响应分值图，该图中最高值点即为目标相对位置。

在离线训练中，SiamFC通过在迭代训练时根据最小化损失函数来获取最优模型参数，最小化损失函数如下：

式中：V_n×n[i]为模型输出的相似性响应图中的第i点的响应值；Y_n×n[i]∈[0,1]为相应点真实样本类别，其中1为正样本中心区域点，其余为0。

2.通道注意力机制

注意力机制广泛应用于目标检测、图像分类和人体姿势估计等领域，能够使模型在训练中学习到对空间、特征通道和背景等信息的建模能力，有效提升卷积神经网络的表征性能。由于不同特征通道是从不同角度对目标深度信息进行建模，故针对不同目标特征通道所发挥的作用不同，通道间也存在着相互依赖关系，基于此Hu等提出SENet算法，通过显式地建模特征通道之间的相互依赖关系并自适应提取不同通道的权重，显著提升了模型图像分类能力；Wang等在SENet的基础上提出ECA-Net算法，通过使用1维卷积替代“压缩-激励(Squeeze-Ecxcitation)”操作，同时根据通道间依赖的局部性把单一通道的依赖关系提取依据特征维度限定在相邻的k(k<9)个通道以内，显著提升了模型对通道信息的建模速度。

实施例一：

本实施例提供一种基于孪生网络的快速视频目标跟踪方法，所述方法包括：

Mask_n×n＝Norm(Relu(V_n×n-V_n×n[t]))

采用离线训练完成后的SiamRCCA模型进行目标跟踪。

具体的，所述方法包括：

(3)通过SiamRCCA模板分支提取第1帧图像N₁的目标特征F₁；

(7)利用余弦窗对Response_k进行边缘响应值抑制；

实施例二：

本实施例提供一种基于孪生网络的快速视频目标跟踪方法(简称为SiamRCCA)，参见图1，所述方法包括：

步骤1、在SiamFC孪生网络模型的基础上，利用残差连接和通道注意力机制改进其模板分支，形成新的目标跟踪网络模型SiamRCCA。

如图2所示，本发明的SiamRCCA算法模型使用最近邻点插值法对第二层卷积特征F_2,256*12*12进行下采样操作，通过残差连接将得到的采样后的特征F_2d,256*6*6与最后一层卷积特征F_5,256*6*6进行线性融合。

通过端到端的离线训练，本发明SiamRCCA模型能够在一次次迭代中学习到结构特征和语义特征在融合中的相应权重，并在提取语义信息的同时保留目标的结构信息，通过结合目标的语义与结构特征进行相似性判别，从而实现鲁棒目标跟踪。

卷积神经网络通过逐层计算并前向传播最终生成目标高维深度特征，如图3所示，不同卷积层对表征目标信息的侧重点不同，深层网络有利于提取目标语义特征从而实现更高置信分类，浅层则更有利于保留目标的位置、轮廓、尺度、颜色等结构特征，但大多数的深度模型只利用最终层的输出特征表征样本，这在一定程度上造成了模型性能的损失和浪费。

由于目标跟踪的属性与分类任务存在本质区别，需要更深层的语义信息进行候选样本判别的同时，也需要更丰富的浅层结构特征以实现更精确的目标定位。因此，针对分类所提出的轻量级卷积神经网络AlexNet难以应付复杂的跟踪环境，VGG、RasNet等结构更深的卷积网络则大大影响了跟踪速度。基于此，本发明使用改进后的AlexNet作为模型骨干网络，通过融合不同层卷积特征，最大限度地在维持实时性能的同时增大网络模型的表征能力。

同时，不同特征通道为不同卷积核所提取，对应于不同类型的视觉模式和语义属性，对不同的目标来说，有些特征通道可能更为重要，而有些特征通道可能完全无关，这种无关于目标语义的特征通道常常会影响模型的相似性计算过程，从而影响跟踪结果。

如图2所示，本发明在对首帧目标的处理上，结合ECA设计通道注意力模块，对模板分支所提取到的首帧目标特征，通过全局平均池化(GAP)和全连接层(FC)确定相应特征通道权重，并捕捉各特征通道和其相邻k＝3个通道之间的依赖关系。通过这种通道注意力机制的引入，模型能够在端到端训练中学习到对不同语义目标的不同特征通道的重要性解读能力，从而自适应地对特征通道加权，以充分挖掘并利用首帧目标语义信息，提高模型的表征能力。

视频序列的第一帧目标信息对目标跟踪至关重要，除了外观、位置等结构数据，也能提供整个视频域的目标语义信息，这种语义信息能够被深度卷积神经网络(CNN)所提取。而大多数的孪生跟踪模型都不能充分利用首帧目标信息，只用于求取其在随后帧中的相似性响应。基于此，本发明的SiamRCCA算法所使用的残差连接和注意力模块均只应用于模板分支即对首帧目标的特征提取阶段，避免了在双分支网络中简单地增加网络层而影响跟踪速度。得益于这种非对称结构的网络模型设计，SiamRCCA能够在显著降低过拟合风险的同时提取更高维度(256*6*6,256*22*22)的特征，从而产生性能增益，增大了对首帧目标信息的利用的同时最大程度地保障了跟踪实时性。

步骤2、在GOT-10k标记数据集上同时迭代训练所设计网络模型的模板分支和搜索分支，训练学习率初始值为0.01，衰减系数为0.8685，训练50个epoch，模型激活函数为Mish，采用随机梯度下降SGD优化策略最小化损失函数L(Y_n×n,V_n×n)，其中：Y_n×n为真实样本分布，V_n×n为模型输出的相似性响应值图。

SiamFC在训练时直接将响应值图与目标分布图相减计算损失值，这样简单的损失函数虽能达到一定的效果，但是将所有的负样本都不加区分的认为是普通负样本，不利于模型学习到区分相似语义或外观属性的干扰物体即难分负样本的能力。

为了让模型在离线训练时增强对这种对相似目标的区分能力，本发明设计并实现了基于相似性响应图的损失掩码(Loss-Mask)，旨在每一次迭代损失值计算时，通过提高难分样本损失值的权重，使模型将参数优化方向部分转移到区分难分样本中来。掩码Mask_n×n的计算方式如下：

Mask_n×n＝Norm(Relu(V_n×n-V_n×n[t]))

式中的V_n×n为相似度响应值图，大小为n×n(本发明算法中n＝15)；V_n×n[t]为模型对真实目标点t的响应值；Relu(·)为激活函数，用于筛选难分样本，只保留响应值大于真实目标点的候选；Norm(·)为归一化操作，避免局部点损失权重过大而掩盖其余位置对训练过程的影响；V_n×n[t]为模型对真实目标点的响应值；Relu(·)为激活函数，用于筛选难分样本，只保留响应值大于真实目标点的候选；Norm(·)为归一化操作，避免局部点损失权重过大而掩盖其余位置对训练过程的影响。

Mask_n×n能够在提高跟踪模型性能的同时，不会对在线跟踪速度带来任何损失，且由于计算复杂度低、相关参数少，对离线训练的影响同样较小。下式为改进后的损失函数，其中μ为超参数，控制掩码在损失计算中的影响系数。

步骤3、输入视频帧序列和第1帧图像N₁的目标位置(X₁,Y₁,H₁,W₁)，其中X₁为目标中心位置横坐标，Y₁为目标中心位置纵坐标，H₁为边界框高度，W₁为边界框宽度；

步骤4、通过SiamRCCA模板分支提取N₁的目标特征F₁；

步骤5、对于第t帧图像N_t，取(X_t-1,Y_t-1,3H_t-1+W_t-1,3W_t-1+H_t-1)区域作为搜索框，将搜索框分别放缩尺度S₁＝1.0572^-1、S₂＝1、S₃＝1.0572后截取三个不同大小的候选域，并将所有候选域统一双三次插值为255×255大小，得到三个相同大小的搜索域；

步骤6、通过SiamRCCA搜索分支提取上述三个搜索域的深度特征，并分别计算与F₁的相似度响应，得到响应图分别为：Response₁、Response₂、Response₃；

步骤7、计算最大响应值所对应的响应图Response_k和放缩尺度S_k(k∈{1,2,3})；

步骤8、利用余弦窗对Response_k进行边缘响应值抑制，余弦窗权重系数设置为0.2356；；

步骤9、通过S_k和8)处理后的Response_k的最大值位置计算当前帧目标位置(X_t,Y_t,H_t,W_t)；

步骤10、重复步骤5～9，直至当前序列所有帧跟踪结束。

为验证上述方法在目标跟踪中的跟踪性能，特将本发明提出的方法与目前常用的目标跟踪算法做对比仿真实验如下：

1.仿真条件及参数

本发明的SiamRCCA算法基于CUDA 10.0深度学习框架和PyTorch 1.2.0编程语言实现，实验操作系统为Ubuntu 16.04，内存64GB，CPU为Intel i9-9900x 3.5GHz，GPU为NVIDIA RTX2080Ti。

模型离线训练于GOT-10k标记数据集(http://got-10k.aitestunion.com/)，学习率初始值为0.01，衰减系数为0.8685；训练50个epoch；模型激活函数为Mish；式(4)中的μ设置为3，余弦窗权重系数设置为0.2356。

2.仿真内容及结果分析

为了验证上述实施例中利用SiamRCCA的跟踪方法的有效性，分别在OTB2013、OTB50、OTB100和TempleColor128公开数据集上进行对比实验，对比算法主要有目前常用的目标跟踪算法：

SiamFC；Bertinetto等(Bertinetto L,Valmadre J,Henriques J F,etal.Fully-convolutional siamese networks for object tracking[C]//Europeanconference on computer vision.Springer,Cham,2016:850-865.)；

ACFN(Choi J,Jin Chang H,Yun S,et al.Attentional correlation filternetwork for adaptive visual tracking[C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.2017:4807-4816.)；

SiamTri(Dong X,Shen J.Triplet loss in siamese network for objecttracking[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:459-474.)；

DCFNet(Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional siamese networks for object tracking[C]//European conference oncomputer vision.Springer,Cham,2016:850-865.)；

SRDCF(M.Danelljan,G.

F.Shahbaz Khan,and M.Felsberg.Learningspatially regularized correlation filters for visual tracking.In ICCV,2015.)；

staple(Bertinetto L,Valmadre J,Golodetz S,et al.Staple:Complementarylearners for real-time tracking[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:1401-1409.)；

SiamRPN(Li B,Yan J,Wu W,et al.High performance visual tracking withsiamese region proposal network[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2018:8971-8980.)；

UDT+(Wang N,Song Y,Ma C,et al.Unsupervised deep tracking[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2019:1308-1317.)；

对比仿真实验过程中采用定量分析，即通过计算评价指标判断跟踪性能。实验中采用的评价指标有跟踪精度(Precision)和跟踪成功率(Success Rate)。

对比仿真实验结果如图4-7所示：

图4A和图4B分别为SiamRCCA和上述对比跟踪算法在OTB2013标准数据集上综合精度和跟踪成功率对比图；图5A和图5B分别为SiamRCCA和对比跟踪算法在OTB50标准数据集上综合精度和跟踪成功率对比图；图6A和图6B分别为SiamRCCA和对比跟踪算法在OTB100标准数据集上综合精度和跟踪成功率对比图。

可以看出，SiamRCCA在所有OTB标准数据集上均较上述对比算法展现出了更优的跟踪精度和成功率；在视频序列最多的OTB100中，SiamRCCA综合跟踪精度为86.2％，成功率为64.7％,分别较SiamFC提高5.8％和5.5％，较其余的最优对比算法则提高1.1％和1％。

图7A和图7B分别分别为SiamRCCA与各对比跟踪算法在TempleColor128数据集上的平均跟踪精度和成功率结果对比曲线图。可以看出，SiamRCCA在TempleColor128上仍保持了优越的跟踪性能，较最优对比模型的跟踪精度和成功率分别提升1％、0.7％，较SiamFC则分别提升了4.9％、5.6％，说明在该数据集上本发明的综合性能明显提升。

针对OTB数据集所包含的11个不同的视频属性：光照变化(IV)、尺度变化(SV)、目标被遮挡(OCC)、目标形变(DEF)、运动模糊(MB)、快速运动(FM)、平面旋转(IPR)、平面外旋转(OPR)、目标出视野(OV)、低分辨率(LR)和背景相似物干扰(BC)，表1定量展示了SiamRCCA和各对比跟踪模型在应对这些复杂跟踪因素下的平均跟踪精度(Precision)。

表1 SiamRCCA与各对比算法在OTB100数据集上对11个视频属性的跟踪精度定量对比结果

表1是SiamRCCA在OTB100数据集上与对比跟踪算法在11个不同的视频属性上跟踪成功率的定量对比结果，表中加粗字体为每行最优值，斜体为每行次优值，可以看出，SiamRCCA在OTB数据集的11个复杂跟踪因素中的7个保持了最优性能，其余则均取得了次优性能；并在应对上述所有跟踪因素时均大幅领先于SiamFC，其中，在目标被遮挡、外观形变和相似物体干扰情况下跟踪精度分别较SiamFC提升10％、5.6％和11.4％。

表2是SiamRCCA基于OTB100数据集在本实验环境下与前沿孪生网络衍生模型：SiamVGG、SiamDW、RASNet、SiamRPN、UDT+和SiamFC进行跟踪成功率和跟踪帧率(FPS，帧/秒)的对比实验结果，其中：

SiamVGG(Li Y,Zhang X.SiamVGG:Visual tracking using deeper siamesenetworks[J].arXiv preprint arXiv:1902.02804,2019.)；

SiamDW(Zhang Z,Peng H.Deeper and wider siamese networks for real-timevisual tracking[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2019:4591-4600.)；

RASNet(Wang Q,Teng Z,Xing J,et al.Learning attentions:residualattentional siamese network for high performance online visual tracking[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2018:4854-4863.)。

表2 SiamRCCA与各对比算法在OTB100数据集跟踪成功率和帧率对比结果

从表2可以看出，SiamRCCA在跟踪成功率和跟踪速度均优于RASNet、SiamRPN；在帧率略低于SiamFC和SiamTri的情况下AUC值大幅提升；尽管AUC较SiamDW、SiamVGG和TADT分别落后0.7％、0.7％和0.9％，但SiamRCCA的跟踪帧率约为后者的1.5～2.5倍。可见，SiamRCCA能够更好地均衡目标定位能力与跟踪速度，能够在多种应用环境下满足实时性需求，具有良好的综合跟踪性能。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于孪生网络的快速视频目标跟踪方法，其特征在于，所述方法包括：

Mask_n×n＝Norm(Relu(V_n×n-V_n×n[t]))

采用离线训练完成后的SiamRCCA模型进行目标跟踪。

2.根据权利要求1所述的方法，其特征在于，所述利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法包括：

(3)通过SiamRCCA模板分支提取第1帧图像N₁的目标特征F₁；

(4)对于视频帧序列第t帧图像N_t，取(X_t-1,Y_t-1,3H_t-1+W_t-1,3W_t-1+H_t-1)区域作为搜索框并将搜索框分别放缩尺度S₁、S₂、S₃后截取三个不同大小的候选域，并将所有候选域统一双三次插值为255×255大小，得到三个相同大小的搜索域；

(7)利用余弦窗对Response_k进行边缘响应值抑制；

4.根据权利要求3所述的方法，其特征在于，模型训练所使用损失函数L(Y_n×n,V_n×n)为：

5.根据权利要求4所述的方法，其特征在于，迭代训练SiamRCCA模型的模板分支和搜索分支时，设定训练学习率初始值为0.01，衰减系数为0.8685，训练50个epoch，模型激活函数为Mish，采用随机梯度下降优化策略对最小化损失函数L(Y_n×n,V_n×n)进行优化，其中：Y_n×n为真实样本分布，V_n×n为SiamRCCA模型输出的相似性响应值图。

6.根据权利要求3所述的方法，其特征在于，所述Norm(·)为：

其中，S为归一化的向量。

7.根据权利要求3所述的方法，其特征在于，所述尺度S₁、S₂、S₃分别取值：

S₁＝1.0572^-1，S₂＝1，S₃＝1.0572。

8.根据权利要求7所述的方法，其特征在于，对Response_k进行边缘响应值抑制时，余弦窗权重系数设置为0.2356。

9.一种目标跟踪网络模型SiamRCCA，其特征在于，所述目标跟踪网络模型为利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支得到模型。

10.一种基于孪生网络的快速视频目标跟踪方法在人机交互、智能机器人、自动驾驶、视频监控和智慧城市中的应用方法，其特征在于，所述基于孪生网络的快速视频目标跟踪方法为权利要求1-8任一项所述的方法或利用权利要求9所述的目标跟踪网络模型SiamRCCA进行目标跟踪的方法。