CN115937249A

CN115937249A - 一种基于孪生网络的多预测输出对齐的目标跟踪方法及装置

Info

Publication number: CN115937249A
Application number: CN202211120456.2A
Authority: CN
Inventors: 胡昭华; 林潇; 刘浩男; 王莹
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-04-07

Abstract

本发明公开了一种基于孪生网络的多预测输出对齐的目标跟踪方法及装置，包括：获取视频；对所述视频进行预处理，提取得到模板图像Z和搜索区域图像X；其中将视频序列首帧提取的以目标为中心的图像作为模板图像Z，将后续帧中以上一帧预测目标位置为中心的图像作为搜索区域图像X；将模板图像Z和搜索区域图像X输入预训练好的目标跟踪网络模型；根据所述目标跟踪网络模型的输出，确定目标跟踪结果。所述目标跟踪网络模型通过补充模块能够对基础跟踪器预测的目标边界框进行微调，生成能够紧密包裹目标的边界框，进而进行更精准的目标区域预测。

Description

一种基于孪生网络的多预测输出对齐的目标跟踪方法及装置

技术领域

本发明涉及计算机视觉和目标跟踪技术领域，具体涉及一种基于孪生网络的多预测输出对齐的目标跟踪方法及装置。

背景技术：

目标跟踪是计算机视觉领域中一个基础而又具有挑战性的任务，是近几年来计算机视觉领域最活跃的研究课题之一。目标跟踪的任务定义为：一个视频序列在只给定跟踪目标初始帧位置的情况下，能够在后续每一帧中保持对目标准确地跟踪。目标跟踪在自动驾驶、视频监控、海洋勘探、医学影像等领域都有着广泛的应用，因此备受学术界和工业界的关注。目标跟踪可以分为两个主流的分支，一个是基于相关滤波的目标跟踪，另一个则是目前基于深度神经网络的目标跟踪。

不同于基于相关滤波的跟踪器，基于孪生网络的离线训练和在线跟踪方式使其在跟踪精度和推理速度之间取得了很好的平衡。孪生网络跟踪器使用并行的两输入分支(模板分支和搜索分支)来提取模板图像和搜索区域图像的深度特征表达。之后，两个分支输出的特征图进行相似度匹配，产生响应图(相似度图)。该响应图上某一位置处的响应值越大，则目标越有可能位于搜索区域上对应的位置。

最原始的孪生网络跟踪器SiamFC(Bertinetto L,Valmadre J,Henriques J F,etal.Fully-Convolutional Siamese Networks for Object Tracking[C]//EuropeanConference on Computer Vision.Springer,Cham,2016.)利用全连接网络进行特征提取、互相关计算和多尺度预测。后来，SiamRPN(Bo L,Yan J,Wei W,et al.High PerformanceVisual Tracking with Siamese Region Proposal Network[C]//2018 IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2018.)的设计将目标检测任务中常用的区域建议网络(Region Proposal Network)引入孪生网络结构中，实现了更精准的目标尺度估计，同时RPN的双分支输出的预测方式也开始流行。这种分而治之的预测方式将目标跟踪转换为分类和回归两个子任务：孪生网络模型通过计算模板和搜索区域的相似度(通过互相关计算来实现)，来产生在该帧上的相似度图(分类)，并额外输出该图上每个点位对应的物体边界框预测(回归)。在这种情况下，置信度最高处对应的生成的边界框被视为被跟踪目标在当前帧上的最小外接矩形。SiamBAN(Chen Z,ZhongB,Li G,et al.Siamese Box Adaptive Network for Visual Tracking[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2020.)将目标检测领域中无锚框的预测方式引入了孪生网络跟踪器中，在保留了双分支预测方式这一种高效推理模式的前提下极大减少了跟踪模型的参数量。

但是，这种分而治之的边界框预测方式存在弊端。置信度得分的预测和边界框的预测是完全分离的，其在网络中对应的两分支之间完全没有信息的交互。这进一步导致置信度得分最高的位置对应的目标边界框可能不是最优的(目标某一部分未被边界框标注或者边界框产生漂移)。

发明内容

目的：为了解决双分支预测结构孪生网络跟踪的多预测输出不一致的痛点，同时为了进一步提升该类跟踪器的跟踪性能，本发明提供一种基于孪生网络的多预测输出对齐的目标跟踪方法及装置。将常用的孪生网络视为基础跟踪器，并将补充模块串联在基础跟踪器的输出层之后，用于对齐基础跟踪器的多预测输出，同时能够对一阶段预测的目标边界框做进一步的精炼，以实现高质量的边界框评估，从而精准地实现目标跟踪的功能。在OTB100、VOT2018、VOT2019和GOT10K四个目标跟踪评估数据集上的大量实验证明，本发明与近期的先进的跟踪器相比具有优越的性能。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，提供一种基于孪生网络的多预测输出对齐的目标跟踪方法，包括：

获取视频；

对所述视频进行预处理，提取得到模板图像Z和搜索区域图像X；其中将视频序列首帧提取的以目标为中心的图像作为模板图像Z，将后续帧中以上一帧预测目标位置为中心的图像作为搜索区域图像X；

将模板图像Z和搜索区域图像X输入预训练好的目标跟踪网络模型；

根据所述目标跟踪网络模型的输出，确定目标跟踪结果；

其中所述目标跟踪网络模型的处理过程包括：

模板图像Z经过第一特征提取模块提取得到模板图像特征Z_f；搜索区域图像X经过第二特征提取模块提取得到搜索区域图像特征X_f；

模板图像特征Z_f和搜索区域图像特征X_f经过逐深度互相关模块进行相似度匹配，输出分类响应图R_cls和回归响应图R_reg；

分类响应图R_cls和回归响应图R_reg分别经过第一预测头和第二预测头处理后，输出单通道的前背景分类得分图M_cls和四通道边界框预测图M_reg，其中所述四通道边界框预测图M_reg指示了搜索区域图像上的n个子区域，在理想状态下与模板图像上的目标区域均包含同一目标，记子区域边界框为{P}_n，记首帧中的目标区域边界框为b；

基于目标区域边界框b和子区域边界框{P}_n，分别利用第一PrPool模块和第二PrPool模块对模板图像特征Z_f和搜索区域图像特征X_f进行区域特征提取，得到相同空间尺寸的模板区域特征Z_r和子区域特征{X_r}_n；

逐像素互相关模块以模板区域特征Z_r为基准，对子区域特征{X_r}_n进行细粒度的特征检索，得到边界框区域对应的响应图{R_me}_n；

将{R_me}_n输入匹配评估分支，进行特征压缩和信息整合，得到边界框评估得分S；

将前背景分类得分图M_cls和边界框评估得分S通过逐元素相乘的方式进行融合，边界框评估得分图S′；

基于边界框评估得分图S′的最大值的位置l，在四通道边界框预测图M_reg上确定唯一的一组目标边界框坐标P_l，即子区域特征{X_r}_n中确定唯一的目标子区域特征(X_r)_l；将目标子区域特征(X_r)_l与模板区域特征Z_r进行细粒度的特征检索，得到目标边界框区域对应的响应图R′_me：

利用精炼分支对目标边界框区域对应的响应图R′_me进行通道压缩和特征整合和逐通道的求和处理，得到边界框位置和尺寸的补偿量O：

基于所述补偿量O，对原预测的目标边界框坐标P_l进行修正，得到最终的目标预测框，实现目标跟踪。

在一些实施例中，模板图像特征Z_f和搜索区域图像特征X_f经过逐深度互相关模块进行相似度匹配，输出分类响应图R_cls和回归响应图R_reg，包括：

R_cls＝DW_cls(Z_f,X_f)

R_reg＝DW_reg(Z_f,X_f)

其中Z表示模板图像，X表示搜索区域图像，f(·)表示特征提取,DW_cls和DW_reg分别表示分类分支和回归分支的逐深度互相关计算过程。

在一些实施例中，分类响应图R_cls和回归响应图R_reg分别经过第一预测头Conv_cls和第二预测头Conv_reg处理后，输出单通道的前背景分类得分图M_cls和四通道边界框预测图M_reg，包括：

M_cls＝Conv_cls(R_cls)

M_reg＝Conv_reg(R_reg)

其中第一预测头Conv_cls和第二预测头Conv_reg。

在一些实施例中，基于目标区域边界框b和子区域边界框{P}_n，分别利用第一PrPool模块和第二PrPool模块对模板图像特征Z_f和搜索区域图像特征X_f进行区域特征提取，得到相同空间尺寸的模板区域特征Z_r和子区域特征{X_r}_n；

Z_r＝PrPool(Z_f,b)

{X_r}_n＝PrPool(X_f,{P}_n)

{R_me}_n＝PW(Z_r,{X_r}_n)

其中{R_me}_n为n个边界框区域对应的响应图，PW表示逐像素的互相关操作；

S＝MLP(Conv_me({R_me}_n))

其中MLP表示全连接层，Conv_me表示堆叠的卷积层；边界框评估得分S为一组有关于区域特征与模板特征匹配程度的得分，表示对应边界框区域存在前景目标的概率；

S′＝S⊙M_cls

R′_me＝PW(Z_r,(X_r)_l)

利用精炼分支对目标边界框区域对应的响应图R′_me进行通道压缩和特征整合Conv_pr和逐通道的求和Sum处理，得到边界框位置和尺寸的补偿量O：

O＝Sum(Conv_pr(R′_me))

其中O＝(o_x,o_y,o_w,o_h)为边界框位置和尺寸的补偿量，o_x,o_y为边界框位置的横、纵坐标补偿量、o_w,o_h为边界框宽、高尺寸的补偿量；

在一些实施例中，所述目标跟踪网络模型的构建方法包括：

所述目标跟踪网络模型为二阶段网络，包括第一阶段的基础跟踪器和第二阶段的补充模块；

其中所述基础跟踪器包括两个输入分支：模板分支和搜索分支，分别以模板图像和搜索区域图像作为输入；所述模板分支的第一特征提取模块和搜索分支的第二特征提取模块均使用ResNet50的前4组卷积层，后接逐深度互相关模块和基于无锚框的双分支平行预测头部：第一预测头和第二预测头；基础跟踪器为标准的双分支预测孪生网络结构；

所述补充模块级联在基础跟踪器后，为双输入双输出的孪生网络结构，使用第一PrPool模块和第二PrPool模块进行区域特征提取，后续接逐像素互相关模块和并列的两输出分支，两输出分支为匹配评估分支和精炼分支。

在一些实施例中，所述目标跟踪网络模型的训练方法包括：

一阶段的总损失函数Loss₁为：

其中，^*表示训练标签，λ₁和λ₂表示用于平衡各个子任务损失的权重，L_ce、L_IoU分别为CE损失和IoU损失，

分别表示训练期望的前背景分类得分图和四通道边界框预测图；

二阶段的训练损失函数Loss₂为：

Loss₂＝λ₃L_ce(S,S^*)+λ₄L₁(O,O^*)

其中，^*表示训练标签，L_ce和L₁分别为CE损失和L-1距离损失，λ₃和λ₄为用于平衡各个子任务损失的权重，S^*、O^*分别表示训练期望的边界框评估得分、边界框位置和尺寸的补偿量；

所述目标跟踪网络模型的总损失函数Loss_total为：

Loss_total＝Loss₁+Loss₂。

在一些实施例中，使用GOT-10k、LaSOT、MS COCO、ImageNet DET、ImageNet VID和YouTube-BB训练集对目标跟踪网络模型进行训练，整个训练过程采取随机梯度下降法来不断迭代优化整个目标跟踪网络模型，直至总损失Loss_total收敛，得到训练好的目标跟踪网络模型。

在一些实施例中，λ₁＝λ₂＝1，λ₃＝λ₄＝0.1。

第二方面，本发明提供了一种基于孪生网络的多预测输出对齐的目标跟踪装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

本发明的优点在于：本发明提供的方法，在进行目标跟踪时，基础跟踪器容易受到相似物体的干扰，从而导致在视频帧上预测的目标边界框漂移或者只有部分的目标区域被选定。本发明提出的跟踪算法能够有效地解决这两点问题。首先，补充模块能够对基础跟踪器生成的前背景分类图进行精炼，削弱其因在视频中相似干扰物的出现而导致的多峰值响应值，进而稳定跟踪结果，防止边界框漂移。其次，补充模块能够对基础跟踪器预测的目标边界框进行微调，生成能够紧密包裹目标的边界框，进而进行更精准的目标区域预测。通过对齐和精炼孪生网络跟踪器的多预测输出来实现更鲁棒和更精确的视觉目标跟踪。该方法可应用于车辆导航、人机交互和视频监控等领域。

本发明同时考虑了跟踪算法的经济性和高效性，本发明提出的跟踪算法能够在GPU平台上以远超实时的速度运行。

附图说明

图1为本发明实施例中的基于孪生网络的多预测输出对齐的目标跟踪模型的结构图；

图2为本发明实施例中的二阶段补充模块；

图3为逐像素互相关示意图；

图4为本发明实施例中跟踪器在UAV123评估数据集上与其他主流跟踪器的性能评估结果；

图5为本发明实施例中跟踪器在3个不同视频序列进行跟踪时的特征可视化。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式进一步阐述本发明。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

一种基于孪生网络的多预测输出对齐的目标跟踪方法，包括：

获取视频；

根据所述目标跟踪网络模型的输出，确定目标跟踪结果；

其中所述目标跟踪网络模型的处理过程包括：

模板图像Z经过第一特征提取模块提取得到模板图像特征Z_f；

搜索区域图像X经过第二特征提取模块提取得到搜索区域图像特征X_f；

Z_f＝f(Z),

X_f＝f(X),

R_cls＝DW_cls(Z_f,X_f),

R_reg＝DW_reg(Z_f,X_f).#(4)

其中f(·)表示特征提取,DW_cls和DW_reg分别表示分类分支和回归分支的逐深度互相关计算过程；

分类响应图R_cls和回归响应图R_reg分别经过第一预测头和第二预测头处理后，输出单通道的前背景分类得分图M_cls和四通道边界框预测图M_reg，

M_cls＝Conv_cls(R_cls)

M_reg＝Conv_reg(R_reg).#(5)

其中所述四通道边界框预测图M_reg指示了搜索区域图像上的n个子区域，在理想状态下与模板图像上的目标区域均包含同一目标，记子区域边界框为{P}_n，记首帧中的目标区域边界框为b；

Z_r＝PrPool(Z_f,b),

{X_r}_n＝PrPool(X_f,{P}_n).#(6)

{R_me}_n＝PW(Z_r,{X_r}_n)#(7)

S＝MLP(Conv_me({R_me}_n)),#(8)

其中MLP表示全连接层，Conv_me表示堆叠的卷积层；边界框评估得分S为一组有关于区域特征与模板特征匹配程度的得分，表示对应边界框区域存在前景(目标)的概率；

S′＝S⊙M_cls,#(9)

R′_me＝PW(Z_r,(X_r)_l),#(10)

利用精炼分支对目标边界框区域对应的响应图R′_me进行通道压缩和特征整合(Conv_pr)和逐通道的求和(Sum)处理，得到边界框位置和尺寸的补偿量O：

O＝Sum(Conv_pr(R′_me)),#(11)

在一些实施例中，所述目标跟踪网络模型的构建方法包括：

在一些实施例中，所述目标跟踪网络模型的训练方法包括：

一阶段的总损失函数Loss₁为：

其中，^*表示训练标签，λ₁和λ₂表示用于平衡各个子任务损失的权重且λ₁＝λ₂＝1；

二阶段的训练损失函数Loss₂为：

Loss₂＝λ₃L_ce(S,S^*)+λ₄L₁(O,O^*).#(2)

其中，^*表示训练标签，L_ce和L₁分别为CE损失和L-1距离损失，λ₃和λ₄为用于平衡各个子任务损失的权重且λ₃＝λ₄＝0.1；

所述目标跟踪网络模型的总损失函数Loss_total为：

Loss_total＝Loss₁+Loss₂.#(3)。

本实施例提出的算法将常用的孪生网络视为基础跟踪器，并添加补充模块串联在基础跟踪器的输出层之后。目标跟踪网络的整体框架图如图1所示，具体推理过程包括以下操作步骤：

(1)步骤一：构建目标跟踪网络模型。

首先构建目标跟踪网络模型。本发明提出的网络模型为二阶段网络，其中，第一阶段的模型(基础跟踪器)细节如图1，第二阶段的模型(补充模块)细节如图2。基础跟踪器网络的两输入分支(模板分支和搜索分支)均使用ResNet50的前4组卷积层作为特征提取部分，后接互相关模块和基于无锚框的双分支平行预测头部，整体为标准的孪生网络结构。补充模块也设计为双输入分支的结构，其使用Precise RoI Pooling(PrPool)模块进行特征提取，后续接逐像素的互相关层(见图3)和并列的两输出分支(匹配评估分支和精炼分支)。因此，该补充模块也为计算高效的孪生网络结构。

(2)步骤二：训练网络模型。

本发明提出的跟踪模型使用GOT-10k、LaSOT、MS COCO、ImageNet DET、ImageNetVID和YouTube-BB训练集进行训练。基础跟踪器的两个输入分支，包括模板分支和搜索分支，分别以模板图像和搜索区域图像作为输入。模板图像为某视频序列任一帧提取的以目标为中心的127×127像素大小的图像，而搜索区域则为该序列其他帧上提取的以目标为中心的255×255像素大小的图像。基础跟踪器网络使用双分支预测头输出单通道的前背景分类得分图M_cls和四通道的边界框预测图M_reg。这里前背景分类任务和边界框预测任务分别使用CE损失L_ce和IoU损失L_IoU来计算损失，因此一阶段的总损失函数Loss₁为：

其中，^*表示训练标签，λ₁和λ₂表示用于平衡各个子任务损失的权重且λ₁＝λ₂＝1。

一阶段预测输出的M_reg对应着搜索区域图像上的n个子区域(n＝25×25＝625)。补充模块的训练输入为模板图像上目标区域的特征和搜索区域图像上n个子区域内的特征。补充模块的输出分别记为S和O，其中S表示边界框区域存在前景(目标)的概率，O＝(o_x,o_y,o_w,o_h)为边界框位置和尺寸的补偿量。因此，二阶段的训练损失函数Loss₂为：

Loss₂＝λ₃L_ce(S,S^*)+λ₄L₁(O,O^*).#(2)

其中，^*表示训练标签，L_ce和L₁分别为CE损失和L-1距离损失，λ₃和λ₄为用于平衡各个子任务损失的权重且λ₃＝λ₄＝0.1。该跟踪网络模型总损失函数Loss_total为：

Loss_total＝Loss₁+Loss₂.#(3)

整个训练过程采取随机梯度下降法来不断迭代优化整个跟踪网络，直至总损失Loss_total收敛。

(3)步骤三：使用基础跟踪器进行初步推理。

推理时的模板图像为视频序列首帧提取的以目标为中心的127×127像素大小的图像(在跟踪过程中保持不变)，而搜索区域则为后续帧中以上一帧预测目标位置为中心的255×255像素大小的图像。特征提取网络从输入图像上提取特征，基础跟踪器网络的互相关模块将二者的特征进行相似度匹配，得到分类响应图R_cls和回归响应图R_reg:

Z_f＝f(Z),

X_f＝f(X),

R_cls＝DW_cls(Z_f,X_f),

R_reg＝DW_reg(Z_f,X_f).#(4)

其中Z表示模板图像，X表示搜索区域图像，f(·)表示特征提取,DW_cls和DW_reg分别表示分类分支和回归分支的逐深度互相关计算过程。响应图分别经过分类分支的预测头Conv_cls和回归分支的预测头Conv_reg后，输出单通道的前背景分类得分图M_cls和四通道的四通道边界框预测图M_reg：

M_cls＝Conv_cls(R_cls)

M_reg＝Conv_reg(R_reg).#(5)

(4)步骤四：提取区域特征和进行细粒度的特征检索。

该阶段是本发明所提出的补充模块的核心。步骤三中生成的四通道边界框预测图M_reg指示了搜索区域图像上的n个子区域(记其边界框为{P}_n)，其在理想状态下与模板图像上的目标区域(记其边界框为b)均包含同一目标。在跟踪时，跟踪模型利用(Precise RoIPooling)PrPool模块将模板图像中的模板区域特征和这些子区域中的目标的深度特征提取并保存为相同空间尺寸的多通道特征图：

Z_r＝PrPool(Z_f,b),

{X_r}_n＝PrPool(X_f,{P}_n).#(6)

其中，Z_r表示模板区域特征，{X_r}_n表示子区域特征。而在现实中，Z_r包含完整的目标特征，{X_r}_n则可能包含全部、部分目标特征，或者不包含任何的目标特征。为了判断各个预测的边界框是否精确，跟踪器将模板特征作为基准，用其对子区域特征进行逐一的细粒度的特征检索:

{R_me}_n＝PW(Z_r,{X_r}_n)#(7)

其中{R_me}_n为n个边界框区域对应的响应图，PW表示逐像素的互相关操作(图3)。具体来说，特征图Z_r上每一个空间位置处的特征向量都被视为一个互相关核。所有的互相关核在特征图{X_r}_n上进行互相关操作，并将其在通道维度堆叠形成特征图(响应图)。这种方法能够表述不同特征图上每一对特征向量的相关性，同时也能够保持输出特征的空间尺寸不变，非常适合用于细粒度的特征匹配计算。

(5)步骤五：对齐多分支预测的输出。

步骤四中生成的响应图{R_me}_n被送入补充模块中的匹配评估分支，进行特征压缩和信息整合。该过程可以公式化为：

S＝MLP(Conv_me({R_me}_n)),#(8)

其中MLP表示全连接层，Conv_me表示堆叠的卷积层。S为一组有关于区域特征与模板特征匹配程度的得分，表示对应边界框区域存在前景(目标)的概率。又因为步骤一中保存的分类得分图上各个位置的激活值表示该区域属于前景(目标)的概率，所以二者可以通过逐元素相乘的方式进行融合，得到边界框评估得分图S′:

S′＝S⊙M_cls,#(9)

通过此种方式，因杂乱背景或干扰物出现而导致基础模型的分类得分图产生的多峰值响应值可以被极大地抑制，从而达到精炼基础跟踪器的分类分支输出的效果，防止了跟踪框漂移现象的产生，增加了跟踪算法的鲁棒性。

(6)步骤六：精炼边界框的坐标。

根据步骤五中得到的边界框评估得分图S′的最大值的位置l，可以在步骤一中保存的四通道边界框预测图上确定唯一的一组目标边界框坐标P_l。将该框内区域特征(X_r)_l与模板特征Z_r进行细粒度的特征检索，可以得到：

R′_me＝PW(Z_r,(X_r)_l),#(10)

其中R′_me为坐标框P_l内区域对应的响应图。R′_me经过补充模块的精炼分支(见图2)，包括堆叠的卷积层(Conv_pr)和逐通道的求和(Sum)之后，转化为长度为4的特征向量：

O＝Sum(Conv_pr(R′_me)),#(11)

其中O＝(o_x,o_y,o_w,o_h)为边界框位置和尺寸的补偿量。o_x,o_y为边界框位置的横纵坐标补偿量、o_w,o_h为边界框宽高尺寸的补偿量。将原预测的目标边界框的坐标P_l经补偿量修正后，便得到了更加精准的目标预测框，可以实现更加精准的目标跟踪。

至此，本发明提出的跟踪器模型在一幅视频帧上的目标位置和尺度推理完成。在剩余的视频帧中跟踪器将循环所有步骤，直至最后一帧。

评估标准：本发明在UAV123上通过一次通过评估(One-Pass-Evaluation,OPE)以精度(Precision)和成功率(Success)图的曲线下面积(Area Under Curve,AUC)两个指标来评估跟踪器，在GOT-10k上通过平均重叠率(Average Overlap,AO)和成功率(SuccessRate，SR)来评估跟踪器，在VOT2018和VOT2019上以期望平均重叠率(Expected AverageOverlap,EAO)、准确率(Accuracy)和鲁棒性(Robustness)来评估跟踪器。

图4展示了本发明的跟踪器在UAV123评估数据集上与其他跟踪器的性能对比结果。该数据集为无人机采集，并且视频中被跟踪物体多为小目标，常出现旋转、形变等运动状态。因此该数据集十分适合用于评估跟踪算法的性能。从图4中可以看到，本发明提出的跟踪器模型在成功率的曲线下面积AUC指标上超过其他6种最先进的对比跟踪器，同时在精度评估中也能够排名第二。这展现了本发明所提出跟踪算法的优越性。

表1和表2分别展示了跟踪算法同其他方法在VOT2018和VOT2019评估数据集上的性能对比结果，最终排名以EAO指标为准。对于各评估指标，排名前三的跟踪器评估结果分别以粗体、下划线标注和斜体的方式表示。在VOT2018上，本发明提出的算法的性能排名第二，在EAO指标上仅落后于排名一的跟踪模型0.001分。在VOT2019上，本发明提出的方法的跟踪效果也能够排至前三。

表1

表2

表3

表3展示了本发明的跟踪器与其他8种跟踪器在GOT-10k大型数据集上的性能评估结果。该数据集采集于户外场景，更能显示跟踪器在大多数实际应用场景下的跟踪效果。对于各评估指标，排名前三的跟踪器评估结果分别以粗体、下划线标注和斜体的方式表示。对比结果显示，本发明提出的跟踪器能够打败大部分的现有跟踪器，排名第二。

图5展示了该跟踪器在3个不同视频序列进行跟踪时的特征可视化。其中列(a)为模板图像，列(b)为搜索区域图像，列(c)为基础跟踪器预测的前背景分类得分图，列(d)为补充模块预测的边界框评估得分，列(e)为边界框评估得分图。显然，列(c)和列(d)在视觉语义的表达上为互补的，且其二者在融合后产生的列(e)能够更有效地应对杂乱背景和干扰物的出现。

实施例2

第二方面，本实施例提供了一种基于孪生网络的多预测输出对齐的目标跟踪装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，所述方法包括：

获取视频；

根据所述目标跟踪网络模型的输出，确定目标跟踪结果；

其中所述目标跟踪网络模型的处理过程包括：

2.根据权利要求1所述的基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，模板图像特征Z_f和搜索区域图像特征X_f经过逐深度互相关模块进行相似度匹配，输出分类响应图R_cls和回归响应图R_reg，包括：

R_cls＝DW_cls(Z_f,X_f)

R_reg＝DW_reg(Z_f,X_f)

3.根据权利要求1所述的基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，分类响应图R_cls和回归响应图R_reg分别经过第一预测头Conv_cls和第二预测头Conv_reg处理后，输出单通道的前背景分类得分图M_cls和四通道边界框预测图M_reg，包括：

M_cls＝Conv_cls(R_cls)

M_reg＝Conv_reg(R_reg)

其中第一预测头Conv_cls和第二预测头Conv_reg。

4.根据权利要求1所述的基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，基于目标区域边界框b和子区域边界框{P}_n，分别利用第一PrPool模块和第二PrPool模块对模板图像特征Z_f和搜索区域图像特征X_f进行区域特征提取，得到相同空间尺寸的模板区域特征Z_r和子区域特征{X_r}_n；

Z_r＝PrPool(Z_f,b)

{X_r}_n＝PrPool(X_f,{P}_n)

{R_me}_n＝PW(Z_r,{X_r}_n)

S＝MLP(Conv_me({R_me}_n))

S′＝S⊙M_cls

R′_me＝PW(Z_r,(X_r)_l)

O＝Sum(Conv_pr(R′_me))

5.根据权利要求1所述的基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，所述目标跟踪网络模型的构建方法包括：

6.根据权利要求1所述的基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，所述目标跟踪网络模型的训练方法包括：

一阶段的总损失函数Loss₁为：

二阶段的训练损失函数Loss₂为：

Loss₂＝λ₃L_ce(S,S^*)+λ₄L₁(O,O^*)

所述目标跟踪网络模型的总损失函数Loss_total为：

Loss_total＝Loss₁+Loss₂。

7.根据权利要求6所述的基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，使用GOT-10k、LaSOT、MS COCO、ImageNet DET、ImageNet VID和YouTube-BB训练集对目标跟踪网络模型进行训练，整个训练过程采取随机梯度下降法来不断迭代优化整个目标跟踪网络模型，直至总损失Loss_total收敛，得到训练好的目标跟踪网络模型。

8.根据权利要求6所述的基于孪生网络的多预测输出对齐的目标跟踪方法，其特征在于，λ₁＝λ₂＝1，λ₃＝λ₄＝0.1。

9.一种基于孪生网络的多预测输出对齐的目标跟踪装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。