CN111429482A

CN111429482A - 目标跟踪方法、装置、计算机设备和存储介质

Info

Publication number: CN111429482A
Application number: CN202010194270.6A
Authority: CN
Inventors: 周康明; 朱月萍
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-17

Abstract

本申请涉及一种目标跟踪方法、装置、计算机设备和存储介质，通过获取目标对象的模板图像帧和目标对象的检测图像帧后，将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框，该方法避免anchor的超参数设计及计算IOU导致的训练复杂性，去除了不确定性，从而提高了目标跟踪网络跟踪目标的精度和鲁棒性。

Description

目标跟踪方法、装置、计算机设备和存储介质

技术领域

本申请涉及目标检测技术领域，特别是涉及一种目标跟踪方法、装置、计算机设备和存储介质。

背景技术

目标跟踪是指在给定某视频序列初始帧中目标物的大小及位置的情况下，预测后续帧中对应目标物的大小与位置。近年来，随着深度学习的快速发展，CNN被应用到目标跟踪，由于其具有极高的目标特征提取与表达能力，因而对提高目标跟踪的精度和鲁棒性具有重要意义。

SiamRPN++是基于CNN的目标跟踪方法之一，其结合了孪生网络和区域推荐网络，其中，SiamRPN++使用RPN来回归目标位置，需要依赖于预先定义的锚框(anchor boxes)，锚框涉及许多超参数的设计，如锚框的尺寸、长宽比、数目等，这些参数通常对最终的检测性能非常敏感，且在模型训练期间，与锚框相关的复杂计算如重叠度(IOU)会明显增加训练内存。

因此，现有的目标跟踪模型训练过程比较复杂，存在较多不确定性，导致目标跟踪的精度和鲁棒性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种目标跟踪的精度和鲁棒性更高的目标跟踪方法、装置、计算机设备和存储介质。

第一方面，本申请提供一种目标跟踪方法，该方法包括：

获取目标对象的模板图像帧和目标对象的检测图像帧；

将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框；跟踪框用于标定目标对象；

其中，目标跟踪网络模型包括孪生网络与全卷积一阶段目标检测网络；孪生网络用于提取模板图像帧的特征和检测图像帧的特征；全卷积一阶段目标检测网络用于对目标对象的跟踪框进行分类与回归。

在其中一个实施例中，上述将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框，包括：

将模板图像帧和检测图像帧输入至孪生网络进行特征提取，得到模板图像帧和检测图像帧的综合特征图；

将综合特征图输入全卷积一阶段目标检测网络中，对综合特征图中的每一特征点进行回归和分类操作，得到检测图像帧上目标对象的跟踪框。

在其中一个实施例中，上述目标跟踪网络模型的训练过程，包括：

获取多个对象的样本模板图像帧和样本检测图像帧；

将多个对象的样本模板图像帧和样本检测图像帧输入至初始目标跟踪网络模型中的初始孪生网络中，得到多个对象的样本模板图像帧和样本检测图像帧的样本综合特征图；

将样本综合特征图输入至初始目标跟踪网络模型中的初始全卷积一阶段目标检测网络中，对样本综合特征图中的每一点进行回归操作，以训练初始目标跟踪网络模型，直到初始目标跟踪网络模型的损失函数的值的变化幅度处于预设范围内，得到目标跟踪网络模型。

在其中一个实施例中，上述初始孪生网络的基网络包括第一残差网络和与第一残差网络完全相同的第二残差网络；

将多个对象的样本模板图像帧和样本检测图像帧输入至初始目标跟踪网络模型中的初始孪生网络中，得到多个对象的样本模板图像帧和样本检测图像帧的样本综合特征图，包括：

将样本模板图像帧输入第一残差网络中，以及将样本检测图像帧输入第二残差网络中；

分别对第一残差网络和第二残差网络中的多个预设卷积区块的输出，逐通道进行深度互相关操作，得到每个预设卷积区块的单个通道的深度互相关操作结果；

融合所有预设卷积区块的单个通道的深度互相关操作结果，得到样本模板图像帧和样本检测图像帧的样本综合特征图。

在其中一个实施例中，上述初始全卷积一阶段目标检测网络包括三分支的头检测网络；三分支的头检测网络包括正样本分类分支网络和回归分支网络；

将样本综合特征图输入至初始目标跟踪网络模型中的初始全卷积一阶段目标检测网络中，对样本综合特征图中的每一点进行回归操作，包括：

在样本综合特征图输入三分支的头检测网络后，将样本综合特征图中的每一特征点映射到样本模板图像帧和样本检测图像帧中；

若映射到样本模板图像帧和样本检测图像帧的特征点处于样本模板图像帧和样本检测图像帧中的标注框范围内，则通过正样本分类分支网络确定特征点为正样本块；

通过回归分支网络回归特征点，得到特征点的跟踪框；跟踪框包括特征点分别到跟踪框四个边界的距离。

在其中一个实施例中，上述通过回归分支网络回归特征点，得到特征点的跟踪框，包括：

若回归特征点得到多个跟踪框，则将面积最小的跟踪框确定为特征点的跟踪框。

在其中一个实施例中，在将多个对象的样本模板图像帧和样本检测图像帧输入至初始目标跟踪网络模型中的初始孪生网络中之前，该方法还包括：

采用随机采样的方法，对多个对象的中心点在对应样本检测图像帧的中心周围进行偏移。

第二方面，本申请提供一种目标跟踪装置，该装置包括：

获取模块，用于获取目标对象的模板图像帧和目标对象的检测图像帧；

跟踪模块，用于将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框；跟踪框用于标定目标对象；

第三方面，本申请提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面实施例中任一项的目标跟踪方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面实施例中任一项的目标跟踪方法的步骤。

本申请实施例提供的目标跟踪方法、装置、计算机设备和存储介质，通过获取目标对象的模板图像帧和目标对象的检测图像帧后，将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框，该实施例中目标跟踪网络模型包括孪生网络与全卷积一阶段目标检测网络，即本实施例将孪生网络与全卷积一阶段目标检测网络，可以消除预定的锚框，避免anchor的超参数设计及计算IOU导致的训练复杂性，去除了不确定性，从而提高了目标跟踪网络跟踪目标的精度和鲁棒性。

附图说明

图1为一个实施例提供的目标跟踪方法的应用环境图；

图2为一个实施例提供的目标跟踪方法的流程示意图；

图3为另一个实施例提供的目标跟踪方法的流程示意图；

图4为另一个实施例提供的目标跟踪方法的流程示意图；

图4a为目标跟踪网络模型结构示意图；

图5为另一个实施例提供的目标跟踪方法的流程示意图；

图5a为目标跟踪网络模型中孪生网络的基网络示意图；

图5b为目标跟踪网络模型中互相关深度操作的卷积结构示意图；

图6为一个实施例提供的目标跟踪方法的流程示意图；

图6a为目标跟踪网络模型中全卷积一阶段目标检测网络示意图；

图7为一个实施例提供的目标跟踪装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

请参见图1，本申请提供一种目标跟踪方法的应用环境，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该数据库用于存储一种目标跟踪方法的数据。该网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标跟踪方法。可以理解的是，图1所示的计算机设备内部结构一种示例，并不用作限定。

本申请实施例提供一种目标跟踪方法、装置、计算机设备和存储介质，能够使得目标跟踪的精度和鲁棒性更高。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是，本申请提供的一种目标跟踪方法，图2-图6的执行主体为计算机设备。其中，图2-图6的执行主体还可以是目标跟踪装置，其中该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

在一个实施例中，图2提供了一种目标跟踪方法，本实施例涉及的是计算机设备将获取的目标对象的图像输入至预设的目标跟踪网络模型中，得到目标对象的跟踪框的具体过程，如图2所示，该方法包括：

S101,获取目标对象的模板图像帧和目标对象的检测图像帧。

目标对象指的是待检测追踪的对象，该目标对象可以是人、物、动物等，本实施例对此不作限定。

其中，模板图像帧指的是待追踪目标对象的某视频序列中的初始帧(第一帧)，那么检测图像帧指的就是该视频序列中其他帧，通常，模板图像帧中给出目标对象的大小和位置，然后根据该目标对象的大小和位置在检测图像帧中检测出目标对象并标注出来，以在该视频序列中对目标对象进行检测跟踪。

S102，将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框；跟踪框用于标定目标对象；其中，目标跟踪网络模型包括孪生网络与全卷积一阶段目标检测网络；孪生网络用于提取模板图像帧的特征和检测图像帧的特征；全卷积一阶段目标检测网络用于对目标对象的跟踪框进行分类与回归。

在获取了目标对象的模板图像帧和目标对象的检测图像帧后，将模板图像帧和检测图像帧输入预先训练好的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框。

其中，目标跟踪网络模型是用于从根据目标对象的模板图像帧和检测图像帧，在检测图像帧中检测并标注出目标对象，即输出的是在检测图像帧中目标对象的跟踪框，该跟踪框用于标定目标对象。其中，该目标跟踪网络模型包括孪生网络(Siamese)与全卷积一阶段目标检测网络(Fully Convolutional One-Stage Object Detection，FCOS)，即该目标跟踪网络模型是将Siamese与FCOS结合后得到的网络，其中，孪生网络用于提取模板图像帧的特征和检测图像帧的特征，实际应用中，Siamese主要由模板分支和检测分支组成，模板分支用于提取模板图像帧(第一帧)的特征，检测分支将检测图像帧通过与模板分支相同的卷积神经网络，得到的特征图与模板图像帧的特征图做相关运算，从而进行匹配。而FCOS用于对目标对象的跟踪框进行分类与回归，以逐像素的方式对每一点进行回归操作。

相比于现有技术中使用RPN来回归目标位置，需要依赖于预先定义的锚框(anchorboxes)，锚框涉及许多超参数的设计，如锚框的尺寸、长宽比、数目等，这些参数通常对最终的检测性能非常敏感，且在模型训练期间与锚框相关的复杂计算如重叠度(IOU)会明显增加训练内存。本实施例提供的目标跟踪方法，获取目标对象的模板图像帧和目标对象的检测图像帧后，将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框，该实施例中目标跟踪网络模型包括孪生网络与全卷积一阶段目标检测网络，即本实施例将孪生网络与全卷积一阶段目标检测网络，可以消除预定的锚框，避免anchor的超参数设计及计算IOU导致的训练复杂性，去除了不确定性，从而提高了目标跟踪网络跟踪目标的精度和鲁棒性。

下面通过具体地实施例对目标跟踪网络模型根据模板图像帧和检测图像帧得到检测图像帧上目标对象的跟踪框的过程进行详细说明。则在一个实施例中，如图3所示，上述S102步骤包括：

S201，将模板图像帧和检测图像帧输入至孪生网络进行特征提取，得到模板图像帧和检测图像帧的综合特征图。

孪生网络是用于提取输入图像的特征的，即提取模板图像帧与检测图像帧的特征，本步骤中，孪生网络提取的模板图像帧与检测图像帧的综合特征图，这里综合特征图指的是融合了模板图像帧和检测图像帧特征的特征图。

示例地，可以是分别提取模板图像帧和检测图像帧的特征后，对两个图像的特征进行相关计算得到综合特征图。

S202，将综合特征图输入全卷积一阶段目标检测网络中，对综合特征图中的每一特征点进行回归和分类操作，得到检测图像帧上目标对象的跟踪框。

得到综合特征图后，将该综合特征图输入全卷积一阶段目标检测网络中，全卷积一阶段目标检测网络对该综合特征图中的每一特征点进行回归和分类操作，得到目标对象的跟踪框。

本实施例通过提取模板图像帧和检测图像帧的综合特征图，基于该综合特征图进行特征点的回归和分类，可以更加快速准确地得到目标图像的跟踪框。

下面提供实施例对上述目标跟踪网路模型的训练过程进行详细说明，如图4所示，该目标跟踪网络模型的训练过程包括：

S301,获取多个对象的样本模板图像帧和样本检测图像帧。

本步骤为获取目标跟踪网络模型训练样本的过程，为了保证目标跟踪网络模型训练的更加稳定，检测跟踪目标对象更加精确，就需要获取大量且多样化的训练样本，那么就要获取多个对象的样本模板图像帧和样本检测图像帧。

S302,将多个对象的样本模板图像帧和样本检测图像帧输入至初始目标跟踪网络模型中的初始孪生网络中，得到多个对象的样本模板图像帧和样本检测图像帧的样本综合特征图。

将获取的多个对象的样本模板图像帧和样本检测图像帧输入至初始目标跟踪网络模型中的初始孪生网络中，参见图4a在经过初始孪生网络的两个基网络后，提取到多个对象的样本模板图像帧和样本检测图像帧的样本综合特征图。

S303,将样本综合特征图输入至初始目标跟踪网络模型中的初始全卷积一阶段目标检测网络中，对样本综合特征图中的每一点进行回归操作，以训练初始目标跟踪网络模型，直到初始目标跟踪网络模型的损失函数的值的变化幅度处于预设范围内，得到目标跟踪网络模型。

在得到样本综合特征图后，请继续参见图4a,将该样本特征图输入至初始目标初始全卷积一阶段目标检测网络中,在初始全卷积一阶段目标检测网络中对样本综合特征图中的每一点进行回归操作，以完成对初始目标跟踪网络模型的训练。

在训练初始目标跟踪网络模型，可结合预先建立的初始目标跟踪网络模型的损失函数的值，确定初始目标跟踪网络模型是否训练好，若损失函数的值趋于平稳，即损失函数的值的变化幅度处于预设范围内，则得到目标跟踪网络模型。其中，设定的损失函数可以如下所示：

其中，p_x,y和t_x,y分别代表特征图上每一个点对应的分类分数和回归预测真值，N_pos表示正样本数(选择p_x,y>0.05作为正样本)，L_cls是分类损失，L_reg是回归损失，λ是L_reg的平衡权重设为1，

具有指示器功能，不同值指示不同状态，如果

为1，否则为0。

在训练好得到目标跟踪网络模型后，可对训练得到的目标跟踪网络模型进行测试，若测试得到的跟踪框与标注框的IOU>0.5，则表示跟踪正确。

本实施例中，通过将孪生网络与全卷积一阶段目标检测网络，在获得最终的综合特征图后，无需在综合特征图上的每一个位置使用预先设好的锚框，而是接在综合特征图的每一点进行回归操作。这样，避免anchor的超参数设计及计算IOU导致的训练复杂性，减少训练内存，提高了训练目标跟踪网络跟踪目标的效率和精度。

在一个实施例中对上述S301中将样本模板图像帧和样本检测图像帧输入至初始孪生网络进行特征提取，得到样本综合特征图过程进行介绍，如图5所示，上述S301包括：

S401,将样本模板图像帧输入第一残差网络中，以及将样本检测图像帧输入第二残差网络中。

本实施例是以初始孪生网络的基网络包括第一残差网络和与第一残差网络完全相同的第二残差网络为了进行说明，参见图5a，初始孪生网络的基网络为ResNet-50，由5个卷积区块(block)构成，网络的最后两个block去掉stri de(步长)并增加dilatedconvolution(空洞卷积)，这样就可以保证两个基网络中conv4_6、conv5_3的输出与conv3_3(详见图5a中所示)的输出分辨率一致。则将样本模板图像帧输入第一残差网络中，以及将样本检测图像帧输入第二残差网络中即是将样本模板图像帧和样本检测图像帧分别输入至图5a中的两个残差网络中。

S402,分别对第一残差网络和第二残差网络中的多个预设卷积区块的输出，逐通道进行深度互相关操作，得到每个预设卷积区块的单个通道的深度互相关操作结果。

本步骤中对第一残差网络和第二残差网络中的多个预设卷积区块的输出，逐通道进行深度互相关操作。

示例地，请参见图5b,其中图5b中的部分对应图4a中的*d，以多个预设卷积区块为block3、block4、block5为例，分别对block3、block4、block5的第一残差网络和第二残差网络的输出做深度互相关操作(Depth-wise Cross Correlation)。具体地，将第一残差网络和第二残差网络的特征图分别通过一个卷积层，但不进行维度提升(例如，维度仍是256)，然后逐通道进行互相关操作，其中，互相关操作的公式为：

fli(z,x)＝φli(z))*φli(x)+bi(3≤l≤5,1≤i≤256)；

其中，fli(z,x)表示一个block中一个通道的模板和检测输出的互相关操作结果；z表示模板图像帧，x是检测图像帧；l表示block的编号，则φl为对应block的输出结果；i表示通道数；式中的＊表示correlation即互相关操作；bi表示偏置。

S403,融合所有预设卷积区块的单个通道的深度互相关操作结果，得到样本模板图像帧和样本检测图像帧的样本综合特征图。

基于上述得到的单个block中一个通道的模板和检测输出的互相关操作结果后，融合所有预设卷积区块的单个通道的深度互相关操作结果，即可得到样本模板图像帧和样本检测图像帧的样本综合特征图。

继续参照上述S402步骤中的示例，融合三个block的互相关计算结果的公式为：

其中1≦i≦256,F_{all_i}表示上述block3、block4、block5所有通道的互相关操作结果，α_li表示自定义的权重，每个block的通道对应一个的权重。这样，第一残差网络和第二残差网络经过深度互相关操作后得到的F_{all_i}即为样本综合特征图。

在另外一个实施例中，对上述S302中上述将样本综合特征图输入初始全卷积一阶段目标检测网络中，对样本综合特征图中的每一点进行回归操作过程进行详细说明，如图6所示，上述S202包括：

S501,在样本综合特征图输入三分支的头检测网络后，将样本综合特征图中的每一特征点映射到样本模板图像帧和样本检测图像帧中。

本实施例以初始全卷积一阶段目标检测网络包括三分支的头检测网络，其中，三分支的头检测网络包括正样本分类分支网络和回归分支网络为例。那么对应地就是将样本综合特征图输入三分支的头检测网络，在三分支的头检测网络中，将样本综合特征图中的每一特征点映射到样本模板图像帧和样本检测图像帧中，可以理解的是，样本综合特征图中一个特征点对应原始图像(样模板图像帧和样检测图像帧)的一个区域。

S502,若映射到样本模板图像帧和样本检测图像帧的特征点处于样本模板图像帧和样本检测图像帧中的标注框范围内，则通过正样本分类分支网络确定特征点为正样本块。

对样本综合特征图中的每一特征点映射到样本模板图像帧和样本检测图像帧后，若该特征点处于样本模板图像帧和样本检测图像帧中的标注框范围内，则确定该特征点为训练时的正样本块。这里是因为在样本模板图像帧和样本检测图像帧输入至初始网络时，已经对目标对象进行了标注，而标注框标注的是目标对象，因此只要特征点处于标注框范围内，即可确定为目标对象的像素点，并通过三分支的头检测网络中的正样本分类分支网络输出该特征点为正样本块。

S503,通过回归分支网络回归特征点，得到特征点的跟踪框；跟踪框包括特征点分别到跟踪框四个边界的距离。可选地，若回归特征点得到多个跟踪框，则将面积最小的跟踪框确定为特征点的跟踪框。

通过三分支的头检测网络中的回归分支网络回归正样本块特征点，得到特征点的跟踪框，且在回归特征点得到多个跟踪框时，将面积最小的跟踪框确定为特征点的跟踪框。

示例地，如图6a所示，为三分支的头检测网络，用于对目标进行分类及回归，其中图6a中×4表示虚线箭头操作经过四个相同的25×25×256卷积层，正样本分类分支网络为图中的Classification,回归分支网络为图中的Regress ion。该三分支的头检测网络将综合特征图中的每一点映射回原始的输入图片(开始输入的模板图像帧和检测图像帧)中，若这一映射回原始输入的点(x,y)在相应的真值的标注框范围内，且类别对应为前景分类，则将该点作为训练的正样本块，否则将其作为负样本块。而对于点(x,y)回归目标为(l,t,r,b)，其中(l,t,r,b)中分别表示中心点到回归的跟踪框边界的left，top，right和bottom之间的距离。但若一个点在多个回归的跟踪框内部的，则将其看做一个模糊样本，直接选择面积最小的个回归的跟踪框作为回归目标。

例如，点(x,y)回归的一个跟踪框为bounding box(Bi)，则该位置处的回归目标可设定为：

其中，

分别代表Bi的左上角和右下角坐标。

本实施例中，FCOS可以通过这样方式获得很多正样本块，然后使用这样正样本块进行回归操作，可以获得了比较好的性能提升。

另外，由于FCOS会引入一些低质量即远离目标中心的boundingbox，因此三分支的头检测网络中包括中心度分支Center-ness，该分支的作用是用来抑制这些低质量boundingbox的产生。对于一个给定位置的回归目标l*、t*、r*、b*，Center-ness目标的定义如下：

该中心度范围在[0,1]之间，使用BCE损失函数(二元交叉熵)来训练，这样就可以用来降低距离对象中心很远的边界框分数的权重。

在另外一个实施例中，在上述将多个对象的样本模板图像帧和样本检测图像帧输入至初始目标跟踪网络模型中的初始孪生网络中之前，该方法还包括：采用随机采样的方法，对多个对象的中心点在对应样本检测图像帧的中心周围进行偏移。

通常情况下，Siamese网络在目标跟踪时，分别在两个基网络中输入模板图像帧及检测图像帧，模板图像帧输入样本图像目标的中心点位于输入图片的中心，为了使用余弦窗的边缘抑制作用对移动异常的结果进行过滤，利用前一帧的目标框信息将检测图像帧的目标也置于输入图片的中心，且检测图像帧图片的面积大小是模板图像帧输入图片的4倍。但由于基网络是ResNet(残差网络)0、Inception等较深层的现代网络，所以为了保证网络的深度，必定会在网络中使用padding(填充距属性)，而padding的使用会破坏网络的平移不变性，导致网络学习到位置偏见，即随着训练的进行，网络会以为所有目标都位于图片中心，使得模型失去跟踪性能。因此，在对检测图像帧的预处理中，会使用随机采样的方法让目标对象的中心点在图片中心周围偏移，打破网络的位置偏见。这样，就可以避免网络训练过程对目标对象位置的学习，提高目标检测网络模型跟踪目标的准确性。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种目标跟踪装置，包括：获取模块10、跟踪模块11，其中：

获取模块10，用于用于获取目标对象的模板图像帧和目标对象的检测图像帧；

跟踪模块11，用于将模板图像帧和检测图像帧输入预设的目标跟踪网络模型中，得到检测图像帧上目标对象的跟踪框；跟踪框用于标定目标对象；

在一个实施例中，上述跟踪模块11包括：

特征提取单元，用于将模板图像帧和检测图像帧输入至孪生网络进行特征提取，得到模板图像帧和检测图像帧的综合特征图；

分类回归单元，用于将综合特征图输入全卷积一阶段目标检测网络中，对综合特征图中的每一特征点进行回归和分类操作，得到检测图像帧上目标对象的跟踪框。

在一个实施例中，该装置还包括：

训练样本模块，用于获取多个对象的样本模板图像帧和样本检测图像帧；

训练特征提取模块，用于将多个对象的样本模板图像帧和样本检测图像帧输入至初始目标跟踪网络模型中的初始孪生网络中，得到多个对象的样本模板图像帧和样本检测图像帧的样本综合特征图；

训练分类回归模块，用于将样本综合特征图输入至初始目标跟踪网络模型中的初始全卷积一阶段目标检测网络中，对样本综合特征图中的每一点进行回归操作，以训练初始目标跟踪网络模型，直到初始目标跟踪网络模型的损失函数的值的变化幅度处于预设范围内，得到目标跟踪网络模型。

在一个实施例中，上述训练特征提取模块具体用于将样本模板图像帧输入第一残差网络中，以及将样本检测图像帧输入第二残差网络中；分别对第一残差网络和第二残差网络中的多个预设卷积区块的输出，逐通道进行深度互相关操作，得到每个预设卷积区块的单个通道的深度互相关操作结果；融合所有预设卷积区块的单个通道的深度互相关操作结果，得到样本模板图像帧和样本检测图像帧的样本综合特征图。

在一个实施例中，上述训练分类回归模块具体用于在样本综合特征图输入三分支的头检测网络后，将样本综合特征图中的每一特征点映射到样本模板图像帧和样本检测图像帧中；若映射到样本模板图像帧和样本检测图像帧的特征点处于样本模板图像帧和样本检测图像帧中的标注框范围内，则通过正样本分类分支网络确定特征点为正样本块；通过回归分支网络回归特征点，得到特征点的跟踪框；跟踪框包括特征点分别到跟踪框四个边界的距离。

在一个实施例中，上述训练分类回归模块还具体用于若回归特征点得到多个跟踪框，则将面积最小的跟踪框确定为特征点的跟踪框。

在一个实施例中，该装置还包括：预处理模块，用于采用随机采样的方法，对多个对象的中心点在对应样本检测图像帧的中心周围进行偏移。

上述实施例提供的所有的目标跟踪装置，其实现原理和技术效果与上述目标跟踪方法实施例类似，在此不再赘述。

关于目标跟踪装置的具体限定可以参见上文中对于目标跟踪方法的限定，在此不再赘述。上目标跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如上述图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标跟踪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取目标对象的模板图像帧和目标对象的检测图像帧；

上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取目标对象的模板图像帧和目标对象的检测图像帧；

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

获取目标对象的模板图像帧和所述目标对象的检测图像帧；

将所述模板图像帧和所述检测图像帧输入预设的目标跟踪网络模型中，得到所述检测图像帧上所述目标对象的跟踪框；所述跟踪框用于标定所述目标对象；

其中，所述目标跟踪网络模型包括孪生网络与全卷积一阶段目标检测网络；所述孪生网络用于提取所述模板图像帧的特征和所述检测图像帧的特征；所述全卷积一阶段目标检测网络用于对所述目标对象的跟踪框进行分类与回归。

2.根据权利要求1所述的方法，其特征在于，所述将所述模板图像帧和所述检测图像帧输入预设的目标跟踪网络模型中，得到所述检测图像帧上所述目标对象的跟踪框，包括：

将所述模板图像帧和所述检测图像帧输入至所述孪生网络进行特征提取，得到所述模板图像帧和所述检测图像帧的综合特征图；

将所述综合特征图输入所述全卷积一阶段目标检测网络中，对所述综合特征图中的每一特征点进行回归和分类操作，得到所述检测图像帧上所述目标对象的跟踪框。

3.根据权利要求1或2所述的方法，其特征在于，所述目标跟踪网络模型的训练过程，包括：

获取多个对象的样本模板图像帧和样本检测图像帧；

将所述多个对象的样本模板图像帧和样本检测图像帧输入至所述初始目标跟踪网络模型中的初始孪生网络中，得到所述多个对象的样本模板图像帧和样本检测图像帧的样本综合特征图；

将所述样本综合特征图输入至所述初始目标跟踪网络模型中的初始全卷积一阶段目标检测网络中，对所述样本综合特征图中的每一点进行回归操作，以训练所述初始目标跟踪网络模型，直到所述初始目标跟踪网络模型的损失函数的值的变化幅度处于预设范围内，得到所述目标跟踪网络模型。

4.根据权利要求3所述的方法，其特征在于，所述初始孪生网络的基网络包括第一残差网络和与所述第一残差网络完全相同的第二残差网络；

所述将所述多个对象的样本模板图像帧和样本检测图像帧输入至所述初始目标跟踪网络模型中的初始孪生网络中，得到所述多个对象的样本模板图像帧和样本检测图像帧的样本综合特征图，包括：

将所述样本模板图像帧输入所述第一残差网络中，以及将所述样本检测图像帧输入所述第二残差网络中；

分别对所述第一残差网络和所述第二残差网络中的多个预设卷积区块的输出，逐通道进行深度互相关操作，得到每个所述预设卷积区块的单个通道的深度互相关操作结果；

融合所有预设卷积区块的单个通道的深度互相关操作结果，得到所述样本模板图像帧和样本检测图像帧的样本综合特征图。

5.根据权利要求3所述的方法，其特征在于，所述初始全卷积一阶段目标检测网络包括三分支的头检测网络；所述三分支的头检测网络包括正样本分类分支网络和回归分支网络；

所述将所述样本综合特征图输入至所述初始目标跟踪网络模型中的初始全卷积一阶段目标检测网络中，对所述样本综合特征图中的每一点进行回归操作，包括：

在所述样本综合特征图输入所述三分支的头检测网络后，将所述样本综合特征图中的每一特征点映射到所述样本模板图像帧和所述样本检测图像帧中；

若映射到所述样本模板图像帧和所述样本检测图像帧的特征点处于所述样本模板图像帧和所述样本检测图像帧中的标注框范围内，则通过所述正样本分类分支网络确定所述特征点为正样本块；

通过所述回归分支网络回归所述特征点，得到所述特征点的跟踪框；所述跟踪框包括所述特征点分别到所述跟踪框四个边界的距离。

6.根据权利要求5所述的方法，其特征在于，所述通过所述回归分支网络回归所述特征点，得到所述特征点的跟踪框，包括：

若回归所述特征点得到多个跟踪框，则将面积最小的跟踪框确定为所述特征点的跟踪框。

7.根据权利要求3所述的方法，其特征在于，在将所述多个对象的样本模板图像帧和样本检测图像帧输入至所述初始目标跟踪网络模型中的初始孪生网络中之前，所述方法还包括：

采用随机采样的方法，对所述多个对象的中心点在对应样本检测图像帧的中心周围进行偏移。

8.一种目标跟踪装置，其特征在于，所述装置包括：

获取模块，用于获取目标对象的模板图像帧和所述目标对象的检测图像帧；

跟踪模块，用于将所述模板图像帧和所述检测图像帧输入预设的目标跟踪网络模型中，得到所述检测图像帧上所述目标对象的跟踪框；所述跟踪框用于标定所述目标对象；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。