CN116433722A

CN116433722A - 目标跟踪方法、电子设备、存储介质及程序产品

Info

Publication number: CN116433722A
Application number: CN202310232871.5A
Authority: CN
Inventors: 张登稣
Original assignee: Chengdu Ck Technology Co ltd
Current assignee: Chengdu Ck Technology Co ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-14

Abstract

本申请提供一种目标跟踪方法、电子设备、存储介质及程序产品，涉及目标跟踪技术领域。该方法包括：获取视频帧序列，视频帧序列中至少部分图像包括待跟踪目标；采用搜索网络对当前帧图像进行特征提取，得到当前帧图像的搜索特征，搜索特征表征待跟踪目标在当前帧图像中的位置，搜索网络为卷积神经网络；基于当前帧图像对应的当前模板特征对搜索特征进行卷积，得到特征响应图，当前模板特征表征待跟踪目标在当前帧图像中的预测目标位置，用于提取当前模板特征的特征提取网络与搜索网络为不同的神经网络；将特征响应图输入回归网络，得到跟踪结果，跟踪结果包括待跟踪目标在当前帧图像中的位置信息。本申请可以实现长期、稳定地对目标进行跟踪。

Description

目标跟踪方法、电子设备、存储介质及程序产品

技术领域

本申请涉及目标跟踪技术领域，具体而言，涉及一种目标跟踪方法、电子设备、存储介质及程序产品。

背景技术

目标跟踪是深度学习领域的基本任务之一，具体是从一组时序图像中，稳定地获取某个指定目标在每一时刻的存在性及几何信息。

现有的目标跟踪主要分为短期单目标跟踪(Short-Term Single ObjectTracking，ST-SOT)和长期单目标跟踪(Long-Term Single Object Tracking，LT-SOT)。

但是，短期单目标跟踪无法解决目标被遮挡、目标发生形变或者长期跟踪的情况，长期单目标跟踪由于需要维护大量的模板图像，导致需要的存储和计算开销较大。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种目标跟踪方法、电子设备、存储介质及程序产品，以便实现长期、稳定地对目标进行跟踪。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种目标跟踪方法，所述方法包括：

获取视频帧序列，所述视频帧序列中至少部分图像包括待跟踪目标；

采用搜索网络对当前帧图像进行特征提取，得到当前帧图像的搜索特征，所述搜索特征表征所述待跟踪目标在所述当前帧图像中的位置，所述搜索网络为卷积神经网络；

基于当前帧图像对应的当前模板特征对所述搜索特征进行卷积，得到特征响应图，所述当前模板特征表征所述待跟踪目标在所述当前帧图像中的预测目标位置，用于提取所述当前模板特征的特征提取网络与所述搜索网络为不同的卷积神经网络；

将所述特征响应图输入回归网络，得到跟踪结果，所述跟踪结果包括所述待跟踪目标在所述当前帧图像中的位置信息。

可选的，所述基于当前帧图像对应的当前模板特征对所述搜索特征进行卷积，得到特征响应图之前，所述方法还包括：

对标注有所述待跟踪目标的位置信息的当前帧图像进行特征提取，确定所述当前模板特征；或者，对标注有所述待跟踪目标的位置信息的前一帧图像进行特征提取，确定所述当前模板特征。

可选的，所述对标注有所述待跟踪目标的位置信息的当前帧图像进行特征提取，确定所述当前模板特征，包括：

若所述当前帧图像为所述视频帧序列中的第一帧图像，采用目标检测算法对所述第一帧图像进行目标检测，在所述第一帧图像中标注所述待跟踪目标的位置信息；

采用初始化网络对标注有所述待跟踪目标的位置信息的所述第一帧图像进行特征提取，得到所述当前模板特征。

若所述当前帧图像为所述视频帧序列中除第一帧图像外的其他帧图像，采用目标检测算法对所述当前帧图像进行目标检测，在所述当前帧图像中标注所述待跟踪目标的位置信息；

采用验证网络对标注有所述待跟踪目标的位置信息的所述当前帧图像进行特征提取，得到所述当前模板特征。

可选的，所述采用验证网络对标注有所述待跟踪目标的位置信息的所述当前帧图像进行特征提取，得到所述当前模板特征之后，所述方法还包括：

根据所述当前帧图像的当前模板特征和所述第一帧图像的当前模板特征，计算所述待跟踪目标在所述当前帧图像中的第一可见率；

采用更新网络对所述第一可见率和标注所述待跟踪目标的位置信息的所述当前帧图像进行特征提取，更新所述当前帧图像的当前模板特征，所述更新网络为卷积神经网络和循环神经网络。

可选的，所述对标注有所述待跟踪目标的位置信息的前一帧图像进行特征提取，确定所述当前模板特征，包括：

根据前一帧图像的跟踪结果，在所述前一帧图像中标注所述待跟踪目标的位置信息，所述跟踪结果还包括：所述待跟踪目标在所述前一帧图像中的第二可见率；

采用更新网络对所述第二可见率和标注所述待跟踪目标的位置信息的所述前一帧图像进行特征提取，得到所述当前模板特征，所述更新网络为卷积神经网络和循环神经网络。

可选的，目标神经网络模型包括：所述搜索网络、所述当前模板特征的特征提取网络和所述回归网络；所述目标神经网络模型是通过以下步骤训练得到的；

获取样本视频帧序列，所述视频帧序列中至少部分样本图像包括待跟踪目标，各帧样本图像中预先标注有所述待跟踪目标的实际位置信息和可见率真值；

根据所述各帧样本图像，采用初始神经网络模型输出所述待跟踪目标在各帧样本图像中的样本位置信息和样本可见率；

根据所述各帧样本图像对应的实际位置信息、可见率真值、样本位置信息和样本可见率，构建所述各帧样本图像的损失函数；

基于所述各帧样本图像的损失函数得到所述样本视频帧序列的总损失函数；

基于所述总损失函数对所述初始神经网络模型的参数进行更新，直至模型收敛，得到所述目标神经网络模型。

第二方面，本申请实施例还提供一种目标跟踪装置，所述装置包括：

视频帧获取模块，用于获取视频帧序列，所述视频帧序列中至少部分图像包括待跟踪目标；

搜索特征提取模块，用于采用搜索网络对当前帧图像进行特征提取，得到当前帧图像的搜索特征，所述搜索特征表征所述待跟踪目标在所述当前帧图像中的位置，所述搜索网络为卷积神经网络；

特征卷积模块，用于基于当前帧图像对应的当前模板特征对所述搜索特征进行卷积，得到特征响应图，所述当前模板特征表征所述待跟踪目标在所述当前帧图像中的预测目标位置，用于提取所述当前模板特征的特征提取网络与所述搜索网络为不同的卷积神经网络；

目标识别模块，用于将所述特征响应图输入回归网络，得到跟踪结果，所述跟踪结果包括所述待跟踪目标在所述当前帧图像中的位置信息。

可选的，在所述特征卷积模块之前，所述装置还包括：

当前模板特征获取模块，用于对标注有所述待跟踪目标的位置信息的当前帧图像进行特征提取，确定所述当前模板特征；或者，对标注有所述待跟踪目标的位置信息的前一帧图像进行特征提取，确定所述当前模板特征。

可选的，所述当前模板特征获取模块，包括：

目标位置标注单元，用于若所述当前帧图像为所述视频帧序列中的第一帧图像，采用目标检测算法对所述第一帧图像进行目标检测，在所述第一帧图像中标注所述待跟踪目标的位置信息；

当前模板特征获取单元，用于采用初始化网络对标注有所述待跟踪目标的位置信息的所述第一帧图像进行特征提取，得到所述当前模板特征。

可选的，所述目标位置标注单元，还用于若所述当前帧图像为所述视频帧序列中除第一帧图像外的其他帧图像，采用目标检测算法对所述当前帧图像进行目标检测，在所述当前帧图像中标注所述待跟踪目标的位置信息；

所述当前模板特征获取单元，还用于采用验证网络对标注有所述待跟踪目标的位置信息的所述当前帧图像进行特征提取，得到所述当前模板特征。

可选的，所述当前模板特征获取单元之后，所述装置还包括：

可见率计算单元，用于根据所述当前帧图像的当前模板特征和所述第一帧图像的当前模板特征，计算所述待跟踪目标在所述当前帧图像中的第一可见率；

当前模板特征更新单元，用于采用更新网络对所述第一可见率和标注所述待跟踪目标的位置信息的所述当前帧图像进行特征提取，更新所述当前帧图像的当前模板特征，所述更新网络为卷积神经网络和循环神经网络。

可选的，所述目标位置标注单元，还用于根据前一帧图像的跟踪结果，在所述前一帧图像中标注所述待跟踪目标的位置信息，所述跟踪结果还包括：所述待跟踪目标在所述前一帧图像中的第二可见率；

所述当前模板特征获取单元，还用于采用更新网络对所述第二可见率和标注所述待跟踪目标的位置信息的所述前一帧图像进行特征提取，得到所述当前模板特征，所述更新网络为卷积神经网络和循环神经网络。

可选的，目标神经网络模型包括：所述搜索网络、所述当前模板特征的特征提取网络和所述回归网络；目标神经网络模型通过以下模块训练得到：

样本视频帧获取模块，用于获取样本视频帧序列，所述视频帧序列中至少部分样本图像包括待跟踪目标，各帧样本图像中预先标注有所述待跟踪目标的实际位置信息和可见率真值；

样本目标识别模块，用于根据所述各帧样本图像，采用初始神经网络模型输出所述待跟踪目标在各帧样本图像中的样本位置信息和样本可见率；

损失函数构成模块，用于根据所述各帧样本图像对应的实际位置信息、可见率真值、样本位置信息和样本可见率，构建所述各帧样本图像的损失函数；

损失函数汇总模块，用于基于所述各帧样本图像的损失函数得到所述样本视频帧序列的总损失函数；

模型更新模块，用于基于所述总损失函数对所述初始神经网络模型的参数进行更新，直至模型收敛，得到所述目标神经网络模型。

第三方面，本申请实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现第一方面任一项所述的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面任一项所述的方法。

第五方面，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面任一项所述的方法。

本申请的有益效果是：

本申请提供一种目标跟踪方法、电子设备、存储介质及程序产品，利用当前帧图像对应的当前模板特征对当前帧图像的搜索特征进行卷积，确定特征响应图，根据特征响应图对目标进行跟踪识别，确定待跟踪目标在当前帧图像中的位置信息，结合当前模板特征对目标进行跟踪，可以避免在长期跟踪过程中，由于待跟踪目标在跟踪过程中被遮挡或消失导致无法继续跟踪的问题，提高目标跟踪精度，且无需维护大量的历史模板图像集，降低存储和计算开销。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的目标跟踪方法的流程示意图一；

图2为本申请实施例提供的搜索网络的示意图；

图3为本申请实施例提供的回归网络的示意图；

图4为本申请实施例的待跟踪目标和遮挡物的示意图；

图5为本申请实施例提供的目标跟踪方法的流程示意图二；

图6为本申请实施例提供的初始化网络的示意图；

图7为本申请实施例提供的目标跟踪方法的流程示意图三；

图8为本申请实施例提供的验证网络的示意图；

图9为本申请实施例提供的目标跟踪方法的流程示意图四；

图10为本申请实施例提供的更新网络的示意图；

图11为本申请实施例提供的目标跟踪方法的流程示意图五；

图12为本申请实施例提供的目标神经网络模型训练步骤的流程示意图；

图13为本申请实施例提供的目标跟踪装置的结构示意图；

图14为本申请实施例提供的电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

现有的目标跟踪主要分为短期单目标跟踪和长期单目标跟踪，其中，短期单目标跟踪主要包括：滤波跟踪和孪生卷积神经网络(Convolutional Neural Network，CNN)，滤波跟踪的精度较差，孪生CNN在目标发生遮挡或者产生形变时的跟踪效果较差。

为了解决短期单目标跟踪出现的问题，提出了长期单目标跟踪方法，长期单目标跟踪方法需要利用模板图像对当前帧图像中的目标进行跟踪，其中，模板图像的维护方法包括：随时修改模板图像、采用固定初始化模板图像和动态模板图像组合、以及创建历史模板图像集，其中，随时修改模板图像可能会因为模板图像逐渐偏离原始图像规定的目标，导致目标跟踪丢失；采用固定初始化模板图像和动态模板图像组合只能记录跟踪目标的两个状态，当目标发生严重形变时，可能无法跟踪目标；而历史模板图像集虽然可以涵盖目标的各种可能性，但是由于需要针对图像集中的所有图像计算响应值，导致存储和计算开销较大。

基于上述现有技术存在的问题，本申请拟提供一种目标跟踪方法、电子设备、存储介质及程序产品，利用当前帧图像对应的当前模板特征对当前帧图像的搜索特征进行卷积，确定特征响应图，根据特征响应图对目标进行跟踪识别，确定待跟踪目标在当前帧图像中的位置信息，结合当前模板特征对目标进行跟踪，可以避免在长期跟踪过程中，由于待跟踪目标在跟踪过程中被遮挡或消失导致无法继续跟踪的问题，提高目标跟踪精度，且无需维护大量的历史模板图像集，降低存储和计算开销。

请参考图1，为本申请实施例提供的目标跟踪方法的流程示意图一，如图1所示，该方法可以包括：

S10：获取视频帧序列，视频帧序列中至少部分图像包括待跟踪目标。

本实施例中，视频帧序列是记录待跟踪目标在时间序列上进行运动的一组图像，在该组图像的每帧图像中，可能存在完整的待跟踪目标、部分待跟踪目标或者没有待跟踪目标，其中，存在部分待跟踪目标为待跟踪目标被遮挡物所遮挡，没有待跟踪目标为待跟踪目标消失，为了对待跟踪目标进行跟踪，需要在视频帧序列的每一帧图像中对待跟踪目标进行跟踪，当前帧图像可以为视频帧序列中任一帧图像。

S20：采用搜索网络对当前帧图像进行特征提取，得到当前帧图像的搜索特征，搜索特征表征待跟踪目标在当前帧图像中的位置，搜索网络为卷积神经网络。

本实施例中，采用预先经过训练的搜索网络对当前帧图像进行特征提取，将当前帧图像转换为当前帧特征图像，当前帧特征图像中的每个像素点用于记录当前帧图像中每个像素点的搜索特征。

示例的，请参考图2，为本申请实施例提供的搜索网络的示意图，如图2所示，搜索网络为卷积神经网络，可以由多个卷积层Conv构成，搜索网络用于将尺寸为(3,H_x,W_x)的当前帧图像x转换为尺寸为(64,H_f(x),W_f(x))的搜索特征f(x)。

S30：基于当前帧图像对应的当前模板特征对搜索特征进行卷积，得到特征响应图，当前模板特征为待跟踪目标在当前帧图像中的预测目标位置，用于提取当前模板特征的特征提取网络与搜索网络为不同的神经网络。

本实施例中，确定当前帧图像对应的当前模板图像，当前模板图像是在预先标注有待跟踪目标的位置信息的一帧图像，采用特征提取网络对当前模板图像进行特征提取，以根据待跟踪目标在当前目标图像中的位置信息，确定待跟踪目标在当前帧图像中的预测目标位置，特征提取网络输出当前模板特征，以表征待跟踪目标在当前帧图像中的预测目标位置。

以当前模板特征作为卷积核，对搜索特征进行卷积，计算当前模板特征和搜索特征之间的互相关性，得到预设尺寸的特征响应图，特征响应图用于指示搜索特征对当前模板特征的响应状态，特征响应图中每个像素点的响应值为搜索特征对当前模板特征的响应。

示例的，当前模板特征f(z)的尺寸为(64,H_f(x),W_f(x))，采用当前模板特征f(z)对搜索特征f(x)进行卷积运算，即h＝f(z)*f(z)，可以得到尺寸为(1,H_h,W_h)的特征响应图h。

S40：将特征响应图输入回归网络，得到跟踪结果，跟踪结果包括待跟踪目标在当前帧图像中的位置信息。

本实施例中，采用预先经过训练的回归网络对特征响应图进行目标识别，确定特征响应图中是否包含待跟踪目标的响应信息，若特征响应图中不包含待跟踪目标的响应信息，则确定待跟踪目标中不包含待跟踪目标，若特征响应图中包含待跟踪目标的响应信息，则确定待跟踪目标中包含待跟踪目标，可以根据特征响应图中的响应区域确定待跟踪目标的包围盒，根据包围盒的参数确定待跟踪目标在当前帧图像中的位置和第二可见率，位置信息包括：待跟踪目标在当前帧图像中的位置和第二可见率。

示例的，请参考图3，为本申请实施例提供的回归网络的示意图，如图3所示，回归网络为N维卷积神经网络，可以由多个N维卷积层ConvN构成，回归网络用于将尺寸为(1,H_h,W_h)的特征响应图h转换为尺寸为(1,H_y,W_y)的目标张量y[p_pos,l,t,r,b]，其中，p_pos为第二可见率，l,t,r,b为像素点(x,y)到包围盒左、上、右、下四个边缘的距离。

在一些实施例中，待跟踪图像中还包括遮挡物，根据待跟踪目标的包围盒和遮挡物的包围盒确定待跟踪目标的可见面积，根据待跟踪目标的可见面积和待跟踪目标的总面积，计算待跟踪目标的第二可见率，其中，待跟踪目标的总面积可以从第一帧图像中确定。

示例的，请参考图4，为本申请实施例的待跟踪目标和遮挡物的示意图，如图4所示，待跟踪目标即跟踪物的可见面积为S₂，待跟踪目标的总面积为遮挡面积S₁、可见面积S₂和屏外面积S₃之和，总面积可以根据待跟踪目标完整处于屏幕视口时确定，一般情况下，第一帧图像中待跟踪目标完整处于屏幕视口。

上述实施例提供的目标跟踪方法，利用特征提取网络提取的当前模板特征和搜索网络提取的搜索特征进行卷积互相关操作确定特征响应图，根据特征响应图对目标进行跟踪识别，确定待跟踪目标在当前帧图像中的位置信息，基于当前模板特征和搜索特征的对目标进行跟踪，以每个当前模板特征作为搜索特征的参考，可以避免仅依靠搜索特征对待跟踪目标进行长期跟踪过程中，由于待跟踪目标在跟踪过程中被遮挡或消失导致无法继续跟踪的问题，提高目标跟踪精度；且无需维护大量的模板图像集，降低存储和计算开销。

结合下述实施例对获取当前模板特征的可能的实现方式进行说明。

在一种可能的实现方式中，在上述S30基于当前帧图像对应的当前模板特征对搜索特征进行卷积，得到特征响应图之前，该方法还可以包括：

对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，确定当前模板特征。

本实施例中，以标注有待跟踪目标的位置信息的当前帧图像作为当前模板图像，采用特征提取网络对当前模板图像进行特征提取，确定当前模板特征，即以特征提取网络从标注有待跟踪目标的位置信息的当前帧图像提取的当前模板特征作为搜索特征的参考。其中，在当前帧图像中标注的待跟踪目标的位置信息可以为采用外部目标检测算法对当前帧图像进行目标检测确定的待跟踪目标的位置信息。

在另一种可能的实现方式中，在上述S30基于当前帧图像对应的当前模板特征对搜索特征进行卷积，得到特征响应图之前，该方法还可以包括：

对标注有待跟踪目标的位置信息的前一帧图像进行特征提取，确定当前模板特征。

本实施例中，由于待跟踪目标在视频帧序列中的运动在时序上具有连续性，因此，可以采用标注有待跟踪目标的位置信息的前一帧图像作为当前模板图像，采用特征提取网络对当前模板图像进行特征提取，确定当前模板特征，即以特征提取网络从标注有待跟踪目标的位置信息的前一帧图像提取的当前模板特征作为搜索特征的参考。其中，在前一帧图像中标注的待跟踪目标的位置信息可以为采用上述S20-S40的步骤对前一帧图像进行跟踪输出的跟踪结果。

以下结合图5对获取当前模板特征的一种可能的实现方式进行说明。

请参考图5，为本申请实施例提供的目标跟踪方法的流程示意图二，如图5所示，上述对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，确定当前模板特征的过程，可以包括：

S31：若当前帧图像为视频帧序列中的第一帧图像，采用目标检测算法对第一帧图像进行目标检测，在第一帧图像中标注待跟踪目标的位置信息。

S32：采用初始化网络对标注有待跟踪目标的位置信息的第一帧图像进行特征提取，得到当前模板特征。

本实施例中，目标检测算法是外部提供的一种对目标位置进行检测的算法，利用外部提供的目标检测算法对第一帧图像进行目标检测，确定待跟踪目标在第一帧图像中的位置信息，将待跟踪目标在第一帧图像中的位置信息标注在第一帧图像中，生成初始模板图像，采用初始化网络对初始模板图像进行特征提取，输出初始模板特征作为当前模板特征。

其中，初始化网络由循环神经网络和卷积神经网络构成，初始化网络除了输出第一帧图像的初始模板特征作为当前模板特征外，还输出第一帧的隐变量，第一帧的隐变量用于表示待跟踪目标在第一帧图像中的运动状态，其中，初始化网络计算第一帧的隐变量的参数根据初始化网络的训练确定。

示例的，请参考图6，为本申请实施例提供的初始化网络的示意图，如图6所示，初始化网络由CNN和RNN(Recurrent Neural Network)交替构成，初始化网络的输入是缩放到(3,Hz,Wz)的初始模板图像zini，初始模板特征f(z_ini)的尺寸为(64,H_f(z),W_f(z))。本实施例中，Hz＝Wz＝127，H_f(z)＝W_f(z)＝15。

在一种可能的实现方式中，RNN可以采用门控循环单元(Gated Recurrent Unit，GRU)构成的门控循环神经网络。

上述实施例提供的目标跟踪方法，对于第一帧图像的目标跟踪，以外部的目标检测算法在第一帧图像标注待跟踪目标的位置信息，采用初始化网络对标注有待跟踪目标的位置信息的第一帧图像进行特征提取，得到第一帧图像的当前模板特征，使得第一帧图像的当前模板特征和第一帧图像的搜索特征构成非对称特征，以保证可以从第一帧图像准确搜索到待跟踪目标的位置，提高目标跟踪的准确度。

以下结合图7对获取当前模板特征的另一种可能的实现方式进行说明。

请参考图7，为本申请实施例提供的目标跟踪方法的流程示意图三，如图7所示，上述对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，确定当前模板特征的过程，可以包括：

S33：若当前帧图像为视频帧序列中除第一帧图像外的其他帧图像，采用目标检测算法对当前帧图像进行目标检测，在当前帧图像中标注待跟踪目标的位置信息。

S34：采用验证网络对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，得到当前模板特征。

本实施例中，利用外部提供的目标检测算法对除第一帧图像外的其他帧图像进行目标检测，确定待跟踪目标在其他帧图像中的位置信息，将待跟踪目标在其他帧图像中的位置信息标注在其他帧图像中，生成先验模板图像，采用验证网络对先验模板图像进行特征提取，输出先验模板特征作为当前模板特征。其中，验证网络由卷积神经网络构成。

示例的，请参考图8，为本申请实施例提供的验证网络的示意图，如图8所示，验证网络为可以由多个卷积层Conv构成，验证网络用于将尺寸为(3,H_z,W_z)的先验模板图像z_pri转换为尺寸为(64,H_f(z),W_f(z))的先验模板特征f(z_pri)。

上述实施例提供的目标跟踪方法，对于其他帧图像的目标跟踪，以外部的目标检测算法在其他帧图像标注待跟踪目标的位置信息，采用验证网络对标注有待跟踪目标的位置信息的其他帧图像进行特征提取，得到其他帧图像的当前模板特征，使得其他帧图像的当前模板特征和其他帧图像的搜索特征构成非对称特征，以保证可以从其他帧图像准确搜索到待跟踪目标的位置，提高目标跟踪的准确度。

在一种可能的实现方式中，由于待跟踪目标在第一帧图像中完整地处于屏幕视口，采用外部检测算法对第一帧图像中的待跟踪目标进行检测时，可以得到准确的位置信息，但是随着待跟踪目标的移动，当待跟踪目标的位置发生漂移时，外部检测算法在其他帧图像中检测到待跟踪目标的位置信息可能不准确，因此，需要对采用验证网络得到的其他帧图像的当前模板特征进行更新。

以下结合图9对其他帧图像的当前模板特征进行更新的一种可能的实现方式进行说明。

请参考图9，为本申请实施例提供的目标跟踪方法的流程示意图四，如图9所示，在上述S34采用验证网络对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，得到当前模板特征之后，该方法还可以包括：

S35：根据当前帧图像的当前模板特征和第一帧图像的当前模板特征，计算待跟踪目标在当前帧图像中的第一可见率。

本实施例中，在计算得到其他帧图像的先验模板特征f(z_pri)后，可以根据第一帧图像的初始模板特征f(z_ini)和其他帧图像的先验模板特征f(z_pri)，计算待跟踪目标在其他帧图像中的第一可见率。

示例的，以第一帧图像的初始模板特征f(z_ini)作为卷积核，对先验模板特征f(z_pri)进行卷积运算，得到其他帧图像的第一可见率p_pri。

S36：采用更新网络对第一可见率和标注待跟踪目标的位置信息的当前帧图像进行特征提取，更新当前帧图像的当前模板特征，更新网络为卷积神经网络和循环神经网络。

本实施例中，由于待跟踪目标在视频帧序列中的运动是连续的，因此待跟踪目标在图像中的第一可见率的变化也是连续的，更新网络的循环神经网络中具有隐变量，用于表示待跟踪目标在当前帧图像之前所有帧图像上累积的运动状态，将待跟踪目标在其他帧图像中的第一可见率和标注待跟踪目标的位置信息的其他帧图像输入至更新网络，更新网络根据待跟踪目标的第一可见率、待跟踪目标的位置信息和待跟踪目标累积的运动状态进行特征提取，输出更新后的当前模板特征。

由于第一可见率p_pri是一个标量，为了确定第一可见率p_pri的特征，需要先将第一可见率p_pri转换为张量，再将该张量和先验模板图像z_pri进行拼接后输入至更新网络，得到先验模板特征f(z_pri)的更新模板特征f(p_pri,z_pri)作为其他帧图像更新后的当前模板特征。

需要说明的是，根据第一可见率p_pri对先验模板特征进行更新时，更新模板特征可以表示待跟踪目标在其他帧图像中被遮挡或消失的情况，以便可以根据更新模板特征对当前帧搜索特征进行卷积，准确地确定当前帧图像中待跟踪目标的位置。

示例的，请参考图10，为本申请实施例提供的更新网络的示意图，如图10所示，更新网络由CNN和RNN交替构成，将第一可见率p_pri转换为张量(1,H_z,W_z)，并与先验模板图像z_pri进行拼接得到尺寸为(1+3,H_z,W_z)的张量[p_pri,z_pri]，将张量[p_pri,z_pri]输入更新网络，得到尺寸为(64,H_f(z),W_f(z))的更新模板特征f(p_pri,z_pri)。

需要说明的是，更新网络的循环神经网络和初始化网络的循环神经网络的权重参数和隐变量参数是共享的，初始化神网络的循环神经网络输出的第一帧图像的隐变量参与更新网络中第二帧图像的当前模板特征的更新，更新网络根据前一帧图像的隐变量输出当前帧图像的隐变量，更新网络中每一帧图像的隐变量参与下一帧图像的当前模板特征的更新。

上述实施例提供的目标跟踪方法，对于其他帧图像的目标跟踪，根据验证网络输出的当前模板特征和第一帧图像的当前模板特征计算待跟踪目标在其他帧图像中的第一可见率，采用更新网络根据第一可见率和待跟踪目标在其他帧图像中的位置，对其他帧图像的当前模板特征进行更新，由于更新网络包括卷积神经网络，使得待跟踪目标的位置特征可以在时间和空间变化上进行传递，更新后的当前模板特征和其他帧图像的搜索特征构成非对称时空特征，以保证可以从其他帧图像准确搜索到待跟踪目标的位置，提高目标跟踪的准确度；且由于位置特征在时间和空间上的传递，可以避免由于待跟踪目标的遮挡和消失，导致对待跟踪目标的跟踪丢失，保证长期稳定地跟踪目标。

以下结合图11对获取当前模板特征的又一种可能的实现方式进行说明。

请参考图11，为本申请实施例提供的目标跟踪方法的流程示意图五，如图11所示，上述对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，确定当前模板特征的过程，可以包括：

S37：根据前一帧图像的跟踪结果，在前一帧图像中标注待跟踪目标的位置信息，跟踪结果还包括：待跟踪目标在前一帧图像中的第二可见率。

S38：采用更新网络对第二可见率和标注待跟踪目标的位置信息的前一帧图像进行特征提取，得到当前模板特征，更新网络为卷积神经网络和循环神经网络。

本实施例中，由于外部的目标检测算法的效率较低，不能为每一帧图像提供标注有待跟踪目标的位置信息的模板图像，在此情况下，可以根据本申请实施例提供的目标跟踪方法对前一帧图像进行目标跟踪得到的前一帧图像的识别结果，在前一帧图像上标注待跟踪目标的位置，生成后验模板图像z_pos。

根据前述可知，回归网络输出的待跟踪目标的位置信息还包括待跟踪目标在图像上的第二可见率，将前一帧图像的第二可见率p_pos转换为张量，和后验模板图像z_pos进行拼接后输入至更新网络，等到后验模板特征f(p_pos,z_pos)作为前一帧图像的当前模板特征。

需要说明的是，将前一帧图像的第二可见率p_pos和后验模板图像z_pos输入至更新网络，此时更新网络输入的隐变量为前一帧图像之前的图像输出的隐变量。

上述实施例提供的目标跟踪方法，对于其他帧图像的目标跟踪，采用更新网络对标注有待跟踪目标的位置信息的前一帧图像和待跟踪目标在前一帧图像中的第二可见率进行特征提取，得到前一帧图像的当前模板特征，使得前一帧图像的当前模板特征和当前帧图像的搜索特征构成非对称时空特征，以保证可以从其他帧图像准确搜索到待跟踪目标的位置，提高目标跟踪的准确度，保证在长期稳定跟踪目标。

上述实施例提供的目标跟踪方法，是基于预先训练得到的目标神经网络模型实现的。目标神经网络模型是由搜索网络、当前模板特征的特征提取网络和回归网络构成。其中，当前模板特征的特征提取网络可以包括：初始化网络、验证网络和更新网络。

以下结合图12对训练目标神经网络模型的一种可能的实现方式进行说明。

请参考图12，为本申请实施例提供的目标神经网络模型训练步骤的流程示意图，如图12所示，目标神经网络模型训练步骤可以包括：

S51：获取样本视频帧序列，视频帧序列中至少部分样本图像包括待跟踪目标，各帧样本图像中预先标注有待跟踪目标的实际位置信息和可见率真值。

本实施例中，样本视频帧序列是记录待跟踪目标在时间序列上进行运动的一组样本图像，在该组样本图像的每帧样本图像中，可能存在完整的待跟踪目标、部分待跟踪目标或者没有待跟踪目标，其中，存在部分待跟踪目标为待跟踪目标被遮挡物所遮挡，没有待跟踪目标为待跟踪目标消失。

通过人工在各帧样本图像中标注待跟踪目标的实际位置信息，并根据待跟踪目标的实际位置信息，和待跟踪目标的完整尺寸信息，计算待跟踪目标在各帧样本图像中的可见率真值。

S52：根据各帧样本图像，采用初始神经网络模型输出待跟踪目标在各帧样本图像中的样本位置信息和样本可见率。

本实施例中，将各帧样本图像输入至初始神经网络模型中的初始搜索网络进行特征提取，生成各帧样本图像的样本搜索特征，获取各帧样本图像的样本当前模板特征，以样本当前模板特征作为卷积核，对样本搜索特征进行卷积，可以得到样本特征响应图，将样本特征响应图输入至初始神经网络模型中的初始回归网络，初始回归网络根据样本特征响应图进行目标识别，输出待跟踪目标在各帧样本图像中的样本位置信息和样本可见率。

在一种可能的实现方式中，若当前帧样本图像为第一帧样本图像，则可以采用初始神经网络模型中的初始化网络提取标注有待跟踪目标的位置信息的第一帧样本图像获取样本当前模板特征。

若当前帧样本图像为其他帧样本图像，则可以采用初始神经网络模型中的初始验证网络提取标注有待跟踪目标的位置信息的当前帧样本图像获取样本当前模板特征，还可以进一步采用初始神经网络模型中的初始更新网络对当前帧样本图像的样本当前模板特征进行更新。

在一些实施例中，还可以采用采用初始神经网络模型中的更新网络根据待跟踪目标在前一帧样本图像的样本位置信息和待跟踪目标在前一帧图像中的样本可见率进行特征提取，确定样本当前模板特征。

示例的，可以在初始神经网络模型的初始搜索网络和初始回归网络之间设置一卷积层，该卷积层以样本当前模板特征作为卷积核，对样本搜索特征进行卷积。该卷积层的一个输入为初始搜索网络的输出，另一个输入为初始化网络、初始验证网络或初始更新网络的输出。

S53：根据各帧样本图像对应的实际位置信息、可见率真值、样本位置信息和样本可见率，构建各帧样本图像的损失函数。

本实施例中，计算样本位置信息和实际位置信息的位置偏差，计算样本可见率和可见率真值的可见率偏差，根据几何权重和位置偏差、概率权重和可见率偏差，构建各帧样本图像的损失函数。

示例的，损失函数可以表示为：

其中，p_pri是根据初始验证网络输出其他帧样本图像的样本当前模板特征和初始化网络输出的第一帧样本图像的样本当前模板特征计算得到的第一可见率，p_pos是初始回归网络输出的第二可见率，

为可见率真值，(l,t,r,b)是初始回归网络输出的样本位置信息，/>

是样本图像中标注的实际位置信息，其中/>

可以根据各帧样本图像中标注的待跟踪目标的包围盒计算得到，包围盒的左上顶点坐标为/>

右下顶点坐标为

为像素点(x,y)到包围盒左、上、右、下四个边缘的距离。

示例的，计算公式可以为：

其中，s为尺度变化率，示例的可以为

初始回归网络确定待跟踪目标的包围盒后，也可以根据上述计算公式确定(l,t,r,b)。

S54：基于各帧样本图像的损失函数得到样本视频帧序列的总损失函数。

本实施例中，对样本视频帧序列上的各帧样本图像进行训练，各帧样本图像的损失函数得到样本视频帧序列的总损失函数，其总损失函数L为：

S55：基于总损失函数对初始神经网络模型的参数进行更新，直至模型收敛，得到目标神经网络模型。

本实施例中，根据总损失函数，采用优化算法对初始神经网络模型的参数进行更新，利用调整后的神经网络模型再次进行目标跟踪，根据输出结果计算总损失函数，若损失函数值满足预设停止条件，得到目标神经网络模型。其中，对初始神经网络模型的参数进行更新，包括对搜索网络、验证网络和回归网络的权重参数进行更新，还包括对初始化网络和更新网络的权重参数和隐变量的参数进行更新。示例的，优化算法可以为自适应矩估计(Adaptive Moment Estimation，Adam)优化器。

需要说明的是，搜索网络、验证网络、回归网络、初始化网络和更新网络中的CNN的结构和权重不同，初始化网络和更新网络的RNN的权重参数和隐变量的参数可以共享。

还需要说明的是，由于外部的目标检测算法的效率较低，不能为每一帧样本图像提供标注有待跟踪目标的位置信息的样本模板图像，因此，在采用标注有待跟踪目标的位置信息的前一帧图像进行模型训练时，不调用验证网络，根据采用目标检测算法检测待跟踪目标的间隔帧数调用验证网络，间隔帧数可以为30帧。

在上述目标跟踪方法的实施例的基础上，本申请实施例还提供一种目标跟踪装置。请参考图13，为本申请实施例提供的目标跟踪装置的结构示意图，如图13所示，该装置可以包括：

视频帧获取模块10，用于获取视频帧序列，视频帧序列中至少部分图像包括待跟踪目标；

搜索特征提取模块20，用于采用搜索网络对当前帧图像进行特征提取，得到当前帧图像的搜索特征，搜索特征表征待跟踪目标在当前帧图像中的位置，搜索网络为卷积神经网络；

特征卷积模块30，用于基于当前帧图像对应的当前模板特征对搜索特征进行卷积，得到特征响应图，当前模板特征表征待跟踪目标在当前帧图像中的预测目标位置，用于提取当前模板特征的特征提取网络与搜索网络为不同的卷积神经网络；

目标识别模块40，用于将特征响应图输入回归网络，得到跟踪结果，跟踪结果包括待跟踪目标在当前帧图像中的位置信息。

可选的，在特征卷积模块30之前，该装置还包括：

当前模板特征获取模块，用于对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，确定当前模板特征；或者，对标注有待跟踪目标的位置信息的前一帧图像进行特征提取，确定当前模板特征。

可选的，当前模板特征获取模块，包括：

目标位置标注单元，用于若当前帧图像为视频帧序列中的第一帧图像，采用目标检测算法对第一帧图像进行目标检测，在第一帧图像中标注待跟踪目标的位置信息；

当前模板特征获取单元，用于采用初始化网络对标注有待跟踪目标的位置信息的第一帧图像进行特征提取，得到当前模板特征。

可选的，目标位置标注单元，还用于若当前帧图像为视频帧序列中除第一帧图像外的其他帧图像，采用目标检测算法对当前帧图像进行目标检测，在当前帧图像中标注待跟踪目标的位置信息；

当前模板特征获取单元，还用于采用验证网络对标注有待跟踪目标的位置信息的当前帧图像进行特征提取，得到当前模板特征。

可选的，当前模板特征获取单元之后，装置还包括：

可见率计算单元，用于根据当前帧图像的当前模板特征和第一帧图像的当前模板特征，计算待跟踪目标在当前帧图像中的第一可见率；

当前模板特征更新单元，用于采用更新网络对第一可见率和标注待跟踪目标的位置信息的当前帧图像进行特征提取，更新当前帧图像的当前模板特征，更新网络为卷积神经网络和循环神经网络。

可选的，目标位置标注单元，还用于根据前一帧图像的跟踪结果，在前一帧图像中标注待跟踪目标的位置信息，跟踪结果还包括：待跟踪目标在前一帧图像中的第二可见率；

当前模板特征获取单元，还用于采用更新网络对第二可见率和标注待跟踪目标的位置信息的前一帧图像进行特征提取，得到当前模板特征，更新网络为卷积神经网络和循环神经网络。

可选的，目标神经网络模型包括：搜索网络、当前模板特征的特征提取网络和回归网络；目标神经网络模型通过以下模块训练得到：

样本视频帧获取模块，用于获取样本视频帧序列，视频帧序列中至少部分样本图像包括待跟踪目标，各帧样本图像中预先标注有待跟踪目标的实际位置信息和可见率真值；

样本目标识别模块，用于根据各帧样本图像，采用初始神经网络模型输出待跟踪目标在各帧样本图像中的样本位置信息和样本可见率；

损失函数构成模块，用于根据各帧样本图像对应的实际位置信息、可见率真值、样本位置信息和样本可见率，构建各帧样本图像的损失函数；

损失函数汇总模块，用于基于各帧样本图像的损失函数得到样本视频帧序列的总损失函数；

模型更新模块，用于基于总损失函数对初始神经网络模型的参数进行更新，直至模型收敛，得到目标神经网络模型。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

请参考图14，为本申请实施例提供的电子设备的示意图，如图14所示，该电子设备100包括：存储器101、处理器102及存储在存储器101上的计算机程序，处理器102执行计算机程序以实现上述任一实施例的目标跟踪方法。

在一种可能的实现方式中，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序/指令，计算机程序/指令被处理器执行时实现上述任一实施例的目标跟踪方法。

在一种可能的实现方式中，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述任一实施例的目标跟踪方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

基于当前帧图像对应的当前模板特征对所述搜索特征进行卷积，得到特征响应图，所述当前模板特征表征所述待跟踪目标在所述当前帧图像中的预测目标位置，用于提取所述当前模板特征的特征提取网络与所述搜索网络为不同的神经网络；

2.如权利要求1所述的方法，其特征在于，所述基于当前帧图像对应的当前模板特征对所述搜索特征进行卷积，得到特征响应图之前，所述方法还包括：

对标注有所述待跟踪目标的位置信息的当前帧图像进行特征提取，确定所述当前模板特征；或者，

对标注有所述待跟踪目标的位置信息的前一帧图像进行特征提取，确定所述当前模板特征。

3.如权利要求2所述的方法，其特征在于，所述对标注有所述待跟踪目标的位置信息的当前帧图像进行特征提取，确定所述当前模板特征，包括：

4.如权利要求2所述的方法，其特征在于，所述对标注有所述待跟踪目标的位置信息的当前帧图像进行特征提取，确定所述当前模板特征，包括：

5.如权利要求4所述的方法，其特征在于，所述采用验证网络对标注有所述待跟踪目标的位置信息的所述当前帧图像进行特征提取，得到所述当前模板特征之后，所述方法还包括：

6.如权利要求2所述的方法，其特征在于，所述对标注有所述待跟踪目标的位置信息的前一帧图像进行特征提取，确定所述当前模板特征，包括：

7.如权利要求1所述的方法，其特征在于，目标神经网络模型包括：所述搜索网络、所述当前模板特征的特征提取网络和所述回归网络；所述目标神经网络模型是通过以下步骤训练得到的；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-7任一项所述的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-7任一项所述的方法。