CN111627050A

CN111627050A - 一种目标跟踪模型的训练方法和装置

Info

Publication number: CN111627050A
Application number: CN202010731856.1A
Authority: CN
Inventors: 张�浩
Original assignee: Hangzhou Xiongmai Integrated Circuit Technology Co Ltd
Current assignee: Zhejiang Xinmai Microelectronics Co ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-09-04
Anticipated expiration: 2040-07-27
Also published as: CN111627050B

Abstract

本申请提供一种目标跟踪模型的训练方法和装置。一种目标跟踪模型的训练方法，基于样本图像对对所述目标跟踪模型进行训练，所述样本图像对包括模板图像和搜索图像，所述搜索图像标注有对应搜索图像像素点的分类标签和权重标签，所述方法包括：利用以下步骤进行迭代训练，直至满足所述目标跟踪模型的模型训练要求：将所述样本图像对输入到所述目标跟踪模型中，基于所述目标跟踪模型预测得到所述搜索图像与所述模板图像之间的相似度；根据所述相似度、所述分类标签和所述权重标签确定本次迭代的相似度损失；根据所述相似度损失更新所述目标跟踪模型的模型参数。采用上述方法，可以提高目标跟踪的准确度。

Description

一种目标跟踪模型的训练方法和装置

技术领域

本申请涉及人工智能领域，特别涉及一种目标跟踪模型的训练方法和装置。

背景技术

目标跟踪技术是计算机视觉领域的一个重要分支，有着十分重要的研究意义，在视频监控、机器人视觉导航、人机交互、医疗诊断等许多方面都存在广泛的应用前景。目标跟踪指的是对图像序列中运动的目标进行检测、提取、识别和跟踪，以获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等。

在进行目标跟踪时，由于目标一般是运动的，很容易会发生目标遮挡、污染，或者目标发生了形变等现象。比如，目标遮挡可以是：在跟踪行人时，行人在马路上行走的过程中，其一部分身体被大树、汽车或建筑物遮挡的情况。现有技术中，当发生诸如目标遮挡、污染、形变等情况时，很容易导致跟踪结果不准确、跟踪失败的问题。

发明内容

有鉴于此，本申请提供一种目标跟踪模型的训练方法和装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提供了一种目标跟踪模型的训练方法：

一种目标跟踪模型的训练方法，基于样本图像对对所述目标跟踪模型进行训练，所述样本图像对包括模板图像和搜索图像，所述搜索图像标注有对应搜索图像像素点的分类标签和权重标签，所述方法包括：

利用以下步骤进行迭代训练，直至满足所述目标跟踪模型的模型训练要求：

将所述样本图像对输入到所述目标跟踪模型中，基于所述目标跟踪模型预测得到所述搜索图像与所述模板图像之间的相似度；

根据所述相似度、所述分类标签和所述权重标签确定本次迭代的相似度损失；

根据所述相似度损失更新所述目标跟踪模型的模型参数。

根据本申请的第二方面，提供了一种目标跟踪的方法，包括：

将视频帧序列输入所述目标跟踪模型，所述视频帧序列中包括若干基于时间顺序排列的视频帧图像；

针对第n帧图像，所述目标跟踪模型基于上一帧模板图像预测所述第n帧图像中跟踪目标所在区域的预测目标框；

判断所述预测目标框是否满足条件；

若满足，则将所述第n帧图像更新为模板图像，并利用所述模板图像对第n+1帧图像中的跟踪目标进行预测。

根据本申请的第三方面，提供了一种目标跟踪模型的训练装置：

一种目标跟踪模型的训练装置，基于样本图像对对所述目标跟踪模型进行训练，所述样本图像对包括模板图像和搜索图像，所述搜索图像标注有对应搜索图像像素点的分类标签和权重标签，所述装置包括：

利用以下单元进行迭代训练，直至满足所述目标跟踪模型的模型训练要求：

相似度预测单元，用于将所述样本图像对输入到所述目标跟踪模型中，基于所述目标跟踪模型预测得到所述搜索图像与所述模板图像之间的相似度；

损失确定单元，用于根据所述相似度、所述分类标签和所述权重标签确定本次迭代的相似度损失；

参数更新单元，用于根据所述相似度损失更新所述目标跟踪模型的模型参数。

根据本申请的第四方面，提供了一种目标跟踪的装置，包括：

输入单元，用于将视频帧序列输入所述目标跟踪模型，所述视频帧序列中包括若干基于时间顺序排列的视频帧图像；

目标框预测单元，用于针对第n帧图像，所述目标跟踪模型基于上一帧模板图像预测所述第n帧图像中跟踪目标所在区域的预测目标框；

判断单元，用于判断所述预测目标框是否满足条件；

模板更新单元，用于若满足，则将所述第n帧图像更新为模板图像，并利用所述模板图像对第n+1帧图像中的跟踪目标进行预测。

根据本申请的第五方面，提供了一种目标跟踪模型的训练装置：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与目标跟踪模型的训练逻辑对应的机器可执行指令，所述处理器被促使：

根据所述相似度损失更新所述目标跟踪模型的模型参数。

根据本申请的第六方面，提供了一种目标跟踪的装置，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与目标跟踪的逻辑对应的机器可执行指令，所述处理器被促使：

判断所述预测目标框是否满足条件；

由以上描述可以看出，在本申请的一个实施例中，在训练目标跟踪模型时，可以先构建样本图像对作为训练样本，并且为样本图像对中的搜索图像标注权重标签和分类标签，然后将带标签的样本图像对输入到所述目标跟踪模型中，由目标跟踪模型预测得到搜索图像和模板图像之间的相似度，然后结合所述相似度、分类标签和权重标签来确定本次迭代的相似度损失，基于所述相似度损失来不断地更新模型的参数，直到满足目标跟踪模型的训练要求。

采用上述方法，通过为搜索图像设置权重标签，并且利用权重标签来计算损失，可以使目标跟踪模型在训练过程中更加关注权重值大的区域，更少地关注权重值小的区域，即便是权重值小的区域发生了目标遮挡、污染等问题，也不会对目标跟踪模型的预测结果产生较大的影响，可以大大提高目标跟踪的准确度，解决了现有技术中由于目标遮挡、污染等导致的跟踪不准确、跟踪失败的问题。并且可以在训练目标跟踪模型的过程中起到平滑、过渡的作用，使得模型可以更好地学习到样本的特征，避免产生过拟合，提高目标跟踪模型预测的准确度。

附图说明

图1是本申请一示例性实施例示出的一种目标跟踪模型的训练方法的流程示意图；

图2是本申请一示例性实施例示出的一种权重矩阵的确定的流程示意图；

图3是本申请一示例性实施例示出的一种目标跟踪模型的结构示意图；

图4是本申请一示例性实施例示出的一种目标跟踪的方法的流程示意图；

图5是本申请一示例性实施例示出的一种目标跟踪模型的训练装置的结构示意图；

图6是本申请一示例性实施例示出的一种目标跟踪模型的训练装置的框图；

图7是本申请一示例性实施例示出的一种目标跟踪的装置的结构示意图；

图8是本申请一示例性实施例示出的一种目标跟踪的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

目标跟踪技术是计算机视觉领域的一个重要分支，有着十分重要的研究意义，在视频监控、机器人视觉导航、人机交互、医疗诊断等许多方面都存在广泛的应用前景。

举例来说，在视频监控领域，用于监控的摄像头可以实时地拍摄图像，并且对图像中的某个目标进行跟踪。假设跟踪目标为小王，那么摄像头可以拍摄画面，并且找到画面中小王的位置，以对其进行跟踪。在这个过程中，由于小王很可能不是静止的，而是不断运动的，那么小王在运动过程中很可能会离开摄像头拍摄的画面。在这种情况下，可以在拍摄画面中跟踪到小王后，通过不断地调整摄像头的拍摄角度，从而保证拍摄画面中可以一直存在小王。这便是利用了目标跟踪技术。

常用的目标跟踪方法可以包括KCF（Kernel Correlation Filter，核相关滤波）法和孪生网络法。对于KCF法来说，其在进行目标跟踪的过程中会不断地更新“模板”，即会将上一帧的图像作为下一帧跟踪时的模板，利用上一帧图像中的跟踪目标来分析下一帧图像中是否存在所述跟踪目标。然而，采用这种方法，由于模板是不断更新的，若跟踪目标发生了遮挡、污染等情况（比如跟踪目标被障碍物遮挡、摄像头受到了污染），那么相应的模板也会受遮挡、污染的影响，从而导致跟踪结果不准确，或者跟踪失败。

对于孪生网络法来说，其在目标跟踪的过程中不会更新模板，而是一直使用第一帧图像作为模板。采用这种方法虽然可以在一定程度上避免上述目标遮挡、污染的问题，但是由于其模板是固定不变的，若跟踪目标发生了形变（比如行人在视频画面中越走越远，那么行人在视频画面上的面积也越来越小），也会产生跟踪结果不准确、跟踪失败的问题。

基于此，本申请提供了一种目标跟踪模型的训练方法和装置，可以解决上述目标遮挡、污染或形变等导致的跟踪结果不准确、跟踪失败的问题。

下面先对本申请提供的一种目标跟踪模型的训练方法进行说明。

所述目标跟踪模型的训练方法可以应用于具有存储器、处理器的电子设备中。

请参见图1，所述目标跟踪模型的训练方法可以包括以下步骤：

步骤S102，将所述样本图像对输入到所述目标跟踪模型中，基于所述目标跟踪模型预测得到所述搜索图像和所述模板图像之间的相似度；

步骤S104，根据所述相似度、所述分类标签和所述权重标签确定本次迭代的相似度损失；

步骤S106，根据所述相似度损失更新所述目标跟踪模型的模型参数。

下面对上述步骤S102-S106进行说明。

首先，值得注意的是，本申请所述方法可以应用于单目标跟踪，也可以应用于多目标跟踪，本申请对此不作特殊限制。下面的实施例主要从单目标跟踪的角度来进行说明。

本实施例中，目标跟踪模型可以是卷积神经网络模型，比如可以是基于孪生网络的卷积神经网络模型。可以利用样本图像对来训练所述目标跟踪模型。具体地，样本图像对中包括一个模板图像和一个搜索图像，可以基于模板图像来预测搜索图像中是否存在跟踪目标。

其中，样本图像对中的搜索图像可以标注有两个标签，分别为分类标签和权重标签，并且，分类标签和权重标签与搜索图像中的各个像素点存在对应关系。其中，分类标签可以代表搜索图像中各个像素点是否存在跟踪目标，权重标签可以代表目标跟踪模型对搜索图像中各个像素点的关注程度，关注程度高的像素点权重值大；关注程度低的像素点权重值小。

可以采用下面的方法对目标跟踪模型进行迭代训练，直到满足模型的训练要求：

可以将上述样本图像对输入到目标跟踪模型中，然后利用目标跟踪模型预测得到搜索图像和目标图像之间的相似度。

然后可以利用相似度、分类标签和权重标签来确定本次迭代的相似度损失，并基于该相似度损失来更新目标跟踪模型的参数。比如，可以采用相似度损失函数来计算本次迭代的相似度损失。

计算得到相似度损失后，可以基于所述相似度损失来决定是否进行下一次迭代训练，若需要进行下一次迭代训练，则可以进一步采用梯度下降法来更新目标跟踪模型的参数，直到满足模型的训练要求。

采用上述方法，通过为搜索图像设置权重标签，并且利用权重标签来计算损失，可以使目标跟踪模型在训练过程中更加关注权重值大的区域，更少地关注权重值小的区域，这样即便是权重值小的区域发生了目标遮挡、污染等问题，也不会对目标跟踪模型的预测结果产生较大的影响，可以大大提高目标跟踪的准确度，解决了现有技术中由于目标遮挡、污染等导致的跟踪不准确、跟踪失败的问题。

下面对本申请提供的另一种目标跟踪模型的训练方法进行说明。

所述目标跟踪模型的训练方法同样可以应用于具有存储器、处理器的电子设备中。

本实施例中，主要从构建训练样本、模型结构、损失计算三个方面来对所述目标跟踪模型的训练方法进行说明。

一、构建训练样本

在训练本申请所述的目标跟踪模型时，需要先确定训练样本。

本实施例中，可以基于现有的目标跟踪训练数据集来确定所述训练样本，比如，LaSOT（Large-scale Single Object Tracking，大规模单目标跟踪）训练数据集、Got-10K（Generic Object Tracking，常规目标跟踪）训练数据集等等。

当然，也可以人为地挑选出一些图像作为所述训练样本，本申请对此不作特殊限制。

本实施例中的训练样本可以是样本图像对，所述样本图像对中包括两张样本图像，一张图像为模板图像，另一张图像为搜索图像。其中，模板图像和搜索图像可以是具有时序关系的图像，且模板图像的拍摄时间早于搜索图像的拍摄时间。

具体地，可以从训练样本集中选取出一组视频帧序列，然后按照预设的帧差从所述视频帧序列中选出两帧图像，将这两帧图像组合后作为述样本图像对。当然，也可以随机地从视频帧序列中选取两帧图像，本申请对此不作特殊限制。

下面以一个具体的例子进行说明。

可以从训练样本集中随机挑选320个视频帧序列，并且将这320个视频帧序列随机地分成10个批次，每个批次中存在32个视频帧序列。其中，每个批次可以作为一个batch（批处理）。针对每个batch，可以按照预测的帧差分别从每个视频帧序列中选出两帧图像，这两帧图像可以作为一个样本图像对，那么对于32个视频帧序列，一共可以得到32组样本图像对。

其中，同一个视频帧序列中的图像，可以被选入不同batch中。举例来说，假设上述320个视频帧序列中存在一个视频帧序列A，并且视频帧序列A中存在4帧图像，分别为图像1、图像2、图像3和图像4。那么在batch1中，可以选取图像1和图像2组合成样本图像对。在batch2中，可以选择图像3和图像4组合成样本图像对。总之，采用上述方法，可以选取到每个视频帧序列中的多张图像来构建样本图像对。

本实施例中，可以利用上述样本图像对来训练目标跟踪模型。具体地，当采用一个batch的数据（即上述32组样本图像对）训练目标跟踪模型后，可以利用下一个batch的数据来对模型进行迭代训练，从而不断地调整模型参数，以优化模型。

当然，上述确定样本图像对的例子仅仅是示意性的说明，在实际情况下也可以通过其它方式确定样本图像对，本申请对此不作特殊限制。

本实施例中，在确定样本图像对的过程中，可能出现以下的情况：

（1）模板图像和搜索图像中都包括跟踪目标，那么此时的样本为正样本；

（2）模板图像包括跟踪目标，而搜索图像不包括跟踪目标，那么此时的样本为负样本；

（3）模板图像不包括跟踪目标，而搜索图像包括跟踪目标；

（4）模板图像和搜索图像都不包括跟踪目标。

对于上述（3）、（4）两种情况，构建得到的样本图像对是无意义的，可以过滤掉这部分样本图像对。

其中，跟踪目标可以是预先指定的，比如人体、动物、车辆、车牌等等，即任何具有运动可能性的物体均可以作为跟踪目标，本申请对此不作特殊限制。

本实施例中，在一个例子中，可以将选取得到的模板图像和搜索图像进行组合，得到一组样本图像对，然后直接将所述样本图像对作为训练样本。

在另一个例子中，还可以对所述模板图像和搜索图像进行预处理，将预处理后的这两张图像组合后作为训练样本。

其中，预处理可以包括对图像进行裁剪、去噪、增强、灰度化等等，具体方法可以参照相关技术。

下面以一个具体的预处理例子为例进行说明。

本例中，可以对模板图像和搜索图像均进行裁剪。对于模板图像来说，由于模板图像中存在跟踪目标，而跟踪目标所在区域为需要关注的重点区域，因而在裁剪时可以裁剪出跟踪目标所在区域，比如裁剪后的模板图像的尺寸可以与所述跟踪目标的尺寸相同，或者稍大于所述跟踪目标的尺寸。而对于搜索图像来说，考虑到跟踪目标可能会发生形变、污染等情况，所以在裁剪时可以控制搜索图像的尺寸大于裁剪后的模板图像的尺寸，以提供一定的裕度。

比如，假设裁剪后模板图像的尺寸为11*11（121个像素点），那么可以控制裁剪后搜索图像的尺寸可以为15*15（225个像素点）。

具体地，可以通过以下的方法对模板图像和搜索图像进行裁剪。

首先是对模板图像进行裁剪：

可以先计算模板图像内跟踪目标的宽和高，比如可以按照下述公式（1）—（3）进行计算：

其中，w为跟踪目标的宽，h为跟踪目标的高（w，h的数值可以预先检测得到），w’，h’为裁剪后模板图像的宽和高，content为超参数，用于控制跟踪目标周围的背景量。crop_size为模板图像的目标裁剪大小。

在一个例子中，可以指定content的数值大小，比如可以指定为0.5，然后利用根据公式（1）至（3）的顺序来计算出模板图像的目标裁剪大小（即crop_size）。

在另一个例子中，也可以指定目标裁剪大小，比如可以为112，然后根据公式（3）至（1）的顺序反向计算出w’和h’的数值大小。本申请对此不作特殊限制。

本例中，确定了跟踪目标的宽和高后，可以按照下述公式（4）—（7）计算裁剪后模板图像的左上角顶点和右下角顶点的坐标（裁剪后的模板图像为矩形形状）：

其中，x1、y1为裁剪后模板图像的左上角顶点坐标，x2、y2为裁剪后模板图像的右下角顶点坐标，cx，cy为模板图像中跟踪目标的中心点。跟踪目标的中心点可以和裁剪后模板图像的中心点重合。

然后对搜索图像进行裁剪：

可以按照下述公式（8）—（12）计算出裁剪后搜索图像的尺寸大小和左上角顶点坐标、右下角顶点坐标：

其中，crop_size_为搜索图像的目标裁剪大小，

为目标跟踪模型对应的模板图像的输入大小，

为目标跟踪模型对应的搜索图像的输入大小。其中，输入大小指的是卷积神经网络模型的输入图像的大小。

本例中，对于公式（8），可以先指定sz、sx，然后计算

。比如sz可以为 224，sx可以为112，然后根据前述公式（3）计算得到的

来计算

。

x1

，y1

为裁剪后搜索图像的左上角顶点坐标，x2

，y2

为裁剪后搜索图像的右下角顶点坐标。

，

为搜索图像的原始中心点，搜索图像的原始中心点可以为搜索图像中跟踪目标的中心点，也可以为其它点。本例中，可以取原始中心点为搜索图像中跟踪目标的中心点。

为随机数，代表着裁剪后的搜索图像的中心点与原始中心点之间的偏移程度，其取值范围可以人为设置，比如可以设为-50到50。

在裁剪过程中，由于上述随机数

的存在，裁剪后搜索图像的中心点可能会以原始中心点为基础进行滑动，而滑动的过程中产生的区域可能会超出裁剪前搜索图像的范围，那么在这种情况下，还可以对搜索图像进行相应的补边操作，具体方法可以参照相关技术。

值得说明的是，上述裁剪的方法是本申请提供的一种具体实施例，在其它实施例中，也可以按照其它方法进行裁剪，比如在裁剪过程中还可以利用其它的公式进行计算，再比如还可以用右上角顶点、左下角顶点的坐标来确定裁剪区域等等，本申请对此不作特殊限制。

值得说明的是，上述裁剪的过程中，搜索图像裁剪区域的左上角顶点、右下角顶点的坐标实际上根据搜索图像中的跟踪目标的位置来确定的（即正样本），对于负样本来说，由于其搜索图像中不存在跟踪目标，那么在确定搜索图像的裁剪坐标时，可以是以搜索图像的任意位置为裁剪中心点，也可以是将模板图像中跟踪目标的中心点映射到搜索图像中的对应位置，然后将映像得到的对应位置作为裁剪中心点，本申请对此不作特殊限制。

本例中，可以按照上述方法对每个样本图像对中的模板图像和搜索图像进行裁剪。然后还可以对裁剪后的样本图像对进行灰度化处理，比如可以选取预设比例的样本图像对进行灰度化处理，预设比例可以为30%。

然后还可以进行归一化处理，可以采用下述公式（13）来进行归一化：

其中，

为归一化处理后的像素点的像素值，x为归一化处理前像素点的像素值。

完成上述预处理后，可以将预处理后的样本图像对确定为训练样本。

本实施例中，确定了训练样本后，可以对训练样本增加标签。

具体地，可以为样本图像对中的搜索图像添加分类标签、权重标签和目标框标签。下面分别对上述标签进行说明。

1、分类标签

分类标签代表的是搜索图像中是否存在跟踪目标。比如，若存在跟踪目标（正样本），那么可以为分类标签打上标签值1；若不存在跟踪目标（负样本），那么可以为分类标签打上标签值0。当然，也可以按照其他方式打标，本申请对此不作特殊限制。

较优地，分类标签可以为矩阵的形式，矩阵的大小可以预先设置。比如，分类矩阵的大小可以和搜索图像大小相同（即分类矩阵中的元素数量可以和搜索图像中像素点的数量相同），也可以为其它大小。

对于正样本来说，可以将分类矩阵中各个元素的取值都标记为1。也可以仅将分类矩阵中与搜索图像中跟踪目标所在区域像素点对应的元素的取值标记为1，而将其它区域对应元素的取值标记为0。

对于负样本来说，由于搜索图像中不存在跟踪目标，那么可以将分类矩阵中各个元素的取值都标记为0。

本例中，较优地，分类标签还可以采用独热编码的形式。

2、目标框标签

目标框指的是搜索图像中跟踪目标所在的区域，目标框的形状可以为矩形、圆形、多边形或者不规则形状。目标框的标签可以是目标框在搜索图像中的位置信息，比如可以是目标框指定顶点的坐标信息。

比如，当标注目标框为矩形时，目标框标签可以为标注目标框的左上角顶点的坐标（如x1_，y1_）和右下角顶点的坐标（如x2_，y2_）。当然，目标框标签也可以是标注目标框的其它坐标，比如右上角坐标、左下角坐标、中心点坐标等等。

再比如，标注目标框还可以是圆形，那么相应的目标框标签可以为圆心的坐标和半径值。

较优地，上述目标框标签还可以坐标矩阵的形式存在。坐标矩阵的大小同样可以预先设置。

3、权重标签

代表的是目标跟踪模型对搜索图像中各个像素点的关注程度。

较优地，权重标签也可以矩阵的形式存在。矩阵的大小同样可以预先设置。并且，由于搜索图像中不同区域的关注程度可能不同，那么相应的，不同区域的权重值也可以不同。

在一个例子中，可以通过以下方法来确定搜索图像各个像素点的权重值。

可以先确定搜索图像中的跟踪目标所在的区域（标注目标框），然后将标注目标框所框处的区域的权重值设为高于非标注目标框区域的权重值。比如，标注目标框对应位置的权重值可以确定为0.5，非标注目标框对应位置的权重值可以确定为0。

较优地，还可以对标注目标框内不同区域的权重值进一步细分，比如可以标注目标框的中心区域的权重值（第一权重值）设为高于非中心区域的权重值（第二权重值），比如中心区域的权重值可为1，非中心区域的权重值可以为0.5。

那么，假设将非标注目标框所在区域的权重值记为第三权重值，上述三个权重值可以满足以下的规律：第一权重值>第二权重值>第三权重值。

当然，除了设置上述第一权重值、第二权重值和第三权重值这3个权重值外，实际情况下也可以设置其他数量的权重值，比如可以设置2个、4个、5个等等权重值，本申请对此不作特殊限制。

其中，可以通过以下的方法来确定跟踪目标的中心区域和非中心区域。

可以先根据所述标注目标框的长宽比确定中心比例，比如标注目标框的长宽比为4:4（如像素点4*4大小的图像），那么相应的中心比例可以是长宽比收缩一半，即2:2（如像素点2*2大小的图像）。然后可以确定所述标注目标框的中心点，以所述中心点为中心，基于所述中心比例将所述标注目标框划分为中心区域和非中心区域。比如，对于一张4*4大小的图像，可以选取出其中心位置2*2大小的图像作为中心区域，将其它区域作为非中心区域。

当然，上述例子仅仅是示意性的说明，在实际情况下也可以按照其它方法确定中心区域和非中心区域，比如还可以采用其它方法确定中心比例，也可以将标注目标框的其它位置作为中心点等等，本申请对此不作特殊限制。

请参考图2，图2是本申请一示例性实施例示出的一种权重矩阵的确定的流程示意图。图2中的（a）为模板图像，（b）为搜索图像。跟踪目标为（a）中的齿轮状图形。可见，搜索图像中存在跟踪目标，并且跟踪目标在搜索图像的右上角位置。那么可以据此构建权重矩阵，如图2中的（c）所示。具体地，权重矩阵中非跟踪目标所在的区域的权重值都为0，而跟踪目标所在区域的权重值都大于0，其中，跟踪目标中心区域的权重值可以为最大值1，然后中心区域往外的位置，权重值可以为0.5，进一步地再往外的位置，权重值可以为0.1。

本实施例中，为样本图像对中的搜索图像设置上述分类标签、权重标签、目标框标签后，可以利用这些带标签的样本图像对来训练目标跟踪模型。

二、模型结构

本实施例中，目标跟踪模型可以为卷积神经网络模型，其中，所述卷积神经网络模型可以包括共享层、第一预测层、第二预测层和输出层。下面结合图3和下表，对本申请所述卷积神经网络模型的结构进行说明。

图3是本申请一示例性实施例示出的一种目标跟踪模型的结构示意图，下表示意性地示出了一种目标跟踪模型的配置示意。

上表中，k代表卷积核的大小，n代表输出的卷积特征图的个数，s代表卷积滑动步长，Bn代表Batch Normalization操作，ReLU6、Softmax和Sigmoid代表使用的激活函数，group代表分组卷积个数。

值得说明的是，图3和上表中所示的模型结构，仅仅为示意性的说明，在实际情况下也可以采取其它的模型结构。比如，对于输出层来说，上述模型结构中包括两个子输出层，分别为卷积层class和卷积层box，在实际应用中，也可以对这两个子输出层进行结合，最终得到一个输出层，由这一个输出层输出卷积层class和卷积层box的输出结果。

下面结合上述模型结构，对本实施例中目标跟踪模型各个层的输入、输出数据进行说明。

本实施例中，将样本图像对输入到目标跟踪模型中，其中，样本图像对中的模板图像可以输入到输入层1，搜索图像可以输入到输入层2。

然后可以采用所述共享层分别对所述模板图像和搜索图像进行特征提取，具体地，可以根据共享层中的多个卷积层、池化层等对所述模板图像和搜索图像进行特征提取。

其中，所述共享层是模板图像和搜索图像共用的网络，相当于孪生网络，这一部分的具体方法可参照相关技术，本申请在此不再一一说明。

模板图像和搜索图像经共享层进行特征提取后，共享层的最后一层（最大池化层4）可以分别输出模板图像对应的第一模板特征图和搜索图像对应的第一搜索特征图。

然后可以将第一模板特征图和第一搜索特征图输入到第一预测层中，其中，所述第一预测层包括模板子预测层（卷积层9_1）和搜索子预测层（卷积层9_2），所述第一模型特征图输入到卷积层9_1，得到第二模板特征图，所述第一搜索特征图输入到卷积层9_2，得到第二搜索特征图。

然后可以将第二模板特征图、第二搜索特征图一起输入到第二预测层，其中，第二预测层包括卷积层10和卷积层11。其中，卷积层10可以将第二模板特征图作为卷积核，对第二搜索特征图进行卷积计算，然后将计算后得到的结果输入卷积层11。

卷积层11可以预测出搜索图像与所述跟踪图像之间的相似度，然后将所述相似度相关的结果输入到输出层中的卷积层class和卷积层box，由卷积层class输出相似度预测结果，由卷积层box输出目标框预测结果。

其中，卷积层class输出的相似度预测结果可以是相似度矩阵，矩阵中各个元素值即相似度，并且每个元素都可以对应搜索图像中的像素点，代表的含义即搜索图像中各个像素点与模板图像之间的相似度。

卷积层box输出目标框预测结果可以为坐标矩阵。

本实施例中，可以根据卷积层class输出相似度预测结果和卷积层box输出的目标框预测结果，确定最终的预测目标框的坐标。这一部分同样可以通过目标跟踪模型来实现（图3中未画出，且上表中也未标出相应的模型配置），也可以通过与目标跟踪模型独立的其它模型来实现，本申请对此不作特殊限制。

具体地，可以通过以下方法来确定预测目标框：

由于相似度矩阵、坐标矩阵都是由模板图像、搜索图像输入目标跟踪模型得到的，那么相似度矩阵、坐标矩阵、模型图像、搜索图像彼此之间可以存在映射关系。

可以针对目标跟踪模型输出的相似度矩阵中的任一元素，基于上述映射关系，找到该元素在搜索图像中的坐标，然后再找到该元素在坐标矩阵中对应的坐标元素，利用上述坐标和坐标元素，计算得到预测目标框的坐标。

值得说明的是，在目标跟踪模型的训练阶段，可以针对相似度矩阵中的每个元素都进行上述计算，得到每个元素对应的预测目标框，然后利用这些预测目标框来计算损失。当然，也可以从相似度矩阵中选出若干目标元素，然后采用基于这些目标元素得到的预测目标框来计算损失。其中，目标元素可以是从相似度矩阵中选取出来的较优的预测结果。

下面以一个具体的例子来说明如何确定目标元素、如何基于目标元素得到预测目标框的坐标。

假设相似度矩阵输出的结果为下述矩阵M1的形式：

上述矩阵M1一共包括16个元素，每个元素的取值代表着搜索图像和模板图像的相似度。

可以对相似度矩阵中的各个元素进行聚类，然后根据聚类结果确定出目标元素。下面以确定一个目标元素为例进行说明。

例如，可以通过8连通聚类操作对相似度矩阵中的各个元素进行聚类，所谓8连通指的是，某个像素点周围环绕它的8个像素点（即上、下、左、右、左上、右上、左下、右下），具体的8连通聚类方法可以参照相关技术，在此不再一一说明。

当然，也可以采取其它聚类方法，本申请对此不作特殊限制。

较优地，可以在聚类之前，先过滤掉相似度矩阵中相似度小于相似度阈值的元素，然后对剩下的元素进行聚类。

例如，假设所述相似度阈值为0.5，那么可以对上述矩阵M1进行过滤，得到下面的矩阵M2：

其中，0代表矩阵M2中不存在元素的位置。

本例中，对相似度矩阵中的元素进行聚类后，可以得到若干个聚类簇，然后可以从中选出一个目标聚类簇，比如，可以将包含元素数量最多的聚类簇确定为目标聚类簇。然后从目标聚类簇中选出一个元素，作为目标元素。目标元素可以是所述目标聚类簇中相似度取值最高的元素，也可以是其它元素，本申请对此不作特殊限制。

仍以上述矩阵M2为例，假设聚类后可以得到两个聚类簇，其中，聚类簇A中包括的元素为{0.9,0.8,0.8}，聚类簇B中包括的元素为{0.5}。那么由于聚类簇A中的数量多于聚类簇B，那么可以将聚类簇A确定为目标聚类簇，然后选择聚类簇A中相似度取值最高的元素（0.9）作为目标元素。

当然，除上述例子外，也可以通过其它的方法确定目标元素，本申请对此不作特殊限制。

在其它例子中，也可能出现多个聚类簇中包含的元素数量相同的情况，比如假设聚类后得到两个聚类簇C和D，其中，聚类簇C和聚类簇D中都包括4个元素，那么在这种情况下，可以将置信度最高的聚类簇确定为目标聚类簇。

本例中，确定目标元素后，可以基于所述目标元素和所述若干个坐标矩阵，计算出搜索图像中预测目标框的坐标。

比如，目标跟踪模型可以输出四个坐标矩阵，分别为x1对应的坐标矩阵（下面称为坐标矩阵x1），y1对应的坐标矩阵（下面称为坐标矩阵y1），x2对应的坐标矩阵（下面称为坐标矩阵x2），y2对应的坐标矩阵（下面称为坐标矩阵y2）。其中，（x1，y1）可以指的是目标框左上角的坐标，（x2，y2）可以指的是目标框右下角的坐标。每个坐标矩阵中的元素值对应的是搜索图像中各个位置的坐标偏移量。

具体地，可以根据所述相似度矩阵和搜索图像之间的映射关系，确定出目标元素在搜索图像中对应的坐标（假设为坐标a），然后再根据相似度矩阵和坐标矩阵之间的映射关系，确定出所述目标元素在每个坐标矩阵中对应的4个坐标偏移量。然后根据所述坐标a和4个坐标偏移量，确定出预测目标框的左上角坐标和右下角坐标。

例如，可以采用下面的公式（14）—（17）来计算预测目标框的坐标。

其中，x，y分别是目标元素在搜索图像中对应的坐标；

为目标元素在x1坐标矩阵上对应的坐标偏移量；

为目标元素在y1坐标矩阵上对应的坐标偏移量；

为目标元素在x2坐标矩阵上对应的坐标偏移量；

为目标元素在y2坐标矩阵上对应的坐标偏移量；

、

为预测目标框左上角顶点的坐标；

、

为预测目标框左上角顶点的坐标；

stride为步长值，可以人为预设，比如可以设为16。

本例中，若搜索图像和跟踪图像经过裁剪预处理，那么上述得到的预测目标框的坐标信息实际上是裁剪后搜索图像上的坐标信息，那么还可以进一步将其映像到裁剪前图像上，最终得到裁剪前搜索图像上目标框的坐标。

具体地，可以根据裁剪前、后图像之间的映射关系，来得到裁剪前图像上目标框的坐标信息。

例如，可以通过下面的公式（18）—（24）来得到裁剪前图像上目标框的坐标信息。

其中，w_，h_为裁剪前搜索图像中跟踪目标的宽和高；

conterx_offset，centery_offset分别为裁剪后搜索图像跟踪目标的中心点相比于裁剪前搜索图像跟踪目标的中心点在x轴方向的偏移量和在y轴方向的偏移量；

conterx，contery为裁剪后搜索图像的中心点；

scale为裁剪后的搜索图像的尺寸相对于裁剪前搜索图像的尺寸的缩放比例；

track_centerx，track_centery为裁剪后搜索图像中跟踪目标的中心点坐标；

p_centerx，p_centery为裁剪前搜索图像中跟踪目标点的中心点坐标。

基于上述公式，可以最终得到裁剪前的搜索图像中目标框的坐标为[p_centerx，p_centery，w_，h_]。

三、损失计算

本实施例中，可以采用下述方法对目标跟踪模型进行迭代训练，直到满足所述目标跟踪模型的模型训练要求。其中，模型的训练要求可以是迭代训练的次数达到了次数阈值，也可以是基于损失函数计算得到的损失符合要求。

下面以一个具体的例子进行说明。

本实施例中，目标跟踪模型可以输出两个结果，分别为相似度和预测目标框。可以针对这两个输出结果分别设置不同的损失函数。

1、相似度

本实施例中的相似度损失函数可以为基于多分类交叉熵的损失函数。

较优地，相似度损失函数可以为下面的公式（25）：

其中，所述

为相似度损失值；

所述i，j为所述相似度矩阵中的第i行第j个元素；

所述

为所述第i行第j个元素对应的分类标签值（比如第i行第j个元素对应的搜索图像的像素点存在跟踪目标，则

=1；第i行第j个元素对应的搜索图像的像素点不存在跟踪目标，则

=0）；

所述

为所述相似度矩阵中第i行第j个元素对应的相似度；

所述

为所述相似度矩阵中第i行第j个元素对应的权重标签值（即权重值）。

当然，上述相似度损失函数仅仅为本申请提供的一种实施例，在实际情况下，也可以采取其它的相似度损失函数，本申请对此不作特殊限制。

本实施例中，采用上述相似度损失函数进行相似度损失计算，可以强化权重值大的（比如跟踪目标中心）区域的特征，弱化权重值小的（比如跟踪目标边缘）区域的特征，可以大大提高目标跟踪模型的预测准确度。

2、目标框

本实施例中，可以构造目标框损失函数。

较优地，目标框损失函数可以为下面的公式（26）—（28）：

其中，所述

’为目标框损失值；

、

为标注目标框的左上角顶点的坐标值，

、

为标注目标框的右下角顶点的坐标值。

、

为预测目标框的左上角顶点的坐标值，

、

为预测目标框的右下角顶点的坐标值；

为预测目标框和标注目标框之间取并集得到的区域；

为预测目标框和标注目标框之间取交集得到的区域。

当然，上述目标框损失函数仅仅为本申请提供了一种实施例，在实际情况下也可以采取其它的目标框损失函数，本申请对此不作特殊限制。

本实施例中，可以针对每个样本图像对输入到目标跟踪模型后得到的结果，采用上述相似度损失函数、目标框损失函数来计算各自的损失值，然后可以根据得到的两个损失值来判断是否需要对目标跟踪模型进行下一次迭代训练。

例如，可以判断计算得到的损失值是否小于预设的损失值阈值。可以分别为相似度损失值设置一个损失值阈值1，为目标框损失值设置一个损失值阈值2。若计算得到的相似度损失值小于损失值阈值1，且目标框损失值小于损失值阈值2，则可以确定不需要对目标跟踪模型进行下一次迭代训练。反之，若存在任意一个损失值大于对应的损失值阈值，那么可以确定需要对目标跟踪模型进行下一次迭代训练。

在实际情况下，考虑到相似度损失函数和目标框损失函数的收敛条件很可能是不一样的，即可能在相似度损失函数达到最小值的情况下，而目标框损失函数无法达到最小值。那么在这种情况下，还可以采取其它的方法来判断是否需要对目标跟踪模型进行下一次迭代训练。

比如，可以设置一个损失值阈值3，可以将相似度损失值和目标框损失值相加，将相加后得到的结果与损失值阈值3进行比较，若相加后得到的结果小于损失值阈值3，那么可以确定不需要对目标跟踪模型进行下一次迭代训练。反之，若大于损失值阈值3，则确定需要对目标跟踪模型进行下一次迭代训练，直到满足目标跟踪模型的训练要求。

本例中，对于需要对目标跟踪模型进行迭代训练的情况，可以采用梯度下降法来更新目标跟踪模型的模型参数，具体的梯度下降法可参照相关技术，本申请在此不再一一说明。

由以上描述可以看出，在本申请的一个实施例中，在确定样本图像对的搜索图像的权重标签时，可以进一步针对跟踪目标的不同区域确定不同的权重值，比如可以为中心区域设置较高的权重值，为非中心区域设置较低的权重值，并且采用上述相似度损失函数来计算相似度损失、上述目标框损失函数来计算目标框损失，并且基于上述两个损失来更新目标跟踪模型的参数，以此不断地优化模型，提高目标跟踪模型的预测的准确度。

下面对本申请提供的一种目标跟踪的方法进行说明，所述目标跟踪的方法的实现基于上述训练好的目标跟踪模型。

请参见图4，图4是本申请一示例性实施例示出的一种目标跟踪的方法的流程示意图。

所述目标跟踪的方法可以应用于具有存储器、处理器的电子设备中，比如服务器或者服务器集群。

所述目标跟踪的方法可以包括以下步骤：

步骤S202，将视频帧序列输入所述目标跟踪模型，所述视频帧序列中包括若干基于时间顺序排列的视频帧图像；

本实施例中，可以对视频帧序列进行目标跟踪，所述视频帧序列可以是摄像头实时拍摄得到的，也可以是预先拍摄好并保存的。

可以将视频帧序列输入到目标跟踪模型，也可以按照预设的帧差，从所述视频帧序列中依次地选出若干个视频帧图像输入到目标跟踪模型。并且，输入目标跟踪模型的视频帧图像还可以按照拍摄时间从早到晚的顺序排列。

较优地，将视频帧序列输入到目标跟踪模型之前，还可以先对所述视频帧序列中的图像进行预处理，预处理的方法可以和上述实施例相同，如裁剪、去噪、增强、灰度化等等。

下面以预处理为裁剪为例进行说明：

例如，假设需要输入目标跟踪模型的视频帧图像为图像1至6，在将上述图像1至6输入到目标模型之前，可以先对这些图像进行裁剪预处理。

可以先基于第一帧图像（比如上述图像1）人为地指定需要跟踪的目标，比如可以在上述图像1中指定需要跟踪的目标为小王，那么还可以检测到小王在上述图像1中的坐标信息。检测的方法可以参照相关技术，在此不再说明。

然后可以对图像1和图像2进行裁剪，图像1的裁剪方法和参照前述实施例中对模板图像的裁剪方法，在此不再赘述。对于图像2，由于图像2中是否存在小王（跟踪目标）是未知的，也不知道小王的坐标信息，是需要目标跟踪模型预测得到的。

在这种情况下，可以图像1中小王所在区域的尺寸大小、坐标信息为基础，在图像2中裁剪出对应大小的尺寸（比如可以和图像1中小王所在区域的尺寸大小相同，也可以稍大于图像1中小王所在区域的尺寸），然后以图像1中小王所在区域的中心点的坐标为基准，找到图像2中对应位置的坐标，以该坐标为中心点，以上述确定出的尺寸大小，对图像2进行裁剪。

具体的公式可以参考前述实施例中搜索图像的裁剪方法，值得说明的是，此时对搜索图像进行裁剪，可以和前述实施例一样考虑随机数

，也可以不考虑随机数

。对于不考虑随机数

的情况，实际上就是不需要对裁剪后搜索图像的中心点进行滑动，裁剪后搜索图像的中心点的位置与模板图像跟踪目标的中心点的位置相对应。

步骤S204，针对第n帧图像，所述目标跟踪模型基于存在目标框的上一帧模板图像预测所述第n帧图像中跟踪目标所在区域的预测目标框；

步骤S206，判断所述预测目标框是否满足条件；

步骤S208，若满足，则将所述第n帧图像更新为模板图像，并利用所述模板图像对第n+1帧图像中的跟踪目标进行预测；

步骤S210，若不满足，则根据存在目标框的上一帧模板图像对第n+1帧图像中的跟踪目标进行预测。

本实施例中，将视频帧序列输入到目标跟踪模型后，可以针对输入目标跟踪模型的第n帧图像，利用上一帧模板图像来预测所述第n帧图像中的预测目标框。

具体地，仍以上述例子为例，假设需要输入目标跟踪模型的视频帧图像为图像1至6，那么得到的第一个图像组合为图像1和图像2。

在一种情况下，目标跟踪模型预测出的图像2中的预测目标框满足条件，那么可以将图像2作为下一次预测时的模板图像，即可以利用图像2来预测图像3，得到的图像组合为图像2和图像3。类似的，如果目标跟踪模型预测出的图像3中的预测目标框也满足条件，那么可以利用图像3来预测图像4，以此类推。假设图像2、3、4、5中预测得到的预测目标框都满足条件（即每次都更新模板），那么实际上的图像组合为{图像1和2}、{图像2和3}、{图像3和4}、{图像4和5}、{图像5和6}。

在另一种情况下，目标跟踪模型预测出的图像2中的预测目标框不满足条件，那么依旧使用图像1作为下一次预测时的模板图像，即可以利用图像1来预测图像3。类似的，如果目标跟踪模型预测出的图像3中的预测目标框也不满足条件，那么可以依旧利用图像1来预测图像4，以此类推。假设图像2、3、4、5中预测得到的预测目标框都不满足条件（即每次都不更新模板），那么实际上的图像组合为{图像1和2}、{图像1和3}、{图像1和4}、{图像1和5}、{图像1和6}。

当然，除了上述情况外，还可能存在其他情况，比如预测得到的一些图像的预测目标框满足要求，那么可以进行模板更新，一些图像的预测目标框不满足要求，那么可以不进行模板更新。

比如，实际上得到的图像组合为{图像1和2}、{图像1和3}、{图像3和4}、{图像3和5}、{图像5和6}。也就是说，图像2、4中预测得到的预测目标框不满足要求，图像3、5中预测得到的预测目标框满足要求。

本实施例中，可以通过以下方法来判断预测目标框是否符合要求。

举例来说，可以按照前述实施例中提到的方法，对目标跟踪模型输出的相似度矩阵中的各个元素进行聚类，然后从聚类得到的聚类簇中确定一个目标聚类簇，所述目标聚类簇可以是簇内包含元素数量最多的簇（确定目标聚类簇的具体方法可参照前述实施例，在此不再赘述）。可以基于所述目标聚类簇来判断所述预测目标框是否符合要求。

一方面，可以判断目标聚类簇的置信度是否达到置信度阈值，若达到，则可以确定所述预测目标框符合要求。

另一方面，也可以判断所述目标聚类簇中的元素的数量是否达到数量要求，若达到，则可以确定所述预测目标框符合要求。

比如，可以将所述目标聚类簇中的元素的数量与预设的数量阈值进行比较，若达到数量阈值，则可以确定所述预测目标框符合要求。

再比如，还可以将所述目标聚类簇中元素的数量与实际情况下目标聚类簇中元素的理想数量进行比较，若与所述理想数量接近，则可以确定所述预测目标框符合要求。

其中，实际情况下目标聚类簇中元素的理想数量可以根据先验知识来确定，比如可以是在目标跟踪模型训练阶段得到的先验知识来确定理想数量。可以判断目标聚类簇中元素的数量占理想数量的比例是否达到比例阈值，若达到，则可以确定所述预测目标框符合要求。

当然，也可以采取其他方法来判断预测目标框是否符合要求，或者也可以结合多种方法来判断预测目标框是否符合要求。

比如，可以结合上述两个方法来判断预测目标框是否符合要求，当同时符合上述两个要求的情况下，确定所述预测目标框符合要求；若不符合上述任意一个要求，则确定预测目标框不符合要求。

本实施例实现了，可以将视频帧序列输入到目标跟踪模型中，针对输入所述目标跟踪模型的第n帧图像，利用存在目标框的上一帧模板图像来预测所述第n帧图像中的预测目标框，并且还可以判断所述预测目标框是否满足条件，在满足条件的基础上，将所述第n帧图像更新为模板图像，然后利用所述模板图像对第n+1帧图像进行预测。

采用上述方法，通过判断目标跟踪模型预测得到的预测目标框是否满足要求，并且在满足要求的基础上可以将所述第n帧图像预测得到的预测目标框作为“模板”，来对下一帧图像中的跟踪目标进行预测，这样可以使在目标跟踪的过程中不断地更新“模板”，从而避免了由于跟踪目标发生形变、遮挡、污染等情况而导致的跟踪结果不准确、跟踪失败的问题，实现长时间准确地跟踪目标。

与前述目标跟踪模型的训练方法的实施例相对应，本说明书还提供了目标跟踪模型的训练装置的实施例。

本申请目标跟踪模型的训练装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本申请目标跟踪模型的训练装置所在电子设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

图6是申请一示例性实施例示出的一种目标跟踪模型的训练装置的框图。

请参考图6，所述目标跟踪模型的训练装置600可以应用在前述图5所示的电子设备中，包括有相似度预测单元610、损失确定单元620、参数更新单元630。

其中，相似度预测单元610，用于将所述样本图像对输入到所述目标跟踪模型中，基于所述目标跟踪模型预测得到所述搜索图像与所述模板图像之间的相似度；

损失确定单元620，用于根据所述相似度、所述分类标签和所述权重标签确定本次迭代的相似度损失；

参数更新单元630，用于根据所述相似度损失更新所述目标跟踪模型的模型参数。

可选的，所述搜索图像还标注有标注目标框，所述标注目标框为所述搜索图像中跟踪目标所在的区域，所述权重标签的确定方法，包括：

为所述搜索图像生成对应的权重矩阵；

根据所述标注目标框确定所述权重矩阵中各元素的权重值。

可选的，所述根据所述标注目标框确定所述权重矩阵中各元素的权重值，包括：

确定所述标注目标框的中心区域和非中心区域；

将所述权重矩阵中对应所述中心区域的元素值确定为第一权重值；

将所述权重矩阵中对应所述非中心区域的元素值确定为第二权重值；

将所述权重矩阵中对应所述搜索图像中非标注目标框区域的元素值确定为第三权重值；

其中，所述第一权重值大于所述第二权重值，所述第二权重值大于所述第三权重值。

可选的，所述确定所述标注目标框的中心区域和非中心区域，包括：

根据所述标注目标框的长宽比确定中心比例；

确定所述标注目标框的中心点；

以所述中心点为中心，基于所述中心比例将所述标注目标框划分为中心区域和非中心区域。

可选的，所述目标跟踪模型预测得到的所述相似度为相似度矩阵，所述损失确定单元620，具体用于：

采用下述计算公式确定本次迭代的相似度损失：

其中，所述

为相似度损失值，所述i，j为所述相似度矩阵中的第i行第j个元素，所述

为所述第i行第j个元素对应的分类标签值，所述

为所述相似度矩阵中第i行第j个元素对应的相似度，所述

为所述相似度矩阵中第i行第j个元素对应的权重标签值。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

与前述目标跟踪的方法的实施例相对应，本说明书还提供了目标跟踪的装置的实施例。

本申请目标跟踪的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本申请目标跟踪的装置所在服务器的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图8，所述目标跟踪的装置800可以应用在前述图7所示的服务器中，包括有输入单元810、目标框预测单元820、判断单元830、模板更新单元840、相似度预测子单元8201、坐标预测子单元8202、预测目标框确定子单元8203。

其中，输入单元810，用于将视频帧序列输入所述目标跟踪模型，所述视频帧序列中包括若干基于时间顺序排列的视频帧图像；

目标框预测单元820，用于针对第n帧图像，所述目标跟踪模型基于上一帧模板图像预测所述第n帧图像中跟踪目标所在区域的预测目标框；

判断单元830，用于判断所述预测目标框是否满足条件；

模板更新单元840，用于若满足，则将所述第n帧图像更新为模板图像，并利用所述模板图像对第n+1帧图像中的跟踪目标进行预测。

可选的，所述模板更新单元840，还用于：

若不满足，则根据所述上一帧模板图像对第n+1帧图像中的跟踪目标进行预测。

可选的，所述目标框预测单元820，具体包括：

相似度预测子单元8201，用于根据所述上一帧模板图像预测第n帧图像和所述上一帧模板图像之间的相似度，并得到相似度矩阵；

坐标预测子单元8202，用于根据所述上一帧模板图像预测第n帧图像中预测目标框的指定顶点对应的坐标矩阵；

预测目标框确定子单元8203，用于在所述相似度矩阵中确定目标元素，根据所述目标元素和所述坐标矩阵确定所述第n帧图像中的预测目标框。

可选的，所述预测目标框确定子单元8203在所述相似度矩阵中确定目标元素时，具体用于：

对所述相似度矩阵中的各个元素进行聚类，基于聚类结果确定目标元素。

可选的，所述预测目标框确定子单元8203在基于聚类结果确定目标元素时，具体用于：

过滤掉所述相似度矩阵中相似度小于相似度阈值的元素；

对过滤后的各个元素进行聚类，得到若干个聚类簇；

将元素数量最多的聚类簇确定为目标聚类簇；

从所述目标聚类簇中选取相似度最高的元素，确定为所述目标元素。

可选的，所述判断单元830，具体用于：

判断所述目标聚类簇中元素的数量是否达到数量要求；

判断所述目标聚类簇的置信度是否达到置信度要求；

若所述目标聚类簇达到所述数量要求和所述置信度要求，则确定所述预测目标框满足条件。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述目标跟踪模型的训练方法的实施例相对应，本申请还提供一种目标跟踪模型的训练装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与模型超参数的配置逻辑对应的机器可执行指令，所述处理器被促使：

根据所述相似度损失更新所述目标跟踪模型的模型参数。

可选的，所述搜索图像还标注有标注目标框，所述标注目标框为所述搜索图像中跟踪目标所在的区域，在所述权重标签的确定过程时，所述处理器被促使：

为所述搜索图像生成对应的权重矩阵；

根据所述标注目标框确定所述权重矩阵中各元素的权重值。

可选的，在根据所述标注目标框确定所述权重矩阵中各元素的权重值时，所述处理器被促使：

确定所述标注目标框的中心区域和非中心区域；

可选的，在确定所述标注目标框的中心区域和非中心区域时，所述处理器被促使：

根据所述标注目标框的长宽比确定中心比例；

确定所述标注目标框的中心点；

可选的，所述目标跟踪模型预测得到的所述相似度为相似度矩阵，在根据所述相似度、所述分类标签和所述权重标签确定本次迭代的相似度损失时，所述处理器被促使：

采用下述计算公式确定本次迭代的相似度损失：

其中，所述

为所述第i行第j个元素对应的分类标签值，所述

为所述相似度矩阵中第i行第j个元素对应的相似度，所述

为所述相似度矩阵中第i行第j个元素对应的权重标签值。

与前述目标跟踪的方法的实施例相对应，本申请还提供一种目标跟踪装置装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

判断所述预测目标框是否满足条件；

若满足，则将所述第n帧图像更新为模板图像，并利用所述模板图像对第i+1帧图像中的跟踪目标进行预测。

可选的，所述处理器还被促使：

可选的，在目标跟踪模型基于上一帧模板图像预测所述第n帧图像中跟踪目标所在区域的预测目标框时，所述处理器被促使：

根据所述上一帧模板图像预测第n帧图像和所述上一帧模板图像之间的相似度，并得到相似度矩阵；

根据所述上一帧模板图像预测第n帧图像中预测目标框的指定顶点对应的坐标矩阵；

在所述相似度矩阵中确定目标元素，根据所述目标元素和所述坐标矩阵确定所述第n帧图像中的预测目标框。

可选的，在所述相似度矩阵中确定目标元素时，所述处理器被促使：

可选的，在基于聚类结果确定目标元素时，所述处理器被促使：

过滤掉所述相似度矩阵中相似度小于相似度阈值的元素；

对过滤后的各个元素进行聚类，得到若干个聚类簇；

将元素数量最多的聚类簇确定为目标聚类簇；

可选的，在判断所述预测目标框是否满足条件时，所述处理器被促使：

判断所述目标聚类簇中元素的数量是否达到数量要求；

判断所述目标聚类簇的置信度是否达到置信度要求；

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本说明书，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种目标跟踪模型的训练方法，其特征在于，基于样本图像对对所述目标跟踪模型进行训练，所述样本图像对包括模板图像和搜索图像，所述搜索图像标注有对应搜索图像像素点的分类标签和权重标签，所述方法包括：

根据所述相似度损失更新所述目标跟踪模型的模型参数。

2.根据权利要求1所述方法，其特征在于，所述搜索图像还标注有标注目标框，所述标注目标框为所述搜索图像中跟踪目标所在的区域，所述权重标签的确定方法，包括：

为所述搜索图像生成对应的权重矩阵；

根据所述标注目标框确定所述权重矩阵中各元素的权重值。

3.根据权利要求2所述方法，其特征在于，所述根据所述标注目标框确定所述权重矩阵中各元素的权重值，包括：

确定所述标注目标框的中心区域和非中心区域；

4.根据权利要求3所述方法，其特征在于，所述确定所述标注目标框的中心区域和非中心区域，包括：

根据所述标注目标框的长宽比确定中心比例；

确定所述标注目标框的中心点；

5.根据权利要求1所述方法，其特征在于，所述目标跟踪模型预测得到的所述相似度为相似度矩阵，所述根据所述相似度、所述分类标签和所述权重标签确定本次迭代的相似度损失，包括：

采用下述计算公式确定本次迭代的相似度损失：

其中，所述

为所述第i行第j个元素对应的分类标签值，所述

为所述相似度矩阵中第i行第j个元素对应的相似度，所述

为所述相似度矩阵中第i行第j个元素对应的权重标签值。

6.一种目标跟踪的方法，其特征在于，所述目标跟踪的方法的实现基于权利要求1-5任一项所述的目标跟踪模型，所述方法包括：

判断所述预测目标框是否满足条件；

7.根据权利要求6所述方法，其特征在于，所述方法还包括：

8.根据权利要求6所述方法，其特征在于，所述目标跟踪模型基于上一帧模板图像预测所述第n帧图像中跟踪目标所在区域的预测目标框，包括：

9.根据权利要求8所述方法，其特征在于，所述在所述相似度矩阵中确定目标元素，包括：

10.根据权利要求9所述方法，其特征在于，所述基于聚类结果确定目标元素，包括：

过滤掉所述相似度矩阵中相似度小于相似度阈值的元素；

对过滤后的各个元素进行聚类，得到若干个聚类簇；

将元素数量最多的聚类簇确定为目标聚类簇；

11.根据权利要求10所述方法，其特征在于，所述判断所述预测目标框是否满足条件，包括：

判断所述目标聚类簇中元素的数量是否达到数量要求；

判断所述目标聚类簇的置信度是否达到置信度要求；

12.一种目标跟踪模型的训练装置，其特征在于，基于样本图像对对所述目标跟踪模型进行训练，所述样本图像对包括模板图像和搜索图像，所述搜索图像标注有对应搜索图像像素点的分类标签和权重标签，所述装置包括：

13.根据权利要求12所述装置，其特征在于，所述搜索图像还标注有标注目标框，所述标注目标框为所述搜索图像中跟踪目标所在的区域，所述权重标签的确定方法，包括：

为所述搜索图像生成对应的权重矩阵；

根据所述标注目标框确定所述权重矩阵中各元素的权重值。

14.根据权利要求13所述装置，其特征在于，所述根据所述标注目标框确定所述权重矩阵中各元素的权重值，包括：

确定所述标注目标框的中心区域和非中心区域；

15.根据权利要求13所述装置，其特征在于，所述确定所述标注目标框的中心区域和非中心区域，包括：

根据所述标注目标框的长宽比确定中心比例；

确定所述标注目标框的中心点；

16.根据权利要求12所述装置，其特征在于，所述目标跟踪模型预测得到的所述相似度为相似度矩阵，所述损失确定单元，具体用于：

采用下述计算公式确定本次迭代的相似度损失：

其中，所述

为所述第i行第j个元素对应的分类标签值，所述

为所述相似度矩阵中第i行第j个元素对应的相似度，所述

为所述相似度矩阵中第i行第j个元素对应的权重标签值。

17.一种目标跟踪的装置，其特征在于，所述目标跟踪的装置的实现基于权利要求12-16任一项所述的目标跟踪模型，所述装置包括：

判断单元，用于判断所述预测目标框是否满足条件；

18.根据权利要求17所述装置，其特征在于，所述模板更新单元，还用于：

19.根据权利要求17所述装置，其特征在于，所述目标框预测单元，具体包括：

相似度预测子单元，用于根据所述上一帧模板图像预测第n帧图像和所述上一帧模板图像之间的相似度，并得到相似度矩阵；

坐标预测子单元，用于根据所述上一帧模板图像预测第n帧图像中预测目标框的指定顶点对应的坐标矩阵；

预测目标框确定子单元，用于在所述相似度矩阵中确定目标元素，根据所述目标元素和所述坐标矩阵确定所述第n帧图像中的预测目标框。

20.根据权利要求19所述装置，其特征在于，所述预测目标框确定子单元在所述相似度矩阵中确定目标元素时，具体用于：

21.根据权利要求20所述装置，其特征在于，所述预测目标框确定子单元在基于聚类结果确定目标元素时，具体用于：

过滤掉所述相似度矩阵中相似度小于相似度阈值的元素；

对过滤后的各个元素进行聚类，得到若干个聚类簇；

将元素数量最多的聚类簇确定为目标聚类簇；

22.根据权利要求21所述装置，其特征在于，所述判断单元，具体用于：

判断所述目标聚类簇中元素的数量是否达到数量要求；

判断所述目标聚类簇的置信度是否达到置信度要求；

23.一种目标跟踪模型的训练装置，其特征在于，基于样本图像对对所述目标跟踪模型进行训练，所述样本图像对包括模板图像和搜索图像，所述搜索图像标注有对应搜索图像像素点的分类标签和权重标签，所述装置包括：

处理器；

用于存储机器可执行指令的存储器；

根据所述相似度损失更新所述目标跟踪模型的模型参数。

24.一种目标跟踪的装置，其特征在于，所述目标跟踪的装置的实现基于权利要求12-16任一项所述的目标跟踪模型，所述装置包括：

处理器；

用于存储机器可执行指令的存储器；

判断所述预测目标框是否满足条件；