CN110956646B

CN110956646B - 目标跟踪方法、装置、设备及存储介质

Info

Publication number: CN110956646B
Application number: CN201911047406.4A
Authority: CN
Inventors: 吴晶晶
Original assignee: Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Current assignee: Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2023-04-18
Anticipated expiration: 2039-10-30
Also published as: CN110956646A

Abstract

本申请实施例涉及一种目标跟踪方法、装置、设备及存储介质，旨在提高对待跟踪目标的跟踪准确度。所述方法包括：获得模板图像中的模板区域图像特征，其中，所述模板区域为所述模板图像中待跟踪目标的所在区域；针对待检测图像中的每个候选区域，获得其候选区域图像特征；确定每个候选区域图像特征与所述模板区域图像特征之间的差异特征；根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，所述第一位置差异度表征该候选区域与所述待检测图像中待跟踪目标所在区域之间的位置差异；根据多个候选区域各自的第一位置差异度，在所述待检测图像中确定所述待跟踪目标的所在区域。

Description

目标跟踪方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，具体而言，涉及一种目标跟踪方法、装置、设备及存储介质。

背景技术

在图像处理技术领域，目标跟踪是针对出现在一段视频中的待跟踪目标，在该段视频的每一帧图像中或部分帧图像中圈定出该待跟踪目标的所在区域。例如针对一段拍摄有嫌疑车辆的视频，每隔4帧抽取出一帧图像，针对抽取出的每帧图像，利用图像处理技术，在该帧图像中圈定出嫌疑车辆的所在区域。当前，目标跟踪技术具有广泛的应用场景。例如在军事领域，目标跟踪技术可应用于精确制导、空中预警、战场监视等等。例如在民用领域，目标跟踪技术可用于移动机器人监控、室内室外安防监控、智能交通监控、基于姿态的人机交互、虚拟现实等等。

目前，评价一项目标跟踪技术优劣性的指标包括但不限于：针对待跟踪目标的跟丢率、对待跟踪目标的跟踪准确度、以及跟踪算法的鲁棒性。为了提高目标跟踪技术的上述指标，相关技术中，通常以目标视频中的一帧图像(比如目标视频的第一帧图像)为模板图像，利用手动方式或目标检测算法，从该模板图像中准确圈定出待跟踪目标的实际所在区域。然后以目标视频中的其他帧图像为待检测图像，通过在模板图像与待检测图像之间执行一系列图像处理过程，从而在待检测图像中确定出待跟踪目标的所在区域。

然而，相关技术在针对模板图像与待检测图像执行图像处理过程时，模板图像中的图像特征与待检测图像中的图像特征之间的匹配算法效果不够理想，导致对待跟踪目标的跟踪准确度不高，影响跟踪效果。

发明内容

本申请实施例提供一种目标跟踪方法、装置、设备及存储介质，旨在提高对待跟踪目标的跟踪准确度。

本申请实施例第一方面提供一种目标跟踪方法，所述方法包括：

获得模板图像中模板区域内的模板区域图像特征，其中，所述模板区域为所述模板图像中待跟踪目标的所在区域；

针对待检测图像中的多个候选区域中的每个候选区域，获得该候选区域内的候选区域图像特征；

确定每个候选区域内的候选区域图像特征与所述模板区域图像特征之间的差异特征；

根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，所述第一位置差异度表征该候选区域与所述待检测图像中待跟踪目标所在区域之间的位置差异；

根据多个候选区域各自的第一位置差异度，在所述待检测图像中确定所述待跟踪目标的所在区域。

本申请实施例第二方面提供一种目标跟踪装置，所述装置包括：

模板区域图像特征获得模块，用于获得模板图像中模板区域内的模板区域图像特征，其中，所述模板区域为所述模板图像中待跟踪目标的所在区域；

候选区域图像特征获得模块，用于针对待检测图像中的多个候选区域中的每个候选区域，获得该候选区域内的候选区域图像特征；

差异特征确定模块，用于确定每个候选区域内的候选区域图像特征与所述模板区域图像特征之间的差异特征；

第一位置差异度预测模块，用于根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，所述第一位置差异度表征该候选区域与所述待检测图像中待跟踪目标所在区域之间的位置差异；

待跟踪目标所在区域确定模块，用于根据多个候选区域各自的第一位置差异度，在所述待检测图像中确定所述待跟踪目标的所在区域。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请提供的目标跟踪方法，在获得模板图像中的模板区域图像特征、以及待检测图像中的各个候选区域图像特征后，针对每个候选区域，确定该候选区域内的候选区域图像特征与模板区域图像特征之间的差异特征，再根据该差异特征和该候选区域图像特征，预测该候选区域的第一位置差异度。其中，差异特征与候选区域图像特征两者作为一种非线性的组合，该非线性组合作为模板图像与待检测图像的特征匹配结果，基于该非线性的组合可以更准确地预测各个候选区域的第一位置差异度，如此，再根据各个候选区域的第一位置差异度，可以更准确地在所述待检测图像中确定所述待跟踪目标的所在区域，从而达到提高对待跟踪目标的跟踪准确度的目的。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的目标跟踪方法的流程图；

图2是本申请一实施例提出的目标跟踪系统的示意图；

图3是本申请一实施例提出的特征匹配示意图；

图4是本申请另一实施例提出的目标跟踪系统的示意图；

图5是本申请一实施例提出的模型训练示意图；

图5-1是本申请一实施例提出的标注示意图；

图5-2是本申请一实施例提出的差异度预测模型的结构示意图；

图6是本申请一实施例提出的模型训练的流程图；

图7是本申请另一实施例提出的模型训练示意图；

图8是本申请一实施例提出的目标跟踪装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在图像处理技术领域，目标跟踪是针对出现在一段视频中的待跟踪目标，在该段视频的每一帧图像中或部分帧图像中圈定出该待跟踪目标的所在区域。目标跟踪技术在军事领域和民用领域均具有广泛的应用，以民用为例，目标跟踪技术可应用于移动机器人监控、室内室外安防监控、智能交通监控、基于姿态的人机交互、虚拟现实等等。

相关技术中，当前最时新的目标跟踪技术是：针对一段需要实施目标跟踪任务的目标视频，以目标视频中的一帧图像(比如目标视频的第一帧图像)为模板图像，以目标视频中的其他帧图像为待检测图像。利用手动方式或目标检测算法，从该模板图像中准确圈定出待跟踪目标的实际所在区域。

针对每个待检测图像，首先利用目标分类算法，在该待检测图像中较粗略地确定出多个候选区域，各个候选区域与待检测图像中待跟踪目标所在区域之间的距离较近，甚至某一候选区域可能刚好就是该待跟踪目标的所在区域。然后在模板图像与该待检测图像之间执行一系列图像处理过程，以预测每个候选区域与待跟踪目标之间的位置差异程度，最后基于多个候选区域各自对应的位置差异程度，在该待检测图像中确定出待跟踪目标的所在区域。

上述目标跟踪技术在针对模板图像与待检测图像执行图像处理过程时，模板图像与待检测图像之间的特征匹配算法采用的是通道相乘的方式，然而其并不能充分利用图像的特征信息，导致对待跟踪目标的跟踪准确度难以进一步提升，影响跟踪效果。

有鉴于此，为了提高对待跟踪目标的跟踪准确度，本申请实施例提出：在获得模板图像中的模板区域图像特征、以及待检测图像中的各个候选区域图像特征后，针对每个候选区域，确定该候选区域内的候选区域图像特征与模板区域图像特征之间的差异特征，再根据该差异特征和该候选区域图像特征，预测该候选区域的第一位置差异度。最后根据多个候选区域各自的第一位置差异度，在该待检测图像中确定待跟踪目标的所在区域。其中，候选区域的第一位置差异度表征：该候选区域与待检测图像中待跟踪目标所在区域之间的位置差异。

参考图1，图1是本申请一实施例提出的目标跟踪方法的流程图。如图1所示，该方法包括以下步骤：

步骤S11：获得模板图像中模板区域内的模板区域图像特征，其中，所述模板区域为所述模板图像中待跟踪目标的所在区域。

步骤S12：针对待检测图像中的多个候选区域中的每个候选区域，获得该候选区域内的候选区域图像特征。

其中，一种可能的应用场景是，在针对一段视频实施该目标跟踪方法时，模板图像和待检测图像均可以是该段视频中的视频帧。在某些实施例中，可以将该段视频中的某一帧图像固定作为模板图像。例如将该段视频的第一帧图像固定作为模板图像，将该段视频的其余帧图像作为多个待检测图像。然后基于该模板图像和一个待检测图像，执行上述步骤S11和步骤S12。

或者，另一种可能的应用场景是，在针对给定的两张或多张图像实施该目标跟踪方法时。同样地，在某些实施例中，可以将其中的某一张图像固定作为模板图像，将其余的图像作为待检测图像。

在执行上述步骤S11和步骤S12之前，为了在确定出的模板图像中圈定出模板区域，具体地，可以以待跟踪目标的中心点为中心，确定一个矩形框，该矩形框的面积为待跟踪目标所占面积的N倍(例如4倍)，将该矩形框作为所述模板区域，N大于1的自然数。

其中，待检测图像中的多个候选区域与待检测图像中待跟踪目标所在区域之间的距离较近，甚至某一候选区域可能刚好就是该待跟踪目标的所在区域。参考图2，图2是本申请一实施例提出的目标跟踪系统的示意图。本申请实施例提供的目标跟踪方法可实施于该系统，但应当理解的，本申请提供的方法并非限定为仅可在该系统上实施。如图2所示，目标跟踪系统主要包括特征提取模型1、特征提取模型2、特征计算模块1、特征计算模块2、特征匹配模块、差异度预测模型。

如图2所示，输入至特征提取模型1的模板图像携带有模板区域，以实线方框表示所述模板区域；输入至特征提取模型2的待检测图像携带有多个候选区域，以虚线方框表示所述候选区域。待检测目标是四位网球运动员中未佩戴球帽的网球运动员，模板图像中的模板区域准确圈定出该网球运动员所在区域，待检测图像中的多个候选区域靠近该网球运动员的所在区域，但本申请实施例不以此为限。例如，本申请在实施期间，并非需要在模板图像中直接框出一个模板区域，而可以通过xml文件记录模板区域在模板图像中的左上角坐标和右下角坐标。同样地，可以通过xml文件记录各个候选区域在待检测图像中的左上角坐标和右下角坐标。

为了在步骤S11中获得模板区域图像特征，在某些实施例中，可以首先对模板图像整体进行特征提取操作，获得模板图像的特征图(Feature Map)。然后基于该特征图，针对模板区域内的图像特征，执行以下PrPool函数：

IC(x,y,i,j)＝max(0,1-|x-i|)×max(0,1-|y-j|)

其中，F表示模板图像的特征图，bin表示模板区域预先被划分成的多个矩形栅格单元，x1和y1表示一个bin的左上角坐标，x2和y2表示一个bin的右下角坐标，i和j表示模板图像的特征图中像素点的坐标，ω_i,j表示坐标为(i,j)的像素点的权值。

通过执行上述PrPool函数，输出模板区域的特征图，该特征图作为模板区域图像特征。

同样地，为了在步骤S12中获得各个候选区域图像特征，在某些实施例中，可以首先对待检测图像整体进行特征提取操作，获得待检测图像的特征图。然后基于该特征图，针对各个候选区域内的图像特征执行上述PrPool函数。输出各个候选区域的特征图，这些特征图作为各个候选区域图像特征。

如果利用图2所示的目标跟踪系统实施该目标跟踪方法，其中，特征提取模型1和特征提取模型2是同一个网络模型，该网络模型可选用深度卷积神经网络。利用该网络模型提取出模板图像的特征图、和待检测图像的特征图。

特征计算模块1和特征计算模块2是同一个计算模块，该计算模块以模板图像的特征图和待检测图像的特征图为输入，用于执行上述PrPool函数。该计算模块的输出为模板区域内的模板区域图像特征、和各个候选区域内的候选区域图像特征。

步骤S13：确定每个候选区域内的候选区域图像特征与所述模板区域图像特征之间的差异特征。

其中，在某些实施例中，确定差异特征的具体方式可以是：针对每个候选区域，计算该候选区域内的候选区域图像特征与所述模板区域图像特征之间的差值，将所述差值的绝对值确定为该候选区域图像特征与所述模板区域图像特征之间的差异特征。

上述具体方式中，取绝对值的操作是一种非线性的操作，如此，得到的差异特征是一种非线性的特征。

示例地，参考图3，图3是本申请一实施例提出的特征匹配示意图。如图3所示，假设模板区域图像特征是形如1×1×1024的特征，其中1024表示该特征具有1024层(通道)，1×1表示每层具有1×1个像素。假设某个候选区域图像特征是形如5×5×1024的特征，其中1024表示该特征具有1024层(通道)，5×5表示每层具有5×5个像素。

利用该候选区域图像特征减去该模板区域图像特征，得到形如5×5×1024的特征，然后对该特征取绝对值，得到差异特征。该差异特征也是形如5×5×1024的特征。

如果利用图2所示的目标跟踪系统实施该目标跟踪方法，其中，特征匹配模块用于执行上述步骤S13对应的操作。

步骤S14：根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，所述第一位置差异度表征该候选区域与所述待检测图像中待跟踪目标所在区域之间的位置差异。

本申请在实施期间，对于机器而言，待检测图像中待跟踪目标的所在区域是机器所不知道的。在上述步骤S14中，针对每个候选区域，预测其第一位置差异度的步骤，可以通过预先训练的差异度预测模型执行，例如通过图2所示的差异度预测模型执行。该差异度预测模型中具有经过训练而确定的参数，可以在待检测图像中待跟踪目标的所在区域未知的情况下，预测候选区域的第一位置差异度。关于差异度预测模型的训练方式，请参见下文所述内容。

其中，位置差异度可以是一个表征候选区域与待跟踪目标所在区域之间位置差异的值。示例地，可以利用交并比(Intersection over Union，IOU)值表示位置差异度，所述IOU值是指候选区域与待跟踪目标所在区域之间的交集面积除以并集面积。IOU值越大，候选区域与待跟踪目标所在区域之间的位置差异度越小。

在某些实施例中，预测该候选区域的第一位置差异度的具体方式可以是：针对每个候选区域，将该候选区域内的候选区域图像特征和该候选区域对应的差异特征进行融合，得到融合特征；基于所述融合特征，预测该候选区域的第一位置差异度。

其中，如前所述，候选区域对应的差异特征可以是：该候选区域内的候选区域图像特征与模板区域图像特征之间的差值的绝对值。

沿用上述示例，如图3所示，在得到形如5×5×1024的差异特征后，可以首先将该差异特征与候选区域图像特征进行连接，得到形如5×5×2048的拼接特征，然后利用大小为1×1的卷积核对拼接特征做降通道操作，得到融合特征，该融合特征是形如5×5×1024的特征。

通过对差异特征和候选区域图像特征进行拼接和降通道操作，使得差异特征和候选区域图像特征更好地匹配融合，有利于进一步提高目标跟踪准确度。

步骤S15：根据多个候选区域各自的第一位置差异度，在所述待检测图像中确定所述待跟踪目标的所在区域。

沿用上述示例，如果用IOU值代表第一位置差异度，在某些实施例中，可以将IOU值最大的候选区域确定为待跟踪目标的所在区域。

或者，在某些实施例中，首先判断多个IOU值中的最大IOU是否大于预设阈值(例如0.9)，在该最大IOU大于该预设阈值的情况下，将该最大IOU所对应的候选区域确定为待跟踪目标的所在区域。

或者，在某些实施例中，由于已知多个候选区域在待检测图像中的位置，并且知道每个候选区域与待跟踪目标所在区域之间的IOU值，因此可以在待检测图像中反推出待跟踪目标的所在区域。

应当理解的，本申请对上述步骤S15的具体实施方式不做限定。

通过执行上述包括步骤S11至步骤S15的目标跟踪方法，在获得模板图像中的模板区域图像特征、以及待检测图像中的各个候选区域图像特征后，针对每个候选区域，确定该候选区域内的候选区域图像特征与模板区域图像特征之间的差异特征，再根据该差异特征和该候选区域图像特征，预测该候选区域的第一位置差异度。其中，差异特征与候选区域图像特征两者作为一种非线性的组合，该非线性组合作为模板图像与待检测图像的特征匹配结果，基于该非线性的组合可以更准确地预测各个候选区域的第一位置差异度，如此，再根据各个候选区域的第一位置差异度，可以更准确地在所述待检测图像中确定所述待跟踪目标的所在区域，从而达到提高对待跟踪目标的跟踪准确度的目的。

考虑到待跟踪目标在图像中的大小可能随着时间的变化而变化。例如在某些时刻，待跟踪目标距离拍摄装置更近，如此，待跟踪目标在拍摄的视频帧中的尺度更大。在某些时刻，待跟踪目标距离拍摄装置更远，如此，待跟踪目标在拍摄的视频帧中的尺度更小。为了适应这一情况，提出浅层图像特征和深层图像特征的概念，浅层图像特征和深层图像特征分别对应不同尺度的特征，具体参见如下内容：

参考图4，图4是本申请另一实施例提出的目标跟踪系统的示意图。本申请实施例提供的目标跟踪方法可实施于该系统，但应当理解的，本申请提供的方法并非限定为仅可在该系统上实施。

在某些实施例中，模板区域图像特征包括模板区域浅层图像特征和模板区域深层图像特征，候选区域图像特征包括候选区域浅层图像特征和候选区域深层图像特征。其中，浅层图像特征是指利用较浅的网络层次所提取出的图像特征，深层图像特征是指利用较深的网络层次所提取出的图像特征。

如果利用图4所示的目标跟踪系统实施该目标跟踪方法，图4中的特征提取模型3和特征提取模型4是同一个网络模型，该网络模型可以选用一个共享权重的两尺度特征提取器，本申请实施例对网络模型的结构不作限定。示例地，可以选用残差神经网络ResNet作为该网络模型，ResNet包括多层残差单元block，其中较浅的block用于输出浅层图像特征，较深的block用于输出深层图像特征。或者，从ResNet的第m个残差单元block中输出浅层图像特征，从ResNet的第n个残差单元block中输出深层图像特征，且m小于n。

如图4所示，在对模板图像进行特征提取后，得到模板图像的浅层图像特征，该浅层图像特征是形如36×36×1024的特征，还得到模板图像的深层图像特征，该深层图像特征是形如18×18×1024的特征。在对待检测图像进行特征提取后，得到待检测图像的浅层图像特征，该浅层图像特征是形如36×36×1024的特征，还得到待检测图像的深层图像特征，该深层图像特征是形如18×18×1024的特征。

图4中的特征计算模块3和特征计算模块4是同一个计算模块，如前所述，该计算模块可用于执行上述PrPool函数。该计算模型以上述四个特征为输入，对各个特征分别进行计算，并输出模板区域浅层图像特征、模板区域深层图像特征、候选区域浅层图像特征、以及候选区域深层图像特征。

如图4所示，其中模板区域浅层图像特征是形如5×5×1024的特征，模板区域深层图像特征是形如3×3×1024的特征，候选区域浅层图像特征是形如5×5×1024的特征，候选区域深层图像特征是形如3×3×1024的特征。

如图4所示，目标跟踪系统还可以包括特征融合模块1，该特征融合模块1可选用Non_Local模型，用于实现以下功能：针对输入的模板区域浅层图像特征和模板区域深层图像特征，首先将这两个特征融合成一个融合特征；然后在该融合特征的基础上叠加模板区域浅层图像特征分量，得到一个模板区域浅层图像特征占比更大的第一融合特征；同时该融合特征的基础上叠加模板区域深层图像特征分量，得到一个模板区域深层图像特征占比更大的第二融合特征。其中，Non_Local模型执行Non_Local函数，考虑到Non_Local函数是计算机视觉领域中的现有技术，因此本申请对此不做赘述。

如图4所示，示例地，第一融合特征可以是一个形如5×5×1024的特征，第二融合特征可以是一个形如3×3×1024的特征。

通过图4中的大小为5×5卷积核1对第一融合特征进行卷积操作后，得到形如1×1×1024的特征，如此，可以将该特征作为经过上述一系列处理后得到的最新的模板区域浅层图像特征。

通过图4中的大小为3×3卷积核2对第一融合特征进行卷积操作后，得到形如1×1×1024的特征，如此，可以将该特征作为经过上述一系列处理后得到的最新的模板区域深层图像特征。

如图4所示，目标跟踪系统还可以包括特征匹配模块1和特征匹配模块2。其中，特征匹配模块1以候选区域浅层图像特征和模板区域浅层图像特征为输入，用于针对每个候选区域，确定该候选区域内的候选区域浅层图像特征与所述模板区域浅层图像特征之间的浅层差异特征。特征匹配模块2以候选区域深层图像特征和模板区域深层图像特征为输入，用于针对每个候选区域，确定该候选区域内的候选区域深层图像特征与所述模板区域深层图像特征之间的深层差异特征。

以特征匹配模块1为例，特征匹配模块1接收到形如5×5×1024的候选区域浅层图像特征、和形如1×1×1024的模板区域浅层图像特征后，利用该候选区域浅层图像特征减去该模板区域浅层图像特征，得到形如5×5×1024的特征，然后对该特征取绝对值，得到浅层差异特征。该浅层差异特征也是形如5×5×1024的特征。

以特征匹配模块2为例，特征匹配模块2接收到形如3×3×1024的候选区域深层图像特征、和形如1×1×1024的模板区域深层图像特征后，利用该候选区域深层图像特征减去该模板区域深层图像特征，得到形如3×3×1024的特征，然后对该特征取绝对值，得到深层差异特征。该深层差异特征也是形如3×3×1024的特征。

通过上述处理过程，获得了形如5×5×1024的候选区域浅层图像特征、形如5×5×1024的浅层差异特征、形如3×3×1024的候选区域深层图像特征、以及形如3×3×1024的浅层差异特征。为了预测候选区域的第一位置差异度，可以执行以下子步骤：

子步骤S14-1：针对每个候选区域，对该候选区域内的候选区域浅层图像特征和该候选区域对应的浅层差异特征进行融合，得到浅层融合特征；

子步骤S14-2：对该候选区域内的候选区域深层图像特征和该候选区域对应的深层差异特征进行融合，得到深层融合特征；

子步骤S14-3：基于所述浅层融合特征和所述深层融合特征，预测该候选区域的第一位置差异度。

示例地，在执行子步骤S14-1时，首先将浅层差异特征与候选区域浅层图像特征进行拼接，得到形如5×5×2048的拼接特征，然后利用大小为1×1的卷积核对拼接特征做降通道操作，得到浅层融合特征，该浅层融合特征是形如5×5×1024的特征。

在执行子步骤S14-2时，首先将深层差异特征与候选区域深层图像特征进行拼接，得到形如3×3×2048的拼接特征，然后利用大小为1×1的卷积核对拼接特征做降通道操作，得到深层融合特征，该深层融合特征是形如3×3×1024的特征。

其中，子步骤S14-2和子步骤S14-3可以分别在特征匹配模块1和特征匹配模块2内执行。如图4所示，特征匹配模块1输出形如5×5×1024的浅层融合特征，特征匹配模块2输出形如3×3×1024的深层融合特征。

在执行子步骤S14-3时，如图4所示，可以首先将浅层融合特征和深层融合特征输入特征融合模块2，该特征融合模块2可选用与上述特征融合模块1相同的网络模型。经过特征融合模块2的融合处理后，将特征融合模块2输出的特征作为图4中差异度预测模型的输入，该差异度预测模型中具有经过训练而确定的参数，可以在待检测图像中待跟踪目标的所在区域未知的情况下，预测候选区域的第一位置差异度。关于差异度预测模型的训练方式，请参见下文所述内容。

以上，本申请通过实施例介绍了目标跟踪方法的应用过程，在某些实施例中，目标跟踪方法的应用过程中涉及到特征提取模型和差异度预测模型。以下，本申请通过实施例介绍特征提取模型和差异度预测模型的训练过程。

参考图5和图6，图5是本申请一实施例提出的模型训练示意图，图6是本申请一实施例提出的模型训练的流程图。如图6所示，该训练流程包括以下步骤：

步骤S61：获得样本模板图像，该样本模板图像携带有样本模板区域，所述样本模板区域为所述样本模板图像中样本目标的所在区域。

步骤S62：获得样本待检测图像，该样本待检测图像携带有样本目标框和多个样本候选区域。

步骤S63：针对每个样本候选区域，确定该样本候选区域与所述样本目标框之间的实际位置差异度。

参考图5-1，图5-1是本申请一实施例提出的标注示意图。如图5-1所示，样本模板图像携带有样本模板区域，以样本模板图像中的实线方框表示该样本模板区域。样本待检测图像携带有样本目标框，以样本待检测图像中的实线方框表示该样本目标框。样本待检测图像还携带有多个样本候选区域，以样本待检测图像中的虚线方框表示样本候选区域。

本申请在实施期间，并非需要在样本模板图像中直接框出一个样本模板区域，而可以通过xml文件记录样本模板区域在样板模板图像中的左上角坐标和右下角坐标。同样地，可以通过xml文件记录各个样本候选区域在样本待检测图像中的左上角坐标和右下角坐标，以及记录样本目标框在样本待检测图像中的左上角坐标和右下角坐标。

在执行步骤S63时，可以利用IOU(Intersection over Union)值表示样本候选区域与样本目标框之间的实际位置差异度。在计算IOU值时，利用样本候选区域与样本目标框之间的交集面积除以并集面积，得到一个小于1的数值。该数值越大，样本候选区域与样本目标框之间的位置差异越小。

应当理解的，由于样本候选区域与样本目标框都是预先标注，且样本目标框即是样本目标的实际所在区域，因此确定出的IOU值为实际IOU值。

步骤S64：通过预设的特征提取模型，提取所述样本模板区域内的模板区域样本特征。

步骤S65：通过所述特征提取模型提取所述多个样本候选区域内各自的候选区域样本特征。

示例地，如图5所示，该特征提取模型中可以具体包括：特征提取子模型和特征计算子模块。其中，特征提取子模型用于提取样本模板图像整体的图像特征，以及用于提取样本待检测图像整体的图像特征。特征计算子模块用于从样本模板图像整体的图像特征中计算出模板区域样本特征，以及用于从样本待检测图像整体的图像特征中计算出候选区域样本特征。在某些实施例中，特征计算子模块用于执行上述PrPool函数。

步骤S66：确定每个样本候选框内的候选区域样本特征与所述模板区域样本特征之间的样本差异特征。

示例地，在执行步骤S66时，可以针对每个样本候选区域，计算该样本候选区域内的候选区域样本特征与模板区域样本特征之间的差值，将该差值的绝对值确定为该候选区域样本特征与模板区域样本特征之间的样本差异特征。所述步骤S66可通过图5中的特征匹配模块执行。

该示例中，取绝对值的操作是一种非线性的操作，如此，得到的样本差异特征是一种非线性的特征。

步骤S67：针对每个样本候选区域，通过预设的差异度预测模型，根据该样本候选区域内的候选区域样本特征和该样本候选区域对应的样本差异特征，预测该样本候选区域与所述样本目标框之间的预测位置差异度。

示例地，如图5所示，在将候选区域样本特征和样本差异特征输入差异度预测模型之前，还可以通过图5中的特征匹配模块对候选区域样本特征和样本差异特征执行：特征拼接和降通道操作。如此，特征匹配模块输出一个融合有候选区域样本特征和样本差异特征的融合特征。

该差异度预测模型基于该融合特征，预测样本候选区域与所述样本目标框之间的预测位置差异度。

步骤S68：根据多个样本候选区域各自对应的实际位置差异度和预测位置差异度，对所述差异度预测模型和所述特征提取模型进行更新。

其中，预测位置差异度作为预测值，实际位置差异度作为实际值，因此可以根据预测值和实际值确定用于更新模型的损失值，并根据该损失值更新差异度预测模型和特征提取模型。

考虑到样本目标在图像中的大小可能随着时间的变化而变化。例如在某些时刻，样本目标距离拍摄装置更近，如此，样本目标在拍摄的视频帧中的尺度更大。在某些时刻，样本目标距离拍摄装置更远，如此，样本目标在拍摄的视频帧中的尺度更小。为了适应这一情况，在训练模型时，也可以提出浅层图像特征和深层图像特征的概念，浅层图像特征和深层图像特征分别对应不同尺度的特征。

在提出浅层图像特征和深层图像特征的情况下，训练期间所搭建的整体框架可参考图4所示的框架。参考图5-2，图5-2是本申请一实施例提出的差异度预测模型的结构示意图。如图5-2所示，该差异度预测模型可具体包括：全连接层1、全连接层2、concatenate模块、以及全连接层3。所述全连接层1和全连接层2分别用于接收特征融合模块2(图5-2中未示出接收特征融合模块2，关于特征融合模块2的解释说明，可参考图4及针对图4的说明)输出的两路特征，concatenate模块用于执行concatenate函数，即并联操作，用于合两种特征。考虑到concatenate函数是深度学习领域的现有技术，本申请对此不做赘述。

参考图7，图7是本申请另一实施例提出的模型训练示意图。该训练示意图引入了对特征提取模型进行更新的另一个分支，如图7所示，该训练流程还可以包括以下步骤：

步骤S69：通过所述特征提取模型提取所述样本目标框内的目标框样本特征。

在执行步骤S69时，具体的提取方式可参见上述针对步骤S64和步骤S65的说明，本申请在此不做赘述。

步骤S70：根据多个样本候选区域各自对应的实际位置差异度，将所述多个样本候选区域划分为正样本集合和负样本集合。

其中，正样本集合中包括的样本候选区域与样本目标框之间的实际位置差异较小，负样本集合中包括的样本候选区域与样本目标框之间的实际位置差异较大。

如果利用IOU值表示实际位置差异度，IOU值越大，样本候选区域与样本目标框之间的实际位置差异越小。因此针对多个样本候选区域，可以将IOU值大于第一预设阈值(例如0.8)的样本候选区域划分至正样本集合，将IOU值小于第二预设阈值(例如-0.8)的样本候选区域划分至负样本集合。

步骤S71：针对所述正样本集合中的每个样本候选区域，确定该样本候选区域内的候选区域样本特征与所述模板区域样本特征之间的第一相似度。

示例地，计算第一相似度的具体方式可包括以下子步骤：

子步骤S71-1：确定所述模板区域样本特征的均值和方差，并确定所述候选区域样本特征的均值和方差；

子步骤S71-2：根据所述模板区域样本特征的均值和方差，以及根据所述候选区域样本特征的均值和方差，确定所述候选区域样本特征与所述模板区域样本特征之间的特征强度相似度、特征对比度相似度以及特征结构相似度；

子步骤S71-3：根据所述候选区域样本特征与所述模板区域样本特征之间的特征强度相似度、特征对比度相似度以及特征结构相似度，确定所述候选区域样本特征与所述模板区域样本特征之间的第一相似度。

其中，特征强度相似度l(x,y)可通过以下公式计算：

特征对比度相似度c(x,y)可通过以下公式计算：

特征结构相似度s(x,y)可通过以下公式计算：

第一相似度SSIM可以取为上述三种相似度之间的乘积，即：

SSIM＝l(x,y)×c(x,y)×s(x,y)

第一相似度SSIM化简后：

其中，x表示候选区域样本特征，y表示模板区域样本特征，u_x表示候选区域样本特征x的均值，u_y表示模板区域样本特征y的均值，σ_x表示候选区域样本特征x的方差，σ_y表示模板区域样本特征y的方差，σ_xy表示候选区域样本特征x与模板区域样本特征y的协方差，C1、C2以及C3为很小的常数值，为了防止上述公式中的分母等于0，通常可以将C1、C2以及C3取为0.01。

通过以子步骤S71-1至子步骤S71-3的方式计算第一相似度，计算过程中利用了特征的均值、方差、协方差等统计信息，充分考虑了特征的结构特征，该第一相似度与普通的距离相似度或者余弦相似度相比，对于特征的尺度变化或外形变化，具有鲁棒的不变性特点。因此可以驱动网络模型学习出更具判别性、且更加鲁棒的特征。

应当理解的，除了可以采用上述子步骤S71-1至子步骤S71-3的方式确定第一相似度，也可以采用其他方式确定第一相似度。例如，仍然可以将距离相似度或者余弦相似度作为第一相似度。

步骤S72：针对所述负样本集合中的每个样本候选区域，确定该样本候选区域内的候选区域样本特征与所述模板区域样本特征之间的第二相似度。

步骤S73：确定所述样本目标框内的目标框样本特征与所述模板区域样本特征之间的第三相似度。

其中，可以采用与计算第一相似度相同的方式，计算第二相似度和第三相似度，本申请对比不做赘述。

步骤S74：根据各个第一相似度、各个第二相似度以及第三相似度，对所述特征提取模型进行更新。

其中，在执行步骤S74时，可以根据各个第一相似度、各个第二相似度以及第三相似度，确定出损失值，并基于该损失值更新特征提取模型。

为了达到以下目的：使相同物体的特征相似度更接近，而使不同物体的特征相似度差异性更大，从而使网络模型学习到的特征更具判别性。在确定损失值时，可以使第一相似度和第三相似度对损失值的大小发挥负面影响，即第一相似度和第三相似度越大，损失值越小。相反地，使第二相似度对损失值的大小发挥正面影响，即第二相似度越大，损失值越大。

具体地，步骤S74可包括以下子步骤：

子步骤S74-1：根据所述各个第一相似度、所述第三相似度、以及所述正样本集合中样本候选区域的数量，确定负向更新参数；

子步骤S74-2：根据所述各个第二相似度、和所述负样本集合中样本候选区域的数量，确定正向更新参数；

子步骤S74-3：基于所述负向更新参数和所述正向更新参数，对所述特征提取模型进行更新。

示例地，可通过以下公式确定负向更新参数Loss_neg：

其中，SSIM_N1表示正样本集合中所有样本候选区域对应的第一相似度之和，SSIM_N2表示样本目标框对应的第三相似度，M表示正样本集合中样本候选区域的数量。

可通过以下公式确定正向更新参数Loss_pos：

其中，SSIM_P1表示负样本集合中所有样本候选区域对应的第二相似度之和，N表示负样本集合中样本候选区域的数量。

可通过以下公式确定损失值TSL：

TSL＝Loss_pos+Loss_neg

最后，根据所确定的损失值TSL，对特征提取模型进行更新。

如果在训练模型时，涉及到浅层图像特征和深层图像特征的概念，其中，浅层图像特征和深层图像特征分别对应不同尺度的特征。

示例地，可通过以下公式确定负向更新参数Loss_neg：

其中，SSIM_N1′表示正样本集合中各个样本候选区域内的浅层样本特征与模板区域内的浅层样本特征之间的相似度的总和，SSIM_N1″表示正样本集合中各个样本候选区域内的深层样本特征与模板区域内的深层样本特征之间的相似度的总和，SSIM_N2′表示样本目标框内的浅层样本特征与模板区域内的浅层样本特征之间的相似度，SSIM_N2″表示样本目标框内的深层样本特征与模板区域内的深层样本特征之间的相似度，M表示正样本集合中样本候选区域的数量。

可通过以下公式确定正向更新参数Loss_pos：

其中，SSIM_P1′表示负样本集合中各个样本候选区域内的浅层样本特征与模板区域内的浅层样本特征之间的相似度的总和，SSIM_P1″表示负样本集合中各个样本候选区域内的深层样本特征与模板区域内的深层样本特征之间的相似度的总和，N表示负样本集合中样本候选区域的数量。

可通过以下公式确定损失值TSL：

TSL＝Loss_pos+Loss_neg

最后，根据所确定的损失值TSL，对特征提取模型进行更新。

上述步骤S70至步骤S74，可通过图5中的损失值TSL确定模块执行。

基于同一发明构思，本申请一实施例提供一种目标跟踪装置。参考图8，图8是本申请一实施例提出的目标跟踪装置的示意图。如图8所示，该装置包括：

模板区域图像特征获得模块81，用于获得模板图像中模板区域内的模板区域图像特征，其中，所述模板区域为所述模板图像中待跟踪目标的所在区域；

候选区域图像特征获得模块82，用于针对待检测图像中的多个候选区域中的每个候选区域，获得该候选区域内的候选区域图像特征；

差异特征确定模块83，用于确定每个候选区域内的候选区域图像特征与所述模板区域图像特征之间的差异特征；

第一位置差异度预测模块84，用于根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，所述第一位置差异度表征该候选区域与所述待检测图像中待跟踪目标所在区域之间的位置差异；

待跟踪目标所在区域确定模块85，用于根据多个候选区域各自的第一位置差异度，在所述待检测图像中确定所述待跟踪目标的所在区域。

可选地，所述第一位置差异度预测模块包括：

特征融合子模块，用于针对每个候选区域，将该候选区域内的候选区域图像特征和该候选区域对应的差异特征进行融合，得到融合特征；

第一位置差异度预测子模块，用于基于所述融合特征，预测该候选区域的第一位置差异度。

可选地，所述差异特征确定模块包括：

差异特征确定子模块，用于针对每个候选区域，计算该候选区域内的候选区域图像特征与所述模板区域图像特征之间的差值，将所述差值的绝对值确定为该候选区域图像特征与所述模板区域图像特征之间的差异特征。

可选地，所述模板区域图像特征包括模板区域浅层图像特征和模板区域深层图像特征，所述候选区域图像特征包括候选区域浅层图像特征和候选区域深层图像特征；所述差异特征确定模块包括：

浅层差异特征确定子模块，用于针对每个候选区域，确定该候选区域内的候选区域浅层图像特征与所述模板区域浅层图像特征之间的浅层差异特征；

深层差异特征确定子模块，用于针对每个候选区域，确定该候选区域内的候选区域深层图像特征与所述模板区域深层图像特征之间的深层差异特征；

所述第一位置差异度预测模块包括：

浅层特征融合子模块，用于针对每个候选区域，对该候选区域内的候选区域浅层图像特征和该候选区域对应的浅层差异特征进行融合，得到浅层融合特征；

深层特征融合子模块，用于对该候选区域内的候选区域深层图像特征和该候选区域对应的深层差异特征进行融合，得到深层融合特征；

第一位置差异度预测子模块，用于基于所述浅层融合特征和所述深层融合特征，预测该候选区域的第一位置差异度。

可选地，所述装置还包括：

样本模板图像获得模块，用于获得样本模板图像，该样本模板图像携带有样本模板区域，所述样本模板区域为所述样本模板图像中样本目标的所在区域；

样本待检测图像获得模块，用于获得样本待检测图像，该样本待检测图像携带有样本目标框和多个样本候选区域；

实际位置差异度确定模块，用于针对每个样本候选区域，确定该样本候选区域与所述样本目标框之间的实际位置差异度；

模板区域样本特征提取模块，用于通过预设的特征提取模型，提取所述样本模板区域内的模板区域样本特征；

候选区域样本特征提取模块，用于通过所述特征提取模型提取所述多个样本候选区域内各自的候选区域样本特征；

样本差异特征确定模块，用于确定每个样本候选框内的候选区域样本特征与所述模板区域样本特征之间的样本差异特征；

预测位置差异度预测模块，用于针对每个样本候选区域，通过预设的差异度预测模型，根据该样本候选区域内的候选区域样本特征和该样本候选区域对应的样本差异特征，预测该样本候选区域与所述样本目标框之间的预测位置差异度；

第一模型更新模块，用于根据多个样本候选区域各自对应的实际位置差异度和预测位置差异度，对所述差异度预测模型和所述特征提取模型进行更新。

可选地，所述装置还包括：

目标框样本特征提取模块，用于通过所述特征提取模型提取所述样本目标框内的目标框样本特征；

样本候选区域划分模块，用于根据多个样本候选区域各自对应的实际位置差异度，将所述多个样本候选区域划分为正样本集合和负样本集合；

第一相似度确定模块，用于针对所述正样本集合中的每个样本候选区域，确定该样本候选区域内的候选区域样本特征与所述模板区域样本特征之间的第一相似度；

第二相似度确实模块，用于针对所述负样本集合中的每个样本候选区域，确定该样本候选区域内的候选区域样本特征与所述模板区域样本特征之间的第二相似度；

第三相似度确定模块，用于确定所述样本目标框内的目标框样本特征与所述模板区域样本特征之间的第三相似度；

第二模型更新模块，用于根据各个第一相似度、各个第二相似度以及第三相似度，对所述特征提取模型进行更新。

可选地，所述第二模型更新模块包括：

负向更新参数确定子模块，用于根据所述各个第一相似度、所述第三相似度、以及所述正样本集合中样本候选区域的数量，确定负向更新参数；

正向更新参数确定子模块，用于根据所述各个第二相似度、和所述负样本集合中样本候选区域的数量，确定正向更新参数；

第二模型更新子模块，用于基于所述负向更新参数和所述正向更新参数，对所述特征提取模型进行更新。

可选地，所述第一相似度确定模块包括：

均值和方差确定子模块，用于确定所述模板区域样本特征的均值和方差，并确定所述候选区域样本特征的均值和方差；

相似度确定子模块，用于根据所述模板区域样本特征的均值和方差，以及根据所述候选区域样本特征的均值和方差，确定所述候选区域样本特征与所述模板区域样本特征之间的特征强度相似度、特征对比度相似度以及特征结构相似度；

第一相似度确定子模块，用于根据所述候选区域样本特征与所述模板区域样本特征之间的特征强度相似度、特征对比度相似度以及特征结构相似度，确定所述候选区域样本特征与所述模板区域样本特征之间的第一相似度。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请上述任一实施例所述的目标跟踪方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的目标跟踪方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各帧实施例均采用递进的方式描述，每帧实施例重点说明的都是与其他实施例的不同之处，各帧实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一帧或多帧其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一帧机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一帧流程或多帧流程和/或方框图一帧方框或多帧方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一帧流程或多帧流程和/或方框图一帧方框或多帧方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一帧流程或多帧流程和/或方框图一帧方框或多帧方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一帧实体或者操作与另一帧实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一帧……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种目标跟踪方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体实例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，所述第一位置差异度表征该候选区域与所述待检测图像中待跟踪目标所在区域之间的IOU值，所述IOU值是指候选区域与待跟踪目标所在区域之间的交集面积除以并集面积；

2.根据权利要求1所述的方法，其特征在于，所述根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，包括：

针对每个候选区域，将该候选区域内的候选区域图像特征和该候选区域对应的差异特征进行融合，得到融合特征；

基于所述融合特征，预测该候选区域的第一位置差异度。

3.根据权利要求1所述的方法，其特征在于，所述确定每个候选区域内的候选区域图像特征与所述模板区域图像特征之间的差异特征，包括：

针对每个候选区域，计算该候选区域内的候选区域图像特征与所述模板区域图像特征之间的差值，将所述差值的绝对值确定为该候选区域图像特征与所述模板区域图像特征之间的差异特征。

4.根据权利要求1所述的方法，其特征在于，所述模板区域图像特征包括模板区域浅层图像特征和模板区域深层图像特征，所述候选区域图像特征包括候选区域浅层图像特征和候选区域深层图像特征；所述确定每个候选区域内的候选区域图像特征与所述模板区域图像特征之间的差异特征，包括：

针对每个候选区域，确定该候选区域内的候选区域浅层图像特征与所述模板区域浅层图像特征之间的浅层差异特征；

针对每个候选区域，确定该候选区域内的候选区域深层图像特征与所述模板区域深层图像特征之间的深层差异特征；

所述根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，包括：

针对每个候选区域，对该候选区域内的候选区域浅层图像特征和该候选区域对应的浅层差异特征进行融合，得到浅层融合特征；

对该候选区域内的候选区域深层图像特征和该候选区域对应的深层差异特征进行融合，得到深层融合特征；

基于所述浅层融合特征和所述深层融合特征，预测该候选区域的第一位置差异度。

5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获得样本模板图像，该样本模板图像携带有样本模板区域，所述样本模板区域为所述样本模板图像中样本目标的所在区域；

获得样本待检测图像，该样本待检测图像携带有样本目标框和多个样本候选区域；

针对每个样本候选区域，确定该样本候选区域与所述样本目标框之间的实际位置差异度；

通过预设的特征提取模型，提取所述样本模板区域内的模板区域样本特征；

通过所述特征提取模型提取所述多个样本候选区域内各自的候选区域样本特征；

确定每个样本候选框内的候选区域样本特征与所述模板区域样本特征之间的样本差异特征；

针对每个样本候选区域，通过预设的差异度预测模型，根据该样本候选区域内的候选区域样本特征和该样本候选区域对应的样本差异特征，预测该样本候选区域与所述样本目标框之间的预测位置差异度；

根据多个样本候选区域各自对应的实际位置差异度和预测位置差异度，对所述差异度预测模型和所述特征提取模型进行更新。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

通过所述特征提取模型提取所述样本目标框内的目标框样本特征；

根据多个样本候选区域各自对应的实际位置差异度，将所述多个样本候选区域划分为正样本集合和负样本集合；

针对所述正样本集合中的每个样本候选区域，确定该样本候选区域内的候选区域样本特征与所述模板区域样本特征之间的第一相似度；

针对所述负样本集合中的每个样本候选区域，确定该样本候选区域内的候选区域样本特征与所述模板区域样本特征之间的第二相似度；

确定所述样本目标框内的目标框样本特征与所述模板区域样本特征之间的第三相似度；

根据各个第一相似度、各个第二相似度以及第三相似度，对所述特征提取模型进行更新。

7.根据权利要求6所述的方法，其特征在于，所述根据各个第一相似度、各个第二相似度以及第三相似度，对所述特征提取模型进行更新，包括：

根据所述各个第一相似度、所述第三相似度、以及所述正样本集合中样本候选区域的数量，确定负向更新参数；

根据所述各个第二相似度、和所述负样本集合中样本候选区域的数量，确定正向更新参数；

基于所述负向更新参数和所述正向更新参数，对所述特征提取模型进行更新。

8.根据权利要求6或7所述的方法，其特征在于，所述确定该样本候选区域内的候选区域样本特征与所述模板区域样本特征之间的第一相似度，包括：

确定所述模板区域样本特征的均值和方差，并确定所述候选区域样本特征的均值和方差；

根据所述模板区域样本特征的均值和方差，以及根据所述候选区域样本特征的均值和方差，确定所述候选区域样本特征与所述模板区域样本特征之间的特征强度相似度、特征对比度相似度以及特征结构相似度；

根据所述候选区域样本特征与所述模板区域样本特征之间的特征强度相似度、特征对比度相似度以及特征结构相似度，确定所述候选区域样本特征与所述模板区域样本特征之间的第一相似度。

9.一种目标跟踪装置，其特征在于，所述装置包括：

第一位置差异度预测模块，用于根据每个候选区域内的候选区域图像特征和该候选区域对应的差异特征，预测该候选区域的第一位置差异度，所述第一位置差异度表征该候选区域与所述待检测图像中待跟踪目标所在区域之间的IOU值，所述IOU值是指候选区域与待跟踪目标所在区域之间的交集面积除以并集面积；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至8任一所述的方法中的步骤。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1至8任一所述的方法的步骤。