CN115393616A

CN115393616A - 目标跟踪方法、装置、设备以及存储介质

Info

Publication number: CN115393616A
Application number: CN202210812252.9A
Authority: CN
Inventors: 张伟俊
Original assignee: Insta360 Innovation Technology Co Ltd
Current assignee: Insta360 Innovation Technology Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-11-25
Also published as: WO2024012371A1

Abstract

本发明实施例提出了一种目标跟踪方法、装置、设备以及存储介质，涉及计算机视觉技术领域；能够准确追踪到特定视觉目标不受同类别视觉目标干扰。所述方法执行对当前图像进行目标跟踪过程包括：获得视频中待跟踪视觉目标的物体类型；对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标；获得在所述当前图像之前的至少一帧中确定为所述待跟踪视觉目标的图像区域作为跟踪视觉目标样本，以及除所述跟踪视觉目标样本之外类别与所述物体类型相同的干扰视觉目标样本；根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标。

Description

目标跟踪方法、装置、设备以及存储介质

【技术领域】

本发明实施例涉及计算机视觉技术领域，尤其涉及一种目标跟踪方法、装置、设备以及存储介质。

【背景技术】

对视频中的视觉目标进行追踪，是给定视觉目标在特定图像帧的目标大小与位置情况下，预测该视觉目标对应物体在视频序列后续图像帧中的大小和位置的技术，在视频监控、人机交互、多媒体分析等多个领域都有广泛的应用。

实际应用中，目前视觉目标跟踪领域，不管是基于DCF技术的传统算法，还是以SiamRPN为代表的基于深度学习的跟踪算法，在有同类别目标干扰(例如颜色相似的干扰车辆、表观结构信息相似的干扰行人等)的场景下算法鲁棒性都比较差。特别是，当前跟踪目标被相似干扰目标遮挡后，算法很容易跟踪到干扰目标上去。

【发明内容】

本发明实施例提供了一种目标跟踪方法、装置、设备以及存储介质，能够准确追踪到特定视觉目标不受同类别视觉目标干扰。

第一方面，本发明实施例提供一种目标跟踪方法，应用于电子设备，所述方法执行对当前图像进行目标跟踪过程包括：获得视频中待跟踪视觉目标的物体类型；对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标；其中，所述当前图像是按照播放视频时不同帧图像显示的顺序每隔预设帧数提取的当前帧；获得在所述当前图像之前的至少一帧中确定为所述待跟踪视觉目标的图像区域作为跟踪视觉目标样本，以及除所述跟踪视觉目标样本之外类别与所述物体类型相同的干扰视觉目标样本；根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标。

上述目标跟踪方法在视频的当前帧图像中检测出与待跟踪视觉目标同一类型的多个候选视觉目标，采用历史检测结果中确定的待跟踪视觉目标作为参照，和与待跟踪视觉目标同一类型且不是待跟踪视觉目标作为对比，在对应当前帧的多个候选视觉目标中确定待跟踪视觉目标，由于针对同一类型的视觉目标进行了细节区分，选择最接近基于历史图像确定的待跟踪视觉目标，且与同类型视觉目标中的非待跟踪视觉目标具有最大差距的图像区域为当前帧图像的待跟踪视觉目标，克服了同类别视觉目标的干扰。

其中一种可能的实现方式中，获得视频中待跟踪视觉目标的物体类型，包括：

响应操作指令，在所述视频的标准帧图像标注用户或系统选定的视觉目标作为所述待跟踪视觉目标；

对携带标注的所述用户或系统选定的视觉目标进行分类计算，获得所述待跟踪视觉目标的物体类型。

在所述视频的标准图像帧中，识别并显示类别与用户输入信息关联的多个视觉目标；

接收到对所述类别与用户输入信息关联的多个视觉目标中任意视觉目的触发信号时，确定触发信号对应视觉目标为所述待跟踪视觉目标，确定触发信号对应视觉目标的类别为所述物体类型。

其中一种可能的实现方式中，在对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标之后，所述方法还包括：

获得在所述当前图像之前的至少一帧图像中确定的待跟踪视觉目标所占图像区域的面积；

当所述多个候选视觉目标中任意候选视觉目标所占图像区域与所述待跟踪视觉目标所占图像区域的面积相差大于预设阈值，滤除该选视觉目标；

将所述跟踪视觉目标样本和所述干扰视觉目标样本作为参考，在所述多个候选视觉目标中确定所述待跟踪视觉目标，包括：

将所述跟踪视觉目标样本和所述干扰视觉目标样本作为参考，在经过滤除后的至少一个所述候选视觉目标中确定所述待跟踪视觉目标。

其中一种可能的实现方式中，根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标，包括：

依次对所述多个候选视觉目标中每个候选视觉目标，分别计算与跟踪视觉目标样本以及与干扰视觉目标样本的相似性，得到第一相似性分数和第二相似性分数；

将对应第一相似性分数和对应第二相似性分数相差程度最大的候选视觉目标作为所述待跟踪视觉目标。

其中一种可能的实现方式中，所述跟踪视觉目标样本和所述干扰视觉目标样本的数量为多个，依次对所述多个候选视觉目标中每个候选视觉目标，分别计算与跟踪视觉目标样本以及与干扰视觉目标样本的相似性，包括：

依次从多个候选视觉目标中获取当前候选视觉目标；

计算所述当前候选视觉目标与每个跟踪视觉目标样本或与每个干扰视觉目标样本的相似性；

获取与所述候选视觉目标具有最高相似性的跟踪视觉目标样本对应相似性分数，作为所述第一相似性分数；

获取与所述候选视觉目标具有最高相似性的干扰视觉目标样本对应相似性分数，作为所述第二相似性分数。

依次从多个候选视觉目标中获取当前候选视觉目标；

依次针对每个候选视觉目标计算与多个跟踪视觉目标样本或与多个干扰视觉目标样本的相似性；

依次针对每个候选视觉目标计算与多个跟踪视觉目标样本的平均相似性，以及与多个干扰视觉目标样本的平均相似性；

获取与所述多个跟踪视觉目标样本具有最高平均相似性的候选视觉目标对应平均相似性，作为所述第一相似性分数；

获取与所述多个干扰视觉目标样本具有最高平均相似性的候选视觉目标对应平均相似性，作为所述第二相似性分数。

其中一种可能的实现方式中，第一相似性分数和对应第二相似性分数相差程度包括第一相似性分数和对应第二相似性分数的差值或第一相似性分数和对应第二相似性分数的比值。

将所述跟踪视觉目标样本作为正样本，所述干扰视觉目标样本作为负样本，对预先搭建的神经网络模型进行多次训练，获得从类别与所述物体类型相同的多个视觉目标中区分出特定物体的分类器；

将所述多个候选视觉目标输入所述分类器，获得所述待跟踪视觉目标。

其中一种可能的实现方式中，在第i次执行对当前图像进行目标跟踪过程时，在根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标之后，还包括：

将基于第i次获取的所述当前图像确定为所述待跟踪视觉目标对应图像区域添加到跟踪视觉目标样本列表，将除所述待跟踪视觉目标外的候选视觉目标对应视觉目标添加到干扰视觉目标样本列表；

在第i+1次执行对当前图像进行目标跟踪过程时，获得在所述当前图像之前的至少一帧中确定为所述待跟踪视觉目标的图像区域作为跟踪视觉目标样本，以及除所述跟踪视觉目标样本之外类别与所述物体类型相同的干扰视觉目标样本，包括：

从所述跟踪视觉目标样本列表中选取图像区域作为所述跟踪视觉目标样本，从所述干扰视觉目标样本列表中选取图像区域作为所述干扰视觉目标样本；i的取值为1、2、…、N-1，其中N>1。

第二方面，本发明实施例提供一种目标跟踪装置，设置在电子设备中，所述装置包括：

类型获得模块，用于获得视频中待跟踪视觉目标的物体类型；

检测模块，用于对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标；其中，所述当前图像是按照播放视频时不同帧图像显示的顺序每隔预设帧数提取的当前帧；

样本获得模块，用于获得在所述当前图像之前的至少一帧图像中确定为所述待跟踪视觉目标的图像区域作为跟踪视觉目标样本，以及除所述跟踪视觉目标样本之外类别与所述物体类型相同的干扰视觉目标样本；

确定模块，用于根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标。

其中一种可能的实现方式中，所述类型获得模块包括：

响应子模块，用于响应操作指令，在所述视频的标准帧图像标注用户或系统选定的视觉目标作为所述待跟踪视觉目标；

第一计算子模块，用于对携带标注的所述用户或系统选定的视觉目标进行分类计算，获得所述待跟踪视觉目标的物体类型。

其中一种可能的实现方式中，所述类型获得模块包括：

识别子模块，用于在所述视频的标准图像帧中，识别并显示类别与用户输入信息关联的多个视觉目标；

接收子模块，用于接收到对所述类别与用户输入信息关联的多个视觉目标中任意视觉目的触发信号时，确定触发信号对应视觉目标为所述待跟踪视觉目标，确定触发信号对应视觉目标的类别为所述物体类型。

其中一种可能的实现方式中，所述装置还包括：

面积获得模块，用于获得在所述当前图像之前的至少一帧图像中确定的待跟踪视觉目标所占图像区域的面积；

滤除模块，用于当所述多个候选视觉目标中任意候选视觉目标所占图像区域与所述待跟踪视觉目标所占图像区域的面积相差大于预设阈值，滤除该选视觉目标；

所述确定模块具体用于将所述跟踪视觉目标样本和所述干扰视觉目标样本作为参考，在经过滤除后的至少一个所述候选视觉目标中确定所述待跟踪视觉目标。

其中一种可能的实现方式中，所述确定模块包括：

第二计算子模块，用于依次对所述多个候选视觉目标中每个候选视觉目标，分别计算所述候选视觉目标与跟踪视觉目标样本以及与干扰视觉目标样本的相似性，得到第一相似性分数和第二相似性分数；

确定子模块，用于将对应第一相似性分数和对应第二相似性分数相差程度最大的候选视觉目标作为所述待跟踪视觉目标。

其中一种可能的实现方式中，所述第二计算子模块包括：

目标获取子单元，用于依次从多个候选视觉目标中获取当前候选视觉目标；

相似性计算子单元，用于计算所述当前候选视觉目标与每个跟踪视觉目标样本或与每个干扰视觉目标样本的相似性；

第一分数获取子单元，用于获取与所述候选视觉目标具有最高相似性的跟踪视觉目标样本对应相似性分数，作为所述第一相似性分数；

第二分数获取子单元，用于获取与所述候选视觉目标具有最高相似性的干扰视觉目标样本对应相似性分数，作为所述第二相似性分数。

其中一种可能的实现方式中，所述第二计算子模块包括：

相似性计算子单元，用于依次针对每个候选视觉目标计算与多个跟踪视觉目标样本的平均相似性，以及与多个干扰视觉目标样本的平均相似性；

第三分数获取子单元，用于获取与所述多个跟踪视觉目标样本具有最高平均相似性的候选视觉目标对应平均相似性，作为所述第一相似性分数；

第四分数获取子单元，用于获取与所述多个干扰视觉目标样本具有最高平均相似性的候选视觉目标对应平均相似性，作为所述第二相似性分数。

其中一种可能的实现方式中，所述确定模块包括：

训练子模块，用于所述跟踪视觉目标样本作为正样本，所述干扰视觉目标样本作为负样本，对预先搭建的神经网络模型进行多次训练，获得从类别与所述物体类型相同的多个视觉目标中区分出特定物体的分类器；

输入子模块，用于将所述多个候选视觉目标输入所述分类器，获得所述待跟踪视觉目标。

其中一种可能的实现方式中，所述装置还包括：

添加模块，用于在第i次执行对当前图像进行目标跟踪过程，将基于第i次获取的所述当前图像确定为所述待跟踪视觉目标对应图像区域添加到跟踪视觉目标样本列表，将除所述待跟踪视觉目标外的候选视觉目标对应视觉目标添加到干扰视觉目标样本列表；

所述样本获得模块具体用于第i+1次执行对当前图像进行目标跟踪过程，从所述跟踪视觉目标样本列表中选取图像区域作为所述跟踪视觉目标样本，从所述干扰视觉目标样本列表中选取图像区域作为所述干扰视觉目标样本；i的取值为1、2、…、N-1，其中N>1。

第三方面，本发明实施例提供一种设备，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面提供的方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面提供的方法。

应当理解的是，本发明实施例的第二～四方面与本发明实施例的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提出的目标跟踪方法步骤流程图；

图2是本发明实施例在多个候选视觉目标中确定待跟踪视觉目标的流程图；

图3是本发明实施例提出的目标跟踪装置的功能模块图；

图4为本发明实施例提供的一种电子设备的结构示意图。

【具体实施方式】

为了更好的理解本说明书的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本说明书保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明实施例提出的目标跟踪方法可以应用于终端、服务器等电子设备。

图1是本发明实施例提出的目标跟踪方法步骤流程图，如图1所示，步骤包括：

S101：获得视频中待跟踪视觉目标的物体类型。

视觉目标可以是显示在图像中的视觉对象。

待跟踪视觉目标是视频中显示的特定视觉目标，可以由用户选择或系统计算得出。示例地，输出监控视频，基于特定图像帧确定指定人物对象大小和位置，在监控视频的其他图像帧检测出该指定任务对象大小和所在位置。

本发明实施例还提出获得视频中待跟踪视觉目标的物体类型的不同方式。

获得视频中待跟踪视觉目标的物体类型的步骤可以包括：

K11：响应操作指令，在所述视频的标准帧图像标注用户或系统选定的视觉目标作为所述待跟踪视觉目标。

操作指令可是点击操作触发的选择指令，也可以是预先设定程序触发的。

视频的标准帧图像可以是视频的第一帧图像，也可以是视频中图像质量最高的一帧图像。

电子设备接收到用户选中视觉目标的信号，标注用户选中的视频目标作为需要在视频其他帧图像中检测的指定对象，作为待跟踪视觉目标。或者，电子设备也可以按照预先设定，检测并标注指定对象，作为待跟踪视觉目标。

K12：对携带标注的所述用户或系统选定的视觉目标进行分类计算，获得所述待跟踪视觉目标的物体类型。

对所述用户或系统选定的视觉目标进行分类计算的方式包括：

在标准帧图像检测出每种类型的视觉对象，框选出检测出的视觉对象，计算每个检测结果与用户或系统选定的视觉目标的交并比，选取交并比最大的检测结果的类别作为待跟踪视觉目标的物体类型。

示例地，框选用户或系统选定的视觉目标，记为第一目标框。分别检测出标准帧图像中类别为车、行人、摩托的视觉对象，框选出检测出的视觉对象，记为第二目标框；计算第一目标框与各第二目标框的交集，第一目标框与各第二目标框的并集，以计算交集和并集的比值。最大交集和并集的比值对应第二目标框对应视觉对象的类型是行人，行人作为物体类型。

将框选出用户选定对象的标准帧图像输入基于卷积神经网络CNN的目标分类算法，输出选定对象的物体类型。

获得视频中待跟踪视觉目标的物体类型的步骤还可以包括：

K21：在所述视频的标准图像帧中，识别并显示类别与用户输入信息关联的多个视觉目标。

示例地，用户输入信息为车辆，电子设备检测出标准图像帧中类型为车辆的视觉对象，显示出检测出的类型为车辆的视觉对象。

K22：接收到对所述类别与用户输入信息关联的多个视觉目标中任意视觉目的触发信号时，确定触发信号对应视觉目标为所述待跟踪视觉目标，确定触发信号对应视觉目标的类别为所述物体类型。

示例地，电子设备显示的视觉目标包括车辆A、车辆B以及车辆C，用户选择操作的触发信号对应车辆A，确定车辆A为待跟踪视觉目标，待跟踪视觉目标的物体类型为车辆。

S102：对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标；其中，所述当前图像是按照播放视频时不同帧图像显示的顺序每隔预设帧数提取的当前帧；

示例地，假设基于视频的第一帧图像确定了待跟踪视觉目标和待跟踪视觉目标的物体类型，每隔预设帧数，提取视频的当前帧，作为当前图像，对当前图像进行视觉目标检测，检测出类别与所述物体类型相同的多个候选视觉目标。

在电子设备执行步骤S102过程中，对输入当前图像进行目标检测，检出步骤S101所指定类别(比如行人、车辆、动物、建筑物等)的视觉目标。可以使用常见的检测方法，可以是基于手工特征的检测方法(如模板匹配法、关键点匹配法、关键特征法等)，也可以是基于卷积神经网络技术的检测方法(如YOLO，SSD，R-CNN，Mask R-CNN等)。

本实施例还提出可以对检测出的多个候选视觉目标进行过滤，滤除明显不是待跟踪视觉目标的候选视觉目标。例如，滤除与标准图像帧中待跟踪视觉目标的目标框大小尺度偏差过大的目标框对应候选视觉目标，滤除与标准图像帧中待跟踪视觉目标的目标框尺寸比例偏差过大的目标框对应候选视觉目标，或者滤除目标检测输出的检测置信度低的候选视觉目标等。

在对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标之后，所述方法还包括：

通过上述方式，可以滤除多个候选视觉目标中与待跟踪视觉目标相差较大的元素，减少计算量。

S103：获得在所述当前图像之前的至少一帧图像中确定为所述待跟踪视觉目标的图像区域作为跟踪视觉目标样本，以及除所述跟踪视觉目标样本之外类别与所述物体类型相同的干扰视觉目标样本。

当前图像之前的至少一帧图像可以理解为视频的历史帧图像。

假设当前图像是视频的第i帧图像，当前图像之前的至少一帧图像可以是视频的第i-1帧图像、视频的第i-2帧图像、视频的第i-3帧图像等。

本发明实施例提出的目标跟踪方法可以周期性执行，在第i次执行对当前图像进行目标跟踪过程时，在根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标之后，还包括：

将基于所述当前图像确定为所述待跟踪视觉目标对应图像区域添加到跟踪视觉目标样本列表，将除所述待跟踪视觉目标外的候选视觉目标对应视觉目标添加到干扰视觉目标样本列表；

在本发明一种示例中，在对视频的第i-1帧图像进行目标跟踪后，检测出类别与所述物体类型相同的多个候选视觉目标为行人A、行人B、行人C，第i-1帧图像中行人A为待跟踪视觉目标，将行人A作为跟踪视觉目标样本，添加到跟踪视觉目标样本列表，行人B、行人C作为干扰视觉目标样本，添加到干扰视觉目标样本列表。

在对视频的第i帧图像进行目标跟踪过程中，可以从跟踪视觉目标样本列表获取跟踪视觉目标样本，作为对第i帧图像的多个候选视觉目标进行分类的参照；从干扰视觉目标样本列表中获取干扰视觉目标样本，作为对第i帧图像的多个候选视觉目标进行分类的对比。

采用针对同一视频历史图像帧的目标跟踪结果，作为跟踪视觉目标样本和干扰视觉目标样本，对当前图像帧检测出的同类别视觉目标进行二次分类，

S104：根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标。

在本发明实施例一种可选示例中，可以通过计算相似度分数的方式，实现根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标。

根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标，包括：

依次对所述多个候选视觉目标中每个候选视觉目标，分别计算所述候选视觉目标与跟踪视觉目标样本以及与干扰视觉目标样本的相似性，得到第一相似性分数和第二相似性分数；

第一相似性分数和对应第二相似性分数相差程度包括第一相似性分数和对应第二相似性分数的差值或第一相似性分数和对应第二相似性分数的比值。

计算第一相似性分数的具体过程可以是：

K41：依次从多个候选视觉目标中获取当前候选视觉目标；

K42：计算所述当前候选视觉目标与每个跟踪视觉目标样本或与每个干扰视觉目标样本的相似性；

K43：获取与所述候选视觉目标具有最高相似性的跟踪视觉目标样本对应相似性分数，作为所述第一相似性分数。

计算第一相似性分数的另一种具体过程可以是：

K51：依次从多个候选视觉目标中获取当前候选视觉目标；

K52：依次针对每个候选视觉目标计算与多个跟踪视觉目标样本或与多个干扰视觉目标样本的相似性；

K53：依次针对每个候选视觉目标计算与多个跟踪视觉目标样本的平均相似性，以及与多个干扰视觉目标样本的平均相似性；

K54：获取与所述多个跟踪视觉目标样本具有最高平均相似性的候选视觉目标对应平均相似性，作为所述第一相似性分数。

计算第二相似性分数的具体过程可以是：

K61：依次从多个候选视觉目标中获取当前候选视觉目标；

K62：计算所述当前候选视觉目标与每个跟踪视觉目标样本或与每个干扰视觉目标样本的相似性；

K63：获取与所述候选视觉目标具有最高相似性的干扰视觉目标样本对应相似性分数，作为所述第二相似性分数。

计算第二相似性分数的另一种具体过程可以是：

K71：依次从多个候选视觉目标中获取当前候选视觉目标；

K72：依次针对每个候选视觉目标计算与多个跟踪视觉目标样本或与多个干扰视觉目标样本的相似性；

K73：依次针对每个候选视觉目标计算与多个跟踪视觉目标样本的平均相似性，以及与多个干扰视觉目标样本的平均相似性；

K74：获取与所述多个干扰视觉目标样本具有最高平均相似性的候选视觉目标对应平均相似性，作为所述第二相似性分数。

对当前图像进行目标检测，检测出类别与所述物体类型相同的多个候选视觉目标组成集合P＝{P₁,P₂,...,P_N}，其中每个元素表示一个候选视觉目标，跟踪视觉目标样本列表T＝{T₁,T₂,...,T_M}，其中每个元素表示一个跟踪视觉目标样本；干扰视觉目标样本列表D＝{D₁,D₂,...,D_L}，其中每个元素表示一个干扰视觉目标样本。

可以针对P中每个元素P_k，分别计算与T中每个元素T_j的相似性分数，取最大值记为ScoreT_g；针对P中每个元素P_k，分别计算与D中每个元素D_m的相似性分数，取最大值记为ScoreD_h，取{ScoreT_g-ScoreD_h}值对应元素P_k为当前图像的待跟踪视觉目标。

可以针对P中每个元素P_k，分别计算与T中每个元素T_j的相似性分数，取最大值记为ScoreT_g；针对P中每个元素P_k，分别计算与D中每个元素D_m的相似性分数，取最大值记为ScoreD_h，取{ScoreT_g/ScoreD_h}值对应元素P_k为当前图像的待跟踪视觉目标。

可以针对P中每个元素P_k，分别计算与T中每个元素T_j的相似性分数，取平均值记为ScoreT_g；针对P中每个元素P_k，分别计算与D中每个元素D_m的相似性分数，取平均值记为ScoreD_h，取{ScoreT_g-ScoreD_h}值对应元素P_k为当前图像的待跟踪视觉目标。

可以针对P中每个元素P_k，分别计算与T中每个元素T_j的相似性分数，取平均值记为ScoreT_g；针对P中每个元素P_k，分别计算与D中每个元素D_m的相似性分数，取平均值记为ScoreD_h，取{ScoreT_g/ScoreD_h}值对应元素P_k为当前图像的待跟踪视觉目标。

在本发明实施例另一种可选示例中，可以将所述跟踪视觉目标样本作为正样本，所述干扰视觉目标样本作为负样本，对预先搭建的神经网络模型进行多次训练，获得从类别与所述物体类型相同的多个视觉目标中区分出特定物体的分类器；将所述多个候选视觉目标输入所述分类器，获得所述待跟踪视觉目标。

示例地，利用分类器对多个候选视觉目标A、B、C、D进行分类，确定候选视觉目标A为当前图像的待跟踪视觉目标。由于分类器对多个候选视觉目标A、B、C、D自动分类，筛选出待跟踪视觉目标，保证在当前图像确定的待跟踪视觉目标更加准确；其中分类器是针对同类型视觉对象进行分类的，能够有效避免同类别视觉对象的干扰。

图3是本发明实施例提出的目标跟踪装置的功能模块图，上述目标跟踪装置设置在电子设备中，如图3所示，所述装置包括：

类型获得模块31，用于获得视频中待跟踪视觉目标的物体类型；

检测模块32，用于对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标；其中，所述当前图像是按照播放视频时不同帧图像显示的顺序每隔预设帧数提取的当前帧；

样本获得模块33，用于获得在所述当前图像之前的至少一帧图像中确定为所述待跟踪视觉目标的图像区域作为跟踪视觉目标样本，以及除所述跟踪视觉目标样本之外类别与所述物体类型相同的干扰视觉目标样本；

确定模块34，用于根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标。

图3所示实施例提供的目标跟踪装置可用于执行本说明书图1至图2所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

可选地，所述类型获得模块包括：

可选地，所述装置还包括：

可选地，所述确定模块包括：

可选地，所述第二计算子模块包括：

可选地，第一相似性分数和对应第二相似性分数相差程度包括第一相似性分数和对应第二相似性分数的差值或第一相似性分数和对应第二相似性分数的比值。

可选地，所述确定模块包括：

可选地，所述装置还包括：

上述所示实施例提供的装置用于执行上述所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，在此不再赘述。

上述所示实施例提供的装置例如可以是：芯片或者芯片模组。上述所示实施例提供的装置用于执行上述所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，在此不再赘述。

关于上述实施例中描述的各个装置包含的各个模块/单元，其可以是软件模块/单元，也可以是硬件模块/单元，或者也可以部分是软件模块/单元，部分是硬件模块/单元。例如，对于应用于或集成于芯片的各个装置，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于电子终端设备的各个装置，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于电子终端设备内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于电子终端设备内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

图4为本发明实施例提供的一种电子设备的结构示意图，该电子设备400包括处理器410，存储器411，存储在存储器411上并可在所述处理器410上运行的计算机程序，所述处理器410执行所述程序时实现前述方法实施例中的步骤，实施例提供的电子设备可用于执行本上述所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，在此不再赘述。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本说明书图1～图2所示实施例提供的目标跟踪方法。非暂态计算机可读存储介质可以指非易失性计算机存储介质。

上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(read only memory，ROM)、可擦式可编程只读存储器(erasable programmable read onlymemory，EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、射频(radio frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(localarea network，LAN)或广域网(wide area network，WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本发明实施例的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本说明书的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本说明书的实施例所属技术领域的技术人员所理解。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(personal computer，PC)、个人数字助理(personal digital assistant，PDA)、无线手持设备、平板电脑(tablet computer)、手机、MP3播放器、MP4播放器等。

在本说明书所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本说明书各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获得视频中待跟踪视觉目标的物体类型；

对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标；其中，所述当前图像是按照播放视频时不同帧图像显示的顺序每隔预设帧数提取的当前帧；

获得在所述当前图像之前的至少一帧图像中确定为所述待跟踪视觉目标的图像区域作为跟踪视觉目标样本，以及除所述跟踪视觉目标样本之外类别与所述物体类型相同的干扰视觉目标样本；

根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标。

2.根据权利要求1所述的方法，其特征在于，获得视频中待跟踪视觉目标的物体类型，包括：

3.根据权利要求1所述的方法，其特征在于，获得视频中待跟踪视觉目标的物体类型，包括：

4.根据权利要求1所述的方法，其特征在于，在对当前图像进行目标检测，获得类别与所述物体类型相同的多个候选视觉目标之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标，包括：

6.根据权利要求5所述的方法，其特征在于，所述跟踪视觉目标样本和所述干扰视觉目标样本的数量为多个，依次对所述多个候选视觉目标中每个候选视觉目标，分别计算与跟踪视觉目标样本以及与干扰视觉目标样本的相似性，包括：

依次从多个候选视觉目标中获取当前候选视觉目标；

7.根据权利要求5所述的方法，其特征在于，所述跟踪视觉目标样本和所述干扰视觉目标样本的数量为多个，依次对所述多个候选视觉目标中每个候选视觉目标，分别计算与跟踪视觉目标样本以及与干扰视觉目标样本的相似性，包括：

依次从多个候选视觉目标中获取当前候选视觉目标；

8.根据权利要求5所述的方法，其特征在于，第一相似性分数和对应第二相似性分数相差程度包括第一相似性分数和对应第二相似性分数的差值或第一相似性分数和对应第二相似性分数的比值。

9.根据权利要求1所述的方法，其特征在于，根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标，包括：

10.根据权利要求1所述的方法，其特征在于，在第i次执行对当前图像进行目标跟踪过程时，在根据所述多个候选视觉目标分别与所述跟踪视觉目标样本和所述干扰视觉目标样本的相似度，在所述多个候选视觉目标中确定所述待跟踪视觉目标之后，还包括：

11.一种目标跟踪装置，其特征在于，所述装置包括：

12.一种设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其特征在于，

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至10任一所述的方法。

13.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令使所述计算机执行如权利要求1至10任一所述的方法。