CN114494357A

CN114494357A - 目标跟踪方法及其装置、设备、可读存储介质、程序产品

Info

Publication number: CN114494357A
Application number: CN202210357511.3A
Authority: CN
Inventors: 闾凡兵; 麻展畅; 曹达; 秦拯; 姚胜
Original assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Current assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-05-13
Anticipated expiration: 2042-04-07
Also published as: CN114494357B

Abstract

本申请提供了一种目标跟踪方法及其装置、设备、可读存储介质、程序产品。该方法包括：对第i视频帧进行目标检测，得到第i视频帧的目标对象及目标对象的图像区域；将目标对象的图像区域输入至姿态估计模型中，得到目标对象的目标姿态；根据目标姿态，修正目标对象的图像区域；将修正后的目标对象的图像区域输入至目标跟踪模型中，得到第i视频帧的目标对象的跟踪结果。根据本申请实施例，姿态估计模型可以在目标检测结果的基础上得到目标对象的目标姿态，可以根据目标姿态对图像区域进一步修正，得到能够更准确地反映目标对象位置和运动状态的图像区域，进而使得基于修正后的目标对象的图像区域得到的跟踪结果准确度更高。

Description

目标跟踪方法及其装置、设备、可读存储介质、程序产品

技术领域

本申请属于计算机技术领域，尤其涉及一种目标跟踪方法及其装置、设备、可读存储介质、程序产品。

背景技术

目标跟踪对于视频监控以及视频数据结构化有着非常重要的意义。相关技术，目标跟踪通常是基于目标检测算法在每帧图片中找到目标对象的位置，再根据检测结果进行目标跟踪，然而，目前目标检测算法得到的检测结果可能存在不准确的缺陷，导致后续的目标跟踪容易出现跟丢的情况，从而造成目标跟踪准确度较低。

发明内容

本申请实施例提供一种目标跟踪方法及其装置、设备、可读存储介质、程序产品，以解决目标跟踪准确度较低的技术问题。

第一方面，本申请实施例提供一种目标跟踪方法，方法包括：

对第i视频帧进行目标检测，得到所述第i视频帧的目标对象及所述目标对象的图像区域，i为正整数；

将所述目标对象的图像区域输入至姿态估计模型中，得到所述目标对象的目标姿态；

根据所述目标姿态，修正所述目标对象的图像区域；

将修正后的所述目标对象的图像区域输入至目标跟踪模型中，得到所述第i视频帧的目标对象的跟踪结果。

第二方面，本申请实施例提供了一种目标跟踪装置，装置包括：

检测模块，用于对第i视频帧进行目标检测，得到所述第i视频帧的目标对象及所述目标对象的图像区域，i为正整数；

姿态估计模型，用于将所述目标对象的图像区域输入至姿态估计模型中，得到所述目标对象的目标姿态；

修正模型，用于根据所述目标姿态，修正所述目标对象的图像区域；

跟踪模块，用于将修正后的所述目标对象的图像区域输入至目标跟踪模型中，得到所述第i视频帧的目标对象的跟踪结果。

第三方面，本申请实施例提供了一种电子设备，设备包括：

处理器以及存储有程序或指令的存储器；

所述处理器执行所述程序或指令时实现上述的方法。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现上述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行上述方法。

本申请实施例的目标跟踪方法及其装置、设备、可读存储介质、程序产品，能够对第i视频帧进行目标检测，得到第i视频帧的目标对象及目标对象的图像区域，i为正整数；将目标对象的图像区域输入至姿态估计模型中，得到目标对象的目标姿态；根据目标姿态，修正目标对象的图像区域；将修正后的目标对象的图像区域输入至目标跟踪模型中，得到第i视频帧的目标对象的跟踪结果。

这样，姿态估计模型可以在目标检测结果的基础上识别目标对象的图像区域中目标对象的骨骼关节点，得到目标对象的目标姿态，可以根据目标姿态对图像区域进一步修正，得到能够更准确地反映目标对象位置和运动状态的图像区域，进而使得基于修正后的目标对象的图像区域得到的跟踪结果准确度更高。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的目标跟踪方法的流程示意图；

图2是本申请实施例提供的目标跟踪方法的一个场景实施例示意图；

图3是本申请另一个实施例提供的目标跟踪装置的结构示意图；

图4是本申请又一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在相关技术，目标跟踪通常是基于目标检测算法在每帧图片中找到目标对象的位置，再根据检测结果进行目标跟踪。例如目标对象为人体时，目标检测算法大多是检测正常站立与行走姿势的人体，在人体处于例如摔倒、下蹲、弯腰等异常姿势时，目标检测算法可能不能很好的识别出人体，导致检测结果可能存在不准确的缺陷。这样，导致对于目标检测算法作为前置算法，并且对其算法准确度要求较高的目标跟踪算法也出现问题，目标跟踪很容易出现跟丢的情况。

为了解决现有技术问题，本申请实施例提供了一种目标跟踪方法及其装置、设备、可读存储介质、程序产品。下面首先对本申请实施例所提供的目标跟踪方法进行介绍。

图1示出了本申请一个实施例提供的目标跟踪方法的流程示意图。如图1所示，目标跟踪方法可以包括如下步骤：

步骤101，对第i视频帧进行目标检测，得到第i视频帧的目标对象及目标对象的图像区域，i为正整数；

步骤102，将目标对象的图像区域输入至姿态估计模型中，得到目标对象的目标姿态；

步骤103，根据目标姿态，修正目标对象的图像区域；

步骤104，将修正后的目标对象的图像区域输入至目标跟踪模型中，得到第i视频帧的目标对象的跟踪结果。

上述各个步骤的具体实现方式将在下文中进行详细描述。

在本申请实施例中，目标跟踪方法能够

对第i视频帧进行目标检测，得到第i视频帧的目标对象及目标对象的图像区域，i为正整数；将目标对象的图像区域输入至姿态估计模型中，得到目标对象的目标姿态；根据目标姿态，修正目标对象的图像区域；将修正后的目标对象的图像区域输入至目标跟踪模型中，得到第i视频帧的目标对象的跟踪结果。

下面介绍上述各个步骤的具体实现方式。

在步骤101中，可以对第i视频帧进行目标检测，得到第i视频帧的目标对象及目标对象的图像区域。其中，目标对象可以是人、动物或其他移动对象，为了便于理解，以下将以目标对象为人进行说明。

对第i视频帧进行目标检测可以是基于目标检测算法进行检测。目标检测算法可以包括基于Region Proposal网络的R-CNN系算法，例如R-CNN、Fast R-CNN或者Faster R-CNN等二级目标检测算法，其特点是需要先使用启发式方法（selective search）或者CNN网络（RPN）产生候选框（Region Proposal），然后再在Region Proposal上做分类与回归，从而得到目标对象及目标对象的图像区域。目标检测算法还可以包括采用Yolo或者SSD的一级目标检测算法，其仅仅使用一个CNN网络直接预测不同目标对象的类别与位置，从而得到目标对象的图像区域。

示例地，可以采用YoloV3对视频流中的视频帧进行目标检测，得到目标对象及目标对象的图像区域。例如将第i视频帧作为输入图像，得到第i视频帧中每个人体的检测框（即图像区域），每个检测框内的图像区域表示一个人体，并携带该检测框的坐标信息和置信度信息。

在步骤102中，可以将目标检测算法得到的目标对象的图像区域作为姿态估计模型的输入量。其中姿态估计模型可以采用人体姿态估计算法识别人体骨骼关节点。例如，姿态估计模型可以为FastPose单人姿态估计器，将基于目标检测算法得到的检测框输入至FastPose单人姿态估计器中，FastPose单人姿态估计器能够以检测框的区域为依据，进行人体的姿态估计，得到目标对象的骨骼关节点的位置（坐标）和置信度，然后可以根据骨骼关节点的坐标和置信度，确定目标对象的目标姿态。

在步骤103中，得到目标对象的目标姿态后，可以基于目标对象的目标姿态重新调整检测框的坐标信息和置信度信息，即可以修正目标对象的图像区域，使得修正后的图像区域能够更准确的反映人体的位置以及运动状态。

在步骤104中，可以将修正后的目标对象的图像区域作为目标跟踪模型的输入量。其中目标跟踪模型可以采用目标跟踪算法对修正后的目标对象的图像区域进行目标跟踪，得到第i视频帧的目标对象的跟踪结果。可以理解的是，利用姿态估计模型可以得到较高置信度的骨骼关节点，进而可以得到目标对象的目标姿态，再利用目标对象的目标姿态修正基于目标检测得到的目标对象的图像区域，修正后的目标对象的图像区域作为目标跟踪模型的输入，可以很好地解决异常动作的人体跟踪精准度较低的问题。

在一些实施例中，上述步骤104可以具体执行如下步骤：

将修正后的目标对象的图像区域输入至目标跟踪模型中，通过目标跟踪模型执行第一操作，得到第i视频帧的目标对象的跟踪结果；

其中，第一操作可以包括：

获取第i-1视频帧的目标对象的跟踪结果；

对第i-1视频帧的目标对象的跟踪结果与修正后的目标对象的图像区域进行融合，得到第i视频帧的目标对象的跟踪结果。

在本申请实施例中，第i视频帧和第i-1视频帧可以是从视频流中连续获取到的视频帧，则此时第i-1视频帧可以为第i视频帧的上一视频帧。第i视频帧和第i-1视频帧也可以是从视频流中按照预设间隔时间获取到的视频帧，则此时第i-1视频帧可以为与第i视频帧间隔预设间隔时间的上一视频帧。

目标跟踪模型在基于修正后的目标对象的图像区域输出跟踪结果时，可以与第i-1视频帧的目标对象的跟踪结果进行融合。示例地，可以将第i-1个跟踪框与第i个姿态估计框的运动信息（包括速度矢量、检测框变化矢量等）与位置信息进行卡尔曼滤波融合，得到第i个跟踪框，其中第i-1个跟踪框可以为第i-1视频帧的目标对象的跟踪结果，第i个姿态估计框可以为第i视频帧对应的修正后的目标对象的图像区域，第i个跟踪框可以为第i视频帧的目标对象的检测结果。

在一些实施例中，上述步骤101可以具体执行如下步骤：

将第i视频帧输入至目标检测模型中，得到第i视频帧的目标对象及目标对象的初始区域；

获取第i-1视频帧的目标对象的跟踪结果；

对第i-1视频帧的目标对象的跟踪结果与第i视频帧的目标对象的初始区域进行融合，得到第i视频帧的目标对象的图像区域。

在本申请实施例中，可以先将第i视频帧输入至目标检测模型中，目标检测模型可以输出第i视频帧的目标对象的初始区域。可以理解的是，在目标对象正处于例如摔倒等异常动作时，目标检测模型可能无法准确地将目标对象检测出来，导致不能准确地框出人体区域，即目标对象的初始区域不准确，甚至可能造成漏检的情况。基于此，可以将第i-1视频帧的目标对象的跟踪结果与第i视频帧的目标对象的初始区域融合，得到第i视频帧的目标对象的图像区域。

这样，在进行目标检测时，可以根据第i-1视频帧的目标对象的跟踪结果记忆目标对象消失前的所在位置，可以提高目标检测的准确度。随后可以利用姿态估计模型在较准确的目标对象的图像区域的基础上，较快的识别目标对象的骨骼关节点的位置和置信度，进而可以快速地根据骨骼关节点的位置和置信度得到更准确的目标对象的目标姿态。

在一些实施例中，上述步骤102可以具体执行如下步骤：

将目标对象的图像区域输入至姿态估计模型中，通过姿态估计模型执行第二操作，得到目标对象的目标姿态；

其中，第二操作可以包括：

从目标对象的图像区域中识别出目标对象的N个初始姿态，N为大于1的整数；

按照预设的消除规则，消除N个初始姿态中的冗余姿态，得到目标对象的目标姿态。

在本申请实施例中，姿态估计模型可以包括单人姿态估计单元（Single PersonPose Estimation，SPPE）和非最大抑制单元（Parametric Pose Non- Maximum-Suppression，NMS）。

其中，SPPE可以从目标对象的图像区域中识别出第i视频帧的目标对象的N个初始姿态。因为人体检测器不可避免地会产生冗余检测，而冗余检测会产生冗余的姿态估计，因此在SPPE提取出N个初始姿态后，可以通过NMS消除冗余的姿态估计，即可以通过NMS消除N个初始姿态中的冗余姿态，得到目标姿态。

这样，姿态估计模型可以在消除掉冗余姿态，仅输出目标对象更准确的目标姿态，有效排除了干扰项，使得后续基于目标姿态修正的目标对象的图像区域更准确，从而使得基于修正后的目标对象的图像区域得到的跟踪结果准确度更高。

在一些实施例中，初始姿态可以包括多个骨骼关节点的位置和置信度，上述按照预设的消除规则，消除N个初始姿态中的冗余姿态，得到目标对象的目标姿态，具体可以执行如下步骤：

确定N个初始姿态中置信度满足预设置信条件的基准姿态；

根据基准姿态的多个骨骼关节点的位置和置信度，以及N-1个初始姿态中各初始姿态的多个骨骼关节点的位置和置信度，计算得到与N-1个初始姿态一一对应的N-1个目标距离，其中，第一初始姿态对应的目标距离为第一初始姿态与基准姿态之间的目标距离，第一初始姿态为N-1个初始姿态中任一初始姿态，N-1个初始姿态为N个初始姿态中除了基准姿态外的初始姿态；

根据N-1个目标距离，确定目标对象的目标姿态。

在本申请实施例中，初始姿态可以包括多个骨骼关节点的位置和置信度。预设的消除规则可以是把置信度分数最高的姿态作为基准，重复消除接近基准姿态的姿态，直到剩下单一的姿态。

示例地，可以确定N个初始姿态中置信度最高的基准姿态，根据基准姿态的多个骨骼关节点的位置和置信度，以及第一初始姿态的多个骨骼关节点的位置和置信度，计算得到基准姿态与第一初始姿态之间的目标距离，第一初始姿态可以为除了基准姿态外的任一初始姿态。

在基准姿态与第一初始姿态之间的目标距离小于或等于阈值的情况下，可以认为第一初始姿态与基准姿态过于相似，需要被消除。若基准姿态与第一初始姿态之间的目标距离大于阈值，则可以认为第一初始姿态与基准姿态不相似，第一初始姿态不是冗余姿态，可能是另一个目标对象的姿态，此时不消除。

根据预设的消除规则将靠近基准姿态的冗余姿态进行删除，重复若干次，每个目标对象的冗余姿态均被消除并且每个目标对象的目标姿态均唯一。可以理解的是，若第i视频帧中只有一个目标对象，则可以认为基准姿态为目标姿态，若第i视频帧中有多个目标对象，即目标姿态的数量应该与目标对象的数量相同。

在一些实施例中，根据基准姿态的多个骨骼关节点的位置和置信度，以及第一初始姿态的多个骨骼关节点的位置和置信度，计算得到第一初始姿态对应的目标距离，具体可以执行如下步骤：

根据基准姿态的多个骨骼关节点的位置和置信度，以及第一初始姿态的多个骨骼关节点的位置和置信度，计算基准姿态与第一初始姿态之间的姿态距离；

根据基准姿态的多个骨骼关节点的位置，以及第一初始姿态的多个骨骼关节点的位置，计算基准姿态与第一初始姿态之间的空间距离；

根据姿态距离和空间距离，确定第一初始姿态对应的目标距离。

消除冗余姿态的具体公式可以如公式（1）所示：

（1）

其中，d()作为姿态之间的距离度量，η作为消除标准的阈值，Λ表示函数d()的参数集合。公式（1）的意义可以为：计算第一初始姿态P _i与基准姿态P _j之间的目标距离，d(P _i， P _j |Λ, η)即可以表示第一初始姿态P _i与基准姿态P _j之间的目标距离，f(P _i ,P _j |Λ,η)表示若d (P _i， P _j |Λ, η)≤η，则取值为1，同时表示第一初始姿势P _i冗余，需要被消除。

目标距离可以包括姿态距离和空间距离，姿态距离可以用于衡量基准姿态与第一初始姿态之间的姿态相似度，空间距离可以用于衡量基准姿态与第一初始姿态之间的空间相似度。

可以根据基准姿态的多个骨骼关节点的位置和置信度，以及第一初始姿态的多个骨骼关节点的位置和置信度，计算基准姿态与第一初始姿态之间的姿态距离，姿态距离的具体计算公式可以如公式（2）所示：

（2）

其中，K _sim (P _i ,P _j |σ ₁ )为第一初始姿态P _i和基准姿态P _j的姿态距离函数，对于第一初始姿态P _i，多个骨骼关节点可以表示为

，

可以分别表示为第j个关健点的位置和置信度。

可以表示以

为中心的检测框，σ ₁为归一化参数，对每个骨骼关节点的置信度归一化到一个统一的变化范围。

可以根据基准姿态的多个骨骼关节点的位置，以及第一初始姿态的多个骨骼关节点的位置，计算基准姿态与第一初始姿态之间的空间距离。空间距离的具体计算公式可以如公式（3）所示：

（3）

其中，H _sim (P _i ,P _j |σ ₂ )为第一初始姿态P _i和基准姿态P _j的空间距离函数，对于第一初始姿态P _i，

可以表示为第j个关健点的位置。σ ₂为归一化参数，对每个骨骼关节点的位置归一化到一个统一的变化范围。

可以根据姿态距离和空间距离，确定第一初始姿态对应的目标距离。目标距离的公式可以如公式（4）所示：

（4）

其中，K_sim表示姿态距离，H_sim表示空间距离，λ为平衡距离和空间距离的权重。

为了便于理解上述实施例提供的目标跟踪方法，以下以一个具体的场景实施例对上述目标跟踪方法进行说明。图2示出了上述目标跟踪方法的场景实施例流程图。

如图2所示，该场景实施例的场景可以为第i视频帧为当前视频帧，第i-1视频帧为当前视频帧的上一视频帧，该场景实施例可以执行如下步骤：

步骤201，将当前视频帧输入至目标检测模型，得到目标对象的初始区域。示例地，目标检测模型可以输出初始检测框。

步骤202，对目标对象的初始区域与上一视频帧的跟踪结果进行融合，得到目标对象的图像区域。示例地，上一视频帧的跟踪结果可以记忆目标对象在上一视频帧中的所在位置，将初始检测框与上一视频帧的跟踪结果做融合，可以得到更准确的目标检测框，这样就算目标检测模型无法识别出摔倒或其他异常动作的人目标对象，但也可以检测出目标对象大致的图像区域。

步骤203，将融合后的目标对象的图像区域输入至姿态估计模型，得到目标对象的目标姿态，并根据目标姿态修正目标对象的图像区域。示例地，目标对象的图像区域输入至姿态估计模型中，因为姿态估计模型具有较好的鲁棒性，可以对目标对象的骨骼关节点有较高的置信度，因此可以通过SPPE识别出多个初始姿态，在通过NMS消除冗余姿态，得到目标对象的目标姿态，并根据目标姿态修正目标对象的图像区域的位置，即可以得到修正后的目标对象的图像区域。

步骤204，将修正后的目标对象的图像区域输入至目标跟踪模型，修正后的目标对象的图像区域与上一帧视频帧的跟踪结果进行融合。示例地，目标跟踪模型可以将上一视频帧的目标对象的预测框（即跟踪结果）与修正后的目标对象的图像区域的运动信息（包括速度矢量、检测框变化矢量等信息）和位置信息进行卡尔曼滤波融合，得到目标对象的运动轨迹。

步骤205，输出当前视频帧的跟踪结果。示例地，可以根据目标对象的运动轨迹进行预测，得到当前视频帧的目标对象的预测框。

本场景实施例可以通过姿态估计模型优化目标检测框，从而提高跟踪算法对于异常人体姿势的鲁棒性，避免人体在做出异常动作时丢失跟踪的情况。该目标跟踪方法在用于异常动作检测的算法中具有较好的适用性，例如摔倒检测、体育运动跟踪等项目中，都能显著提高最终的结果。

基于上述实施例提供的目标跟踪方法，本申请还提供了一种目标跟踪装置的实施例。

图3示出了本申请另一个实施例提供的目标跟踪装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图3，目标跟踪装置300可以包括：

检测模块301，用于对第i视频帧进行目标检测，得到第i视频帧的目标对象及目标对象的图像区域，i为正整数；

姿态估计模块302，用于将目标对象的图像区域输入至姿态估计模型中，得到目标对象的目标姿态；

修正模块303，用于根据目标姿态，修正目标对象的图像区域

跟踪模块304，用于将修正后的目标对象的图像区域输入至目标跟踪模型中，得到第i视频帧的目标对象的跟踪结果。

在一些实施例中，跟踪模块304还用于可以：

将修正后的所述目标对象的图像区域输入至目标跟踪模型中，通过目标跟踪模型执行第一操作，得到第i视频帧的目标对象的跟踪结果；

其中，第一操作可以包括：

获取第i-1视频帧的目标对象的跟踪结果；

在一些实施例中，检测模块301还用于可以：

获取第i-1视频帧的目标对象的跟踪结果；

对第i-1视频帧的目标对象的跟踪结果与目标对象的初始区域进行融合，得到第i视频帧的目标对象的图像区域。

在一些实施例中，姿态估计模块302还用于可以：

其中，第二操作可以包括：

从目标对象的图像区域中识别出第i视频帧的目标对象的N个初始姿态，N为大于1的整数；

在一些实施例中，初始姿态可以包括多个骨骼关节点的位置和置信度，姿态估计模块302还用于可以：

确定N个初始姿态中置信度满足预设置信条件的基准姿态；

根据N-1个目标距离，确定目标对象的目标姿态。

在一些实施例中，姿态估计模块302还用于可以：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，与本申请方法实施例基于同一构思，是与上述目标跟踪方法对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4示出了本申请又一个实施例提供的电子设备的硬件结构示意图。

设备可以包括处理器401以及存储有程序或指令的存储器402。

处理器401执行程序时实现上述任意各个方法实施例中的步骤。

示例性的，程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列程序指令段，该指令段用于描述程序在设备中的执行过程。

具体地，上述处理器401可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit ，ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器（Hard Disk Drive，HDD）、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线（Universal Serial Bus，USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。

存储器可包括只读存储器（ROM），随机存取存储器（RAM），磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形（非暂态）可读存储介质（例如，存储器设备），并且当该软件被执行（例如，由一个或多个处理器）时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。

处理器401通过读取并执行存储器402中存储的程序或指令，以实现上述实施例中的任意一种方法。

在一个示例中，电子设备还可包括通信接口403和总线410。其中，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口（AGP）或其他图形总线、增强工业标准架构（EISA）总线、前端总线（FSB）、超传输（HT）互连、工业标准架构（ISA）总线、无限带宽互连、低引脚数（LPC）总线、存储器总线、微信道架构（MCA）总线、外围组件互连（PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（SATA）总线、视频电子标准协会局部（VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有程序或指令；该程序或指令被处理器执行时实现上述实施例中的任意一种方法。该可读存储介质可以被如计算机等机器读取。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在可读存储介质中，该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网格被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置（系统）和程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序或指令实现。这些程序或指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

根据所述目标姿态，修正所述目标对象的图像区域；

2.根据权利要求1所述的方法，其特征在于，所述将修正后的所述目标对象的图像区域输入至目标跟踪模型中，得到所述第i视频帧的目标对象的跟踪结果，包括：

将修正后的所述目标对象的图像区域输入至目标跟踪模型中，通过所述目标跟踪模型执行第一操作，得到所述第i视频帧的目标对象的跟踪结果；

其中，所述第一操作包括：

获取第i-1视频帧的目标对象的跟踪结果；

对所述第i-1视频帧的目标对象的跟踪结果与所述修正后的所述目标对象的图像区域进行融合，得到所述第i视频帧的目标对象的跟踪结果。

3.根据权利要求1所述的方法，其特征在于，所述对第i视频帧进行目标检测，得到所述第i视频帧的目标对象及所述目标对象的图像区域，包括：

将第i视频帧输入至目标检测模型中，得到所述第i视频帧的目标对象及所述目标对象的初始区域；

获取第i-1视频帧的目标对象的跟踪结果；

对所述第i-1视频帧的目标对象的跟踪结果与所述目标对象的初始区域进行融合，得到所述第i视频帧的目标对象的图像区域。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标对象的图像区域输入至姿态估计模型中，得到所述目标对象的目标姿态，包括：

将所述目标对象的图像区域输入至姿态估计模型中，通过所述姿态估计模型执行第二操作，得到所述目标对象的目标姿态；

其中，所述第二操作包括：

从所述目标对象的图像区域中识别出所述目标对象的N个初始姿态，N为大于1的整数；

按照预设的消除规则，消除所述N个初始姿态中的冗余姿态，得到所述目标对象的目标姿态。

5.根据权利要求4所述的方法，其特征在于，所述初始姿态包括多个骨骼关节点的位置和置信度；

所述按照预设的消除规则，消除所述N个初始姿态中的冗余姿态，得到所述目标对象的目标姿态，包括：

确定所述N个初始姿态中所述置信度满足预设置信条件的基准姿态；

根据所述基准姿态的多个骨骼关节点的位置和置信度，以及N-1个初始姿态中各初始姿态的多个骨骼关节点的位置和置信度，计算得到与所述N-1个初始姿态一一对应的N-1个目标距离，其中，第一初始姿态对应的目标距离为所述第一初始姿态与所述基准姿态之间的目标距离，所述第一初始姿态为所述N-1个初始姿态中任一初始姿态，所述N-1个初始姿态为所述N个初始姿态中除了所述基准姿态外的初始姿态；

根据所述N-1个目标距离，确定所述目标对象的目标姿态。

6.根据权利要求5所述的方法，其特征在于，根据所述基准姿态的多个骨骼关节点的位置和置信度，以及第一初始姿态的多个骨骼关节点的位置和置信度，计算得到所述第一初始姿态对应的目标距离，包括：

根据所述基准姿态的多个骨骼关节点的位置和置信度，以及第一初始姿态的多个骨骼关节点的位置和置信度，计算所述基准姿态与所述第一初始姿态之间的姿态距离；

根据所述基准姿态的多个骨骼关节点的位置，以及所述第一初始姿态的多个骨骼关节点的位置，计算所述基准姿态与所述第一初始姿态之间的空间距离；

根据所述姿态距离和所述空间距离，确定所述第一初始姿态对应的目标距离。

7.一种目标跟踪装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，所述设备包括：处理器以及存储有程序或指令的存储器；

所述处理器执行所述程序或指令时实现如权利要求1-6任意一项所述的方法。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1-6任意一项所述的方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-6任意一项所述的方法。