CN114359335A

CN114359335A - 一种目标跟踪方法及电子设备

Info

Publication number: CN114359335A
Application number: CN202011066347.8A
Authority: CN
Inventors: 张雅琪; 张超; 徐健; 刘宏马
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-15
Also published as: EP4209996A4; EP4209996A1; WO2022068522A1

Abstract

本申请公开了一种目标跟踪方法及电子设备。该方法包括：电子设备显示第N帧图像，并在第N帧图像中确定跟踪目标。然后电子设备将跟踪目标划分成多张跟踪目标图像。电子设备对多张跟踪目标图像中每一张图像进行特征提取，得到跟踪目标的多个跟踪目标特征。接着，电子设备显示第N+1帧图像。电子设备检测出第N+1帧图像中的候选目标。电子设备将候选目标划分为多张候选目标图像。电子设备对每一张候选目标图像进行特征提取，得到候选目标的候选目标特征。若多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征相匹配，电子设备确定候选目标为跟踪目标。这样，可以提高电子设备进行目标跟踪的准确率。

Description

一种目标跟踪方法及电子设备

技术领域

本申请涉及终端及图像处理领域，尤其涉及使用一种目标跟踪方法及电子设备。

背景技术

随着图像处理技术的不断发展，目标跟踪在智能视频监控、自动驾驶和无人超市等领域广泛应用。一般地，电子设备可以在获取到的一帧图像中确定跟踪目标。电子设备可以保存跟踪目标的特征。然后，电子设备将当前图像帧中的候选目标的特征和已保存的跟踪目标的特征进行特征匹配。若候选目标的特征和已保存的跟踪目标的特征匹配，则电子设备确定当前图像帧中的候选目标为跟踪目标。

但是，当前图像帧中的跟踪目标出现部分遮挡、或者消失重现、发生变形等情况时，电子设备可能无法确定当前图像帧的跟踪目标。这样，电子设备容易出现目标跟踪失败，导致目标跟踪的准确率不高。

由此，在跟踪目标出现部分遮挡、或者消失重现、发生变形等情况时，如何提高目标跟踪的准确率是亟待解决的问题。

发明内容

本申请实施例提供了一种目标跟踪方法及电子设备，该电子设备在进行目标跟踪的过程中使用该方法可以提高目标跟踪的准确率。

第一方面，本申请提供了一种目标跟踪方法，该方法包括：电子设备显示第一用户界面，第一用户界面中显示第M帧图像，第M帧图像中包含有跟踪目标；电子设备获取跟踪目标的多个跟踪目标特征；电子设备显示第二用户界面，第二用户界面中显示第K帧图像，第K帧图像中包含有第一候选目标；第K帧图像为第M帧图像之后的图像帧；电子设备获取第一候选目标的多个候选目标特征；当多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，电子设备确定第一候选目标为跟踪目标。

这样，当跟踪目标和候选目标是同一个对象，但是包含了该对象的部分不完全相同，电子设备也可以准确地进行目标跟踪，确认出该候选目标即为跟踪目标。例如，当跟踪目标为全身的人物A时，电子设备可以保存人物A肩部以上的身体部分对应图像的特征，人物A髋部以上的身体部分对应图像的特征，人物A膝盖以上的身体部分对应图像的特征、人物A从头部到脚部的全身部分对应图像的特征。当候选目标为只出现肩部以上身体部分的人物A时，电子设备可以将两帧图像中人物A肩部以上的身体部分对应图像的特征进行匹配。而不是将前一帧图像中人物A髋部以上的身体部分对应图像的特征，与后一帧图像中人物A肩部以上的身体部分对应图像的特征。这样，可以提高电子设备目标跟踪的准确率。

结合第一方面，在一种可能的实现方式中，电子设备获取跟踪目标的多个跟踪目标特征，具体包括：电子设备根据跟踪目标获取多个跟踪目标图像，跟踪目标图像包含跟踪目标的部分或全部；电子设备对多个跟踪目标图像进行特征提取，得到多个跟踪目标特征，其中，多个跟踪目标特征的数量等于多个跟踪目标图像的数量。这样，电子设备可以保存跟踪目标的多个特征。

结合第一方面，在一种可能的实现方式中，电子设备将跟踪目标分成多个跟踪目标图像，具体包括：电子设备根据跟踪目标的关键点获取跟踪目标的多个跟踪目标图像，跟踪目标图像中包含跟踪目标的一个或多个关键点。这样，电子设备可以根据跟踪目标的关键点将跟踪目标得到多个跟踪目标图像。

结合第一方面，在一种可能的实现方式中，多个跟踪目标图像中包含第一跟踪目标图像和第二跟踪目标图像，其中：第一跟踪目标图像和第二跟踪目标图像包含有相同的跟踪目标的关键点，且第二跟踪目标图像包含的跟踪目标的关键点多于第一跟踪目标图像包含的跟踪目标的关键点；或，第一跟踪目标图像包含的跟踪目标的关键点与第二跟踪目标图像包含的跟踪目标的关键点不同。

这样，电子设备得到多个跟踪目标图像之间可以包含有相同的一些关键点。或者电子设备得到的多个跟踪目标图像之间没有包含相同的关键点。例如，电子设备根据完整的人物A可以得到人物A肩部以上的身体部分的图像，人物A髋部以上的身体部分的图像，人物A膝盖以上的身体部分的图像、人物A从头部到脚部的全身部分的图像。或者，电子设备根据完整人物A可以得到仅包含人物A的头部的图像，仅包含人物A的上半身(即肩部到髋部之间，不包括髋部的身体部分)，仅包含人物A的下半身(即髋部到脚之间，不包括脚的身体部分)的图像、仅包含人物A的脚的图像。

结合第一方面，在一种可能的实现方式中，电子设备获取第一候选目标的多个候选目标特征，包括：电子设备根据第一候选目标获取多个候选目标图像；多个候选目标图像包含第一候选目标的部分或全部；电子设备对多个候选目标图像分别进行特征提取，得到多个候选目标特征，多个候选目标特征的数量等于多个候选目标特征的数量。这样，电子设备可以得到第一候选目标对应的多个特征。

结合第一方面，在一种可能的实现方式中，电子设备将第一候选目标分成多个候选目标图像，具体包括：电子设备根据第一候选目标的关键点获取多个候选目标图像，候选目标图像包含第一候选目标的一个或多个关键点。这样，电子设备可以根据第一候选目标的关键点得到多个候选目标图像。

结合第一方面，在一种可能的实现方式中，多个候选目标图像包括第一候选目标图像和第二候选目标图像，其中：第一候选目标图像和第二候选目标图像包含有相同的第一候选目标的关键点，且第二候选目标图像包含的第一候选目标的关键点多于第一候选目标图像包含的第一候选目标的关键点；或，第一候选目标图像包含的第一候选目标的关键点与第二候选目标图像包含的第一候选目标的关键点不同。这样，多个候选目标图像之间可以包含有相同的关键点。或者，多个候选目标图像之间没有包含相同的关键点。

结合第一方面，在一种可能的实现方式中，多个跟踪目标图像包含第一跟踪目标图像和第二跟踪目标图像，多个跟踪目标图像从跟踪目标获取；多个候选目标图像包括第一候选目标图像和第二候选目标图像，多个候选目标图像从第一候选目标获取；第一跟踪目标图像中包含的跟踪目标的关键点的数量与第一候选目标图像中包含的第一候选目标的关键点的数量相同；第二跟踪目标图像中包含的跟踪目标的关键点的数量与第二候选目标图像中包含的第一候选目标的关键点的数量相同；第一跟踪目标图像中包含的跟踪目标关键点的数量大于第二跟踪目标图像中包含的跟踪目标关键点的数量；第一跟踪目标特征为第一跟踪目标图像提取的，第一候选目标特征为从第一候选目标图像中提取的。这样，电子设备能够更为准确地确定出第一候选目标特征与第一跟踪目标特征匹配。从而，电子设备可以更为准确地确定出第一候选目标即为跟踪目标。

结合第一方面，在一种可能的实现方式中，当多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，电子设备确定第一候选目标为跟踪目标之后，方法还包括：电子设备将第二候选目标保存到保存有多个跟踪目标特征的特征库中；第二候选特征为电子设备从多个候选目标图像中的第三候选目标图像中提取的；第三候选目标图像中包含的第一候选目标的关键点的数量多于多个跟踪目标图像包含的所述跟踪目标的关键点的数量。

电子设备可以将第一候选目标对应的特征添加到跟踪目标的特征库中。这样，跟踪目标对应的特征增多。例如，假设跟踪目标是只出现上半身的人物A。第一候选目标为全身的人物A，电子设备可以将人物A下半身身体部分对应的特征添加到跟踪目标的特征库中。当后续的图像帧中只出现下半身的人物A(例如人物A的上半身被遮挡)时，电子设备也可以通过只匹配人物A下半身的身体部位对应图像的特征。电子设备也可以准确进行目标跟踪。这样，提升了电子设备在后续图像帧中进行目标跟踪的准确率。

结合第一方面，在一种可能的实现方式中，当多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，电子设备确定第一候选目标为跟踪目标之后，该方法还包括：若M与K的差值等于预设阈值，电子设备将第一候选目标特征保存到保存有多个跟踪目标特征的特征库中。即电子设备每隔预设阈值的图像帧之后，电子设备会更新保存的跟踪目标的特征。这样，电子设备可以更为准确地在后续图像帧中进行目标跟踪。

结合第一方面，在一种可能的实现方式中，电子设备将第一候选目标特征保存到保存有多个跟踪目标特征的特征库中，具体包括：电子设备将保存有多个跟踪目标特征的特征库中的第一跟踪目标特征替换为第一候选目标特征。电子设备可以更新保存的跟踪目标的特征。这样，电子设备可以更为准确地在后续图像帧中进行目标跟踪。

结合第一方面，在一种可能的实现方式中，该方法还包括：电子设备在第M帧图像中检测到跟踪目标；电子设备在第一用户界面中显示检测框，检测框用于圈定跟踪目标；电子设备接收第一用户操作，第一操作用于在第一用户界面中选定跟踪目标；响应于第一用户操作，电子设备确定跟踪目标。这样，电子设备可以准确地确定出用户指定的跟踪目标。

结合第一方面，在一种可能的实现方式中，该方法还包括：电子设备在第K帧图像中检测到一个或多个候选目标，一个或多个候选目标中包含第一候选目标；一个或多个候选目标与跟踪目标的属性相同。这样，可以确保电子设备检测出的候选目标和跟踪目标是同一个物种。

第二方面，本申请实施例提供了一种目标跟踪方法，该方法包括：电子设备显示第一用户界面，第一用户界面中显示第N帧图像，第N帧图像包含有跟踪目标；电子设备在第一用户界面中确定跟踪目标以及跟踪目标的第一位姿；电子设备对跟踪目标进行特征提取，得到并保存跟踪目标对应的跟踪目标特征；电子设备显示第二用户界面，第二用户界面中显示第N+1帧图像，第N+1帧图像中包含有一个或多个候选目标；电子设备确定一个或多个候选目标的第二位姿并对候选目标进行特征提取得到候选目标特征；电子设备确定一个或多个候选目标中的第一候选目标为跟踪目标，若第一位姿和第二位姿不同，电子设备将候选目标特征保存到跟踪目标对应的特征库中，特征库中保存有跟踪目标特征。

实施本申请实施例，电子设备可以对指定的对象(例如人物)进行目标跟踪，跟踪目标可能会发生形变。例如，跟踪目标为人物时，人物可以从蹲着的位姿变换成坐在的位姿、或者站着的位姿。即在连续的图像帧中跟踪目标的位姿会发生改变。由于电子设备可以将跟踪目标不同位姿时对应的特征均保存到跟踪目标对应的特征库中。当第N帧图像和第N+1帧图像同一个人物的位姿发生改变时，电子设备也可以准确地在第N+1帧图像中检测出用户在第N帧图像中指定的跟踪目标。这样，提升了电子设备进行目标跟踪的准确率。

结合第二方面，在一种可能的实现方式中，若跟踪目标的第一位姿和第一候选目标的第二位姿相同，电子设备可以将跟踪目标特征和候选目标特征进行特征匹配。若候选目标特征和跟踪目标特征匹配，电子设备确定第一候选目标为跟踪目标。

结合第二方面，在一种可能的实现方式中，若第N+1帧图像中有多个候选目标，电子设备可以获取跟踪目标在第N帧图像中的位置，例如跟踪目标的中心在第N帧图像的第一位置。电子设备可以获取第一候选目标在第N+1帧图像中的位置，例如第一候选目标的中心在第N+1帧图像中的第二位置。若第一位置和第二位置的预设距离小于预设距离，电子设备可以确定第一候选目标为跟踪目标。

结合第二方面，在一种可能的实现方式中，若电子设备保存了跟踪目标在不同位姿时的特征，电子设备可以将保存的跟踪目标特征中位姿与第一候选目标的第二位姿相同的特征向量与候选目标特征进行特征匹配，若匹配，则电子设备确定第一候选目标为跟踪目标。

第三方面，提供了一种电子设备，该电子设备可以包括：显示屏、处理器、存储器；该存储器与该处理器耦合；该显示屏于该处理器耦合，其中：

该显示屏用于显示第一用户界面，第一用户界面中显示第M帧图像，第M帧图像中包含有跟踪目标；显示第二用户界面，第二用户界面中显示第K帧图像，第K帧图像中包含有第一候选目标；

该处理器用于获取跟踪目标的多个跟踪目标特征；获取第一候选目标的多个候选目标特征；当多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，确定第一候选目标为跟踪目标；

存储器用于保存所述多个跟踪目标特征。

结合第三方面，在一种可能的实现方式中，处理器具体用于：根据跟踪目标获取多个跟踪目标图像，跟踪目标图像包含跟踪目标的部分或全部；对多个跟踪目标图像进行特征提取，得到多个跟踪目标特征，其中，多个跟踪目标特征的数量等于多个跟踪目标图像的数量。这样，电子设备可以保存跟踪目标的多个特征。

结合第三方面，在一种可能的实现方式中，处理器具体用于：根据跟踪目标的关键点获取多个跟踪目标图像，跟踪目标图像中包含跟踪目标的一个或多个关键点。这样，电子设备可以根据候选目标的关键点得到多个候选目标图像。

结合第三方面，在一种可能的实现方式中，多个跟踪目标图像中包含第一跟踪目标图像和第二跟踪目标图像，其中：第一跟踪目标图像和第二跟踪目标图像包含有相同的跟踪目标的关键点，且第二跟踪目标图像包含的跟踪目标的关键点多于第一跟踪目标图像包含的跟踪目标的关键点；或，第一跟踪目标图像包含的跟踪目标的关键点与第二跟踪目标图像包含的跟踪目标的关键点不同。

结合第三方面，在一种可能的实现方式中，处理器用于：根据第一候选目标获取多个候选目标图像；多个候选目标图像包含第一候选目标的部分或全部；对多个候选目标图像分别进行特征提取，得到多个候选目标特征，多个候选目标特征的数量等于多个候选目标特征的数量。这样，电子设备可以得到第一候选目标对应的多个特征。

结合第三方面，在一种可能的实现方式中，处理器具体用于：根据第一候选目标的关键点获取多个候选目标图像，候选目标图像包含第一候选目标的一个或多个关键点。这样，电子设备可以根据第一候选目标的关键点得到多个候选目标图像。

结合第三方面，在一种可能的实现方式中，多个候选目标图像包括第一候选目标图像和第二候选目标图像，其中：第一候选目标图像和第二候选目标图像包含有相同的第一候选目标的关键点，且第二候选目标图像包含的第一候选目标的关键点多于第一候选目标图像包含的第一候选目标的关键点；或，第一候选目标图像包含的第一候选目标的关键点与第二候选目标图像包含的第一候选目标的关键点不同。这样，多个候选目标图像之间可以包含有相同的关键点。或者，多个候选目标图像之间没有包含相同的关键点。

结合第三方面，在一种可能的实现方式中，多个跟踪目标图像包含第一跟踪目标图像和第二跟踪目标图像，多个跟踪目标图像从跟踪目标获取；多个候选目标图像包括第一候选目标图像和第二候选目标图像，多个候选目标图像从第一候选目标获取；第一跟踪目标图像中包含的跟踪目标的关键点的数量与第一候选目标图像中包含的第一候选目标的关键点的数量相同；第二跟踪目标图像中包含的跟踪目标的关键点的数量与第二候选目标图像中包含的第一候选目标的关键点的数量相同；第一跟踪目标图像中包含的跟踪目标关键点的数量大于第二跟踪目标图像中包含的跟踪目标关键点的数量；第一跟踪目标特征为第一跟踪目标图像提取的，第一候选目标特征为从第一候选目标图像中提取的。这样，电子设备能够更为准确地确定出第一候选目标特征与第一跟踪目标特征匹配。从而，电子设备可以更为准确地确定出第一候选目标即为跟踪目标。

结合第三方面，在一种可能的实现方式中，存储器用于：将第二候选目标保存到保存有多个跟踪目标特征的特征库中；第二候选特征为处理器从多个候选目标图像中的第三候选目标图像中提取的；第三候选目标图像中包含的第一候选目标的关键点的数量多于多个跟踪目标图像包含的跟踪目标的关键点的数量。

结合第三方面，在一种可能的实现方式中，存储器用于：若M与K的差值等于预设阈值，将第一候选目标特征保存到保存有多个跟踪目标特征的特征库中。即电子设备每隔预设阈值的图像帧之后，电子设备会更新保存的跟踪目标的特征。这样，电子设备可以更为准确地在后续图像帧中进行目标跟踪。

结合第三方面，在一种可能的实现方式中，存储器用于：将保存有多个跟踪目标特征的特征库中的第一跟踪目标特征替换为第一候选目标特征。电子设备可以更新保存的跟踪目标的特征。这样，电子设备可以更为准确地在后续图像帧中进行目标跟踪。

第四方面，提供一种电子设备，包括一个或多个触摸屏，一个或多个存储模块，一个或多个处理模块；其中所述一个或多个储存模块存储有一个或多个程序；当所述一个或多个处理模块在执行所述一个或多个程序时，使得所述电子设备实现如第一方面中或第二方面中任一种可能的实现方式的所述的方法。

第五方面，提供一种电子设备，包括一个或多个触摸屏，一个或多个存储器，一个或多个处理器；其中所述一个或多个储存器存储有一个或多个程序；当所述一个或多个处理器在执行所述一个或多个程序时，使得所述电子设备实现如第一方面中或第二方面中任一种可能的实现方式的所述的方法。

第六方面，提供一种计算机可读存储介质，包括指令，其特征在于，当上述指令在电子设备上运行时，以使得电子设备执行如第一方面中或第二方面中任一种可能的实现方式。

第七方面，提供一种计算机产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面中或第二方面中任一种可能的实现方式。

附图说明

图1是本申请实施例提供的平板电脑10的用户界面示意图；

图2是本申请实施例提供的平板电脑10的用户界面示意图；

图3是本申请实施例提供的平板电脑10的用户界面示意图；

图4是本申请实施例提供的平板电脑10的用户界面示意图；

图5A-图5B是本申请实施例提供的平板电脑10的用户界面示意图；

图6是本申请实施例提供的平板电脑10的用户界面示意图；

图7是本申请实施例提供的平板电脑10的用户界面示意图；

图8是本申请实施例提供的平板电脑10的用户界面示意图；

图9是本申请实施例提供的平板电脑10的用户界面示意图；

图10是本申请实施例提供的平板电脑10的用户界面示意图；

图11是本申请实施例提供的跟踪目标以及跟踪目标对应特征的示意图；

图12是本申请实施例提供的平板电脑10未检测到跟踪目标的用户界面示意图；

图13为本申请实施例中提供的第N+1帧图像中人物A以及人物A对应特征的示意图；

图14为本申请实施例中提供的第N+1帧图像中人物A以及人物A对应特征的示意图；

图15为本申请实施例中提供的人体关键点示意图；

图16为本申请实施例提供的跟踪目标、跟踪目标对应输入图像，输入图像对应特征的示意图；

图17为本申请实施例提供的平板电脑10检测到跟踪目标的用户界面示意图；

图18为本申请实施例提供的候选目标人物A、候选目标人物A对应输入图像，输入图像对应特征的示意图；

图19为本申请实施例提供的候选目标人物B、候选目标人物B对应输入图像，输入图像对应特征的示意图；

图20为本申请实施例提供的一种目标跟踪方法流程示意图；

图21为本申请实施例提供的一种选定跟踪目标的用户界面示意图；

图22为本申请实施例提供的跟踪目标、跟踪目标对应输入图像，输入图像对应特征的示意图；

图23为本申请实施例提供的一种目标跟踪方法流程示意图；

图24为本申请实施例不同位姿的人物A的图像、以及不同位姿的人物A对应特征的流程示意图；

图25为本申请实施例提供的跟踪目标、以及跟踪目标对应特征的示意图；

图26为本申请实施例提供的候选目标、以及候选目标对应特征的示意图；

图27为本申请实施例提供的跟踪目标、以及跟踪目标对应特征的示意图；

图28为本申请实施例提供的跟踪目标、以及跟踪目标对应特征的示意图；

图29为本申请实施例提供的电子设备的硬件结构示意图；

图30为本申请实施例提供的电子设备的软件框架示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请的说明书和权利要求书及附图中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。应用程序的用户界面是通过java、可扩展标记语言(extensible markup language，XML)等特定计算机语言编写的源代码，界面源代码在终端设备上经过解析，渲染，最终呈现为用户可以识别的内容，比如图像、文本、按钮等控件。控件(control)也称为部件(widget)，是用户界面的基本元素，典型的控件有工具栏(toolbar)、菜单栏(menu bar)、输入框、按钮(button)、滚动条(scrollbar)、图像和文本。界面中的控件的属性和内容是通过标签或者节点来定义的，比如XML通过<Textview>、<ImgView>、<VideoView>等节点来规定界面所包含的控件。一个节点对应界面中一个控件或属性，节点经过解析和渲染之后呈现为用户可视的内容。此外，很多应用程序，比如混合应用(hybrid application)的界面中通常还包含有网页。网页，也称为页面，可以理解为内嵌在应用程序界面中的一个特殊的控件，网页是通过特定计算机语言编写的源代码，例如超文本标记语言(hyper text markup language，HTML)，层叠样式表(cascading stylesheets，CSS)，java脚本(JavaScript，JS)等，网页源代码可以由浏览器或与浏览器功能类似的网页显示组件加载和显示为用户可识别的内容。网页所包含的具体内容也是通过网页源代码中的标签或者节点来定义的，比如HTML通过<p>、<img>、<video>、<canvas>来定义网页的元素和属性。

用户界面常用的表现形式是图形用户界面(graphic user interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个窗口、控件等界面元素。

为了便于理解，下面先对本申请实施例涉及的相关术语及概念进行介绍。

(1)目标跟踪

电子设备的显示屏中显示有连续的图像帧。该图像帧可以为电子设备中的摄像头获取到的。或者该图像帧可以为视频监控设备发送给电子设备的。用户可以在电子设备显示的连续的图像帧中的第N帧中选定跟踪目标。本申请实施例中的目标跟踪是指，电子设备可以在的连续的图像帧的第N帧后(例如，第N+1帧)的图像帧中确定出用户选定的跟踪目标(人物或者物体)。电子设备可以标注出图像帧中的跟踪目标。

这里，电子设备为可以显示连续的图像帧的设备，例如手机、平板电脑、电脑、电视机等等。本申请实施例对电子设备不作限定。视频监控设备为可以采集图像的设备，例如网络摄像机、红外摄像机等等。本申请实施例对视频监控设备不作限定。

在本申请实施例中，电子设备显示的一帧图像可以称为图像帧或者第N帧图像。

(2)跟踪目标

本申请实施例中，将第N帧图像中用户指定的进行跟踪检测的对象(例如，人、植物或者汽车等等)称为跟踪目标。

(3)候选目标

本申请实施例中将第N帧图像后续的图像帧中出现的与跟踪目标属于一个种类的对象称为候选目标。候选目标与跟踪目标属性相同。这里，属性可以指对象的种类、对象的颜色、对象的性别、对象的身高等等，此处不作限定。举例来说，若跟踪目标为人物，那么第N帧图像后续的图像帧出现的人物均为候选目标。若跟踪目标为一辆汽车，那么第N帧图像中后续的图像帧或视频帧中出现的汽车均为候选目标。可以理解的是，电子设备可以检测出跟踪目标为人物。然后电子设备可以在第N帧后续的图像中去检测人物，检测出的人物均为候选对象。电子设备如何检测出人物将在下文中介绍，此处先不赘述。

下面以电子设备为平板电脑为例，简要介绍电子设备进行目标跟踪的具体过程。请参见图1-图14，图1-图14示例性地展示了平板电脑10进行目标跟踪的过程。

图1示例性地示出平板电脑10的用户界面100。该用户界面100可以包括一些应用程序的图标。例如，设置的图标101、商城的图标102、备忘录的图标103、相机的图标104、文件管理的图标105、电子邮件的图标106、音乐的图标107、视频监控的图标108。在一些实施例中，用户界面100可以包括更多或更少的应用程序的图标。在一些实施例中，用户界面100中可以包括一些与图1示出的应用程序不同的应用程序的图标，例如视频的图标，即时通讯类应用程序的图标等等。此处不作限定。

如图2示出的平板电脑10的用户界面100。用户可以点击视频监控的图标108。响应于该用户操作，平板电脑可以显示用户界面200。

图3示例性地示出了平板电脑10的用户界面200。用户界面200中当前显示了一帧图像。用户界面200显示的图像帧中可以包括人物A和人物B。这一帧图像可以由平板电脑10中的摄像头获取的。这一帧图像也可以由视频监控设备发送给平板电脑10。

可以理解的是，若平板电脑10的用户界面200显示的图像帧由视频监控设备获取并发送给平板电脑10的。那么在平板电脑10可以显示视频监控设备获取的图像帧之前，用户可以将平板电脑10与视频监控设备建立通信连接。在一种可能的实现方式中，用户可以在视频监控应用程序中将平板电脑10与视频监控设备建立通信连接。可选地，平板电脑10可以通过蓝牙与视频监控设备建立通信连接。可选地，平板电脑10还可以通过无线局域网(Wireless Local Area Network，WLAN)与视频监控设备建立通信连接。这样，平板电脑10可以显示视频监控设备实时获取到的图像帧。可以理解的是，平板电脑10与视频监控设备建立通信连接的方式不作限定。

如图4示出的平板电脑10的用户界面200所示，用户可以在用户界面200中的顶部向下滑动。响应于该用户操作，平板电脑10可以显示用户界面300。

图5A示例性地示出了平板电脑10的用户界面300。用户界面300中可以包括图像帧(该图像帧中可以包含人物A和人物B)和状态栏301。状态栏301中可以包含控件302。状态栏301中可以包括更多的控件，例如用于控制图像帧暂停播放的暂停控件(未示出)，用于调整图像帧亮度的调整亮度控件(未示出)等等。本申请实施例对状态栏301中的控件数量，具体控件，以及状态栏301在用户界面300中的位置均不作限定。用户可以通过控件302来开启或关闭平板电脑10的目标跟踪功能。

可以理解的是，平板电脑10用来开启或者关闭平板电脑10的用户界面可以有多种形式，不限于图5A示出的用户界面300。例如，如图5B示出的平板电脑的用户界面300B。用户界面300B中可以包括图像帧(该图像帧中可以包含人物A和人物B)和控件303。控件303用于开启或关闭平板电脑10的目标跟踪功能。控件303在用户界面300B中的位置不作限定。如图6示出的平板电脑10的用户界面300。用户可以点击控件302开启平板电脑10的目标跟踪功能。如图7示出的平板电脑10的用户界面300。图7的用户界面300中控件302的状态表示平板电脑10的目标跟踪功能已开启。响应于用户开启平板电脑10的目标跟踪功能的操作，平板电脑10显示用户界面400。

图8示例性地示出了平板电脑10的用户界面400。用户界面400中显示了平板电脑10的摄像头或者视频监控设备在T0时刻获取到的第N帧图像。第N帧图像中可以包括人物A和人物B。用户界面400中还可以包括文本401。文本401用于提示用户选择第N帧图像中的跟踪目标。文本401的具体文本内容可以是“请选定跟踪目标”，也可以是其他，此处不做限定。平板电脑10可以检测出第N帧图像中的人物A和人物B。平板电脑10在用户界面400中显示出检测框402和检测框403。检测框402用于圈定人物A，即表明平板电脑10在用户界面400中检测到人物A。检测框403用于圈定人物B，即表明平板电脑10在用户界面400中检测到人物B。如图8所示，平板电脑10可以在T0时刻-Tn时刻显示连续的图像帧序列。即平板电脑在第T0时刻显示第N帧图像，在第T1时刻显示第N+1帧图像，在第T2时刻显示N+2帧图像，以及在Tn时刻显示第N+n帧图像。

在一些实施例中，平板电脑10可以不显示检测框402和检测框403。

如图9示出的平板电脑10的用户界面400。用户可以选定第N帧图像中的人物A为跟踪目标。如图9所示，用户可以通过点击人物A将人物A选定为跟踪目标。响应于用户操作，平板电脑10可以显示用户界面500。

在一些实施例中，在平板电脑10不显示检测框402和检测框403的情况下，用户画框圈定跟踪目标。平板电脑10将用户圈定的图像作为跟踪目标。

如图10示出了平板电脑10的用户界面500。用户界面500中显示第N帧图像。第N帧图像中可以包括人物A和人物B。用户界面500中可以包括指示框501和检测框502。指示框501用于指示圈定的对象(例如人物A)为跟踪目标。检测框502用于圈定人物B，即表明平板电脑10在用户界面500中检测到人物B。响应于用户选定跟踪目标的操作，平板电脑10可以对用户选定的跟踪目标进行特征提取。平板电脑10还可以保存跟踪目标的特征。

图11示例性地示出了图10中跟踪目标以及跟踪目标对应的特征。如图11所示，平板电脑10响应于用户选定跟踪目标的操作，对人物A进行特征提取，并保存人物A的特征。跟踪目标，即第N帧图像中人物A的特征可以用特征向量Fa(N)表示。例如，Fa(N)＝[x1,x2,x3,…，xn]。特征向量Fa(N)可以表示人物A的颜色特征，纹理特征等等。此处对人物A的特征向量Fa(N)具体形式，以及大小不作限定。例如，Fa(N)可以是包含n个数值的特征向量[0.5，0.6，0.8，…，0.9，0.7，0.3]。其中，n为整数，可以是128，256，512等等，n的大小不作限定。平板电脑10可以将特征向量Fa(N)存储到内部储存器中。

当用户指定跟踪目标后，平板电脑10在第N帧图像之后的图像帧中对跟踪目标进行跟踪。

图12示例性地示出了平板电脑10的用户界面600。用户界面600中显示了第N+1帧图像。第N+1帧图像可以是用户界面500中显示的图像帧的下一帧图像。第N+1帧图像中可以包括人物A和人物B。用户界面600中还可以包括文本601、检测框602和检测框603。文本601用于提示用户是否检测到跟踪目标。这里，平板电脑10从第N帧图像提取到人物A的特征和第N+1帧图像中人物A的特征不匹配。这里具体参考下文对图13和图14中的描述，此处不再赘述。平板电脑10可以在文本601中提示用户在第N+1帧图像中未检测到跟踪目标。文本601的具体内容可以是“未检测到跟踪目标”。文本601的具体内容也可以是其他，例如“目标跟踪失败”、“目标跟踪成功等等”，此处对文本601的具体内容不作限定。检测框602用于圈定人物A，即表明平板电脑10在用户界面600中检测到人物A。检测框603用于圈定人物B，即表明平板电脑10在用户界面600中检测到人物B。

平板电脑10可以对用户界面600中检测出的人物A和人物B进行特征提取。然后，平板电脑10可以将提取到的人物A的特征以及人物B的特征与保存的跟踪目标的特征进行匹配。在人物A的特征和人物B的特征与保存的跟踪目标的特征相匹配的情况下，平板电脑10可以提示用户跟踪目标成功并指示出跟踪目标。在人物A的特征或人物B的特征与保存的跟踪目标的特征不匹配的情况下，平板电脑10可以提示用户未检测到跟踪目标或跟踪失败。

图13示例性地示出了用户界面600中人物A以及人物A对应的特征。用户界面600中的人物A只出现了上半身。平板电脑10可以对人物A进行特征提取，得到人物A的特征。人物A的特征(即图13中示出的候选目标跟踪目标特征)可以用特征向量Fa(N+1)表示。特征向量Fa(N+1)可以包括人物A的纹理特征、颜色特征以及其他特征等等，此处不作限定。

图14示例性地示出了用户界面600中人物B以及人物B对应的特征。平板电脑10可以对人物B进行特征提取，得到人物B的特征。人物B的特征(即图14中示出的候选目标特征)可以用特征向量Fb(N+1)表示。特征向量Fb(N+1)可以包括人物B的纹理特征、颜色特征以及其他特征等等，此处不作限定。

平板电脑10可以将保存的跟踪目标的特征Fa(N)分别与用户界面600中人物A的特征Fa(N+1)、以及人物B的特征Fb(N+1)进行特征匹配。若特征Fa(N+1)与特征Fa(N)匹配，则平板电脑10成功检测到跟踪目标。否则，平板电脑10提示未检测到跟踪目标。用户界面400中的人物A(即跟踪目标)和用户界面600中的人物A实际上是同一个人。但是由于用户界面400中的人物A出现了全身，平板电脑10可以提取到人物A全身的特征，并保存了人物A全身的特征。而用户界面600中的人物A只出现了半身，平板电脑10只能提取到人物A半身的特征。这样，平板电脑10在进行特征匹配时，用户界面400中人物A的特征和用户界面600中人物A的特征不匹配。这样，平板电脑10在跟踪目标出现遮挡(例如有一半身体被遮挡住)时无法正确地进行目标跟踪。

另外，在跟踪目标发生形变(与跟踪目标的姿势不一样)的情况下，由于平板电脑10只对用户在第N帧图像中指定的跟踪目标进行特征提取并保存提取到的特征。若第N帧图像中指定的跟踪目标是完整的(例如站着的人物A)，第N+1帧图像中的跟踪目标发生形变(例如蹲着的人物A)。平板电脑10只保存了站着的人物A的特征作为跟踪目标的特征。平板电脑10对站着的人物A和蹲着的人物A提取到的特征有差异。平板电脑10无法正确地确定出站着的人物A和蹲着的人物A是同一个人。这样，平板电脑10容易出现目标跟踪失败，导致目标跟踪的准确率不高。

当跟踪目标消失重现，例如第一帧图像出现全身的人物A、第二帧图像中人物A消失，第三帧图像中出现半身的人物A。平板电脑10容易出现目标跟踪失败，导致目标跟踪的准确率不高。

为了提升电子设备进行目标跟踪的准确率，本申请实施例提出了一种目标跟踪方法。该方法包括：电子设备显示第N帧图像，并在第N帧图像中确定跟踪目标。然后电子设备基于第一预设规则将跟踪目标划分成多张跟踪目标图像。电子设备对多张跟踪目标图像中每一张图像进行特征提取，得到跟踪目标的多个跟踪目标特征。电子设备保存跟踪目标的多个跟踪目标特征。接着，电子设备显示第N+1帧图像。电子设备检测出第N+1帧图像中的候选目标。电子设备基于第一预设规则将候选目标划分为多张候选目标图像。电子设备对每一张候选目标图像进行特征提取，得到候选目标的候选目标特征。电子设备选择多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标进行特征匹配。若第一候选目标特征与第一跟踪目标特征相匹配，电子设备确定候选目标为跟踪目标。

在本申请实施例中，第K帧图像是第M帧图像之后的图像帧。第M帧图像可以是本申请实施例中的第N帧图像，第K帧图像可以是本申请实施例中的第N+1帧图像，或者第N+2帧图像、或者第N+n帧图像。

下面以电子设备是平板电脑为例，介绍平板电脑根据本申请实施例提供的一种目标跟踪方法进行目标跟踪的具体过程。

1.开启目标跟踪功能。

平板电脑在进行目标跟踪时，需要先开启目标跟踪功能。用户开启平板电脑的具体过程可以参考上文中对图1-图6的描述，此处不再赘述。

2.在第N帧图像中确定跟踪目标。

平板电脑10确定跟踪目标的过程具体可以参考上文对图8-图9的描述，此处不再赘述。如图9所示，用户选择了第N帧图像中的人物A作为跟踪目标。响应于用户操作，平板电脑10确定第N帧图像中的人物A为跟踪目标。

3.提取并保存跟踪目标特征。

平板电脑10可以根据一定的预设规则(例如人体关键点)将用户界面500中的人物A分为多张图像。平板电脑10分别对多张图像进行特征提取，得到每一张图像对应的特征并保存。

图15示例性地示出了人体关键点示意图。如图15所示，人物A的人体关键点可以包括关键点A1-关键点A14共14个关键点。关键点A1-关键点A14可以是人体的基本骨骼点。例如，关键点A1可以是人体的头部骨骼点。关键点A2可以是人体的颈部骨骼点。关键点A3可以是人体的左肩骨骼点。关键点A4可以是人体的右肩骨骼点。关键点A5可以是人体的左肘骨骼点。关键点A6可以是人体的右肘骨骼点。关键点A7可以是人体的左手骨骼点。关键点A8可以是人体的右手骨骼点。关键点A9可以是人体的左髋骨骼点。关键A10可以是人体的右髋骨骼点。关键点A11可以是人体的左膝骨骼点。关键点A12可以是人体的右膝骨骼点。关键点A13可以是人体的左脚骨骼点。关键点A14可以是人体的右脚骨骼点。

平板电脑10可以识别人体关键点。后续内容中会介绍平板电脑如何识别人体关键点，这里先不赘述。

平板电脑10可以根据人体关键点将用户指定的跟踪目标的图片分成多张用来特征提取的输入图像。平板电脑10可以对每张输入图像进行特征提取得到输入图像的特征，并保存该输入图像的特征。

图16示例性地示出了跟踪目标对应的特征提取的输入图像、以及输入图像对应的特征。如图16所示，用户界面500中的人物A(即跟踪目标)可以根据关键点分为四张用来进行特征提取的输入图像。即跟踪目标可以根据关键点分为输入图像1601、输入图像1602、输入图像1603、输入图像1604。具体地，跟踪目标中包含关键点A1-关键点A4的身体部分(即跟踪目标肩部以上的身体部分)可以分为一张用于进行特征提取的图像(即输入图像1601)。跟踪目标中包括关键点A1-关键点A10的身体部分(即跟踪目标髋部以上的身体部分)可以分为一张用于进行特征提取的图像(即输入图像1602)。跟踪目标中包括关键点A1-关键点A12的身体部分(即跟踪目标膝盖以上的身体部分)可以分为一张用于进行特征提取的图像(即输入图像1603)。跟踪目标中包括关键点A1-关键点A14的身体部分(即跟踪目标从头部到脚部的全身部分)可以分为一张用于进行特征提取的图像(即输入图像1604)。

输入图像1601-输入图像1604中包含的关键点逐渐增多。即输入图像1602中包含的关键点多于输入图像1601中包含的关键点。输入图像1602中可以包含输入图像1601中的关键点。即输入图像1602与输入图像1601有跟踪目标相同的身体部分(即肩部以上的身体部分)。输入图像1603中包含的关键点多于输入图像1602中包含的关键点。输入图像1603中可以包含输入图像1602中的关键点。即输入图像1603与输入图像1602有跟踪目标相同的身体部分(即髋部以上的身体部分)。输入图像1604中包含的关键点多于输入图像1603中包含的关键点。输入图像1604中可以包含输入图像1603中的关键点。即输入图像1604与输入图像1603有跟踪目标相同的身体部分(即膝盖以上的身体部分)。

平板电脑10对输入图像1601进行特征提取，可以得到输入图像1601的特征。示例性地，输入图像1601的特征可以用特征向量F1表示。F1可以表征输入图像1601的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。输入图像1601的颜色特征、纹理特征、变换特征等特征具体可以参考现有技术中的描述，此处不再赘述。平板电脑10对输入图像1602进行特征提取，可以得到输入图像1602的特征。输入图像1602的特征可以用特征向量F2表示。F2可以表征输入图像1602的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。平板电脑10对输入图像1603进行特征提取，可以得到输入图像1603的特征。输入图像1603的特征可以用特征向量F3表示。F3可以表征输入图像1603的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。平板电脑10对输入图像1604进行特征提取，可以得到输入图像1604的特征。输入图像1604的特征可以用特征向量F4表示。F4可以表征输入图像1604的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。

这样，平板电脑10可以保存跟踪目标多种维度的特征。可以理解的是，图16中将跟踪目标分为四张输入图像，分别得到四张输入图像的特征并保存。但是本申请实施例对跟踪目标具体如何划分用于特征提取的输入图像不作限定。例如，平板电脑10可以根据关键点将跟踪目标分为更多或更少的输入图像，此处不作限定。本申请实施例对输入图像的特征提取方法不作限定。可以理解的是，在平板电脑10进行目标跟踪的过程中，跟踪目标对应的输入图像、以及候选目标对应的输入图像在进行特征提取时，平板电脑10始终使用同一种特征提取方法。

4.在第N+1帧图像中确定出候选目标是否为跟踪目标

图17示例性地示出了平板电脑10的用户界面700。用户界面700可以显示第N+1帧图像。用户界面700可以包括候选目标人物A和候选目标人物B。用户界面700中可以包括提示文本701、指示框702和检测框703。提示文本701用于提示用于在第N+1帧图像中检测到跟踪目标。指示框702用于指示圈定的对象(例如人物A)为跟踪目标。检测框703用于圈定人物B，即表明平板电脑10在用户界面700中检测到人物B。

当平板电脑10检测到第N+1帧图像中的候选目标(人物A和人物B)后，会候选目标进行特征提取。平板电脑10会将候选目标人物A的特征、候选目标人物B的特征分别与跟踪目标的特征进行特征匹配。平板电脑10确定目标人物A的特征与跟踪目标的特征匹配。平板电脑10在用户界面中显示提示文本701和指示框702。

图18示例性地示出了候选目标人物A对应的特征提取的输入图像、以及输入图像对应的特征。候选目标人物A可以根据关键点分为两张用来特征提取的输入图像。即候选目标人物A可以根据关键点分为输入图像1801、输入图像1802。具体地，候选目标人物A中包含关键点A1-关键点A4的身体部分(即跟踪目标肩部以上的身体部分)可以分为一张用于进行特征提取的图像(即输入图像1801)。候选目标人物A中包括关键点A1-关键点A10的身体部分(即跟踪目标髋部以上的身体部分)可以分为一张用于进行特征提取的图像(即输入图像1802)。

平板电脑10对输入图像1801进行特征提取，可以得到输入图像1801的特征。示例性地，输入图像1801的特征可以用特征向量F1’表示。特征向量F1’可以表征输入图像1801的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。平板电脑10对输入图像1802进行特征提取，可以得到输入图像1802的特征。输入图像1802的特征可以用特征向量F2’表示。特征向量F2’可以表征输入图像1801的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。

图19示例性地示出了候选目标人物B对应的特征提取的输入图像、以及输入图像对应的特征。候选目标人物B可以根据关键点分为一张用来特征提取的输入图像。即候选目标人物B可以根据关键点分为输入图像1901。具体地，候选目标人物B中包含关键点A1-关键点A4的身体部分(即跟踪目标肩部以上的身体部分)可以分为一张用于进行特征提取的图像(即输入图像1901)。

平板电脑10对输入图像1901进行特征提取，可以得到输入图像1901的特征。示例性地，输入图像1901的特征可以用特征向量V1表示。特征向量V1中可以表征输入图像1901的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。

这样，平板电脑10可以用只包含髋部以上身体部位的候选目标的特征和只包含髋部以上身体部位的跟踪目标的特征进行匹配。当跟踪目标和候选目标是同一个人物时，平板电脑10可以确定下一帧图像中的候选目标即为上一帧图像中用户指定的跟踪目标。这样，当跟踪目标和候选目标为同一个人物，但是人物出现的身体部位不一致，或者候选目标有一部分身体部位被遮挡时，平板电脑10也可以准确地确定出该候选目标即为用户指定的跟踪目标。

基于前述内容中结合UI介绍了本申请实施例提出的目标跟踪方法的应用场景。下面结合附图详细介绍本申请实施例提出的一种目标跟踪方法。如图20所示，该方法可以包括：

S100、电子设备显示用户界面A，用户界面A中显示有第N帧图像，第N帧图像中包含有跟踪目标。

电子设备是可以显示用户界面、且具有目标跟踪功能的设备，例如图1示出的平板电脑10。电子设备还可以是智能手机、电视机等等，此处不作限定。

电子设备可以显示用户界面A。用户界面A用于显示第N帧图像。第N帧图像中包含有跟踪目标。第N帧图像为电子设备的摄像头采集到的图像，或者由视频监控设备拍摄到的图像或视频帧中的一帧视频。例如，用户界面A可以是如图8示出的用户界面400。用户界面400中的人物A可以是跟踪目标。本申请实施例中用户界面A可以称为第一用户界面。

可以理解的是，在电子设备显示用户界面A之前，电子设备开启目标跟踪功能。电子设备开启目标跟踪功能的方式可以有多种。例如。用户可以在电子设备的特定应用(例如图1示出的视频监控应用)的用户界面中(例如图5A示出的用户界面300)点击用于开启目标跟踪功能的控件(例如图5A中示出的控件302)。响应于用户操作，电子设备开启目标跟踪功能。此处可以参考如图1-图7中示出的平板电脑10开启目标跟踪的过程。又例如，用户可以对电子设备输入用于开启目标跟踪功能的语音指令(例如“请打开目标跟踪功能”)。响应于用户的语音指示，电子设备开启目标跟踪功能。本申请实施例对电子设备开启目标跟踪功能的方式不作限定。

S101、电子设备在用户界面A中确定跟踪目标。

电子设备可以在用户界面A中确定出跟踪目标的方式可以有多种。

例如，在一种可能的实现方式中，电子设备可以检测出第N帧图像中的多个对象(例如人物、植物、车辆等等)。电子设备可以显示出检测框来圈定电子设备检测出的对象。用户可以点击检测框圈定的对象，响应于用户操作，电子设备可以将该检测框圈定的图像部分作为跟踪目标。此处可以参考图8-图10中描述的电子设备确定跟踪目标的过程。例如，图9示出的检测框402圈定的包含人物A的即为跟踪目标。电子设备可以从第N帧图像中截取检测框402圈定的图像部分作为跟踪目标(人物A)对应的图像。

可以理解的是，电子设备可以在一帧具有人物和背景的图像中检测出人物。具体地，电子设备可以通过目标检测模型来检测出图像中的对象(例如人物、植物、车辆等等)。该目标检测模型的输入可以是一张图像。例如，图7中用户界面300中示出的一张包含人物A和人物B的图像。该目标检测模型的输出可以是一张标注过图像中的对象的图像。例如，图8中用户界面400中示出的一张包含用检测框402圈定了人物A，以及用检测框403圈定了人物B的图像。电子设备如何进行检测出图像中的对象可以参考现有技术，此处不再赘述。

可选地，用户可以在用户界面中画一个用于选定跟踪目标的指示框，响应于用户操作，电子设备确定指示框中的对象即为跟踪目标。例如，如图21所示，用户可以在用户界面800中画出一个指示框802。指示框802中的对象即为跟踪目标。指示框802圈定的图像部分即为跟踪目标对应的图像。这里指示框可以是矩形框，也可以是正方形框，也可以是菱形框等等，此处对指示框的形状不作限定。

可以理解的是，本申请实施例对电子设备确定跟踪目标的方式不作限定。

S102、电子设备根据跟踪目标得到多张用于特征提取的跟踪目标图像，多张跟踪目标图像包含跟踪目标的一部分或全部。

电子设备可以将跟踪目标对应的图像划分为多张用于特征提取的跟踪目标图像，多张跟踪目标图像可以包含跟踪目标的一部分或全部。这样，电子设备可以得到跟踪目标对应的多种维度的用于特征提取的跟踪目标图像。

在一种可能的实现方式中，电子设备可以根据关键点将跟踪目标对应的图像划分为多张跟踪目标图像。以跟踪目标是人物为例，如图15所示，电子设备可以检测出人体的关键点A1-关键点A14共14个关键点。然后电子设备根据跟踪目标的关键点将跟踪目标对应的图像划分为多张用于特征提取的跟踪目标图像。

具体地，如图16所示，电子设备可以将跟踪目标对应的图像分为仅包含跟踪目标的关键点A1-关键点A4身体部分的输入图像(例如输入图像1601)、仅包含跟踪目标的关键点A1-关键点A10身体部分的输入图像(例如输入图像1602)、仅包含跟踪目标的关键点A1-关键A12身体部分的输入图像(例如输入图像1603)、以及包含跟踪目标的关键点A1-关键点A14身体部分的输入图像(例如输入图像1604)。这里可以参考上文中对图16的描述，此处不再赘述。这样，当下一帧图像中的跟踪目标只出现肩部以上身体部分、或者只出现髋部以上身体部分、或者只出现膝盖以上身体部分时，电子设备也可以准确地确定出跟踪目标。

可选地，如图22所示，电子设备可以将跟踪目标对应的图像分为仅包含跟踪目标的关键点A1、关键点A2身体部分的输入图像(例如输入图像2201)、仅包含跟踪目标的关键点A3-关键点A8身体部分的输入图像(例如输入图像2202)、仅包含跟踪目标的关键点A9-关键A12身体部分的输入图像(例如输入图像2203)、以及包含跟踪目标的关键点A13-关键点A14身体部分的输入图像(例如输入图像2204)。输入图像2201、输入图像2202、输入图像2203、以及输入图像2204仅为跟踪目标的一部分。即输入图像2201仅包含跟踪目标的头部。输入图像2202仅包含跟踪目标的上半身(即肩部到髋部之间，不包括髋部的身体部分)。输入图像2203仅包含跟踪目标的下半身(即髋部到脚之间，不包括脚的身体部分)。输入图像2204仅包含跟踪目标的脚。输入图像2201、输入图像2202、输入图像2203以及输入图像2204任何两个输入图像之间没有重复的身体部分。例如，输入图像2201与输入图像2202没有重复的身体部分。输入图像2201与输入图像2203没有的身体部分。

可选地，电子设备可以将跟踪目标对应的图像分为仅包含跟踪目标的关键点A1-关键点A4身体部分的输入图像(例如输入图像1601)、仅包含跟踪目标的关键点A1-关键点A10身体部分的输入图像(例如输入图像1602)、仅包含跟踪目标的关键点A1-关键A12身体部分的输入图像(例如输入图像1603)、包含跟踪目标的关键点A1-关键点A14身体部分的输入图像(例如输入图像1604)、仅包含跟踪目标的关键点A1、关键点A2身体部分的输入图像(例如输入图像2201)、仅包含跟踪目标的关键点A3-关键点A8身体部分的输入图像(例如输入图像2202)、仅包含跟踪目标的关键点A9-关键A12身体部分的输入图像(例如输入图像2203)、以及包含跟踪目标的关键点A13-关键点A14身体部分的输入图像(例如输入图像2204)。举例来说，电子设备可以将图16示出的跟踪目标分为图16中示出的输入图像1601、输入图像1602、输入图像1603、输入图像1604，以及图22示出的输入图像2201、输入图像2202、输入图像2203和输入图像2204。这里，图16中示出的输入图像1601、输入图像1602、输入图像1603、输入图像1604，以及图22示出的输入图像2201、输入图像2202、输入图像2203和输入图像2204均可以称为本申请实施例中跟踪目标图像。

可以理解的是，电子设备可以按照关键点将跟踪目标对应的图像划分为比图16或图22示出的更多或更少的跟踪目标图像。本申请实施例中电子设备可以根据关键点将跟踪目标分为多张跟踪目标图像。本申请实施例对划分的跟踪目标图像具体包含跟踪目标的哪一些关键点，以及跟踪目标图像的具体数量不作限定。

可以理解的是，电子设备可以检测出人体的关键点(例如骨骼点)。电子设备可以通过人体关键点识别算法，识别出电子设备中显示的图像帧中人物的关键点。这里，识别出关键点可以是指确定关键点的位置信息。识别出关键点的位置信息可以用于从跟踪目标对应图像中划分出跟踪目标图像。其中，人体关键点识别算法的输入可以是人体图像。人体关键点识别算法的输出可以是人体关键点的位置信息(例如，二维坐标)。电子设备可以识别出如图15所示的关键点A1-关键点A14。关键点A1-关键点A14可以分别对应人体基本的骨骼点，例如头部骨骼点、颈部骨骼点、左肩骨骼点、右肩骨骼点、左肘骨骼点、右肘骨骼点、左手骨骼点、右手骨骼点、左髋骨骼点、右髋骨骼点、左膝骨骼点、右膝骨骼点、左脚骨骼点、右脚骨骼点。这里可以参考上文中对图15的描述，此处不再赘述。不限于图15所示，电子设备可以识别出更多或者更少的人体关键点，本申请实施例对此不作限定。

S103、电子设备对多张跟踪目标图像进行特征提取，得到并保存多张跟踪目标图像对应的跟踪目标特征。

具体地，电子设备可以通过特征提取算法对多张跟踪目标图像进行特征提取，得到并保存多张跟踪目标图像的特征(例如颜色特征、纹理特征、变换特征等等特征中的一项或多项)。电子设备对跟踪目标图像进行特征提取得到的一个特征向量即为跟踪目标图像对应的跟踪目标特征。电子设备可以保存跟踪目标图像对应的跟踪目标特征。可以理解的是，一张跟踪目标图像可以对应一个跟踪目标特征。若有多张跟踪目标图像，电子设备可以得到并保存多个跟踪目标特征。

其中，特征提取算法的输入可以是跟踪目标图像。特征提取算法的输出可以是跟踪目标图像的特征向量。可以理解的是，不同的输入图像对应的特征向量的维数相同，但是特征向量中的数值不同。

如图16所示，跟踪目标可以划分为输入图像1601、输入图像1602、输入图像1603和输入图像1604。输入图像1601可以包括关键点A1-关键点A4。输入图像1601的对应的特征可以是输入图像1601的颜色特征、纹理特征、变换特征中等等特征中的一项或多项。例如图16中示出的特征向量F1，特征向量F1可以表征输入图像1601的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。本申请实施例对特征向量F1的具体形式不作限定。

输入图像1602的对应的特征可以是输入图像1602的颜色特征、纹理特征、变换特征中等等特征中的一项或多项。例如图16中示出的特征向量F2，特征向量F2可以表征输入图像1602的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。输入图像1603的对应的特征可以是输入图像1603的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。例如图16中示出的特征向量F3，特征向量F3可以表征输入图像1603的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。输入图像1604的对应的特征可以是输入图像1604的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。例如图16中示出的特征向量F4，特征向量F4可以表征输入图像1604的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。电子设备对输入图像1601、输入图像1602、输入图像1603和输入图像1604进行特征提取后并保存特征。电子设备保存输入图像对应特征的形式可以如图16所示。电子设备可以用一个表格来保存跟踪目标、跟踪目标划分得到的输入图像、以及输入图像对应的特征。在图16中，特征向量F1、特征向量F2、特征向量F3以及特征向量F4均与跟踪目标建立映射关系。即特征向量F1、特征向量F2、特征向量F3以及特征向量F4均可表征跟踪目标。

如图22所示，跟踪目标可以划分为输入图像2201、输入图像2202、输入图像2203和输入图像2204。输入图像2201可以包括关键点A1-关键点A2。输入图像2201的对应的特征可以是输入图像2201的颜色特征、纹理特征、变换特征中等等特征中的一项或多项。例如图22中示出的特征向量F5，特征向量F5可以表征输入图像2201的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。输入图像2202的对应的特征可以是输入图像2202的颜色特征、纹理特征、变换特征中等等特征中的一项或多项。例如图22中示出的特征向量F6，特征向量F6可以表征输入图像2202的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。这里，特征向量F6可以参考上述内容对特征向量F1的描述。可以理解的是，这里的输入图像2202对应的特征向量F6仅为举例。本申请实施例对特征向量F6的具体形式不作限定。

输入图像2203的对应的特征可以是输入图像2203的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。例如图22中示出的特征向量F7，特征向量F7可以表征输入图像2203的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。可以理解的是，这里的输入图像2203对应的特征向量F7仅为举例。本申请实施例对特征向量F7的具体形式不作限定。

输入图像2204的对应的特征可以是输入图像2204的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。例如图22中示出的特征向量F8，特征向量F8可以表征输入图像2204的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。这里特征向量F8可以参考上述内容对特征向量F1的描述。可以理解的是，这里的输入图像2204对应的特征向量F8仅为举例。本申请实施例对特征向量F8的具体形式不作限定。

电子设备对输入图像2201、输入图像2202、输入图像2203和输入图像2204进行特征提取后并保存特征。电子设备可以保存跟踪目标、跟踪目标划分得到的输入图像、以及输入图像对应的特征。在图22中，特征向量F5、特征向量F6、特征向量F7以及特征向量F8均与跟踪目标建立映射关系。即特征向量F5、特征向量F6、特征向量F7以及特征向量F8均可表征跟踪目标。

在一种可能的实现方式，对于图10中示出的电子设备确定的跟踪目标(人物A)，电子设备进行特征提取，得到并保存的特征可以是特征向量F1、特征向量F2、特征向量F3、以及特征向量F4。即电子设备将跟踪目标划分为输入图像1601、输入图像1602、输入图像1603和输入图像1604。电子设备分别对输入图像1601、输入图像1602、输入图像1603和输入图像1604进行特征提取，可以分别得到特征向量F1、特征向量F2、特征向量F3、以及特征向量F4。电子设备可以保存特征向量F1、特征向量F2、特征向量F3、以及特征向量F4。

可选地，对于图10中示出的电子设备确定的跟踪目标(人物A)，电子设备进行特征提取，得到并保存的特征可以是特征向量F5、特征向量F6、特征向量F7、以及特征向量F8。即电子设备将跟踪目标划分为输入图像2201、输入图像2202、输入图像2203和输入图像2204。电子设备分别对输入图像2201、输入图像2202、输入图像2203和输入图像2204进行特征提取，可以分别得到特征向量F5、特征向量F6、特征向量F7、以及特征向量F8。电子设备可以保存特征向量F5、特征向量F6、特征向量F7、以及特征向量F8。

可选地，对于图10中示出的电子设备确定的跟踪目标(人物A)，电子设备进行特征提取，得到并保存的特征可以是特征向量F1、特征向量F2、特征向量F3、特征向量F4、特征向量F5、特征向量F6、特征向量F7、以及特征向量F8。即电子设备将跟踪目标划分为输入图像1601、输入图像1602、输入图像1603和输入图像1604，输入图像2201、输入图像2202、输入图像2203和输入图像2204。电子设备分别对输入图像1601、输入图像1602、输入图像1603和输入图像1604、输入图像2201、输入图像2202、输入图像2203和输入图像2204进行特征提取，可以分别得到特征向量F1、特征向量F2、特征向量F3、特征向量F4、特征向量F5、特征向量F6、特征向量F7、以及特征向量F8。电子设备可以保存特征向量F1、特征向量F2、特征向量F3、特征向量F4、特征向量F5、特征向量F6、特征向量F7、以及特征向量F8。

可以理解的是，特征向量F1、特征向量F2、特征向量F3、特征向量F4、特征向量F5、特征向量F6、特征向量F7、以及特征向量F8均可以称为本申请实施例中的跟踪目标特征。本申请实施例中的对电子设备可以提取到的跟踪目标特征的数量不作限定。

可以理解的是，对于不同的跟踪目标，电子设备提取到的跟踪目标特征的数量可以不同。

可以理解的是，本申请实施例中的跟踪目标可以有多个。当跟踪目标有多个时，电子设备可以按照步骤S102-步骤S103的步骤分别将每个跟踪目标划分得到跟踪目标图像，并对跟踪目标图像进行特征提取得到并保存跟踪目标特征。电子设备可以保存多个跟踪目标对应的跟踪目标图像、以及跟踪目标图像对应的跟踪目标特征。

S104、电子设备显示用户界面B，用户界面B中显示有第N+1帧图像，第N+1帧图像中包含有一个或多个候选目标。

电子设备可以显示用户界面B，用户界面B可以是图17示出的用户界面700。用户界面B中显示有第N+1帧图像。第N+1帧图像是第N帧图像的下一帧图像。第N+1帧图像中可以包含有一个或多个候选目标。如图用户界面700中示出的人物A和人物B均为候选目标。在本申请实施例中，用户界面B可以称为第二用户界面。

在一种可能的实现方式中，若电子设备在第N+1帧图像中未检测到候选目标，电子设备可以显示第N+2帧图像。然后对第N+2帧图像执行步骤S104-步骤S107。

可以理解的是，电子设备在第N+1帧图像中未检测到候选目标，第N+1帧出现了候选目标，但是电子设备未检测到。或者，第N+1帧图像中可以未出现候选目标。例如，候选目标未出现在电子设备的摄像头的拍摄范围中，此处电子设备显示的第N+1帧图像中没有候选目标。这时，电子设备可以显示第N+2帧图像。然后对第N+2帧图像执行步骤S104-步骤S107。

S105、电子设备得到一个或多个候选目标中的每个候选目标对应的多张候选目标图像，多张候选目标图像包含候选目标的一部分或全部。

电子设备检测出第N+1帧图像中有一个或多个候选目标。然后，电子设备可以将一个或多个候选目标中的每个候选目标划分为用来进行特征提取的候选目标图像。每个候选目标对应的候选目标图像包含候选目标的一部分或全部。例如，图17示出的用户界面700中显示了第N+1帧图像。第N+1帧图像中包含候选目标人物A和候选目标人物B。

如图18所示，候选目标人物A可以划分为输入图像1801和输入图像1802。如图19所示，候选目标人物B可以划分为输入图像1901。这里输入图像1801、输入图像1802以及输入图像1901均可以称为本申请实施例中的候选目标图像。

可以理解的是，候选目标划分为多张候选目标图像的方式与跟踪目标划分为多张跟踪目标图像的方式保持一致。即若跟踪目标划分为仅包含跟踪目标的关键点A1-关键点A4身体部分的输入图像、仅包含跟踪目标的关键点A1-关键点A10身体部分的输入图像、仅包含跟踪目标的关键点A1-关键A12身体部分的输入图像、以及包含跟踪目标的关键点A1-关键点A14身体部分的输入图像。若候选目标为包含关键点A1-关键点14的全身图像。那么候选目标也要划分为仅包含跟踪目标的关键点A1-关键点A4身体部分的输入图像、仅包含跟踪目标的关键点A1-关键点A10身体部分的输入图像、仅包含跟踪目标的关键点A1-关键A12身体部分的输入图像、以及包含跟踪目标的关键点A1-关键点A14身体部分的输入图像。若候选目标为包含关键点A1-关键点10的半身图像(例如用户界面700示出的人物A)。那么候选目标划分为仅包含跟踪目标的关键点A1-关键点A4身体部分的输入图像、仅包含跟踪目标的关键点A1-关键点A10身体部分的输入图像。

S106、电子设备对多张候选目标图像进行特征提取，得到多张候选目标图像对应的候选目标特征。

具体地，电子设备可以通过特征提取算法对多张候选目标图像进行特征提取，得到多张候选目标图像特征(例如颜色特征、纹理特征、变换特征等等特征中的一项或多项)。电子设备对候选目标图像进行特征提取得到的一个特征向量即为候选目标图像对应的候选目标特征。这里可以参考上述步骤中对跟踪目标图像进行特征提取的描述，此处不再赘述。

如图18所示，候选目标人物A可以划分为输入图像1801和输入图像1802。输入图像1801可以包括关键点A1-关键点A4。输入图像1801的对应的特征可以是输入图像1801的颜色特征、纹理特征、变换特征中等等特征中的一项或多项。例如图18中示出的特征向量F1’，特征向量F1’以表征输入图像1801的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。这里的输入图像1801对应的特征向量F1’仅为举例。本申请实施例对特征向量F1’的具体形式不作限定。

输入图像1802的对应的特征可以是输入图像1802的颜色特征、纹理特征、变换特征中等等特征中的一项或多项。例如图18中示出的特征向量F2’，特征向量F2’可以表征输入图像1802的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。这里特征向量F2’可以参考上述内容对特征向量F1的描述。可以理解的是，这里的输入图像1802对应的特征向量F2’仅为举例。本申请实施例对特征向量F2’的具体形式不作限定。

如图19所示，候选目标人物A可以划分为输入图像1901。输入图像1901可以包括人体关键点A1-关键点A4。输入图像1901的对应的特征可以是输入图像1901的颜色特征、纹理特征、变换特征中等等特征中的一项或多项。例如图19中示出的特征向量V1，特征向量V1可以表征输入图像1901的颜色特征、纹理特征、变换特征等等特征中的一项或多项，这里不作限定。这里的输入图像1901对应的特征向量V1仅为举例。本申请实施例对特征向量V1的具体形式不作限定。

可选地，电子设备也可以只包含关键点多的候选目标图像进行特征提取。例如，图18中示出的输入图像1801和输入图像1802。输入图像1802包含更多的关键点，这样电子设备可以只对输入图像1802进行特征提取。这样，可以提高电子设备的效率。

S107、电子设备将第一候选目标特征与第一跟踪目标特征进行特征匹配，若第一候选目标特征与第一跟踪目标特征相匹配，电子设备确定候选目标为跟踪目标。

电子设备可以将第一候选目标特征与第一跟踪目标特征进行特征匹配。电子设备可以将候选目标特征中包含人体最多关键点的第一候选目标图像对应的第一候选目标特征与第一跟踪目标特征进行特征匹配。多个候选目标图像中包含第一候选目标图像。多个跟踪目标图像中包含第一跟踪目标图像。第一跟踪目标特征由电子设备从第一跟踪目标图像中获取。例如，对于图18示出的候选目标人物A，电子设备可以将候选目标人物A的包含更多关键点的候选目标图像，即输入图像1802对应的特征向量F2’与跟踪目标中包含同样多关键点的候选目标图像(即输入图像1602)对应的跟踪目标特征(即特征向量F2)进行特征匹配。这里，输入图像1802即为第一候选目标图像，特征向量F2’即为第一候选目标特征。输入图像1602即为第一跟踪目标图像，特征向量F2即为第一跟踪目标特征。

在一种可能的实现方式中，电子设备可以计算特征向量F2’与特征向量F2的欧式距离D1。若特征向量F2’与特征向量F2的欧式距离D1小于预设欧式距离D，则电子设备确定特征向量F2’与特征向量F2相匹配。进一步地，电子设备确定候选目标人物A即为跟踪目标。可以理解的是，预设欧式距离D可以由电子设备的系统配置。

在一种可能的实现方式中，多个跟踪目标图像包含第一跟踪目标图像和第二跟踪目标图像，多个跟踪目标图像从跟踪目标获取；多个候选目标图像包括第一候选目标图像和第二候选目标图像，多个候选目标图像从第一候选目标获取；第一跟踪目标图像中包含的跟踪目标的关键点的数量与第一候选目标图像中包含的第一候选目标的关键点的数量相同；第二跟踪目标图像中包含的跟踪目标的关键点的数量与第二候选目标图像中包含的第一候选目标的关键点的数量相同；第一跟踪目标图像中包含的跟踪目标关键点的数量大于第二跟踪目标图像中包含的跟踪目标关键点的数量；第一跟踪目标特征为第一跟踪目标图像提取的，第一候选目标特征为从第一候选目标图像中提取的。

在一种可能的实现方式中，电子设备在跟踪目标的跟踪目标特征和候选目标的候选目标特征中选择包含相同关键点数量，且关键点数量最多的第一候选目标特征和第一跟踪目标特征进行特征匹配。这里，包含关键点最多的第一候选目标特征是指，第一候选目标对应的第一候选目标图像为多个候选目标图像中包含关键点最多的候选目标图像。包含关键点最多的第一跟踪目标特征是指，第一跟踪目标对应的第一跟踪目标图像为多个跟踪目标图像中包含关键点最多的跟踪目标图像。这里，第一候选目标特征对应的第一候选目标图像是指，电子设备从第一候选目标图像中提取到第一候选目标特征。第一跟踪目标特征对应的第一跟踪目标图像是指，电子设备可以从第一跟踪目标图像中提取到第一跟踪目标特征。举例来说，若跟踪目标对应的多个跟踪目标特征中包含跟踪目标的关键点A1-关键点A4的特征向量F1，包含跟踪目标的关键点A1-关键点A10特征信息的特征向量F2，包含跟踪目标的关键点A1-关键点A12特征信息的特征向量F3，以及包含跟踪目标的关键点A1-关键点A14特征信息的特征向量F4。候选目标对应的多个候选目标特征中有包含候选目标关键点A1-关键点A4特征信息的特征向量F1’，包含候选目标的关键点A1-关键点A10特征信息的特征向量F2’。那么电子设备可以将包含同样关键点数量的特征向量F2’与特征向量F2进行特征匹配。

进一步地，当关键点数量最多的候选目标特征和跟踪目标特征不匹配时，电子设备可以将关键点数量较少，当包含关键点数量相同的候选目标特征和跟踪目标特征进行特征匹配。例如，若特征向量F2’与特征向量F2不匹配，电子设备可以将特征向量F1’与特征向量F1进行特征匹配。

可选地，当关键点数量最多的候选目标特征和跟踪目标特征不匹配时，电子设备显示第N+2帧图像。电子设备对第N+2图像执行步骤S104-步骤S107。

在一种可能的实现方式中，当电子设备确定第N+1帧图像的候选目标A为用户在第N帧图像中选定的跟踪目标时，电子设备可以将第N+1帧图像的候选目标A对应的候选目标特征增加到电子设备保存的跟踪目标对应的跟踪目标特征中。即电子设备保存的跟踪目标对应的特征变为跟踪目标特征和候选目标特征。例如，跟踪目标对应的跟踪目标特征只有特征向量F1和特征向量F2。第N+1帧中的候选目标A对应的候选目标特征有特征向量F1’、特征向量F2’、包含候选目标A关键点A1-关键点A12的特征信息的特征向量F3’、以及包含候选目标A关键点A1-关键点A14的特征信息的特征向量F4’。电子设备可以将特征向量F3’和特征向量F4’增加到保存的跟踪目标对应的跟踪目标特征中。或者，跟踪目标为站姿的人物A，候选目标为蹲着或者行走的人物A时，同一个人不同的姿态的时候，电子设备对同一个身体部位提取到的特诊更可能不相同。电子设备可以将特征向量F1’、特征向量F2’、特征向量F3’和特征向量F4’全部增加到保存的跟踪目标对应的跟踪目标特征中。这样，电子设备可以将同一个人物的不同姿态时，各个身体部位的特征也保存下来。

可选地，当电子设备确定第N+1帧图像的候选目标A为用户在第N帧图像中选定的跟踪目标时，电子设备可以将电子设备保存的跟踪目标对应的跟踪目标特征更新为第N+1帧图像的候选目标A对应的候选目标特征。例如，跟踪目标对应的跟踪目标特征只有特征向量F1和特征向量F2。第N+1帧中的候选目标A对应的候选目标特征有特征向量F1’、特征向量F2’。电子设备将保存的跟踪目标对应的特征向量F1和特征向量F2更新为特征向量F1’、特征向量F2’。

具体地，电子设备可以每隔预设帧数更新电子设备保存的跟踪目标对应的跟踪目标特征。例如，预设帧数可以是10，即电子设备每隔10帧更新电子设备保存的跟踪目标对应的跟踪目标特征。该预设帧数可以由电子设备系统配置，预设帧数的具体数值可以是5，也可以是10，也可以是其他数值。本申请实施例对预设帧数的数值不作限定。

电子设备执行完步骤S107后，电子设备显示第N+2帧图像，继续执行步骤S104-步骤S107。直到目标跟踪功能停止或关闭，电子设备停止执行步骤S104-步骤S107。

可选地，当电子设备在预设时长内未检测到跟踪目标，电子设备可以停止或关闭目标跟踪功能。可以理解的是，预设时长可以由电子设备系统配置。本申请实施例对预设时长的具体数值不作限定。

实施本申请实施例提供的一种目标跟踪方法，电子设备可以将第N帧图像中确定的跟踪目标划分成用来进行特征提取的多张跟踪目标图像，这样，电子设备对多张跟踪目标图像进行特征提取可以得到并保存跟踪目标多个维度的跟踪目标特征。然后电子设备在第N+1帧图像中检测候选目标，并按照跟踪目标划分跟踪目标图像的方式将候选目标划分为用来进行特征提取的多张候选目标图像。电子设备对候选目标图像进行特征提取可以得到候选目标多个维度的候选目标特征。电子设备可以选择包含同样数量关键点特征信息的跟踪目标特征和候选目标特征进行匹配。电子设备只用跟踪目标和候选目标共同的身体部分的特征进行匹配。这样，当跟踪目标为全身的人物A，候选目标为半身的人物A时，电子设备可以准确地检测出候选目标即为跟踪目标。当跟踪的对象出现遮挡、显示不全、变形时，只要用户选定的跟踪目标和候选目标有相同的部分，电子设备可以准确地进行目标跟踪。这样，提升了电子设备目标跟踪的准确率。

电子设备可以对指定的对象(例如人物)进行目标跟踪，跟踪目标可能会发生形变。例如，跟踪目标为人物时，人物可以从蹲着的位姿变换成坐在的位姿、或者站着的位姿。即在连续的图像帧中跟踪目标的位姿会发生改变。当第N帧图像和第N+1帧图像同一个人物的位姿发生改变时，电子设备可能无法准确地在第N+1帧图像中检测出用户在第N帧图像中指定的跟踪目标。这样会导致电子设备目标跟踪失败。

为了提升电子设备在跟踪目标发生形变时的目标跟踪准确率，本申请实施例提供了一种目标跟踪方法。如图23所示，该方法具体可以包括：

S200、电子设备显示用户界面A，用户界面A中显示第N帧图像，第N帧图像中包含有跟踪目标。

步骤S200可以参考步骤S100，此处不再赘述。

S201、电子设备在用户界面A中确定跟踪目标以及跟踪目标的第一位姿。

电子设备如何在用户界面A中确定跟踪目标可以参考步骤S201中的描述。电子设备可以识别跟踪目标的位姿。第一位姿可以为蹲、坐、行走、站立中的任一项。本申请实施例中用户界面A可以称为第一用户界面。

在一种可能的实现方式中，电子设备可以通过人体关键点以及人体位姿识别技术识别人体的位姿。人体位姿识别技术的输入是人体关键点信息(例如关键点的位置信息)。人体位姿识别技术的输出是人体的位姿，例如，蹲、坐、行走、站立等等。不同位姿的人物A对应着不同的特征向量，例如图24中示出不同位姿的人物A分别对应的特征。图24中，图像2401为位姿为蹲的人物A。图像2401对应的特征向量为F11。F11可以包括位姿为蹲的人物A的各个关键点的信息。图像2402为位姿为坐的人物A。图像2401对应的特征向量为F22。F22可以包括位姿为坐的人物A的各个关键点的信息。图像2403为位姿为蹲的人物A。图像2403对应的特征向量为F33。F33可以包括位姿为行走的人物A的各个关键点的信息。图像2404为位姿为站立的人物A。图像2404对应的特征向量为F44。F44可以包括位姿为站立的人物A的各个关键点的信息。

可以理解的是，人体的位姿可以不限于图24中示出的蹲、坐、行走、站立。人体的位姿还可以包括半蹲、跑、跳跃等等，本申请实施例不作限定。电子设备的位姿识别技术不限于基于人体关键点来识别人体位姿，本申请实施例对电子设备进行位姿识别的方式不作限定。

S202、电子设备对跟踪目标进行特征提取得到并保存跟踪目标对应的跟踪目标特征。

电子设备可以对确定位姿的跟踪目标进行特征提取，得到并保存跟踪目标特征。如图25所示，用户在第N帧图像中指定的跟踪目标可以是位姿为蹲的人物A，即图25中示出的图像2501。电子设备对跟踪目标进行特征提取，得到第一特诊，并保存跟踪目标特征。这里，可以参考上文中对步骤S103中对跟踪目标进行特征提取的描述，此处不再赘述。

S203、电子设备显示用户界面B，用户界面B中显示有第N+1帧图像，第N+1帧图像中包含有一个或多个候选目标。

步骤S203可以参考步骤S104的描述，此处不再赘述。在本申请实施例中，用户界面B可以称为第二用户界面。

S204、电子设备确定一个或多个候选目标的第二位姿并对候选目标进行特征提取得到候选目标特征。

电子设备可以检测出第N+1帧图像中的一个或多个候选目标。电子设备还可以确定出一个或多个候选目标的第二位姿。第二位姿可以为蹲、坐、行走、站立中的任一项。电子设备可以对第二位姿的候选目标进行特征提取。举例来说，如图26所示，第N+1帧图像中的候选目标为图像2601，即位姿为坐的人物A。电子设备对位姿为坐的人物A进行特征提取，得到候选目标特征，例如特征向量F22。

S205、电子设备确定一个或多个候选目标中的第一候选目标为跟踪目标，若第一位姿和第二位姿不同，电子设备将候选目标特征保存到跟踪目标对应的特征库中，特征库中保存有跟踪目标特征。

第N+1帧图像中可以包含一个或多个候选目标，一个或候选目标中包含第一目标。电子设备可以确定出第N+1帧的第一候选目标是否为用户在第N帧中指定的跟踪目标。电子设备确定第一候选目标为跟踪目标的方式可以有多种。

在一种可能的实现方式中，若第N帧图像中仅包含一个对象，即跟踪目标，第N+1帧图像中仅包含一个对象，即第一候选目标。电子设备可以直接确定该第一候选目标为跟踪目标。

在一种可能的实现方式中，若跟踪目标的第一位姿和第一候选目标的第二位姿相同，电子设备可以将跟踪目标特征和候选目标特征进行特征匹配。若候选目标特征和跟踪目标特征匹配，电子设备确定第一候选目标为跟踪目标。

在一种可能的实现方式中，若第N+1帧图像中有多个候选目标，电子设备可以获取跟踪目标在第N帧图像中的位置，例如跟踪目标的中心在第N帧图像的第一位置。电子设备可以获取第一候选目标在第N+1帧图像中的位置，例如第一候选目标的中心在第N+1帧图像中的第二位置。若第一位置和第二位置的预设距离小于预设距离，电子设备可以确定第一候选目标为跟踪目标。可以理解的是，预设距离可以由电子设备的系统配置，本申请实施例对预设距离具体不作限定。

在一种可能的实现方式中，若电子设备保存了跟踪目标在不同位姿时的特征，电子设备可以将保存的跟踪目标特征中位姿与第一候选目标的第二位姿相同的特征向量与候选目标特征进行特征匹配，若匹配，则电子设备确定第一候选目标为跟踪目标。

电子设备确定第一候选目标为跟踪目标后，若跟踪目标的第一姿态与第一候选第二姿态不同。电子设备可以将候选目标特征保存到跟踪目标对应的特征库中，特征库中保存有跟踪目标特征。如图25所示，跟踪目标为位姿为蹲的人物A。如图26所示，第一候选目标为位姿为坐的人物A。当电子设备确定第一候选目标为跟踪目标后，电子设备可以将第一候选目标对应的候选目标特征保存到目标对应的特征库中。例如图27所示，电子设备将第一候选目标对应的特征向量F22保存到跟踪目标对应的特征库中。即跟踪目标对应的特征从特征向量F11增加为特征向量F11和特征向量F22。

可以理解的是，若在后续的图像帧中，例如第N+2帧图像、第N+3帧图像等等图像帧中，人物A的位姿变换为行走或站立。电子设备可以将人物A不同的位姿对应的特征向量均保持到跟踪目标对应的特征库中。如图28所示，跟踪目标对应的特征向量从特征向量F11增加到特征向量F11、特征向量F22、特征向量F33和特征向量F44。

下面介绍本申请实施例提供的示例性电子设备100。

图29是本申请实施例提供的电子设备100的结构示意图。

下面以电子设备100为例对实施例进行具体说明。应该理解的是，电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在本申请实施例中，处理器110还可以用于获取所述第一候选目标的多个候选目标特征；当所述多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，确定所述第一候选目标为跟踪目标；所述跟踪目标由所述处理器在第M帧图像中确定；所述多个跟踪目标特征为所述处理器从所述跟踪目标获取的特征；所述M小于K。

在本申请实施例中，处理器110还可以用于根据跟踪目标获取多个跟踪目标图像，跟踪目标图像包含跟踪目标的部分或全部；对多个跟踪目标图像进行特征提取，得到多个跟踪目标特征，其中，多个跟踪目标特征的数量等于多个跟踪目标图像的数量。

在本申请实施例中，处理器110还可以用于根据第一候选目标获取多个候选目标图像；多个候选目标图像包含第一候选目标的部分或全部；对多个候选目标图像分别进行特征提取，得到多个候选目标特征，多个候选目标特征的数量等于多个候选目标特征的数量。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。

UART接口是一种通用串行数据总线，用于异步通信。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

SIM接口可以被用于与SIM卡接口195通信，实现传送数据到SIM卡或读取SIM卡中数据的功能。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

在本身实施例中，显示屏可以用于显示第一用户界面和第二用户界面。显示屏可以显示第N帧图像、第N+1帧图像等等。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

在本身实施例中，摄像头193还可以用于获取第N帧图像、第N+1帧图像等等。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用(比如人脸识别功能，指纹识别功能、移动支付功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如人脸信息模板数据，指纹信息模板等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。

图30是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将系统分为四层，从上至下分别为应用程序层，应用程序框架层，运行时(Runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图30所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序(也可以称为应用)。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图30所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

运行时(Runtime)包括核心库和虚拟机。Runtime负责系统的调度和管理。

核心库包含两部分：一部分是编程语言(例如，jave语言)需要调用的功能函数，另一部分是系统的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的编程文件(例如，jave文件)执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，二维图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了二维(2-Dimensional，2D)和三维(3-Dimensional，3D)图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现3D图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动，虚拟卡驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种目标跟踪方法，其特征在于，包括：

电子设备显示第一用户界面，所述第一用户界面中显示第M帧图像，所述第M帧图像中包含有跟踪目标；

所述电子设备获取所述跟踪目标的多个跟踪目标特征；

所述电子设备显示第二用户界面，所述第二用户界面中显示第K帧图像，所述第K帧图像中包含有第一候选目标；所述第K帧图像为所述第M帧图像之后的图像帧；

所述电子设备获取所述第一候选目标的多个候选目标特征；

当所述多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，所述电子设备确定所述第一候选目标为跟踪目标。

2.根据权利要求1所述的方法，其特征在于，所述电子设备获取所述跟踪目标的多个跟踪目标特征，具体包括：

所述电子设备根据所述跟踪目标获取多个跟踪目标图像，所述跟踪目标图像包含所述跟踪目标的部分或全部；

所述电子设备对所述多个跟踪目标图像进行特征提取，得到所述多个跟踪目标特征，其中，所述多个跟踪目标特征的数量等于所述多个跟踪目标图像的数量。

3.根据权利要求2所述的方法，其特征在于，所述电子设备将所述跟踪目标分成多个跟踪目标图像，具体包括：

所述电子设备根据所述跟踪目标的关键点获取所述跟踪目标的多个跟踪目标图像，所述跟踪目标图像中包含所述跟踪目标的一个或多个关键点。

4.根据权利要求3所述的方法，其特征在于，所述多个跟踪目标图像中包含第一跟踪目标图像和第二跟踪目标图像，其中：

所述第一跟踪目标图像和所述第二跟踪目标图像包含有相同的所述跟踪目标的关键点，且所述第二跟踪目标图像包含的所述跟踪目标的关键点多于所述第一跟踪目标图像包含的所述跟踪目标的关键点；

或，所述第一跟踪目标图像包含的所述跟踪目标的关键点与所述第二跟踪目标图像包含的所述跟踪目标的关键点不同。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述电子设备获取所述第一候选目标的多个候选目标特征，包括：

所述电子设备根据所述第一候选目标获取多个候选目标图像；所述多个候选目标图像包含所述第一候选目标的部分或全部；

所述电子设备对所述多个候选目标图像分别进行特征提取，得到所述多个候选目标特征，所述多个候选目标特征的数量等于所述多个候选目标特征的数量。

6.根据权利要求5所述的方法，其特征在于，所述电子设备将所述第一候选目标分成多个候选目标图像，具体包括：

所述电子设备根据所述第一候选目标的关键点获取所述多个候选目标图像，所述候选目标图像包含所述第一候选目标的一个或多个关键点。

7.根据权利要求6所述的方法，其特征在于，所述多个候选目标图像包括所述第一候选目标图像和第二候选目标图像，其中：

所述第一候选目标图像和所述第二候选目标图像包含有相同的所述第一候选目标的关键点，且所述第二候选目标图像包含的所述第一候选目标的关键点多于所述第一候选目标图像包含的所述第一候选目标的关键点；

或，所述第一候选目标图像包含的所述第一候选目标的关键点与所述第二候选目标图像包含的所述第一候选目标的关键点不同。

8.根据权利要求1-7任一项所述的方法，其特征在于，多个跟踪目标图像包含第一跟踪目标图像和第二跟踪目标图像，所述多个跟踪目标图像从所述跟踪目标获取；多个候选目标图像包括第一候选目标图像和第二候选目标图像，多个候选目标图像从所述第一候选目标获取；所述第一跟踪目标图像中包含的所述跟踪目标的关键点的数量与所述第一候选目标图像中包含的所述第一候选目标的关键点的数量相同；所述第二跟踪目标图像中包含的所述跟踪目标的关键点的数量与所述第二候选目标图像中包含的所述第一候选目标的关键点的数量相同；所述第一跟踪目标图像中包含的所述跟踪目标关键点的数量大于所述第二跟踪目标图像中包含的所述跟踪目标关键点的数量；所述第一跟踪目标特征为所述第一跟踪目标图像提取的，所述第一候选目标特征为从所述第一候选目标图像中提取的。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述当所述多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，所述电子设备确定所述第一候选目标为跟踪目标之后，所述方法还包括：

所述电子设备将所述第二候选目标保存到保存有所述多个跟踪目标特征的特征库中；所述第二候选特征为所述电子设备从所述多个候选目标图像中的第三候选目标图像中提取的；所述第三候选目标图像中包含的所述第一候选目标的关键点的数量多于所述多个跟踪目标图像包含的所述跟踪目标的关键点的数量。

10.根据权利要求8或9任一项所述的方法，其特征在于，所述当所述多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，所述电子设备确定所述第一候选目标为跟踪目标之后，所述方法还包括：

若所述M与所述K的差值等于所述预设阈值，所述电子设备将所述第一候选目标特征保存到保存有所述多个跟踪目标特征的特征库中。

11.根据权利要求10所述的方法，其特征在于，所述电子设备将所述第一候选目标特征保存到保存有所述多个跟踪目标特征的特征库中，具体包括：

所述电子设备将所述保存有所述多个跟踪目标特征的特征库中的所述第一跟踪目标特征替换为所述第一候选目标特征。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备在所述第M帧图像中检测到所述跟踪目标；

所述电子设备在所述第一用户界面中显示检测框，所述检测框用于圈定所述跟踪目标；

所述电子设备接收第一用户操作，所述第一操作用于在所述第一用户界面中选定所述跟踪目标；

响应于所述第一用户操作，所述电子设备确定所述跟踪目标。

13.根据权利要求1-12任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备在所述第K帧图像中检测到一个或多个候选目标，所述一个或多个候选目标中包含所述第一候选目标；所述一个或多个候选目标与所述跟踪目标的属性相同。

14.一种电子设备，其特征在于，包括：显示屏、处理器、存储器；所述存储器与所述处理器耦合；所述显示屏于所述处理器耦合，其中：

所述显示屏用于显示第一用户界面，所述第一用户界面中显示第M帧图像，所述第M帧图像中包含有跟踪目标；显示第二用户界面，所述第二用户界面中显示第K帧图像，所述第K帧图像中包含有第一候选目标；

所述处理器用于获取所述跟踪目标的多个跟踪目标特征；获取所述第一候选目标的多个候选目标特征；当所述多个候选目标特征中的第一候选目标特征与多个跟踪目标特征中的第一跟踪目标特征匹配时，确定所述第一候选目标为跟踪目标；

所述存储器用于保存所述多个跟踪目标特征。

15.根据权利要求14所述的电子设备，其特征在于，所述处理器具体用于：

根据所述跟踪目标获取多个跟踪目标图像，所述跟踪目标图像包含所述跟踪目标的部分或全部；

对所述多个跟踪目标图像进行特征提取，得到所述多个跟踪目标特征，其中，所述多个跟踪目标特征的数量等于所述多个跟踪目标图像的数量。

16.根据权利要求15所述的电子设备，其特征在于，所述处理器具体用于：

根据所述跟踪目标的关键点获取所述多个跟踪目标图像，所述跟踪目标图像中包含所述跟踪目标的一个或多个关键点。

17.根据权利要求16所述的电子设备，其特征在于，所述多个跟踪目标图像中包含第一跟踪目标图像和第二跟踪目标图像，其中：

18.根据权利要求14-17任一项所述的电子设备，其特征在于，所述处理器用于：

根据所述第一候选目标获取多个候选目标图像；所述多个候选目标图像包含所述第一候选目标的部分或全部；

对所述多个候选目标图像分别进行特征提取，得到所述多个候选目标特征，所述多个候选目标特征的数量等于所述多个候选目标特征的数量。

19.根据权利要求18所述的电子设备，其特征在于，所述处理器具体用于：

根据所述第一候选目标的关键点获取所述多个候选目标图像，所述候选目标图像包含所述第一候选目标的一个或多个关键点。

20.根据权利要求19所述的电子设备，其特征在于，所述多个候选目标图像包括所述第一候选目标图像和第二候选目标图像，其中：

21.根据权利要求14-20任一项所述的电子设备，其特征在于，多个跟踪目标图像包含第一跟踪目标图像和第二跟踪目标图像，所述多个跟踪目标图像从所述跟踪目标获取；多个候选目标图像包括第一候选目标图像和第二候选目标图像，多个候选目标图像从所述第一候选目标获取；所述第一跟踪目标图像中包含的所述跟踪目标的关键点的数量与所述第一候选目标图像中包含的所述第一候选目标的关键点的数量相同；所述第二跟踪目标图像中包含的所述跟踪目标的关键点的数量与所述第二候选目标图像中包含的所述第一候选目标的关键点的数量相同；所述第一跟踪目标图像中包含的所述跟踪目标关键点的数量大于所述第二跟踪目标图像中包含的所述跟踪目标关键点的数量；所述第一跟踪目标特征为所述第一跟踪目标图像提取的，所述第一候选目标特征为从所述第一候选目标图像中提取的。

22.根据权利21要求所述的电子设备，其特征在于，所述存储器用于：

将所述第二候选目标保存到保存有所述多个跟踪目标特征的特征库中；所述第二候选特征为所述处理器从所述多个候选目标图像中的第三候选目标图像中提取的；所述第三候选目标图像中包含的所述第一候选目标的关键点的数量多于所述多个跟踪目标图像包含的所述跟踪目标的关键点的数量。

23.根据权利要求21所述的电子设备，其特征在于，所述存储器用于：

若所述M与所述K的差值等于所述预设阈值，将所述第一候选目标特征保存到保存有所述多个跟踪目标特征的特征库中。

24.根据权利要求23所述的电子设备，其特征在于，所述存储器用于：

将所述保存有所述多个跟踪目标特征的特征库中的所述第一跟踪目标特征替换为所述第一候选目标特征。

25.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至13任一项所述的方法。