CN112166435B

CN112166435B - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN112166435B
Application number: CN202080000948.0A
Authority: CN
Inventors: 赵海宇; 张明远; 陈凯歌
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2019-12-23
Filing date: 2020-03-19
Publication date: 2024-08-13
Anticipated expiration: 2040-03-19
Also published as: CN112166435A

Abstract

公开了一种目标跟踪方法、装置、电子设备及存储介质。所述方法包括：对待处理图像进行检测，获得手部检测结果；响应于手部检测结果包括手部的检测框，确定所述检测框中手部姿态符合目标手势中的手部姿态的手部为目标手部；根据所述待处理图像中的目标手部，在视频流中跟踪所述目标手部，其中，所述视频流中的图像和所述待处理图像是采集同一目标区域得到的，且所述视频流中的图像是在所述待处理图像之后采集得到的。

Description

目标跟踪方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请为2020年3月19日提交的发明名称为“目标跟踪方法、装置、电子设备及存储介质”、申请号为PCT/IB2020/052494的PCT申请的中国国家阶段申请，并且该PCT申请要求于2019年12月23日提交的、申请号为10201913029S的新加坡专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术，具体涉及目标跟踪方法、装置、电子设备及存储介质。

背景技术

近年来，随着人工智能技术的不断发展，人工智能技术在计算机视觉、语音识别等方面均取得了比较好的效果。在一些相对特殊的场景(例如桌面游戏场景)中进行目标识别和跟踪时，利用单帧图片进行识别容易误判，而利用视频中的多帧进行识别时深度学习模型过于庞大会带来较大系统耗时。

发明内容

本公开提供了目标跟踪方案。

根据本公开的一方面，提供了目标跟踪方法。所述方法包括：对待处理图像进行检测，获得手部检测结果；响应于手部检测结果包括手部的检测框，确定检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部；根据所述待处理图像中的目标手部，在视频流中跟踪所述目标手部，其中，所述视频流中的图像和所述待处理图像是采集同一目标区域得到的，且所述视频流中的图像是在所述待处理图像之后采集得到的。

根据本公开提供的任一实施方式，响应于所述手部检测结果包括手部的检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部，包括：响应于所述手部检测结果包括所述检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态，且所述检测框中的手部在所述待处理图像中的预先定义的区域内的手部为所述目标手部。

根据本公开提供的任一实施方式，确定所述检测框中的手部姿态符合目标手势中的手部姿态，包括：响应于所述手部检测结果包括手部的检测框，裁剪出所述待处理图像中位于所述检测框中的图像；根据裁剪出的图像，确定所述裁剪出的图像中的手部姿态符合目标手势中的手部姿态。

根据本公开提供的任一实施方式，所述目标手势中的手部姿态为两手均朝上；确定所述检测框中的手部姿态符合目标手势中的手部姿态，包括：将所述检测框中的图像输入至手势分类神经网络，获得手势分类结果，所述手势分类结果包括手朝上或者手部为其他姿态；在两个手部的检测框的手势分类结果均为两只手朝上时，确定这两个手部的检测框中的手部姿态符合目标手势中的手部姿态。

根据本公开提供的任一实施方式，所述手势分类神经网络利用手部图像样本训练得到，所述手部图像样本中包括手朝上的图像样本，所述手朝上的图像样本的标注结果为手部的手心。

根据本公开提供的任一实施方式，确定检测框中的手部在所述待处理图像中的预先定义的区域内，包括：响应于确定所述检测框的中心点位于所述待处理图像的预先定义的区域内，确定所述检测框中的手部在所述待处理图像中的预先定义的区域内。

根据本公开提供的任一实施方式，所述预先定义的区域包括所述处理图像中、与所述目标区域中的两个子区域分别对应的两个设定的子区域；确定所述检测框的中心点在所述待处理图像中的预先定义的区域内，包括：确定所述待处理图像中两个检测框的中心点分别在两个设定的子区域中。

根据本公开提供的任一实施方式，根据所述待处理图像中的目标手部，在所述视频流中跟踪所述目标手部，包括：针对所述视频流中的一帧图像，根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵；其中，该帧图像的第一矩阵包括目标手部的检测框的中心在该帧图像中的位置信息，该帧图像的第二矩阵是该帧图像的第一矩阵的协方差矩阵。

根据本公开提供的任一实施方式，根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵，包括：响应于该帧图像的手部检测结果未包括目标手部的检测框，将前一帧图像的第一矩阵确定为该帧图像中的第一矩阵，通过修正矩阵对前一帧图像的第二矩阵进行修正以获得该帧图像中的第二矩阵，其中，所述修正矩阵是所述前一帧图像的第二矩阵的协方差矩阵。

根据本公开提供的任一实施方式，根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵，包括：响应于该帧图像的手部检测结果包括目标手部的检测框，根据该帧图像与前一帧图像的时间间隔，利用前一帧图像的第一矩阵预测得到该帧图像的第一预测矩阵以及第二预测矩阵，其中，所述第二预测矩阵是所述第一预测矩阵的协方差矩阵；根据所述目标手部的检测框的位置信息获得该帧图像的第三预测矩阵和第四预测矩阵，其中，所述第三预测矩阵包含在该帧图像中目标手部的检测框的中心的预测位置信息，所述第四预测矩阵是所述第三预测矩阵的协方差矩阵；将所述第二预测矩阵对应的高斯分布与所述第四预测矩阵对应的高斯分布相乘，得到新的高斯分布，根据所得到的新的高斯分布的均值确定该帧图像的所述第一矩阵，并根据所得到的新的高斯分布的协方差确定该帧图像的所述第二矩阵。

根据本公开提供的任一实施方式，所述待处理图像为在俯视视角下采集到的目标区域的图像。

根据本公开的一方面，提供了目标跟踪装置。所述装置包括：检测单元，用于对待处理图像进行检测，获得手部检测结果；确定单元，用于响应于所述手部检测结果包括手部的检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部；跟踪单元，用于根据所述待处理图像中的目标手部，在视频流中跟踪所述目标手部，所述视频流中的图像和所述待处理图像是采集同一目标区域得到的，且所述视频流中的图像是在所述待处理图像之后采集得到的。

根据本公开提供的任一实施方式，所述确定单元用于：响应于手部检测结果包括所述检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态，且所述检测框中的手部在所述待处理图像中的预先定义的区域内的手部为目标手部。

根据本公开提供的任一实施方式，所述确定单元用于：响应于手部检测结果包括手部的检测框，裁剪出所述待处理图像中位于所述检测框中的图像；根据裁剪出的图像，确定所述裁剪出的图像中的手部姿态符合目标手势中的手部姿态。

根据本公开提供的任一实施方式，所述目标手势中的手部姿态为两手均朝上；所述确定单元用于：将所述检测框中的图像输入至手势分类神经网络，获得手势分类结果，所述手势分类结果包括手朝上或者手部为其他姿态；在两个手部的检测框的手势分类结果均为手朝上时，确定这两个手部的检测框中的手部姿态符合目标手势中的手部姿态。

根据本公开提供的任一实施方式，所述确定单元用于：响应于确定所述检测框的中心点位于所述待处理图像的预先定义的区域内，确定所述检测框中的手部在所述待处理图像中的预先定义的区域内。

根据本公开提供的任一实施方式，所述预先定义的区域包括所述处理图像中、与所述目标区域中的两个子区域分别对应的两个设定的子区域；所述确定单元用于：确定所述待处理图像中两个手部的检测框的中心点分别在两个设定的子区域中。

根据本公开提供的任一实施方式，所述跟踪单元用于：针对所述视频流中的一帧图像，根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵；其中，该帧图像的第一矩阵包括目标手部的检测框的中心在该帧图像中的位置信息，该帧图像的第二矩阵是该帧图像的第一矩阵的协方差矩阵。

根据本公开提供的任一实施方式，所述跟踪单元用于：响应于该帧图像的手部检测结果未包括目标手部的检测框，将前一帧图像的第一矩阵确定为该帧图像中的第一矩阵，通过修正矩阵对前一帧图像的第二矩阵进行修正以获得该帧图像中的第二矩阵，其中，所述修正矩阵是所述前一帧图像的第二矩阵的协方差矩阵。

根据本公开提供的任一实施方式，所述跟踪单元用于：响应于该帧图像的手部检测结果包括目标手部的检测框，根据该帧图像与前一帧图像的时间间隔，利用前一帧图像的第一矩阵预测得到该帧图像的第一预测矩阵以及第二预测矩阵，其中，所述第二预测矩阵是所述第一预测矩阵的协方差矩阵；根据所述目标手部的检测框的位置信息获得该帧图像的第三预测矩阵和第四预测矩阵，其中，所述第三预测矩阵包含在该帧图像中目标手部的检测框的中心的位置信息，所述第四预测矩阵是所述第三预测矩阵的协方差矩阵；将所述第二预测矩阵对应的高斯分布与所述第四预测矩阵对应的高斯分布相乘，得到新的高斯分布，根据所得到的新的高斯分布的均值确定该帧图像的所述第一矩阵，并根据所得到的新的高斯分布的协方差确定该帧图像的所述第二矩阵。

根据本公开的一方面，提供了电子设备，所述电子设备包括存储器和处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的目标跟踪方法。

根据本公开的一方面，提供了计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一所述的目标跟踪方法。

本公开一个或多个实施例的目标识别方法、装置、电子设备及存储介质，通过对手部检测结果中检测框中的手部姿态进行检测，确定符合目标手势中的手部姿态的目标手部，也即在待处理图像中识别出了需要追踪的目标手部，并在同步采集的视频流中追踪所述目标手部，能够根据目标手势快速、有效地识别出目标手部，提高了追踪效率。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开至少一个实施例提供的目标跟踪方法的流程图；

图2为本公开至少一个实施例提供的目标跟踪方法的应用场景的示意图；

图3A～3F为本公开至少一个实施例提供的手势分类结果的示意图；

图4为本公开至少一个实施例提供的目标跟踪方法的应用场景的示意图；

图5为本公开至少一个实施例提供的目标跟踪装置的结构示意图；

图6为本公开至少一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

本公开至少一个实施例提供了目标跟踪方法，所述目标跟踪方法可以由终端设备或服务器等电子设备执行，终端设备可以包括用户设备(UserEquipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

图1示出了该目标跟踪方法的流程，如图1所示，可以包括步骤101～步骤103。

在步骤101中，对待处理图像进行检测，获得手部检测结果。

在本公开实施例中，所述待处理图像可以是图像采集设备(例如摄像头)所采集的桌面区域的图像。所述图像可以包括完整的桌面图像，也可以包括桌面的部分图像。

图像采集设备所采集的图像可以是视频流中的一帧，也可以是实时获取的图像，并公开对此不作限制。

在本公开实施例中，可以利用深度学习网络，例如faster RCNN网络，检测图像中的手部，从而获得手部检测结果。本领域技术人员应当理解，faster RCNN网络仅为示例，也可以采用其他的网络进行手部检测，本公开对此不进行限制。

在一些实施例中，可以采用俯视视角采集待处理图像，也即通过鸟瞰摄像头(Birdview camera)采集所述待处理图像。对于例如桌面游戏这一应用场景来说，俯视视角是较佳的拍摄视角，该视角通常可以避免其他物体对检测目标的遮挡。然而本领域技术人员应当理解，图像采集设备以其他视角，例如左侧视角或右侧视角，采集的待处理图像，也可以应用本公开实施例提出的目标跟踪方法。

在步骤102中，响应于手部检测结果包括手部的检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部。

在本公开实施例中，可以通过对检测框中的图像进行检测，通过将检测到的特征与目标手势中手部姿态的特征进行比较，以确定检测框中的手部姿态是否符合目标手势的手部姿态；也可以通过对所述检测框中的手部姿态进行分类，通过分类结果判断检测框中的手部姿态是否符合目标手势的手部姿态。具体判断方法容后详述。

响应于手部检测结果包括一个或多个手部的检测框，可以将其中手部姿态符合目标手势中的手部姿态的检测框确定为目标检测框，并且将所述目标检测框中的手部确定为目标手部。

在步骤103中，根据所述待处理图像中的目标手部，在视频流中跟踪所述目标手部。

其中，所述视频流中的图像和所述待处理图像是采集同一目标区域得到的，且所述视频流中的图像是在所述待处理图像之后采集得到的。

在一些实施例中，所述待处理图像与所述视频流中的图像可以是同步采集的。

在一些实施例中，所述待处理图像为在俯视视角下采集到的目标区域的图像；而视频流中的图像可以是在俯视视角下采集到的所述目标区域的图像，也可以是在其他视角下，例如侧视视角下采集到的所述目标区域的图像。

响应于在所述待处理图像中确定出目标手部，在同步采集的视频流中追踪所述目标手部。

对于待处理图像中的目标手部，可以在视频流中的图像中确定与所述目标手部关联的手部，并将其确定为视频流中的目标手部以进行追踪。可以采用多种方法确定所述待处理图像中的手部与视频流的图像中的手部之间的关联关系，本公开对此不进行限制。

在本公开实施例中，通过对手部检测结果中检测框中的手部姿态进行检测，确定符合目标手势中的手部姿态的目标手部，也即在待处理图像中识别出了需要追踪的目标手部，并在同步采集的视频流中追踪所述目标手部，能够根据目标手势快速、有效地识别出目标手部，提高了追踪效率。

在一些实施例中，可以将检测框的中心点确定为手部的位置。本领域技术人员应当理解，也可以将检测框的其他位置点确定为手部的位置，例如当待识别目标手势与其中一个手指的关系最为密切时，可以将该手指在检测框中的位置确定为手部的位置。手部位置的具体确定方式可以根据待识别目标手势与检测框的关系来确定。

在一些实施例中，响应于手部检测结果包括手部的检测框，确定检测框中的手部姿态符合目标手势中的手部姿态，且检测框中的手部在所述待处理图像中的预先定义的区域内的手部为目标手部。

在本公开实施例中，在手部检测结果包括手部的检测框的情况下，手部检测结果中也包含了检测框的位置信息，因此确定了手部在所述待处理图像中的位置信息。例如，可以将检测框的中心点位置作为手部的位置。在检测框中的手部姿态符合目标手势中的手部姿态，且该检测框的中心点在所述待处理图像中的预先定义的区域内的情况下，可以将该检测框中的手部作为目标手部。

在一个示例中，待处理图像中预先定义的区域包括所述待处理图像中，与所述目标区域中的两个子区域分别对应的两个设定的子区域。例如，在目标区域为游戏桌的情况下，预先定义的区域包括与游戏桌上的两个子区域对应的两个设定的子区域。

对于出现在特定区域的特定手部姿态才称为目标手势而言，通过利用在待处理图像中预先定义的区域对检测框中的手部提供位置约束，以更准确地确定检测出的手部姿态是否为目标手势。待处理图像中预先定义的区域，可以根据拍摄待处理图像的图像采集装置的位置、内部参数以及实际空间中目标手势所对应的特定区域来确定。

在一些实施例中，确定检测框中的手部姿态是否符合目标手势中的手部姿态包括：将检测框中的图像输入至预先训练的手势分类神经网络，获得手势分类结果，通过所述分类结果来判断检测框中的手部姿态是否符合目标手势中的手部姿态。

所述手势分类神经网络可以是卷积分类模型，例如使用Rsenet 18作为主干网络的卷积分类模型。本领域技术人员应当理解，所述手势分类神经网络可以根据要获得的分类类型来确定；而要获得的分类类型，可以根据待识别的目标手势来确定，本公开对此不进行限定。

在一个示例中，在待识别的目标手势只涉及手朝上时，所需获得的分类类型可以包括手朝上或手部具有其他姿态，其中，其他姿态包括除手朝上以外的手部姿态以及手部被遮挡。可以利用包括手朝上的图像样本对所述手势分类神经网络进行训练，所述手朝上的图像样本的标注结果为手部的手心。手朝上是指手部的手心朝上并且在待处理图像中能够看到手心，也就是说，手心没有被遮挡。手部被遮挡是指手部的手心被遮挡。在本公开实施例中，术语“上”和“下”是相对于地面而言的。对于手部，如果该手部的手掌比该手部的手背距离地面更近，则该手部朝下。如果该手部的手背比该手部的手掌距离地面更近，则该手部朝上。

在一个示例中，在待识别的目标手势涉及手朝上和手朝下时，所需获得的分类类型可以包括手朝上、手朝下、手部为其他姿态，其中，其他姿态包括除手朝上和手朝下以外的手部姿态，以及手部被遮挡。手朝下即手部的手心向下。可以利用包括手朝上的图像样本以及包括手朝下的图像样本对所述手势分类神经网络进行训练，其中，所述手朝上的图像样本的标注结果为手部的手心，所述手朝下的图像样本的标注结果可以是表示手部的手背的标识。

在一个示例中，在待识别的目标手势涉及特定的手部姿态时，分类类型中需要包含该特定姿态，则可以利用包含该特定手部姿态的样本手部图像对所述手势分类神经网络进行训练，以使所述手势分类神经网络能够从手部的检测框的图像中识别出该特定手部姿态。

本领域技术人员应当理解，也可以采用其他方法确定检测框中的手部姿态符合目标手势中的手部姿态，利用检测框中的手部姿态进行手势检测等等，本公开实施例对此不进行限制。

在本公开实施例中，利用手势分类神经网络对检测框中的图像进行分类，从而识别检测框中的手部姿态是否是手朝上，即是能看到手心的手部姿态。在此情况下所采用的手势分类神经网络，相较于视频分类模型，训练样本易于获取和标注，且手势分类神经网络模型识别速度相对高，因此可以实现对手部姿态的实时识别。

在一些实施例中，可以利用如下方法根据所述待处理图像中的目标手部，在视频流中跟踪所述目标手部。

针对所述视频流中的一帧图像，根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵；其中，该帧图像的第一矩阵包含目标手部的检测框的中心在该帧图像中的位置信息，该帧图像的第二矩阵是该帧图像的第一矩阵的协方差矩阵并用于测量该帧图像的第一矩阵中每个元素的联合可变性。

响应于在待处理图像中识别出目标手部，例如当在待处理图像中识别出了需要追踪的目标手部时，可以在同一视角下采集到的视频流或者不同视角下采集到的视频流中跟踪需要跟踪的目标手部。

当在不同视角下采集到的视频流中跟踪需要跟踪的目标手部时，需要首先在一图像中确定出与目标手部相关联的手部，其中该图像是视频流中的一图像帧并且是与该待处理的图像同步采集的；将与目标手部关联的手作为需要跟踪的目标手部；然后，再在视频流中跟踪需要跟踪的目标手部。

下面以同一视角下采集的待处理图像与视频流为例说明如何在视频流中跟踪需要跟踪的目标手部。

对于在待处理图像之后采集到的视频流中的每一帧图像，该帧图像的第一矩阵和第二矩阵，是通过前一帧图像的第一矩阵和第二矩阵预测得到的。根据所述待处理图像的手部检测结果，可以确定第一矩阵X以及第二矩阵P的初始信息。其中，第一矩阵X包含目标手部的检测框的中心在该帧图像中的位置信息，例如可以是1*2的矩阵；第二矩阵P为衡量第一矩阵X中各个元素的联合可变性，例如位置变量的协方差矩阵，其中，第二矩阵P可以是人工设定的超参数矩阵例如可以是2*2的矩阵。

对于视频流中的任一帧图像，在手部检测结果不同的情况下，可以利用不同的方式来确定该帧图像的第一矩阵和第二矩阵。

响应于该帧图像的手部检测结果未包括目标手部的检测框，假设目标手部为静止状态，将前一帧图像的第一矩阵确定为该帧图像的第一矩阵X，也即该帧图像的第一矩阵X与前一帧图像的第一矩阵相同；对于该帧图像的第二矩阵P，通过修正矩阵Q对前一帧图像的第二矩阵进行修正获得该帧图像的第二矩阵，也即，该帧图像的第二矩阵是前一帧图像的第二矩阵与修正矩阵Q的和，其中，修正矩阵Q是前一图像帧的第二矩阵的协方差矩阵，用于测量前一帧图像的第二矩阵中各个元素的联合可变性。修正矩阵Q是人工设定的超参数矩阵，与前一帧图像的第二矩阵是大小相同的矩阵。在前一帧图像的第二矩阵是2*2的矩阵的情况下，修正矩阵Q也是2*2的矩阵。

响应于该帧图像的手部检测结果包括目标手部的检测框，根据所述手部检测结果对根据前一帧图像预测的结果进行修正，得到该帧图像的第一矩阵X以及第二矩阵P。

首先，可以根据该帧图像与前一帧图像的时间间隔，利用前一帧图像的第一矩阵预测得到该帧图像的第一预测矩阵以及第二预测矩阵。例如，可以假设目标手部在设定方向上进行匀速直线运动，根据该帧图像与前一帧图像的时间间隔，则可以在已知前一帧图像的包含位置信息的第一矩阵的基础上，确定该帧图像的第一预测矩阵。第二预测矩阵是第一预测矩阵的协方差矩阵。第一预测矩阵包括在该图像帧中目标手部的检测框的中心的第一预测位置信息。该第一预测位置信息是基于前一帧图像的第一矩阵和该帧图像与前一帧图像的时间间隔得到的。

接下来，可以根据所述目标手部的检测框的位置信息获得该帧图像的第三预测矩阵，并获得第四预测矩阵，第四预测矩阵是第三预测矩阵的协方差矩阵。其中，第三预测矩阵包括在该图像帧中目标手部的检测框的中心的第二预测位置信息。例如，假设目标手部的检测框是矩形，确定在该图像帧中该矩形的四条边的位置，随后根据这四条边的位置确定该第二预测位置信息。第四预测矩阵用于衡量第三预测矩阵中各个元素的联合可变性，第四预测矩阵也是人工设定的超参数矩阵。

最后，响应于确定第四预测矩阵服从第一高斯分布且第二预测矩阵服从第二高斯分布，将第一高斯分布与第二高斯分布相乘，可以得到新的高斯分布，根据该新的高斯分布的均值可以得到该帧图像的第一矩阵X，根据该新的高斯分布的协方差可以得到该帧图像的的第二矩阵P。这样，可以获得该帧图像中的包含位置信息的第一矩阵X，从而实现了在视频流中目对目标手部的追踪。

在本公开实施例中，利用前一帧图像的包括目标手部位置信息的第一矩阵和第二矩阵，例如协方差矩阵，来获得当前帧图像中目标手部的位置信息，可以准确、有效地实现在视频流中对目标手部的追踪。

以下针对待识别目标手势中为两手均朝上、且两手分别位于桌面两个特定子区域上方为例，对本公开实施例提出的目标跟踪方法进行描述。本领域技术人员应当理解，该目标跟踪方法不限于跟踪做出上述目标手势的目标手部，也可以用于跟踪做出其他目标手势的目标手部。

图2为本公开至少一个实施例提供的目标跟踪方法的应用场景的示意图。如图2所示，待识别的目标手势为在桌面20的两个区域221和222上方做出两手手心向上的手势。

首先，对以俯视视角拍摄的包含桌面20的全部区域或部分区域的待处理图像进行检测，获得手部检测结果。

在检测到了手部，也即在手部检测结果包括检测框的情况下，将所述检测框中的图像输入至手势分类神经网络，获得手势分类结果。所述手势分类神经网络用于对输入图像是手朝上还是手部为其他姿态进行分类，得到的手势分类结果包括手朝上或者手部为其他姿态。在两个检测框的分类结果均为手朝上时，确定所述检测框中的手部姿态均为手朝上，且符合目标手势中的手部姿态。

在确定了两手均朝上的情况下，确定两个检测框的位置是否在待处理图像的两个设定的子区域中。其中，待处理图像的两个设定的子区域根据拍摄所述待处理图像的图像采集设备的位置、内部参数以及桌面20上两个区域221和222的位置确定。响应于两个检测框的中心点分别在所述两个设定的子区域中，确定这两个手部做出了目标手势。

在一个示例中，可以将根据所述手部的检测框裁剪出来的图像，输入至所述手势分类神经网络，获得手势分类结果。在所述待处理图像包含多个手部的检测框的情况下，则将多个裁剪出来的图像分别输入至所述手势分类神经网络。

对于以上所述的用于对输入图像进行手朝上或手部为其他姿态分类的手势分类神经网络，可以利用以下方法进行训练：

首先，获取包括手朝上的图像样本，并对图像样本中手部的手心进行标注。

图3A和3B为示例性的手朝上的图像样本。可以将其中看到手心向上的手部图像作为手朝上的图像样本，所述手朝上的图像样本的标注结果为手部的手心。其中，图3A和图3B中手心处的白点是手朝上的图像样本的标注。图3C～3F为示例性的其他姿态手部图像，例如手朝下或者手心被遮挡的手部图像，可以用其他姿态的标识标注这些手部图像。手心被遮挡是指手心朝上且掌心被遮挡。

利用如上所述的图像样本对所述手势分类神经网络进行训练，完成训练的神经网络即能够对检测框中的图像进行分类，获得手朝上或者手部为其他姿态的分类结果。

在一些实施例中，可以利用手势分类神经网络对检测框中的图像进行分类，获得手朝上，或者手朝下，或者手部为其他姿态的分类结果。该手势分类神经网络可以通过获取手朝上、手朝下、手部为其他姿态的图像样本进行训练。仍以图3A～3F为例，其中，图3A和3B为示例性的手朝上的图像样本，所述手朝上的图像样本的标注结果为手部的手心；图3C和图3D为示例性的手朝下的图像样本。可以将看到完整手背、五个手指的手部图像作为背面样本手部图像，并用手背的标识标注这些手部图像；图3E和图3F为示例性的手部为其他姿态的图像样本。可以将未能看到掌心，并且也未能看到完整手背和五个手指的手部图像作为手部为其他姿态的图像样本，并用其他姿态的标识标注这些手部图像态。图3E和图3F未能看到掌心，因此属于其他姿态。利用如上所述的图像样本对所述手势分类神经网络进行训练，完成训练的神经网络即能够对于检测框中的图像进行分类，获得手朝上，手朝下，或者手部为其他姿态的分类结果。

在本公开实施例中，利用手势分类神经网络对检测框中的图像进行分类，从而识别检测框中的手势是否是手心朝上。在此情况下所采用的手势分类神经网络，相较于视频分类模型，训练样本易于获取和标注，且手势分类神经网络模型识别速度高，因此可以实现对手部姿态的实时识别。

在手势分类结果符合目标手势中的手部姿态的基础中，通过利用待处理图像上预先定义的区域进行位置约束，可以进一步确定所检测到的手部做出了目标手势。

响应于在包含桌面20的待处理图像中识别出在桌面20的两个区域221和222上方做出两手手心向上手势的目标手部，之后在同步采集的视频流中跟踪所述目标手部。例如，利用前一帧图像的包括目标手部位置信息的第一矩阵和第二矩阵，例如协方差矩阵，来获得当前帧图像中目标手部的位置信息，可以准确、有效地实现在视频流中对目标手部的追踪。

以下目标手势为荷官的净手手势为例对本公开实施例提出的目标追踪方法进行说明。

图4为本公开至少一个实施例提供的目标跟踪方法的应用场景的示意图。如图4所示，在游戏场景中，可通过游戏桌40进行游戏，玩家421、422、423与荷官43位于游戏桌的相对侧。游戏桌包括：荷官的被兑换物区47(荷官前方的区域)、玩家的被兑换物区441、442(玩家前方的区域)、游戏进行区域46，以及预先定义的区域41(也可称其为热区)。

荷官的净手手势是指荷官在做完特定操作后、或者在执行特定操作前，双手掌心向上，平放在荷官的被兑换物区(如图4中的被兑换物区47)的两侧，向他人展示手中并未夹带任何物品，说明可进入下一游戏阶段。

本公开实施例中，可以将游戏桌上荷官前方被兑换物区两侧的两个子区域(例如图4中的子区域411和子区域412)作为实际空间的特定区域。通过拍摄所述待处理图像的摄像头位置、内部参数以及特定区域的位置来确定在待处理图像上对应的两个设定的子区域，以对所述手势分类结果进行位置约束。

对于包含游戏桌40的全部区域或部分区域的待处理图像进行检测，在所获得的手部检测结果包括手部的检测框的情况下，将所述检测框中的图像输入至预先训练好的手势分类神经网络，所述手势分类神经网络能够对输入图像进行手朝上或手部为其他姿态的分类。响应于两个检测框的图像的分类结果均为手朝上，进一步确定两个检测的位置是否处于所述待处理图像的两个设定的子区域中。在检测到两只手分别处于所述两个设定的子区域中时，表明两只手分别进入游戏桌40上的热区，则可以确定所检测到的手部做出净手手势。

响应于在包含游戏桌40的待处理图像中识别出做出净手手势的目标手部，也即识别出荷官手部，之后在同步采集的视频流中跟踪荷官手部。例如，利用前一帧图像的包括目标手部位置信息的第一矩阵和第二矩阵，例如协方差矩阵，来获得当前帧图像中荷官手部的位置信息，可以准确、有效地实现在视频流中对荷官手部的追踪。通过识别荷官手部，可以监控荷官手中是否加带任何违禁物品。

图5为本公开至少一个实施例提供的目标跟踪装置的结构示意图。如图5所示，所述装置包括：检测单元501，用于对待处理图像进行检测，获得手部检测结果；确定单元502，用于响应于手部检测结果包括检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部；跟踪单元503，用于根据所述待处理图像中的目标手部，在视频流中跟踪所述目标手部，其中，所述视频流中的图像和所述待处理图像是采集同一目标区域得到的，且所述视频流中的图像是在所述待处理图像之后采集得到的。

在一些实施例中，确定单元502用于：响应于手部检测结果包括所述检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态，且所述检测框中的手部在所述待处理图像中的预先定义的区域内的手部为目标手部。

在一些实施例中，确定单元502具体用于：响应于手部检测结果包括所述检测框，裁剪出所述待处理图像中位于手部检测框中的图像；根据裁剪出的图像，确定所述裁剪出的图像中的手部姿态符合目标手势中的手部姿态。

在一些实施例中，所述目标手势中的手部姿态为两手均朝上；确定单元502用于：将所述检测框中的图像输入至手势分类神经网络，获得手势分类结果，所述手势分类结果包括手朝上或者手部为其他姿态；在两个手部的检测框的手势分类结果均为手朝上时，确定这两个手部的检测框中的手部姿态符合目标手势中的手部姿态。

在一些实施例中，所述手势分类神经网络利用手部图像样本训练得到，所述手部图像样本中包括手朝上的图像样本，所述手朝上的图像样本的标注结果为手部的手心。

在一些实施例中，确定单元502用于：响应于确定所述检测框的中心点位于所述待处理图像的预先定义的区域内，确定所述检测框中的手部在所述待处理图像中的预先定义的区域内。

在一些实施例中，所述预先定义的区域包括所述处理图像中、与所述目标区域中的两个子区域分别对应的两个设定的子区域；确定单元502用于：确定所述待处理图像中两个手部的检测框的中心点分别在两个设定的子区域中。

在一些实施例中，跟踪单元503用于：针对所述视频流中的一帧图像，根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵；其中，该帧图像的第一矩阵包括目标手部的手部检测框的中心在该帧图像中的位置信息，该帧图像的第二矩阵是该帧图像的第一矩阵的协方差矩阵。

在一些实施例中，跟踪单元503用于：响应于该帧图像的手部检测结果未包括目标手部的检测框，将前一帧图像的第一矩阵确定为该帧图像中的第一矩阵，通过修正矩阵对前一帧图像的第二矩阵进行修正以获得该帧图像中的第二矩阵，其中，所述修正矩阵是所述前一帧图像的第二矩阵的协方差矩阵。

在一些实施例中，跟踪单元503用于：响应于该帧图像的手部检测结果包括目标手部的检测框，根据该帧图像与前一帧图像的时间间隔，利用前一帧图像的第一矩阵预测得到该帧图像的第一预测矩阵以及第二预测矩阵，其中所述第二预测矩阵是所述第一预测矩阵的协方差矩阵；根据所述目标手部的检测框的位置信息获得该帧图像的第三预测矩阵和第四预测矩阵，其中，所述第三预测矩阵包含目标手部的检测框的中心在该帧图像中的位置信息，所述第四预测矩阵是所述第三预测矩阵的协方差矩阵；将所述第二预测矩阵对应的高斯分布与所述第四预测矩阵对应的高斯分布相乘，得到新的高斯分布，根据所得到的新的高斯分布的均值确定该帧图像的所述第一矩阵，并根据所得到的新的高斯分布的协方差确定该帧图像的所述第二矩阵。在一些实施例中，所述待处理图像为在俯视视角下采集到的目标区域的图像。

图6为根据本公开至少一个实施例提供的电子设备的结构示意图。所述电子设备包括：处理器和用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行至少一个实施例所述的目标跟踪方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用硬件实施例、软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例还提供一种计算机可读存储介质，该计算机可读存储介质上可以存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例描述的目标跟踪方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

对待处理图像进行检测，获得手部检测结果；

响应于所述手部检测结果包括手部的检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部；

根据所述待处理图像中的目标手部在视频流中跟踪所述目标手部，其中，所述视频流中的图像和所述待处理图像是采集同一目标区域得到的，且所述视频流中的图像是在所述待处理图像之后采集得到的；

根据所述待处理图像中的目标手部，在所述视频流中跟踪所述目标手部，包括：

针对所述视频流中的一帧图像，根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵；

其中，该帧图像的第一矩阵包括目标手部的检测框的中心在该帧图像中的位置信息，该帧图像的第二矩阵是该帧图像的第一矩阵的协方差矩阵；

根据该帧图像的前一帧图像的第一矩阵以及第二矩阵，确定该帧图像的第一矩阵以及第二矩阵，包括：

响应于该帧图像的手部检测结果未包括目标手部的检测框，

将前一帧图像的第一矩阵确定为该帧图像中的第一矩阵，以及

通过修正矩阵对前一帧图像的第二矩阵进行修正以获得该帧图像中的第二矩阵，其中，所述修正矩阵是所述前一帧图像的第二矩阵的协方差矩阵；

响应于该帧图像的手部检测结果包括目标手部的检测框，

根据该帧图像与前一帧图像的时间间隔，利用前一帧图像的第一矩阵预测得到该帧图像的第一预测矩阵以及第二预测矩阵，其中，所述第二预测矩阵是所述第一预测矩阵的协方差矩阵；

根据所述目标手部的检测框的位置信息获得该帧图像的第三预测矩阵和第四预测矩阵，其中，所述第三预测矩阵包含在该帧图像中目标手部的检测框的中心的预测位置信息，所述第四预测矩阵是所述第三预测矩阵的协方差矩阵；

将所述第二预测矩阵对应的高斯分布与所述第四预测矩阵对应的高斯分布相乘，得到新的高斯分布；

根据所得到的新的高斯分布的均值确定该帧图像的所述第一矩阵，并

根据所得到的新的高斯分布的协方差确定该帧图像的所述第二矩阵。

2.根据权利要求1所述的方法，其特征在于，响应于所述手部检测结果包括手部的检测框，确定所述检测框中手部姿态符合目标手势中的手部姿态的手部为目标手部，包括：

响应于所述手部检测结果包括所述检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态，且所述检测框中的手部在所述待处理图像中的预先定义的区域内的手部为所述目标手部。

3.根据权利要求1或2所述的方法，其特征在于，确定所述检测框中的手部姿态符合所述目标手势中的手部姿态，包括：

响应于所述手部检测结果包括手部的检测框，裁剪出所述待处理图像中位于所述检测框中的图像；

根据所述裁剪出的图像，确定所述裁剪出的图像中的手部姿态符合目标手势中的手部姿态。

4.根据权利要求1所述的方法，其特征在于，所述目标手势中的手部姿态为两手均朝上；

确定所述检测框中的手部姿态符合所述目标手势中的手部姿态，包括：

将所述检测框中的图像输入至手势分类神经网络，获得手势分类结果，所述手势分类结果包括手朝上或者手部为其他姿态；

在所述手部检测结果中两个手部的检测框的手势分类结果为在所述两个检测框中的两只手均朝上时，确定这两个手部的检测框中的手部姿态符合目标手势中的手部姿态。

5.根据权利要求4所述的方法，其特征在于，所述手势分类神经网络利用手部图像样本训练得到，所述手部图像样本中包括手朝上的图像样本，所述手朝上的图像样本的标注结果为手部的手心。

6.根据权利要求2所述的方法，其特征在于，确定所述检测框中的手部在所述待处理图像的预先定义的区域内，包括：

响应于确定所述检测框的中心点位于所述待处理图像的预先定义的区域内，确定所述检测框中的手部在所述待处理图像中的预先定义的区域内。

7.根据权利要求6所述的方法，其特征在于，所述预先定义的区域包括所述处理图像中、与所述目标区域中的两个子区域分别对应的两个设定的子区域；

确定所述检测框的中心点在所述待处理图像中的预先定义的区域内，包括：

确定所述待处理图像中两个检测框的中心点分别在两个设定的子区域中。

8.根据权利要求1所述的方法，其特征在于，所述待处理图像为在俯视视角下采集到的所述目标区域的图像。

9.一种目标跟踪装置，其特征在于，所述装置包括：

检测单元，用于对待处理图像进行检测，获得手部检测结果；

确定单元，用于响应于所述手部检测结果包括手部的检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部；

跟踪单元，用于根据所述待处理图像中的所述目标手部在视频流中跟踪所述目标手部，其中，所述视频流中的图像和所述待处理图像是采集同一目标区域得到的，且所述视频流中的图像是在所述待处理图像之后采集得到的；

所述跟踪单元用于：

响应于该帧图像的手部检测结果未包括目标手部的检测框，

响应于该帧图像的手部检测结果包括目标手部的检测框，

10.根据权利要求9所述的装置，其特征在于，所述确定单元用于：响应于所述手部检测结果包括所述检测框，确定所述检测框中的手部姿态符合目标手势中的手部姿态，且所述检测框中的手部在所述待处理图像中的预先定义的区域内的手部为所述目标手部。

11.根据权利要求9或10所述的装置，其特征在于，所述确定单元用于：

12.根据权利要求9所述的装置，其特征在于，所述目标手势中的手部姿态为两手均朝上；

所述确定单元用于：

13.根据权利要求12所述的装置，其特征在于，所述手势分类神经网络利用手部图像样本训练得到，所述手部图像样本中包括手朝上的图像样本，所述手朝上的图像样本的标注结果为手部的手心。

14.根据权利要求10所述的装置，其特征在于，所述确定单元用于：

15.根据权利要求14所述的装置，其特征在于，所述预先定义的区域包括所述处理图像中、与所述目标区域中的两个子区域分别对应的两个设定的子区域；

所述确定单元用于：

确定所述待处理图像中两个手部的检测框的中心点分别在两个设定的子区域中。

16.根据权利要求9所述的装置，其特征在于，所述待处理图像为在俯视视角下采集到的所述目标区域的图像。

17.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器用于存储能够在所述处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述的方法。