CN112541418A

CN112541418A - 用于图像处理的方法、装置、设备、介质和程序产品

Info

Publication number: CN112541418A
Application number: CN202011414770.2A
Authority: CN
Inventors: 余永佳; 李国洪; 张柳清
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-23
Anticipated expiration: 2040-12-04
Also published as: CN112541418B

Abstract

根据本公开的示例实施例，提供了一种用于图像处理的方法、装置、设备、计算机可读存储介质和计算机程序产品。可用于图像处理领域和手部跟踪领域。一种用于图像处理的方法，包括：获取图像帧；确定图像帧中目标手部的存在性和与目标手部的手指相关联的多个目标关键点；如果图像帧中存在目标手部，利用多个目标关键点，确定图像帧中包含多个目标关键点的跟踪范围；以及基于跟踪范围，跟踪目标手部。由此，本方案可以实现动态、稳定、精确和低功耗的手部跟踪。

Description

用于图像处理的方法、装置、设备、介质和程序产品

技术领域

本公开的实施例主要涉及图像处理领域，并且更具体地，涉及用于图像处理的方法、装置、设备、计算机可读存储介质和计算机程序产品。

背景技术

随着信息技术的快速发展，出现了越来越多依赖人机交互(Human-ComputerInteraction，HCI)技术的场景。人机交互主要研究用户与系统之间的信息交流。系统可以指代各种设备，诸如智能电话、智能电视、智能手表、智能音箱等。用户可以通过语音、脸部表情、手势、身体姿势等向系统传递信息。同时，系统需要通过各种输出设备，诸如音箱、显示器、机械装置等，向用户输出反馈。

在理想状态下，人机交互不再依赖于触摸屏、遥控器、鼠标、键盘等中间设备，而是趋向于接近人与人之间的自然交流模式，从而实现人类与虚拟世界的融合。在科技与需求的双向驱动下，人机交互经历了三次重大革命：(1)鼠标，(2)多点触控，以及(3)体感交互，其中体感交互是人机交互未来的重要发展方向，也是对用户而言最自然的交互方式。体感交互可以依赖于激光传感器。然而，激光传感器成本较高，因此难以普及。由于当前的智能电话和各种可穿戴设备上通常配置有摄像头，以及人工智能视觉技术的进步，摄像头成为更适当的选择。

在体感交互中，手势交互是一个重要发展方向。手势交互可以应用于各种场景。例如，在司机驾驶过程中，有些路段十分嘈杂，系统可能难以识别司机的语音指令，而司机低头使用触摸屏又存在极大的交通安全风险。此时，采用手势交互，可以使系统相对安全的完成用户的指令。另外，在利用智能眼镜的增强现实(AR)场景中，语音指令有时存在明显的歧义，系统需要多轮交互才能准确理解用户的操作意图。此时，采用手势交互，能够帮助系统更简单和快捷的理解用户。

然而，传统的手部跟踪技术并不稳定和精确，常常出现跟丢或误跟，同时功耗较高，对计算设备(尤其是移动设备)造成了极大的负担。

发明内容

根据本公开的示例实施例，提供了一种用于图像处理的方案。

在本公开的第一方面中，提供了一种用于图像处理的方法，包括：获取图像帧；确定图像帧中目标手部的存在性和与目标手部的手指相关联的多个目标关键点；如果图像帧中存在目标手部，利用多个目标关键点，确定图像帧中包含多个目标关键点的跟踪范围；以及基于跟踪范围，跟踪目标手部。

在本公开的第二方面中，提供了一种图像处理装置，包括：获取模块，被配置为获取图像帧；第一确定模块，被配置为确定图像帧中目标手部的存在性和与目标手部的手指相关联的多个目标关键点；第二确定模块，被配置为如果图像帧中存在目标手部，利用多个目标关键点，确定图像帧中包含多个目标关键点的跟踪范围；以及跟踪模块，被配置为基于跟踪范围，跟踪目标手部。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品，包括计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的一个示例环境的示意图；

图2示出了根据本公开的一些实施例的用于图像处理的方法的流程图；

图3示出了根据本公开的一些实施例的图像处理模型的示例的示意图；

图4示出了根据本公开的一些实施例的候选子图像范围的示例的示意图；

图5示出了根据本公开的一些实施例的跟踪范围的示例的示意图；

图6示出了根据本公开的一些实施例的图像处理装置的示意框图；以及

图7示出了能够实施本公开的一些实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

传统手部跟踪方式存在若干缺陷。一方面，由于手部是非刚体，在图像帧中的变形程度较高。例如，手指可能呈现出旋转、张开、握合、交叉、比划等各种复杂动作。传统的检测和跟踪算法，诸如KCF(Kernel Correlation Filter，核相关滤波)算法、光流跟踪算法等，难以适应这种高度变形，容易出现跟丢、误跟等问题。作为示例，传统手部跟踪方式难以判断跟踪框(在下文中，可替换地称为“跟踪范围”)中的物体是否属于手部，甚至经常出现图像帧中手部已经消失，但是跟踪框依旧停留在图像帧中的问题。

另一方面，由于每个图像帧都需要进行手部的检测和跟踪，将导致设备功耗和温度上升等不良后果。尤其在移动端，这种问题更为显著，难以实现稳定的手部跟踪和低功耗之间平衡。

根据本公开的示例实施例，提出了一种用于图像处理的改进方案。在该方案中，计算设备可以获取图像帧，并且确定图像帧中目标手部的存在性和与目标手部的手指相关联的多个目标关键点。如果图像帧中存在目标手部，则计算设备可以利用多个目标关键点，确定图像帧中包含多个目标关键点的跟踪范围，从而可以基于跟踪范围，跟踪目标手部。

以此方式，与传统方式相比，本方案可以实现动态、稳定和精确的手部跟踪，同时减少功耗。由此，本方案能够提供更丰富的手部信息，以辅助计算设备实现更好的人机交互功能，从而提高用户的人机交互体验。

在下文中，将结合图1-图7更详细地描述本方案的具体示例。图1示出了本公开的实施例能够在其中实现的一个示例环境100的示意图。环境100包括计算设备110。在某些实施例中，计算设备110可以是终端设备。终端设备包括但不限于移动电话、蜂窝电话、智能电话、IP语音(VoIP)电话、无线本地环路电话、平板电脑、可穿戴终端设备、个人数字助理(PDA)、便携式计算机、台式计算机、图像捕获终端设备(如数码相机、游戏终端设备、音乐存储和播放设备)、车载无线终端设备、无线端点、移动台、笔记本电脑内置设备(LEE)、笔记本电脑-车载设备(LME)、USB加密狗、智能设备、无线用户驻地设备(CPE)、物联网(loT)设备、手表或其他可穿戴式设备、头戴式显示器(HMD)、车辆、无人机、医疗设备和应用程序(例如，远程手术)、工业设备和应用程序(例如，在工业和/或自动处理链环境中运行的机器人和/或其他无线设备)、消费类电子设备、设备商业运作和/或工业无线网络等任何具有计算能力的设备。

在某些实施例中，计算设备110可以是联网的计算基础设施。例如，计算设备110可以被部署在云端或者在其他网络环境中的计算节点，诸如远端计算节点、服务器、边缘计算设备。在云环境中，计算设备110有时也可以称为云端设备。在这种情况下，计算设备110可以提供较高的计算能力、存储能力和/或通信能力。

计算设备110可以获取图像帧120。图像帧120可以是视频中的帧，或者连拍的多张图像之一。然而，图像帧120也可以是单独捕获的图像。图像帧120可以由摄像头捕获，该摄像头可以被设置在计算设备110上，也可以被设置在计算设备110外部。

计算设备110可以确定图像帧120中手部(在下文中，被称为“目标手部”)的存在性和与目标手部的手指相关联的多个关键点(在下文中，被称为“目标关键点”)。在某些实施例中，目标手部的存在性和多个目标关键点的确定可以由经训练的图像处理模型执行。由于该图像处理模型可以既确定存在性又确定关键点，因此可以被认为是多任务的模型。由于这样的图像处理模型300无需分别确定手部的存在性和手指关键点，因此可以减少一个算法模型，从而实现功耗降低。

然而，在某些实施例中，目标手部的存在性和多个目标关键点的确定也可以由分开的模型执行。也就是说，一个模型用于确定目标手部的存在性，另一个模型用于确定多个目标关键点，以进一步提高手部跟踪的准确性。

如果图像帧中存在目标手部，则计算设备110可以利用多个目标关键点，确定图像帧中包含多个目标关键点的跟踪范围140。由此，计算设备110可以基于该跟踪范围140，跟踪目标手部。例如，计算设备110可以对视频中该图像帧120的后续图像帧利用该跟踪范围140，来对目标手部进行检测和跟踪。

以此方式，本方案可以实现动态、稳定和精确的手部跟踪，同时减少计算设备的功耗。由此，本方案能够提供更丰富的手部信息，以辅助计算设备实现更好的人机交互功能，从而提高用户的人机交互体验。

图2示出了根据本公开的一些实施例的用于图像处理的方法200的流程图。例如，方法200可以在如图1所示的计算设备110或者其他适当的设备处被执行。此外，方法200还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的范围在此方面不受限制。

在210，计算设备110获取图像帧，例如图像帧120。如上所述，图像帧120可以由摄像头捕获。在某些实施例中，由摄像头捕获的图像帧可以被存储在用于存储来自摄像头的视频或图像的存储区域中，例如用于摄像头的缓存空间中。该存储区域可以被设置在计算设备110上，也可以被设置在计算设备110外部。由此，计算设备110可以访问该存储区域以获取图像帧。在某些实施例中，计算设备110可以确定该存储区域中是否存在新的或未处理的图像帧。如果存在新的或未处理的图像帧，则计算设备110可以获取该图像帧以进行处理。

在220，计算设备110确定图像帧120中目标手部的存在性和与目标手部的手指相关联的多个目标关键点。如上所述，目标手部的存在性和多个目标关键点的确定可以由经训练的图像处理模型执行。该图像处理模型是基于与手部相关联的训练图像帧以及训练图像帧中存在手部的置信度或概率被训练的。

图像处理模型300可以是任何适当的深度神经网络模型。图3示出了根据本公开的一些实施例的图像处理模型300的示例的示意图。在某些实施例中，图像处理模型300可以包括骨干网络310和两个子网络(第一子网络320和第二子网络330)。例如，骨干网络310可以是MobileNetV2轻量级网络，并且可以将网络中不同尺度的特征图融合以得到两个分支子网络，即第一子网络320和第二子网络330。第一子网络320可以用于确定关键点，例如检测关键点的坐标。第二子网络330可以用于确定手部的存在性，例如，将图像帧分类为存在手部或不存在手部。

可见，该图像处理模型300既可以确定手部的存在性，又可以确定手指关键点，因此是多任务模型。由于这样的图像处理模型300无需分别确定手部的存在性和手指关键点，因此可以减少一个算法模型，从而实现功耗降低。

返回参考图2，在某些实施例中，可以仅将图像帧120的一部分作为图像处理模型300的输入，以提高图像处理效率。具体地，计算设备110可以确定图像帧120中与目标手部相关联的第一子图像帧。第一子图像帧是图像帧120的一部分。然后，计算设备110可以将第一子图像帧应用于经训练的图像处理模型300，以确定第一子图像帧中是否存在目标手部和与目标手部的手指相关联的多个目标关键点。

在某些实施例中，由于目标手部在图像帧中的位置通常不会在相邻的图像帧之间显著变化，因此第一子图像帧可以基于先前跟踪范围被确定，其中先前跟踪范围是从图像帧的先前图像帧(例如，视频中图像帧的前一个或多个图像帧，或者连拍的多张图像中的前一张或多张图像)中确定的目标手部的跟踪范围。具体地，先前跟踪范围可以基于图像帧120的先前图像帧被确定，并且包含与先前图像帧中的手部相关联的多个关键点。在本文中，跟踪范围可以是由图像中的坐标所界定的范围。

在某些实施例中，计算设备110可以确定是否存在与图像帧120相关联的先前跟踪范围。如果存在先前跟踪范围，则计算设备110可以从图像帧120中裁切出与先前跟踪范围相对应的部分作为第一子图像帧。例如，计算设备110可以将先前跟踪范围指示的图像帧120中的部分裁切作为第一子图像帧。备选地，计算设备110可以在考虑了手部的运动速度的情况下，将先前跟踪范围偏移一定距离，并且将偏移后的先前跟踪范围指示的图像帧120中的部分裁切作为第一子图像帧。

在不存在先前跟踪范围的情况下，例如图像帧120是初始图像帧(诸如视频中的第一个图像帧)或者先前图像帧跟丢，计算设备110可以利用手掌检测模型，确定包含目标手部的手掌的候选子图像范围。在某些实施例中，手掌检测模型可以是能够对手掌进行检测的任何模型，例如其可以采用Yolo-nano轻量级检测算法。对手掌而非整个手部进行检测的原因在于，手部在图像帧中的变形程度较高，从而可以被视为非刚体。作为对照，手掌在图像帧中的变形程度较低，从而可以被视为更接近刚体。因此，对手掌进行检测将提高检测准确性。

然后，计算设备110可以将候选子图像范围缩放第一预定倍数(例如，1.5倍或其他适当倍数)，以使得经缩放的候选子图像范围能够包含目标手部。从而，计算设备110可以从图像帧120中裁切出与经缩放的候选子图像范围相对应的部分作为第一子图像帧。

图4示出了根据本公开的一些实施例的候选子图像范围的示例的示意图400。如图4所示，计算设备110可以利用手掌检测模型，确定包含目标手部的手掌的候选子图像范围410。然后，计算设备110可以将候选子图像范围410进行缩放，以得到包含目标手部的经缩放的候选子图像范围420。经缩放的候选子图像范围420所界定的图像帧120中的部分即为第一子图像帧。

返回参考图2，如上所述，计算设备110已经利用图像处理模型300确定了手部的存在性和手指关键点。由此，计算设备110可以基于手部的存在性，来防止手部的跟丢或误跟，例如防止由于跟踪漂移导致错误跟踪。如果图像帧120中不存在目标手部，则表示手部跟丢。在这种情况下，计算设备110可以例如从存储区域中继续获取其他后续图像帧进行处理，以跟踪目标手部。

如果图像帧120中存在目标手部，则表示手部并未跟丢。在这种情况下，在230，计算设备110可以利用多个目标关键点，确定图像帧中包含多个目标关键点的跟踪范围140。在某些实施例中，计算设备110可以确定包含多个目标关键点的候选跟踪范围。例如，该候选跟踪范围可以是能够包围多个目标关键点的最小正方形凸包。应理解，正方形凸包仅是示例，事实上，候选跟踪范围可以是能够包含多个目标关键点的任何适当大小和形状的区域，例如矩形、圆形、不规则多边形等。

然后，计算设备110可以将候选跟踪范围缩放第二预定倍数(例如，1.5倍或其他适当倍数)作为跟踪范围。为此，该跟踪范围可以容忍更大的手部运动幅度，从而更难跟丢。

图5示出了根据本公开的一些实施例的跟踪范围的示例的示意图500。如图5所示，候选跟踪范围510是能够包围21个目标关键点1-21的最小正方形凸包。计算设备110可以将候选跟踪范围510缩放第二预定倍数从而得到更大的跟踪范围140。

返回参考图2，在某些实施例中，计算设备110还可以将经缩放的候选跟踪范围与阈值范围进行比较。例如，阈值范围可以是50x 50像素，或者占第一子图像帧的比例，诸如10％-90％之间。如果经缩放的候选跟踪范围没有超过阈值范围，则计算设备110可以将候选跟踪范围作为跟踪范围。以此方式，计算设备110可以判定候选跟踪范围是否合理。例如，候选跟踪范围小于50x 50像素或者小于第一子图像帧的10％可以被认为是不合理的，或者候选跟踪范围大于第一子图像帧的90％也可以被认为是不合理的。

如果候选跟踪范围不在合理范围内，则计算设备110可以判定手部跟丢，并且清除候选跟踪范围。在这种情况下，计算设备110可以例如从存储区域中继续获取其他后续图像帧进行处理，以跟踪目标手部。然而，由于目标手部跟丢并且清除了候选跟踪范围，因此对于后续图像帧而言不存在先前跟踪范围，从而需要利用手掌检测模型检测手掌以进行图像裁切。

如果候选跟踪范围在合理范围内，则计算设备110可以判定手部没有跟丢，从而可以将候选跟踪范围作为跟踪范围140。由此，在240，计算设备110基于跟踪范围140，跟踪目标手部。具体地，计算设备110可以例如从存储区域中继续获取其他后续图像帧进行处理，以跟踪目标手部。此时，由于确定了跟踪范围140，因此对于后续图像帧而言存在先前跟踪范围，从而可以在无需利用手掌检测模型检测手掌的情况下，直接进行图像裁切。由于手掌检测模型可能存在诸如速度较慢、模型体积较大等问题，从而可能导致手部跟踪延迟和降低用户体验。在这种情况下，减少手掌检测模型的使用可以进一步降低功耗，并且提高手部跟踪效率和用户体验。

以此方式，本方案可以实现动态、稳定、精确和低功耗的手部跟踪。由此，本方案可以提供更丰富的手部信息，以辅助计算设备实现更好的人机交互功能，从而提高用户的人机交互体验。

图6示出了根据本公开的实施例的图像处理装置600的示意框图。如图6所示，装置600包括：获取模块610，被配置为获取图像帧；第一确定模块620，被配置为确定图像帧中目标手部的存在性和与目标手部的手指相关联的多个目标关键点；第二确定模块630，被配置为如果图像帧中存在目标手部，利用多个目标关键点，确定图像帧中包含多个目标关键点的跟踪范围；以及跟踪模块640，被配置为基于跟踪范围，跟踪目标手部。

在某些实施例中，目标手部的存在性和多个目标关键点的确定由经训练的图像处理模型执行。

在某些实施例中，经训练的图像处理模型是基于与手部相关联的训练图像帧以及训练图像帧中存在手部的置信度被训练的。

在某些实施例中，第一确定模块620包括：第一子图像帧确定模块，被配置为确定图像帧中与目标手部相关联的第一子图像帧，第一子图像帧是图像帧的一部分；以及模型应用模块，被配置为将第一子图像帧应用于经训练的图像处理模型，以确定第一子图像帧中是否存在目标手部和多个目标关键点。

在某些实施例中，第一子图像帧确定模块包括：先前跟踪范围确定模块，被配置为确定是否存在与图像帧相关联的先前跟踪范围，先前跟踪范围基于图像帧的先前图像帧被确定并且包含与先前图像帧中的手部相关联的多个关键点；以及第一裁切模块，被配置为如果存在先前跟踪范围，从图像帧中裁切出与先前跟踪范围相对应的部分作为第一子图像帧。

在某些实施例中，第一子图像帧确定模块还包括：候选子图像范围确定模块，被配置为如果确定不存在先前跟踪范围，利用手掌检测模型，确定包含目标手部的手掌的候选子图像范围；第一缩放模块，被配置为将候选子图像范围缩放第一预定倍数，以使得经缩放的候选子图像范围能够包含目标手部；以及第二裁切模块，被配置为从图像帧中裁切出与经缩放的候选子图像范围相对应的部分作为第一子图像帧。

在某些实施例中，第二确定模块630包括：候选跟踪范围确定模块，被配置为确定包含多个目标关键点的候选跟踪范围；以及第二缩放模块，被配置为将候选跟踪范围缩放第二预定倍数作为跟踪范围。

在某些实施例中，第二缩放模块包括：候选跟踪范围缩放模块，被配置为将候选跟踪范围缩放第二预定倍数；比较模块，被配置为将经缩放的候选跟踪范围与阈值范围进行比较；以及跟踪范围确定模块，被配置为如果经缩放的候选跟踪范围没有超过阈值范围，将候选跟踪范围作为跟踪范围。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现图1的计算设备110。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701执行上文所描述的各个方法和处理，例如过程200。例如，在一些实施例中，过程200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的过程200的一个或多个步骤。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于图像处理的方法，包括：

获取图像帧；

确定所述图像帧中目标手部的存在性和与所述目标手部的手指相关联的多个目标关键点；

如果所述图像帧中存在所述目标手部，利用所述多个目标关键点，确定所述图像帧中包含所述多个目标关键点的跟踪范围；以及

基于所述跟踪范围，跟踪所述目标手部。

2.根据权利要求1所述的方法，其中所述目标手部的所述存在性和所述多个目标关键点的确定由经训练的图像处理模型执行。

3.根据权利要求2所述的方法，其中所述经训练的图像处理模型是基于与手部相关联的训练图像帧以及所述训练图像帧中存在手部的置信度被训练的。

4.根据权利要求2所述的方法，其中确定所述目标手部的所述存在性和所述多个目标关键点包括：

确定所述图像帧中与所述目标手部相关联的第一子图像帧，所述第一子图像帧是所述图像帧的一部分；以及

将所述第一子图像帧应用于所述经训练的图像处理模型，以确定所述第一子图像帧中是否存在所述目标手部和所述多个目标关键点。

5.根据权利要求4所述的方法，其中确定所述第一子图像帧包括：

确定是否存在与所述图像帧相关联的先前跟踪范围，所述先前跟踪范围基于所述图像帧的先前图像帧被确定并且包含与所述先前图像帧中的手部相关联的多个关键点；以及

如果存在所述先前跟踪范围，从所述图像帧中裁切出与所述先前跟踪范围相对应的部分作为所述第一子图像帧。

6.根据权利要求4所述的方法，还包括：

如果不存在与所述图像帧相关联的先前跟踪范围，利用手掌检测模型，确定包含所述目标手部的手掌的候选子图像范围；

将所述候选子图像范围缩放第一预定倍数，以使得经缩放的候选子图像范围能够包含所述目标手部；以及

从所述图像帧中裁切出与所述经缩放的候选子图像范围相对应的部分作为所述第一子图像帧。

7.根据权利要求1所述的方法，其中确定所述图像帧中包含所述多个目标关键点的跟踪范围包括：

确定包含所述多个目标关键点的候选跟踪范围；以及

将所述候选跟踪范围缩放第二预定倍数作为所述跟踪范围。

8.根据权利要求7所述的方法，其中将所述候选跟踪范围缩放所述第二预定倍数作为所述跟踪范围包括：

将所述候选跟踪范围缩放所述第二预定倍数；

将经缩放的候选跟踪范围与阈值范围进行比较；以及

如果所述经缩放的候选跟踪范围没有超过所述阈值范围，将所述候选跟踪范围作为所述跟踪范围。

9.根据权利要求1所述的方法，其中所述方法在终端设备处被实现。

10.一种图像处理装置，包括：

获取模块，被配置为获取图像帧；

第一确定模块，被配置为确定所述图像帧中目标手部的存在性和与所述目标手部的手指相关联的多个目标关键点；

第二确定模块，被配置为如果所述图像帧中存在所述目标手部，利用所述多个目标关键点，确定所述图像帧中包含所述多个目标关键点的跟踪范围；以及

跟踪模块，被配置为基于所述跟踪范围，跟踪所述目标手部。

11.根据权利要求10所述的装置，其中所述目标手部的所述存在性和所述多个目标关键点的确定由经训练的图像处理模型执行。

12.根据权利要求11所述的装置，其中所述经训练的图像处理模型是基于与手部相关联的训练图像帧以及所述训练图像帧中存在手部的置信度被训练的。

13.根据权利要求11所述的装置，其中所述第一确定模块包括：

第一子图像帧确定模块，被配置为确定所述图像帧中与所述目标手部相关联的第一子图像帧，所述第一子图像帧是所述图像帧的一部分；以及

模型应用模块，被配置为将所述第一子图像帧应用于所述经训练的图像处理模型，以确定所述第一子图像帧中是否存在所述目标手部和所述多个目标关键点。

14.根据权利要求13所述的装置，其中所述第一子图像帧确定模块包括：

先前跟踪范围确定模块，被配置为确定是否存在与所述图像帧相关联的先前跟踪范围，所述先前跟踪范围基于所述图像帧的先前图像帧被确定并且包含与所述先前图像帧中的手部相关联的多个关键点；以及

第一裁切模块，被配置为如果存在所述先前跟踪范围，从所述图像帧中裁切出与所述先前跟踪范围相对应的部分作为所述第一子图像帧。

15.根据权利要求13所述的装置，其中所述第一子图像帧确定模块还包括：

候选子图像范围确定模块，被配置为如果不存在与所述图像帧相关联的先前跟踪范围，利用手掌检测模型，确定包含所述目标手部的手掌的候选子图像范围；

第一缩放模块，被配置为将所述候选子图像范围缩放第一预定倍数，以使得经缩放的候选子图像范围能够包含所述目标手部；以及

第二裁切模块，被配置为从所述图像帧中裁切出与所述经缩放的候选子图像范围相对应的部分作为所述第一子图像帧。

16.根据权利要求10所述的装置，其中所述第二确定模块包括：

候选跟踪范围确定模块，被配置为确定包含所述多个目标关键点的候选跟踪范围；以及

第二缩放模块，被配置为将所述候选跟踪范围缩放第二预定倍数作为所述跟踪范围。

17.根据权利要求16所述的装置，其中所述第二缩放模块包括：

候选跟踪范围缩放模块，被配置为将所述候选跟踪范围缩放所述第二预定倍数；

比较模块，被配置为将经缩放的候选跟踪范围与阈值范围进行比较；以及

跟踪范围确定模块，被配置为如果所述经缩放的候选跟踪范围没有超过所述阈值范围，将所述候选跟踪范围作为所述跟踪范围。

18.根据权利要求10所述的装置，其中所述装置在终端设备处被实现。

19.一种电子设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现如权利要求1-9中任一项所述的方法。