CN103996019A

CN103996019A - 用于检测和跟踪一个物体上多个部位的系统和方法

Info

Publication number: CN103996019A
Application number: CN201410135793.8A
Authority: CN
Inventors: 唐学燕; 丁游
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2014-02-24
Filing date: 2014-04-04
Publication date: 2014-08-20
Anticipated expiration: 2034-04-04
Also published as: US9436872B2; US20150242683A1; CN103996019B

Abstract

本发明披露了一种检测一个物体至少一个预定部位的姿势的系统和方法，包括步骤：从由第一图像传感器拍摄的第一图像中，提取出第一物体形状；计算所述第一物体形状一个预定区域内的所述预定部位的一个特征尺寸值；根据所述特征尺寸值，构建一个掩膜；通过将所述掩膜应用在所述第一物体形状上，从所述第一物体形状中提取出所述预定部位的一个轮廓；在所述预定部位的所述轮廓中，找到至少一个预定特征点，从而检测出所述预定部位的所述姿势。本发明还可以包括第二图像传感器，其同时拍摄第二图像，执行以上相同步骤而找到第二特征点位置；根据所述第一特征点位置和所述第二特征点位置，确定每个特征点的三维坐标。

Description

用于检测和跟踪一个物体上多个部位的系统和方法

【技术领域】

本发明涉及一种跟踪或检测物体姿势的方法，特别涉及一种实时跟踪或检测人手姿势的方法以及一种用于实施该方法的系统。

【背景技术】

许多先进的图像处理应用程序都会要求有一个物体跟踪模块，该模块可以可靠和迅速地跟踪物体上一个或多个特征点。其中一个这样的应用程序就是手势识别，这是一种先进的人机界面技术，用户甚至没有触摸计算设备，就可以命令和控制该设备来执行某些操作。用户只要以一定的模式来挥舞他/她的一只或两只手，计算设备就依靠该物体跟踪模块来检测和跟踪手部运动。

【发明内容】

根据上述背景情况，本发明的一个目的是提供一种跟踪或检测物体的方法，如检测一个手势。

因此在一个方面，本发明是一种检测一个物体至少一个预定部位的姿势的方法。它包括步骤：从由第一图像传感器拍摄的第一图像中提取第一物体的形状；计算第一物体形状的一个预定区域内的预定部位的特征尺寸值；根据特征尺寸值构建掩膜；通过将掩膜应用在第一物体形状上，从第一物体形状中提取出预定部位的轮廓；识别出预定部位的轮廓中的至少一个预定特征点；从而检测出预定部位的姿势。

在一个实施例中，计算特征尺寸值还包括步骤：确定所述物体的一个参考部位的一个参考值，其中所述参考部位不同于所述至少一个预定部位；根据参考值计算多个阈值。

在另一个实施例中，计算特征尺寸值还包括步骤：根据第一组多个阈值，确定多个分割边界；根据分割边界，从所述第一物体形状中提取出预定区域；根据第二组多个阈值；在所述预定区域内识别出所述预定部位；在所述预定区域内测量所述预定部位的尺寸值；根据所述预定区域内的所述预定部位的尺寸值，计算特征尺寸值。

在另一个实施例中，计算特征尺寸值还包括步骤：根据所述预定区域内的所述预定部位的尺寸值，计算一组识别因子；计算特征尺寸值，即为所述尺寸值的加权平均，其中加权平均的加权因子是基于所述组区别因子和裕度系数。

在另一个实施例中，检测一个物体至少一个预定部位的姿势的方法还包括步骤：根据所述特征尺寸，更新所述第一组和第二组的多个阈值。

在另一个实施例中，构建步骤还包括以下步骤：在第一个物体形状上进行腐蚀操作，从而形成腐蚀形状；在腐蚀形状上进行膨胀操作，形成掩膜；其中腐蚀操作和膨胀操作的结构元素大小是基于特征尺寸值的。在又一实施例中，所述结构元素的大小是特征尺寸值的一半。

在另一个实施例中，所述识别步骤还包括以下步骤：在所述预定部位的轮廓中，识别出所述物体的每个预定部位；对所述第一图像中的每个预定特征点，确定至少一个第一特征点位置。

在另一个实施例中，所述物体是人手；所述至少一个预定部位是人手手指，所述至少一个预定特征点是手指指尖。该方法还包括步骤：建立一个感兴趣区域，所述感兴趣区域即是包围住所述第一图像轮廓中的手指的区域；通过搜索感兴趣区域内的凸点，找到指尖的坐标。

在另一个实施例中，检测一个物体至少一个预定部位的姿势的方法还包括步骤：从由第二图像传感器拍摄的第二图像中，提取出所述物体的第二物体形状；计算第二物体形状的第二预定区域内的所述预定部位的第二特征尺寸值；根据所述第二特征尺寸值构建第二掩膜；通过将所述第二掩膜应用在第二物体形状上，从第二物体形状中提取出所述预定部位的第二轮廓；识别出所述预定部位的第二轮廓中的至少一个预定特征点；确定第二图像中每个预定特征点的第二特征点位置；根据所述第一特征点位置和所述第二特征点位置，确定每个特征点的三维坐标；其中所述第一图像和第二图像是同时拍摄的，所述第二图像传感器和所述第一图像传感器相隔一个预定距离。在另一个实施例中，确定三维坐标的步骤是基于三角测量方法的。

根据本发明的另一个方面，披露了一种识别一个物体的至少一个预定部位的方法，包括步骤：获得所述物体的一个模型的；从第一图像中提取出所述物体的一个物体形状；根据所述模型，计算所述物体形状中的至少一个预定部位的一个特征尺寸值；根据所述特征尺寸值构建掩膜；通过将所述掩膜应用在所述物体上，从所述物体形状中提取出至少一个预定部位的轮廓；从所述轮廓中识别出所述至少一个预定部位。在一个实施例中，所述模型描述的是至少一个预定部位和所述物体之间的至少一个关系。

根据本发明的又一个方面，披露了一种检测一个物体的至少一个预定部位的姿势的系统。该系统包括：第一图像传感器，其被设置成从第一视角拍摄所述预定部位的至少一个第一图像；图像处理子系统，其连接到所述第一图像传感器，其中所述图像处理子系统接收所述至少一个第一图像作为输入，产生至少一个第一特征点位置作为输出。图像处理子系统还包括以下：物体提取模块，其被配置为从所述输入中提取出物体的一个物体形状；主体部位定位模块，其被配置成在所述物体形状的一个预定区域内找到至少一个预定部位，其中所述主体部位定位模块还确定所述至少一个预定部位的特征尺寸值；特征点定位模块，其被配置为在一个轮廓的至少一个预定部位内识别出至少一个特征点位置。根据所述特征尺寸值而构建一个掩膜，然后将掩膜应用在所述第一物体形状上，就得到所述轮廓。所述特征点定位模块还将所述至少一个第一特征点位置传递到所述图像处理子系统的输出，因此所述姿势可以通过跟踪从所述图像处理子系统得到的至少一个第一特征点位置而被检测出来。

在一个实施例中，检测一个物体的至少一个预定部位的姿势的系统还包括：连接到所述图像传感器的一个微处理器；和连接到所述微处理器的非暂态具体介质，其中所述非暂态具体介质是用计算机可读指令编码的，用于实施所述物体提取模块、所述主体部位定位模块和所述特征点定位模块中至少一个模块的功能，因此当所述计算机可读指令被执行时，所述微处理器就执行相应的功能。

在另一个实施例中，所述特征点定位模块还包括一个形态学掩膜模块。所述物体提取模块、所述主体部位定位模块、所述特征点定位模块和所述形态学掩膜模块中至少一个模块是通过专用硬件来实现的。

在另一个实施例中，检测一个物体的至少一个预定部位的姿势的系统还包括：第二图像传感器，其被配置为从第二视角拍摄所述物体的至少一个第二图像，其中所述第二图像传感器和所述第一图像传感器相隔一个预定距离，所述第二图像和所述第一图像是同时拍摄的。所述图像处理子系统还被配置成：交替地，采取所述第一图像作为输入，以产生至少一个第一特征点位置，采取所述第二图像作为输入，以产生至少一个第二特征点位置。一个三维位置检测模块也集成到所述系统中，并连接到所述图像处理子系统的输出。该模块根据所述至少一个第一特征点位置和所述至少一个第二特征点位置，确定所述物体的至少一个预定部位的至少一个特征点的至少一个三维坐标。

在另一个实施例中，所述第一图像和所述第二图像是二进制图像。

本发明有许多优点。特别是，本发明提供了一种自适应的、准确的、快速跟踪或检测方法，该方法能够很好地适用于实际环境中，尤其是物体的任意姿势。在各种不同的背景环境、照明条件和不同的物体尺寸和方向的情况下，本发明都能可靠运行。换句话说，当物体移近相机（因此图像尺寸变大），或远离相机（图像尺寸变小），以及关于所述相机在不同的方向上时，本发明都可以稳健和准确地运行。

本发明的另一个优点是，只需要最小计算资源。因此，整个算法可以在低成本微型计算机系统上来实现。

使用本发明，在使用前也不需要精心校准。只要物体是在相机的视野内，本发明可以连续地调整其内部参数，以适应不同的物体几何配置。

【附图说明】

图1是本发明一个实施例的部位检测活跟踪系统的功能方框图。

图2是本发明一个实施例的在图像处理子系统和其中模块内实施的检测方法的流程图。

图3是本发明一个实施例的在三维位置检测模块内实施的三维位置检测方法的流程图。

图4a是本发明一个实施例的由第一图像传感器拍摄的第一图像。

图4b是本发明另一个实施例的由第一图像传感器拍摄的另一个第一图像。

图5a-5c是本发明一个实施例的在提取人手形状时的一系列中间图像。

图6a显示本发明一个实施例的在提取人手形状时的多个分割边界。

图6b是本发明一个实施例的分割算法的详细方法。

图6c显示本发明一个实施例的人手形状在一个预定区域内的手指，所述预定区域是在多个分割边界内提取出的。

图7a-7d显示本发明一个实施例的在构建掩膜、将该掩膜应用在人手形状上、并从人手形状中提取出至少一个手指的轮廓时的一系列中间图像。

图8a显示本发明一个实施例的找到的手指的轮廓。

图8b显示本发明一个实施例的在找到手指的轮廓上识别出一个特征点。

【具体实施方式】

在本说明书中和权利要求中使用的“包含”，是指包括以下要素，但不排除其他要素。

本发明的系统和方法可用于检测或跟踪物体的至少一个预定部位，只要该至少一个预定部位是从该物体上延伸出来的。举个例子，在下文中描述的该系统和方法是用于检测或跟踪人手（即物体）的至少一个手指（即至少一个预定部位）。但应理解，本发明的检测或跟踪系统并不局限于此。例如，本发明可以适用于检测动物的肢体，检测飞机的机翼等等，本领域普通技术人员应该清楚，即使对以下描述的具体细节做些变化，也可以实现本发明。

图1是本发明一个实施例的检测跟踪系统的功能方框图。该系统包括多个图像传感器（20a和20b）、一个图象处理子系统22和一个三维位置检测模块32。图像处理子系统22的输入端和输出端分别连接到多个图像传感器（20a的和20b）和三维位置检测模块32。在一个实施例中，每个图像传感器（20a和20b）都被设置成同时拍摄运动中的手的多个图像。图像处理子系统22被设置成独立处理来自各图像传感器（20a和20b）的至少一个图像。图像处理子系统22包括一个物体提取模块24、一个主体部位定位模块26和一个特征点定位模块28。从图像处理系统22的输入端接收的所述至少一个图像被传递到物体提取模块24，所述物体提取模块24被设置成提取手的形状，然后被传递到主体部位定位模块26，主体部位定位模块26被设置成在人手形状的预定区域找到至少一个手指。主体部位定位模块26还确定所述至少一个手指的一个特征尺寸值（W_F）。特征点定位模块28使用该特征尺寸值（W_F）以分析原始输入图像。特征点定位模块28还包括一个形态掩膜（morphological masking）模块30，形态掩膜模块30被设置成，通过一个掩膜（mask）而掩蔽第一个人手形状，以获得至少一个手指的轮廓形状，所述掩膜是基于特征尺寸值（W_F）而形成的。特征点定位模块28被设置成识别至少一个手指轮廓中的至少一个特征点位置（如图8b中的界标76），并生成所述至少一个特征点76作为图像处理子系统22的一个输出。因此，图像处理子系统22接受一个输入图像作为输入，以产生至少一个特征点位置76作为输出。

在一个示例性实施例中，所述第一图像传感器20a和第二图像传感器20b相互间隔一个预定距离，它们从不同的视角拍摄同一物体。在一个实施例中，第一图像传感器20a和第二图像传感器20b相互间隔一个预定距离，彼此平行。第一图像传感器20a和第二图像传感器20b之间的距离取决于预期的工作范围和本发明检测或跟踪系统的准确度。在一个实施例中，第一图像传感器20a和第二图像传感器20b之间的距离为40mm。在另一实施例中，第一图像传感器20a和第二图像传感器20b是红外图像传感器。图像处理子系统22还被设置成独立地处理来自第一图像传感器20a的第一图像，以产生至少一个第一特征点位置，以及处理来自第二图像传感器20b的第二图像，以产生至少一个第二特征点位置。至少一个第一特征点位置和至少一个第二特征点位置两者都被传递到三维位置检测模块32，三维位置检测模块32被设置成，根据所述至少第一特征点位置和所述至少第二特征点位置以确定至少一个兴趣点的三维位置（即至少一个特征点）。通过检测或跟踪特征点位置76，可以跟踪和检测至少一个手指的姿势。在图像处理子系统和模块中实施的检测或跟踪方法的细节将在下面的段落中进行描述。

图像处理子系统22和其中任一模块（24、26、28、30和32），或其中一部分，可以通过专用硬件、或纯软件、或部分硬件和软件来实现。如果图象处理子系统22和模块（24、26、28、30和32）是通过软件或部分硬件和软件来实现的，那么图像处理子系统22和模块（24、26、28、30和32）还包括至少一个微处理器和至少一个连接到所述至少一个微处理器的非暂态具体介质，其中所述至少一个非暂态具体介质，被计算机可读指令编码，用于使所述至少一个微处理器执行如上所述模块和子系统的至少部分功能和/或如下描述的方法过程中的步骤。所述至少一个微处理器还连接到第一图像传感器20a和/或第二图像传感器20b。

现在来看上述图象处理子系统22和模块（24、26、28、30和32）的详细过程方法。图2显示在图像处理子系统22和模块（24、26、28和30）中实施的检测或跟踪方法34的流程图。检测或跟踪方法34首先由第一图像传感器20a拍摄第一图像，包括一个人手（即物体），然后转发所述第一图像到图像处理子系统22的输入端。与此同时，第二图像传感器20b也拍摄包含该人手的第二图像，并被转发到图像处理子系统22的输入端。每个图像都由图像处理处理子系统22和其中模块（24、26、28和30）独立处理。在一个实施例中，图象处理子系统22将输入图像转换为二进制图像。在另一个实施例中，人手是由图像中最大亮度值（即白色）表示，其余的背景则由最小亮度值（即黑色）表示。

在步骤36，提取图像中的人手形状（即物体的形状），而且，如果图像中有至少一个手指伸出的话，也找到伸出最长手指的指尖。在一个实施例中，所提取的人手形状指向上，意思是伸出最长手指的指尖触及人手形状的顶边界。步骤36由图象处理子系统22的物体提取模块24执行。之后在步骤38，在人手形状的一个预定区域内计算人手形状的特征尺寸值（W_F）。步骤38是由图象处理子系统22的主体部位定位模块26执行的，主体部位定位模块26从物体提取模块24接收人手形状。

在一个实施例中，特征尺寸值（W_F）的计算是通过首先找到一个参考值（W_ref）。在另一个实施例中，所述参考值是人的手掌宽度或手腕宽度。如何确定该参考值将在后面详细叙述。

在一个实施例中，一个普通用户的可能的手指大小被定义为人手指模型，该模型包括典型手指几何形状的属性和参数，以及与参考值W_ref有关的如手指宽度和手指高度通常范围的参数和其他相关的预定值。换言之，参考值（W_ref）是用来指定可能的手指宽度和可能的手指长度的范围。在一个具体实施例中，单个手指宽度的范围被指定在K₁·W_ref到K₂·W_ref的范围内，其中K₁和K₂是第一和第二预定值。在另一个具体实施例中，手指高度范围是从K₃·W_ref到K₄·W_ref，其中K₃和K₄是第三和第四预定值。在另一具体实施例中，K₁、K₂、K₃、K₄分别是0.1、0.6、0.3和1.5。

在又一个实施例中，根据至少一个阈值，确定多个分割边界（如图6a中的56a和56b）。在一个实施例中，阈值是基于手指高度范围的。分割边界的最小和的最大高度分别是从指尖到手掌的垂直距离K₃·W_ref和K₄·W_ref。在确定两分割边界（56a和56b）后，人手形状的一个预定区域（如图6c中提取出的图像）就被提取出来。在一个实施例中，预定区域的下边界是在分段边界（56a和56b）内随机选择的。在另一实施例中，在分割边界（56a和56b）内执行收敛分割算法，直到找到手指的最大数目。然后具有最大数目手指的那条线被定义为预定区域的下边界。在后者的情况下，单个手指宽度范围是用来识别合格手指的数目，以便预定区域能包含输入图像中的大部分手指（如果不是全部的话）。在另一个实施例中，采用快速分割算法，比如二值分割算法和黄金分割算法。将在图6b-6c以及以下段落中详细描述一个具体实施的快速分割算法。

在确定预定区域后，测量预定区域内找到的每个手指的尺寸值，特别是宽度。为了确定找到的手指是否包含一个以上的手指（如有时在图像中两个手指并拢一起，没有分开），将找到的手指中测量的最小宽度与找到的其他手指的宽度相比。比较是通过计算一组区别因子来执行的，区别因子定义如下：

a_i＝round(W_i/W_min)

其中a_i是第i个区别因子，W_i是第i个找到的手指，W_min是找到的手指中测量的最小宽度。a_i值要被四舍五入到最近整数。因此，如果第i个找到的手指的a_i等于2，那么就有两个手指并拢在一起，在图像中的第i个手指位置。

然后，计算至少一个手指的特征尺寸值（W_F），即预定区域内找到手指的尺寸值（特别是宽度）的加权平均，其中加权平均的加权系数是基于那组区别因子a_i和裕度系数K的。在一个实施例中，至少一个手指的特征尺寸值（W_F）由下式计算：

W_{F} = \frac{K Σ_{i = 1}^{N} (\frac{W_{i}}{a_{i}})}{N}

其中N是找到手指的总数。在一个实施例中，裕度系数K等于1.1。

在步骤40，根据在步骤38中获得的特征尺寸值（W_F）而构造掩膜。然后在步骤42，通过在人手形状上应用该掩膜，提取出人手至少一个手指的轮廓。两个步骤40和42都是在形态掩膜模块30中执行的。

在步骤44，确定所述至少一个手指轮廓的至少一个预定的特征点位置。在一个实施例中，预定特征点是指尖，并找到指尖在图像中的二维坐标。步骤44是由特征点定位模块28执行的。步骤40、42和44将结合图7和图8在下面的段落中详细描述。

图3显示三维位置检测模块32（如图1中显示的）中实施的三维位置检测方法的流程图。在步骤46，根据在第一和第二轮廓中确定的特征点位置（第一和第二轮廓是从第一和第二图像生成的），找到第一和第二图像中的相应特征点位置。因为在图像处理子系统22和其中模块（24、26、28和30）中实施的检测跟踪方法（34a和34b）独立地处理第一和第二图像，所以有两个轮廓。在一个实施例中，使用几何方法来匹配这两个轮廓。在步骤46之后，在步骤48，这对特征点的三维位置可以通过三角法计算得到。这两个步骤46和48都是在三维位置检测模块32中执行。

图4a显示本发明一个具体实施例的由第一图像传感器20a拍摄的第一图像。图4b显示由第一图像传感器20a在不同的时间、在不同的方向拍摄的另一个第一图像。对于在不同方向拍摄的图像，如图4a和图4b所示的，本发明都可以运行良好。为了说明本发明的灵活性，从图4a所示的第一图像中提取人手形状时的一系列中间图像，显示于图5a-图5c。当图像传感器（20a或20b）拍摄手的数字图像时，就得到一个所述人手形状的二进制图像，如前所述。在图4所示的一个实施例中，人手形状显示为白色，而背景是黑色的。步骤36运行在二进制图象的白色区域上，对应于人手形状。在图5a中，在人手形状的最底端找到一个起点54和一个中点50。然后，又找到伸出最长手指的指尖52（如果有至少一个手指伸出）。然后，确定角度θ，这是穿过中点50的垂直线和中点50与指尖52的连接线之间的角度。然后转动人手形状一个角度θ，并裁剪，使得人手形状垂直放置，如图5b所示。最后，沿着从起点54绘制的水平线裁切最底部分人手形状，就提取出如图5c的人手形状。此后，测量图5c所示人手形状的最底部白色像素的宽度，就确定了参考值（W_F）。

图6a显示本发明一个实施例的在提取的人手形状上的多个分割边界（56a和56b）。如图6a所示，最小高度的分割边界56a和最大高度的分割边界56b分别是从指尖到手掌的垂直距离K₃·W_ref和K₄·W_ref。

图6b显示本发明一个实施例的快速分割算法的流程图。如图6b所示，分割收敛算法的第一个步骤60，是把第一扫描线放在感兴趣区域（ROI）的中间，感兴趣区域是由分割边界56a和56b界定。然后在步骤62确定切割轮廓的宽度。在一个实施例中，跟踪记录沿扫描线的像素亮度转变，以确定切割轮廓的宽度。在扫描线和提取人手形状边界的交点处，会有像素亮度的转变—无论是从黑到白还是从白到黑。两个连续转变之间的白色区域的长度就被定义为切割轮廓的宽度。在步骤62确定了切割轮廓的宽度之后，在步骤64，将切割轮廓的宽度与预定的单个手指宽度范围（K₁·W_ref和K₂·W_ref）相比较。如果大多数切割轮廓的宽度都大于预定的单个手指宽度范围，那么在步骤66，将下一条扫描线放在ROI上半部分的中间，所述的ROI上半部分是由分割边界56a和第一扫描线界定，然后控制被传递回到步骤62。另一方面，如果大多数切割轮廓的宽度都小于预定单个手指宽度的范围，那么在步骤68，将下一条扫描线放在ROI下半部分的中间，ROI下半部分是由第一扫描线和分割边界56b界定，然后其返回到步骤62。当大部分切割轮廓的宽度落在单个手指宽度的范围内时，上述重复步骤终止。最后步骤70的快速分割算法，是提取出一个预定区域。因此，所述预定区域的下边界就被定义为满足终止条件的扫描线。图6c显示如图6a所示的实施例提取出的预定区域。如图所示，确定的手指宽度（58a、58b、58c和58d）就用于步骤38中计算特征尺寸值。

图7a-7d显示在构建掩膜时的一系列中间图像，在步骤40和42，将掩膜用在人手形状上，并提取人手形状的至少一个手指的轮廓。图7a显示人手形状，其中掩膜的构建就基于此。在构建掩膜时，首先对人手形状进行腐蚀操作（erosion operation）。腐蚀操作的结构元素（structureelement）的大小与特征尺寸值成正比（W_F）。在一个实施例中，结构元素的大小是K₅·W_F，其中K₅是第五预定值。在另一实施例中，K₅等于0.5。在腐蚀操作中，人手形状的边界被腐蚀掉一个距离K₅·W_F，从而形成一个腐蚀形状，如图7b所示。在腐蚀运算之后，在所述腐蚀形状上执行一个膨胀操作（dilation operation）。以类似的方式，在膨胀操作中结构元素的大小是K₆·W_F，其中K₆是第六预定值。在一个实施例中，K₆等于0.5。在膨胀操作中，腐蚀形状的边界被膨胀一个距离K₆·W_F，从而形成如图7c所示的形状。可以看到，人手的手腕区域和手掌区域因为膨胀运算而恢复了，因此，如图7c中所示的最终得到的形状被称为掩膜，其是由形态学掩膜模块30创建的。通过从图7a所示的图像中减去图7c所示的掩膜，就得到如图7d所示的至少一个手指的轮廓。

然后，在图7d所示的图像上执行步骤44。首先，在每个确定的手指上建立边界方框72a、72b、72c、72d和72e，如图8a所示。在图8a中所示的噪声74不被确定为一个手指，因为相应的白色区域的宽度没有落在单个手指宽度范围内。对于每个边界框，对应的手指指尖被确定为特征点的位置。在一个实施例中，特征点的位置是通过以下步骤找到的：首先沿着手指的方向确定一个缩小的感兴趣区域（ROI）；找到ROI内的手指的凸点；然后将找到的极值凸点76标记为手指指尖。极值凸点76的二维坐标被定义为特征点位置。

可选地，在从第一图像或第二图像得到特征尺寸值（W_F）之后，根据该特征尺寸值（W_F）可以更新单个手指宽度范围和手指高度范围。在一个实施例中，单个手指宽度的范围设定在K₁ ^*·W_ref到K₂ ^*·W_ref之间，根据一个特定实施例其中K₁ ^*和K₂ ^*分别是0.8和1.2。在另一具体实施例中，手指的高度范围是从K₃ ^*·W_ref到K₄ ^*·W_ref，其中K₃ ^*和K₄ ^*分别是1.7和5。在一个实施例中，更新的单个手指宽度范围和更新的手指高度范围被用于检测或跟踪由所述多个图像传感器（20a和20b）拍摄的下一图像中人手的至少一个手指。在另一实施例中，当拍摄到新视频帧的新图像时，特征尺寸值（W_F）和参考值（W_ref）被更新用于新帧。因此，本发明提供了一种可靠的和稳健的检测方法，即使当手靠近或远离相机时。

上述系统和方法的软件已付诸实施。在一个实施中，软件运行在一个个人计算机（PC）上，其具有英特尔双核处理器，时钟频率为2.8GHz，有2GB内存。当处理来自两个图像传感器（20a和20b）的图像时，该系统能够每秒处理90帧到125帧图像。步骤36的提取物体形状耗时约2至3毫秒。步骤38需要2至3毫秒。步骤40和步骤44一起需要3至4毫秒。最后步骤的计算三维位置（即步骤48）需要大约1毫秒。

已经充分地描述了本发明的示例性实施例。虽然本说明书涉及到特定的实施例，但是本领域一般技术人员将清楚，这些具体细节即使有一些变化，仍可以实施本发明。因此，本发明不应该被解释为限于这里阐述的这些实施例。

例如，上述预定值（K₁、K₂、K₃、K₄、K₅、K₆、K₁ ^*、K₂ ^*、K₃ ^*和K₄ ^*）可以根据用户的喜好和手头具体的问题而使用。

虽然上述讨论揭示了一种具有多个图像传感器20a和20b的检测或跟踪系统，本发明也可以用于各种配置。例如，只有一个图像传感器20a连接到图像处理系统22的一个替代系统可以被开发以确定一个物体的至少一个预定部位的至少在一个预定特征点。在不要求计算至少一个预定特征点的三维坐标的应用中，第二图像传感器20b和三维位置检测模块32是不需要的。

本说明书详细讨论了单个图像的处理步骤。在许多应用中，图像传感器20a和20b是视频摄像机，生成多帧数字图像。在这些情况下，图像处理系统22顺序处理来自每个摄像机的每一帧图像。因此，对于每一帧图像，三维位置检测模块32为物体的每个特征点都产生一个三维坐标。然后特征点坐标随时间的运动轨迹就可以被跟踪，以确定物体至少一个预定部位的姿势。

Claims

1.一种检测一个物体的至少一个预定部位的姿势的方法，包括步骤：

a)从由第一图像传感器拍摄的第一图像中，提取出第一物体形状；

b)计算所述第一物体形状一个预定区域内的所述预定部位的一个特征尺寸值；

c)根据所述特征尺寸值，构建一个掩膜；

d)通过将所述掩膜应用在所述第一物体形状上，从所述第一物体形状中提取出所述预定部位的一个轮廓；

e)在所述预定部位的所述轮廓中，找到至少一个预定特征点，从而检测出所述预定部位的所述姿势。

2.根据权利要求1所述的方法，还包括步骤：

a)从所述第一图像传感器获得一系列帧；

b)在所述多个帧上，重复权利要求1的步骤(b)、(c)、(d)和(e)；

其中，对于每个所述帧，所述特征尺寸值是重新计算的，所述掩膜是重新构建的。

3.根据权利要求1所述的方法，其中所述计算特征尺寸值的步骤还包括以下步骤：

a)确定所述物体的一个参考部位的参考值；所述参考部位不同于所述至少一个预定部位；

b)根据所述参考值，计算多个阈值。

4.根据权利要求3所述的方法，其中所述计算特征尺寸值的步骤还包括以下步骤：

a)根据第一组所述多个阈值，确定多个分割边界；

b)根据所述分割边界，从所述第一物体形状中提取出所述预定区域；

c)根据第二组所述多个阈值，识别出所述预定区域内的所述至少一个预定部位；

d)测量所述预定区域内的所述至少一个预定部位的尺寸值；

e)根据所述预定区域内的所述预定部位的所述尺寸值，计算所述特征尺寸值。

5.根据权利要求4所述的方法，还包括步骤：将扫描线放在所述多个分割边界之间，使用快速分割算法；其中所述预定区域是在所述扫描线和所述第一物体形状的顶边界之间的一个区域。

6.根据权利要求5所述的方法，其中所述快速分割算法选自以下：二进制分割算法、黄金分割算法。

7.根据权利要求4所述的方法，其中所述计算特征尺寸值的步骤还包括以下步骤：

a)根据所述预定区域内的所述至少一个预定部位的所述尺寸值，计算一组区别因子；

b)计算所述特征尺寸值，即所述尺寸值的加权平均，其中所述加权平均的加权因子是基于所述组区别因子和裕度系数的。

8.根据权利要求4所述的方法，还包括步骤：根据所述特征尺寸值，更新所述第一组和所述第二组多个阈值。

9.根据权利要求1所述的方法，其中所述构建掩膜的步骤还包括以下步骤：

a)在所述第一物体形状上执行腐蚀操作，因而生成一个腐蚀形状；

b)在所述腐蚀形状上执行膨胀操作，因而生成所述掩膜；

其中所述腐蚀操作和所述膨胀操作的结构元素的大小是基于所述特征尺寸值的。

10.根据权利要求9所述的方法，其中所述结构元素的大小是所述特征尺寸值的一半。

11.根据权利要求1所述的方法，其中所述找到至少一个预定特征点的步骤还包括以下步骤：

a)在所述预定部位的所述轮廓中，找到所述物体的每个预定部位；

b)对于所述第一图像中的所述每个预定特征点，确定至少一个第一特征点位置。

12.根据权利要求11所述的方法，还包括以下步骤：

a)从由第二图像传感器拍摄的第二图像中，提取出所述物体的第二物体形状；

b)计算所述第二物体形状第二预定区域内的所述预定部位的第二特征尺寸值；

c)根据所述第二特征尺寸值，构建第二掩膜；

d)通过将所述第二掩膜应用在所述第二物体形状上，从所述第二物体形状中提取出所述预定部位的第二轮廓；

e)在所述预定部位的所述第二轮廓中，找到至少一个预定特征点；

f)对于所述第二图像内的每个所述预定特征点，确定至少一个第二特征点位置；

g)根据所述第一特征点位置和所述第二特征点位置，确定每个所述特征点的三维坐标。

其中所述第一图像和所述第二图像是同时拍摄的，所述第二图像传感器和所述第一图像传感器相隔一个预定距离。

13.根据权利要求12所述的方法，其中所述确定三维坐标的步骤是基于三角测量方法的。

14.根据权利要求1所述的方法，其中所述物体是人手；所述至少一个预定部位是所述人手的手指；所述至少一个预定特征点是所述手指指尖，还包括以下步骤：

a)建立一个感兴趣区域，所述感兴趣区域是在所述预定部位的所述轮廓中包围住所述手指的一个区域；

b)通过搜索所述感兴趣区域内的凸点，找到所述指尖的坐标。

15.一种识别一个物体的至少一个预定部位的方法，包括步骤：

a)获得所述物体的一个模型；所述模型描述所述至少一个预定部位和所述物体之间的至少一个关系；

b)从第一图像中提取出所述物体的一个物体形状；

c)根据所述模型，计算所述物体形状的所述至少一个预定部位的特征尺寸值；

d)根据所述特征尺寸值，构建一个掩膜；

e)通过将所述掩膜应用到所述物体上，从所述物体形状中提取出所述至少一个预定部位的轮廓；

f)从所述轮廓中找出所述至少一个预定部位。

16.根据权利要求15所述的方法，还包括步骤：

a)从所述第一图像传感器获得一系列帧；

b)在所述多个帧上，重复权利要求15的步骤(c)、(d)、(e)和(f)；

17.根据权利要求15所述的方法，其中所述计算步骤还包括以下步骤：

a)根据所述模型，确定所述物体形状的一个参考值；

b)根据所述参考值，计算所述特征尺寸值。

18.根据权利要求17所述的方法，还包括以下步骤：

a)找出所述轮廓的所述预定部位内的至少一个预定特征点；

b)根据所述至少一个特征点，检测所述预定部位的姿势。

19.根据权利要求18所述的方法，其中所述物体是人手；所述至少一个预定部位是所述人手的手指；所述至少一个预定特征点是所述手指指尖，所述模型包括所述手指和所述人手之间的至少一个几何关系和至少一个参数。

20.一种检测一个物体的至少一个预定部位的姿势的系统，包括：

a)第一图像传感器，其被设置为从第一视角拍摄所述预定部位的至少一个第一图像；

b)图像处理子系统，其连接到所述第一图像传感器，其中所述图像处理子系统接收所述至少一个第一图像作为输入，产生至少一个第一特征点位置作为输出；所述图像处理子系统还包括：

i)物体提取模块，其被设置成从所述输入提取出所述物体的一个物体形状；

ii)主体部位定位模块，其被设置成，在所述物体形状的一个预定区域内找出所述至少一个预定部位，所述主体部位定位模块还确定所述至少一个预定部位的特征尺寸值；

iii)特征点定位模块，其被设置成，在一个轮廓的所述至少一个预定部位内，找到至少一个第一特征点位置，所述轮廓是通过在所述第一物体形状上使用掩膜而得到的，所述掩膜是根据所述特征尺寸值而构建的；

其中所述特征点定位模块还将所述至少一个第一特征点位置传递到所述图像处理子系统的所述输出；因此，所述姿势可以通过跟踪从所述图像处理子系统得到的至少一个第一特征点位置而被检测出来。

21.根据权利要求20所述的方法，还包括：

a)连接到所述图像传感器的一个微处理器；和

b)连接到所述微处理器的非暂态具体介质，其中所述非暂态具体介质是用计算机可读指令编码的，用于实施所述物体提取模块、所述主体部位定位模块和所述特征点定位模块中至少一个模块的功能；

因此当所述计算机可读指令被执行时，所述微处理器就执行相应的功能。

22.根据权利要求20所述的系统，其中所述特征点定位模块还包括一个形态学掩膜模块；其中所述物体提取模块、所述主体部位定位模块、所述特征点定位模块和所述形态学掩膜模块中的至少一个模块是通过专用硬件来实施的。

23.根据权利要求20所述的系统，其中所述第一图像是一个二进制图像。

24.根据权利要求20所述的系统，还包括：

a)第二图像传感器，其被配置为从第二视角拍摄所述物体的至少一个第二图像；其中所述第二图像传感器和所述第一图像传感器相隔一个预定距离，所述至少一个第二图像和所述第一图像是同时拍摄的；其中所述图像处理子系统还被配置成：交替地，采取所述第一图像作为输入，以产生至少一个第一特征点位置，采取所述第二图像作为输入，以产生至少一个第二特征点位置；

b)三维位置检测模块，其连接到所述图像处理子系统的输出，其中所述三维位置检测模块根据所述至少一个第一特征点位置和所述至少一个第二特征点位置，确定所述物体的所述至少一个预定部位的至少一个特征点的至少一个三维坐标。

25.根据权利要求24所述的系统，其中所述第一图像和第二图像是二进制图像。