CN103314391A

CN103314391A - 基于自然姿势的用户接口方法及系统

Info

Publication number: CN103314391A
Application number: CN2012800047647A
Authority: CN
Inventors: J·C·托西诺斯迪亚兹; K·西蒙斯; G·皮诺尔特; X·巴埃莱; J·托洛; D·达尔佐特
Original assignee: Softkinetic Software SA
Current assignee: Sony Depthsensing Solutions NV SA
Priority date: 2011-01-05
Filing date: 2012-01-04
Publication date: 2013-09-18
Anticipated expiration: 2032-01-04
Also published as: US20140007022A1; KR20130112061A; CA2817443A1; KR101554082B1; EP2474950B1; JP2014501415A; JP2014225288A; JP6031071B2; AU2012204889B2; AU2012204889A1; CN103314391B; SG190826A1; TW201237677A; JP5646085B2; US9081419B2; WO2012093147A1; TWI524210B; EP2474950A1; CA2817443C

Abstract

本文描述了在交互式三维成像系统的显示屏上提供情景反馈、控件和接口元件的用户接口。用户（2410）和接口交互，以根据系统利用三维场景中的至少一个兴趣点（2310,2320）所识别的姿势来提供控制信号，其中该三维场景由成像系统成像以提供用于用户接口的控制信号。控制信号通过姿势（2420,2430）来提供，这些姿势由姿势识别过程实时地分析，该姿势识别过程分析兴趣点运动和轨迹的统计和几何性质。

Description

基于自然姿势的用户接口方法及系统

背景技术

本发明涉及基于自然姿势的用户接口方法和系统，尤其涉及用于导航和控制计算机化系统的基于自然姿势识别的用户接口。

计算机视觉技术已发展到可获得实时精确三维场景测量的状态。这些场景测量允许图像处理系统计算和提供新的输入种类，诸如可能的物体/用户与系统交互，其中输入交互涉及所观看的场景内的视场中的物体/用户的运动和/或姿势。

若干种类的用户接口设备和方法当前可用。除诸如鼠标、操纵杆、计算机键盘、触摸屏或红外遥控技术之类的接口设备之外，最新的技术是基于三维成像或感测系统，这种系统检测且使得有可能建模和仿真场景中的人体。诸身体部位（例如，手）可从仿真中提取，且它们可典型地被随时间而监控其位置。因而手可用于执行姿势，这些姿势可由成像或感测系统识别。这些姿势旨在发起触发事件和/或提供连续输入数据至根据所接收的输入进行交互的计算机接口。

对现有技术的描述

WO-A-2009/042579描述了一种基于姿势的导航系统，其用于利用经识别用户的表示周围的定制图标来控制通信会话。提供了用于语音和视频通信的增强接口，其中从一系列相机图像中识别用户的姿势。还提供了包括用户的控件和表示的用户接口。该方法涉及使用图像处理执行姿势识别以触发控件输入的导航接口和系统。例如，可通过识别由用户的表示所做出的约定姿势将电信会话状态从待机状态改变至呼叫或菜单状态。

WO-A-2009/035705、WO-A-2009/108894和WO-A-2004/070595描述了其它基于姿势的导航系统。在WO-A-2009/035705中，公开了在三维环境中利用交互显示器处理基于姿势的用户交互的简单系统和方法。该显示器利用可与系统交互的图标来表示用户的手。

在WO-A-2009/108894中，描述了使用用户的经识别姿势进行的增强输入。用户的表示被显示在控件的中心区域，该控件进一步包括关于中心区域径向设置的交互元件。增强的输入还包括基于用户的经识别姿势与控件进行交互，以及基于与控件的交互来控制应用。交互元件可采用一系列图标的形式，这些图标是通过手、眼或身体运动使用用户的表示的范围广泛的姿势来选择的，例如，从手指到面部表情的姿势。

在WO-A-2004/070595中，公开了一种设备和方法，其利用姿势交互地控制在图像表示装置的图形用户接口的图像中的鼠标指示器。该设备包括用于生成辅助图像的摄影机、处理辅助图像的图像数据的图像处理设备以及用于反射辅助图像的镜单元。还提供了分析单元，用于检测由摄影机捕获的物体并确定所检测的物体在辅助图像中的瞬时位置。鼠标控制机制连接至分析单元并且根据相应确定的瞬时位置在图像表示装置的图像内表示和移动鼠标指示器，且与镜单元连接的混合和/或交叉淡入淡出（cross-fading）设备被配置成在图像表示装置的图像中以部分透明的方式将主图像与由镜单元获得的经反射辅助图像叠加。

WO-A-2010/126714描述了来自用户接口的用户反馈。在此，捕获设备被用于捕获用户的运动，且一设备被提供用于显示映射到用户的运动的模型。姿势被用于控制用户接口。然而，用户可能不熟悉映射其运动的系统或者可能不知道什么姿势可用于正在执行的特定应用，因而不知道如何执行可用于正在执行的应用的姿势。向用户提供表示指令性姿势数据的视觉反馈可教导用户如何做出正确的姿势。可按任何数量的适当方式来提供视觉反馈。例如，可使用重影的图像、玩家化身或骨架表示来提供视觉反馈。系统还可处理用于显示表示指令性姿势数据的视觉反馈的预先记录的内容或实况内容。视觉反馈可描绘用户的实际位置与理想姿势位置之间的差异。

WO-A-2010/03482描述了用于操作计算机化系统（典型地虚拟键盘）的方法，其中在显示屏上呈现用户接口元件。由用户的身体部位在三维空间中做出的第一姿势被检测到，且响应于该第一姿势，由用户通过指示而预先选择的显示屏的区域被标识。于是提高了在显示屏上的选定区域中出现的用户元件中的一个或多个的放大水平。在提高放大水平之后，由用户的身体部位做出的第二姿势被检测到以便从用户接口上出现的那些元件中选择预先选择的元件。第三姿势降低了用户接口元件的放大水平。

WO-A-2003/071410描述了一般的姿势识别系统和方法，其涉及身体姿势，尤其涉及手势，且其使用深度感知传感器。三维传感器提供用户的身体部位的多个不连续区域的三维位置信息。从身体部位（即，手）的形状以及它们在一时间间隔上的位置和定向来识别姿势。姿势被分类以用于确定至相关电子设备的输入。未定义的分段模块使用深度信息将用户的身体部位与背景分开。与系统交互的诸像素组被假定为手的一部分，它们被标识为离相机最接近的物体，或者它们被标识为属于用户，因为它们例示了与人的皮肤相同的光反射性质。姿势识别是根据被假定为表示手的像素组的姿态和体态来确定的，其中姿态与手形的位置和定向有关，而体态则与形状和姿态的组合有关。可在基于未定义分类的算法的基础上对定界符功能的定义自动执行动态姿势识别以触发动态姿势的开始或结束，诸如特定手势、特定运动、特定声音或键入。需要确认功能，其中用户必须确认用于验证的姿势。这通过使用另一姿势、声音或在硬件键盘上的文本输入来完成。

WO-A-200/011923和WO-A-2010/011929描述了更多具体的姿势识别。在这些文档中，在特定信号处理实施例中描述了用于挥动和圆圈姿势识别的技术。

WO-A-2010/01923描述了圆圈约定姿势的增强检测，其中形状被定义在运动数据内，且运动数据在与所定义的形状对准的点处被采样。在此，确定运动物体是否基于由所采样的运动数据所展示的模式来执行与所定义的形状相关的姿势。如果确定运动物体正在执行所需要的姿势，则控制应用。

WO-A-2010/011929公开了挥动约定姿势的增强检测，其中形状被定义在运动数据内，运动数据在与所定义的形状对准的点处被采样，且基于所采样的运动数据随着时间确定运动物体沿着所定义的形状的位置。如果运动物体正在执行所需要的姿势，则对运动物体是否基于由所确定的位置所展示的模式来执行姿势的确定被用于控制应用。

然而，许多上述系统需要用户被预先检测且被置于场景中，需要至少手这一身体部位被置于场景中，和/或需要对用户的表示进行建模，根据建模可更容易地提取身体部位的一部分，例如手，因为手是用于与系统接口交互的主要身体部位。

因此，本发明的一个目的是提供一种用户接口，该用户接口可容易地与三维成像系统集成，使得用户或物体所做出的姿势可被用于控制成像系统的操作而不需要对用户或物体的表示进行建模。另外，不需要对场景内的用户或物体的位置进行预先检测或跟踪。

发明内容

根据本发明，提供了一种用于与用户接口系统交互的方法，其包括以下步骤：a)形成所述至少一个多维成像系统的视场内的场景的至少一个多维表示；b)对所述多维表示执行多维约束群集操作以提供所述场景的群集表示；以及c)从所述群集表示中标识兴趣点候选项。

步骤c)可包括标识展示了相干运动的至少一个群集。另外，步骤c)可包括标识仅与一个其它群集连接的至少一个群集。

优选地，步骤c)包括姿势识别。

姿势识别可通过使用包括以下步骤的至少连续轨迹分析来确定：标识沿着兴趣点候选项的轨迹的轨迹点；标识兴趣点候选项的轨迹方向的至少一个多维变化，所述至少一个多维变化形成具有参考种子标识次序的参考种子点；标识轨迹方向的相继变化，所述相继变化中的每一个形成相继参考种子点；以及使用所述参考种子点和所述轨迹点来识别姿势。

作为姿势识别的一部分，可使用所述参考种子标识次序。

有利地，所述轨迹分析进一步包括以下步骤：针对每个点，确定与先前的点相关的距离、速度向量或加速度向量中的至少一个。可实现进一步的步骤，即对于每个点使用几何和统计计算来识别姿势。

根据一个实施例，如果兴趣点候选项已经首先执行了预定姿势则它可被激活作为激活的兴趣点，所述激活的兴趣点仍然具有兴趣点候选项状态。在这种情况下，感兴趣的区域可与所述激活的兴趣点相关联。当每个兴趣点候选项都已执行了预定姿势时，其它兴趣点候选项也可被激活作为至少一个其它激活的兴趣点，所述至少一个其它激活的兴趣点仍然具有兴趣点候选项状态。

而且，可确定可与所述至少一个其它激活的兴趣点相关联的至少一个其它感兴趣的区域。每个感兴趣的区域可使其位置和维度相对于兴趣点候选项的位置被设置。

另外，该方法包括以下步骤：识别由在所述至少一个确定的感兴趣的区域内的至少一个预定的兴趣点候选项所执行的预定姿势。

有利地，所述用户接口系统包括具有图形用户接口的基于姿势的虚拟键盘，所述图形用户接口具有预定的元件排列，以便仅仅使用极小的自然姿势来选择。

在一个实施例中，该方法进一步包括以下步骤：根据至少一个兴趣点候选项的相干运动来控制所述用户接口系统。在另一可能的实施例中，该方法可进一步包括以下步骤：根据所识别的姿势来控制所述用户接口系统。

可提供根据所述用户接口系统的当前状态的情景反馈信息。

步骤b)可包括使用多分辨率图像处理。

在优选实施例中，每个多维表示可包括三维表示。

附图说明

为了更好地理解本发明，现在将仅以示例的方式参考附图，在附图中：

图1示出本发明的主要要素的流程图；

图2示出根据本发明的用户接口的操作流程图；

图3示出兴趣点（POI）定位和标识的操作流程图；

图4示出多分辨率过程的流程图；

图5更详细地示出图4的多分辨率过程；

图6示出由图4和图5的多分辨率过程所创建的低分辨率深度图的使用流程图；

图7示出使用约束K均值领导者-追随者算法来确定用于矩心和末端的链接图；

图8示出用于将群集标识分配给像素的精炼过程；

图9更详细地示出精炼过程的操作；

图10示出图8的精炼过程的影响；

图11示出精炼过程的输出的使用流程图；

图12示出基于轨迹的“圆圈”姿势识别；

图13示出基于轨迹的“挥动”姿势识别；

图14示出基于轨迹的“刷”姿势识别；

图15示出基于轨迹的“推”/“拉”姿势识别；

图16示出基于轨迹的“点击”姿势识别；

图17示出用户接口导航系统的流程图；

图18示出虚拟键盘主框架；

图19示出虚拟键盘的优选实施例；

图20示出感兴趣的区域（ROI）管理的流程图；

图21示出用于POI管理的流程图；

图22示出用于POI管理器的操作的流程图；

图23示出具有人作为交互控制器的场景中的ROI和POI的表示；

图24示出用于向用户教导他/她预期执行的姿势的激活和控制姿势反馈图形接口；

图25示出反馈接口元件；

图26示出反馈接口元件的第一优选实施例；

图27示出反馈接口元件的第二优选实施例；以及

图28示出后继控制交互过程的流程图。

发明简述

本发明公开了自然姿势远程控制导航系统及其关联方法，其提供情景控制和情景接口元件以及提供情景用户反馈。创新的图像处理技术被用于处理来自三维成像设备的输出。在三维场景中标识至少一个POI，POI在至少一个定界的ROI内交互使得可通过使用创新且高效的轨迹和/或运动分析对每个标识的POI进行实时自然姿势识别分析。姿势识别的输出数据随后可用作连续指示信号并用于触发系统内的事件，例如系统内的元件的选择和激活。系统利用与直观、自然且不费力的控件相顺应的自然姿势驱动的用户接口。

更精确地，本发明提供新颖且高效的方法和系统，这些方法和系统使其有可能从无语义多维点云中或者从所捕获的深度图图像的像素或所捕获的深度图图像的系列中提取定义用户和机器或系统之间的交互的一些数据。在该意义上，数据被分成两类：第一类是允许用户控制和传递信息至接口的输入数据；以及第二类是由机器或系统以及相关的应用所输出的情景数据。根据本发明，对于这两组数据，用户接口系统均包括给用户的反馈/信息。还要更精确地，它也提供一种如何标识至少一个POI的方法，该至少一个POI与身体或与被用于与系统/机器/用户接口交互的物体有关。

此外，本发明的方法和系统也可定义一种情景接口系统，其中该系统与自然姿势控件相结合，要求用户以最直观和高效的方式交互同时提供与预期姿势以及被执行的那些姿势有关的反馈信息。以上全部公开克服了实时跨平台处理兼容性的约束。

更精确地，本发明提供在例如显示屏上呈现至少情景反馈、控件和接口元件的导航方法和系统。可将反馈扩展至能够提供任何感测相关信号的任何其它设备。在此，该方法和系统使用三维成像设备来检测三维场景中的至少一个POI。另外，导航方法和系统也包括对所检测的POI（更精确地对其轨迹的不连续读数）执行的嵌入式实时自然姿势识别分析系统。来自自然姿势识别分析系统的输出数据被用作用户接口的控制器。

本公开也涉及基于包括POI检测和自然姿势识别的多维图像处理尤其是基于三维图像处理的用户接口和非接触式远程控制系统。在这方面，本发明利用可通过使用群集算法以智能方式分段的成像场景，其中该群集算法产生例示了随着时间的时空相关性的群集。本发明的用户接口可使用表示三维场景的深度图作为输入，其中该场景中的每个像素具有x坐标和y坐标以及z坐标；即深度值。来自用户接口的输出包括由用户的姿势所产生的连续事件和偶发事件两者。也可使用情景用户接口反馈。

更精确地，通过典型地使用K均值算法和领导者-追随者分段算法的混合可将场景中的像素分组到具有一些空间约束的群集中。可至少根据领导者-追随者分段算法和一些预定参数来产生和破坏群集。一个这样的参数可以是在每个群集中需要呈现的像素的最小数量。替代地，群集的最大半径可用作参数。另外，标识代码可被分配给每个群集以及来自先前帧的群集并且用作当前帧的种子。

另外，用户在场景内的有意识运动具有使群集以特定行为运动的效果，该特定行为可与场景内的噪声或无意识运动区别开，因此允许群集被标识为需要被分析的POI候选项。一旦至少第一群集已经执行了激活姿势，群集就可被标识为POI。场景分析随后可被潜在地缩小到围绕该POI位置的ROI。

通过使用上述手段，本发明提供了可用于提供控制用户接口的健壮且高效的方法。理想地，不需要：（i）从场景中去除背景，因为整个场景被群集且对每个群集的运动的分析随着时间而被执行；（ii）场景校准，因为与成像系统一起使用的三维相机提供可靠坐标系统中的可靠测量；（iii）对图像中的用户或物体的标识，因为运动的POI具有时空相干性质且在优选实施例中至少也是末端，在更优选的实施例中POI展示相干运动；（iv）对人类用户的手或肢体的任何其它部位的标识，因为相干运动POI将是支持该控制的POI；以及（v）运动估计或跟踪算法，因为所获得的POI的时间相干性是足够可靠和显著的。

另外，本发明的方法允许使用用户的其它部位来提供控制，例如脚、手以及手中所持的物体。也可通过能够执行与预期姿势相关的特定运动的物体来提供控制。

对本发明的具体实施例的描述

将针对特定实施例并参考特定附图来描述本发明，但是本发明不限于此。所描述的附图只是示意性的和非限制性的。在附图中，出于说明的目的，一些元件的尺寸可放大且不按比例地绘制。

根据一个一般实现，用户可与计算机化系统交互，诸如家庭“自动化（domotic）”控制器或多媒体导航系统，其与至少一个设备连接以提供与情景有关的一些反馈信息以及还捕获三维场景信息。诸如例如设备显示器之类的渲染设备可被用于提供一些视觉反馈信息，诸如图形用户接口（GUI）的可视化中的至少一个元件的表示的变化。在另一示例中，捕获设备可以是三维相机，该三维相机提供与用户交互的场景的三维图像。该方法和系统也可在另一补充实现嵌入的扬声器中，例如，以便向用户提供附加音频反馈信息。自然其它设备可被用于提供其它类型的传感反馈。

从用户到系统的交互可包括直接的、直观的（即，具有非常短的学习曲线）且不费力的自然姿势，而从系统到用户的交互可包括传感信号，诸如响应于用户动作的视觉和/或音频情景信息。从系统到用户的交互也可提供用户被预期执行的交互的表示。

该系统和方法可包括：在第一步骤中，在形成图形接口一部分的显示屏上提供动画，该动画表示预期要由人（将与该人交换人机交互）执行的姿势。该步骤旨在开始和初始化交互会话。例如，预期姿势可以是“挥手”，其可通过文本、动画图或视频来表示。用户可直观地理解视觉信号且随后可利用至少一个身体部位或利用与其身体部位联接的至少一个物体来执行挥动姿势。典型地，这种身体部位包括人类用户的手，但是应理解本发明不限于这种身体部位。因此，系统使用相机设备捕获场景的三维图像，执行一些信号处理以定位和识别预期姿势，并且随后可定位和限定优选的感兴趣的区域（ROI），将来会优选地在该感兴趣的区域中寻找进一步的交互。同时，系统也可标识优选的兴趣点（POI），该POI可以是表示执行预期姿势的身体部位的一组像素。在这种情况下，POI是用户的部分表示，下一交互将通过该部分表示来提供。因此，通过执行预期姿势，用户会将自己激活为系统控制器，因为他/她已经以系统预期的形式给出了反馈回答。.更精确地，该方法和系统将使得表示已执行预期激活姿势的手的成像点或一组三维成像点成为系统将要查看和分析的主POI。该第一步骤可与激活和标识阶段相似。因此，该步骤的特征在于，在检测优选POI之前不需要检测用户，并且不需要提前执行任何身体部位或物体标识。

在第二步骤中，一旦至少一个POI交互到其中的至少一个ROI存在，系统就对标识的第一POI（其被指定为主POI）执行控制姿势识别以便收集连续指示信息或姿势事件触发。该第二步骤可被认为是对导航系统的交互式接口的基于自然姿势的主要控制。例如，根据识别的姿势，系统动态地且情景地使显示的GUI改变。在一个实施例中，这也可在激活姿势检测时间完成。典型地但不排他地，系统可在屏幕上显示由若干元件、图标和/或表示制成的多媒体菜单，这些元件、图标和/或表示允许用户启动不同种类的子菜单或应用，诸如万维网导航、地图导航、音乐播放器、视频播放器、电视频道搜索器、相片库播放器、游戏、音量控件、投票应用等等。接口的布局（即，与至少一个子菜单或应用相对应的每个元件、图标和/或表示）可以这样一种方式来组织，即使得用户执行最简单且最自然的姿势运动以选择、预选或激活这些元件、图标和/或表示中的任意一个。可按若干方式做出选择，例如，以其最简单的形式，可通过指向GUI元件来实现选择。定时器控件以及其它姿势可与最简单的形式结合使用。

典型地，选择、预选或激活可经由自然姿势远程控制如下执行：通过将用户的表示（例如鼠标指示器或化身）移动到期望GUI元件上，然后等待与该元件链接的关联定时器周期（经过的时间的表示或在接口上被显示为反馈信息的剩余时间）结束。

在另一实施例中，选择、预选或激活也可在不止一个步骤内执行。典型地但不排他地，选择、预选或激活可在两步骤过程中执行，该过程包括：第一步骤，其中使用该方法和系统的基于姿势的连续指示特征来选择期望元件；以及第二步骤，其基于可以是文化中立和语言相关的另一自然控制姿势，诸如点击姿势或推运动姿势，该姿势将启动与元件或表示相附连或链接的交互，由此POI点出现，例如以改变所显示的接口菜单、改变接口布局、执行应用等等。

该方法和系统的第一步骤和第二步骤两者均与多POI和多ROI顺应，以允许若干用户同时与至少一个计算机化系统内的若干部分交互，或者允许若干用户与若干与网络上的其它系统链接在一起的计算机化系统交互。

在另一实施例中，人到机器以及机器到人交互过程被定义为直观和自然的，使得没有经验的或有经验的用户至少部分地不需要获得关于他们被预期执行以与系统交互的姿势的反馈。例如，没有经验的用户可在基于自然姿势的系统前面直观地执行自然挥动姿势，以便以与他与远处的人进行交流的相同的方式来初始化交互过程。在另一示例中，已经历了基于自然姿势的交互系统的人类用户将不需要屏幕上的任何显示信息来提醒他或教导他如何使主菜单或声音控制菜单出现。有经验的用户会知晓，在任何时候通过执行圆圈姿势，系统的主菜单会出现在屏幕上，并且一旦与基于姿势的交互式系统的交互已经通过执行诸如上述的“挥动姿势”之类的激活姿势而开始，再次执行挥动姿势会使声音控制菜单（无论其是应用还是在屏幕上显示的接口）出现。替代地，诸如用手遮住用户的耳朵之类的语义姿势可被用作对系统中的声音进行静音的控制姿势。

在本发明的另一实施例中，与自然姿势的情景交互可被例示，使得诸如“挥动姿势”之类的自然姿势可相对于系统及其应用的状态在不同的时间以不同的方式使用。在更精确的示例中，在第一步骤内，挥动姿势可用于初始化、启动或激活用户和系统之间的交互，该系统提供要求用户执行“挥动姿势”的基于动画图片的信息。在第二步骤内，一旦用户通过执行所请求的姿势激活了交互式系统，“挥动姿势”在被执行时就可使声音控制接口出现在显示屏上，无论应用或所显示的GUI的状态如何。在第三步骤中，如果声音控制菜单被显示，则再次执行挥动姿势会使其消失。

在优选实施例中，如果确定的应用已被启动，则与姿势相关联的控件可被动态地加载或卸载，例如，“挥动姿势”可动态地关联于诸如清除虚拟键盘应用接口中的字符选择之类的交互过程。当离开特定虚拟键盘应用时，“挥动姿势”可被自动地重新关联于声音菜单栏的调用。

在该系统和方法的优选实施例中，图像捕获设备可利用二维相机、立体相机、LIDAR、声波成像器、包括公知结构的光三维相机的三维相机以及飞行时间（TOF）相机。在更优选的实施例中，该系统和方法利用深度图或三维点云输入数据类型。

在优选实施例中，深度图或多维点云被分组到具时空意义的群集中，每个群集由矩心来表示且具有允许跟踪其相对于时间的个体运动的标识。在更优选的实施例中，例如，三维场景群集可以是约束的K均值领导者-追随者群集算法。

在另一实施例中，POI和ROI检测、定位和标识利用对输入数据执行（尤其是通过分析群集或矩心运动）的信号处理算法。在优选实施例中，如果矩心或群集已执行了如上所述的激活姿势，则至少第一POI被标识和附连到该矩心或群集。在更优选的实施例中，已执行了激活姿势的矩心或相关群集必须是群集的多维场景点云的区域邻接图（(RAG）的末端。在还要更优选的实施例中，确定相关运动群集或矩心是否是最佳POI候选项，有必要去除若干候选项中的伪阳性和模糊性。

在另一实施例中，如果尚未有矩心或群集满足激活姿势，则主POI将是首先执行激活姿势的那个POI。在主POI周围区域中的任何其它相干运动末端可与从POI相似。可根据一些预定规则来交换POI的主状态和从状态。POI周围的区域是ROI，ROI的位置以相对于已检测到激活姿势的位置的空间位置为中心。

ROI位置可以是静态或动态的。这意味着该位置可根据至少一个POI位置改变。ROI的维度也可以是静态或动态的。这意味着如果一个静态POI离开初始限定的ROI则可修改维度。

如果在某一持续时间之后，在确定的ROI中的任何POI运动不足，或者任何标识的POI已离开ROI，则系统可破坏相应的POI和ROI，因为它们不再能够提供任何交互。此时，系统将等待将通过使用在上述方法和系统的第一步骤中执行的相同过程来标识的新的POI和ROI。

在另一实施例中，安全定时器可在最近禁用或停用的POI如果运动充足或如果重新进入其所链接的ROI中而再次开始交互时允许这些POI被启用或重新激活。在该安全定时器期间，相应的POI和ROI仅被禁用或停用而不是被破坏。

在另一优选实施例中，自然姿势识别是通过对被分段的输入图像的矩心或群集的轨迹的分析来执行的，无论该方法和系统中的特定步骤如何。这意味着，对于其中搜索激活姿势的第一步骤，或者对于其中搜索控制姿势的第二步骤，姿势识别依赖于检测自然姿势，诸如“挥动”、“推”、“点击”、“拉”、“不动”、“指示”，以及基本几何形状检测，诸如“圆圈”、“正方形”、“矩形”、“线”、“十字形”、“三角形”等等。

在更优选的实施例中，对相应ROI中的主和/或从POI轨迹进行姿势识别。

在还要更优选的实施例中，姿势识别是通过分析以下各项来执行的：POI轨迹的方向变化、在确定的持续时间内的连续POI方向变化之间的时间、连续POI轨迹方向变化之间的欧几里得距离、连续POI轨迹方向变化之间的POI速度、以及连续POI轨迹方向变化之间的POI加速度。POI轨迹的方向变化意味着从连续捕获的图像的帧到帧的POI的X方向、Y方向或Z方向中的至少一个变化。这些POI轨迹变化创建了参考种子点，POI的后续位置将与该参考种子点进行比较。另外，轨迹分析可优选地包括对参考种子点的次序创建的分析以便识别所执行的姿势。

在还要更优选的实施例中，如果X、Y、Z方向变化的计算以及轨迹方向变化之间的累计距离的计算保持在至少一个预定阈值之下，则轨迹方向变化分析方法被用于确定POI候选项中的相干运动质心或群集。

在上述第一和第二步骤的激活姿势或控制姿势中，姿势识别是相对于提取姿势交互触发（诸如，“点击”、“推”、“挥动”姿势事件等）和/或连续数据信息（诸如，指示位置）的时间对POI执行的。

在该方法和系统的特定实施例中，姿势识别可用于控制虚拟键盘应用，虚拟键盘的GUI的布局可按允许用户利用有限数量的姿势执行直观上非常简单的运动的方式来安排。在优选实施例中，布局可能要求用户仅仅执行前向和后向姿势，例如上下地或从左到右地等等，从而利用POI表示指示运动以至少预选并随后选择字符而不需要任何其它姿势。例如，布局可由预选区、预选区下的选择区以及文本框构成，其中所选择的字符可在预选区下显示于文本框中。另外，也可将字预选区设置在文本框之下。通过上下运动，POI表示自动地选择其当前指向的相应区的元件。在另一实施例中，用户可能被要求在每个区上执行确定的姿势以确认所选择的元件。

与以上讨论的现有技术文档的公开相比，本发明提供了具有实时交互能力且基于新颖的多维非触摸和无标记姿势识别技术的用户接口方法和系统。这允许预定接口元件相关于情景/用户/物体交互而被显示。该方法和系统通过利用姿势库被人体功率学地优化，该姿势库被限于世界范围内最常用和已知的人类姿势，例如，“连续指示”、“挥动”、“推”、“拉”、“向左刷”、“向右刷”和“圆圈”触发，或者所有最常用的几何形状。另外，该方法和系统通过使改善用户做出单个交互和连续交互两者时的体验的努力最小化，例如，通过结合POI位置利用定时器或者通过利用简单控制姿势激活接口特征或确认选择，而被人体功率学地优化。

可提供导航系统中的菜单，该菜单支持控制元件，诸如图标、按钮、化身等。替代地或附加地，控制元件可限定至少一个多媒体菜单和/或至少一个虚拟键盘。理想地，对支持控制元件的安排被组织以改善交互效率和直观性进行改善用户体验。

POI检测基于多维场景分析。场景包括三维群集场景，该场景的群集例示时空相干性。场景分析也支持单个和/或多个兴趣点以及单个和/或多个感兴趣的区域。

本发明的方法和系统也支持对激活姿势的检测，其限定基于姿势的交互将被引导至的ROI以及将产生这些交互姿势的场景的主POI两者。控制姿势被用于触发交互，其中通过实时POI轨迹分析来执行姿势识别。另外，POI的表示至少提供关于相对于时间的POI的运动及其位置的反馈。

下面将相对于以下各项描述本发明：POI候选项检测，对POI候选项的激活姿势识别；来自POI轨迹分析的控制姿势识别；相对于时间对标识的POI的管理；相对于时间对标识的ROI的管理；POI和用户接口之间的交互；情景用户接口导航系统的优化；以及无标记、基于姿势的虚拟键盘输入用户接口的优化。

在图1中，示出了流程图100，其示出用于实现本发明的用户接口的三个主要组分。通过使用定位和标识技术结合基于候选元件轨迹分析的激活姿势识别，检测场景中的POI（步骤110）。一旦已检测到至少一个POI，则基于其轨迹分析检测该POI做出的姿势（步骤120）。然后通过使用检测到的姿势进行利用用户接口的导航（步骤130）。下面对这些步骤进行更详细的描述。

图2示出流程图200，其示出根据本发明在用户接口中执行的操作。在步骤205中，将输入数据提供到图像处理系统。该输入数据是场景的三维图像的形式，该场景包括至少一个深度图或者多维或三维点云。该深度图对应于点云中的每个点与形成三维图像中的每个像素的成像系统一部分的相机之间的距离。随后将三维图像分段（步骤210）以创建多个群集。在步骤215中，提供群集的列表作为来自步骤210的输出。群集的列表随后用作候选群集精炼过程（步骤220）的输入，该过程提供候选群集的列表（步骤225）。候选群集精炼旨在在所有场景群集中确定例示了作为场景RAG末端的性质并且还具有相干运动性质的那些群集。这些候选群集被用于步骤230中的激活姿势识别过程，其目的是确定哪个候选群集已首先执行了预定激活姿势。作为姿势识别的一部分，产生兴趣点列表以及感兴趣的区域的列表（步骤235）。在步骤240的过程中，这些列表被管理以去除无用的POI和ROI，或者添加新的POI或ROI，以便形成步骤250的控制姿势识别的输入。控制姿势识别提供事件触发和连续控制（步骤255），这些事件触发和连续控制被用于情景接口控制（步骤260）。

图3示出流程图300，其示出其中POI被定位和标识的特定实施例。输入数据可以是深度图的形式。深度图数据在步骤305中被输入用于步骤310的改变比例/多分辨率过程。来自改变比例/多分辨率过程的输出包括N级金字塔形图像输入数据（步骤315）。该数据随后被用于约束的三维群集和/或三维场景分段中（步骤320）。群集和/或分段步骤提供包括低分辨率数据和高分辨率数量两者的N级群集输入数据（步骤325）。低分辨率数据随后在精炼步骤中被精炼（步骤330），这产生包括低分辨率群集和高分辨率群集的群集输入数据（步骤335）。群集输入数据随后被用于区域邻接图（RAG）构建器（步骤340）、用于n维末端检测器（步骤350）、以及用于运动和相干性分析过程（步骤360）。邻接图构建器产生限定场景群集之间的连接状态的区域邻接图（步骤345），n维末端检测器产生包括图末端的场景群集的列表（步骤355），以及运动和相干性分析确定相干运动群集的列表（步骤365）。与这三个元件中的每一个相关的数据形成用于群集和/或POI标识过程（步骤370）的输入，该过程将至少第一POI确定为第一相关运动群集（步骤365）以及场景末端（步骤355），其例示了典型地对应于激活姿势的具体运动。产生POI列表和ROI列表（步骤375）。POI和ROI的列表被输入到POI和ROI管理器（步骤380）。

在这一阶段，分别在步骤310和320中的多分辨率和三维场景分段的次序并不重要。应理解，多分辨率是任选过程且可通过使用其它过程来获得相同结果。

图4一般性地示出多分辨率过程的概览。示出了流程图400，其开始于获得场景的高分辨率深度图（步骤410）以及利用多分辨率技术处理高分辨率深度图（步骤420），如下面将更详细描述的。多分辨率过程（步骤420）包括用于向下采样高分辨率深度图的金字塔形处理，以产生至少一个高分辨率深度图410以及分别产生至少一个中间/中级分辨率深度图430和低分辨率深度图440。多分辨率过程420包括对于每个金字塔形级别至少将分辨率分成两个。尽管仅仅示出三个级别，应理解过程420可包括任何适当数量的级别。金字塔形向下采样的示例在图5中示出。

在图5（a）中，示出8x8像素的阵列500。每个像素具有如图所示安排的1、2、3、4或5的深度值。这些值以示例的方式给出并且指示每个像素与形成成像系统一部分的相机之间的距离。在这种情况下，阵列500旨在表示具有自然分辨率n*n的高分辨率深度图。

当高分辨率深度图被向下采样到下一级别时，8x8阵列被向下采样为4x4阵列（如图5（b）所示），且在具有四个像素的每个组（例如，组510）中的最小深度值被保持为阵列540中的具有深度值4的单个像素530。阵列540旨在表示原始高分辨率深度图的中间分辨率级别。在向下采样过程中，维持原始高分辨率深度图且在该情况下创建具有分辨率(n/2)*(n/2)的中间分辨率深度图。

中间分辨率深度图还可被向下采样为如图5（c）所示的低分辨率深度图。在此，4x4阵列540被向下采样以形成2x2阵列。阵列540中的具有四个像素550的一个组被示为被向下采样以形成低分辨率阵列580中的一个低分辨率像素570。如前所述，具有四个像素的每个组中的最小值在低分辨率深度图中被保持，在该情况下是3。低分辨率深度图具有分辨率(n/4)*(n/4)。如果要求具有分辨率(n/8)*(n/8)，则有可能改变阵列580的分辨率以形成单个像素。

应理解，8x8阵列、4x4阵列和2x2阵列仅以示例的方式给出。在实践中，每个高分辨率阵列可包括n*n阵列，该n*n阵列可被向下采样任何数量的次数至分辨率(n/k)*(n/k)直到它不再可能进行向下采样。

在图6中，示出了流程图600，其示出用于场景群集的步骤。低分辨率深度图610形成对约束的K均值领导者-追随者算法（KMLF）620的输入。KMLF是用于将场景分段成时空相干的像素组以及群集（具有矩心）的已知算法的混合。有三个来自KMLF620的主要输出，即低分辨率群集的低分辨率图像630、每个群集的矩心的链接图640以及来自该链接图的用于仅与单个其它矩心连接的矩心的末端定位和标识650。链接图640包括n维链接图，其中n＝3。

图7（a）示出包括像素深度值的低分辨率图像，该图像必须利用例如约束的KMLF算法620（图6）来群集。示出包括11x11阵列的低分辨率图像700。阵列中的每个像素具有如图所示的深度值1、2、3、4或5。将这些像素分组到群集中，其中每个群集具有与图7（b）所示大致相同的深度值。

在图7（b）中，可容易地看出群集701、707、708和710具有相同的深度值。对于群集702、703、704、705、706和709，这些群集中的大多数像素具有相同的深度值，但是可能有几个像素具有不同的深度值。应理解，与周围或相邻像素具有不同深度值的这些像素中的每一个与具有相同深度值的另一群集有效地断开。另外，为了方便处理，对群集的最大允许尺寸有限制。

在图7（c）中，分别示出了每个群集701、702、703、704、705、706、707、708、709、710的矩心751、752、753、754、756、757、758、759、760。可在二维空间以及如图7（d）所示的三维空间中链接矩心。

在图7（d）中，矩心752、753、754、755、756、758、760可被如图所示地彼此连接。矩心751、757和709不能被连接，因为它们的群集的深度值与它们周围的群集的深度值相当不同。这是因为这些群集并不是三维连接的，但是可被二维连接。二维连接意味着矩心仅以二维的形式连接，而三维连接意味着矩心以三维的形式连接。结果，可以看到矩心758和760仅与相邻群集中的一个相邻矩心（即，如图所示，矩心754和矩心756）三维连接。因此，群集708和710及其关联矩心758和760各自指示末端。

现在返回到图6，如参考图7所描述的，低分辨率群集的低分辨率图像630、矩心的链接图640以及定位的末端650被确定。从低分辨率群集的低分辨率图像630，通过使用精炼过程660获得低和高分辨率群集的高分辨率图像670。

精炼过程660可仅应用于属于由三维ROI（至少一个POI位于其中）限定的ROI（未示出）的群集。在开始时，即帧1，或者如果尚未有ROI被激活或创建，则高分辨率图像670与低分辨率群集的低分辨率图像630相同。一旦限定了至少一个ROI，则该ROI外的群集可不被精炼，且仅仅该ROI内的那些群集可被精炼。然而，在另一实施例中，至少一个ROI之外的相干运动末端群集可被精炼。

图8示出从精炼过程660获得的输入和输出。在图8中，示出流程图800，其中不同分辨率群集输入数据810被输入到精炼过程820以提供高分辨率群集输出数据830的输出。精炼过程820的目的是随着图像增大分辨率（例如，当从低分辨率到中间分辨率并且随后到高分辨率时）使群集之间的边界变得尖锐。在金字塔的每个级别处，对于每个像素，精炼过程限定像素实际附连到的群集从而将群集的标识链接到像素。对于每个像素，它被分配给与其最接近（例如，按照欧几里得距离）的群集。应理解，也可使用确定像素与群集之间的“接近度”的其它方法。精炼过程820在图9中更详细地示出。

在图9（a）中，示出在时刻t、LR(t)的群集标识的较低分辨率阵列900。示出五个像素“A”到“E”。在此，像素“E”是感兴趣的一个像素。因为较低分辨率阵列900被向上采样至如图9（b）中的阵列930所示的也在时刻t的较高分辨率HR(t)，像素E不再是像素“E”但是可被认为是像素“a”。但是，像素“a”的标识可以是如在时刻t-1、HR(t-1)的图9（c）的阵列960所示的若干值之一。

但是，对于每个像素，它被分配给按照像素与群集（像素正与其相比较）的矩心之间的欧几里得距离而言最近的群集。如以上在图9中所示，像素“a”的群集候选项可被表达为以下之一：

ID(a)HR(t)=ID(D_min(V(E);V({A,B,C,D}LR(t));

V({0,1,2,3,4,5,6,7,8,9,10,11}HR(t-1)))

其中

ID(a)是像素“a”的标识标签；

LR(t)是时刻t的较低分辨率图像；

HR(t)是时刻t的较高分辨率图像；

HR(t-1)是时刻t-1的较高分辨率图像；

D_min(V;X)是像素“E”和X之间的最小欧几里得距离，其中X是最近的群集的矩心的位置；

V(x)是其ID为x的相应像素的三维值；

{A,B,C,D}是较低分辨率阵列900中的像素群集标识候选项列表；以及

{0,1,2,3,4,5,6,7,8,9,10,11}是在时刻t-1的较高分辨率阵列960中的像素群集标识候选项列表。

换言之，较高分辨率阵列930中的在时刻t的像素“a”的群集标识通过像素“a”和群集（像素“a”可被认为是分配给该群集）的矩心之间的最小欧几里得距离来确定。如以上所给出的，像素“a”的群集标识是通过以下限定的最小距离：

（i）在时刻t在较低分辨率阵列900中的相应像素“E”的三维值（V(E)）；

（ii）在时刻t在较低分辨率阵列900中的相应像素“A”、“B”、“C”或“D”中的任何一个的三维值（V({A,B,C,D}LR(t)）；或者

（iii）在时刻t-1在较高分辨率阵列960中的相应像素“0”到“11”中的任何一个的三维值1V({0,1,2,3,4,5,6,7,8,9,10,11}HR(t-1))。

图10示出精炼过程的结果的简单例示。在图10（a）中，示出较低分辨率图像1000中的两个群集1010和1020。图10（b）示出在已执行精炼过程820之后在较高分辨率图像1050中的相同两个群集1060和1070。

在诸如以上所述精炼过程之类的精炼过程的实施例中，如果像素尚未被确认则它们不被考虑用于处理。例如，如果来自相机的照射像素的红外光束降到预定阈值之下，如果照射梯度差，如果像素被标记为背景的一部分，或者像素在一些裁剪平面的虚拟限值之外，则像素可能不被确认；裁剪平面限制被处理的三维空间。

图11示出流程图1100，其涉及用户接口的实施例，且尤其涉及将支持控制和/或交互的POI的检测和标识。在该实施例中，存在两个对用户接口激活姿势过程检测器的主要输入——典型地为低和高分辨率群集图像1110的至少一个高分辨率（其被产生作为场景群集的一个输出，如以上参考图6所描述的）以及被标识为末端1120的群集（也被产生作为场景群集的间接输出，如以上参考图6和图7所描述的）。群集图像1110和群集末端列表1120被输入到激活姿势检测器1130，该激活姿势检测器1130查看已被标记为图6的链接图640中的末端的群集的所有矩心并且例示相干运动。运动矩心的相干性通过其所属于的群集的使用时间来确定，以及通过其例示具有有限数量的噪声的运动（即，不是颠簸的轨迹）这一事实来确定，其中该数量在预定阈值之下。运动物体（在该情况下是群集的矩心）的相干性可以是例如通过检测POI（即矩心本身）方向的相继变化以及计算与轨迹定位的每个变化的相应位置以及（在轨迹变化位置）找到的参考种子点的排序相关的一些数据计算和统计来确定。在一个示例中，例示每个帧处的POI的方向变化的轨迹可被认为不相干且无用的。在另一其它示例中，例示在从帧到帧的相反方向上的高速运动的轨迹也可以是无用的且被认为不是相干的运动点。通常，POI运动相干性要求运动在某一范围的速度和加速度内，由现有POI执行某一时间量，例示相同方向上的相继轨迹之间的一定量的方向向量共线性。

步骤1130中的激活姿势检测包括执行POI轨迹分析，因此依赖于检测POI的方向变化（控制姿势过程依赖于相同过程，其不同之处仅在于输入，因为POI列表与激活姿势群集候选项列表相比被限制）。对于所找到的轨迹方向中的每一变化，如上所述地限定参考种子点。所有参考种子点位置被存储在系统中。连续激活姿势识别意味着对轨迹的连续分析。在由成像系统所捕获的每个帧处，至少计算与最新知晓的参考种子位置之间的POI距离D，并且还确定自从姿势已被检测且在一定数量采样内的其轨迹的总长度L。如果相继参考种子点之间的排序、时间、几何和统计性质对应于限定姿势的那些性质，则姿势被瞬间识别，并且存储参考种子点的存储器被刷新。

激活姿势检测器1130对满足作为末端的标准且处于相干运动中的POI候选项的轨迹进行实时分析，以便确定它们是否与预期的激活姿势相匹配。这种类型的激活姿势将在以下更详细地描述。激活检测器1130执行对被认为是视场中的至少末端的矩心的轨迹分析，使得预期的激活姿势可被检测。一旦预期的激活姿势已被检测到，则在视场内创建ROI。于是产生激活姿势的POI候选项（例如，群集矩心）变成所创建的ROI中的主POI。另外，对于已做出激活姿势的预定列表中的至少一个的至少一个群集（POI候选项），激活姿势检测器产生被标识为执行交互的POI的群集的列表（步骤1140）。

如果在特定用户接口应用中允许多个ROI，和/或如果允许ROI重新创建，则控制器盒管理器（ROI管理器）1150使用群集列表中标识的POI（即，每一情况下相应矩心的标识）来检查矩心的三维位置与已存在的ROI足够远。重新创建是可被激活用于单个ROI实例的参数，并且当且仅当当前现有ROI不具有任何指示器时以及当激活姿势在现有ROI之外做出时被应用。根据激活姿势，或在激活姿势之后（但是其位置在ROI内），指示器被认为是已被标识的兴趣点。

另外，已做出激活姿势的矩心可变成在ROI管理器1150的控制下创建的ROI中的主指示器。如果后续的相干运动末端进入ROI，则它可根据该ROI中允许的POI的数量而变成另一POI。ROI管理器950输出ROI列表以及每个ROI的POI列表。POI可被标记为或可以不被标记为主POI。ROI管理器使用属于相应ROI的每个POI的标识以相对于时间来管理该ROI。

应注意，ROI是n维空间，其维度是根据特定系统预先确定的。在另一实施例中，例如，如果POI试图离开ROI，则维度可动态地改变。还有可能利用ROI中的至少两个POI来限定对角线末端。另外，其中在预定持续时间D1上没有POI激活的ROI被停用；并且如果它在另一预定持续时间D2上保持停用状态则它被破坏。

激活的POI是作为RAG末端且展示相干运动的一个POI。

不运动达预定持续时间D3的激活的POI被停用。如果它在另一预定持续时间D4内仍然被停用，则它被破坏。

已离开ROI的POI一旦跨过ROI的边界就被停用。如果它在预定持续时间D5内仍然被停用，则它被破坏。但是，如果在D5周期结束之前相干运动末端（矩心）返回进入ROI（通过后门区域）至与先前POI离开的位置接近的位置，则该POI可重新激活。后门区域是POI重新进入ROI至与其在由阈值定时器控制的预定持续时间上离开ROI的位置接近的位置的区域。

现在转向姿势控制，应理解，可能有许多用作控制信号的姿势，但是将仅仅描述“圆圈”、“挥动”、“大幅挥动”、“刷”、“推”、“拉”、“不动”、“点击”以及“指示”。

通过已确定存在可充当视场内的POI的用户或物体的末端，“圆圈”被用作激活姿势，例如用于向成像系统指示接口将被激活或接通。然而，应注意，根据本发明激活姿势可能没有必要启动或激活用户接口，而是可以仅仅确定哪个POI将与接口交互。图12示出基于轨迹的“圆圈”姿势识别。

在图12中，从帧到帧确定POI的轨迹，如矩心位置所示。从任何一个点（包括A、B、C或D且以顺时针方向运动，如图所示）开始，随着矩心绕着“圆圈”运动示出矩心的轨迹。随着矩心绕着“圆圈”运动，轨迹方向相对于X轴和Y轴的以下变化被检测到：

（i）从点D到点A，+Y轴的方向上有变化；

（ii）从点A到点B，+X轴的方向上有变化；

（iii）从点B到点C，-Y轴的方向上有变化；以及

（iv）从点C到点D，-X轴的方向上有变化。

“圆圈”通过矩心的+Y轴、+X轴、-Y轴和-X轴的方向上的轨迹变化的离散读数点的替换变化来检测以确定所检测的四分之一圆圈的数量。执行至少四个四分之一圆圈的POI被认为执行一个圆圈，且通过使用至少四个参考种子点来确定圆圈系数，其中在该至少四个参考种子点处已检测到方向变化。当在矩心的单个轨迹中检测到至少四个连续的四分之一圆圈时检测到“圆圈”。上述矩心的方向变化与点A与点C之间的距离DeV以及点B与点D之间的距离DeH一起被检测，以确定矩心是否已经执行“圆圈”激活姿势。限定“圆圈”的参数包括：在相同方向（例如，顺时针方向或逆时针方向）内检测到的至少四个相继四分之一圆圈；具有预定维度的圆圈尺寸；在某一持续时间上执行的圆圈；以及具有如上所述的某一圆圈系数的圆圈。

图13示出基于轨迹的“挥动”姿势识别。从帧到帧确定POI的轨迹，如通过POI的位置所示。在此，点A、B、C和D对应于POI在执行“挥动”时的轨迹的参考种子点（在该情况下是挥动姿势轨迹的末端）。起始于点A，POI行进一距离至点B；行进几乎相似的距离返回至点C；以及行进几乎相似的距离至点D。如图所示，矩心相对于X轴、Y轴和Z轴分别行进的距离D_X、D_Y和D_Z有变化。对参考种子点A、B、C和D的检测以及行进的距离提供了“挥动”姿势已被做出的指示。

“挥动”是通过轨迹的两个相继参考种子点之间的方向的相反变化而被检测的。两个相继参考种子点之间的距离D1对应于半幅挥动。根据方向变化的性质可确定若干种类的参考种子点。每个姿势可以是若干种类的参考种子点的相对于时间的组合。例如，Y方向上的变化可以是被称为“种类A”的参考种子点，而X方向上的变化可以是被称为“种类B”的参考种子点，等等。另一距离D2被累计，只要它增大半幅挥动的数量。如果该其它距离D2落入预定范围内且任选地矩心的运动在预定速度范围内，则当且仅当连续的半幅挥动的数量也大于一个其它预定值（即，至少两个半幅挥动）时，确定“挥动”被检测到。

“大幅挥动”与“挥动”的不同之处在于这两个连续的端点之间的距离可比“挥动”的要大，矩心的速度也可比“挥动”的要大，并且例如，连续的半幅挥动的数量比“挥动”的要大。

图14示出基于轨迹的“刷(swipe)”姿势识别。在执行“刷”姿势时POI从左运动到右，从帧到帧确定POI的轨迹，如PAT1、PAT2、PAT3、PAT4和PAT5处的矩心位置所示。每个帧处的POI的位置被示为PAT1、PAT2、PAT3、PAT4和PAT5，且每个帧处的POI的速度向量分别被示为V1、V2、V3和V4。例如，PAT1对应于T₀处的点A。如图所示，随着POI从第一位置PAT1运动到最后位置PAT5，相对于X轴、Y轴和Z轴的距离D_X、D_Y和D_Z也可从帧到帧地不同。

如果POI的速度超出预定阈值且矩心具有线性轨迹，则检测到“刷”。线性轨迹中由POI覆盖的距离也需要超过预定阈值。

图15示出基于轨迹的“推”或“拉”姿势（两者是相反的）。在“推”姿势中POI从位置PAT1运动到PAT4且在“拉”姿势中从位置PAT4运动到PAT1，从帧到帧确定POI的轨迹，如PAT1、PAT2、PAT3和PAT4处的POI位置所示。在每个帧处的POI的速度向量分别被示为V1、V2和V3。如前所述，PAT1对应于T0处的点A。

“推”实际上是一种在深度或Z轴上（即，在朝向相机的方向上）的“刷”。特别地，POI相对于X轴和Y轴的位置基本不变。

“拉”实际上与在远离相机的方向上的“推”相同。

图16示出基于轨迹的“点击”姿势识别，从帧到帧确定POI的轨迹，如PAT1、PAT2、PAT3、PAT4和PAT5处的矩心位置所示。PAT1对应于T₀处的点A。在这种情况下，POI沿着Z轴从PAT1运动到PAT5并且随后返回PAT6。图16中仅示出速度向量V1，有因为速度和/或加速度是任何时间针对POI从帧到帧计算的性质。

“指示”姿势对应于POI相对于与其相关联的ROI的至少维度的相对位置。POI可以是主POI或后续POI。

附加的姿势是“不动”，其中POI在至少预定持续时间期间且在相应的ROI内保持预定位置。

通常，姿势是通过计算相继参考种子点之间的基本几何、时间以及POI轨迹性质来检测的，每个参考种子点是如上所述已检测到不同种类的轨迹性质的位置。还通过使用参考种子点排序分析来确定姿势。

图17示出用户接口导航系统的流程图1700。系统可按两种模式来操作，即被动控制模式（如框1720所指示）和主动控制模式（如框1760所指示）。如图所示，输入数据（框1710）被用于被动和主动控制模式两者中，输入数据形成用于运动检测、用户标识、用户定位及POI检测模块1725以及姿势控制、语言控制及硬件控制模块1765的输入。

在被动控制模式中，如果在步骤1725中没有输入数据以及没有过程被触发作为将系统置于主动控制模式中的事件，则导航系统可在待机模式（框1730）中操作。三维场景情景分析器模块1735可确定系统是要被激活还是要保持在待机模式中。模块1735从模块1725接收输入控制，输入控制典型地是“留在或切换到待机模式”或“留在或切换到激活模式”。例如，进入房间的用户也可进入相机的视场并且可产生将在步骤1725中被标识的运动。通过模块1735中的三维场景情景分析器（其与系统的激活模式的情景菜单和/或情景应用模块1770交互），标识的运动有效地请求曾处于待机模式中的导航系统切换到激活模式。例如，当切换到激活模式时，系统可在屏幕上显示图形多媒体接口的主菜单。接下来模块1770与情景用户控制模块1775交互。模块1775从模块1765接收输入控制信号，输入控制典型地是被允许与GUI交互的自然姿势控制。情景菜单和/或情景应用模块1770可采用许多形式且向用户提供接口反馈。例如，动画图片可用于指示被要求与情景菜单和/或情景应用模块1770交互的姿势。

图18示出虚拟键盘主框架1800，其可以是由图17的模块1770所启动的情景应用。主框架1800包括预选区域1810、选择区域1820、选择序列观看区域1830以及提议区域1840。预选区域1810包括n个子预选区域1812、1814、…、1818，要被用户选择的多种分类的图标或元件位于这些子区域中。典型地，根据字符的性质对这些元件进行分组。选择区域1820包括n个子选择区域1822、1824、…、1828，与用户在预选区域中已选择的特定分类相关的图标或元件的选择位于这些子区域中。选择序列观看区域1830是显示用户所做的选择的区域。提议区域1840包括n个子提议区域1842、1844、…、1848，其中对于被输入到所选序列观看区域1830中的最后选择的序列将建议提供给用户。虚拟键盘的实现在图19中示出。

在图19中，示出虚拟键盘1900的特定安排。键盘1900包括其中显示字符组的区域1910。每个字符组1912、1914、1916、1918、1920、1922是单独可选择的，且字符组的数量可以变化。在区域1910的左手侧，提供区域1930用于允许在中心预选区域1910中显示数字，且在区域1910的右手侧提供用于特殊字符的区域1940。区域1910、1930和1940对应于以上关于图18所述的预选区域1812、1814、…、1818。

区域1950对应于图18中的选择区域1820且在此被示为具有字符K、L、M、N、O作为用于选择的选项，每个字符K对应于子选择区域1822、1824、…、1828（图18）中的一个。区域1960对应于图18的选择序列观看区域1830，且区域1970对应于提议区域1840，其中区域1972、1974、1976、1978、1980对应于子提议区域1842、1844、…、1848。应理解，字符的数量可根据一些预定规则而变化。

在图19中，区域1916已被选择以在选择区域1950中提供字母K、L、M、N、O。字母K已被选择且呈现在选择序列观看区域1960中。由于字母K已被选择，因此在提议区域1970中提出了多种选项。当选择另一字母时，无论是从选择区域1950中的当前字符还是从在预选区域1910中选择且呈现在选择区域1950中的新的字符集合中进行选择，提议区域1970中的提议将被相应地更新。

应理解，如果选中数字区域1930或特殊字符区域1940，则将在选择区域1950中显示数字或特殊字符以供选择（未示出）。

尽管在图19中示出具有字母数据以及特殊字符的键盘，但是应理解键盘可具有其它符号或字符作为这些字母数据以及特殊字符的替代或附加。

在上述特定实施例中，由于要执行的必要姿势是自然的、直观的且不费力的，因此改善了用户体验。例如，如果考虑到将姿势控制的指示器指向1930或1940的子预选自动地更新1910的视图，则指向1970的子预选自动地更新1950的视图，且指向1950的子选择自动地更新1960的选择视图。类似地，使用指示器向下卷动，且任选地当指向提议元件1970之一时，使用这种虚拟键盘需要执行单个姿势（即，指示），且几乎仅有上下（仅仅后向和前向）运动由用户执行。

在较低效率的实施例中，元件预选或选择或提议确认可通过在由定时器管理的预定时间段内指向期望元件或者通过指示期望元件且执行至少一个其它自然姿势（诸如上述的“点击”姿势）来执行。

图20示出ROI管理的流程图2000。提供输入2010，其包括ROI候选项列表以及POI候选项列表（即，已做出激活姿势的群集）。输入2010被检查以确定是否有被允许的多个感兴趣的区域（步骤2020）。如果仅有一个ROI被允许，则系统检查ROI是否已存在于系统中（步骤2030）。如果尚未有ROI存在，则基于至少第一ROI候选项创建新的ROI（步骤2040），并且对于该新的ROI设置关联的主POI（步骤2050）。输出2060然后包括感兴趣的区域以及兴趣点（可能具有至少一个主POI被标记）的精炼列表。

如果多个感兴趣的区域被允许，则系统使用输入参数2015（其包括可允许的感兴趣的区域的数量以及每个ROI的至少维度）检查ROI候选项是否有效（步骤2025）如果模块2025的输入参数2015被满足，并且如果ROI候选项不与任何现有ROI候选项重叠，则从至少第一ROI候选项创建新的ROI。还设置了关联的主POI（步骤2050）。

另外，如果单个ROI被允许且已存在，则进行检查以确定该ROI中的主POI的状态是否是活动的（步骤2035）。如果主POI不活动，则可破坏现有的ROI（步骤2045）且可相对于ROI候选项及其关联的主POI创建新的ROI（步骤2040）。

图21示出用于POI管理的流程图2100。提供输入数据2110和输入参数2120以管理主POI（步骤2130）和从POI（步骤2140）。典型地但不排他地，主POI是已执行了激活姿势且与ROI附连的POI。在一些其它实施例中，根据一些预定规则可以交换主POI状态和从POI状态。例如，如果主POI丢失，则从POI可采用主POI的状态。来自步骤2130和2140中的每一个的输出被用于关联主和从兴趣点（步骤2150），其结果用于提供输出2160，输出2160包括标识的兴趣点的新列表以及标识的感兴趣的区域的新列表。主和从兴趣点的关联可包括停用不再活动或不再有用的兴趣点。

图22示出用于POI管理过程的流程图2200。输入数据2210（即POI）被应用于POI状态分析过程2220，其中输出是POI丢失2225、POI活动2230或POI不活动2235。这些输出与输入参数2215（包括例如若干定时器值）一起被应用于POI性质分析过程2240。性质分析2240评估性质，诸如定时器（在当前状态中的时间长度）、位置、末端以及POI是主POI还是从POI等等。根据性质分析2240，提供以下输出中的一个或多个：更新POI状态2250；后门管理2260；更新POI位置2270；POI主/从关联2280；以及POI黑名单2290。POI黑名单是包含在特定ROI中不可用的兴趣点的标识的列表。例如，已离开另一ROI的POI可被停用且进入黑名单。如果这种POI在预定持续时间之后变得与该另一ROI不相关联，则它可从黑名单中去除，并且如果它满足与当前ROI相关联的参数则可潜在地与当前ROI相关联。

在图23中，示出了ROI和兴趣点的表示2300。在表示2300中，提供人类用户2310的表示，在ROI2340内示出该表示上的两个兴趣点2320和2330。对于人类而言，兴趣点典型地但不排他地是手的表示。ROI2340被示为三维空间中的虚线盒，该虚线盒包含这两个兴趣点2320、2330。这些兴趣点中的每一个对应于矩心且位于场景的相应群集图像的区域邻接图的三维末端处——在该情况下，手是人体的末端，因为它们位于手臂的端部。一个POI即POI2320被选为主POI，而另一个POI即POI2330是从POI。在该特定实施例中，主POI和从POI均可用于控制姿势，例如选择、确认等等。

图24示出激活和控制姿势接口反馈。图24（a）示出用户的用户/控制器表示2410，其中手的摆动运动2420示出“挥动”姿势。类似地，图24（b）示出用户/控制器表示2410以及例示了“圆圈”姿势的手的圆圈运动2430。用户/控制器表示2410不限于图24（a）和（b）中所示，而是可按会被用户容易识别的任何适当的形式来表示。

根据本发明，图24（a）和（b）中所示的用户/控制器表示可典型地用作反馈信息以向用户指示在其与用户接口交互期间在特定时刻需要哪种姿势。

图25示出在与用户交互（未示出）之后的接口元件反馈2500的一个非限制性实施例。在2510处示出默认控制元件表示或图标。在与图标2510的用户交互期间和/或之后，图标可被显示为以下之一：如2520所示的环境变化；如2530所示的形式变化；如2540所示的内容变化；如2550所示的保持相同；如2560所示的位置和定向变化；或者如2570所示的诸如形式变化、环境变化和内容变化之类的变化的组合。

图26示出根据本发明的接口元件反馈过程2600的第一优选实施例。示出了控制与系统的交互的POI（以手的形式）的表示2610。也示出了图形用户接口（GUI）控制元件表示2620，该表示的形式是其上具有“图标”的圆圈按钮。应理解，“图标”可用任何其它适当的象征、术语或颜色来代替，这些象征、术语或颜色将使得用户能够理解什么是需要的或者相应元件与哪一交互相关联。例如，“图标”可用“开始游戏”来代替。当按钮2620被选中时，它的外观改变，例如，如图所示，该按钮变得被充满或加亮作为对用户和按钮之间的交互状态的指示。这在2630、2640、2650渐进地示出，直至其到达发起期望动作和/或选择的位置2660。一旦按钮达到指示按钮激活的正确外观，用户就可将其释放或取消选择（如2670所示）或者直接开始与用户接口的新表示进行交互。如果交互没有使得用户接口元件改变，则按钮可返回其初始外观以准备好用于下一激活。

图27示出根据本发明的另一优选接口元件反馈过程2700。接口元件反馈2700以与以上关于图26所述的反馈过程相同的方式来操作。在这种情况下，当按钮2720被选中时，它的外观改变，但是此时，以环2730为形式的动画在各个时间阶段中（如2740、2750、2760所示）被形成作为对用户和按钮之间的交互状态的指示直至期望动作和/或选择已被发起。一旦按钮达到指示按钮激活的正确外观，如果与相应元件相关联的控制使得图形用户接口改变，用户就可将其释放或取消选择（如2740所示）或者开始与另一接口的交互。如果图形用户接口没有改变，则按钮可返回其初始外观以准备好用于下一激活。

接口用户表示反馈也可按照与关于图25针对接口元件反馈所描述的类似方式来提供。用户的表示被示为根据交互状态改变。该交互状态可利用菜单元件或利用用户姿势控件而被情景地限定。例如，光标/指示器表示可根据其可用性、其状态（活动或不活动）、其位置（在指定ROI内或在该指定ROI外）或其交互状态（是否与情景接口控制元件交互）而改变。如前所述，在与元件的用户交互期间和/或之后，该元件可被显示为以下之一：环境的变化；形式的变化；内容的变化；保持相同；位置和定向的变化；或者诸如形式变化、环境变化和内容变化之类的变化的组合。另外，参照图26和图27所述的实施例也可被实现用于用户接口表示反馈。

而且，光标定向可根据运动方向而改变。例如，光标可通过如上所述的手来表示且手的表示相对于时间保持展开，并且仅当元件在接口中已被选择/确认/抓住时才改变至手握紧表示。

图28以流程图2800的形式示出接口后继控制交互过程。在图2800中，示出第一接口状态2810，其向基于姿势识别的控制过程2820提供输入。该过程向基于后继控制姿势的确认过程2830提供输入，过程2830提供第二接口状态2840作为输出。

该过程是引入姿势控制确认过程的例示。姿势控制确认过程的目标是利用简单的后继控制交互确认已执行和识别的姿势控制，以防止其它的或错误的姿势执行不希望的控制/命令/动作。例如，用户可在看电影的同时执行圆圈姿势，所述圆圈姿势与使系统的主菜单出现在屏幕上的系统中的过程相关联。后继控制过程可使“是”/“否”确认框出现，该确认框询问用户是否确实希望离开电影且访问主菜单。为了使用“是”/“否”确认框，后继控制需要使用另一自然姿势控制的输入，例如，指示“是”的向右刷以及指示“否”的向左刷。此外，在另一实施例中，对该确认框的控制可仅当执行姿势的POI在预定时间段上维持在预定位置时被激活。确认接口随后可根据被激活的控制改变其外观，例如，一旦确认接口可能准备好使用时接口就可从红色改变为绿色。

另外，本发明的方法和系统具有以下优点：

（i）对捕获设备输入数据的可伸缩性，即与任何分辨率的图像顺应；

（ii）实时跨平台操作，即与任何硬件和/或操作系统顺应；

（iii）不需要预先用户/物体检测和/或标识；

（iv）不需要预先用户部分/物体部分检测和/或标识；

（v）不需要姿势分类器；

（vi）可允许多个控制器，即多个ROI和/或多个用户/物体；

（vii）可允许多个POI，即在每一单个ROI中允许若干POI；

（viii）不需要特定跟踪/运动估计算法；

（ix）具有最低体力付出的接口（即接口布局组织）的改善的用户体验；

（x）直观的且高效的接口，即使用几个自然姿势用于控制；以及

（xi）来自接口的智能情景信息反馈。

尽管已关于特定实施例描述了本发明的用户接口，但是应理解本发明可使用其它实施例来实现。

Claims

1.一种用于与用户接口系统交互的方法，包括以下步骤：

a)在所述至少一个多维成像系统的视场内形成场景的至少一个多维表示；

b)对所述多维表示执行多维约束的群集操作以提供所述场景的群集表示；以及

c)从所述群集表示中标识兴趣点候选项。

2.如权利要求1所述的方法，其特征在于，步骤c)包括标识展示了相干运动的至少一个群集。

3.如权利要求1或2所述的方法，其特征在于，步骤c)包括标识仅与一个其它群集连接的至少一个群集。

4.如前述权利要求中任一项所述的方法，其特征在于，步骤c)包括姿势识别。

5.如权利要求4所述的方法，其特征在于，姿势识别是通过使用包括以下步骤的至少连续轨迹分析来确定的：

标识沿着兴趣点候选项的轨迹的轨迹点；

标识兴趣点候选项的轨迹方向的至少一个多维变化，所述至少一个多维变化形成具有参考种子标识次序的参考种子点；

标识轨迹方向的相继变化，所述相继变化中的每一个形成相继参考种子点；以及

使用所述参考种子点和所述轨迹点来识别姿势。

6.如权利要求5所述的方法，其特征在于，所述姿势识别包括使用所述参考种子标识次序。

7.如权利要求5或6所述的方法，其特征在于，所述轨迹分析还包括以下步骤：针对每个点，确定与先前的点相关的距离、速度向量或加速度向量中的至少一个。

8.如权利要求7所述的方法，其特征在于，所述轨迹分析还包括以下步骤：使用针对每个点的几何和统计计算来识别姿势。

9.如权利要求4至8中任一项所述的方法，其特征在于，还包括以下步骤：如果兴趣点候选项已经首先执行了预定姿势则将它激活作为激活的兴趣点，所述激活的兴趣点仍然具有兴趣点候选项状态。

10.如权利要求9所述的方法，其特征在于，还包括以下步骤：确定与所述激活的兴趣点相关联的感兴趣的区域。

11.如权利要求9或10所述的方法，其特征在于，还包括：当至少一个其它兴趣点候选项已执行了预定姿势时将它激活作为至少一个其它激活的兴趣点，所述至少一个其它激活的兴趣点仍然具有兴趣点候选项状态。

12.如权利要求11所述的方法，其特征在于，还包括：确定与所述至少一个其它激活的兴趣点相关联的至少一个其它感兴趣的区域。

13.如权利要求8至12中任一项所述的方法，其特征在于，每个感兴趣的区域使其位置和维度相对于兴趣点候选项的位置被设置。

14.如权利要求10至13中任一项所述的方法，其特征在于，还包括以下步骤：识别由在所述至少一个确定的感兴趣的区域内的至少一个预定的兴趣点候选项所执行的预定姿势。

15.如权利要求4至14中任一项所述的方法，其特征在于，所述用户接口系统包括具有图形用户接口的基于姿势的虚拟键盘，所述图形用户接口具有预定的元件排列以便仅仅使用最小自然姿势来选择。

16.如权利要求2至15中任一项所述的方法，其特征在于，还包括以下步骤：

d)根据至少一个兴趣点候选项的相干运动控制所述用户接口系统。

17.如权利要求8至16中任一项所述的方法，其特征在于，还包括以下步骤：

e)根据识别的姿势控制所述用户接口系统。

18.如权利要求16或17所述的方法，其特征在于，步骤e)还包括以下步骤：根据所述用户接口系统的当前状态提供情景反馈信息。

19.如前述权利要求中任一项所述的方法，其特征在于，步骤b)包括使用多分辨率图像处理。

20.如前述权利要求中任一项所述的方法，其特征在于，每个多维表示包括三维表示。