CN104956292A

CN104956292A - 多个感知感测输入的交互

Info

Publication number: CN104956292A
Application number: CN201480007511.4A
Authority: CN
Inventors: G.库特里罗夫; Y.亚奈
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-03-05
Filing date: 2014-02-03
Publication date: 2015-09-30
Anticipated expiration: 2034-02-03
Also published as: EP2965174A1; KR20150103278A; KR101688355B1; EP2965174A4; WO2014137517A1; US20140258942A1; JP6195939B2; CN104956292B; JP2016507112A

Abstract

描述了用于使用多个感知感测技术来捕获关于用户动作的信息和用于协同地处理信息的系统和方法。感知感测技术的非限制性示例包括使用深度传感器、二维相机的姿势识别、注视检测和/或语音识别。使用一种类型的感测技术捕获的关于用户姿势的信息通常不能够利用另一类型的技术捕获。因此，使用多个感知感测技术允许捕获关于用户姿势的更多信息。另外，通过协同地利用使用多个感知感测技术获取的信息，可以创建更自然的用户接口以供用户与电子设备交互。

Description

多个感知感测输入的交互

背景技术

最近，消费性电子设备产业已经见证了对用户接口技术领域中的革新的复兴的强调。由于技术的进步已经使得能够实现更小的形状因子和增加的移动性，而同时增加可用计算能力，因此公司已经聚焦于使用户能够更有效地与其设备交互。触摸屏是用户体验中相对新且广泛采用的革新的值得注意的示例。然而，触摸屏技术仅仅是正集成到消费性电子设备中的若干用户交互技术中的一个。诸如姿势控制、注视检测和语音识别（仅举几例）之类的附加技术也变得日益常见。作为整体，这些不同的解决方案被称为感知感测技术。

附图说明

图1是图示了其中用户与一个或多个深度相机和其它感知感测技术交互的示例环境的图解。

图2是图示了其中使用多个感知感测技术的独立设备被用于捕获用户交互的示例环境的图解。

图3是图示了其中多个用户同时与被设计成装置的部分的应用交互的示例环境的图解。

图4是图示了通过使用多个感知感测技术追踪用户的手部和/或手指来控制远程设备的图解。

图5是图示了其中集成感知感测技术的示例汽车环境的图解。

图6A-6F示出可以追踪的手部姿势的示例的图形图示。图6A示出其中手指舒展开的朝上翻开的手部；图6B示出其中食指平行于拇指指向外并且其它手指拉向手掌的手部；图6C示出其中拇指和中指形成环、其中其它手指伸出的手部；图6D示出其中拇指和食指形成环并且其它手指伸出的手部；图6E示出其中手指触碰并且指向上的打开的手部；并且图6F示出食指和中指舒展开并且指向上、其中无名指和小手指朝向手掌卷曲且拇指触碰无名指。

图7A-7D示出可以追踪的手部姿势的示例的附加图形图示。图7A示出动态波状姿势；图7B示出松散闭合的手部姿势；图7C示出其中拇指和食指触碰的手部姿势；并且图7D示出动态划刷（swipe）姿势。

图8是描述在所捕获的图像的一系列帧之上追踪用户的（多个）手部和（多个）手指的示例过程的工作流程图。

图9图示了基于来自多个感知感测技术的输入的用户接口（UI）框架的示例。

图10是描述基于多个感知感测技术的用户交互的工作流程图。

图11是描述基于多个感知感测技术的另一用户交互的工作流程图。

图12是用于使用多个感知感测技术而获取关于用户动作的数据并且解释数据的系统的框图。

具体实施方式

描述了用于使用多个感知感测技术以捕获关于用户的动作的信息并且用于协同地处理信息的系统和方法。感知感测技术的非限制性示例包括使用深度传感器和/或二维相机的姿势识别、注视检测和语音或声音识别。使用一种类型的感测技术捕获的信息通常不能够利用另一种类型的技术来捕获。因此，使用多个感知感测技术允许捕获关于用户的动作的更多信息。另外，通过协同地利用使用多个感知感测技术而获取的信息，可以创建更自然的用户接口以供用户与电子设备交互。

现在将描述本发明的各种方面和示例。以下描述提供用于透彻理解和使得能够描述这些示例的具体细节。然而，本领域技术人员将理解到，本发明可以在没有这些细节中的许多细节的情况下实践。此外，可能未示出或详细描述一些众所周知的结构或功能，以便避免不必要地使相关描述模糊。

在以下呈现的描述中使用的术语意图以其最宽泛的合理方式来解释，即使其与技术的某些特定示例的详细描述结合使用。某些术语甚至可以在下文强调；然而，意图以任何受约束的方式解释的任何术语将明显且特别地在本具体实施方式章节中被限定为这样。

感知感测技术捕获关于用户的行为和动作的信息。一般地，这些技术包括硬件组件——典型地为某种类型的感测设备——以及还有用于运行算法以解释从感测设备接收的数据的相关联的处理模块。这些算法可以实现在软件中或硬件中。

感测设备可以是简单的RGB（红、绿、蓝）相机，并且算法可以对从RGB相机获得的图像执行图像处理以获得关于用户的动作的信息。类似地，感测设备可以是深度（或“3D”）相机。在这两种情况中，算法处理模块处理从相机获得的视频流（RGB或深度视频或二者）以解释用户的手部和手指的移动或他的头部移动或面部表情，或者可以从用户的身体移动或姿态提取的任何其它信息。

另外，感测设备可以是麦克风或麦克风阵列以用于将诸如说出的词语或其它类型的可听通信之类的声音转换成电信号。相关联的算法处理模块可以处理所捕获的声学信号并且将其转化成说出的词语或其它通信。

附加的常见感知感测技术是触摸屏，在该情况中算法处理模块处理由触摸屏捕获的数据以理解触摸屏幕的用户手指的定位和移动。

另外的示例是注视检测，其中硬件设备被用于捕获关于用户正在看向哪里的信息，并且算法处理模块可以解释该数据以确定用户的注视在监视器或虚拟场景上的方向。

这些感知感测技术具有广泛的应用，例如，语音识别可以用于应答基于电话的询问，并且注视检测可以用于检测驾驶员意识。然而，在本公开中，这些感知感测技术将在使得能够实现与电子设备的用户交互的上下文中来考虑。

注视检测解决方案确定用户注视的方向和取向。在注视检测解决方案的情况下，相机可以用于捕获用户面部的图像，并且然后可以基于图像处理技术从相机图像计算用户眼睛的位置。随后，可以分析图像以计算主体注视的方向和取向。注视检测解决方案可以依赖于主动式传感器系统，其除了相机之外包含主动照明源。例如，主动照明可以将图案投射到场景上，所述图案从眼睛的角膜被反射，并且这些经反射的图案可以由相机捕获。对这样的主动照明源的依赖可以显著改进技术的鲁棒性和一般性能。

注视检测可以用作独立的感知感测技术，并且可以使得能够实现某些类型的用户交互。例如，用户可以依赖于注视检测而简单地通过在预定量的时间内看着图标来选择其计算机桌面上的虚拟图标。可替换地，诸如计算机之类的电子设备可以检测用户何时已经阅读了窗口中的全部可用文本，并且自动滚动文本，因此用户可以继续阅读。然而，由于注视检测受限于追踪用户注视的方向，因此这样的系统不能够确定更复杂的用户交互（诸如姿势和对虚拟对象的非平凡操纵）的目标。

触摸屏是在电子设备中已经变得相当常见的感知感测技术。当用户直接对触摸屏进行触摸时，触摸屏可以感测用户触摸它所在的屏幕上的位置。若干不同触摸屏技术可用。例如，在电阻式触摸屏的情况下，用户按下顶部屏幕，因此它与顶部屏幕下方的第二屏幕接触起来，并且然后可以在两个屏幕触碰的地方检测到用户手指的定位。电容式触摸屏测量由用户手指的触摸引起的电容中的改变。表面声波系统是用于使得能够实现触摸屏的附加技术。基于超声的解决方案也可以用于使得能够实现类触摸屏的体验，并且超声甚至可以检测在离屏幕某一距离处的类触摸屏用户移动。这些技术的变型以及其它解决方案也可以用于使得能够实现触摸屏体验，并且除其它考虑之外，所实现的技术的选择可以取决于诸如成本、可靠性之类的因素或诸如多触摸之类的特征。

触摸屏使得用户能够直接触摸和影响被显示在屏幕上的图形图标。用户触摸的定位通过特定算法计算并且被用作对诸如用户接口之类的应用的输入。而且，触摸屏还可以使得用户能够通过使用姿势或分立动作与应用交互，其中在一段时间内取得的若干相继帧之上追踪用户的移动。例如，手指划刷是姿势，触摸屏幕的两个手指的夹捏（pinch）也是姿势。就其支持用于伸出并且触摸物项的自然人类行为这点上而言，触摸屏是直观接口。

然而，触摸屏理解用户的动作和意图的程度是有限的。特别地，触摸屏一般不能够在用户的不同手指之间，或者甚至在用户的两只手之间进行区分。而且，触摸屏仅检测手指尖的位置，并且因此不能够在用户触摸屏幕时检测他手指的角度。另外，如果用户并不非常紧密地接近屏幕，或者如果屏幕特别大，则对于用户而言，伸出并且触摸屏幕可能是不舒适的。

语音识别是用于感测可听姿势的又一感知感测技术。语音识别依赖于将声音转换成电信号的换能器或传感器，诸如麦克风或麦克风阵列。换能器可以捕获诸如用户的话音之类的声学信号并且利用语音识别算法（在软件中或硬件中）来处理信号并且将其转化成分立的词语和/或句子。

语音识别是与电子设备交互的直观且有效的方式。通过语音，用户可以容易地向电子设备传送复杂的指令，并且还快速响应于来自系统的询问。然而，甚至本领域最新的算法也可能例如在嘈杂的环境中未能识别用户的语音。此外，用于图形用户交互的仅仅语音的相关性明显受限，特别是当考虑诸如在屏幕之上移动光标和替换具有强视觉组件的功能（诸如调整窗口的大小）之类的功能时。

附加的有效感知感测技术基于从相机捕获的输入，并且解释该数据以理解用户的移动，以及特别地，用户手部和手指的移动。表示用户动作的数据由相机（常规RGB相机或深度相机）捕获。

RGB（“红-绿-蓝”）相机，也已知为“2D”相机，捕获来自场景区的光并且将其投射到2D像素阵列上，其中每一个像素值由三个数字表示，所述三个数字对应于在相关联的场景区处红色、绿色和蓝色光的量。图像处理算法可以应用于RGB视频流以检测和追踪视频中的对象。特别地，可以可能的是从RGB视频流追踪用户的手部和面部。然而，由RGB相机生成的数据可能难以被准确和鲁棒地解释。特别地，可能难以从图像的背景中辨别图像中的对象，特别是当这样的对象挡住彼此时。此外，数据对光照条件的敏感性意指数据值中的改变可以是由于光照效应，而不是对象的定位或取向中的改变。这些多个问题的累积效应是一般不可能以鲁棒、可靠的方式追踪复杂的手部构形（configuration）。相比之下，深度相机生成可以支持高度准确、鲁棒的对象追踪的数据。特别地，来自深度相机的数据可以用于追踪用户的手部和手指，甚至是在复杂手部关节的情况下。

深度相机以每秒多帧而捕获深度图像，一般为相继深度图像的序列。每一个深度图像包含每像素的深度数据，也就是说，图像中的每一个像素具有表示在所成像的场景中的对应对象与相机之间的距离的值。深度相机有时被称为三维（3D）相机。除其它组件之外，深度相机可以包含深度图像传感器、光学透镜和照明源。深度图像传感器可以依赖于若干不同传感器技术之一。在这些传感器技术之中的是飞行时间，已知为“TOF”（包括扫描TOF或阵列TOF）、结构化的光、激光散斑图案技术、立体相机、主动式立体传感器和从明暗恢复形状技术。这些技术中的大多数依赖于主动式传感器，所述主动式传感器供应其自己的照明源。相比之下，诸如立体相机之类的被动式传感器技术不供应其自己的照明源，而是替代地取决于周围环境光照。除深度数据之外，相机还可以以常规彩色相机所做的相同方式生成颜色（“RGB”）数据，并且颜色数据可以与深度数据组合以供处理。

由深度相机生成的数据具有相对于由RGB相机生成的数据的若干优点。特别地，深度数据极大地简化了从前景中的对象分割场景的背景的问题，一般对于光照条件中的改变是鲁棒的，并且可以有效地用于解释遮挡。通过使用深度相机，可能的是实时地标识和追踪用户的手部和手指二者，甚至是复杂的手部构形。

题为“System and Method for Close-Range Movement Tracking”的美国专利申请No. 13/532,609描述了一种用于基于从深度相机捕获的深度图像而追踪用户的手部和手指并且使用所追踪的数据来控制用户与设备的交互的方法，并且以其全部据此并入。2012年4月6日提交的题为“System and Method for Enhanced Object Tracking”的美国专利申请No. 13/441,271描述了一种使用来自飞行时间（TOF）相机的幅度数据和深度数据的组合来标识和追踪用户的一个或多个身体部分的方法，并且在本公开中以其全部据此并入。题为“System and Method for User Interaction and Control of Electronic Devices”的美国专利申请No. 13/676,017描述了一种基于深度相机的用户交互的方法，并且以其全部据此并入。

相机的定位在使用相机来追踪用户的移动时是重要的因素。在本公开中描述的一些实施例假定相机的特定定位和从该定位的相机视野。例如，在膝上型计算机中，可能合期望的是将相机放置在显示屏的底部或顶部。相比之下，在汽车应用中，可能合期望的是将相机放置在汽车的顶板上，向下看着驾驶者的手部。

出于本公开的目的，术语“姿势识别”是指用于标识由用户执行的动作或一组动作（包括但不限于特定的移动、姿态构形、注视、说出的词语和声音的生成）的方法。例如，姿势识别可以是指标识手部在特定方向上具有特定速度的划刷、追溯触摸屏上的特定形状的手指、手部的挥动、说出的命令和某个方向上的注视。姿势识别通过以下来实现：首先捕获输入数据（可能地基于上述感知感测技术中任一个）、分析所捕获的数据以标识感兴趣的特征（诸如用户的手部和手指的关节、用户注视的方向和/或用户说出的词语）；并且然后接着分析所捕获的数据以标识用户执行的动作。

我们已经在上文呈现了可以用于提取关于用户的动作和意图的信息的多个感知感测技术。这些感知感测技术共享共同的目标，即为用户提供更接近地类似于用户与其他人自然交互的方式的交互范式。事实上，人们同时通过若干方法进行沟通，通过使用比如姿势之类的视觉线索、通过说话、通过触摸对象等。因此，协同地组合多个感知感测技术并且构建同时利用它们中的许多或者甚至它们中的全部的用户交互体验可以递送优越的用户接口（UI）体验。虽然已经存在有在针对单独感知感测技术而创建引人注目的用户体验中投入的大量努力，但是迄今为止在基于多个感知感测技术而构建迷人用户体验中存在相对少的工作。

值得注意地，通过不同感知感测技术捕获的信息在很大程度上是相互排斥的。也就是说，由特定技术捕获的信息的类型通常不能够由其它技术捕获。例如，触摸屏技术可以准确地确定手指何时触摸屏幕，但是不能准确地确定是哪个手指，或者在与触摸屏接触期间手部的构形。另外，可以将用于基于3D相机的追踪的深度相机放置在屏幕的底部，面向用户。在该情境中，相机的视场可能不包括屏幕本身，并且因此在视频流数据上使用的追踪算法不能够计算手指何时触摸屏幕。显然，触摸屏和基于相机的手部追踪技术两者都不能检测用户注视的方向。

另外，在设计用户体验中的一般关注点是预测用户的意图，这有时可能是不清楚的。当依赖于感知感测技术以用于用户动作的输入时这尤其真实，因为这样的输入设备可能是误报（false positive）的原因。在该情况中，其它感知感测技术可以用于确认用户的动作并且因此限制误报的发生。

本公开描述了用于组合通过多个模态获得的信息以创建合并了这些不同输入的自然用户体验的若干技术。

图1是与近距离处的两个监视器交互的用户的图解。在两个监视器中的每一个上可以存在深度相机，或者仅一个监视器可以具有深度相机。在任一情况中，一个或多个附加的感知感测技术可以连同深度相机一起使用。例如，可以存在嵌入在一个或两个监视器中的一个或多个麦克风以捕获用户的语音，监视器屏幕可以是触摸屏，并且还可以存在嵌入到监视器中的注视检测技术。用户能够通过移动他的手部和手指、通过说话、通过触摸监视器和通过看着监视器的不同区来与屏幕交互。在所有这些情况中，不同硬件组件被用于捕获用户的动作并且从他的动作推断用户的意图。然后在屏幕上显示对用户的某种形式的反馈。

图2是图示了其中使用多个感知感测技术的独立设备被用于捕获用户交互的示例环境的图解。独立设备可以包含单个深度相机，或多个深度相机，其定位在外围周围。另外，可以在设备中嵌入麦克风以捕获用户的语音，和/或注视检测技术也可以嵌入到设备中，以捕获用户注视的方向。个体可以经由他们的手部和手指的移动、利用他们的语音或者通过看着屏幕的特定区来与他们的环境交互。不同硬件组件被用于捕获用户的移动和推断用户的意图。

图3是图示了其中多个用户同时与被设计成装置的部分的应用交互的示例环境的图解。多个感知感测技术可以用于捕获用户的交互。特别地，可以存在嵌入在显示器中的麦克风以检测用户的语音，显示屏可以是触摸屏，和/或可以存在嵌入到显示器中的注视检测技术。每一个用户可以通过移动他的手部和手指、通过说话、通过对触摸屏显示器进行触摸和通过看着显示器的不同区来与显示器交互。不同硬件组件被用于捕获用户的移动和语音并且推断用户的意图。然后在显示屏上显示对用户的某种形式的反馈。

图4是图示了其中用户410在握持了包含深度相机的手持设备420时移动他的手部和手指430的远程设备控制的图解。深度相机捕获用户移动的数据，并且在所捕获的视频流上运行追踪算法以解释用户的移动。多个感知感测技术可以合并到手持设备420和/或屏幕440中，诸如麦克风、触摸屏和注视检测技术。不同硬件组件被用于捕获用户的移动和语音并且推断用户的意图。然后在用户前方的屏幕440上显示对用户的某种形式的反馈。

图5是图示了其中集成感知感测技术的示例汽车环境的图解。可以存在集成到汽车中的相机，要么邻近于显示屏，要么在汽车的顶板上，因此驾驶者的移动可以被清楚地捕获。此外，显示屏可以是触摸屏，并且可以存在被集成到汽车的控制台中的注视检测技术，因此用户注视的方向可以被确定。而且，语音识别技术也可以集成在该环境内。

图6A-6D是可以通过相机追踪算法检测的若干示例姿势的图解。图6A示出其中手指舒展开的朝上翻开的手部；图6B示出其中食指平行于拇指指向外并且其它手指拉向手掌的手部；图6C示出其中拇指和中指形成环、其中其它手指伸出的手部；图6D示出其中拇指和食指形成环并且其它手指伸出的手部；图6E示出其中手指触碰并且指向上的打开的手部；并且图6F示出食指和中指舒展开并且指向上、其中无名指和小手指朝向手掌卷曲且拇指触碰无名指。

图7A-7D是可以通过相机追踪算法检测的附加的四个示例姿势的图解。图7A示出动态波状姿势；图7B示出松散闭合的手部姿势；图7C示出其中拇指和食指触碰的手部姿势；并且图7D示出动态划刷姿势。图解中的箭头是指手指和手部的移动，其中移动定义特定姿势。这些姿势示例不意图是限制性的。还可以通过相机追踪算法检测许多其它类型的移动和姿势。

图8是描述了在所捕获的深度图像的一系列帧之上追踪用户的（多个）手部和（多个）手指的示例过程的工作流程图。在阶段810处，从背景分割和分离对象。这可以例如通过对深度值定阈值，或者通过追踪来自之前的帧的对象的轮廓并且将其匹配到来自当前帧的轮廓。在一些实施例中，从获得自深度相机的深度图像数据标识用户的手部，并且将手部从背景分割。在此阶段将不想要的噪声和背景数据从深度图像移除。

随后，在阶段820处，在深度图像数据和相关联的幅度数据和/或相关联的RGB图像中检测特征。在一些实施例中，这些特征可以是手指尖、在该处手指的基部接合到手掌的点以及可检测的任何其它图像数据。在820处检测到的特征然后被用于在阶段830处标识图像数据中的各个手指。

在阶段840处，指尖和手指的一些关节的3D点可以用于构造手部骨架模型。骨架模型可以用于进一步改进追踪的质量并且将定位分配给在较早前的步骤中由于遮挡或缺失的特征或来自相机视场之外的手部部分而未被检测的关节。而且，运动学模型可以作为骨架的部分而被应用，以添加改进追踪结果的另外的信息。题为“Model-Based Multi-Hypothesis Object Tracker”的美国申请No. 13/768,835描述了一种用于基于由深度相机捕获的数据而追踪手部和手指构形的系统，并且以其全部据此并入。

现在对图9做出参照，其图示了基于来自多个感知感测技术的输入的用户接口（UI）框架的示例。

在阶段910处，从各种感知感测技术获得输入。例如，可以从深度相机获取深度图像，可以从注视检测系统获取原始图像，可以从触摸屏技术获取原始数据，并且可以从麦克风获取声学信号。在阶段920处，通过相应算法并行处理这些输入。

然后在两条并行路径上处理可以表示用户的移动（触摸、手部/手指移动和眼睛注视移动）并且此外可以表示他的语音的所感测的数据，如以下描述的那样。在阶段930处，表示用户移动的数据可以用于将主体的手部、手指和/或眼睛移动映射或投射到虚拟光标。可以在显示屏上提供信息以向主体提供反馈。虚拟光标可以是简单图形元素，诸如箭头，或者手部的表示。还可以简单地强调或标识UI元素（而没有屏幕上的光标的显式图形表示），诸如通过改变UI元素的颜色，或者在其后面投射辉光。虚拟光标还可以用于将屏幕选择为要操纵的对象，如以下描述的那样。

在阶段940处，所感测的数据被姿势识别组件用于检测可以由主体执行的姿势。姿势识别组件可以包括在题为“Method and System for Gesture Classification”的美国专利No. 7,970,176和题为“Method and System for Gesture Recognition”的美国申请No. 12/707,340中描述的元素，所述美国专利和美国申请通过引用完整地并入本文。在该上下文中，可以基于来自感知感测技术中任一种技术的输入而检测姿势。特别地，可以基于手部和手指的追踪或者用户注视的追踪，或者基于用户说出的词语来检测姿势。存在触发事件的两种类别的姿势：选择姿势和操纵姿势。选择姿势指示应当选择特定UI元素。

在一些实施例中，选择姿势是手部的抓取移动，其中手指朝向手掌的中心移动，就像是主体正在拾起UI元素。在一些实施例中，选择姿势通过以环形移动手指或手部来执行，使得虚拟光标环绕主体想要选择的UI元素。在一些实施例中，选择姿势通过说出词语或短语（诸如“这个”或“那个”）来执行。在一些实施例中，选择姿势通过在规定的定位处对触摸屏进行触摸来执行。在一些实施例中，选择姿势通过在规定量的时间内将注视直接指向屏幕上的定位来执行。当然，其它姿势可以被定义为选择姿势，无论其检测依赖于深度相机、RGB相机、注视检测技术、触摸屏、语音识别技术还是任何其它感知感测技术。

在阶段960处，系统评估在阶段940处是否检测到选择姿势，并且如果实际上已经检测到选择姿势，则在阶段980处系统确定虚拟光标当前是否映射到一个或多个UI元素。当虚拟光标定位在UI元素之上时虚拟光标映射到UI元素。在其中虚拟光标已经映射到（多个）UI元素的情况中，在阶段995处可以选择（多个）UI元素。如果虚拟光标尚未映射到（多个）UI元素，则没有（多个）UI元素被选择，即使在阶段960处检测到选择姿势。

除了选择姿势之外，定义另一类别的姿势，操纵姿势。操纵姿势可以用于以某种方式操纵UI元素。

在一些实施例中，通过用户转动他/她的手部来执行操纵姿势，这进而转动已经被选择的UI元素，以便在屏幕上显示附加信息。例如，如果UI元素是文件的目录，则转动目录使得主体能够看到被包含在目录中的所有文件。操纵姿势的附加示例可以包括将UI元素倒置以例如将其内容清空到虚拟桌面上；摇动UI元素以重新排序其内容，或者具有某种其它效果；轻击UI元素因此主体可以“看到里面”；挤压UI元素，这可以具有例如最小化UI元素的效果；或者将UI元素移动到另一位置。在一些实施例中，划刷姿势可以将所选UI元素移动到回收站。在一些实施例中，利用用户的注视来执行操纵姿势，例如以用于在屏幕各处移动图标。在一些实施例中，基于语音给出用于操纵姿势的指令。例如，用户可以说“看到里面”以便轻击UI元素并且查看内容，或者用户可以说“最小化”以使UI元素最小化。

在阶段950处，系统评估是否已经检测到操纵姿势。在检测到操纵姿势的情况中，于是在阶段970处，系统检查是否存在先前已经被选择的UI元素。如果UI元素已经被选择，则然后可以在阶段990处根据所执行的姿势的特定定义的行为和系统的上下文来操纵所述UI元素。在一些实施例中，可以管理利用相应指尖所标识的一个或多个相应光标以使得能够实现通过一个或多个手指的导航、命令录入或对屏幕图标、对象或数据的其它操纵。如果UI元素尚未被选择，则没有（多个）UI元素被操纵，即使在阶段950处检测到操纵姿势。

在一些实施例中，基于用户注视的方向而控制虚拟光标，并且感知感测技术追踪用户的注视方向。当虚拟光标映射到虚拟对象并且用户执行夹捏姿势时或者当用户执行抓取姿势时选择虚拟对象。然后由用户通过注视向用户希望虚拟对象移动所按的方向来移动虚拟对象。

在一些实施例中，基于所追踪的用户注视的方向而控制虚拟光标，并且然后由用户通过夹捏或抓取姿势（如由手部所执行的）来选择对象。然后基于用户的一只或两只手的移动而在屏幕各处移动所选对象。

在一些实施例中，基于所追踪的用户的手部和手指的定位而控制虚拟光标，并且用户语音中的某些关键词被用于选择对象。例如，用户可以指向屏幕上的对象并且说“将这放在那”，并且当他说词语“这”时他指向的对象被移动到当他说词语“那”时他指向的屏幕上的定位。

参照图10，其为描述基于多个感知感测技术的用户交互的工作流程图。特别地，系统包括触摸屏和相机（RGB或深度或二者）。在阶段1010处，从触摸屏获取输入。然后在阶段1030处通过触摸屏追踪模块来处理触摸屏输入，所述触摸屏追踪模块将触摸屏处理算法应用于触摸屏输入以计算用户触摸的屏幕上的定位。

作为触摸屏处理算法的输出，在阶段1050处可以检测触摸，并且保存如由触摸屏追踪模块计算的该触摸的描述——描述屏幕位置、压力量等的信息。在一些实施例中，该触摸描述可以是单指触摸屏幕。在一些实施例中，该触摸描述可以是两指紧密接近于彼此地触摸屏幕，形成夹捏姿势。在一些实施例中，该触摸描述可以是紧密接近于彼此的四个或五个手指对触摸屏进行触摸。

当在阶段1010处获取了触摸屏输入时，在阶段1020处，从（多个）相机获取输入。然后在阶段1040处通过相机追踪模块来处理相机视频流，所述相机追踪模块将相机处理算法应用于相机输入以计算用户的（多个）手部的构形。

随后，作为相机处理算法的输出，在阶段1060处计算用户手臂的定位并且还标识用户的哪只手触摸屏幕。然后，监视相机处理算法的输出以在手移动回而离开屏幕时检测触摸屏幕的手1070。在一些实施例中，相机可以定位成使得其具有触摸屏的清楚视图，并且在该情况中，手部甚至在触摸屏被触摸的时刻处可见。在一些实施例中，相机定位在屏幕的顶部或底部，并且当手部紧密接近于屏幕时可能不具有用户手部的清楚视图。在该情况中，手部可能不被检测直到用户开始移动它离开触摸屏并且手部进入相机的视场为止。在两种情景中，一旦检测到手部，在阶段1080处，如果在触摸屏被触摸的时间与检测到手部的（多个）手指的时间之间存在缺失的帧，例如如果相机不具有触摸屏的清楚视图，则缺失帧中的（多个）手指的位置通过在阶段1050处计算的触摸屏定位的已知定位和阶段1070处计算的（多个）手指的已知定位之间内插（多个）手指的3D定位来计算。内插可以是线性的，或者可以基于样条，或者基于在帧之间内插数据的其它所接受的方式。

然后可以向姿势识别模块传递手指的3D定位的完整集合，姿势识别模块在阶段1090处基于帧集合之上的（多个）手指的3D定位而确定是否执行了姿势。

在一些实施例中，可以检测触摸了触摸屏并且移动回而离开触摸屏的手指的姿势。在一些实施例中，该姿势可以取决于（多个）手指的移动速度，其中（多个）手指离开屏幕的快速移动激活来自系统的一个响应，而（多个）手指离开屏幕的缓慢移动激活来自系统的不同响应。在一些实施例中，所检测到的姿势可以是在屏幕处的夹捏，并且然后手指打开而同时手部移动离开屏幕。在一些实施例中，所检测到的姿势可以是抓取运动，其中手部的手指朝向手掌闭合，其中当手部移动离开触摸屏时手指打开而远离手部的手掌。

参照图11，其为描述基于多个感知感测技术的另一用户交互的工作流程图。特别地，系统包括相机（RGB或深度或二者）和触摸屏。在阶段1110处，从（多个）相机获取输入。然后在阶段1130处通过相机追踪模块处理相机输入，所述相机追踪模块从相机接收视频流并且计算手部和手指的构形。在阶段1150处可以检测手部，并且手部关节的3D定位被保存，只要它们被相机追踪。

当在阶段1110处获取相机输入时，在阶段1120处，从触摸屏获取输入。然后在阶段1140处，处理触摸屏输入以计算被触摸的屏幕上的位置。可以存在有在阶段1160处在触摸屏上检测到的触摸。当检测到触摸时，在阶段1170处，在最后已知的手部关节定位和触摸屏上所检测到的触摸之间任何缺失的数据帧可以被内插。该内插可以是线性的，或者可以基于样条，或者基于在帧之间内插数据的其它所接受的方式。随后，在阶段1180处，帧数据的整个集合被姿势识别模块用于确定是否检测到姿势。

在一些实施例中，可以检测朝向触摸屏的区移动并且在该区处触摸屏幕的手部姿势。在一些实施例中，该姿势可以取决于当手部逼近触摸屏时手部的速度。在一些实施例中，可以执行姿势以指示某个动作，并且然后将动作应用于随后被触摸的所有图标。例如，可以执行打开新的文件夹的姿势，并且在执行姿势之后被触摸的所有对象被移动到打开的文件夹中。在一些实施例中，可以合并如由相机和相机追踪模块确定的关于用户在对触摸屏进行触摸中的动作的附加信息。例如，当屏幕被触摸时用户手指的角度可以通过相机追踪模块计算，并且该数据可以被应用所考虑和利用。在另一示例中，相机追踪模块可以标识哪只手的哪个手指正触摸屏幕，并且将该附加信息合并到应用中。

本公开还可以用于限制对用户意图的解释中的误报的可能性。在一些实施例中，经由相机可标识的姿势（诸如夹捏或抓取姿势）选择虚拟对象，但是仅在用户的注视同时被检测为看着要选择的对象时才选择对象。在一些实施例中，汽车可以配备有语音识别技术以解释用户的言语指令，以及配备有相机以检测用户的手部姿势。用户语音的误报可以通过要求激活系统的姿势的执行来被限制。例如，用户可以能够通过使用“呼叫”话音命令并且然后指定电话目录中的姓名来命令电话呼叫某人。然而，电话将仅在用户执行对他的意图进行澄清的预定义的姿势时发起呼叫。在一些实施例中，基于相机的追踪可以用于标识多个用户中的哪一个正在说话，以改进语音识别处理的质量，特别是在嘈杂的环境中。

题为“System and Method for Automatically Defining and Creating a Gesture”的美国专利申请No. 13/310,510公开了一种用于通过记录主体执行感兴趣的姿势来创建姿势并且依赖于机器学习算法来基于训练数据中的主体动作而对姿势进行分类的方法。该申请以其全部据此并入。在本公开中，如由诸如触摸屏、语音识别和注视检测之类的附加的感知感测技术所感测的用户动作也可以被包括在姿势的创建中。例如，除手部、手指和/或其它身体部分移动之外，（多个）姿势的定义可以包括触摸屏上的特定数目和特定位置的触摸、要说出的某些短语或声音以及要执行的某些注视。此外，可以针对将由多个感知感测技术检测的用户动作而记录测试序列和训练序列。

图12示出用于使用多个感知感测技术而获取关于用户动作的数据并且解释数据的系统的框图1200。系统可以包括一个或多个处理器1210、存储器单元1220、显示器1230以及可以包括触摸屏1235、深度相机1240、麦克风1250和/或注视检测设备1260的感测技术。

处理器1210可以用于运行算法以用于处理通过多个感测技术所获取的数据。处理器1210还可以例如在显示器1230上向用户提供反馈。存储器1220可以包括但不限于RAM、ROM以及易失性与非易失性存储器的任何组合。

感测技术可以包括但不限于，作为显示器1230的部分的触摸屏1235、深度相机1240和/或2D相机、诸如麦克风1250之类的声学感测设备，和/或注视检测系统1260。

结论

除非上下文以其它方式清楚地要求，否则遍及说明书和权利要求书，词语“包括”、“包含”等将以包括性的意义来解释（即，就是说，以“包括但不限于”的意义），与排他或穷尽的意义相对。如本文所使用的，术语“连接的”、“耦合的”、或其任何变型意味着两个或者更多元件之间的任何连接或耦合（直接或间接）。元件之间的这样的耦合或连接可以是物理的、逻辑的、或其组合。此外，词语“在本文中”、“以上”、“以下”和类似引入的词语，当在本申请中使用时，指代作为整体的本申请而不是本申请的任何特定部分。在上下文准许的情况下，使用单数或复数数目的以上具体实施方式中的词语还可以分别包括复数或单数数目。引用两个或者更多项的列表的词语“或者”涵盖该词语的所有以下解释：列表中的任何项、列表中的所有项和列表中的项的任何组合。

本发明的示例的以上具体实施方式不意图是穷尽的或者将本发明限于以上公开的精确形式。虽然以上为了说明性的目的而描述本发明的具体示例，但是在本发明的范围内各种等同修改是可能的，如相关领域技术人员将认识到的那样。虽然在本申请中以给定次序来呈现过程或块，但是可替换的实现可以执行具有以不同次序执行的步骤的例程，或采用具有以不同次序的块的系统。可以删除、移动、添加、细分、组合、和/或修改一些过程或块来提供可替换方案或子组合。而且，虽然过程或块有时被示出为连续地执行，但是这些过程或块可以替代地并行执行或实现，或者可以在不同的时间执行。另外，本文所指出的任何具体数字只是示例。理解到，可替换的实现可以采用不同的值或范围。

本文提供的各种说明和教导还可以应用于除了上述系统之外的系统。可以组合上述各种示例的元件和动作以提供本发明的另外实现。

以上指出的任何专利和申请和其它引用（包括可能列在随附申请文件中的任一个）通过引用以其整体并入本文。如有必要，可以修改本发明的方面来采用被包括在这样的引用中的系统、功能和概念以提供本发明的另外实现。

可以鉴于以上具体实施方式对本发明作出这些和其它改变。虽然以上描述对本发明的某些示例进行了描述，并且描述了设想到的最佳模式，但是不论以上在文本中看似多么详细），也可以用许多方式来实践本发明。系统的细节在其具体实现中可以相当大地变化，而仍然由本文所公开的发明涵盖。如上所指出的，当描述本发明的某些特征或方面时使用的特定术语不应当被理解为暗示在本文中将术语重新定义为受限于该术语与之关联的本发明的任何具体特性、特征或方面。一般而言，在以下的权利要求中使用的术语不应解释为将本发明限于在说明书中公开的具体示例，除非以上具体实施方式章节明确地定义这样的术语。因此，本发明的实际范围不仅涵盖所公开的示例，而且还涵盖在权利要求下实践或实现本发明的所有等同方式。

虽然以下以某些权利要求形式呈现本发明的某些方面，但是申请人在任何数目的权利要求形式中设想本发明的各种方面。例如，虽然本发明的仅一个方面在35 U.S.C. § 112第六段之下被叙述为装置加功能权利要求，但是其它方面可以同样地体现为装置加功能权利要求，或以其它形式，诸如体现在计算机可读介质中。（意图在35 U.S.C. § 112 6之下被对待的任何权利要求将以词语“用于……的装置”而开始）。因此，申请人保留在提交申请之后添加附加的权利要求以追求用于本发明的其它方面的这样的附加权利要求形式的权利。

Claims

1.一种方法，包括：

使用多个感知感测技术而获取关于用户动作的数据；

分析所获取的数据以从用户动作标识姿势，

其中基于能够被多个感知感测技术检测的信息来定义姿势。

2.权利要求1的方法，其中由用户执行姿势以与用户接口交互，以控制电子设备。

3.权利要求2的方法，其中多个感知感测技术包括注视检测系统和深度相机，其中用户接口包括光标，并且此外，其中姿势包括注视于屏幕上的光标并且将用户的注视从光标移动到屏幕上的虚拟对象以将光标映射到虚拟对象，以及执行手部姿势以选择屏幕上的虚拟对象。

4.权利要求3的方法，其中手部姿势是两个手指的夹捏。

5.权利要求3的方法，其中手部姿势是手部的抓取运动。

6.权利要求2的方法，其中多个感知感测技术包括深度相机和麦克风阵列，并且其中用户接口包括光标，并且此外，其中姿势包括用于控制光标的手部移动和用于选择或操纵光标的所说出的词语。

7.权利要求2的方法，其中多个感知感测技术包括注视检测系统和麦克风阵列，并且其中用户接口包括光标，并且此外，其中姿势包括注视于光标并且移动用户的注视以控制光标以及用于选择或操纵光标的所说出的词语。

8.权利要求1的方法，其中多个感知感测技术包括深度相机和注视检测系统，其中从深度相机获取的数据是通过用户的手部做出的用于选择屏幕上的虚拟对象的选择姿势，并且其中从注视检测系统获取的数据是所选虚拟对象处的注视，其中注视检测减少在标识由用户选择的虚拟对象中的误报。

9.权利要求1的方法，其中多个感知感测技术包括触摸屏和深度相机。

10.权利要求9的方法，其中从触摸屏获取的数据是触摸屏上触摸的位置，并且此外，其中从深度相机获取的数据标识用户的哪一个手指触摸了触摸屏。

11.权利要求9的方法，其中从触摸屏获取的数据是触摸屏上多个触摸的多个位置，并且此外，其中从深度相机获取的数据标识多个触摸是仅来自所述用户还是来自所述用户和一个或多个其他用户。

12.权利要求9的方法，其中从触摸屏获取的数据是触摸屏上触摸的位置，并且此外，其中从深度相机获取的数据是用户的手指以其对触摸屏进行触摸的角度。

13.权利要求9的方法，其中从触摸屏获取的数据是触摸屏上触摸的位置，并且此外，其中从深度相机获取的数据标识用户的哪一只手触摸了触摸屏。

14.权利要求1的方法，其中多个感知感测技术包括触摸屏和深度相机，并且此外，其中姿势包括触摸屏上的触摸和离开触摸屏的随后移动。

15.权利要求1的方法，其中多个感知感测技术包括深度相机和触摸屏，并且此外，其中姿势包括手部和手指移动自触摸屏的某一距离和在触摸屏上的随后触摸。

16.一种系统，包括：

被配置成获取关于用户动作的数据的多个感知传感器；

被配置成分析所获取的数据以从用户动作标识姿势的处理模块，

其中基于能够被多个感知传感器检测的数据来定义姿势。

17.权利要求16的系统，还包括被配置成允许用户基于所标识的姿势来控制电子设备的用户接口应用模块。

18.权利要求16的系统，其中多个感知传感器包括触摸屏和深度相机，并且此外，其中由深度相机获取的数据扩充由触摸屏获取的数据。

19.权利要求16的系统，其中多个感知感测技术包括注视检测系统和深度相机，其中用户接口包括光标，并且此外，其中姿势包括注视于屏幕上的光标并且将用户的注视从光标移动到屏幕上的虚拟对象以将光标映射到虚拟对象，以及执行手部姿势以选择屏幕上的虚拟对象。

20.权利要求16的系统，其中多个感知感测技术包括深度相机和注视检测系统，其中从深度相机获取的数据是通过用户的手部做出的用于选择屏幕上的虚拟对象的选择姿势，并且其中从注视检测系统获取的数据是所选虚拟对象处的注视，其中注视检测减少在标识由用户选择的虚拟对象中的误报。

21.一种系统，包括：

用于获取关于用户动作的数据的第一装置；

用于获取关于用户动作的数据的第二装置；

被配置成分析所获取的数据以从用户动作标识姿势的一个或多个处理模块，

其中基于能够被用于获取数据的第一装置和用于获取数据的第二装置检测的数据来定义姿势。

22.权利要求21的系统，还包括被配置成允许用户基于所标识的姿势而控制电子设备的用户接口应用模块。