CN102306051B - 复合姿势-语音命令 - Google Patents

复合姿势-语音命令 Download PDF

Info

Publication number
CN102306051B
CN102306051B CN201110177728.8A CN201110177728A CN102306051B CN 102306051 B CN102306051 B CN 102306051B CN 201110177728 A CN201110177728 A CN 201110177728A CN 102306051 B CN102306051 B CN 102306051B
Authority
CN
China
Prior art keywords
voice command
posture
identified
user
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110177728.8A
Other languages
English (en)
Other versions
CN102306051A (zh
Inventor
C·克莱因
A·M·瓦赛尔
J·S·弗莱克斯
V·拉尔科
T·M·苏摩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102306051A publication Critical patent/CN102306051A/zh
Application granted granted Critical
Publication of CN102306051B publication Critical patent/CN102306051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及复合姿势-语音命令。一种多媒体娱乐系统将姿势和语音命令组合以提供增强的控制方案。用户的身体位置或运动可被识别为姿势,且可被用于提供用于识别用户生成的声音(诸如语音输入)的上下文。同样,语音输入可被识别为语音命令,且可被用于提供用于将身体位置或运动识别为姿势的上下文。权重可被赋给这些输入以促进处理。当姿势被识别出时,加载与识别出的姿势相关联的语音命令的有限集合以供使用。此外,语音命令的附加集合可按分层方式被结构化,以使得说出来自语音命令的一个集合的语音命令导致系统加载下一集合的语音命令。

Description

复合姿势-语音命令
技术领域
本发明涉及计算机系统的控制,尤其涉及使用结合了声音(诸如语音或拍手)和身体位置(诸如姿态或姿势)两者的复合命令的系统和方法。
背景技术
通常向计算机游戏和其他多媒体应用的用户提供用户控制,用户控制允许用户完成基本功能(诸如浏览和选择内容)以及执行更复杂的功能(诸如操纵游戏人物)。通常,这些控制通过诸如鼠标、键盘、话筒、图像源、音频源、遥控器等输入设备作为输入被提供给控制器。遗憾的是,学习和使用此类控制命令可能是困难或麻烦的,由此造成了用户与完全享受此类游戏、应用及其特征之间的障碍。
发明内容
公开了用于使用结合了声音(诸如语音或拍手)和身体位置(诸如姿态或姿势)两者的复合命令的系统和方法。多媒体对象被显示在用户界面上。用户界面的控制器包括用于捕捉由用户产生的任何声音以及用户的静态和动态身体位置(包括姿态或姿势)的捕捉设备。该控制器处理所捕捉的数据以识别身体位置命令和声音命令。
有利地,使用身体位置命令和声音命令的组合允许用分布在不同的操作状态级别上的较小命令集合来实现该系统。因此,处理身体位置命令和声音命令的组合增强了识别软件的可靠性和准确性。
例如,捕捉设备可捕捉与身体位置移动有关的输入并将该移动识别为所定义的姿势。给定所捕捉的输入,与识别出的姿势相关联的语音或声音命令的有限集合可被标识并被加载到控制器中。在接收到声音输入时,基于所加载的声音命令集合识别声音输入。最后,基于识别出的姿势以及识别出的声音命令的组合执行动作。
有利地,可在用户界面上提供上下文菜单以帮助用户列出可用的语音或声音命令,且这些上下文菜单本质上可以是分层的。例如,第一姿势可导致使用第一语音库。然而,一旦说出来自第一语音库的语音命令,另一语音命令集合可变得可用,且第二语音库可被加载到控制器中。以类似方式,可在适当时在上下文菜单中向用户介绍不同级别的语音命令。
捕捉设备可大致同时捕捉身体位置输入和声音输入。在这种情形中,身体位置输入可被用于提供用于验证声音命令的上下文,或者声音命令可被用于提供用于验证身体位置命令的上下文。此外,权重可被赋给识别出的命令以帮助提供用于决定身体位置输入和/或声音输入的正确解释的上下文。
提供本概述以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。对本文公开的设备和方法的性质和优点的进一步理解可通过参考完整说明书和附图来实现。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。
附图说明
图1示出具有用于捕捉和跟踪用户身体位置和移动以及接收用户声音输入的捕捉设备的示例性多媒体环境中的用户。
图2是示出耦合到计算设备的捕捉设备的一个实施例的框图。
图3是正被跟踪的骨架的示意表示。
图4是示出用于处理从捕捉设备接收的数据的计算系统的一个实施例的框图。
图5是示出用于处理从捕捉设备接收的数据的计算系统的另一个实施例的框图。
图6是描述用于使用语音命令与计算系统进行用户交互的过程的一个实施例的流程图。
图7A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的一个实施例的流程图。
图7B是描述除了图7A中所示的那些步骤以外的用于使用手势和语音命令与计算系统进行用户交互的其他步骤的流程图。
图7C-7D是描述图7A所示的过程中用于识别手势的附加细节的流程图。
图7E是描述图7A所示的过程中用于识别语音命令的附加细节的流程图。
图8A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。
图8B是描述根据图8A将姿势与语音命令相关的一种选项的流程图。
图8C是描述根据图8A将姿势与语音命令相关的另一种选项的流程图。
图8D是描述根据图8A将姿势与语音命令相关的另一种选项的流程图。
图9A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。
图9B是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。
图9C是描述用于使用特定的手势和上下文语音命令与计算系统进行用户交互的过程的一个实施例的流程图。
图10A是实现图7A的流程图的第一级用户界面的图示。
图10B是实现图7B的流程图的第二级用户界面的图示。
图10C是第三级用户界面的图示。
具体实施方式
用于多媒体娱乐系统的复合命令可结合声音命令和身体位置命令两者。多媒体对象被显示在用户界面上。用户界面的控制器包括用于捕捉用户的身体位置和任何移动、以及由用户产生的任何声音的捕捉设备。该控制器处理所捕捉的信息以识别预定义的声音命令和身体位置命令,包括姿态、姿势和语音命令。如本文中所使用的,术语“姿势”旨在涵盖所有身体位置命令,无论是由静态姿态还是动态移动(诸如手势)构成。
在一个实施例中,一旦姿势被识别出,则随后将与该姿势有关的声音或语音命令的集合加载到控制器中。这样,可以向用户提供声音或语音命令的更加有限和精确的集合。例如,用户讲话,控制器将该讲话识别为语音命令。响应于识别出的语音命令,执行预定义的动作。可在界面上显示帮助菜单/消息,其示出操作状态以及与所显示的对象有关的可用声音/语音命令。
在另一实施例中,第一语音命令被用于将后续语音命令的集合缩小为与第一语音命令相关联的语音命令的较小子集。例如,当用户说出第一语音命令时,可显示向用户指示能遵循第一语音命令的语音命令的集合的帮助消息或菜单。在接收和识别相关语音命令的整个集合时,可执行必要的动作。替换地,姿势和部分语音命令的组合可使用有帮助的上下文菜单引导用户通过每一级命令。
在另一实施例中,姿势和语音命令实质上是同时被接收的(或换言之在时间上重叠),且将两种识别方案相关,从而与识别相关联的准确性和置信度得以提高。此外,对于应用的每个增量部分,特定操作状态的可用姿势和语音命令的数量要小得多,由此简化了对系统的使用以及处理方案两者。
图1示出用户18在拳击视频游戏中与多媒体娱乐系统10交互。有利地,系统10被配置成捕捉、分析和跟踪由用户18在系统10的捕捉设备20的范围内作出的移动和声音。这允许用户使用语音命令、姿势、或姿势与语音命令的组合与系统10交互,如以下进一步描述的。
系统10包括运行拳击应用的控制器12。控制器12是计算系统,诸如计算机、游戏系统、多媒体控制台等。在一个实施例中,计算系统12包括硬件组件和/或软件组件,从而计算系统12被用于执行诸如游戏应用或其他应用等的应用。在一个实施例中,计算系统12包括执行存储在处理器可读存储设备上的用于执行以下描述的过程的指令的处理器,如标准化处理器、专用处理器、微处理器等。例如,由捕捉设备20捕捉的移动和声音被发送给控制器12进行处理,其中识别软件将分析该移动和声音以确定其在该应用的上下文中的意义。
捕捉设备20可包括相机或成像设备23,其在视觉上监视诸如用户18的一个或多个用户,从而可以捕捉、分析并跟踪诸如用户所执行的姿态、姿势和/或其他移动之类的身体位置和移动,来执行应用中的一个或多个动作或控制和/或动画化化身或屏上人物。此外,捕捉设备20可包括用于检测用户18发出的语音命令和其他声音(诸如拍手)的话筒30。捕捉设备的细节在2010年3月12日提交的题为“BionicMotion(仿生学运动)”并通过整体引用合并于此的共同待审美国申请号12/722,587中描述。
系统10连接到视听设备16,视听设备16包括用于应用图形的显示设备15(诸如电视、监视器、高清晰度电视(HDTV)、或其他显示设备)和/或音频回放设备(诸如扬声器14)。例如,控制器12可包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器,这些适配器提供与在控制器12上运行的应用相关联的音频和视频信号。视听设备16从控制器12接收音频和视频信号并播放内容。根据一个实施例,视听设备16可经由诸如S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等标准连接被连接到控制器12,从而从控制器接收的视频信号被显示在显示监视器15上,而从控制器接收的音频信号通过扬声器14被回放。
在图1中描绘的拳击游戏应用中,控制器12还驱动视听设备16为用户18提供拳击对手22的视觉表示。有利地,控制器12还提供用户18的视觉表示或化身24,且用户通过他或她自己的移动来控制该化身。例如,用户18可在物理空间中挥拳猛击,这使得用户化身24在游戏空间中挥拳猛击。因此,根据一示例实施例,计算机系统12和捕捉设备20识别并分析物理空间中用户18的重拳从而使得该重拳可被解释为对游戏空间中的用户化身24的游戏控制和/或该重拳的运动可用于动画化游戏空间中的用户化身24。
用户18的其他移动也可被解释为应用中的其他控制或动作,和/或用于动画化用户化身,诸如上下快速摆动、闪避、滑步、封堵、用拳猛击或挥动各种不同力量的重拳的控制。此外,某些移动可被解释为可对应于除控制用户化身24之外的动作的控制。例如,在一实施例中,用户可使用移动来结束、暂停或保存游戏、选择级别、查看高分、与朋友交流等。
根据其他实施例,用户18可使用姿态或移动来从主用户界面选择游戏或其他应用,诸如指向该对象。因此,在示例实施例中,用户18的全范围运动可以用任何合适的方式来获得、使用和分析以与应用进行交互、以及静态定位(诸如指向姿势)。
根据其他示例实施例,跟踪系统10还可用于将目标移动解释为游戏领域之外的操作系统和/或应用控制。例如,事实上操作系统和/或应用的任何可控方面可由诸如用户18等目标的移动来控制。
图2示出耦合到计算设备12的捕捉设备20的一个实施例。捕捉设备20被配置成捕捉音频和视频信息两者,诸如由用户18作出的姿态或移动、或者如用户18发出的声音命令之类的声音。所捕捉的视频具有包括深度图像的深度信息,深度图像可包括用任何合适的技术,包括例如飞行时间、结构化光、立体图像、或其他已知方法获得的深度值。根据一个实施例,捕捉设备20可将深度信息组织为“Z层”,即与从深度相机沿着其视线延伸的Z轴正交的层。
捕捉设备20包括相机组件23,诸如捕捉场景的深度图像的深度相机。深度图像包括所捕捉的场景的二维(2D)像素区域,其中2D像素区域中的每一像素可表示深度值,诸如所捕捉的场景中的物体距相机的以厘米、毫米等计的距离。
如图2的实施例中所示,相机组件23包括用于捕捉场景的深度图像的红外(IR)光组件25、三维(3D)相机26、和RGB(视觉图像)相机28。例如,在飞行时间分析中,捕捉设备20的IR光组件25可以将红外光发射到场景上,然后,使用例如3D相机26和/或RGB相机28来感测从场景中的一个或多个目标和对象的表面反向散射的光。某些实施例中,可使用脉冲式红外光从而可以测量出射光脉冲和对应的入射光脉冲之间的时间并将其用于确定从捕捉设备20到场景中目标或对象上的特定位置的物理距离。此外,在其他示例实施例中,可比较出射光波的相位与入射光波的相位以确定相移。然后可以使用相移来确定从捕捉设备到目标或对象上的特定位置的物理距离。
根据另一示例实施例,可使用飞行时间分析通过经由包括例如快门式光脉冲成像的各种技术分析反射光束随时间的强度变化来间接地确定从捕捉设备20到目标或对象上特定位置的物理距离。
在另一示例实施例中,捕捉设备20可使用结构化光来捕捉深度信息。在这样的分析中,图案化光(即,被显示为诸如网格图案、条纹图案、或不同图案等已知图案的光)可经由例如IR光组件25被投影到场景上。在撞击到场景中一个或多个目标或对象的表面时,作为响应,图案可变形。图案的这种变形可由例如3-D相机26和/或RGB相机28(和/或其他传感器)来捕捉,然后可被分析以确定从捕捉设备到目标或对象上的特定位置的物理距离。在一些实现中,IR光组件25与相机28和26分开,使得可以使用三角测量来确定距相机28和26的距离。在一些实现中,捕捉设备20将包括感测IR光的专用IR传感器或具有IR滤波器的传感器。
根据另一实施例,捕捉设备20可包括两个或更多物理上分开的相机,这些相机可从不同角度查看场景来获得可被解析以生成深度信息的视觉立体数据。其他类型的深度图像传感器也可被用来创建深度图像。
更多细节可参见以下美国专利申请,其皆通过整体引用合并于此:2009年4月13日提交的题为“GestureRecognizerSystemArchitecture(姿势识别器系统架构)”的美国专利申请号12/422,661;2010年3月12日提交的题为“BionicMotion(仿生学运动)”的美国专利申请号12/722,587;2009年2月23日提交的题为“StandardGestures(标准姿势)”的美国专利申请号12/391,150;以及2009年5月29日提交的题为“GestureTool(姿势工具)”的美国专利申请号12/474,655。
捕捉设备20还包括话筒30。话筒30包括接收声音并以公知方式将其转换成电信号的变换器或传感器。根据一个实施例,话筒30被用来减少系统10中的捕捉设备20和控制器12之间的反馈。此外,话筒30可用于接收包括由用户18生成以用于选择和控制应用(包括由控制器12执行的游戏和其他应用)的语音命令的声音。
捕捉设备20还包括存储器组件34,存储器组件34存储由处理器32执行的指令、由3-D相机26和/或RGB相机28所捕捉的图像或图像帧、由话筒30捕捉的声音信号、或任何其他合适的信息、图像、声音等等。根据一示例实施例,存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示,在一个实施例中,存储器组件34可以是与图像捕捉组件23和处理器32进行通信的单独的组件。根据另一实施例,存储器组件34可被集成到处理器32和/或图像捕捉组件23中。
如图2所示,捕捉设备20可经由通信链路36与控制器或计算系统12进行通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或例如无线802.11b、g、a或n连接等的无线连接。根据一个实施例,计算系统12可经由通信链路36向捕捉设备20提供可用于确定何时捕捉例如场景的时钟。另外,捕捉设备20将由例如3-D相机26和/或RGB相机28捕捉的深度信息和视觉(例如,RGB)图像经由通信链路36提供给计算系统12。在一个实施例中,深度图像和视觉图像以30帧每秒的速率传送。计算系统12然后可使用该模型、深度信息、以及所捕捉的图像来例如控制诸如游戏或文字处理程序等的应用和/或动画化化身或屏上人物。
图2描绘了各种软件模块。例如,计算系统12包括深度图像处理和骨架跟踪模块50,该模块使用深度图像来跟踪可由深度相机检测的一个或多个人。深度图像处理和骨架跟踪模块50向应用196提供跟踪信息,该应用可以是视频游戏、生产性应用、通信应用或其他软件应用等。音频数据和视觉图像数据也被提供给应用52和深度图像处理和骨架跟踪模块50。应用52将跟踪信息、视觉图像数据提供给姿势识别器引擎54以及将音频数据提供给语音识别器引擎56。在另一实施例中,姿势识别器引擎54从深度图像处理和骨架跟踪模块50直接接收跟踪信息,以及从捕捉设备20直接接收视觉图像数据,并且语音识别器引擎56从捕捉设备20直接接收音频数据。
姿势识别器引擎54与过滤器60、62、64、……、66的集合相关联,每一过滤器具有关于可由捕捉设备20检测的任何人或对象执行的姿势、动作或状况的信息。例如,来自捕捉设备20的数据可由过滤器60、62、64、……、66处理,以便标识一个用户或一组用户何时执行了一个或多个姿势或其他动作,诸如姿态或其他静态身体位置。那些姿势可与应用52的各种控制、对象或状况相关联。由此,计算环境12可借助过滤器使用姿势识别器引擎54来解释移动。
同样,语音识别器引擎56与语音库70、72、74、……、76的集合相关联,每一个语音库具有关于与可用捕捉设备20检测的用户所执行的特定姿势相关联的语音命令的信息。例如,来自捕捉设备20的数据可由过滤器70、72、74、……、76处理,以便标识当一个用户或一组用户执行了由系统10识别的特定姿势时可用的语音命令或其他声音命令的特定且有限的集合。姿势和语音命令的组合可与应用52的各种控制、对象或状况相关联。因此,计算环境12可以借助过滤器使用姿势识别器引擎54来解释姿态或移动,并且可借助语音库使用语音识别器引擎56来解释声音。
图2的捕捉设备20向计算系统12提供RGB图像(或其他格式或色彩空间的视觉图像)和深度图像。深度图像可以是多个观测到的像素,其中每个观测到的像素具有观测到的深度值。例如,深度图像可包括所捕捉的场景的二维(2-D)像素区域,其中2-D像素区域中的每一像素可具有深度值,如所捕捉的场景中的对象距捕捉设备的距离。
系统将使用RGB图像和深度图像来跟踪用户的位置和/或移动。例如,系统将使用深度图像来跟踪人的骨架。可以使用许多方法通过使用深度图像来跟踪人的骨架。使用深度图像跟踪骨架的一个合适的示例在2009年10月21日提交的题为“PoseTrackingPipeline(姿势跟踪流水线)”的美国专利申请号12/603,437中提供,该申请通过整体引用合并于此。‘437申请中公开的过程包括获取深度图像,对数据进行降采样,移除和/或平滑高变度噪声数据,标识并移除背景,以及将前景像素中的每一个分配给身体的不同部位。基于这些步骤,系统将使一模型拟合到该数据并创建骨架。该骨架将包括一组关节和这些关节之间的连接。图3示出了具有15个关节(j0、j1、j2、j3、j4、j5、j6、j7、j8、j9、j10、j11、j12、j13和j14)的示例骨架。这些关节中的每一个表示骨架中该骨架可以在x、y、z方向上枢转的位置或身体上关注的位置。也可使用用于跟踪的其他方法。合适的跟踪技术也在以下美国专利申请中公开,所有这些申请通过整体引用结合于此:2009年5月29日提交的题为“DeviceforIdentifyingandTrackingMultipleHumansOverTime(用于随时间标识并跟踪多个人的设备)”的美国专利申请号12/475,308;2010年1月29日提交的题为“VisualBasedIdentityTracking(基于视觉的身份跟踪)”的美国专利申请号12/696,282;2009年12月18日提交的题为“MotionDetectionUsingDepthImages(使用深度图像的运动检测”的美国专利申请号12/641,788;以及2009年10月7日提交的题为“HumanTrackingSystem(人类跟踪系统)”的美国专利申请号12/575,388。
(图2所描绘的计算系统12的)姿势识别器引擎54包括多个过滤器60、62、64、……、66来确定姿势或动作。过滤器包括定义姿势、动作或状况的信息以及该姿势、姿态、动作或状况的参数或元数据。例如,包括一只手从身体背后到身体前方的运动的投掷可被实现为包括表示用户的一只手从身体背后到身体前方的移动的信息的姿势,该移动将由深度相机来捕捉。然后可为该姿势设定参数。在姿势是投掷的情况下,参数可以是该手必须达到的阈值速度、该手必须行进的距离(绝对的,或相对于用户的整体大小)、以及识别器引擎对发生了该姿势的置信评级。用于姿势的这些参数可以随着时间在各应用之间、在单个应用的各上下文之间、或在一个应用的一个上下文内变化。
过滤器可以是模块化的或是可互换的。在一个实施例中,过滤器具有多个输入(这些输入中的每一个具有一类型)以及多个输出(这些输出中的每一个具有一类型)。第一过滤器可用具有与第一过滤器相同数量和类型的输入和输出的第二过滤器来替换而不更改识别器引擎架构的任何其他方面。例如,可以有用于驾驶的第一过滤器,该第一过滤器取骨架数据作为输入并输出与该过滤器相关联的姿势正在发生的置信度以及转向角。在希望用第二驾驶过滤器来替换该第一驾驶过滤器的情况下——这可能是因为第二驾驶过滤器更高效且需要更少的处理资源——则可以通过简单地用第二过滤器替换第一过滤器来这样做,只要第二过滤器具有相同的输入和输出——骨架数据类型的一个输入、以及置信度类型和角度类型的两个输出。
过滤器不需要具有参数。例如,返回用户的高度的“用户高度”过滤器可能不允许任何可调节的参数。替换的“用户高度”过滤器可具有可调节参数,如在确定用户的高度时是否考虑用户的鞋、发型、头饰以及体态。
对过滤器的输入可包括诸如关于用户的关节位置的关节数据、在关节处相交的骨所形成的角度、来自场景的RGB色彩数据、以及用户的某一方面的变化速率等内容。来自过滤器的输出可包括诸如正作出给定姿势的置信度、作出姿势运动的速度、以及作出姿势运动的时间等内容。
姿势识别器引擎54可具有向过滤器提供功能的基本识别器引擎。在一实施例中,姿势识别器引擎54实现的功能包括跟踪所识别的姿势和其他输入的随时间输入(input-over-time)存档、隐马尔可夫模型实现(其中模型化系统被假定为马尔可夫过程——其中当前状态封装了确定将来状态所需的任何过去状态信息,因此不必为此目的而维护任何其他过去状态信息的过程——该过程具有未知参数,并且隐藏参数是从可观察数据来确定的)、以及求解姿势识别的特定实例所需的其他功能。
过滤器60、62、64、……、66在姿势识别器引擎54之上加载并实现,并且可利用姿势识别器引擎54提供给所有过滤器60、62、64、……、66的服务。在一个实施例中,姿势识别器引擎54接收数据来确定该数据是否满足任何过滤器60、62、64、……、66的要求。由于这些所提供的诸如解析输入等服务是由姿势识别器引擎54一次性提供而非由每一过滤器60、62、64、……、66提供的,因此这一服务在一段时间内只需被处理一次而不是在该时间段对每一过滤器处理一次,因此减少了确定姿势所需的处理。
应用52可使用随姿势识别器引擎54提供的过滤器60、62、64、……、66,或者它可提供其自己的、插入到姿势识别器引擎54中的过滤器。在一实施例中,所有过滤器具有启用该插入特性的通用接口。此外,所有过滤器可利用参数,因此可使用以下单个姿势工具来诊断并调节整个过滤器系统。
关于姿势识别器引擎54的更多信息参见2009年4月13日提交的美国专利申请12/422,661“GestureRecognizerSystemArchitecture(姿势识别器系统架构)”,该申请通过整体引用合并于此。关于识别姿势的更多信息参见2009年2月23日提交的美国专利申请12/391,150“StandardGestures(标准姿势)”;以及2009年5月29日提交的美国专利申请12/474,655“GestureTool(姿势工具)”,这两个申请都通过整体引用结合于此。
图4示出实现为多媒体控制台100(诸如游戏控制台)的图1中所示的控制器12的一个实施例。多媒体控制台100包括具有一级高速缓存102、二级高速缓存104和闪存ROM(只读存储器)106的中央处理单元(CPU)101。一级高速缓存102和二级高速缓存104临时存储数据并因此减少存储器访问周期数,由此改进处理速度和吞吐量。CPU101可被提供为具有一个以上的核,以及由此的附加的一级和二级高速缓存102和104。闪存ROM106可存储在多媒体控制台100通电时在引导进程初始阶段加载的可执行代码。
图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。数据经由总线从图形处理单元108输送到视频编码器/视频编解码器114。视频处理流水线将数据输出到A/V(音频/视频)端口140以传输到电视机或其他显示器。存储器控制器110被连接到GPU108以方便处理器访问各种类型的存储器112,例如但不局限于RAM(随机存取存储器)。
多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB控制器128和前面板I/O子部件130。USB控制器126和128用作外设控制器142(1)-142(2)、无线适配器148、和外置存储器设备146(例如闪存、外置CD/DVDROM驱动器、可移动介质等)的主机。网络接口124和/或无线适配器148提供对网络(例如,因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中的任何一种。
提供系统存储器143来存储在引导进程期间加载的应用程序数据。提供介质驱动器144,且其可包括DVD/CD驱动器、蓝光驱动器、硬盘驱动器、或其他可移动介质驱动器等。介质驱动器144可位于多媒体控制台100的内部或外部。应用数据可经由介质驱动器144访问,以由多媒体控制台100执行、回放等。介质驱动器144经由例如串行ATA总线或其他高速连接(例如IEEE1394)等总线连接到I/O控制器120。
系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外部音频用户或具有音频能力的设备再现。
前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。
CPU101、GPU108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连,包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例,这些架构可以包括外围部件互连(PCI)总线、PCI-Express总线等。
当多媒体控制台100通电时,应用数据可从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU101上执行。应用可呈现在导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中,介质驱动器144中包含的应用和/或其它媒体可从介质驱动器144启动或播放,以向多媒体控制台100提供附加功能。
多媒体控制台100可通过将该系统简单地连接到电视或其它显示器而作为独立系统来操作。在该独立模式中,多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而,随着通过网络接口124或无线适配器148可用的宽带连接的集成,多媒体控制台100还可作为较大网络社区中的参与者来操作。
当多媒体控制台100通电时,可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可包括预留存储器(例如,16MB)、CPU和GPU周期(例如,5%)、网络带宽(例如,8kbs)等等。因为这些资源是在系统引导时保留的,所以所保留的资源从应用的角度而言是不存在的。
具体地,存储器保留较佳地足够大,以包含启动内核、并发系统应用和驱动程序。CPU保留较佳地为恒定,使得若所保留的CPU用量不被系统应用使用,则空闲线程将消耗任何未使用的周期。
对于GPU保留,通过使用GPU中断来显示由系统应用程序生成的轻量消息(例如,弹出窗口),以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小,并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用使用整个用户界面的情况下,优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率,从而消除了对改变频率并引起TV重新同步的需要。
在多媒体控制台100引导且系统资源被保留之后,就执行并发系统应用来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定间隔在CPU101上运行,以便为应用提供一致的系统资源视图。调度是为了把由在控制台上运行的游戏应用所引起的高速缓存分裂最小化。
当并发系统应用需要音频时,则由于时间敏感性而异步调度音频处理给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平(例如,静音、衰减)。
输入设备(例如,控制器142(1)和142(2))由游戏应用和系统应用共享。输入设备不是所保留的资源,但却在系统应用和游戏应用之间切换以使其各自具有该设备的焦点。应用管理器较佳地控制输入流的切换,而无需知晓游戏应用的知识,并且驱动程序维持有关焦点切换的状态信息。例如,相机26、28和捕捉设备20可经由USB控制器126或其他接口来定义控制台100的附加输入设备。
图5示出实现为计算系统220的控制器12的另一示例实施例。计算系统环境220只是合适的计算系统的一个示例,并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算系统220解释为对示例性操作系统220中示出的任一组件或其组合有任何依赖性或要求。在一些实施例中,各种所描绘的计算元件可包括被配置成实例化本公开的特定方面的电路。例如,本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。在其他示例实施例中,术语“电路”可包括通过体现可操作以执行功能的逻辑的软件指令配置的通用处理单元、存储器等等。在其中电路包括硬件和软件的组合的示例实施例中,实施者可以编写体现逻辑的源代码,且源代码可以被编译为可以由通用处理单元处理的机器可读代码。由于所属领域技术人员可以理解,现有技术已经发展到在硬件、软件或硬件/软件的组合之间差别微小的程度,为实现特定功能而选择硬件还是软件是交由实施者处理的设计选择。更具体而言,本领域技术人员可以理解,可以将软件进程转换成等效的硬件结构,也可以将硬件结构本身转换成等效的软件进程。如此,选择硬件实现还是软件实现是一种设计选择,并交由实施者处理。
计算系统220包括计算机241,计算机241通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)223和随机存取存储器(RAM)260。基本输入/输出系统224(BIOS)包括如在启动时帮助在计算机241内的元件之间传输信息的基本例程,它通常储存在ROM223中。RAM260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制,图5示出了当前驻留在RAM中的操作系统225、应用程序226,其他程序模块227和程序数据228。
计算机241还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图5示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器238,对可移动、非易失性磁盘254进行读写的磁盘驱动器239,以及对例如CDROM或其它光学介质等可移动、非易失性光盘253进行读写的光盘驱动器240。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由例如接口234等不可移动存储器接口连接至系统总线221,而磁盘驱动器239和光盘驱动器240通常由例如接口235等可移动存储器接口连接至系统总线221。
上文所讨论的并且在图5中所示出的驱动器以及它们的相关联的计算机存储介质为计算机241提供了计算机可读指令、数据结构、程序模块及其他数据的存储。例如,图5中,硬盘驱动器238被示为存储操作系统258、应用程序257、其它程序模块256和程序数据255。注意,这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同,也可以与它们不同。此处给操作系统258、应用程序257、其他程序模块256以及程序数据255提供了不同的编号,以说明至少它们是不同的副本。用户可以通过输入设备,例如键盘251和定点设备252通常被称为鼠标、跟踪球或触摸垫——向计算机241输入命令和信息。其他输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口236连接至处理单元259,但也可以由其他接口和总线结构,例如并行端口、游戏端口或通用串行总线(USB)来连接。例如,包括相机26、28和话筒30在内的捕捉设备20可定义经由用户输入接口236连接的附加输入设备。监视器242或其他类型的显示设备也通过接口,例如视频接口232,连接至系统总线221。除监视器之外,计算机还可以包括可以通过输出外围接口233连接的诸如扬声器244和打印机243之类的其他外围输出设备。捕捉设备20可经由输出外围接口233、网络接口237或其他接口连接到计算系统220。
计算机241可以使用到一个或多个远程计算机(如远程计算机246)的逻辑连接在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点,且通常包括上文参考计算机241所描述的许多或全部元件,虽然图5中只示出了存储器存储设备247。图中所示逻辑连接包括局域网(LAN)245和广域网(WAN)249,但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机241通过网络接口或适配器237连接至LAN245。当在WAN联网环境中使用时,计算机241通常包括调制解调器250或用于通过例如因特网等WAN249建立通信的其他手段。调制解调器250可以是内置或外置的,它可以经由用户输入接口236或其他适当的机制连接至系统总线221。在联网环境中,相对于计算机241所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非局限,图5示出应用程序248驻留在存储器设备247上。可以理解的是,所示的网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其他手段。
图4或5的系统中的任一个或不同计算系统可用于实现图1-2中所示的控制器12。如上所述,控制器12捕捉用户的身体位置和/或移动和声音,以及将这些输入识别为身体命令和声音命令,并采用这些识别出的身体命令和声音命令来控制视频游戏或其他应用。例如,用户的运动可用于控制视频游戏中的化身和/或对象,或者它们可与语音命令组合地用于相同目的。在某些实施例中,系统可同时跟踪多个用户,并允许多个用户的运动和声音控制应用。在其他实施例中,用户的运动可被识别为指向所显示的项目的列表中的特定项目的手势,且用户的语音可被识别为对被指向的特定项目采取动作的语音命令。在另一实施例中,姿势可以只不过是手的定位,从而在监视器上建立光标位置。随后,诸如语音命令等声音输入与光标位置组合地用于提供应用内的控制。例如,当光标位于显示器上的对象(诸如某一电影)上时,“播放它”的语音命令将使该电影被播放。
图6是描述用于基于语音命令与用户进行交互的过程300的一个实施例的简化流程图。最初,系统10被置于“被动听”模式,准备好接收语音命令。用户说出命令,并且在步骤304,系统确定该命令是否为识别出的完整短语语音命令,诸如“Xbox去往视频库”。若是,则系统立即在步骤306中执行该命令,并返回步骤302的被动听状态。
若所说的命令并未被识别为完整短语语音命令,则系统在步骤308确定所说的命令是否为部分短语语音命令。若是,则系统在步骤310以“主动听”模式继续听进一步的语音命令。当在步骤314说出并识别出结束短语时,系统前进到步骤306中执行该命令。若没有说结束短语,则系统在步骤316检查该部分短语是否为有效命令的一部分。若是,则系统返回步骤310的主动听模式。若所说的命令并未被识别为部分短语语音命令,则在步骤318的短暂超时之后,系统返回步骤302的被动听模式。
若用户不熟悉该系统及其命令,则该用户可能难以说出合适的命令。因此,有利地,系统还在显示监视器15上以用户界面(“UI”)的形式向用户提供帮助,其中在识别出部分命令并进入主动听模式之后在步骤312中显示该UI。该UI显示可供与在步骤308中接收的识别出的部分命令一起使用的附加命令的集合。因此,用户可根据个人知识说出命令,或等待UI列出可用选择。
图7A是描述用于使用姿势和语音命令与控制器12进行用户交互的过程400的实施例的流程图。在步骤410,由系统10在显示监视器15上显示对象,诸如游戏、电影或其他多媒体内容。在步骤412,捕捉设备20捕捉用户移动,以及在步骤414,系统将该移动识别为所定义的命令姿势,例如手势。识别出该姿势之后,在步骤416,系统选择具有与该姿势相对应的语音命令的有限集合的语音库(诸如图2中所示的语音库70、72……76)。对应于识别出的姿势的语音命令随后在步骤418被加载到语音识别器引擎56中。在步骤419,在监视器15上显示上下文帮助菜单,其显示可供与识别出的姿势一起使用的语音命令。
在步骤420,捕捉设备20中的话筒30捕捉用户所说的语音输入。使用已加载到语音识别器引擎56中的语音库,系统在步骤422中将该语音输入识别为语音命令。在步骤424,系统执行与识别出的语音命令相关联的动作。
进一步的处理步骤可如图7B中所示地执行。例如,在步骤430(其在步骤424之后执行),系统确定是否存在与步骤422中识别出的语音命令相对应的另一级语音命令。若无,则过程返回步骤7A上的步骤410。若存在另一级语音命令,则在步骤432选择用于下一级语音命令的语音库,且在步骤434将这些语音命令加载到语音识别器引擎56中。在步骤435,显示上下文帮助菜单,其列出可与识别出的语音命令一起使用的可用语音命令。在步骤436,捕捉来自用户的语音输入。在步骤438处理和识别该语音输入,并在步骤440执行与识别出的语音输入相关联的动作。在步骤440之后,该过程返回步骤430以确定是否存在另一层次级别的语音命令。
图7C是描述用于接收运动数据并识别姿势的过程的流程图。图7C中描绘的过程是图7A的步骤412和414的一种示例实现。在步骤750感测/接收深度图像并在步骤452将其发送给控制器12。在步骤454,RGB相机28感测视觉图像并在步骤456将该图像发送给控制器12。在步骤458,来自相机26和28的图像被用于更新运动跟踪算法。接下来,在步骤460,将经更新的运动跟踪信息以及深度图像和视觉图像提供给姿势识别器引擎54。在步骤462,姿势识别器引擎54处理该数据,以及在步骤464,调用合适的过滤器。
图7D是描述用于标识姿势的过程的流程图。图7D中描绘的过程是图7B的步骤462和464的一种示例实现。在步骤470,姿势识别器引擎54从跟踪模块50接收骨架跟踪数据。在步骤472,姿势识别器引擎54从跟踪模块50接收先前骨架跟踪数据。在步骤474,使用该骨架跟踪数据和合适的过滤器,引擎54尝试识别该姿势。若在步骤476识别出该姿势,则在步骤478,该姿势将被回报给应用。若该姿势未被识别出,则在步骤480,其不被报告给该应用。
图7E是描述用于识别语音命令的过程的流程图。图7E中描绘的过程是图7A的步骤422的一种示例实现。来自图7A的步骤420重现在图7E上,其中控制器12接收从话筒30捕捉的语音输入并发起对所捕捉的语音输入的处理。在步骤484,控制器12从该语音输入生成关键词文本串,随后在步骤486,该文本串被解析成片断。在步骤488,将每一片断与在图7A的步骤416中选择的所选语音库中的相关命令作比较。在步骤490,若该片断与语音库之间存在匹配,则该片断被添加到语音命令帧,且该过程在步骤494检查更多片断。若步骤490中不存在匹配,则该过程简单地跳到步骤494以检查更多片断。若存在更多片断,则在步骤496选择下一片断并在步骤488将其与语音库作比较。当在步骤494不存在更多片断时,该语音命令帧完成,且该语音命令已被标识。
图8A是描述用于基于身体位置命令和声音命令与用户进行交互的过程的替换实施例的流程图。在图8A中,实质上同时接收身体位置命令和声音命令,因此可将身体位置命令与声音命令相关或反之,以增强与作出关于经由身体位置和声音输入实际上接收到什么命令的确定相关联的可靠性和置信度。在步骤502,在显示监视器15上显示对象,诸如游戏、电影或其他多媒体内容。在步骤504,捕捉设备20捕捉用户的身体位置和/或移动,以及在步骤506,系统将该身体位置和/或移动识别为所定义的命令,例如手势。实质上在同时,在步骤508,捕捉设备20中的话筒30捕捉由用户生成的声音输入。使用语音识别器引擎56的语音库,系统在步骤510中将该声音输入识别为语音命令。在步骤512,系统通过使用该姿势确认该语音命令、和/或使用该语音命令确认该姿势来将该姿势与该语音命令相关。更多细节在下图8B-8D中提供。在另一示例中,姿势可被解释为拍手,且声音输入也可被解释为拍手,在这种情形中,作为这两个命令一致的结果,对该复合命令的解释被给予高置信度值。通过利用所捕捉的姿势和声音/语音命令两者的解释出的含义,系统对于该解释出的含义是准确的具有增加的置信度值。在步骤514,系统执行与识别出的姿势和语音命令的组合相关联的动作。
图8B是描述用于在图8A的步骤512中将姿势与语音命令相关的一种选项的流程图。例如,在图8A的步骤506中识别出姿势之后,可在步骤550确定与识别出的姿势相关联的语音命令的集合。接下来,在步骤552确定在图8A的步骤510中识别出的语音命令是否是与识别出的姿势相关联的语音命令之一。若是,则在步骤554,该语音命令已得到验证。若否,则在步骤556,尝试将接收到的语音输入和与识别出的姿势相关联的集合中的语音命令之一相匹配。若在步骤558中该尝试导致成功匹配,则该语音命令在步骤554中得到验证。若否,则该识别方案不成功且在步骤559错误地结束。
图8C是描述用于在图8A的步骤512中将姿势与语音命令相关的另一种选项的流程图。例如,在图8A的步骤510中识别出语音命令之后,可在步骤560确定与识别出的语音命令相关联的姿势的集合。接下来,步骤562确定在图8A的步骤506中识别出的姿势是否是与识别出的语音命令相关联的姿势之一。若是,则在步骤564,该姿势已得到验证。若否,则在步骤566,尝试将接收到的运动输入和与识别出的语音命令相关联的集合中的姿势之一相匹配。若在步骤568中该尝试导致成功匹配,则该姿势在步骤564中得到验证。若否,则该识别方案不成功且在步骤569错误地结束。
图8D是描述用于在图8A的步骤512中将姿势与语音命令相关的另一种选项的流程图。例如,在图8A的步骤506中识别出姿势并在步骤510中识别出语音命令(在此重复)之后,在步骤570中向该姿势赋权重,并在步骤571中向该语音命令赋权重。在一个实施例中,权重是基于数据的质量和/或关于对识别出的姿势或语音命令的确定的可靠性来赋予的。例如,若话筒感测的声音有很多噪声,则权重较低。若姿势识别器引擎确信识别出的姿势,则权重可以较高。
在步骤572,确定哪个识别出的命令具有较高权重。若姿势具有较高权重(因此具有较高置信度值),则在步骤573,确定与识别出的姿势相关联的语音命令的集合。在步骤574,确定识别出的语音命令是否在与识别出的姿势相关联的语音命令的集合内。若是,则在步骤575,该语音命令得到验证。若否,则在步骤576,控制器12尝试将语音输入和与识别出的姿势相关联的语音命令的集合中的任何语音命令相匹配。若步骤577中存在匹配,则该语音命令在步骤575中得到验证,若不存在匹配,则该识别方案导致错误。
若在步骤572中语音命令比姿势具有更高权重,则在步骤577,确定与识别出的语音命令相关联的姿势的集合。在步骤578,确定识别出的姿势是否在与识别出的语音命令相关联的姿势的集合内。若是,则在步骤579,该姿势得到验证。若否,则在步骤580,控制器12尝试将运动输入和与识别出的语音命令相关联的姿势的集合中的任何姿势相匹配。若步骤581中存在匹配,则该姿势在步骤579中得到验证,若不存在匹配,则该识别方案导致错误。
图9A是描述用于基于姿势和语音命令与用户进行交互的过程的另一个实施例的流程图。图9A类似于图7A-7B的实施例,不同之处在于识别出的姿势导致系统改变状态,如以下进一步描述的。在步骤520,由系统10在显示监视器15上显示游戏或其他对象。在步骤522,捕捉设备20捕捉用户移动,以及在步骤524,系统将该移动识别为所定义的手势。在步骤526,系统基于识别出的姿势改变状态。例如,若用户选择电影,则系统将状态改变为电影回放状态。系统随后在步骤528更新显示器以显示其他对象或特征,诸如对电影回放状态的控制。系统随后在步骤530选择具有可用于该状态且因此对应于步骤416中的姿势的语音命令的合适且有限的集合的语音库(诸如图2中所示的语音库70、72……76),并将这些语音命令加载到语音识别器引擎56中。在步骤532,捕捉设备20中的话筒30捕捉来自用户的语音输入。在步骤534,系统基于语音命令识别器56中的处理而将该语音输入识别为语音命令。在步骤536,系统执行与识别出的姿势和语音命令的组合相关联的动作,并更新显示器以反映当前状态。
在步骤538,系统确定是否存在与识别出的姿势/语音命令组合相对应的另一级语音命令。若否,则该过程返回步骤522,准备接收来自捕捉设备的进一步输入。若存在另一级语音命令,则在步骤540选择用于下一级语音命令的语音库并将其加载到语音识别器引擎56中。该过程返回到步骤532,准备捕捉进一步的语音输入。
姿势和语音命令的组合由此旨在提高与捕捉设备20所捕捉的数据相关联的可靠性和置信度。例如,单个姿势可与有限数量的命令一起使用以提供直观且易于学习和使用的有效控制工具。用户界面的一些示例将进一步示出与将姿势和语音命令组合相关联的优点。
图9B是描述用于基于姿势和语音命令与用户进行交互的过程的另一个实施例的流程图。图9B类似于图9A,不同之处在于识别出的语音命令导致系统改变状态,如以下进一步描述的。
在步骤620,由系统10在显示监视器15上显示对象。在步骤622,捕捉设备20中的话筒30捕捉声音,以及在步骤624,系统将该声音识别为所定义的语音命令。在步骤626,系统基于识别出的语音命令改变状态。例如,若用户说“播放”,则系统将状态改变为电影回放状态。系统随后在步骤628更新显示器以在显示器上示出光标。系统随后在步骤630选择具有可用于该状态的姿势的合适且有限的集合的姿势过滤器(诸如图2中所示的过滤器60、62……66),并将这些姿势加载到姿势识别器引擎56中。在步骤632,捕捉设备20中的相机23捕捉来自用户的身体位置和姿势输入。在步骤634,系统基于姿势识别器引擎54中的处理而将该身体位置输入识别为预定义的姿势。在步骤636,系统执行与识别出的姿势和语音命令的组合相关联的动作,并更新显示器以反映当前状态。
图9C是描述使用特定的“扫动姿势”与控制器12进行用户交互的实施例的流程图,即其中用户在向外或圆周运动中扫动其手以指示对象的列表应在运动中被设置,例如滚动通过对象的列表中的所有选择。该实施例类似于图7A中描述的实施例,不同之处在于构想了特定姿势。
在步骤640,由系统10在显示监视器15上显示对象。在步骤642,捕捉设备20捕捉用户移动,即以上描述的“扫动姿势”,以及在步骤644,系统将该“扫动”移动识别为所定义的命令姿势。识别出该姿势之后,在步骤646,系统选择具有与在步骤644中识别出的扫动姿势相对应的语音命令的有限集合的语音库(诸如图2中所示的语音库70、72……76)。随后在步骤648将对应于识别出的姿势的语音命令加载到语音识别器引擎56中,以及在步骤650,在监视器15上显示上下文帮助菜单,其显示可供与识别出的姿势一起使用的语音命令。
在步骤652,捕捉设备20中的话筒30捕捉由用户生成的语音输入。使用已加载到语音识别器引擎56中的语音库,系统在步骤654中将该语音输入识别为语音命令。在步骤656,系统随后对该对象的列表或对特定的所选对象执行与识别出的语音命令相关联的动作。
图10A是作为图7A的流程图的过程的一部分实现的第一级用户界面600的图示。因此,根据步骤410在界面600中显示多个对象602,诸如电影或视频游戏,其中这些对象跨该界面的宽度分布。特写的对象602a在该界面前面中心,且通过指向该对象(步骤412)——这被识别为选择步骤(步骤414)——而被选择。用户界面可包括包含该特写的对象的高亮框604。根据步骤419,在界面600的左下角显示有帮助的用户语音命令菜单606,且显示系统的当前状态的可用语音命令。例如,该菜单可包括词“说”以向用户表明该菜单中邻近的词可用于语音命令,且在此状态中,可用语音命令为“去往”、“寻找”和“播放”。因此,用户可“去往”另一操作状态或模式,或者可能希望“寻找”或“播放”特定标题。在显示画面的顶部提供该系统的可用状态或模式的列表608,且用户可在这些选择中滚动以例如通过指向运动来选择一状态。在图10A中,所选状态为“聚光灯”,其可用于例如对新内容进行特写。可使用合适的姿势和/或语音命令来选择诸如“我的XBOX”或“游戏”或“视频”等其他选择。例如,指向列表608并环形地挥手的运动可在步骤414中被识别为在该列表中滚动的命令。
图10B是实现图7B的流程图的下一级用户界面600a的图示。例如,若你响应于图10A中的菜单606的显示而说“去往”,则当在图7A的步骤422中识别出该命令时,该动作如在步骤424中被执行,且若存在与当前状态相关联的另一级语音命令(图7B中的步骤430),则在步骤432选择另一语音库,且如步骤434中将语音命令的下一集合加载到识别器引擎56中。在步骤435,显示画面被更新以在菜单606a中显示这些新选择。因此,响应于语音命令“去往”,帮助菜单被更新以列出下一组语音命令选择,即用户能去往的地方的列表。
图10C是下一级用户界面600c的图示。例如,若用户响应于图10B中的菜单606a的显示而说了“视频市场”(或替换地,响应于图10A中的菜单606的显示而说了整个命令“去往视频市场”),则如步骤435中显示新界面600c,其具有经更新的下一级语音命令菜单607和新状态菜单609。该示例示出了可提供分层结构,从而可在该方案的每一级别加载语音命令的有限集合供识别。另外,在该实施例中,在该界面中以稍微不同的方式显示对象603,但可根据设计偏好以任何期望方式来显示对象。
在该实施例中,示出手指针605。在一些应用中,控制器12可呈现手指针605以跟踪用户的手的移动。响应于手指针605选择对象603c——如在图7A的步骤412和414中捕获和识别出的,如步骤419中在对象603c周围显示上下文菜单,用相对于该对新昂贵的语音命令列出所有可用动作选择。例如,在所示界面600c中,在所选对象603c周围安排了5个小按钮610、611、612、613、614,列出可应用于该对象的语音命令。在该状态中,用户可选择说“发送”、“购买”、“租”、“预览”或“评级”,且该动作将被应用于所选对象603c。
一般而言,本公开相关领域的技术人员将认识到,以上描述的具体特征或动作是说明性的而非限制性的。更确切而言,上述具体特征和动作是作为实现权利要求的示例形式公开的。因此,本发明的范围由所附权利要求定义。

Claims (14)

1.一种用于使用声音命令的集合来控制计算系统的方法,包括:
在显示监视器上显示一个或多个对象(410);
从传感器接收身体位置数据(412);
基于接收的身体位置数据识别与所述一个或多个对象有关的姿势(414);
基于识别出的姿势选取声音命令的集合的子集(416),所述声音命令的集合包括多个子集,每个子集与一个或多个姿势以及相应子集的声音命令识别数据相关联;
加载所选取的声音命令的子集的声音命令识别数据(418);
从话筒接收声音输入(420);
使用所加载的声音命令识别数据从所述声音输入识别声音命令(422);
基于经加权的所述识别出的姿势以及经加权的识别出的声音命令而将所述识别出的姿势与所述识别出的声音命令相关;以及
响应于识别出的声音命令执行动作(424),
其中将所述识别出的姿势与所述识别出的声音命令相关包括:
如果所述识别出的姿势的权重高于所述识别出的声音命令的权重,则通过确定所述识别出的声音命令是否在与所述识别出的姿势相关联的声音命令的集合内来验证所述识别出的声音命令;
如果所述识别出的声音命令的权重高于所述识别出的姿势的权重,则通过确定所述识别出的姿势是否在与所述识别出的声音命令相关联的姿势的集合内来验证所述识别出的姿势。
2.如权利要求1所述的方法,其特征在于,还包括:
显示所选取的声音命令的子集。
3.如权利要求2所述的方法,其特征在于,所述识别出的姿势选择所显示的对象,且其中靠近所选择的所显示对象来显示所选取的声音命令的子集。
4.如权利要求1所述的方法,其特征在于,还包括:
在响应于识别出的声音命令执行所述动作之后,加载所选取的声音命令的子集的相关子集的附加声音命令识别数据;
接收进一步的声音命令;
使用所加载的附加声音命令识别数据来识别所述进一步的声音命令;以及
响应于识别出的进一步的声音命令执行动作。
5.如权利要求1所述的方法,其特征在于,还包括:
基于识别出的姿势改变所述计算系统的状态;以及
提供与所述计算系统的改变后的状态有关的声音命令的分层子集。
6.如权利要求5所述的方法,其特征在于,每个识别出的姿势对应于所述计算系统的一不同状态,且其中所述计算系统的每个状态的声音命令识别数据定义声音命令的一分层子集,且每个声音命令的每个分层子集仅在所述识别出的姿势要求时才被加载。
7.如权利要求1所述的方法,其特征在于,所述姿势为所述声音命令提供上下文或者所述声音命令为所述姿势提供上下文。
8.如权利要求1所述的方法,其特征在于,从所述声音输入识别声音命令的步骤包括:
向所述识别声音命令的步骤赋予加权的置信度值;以及
在识别出的姿势与所述声音命令一致时增大所述加权的置信度值。
9.如权利要求1所述的方法,其特征在于,所述姿势增强所述声音命令被正确识别的置信度,且所述声音命令增强所述姿势被正确识别的置信度。
10.一种用于控制多媒体系统的接口系统,包括:
监视器(15),用于显示多媒体内容;
传感器(23),用于捕捉用户姿势;
话筒(30),用于捕捉用户声音;以及
计算机(12),所述计算机连接到所述传感器(23)、所述话筒(30)和所述监视器(15),所述计算机驱动所述监视器显示一组对象(602),所述计算机从所述传感器接收表示姿势的图像数据,所述计算机将所述姿势识别为从该组对象(602)中选择第一对象(602a),所述计算机更新所述监视器(15)以显示第一上下文菜单(606),所述第一上下文菜单显示能针对所述第一对象(602a)使用的声音命令的子集,所述计算机从所述话筒(30)接收表示声音命令的声音数据,所述计算机基于所述声音数据来将声音命令识别为来自所述声音命令的子集,所述声音命令指示关于所述第一对象(602a)的期望动作,所述计算机执行所述期望动作,所述计算机基于经加权的识别出的姿势以及经加权的识别出的声音命令而将所述识别出的姿势与所述识别出的声音命令相关,
其中所述计算机将所述识别出的姿势与所述识别出的声音命令相关包括:
如果所述识别出的姿势的权重高于所述识别出的声音命令的权重,则通过确定所述识别出的声音命令是否在与所述识别出的姿势相关联的声音命令的集合内来验证所述识别出的声音命令;
如果所述识别出的声音命令的权重高于所述识别出的姿势的权重,则通过确定所述识别出的姿势是否在与所述识别出的声音命令相关联的姿势的集合内来验证所述识别出的姿势。
11.如权利要求10所述的系统,其特征在于:
所述声音命令的子集被组织成一个或多个分层级别,其中每一个分层级别仅在处理姿势需要时才被加载到所述计算机中。
12.如权利要求11所述的系统,其特征在于:
仅在已识别出来自前一个分层级别的声音命令且采取与所述声音命令相关联的期望动作之后才加载和显示后续分层级别的声音命令。
13.如权利要求10所述的系统,其特征在于:
所述姿势被所述计算机用于促进对所述声音命令的识别,而所述声音命令被所述计算机用于促进对所述姿势的识别。
14.如权利要求10所述的系统,其特征在于:
所述计算机在所述监视器上显示渐进用户界面,其中所述用户界面在所述计算机执行所述期望动作之后被更新以包括声音命令的相关子集。
CN201110177728.8A 2010-06-18 2011-06-17 复合姿势-语音命令 Active CN102306051B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/818,898 US8296151B2 (en) 2010-06-18 2010-06-18 Compound gesture-speech commands
US12/818,898 2010-06-18

Publications (2)

Publication Number Publication Date
CN102306051A CN102306051A (zh) 2012-01-04
CN102306051B true CN102306051B (zh) 2016-03-16

Family

ID=45329435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110177728.8A Active CN102306051B (zh) 2010-06-18 2011-06-17 复合姿势-语音命令

Country Status (2)

Country Link
US (3) US8296151B2 (zh)
CN (1) CN102306051B (zh)

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
WO2012064309A1 (en) * 2010-11-11 2012-05-18 Echostar Ukraine L.L.C. Hearing and/or speech impaired electronic device control
US9129604B2 (en) * 2010-11-16 2015-09-08 Hewlett-Packard Development Company, L.P. System and method for using information from intuitive multimodal interactions for media tagging
KR101858531B1 (ko) 2011-01-06 2018-05-17 삼성전자주식회사 모션에 의해 제어되는 디스플레이 장치 및 그 모션 제어 방법
KR101795574B1 (ko) * 2011-01-06 2017-11-13 삼성전자주식회사 모션에 의해 제어되는 전자기기 및 그 제어 방법
JP5039214B2 (ja) * 2011-02-17 2012-10-03 株式会社東芝 音声認識操作装置及び音声認識操作方法
KR101852428B1 (ko) * 2011-03-09 2018-04-26 엘지전자 주식회사 이동 단말기 및 그의 3d객체 제어방법
US20120239396A1 (en) * 2011-03-15 2012-09-20 At&T Intellectual Property I, L.P. Multimodal remote control
US9298287B2 (en) * 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
GB2490108B (en) * 2011-04-13 2018-01-17 Nokia Technologies Oy A method, apparatus and computer program for user control of a state of an apparatus
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US9107083B1 (en) * 2011-05-03 2015-08-11 Open Invention Network, Llc System and method for notifying users of similar searches
WO2012151471A2 (en) * 2011-05-05 2012-11-08 Net Power And Light Inc. Identifying gestures using multiple sensors
US8452451B1 (en) * 2011-05-06 2013-05-28 Google Inc. Methods and systems for robotic command language
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US10008037B1 (en) 2011-06-10 2018-06-26 Amazon Technologies, Inc. User/object interactions in an augmented reality environment
US9996972B1 (en) * 2011-06-10 2018-06-12 Amazon Technologies, Inc. User/object interactions in an augmented reality environment
US9921641B1 (en) 2011-06-10 2018-03-20 Amazon Technologies, Inc. User/object interactions in an augmented reality environment
US20130033644A1 (en) * 2011-08-05 2013-02-07 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
ES2958183T3 (es) 2011-08-05 2024-02-05 Samsung Electronics Co Ltd Procedimiento de control de aparatos electrónicos basado en el reconocimiento de voz y de movimiento, y aparato electrónico que aplica el mismo
WO2013022222A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on motion recognition, and electronic apparatus applying the same
KR20130032966A (ko) * 2011-09-26 2013-04-03 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US9628843B2 (en) * 2011-11-21 2017-04-18 Microsoft Technology Licensing, Llc Methods for controlling electronic devices using gestures
JP5916888B2 (ja) * 2011-12-29 2016-05-11 インテル・コーポレーション 直接的文法アクセス
WO2013101051A1 (en) * 2011-12-29 2013-07-04 Intel Corporation Speech recognition utilizing a dynamic set of grammar elements
US9625993B2 (en) * 2012-01-11 2017-04-18 Biosense Webster (Israel) Ltd. Touch free operation of devices by use of depth sensors
US9931154B2 (en) 2012-01-11 2018-04-03 Biosense Webster (Israel), Ltd. Touch free operation of ablator workstation by use of depth sensors
US9223415B1 (en) 2012-01-17 2015-12-29 Amazon Technologies, Inc. Managing resource usage for task performance
US8830165B1 (en) 2012-01-24 2014-09-09 Google Inc. User interface
US20130211843A1 (en) * 2012-02-13 2013-08-15 Qualcomm Incorporated Engagement-dependent gesture recognition
US20130328925A1 (en) * 2012-06-12 2013-12-12 Stephen G. Latta Object focus in a mixed reality environment
US9092394B2 (en) * 2012-06-15 2015-07-28 Honda Motor Co., Ltd. Depth based context identification
US20140007115A1 (en) * 2012-06-29 2014-01-02 Ning Lu Multi-modal behavior awareness for human natural command control
DE102012013503B4 (de) * 2012-07-06 2014-10-09 Audi Ag Verfahren und Steuerungssystem zum Betreiben eines Kraftwagens
US20140033045A1 (en) * 2012-07-24 2014-01-30 Global Quality Corp. Gestures coupled with voice as input method
CN102945672B (zh) 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
US20140122086A1 (en) * 2012-10-26 2014-05-01 Microsoft Corporation Augmenting speech recognition with depth imaging
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US10381001B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US9584642B2 (en) * 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US20140173440A1 (en) * 2012-12-13 2014-06-19 Imimtek, Inc. Systems and methods for natural interaction with operating systems and application graphical user interfaces using gestural and vocal input
US20140191939A1 (en) * 2013-01-09 2014-07-10 Microsoft Corporation Using nonverbal communication in determining actions
US9785228B2 (en) * 2013-02-11 2017-10-10 Microsoft Technology Licensing, Llc Detecting natural user-input engagement
US20140257741A1 (en) * 2013-03-08 2014-09-11 Christopher Chupp Weightless scale system
KR101872426B1 (ko) * 2013-03-14 2018-06-28 인텔 코포레이션 깊이 기반 사용자 인터페이스 제스처 제어
WO2014149700A1 (en) * 2013-03-15 2014-09-25 Intel Corporation System and method for assigning voice and gesture command areas
US20140282273A1 (en) * 2013-03-15 2014-09-18 Glen J. Anderson System and method for assigning voice and gesture command areas
US9015737B2 (en) 2013-04-18 2015-04-21 Microsoft Technology Licensing, Llc Linked advertisements
EP2793105A1 (en) * 2013-04-19 2014-10-22 Alcatel Lucent Controlling a user interface of an interactive device
CN103268408A (zh) * 2013-05-13 2013-08-28 云南瑞攀科技有限公司 多维交互平台
US9196246B2 (en) * 2013-06-14 2015-11-24 Mitsubishi Electric Research Laboratories, Inc. Determining word sequence constraints for low cognitive speech recognition
US9582078B1 (en) * 2013-06-28 2017-02-28 Maxim Integrated Products, Inc. Integrated touchless joystick-type controller
WO2014205767A1 (en) * 2013-06-28 2014-12-31 Verizon Patent And Licensing Inc. Human-computer interaction using wearable device
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
US20150039316A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Systems and methods for managing dialog context in speech systems
WO2015017670A2 (en) * 2013-07-31 2015-02-05 Sidhant Gupta Methods and systems for managing multi-device interaction using the doppler effect
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
GB2518233A (en) * 2013-09-17 2015-03-18 Nokia Technologies Oy Remote Detection
WO2015046649A1 (ko) * 2013-09-27 2015-04-02 엘지전자 주식회사 영상표시장치 및 영상표시장치 동작방법
US9367203B1 (en) 2013-10-04 2016-06-14 Amazon Technologies, Inc. User interface techniques for simulating three-dimensional depth
US10220304B2 (en) 2013-10-14 2019-03-05 Microsoft Technology Licensing, Llc Boolean/float controller and gesture recognition system
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
KR20150066156A (ko) * 2013-12-06 2015-06-16 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
US20150199017A1 (en) * 2014-01-10 2015-07-16 Microsoft Corporation Coordinated speech and gesture input
US8825585B1 (en) * 2014-03-11 2014-09-02 Fmr Llc Interpretation of natural communication
US10613642B2 (en) 2014-03-12 2020-04-07 Microsoft Technology Licensing, Llc Gesture parameter tuning
US20150304697A1 (en) * 2014-04-18 2015-10-22 Microsoft Corporation Changing broadcast without interruption to active gameplay
CN105204749A (zh) * 2014-06-18 2015-12-30 腾讯科技(深圳)有限公司 一种应用的操控方法及终端设备
CN104202640B (zh) * 2014-08-28 2016-03-30 深圳市国华识别科技开发有限公司 基于图像识别的智能电视交互控制系统和方法
US10649635B2 (en) 2014-09-26 2020-05-12 Lenovo (Singapore) Pte. Ltd. Multi-modal fusion engine
US20160103655A1 (en) * 2014-10-08 2016-04-14 Microsoft Corporation Co-Verbal Interactions With Speech Reference Point
US10444977B2 (en) * 2014-12-05 2019-10-15 Verizon Patent And Licensing Inc. Cellphone manager
CN105792005B (zh) * 2014-12-22 2019-05-14 深圳Tcl数字技术有限公司 录像控制的方法及装置
US9864430B2 (en) 2015-01-09 2018-01-09 Microsoft Technology Licensing, Llc Gaze tracking via eye gaze model
US10048749B2 (en) 2015-01-09 2018-08-14 Microsoft Technology Licensing, Llc Gaze detection offset for gaze tracking models
US9977565B2 (en) 2015-02-09 2018-05-22 Leapfrog Enterprises, Inc. Interactive educational system with light emitting controller
US9489172B2 (en) * 2015-02-26 2016-11-08 Motorola Mobility Llc Method and apparatus for voice control user interface with discreet operating mode
US9754588B2 (en) 2015-02-26 2017-09-05 Motorola Mobility Llc Method and apparatus for voice control user interface with discreet operating mode
CN104795065A (zh) * 2015-04-30 2015-07-22 北京车音网科技有限公司 一种提高语音识别率的方法和电子设备
US10019992B2 (en) * 2015-06-29 2018-07-10 Disney Enterprises, Inc. Speech-controlled actions based on keywords and context thereof
US10852917B2 (en) * 2015-06-30 2020-12-01 Motorola Mobility Llc Method and apparatus for controlling sharing of selected content between a portable communication device and a target device
US10616561B2 (en) * 2015-09-03 2020-04-07 Inuitive Ltd. Method and apparatus for generating a 3-D image
US10166995B2 (en) * 2016-01-08 2019-01-01 Ford Global Technologies, Llc System and method for feature activation via gesture recognition and voice command
CN106993012A (zh) * 2016-01-21 2017-07-28 西安中兴新软件有限责任公司 一种语音提示方法和装置
US10120437B2 (en) * 2016-01-29 2018-11-06 Rovi Guides, Inc. Methods and systems for associating input schemes with physical world objects
JP6597397B2 (ja) * 2016-02-29 2019-10-30 富士通株式会社 ポインティング支援装置、ポインティング支援方法およびポインティング支援プログラム
WO2017188801A1 (ko) * 2016-04-29 2017-11-02 주식회사 브이터치 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치
US10092827B2 (en) * 2016-06-16 2018-10-09 Disney Enterprises, Inc. Active trigger poses
KR102497299B1 (ko) * 2016-06-29 2023-02-08 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10832031B2 (en) * 2016-08-15 2020-11-10 Apple Inc. Command processing using multimodal signal analysis
WO2018061743A1 (ja) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 ウェアラブル端末
US10403285B1 (en) * 2016-12-05 2019-09-03 Google Llc Methods and apparatus to define virtual scenes using natural language commands and natural gestures
US10372132B2 (en) 2016-12-12 2019-08-06 Apple Inc. Guidance of autonomous vehicles in destination vicinities using intent signals
US10692489B1 (en) * 2016-12-23 2020-06-23 Amazon Technologies, Inc. Non-speech input to speech processing system
US20180188905A1 (en) * 2017-01-04 2018-07-05 Google Inc. Generating messaging streams with animated objects
US10045086B1 (en) * 2017-02-09 2018-08-07 Nanning Fugui Precision Industrial Co., Ltd. Interactive system for virtual cinema and method
US10326809B2 (en) * 2017-02-09 2019-06-18 Nanning Fugui Precision Industrial Co., Ltd. Interactive system for virtual cinema and method
US10334283B2 (en) * 2017-02-09 2019-06-25 Nanning Fugui Precision Industrial Co., Ltd. Interactive system for virtual cinema and method
US9924313B1 (en) * 2017-02-23 2018-03-20 International Business Machines Corporation Location based generation of pertinent information
US11237635B2 (en) 2017-04-26 2022-02-01 Cognixion Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio
US11402909B2 (en) 2017-04-26 2022-08-02 Cognixion Brain computer interface for augmented reality
TWI653550B (zh) * 2017-07-06 2019-03-11 鴻海精密工業股份有限公司 電子裝置及電子裝置的顯示控制方法
KR102417029B1 (ko) * 2017-07-24 2022-07-06 삼성전자주식회사 자연어 표현 생성 방법 및 전자 장치
CN107544271B (zh) * 2017-09-18 2020-08-14 广东美的制冷设备有限公司 终端控制方法、装置及计算机可读存储介质
CN110663021B (zh) * 2017-11-06 2024-02-02 谷歌有限责任公司 关注出席用户的方法和系统
KR102572675B1 (ko) 2017-11-22 2023-08-30 삼성전자주식회사 사용자 인터페이스를 적응적으로 구성하기 위한 장치 및 방법
CN108667794B (zh) * 2018-03-15 2022-04-01 北京雷石天地电子技术有限公司 一种互动方法、装置及系统
KR102630662B1 (ko) * 2018-04-02 2024-01-30 삼성전자주식회사 어플리케이션 실행 방법 및 이를 지원하는 전자 장치
CN110377145B (zh) * 2018-04-13 2021-03-30 北京京东尚科信息技术有限公司 电子设备确定方法、系统、计算机系统和可读存储介质
CN110554766A (zh) * 2018-05-31 2019-12-10 柯刚铠 交互方法及车载交互装置
US10770035B2 (en) 2018-08-22 2020-09-08 Google Llc Smartphone-based radar system for facilitating awareness of user presence and orientation
US10890653B2 (en) * 2018-08-22 2021-01-12 Google Llc Radar-based gesture enhancement for voice interfaces
US10698603B2 (en) 2018-08-24 2020-06-30 Google Llc Smartphone-based radar system facilitating ease and accuracy of user interactions with displayed objects in an augmented-reality interface
US10788880B2 (en) 2018-10-22 2020-09-29 Google Llc Smartphone-based radar system for determining user intention in a lower-power mode
KR102669100B1 (ko) * 2018-11-02 2024-05-27 삼성전자주식회사 전자 장치 및 그 제어 방법
US10761611B2 (en) 2018-11-13 2020-09-01 Google Llc Radar-image shaper for radar-based applications
CN109788231B (zh) * 2018-12-17 2021-05-11 视联动力信息技术股份有限公司 可视电话业务处理方法和装置
DE102018132794A1 (de) * 2018-12-19 2020-06-25 Patty's Gmbh Verfahren zur Eingabe von Befehlen für eine elektronische Einrichtung
CN109739353A (zh) * 2018-12-27 2019-05-10 重庆上丞科技有限公司 一种基于手势、语音、视线追踪识别的虚拟现实交互系统
US11183185B2 (en) * 2019-01-09 2021-11-23 Microsoft Technology Licensing, Llc Time-based visual targeting for voice commands
US10901520B1 (en) * 2019-11-05 2021-01-26 Microsoft Technology Licensing, Llc Content capture experiences driven by multi-modal user inputs
CN113362828B (zh) * 2020-03-04 2022-07-05 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
JP7367632B2 (ja) * 2020-07-31 2023-10-24 トヨタ自動車株式会社 レッスンシステム、レッスン方法、及びプログラム
US11978444B2 (en) * 2020-11-24 2024-05-07 International Business Machines Corporation AR (augmented reality) based selective sound inclusion from the surrounding while executing any voice command
US11928263B2 (en) 2020-12-07 2024-03-12 Samsung Electronics Co., Ltd. Electronic device for processing user input and method thereof
US11797079B2 (en) * 2021-01-29 2023-10-24 Universal City Studios Llc Variable effects activation in an interactive environment

Family Cites Families (219)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4288078A (en) 1979-11-20 1981-09-08 Lugo Julio I Game apparatus
US4695953A (en) 1983-08-25 1987-09-22 Blair Preston E TV animation interactively controlled by the viewer
US4630910A (en) 1984-02-16 1986-12-23 Robotic Vision Systems, Inc. Method of measuring in three-dimensions at high speed
US4627620A (en) 1984-12-26 1986-12-09 Yang John P Electronic athlete trainer for improving skills in reflex, speed and accuracy
US4645458A (en) 1985-04-15 1987-02-24 Harald Phillip Athletic evaluation and training apparatus
US4702475A (en) 1985-08-16 1987-10-27 Innovating Training Products, Inc. Sports technique and reaction training system
US4843568A (en) 1986-04-11 1989-06-27 Krueger Myron W Real time perception of and response to the actions of an unencumbered participant/user
US4711543A (en) 1986-04-14 1987-12-08 Blair Preston E TV animation interactively controlled by the viewer
US4796997A (en) 1986-05-27 1989-01-10 Synthetic Vision Systems, Inc. Method and system for high-speed, 3-D imaging of an object at a vision station
US5184295A (en) 1986-05-30 1993-02-02 Mann Ralph V System and method for teaching physical skills
US4751642A (en) 1986-08-29 1988-06-14 Silva John M Interactive sports simulation system with physiological sensing and psychological conditioning
US4809065A (en) 1986-12-01 1989-02-28 Kabushiki Kaisha Toshiba Interactive system and related method for displaying data to produce a three-dimensional image of an object
US4817950A (en) 1987-05-08 1989-04-04 Goo Paul E Video game control unit and attitude sensor
US5239464A (en) 1988-08-04 1993-08-24 Blair Preston E Interactive video system providing repeated switching of multiple tracks of actions sequences
US5239463A (en) 1988-08-04 1993-08-24 Blair Preston E Method and apparatus for player interaction with animated characters and objects
US4901362A (en) 1988-08-08 1990-02-13 Raytheon Company Method of recognizing patterns
US4893183A (en) 1988-08-11 1990-01-09 Carnegie-Mellon University Robotic vision system
JPH02199526A (ja) 1988-10-14 1990-08-07 David G Capper 制御インターフェース装置
US4925189A (en) 1989-01-13 1990-05-15 Braeunig Thomas F Body-mounted video game exercise device
US5229756A (en) 1989-02-07 1993-07-20 Yamaha Corporation Image control apparatus
US5469740A (en) 1989-07-14 1995-11-28 Impulse Technology, Inc. Interactive video testing and training system
JPH03103822U (zh) 1990-02-13 1991-10-29
US5101444A (en) 1990-05-18 1992-03-31 Panacea, Inc. Method and apparatus for high speed object location
US5148154A (en) 1990-12-04 1992-09-15 Sony Corporation Of America Multi-dimensional user interface
US5534917A (en) 1991-05-09 1996-07-09 Very Vivid, Inc. Video image based control system
US5417210A (en) 1992-05-27 1995-05-23 International Business Machines Corporation System and method for augmentation of endoscopic surgery
US5295491A (en) 1991-09-26 1994-03-22 Sam Technology, Inc. Non-invasive human neurocognitive performance capability testing method and system
US6054991A (en) 1991-12-02 2000-04-25 Texas Instruments Incorporated Method of modeling player position and movement in a virtual reality system
CA2101633A1 (en) 1991-12-03 1993-06-04 Barry J. French Interactive video testing and training system
US5875108A (en) 1991-12-23 1999-02-23 Hoffberg; Steven M. Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
DE69324969T2 (de) 1992-07-09 1999-09-16 Nec Corp., Tokio/Tokyo Funkrufempfänger mit Anzeigeeinheit
JPH07325934A (ja) 1992-07-10 1995-12-12 Walt Disney Co:The 仮想世界に向上したグラフィックスを提供する方法および装置
US5999908A (en) 1992-08-06 1999-12-07 Abelow; Daniel H. Customer-based product design module
US5320538A (en) 1992-09-23 1994-06-14 Hughes Training, Inc. Interactive aircraft training system and method
IT1257294B (it) 1992-11-20 1996-01-12 Dispositivo atto a rilevare la configurazione di un'unita' fisiologicadistale,da utilizzarsi in particolare come interfaccia avanzata per macchine e calcolatori.
US5495576A (en) 1993-01-11 1996-02-27 Ritchey; Kurtis J. Panoramic image based virtual reality/telepresence audio-visual system and method
US5690582A (en) 1993-02-02 1997-11-25 Tectrix Fitness Equipment, Inc. Interactive exercise apparatus
JP2799126B2 (ja) 1993-03-26 1998-09-17 株式会社ナムコ ビデオゲーム装置及びゲーム用入力装置
US5405152A (en) 1993-06-08 1995-04-11 The Walt Disney Company Method and apparatus for an interactive video game with physical feedback
US5454043A (en) 1993-07-30 1995-09-26 Mitsubishi Electric Research Laboratories, Inc. Dynamic and static hand gesture recognition through low-level image analysis
US5423554A (en) 1993-09-24 1995-06-13 Metamedia Ventures, Inc. Virtual reality game method and apparatus
US5980256A (en) 1993-10-29 1999-11-09 Carmein; David E. E. Virtual reality system with enhanced sensory apparatus
JP3419050B2 (ja) 1993-11-19 2003-06-23 株式会社日立製作所 入力装置
US5347306A (en) 1993-12-17 1994-09-13 Mitsubishi Electric Research Laboratories, Inc. Animated electronic meeting place
JP2552427B2 (ja) 1993-12-28 1996-11-13 コナミ株式会社 テレビ遊戯システム
US5577981A (en) 1994-01-19 1996-11-26 Jarvik; Robert Virtual reality exercise machine and computer controlled video system
US5580249A (en) 1994-02-14 1996-12-03 Sarcos Group Apparatus for simulating mobility of a human
US5597309A (en) 1994-03-28 1997-01-28 Riess; Thomas Method and apparatus for treatment of gait problems associated with parkinson's disease
US5385519A (en) 1994-04-19 1995-01-31 Hsu; Chi-Hsueh Running machine
US5524637A (en) 1994-06-29 1996-06-11 Erickson; Jon W. Interactive system for measuring physiological exertion
JPH0844490A (ja) 1994-07-28 1996-02-16 Matsushita Electric Ind Co Ltd インターフェイス装置
US5563988A (en) 1994-08-01 1996-10-08 Massachusetts Institute Of Technology Method and system for facilitating wireless, full-body, real-time user interaction with a digitally represented visual environment
US6714665B1 (en) 1994-09-02 2004-03-30 Sarnoff Corporation Fully automated iris recognition system utilizing wide and narrow fields of view
US5516105A (en) 1994-10-06 1996-05-14 Exergame, Inc. Acceleration activated joystick
US5638300A (en) 1994-12-05 1997-06-10 Johnson; Lee E. Golf swing analysis system
JPH08161292A (ja) 1994-12-09 1996-06-21 Matsushita Electric Ind Co Ltd 混雑度検知方法およびそのシステム
US5594469A (en) 1995-02-21 1997-01-14 Mitsubishi Electric Information Technology Center America Inc. Hand gesture machine control system
US5682229A (en) 1995-04-14 1997-10-28 Schwartz Electro-Optics, Inc. Laser range camera
US5913727A (en) 1995-06-02 1999-06-22 Ahdoot; Ned Interactive movement and contact simulation game
JP3481631B2 (ja) 1995-06-07 2003-12-22 ザ トラスティース オブ コロンビア ユニヴァーシティー イン ザ シティー オブ ニューヨーク 能動型照明及びデフォーカスに起因する画像中の相対的なぼけを用いる物体の3次元形状を決定する装置及び方法
US5682196A (en) 1995-06-22 1997-10-28 Actv, Inc. Three-dimensional (3D) video presentation system providing interactive 3D presentation with personalized audio responses for multiple viewers
US5702323A (en) 1995-07-26 1997-12-30 Poulton; Craig K. Electronic exercise enhancer
JPH0981364A (ja) * 1995-09-08 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> マルチモーダル情報入力方法及び装置
US6308565B1 (en) 1995-11-06 2001-10-30 Impulse Technology Ltd. System and method for tracking and assessing movement skills in multidimensional space
US6098458A (en) 1995-11-06 2000-08-08 Impulse Technology, Ltd. Testing and training system for assessing movement and agility skills without a confining field
US6073489A (en) 1995-11-06 2000-06-13 French; Barry J. Testing and training system for assessing the ability of a player to complete a task
US6430997B1 (en) 1995-11-06 2002-08-13 Trazer Technologies, Inc. System and method for tracking and assessing movement skills in multidimensional space
US6176782B1 (en) 1997-12-22 2001-01-23 Philips Electronics North America Corp. Motion-based command generation technology
US5933125A (en) 1995-11-27 1999-08-03 Cae Electronics, Ltd. Method and apparatus for reducing instability in the display of a virtual environment
US5641288A (en) 1996-01-11 1997-06-24 Zaenglein, Jr.; William G. Shooting simulating process and training device using a virtual reality display screen
JP2000510013A (ja) 1996-05-08 2000-08-08 リアル ヴィジョン コーポレイション 位置検出を用いたリアルタイムシミュレーション
US6173066B1 (en) 1996-05-21 2001-01-09 Cybernet Systems Corporation Pose determination and tracking by matching 3D objects to a 2D sensor
US5989157A (en) 1996-08-06 1999-11-23 Walton; Charles A. Exercising system with electronic inertial game playing
EP0959444A4 (en) 1996-08-14 2005-12-07 Nurakhmed Nurislamovic Latypov METHOD FOR TRACKING AND REPRESENTING THE POSITION AND ORIENTATION OF A SUBJECT IN THE SPACE, METHOD FOR PRESENTING A VIRTUAL SPACE THEREON, AND SYSTEMS FOR CARRYING OUT SAID METHODS
JP3064928B2 (ja) 1996-09-20 2000-07-12 日本電気株式会社 被写体抽出方式
EP0849697B1 (en) 1996-12-20 2003-02-12 Hitachi Europe Limited A hand gesture recognition system and method
US6009210A (en) 1997-03-05 1999-12-28 Digital Equipment Corporation Hands-free interface to a virtual reality environment using head tracking
US6100896A (en) 1997-03-24 2000-08-08 Mitsubishi Electric Information Technology Center America, Inc. System for designing graphical multi-participant environments
US5877803A (en) 1997-04-07 1999-03-02 Tritech Mircoelectronics International, Ltd. 3-D image detector
US6215898B1 (en) 1997-04-15 2001-04-10 Interval Research Corporation Data processing system and method
JP3077745B2 (ja) 1997-07-31 2000-08-14 日本電気株式会社 データ処理方法および装置、情報記憶媒体
US6188777B1 (en) 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6720949B1 (en) 1997-08-22 2004-04-13 Timothy R. Pryor Man machine interfaces and applications
US6289112B1 (en) 1997-08-22 2001-09-11 International Business Machines Corporation System and method for determining block direction in fingerprint images
AUPO894497A0 (en) 1997-09-02 1997-09-25 Xenotech Research Pty Ltd Image processing method and apparatus
EP0905644A3 (en) 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
US6141463A (en) 1997-10-10 2000-10-31 Electric Planet Interactive Method and system for estimating jointed-figure configurations
US6101289A (en) 1997-10-15 2000-08-08 Electric Planet, Inc. Method and apparatus for unencumbered capture of an object
US6130677A (en) 1997-10-15 2000-10-10 Electric Planet, Inc. Interactive computer vision system
US6072494A (en) 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
AU1099899A (en) 1997-10-15 1999-05-03 Electric Planet, Inc. Method and apparatus for performing a clean background subtraction
WO1999019840A1 (en) 1997-10-15 1999-04-22 Electric Planet, Inc. A system and method for generating an animatable character
US6181343B1 (en) 1997-12-23 2001-01-30 Philips Electronics North America Corp. System and method for permitting three-dimensional navigation through a virtual reality environment using camera-based gesture inputs
US6195104B1 (en) * 1997-12-23 2001-02-27 Philips Electronics North America Corp. System and method for permitting three-dimensional navigation through a virtual reality environment using camera-based gesture inputs
US20070177804A1 (en) * 2006-01-30 2007-08-02 Apple Computer, Inc. Multi-touch gesture dictionary
EP1059970A2 (en) 1998-03-03 2000-12-20 Arena, Inc, System and method for tracking and assessing movement skills in multidimensional space
US6159100A (en) 1998-04-23 2000-12-12 Smith; Michael D. Virtual reality game
US6077201A (en) 1998-06-12 2000-06-20 Cheng; Chau-Yang Exercise bicycle
US20010008561A1 (en) 1999-08-10 2001-07-19 Paul George V. Real-time object tracking system
US7036094B1 (en) 1998-08-10 2006-04-25 Cybernet Systems Corporation Behavior recognition system
US7121946B2 (en) 1998-08-10 2006-10-17 Cybernet Systems Corporation Real-time head tracking system for computer games and other applications
US6950534B2 (en) 1998-08-10 2005-09-27 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US6681031B2 (en) 1998-08-10 2004-01-20 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US6801637B2 (en) 1999-08-10 2004-10-05 Cybernet Systems Corporation Optical body tracker
IL126284A (en) 1998-09-17 2002-12-01 Netmor Ltd System and method for three dimensional positioning and tracking
EP0991011B1 (en) 1998-09-28 2007-07-25 Matsushita Electric Industrial Co., Ltd. Method and device for segmenting hand gestures
AU1930700A (en) 1998-12-04 2000-06-26 Interval Research Corporation Background estimation and segmentation based on range and color
US6147678A (en) 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
WO2000036372A1 (en) 1998-12-16 2000-06-22 3Dv Systems, Ltd. Self gating photosurface
US6570555B1 (en) 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
US6363160B1 (en) 1999-01-22 2002-03-26 Intel Corporation Interface using pattern recognition and tracking
US7003134B1 (en) 1999-03-08 2006-02-21 Vulcan Patents Llc Three dimensional object pose estimation which employs dense depth information
US6643620B1 (en) * 1999-03-15 2003-11-04 Matsushita Electric Industrial Co., Ltd. Voice activated controller for recording and retrieving audio/video programs
US6299308B1 (en) 1999-04-02 2001-10-09 Cybernet Systems Corporation Low-cost non-imaging eye tracker system for computer control
US6503195B1 (en) 1999-05-24 2003-01-07 University Of North Carolina At Chapel Hill Methods and systems for real-time structured light depth extraction and endoscope using real-time structured light depth extraction
US6476834B1 (en) 1999-05-28 2002-11-05 International Business Machines Corporation Dynamic creation of selectable items on surfaces
US6873723B1 (en) 1999-06-30 2005-03-29 Intel Corporation Segmenting three-dimensional video images using stereo
US6738066B1 (en) 1999-07-30 2004-05-18 Electric Plant, Inc. System, method and article of manufacture for detecting collisions between video images generated by a camera and an object depicted on a display
US7113918B1 (en) 1999-08-01 2006-09-26 Electric Planet, Inc. Method for video enabled electronic commerce
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US7050606B2 (en) 1999-08-10 2006-05-23 Cybernet Systems Corporation Tracking and gesture recognition system particularly suited to vehicular control applications
US6512838B1 (en) 1999-09-22 2003-01-28 Canesta, Inc. Methods for enhancing performance and data acquired from three-dimensional image systems
US6622119B1 (en) * 1999-10-30 2003-09-16 International Business Machines Corporation Adaptive command predictor and method for a natural language dialog system
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US6674877B1 (en) 2000-02-03 2004-01-06 Microsoft Corporation System and method for visually tracking occluded objects in real time
US6663491B2 (en) 2000-02-18 2003-12-16 Namco Ltd. Game apparatus, storage medium and computer program that adjust tempo of sound
US6633294B1 (en) 2000-03-09 2003-10-14 Seth Rosenthal Method and apparatus for using captured high density motion for animation
EP1152261A1 (en) 2000-04-28 2001-11-07 CSEM Centre Suisse d'Electronique et de Microtechnique SA Device and method for spatially resolved photodetection and demodulation of modulated electromagnetic waves
US6640202B1 (en) 2000-05-25 2003-10-28 International Business Machines Corporation Elastic sensor mesh system for 3-dimensional measurement, mapping and kinematics applications
US6554706B2 (en) * 2000-05-31 2003-04-29 Gerard Jounghyun Kim Methods and apparatus of displaying and evaluating motion data in a motion game apparatus
US6731799B1 (en) 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6788809B1 (en) 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US20030023435A1 (en) * 2000-07-13 2003-01-30 Josephson Daryl Craig Interfacing apparatus and methods
US7227526B2 (en) 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
US7058204B2 (en) 2000-10-03 2006-06-06 Gesturetek, Inc. Multiple camera control system
US7039676B1 (en) 2000-10-31 2006-05-02 International Business Machines Corporation Using video image analysis to automatically transmit gestures over a network in a chat or instant messaging session
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US6539931B2 (en) 2001-04-16 2003-04-01 Koninklijke Philips Electronics N.V. Ball throwing assistant
US8035612B2 (en) 2002-05-28 2011-10-11 Intellectual Ventures Holding 67 Llc Self-contained interactive video display system
US7259747B2 (en) 2001-06-05 2007-08-21 Reactrix Systems, Inc. Interactive video display system
JP3420221B2 (ja) 2001-06-29 2003-06-23 株式会社コナミコンピュータエンタテインメント東京 ゲーム装置及びプログラム
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US20030055644A1 (en) 2001-08-17 2003-03-20 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
US6937742B2 (en) 2001-09-28 2005-08-30 Bellsouth Intellectual Property Corporation Gesture activated home appliance
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
EP1497160B2 (de) 2002-04-19 2010-07-21 IEE INTERNATIONAL ELECTRONICS &amp; ENGINEERING S.A. Sicherheitsvorrichtung für ein fahrzeug
US7170492B2 (en) 2002-05-28 2007-01-30 Reactrix Systems, Inc. Interactive video display system
US7348963B2 (en) 2002-05-28 2008-03-25 Reactrix Systems, Inc. Interactive video display system
US7710391B2 (en) 2002-05-28 2010-05-04 Matthew Bell Processing an image utilizing a spatially varying pattern
US7489812B2 (en) 2002-06-07 2009-02-10 Dynamic Digital Depth Research Pty Ltd. Conversion and encoding techniques
US7627139B2 (en) 2002-07-27 2009-12-01 Sony Computer Entertainment Inc. Computer image and audio processing of intensity and input devices for interfacing with a computer program
US7576727B2 (en) 2002-12-13 2009-08-18 Matthew Bell Interactive directed light/sound system
US20040119754A1 (en) 2002-12-19 2004-06-24 Srinivas Bangalore Context-sensitive interface widgets for multi-modal dialog systems
JP4235729B2 (ja) 2003-02-03 2009-03-11 国立大学法人静岡大学 距離画像センサ
US8745541B2 (en) * 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
DE602004006190T8 (de) 2003-03-31 2008-04-10 Honda Motor Co., Ltd. Vorrichtung, Verfahren und Programm zur Gestenerkennung
US7372977B2 (en) 2003-05-29 2008-05-13 Honda Motor Co., Ltd. Visual tracking using depth data
US8072470B2 (en) 2003-05-29 2011-12-06 Sony Computer Entertainment Inc. System and method for providing a real-time three-dimensional interactive environment
US7620202B2 (en) 2003-06-12 2009-11-17 Honda Motor Co., Ltd. Target orientation estimation using depth sensing
US7536032B2 (en) 2003-10-24 2009-05-19 Reactrix Systems, Inc. Method and system for processing captured image information in an interactive video display system
US20050114140A1 (en) * 2003-11-26 2005-05-26 Brackett Charles C. Method and apparatus for contextual voice cues
JP4311190B2 (ja) * 2003-12-17 2009-08-12 株式会社デンソー 車載機器用インターフェース
CN100573548C (zh) 2004-04-15 2009-12-23 格斯图尔泰克股份有限公司 跟踪双手运动的方法和设备
US7308112B2 (en) 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
JP4172793B2 (ja) * 2004-06-08 2008-10-29 株式会社東芝 ジェスチャ検出方法、ジェスチャ検出プログラムおよびジェスチャ検出装置
US8684839B2 (en) * 2004-06-18 2014-04-01 Igt Control of wager-based game using gesture recognition
US7704135B2 (en) 2004-08-23 2010-04-27 Harrison Jr Shelton E Integrated game system, method, and device
KR100754385B1 (ko) 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
KR20060070280A (ko) 2004-12-20 2006-06-23 한국전자통신연구원 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법
JP2008537190A (ja) 2005-01-07 2008-09-11 ジェスチャー テック,インコーポレイテッド 赤外線パターンを照射することによる対象物の三次元像の生成
EP1849123A2 (en) 2005-01-07 2007-10-31 GestureTek, Inc. Optical flow based tilt sensor
EP3693889A3 (en) 2005-01-07 2020-10-28 QUALCOMM Incorporated Detecting and tracking objects in images
JP5631535B2 (ja) 2005-02-08 2014-11-26 オブロング・インダストリーズ・インコーポレーテッド ジェスチャベースの制御システムのためのシステムおよび方法
US7492367B2 (en) 2005-03-10 2009-02-17 Motus Corporation Apparatus, system and method for interpreting and reproducing physical motion
US7317836B2 (en) 2005-03-17 2008-01-08 Honda Motor Co., Ltd. Pose estimation based on critical point analysis
KR101430761B1 (ko) 2005-05-17 2014-08-19 퀄컴 인코포레이티드 방위-감응 신호 출력
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
EP1752748B1 (en) 2005-08-12 2008-10-29 MESA Imaging AG Highly sensitive, fast pixel for use in an image sensor
US20080026838A1 (en) 2005-08-22 2008-01-31 Dunstan James E Multi-player non-role-playing virtual world games: method for two-way interaction between participants and multi-player virtual world games
US7450736B2 (en) 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
US8311836B2 (en) * 2006-03-13 2012-11-13 Nuance Communications, Inc. Dynamic help including available speech commands from content contained within speech grammars
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US7701439B2 (en) 2006-07-13 2010-04-20 Northrop Grumman Corporation Gesture recognition simulation system and method
JP5395323B2 (ja) 2006-09-29 2014-01-22 ブレインビジョン株式会社 固体撮像素子
US8351646B2 (en) 2006-12-21 2013-01-08 Honda Motor Co., Ltd. Human pose estimation and tracking using label assignment
US7412077B2 (en) 2006-12-29 2008-08-12 Motorola, Inc. Apparatus and methods for head pose estimation and head gesture detection
US7971156B2 (en) * 2007-01-12 2011-06-28 International Business Machines Corporation Controlling resource access based on user gesturing in a 3D captured image stream of the user
US7729530B2 (en) 2007-03-03 2010-06-01 Sergey Antonov Method and apparatus for 3-D data input to a personal computer with a multimedia oriented operating system
US20080252596A1 (en) 2007-04-10 2008-10-16 Matthew Bell Display Using a Three-Dimensional vision System
BRPI0721562A2 (pt) * 2007-04-20 2013-01-22 Softkinetic S A mÉtodo e sistema de reconhecimento de volume
EP2171262A4 (en) * 2007-07-11 2013-05-15 Ryan Steelberg DEEP WATER POWER GENERATION SYSTEM AND DEVICE
US7852262B2 (en) 2007-08-16 2010-12-14 Cybernet Systems Corporation Wireless mobile indoor/outdoor tracking system
JP5430572B2 (ja) 2007-09-14 2014-03-05 インテレクチュアル ベンチャーズ ホールディング 67 エルエルシー ジェスチャベースのユーザインタラクションの処理
JP4929109B2 (ja) * 2007-09-25 2012-05-09 株式会社東芝 ジェスチャ認識装置及びその方法
US8321219B2 (en) * 2007-10-05 2012-11-27 Sensory, Inc. Systems and methods of performing speech recognition using gestures
US20090100383A1 (en) * 2007-10-16 2009-04-16 Microsoft Corporation Predictive gesturing in graphical user interface
US9292092B2 (en) 2007-10-30 2016-03-22 Hewlett-Packard Development Company, L.P. Interactive display system with collaborative gesture detection
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US20090221368A1 (en) 2007-11-28 2009-09-03 Ailive Inc., Method and system for creating a shared game space for a networked game
GB2455316B (en) 2007-12-04 2012-08-15 Sony Corp Image processing apparatus and method
KR100955316B1 (ko) * 2007-12-15 2010-04-29 한국전자통신연구원 원격 제어 기능을 가지는 멀티모달 융합장치 및 방법
KR101335346B1 (ko) 2008-02-27 2013-12-05 소니 컴퓨터 엔터테인먼트 유럽 리미티드 장면의 심도 데이터를 포착하고, 컴퓨터 액션을 적용하기 위한 방법들
US8555207B2 (en) * 2008-02-27 2013-10-08 Qualcomm Incorporated Enhanced input using recognized gestures
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
CN101254344B (zh) 2008-04-18 2010-06-16 李刚 场地方位与显示屏点阵按比例相对应的游戏装置和方法
US20110115702A1 (en) 2008-07-08 2011-05-19 David Seaberg Process for Providing and Editing Instructions, Data, Data Structures, and Algorithms in a Computer System
US8146020B2 (en) * 2008-07-24 2012-03-27 Qualcomm Incorporated Enhanced detection of circular engagement gesture
WO2010011929A1 (en) * 2008-07-25 2010-01-28 Gesturetek, Inc. Enhanced detection of waving engagement gesture
US9399167B2 (en) 2008-10-14 2016-07-26 Microsoft Technology Licensing, Llc Virtual space mapping of a variable activity region
TW201032087A (en) * 2009-02-19 2010-09-01 Asustek Comp Inc Command control system and method thereof
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
CN102460349A (zh) * 2009-05-08 2012-05-16 寇平公司 使用运动和语音命令对主机应用进行远程控制
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8565479B2 (en) * 2009-08-13 2013-10-22 Primesense Ltd. Extraction of skeletons from 3D maps
US8717291B2 (en) * 2009-10-07 2014-05-06 AFA Micro Co. Motion sensitive gesture device
US9477324B2 (en) * 2010-03-29 2016-10-25 Hewlett-Packard Development Company, L.P. Gesture processing
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands

Also Published As

Publication number Publication date
US8296151B2 (en) 2012-10-23
US20110313768A1 (en) 2011-12-22
US10534438B2 (en) 2020-01-14
US20130027296A1 (en) 2013-01-31
CN102306051A (zh) 2012-01-04
US20170228036A1 (en) 2017-08-10

Similar Documents

Publication Publication Date Title
CN102306051B (zh) 复合姿势-语音命令
CN102135798B (zh) 仿生学运动
CN102520574B (zh) 飞行时间深度成像
CN102129292B (zh) 在运动捕捉系统中识别用户意图
CN102129293B (zh) 在运动捕捉系统中跟踪用户组
CN102129343B (zh) 运动捕捉系统中的受指导的表演
CN102262440B (zh) 多模态性别识别
TWI531396B (zh) 用於推動互動故事的自然使用者輸入
CN102576466B (zh) 用于跟踪模型的系统和方法
CN102163324B (zh) 深度图像的去混叠
CN102413414B (zh) 用于扩展现实的高精度3维音频的系统和方法
CN102184009B (zh) 跟踪系统中的手位置后处理精炼
CN102253712B (zh) 用于共享信息的识别系统
CN102591418B (zh) 具有qos保证的可缩放多媒体计算机系统体系结构
CN102448561B (zh) 姿势教练
US9123316B2 (en) Interactive content creation
US20160012640A1 (en) User-generated dynamic virtual worlds
CN102129709A (zh) 可视化深度
CN102135799A (zh) 与基于计算机的应用的交互
CN102301398A (zh) 身体扫描
KR20120020137A (ko) 애니메이션 또는 모션들을 캐릭터에 적용하는 시스템 및 방법
TW201246088A (en) Theme-based augmentation of photorepresentative view
CN105144240A (zh) 使用深度图像的用户质心和质量分布提取
CN107077730A (zh) 基于剪影的肢寻找器确定
US20150086183A1 (en) Lineage of user generated content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150730

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150730

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant