CN102314595A

CN102314595A - 用于改善话音识别的rgb/深度相机

Info

Publication number: CN102314595A
Application number: CN2011101727274A
Authority: CN
Inventors: J·A·塔迪夫
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-06-17
Filing date: 2011-06-16
Publication date: 2012-01-11
Also published as: US20110311144A1

Abstract

涉及用于改善话音识别的RGB/深度相机。本发明涉及用于通过处理视觉话音线索来促进话音识别的系统和方法。这些话音线索可以包括嘴唇、舌头和/或牙齿在话音期间的位置。在一个实施例中，在由图像捕获设备捕获数据帧以后，该系统标识出讲话者和该讲话者的位置。然后，该系统聚焦于讲话者以获得该讲话者的嘴的清晰图像。该系统包括视觉话音线索引擎，该视觉话音线索引擎用于基于该讲话者的嘴唇、舌头和/或牙齿的所捕获位置来识别和区分声音。视觉话音线索数据可以与音频数据同步以保证视觉话音线索引擎处理与正确的音频数据相对应的图像数据。

Description

用于改善话音识别的RGB/深度相机

技术领域

本发明涉及用于通过处理视觉话音线索来促进话音识别的系统和方法。

背景技术

在过去，诸如计算机游戏和多媒体应用等计算应用使用控制器、遥控器、键盘、鼠标等来允许用户操纵游戏人物或应用的其他方面。近来，计算机游戏和多媒体应用已开始使用相机和软件姿势识别引擎来提供自然用户界面(“NUI”)。使用NUI，检测、解释用户姿势并将其用于控制游戏人物或应用的其他方面。

除了姿势以外，NUI系统的另一方面是接收和解释音频问题和命令的能力。单单依靠音频的语音识别系统是已知的，并且对大多数音频的工作干得尚可接收。然而，诸如例如“p”和“t”、“s”和“sh”和“f”等声音之类的某些音素发音类似并且是难以区分的。在存在有限带宽或显著背景噪声的情况下，这种实施变得甚至更加困难。附加的方法可以分层地处于用于音素识别的音频技术的顶部，如例如单词识别、语法和句法分析、以及上下文推理。然而，这些方法增加话音识别的复杂性和延迟。

发明内容

在此公开了用于通过处理视觉话音线索来促进话音识别的系统和方法。这些话音线索可以包括嘴唇、舌头和/或牙齿在话音期间的位置。在一个实施例中，在由图像捕获设备捕获数据帧以后，该系统标识出讲话者和该讲话者的位置。然后，该系统聚焦于讲话者以获得该讲话者的嘴的清晰图像。该系统包括视觉话音线索引擎，该视觉话音线索引擎用于基于所捕获的该讲话者的嘴唇、舌头和/或牙齿的位置来识别和区分声音。视觉话音线索数据可以与音频数据同步以保证视觉话音线索引擎处理与正确的音频数据相对应的图像数据。

本技术可以简化话音识别过程。本系统可以与现有深度和RGB相机一起运行，并且不增加现有技术的开销。另一方面，本系统可以允许话音识别，而不必使用单词识别、语法和句法分析、上下文推理和/或各种其他增加话音识别的复杂度和延迟的过程。因此，本技术可以简化和改善话音识别的处理时间。

在一个实施例中，本技术涉及一种用于从图像数据中识别音素的方法。该方法包括步骤：a)从场景中接收包括图像数据和音频数据的信息；b)标识出该场景中的讲话者；c)对讲话者在该场景内的位置进行定位；d)获得关于讲话者的在场景内相对于该场景的其他区域而言更多的图像细节；e)捕获与讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据；以及f)将在所述步骤e)中捕获的图像数据与所存储的规则相比较以标识出音素。

在另一实施例中，本技术涉及一种用于从图像数据中识别音素的方法，包括步骤：a)从场景中接收包括图像数据和音频数据的信息；b)标识出该场景中的讲话者；c)对讲话者在该场景内的位置进行定位；d)测量多个参数以确定是否满足用于获得与讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据的清晰度阈值；e)如果在所述步骤d)中确定清晰度阈值被满足，则捕获与讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据；以及f)如果在所述步骤d)中确定清晰度阈值被满足，则标识出由在所述步骤e)中捕获的图像数据所指示的音素。

在本发明的另一实施例中，本技术涉及一种计算机可读存储介质，其用于将处理器编程为执行一种用于从图像数据中识别音素的方法。该方法包括步骤：a)从捕获设备捕获图像数据和音频数据；b)设置帧速，在该帧速下，捕获设备捕获足以以最小的运动伪像捕获嘴唇、舌头和/或牙齿在形成音素时的位置；c)将图像数据的分辨率设置成不导致在所述步骤b)中设置的帧速的延迟的分辨率；d)针对在所述步骤c)中设置的分辨率提示用户移动到足够接近捕获设备的位置以获得用户的嘴唇、舌头和/或牙齿的具有用于辨别不同音素的足够的清晰度的图像；e)从用户捕获与讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据；以及f)基于在所述步骤e)中捕获的图像数据标识出音素。

提供本发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中提及的任何或所有缺点的实现。

附图说明

图1A示出了目标识别、分析和跟踪系统的示例性实施例。

图1B示出了目标识别、分析和跟踪系统的另一示例性实施例。

图2示出了可以在目标识别、分析和跟踪系统中使用的捕获设备的示例性实施例。

图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例性实施例。

图3B示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的另一示例性实施例。

图4示出了从图1A-2的目标识别、分析和跟踪系统中生成的用户的骨架映射。

图5是根据本技术的视觉线索话音识别系统的第一实施例的流程图。

图6是根据本技术的视觉线索话音识别系统的第二实施例的流程图。

图7是根据本技术的视觉线索话音识别系统的第三实施例的流程图。

图8是场景的由捕获设备捕获的图像。

图9是示出了对场景内用户的头聚焦的图像。

图10是示出了对场景内用户的嘴更大聚焦的图像。

图11是示出了用于识别音素的视觉话音线索引擎的框图。

图12是图11的视觉话音线索引擎的操作的流程图。

具体实施方式

现在将参考附图1A-12来描述本技术的各实施例，这些实施例总体上涉及用于通过处理视觉话音线索来促进话音识别的系统和方法。这些话音线索可以包括嘴唇、舌头和/或牙齿在话音期间的位置。尽管某些音素难以从音频角度来识别，但是嘴唇、舌头和/或牙齿可以为每个音素形成不同的、唯一的位置。这些位置可以在图像数据中被捕获，并且对照编目规则被分析以从嘴唇、舌头和/或牙齿的位置中标识出特定的音素。

在一个实施例中，在由图像捕获设备捕获数据帧以后，该系统标识出讲话者和该讲话者的位置。讲话者位置可以从图像中和/或从音频位置数据(其比如在典型的麦克风阵列中被生成)中确定。然后，该系统聚焦于讲话者以获得该讲话者的嘴的清晰图像。该系统包括视觉话音线索引擎，该视觉话音线索引擎用于基于该讲话者的嘴唇、舌头和/或牙齿的所捕获位置来识别和区分声音。视觉话音线索数据可以与音频数据同步以保证视觉话音线索引擎处理与正确的音频数据相对应的图像数据。

下面在NUI系统的上下文中描述本技术。然而，能够理解，本技术不限于NUI系统，并且可以用在使用图像传感器和音频传感器二者来检测和识别话音的任何话音识别场景中。作为另一示例，可以将相机附加于麦克风以帮助根据下面所述的本系统来标识出说出和唱出的音素。

首先参考图1A-2，当利用NUI系统被实现时，本技术可以包括目标识别、分析和跟踪系统10，该系统可用于识别、分析和/或跟踪诸如用户18等的人类目标。目标识别、分析和跟踪系统10的实施例包括用于执行游戏或其他应用的计算环境12。计算环境12可以包括硬件组件和/或软件组件，使得计算系统12可以用于执行诸如游戏应用和非游戏应用之类的应用。在一个实施例中，计算环境12可以包括诸如标准化处理器、专用处理器、微处理器等之类的处理器，该处理器可以执行存储在处理器可读存储设备上的用于执行在此所述的过程的指令。

系统10还包括捕获设备20，该捕获设备20用于捕获与一个或多个多个用户和/或由捕获设备所感测的对象相关的图像和音频数据。在各实施例中，捕获设备20可以用于捕获与一个或多个用户的运动、姿势和话音相关的信息，所述信息被计算环境接收并且被用于呈现游戏或其他应用的方面、与所述方面交互和/或控制所述方面。下面更详细地解释计算环境12和捕获设备20的示例。

目标识别、分析和跟踪系统10的实施例可以连接到具有显示14的音频/视觉设备16。设备16例如可以是可以向用户提供游戏或应用视觉和/或音频的电视机、监视器、高清电视机(HDTV)等等。例如，计算环境12可以包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，这些适配器可提供与游戏应用、或其他应用相关联的音频/视觉信号。音频/视觉设备16可以从计算环境12接收音频/视觉信号，并且然后可以向用户18输出与该音频/视觉信号相关联的游戏或应用视觉和/或音频。根据一个实施例，音频/视觉设备16可以通过例如S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等等连接到计算环境12。

在各实施例中，计算环境12、A/V设备16和捕获设备20可以协作以在显示14上呈现化身或屏幕上人物19。在各实施例中，化身19模仿用户18在现实世界空间中的运动，使得用户18可以执行控制化身19在显示14上的运动和动作的运动和姿势。

在图1A中，捕获设备20用在NUI系统中，其中例如一对用户18正在玩足球游戏。在该示例中，计算环境12可以使用视听显示14来提供以由相应用户18控制的足球运动员形式的两个化身19的视觉表示。用户18可以在物理空间中移动或执行踢运动以致使其相关联的运动员化身19在游戏空间中移动或踢足球。用户也可以通过语音命令和响应与系统10交互。因此，根据一示例性实施例，计算机环境12和捕获设备20可以用于识别和分析用户18在物理空间中的运动、语音和姿势，并且这样的运动、语音和姿势使可以被解释成用户在游戏空间中相关联的玩家化身19的游戏控制或动作。

图1A的实施例是可以在计算环境12上运行的许多不同应用之一，并且在计算环境12上运行的应用可以是多种其他游戏和非游戏应用。此外，系统10还可以用于将用户18运动和语音命令解释成处于游戏或运行在计算环境12上的特定应用的领域之外的操作系统(OS)和/或应用控制。图1B中示出了一个示例，其中用户18在具有多种呈现在显示14上的菜单选项的用户界面21的范围内滚动并且控制该用户界面21。用户可以利用身体姿势和/或语音命令在菜单项的范围内滚动。事实上，操作系统和/或应用的任何可控方面都可以由用户18的运动和/或语音来控制。

系统10及其内部组件的适合的示例位于如下共同待审的专利申请中，所有这些专利申请都特此通过引用并入本申请：于2009年5月29日提交的名称为“Environment And/Or Target Segmentation(环境和/或目标分割)”的美国专利申请序列号No.12/475,094；于2009年7月29日提交的名称为“AutoGenerating a Visual Representation”(自动生成视觉表示)”的美国专利申请序列号No.12/511,850；于2009年5月29日提交的名称为“Gesture Tool(姿势工具)”的美国专利申请序列号No.12/474,655；于2009年10月21日提交的名称为“Pose Tracking Pipeline(姿势跟踪流水线)”的美国专利申请序列号No.12/603,437；于2009年5月29日提交的名称为“Device for Identifying andTracking Multiple Humans Over Time(用于随时间标识和跟踪多个人类的设备)”的美国专利申请序列号No.12/475,308；于2009年10月7日提交的名称为“Human Tracking System(人类跟踪系统)”的美国专利申请序列号No.12/575,388；于2009年4月13日提交的名称为“Gesture Recognizer SystemArchitecture(姿势识别器系统架构)”的美国专利申请序列号No.12/422,661；于2009年2月23日提交的名称为“Standard Gestures(标准姿势)”的美国专利申请序列号No.12/391,150；以及于2009年5月29日提交的名称为“GestureTool(姿势工具)”的美国专利申请序列号No.12/474,655。

图2示出了可以用在目标识别、分析和跟踪系统10中的捕获设备20的示例性实施例。在一个示例性实施例中，捕获设备20可以被配置为通过任何合适的技术捕获具有可以包括深度值的深度图像的视频，这些技术包括例如飞行时间、结构化光、立体图像等等。根据一个实施例，捕获设备20可以将所计算的深度信息组织成“Z层”或者可以与从深度相机中沿其视线延伸的Z轴垂直的层。

如图2所示，捕获设备20可以包括图像相机组件22。根据一示例实施例，图像相机组件22可以是可以捕获场景的深度图像的深度相机。深度图像可以包括所捕获的场景的二维(2-D)像素区域，其中2-D像素区域中的每个像素都可以表示深度值，比如所捕获的场景中的对象与相机相距的例如以厘米、毫米等为单位的长度或距离。

如图2所示，根据一个示例性实施例，图像相机22可以包括可以用于捕获场景的深度图像的IR光组件24、三维(3-D)相机26，以及RGB相机28。例如，在飞行时间分析中，捕获设备20的IR光组件24可以将红外光发射到场景上，并且然后可以使用传感器(未示出)来在使用例如3-D相机26和/或RGB相机28的情况下检测从场景中的一个或多个目标和对象的表面后向散射的光。

在一些实施例中，可以使用脉冲式红外光，使得可以测量出射光脉冲与相应的入射光脉冲之间的时间并将其用于确定从捕获设备20到场景中的目标或对象上的特定位置的物理距离。另外，在其他示例实施例中，可以将出射光波的相位与入射光波的相位进行比较以确定相移。然后可以使用该相移来确定从捕获设备20到目标或对象上特定位置的物理距离。

根据另一示例实施例，可以使用飞行时间分析通过经由包括例如快门式光脉冲成像的各种技术分析反射光束随时间的强度来间接地确定从捕获设备20到目标或对象上的特定位置的物理距离。

在另一示例性实施例中，捕获设备20可以使用结构化光来捕获深度信息。在这样的分析中，图案化光(即被显示成诸如网格图案或条纹图案的已知图案的光)可以通过例如IR光组件24被投射到场景上。在撞击到场景中的一个或多个目标或对象的表面时，作为响应，图案可以变形。图案的这样的变形可以被例如3-D相机26和/或RGB相机28捕获，然后可以被分析以确定从捕获设备20到目标或对象上特定位置的物理距离。

根据另一实施例，捕获设备20可以包括可以从不同的角度查看场景的两个或更多在物理上分离的相机，以获取可以被解析以生成深度信息的视觉立体数据。在另一示例实施例中，捕获设备20可以使用点云数据(point cloud data)和目标数字化技术来检测用户18的特征。

捕获设备20还可以包括麦克风阵列32。麦克风阵列32从用户18接收语音命令，以控制其化身19，影响其他游戏或系统度量，或者控制可以由计算环境12执行的其他应用。在所示实施例中，存在两个麦克风30，但是能够理解在其他实施例中，麦克风阵列可以具有一个或两个以上的麦克风。阵列中的麦克风30可以如图中所示那样被定位为彼此靠近(比如相隔一英尺)。例如在与捕获设备20临近的墙角处，麦克风可以被间隔得彼此更接近或者更分开更远。

阵列中的麦克风可以彼此同步。如下面所解释的那样，麦克风阵列可以提供由图像相机组件22共用的时钟的时间戳，使得麦克风和深度相机26和RGB相机28每个都可以彼此同步。麦克风阵列32还可以包括可以接收声音并将其转换成电信号的换能器或传感器。用于区分麦克风所拾取的声音以确定这些声音中是否有一种或多种声音是人类语音的技术是已知的。麦克风30可以包括各种已知的滤波器，比如用于衰减可以由麦克风30检测出的低频噪声的高通滤波器。

在一示例性实施例中，捕获设备20还可以包括可以与图像相机组件22和麦克风阵列32可操作性地通信的处理器33。处理器33可包括可以执行指令的标准化处理器、专用处理器、微处理器等，这些指令可以包括用于接收深度图像的指令、用于确定合适的目标是否可以被包括在深度图像中的指令、用于将合适的目标转换成该目标的骨架表示或模型的指令、或任何其他合适的指令。处理器33还可以包括用于将来自图像相机组件22的图像数据与来自麦克风阵列的音频数据进行同步的系统时钟。可替代或附加地，系统环境可以包括用于该目的的系统时钟。

捕获设备20还可以包括存储器组件34，该存储器组件34可以存储可以由处理器33执行的指令、由3-D相机或RGB相机捕获的图像或图像帧、或者任何其他合适的信息、图像等等。根据一示例性实施例，存储器组件34可以包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘或任何其他合适的存储组件。如图2所示，在一个实施例中，存储器组件34可以是与图像相机组件22和处理器33通信的单独的组件。根据另一实施例，存储器组件34可以集成到处理器33和/或图像相机组件22中。

如图2所示，捕获设备20可以通过通信链路36与计算环境12通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等之类的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等之类的无线连接。根据一个实施例，计算环境12可以向捕获设备20提供时钟，该时钟可以用于通过通信链路36来确定例如何时捕获场景。

附加地，捕获设备20可以通过通信链路36向计算环境12提供深度信息和由例如3-D相机26和/或RGB相机28捕获的图像、以及可以由捕获设备20生成的骨架模型。存在用于判断由捕获设备20检测到的目标或对象是否与人类目标相对应的各种已知技术。然后，骨架映射技术可用于确定该用户的骨架上的各个点，包括该用户的头和嘴、手、腕、肘、膝的关节、鼻、踝、肩、以及骨盆与脊椎相交之处。其他技术包括将图像转换为人的人体模型表示以及将图像转换为人的网格模型表示。

然后，可以将骨架模型提供给计算环境12，使得计算环境可以执行各种动作。计算环境还可以例如基于已经从骨架模型和/或来自麦克风阵列32的音频命令中识别的用户姿势来确定在运行在计算机环境上的应用中执行哪些控件。计算环境12例如可以包括例如在通过引用并入本申请的上述专利中的一个或多个中所解释的姿势识别引擎。

此外，根据本技术，计算环境12可以包括用于基于讲话者的嘴的运动来识别音素的视觉话音线索(VSC)引擎190。计算环境12还可以包括用于如下面所解释的那样聚焦于讲话者的头和嘴的聚焦引擎192、以及用于从音频信号中识别话音的话音识别引擎196。VSC引擎190、聚焦引擎192和话音识别引擎196中的每个都在下面予以更详细的解释。在另外的实施例中，VSC引擎190、聚焦引擎192和/或话音识别引擎196的部分或全部可以驻留在捕获设备20上并且由处理器33来执行。

图3A示出了可以用于在目标识别、分析和跟踪系统中解释用户的一个或多个位置和运动的计算环境的示例性实施例。上面参考图1A-2所描述的诸如计算环境12之类的计算环境12可以是诸如游戏控制台之类的多媒体控制台100。如图3A所示，多媒体控制台100具有中央处理单元(CPU)101，其具有1级缓存102、2级缓存104，以及闪存ROM 106。一级高速缓存102和二级高速缓存104临时存储数据并因此减少存储器访问周期数，由此提高处理速度和吞吐量。CPU 101可以被配备为具有一个以上的核、以及由此具有附加的一级和二级高速缓存102和104。闪存ROM 106可以存储在多媒体控制台100通电时在引导过程的初始阶段期间被加载的可执行代码。图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速和高分辨率图形处理的视频处理流水线。数据通过总线从GPU 108输送到视频编码器/视频编解码器114。视频处理流水线向A/V(音频/视频)端口140输出数据，以便传输到电视机或其他显示器。存储器控制器110连接到GPU 108，以促进处理器对各种类型的存储器112、比如但不限于RAM的访问。

多媒体控制台100包括优选地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB主控制器128以及前面板I/O子部件130。USB控制器126和128用作外围控制器142(1)-142(2)、无线适配器148、和外部存储器设备146(例如闪存、外部CD/DVD ROM驱动器、可移动介质等)的主机。网络接口124和/或无线适配器148提供对网络(例如因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线或无线适配器组件中任何一种。

提供系统存储器143来存储在引导过程期间加载的应用数据。媒体驱动器144被配备并且可以包括DVD/CD驱动器、硬盘驱动器、或其它可移动媒体驱动器等。媒体驱动器144可以是多媒体控制台100内部或外部的。应用数据可以通过媒体驱动器144被访问，以供由多媒体控制台100执行、回放等。媒体驱动器144通过诸如串行ATA总线或其他高速连接(例如IEEE 1394)之类的总线连接到I/O控制器120。

系统管理控制器122提供与确保多媒体控制台100的可用性有关的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的相应音频处理流水线。音频数据通过通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外置音频播放器或具有音频能力的设备再现。

前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其他指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。

CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其他组件通过一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这样的架构可以包括外围部件互连(PCI)总线、PCI-Express总线等。

当多媒体控制台100通电时，应用数据可以从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU 101上执行。应用可以呈现在导航到在多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，媒体驱动器144中包含的应用和/或其他媒体可以从媒体驱动器144启动或播放，以向多媒体控制台100提供附加功能。

多媒体控制台100可以通过将该系统简单地连接到电视机或其他显示器来充当独立系统。在该独立模式中，多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口124或无线适配器148可用的宽带连接的集成，多媒体控制台100还以可充当较大网络社区中的参与者。

当多媒体控制台100通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统进行系统使用。这些资源可以包括存储器的保留(例如16MB)、CPU和GPU周期的保留(例如5％)、网络带宽的保留(例如8kbs)等。因为这些资源是在系统引导时保留的，所以所保留的资源从应用的角度而言是不存在的。

具体而言，存储器保留优选地大得足以包含启动内核、并发系统应用和驱动程序。CPU保留优选地为恒定的，使得如果所保留的CPU使用量不被系统应用使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，通过使用GPU中断来显示由系统应用生成的轻量消息(例如弹出窗口)，以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图优选地与屏幕分辨率成比例地缩放。在完整的用户界面被并发系统应用使用的情况下，优选地使用独立于应用分辨率的分辨率。缩放器可用于设置该分辨率，使得无需改变频率，并且致使消除TV重新同步。

在多媒体控制台100引导且系统资源被保留之后，就执行并发系统应用来提供系统功能。系统功能被封装在上述保留系统资源内执行的一组系统应用中。操作系统内核标识出是与游戏应用线程相对的系统应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 101上运行，以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存中断最小化。

当并发系统应用需要音频时，音频处理由于时间敏感性而被异步调度地给游戏应用。多媒体控制台应用管理器(其在下面予以描述)在系统应用活动时控制游戏应用的音频水平(例如静音、衰减)。

输入设备(例如控制器142(1)和142(2))由游戏应用和系统应用共用。输入设备不是保留的资源，而是将在系统应用与游戏应用之间切换以使其各自具有设备的焦点。应用管理器优选地控制输入流的切换，而无需知道游戏应用的知识，并且驱动程序维护关于焦点切换的状态信息。相机26、28和捕获设备20可以为控制台100定义附加的输入设备。

图3B示出了计算环境220的另一示例性实施例，它可以是用来解释目标识别、分析和跟踪系统中的一个或多个位置和动作的图1A-2中示出的计算环境12。计算系统环境220只是合适的计算环境的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算环境220解释为对示例性操作环境220中示出的任一组件或其组合有任何依赖性或要求。在一些实施例中，各种所描绘的计算元件可包括被配置成实例化本发明的特定方面的电路。例如，本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。在其他示例实施例中，术语“电路”可包括通过体现可操作以执行功能的逻辑的软件指令配置的通用处理单元、存储器等等。在其中电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，且源代码可以被编译为可以由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体而言，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，是硬件实现还是软件实现的选择是设计选择之一并留给实现者。

在图3B中，计算环境220包括通常包括各种计算机可读介质的计算机241。计算机可读介质可以是能由计算机241访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括以诸如ROM 223和RAM 260之类的易失性和/或非易失性存储器的形式存在的计算机存储介质。基本输入/输出系统224(BIOS)包括如在启动时帮助在计算机241内的元件之间传输信息的基本例程，它通常储存在ROM 223中。RAM 260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图3B示出了操作系统225、应用程序226、其他程序模块227，以及程序数据228。图3B还包括具有用于高速和高分辨率的图形处理和存储的相关联的视频存储器230的图形处理器单元(GPU)229。GPU 229可通过图形接口231连接到系统总线221。

计算机241还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。只作为示例，图3B示出了读写不可移动非易失性磁性介质的硬盘驱动器238、读写可移动非易失性磁盘254的磁盘驱动器239、以及读写诸如CDROM或其他光学介质之类的可移动的非易失性光盘253的光盘驱动器240。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由诸如接口234之类的不可移动存储器接口连接至系统总线221，磁盘驱动器239和光盘驱动器240通常由诸如接口235之类的可移动存储器接口连接至系统总线221。

上面所讨论的并且在图3B中所示出的驱动器以及它们的相关联的计算机存储介质，为计算机241提供了计算机可读的指令、数据结构、程序模块及其他数据的存储。例如，在图3B中，硬盘驱动器238被示为存储了操作系统258、应用程序257，其他程序模块256，以及程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同，也可以与它们不同。在此给操作系统258、应用程序257、其他程序模块256、以及程序数据255提供了不同的编号，以说明至少它们是不同的副本。用户可以通过诸如键盘251和指示设备252(通常被称为鼠标、轨迹球或触摸板)之类的输入设备向计算机241中输入命令和信息。其他输入设备(未示出)可以包括麦克风、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口236连接至处理单元259，但也可以由诸如并行端口、游戏端口或通用串行总线(USB)之类的其他接口和总线结构来连接。相机26、28和捕获设备20可以为控制台100定义额外的输入设备。监视器242或其他类型的显示设备也通过诸如视频接口232之类的接口连接至系统总线221。除监视器之外，计算机还可以包括可以通过输出外围接口233连接的诸如扬声器244和打印机243之类的其他外围输出设备。

计算机241可以使用到诸如远程计算机246之类的一个或多个远程计算机的逻辑连接在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，通常包括上文参考计算机241所描述的许多或全部元件，但是图3B中只示出了存储器设备247。图3B中所描绘的逻辑连接包括局域网(LAN)245和广域网(WAN)249，但是也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机241通过网络接口或适配器237连接至LAN 245。当在WAN联网环境中使用时，计算机241通常包括调制解调器250或用于通过诸如因特网等WAN 249建立通信的其他装置。调制解调器250可以是内部或外部的，它可以通过用户输入接口236或其他适当的机制连接至系统总线221。在联网环境中，相对于计算机241所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例而非限制，图3B示出了驻留在存储器设备247上的远程应用程序248。能够理解，所示网络连接是示例性的，且可以使用在计算机之间建立通信链路的其他手段。

图4描绘了可以从捕获设备20生成的用户的示例性骨架映射。在该实施方式中，标识出各个关节和骨骼：每只手302、每个前臂304、每个肘306、每个大臂308、每个肩310、每个髋312、每条大腿314、每个膝316、每条小腿318、每个足320、头322、躯干324、脊椎的顶部326和底部328以及腰330。在跟踪更多点的情况下，可标识出附加的特征，比如手指或脚趾的骨骼和关节，或脸部的各个特征，如鼻和眼。

如在背景技术部分中所指示的那样，有时可能难以从音频数据本身中执行语音识别。本技术包括用于执行音素识别和/或通过语音识别引擎196增加语音识别的VSC引擎190。图5示出了本技术的第一实施例的操作。系统10可以在步骤400被启动，并且捕获设备20可以在步骤402获取下一数据帧。步骤402中的数据可以包括来自深度相机26、RGB相机28的图像数据、以及来自麦克风阵列32的音频数据。图8示出了由捕获设备20在步骤402捕获的包括用户18的场景的图示。在步骤406，计算环境12分析数据以检测用户是否在讲话，并且如果是这样则确定讲话者在3D世界空间中的位置。这可以通过已知的技术来完成，例如包括通过组合语音分析和识别技术、声源定位技术和图像分析来完成。在另外的实施例中，视野中的讲话者可以通过其他方法来定位。

在步骤410，如果讲话者被发现，则深度相机26和RGB相机28之一或二者可以聚焦于讲话者的头。为了捕获讲话者的嘴唇、舌头和/或牙齿的全部运动，捕获设备20可以以诸如例如60Hz、90Hz、120Hz或150Hz之类的相对高的帧速刷新。能够理解，在另外的实施例中，帧速可以更慢，比如例如30Hz，或者比该范围更快。为了以较高帧速处理图像数据，深度相机和/或RGB相机可能需要被设置成相对低的分辨率，比如例如0.1至1MP/帧。在这些分辨率下，所期望的可能是如下面所解释的那样放大讲话者的头，以保证用户的嘴的清晰图像。

尽管图5中所述的实施例可以包括放大的步骤410，但是能够理解，缩放步骤410可以在另外的实施例中被省略，并且深度相机和/或RGB相机可以以其正常视野角度来捕获讲话者的嘴的图像。在各实施例中，用户可以被定位得足够接近捕获设备20，使得不需要缩放。如上面解释的那样，入射到讲话者上的光能也可以作为因素计入深度和/或RGB相机所能获得的图像的清晰度。在各实施例中，现有深度相机和/或RGB相机可以让其自己的光源投射到场景上。在这样的实例中，用户可以与捕获设备相距6英尺或更小，但是用户在另外的实施例中可以比这远。

步骤410的聚焦可以由聚焦引擎192来执行并且由各种技术来完成。在各实施例中，深度相机26和RGB相机28一致地运行以便以相同程度放大讲话者的头。在另外的实施例中，所述相机不需要一起缩放。图像相机组件22的缩放可以是相机透镜的光学(机械)缩放，或者其可以是以软件完成缩放的数字缩放。用于相机的机械和数字缩放系统二者都是已知的，并且用来改变焦距(要么严格地，要么大致地)以增加相机透镜的视野内的图像大小。数字缩放系统的示例例如在2009年1月13日提交的名称为“Combined Optical AndDigital Zoom(组合光学和数字缩放)”的美国专利申请No.7,477,297中予以了公开。聚焦的步骤还可以通过选择用户的头和/或嘴作为“感兴趣区域”来执行。该功能在标准图像传感器中是已知的，并且其允许增加的刷新率(以避免运动伪像)和/或关闭压缩(MJPEG)以消除压缩伪像。

用于放大感兴趣区域的另外的技术在申请人的名称为“Compartmentalizing Focus Area Within Field of View(划分视野内的聚焦区域)”的共同待审专利申请No._______(代理人案号No.MSFT-01350US0)中予以了阐述。

相机26、28可以如图9所示那样放大讲话者的头，或者相机26、28可以如图10所示那样进一步放大讲话者的嘴。无论缩放因子如何，深度相机26和/或RGB相机28都可以获得用户18的包括嘴唇170、舌头172和/或牙齿174的嘴的清晰图像。能够理解，相机可以用来捕获图8(无缩放)至图10(特别地放大讲话者的嘴)的透视图之间的任何位置处的图像数据。

在步骤412，从深度相机和RGB相机26、28获得的图像数据与在麦克风阵列32中接收的音频数据同步。这可以通过如下方式来完成：来自麦克风阵列32的音频数据和来自深度/RGB相机的图像数据二者都在帧起始时被诸如捕获设备20或计算环境12中的时钟之类的公共时钟打上时间戳。一旦图像和音频数据在帧起始时独立于公共时钟被加时间戳，则任何偏移量都可以被确定并且两个数据源可以被同步。所构思的是，可以使用同步引擎来使来自深度相机26、RGB相机28和麦克风阵列32的数据彼此同步。

一旦音频和图像数据在步骤412被同步，则音频数据就可以被发送给话音识别引擎196以供在步骤416进行处理，并且用户的嘴的图像数据可以被发送给VSC引擎190以供在步骤420进行处理。步骤416和420可以同时和/或并行进行，但是这些步骤在另外的实施例中不需要这样。如在背景技术部分中所述的那样，话音识别引擎196通常将能够辨别大多数音素。然而，诸如例如“p”和“t”、“s”和“sh”和“f”等之类的某些音素和摩擦音难以通过音频技术辨别。尽管从音频角度是困难的，但是嘴在形成这些音素时确实形成不同的形状。事实上，每个音素都由用户的嘴唇170、舌头172和/或牙齿174至少之一相对于彼此的唯一定位来定义。

根据本技术，这些不同的位置可以在来自深度相机26和/或RGB相机28的图像数据中被检测出。该图像数据在步骤420被转发给VSC引擎190，该VSC引擎190尝试分析该数据并且确定由用户说出的音素。下面参考图11和12来解释VSC引擎190的操作。

各种技术都可以被VSC引擎190用来从图像数据中标识出上嘴唇和下嘴唇、舌头和/或牙齿。这样的技术包括典范和质心概率生成，这些技术例如在名称为“Multiple Centroid Condensation of Probability Distribution Clouds(多质心聚集概率分布云)”的美国专利申请No.12/770,394中予以了解释，该申请特此通过引用并入本申请。可以对该数据运行各种附加的评分测试以提高嘴被正确标识出的置信度。嘴唇、舌头和/或牙齿在图像数据中将具有公知的彼此关系这一事实也可以在上述技术中用于从该数据中标识出嘴唇、舌头和/或牙齿。

在各实施例中，话音识别引擎196和VSC引擎190可以彼此结合运行以实现分开工作的引擎所不能实现的音素确定。然而在各实施例中，这些引擎可以彼此独立地工作。

在若干数据帧以后，借助于VSC引擎190的话音识别引擎196可以识别由用户18说出的问题、命令、或者语句。在步骤422，系统10检查：所说出的问题、命令或语句是否被识别。如果是这样，则在步骤426对问题、命令或语句采取一些预定义的响应动作，并且系统返回到步骤402以用于下一数据帧。如果没有问题、命令或语句被识别，则系统在不采取任何响应动作的情况下返回到步骤402以用于下一帧。如果用户看上去在说话，但是单词未被识别，则系统可以提示用户再次尝试或者以不同方式表达这些单词。

在图5的实施例中，VSC引擎190在每帧中都辅助话音识别引擎196。在图6所示的可替代实施例中，VSC引擎可以仅在话音识别引擎196遇到困难时才进行辅助。在图6中，启动系统的步骤400至同步音频和图像数据的步骤412与上面参考图5所描述的相同。在步骤430，话音识别引擎196处理音频数据。如果成功并且在标识出说出的音素方面不存在含糊性，则系统可以跳转到检查问题、命令或语句是否被识别的步骤440，并且如果是这样，则如上所述在步骤442响应。

另一方面，如果话音识别引擎不能在步骤434辨别音素，则所捕获的用户的嘴的图像数据然后被转交给VSC引擎190以供分析。在图5的在先实施例中，VSC引擎寻找所有音素，并且因此具有要搜索的许多不同的规则。在图6的实施例中，VSC引擎190可以聚焦于已知的有问题的音素的较小子集以供识别。这潜在地允许更详细地分析较小子集中的音素。

在图5和6的实施例中，深度相机26和/或RGB相机28聚焦于用户的头和/或嘴。然而，如所述的那样，在另外的实施例中，相机26、28之一或二者可以获得为了在不放大的情况下识别音素所需的图像数据。这样的实施例现在参考图7予以描述。

启动系统10的步骤400至标识出讲话者和讲话者位置的步骤406如上所述。在步骤466，如果讲话者被标识出，则系统检查图像数据的清晰度是否高于某个目标、即预先确定的阈值。针对该确定，三个因素可以计入图像的清晰度。

第一因素可以是分辨率、即图像中的像素的数目。第二因素可以是接近度、即讲话者多接近于捕获设备20。而且，第三因素可以是入射到用户上的光能。在给定可以用在本技术中的高帧速的情况下，可能存在相对短的时间来供相机26和28中的图像传感器收集光。通常，深度相机26将具有光投射源。RGB相机28也具有一个。只要讲话者足够接近光投射源，则该光投射源即使在高帧速下仍然提供足够的光能以供图像传感器拾取清晰图像。光能与讲话者与光投射源之间的距离的平方成反比，因此光能将随着讲话者与捕获设备20相距得更远而迅速减小。

这三个因素可以组合成产生某个清晰度阈值的等式。这些因素可以彼此相反地变化并且仍然满足清晰度阈值，其中考虑到接近度和光能将随着彼此变化并且光能将随着距离平方而变化。因此例如在分辨率低的情况下，阈值可以在用户接近于捕获设备的情况下被满足。相反，在用户与相机相距较远的情况下，清晰度阈值可以在图像数据的分辨率为高的情况下仍然被满足。

在步骤446，如果清晰度阈值被满足，则图像和音频数据可以被处理以识别话音，这在下面予以描述。另一方面，如果清晰度阈值在步骤446未被满足，则系统可以在步骤450检查：讲话者与捕获设备20相距多远。该信息由深度相机26给出。如果讲话者高于某个预先确定的距离x，则系统可以在步骤454提示讲话者移动到更接近捕获设备20之处。如上所述，在正常条件下，系统可以在讲话者与捕获设备相距6英尺或更小时(但是该距离可以在另外的实施例中比这更大)获得讲话者的嘴的足够清晰度以供本技术操作。距离x例如可以处于2英尺至6英尺，但是可以在另外的实施例中比该范围更近或更远。

如果清晰度阈值在步骤446未被满足，并且讲话者与捕获设备相距在距离x以内，则可能没有足够的清晰度以供VSC引擎190针对该图象数据帧进行操作。在这种情况下，系统可以在步骤462中针对该帧仅仅依靠话音识别引擎196。

另一方面，如果清晰度阈值在步骤446被满足，则图像和音频数据可以被处理以识别话音。系统可以前进以如上面所解释的那样在步骤458同步图像和音频数据。接着，音频数据可以如上面所解释的那样被发送给话音识别引擎196以供在步骤462进行处理，并且图像数据可以如上面所解释的那样被发送给VSC引擎190以供在步骤466进行处理。步骤462和466中的处理可以同时进行，并且话音识别引擎196与VSC引擎190之间的数据可以被共享。在另一实施例中，系统可以如上面参考图6的流程图所述的那样运行。也就是说，音频数据首先被发送给话音识别引擎以供处理，并且图像数据仅在话音识别引擎不能识别话音中的因素时才被发送给VSC引擎。

在由话音识别引擎196并且可能由VSC引擎190处理以后，系统在步骤470如上面所述的那样检查：请求、命令、或语句是否被识别。如果是这样，则系统在步骤472如上面所述的那样采取相关联的动作。然后，系统在步骤402获取下一数据帧，并且该过程重复。

用于通过图像数据标识出音素的本技术简化了话音识别过程。具体而言，本系统利用NUI系统中已有的资源、即现有捕获设备20，并且因此未增加系统的开销。VSC引擎190可以允许话音识别，而不必使用单词识别、语法和句法分析、上下文推理和/或各种其他增加话音识别的复杂度和延迟的过程。因此，本技术可以改善话音识别的处理时间。可替代地，上面的算法和当前的处理时间可以保持，但是本技术被用作话音识别结果的另一层置信度。

现在将参考图11的框图和图12的流程图来解释VSC引擎190的实施例的操作。一般而言，上嘴唇、下嘴唇、舌头和/或牙齿在形成特定音素时的各种位置可以针对每个将被跟踪的音素进行编目。一旦被编目，数据可以作为规则542存储在库540中。这些规则为不同音素定义了嘴唇、舌头和/或牙齿的基线位置。然而，不同用户具有不同话音模式和口音，并且不同用户将以不同方式发出所打算的相同音素。

因此，VSC引擎190包括学习/定制操作。在该操作中，在话音识别引擎能够随时间识别音素的情况下，嘴唇、舌头和/或牙齿在讲话者说出该音素时的位置可以被记录并且用于修改存储在库540中的基线数据值。库540可以针对系统10的每个用户10具有不同的规则集540。学习定制操作可以在下面描述的图12的流程图的步骤以前继续，或者与图12的流程图的步骤同时进行。

现在参考图12，VSC引擎190在步骤550接收嘴位置信息500。嘴位置信息可以包括与用户的嘴唇、舌头和/或牙齿的如上述那样在图像数据中所检测出的位置和/或运动有关的各种参数。也可以使用例如包括隐马尔科夫模型或其他贝叶斯技术之类的各种图像分类器来表征数据，以指示嘴唇、舌头和/或牙齿的形状和相对位置。

一些音素可以由单个嘴唇、舌头和/或牙齿位置形成(比如元音或摩擦音)。其他音素可以由多个嘴唇、舌头和/或牙齿位置形成(比如例如在形成字母“p”时保持和释放位置)。根据帧速和音素，给定音素可以从单个图象数据帧中被识别或者仅可以在多帧的范围内被识别。

因此在步骤552至562，VSC引擎190迭代地在连续的通过中检查图像数据帧以查看从深度相机26和/或RGB相机28所获得的图像数据是否在某个预先定义的置信水平内与规则542内的数据匹配。具体而言，第一次通过步骤552至556时，VSC引擎对照规则542检查来自当前帧的图像数据。如果未发现匹配，则VSC引擎对照规则542检查来自最后两帧(当前帧和上一帧)的图像数据(假定N至少为2)。如果未发现匹配，则VSC引擎对照规则542检查来自最后三帧的图像数据(假定N至少为3)。N的值可以根据帧速来设置，并且可以在各实施例中在1至例如50之间变化。在其他实施例中，该值可以比这高。

存储的规则542描述由位置信息500所指示的嘴唇、舌头和/或牙齿的特定位置何时将被解释为预定义的音素。在各实施例中，每个音素都可以具有不同的、唯一规则或规则集542。每个规则都针对每个嘴唇、舌头和/或牙齿具有多个参数。所存储的规则可以为每个这样的参数定义单个值、值范围、最大值和最小值。

在步骤560，VSC引擎190寻找嘴图像数据与规则之间高于某个预定义的置信水平的匹配。具体而言，在对照所存储的规则分析图像数据时，VSC引擎190将返回潜在匹配和置信水平二者，其中置信水平指示图像数据多紧密地匹配所存储的规则。除定义音素所需的参数之外，规则还可以包括在嘴位置信息500将被解释成音素之前所要求的阈值置信水平。一些音素可能比另一些更难辨别，并且因此需要在嘴位置信息500将被解释成匹配该音素之前所要求的更高的阈值置信水平。

一旦置信水平已经被VSC引擎190确定，则引擎190就在步骤560检查：该置信水平是否超过针对所标识出的音素的阈值置信度。如果是这样，则VSC引擎190退出步骤552至562的循环，并且在步骤570将所标识的音素传递给话音识别引擎。另一方面，如果VSC引擎经过对N帧的所有迭代检查而未发现高于所指示的置信度阈值的音素，则VSC引擎190在步骤566返回未识别音素这一事实。然后，VSC引擎190等待下一图象数据帧，并且该过程重新开始。

前面的对本发明的系统的详细描述只是为了说明和描述。它不是详尽的公开或将本发明的系统限于所公开的准确的形式。鉴于上述教导，许多修改和变型都是可能的。所描述的实施例只是为了最好地说明本发明的系统的原理以及其实际应用，从而使精通本技术的其他人在各种实施例中最佳地利用本发明的系统，适合于特定用途的各种修改也是可以的。本发明的系统的范围由所附的权利要求进行定义。

Claims

1.一种在包括耦合到用于从场景捕获信息的捕获设备(20)的计算环境(12)的系统(10)中从图像数据中识别音素的方法，包括：

a)从该场景中接收(步骤402)包括图像数据和音频数据的信息；

b)捕获(步骤550)与讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据；以及

c)将在所述步骤e)中捕获的图像数据与所存储的规则相比较(步骤556)以标识出由在所述步骤e)中捕获的图像数据所指示的音素。

2.如权利要求1所述的方法，其特征在于，还包括下列步骤：

d)标识出该场景内的讲话者；

e)对该讲话者在该场景内的位置进行定位；

f)获得关于讲话者的在该场景内相对于该场景的其他区域而言更多的图像细节；以及

g)将所述图像数据与所述音频数据同步。

3.如权利要求2所述的方法，其特征在于，还包括由话音识别引擎处理所述音频数据以从音频数据中识别话音的的步骤h)。

4.如权利要求3所述的方法，其特征在于，将所捕获的图像数据与所存储的规则相比较以标识出音素的所述步骤f)与由话音识别引擎处理所述音频数据的所述步骤h)同时进行。

5.如权利要求1所述的方法，其特征在于，标识出该场景内的讲话者的所述步骤b)包括分析图像数据并且将其与音频数据源的位置相比较的步骤。

6.如权利要求1所述的方法，其特征在于，获得关于该场景内的一个或多个感兴趣区域的更多图像细节的所述步骤c)包括执行机械缩放或数字缩放之一以聚焦于所述一个或多个感兴趣区域的至少一个感兴趣区域的步骤。

7.一种在包括耦合到用于从场景捕获信息的捕获设备(20)的计算环境(12)的系统(10)中从图像数据中识别音素的方法，包括：

a)从该场景中接收(步骤402)包括图像数据和音频数据的信息；

b)标识出(步骤406)该场景内的讲话者；

c)对该讲话者在该场景内的位置进行定位(步骤406)；

d)测量(步骤446)多个参数以确定是否满足用于获得与该讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据的清晰度阈值；

e)如果在所述步骤d)中确定清晰度阈值被满足，则捕获(步骤446)与该讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据；以及

f)如果在所述步骤d)中确定清晰度阈值被满足，则标识出(步骤550-570)由在所述步骤e)中捕获的图像数据所指示的音素。

8.如权利要求10所述的方法，其特征在于，测量多个参数以确定是否满足清晰度阈值的所述步骤d)包括测量下列项目至少之一的步骤：

d1)所述图像数据的分辨率；

d2)该讲话者与该捕获设备之间的距离；以及

d3)入射到该讲话者上的光能的量。

9.如权利要求11所述的方法，其特征在于，参数d1)能够与参数d2)和d3)相反地变化并且清晰度阈值仍然被满足。

10.如权利要求10所述的方法，其特征在于，进一步包括通过对所述图像数据和音频数据加时间戳并且比较时间戳的步骤将所述图像数据与所述音频数据同步的步骤g)。

11.如权利要求14所述的方法，其特征在于，所述步骤f)包括将所捕获的图像数据与所存储的规则相比较以标识出音素的步骤，所述步骤f)与由话音识别引擎处理所述音频数据的步骤h)同时进行。

12.如权利要求14所述的方法，其特征在于，所述步骤f)包括将所捕获的图像数据与所存储的规则相比较以标识出音素的步骤，所述步骤f)在话音识别引擎在所述步骤h)不能从所述音频数据中标识出音素以后进行。

13.一种用于将处理器(101，259)编程为执行从图像数据中识别音素的方法的计算机可读存储介质(143，234，235)，该方法包括：

a)从捕获设备捕获(402)图像数据和音频数据；

b)设置(步骤402)帧速，在该帧速下，该捕获设备基于被确定以捕获为了确定形成音素时的嘴唇、舌头和/或牙齿位置所需的移动的帧速来捕获图像；

c)将所述图像数据的分辨率设置(步骤406)成不导致在所述步骤b)中设置的帧速的延迟的分辨率；

d)针对在所述步骤c)中设置的分辨率提示(步骤446)用户移动到足够接近该捕获设备的位置以获得该用户的嘴唇、舌头和/或牙齿的具有用于辨别不同音素的足够的清晰度的图像；

e)从该用户捕获(步骤446)与该讲话者的嘴唇、舌头和/或牙齿至少之一的位置相关的图像数据；

f)基于在所述步骤e)中捕获的图像数据标识出(步骤550-570)音素。

14.如权利要求17所述的计算机可读存储介质，其特征在于，还包括生成所存储的规则，所述所存储的规则包括关于嘴唇、舌头和/或牙齿在发出音素时的位置的信息，所述所存储的规则用于与所捕获的图像数据相比较以确定所述图像数据是否指示在所述所存储的规则中所定义的音素，所述所存储的规则还包括置信度阈值，所述置信度阈值指示所捕获的图像数据为了所述图像数据指示在所述所存储的规则中所定义的音素需要多紧密地匹配所述所存储的规则中的信息。

15.如权利要求17所述的计算机可读存储介质，其特征在于，还包括由话音识别引擎处理所述音频数据以从音频数据中识别话音的的步骤g)，基于所捕获的图像标识出音素的所述步骤f)仅在该话音识别引擎未能从所述音频数据中标识识别话音时才执行。