CN104620257A

CN104620257A - 基于深度的语境识别

Info

Publication number: CN104620257A
Application number: CN201380030981.8A
Authority: CN
Inventors: T·E·多克尔; J·霍尔梅斯; J·克拉斯特; S·山本; P·瓦格赫菲纳扎里
Original assignee: Honda Motor Co Ltd; Edge 3 Technologies LLC
Current assignee: Honda Motor Co Ltd; Edge 3 Technologies LLC
Priority date: 2012-06-15
Filing date: 2013-04-15
Publication date: 2015-05-13
Anticipated expiration: 2033-04-15
Also published as: EP2862125B1; CN104620257B; EP2862125A1; JP6010692B2; EP2862125A4; IL236089A; KR102061925B1; US20130339027A1; US9092394B2; KR20150044874A; JP2015526753A; WO2013188002A1; IL236089A0

Abstract

一种基于从深度相机所检测的用户动作，用于选择或修剪与语音识别关联的适用言语命令的方法或系统。根据用户的手或手臂的深度，确定言语命令的语境并选择与所确定的语境对应的言语命令。然后使用所选择的言语命令对音频信号执行语音识别。通过使用一组合适的言语命令，语音识别的准确性得到提高。

Description

基于深度的语境识别

技术领域

本发明涉及使用姿势或手势信息识别语音命令以提高语音识别的准确性。

背景技术

车辆的驾驶员或乘客通常用手指或手使用开关、屏幕、键盘或其它输入机构来操作车辆中的各种设备。这样的输入机构可以用于操作例如导航系统、娱乐系统、空调系统或电话系统。有时，必须要对输入机构执行一系列复杂的操作来向设备发出期望的命令。然而对于驾驶员来说，将双手保持在方向盘上并且仅用短暂的时间通过手间歇地操作这些输入设备是更为可取的。根据操作的复杂性，在驾驶员能够执行期望的操作之前可能需要多次尝试来操作输入设备。

因此，使用较少的利用驾驶员的双手的操作模式是有利的。一种这样的操作模式是语音识别。语音识别是将声音信号转化成语音元素(例如，音素、词语以及句子)的处理过程。语音识别已经应用在从电话操作到车辆操作的各种领域。在语音识别系统中，由输入设备(例如，传声器)采集音频信号并将其转化成数字信号，然后使用一种或多种算法将其处理成包含在音频信号中的输出语音元素。根据应用领域，识别出的语音元素可以是语音识别的最终结果或者是用于进一步处理的中间信息。

在车辆中使用语音识别的问题之一是，类似的或者相同的言语命令可以用于不同的设备。类似的或相同的言语命令的共用导致言语命令中的歧义。例如，诸如“定位XYZ”的命令可表示在导航的情况下特定兴趣点(POI)的定位，而相同的命令还可表示娱乐系统中音轨的识别。如果用户的命令的语境没有被正确地识别，用户意图之外的操作可被车辆中的设备执行。

由于歧义性的言语命令所造成的无意操作以及随后的补救措施所花费的时间会损害用户体验并且导致用户恢复人工操作。

发明内容

本发明的实施例提供基于用户的姿势或手势识别言语命令的系统或方法。通过表示用户的姿势或手势的手势信息选择有可能被用户定为目标用于操作的多个设备中的一个或多个设备。根据所接收的手势信息选择与被用户定为目标的一个或多个设备关联的多个言语命令。使用选择的多个言语命令处理音频信号以确定用于操作所述一个或多个设备的设备命令。

在本发明的一种实施例中，深度相机用于拍摄至少一个深度影像。各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素。处理所述至少一个深度影像以确定用户的姿势或手势。根据所识别的姿势或手势生成手势信息。

在一种实施例中，用户的所述至少部分包括用户的手或前臂。

在一种实施例中，深度相机安装在带有覆盖用户的视野的车辆中的头顶控制台中。

在一种实施例中，所述多个设备包括车辆中的至少导航系统以及娱乐系统。

在一种实施例中，手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外。响应于表示手或前臂定位在所述距离之内的手势信息选择第一组言语命令。响应于表示手或前臂定位在所述距离之外的手势信息选择第二组言语命令。

在一种实施例中，第一组言语命令与在车辆中执行导航操作相关联。第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。

说明书中描述的特征和优点不是包括一切的，并且特别地，许多额外的特征和优点对于查看了附图、说明书以及权利要求书的本领域技术人员来说将是显而易见的。此外，应当注意的是，本说明书中使用的语言主要选择用于可读性和指导的目的，而不是选择用来描绘或限制发明主题。

附图说明

通过结合附图考虑下面的详细描述可以容易地理解本发明的教导。

图1A为根据一种实施例的装备有命令处理系统的车辆的侧视图。

图1B为根据一种实施例的图1A的车辆的俯视图。

图2为根据一种实施例的命令处理系统的框图。

图3为根据一种实施例的语音识别模块的框图。

图4为根据一种实施例的说明用于兴趣点的搜索区域的概念图。

图5为根据一种实施例的基于由相机拍摄的深度影像执行语音识别的方法的流程图。

具体实施方式

现在参考附图描述优选实施例，附图中相似的附图标记表示完全相同或功能上相似的元素。

说明书中提到的“一种实施例”或“实施例”表示结合所述实施例描述的特定的特征、结构或特性包括在至少一种实施例中。在说明书中多处出现的短语“在一种实施例中”不一定都指的是相同的实施例。

下面的详细描述的某些部分以计算机存储器内数据位的操作的算法和符号表示的形式给出。这些算法描述和表示是由数据处理领域的技术人员用来最有效地将他们工作的实质传达给本领域的其他技术人员的方法。在这里，算法通常被看作是导致期望的结果的自洽的步骤(指令)序列。所述步骤是需要物理量的物理处理的那些步骤。尽管不是必须的，但这些量通常采取能够被存储、传送、组合、比较以及以其它方式处理的电信号、磁信号或光信号的形式。主要是出于通用的原因，有时将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。此外，有时将需要物理量的物理操作的步骤的某些安排称为模块设备或编码设备也是方便的，而且不失一般性。

然而，所有这些和类似的术语都与合适的物理量相关联，并且仅仅是应用于这些量的方便的标号。除非以下讨论中明显地另有特别声明，否则应当理解的是，在整个说明书中，利用诸如“处理”或“计算(computing)”或“计算(calculating)”或“确定”或“显示”或“确定”等术语的讨论是指计算机系统或类似的电子计算设备对在计算机系统存储器或寄存器或其它这种信息存储、传输或显示设备内表示为物理(电子)量的数据进行操纵和变换的动作和过程。

实施例的某些方面包括本文中以算法形式描述的处理步骤和指令。应该注意的是，处理步骤和指令可体现在软件、固件或硬件中，并且当体现在软件中时，其可以被下载以驻留在由各种操作系统所使用的不同的平台上并从所述不同的平台进行操作。

实施例还可涉及用于执行本发明的操作的装置。此装置可以是为需要的目的具体构造的，或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的一般用途的计算机。这样的计算机程序可储存在计算机可读存储介质中，例如但不限于包括软盘、光盘、只读光盘存储器(CD-ROMs)、磁光盘、只读存储器(ROMs)、随机存取存储器(RAMs)、电可编程只读存储器(EPROMs)、电可擦除只读存储器(EEPROMs)、磁卡或光卡、专用集成电路(ASICs)或适合于存储电子指令并且每个都连接至计算机系统总线的任何类型的介质的任何类型的盘。此外，说明书中涉及的计算机可包括单处理器或者可以是设计用来提高计算能力的使用多个处理器的架构。

本文所述的算法和显示并不固有地涉及任何特定的计算机或其它装置。各种通用系统也可与根据本文的教导的程序一起使用，或者其可便于构造更专用的装置来执行所需的方法步骤。用于各种这样的系统的所需结构将从以下描述中显而易见。此外，实施例并不参照任何特定的编程语言来描述。可以理解的是，各种编程语言可用于实现本文所述的教导，并且下面所提供的对于特定语言的任何引用是用于实现和最佳模式的公开。

此外，说明书中使用的语言主要是出于可读性和指导的目的选择的，而不是选择用来描述或限制发明主题。因此，本发明旨在作为所附权利要求书所述的范围的说明而非限制。

实施例涉及基于由深度相机所检测的用户动作或手势选择或修剪与语音识别关联的适用言语命令。根据用户的手或前臂相对于深度相机的深度，确定言语命令的语境并选择与所确定的语境对应的一个或多个命令词典。然后使用所选择的命令词典对音频信号执行语音识别。通过根据语境使用命令词典，语音识别的准确性得到提高。

本文所使用的术语“用户”包括车辆的驾驶员以及乘客。用户可以是试图控制车辆中一个或多个设备的任何人。

本文所使用的“姿势”是指用户的身体部分的形态。姿势可以是例如用户的手和前臂相对于其它身体部分或参考点(例如，相机)的指示关系。

本文所使用的“手势”是指随时间的进程改变的用户的身体部分的一系列配置。手势例如可包括指向某一方向的一系列手臂和手的运动。

本文所使用的“设备命令”是指用于操作或控制设备的指令。设备命令可由设备接收并解释以执行某一操作或一组操作。

本文所使用的“导航操作”是指用于使用计算设备(例如，车载远程信息处理设备)来识别、定位、选择或获取用于驾驶至目的地的信息的由用户做出的操作。例如，导航操作可包括提供用户输入以选择地址或兴趣点，和选择由于提供用户输入而显示的地址或兴趣点。

配备有言语命令系统的车辆概述

图1A和1B示出根据一种实施例配备有命令处理系统的车辆100。命令处理系统除了其它组件之外可包括中央处理单元120和头顶控制台单元110。命令处理系统可连接至车辆100的其它组件(例如，导航系统和娱乐系统)以执行各种操作。命令处理系统根据用户的动作或手势识别言语命令，如下面参照图3和图4详细描述的。

中央处理单元120处理音频信号以检测包括在音频信号中的用户言语命令。中央处理单元120连接至诸如驾驶舱系统(例如，导航系统、娱乐系统、空调控制系统以及诊断系统)的其它组件。中央处理单元120根据从用户接收的言语命令控制这些设备。中央处理单元120可以是单机设备或者可以是较大系统(例如，远程信息处理系统)的一部分。下面参照图2对中央处理单元120进行了详细描述。

中央处理单元120可放置在车辆100内的任何位置。如图1A和1B所示的，中央处理单元120可定位在车辆100的中央控制台处。可替代地，中央处理单元120可安装在车辆100的仪表板内。另外，中央处理单元120也可安装在车辆的顶棚上。

头顶控制台单元110定位在车辆内部的顶棚处并且包括传感器(例如，传声器和相机)以拍摄用户的深度影像并检测音频信号，如下面参照图2详细描述的。头顶控制台单元110可包括诸如车库开门器的各种其它组件。头顶控制台单元110的传感器与中央处理单元120通信以提供用于检测用户言语命令的信号。

头顶控制台单元110的传感器与中央处理单元120之间的通信可由现在使用的或将来开发的任何有线或无线通信媒介建立。

示例性命令处理系统

图2为根据一种实施例的示出命令处理系统200的框图。命令处理系统200除了其它组件之外可包括处理器210、输出接口214、输入接口218、存储器240以及连接这些组件的总线。命令处理系统200还可包括深度相机222和传声器260。深度相机222和传声器260经由信道220、262连接至输入接口218。尽管图2中没有示出，但是命令处理系统200可包括多于一个的深度相机或传声器。

处理器210执行储存在存储器240中的指令并处理经由输入接口218接收的传感器数据。尽管图2中只示出了单个处理器210，但是可使用多于一个的处理器以提高命令处理系统200的处理能力。

输出接口214是用来通过通信信道将包括设备命令的数据发送至诸如导航系统、娱乐系统、空调系统以及诊断系统的其它设备的硬件、软件、固件或者其结合。为了发送数据，输出接口214可格式化和调节信号以遵守预先确定的通信协议。

输入接口218是用来从头顶控制台单元110接收传感器信号的硬件、软件、固件或其结合。传感器信号包括经由信道220接收的深度影像和经由信道262接收的音频信号。输入接口218可缓冲接收的传感器信号并在将传感器信号经由总线268转发至处理器210或存储器240之前对传感器信号执行预处理。

深度相机222拍摄驾驶员的深度影像并将深度影像经由信道220发送至输入接口218。深度相机222可体现为飞行时间(TOF)相机、立体视觉相机或产生深度影像(包括到相机视野内物体的不同点的距离信息)的其它类型的相机。立体视觉相机使用两个镜头以从不同的位置拍摄影像。然后处理所拍摄的影像以产生深度影像。在一种实施例中，深度相机222产生的灰度影像的每个像素表示从深度相机222到与像素对应的物体(例如，驾驶员)的点的距离。

参照图1A，深度相机222安装在头顶控制台单元110上并且具有俯瞰车辆100的驾驶员的视野116。通过将深度相机222安装在头顶控制台单元110上，深度相机222有利地具有车辆100的驾驶员和中央控制台的无阻挡视野。另外，驾驶员的手或手臂相对于深度相机222的深度提供驾驶员意图操作的指示，如下面参照手势识别模块252详细描述的。

传声器260感应声波并将声波转换成模拟电信号。传声器260包括用于将模拟电信号转换成数字信号的模数(A/D)转换器。将转换后的数字信号经由信道262发送至输入接口218。可替代地，A/D转换器可包括在输入接口218中。在这种情况下，传声器260将模拟电信号经由信道262发送至输入接口218，用于转换成数字信号以及进一步的处理。

存储器240储存将由处理器210执行的指令以及与指令关联的其它数据。存储器240可以是易失存储器、非易失存储器或其结合。存储器240除了其它软件模块之外可储存命令格式模块244、手势识别模块252以及语音识别模块256。存储器240可包括诸如操作系统的其它软件模块，为简洁起见本文省略了对其的描述。

手势识别模块252根据由深度相机222拍摄的深度影像检测驾驶员的手势或动作。在一种实施例中，手势识别模块252检测手或前臂的位置和/或动作以确定言语命令的语境。在一种实施例中，手势识别模块252确定驾驶员的手或前臂相对于深度相机222的位置。如果驾驶员的手或前臂较接近于深度相机222(即，从深度相机222到手或前臂的距离低于阈值)，例如，驾驶员可能做出与导航操作相关联的动作或手势(例如，手指指向窗外侧的方向)。相反地，如果驾驶员的手或前臂远离深度相机222(即，从深度相机222到手或前臂的距离在阈值处或高于阈值)，驾驶员可能做出与中央控制台中通常提供的其它控制功能相关联的动作或手势(例如，操作娱乐系统和空调控制系统)。

手势识别模块252可使用计算算法，其类聚深度影像中的像素组并随时间的进展追踪这些组的位置以确定驾驶员的动作或手势。可以根据像素的二维距离的接近度和像素的深度差别将像素类聚成组。手势识别模块252还可储存人体模型并将像素组映射到储存的模型以精确地检测和追踪手和/或前臂的位置。

在一种实施例中，手势识别模块252还可以较高分辨率检测驾驶员手的位置以确定与驾驶员的操作关联的设备。如果车辆的中央控制台具有位于中央控制台的中间处的用于操作娱乐系统的开关或旋钮以及位于两侧的用于空调控制系统的开关，围绕中央控制台的中间的驾驶员手的位置表示驾驶员正在操作娱乐系统。如果相比于中央控制台的中间部分，驾驶员的手更接近于中央控制台的侧部，则驾驶员更可能在操作空调控制系统。因此，命令处理系统200可在驾驶员发出言语命令的时候使用手的特定位置上的手势信息以确定与言语命令相关联的设备。

语音识别模块256确定由驾驶员发出的言语命令。为了确定言语命令，语音识别模块256从手势识别模块252接收关于驾驶员的手势的手势信息，如下面参照图3详细描述的。

命令格式模块244将在语音识别模块256处检测的言语命令转化成用于操作安装在车辆100中的设备的设备命令。安装在车辆100中的各个设备可要求以不同的格式来提供命令。因此，命令格式模块244将命令转化成各个设备可以处理的格式。此外，如果发出的言语命令不清楚、模棱两可或不充分，命令格式模块244可从驾驶员请求进一步的信息。这样的对于进一步信息的请求可以通过扬声器进行。命令格式244也可结合来自手势识别模块252的信息以生成设备命令，如下面参照图4详细描述的。

命令格式模块244、手势识别模块252以及语音识别模块256不需要储存在相同的存储器240中。例如，手势识别模块252可储存在头顶控制台单元中的存储器中，而语音识别模块256和命令格式模块244可储存在中央控制台单元中的存储器中。另外，这些模块中的一个或多个可以体现为专用硬件组件。

语音识别模块的示例性架构

图3为根据一种实施例的示出语音识别模块256的组件的框图。语音识别模块256除了其它组件之外可包括手势识别接口312、命令提取模块316以及命令词典320。语音识别模块256还可包括其它模块，例如包含由用户先前发出的言语命令清单的历史管理模块。

手势识别接口312使语音识别模块256能够与手势识别模块252通信。在一种实施例中，经由手势识别接口312从手势识别模块252接收的手势信息表示驾驶员的手或前臂的位置。

命令词典320包括与车辆100的各种设备关联的命令。命令词典320包括从320A至320N的多个词典，各个都与车辆100的设备或系统相关联。例如，词典320A储存与导航系统的操作关联的命令，词典320B储存与娱乐系统的操作关联的命令，词典320C储存与空调控制系统关联的命令。

命令提取模块316根据手势数据和储存在所选择的命令词典320中的命令提取包含在音频信号中的言语命令。在接收到手势信息之后，命令提取模块316根据如手势信息所表示的用户的手或前臂的位置选择一个或多个词典。如果手势数据表示用户的手或前臂处于某一姿势，选择与驾驶员的手或前臂附近的设备关联的词典用于命令提取。例如，如果用户的手在自娱乐系统的某一距离内，选择与娱乐系统关联的词典(例如，词典320B)用于命令提取。

相反地，如果在发出言语命令的时候驾驶员的手或前臂远离这些设备并且上升超过某一水平(即，升起超过仪表板)，命令提取模块316确定言语命令与导航系统关联。因此，命令提取模块316选择并使用与导航操作相关联的词典(例如，词典310A)以执行语音识别。

在一种实施例中，由命令提取模块316识别的言语命令与手势信息结合以在命令格式模块244处生成导航命令。手势信息可表示例如驾驶员的手指的定向，如下面参照图4详细描述的。

命令提取模块316可使用多于一个的词典以提取言语命令。如果用户的手围绕中央控制台定位，可以选择与可在中央控制台处操作的任何设备(例如，娱乐系统或空调控制系统)相关联的词典。

在一种实施例中，命令提取模块316根据用户的手或前臂的位置向命令分配概率权重。命令提取模块316使用统计模型根据以序列出现的音素计算说出的言语命令的概率。统计模型在驾驶员意图的最可能的命令的确定中可包括考虑了手或前臂的位置的参数。

图3的语音识别模块256仅仅是说明性的。可以对语音识别模块256做出各种改型。例如，命令词典320可以将多个命令中的每个映射到一个或多个设备，而不是具有多个词典。

使用手势和言语命令的示例性检测兴趣点

通过使用手势和语音命令的结合，用户可以方便地识别兴趣点或目的地。当指向兴趣点或目的地时，用户可发出要求导航系统识别和/或设置兴趣点的命令。命令格式模块244可结合从言语识别的命令和从手势信息提取的参数以生成导航命令。

图4为根据一种实施例的说明用于兴趣点的搜索区域的概念图。在图4中，驾驶员希望导航至建筑410或者想要识别建筑410的名字或地址。驾驶员在将手指指向建筑410的同时说明言语命令“识别那栋建筑”。由于各种误差，手势识别模块252可检测驾驶员将手指指向O-A方向(以虚线示出)。

作为回应，语音识别模块256从手势识别模块252接收表示用户的手臂和前臂抬起的手势信息。语音识别模块256确定言语命令与导航系统关联(因为手和前臂抬起)并使用与导航系统关联的词典以识别言语命令。语音识别模块256向命令格式模块244发送识别出的言语命令。

命令格式模块244接收言语命令，分析言语命令并确定短语“那栋建筑”需要进一步说明。命令格式模块244分析手势信息并使用表示用户手指的定向(由线O-A表示)的手势信息中的参数以生成请求导航系统识别线O-A的方向中的任何兴趣点的设备命令。例如，参数可以是相对于车辆100的前方方向的角度θ。

导航系统接收设备命令，并建立由O-B-C-O表示的搜索锥。搜索锥具有表示搜索半径(例如，10英里)的高度R并具有锥角2α。锥角2α可以增加以扩展搜索或者以允许增加的容错性。导航系统在由考虑了车辆运动的车辆速度和方向的搜索锥识别的搜索区域内执行搜索。在一种实施例中，向较接近车辆的兴趣点赋予优先级。在一种实施例中，导航系统向用户呈现在搜索区域内发现的兴趣点清单。然后用户可从搜索到的清单指出兴趣点并要求进一步的动作(例如，导航至兴趣点或者电话呼叫兴趣点)。

根据手势数据识别言语命令的示例性方法

图5为根据一种实施例的说明基于驾驶员的动作或手势识别言语命令的方法的流程图。命令处理系统200使用深度相机222生成506深度影像。使用所生成的深度影像，命令处理系统200生成510用户的手势信息。手势信息除其它之外可表示用户的手或前臂相对于深度相机222的位置。

根据手势信息，命令处理系统200选择514用于识别言语命令的一个或多个词典。各个词典可包括用于车辆100中的某一系统或设备的命令。

命令处理系统200根据在传声器260处接收的声音信号还生成表示驾驶员所说话语的数字音频信号。

在选择适用的一个或多个词典后，命令处理系统200使用所选择的一个或多个词典对生成的音频信号执行518语音识别。在说出言语命令的时候，通过根据表示用户的姿势或手势的手势信息限定或修剪适用的言语命令，语音识别的准确性可以得到提高。

在生成言语命令之后，命令处理系统200通过将言语命令转化成设备命令生成522与言语命令对应的设备命令。如需要，命令处理系统200可增加、修改或请求信息用于生成设备命令。

如图5中说明的过程及其序列仅是说明性的。可以对过程和/或序列做出各种修改。例如，可执行518语音识别以生成一组候选言语命令。接着，可根据驾驶员手势的确定510从候选言语命令组选择最终的言语命令。此外，可以并行执行一个或多个过程。例如，在深度相机222处生成506深度影像可与生成516音频信号并行执行。

可替代实施例

在一种或多种实施例中，使用一个或多个相机以提高手势检测的准确性。相机也可拍摄彩色影像。彩色影像可检测代表驾驶员手的皮肤色调。通过关联彩色影像与深度影像，手或前臂的位置可以检测得更加准确。此外，可以在车辆100中棚顶或别处的不同位置定位两个或更多个相机以补足或替代在一个深度相机处所拍摄的深度影像。

在一种或多种实施例中，命令处理系统200的一个或多个组件可以通过与安装在车辆100中的命令处理系统200通信的远程服务器体现。例如，语音识别模块256可体现在与安装在车辆100中的命令处理系统200无线通信的远程服务器中。

在一种或多种实施例中，命令处理系统200用于除了车辆的运输装置中。命令处理系统200可用于例如飞机或摩托车中。

尽管上面描述了几种实施例，但是可以在本发明的范围内做出各种修改。因此，本发明的公开内容是要说明而非限制所附权利要求书所述的本发明的范围。

Claims

1.一种识别言语命令的计算机执行方法，其包括：

通过放置在车辆中的深度相机拍摄至少一个深度影像，各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素；

根据所拍摄的深度影像识别用户的姿势或手势；以及

根据所识别的姿势或手势生成手势信息；

根据手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备；

选择与被确定为目标的一个或多个设备相关联的多个言语命令；

在用户做出姿势或手势的时候接收包括用户的话语的音频信号；以及

通过使用所选择的多个言语命令对音频信号执行语音识别来确定用于操作一个或多个设备的设备命令。

2.根据权利要求1所述的方法，其中，用户的所述至少部分包括用户的手或前臂。

3.根据权利要求1所述的方法，其中，深度相机安装在车辆中的头顶控制台中，深度相机俯瞰用户。

4.根据权利要求1所述的方法，其中，多个设备包括车辆中的至少导航系统和娱乐系统。

5.根据权利要求1所述的方法，其中，手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外，并且其中，响应于表示手或前臂定位在所述距离内的手势信息选择第一组言语命令，并且其中，响应于表示手或前臂定位在所述距离外的手势信息选择第二组言语命令。

6.根据权利要求5所述的方法，其中，第一组言语命令与在车辆中执行导航操作相关联。

7.根据权利要求6所述的方法，其中，第一组言语命令包括用于识别或设置用于导航操作的兴趣点的命令。

8.根据权利要求6所述的方法，其中，第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。

9.一种用于识别言语命令的命令处理系统，其包括：

深度相机，其放置在车辆中并且能够通过深度相机拍摄至少一个深度影像，各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素；以及

手势识别模块，其结合至深度相机，手势识别模块能够根据所拍摄的深度影像识别用户的姿势或手势并且根据所识别的姿势或手势生成手势信息；

手势识别接口，其能够根据所识别的姿势或手势生成手势信息；以及

命令提取模块，其能够：

根据所接收的手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备；

选择与被确定作为目标的一个或多个设备相关联的多个言语命令；

10.根据权利要求9所述的命令处理系统，其中，用户的所述至少部分包括用户的手或前臂。

11.根据权利要求9所述的命令处理系统，其中，深度相机安装在车辆中的头顶控制台中俯瞰用户。

12.根据权利要求11所述的命令处理系统，其中，深度相机包括立体视觉相机，其输送所拍摄的影像用于处理成至少一个深度影像。

13.根据权利要求9所述的命令处理系统，其中，所述多个设备包括车辆中的至少导航系统和娱乐系统。

14.根据权利要求9所述的命令处理系统，其中，手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外，并且其中，命令提取模块响应于表示手或前臂定位在所述距离内的手势信息选择第一组言语命令，并且响应于表示手或前臂定位在所述距离外的手势信息选择第二组言语命令。

15.根据权利要求14所述的命令处理系统，其中，第一组言语命令与在车辆中执行导航操作相关联。

16.根据权利要求14所述的命令处理系统，其中，第一组言语命令包括用于识别或设置用于导航操作的兴趣点的命令。

17.根据权利要求16所述的命令处理系统，其中，第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。

18.一种用于识别言语命令的永久性计算机可读存储介质，当执行时，构造用来存储指令的计算机可读存储介质使处理器：

根据所拍摄的深度影像识别用户的姿势或手势；

根据所识别的姿势或手势生成手势信息；

根据接收的手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备；

通过使用所选择的多个言语命令对音频信号执行语音识

别来确定用于操作一个或多个设备的设备命令。

19.根据权利要求18所述的计算机可读存储介质，其中，用户的所述至少部分包括用户的手或前臂。

20.根据权利要求18所述的计算机可读存储介质，其中，深度相机安装在车辆中的头顶控制台中俯瞰用户。

21.根据权利要求18所述的计算机可读存储介质，其中，所述多个设备包括车辆中的至少导航系统和娱乐系统。