CN104040620A

CN104040620A - 直接语法存取

Info

Publication number: CN104040620A
Application number: CN201180076089.4A
Authority: CN
Inventors: D·L·格劳曼; B·罗萨里奥
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2014-09-10
Anticipated expiration: 2031-12-29
Also published as: EP2798632A1; JP5916888B2; WO2013101066A1; US20140229174A1; CN104040620B; US9487167B2; EP2798632A4; JP2015509204A

Abstract

提供了语音识别系统和/或技术，其中将语法元素和/或语音输入的目标定为选定功能。一个或多个输入捕获设备便于收集与车辆相关联的用户输入，且车辆功能可基于所接收的用户输入来选择。与选定功能的可听命令相关联的可用语法元素的子集可接着被识别并用于评估所接收的音频输入。在这个方面，语音识别的目标可被定为选定功能。

Description

直接语法存取

技术领域

本公开的方案通常涉及语音识别，且更具体地涉及将语音识别的目标定为与车辆相关联的具体功能。

背景技术

语音识别技术越来越多地用于各种目的，包括电子口述、话音命令识别、和基于电话的消费者服务引擎。语音识别一般涉及对经由麦克风接收到的声信号的处理。在这么做时，语音识别引擎一般用来将声信号解释成单词或语法元素。在某些环境(例如车辆环境)中，因为驾驶员能够以免提方式提供指令，所以语音识别技术的使用增强安全性。

常规车辆内语音接口一般利用语法元素的层级来控制各种车辆功能。例如，为了调谐无线电，用户可以说“无线电”，收听确认，说“频道”，收听确认，并接着说“101.9”。常规层级方法一般对于用户而言是麻烦和耗时的。进行了若干尝试来拉平语音层级，以便允许更直接的命令。这些尝试包括使用较大的词汇量和添加自然语言处理。然而，仅获得了微幅改善。实际上，使用具有丰富的音素签名的相对小的词汇量似乎能在与车辆相关联的变化的声条件下提供更准确的语音识别结果。因此，存在对将语音识别的目标定为与车辆相关联的具体功能的改进的系统和方法的机会。

附图说明

现在将参考附图，其不一定按比例绘制，且其中：

图1是根据本公开的示例性实施例的可用于将语音输入的目标定为各种车辆功能的示例性系统或体系结构的方框图。

图2是示出用于获得与目标语音识别相关联的用户输入的示例性技术的简化示意图。

图3是可在本公开的各种实施例中被利用的示例性语音识别系统或体系结构的方框图。

图4是用于评估用户输入以将语音识别的目标定为车辆功能的示例性方法的流程图。

图5是用于识别与语音识别的目标相关联的手势的示例性方法的流程图。

图6是用于识别与语音识别的目标相关联的接近度信息的示例性方法的流程图。

图7是用于使用户输入与语音识别的语法元素相关联的示例性方法的流程图。

具体实施方式

本公开的实施例可提供用于将语音识别的目标定为与车辆或其它环境相关联的任何数量的功能的系统、方法和装置。在这个方面，可避免与多个不同的功能和/或应用相关联的语法元素的层级，从而导致最终命令的相对较快的处理和较高的用户满意水平。在某些实施例中，功能特定语法元素的子集或群集可与每个功能相关联。例如，语法元素的第一子集可与无线电功能(或其它功能)相关联，而语法元素的第二子集可与气候功能(或其它功能)相关联。基于用户输入(其可以是除了语音输入以外的用户输入)的识别和评估，可选择期望功能及其相关联的语法元素的子集。语法元素的子集可接着用来处理与选定功能相关联并以选定功能为目标的语音输入。

可结合各种各样的不同操作环境来利用各种实施例。例如，某些实施例可在车辆环境中被利用。如所希望的，在车辆内的声模型可被优化来与特定硬件和各种内部和/或外部声学一起使用。适当的车辆的例子包括但不限于汽车、卡车、轻型载重卡车、重型载重卡车、轻便小货车、小型货车、跨界型汽车、大篷货车、商用车辆、私人车辆、运动型多功能车辆、牵引车-拖车、航空器、飞机、喷气式飞机、直升机、宇宙飞船、船舶或具有通信和感觉能力的任何其它适当的车辆。然而，将认识到，也可在两个系统之间实现电子通信的其它运输或非运输相关应用中利用本公开的实施例。

在一个示例性实施例中，与可听命令(例如话音命令)相关联的多个语法元素可与车辆相关联。例如，可关联车辆的适当的语音识别系统或部件来存储语法元素。多个语法元素可包括与任何数量的车辆功能相关联的各自的语法元素。车辆功能可包括例如车辆控制功能、气候控制功能、音频系统功能、窗户(例如窗户、天窗等)控制功能、座椅控制功能、显示控制功能、导航控制功能、网络(web)或其它网络功能、通信控制功能、和/或与各种各样的车辆系统、部件和/或应用相关联的任何其它功能。在某些实施例中，多个语法元素的子集可与每个车辆功能相关联。例如，语法元素的相对小的词汇量可与每个功能相关联。

根据本公开的方面，用户输入可被识别和评估，以便选择期望的车辆功能。在这个方面，可识别与选定功能相关联的语法元素，其可能是多个语法元素的子集(或其可以被单独地存储和/或从任何数量的适当数据源得到)。可在各种实施例中如所期望的识别各种不同类型的用户输入，包括但不限于用户手势、用户到输入元件的接近度、和/或输入元件的用户选择。例如，图像捕获设备(例如照相机等)可用来收集感兴趣的对象(例如用户的手等)的图像，且所收集的图像可被评估和/或处理以识别用户做出的手势。可如所期望的识别各种不同类型的手势，例如与手运动(例如全手运动、手指运动等)相关联的手势和/或与在车辆内定义的感兴趣区的指示(例如，与感兴趣区的接触、到感兴趣区的接近度、指向感兴趣区等)相关联的手势。可接着至少部分地基于手势的评估来识别或选择期望功能。作为另一例子，一个或多个接近度检测器和/或接近度传感器可用来确定用户(例如用户的手等)何时接近输入元件(例如开关、按钮、旋钮、输入区等)，且可基于所确定的接近度来识别或选择期望功能。作为又一例子，输入元件(例如开关、旋钮等)的用户选择可被识别并用来识别或选择与输入元件相关联的功能。

一旦期望功能被识别出，与该功能相关联的一组语法元素就可用来处理所接收的音频输入，例如语音输入。音频输入可由任何数量的适当音频捕获设备(例如一个或多个麦克风)收集。在某些实施例中，可至少部分地基于所识别的用户输入来发起音频输入的收集或捕获。例如，当输入元件选择或手势被识别出(或手势的开始被识别出)时，可开启麦克风。在其它实施例中，所识别的用户输入可用来识别相关的所收集的音频输入。例如，可利用缓冲器来存储最近收集的音频输入。一旦识别出用户输入，就可识别出在用户输入紧接着之前、期间和/或紧接着之后捕获的音频输入。在任一情况中，都可利用与所识别的功能相关联的语法元素来评估所收集的音频。在这个方面，语法元素(或多个语法元素)或与功能相关联的命令可被识别为对应于所收集的音频输入。一旦将语法元素(或多个语法元素)识别为匹配或对应于音频输入，就可输出各种适当的信息，例如所识别的语法元素的指示或与功能相关联的控制信号。例如，如果音频系统功能被识别出，则“向上”命令可被识别并处理，以便调大无线电的音量。作为另一例子，如果窗户功能被识别出，则“向上”命令可被识别并处理，以便升起窗户。

可选地，在某些实施例中，用户可被允许使期望的用户输入和/或语法元素与各种功能相关联。例如，可识别学习新输入功能或指示(例如基于用户输入而识别)，且可基于学习新输入指示来跟踪一个或多个用户输入(例如手势、到输入元件的接近度、输入元件的选择等)。所跟踪的一个或多个用户输入可接着与期望的功能(例如由用户选择和/或指定的功能)相关联。此外，如所期望的，由用户提供的音频输入(例如口头单词和/或短语等)可被收集并用来生成与期望的功能相关联的一个或多个语法元素。

现在将参考附图在下文中更充分描述某些实施例，在附图中示出各种实施例和/或方案。然而，各种方案可体现在很多不同的形式中，且不应被解释为限于本文阐述的实施例；而是，这些实施例被提供以使得本公开将是详尽和完整的，并将本公开的范围完全传达给本领域中的技术人员。相似的数字始终指相似的元件。

系统概述

图1是根据本公开的示例性实施例的可用于将语音输入的目标定为各种车辆功能的示例性系统100或体系结构的方框图。系统100可包括各种硬件和/或功能部件，例如用户输入部件105、选择部件110、功能特定语法115的任何数量的集合或群集、音频捕获部件120、语音引擎125、和/或动作部件130。下面将更详细描述这些部件中的每一个。此外，将认识到，图1的系统100可体现在各种各样适当的形式，包括但不限于各种系统、装置、和/或由一个或多个处理器执行的计算机可读介质中。下面参考图3更详细地描述图1所示的系统100的一个示例性详细实施例。

参考图1，用户输入部件105可便于收集、确定和/或识别与车辆相关联的一个或多个用户输入。可如所期望的收集和/或识别各种不同类型的用户输入，包括但不限于用户所做出的手势、用户到一个或多个输入元件的接近度、和/或一个或多个输入元件(例如物理输入元件，如开关、旋钮、按钮等)的用户选择。如所期望的，各种适当的用户输入收集设备可用来收集和/或识别用户输入，例如一个或多个图像捕获设备、一个或多个接近度传感器、和/或一个或多个输入元件。

至少部分地基于由用户输入部件105收集和/或确定的信息的评估，选择部件110可识别或确定与车辆相关联的功能。接着选择部件110可识别和/或选择各种功能特定信息。例如，可选择与功能相关联的一组语法元素(例如话音命令等)。在某些实施例中，可选择与功能相关联的功能特定语法115的集合或群集。在这个方面，所接收的用户输入可用来将语音识别的目标定为与期望功能相关联的语法元素。

音频捕获部件120可用来收集或捕获与用户相关联的音频输入。例如，麦克风可用来收集包括由用户说出的话音命令(例如单词、短语等)的音频信号。语音引擎125可接收音频输入，并利用与选定或期望功能相关联的语法元素来评估所接收的音频输入。在这个方面，语音引擎125可识别与选定功能相关联的语法元素或话音命令。各种适当的语音识别算法和/或技术可如所期望的用来识别语法元素或用户说出的话音命令。此外，一旦识别出语法元素，就可采取各种适当的输出、指令和/或控制动作。例如，动作部件130可产生被提供到与选定功能相关联的任何数量的车辆应用和/或部件的一个或多个控制信号。作为另一例子，动作部件130可将所接收和识别的话音命令转换成可由与选定功能相关联的应用处理的格式。

图2是示出用于获得与目标语音识别相关联的用户输入的示例性技术的简化示意图200。参考图2，描绘了用户的手205、车辆音频控制面板210、和车辆气候控制面板215。音频控制面板210可与一个或多个音频控制功能相关联，且气候控制面板215可与一个或多个气候控制功能相关联。如所期望的，每个控制面板210、215可包括任何数量的物理输入元件，例如各种旋钮、按钮、开关和/或触摸屏显示器。在其它实施例中，每个控制面板可包括或相关联于配置成检测用户的手205(或其它对象)的接近度的一个或多个接近度传感器。在又一些其它实施例中，每个控制面板(和/或其基本功能)可与车辆内的一个或多个指定输入区相关联。例如，仪表板、控制台或车辆内的其它位置上的指定输入区可与音频控制装置相关联。在某些实施例中，指定输入区可包括一个或多个接近度传感器。

各种适当的方法和/或技术可如所期望的用来识别、收集和/或获得与控制面板210、215和/或其基本功能相关联的用户输入。例如，用户的手的运动可被跟踪，以便识别指示控制面板或基本功能的手势。各种不同类型的手势可被识别。作为一个例子，可基于跟踪手205和/或手指运动来识别与音频控制功能相关联的预定运动(或系列运动)。作为另一例子，用户可指向控制面板或相关联的输入区，且该指向可被识别为手势。作为又一例子，在手205和控制面板或相关联的输入区之间的接近度可被基于图像数据的评估识别为手势。可评估任何所识别的手势，以便选择期望的基本功能，例如与控制面板210、215之一相关联的功能。

作为另一示例性用户输入，一个或多个接近度传感器可用来检测和/或确定在用户的手205和控制面板和/或与控制面板相关联的输入元件(例如物理输入元件、输入区等)之间的接近度。可接着至少部分地基于所确定的接近度的评估来选择期望功能。例如，可基于在用户的手205和音频控制面板210之间的所确定的接近度来选择音频控制功能。作为另一例子，可基于在用户的手205和与音频控制面板210相关联的调谐输入元件(例如调谐旋钮等)之间的所确定的接近度，来选择音频调谐功能(例如无线电调谐、卫星无线电调谐等)。实际上，使用任一种所述类型的用户输入，通过特定性的变化程度，可以识别功能的可应用的语法元素的子集。

作为又一示例性用户输入，用户可利用他或她的手来选择一个或多个物理输入元件(例如旋钮、按钮、开关、和/或一个或多个触摸屏显示器的元件)。可接着至少部分地基于选定的物理输入元件来选择期望功能。例如，如果选择了与音频控制面板210相关联的一个或多个输入元件，则可选择音频控制功能。作为另一例子，可识别特定的选定输入元件，例如音量输入元件220，并可识别与选定输入元件相关联的功能(例如音量调节功能等)。可选地，与较高级别的功能相关联的语法元素可偏重于(weightedtowards)与选定的输入元件相关联的特定的较低级别功能。例如，如果选择了音量输入元件220，则可选择音频控制功能。然而，当识别出与音频控制功能相关联的识别出的一组语法元素时，某些命令可偏重于音量控制。例如，所接收的“向上”命令可导致增加的音频音量；然而，非音量音频命令仍将被处理。作为另一例子，如果已选择了调谐输入元件，则所接收的“向上”命令可导致在向上方向上调谐音频部件。

上面参考图2描述的方法和/或技术仅作为例子被提供。各种其它类型的用户输入和/或用户输入的各种组合可被识别并用来定语音识别的目标。

图3是可在本公开的各种实施例中被利用的示例性语音识别系统300或体系结构的方框图。在某些实施例中，系统300可被实现或体现为语音识别系统。在其它实施例中，系统300可被实现或体现为另一系统或设备的部件，例如与车辆相关联的车辆内信息娱乐(“IVI”)系统。在又一些其它实施例中，可提供用于处理用户输入和/或语音输入的一个或多个适当的计算机可读介质。这些计算机可读介质可包括由一个或多个处理设备执行的计算机可执行指令，以便处理用户输入和/或相关联的语音输入。如在本文使用的，术语“计算机可读介质”描述用于保持任何形式的信息的任何形式的适当的存储器或存储器设备，包括各种存储设备(例如磁、光、静态等)。实际上，本公开的各种实施例可在各种各样适当的形式中实现。

如所期望的，系统300可包括与用于处理用户输入和/或相关联语音输入的适当的硬件和/或软件相关联的任何数量的适当计算设备。这些计算设备还可包括用于处理数据和执行计算机可执行指令的任何数量的处理器，以及本领域中公知的其它内部和外围部件。此外，这些计算设备可包括可操作来存储数据和/或计算机可执行指令的任何数量的适当存储器设备或与这些存储器设备通信。通过执行计算机可执行指令，可形成用于将语音输入的目标定为各种车辆功能的专用计算机或特定的机器。

参考图3，系统300可包括一个或多个处理器305和存储器设备310(通常被称为存储器310)。此外，系统可包括与处理器305通信的任何数量的其它部件，例如任何数量的输入/输出(“I/O”)设备315、任何数量的车辆音频捕获设备320(例如麦克风)、和/或任何数量的适当应用325。I/O设备315可包括用来捕获用于定语音识别的目标的用户输入的任何适当的设备和/或部件(例如一个或多个图像捕获设备或图像传感器330)、任何数量的接近度传感器335、和/或任何数量的输入元件340(例如按钮、旋钮、开关、触摸屏显示器等)。此外，如所期望的，I/O设备315可包括便于用户互动的各种各样的其它部件，例如一个或多个显示设备。

处理器305可包括任何数量的适当处理设备，例如中央处理单元(“CPU”)、数字信号处理器(“DSP”)、精简指令集计算机(“RISC”)、复杂指令集计算机(“CISC”)、微处理器、微控制器、现场可编程门阵列(“FPGA”)或其任何组合。如所期望的，可提供用于控制在处理器305和系统300的一个或多个其它部件之间的通信的芯片组(未示出)。在一个实施例中，系统300可基于体系结构系统，且处理器305和芯片组可来自处理器和芯片组的族，例如处理器族。处理器305还可包括一个或多个处理器作为用于处理特定的数据处理功能或任务的一个或多个专用集成电路(“ASIC”)或专用标准产品(“ASSP”)的部分。此外，任何数量的适当I/O接口和/或通信接口(例如网络接口、数据总线接口等)可便于处理器305和/或系统300的其它部件之间的通信。

存储器310可包括任何数量的适当存储器设备，例如高速缓存、只读存储器设备、随机存取存储器(“RAM”)、动态RAM(“DRAM”)、静态RAM(“SRAM”)、同步动态RAM(“SDRAM”)、双数据速率(“DDR”)SDRAM(“DDR-SDRAM”)、RAM-BUS DRAM(“RERAM”)、闪存设备、电可擦除可编程只读存储器(“EEPROM”)、非易失性RAM(“NVRAM”)、通用串行总线(“USB”)可移动存储器、磁存储设备、可移动存储设备(例如存储卡等)、和/或不可移动存储设备。如所期望的，存储器310可包括与系统300通信的内部存储器设备和/或外部存储器设备。存储器310可存储数据、可执行指令、和/或由处理器305利用的各种程序模块。可由存储器310存储的数据的例子包括数据文件342、与语法元素相关联的信息344、与一个或多个用户简档346相关联的信息、和/或可由处理器305执行的任何数量的适当程序模块和/或应用，例如操作系统(“OS”)348、一个或多个输入处理模块350、和/或一个或多个语音识别模块352。

数据文件342可包括便于系统300的操作、用户输入的识别和处理、和/或语音输入的处理的任何适当的数据。例如，所存储的数据文件342可包括但不限于与用户的识别相关联的信息、与车辆功能相关联的信息、与车辆功能的各自语法元素相关联的信息、与各种类型的用户输入的识别相关联的信息、与车辆应用325相关联的信息、和/或各种与其它车辆和/或语音识别相关信息。语法元素信息344可包括与可由语音识别模块352识别的多个不同的语法元素相关联的各种信息(例如命令、语音输入等)。例如，语法元素信息344可包括与任何数量的功能相关联的多个语法元素。多个语法元素可被分组成与各种功能相关联的任何数量的子集。用户简档346可包括与各种用户(例如车辆的各种驾驶员等)相关联的各种各样的用户偏好和/或参数，包括但不限于一个或多个用户的识别信息、与语音输入的处理相关联的用户偏好、与将相关联于各种功能的语法元素相关联的用户偏好、和/或与将相关联于各种功能的输入相关联的用户偏好。

OS348可以是便于系统300的一般操作以及其它程序模块(例如输入处理模块350和/或语音识别模块352)的执行的适当的模块或应用。输入处理模块350可包括至少部分地基于用户输入便于用户输入的识别和/或功能的选择的任何数量的适当软件模块和/或应用。在操作中，输入处理模块350可接收用户输入数据和/或来自一个或多个I/O设备315的数据，例如测量数据、图像数据和/或与选定的输入元件相关联的数据。如所期望的，输入处理模块350可评估所接收的数据，以便识别与用户输入相关联的功能。在这个方面，可识别和/或确定与功能相关联的语法元素。此外，功能的识别可被提供到语音识别模块352。在这个方面，可结合所接收的音频输入来评估功能特定语法元素，并可执行目标语音识别。

在各种实施例中，可如所期望的由输入处理模块350识别各种不同类型的用户输入，包括但不限于用户手势、用户到输入元件的接近度、和/或输入元件的用户选择。例如，图像传感器330(例如照相机等)可用来收集感兴趣的对象(例如用户的手等)的图像，且所收集的图像可由输入处理模块350评估和/或处理以识别用户做出的手势。可如所期望的识别各种不同类型的手势，例如与手运动(例如全手运动、手指运动等)相关联的手势和/或与在车辆内定义的感兴趣区的指示(例如，与感兴趣区的接触、到感兴趣区的接近度、指向感兴趣区等)相关联的手势。可接着至少部分地基于手势的评估来识别或选择期望功能。作为另一例子，一个或多个接近度传感器335可用来确定用户(例如用户的手等)何时接近输入元件(例如开关、按钮、旋钮、输入区等)，且期望功能可基于所确定的接近度来被识别或选择。作为又一例子，一个或多个输入元件340(例如开关、旋钮等)的用户选择可被识别并用来识别或选择与一个或多个输入元件340相关联的功能。

语音识别模块352可包括便于所接收的语音输入的处理的任何数量的适当软件模块和/或应用。在操作中，语音识别模块352可识别与车辆功能(例如基于用户输入的评估而选择的功能)相关联的可应用语法元素。在某些实施例中，功能的可应用语法元素可以是可用于通过语音识别模块352处理的多个语法元素的子集。此外，可从各种适当的源，例如内部存储器和/或任何数量的外部设备(例如网络服务器、云服务器、用户设备等)访问和/或获得语法元素。

一旦音频输入或语音输入被接收用于处理，语音识别模块352就可按照功能特定语法元素来评估语音输入，以便确定或识别在所接收的语音输入和语法元素之间的对应性。一旦语法元素(或多个语法元素)被识别为与语音输入匹配，语音识别模块352就可产生和/或输出与语法元素相关联的各种信息。例如，所识别的语法元素可转换成被提供给执行车辆应用325的输入。在这个方面，话音命令可被识别并分派到车辆相关应用325。作为另一例子，可处理所识别的语法元素，以便产生被提供到车辆应用325、车辆系统和/或车辆部件的一个或多个控制信号和/或命令。在某些实施例中，可处理所识别的语音输入，以便产生输出信息(例如音频输出信息、显示信息、用于通信的消息等)用于显现给用户。例如，可产生并输出与话音命令的识别和/或处理相关联的音频输出。作为另一例子，可基于话音命令的处理来更新视觉显示。

如所期望的，输入处理模块350和/或语音识别模块352可被实现为任何数量的适当模块。可选地，单个模块可执行输入处理模块350和语音识别模块352的功能。下面参考图4-7更详细描述输入处理模块350和/或语音识别模块352的操作的几个例子。

继续参考图3，I/O设备315可包括便于待提供到处理器305和/或输入处理模块350的信息的收集的任何数量的适当设备和/或部件。适当的输入设备的例子包括但不限于一个或多个图像传感器330或图像收集设备(例如照相机等)、任何数量的接近度传感器335、任何数量的适当输入元件340。如所期望的，I/O设备315可额外地包括便于将信息输出到用户的任何数量的适当输出设备。适当的输出设备的例子包括但不限于一个或多个扬声器和/或一个或多个显示器。显示器可包括任何数量的适当的显示设备，例如液晶显示器(“LCD”)、发光二极管(“LED”)显示器、有机发光二极管(“OLED”)显示器、和/或触摸屏显示器。可如所期望的利用其它适当的输入和/或输出设备。

图像传感器330可包括将光图像转换成电子信号的任何已知的设备，例如照相机、电荷耦合器件(“CCD”)、互补金属氧化物半导体(“CMOS”)传感器等。在操作中，由图像传感器330收集的数据可被处理，以便确定或识别各种适当信息。例如，可评估图像信息，以便识别用户、检测用户指示、和/或检测用户手势。

接近度传感器335可包括配置成检测附近对象(例如用户的手)的存在的任何已知的设备。在某些实施例中，可在对象和接近度传感器之间没有任何物理接触的情况下检测存在。某些接近度传感器335可发射电磁场或电磁辐射(例如红外辐射等)的波束。随后可确定在所发射的场中的变化和/或返回信号的识别，并用来识别对象的存在和/或接近度。此外，如所期望的，接近度传感器335可与任何适当的标称范围相关联，标称范围可与对象或目标的检测相关联。

输入元件340可包括配置成接收用户输入的任何数量的适当物理部件和/或设备，以及与用户输入的接收相关联的任何数量的预定义的输入区。适当的物理输入元件的例子包括但不限于按钮、旋钮、开关、触摸屏、电容感测元件等。当由用户启动和/或选择时，物理输入元件可产生直接或间接地提供到输入处理模块350用于评估的数据(例如电信号等)。可选地，与用户选择相关联的识别信息(例如选定输入元件和/或相关联功能等的识别)可被提供到输入处理模块350。输入区可以是在车辆内与功能相关联的适当的感兴趣区域或区。例如，仪表板、控制台或车辆内的其它位置上的指定输入区可与各种功能相关联。在某些实施例中，与输入区相关联的手势(例如用户指向输入区、接近输入区的用户运动等)可被识别并评估，以便选择与输入区相关联的功能。在其它实施例中，指定输入区可包括一个或多个接近度传感器。

音频捕获设备320可包括用于捕获音频信号和/或语音信号(例如口头单词和/或短语)的任何数量的适当设备，例如麦克风。音频捕获设备320可包括任何已知类型的麦克风，包括但不限于电容式麦克风、动态麦克风、电容振动膜麦克风、压电麦克风、光学拾取麦克风和/或其组合。在操作中，音频捕获设备320可收集声波和/或压力波，并向处理器305和/或语音识别模块352提供所收集的音频数据(例如话音数据)用于评估。在这个方面，可识别各种语音输入。此外，在某些实施例中，所收集的话音数据可与所存储的简档信息作比较，以便识别一个或多个用户。

继续参考图3，任何数量的车辆应用325可与系统300相关联。如所期望的，与所识别的语音输入相关联的信息可被提供到应用325。在某些实施例中，一个或多个应用325可由处理器305执行。如所期望的，一个或多个应用325可由与处理器305通信(例如网络通信)的其它处理设备执行。在示例性车辆实施例中，应用325可包括与车辆相关联的任何数量的车辆应用，包括但不限于一个或多个车辆控制应用、气候控制应用、音频系统应用、窗户(例如窗户、天窗等)控制应用、座椅控制应用、显示控制应用、导航控制应用、网络或其它网络应用、通信控制应用、维护应用、管理与用户设备和/或其它车辆的通信的应用、监测车辆参数的应用、和/或任何其它适当的应用。

上面参考图3描述的系统300或体系结构仅作为例子被提供。如所期望的，各种其它系统和/或体系结构可用来执行语音输入的目标处理。这些系统和/或体系结构可包括与图3所示的部件不同的部件和/或部件的布置。

操作概述

图4是用于评估用户输入来将语音识别的目标定为车辆功能的示例性方法400的流程图。在某些实施例中，方法400的操作可由适当的语音识别系统和/或一个或多个相关联的模块和/或应用执行，例如图3所示的语音识别系统300和/或相关联的输入处理模块350和/或语音识别模块352。方法400可在块405开始。

在块405，可存储与多个车辆功能和/或应用的任何数量的各自可听命令相关联的语法元素。可选地，可识别语法元素的源。在某些实施例中，语法元素的各自子集可与各种车辆功能和/或应用相关联。此外，在某些实施例中，可在语法元素的配置和/或与语法元素相关联的语音识别期间考虑各种不同类型的配置信息。例如，可识别车辆的一个或多个用户(例如驾驶员)，且可获得一个或多个用户的用户简档信息。用户简档信息可用来识别与各种功能相关联的用户特定语法元素和/或输入(例如手势、输入元件识别、输入元件选择等)。

如所期望的，可利用各种适当的方法和/或技术来识别用户。例如，用户的话音样本可被收集并与所存储的话音样本比较。作为另一例子，用户的图像数据可被收集并利用适当的面部识别技术来进行评估。作为另一例子，其它生物统计输入(例如指纹等)可被评估以识别用户。作为又一例子，可基于确定车辆和用户设备(例如移动电话等)之间的配对和/或基于由用户输入的用户识别信息(例如个人识别号码等)的接收和评估来识别用户。

在块410，可接收和/或识别与车辆相关联的用户输入。可在各种实施例中如所期望的识别各种不同类型的用户输入。例如，在块415，可至少部分地基于从图像传感器接收到的图像数据的评估来识别用户手势(例如由用户的手做出的手势、输入元件的指示等)。作为另一例子，在块420，可至少部分地基于从一个或多个接近度传感器接收到的数据来确定用户(例如用户的手)到输入元件(例如物理输入元件、输入区等)的接近度。作为又一例子，在块425，可识别一个或多个输入元件(例如物理输入元件)的用户选择。

在块430，可至少部分地基于所识别的用户输入的评估来选择或识别车辆功能。可接着在块435识别与选定功能相关联的语法元素的子集。在某些实施例中，可至少部分地基于用户输入来缩减功能的语法元素的子集。例如，如果用户输入与改变音频系统的音量相关联，则功能可被识别为与音量控制语法元素相关联的音频控制功能。基于用户输入与音量控制相关联的确定，音频控制语法元素可被限制到音量控制语法元素。在其它实施例中，可基于所接收的用户输入来偏向和/或偏重与选定功能相关联的语法元素的子集。使用音频控制功能的上述例子，音频控制语法元素可被选择和偏向于音量控制。

在块440，可从任何数量的适当音频收集设备(例如麦克风)接收音频输入。在某些实施例中，可至少部分地基于所识别的用户输入来发起音频输入的收集。例如，当选择功能时，麦克风可被开启或启动。在其它实施例中，可利用所识别的用户输入来识别相关的所收集的音频输入。例如，可利用缓冲器来存储最近收集的音频输入。一旦识别出用户输入，就可识别出在用户输入紧接着之前、期间和/或紧接着之后捕获的音频输入以进行处理。在任一情况中，都可利用与所识别的功能相关联的语法元素来在块445评估所收集的音频。在这个方面，与所识别的功能相关联的语法元素(或多个语法元素)或命令可被识别为对应于所收集的音频输入。

一旦已将与功能相关联的语法元素(或多个语法元素)识别为匹配或对应于音频输入，就可在块450输出与语法元素相关联的各种适当的信息，例如所识别的语法元素的指示或与功能相关联的控制信号。例如，如果已经识别出音频系统功能，则“向上”命令可被识别并处理，以便调大无线电的音量。作为另一例子，如果已识别出窗户功能，则“向上”命令可被识别并处理，以便升起窗户。作为又一例子，如果已识别出座椅控制功能，则“更稳固”、“更软”或“更多腰部支撑”命令可被处理，以便调节座椅控制。实际上，可处理关于各种车辆功能的各种适当的命令。方法400可在块450之后结束。

图5是用于识别与语音识别的目标相关联的手势的示例性方法500的流程图。方法500示出图4所示的块415的操作的一个示例性实现，以及对所接收的音频输入的随后评估。因此，方法500的操作可由适当的语音识别系统和/或一个或多个相关联的模块和/或应用执行，例如图3所示的语音识别系统300和/或相关联的输入处理模块350和/或语音识别模块352。方法500可在块505开始。

在块505，可为了手势识别的目的而识别感兴趣的对象。例如，可基于一个或多个图像传感器所收集的图像数据的评估利用任何数量的适当图像识别技术来识别用户的手(例如驾驶员的手等)。在块510，可接收与所识别的感兴趣对象相关联的图像数据。例如，图像传感器可捕获与感兴趣对象的运动相关联的图像，且所捕获的图像可被接收以进行处理。可选地，图像传感器可处理所捕获的图像，且与所执行的处理相关联的信息(例如与所识别的手势相关联的信息等)可被接收。

在块515，可识别与感兴趣的对象相关联的手势。在本发明的各种实施例中可如所期望的识别各种不同类型的手势。例如，在块520，可跟踪和评估感兴趣的对象的运动，以便识别手势，例如用户进行任何数量的运动和/或对象配置(例如表示天窗的控制的前后运动、表示窗户的控制的上下运动、与音频系统或气候控制系统的控制相关联的一系列运动和/或手配置等)。作为另一例子，在块525，可识别对象到感兴趣区或对象的接近度和/或感兴趣区或对象的指示，例如用户指向输入元件或其它对象(例如指向窗户、指向音频控制面板、指向输入区等)或用户将感兴趣对象放置在输入元件或其它对象附近或接触输入元件或其它对象。

在块530，可识别或确定与所识别的手势相关联的功能。在这个方面，可识别和/或访问与功能相关联的语法元素。此外，音频捕获可在块535被发起和/或评估，且所接收的音频输入可在块540被处理以便识别和/或处理与功能相关联的话音命令。该方法可在块540之后结束。

图6是用于识别与语音识别的目标相关联的接近度信息的示例性方法的流程图。方法600示出图4所示的块420的操作的一个示例性实现，以及对所接收的音频输入的随后评估。因此，方法600的操作可由适当的语音识别系统和/或一个或多个相关联的模块和/或应用执行，例如图3所示的语音识别系统300和/或相关联的输入处理模块350和/或语音识别模块352。方法600可在块605开始。

在块605，可利用任何数量的适当接近度传感器来检测用户和/或与用户相关联的对象(例如用户的手、用户的手指等)到输入元件(例如物理输入元件、输入区等)的接近度。在块610，可识别或确定与输入元件相关联的功能。在这个方面，可识别和/或访问与功能相关联的语法元素。此外，音频捕获可在块615被发起和/或评估，且所接收的音频输入可在块620被处理以便识别和/或处理与功能相关联的话音命令。方法600可在块620之后结束。

图7是用于使用户输入与语音识别的语法元素相关联的示例性方法700的流程图。在某些实施例中，方法700的操作可由适当的语音识别系统和/或一个或多个相关联的模块和/或应用执行，例如图3所示的语音识别系统300和/或相关联的输入处理模块350和/或语音识别模块352。方法700可在块705开始。

在块705，可识别学习指示。例如，可基于所接收的用户输入(例如学习手势、话音命令、相关联输入元件的选择等)来识别学习新输入功能或指示。在某些实施例中，可识别与指定功能相关联的学习指示。在其它实施例中，学习指示可被识别，且功能可随后被指定、选择或定义。一旦识别出学习指示，就可进入学习模式。

在块710，可跟踪和/或识别一个或多个用户输入(例如手势、到输入元件的接近度、输入元件的选择等)。所跟踪的一个或多个用户输入可接着在块715与期望功能(例如由用户选择和/或指定的功能)相关联。在这个方面，用户可定义或指定与目标话音识别的特定功能的选择相关联的用户输入。

此外，在某些实施例中，可在块720提示用户与功能相关联的音频输入。在这个方面，可修改功能的语法元素和/或可建立功能的新语法元素。在提示音频输入之后，可在块725接收(例如从一个或多个适当的音频捕获设备收集，等等)音频数据。在块730，所接收的音频数据的至少一部分可与功能的语法元素(例如待修改的语法元素、新语法元素等)相关联。实际上，在各种实施例中，可如所期望的代表用户执行各种各样的定制。方法700的操作可在块730之后结束。

在本发明的各种实施例中可如所期望的以任何适当的顺序实施或执行在图4-7的方法400、500、600和700中所述和所示的操作。此外，在某些实施例中，操作的至少一部分可被并行地执行。此外，在某些实施例中，比图4-7中描述的更少或更多的操作可被执行。

本文描述的本公开的某些实施例可以有这样的技术效果：至少部分地基于所接收的用户输入的评估为语音识别定目标。例如，在车辆环境中，手势、输入元件的选择和/或用户所做出的其它输入可用来识别期望功能，且为了语音识别目的而识别与功能相关联的语法元素。作为结果，在用户不必遍历语音命令的层级的情况下，可以执行相对有效和直观的语音识别。

上面参考根据示例性实施例的系统、方法、装置和/或计算机程序产品的方框图和流程图描述了本公开的某些方面。将理解，方框图和流程图的一个或多个块以及方框图和流程图中的块的组合可分别由计算机可执行程序指令实现。同样，根据一些实施例，方框图和流程图中的一些块可能不一定需要以所呈现的顺序执行，或可能根本不一定需要被执行。

这些计算机可执行程序指令可被加载到专用计算机或其它特定的机器、处理或其它可编程数据处理装置以产生特定的机器，使得在计算机、处理器或其它可编程数据处理装置上执行的指令产生用于实现在流程图的一个或多个块中指定的一个或多个功能的模块。这些计算机程序指令也可存储在可引导计算机或其它可编程数据处理装置以特定的方式起作用的计算机可读存储器中，使得存储在计算机可读存储器中的指令产生包括指令模块的制品，指令模块实现在流程图的一个或多个块中指定的一个或多个功能。作为例子，某些实施例可提供计算机程序产品，包括具有体现在其中的计算机可读程序代码或程序指令的计算机可用介质，所述计算机可读程序代码适合于被执行来实现在流程图的一个或多个块中指定的一个或多个功能。计算机程序指令也可加载到计算机或其它可编程数据处理装置上，以使一系列操作元件或步骤在计算机或其它可编程装置上被执行来产生计算机实现的过程，使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图的一个或多个块中指定的功能的元件或步骤。

因此，方框图和流程图的块支持用于执行指定功能的模块的组合、用于执行指定功能的元件或步骤的组合、和用于执行指定功能的程序指令模块。还应认识到，方框图和流程图的每个块以及方框图和流程图中的块的组合可由执行指定功能、元件或步骤的专用基于硬件的计算机系统或专用硬件和计算机指令的组合实现。

条件语言例如尤其是“能够(can)”、“能(could)”、“可能(might)”或“可以(may)”，除非特别指出，否则通常在所使用的上下文中理解，其一般旨在传达某些实施例可包括(虽然其它实施例不包括)某些特征、元件和/或操作。因此，这样的条件语言通常并不用来暗示特征、元件和/或操作以任何方式是一个或多个实施例所需的，或一个或多个实施例必须包括用于在有或没有用户输入或提示的情况下决定这些特征、元件和/或操作是否在任何特定的实施例中被包括或应被执行的逻辑。

受益于在前述描述和相关联附图中介绍的教导，本文所阐述的本公开的很多修改和其它实施例将是明显的。因此，应理解，本公开不限于所公开的特定实施例，并且修改和其它实施例被意图包括在所附权利要求的范围内。虽然在本文使用了特定的术语，但它们仅在一般和描述性意义上而不是为了限制的目的而被使用。

Claims

1.一种车辆，包括：

至少一个存储器，其配置成存储与所述车辆的可听命令相关联的多个语法元素；

至少一个麦克风；

至少一个用户输入捕获设备；以及

一个或多个处理器，其配置成：

基于从所述至少一个用户输入捕获设备接收到的信息来识别与所述车辆相关联的用户输入；

至少部分地基于所识别的用户输入的评估来选择与所述车辆相关联的功能，其中所述功能与被存储的所述多个语法元素的子集相关联；

从所述至少一个麦克风接收音频输入；

基于所接收的音频输入的评估来识别与选定功能相关联的语法元素；以及

输出与所识别的语法元素相关联的信息。

2.如权利要求1所述的车辆，其中，所识别的用户输入包括以下之一：(i)用户手势或(ii)用户到输入元件的接近度。

3.如权利要求2所述的车辆，其中，所述至少一个输入捕获设备包括至少一个图像捕获设备，以及

其中，所述一个或多个处理器还配置成：从所述至少一个图像捕获设备接收一个或多个图像，并根据所述一个或多个图像确定所述用户手势。

4.如权利要求2所述的车辆，其中，至少部分地基于以下之一确定所述用户手势：(i)跟踪手运动或(ii)确定手或手指到所述车辆内的定义区的接触或接近度。

5.如权利要求1所述的车辆，其中，所述一个或多个处理器还配置成基于所述用户输入的识别来发起音频输入的接收。

6.如权利要求1所述的车辆，其中，输出信息包括以下中的一个或多个：车辆控制命令、气候控制命令、音频系统命令、窗户控制命令、座椅控制命令、显示控制命令、网络命令、或通信控制命令。

7.如权利要求1所述的车辆，其中，所述一个或多个处理器还配置成：

识别学习新输入指示；

至少部分地基于识别出所述学习新输入指示来跟踪一个或多个用户输入；以及

使所跟踪的一个或多个用户输入与功能相关联。

8.如权利要求7所述的车辆，其中，所述一个或多个处理器还配置成：

引导输出提示以用于使用户说出与待与功能的控制相关联的语法元素相关联的一个或多个单词；

响应于所述提示接收所收集的音频数据；以及

使所接收的音频数据的至少一部分与所述语法元素相关联。

9.一种包括由一个或多个处理器执行计算机可执行指令的方法，所述方法还包括：

存储与车辆的可听命令相关联的多个语法元素；

识别与所述车辆相关联的用户输入；

从与所述车辆相关联的至少一个音频捕获设备接收音频输入；

输出与所识别的语法元素相关联的信息。

10.如权利要求9所述的方法，其中，识别用户输入包括识别以下之一(i)用户手势或(ii)用户到输入元件的接近度。

11.如权利要求10所述的方法，其中，识别用户输入包括：

从至少一个图像捕获设备接收一个或多个图像；以及

根据所述一个或多个图像确定所述用户手势。

12.如权利要求10所述的方法，其中，确定所述用户手势包括下列之一：

(i)至少部分地基于跟踪手运动来确定所述手势，或

(ii)至少部分地基于手或手指到所述车辆内的定义区的接触或接近度来确定所述手势。

13.如权利要求9所述的方法，还包括：

基于所述用户输入的识别来发起音频输入的接收。

14.如权利要求9所述的方法，其中，输出信息包括输出以下中的一个或多个：车辆控制命令、气候控制命令、音频系统命令、窗户控制命令、座椅控制命令、显示控制命令、网络命令、或通信控制命令。

15.如权利要求9所述的方法，还包括：

识别学习新输入指示；

使所跟踪的一个或多个用户输入与功能相关联。

16.如权利要求15所述的方法，还包括：

提示用户说出与待与功能的控制相关联的语法元素相关联的一个或多个单词；

响应于所述提示接收音频数据；以及

使所接收的音频数据的至少一部分与所述语法元素相关联。

17.一种包括一个或多个处理器并配置成执行下列操作的装置：

存储与车辆的可听命令相关联的多个语法元素；

识别与所述车辆相关联的用户输入；

接收音频输入；

输出与所识别的语法元素相关联的信息。

18.如权利要求17所述的装置，其中，所识别的用户输入包括以下之一：(i)用户手势或(ii)用户到输入元件的接近度。

19.如权利要求18所述的装置，其中，所述装置还配置成：

从至少一个图像捕获设备接收一个或多个图像；以及

根据所述一个或多个图像确定所述用户手势。

20.如权利要求18所述的装置，其中，至少部分地基于以下之一来确定所述用户手势：(i)跟踪手运动或(ii)确定手或手指到所述车辆内的定义区的接触或接近度。

21.如权利要求17所述的装置，其中，所述装置还配置成基于所述用户输入的识别来发起音频输入的接收。

22.如权利要求17所述的装置，其中，输出信息包括以下中的一个或多个：车辆控制命令、气候控制命令、音频系统命令、窗户控制命令、座椅控制命令、显示控制命令、网络命令、或通信控制命令。

23.如权利要求17所述的装置，其中，所述装置还配置成：

识别学习新输入指示；

使所跟踪的一个或多个用户输入与功能相关联。

24.包括计算机可执行指令的一个或多个计算机可读介质，当被一个或多个处理器执行时，所述计算机可执行指令将所述一个或多个处理器配置成：

识别与车辆的可听命令相关联的多个存储的语法元素；

识别与所述车辆相关联的用户输入；

至少部分地基于所识别的用户输入的评估来选择与所述车辆相关联的功能，其中所述功能与所述多个存储的语法元素的子集相关联；

接收音频输入；

输出与所识别的语法元素相关联的信息。

25.如权利要求24所述的计算机可读介质，其中，所识别的用户输入包括以下之一：(i)用户手势或(ii)用户到输入元件的接近度。

26.如权利要求25所述的计算机可读介质，其中，所述一个或多个处理器还配置成：

从至少一个图像捕获设备接收一个或多个图像；以及

根据所述一个或多个图像确定所述用户手势。

27.如权利要求25所述的计算机可读介质，其中，至少部分地基于以下之一来确定所述用户手势：(i)跟踪手运动或(ii)确定手或手指到所述车辆内的定义区的接触或接近度。

28.如权利要求24所述的计算机可读介质，其中，所述一个或多个处理器还配置成基于所述用户输入的识别来发起音频输入的接收。

29.如权利要求24所述的计算机可读介质，其中，输出信息包括以下中的一个或多个：车辆控制命令、气候控制命令、音频系统命令、窗户控制命令、座椅控制命令、显示控制命令、网络命令、或通信控制命令。

30.如权利要求24所述的计算机可读介质，其中，所述一个或多个处理器还配置成：

识别学习新输入指示；

使所跟踪的一个或多个用户输入与功能相关联。