CN104050967A

CN104050967A - 语音接口系统和方法

Info

Publication number: CN104050967A
Application number: CN201410089906.5A
Authority: CN
Inventors: R.卡纳; 京光达哉; X.关
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-03-14
Filing date: 2014-03-12
Publication date: 2014-09-17
Also published as: JP2014179067A; US20140278436A1; US9123345B2; DE102014204108A1

Abstract

描述了一种可以通过移动计算设备访问的语音控制的系统。用户可以使用自然语言发音通信请求。麦克风可以收集该发音并将其提供给移动计算设备。移动计算设备可以发送人类发音到语音接口系统。当执行请求时，语音接口系统可以利用用户偏好以提供个性化的用户体验。这里也描述了计算机实现的方法。

Description

语音接口系统和方法

技术领域

下面描述的系统和方法总体涉及话音识别的领域，并且，更具体地，涉及基于车辆的语音接口系统和方法。

背景技术

由于比如智能电话、平板电脑等等的移动计算设备变得越来越普遍存在并且它们的功能增加，用户经常在车辆中操作这样的个人设备。这些移动计算设备经常通过无线空中接口保持与数据网络的连接。一些具有图形用户界面的车辆提供了在乘客的移动计算设备和所述图形用户界面之间的数据连接，从而允许将通过蜂窝网络的无线空中接口接收的信息提供给车辆的图形用户界面。

发明内容

根据一个实施例，提供了一种语音控制的系统。该语音控制的系统包括被配置为存储用户偏好数据的用户偏好数据库和与该用户偏好数据库通信的语音接口计算系统。语音接口计算系统被配置成经由无线通信网络从移动计算设备接收音频数据，其中所述音频数据包含人类发音。语音接口计算系统也被配置成将音频数据发送给话音识别模块，从话音识别模块接收文本数据，将文本数据发送给自然语言处理模块，并从自然语言处理模块接收命令集。语音接口计算系统被进一步配置成基于所述命令集和存储在用户偏好数据库中的用户偏好数据来执行命令，其中，执行命令包括经由无线通信网络与远程应用程序通信和与移动计算设备通信。

根据另一个实施例，提供了一种方法，其包括由计算系统接收用户偏好数据，由计算系统从移动计算设备接收音频数据，其中所述音频数据包含人类发音；以及由计算系统发送音频数据到话音识别模块，以获得与该音频数据相关联的文本数据。该方法还包括由计算系统发送文本数据到自然语言处理单元；由计算系统从自然语言处理单元接收命令集，以及基于所述命令集和用户偏好数据执行命令。

根据又一个实施例，提供了一种系统，其包括被配置为存储用户偏好数据的用户偏好数据库和与该用户偏好数据库通信的语音接口计算系统。语音接口计算系统被配置成从连接到车载车辆网络的移动计算设备接收音频数据，其中所述音频数据包括所述车辆的乘客的自然语言人类发音。语音接口计算系统还被配置成与自然语言处理模块通信，该自然语言处理模块被配置成基于人类发音的意图将命令集发送到语音接口计算系统，基于所述命令集和存储在用户偏好数据库中的用户偏好数据执行命令，并使得经由移动计算设备将信息显示给车辆的乘客。

附图说明

参考下面的描述、所附权利要求和附图，将更好地理解各种实施例，附图中：

图1示出语音控制的系统的示例简化框图。

图2示出另一种语音控制的系统的示例框图。

图3示出利用语音接口系统的示例处理流程。

图4示出示例的语音控制的系统的示例消息顺序图。

具体实施方式

现在将描述本公开的各种非限制性实施例，以提供对这里公开的语音接口系统和方法的结构、功能和使用的原理的全面理解。这些非限制性实施例的一个或多个示例示于附图中。本领域的普通技术人员将会理解，这里具体描述并在附图中示出的系统和方法是非限制性实施例。结合一个非限制性实施例示出或描述的特征可以与其它非限制性实施例的特征相结合。这些修改和变型意图被包括在本公开的范围之内。

在整个说明书中对“各种实施例”、“一些实施例”、“一个实施例”、“一些示例实施例”、“一个示例实施例”或“一实施例”的引用是指结合任何实施例所描述的特定的特征、结构或特性被包括在至少一个实施例中。因此，在整个说明书中短语“在各实施例中”、“在一些实施例中”、“在一个实施例中”、“在一些示例实施例中”、“在一个示例实施例中”或“在一实施例中”的出现不一定都指相同的实施例。此外，特定特征、结构或特性可以以任何合适的方式组合在一个或多个实施例中。

在本公开中，对组件或模块的引用一般是指在逻辑上可以被组合在一起以执行一个功能或一组相关功能的项。相同的附图标记（如，例如108、208、308）通常用来指代相同或相似的部件。组件和模块可以在软件、硬件、或软件与硬件的组合中实现。术语“软件”被宽泛地使用以不仅包括可执行代码，还包括数据结构、数据商店、和任何电子格式的计算指令、固件和嵌入式软件。术语“信息”和“数据”被宽泛地使用，并且可以包括各种各样的电子信息，包括但不限于机器可执行或计算机可解释的指令；内容，如文本、视频数据和音频数据等；以及各种码或标志。当上下文允许时，术语“信息”、“数据”和“内容”有时可互换使用。

这里所论述的示例仅仅是示例，并被提供以协助对这里所描述的装置、设备、系统和方法的说明。除非特别指定为强制性的，则示于附图或以下讨论的特征或组件，均不应被视为对这些装置、设备、系统或方法的任何一个的任何具体实施是强制性的。为了便于阅读和清楚起见，某些组件、模块或方法可以连同具体的附图进行单独地描述。任何未明确描述的组件的组合或子组合不应当被理解为表明任何组合或子组合是不可能的。另外，对于所描述的任何方法，不管是否结合流程图来描述该方法，应理解，除非另有规定或根据上下文需要，在方法的执行中所执行的步骤的任何明示或暗示的顺序不意味着这些步骤必须以给出的顺序来执行，而是可以以不同的顺序或并行地执行。

车辆可包括一个或多个图形用户界面以呈现各种类型的信息给乘客车厢的乘员。示例信息可以包括导航信息、车载娱乐信息、车辆诊断信息、和通过与因特网或其它类型网络的无线连接而接收到的信息。一些车辆允许诸如智能电话、平板电脑等等的移动计算设备被连接到车载车辆网络，诸如通过通用串行总线（USB）、Wi-Fi、ZIGBEE、IEEE802.11x网络协议族之一或任何其它合适的无线或有线网络协议。通过这种连接，由移动计算设备接收到的信息可以被提供给车辆的图形用户界面，以使得它可以被乘客车厢的乘员观看或以其他方式由车辆使用。在一些实施例中，处于与车辆通信中的移动计算设备还可以执行软件应用程序，有时被称为“app”，其通过合适的无线通信协议与远程服务器进行通信。因此，在执行移动计算设备上的应用程序期间从远程服务器接收到的信息可以被传递到车辆的图形用户界面或提供给车辆。

这里所描述的系统和方法一般地提供用于允许车辆的乘员通过自然语言语音命令与车辆的图形用户界面进行交互的技术。在一些实施例中，车外（例如，基于云的）实时话音识别被用于解译车辆的乘员的自然语言命令，并转而根据乘员的偏好执行命令。其结果是，可为车辆的乘员提供基于与远程话音识别系统的自然语言通信的个性化或定制功能。

图1示出语音控制的系统的示例简化框图。移动计算设备108被示出为经由车载车辆网络（如在图4中示出的车载车辆网络454）与车辆110通信。移动计算设备108可以是能够进行网络通信的任何合适的设备，如智能电话、平板电脑、游戏系统、膝上型计算机等等。如下面更详细描述的，移动计算设备108可以通过使用任何合适的通信协议的任何合适类型的数据连接来与车辆110通信。在一些实施例中，例如，移动计算设备108通过有线连接与车辆110通信，而在其它实施例中，移动计算设备108通过无线连接与车辆110通信。在任何情况中，移动计算设备108也可以与语音接口系统100通信。在一些实施例中，语音接口系统100是比如通过移动计算设备108上的网络浏览器应用程序生成的命令经由基于网络的通信来访问的。在一些实施例中，语音接口系统100是经由安装在移动计算设备108上并且在移动计算设备108上执行的专门的应用程序来访问的。

车辆110可以包括能够接收由车辆的驾驶员或（多个）乘客所说的人类发音112的麦克风、或其它类型的音频转换器，驾驶员或（多个）乘客中的任何人在这里都被一般地称为“用户”。人类发音112又可以通过车载车辆网络的方式以电子音频文件的形式被提供给移动计算设备108。在一些实施例中，由车辆110接收到的音频在提供数据给移动计算设备108之前利用有损编解码器或其它数据压缩技术进行压缩。如将被理解的，除了其它好处之外，压缩音频文件还可以减少等待时间。

由用户所提供的人类发音112可以是自然语言格式，以使得不必要求用户说出特定的命令或短语以执行想要的功能。此外，人类发音112可以涉及各种各样的话题或命令。例如，人类发音112可以是基于目的地的请求，如“我饿了”或者“哪里是最近的意大利餐厅”。人类发音112也可以是与目的地和天气有关的请求，如“明天在我开户地方的天气会怎样？”人类发音112甚至可以涉及社交网络网站或其它类型的第三方应用程序，如“告诉我一些最近的状态更新。”人类发音112还可以涉及车内娱乐，如“播放我最喜爱的歌曲”或“是谁唱这首歌？”如可以理解的，大量其它类型的人类发音112可以被提供给车辆110，而不脱离本公开的范围。

仍然参照图1，一旦接收到人类发音112，移动计算设备108就可以将音频数据传递到语音接口系统100。音频数据可以通过比如例如蜂窝网络或WiFi网络之类的任何合适的无线空中接口进行传递。一旦从移动计算设备108接收到音频数据，语音接口系统100就可以通常确定用户的意图，然后基于用户的意图（并且如果可用，还基于用户的个人偏好）执行一个或多个命令。例如，为了执行该处理的各个方面，语音接口系统100可以与各种模块通信，其中一些可能是远离语音接口系统100的，并可经由应用程序编程接口（API）进行访问。

在图示的实施例中，语音接口系统100与话音识别模块104通信，该话音识别模块104通常用作将音频数据转换成文本数据。话音识别模块104可以利用常规的话音到文本处理算法，以将人类发音112转换成基于文本的格式。一旦已经由语音接口系统100从话音识别模块104接收了文本数据，该文本数据就可被提供给自然语言处理单元102，用于进一步处理。自然语言处理单元102可以被配置为利用自然语言理解（NLU）算法和技术来确定人类发音112的意图。在一些实施例中，自然语言处理单元102利用在题为“Lexical Acquisition Apparatus,Multi DialogueBehavior System,and Lexical Acquisition Program,”的美国专利申请公开号No.2010/0332231中描述的处理技术，所述美国申请的全部内容通过引用据此合并到本申请中。

仍然参照图1，自然语言处理单元102可以基于人类发音112的意图来确定通常满足用户的请求的命令集。该命令集可以被提供给语音接口系统100用于执行。在一些实施例中，对命令集中命令的执行可利用由语音接口系统100存储的或以其它方式对语音接口系统100可访问的各种用户偏好或个人数据，以个人化用户的体验。如下面更详细描述的，用户偏好可以包括，但不限于，餐饮偏好、导航偏好、预约数据、历史数据、无线电台偏好、娱乐偏好、气候控制偏好、温度设置偏好、座椅位置偏好，等等。在某些情况下，执行命令集中的命令可能需要与一个或多个应用程序114通信，如社交网络应用程序、网页搜索应用程序、日历应用程序、GPS应用程序，或者任何其它合适类型的应用程序、网站或网络可访问的数据。

基于与相关联的应用程序114的通信，可以从应用程序114之一或通过语音接口系统100的方式将与人类发音112有关的数据或信息提供给移动计算设备108。在任何情况下，一旦数据或信息已被移动计算设备108接收，其随后可使用车载车辆网络被发送给车辆110。然后车辆110可将该信息显示在图形用户显示器上或以其它方式使用该信息。

如将要理解的，图1所示的语音控制的系统的各种组件可以组合在一起。例如，在一些实施例中，话音识别模块104和/或自然语言处理单元102可以是语音接口系统100的一个组件。此外，在一些实施例中，话音识别模块104和自然语言处理单元102可以被结合并用作单个组件。

图2示出另一种语音控制的系统的示例框图。该语音控制的系统包括接收和处理来自移动计算设备208的音频内容的语音接口系统200。例如，语音接口系统200可以使用任何合适的基于处理器的设备或系统来提供，比如个人计算机、膝上型计算机、服务器、大型机、或多个计算机的集合（例如，网络）。语音接口系统200可以包括一个或多个处理器（例如，220）和一个或多个计算机存储器单元（例如，222）。为方便起见，只有一个处理器220和只有一个存储器单元222示于图2。处理器220可以执行存储在存储器单元222上的软件指令。处理器220可以被实现为具有一个或多个内核的集成电路（IC）。存储器单元222可以包括易失性和/或非易失性存储器单元。例如，易失性存储器单元可以包括随机存取存储器（RAM）。例如，非易失性存储器单元可以包括只读存储器（ROM），以及机械的非易失性存储器系统，诸如，例如，硬盘驱动器、光盘驱动器等。例如，RAM和/或ROM存储器单元可以被实现为分离的存储器IC。

存储器单元222可以存储可执行的软件和数据，使得当所述语音接口系统200的处理器220执行该软件时，可使得处理器220执行语音接口系统200的各种操作，比如从计算机设备接收信息，处理从计算机设备接收的命令，以及在用户数据库中存储和取得信息，这将在下面更详细地讨论。语音接口系统200所使用的数据可以来自各种来源，如来自数据库228或其它类型的电子数据商店。例如，数据库228可包括用户偏好数据库。存储在数据库228中的数据可以被存储在非易失性计算机存储器中，如硬盘驱动器、只读存储器（例如，ROM IC）、或其它类型的非易失性存储器。另外，例如，与数据库228相关联的数据可被存储在远程电子计算机系统上。

示出为用户设置218的用户偏好数据可由语音接口系统200从与计算设备216进行交互的用户来接收。在一些实施例中，通过经由所述计算设备216呈现给用户的网络入口来接收用户设置218。在一些实施例中，可以在允许用户提供用户设置给语音接口系统200的计算设备216上执行专门的应用程序。在一些实施例中，计算设备216是移动计算设备208中，但是本公开并不限于此。用户一般可以使用任何合适的计算设备216与语音接口系统200进行交互，使得可以存储用户的偏好，从而可以提供给用户个性化的语音交互体验，这将在下面更详细地描述。包括在用户设置218中的数据的类型可以改变，但示例包括最喜欢的餐厅、优选驾车路线、日历预约、联系人地址、社交网络信息、娱乐相关信息，等等。用户设置218也可例如包括图形显示偏好，比如在执行与语音接口系统200相关联的专门的应用程序时在移动计算设备208上显示的特定图标的顺序。

如图2所示，语音接口系统200可以包括多个计算机服务器。例如，语音接口系统200可以包括一个或多个网络服务器（例如，226）和应用服务器（例如，224）。为方便起见，只有一个网络服务器226和一个应用服务器224被示于图2，但应该认识到，本公开并不限于此。网络服务器226可以提供图形网络用户界面，系统的用户可以通过该界面与语音接口系统200进行交互。网络服务器226可以从客户端（比如移动计算设备208上的网络浏览器）接受诸如HTTP请求之类的请求，并与诸如网页（例如，HTML文档）和链接的对象（如图像等）之类的可选数据内容一起提供诸如HTTP响应之类的客户端响应。

应用服务器224可以为不使用网络浏览器与语音接口系统200通信的用户提供用户界面。这样的用户可以在他们的移动计算设备208上安装允许他们经由通信网络与应用服务器224通信的专用软件。例如，这样的软件可以诸如通过网络从语音接口系统200或其它软件应用程序供应商（即，Apple^TM iStore^TM）下载到移动计算设备208。

虽然图2为了说明的目的示出了有限数量的元件，应理解，语音接口系统200按照所描述的实施例可以包括更多或更少的元件以及其它类型的元件。语音接口系统200的元件可以根据给定的一组设计参数的需要或性能约束，包括：实现为硬件组件（例如，计算设备、处理器、逻辑设备）的用于通信信息的物理或逻辑实体、由各种硬件组件执行的可执行计算机程序指令（例如，固件、软件）、或它们的组合。

如下面更详细描述的，语音接口系统200也可以与诸如话音识别（SR）模块204、自然语言处理模块202、和/或文本到话音（TTS）模块232之类的其它模块通信（或在某些情况下包括其它模块）。语音接口系统200还可以与一般地示为第三方应用程序214的各种其它基于计算机的系统通信。示例第三方应用程序214包括等。例如，语音接口系统200可以使用任何合适类型的通信，诸如例如使用API协议，来与各种模块和应用程序通信。

语音接口系统200可以经由电子通信网络（未示出）与移动计算设备208通信。所述通信网络可以包括多个计算机和/或数据网络，包括因特网、局域网、广域网、GPRS网络等，并且可以包括有线和/或无线通信链路。与语音接口系统200进行通信的移动计算设备208可以是适合于在网络上进行无线通信的任何类型的客户端设备，诸如例如个人计算机、膝上型计算机、智能电话、个人数字助理（PDA）、组合移动电话/PDA，游戏设备、通讯设备、媒体播放器、寻呼机、平板电脑或上网本电脑。

一些移动计算设备208还可以支持包括因特网接入的无线广域网（WWAN）数据通信服务。WWAN数据通信服务的示例可以包括演进数据优化和仅演进数据（EV-DO）、演进数据和语音（EV-DV）、CDMA/1xRTT、具有通用分组无线业务系统的GSM（GSM/GPRS）、增强型数据速率全球演进（EDGE）、高速下行链路分组接入（HSDPA）、高速上行链路分组接入（HSUPA）、以及其它。移动计算设备208可以根据电气和电子工程师协会（IEEE）802.xx系列协议，如IEEE802.11a/b/g/n系列标准协议和变型（也称为“Wi-Fi”）、EEE802.16系列标准协议和变型（也称为“WiMAX的”）、IEEE802.20系列标准协议和变型等等来提供无线局域网（WLAN）数据通信功能。

在一些示例实施例中，移动计算设备208还可以被布置为根据短距离无线网络（比如根据特别兴趣小组（SIG）系列协议、规范、配置文件等等提供数据通信服务的无线个人区域网（PAN））来执行数据通信功能。短距离无线网络的其它示例可以采用红外（IR）技术或近场通信技术和协议，比如包括无源或有源的射频识别（RFID）协议和设备的电磁感应（EMI）技术。移动计算设备208也可以被配置为利用有线连接（比如例如通用串行总线（USB）连接之类）来执行数据通信功能。

移动计算设备208可以包含各种无线电元件，包括无线电处理器、一个或多个收发器、放大器、滤波器、开关等等，以提供语音和/或数据通信功能。可以理解，移动计算设备208可以根据利用不同的无线电元件来实现不同的通信技术的不同类型的无线网络系统来操作。移动计算设备208还可以包括用于支持不同类型连接的各种输入/输出（I/O）接口，比如串行连接端口、IR端口、接口、网络接口、Wi-Fi接口、WiMAX接口、蜂窝网络接口、无线网络接口卡（WNIC）、收发器等等。移动计算设备208可以包括一个或多个内部和/或外部天线以支持在多个频带或子带内操作，比如用于Wi-Fi和通信的ISM频带的2.4GHz范围；用于GSM、CDMA、TDMA、NAMPS、蜂窝和/或PCS通信的850MHz、900MHZ、1800MHz和1900MHz频带中的一个或多个；用于CDMA2000/EV-DO和/或WCDMA/JMTS通信的2100MHz频带；用于全球定位系统（GPS）操作的1575MHz频带，等等。

移动计算设备208可提供用于允许用户使用语音接口系统200来完成一个或多个特定任务的各种应用程序。应用程序可以包括，但不限于，网络浏览器应用程序（例如，INTERNET NETSCAPE ）、电话应用程序（例如，蜂窝、VoIP、PTT）、网络应用程序、通讯应用程序（例如，电子邮件、IM、SMS、MMS、Messenger）、联系人应用程序、日历应用程序，等等。根据所描述的实施例，移动计算设备208可以包括诸如系统程序和应用程序之类的各种软件程序以提供计算能力。系统程序可以包括，但不限于，操作系统（OS）、设备驱动程序、编程工具、实用程序、软件库、应用程序编程接口（API）等等。例如，示例性操作系统可以包括等等。

移动计算设备208可以包括与诸如用于呈现用户界面的显示器和用于输入数据和/或命令的键盘之类的应用进行交互的各种组件。移动计算设备208可以包括与一个或多个应用一起使用的其它组件，如指示笔、触摸屏、按键（例如，输入键、预置和可编程热键）、按钮（例如，动作按钮、多向导航按钮，预置和可编程快捷按钮）、开关、麦克风、扬声器、音频耳机、相机等等。通过该界面，用户可以与移动计算设备208交互。

在一些示例操作条件中，移动计算设备208在诸如车辆的乘客厢之类的移动环境210内操作。移动计算设备208可以移动计算设备接口240通信。例如，移动计算设备接口240可以是无线接口（例如，使用WiFi、或ZIGBEE协议）或有线接口（例如，使用USB协议）。通常，移动计算设备接口240允许经由车载车辆网络在移动计算设备208和移动环境210的各种组件之间进行数据通信。示例组件包括，但不限于，扬声器242、音频压缩引擎244、麦克风246和图形显示器248。在一些实施例中，呈现在移动计算设备208的显示屏幕上的内容可被发送到移动环境210的图形显示器248。例如，图形显示器248可以是车辆“信息娱乐”系统的组件、头上显示器、或移动环境210中的用户可见的其它类型的显示器。

一般来说，语音接口系统200可以为移动环境210中的用户提供基于用户偏好的、移动计算设备208的受自然语言语音激活的操作。因此，个性化的体验被提供给与系统进行交互的用户。现在将更详细地描述图2所示的语音接口系统200的示例操作。移动计算设备208可以执行一般地在移动计算设备208和语音接口系统200之间建立通信信道的应用程序。通过移动计算设备接口240的方式，通过移动计算设备208接收的图形内容可被显示在图形显示器248上。一旦移动计算设备208与移动计算设备接口240和语音接口系统200两者通信，用户就可以通过说出自然语言句子格式的请求来利用该系统。

人类发音212由位于移动环境内的麦克风246接收。麦克风246将音频提供给音频压缩引擎244，如由SPEEX、OPUS等提供的压缩引擎。压缩的音频被诸如使用近场通信（NFC）或其它数据传输技术传给移动计算设备208。一旦接收到音频数据，移动计算设备208将该信息发送到语音接口系统200。然后，语音接口系统200使用任何合适的话音识别技术（例如，Dragon Naturally 等）来获得语音数据的文本记录。在图示的实施例中，经由API将音频数据提供给话音识别模块204，返回文本数据。然后，文本数据可以被传到本地或远程的自然语言处理模块202。自然语言处理模块202确定人类发音212的意图，如同在基于文本的数据中发现的。然后，基于所述意图，一个或多个命令（在这里称为命令集）被供给到语音接口系统200，所述命令如果由语音接口系统200执行，则将满足在人类发音212中所表达的意图。接着，基于从自然语言处理模块202接收到的命令集，语音接口系统200确定是否有任何用户设置218与该命令集相关。

举例来说，如果人类发音212是“附近是否有任何我喜欢的餐馆？”，则自然语言处理模块202可以发出诸如“生成5英里半径内的餐馆列表”和“交叉引用列表到用户设置中的优选餐馆”的命令。然后，语音接口系统200将诸如通过与通过至少一个第三方应用程序214可用的在线搜索工具进行通信来取得5英里半径内的餐馆列表。然后，语音接口系统200将附近餐馆的列表与用户在用户设置218中提供的餐馆名称进行比较。如果存在匹配，则语音接口系统200生成文本字符串，比如“一英里远处有Panera Bread公司，你愿意去那里吗？”，并把它提供给文本到发音模块232。一旦接收到相关的音频，它就被发送到移动环境210中的移动计算设备208。通过移动计算设备接口240的方式将相关的音频传给移动环境210中的扬声器242。在一些实施例中，地图或其它相关信息也可以显示在移动计算设备208和图形显示器248上。当听到问题时，用户可以回答由语音接口系统200提出的问题。然后，被示为图2中的人类发音212的答案被提供给语音接口系统200，进而，提供给自然语言处理模块202用于处理。例如，自然语言处理模块202可确定该用户确实想要在所建议的餐馆吃饭。同样地，自然语言处理模块202可以分配比如提供到所选餐馆的路线指引之类的适当命令到语音接口系统200。然后，路线指引可被发送到移动计算设备208以被显示在图形显示器248上。

图3示出这里所描述的利用语音接口系统的示例处理流程300。在302，接收用户偏好数据。在一些实施例中，从计算设备216（图2）接收用户偏好数据并且将其存储在数据库中，比如数据库228（图2）。用户偏好数据可以包括可由语音接口系统使用以向用户提供个性化的用户体验的任何类型的信息。在304，从移动计算设备接收人类发音。人类发音可以是音频数据的形式，比如压缩的音频波形。可以从移动计算设备通过诸如蜂窝或WIFI网络等等的合适的通信网络接收人类发音。

在306，人类发音被转换为文本。在一些实施例中，话音识别模块可用于将人类发音的说出的话翻译成文本。然后，在308，文本可被发送给自然语言处理单元。自然语言处理单元一般可以实现自然语言理解（NLU）功能来解释解译文本，以收集在304处接收的、在人类发音中表达的用户意图。基于在人类发音中表达的意图，自然语言处理单元可用识别一个命令集。在310，从自然语言处理单元接收命令集。该命令集可以包含能够被执行以基于在人类发音中表达的意图来执行处理的一个或多个命令。在312，基于该命令集和在302接收到的用户偏好数据执行动作。因此，由于所执行的特定动作是基于用户偏好数据的，所以可为语音接口系统的用户提供个性化的用户体验。

图4描绘了示例语音的控制系统的示例消息序列图。如图所示，语音控制的系统可包括处于与头部单元406通信中的麦克风446。麦克风446和头部单元406可以是车辆的组件。头部单元406可以包括图形显示器，以及相关的硬件和软件。移动计算设备408可以与头部单元406通过车载车辆网络454通信。在一些实施例中，例如，移动计算设备408可经由协议与头部单元406通信。移动计算设备408可经由通信网络450与语音接口系统400通信。在一些实施例中，语音接口系统400通常可被认为是“基于云”的服务，因为移动计算设备408可以通过网络通信将基于语音的处理卸载到语音接口系统400。与图2所示的实施例相似，语音接口系统400可以与诸如话音识别模块404、自然语言处理单元402、用户偏好数据库428和远程服务器414的各种实体、模块等通信。

在语音接口系统400的示例操作期间，麦克风446将包括作为音频数据的人类发音的消息460发送到头部单元406。头部单元406可以压缩该音频数据并将压缩的音频数据利用消息462发送给移动计算设备408。消息462可以通过车载车辆网络454进行发送。然后，移动计算设备408可以通过通信网络450发送消息464到语音接口系统400。一旦接收到包含在消息464中的音频数据，语音接口系统400就将包含该音频数据的消息466发送到话音识别。注意，消息466与消息序列图中的其它消息可以使用本领域中已知的任何合适的消息格式，如XML、JSON，等等。在任何情况下，话音识别模块404将音频数据转换成文本数据并在消息468中将该文本数据返回给语音接口系统400。语音接口系统400发送包含该文本数据的消息470到自然语言处理单元402。自然语言处理单元402确定在该基于文本的数据中所表达的意图，并提供命令集472给语音接口系统400。基于该命令集，语音接口系统400使用消息474查询用户偏好数据库428。来自用户偏好数据库428的返回消息476可以包括与该命令集相关联的偏好。如果没有可用的偏好，则在一些实施例中，语音接口系统400使用默认值来执行命令集。在任何情况下，一旦已经获得用户的偏好，消息478就被发送到远程服务器414以执行该命令。远程服务器414以消息480进行响应，该消息480可以通过语音接口系统400经由消息482提供给移动计算设备408。一旦接收了消息482，移动计算设备408可以通过车载车辆网络454的方式将消息484提供给头部单元406。然后，头部单元406将与最初由麦克风446接收的原始人类发音相关联的信息显示在图形显示器上。

一般地，对于本技术领域的普通技术人员之一来说，这里描述的至少一些实施例可以在软件、固件和/或硬件的许多不同的实施例中实现，这将是显而易见的。软件和固件代码可以由处理器或任何其它类似的计算设备来执行。可以被用于实现实施例的软件代码或专用控制硬件不是限制性的。例如，这里所描述的实施例可以使用任何合适的计算机软件语言类型，诸如，例如，传统的或面向对象的技术来在计算机软件中实现。这样的软件可以存储在任何类型的合适的计算机可读介质上，例如，例如，磁或光存储介质。可以不具体参照具体软件代码或专门的硬件组件地描述实施例的操作和行为。没有这样具体的参照是可行的，因为可以清楚地理解，本领域技术人员将能够基于本说明书，不作出更多理性思考并且无需过多实验地设计软件和控制硬件来实现所述实施例。

此外，这里描述的处理可以由诸如计算机或计算机系统和/或处理器的可编程设备执行。可以引起可编程设备执行处理的软件可以被存储在任何存储设备中，诸如，例如，计算机系统（非易失性）存储器、光盘、磁带或磁盘。此外，至少一些处理可以在制造计算机系统时被编程或存储在各种类型的计算机可读介质中。

还可以理解，可以使用存储在计算机可读介质上的、指导计算机系统执行处理步骤的指令来执行这里描述的处理的某些部分。计算机可读介质可以包括，例如，存储器设备，如软盘、光盘（CD）、数字多功能盘（DVD）、光盘驱动器或硬盘驱动器。计算机可读介质还可以包括物理的、虚拟的、永久的、临时的、半永久性，和/或半临时性的存储器存储。

“计算机”、“计算机系统”、“主机”、“服务器”或“处理器”可以是，例如但不限于：处理器、微型计算机、小型机、服务器、主机、膝上型计算机、个人数字助理（PDA）、无线电子邮件设备、蜂窝电话、寻呼机、处理器、传真机、扫描仪，或者配置为通过网络发送和/或接收数据的任何其它可编程设备。这里所公开的计算机系统和基于计算机的设备可以包括用于存储在获取、处理、和通信信息中使用的某些软件模块的存储器。可以理解，这样的存储器相对于所公开的实施例的操作可以是内部的或外部的。该存储器还可以包括任何用于存储软件的部件，包括硬盘、光盘、软盘、ROM（只读存储器）、RAM（随机存取存储器）、PROM（可编程ROM）、EEPROM（电可擦除PROM）和/或其它计算机可读介质。这里所使用的非临时性计算机可读介质包括所有的计算机可读介质，除了临时的、传播的信号。

在这里公开的各种实施例中，单个组件可以由多个组件代替，并且多个组件可以由单个组件代替，以执行给定的一种或多种功能。除非在这种替换是不可操作的地方，这样的替换是在所述实施例的预期范围内。计算机系统可以包括经由一条或多条数据总线与存储器（例如RAM或ROM）通信的一个或多个处理器。数据总线可以携带（多个）处理器和存储器之间的电信号。处理器和存储器可以包括传导电流的电路。诸如（多个）处理器和/或（多个）存储器电路的固态晶体管的该电路的各种组件的充电状态可以在电路的操作过程中改变。

一些附图可包括流程图。虽然这样的附图可以包括特定的逻辑流程，但是可以理解，逻辑流程仅仅提供一般功能的示例性实现。此外，除非另有指示，逻辑流程不一定必须按照所呈现的顺序被执行。此外，逻辑流程可以由硬件元件、通过计算机执行的软件元件、嵌入在硬件中的固件元件，或以上的任意组合来实现。

已经出于说明和描述的目的呈现了实施例和示例的上述描述。并不旨在穷尽或限制于所描述的形式。根据上述教导，许多修改是可能的。一些这样的修改的已讨论过，另一些将被本领域技术人员所理解。选择和描述所述实施例是为了最好地说明适合于预期的特定用途的各种实施例的原理。当然，其范围并不限于这里所阐述的示例，但可由本领域普通技术人员在任何数量的应用程序和等效设备中采用。据此，更确切地，是由所附的权利要求书限定本发明的范围。

Claims

1.一种语音控制的系统，包括：

被配置为存储用户偏好数据的用户偏好数据库；以及

处于与该用户偏好数据库通信中的语音接口计算系统，该语音接口计算系统被配置成：

经由无线通信网络从移动计算设备接收音频数据，其中所述音频数据包含人类发音；

将音频数据发送给话音识别模块；

从话音识别模块接收文本数据；

将文本数据发送给自然语言处理模块；

从自然语言处理模块接收命令集；以及

基于所述命令集和存储在用户偏好数据库中的用户偏好数据来执行命令，其中，执行命令包括经由无线通信网络与远程应用程序通信和与移动计算设备通信。

2.根据权利要求1所述的语音控制的系统，其中，语音接口计算系统被配置成从用户计算设备接收用户偏好数据。

3.根据权利要求2所述的语音控制的系统，其中用户计算设备是移动计算设备。

4.根据权利要求3所述的语音控制的系统，其中命令集是基于人类发音的所确定意图。

5.根据权利要求1所述的语音控制的系统，其中用户偏好数据标识数用户餐饮偏好、用户导航偏好和用户目的地偏好中的任何一个或多个。

6.根据权利要求5所述的语音控制的系统，其中语音接口计算系统被配置成生成入口以接收用户餐饮偏好、用户导航偏好和用户目的地偏好中的至少一个。

7.根据权利要求1所述的语音控制的系统，其中语音接口计算系统被配置成确定用户偏好数据是否与命令集相关联：

基于从自然语音处理模块接收到的命令集，使得：

当用户偏好数据与命令集相关联时，基于相关联的用户偏好数据执行命令；以及

当用户偏好数据不与命令集相关联时，基于默认数据执行命令。

8.一种方法，包括：

由计算系统接收用户偏好数据；

由计算系统从移动计算设备接收音频数据，其中所述音频数据包含人类发音；

由计算系统发送音频数据到话音识别模块，以获得与该音频数据相关联的文本数据；

由计算系统发送文本数据到自然语言处理单元；

由计算系统从自然语言处理单元接收命令集；以及

基于所述命令集和用户偏好数据执行命令。

9.根据权利要求8所述的方法，其中由计算系统接收的音频数据是由被配置成耦接到车辆的麦克风捕获的。

10.根据权利要求9所述的方法，其中当从移动计算设备接收到音频数据时，该移动计算设备位于车辆的乘客厢内。

11.根据权利要求8所述的方法，其中命令集是基于人类发音的所确定意图。

12.根据权利要求8所述的方法，其中用户偏好数据标识数用户餐饮偏好、用户导航偏好和用户目的地偏好中的任何一个或多个。

13.一种系统，包括：

被配置为存储用户偏好数据的用户偏好数据库；

从连接到车载车辆网络的移动计算设备接收音频数据，其中所述音频数据包括所述车辆的乘客的自然语言人类发音；

与自然语言处理模块通信，该自然语言处理模块被配置成基于人类发音的意图将命令集发送到语音接口计算系统；

基于所述命令集和存储在用户偏好数据库中的用户偏好数据执行命令；以及

引起经由移动计算设备将信息显示给车辆的乘客。

14.根据权利要求13所述的系统，其中语音接口计算系统被配置成发送音频数据到话音识别模块并从话音识别模块接收文本数据。

15.根据权利要求14所述的系统，其中语音接口计算系统被配置成发送文本数据到自然语言处理模块。

16.根据权利要求13所述的系统，包含被配置成从在移动计算设备上执行的应用程序接收通信的应用服务器。

17.根据权利要求13所述的系统，包含被配置成从在移动计算设备上执行的网路浏览器接收通信的网路服务器。

18.根据权利要求13所述的系统，其中用户偏好数据包含由车辆的乘客提供用户偏好数据。

19.根据权利要求18所述的系统，其中语音接口计算系统被配置成从移动计算设备取得用户偏好数据。

20.根据权利要求19所述的系统，其中语音接口计算系统被配置成从移动计算设备取得日历预约数据。