CN110491414B

CN110491414B - 使用动态可调监听超时的自动语音识别

Info

Publication number: CN110491414B
Application number: CN201910350169.2A
Authority: CN
Inventors: G·塔瓦尔; K·R·布克
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2018-05-11
Filing date: 2019-04-28
Publication date: 2023-07-04
Anticipated expiration: 2039-04-28
Also published as: US10490207B1; DE102019111529A1; CN110491414A; US20190348065A1

Abstract

一种使用动态可调监听超时的自动语音识别系统和方法。该方法包括：在第一语音监听时段期间接收表示第一语音段的语音信号；在第一语音监听时段期间，处理接收到的表示第一语音段的语音信号，以确定第一语音段是否包括一个或多个无关紧要的话语；响应于确定第一语音段是否包括一个或多个无关紧要的话语，调整监听超时；使用调整后的监听超时监听后续接收的语音；以及对接收的语音信号和/或后续接收的语音信号执行自动语音识别。

Description

使用动态可调监听超时的自动语音识别

引言

本发明涉及语音识别，且更具体地，涉及根据当前检测到的输入语音的特征来调整语音输入超时。

自动语音识别(ASR)系统可以从用户获得语音，然后使用语音识别技术来解释语音以便做出响应。ASR系统可以通过在监听时段期间启用麦克风来接收来自用户的语音来操作。接收声波时，麦克风可以保持在激活状态。然后，当停止接收声波时，可以开始超时，并且当超时到期时，监听时段结束。超时通常是静态设置的。然而，某些用户可能需要更多的时间说话，因此，使用静态长度的超时周期并不适合不同用户的语音变化。

发明内容

根据本发明的一个方面，提供了一种使用动态可调监听超时的自动语音识别方法，其中该方法包括：在第一语音监听时段期间接收表示第一语音段的语音信号；在第一语音监听时段期间，处理接收到的表示第一语音段的语音信号，以确定第一语音段是否包括一个或多个无关紧要的话语；响应于确定第一语音段是否包括一个或多个无关紧要的话语，调整监听超时；使用调整后的监听超时监听后续接收的语音；以及对接收的语音信号和/或后续接收的语音信号执行自动语音识别。

根据各种实施例，该方法可以进一步包括以下特征中的任何一个或者这些特征的任何技术上可行的组合：

其中所述处理步骤还包括确定所接收的语音信号是构成自然语言语音还是命令/控制语音；

所述处理步骤包括使用包括一个或多个隐藏层的神经网络模型来确定接收到的语音信号是否包括一个或多个无关紧要的话语；

调整步骤还包括确定监听超时被调整的程度的子步骤；

处理步骤还包括子步骤：响应于确定第一语音段包括一个或多个无关紧要的话语，基于无关紧要的话语的类型对一个或多个无关紧要的话语中的每一个进行分类；

一个或多个无关紧要的话语中的至少一个被分类为以下任何一种：口吃语音、填充语音或不可理解语音；

基于一个或多个无关紧要的话语的分类来执行对监听超时调整程度的确定；

调整步骤包括当确定第一语音段包括一个或多个无关紧要的话语时，延长监听超时的持续时间；

后续接收的语音信号表示第二语音段，并且其中后续接收的语音信号在第一语音监听时段期间被接收；

在第一语音监听时段期间接收表示第二语音段的后续接收的语音信号；

在处理步骤期间接收后续接收的语音信号；

表示第二语音段的后续接收的语音信号在第二语音监听时段期间被接收，其中第二语音监听时段发生在第一语音监听时段之后；

调整步骤基于与生成接收到的语音信号的用户相关联的用户语音简档，其中用户语音简档包括表示用户先前语音历史的信息，并且其中用户先前语音历史的至少一部分包括与用户使用无关紧要的话语相关的信息；

处理步骤基于第一语音段的内容；和/或

该方法由作为车辆的车辆电子设备的一部分包括的车辆系统模块(VSM)来执行。

根据本发明的另一方面，提供了一种使用动态可调监听超时的自动语音识别方法，其中该方法包括：在第一语音监听时段期间，在客户端设备处接收表示第一语音段的语音信号；在第一语音监听时段期间，当接收到语音信号时，处理表示第一语音段的语音信号，以确定第一语音段是否包括一个或多个无关紧要的话语；基于处理步骤调整监听超时；在调整步骤之后并且在第一语音监听时段期间，使用调整后的监听超时继续监听表示第二语音段的后续语音信号；以及在第一语音监听时段结束后，对接收的语音信号和/或后续接收的语音信号执行自动语音识别。

第一语音监听时段的结束由最后一次监听超时的期满来划分；和/或

最终的监听超时是调整后的监听超时。

根据本发明的又一方面，提供了一种自动语音识别系统，包括：客户端设备，包括：(a)至少一个麦克风；(b)包括监听超时调整应用程序的存储器；以及(c)处理器，被配置为执行监听超时调整应用程序，其中监听超时调整应用程序的执行使得客户端设备：(i)在第一语音监听时段期间，在至少一个麦克风处接收表示第一语音段的语音信号；(ii)在第一语音监听时段期间，处理接收到的表示第一语音段的语音信号，以确定第一语音段是否包括一个或多个无关紧要的话语；(iii)响应于确定第一语音段是否包括一个或多个无关紧要的话语，调整监听超时；(iv)使用调整后的监听超时监听后续接收的语音；以及(v)对接收的语音信号和/或后续接收的语音信号执行自动语音识别。

根据各种实施例，该方法可以进一步包括以下特征：客户端设备是作为车辆的车辆电子设备的一部分包括的车辆系统模块(VSM)。

附图说明

下文将结合附图描述本发明的一个或多个实施例，其中相同的标记表示相同的元件，并且其中：

图1是描绘能够利用本文公开的方法的通信系统的实施例的框图；

图2是描述自动语音识别(ASR)系统的实施例的框图；

图3A和图3B是使用动态可调监听超时的自动语音识别方法的实施例的流程图；

图4是描绘用于接收语音的监听时段的实施例的图表；以及

图5是描绘神经网络模型的实施例的框图，该神经网络模型可用于执行该方法的实施例的一个或多个步骤。

具体实施方式

下面描述的系统和方法包括调整在接收语音信号的监听时段期间使用的监听超时。例如，语音处理设备可以被配置为在第一监听时段期间监听语音信号，在第一监听时段期间处理语音信号，同时继续监听语音信号，确定语音信号是否包括无关紧要的话语(例如，口吃语音、填充语音或听不见的语音)，并且调整监听超时以用于后续语音接收过程，该后续语音接收过程可以包括在同一监听时段的剩余时间或未来监听时段期间监听后续语音信号。监听超时可以用于通知系统和/或方法用户是否已经停止讲话一段时间(等于监听超时)，使得系统和/或方法可以确定用户是否仍然(或者可能仍然)向系统输入语音信号。通过这种方式，麦克风可以切换到非激活或“关闭”模式，从而在监听超时到期后不会接收到额外的语音。

监听超时可以至少最初是预定的时间长度，并且可以在麦克风停止接收来自用户的语音时开始(即，开始运行)。当用户在监听超时运行期间开始讲话时，监听超时被重置，然后当用户再次停止讲话时再次开始。典型地，监听超时被静态地设置为预定的时间长度，该时间长度可用于确定是否应当结束监听时段以及何时语音输入设备应当切换到非激活模式(或者“关闭”状态/模式)。然而，本系统和/或方法的监听超时可以基于在第一监听时段(或语音段)期间接收的接收语音的处理来动态调整(例如，延长或缩短)。该系统和/或方法可以在接收语音时处理接收到的语音，并且在一些实施例中，可以在经过一定量的时间之后、接收到一定量的语音之后和/或基于各种其它因素来处理接收到的语音。该处理可以用于确定是否应该调整(例如延长或缩短)监听超时，以用于在同一监听时段和/或未来的监听时段期间接收附加语音。

如本文所使用的，“监听时段”指的是麦克风处于激活状态从而可以在麦克风处接收语音的时段。如本文所使用的，“语音段”指的是一段语音，并且可以包括多个标记。在其它实施例中，语音段ca包括单个标记。如本文所使用的，“标记”指的是表示人类语音的连续声波段，并且例如可以指以下任何一个或多个：一个或多个音节、一个或多个音素和/或一个或多个单词。因此，单个监听时段可以包括一个或多个语音段，每个语音段可以包括一个或多个标记。监听超时可以在接收到每个语音段之后开始运行，使得语音段的结束发生在监听超时开始的同时或最近之前。

如上所述，可以基于从当前监听时段的一个或多个语音段接收的语音来动态调整监听超时。例如，用户可以开始说话，并且该语音可以在麦克风处被接收。当用户的语音在麦克风处被接收时，语音信号可以被处理以确定该语音是否包括无关紧要的话语，例如口吃的标记(或结巴的标记)、填充的标记(例如，“嗯”、“呃”)和/或不可理解的标记(例如表示混淆或混乱的语音的声波、背景语音)。基于该处理和/或确定，可以动态调整或设置监听超时。例如，当用户的语音包括口吃的标记时，可以延长监听超时，使得由于监听超时的到期，用户在监听时段结束之前有更多的时间。这可以允许使用口吃的标记说话的用户有更多的时间说话，从而提高语音识别系统的准确性和理解度。至少在某些情况下，这可以通过提供语音识别系统来改善用户体验，该语音识别系统由于其动态调整当前监听时段期间使用的监听超时的能力而更容易接受不同语音类型的用户。虽然个人可以识别视觉和其它线索来确定说话者何时结束说话，但是许多计算机化的自动语音识别(ASR)系统缺乏这种能力，因此需要设置监听超时作为用于确定说话者是否结束说话的机制。并且，根据本文提供的方法和系统的各种实施例，可以响应于确定说话者希望有更多的时间来完成说话来调整(例如延长或缩短)监听超时，以便提高ASR系统的能力。

在一些实施例中，接收到的语音的处理可以包括确定接收到的语音是否作为实现自然语言语音的系统的一部分被输入，或者可选地，接收到的语音是否作为实现命令/控制语言的系统的一部分被输入。区分这两种类型的系统有助于通知系统和/或方法是否以及在多大程度上应该调整监听超时。例如，在自然语言语音的情况下，用户可以用更多的填充词说话，因此，可以确定应该延长监听超时，以便允许用户完整地说话而不会被监听超时的期满打断，因为至少在一些情况下，填充词的存在可以指示用户需要更多的时间来形成他们的语音。

在一些实施例中，下面的方法和系统实现了神经网络模型，用于动态调整待接收的语音片段的监听超时。如本文所用，“神经网络模型”指的是人工神经网络，其包括使用至少一个隐藏层将由各种因素(或输入)组成的输入映射到输出，该隐藏层将变化的输入值和/或条件互连或映射到输出。在一个实施例中，神经网络模型可用于确定接收到的语音是否包括无关紧要的话语、无关紧要的话语的类型和/或无关紧要的话语存在于接收到的语音中的程度和/或可能存在于尚未接收到的预期语音中。在其它实施例中，可以获得各种因素并将其输入到监听超时神经网络模型中，以便确定是否和/或在何种程度上应该针对当前或未来的监听时段调整监听超时。可以使用其它类型的模型，因为下面讨论的神经网络模型只是一个例子。

如本领域技术人员将理解的，下面讨论的方法可以在计算机程序或应用程序中实现，其可以被安装和/或配置为在各种不同的客户端设备上执行，包括手持移动设备(例如智能手机)、家庭自动化设备(例如智能个人助理，例如Amazon^TMAlexa^TM和Google^TM家庭)、车辆和/或任何能够接收和处理语音的设备。在特定实施例中，车辆可以用作语音识别设备来接收和执行语音处理，并且远程语音处理服务器(例如包括在车辆后端服务设施中的远程语音处理服务器)可以用于向车辆提供关于语音处理和/或监听超时调整过程的信息。

参考图1，示出了包括通信系统10的操作环境，该操作环境可用于实现本文公开的方法。通信系统10通常包括具有车身控制模块(BCM)26和无线通信设备30的车辆12、全球导航卫星系统(GNSS)卫星群60、一个或多个无线载波系统70、陆地通信网络76、计算机78、远程设施80和个人移动设备90。应当理解，所公开的方法可以用于任何数量的不同系统，并且不具体限于这里所示的操作环境。此外，系统10及其各个组件的架构、构造、设置和一般操作在本领域中是公知的。因此，以下段落简单地提供了一个这样的通信系统10的简要概述；然而，这里未示出的其它系统也可以采用所公开的方法。

无线载波系统70可以是任何合适的蜂窝电话系统。载波系统70显示为包括蜂窝塔72；然而，载波系统70可以包括一个或多个以下组件(例如取决于蜂窝技术)：蜂窝塔、基站收发台、移动交换中心、基站控制器、演进节点(例如演进基站)、移动性管理实体(MME)、服务和PGN网关等，以及将无线载波系统70与陆地网络76连接或者将无线载波系统与用户设备(UE，例如其可以包括车辆12中的远程信息处理设备)连接所需的任何其它联网组件。载波系统70可以实现任何合适的通信技术，包括GSM/GPRS技术、码分多址或CDMA2000技术、LTE技术等。通常，无线载波系统70、其组件、其组件的布置、组件之间的交互等在本领域中是公知的。

除了使用无线载波系统70，卫星通信形式的不同无线载波系统可以用于提供与车辆的单向或双向通信。这可以使用一个或多个通信卫星(未示出)和上行链路发射站(未示出)来完成。单向通信可以是例如卫星无线电服务，其中节目内容(新闻、音乐等)由上行链路发射站接收，打包上传，然后发送到卫星，卫星向用户广播节目。双向通信可以是例如卫星电话服务，使用一个或多个通信卫星来中继车辆12和上行链路发射站之间的电话通信。如果使用，可以使用这种卫星电话作为无线载波系统70的补充或替代。

陆地网络76可以是传统的陆地电信网络，其连接到一个或多个陆线电话并将无线载波系统70连接到远程设施80。例如，陆地网络76可以包括公共交换电话网(PSTN)，例如用于提供硬连线电话、分组交换数据通信和互联网基础设施的公共交换电话网。陆地网络76的一个或多个部分可以通过使用标准有线网络、光纤或其他光网络、电缆网络、电力线、其他无线网络如无线局域网(WLAN)或提供宽带无线接入(BWA)的网络或其任意组合来实现。

计算机78(仅示出一台)可以是可通过诸如因特网的私有或公共网络访问的多台计算机中的一些。在一个实施例中，每个这样的计算机78可以是能够执行语音处理的客户端设备，或者可以用于一个或多个目的，例如车辆12可访问的远程服务器(例如远程语音处理服务器)。其它这样的可访问计算机78可以是，例如：可用于提供位置服务的第三方服务器；服务中心计算机，其中可以从车辆上传诊断信息和其它车辆数据；车主或其他用户使用的客户端计算机，用于访问或接收车辆数据或设置或配置用户偏好或控制车辆功能；汽车共享服务器，其协调来自请求使用车辆作为汽车共享服务的一部分的多个用户的注册；或第三方储存库，其中车辆数据或其它信息通过与车辆12、远程设施80或两者的通信都被提供给该第三方储存库或从该第三方储存库提供。计算机78还可以用于提供互联网连接，例如DNS服务，或者作为网络地址服务器，其使用DHCP或其它合适的协议来为车辆12分配互联网协议(IP)地址。

远程设施80可以被设计成通过使用一个或多个电子服务器向车辆电子设备20和移动设备90提供多个不同的系统后端功能。例如，远程设施80可以部分用于促进或协调车辆12和一个或多个其它客户端设备(例如移动设备90或计算机78)之间发送的信息。在一个实施例中，远程设施80可以提供语音识别服务，其可以包括从客户端设备接收语音信号，并使用语音识别系统处理接收到的语音信号。附加地或替代地，远程设施80可以包括一个或多个交换机、服务器、数据库、实时顾问以及自动语音响应系统(VRS)，所有这些在本领域中都是已知的。远程设施80可以包括这些不同组件中的任何一个或全部，并且优选地，每个不同组件经由有线或无线局域网彼此耦合。远程设施80可以通过连接到陆地网络76的调制解调器接收和发送数据。

远程设施80还可以包括一个或多个数据库，这些数据库可以存储账户信息，例如用户认证信息、车辆标识符、用户语音简档、其它简档记录、行为模式、语音识别信息和其它相关的用户信息。如这里所使用的，语音识别信息包括可用于自动语音识别系统的信息，例如用于下面详细讨论的监听超时调整过程的信息。数据传输也可以由无线系统进行，例如IEEE802.11x、GPRS等。本领域技术人员将理解，尽管在所示实施例中仅描绘了一个远程设施80和一台计算机78，但是可以使用许多远程设施80和/或计算机78。

个人移动设备90是移动设备，并且可以包括：支持蜂窝电信和SRWC以及其他移动设备应用的硬件、软件和/或固件。如本文所使用的，个人移动设备是能够进行SRWC的移动设备，其便于用户携带，并且其中设备的便携性至少部分取决于用户，诸如可穿戴设备(例如智能手表)、可植入设备或手持设备(例如智能手机、平板电脑、膝上型电脑)。如此处所使用的，短程无线通信(SRWC)设备是能够进行短程无线通信的设备。个人移动设备90可以是客户端设备，并且可以包括用于存储软件、固件等的处理器和存储器(例如被配置为与处理器一起操作的非暂时性计算机可读介质)。个人移动设备的处理器和存储器可以启用各种软件应用程序92，这些软件应用程序可以由(例如具有软件应用或图形用户界面(GUI)的)用户(或制造商)预先安装或安装。

移动设备应用程序92的一个实施方式可以允许接收语音并使用语音识别技术处理接收到的语音，其中一些可以包括根据本文讨论的方法的各种实施例的语音识别。例如，移动设备可以包括麦克风，该麦克风能够接收由一个或多个用户生成的语音(即表示语音或话语的声波)。语音处理可以根据下面讨论的监听超时调整过程在移动设备上执行。在一些实施例中，应用程序92或另一移动设备应用程序可以包括图形用户界面(GUI)，该图形用户界面允许用户输入凭证、提交用于授权和/或认证的凭证、连接到车辆12、查看车辆状态信息、请求执行车辆功能和/或配置一个或多个车辆设置。移动设备90可以根据一种或多种SRWC技术或有线连接(例如使用通用串行总线(USB)电缆的连接)与无线通信设备30通信。尽管示出的是单个移动设备90，但是通信10可以包括多个移动设备90。

车辆12在图示的实施例中被描绘为客车，但是应当理解，任何其他车辆，包括摩托车、卡车、运动型多功能车(SUV)、娱乐车辆(RV)、船舶、飞机等，也可以使用。一些车辆电子设备20总体上在图1中示出，并且包括全球导航卫星系统(GNSS)模块22、发动机控制单元(ECU)24、车身控制模块(BCM)26、能够被配置为执行语音识别处理的无线通信设备30、其它车辆系统模块(VSM)42以及许多其它组件和设备。一些或所有不同的车辆电子设备可以通过一条或多条通信总线(例如总线44)相互连接以进行通信。通信总线44使用一个或多个网络协议为车辆电子设备提供网络连接。合适的网络连接的例子包括控制器局域网(CAN)、面向媒体的系统传输(MOST)、本地互连网络(LIN)、局域网(LAN)和其它合适的连接，例如以太网或其它符合已知的国际标准化组织、安全工程师协会和电气电子工程师协会标准和规范的连接。

车辆12可以包括许多车辆系统模块(VSM)作为车辆电子设备20的一部分，例如GNSS模块22、ECU24、BCM26、无线通信设备30和车辆用户界面52-58，如下面将详细描述的。车辆12还可以包括电子硬件部件形式的其它VSM42，其位于车辆各处，并且可以接收来自一个或多个传感器的输入，并且使用感测到的输入来执行诊断、监控、控制、报告和/或其它功能。每个VSM42可以经由通信总线44连接到其它VSM，并且可以被编程为运行车辆系统和子系统诊断测试。一个或多个VSM42可以周期性地或偶尔更新其软件或固件，并且在一些实施例中，这种车辆更新可以是经由陆地网络76和通信设备30从计算机78或远程设施80接收的无线电(OTA)更新。如本领域技术人员所理解的，上述VSM仅仅是可以在车辆12中使用的一些模块的示例，许多其它模块也是可能的。

全球导航卫星系统(GNSS)模块22从GNSS卫星群60接收无线电信号。在一个实施例中，全球导航卫星系统模块22可以是全球定位系统(GPS)模块，其可以从全球定位系统卫星群60接收GPS信号。根据这些信号，模块22可以确定车辆位置，这可以使车辆能够确定它是否在已知位置，例如家庭或工作场所。此外，GNSS模块22可以向无线通信设备30提供该位置数据(例如地理坐标)，无线通信设备30然后可以使用该数据来识别已知位置，例如车辆驾驶员的家或工作场所。此外，GNSS模块22可用于向车辆操作者提供导航和其它位置相关服务。导航信息可以呈现在显示器58(或车辆内的其它显示器)上，或者可以口头呈现，例如当提供逐个转弯导航时所做的。导航服务可以使用专用车载导航模块(其可以是GNSS模块22的一部分)来提供，或者一些或所有导航服务可以通过安装在车辆中的远程信息处理单元来完成，其中位置信息被发送到远程位置，以便为车辆提供导航地图、地图注释(兴趣点、餐馆等)、路线计算等。位置信息可以被提供给远程设施80或其它远程计算机系统(例如计算机78)，用于其它目的(例如车队管理和/或用于汽车共享服务)。此外，新的或更新的地图数据可以经由车辆远程信息处理单元从远程设施80下载到GNSS模块22。

麦克风56是接收声波并将接收到的声波转换成电信号的车辆用户界面。电信号可以被处理，使得系统解释用户的语音，并且根据应用程序，语音识别系统的输出可以用于根据系统解释的用户语音来响应或行动。麦克风56可以利用本领域已知的人机界面(HMI)技术连接到车载自动语音处理单元，该单元可以结合到无线通信设备30(例如信息娱乐单元)中，或者可以是独立的车辆系统模块(VSM)42。麦克风可以是全向的、双向的或单向的。或者，在其它实施例中，麦克风56可以表示麦克风阵列，其可以一起用于从用户接收声波。可替换地或附加地，车辆12可以包括安装和/或装配在整个车辆上的多个麦克风，以便能够确定关于声源的更多信息，例如说话用户在车厢内的位置。以这种方式，例如，车辆12可以确定驾驶员是否正在说话(或者说话的用户是否位于驾驶员座位上)。并且，尽管麦克风56在图1所示的实施例中被描述为耦合到无线通信设备30，但是本领域技术人员将会理解，麦克风56可以连接到车辆的其它VSM，或者可以是连接到通信总线44或者以其它方式通信耦合到其它VSM的独立设备，例如通过短程无线通信(SRWC)(例如，IEEE802.11(Wi-Fi^TM)或者IEEE802.15(蓝牙^TM))。

在一些实施例中，麦克风56可以包括或耦合(例如硬连线)到语音处理电路，语音处理电路可以实现下面讨论的方法，包括监听超时调整过程。该方法可以结合到麦克风56中，麦克风56可以是独立的模块，或者可以在车辆的另一车辆系统模块(VSM)中实现，例如无线通信设备30。

车辆电子设备20还包括许多其它车辆用户界面，其为车辆乘客提供提供和/或接收信息的手段，包括按钮52、音频系统54和视觉显示器58。如这里所使用的，术语“车辆用户界面”广泛地包括任何合适形式的电子设备，包括硬件和软件组件，其位于车辆上并且使得车辆用户能够与车辆的组件通信或通过车辆的组件通信。按钮52允许手动用户输入到通信设备30中，以提供其它数据、响应或控制输入。音频系统54向车辆乘客提供音频输出，并且可以是专用的独立系统或主要车辆音频系统的一部分。根据这里所示的特定实施例，音频系统54可操作地耦合到车辆总线44和娱乐总线(未示出)，并且可以提供调幅广播、调频广播、卫星广播、光盘功能和其它多媒体功能。该功能可以与信息娱乐模块结合或独立提供。视觉显示器或触摸屏58优选为图形显示器，例如仪表板上的触摸屏或从挡风玻璃反射的平视显示器，并且可以用于提供多种输入和输出功能。也可以使用各种其它车辆用户界面，因为图1的界面仅仅是一个特定实现的示例。并且，任何和/或所有这些车辆用户界面可以被结合到本文讨论的其它客户端设备中，包括个人移动设备90。

在图1的示例性实施例中，车身控制模块(BCM)26被示为电耦合到通信总线44。在一些实施例中，BCM26可以与中央堆栈模块(CSM)集成或作为其一部分，和/或与无线通信设备30集成。或者，BCM和CSM可以是通过总线44相互连接的独立设备。如下所述，BCM26可以包括处理器和/或存储器，其可以类似于无线通信设备30的处理器36和存储器38。BCM26可以与无线通信设备30和/或一个或多个车辆系统模块通信，例如GNSS22、音频系统54或其它VSM42。BCM26的处理器和存储器可用于指导或执行一个或多个车辆操作，包括例如控制中控锁、空调、电动后视镜、控制车辆点火或原动机(例如发动机、主推进系统)和/或控制各种其它车辆模块。BCM26可以从无线通信设备30接收数据，并且随后将数据发送到一个或多个车辆模块。

另外，BCM26可以提供对应于车辆状态或某些车辆部件或系统的信息。例如，BCM可以向无线通信设备30提供指示车辆点火是否开启、车辆当前处于档位(即档位状态)的信息和/或关于车辆的其它信息。BCM26可用于确定一个或多个车辆状态，例如车辆是否通电、车辆电池的电池功率和/或其它车辆状态。至少在一些实施例中，无线通信设备30可以获得这些不同的车辆状态，并将其用作监听超时调整过程中的输入。

无线通信设备30能够通过短程无线通信(SRWC)来传送数据，并且在一些实施例中，能够通过蜂窝网络通信来传送数据。如图1的示例性实施例所示，无线通信设备30包括SRWC电路32、蜂窝芯片组34、处理器36、存储器38以及天线40和50。在一些实施例中，无线通信设备30可以被具体配置为执行本文公开的方法的至少一部分。在一个实施例中，无线通信设备30可以是独立的模块，或者在其它实施例中，设备30可以被结合或包括为一个或多个其他车辆系统模块的一部分，例如中央堆栈模块(CSM)、CM26、信息娱乐模块、远程信息处理单元、头部单元和/或网关模块。在一些实施例中，设备30可以被实现为安装在车辆中的OEM安装(嵌入)或售后市场设备。

无线通信设备30可以被配置为根据一个或多个无线协议进行无线通信，包括诸如任何IEEE802.11协议、Wi-Fi^TM、WiMAX^TM、ZigBee^TM、Wi-Fi direct^TM、蓝牙^TM、蓝牙^TM低功耗(BLE)或近场通信(NFC)的短程无线通信(SRWC)。如本文所用，蓝牙^TM指的是任何蓝牙^TM技术，如蓝牙^TM低能耗(BLE)、蓝牙^TM4.1、蓝牙^TM4.2、蓝牙^TM5.0和其它可能开发的蓝牙^TM技术。如本文所用，Wi-Fi^TM或Wi-Fi^TM技术指的是任何Wi-Fi^TM技术，例如IEEE802.11b/g/n/ac或任何其它IEEE802.11技术。短程无线通信电路32使得无线通信设备30能够使用天线40发送和接收SRWC信号，例如BLE信号。SRWC电路可以允许设备30连接到另一个SRWC设备。此外，在一些实施例中，无线通信设备可以包含蜂窝芯片组34，从而使得设备能够经由一个或多个蜂窝协议(例如蜂窝载波系统70所使用的协议)进行通信。在其它实施例中，车辆12可以包括独立的远程信息处理单元。

无线通信设备30可以使车辆12能够通过分组交换数据通信与一个或多个远程网络通信。这种分组交换数据通信可以通过使用经由路由器或调制解调器连接到陆地网络的无线接入点来实现。当用于分组交换数据通信(例如TCP/IP)时，通信设备30可以被配置为具有静态IP地址，或者可以被设置为自动从网络上的另一个设备(例如路由器)或者从网络地址服务器接收分配的IP地址。

分组交换数据通信也可以通过使用设备30可以访问的蜂窝网络来实现。通信设备30可以通过蜂窝芯片组34在无线载波系统70上传送数据。在这样的实施例中，无线电传输可以用于与无线载波系统70建立通信信道，例如语音信道和/或数据信道，使得语音和/或数据传输可以在信道上发送和接收。数据可以通过数据连接发送，例如通过数据信道上的分组数据传输，或者使用本领域已知的技术通过语音信道发送。对于包括语音通信和数据通信的组合服务，系统可以利用语音信道上的单个呼叫，并根据需要在语音信道上的语音和数据传输之间切换，这可以使用本领域技术人员已知的技术来完成。应当理解，移动设备90可以包括蜂窝芯片组和/或可以用于分组交换数据通信的其它通信装置。

处理器36可以是能够处理电子指令的任何类型的设备，包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路(ASIC)。它可以是仅用于通信设备30的专用处理器，或者可以与其它车辆系统共享。处理器36执行各种类型的数字存储指令，例如存储在存储器38中的软件或固件程序，这使得设备30能够提供各种各样的服务。例如，至少在一个实施例中，处理器36可以执行程序或处理数据来执行本文讨论的方法的至少一部分，这可以包括执行下面讨论的监听超时调整过程。存储器38可以包括RAM、其它临时供电存储器、任何非暂时性计算机可读介质(例如EEPROM)，或者存储执行这里讨论的各种外部设备功能所需的一些或全部软件的任何其他电子计算机介质。

在一个实施例中，无线通信设备30在车辆处于通电状态和车辆处于断电状态时都可以运行。如本文所用，“通电状态”是车辆的点火或主推进系统通电的状态，如本文所用，“断电状态”是车辆的点火或主推进系统未通电的状态。无线通信设备30的操作或状态可以由另一车辆系统模块控制，例如由BCM26或信息娱乐模块控制。在通电状态下，无线通信设备30可以始终保持“开启”或由车辆电池或其它电源供电。在断电状态下，无线通信设备30可以保持在低功率模式，或者可以周期性地被供电，使得设备30可以醒来并执行操作。

现在转到图2，示出了自动语音识别(ASR)系统210的说明性架构，该系统至少在一些实施例中可以用来实现当前公开的方法。尽管下面针对车辆12的无线通信设备30讨论了ASR系统210，但是ASR系统210可以被结合到任何客户端设备中，诸如上面讨论的包括移动设备90和计算机78的那些客户端设备。与ASR系统210相似或相同的ASR系统可以被结合至一个或多个远程语音处理服务器，包括位于远程设施80的一个或多个服务器。一般来说，车辆乘客为了一个或多个以下基本目的与自动语音识别系统进行语音交互：训练系统理解车辆乘客的特定声音；存储离散语音，例如口头姓名标签或口头控制词(例如数字或关键词)；或者为了任何合适的目的识别车辆乘客的语音，例如语音拨号、菜单导航、转录、服务请求、车辆设备或设备功能控制等。通常，ASR从人类语音中提取声学数据，将声学数据与存储的子词数据进行比较和对比，选择可以与其他选择的子词连结的合适的子词，并且输出连结的子词或单词用于后处理，例如口述或转录、地址簿拨号、存储到存储器、训练ASR模型或适配参数等。

ASR系统对本领域技术人员来说是公知的，图2仅示出了一个特定的说明性ASR系统210。系统210包括接收语音的设备(例如麦克风56)以及声学接口233(例如具有模数转换器以将语音数字化为声学数据的无线通信设备30的声卡)。系统210还包括用于存储声学数据和存储语音识别软件和数据库的存储器(例如车辆存储器38)以及用于处理声学数据的处理器(例如车辆处理器36)。处理器与存储器一起并结合以下模块工作：一个或多个前端处理器或预处理器软件模块212，用于将语音的声学数据流解析成参数表示(例如声学特征)；一个或多个解码器软件模块214，用于解码声学特征以产生对应于输入语音话语的数字子词或词输出数据；以及一个或多个后处理器软件模块276，用于将来自解码器模块214的输出数据用于任何合适的目的。

系统210还可以从任何其它合适的音频源31接收语音，该语音可以直接与预处理器软件模块212通信，如实线所示，或者经由声学接口233与其间接通信。音频源231可以包括例如诸如语音邮件系统的电话音频源，或者任何种类的其它电话服务。

一个或多个模块或模型可以用作解码器模块214的输入。首先，语法和/或词典模型278可以提供规则，该规则控制哪些单词(或标记)可以逻辑上跟随其它单词(或标记)以形成有效的句子(或单词)。在广义上，语法可以定义系统210在任何给定时间以任何给定的ASR模式期望的词汇世界。例如，如果系统210处于训练命令的训练模式，那么语法模型278可以包括系统210已知和使用的所有命令。在另一示例中，如果系统210处于主菜单模式，则激活的语法模型278可以包括系统210期望的所有主菜单命令，例如呼叫、拨号、退出、删除、目录等。这些类型的具有定义的词集的模式可以与命令/控制语言一起使用在其它实施例中，自然语言语音可以与考虑所有单词的语法模型一起使用。第二，声学模型280有助于选择对应于来自预处理器模块212的输入的最可能的子词或单词。第三，单词模型222和句子/语言模型224在将所选择的子词或单词放入单词或句子上下文中时提供规则、语法和/或语义。此外，句子/语言模型224可以定义系统210在任何给定时间在任何给定ASR模式下期望的句子的世界，和/或可以提供规则等，控制哪些句子可以在逻辑上跟随其它句子以形成有效的扩展语音。

根据可选的说明性实施例，一些或全部ASR系统210可以驻留在远离车辆12的位置的计算设备(例如计算机78或远程设施80)上，并使用该计算设备进行处理。例如，语法模型、声学模型等可以存储在远程设施80中的服务器和/或数据库之一的存储器中，并传送到车辆无线通信设备30用于车载语音处理。类似地，可以使用远程设施80中的远程服务器之一的处理器来处理语音识别软件。换句话说，ASR系统210可以驻留在无线通信设备30中、以任何期望的方式分布在计算机78/远程设施80和车辆12上、和/或驻留在计算机78或远程设施80上。

首先，从人类语音中提取声学数据，其中车辆乘客对麦克风56说话，麦克风56将话语转换成电信号，并将这些信号传送到声学接口233。麦克风56中的声音响应元件捕获乘客的语音话语作为气压变化，并将话语转换成模拟电信号(例如直流或电压)的相应变化。声学接口233接收模拟电信号，该模拟电信号首先被采样，使得模拟信号的值在离散的时刻被捕获，然后被量化，使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换句话说，声学接口233将模拟电信号转换成数字电信号。数字数据是二进制位，缓冲在无线通信设备30的存储器38中，然后由无线通信设备30的处理器36处理，或者可以在处理器36最初实时接收时进行处理。

第二，预处理器模块212将连续的数字语音数据流转换成离散的声学参数序列。更具体地，处理器36执行预处理器模块212，以将数字语音数据分割成例如持续时间为10-30毫秒(ms)的重叠语音或声学帧。帧对应于声学子词，例如音节、半音节、音素、双音素、音位等，所有这些都是本文使用的“标记”的例子。预处理器模块212还执行语音分析，以从每个帧中提取乘客语音的声学参数，例如时变特征向量。乘客语音中的话语可以表示为这些特征向量的序列。例如，如本领域技术人员所知，可以提取特征向量，并且特征向量可以包括例如音调、能量分布、频谱属性和/或倒谱系数，其可以通过执行帧的傅立叶变换和使用余弦变换去相关声学频谱来获得。覆盖特定语音持续时间的声学帧和相应参数被连结成待解码的未知语音测试模式。

第三，处理器执行解码器模块214来处理每个测试模式的输入特征向量。解码器模块214也被称为识别引擎或分类器，并且使用存储的已知语音参考模式。像测试模式一样，参考模式被定义为相关声学帧和相应参数的连结。解码器模块214将待识别的子词测试模式的声学特征向量与存储的子词参考模式进行比较和对比，评估它们之间的差异或相似性的大小，并最终使用判定逻辑来选择最佳匹配的子词作为所识别的子词。一般来说，最佳匹配子词是对应于存储的已知参考模式的子词，该参考模式与由本领域技术人员已知的用于分析和识别子词的各种技术中的任何一种所确定的测试模式具有最小不相似度或最大可能性是上述测试模式。这种技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器，例如隐马尔可夫模型(HMM)引擎。

HMM引擎是本领域技术人员已知的，用于产生声学输入的多个语音识别模型假设。假设在最终识别和选择识别输出时被考虑，该识别输出表示通过语音的特征分析对声学输入的最可能的正确解码。更具体地，HMM引擎生成子词模型假设的“N-最佳”列表形式的统计模型，该子词模型假设根据HMM-计算的置信度值或给定一个或另一个子词的声学数据的观察序列的概率来排序，例如通过应用贝叶斯定理。

对于给定的声学特征向量的观察序列，贝叶斯HMM过程识别对应于最可能的话语或子字序列的最佳假设，并且其置信度值可取决于多种因素，包括与输入声学数据相关联的声学信噪比。HMM还可以包括一个称为对角高斯混合的统计分布，它为每个子词的每个观察到的特征向量产生一个似然性分数，该分数可以用来重新排序假设的N-最佳列表。HMM引擎还可以识别和选择模型似然性得分最高的子词。以类似的方式，可以将一系列子词的单个HMM连结起来，以建立单个或多个词的HMM。此后，可以生成并进一步评估单个或多个单词参考模式和相关参数值的N-最佳列表。

在一个示例中，语音识别解码器214使用适当的声学模型、语法和算法来处理特征向量，以生成参考模式的N-最佳列表。如本文所用，术语参考模式可与模型、波形、模板、丰富信号模型、样本、假设或其他类型的参考互换。参考模式可以包括表示一个或多个单词或子词的一系列特征向量，并且可以基于特定的说话者、说话风格和听觉环境条件。本领域技术人员将认识到，参考模式可以通过ASR系统的适当参考模式训练来生成并存储在存储器中。本领域技术人员还将认识到，可以操纵存储的参考模式，其中参考模式的参数值基于参考模式训练和ASR系统的实际使用之间的语音输入信号的差异来调整。例如，基于来自不同车辆乘员或不同声学条件的有限数量的训练数据，针对一个车辆乘员或某些声学条件训练的一组参考模式可以被适配并保存为针对不同车辆乘员或不同声学条件的另一组参考模式。换句话说，参考模式不一定是固定的，并且可以在语音识别期间进行调整。

使用词汇内语法和任何合适的解码器算法和声学模型，处理器从存储器中访问几个解释测试模式的参考模式。例如，处理器可以生成并存储N-最佳词汇结果或参考模式的列表，以及相应的参数值。说明性参数值可以包括词汇和相关片段持续时间的N-最佳列表中的每个参考模式的置信度得分、似然性得分、信噪比(SNR)值等。词汇的N-最佳列表可以通过参数值的大小降序排列。例如，置信度最高的词汇参考模式是第一个最佳参考模式，依此类推。一旦建立了一串被识别的子词，它们可以被用于利用来自单词模型222的输入来构造单词，并且利用来自语言模型224的输入来构造句子。

最后，后处理器软件模块276从解码器模块214接收输出数据用于任何合适的目的。在一个示例中，后处理器软件模块276可以从单个或多个单词参考模式的N-最佳列表中识别或选择参考模式之一作为识别的语音。在另一个示例中，后处理器模块276可用于将声学数据转换成文本或数字，以用于ASR系统或其它车辆系统的其它方面。在又一示例中，后处理器模块276可用于向解码器214或预处理器212提供训练反馈。更具体地，后处理器276可用于训练解码器模块214的声学模型，或者训练预处理器模块212的自适应参数。

并且，从下面的讨论中可以明显看出，ASR系统可以被包括在诸如车辆12或移动设备90的客户端设备中，和/或被包括在服务器设备(例如位于远程设施80的服务器)中。至少根据一些实施例，位于远程服务器的ASR系统可以包括更多的处理能力，以及更多的语音识别信息，其可以用于提供比位于客户端设备的系统更强大的ASR系统；然而，如本领域技术人员将理解的，存在其它实施例。

ASR系统或其部分可以在包含在计算机可读介质中的计算机程序中实现，并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用的指令，以使一个或多个系统实现监听超时调整过程。计算机程序可以包括一个或多个软件程序，该软件程序由源代码、目标代码、可执行代码或其它格式的程序指令组成；一个或多个固件程序；或硬件描述语言(HDL)文件；以及任何程序相关数据。数据可以包括数据结构、查找表或任何其它合适格式的数据。程序指令可以包括程序模块、例程、程序、对象、组件和/或类似物。计算机程序可以在一台计算机上执行，也可以在相互通信的多台计算机上执行。

程序可以在计算机可读介质上实现，计算机可读介质可以是非暂时性的，并且可以包括一个或多个存储设备、制品等。示例性计算机可读介质包括计算机系统存储器，例如RAM(随机存取存储器)、ROM(只读存储器)；半导体存储器，例如EPROM(可擦可编程只读存储器)、EEPROM(电可擦可编程只读存储器)、闪存；磁盘或光盘或磁带；和/或类似物。计算机可读介质还可以包括计算机到计算机的连接，例如，当数据通过网络或另一通信连接(有线、无线或其组合)传输或提供时。上述示例的任何组合也包括在计算机可读介质的范围内。因此，应当理解，该方法可以至少部分地由能够执行对应于所公开方法的一个或多个步骤的指令的任何电子物品和/或设备来执行。

参考图3A，其示出了使用动态可调监听超时的自动语音识别方法300的实施例。方法300包括监听超时调整过程。在许多实施例中，方法300和/或监听超时调整过程可以在车辆12中的无线通信设备30的处理器36上实现和/或可以在车辆12的另一个VSM上实现。方法300和/或监听超时调整过程可以通过用监听超时调整应用程序配置设备30来在无线通信设备30(或其它VSM)上实现，监听超时调整应用程序可以是软件和/或固件指令或计算机程序或应用程序的一部分的形式。监听超时调整应用程序可以最初在远程设施(例如远程设施80)处配置和/或编译，并且可以通过使用配置过程或初始制造过程安装在无线设备30(或其它客户端设备)上。

至少在一个实施例中，监听超时调整应用程序可以最初包括一组计算机指令和一组将在监听超时调整过程中使用的初始信息。监听超时调整应用程序可以使用各种训练信息来生成和/或初始训练，所述训练信息包括从语音识别过程的先前迭代中收集的信息，所述语音识别过程包括自然语言理解和/或基于规则的语音识别过程(例如，由利用和/或期望命令/控制语言的ASR系统使用的过程)。监听超时调整应用程序可以被周期性地更新和/或训练，以便改进监听超时调整过程。这可以包括使用先前监听超时调整过程迭代的输入和输出作为监听超时调整应用程序的训练信息。此外，结合训练信息，可以使用性能指示符来指示先前监听超时调整过程的准确性、精确度或其它结果。此外，其它训练信息(例如输入集及其相应的或期望的输出)，以及更新的软件/固件指令可以从远程服务器(例如远程设施80)发送到客户端设备。

监听超时调整过程或应用程序的训练可以在监听超时调整应用程序被安装在客户端设备上之前和/或在监听超时调整应用程序被配置用于客户端设备之前执行。此外，初始训练可以监督使用从先前语音识别模型获得的训练信息(输入、输出和输出精度)的训练。在其它实施例中，初始训练可以是无监督训练。初始训练可以在远程设施(例如远程设施80)处执行，并且当初始训练完成并且客户端设备准备好被配置使用时，可以安装监听超时调整应用程序。监听超时调整应用程序可以被包括作为语音识别应用的一部分或模块，并且可以以与上述ASR系统相似的方式来执行和/或集成。

出于说明的目的，当描述下面的方法300时，将参考图4。图4描绘了包括语音段410至418以及监听超时420至426的监听时段400的示例。在一种情况下，图4表示单个监听时段400，该时段从语音段410开始，并在监听时段400的最后一次监听超时426期满之后结束。此外，图4描绘了从诸如车辆12的乘客或驾驶员之类的用户说出并在麦克风56处接收的相应语音。应当理解，ASR系统和/或方法300的实际实现可以包括许多附加的监听超时；然而，出于可读性的目的，只描述和引用了几个监听超时。

方法300从步骤310开始，其中在客户端设备接收语音信号。如上所述，客户端设备可以是多种设备中的任何一种，包括车辆12、移动设备90和/或计算机78；然而，下面使用车辆12作为客户端设备来讨论方法300。车辆12可以在无线通信设备30处使用麦克风56接收语音信号。可以对语音信号进行采样，使得处理器36可以获得并使用语音信号的数字表示(例如数字、电信号)。采样可以在麦克风56处的语音处理电路、无线通信设备30处或者车辆12的另一个VSM处执行。

在步骤320中，处理接收的语音信号。该步骤可以结合步骤310来执行，使得该方法可以接收语音并处理所接收的语音，同时仍然接收其它语音(或者保持在监听模式中——即麦克风仍然是激活的)。然后，随着更多语音继续被接收，该方法可以在接收时连续处理接收到的语音。在没有接收到语音的每一点，可以开始监听超时。例如，在用户如语音段410(图4)所示说出“计算机”之后，用户可以自然和/或有意地暂停。此时，当用户已经停止说话时，可以开始监听超时——也就是说，可以具有预定时间长度的监听超时可以开始运行，如图4的监听超时420所示。例如，当监听超时在麦克风接收到用户语音之前到期时，ASR系统可以切换到麦克风关闭的非激活模式(即麦克风的非监听模式)。然而，当监听超时在麦克风接收到用户语音之前没有运行完时，ASR系统可以保持在激活或监听模式。后一种情况在图4中描述，因为用户开始在语音段412用单词“我的电话号码是2485”再次说话。尽管图4描述了多个监听超时，但是该方法实际上可以执行除了所描述的以外的附加监听超时。例如，在接收声波(至少具有足以被认为是输入声波的特征)的任何暂停之后，可以开始监听超时。这可以对应于每个标记之间的时间段，例如每个单词和/或音节之间的时间段。

在步骤320中，处理可以包括多个步骤，包括例如多个确定。例如，参考图3B，其示出了方法300的一部分，特别是步骤310至330，以及步骤320的子步骤322至326。这些具有相同附图标记的步骤指的是图3A的相应步骤。在步骤320中，该处理可以包括：确定无关紧要的话语的存在(和/或程度)(步骤322)；确定语音的分类(步骤324)；和/或确定调整监听超时的程度(步骤326)。

在步骤322中，确定无关紧要的话语的存在。如这里所使用的，“无关紧要的话语”是作为来自说话者的语音的一部分而生成的话语，并且不提供(或者不被解释为提供)有助于由来自说话者的语音信号所传达的通信的任何单词或语音片段。例如，在一个实施例中，无关紧要的话语可以是填充词(例如“嗯”或“呃”)，或者可以是口吃语音，其可以包括重复标记——在许多情况下，说话者可能无意地将填充词注入到他们的语音中，或者指示说话者正在思考和/或此后不久将要说话。并且，在特定实施例中，填充词可以是非语义填充词，用户在回忆要包括在他们随后的语音中的信息时(或在其它心理过程中)有时会说这些非语义填充词。在另一个示例中，无关紧要的话语可以是ASR系统无法理解或解释的不可理解语音。这可以包括乱码或混乱的语音、背景语音、指示说话者正在努力形成他们的语音的其它语音、中断语音(即指向另一实体的语音或来自另一用户的语音)和/或各种其它类型的语音。确定不重要话语的存在可以包括对接收到的语音进行分类，例如通过使用各种ASR技术。在一个实施例中，ASR系统可以将接收语音的一部分(例如标记)与接收语音的另一部分进行比较，以确定用户是否连续发出相同或基本相似的声波，这可以指示用户已经口吃。在一个实施例中，可以确定在接收到的语音中存在两个或多个连续的标记，因此，可以确定该语音包括无关紧要的话语，即口吃的单词——也就是说，通过确定该语音包括两个或多个连续的标记，可以确定该语音包括一个或多个重复的标记，并且以这种方式，可以确定该语音包括口吃或结巴的标记。此外，所接收的语音和/或无关紧要的标记(即构成无关紧要的话语的标记)可以与语音语法和/或字典(和/或由ASR系统处理)进行比较，从而可以确定所识别的标记是否实际上表示包括重复标记的单词或单词集。例如，单词“tutu”可以由标记“tu”和“tu”组成。通过将这些单词与语音语法和/或词典(或ASR系统使用/识别的一组单词)进行比较，可以确定，尽管存在重复的标记，但是重复的标记可能是有意的。基于关于接收到的语音、讲话的上下文和/或一个或多个其他因素的其他确定，可以进一步证实(或否认)该确定。

此外，其它线索可以用于确定用户是否口吃或者说了无关紧要的话语。例如，重复标记之间的时间量可以提供对语音是有意的还是无意口吃或填充词感叹的结果的洞察。另外，标记之间的时间量以及标记的内容和/或接收语音的上下文(例如车辆12或其它客户端设备的状态)可以用于区分语音是有意还是无意的，和/或语音是否构成无关紧要的话语。后一种确定可以基于该语音是被确定为有意还是无意的。

例如，在监听时段400(图4)期间所说的语音包括电话号码的叙述，特别是在语音段412-416期间。在监听超时422处，用户暂停(如省略号所示)，以便例如回忆或定位电话号码的接下来的几个数字。至少在一些实施例中，方法300可以包括处理接收到的语音(包括语音段412)，并且基于接收到的语音的内容(或包括上下文的其它因素)，确定用户是否没有完成(或不可能完成)输入语音。在图4所示的场景中，方法300可以识别电话号码正在被输入，到目前为止(直到超时422)接收的接收语音仅包括4个数字，并且许多电话号码包括至少10个数字。因此，由于只接收到4个数字，方法300可以确定可能接收到更多的语音。在这种情况下，方法300可以确定延长监听超时，以便例如允许说话者有更多的时间来完成说出电话号码。在这个意义上，方法300可以延长当前(或下一个)监听超时。监听超时424也可以是这种情况，其也可以被延长。

在一个实施例中，一旦检测到无关紧要的话语，就可以从接收到的语音中移除无关紧要的话语。在一个实施例中，这种移除可以包括编辑接收到的语音中包括无关紧要的话语的部分。并且，在一些实施例中，这些无关紧要的话语的移除或编辑可以基于无关紧要的话语的分类。例如，当无关紧要的话语是填充词时，则可以从语音中移除整个填充词。例如，当无关紧要的话语是口吃标记时，只有重复的标记可以被移除。这些标记的移除或编辑可以包括，例如，简单地忽略这些无关紧要的标记、不将这些标记保存到存储器中、和/或在对接收到的语音执行语音识别之前从接收到的语音中移除这些标记。在另一个实施例中，可以进行其它转录调节。并且，可以在步骤320-326期间、步骤360之后(或者在监听时段之后)、和/或在接收语音之后的方法300期间的任何其它时间，执行无关紧要的话语的移除或编辑和/或其它转录调整。

在步骤324中，可以确定接收到的语音是被分类为自然语言语音还是命令/控制语音。如本文所使用的，“自然语言语音”是指说话者(即ASR系统的用户)以他们在进行对话时通常的自然方式说话的语音。并且，如本文所使用的，“命令/控制语音”是指说话者使他们的语音符合为ASR系统定义的有限词汇的语音。例如，某些ASR系统包括一组命令(例如由一个或多个单词或标记表示)，用户可以说出这些命令，并且ASR系统可以将其解释为命令或请求执行特定功能，这可以包括简单地将信息输入到连接到ASR系统的计算机化系统中。例如，用户可以使用ASR系统来导航用户界面的菜单选项，因此，ASR系统可能期望用户通过例如说出用户想要选择的菜单选项来根据菜单选项说话。另一方面，一些ASR系统不定义特定的命令，而是基于语音的内容、组合、顺序和/或其它属性来解释自然语言语音。并且，在某些情况下，ASR系统可以响应于自然语言语音和命令/控制语音。在这种情况下，ASR系统仍然可以包括预定义的一组命令，并且同时可以操作来解释可能不包括任何预定义命令的自然语言语音。在一个实施例中，ASR系统通常可以接受自然语言语音，但是在某些情况下，ASR系统可以监听命令/控制语言。例如，用户可以打开客户端设备的电源，然后要求ASR系统拨打电话号码。在给客户端设备通电时，ASR系统可能正在监听自然语言语音和/或命令/控制语音。用户提问后，ASR系统可能会以重复解释的电话号码来响应，然后以一个问题结束：“您想拨打这个号码吗？”此时，基于ASR系统的上下文，ASR系统期望用户说“是”或“否”，这表示命令/控制语音的示例。

在步骤310中接收的语音可以被分类为自然语言语音或命令/控制语音。例如，可以确定接收到的语音是否包括命令，例如接收到的语音是否包括表示命令的单词。当确定接收到的语音包括ASR系统已知的命令时，则接收到的语音可以被分类为命令/控制语音。并且，当确定接收的语音不包括ASR系统已知的命令时，则接收的语音可以被分类为自然语言语音；然而，这只是一个例子。另外，在一些实施例中，可以确定预定义命令的单个单词、音素和/或音节是否包括在接收的语音中。例如，在步骤320(和子步骤322-326)接收的语音可能不构成监听时段(或接收语音的时间)的整个语音。因此，可以确定接收到的语音是否包括预定义命令的第一部分，而不是确定接收到的语音是否包括预定义命令的所有单词，或者与之结合。

在其它实施例中，步骤324的这种分类可以基于其它因素进行，例如与接收语音的上下文相关的因素(“上下文因素”)和/或与接收语音的属性相关的因素(“接收语音因素”)。上下文因素可以包括，例如，先前接收的语音(例如从先前监听时段接收的语音、从先前语音片段接收的语音)是否被分类为自然语言语音或命令/控制语音；关于用户的信息，例如用户简档信息，其可以指示例如用户通常是使用自然语音语言还是命令/控制语音说话；ASR系统是否被配置为解释自然语言语音和/或命令/控制语音；说话时ASR系统的上下文；和/或各种其它因素，包括ASR系统响应于命令/控制语音和/或自然语言语音的能力。在一个实施例中，该确定可以不基于正在说的特定语音，而是可以基于其它因素，包括例如ASR系统是否被配置为解释自然语言语音和/或命令/控制语音。在这样的实施例中，可以在从用户接收任何语音之前进行确定。

在另一个实施例中，该分类可以在接收语音时进行，例如在监听时段400期间。在这种情况下，接收到的语音因素可以包括例如接收到的语音的以下任何因素：接收到的语音的音高(pitch)、接收到的语音的音高变化、接收到的语音的频率变化、接收到的语音的强度或响度、语音长度、语音共振峰、接收到的语音的内容、接收到的语音的音调(tone)、接收到的语音的音调变化和/或接收到的语音的其他声学属性。

在许多情况下，将语音分类为自然语言语音或命令/控制语音有助于确定是否应该调整监听超时。例如，当使用自然语言语音时，说话者可能需要更多的时间来形成他们的语音。因此，当接收到的语音被分类为自然语言语音时，可以延长监听超时。并且，当使用命令/控制语音时，可能不太需要延长和/或调整监听超时；然而，当确定是否调整监听超时时，该确定可以仅仅是与这里讨论的任何或所有其它因素结合使用的一个因素。

在其它实施例中，ASR系统可以实现用户语音简档，该简档随着用户语音的收集而对用户语音进行配置。用户语音简档可以包括关于用户说话方式的信息，包括描述或表示在步骤320-326中使用的确定中有用的特征的信息。在一个实施例中，这些特征可以包括用户关于无关紧要的话语的使用历史和/或无关紧要的话语的分类(例如它们是填充词、口吃词或者另一种类型的无关紧要的话语)、无关紧要的话语相对于说话时间和/或标记数量的百分比或比率、用户检测到的语音速率(例如由标记/分钟表示)和/或与特定用户相关的各种其它信息，包括用户的语音。在进行步骤320-326的确定时，可以考虑用户语音简档。该方法300继续到步骤326。

在步骤326中，确定要调整监听超时的程度。在一些实施例中，该确定可以结合步骤322和324的确定和/或作为步骤322和324的确定的结果来进行。该确定可以包括确定以下一个或多个：监听超时将被调整(例如延长、缩短)的程度；是仅为下一次监听超时还是监听超时的特定次数调整监听超时；和/或是否调整监听超时以在监听时段的剩余时间使用。监听超时的调整程度可以用数值表示，例如以秒为单位。一旦确定了该监听超时持续时间，该值可以存储在ASR系统或车辆的存储器中，例如无线通信设备30的存储器38中。

在特定实施例中，步骤320-326的一个或多个确定可以通过实施神经网络模型来进行。因此，在一些实施例中，神经网络模型可以用于监听超时调整过程或应用程序。神经网络模型可以是浅层神经网络或深度神经网络。如本文所用，浅层神经网络包括单个隐藏层，而深度神经网络包括多个隐藏层。神经网络的每一层可以包括一个或多个节点，每个节点可以映射到同一隐藏层内的一个或多个其它节点、映射到另一隐藏层内的一个或多个其它节点、或者映射到一个或多个输出节点。

例如，图5描绘了可以在监听超时调整过程中使用的示例神经网络模型500。神经网络模型500包括输入节点502、输出节点532和534、包括节点512-516的第一隐藏层510以及包括节点522和524的第二隐藏层520。输入节点502可以对应于接收到的语音，该语音可以并且很可能将从方法300的每次迭代改变到下一次迭代。第一隐藏层510包括节点512-516，并且可以对应于步骤322的确定，步骤322包括确定无关紧要的话语的存在。此外，在一些实施例中，第一隐藏层510的节点512-516可以包括确定无关紧要的话语的程度、无关紧要的话语的类型和/或其它信息，如以上关于步骤322所讨论的。第二隐藏层520包括节点522-524，并且可以对应于步骤324的确定，步骤324包括确定所接收的语音是被分类为自然语言语音还是命令/控制语音。另外，在一些实施例中，第一隐藏层510的节点512-516可以包括以上关于步骤324讨论的任何和/或所有确定。

输出节点532-534可以对应于是否调整监听超时和/或调整监听超时的程度，包括上述步骤326的那些确定。在一个实施例中，节点532可以表示不调整监听超时，而节点534可以表示调整监听超时。在后一种情况下，可以在节点534的输出中包括监听超时调整值，该值表示监听超时的调整(例如延长、缩短)程度。

在其它实施例中，神经网络模型500可用于确定语音是口吃语音还是正常语音话语。在这种情况下，输出节点532可以表示口吃语音，输出节点534可以表示正常的语音话语。神经网络模型的这个结果(或输出)然后可以被用作确定是否延长、缩短或以其它方式调整监听超时的基础。此外，在其它实现中，可以使用不同数量的节点、层和/或模型。并且，在一个实施例中，节点502-534中的每一个可以接收某些输入信息，例如值或其它输入。这些值或输入可以对应于以上在步骤320至326中讨论的任何和/或所有那些确定。该方法300继续到步骤330。

回到图3A，方法300继续到步骤330。在步骤330中，调整监听超时。如以上在步骤320中所讨论的，当确定应该调整监听超时时，可以执行该步骤。可以通过将监听超时调整值或表示监听超时长度的值写入存储器(例如存储器38)来调整监听超时。至少在一些实施例中，这可以包括重写先前使用的监听超时值或持续时间。此外，与监听超时和/或监听超时的使用相关的其它信息可以存储在存储器中，例如使用调整后的监听超时的次数(例如仅在监听超时将无限期运行的下一个实例期间)。然后，方法300在步骤330之后继续回到步骤310。

在步骤340中，检测语音信号的缺失(absence)。在一个实施例中，如果没有超过特定阈值强度的声波，则可能导致检测到语音信号的缺失。在其它实施例中，确定接收到的声波不表示语音可以用于确定语音信号的缺失。一旦确定存在语音的缺失，该方法继续到步骤350。

在步骤350中，监听超时开始运行。如上所述，监听超时可以由数值或其它计算机可读的电子数据来表示。监听超时可以通过设置和启动定时器开始，该定时器被配置为运行对应于监听超时的一段时间(即监听超时持续时间)。或者，可以为将来的某个时间设置警报，该时间是当前时间加上监听超时持续时间的总和。该方法300继续到步骤360。

在步骤360中，确定监听超时是否已经到期。这可以基于运行监听超时的特定实现以多种方式来确定。当监听超时到期时，该方法继续到步骤380。在步骤370中，如果监听超时没有到期并且接收到后续语音，则该方法返回到步骤310，在步骤310中，后续语音可以被采样并转换成电信号。

在步骤380中，使用ASR系统/设备处理在监听时段接收的语音。语音处理可以包括多种语音处理技术中的任何一种，并且可以在车辆12(或其它客户端设备)本地执行，或者接收到的语音(由电信号表示)可以发送到远程ASR系统，例如可以位于远程设施80或计算机78的那些系统。ASR系统可以产生响应，该响应可以是口头响应(例如使用自然语言生成技术)，或者可以是对接收到的语音做出响应的另一响应。然后，方法300结束。

应当理解，前面是对本发明的一个或多个实施例的描述。本发明不限于这里公开的特定实施例，而是仅由下面的权利要求限定。此外，包含在前述描述中的陈述涉及特定实施例，并且不应被解释为对本发明的范围或权利要求中使用的术语的定义的限制，除非术语或短语在上面被明确定义。对本领域技术人员来说，各种其它实施例和对所公开的实施例的各种改变和修改将变得显而易见。所有这些其它实施例、变化和修改都将落入所附权利要求的范围内。

如在本说明书和权利要求书中所使用的，当与一个或多个组件或其它项目的列表结合使用时，术语“例如”、“比如”、“诸如”和“类似”以及动词“包括”、“具有”、“包含”和它们的其它动词形式均被解释为开放式的，这意味着该列表不被认为排除了其它、附加的组件或项目。其它术语采用其最广泛的合理含义来解释，除非其用于要求有不同解释的上下文中。此外，术语“和/或”应被解释为包含“或”。例如，短语“A、B和/或C”包括：“A”；“B”；“C”；“A和B”；“A和C”；“B和C”；以及“A、B和C”。

Claims

1.一种使用动态可调监听超时的自动语音识别方法，其中所述方法包括：

在第一语音监听时段期间接收表示第一语音段的语音信号；

在所述第一语音监听时段期间，处理接收到的表示所述第一语音段的所述语音信号，以确定所述第一语音段是否包括一个或多个无关紧要的话语，其中，无关紧要的话语是由用户在第一语音段中传达的话语，该无关紧要的话语与第一语音段中有助于由用户在第一语音段中传达的通信的任何单词或语音分开；

响应于确定所述第一语音段是否包括一个或多个无关紧要的话语，调整监听超时；

使用调整后的监听超时监听后续接收的语音；以及

对接收到的语音信号和/或所述后续接收的语音信号执行自动语音识别。

2.根据权利要求1所述的方法，其中所述处理步骤还包括确定接收到的语音信号是否构成自然语言语音或命令/控制语音，并且可选地，其中所述处理步骤包括使用包括一个或多个隐藏层的神经网络模型来确定接收到的语音信号是否包括一个或多个无关紧要的话语。

3.根据权利要求1所述的方法，其中所述调整步骤还包括确定所述监听超时被调整的程度的子步骤，并且可选地，其中所述处理步骤还包括以下子步骤：响应于确定所述第一语音段包括一个或多个无关紧要的话语，基于所述无关紧要的话语的类型对所述一个或多个无关紧要的话语中的每一个进行分类。

4.根据权利要求3所述的方法，其中，所述一个或多个无关紧要的话语中的至少一个被分类为以下任何一种：口吃语音、填充语音或不可理解语音，并且其中，基于所述一个或多个无关紧要的话语的分类来执行对所述监听超时调整程度的确定。

5.根据权利要求1所述的方法，其中，所述调整步骤包括当确定所述第一语音段包括一个或多个无关紧要的话语时，延长所述监听超时的持续时间。

6.根据权利要求1所述的方法，其中，所述后续接收的语音信号表示第二语音段，并且其中，所述后续接收的语音信号在所述第一语音监听时段期间被接收，并且可选地，其中，后续接收的表示所述第二语音段的语音信号在所述第一语音监听时段期间被接收。

7.根据权利要求1所述的方法，其中所述调整步骤基于与生成接收到的语音信号的用户相关联的用户语音简档，其中所述用户语音简档包括表示所述用户先前语音的历史的信息，并且其中所述用户先前语音的历史的至少一部分包括与所述用户使用无关紧要的话语相关的信息。

8.根据权利要求1所述的方法，其中所述方法由作为车辆的车辆电子设备的一部分包括的车辆系统模块(VSM)来执行。

9.一种使用动态可调监听超时的自动语音识别方法，其中所述方法包括：

在第一语音监听时段期间，在客户端设备处接收表示第一语音段的语音信号；

在所述第一语音监听时段期间，当接收到所述语音信号时，处理表示所述第一语音段的所述语音信号，以确定所述第一语音段是否包括一个或多个无关紧要的话语，其中，无关紧要的话语是由用户在第一语音段中传达的话语，该无关紧要的话语与第一语音段中有助于由用户在第一语音段中传达的通信的任何单词或语音分开；

基于所述处理步骤调整监听超时；

在所述调整步骤之后并且在所述第一语音监听时段期间，使用调整后的监听超时继续监听表示第二语音段的后续语音信号；以及

在所述第一语音监听时段结束后，对接收到的语音信号和/或后续接收的语音信号执行自动语音识别。

10.一种自动语音识别系统，包括：

客户端设备，包括：

至少一个麦克风；

包括监听超时调整应用程序的存储器；以及

处理器，被配置为执行所述监听超时调整应用程序，其中所述监听超时调整应用程序的执行使得所述客户端设备：

在第一语音监听时段期间，在所述至少一个麦克风处接收表示第一语音段的语音信号；

在所述第一语音监听时段期间，处理接收到的表示所述第一语音段的语音信号，以确定所述第一语音段是否包括一个或多个无关紧要的话语，其中，无关紧要的话语是由用户在第一语音段中传达的话语，该无关紧要的话语与第一语音段中有助于由用户在第一语音段中传达的通信的任何单词或语音分开；

使用调整后的监听超时监听后续接收的语音；以及

对接收到的语音信号和/或后续接收的语音信号执行自动语音识别。