CN102439661A

CN102439661A - 用于车辆内自动交互的面向服务语音识别

Info

Publication number: CN102439661A
Application number: CN2010800236175A
Authority: CN
Inventors: T·B·沙尔克; L·萨恩斯; B·伯奇
Original assignee: ATX Group Inc
Current assignee: ATX Group Inc
Priority date: 2009-03-24
Filing date: 2010-03-24
Publication date: 2012-05-02
Also published as: US20160071518A1; EP3557575A1; EP2411977A1; US9558745B2; BRPI1014119A2; WO2010111315A1; EP2411977B1; US9224394B2; CA2756140A1; US20100250243A1; EP2411977A4; CA2756140C

Abstract

一种在车辆中实施基于服务的语音识别系统用于多模态自动交互的系统和方法，包括由车辆驾驶员通过板上人机接口接收音频提示并用语音响应以完成诸如创建并发送文本信息消息、网页浏览、导航等的任务。该面向服务的架构用于以适应性方式调用专业语音识别器。该人机接口能在驾驶车辆时以使得驾驶员和所述接口视觉地和机械地交互频率最小化的形式完成文本输入任务，因此在驾驶情况下消除不安全的干扰。在最初的提示之后，键入任务之后是文本的计算机化言语表示。随后的接口步骤本质上是可视的，并只涉及声音。

Description

用于车辆内自动交互的面向服务语音识别

背景技术

本发明总体上涉及实施基于服务的语音识别系统用于多模态交互的系统和方法，所述多模态交互能应用于任何交互式自动系统，诸如在机动车中使用的交互式自动系统。更具体而言，本发明涉及利用多个语音识别器和相关的车辆内人机接口的系统和方法，用于为驾车者在驾驶情况下创建高效安全、可靠便利并舒适的体验并同时实现高自动化率。

本发明的主要目的在于提供具有高效自动化的呼叫中心企业，用于在不损害对客户的服务质量的情况下降低成本。交互式自动应该是客户或驾车者完成任务的优选交互措施，这些任务否则需要经过呼叫中心通过个人/代理交互进行处理。在本发明中，面向服务结构(SOA)用于选择性地以唯一适应性的方式利用专业语音识别器。如在此所述，该方法的优势在于提供安全舒适的用户接口并改进呼叫中心的效率。

Telematics(车载信息服务系统)服务的出现在十年之前引入，并带来了如下趋势：包含车辆与远程数据中心通信并发送涉及安全、保安和应急故障的位置数据和车辆信息的能力。如在本领域中所称的，“telematics”包括无线通信、车辆监视系统和定位设备的集成。在自动式交互中该项技术结合了无线声音和数据能力用于管理信息和安全应用。

大多数早期的telematics通信通过无线声音通道实现，所述无线声音通道本质上是模拟的。根据2008年的法律，所有的模拟连接成为数字的，并因此，诸如“3G”技术等的数据连接成为移动设备“连接”到因特网的容易获得的技术。作为这些改进的结果，在称为“连接车辆”概念中，车辆也适于利用数据连接结合声音通道连接。

“连接车辆”概念继续在过去数年间演变，并且商业上出现了相当复杂的车辆服务。这些服务经常依靠车辆位置以及“云计算”，所述“云计算”被定义为经过数据通道访问的网络服务。这些服务的示例包括板下路由、目的地获取、远程车辆诊断、音乐下载、交通报告、本地搜索、访问门房(concierge)服务、连接车辆销售员以及路旁帮助。如在此使用的术语“板下”指远离车辆或车辆外的位置。如在此使用的术语“本地搜索”指根据特定位置的临近处的兴趣点(POI)搜索。上面给出的示例被认为本质上是以车辆为中心的，并且许多引起了某些形式的与现场代理或板下交互式自动系统的声音通信。

近年来，出现该趋势：驾驶员在诸如移动设备等的车辆内操作个人设备，使得驾驶时不安全。现在将内置式用户接口添加到车辆内侧以提供如车辆自身组件的这些移动功能。然而，关于这些内置式组件的安全性和实用性的关注仍然存在。难于以在驾驶时使其安全的形式使能车辆内的个人设备功能。用户接口对于车辆驾驶员在驾驶时使用一点不实用。不仅由于设备屏幕相当小，而且更重要的，操作和使用常规移动设备的主要输入模态包括用户和设备某些形式的输入或机械地交互。当司机的认知处理关注于没有集中在安全驾驶车辆的其他任务时，将出现司机分心。打电话以及将数据输入到移动设备中是驾驶时非常分心的任务的示例。驾驶时常规键入是非常危险的，这是因为需要视觉和触觉，使得安全驾驶不现实。例如，当开车时，通过扭曲并微调旋钮直到突出显示每个目标字母，接着推旋钮(“knobbing”)来输入消息是不明智的。然而，即使这是个危险的经历，但“推旋钮”有时是将目的地输入车辆导航系统的唯一方式。为了减少安全问题，某些现有的内置式系统试图有意地将接口使用限制在只当车辆静止时。令人遗憾的是，这种静态需求相反地危及车辆内系统可能具有的能力范围。

因此，使用有效的语音接口限制或完全消除驾驶者使用他或她的手操作接口的需要是有利的。除了导航以及拨电话号码，诸如浏览和发短信等的其他应用也得益于利用语音使能键入。因此，语音识别在使能车辆内个人设备功能中发挥了重要作用。因此，需要简单安全的有效多模态接口以在驾驶情况中使用。

而且，在车辆内的环境中实施语音使能功能提出了唯一并困难的挑战。例如，麦克风一定不能用手，因此必须与发言者的嘴巴保持一定距离。再者，马路噪音是嘈杂且不稳定的。而且，车辆内可能有多个人也在交谈，因此使系统难于在多个不同的声音中解码某个人的语音。因为车辆呈现了如此困难的语音识别环境，因此需要显著的语音识别优化以实现合理的语音识别执行。

需要克服上述的现有技术中的问题。本质上，需要能在嘈杂的环境中完成复杂语音任务的语音识别引擎。此外，对企业提供实用系统和方法以在不需要企业内专家(in-house expertise)支持改进的语音识别的情况下开发语音使能应用、托管应用并维护应用也是有利的。

因此，需要简单安全的有效多模态接口以用于驾驶情况下。只有能获得有效的语音接口，驾驶时车辆内的个人设备功能才是安全的。因此，提供在驾驶时能安全完成文本键入任务的车辆内人机接口是有利的。

发明概述

本发明提供用于完成任务的安全措施，所述任务包括在驾驶情况下键入。由于接口经设计为极端简单并能快速使用，因此能实现安全性。通过在车辆内交互中利用语音和听觉作为主要的输入/输出模态并同时减少完成任务所需的视觉和机械交互的需要实现对驾驶者的简便性。因此，在本发明中，如上述的改进的类人语音识别系统用于使能键入短文本字符串的处理。

具体而言，本发明涉及一种提示方法，该提示开始于语音任务并接着文本的计算机化言语表示。随后的用户接口步骤本质上是可视的，或只涉及声音。对于用户来说，车辆驾驶员听见音频提示并用语音响应以完成诸如创建文本消息等的任务。结果，本发明使得车辆驾驶员使用他们的语音输入文本字符串变得实用。通过利用连接到远程(或托管)语音识别系统的语音识别方案(称为“SOA”)，非同步方法能用于识别语音。如果应用包括合适的询问，对话总在向前推进，并且不要求用户重复表达，即使用户要求重复短语。该方法的优势在于提供安全舒适的用户接口，在驾驶车辆时有兴趣使用。

本发明的实施例提供一种实施交互式自动系统的方法，该方法包括使用位于个人临近位置的处理系统处理所述个人的口头表达，使用无线链接将所述经处理的语音信息发送到远程数据中心，分析所述经处理并传送的处理语音信息以度量并标出所述语音表达的端点，将所述经分析的语音信息转换为分组数据格式，选择至少一个最佳专业语音识别引擎以将所述经转换的语音信息翻译为文本格式，利用因特网协议传输网络将所述分组语音信息传输到至少一个经选择的专业语音识别引擎，从所述至少一个专业语音识别引擎检索所述识别结果和相关信心分数，如果所述信心分数达到或超过最佳匹配的预定阈值，则继续和所述车辆驾驶员的自动对话，以及如果所述信心分数较低以致低于最佳匹配的预定阈值时，选择至少一个可替换的专业语音识别引擎，以将所述经转换的语音信息翻译为文本格式。

根据另一特征，本发明的实施例包括其中所述至少一个可替换的专业语音识别引擎是代理辅助的。

根据另一特征，本发明的实施例包括其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。

根据另一特征，本发明的实施例包括其中根据所述个人的所述给定意图选择所述至少一个经选择的最佳专业语音引擎。

根据本发明的另一特征，在以非同步方式接收所述识别结果之前或之后继续与所述个人进行自动对话。

根据本发明的另一特征，在以同步方式接收所述识别结果之后继续与所述个人进行自动对话。

根据另一特征，本发明实施例进一步包括登记所述分组数据和识别结果用于随后分析。

根据本发明的另一特征，所述处理系统位于车辆板上。

根据本发明的另一特征，所述车辆位置信息也和所述分组语音信息一起传输到所述至少一个经选择的专业语音识别引擎。

根据本发明的另一特征，本发明实施例进一步包括登记所述车辆位置信息用于随后分析。

根据本发明的另一特征，所述个人的所述意图包括如下中的至少一项：发短信、浏览、导航和社交。

本发明的实施例还提供一种交互式自动语音识别系统，该系统包括位于个人临近区域的处理系统，其中所述处理系统处理所述个人的口头表达；远程数据中心；无线链接，将经处理的语音信息从所述处理系统发送到所述远程数据中心，其中所述经处理并发送的语音信息经过分析以度量并标出所述语音表达的端点并转换为分组数据格式；至少一个最佳专业语音识别引擎，经选择以将经转换的语音信息翻译为文本格式；因特网协议传输网络，将经转换的语音信息传输到所述至少一个经选择的最佳专业语音识别引擎；其中所述至少一个专业语音识别引擎产生识别结果和相关信心分数，并根据所述信心分数，如果所述信心分数较低以致低于最佳匹配的预定阈值时，选择至少一个可替换的专业语音识别引擎，以将所述经转换的语音信息翻译为文本格式。

本发明的其他优点在随后的详细描述中提出并根据详细描述可以理解或通过实施本发明的示例性实施例了解。本发明的进一步其他优点通过在权利要求中具体指出的任何设备、方法或其组合得以实现。虽然本发明在此解释并描述成一个或多个示例性实施例，但是不意味着限制在所显示的细节上，因为在不偏离本发明的精神并在权利要求相等的范围内可以进行各种修改和结构改变。当结合相应附图阅读时根据具体实施例的如下描述，本发明操作的系统和方法及其进一步的目的和优势将被最好理解。

附图简述

附图和如下的详细描述合并以及形成说明书的一部分，用于进一步示意各个实施例并解释根据本发明的各种原理和优势，在各个示意图中相同的附图标记表示相同或功能上类似的组件。

图1是示出根据本发明的示例性实施例的语音识别器的组件的系统架构示意图。

图2是示出根据本发明的示例性实施例的用于车辆内语音识别的面向服务架构的系统架构示意图。

图3是示出根据本发明实施例的包括多模态用户接口设计以及多个示例性用户接口如何共享共用性的处理系统的流程示意图。

图4是用于表示用户体验限制的同步语音识别方法的处理流程示意图。

图5是根据本发明的示例性实施例用于表示非同步方法的优势的非同步语音识别方法的处理流程示意图。

发明详述

虽然本发明在此解释并描述成提供面向服务语音识别用于自动交互和车辆内用户接口的系统和方法，并需要最少认知的驾驶员处理。但是不意味着限制在所显示的细节上，因为在不偏离本发明的精神并在权利要求相等的范围内可以进行各种修改和结构改变。另外，本发明的示例性实施例的公知部分将不详细描述或省略，以便不致使本发明的相关细节含糊不清。

认为是本发明的特征的其它特点规定在从属权利要求内。根据要求，在此披露本发明的详细实例；但是应当知道，披露的实施例仅仅是本发明的样板，可以具体化为各种形式。因此，这里披露的特殊结构和功能细节不能解释成限制，而仅仅是权利要求的基础和作为教导本领域普通技术人员在实际的任何适当的详细结构中应用本发明的代表性基础。另外，在本文使用的术语和词组不用于限制，而是提供对本发明易于理解的描述。虽然定义本发明特点的权利要求中的规范结论被认为是新颖的，但是相信结合附图从如下描述将能更好地理解本发明，其中相同的附图标记是向前编号的。

在披露并描述本发明之前，需要理解在此使用的术语仅用于描述具体实施例而非用于限制。如在此使用的，术语“一个”或“一”被定义为一个或一个以上。如在此使用的，术语“多个”被定义为两个或两个以上。如在此使用的，术语“另一个”被定义为至少第二个或更多。如在此使用的，术语“包括”和/或“具有”被定义为包含(即，开放式语言)。

如在此使用的，无论是否明确指出，术语“大约”或“接近”应用于所有的数值。这些术语一般指本领域普通技术人员认为与引用值相等的数的范围(即，具有相同功能或结果)。在许多情况下，这些术语包括经四舍五入到最接近有效数的数字。如在此使用的，术语“程序”、“软件”、“软件应用”等被定义为经开发在计算机系统上执行的指令序列。“程序”、“软件”、“计算机程序”、“软件应用”包括子例程、函数、过程、对象方法、共享库/动态装载库和/或经开发在计算机系统上执行的其他指令序列。

现在详细参考附图中的图1，所示为表示在环境嘈杂以及识别任务复杂(例如，识别口述或街道地址)的情况下语音识别器的基本组件结合远程数据中心的系统架构示意图，所述远程数据中心需要特殊优化。即使语音识别器是经过高度调整的，由于当向麦克风说话时实质上不能模拟个人发出的每个声音，因此正确性是不能简单预测的。然而，当用户合作并具有使用系统的某些经验时，可以获得可接受的结果。

一般而言，任何自动语音识别引擎都具有多个复杂的组件，包括声学模型、语法、词典以及语言模型。简单来说，“声学模型”表示语音在目标环境中是如何发声的，“语法”表示在应用中能识别什么，“词典”表示单词被发音的形式，以及“语言模型”管理可允许的句子结构。在下文中，对语音识别引擎的所选组件进行简要介绍，以获得对在此公开的技术所需的语音技术的理解。在Xuedong Huang等于2001年5月5日发表的“Spoken Language Processing：A Guide to Theory，Algorithm and SystemDevelopment”中详细解释了口头语言处理和语音识别系统的基本组件，在此引入其全文以供参考。

详细地说，“声学模型”15是在特定环境情况下产生的语音声音(phonetic sound)的统计表示。可以将语音声音认为是由自动语音识别(ASR)系统识别的口头单词的子单元。环境条件的特征在于多个因素，包括麦克风类型及其位置、周围声音媒介、声音发送属性、背景噪音、信号控制软件以及能影响语音识别处理的声音质量的任何其他变量。声学15模型对高准确度的语音识别是需要的，以及，声学模型被调整地越精确，语音识别的准确性越高。语音数据集合形成声学模型的基础。然而，现场配合用于现场调整。表示目标识别环境的环境极端的上千条记录构成语音数据的“好”的基础。

“语法”或“多个语法”17是定义在声音应用中识别的单词和短语的集合(即，词汇量)。应用能具有多个语法，诸如“是/否”，数值数字、街道名称、操作菜单项等。为了提高准确性，只有必要的词汇量在应用调用流程的任何点中是有效的。例如，除非存在特殊原因，数值数字在“是/否”询问的识别中不是有效词汇量的一部分，例如，为数字零的声音“奥”可能与单词“否”的声音混淆。因为短单词比长的、多音节单词更难于识别，因此考虑到包含太多短单词的语法更易于出现低准确性是重要的。一般而言，单词越长，能获得更多的语音内容用于与其他单词区分。为了语音识别，困难的词汇量是字母表，其中在许多情况下有许多互相类似的韵脚或声音。

语法17依靠“字典”用于发音信息。字典一般被称为“词典”。“词典”16是关于音标的单词和相关发音的集合。类似于普通字典，发音由标准字符集进行指定。

“语言模型”18经开发为辅助短语或句子中多个单词的识别匹配处理。公用语言本质上是统计的，并试图借助概率分布向可允许单词序列指定概率。语言模型能应用于诸如语音识别、机器翻译、部分语音标签、解析和信息检索的许多自然语言处理应用。在语音识别中，为了预测语音序列中的下个单词，语言模型能用于获取语言属性。

总之，对于任何给定的语音识别技术，声学模型15、语法17、词典16以及语言模型18经过优化以达到较高的准确性水平。理想情况是，如果个人能理解命令或结构化表达，则经过合适调整的语音识别器也应该能识别它。因此，使用现实记录用于适应是改进准确性的一种方式。

本发明的主要特征在于任务的具体划分-复杂语音识别任务的执行由托管应用的系统划分。基本语音应用包含依靠其自身识别器用的对话结构用于基本命令和控制。对于复杂语音识别任务，能使用可访问的专业识别器。

从系统的角度，用户感受的等待时间必须短以避免用户失望。即，识别系统必须快速响应口头表达。当应用通过因特网数据连接连接到专业语音识别器时，连接时间极快，因此在口头表达的结束和应用产生的操作(例如，随后提示或车辆显示的改变)之间产生了合理的时间量。将波形文件(即，可以经压缩以减少数据尺寸的波形声音文件)转换为因特网传输的分组数据格式的时间是可以忽略的。然而，如果声音通道用于将波形文件输送到远程识别器，因为一般的电话连接时间时大约10秒，因此连接时间使得不能获得好的用户体验。基于服务的语音识别利用远程设备的因特网连接以几乎同时地传输分组音频并返回识别结果。远程设备用作客户端并借助数据通道板下执行识别。

本发明的唯一性在于它可行地将识别引擎实时与实时与个人对话混合起来。本发明涉及具有其自身语音识别资源的企业自动系统并出现实际对话(即，出现音频提示)。无线访问因特网-电话声音通道用作个人或驾驶者和其他自动系统之间的通信装置。本发明在企业远程数据中心(ERDC)提供自动交互系统，所述企业远程数据中心利用经过数据通道(即，因特网)的多个专业语音识别器并借助无线声音通信通道允许个人(诸如驾驶者)在不用手的环境中与自动系统交互，所述自动系统能理解复杂的语音请求。在ERDC现场(on-premise)托管应用的主要优势包括便于后端集成、控制应用开发和支持、改进应用维护并由于服务共享的成本有效实施。由于平台式板下的，可以在不改变任何远程、或车辆内硬件或软件的情况下容易地修改应用对话设计。

结果，企业远程数据中心(ERDC)能标准化并发起内部设计的自动交互应用。这表示即使在应用内使用复杂的语音识别，完全的应用所有权也是可能的，并在不进行应用改变的情况下评价候选语音识别引擎。同样，通过使用专业语音识别服务也能容易地适应多语言语音识别。

在成本方面，能在大范围的不同车辆之间共享内部基于服务的识别资源和网络服务的基于服务的语言识别资源是有利的。例如，基于服务的交互性自动系统的每个通道都能同时适应多个车辆。

在ERDC内定为自动式交互自动服务群集相对于车辆内的嵌入式语音系统是有显著优势的。例如，该架构提供了来自呼叫中心的增强的操作便利性和控制。由于可以使用集中式硬件和/或软件增加或修改内容，因此能提高性能。能在集中式位置监视来自车辆的呼叫并进行改变，而不是在每个车辆内。同样，由于能在多个车辆间共享计算机资源，因此具有改进的扩展性。为了实施本发明提供的这些优势，出现另一个优点，由于使用标准telematics控制单元(TCU)(而不是专业板上计算机)能在车辆内定为位“瘦”客户端。而且，发明的系统提供了管理关于用户爱好的个性信息的能力。

本发明提供一种利用多个专业语音识别器的系统和方法，所述识别器经过因特网协议传输网络进行现场(on-premise)访问。ERDS配备高可用连接性用于高速因特网访问，因此去除了无限覆盖率的问题。将语音应用托管在位于ERDC(或呼叫中心)中的自动交互式系统上。所有的应用维护和更新能通过气压远程数据中心(ERDC)进行管理，而不需要语音识别的昂贵的主题专家。为了提供示意的非限制性示例，该具体实施例所示为结合图2中的机动车辆使用。然而，本发明的系统和方法能应用于所有的交互式系统。

参考图2，在一个示例性实施例中，在驾驶者或车辆驾驶员31初始化telematics连接后，车辆的telematics控制单元(TCU)34借助无线通信链接连接到ERDC 48，所述无线通信链接包括天线35、37以及蜂窝网络36。Telematics连接的最后阶段包括电话网络(例如POTS)38，该电话网络端接在ERDC 48内的PBX39。在该示例性实施例中，ERDC 48包括介质网关40和交互式自动服务集群41。该介质网关40管理PBX 39和交互式自动服务集群41之间的通信介质服务。交互式自动服务集群41是如下文本所述的本发明的智能中心点。

通过例如车辆驾驶员31按压按钮实现telematics请求，对该操作进行响应，TCU 38如上述初始化与ERDC 48之间的连接。在建立连接之后，车辆驾驶员31能通过例如临近车辆驾驶员31的车辆内扬声器33听见音频提示。通过车辆内扬声器33和麦克风32，能与车辆驾驶员31进行自动交互。交互例如开始于音频提示“我怎么帮您？”。当建立与ERDC 48的telematics连接时，同时地并以无缝形式捕获诸如车辆位置、车辆模型信息、车辆驾驶员信息、诊断信息等的数据信息，并将其经过数据通道发送到交互式自动服务集群41。

响应初始的音频提示(例如，“我怎么帮您？”)，车辆驾驶员然后用请求大声响应，并说例如“我想找到附近的意大利餐馆”或“我想给朋友Bob发短信”。取决于车辆驾驶员31进行的请求类型，交互式自动服务集群41自动选择合适的语音识别引擎，所述交互式自动服务集群41包含经过互连形成位于ERDC语音系统的服务器组。合适的语音识别引擎可以位于ERDC 48的交互式自动服务集群41内部或者对于语音识别服务云49中的交互式自动服务集群是能外部获得的，该语音识别服务云49能由提供URL服务点到他们语音服务场的一个或多个语音销售商通过万维网(称为“云计算”)进行访问。对语音引擎的选择取决于车辆驾驶员31进行的请求类型。例如，简单的“是/否”询问或操作菜单选择能由托管在交互式自动服务集群41内的识别引擎进行处理。更复杂的语音识别任务(诸如识别口头句子)能由远程口述引擎44进行处理。因特网协议传输网络42对于交互式自动服务集群41具有高可用性并高速运行，使得在车辆驾驶员发出指令几秒内识别复杂的语音表达成为可能。

当处理复杂的语音识别任务(诸如识别导航目的地)时，远程导航引擎43借助因特网协议传输网络42执行该处理。语音应用在交互式自动服务集群41中执行并在处理下一步骤(例如，随后提示、目标信息的可视显示、或交互式会话的结束)之前等待来自远程导航引擎43的响应。

对于每个口头表达，出现识别处理，并作为处理的一部分，是比起产生“n”个最佳假设列表，或“识别结果”。换而言之，如果“n”等于5，识别器产生可能说出至5个的文本表示，每个具有正确识别的相关概率。变量“n”可以是预定的，限制数和/或取决于满足或超出正确识别一定概率的返回的结果数。对每个识别假设指定信心分数(或概率)，该信心分数一般标准化为一。如果对最佳选择指定特定阈值(例如，85)以上的信心分数，则认为讲出的输入是最后识别结果，而不需要进一步处理。

可能出现远程导航引擎43提供的结果具有低信心，表示使用特定的信心等级没有自动识别口头语音。为了执行这种情况的识别，对应的音频波形文件经过网络传递到现场抄写代理47。出现这种情况，在处理下一步骤(例如，随后提示，目的地信息的可视化显示或结束交互式会话)之前，在交互式自动服务器集群41中执行的语音应用等待来自抄写代理47的响应。

通过实时访问语音识别服务云49，相对于现有技术改进了用户体验。交互式自动服务集群41用作车辆驾驶员或其他用户经历的自动化后的智能。系统和方法在选择语音识别引擎是不可知的事实使得系统和方法非常健壮并灵活，这是因为能利用多个同类最佳识别器。此外，由于本发明的系统和方法将代理辅助引入所实施的模型，用户体验也“感受”人跟着噪音和较重的口音特性。最后，车辆驾驶员或其他用户31能连接到现场代理(未示出)以处理极端情况。如果应用相应配置，则该连接容易地由交互式自动服务器集群41管理。

结合上述的语音识别方案的系统和方法，本发明也提供具有驾驶时使其安全的功能的用户接口。本发明的用户接口允许导航、拨号、网页浏览、发文本消息(发短信)以及通过语音使能键入用于移动设备的其他应用。

一般而言，用户接口的主要目的在于使得车辆驾驶员方法受到用户接口控制和管理的应用集成为现实，所述用户接口共享高度的共用性。例如，用于发短信的用户接口共享用于网页浏览的用户接口的共用性。类似地，用于网页浏览的用户接口共享用于本地搜索和导航的完全地址输入的用户接口的共用性。通过设计，车辆驾驶员实际上不需要学习。本发明利用三步方法用于完成一般需要常规输入的任务。这三步是：意图初始化；讲出短语；以及管理结果。不需要键入。

使用中，车辆驾驶员通过指示意图初始任务。能经过特定按钮按压、触摸特定图标、或讲出诸如“我想发送文本消息”等的特定语音命令对意图进行通信。一旦用户指出意图，通过语音提示用户讲出短语，所述短语匹配用于文本消息的所需文本或输入搜索框的所需文本、或目的地种类、名称、或地址。最重要地，本发明使得车辆驾驶员使用他们自己的语音输入文本字符串成为现实。然后，所识别的结果以取决于任务的形式由用户管理。网页浏览必须简单地扫视屏幕。发短信必须讲出接收者的名字并然后讲出文本消息的内容。目的地输入必须触摸屏幕以将特定目的地下载到板上导航系统。其他示例遵循相同模式：输入意图；讲出短语并管理结果。如上所述，本发明的用户接口需要改进的语音识别，允许在车辆内部的高度挑战环境中的自由形式的口述。

需要注意，本发明也包含非同步语音识别，非同步语音识别表示在获取识别结果之前用户接口能向前执行。例如，用户能讲出文本消息并在实际识别讲出的文本消息之前经提示讲出接受者的名字。用户接口能包括播放稍后识别的文本消息以及目标接收者。和获取识别结果相关的较长等待期可以由在车辆内发送消息而不确认进行管理，在用户交互之后进行确认。例如，消息可以被识别并在20秒之后发送，而用户不知道消息发送的确切时间。然而，某些任务(诸如网页浏览或本地搜索)对计时是很敏感的，并当将等待期控制在几秒内时(类似于常规网页浏览一般经历的延迟)同步方法是唯一实际的。

本发明的非同步语音识别方法具有超出车辆之外的优势。例如，常规交互式声音响应系统(IVR)一般包括错误处理的对话，会减慢交互处理并当出现识别错误时经常引起用户失望。然而，对于完全的非同步语音识别，对话总是向前进行的(即使没有识别语音，在用户讲话之后，立即出现下一提示)以及不要求用户重复口头表达。而且，部分对话可以是同步的，因此允许系统要求用户确认用户讲出的短语或用户能通过是/否询问(例如，对系统询问“你是否说过…？”，回答“否”)使系统重复结果。

根据本发明的示例性实施例，图3表示发明的车辆内用户接口方案的表示，根据涉及或需要相同基本步骤的用户接口处理或应用，尽管能由不同的方法实现步骤并产生不同的结果或向用户提供不同的功能。用户接口本质上是多模态的并基于在多个应用之间共用的三个步骤，所述应用包括但不限于发短信210、浏览213、导航216、社交219以及其他应用222。步骤一225涉及确定意图或选择应用向使用的应用。通过触摸显示器上的图标、按压特定按钮或发出诸如“网页搜索”或“语音短信”等的语音命令实现应用选择。步骤二226包括发出将转换为文本的短语，其可被称为语音使能键入。要转换为文本的短语特性取决于用户意图。取决于意图225，要转换的短语类型包括，但不限于文本消息211、搜索字符串录入214、目标目的地217、或简要声明220以及其他短语223。所识别的短语通过音频(例如，文本-语音)播放以及用户然后确定如何管理结果227。步骤三227，或结果管理需要如下的操作：讲出目标消息接收者212的名字、在显示器上扫视215诸如天气报告等的搜索结果、触摸显示的目的地以向导航系统输入218目的地，或讲出社交通信的组221的名字。需要注意，步骤一和步骤三能包括除了语音之外的输入模态，但步骤二必需语音使能键入。本发明的关键在于能应用在多个不同应用的单个用户接口的简便性。产生的用户接口设计的简便性在驾驶环境下是非常有吸引力的，这是因为驾驶者需要很少的认知处理来学习并使用许多应用。因为只有这几步，能快速完成任务并因此减少分心。

图4是非同步语音识别方法的处理流程示意图。用户开始300并经历IVR提示301，并一般发出口头回答。识别引擎302处理口头回答并根据称为识别信心等级303的匹配分数在企业后端304内完成处理后移向下一提示或再次提示301。当认为所有的提示步骤是成功时，交互处理结束。该同步方法可能的问题在于当出现连续的低信息等级303-低时用户陷入错误的循环。即使人们一般理解不被希望的声音输入，但经历自动语音识别属性的人不希望声音输入成为识别错误的主要原因，因此，人工辅助语音识别得到改进。因此，同步语音识别方法经常和较差的用户体验相关。例如，常规的交互式声音响应系统(IVR)一般包括错误处理的对话，增加交互式处理的延长时间并当出现识别错误时经常引起用户失望。

如图5所示，对于非同步语音识别，用户开始310并经历IVR提示312。IVR获取用户表达，将声音传输到能排列的语音识别引擎313，并执行序列中的下一提示312(如果还有的话)。用户表达的处理315对于用于用户输入的提示312是并行进行的；即，两个活动是非同步的。结果，由于较低的识别信心分数314或较长的识别等待时间，用户提示311处理不会被中断。如图5所示，低信心表达由人316抄写借此确保高准确性，但成本比全自动的语音识别高。对于本发明执行的非同步语音识别，无论是否获取有效的识别结果，提示都是向前进行的处理。这样去除了用户陷入提示错误循环312中的可能问题，并能部分保证用户良好的体验。那些经历自动语音识别属性的人不希望声音输入成为识别错误的主要原因。由于人们经常抄写该“受影响的”声音，因此在本发明的系统和处理中包含人能使这些错误消失。因此，当和非同步语音识别方法结合时本发明采用的人工辅助语音识别是非常实用的。如果系统检测到用户侧的沉默(即，没有口头表达时)，提示可以故意早点结束，假设用户没有参与到自动对话中。位于完全的非同步语音识别，当用户合作时对话总是向前进行，这样具有避免用户重复口头表达的优势。需要注意，部分对话是同步的而部分是非同步的。事实上，对于某些应用，需要部分对话是同步的以允许用户请求的短语重复(在其中向用户提示“你说过<…>吗？请回答是或否”的情景)。更重要的，某些提示取决于识别结果，因此意味着需要具体环境下的同步语音识别。在此所述的方法提供了有吸引力的可靠的用户接口，即使在开车时也是安全实用并可靠的。

本发明可以是完全同步的、完全非同步的及其组合。常规语音应用利用提示方案，在该提示方案中，对于每个提示，获取识别结果之后继续提示。对在完成发出口头表达的时间和利用识别结果(诸如通过声音拨电话号码)的时间之间的等待期有限制的某些应用必须实施；这些应用一般需要同步方法。然而，对于在完成发出口头表达的时间和利用识别结果的时间之间的等待期具有较少严格限制的某些应用必须实施(例如，在驾驶员发出文本消息之后多次发出文本消息)；这些应用一般需要同步方法，但能对部分对话允许非同步的语音识别。例如，驾驶员请求发出文本消息(意图)；用户经提示并讲出文本消息(其能被非同步识别)；用户经提示并讲出文本消息接收者的名字，其能被同步识别或非同步识别；在确定所有的识别结果之后发送该文本消息。诸如填表等的某些应用能被非同步地完成。填表应用能包括例如获取用户名称、地址、信用卡号以及服务选择；可能在用户对话完成之后的数小时内，在确定识别结果之后用文本填写表格。作为另一示例，部分的填表对话可以包括使用户描述类似机动车事故的某些事；应用简单地对其记录用于随后识别，可能通过人工辅助语音识别。

虽然已披露本发明的具体实施例，但本领域普通技术人员将理解在不偏离本发明的精神和范围的情况下可以对实施例做出各种改变。因此，本发明的范围并不限于所描述的实施例，我们希望随后的权利要求覆盖本发明范围内的所有应用、修改和实施例。根据本发明描述的最小化驾驶员认知的面向服务语音识别系统和方法以及车辆用户接口和处理已应用于车辆示例。然而，上述实施例应被理解为示例性而非限制性。本发明不硬理解为受限于这些具体公开的上述实施例。本领域普通技术人员将理解以上公开的实施例的其他改变，以及与车辆无关的需要使驾驶员认知操作最小化的应用。

Claims

1.一种实施交互式自动系统的方法，包括：

使用位于个人临近位置的处理系统处理个人的口头表达；

使用无线链接将所述经处理的语音信息发送到远程数据中心；

分析所述经处理并传送的处理语音信息以度量并标出所述语音表达的端点；

将所述经分析的语音信息转换为分组数据格式；

选择至少一个最佳专业语音识别引擎以将所述经转换的语音信息翻译为文本格式；

利用因特网协议传输网络将所述分组语音信息传输到至少一个经选择的专业语音识别引擎；

从所述至少一个专业语音识别引擎检索所述识别结果和相关信心分数；

如果所述信心分数达到或超过最佳匹配的预定阈值，则继续和所述个人的自动对话；以及

如果所述信心分数较低以致低于最佳匹配的预定阈值时，选择至少一个可替换的专业语音识别引擎，以将所述经转换的语音信息翻译为文本格式。

2.如权利要求1的方法，其中所述至少一个可替换的专业语音识别引擎是代理辅助的。

3.如权利要求1的方法，其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。

4.如权利要求1的方法，其中所述至少一个经选择的最佳专业语音引擎是根据所述个人的给定意图选择的。

5.如权利要求1的方法，其中在以非同步方式接收所述识别结果之前或之后继续与所述个人的所述自动对话。

6.如权利要求1的方法，其中在以同步方式接收所述识别结果之后继续与所述个人的所述自动对话。

7.如权利要求1的方法，进一步包括登记所述分组数据和识别结果用于随后分析。

8.如权利要求1的方法，其中所述处理系统位于车辆板上。

9.如权利要求8的方法，其中车辆位置信息也和所述分组语音信息一起传送到所述至少一个经选择的专业语音识别引擎。

10.如权利要求9的方法，进一步包括登记所述车辆位置信息用于随后分析。

11.如权利要求4的方法，其中所述个人的所述意图至少包括如下之一：

发短信；

浏览；

导航；以及

社交。

12.一种实施交互式自动系统的方法，包括：

利用位于车辆板上的处理系统处理车辆驾驶员的口头表达；

利用无线链接将所述经处理的语音信息发送到远程数据中心；

分析所述经传送处理的语音信息以度量并标出所述语音表达的端点；

将所述经分析的语音信息转换为分组数据格式；

利用因特网协议传输网络将所述分组语音信息和车辆位置信息传输到至少一个经选择的专业语音识别引擎；

如果所述信心分数达到或超过最佳匹配的预定阈值，则继续和所述车辆驾驶员的自动对话；以及

如果所述信心分数较低以致低于最佳匹配的预定阈值时，选择至少一个可替换的专业语音识别引擎，以将所述经转换的语音信息翻译为文本格式，所述可替换的专业语音识别引擎是代理辅助的。

13.如权利要求12的方法，其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。

14.如权利要求12的方法，其中所述至少一个经选择的最佳专业语音引擎是根据所述车辆驾驶员的给定意图选择的。

15.如权利要求12的方法，其中在以非同步方式接收所述识别结果之前或之后继续与所述车辆驾驶员的所述自动对话。

16.如权利要求12的方法，其中在以同步方式接收所述识别结果之后继续与所述车辆驾驶员的所述自动对话。

17.如权利要求14的方法，其中所述车辆驾驶员的所述意图包括至少如下之一：

发短信；

浏览；

导航；以及

社交。

18.如权利要求12的方法，进一步包括登记所述分组数据、识别结果和车辆位置信息用于随后分析。

19.一种交互式自动语音识别系统，包括：

位于个人临近区域的处理系统，其中所述处理系统处理所述个人的口头表达；

远程数据中心；

无线链接，将所述经处理的语音信息从所述处理系统发送到所述远程数据中心，其中所述经处理并发送的语音信息经过分析以度量并标出所述语音表达的端点并转换为分组数据格式；

至少一个最佳专业语音识别引擎，经选择以将所述经转换的语音信息翻译为文本格式；

因特网协议传输网络，将所述经转换的语音信息传输到所述至少一个经选择的最佳专业语音识别引擎；以及

其中所述至少一个专业语音识别引擎产生识别结果和相关信心分数，并根据所述信心分数：

如果所述信心分数达到或超过最佳匹配的预定阈值则继续与所述个人的所述自动对话；或者

20.如权利要求19的系统，其中所述至少一个可替换的专业语音识别引擎是代理辅助的。

21.如权利要求19的系统，其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。

22.如权利要求19的系统，其中所述至少一个经选择的最佳专业语音引擎是根据所述个人的给定意图选择的。

23.如权利要求19的系统，其中在以非同步方式接收所述识别结果之前或之后继续与所述个人的所述自动对话。

24.如权利要求19的系统，其中在以同步方式接收所述识别结果之后继续与所述个人的所述自动对话。

25.如权利要求19的系统，其中所述分组数据和识别结果被登记用于随后分析。

26.如权利要求19的系统，其中所述车辆系统位于车辆板上。

27.如权利要求26的系统，其中车辆位置信息也和所述分组语音信息一起传送到所述至少一个经选择的专业语音识别引擎。

28.如权利要求27的系统，其中所述车辆位置信息被登记用于随后分析。

29.如权利要求22的系统，其中所述个人的所述意图包括至少如下之一：

发短信；

浏览；

导航；以及

社交。