CN102439661A - 用于车辆内自动交互的面向服务语音识别 - Google Patents

用于车辆内自动交互的面向服务语音识别 Download PDF

Info

Publication number
CN102439661A
CN102439661A CN2010800236175A CN201080023617A CN102439661A CN 102439661 A CN102439661 A CN 102439661A CN 2010800236175 A CN2010800236175 A CN 2010800236175A CN 201080023617 A CN201080023617 A CN 201080023617A CN 102439661 A CN102439661 A CN 102439661A
Authority
CN
China
Prior art keywords
speech recognition
vehicle
recognition engine
individual
voice messaging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800236175A
Other languages
English (en)
Inventor
T·B·沙尔克
L·萨恩斯
B·伯奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATX Group Inc
Original Assignee
ATX Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATX Group Inc filed Critical ATX Group Inc
Publication of CN102439661A publication Critical patent/CN102439661A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种在车辆中实施基于服务的语音识别系统用于多模态自动交互的系统和方法,包括由车辆驾驶员通过板上人机接口接收音频提示并用语音响应以完成诸如创建并发送文本信息消息、网页浏览、导航等的任务。该面向服务的架构用于以适应性方式调用专业语音识别器。该人机接口能在驾驶车辆时以使得驾驶员和所述接口视觉地和机械地交互频率最小化的形式完成文本输入任务,因此在驾驶情况下消除不安全的干扰。在最初的提示之后,键入任务之后是文本的计算机化言语表示。随后的接口步骤本质上是可视的,并只涉及声音。

Description

用于车辆内自动交互的面向服务语音识别
背景技术
本发明总体上涉及实施基于服务的语音识别系统用于多模态交互的系统和方法,所述多模态交互能应用于任何交互式自动系统,诸如在机动车中使用的交互式自动系统。更具体而言,本发明涉及利用多个语音识别器和相关的车辆内人机接口的系统和方法,用于为驾车者在驾驶情况下创建高效安全、可靠便利并舒适的体验并同时实现高自动化率。
本发明的主要目的在于提供具有高效自动化的呼叫中心企业,用于在不损害对客户的服务质量的情况下降低成本。交互式自动应该是客户或驾车者完成任务的优选交互措施,这些任务否则需要经过呼叫中心通过个人/代理交互进行处理。在本发明中,面向服务结构(SOA)用于选择性地以唯一适应性的方式利用专业语音识别器。如在此所述,该方法的优势在于提供安全舒适的用户接口并改进呼叫中心的效率。
Telematics(车载信息服务系统)服务的出现在十年之前引入,并带来了如下趋势:包含车辆与远程数据中心通信并发送涉及安全、保安和应急故障的位置数据和车辆信息的能力。如在本领域中所称的,“telematics”包括无线通信、车辆监视系统和定位设备的集成。在自动式交互中该项技术结合了无线声音和数据能力用于管理信息和安全应用。
大多数早期的telematics通信通过无线声音通道实现,所述无线声音通道本质上是模拟的。根据2008年的法律,所有的模拟连接成为数字的,并因此,诸如“3G”技术等的数据连接成为移动设备“连接”到因特网的容易获得的技术。作为这些改进的结果,在称为“连接车辆”概念中,车辆也适于利用数据连接结合声音通道连接。
“连接车辆”概念继续在过去数年间演变,并且商业上出现了相当复杂的车辆服务。这些服务经常依靠车辆位置以及“云计算”,所述“云计算”被定义为经过数据通道访问的网络服务。这些服务的示例包括板下路由、目的地获取、远程车辆诊断、音乐下载、交通报告、本地搜索、访问门房(concierge)服务、连接车辆销售员以及路旁帮助。如在此使用的术语“板下”指远离车辆或车辆外的位置。如在此使用的术语“本地搜索”指根据特定位置的临近处的兴趣点(POI)搜索。上面给出的示例被认为本质上是以车辆为中心的,并且许多引起了某些形式的与现场代理或板下交互式自动系统的声音通信。
近年来,出现该趋势:驾驶员在诸如移动设备等的车辆内操作个人设备,使得驾驶时不安全。现在将内置式用户接口添加到车辆内侧以提供如车辆自身组件的这些移动功能。然而,关于这些内置式组件的安全性和实用性的关注仍然存在。难于以在驾驶时使其安全的形式使能车辆内的个人设备功能。用户接口对于车辆驾驶员在驾驶时使用一点不实用。不仅由于设备屏幕相当小,而且更重要的,操作和使用常规移动设备的主要输入模态包括用户和设备某些形式的输入或机械地交互。当司机的认知处理关注于没有集中在安全驾驶车辆的其他任务时,将出现司机分心。打电话以及将数据输入到移动设备中是驾驶时非常分心的任务的示例。驾驶时常规键入是非常危险的,这是因为需要视觉和触觉,使得安全驾驶不现实。例如,当开车时,通过扭曲并微调旋钮直到突出显示每个目标字母,接着推旋钮(“knobbing”)来输入消息是不明智的。然而,即使这是个危险的经历,但“推旋钮”有时是将目的地输入车辆导航系统的唯一方式。为了减少安全问题,某些现有的内置式系统试图有意地将接口使用限制在只当车辆静止时。令人遗憾的是,这种静态需求相反地危及车辆内系统可能具有的能力范围。
因此,使用有效的语音接口限制或完全消除驾驶者使用他或她的手操作接口的需要是有利的。除了导航以及拨电话号码,诸如浏览和发短信等的其他应用也得益于利用语音使能键入。因此,语音识别在使能车辆内个人设备功能中发挥了重要作用。因此,需要简单安全的有效多模态接口以在驾驶情况中使用。
而且,在车辆内的环境中实施语音使能功能提出了唯一并困难的挑战。例如,麦克风一定不能用手,因此必须与发言者的嘴巴保持一定距离。再者,马路噪音是嘈杂且不稳定的。而且,车辆内可能有多个人也在交谈,因此使系统难于在多个不同的声音中解码某个人的语音。因为车辆呈现了如此困难的语音识别环境,因此需要显著的语音识别优化以实现合理的语音识别执行。
需要克服上述的现有技术中的问题。本质上,需要能在嘈杂的环境中完成复杂语音任务的语音识别引擎。此外,对企业提供实用系统和方法以在不需要企业内专家(in-house expertise)支持改进的语音识别的情况下开发语音使能应用、托管应用并维护应用也是有利的。
因此,需要简单安全的有效多模态接口以用于驾驶情况下。只有能获得有效的语音接口,驾驶时车辆内的个人设备功能才是安全的。因此,提供在驾驶时能安全完成文本键入任务的车辆内人机接口是有利的。
发明概述
本发明提供用于完成任务的安全措施,所述任务包括在驾驶情况下键入。由于接口经设计为极端简单并能快速使用,因此能实现安全性。通过在车辆内交互中利用语音和听觉作为主要的输入/输出模态并同时减少完成任务所需的视觉和机械交互的需要实现对驾驶者的简便性。因此,在本发明中,如上述的改进的类人语音识别系统用于使能键入短文本字符串的处理。
具体而言,本发明涉及一种提示方法,该提示开始于语音任务并接着文本的计算机化言语表示。随后的用户接口步骤本质上是可视的,或只涉及声音。对于用户来说,车辆驾驶员听见音频提示并用语音响应以完成诸如创建文本消息等的任务。结果,本发明使得车辆驾驶员使用他们的语音输入文本字符串变得实用。通过利用连接到远程(或托管)语音识别系统的语音识别方案(称为“SOA”),非同步方法能用于识别语音。如果应用包括合适的询问,对话总在向前推进,并且不要求用户重复表达,即使用户要求重复短语。该方法的优势在于提供安全舒适的用户接口,在驾驶车辆时有兴趣使用。
本发明的实施例提供一种实施交互式自动系统的方法,该方法包括使用位于个人临近位置的处理系统处理所述个人的口头表达,使用无线链接将所述经处理的语音信息发送到远程数据中心,分析所述经处理并传送的处理语音信息以度量并标出所述语音表达的端点,将所述经分析的语音信息转换为分组数据格式,选择至少一个最佳专业语音识别引擎以将所述经转换的语音信息翻译为文本格式,利用因特网协议传输网络将所述分组语音信息传输到至少一个经选择的专业语音识别引擎,从所述至少一个专业语音识别引擎检索所述识别结果和相关信心分数,如果所述信心分数达到或超过最佳匹配的预定阈值,则继续和所述车辆驾驶员的自动对话,以及如果所述信心分数较低以致低于最佳匹配的预定阈值时,选择至少一个可替换的专业语音识别引擎,以将所述经转换的语音信息翻译为文本格式。
根据另一特征,本发明的实施例包括其中所述至少一个可替换的专业语音识别引擎是代理辅助的。
根据另一特征,本发明的实施例包括其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。
根据另一特征,本发明的实施例包括其中根据所述个人的所述给定意图选择所述至少一个经选择的最佳专业语音引擎。
根据本发明的另一特征,在以非同步方式接收所述识别结果之前或之后继续与所述个人进行自动对话。
根据本发明的另一特征,在以同步方式接收所述识别结果之后继续与所述个人进行自动对话。
根据另一特征,本发明实施例进一步包括登记所述分组数据和识别结果用于随后分析。
根据本发明的另一特征,所述处理系统位于车辆板上。
根据本发明的另一特征,所述车辆位置信息也和所述分组语音信息一起传输到所述至少一个经选择的专业语音识别引擎。
根据本发明的另一特征,本发明实施例进一步包括登记所述车辆位置信息用于随后分析。
根据本发明的另一特征,所述个人的所述意图包括如下中的至少一项:发短信、浏览、导航和社交。
本发明的实施例还提供一种交互式自动语音识别系统,该系统包括位于个人临近区域的处理系统,其中所述处理系统处理所述个人的口头表达;远程数据中心;无线链接,将经处理的语音信息从所述处理系统发送到所述远程数据中心,其中所述经处理并发送的语音信息经过分析以度量并标出所述语音表达的端点并转换为分组数据格式;至少一个最佳专业语音识别引擎,经选择以将经转换的语音信息翻译为文本格式;因特网协议传输网络,将经转换的语音信息传输到所述至少一个经选择的最佳专业语音识别引擎;其中所述至少一个专业语音识别引擎产生识别结果和相关信心分数,并根据所述信心分数,如果所述信心分数较低以致低于最佳匹配的预定阈值时,选择至少一个可替换的专业语音识别引擎,以将所述经转换的语音信息翻译为文本格式。
本发明的其他优点在随后的详细描述中提出并根据详细描述可以理解或通过实施本发明的示例性实施例了解。本发明的进一步其他优点通过在权利要求中具体指出的任何设备、方法或其组合得以实现。虽然本发明在此解释并描述成一个或多个示例性实施例,但是不意味着限制在所显示的细节上,因为在不偏离本发明的精神并在权利要求相等的范围内可以进行各种修改和结构改变。当结合相应附图阅读时根据具体实施例的如下描述,本发明操作的系统和方法及其进一步的目的和优势将被最好理解。
附图简述
附图和如下的详细描述合并以及形成说明书的一部分,用于进一步示意各个实施例并解释根据本发明的各种原理和优势,在各个示意图中相同的附图标记表示相同或功能上类似的组件。
图1是示出根据本发明的示例性实施例的语音识别器的组件的系统架构示意图。
图2是示出根据本发明的示例性实施例的用于车辆内语音识别的面向服务架构的系统架构示意图。
图3是示出根据本发明实施例的包括多模态用户接口设计以及多个示例性用户接口如何共享共用性的处理系统的流程示意图。
图4是用于表示用户体验限制的同步语音识别方法的处理流程示意图。
图5是根据本发明的示例性实施例用于表示非同步方法的优势的非同步语音识别方法的处理流程示意图。
发明详述
虽然本发明在此解释并描述成提供面向服务语音识别用于自动交互和车辆内用户接口的系统和方法,并需要最少认知的驾驶员处理。但是不意味着限制在所显示的细节上,因为在不偏离本发明的精神并在权利要求相等的范围内可以进行各种修改和结构改变。另外,本发明的示例性实施例的公知部分将不详细描述或省略,以便不致使本发明的相关细节含糊不清。
认为是本发明的特征的其它特点规定在从属权利要求内。根据要求,在此披露本发明的详细实例;但是应当知道,披露的实施例仅仅是本发明的样板,可以具体化为各种形式。因此,这里披露的特殊结构和功能细节不能解释成限制,而仅仅是权利要求的基础和作为教导本领域普通技术人员在实际的任何适当的详细结构中应用本发明的代表性基础。另外,在本文使用的术语和词组不用于限制,而是提供对本发明易于理解的描述。虽然定义本发明特点的权利要求中的规范结论被认为是新颖的,但是相信结合附图从如下描述将能更好地理解本发明,其中相同的附图标记是向前编号的。
在披露并描述本发明之前,需要理解在此使用的术语仅用于描述具体实施例而非用于限制。如在此使用的,术语“一个”或“一”被定义为一个或一个以上。如在此使用的,术语“多个”被定义为两个或两个以上。如在此使用的,术语“另一个”被定义为至少第二个或更多。如在此使用的,术语“包括”和/或“具有”被定义为包含(即,开放式语言)。
如在此使用的,无论是否明确指出,术语“大约”或“接近”应用于所有的数值。这些术语一般指本领域普通技术人员认为与引用值相等的数的范围(即,具有相同功能或结果)。在许多情况下,这些术语包括经四舍五入到最接近有效数的数字。如在此使用的,术语“程序”、“软件”、“软件应用”等被定义为经开发在计算机系统上执行的指令序列。“程序”、“软件”、“计算机程序”、“软件应用”包括子例程、函数、过程、对象方法、共享库/动态装载库和/或经开发在计算机系统上执行的其他指令序列。
现在详细参考附图中的图1,所示为表示在环境嘈杂以及识别任务复杂(例如,识别口述或街道地址)的情况下语音识别器的基本组件结合远程数据中心的系统架构示意图,所述远程数据中心需要特殊优化。即使语音识别器是经过高度调整的,由于当向麦克风说话时实质上不能模拟个人发出的每个声音,因此正确性是不能简单预测的。然而,当用户合作并具有使用系统的某些经验时,可以获得可接受的结果。
一般而言,任何自动语音识别引擎都具有多个复杂的组件,包括声学模型、语法、词典以及语言模型。简单来说,“声学模型”表示语音在目标环境中是如何发声的,“语法”表示在应用中能识别什么,“词典”表示单词被发音的形式,以及“语言模型”管理可允许的句子结构。在下文中,对语音识别引擎的所选组件进行简要介绍,以获得对在此公开的技术所需的语音技术的理解。在Xuedong Huang等于2001年5月5日发表的“Spoken Language Processing:A Guide to Theory,Algorithm and SystemDevelopment”中详细解释了口头语言处理和语音识别系统的基本组件,在此引入其全文以供参考。
详细地说,“声学模型”15是在特定环境情况下产生的语音声音(phonetic sound)的统计表示。可以将语音声音认为是由自动语音识别(ASR)系统识别的口头单词的子单元。环境条件的特征在于多个因素,包括麦克风类型及其位置、周围声音媒介、声音发送属性、背景噪音、信号控制软件以及能影响语音识别处理的声音质量的任何其他变量。声学15模型对高准确度的语音识别是需要的,以及,声学模型被调整地越精确,语音识别的准确性越高。语音数据集合形成声学模型的基础。然而,现场配合用于现场调整。表示目标识别环境的环境极端的上千条记录构成语音数据的“好”的基础。
“语法”或“多个语法”17是定义在声音应用中识别的单词和短语的集合(即,词汇量)。应用能具有多个语法,诸如“是/否”,数值数字、街道名称、操作菜单项等。为了提高准确性,只有必要的词汇量在应用调用流程的任何点中是有效的。例如,除非存在特殊原因,数值数字在“是/否”询问的识别中不是有效词汇量的一部分,例如,为数字零的声音“奥”可能与单词“否”的声音混淆。因为短单词比长的、多音节单词更难于识别,因此考虑到包含太多短单词的语法更易于出现低准确性是重要的。一般而言,单词越长,能获得更多的语音内容用于与其他单词区分。为了语音识别,困难的词汇量是字母表,其中在许多情况下有许多互相类似的韵脚或声音。
语法17依靠“字典”用于发音信息。字典一般被称为“词典”。“词典”16是关于音标的单词和相关发音的集合。类似于普通字典,发音由标准字符集进行指定。
“语言模型”18经开发为辅助短语或句子中多个单词的识别匹配处理。公用语言本质上是统计的,并试图借助概率分布向可允许单词序列指定概率。语言模型能应用于诸如语音识别、机器翻译、部分语音标签、解析和信息检索的许多自然语言处理应用。在语音识别中,为了预测语音序列中的下个单词,语言模型能用于获取语言属性。
总之,对于任何给定的语音识别技术,声学模型15、语法17、词典16以及语言模型18经过优化以达到较高的准确性水平。理想情况是,如果个人能理解命令或结构化表达,则经过合适调整的语音识别器也应该能识别它。因此,使用现实记录用于适应是改进准确性的一种方式。
本发明的主要特征在于任务的具体划分-复杂语音识别任务的执行由托管应用的系统划分。基本语音应用包含依靠其自身识别器用的对话结构用于基本命令和控制。对于复杂语音识别任务,能使用可访问的专业识别器。
从系统的角度,用户感受的等待时间必须短以避免用户失望。即,识别系统必须快速响应口头表达。当应用通过因特网数据连接连接到专业语音识别器时,连接时间极快,因此在口头表达的结束和应用产生的操作(例如,随后提示或车辆显示的改变)之间产生了合理的时间量。将波形文件(即,可以经压缩以减少数据尺寸的波形声音文件)转换为因特网传输的分组数据格式的时间是可以忽略的。然而,如果声音通道用于将波形文件输送到远程识别器,因为一般的电话连接时间时大约10秒,因此连接时间使得不能获得好的用户体验。基于服务的语音识别利用远程设备的因特网连接以几乎同时地传输分组音频并返回识别结果。远程设备用作客户端并借助数据通道板下执行识别。
本发明的唯一性在于它可行地将识别引擎实时与实时与个人对话混合起来。本发明涉及具有其自身语音识别资源的企业自动系统并出现实际对话(即,出现音频提示)。无线访问因特网-电话声音通道用作个人或驾驶者和其他自动系统之间的通信装置。本发明在企业远程数据中心(ERDC)提供自动交互系统,所述企业远程数据中心利用经过数据通道(即,因特网)的多个专业语音识别器并借助无线声音通信通道允许个人(诸如驾驶者)在不用手的环境中与自动系统交互,所述自动系统能理解复杂的语音请求。在ERDC现场(on-premise)托管应用的主要优势包括便于后端集成、控制应用开发和支持、改进应用维护并由于服务共享的成本有效实施。由于平台式板下的,可以在不改变任何远程、或车辆内硬件或软件的情况下容易地修改应用对话设计。
结果,企业远程数据中心(ERDC)能标准化并发起内部设计的自动交互应用。这表示即使在应用内使用复杂的语音识别,完全的应用所有权也是可能的,并在不进行应用改变的情况下评价候选语音识别引擎。同样,通过使用专业语音识别服务也能容易地适应多语言语音识别。
在成本方面,能在大范围的不同车辆之间共享内部基于服务的识别资源和网络服务的基于服务的语言识别资源是有利的。例如,基于服务的交互性自动系统的每个通道都能同时适应多个车辆。
在ERDC内定为自动式交互自动服务群集相对于车辆内的嵌入式语音系统是有显著优势的。例如,该架构提供了来自呼叫中心的增强的操作便利性和控制。由于可以使用集中式硬件和/或软件增加或修改内容,因此能提高性能。能在集中式位置监视来自车辆的呼叫并进行改变,而不是在每个车辆内。同样,由于能在多个车辆间共享计算机资源,因此具有改进的扩展性。为了实施本发明提供的这些优势,出现另一个优点,由于使用标准telematics控制单元(TCU)(而不是专业板上计算机)能在车辆内定为位“瘦”客户端。而且,发明的系统提供了管理关于用户爱好的个性信息的能力。
本发明提供一种利用多个专业语音识别器的系统和方法,所述识别器经过因特网协议传输网络进行现场(on-premise)访问。ERDS配备高可用连接性用于高速因特网访问,因此去除了无限覆盖率的问题。将语音应用托管在位于ERDC(或呼叫中心)中的自动交互式系统上。所有的应用维护和更新能通过气压远程数据中心(ERDC)进行管理,而不需要语音识别的昂贵的主题专家。为了提供示意的非限制性示例,该具体实施例所示为结合图2中的机动车辆使用。然而,本发明的系统和方法能应用于所有的交互式系统。
参考图2,在一个示例性实施例中,在驾驶者或车辆驾驶员31初始化telematics连接后,车辆的telematics控制单元(TCU)34借助无线通信链接连接到ERDC 48,所述无线通信链接包括天线35、37以及蜂窝网络36。Telematics连接的最后阶段包括电话网络(例如POTS)38,该电话网络端接在ERDC 48内的PBX39。在该示例性实施例中,ERDC 48包括介质网关40和交互式自动服务集群41。该介质网关40管理PBX 39和交互式自动服务集群41之间的通信介质服务。交互式自动服务集群41是如下文本所述的本发明的智能中心点。
通过例如车辆驾驶员31按压按钮实现telematics请求,对该操作进行响应,TCU 38如上述初始化与ERDC 48之间的连接。在建立连接之后,车辆驾驶员31能通过例如临近车辆驾驶员31的车辆内扬声器33听见音频提示。通过车辆内扬声器33和麦克风32,能与车辆驾驶员31进行自动交互。交互例如开始于音频提示“我怎么帮您?”。当建立与ERDC 48的telematics连接时,同时地并以无缝形式捕获诸如车辆位置、车辆模型信息、车辆驾驶员信息、诊断信息等的数据信息,并将其经过数据通道发送到交互式自动服务集群41。
响应初始的音频提示(例如,“我怎么帮您?”),车辆驾驶员然后用请求大声响应,并说例如“我想找到附近的意大利餐馆”或“我想给朋友Bob发短信”。取决于车辆驾驶员31进行的请求类型,交互式自动服务集群41自动选择合适的语音识别引擎,所述交互式自动服务集群41包含经过互连形成位于ERDC语音系统的服务器组。合适的语音识别引擎可以位于ERDC 48的交互式自动服务集群41内部或者对于语音识别服务云49中的交互式自动服务集群是能外部获得的,该语音识别服务云49能由提供URL服务点到他们语音服务场的一个或多个语音销售商通过万维网(称为“云计算”)进行访问。对语音引擎的选择取决于车辆驾驶员31进行的请求类型。例如,简单的“是/否”询问或操作菜单选择能由托管在交互式自动服务集群41内的识别引擎进行处理。更复杂的语音识别任务(诸如识别口头句子)能由远程口述引擎44进行处理。因特网协议传输网络42对于交互式自动服务集群41具有高可用性并高速运行,使得在车辆驾驶员发出指令几秒内识别复杂的语音表达成为可能。
当处理复杂的语音识别任务(诸如识别导航目的地)时,远程导航引擎43借助因特网协议传输网络42执行该处理。语音应用在交互式自动服务集群41中执行并在处理下一步骤(例如,随后提示、目标信息的可视显示、或交互式会话的结束)之前等待来自远程导航引擎43的响应。
对于每个口头表达,出现识别处理,并作为处理的一部分,是比起产生“n”个最佳假设列表,或“识别结果”。换而言之,如果“n”等于5,识别器产生可能说出至5个的文本表示,每个具有正确识别的相关概率。变量“n”可以是预定的,限制数和/或取决于满足或超出正确识别一定概率的返回的结果数。对每个识别假设指定信心分数(或概率),该信心分数一般标准化为一。如果对最佳选择指定特定阈值(例如,85)以上的信心分数,则认为讲出的输入是最后识别结果,而不需要进一步处理。
可能出现远程导航引擎43提供的结果具有低信心,表示使用特定的信心等级没有自动识别口头语音。为了执行这种情况的识别,对应的音频波形文件经过网络传递到现场抄写代理47。出现这种情况,在处理下一步骤(例如,随后提示,目的地信息的可视化显示或结束交互式会话)之前,在交互式自动服务器集群41中执行的语音应用等待来自抄写代理47的响应。
通过实时访问语音识别服务云49,相对于现有技术改进了用户体验。交互式自动服务集群41用作车辆驾驶员或其他用户经历的自动化后的智能。系统和方法在选择语音识别引擎是不可知的事实使得系统和方法非常健壮并灵活,这是因为能利用多个同类最佳识别器。此外,由于本发明的系统和方法将代理辅助引入所实施的模型,用户体验也“感受”人跟着噪音和较重的口音特性。最后,车辆驾驶员或其他用户31能连接到现场代理(未示出)以处理极端情况。如果应用相应配置,则该连接容易地由交互式自动服务器集群41管理。
结合上述的语音识别方案的系统和方法,本发明也提供具有驾驶时使其安全的功能的用户接口。本发明的用户接口允许导航、拨号、网页浏览、发文本消息(发短信)以及通过语音使能键入用于移动设备的其他应用。
一般而言,用户接口的主要目的在于使得车辆驾驶员方法受到用户接口控制和管理的应用集成为现实,所述用户接口共享高度的共用性。例如,用于发短信的用户接口共享用于网页浏览的用户接口的共用性。类似地,用于网页浏览的用户接口共享用于本地搜索和导航的完全地址输入的用户接口的共用性。通过设计,车辆驾驶员实际上不需要学习。本发明利用三步方法用于完成一般需要常规输入的任务。这三步是:意图初始化;讲出短语;以及管理结果。不需要键入。
使用中,车辆驾驶员通过指示意图初始任务。能经过特定按钮按压、触摸特定图标、或讲出诸如“我想发送文本消息”等的特定语音命令对意图进行通信。一旦用户指出意图,通过语音提示用户讲出短语,所述短语匹配用于文本消息的所需文本或输入搜索框的所需文本、或目的地种类、名称、或地址。最重要地,本发明使得车辆驾驶员使用他们自己的语音输入文本字符串成为现实。然后,所识别的结果以取决于任务的形式由用户管理。网页浏览必须简单地扫视屏幕。发短信必须讲出接收者的名字并然后讲出文本消息的内容。目的地输入必须触摸屏幕以将特定目的地下载到板上导航系统。其他示例遵循相同模式:输入意图;讲出短语并管理结果。如上所述,本发明的用户接口需要改进的语音识别,允许在车辆内部的高度挑战环境中的自由形式的口述。
需要注意,本发明也包含非同步语音识别,非同步语音识别表示在获取识别结果之前用户接口能向前执行。例如,用户能讲出文本消息并在实际识别讲出的文本消息之前经提示讲出接受者的名字。用户接口能包括播放稍后识别的文本消息以及目标接收者。和获取识别结果相关的较长等待期可以由在车辆内发送消息而不确认进行管理,在用户交互之后进行确认。例如,消息可以被识别并在20秒之后发送,而用户不知道消息发送的确切时间。然而,某些任务(诸如网页浏览或本地搜索)对计时是很敏感的,并当将等待期控制在几秒内时(类似于常规网页浏览一般经历的延迟)同步方法是唯一实际的。
本发明的非同步语音识别方法具有超出车辆之外的优势。例如,常规交互式声音响应系统(IVR)一般包括错误处理的对话,会减慢交互处理并当出现识别错误时经常引起用户失望。然而,对于完全的非同步语音识别,对话总是向前进行的(即使没有识别语音,在用户讲话之后,立即出现下一提示)以及不要求用户重复口头表达。而且,部分对话可以是同步的,因此允许系统要求用户确认用户讲出的短语或用户能通过是/否询问(例如,对系统询问“你是否说过…?”,回答“否”)使系统重复结果。
根据本发明的示例性实施例,图3表示发明的车辆内用户接口方案的表示,根据涉及或需要相同基本步骤的用户接口处理或应用,尽管能由不同的方法实现步骤并产生不同的结果或向用户提供不同的功能。用户接口本质上是多模态的并基于在多个应用之间共用的三个步骤,所述应用包括但不限于发短信210、浏览213、导航216、社交219以及其他应用222。步骤一225涉及确定意图或选择应用向使用的应用。通过触摸显示器上的图标、按压特定按钮或发出诸如“网页搜索”或“语音短信”等的语音命令实现应用选择。步骤二226包括发出将转换为文本的短语,其可被称为语音使能键入。要转换为文本的短语特性取决于用户意图。取决于意图225,要转换的短语类型包括,但不限于文本消息211、搜索字符串录入214、目标目的地217、或简要声明220以及其他短语223。所识别的短语通过音频(例如,文本-语音)播放以及用户然后确定如何管理结果227。步骤三227,或结果管理需要如下的操作:讲出目标消息接收者212的名字、在显示器上扫视215诸如天气报告等的搜索结果、触摸显示的目的地以向导航系统输入218目的地,或讲出社交通信的组221的名字。需要注意,步骤一和步骤三能包括除了语音之外的输入模态,但步骤二必需语音使能键入。本发明的关键在于能应用在多个不同应用的单个用户接口的简便性。产生的用户接口设计的简便性在驾驶环境下是非常有吸引力的,这是因为驾驶者需要很少的认知处理来学习并使用许多应用。因为只有这几步,能快速完成任务并因此减少分心。
图4是非同步语音识别方法的处理流程示意图。用户开始300并经历IVR提示301,并一般发出口头回答。识别引擎302处理口头回答并根据称为识别信心等级303的匹配分数在企业后端304内完成处理后移向下一提示或再次提示301。当认为所有的提示步骤是成功时,交互处理结束。该同步方法可能的问题在于当出现连续的低信息等级303-低时用户陷入错误的循环。即使人们一般理解不被希望的声音输入,但经历自动语音识别属性的人不希望声音输入成为识别错误的主要原因,因此,人工辅助语音识别得到改进。因此,同步语音识别方法经常和较差的用户体验相关。例如,常规的交互式声音响应系统(IVR)一般包括错误处理的对话,增加交互式处理的延长时间并当出现识别错误时经常引起用户失望。
如图5所示,对于非同步语音识别,用户开始310并经历IVR提示312。IVR获取用户表达,将声音传输到能排列的语音识别引擎313,并执行序列中的下一提示312(如果还有的话)。用户表达的处理315对于用于用户输入的提示312是并行进行的;即,两个活动是非同步的。结果,由于较低的识别信心分数314或较长的识别等待时间,用户提示311处理不会被中断。如图5所示,低信心表达由人316抄写借此确保高准确性,但成本比全自动的语音识别高。对于本发明执行的非同步语音识别,无论是否获取有效的识别结果,提示都是向前进行的处理。这样去除了用户陷入提示错误循环312中的可能问题,并能部分保证用户良好的体验。那些经历自动语音识别属性的人不希望声音输入成为识别错误的主要原因。由于人们经常抄写该“受影响的”声音,因此在本发明的系统和处理中包含人能使这些错误消失。因此,当和非同步语音识别方法结合时本发明采用的人工辅助语音识别是非常实用的。如果系统检测到用户侧的沉默(即,没有口头表达时),提示可以故意早点结束,假设用户没有参与到自动对话中。位于完全的非同步语音识别,当用户合作时对话总是向前进行,这样具有避免用户重复口头表达的优势。需要注意,部分对话是同步的而部分是非同步的。事实上,对于某些应用,需要部分对话是同步的以允许用户请求的短语重复(在其中向用户提示“你说过<…>吗?请回答是或否”的情景)。更重要的,某些提示取决于识别结果,因此意味着需要具体环境下的同步语音识别。在此所述的方法提供了有吸引力的可靠的用户接口,即使在开车时也是安全实用并可靠的。
本发明可以是完全同步的、完全非同步的及其组合。常规语音应用利用提示方案,在该提示方案中,对于每个提示,获取识别结果之后继续提示。对在完成发出口头表达的时间和利用识别结果(诸如通过声音拨电话号码)的时间之间的等待期有限制的某些应用必须实施;这些应用一般需要同步方法。然而,对于在完成发出口头表达的时间和利用识别结果的时间之间的等待期具有较少严格限制的某些应用必须实施(例如,在驾驶员发出文本消息之后多次发出文本消息);这些应用一般需要同步方法,但能对部分对话允许非同步的语音识别。例如,驾驶员请求发出文本消息(意图);用户经提示并讲出文本消息(其能被非同步识别);用户经提示并讲出文本消息接收者的名字,其能被同步识别或非同步识别;在确定所有的识别结果之后发送该文本消息。诸如填表等的某些应用能被非同步地完成。填表应用能包括例如获取用户名称、地址、信用卡号以及服务选择;可能在用户对话完成之后的数小时内,在确定识别结果之后用文本填写表格。作为另一示例,部分的填表对话可以包括使用户描述类似机动车事故的某些事;应用简单地对其记录用于随后识别,可能通过人工辅助语音识别。
虽然已披露本发明的具体实施例,但本领域普通技术人员将理解在不偏离本发明的精神和范围的情况下可以对实施例做出各种改变。因此,本发明的范围并不限于所描述的实施例,我们希望随后的权利要求覆盖本发明范围内的所有应用、修改和实施例。根据本发明描述的最小化驾驶员认知的面向服务语音识别系统和方法以及车辆用户接口和处理已应用于车辆示例。然而,上述实施例应被理解为示例性而非限制性。本发明不硬理解为受限于这些具体公开的上述实施例。本领域普通技术人员将理解以上公开的实施例的其他改变,以及与车辆无关的需要使驾驶员认知操作最小化的应用。

Claims (29)

1.一种实施交互式自动系统的方法,包括:
使用位于个人临近位置的处理系统处理个人的口头表达;
使用无线链接将所述经处理的语音信息发送到远程数据中心;
分析所述经处理并传送的处理语音信息以度量并标出所述语音表达的端点;
将所述经分析的语音信息转换为分组数据格式;
选择至少一个最佳专业语音识别引擎以将所述经转换的语音信息翻译为文本格式;
利用因特网协议传输网络将所述分组语音信息传输到至少一个经选择的专业语音识别引擎;
从所述至少一个专业语音识别引擎检索所述识别结果和相关信心分数;
如果所述信心分数达到或超过最佳匹配的预定阈值,则继续和所述个人的自动对话;以及
如果所述信心分数较低以致低于最佳匹配的预定阈值时,选择至少一个可替换的专业语音识别引擎,以将所述经转换的语音信息翻译为文本格式。
2.如权利要求1的方法,其中所述至少一个可替换的专业语音识别引擎是代理辅助的。
3.如权利要求1的方法,其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。
4.如权利要求1的方法,其中所述至少一个经选择的最佳专业语音引擎是根据所述个人的给定意图选择的。
5.如权利要求1的方法,其中在以非同步方式接收所述识别结果之前或之后继续与所述个人的所述自动对话。
6.如权利要求1的方法,其中在以同步方式接收所述识别结果之后继续与所述个人的所述自动对话。
7.如权利要求1的方法,进一步包括登记所述分组数据和识别结果用于随后分析。
8.如权利要求1的方法,其中所述处理系统位于车辆板上。
9.如权利要求8的方法,其中车辆位置信息也和所述分组语音信息一起传送到所述至少一个经选择的专业语音识别引擎。
10.如权利要求9的方法,进一步包括登记所述车辆位置信息用于随后分析。
11.如权利要求4的方法,其中所述个人的所述意图至少包括如下之一:
发短信;
浏览;
导航;以及
社交。
12.一种实施交互式自动系统的方法,包括:
利用位于车辆板上的处理系统处理车辆驾驶员的口头表达;
利用无线链接将所述经处理的语音信息发送到远程数据中心;
分析所述经传送处理的语音信息以度量并标出所述语音表达的端点;
将所述经分析的语音信息转换为分组数据格式;
选择至少一个最佳专业语音识别引擎以将所述经转换的语音信息翻译为文本格式;
利用因特网协议传输网络将所述分组语音信息和车辆位置信息传输到至少一个经选择的专业语音识别引擎;
从所述至少一个专业语音识别引擎检索所述识别结果和相关信心分数;
如果所述信心分数达到或超过最佳匹配的预定阈值,则继续和所述车辆驾驶员的自动对话;以及
如果所述信心分数较低以致低于最佳匹配的预定阈值时,选择至少一个可替换的专业语音识别引擎,以将所述经转换的语音信息翻译为文本格式,所述可替换的专业语音识别引擎是代理辅助的。
13.如权利要求12的方法,其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。
14.如权利要求12的方法,其中所述至少一个经选择的最佳专业语音引擎是根据所述车辆驾驶员的给定意图选择的。
15.如权利要求12的方法,其中在以非同步方式接收所述识别结果之前或之后继续与所述车辆驾驶员的所述自动对话。
16.如权利要求12的方法,其中在以同步方式接收所述识别结果之后继续与所述车辆驾驶员的所述自动对话。
17.如权利要求14的方法,其中所述车辆驾驶员的所述意图包括至少如下之一:
发短信;
浏览;
导航;以及
社交。
18.如权利要求12的方法,进一步包括登记所述分组数据、识别结果和车辆位置信息用于随后分析。
19.一种交互式自动语音识别系统,包括:
位于个人临近区域的处理系统,其中所述处理系统处理所述个人的口头表达;
远程数据中心;
无线链接,将所述经处理的语音信息从所述处理系统发送到所述远程数据中心,其中所述经处理并发送的语音信息经过分析以度量并标出所述语音表达的端点并转换为分组数据格式;
至少一个最佳专业语音识别引擎,经选择以将所述经转换的语音信息翻译为文本格式;
因特网协议传输网络,将所述经转换的语音信息传输到所述至少一个经选择的最佳专业语音识别引擎;以及
其中所述至少一个专业语音识别引擎产生识别结果和相关信心分数,并根据所述信心分数:
如果所述信心分数达到或超过最佳匹配的预定阈值则继续与所述个人的所述自动对话;或者
如果所述信心分数较低以致低于最佳匹配的预定阈值时,选择至少一个可替换的专业语音识别引擎,以将所述经转换的语音信息翻译为文本格式。
20.如权利要求19的系统,其中所述至少一个可替换的专业语音识别引擎是代理辅助的。
21.如权利要求19的系统,其中所述至少一个经选择的最佳专业语音识别引擎不是本地的。
22.如权利要求19的系统,其中所述至少一个经选择的最佳专业语音引擎是根据所述个人的给定意图选择的。
23.如权利要求19的系统,其中在以非同步方式接收所述识别结果之前或之后继续与所述个人的所述自动对话。
24.如权利要求19的系统,其中在以同步方式接收所述识别结果之后继续与所述个人的所述自动对话。
25.如权利要求19的系统,其中所述分组数据和识别结果被登记用于随后分析。
26.如权利要求19的系统,其中所述车辆系统位于车辆板上。
27.如权利要求26的系统,其中车辆位置信息也和所述分组语音信息一起传送到所述至少一个经选择的专业语音识别引擎。
28.如权利要求27的系统,其中所述车辆位置信息被登记用于随后分析。
29.如权利要求22的系统,其中所述个人的所述意图包括至少如下之一:
发短信;
浏览;
导航;以及
社交。
CN2010800236175A 2009-03-24 2010-03-24 用于车辆内自动交互的面向服务语音识别 Pending CN102439661A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US16269509P 2009-03-24 2009-03-24
US61/162,695 2009-03-24
US28806709P 2009-12-18 2009-12-18
US61/288,067 2009-12-18
US12/729,573 2010-03-23
US12/729,573 US9224394B2 (en) 2009-03-24 2010-03-23 Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
PCT/US2010/028380 WO2010111315A1 (en) 2009-03-24 2010-03-24 Service oriented speech recognition for in-vehicle automated interaction

Publications (1)

Publication Number Publication Date
CN102439661A true CN102439661A (zh) 2012-05-02

Family

ID=42781450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800236175A Pending CN102439661A (zh) 2009-03-24 2010-03-24 用于车辆内自动交互的面向服务语音识别

Country Status (6)

Country Link
US (2) US9224394B2 (zh)
EP (2) EP2411977B1 (zh)
CN (1) CN102439661A (zh)
BR (1) BRPI1014119A2 (zh)
CA (1) CA2756140C (zh)
WO (1) WO2010111315A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428766A (zh) * 2012-07-03 2015-03-18 三菱电机株式会社 语音识别装置
CN105225660A (zh) * 2014-06-30 2016-01-06 通用汽车环球科技运作有限责任公司 语音系统的适应方法和系统
CN107024931A (zh) * 2016-01-29 2017-08-08 通用汽车环球科技运作有限责任公司 用于自动驾驶的语音识别系统和方法
CN108735215A (zh) * 2018-06-07 2018-11-02 爱驰汽车有限公司 车载语音交互系统、方法、设备和存储介质
CN110136713A (zh) * 2019-05-14 2019-08-16 苏州思必驰信息科技有限公司 用户在多模态交互中的对话方法及系统
CN110192249A (zh) * 2017-01-20 2019-08-30 标致雪铁龙汽车股份有限公司 具有多种聊天机器人的车辆的用户辅助装置
CN110383773A (zh) * 2017-01-05 2019-10-25 伽德诺克斯信息技术有限公司 具有相关设备的被配置成基于面向服务的体系结构实施集中式服务ecu的专门编程的计算系统及其使用方法
CN110851470A (zh) * 2015-05-27 2020-02-28 谷歌有限责任公司 提供建议的基于话音的动作查询
CN110956955A (zh) * 2019-12-10 2020-04-03 苏州思必驰信息科技有限公司 一种语音交互的方法和装置
CN112868060A (zh) * 2018-05-07 2021-05-28 谷歌有限责任公司 用户、自动化助理和其它计算服务之间的多模态交互
CN112970060A (zh) * 2018-11-09 2021-06-15 标致雪铁龙汽车股份有限公司 对车辆中语音助理的使用进行辅助的辅助方法和装置

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US20080221880A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile music environment speech processing facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
JP2013529794A (ja) 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
US8600011B2 (en) * 2011-04-21 2013-12-03 General Motors, LLC. Navigation system support of in-vehicle TTY system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8994522B2 (en) * 2011-05-26 2015-03-31 General Motors Llc Human-machine interface (HMI) auto-steer based upon-likelihood to exceed eye glance guidelines
US9159322B2 (en) 2011-10-18 2015-10-13 GM Global Technology Operations LLC Services identification and initiation for a speech-based interface to a mobile device
US9183835B2 (en) 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
US9326088B2 (en) * 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
US9111542B1 (en) * 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
US9361883B2 (en) 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
JP2013242763A (ja) * 2012-05-22 2013-12-05 Clarion Co Ltd 対話装置、対話システム、および対話制御方法
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9715879B2 (en) * 2012-07-02 2017-07-25 Salesforce.Com, Inc. Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device
US9105268B2 (en) 2012-09-19 2015-08-11 24/7 Customer, Inc. Method and apparatus for predicting intent in IVR using natural language queries
DE102012019063A1 (de) * 2012-09-28 2014-04-03 Audi Ag Verfahren und System zum Bereitstellen von Daten in einem Kraftwagen
DE102012022207B3 (de) * 2012-11-13 2014-01-09 Audi Ag Verfahren zum Bereitstellen von Fahrstreckeninformationen mittels zumindest eines Kraftwagens
US9190057B2 (en) 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US10701305B2 (en) * 2013-01-30 2020-06-30 Kebron G. Dejene Video signature system and method
US9123345B2 (en) 2013-03-14 2015-09-01 Honda Motor Co., Ltd. Voice interface systems and methods
EP3012833B1 (en) * 2013-06-19 2022-08-10 Panasonic Intellectual Property Corporation of America Voice interaction method, and device
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
KR102158315B1 (ko) 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
CN103700369B (zh) * 2013-11-26 2016-08-31 科大讯飞股份有限公司 语音导航方法及系统
US9753743B2 (en) * 2013-12-05 2017-09-05 Entit Software Llc Identifying a common action flow
US9911408B2 (en) * 2014-03-03 2018-03-06 General Motors Llc Dynamic speech system tuning
US9704477B2 (en) * 2014-09-05 2017-07-11 General Motors Llc Text-to-speech processing based on network quality
US9248841B1 (en) * 2014-11-24 2016-02-02 Ford Global Technologies, Llc Methods and apparatus for state dependent micro-interaction fulfillment
US10083002B2 (en) * 2014-12-18 2018-09-25 International Business Machines Corporation Using voice-based web navigation to conserve cellular data
US10417345B1 (en) * 2014-12-22 2019-09-17 Amazon Technologies, Inc. Providing customer service agents with customer-personalized result of spoken language intent
US10580079B1 (en) * 2015-06-23 2020-03-03 Allstate Insurance Company Enterprise nervous system
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US10739960B2 (en) * 2015-09-22 2020-08-11 Samsung Electronics Co., Ltd. Performing application-specific searches using touchscreen-enabled computing devices
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
US20170161386A1 (en) * 2015-12-02 2017-06-08 International Business Machines Corporation Adaptive product questionnaire
WO2017117254A1 (en) * 2015-12-30 2017-07-06 Sirius Xm Radio Inc. Unifying user-interface for multi-source media player
US10409550B2 (en) * 2016-03-04 2019-09-10 Ricoh Company, Ltd. Voice control of interactive whiteboard appliances
US10417021B2 (en) 2016-03-04 2019-09-17 Ricoh Company, Ltd. Interactive command assistant for an interactive whiteboard appliance
US10186269B2 (en) * 2016-04-18 2019-01-22 Honda Motor Co., Ltd. Hybrid speech data processing in a vehicle
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
FR3061150B1 (fr) * 2016-12-22 2023-05-05 Thales Sa Systeme de designation interactif pour vehicule, notamment pour aeronef, comportant un serveur de donnees
US10360914B2 (en) * 2017-01-26 2019-07-23 Essence, Inc Speech recognition based on context and multiple recognition engines
US10325592B2 (en) * 2017-02-15 2019-06-18 GM Global Technology Operations LLC Enhanced voice recognition task completion
US10580406B2 (en) * 2017-08-18 2020-03-03 2236008 Ontario Inc. Unified N-best ASR results
JP2019046267A (ja) * 2017-09-04 2019-03-22 トヨタ自動車株式会社 情報提供方法、情報提供システム、および情報提供装置
US11597519B2 (en) 2017-10-17 2023-03-07 The Boeing Company Artificially intelligent flight crew systems and methods
US20190146491A1 (en) * 2017-11-10 2019-05-16 GM Global Technology Operations LLC In-vehicle system to communicate with passengers
US11029808B2 (en) * 2018-03-01 2021-06-08 PAG Financial International LLC Systems and methods for generating a dynamically adjustable dial pad
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
US11676062B2 (en) * 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
US10430125B1 (en) 2018-06-04 2019-10-01 gabi Solutions, Inc. System, network architecture and method for accessing and controlling an electronic device
US10957317B2 (en) 2018-10-18 2021-03-23 Ford Global Technologies, Llc Vehicle language processing
US10885280B2 (en) * 2018-11-14 2021-01-05 International Business Machines Corporation Event detection with conversation
US11258750B2 (en) * 2019-12-19 2022-02-22 Honeywell International Inc. Systems and methods for unified data and voice messages management
KR102420155B1 (ko) * 2020-09-15 2022-07-13 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US20220293128A1 (en) * 2021-03-10 2022-09-15 Comcast Cable Communications, Llc Systems and methods for improved speech and command detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129406A1 (en) * 2004-12-09 2006-06-15 International Business Machines Corporation Method and system for sharing speech processing resources over a communication network
CN1920946A (zh) * 2005-07-01 2007-02-28 伯斯有限公司 汽车接口
CN101071564A (zh) * 2006-05-11 2007-11-14 通用汽车公司 把词表外语音与词表内语音区别开
US20080177551A1 (en) * 2004-09-10 2008-07-24 Atx Group, Inc. Systems and Methods for Off-Board Voice-Automated Vehicle Navigation

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
US6868385B1 (en) 1999-10-05 2005-03-15 Yomobile, Inc. Method and apparatus for the provision of information signals based upon speech recognition
EP1307810B1 (en) * 2000-07-28 2008-05-07 Siemens VDO Automotive Corporation User interface for telematics systems
US7203651B2 (en) * 2000-12-07 2007-04-10 Art-Advanced Recognition Technologies, Ltd. Voice control system with multiple voice recognition engines
US8175886B2 (en) * 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US8068595B2 (en) * 2002-03-15 2011-11-29 Intellisist, Inc. System and method for providing a multi-modal communications infrastructure for automated call center operation
GB0211644D0 (en) * 2002-05-21 2002-07-03 Wesby Philip B System and method for remote asset management
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7123141B2 (en) * 2003-08-20 2006-10-17 Contestabile Robert A Electronic monitoring systems and methods
US20050049785A1 (en) * 2003-09-02 2005-03-03 Vergin William E. Off-board navigation system
US7363228B2 (en) * 2003-09-18 2008-04-22 Interactive Intelligence, Inc. Speech recognition system and method
US7219063B2 (en) * 2003-11-19 2007-05-15 Atx Technologies, Inc. Wirelessly delivered owner's manual
US20050137877A1 (en) * 2003-12-17 2005-06-23 General Motors Corporation Method and system for enabling a device function of a vehicle
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US7657433B1 (en) * 2006-09-08 2010-02-02 Tellme Networks, Inc. Speech recognition accuracy with multi-confidence thresholds
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20090204407A1 (en) * 2008-02-08 2009-08-13 Shields T Russell System and method for processing a spoken request from a user
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8600741B2 (en) * 2008-08-20 2013-12-03 General Motors Llc Method of using microphone characteristics to optimize speech recognition performance
US8543401B2 (en) * 2009-04-17 2013-09-24 Synchronoss Technologies System and method for improving performance of semantic classifiers in spoken dialog systems
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177551A1 (en) * 2004-09-10 2008-07-24 Atx Group, Inc. Systems and Methods for Off-Board Voice-Automated Vehicle Navigation
US20060129406A1 (en) * 2004-12-09 2006-06-15 International Business Machines Corporation Method and system for sharing speech processing resources over a communication network
CN1920946A (zh) * 2005-07-01 2007-02-28 伯斯有限公司 汽车接口
CN101071564A (zh) * 2006-05-11 2007-11-14 通用汽车公司 把词表外语音与词表内语音区别开

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428766B (zh) * 2012-07-03 2017-07-11 三菱电机株式会社 语音识别装置
CN104428766A (zh) * 2012-07-03 2015-03-18 三菱电机株式会社 语音识别装置
CN105225660A (zh) * 2014-06-30 2016-01-06 通用汽车环球科技运作有限责任公司 语音系统的适应方法和系统
CN105225660B (zh) * 2014-06-30 2019-07-05 通用汽车环球科技运作有限责任公司 语音系统的适应方法和系统
CN110851470B (zh) * 2015-05-27 2024-03-01 谷歌有限责任公司 提供建议的基于话音的动作查询
CN110851470A (zh) * 2015-05-27 2020-02-28 谷歌有限责任公司 提供建议的基于话音的动作查询
US11869489B2 (en) 2015-05-27 2024-01-09 Google Llc Providing suggested voice-based action queries
CN107024931A (zh) * 2016-01-29 2017-08-08 通用汽车环球科技运作有限责任公司 用于自动驾驶的语音识别系统和方法
CN110383773B (zh) * 2017-01-05 2022-02-25 伽德诺克斯信息技术有限公司 具有相关设备的被配置成基于面向服务的体系结构实施集中式服务ecu的专门编程的计算系统及其使用方法
CN110383773A (zh) * 2017-01-05 2019-10-25 伽德诺克斯信息技术有限公司 具有相关设备的被配置成基于面向服务的体系结构实施集中式服务ecu的专门编程的计算系统及其使用方法
CN110192249A (zh) * 2017-01-20 2019-08-30 标致雪铁龙汽车股份有限公司 具有多种聊天机器人的车辆的用户辅助装置
CN112868060A (zh) * 2018-05-07 2021-05-28 谷歌有限责任公司 用户、自动化助理和其它计算服务之间的多模态交互
CN108735215A (zh) * 2018-06-07 2018-11-02 爱驰汽车有限公司 车载语音交互系统、方法、设备和存储介质
CN112970060A (zh) * 2018-11-09 2021-06-15 标致雪铁龙汽车股份有限公司 对车辆中语音助理的使用进行辅助的辅助方法和装置
CN112970060B (zh) * 2018-11-09 2024-05-24 标致雪铁龙汽车股份有限公司 对车辆中语音助理的使用进行辅助的辅助方法和装置
CN110136713A (zh) * 2019-05-14 2019-08-16 苏州思必驰信息科技有限公司 用户在多模态交互中的对话方法及系统
CN110956955B (zh) * 2019-12-10 2022-08-05 思必驰科技股份有限公司 一种语音交互的方法和装置
CN110956955A (zh) * 2019-12-10 2020-04-03 苏州思必驰信息科技有限公司 一种语音交互的方法和装置

Also Published As

Publication number Publication date
US20160071518A1 (en) 2016-03-10
EP3557575A1 (en) 2019-10-23
EP2411977A1 (en) 2012-02-01
US9558745B2 (en) 2017-01-31
BRPI1014119A2 (pt) 2016-04-12
WO2010111315A1 (en) 2010-09-30
EP2411977B1 (en) 2019-05-08
US9224394B2 (en) 2015-12-29
CA2756140A1 (en) 2010-09-30
US20100250243A1 (en) 2010-09-30
EP2411977A4 (en) 2016-04-13
CA2756140C (en) 2018-01-02

Similar Documents

Publication Publication Date Title
CN102439661A (zh) 用于车辆内自动交互的面向服务语音识别
US9911412B2 (en) Evidence-based natural language input recognition
CN107004410B (zh) 语音和连接平台
KR102014665B1 (ko) 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
CN1333385C (zh) 用于通信系统的语音浏览器启用器
CN106409283B (zh) 基于音频的人机混合交互系统及方法
RU2637874C2 (ru) Генерирование диалоговых рекомендаций для чатовых информационных систем
US20170068551A1 (en) Intelli-voyage travel
US20020032591A1 (en) Service request processing performed by artificial intelligence systems in conjunctiion with human intervention
CN104700835A (zh) 提供话音接口的方法和系统
CN105512228A (zh) 一种基于智能机器人的双向问答数据处理方法和系统
CN101291336A (zh) 用于并行多模通信的系统和方法
JP2005088179A (ja) 自律移動ロボットシステム
CN102792294A (zh) 自然语言语音服务环境中的混合处理的系统及方法
CN104010267A (zh) 支持基于翻译的通信服务方法和系统和支持该服务的终端
KR101640024B1 (ko) 사용자의 상황에 기반한 휴대용 통역 장치 및 방법
KR102170088B1 (ko) 인공지능 기반 자동 응답 방법 및 시스템
KR102076793B1 (ko) 음성을 통한 전자문서 제공 방법, 음성을 통한 전자문서 작성 방법 및 장치
CN111722825A (zh) 交互方法、信息处理方法、车辆和服务器
CN111094924A (zh) 用于执行基于语音的人机交互的数据处理装置和方法
CN105869631B (zh) 语音预测的方法和装置
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CA2839285A1 (en) Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
KR101968287B1 (ko) 지식재산 거래 서비스 제공 장치 및 방법
KR101996138B1 (ko) 지식재산 거래 서비스 제공 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: texas

Applicant after: Atx Group Inc.

Address before: texas

Applicant before: Atx Group Inc.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: ATX GROUP, INC. TO: AGUIRO LINKAGE SERVICE CO., LTD.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120502