CN109712615A - 用于检测对话语音中的提示的系统和方法 - Google Patents

用于检测对话语音中的提示的系统和方法 Download PDF

Info

Publication number
CN109712615A
CN109712615A CN201811209722.2A CN201811209722A CN109712615A CN 109712615 A CN109712615 A CN 109712615A CN 201811209722 A CN201811209722 A CN 201811209722A CN 109712615 A CN109712615 A CN 109712615A
Authority
CN
China
Prior art keywords
dialogue
vehicle
party
controller
vehicle occupant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811209722.2A
Other languages
English (en)
Inventor
C·R·汉森
G·塔瓦尔
D·H·史密斯
X·F·赵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN109712615A publication Critical patent/CN109712615A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Navigation (AREA)

Abstract

一个常规方面包括一种用于检测对话语音中的一个或多个提示的方法,该方法包括:(经由控制器)识别车辆乘员与至少一个第三方之间的对话;(经由控制器)实时静音地回顾对话;(在控制器处)从车辆乘员或第三方接收在对话期间发出的语音提示;响应于接收到的语音提示,基于对话的静音回顾(经由控制器)从一个或多个建议数据库中检索建议信息;(经由控制器)提供建议信息的音频声明,该音频声明被配置为通过位于车辆中的音频系统来进行声明。

Description

用于检测对话语音中的提示的系统和方法
引言
交互式语音应答技术允许车辆乘员通过使用他们的远程信息处理单元与后端计算机进行语音交互并且该后端计算机表现如同一个人。该技术还有助于车辆乘员在旅途中完成任务。例如,当从一个位置驾驶到另一个位置时,车辆操作者可以激活后端计算机以获得对附近餐厅的建议而无需将他们的眼睛从道路上移开。车辆操作者和后端计算机还可以彼此来回交互以找出操作者最期望的各种餐厅。当有一个人尝试获得建议时,这很有效。然而,当有多方在尝试达成协议但仍需要建议的情况下互相对话时,有时会出现问题。各方被迫暂停或暂时结束他们的对话使得一方可以激活支持后端计算机并与其交互。这可能给通信方带来不便,需要尝试记住和重复对话的各部分以便帮助后端计算机找到建议。这种情况还允许尝试使用后端计算机工作的一方的一部分的精神保留存在很大的错误空间,并且为通信方提供了控制将信息馈送到后端计算机的不公平优势。因此,希望提供一种可以为对话各方提供足够的建议而不会使它们中断其对话以及迫使它们从存储器中重复对话部分的系统。
发明内容
一个或多个计算机的系统可以被配置为通过在该系统上安装软件、固件、硬件或它们的组合来执行特定操作或动作,该软件、固件、硬件或它们的组合在操作中导致系统执行动作。一个或多个计算机程序可以被配置为通过包括当由数据处理设备执行时使该设备执行动作的指令来执行特定操作或动作。一个常规方面包括一种用于检测对话语音中的一个或多个提示的方法,该方法包括:(经由控制器)识别车辆乘员与至少一个第三方之间的对话;(经由控制器)实时静音地回顾对话;(在控制器处)从车辆乘员或第三方接收在对话期间发出的语音提示;响应于接收到的语音提示,基于对话的静音回顾(经由控制器)从一个或多个建议数据库中检索建议信息;(经由控制器)提供建议信息的音频声明,该音频声明被配置为通过位于车辆中的音频系统来进行声明。该方面的其它实施例包括记录在一个或多个计算机存储装置上的相应计算机系统、设备以及计算机程序,它们各自被配置为执行该方法的动作。
实施方案可以包括以下一个或多个特征。该方法进一步包括:(经由控制器)确定车辆乘员或第三方是否至少部分地在通过音频系统声明之后确认了建议信息;以及响应于车辆乘员或第三方至少部分地确认了建议信息的肯定确定而(经由控制器)联系一个或多个服务提供商。在该方法中,实时静音地回顾对话的步骤进一步包括实施一个或多个对话语境特定语言模型以识别对话的至少一部分的对话语境。该方法还可以包括进一步基于对话的对话语境从一个或多个建议数据库中检索建议信息的步骤。在该方法中,实时静音地回顾对话的步骤进一步包括实施一个或多个情绪语境特定语言模型以识别对话的至少一部分的情绪语境。该方法还可以包括进一步基于对话的情绪语境从一个或多个建议数据库中检索建议信息的步骤。在该方法中,语音提示是被配置为发起控制器以检索建议信息的查询。在该方法中,至少一个第三方是另一个车辆乘员。在该方法中,控制器实施自动语音响应系统(VRS)以识别来自车辆乘员或第三方的语音提示并且通过音频系统提供建议信息。所描述的技术的实施方案可以包括计算机可访问介质上的硬件、方法或过程或计算机软件。
一个常规方面包括一种用于检测对话语音中的一个或多个提示的系统,该系统包括:位于车辆中的音频系统,该音频系统被配置为声明信息;存储器,其被配置为包括一个或多个可执行指令;控制器,其被配置为执行可执行指令;并且可执行指令使得控制器能够:识别车辆乘员与至少一个第三方之间的对话,实时静音地回顾对话以获取语音提示,从车辆乘员或第三方接收语音提示,响应于接收到的语音提示而基于来自一个或多个建议数据库的对话的静音回顾来检索建议信息,并且提供被配置为通过位于车辆中的音频系统声明的建议信息的音频声明。该方面的其它实施例包括记录在一个或多个计算机存储装置上的相应计算机系统、设备以及计算机程序,它们各自被配置为执行该方法的动作。
实施方案可以包括以下一个或多个特征。在该系统中,可执行指令进一步使得控制器能够确定车辆乘员或第三方是否至少部分地在通过音频系统声明之后确认了建议信息。该系统还可以包括响应于车辆乘员或第三方至少部分地确认了建议信息的肯定确定而联系一个或多个服务提供商。在该系统中:静音地回顾对话进一步包括实施一个或多个对话语境特定语言模型以识别对话的至少一部分的对话语境。该系统还可以包括从一个或多个建议数据库中检索建议信息是进一步基于对话的对话语境。在该系统中,语音提示是被配置为发起控制器以检索建议信息的查询。在该系统中,至少一个第三方是另一个车辆乘员。在该系统中,至少一个第三方是移动计算装置用户。在该系统中,控制器实施自动语音响应系统(VRS)以识别来自车辆乘员或第三方的语音提示并且通过音频系统提供建议信息。所描述的技术的实施方案可以包括计算机可访问介质上的硬件、方法或过程或计算机软件。
一个常规方面包括非暂时性和机器可读介质,其上存储有适于检测对话语音中的一个或多个提示的可执行指令,该可执行指令在被提供给控制器并由控制器执行时使控制器:识别车辆的车厢内的对话,该对话在车辆乘员与至少一个第三方之间;实时静音地回顾对话以获取语音提示;从车辆乘员或第三方接收语音提示;响应于接收到的语音提示,基于对话的静音回顾从一个或多个建议数据库中检索建议信息;提供建议信息的音频声明,该音频声明被配置为通过位于车辆中的音频系统来进行声明。该方面的其它实施例包括记录在一个或多个计算机存储装置上的相应计算机系统、设备以及计算机程序,它们各自被配置为执行该方法的动作。
实施方案可以包括以下一个或多个特征。非暂时性和机器可读介质进一步使控制器在通过音频系统声明之后确定车辆乘员或第三方是否至少部分地确认了建议信息,并且响应于车辆乘员或第三方至少部分地确认了建议信息的肯定确定而联系一个或多个服务提供商。非暂时性和机器可读介质,其中:静音地回顾对话进一步包括实施一个或多个对话语境特定语言模型以识别对话的至少一部分的对话语境,并且从一个或多个建议数据库中检索建议信息是进一步基于对话的对话语境。在该非暂时性和机器可读介质中,语音提示是被配置为发起控制器以检索建议信息的查询。在该非暂时性和机器可读介质中,至少一个第三方是另一个车辆乘员。在该非暂时性和机器可读介质中,控制器实施自动语音响应系统(VRS)以识别来自车辆乘员或第三方的语音提示并且通过音频系统提供建议信息。所描述的技术的实施方案可以包括计算机可访问介质上的硬件、方法或过程或计算机软件。
本教导的以上特征和优点以及其它特征和优点从结合附图进行的用于执行教导的具体实施方式中是容易显而易见的。
附图说明
以下将结合以下附图来描述所公开的示例,其中相同的附图标记表示相同的元件,并且其中:
图1是描绘能够利用本文公开的系统和方法的通信系统的示例性实施例的框图;
图2是描绘自动语音识别(ASR)系统的实施例的框图;以及
图3是描绘检测对话语音中的一个或多个提示的方法的实施例的流程图。
具体实施方式
本文描述了本公开的实施例。然而,应当理解,所公开实施例仅仅是示例并且其它实施例可以呈现各种和替代性形式。图式不一定按比例绘制;一些特征可以被放大或最小化以示出特定部件的细节。因此,本文公开的具体结构和功能细节并不解释为限制,而仅仅是用于教导本领域技术人员不同地采用本系统和/或方法的代表性基础。如本领域一般技术人员将理解,参考任何一个图式说明并描述的各个特征可结合一个或多个其它图式中说明的特征以产生未明确说明或描述的实施例。所说明的特征组合提供用于典型应用的代表性实施例。然而,特定应用或实施方案可期望与本公开的教导一致的特征的各个组合和修改。
下面描述的系统和方法检测对话语音中的提示,并且基于这样的提示提供一个或多个建议,而不需要对话各方重复对话的部分。因而,当车辆乘员和至少一个第三方(也可能正占据车厢或可能通过远程信息处理单元的免提电话系统选项与车辆乘员对话的人)对话时,其上安装有自动语音识别系统(ASR)的语音响应系统(VRS)可以被动地收听对话以获取可能与帮助车辆乘员实现最终目标相关的信息(例如,语音数据)。另外,ASR可以实施一个或多个对话语境特定语言模型和/或情绪语境特定语言模型以对该对话语境进行分类以及将对话信息拼凑在一起,以便提供一个或多个基于语境的建议。本质上,该系统和方法提供了适应车辆乘员和/或第三方并因为先前已经收集了潜在相关的数据片段以支持提供建议而不必进一步解释他们想要什么的方式。例如,ASR将识别双方之间已开始对话(例如,通过识别两个不同人的语音音调和音调变化以及语音模式)。然后,ASR将实时地(即,当它正在发生时)静音地回顾对话,同时还通过语言模型运行解码的语音以确定对话的语境和参与者的情绪。另外,ASR可以收听关键字。然后保存语境信息和关键字信息直到可能需要它为止。如果/当其中一个对话参与者通过诸如关于第三方服务提供商的查询等的语音提示激活VRS时,VRS可以访问并收集所保存的语境信息和/或关键字信息以帮助VRS给参与者提供一个或多个建议。例如,当车辆乘员请求“嘿VRS,请帮助我和Scott在今晚的会议附近找到一家酒店?”时,VRS可以访问对话信息并且随后访问建议数据库并使用对话信息来确定会议位置以及车辆乘员和第三方(即,Scott)所期望的酒店类型。建议数据库可以另外检索先前的偏好信息和/或对话信息以帮助确定会议位置和酒店类型。然后,VRS可以基于对话信息从数据库生成建议。结果,VRS可能会对以诸如“我在距离伊利诺伊州弗农会议五(5)分钟找到了好评如潮的万怡酒店,该酒店的空房每晚130美元-我现在预订?”等形式作出响应。如果车辆乘员或第三方作出肯定响应,则VRS可以联系服务提供商以请求和/或协商房间预订。
通信系统
参考图1,示出了操作环境,其除了其它特征外还包括移动车辆通信系统10并且可以用于实施本文公开的方法。通信系统10通常包括车辆12、一个或多个无线载波系统14、陆地通信网络16、远程计算机18以及数据中心20。应当理解,所公开的方法可结合任何数量的不同系统使用并且不具体限于这里所示的操作环境。而且,系统10和其单独部件的架构、构造、设置以及操作在本领域中是通常已知的。因此,以下段落仅仅提供了针对一个这样的通信系统10的简要概述;然而,这里未示出的其它系统也可采用所公开的方法。
在所说明的实施例中,车辆12被描绘为乘用车,但是应当明白,也可以包括但不限于摩托车、卡车、公共汽车、运动型多功能车(SUV)、休闲车(RV)、建筑车辆(例如,推土机)、火车、手推车、船舶(例如,船)、飞机、直升机、游乐园车辆、农用设备、高尔夫球车、电车等任何其它车辆。一些车辆特征总体上在图1中示出并且包括被配置为包括一个或多个预调装置的无线电13、车辆座椅15以及车辆HVAC系统17。一些车辆电子装置28总体上在图1中示出并且包括远程信息处理单元30、麦克风32、一个或多个按钮或其它控制输入34、音频系统36、可视显示器38和GPS模块40以及多个车辆系统模块(VSM)42。一些这样的装置可以直接连接到远程信息处理单元30(诸如,例如麦克风32和按钮34),而其它装置使用一个或多个网络连接(诸如通信总线44或娱乐总线46)间接地连接。合适的网络连接的示例包括控制器局域网(CAN)、WIFI、蓝牙和低功耗蓝牙、媒体导向系统传输(MOST)、本地互连网络(LIN)、局域网(LAN)以及其它适当的连接(诸如以太网或符合已知的ISO、SAE和IEEE标准和规范的其它网络),仅举几例。
远程信息处理单元30可以是OEM安装(嵌入式)或售后收发器装置,其安装在车辆中并且能够通过无线载波系统14和经由无线联网进行无线语音和/或数据通信。这使得车辆能够与数据中心20、其它支持远程信息处理的车辆或一些其它实体或装置进行通信。远程信息处理单元30优选地使用无线电传输来与无线载波系统14建立通信信道(语音信道和/或数据信道)使得可以通过信道发送和接收语音和/或数据传输。通过提供语音和数据通信这两者,远程信息处理单元30使得车辆能够提供许多不同的服务,包括与导航、电话、紧急援助、诊断、信息娱乐等相关的服务。数据可以使用本领域已知的技术经由数据连接(诸如经由通过数据信道的分组数据传输)或经由语音信道来发送。对于涉及语音通信(例如,与数据中心20处的现场顾问86或语音响应单元进行的语音通信)和数据通信(例如,向数据中心20提供GPS位置数据或车辆诊断数据)的组合服务来说,该系统可以利用通过语音信道的单个呼叫并且根据需要通过语音信道在语音和数据传输之间加以切换,并且这可以使用本领域技术人员已知的技术完成。
根据一个实施例,远程信息处理单元30利用根据诸如LTE或5G等标准的蜂窝通信,并且因此包括用于语音通信(如免提呼叫)的标准蜂窝芯片集50、用于数据传输的无线调制解调器(收发器)、电子处理装置52、一个或多个数字存储器装置54以及天线系统56。应当明白,调制解调器可以通过存储在远程信息处理单元中并且由处理器52执行的软件来实施,或者其可为位于远程信息处理单元30内部或外部的单独硬件部件。调制解调器可以使用诸如但不限于WCDMA、LTE以及5G等任何数量的不同标准或协议来操作。还可以使用远程信息处理单元30执行车辆12与其它联网装置之间的无线联网。为此,远程信息处理单元30可以被配置为根据一个或多个无线协议(诸如IEEE802.11协议、WiMAX或蓝牙中的任一种)进行无线通信。当用于诸如TCP/IP等分组交换数据通信时,远程信息处理单元可以被配置有静态IP地址或者可以被设置成从网络上的另一个装置(诸如路由器)或从网络地址服务器自动地接收所分配的IP地址。
可以与远程信息处理单元30进行通信的其中一个联网装置是移动计算装置57,诸如智能电话、个人膝上型计算机、智能可穿戴装置或具有双向通信能力的平板计算机、上网本计算机,或其任何合适的组合。移动计算装置57可以包括计算机处理能力、存储器、能够与无线载波系统14进行通信的收发器、用户界面、麦克风和音频系统,和/或能够接收GPS卫星信号并基于这些信号生成GPS坐标的GPS模块。移动计算装置57具有存储响应语音命令的一个或多个界面的能力,诸如但不限于自动语音响应系统(VRS)88(下面讨论)。用户界面可以被实施为能够进行用户交互以及显示信息的触摸屏图形界面。移动计算装置57的示例包括苹果公司生产的iPhoneTM和摩托罗拉公司生产的DroidTM以及其它。虽然移动计算装置57可以包括使用无线载波系统14经由蜂窝通信进行通信的能力,但情况并非总是如此。例如,苹果公司生产包括处理能力、界面以及通过短程无线通信链路进行通信的能力的装置,诸如各种型号的iPadTM和iPod TouchTM。然而,iPod TouchTM和一些iPadTM没有蜂窝通信能力。即使如此,为了本文描述的方法的目的,可以使用这些和其它类似装置或其可以被认为是一种类型的无线装置,诸如移动计算装置57。
移动装置57可以在车辆12的内部或外部使用,并且可以通过有线或无线地联接到车辆。移动装置还可以被配置为根据与第三方设施或无线/电话服务提供商的订购协议来提供服务。应当明白,各种服务提供商可以利用无线载波系统14,并且远程信息处理单元30的服务提供商可以不必与移动装置57的服务提供商相同。当使用短程无线连接(SRWC)协议(例如,蓝牙/低功耗蓝牙或Wi-Fi)时,移动计算装置57和远程信息处理单元30可以彼此配对/链接,并且因此在无线范围内(例如,在经历与无线网络断开之前)结合-如本领域技术人员通常所知。
远程信息处理控制器52(处理器)可以是能够处理电子指令的任何类型的装置,包括微处理器、微控制器、主处理器、控制器、车辆通信处理器以及专用集成电路(ASIC)。其可以为仅用于远程信息处理单元30的专用处理器,或者可以与其它车辆系统共享。远程信息处理控制器52执行各种类型的数字存储指令,诸如存储在存储器54中的软件或固件程序,该指令使得远程信息处理单元能够提供多种服务。例如,控制器52可以执行程序或过程数据以执行本文所讨论的方法的至少一部分。
远程信息处理单元30可以用于提供涉及去往车辆和/或来自车辆的无线通信的各种各样的车辆服务。这样的服务包括:与基于GPS的车辆导航模块40结合地提供的逐向导航和其它导航相关的服务;与一个或多个车辆系统模块42(VSM)结合地提供的安全气囊展开通知和其它与紧急援助或路边援助有关的服务;使用一个或多个诊断模块的诊断报告;以及信息娱乐相关服务,其中音乐、网页、电影、电视节目、视频游戏和/或其它信息是由信息娱乐模块(未示出)下载并且存储以供当前或后续回放。上文列举的服务决不是远程信息处理单元30的全部能力的详尽列举,而仅仅是远程信息处理单元30能够提供的一些服务的枚举。另外,应当理解,至少一些前述提及的模块可以按照保存在远程信息处理单元30内部或外部的软件指令的形式来实施,它们可以为位于远程信息处理单元30内部或外部的硬件部件,或它们可以与彼此或与位于整辆车中的其它系统集成和/或共享,这里仅列举几种可能性。如果模块被实施为位于远程信息处理单元30外部的VSM 42,则它们可以利用车辆总线44来与远程信息处理单元交换数据和命令。
GPS模块40从GPS卫星群60接收无线电信号。根据这些信号,模块40可以确定用于向车辆驾驶员提供导航和其它位置相关服务的车辆位置。导航信息可以呈现在显示器38(或车辆内的其它显示器)上或可用语言呈现,诸如在提供逐向导航时这样做。可以使用专用车内导航模块(其可以为GPS模块40的一部分)提供导航服务,或可以经由远程信息处理单元30完成一些或全部导航服务,其中将位置信息发送到远程位置用于给车辆提供导航地图、地图注释(兴趣点、餐厅等)、路线计算等。可以将位置信息供应到数据中心20或其它远程计算系统(诸如计算机18),以便用于其它目的,诸如车队管理。而且,可以经由远程信息处理单元30将新的或更新的地图数据从数据中心20下载到GPS模块40。
除音频系统36和GPS模块40之外,车辆12可以包括呈电子硬件部件形式的其它VSM42,该电子硬件部件位于整辆车中并且通常从一个或多个传感器接收输入并使用所感测的输入来执行诊断、监测、控制、报告和/或其它功能。每个VSM 42都优选地由通信总线44连接到其它VSM以及远程信息处理单元30,并且可以被编程为运行车辆系统和子系统诊断测试。
作为示例,一个VSM 42可以为控制诸如燃料点火和火花正时等发动机操作的各个方面的发动机控制模块(ECM),另一个VSM 42可以为调节车辆动力系的一个或多个部件的操作的动力系控制模块,且另一个VSM42可以为以控制位于整辆车中的各种电部件(如车辆的电动门锁和车头灯)的车身控制模块。根据一个实施例,发动机控制模块被配备有车载诊断(OBD)特征,其提供诸如从包括车辆排放传感器等各种传感器接收的数据的多种实时数据,并且提供允许技术人员快速地识别并修复车辆内故障的一系列标准化诊断故障代码(DTC)。如本领域技术人员所明白,上述提及的VSM仅仅是可以在车辆12中使用的某些模块的示例,因为许多其它模块也是可能的。
车辆电子装置28还包括多个车辆用户界面,其向车辆乘员提供用于提供和/或接收信息的装置,包括麦克风32、按钮34、音频系统36以及可视显示器38。如本文所使用,术语‘车辆用户界面’广泛地包括任何合适形式的电子装置,包括硬件和软件部件两者,该电子装置位于车辆上并且使得车辆用户能够与车辆的部件通信或通过车辆的部件进行通信。麦克风32向远程信息处理单元提供音频输入以使得驾驶员或其它乘员能够经由无线载波系统14提供语音命令并执行免提呼叫。为此,其可以利用本领域中已知的人机界面(HMI)技术连接到车载自动语音处理单元。
按钮34允许手动用户输入进入远程信息处理单元30以发起无线电话呼叫并且提供其它数据、响应或控制输入。单独的按钮可以用于发起紧急呼叫与对数据中心20进行的常规服务救援呼叫。音频系统36向车辆乘员提供音频输出,并且可以是专用的独立系统或主要车辆音频系统的一部分。根据此处所示的特定实施例,音频系统36操作地联接到车辆总线44和娱乐总线46这两者,并且可以提供AM、FM、媒体流服务(例如,PANDORA RADIOTM、SPOTIFYTM等)、卫星无线电、CD、DVD以及其它多媒体功能。该功能可以与上述信息娱乐模块结合或独立提供。可视显示器38优选地是诸如仪表板上的触摸屏或从挡风玻璃反射的平视显示器(HUD)等图形显示器,并且可以用于提供多种输入和输出功能(即,能够进行GUI实施)。音频系统36还可以生成至少一个音频声明以声明这样的第三方联系信息正在显示器38上展示和/或可以生成独立地声明第三方联系信息的音频声明。也可利用各种其它车辆用户界面,因为图1的界面仅仅是一个特定实施方案的示例。
无线载波系统14优选地是蜂窝电话系统,其包括多个蜂窝塔70(仅示出一个)、一个或多个蜂窝网络基础设施(CNI)72以及将无线载波系统14与陆地网络16连接所需要的任何其它联网部件。每个蜂窝塔70都包括发送和接收天线以及基站,其中来自不同手机蜂窝塔的基站直接或经由诸如基站控制器等中间设备连接到CNI 72。蜂窝系统14可以实施任何合适的通信技术,包括(例如)诸如AMPS等模拟技术或诸如但不限于4G LTE和5G等较新数字技术。如本领域技术人员应当明白,各种蜂窝塔/基站/CNI布置是可能的并且可以结合无线系统14使用。例如,基站和蜂窝塔可以共同位于相同站点处或它们可以远离彼此,每个基站可以负责单个蜂窝塔或单个基站可以服务于各个蜂窝塔,且各个基站可以联接到单个MSC,这里仅列举几种可能布置。
除使用无线载波系统14之外,可以使用呈卫星通信的形式的不同无线载波系统来提供与车辆的单向或双向通信。这可以使用一个或多个通信卫星62和上行链路传输站64来进行。单向通信可以为(例如)卫星无线电服务,其中节目内容(新闻、音乐等)是由传输站64接收、封装上传并且然后发送到卫星62,从而向用户广播该节目。双向通信可以为(例如)使用卫星62以在车辆12与传输站64之间中继电话通信的卫星电话服务。如果使用,那么除了或代替无线载波系统14,可以利用该卫星电话。
陆地网络16可以为连接到一个或多个陆线电话并且将无线载波系统14连接到数据中心20的常规陆基电信网络。例如,陆地网络16可以包括诸如用于提供硬接线电话、分组交换数据通信和因特网基础设施(即,互连计算装置节点的网络)的公共交换电话网(PSTN)。一段或多段陆地网络16可以通过使用标准有线网络、光纤或其它光学网络、电缆网络、电力线、其它无线网络(诸如无线局域网(WLAN))或提供宽带无线接入(BWA)的网络或其任何组合来实施。另外,数据中心20不需要经由陆地网络16连接,反而可以包括无线电话设备使得其可以直接与无线网络(诸如无线载波系统14)通信。
远程计算机18可以为可经由诸如因特网等专用或公共网络接入的许多计算机中的一种。每个这样的计算机18都可以用于一个或多个目的,诸如可由车辆经由远程信息处理单元30和无线载波14接入网络服务器。其它这样的可接入计算机18可以为例如:服务中心计算机(例如,SIP存在服务器),其中可以经由远程信息处理单元30从车辆上传诊断信息和其它车辆数据;由车主或其它用户使用的客户端计算机,其用于诸如接入或接收车辆数据(诸如,例如车辆特征数据和普遍配置数据)或设置或配置用户偏好或控制车辆功能等目的;或者第三方数据仓库,从或向该第三方数据仓库提供车辆数据或其它信息,而无关于是否与车辆12或数据中心20或两者进行通信。例如,计算机18可以用于将建议数据库92(下文讨论)容纳到其存储器上。计算机18还可以用于提供诸如DNS服务器或网络地址服务器等因特网连接性,该网络地址服务器使用DHCP或其它合适协议来将IP地址分配到车辆12。
数据中心20被设计为对车辆电子装置28提供许多不同的系统后端功能,并且根据此处所示的示例性实施例,通常包括一个或多个交换机80、服务器82、存储器84、现场顾问86以及VRS 88(即,对语音命令作出响应的计算机界面),其全部是本领域中所已知的。这些不同的数据中心部件优选地经由有线或无线局域网90彼此联接。交换机80(其可以为专用交换分机(PBX)交换机)路由传入信号使得语音传输通常由常规的电话、后端计算机87发送到现场顾问86或者使用VoIP发送到自动语音响应系统88。服务器82可以结合数据控制器81,其基本上控制服务器82的操作。服务器82可以控制数据信息以及充当收发器以从存储器84、远程信息处理单元30以及移动计算装置57发送和/或接收数据信息(即,数据传输)。
控制器81能够读取存储在非暂时性机器可读介质中的可执行指令,并且可以包括处理器、微处理器、中央处理单元(CPU)、图形处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机中的一个或多个以及硬件、软件与固件部件的组合。现场顾问电话还可以使用VoIP,如图1中的虚线所指示。通过交换机80进行的VoIP和其它数据通信经由连接在陆地通信网络16与局域网90之间的调制解调器(即,收发器)来实施。
数据传输经由调制解调器传递到服务器82和/或存储器84。存储器84可以存储账户信息,诸如车辆动态信息和其它相关用户信息。存储器还可以存储一个或多个数据库92,其包括诸如但不限于建议信息等信息。因而,数据库92包括商家、供应商、地标信息等、以及各种流行类型(例如,餐厅、酒店、商店、干洗服务、快餐连锁店、滑雪旅馆、汽车经销商等)的信息,并且可以基于但不限于地址、商家类型、电话号码或地理编码来列出这样的信息。数据库92还可以由一个或多个网页映射服务支持,以提供一个或多个准确的建议信息。数据库92还可以包括基于人工智能的可执行指令以使得VRS 88能够通过听觉方法进行对话,该听觉方法被设计成令人信服地模拟人类作为对话伙伴的行为,如本领域通常所知(即,充当聊天机器人、talkbot、chatterbot、Bot、IM bot、交互式代理或人工对话实体),这可以用于帮助在数据库中查找准确的信息。数据库92还可以与其它存储器装置(诸如但不限于远程信息处理存储器54或数据中心存储器84)相对应以检索先前记录的信息。例如,数据库92可以访问先前记录的信息,诸如但不限于车辆乘员或第三方的偏好信息或对话信息。应当明白,众所周知,建议信息数据库92与VRS 88或VRS 88与现场顾问86的组合进行协作。
数据传输也可以由诸如802.11x、GPRS等无线系统进行。虽然所说明的实施例已经被描述为其将结合使用现场顾问86的人工数据中心20使用,但是应当明白,数据中心反而可以利用VRS 88作为自动顾问,或者可以使用VRS 88与现场顾问86的组合。
服务提供商19可以是向消费者提供服务并且连接到网络16的任何商业实体。例如,服务提供商19可以是短期提供付费住宿的酒店,并且包括一个或多个计算机以通过网络16与数据中心20或远程信息处理单元30进行通信(例如,进行预订)。在另一个示例中,服务提供商19可以是在按零售等级销售新车或二手车的汽车经销商,并且还可以包括一个或多个计算机以通过网络16与数据中心20或远程信息处理单元30进行通信(即,进行车辆维修预订)。在另一个示例中,服务提供商19可以是准备和向顾客提供食物和饮料以换取金钱的餐厅,并且包括一个或多个计算机以通过网络16与数据中心20或远程信息处理单元30进行通信(例如,进行晚餐预订)。如本领域技术人员所明白,上述提及的服务提供商19仅仅是可以在该通信系统中使用的某些服务提供商的示例,因为许多其它服务提供商也是可能的。
自动语音识别系统
现在转向图2,示出了可以用于实现当前公开的方法的ASR系统210的说明性架构。通常,车辆乘员与自动语音识别系统(ASR)进行声音交互以用于以下一个或多个基本目的:训练系统以理解车辆乘员的特定语音;存储离散语音,诸如口头名称标签或口头控制字,如数字或关键字;或者识别车辆乘员的语音以用于任何合适的目的,诸如语音拨号、菜单导航、转录、服务请求、车辆装置或装置功能控制等。通常,ASR从人类语音中提取声学数据,将声学数据与存储的子字数据进行比较和对比,选择可以与其它所选子字拼接的适当子词,并且输出拼接的子字或字以用于后处理,诸如听写或转录、地址簿拨号、存储到存储器、训练ASR模型或适配参数等。
ASR系统通常是本领域技术人员已知的,并且图2仅说明了一个特定说明性ASR系统210。系统210包括用于接收语音的装置,诸如远程信息处理麦克风32和声学接口33(诸如具有模数转换器以将语音数字转换为声学数据的远程信息处理单元30的声卡)。系统210还包括用于存储声学数据并且存储语音识别软件和数据库的存储器(诸如远程信息处理存储器54、移动装置存储器57、存储器84,或计算机18的存储器)以及用于处理声学数据的处理器(诸如远程信息处理处理器52、移动装置处理器57、服务器82或计算机18)。处理器与存储器一起并结合以下模块工作:一个或多个前端处理器或预处理器软件模块212,其用于将语音的声学数据流解析为诸如声学特征等参数表示;一个或多个解码器软件模块214,其用于对声学特征进行解码以产生与输入语音话语对应的数字子字或字输出数据:以及一个或多个后处理器软件模块216,其用于使用来自解码器模块214的输出数据以用于任何合适的目的。
系统210还可以从任何其它合适的音频源31接收语音,该音频源可以如实线所示直接与预处理器软件模块212进行通信,或者经由声学接口33与该预处理器软件模块间接通信。音频源31可以包括例如电话音频源,诸如语音邮件系统,或任何类型的其它电话服务。
一个或多个模块或模型可以用作解码器模块214的输入。首先,语法和/或词典模型218可以提供管理哪些字可以在逻辑上跟随其它字以形成有效句子的规则。从广义上讲,语法可以定义系统210在任何给定时间在任何给定ASR模式中所期望的全体词汇。例如,如果系统210处于用于训练命令的训练模式,则语法模型218可以包括系统210已知和使用的所有命令。在另一个示例中,如果系统210处于主菜单模式,则活动语法模型218可以包括系统210期望的所有主菜单命令,诸如呼叫、拨号、退出、删除、目录等。其次,声学模型220帮助选择与来自预处理器模块212的输入对应的最可能的子字或字。第三,字模型222和句子/语言模型224在将选定的子字或字放入字或句子语境中时提供规则、语法和/或语义。而且,句子/语言模型224可以定义系统210在任何给定时间在任何给定ASR模式中期望的全体句子,和/或可以提供管理哪些句子可以在逻辑上跟随其它句子以形成有效的扩展语音的规则等。
根据替代的说明性实施例,ASR系统210中的一些或全部可以常驻在远离车辆12的位置中的计算设备(诸如呼叫中心20)上并且使用该计算设备进行处理。例如,语法模型、声学模型等可以存储在呼叫中心20中的服务器82和/或数据库84之一的存储器中,并且传送到车辆远程信息处理单元30以进行车内语音处理。类似地,可以使用呼叫中心20中的服务器82之一的处理器来处理语音识别软件。换句话说,ASR系统210可以常驻在远程信息处理单元30中,以任何期望的方式分布在呼叫中心20和车辆12上,和/或常驻在呼叫中心20处。
首先,从人类语音中提取声学数据,其中车辆乘员对着麦克风32说话,该麦克风将话语转换为电信号并且将这样的信号传送到声学接口33。麦克风32中的声音响应元件将乘员的语音话语捕获为气压变化,并且将话语转换为模拟电信号(诸如直流或电压)的相应变化。声学接口33接收模拟电信号,其首先被采样使得模拟信号的值在离散时刻被捕获,然后被量化使得模拟信号的振幅在每个采样时刻被转换为连续的数字语音数据流。换句话说,声学接口33将模拟电信号转换为数字电子信号。数字数据是二进制位,其在远程信息处理存储器54中缓冲,然后由远程信息处理处理器52处理,或者可以在它们最初由处理器52实时接收时进行处理。
其次,预处理器模块212将连续的数字语音数据流变换为离散的声学参数序列。更具体地,处理器52执行预处理器模块212以将数字语音数据分段为例如持续时间为10-30的重叠的语音学或声学帧。这些帧对应于声学子字,诸如音节、半音节、音素、双音素、音位等。预处理器模块212还执行音素分析以从乘员的语音(诸如每个帧内的时变特征向量)中提取声学参数。乘员语音内的话语可以表示为这些特征向量的序列。例如,并且如本领域技术人员所知,可以提取特征向量,并且该特征向量可以包括例如可以通过对帧执行傅里叶变换和使用余弦变换对声谱进行去相关而获取的声音音调、能量分布、频谱属性和/或倒谱系数。将覆盖特定语音持续时间的声学帧和相应参数拼接成要解码的未知语音测试模式。
第三,处理器执行解码器模块214以处理每个测试模式的输入特征向量。解码器模块214也称为识别引擎或分类器,并且使用存储的已知语音参考模式。与测试模式一样,参考模式被定义为相关声学帧和相应参数的拼接。解码器模块214将要识别的子字测试模式的声学特征向量与存储的子字参考模式进行比较和对比,评估其间的差异或相似性的大小,并且最终使用决策逻辑来选择最佳匹配的子字作为识别的子字。通常,最佳匹配子字是对应于存储的已知参考模式的子字,该存储的已知参考模式与通过本领域技术人员已知用于分析并识别子字的各种技术中的任何技术确定的测试模式具有最小不相似性或有最高概率是该测试模式。这样的技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音位识别器和/或概率模式匹配器,诸如隐马尔可夫模型(HMM)引擎。
本领域技术人员已知HMM引擎用于产生声学输入的多个语音识别模型假设。在最终识别和选择识别输出时考虑假设,该识别输出表示经由语音的特征分析对声学输入的最可能的正确解码。更具体地,HMM引擎以“N最佳”子字模型假设列表的形式生成统计模型,该子字模型假设列表根据HMM计算的置信度值或在给定一个或另一个子字的情况下通过诸如应用贝叶斯定理观察到的声学数据序列的概率来进行排名。
贝叶斯HMM过程针对给定的声学特征向量的观察序列识别与最可能的话语或子字序列对应的最佳假设,并且该序列的置信度值可以取决于包括与传入声学数据相关联的声学信噪比的各种因素。HMM还可以包括称为对角高斯混合的统计分布,其产生每个子字的每个观察到的特征向量的似然分数,该分数可以用于对假设的N最佳列表重新排序。HMM引擎还可以识别和选择模型似然得分最高的子字。
以类似方式,可以拼接用于子字序列的单独HMM以建立单个或多个字HMM。此后,可以生成并进一步评估单个或多个字参考模式和相关参数值的N最佳列表。
在一个示例中,语音识别解码器214使用适当的声学模型、语法以及算法来处理特征向量以生成参考模式的N最佳列表。如本文所使用,术语参考模式可与模型、波形、模板、富信号模型、范例、假设或其它类型的参考互换。参考模式可以包括表示一个或多个字或子字的一系列特征向量,并且可以基于特定的发言者、说话风格以及可听的环境条件。本领域技术人员将认识到,参考模式可以通过对ASR系统的适当参考模式训练生成并且存储在存储器中。本领域技术人员还将认识到,可以操纵存储的参考模式,其中参考模式的参数值基于参考模式训练与ASR系统的实际使用之间的语音输入信号的差异进行调整。例如,基于来自不同车辆乘员或不同的声学条件的有限量的训练数据,可以调整针对一个车辆乘员或某些声学条件训练的一组参考模式并将其保存为用于不同车辆乘员或不同声学条件的另一组参考模式。换句话说,参考模式不一定是固定的,而是可以在语音识别期间进行调整。
语音识别解码器214还可以结合一个或多个对话语境特定语言模型以识别与特征向量对应的对话语境。而且,对话语境可以包括幽默对话的“幽默”,或者关于晚餐计划的对话的“晚餐”,或者热情对话的“浪漫”,或者八卦聊天的“八卦”,或者邀请和相关响应的“邀请”,或者介绍类型的对话的“问候”。对话语境可以包括任何一个或多个前述示例和/或任何其它合适类型的对话语境。每个对话语境特定语言模型也可以对应于一个对话语境,并且可以在语音识别运行时之前由多个发言者以任何合适的方式开发和训练。
语音识别解码器214可以进一步结合一个或多个情绪语境特定语言模型以识别与特征向量对应的情绪语境。而且,情绪语境可以包括敌对对话的“愤怒”,或者乐观对话的“快乐”,或者不愉快对话的“悲伤”,或者“混乱”等。情绪语境可以包括任何一个或多个前述示例和/或任何其它合适类型的情绪语境。在一个实施例中,每个情绪语境特定语言模型对应于一个情绪语境,并且可以在语音识别运行时之前由多个发言者以任何合适的方式开发和训练。应当理解,这些语言模型可以包括对话/情绪模型的置换矩阵。例如,模型可以包括“晚餐”/“快乐”模型、“晚餐”/“愤怒”模型、“八卦”/“混乱”模型等。
使用词汇内语法和任何合适的解码器算法和声学模型,处理器从存储器访问解译测试模式的若干参考模式。例如,处理器可以生成N最佳词汇结果或参考模式的列表以及相应的参数值,并且将它们存储到存储器。说明性参数值可以包括词汇的N最佳列表和相关片段持续时间、似然分数、信噪比(SNR)值等中的每个参考模式的置信度分数。可以通过参数值的下降大小来对词汇的N最佳列表进行排序。例如,具有最高置信度分数的词汇参考模式是第一最佳参考模式,依此类推。一旦建立了一串识别的子字,就可以将它们用于构建具有来自字模型222的输入的字并且用于构建具有来自语言模型224的输入的句子。
最后,出于任何合适的目的,后处理器软件模块216从解码器模块214接收输出数据。在一个示例中,后处理器软件模块216可以从单个或多个字参考模式的N最佳列表中识别或选择参考模式之一作为识别的语音。在另一个示例中,后处理器模块216可以用于将声学数据转换为文本或数字以与ASR系统或其它车辆系统的其它方面一起使用。在另外的示例中,后处理器模块216可以用于向解码器214或预处理器212提供训练反馈。更具体地,后处理器216可以用于训练解码器模块214的声学模型,或者训练预处理器模块212的调适参数。
该方法或其部分可以在计算机程序产品中实施,该计算机程序产品在计算机可读介质中实施并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用以使系统实施一个或多个方法步骤的指令。该计算机程序产品可以包括:一个或多个软件程序,该软件程序包括源代码、目标代码、可执行代码或其它格式的程序指令;一个或多个固件程序;或硬件描述语言(HDL)文件;以及任何程序相关数据。数据可以包括数据结构、查找表或任何其它合适格式的数据。程序指令可以包括程序模块、例程、程序、对象、部件等。计算机程序可以在一个计算机上或在彼此通信的多个计算机上执行。
程序可以在计算机可读介质上实施,该计算机可读介质可以是非暂时性的并且可以包括一个或多个存储装置、制品等。示例性计算机可读介质包括计算机系统存,例如RAM(随机存取存储器)、ROM(只读存储器);半导体存储器,例如EPROM(可擦除、可编程ROM)、EEPROM(电可擦除、可编程ROM)、闪存;磁盘或光盘或磁带;等。例如当通过网络或另一个通信连接(有线、无线或其组合)传输或提供数据时,计算机可读介质还可以包括计算机到计算机的连接。上述示例的任何组合也包括在计算机可读介质的范围内。因此,应当理解,该方法可以至少部分地由能够执行与所公开方法的一个或多个步骤对应的指令的任何电子物品和/或装置来执行。
方法
现在转向图3,示出了可以使用图2的自动语音识别系统210的适当编程在车辆远程信息处理单元30的操作环境内以及使用图1中所示的其它部件的合适硬件和编程来执行的方法300。例如,语音识别硬件、固件以及软件可以常驻在计算机18上、数据中心20中的服务器82之一上,或移动计算装置57上。换句话说,ASR系统210可以常驻在远程信息处理单元30中,或者以任何期望的方式分布在车辆12和计算机18和/或呼叫中心20和/或VRS 88上。
基于以上系统描述和下面结合其余附图描述的方法的讨论,对于本领域技术人员来说,上述硬件的这种编程和使用将是显而易见的。本领域技术人员还将认识到,可以使用其它操作环境内的其它ASR系统210来执行这些方法。方法步骤可以或可以不是顺序处理的,并且本发明可以涵盖这样的步骤的任何排序、重叠或并行处理。
方法300以301开始,其中麦克风32被配置为在车辆12的内部收听语音。另外,在301中,远程信息处理单元30例如经由无线载波系统14与数据中心20持续通信以用于订购服务的目的。因此,由麦克风32拾取的任何识别的语音输入作为将通过远程信息处理单元30和载波系统14中继/传输到数据中心20(即,VRS 88)的声学数据。例如,数据可以通过经由通过语音数据协议和/或通过任何其它合适的方式经由分组数据传输来发送。应当理解,麦克风32可以替代地安装在移动计算装置57上,并且可以在该装置处于车辆内部时收听。因此,移动计算装置57可以与数据中心20持续通信,或者它可以与远程信息处理单元30持续通信。
在步骤310中,麦克风32收听在车辆内部发生的语音示例并将且其传输到数据中心20。在数据中心20处,ASR系统210然后处理语音数据并且使得VRS 88能够识别语音数据是否包含来自对话中的至少两个人的语音。例如,ASR系统210提供声学数据,其表示彼此说话的两个不同人的语音音调、语音音调变化以及语音模式。例如,声学数据可以表示车辆乘员(例如,车辆操作者)与在车辆内部中彼此说话的另一个车辆乘员(例如,车辆乘客)之间的对话。在另一个示例中,声学数据可以表示车辆乘员(例如,车辆操作者/乘客)与移动计算装置57的用户之间的对话(例如,通过远程信息处理单元30的免提呼叫选项与车辆乘员对话)。当这样的语音数据示出它是来自至少两个人时,方法将转到步骤320。在替代实施例中,麦克风32收听在车辆内部发生的语音示例并且将其传输到安装在远程信息处理单元30、移动计算装置57或计算机18上的ASR系统210。应当理解,VRS 88可以但不限于常驻在数据中心20处或移动计算装置57的存储器中。
因而,在步骤320中,VRS 88将实施服务器82/移动计算装置57/计算机18/远程信息处理单元30以激活麦克风32来允许ASR系统210在对话发生时(即,实时地)回顾对话。因而,ASR系统210可以收集和处理可能与在对话期间的某个时间点可能做出的建议相关的语音数据。另外,VRS 88将在回顾对话时保持静音以便不干扰车辆乘员和/或第三方和破坏对话流程(即,在该步骤期间充当听写服务)。为了实现提供相关建议的效果,在步骤320中,ASR系统210可以启用如上面所讨论的对话语境特定语言模型以识别正在进行的对话或者对话的至少一部分(例如,对话子主题)的至少一个对话语境。在该步骤中,ASR系统210还可以启用如上面所讨论的情绪语境特定语言模型以识别对话或者对话的至少一部分的情绪语境。在步骤320期间,ASR系统210还可以识别和收集动态语音数据片段以可能潜在地与建议相关并支持这些建议,诸如但不限于识别服务提供商类型的字,例如“餐厅”,识别服务类型语体的字,例如名族风味食物类型(意大利语、希腊语等),或者提供参考点的字,例如在家附近、在目的地附近(例如,酒店)。
识别对话的对话语境和情绪语境允许VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30以支持方法300的下游方面的方式定义对话。例如,可以基于诸如但不限于语境主题的类别将对话拼接成部分。因而,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30可以实现对话部分,包括对某些食物类型(例如,意大利面、意大利食物、披萨)部分满意并且对于其它食物类型(例如墨西哥卷饼、Tex-Mex风格、墨西哥食物、玉米饼等)部分犹豫不决的晚餐主题等。因而,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30可以为被理解为晚餐/满意的食物类型提供排名标签,并且对于被理解为晚餐/犹豫不决的食物类型提供另一种排名标签(即,通常为一种被认为低于食物/满意主题的标签)。这有助于服务器82对该对话的意图进行分类。VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30可以另外实现其它部分,包括对某些类型的住宿(例如,具有游泳池的酒店)部分肯定并且对于其它住宿(例如,具有钟点房的汽车旅馆)部分否定的住宿主题。因而,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30可以为被理解为住宿/肯定的住宿主题提供一个排名标签,并且为被理解为住宿/否定的住宿主题提供不同排名标签。应当理解,这些只是主题的两个示例,并且其它也是可能的。VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30还可以使用所识别和收集的动态语音数据(上面所讨论)来帮助实现该对话定义以便支持方法300的下游方面。例如,可以使用动态语音数据来帮助识别一个或多个对话部分的语境主题。
在一段持续时间之后,在步骤330处,VRS 88将识别在来自车辆乘员或第三方的对话期间发出语音提示。在方法300的一个实施例中,语音提示可以是查询的形式(即,VRS 88回答的针对性问题)。例如,车辆乘员或第三方可以主动请求VRS 88提供关于通过一种或多种通常已知的VRS方法提供的服务的信息。在方法300的另一个实施例中,语音提示可以是其它形式,诸如但不限于发言者之间的长静音暂停、与对话/情绪语境相关的特征词,或某些语音音调/音调变化。使用这样的语音提示使得VRS 88能够中断与建议进行的对话。例如,在对话之间的长时间(例如,四秒)停顿之后,VRS 88可以提供建议“此时我将会就您正在讨论的主题提供一些建议......”。VRS 88也可以重复该主题以对车辆乘员提供对将提出何种建议的理解,以及允许乘员/第三方能够确保VRS 88在正确的主题上。例如,VRS 88可以询问示例性问题“此处有一些建议可以帮助您找到晚餐地点......”。VRS 88可以进一步包括基于支持人工智能的可执行指令(即,诸如聊天机器人、talkbot、chatterbot、Bot、IM bot、交互式代理或人工对话实体等独立模块)以帮助为车辆乘员和第三方提供易于理解的建议。VRS88还可以从一个或多个建议数据库92中检索该人工智能支持。
另外,在该步骤中,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30将与一个或多个建议信息数据库92进行通信以基于来自对话的所收集和处理的语音数据来检索建议。在一个实施例中,服务器82可以从位于数据中心20作为存储器84的子集的数据库92中检索信息。在另一个实施例中,服务器82可以从位于远程计算机18处(即,常驻在云中)的数据库92中检索信息。另外,数据库92可以访问数据中心存储器84和/或远程信息处理存储器54以检索先前记录的信息(诸如例如偏好信息和/或对话信息)以支持任何提供的建议信息。如上面所讨论,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30可以使用一个或多个语言模型来确定可以检索哪些建议。例如,在定义对话并对该对话进行分类之后,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30可以基于在其它排名标签(具有较低状态的标签)之前的某些预定义排名标签(具有高状态的那些标签)来搜索某些对话部分,以尝试按照它们的期望顺序(以及符合对话意图)提供准确的一个或多个建议。为了努力最小化用户挫败感,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30可以仅搜索具有某个状态等级的预定义排名标签的某些对话部分并且忽略低于该状态等级的任何部分。因此,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30不能检索低排名的对话部分。还应当理解,服务器82还可以(从GPS模块40)获取车辆12的GPS信息以帮助支持这些建议的检索。一旦正确检索,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30就会通过音频系统36(或移动计算装置57上的音频系统)向车辆乘员和第三方提供建议的音频声明。在该步骤中,还可以在车辆内部可视地提供建议并且经由显示器38(或在移动计算装置57的界面上)展示建议。(例如,建议可能是当前票房的电影列表。)
在步骤340中,在已经声明建议之后,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30将确定车辆乘员或第三方是否已确认至少一个呈现的建议。例如,当被呈现有多个建议的餐厅时,车辆乘员/第三方可以声明他们想要在所建议的餐厅之一进行预订。结果,当车辆乘员或第三方确认他们已经选择了至少一个建议时,方法300将移到步骤350。然而,当他们选择不选择建议之一时,方法300将返回到步骤320,因此ASR系统210可以返回到以静音方式回顾对话。
在步骤350中,当ASR系统210被提供接受的建议时,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30将会联系与所提供的建议相关联的服务提供商19并且可以执行交易以支持前面步骤期间的交互。例如,当车辆乘员/第三方选择意大利餐厅时,VRS 88/服务器82/移动计算装置57/计算机18/远程信息处理单元30将会联系餐厅的本地计算机以便协商预订时间。当服务提供商19通信完成时,方法300将移到完成351。
本文所公开的过程、方法或算法可以交付给处理装置、控制器或计算机(可以包括任何现有的可编程电子控制单元或专用电子控制单元)/由其实施。类似地,该过程、方法或算法可以存储为可由控制器或计算机以许多形式执行的数据和指令,该形式包括(但不限于)永久地存储在诸如ROM装置的不可写存储介质上的信息以及可变地存储在诸如软盘、磁带、CD、RAM装置以及其它磁性和光学介质的可写存储介质上的信息。该过程、方法或算法还可以在软件可执行对象中实施。替代地,该过程、方法或算法可以全部或部分使用合适的硬件部件(诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其它硬件部件或装置)或硬件、软件和固件部件的组合来实施。
虽然上文描述了示例性实施例,但是并不希望这些实施例描述由权利要求书涵盖的所有可能形式。用在说明书中的词汇是描述性词汇,而不是限制性的词汇,且应当理解,可以进行各种变化而并不脱离本发明的精神和范围。如先前所述,各个实施例的特征可组合成形成可以不明确描述或说明的本发明的进一步实施例。虽然各个实施例就一个或多个所需特性而言可能已经描述为提供优点或优于其它实施例或现有技术实施方案,但是本领域一般技术人员认识到,可牺牲一个或多个特征或特性以实现取决于具体应用和实施方案的所需整体系统属性。这些属性可包括(但不限于)成本、强度、耐用性、生命周期成本、市场适销性、外观、包装、大小、服务能力、重量、可制造性、便于组装等。因而,就一个或多个特性而言,描述为所需性不及其它实施例或现有技术实施方案的实施例不在本公开的范围之外并且对于特定应用可为所需的。
为了便于描述可以在本文使用诸如“内部”、“外部”、“下面”、“下方”、“下部”、“上方”、“上面”等空间相对术语来如图中说明般描述一个元件或特征与另一个元件或特征的关系。空间相对术语可旨在除图中描绘的定向外还涵盖使用或操作中的装置的不同定向。例如,如果图中的装置翻转,则被描述为在其它元件或特征“下方”或“下面”的元件将被定向在其它元件或特征“上方”。因此,示例术语“下方”可以涵盖上方和下方的定向这两者。装置可以其它方式定向(旋转90度或其它定向),且因此解译本文所使用的空间相对描述符。
在35U.S.C.§112(f)的含义内,权利要求书中叙述的元件均不旨在是装置加功能元件,除非使用短语“用于……的装置”明确叙述元件。

Claims (10)

1.一种用于检测对话语音中的一个或多个提示的方法,所述方法包括:
(经由控制器)识别车辆乘员与至少一个第三方之间的对话;
(经由所述控制器)实时静音地回顾所述对话;
(在控制器处)从所述车辆乘员或所述第三方接收在所述对话期间发出的语音提示;
响应于接收到的语音提示,基于所述对话的静音回顾(经由所述控制器)从一个或多个建议数据库中检索建议信息;以及
(经由所述控制器)提供所述建议信息的音频声明,所述音频声明被配置为通过位于车辆中的音频系统来进行声明。
2.根据权利要求1所述的方法,进一步包括:
(经由所述控制器)确定所述车辆乘员或所述第三方是否至少部分地在通过所述音频系统声明之后确认了所述建议信息;以及
(经由所述控制器)响应于所述车辆乘员或所述第三方至少部分地确认了所述建议信息的肯定确定而联系一个或多个服务提供商。
3.根据权利要求1所述的方法,其中:
实时静音地回顾所述对话的所述步骤进一步包括实施一个或多个对话语境特定语言模型以识别所述对话的至少一部分的对话语境;并且
所述从一个或多个建议数据库中检索建议信息的所述步骤是进一步基于所述对话的所述对话语境。
4.根据权利要求1所述的方法,其中所述控制器实施自动语音响应系统(VRS)以识别来自所述车辆乘员或所述第三方的所述语音提示并且通过所述音频系统提供所述建议信息。
5.一种用于检测对话语音中的一个或多个提示的系统,所述系统包括:
位于车辆中的音频系统,所述音频系统被配置为声明信息;以及
存储器,其被配置为包括一个或多个可执行指令;
控制器,其被配置为执行所述可执行指令;并且
其中所述可执行指令使得所述控制器能够:
识别车辆乘员与至少一个第三方之间的对话;
实时静音地回顾所述对话以获取语音提示;
从所述车辆乘员或所述第三方接收所述语音提示;
响应于接收到的语音提示,基于所述对话的所述静音回顾从一个或多个建议数据库中检索建议信息;并且
提供所述建议信息的音频声明,所述音频声明被配置为通过位于车辆中的音频系统来进行声明。
6.根据权利要求5所述的系统,其中所述可执行指令进一步使得所述控制器能够确定所述车辆乘员或所述第三方是否至少部分地在通过所述音频系统声明之后确认了所述建议信息;并且
响应于所述车辆乘员或所述第三方至少部分地确认了所述建议信息的肯定确定而联系一个或多个服务提供商。
7.根据权利要求5所述的系统,其中:
所述实时静音地回顾所述对话进一步包括实施一个或多个对话语境特定语言模型以识别所述对话的至少一部分的对话语境;并且
所述从一个或多个建议数据库中检索建议信息是进一步基于所述对话的所述对话语境。
8.根据权利要求5所述的系统,其中所述控制器实施自动语音响应系统(VRS)以识别来自所述车辆乘员或所述第三方的所述语音提示并且通过所述音频系统提供所述建议信息。
9.一种非暂时性和机器可读介质,其上存储有适于检测对话语音中的一个或多个提示的可执行指令,所述可执行指令在被提供给控制器并由所述控制器执行时使所述控制器:
识别车辆的车厢内的对话,所述对话在车辆乘员与至少一个第三方之间;
实时静音地回顾所述对话以获取语音提示;
从所述车辆乘员或所述第三方接收所述语音提示;
响应于接收到的语音提示,基于所述对话的所述静音回顾从一个或多个建议数据库中检索建议信息;并且
提供所述建议信息的音频声明,所述音频声明被配置为通过位于车辆中的音频系统来进行声明。
10.根据权利要求9所述的非暂时性和机器可读介质,进一步使所述控制器确定所述车辆乘员或所述第三方是否至少部分地在通过所述音频系统声明之后确认了所述建议信息;并且
响应于所述车辆乘员或所述第三方至少部分地确认了所述建议信息的肯定确定而联系一个或多个服务提供商。
CN201811209722.2A 2017-10-23 2018-10-17 用于检测对话语音中的提示的系统和方法 Pending CN109712615A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/790207 2017-10-23
US15/790,207 US20190122661A1 (en) 2017-10-23 2017-10-23 System and method to detect cues in conversational speech

Publications (1)

Publication Number Publication Date
CN109712615A true CN109712615A (zh) 2019-05-03

Family

ID=65996543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811209722.2A Pending CN109712615A (zh) 2017-10-23 2018-10-17 用于检测对话语音中的提示的系统和方法

Country Status (3)

Country Link
US (1) US20190122661A1 (zh)
CN (1) CN109712615A (zh)
DE (1) DE102018125966A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489631A (zh) * 2019-08-21 2021-03-12 美光科技公司 控制音频内容到车厢中的递送的系统、方法和设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019124976A (ja) * 2018-01-11 2019-07-25 トヨタ自動車株式会社 リコメンド装置、リコメンド方法、及びリコメンドプログラム
US11928310B2 (en) * 2018-04-24 2024-03-12 Dial House, LLC Vehicle systems and interfaces and related methods
US10896688B2 (en) * 2018-05-10 2021-01-19 International Business Machines Corporation Real-time conversation analysis system
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11403596B2 (en) * 2018-10-22 2022-08-02 Rammer Technologies, Inc. Integrated framework for managing human interactions
DE102018133453A1 (de) * 2018-12-21 2020-06-25 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Überwachen eines Insassen eines Fahrzeugs
US20220051679A1 (en) * 2019-03-05 2022-02-17 Sony Group Corporation Information processing apparatus, information processing method, and program
US20220180871A1 (en) * 2019-03-20 2022-06-09 Sony Group Corporation Information processing device, information processing method, and program
US11468449B2 (en) 2019-05-01 2022-10-11 Conduent Business Services, Llc Method and system for dynamic visualization of a user journey for customer support

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622140B1 (en) * 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
US20040193420A1 (en) * 2002-07-15 2004-09-30 Kennewick Robert A. Mobile systems and methods for responding to natural language speech utterance
WO2005071665A1 (en) * 2004-01-20 2005-08-04 Koninklijke Philips Electronics, N.V. Method and system for determining the topic of a conversation and obtaining and presenting related content
WO2009094482A1 (en) * 2008-01-24 2009-07-30 Bandtones Llc Systems and methods to facilitate buying via a phone call
CN102693725A (zh) * 2011-03-25 2012-09-26 通用汽车有限责任公司 依赖于文本信息语境的语音识别
CN105897858A (zh) * 2015-02-16 2016-08-24 福特全球技术公司 促进移动装置和车辆计算机系统之间的通信的系统和方法
CN105895095A (zh) * 2015-02-12 2016-08-24 哈曼国际工业有限公司 自适应交互语音系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494978B2 (en) * 2007-11-02 2013-07-23 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US20110050460A1 (en) * 2009-08-31 2011-03-03 Bruns Glenn R Method and apparatus for alerting mobile telephone call participants that a vehicle's driver is occupied
US9311915B2 (en) * 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622140B1 (en) * 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
US20040193420A1 (en) * 2002-07-15 2004-09-30 Kennewick Robert A. Mobile systems and methods for responding to natural language speech utterance
WO2005071665A1 (en) * 2004-01-20 2005-08-04 Koninklijke Philips Electronics, N.V. Method and system for determining the topic of a conversation and obtaining and presenting related content
CN1910654A (zh) * 2004-01-20 2007-02-07 皇家飞利浦电子股份有限公司 确定交谈主题并获取和呈现相关内容的方法和系统
WO2009094482A1 (en) * 2008-01-24 2009-07-30 Bandtones Llc Systems and methods to facilitate buying via a phone call
CN102693725A (zh) * 2011-03-25 2012-09-26 通用汽车有限责任公司 依赖于文本信息语境的语音识别
CN105895095A (zh) * 2015-02-12 2016-08-24 哈曼国际工业有限公司 自适应交互语音系统
CN105897858A (zh) * 2015-02-16 2016-08-24 福特全球技术公司 促进移动装置和车辆计算机系统之间的通信的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489631A (zh) * 2019-08-21 2021-03-12 美光科技公司 控制音频内容到车厢中的递送的系统、方法和设备

Also Published As

Publication number Publication date
US20190122661A1 (en) 2019-04-25
DE102018125966A1 (de) 2019-04-25

Similar Documents

Publication Publication Date Title
CN109712615A (zh) 用于检测对话语音中的提示的系统和方法
CN109785828B (zh) 基于用户语音风格的自然语言生成
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
CN110232912B (zh) 语音识别仲裁逻辑
CN107093427A (zh) 不流畅语言的自动语音识别
CN107819929A (zh) 优选表情符号的识别和生成
US10269350B1 (en) Responsive activation of a vehicle feature
US8744421B2 (en) Method of initiating a hands-free conference call
CN105609109A (zh) 混合式自动语音识别
CN110660397A (zh) 对话系统、车辆和用于控制车辆的方法
CN102693725A (zh) 依赖于文本信息语境的语音识别
CN108447488A (zh) 增强语音识别任务完成
US20160039356A1 (en) Establishing microphone zones in a vehicle
CN110491414A (zh) 使用动态可调监听超时的自动语音识别
US20150056951A1 (en) Vehicle telematics unit and method of operating the same
CN110348002A (zh) 实现语音请求的系统和方法
CN107818788A (zh) 车辆上的远程语音识别
CN103151037A (zh) 校正难以理解的合成语音
CN109785827A (zh) 在语音识别仲裁中使用的神经网络
CN111199621A (zh) 语音激活的车辆警报
US20150255063A1 (en) Detecting vanity numbers using speech recognition
CN111816189A (zh) 一种车辆用多音区语音交互方法及电子设备
CN110430484B (zh) 通过远程信息处理单元选择和操作移动装置的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190503