CN103123621A - 移动语音平台架构 - Google Patents

移动语音平台架构 Download PDF

Info

Publication number
CN103123621A
CN103123621A CN2012105584452A CN201210558445A CN103123621A CN 103123621 A CN103123621 A CN 103123621A CN 2012105584452 A CN2012105584452 A CN 2012105584452A CN 201210558445 A CN201210558445 A CN 201210558445A CN 103123621 A CN103123621 A CN 103123621A
Authority
CN
China
Prior art keywords
service
voice
interface
program module
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105584452A
Other languages
English (en)
Inventor
D·R·伯克
D·古罗维奇
D·E·鲁曼
K·A·弗里
S·M·麦卡钦
M·T·卡内维尔
M·古普塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN103123621A publication Critical patent/CN103123621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6075Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle
    • H04M1/6083Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system
    • H04M1/6091Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system including a wireless interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Telephone Function (AREA)
  • Navigation (AREA)

Abstract

一种使用设备为基于计算机的服务提供用户语音接口的移动语音平台,该设备具有处理器、提供基于计算机的服务的接入的通信电路、操作系统、以及一个或多个应用程序,该应用程序使用操作系统运行并且通过通信电路使用一个或多个基于计算机的服务。该移动语音平台包括:至少一个非瞬态的数字储存媒介,其储存了第一和第二程序模块,其中所述第一程序模块包括计算机指令,在被处理器执行时,该计算机指令接收语音识别结果,该语音识别结果代表已经使用自动语音识别处理过的用户语音,该计算机指令还基于语音识别结果确定期望的服务,并且向第二程序模块提供至少一些语音识别结果;并且其中,第二程序模块包括计算机指令,在被处理器执行时,该计算机指令基于由第一程序模块提供的语音识别结果生成服务请求、向一个或多个基于计算机的服务提供服务请求、从基于计算机的服务获取服务结果、以及给第一程序模块提供基于服务结果的响应。

Description

移动语音平台架构
相关申请的交叉引用
本申请要求2011年10月21日提交的美国申请No.61/550,362的优先权,该申请的全部内容通过引用被合并于此。
技术领域
本发明涉及语音接口,其具有无线地从蜂窝电话或者其他移动设备获取的基于计算机的服务,以及涉及在诸如客车的车辆中实施的这种接口。
背景技术
针对车辆功能以及蜂窝电话功能和应用的、基于语音的人机交互(Human-Machine Interface,HMI)通常涉及特定于应用或者特定于功能的有限命令集合,该集合需要从句法上被约束的用户和HMI之间的交互。在这些系统中,输入的语音可以转换成特定应用的特定命令,然而,通常只有有限的能力来识别和执行涉及不同应用或服务提供者的不同服务。
在车辆内使用的蜂窝电话的领域中,已经建议创建若干系统并且一些系统已被实施,这些系统能够通过提供免提电话体验来帮助减少驾驶员分神,以及帮助执行一些基本的车辆控制任务,例如选择和控制车辆上的无线电和其他信息娱乐服务。在一些系统中,这可以使用嵌入式蜂窝电话来完成,该蜂窝电话具有与至少一部分车辆电子设备的接入口,从而允许通过语音用户接口来控制和报告。在其他车辆中,驾驶员或者其他乘员的个人移动设备(例如,蜂窝电话)可用于此目的,而车辆提供基本声音接口,该基本声音接口包括麦克风和一个或多个扬声器,以及与移动设备相连的蓝牙或者其他无线连接。这允许在声音接口和移动设备之间沿任一方向发送语音和其他声音。然而,这些系统通常仅限于启用一些基本的移动设备功能,例如呼叫以及控制音乐选择和回放。它们没有提供与很多其他内置的以及用户添加的、如今通常可用的应用和功能的接入口。
例如,现在移动设备-比如智能电话被广泛应用和运用,其允许用户下载和安装相对小型的软件应用程序(app)。无论是通过诸如AndroidTM OS的操作系统(OS),还是通过诸如iPhone4STM上可用的SiriTM内置app,一些这样的智能电话具有了内置的语音支持。例如参见2011年7月21日公开的WO2011088053。在提供更高级别的集成的同时,这些可商购的系统并没有配置成可提供移动设备的完全免提体验,因为它们在语音会话中仍然严重地依赖屏幕来与用户交互。
发明内容
根据本发明的一个方面,提供一种移动语音平台,该移动语音平台使用一种设备为基于计算机的服务提供用户语音接口,该设备具有处理器、提供到基于计算机的服务的接入的通信电路、操作系统、以及一个或多个应用程序,该应用程序使用操作系统运行并且通过通信电路来使用一个或多个基于计算机的服务。该移动语音平台包括至少一个非瞬态的数字储存媒介,其储存第一和第二程序模块,其中所述第一程序模块包括计算机指令,在被处理器执行时,该指令接收代表已经使用自动语音识别处理过的用户语音的语音识别结果、基于语音识别结果确定所期望的服务、以及向第二程序模块提供至少一些语音识别结果;并且其中,第二程序模块包括计算机指令,在被处理器执行时,该指令基于由第一程序模块提供的语音识别结果来生成服务请求、向一个或多个基于计算机的服务提供服务请求、从基于计算机的服务获取服务结果、以及基于服务结果向第一程序模块提供响应。
附图说明
在此将联系附图来描述本发明一个或多个实施例,其中相同的附图标记代表相同的元件,其中:
图1图示地描绘了根据本发明的实施例的用于提供语音用户接口的部分硬件和方法;
图2是一幅框图,描绘了能够利用图1的语音用户接口以及在此公开的方法的通信系统的实施例;
图3是图1和2中描绘的移动设备的一些硬件和软件组件的框图;
图4描绘了在图1-3的移动设备上使用的操作系统和移动语音平台的分层软件结构和程序模块交互;
图5描绘了有关图4的应用接口组中使用的服务接口结构的进一步细节;
图6是方法的流程图,该方法可与图1和2的语音用户接口结合使用,以向用户提供完整的免提语音会话;
图7是程序表,显示了示例语音会话的消息流;
图8包括图8A和8B,并且是另一个程序表,显示了另一个示例语音会话的消息流;
图9描绘了图4中示出的分层软件结构和程序模块交互的一个替代实施例;以及
图10描绘了图9的实施例的改进实施型式。
具体实施方式
下面描述的系统和方法提供了一种移动语音平台,其(1)无需与移动电话物理交互就能在车辆乘员和乘员的蜂窝电话或其他移动设备之间实现免提通信,以及(2)按照一种方式完成(1),该方式通过移动设备实现对用户可用的一些或所有基于网络和其他基于计算机的服务的广泛支持。如此处使用的,“服务”通常包括给移动设备用户提供信息、控制、和/或通信辅助。此外,如此处使用的,被移动设备使用或者经由其接入的服务包括通过安装在移动设备上的应用程序提供的服务,以及仅通过与远程服务器通信才可用的基于计算机的服务。后者这些基于计算机的服务也可以被看作是“云服务”,并且可以被任何服务提供者供应,该服务提供者拥有在专用或公用网络-例如内部网或因特网上可用的接入服务器。
图1描绘了一个基于语音的用户接口10的实施例,其可用于以免提方式通过移动设备向车辆驾驶员提供服务。如此处使用的,“免提”指的是,用户无需与设备的物理交互或者控制就能使用移动设备执行或者已经执行了一些或者所有完整的基于语音的会话。“完全免提”指的是用户无需与设备的物理交互或者控制就可以使用移动设备执行或者已经执行了所有完整的基于语音的会话。一些实施例能够被实现为提供可能需要一些与移动设备的交互的免提体验,例如将其置于收听模式,而其他实施例能够执行成完全免提的,例如当移动设备在用户的口袋、钱包或者公务包中,而无需与设备的身体接触。
在所示的实施例中,车辆12的驾驶员与车上已安装的声音用户接口14进行语音交互,该接口经由短程无线连接与驾驶员移动设备16通信,本例中移动设备16为一个蜂窝电话。移动设备16可以是任何可携带的设备,其能够使用无论是微处理器还是一些更简单或更复杂的电路来进行无线通信和数字处理。因此,移动设备包括蜂窝电话、PDA、膝上电脑、笔记本、上网本以及其他个人电子设备。图1描绘的蜂窝电话16通常指的是智能电话,假设它允许用户向智能电话增加软件应用程序(app),以实现电话之外的功能。电话16包括触摸屏接口、一个或多个人工按键、麦克风、扬声器、以及包括微处理器以及储存了软件和数据的存储器在内的内部电路(硬件),以及通信电路,该电路包括至少诸如蓝牙(Bluetooth)和/或WiFi的短程无线通信技术、然而还有诸如CDMA、GSM的蜂窝芯片的蜂窝通信技术、或者其他标准化技术。如果期望,移动设备16的这些不同组件可以是传统的,因而此处不再单独示出或者描述。
除了移动设备硬件之外,蜂窝电话16还包括移动语音平台(MobileVoice Platform,MVP)18,其包含运行在移动设备上的软件。如下文将描述的,MVP18包括语音平台内核(Speech Platform Kernel,SPK)20和应用接口组(Application Interface Suite,AIS)22,上述两者都是程序模块,包含了计算机指令,在被设备的处理器执行时,该指令执行各自的模块功能。与在移动设备本身上提供自动语音处理(Automated Speech Processing,ASR)不同,此处使用了远程定位(云)语音服务24,尽管在一些实施例中,在接入或者不接入远程定位语音模块、语法和计算设施的情况下,ASR可以在移动设备16上执行。移动设备16还包括操作系统(OS)26,其提供根一级的功能,包括例如应用程序之间的通信机制以及设备硬件和运行在设备16上的软件模块及应用程序之间的输入/输出(Input/Output,IO)接口连接。在OS的这些硬件接口功能中,包括了由设备使用的通信协议,以经由因特网或其他网络与语音服务24以及其他可用的云服务28来通信。任何基于计算机的服务可以被包括在云服务28的列表中,然而在图1中显示的是对于蜂窝电话的用户来说最有用的那些服务中的一些,例如社会媒体、位置服务(比如导航)、交通、天气、新闻、日历、餐饮和电影。也存在着很多其他服务。
总体上,使用移动语音平台18的免提接入服务将涉及通过移动设备16执行完整的语音会话,而无需与移动设备有任何实体交互。这广泛地包括接收来自用户的语音输入、从响应于语音输入内容的云服务获取服务结果、以及作为呈现给用户的语音响应而提供服务结果。使用图1的车辆12,驾驶员(用户)可以与移动设备交互,以通过声音用户接口14执行语音会话。这可以包括在车内声音用户接口14和移动设备16之间建立短程无线连接,该连接随后允许声音用户接口14的麦克风和扬声器被分别用于从驾驶员或其他乘员接收和向其呈现语音。语音输入可以在这种短程无线连接上通过诸如Bluetooth或WiFi的数字通信协议、作为数字化语音被发送。然后数字化语音输入可以经由蜂窝或者其他无线通信系统从移动设备16发送至语音服务24,以执行涉及自动语音识别的语音至文本(Speech-to-Text,STT)服务,或者文本至语音(Text-to-Speech,TTS)服务,该文本至语音服务提供被合成或者被记录的语音或部分语音(例如,phenomes),用于生成声音消息,并且响应于语音输入而提供适当的语音。然后,语音识别结果(例如返回的文本)被SPK20处理,以最终确定合适的(期望的)服务,用于执行用户的请求。如下文将要更详细讨论的,一旦期望的服务被确定,则使用由特定服务所支持的命令和参数形成服务请求,该特定服务使用来自应用接口组(AIS)22的一个或多个服务接口而选定。服务请求被发送至期望的服务(已安装的app,和/或云服务),并且服务结果被接收回来。随后,服务结果被用于生成自然语言语音响应,即,使用熟知的以及上下文相关的交谈语言和句子/分句结构。如下文将要更详细讨论的,语音响应可以是声音消息,该消息最初作为来自服务结果中的信息以及诸如会话变量和上下文相关内容的其他可用信息的文本响应而建立。一旦形成文本响应,其被转换成声音语音响应(例如,声音消息),并且这可以在移动设备16本身上或者使用TTS服务24来完成。然后,声音消息可以经由短程无线连接从移动设备发送至声音用户接口14,以便通过车辆扬声器呈现给车辆乘员。
现在转至图2,该图显示了操作环境,该环境包括移动车辆通信系统100,该系统集成了基于语音的用户接口(Speech-based User Interface,SUI)10,以及可用于实施此处公开的方法。通信系统100总体上包括车辆12以及它的声音用户接口14、移动设备16、语音服务24、云服务28、以及图1中未示出的一些系统基础设施,包括一个或多个无线载波系统34和陆地通信网络36。其他可选的设备、设施和系统也可以被包括,例如计算机37、呼叫中心38、住所或其他固定的局域网络设施39、具有固定天线54和一个或多个卫星56的卫星通信系统、以及用于导航的GPS卫星星座58。应当理解的是,可以通过任何数量的不同系统来使用已公开的方法,并且所公开的方法不特别地局限于此处示出的操作环境。而且,此处未被描述的系统100的组件的架构、构造、设置以及操作在现有技术中通常是已知的。因此,下面的段落仅提供了一个这种通信系统10的简短概述,然而,此处未示出的其他系统也可以利用所公开的方法。
在示出的实施例中,车辆12被描述成运动型多用途汽车(SportsUtility Vehicle,SUV),但是应当理解的是,任何其他包括客车、卡车、摩托车、旅行车(Recreational Vehicle,RV)、海洋船舶、飞机等的交通工具都可以被使用。图2一般性地示出了一些车辆电子设备29,其包括远程信息处理或者电话单元30,该单元通过天线32以及本领域技术人员知晓的其他电路与载波系统34无线地通信。车辆电子设备29还包括声音用户接口14,其包括用于短程无线通信的天线40、麦克风42、一个或多个按键或其他控制输入44、以及一个或多个扬声器46。其他用户接口组件也可以包括在车辆12中,或者作为声音用户接口14的一部分,例如图像显示器(未示出)。声音用户接口14可以是仅通过天线40通信的基本独立的组件集合,或者可以被硬连线或以其他方式连接至车辆电子系统的其他模块或者其他部分,例如连接至电话单元30和/或车辆总线。这可以允许例如车辆12能够被编程,从而通过例如降低气候控制风扇速度或保持车辆无线电静音等来减少语音会话过程中的周围噪声。如此处使用的,术语“声音用户接口”广泛地包括适当安装在车辆中的任意麦克风和扬声器,包括硬件和任何软件组件,它们使车辆用户能够与车辆12或者与车辆12中的其他设备口头地通信,例如移动设备16。麦克风42提供声音输入,该输入可以使用天线40通过短程无线连接被发送。一个或多个按键44允许向声音用户接口中的人工用户输入以开始动作,诸如开始语音会话,在会话中麦克风42和扬声器46被用于在车辆中向用户提供免提服务,从而执行无线电话呼叫或接入数据、提供遥控或者提供消息和通信服务。按键可以处在对于驾驶员来说便利的位置,例如在方向盘的毂或辐条上。扬声器46可以是专用于声音用户接口14的单个扬声器,或者可以与其他组件或系统相集成,例如无线电系统扬声器。
在示出的实施例中,电话单元30是不用于执行语音用户接口(SUI)10的操作的可选组件,然而在其他实施例中,其可以被包括以及作为单个功能模块与声音用户接口14集成。电话单元30可以是OEM安装的(嵌入的)或者安装在车辆中的配件市场设备,其通过无线载波系统34并且经由无线网络实现无线语音和/或数据通信。这使得车辆可以与呼叫中心38、其他启用远程信息处理的车辆、或者一些其他实体或设备来通信。电话单元优选地使用无线电传输,以便与无线载波系统34建立通信信道(语音信道和/或数据信道),从而语音和/或数据传输能够通过该信道发送和接收。通过同时提供语音和数据通信,电话单元30使得车辆能够提供许多不同服务,包括那些有关导航、电话、紧急求助、诊断、信息娱乐等的。数据可以通过数据连接被发送,例如通过在数据信道上进行的打包数据传输,或者经由语音通道使用现有技术中已知的技术传输。对于同时涉及语音通信(例如使用呼叫中心38处的实时顾问或语音响应单元)和数据通信(例如向呼叫中心38提供GPS位置数据或车辆诊断数据)的组合服务,系统可以通过语音信道来使用单个呼叫,并且可以通过语音信道根据需要在语音和数据传输之间切换,并且这可以使用本领域技术人员已知的技术来完成。对于位置服务,电话单元可拥有自己的GPS电路,或者可以利用其他可用的GPS设备,例如作为车辆导航系统一部分而安装在车辆上的GPS设备,或者使用移动设备16的GPS设备。
无线载波系统34优选地是蜂窝电话系统,其包括多个单元发射塔50(仅示出一个)、一个或多个移动交换中心(Mobile Switching Center,MSC)52、以及将无线载波系统34与陆地网络36相连所需的任何其他网络组件。每个单元发射塔50包括发送和接收天线以及基站,来自不同单元发射塔的基站直接地或者经由诸如基站控制器的中间设备与MSC52相连。蜂窝系统34可以实施任何适当的通信技术,包括例如,诸如AMPS的模拟技术、或者诸如CDMA(例如CDMA2000)或GSM/GPRS的较新的数字技术。本领域技术人员将会理解,各种单元发射塔/基站/MSC的布置都是可能的,并且可以与无线系统34结合使用。例如,基站和单元发射塔可以被共同定位在同一地点,或者它们可以相互间在远处定位,每个基站可以负责单个单元发射塔,或者单个基站可以服务各个单元发射塔,并且各个基站可耦合到单个MSC,所提及的是一些可能的安排。
除了使用无线载波系统34,卫星通信形式的不同的无线载波系统可用于提供与车辆的单向或者双向通信。这可以使用一个或多个通信卫星56和上行连接传输站54来完成。单向通信可以是例如卫星无线电服务,其中节目内容(新闻、音乐等)通过传输站54被接收,为了上载而打包,并随后发送至卫星52,卫星将该节目广播至订户。双向通信可以是例如使用卫星56的卫星电话服务,以在车辆12和站54之间中继电话通信。如果已经使用,则卫星电话可作为无线载波系统34的补充或者替代而被使用。
陆地网络36可以是传统的陆基电信网络,其被连接至一个或多个陆上线路电话,并且将无线载波系统34连接至诸如语音服务24、云服务28以及其他计算机或者服务器37的事物上,例如位于住所39或其他设施中的个人计算机。例如,陆地网络36可包括公共交换电话网络(Public Switched TelephoneNetwork,PSTN),从而被用于提供硬连线电话、分组交换数据通信、以及因特网基础设施。陆地网络36的一个或多个部分可以通过使用标准连线网络、光纤或者其他光网络、有线网络、电力线、诸如无线局域网(Wireless Local AreaNetwork,WLAN)的其他无线网络、或者提供宽带无线接入(Broadband WirelessAccess,BWA)的网络、或者上述网络的任意组合来实施。而且,图2所示的各种语音和云服务无需通过陆地网络36连接,但是可以包括无线电话设备,从而其可以直接与无线网络通信,例如无线载波系统34。
计算机37可以是能够通过诸如因特网的专用或公用网络接入的多种计算机之。每个这样的计算机37可用于一个或多个目的,例如一台网络服务器,其能够通过声音用户接口14/移动设备16和/或通过电话单元30在无线载波34上被车辆接入。其他这样可接入的计算机37可以是例如:服务中心计算机,其中诊断信息或者其他车辆信息可以通过电话单元30从车辆上载;客户计算机,其被车辆拥有者或其他远程信息处理服务订户使用,用于存取或接收车辆数据,或者设置或配置订户喜好或控制车辆功能;或者第三方资料档案库,可以提供至其或从其提供车辆数据或其他信息。计算机37还可用于提供因特网连接,例如DNS服务,或者作为网络地址服务器,其使用DHCP或其他适当的协议来向车辆12和/或移动设备16分配IP地址。当被车辆拥有者作为客户计算机37使用时,例如处于住所39内,则可以使用任何适当的短程无线通信技术-例如Bluetooth或任何802.11协议来提供移动设备16和计算机37之间的无线连接。
如图2所示,作为一个云服务的是呼叫中心38,其可用于向车辆操作者和/或车辆电子设备29提供多种不同的与车辆相关的服务和系统后端功能。这些包括诸如路旁或紧急援助、诊断和维护支持、娱乐服务、信息和导航辅助等现有技术中已知的事物。可以提供这些呼叫中心服务以通过语音用户接口10补充对于车辆操作者来说能够接入的那些服务,或者在操作者使用语音用户接口有困难的情况下作为一个备选方案。
虽然在图1和2中仅作为示意图显示在车辆外面,然而作为语音用户接口10一部分的移动设备16的典型使用将涉及移动设备位于车内的情形,例如当驾驶员在路面上操作车辆时。图3中描绘了移动设备16的一些基本功能硬件或者软件组件。根据所示的实施例,移动设备16是一台智能电话,其依据GSM和/或CDMA标准来使用蜂窝通信,并因此包括用于语音和数据通信的标准蜂窝芯片61和天线62、天线63和64、以及它们各自的与Bluetooth和WiFi无线链接相关的电路、电子处理设备65、一个或多个数字存储器设备66以及GPS接收机67。
处理器65可以是能够处理电子指令的任意一种设备,包括微处理器、微控制器、主处理器、控制器、车辆通信处理器、以及专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)。处理器65执行各种类型的数字存储指令,例如储存在存储器66中的软件或者固件程序。这包括设备OS26、移动车辆平台18、以及任何已安装的app 68、所有这些都可以储存在存储器66中。
GPS模块67从GPS卫星的星座58接收无线电信号。模块67可以通过这些信号确定移动设备的位置,该位置用于提供导航和其他位置相关的服务。导航信息可以呈现在设备的显示器69上,或者通过设备自身的扬声器(未示出)或通过声音用户接口14被口头地呈现,例如可以通过提供交互式(turn-by-turn)导航来实现。
通常,可以使用在设备OS26上运行的、并与已安装的app 68接口的移动语音平台18、云服务28、或者以上两者来部分地实现语音用户接口10,以基于它们的语音输入来执行用户的服务。图4和5示出了移动语音平台以及它与移动设备16其他组件之间的交互的进一步细节。
图4示出了不同的程序模块,每个模块都提供计算机指令,在被处理器65执行时,该指令使用设备OS26执行它们已编程的功能,以与设备16的不同硬件部分进行交互。移动语音平台18包括语音平台内核(Speech PlatformKernel,SPK)20以及app接口组(App Interface Suite,AIS)22。SPK20包括用于启动服务呼叫的app启动程序模块21,该服务呼叫从SPK20到设备上的服务(例如app 68的其中之一)或者到云(例如云服务28的其中之一)中的服务。AIS22包括多个独立的应用服务接口23,它们每个都与对移动语音平台18而言可用的一个不同服务相关联。下文是由不同层执行的独立功能:
设备OS26:
●提供与Bluetooth的下层通信以及设备连接控制
●提供移动设备媒体播放器功能,用于使声音文件通过扬声器来播放
●提供麦克风驱动的语音识别系统,用于将口头语音转换成文本等同物
●提供应用程序之间的通信机制
语音平台内核20:
●管理与车辆12的所有高层Bluetooth集成
●提供一致的词汇表和机制,用于处理普通的语音交互,例如失败、重复(并没有很理解您)、以及退出
●将转换后的语音至文本处理为由app使用的命令结构
●维护与Bluetooth设备相关的高层app偏好,请求管理
●提供日志和安全管理
●维护对声音和麦克风信道的控制,包括适当时间的声音焦点和增益水平
服务接口23:
●使用标准化的命令/参数/I/O协议来与SPK交互
●定义其支持的用于初始化的语法
●当app激活时定义其支持的语法
●处理由SPK20提供的进入的语音至文本命令结构,以及将它们转换成期望的动作
●与云服务连接,以便发送和接收处理请求所需的信息
●提供任意期望的设备显示器69用户接口
如图4所示和上面所指出的,SPK20运行在操作系统26的顶端,并且操纵整体控制和路由用于移动语音平台的消息。根据上文联系图1讨论的以及在图6-8中示出的方法,SPK20控制语音会话的基本处理流程。在语音会话期间,其中接收来自用户的输入(例如请求或者命令),SPK20操纵语音识别结果的语音处理,该结果由基于云的自动语音识别(ASR)服务所返回。这可以使用ASR之后的、使用词汇表专门设计的识别语法服务来完成,该词汇表为了从语音识别结果中标识出期望的服务和会话上下文。内置在这个功能内的是错误的处理,以及自然语言响应的建立,用于将语音响应返回给用户。会话上下文(例如,导航v.消息v.餐饮预定)也可在SPK20处使用该第一语法来确定,并且该会话上下文可用于进一步限制SPK20所选的服务选项,或者辅助语音识别结果的ASR之后的处理。每一个语音会话具有至少一个上下文,即,与用户语音输入相关的至少一个主题领域。图1和2所示的不同云服务指示可以被识别和区分的不同的会话上下文中的一些。对于任意语音会话,可以具有一个主会话上下文和一个或多个副服务上下文。例如,餐饮预定可能激活餐饮会话上下文,其中查找的主消息内容包括餐馆的标识、宴会上的人数、预定时间等。但是,它也会激活导航上下文,其中去往餐馆的方向被期望提供。或者消息上下文,其中预定的通知被分享给其他人。如果合适的话,SPK20不仅确定主会话上下文,而且还确定一个或多个副会话上下文,并且对于每个上下文都标识一个合适的云或者已安装服务。
在图1和2中标识的语音服务可以各种方式来实施,并且在一些实施例中可以被唯一地设计或者包含设计为用于支持语音用户接口10的特定语法或者模型。在其他实施例中,使用了已普及的云ASR服务,即,在其中的一个中,虽然允许对于语音识别引擎的特定语言模型和其他常规配置进行参数规定,然而其却并不使用为用户语音会话所期望的会话上下文而定制的语法。来自Google可用的Android语音功能就是已普及的云ASR服务的一个例子。
一旦SPK20已经识别或者已经以其他方式确定了期望的服务,它就通过与该服务相关联的服务接口23来使用APP Init 21启动所选服务。如图4所示,一些服务接口23仅仅与云服务相交互,或者仅仅与云服务和设备用户接口(例如,显示器69)相交互,然而其它接口与已安装的app(例如app4)交互,这些app本身可以使用操作系统对云服务的接口来接入云服务。这允许每个服务接口根据期望执行所选的服务,使得例如如果特定的服务期望使用移动设备的显示器69,则服务接口可以定义将被显示的特定用户接口。
现在转至图5,该图示出了服务接口23的进一步细节。每个服务接口23包括SPK消息结构接口,该接口遵循由SPK20使用的标准化I/O协议,用于向服务接口发送消息。这为与移动语音平台的交互提供了共同的框架,使得在向SPK20识别呼叫和接收服务结果所需的命令和参数的同时,可以通过创建服务接口来接入新的服务,该新的服务接口符合SPK20 I/O的规定。服务接口包括命令处理,该命令处理使用特定于服务的语法来构建服务请求,并随后通过OS26向云服务或者已安装的app发送该服务请求。服务请求通常将包括来自服务接口的任何所需的命令,加上至少一部分已识别的语音结果(例如,特定的餐馆名称)或相关数据(例如,GPS坐标)。特定于服务的语法包括用于初始化和命令服务的词汇表,并且对每一个不同的基于计算机的服务通常将是不同的。
SPK20的App Init模块21可以通过与服务接口相同的结构来实现,除了它是一个特殊用途的接口,其被SPK20用于联系已选定的服务接口来启动服务以及传递服务所使用的必需命令和参数。
图6示出了一个完整语音会话的流程图,其可用于提供车辆中驾驶员对于移动设备的免提或者甚至是完全免提操作。
图7和8提供了完整语音会话的更多的详细例子,其中示出了各种模块间和设备间的呼叫和顺序,以便请求服务、获取结果、以及将其提供给车辆驾驶员,所有这些都通过声音用户接口14进行。
图9示出了软件架构设计的一个替代实施例,其中相同的附图标记代表与图4中相同的元件。移动语音平台的这个实施例118类似于图4,因为其包括第一程序模块(SPK 120)以及第二程序模块(AIS 122),然而却使用了单独的服务接口123来定义与服务接口相关的特定服务所需的语音流。这使用脚本来完成,该脚本定义了语音识别结果的处理、向云(基于计算机的)服务的呼叫、以及对额外最少必需的信息或者其他期望信息的处理。例如,请求在下午6:00在特定餐馆的一个餐饮预定遗漏了被认为是最少必需的信息;即,宴会的人数。与被请求的餐饮预定服务相关联的服务接口123可包括编程,以确定遗漏的信息以及提供由SPK120所提供的响应消息(例如,“您的宴会上有多少人”),用于通过OS26转换成语音并呈现给用户。
服务接口123的操作可以通过app执行引擎125的方式进行,该引擎可以为服务接口提供运行时的执行环境。SDK(软件开发商组件,SDK)-定义的协议127提供一组标准的或者共同的输入/输出标签,或者在SPK120和服务接口123之间传递的数据和命令的其他标识。这可以例如使用VXML来完成,其中SPK120使用SDK协议127加标签于已接收的语音识别结果的单独部分,并且在一些实施例中可以将它们转换成更小的词汇表,该词汇表至少部分地在服务接口之间分享。例如,“区域内的餐馆”作为语音输入可以分解成被标记为期望的服务或者会话上下文的“餐馆”以及被转换(正如这样的其他普通的位置术语-“在周围”、“我附近”等)成单个术语“附近”的“在区域中”,该术语被所有的服务接口所支持,对于这些服务接口,位置被用于执行服务。
服务接口123中的一个可以是语音会话声音流(Speech Session VoiceFlow,SSVF)121,其可以执行与图4的App Init 21相同或相似的功能。因此,当开始一个语音会话时(例如通过用户直接对移动设备16的输入,或者通过车辆中按键的按下,其用于经由移动设备16的短程无线通信电路63向移动设备16发送信号),SPK120最初可以激活SSVF脚本,该脚本定义了与用户的语音会话通信的语音流程。例如,它可规定使用“请说出一个命令”的声明来提示用户,并且随后可以定义一直基于响应所采取的动作,直到标识出期望的服务并且激活了相关的服务接口。
附图中示出的各种程序模块可以作为计算机指令被储存在移动设备16上的一个或多个非瞬态存储器66中(例如闪存),在被处理器65执行时,该指令执行上述功能。在其他实施例中,至少一些程序模块可以被远程储存,例如存储在远程服务器或其他计算机上并且在需要的时候被访问。例如,如图10所示,app接口组(AIS)122可以被储存在远程位置,例如呼叫中心38,或者在一些其他远程设施或计算机上。然后,当SPK120需要任何服务接口时,例如在开始语音会话处的SSVF121,它可以通过蜂窝载波系统34远程地访问服务接口、下载它、并使用app执行引擎125在移动设备16处本地运行它。类似地,一旦标识出期望的服务,相关服务接口123可以被远程地访问,下载至移动设备,并且再次运行以执行期望的服务,包括生成用于与特定远程的基于计算机的服务(例如,通过服务API)交互所需的服务请求。服务接口的这种远程储存的优点是,它们可以按照期望来被维护和更新,然而如果它们被正常地储存在移动设备上,它们将需要被周期地更新,而这对于一些移动设备平台来说可能每次需要获取用户的同意。通过远程储存,如果对于服务接口做出一个改变(例如因为改善了相关的服务),则仅需要更新呼叫中心或者其他远程位置处的单个版本,并且在每次使用该服务来提供语音命令或者请求的时候,用户都将接收到最新的版本。这也允许由服务接口定义的语音交互可以按照期望被更新,使得比如如果期望将SSVF121从说出“请说一个命令”改变至“今天我能帮您做什么?”,那么这将返回至呼叫中心来完成,再次无需用户每次在他们的移动设备上进行软件更新。
应该理解的是,前面的内容是对本发明的一个或多个实施例的描述。本发明并不限于此处公开的特定实施例,而是仅仅由下面的权利要求限定。此外,前面的描述中所包含的声明涉及的是特定实施例,并且不应解释为对本发明的范围的限制,或者对权利要求所使用的术语的定义的限制,除了术语或者短语在上面被明确地定义。各种其他实施例和对所公开的实施例的各种改变或变更对于本领域技术人员来说是显而易见的。所有这些其他实施例、改变和变更将落入所附加权利要求的范围之内。
如在本说明书和权利要求书中所使用的,术语“例如”、“比如”、“举例”、“诸如”以及“像”,以及动词“包含”、“具有”、“包括”以及它们的其他动词形式,当其与一系列单个或多个组件或其他零件结合起来使用时,每个都将被解释成开放式的,意指该列举不被认为是排除了其它的、附加的组件或者零件。其他术语也应被解释成使用它们最广泛的合理含义,除非它们用在需要不同解释的上下文中。

Claims (8)

1.一种使用设备为基于计算机的服务提供用户语音接口的移动语音平台,该设备具有处理器、提供基于计算机的服务的接入的通信电路、操作系统、以及一个或多个应用程序,该应用程序使用操作系统运行并且通过通信电路使用一个或多个基于计算机的服务,该移动语音平台包括:
至少一个非瞬态的数字储存媒介,其储存了第一和第二程序模块,其中所述第一程序模块包括计算机指令,在被处理器执行时,该计算机指令接收语音识别结果,该语音识别结果代表已经使用自动语音识别处理过的用户语音,该计算机指令还基于语音识别结果确定期望的服务,并且向第二程序模块提供至少一些语音识别结果;
其中,第二程序模块包括计算机指令,在被处理器执行时,该计算机指令基于由第一程序模块提供的语音识别结果生成服务请求、向一个或多个基于计算机的服务提供服务请求、从基于计算机的服务获取服务结果、以及给第一程序模块提供基于服务结果的响应。
2.如权利要求1所述的移动语音平台,其中第二程序模块包括与特定的基于计算机的服务相关联的服务接口,该服务接口具有特定于服务的语法,该语法包括用于与该特定的基于计算机的服务交互的命令和/或参数。
3.如权利要求2所述的移动语音平台,其中该服务接口使用特定于服务的语法和第一程序模块提供的至少一部分语音识别结果来生成服务请求。
4.如权利要求2所述的移动语音平台,进一步包括多个服务接口,每个服务接口均与不同的基于计算机的服务相关联,并且每个服务接口均提供用于与和其相关联的基于计算机的服务交互的命令和/或参数。
5.如权利要求4所述的移动语音平台,其中每个服务接口利用公共的输入/输出协议来与第一程序模块通信。
6.如权利要求2所述的移动语音平台,其中该服务接口通过与基于计算机的服务相关联的应用编程接口向特定的基于计算机的服务发送服务请求。
7.如权利要求1所述的移动语音平台,其中该第二程序模块包括定义了用于该设备的用户接口的指令。
8.如权利要求1所述的移动语音平台,其中该设备包括具有短程无线通信电路和蜂窝无线通信电路的移动电话,并且其中第一程序模块用于基于通过短程无线通信电路发送至该设备的语音来接收语音识别结果,并且通过短程无线通信电路发送基于文本的服务响应,该基于文本的服务响应在发送响应之前被转换成语音。
CN2012105584452A 2011-10-21 2012-10-19 移动语音平台架构 Pending CN103123621A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201161550362P 2011-10-21 2011-10-21
US61/550362 2011-10-21
US13/628766 2012-09-27
US13/628,766 US20130103404A1 (en) 2011-10-21 2012-09-27 Mobile voice platform architecture

Publications (1)

Publication Number Publication Date
CN103123621A true CN103123621A (zh) 2013-05-29

Family

ID=48136690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105584452A Pending CN103123621A (zh) 2011-10-21 2012-10-19 移动语音平台架构

Country Status (3)

Country Link
US (1) US20130103404A1 (zh)
CN (1) CN103123621A (zh)
DE (1) DE102012219020A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111147530A (zh) * 2018-10-16 2020-05-12 深圳市冠旭电子股份有限公司 系统架构、多语音平台的切换方法、智能终端及存储介质
CN111902863A (zh) * 2018-03-13 2020-11-06 三星电子株式会社 用于处理用户语音输入的装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159322B2 (en) 2011-10-18 2015-10-13 GM Global Technology Operations LLC Services identification and initiation for a speech-based interface to a mobile device
US9183835B2 (en) 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
US9326088B2 (en) 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
US9318128B1 (en) * 2013-01-08 2016-04-19 Google Inc. Methods and systems for determining instructions for applications that are recognizable by a voice interface
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
DE102018133149A1 (de) * 2018-12-20 2020-06-25 Bayerische Motoren Werke Aktiengesellschaft Multimodale Mehrstufeninteraktion

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101951553A (zh) * 2010-08-17 2011-01-19 深圳市子栋科技有限公司 基于语音命令的导航方法及系统
CN102202082A (zh) * 2011-03-15 2011-09-28 深圳市子栋科技有限公司 车载通信系统及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2198758T3 (es) * 1998-09-22 2004-02-01 Nokia Corporation Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz.
US7257426B1 (en) * 1999-05-26 2007-08-14 Johnson Controls Technology Company Wireless communications systems and method
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US20030030666A1 (en) * 2001-08-07 2003-02-13 Amir Najmi Intelligent adaptive navigation optimization
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
US20070027848A1 (en) * 2005-07-29 2007-02-01 Microsoft Corporation Smart search for accessing options
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8355711B2 (en) * 2008-07-25 2013-01-15 Zerotouchdigital Collaborative computing for mobile devices
WO2011082340A1 (en) * 2009-12-31 2011-07-07 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101951553A (zh) * 2010-08-17 2011-01-19 深圳市子栋科技有限公司 基于语音命令的导航方法及系统
CN102202082A (zh) * 2011-03-15 2011-09-28 深圳市子栋科技有限公司 车载通信系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111902863A (zh) * 2018-03-13 2020-11-06 三星电子株式会社 用于处理用户语音输入的装置
CN111902863B (zh) * 2018-03-13 2024-04-26 三星电子株式会社 用于处理用户语音输入的装置
CN111147530A (zh) * 2018-10-16 2020-05-12 深圳市冠旭电子股份有限公司 系统架构、多语音平台的切换方法、智能终端及存储介质
CN111147530B (zh) * 2018-10-16 2022-10-21 深圳市冠旭电子股份有限公司 多语音平台的系统、切换方法、智能终端及存储介质

Also Published As

Publication number Publication date
DE102012219020A1 (de) 2013-05-29
US20130103404A1 (en) 2013-04-25

Similar Documents

Publication Publication Date Title
CN103095325B (zh) 具有远程服务接口的移动语音平台架构
CN103067443B (zh) 用于接到移动设备的基于语音的接口的服务识别和启动
CN103152702B (zh) 用于移动设备的基于语音的用户接口
CN103123621A (zh) 移动语音平台架构
US9679562B2 (en) Managing in vehicle speech interfaces to computer-based cloud services due recognized speech, based on context
US9583100B2 (en) Centralized speech logger analysis
US8909153B2 (en) Vehicle communications using a mobile device
US10679620B2 (en) Speech recognition arbitration logic
US20120231821A1 (en) Vehicle telematics communication for providing hands-free wireless communication
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
JP2020529044A (ja) 選択システム及び選択方法
US20120219142A1 (en) Call transfer process and system
CN103124318B (zh) 开始免提会议呼叫的方法
EP1661122A1 (en) System and method of operating a speech recognition system in a vehicle
US20090249323A1 (en) Address book sharing system and method for non-verbally adding address book contents using the same
CN102281369A (zh) 使用车辆远程信息处理单元在多方呼叫期间的远程车辆数据访问
US20150006182A1 (en) Systems and Methods for Dynamic Download of Embedded Voice Components
CN103428623A (zh) 活动顶篷式交通工具中的声音参数之间的切换
CN105609109A (zh) 混合式自动语音识别
US20170169823A1 (en) Method and Apparatus for Voice Control of a Motor Vehicle
CN107070962A (zh) 用于移动装置模拟车辆人机界面的方法和系统
CN105025075B (zh) 采用来自移动设备的内容更新交通工具音响单元
CN109785827A (zh) 在语音识别仲裁中使用的神经网络
CN109671424A (zh) 车辆特征的响应激活
CN104023306A (zh) 对汽车sim卡不从车辆移除而供应

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130529