CN1943218A

CN1943218A - 多模态嵌入界面的可替换定制的方法和设备

Info

Publication number: CN1943218A
Application number: CNA2005800110532A
Authority: CN
Inventors: 丹尼尔·L·罗森; 迈克尔·埃金顿; 威廉姆·巴顿; 劳伦斯·S·吉利克
Original assignee: Voice Signal Technologies Inc
Current assignee: Voice Signal Technologies Inc
Priority date: 2004-02-17
Filing date: 2005-02-15
Publication date: 2007-04-04
Also published as: US20050203729A1; KR20070002017A; JP2007525897A; WO2005081508A1; EP1719337A1

Abstract

根据本发明的一些方面，移动语音通信设备包括发射和接收听觉信息和数据的无线收发器电路，处理器，和存储可执行指令的存储器，当在处理器上执行时，所述可执行指令使移动语音通信设备向移动语音通信设备的用户提供与用户界面相关的可选个性。可执行指令包括在所述设备上实现采用具有可选个性的不同用户提示的用户界面，其中所述多个用户提示的每个可选个性被定义和映射到存储在移动语音通信设备的至少一个数据库中的数据。移动语音通信设备包括识别用户口头输入并提供识别的对应单词的解码器，和合成与识别的单词对应的单词的语音合成器。所述设备包括或者无线传送给所述设备，或者通过计算机接口传送的，或者以存储卡的形式提供给所述设备的用户可选个性。

Description

多模态嵌入界面的可替换定制的方法和设备

技术领域

本发明涉及具有语音识别能力的无线通信设备。

背景技术

许多移动通信设备，比如蜂窝电话机(这里意味着至少包含执行电话机或语音通信功能的数据处理和设备)具备语音辅助的界面特征，所述界面特征使用户可通过说出调用某一功能的表述而访问该功能。一种常见的例子是语音拨号，藉此用户对电话机说出姓名或者其它预先存储的表述，电话机通过拨打与该姓名相关的号码作出响应。在备选方案中，显示器和小键盘向用户提供键入文本串的可视界面，电话机响应于所述文本串。

为了验证将被拨打的号码或者要调用的功能是否确实是用户想要的号码或功能，移动电话机可向用户显示确认消息，如果正确的话则允许用户继续下去，如果不正确的话则异常中断该功能。存在用于与移动电话机交互作用的听觉和/或视觉用户界面。与视觉确认和界面相比，听觉确认和其它用户界面便于更加免除用手的操作，例如希望始终注视道路而不是查看电话机的驾驶员可能需要这样的操作。

在移动电话机中，语音识别被用于识别电话机的用户说出的短语、单词、声音(这里一般指的是语调)。于是，语音识别有时用在电话簿应用中。在一个例子中，电话机对识别的口述姓名报以通过电话机的扬声器输出表现的听觉确认。当收到该重放时，用户接受或拒绝电话机的识别结果。

这些界面(听觉界面和视觉界面)的一个特征在于它们都具有个性，不论是设计的还是无意的。就现有的商用设备(例如三星i7000设备)来说，蜂窝电话机的内部语音具有被描述成“女士”的个性。多数目前的设备都是非常类似于事务的，具有扼要并且通常缺乏语调的短暂提示，比如“please”、“thank you”或者甚至“like”。

发明内容

根据本发明的一些方面，移动语音通信设备包括发射和接收听觉信息和数据的无线收发器电路，处理器，和存储可执行指令的存储器，当在处理器上执行时，所述可执行指令使移动语音通信设备向移动语音通信设备的用户提供与用户界面相关的可选个性。可执行指令包括在所述设备上实现采用具有可选个性的不同用户提示的用户界面，其中所述多个用户提示的每个可选个性被定义，并且被映射到存储在移动语音通信设备的至少一个数据库中的数据。移动语音通信设备包括识别用户口头输入并提供识别的对应单词的解码器，以及合成与识别的单词对应的单词的语音合成器。解码器包括语音识别引擎。移动通信设备是蜂窝电话机。

移动语音通信设备包括具有发音数据库，合成器数据库和用户界面数据库之一的至少一个数据库。发音数据库包括代表字母-音素转换规则和/或多个特殊单词的清楚发音，以及语音修改规则的数据。合成器数据库包括代表音素-声音转换规则，速度控制和/或音调控制的数据。用户界面数据库包括代表预先记录的听觉提示、与听觉提示相关的文本、屏幕图像和动画脚本的数据。收发器电路具有音频输入装置和音频输出装置。可选个性包括独特的语音、口音、单词选择、语法结构和隐式包含。

本发明的另一方面提供了一种操作包含语音识别能力的通信设备的方法，包括在设备上实现采用多种不同的用户提示的用户界面，其中不同用户提示的每个用户提示或者用于向用户请求对应的口头输入，或者将设备的动作或状态通知用户，每个用户提示具有出自多种不同个性中的一个可选个性。所述多种不同个性中的每个个性被映射到不同用户提示中的一个不同的对应用户提示；当设备的用户选择任意一种个性时，所述方法包括产生被映射到所选个性的用户提示。所述多种用户提示中的每种用户提示具有对应的语言表现，并且当产生所选个性的用户提示时，还通过用户界面产生对应的语言表现。所述方法还包括当通过设备的用户界面产生对应的语言表现时，还可听见地向具有所选个性的用户提供所述语言表现。

所述方法包括实现具有不同用户提示的多个用户可选模式，每种不同的用户提示具有不同的个性。移动通信设备包括当通过随机地转换个性，从而随机选择用户界面的个性时，还能够向用户呈现多种个性，从而近似“精神分裂型”的(schizophrenic)电话设备的用户可选模式。用户可选个性可被无线传送给移动通信设备，通过计算机接口传送，或者当嵌入存储装置时被提供给移动通信设备。

一般来说，在另一方面，本发明的特征在于一种方法，所述方法包括：在数据存储器中存储多个个性数据文件，每个个性数据文件配置一种模仿对应的一种不同个性的许可语音的应用；

从用户接收对选择的一个个性数据文件的电子请求；向用户请求对所选个性数据文件的支付义务(payment obligation)；响应从用户收到支付义务，以电子方式将选择的个性数据文件传送给用户，以便安装在包含许可语音的应用的设备中。

如附图中所示，根据本发明的实施例的下述更详细说明，本发明的上述特征和优点将变得明显。

附图说明

图1是图解说明用于这里描述的定制方法的功能组件的例证蜂窝电话机的方框图。

图2是表示将“个性”下载到蜂窝电话机的进程的流程图。

图3是表示用户如何配置蜂窝电话机，从而具有选择的“个性”的流程图。

图4A和4B是表示具有定制个性的语音拨号器流程的流程图。

图5A和5B是表示具有随意说话的南方人的定制个性的语音拨号器流程的另一例子的流程图。

图6是可实现这里描述的功能性的例证蜂窝电话机的方框图。

具体实施方式

移动语音通信设备，比如蜂窝电话机以及其它的连网计算设备具有可被描述成具有特定个性的多模态界面。由于这些多模态界面几乎只是软件产品，因此能够向内部进程赋予个性。这些个性特征由设备的用户界面表明，并且可以是名人、或者政治家、喜剧演员、或者卡通人物。设备的用户界面包括提供音频提示的听觉界面，以及提供显示在设备显示器上的文本串的视觉界面。所述提示可用特殊的语音记录和重复，例如“Mickey Mouse”，“John F，Kennedy”，“Mr.T”等。提示也可被赋予特殊的口音，例如波士顿口音、印弟安口音或者南方口音。

移动电话设备使用语音识别器电路，语音合成电路、逻辑、嵌入式数据结构和预先记录的提示的变化，脚本和图像来定义设备的个性，设备的个性又向多模态界面提供特殊的个性。这里描述的方法和设备目的在于提供多模态界面的定制，从而提供由移动通信设备表现的个性的定制。

图1是图解说明用于这里说明的定制方法的功能组件的例证蜂窝电话机的方框图。系统10包括输入、输出、处理和数据库组件。蜂窝电话机使用音频系统18，音频系统18包括输出扬声器和/或头戴耳机20和输入麦克风22。音频输入设备或麦克风22接收用户的口头话语。输入麦克风22将接收的音频输入信号提供给语音识别器2。语音识别器包括声学模型34，声学模型34是每个音素的声学参数的概率表示。正是语音识别器识别用户输入(口头话语)，并将识别的单词(文本)提供给发音模块14。发音模块再将输入提供给语音合成器12。识别的单词也作为文本串被提供给视觉显示设备。

发音模块14建立输出信号的声学表示，并将该声学表示提供给语音识别器。发音模块14包括数据库，所述数据库其中存储有字母-音素转换规则和/或特殊单词的清楚发音，可能还存储有语音修改规则。发音模块14的不同数据库中的数据可被改变，以反映用户界面表现的个性。例如，关于具有南方口音的个性的字母-音素转换规则不同于关于具有英国口音的个性的字母-音素转换规则，数据库可被更新，以反映为电话机选择的个性的语音/口音。

语音合成器12利用编程到系统处理器中的指令，合成所识别单词的音频形式。合成器12从合成数据库30访问音素-声音转换规则，速度控制和音调控制。合成器数据库中的数据可被改变，以表现可配置用户界面表现的不同个性。

此外，一些用户界面输出可被预先记录和存储在用户界面数据库38中，以便由蜂窝电话机再调用。该用户界面数据库包括音频提示，例如“say a command please”，与音频提示相关的文本串，屏幕图像，例如背景，和动画脚本。用户界面数据库38中的数据可被改变，以表现与用户选择的不同个性相关的不同提示，屏幕显示和脚本。

不同数据库，比如用户界面数据库38，合成器数据库30和发音模块14数据库中的数据随后被用于定义多模态界面的个性，并且共同定义移动设备的个性。

通过改变视觉提示，能够进一步使与移动设备相关的个性个人化。与屏幕提示相关的文本可以是可编辑的或可改变的，如同提示的实际用语那样。

另外可改变记录的提示和语音合成器的韵律(prosody)，从而根据用户的偏爱，显露移动通信设备的情结，比如“生气”或“欢乐”。可具有个性的其它应用包括MP3播放器和提供的下载信息的一组运营商命令。

由于电话机中的语音处理是数据驱动的，因此完整的个性可被引入移动设备中的语音和/或视觉界面中。“个性特征”的各个部分，即，提示、合成器用模型、可能还有移动设备中文本消息的修改可被打包到可下载对象中。可通过计算机接口，或者通过标准的蜂窝电话信道或者利用不同的无线协议，例如蓝牙，或者红外协议或宽带无线电(IEEE 802.11或WiFi)无线地得到该对象。移动设备可以将一种或多种个性作为初始配置存储在其存储器中。如果移动设备存储一种以上的个性，那么用户或运营商可选择要使用的个性。在备选方案中，个性可被存储在可由用户购买的可替换的存储卡上。

参见图2，根据一个实施例，用户通过建立与以可下载的形式提供“个性”(非常类似于振铃音可被下载到蜂窝电话机中)的第三方的连接，获得“个性”(步骤300)。这可利用已知的技术按照各种方式来实现，例如包括通过利用WAP协议(无线应用协议)在蜂窝电话机上可用的浏览器，或者通过上面提及的任意其它通信协议。或者可通过使用中间计算机来实现，所述中间计算机建立与第三方的通信链路，随后将接收的“个性”文件传送给蜂窝电话机。

在建立连接之后，第三方在蜂窝电话机的显示器上显示一个界面，所述界面使用户能够从较大的一组可用个性中选择一种或多种“个性”(步骤302)。在用户选择一种个性之后，该选择被发送给第三方(步骤304)，第三方随后向用户索要付款信息(步骤306)。这可以采取对向用户提供的信用卡收费的授权的形式。为了完成该交易，用户提供所请求的授权或付款信息。当接收到付款信息时(步骤308)，第三方随后开始通过相同的通信链路将“个性”文件传送到蜂窝电话机(步骤310)。在传送完成之后，连接被终止(步骤312)。

一种方法是简单地用下载的新的备选个性替换电话机中的一种个性。这种情况下，蜂窝电话机将具有单一的个性，即，最后装入电话机中的那种个性。另一种方案是将多种个性存储在电话机内，从而使用户能够通过电话机上的界面选择将要使用的个性。其优点在于向用户提供更有趣的体验，但是它也要求电话机中的更大的数据存储器。

图3表示包括多种个性的蜂窝电话机的操作的流程图。在这种电话机中，用户或者在购买时，或者通过随后的下载，将多种个性中的每种个性的数据文件安装到内部存储器中(步骤320)。当用户想要改变电话机的个性时，他只是调用使他能够改变电话机的配置的用户界面。作为响应，电话机在其LCD上显示使用户能够选择已安装到存储器中的多种个性之一的菜单界面(步骤322)。当收到用户的选择时(步骤324)，电话机随后激活选择的“个性”(步骤326)。

图4A和4B表示具有定制个性的语音拨号流程的一个例子。在步骤92中，标准用户界面(UI)接收来自用户的提示，例如按键按压，从而启动任务。在步骤94中，UI在UI数据库中查寻起动命令。在步骤96中，UI在设备的显示屏幕上提供起动文本串“say acommand”。随后在步骤98中，UI通过输出扬声器播放音频记录“saya command”。在步骤100中，UI告诉语音识别器注意收听命令。在步骤102中，识别器监听输入麦克风。在步骤104中，语音识别器接收音频输入“John Smith”。在步骤106中，语音识别器随后比较音频输入与电话簿数据库中的所有姓名，并选择与“John Smith”最接近的一个姓名。在步骤108中，语音识别器将最佳匹配者返回给标准UI。在步骤110中，UI将姓名传送给合成器。在步骤112中，合成器利用合成器数据库查寻姓名发音。在步骤114中，合成器根据发音产生输出音频，并通过输出扬声器播放。在步骤116中，UI将该姓名写到屏幕上。在步骤118中，UI查寻关于确认的提示，随后在步骤120中，UI通过输出扬声器向用户播放确认提示和姓名(“Did you say JohnSmith？”)。在步骤122中，UI打开识别器。在步骤124中，用户说“是”，随后在步骤126中，识别器听到单词“是”。在步骤128中，UI在电话簿数据库中查寻John Smith的电话号码，随后在步骤130中利用该电话号码拨号呼叫John Smith。

图5A和5B表示具有说话随机的南方人的定制个性的语音拨号器流程的另一例子。在步骤152中，标准UI接收来自用户的按键按压，从而启动任务。在步骤154中，UI在UI数据库中查寻起动命令。在步骤156中，UI在屏幕显示上提供起动文本串“What Do YouWant？”。在步骤158中，UI用南方人拉长调子的话音通过输出扬声器播放音频记录“Whadddays Want？”。在步骤160中，UI告诉语音识别器注意听命令。在步骤162中，识别器打开并监听输入麦克风。在步骤164中，语音识别器接收音频输入，比如“John Smith”。在步骤166中，语音识别器比较音频输入与电话簿数据库中的所有姓名，并选择最接近的一个姓名。在步骤168中，语音识别器将最佳匹配者返回给标准UI。在步骤170中，UI随后将姓名传送给语音合成器。在步骤172中，语音合成器利用合成器数据库查寻姓名的发音。在步骤174中，合成器根据发音产生输出音频，并通过输出扬声器用南方人拉长调子的话音播放“John Smith”。在步骤176中，UI将该姓名写到屏幕上。在步骤178中，UI查寻关于确认的提示。随后在步骤182中，UI通过输出扬声器向用户播放确认提示和姓名“D′jou say JohnSmith？”。类似于参考图2B说明的流程图，UI随后打开识别器(步骤182)，用户通过说“是”进行确认(步骤184)，语音识别器听到“是”(步骤186)。在步骤188中，UI在电话簿数据库中查寻John Smith的电话号码，随后在步骤190中UI利用电话簿数据库中的电话号码拨号呼叫John Smith。

其上可提供这种功能性的典型平台是智能电话机200，例如在图6中以高级方框图图解说明的智能电话机200。该平台是存在其在嵌入式应用软件的蜂窝电话机，所述嵌入式应用软件包括定制电话机的个性，从而定制多模态界面的个性的相关功能。这种情况下，除了其它程序之外，应用软件包括使用户能够访问关于电话机的信息(例如，识别的个人的电话号码)，以及通过口头命令控制蜂窝电话机的语音识别软件。语音识别软件还包括呈语音到文本功能形式的增强功能，所述语音到文本功能使用户能够通过口语将文本输入电子邮件消息中。

在所描述的实施例中，智能电话机200是MicrosoftPocketPC-powered电话机，在其核心，它包括用于处理蜂窝通信功能，例如话音频带和信道编码功能的基带DSP 202(数单词信号处理器)，和其上运行PocketPC操作系统的应用处理器204(例如，IntelStrongArm SA-1110)。电话机支持GSM语音呼叫，SMS(短消息服务)文本消息接发，无线电子邮件和类似桌面的web浏览以及更传统的PDA特征。

发射和接收功能由后面是通过天线212处理末级RF发射任务的功率放大器模块210的RF合成器206和RF无线电收发器208实现。接口ASIC 24(专用集成电路)和音频CODEC 216(编码器/解码器)向扬声器、麦克风，和设置在电话机中的其它输入/输出装置，比如输入命令和信息的数单词或字母数单词小键盘(未示出)提供接口。

DSP 202使用快速存储器218来存储代码。Li-Ion(锂离子)电池220对电话机供电，与在DSP 202耦接的电源管理模块222管理电话机内的能耗。分别以SDRAM 224(同步动态随机存取存储器)和快速存储器226的形式提供供应用处理器214用的易失性和非易失性存储器。存储器的这种安排被用于存储操作系统的代码，可定制特征，比如电话目录的代码，以及可包括在智能电话机中的任何应用软件，包括下面提及的语音识别软件的代码。智能电话机的视觉显示装置包括驱动LCD显示器230的LCD(液晶显示器)驱动芯片228。还存在同电话机内的其它装置提供时钟信号，以及提供实际时间的指示符的时钟模块232。

所有的上述组件被封装在恰当设计的外壳234内。

由于这里描述的智能电话机代表可从市场获得的许多不同智能电话机的一般内部结构，并且由于这些电话机的内部电路设计一般为本领域的普通技术人员已知，因此将不提供有关图6中所示的组件和它们的操作的更多细节，并且所述细节不是理解本发明所必需的。

电话机的内部存储器包括操作电话机和支持其各种功能的所有相关代码，包括在图中以方框图的形式表示的语音识别应用软件的代码240。语音识别应用包括用于其基本功能的代码242，以及用于增强功能的代码244，这种情况下，所述增强功能是语音到文本功能244。用于这里描述的多模态嵌入界面方面的可替换定制的可执行指令的代码或序列被存储在通信设备的内部存储器中，因而可在具有应用处理器的任何电话机或设备上实现。

鉴于本发明的原理可适用的各种实施例，应明白举例说明的实施例只是例证性的，不应被视为对本发明的范围的限制。例如，可按照和描述的顺序不同的顺序进行流程图(图4A、4B、5A和5B)的步骤，在图中可以使用更多或者更少的元件。通过向设备增加示教模式可以改变用户界面流程。就用户可选择的示教模式来说，在每一步骤中设备与用户面接，告知用户设备的何种功能正在执行，并关于用户接下来应做什么对用户进行指导。虽然实施例的各个元件被描述成用软件实现，不过另一方面可以使用采用硬件或固件实现的其它实施例，反之亦然。

对本领域的普通技术人员来说，在多模态嵌入界面方面的可替换定制中涉及的方法显然可用包括计算机可用介质的计算机程序产品来具体体现。例如，这样的计算机可用介质可包括其中存储有计算机可读的程序代码段的可读存储装置，比如硬盘驱动器，CD-ROM，DVD-ROM，或者计算机磁盘。计算机可读介质还可包括其中以数单词或模拟数据信号的形式携带程序代码段的光学、有线或无线通信或传输介质，比如总线或通信链路。

其它方面、修改和实施例在下述权利要求的范围之内。

Claims

1、一种移动语音通信设备，包括：

发射和接收听觉信息和数据的无线收发器电路；

处理器；和

存储可执行指令的存储器，当在所述处理器上执行时，所述可执行指令使所述移动语音通信设备向所述移动语音通信设备的用户提供与所述设备相关的可选个性，所述可执行指令包括在所述设备上实现采用具有至少一种可选个性的多个不同用户提示的用户界面，其中所述多个用户提示的每个可选个性被定义，并且被映射到存储在所述移动语音通信设备的至少一个数据库中的数据。

2、按照权利要求1所述的移动语音通信设备，还包括：

识别用户口头输入并提供识别的对应单词的解码器；和

合成与所述识别的单词相对应的单词的语音合成器。

3、按照权利要求2所述的移动语音通信设备，其中所述解码器包括语音识别引擎。

4、按照权利要求1所述的移动语音通信设备，其中所述移动通信设备是移动电话机。

5、按照权利要求1所述的移动语音通信设备，其中所述至少一个数据库包括发音数据库，合成器数据库和用户界面数据库之一。

6、按照权利要求5所述的移动语音通信设备，其中所述发音数据库包括代表字母-音素转换规则，多个单词的清楚发音，以及语音修改规则至少之一的数据。

7、按照权利要求5所述的移动语音通信设备，其中合成器数据库包括代表音素-声音转换规则，速度控制和音调控制至少之一的数据。

8、按照权利要求5所述的移动语音通信设备，其中所述用户界面数据库包括代表预先记录的听觉提示，与听觉提示相关的文本，屏幕图像和动画脚本至少之一的数据。

9、按照权利要求1所述的移动语音通信设备，其中所述收发器电路包括音频输入装置和音频输出装置。

10、按照权利要求1所述的移动语音通信设备，其中每个可选个性包括独特的语音，口音，单词选择，语法结构和隐式包含至少之一。

11、一种操作包含语音识别能力的通信设备的方法，所述方法包括：

在设备上实现采用多种不同的用户提示的用户界面，其中所述多种不同用户提示的每种用户提示或者用于向用户请求对应的口头输入，或者将设备的动作或状态通知用户，所述多个不同用户提示中的每个用户提示具有出自多种不同个性中的至少一种可选个性；所述多种不同个性中的每种个性被映射到所述多个用户提示中的一个不同的对应用户提示；和

当所述设备的用户选择所述多种个性中的任意一种时，产生被映射到所选个性的用户提示。

12、按照权利要求11所述的方法，其中所述多种用户提示中的每种用户提示具有对应的语言表现，并且产生所选个性的用户提示还包括通过用户界面产生对应的语言表现。

13、按照权利要求12所述的方法，其中通过用户界面产生对应的语言表现还包括可视地向用户显示所述语言表现。

14、按照权利要求12所述的方法，其中通过用户界面产生对应的语言表现还包括：可听地向具有所选个性的用户提供所述语言表现。

15、按照权利要求11所述的方法，其中所述多种不同个性中的每一种至少包含独特的语音，口音，单词选择和语法结构之一。

16、按照权利要求11所述的方法，还包括：

实现具有不同用户提示的多个用户可选模式，每种不同的用户提示具有不同的个性。

17、按照权利要求11所述的方法，其中每种不同的用户可选个性是无线传送给移动通信设备的，通过计算机接口传送的，或者当嵌入存储装置时被提供给移动通信设备之一的个性。

18、按照权利要求11所述的方法，还包括实现一种用户可选模式，以便随机地产生多种不同个性中的至少一种。

19、一种方法，所述方法包括：

在数据存储器中存储多个个性数据文件，每个个性数据文件配置一种模仿对应的不同个性的许可语音的应用；

从用户接收对选择的一个个性数据文件的电子请求；

向用户请求对所选个性数据文件的支付义务；

响应于从用户接收到支付义务，以电子方式将选择的个性数据文件传送给用户，以便安装在包含许可语音的应用的设备中。