CN1298249A

CN1298249A - 无线装置的基于用户界面的语音识别

Info

Publication number: CN1298249A
Application number: CN00128488A
Authority: CN
Inventors: 彼得·F·金
Original assignee: Phone Com Inc
Current assignee: Great Elm Group Inc
Priority date: 1999-11-24
Filing date: 2000-11-24
Publication date: 2001-06-06
Also published as: KR20010051903A; EP1104155A2; EP1104155A3; US6532446B1; JP2001222294A

Abstract

一种无线通信系统,用远端语音识别服务器系统翻译从移动装置接收的语音输入为符号数据文件,如字符或控制符,这种文件可由移动装置进行处理。翻译处理是从接收的移动装置与语音识别服务器间的语音通信信道建立开始。然后移动装置用户按一种可由语音识别服务器系统检测的方式开始讲话。当检测到用户语音时,语音识别服务器系统翻译该语音为符号数据文件,该文件然后经分别的数据通信信道被传送给用户。当在移动装置接收到该符号数据文件时,该用户浏览和编辑其内容并按其需要进一步利用该文件。

Description

无线装置的基于用户界面的语音识别

一般来说，本发明涉及数据通信，具体地，是涉及利用基于网络的语音识别资源来增强本机用户界面(user interface)的双向无线通信装置。

基于超文本技术的使用已经拓宽了无线通信系统的范畴。双向无线装置，本说明书中也称为移动装置，和无线网络协议已经被设计得允许通过各种无线和有线网络交互地访问远端信息服务(例如，商业数据库、电子邮件、在线购物)，这些网络最明显的是因特网和一些专用网。

许多移动装置(例如，蜂窝电话)是面向消费者大众市场的装置。因此，在不限制装置功能的情况下，其用户界面应当是简单并容易使用的。当前，对于大多数移动装置的主要数据输入方法是键盘，但当用于输入很长的字符串时，键盘输入方法是相对低效率的。由于尺寸的限制和成本的考虑，对于起草需要大量用户输入的消息(例如，Email消息)，这些移动装置的键盘不是一种特别用户友好的界面。这种类型装置的键盘通常具有12至24个之间的键，对于数字输入有足够数量的键，但当涉及对于具有网络功能装置的字符数据输入就显得非常不够。

从因特网要求信息的用户一般利用浏览器通过全球网(WWW)进行导航。例如，利用InfoseekTM作为搜索引擎对斯坦福大学要求信息的用户将必需输入以下字符串：

“http：//www.Infoseek.com”后接“Stanford University”

列在上面的搜索字符串包括40个字符。用户利用标准台式计算机键盘和浏览器(例如，Netscape或Explorer)输入这种类型的字符串是没有问题的。但是，同样的用户操作移动装置的键盘通过紧凑的键盘和各个键之间密集的间隔输入相同字符串就相当困难了。

因特网的通常用途之一是电子邮件。希望发一个具有上述段落尺寸的电子邮件消息的用户将必需输入超过400个字符。利用台式计算机的标准键盘，用户可能用低于2分钟(假设该用户具有平均熟练程度的打字水平)输入那些字符。然而，在移动装置的键盘上输入同样数量的击键可能要用相当长的时间并且变得非常冗长乏味以及容易出错。

近来，语音识别(VR)技术的进步和硬件能力的增加使得台式系统的基于语音识别的用户界面的开发成为商业可用的。VR技术提取讲话的单词并翻译这些单词为一种可以容易由数字系统操作和显示的格式。这些开发成果已经试图装备具有VR技术的紧凑的移动装置，但是，这些努力一般都要求昂贵的器件修改，诸如额外的部件(例如，DSP(数字信号处理)芯片)或增加处理和存储能力。一部典型的蜂窝电话具有等效于低于一般台式或便携计算机的百分之一的计算资源。在不修改该装置的部件的情况下，按比例缩小运行VR应用的电话可能仅仅能够识别很少一组预定的讲话单词。

近来，对于台式和膝上计算机的语音识别软件(例如，来自Dragonsystem,Inc.的Naturally Speaking；来自Apple Computer的PlainTalk^TM，来自IBM的Viavoice 98^TM和来自Philips Talk的FreeSpeech 98^TM)每个许可证一般都在39美元到数百美元。这个数目代表了装有可比的应用软件的移动装置价格的相当大一部分。

在每个移动装置中装入语音识别应用软件并修改其硬件部件以运行该应用程序对手机制造商在他们的装置中加入VR功能起到一种在财务上的阻碍作用。这些修改可能要使该移动装置的最后价格增加可观的成本，可能使通常由大众市场拥有的移动装置的价格超出目标价格范围(例如，150美元)。

就硬件资源而言，这些应用程序可以要求对于每种支持的语言的高达60兆字节的存储器。另外，大多数商用语音识别应用软件被设计为针对相对快速的处理器(例如，133MHz奔腾处理器)。

因此，对能以最有效的方式使移动装置与数字计算机网进行交互通信的设备和方法存在着很大的需求。在不需要显著改动硬件资源或提高成本的情况下，结合标准移动装置用户界面(例如，电话键盘)的利用语音识别的能力可以极大地改善利用有限资源的具有网络能力的移动装置的可用性和商业生存性。

本发明涉及一种利用遥控语音识别服务器系统的无线通信系统，该服务器系统翻译从移动装置接收的语音输入到一种可以由移动装置处理的符号数据文件(例如，字符数字或控制字符)。这种翻译处理是通过移动装置与语音识别服务器之间建立的语音通信信道开始的。然后，移动装置的用户以一种用可由语音识别服务器系统检测的方式开始讲话。当检测到该用户的话音时，语音识别服务器系统翻译该话音为符号数据文件，然后该文件通过另外的数据通信信道转移给用户。当在移动装置接收到符号数据文件时，该用户检查并编辑该符号数据文件，并且按需要进一步利用该文件。例如，用户可以利用该符号数据文件填充一个电子邮件中的各个字段或者一个浏览器请求字段。

本发明可以按各种方式实现，包括按照一种方法、一种设备或一种装置、一种用户界面、一种计算机可读的存储器和一种系统。下面讨论本发明的若干实施例。

按照一个实施例，本发明是一种用于在不具有执行语音识别本地处理的资源和/或软件的移动装置中获得语音识别服务的方法。该方法包括驻留在该移动装置中的本地应用程序建立和协调该目标移动装置与运行语音识别应用程序的远端服务器系统(在本说明书称为语音识别服务器系统)之间的语音信道。

当建立了语音信道后，该目标移动装置的用户排队(queuing)开始对该移动装置(例如，蜂窝电话)的麦克风讲话。作为这个交互的结果，在语音识别服务器系统接收到的语音输入被变换为符号数据文件。这个处理可以利用以前存储的用户专用数据文件帮助进行。然后，该符号数据文件被传送回始发的移动装置或者通过另外建立和协调的数据通信信道转移到一个指定的第三方装置。符号数据文件可以被用于与该移动装置上本地应用程序进行交互通信，或者与网络资源(例如，因特网的服务器或专用网)进行交互。

连同前面的描述，下面的描述和附图，可以说明本发明的其它目的和优点。

通过结合附图的下面的详细描述本发明将会获得很容易的理解，其中各标记是表示各个结构部件，和其中：

图1表示可以实施本发明的示意性结构；

图2A表示典型的有语音能力的移动装置的显示器和用户界面部件；

图2B表示一种示例性有语音能力的移动装置功能性方框图；

图3表示按照本发明的一个优选实施例的链路服务器装置的功能性方框图；

图4是表示按照本发明的一个实施例的语音识别服务器的示例性的各个处理级的示意性图；

图5表示说明关于移动装置与语音识别服务器系统之间的各种操作的各个屏幕显示。

图6表示根据按本发明的一个实施例的移动装置方面的处理流程图；

图7表示根据按本发明的一个实施例的语音识别服务器方面的处理流程图。

在下面的本发明的详细描述中，描述了许多具体细节以便对本发明有全面的理解。但是，对于本专业的技术人员而言不用这些具体的细节也可以实施本发明。在另外的情况下，没有详细地描述各公知的方法、程序、部件和电路，这样作是为了避免不必要地混淆了本发明的主要方面。在下面的本发明的详细描述是很大方面体现在关于程序、步骤、逻辑方框、处理、和耦合到网络上的类似数据处理装置的其它符号表示。这些处理描述和表示是本专业的技术人员有效传达他们的工作成果给本专业的其他技术人员所使用的手段。

本发明涉及使一个移动装置能根据联网的语音识别服务器系统接入(access)语音识别服务的各种系统和方法。按照本发明的一个实施例，语音识别服务是通过在希望用语音识别服务的移动装置用户与联网的语音识别服务器系统之间建立一个语音信道而接入的。

一旦建立语音信道，当语音识别服务器系统准备好接收话音信号时，移动装置的用户排队开始讲话。接收的话音信号由语音识别服务器系统利用现有技术公知的语音识别技术(例如，模板匹配、傅立叶变换或线性预测编码(LPC))进行处理并产生符号数据文件。

符号数据文件是一种与接收的语音信号具有某种关系，按照由语音识别系统翻译的，含有指定对象、数量、操作、功能、音素、单词、词组或其任何组合的多个字母、音素、单词、数字、对象、功能、控制字符或其它常规标记的文件。各种语音识别系统一般使用语音模板、傅立叶变换编码、或线性预测编码方案来映射语音的输入成分为预存储的符号构造块。符号数据文件的例子包括ASCII文件和二进制数据文件。

为了使本发明容易描述，列举某些可以应用本发明的通信系统的特点是有用的。图1到图4提供了原理性系统部件的概况。

参照图1，表示一种按照本发明的一个实施例的典型通信系统的方框图。移动装置102和103通过话音通信信道接收电话呼叫和超媒体(hypermedia)信息(例如，超文本标记语言(Hyper Text Markup LanguageHTML))文件、紧凑超文本传输协议(cHTML)文件、可扩充标记语言(ExtensibleMarkup Language XML)文件、手持装置标记语言(HDML)文件、或无线标记语言(WML)文件、或者类似的数据类型，这些文件是从远端服务器装置通过宽带或窄带(例如，SMS)数据通信信道接收的，这些信道可以包括链路服务器装置106和短消息服务中心107。

移动装置102和103的每个都有一个显示器和一个用户界面。此外，移动装置102和103可以具有存储在本机存储器(也称为客户机模块)中的一个微浏览器(例如，Phone.com公司的微浏览器，800Chesapeake Drive RedwoodCity,CA,94063)，使得该装置处理从远端服务器装置接收的超媒体信息。

如图1所示，移动装置102和103可以通过无线运营商(carrier)网络104(这里也称为无线网络)被耦合到链路服务器装置106。移动装置102和103可以是从一组装置中提取的，这一组装置包括移动电话、带有语音发送和/或接收能力的掌中计算装置和个人数字助理。语音能力被定义为装备在移动装置中允许用户传送/接收语音信息到/从远端目的地(例如，到另外的用户或装置)的能力。

接入到语音通信信道一般要求该用户和/或装置是由无线运营商网络104进行身份识别。网络识别包括一个目标移动装置与无线运营商网络104之间身份识别信息的交换。一般，所述该用户和/或移动装置的身份识别信息被存储在该装置的存储器中，并且当该用户试图进入网络时进行自动发送。

无线运营商网络104可以是任何一种公知的无线通信网络(例如，蜂窝数字分组(CDPD)网、全球系统移动通信(GSM)网、码分多址(CDMA)网、个人手持电话系统(PHS)或时分多址(TDMA)网)。链路服务器装置106还被耦合到与语音识别服务器系统109和由网络服务器113代表的多个联网的服务器相耦合的有线网108。

语音识别服务器系统109是由服务器装置110与存储设施112组成的，该存储设施112能够存储与一个运营商实体所服务的多个用户相关的用户专用文件等。该用户专用文件与语音识别处理结合使用并且在一个实施例中是本发明的一部分。

用户专用文件的例子可以包括用户专用语音模板、一个或多个用户规定的语言词典(例如，法语、英语、德语或广东话)和个别用户高频词汇的一个或多个用户专用的词典或表。这些文件可以利用联网的多媒体计算机(例如，多媒体计算机140)或者通过被服务的移动装置的用户界面进行上载和管理。例如，语音模板是通过用户读一个预定脚本到一个具有语音功能装置中产生的。用户的喜好(例如，选择语言)可以利用在移动装置的显示器上提供给用户的菜单选择屏进行输入，或经有线网连接到语音识别服务器系统的其它装置输入。

为了简化起见，天线121代表无线运营商的基础设施，一般包括基站和操作与维护中心。基站控制与移动装置102和103的无线或电信链路。操作与维护中心包括移动交换中心，该中心在各个移动装置与其它固定的或移动网络用户之间交换呼叫。另外，操作与维护中心管理移动通信计费业务，诸如验证、监管正确操作和无线网络建立。对于本专业技术人员运营商的基础设施121中的每个硬件部件和处理都是公知的，为了避免不必要地混淆了本发明的主要方面，这里不再赘述。

空中网104所有的通信协议例如可以是无线接入协议(WAP)或手持装置传输协议(HDTP)。有线网108是一个陆基网，该网可以是因特网、专用网或任何专用网的数据网。一般，支持陆地网118的通信协议可以是传输控制协议(TCP/IP)、超文本传输协议(HTTP)、或安全超文本传送协议(sHTTP)。

链路服务器装置106和网络服务器113一般是计算机工作站，例如SunMicrosystem公司(http：//www.sun.com)的具有联网资料库和因特网连接的SPARC的工作站。网络服务器113代表耦合到陆地网108的多个联网服务器和能够提供访问包含移动装置102和103的信息的超媒体信息。

链路服务器装置106被描述为一个独立的装置并因此经常被称为网关或无线数据服务器。链路服务器106可以被组成为按照无线网104与有线网108之间的一个桥路进行操作。应当指出的是，链路服务器106的功能可以由连接到有线网108的具有现有技术公知的提供无线网104与有线网108之间连接的其它装置来执行。

前面描述的语音通信信道一般是由语音信道126代表的。这个通信信道通常利用现有技术公知的用于建立电话呼叫的基础设施和处理过程进行建立和协调的。

一般，存在着两种给移动装置102和103提供服务的数据通信信道的类型。数据通信信道128代表宽带数据通信信道。数据通信信道130代表窄带数据通信信道，例如，短消息通信(SMS)服务信道。这些数据通信路径的任何一种都可以被用于传送数据到/从移动装置102和103。

按照本发明的优选实施例，希望从语音识别服务系统109接收语音识别服务的移动装置(例如，移动装置102或103)，首先建立一般由语音信道126代表的语音信道。用于语音识别服务系统109的联络信息(例如，电话号码或统一的资源指示符(URI))可以插入到装入移动装置的软件中、从链路服务器装置106中检索或者由用户直接输入。

一旦在正在请求的移动装置与语音识别服务器系统109之间建立语音信道，用户信息被转移到该语音识别服务器系统。这允许以前存储的用于正在请求的移动装置的用户专用文件将被访问和利用。用户信息可以在分别的数据通信信道(例如，数据通信信道128或130)上进行发送，或者由用户输入。一般，用户的专用文件给一个具体用户帐户提供专用的功能特征。例如，用户可以对语音识别处理规定一种或多种语言选择。

一旦用于目标移动装置/用户的用户专用文件被检索到，该用户被提示提供语音输入(例如，开始讲话)。注意，用户可以在利用语音识别服务的同时，利用移动装置的用户界面(例如，电话键盘)这一点是重要的。当用户已经完成他们与移动装置输入交互(语音和物理输入)时，可以由用户(语音的或键输入的)提供一个指示结束输入阶段。然后，语音识别服务器系统109变换语音输入为符号数据文件，该文件经链路服务器106被转送到发出请求的移动装置。

正如前面所述，符号数据文件是一种含有当由语音识别系统进行翻译时与接收的语音信号有某种关系的用于指示对象、数量、操作、功能、音素、单词、短语或其任何组合的多个字母、音素、单词、数字、对象、功能、控制符或其它常用标记的文件。一般，语音识别系统利用语音模板、傅立叶编码、或线性预测编码方案映射接收的输入组成部分到预存储的符号构造块。符号数据文件的例子包括ASCII文件和二进制数据文件。

符号数据文件可以开始被转送到链路服务器装置106，该装置可以在经宽带信道128或窄带信道130发送到请求的移动装置的符号数据文件之前执行附加处理。然后，移动装置的用户可以查看接收的符号数据文件和按照需要使用。

语音识别服务器系统109的语音识别应用程度的准确度在很大程度上取决于使用的翻译方法学和使用的语言词典的大小和语种。一般，与讲话者相关的方法学(例如，模板匹配)具有高达98％的准确度，和与讲话者无关的方法学(例如，傅立叶变换和线性预测编码(LPC))具有90-95％范围(www.hitl.washington.edu-Voice Recognition,Jim Baumann)的准确度。

根据本发明的原理，如果语音识别应用程序曾由该装置执行过，则移动装置(例如，移动装置102和103)的用户可以在这些移动装置上访问语音识别服务器，而无需大的硬件或软件的修改。另外，因为执行语音识别处理器的软件驻留在以高处理速度(与移动装置相比)和大存储容量的可访问的远端服务器装置，可以给该装置的用户提供具有全部功能特征的语音识别应用程序相关的功能和资源。例如，语音识别应用可以访问大的语言词典、对多种语言可选择的语言词典、和用户专用文件(例如，语音模板和用户定制的词典和表)。

图2A描述一种示例性移动装置200，该移动装置对应于图1中的各移动装置(102或103)之一。移动装置200包括显示屏204、扩充的电话型键盘210、光标导航键222和224、一对软键(softkey)208A和208B、送话器212A和麦克风212B。显示屏204一般是能够显示文本信息和某些图形的液晶显示器(LCD)显示屏。扩充的电话键盘210最好包括具有附加键的常规的电话键盘，这些附加键提供一些附加的字符(例如，空格)和功能(例如，退格或清除)。

光标导航键222和224允许用户重新置位光标或一个元件指示符216，例如，激活显示在显示屏204上的各个应用程序之一。通用键208A和208B一般被用于执行如由软功能识别符214和215所指示的应用程序专用功能。应当由本专业技术人员理解的是，实施本发明并不要求一定具有常规电话键盘。因为某些移动装置有时完全没有物理的键，诸如掌中计算装置利用软键或图标作为输入机构。

当利用相关的链路服务器装置(例如，图1的链路服务器装置106)建立通信会话时，移动装置200一般接收一个或多个标记语言卡组(markuplanguage card deck)以帮助用户与装置交互。取决于实施中的优先次序考虑，标记语言卡组，另外还可以被称为屏幕描述命令文件，可以是标记语言的，但并不限于此，还可以包括手持装置标记语言(HDML)、超文本标记语言(HTML)、紧凑HTML、无线标记语言(WML)、标准通用标记语言(SGML)、可扩充标记语言(XML)。或者，数据文件可以是对应的标记文件的一种被剥离、被压缩、编辑或被变换的版本。

出现在图2A的LCD屏幕204上的正文是这种显示屏的一个例子。在这个例子中，提供给用户下列选项的选择：

1)书签

2)内部搜索(Search Int)

3)电子邮件

4)新闻

每种选择一般链接到网络的资源，或者是本地的软件应用程序。用户可以从上述菜单上利用导航键222和224通过用户选择的元件指示符216进行选择。这种相同的方法可以被利用在提供用于与远端服务器装置(例如，图1的语音识别服务器系统109)的用户提示上。

现在参照图2B，是移动装置250的更详细的描述，装置250可以是图1的移动装置102或103和图2的200。移动装置250包括：耦合到运营商无线网104的无线控制协议(WCP)接口252，该接口接收输入和输出的信号。装置识别符(ID)存储器254存储并提供装置ID给WCP接口252，用于外部实体(例如，图1的链路服务器装置)识别移动装置250的用途。装置ID是一个与移动装置250相关的特定的码，并且直接与相关用户帐户中的装置ID相关联，一般帐户在相关的链路服务器装置(例如，图1的106)中提供。

移动装置250包括处理器268、编码器/解码器电路264、工作存储器258和客户机模块256。客户机模块256是装载在装置存储资源中的软件部件，这些软件执行移动装置250执行的许多处理任务，包括：经由无线运营商网络104建立与链路服务器装置的通信会话、操作和维护本地应用、在移动装置250的显示屏260上显示信息、和接收来自键盘262的用户输入。客户机模块256可以与把软件装载在计算装置中非常相似的方式装载在移动装置250的存储器中。

此外，移动装置250包括语音回路266，用于变换语音活动为可以在数字和模拟通信系统中发送和接收的电脉冲。这些部件及其功能在现有技术中是公知的并将不予赘述。

按照本发明的原理，装入移动装置250中的软件包括：在运行语音识别应用程序中对用户与服务器装置交互提供帮助的部件。该提供帮助的软件可以作为微浏览器或其它应用软件的一部分，或者作为单独的应用程序装入。这个应用程序负责诸如对服务器装置提供服务、接收符号数据文件的管理、和用户喜好的输入/变更之类任务的检索和存储联络信息。用户帮助可以例如是屏幕显示信息、可闻或触觉提示和/或软键映射功能的形式。

例如，结合一种应用程序(例如，电子邮件消息)希望利用语音识别服务的用户可以访问感兴趣的应用程序和激活一个软键来访问语音识别服务器。然后与软键相关的功能将检索对于运行语音识别应用程序的服务器装置的联络信息，如果尚未存储，和处理将按照上述进行处理。提供这个例子的目的是为了说明，它不是对本发明范围的限制。

图3示意性地说明链路服务器装置340的各原理性部件，装置340可以对应于图1的链路服务器装置106。链路服务器装置340是作为有线网300与无线网320之间的网关进行操作的服务器计算机。为了避免与本发明的主要部分相混淆，在链路服务器装置340中的公知方法、程序、部件和电路不详细描述了。

链路服务器装置340包括：耦合到有线网300的陆地控制协议(LCP)接口358、和耦合到无线网320的无线控制协议(WCP)接口341。服务器模块310耦合在LCP接口358与WCP接口341之间。

服务器模块310执行传统的服务器处理以及从一种通信协议到另外一种通信协议的协议变换处理。消息处理器316是用于协议变换和相关任务的一个部件。在协议变换的情况下(例如，HDTP和HTTP之间)，变换一般是数据映射处理。本专业的技术人员将理解到，WCP接口341取决于无线网和使用的协议，可以由其他接口模块替代。当有线网和协议改变时，同样LCP接口358也可以由其他接口替代。

服务器模块310还包括：帐户管理器312有帐户接口314。帐户管理器312管理多个用户帐户，一般这些移动装置的每个都是由链路服务器装置340服务的。应当理解为，用户帐户信息可以被存储在耦合到链路服务器装置340的另外的网络服务器中。换言之，用户计费可以保持在一个物理上放置在经有线网耦合到链路服务器装置340的任何计算装置中的数据库中。

由链路服务器装置340服务的每个移动装置被分配一个身份识别符(ID)或装置ID。装置ID可以是该装置的电话号码或IP地址、或者是IP地址和端口号的组合，例如，204.163.165.132:01905，其中204.163.165.132是IP地址和01905是端口号。装置ID作为在激活的用于移动装置的用户帐户中涉及的过程一部分还与由运营商控制的链路服务器装置340建立和管理的用户ID相联系。用户ID可以关联于并用来访问与一个特定用户或装置相关的用户专用文件(例如，图1的112)。

用户ID可以采取例如，AT&T无线服务商的861234567-10900-pn.mobile.att.net形式，并对用户移动装置是唯一的识别符。帐户管理器312负责产生对于允许与链路服务器装置340进行安全通信的移动装置的用户计费。在这种情况下，帐户管理器312保证对由链路服务器装置340提供服务的移动装置适当的安全访问水平。

链路服务器装置340还包括处理器318和存储资源320作为主要硬件部件。处理器318在服务模块310的控制下执行操作。本专业技术人员将理解，链路服务器装置340可以包括一个或者多个处理器(例如，处理器318)、工作存储器(例如，存储器资源320)、各个总线、各个接口和其他部件，和代表一个或多个装入链路服务器装置的340的工作存储器执行指定功能的软件模块。相同的特性同样可应用到客户机模块和目标移动装置的硬件部件。

一般，支持陆地网300的陆地网通信协议(LCP)可以包括传输控制协议(TCP)、超文本传输协议(HTTP)或安全超文本传输协议(HTTPS)、和无线通信协议(WCP)可以包括(TCP)、(HTTP)或(HTTPS)、手持装置传输协议(HDTP)或无线电会话协议(WSP)。在不同于WCP的LCP的情况下，服务器模块310包括用于从一种协议映射到另外一种协议的映射模块(即，映射器)，使得耦合到无线网320的一个移动装置可以与耦合到有线网300的装置进行通信。

一旦接收的语音信号被语音识别服务器系统(未示出)进行处理，符号数据文件被产生并发送到链路服务器装置340。符号数据文件由管理处理器316经LCP接口358进行接收。管理处理器316变换符号数据文件为可能是在无线网320上传输最佳(按照无线网的协议要求和发出请求的移动装置的装置特性)的数据格式。当从语音识别服务器系统接收时，该符号数据文件可以是由消息处理器316理解的一种格式，例如，标记语言(例如，HTML)或文本文件(例如，ASCII)。被处理的符号数据文件可以经重新形成格式，以便与正在请求的移动装置相兼容，然后该文件被转送到该请求移动装置或到指定的第三方装置。

参照图4，表示出一个示例性语音识别服务器系统460的功能模块(可以对应于图1的语音识别服务器系统109)，该模块执行下列处理：1)语音检测，2)语音分析，3)模式匹配和4)符号文件产生。在语音检测462期间，语音识别服务器系统460检测在其输入中的语音信号的存在。当检测到时，接收的语音信号经过语音分析处理464，在此该语音信号被减少到对模式匹配可用的可量化指标。在模式匹配级466期间，可量化指标与存储在存储装置480中的用户语音模板(如果利用根据模板语音识别处理)进行比较，该存储装置可以是各种语言的词典和多个用户专用文件。如上面所述，符号数据文件经有线网300(见图3)被转移到语音识别服务器340。本专业技术人员将理解，不脱离本发明的范围，可以使用其他的语音识别方案(例如，傅立叶变换或者线性预测编码(LCP))。本专业技术人员还将理解为，链路服务器装置(例如，图1的106)可以执行语音识别服务器系统(例如，图1的109)的功能。

图5表示涉及请求语音识别服务的移动装置与语音识别服务器系统之间的交互会话的多个示例性显示屏。开始，显示屏500允许用户在手工输入504和VR(语音识别)帮助输入508之间进行选择。用户选择是由选择指示符512指示的。在这个例子中，VR帮助输入512可以通过激活与软键功能指示符516相关的软键进行选择的。这种选择检索提供服务的语音识别服务器系统的联络信息。在这个例子中，联络信息包括电话号码(例如，650-555-7272)。本专业技术人员将理解为，联络信息还可以包括统一资源识别符(URI)或者类似的唯一识别符。用于访问用户专用文件的相关用户和/或装置的识别信息可以在后台进行传送(例如，利用另外的数据信道或语音通信信道)或者由用户输入。

当取出语音识别服务器系统联络信息522时，如显示屏520所示，可以通过激活与软键功能指示符524相关的软键(OK)，建立语音信道。显示屏530表示信息的类型，它可以提供给请求移动装置的用户。字符串532给用户提供关于建立与提供服务的语音识别服务器系统的通信会话状态的信息。字符串534提供给用户关于用于处理该用户的请求设置的信息。这可能包含一个简单的字符串(例如，“Initializing Default Settings”)或多个交互和非交互的显示，这些显示允许用户输入选择(例如，语言的选择)。当服务的语音识别服务器系统准备好接收输入时，给用户呈现一个提示536(“开始讲话”)。用户可以通过激活与软键功能指示符538相关的软键结束输入会话。

语音识别服务器可以被构成为与驻留在发请求的移动装置中的特定应用程序进行交互。例如，可以产生经处理的符号数据文件，用作对一个诸如电子邮件之类的应用程序中的特定字段的输入。另外，一旦用于语音识别服务的激活的语音信道被建立起来，用户可以利用该服务改变应用程序，而不用关闭和重建语音通信信道。例如，用户可以在电子邮件程序与个人事务安排程序之间进行转换。这个特点降低了用户的成本和网络的拥塞。

现在参照图6和图7，分别表示按照本发明的一个实施例的描述移动装置与语音识别服务器操作的处理流程图。图6和图7两者都应当结合图1进行理解。

按照本发明的一个优选实施例，一个希望语音识别服务的用户将通过利用本机用户界面(例如，通过按一个键)启动对于服务的请求。一般，用户可以利用驻留的应用程序(例如，电子邮件或web浏览器)结合所希望的任务进行启动。作为该请求的结果，返回到移动装置的信息可能被插入与正在执行的任务相关的文件中。

该请求的处理产生将建立在请求服务的移动装置与提供服务的语音识别服务器系统之间的语音信道。一旦该语音信道被建立和用户排队开始讲话，该用户可以开始与移动装置的输入交互，该输入除了语音输入外，可能包括利用本机用户界面(例如，电话键盘)进行物理输入。当完成与移动装置的初始输入交互时，用户可以选择保持语音信道开通的开通状态并执行另外的任务或者结束该语音信道。

图6是说明由移动装置(例如，移动装置102和103)使用的从相应的移动装置与远端语音识别服务器系统(例如，语音识别服务器系统109)进行交互的处理600的流程图。在604，作出是否在目标移动装置与提供服务的语音识别服务器系统之间存在一个有效语音信道的确定。这个处理通常发生在软件控制的后台中。

如果存在一个激活的语音信道，则用户在608被提示提供一个输入，表示用户是否希望禁止该激话语音信道。这可能是这样一种情况，即对于计划的用该移动装置的输入交互，用户不要求VR服务。

如果用户判断禁止语音信道，则在612禁止语音信道。然后用户前进到物理输入628，使用该装置的用户界面(例如，键盘)。在622，作出是否用户的输入(例如，物理输入628)已经进行了寄存(例如，输入被装置接受)的判断。如果用户的输入被寄存，则在632进行处理并且用户在636被提示提供表示是否继续输入会话或者结束之。如果用户选择了结束，则在640作出所建立的语音信道/回路(即，语音信道/回路有效)的状态的确定。正如在上面所描述的那样，这种检查通常发生在后台中。在上面描述的序列中，不存在激活语音信道，这样处理将被结束。

如果在608，用户判断采用语音信道，则将可能是对于移动装置输入交互，用户试图使用语音识别服务的这样一种情况，然后用户提供语音输入624和物理输入628，并且在622作出是否用户的输入已经被寄存的确定。如果用户的输入已经被寄存，则在632进行处理，并且用户在636被提示提供是否用户希望继续输入会话或者结束会话的指示。如果用户选择结束会话，则在640作出所建立的语音信道/回路的任何状态的确定。当结束时，激活语音信道/回路被关闭(secured)。然后处理被结束。

如果在636用户判断不结束输入会话，则处理返回处理600的开始。

如果在604作出没有激活语音信道的确定，则用户在614被提示，提供是否用户希望建立有效语音信道的指示。这将是用户要求对于与移动装置输入交互的语音识别服务的情况。

如果在614，用户要求用于输入交互的语音信道，则在618建立一个信道。然后用户提供语音输入624和物理输入628并且作出是否用户的输入已经被寄存的确定。如果用户的输入已经被寄存，则在632进行处理和用户被提示，在636提供是否继续输入会话还是结束的指示。如果用户选择结束，则在640作出和上面描述的一样建立的任何语音信道/回路的状态的确定。当结束时，激活语音信道/回路被关闭。然后处理结束。

如果在614，用户不要求用于即将进行的输入交互的语音信道，这可能是该用户不要求语音识别服务的情况，然后用户利用移动装置的用户界面(例如，键盘)前进到物理输入628。在622，作出是否用户的输入(例如，物理输入)已经被寄存的确定。如果用户的输入已经被寄存，则在632进行处理并且在636作出是继续输入会话还是结束的判断。然后处理结束。

如果在上面这些示例性的交互的任何一个中，在622用户输入不被寄存，则用户被提示，在636提供是否他们希望结束与语音识别服务器系统进行会话的指示。

一旦提供服务的语音识别服务器系统与请求服务的移动装置之间的语音信道被建立，该语音识别服务器系统可以检索与该移动装置用户相关的用户专用文件(例如，语言的选用、模板文件等)和利用这些文件来处理输入的文件语音输入。语音识别服务器系统然后检测和处理输入的与请求服务相关的语音信号。输入的语音信号利用模板匹配处理、傅立叶变换方法、线性预测编码方案或任何合适的语音识别编码方案被变换为符号数据文件，并且利用数据通信信道被转移到正在请求的移动装置(或指定的第三方装置)，该数据通信信道可能包括中间服务器装置(例如，图1中的链路服务器装置106)。

符号数据文件可以按一种适合由请求移动装置进行处理的格式(例如，cHTML、WML或HDML)或者按任何一种适合由中间服务器装置进行处理器的格式(例如，HTML、WML、XML、ASCII等)。在后一种情况下，如果有要求的话，中间服务器装置可以执行任何的变换处理。

按照本发明的原理，用户与移动装置的会话根据服务器装置运行的语音识别应用程序(例如，一种语音识别服务器系统)，可能能够访问远端的可用语音识别服务器。存储在电话中的软件(例如，微浏览器)在这种会话中通过检索和管理用于服务器装置的联络信息并且通过提供提示和执行涉及与语音识别服务器系统交互的各功能来帮助用户。利用这种系统和方法，具有有限处理能力和存储容量的移动装置可以访问具有全面功能特征的在高性能计算机工作站上运行的语音识别应用程序。

图7是说明由语音识别服务器系统(例如，语音识别服务器系统109)与移动装置(例如，移动装置102)从相应的语音识别服务器系统交互的处理700的流程图。在704，作出(例如，通过软件处理)是否在语音识别服务器系统(例如，语音识别服务器系统109)与请求服务的移动装置(例如，移动装置102)之间的语音回路/信道已经建立的确定。

如果在704，确与请求服务的移动装置已经建立语音回路(circuit)/信道，则然后在708作出是否已经检测到语音信号的另一个确定。如果在708检测到语音信号，则接收的语音输入716被用于在712产生符号数据文件。

如上所述，符号数据文件是一种含有多个字母、音素、单词、数字、对象、功能、控制符或其他的常用标记，这些标记指定作为由语音识别系统进行翻译的对象、数量、操作、功能、音素、单词、短语、或其任何组合。语音识别系统一般利用语音模板、傅立叶变换编码、或线性预测编码方案来映射语音的输入组成部分为预存储的符号构造块。符号数据文件的例子包括ASCII文件和二进制数据文件。

然后在720符号数据文件被转送到请求的移动装置(或者指定的第三方装置)。在724进行是否从请求服务的移动装置接收到结束命令的确定。如果接收到结束命令，则处理结束。如果没有接收到结束命令，则在708该处理继续搜索输入语音信号。如果在708，在预定时间周期内没有接收到语音信号，则在728作出是否已经接收到结束的命令的确定。如果接收到结束命令，则该处理结束。当然，该系统可能具有导致处理结束的预定的超时或者周期限制，即使结束命令没有接收到也是如此。

如果在704，作出与正在请求服务的移动装置建立语音回路/信道的确定，则语音识别服务器系统等待与希望语音识别服务的移动装置的激活语音信道的建立。

按照本发明的原理，语音识别服务器系统起到移动装置的用户界面的延伸的作用。例如，对于利用本机用户界面，可能在一般情况下要求相当长的时间和努力进行输入的冗长的交互，用户可以选择使用语音识别服务。另外，因为移动装置的资源并不限制使用的语音识别应用程序，所以用户可以被提供访问一个大的词汇表。

本发明的优点是很多的。不同的实现可能产生一个或多个下面的优点。本发明的一个优点是某些移动装置(例如，具有有限处理和存储能力的装置)的用户能够使用全面功能的在远端服务器装置中运行的语音识别应用程序，增强了标准装置的用户界面。

本发明的另外的优点是因为所使用的语音识别应用不受移动装置的处理和存储的限制，可以给用户提供有全面功能特征的运行在更强有力的计算机中的语音识别应用程序的功能。与这个功能相关的优点包括提供给用户以具有大的词汇表的多语言词典和个性化的词典。另外，因为语音识别应用不是存储在移动装置中的，所以对移动装置的单机成本几乎没有或没有影响。本发明的再一个优点是提供服务的运营商可以对于访问它的用户收取少的服务费。

本发明的还再一个优点是用户可以同时利用语音识别服务和本机用户界面(例如，电话键盘)，因此提供给用户更多的灵活性。例如，用户可以输入语音信号并且混合从本机用户界面输入的符号。

从说明书的描述来看，本发明的许多特点和优点是明显的，所附的权利要求书应覆盖本发明的所有这些特点和优点。再有，因为对于本专业的技术人员将很容易作出多种修改和改变，所以本发明不是限制于按照所说明和描述的精确结构和构成上。因此，所有适当的修改和等效物应被视为落入本发明的范围内。

Claims

1．一种用于对具有显示屏幕和用户界面的无线通信装置提供语音识别服务的方法，包括：

在运行语音识别应用程序的服务器装置接收从无线通信装置发出的对语音识别服务的请求；

检索与来自第一通信路径的请求相关的语音输入信号；

利用语音识别应用程序变换该语音输入信号为符号数据文件；和

利用第二通信路径发送符号数据文件到无线通信装置。

2．按照权利要求1所述的方法，其中第一通信路径是建立在无线通信网上。

3．按照权利要求2所述的方法，其中该无线网是从下列一组网中选择的，这些网是：蜂窝数字分组数据(CDPD)网、移动通信全球系统(GSM)网、码分多址(CDMA)网、个人手持电话系统(PHS)或时分多址(TDMA)网。

4．按照权利要求1所述的方法，其中符号数据文件是一种标记语言文件。

5．按照权利要求1所述的方法，其中标记语言文件是从以下组合中选出的：手持装置标记语言(HDML)、超文本标记语言(HTML)、紧凑HTML(cHTML)、无线标记语言(WML)、标准通用标记语言(SGML)、可扩充标记语言(XML)。

6．按照权利要求1所述的方法，其中符号数据文件是二进制数据文件。

7．按照权利要求1所述的方法，其中符号数据文件是ASCII格式的数据文件。

8．按照权利要求1所述的方法，其中第二通信路径包括一链路服务器装置，经使用第一通信协议的有线网连接到运行语音识别应用程序的服务器装置，并且经使用第二通信协议的无线网连接到无线通信装置。

9．按照权利要求8所述的方法，其中第一通信协议是从以下一组协议中选择的，这些协议包括：传输控制协议(TCP/IP)、超文本传送协议(HTTP)、和安全超文本传输协议(sHTTP)。

10．按照权利要求8所述的方法，其中第二通信协议是无线通信协议。

11．按照权利要求10所述的方法，其中无线通信协议是从以下一组协议中选择的，这些协议是：无线接入协议(WAP)和手持装置传输协议(HDTP)。

12．按照权利要求1所述的方法，其中从无线通信装置中接收的请求包括用户专用的识别信息。

13．按照权利要求12所述的方法，其中该用户专用识别信息被用于检索用户专用文件，以处理对语音识别服务的请求。

14．按照权利要求1所述的方法，其中从无线通信装置中接收的请求包括装置专用识别信息。

15．按照权利要求14所述的方法，其中装置专用识别信息被用于检索用户专用文件，以处理对语音识别服务的请求。

16．按照权利要求14所述的方法，其中装置专用识别信息是从以下一组信息中选择的，这些信息包括：电话号码和统一资源识别符(URI)。

17．按照权利要求1所述的方法，其中无线通信装置是移动电话。

18．按照权利要求17所述的方法，其中移动电话包括微处理器和软件的存储区。

19．按照权利要求18所述的方法，其中微处理器利用在存储区中存储的软件来控制电话功能和本机应用程序。

20．按照权利要求19所述的方法，其中本机应用程序提供有关获得语音识别服务的功能。

21．一种对具有显示屏和用户界面的无线通信装置提供语音识别服务的方法，包括：

检索运行语音识别应用程序的服务器装置的联络信息；

产生对与所检索的联络信息相关的服务器装置的语音识别服务的请求；

将对语音识别服务的请求发送到与所检索的联络信息相关的服务器装置；

建立无线通信装置和与所检索的联络信息相关的服务器装置之间的语音通信信道；

从使用无线通信装置的用户接收输入，该输入的至少一部分包括语音组成部分；和

发送该用户输入到所述服务器装置，用于由语音识别应用程序进行处理。

22．按照权利要求21所述的方法，其中联络信息是从以下一组信息中选择的，这些信息包括：电话号码和统一资源识别符(URI)。

23．按照权利要求21所述的方法，其中语音通信信道是在无线网上建立的。

24．按照权利要求23所述的方法，其中无线网是从以下一组网中选择的，这些网是：蜂窝数字分组数据(CDPD)网、移动通信全球系统(GSM)网、码分多址(CDMA)网、个人手持电话系统(PHS)或时分多址(TDMA)网。

25．按照权利要求21所述的方法，还包括：

从与所检索的联络信息相关的服务器装置接收符号数据文件，该符号数据文件包括用服务器装置对用户输入进行语言识别处理的处理后输出；

利用无线通信装置的本机资源处理接收的符号数据文件；和

显示至少经处理的符号数据文件的一部分给用户，用于浏览和修改。

26．按照权利要求25所述的方法，其中接收的符号数据文件是标记语言文件。

27．按照权利要求26所述的方法，其中标记语言文件是从以下一组文件中选择的，这些文件是：手持装置标记语言(HDML)、超文本标记语言(HTML)、紧凑HTML(cHTML)、无线标记语言(WML)、标准通用标记语言(SGML)、可扩充标记语言(XML)。

28．按照权利要求25所述的方法，其中符号数据文件是二进制数据文件。

29．按照权利要求25所述的方法，其中符号数据文件是ASCII格式的数据文件。

30．一种计算机可读介质，该介质上具有用于对无线通信装置产生对语音识别服务的请求的编码的计算机程序代码，包括：

检索用于提供语音识别服务的服务器装置的联络信息的计算机程序代码；

产生对与检索到的联络信息相关的服务器装置的语音识别服务的请求的计算机程序代码；

用于从无线通信装置的用户接收语音的计算机程序代码，该输入是与对语音识别服务的请求相关的；和

计算机程序代码，用于建立无线通信装置与服务器装置之间的语音通信会话代码，以发送语音信号到服务器装置进行语音识别处理。

31．按照权利要求30所述的计算机可读介质，其中联络信息是从以下一组信息中选择的，这些信息是：电话号码和统一资源识别符(URI)。

32．一种计算机可读介质，该介质上有对无线通信装置提供语音识别服务的编码的计算机程序代码，包括：

用于从移动装置接收对语音识别服务的请求的计算机程序代码；

用于接收与对语音识别服务的请求相关的语音输入的计算机程序代码；

用于变换接收的语音输入为符号数据文件的计算机程序代码；

用于发送符号数据文件到始发请求的移动装置的计算机程序代码。

33．按照权利要求32所述的计算机可读介质，其中符号数据文件是一种标记语言文件。

34．按照权利要求33所述的计算机可读介质，其中符号数据文件是从以下一组语言中选择的：这些语言包括：手持装置标记语言(HDML)、超文本标记语言(HTML)、紧凑HTML(cHTML)、无线标记语言(WML)、标准通用标记语言(SGML)、可扩充标记语言(XML)。

35．按照权利要求32所述的计算机可读介质，还包括：

用于检索与该请求相关的用户专用文件的计算机程序代码；和

在变换处理中利用用户专用文件变换语音输入为符号数据文件的计算机程序代码。

36．按照权利要求35所述的计算机可读介质，其中用户专用文件含有用户的喜好选择。

37．按照权利要求35所述的计算机可读介质，其中用户专用文件含有用户的语音模板。

38．一种提供语音识别服务的无线通信系统，包括：

在第一通信路径为语音识别处理提供语音输入和在第二通信路径接收表示经处理的语音输入的符号数据文件的无线通信装置；和

运行语音识别应用程序的服务器装置，在第一通信路径上从无线通信装置接收语音输入，变换接收的语音输入为符号数据文件并且利用第二通信路径传送该符号数据文件到无线装置。

39．按照权利要求38所述的无线通信系统，其中第一通信路径是建立在无线网上。

40．按照权利要求39所述的无线通信系统，其中无线网是从以下一组网中选择的，这些网是：蜂窝数字分组数据(CDPD)网、移动通信全球系统(GSM)网、码分多址(CDMA)网、个人手持电话系统(PHS)或时分多址(TDMA)网。

41．按照权利要求40所述的无线通信系统，其中第二通信路径包括链路服务器装置，使用第一通信协议通过有线网连接到运行语音识别应用程序的服务器装置，并利用第二通信协议通过无线网连接到无线通信装置。

42．按照权利要求41所述的无线通信系统，其中第一通信协议是从以下一组协议中选择的，这些协议是：传输控制协议/因特网协议(TCP/IP)、超文本传输协议(HTTP)、和安全超文本传输协议(sHTTP)。

43．按照权利要求41所述的无线通信系统，其中第二通信协议是无线通信协议。

44．按照权利要求43所述的无线通信系统，其中无线通信协议是从以下一组协议中选择的，这些协议是：无线接入协议(WAP)和手持装置传输协议(HDTP)。

45．按照权利要求38所述的无线通信系统，其中无线通信装置是移动电话。

46．按照权利要求45所述的无线通信系统，其中移动电话包括微处理器和用于软件的存储区。

47．按照权利要求46所述的无线通信系统，其中微处理器利用存储在存储器区中的软件控制电话功能和本机应用程序。

48．按照权利要求47所述的无线通信系统，其中本机应用提供关于获得语音识别服务的功能。