CN1617559B

CN1617559B - 顺序多模输入

Info

Publication number: CN1617559B
Application number: CN2004100927273A
Authority: CN
Inventors: 洪小文; 王冠三
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-11-11
Filing date: 2004-11-11
Publication date: 2010-12-08
Anticipated expiration: 2024-11-11
Also published as: EP1531401A2; US20050101300A1; EP1531401A3; CA2484246C; US7363027B2; MXPA04010817A; RU2004130051A; BRPI0404355A; AU2004218692A1; JP2005149485A; CA2484246A1; RU2355045C2; KR20050045817A; CN1617559A

Abstract

一种用2.5G移动电话与客户机/服务器体系结构交互的方法，所述2.5G电话具有用于发送数据的数据信道和用于发送话音的语音信道。该方法包括依照一应用程序通过数据信道从web服务器接收网页，并在2.5G电话上呈现该网页，其中，呈现包括将该网页处理为响应的话音输入。从用户接收对应于该网页上的至少一个数据字段的话音。在语音信道上建立从2.5G电话到电话服务器的呼叫。电话服务器远离该2.5G电话，并适用于处理话音。从该web服务器获取一对应于向该2.5G电话提供的网页的话音启用的网页。话音从该2.5G电话发送到电话服务器。话音依照该话音启用的网页来处理，以获取依照该话音的文本数据。文本数据被发送到web服务器。通过数据信道在2.5G电话上获取一新网页，并被呈现为具有该文本数据。

Description

顺序多模输入

技术领域

本发明涉及计算机系统中信息的访问和呈现，尤其涉及用于第二代(“2.5G”)移动或蜂窝电话的顺序多模输入。

背景技术

诸如个人信息管理器(PIM)、设备和便携式电话等小型计算设备由人们在他们的日常活动中正越来越多地使用。由于现在对用于运行这些设备的微处理器可用的处理能力的提高，这些设备的功能也随之增加，并且在某些情况下，功能被合并。例如，许多便携式电话，尤其是2.5G电话现在可用于访问并浏览因特网，并可用于储存诸如地址、电话号码等个人信息。

考虑到这些计算设备用于浏览因特网，或在其它服务器/客户机体系结构中使用，因此，必须向这些计算设备输入信息。不幸的是，由于期望保持这些设备尽可能的小，以使它们能够便于携带，把字母表的所有字母作为独立按钮的常规键盘通常是不可能的，这是由于这些计算设备的外壳上的有限的可用表面区域。由此，为导航诸如因特网等客户机/服务器体系结构，这类设备的用户必须以提供文本信息来填充网页的需要字段、或提供指令的方式操纵有限的键盘。尽管2.5G电话包括数据输入的另外的模态，诸如使用能够呈现小型字母数字键盘，并用于通过仅使用有限的12按钮键盘的早期“2.5G”电话上的输入笔来输入数据的触敏屏幕，用户仍必须手动选择字符以填充给定网页上的文本框等。这一输入方式仍是相当慢的，并由此限制了用于提供或接收信息的能力。

最近，推进了诸如通过使用SALT(语音应用语言标签)VoiceXML(语音可扩展标记语言)的语音入口，以允许仅使用电话来访问因特网内容。在这一体系结构中，文档服务器(如，web服务器)通过SALT/VoiceXML解释程序处理来自客户机的请求。web服务器可在回复中生成SALT/VoiceXML文档，它由SALT/VoiceXML解释程序处理，并可听见地向用户呈现。使用通过语音识别的语音命令，用户可导航web。这一因特网导航技术也是有局限的，尤其是当从web服务器获取的信息被呈现回用户时，因为它必须被可听见地呈现。另外，由于不可视地确认识别的结果，用户无法保证作出了正确的识别。尽管可提供识别结果的听觉确认，这一确认是耗时的，由此减损了现代化的或有效的用户体验。

由此，需要改进用于访问服务器/客户机体系结构中的信息，尤其是诸如2.5G电话等设备访问服务器信息的体系结构和方法。

发明内容

一种用2.5G移动电话与客户机/服务器体系结构交互的方法，该移动电话具有用于发送数据的数据信道和用于发送话音的语音信道。该方法包括依照一应用程序通过数据信道从web服务器接收网页，并在2.5G电话上呈现该网页，其中，呈现包括将网页处理成响应的话音输入。从用户接收对应于该网页上的至少一个数据字段的话音。在语音信道上建立从2.5G电话到电话服务器的呼叫。电话服务器远离2.5G电话，并适用于处理话音。从对应于提供给2.5G电话的网页的web服务器获取话音启用的(speech-enabled)网页。话音从2.5G电话发送到电话服务器。话音依照话音启用的网页来处理，以获取依照该话音的文本数据。文本数据被发送到web服务器。通过数据信道在2.5G电话上获取新的网页，并呈现具有文本数据的该页。

当从2.5G电话的操作来看，作为本发明的另一方面，该方法包括依照一应用程序通过数据信道从web服务器接收网页，并在该2.5G电话上呈现该网页，其中，呈现包括将该网页处理为响应的话音输入。从用户接收对应于该网页上的至少一个数据字段的话音。在语音信道上建立从2.5G电话到电话服务器的呼叫，电话服务器远离该2.5G电话，并适用于处理话音。话音从2.5G电话发送到电话服务器。通过数据信道在2.5G电话上获取新的网页，并呈现具有依照该话音的文本数据的该新页。

附图说明

图1是一个计算设备操作环境的平面视图。

图2是图1的计算设备的框图。

图3是2.5G便携式电话的平面视图。

图4是通用计算机的框图。

图5是客户机/服务器系统的体系结构的框图。

图6所示是向图5的体系结构作出的连接以提供顺序多模交互的框图。

图7A和7B一起示出了提供顺序多模交互的示例性方法的流程图。

图8是在2.5G电话上呈现的示例性文本框的图示。

图9是在2.5G电话上呈现的具有识别结果的示例性文本框的图示。

具体实施方式

本发明的一方面是一种向多模输入提供由第二代(“2.5G”)电话实现的话音识别的方法。如本发明所使用并已普遍知晓的，2.5G电话能够通过语音信道发出语音呼叫，但是除此之外，它还包括能够通过单独的数据信道发送和接收数字数据的电路。2.5G电话一般包括一压敏显示屏，它可结合输入笔一起使用，以提供指向显示屏上的图形实体、或与在屏幕上呈现的软键盘交互、或与手写识别区域交互的能力。使用这些设备，用户能够导航客户机/服务器体系结构中的网站，并通过发送和接收文本数据获取信息。数据在小型显示屏上呈现。本发明的一个方面是用户能够向电话提供话音作为对所选择的字段的一种输入形式，由此绕过了输入等效文本的繁重任务。

参考图5，示出了体系结构200用于可在本发明中使用的基于web的话音识别。一般而言，储存在web服务器202上的信息可通过移动设备30(此处也表示其它形式的具有显示屏以及检测声音信号的麦克风的计算设备)来访问；或通过简单的电话80来访问，其中，信息是可听见地请求的，或通过由电话80响应于按下的按键所生成的音调来请求，并且其中，仅用听觉的形式向用户返回来自web服务器202的信息；或通过2.5G电话81来访问，其中，信息也可从web服务器202访问，并作为诸如通过WAP(无线应用协议)发送的WML或XHTML页等页面来提供。本发明所采用的体系结构200允许2.5G电话81用于话音识别，以提高其可用性，而进一步利用了2.5G电话的可视呈现能力来呈现识别的结果。

然而，更重要的是，体系结构200是统一化的，不论信息是通过设备30、简单电话80还是使用话音识别的电话81获取的，单个话音服务器204可支持每一操作模式。另外，体系机构200使用众所周知的标记语言(如，HTML、XHTML、cHTML、XML、WML等等)的扩充。由此，储存在web服务器202上的信息也可使用这些标记语言中的众所周知的GUI方法来访问。通过使用众所周知的标记语言的扩充，web服务器202上的设计变得更简单，并且也可容易地修改现有的传统应用程序以包括语音识别。

在进一步描述基于web的话音识别的体系结构200，尤其是为2.5G电话81实现基于web的话音识别的方法之前，一般描述可在体系结构200中起作用的其它计算设备将是有用的。

现在参考图1，在30处示出了数据管理设备(如，PIM、PDA等)的示例性形式。移动设备30包括外壳32，并具有包括显示屏34的用户接口，它使用接合输入笔33的触敏显示屏。输入笔33用于在指定的坐标按压或接触显示屏34来选择字段、选择性地移动光标的起始点、或提供命令信息。可选地，或除此之外，可在设备30上包括一个或多个按钮35用于导航。另外，也可提供其它输入机制，如可旋转滚轮、滚筒等等。

现在参考图2，框图示出了构成移动设备30的功能组件。中央处理单元(CPU)50实现软件控制功能。CPU 50耦合至显示屏34，使依照控制软件生成的文本和图标能够出现在显示屏34上。扬声器43通常可用数-模转换器59耦合至CPU 50以提供声音输出。下载或由用户输入到移动设备30的数据储存在双向耦合至CPU50的非易失读/写随机存取存储器存储54中。随机存取存储器(RAM)54提供CPU50执行的指令的存储，以及诸如寄存器值等临时数据的存储。配置选项和其它变量的默认值储存在只读存储器(ROM)58中。ROM 58也可用于为设备储存控制移动设备30的基本功能的操作系统软件以及其它操作系统内核功能(如，软件组件加载到RAM 54中)。RAM 54也以类似于PC上用于储存应用程序的硬盘的功能的方式担当代码存储的作用。

无线信号可由移动设备通过耦合至CPU 50的无线收发器52发送/接收。如有要求，也可提供可任选的通信接口60用于直接从计算机(如，台式机)或有线网络下载数据。因此，接口60可包括各种形式的通信设备，如红外链接、调制解调器、网卡等等。

移动设备30包括麦克风29、模-数(A/D)转换器37以及储存在存储54中的可任选话音识别程序。响应于来自设备30的用户的声音信息、指令或命令，麦克风29提供由A/D转换器37数字化的话音信号。话音识别程序可在数字化的话音信号上执行规范化和/或特征提取功能，以获取中间的话音识别结果。使用无线收发器52或通信接口60，话音数据被发送到下文在图5的体系结构中示出并讨论的远程话音服务器204。识别结果然后返回到移动设备30用于在其上呈现(如，可视和/或可听)，并最终发送到web服务器202(图5)，其中，web服务器202和移动设备30以客户机/服务器的关系操作。

图3是2.5G电话81的一个示例性实施例的平面视图。电话81包括显示屏82和键盘，通常为呈现在显示屏上的软键盘84的形式。一般而言，电话81包括通过87所示的语音信道作出语音呼叫，以及通过85所示的数据信道发送和接收数字数据的电路。这一类型的2.5G电话可从许多制造商处获得，并可依照意义明确的标准和协议来操作。关于该电路的操作的具体细节对理解本发明并非所需。然而，一般而言，2.5G电话具有许多以类似方式操作的如图2所示的功能块。2.5G电话通常不提供话音识别，因而不包括话音识别程序以及关联的硬件来执行话音识别。配备有无线收发器以通过语音信道87作出语音呼叫，同时配备了通信接口以通过数据信道85发送和接收数据。

除上述便携式或移动计算设备之外，也应当理解，本发明可用于许多其它的计算设备，如一般的台式机。例如，体系结构200将允许残疾人在诸如全字母数字键盘等常规输入设备太难操作时向计算机或其它计算设备输入文本。

以下是图4所示的通用计算机120的简要描述。然而，计算机120仍仅为合适的计算环境的一个示例，并非暗示对本发明的使用或功能的范围的局限。也不应将计算机120解释为对此处示出的任一组件或其组合具有依赖或需求。另外，个人计算机120可为体系结构200的其它组件，诸如-但不限于-web服务器202、话音服务器204以及电话语音浏览器212提供核实的操作环境。

本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言，程序模块包括例程、程序、对象、组件、数据结构等等，执行特定的任务或实现特定的抽象数据类型。本发明也可以在分布式计算环境中实践，其中，任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。由程序和模块执行的任务在下文借助附图来描述。本领域的技术人员可将附图和描述实现为可写入任一形式的计算机可读媒质的处理器可执行指令。

参考图4，计算机120的组件可包括但不限于，处理单元140、系统存储器150以及将包括系统存储器的各类系统组件耦合至处理单元140的系统总线141。系统总线141可以是若干种总线结构类型的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的局部总线。作为示例而非局限，这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线，也称为Mezzanine总线。计算机120通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机120访问的任一可用媒质，包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限，计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失，可移动和不可移动媒质。计算机存储媒质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机120访问的任一其它媒质。

通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限，通信媒质包括有线媒质，如有线网络或直接连线连接，以及无线媒质，如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。

系统存储器150包括以易失和/或非易失存储器形式的计算机存储媒质，如只读存储器(ROM)151和随机存取存储器(RAM)152。基本输入/输出系统153(BIOS)包括如在启动时帮助在计算机120内的元件之间传输信息的基本例程，通常储存在ROM 151中。RAM 152通常包含处理单元140立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限，图4示出了操作系统154、应用程序155、其它程序模块156和程序数据157。

计算机120也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例，图4示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器161、对可移动、非易失磁盘172进行读写的磁盘驱动器171以及对可移动、非易失光盘176，如CD ROM或其它光媒质进行读写的光盘驱动器175。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器161通常通过不可移动存储器接口，如接口160连接到系统总线141，磁盘驱动器171和光盘驱动器175通常通过可移动存储器接口，如接口170连接到系统总线141。

图4讨论并示出的驱动器及其关联的计算机存储媒质为计算机120提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图4中，示出硬盘驱动器161储存操作系统164、应用程序165、其它程序模块166和程序数据167。注意，这些组件可以与操作系统154、应用程序155、其它程序模块156和程序数据157相同，也可以与它们不同。这里对操作系统164、应用程序165、其它程序模块166和程序数据167给予不同的标号来说明至少它们是不同的副本。

用户可以通过输入设备，如键盘182、麦克风183和定位设备181(如鼠标、跟踪球或触摸板)向计算机120输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口180连接至处理单元140，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器184或其它类型的显示设备也通过接口，如视频接口185连接至系统总线141。除监视器之外，计算机也包括其它外围输出设备，如扬声器187和打印机186，通过输出外围接口184连接。

计算机120可以在使用到一个或多个远程计算机，如远程计算机194的逻辑连接的网络化环境中操作。远程计算机194可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点，并通常包括许多或所有上述与计算机120相关的元件。图4描述的逻辑连接包括局域网(LAN)191和广域网(WAN)193，但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。

当在LAN网络环境中使用时，计算机120通过网络接口或适配器190连接至LAN 191。当在WAN网络环境中使用时，计算机120可包括调制解调器192或其它装置，用于通过WAN 193，如因特网建立通信。调制解调器192可以是内置或外置的，通过用户输入接口180或其它合适的机制连接至系统总线141。在网络化环境中，描述的与计算机120相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限，图4示出了远程应用程序195驻留在远程计算机194上。可以理解，示出的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其它装置。

图5示出了可在本发明中使用的基于web的话音识别的体系机构200。如上所述，储存在web服务器202上的信息可通过移动设备30、简单电话80或2.5G电话81来访问。本发明使用的体系结构200和标记语言在已公布的美国专利申请US2002-0169806 A1(2002年11月14日)中有进一步的描述，该申请通过整体应用结合于此。

一般而言，从设备30开始，设备30执行web服务器202提供的HTML脚本或其类似物。当需要语音识别时，连同在话音识别过程中使用的语法或语言模型的指示向话音服务器204提供话音数据，该数据可以是数字化的音频信号或话音特征，其中，音频信号如上所述地由设备30进行预处理。话音服务器204的实现可采用多种形式，示出的是其中之一，但一般都包括话音识别器211。如期望或适当时，话音识别的结果被提供回设备30用户本地呈现。如需要，在通过语音识别和任一图形用户界面(如果使用了的话)编辑了信息之后，设备30向web服务器202发送该信息用于更多HTML脚本的进一步处理和接收。

如图5所示，设备30、2.5G电话81、web服务器202、电话语音浏览器212以及话音服务器204通常连接在一起，并可通过网络205(此处为诸如因特网等广域网)单独寻址。因此，这些设备中的任何一个不必物理地彼此相邻。特别地，web服务器不必包括话音服务器204。以这一方式，web服务器202上的创作可集中在其预期的应用程序上，而作者无需知晓话音服务器204的复杂性。相反，话音服务器204可被独立地设计，并连接到网络205，由此可被更新和改进，而不需要对web服务器202作进一步的改变。另外，话音服务器204可服务许多客户机设备30、电话80和81和/或web服务器202。

在另一实施例中，web服务器202、话音服务器204和客户机30可根据实现机器的能力来组合。例如，如果客户机包括通用计算机，如个人计算机，则客户机可包括话音服务器204。同样，如期望，web服务器202和话音服务器204可被结合进单个机器中。

对于客户机设备30，在客户机/服务器系统中处理语音识别的方法包括从服务器202接收具有被配置成从客户机设备的用户获取话音数据的扩充的标记语言页；在该客户机设备上执行该标记语言页；向远离该客户机的话音服务器发送话音数据(表示从用户获取的话音)以及关联的语法；以及在客户机处从话音服务器接收识别结果。可提供具有用于在客户机/服务器系统中的客户机设备上执行的标记语言的计算机可读媒质，该标记语言具有指示与通过客户机设备输入的话音关联的语法的指令。

通过电话80对web服务器202的访问包括电话80到有线或无线电话网络208的连接，后者进而将电话80连接到第三方网关210。网关210将电话80连接到电话语音浏览器212。电话语音浏览器212包括提供电话接口的媒体服务器214以及语音浏览器216。与设备30一样，电话语音浏览器212从web服务器202接收HTML脚本或其类似物。然而，更重要的是，HTML脚本是类似于提供给设备30的HTML脚本的形式。以这一方式，web服务器202不需要单独支持设备30和80，或甚至不需要单独支持标准GUI客户机。相反，可使用一公用标记语言。另外，与设备30一样，通过网络205或专用线207，例如使用TCP/IP，从语音浏览器216向话音服务器204提供由电话80发送的声音信号的语音识别。通过电话语音浏览器212和电话向用户以可听见的方式呈递返回识别结果和其它信息。

如上所示，标记语言，如HTML、XHTML、cHTML、XML、WML或具有任一其它从SGML衍生的标记可包括在客户机/服务器体系结构中提供话音识别的控制和/或对象。以这一方式，作者可调节这些标记语言中的所有工具和专业知识，它们是这一体系结构中使用的主要web开发平台。

一般而言，控制和/或对象可包括以下功能的一个或多个：用于识别器配置、识别器执行和/或后处理的识别器控制和/或对象；用于合成器配置和提示播放的合成器控制和/或对象；用于指定输入语法资源的语法控制和/或对象；和/或用于处理识别结果的绑定控制和/或对象。将扩充设计成轻便的标记层，它给现有标记语言添加了话音接口能力。由此，扩充可保持独立于：可包含它们的高级页，如HTML；使用扩充来引用语言资源的低级格式，如文本-话音及语法格式；以及话音服务器204中使用的识别和话音合成平台的个别属性。

应当注意，本发明可使用诸如话音应用语言标签(SALT)等标记语言扩充来实施。SALT是一种用于启用例如从个人计算机、电话、图形输入板PC和无线移动设备对信息、应用程序和web服务的访问的开发标准。SALT扩充了现有的标记语言，如HTML、XHTML和XML。SALT 1.0规范可在http://www.SALTforum.org上找到。

通过2.5G电话81提供了与上述的体系结构200的多模交互。一般而言，多模交互允许以基于用户期望的自然方式访问web服务器202的信息。具体地，与局限于通过操纵输入笔以文本格式提供命令并接收结果作为可视显示的文本相反，如若期望，用户可选择提供话音作为输入媒质，并以可视的方式接收结果或是作为合成话音。然而，对于诸如具有有限处理能力和更多众所周知的需求的2.5G电话81等设备，尽管有用于连接到诸如因特网等网络的数据信道可用，并有用于作出呼叫的单独的语音信道可用，但这些信道无法被同时访问。结果，需要数据和语音信道的多模交互必须被顺序地执行，以术语称之为“顺序多模性”。然而，上述之体系结构200以及下文描述的方法可用于提供与web服务器202的顺序多模交互。2.5G电话81在该体系结构中的集成是尤其有利的，因为对web服务器202的访问与诸如设备30或电话80等其它设备是一致的，使得web服务器202和在其上运行的应用程序不需要被彻底改变以支持除设备30和电话80之外的2.5G电话81。以这一方式，应用程序开发者没有提供单独的应用程序以支持可访问该信息的每一设备的负担，而是相反可提供一种支持具有不同能力的许多不同设备的更统一的代码。

图6示出了可应用到2.5G电话81的顺序多模情形，其中，话音识别结果使用HTML或等效的页以文本格式呈现。

图7A和7B示出了用2.5G电话81执行顺序多模话音识别的方法300的示例性步骤。

在说明性示例中，假定最初对web服务器202作出请求，由图6的箭头302所示，以访问针对安排航班的应用程序，这在步骤304中指明。

在步骤306，web服务器202向2.5G电话81提供页(箭头307)，在本示例中，该页包括用于出发城市的数据字段项的文本框或其它指示，以及用于出发州的数据字段项的文本框或其它指示。这些字段在图8中在308和310处图示出。从web服务器到2.5G电话的网页的传输是通过无线数据信道85。

在常规的2.5G电话中，用户具有通过操纵输入笔或其它定位设备来选择期望的字母数字符号，向文本框或数据字段308和310的每一个输入文本的选项。例如，用户可选择列出美国的各州的下拉菜单，并向下滚动直到显示期望的州，然后选择该期望的州，使得它呈现在文本框310中。然而，城市信息的条目可能不包含在下拉菜单中，在这一情况下，用户然后可使用输入笔通过软键盘来选择该城市名的各个字符。

在本发明中，如期望，用户能够提供依照数据字段308和310的每一个的话音输入，由此避免了操纵输入设备。

在步骤312，用户提将提供话音输入的指示。该指示可采用诸如激活电话上的软按钮或硬按钮的形式。在一个特别方便的实施例中，用户只要以类似于操作客户机30的方式按压将向其提供话音输入的文本框。然而，其它形式的指示可包括可在2.5G电话81上本地处理并识别的所选择的语音命令。

在步骤314，2.5G电话81启动对电话语音浏览器212语音呼叫，如图6中的箭头316所示。在这一点上，应当注意，步骤306提供的网页类似于上述向客户机设备30提供的话音启用的网页，因为有标签用于指示将对诸如文本框等所选择的输入提供话音。然而，标签不以启动到话音服务器的话音数据的数据传输的相同方式起作用，而是相反用于启动到语音浏览器212的呼叫，以通过语音信道87提供从用户到电话语音浏览器212的输入话音。

在与电话语音浏览器的连接之后，在步骤318，电话语音浏览器212依照先前在步骤306发送的网页从web服务器202请求具有与话音识别关联的标签的语音启用的网页。这由箭头320表示。在一个实施例中，如箭头323所示的在步骤321向电话语音浏览器212提供的正确的网页由web服务器202通过与2.5G电话81关联的电话号码或其它符号标识符来确认。由此，web服务器202可通过电话号码或其它标识符维护通过数据信道85直接发送到2.5G电话81的页、以及在web服务器202和电话语音浏览器212之间传输的那些页的正确关联。从web服务器202发送到电话语音浏览器212的一个或多个页包含用于在步骤306发送到2.5G电话81的网页的数据字段的话音识别所需的所有语法或其指示。

当电话语音浏览器212能够通过语音信道87从用户接收话音时，在步骤324，用户为一个或多个字段提供话音。应当注意，在一个实施例中，可由电话语音浏览器212或电话81向用户提供合适的提示，如音调或语音命令，以提示用户开始说话。电话语音浏览器212可在从web服务器202接收了对应的话音启用的页之后启动该提示。然而，在另一实施例中，电话语音浏览器212可在接收话音启用网页之前提供该提示，并在合适的缓冲器或其它存储设备中临时储存接收的话音，以将从在步骤312用户指示将提供话音到在步骤324实际提供了话音之间的时间最小化。

使用话音服务器202以上文关于电话80的操作一般描述的相同的方式处理输入话音。具体地，电话语音浏览器212在步骤326向话音服务器204提供输入话音，如箭头328所示。

电话语音浏览器212处理通过语音信道87来自用户的输入话音，直到电话语音浏览器212检测到不再有话音提供，诸如通过检测音量在一段持续时间内低于选择的水平。在这一点上，电话语音浏览器212在步骤332发送“挂起”信号，以去激活语音信道87，如箭头334所示。同时，或可选地在步骤332之前或之后，话音服务器204执行识别，其结果在步骤336被传输回web服务器202，如图6的箭头338所示。web服务器202依照与2.5G电话81相关联的电话号码或其它标识符接收识别结果。

在步骤340，2.5G电话向web服务器202作出对更新的页的新请求以包括话音识别结果，如箭头342所示。也应当注意，该请求可包括2.5G电话使用不同的模态收集的其它信息。例如，如上所述，用户可选择使用下拉菜单和输入笔来为文本框310选择州名。在步骤340发送到web服务器的请求可包括该信息。

在步骤344，web服务器202将从话音服务器204接收的对应于2.5G电话81提供的如由电话号码标识的输入的话音识别结果与由2.5G电话在步骤340发送的非话音模态提供的任何其它输入相组合。当自步骤340对新的更新的页的请求超前于在步骤336从话音服务器204所得的话音识别结果的传输时，这必然伴有轻微的延迟。在一个实施例中，web服务器202使用华盛顿州雷蒙德市的微软公司的ASP+来操作，其中，“runat＝server”形式的指令可用于指令web服务器将从2.5G电话发送的信息与由话音服务器204提供的话音识别结果相组合，以生成一新的更新网页。使用合适的会话状态标识符，并由web服务器202维护它们，以确保同一格式的网页相对于时间进行标识以正确地组合信息。在步骤350，向2.5G电话81发送回新的网页，如箭头352所示，在一个示例性实施例中，该网页具有文本框308和310的数据。图9示出了在步骤350接收的新的网页。

上文说明了为2.5G电话提供话音输入的顺序多模操作。图5所示的体系结构令图7A和7B所示的方法的重复操作能够为与网页关联的其它字段，或者与其它网页关联的字段提供话音输入，以在给定2.5G电话81的有限能力的情况下提供有效的话音交互。

尽管参考特定的实施例描述了本发明，本领域的技术人员将认识到，可在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

Claims

1.一种用2.5G移动电话与客户机/服务器体系结构进行交互的方法，所述2.5G电话具有用于发送数据的数据信道以及用于发送话音的语音信道，所述方法包括：

依照一应用程序通过所述数据信道从一web服务器接收网页，并在所述2.5G电话上呈现所述网页，其中，所述网页包括至少一个数据字段，并且其中，呈现包括将所述网页处理为响应于话音输入；

从用户接收对应于所述网页上的所述至少一个数据字段的话音；

在所述语音信道上建立从所述2.5G电话到电话服务器的呼叫，所述电话服务器远离所述2.5G电话，并适用于处理话音；

由所述电话服务器从所述web服务器获取一与向所述2.5G电话提供的所述网页相对应的话音启用的网页，所述话音启用的网页包括在客户机/服务器体系结构中提供话音识别的控制和/或对象，所述控制和/或对象包括用于识别器配置、识别器执行和/或后处理的识别器控制和/或对象；用于合成器配置和提示播放的合成器控制和/或对象；用于指定输入语法资源的语法控制和/或对象；和/或用于处理识别结果的绑定控制和/或对象；

从所述2.5G电话向所述电话服务器发送话音；

由所述电话服务器依照所述话音启用的网页处理所述话音，以获取依照所述话音的文本数据，其中所述文本数据对应于所述至少一个数据字段；

由所述电话服务器向所述web服务器发送所述文本数据；以及

通过所述数据信道在所述2.5G电话上获取一新网页，并呈现具有在所述至少一个数据字段处输入的所述文本数据的所述新网页。

2.如权利要求1所述的方法，其特征在于，处理所述话音包括向远离所述电话服务器的话音服务器发送表示所接收的话音的数据，所述话音服务器处理表示所接收的话音的数据以获取所述文本数据，并且其中，向所述web服务器发送所述文本数据包括所述话音服务器发送所述文本数据。

3.如权利要求1所述的方法，其特征在于，在所述语音信道上建立从所述2.5G电话到电话服务器的呼叫包括获取与所述2.5G电话相关联的标识符。

4.如权利要求3所述的方法，其特征在于，从所述web服务器获取一对应于向所述2.5G电话提供的网页的话音启用的网页包括使用与所述2.5G电话相关联的标识符。

5.如权利要求4所述的方法，其特征在于，获取标识符包括标识与所述2.5G电话相关联的电话号码。

6.如权利要求1所述的方法，其特征在于，它还包括，在从所述web服务器获取所述新网页之前，由所述电话服务器检测话音输入的完成、断开所述语音信道，并从所述web服务器请求一新网页。

7.如权利要求6所述的方法，其特征在于，它还包括将对应于所呈现的网页上的至少一个其它数据字段的非话音数据发送到所述web服务器。

8.如权利要求7所述的方法，其特征在于，它还包括在所述web服务器上将用于所述至少一个其它数据字段的所述非话音数据与所述文本数据相组合，以形成所述新网页。

9.如权利要求8所述的方法，其特征在于，它还包括在所述电话服务器获取所述新网页之前断开所述语音信道。

10.一种用2.5G移动电话与客户机/服务器体系结构交互的方法，所述2.5G电话具有用于发送数据的数据信道以及用于发送话音的语音信道，其特征在于，所述方法包括：

依照一应用程序通过所述数据信道从web服务器接收网页，并在所述2.5G电话上呈现所述网页，其中，呈现包括将所述网页处理为响应的话音输入，并且其中，所述网页包括至少一个数据字段；

在所述语音信道上建立从所述2.5G电话到电话服务器的呼叫，所述电话服务器远离所述2.5G电话，并适用于根据由所述web服务器提供的、与从所述web服务器接收的网页相对应的话音启用的网页来处理话音，所述话音启用的网页包括在客户机/服务器体系结构中提供话音识别的控制和/或对象，所述控制和/或对象包括用于识别器配置、识别器执行和/或后处理的识别器控制和/或对象；用于合成器配置和提示播放的合成器控制和/或对象；用于指定输入语法资源的语法控制和/或对象；和/或用于处理识别结果的绑定控制和/或对象；

从所述2.5G电话向所述电话服务器发送话音；以及

在所述2.5G电话上通过所述数据信道获取一更新的网页，并呈现具有依照所述话音更新的相应的至少一个数据字段的所述更新的网页。

11.如权利要求10所述的方法，其特征在于，在所述语音信道上建立从所述2.5G电话到电话服务器的呼叫包括发送与所述2.5G电话相关联的标识符。

12.如权利要求11所述的方法，其特征在于，发送标识符包括发送与所述2.5G电话相关联的电话号码。

13.如权利要求10所述的方法，其特征在于，它还包括，在从所述web服务器获取所述新网页之前，由所述电话服务器检测话音输入的完成、断开所述语音信道，并从所述web服务器请求一新网页。

14.如权利要求13所述的方法，其特征在于，它还包括将对应于所呈现的网页上的至少一个其它数据字段的、用于所述至少一个其他字段的非话音数据发送到所述web服务器。