CN1329739A - 到服务应用程序上的用户接口的声音控制 - Google Patents
到服务应用程序上的用户接口的声音控制 Download PDFInfo
- Publication number
- CN1329739A CN1329739A CN99814212.3A CN99814212A CN1329739A CN 1329739 A CN1329739 A CN 1329739A CN 99814212 A CN99814212 A CN 99814212A CN 1329739 A CN1329739 A CN 1329739A
- Authority
- CN
- China
- Prior art keywords
- audio input
- vocabulary
- input signal
- definition
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006870 function Effects 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 23
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000008878 coupling Effects 0.000 description 9
- 238000010168 coupling process Methods 0.000 description 9
- 238000005859 coupling reaction Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 241001673391 Entandrophragma candollei Species 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 102100031970 Alpha-N-acetylgalactosaminide alpha-2,6-sialyltransferase 2 Human genes 0.000 description 1
- 101000703723 Homo sapiens Alpha-N-acetylgalactosaminide alpha-2,6-sialyltransferase 2 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000865 membrane-inlet mass spectrometry Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
从远程服务器提供给终端的服务应用程序的声音控制被分布在终端和远程应用程序部分之间。相对低性能的自动语言识别系统(ASR)被提供在终端内以识别用户提供的声音输入部分,这些输入与终端功能或由预先定义的标识语言所定义的功能相关联。被识别的字可以被用于控制终端功能,或者也可被转换成文本并发送给远程服务器。声音输入中未被识别的部分可被编码并发送给包含有更强大的ASR的远程应用程序部分。远程应用程序部分可以使用其ASR去识别由应用程序定义的字。被识别的字可被转换成文本并提供为远程服务器的输入。在相反的方向上,从远程服务器上被远程应用程序部分接收的文本可以被转换成被编码的声音输出信号,并被发送给能够生成信号提供给扩音器的终端。这样,声音控制机制可被用于代替远程服务器的可视显示输出和键盘输入。
Description
发明背景
一般地,本发明与服务应用程序的控制相关。尤其是关于服务应用程序的声音控制以及来自远程终端上的服务应用程序的声音控制。
用于因特网上存取的最一般的终端类型是传统的个人计算机(PC)终端,具有大屏幕、高分辨率的显示器和相对高的数据传送带宽。当用户希望用因特网连接去控制放在远程位置上的服务应用程序时,典型地,他/她将使用连接在PC终端上的键盘键入命令。数据通过因特网被传送到服务应用程序上,服务应用程序按其进行响应。用户的PC终端显示器允许响应信息以用户便于观看的文本和/或图像的形式被显示出来。
使用无线标识语言(WML)的无线应用程序协议(WAP)的近期标准化使得具有小显示器、有限处理能力以及低数据传送带宽(即数字蜂窝电话和终端)的终端能够存取和控制服务网络上如因特网上的服务和内容。WAP是分层通讯协议,它包括网络层(例如传送层和会话层)和包括微型浏览器、脚本、电话增值服务以及内容格式在内的应用程序环境。WML中简单的句法和有限的词汇使得WAP适于控制服务并与带有低处理和显示能力的用户终端上的内容进行交互作用。
虽然使用这种较小终端的优点在于为用户提供了较多方便(在各种旅行中用户能更方便地携带它们),但是从小显示器上读取选择菜单和其它大量文本(例如电子邮件和帮助文本)并在具有多功能键的小键盘上为键入响应信息时就会具有某些不利之处。通过用到服务应用程序上的声音控制接口作为替换,这些不利之处大部分可被克服。声音控制接口也可用于提供服务应用程序的“非动手”操作,例如在用户正在驾驶汽车时会需要这种操作。
自动语音识别系统(ASR)已为熟知。用于支持声音控制应用程序的ASR可以是中央服务器上用户共享的资源或用户终端上的资源。较简单的ASR可识别字间有停顿的单字,而高级的ASR能够识别连续字。随着与应用程序在任何特定的对话场合下应被识别的词汇量
的增加,ASR的复杂度也增加。
如果ASR被应用在中央服务器上,它必需能够识别具有不同语言、方言及口音的多个用户。传统的依赖说话者的语音识别系统通常使用具有有限的词汇(例如“是”“否”“一”“二”等)的单字ASR以便降低被要求的处理总量并保持低错误率。另一个用于改进识别精度的选择是:通过用各用户各自的声音去训练识别器并要求用户反复读或拼写误解的字,使得语音识别能适应该用户。在多用户环境中,各用户的个人属性必需被存储。
语音识别器在终端上的实现仅必需识别一个用户(或很少数量的用户),因此适应训练可以被应用。复合字ASR的要求的处理过程仍是大量的因而不能被应用在终端上。例如,现在的移动终端的处理能力(例如用在蜂窝电话系统中的终端、个人数字助手和特定目的的无线终端)用于实现具有少量词汇的单字ASR(例如用于拨号和存取存储在终端上的个人电话簿)是足够的。训练可能被要求用于在词表中增加新的字。
在现今的中央式服务器ASR中存在的一个问题是声音信道(声音呼叫)必需被建立在终端和网关或执行声音识别的服务器之间。然而,声音信道可能引入失真、回声和噪声,这将降低识别性能。
中央式ASR也是贵且有限的网络资源,它要求高处理能力、大数据库和对个人声音及方言的适应训练能力,以便降低识别过程中的错误率。因为它是有限的资源,所以中央处理器或网关可能需要执行拨号声音信道存取功能。
新一代WAP支持式移动终端能控制大量不同的服务和内容,并与它们进行交互作用。然而,终端显示器和键盘典型地具有有限的输入/输出(I/O)能力,因而使得声言控制接口是合乎需要的。正如上面解释的,现在的低成本终端能支持一些ASR功能,但是不能充分地支持要求大量词汇或要求对各应用程序的识别器进行耗时训练的多用户应用程序服务器上的声音存取。
发明概述
因而本发明的一个目的是提供方法和装置,用于通过声音控制接口使比较低性能的终端能存取并控制远程服务器应用程序。
前述的目的以及其它目的在用于控制提供由远程服务器给终端
的服务应用程序的方法和装置中得以实现。按本发明的一个方面,通过接收代表声音信息的声音输入信号并使用放在终端上的第一自动语音识别系统去确定是否声音输入信号中包括一个或多个由第一词汇表定义的字,这一目的得以实现。其中不能对应第一词汇表定义的一个或多个字的声音输入信号部分组成了声音输入信号中未被识别的部分。如果声音输入信号包括一个或多个由第一词汇表定义的字,应用程序协议服务逻辑的终端应用程序部分被用于确定用由第一词汇表定义的一个或多个字做些什么。声音输入信号未被识别的部分被格式化以便使其包含在数据单元中该数据单元结构被第一预定义的标识语言定义。通过按第一应用程序协议操作的第一数字数据链,数据单元被传送到远程应用程序部分。在远程应用程序部分,声音输入信号的被格式化后的未被识别部分从数据单元中被提取出来。远程应用程序部分服务逻辑被用于确定用声音输入信号的格式化后的未被识别部分做些什么。
在本发明的另一个方面中,声音输入信号是处于压缩数字编码语音的形式。
在本发明的再一个方面中,如果声音输入信号包括一个或多个被第一词汇表定义的字,应用程序协议服务逻辑的终端应用程序部分将引导一个或多个字被用于选择一个或多个应被执行的终端功能。
仍在本发明的再一个方面中,一个或多个终端功能包括选择现行菜单项作为被提供给远程服务器的响应。
还是在本发明的另一个方面中,现行菜单项与第一选择相关;一个或多个终端功能包括将现行菜单项与区别于第一选择的第二选择相关联。
仍在本发明的另一个方面中,如果声音输入信号包括一个或多个被第一词汇表定义的字,应用程序协议服务逻辑的终端应用程序部分将引导相应消息被生成并通过第一数字式数据链被传送到远程应用程序部分上。在一些实施例中,相应消息可能包括状态信息、文本或二进制数据。
还是在本发明的另一个方面中,远程应用程序部分将相应消息转送给远程服务器。
仍在本发明的另一个方面中,远程应用程序部分通过按第二应用
程序协议操作的第二数字式数据链将相应消息转送给远程服务器。第一应用程序协议可以但不必要与第二应用程序协议一致。
仍在本发明的另一个方面中,位于远程应用程序部分上的第二自动语音识别系统被用于确定是否声音输入信号的未被识别的部分包括一个或多个由第二词汇表定义的字。如果声音输入信号的未被识别的部分包括一个或多个由第二词汇表定义的字,则远程应用程序部分的服务逻辑被用于确定应用由第二词汇表定义的一个或多个字做些什么。
仍在本发明的另一个方面中,第一词汇表专门包括由第一预定义标识语言的句法所定义的字;第二词汇表专门包括与远程服务器相关的字。
仍在本发明的另一个方面中,如果声音输入信号的未被识别部分包括一个或多个由第二词汇表定义的字,则远程应用程序部分的服务逻辑会引起相应的键盘仿真响应被生成并发送给远程服务器。
仍在本发明的另一个方面中,如果声音输入信号的未被识别部分包括一个或多个由第二词汇表定义的字,则远程应用程序部分的服务逻辑会引起远程应用程序部分的服务逻辑状态被改变。
仍在本发明的另一个方面中,远程应用程序部分从远程服务器上接收文本,并生成代表声音信息的相应声音输出信号。声音输出信号被格式化以使其包含在其结构由第一预定义标识语言定义的第二数据单元中。第二数据单元通过第一数字式数据链被传送给终端。在终端上,声音输出信号从第二数据单元中被提取,并从那里生成扩音器的信号。
附图简述
通过阅读下面详细的说明并联系附图,本发明的目的和优点将被了解。
图1a和1b是按本发明一个方面的分布式VCSA的可选择实施例的方块图;
图2是按本发明的声音控制远程服务器的典型实施例的方块图;
图3是按本发明的声音控制远程服务器的典型实施例的方块图;
图4是按本发明典型实施例由终端应用程序部分所执行的操作的流程图;
图5是按本发明的典型实施例描述RAP的总体操作的典型实施例的流程图。
发明详述
发明的各种特点现将借助于附图被说明,在图中相同的部分将用相同的参考符号表示。下面的说明利用WAP和WML标准作为基础将相对低性能的终端链接到远程应用程序上。然而应当认识到:这些标准仅以范例的方式被使用,而这里使用的发明概念可等价适用在不按这些特定的标准运行的其它环境中。
在本发明的一个方面中,声音控制服务应用程序(VCSA)的组件被分布在终端中使用的部分和远程设备中使用的其余部分之间。图1a和1b是按本发明的一个方面的分布式VSCA的可选择实施例的方块图。在图1a中,用户部分101通过第一数字链105被连接到服务器部分103上。用户部分101被应用在终端上,而服务器部分103被实施在很可能处于远程位置上的独立的处理器上。运行服务器部分103的处理器在大多实施例中比运行用户部分101的终端更强大(例如更快、存储空间更大等)。用于连接用户101和服务器部分103的第一数字链105可以是无线式或有线式。通过第一数字链105传送的数据的优选格式是用标准标识语言例如WML创建的卡片以及脚本/库。在另一种可选择的实施例中,可以使用不同的标识语言。然而,在各种情况下,标识语言应该是能被终端相对低处理性能和有限的输入/输出资源所支持的语言。WML被优选地使用在无线可移动终端上,因为其在WAP URL服务下载的卡片以及脚本/库能被用于创建应用程序,这些应用程序能增强和扩展现今先进的移动网络上的可获取的服务。
用户部分101包括简单ASR,如能够识别少量(例如大约50)单字的ASR。更强大的ASR,如能够识别在连续语言中提供的大量字的ASR,可被实施在服务器部分103。在操作中,用户部分101从用户接收语音。用户部分101的ASR尝试分离并识别字。按那些能够被正确识别的字动作。典型地,多数被识别的字能被用于控制终端上的当地功能,例如菜单滚动,选择菜单项以及存取各种终端资源如当地存
储的电话薄。另一些字可能被识别为操作数(例如数据),它们将被提供给服务器。由于这些字,要从终端的存储器中检索相应的文本。该文本通过第一数字链105被发送给服务器部分103。文本以这样的方式被格式化:即服务器部分103将其识别为数据输入,并按此进行处理。
用户部分101不能识别的那些字将被格式化(例如格式化为多用途网间邮件扩充协议(MIMS)类型),并发送给服务器部分103。服务器部分103查明这是未被识别的语音后,将用其自身更强大的ASR去分析所接收到的语音。在分析后,服务器部分103按其动作。例如,被识别的语音可能包括用于控制服务器应用程序的命令,在这种情况下按该命令行动。被识别的语音也可能表示服务器应用程序的数据输入,在这种情况下就按输入数据处理。万一ASR不能识别所提供的语音,它将执行诸如将编码的语音发送回用户部分101之类的操作,101立刻将被编码的语音放给用户。在这种情况下被编码的语音可能是一个对用户重复读或拼写出未被识别的语音的声音请求。
在图1b中说明的另一可选择实施例中,服务器部分103被一个通过第二数字链111连接到服务器109上的网关/代理部分107所替代。用于连接服务器109和网关/代理部分107的第二数字链111可能是无线的或有线的。通过第二数字链111传送的数据的优选格式是由标准标识语言所创建的卡片以及脚本/库,但不必要与用在第一数据链105上的数据格式相同。当数据格式不同时,网关/代理107的一个功能是将数据从一种格式转换成另一种格式。这种情况下的转换可能不仅包括替换一种格式到另一种格式上的关键字(例如从超文本标识语言(HTML)到WML),而且还包括多个层次上的过滤以清除不能被终端接收的数据。例如,如果服务器109是通过因特网可存取的应用程序,它可以发送包括不能在相对低功效的终端上显示的图像信息的HTML网页。在这种情况下,网关/代理107需要清除这些数据,并仅将适用的数据传送到用户101上。
在许多实施例中,期望用在第一和第二数据链105、111上的数据格式是相同的,例如都是WML格式。在这种情况下,网关/代理107执行的转换可能包括将声音数据替换成文本,或反过来进行。就是说,服务器109可提供的数据可能是以要被显示在PC屏幕上的大文
本菜单的形式。然而,正如上面解释过的,相对低功效的终端可能不能显示大菜单,和/或这种大菜单难于让用户在小终端屏幕上读取。因此,本发明的一个方面中,网关/代理部分107将所接收到的文本转换成可被提供给用户部分101(如MIME格式化的数据)并能被播放给用户的声音。这样,用户能听见可能的选项,而不必在屏幕上查看它们。用户可以通过说出它们进行选择,而不是打字。正如上面解释过的,被说出的文本或者是已被识别并被用户101上的ASR转换成文本,或是被网关/代理部分107上的ASR转换。在各种情况下,文本都被网关/代理部分107传送给服务器109。这样,服务器109不必特意地被配置用于处理声音接口。实际上,在这种配置中声音接口的存在对于仅注意所接收和发送的文本的服务器109而言完全是显而易见的。
参考图2和图3中描述的典型实施例,本发明将更详尽地被说明。这种典型实施例的结构与图1a和1b中所描述的基本相同。然而,在这一实施例中整个系统被逻辑地分解成四个部分:终端部分(TP)203、终端应用程序部分(TAP)201、远程应用程序部分(RAP)205、和外部服务和内容(ECS)部分207。TP203和TAP201具体表示了用户101的VCSA,RAP205则具体表示了服务器部分103或VCSA的网关/代理部分107。ESC207对应于服务器109。这些组件现在将被更详尽地说明。应明确的是下面要说明的各种组件分别地或本身已被熟知(例如,各种存储单元、话筒、扩音器),或是基于提供的高级说明能轻易地实现,因此这里不需要高层次地详细说明。各种实施例可以利用一个或多个可编程单元执行被存储的程序实现多个功能(例如,声音特点匹配、协议堆栈保持等)。在可替换的实施例中,这些可被替换成电路逻辑门。特定的实现方法是否优于另一种依赖于正在考虑的特定的应用程序,因而其在本发明的范围之外。
TP203被实现在终端内,支持WAP标准(或可替换的其它应用程序协议)。TAP接口209被提供用以允许与TAP201进行交互作用,TAP201支持声音交互作用和WAP应用程序的控制。TP203此外还包括WAP用户协议堆栈213以按WAP标准协议通过第一数据链211进行通讯,数据链211也可选择为无线或有线数字信道。
话筒205被提供在TP203中,用于接收来自终端的用户的语音。
话筒215的输出被提供给能将声音输入信号编码成压缩数据格式的TP声音编码器(例如GSM声音编码器)。被编码的声音数据被提供给TAP接口209。当声音被送至用户时,通过TAP接口209它以压缩数据格式(例如GSM声音编码格式)被提供给TP声音译码器219,译码器的声音输出被提供给扩音器221。
TAP201也实现在终端中用于支持与终端功能的基本声音交互作用。终端功能如调用处理、地址薄管理等。TAP201也支持声音交互作用和WAP应用程序的控制。TAP201包括使其与TP203通讯的TP接口223。
TAP201在终端上用作声音导向浏览器。这种浏览器的功能将参考图4中的流程被说明。声音输入从话筒215被接收并被提供给TP声音编码器217(步骤401)。TP声音编码器217的输出通过TAP接口209和TP接口223被提供给TAP201中完成的开始/停止检测器和记录单元225(步骤403)。TAP201使用开始/停止检测器和记录单元225去检测被提供的声音输入信号的开始和停止,并用此限制声音输入对在这里被称作“单字”的声音时间间隔上的扩展。开始/停止检测器和记录单元225包括高速缓冲存储器(未表示出来),它用于为这种单字存储(记录)TP声音编码数据。
单字从开始/停止检测器和记录单元225被提供给用于单字识别分析的ASR单元227(步骤405)。典型实施例中的ASR227包括特征向量抽取单元229,它接收单字并将其绘制成适于被特点匹配和判定单元231使用的向量空间。参考词汇表包括WML句法下的有限的标准WAP词汇和依赖终端的预定义词汇,参考词汇表被存储在TAP参考数据库233中。依赖于终端的预定义词汇被用于扩展WML标准词汇,以使其包括的字能让应用程序与用户更友好地对话或控制不在VCSA之内的终端功能。单字优选地以三种格式被存储:文本格式,相应的TP声音编码数据和代表单字的相关特征向量。来自TAP参考数据库233的特征向量被提供给特点匹配和判定单元231的第二输入。特点匹配和判定单元231将在特征向量提取单元229的输出处提供的特征向量与TAP参考数据库233提供的特征向量相比较,确定是否匹配已成立。来自特点匹配和判定单元231的输出237、239被提供给TAP控制逻辑235并指明是否匹配已成立(判定块407)。
单字可能有多种:与终端控制功能相关的单字(例如菜单上下滚动);确定应被发送给RAP205(可能最终送到服务器上)的响应的单字,例如“选择”命令用于从菜单中选择一项(等同于用PC鼠标在菜单上点按);以及那些完全由特定服务器应用程序定义的单字。因此,如果单字在终端中被识别(从判定块407上输出“是”),就要用确定即决定单字是何种类型的(判定块409)。当终端控制字被识别时,TAP控制逻辑235引导终端功能被执行(步骤411)。在某些情况下,这包括生成声音输出向用户指出现行终端状态的改变,例如现在菜单中那个选项被选取。
如果被识别的字是与服务相关的,适当的响应被生成为一条消息并通过WAP用户协议堆栈213被传递给RAP(步骤413)。消息可能包括状态信息、文本、二进制数据以及其它必要信息的任意组合,以便允许RAP205生成要被发送给ECS207的适当的响应。RAP205产生的响应优选地模拟由标准的基于文本的WAP终端产生的键盘输入选项。尽管键盘响应可能由TAP201产生且仅仅经过RAP205传递给ESC207,鉴于效率原因推荐仅将必要的状态(和/或其它)信息发送给RAP205并允许它产生以必要的键盘模拟响应形式的至ESC207的响应,这些响应包括文本、二进制数据、状态信息或菜单选项代码,但不限于此。
现在返回到判定块407,如果单字不能被ASR227识别,TAP控制逻辑235与TAP WAP服务逻辑245一起判定是否要通知用户(判定块415)。例如,这种判定可能是基于现行终端状态和正被TAP控制逻辑235使用的机器状态。例如,如果TAP控制逻辑235希望终端控制或菜单选择功能被接收,则用户被通知(步骤417)单字未被识别并要求重复该单字或通过拼写或键盘选择的方式输入。或者,如果TAP控制逻辑235与TAP WAP服务逻辑245一起希望未被识别的声音输入被提供,例如使用为正在制作的电子邮件的内容,那么未被识别的单字可能简单地被发送给RAP205(步骤419)。因为RAP的ASR307比TAP的ASR227更强大,所以TAP203如果要与识别未被识别的单字的任务相联系,未被识别的单字也可被传送给RAP205。发明的这一方面将在下面更详细的说明。
为了将未被识别的单字传送给RAP205,来自开始/停止检测器和
记录单元225的声音编码数据被MIME格式化单元247格式化成MIME类型。通过TP接口223、TAP接口209和WAP用户协议堆栈,MIME格式化的声音编码数据的通讯被实现至被连接在第一数据链211上的通讯RAP接口243。TAP201是到放在RAP205中的RAP服务逻辑321上的用户,可以被实现在具有低处理能力(包括可移动和静止装置)的小WAP终端装置上。RAP服务逻辑321也可能是到ESC207中的服务和内容上的用户。
如上述,到用户的声音输出是由输出被连接到说话者221上的TP声音译码器219生成的。TP声音译码器219从TAP参考数据库233或RAP205上接收TP声音编码格式下的数据。由RAP205提供的TP声音编码格式数据被接收并嵌入为WAP协议中的MIME类型。这种技术具有排除在终端中需要任何文本-语音转换模块的优点。为了使对话对用户更友好,在TAP参考数据库233中存储为TP声音编码数据的其它字可被用于补充对话。
现在回到RAP服务器205(以及图3,它详细地描述了RAP205),它可以被用作多用户、中央WAP应用程序服务器,或是WAP网关/代理、或单用户当地服务器,专用于TAP用户(例如,用户PC、掌上设备等)。希望RAP205一般具有用于自动语音识别的更强大的处理能力和用于扩展特定服务应用程序需要的词汇的RAP参考数据库。
如图2和3所示,RAP205也可被实现为WAP网关/代理,被连接到不同位置的ESC207上。例如,ESC207可以是一个或多个在因特网上提供信息和内容的应用程序服务器。
如早先指出的,RAP205被连接到第一数据链211上,因此具有用于这一目的被连接到第一数据链211上的第一通讯接口301。第一通讯接口301也被连接到WAP服务器协议堆栈303上,堆栈303确保了通讯按WAP(或者其它选择)通讯协议进行。RAP205也包括用于控制其它RAP资源操作的RAP控制逻辑305。其中的ASR307将识别在TAP201中不能被识别的TP声音编码字,即以WAP协议中MIME类型被传送给RAP205的字。为了执行语音识别,RAP的典型ASR307包括特征向量提取单元309、特点匹配和判定单元311以及RAP参考数据库313。在操作中,TP声音编码数据被提供给特征向量提取单元。然后相应的特征向量被提供给特点匹配和判定单元311。RAP参考数据
库存储特征向量,相应文本和所有要被识别的字的相应TP声音编码数据。来自RAP参考数据库313的特征向量被提供给特点匹配和判定单元311的另一输入。特点匹配和判定单元311将由特征向量提取单元309提供的特征向量和由RAP参考数据库313提供的特征向量相比较,并在输出线315、317上指明是否输入字被识别。ASR307可能在TAP的ASR227识别失败的语音识别处识别成功,因为RAP的ASR307更强大,且包括更大的参考字数据库。
除了能够识别单字外,RAP的ASR307也具有识别连续语音的能力。这种能力在大多情况下是有用的,包括在终端用户应说单字命令而说了短语命令的情况下。例如,希望用户说“CALL[停顿]JOHN[停顿]”,而用户却说了“CALL JOHN”——两字中间无停顿。在这种情况下,短语“CALL JOHN”可能被开始/停止检测和记录单元225误解为一个单字,并按此记录。如果TAP的ASR227不能识别这种声音输入,TAP201将把它转换为MIME格式化的声音编码数据,并将其与指示TAP201处于正期望输入命令的状态信息一并发送给RAP205。这种情况下的RAP205能通过将未被识别的单字(此例中短语“CALLJOHN”)应用到更为强大的ASR307中作出响应。RAP的ASR307不需要能识别用户说的所有可能的字。相反,它可能被提供一个可识别的TP命令单,执行所谓的“通配符”识别操作,其中仅TP命令字被查询。因而,如果ASR307从中查询到短语“*CALL*”(其中“*”代表在CALL前后“无关”字),ASR307将检测到未被识别的单字含有字“CALL”以及其它附随于它的未能识别的部分。这一信息能被传送回给TAP203。TAP203响应时调用终端CALL命令,并要求用户重复他所要呼叫的人的名字。因此,在本发明的这一方面中,ASR功能实际上被分布在终端中被执行的部分和RAP205上被远程执行的部分之间。
图5是描述RAP205总体操作的典型实施例的流程图。如果输入从TP203上被接收(“是”路径在判定块501之外),要检查以确定它代表什么(判定块503)。如果是与TP响应相关的状态信息,RAP205用它来更新其自身的状态(例如RAP服务逻辑321的状态)并按其动作。这可能包括产生将被转送给ESC207的键盘模拟响应(步骤505)。如前所述,键盘模拟响应可能包括文本、二进制数据、状态信息或菜
单选项代码,但并不限于此。
如果从TP203接收的输入不是状态信息,那么它是MIME格式化的未被识别的单字,将按特定的应用程序处理(步骤507)。例如,未被识别的单字可能被应用在RAP的ASR307中,例如ASR207可产生被发送给ESC207的相应的文本。在这种情况下,相应的文本将由RAP参考数据库313提供。
未被识别文本或者可能代表例如被附加在发送给ESC207上的WAP应用程序的电子邮件上的声音内容。或者,未被识别的文本在不必与ESC207进行通讯的情况下可能构成被RAP本身执行的控制字。例如,未被识别的文本可以是对不能充分显示给/提供给用户的菜单的其它部分的请求。如果RAP205存储完整的菜单,它能在不与ESC207通讯的情况下为TP205作出响应。
使被接收的TP声音编码数据受控于自动语音识别的另一选择是将其转换成不同的能被附加在例如电子邮件响应上的声音格式,例如声波格式的文件。这种转换被声音格式转换器323执行。声音格式转换器323优选地双向进行,以便能够将声音邮件格式(从ESC207接收的)转换成TP声音编码数据,该数据被发送给用于向用户播放的TP203。
如果输入不是从TP上接收的(“否”路径在判定块501外),必需要确定是否文本从ESC207上被接收(判定块509)。如果是(判定块509外的“是”路径),它被优选地提供给文本—TP声音编码器319,编码器由此产生相应的TP声音编码数据(步骤511)。该数据可被格式化成MIME类型并被发送给WAP协议中的TP203(步骤513)。如先前所述,被接收的TP声音编码数据通过扩音器221被播放给用户。例如,当应用程序正从ESC207上向用户读取文本时,或当RAP205正向用户读取被存储的帮助文本时,这种从文本到声音的转换被请求。当WAP205是使用各种不同编码器的用户的共享资源时,文本—TP声音编码器319被设计成能支持任何和所有的用户终端之一使用的必要的声音编码格式。
在一些实施例中,可能去掉声音格式转换器323,并替换成在RAP参考数据库313上查询文本,再输出相应的TP声音编码数据。之所以优选使用单独的声音格式转换器323是因为它通常能支持使用大
量词汇的服务-如“读取我的邮件”或其它向用户提供文本文件如帮助文件的服务。在这些情况下,将整个词典存储到RAP205中的编码数据中是不可取的。
RAP205还包括下一级服务和内容单元325的代理用户用于支持到其它外部服务和内容供应者上的存取。
现在考虑ESC207,它可能是具有或不具有对WAP应用程序任何支持的应用程序,但是在任何一种情况下,都可被用作对RAP205上的服务应用程序的信息或内容供应者。
本发明采用标准化的WML词汇和WAP内的句法的优点,以使WAP终端(即终端中有用户执行WAP)具有到为WAP终端设计的所有服务上的声音控制接口。VCSA的服务逻辑在应用程序中的TAP201和RAP205之间被分割。TAP201和TP203之间的所有当地交互作用被TAPWAP服务逻辑245处理,以减少TAP201和RAP205之间的传递。TAP WAP服务逻辑245发布命令,这些命令被TAP控制逻辑235执行用于控制TAP201中的数据和信息流。在本发明的另一可选择的方面中,TAP控制逻辑235也可能有插入支持文本和字的能力,与WML句法中有限的词汇相比以增强和提高与用户之间的对话。例如,这种附加的文本可以是声音形式,它能详细地向用户解释为了进行特定的菜单选择应执行什么步骤。附加的词汇可能被存储在TAP参考数据库233中作为TP声音编码数据串。或者,附加的词汇从RAP参考数据库313上被请求,并通过第一数据链211(WAP信道)按TP编码声音数据被传送给TP203,TP203通过扩音器221将声音播放给用户。
按本发明的其它方面,用通过RAP205提供的完整的文本、编码TP声音数据和特征向量集可以更新、增强和替换TAP参考数据库233中的词汇。新下载的信息可能代表WML的改变或新的语言。
TAP WAP服务逻辑245可能是到放在RAP205中的RAP服务逻辑321上的用户。TAP WAP服务逻辑245仅控制TP和TAP功能,并执行基本的WML句法。它并不支持VCSA中依赖应用程序的部分。TAP WAP服务逻辑245和RAP服务逻辑321在服务应用程序当中是同步的。RAP服务逻辑321和用于支持新VCSA的词汇可能从外部服务供应者那里被下载到RAP205上。
在典型实施例中,为了激活VCSA,用户可以说预定的声音命令,
例如字“服务”。TP203在响应时,例如,可将语音转换成TP声音编码数据,并将其提供给TAP201用于识别。假设用户的命令被TAPASR227所识别,由TAP参考数据库233提供的TP编码声音被TP声音译码器219转换成声音信号并提供给扩音器221。TAP WAP服务逻辑245负责将字汇集成文本串,TP控制逻辑235执行适当的声音输出指令。声音促使用户从存储在TAP201上的服务菜单中的几个选择之中进行选择。当特定的WAP服务应用程序被选择时,到RAP205上的WAP连接被建立。然后,TAP201和RAP205中服务逻辑开始执行服务。
为说明一个典型的服务被简短地描述。为了促进对例子中WML部分更好地了解,首先提供WML1.0的快速参考指南。在这个简要的概述当中,仅举例说明WML句法。值、域以及属性的缺省并未给出。然而,这些信息应已被熟知而无需提供在此。
下面的序必需出现再每一个WML卡片组(即WML文件)的头上。
<?xml version=“1.0”?> <!DOCTYPE WML PUBLIC“_//WAPFORUM//DTD WML 1.0//EN” “http://www.wapforum.org/DTD/wml.xml”>
〈!-这是一种注解--〉
各个卡片组恰好具有一个<WML>元素。
<WML xml:language=”“> <HEAD>…</HEAD> <TEMPLATE>…</TEMPLATE> <CARD>…</CARD> </WML>
各个卡片组选择具有恰好一个<HEAD>元素。
<HEAD> <ACCESS DOMAIN=”“PATH=”“PUBLIC=”“/> <dp n="d14"/> <META NAME=”“HTTP-EQUIV=”“USER-AGENT=”“CONTENT=” “SCHEME=”“/> </HEAD>
各个卡片组可选择恰好具有一个<TMPLATE>元素。
<TEMPLATE ONENTERFORWARD=”“ONENTERBACKWARD=”“ <ONTIMER=”“> <DO>…</DO> <ONEVENT>…</ONEVENT> </TEMPLATE>
各个卡片组具有至少一个<CARD>元素。
<CARD NAME=”“TITLE=”“NEWCONTEXT=”“STYLE=”“ ONENTERFORWARD=”“ONENTERBACKWARD=” “ONTIMER=”“> <DO>…</DO> <ONEVENT>…</ONEVENT> <TIMER…/> <INPUT…/> <SELECT>…</SELECT> <FIELDSET>…</FIELDSET>
卡片可包含具有标识(例如<B>黑体</B>)的文本流包括图像<IMG>和锚<A>。
</CARD>
导航由<DO>元素标识。
<DO TYPE=”“LABEL=”“NAME=”“OPTIONAL=”“> <GO>…<GO> <PREV>…</PREV> <REFRESH>…</REFRESH> <NOOP…/> </DO>
事件由<ONEVENT>或<TIMER>元素处理。
<ONEVENT TYPE=”“> <GO>…<GO> <PREV>…</PREV> <REFRESH>…</REFRESH> <NOOP…/></ONEVENT><TIMER KEY=”“DEFAULT=”“/>
特定的动作是<GO>、<PREV>、<REFRESH>或<NOOP>元素中之一。
<GO URL=”“SENDREFERER=””“METHOD=”“ACCEPT- CHARSET=”POSTDATA=””> <VAR NAME=”“VALUE=”“/> </GO><PREV> <VAR NAME=”“VALUE=”“/> </PREV> <REFRESH> <VAR NAME=”“VALUE=”“/> </REFRESH> <dp n="d16"/> <NOOP/>
关于如何对输入字段进行分组的提示将在<FIELDSET>元素中提供。
<FIELDSET TITLE=”“> <INPUT…/> <SELECT>…</SELECT> <FIELDSET>…</FIELDSET> </FIELDSET>
输入被<INPUT>或<SELECT>元素之一获取。
<INPUT KEY=”“TYPE=”“VALUE=”“DEFAULT=”“ FORMAT=”“EMPTYOK=”“SI ZE=”“MAXLENGTH=”“ TABINDEX=”“TITLE=”“/> <SELECT TITLE=”“KEY=”“DEFAULT=”“IKEY=”“ IDEFAULT=”“MULTIPLE=”“TABINDEX+”“/> <OPTGROUP>…</OPTGROUP> <OPTION>…</OPTION> </SELECT>
选项表元素可以利用<OPTGROUP>元素被分组。
<OPTGROUP TITLE=”“> <OPTION>…</OPTION> <OPTGROUP>…</OPTGROUP> </OPTGROUP>
选项表元素利用<OPTION>元素被具体指定。
<OPTION VALUE=”“TITLE=”“ONCLICK=”“>
选择具有标识的文本流不含图像或锚。
<ONEVENT>…</ONEVENT> </OPTION>
标识的文本流包括下列元素:
<B>…</B>粗体
<I>…</I>斜体
<U>…</U>下划线
<BIG>…</BIG>放大字体尺寸
<SMALL>…</SMALL>缩小字体尺寸
<EM>…</EM>强调
<STRONG>…</STRONG>着重加重
<BR ALIGN=”“MODE=”“/>强制断线
<TAB ALIGN=”“/>按列排列后来的文本
<A TITLE=”“>嵌在文本流内的锚标签
<GO>…</GO> <PREV>…</PREV> <REFRESH>…</REFRESH>
锚具有标识的文本流,但没有图像或锚。
</A>
图像用<IMG>元素来标识。
<IMG ALT=””“SRC=”“LOCALSRC=”“VSPACE=”“ HSPACE=”“ALIGN=”“HEIGHT=”“WIDTH=”“/>
现在来说明典型的WAP服务。假设气象服务信息对于具有显示器/键盘交互作用的WAP式可实现的终端是可得到的。服务首先在屏幕上向用户提供选项表,形如:
Show weather for: >Stockholm Helsinki Zurich <dp n="d18"/> Other
通过按压UP(向上)或DOWN(向下)键,用户可以移动鼠标(即“>”符号)至表上方或表下方。通过按压ACCEPT(接受)键(在某些移动电话上-例如爱立信制造并销售的产品,是YES键),用户将使被选定城市的较短编码发送给气象服务供应者。
如果“Other”被选中,输入字段将被提供给用户:
输入城市名称:
接下来用户激活适当的设备键输入城市名,然后按回车键。
这项服务的WML如下所示:
<WML> <TEMPLATE> <!--This will be executed for each card in thisdeck--> <DO TYPE=”ACCEPT”> <GO URL=http://weather.com/by-city?$(city)/> </DO> </TEMPLATE> <CARD NAME=”cities”>
为××显示天气:
<SELECT TITLE=”CITY”IKEY=”N”IDEVAULT=”1” KEY=”city”> <OPTION VALUE=”STHM”>Stockholm</OPTION> <OPTION VALUE=”HSKI”>Helsinki</OPTION> <OPTION VALUE=”ZURH”>Zurich</OPTION> <OPTION ONCLICK=”#other”>Other</OPTION> </SELECT> </CARD> <dp n="d19"/> <CARD NAME=”other”>
输入城市名称:
<INPUT VALUE=”city”TYPE=”TEXT”/> </CARD> </WML>
在语音识别式的终端中使用上述发明的技术,用户将听到:
“为这些城市选项显示天气”。
注意到它将“Show weather for(为××显示天气)”、SELECT标签的TITLE属性、“city(城市)”和TAP参考数据库233的某些粘贴文本结合到一起,“these(这些)”和“options(任选项)”结合到一起。这可能是依赖于装置实现的,或被预先定义为与句法有关的WML词汇表的补充字。
用户听到设备叙述一串名字,它们之间有较短的停顿。
“Stockholm”[停顿]
“Helsinki”[停顿]
停顿的目的是为用户提供充足时间以某些时间作出响应,例如:
“ACCEPT”,意思是选择此项,或
“NO”,意思是下一个,或
“BACKOUT”,意思是返回前一屏,等等。
如果用户响应是接受(“ACCEPT”)其它(“Other”)选项,设备将说:
“输入城市名,以O.K.结束,或停顿2秒钟。”
注意设备如何将给定的文本和指令结合起来以结束输入。
接下来,用户说出城市名,以O.k.结束。设备将把谈话输入发送给用于语音识别和再处理的远程应用程序。
本发明的各个方面使具有相对低处理能力和麻烦的(例如很小)或相对不可用的(例如正在驱动中)I/O设备的终端设备能使用交互作用声音接口存取服务应用程序,这些服务应用程序是为不具有这些限制条件的终端的普通应用而开发的。通过将VCSA的语音识别系统分解成较小的用于标准标识语言(例如WML)句法的终端语音识别器
和用于具有更高处理功能的远程设备上的VCSA的应用程序可靠部分的更强大的语音识别器,终端上ASR要求的复杂度将得以降低。这种调整的结果是:不需要修改服务内容。
发明的另一优点源于这样的事实:不需要在终端和远程应用程序服务器之间建立声音信道。这是因为对应用程序的声音响应被编码成预定的数字类型,例如MIME类型,它通过数字式数据信道被传递。
发明的其它优点是:通过使用标准化结构语言如WML,提供了一种通用的途径进行标准化并同时限制用于任何声音控制服务的声音对话词汇。这样简化了声音识别的任务,减少了源于多用户应用程序的字中不同读音的存在按另一种方式而产生的错误。
发明也能提供一种方式:通过在问题或可选择的选项中插入指令,确定用户对提示的由应用程序定义的问题或选项的语音响应的结束。这些指令告诉用户如何结束回答,例如,可以通过说出特定的预定义字或通过允许可被终端设备识别的出现预定义的沉默时间间隔而实现。当用户说出预定义的字或停顿预定义的间隔时间时,它们被终端ASR227所识别,使得终端能识别出先前所说的是被要求的响应。
发明使得交互声音控制的服务在不同的实施例中实现。这些实例包括但不限于以下内容:
—WAP允许电话上的声音浏览器;
—被数字地连接到处理单元中控制功能上的声音允许控制单元;
—声音允许的特定设备,例如电子记录本;
—计算机应用程序的声音允许控制,例如在基于windows的操作系统和用户/服务器环境中的应用程序接口(API);和
—标准化应用程序协议的声音控制,此标准应用程序协议建立在交互应用程序协议中具有较少定义词汇的各种标识或脚本语言的基础上。
发明参考特定的实施例被说明。然而,对于本领域中的技术人员而言,很显然可以用除了上述说明的优选实施例中使用的形式外的特定形式体现本发明。这可以在不背离发明精神的情况下实现。优选实施例只是作为说明而不应认为是对任何方式的限制。发明的范围要在
附加的权利要求中而不是在前述的说明中给出,各种权利要求范围内的更改和等价变换都要被包括在内。
Claims (34)
1.控制从远程服务器上被提供给终端的服务应用程序的方法包括下列步骤:
接收代表声音信息的声音输入信号;
使用放在终端上的第一自动语音识别系统去确定是否声音输入信号包括一个或多个由第一词汇表定义的字,其中不能对应第一词汇表定义的一个或多个字的声音输入信号部分组成了声音输入信号中未被识别的部分;
如果声音输入信号包括一个或多个由第一词汇表定义的字,则利用应用程序协议服务逻辑的终端应用程序部分去确定用由第一词汇表定义的一个或多个字做些什么;
格式化声音输入信号中未被识别的部分,以便使其包含在结构被第一预定义的标识语言定义的数据单元中;
通过按第一应用程序协议操作的第一数字数据链将数据单元传送到远程应用程序部分;
在远程应用程序部分,从数据单元中提取声音输入信号的被格式化后的未被识别部分,利用远程应用程序部分服务逻辑去确定用声音输入信号的格式化后的未被识别部分做些什么。
2.权利要求1的方法其中声音输入信号是处于压缩数字化编码语音的形式。
3.权利要求1的方法其中如果声音输入信号包括一个或多个由第一词汇表定义的字,应用程序协议服务逻辑的终端应用程序部分将引导一个或多个字被用于选择一个或多个应被执行的终端功能。
4.权利要求3的方法其中一个或多个终端功能包括选择现行菜单选项作为应被提供给远程服务器的响应。
5.权利要求3的方法其中现行菜单选项与第一选择相关;而一个或多个终端功能包括将现行菜单选项与区别于第一选择的第二选择相联系。
6.权利要求1的方法其中如果声音输入信号包括一个或多个由第一词汇表定义的字,应用程序协议服务逻辑的终端应用程序部分将引导产生相应消息,并通过第一数字式数据链传送给远程应用程序部分。
7.权利要求6的方法其中相应消息包括状态信息。
8.权利要求6的方法其中相应消息包括文本。
9.权利要求6的方法其中相应的消息包括二进制数据。
10.权利要求6的方法其中远程应用程序部分将相应消息转发给远程服务器。
11.权利要求10的方法其中远程应用程序部分通过按第二应用程序协议操作的第二数字式数据链将相应消息转发给远程服务器。
12.权利要求11的方法其中第一应用程序协议与第二应用程序协议相同。
13.权利要求1的方法还包括下列步骤:
利用位于远程应用程序部分的第二自动语音识别系统去确定是否声音输入信号中未被识别的部分包括一个或多个由第二词汇表定义的字;和
如果声音输入信号未被识别的部分包括一个或多个由第二词汇表定义的字,则利用远程应用程序部分的服务逻辑去确定用由第二词汇表定义的一个或多个字应做些什么。
14.权利要求13的方法,其中:
第一词汇表专门包括由第一预定义标识语言的句法定义的字;和
第二词汇表专门包括与远程服务器相关的字。
15.权利要求13的方法,其中如果声音输入信号中未被识别的部分包括一个或多个由第二词汇表定义的字,远程应用程序部分的服务逻辑引导生成相应的键盘模拟响应,并发送给远程服务器。
16.权利要求13的方法,其中如果声音输入信号中未被识别的部分包括一个或多个由第二词汇定义的字,远程应用部分的服务逻辑引导改变远程应用程序部分的服务逻辑的状态。
17.权利要求1的方法还包括下列步骤:
在远程应用程序部分中,从远程服务器接收文本;
在远程应用程序部分中,生成代表声音信息的相应声音输出信号;
格式化声音输出信号以使其包含在其结构由第一预定义标识语言定义的第二数据单元中;
通过第一数字式数据链将第二数据单元传送给终端;
在终端,从第二数据单元中提取声音输出信号,并从那里生成扩音器的信号。
18.用于控制从远程服务器上被提供给终端的服务应用程序的装置包括:
用于接收代表声音信息的声音输入信号的装置;
第一自动语音识别系统位于终端内用于确定是否声音输入信号包括一个或多个由第一词汇表定义的字,其中不能对应第一词汇表定义的一个或多个字的声音输入信号部分组成了声音输入信号中未被识别的部分;
应用程序协议服务逻辑的终端应用程序部分,如果声音输入信号包括一个或多个由第一词汇表定义的字,要利用该部分去确定用由第一词汇表定义的一个或多个字做些什么;
用于格式化声音输入信号未被识别的部分以便将其包含在其结构被第一预定义的标识语言定义的数据单元中的装置;
用于通过按第一应用程序协议操作的第一数字式数据链将数据单元传送到远程应用程序部分的装置;和
远程应用程序部分包括:
用于从数据单元中提取声音输入信号被格式化后的未被识别部分的装置;和
远程应用程序部分服务逻辑,用于确定用声音输入信号格式化后的未被识别部分做些什么。
19.权利要求18的装置,其中声音输入信号是处于压缩数字式编码语音的形式。
20.权利要求18的装置,其中应用程序协议服务逻辑的终端应用程序部分包括:
如果声音输入信号包括一个或多个由第一词汇表定义的字,将引导一个或多个字被用于选择一个或多个应被执行的终端功能的装置。
21.权利要求20的装置,其中一个或多个终端功能包括选择现行菜单选项作为提供给远程服务器的响应。
22.权利要求20的装置,其中:
现行菜单选项与第一选择相关联;和
一个或多个终端功能包括将现行菜单选项与区别于第一选择的第二选择相联系。
23.权利要求18的装置,其中应用程序协议服务逻辑的终端应用程序部分包括:
用于如果声音输入信号包括一个或多个由第一词汇表定义的字,它将引导产生相应消息并通过第一数字式数据链传送给远程应用程序部分的装置。
24.权利要求23的装置,其中相应消息包括状态信息。
25.权利要求23的装置,其中相应消息包括文本。
26.权利要求23的装置,其中相应的消息包括二进制数据
27.权利要求23的装置,其中远程应用程序部分包括用于将相应的消息转发给远程服务器的装置。
28.权利要求27的装置,其中远程应用程序部分包括用于通过按第二应用程序协议操作的第二数字式数据链将相应消息转发给远程服务器的装置。
29.权利要求28的装置,其中第一应用程序协议与第二应用程序协议是相同的。
30.权利要求18的装置还包括:
位于远程应用程序部分上的第二自动语音识别系统,用于确定是否声音输入信号中未被识别的部分包括一个或多个由第二词汇表定义的字;和
其中远程应用程序部分的服务逻辑包括装置用于确定:如果声音输入信号未被识别的部分包括一个或多个由第二词汇表定义的字,用由第二词汇表定义的一个或多个字做些什么。
31.权利要求30的装置,其中:
第一词汇表专门包括由第一预定义标识语言的句法定义的字;
第二词汇表专门包括与远程服务器相关的字。
32.权利要求30的装置,其中远程应用程序部分的服务逻辑包括:用于如果声音输入信号中未被识别的部分包括一个或多个由第二词汇表定义的字,将引导生成相应的键盘模拟响应并发送给远程服务器的装置。
33.权利要求30的装置,其中远程应用程序部分的服务逻辑包
括:用于如果声音输入信号中未被识别的部分包括一个或多个由第二词汇定义的字,将引导改变远程应用程序部分的服务逻辑的状态的装置。
34.权利要求18的装置还包括:
在远程应用程序部分中用于从远程服务器接收文本的装置;
在远程应用程序部分中用于生成代表声音信息的相应声音输出信号的装置;
用于格式化声音输出信号以使其包含在其结构由第一预定义标识语言定义的第二数据单元中的装置;
用于通过第一数字式数据链将第二数据单元传送给终端的装置;和
在终端上,用于从第二数据单元中提取声音输出信号并从那里生成扩音器信号的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/173,748 US6185535B1 (en) | 1998-10-16 | 1998-10-16 | Voice control of a user interface to service applications |
US09/173,748 | 1998-10-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1329739A true CN1329739A (zh) | 2002-01-02 |
CN1158645C CN1158645C (zh) | 2004-07-21 |
Family
ID=22633323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB998142123A Expired - Fee Related CN1158645C (zh) | 1998-10-16 | 1999-10-05 | 到服务应用程序上的用户接口的声音控制 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6185535B1 (zh) |
EP (1) | EP1129449A1 (zh) |
JP (1) | JP2002528804A (zh) |
CN (1) | CN1158645C (zh) |
AU (1) | AU1422000A (zh) |
BR (1) | BR9914583A (zh) |
MY (1) | MY117070A (zh) |
WO (1) | WO2000023985A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100346625C (zh) * | 2002-12-27 | 2007-10-31 | 联想(北京)有限公司 | 一种电话语音交互系统及其实现方法 |
CN110476150A (zh) * | 2017-03-28 | 2019-11-19 | 三星电子株式会社 | 用于操作语音辨识服务的方法和支持其的电子装置 |
Families Citing this family (236)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996609B2 (en) * | 1996-05-01 | 2006-02-07 | G&H Nevada Tek | Method and apparatus for accessing a wide area network |
US6480600B1 (en) | 1997-02-10 | 2002-11-12 | Genesys Telecommunications Laboratories, Inc. | Call and data correspondence in a call-in center employing virtual restructuring for computer telephony integrated functionality |
US7031442B1 (en) | 1997-02-10 | 2006-04-18 | Genesys Telecommunications Laboratories, Inc. | Methods and apparatus for personal routing in computer-simulated telephony |
US6104802A (en) | 1997-02-10 | 2000-08-15 | Genesys Telecommunications Laboratories, Inc. | In-band signaling for routing |
US6775264B1 (en) | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US6985943B2 (en) | 1998-09-11 | 2006-01-10 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus for extended management of state and interaction of a remote knowledge worker from a contact center |
US6711611B2 (en) | 1998-09-11 | 2004-03-23 | Genesis Telecommunications Laboratories, Inc. | Method and apparatus for data-linking a mobile knowledge worker to home communication-center infrastructure |
USRE46528E1 (en) | 1997-11-14 | 2017-08-29 | Genesys Telecommunications Laboratories, Inc. | Implementation of call-center outbound dialing capability at a telephony network level |
US7907598B2 (en) | 1998-02-17 | 2011-03-15 | Genesys Telecommunication Laboratories, Inc. | Method for implementing and executing communication center routing strategies represented in extensible markup language |
US6332154B2 (en) * | 1998-09-11 | 2001-12-18 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface |
US6418146B1 (en) * | 1999-12-10 | 2002-07-09 | Genesys Telecommunications Laboratories, Inc. | Integrated communication center functionality for WAP devices |
USRE46153E1 (en) | 1998-09-11 | 2016-09-20 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus enabling voice-based management of state and interaction of a remote knowledge worker in a contact center environment |
US6493671B1 (en) * | 1998-10-02 | 2002-12-10 | Motorola, Inc. | Markup language for interactive services to notify a user of an event and methods thereof |
US6370532B1 (en) * | 1998-11-09 | 2002-04-09 | Unisys Corporation | Cool ICE batch interface |
US6249808B1 (en) * | 1998-12-15 | 2001-06-19 | At&T Corp | Wireless delivery of message using combination of text and voice |
US6744860B1 (en) * | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6606611B1 (en) | 1999-02-27 | 2003-08-12 | Emdadur Khan | System and method for audio-only internet browsing using a standard telephone |
JP2000250574A (ja) * | 1999-03-03 | 2000-09-14 | Sony Corp | コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法 |
US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US7292980B1 (en) | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US6766295B1 (en) | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
US6952800B1 (en) * | 1999-09-03 | 2005-10-04 | Cisco Technology, Inc. | Arrangement for controlling and logging voice enabled web applications using extensible markup language documents |
AU7356100A (en) | 1999-09-10 | 2001-04-10 | Everypath, Inc. | Method for converting two-dimensional data into a canonical representation |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
JP3508648B2 (ja) * | 1999-10-12 | 2004-03-22 | 日本電気株式会社 | 通信端末装置 |
US6807574B1 (en) | 1999-10-22 | 2004-10-19 | Tellme Networks, Inc. | Method and apparatus for content personalization over a telephone interface |
US7941481B1 (en) | 1999-10-22 | 2011-05-10 | Tellme Networks, Inc. | Updating an electronic phonebook over electronic communication networks |
CA2388095A1 (en) * | 1999-10-22 | 2001-05-03 | Activesky, Inc. | An object oriented video system |
US6950881B1 (en) * | 1999-11-02 | 2005-09-27 | Mshift, Inc. | System for converting wireless communications for a mobile device |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7929978B2 (en) | 1999-12-01 | 2011-04-19 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus for providing enhanced communication capability for mobile devices on a virtual private network |
US6553240B1 (en) * | 1999-12-30 | 2003-04-22 | Nokia Corporation | Print option for WAP browsers |
US8271287B1 (en) * | 2000-01-14 | 2012-09-18 | Alcatel Lucent | Voice command remote control system |
US6760697B1 (en) * | 2000-01-25 | 2004-07-06 | Minds And Technology, Inc. | Centralized processing of digital speech data originated at the network clients of a set of servers |
US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US7349955B1 (en) * | 2000-02-11 | 2008-03-25 | Goamerica, Inc. | Method of and system for transferring data over a wireless communications network |
US6675165B1 (en) * | 2000-02-28 | 2004-01-06 | Barpoint.Com, Inc. | Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system |
US6662163B1 (en) * | 2000-03-30 | 2003-12-09 | Voxware, Inc. | System and method for programming portable devices from a remote computer system |
JP2002014952A (ja) * | 2000-04-13 | 2002-01-18 | Canon Inc | 情報処理装置及び情報処理方法 |
US6560576B1 (en) * | 2000-04-25 | 2003-05-06 | Nuance Communications | Method and apparatus for providing active help to a user of a voice-enabled application |
CA2405695C (en) * | 2000-05-01 | 2009-10-20 | Inventio Ag | Method for controlling an elevator |
AU2001259357A1 (en) * | 2000-05-03 | 2001-11-12 | Payback Training Systems, Inc. | Authoring and delivering training courses |
US8355912B1 (en) * | 2000-05-04 | 2013-01-15 | International Business Machines Corporation | Technique for providing continuous speech recognition as an alternate input device to limited processing power devices |
US20030055638A1 (en) * | 2000-05-23 | 2003-03-20 | Burns Stephen S. | Wireless speech recognition tool |
AU6420701A (en) * | 2000-06-05 | 2001-12-17 | Niragongo Inc. | Mehtod of navigating through content of cellular network |
US7219136B1 (en) * | 2000-06-12 | 2007-05-15 | Cisco Technology, Inc. | Apparatus and methods for providing network-based information suitable for audio output |
US7653744B2 (en) * | 2000-06-12 | 2010-01-26 | At&T Mobility Ii Llc | Method and apparatus for sharing wireless content |
FR2810823A1 (fr) * | 2000-06-27 | 2001-12-28 | Canecaude Emmanuel De | Systeme et procede pour transmettre des informations selon un protocole pour des applications sans fil, et equipement de communication mobile adapte |
US6598021B1 (en) * | 2000-07-13 | 2003-07-22 | Craig R. Shambaugh | Method of modifying speech to provide a user selectable dialect |
US7308408B1 (en) | 2000-07-24 | 2007-12-11 | Microsoft Corporation | Providing services for an information processing system using an audio interface |
US7143039B1 (en) * | 2000-08-11 | 2006-11-28 | Tellme Networks, Inc. | Providing menu and other services for an information processing system using a telephone or other audio interface |
FI20001918A (fi) | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
US7376769B1 (en) * | 2000-09-14 | 2008-05-20 | Intel Corporation | Wireless computing device having an application and wireless subsystem and method therefore |
US7240006B1 (en) * | 2000-09-27 | 2007-07-03 | International Business Machines Corporation | Explicitly registering markup based on verbal commands and exploiting audio context |
JP2002116796A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
US6901270B1 (en) * | 2000-11-17 | 2005-05-31 | Symbol Technologies, Inc. | Apparatus and method for wireless communication |
US8135589B1 (en) | 2000-11-30 | 2012-03-13 | Google Inc. | Performing speech recognition over a network and using speech recognition results |
US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US6823306B2 (en) * | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
JP2002181552A (ja) * | 2000-12-11 | 2002-06-26 | Nippon Telegr & Teleph Corp <Ntt> | サーバ型ナビゲーションシステム |
US20020086719A1 (en) * | 2000-12-29 | 2002-07-04 | Pankaj Kedia | Low power subsystem for portable computers |
US7725748B1 (en) | 2000-12-29 | 2010-05-25 | Intel Corporation | Low power subsystem for portable computers |
US20020097692A1 (en) * | 2000-12-29 | 2002-07-25 | Nokia Mobile Phones Ltd. | User interface for a mobile station |
EP1259055A4 (en) * | 2001-01-25 | 2005-04-06 | Mitsubishi Electric Corp | SERVER, DEVICE AND COMMUNICATION PROCESS FOR A SYSTEM TO COMMUNICATE IN A PREDETERMINED LANGUAGE |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US20020110246A1 (en) * | 2001-02-14 | 2002-08-15 | Jason Gosior | Wireless audio system |
US6754627B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Detecting speech recognition errors in an embedded speech recognition system |
GB0107755D0 (en) * | 2001-03-28 | 2001-05-16 | Argo Interactive Group Plc | Method of automatically enhancing browser interactivity |
US6832196B2 (en) * | 2001-03-30 | 2004-12-14 | International Business Machines Corporation | Speech driven data selection in a voice-enabled program |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7970648B2 (en) * | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7698228B2 (en) * | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US6601762B2 (en) * | 2001-06-15 | 2003-08-05 | Koninklijke Philips Electronics N.V. | Point-of-sale (POS) voice authentication transaction system |
US7058575B2 (en) * | 2001-06-27 | 2006-06-06 | Intel Corporation | Integrating keyword spotting with graph decoder to improve the robustness of speech recognition |
KR100412474B1 (ko) * | 2001-06-28 | 2003-12-31 | 유승혁 | 음성인식과 원격지 전화번호부 서버를 이용한 유선전화와 모바일폰의 전화번호부 시스템 및 관리 방법 |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US20030023431A1 (en) * | 2001-07-26 | 2003-01-30 | Marc Neuberger | Method and system for augmenting grammars in distributed voice browsing |
US20030078775A1 (en) * | 2001-10-22 | 2003-04-24 | Scott Plude | System for wireless delivery of content and applications |
US7162414B2 (en) * | 2001-12-07 | 2007-01-09 | Intel Corporation | Method and apparatus to perform speech recognition over a data channel |
US20030120493A1 (en) * | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US20030220784A1 (en) * | 2002-05-24 | 2003-11-27 | International Business Machines Corporation | System and method for automated voice message transcription and delivery |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US20050149331A1 (en) * | 2002-06-14 | 2005-07-07 | Ehrilich Steven C. | Method and system for developing speech applications |
US6910911B2 (en) | 2002-06-27 | 2005-06-28 | Vocollect, Inc. | Break-away electrical connector |
US20040006477A1 (en) * | 2002-07-05 | 2004-01-08 | Craner Michael L. | Voice-controllable communication gateway for controlling multiple electronic and information appliances |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7464035B2 (en) * | 2002-07-24 | 2008-12-09 | Robert Bosch Corporation | Voice control of home automation systems via telephone |
US7259906B1 (en) | 2002-09-03 | 2007-08-21 | Cheetah Omni, Llc | System and method for voice control of medical devices |
US7421390B2 (en) * | 2002-09-13 | 2008-09-02 | Sun Microsystems, Inc. | Method and system for voice control of software applications |
US20040128136A1 (en) * | 2002-09-20 | 2004-07-01 | Irani Pourang Polad | Internet voice browser |
US20060100881A1 (en) * | 2002-11-13 | 2006-05-11 | Intel Corporation | Multi-modal web interaction over wireless network |
US6834265B2 (en) | 2002-12-13 | 2004-12-21 | Motorola, Inc. | Method and apparatus for selective speech recognition |
US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7076428B2 (en) * | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
JP4337027B2 (ja) * | 2003-05-08 | 2009-09-30 | 日本電気株式会社 | 携帯電話機 |
US7243072B2 (en) * | 2003-06-27 | 2007-07-10 | Motorola, Inc. | Providing assistance to a subscriber device over a network |
US20050010418A1 (en) * | 2003-07-10 | 2005-01-13 | Vocollect, Inc. | Method and system for intelligent prompt control in a multimodal software application |
US20050010892A1 (en) * | 2003-07-11 | 2005-01-13 | Vocollect, Inc. | Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities |
WO2005024780A2 (en) * | 2003-09-05 | 2005-03-17 | Grody Stephen D | Methods and apparatus for providing services using speech recognition |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
WO2005033585A2 (en) * | 2003-09-30 | 2005-04-14 | Albers Walter F | Systems and methods for conditoning air and transferring heat and mass between airflows |
CA2541278C (en) * | 2003-10-10 | 2014-09-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Mobile-terminal gateway |
US20050078620A1 (en) * | 2003-10-10 | 2005-04-14 | Kumar Balachandran | Mobile-terminal gateway |
US7697673B2 (en) * | 2003-11-17 | 2010-04-13 | Apptera Inc. | System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system |
US20050163136A1 (en) * | 2003-11-17 | 2005-07-28 | Leo Chiu | Multi-tenant self-service VXML portal |
US7424433B2 (en) * | 2003-12-12 | 2008-09-09 | International Business Machines Corporation | Method and system for dynamic conditional interaction in a VoiceXML run-time simulation environment |
KR100600522B1 (ko) * | 2003-12-16 | 2006-07-13 | 에스케이 주식회사 | 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법 |
US7668720B2 (en) * | 2004-02-20 | 2010-02-23 | Vangard Voice Systems, Inc. | Methodology for voice enabling applications |
US20080154601A1 (en) * | 2004-09-29 | 2008-06-26 | Microsoft Corporation | Method and system for providing menu and other services for an information processing system using a telephone or other audio interface |
TWI251754B (en) * | 2004-12-16 | 2006-03-21 | Delta Electronics Inc | Method for optimizing loads of speech/user recognition system |
US7627638B1 (en) * | 2004-12-20 | 2009-12-01 | Google Inc. | Verbal labels for electronic messages |
TWI276046B (en) * | 2005-02-18 | 2007-03-11 | Delta Electronics Inc | Distributed language processing system and method of transmitting medium information therefore |
JP4622611B2 (ja) * | 2005-03-24 | 2011-02-02 | ソニー株式会社 | 信号処理装置 |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US8249873B2 (en) | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US9866697B2 (en) | 2005-08-19 | 2018-01-09 | Nexstep, Inc. | Consumer electronic registration, control and support concierge device and method |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
JP2007065347A (ja) * | 2005-08-31 | 2007-03-15 | Denso Corp | 音声認識システム |
EP1934971A4 (en) | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US7519253B2 (en) | 2005-11-18 | 2009-04-14 | Omni Sciences, Inc. | Broadband or mid-infrared fiber light sources |
US20070135096A1 (en) * | 2005-12-14 | 2007-06-14 | Symbol Technologies, Inc. | Interactive voice browsing server for mobile devices on wireless networks |
US20070136072A1 (en) * | 2005-12-14 | 2007-06-14 | Symbol Technologies, Inc. | Interactive voice browsing for mobile devices on wireless networks |
US9008075B2 (en) | 2005-12-22 | 2015-04-14 | Genesys Telecommunications Laboratories, Inc. | System and methods for improving interaction routing performance |
US7496693B2 (en) * | 2006-03-17 | 2009-02-24 | Microsoft Corporation | Wireless enabled speech recognition (SR) portable device including a programmable user trained SR profile for transmission to external SR enabled PC |
US20070225976A1 (en) * | 2006-03-21 | 2007-09-27 | Hong-Yung Wang | Method of producing speech files |
US20080086311A1 (en) * | 2006-04-11 | 2008-04-10 | Conwell William Y | Speech Recognition, and Related Systems |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
EP1933302A1 (en) * | 2006-12-12 | 2008-06-18 | Harman Becker Automotive Systems GmbH | Speech recognition method |
US20080154870A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
US20080154612A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Local storage and use of search results for voice-enabled mobile communications devices |
US20080154608A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | On a mobile device tracking use of search results delivered to the mobile device |
US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8607324B2 (en) * | 2008-01-15 | 2013-12-10 | Microsoft Corporation | Untrusted gaming system access to online gaming service |
US8689203B2 (en) * | 2008-02-19 | 2014-04-01 | Microsoft Corporation | Software update techniques based on ascertained identities |
USD626949S1 (en) | 2008-02-20 | 2010-11-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US20090248397A1 (en) * | 2008-03-25 | 2009-10-01 | Microsoft Corporation | Service Initiation Techniques |
US9201527B2 (en) * | 2008-04-04 | 2015-12-01 | Microsoft Technology Licensing, Llc | Techniques to remotely manage a multimedia conference event |
US20090271200A1 (en) * | 2008-04-23 | 2009-10-29 | Volkswagen Group Of America, Inc. | Speech recognition assembly for acoustically controlling a function of a motor vehicle |
US20090271106A1 (en) * | 2008-04-23 | 2009-10-29 | Volkswagen Of America, Inc. | Navigation configuration for a motor vehicle, motor vehicle having a navigation system, and method for determining a route |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) * | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
DE102008046431A1 (de) * | 2008-09-09 | 2010-03-11 | Deutsche Telekom Ag | Sprachdialogsystem mit Reject-Vermeidungsverfahren |
US20100070863A1 (en) * | 2008-09-16 | 2010-03-18 | International Business Machines Corporation | method for reading a screen |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US11012732B2 (en) * | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
JP5697860B2 (ja) * | 2009-09-09 | 2015-04-08 | クラリオン株式会社 | 情報検索装置,情報検索方法及びナビゲーションシステム |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US20110141855A1 (en) * | 2009-12-11 | 2011-06-16 | General Motors Llc | System and method for updating information in electronic calendars |
US8868427B2 (en) * | 2009-12-11 | 2014-10-21 | General Motors Llc | System and method for updating information in electronic calendars |
WO2011084863A2 (en) | 2010-01-07 | 2011-07-14 | Cheetah Omni, Llc | Fiber lasers and mid-infrared light sources in methods and systems for selective biological tissue processing and spectroscopy |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
US10115392B2 (en) * | 2010-06-03 | 2018-10-30 | Visteon Global Technologies, Inc. | Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system |
US8659397B2 (en) | 2010-07-22 | 2014-02-25 | Vocollect, Inc. | Method and system for correctly identifying specific RFID tags |
USD643400S1 (en) | 2010-08-19 | 2011-08-16 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD643013S1 (en) | 2010-08-20 | 2011-08-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US9600135B2 (en) | 2010-09-10 | 2017-03-21 | Vocollect, Inc. | Multimodal user notification system to assist in data capture |
US9953643B2 (en) * | 2010-12-23 | 2018-04-24 | Lenovo (Singapore) Pte. Ltd. | Selective transmission of voice data |
WO2013012107A1 (ko) | 2011-07-19 | 2013-01-24 | 엘지전자 주식회사 | 전자 기기 및 그 제어 방법 |
JP5928048B2 (ja) * | 2012-03-22 | 2016-06-01 | ソニー株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置 |
KR101309794B1 (ko) * | 2012-06-27 | 2013-09-23 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템 |
KR20140054643A (ko) * | 2012-10-29 | 2014-05-09 | 삼성전자주식회사 | 음성인식장치 및 음성인식방법 |
US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
KR20140058127A (ko) * | 2012-11-06 | 2014-05-14 | 삼성전자주식회사 | 음성인식장치 및 음성인식방법 |
US9070367B1 (en) * | 2012-11-26 | 2015-06-30 | Amazon Technologies, Inc. | Local speech recognition of frequent utterances |
RU2530268C2 (ru) | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ обучения информационной диалоговой системы пользователем |
US10660526B2 (en) | 2012-12-31 | 2020-05-26 | Omni Medsci, Inc. | Near-infrared time-of-flight imaging using laser diodes with Bragg reflectors |
EP3181048A1 (en) | 2012-12-31 | 2017-06-21 | Omni MedSci, Inc. | Near-infrared lasers for non-invasive monitoring of glucose, ketones, hba1c, and other blood constituents |
US9993159B2 (en) | 2012-12-31 | 2018-06-12 | Omni Medsci, Inc. | Near-infrared super-continuum lasers for early detection of breast and other cancers |
WO2014143276A2 (en) | 2012-12-31 | 2014-09-18 | Omni Medsci, Inc. | Short-wave infrared super-continuum lasers for natural gas leak detection, exploration, and other active remote sensing applications |
WO2014105521A1 (en) | 2012-12-31 | 2014-07-03 | Omni Medsci, Inc. | Short-wave infrared super-continuum lasers for early detection of dental caries |
US9500635B2 (en) | 2012-12-31 | 2016-11-22 | Omni Medsci, Inc. | Short-wave infrared super-continuum lasers for early detection of dental caries |
KR20140089861A (ko) * | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 디스플레이 장치 및 그의 제어 방법 |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
DE102013006173A1 (de) * | 2013-04-10 | 2014-10-16 | Audi Ag | Verfahren und Vorrichtung zur proaktiven Dialogführung |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
CN105493180B (zh) * | 2013-08-26 | 2019-08-30 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
CN104423980B (zh) * | 2013-08-26 | 2018-12-14 | 联想(北京)有限公司 | 信息处理方法和信息处理设备 |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
KR102215579B1 (ko) * | 2014-01-22 | 2021-02-15 | 삼성전자주식회사 | 대화형 시스템, 디스플레이 장치 및 그 제어 방법 |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US10210003B2 (en) * | 2014-09-30 | 2019-02-19 | Nuance Communications, Inc. | Methods and apparatus for module arbitration |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10199041B2 (en) | 2014-12-30 | 2019-02-05 | Honeywell International Inc. | Speech recognition systems and methods for maintenance repair and overhaul |
US10388277B1 (en) * | 2015-06-25 | 2019-08-20 | Amazon Technologies, Inc. | Allocation of local and remote resources for speech processing |
US9997155B2 (en) * | 2015-09-09 | 2018-06-12 | GM Global Technology Operations LLC | Adapting a speech system to user pronunciation |
CN105681444A (zh) * | 2016-02-02 | 2016-06-15 | 优听无限传媒科技(北京)有限责任公司 | 智能终端远程控制目标wifi音箱的方法 |
US20170330564A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Simultaneous Speech from Distributed Microphones |
JP6744025B2 (ja) * | 2016-06-21 | 2020-08-19 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10332523B2 (en) | 2016-11-18 | 2019-06-25 | Google Llc | Virtual assistant identification of nearby computing devices |
US10971157B2 (en) * | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US10204623B2 (en) * | 2017-01-20 | 2019-02-12 | Essential Products, Inc. | Privacy control in a connected environment |
US10547729B2 (en) * | 2017-03-27 | 2020-01-28 | Samsung Electronics Co., Ltd. | Electronic device and method of executing function of electronic device |
US10572220B2 (en) * | 2017-04-12 | 2020-02-25 | American Megatrends International, Llc | Method for controlling controller and host computer with voice |
KR102309031B1 (ko) * | 2017-04-27 | 2021-10-06 | 삼성전자 주식회사 | 지능형 에이전트 관리 방법 및 장치 |
US10522146B1 (en) * | 2019-07-09 | 2019-12-31 | Instreamatic, Inc. | Systems and methods for recognizing and performing voice commands during advertisement |
KR102445382B1 (ko) * | 2017-07-10 | 2022-09-20 | 삼성전자주식회사 | 음성 처리 방법 및 이를 지원하는 시스템 |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
US10679620B2 (en) * | 2018-03-06 | 2020-06-09 | GM Global Technology Operations LLC | Speech recognition arbitration logic |
CN108831475B (zh) * | 2018-05-24 | 2020-09-29 | 广州市千钧网络科技有限公司 | 一种文本消息提取方法及系统 |
US11955120B1 (en) | 2019-01-31 | 2024-04-09 | Alan AI, Inc. | Systems and methods for integrating voice controls into applications |
US11935539B1 (en) * | 2019-01-31 | 2024-03-19 | Alan AI, Inc. | Integrating voice controls into applications |
CA3143946A1 (en) * | 2019-12-10 | 2021-06-17 | Rovi Guides, Inc. | Systems and methods for interpreting a voice query |
EP4158278A4 (en) * | 2020-05-27 | 2023-12-06 | Gentex Corporation | MOMENT DETECTION SYSTEM |
US11741964B2 (en) * | 2020-05-27 | 2023-08-29 | Sorenson Ip Holdings, Llc | Transcription generation technique selection |
US11776537B1 (en) * | 2022-12-07 | 2023-10-03 | Blue Lakes Technology, Inc. | Natural language processing system for context-specific applier interface |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3397372B2 (ja) | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
US5799063A (en) * | 1996-08-15 | 1998-08-25 | Talk Web Inc. | Communication system and method of providing access to pre-recorded audio messages via the Internet |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5926789A (en) * | 1996-12-19 | 1999-07-20 | Bell Communications Research, Inc. | Audio-based wide area information system |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6122613A (en) | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6094476A (en) * | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US5884266A (en) * | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
GB2333416A (en) * | 1998-01-17 | 1999-07-21 | Ibm | Text and speech conversion in telephony network |
-
1998
- 1998-10-16 US US09/173,748 patent/US6185535B1/en not_active Expired - Lifetime
-
1999
- 1999-10-05 BR BR9914583-9A patent/BR9914583A/pt not_active IP Right Cessation
- 1999-10-05 AU AU14220/00A patent/AU1422000A/en not_active Abandoned
- 1999-10-05 EP EP99970776A patent/EP1129449A1/en not_active Withdrawn
- 1999-10-05 WO PCT/SE1999/001769 patent/WO2000023985A1/en active Application Filing
- 1999-10-05 CN CNB998142123A patent/CN1158645C/zh not_active Expired - Fee Related
- 1999-10-05 JP JP2000577652A patent/JP2002528804A/ja not_active Withdrawn
- 1999-10-12 MY MYPI99004397A patent/MY117070A/en unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100346625C (zh) * | 2002-12-27 | 2007-10-31 | 联想(北京)有限公司 | 一种电话语音交互系统及其实现方法 |
CN110476150A (zh) * | 2017-03-28 | 2019-11-19 | 三星电子株式会社 | 用于操作语音辨识服务的方法和支持其的电子装置 |
US11733964B2 (en) | 2017-03-28 | 2023-08-22 | Samsung Electronics Co., Ltd. | Method for operating speech recognition service and electronic device supporting the same |
CN110476150B (zh) * | 2017-03-28 | 2023-12-29 | 三星电子株式会社 | 用于操作语音辨识服务的方法和支持其的电子装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2002528804A (ja) | 2002-09-03 |
US6185535B1 (en) | 2001-02-06 |
EP1129449A1 (en) | 2001-09-05 |
BR9914583A (pt) | 2001-07-03 |
MY117070A (en) | 2004-04-30 |
AU1422000A (en) | 2000-05-08 |
CN1158645C (zh) | 2004-07-21 |
WO2000023985A1 (en) | 2000-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1329739A (zh) | 到服务应用程序上的用户接口的声音控制 | |
US7421390B2 (en) | Method and system for voice control of software applications | |
KR100561228B1 (ko) | 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템 | |
KR101027548B1 (ko) | 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 | |
CN1617559B (zh) | 顺序多模输入 | |
US20120004910A1 (en) | System and method for speech processing and speech to text | |
EP2273754A2 (en) | A conversational portal for providing conversational browsing and multimedia broadcast on demand | |
CN1617558A (zh) | 顺序多模输入 | |
CN1639696A (zh) | 用于并行多模通信会话持续的系统和方法 | |
US20210329060A1 (en) | Scripting support for data identifiers, voice recognition and speech in a telnet session | |
CN1291307C (zh) | 信息处理装置和方法 | |
CN1573928A (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
CN1591315A (zh) | 用于高级交互接口的语义对象同步理解 | |
CN101366075A (zh) | 话音控制式无线通信装置系统的控制中心 | |
JP2001222294A (ja) | 無線通信装置のためのユーザインターフェースに基づく音声認識 | |
US20030202504A1 (en) | Method of implementing a VXML application into an IP device and an IP device having VXML capability | |
CN101069198A (zh) | 与信使结合运行的语言转换系统及服务方法 | |
US6732078B1 (en) | Audio control method and audio controlled device | |
US7216287B2 (en) | Personal voice portal service | |
CN1658635A (zh) | 导航应用的方法和系统 | |
US20040042591A1 (en) | Method and system for the processing of voice information | |
RU2324296C1 (ru) | Способ обмена сообщениями и устройства для его реализации | |
US20030223555A1 (en) | Enabling legacy interactive voice response units to accept multiple forms of input | |
CN1427394A (zh) | 语音浏览网关 | |
Rössler et al. | Multimodal interaction for mobile environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
C10 | Entry into substantive examination | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |