CN101341532A - 通过标记共享话音应用处理 - Google Patents
通过标记共享话音应用处理 Download PDFInfo
- Publication number
- CN101341532A CN101341532A CNA2006800480248A CN200680048024A CN101341532A CN 101341532 A CN101341532 A CN 101341532A CN A2006800480248 A CNA2006800480248 A CN A2006800480248A CN 200680048024 A CN200680048024 A CN 200680048024A CN 101341532 A CN101341532 A CN 101341532A
- Authority
- CN
- China
- Prior art keywords
- client
- server
- client device
- script
- described client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 238000013515 script Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 14
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种用于处理话音应用的系统,包括客户端设备(10),所述客户端设备(10)具有指示其计算能力的相关数据。所述系统可访问多个脚本,所述脚本指定了将在用户与所述系统之间的基于话音的对话中执行的任务。可在浏览器级别解释所述脚本。服务器(20)根据所述相关数据选择用于客户端设备(10)的适当脚本。解释层处理所选择的脚本以针对所述对话确定将在客户端设备(10)上执行的第一组指令和将在服务器(20)上执行的第二组指令。从而根据客户端的计算能力在所述客户端设备与所述服务器之间共享计算。
Description
技术领域
本发明涉及在客户端-服务器环境中处理话音应用。
背景技术
近些年来,如因特网的广泛使用所表明的,电子信息和服务得到了极大发展。通常,用户例如通过使用键盘或触摸屏键入信息来与系统进行交互并在视频显示器上查看结果。然而,提供了越来越多的允许用户口头输入信息的会话系统。系统输出被以可听的方式提供给用户。这种会话系统允许用户轻松地在移动中获取信息和服务,解放了用户的双手以用于其他任务。
会话系统需要语音识别来理解用户以及需要语音合成来以类似人的话音朗读信息。通常,这种系统在电话基础设施中执行,其中客户端设备是例如手机的电话设备。最初,这种会话系统与哑客户端设备一起工作,因此所有的语音处理(识别与合成)都在与哑客户端通信的服务器中完成。然而,手持客户端的处理能力的提高使得在客户端侧的语音处理(识别与合成两者)成为可能。
在一些会话系统中,语音识别的一部分在客户端设备上处理。术语“分布式语音识别”用于指允许应用将在客户端设备上的本地语音处理与到基于网络的语音服务的远程访问相结合的系统。例如,诸如降噪之类的信号处理可在客户端设备上执行,然后客户端设备将处理后的数据发送到基于网络的语音服务。反过来,该语音服务处理所接收的信号以确定用户的请求并使用话音输出来响应用户。
另一种使用客户端的处理能力的已知技术是嵌入式连接文本语音转换(eCTTS),其中语音合成的一部分在客户端完成。将语音段保持为可被重建回语音的压缩特征向量。
在另一种已知方法中,会话系统可完全驻留在客户端,并且整个语音识别过程都在本地完成。由于客户端通常具有有限的处理能力,因此只有很小的会话系统才在这种设备上执行。
尽管存在现有的技术,但是仍需要用于处理话音应用的更有效和通用的系统。
发明内容
在此描述了一种灵活的机制,其中根据客户端的计算能力在客户端与服务器之间共享与对话有关的计算。这种分布优选地在标记级别执行并且这种方法使得客户端设备能够执行脚本。
根据本发明的第一方面,提供了一种在客户端-服务器计算系统中的服务器上处理话音应用的方法。接收指示所述客户端的计算能力的数据。根据所述接收的数据选择一组指令,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务。将所述一组指令提供给所述客户端以便执行。
根据本发明的另一方面,提供了一种在客户端-服务器计算系统中的客户端设备上处理话音应用的方法。接收来自所述服务器的脚本,根据指示所述客户端设备的计算能力的数据来选择所述脚本。分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令。在所述客户端设备上执行所述指令。
根据本发明的另一方面,提供了一种用于在客户端-服务器计算系统中处理话音应用的服务器。所述服务器首先包括用于接收指示所述客户端的计算能力的数据的装置。所述服务器还具有用于根据所述接收的数据选择一组指令的装置,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务。所述服务器还具有用于将所述一组指令提供给所述客户端以便执行的装置。
根据本发明的另一方面,提供了一种用于在客户端-服务器计算系统中处理话音应用的客户端设备。所述客户端设备包括用于接收来自所述服务器的脚本的装置,根据指示所述客户端设备的计算能力的数据来选择所述脚本。还具有用于分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令的装置,以及用于在所述客户端设备上执行所述指令的装置。
根据本发明的另一方面,提供了一种计算机程序产品,包括记录在机器可读记录介质上的用于控制服务器的操作的机器可读程序代码,所述程序代码在所述服务器上执行以便执行在客户端-服务器计算系统中处理话音应用的方法。所述方法包括上面描述的步骤。
根据本发明的另一方面,提供了一种计算机程序产品,包括记录在机器可读记录介质上的用于控制客户端设备的操作的机器可读程序代码,所述程序代码在所述客户端设备上执行以便执行在客户端-服务器计算系统中处理话音应用的方法。所述方法包括上面描述的步骤。
根据本发明的另一方面,提供了一种用于处理话音应用的系统,所述系统包括:客户端设备,其具有指示所述客户端设备的计算能力的相关数据。所述系统还包括:数据存储装置,其存储了多个脚本,所述脚本指定了要在用户与所述系统之间的基于话音的对话中执行的任务。所述系统还包括:服务器,其根据所述相关数据选择用于所述客户端设备的适当脚本。解释层处理所选择的脚本以针对所述对话确定将在所述客户端设备上执行的第一组指令和将在所述服务器上执行的第二组指令。同步层同步所述第一和第二组指令的执行。
附图说明
以下参考附图说明了本发明的一个或多个实施例,其中:
图1是根据优选实施例的适于执行这里描述的技术的客户端-服务器配置的示意图;
图2是根据本发明的一个优选实施例的用于在客户端和服务器之间灵活地分布计算的方法的流程图;
图3是根据本发明的一个优选实施例的适于在图1的配置中使用的计算设备的示意图;以及
图4是根据本发明的一个优选实施例的在客户端与服务器之间提供同步的通信层的示意图。
具体实施方式
这里描述的技术提供了一种在客户端和服务器之间共享对话处理的灵活机制。允许在客户端处执行脚本。在描述的配置中,服务器可访问脚本的各个版本,每一个版本都针对相应的设备简档进行定制。
图1显示了具有客户端设备10和服务器20的系统1。如图所示,客户端设备10是移动电话。然而客户端10可以是任何具有计算资源的可发声设备。例如,客户端设备10可以是个人数字助理(PDA)或通用计算机,该计算机具有麦克风和一个或多个扬声器以使其能够检测口语输入并提供可听的输出。该客户端设备具有足够的处理能力来运行嵌入式语音识别引擎。
客户端设备10例如经由蜂窝电话网络发射信息12到服务器20,并从服务器20接收信息14。将在下面参考图3描述服务器20和客户端设备10的硬件结构。
服务器20包括语音服务器24和话音浏览器22。语音服务器24执行自动语音识别(ASR)以将从客户端设备10的用户接收的请求转换成更适于进一步处理的格式。从客户端设备10接收的数据可包括语音,也可包括音频输入,比如双音多频(DTMF)键控输入。
语音服务器24还利用文本到语音转换(TTS)能力将信息转换成音频。该音频与数据14一同发送回客户端设备10。
话音浏览器22接收输入数据12和输出数据14。在使用类似于图1中所见的架构的现有技术系统中,话音浏览器22仅仅是客户端设备10和语音服务器24之间的通道。然而,在当前描述的配置中,话音浏览器22指定了要在客户端设备10上执行的对话和/或语音处理。通过根据客户端设备10的能力来自适应地共享处理,系统1通过减少服务器的往返操作而提高了效率
服务器20可使用超文本传输协议(HTTP)工具26来访问信息和服务。如图所示,该信息和服务源自数据存储装置30。然而,实际上使用系统1可访问的信息和服务的来源很多。HTTP工具26和数据存储装置30之间的通信链路28例如可以是因特网或局域网。链路28可以只是点到点连接。
从客户端设备10发送到话音浏览器22的数据12包括语音、文本和定义客户端设备10的简档的参数。话音浏览器22选择指定了要在客户端设备10上完成何种处理的脚本(称为“话音脚本”)。因此,客户端设备10的能力和话音脚本确定了服务器20和客户端设备10之间的处理的划分。在确定哪些对话在客户端10上本地处理以及语音处理的哪个部分在客户端10(而不是服务器20)上发生方面,使用话音脚本可以提供灵活性。
从话音浏览器22发送到客户端设备10的数据14包括话音脚本和语音。客户端设备10执行该话音脚本。语音服务器24并不受服务器20和客户端设备10之间的处理任务的分配的影响。
在一种配置中,使用话音可扩展标记语言(VoiceXML)编写话音脚本。VoiceXML是基于XML的脚本编写语言,并且VoiceXML正作为用于激活语音的交互应用的标准而获得认同。VoiceXML为编写基于音频对话的话音应用提供了与平台无关的语言。存在两种主要类型的对话。窗体呈现信息和收集输入,而菜单呈现一组选择。
图2是在客户端10和服务器20之间灵活共享处理的方法的流程图。在步骤202,客户端10与服务器20进行通信以提供定义客户端设备10的能力的参数。可在呼叫建立时通知服务器20客户端的能力,或者,服务器20已经被通知了客户端的能力。例如,可以将信息与电话号码关联,以通知服务器20该电话号码由具有特定能力的客户端设备所使用。
描述客户端能力的参数包括可用存储器量、处理能力和电池电力。也可使用其他参数,包括确定特定硬件或软件资源(如程序或协议)在客户端上可用的数据。
在步骤204,服务器使用所述参数来确定客户端设备10的简档。在步骤206,服务器20选择合适的话音脚本并将所选择的脚本发送给客户端设备10。服务器可访问多个话音脚本,每一个脚本都针对特定的设备简档进行定制。所述话音脚本指定了要在客户端10处完成的对话和/或语音处理,并且还指定了哪些部分可在服务器20处执行。语音识别引擎已安装在客户端设备10上,并且所述脚本定义了处理步骤,为了执行所述处理步骤,将使用语音识别引擎。
客户端设备10分析所述话音脚本(步骤208),并且在步骤210,客户端设备10全部或部分地执行该话音脚本。客户端设备10解释该脚本以确定需要完成何种任务以及以怎样的顺序完成任务。然后客户端设备10执行如脚本要求的指定的语音识别与合成任务。例如,话音脚本可指定客户端设备需要合成一段提示并对用户播放该提示。客户端设备调用语音合成引擎以合成提示。然后,客户端设备接收用户的口头响应并使用语音识别系统处理该响应。在脚本中提供了来自用户的期望响应的语法。语音识别系统的输出被用来确定将执行的下一个步骤,如在话音脚本中指定的那样。
由于运行时的约束,客户端设备10可能无法支持话音脚本所指定的计算。客户端设备10然后可以选择表现为哑客户端。在这种情况下,客户端-服务器交换将支持所需的多种交互。
在一种配置中,话音脚本包括用于对话和语音的JavascriptTM。发送到客户端设备10的话音脚本将告知可以在客户端设备上完成何种操作。该话音脚本包括设备敏感的结构,因此通过分析脚本,客户端可以确定可在客户端上完成何种处理。话音脚本包括对话处理所需的语法结构以及语音处理所需的语音结构。话音脚本的结构还包括“可选形态”,用于在分类为“必须具有”或“可以具有”的文本之间进行区别,以及用于标识分类为“必须具有”的语音。(Java和所有基于Java的商标和标志都是SunMicrosystems,Inc.在美国和/或其他国家/地区的商标。)
话音服务器的语言是VXML的扩展,其支持在服务器20和客户端设备10之间分配处理的特性。该语言包含未在VXML中定义的标记标签,所述标签被分析器用来从扩展后的VXML生成VXML服务器和VXML客户端。下面描述了一些附加标签。
如果要处理一个较大的数据块,则使用此标签。扩展后的语言提供了这样的特性:其将数据块分割为两个部分,然后分别在客户端和服务器上处理这两个部分,而不是在服务器20或客户端10上处理较大的数据块。这里,splitblock=”25”表示该数据块的前25个字符将在客户端设备10上处理,而剩下的字符将在服务器20上处理。
如果存在必需由客户端设备10提示的问题,则可根据客户端的简档合并这些问题。客户端设备10的简档包括与可用存储器量和客户端10上的用户是否处于匆忙之中有关的信息。如果用户处于匆忙之中,则这些问题可被合并以及可由客户端或服务器按照规定询问。也可存在其他合并准则。
如果存在任何服务器20或客户端10在n次尝试中未识别的问题,则可以将该问题分割为不同的提示。客户端设备10或服务器20可以如目的地指定的那样询问这些问题。也可存在其他分割准则。问题的基础语法(嵌套的或顺序的)将在确定分割的过程中起作用。
在嵌套语法的情况下,通常需要将最后一个答案(而不是所有答案)返回服务器以便分割提示。
嵌套语法的例子:
a.哪个国家?
b.哪个城市?
c.哪个机场?
如果必须进一步提交答案,则只有最后一个答案是所关心的,因为目的是确定哪个机场。由于存储器的限制,将整个问题分成三个较小的语法。
在顺序语法的情况中,用户不仅仅是关心最后一个问题的答案,而且关心对整个问题的每个部分的答案。在某种分割之后,必须连接与每个子部分相关的答案并且将其存储在末尾,以产生与服务器本身识别整个语法等同的效果。
顺序语法的例子:
a.名字是什么?
b.姓氏是什么?
c.位置在何处?
在此情况中我们关心完整的答案,因为合并后的问题是“您想要谁的电话号码以及位置在何处?”,其答案可能是(Nitendra Rajput在办公室)。
与分割和合并相关的不同可能性
1)在服务器20处识别整个问题并且无需分割与该问题相关的整体大型语法(Big Grammar)。
2)将问题划分成若干较小的部分并且在客户端一侧完成语音识别。每次都将与提示相关的语法传送给客户端设备10。在嵌套语法的情况中,语法依赖于用户给出的答案,但是在顺序语法的情况中,传送的语法可独立于答案或可依赖于用户之前给出的答案(例如,布尔答案)。
3)另一种可能是在若干较小的部分之中,在服务器20处标识一些部分并且在客户端设备10处标识其他部分。在这种配置中,与将在客户端10处标识的问题相关的语法被传送给客户端。
4)在传送语法中存在一个潜在问题。即使客户端10不需要返回任何内容给服务器20,客户端也还是要回到服务器以使得服务器能够根据之前的答案传送合适的语法。这将增大客户端10的响应时间。所以,如果客户端具有足够的存储器来处理所有语法,则应将所有语法传送给客户端,以防止客户端还需要回到服务器以使得传送合适的语法。
例子:
a.哪个国家?
b.哪个城市?
在这种情况中,第二个问题依赖于第一个问题。所以我们在客户端10处保留所有国家的所有城市的语法(如果该客户端的能力允许的话),而不是基于前一个问题的答案传送用于第二个问题的合适语法。
5)在理想条件下,服务器20的存储器是足够大的,所以可在服务器20上合并任何数目的问题。然而,在客户端设备10处,将考虑客户端10的存储器限制来完成语法合并。可以存在多种提示合并组合。这意味着如果将多个问题发送到客户端10以便合并,则可能并不是所有问题都在客户端处合并。
例子:
a.您的名字?
b.您的地址?
c.您父亲的名字?
将发送这三个问题以在客户端10处进行合并。然而,考虑到客户端10的存储器限制,也许只有第一个和最后一个问题被合并。
6)无需在客户端10的存储器限制的基础上完成分割/合并。其他可能的考虑包括“无匹配”数的计数,或“无输入”数的计数。如果用户处于匆忙之中,则可以执行合并,而如果用户不能处理大型问题而仅愿意回答较小的问题,则可以执行分割。可在用户提供的信息的基础上执行分割。例如,如果用户通过相应提示提供了比所需信息更多的信息,则可以执行分割。
例子:
a.您的名字?
b.您的姓氏和出生日期?
如果用户对第一个问题的回答是“Neeraj Chaudhary”,则第二个问题可被分割成两个部分,并且仅询问问题“您的出生日期?”。
附录A包括一个以扩展XVML语言编写的样例程序。如示出的,可以分析该样例程序并将其划分成两个部分,这两个部分可以分别在服务器20和客户端设备10上运行。
通信层(同步协议)
图4示出了用于同步在客户端10和服务器20上执行的处理的通信层。话音脚本(即VXMLext文件)401在VXMLext解释器层被处理,该层包括分解器403和解释器的一组功能特定的模块405。解释器层是客户端10和服务器20所执行的分析的一部分。在一种配置中,解释器层是话音浏览器的一部分,该话音浏览器同时驻留在客户端和服务器上,即客户端话音浏览器和服务器话音浏览器22。
将功能特定的模块405的输出提供给运行在服务器20上的服务器引擎407和运行在客户端10上的客户端引擎409。引擎407、409又与同步客户端-服务器交互的同步器411进行通信。同步器411与运行在服务器20上的浏览器代码413和运行在客户端410上的浏览器代码415进行交互。同步器411和浏览器代码413、415共同构成了通信层。
当‘目的地’中指定了多个值(以‘/’分隔)时,第一个值是首选目的地。如果标签无法在第一目的地中执行,则在下一个指定位置完成执行。作为这些基本值的组合的值在执行顺序中具有以下含义:
·客户端/服务器:在客户端上执行。如果执行未成功,则在服务器上执行。
·客户端/部分的/服务器:在客户端上执行。如果执行未成功,则在客户端上完成部分执行并在服务器上完成其余执行。如果此操作也不成功,则在服务器上执行。
·客户端/分割:在客户端上执行。如果未成功,则将对话分割成多个子对话,然后在客户端上执行。
·客户端/分割/服务器:在客户端上执行。如果未成功,则将对话分割成多个子对话并在客户端上执行。如果此操作也不成功,则在服务器上执行该对话。
·客户端/服务器/分割:在客户端上执行。如果未成功,则在服务器上执行。如果此操作也不成功,则将对话分割成多个子对话并在客户端上执行。如果同样失败,则在服务器上执行多个子对话。
·服务器/客户端:该值是有效的,但是只对<merge>和<block>标签有意义。当与<merge>一起使用时,合并后的对话将在服务器上执行,并且如果未成功,则该对话被分割,然后在客户端上执行。
现在将针对目的地值为‘客户端/分割/服务器’的情况对同步层进行描述。
当处理在客户端10上发生时,服务器20处于等待模式。如果处理成功,则客户端10编写‘成功’消息并将已识别的字符串写入要发送给服务器20的文件。然后客户端10移动到下一个对话,该对话如在VXMLext(话音脚本)401中指定的那样将在客户端10或服务器20上发生。
如果在客户端10的处理未成功,则该客户端通过使用运行在其上的适当模块405再次分割呼叫流而继续。服务器20仍处在等待状态。如果在客户端的所有步骤均未成功,则最后将‘未成功’消息发送给服务器20并且将所识别的字符串设置为空字符串。然后,处理在服务器20上继续进行,与客户端10相比,服务器20具有更好的识别准确性和更好的处理能力。
如果第一次尝试失败,则服务器20将分割问题。在这种情况下,即使服务器20处的识别尝试失败,客户端10也必须知道服务器的当前状态。这是因为即使识别发生在服务器20上,客户端10也具有录制语音、发送该语音到服务器20、然后接收并播放合成语音的任务。
当所有处理都在客户端10上发生时,服务器20没有任何任务并可保持休眠,直到已在客户端10上尝试了标签“目的地”所允许的所有情况。
由于通信层传送已识别的字符串,所以对于连接的、顺序的和嵌套的呼叫流,策略是变化的。
a)应记住的是,在连接问题的情况下,应在连接之后提交所有答案。
例子-您的名字?
需要连接下面三个部分:
1.您的名?
2.您的中间名?
3.您的姓?
b)在嵌套呼叫流的情况下,仅需提交最后一个问题的答案。
例子-我们只关心机场,但是将询问下面的嵌套问题-
哪个国家?
哪个城市?
哪个机场?
c)在连续呼叫流的情况下,需要提交最后一个问题的答案:
例子-我们只关心座位号
1.告诉我在1到20、21到40、41到60、61到80之间的座位号;
2.告诉我您的座位号。
随后的用来同步客户端10和服务器20的方法对于其他目的地值(服务器/客户端,服务器/客户端/分割,客户端/服务器等)是类似的,但是其中事件发生的顺序将随目的地值而变化。
计算机硬件
图3是一类适于执行用于在客户端和服务器之间共享话音应用处理的计算机软件的计算机系统300的示意图。计算机软件在安装在计算机系统300上的合适的操作系统下执行,并且可被视为包括用于完成特定步骤的各种软件代码装置。计算机系统300可被用作服务器20。通过下面描述的修改,计算机系统300的结构也可用在客户端设备10中。
计算机系统300的组件包括计算机320、键盘310和鼠标315以及显示器390。计算机320包括处理器340、存储器350、输入/输出(I/O)接口360、365、视频接口345和存储设备355。
处理器340是执行操作系统和在操作系统下执行的计算机软件的中央处理单元(CPU)。存储器350可包括随机存取存储器(RAM)和只读存储器(ROM),并在处理器340的控制下使用。
视频接口345连接到显示器390并提供在显示器390上显示的信号。从例如键盘310和鼠标315提供用于操作计算机320的用户输入。也可以使用例如麦克风的其他类型的输入。也可以使用一个或多个扬声器(未示出)以可听的方式输出信号。存储设备355可包括盘驱动器或任何其他合适的存储介质。
计算机320的每个组件都连接到包括数据、地址和控制总线的内部总线330以允许计算机320的组件经由总线330互相通信。
计算机系统300可使用到网络(在图3中表示为因特网380)的通信信道385经由输入/输出(I/O)接口365连接到一个或多个类似的计算机。
可以将计算机软件记录在便携存储介质上,在这种情况下,计算机系统300从存储设备355访问计算机软件程序。备选地,计算机320可直接从因特网380访问计算机软件。在这两种情况中,用户都可以例如使用键盘310和鼠标315操作在计算机320上执行的编程的计算机软件来与计算机系统300交互。
可同样适当地使用其他配置或类型的计算机系统来执行协助实施在此描述的技术的计算机软件。此外,在实施所描述的技术中,可以使用诸如数字信号处理器之类的定制器件和专用硬件。
手持客户端设备10可具有与图3中显示的相类似的计算结构。显示器390和小键盘被集成在通常不具有鼠标315的客户端设备10中。客户端设备10中的I/O接口365是用于经由蜂窝网络发送和接收信号的收发机,并且客户端设备10还包括麦克风和扬声器以处理可听的输入和输出。
结论
可对在此描述的技术和配置做出各种改变和修改,这对相关领域的技术人员来说是显而易见的。
附录A
VXML扩展样例程序
此文件是提供给分析器的,将生成以下的‘VXML服务器’和‘VXML客户端’文件并使得它们分别在服务器和客户端上运行。
生成的VXML服务器
生成的VXML客户端
标签库
1.合并
属性
源
目的地
2.分割
属性
源
目的地
3.块
新属性
处理
分割块
4.字段
新属性
执行
5.转到合并
7.转到分割
8.Vxmlext
插入此标签以将所述语言与正常的Vxml语言进行区分,因为它具有各种其他特性。
还添加了用于合并和分割多个提示的特定标签(语法<p(promptnumberafter p)>)
Claims (26)
1.一种在客户端-服务器计算系统中灵活地处理话音应用的方法,所述方法包括以下在所述服务器上的步骤:
接收指示所述客户端的计算能力的数据;
根据所述接收的数据选择一组指令,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务;以及
将所述一组指令提供给所述客户端以便执行。
2.如权利要求1所述的方法,还包括以下步骤:
如果一个或多个所述任务未成功地在所述客户端上执行,则在所述服务器上执行所述一个或多个任务。
3.如权利要求1或2所述的方法,其中所述接收步骤包括以下子步骤:
标识所述客户端;以及
检索所述标识的客户端的所述计算能力的预定简档。
4.如权利要求1或2所述的方法,其中所述接收步骤在所述基于话音的对话的运行时间接收所述数据。
5.如任一上述权利要求所述的方法,其中所述数据包括以下项中的至少一项:
所述客户端上可用的存储器的度量;
所述客户端的电池电力;
所述客户端的处理能力;以及
标识所述客户端上可用的一个或多个资源的信息。
6.一种在客户端-服务器计算系统中灵活地处理话音应用的方法,所述方法包括以下在客户端设备上的步骤:
接收来自所述服务器的脚本,根据指示所述客户端设备的计算能力的数据来选择所述脚本;
分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令;以及
在所述客户端设备上执行所述指令。
7.如权利要求6所述的方法,还包括以下步骤:
将指示计算能力的所述数据从所述客户端设备发送到所述服务器。
8.如权利要求6或7所述的方法,还包括以下步骤:
通知所述服务器至少一个所述指令未成功地在所述客户端设备上执行。
9.如权利要求6、7或8所述的方法,其中所述对话包括要播放给所述用户的提示以及对所述提示的期望响应的相应语法,所述方法进一步包括以下步骤:
根据所述客户端设备的计算能力,将至少一个所述提示和相应语法分割成多个提示和相应语法。
10.如权利要求9所述的方法,其中所述脚本包括一个或多个目的地参数,所述参数指定了是在所述服务器上还是在所述客户端设备上执行所述多个提示和语法。
11.如权利要求6至8中的任一权利要求所述的方法,其中所述对话包括将播放给所述用户的提示和期望响应的相应语法,并且其中根据所述客户端设备的计算能力,将多个所述提示和相应语法合并成一个提示和相应语法。
12.一种用于在客户端-服务器计算系统中处理话音应用的服务器,所述服务器包括:
用于接收指示所述客户端的计算能力的数据的装置;
用于根据所述接收的数据选择一组指令的装置,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务;以及
用于将所述一组指令提供给所述客户端以便执行的装置。
13.如权利要求12所述的服务器,包括:
用于在一个或多个所述任务未成功地在所述客户端上执行的情况下,在所述服务器上执行所述一个或多个任务的装置。
14.如权利要求12或13所述的服务器,其中所述接收装置包括:
用于标识所述客户端的装置;以及
用于检索所述标识的客户端的所述计算能力的预定简档的装置。
15.如权利要求12或13所述的服务器,其中所述接收装置可操作以在所述基于话音的对话的运行时间接收所述数据。
16.如权利要求12至15中的任一权利要求所述的服务器,其中所述数据包括以下项中的至少一项:
所述客户端上可用的存储器的度量;
所述客户端的电池电力;
所述客户端的处理能力;以及
标识所述客户端上可用的一个或多个资源的信息。
17.一种用于在客户端-服务器计算系统中处理话音应用的客户端设备,所述客户端设备包括:
用于接收来自所述服务器的脚本的装置,根据指示所述客户端设备的计算能力的数据来选择所述脚本;
用于分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令的装置;以及
用于在所述客户端设备上执行所述指令的装置。
18.如权利要求17所述的客户端设备,还包括:
用于将指示计算能力的所述数据从所述客户端设备发送到所述服务器的装置。
19.如权利要求17或18所述的客户端设备,还包括:
用于通知所述服务器至少一个所述指令未成功地在所述客户端设备上执行的装置。
20.如权利要求17、18或19所述的客户端设备,其中所述对话包括要播放给所述用户的提示以及对所述提示的期望响应的相应语法,所述设备还包括:
用于根据所述客户端设备的计算能力,将至少一个所述提示和相应语法分割成多个提示和相应语法的装置。
21.如权利要求20所述的客户端设备,其中所述脚本包括一个或多个目的地参数,所述参数指定了是在所述服务器上还是在所述客户端设备上执行所述多个提示和语法。
22.如权利要求17至19中的任一权利要求所述的客户端设备,其中所述对话包括将播放给所述用户的提示和期望响应的相应语法,并且其中根据所述客户端设备的计算能力,将多个所述提示和相应语法合并成一个提示和相应语法。
23.一种计算机程序产品,包括记录在机器可读记录介质上的用于控制服务器的操作的机器可读程序代码,所述程序代码在所述服务器上执行以便执行在客户端-服务器计算系统中处理话音应用的方法,所述方法包括以下步骤:
接收指示所述客户端的计算能力的数据;
根据所述接收的数据选择一组指令,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务;以及
将所述一组指令提供给所述客户端以便执行。
24.一种计算机程序产品,包括记录在机器可读记录介质上的用于控制客户端设备的操作的机器可读程序代码,所述程序代码在所述客户端设备上执行以便执行在客户端-服务器计算系统中处理话音应用的方法,所述方法包括以下步骤:
接收来自所述服务器的脚本,根据指示所述客户端设备的计算能力的数据来选择所述脚本;
分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令;以及
在所述客户端设备上执行所述指令。
25.一种用于处理话音应用的系统,包括:
客户端设备,其具有指示所述客户端设备的计算能力的相关数据;
数据存储装置,其存储了多个脚本,所述脚本指定了要在用户与所述系统之间的基于话音的对话中执行的任务;
服务器,其根据所述相关数据选择用于所述客户端设备的适当脚本;
解释层,其处理所选择的脚本以针对所述对话确定将在所述客户端设备上执行的第一组指令和将在所述服务器上执行的第二组指令;以及
同步层,其同步所述第一和第二组指令的执行。
26.一种包括计算机程序代码装置的计算机程序,当所述程序在计算机上执行时,所述装置适于执行如权利要求1至11中的任一权利要求所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/312,300 US9330668B2 (en) | 2005-12-20 | 2005-12-20 | Sharing voice application processing via markup |
US11/312,300 | 2005-12-20 | ||
PCT/EP2006/069664 WO2007071602A2 (en) | 2005-12-20 | 2006-12-13 | Sharing voice application processing via markup |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101341532A true CN101341532A (zh) | 2009-01-07 |
CN101341532B CN101341532B (zh) | 2013-03-06 |
Family
ID=38098609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800480248A Expired - Fee Related CN101341532B (zh) | 2005-12-20 | 2006-12-13 | 通过标记共享话音应用处理 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9330668B2 (zh) |
JP (1) | JP5179375B2 (zh) |
CN (1) | CN101341532B (zh) |
TW (1) | TW200809769A (zh) |
WO (1) | WO2007071602A2 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366729A (zh) * | 2012-03-26 | 2013-10-23 | 富士通株式会社 | 语音对话系统、终端装置和数据中心装置 |
CN101685405B (zh) * | 2008-07-25 | 2014-05-28 | 罗伯特.博世有限公司 | 用于不再有货的微控制器的仿真系统和仿真方法 |
CN105118507A (zh) * | 2015-09-06 | 2015-12-02 | 上海智臻智能网络科技股份有限公司 | 声控系统及其控制方法 |
CN105793922A (zh) * | 2013-12-03 | 2016-07-20 | 谷歌公司 | 多路径音频处理 |
CN111048078A (zh) * | 2018-10-15 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 语音复合指令处理方法和系统及语音处理设备和介质 |
Families Citing this family (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100166161A1 (en) * | 2005-09-01 | 2010-07-01 | Vishal Dhawan | System and methods for providing voice messaging services |
US20070047719A1 (en) * | 2005-09-01 | 2007-03-01 | Vishal Dhawan | Voice application network platform |
US9313307B2 (en) * | 2005-09-01 | 2016-04-12 | Xtone Networks, Inc. | System and method for verifying the identity of a user by voiceprint analysis |
US9253301B2 (en) * | 2005-09-01 | 2016-02-02 | Xtone Networks, Inc. | System and method for announcing and routing incoming telephone calls using a distributed voice application execution system architecture |
US11102342B2 (en) | 2005-09-01 | 2021-08-24 | Xtone, Inc. | System and method for displaying the history of a user's interaction with a voice application |
US11153425B2 (en) * | 2005-09-01 | 2021-10-19 | Xtone, Inc. | System and method for providing interactive services |
US20100158217A1 (en) | 2005-09-01 | 2010-06-24 | Vishal Dhawan | System and method for placing telephone calls using a distributed voice application execution system architecture |
US9456068B2 (en) * | 2005-09-01 | 2016-09-27 | Xtone, Inc. | System and method for connecting a user to business services |
US9799039B2 (en) | 2005-09-01 | 2017-10-24 | Xtone, Inc. | System and method for providing television programming recommendations and for automated tuning and recordation of television programs |
US9426269B2 (en) | 2005-09-01 | 2016-08-23 | Xtone Networks, Inc. | System and method for performing certain actions based upon a dialed telephone number |
US8964960B2 (en) * | 2005-09-01 | 2015-02-24 | Xtone Networks, Inc. | System and method for interacting with a user via a variable volume and variable tone audio prompt |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2009244432A (ja) * | 2008-03-29 | 2009-10-22 | Kddi Corp | 携帯端末の音声認識装置、方法、プログラム |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011148594A1 (ja) * | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE102012218151B4 (de) * | 2012-10-04 | 2024-02-01 | Bayerische Motoren Werke Aktiengesellschaft | Dialogführungsvorrichtung für ein Fahrzeug |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US20150248730A1 (en) * | 2014-02-28 | 2015-09-03 | Pilot Catastrophe Services, Inc. | Insurance adjuster claim scoping |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003169329A (ja) | 1996-08-07 | 2003-06-13 | Matsushita Electric Ind Co Ltd | 画像音声符号化復号化装置 |
US6600737B1 (en) | 1999-02-11 | 2003-07-29 | Mediaring Ltd. | Bandwidth protection for voice over IP |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US7330815B1 (en) * | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6738743B2 (en) | 2001-03-28 | 2004-05-18 | Intel Corporation | Unified client-server distributed architectures for spoken dialogue systems |
EP1410381A4 (en) | 2001-05-04 | 2005-10-19 | Unisys Corp | DYNAMIC GENERATION OF VOICE APPLICATION INFORMATION FROM A WEB SERVER |
US20020178182A1 (en) * | 2001-05-04 | 2002-11-28 | Kuansan Wang | Markup language extensions for web enabled recognition |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7242752B2 (en) | 2001-07-03 | 2007-07-10 | Apptera, Inc. | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US6804330B1 (en) | 2002-01-04 | 2004-10-12 | Siebel Systems, Inc. | Method and system for accessing CRM data via voice |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
AU2002253334A1 (en) | 2002-04-26 | 2003-11-10 | Fluency Voice Technology Limited | A system and method for creating voice applications |
FR2840484B1 (fr) | 2002-05-28 | 2004-09-03 | France Telecom | Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal |
AU2002345308A1 (en) * | 2002-07-17 | 2004-02-02 | Nokia Corporation | Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device |
TW567465B (en) * | 2002-09-02 | 2003-12-21 | Ind Tech Res Inst | Configurable distributed speech recognition system |
US7571100B2 (en) * | 2002-12-03 | 2009-08-04 | Speechworks International, Inc. | Speech recognition and speaker verification using distributed speech processing |
JP2004213570A (ja) | 2003-01-08 | 2004-07-29 | Sony Corp | 情報提供方法 |
JP2005055607A (ja) | 2003-08-01 | 2005-03-03 | Toyota Motor Corp | サーバ、情報処理端末、音声合成システム |
US8311835B2 (en) * | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US7792254B2 (en) * | 2004-10-19 | 2010-09-07 | Genesys Telecommunications Laboratories, Inc. | System for distributing VXML capabilities for execution on client devices |
US7548977B2 (en) * | 2005-02-11 | 2009-06-16 | International Business Machines Corporation | Client / server application task allocation based upon client resources |
US8023937B2 (en) * | 2005-03-04 | 2011-09-20 | Qualcomm Incorporated | Apparatus and methods for determining voice and/or data processing performance of a wireless device |
US8041570B2 (en) * | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
US7716671B2 (en) * | 2005-07-07 | 2010-05-11 | Cisco Technology, Inc. | Method for coordinating a set of related tasks and events by reducing duplicated effort |
-
2005
- 2005-12-20 US US11/312,300 patent/US9330668B2/en not_active Expired - Fee Related
-
2006
- 2006-12-04 TW TW095144896A patent/TW200809769A/zh unknown
- 2006-12-13 CN CN2006800480248A patent/CN101341532B/zh not_active Expired - Fee Related
- 2006-12-13 WO PCT/EP2006/069664 patent/WO2007071602A2/en active Application Filing
- 2006-12-13 JP JP2008546387A patent/JP5179375B2/ja not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685405B (zh) * | 2008-07-25 | 2014-05-28 | 罗伯特.博世有限公司 | 用于不再有货的微控制器的仿真系统和仿真方法 |
CN103366729A (zh) * | 2012-03-26 | 2013-10-23 | 富士通株式会社 | 语音对话系统、终端装置和数据中心装置 |
US9190048B2 (en) | 2012-03-26 | 2015-11-17 | Fujitsu Limited | Speech dialogue system, terminal apparatus, and data center apparatus |
CN103366729B (zh) * | 2012-03-26 | 2016-05-04 | 富士通株式会社 | 语音对话系统、终端装置和数据中心装置 |
CN105793922A (zh) * | 2013-12-03 | 2016-07-20 | 谷歌公司 | 多路径音频处理 |
CN105118507A (zh) * | 2015-09-06 | 2015-12-02 | 上海智臻智能网络科技股份有限公司 | 声控系统及其控制方法 |
CN105118507B (zh) * | 2015-09-06 | 2018-12-28 | 上海智臻智能网络科技股份有限公司 | 声控系统及其控制方法 |
CN111048078A (zh) * | 2018-10-15 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 语音复合指令处理方法和系统及语音处理设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
TW200809769A (en) | 2008-02-16 |
WO2007071602A2 (en) | 2007-06-28 |
WO2007071602A3 (en) | 2007-08-30 |
US9330668B2 (en) | 2016-05-03 |
JP5179375B2 (ja) | 2013-04-10 |
CN101341532B (zh) | 2013-03-06 |
JP2009520224A (ja) | 2009-05-21 |
US20070143113A1 (en) | 2007-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101341532B (zh) | 通过标记共享话音应用处理 | |
CN100397340C (zh) | 以对话为目的的应用抽象 | |
CN101207586B (zh) | 用于实时自动通信的方法和系统 | |
US7590542B2 (en) | Method of generating test scripts using a voice-capable markup language | |
US7286985B2 (en) | Method and apparatus for preprocessing text-to-speech files in a voice XML application distribution system using industry specific, social and regional expression rules | |
AU2004255809B2 (en) | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application | |
CN100424632C (zh) | 用于高级交互接口的语义对象同步理解 | |
CN101536084A (zh) | 对话分析 | |
US20100151889A1 (en) | Automated Text-Based Messaging Interaction Using Natural Language Understanding Technologies | |
US20090216540A1 (en) | Open Architecture For A Voice User Interface | |
EP1455268A2 (en) | Presentation of data based on user input | |
US20080147406A1 (en) | Switching between modalities in a speech application environment extended for interactive text exchanges | |
MX2007013015A (es) | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. | |
CN107430623A (zh) | 用于资源受限的离线设备的动态可更新的离线语法模型 | |
US8027839B2 (en) | Using an automated speech application environment to automatically provide text exchange services | |
CN101589427A (zh) | 语音应用程序装备和记入 | |
US20040042591A1 (en) | Method and system for the processing of voice information | |
JP6689953B2 (ja) | 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム | |
US7451086B2 (en) | Method and apparatus for voice recognition | |
US7558733B2 (en) | System and method for dialog caching | |
US11656844B2 (en) | Providing a communications channel between instances of automated assistants | |
CN110125946A (zh) | 自动通话方法、装置、电子设备及计算机可读介质 | |
JP4813798B2 (ja) | ネットワークのオーディオデータを処理する方法およびその方法を実行する装置 | |
Demesticha et al. | Aspects of design and implementation of a multi-channel and multi-modal information system | |
US20040258217A1 (en) | Voice notice relay service method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130306 |