CN101341532A - 通过标记共享话音应用处理 - Google Patents

通过标记共享话音应用处理 Download PDF

Info

Publication number
CN101341532A
CN101341532A CNA2006800480248A CN200680048024A CN101341532A CN 101341532 A CN101341532 A CN 101341532A CN A2006800480248 A CNA2006800480248 A CN A2006800480248A CN 200680048024 A CN200680048024 A CN 200680048024A CN 101341532 A CN101341532 A CN 101341532A
Authority
CN
China
Prior art keywords
client
server
client device
script
described client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800480248A
Other languages
English (en)
Other versions
CN101341532B (zh
Inventor
A·A·纳纳瓦蒂
N·拉伊布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101341532A publication Critical patent/CN101341532A/zh
Application granted granted Critical
Publication of CN101341532B publication Critical patent/CN101341532B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

一种用于处理话音应用的系统,包括客户端设备(10),所述客户端设备(10)具有指示其计算能力的相关数据。所述系统可访问多个脚本,所述脚本指定了将在用户与所述系统之间的基于话音的对话中执行的任务。可在浏览器级别解释所述脚本。服务器(20)根据所述相关数据选择用于客户端设备(10)的适当脚本。解释层处理所选择的脚本以针对所述对话确定将在客户端设备(10)上执行的第一组指令和将在服务器(20)上执行的第二组指令。从而根据客户端的计算能力在所述客户端设备与所述服务器之间共享计算。

Description

通过标记共享话音应用处理
技术领域
本发明涉及在客户端-服务器环境中处理话音应用。
背景技术
近些年来,如因特网的广泛使用所表明的,电子信息和服务得到了极大发展。通常,用户例如通过使用键盘或触摸屏键入信息来与系统进行交互并在视频显示器上查看结果。然而,提供了越来越多的允许用户口头输入信息的会话系统。系统输出被以可听的方式提供给用户。这种会话系统允许用户轻松地在移动中获取信息和服务,解放了用户的双手以用于其他任务。
会话系统需要语音识别来理解用户以及需要语音合成来以类似人的话音朗读信息。通常,这种系统在电话基础设施中执行,其中客户端设备是例如手机的电话设备。最初,这种会话系统与哑客户端设备一起工作,因此所有的语音处理(识别与合成)都在与哑客户端通信的服务器中完成。然而,手持客户端的处理能力的提高使得在客户端侧的语音处理(识别与合成两者)成为可能。
在一些会话系统中,语音识别的一部分在客户端设备上处理。术语“分布式语音识别”用于指允许应用将在客户端设备上的本地语音处理与到基于网络的语音服务的远程访问相结合的系统。例如,诸如降噪之类的信号处理可在客户端设备上执行,然后客户端设备将处理后的数据发送到基于网络的语音服务。反过来,该语音服务处理所接收的信号以确定用户的请求并使用话音输出来响应用户。
另一种使用客户端的处理能力的已知技术是嵌入式连接文本语音转换(eCTTS),其中语音合成的一部分在客户端完成。将语音段保持为可被重建回语音的压缩特征向量。
在另一种已知方法中,会话系统可完全驻留在客户端,并且整个语音识别过程都在本地完成。由于客户端通常具有有限的处理能力,因此只有很小的会话系统才在这种设备上执行。
尽管存在现有的技术,但是仍需要用于处理话音应用的更有效和通用的系统。
发明内容
在此描述了一种灵活的机制,其中根据客户端的计算能力在客户端与服务器之间共享与对话有关的计算。这种分布优选地在标记级别执行并且这种方法使得客户端设备能够执行脚本。
根据本发明的第一方面,提供了一种在客户端-服务器计算系统中的服务器上处理话音应用的方法。接收指示所述客户端的计算能力的数据。根据所述接收的数据选择一组指令,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务。将所述一组指令提供给所述客户端以便执行。
根据本发明的另一方面,提供了一种在客户端-服务器计算系统中的客户端设备上处理话音应用的方法。接收来自所述服务器的脚本,根据指示所述客户端设备的计算能力的数据来选择所述脚本。分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令。在所述客户端设备上执行所述指令。
根据本发明的另一方面,提供了一种用于在客户端-服务器计算系统中处理话音应用的服务器。所述服务器首先包括用于接收指示所述客户端的计算能力的数据的装置。所述服务器还具有用于根据所述接收的数据选择一组指令的装置,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务。所述服务器还具有用于将所述一组指令提供给所述客户端以便执行的装置。
根据本发明的另一方面,提供了一种用于在客户端-服务器计算系统中处理话音应用的客户端设备。所述客户端设备包括用于接收来自所述服务器的脚本的装置,根据指示所述客户端设备的计算能力的数据来选择所述脚本。还具有用于分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令的装置,以及用于在所述客户端设备上执行所述指令的装置。
根据本发明的另一方面,提供了一种计算机程序产品,包括记录在机器可读记录介质上的用于控制服务器的操作的机器可读程序代码,所述程序代码在所述服务器上执行以便执行在客户端-服务器计算系统中处理话音应用的方法。所述方法包括上面描述的步骤。
根据本发明的另一方面,提供了一种计算机程序产品,包括记录在机器可读记录介质上的用于控制客户端设备的操作的机器可读程序代码,所述程序代码在所述客户端设备上执行以便执行在客户端-服务器计算系统中处理话音应用的方法。所述方法包括上面描述的步骤。
根据本发明的另一方面,提供了一种用于处理话音应用的系统,所述系统包括:客户端设备,其具有指示所述客户端设备的计算能力的相关数据。所述系统还包括:数据存储装置,其存储了多个脚本,所述脚本指定了要在用户与所述系统之间的基于话音的对话中执行的任务。所述系统还包括:服务器,其根据所述相关数据选择用于所述客户端设备的适当脚本。解释层处理所选择的脚本以针对所述对话确定将在所述客户端设备上执行的第一组指令和将在所述服务器上执行的第二组指令。同步层同步所述第一和第二组指令的执行。
附图说明
以下参考附图说明了本发明的一个或多个实施例,其中:
图1是根据优选实施例的适于执行这里描述的技术的客户端-服务器配置的示意图;
图2是根据本发明的一个优选实施例的用于在客户端和服务器之间灵活地分布计算的方法的流程图;
图3是根据本发明的一个优选实施例的适于在图1的配置中使用的计算设备的示意图;以及
图4是根据本发明的一个优选实施例的在客户端与服务器之间提供同步的通信层的示意图。
具体实施方式
这里描述的技术提供了一种在客户端和服务器之间共享对话处理的灵活机制。允许在客户端处执行脚本。在描述的配置中,服务器可访问脚本的各个版本,每一个版本都针对相应的设备简档进行定制。
图1显示了具有客户端设备10和服务器20的系统1。如图所示,客户端设备10是移动电话。然而客户端10可以是任何具有计算资源的可发声设备。例如,客户端设备10可以是个人数字助理(PDA)或通用计算机,该计算机具有麦克风和一个或多个扬声器以使其能够检测口语输入并提供可听的输出。该客户端设备具有足够的处理能力来运行嵌入式语音识别引擎。
客户端设备10例如经由蜂窝电话网络发射信息12到服务器20,并从服务器20接收信息14。将在下面参考图3描述服务器20和客户端设备10的硬件结构。
服务器20包括语音服务器24和话音浏览器22。语音服务器24执行自动语音识别(ASR)以将从客户端设备10的用户接收的请求转换成更适于进一步处理的格式。从客户端设备10接收的数据可包括语音,也可包括音频输入,比如双音多频(DTMF)键控输入。
语音服务器24还利用文本到语音转换(TTS)能力将信息转换成音频。该音频与数据14一同发送回客户端设备10。
话音浏览器22接收输入数据12和输出数据14。在使用类似于图1中所见的架构的现有技术系统中,话音浏览器22仅仅是客户端设备10和语音服务器24之间的通道。然而,在当前描述的配置中,话音浏览器22指定了要在客户端设备10上执行的对话和/或语音处理。通过根据客户端设备10的能力来自适应地共享处理,系统1通过减少服务器的往返操作而提高了效率
服务器20可使用超文本传输协议(HTTP)工具26来访问信息和服务。如图所示,该信息和服务源自数据存储装置30。然而,实际上使用系统1可访问的信息和服务的来源很多。HTTP工具26和数据存储装置30之间的通信链路28例如可以是因特网或局域网。链路28可以只是点到点连接。
从客户端设备10发送到话音浏览器22的数据12包括语音、文本和定义客户端设备10的简档的参数。话音浏览器22选择指定了要在客户端设备10上完成何种处理的脚本(称为“话音脚本”)。因此,客户端设备10的能力和话音脚本确定了服务器20和客户端设备10之间的处理的划分。在确定哪些对话在客户端10上本地处理以及语音处理的哪个部分在客户端10(而不是服务器20)上发生方面,使用话音脚本可以提供灵活性。
从话音浏览器22发送到客户端设备10的数据14包括话音脚本和语音。客户端设备10执行该话音脚本。语音服务器24并不受服务器20和客户端设备10之间的处理任务的分配的影响。
在一种配置中,使用话音可扩展标记语言(VoiceXML)编写话音脚本。VoiceXML是基于XML的脚本编写语言,并且VoiceXML正作为用于激活语音的交互应用的标准而获得认同。VoiceXML为编写基于音频对话的话音应用提供了与平台无关的语言。存在两种主要类型的对话。窗体呈现信息和收集输入,而菜单呈现一组选择。
图2是在客户端10和服务器20之间灵活共享处理的方法的流程图。在步骤202,客户端10与服务器20进行通信以提供定义客户端设备10的能力的参数。可在呼叫建立时通知服务器20客户端的能力,或者,服务器20已经被通知了客户端的能力。例如,可以将信息与电话号码关联,以通知服务器20该电话号码由具有特定能力的客户端设备所使用。
描述客户端能力的参数包括可用存储器量、处理能力和电池电力。也可使用其他参数,包括确定特定硬件或软件资源(如程序或协议)在客户端上可用的数据。
在步骤204,服务器使用所述参数来确定客户端设备10的简档。在步骤206,服务器20选择合适的话音脚本并将所选择的脚本发送给客户端设备10。服务器可访问多个话音脚本,每一个脚本都针对特定的设备简档进行定制。所述话音脚本指定了要在客户端10处完成的对话和/或语音处理,并且还指定了哪些部分可在服务器20处执行。语音识别引擎已安装在客户端设备10上,并且所述脚本定义了处理步骤,为了执行所述处理步骤,将使用语音识别引擎。
客户端设备10分析所述话音脚本(步骤208),并且在步骤210,客户端设备10全部或部分地执行该话音脚本。客户端设备10解释该脚本以确定需要完成何种任务以及以怎样的顺序完成任务。然后客户端设备10执行如脚本要求的指定的语音识别与合成任务。例如,话音脚本可指定客户端设备需要合成一段提示并对用户播放该提示。客户端设备调用语音合成引擎以合成提示。然后,客户端设备接收用户的口头响应并使用语音识别系统处理该响应。在脚本中提供了来自用户的期望响应的语法。语音识别系统的输出被用来确定将执行的下一个步骤,如在话音脚本中指定的那样。
由于运行时的约束,客户端设备10可能无法支持话音脚本所指定的计算。客户端设备10然后可以选择表现为哑客户端。在这种情况下,客户端-服务器交换将支持所需的多种交互。
在一种配置中,话音脚本包括用于对话和语音的JavascriptTM。发送到客户端设备10的话音脚本将告知可以在客户端设备上完成何种操作。该话音脚本包括设备敏感的结构,因此通过分析脚本,客户端可以确定可在客户端上完成何种处理。话音脚本包括对话处理所需的语法结构以及语音处理所需的语音结构。话音脚本的结构还包括“可选形态”,用于在分类为“必须具有”或“可以具有”的文本之间进行区别,以及用于标识分类为“必须具有”的语音。(Java和所有基于Java的商标和标志都是SunMicrosystems,Inc.在美国和/或其他国家/地区的商标。)
话音服务器的语言是VXML的扩展,其支持在服务器20和客户端设备10之间分配处理的特性。该语言包含未在VXML中定义的标记标签,所述标签被分析器用来从扩展后的VXML生成VXML服务器和VXML客户端。下面描述了一些附加标签。
Figure A20068004802400131
如果要处理一个较大的数据块,则使用此标签。扩展后的语言提供了这样的特性:其将数据块分割为两个部分,然后分别在客户端和服务器上处理这两个部分,而不是在服务器20或客户端10上处理较大的数据块。这里,splitblock=”25”表示该数据块的前25个字符将在客户端设备10上处理,而剩下的字符将在服务器20上处理。
Figure A20068004802400132
如果存在必需由客户端设备10提示的问题,则可根据客户端的简档合并这些问题。客户端设备10的简档包括与可用存储器量和客户端10上的用户是否处于匆忙之中有关的信息。如果用户处于匆忙之中,则这些问题可被合并以及可由客户端或服务器按照规定询问。也可存在其他合并准则。
Figure A20068004802400133
如果存在任何服务器20或客户端10在n次尝试中未识别的问题,则可以将该问题分割为不同的提示。客户端设备10或服务器20可以如目的地指定的那样询问这些问题。也可存在其他分割准则。问题的基础语法(嵌套的或顺序的)将在确定分割的过程中起作用。
在嵌套语法的情况下,通常需要将最后一个答案(而不是所有答案)返回服务器以便分割提示。
嵌套语法的例子:
a.哪个国家?
b.哪个城市?
c.哪个机场?
如果必须进一步提交答案,则只有最后一个答案是所关心的,因为目的是确定哪个机场。由于存储器的限制,将整个问题分成三个较小的语法。
在顺序语法的情况中,用户不仅仅是关心最后一个问题的答案,而且关心对整个问题的每个部分的答案。在某种分割之后,必须连接与每个子部分相关的答案并且将其存储在末尾,以产生与服务器本身识别整个语法等同的效果。
顺序语法的例子:
a.名字是什么?
b.姓氏是什么?
c.位置在何处?
在此情况中我们关心完整的答案,因为合并后的问题是“您想要谁的电话号码以及位置在何处?”,其答案可能是(Nitendra Rajput在办公室)。
与分割和合并相关的不同可能性
1)在服务器20处识别整个问题并且无需分割与该问题相关的整体大型语法(Big Grammar)。
2)将问题划分成若干较小的部分并且在客户端一侧完成语音识别。每次都将与提示相关的语法传送给客户端设备10。在嵌套语法的情况中,语法依赖于用户给出的答案,但是在顺序语法的情况中,传送的语法可独立于答案或可依赖于用户之前给出的答案(例如,布尔答案)。
3)另一种可能是在若干较小的部分之中,在服务器20处标识一些部分并且在客户端设备10处标识其他部分。在这种配置中,与将在客户端10处标识的问题相关的语法被传送给客户端。
4)在传送语法中存在一个潜在问题。即使客户端10不需要返回任何内容给服务器20,客户端也还是要回到服务器以使得服务器能够根据之前的答案传送合适的语法。这将增大客户端10的响应时间。所以,如果客户端具有足够的存储器来处理所有语法,则应将所有语法传送给客户端,以防止客户端还需要回到服务器以使得传送合适的语法。
例子:
a.哪个国家?
b.哪个城市?
在这种情况中,第二个问题依赖于第一个问题。所以我们在客户端10处保留所有国家的所有城市的语法(如果该客户端的能力允许的话),而不是基于前一个问题的答案传送用于第二个问题的合适语法。
5)在理想条件下,服务器20的存储器是足够大的,所以可在服务器20上合并任何数目的问题。然而,在客户端设备10处,将考虑客户端10的存储器限制来完成语法合并。可以存在多种提示合并组合。这意味着如果将多个问题发送到客户端10以便合并,则可能并不是所有问题都在客户端处合并。
例子:
a.您的名字?
b.您的地址?
c.您父亲的名字?
将发送这三个问题以在客户端10处进行合并。然而,考虑到客户端10的存储器限制,也许只有第一个和最后一个问题被合并。
6)无需在客户端10的存储器限制的基础上完成分割/合并。其他可能的考虑包括“无匹配”数的计数,或“无输入”数的计数。如果用户处于匆忙之中,则可以执行合并,而如果用户不能处理大型问题而仅愿意回答较小的问题,则可以执行分割。可在用户提供的信息的基础上执行分割。例如,如果用户通过相应提示提供了比所需信息更多的信息,则可以执行分割。
例子:
a.您的名字?
b.您的姓氏和出生日期?
如果用户对第一个问题的回答是“Neeraj Chaudhary”,则第二个问题可被分割成两个部分,并且仅询问问题“您的出生日期?”。
附录A包括一个以扩展XVML语言编写的样例程序。如示出的,可以分析该样例程序并将其划分成两个部分,这两个部分可以分别在服务器20和客户端设备10上运行。
通信层(同步协议)
图4示出了用于同步在客户端10和服务器20上执行的处理的通信层。话音脚本(即VXMLext文件)401在VXMLext解释器层被处理,该层包括分解器403和解释器的一组功能特定的模块405。解释器层是客户端10和服务器20所执行的分析的一部分。在一种配置中,解释器层是话音浏览器的一部分,该话音浏览器同时驻留在客户端和服务器上,即客户端话音浏览器和服务器话音浏览器22。
将功能特定的模块405的输出提供给运行在服务器20上的服务器引擎407和运行在客户端10上的客户端引擎409。引擎407、409又与同步客户端-服务器交互的同步器411进行通信。同步器411与运行在服务器20上的浏览器代码413和运行在客户端410上的浏览器代码415进行交互。同步器411和浏览器代码413、415共同构成了通信层。
当‘目的地’中指定了多个值(以‘/’分隔)时,第一个值是首选目的地。如果标签无法在第一目的地中执行,则在下一个指定位置完成执行。作为这些基本值的组合的值在执行顺序中具有以下含义:
·客户端/服务器:在客户端上执行。如果执行未成功,则在服务器上执行。
·客户端/部分的/服务器:在客户端上执行。如果执行未成功,则在客户端上完成部分执行并在服务器上完成其余执行。如果此操作也不成功,则在服务器上执行。
·客户端/分割:在客户端上执行。如果未成功,则将对话分割成多个子对话,然后在客户端上执行。
·客户端/分割/服务器:在客户端上执行。如果未成功,则将对话分割成多个子对话并在客户端上执行。如果此操作也不成功,则在服务器上执行该对话。
·客户端/服务器/分割:在客户端上执行。如果未成功,则在服务器上执行。如果此操作也不成功,则将对话分割成多个子对话并在客户端上执行。如果同样失败,则在服务器上执行多个子对话。
·服务器/客户端:该值是有效的,但是只对<merge>和<block>标签有意义。当与<merge>一起使用时,合并后的对话将在服务器上执行,并且如果未成功,则该对话被分割,然后在客户端上执行。
现在将针对目的地值为‘客户端/分割/服务器’的情况对同步层进行描述。
当处理在客户端10上发生时,服务器20处于等待模式。如果处理成功,则客户端10编写‘成功’消息并将已识别的字符串写入要发送给服务器20的文件。然后客户端10移动到下一个对话,该对话如在VXMLext(话音脚本)401中指定的那样将在客户端10或服务器20上发生。
如果在客户端10的处理未成功,则该客户端通过使用运行在其上的适当模块405再次分割呼叫流而继续。服务器20仍处在等待状态。如果在客户端的所有步骤均未成功,则最后将‘未成功’消息发送给服务器20并且将所识别的字符串设置为空字符串。然后,处理在服务器20上继续进行,与客户端10相比,服务器20具有更好的识别准确性和更好的处理能力。
如果第一次尝试失败,则服务器20将分割问题。在这种情况下,即使服务器20处的识别尝试失败,客户端10也必须知道服务器的当前状态。这是因为即使识别发生在服务器20上,客户端10也具有录制语音、发送该语音到服务器20、然后接收并播放合成语音的任务。
当所有处理都在客户端10上发生时,服务器20没有任何任务并可保持休眠,直到已在客户端10上尝试了标签“目的地”所允许的所有情况。
由于通信层传送已识别的字符串,所以对于连接的、顺序的和嵌套的呼叫流,策略是变化的。
a)应记住的是,在连接问题的情况下,应在连接之后提交所有答案。
例子-您的名字?
需要连接下面三个部分:
1.您的名?
2.您的中间名?
3.您的姓?
b)在嵌套呼叫流的情况下,仅需提交最后一个问题的答案。
例子-我们只关心机场,但是将询问下面的嵌套问题-
哪个国家?
哪个城市?
哪个机场?
c)在连续呼叫流的情况下,需要提交最后一个问题的答案:
例子-我们只关心座位号
1.告诉我在1到20、21到40、41到60、61到80之间的座位号;
2.告诉我您的座位号。
随后的用来同步客户端10和服务器20的方法对于其他目的地值(服务器/客户端,服务器/客户端/分割,客户端/服务器等)是类似的,但是其中事件发生的顺序将随目的地值而变化。
计算机硬件
图3是一类适于执行用于在客户端和服务器之间共享话音应用处理的计算机软件的计算机系统300的示意图。计算机软件在安装在计算机系统300上的合适的操作系统下执行,并且可被视为包括用于完成特定步骤的各种软件代码装置。计算机系统300可被用作服务器20。通过下面描述的修改,计算机系统300的结构也可用在客户端设备10中。
计算机系统300的组件包括计算机320、键盘310和鼠标315以及显示器390。计算机320包括处理器340、存储器350、输入/输出(I/O)接口360、365、视频接口345和存储设备355。
处理器340是执行操作系统和在操作系统下执行的计算机软件的中央处理单元(CPU)。存储器350可包括随机存取存储器(RAM)和只读存储器(ROM),并在处理器340的控制下使用。
视频接口345连接到显示器390并提供在显示器390上显示的信号。从例如键盘310和鼠标315提供用于操作计算机320的用户输入。也可以使用例如麦克风的其他类型的输入。也可以使用一个或多个扬声器(未示出)以可听的方式输出信号。存储设备355可包括盘驱动器或任何其他合适的存储介质。
计算机320的每个组件都连接到包括数据、地址和控制总线的内部总线330以允许计算机320的组件经由总线330互相通信。
计算机系统300可使用到网络(在图3中表示为因特网380)的通信信道385经由输入/输出(I/O)接口365连接到一个或多个类似的计算机。
可以将计算机软件记录在便携存储介质上,在这种情况下,计算机系统300从存储设备355访问计算机软件程序。备选地,计算机320可直接从因特网380访问计算机软件。在这两种情况中,用户都可以例如使用键盘310和鼠标315操作在计算机320上执行的编程的计算机软件来与计算机系统300交互。
可同样适当地使用其他配置或类型的计算机系统来执行协助实施在此描述的技术的计算机软件。此外,在实施所描述的技术中,可以使用诸如数字信号处理器之类的定制器件和专用硬件。
手持客户端设备10可具有与图3中显示的相类似的计算结构。显示器390和小键盘被集成在通常不具有鼠标315的客户端设备10中。客户端设备10中的I/O接口365是用于经由蜂窝网络发送和接收信号的收发机,并且客户端设备10还包括麦克风和扬声器以处理可听的输入和输出。
结论
可对在此描述的技术和配置做出各种改变和修改,这对相关领域的技术人员来说是显而易见的。
附录A
VXML扩展样例程序
此文件是提供给分析器的,将生成以下的‘VXML服务器’和‘VXML客户端’文件并使得它们分别在服务器和客户端上运行。
生成的VXML服务器
生成的VXML客户端
Figure A20068004802400212
Figure A20068004802400221
标签库
1.合并
属性
目的地
2.分割
属性
目的地
3.块
新属性
处理
分割块
4.字段
新属性
执行
5.转到合并
7.转到分割
8.Vxmlext
插入此标签以将所述语言与正常的Vxml语言进行区分,因为它具有各种其他特性。
还添加了用于合并和分割多个提示的特定标签(语法<p(promptnumberafter p)>)

Claims (26)

1.一种在客户端-服务器计算系统中灵活地处理话音应用的方法,所述方法包括以下在所述服务器上的步骤:
接收指示所述客户端的计算能力的数据;
根据所述接收的数据选择一组指令,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务;以及
将所述一组指令提供给所述客户端以便执行。
2.如权利要求1所述的方法,还包括以下步骤:
如果一个或多个所述任务未成功地在所述客户端上执行,则在所述服务器上执行所述一个或多个任务。
3.如权利要求1或2所述的方法,其中所述接收步骤包括以下子步骤:
标识所述客户端;以及
检索所述标识的客户端的所述计算能力的预定简档。
4.如权利要求1或2所述的方法,其中所述接收步骤在所述基于话音的对话的运行时间接收所述数据。
5.如任一上述权利要求所述的方法,其中所述数据包括以下项中的至少一项:
所述客户端上可用的存储器的度量;
所述客户端的电池电力;
所述客户端的处理能力;以及
标识所述客户端上可用的一个或多个资源的信息。
6.一种在客户端-服务器计算系统中灵活地处理话音应用的方法,所述方法包括以下在客户端设备上的步骤:
接收来自所述服务器的脚本,根据指示所述客户端设备的计算能力的数据来选择所述脚本;
分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令;以及
在所述客户端设备上执行所述指令。
7.如权利要求6所述的方法,还包括以下步骤:
将指示计算能力的所述数据从所述客户端设备发送到所述服务器。
8.如权利要求6或7所述的方法,还包括以下步骤:
通知所述服务器至少一个所述指令未成功地在所述客户端设备上执行。
9.如权利要求6、7或8所述的方法,其中所述对话包括要播放给所述用户的提示以及对所述提示的期望响应的相应语法,所述方法进一步包括以下步骤:
根据所述客户端设备的计算能力,将至少一个所述提示和相应语法分割成多个提示和相应语法。
10.如权利要求9所述的方法,其中所述脚本包括一个或多个目的地参数,所述参数指定了是在所述服务器上还是在所述客户端设备上执行所述多个提示和语法。
11.如权利要求6至8中的任一权利要求所述的方法,其中所述对话包括将播放给所述用户的提示和期望响应的相应语法,并且其中根据所述客户端设备的计算能力,将多个所述提示和相应语法合并成一个提示和相应语法。
12.一种用于在客户端-服务器计算系统中处理话音应用的服务器,所述服务器包括:
用于接收指示所述客户端的计算能力的数据的装置;
用于根据所述接收的数据选择一组指令的装置,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务;以及
用于将所述一组指令提供给所述客户端以便执行的装置。
13.如权利要求12所述的服务器,包括:
用于在一个或多个所述任务未成功地在所述客户端上执行的情况下,在所述服务器上执行所述一个或多个任务的装置。
14.如权利要求12或13所述的服务器,其中所述接收装置包括:
用于标识所述客户端的装置;以及
用于检索所述标识的客户端的所述计算能力的预定简档的装置。
15.如权利要求12或13所述的服务器,其中所述接收装置可操作以在所述基于话音的对话的运行时间接收所述数据。
16.如权利要求12至15中的任一权利要求所述的服务器,其中所述数据包括以下项中的至少一项:
所述客户端上可用的存储器的度量;
所述客户端的电池电力;
所述客户端的处理能力;以及
标识所述客户端上可用的一个或多个资源的信息。
17.一种用于在客户端-服务器计算系统中处理话音应用的客户端设备,所述客户端设备包括:
用于接收来自所述服务器的脚本的装置,根据指示所述客户端设备的计算能力的数据来选择所述脚本;
用于分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令的装置;以及
用于在所述客户端设备上执行所述指令的装置。
18.如权利要求17所述的客户端设备,还包括:
用于将指示计算能力的所述数据从所述客户端设备发送到所述服务器的装置。
19.如权利要求17或18所述的客户端设备,还包括:
用于通知所述服务器至少一个所述指令未成功地在所述客户端设备上执行的装置。
20.如权利要求17、18或19所述的客户端设备,其中所述对话包括要播放给所述用户的提示以及对所述提示的期望响应的相应语法,所述设备还包括:
用于根据所述客户端设备的计算能力,将至少一个所述提示和相应语法分割成多个提示和相应语法的装置。
21.如权利要求20所述的客户端设备,其中所述脚本包括一个或多个目的地参数,所述参数指定了是在所述服务器上还是在所述客户端设备上执行所述多个提示和语法。
22.如权利要求17至19中的任一权利要求所述的客户端设备,其中所述对话包括将播放给所述用户的提示和期望响应的相应语法,并且其中根据所述客户端设备的计算能力,将多个所述提示和相应语法合并成一个提示和相应语法。
23.一种计算机程序产品,包括记录在机器可读记录介质上的用于控制服务器的操作的机器可读程序代码,所述程序代码在所述服务器上执行以便执行在客户端-服务器计算系统中处理话音应用的方法,所述方法包括以下步骤:
接收指示所述客户端的计算能力的数据;
根据所述接收的数据选择一组指令,所述一组指令指定了要由所述客户端在用户与所述计算系统之间的基于话音的对话中执行的任务;以及
将所述一组指令提供给所述客户端以便执行。
24.一种计算机程序产品,包括记录在机器可读记录介质上的用于控制客户端设备的操作的机器可读程序代码,所述程序代码在所述客户端设备上执行以便执行在客户端-服务器计算系统中处理话音应用的方法,所述方法包括以下步骤:
接收来自所述服务器的脚本,根据指示所述客户端设备的计算能力的数据来选择所述脚本;
分析所述脚本以确定一组将由所述客户端设备在用户与所述客户端-服务器计算系统之间的基于话音的对话中执行的指令;以及
在所述客户端设备上执行所述指令。
25.一种用于处理话音应用的系统,包括:
客户端设备,其具有指示所述客户端设备的计算能力的相关数据;
数据存储装置,其存储了多个脚本,所述脚本指定了要在用户与所述系统之间的基于话音的对话中执行的任务;
服务器,其根据所述相关数据选择用于所述客户端设备的适当脚本;
解释层,其处理所选择的脚本以针对所述对话确定将在所述客户端设备上执行的第一组指令和将在所述服务器上执行的第二组指令;以及
同步层,其同步所述第一和第二组指令的执行。
26.一种包括计算机程序代码装置的计算机程序,当所述程序在计算机上执行时,所述装置适于执行如权利要求1至11中的任一权利要求所述的方法。
CN2006800480248A 2005-12-20 2006-12-13 通过标记共享话音应用处理 Expired - Fee Related CN101341532B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/312,300 2005-12-20
US11/312,300 US9330668B2 (en) 2005-12-20 2005-12-20 Sharing voice application processing via markup
PCT/EP2006/069664 WO2007071602A2 (en) 2005-12-20 2006-12-13 Sharing voice application processing via markup

Publications (2)

Publication Number Publication Date
CN101341532A true CN101341532A (zh) 2009-01-07
CN101341532B CN101341532B (zh) 2013-03-06

Family

ID=38098609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800480248A Expired - Fee Related CN101341532B (zh) 2005-12-20 2006-12-13 通过标记共享话音应用处理

Country Status (5)

Country Link
US (1) US9330668B2 (zh)
JP (1) JP5179375B2 (zh)
CN (1) CN101341532B (zh)
TW (1) TW200809769A (zh)
WO (1) WO2007071602A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366729A (zh) * 2012-03-26 2013-10-23 富士通株式会社 语音对话系统、终端装置和数据中心装置
CN101685405B (zh) * 2008-07-25 2014-05-28 罗伯特.博世有限公司 用于不再有货的微控制器的仿真系统和仿真方法
CN105118507A (zh) * 2015-09-06 2015-12-02 上海智臻智能网络科技股份有限公司 声控系统及其控制方法
CN105793922A (zh) * 2013-12-03 2016-07-20 谷歌公司 多路径音频处理
CN111048078A (zh) * 2018-10-15 2020-04-21 阿里巴巴集团控股有限公司 语音复合指令处理方法和系统及语音处理设备和介质

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313307B2 (en) * 2005-09-01 2016-04-12 Xtone Networks, Inc. System and method for verifying the identity of a user by voiceprint analysis
WO2007028128A2 (en) * 2005-09-01 2007-03-08 Vishal Dhawan Voice application network platform
US20100166161A1 (en) * 2005-09-01 2010-07-01 Vishal Dhawan System and methods for providing voice messaging services
US20100158217A1 (en) * 2005-09-01 2010-06-24 Vishal Dhawan System and method for placing telephone calls using a distributed voice application execution system architecture
US9253301B2 (en) * 2005-09-01 2016-02-02 Xtone Networks, Inc. System and method for announcing and routing incoming telephone calls using a distributed voice application execution system architecture
US11102342B2 (en) 2005-09-01 2021-08-24 Xtone, Inc. System and method for displaying the history of a user's interaction with a voice application
US9799039B2 (en) * 2005-09-01 2017-10-24 Xtone, Inc. System and method for providing television programming recommendations and for automated tuning and recordation of television programs
US8964960B2 (en) * 2005-09-01 2015-02-24 Xtone Networks, Inc. System and method for interacting with a user via a variable volume and variable tone audio prompt
US11153425B2 (en) * 2005-09-01 2021-10-19 Xtone, Inc. System and method for providing interactive services
US9456068B2 (en) * 2005-09-01 2016-09-27 Xtone, Inc. System and method for connecting a user to business services
US9426269B2 (en) * 2005-09-01 2016-08-23 Xtone Networks, Inc. System and method for performing certain actions based upon a dialed telephone number
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2009244432A (ja) * 2008-03-29 2009-10-22 Kddi Corp 携帯端末の音声認識装置、方法、プログラム
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
WO2011148594A1 (ja) * 2010-05-26 2011-12-01 日本電気株式会社 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE102012218151B4 (de) * 2012-10-04 2024-02-01 Bayerische Motoren Werke Aktiengesellschaft Dialogführungsvorrichtung für ein Fahrzeug
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
WO2015131121A1 (en) * 2014-02-28 2015-09-03 Pilot Catastrophe Services, Inc. Insurance adjuster claim scoping
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179560B1 (en) * 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003169329A (ja) 1996-08-07 2003-06-13 Matsushita Electric Ind Co Ltd 画像音声符号化復号化装置
US6600737B1 (en) 1999-02-11 2003-07-29 Mediaring Ltd. Bandwidth protection for voice over IP
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6738743B2 (en) 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
WO2002091364A1 (en) 2001-05-04 2002-11-14 Unisys Corporation Dynamic generation of voice application information from a web server
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7609829B2 (en) * 2001-07-03 2009-10-27 Apptera, Inc. Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US7242752B2 (en) 2001-07-03 2007-07-10 Apptera, Inc. Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US6804330B1 (en) 2002-01-04 2004-10-12 Siebel Systems, Inc. Method and system for accessing CRM data via voice
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
WO2003091827A2 (en) 2002-04-26 2003-11-06 Fluency Voice Technology Limited A system and method for creating voice applications
FR2840484B1 (fr) 2002-05-28 2004-09-03 France Telecom Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal
WO2004008434A1 (en) * 2002-07-17 2004-01-22 Nokia Corporation Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device
TW567465B (en) 2002-09-02 2003-12-21 Ind Tech Res Inst Configurable distributed speech recognition system
US7571100B2 (en) * 2002-12-03 2009-08-04 Speechworks International, Inc. Speech recognition and speaker verification using distributed speech processing
JP2004213570A (ja) 2003-01-08 2004-07-29 Sony Corp 情報提供方法
JP2005055607A (ja) 2003-08-01 2005-03-03 Toyota Motor Corp サーバ、情報処理端末、音声合成システム
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7792254B2 (en) * 2004-10-19 2010-09-07 Genesys Telecommunications Laboratories, Inc. System for distributing VXML capabilities for execution on client devices
US7548977B2 (en) * 2005-02-11 2009-06-16 International Business Machines Corporation Client / server application task allocation based upon client resources
US8023937B2 (en) * 2005-03-04 2011-09-20 Qualcomm Incorporated Apparatus and methods for determining voice and/or data processing performance of a wireless device
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7716671B2 (en) * 2005-07-07 2010-05-11 Cisco Technology, Inc. Method for coordinating a set of related tasks and events by reducing duplicated effort

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685405B (zh) * 2008-07-25 2014-05-28 罗伯特.博世有限公司 用于不再有货的微控制器的仿真系统和仿真方法
CN103366729A (zh) * 2012-03-26 2013-10-23 富士通株式会社 语音对话系统、终端装置和数据中心装置
US9190048B2 (en) 2012-03-26 2015-11-17 Fujitsu Limited Speech dialogue system, terminal apparatus, and data center apparatus
CN103366729B (zh) * 2012-03-26 2016-05-04 富士通株式会社 语音对话系统、终端装置和数据中心装置
CN105793922A (zh) * 2013-12-03 2016-07-20 谷歌公司 多路径音频处理
CN105118507A (zh) * 2015-09-06 2015-12-02 上海智臻智能网络科技股份有限公司 声控系统及其控制方法
CN105118507B (zh) * 2015-09-06 2018-12-28 上海智臻智能网络科技股份有限公司 声控系统及其控制方法
CN111048078A (zh) * 2018-10-15 2020-04-21 阿里巴巴集团控股有限公司 语音复合指令处理方法和系统及语音处理设备和介质

Also Published As

Publication number Publication date
JP5179375B2 (ja) 2013-04-10
WO2007071602A3 (en) 2007-08-30
CN101341532B (zh) 2013-03-06
US20070143113A1 (en) 2007-06-21
JP2009520224A (ja) 2009-05-21
US9330668B2 (en) 2016-05-03
WO2007071602A2 (en) 2007-06-28
TW200809769A (en) 2008-02-16

Similar Documents

Publication Publication Date Title
CN101341532B (zh) 通过标记共享话音应用处理
CN100397340C (zh) 以对话为目的的应用抽象
CN101207586B (zh) 用于实时自动通信的方法和系统
KR101279738B1 (ko) 대화 분석
US7590542B2 (en) Method of generating test scripts using a voice-capable markup language
US7286985B2 (en) Method and apparatus for preprocessing text-to-speech files in a voice XML application distribution system using industry specific, social and regional expression rules
AU2004255809B2 (en) Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
US20100151889A1 (en) Automated Text-Based Messaging Interaction Using Natural Language Understanding Technologies
US20090216540A1 (en) Open Architecture For A Voice User Interface
US20080267370A1 (en) Telecommunications voice server leveraging application web-server capabilities
US20080147406A1 (en) Switching between modalities in a speech application environment extended for interactive text exchanges
MX2007013015A (es) Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.
CN107430623A (zh) 用于资源受限的离线设备的动态可更新的离线语法模型
CA2459030A1 (en) Presentation of data based on user input
US8027839B2 (en) Using an automated speech application environment to automatically provide text exchange services
CN101589427A (zh) 语音应用程序装备和记入
US20040042591A1 (en) Method and system for the processing of voice information
JP6689953B2 (ja) 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム
US7451086B2 (en) Method and apparatus for voice recognition
US7558733B2 (en) System and method for dialog caching
US11656844B2 (en) Providing a communications channel between instances of automated assistants
JP4813798B2 (ja) ネットワークのオーディオデータを処理する方法およびその方法を実行する装置
CN110125946A (zh) 自动通话方法、装置、电子设备及计算机可读介质
US20040258217A1 (en) Voice notice relay service method and apparatus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130306