CN1273661A - 用于开发交互式语音应用程序的系统和方法 - Google Patents
用于开发交互式语音应用程序的系统和方法 Download PDFInfo
- Publication number
- CN1273661A CN1273661A CN98806914A CN98806914A CN1273661A CN 1273661 A CN1273661 A CN 1273661A CN 98806914 A CN98806914 A CN 98806914A CN 98806914 A CN98806914 A CN 98806914A CN 1273661 A CN1273661 A CN 1273661A
- Authority
- CN
- China
- Prior art keywords
- session module
- response
- caller
- interactive
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000004044 response Effects 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 52
- 230000005055 memory storage Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000019771 cognition Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000000137 annealing Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000035899 viability Effects 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/42—Graphical user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/35—Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
- H04M2203/355—Interactive dialogue design tools, features or methods
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种用于在语音处理系统中保存多个对话模块的系统和方法,其中各个对话模块都含有计算机可读的指令,这些指令用于在交互式语音应用程序中完成预定的交互对话任务。作为对用户输入的响应(图7,51),一个由多个对话模块(图7,710,720,730)组成的子集被选中以在该交互式语音应用程序中完成它们各自的交互对话任务,而且这些对话模块被相互连接起来以用于定义应用程序的通话流程(图1,110—180)。本发明还公开了一种图形用户界面,它将已保存的多个对话模块用图标的形式显示在一图形显示器中(图7),在此图形显示器中,响应用户的输入而选中图标,各对话模块子集的图标与交互式语音应用程序的通话流程的图形显示相互关联,并且根据此图形显示而产生交互式语音应用程序。
Description
本专利申请要求美国临时专利申请系列NO.60/045,741的优先权(申请日为1997年5月6日),在此结合作为参考。
本发明一般涉及一种用于开发由计算机执行的交互式语音应用程序的系统和方法。
基于计算机的交互式语音应用程序被设计用于提供自动交互通信,它一般用来在电话系统中应答接入的电话。这种应用程序可被设计成能够执行各种复杂的任务,例如,收集呼叫者的信息、为呼叫者提供信息、以及在电话系统内为呼叫者连接适当的对象。但是,用以前的手段来开发这些程序却十分困难。
图1显示了一个通话流程,它对由公司A用来指引一个打入电话的交互式语音应用程序100进行了说明。应用程序100由电话系统中的语音处理单元或PBX来执行。此通话流程在系统接收到一个打入电话时被激活,并且以输出一句问候“欢迎来到公司A”(110)作为开始。
然后该程序会给呼叫者列出各个有效选项(120)。本例中,程序通过播放一段事先录制好的提示音或者利用语音发生器(如文本—语音转换器)向呼叫者输出一个可听到的语音信号,例如“如果您知道受话者的名字,请先说名再说姓。如果您想与接线员讲话,请说‘接线员’”。
然后程序将等待呼叫者的响应(130),并在接收到响应后对其进行处理(140)。如果呼叫者说,例如,“Mike Smith”,则程序必须能够识别出呼叫者所说的话并确定是否有Mike Smith,以便将电话转接给他。功能强大的系统应该能够识别出名字的一般变化和变更。例如,图1所示的程序可以鉴别出公司A雇员列表中各个雇员的全名—如,“Michael Smith”。但是,该应用程序还应知道将打电话找“MikeSmith”(假设雇员列表中只有一个雇员的名字与之相符)的人连接到列表中名为“Michael Smith”的雇员。
假设程序找到了这样一个人,则它将输出一个确认提示“您是说‘Michael Smith’?”(150)。然后程序将再次等待呼叫者的响应(160),并且在当接收到响应时(170),执行适当的操作(180)。本例中,如果呼叫者的应答为“是”,则程序可以在执行适当步骤以转接电话之前说“谢谢,请稍候以为您转接Michael Smith”。
图2显示了一些步骤,它们被执行以用于图1所示交互式程序的各个交互步骤。具体来说,将图2的过程应用于图1所示应用程序的第一个交互步骤,则该交互式语音应用程序将输出图1中步骤120的提示(210)。然后程序将等待呼叫者的响应(220,130)。该步骤应不仅能够完成对接收到的响应的处理,如图1中的例子所示(140),还应能对没有响应作出处理。例如,若在一预定时间内没有接收到响应,则程序将执行“超时(”(230)并以一适当的提示来重新提示呼叫者(步骤215),如“很抱歉,我没有听到您的响应。请重复您的回答”,然后程序将返回以等待呼叫者的响应(220,130)。
当应用程序检测到呼叫者的响应时(240),图1中的步骤140将尝试对呼叫者的语音进行识别(一般需要记录下呼叫者的语音波形)、确定该语音波形的语音特征、并将该语音特征与已知词汇表数据库中的内容进行比较。如果程序不能确定可能符合的假设(250),则它将重新提示呼叫者(215)并返回以等待呼叫者的响应(220)。一般来说,重新提示的内容在程序通话流程的不同点上是不一样的。例如,与在超时间隔期间未接收到响应而作出的重新提示相反,当已接收到呼叫者的响应但其并不与已知响应相符时,所产生的重新提示可以为“很抱歉,我不明白您的响应。请重复受话者的姓名,或者说‘接线员’”。
如果程序对呼叫者所说的话提供出一个或多个假设(260,270),则它将为各个假设确定一个可信度参数,该参数反映了假设的正确性。图2显示的解释步骤(280)可被用于低可信度和高可信度的假设。例如,如果可信度等级落在被确定为“高”的范围之内(步骤260),则可用程序直接执行适当的操作(290,180)而无需经过确认过程(150,160,170)。另外,也可以用一应用程序来为低和高可信度的假设执行确认过程。例如,图1的程序可以为呼叫者辨别出最佳假设并询问其是否正确。
如果应用程序将该假设解释为不正确(例如,若呼叫者对步骤150的确认提示作出“否”的响应),则应用程序将拒绝此假设并重新提示呼叫者以重复他或她的响应(步骤215)。如果程序将此假设解释为正确(例如,若呼叫者对检验提示的响应为肯定),则程序将接受该假设并采取适当的操作(290),如图1的例子所示,此操作将输出180的提示并为呼叫者转接Michael Smith。
如通过图1和图2的应用程序100所举例说明的那样,交互式语音应用程序是很复杂的。因而要利用以前的应用程序开发工具来实现这样一种交互式语音应用程序(如图1和图2所示的程序),就需要开发者设计程序的整个通话流程,包括对待由程序识别的各种词汇进行定义以响应程序的各种提示在内。在一些情况下,词汇的填充需要使用一些其它的应用程序,如数据库应用程序。因此,利用以前的解决手段,开发者需要耗费大量的时间,而且还要很复杂地来保证交互式语音应用程序与任何外部应用程序及其访问的数据之间的兼容性。
另外,开发者必须将通话流程设计成能够解释程序中同一提示所得到的不同类型的响应。以前的解决手段通常需要开发者定义一个待被识别的语言的语言模块,它一般包括用于对语言进行普通定义的语法规则,以及对待与呼叫者进行交谈的预期通话流程进行更为具体定义的语法规则。而这种定义工作是非常冗长乏味的。
由于在语音理解中会出现不可避免的含义模糊和错误,所以程序开发者还需提供错误恢复功能(包括错误控制功能和错误防止功能)以便于对语音模糊及错误进行适当的控制,从而不使呼叫者受挫。这就需要开发者不仅应尽量提供一个可靠的语音识别系统,还应设计出多个备选方法以从呼叫者处提取并处理所需的信息。这些备选方法可包括:设计帮助提示以表达特定情况,以及让呼叫者使用不同的方法来响应,如:允许呼叫者拼出他们的响应或允许他们利用按钮式电话的键盘来输入响应。在以前的解决手段中,程序开发者需人工准备错误控制、错误防止、以及它们所用的任何替代方法。这需要耗费大量的时间,并且有可能导致功能或重要步骤被忽略。
根据以上所述,很明显,在本领域中需要有一种能够解决上述缺陷的交互式语音开发系统和方法。
概括起来,从一个方面来说,本发明的特征在于,它通过在一语音处理系统中保存多个对话模块,从而提供了一种构成交互式语音应用程序的计算机应用方法,其各个对话模块都含有计算机可读的指令,这些指令用于在交互式语音应用程序中完成预定的交互对话任务。作为对用户输入的响应,一个由多个对话模块组成的子集被选中以在该交互式语音应用程序中完成它们各自的交互对话任务,而且这些对话模块被相互连接起来以用于定义应用程序的通话流程,这样,应用程序就被生成。
本发明的具体应用可以含有以下一个或多个功能。本发明所提供的这种方法还可包括在交互式语音应用程序执行时,将特定对话模块与用于改变此对话模块操作的配置参数相互关联。这些配置参数可响应用户输入而被进行设置。
与对话模块相关的交互对话任务包括向呼叫者输出一个提示并从呼叫者处接收响应。配置参数的例子包括:用于在提示被输出后为呼叫者定义响应时间段的超时参数;用于定义一待输出提示的提示参数;用于在不能识别呼叫者的响应时定义一待输出的致歉提示的致歉提示参数;以及用于识别词汇的参数,这些词汇定义了可识别的用户响应。该方法还包括响应用户输入而对词汇进行编辑的功能。
与对话模块相关的交互对话任务含有:用于向呼叫者输出一个提示的指令;用于从呼叫者处接收响应的指令;以及用于和语音识别引擎(它利用识别模型来识别接收到的响应)进行交流的指令。交互对话任务还可含有用于在交互式语音应用程序执行期间根据识别到的响应对由语音识别引擎使用的识别模型进行更新的指令。
本发明所提供的方法还包括在一图形显示器中用图标来对已保存的多个对话模块进行图形化显示的功能。在此方法中,含有多个对话模块子集的图标会响应用户输入而被选中,各对话模块子集的图标与交互式语音应用程序的通话流程的图形表示相互关联,交互式语音应用程序就根据此图形表示而被生成。利用图形显示器,该方法还包括将配置参数与特定对话模块相互关联的功能。各配置参数可在当此交互式语音应用程序执行时改变相应对话模块的操作。当一个具有相关配置参数的对话模块的图标被选中时,将有一个窗口被显示出来以用于响应用户输入对该配置参数的数值进行设置。
从另一个方面来说,本发明的特征在于,它提供了一种保存有计算机可读指令的存储装置,这些指令用于在一个采用上述方法的语音处理系统中构成一个交互式语音应用程序。
本发明具有如下的一个或多个优点。它提供了多个预装软件模块,每个模块都代表了一个分立的对话任务以用在交互式语音应用程序之中。因为这些“对话模块”中的每一个模块都执行一个分立的任务,所以它们具有很强的独立性,这就使应用程序开发者在制作一个客户程序时,只需简单地按所需的应用程序通话流程的顺序将这些对话模块组合起来,从而给开发者以很大的灵活性。另外,由于它们都有具体的任务,所以通过对语义、语言和声音模型进行调整,就可优化这些对话模块以提供最高的识别精度和任务完成率。
通过在预装模块中提供对话模块(Dialogue Module)模板,本发明可被用于生成各种具有内部固定软件代码的应用程序,这在具有复杂通话流程的较大程序中尤为重要。
对话模块模板具有可定制的参数,它们为开发者在制作程序时提供了高度的灵活性。例如,尽管对话模块可被用于向呼叫者提供预先录制好的“缺省”提示,开发者也可为特定的应用程序定制提示。其它的可定制功能包括:是否打开如“闯入”功能以便在程序提示运行时对呼叫者的语音进行识别;选择适当的错误控制方法和提示;以及修改或生成一个可识别词汇的数据库。
即使开发者没有受过正规的语音训练,本发明也能使开发者制作出各种交互式语音应用程序以与呼叫者进行自动交谈。
图1是一种交互式语音应用程序的通话流程图。
图2是交互式语音应用程序中一个交互步骤的流程图。
图3是一种可应用交互式语音应用程序的计算机系统的框图。
图4是一种适用于开发交互式语音应用程序的系统的逻辑框图。
图5的流程图显示了一种含有对话模块实例的交互式语音应用程序。
图6是一个对话模块所执行步骤的流程图。
图7显示了一种用于生成和编辑交互式语音应用程序的图形用户界面(GUI)。
图8是一种使用对话模块的交互式语音应用程序的逻辑表示。
图9-16显示了多个用于生成和编辑交互式语音应用程序的图形用户界面(GUI)。
在对一种用于开发交互式语音应用程序的方法和系统所作的以下说明中,为了达到说明性的目的,本文提出了多个具体细节以使本发明得到透彻的理解。但是,很明显,对于熟练人员来说,本发明可在没有这些具体细节的情况下得以实现。在其它的实例中,为了避免对本发明的理解产生不必要的障碍,一些已知的结构和设备被以框图的形式表示出来。I·一种用于开发交互式语音应用程序的系统的概述
本发明涉及到利用计算机系统来开发交互式语音应用程序。图3的框图显示出了这样一种应用有本发明一个实施例的计算机系统300。该计算机系统300含有一条用于进行信息通信的总线302或其它通信机构,以及一个与总线302相连用于处理信息的处理器304。计算机系统300还含有一个主存储器306,如随机存取存储器(RAM)或其它动态存储器,它与总线302相连,用于保存信息和保存待由处理器304执行的指令。主存储器306还可在处理器304执行指令期间用于保存临时变量或其它中间信息。计算机系统300还含有一个只读存储器(ROM)308或其它静态存储器,它与总线302相连,用于保存静态信息和处理器304的指令。与总线302相连的还有一个用于保存信息和指令的存储装置,如磁盘或光碟。
计算机系统300还含有输出设备,如显示器312,它与总线302相连,用于向计算机用户显示信息。用于和处理器304进行信息和命令选择通信且与总线302相连的输入设备可包括:键盘314、麦克风316以及光标控制设备318(如鼠标、轨迹球或光标方向键),光标控制设备318用于与处理器304进行方向信息及命令选择通信,并用于控制光标在显示器312上的移动。
计算机系统300还含有一个与总线302相连的通信接口320,它用于为外部计算机系统或网络提供连接。例如,如图3所示,通信接口320可为与局域网324相连的网络连接322提供双向通信连接。例如,通信接口320可以是一块综合业务数字网(ISDN)卡或是一个调制解调器,以便为相应类型的电话网线324提供数据通信连接322。作为其它的例子,通信接口320可以是一个用于在电话网络线324上提供语音和数据通信连接322的电话接口/语音卡,或者也可是一个局域网(LAN)卡以用于为兼容LAN 324提供数据通信连接。也可实施无线连接。在任何一个这样的实施中,通信接口320都能发送和接收电气、电磁或光信号,这些信号载有代表各类信息的数字数据流。
网络连接一般通过一个或多个网络来为其它数据设备提供数据通信。例如,网络链路322可以通过局域网324为计算机主机326或由互联网服务提供商(ISP)328操作的数据设备提供连接。ISP 328会顺序通过全球广域分组数据通信网络(现在一般被称为“互联网”)330以提供数据通信服务。
使用于语音系统的计算机系统各单元的其它细节在G.pelton的“语音处理”(纽约:McGraw-Hill,1993),ISBN 0-07-049309-X,第8章(“软件开发”)中有详细的说明。
根据本发明的一个实施例所述,它利用在普通用途的计算机系统(如计算机系统300)中运行的软件来开发并执行一种交互式语音应用程序。在其它的实施例中,可以通过使用专用硬件来代替软件或者将硬件与软件结合在一起以实现本发明。因此,本发明的各实施例并不局限于任何硬件电路与软件的特定组合。
图4的功能框图显示出了一种用于开发交互式语音应用程序的系统400。在此系统中,“服务”410是一个定制的交互式语音应用程序,它被开发用于执行一个或多个对话任务以提供用户定制服务。这种服务的一个例子就是参考上述图1和图2用于接收并为打入公司A的通话选定线路的程序。
应用程序开发者生成的服务410在一个实时服务执行环境420中定义了一个通话流程,此服务执行环境420可以是向开发者提供的缺省环境或是为特定服务410而专门生成或修改的定制环境。本实施例中,服务执行环境420提供了用于执行服务410的“main()”函数,而服务410被配置成为一个动态连接库(d1l)。
服务410的通话流程说明了它与呼叫者的交谈过程,它使用了对话模块430中的一个或多个软件对话模块的“实例(instance)”功能。系统400含有多个对话模块,其每个模块都被设计用于执行一个具体的对话任务,如:输出一个提示、识别呼叫者的语音以作为预定列表中的一个识别项、识别呼叫者的语音以作为肯定或否定(是/否)响应、或者识别呼叫者拼出的字符串。在此处说明的实施例中,对话模块模板是一种编程语言(如C++)中的函数、方法、对象或子程序,当然也可以采用各种不同的编程语言。
开发者利用对话模块来完成它们在服务410中的各自对话任务。各对话模块可以使用缺省配置参数或者也可使用为特定服务定制的参数。对话模块实例的参数可以被定制为,例如,输出定制提示、响应提示而识别定制的词汇、打开或关闭特殊功能、以及设定各种附加参数。
对话模块430在服务410和语音单元440,450之间提供了一个接口,该接口执行使系统400能够对输出和输入音频信号进行控制的功能。通过提供该接口,对话模块430允许开发者在不用详细了解语音单元440,450的情况下就可以开发出一个服务410,而语音单元440,450的功能包括向呼叫者输出提示以及接收并处理呼叫者的输入语音。系统400中可含有任意数量的语音单元440,450。
在图4所示的实施例中,语音输出单元440通过电话接口单元460输出语音提示(或者其它的音频信号)。在一些情况下,语音输出单元440可以通过简单地执行一特定音频文件以输出预先录制好的语音。另外,语音输出单元440可以含有一个语音合成系统,如DECtalkTM,它是数字设备公司(Digital Equipment Corporation)用于将文本转换为语音的一种文本—语音合成器。市场上的语音合成器通常都含有一个发音字典以及一个语音发生器,它们用于解释输入的文本串、确定其发音、以及产生并输出语音波形。另外,语音输出单元440可以含有用于在提示播放结束时输出一个音频信号(如“嘀”声)的软件,其目的是告诉呼叫者可以开始说话。语音输出单元440还可含有用于在当呼叫者的语音被判别为需要提供“闯入(barge-in)”检测和处理时停止输出提示的软件。关于闯入检测和控制的细节在(例如)美国专利申请系列No.08/651,889、题为“与语音识别系统有关的用于简化闯入的方法及装置”一文中已有说明,该申请已转让给本发明的受让人。
语音输入单元450可在服务执行期间,对通过电话接口单元460接收到的接入语音信号进行接收、记录和处理。语音输入单元450通常含有一个语音识别引擎,如在Speech WorksTM中所提供的语音识别引擎(Speech Recognition Engine),它由马萨诸塞州波士顿的应用语言技术公司提供,用于对语音输入进行记录、数字化及处理。该语音识别引擎可以利用附加的单元来产生对从呼叫者接收到的接入语音信号的文字表示,这些附加单元如:用于确定一输入口语单词语音特征的声音模型,用于确定可能匹配假设的可信度的可信度关联单元。该引擎含有自然语言模型信息,如:待识别语音的语言语法规则。
电话接口单元460包括多个组成单元,如:电话卡,用于在电话线上进行通信时提供电话接口/语言板;通话频道,用于在电话线上控制多路通话;音频播放器/录音器,用于向呼叫者输出提示并记录呼叫者打入的语音;以及其它需要用来向呼叫者输出语音信号和接收语音信号的单元,还有用来控制上述各单元的软件库。
服务410(包括各对话模块实例及其下属的语音单元440,450和电话接口单元460在内)是在实时服务执行环境420内进行操作的。如上所述,在本实施例中,服务410被配置成一个动态链接库(d11),它被提供“main()”函数的服务执行环境420调用并执行。该库中还有附加的软件代码,其作用是控制对话模块实例及其它全局通用函数的调用。
服务执行环境420一般会调用服务410三次:服务初始化,服务执行(处理来话呼叫),以及服务清除(在通话处理之后)。服务执行环境420各种函数的实例可以被设置成用于处理以下内容,包括:
·初始化电话接口;
·初始化通往语音单元440,450和对话模块430的接口;
·在需要时,调用为用户提供的服务初始化程序;
·等待电话打入;
·确定电话信道;
·调用为用户提供的服务执行程序;
·确保断开已经完成的通话;以及
·调用清除程序,包括:清除为用户提供的服务的程序、对话模块清除程序、以及硬件/电话资源清除程序。II·对话模块
交互式语音应用程序通常都含有一系列的分立对话任务一它们要求呼叫者提供特定类型的信息并处理呼叫者的响应。对话模块是一些预先定义的软件单元,它们用于在应用程序内执行这些对话任务。各对话模块都能完成一个分立的任务并保存其结果,包括一个用于说明其终止条件的数值在内。例如,终止条件可以包括:SUCCESS,它说明对话任务已成功完成;TIMEOUT,它说明呼叫者未在预定的时间周期内作出响应;或ERROR,它说明系统不能识别呼叫者的响应。
如参考图4所作的上述说明,对话模块430在服务410和语音单元440,450之间提供了一个接口,它允许开发者在不用详细了解语音技术的情况下进行各种程序的开发。服务410含有对对话模块430的一系列调用,其目的是产生所需的通话流程并为特定的服务410定制特定用途。对话模块430则依次通过语音单元440,450和电话接口单元460来处理与呼叫者的通信。
此处所指的对话模块“模板(templates)”是一些预先定义好的软件模块,它们是交互式语音应用程序的组成部分,而对话模块“实例”则是模板在特定服务中使用时的版本。对话模块实例可以与它所基于的模板相同,或者也可专门为特定服务定制。实例被标以唯一的标志,在一个服务中允许使用多个对话模块模板的实例。
图5的流程框图是一种应用系统400的服务410的实例,系统400是象如图4所示并且具有参考图1和图2所述通话流程的系统。服务410以调用一个项目列表对话模块(ItemList Dialogue Module)实例520来作为开始510,其任务是辨别出呼叫者想要接通的对象。项目列表模块520以播放一段提示对象521作为开始,本实例中,项目列表模块520利用语音输出单元440和电话接口单元460输出一段语音信号以作为由图1中功能块110和120所示的定制提示,并且还接收呼叫者的语音响应。
项目列表模块520访问一个定制的已知词汇表,该词汇表具有可以辨认出由服务410所识别的人的项目。在图1的实例中,已知词汇表与公司A的各个雇员以及接线员和/或各部门的名称(如:销售部,客户服务部,等等)相对应。这个定制的词汇表一般被程序开发者用来识别一个雇员,它不仅能识别雇员的全名,还能识别出该雇员可能被识别的其它名称,如:只有姓、只有名、或只有一个昵称,也许与姓混合在一起使用。例如,如果一个雇员的姓名是Michael A.Smith,则数据库应不仅能识别“Michael Smith”,还应能识别出呼叫者喜欢用来辨认该雇员的其它名称,如“Mike Smith”,“Michael”,“Mike”以及“Smith”。可以利用如以下将要说明的词汇表编辑程序或其它适当的数据管理应用程序来生成这样一种词汇表。
在由块523所代表的确认步骤中,项目列表模块520根据由语音输入单元450确定的可信度等级而辨别出一个或多个词汇表项目以作为对呼叫者想找的人的假设。在该实施例中,如果具有最高可信度等级的假设,其可信度等级超过了一预定门限值,则项目列表模块520将认为该假设是对呼叫者响应的正确匹配。如果不存在这样的假设,则项目列表模块520将把可信度等级落在一预定范围之内的假设确定表示为可能的匹配。项目列表模块520为这些假设依次输出提示,直到其中一个假设被确认或者假设列表用完为止。更具体地说,确认步骤523接收并处理呼叫者的响应以确定该响应是肯定还是否定。
要对呼叫者的响应进行处理,就要求项目列表模块能够理解并辨别各种作为肯定或否定的响应,不仅应包括“是”和“否”,还应包括它们的同义词,如“正确”,“错误”,“对”,“错”,等等。因此,项目列表模块520还需使用一个已知词汇表以用于确认步骤,该表含有多个项目以用于对确认步骤的已识别响应,包括用于指示确认响应是肯定还是否定的各项信息。
与项目列表模块520用来辨别公司A雇员的高度专用识别词汇表不同,确认步骤523所用的识别词汇表可以在各种服务中通用。因此,确认步骤523可以利用一个预定缺省词汇表(它含有作为标准响应的项目)来实现。但是,如下所述,在需要时,程序开发者可以定制缺省数据库或对其进行更换以供特定服务使用。例如,在说西班牙语的地理区域内,可以给相应于肯定响应的数据库项目增加西班牙语词汇表。
如果项目列表模块520确定出确认步骤523已确认一个假设,则它将保存该假设以及其终止条件(SUCCESS)并返回至服务的主函数,以将通话转接给被识别出来的人530。如果项目列表模块520确定出确认步骤523未能确认一个假设或者在超时(TIMEOUT)或错误(ERROR)情况下终止,则项目列表模块520将试图重新完成其任务(重复从块521开始、输出提示并接收和处理响应的循环过程)。另外,项目列表模块520可以在ERROR条件540下终止并采取适当的终止操作。在本实例中,类似的操作可以是将呼叫者转接给当值的接线员。
尽管未在图1中示出,对话模块还可包括备选的各种后退(fallback)方法,它们用于在不能识别或不能确定呼叫者的响应时执行对话任务。这些方法的例子如:要求呼叫者拼出他或她的响应,或者要求呼叫者利用按钮式电话的键盘来输入响应。在由图5所示的服务410中,项目列表对话模块实例520为呼叫者提供了一种拼音后退方法。
在服务410执行期间,当在理解用户时出现一预定次数(可以为缺省值,也可以是由开发者定制的值)的失败尝试时,项目列表520将根据从呼叫者处接收到的拼音,采用拼音后退法522以确定词汇表中的一项。本例中,拼音后退法522使用了与项目列表模块520所使用的相同识别词汇表,并提示呼叫者先名后姓地拼出他或她想找的人的全名。拼音后退法522在接收呼叫者的拼音的同时,搜索识别词汇表并逐字符地进行转换。
拼音后退法522被用于引入一种“先行(look-ahead)”功能,该功能在(例如)美国专利申请系列号No.08/720,554、名为“用先行辨认来连续拼写语音识别的方法及装置”一文中已有说明,而且该申请也已转让给本发明的受让人。利用这种先行功能,拼音后退法522将在辨别出呼叫者所说的字符唯一符合词汇表中的一项时成功地终止,即使呼叫者尚未说完整个单词或句子。如果拼音后退法522顺利地辨别出至少一项,则它将保存结果并如上所述地继续执行确认步骤523。
如果拼音后退法522不能辨别出符合条件的人,则它将适当地保存一个TIMEOUT或ERROR终止条件,并且执行退出步骤540。出错时所采取的操作可以为不同的服务而定制。如上所述,在图1和图2所示的例子中,类似的终止操作可以是将呼叫者转接给当值接线员。A·对话模块的一般功能
对话模块以及它们所执行的具体任务具有多变的复杂性和灵活性,其范围从简单的单步模块一直到复杂的多步骤模块。单步模块的一个例子如:是/否模块,它用于输出提示并确定用户的响应是肯定还是否定。与单步模块相比,多步骤模块的一个例子如:要求呼叫者提供地址的模块,该模块能够将呼叫者的语音转换成文本,并且还能将特定的口语单词或句子与信息的特定区段(如:街道名称、城市,州和邮编)相关联。
在各对话模块模板控制不同对话任务的同时,这些模板一般都含有用来适当地结束其对话任务或者退出的通用功能。图6的框图就显示出了一些这样的功能,包括:进行提示、收集呼叫者的响应、有选择地确认呼叫者的响应、提供后退法以用于正确识别呼叫者的响应、以及在需要时辨别清楚呼叫者所作响应的含义。
1·初始提示
大部分对话模块都执行一个涉及要求提供并处理呼叫者信息的交互对话任务,因此它们都含有一个如块610所示的初始提示,该提示用来要求呼叫者说出所需的信息。例如,对参考图1、图2和图5所述的服务来说,项目列表模块530使用的一个初始提示是要求呼叫者说出受话者的姓名。
2·收集响应
如块620所示的收集步骤是一个交互任务的下半段—即,接收呼叫者的响应。对话模块通过录下呼叫者语音的波形来收集响应。为了防止使呼叫者长时间地等待,该步骤一般都含有一个“超时”参数,该参数用于在提示输出完成后为呼叫者设定一个进行响应的预定时间段。因此,有两种可能的结果:识别一个已接收到的响应,或者在超时周期内未识别出任何响应,这两种结果分别由控制路径620b和620a代表。
在收集步骤中提供有可定制的功能。例如,如下所述,超时周期可被设定为具有不同的时间长度。另外,可以激活提示完成后发出“嘀”声的功能,它用于在完成提示输出之后超时周期开始时输出一个“嘀”声(或任何其它各类声音)以提示呼叫者开始说话。类似地,也可以打开一个声音功能,它用于在呼叫者说完应答之后输出一个声音(如:滤波噪声),用以使呼叫者知道系统正在对响应进行处理。还可打开另一个功能,即“闯入”控制功能,该功能允许收集步骤对在执行的提示被全部输出之前所接收到的呼叫者的响应进行检测和收集,而且可以通过对如闯入门限这样的参数进行设定,以确定何时使用闯入功能。如下所述,这些参数中的每一个都可被设定为缺省值,或者也可由程序开发者定制。
3·确认响应
如果在超时周期内接收到响应,则对话模块将试图确认呼叫者的响应是否已得到正确的识别,如块630所示。本实施例中,确认步骤630涉及到试图为利用语音输入单元450记录的语音波形在专用识别词汇表中找出一个匹配项。如上所述,本实施例中,输入语音单元450含有一个语音识别引擎,它能为一个匹配确定一个或多个假设,并能根据各种模型(如语义、语言和声音模型)而为各个假设产生一个可反映其可信度等级的分数。在一个实施例中,确认步骤630为各个假设依次输出确认提示、要求呼叫者确认一给定假设是否正确,直到有一个假设被确认或所有假设全部被否决为止。
专用识别词汇表可以是一个缺省词汇表,或者也可为特定服务而定制。例如,一个对话模块模板(如:是/否模块)可以提示呼叫者作出在不同服务中所使用的相同响应。这样的模板一般都使用一个标准的缺省词汇表,但由这些模板的实例所使用的词汇表可由开发者自行定制或修改。其它一些模块(如:项目列表模块)一般都需要使用专为特定服务生成的定制词汇表。如以下较为详细的说明那样,开发者可以在开发一个服务期间,利用编辑工具来制作并生成一个定制词汇表。另外,在服务执行期间,可通过一个实时程序编程接口来对一现有词汇表进行动态更新,该接口所使用的技术在同时待审的美国专利申请系列No.08/943,557中得到了说明。该专利申请的名称为“用于动态适配一个大型词汇表语音识别系统以及用于在一个大型词汇表语音识别系统中对数据库进行限制使用的方法及装置”,它也已经转让给本申请的受让人。
确认步骤630利用各种因素来确定是否有词汇表项应被认为是可以精确代表呼叫者响应的假设。这些因素包括:由语音输入单元450的语音识别引擎所产生的可信度等级,代表需考虑假设的最大数目“n”值(n个最佳假设),以及先前的识别信息。
更具体地说,确认步骤630将为作为一个对呼叫者响应的识别假设的各个词汇表项确定一个可信度等级分数。象图2中所建议的那样,可对通过预定门限等级进行设定以将可信度等级的分数归类为:高可信度、低可信度或无可信度等级。这些门限等级可以修改,而且它们决定了识别引擎应将哪个词汇表项作为假设。
确认步骤630所需考虑的另一个因素就是“n”值,它可被设定成缺省值或定制值。识别引擎就利用该值来限制它对n个最佳假设的考虑。
对话模块还为一给定交互任务保留有与先前识别尝试有关的信息,用以配合后面的识别尝试来有选择性地选出先前被拒绝的假设,以及有选择性地考虑重复的低可信度假设。
更具体地说,在由块610、620、630和640所构成的循环圈的第一次循环中,如果确认步骤630考虑的n个假设全部被呼叫者认为不对而加以否决,那么在下一次循环中,无论识别引擎给这些假设所确定的可信度等级是什么,确认步骤630都将不再考虑这些假设中的任何一个。相反,在该循环圈的第一次循环中,如果步骤630因为识别引擎将一个假设的可信度等级确定为落在低可信度间隔(不足以高到被认为是高可信度,也不足以低到被认为是“无可信度”而被丢弃)内而不考虑该假设,那么在下一次循环中,该假设将被再次进行辨别,确认步骤630会再次考虑该假设。
对话模块实例中可定制的功能包括:关闭确认(在一些情况下,开发者可以选择认为最佳假设总为正确),仅在特定环境下激活确认(如:当给定假设的可信度等级低于预定门限时),以及总是激活确认。确认步骤输出的提示也可定制。例如,如果对话模块实例被定制成:为呼叫者的响应确定两个最佳假设,则确认步骤可以通过调用一个是/否模块来确定该最佳假设是否正确,或者也可调用一个如下所述的菜单对话模块,它能列出这两个假设并请呼叫者选择其中的一个假设。
确认步骤630可以定制的其它特征包括:待使用的识别词汇表以及一个否决门限,该门限用于为一要被认为是n个最佳假设之一的词汇表项设定一个最小可信度等级。当然,仍如下所述,这些功能都可由缺省参数提供,或者也可由开发者定制。
4·辨清已确认响应的含义
如果有多个已确认的响应与词汇表项正确匹配,则如块660所示的辨义步骤将用于辨别清楚呼叫者响应的含义。例如,在图1所示的服务中,如果公司A的项目列表词汇表中有两项名为“Mike”的雇员,则确认步骤630可在当呼叫者向公司A打电话时确定出他要找“Mike”通话,但它却不能确定呼叫者要找其中的哪一个。因此,对话模块还含有一个可定制的辨义步骤660。本实施例中,该步骤输出一个定制的提示以列出可能的项目,并要求呼叫者从其中选出一个。
5·错误恢复
对话模块模板包括多种错误恢复方法,它们由开发者定制以用于各种服务中的特定实例。例如,如块640和650所代表的错误恢复步骤能在一对话模块实例成功完成一对话任务之后被执行。例如,如图6所示,当服务在超时周期内不能收集到用户的响应(如路径620a所示)、或者当服务不能确认任何与用户响应相匹配的假设(如路径630a所示)时,错误恢复步骤640,650就会被执行。
如下面所述,错误恢复过程可为服务中对话模块的特定实例而定制。例如,在块640上,对话模块将确定是利用与610相同的方法(如路径640a所示)还是利用后退方法(如路径640b至块650所示)来重新收集响应。可以定制的错误恢复参数包括:用于沿路径640a进行重试的提示610的内容,以及重试次数的门限,它用于确定何时沿路径640a重试以及何时沿路径640b使用后退方法。例如,重试次数可以包括跟随某一提示(沿路径620a)而连续超时的最大次数,在对用户对一特定提示的响应进行理解(沿路径630a)时出现连续错误的最大次数,以及对话模块实例将要重试的次数的综合最大次数。
在块640的重试步骤中,如果对话模块确定出尚未达到重试次数的门限,它将沿路径640a在块610上向呼叫者输出另一个提示。重试期间的一般再提示包括两个子类:致歉和再提示。致歉提示会对未完成任务而发出致歉,它随环境的变化而不同。例如,超时之后的致歉提示可以为“很抱歉,我没有听到您的响应”,而出现识别错误之后的致歉提示则为“很抱歉,我不明白您的意思”。类似地,跟随在致歉提示之后的再提示也可以不同。超时致歉提示之后的再提示可以说:“现在请您回答”,而识别错误致歉提示之后的再提示则可说:“现在请您重复您的回答”。根据先前失败的次数和类型,还可有其它的一些变化。例如,在第二次连续超时之后,致歉提示可以是“很抱歉,我仍未听到您的响应”,其后跟随着同样的再提示“现在请您回答”。
如果对话模块确定出已经达到重试次数的门限,则它将沿路径640b利用块650的后退方法来尝试得出一个可识别的用户响应。后退方法的例子包括:要求呼叫者拼出他或她的响应,或者要求呼叫者利用按钮式电话来输入DTMF音。例如,如图5所示,可将对话模块实例定制为:在达到识别错误的门限次数之后,退出拼音模块550。
6·终止
对话模块实例或者在块670成功终止或者在块680失败终止并且保存了终止的条件。例如,终止条件可包括:SUCCESS(成功完成对话任务),TIMEOUT(超出超时周期的门限次数),已及ERROR(试图识别呼叫者的响应时失败)。
本实施例中,对话模块记录下对话模块实例在终止时的执行情况信息,包括各个步骤的执行情况在内,这些步骤如:收集、确认、辨义、开始并完成提示、以及开始并完成对呼叫者所作响应的识别。被记录的信息可含有额外的信息,如:呼叫者所作响应的录音波形、时间标记、以及“n个最佳”识别假设及其可信度等级分数。
对识别结果进行记录以及保存波形,就可以在以后对服务的执行情况进行分析,以供故障寻找、升级和调谐用。另外,对话模块实例可利用这些信息通过对由语音单元440,450使用的语义、语言和声音模型进行动态调节以提高成功率。这些调节可以在不同的层次上进行。例如,可以在一个总体的层次上对对话模块实例进行调节,此总体层次能够影响对话模块实例在使用语音系统的所有服务中的执行情况。也可以类似地在呼叫者的层次上进行调节,该层次只能影响对话模块实例在服务中与一特定呼叫者进行的交流(由服务执行环境利用如打入的电话号码来进行辨别,或由服务利用一个用于呼叫者的标志如帐号或用户身份来进行辨别)。
对话模块根据已被识别出来的用户响应的含义,利用语义调节来配合由识别引擎使用的识别算法。例如,给自动航班定票服务打电话的人一般都要求提供与一周内的日期或通话日期有关的信息。可以在这种服务中使用用于识别日期的对话模块实例,该实例可先考虑出一个时间间隔(先前通话中已识别出的日期就在此间隔内),然后考虑到以后呼叫者说出的日期很可能落在同一时间间隔内,并对由识别引擎使用的语义进行调整。
利用基于对话模块实例先前所执行的识别结果的信息,就可进行语言调节以配合由识别引擎使用的识别算法。例如,对一个用于识别城市名称的对话模块实例来说,这些信息可以包括:跟踪接入电话的号码,呼叫者对城市名称的发音和根据先前执行的对话模块实例中的那些发音而正确识别出的城市名称,以及识别词汇表中确定单词与其它单词被说出的相对频率。这些信息可以说明,例如,从波士顿区(可由接入的电话号码来辨别)打入电话的人,其类似于“Wuhstuh”的应答声可能是指Worcester城,而从普林斯顿区打入电话的人所作的同样应答则更象是指Wooster城。该信息可被对话模块实例用来配合由识别引擎使用的语言模型。例如,如果先前的识别显示出从波士顿打入电话的人所发出的类似“Wuhstuh”的响应声更象是指“Worcester”而不是“Wooster”,则语言模型可被配合用于统计性地权衡词汇表项“Worcester”和“Wooster”,从而证明当接入的电话号码是波士顿区的电话时,“Worcester”是比“Wooster”更具可能性的假设。
最后,根据从已识别语音及其在经对话模块处理的已接收的用户响应中的对应发音之间的关系,就可以在语音的层次上用声音调节来保持由识别引擎所用的统计声音模型,以将特定的声音与特定的语音关联起来。B·对话模块模板的实例
参考图6所述的各对话模块的实例包括:
1·是/否模块:是/否模块用于输出一个初始提示、收集并确定呼叫者的响应是肯定还是否定,其依据是一个已知的识别词汇表,该表含有各种作为肯定(“是”,“没错”,“正确”,“对”,等等)和否定(“不是”,“不对”,“错”,等等)的响应。该模块能够保存终止条件,并且如果行的话,它会将结果用一个(例如)布尔值(0代表否定,1代表肯定)保存起来。
是/否模块的功能可在其它对话模块中使用。例如,如图5所示,项目列表对话模块可以在执行其确认步骤523时,使用是/否模块的功能。
2·拼音:拼音模块用于输出一个初始提示并收集作为呼叫者响应的一个或多个字母数字字符(包括符号)。在一个实施例中,该模块使用了一个含有待识别项目的特定词汇表,并且对该词汇表进行搜索以便为呼叫者所拼出的各个字符寻找匹配项。如上所述,它利用先行功能来提供对拼出的单词和句子的早期辨别。在一个备选实施例中,该模块可利用一含有多个独立字符的特定词汇表,用以最终辨别出呼叫者所拼出的字符串。当完成工作后,该模块会保存终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。
与是/否模块一样,拼音模块的功能也可在其它对话模块中得到使用。例如,如图5所示,项目列表对话模块可以在执行其后退方法522时,使用拼音模块的功能。
3·格式化代码:可以提供各种模块模板以用于识别具有特定格式的代码,如:电话号码、地址、邮编、日期、时间、货币量、帐号、以及社会保险号。这些模块引入了已知的语法并且使用各种已知的识别词汇表,这些已知词汇表中含有与多个符合所需代码格式的有效响应相对应的项目。在任务完成后,该模块会返回一个终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。
4·菜单:菜单模块能够输出一个初始提示以要求呼叫者在一系列的列表选项中进行选择、收集呼叫者的响应并将该响应与和列表选项相对应的已知识别词汇表中的至少一项进行比较。在任务完成后,该模块会返回一个终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。
5·项目列表:项目列表模块可让开发者把一列单词或项目定义为对呼叫者所作提示的可允许响应。该模块的初始提示通常不限制呼叫者的响应(与菜单模块相同)。例如,图1和图2所示服务中的项目列表模块要求呼叫者说出一个人的姓名,但并不限制呼叫者作出特定的响应。该模块使用一个已知识别词汇表,该词汇表含有与待识别项目相对应的各项。在任务完成后,该模块会返回一个终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。III·定制服务的生成
再次参考图4,服务410可以多种方式被与对话模块430结合在一起而使用。例如,服务410可以在一个第三代编程语言(如C语言)中被配置成一个“main”函数,在此函数中,对话模块430受到按照通话流程顺序排列的C语言函数的调用。在这种配置中,“main”函数可以是一个独立的程序。另外,如上所述,服务410也可被配置成一个动态链接库(d11),它可在服务410被初始化时与服务执行环境420相连接。在这种配置中,服务410是作为一个函数库而被使用的。服务执行环境420执行服务410中的一个或多个函数,而后者会依次调用对话模块430。A·用户界面
可以提供各种用户界面以允许用不同的方法来生成服务。例如,一种非图形应用编程界面可允许开发者利用传统的编程方法来生成服务。另外,也可使用图形用户界面(GUI)。例如,图7所示的GUI 700,它包括有一个调色模板710,调色模板710含有多个表示状态(如:等待电话和转接电话)720及对话模块模板730的图标,该界面允许开发者通过将适当的图标“拽放”入主工作区740以生成各种对话模块的状态和实例,并进而构成该服务的通话流程。GUI 700还含有多种连接符,它们用于将状态和模板以适当的顺序链接并指定适当的条件。在该图示实施例中,调色模板710沿着GUI窗口700的左边界显示,而各种连接符的类型则存放在下拉式菜单750中。各种服务图标在窗口的主工作区740中显示。
要在服务中插入一个状态或对话模块,开发者可在调色模板710中选取适当的图标并将其放入主工作区,在主工作区740中,图标的下方显示有状态或模板的名称,而图标的上方则显示有实例的名称。一开始,GUI 700会给实例自动分配一个描述性的通用名称,如:实例#1。开发者可以通过选取并编辑文本来修改实例的名称。
菜单条750含有一个“连接符(Connector)”选项,它用于提供各类连接符,以便于根据所需的服务通话流程来连接主工作区740中的图标。例如,在主工作区740中,由一条实线所代表的一个无条件连接符连接了第一和第二个图标,它表示服务总是在第一个图标被完成之后再继续执行第二个图标。而在主工作区740中用一条虚线表示的一个有条件连接符则表示服务只有在条件被满足时才会继续执行第二个图标。B·在服务中定制对话模块
正如参考图4所做的上述说明,各对话模块实例都根据对话模块模板来完成一个分立的对话任务,而且它们可被修改以用于特定服务。服务410与对话模块430(包括模板和实例在内)之间的关系在图8中将有更为详细的说明。
1·对话模块模板
对话模块模板810含有多个配置库,它们定义了对话模块实例850在服务840中使用时的行为。这些配置库包括一个含有缺省配置的“基线(Baseline)”配置库820,缺省配置包括:标准缺省参数,提示文件,识别词汇表,首功能,以及对话模块执行各种对话任务所用的模板。开发者通过提供一个可选的“系统”配置库830并用定制的配置覆盖基线库820中的缺省设置,就可以自行制定基本配置设定。系统库830可以提供多个设置以覆盖缺省设置的一部分或者全部。
2·服务中的对话模块实例
开发者还可以通过在服务840中定制对话模块实例580以定制一个服务。如上所述,在一个服务内调用一特定模块是通过生成一个与对话模块模板相对应的独立“实例”并对具有唯一名称的各个实例进行辨别而得以实现的。这就使得同一模板的对话模块实例能在单个服务中被进行不同的定制。例如,如图8所示,服务840对对话模块#2执行了两次独立的调用,它们分别由对话模块836和826的两个独立实例856A和856B来表示,这两个模板836和826是根据系统库设置830和未被系统库830覆盖的任何基线库设置820而被生成的。
各种对话模块的模板具有共性,如参考图6所作的上述说明。这些基本共性可以定义在多个对话模块中通用的可定制功能,它们包括:输出提示,用于识别功能的参数(如:可以考虑的识别候选者的数目),识别词汇表,以及错误恢复参数。
在开发或执行一个服务期间可以定制各种特征。例如,开发者可以利用基于文本的配置文件来定制一个服务的特征,该配置文件允许开发者改变服务的参数(它可在服务执行期间改变服务的行为)而无需对该服务进行重新编译。另外,也可利用包含在对话模块中的实时应用编程接口来定制各种功能。在与一个图形开发环境相结合的实施例中,可以提供图形用户界面(GUI)以允许开发者通过例如复选框或插入文本来配置对话模块。
例如,利用图7所示的GUI 700,通过在主工作区740中选择一个图标(如:对话模块742),就可定制对话模块实例。当选定该图标后,程序将打开一个对话窗口900,如图9所示。窗口900显示了对话模块910的名称并提供了四种选择:配置信息(ConfigureInformation)920,它允许开发者观看并修改实例的配置信息,这些信息以对话模块模板810的基线库(Baseline)820和系统库(SystemLibrary)830所提供的信息为依据;特征(Feature)930,它允许开发者为实例定制各种特征;词汇表(Vocabulary)940,它允许开发者观看、生成和编辑实例的已知识别词汇表;以及错误恢复(ErrorRecovery)950,它允许开发者观看并修改实例的错误恢复参数。
a·配置信息
在图9的窗口900中选择配置信息920将会出现一个如图10所示的新的对话窗口1000。窗口1000显示了基线库820和系统库830的文件路径,这两个库为对话模块实例850提供了配置信息。如果被使用的基线库820和/或系统库830多于一个,则窗口1000允许开发者在条框1010中寻找所需的库。通过选取观看(View)1020和编辑(Edit)1030选项,就可观看和/或编辑配置库的内容。
b·特征
在图9所示的窗口900中选择功能930将会打开一个如图11所示的新的窗口。该窗口显示出了各种可在特定对话模块实例850中被打开的功能。图11所示的功能包括:初始提示,是否打开“闯入”控制,设定闯入的门限(即,呼叫者必须说多大的声音才能打开闯入控制功能),以及是否在提示完成后发出“嘀”声(即,在提示告诉呼叫者可以开始说话之后播放一个“嘀”声)。这些功能的参数一开始都按照基线库820和系统库830所提供的配置信息而被设定,但它们也可被开发者在条框1110-1140中输入的参数所覆盖。
条框1110被用于为对话模块实例指定初始提示。如图6所示,对话模块在其通话流程中通常都含有一个或多个向用户发出的提示。对话模块模板和实例所用的提示一般被称为“提示对象”,它们是一些以音频形式或文本形式(如果在含有能够利用文本来合成语音的语音单元的系统中使用的话)保存的数据对象。在本实施例中,初始输出提示可由保存着提示对象的文件路径来指定,或者也可由待被文本—语音合成器执行转换的文本来指定。一些对话模块模板可以提供一个缺省初始提示。例如,是/否模块模板可以含有一个缺省初始提示“请说是或否”。在其它情况下,对话模块模板可能会要求开发者提供一个定制的初始提示。
c·词汇表
在图9的窗口900中选择词汇表(Vocabulary)选项940将允许开发者来定制识别词汇表,该词汇表定义了对对话模块提示所作的有效响应。一些对话模块(如:是/否模块)可以使用一个已被定义好的缺省词汇表,当然这些词汇表也可被开发者自行定义或替换。尽管其它一些对话模块(如:项目列表模块)可以使用普通标准词汇表,但它们更适于使用定制的词汇表。
本实施例中,选择词汇表选项940将打开一个窗口1200,如图12所示。图12显示了一个词汇表编辑器,该编辑器用于为对话模块实例定制词汇表。这种编辑器的一个实例是由马萨诸塞州波士顿的应用语言技术公司所开发的商用Speech WorksTM程序中的词汇表编辑器。Speech WorksTM词汇表编辑器允许开发者生成或修改一个被识别词汇表,该词汇表定义了一个含有多个项目的列表,这些项目将在响应提示而被识别。图12所示的初始窗口1200含有多个菜单选项,它们用于生成一个新的词汇表文件1210、打开一个已有文件1220、或者退出1230。对任何已被打开的文件来说,该编辑器提供了三个菜单选项:项目&同义词(Item Synonyms)1240,它用于编辑被识别的项目及其同义词;发音1250,用于编辑已知识别项目及其同义词的发音;以及确认(Confirmation)1260,用于为词汇表文件定制确认设置。
图12是当项目&同义词选项1240被选中时所出现的显示,该显示提供了5种选项1241-1245以用于编辑词汇表的项目及其同义词。在本实施例中,“项目”是指词汇表中的已知识别项目,而“同义词”则是一个项目的备选项。对话模块会把同义词识别为该项目的匹配项。图12显示了三个项目:“bob dole”,“h ross perot”以及“bill clinton”。
使用如图12所示的GUI可以提供选项1241,它允许开发者增加一个新的项目;选项1242,用于为已知识别项目增加同义词;选项1243,用于编辑已有的项目和同义词;选项1244,用于删除已有的项目和同义词;以及选项1245,用于插入另一个词汇表文件。通过点亮一个已有的项目并增加同义词,就可使开发者增加将被对话模块实例识别为匹配项的项目。例如,可以增加“clinton”以作为“bill clinton”的同义词。这可以通过列出该项目下分支处的同义词而显示出来。
选择发音选项1250将打开一个如图13所示的窗口1300。在此图示实施例中,词汇表编辑器可利用一预定系统字典和一用户字典来为各项目及其同义词确定发音,上述系统字典能为待被识别语言中的常用单词提供发音,而用户字典则包括有用户为各特定单词定制的发音以及后退规则,该后退规则是用于根据单词拼音而生成发音的语音规则。
在图13中窗口1300的左侧显示了一个词汇表的项目及其同义词的各个单词1310,紧随其下一条线之后的是它们的发音1320。在本实施例中,发音被以一种颜色加亮以反映其根源。例如,从系统字典中产生的发音可以用白色加亮,从用户字典中产生的发音可以用淡蓝色加亮,被用户编辑的发音可以用深蓝色加亮,而利用语音规则产生的发音则可用红色加亮。
如图所示,菜单选项1251-1254允许开发者倾听任何项目(或同义词)的发音、编辑发音、增加备选发音、以及删除发音。选择一个由编辑选项1252或增加选项1253跟随的项目(或同义词)将会打开一个如图14所示的窗口,该窗口显示出了一个语音键盘1410以及被选中的项目1420,该项目将被增加发音或被进行发音编辑。语音键盘1410的每个键都代表了一个语音音素。按住一个键上的光标将会打开一个弹出框1430,它通过显示含有一个语音音素的常用单词而提供出相应音素声音的一个发音实例。开发者还可通过选择“显示列表(Show Table)”选项140来激活这个信息,“显示列表”选项1470将显示全部可用音素的列表以及一个用于说明它们发音的常用单词。
要对已选定的项目或同义词的发音进行修改或增补,开发者可以选择相应按键以在其发音中插入相应的音素。倾听(Listen)选项1440允许开发者倾听发音(Pronunciation)框1420中所示音素的发音,从而帮助开发者对一个发音进行检验和修改。
参考图12,词汇表编辑器还提供了一个“确认”选项1260。选取该选项将打开一个如图15所示的窗口1500。如上所述,对话模块实例可被用来确认它对呼叫者的响应所作的假设。词汇表编辑器的确认(Confirmation)窗口1500提供了一个选项1510,它允许开发者设定一个缺省参数以用于确定应在何时对一特定词汇表中的项目及同义词进行确认,该选项显示于条框1511之中。确认窗口1500还提供了一个选项1520,它允许开发者为词汇表中的单个项目及同义词设定确认参数。当该选项被选中后,一个用于单个项目和同义词的窗口1521将被打开,并且显示出有效的确认选项。
d·错误恢复参数
在图9的窗口900中选择错误恢复选项950将打开一个如图16所示的窗口1600,它允许开发者定制错误恢复参数以用于确定对话模块实例内的通话流程。如参考图6和图16进行的以上说明所述,可定制的错误恢复参数包括:超时周期,对话模块允许连续超时的最大次数,对话模块在理解呼叫者对一特定提示所作的响应时允许的最大连续识别错误次数,确认选项,以及后退选项。一开始,这些参数的缺省值由基线库820和系统库830中的配置信息来提供,也可利用如图16的窗口1600所示的GUI来为对话模块的各特定实例自行设定这些参数。
其它的错误恢复参数包括致歉提示和再提示的内容。图8显示了一套保存在基线库820和系统库830之中的提示文件822,832。这些文件含有一些用于进行标准提示的适当格式文件,上述标准提示包括:超时致歉提示、错误致歉提示、再提示、以及成功信息。也可在提示文件中提供定制的提示,或者也可将定制提示保存在能在对话模块实例内被访问到的地方。
如上所述,除了初始提示以外,还可以提供多种提示,它们包括:例如,第一和第二超时致歉提示,第一和第二错误致歉提示,以及一般的再提示提示。基线库820和系统库830所提供的用于对话模块模板810的配置数据可以含有一些缺省提示,它们包括:第一超时致歉提示“很抱歉,我没有听到您的响应”和第二超时致歉提示“很抱歉,我仍没有听到您的响应”,第一错误致歉提示“很抱歉,我不明白您的意思”和第二错误致歉提示“很抱歉,我仍不明白您的意思”。缺省提示还可包括:第一普通再提示“现在请说出您的回答”、第二普通再提示“现在请再说一遍您的回答”以及缺省成功提示“谢谢您”。
如上所述,提示可以用任何适当的形式来指定。例如,一些实施例允许利用一个给定的名称(例如:如果被命名并保存在图8所示的提示文件(Prompt Files)822,832中)而通过文件路径来指定提示,或者在使用文本—语音合成器时通过其文本来用文件路径指定提示。
一些模板(如:项目列表模块模板)要求开发者至少建立一些提示,并利用适当的服务来建立并保存这些提示,以便将它们正确地输出给呼叫者。例如,要对一个已有提示进行定制,开发者可以在一个适当的服务中打开提示文件并对其作出修改。要提供一个新的提示,开发者可以生成一个新的提示文件并向用于输出该提示的对话模块实例指明该文件的路径。另外,在使用文本—语音合成器的系统中,开发者只需简单地向对话模块实例提供该提示的文本即可。
在以上的说明中,本发明是以具体实施例为参考而得到说明的。但是,很显然,在不脱离本发明较宽的精神和范围的情况下,可以对其进行各种修改和变换。因此,本文的附图和说明书应被认为是起到说明性的作用,而不是限制性的作用。
Claims (18)
1.一种由计算机实现的用于构成交互式语音应用程序的方法,其特征在于包括:
在语音处理系统中保存多个对话模块,其中各个对话模块都含有计算机可读的指令,这些指令用于在交互式语音应用程序中完成预定的交互对话任务;
响应用户的输入,选择一个由多个对话模块组成的子集,以在该交互式语音应用程序中完成它们各自的交互对话任务;
响应用户输入,按照定义交互式语音应用程序的通话流程的顺序将被选中的对话模块的子集相互连接起来;以及
生成该交互式语音应用程序。
2.如权利要求1所述的方法,其特征在于它还包括:
将至少一个配置参数与至少一个对话模块关联起来,其中的各项配置参数可在交互式语音应用程序执行时,用于改变相应对话模块的操作;以及
响应用户输入设置上述配置参数的值。
3.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并从呼叫者处接收响应,而且上述配置参数中至少有一个参数是超时参数,它用于在提示被输出后定义呼叫者响应的时间段。
4.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并接收呼叫者的响应,而且上述配置参数中至少有一个参数是提示参数,它用于定义一个要被输出的提示。
5.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并接收呼叫者的响应,而且上述配置参数中至少有一个参数是致歉提示参数,它用于在不能识别呼叫者的响应时定义一个待被输出的致歉提示。
6.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并接收呼叫者的响应,而且上述配置参数中至少有一个参数是用于识别词汇的参数,这些词汇定义了可被识别的用户响应。
7.如权利要求6所述的方法,其特征在于,它还包括响应用户输入而对词汇进行编辑的功能。
8.如权利要求1所述的方法,其特征在于,上述与对话模块相关的交互对话任务含有:
用于向呼叫者输出一个提示的指令;
用于接收呼叫者响应的指令;以及
用于和一语音识别引擎进行交流的指令,该语音识别引擎利用识别模型来对接收到的响应进行识别。
9.如权利要求8所述的方法,其特征在于上述与对话模块相关的交互对话任务还含有用于在交互式语音应用程序执行期间,根据识别到的响应对由语音识别引擎使用的识别模块进行更新的指令。
10.如权利要求1所述的方法,其特征在于它还包括:
在图形显示器中以图标方式图形化显示所保存的多个对话模块,
其中:
响应于用户输入,在图形显示器中选定含有多个对话模块子集的图标;
各对话模块子集的图标与交互式语音应用程序的通话流程的图形显示相互关联;以及
根据此图形显示产生交互式语音应用程序。
11.如权利要求10所述的方法,其特征在于它还包括:
将至少一个配置参数与至少一个对话模块相互关联,其中的各项配置参数在交互式语音应用程序执行时,改变相应对话模块的操作;
当响应用户输入而选中一个具有相关配置参数的对话模块的图标时,显示一个窗口以设置该配置参数的数值;以及
响应用户输入,对该配置参数的数值进行设定。
12.一种保存有计算机可读指令的存储装置,这些指令用于在语音处理系统中构成一个交互式语音应用程序,所述装置含有:
含有多个对话模块模板的指令序列,其中各对话模块模板都含有一系列指令,以在交互式语音应用程序中执行预定的对话模块任务;
用于响应用户输入而生成多个在交互式语音应用程序中使用的对话模块实例的指令,其中各对话模块实例都以一个对话模块模板为依据,并且在交互式语音应用程序中执行相应对话模块模板的预定对话任务;
用于响应用户输入而对至少一个对话模块实例进行定制的指令;
用于按照定义该交互式语音应用程序的一个通话流程的顺序连接对话模块实例的指令;以及
用于生成该交互式语音应用程序的指令。
13.如权利要求12所述的存储装置,其特征在于它还包括:
用于将至少一个配置参数与至少一个对话模块关联起来的指令,其中的各项配置参数可在交互式语音应用程序执行时,用于改变相应对话模块的操作;以及
用于响应用户输入而设置上述配置参数的值的指令。
14.如权利要求13所述的存储装置,其特征在于与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并从呼叫者处接收响应,而且上述配置参数中至少有一个参数是用于识别词汇的参数,这些词汇定义了可被识别的用户响应。
15.如权利要求14所述的存储装置,其特征在于还包括用于响应用户输入而对词汇进行编辑的指令。
16.如权利要求12所述的存储装置,其特征在于与对话模块相关联的交互对话任务包括:
用于向呼叫者输出一个提示的指令;
用于接收呼叫者响应的指令;以及
用于和语音识别引擎进行交流的指令,该语音识别引擎利用识别模型来对接收到的响应进行识别。
17.如权利要求16所述的存储装置,其中上述与对话模块相关的交互对话任务还含有用于在交互式语音应用程序执行期间,根据识别到的响应对由语音识别引擎使用的识别模型进行更新的指令。
18.如权利要求12所述的存储装置,其特征在于它还包括:
用于在图形显示器中用图标来对已保存的多个对话模块进行图形化显示的指令,
其中:
用于在交互式语音应用程序中生成多个对话模块实例的指令包括:用于响应用户输入而对多个对话模块模板进行选择的指令,以及用于在图形显示器中将对话模块实例图形化地显示为图标的指令;
用于按定义一交互式语音应用程序的通话流程的顺序连接对话模块实例的指令包括:用于将代表对话模块实例的图标与代表交互式语音应用程序通话流程的图形显示进行图形化相互连接的指令;以及
用于生成交互式语音应用程序的指令,该指令根据相互连接的图标来生成交互式语音应用程序,而这些图标以图形方式显示了对话模块实例。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US4574197P | 1997-05-06 | 1997-05-06 | |
US60/045,741 | 1997-05-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1273661A true CN1273661A (zh) | 2000-11-15 |
CN1163869C CN1163869C (zh) | 2004-08-25 |
Family
ID=21939619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB988069148A Expired - Fee Related CN1163869C (zh) | 1997-05-06 | 1998-05-06 | 用于开发交互式语音应用程序的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6173266B1 (zh) |
EP (1) | EP1021804A4 (zh) |
CN (1) | CN1163869C (zh) |
AU (1) | AU758006B2 (zh) |
CA (1) | CA2292959A1 (zh) |
WO (1) | WO1998050907A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1764899B (zh) * | 2003-03-24 | 2010-09-01 | 医药图型有限公司 | 便于用户与工作流过程交互的图形用户界面系统及方法 |
CN101326571B (zh) * | 2005-12-07 | 2012-05-23 | 三菱电机株式会社 | 声音识别装置 |
CN1708784B (zh) * | 2002-10-29 | 2012-05-30 | 诺基亚有限公司 | 用于在手持电子设备中编辑文本的方法和系统 |
CN103632664A (zh) * | 2012-08-20 | 2014-03-12 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN104182124A (zh) * | 2014-08-25 | 2014-12-03 | 广东欧珀移动通信有限公司 | 移动终端的操作方法和装置 |
CN105074816A (zh) * | 2013-02-25 | 2015-11-18 | 微软公司 | 促进口述自然语言接口的开发 |
CN107112013A (zh) * | 2014-09-14 | 2017-08-29 | 谷歌公司 | 用于创建可定制对话系统引擎的平台 |
WO2022237376A1 (en) * | 2021-05-10 | 2022-11-17 | International Business Machines Corporation | Contextualized speech to text conversion |
Families Citing this family (337)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999043146A2 (en) * | 1998-02-02 | 1999-08-26 | Pulsepoint Communications | Dynamically loadable phrase book libraries for spoken language grammars in an interactive system |
US20030154072A1 (en) * | 1998-03-31 | 2003-08-14 | Scansoft, Inc., A Delaware Corporation | Call analysis |
US7937260B1 (en) | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6343116B1 (en) * | 1998-09-21 | 2002-01-29 | Microsoft Corporation | Computer telephony application programming interface |
US7251315B1 (en) | 1998-09-21 | 2007-07-31 | Microsoft Corporation | Speech processing for telephony API |
US6606598B1 (en) * | 1998-09-22 | 2003-08-12 | Speechworks International, Inc. | Statistical computing and reporting for interactive speech applications |
US6462616B1 (en) * | 1998-09-24 | 2002-10-08 | Ericsson Inc. | Embedded phonetic support and TTS play button in a contacts database |
US9037451B2 (en) * | 1998-09-25 | 2015-05-19 | Rpx Corporation | Systems and methods for multiple mode voice and data communications using intelligently bridged TDM and packet buses and methods for implementing language capabilities using the same |
DE19908137A1 (de) * | 1998-10-16 | 2000-06-15 | Volkswagen Ag | Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog |
US6778647B1 (en) * | 1998-11-13 | 2004-08-17 | Siemens Information And Communication Networks, Inc. | Redundant database storage of selected record information for an automated interrogation device |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
FR2788615B1 (fr) * | 1999-01-18 | 2001-02-16 | Thomson Multimedia Sa | Appareil comportant une interface utilisateur vocale ou manuelle et procede d'aide a l'apprentissage des commandes vocales d'un tel appareil |
US7031440B1 (en) | 1999-02-01 | 2006-04-18 | Ssimens Communications Inc. | Interactive voice response systems with general-purpose blocks |
US6324507B1 (en) * | 1999-02-10 | 2001-11-27 | International Business Machines Corp. | Speech recognition enrollment for non-readers and displayless devices |
US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
US8321411B2 (en) | 1999-03-23 | 2012-11-27 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
US6567796B1 (en) * | 1999-03-23 | 2003-05-20 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
US6502075B1 (en) * | 1999-03-26 | 2002-12-31 | Koninklijke Philips Electronics, N.V. | Auto attendant having natural names database library |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US20050261907A1 (en) | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US6434523B1 (en) | 1999-04-23 | 2002-08-13 | Nuance Communications | Creating and editing grammars for speech recognition graphically |
US6314402B1 (en) | 1999-04-23 | 2001-11-06 | Nuance Communications | Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system |
US6434527B1 (en) * | 1999-05-17 | 2002-08-13 | Microsoft Corporation | Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue |
US6604075B1 (en) * | 1999-05-20 | 2003-08-05 | Lucent Technologies Inc. | Web-based voice dialog interface |
US7283964B1 (en) * | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US8607138B2 (en) | 1999-05-28 | 2013-12-10 | Microstrategy, Incorporated | System and method for OLAP report generation with spreadsheet report within the network user interface |
US9208213B2 (en) | 1999-05-28 | 2015-12-08 | Microstrategy, Incorporated | System and method for network user interface OLAP report formatting |
WO2000078022A1 (en) * | 1999-06-11 | 2000-12-21 | Telstra New Wave Pty Ltd | A method of developing an interactive system |
TW501046B (en) * | 1999-06-11 | 2002-09-01 | Ind Tech Res Inst | A portable dialogue manager |
US6523004B1 (en) * | 1999-07-19 | 2003-02-18 | International Business Machines Corporation | Method and apparatus for disambiguating lists of elements for speech interfaces |
US6964012B1 (en) * | 1999-09-13 | 2005-11-08 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts |
US6788768B1 (en) | 1999-09-13 | 2004-09-07 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for book-related information |
US6829334B1 (en) | 1999-09-13 | 2004-12-07 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control |
US8130918B1 (en) | 1999-09-13 | 2012-03-06 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing |
US6836537B1 (en) | 1999-09-13 | 2004-12-28 | Microstrategy Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule |
US20050223408A1 (en) * | 1999-09-13 | 2005-10-06 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for entertainment-related information |
US7143042B1 (en) * | 1999-10-04 | 2006-11-28 | Nuance Communications | Tool for graphically defining dialog flows and for establishing operational links between speech applications and hypermedia content in an interactive voice response environment |
US6850886B2 (en) * | 1999-10-21 | 2005-02-01 | Sony Corporation | System and method for speech verification using an efficient confidence measure |
JP2001125900A (ja) * | 1999-10-29 | 2001-05-11 | Yazaki Corp | 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体 |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6526382B1 (en) * | 1999-12-07 | 2003-02-25 | Comverse, Inc. | Language-oriented user interfaces for voice activated services |
US7024363B1 (en) * | 1999-12-14 | 2006-04-04 | International Business Machines Corporation | Methods and apparatus for contingent transfer and execution of spoken language interfaces |
US7222120B1 (en) * | 2000-04-12 | 2007-05-22 | Making Everlasting Memories, L.L.C. | Methods of providing a registry service and a registry service |
DE10034235C1 (de) * | 2000-07-14 | 2001-08-09 | Siemens Ag | Verfahren zur Spracherkennung und Spracherkenner |
EP1301921B1 (en) * | 2000-07-20 | 2007-02-28 | BRITISH TELECOMMUNICATIONS public limited company | Interactive dialogues |
US7143040B2 (en) | 2000-07-20 | 2006-11-28 | British Telecommunications Public Limited Company | Interactive dialogues |
JP2002041276A (ja) * | 2000-07-24 | 2002-02-08 | Sony Corp | 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体 |
US6424935B1 (en) * | 2000-07-31 | 2002-07-23 | Micron Technology, Inc. | Two-way speech recognition and dialect system |
US6892228B1 (en) * | 2000-08-23 | 2005-05-10 | Pure Matrix, Inc. | System and method for on-line service creation |
US6785651B1 (en) * | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
GB0023834D0 (en) * | 2000-09-28 | 2000-11-08 | Digicharm Ltd | Variable automated response system |
US20020059072A1 (en) * | 2000-10-16 | 2002-05-16 | Nasreen Quibria | Method of and system for providing adaptive respondent training in a speech recognition application |
US6941266B1 (en) * | 2000-11-15 | 2005-09-06 | At&T Corp. | Method and system for predicting problematic dialog situations in a task classification system |
DE10063148A1 (de) * | 2000-12-18 | 2002-06-20 | Deutsche Telekom Ag | Dialoganlage für eine Mensch-Maschine-Interaktion mit kooperierenden Dialogeinrichtungen |
US20040190688A1 (en) * | 2003-03-31 | 2004-09-30 | Timmins Timothy A. | Communications methods and systems using voiceprints |
JP3857047B2 (ja) * | 2000-12-28 | 2006-12-13 | 富士通株式会社 | 音声対話システム及び音声対話方法 |
US6961694B2 (en) * | 2001-01-22 | 2005-11-01 | Microsoft Corporation | Method and apparatus for reducing latency in speech-based applications |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7191133B1 (en) | 2001-02-15 | 2007-03-13 | West Corporation | Script compliance using speech recognition |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US20020169604A1 (en) * | 2001-03-09 | 2002-11-14 | Damiba Bertrand A. | System, method and computer program product for genre-based grammars and acoustic models in a speech recognition framework |
GB2375211A (en) * | 2001-05-02 | 2002-11-06 | Vox Generation Ltd | Adaptive learning in speech recognition |
US6925154B2 (en) * | 2001-05-04 | 2005-08-02 | International Business Machines Corproation | Methods and apparatus for conversational name dialing systems |
US6751595B2 (en) | 2001-05-09 | 2004-06-15 | Bellsouth Intellectual Property Corporation | Multi-stage large vocabulary speech recognition system and method |
US6963834B2 (en) * | 2001-05-29 | 2005-11-08 | International Business Machines Corporation | Method of speech recognition using empirically determined word candidates |
EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
US20020184002A1 (en) * | 2001-05-30 | 2002-12-05 | International Business Machines Corporation | Method and apparatus for tailoring voice prompts of an interactive voice response system |
US6944594B2 (en) | 2001-05-30 | 2005-09-13 | Bellsouth Intellectual Property Corporation | Multi-context conversational environment system and method |
GB0113583D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech system barge-in control |
US7117447B2 (en) * | 2001-06-08 | 2006-10-03 | Mci, Llc | Graphical user interface (GUI) based call application system |
US7020608B2 (en) | 2001-06-21 | 2006-03-28 | Delphi Technologies, Inc. | Speech recognition handling with synthesized manual input events |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US7573986B2 (en) * | 2001-07-18 | 2009-08-11 | Enterprise Integration Group, Inc. | Method and system for interjecting comments to improve information presentation in spoken user interfaces |
DE10147341B4 (de) * | 2001-09-26 | 2005-05-19 | Voiceobjects Ag | Verfahren und Vorrichtung zum Aufbau einer in einem Computersystem implementierten Dialogsteuerung aus Dialogobjekten sowie zugehöriges Computersystem zur Durchführung einer Dialogsteuerung |
US6701066B2 (en) * | 2001-10-11 | 2004-03-02 | Micron Technology, Inc. | Delivery of solid chemical precursors |
ITTO20011035A1 (it) * | 2001-10-30 | 2003-04-30 | Loquendo Spa | Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale. |
US20050149617A1 (en) * | 2001-11-26 | 2005-07-07 | Objectworld Communications Corp. | Graphical interface based software for creating communication service agents |
US20030105804A1 (en) * | 2001-11-26 | 2003-06-05 | Objectworld | Communication system with personalized call handling |
US7359858B2 (en) * | 2002-02-07 | 2008-04-15 | Sap Aktiengesellschaft | User interface for data access and entry |
US7203907B2 (en) * | 2002-02-07 | 2007-04-10 | Sap Aktiengesellschaft | Multi-modal synchronization |
US7177814B2 (en) * | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7246062B2 (en) * | 2002-04-08 | 2007-07-17 | Sbc Technology Resources, Inc. | Method and system for voice recognition menu navigation with error prevention and recovery |
US8126713B2 (en) * | 2002-04-11 | 2012-02-28 | Shengyang Huang | Conversation control system and conversation control method |
US7117158B2 (en) * | 2002-04-25 | 2006-10-03 | Bilcare, Inc. | Systems, methods and computer program products for designing, deploying and managing interactive voice response (IVR) systems |
US20030212761A1 (en) * | 2002-05-10 | 2003-11-13 | Microsoft Corporation | Process kernel |
US20030214523A1 (en) * | 2002-05-16 | 2003-11-20 | Kuansan Wang | Method and apparatus for decoding ambiguous input using anti-entities |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7305340B1 (en) | 2002-06-05 | 2007-12-04 | At&T Corp. | System and method for configuring voice synthesis |
EP1377000B1 (en) * | 2002-06-11 | 2009-04-22 | Swisscom (Schweiz) AG | Method used in a speech-enabled automatic directory system |
US7502730B2 (en) * | 2002-06-14 | 2009-03-10 | Microsoft Corporation | Method and apparatus for federated understanding |
US6910911B2 (en) | 2002-06-27 | 2005-06-28 | Vocollect, Inc. | Break-away electrical connector |
US7640164B2 (en) * | 2002-07-04 | 2009-12-29 | Denso Corporation | System for performing interactive dialog |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
AU2002950336A0 (en) * | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
US7249011B2 (en) * | 2002-08-12 | 2007-07-24 | Avaya Technology Corp. | Methods and apparatus for automatic training using natural language techniques for analysis of queries presented to a trainee and responses from the trainee |
US6947539B2 (en) * | 2002-08-14 | 2005-09-20 | Graham Jeffrey P | Automated call routing |
US20040034532A1 (en) * | 2002-08-16 | 2004-02-19 | Sugata Mukhopadhyay | Filter architecture for rapid enablement of voice access to data repositories |
AU2002951244A0 (en) | 2002-09-06 | 2002-09-19 | Telstra New Wave Pty Ltd | A development system for a dialog system |
JP3500383B1 (ja) * | 2002-09-13 | 2004-02-23 | コナミ株式会社 | ゲーム装置、ゲーム装置の制御方法及びプログラム |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
FR2849515B1 (fr) * | 2002-12-31 | 2007-01-26 | Thales Sa | Procede generique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application et dispositif de mise en oeuvre |
US7890336B2 (en) | 2003-01-13 | 2011-02-15 | Northwestern University | Interactive task-sensitive assistant |
AU2003900584A0 (en) | 2003-02-11 | 2003-02-27 | Telstra New Wave Pty Ltd | System for predicting speech recognition accuracy and development for a dialog system |
US7359860B1 (en) * | 2003-02-27 | 2008-04-15 | Lumen Vox, Llc | Call flow object model in a speech recognition system |
US7603291B2 (en) * | 2003-03-14 | 2009-10-13 | Sap Aktiengesellschaft | Multi-modal sales applications |
JP2004287016A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | 音声対話装置及び方法並びにロボット装置 |
AU2003902020A0 (en) | 2003-04-29 | 2003-05-15 | Telstra New Wave Pty Ltd | A process for grammatical inference |
US7331036B1 (en) * | 2003-05-02 | 2008-02-12 | Intervoice Limited Partnership | System and method to graphically facilitate speech enabled user interfaces |
US7966188B2 (en) * | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages |
US20050004788A1 (en) * | 2003-07-03 | 2005-01-06 | Lee Hang Shun Raymond | Multi-level confidence measures for task modeling and its application to task-oriented multi-modal dialog management |
US20050010418A1 (en) * | 2003-07-10 | 2005-01-13 | Vocollect, Inc. | Method and system for intelligent prompt control in a multimodal software application |
US20050027534A1 (en) * | 2003-07-30 | 2005-02-03 | Meurs Pim Van | Phonetic and stroke input methods of Chinese characters and phrases |
US20050027536A1 (en) * | 2003-07-31 | 2005-02-03 | Paulo Matos | System and method for enabling automated dialogs |
US7580909B2 (en) * | 2003-08-26 | 2009-08-25 | Northrop Grumman Corporation | Visual representation tool for structured arguments |
US20050060298A1 (en) * | 2003-09-17 | 2005-03-17 | International Business Machines Corporation | Method and arrangement of user-modified variables in a presentation list |
US7860717B2 (en) * | 2003-09-25 | 2010-12-28 | Dictaphone Corporation | System and method for customizing speech recognition input and output |
US7460652B2 (en) | 2003-09-26 | 2008-12-02 | At&T Intellectual Property I, L.P. | VoiceXML and rule engine based switchboard for interactive voice response (IVR) services |
US20050075884A1 (en) * | 2003-10-01 | 2005-04-07 | Badt Sig Harold | Multi-modal input form with dictionary and grammar |
CN1864203A (zh) * | 2003-10-10 | 2006-11-15 | 皇家飞利浦电子股份有限公司 | 用于对话系统的对话控制 |
WO2005038775A1 (en) * | 2003-10-10 | 2005-04-28 | Metaphor Solutions, Inc. | System, method, and programming language for developing and running dialogs between a user and a virtual agent |
US20050080628A1 (en) * | 2003-10-10 | 2005-04-14 | Metaphor Solutions, Inc. | System, method, and programming language for developing and running dialogs between a user and a virtual agent |
US7552221B2 (en) | 2003-10-15 | 2009-06-23 | Harman Becker Automotive Systems Gmbh | System for communicating with a server through a mobile communication device |
US7672295B1 (en) * | 2003-11-12 | 2010-03-02 | Tellme Networks, Inc. | Method and system for design for run-time control of voice XML applications |
US20050163136A1 (en) * | 2003-11-17 | 2005-07-28 | Leo Chiu | Multi-tenant self-service VXML portal |
US7697673B2 (en) * | 2003-11-17 | 2010-04-13 | Apptera Inc. | System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system |
US8799001B2 (en) * | 2003-11-17 | 2014-08-05 | Nuance Communications, Inc. | Method and system for defining standard catch styles for speech application code generation |
US20050125486A1 (en) * | 2003-11-20 | 2005-06-09 | Microsoft Corporation | Decentralized operating system |
US7440895B1 (en) | 2003-12-01 | 2008-10-21 | Lumenvox, Llc. | System and method for tuning and testing in a speech recognition system |
US20050119892A1 (en) * | 2003-12-02 | 2005-06-02 | International Business Machines Corporation | Method and arrangement for managing grammar options in a graphical callflow builder |
JP4585759B2 (ja) * | 2003-12-02 | 2010-11-24 | キヤノン株式会社 | 音声合成装置、音声合成方法、プログラム、及び記録媒体 |
GB2409087A (en) * | 2003-12-12 | 2005-06-15 | Ibm | Computer generated prompting |
US20050198300A1 (en) * | 2003-12-29 | 2005-09-08 | Li Gong | Data logging framework |
US7356475B2 (en) * | 2004-01-05 | 2008-04-08 | Sbc Knowledge Ventures, L.P. | System and method for providing access to an interactive service offering |
DE602004010054T2 (de) * | 2004-01-19 | 2008-03-06 | Harman Becker Automotive Systems Gmbh | Betätigung eines Sprachdialogsystems |
US20050165607A1 (en) * | 2004-01-22 | 2005-07-28 | At&T Corp. | System and method to disambiguate and clarify user intention in a spoken dialog system |
EP1560199B1 (en) * | 2004-01-29 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Multimodal data input |
DE602004017955D1 (de) * | 2004-01-29 | 2009-01-08 | Daimler Ag | Verfahren und System zur Sprachdialogschnittstelle |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
EP1562180B1 (en) * | 2004-02-06 | 2015-04-01 | Nuance Communications, Inc. | Speech dialogue system and method for controlling an electronic device |
US20050228668A1 (en) | 2004-03-31 | 2005-10-13 | Wilson James M | System and method for automatic generation of dialog run time systems |
US8683437B1 (en) * | 2004-04-16 | 2014-03-25 | At&T Intellectual Property Ii, L.P. | System and method for the automatic validation of dialog run time systems |
US20050234725A1 (en) * | 2004-04-20 | 2005-10-20 | International Business Machines Corporation | Method and system for flexible usage of a graphical call flow builder |
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
US20060004574A1 (en) * | 2004-06-30 | 2006-01-05 | Microsoft Corporation | Semantic based validation information in a language model to detect recognition errors and improve dialog performance |
US7228278B2 (en) * | 2004-07-06 | 2007-06-05 | Voxify, Inc. | Multi-slot dialog systems and methods |
US7936861B2 (en) * | 2004-07-23 | 2011-05-03 | At&T Intellectual Property I, L.P. | Announcement system and method of use |
US20060026049A1 (en) * | 2004-07-28 | 2006-02-02 | Sbc Knowledge Ventures, L.P. | Method for identifying and prioritizing customer care automation |
US8165281B2 (en) * | 2004-07-28 | 2012-04-24 | At&T Intellectual Property I, L.P. | Method and system for mapping caller information to call center agent transactions |
US7912206B2 (en) * | 2004-07-30 | 2011-03-22 | Miller John S | Technique for providing a personalized electronic messaging service through an information assistance provider |
US8380484B2 (en) * | 2004-08-10 | 2013-02-19 | International Business Machines Corporation | Method and system of dynamically changing a sentence structure of a message |
US7580837B2 (en) * | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7397905B1 (en) * | 2004-08-13 | 2008-07-08 | Edify Corporation | Interactive voice response (IVR) system providing dynamic resolution of data |
US7602898B2 (en) * | 2004-08-18 | 2009-10-13 | At&T Intellectual Property I, L.P. | System and method for providing computer assisted user support |
US8923838B1 (en) | 2004-08-19 | 2014-12-30 | Nuance Communications, Inc. | System, method and computer program product for activating a cellular phone account |
US8335688B2 (en) * | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US20060069560A1 (en) * | 2004-08-31 | 2006-03-30 | Christopher Passaretti | Method and apparatus for controlling recognition results for speech recognition applications |
US20060062375A1 (en) * | 2004-09-23 | 2006-03-23 | Sbc Knowledge Ventures, L.P. | System and method for providing product offers at a call center |
US7197130B2 (en) * | 2004-10-05 | 2007-03-27 | Sbc Knowledge Ventures, L.P. | Dynamic load balancing between multiple locations with different telephony system |
US7668889B2 (en) | 2004-10-27 | 2010-02-23 | At&T Intellectual Property I, Lp | Method and system to combine keyword and natural language search results |
US7657005B2 (en) * | 2004-11-02 | 2010-02-02 | At&T Intellectual Property I, L.P. | System and method for identifying telephone callers |
US8942985B2 (en) * | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
US7724889B2 (en) * | 2004-11-29 | 2010-05-25 | At&T Intellectual Property I, L.P. | System and method for utilizing confidence levels in automated call routing |
US7864942B2 (en) * | 2004-12-06 | 2011-01-04 | At&T Intellectual Property I, L.P. | System and method for routing calls |
US7242751B2 (en) * | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US20060126811A1 (en) * | 2004-12-13 | 2006-06-15 | Sbc Knowledge Ventures, L.P. | System and method for routing calls |
US20060126808A1 (en) * | 2004-12-13 | 2006-06-15 | Sbc Knowledge Ventures, L.P. | System and method for measurement of call deflection |
US7519946B2 (en) * | 2004-12-20 | 2009-04-14 | International Business Machines Corporation | Automatically adding code to voice enable a GUI component |
US7809569B2 (en) * | 2004-12-22 | 2010-10-05 | Enterprise Integration Group, Inc. | Turn-taking confidence |
CN1798210B (zh) * | 2004-12-30 | 2010-08-11 | 国际商业机器公司 | 用于选择语音或dtmf接口或二者的混合的方法和系统 |
US8478589B2 (en) * | 2005-01-05 | 2013-07-02 | At&T Intellectual Property Ii, L.P. | Library of existing spoken dialog data for use in generating new natural language spoken dialog systems |
US8185399B2 (en) | 2005-01-05 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method of providing an automated data-collection in spoken dialog systems |
US20060149553A1 (en) * | 2005-01-05 | 2006-07-06 | At&T Corp. | System and method for using a library to interactively design natural language spoken dialog systems |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7450698B2 (en) * | 2005-01-14 | 2008-11-11 | At&T Intellectual Property 1, L.P. | System and method of utilizing a hybrid semantic model for speech recognition |
US7627096B2 (en) * | 2005-01-14 | 2009-12-01 | At&T Intellectual Property I, L.P. | System and method for independently recognizing and selecting actions and objects in a speech recognition system |
US7627109B2 (en) | 2005-02-04 | 2009-12-01 | At&T Intellectual Property I, Lp | Call center system for multiple transaction selections |
US20060188087A1 (en) * | 2005-02-18 | 2006-08-24 | Sbc Knowledge Ventures, Lp | System and method for caller-controlled music on-hold |
US20060190260A1 (en) * | 2005-02-24 | 2006-08-24 | Nokia Corporation | Selecting an order of elements for a speech synthesis |
US20060212559A1 (en) * | 2005-03-02 | 2006-09-21 | Objectworld Communications Corp. | Data source access editor and network data management method |
US8130936B2 (en) * | 2005-03-03 | 2012-03-06 | At&T Intellectual Property I, L.P. | System and method for on hold caller-controlled activities and entertainment |
US7885817B2 (en) * | 2005-03-08 | 2011-02-08 | Microsoft Corporation | Easy generation and automatic training of spoken dialog systems using text-to-speech |
US7707131B2 (en) * | 2005-03-08 | 2010-04-27 | Microsoft Corporation | Thompson strategy based online reinforcement learning system for action selection |
US7734471B2 (en) | 2005-03-08 | 2010-06-08 | Microsoft Corporation | Online learning for dialog systems |
US20060206333A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Speaker-dependent dialog adaptation |
US7930182B2 (en) * | 2005-03-15 | 2011-04-19 | Nuance Communications, Inc. | Computer-implemented tool for creation of speech application code and associated functional specification |
US8223954B2 (en) | 2005-03-22 | 2012-07-17 | At&T Intellectual Property I, L.P. | System and method for automating customer relations in a communications environment |
US7933399B2 (en) * | 2005-03-22 | 2011-04-26 | At&T Intellectual Property I, L.P. | System and method for utilizing virtual agents in an interactive voice response application |
US20060217978A1 (en) * | 2005-03-28 | 2006-09-28 | David Mitby | System and method for handling information in a voice recognition automated conversation |
US20060215824A1 (en) * | 2005-03-28 | 2006-09-28 | David Mitby | System and method for handling a voice prompted conversation |
US8260617B2 (en) * | 2005-04-18 | 2012-09-04 | Nuance Communications, Inc. | Automating input when testing voice-enabled applications |
US7720684B2 (en) * | 2005-04-29 | 2010-05-18 | Nuance Communications, Inc. | Method, apparatus, and computer program product for one-step correction of voice interaction |
US7636432B2 (en) * | 2005-05-13 | 2009-12-22 | At&T Intellectual Property I, L.P. | System and method of determining call treatment of repeat calls |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US8005204B2 (en) * | 2005-06-03 | 2011-08-23 | At&T Intellectual Property I, L.P. | Call routing system and method of using the same |
US20070006082A1 (en) * | 2005-06-30 | 2007-01-04 | Microsoft Corporation | Speech application instrumentation and logging |
US8503641B2 (en) | 2005-07-01 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method of automated order status retrieval |
US8175253B2 (en) * | 2005-07-07 | 2012-05-08 | At&T Intellectual Property I, L.P. | System and method for automated performance monitoring for a call servicing system |
US7424431B2 (en) * | 2005-07-11 | 2008-09-09 | Stragent, Llc | System, method and computer program product for adding voice activation and voice control to a media player |
US7912720B1 (en) * | 2005-07-20 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method for building emotional machines |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US8073699B2 (en) * | 2005-08-16 | 2011-12-06 | Nuance Communications, Inc. | Numeric weighting of error recovery prompts for transfer to a human agent from an automated speech response system |
US8526577B2 (en) * | 2005-08-25 | 2013-09-03 | At&T Intellectual Property I, L.P. | System and method to access content from a speech-enabled automated system |
US8548157B2 (en) | 2005-08-29 | 2013-10-01 | At&T Intellectual Property I, L.P. | System and method of managing incoming telephone calls at a call center |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
WO2007027989A2 (en) * | 2005-08-31 | 2007-03-08 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US20070055520A1 (en) * | 2005-08-31 | 2007-03-08 | Microsoft Corporation | Incorporation of speech engine training into interactive user tutorial |
US8719034B2 (en) * | 2005-09-13 | 2014-05-06 | Nuance Communications, Inc. | Displaying speech command input state information in a multimodal browser |
US8024196B1 (en) * | 2005-09-19 | 2011-09-20 | Sap Ag | Techniques for creating and translating voice applications |
US9009046B1 (en) * | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
US20070088549A1 (en) * | 2005-10-14 | 2007-04-19 | Microsoft Corporation | Natural input of arbitrary text |
JP4849662B2 (ja) * | 2005-10-21 | 2012-01-11 | 株式会社ユニバーサルエンターテインメント | 会話制御装置 |
JP4846336B2 (ja) * | 2005-10-21 | 2011-12-28 | 株式会社ユニバーサルエンターテインメント | 会話制御装置 |
JP4849663B2 (ja) | 2005-10-21 | 2012-01-11 | 株式会社ユニバーサルエンターテインメント | 会話制御装置 |
US8315874B2 (en) * | 2005-12-30 | 2012-11-20 | Microsoft Corporation | Voice user interface authoring tool |
US7835911B2 (en) * | 2005-12-30 | 2010-11-16 | Nuance Communications, Inc. | Method and system for automatically building natural language understanding models |
JP4197344B2 (ja) * | 2006-02-20 | 2008-12-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声対話システム |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
US8131548B2 (en) * | 2006-03-06 | 2012-03-06 | Nuance Communications, Inc. | Dynamically adjusting speech grammar weights based on usage |
JP2007286356A (ja) * | 2006-04-17 | 2007-11-01 | Funai Electric Co Ltd | 電子機器 |
US20070261027A1 (en) * | 2006-05-08 | 2007-11-08 | International Business Machines Corporation | Method and system for automatically discovering and populating a palette of reusable dialog components |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US9135913B2 (en) * | 2006-05-26 | 2015-09-15 | Nec Corporation | Voice input system, interactive-type robot, voice input method, and voice input program |
EP1879000A1 (en) * | 2006-07-10 | 2008-01-16 | Harman Becker Automotive Systems GmbH | Transmission of text messages by navigation systems |
US9438734B2 (en) * | 2006-08-15 | 2016-09-06 | Intellisist, Inc. | System and method for managing a dynamic call flow during automated call processing |
US8190431B2 (en) * | 2006-09-25 | 2012-05-29 | Verizon Patent And Licensing Inc. | Method and system for providing speech recognition |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8355913B2 (en) | 2006-11-03 | 2013-01-15 | Nokia Corporation | Speech recognition with adjustable timeout period |
US20080133365A1 (en) * | 2006-11-21 | 2008-06-05 | Benjamin Sprecher | Targeted Marketing System |
US7747442B2 (en) * | 2006-11-21 | 2010-06-29 | Sap Ag | Speech recognition application grammar modeling |
DE102006057159A1 (de) * | 2006-12-01 | 2008-06-05 | Deutsche Telekom Ag | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen |
US8099287B2 (en) * | 2006-12-05 | 2012-01-17 | Nuance Communications, Inc. | Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands |
US20080154590A1 (en) * | 2006-12-22 | 2008-06-26 | Sap Ag | Automated speech recognition application testing |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US20080243498A1 (en) * | 2007-03-30 | 2008-10-02 | Verizon Data Services, Inc. | Method and system for providing interactive speech recognition using speaker data |
US20080243499A1 (en) * | 2007-03-30 | 2008-10-02 | Verizon Data Services, Inc. | System and method of speech recognition training based on confirmed speaker utterances |
US20080243504A1 (en) * | 2007-03-30 | 2008-10-02 | Verizon Data Services, Inc. | System and method of speech recognition training based on confirmed speaker utterances |
US20080312929A1 (en) * | 2007-06-12 | 2008-12-18 | International Business Machines Corporation | Using finite state grammars to vary output generated by a text-to-speech system |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8001469B2 (en) * | 2007-11-07 | 2011-08-16 | Robert Bosch Gmbh | Automatic generation of interactive systems from a formalized description language |
US8155959B2 (en) * | 2007-11-07 | 2012-04-10 | Robert Bosch Gmbh | Dialog system for human agent to correct abnormal output |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US9386154B2 (en) * | 2007-12-21 | 2016-07-05 | Nuance Communications, Inc. | System, method and software program for enabling communications between customer service agents and users of communication devices |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US8868424B1 (en) * | 2008-02-08 | 2014-10-21 | West Corporation | Interactive voice response data collection object framework, vertical benchmarking, and bootstrapping engine |
USD626949S1 (en) | 2008-02-20 | 2010-11-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US8949122B2 (en) * | 2008-02-25 | 2015-02-03 | Nuance Communications, Inc. | Stored phrase reutilization when testing speech recognition |
DE102008028090A1 (de) * | 2008-02-29 | 2009-09-10 | Navigon Ag | Verfahren zum Betrieb eines Navigationssystems |
US8938059B2 (en) * | 2008-03-28 | 2015-01-20 | Avaya Inc. | System and method for displaying call flows and call statistics |
US8219385B2 (en) * | 2008-04-08 | 2012-07-10 | Incentive Targeting, Inc. | Computer-implemented method and system for conducting a search of electronically stored information |
US8536976B2 (en) * | 2008-06-11 | 2013-09-17 | Veritrix, Inc. | Single-channel multi-factor authentication |
CA2665014C (en) * | 2008-05-23 | 2020-05-26 | Accenture Global Services Gmbh | Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto |
CA2665055C (en) * | 2008-05-23 | 2018-03-06 | Accenture Global Services Gmbh | Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto |
CA2665009C (en) * | 2008-05-23 | 2018-11-27 | Accenture Global Services Gmbh | System for handling a plurality of streaming voice signals for determination of responsive action thereto |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8166297B2 (en) * | 2008-07-02 | 2012-04-24 | Veritrix, Inc. | Systems and methods for controlling access to encrypted data stored on a mobile device |
DE102008033056A1 (de) | 2008-07-15 | 2010-01-21 | Volkswagen Ag | Kraftfahrzeug mit einem Mikrofon zur akustischen Eingabe eines Befehls zur Bedienung der Funktion des Kraftfahrzeuges |
US8131458B1 (en) | 2008-08-22 | 2012-03-06 | Boadin Technology, LLC | System, method, and computer program product for instant messaging utilizing a vehicular assembly |
US8265862B1 (en) | 2008-08-22 | 2012-09-11 | Boadin Technology, LLC | System, method, and computer program product for communicating location-related information |
US8073590B1 (en) | 2008-08-22 | 2011-12-06 | Boadin Technology, LLC | System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly |
US8078397B1 (en) | 2008-08-22 | 2011-12-13 | Boadin Technology, LLC | System, method, and computer program product for social networking utilizing a vehicular assembly |
EP2353125A4 (en) * | 2008-11-03 | 2013-06-12 | Veritrix Inc | USER AUTHENTICATION FOR SOCIAL NETWORKS |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8346560B2 (en) * | 2009-05-01 | 2013-01-01 | Alpine Electronics, Inc | Dialog design apparatus and method |
US20100303214A1 (en) * | 2009-06-01 | 2010-12-02 | Alcatel-Lucent USA, Incorportaed | One-way voice detection voicemail |
CN102473129B (zh) * | 2009-07-16 | 2015-12-02 | 株式会社日立制作所 | 输出表示与故障的根本原因对应的恢复方法的信息的管理系统 |
US10387140B2 (en) | 2009-07-23 | 2019-08-20 | S3G Technology Llc | Modification of terminal and service provider machines using an update server machine |
US8494148B2 (en) | 2009-09-24 | 2013-07-23 | Avaya, Inc. | Dynamic IVR dialog based on analytics data |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US8949128B2 (en) * | 2010-02-12 | 2015-02-03 | Nuance Communications, Inc. | Method and apparatus for providing speech output for speech-enabled applications |
US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
US8391464B1 (en) | 2010-06-24 | 2013-03-05 | Nuance Communications, Inc. | Customer service system, method, and software program product for responding to queries using natural language understanding |
US8659397B2 (en) | 2010-07-22 | 2014-02-25 | Vocollect, Inc. | Method and system for correctly identifying specific RFID tags |
USD643400S1 (en) | 2010-08-19 | 2011-08-16 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD643013S1 (en) | 2010-08-20 | 2011-08-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US9600135B2 (en) | 2010-09-10 | 2017-03-21 | Vocollect, Inc. | Multimodal user notification system to assist in data capture |
US8762154B1 (en) * | 2011-08-15 | 2014-06-24 | West Corporation | Method and apparatus of estimating optimum dialog state timeout settings in a spoken dialog system |
US8972263B2 (en) * | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
US8958532B2 (en) * | 2011-11-29 | 2015-02-17 | International Business Machines Corporation | Navigating an interactive voice response system |
US9679568B1 (en) | 2012-06-01 | 2017-06-13 | Google Inc. | Training a dialog system using user feedback |
US9123338B1 (en) | 2012-06-01 | 2015-09-01 | Google Inc. | Background audio identification for speech disambiguation |
US9489940B2 (en) | 2012-06-11 | 2016-11-08 | Nvoq Incorporated | Apparatus and methods to update a language model in a speech recognition system |
US9230160B1 (en) * | 2012-08-27 | 2016-01-05 | Amazon Technologies, Inc. | Method, medium, and system for online ordering using sign language |
US20140297272A1 (en) * | 2013-04-02 | 2014-10-02 | Fahim Saleh | Intelligent interactive voice communication system and method |
US9336776B2 (en) | 2013-05-01 | 2016-05-10 | Sap Se | Enhancing speech recognition with domain-specific knowledge to detect topic-related content |
US9431008B2 (en) | 2013-05-29 | 2016-08-30 | Nuance Communications, Inc. | Multiple parallel dialogs in smart phone applications |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
US9082407B1 (en) * | 2014-04-15 | 2015-07-14 | Google Inc. | Systems and methods for providing prompts for voice commands |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10740578B2 (en) | 2015-04-08 | 2020-08-11 | Fractal Antenna Systems, Inc. | Fractal plasmonic surface reader |
US10474439B2 (en) * | 2016-06-16 | 2019-11-12 | Microsoft Technology Licensing, Llc | Systems and methods for building conversational understanding systems |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
WO2018085760A1 (en) * | 2016-11-04 | 2018-05-11 | Semantic Machines, Inc. | Data collection for a new conversational dialogue system |
WO2018148441A1 (en) | 2017-02-08 | 2018-08-16 | Semantic Machines, Inc. | Natural language content generator |
US10586530B2 (en) | 2017-02-23 | 2020-03-10 | Semantic Machines, Inc. | Expandable dialogue system |
US11069340B2 (en) | 2017-02-23 | 2021-07-20 | Microsoft Technology Licensing, Llc | Flexible and expandable dialogue system |
US10762892B2 (en) | 2017-02-23 | 2020-09-01 | Semantic Machines, Inc. | Rapid deployment of dialogue system |
US10552543B2 (en) | 2017-05-10 | 2020-02-04 | International Business Machines Corporation | Conversational authoring of event processing applications |
US11056105B2 (en) * | 2017-05-18 | 2021-07-06 | Aiqudo, Inc | Talk back from actions in applications |
WO2018213788A1 (en) | 2017-05-18 | 2018-11-22 | Aiqudo, Inc. | Systems and methods for crowdsourced actions and commands |
US11340925B2 (en) | 2017-05-18 | 2022-05-24 | Peloton Interactive Inc. | Action recipes for a crowdsourced digital assistant system |
US10838746B2 (en) | 2017-05-18 | 2020-11-17 | Aiqudo, Inc. | Identifying parameter values and determining features for boosting rankings of relevant distributable digital assistant operations |
US11043206B2 (en) | 2017-05-18 | 2021-06-22 | Aiqudo, Inc. | Systems and methods for crowdsourced actions and commands |
JP6860431B2 (ja) * | 2017-06-08 | 2021-04-14 | 株式会社日立製作所 | 計算機システム、対話制御方法、及び計算機 |
US11132499B2 (en) | 2017-08-28 | 2021-09-28 | Microsoft Technology Licensing, Llc | Robust expandable dialogue system |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10621984B2 (en) * | 2017-10-04 | 2020-04-14 | Google Llc | User-configured and customized interactive dialog application |
CN107908743B (zh) * | 2017-11-16 | 2021-12-03 | 百度在线网络技术(北京)有限公司 | 人工智能应用构建方法和装置 |
US10423873B2 (en) * | 2017-12-01 | 2019-09-24 | International Business Machines Corporation | Information flow analysis for conversational agents |
US11115528B1 (en) * | 2018-01-25 | 2021-09-07 | Amazon Technologies, Inc. | Call control service |
WO2019152511A1 (en) | 2018-01-30 | 2019-08-08 | Aiqudo, Inc. | Personalized digital assistant device and related methods |
US11145291B2 (en) * | 2018-01-31 | 2021-10-12 | Microsoft Technology Licensing, Llc | Training natural language system with generated dialogues |
US10861440B2 (en) * | 2018-02-05 | 2020-12-08 | Microsoft Technology Licensing, Llc | Utterance annotation user interface |
US11133001B2 (en) * | 2018-03-20 | 2021-09-28 | Microsoft Technology Licensing, Llc | Generating dialogue events for natural language system |
US10812654B2 (en) * | 2018-06-29 | 2020-10-20 | At&T Intellectual Property I, L.P. | Interactive voice response system design, development and testing tool |
EP3912024A1 (en) * | 2019-05-06 | 2021-11-24 | Google LLC | Generating and updating voice-based software applications using application templates |
CN111145745B (zh) * | 2019-12-27 | 2022-07-01 | 思必驰科技股份有限公司 | 对话流程定制方法及装置 |
US12061636B1 (en) * | 2023-05-15 | 2024-08-13 | PolyAI Limited | Dialogue configuration system and method |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4625081A (en) * | 1982-11-30 | 1986-11-25 | Lotito Lawrence A | Automated telephone voice service system |
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
CA2091658A1 (en) | 1993-03-15 | 1994-09-16 | Matthew Lennig | Method and apparatus for automation of directory assistance using speech recognition |
WO1995001597A2 (en) * | 1993-07-01 | 1995-01-12 | British Telecomm | System for generating instructions for speech application |
US5566272A (en) | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5594638A (en) | 1993-12-29 | 1997-01-14 | First Opinion Corporation | Computerized medical diagnostic system including re-enter function and sensitivity factors |
US5544305A (en) * | 1994-01-25 | 1996-08-06 | Apple Computer, Inc. | System and method for creating and executing interactive interpersonal computer simulations |
US5694558A (en) * | 1994-04-22 | 1997-12-02 | U S West Technologies, Inc. | Method and system for interactive object-oriented dialogue management |
CA2146890C (en) * | 1994-06-03 | 2000-10-24 | At&T Corp. | Outline programming for developing communication services |
US5774860A (en) * | 1994-06-27 | 1998-06-30 | U S West Technologies, Inc. | Adaptive knowledge base of complex information through interactive voice dialogue |
US5652789A (en) * | 1994-09-30 | 1997-07-29 | Wildfire Communications, Inc. | Network based knowledgeable assistant |
US5842193A (en) * | 1995-07-28 | 1998-11-24 | Sterling Software, Inc. | Knowledge based planning and analysis (KbPA)™ |
US5999611A (en) * | 1996-11-19 | 1999-12-07 | Stentor Resource Centre Inc. | Subscriber interface for accessing and operating personal communication services |
WO1998031007A2 (en) * | 1997-01-09 | 1998-07-16 | Koninklijke Philips Electronics N.V. | Method and apparatus for executing a human-machine dialogue in the form of two-sided speech as based on a modular dialogue structure |
US6058166A (en) * | 1997-10-06 | 2000-05-02 | Unisys Corporation | Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition |
-
1998
- 1998-05-06 WO PCT/US1998/009437 patent/WO1998050907A1/en not_active Application Discontinuation
- 1998-05-06 EP EP98921062A patent/EP1021804A4/en not_active Withdrawn
- 1998-05-06 CN CNB988069148A patent/CN1163869C/zh not_active Expired - Fee Related
- 1998-05-06 AU AU73747/98A patent/AU758006B2/en not_active Withdrawn - After Issue
- 1998-05-06 US US09/081,719 patent/US6173266B1/en not_active Expired - Lifetime
- 1998-05-06 CA CA002292959A patent/CA2292959A1/en not_active Abandoned
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1708784B (zh) * | 2002-10-29 | 2012-05-30 | 诺基亚有限公司 | 用于在手持电子设备中编辑文本的方法和系统 |
CN1764899B (zh) * | 2003-03-24 | 2010-09-01 | 医药图型有限公司 | 便于用户与工作流过程交互的图形用户界面系统及方法 |
CN101326571B (zh) * | 2005-12-07 | 2012-05-23 | 三菱电机株式会社 | 声音识别装置 |
CN103632664A (zh) * | 2012-08-20 | 2014-03-12 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN105074816A (zh) * | 2013-02-25 | 2015-11-18 | 微软公司 | 促进口述自然语言接口的开发 |
CN105074816B (zh) * | 2013-02-25 | 2019-01-22 | 微软技术许可有限责任公司 | 促进口述自然语言接口的开发 |
CN104182124A (zh) * | 2014-08-25 | 2014-12-03 | 广东欧珀移动通信有限公司 | 移动终端的操作方法和装置 |
CN107112013A (zh) * | 2014-09-14 | 2017-08-29 | 谷歌公司 | 用于创建可定制对话系统引擎的平台 |
CN107112013B (zh) * | 2014-09-14 | 2020-10-23 | 谷歌有限责任公司 | 用于创建可定制对话系统引擎的平台 |
WO2022237376A1 (en) * | 2021-05-10 | 2022-11-17 | International Business Machines Corporation | Contextualized speech to text conversion |
Also Published As
Publication number | Publication date |
---|---|
WO1998050907A1 (en) | 1998-11-12 |
CA2292959A1 (en) | 1998-11-12 |
EP1021804A1 (en) | 2000-07-26 |
CN1163869C (zh) | 2004-08-25 |
AU7374798A (en) | 1998-11-27 |
US6173266B1 (en) | 2001-01-09 |
AU758006B2 (en) | 2003-03-13 |
EP1021804A4 (en) | 2002-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1163869C (zh) | 用于开发交互式语音应用程序的系统和方法 | |
US8064573B2 (en) | Computer generated prompting | |
US6871179B1 (en) | Method and apparatus for executing voice commands having dictation as a parameter | |
CN1249667C (zh) | 声控服务 | |
US7877261B1 (en) | Call flow object model in a speech recognition system | |
CN101010934B (zh) | 用于机器学习的方法 | |
US7668710B2 (en) | Determining voice recognition accuracy in a voice recognition system | |
US7406413B2 (en) | Method and system for the processing of voice data and for the recognition of a language | |
US7609829B2 (en) | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution | |
US7624014B2 (en) | Using partial information to improve dialog in automatic speech recognition systems | |
US20050234727A1 (en) | Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response | |
CN1783213A (zh) | 用于自动语音识别的方法和装置 | |
CN101030368A (zh) | 在保持情感的同时跨通道进行通信的方法和系统 | |
JP2008506156A (ja) | マルチスロット対話システムおよび方法 | |
JP2005519507A (ja) | 音声対話システムの操作方法 | |
US8725505B2 (en) | Verb error recovery in speech recognition | |
CN113779217A (zh) | 一种基于人机交互的智能语音外呼业务方法及系统 | |
US6845356B1 (en) | Processing dual tone multi-frequency signals for use with a natural language understanding system | |
CN114844992A (zh) | 一种多层ivr导航处理的方法 | |
CN113515274A (zh) | 一种关于人机交互逻辑的可视化建模设计方法 | |
TWI722715B (zh) | 智能語音助理之模組化系統及其運作方法 | |
CN1629933A (zh) | 用于双语连接语音合成的声单元 | |
CN113807642A (zh) | 基于程控电话的电力调度智能交互方法 | |
CN111324702A (zh) | 人机对话方法及模拟人声进行人机对话的耳麦 | |
KR20050066805A (ko) | 음절 음성인식기의 음성인식결과 전달 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |