CN1273661A - 用于开发交互式语音应用程序的系统和方法 - Google Patents

用于开发交互式语音应用程序的系统和方法 Download PDF

Info

Publication number
CN1273661A
CN1273661A CN98806914A CN98806914A CN1273661A CN 1273661 A CN1273661 A CN 1273661A CN 98806914 A CN98806914 A CN 98806914A CN 98806914 A CN98806914 A CN 98806914A CN 1273661 A CN1273661 A CN 1273661A
Authority
CN
China
Prior art keywords
session module
response
caller
interactive
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN98806914A
Other languages
English (en)
Other versions
CN1163869C (zh
Inventor
马休T·马克思
杰瑞K·卡特
迈克尔S·菲利普斯
马克A·霍尔特豪斯
斯蒂芬D·西伯里
乔斯L·埃利桑多-切切纳斯
布雷特D·法纳夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VOICE ENGINEERING INTERNATIONAL CORP
Original Assignee
VOICE ENGINEERING INTERNATIONAL CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VOICE ENGINEERING INTERNATIONAL CORP filed Critical VOICE ENGINEERING INTERNATIONAL CORP
Publication of CN1273661A publication Critical patent/CN1273661A/zh
Application granted granted Critical
Publication of CN1163869C publication Critical patent/CN1163869C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/527Centralised call answering arrangements not requiring operator intervention
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/42Graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种用于在语音处理系统中保存多个对话模块的系统和方法,其中各个对话模块都含有计算机可读的指令,这些指令用于在交互式语音应用程序中完成预定的交互对话任务。作为对用户输入的响应(图7,51),一个由多个对话模块(图7,710,720,730)组成的子集被选中以在该交互式语音应用程序中完成它们各自的交互对话任务,而且这些对话模块被相互连接起来以用于定义应用程序的通话流程(图1,110—180)。本发明还公开了一种图形用户界面,它将已保存的多个对话模块用图标的形式显示在一图形显示器中(图7),在此图形显示器中,响应用户的输入而选中图标,各对话模块子集的图标与交互式语音应用程序的通话流程的图形显示相互关联,并且根据此图形显示而产生交互式语音应用程序。

Description

用于开发交互式语音应用程序的系统和方法
本专利申请要求美国临时专利申请系列NO.60/045,741的优先权(申请日为1997年5月6日),在此结合作为参考。
本发明一般涉及一种用于开发由计算机执行的交互式语音应用程序的系统和方法。
基于计算机的交互式语音应用程序被设计用于提供自动交互通信,它一般用来在电话系统中应答接入的电话。这种应用程序可被设计成能够执行各种复杂的任务,例如,收集呼叫者的信息、为呼叫者提供信息、以及在电话系统内为呼叫者连接适当的对象。但是,用以前的手段来开发这些程序却十分困难。
图1显示了一个通话流程,它对由公司A用来指引一个打入电话的交互式语音应用程序100进行了说明。应用程序100由电话系统中的语音处理单元或PBX来执行。此通话流程在系统接收到一个打入电话时被激活,并且以输出一句问候“欢迎来到公司A”(110)作为开始。
然后该程序会给呼叫者列出各个有效选项(120)。本例中,程序通过播放一段事先录制好的提示音或者利用语音发生器(如文本—语音转换器)向呼叫者输出一个可听到的语音信号,例如“如果您知道受话者的名字,请先说名再说姓。如果您想与接线员讲话,请说‘接线员’”。
然后程序将等待呼叫者的响应(130),并在接收到响应后对其进行处理(140)。如果呼叫者说,例如,“Mike Smith”,则程序必须能够识别出呼叫者所说的话并确定是否有Mike Smith,以便将电话转接给他。功能强大的系统应该能够识别出名字的一般变化和变更。例如,图1所示的程序可以鉴别出公司A雇员列表中各个雇员的全名—如,“Michael Smith”。但是,该应用程序还应知道将打电话找“MikeSmith”(假设雇员列表中只有一个雇员的名字与之相符)的人连接到列表中名为“Michael Smith”的雇员。
假设程序找到了这样一个人,则它将输出一个确认提示“您是说‘Michael Smith’?”(150)。然后程序将再次等待呼叫者的响应(160),并且在当接收到响应时(170),执行适当的操作(180)。本例中,如果呼叫者的应答为“是”,则程序可以在执行适当步骤以转接电话之前说“谢谢,请稍候以为您转接Michael Smith”。
图2显示了一些步骤,它们被执行以用于图1所示交互式程序的各个交互步骤。具体来说,将图2的过程应用于图1所示应用程序的第一个交互步骤,则该交互式语音应用程序将输出图1中步骤120的提示(210)。然后程序将等待呼叫者的响应(220,130)。该步骤应不仅能够完成对接收到的响应的处理,如图1中的例子所示(140),还应能对没有响应作出处理。例如,若在一预定时间内没有接收到响应,则程序将执行“超时(”(230)并以一适当的提示来重新提示呼叫者(步骤215),如“很抱歉,我没有听到您的响应。请重复您的回答”,然后程序将返回以等待呼叫者的响应(220,130)。
当应用程序检测到呼叫者的响应时(240),图1中的步骤140将尝试对呼叫者的语音进行识别(一般需要记录下呼叫者的语音波形)、确定该语音波形的语音特征、并将该语音特征与已知词汇表数据库中的内容进行比较。如果程序不能确定可能符合的假设(250),则它将重新提示呼叫者(215)并返回以等待呼叫者的响应(220)。一般来说,重新提示的内容在程序通话流程的不同点上是不一样的。例如,与在超时间隔期间未接收到响应而作出的重新提示相反,当已接收到呼叫者的响应但其并不与已知响应相符时,所产生的重新提示可以为“很抱歉,我不明白您的响应。请重复受话者的姓名,或者说‘接线员’”。
如果程序对呼叫者所说的话提供出一个或多个假设(260,270),则它将为各个假设确定一个可信度参数,该参数反映了假设的正确性。图2显示的解释步骤(280)可被用于低可信度和高可信度的假设。例如,如果可信度等级落在被确定为“高”的范围之内(步骤260),则可用程序直接执行适当的操作(290,180)而无需经过确认过程(150,160,170)。另外,也可以用一应用程序来为低和高可信度的假设执行确认过程。例如,图1的程序可以为呼叫者辨别出最佳假设并询问其是否正确。
如果应用程序将该假设解释为不正确(例如,若呼叫者对步骤150的确认提示作出“否”的响应),则应用程序将拒绝此假设并重新提示呼叫者以重复他或她的响应(步骤215)。如果程序将此假设解释为正确(例如,若呼叫者对检验提示的响应为肯定),则程序将接受该假设并采取适当的操作(290),如图1的例子所示,此操作将输出180的提示并为呼叫者转接Michael Smith。
如通过图1和图2的应用程序100所举例说明的那样,交互式语音应用程序是很复杂的。因而要利用以前的应用程序开发工具来实现这样一种交互式语音应用程序(如图1和图2所示的程序),就需要开发者设计程序的整个通话流程,包括对待由程序识别的各种词汇进行定义以响应程序的各种提示在内。在一些情况下,词汇的填充需要使用一些其它的应用程序,如数据库应用程序。因此,利用以前的解决手段,开发者需要耗费大量的时间,而且还要很复杂地来保证交互式语音应用程序与任何外部应用程序及其访问的数据之间的兼容性。
另外,开发者必须将通话流程设计成能够解释程序中同一提示所得到的不同类型的响应。以前的解决手段通常需要开发者定义一个待被识别的语言的语言模块,它一般包括用于对语言进行普通定义的语法规则,以及对待与呼叫者进行交谈的预期通话流程进行更为具体定义的语法规则。而这种定义工作是非常冗长乏味的。
由于在语音理解中会出现不可避免的含义模糊和错误,所以程序开发者还需提供错误恢复功能(包括错误控制功能和错误防止功能)以便于对语音模糊及错误进行适当的控制,从而不使呼叫者受挫。这就需要开发者不仅应尽量提供一个可靠的语音识别系统,还应设计出多个备选方法以从呼叫者处提取并处理所需的信息。这些备选方法可包括:设计帮助提示以表达特定情况,以及让呼叫者使用不同的方法来响应,如:允许呼叫者拼出他们的响应或允许他们利用按钮式电话的键盘来输入响应。在以前的解决手段中,程序开发者需人工准备错误控制、错误防止、以及它们所用的任何替代方法。这需要耗费大量的时间,并且有可能导致功能或重要步骤被忽略。
根据以上所述,很明显,在本领域中需要有一种能够解决上述缺陷的交互式语音开发系统和方法。
概括起来,从一个方面来说,本发明的特征在于,它通过在一语音处理系统中保存多个对话模块,从而提供了一种构成交互式语音应用程序的计算机应用方法,其各个对话模块都含有计算机可读的指令,这些指令用于在交互式语音应用程序中完成预定的交互对话任务。作为对用户输入的响应,一个由多个对话模块组成的子集被选中以在该交互式语音应用程序中完成它们各自的交互对话任务,而且这些对话模块被相互连接起来以用于定义应用程序的通话流程,这样,应用程序就被生成。
本发明的具体应用可以含有以下一个或多个功能。本发明所提供的这种方法还可包括在交互式语音应用程序执行时,将特定对话模块与用于改变此对话模块操作的配置参数相互关联。这些配置参数可响应用户输入而被进行设置。
与对话模块相关的交互对话任务包括向呼叫者输出一个提示并从呼叫者处接收响应。配置参数的例子包括:用于在提示被输出后为呼叫者定义响应时间段的超时参数;用于定义一待输出提示的提示参数;用于在不能识别呼叫者的响应时定义一待输出的致歉提示的致歉提示参数;以及用于识别词汇的参数,这些词汇定义了可识别的用户响应。该方法还包括响应用户输入而对词汇进行编辑的功能。
与对话模块相关的交互对话任务含有:用于向呼叫者输出一个提示的指令;用于从呼叫者处接收响应的指令;以及用于和语音识别引擎(它利用识别模型来识别接收到的响应)进行交流的指令。交互对话任务还可含有用于在交互式语音应用程序执行期间根据识别到的响应对由语音识别引擎使用的识别模型进行更新的指令。
本发明所提供的方法还包括在一图形显示器中用图标来对已保存的多个对话模块进行图形化显示的功能。在此方法中,含有多个对话模块子集的图标会响应用户输入而被选中,各对话模块子集的图标与交互式语音应用程序的通话流程的图形表示相互关联,交互式语音应用程序就根据此图形表示而被生成。利用图形显示器,该方法还包括将配置参数与特定对话模块相互关联的功能。各配置参数可在当此交互式语音应用程序执行时改变相应对话模块的操作。当一个具有相关配置参数的对话模块的图标被选中时,将有一个窗口被显示出来以用于响应用户输入对该配置参数的数值进行设置。
从另一个方面来说,本发明的特征在于,它提供了一种保存有计算机可读指令的存储装置,这些指令用于在一个采用上述方法的语音处理系统中构成一个交互式语音应用程序。
本发明具有如下的一个或多个优点。它提供了多个预装软件模块,每个模块都代表了一个分立的对话任务以用在交互式语音应用程序之中。因为这些“对话模块”中的每一个模块都执行一个分立的任务,所以它们具有很强的独立性,这就使应用程序开发者在制作一个客户程序时,只需简单地按所需的应用程序通话流程的顺序将这些对话模块组合起来,从而给开发者以很大的灵活性。另外,由于它们都有具体的任务,所以通过对语义、语言和声音模型进行调整,就可优化这些对话模块以提供最高的识别精度和任务完成率。
通过在预装模块中提供对话模块(Dialogue Module)模板,本发明可被用于生成各种具有内部固定软件代码的应用程序,这在具有复杂通话流程的较大程序中尤为重要。
对话模块模板具有可定制的参数,它们为开发者在制作程序时提供了高度的灵活性。例如,尽管对话模块可被用于向呼叫者提供预先录制好的“缺省”提示,开发者也可为特定的应用程序定制提示。其它的可定制功能包括:是否打开如“闯入”功能以便在程序提示运行时对呼叫者的语音进行识别;选择适当的错误控制方法和提示;以及修改或生成一个可识别词汇的数据库。
即使开发者没有受过正规的语音训练,本发明也能使开发者制作出各种交互式语音应用程序以与呼叫者进行自动交谈。
图1是一种交互式语音应用程序的通话流程图。
图2是交互式语音应用程序中一个交互步骤的流程图。
图3是一种可应用交互式语音应用程序的计算机系统的框图。
图4是一种适用于开发交互式语音应用程序的系统的逻辑框图。
图5的流程图显示了一种含有对话模块实例的交互式语音应用程序。
图6是一个对话模块所执行步骤的流程图。
图7显示了一种用于生成和编辑交互式语音应用程序的图形用户界面(GUI)。
图8是一种使用对话模块的交互式语音应用程序的逻辑表示。
图9-16显示了多个用于生成和编辑交互式语音应用程序的图形用户界面(GUI)。
在对一种用于开发交互式语音应用程序的方法和系统所作的以下说明中,为了达到说明性的目的,本文提出了多个具体细节以使本发明得到透彻的理解。但是,很明显,对于熟练人员来说,本发明可在没有这些具体细节的情况下得以实现。在其它的实例中,为了避免对本发明的理解产生不必要的障碍,一些已知的结构和设备被以框图的形式表示出来。I·一种用于开发交互式语音应用程序的系统的概述
本发明涉及到利用计算机系统来开发交互式语音应用程序。图3的框图显示出了这样一种应用有本发明一个实施例的计算机系统300。该计算机系统300含有一条用于进行信息通信的总线302或其它通信机构,以及一个与总线302相连用于处理信息的处理器304。计算机系统300还含有一个主存储器306,如随机存取存储器(RAM)或其它动态存储器,它与总线302相连,用于保存信息和保存待由处理器304执行的指令。主存储器306还可在处理器304执行指令期间用于保存临时变量或其它中间信息。计算机系统300还含有一个只读存储器(ROM)308或其它静态存储器,它与总线302相连,用于保存静态信息和处理器304的指令。与总线302相连的还有一个用于保存信息和指令的存储装置,如磁盘或光碟。
计算机系统300还含有输出设备,如显示器312,它与总线302相连,用于向计算机用户显示信息。用于和处理器304进行信息和命令选择通信且与总线302相连的输入设备可包括:键盘314、麦克风316以及光标控制设备318(如鼠标、轨迹球或光标方向键),光标控制设备318用于与处理器304进行方向信息及命令选择通信,并用于控制光标在显示器312上的移动。
计算机系统300还含有一个与总线302相连的通信接口320,它用于为外部计算机系统或网络提供连接。例如,如图3所示,通信接口320可为与局域网324相连的网络连接322提供双向通信连接。例如,通信接口320可以是一块综合业务数字网(ISDN)卡或是一个调制解调器,以便为相应类型的电话网线324提供数据通信连接322。作为其它的例子,通信接口320可以是一个用于在电话网络线324上提供语音和数据通信连接322的电话接口/语音卡,或者也可是一个局域网(LAN)卡以用于为兼容LAN 324提供数据通信连接。也可实施无线连接。在任何一个这样的实施中,通信接口320都能发送和接收电气、电磁或光信号,这些信号载有代表各类信息的数字数据流。
网络连接一般通过一个或多个网络来为其它数据设备提供数据通信。例如,网络链路322可以通过局域网324为计算机主机326或由互联网服务提供商(ISP)328操作的数据设备提供连接。ISP 328会顺序通过全球广域分组数据通信网络(现在一般被称为“互联网”)330以提供数据通信服务。
使用于语音系统的计算机系统各单元的其它细节在G.pelton的“语音处理”(纽约:McGraw-Hill,1993),ISBN 0-07-049309-X,第8章(“软件开发”)中有详细的说明。
根据本发明的一个实施例所述,它利用在普通用途的计算机系统(如计算机系统300)中运行的软件来开发并执行一种交互式语音应用程序。在其它的实施例中,可以通过使用专用硬件来代替软件或者将硬件与软件结合在一起以实现本发明。因此,本发明的各实施例并不局限于任何硬件电路与软件的特定组合。
图4的功能框图显示出了一种用于开发交互式语音应用程序的系统400。在此系统中,“服务”410是一个定制的交互式语音应用程序,它被开发用于执行一个或多个对话任务以提供用户定制服务。这种服务的一个例子就是参考上述图1和图2用于接收并为打入公司A的通话选定线路的程序。
应用程序开发者生成的服务410在一个实时服务执行环境420中定义了一个通话流程,此服务执行环境420可以是向开发者提供的缺省环境或是为特定服务410而专门生成或修改的定制环境。本实施例中,服务执行环境420提供了用于执行服务410的“main()”函数,而服务410被配置成为一个动态连接库(d1l)。
服务410的通话流程说明了它与呼叫者的交谈过程,它使用了对话模块430中的一个或多个软件对话模块的“实例(instance)”功能。系统400含有多个对话模块,其每个模块都被设计用于执行一个具体的对话任务,如:输出一个提示、识别呼叫者的语音以作为预定列表中的一个识别项、识别呼叫者的语音以作为肯定或否定(是/否)响应、或者识别呼叫者拼出的字符串。在此处说明的实施例中,对话模块模板是一种编程语言(如C++)中的函数、方法、对象或子程序,当然也可以采用各种不同的编程语言。
开发者利用对话模块来完成它们在服务410中的各自对话任务。各对话模块可以使用缺省配置参数或者也可使用为特定服务定制的参数。对话模块实例的参数可以被定制为,例如,输出定制提示、响应提示而识别定制的词汇、打开或关闭特殊功能、以及设定各种附加参数。
对话模块430在服务410和语音单元440,450之间提供了一个接口,该接口执行使系统400能够对输出和输入音频信号进行控制的功能。通过提供该接口,对话模块430允许开发者在不用详细了解语音单元440,450的情况下就可以开发出一个服务410,而语音单元440,450的功能包括向呼叫者输出提示以及接收并处理呼叫者的输入语音。系统400中可含有任意数量的语音单元440,450。
在图4所示的实施例中,语音输出单元440通过电话接口单元460输出语音提示(或者其它的音频信号)。在一些情况下,语音输出单元440可以通过简单地执行一特定音频文件以输出预先录制好的语音。另外,语音输出单元440可以含有一个语音合成系统,如DECtalkTM,它是数字设备公司(Digital Equipment Corporation)用于将文本转换为语音的一种文本—语音合成器。市场上的语音合成器通常都含有一个发音字典以及一个语音发生器,它们用于解释输入的文本串、确定其发音、以及产生并输出语音波形。另外,语音输出单元440可以含有用于在提示播放结束时输出一个音频信号(如“嘀”声)的软件,其目的是告诉呼叫者可以开始说话。语音输出单元440还可含有用于在当呼叫者的语音被判别为需要提供“闯入(barge-in)”检测和处理时停止输出提示的软件。关于闯入检测和控制的细节在(例如)美国专利申请系列No.08/651,889、题为“与语音识别系统有关的用于简化闯入的方法及装置”一文中已有说明,该申请已转让给本发明的受让人。
语音输入单元450可在服务执行期间,对通过电话接口单元460接收到的接入语音信号进行接收、记录和处理。语音输入单元450通常含有一个语音识别引擎,如在Speech WorksTM中所提供的语音识别引擎(Speech Recognition Engine),它由马萨诸塞州波士顿的应用语言技术公司提供,用于对语音输入进行记录、数字化及处理。该语音识别引擎可以利用附加的单元来产生对从呼叫者接收到的接入语音信号的文字表示,这些附加单元如:用于确定一输入口语单词语音特征的声音模型,用于确定可能匹配假设的可信度的可信度关联单元。该引擎含有自然语言模型信息,如:待识别语音的语言语法规则。
电话接口单元460包括多个组成单元,如:电话卡,用于在电话线上进行通信时提供电话接口/语言板;通话频道,用于在电话线上控制多路通话;音频播放器/录音器,用于向呼叫者输出提示并记录呼叫者打入的语音;以及其它需要用来向呼叫者输出语音信号和接收语音信号的单元,还有用来控制上述各单元的软件库。
服务410(包括各对话模块实例及其下属的语音单元440,450和电话接口单元460在内)是在实时服务执行环境420内进行操作的。如上所述,在本实施例中,服务410被配置成一个动态链接库(d11),它被提供“main()”函数的服务执行环境420调用并执行。该库中还有附加的软件代码,其作用是控制对话模块实例及其它全局通用函数的调用。
服务执行环境420一般会调用服务410三次:服务初始化,服务执行(处理来话呼叫),以及服务清除(在通话处理之后)。服务执行环境420各种函数的实例可以被设置成用于处理以下内容,包括:
·初始化电话接口;
·初始化通往语音单元440,450和对话模块430的接口;
·在需要时,调用为用户提供的服务初始化程序;
·等待电话打入;
·确定电话信道;
·调用为用户提供的服务执行程序;
·确保断开已经完成的通话;以及
·调用清除程序,包括:清除为用户提供的服务的程序、对话模块清除程序、以及硬件/电话资源清除程序。II·对话模块
交互式语音应用程序通常都含有一系列的分立对话任务一它们要求呼叫者提供特定类型的信息并处理呼叫者的响应。对话模块是一些预先定义的软件单元,它们用于在应用程序内执行这些对话任务。各对话模块都能完成一个分立的任务并保存其结果,包括一个用于说明其终止条件的数值在内。例如,终止条件可以包括:SUCCESS,它说明对话任务已成功完成;TIMEOUT,它说明呼叫者未在预定的时间周期内作出响应;或ERROR,它说明系统不能识别呼叫者的响应。
如参考图4所作的上述说明,对话模块430在服务410和语音单元440,450之间提供了一个接口,它允许开发者在不用详细了解语音技术的情况下进行各种程序的开发。服务410含有对对话模块430的一系列调用,其目的是产生所需的通话流程并为特定的服务410定制特定用途。对话模块430则依次通过语音单元440,450和电话接口单元460来处理与呼叫者的通信。
此处所指的对话模块“模板(templates)”是一些预先定义好的软件模块,它们是交互式语音应用程序的组成部分,而对话模块“实例”则是模板在特定服务中使用时的版本。对话模块实例可以与它所基于的模板相同,或者也可专门为特定服务定制。实例被标以唯一的标志,在一个服务中允许使用多个对话模块模板的实例。
图5的流程框图是一种应用系统400的服务410的实例,系统400是象如图4所示并且具有参考图1和图2所述通话流程的系统。服务410以调用一个项目列表对话模块(ItemList Dialogue Module)实例520来作为开始510,其任务是辨别出呼叫者想要接通的对象。项目列表模块520以播放一段提示对象521作为开始,本实例中,项目列表模块520利用语音输出单元440和电话接口单元460输出一段语音信号以作为由图1中功能块110和120所示的定制提示,并且还接收呼叫者的语音响应。
项目列表模块520访问一个定制的已知词汇表,该词汇表具有可以辨认出由服务410所识别的人的项目。在图1的实例中,已知词汇表与公司A的各个雇员以及接线员和/或各部门的名称(如:销售部,客户服务部,等等)相对应。这个定制的词汇表一般被程序开发者用来识别一个雇员,它不仅能识别雇员的全名,还能识别出该雇员可能被识别的其它名称,如:只有姓、只有名、或只有一个昵称,也许与姓混合在一起使用。例如,如果一个雇员的姓名是Michael A.Smith,则数据库应不仅能识别“Michael Smith”,还应能识别出呼叫者喜欢用来辨认该雇员的其它名称,如“Mike Smith”,“Michael”,“Mike”以及“Smith”。可以利用如以下将要说明的词汇表编辑程序或其它适当的数据管理应用程序来生成这样一种词汇表。
在由块523所代表的确认步骤中,项目列表模块520根据由语音输入单元450确定的可信度等级而辨别出一个或多个词汇表项目以作为对呼叫者想找的人的假设。在该实施例中,如果具有最高可信度等级的假设,其可信度等级超过了一预定门限值,则项目列表模块520将认为该假设是对呼叫者响应的正确匹配。如果不存在这样的假设,则项目列表模块520将把可信度等级落在一预定范围之内的假设确定表示为可能的匹配。项目列表模块520为这些假设依次输出提示,直到其中一个假设被确认或者假设列表用完为止。更具体地说,确认步骤523接收并处理呼叫者的响应以确定该响应是肯定还是否定。
要对呼叫者的响应进行处理,就要求项目列表模块能够理解并辨别各种作为肯定或否定的响应,不仅应包括“是”和“否”,还应包括它们的同义词,如“正确”,“错误”,“对”,“错”,等等。因此,项目列表模块520还需使用一个已知词汇表以用于确认步骤,该表含有多个项目以用于对确认步骤的已识别响应,包括用于指示确认响应是肯定还是否定的各项信息。
与项目列表模块520用来辨别公司A雇员的高度专用识别词汇表不同,确认步骤523所用的识别词汇表可以在各种服务中通用。因此,确认步骤523可以利用一个预定缺省词汇表(它含有作为标准响应的项目)来实现。但是,如下所述,在需要时,程序开发者可以定制缺省数据库或对其进行更换以供特定服务使用。例如,在说西班牙语的地理区域内,可以给相应于肯定响应的数据库项目增加西班牙语词汇表。
如果项目列表模块520确定出确认步骤523已确认一个假设,则它将保存该假设以及其终止条件(SUCCESS)并返回至服务的主函数,以将通话转接给被识别出来的人530。如果项目列表模块520确定出确认步骤523未能确认一个假设或者在超时(TIMEOUT)或错误(ERROR)情况下终止,则项目列表模块520将试图重新完成其任务(重复从块521开始、输出提示并接收和处理响应的循环过程)。另外,项目列表模块520可以在ERROR条件540下终止并采取适当的终止操作。在本实例中,类似的操作可以是将呼叫者转接给当值的接线员。
尽管未在图1中示出,对话模块还可包括备选的各种后退(fallback)方法,它们用于在不能识别或不能确定呼叫者的响应时执行对话任务。这些方法的例子如:要求呼叫者拼出他或她的响应,或者要求呼叫者利用按钮式电话的键盘来输入响应。在由图5所示的服务410中,项目列表对话模块实例520为呼叫者提供了一种拼音后退方法。
在服务410执行期间,当在理解用户时出现一预定次数(可以为缺省值,也可以是由开发者定制的值)的失败尝试时,项目列表520将根据从呼叫者处接收到的拼音,采用拼音后退法522以确定词汇表中的一项。本例中,拼音后退法522使用了与项目列表模块520所使用的相同识别词汇表,并提示呼叫者先名后姓地拼出他或她想找的人的全名。拼音后退法522在接收呼叫者的拼音的同时,搜索识别词汇表并逐字符地进行转换。
拼音后退法522被用于引入一种“先行(look-ahead)”功能,该功能在(例如)美国专利申请系列号No.08/720,554、名为“用先行辨认来连续拼写语音识别的方法及装置”一文中已有说明,而且该申请也已转让给本发明的受让人。利用这种先行功能,拼音后退法522将在辨别出呼叫者所说的字符唯一符合词汇表中的一项时成功地终止,即使呼叫者尚未说完整个单词或句子。如果拼音后退法522顺利地辨别出至少一项,则它将保存结果并如上所述地继续执行确认步骤523。
如果拼音后退法522不能辨别出符合条件的人,则它将适当地保存一个TIMEOUT或ERROR终止条件,并且执行退出步骤540。出错时所采取的操作可以为不同的服务而定制。如上所述,在图1和图2所示的例子中,类似的终止操作可以是将呼叫者转接给当值接线员。A·对话模块的一般功能
对话模块以及它们所执行的具体任务具有多变的复杂性和灵活性,其范围从简单的单步模块一直到复杂的多步骤模块。单步模块的一个例子如:是/否模块,它用于输出提示并确定用户的响应是肯定还是否定。与单步模块相比,多步骤模块的一个例子如:要求呼叫者提供地址的模块,该模块能够将呼叫者的语音转换成文本,并且还能将特定的口语单词或句子与信息的特定区段(如:街道名称、城市,州和邮编)相关联。
在各对话模块模板控制不同对话任务的同时,这些模板一般都含有用来适当地结束其对话任务或者退出的通用功能。图6的框图就显示出了一些这样的功能,包括:进行提示、收集呼叫者的响应、有选择地确认呼叫者的响应、提供后退法以用于正确识别呼叫者的响应、以及在需要时辨别清楚呼叫者所作响应的含义。
1·初始提示
大部分对话模块都执行一个涉及要求提供并处理呼叫者信息的交互对话任务,因此它们都含有一个如块610所示的初始提示,该提示用来要求呼叫者说出所需的信息。例如,对参考图1、图2和图5所述的服务来说,项目列表模块530使用的一个初始提示是要求呼叫者说出受话者的姓名。
2·收集响应
如块620所示的收集步骤是一个交互任务的下半段—即,接收呼叫者的响应。对话模块通过录下呼叫者语音的波形来收集响应。为了防止使呼叫者长时间地等待,该步骤一般都含有一个“超时”参数,该参数用于在提示输出完成后为呼叫者设定一个进行响应的预定时间段。因此,有两种可能的结果:识别一个已接收到的响应,或者在超时周期内未识别出任何响应,这两种结果分别由控制路径620b和620a代表。
在收集步骤中提供有可定制的功能。例如,如下所述,超时周期可被设定为具有不同的时间长度。另外,可以激活提示完成后发出“嘀”声的功能,它用于在完成提示输出之后超时周期开始时输出一个“嘀”声(或任何其它各类声音)以提示呼叫者开始说话。类似地,也可以打开一个声音功能,它用于在呼叫者说完应答之后输出一个声音(如:滤波噪声),用以使呼叫者知道系统正在对响应进行处理。还可打开另一个功能,即“闯入”控制功能,该功能允许收集步骤对在执行的提示被全部输出之前所接收到的呼叫者的响应进行检测和收集,而且可以通过对如闯入门限这样的参数进行设定,以确定何时使用闯入功能。如下所述,这些参数中的每一个都可被设定为缺省值,或者也可由程序开发者定制。
3·确认响应
如果在超时周期内接收到响应,则对话模块将试图确认呼叫者的响应是否已得到正确的识别,如块630所示。本实施例中,确认步骤630涉及到试图为利用语音输入单元450记录的语音波形在专用识别词汇表中找出一个匹配项。如上所述,本实施例中,输入语音单元450含有一个语音识别引擎,它能为一个匹配确定一个或多个假设,并能根据各种模型(如语义、语言和声音模型)而为各个假设产生一个可反映其可信度等级的分数。在一个实施例中,确认步骤630为各个假设依次输出确认提示、要求呼叫者确认一给定假设是否正确,直到有一个假设被确认或所有假设全部被否决为止。
专用识别词汇表可以是一个缺省词汇表,或者也可为特定服务而定制。例如,一个对话模块模板(如:是/否模块)可以提示呼叫者作出在不同服务中所使用的相同响应。这样的模板一般都使用一个标准的缺省词汇表,但由这些模板的实例所使用的词汇表可由开发者自行定制或修改。其它一些模块(如:项目列表模块)一般都需要使用专为特定服务生成的定制词汇表。如以下较为详细的说明那样,开发者可以在开发一个服务期间,利用编辑工具来制作并生成一个定制词汇表。另外,在服务执行期间,可通过一个实时程序编程接口来对一现有词汇表进行动态更新,该接口所使用的技术在同时待审的美国专利申请系列No.08/943,557中得到了说明。该专利申请的名称为“用于动态适配一个大型词汇表语音识别系统以及用于在一个大型词汇表语音识别系统中对数据库进行限制使用的方法及装置”,它也已经转让给本申请的受让人。
确认步骤630利用各种因素来确定是否有词汇表项应被认为是可以精确代表呼叫者响应的假设。这些因素包括:由语音输入单元450的语音识别引擎所产生的可信度等级,代表需考虑假设的最大数目“n”值(n个最佳假设),以及先前的识别信息。
更具体地说,确认步骤630将为作为一个对呼叫者响应的识别假设的各个词汇表项确定一个可信度等级分数。象图2中所建议的那样,可对通过预定门限等级进行设定以将可信度等级的分数归类为:高可信度、低可信度或无可信度等级。这些门限等级可以修改,而且它们决定了识别引擎应将哪个词汇表项作为假设。
确认步骤630所需考虑的另一个因素就是“n”值,它可被设定成缺省值或定制值。识别引擎就利用该值来限制它对n个最佳假设的考虑。
对话模块还为一给定交互任务保留有与先前识别尝试有关的信息,用以配合后面的识别尝试来有选择性地选出先前被拒绝的假设,以及有选择性地考虑重复的低可信度假设。
更具体地说,在由块610、620、630和640所构成的循环圈的第一次循环中,如果确认步骤630考虑的n个假设全部被呼叫者认为不对而加以否决,那么在下一次循环中,无论识别引擎给这些假设所确定的可信度等级是什么,确认步骤630都将不再考虑这些假设中的任何一个。相反,在该循环圈的第一次循环中,如果步骤630因为识别引擎将一个假设的可信度等级确定为落在低可信度间隔(不足以高到被认为是高可信度,也不足以低到被认为是“无可信度”而被丢弃)内而不考虑该假设,那么在下一次循环中,该假设将被再次进行辨别,确认步骤630会再次考虑该假设。
对话模块实例中可定制的功能包括:关闭确认(在一些情况下,开发者可以选择认为最佳假设总为正确),仅在特定环境下激活确认(如:当给定假设的可信度等级低于预定门限时),以及总是激活确认。确认步骤输出的提示也可定制。例如,如果对话模块实例被定制成:为呼叫者的响应确定两个最佳假设,则确认步骤可以通过调用一个是/否模块来确定该最佳假设是否正确,或者也可调用一个如下所述的菜单对话模块,它能列出这两个假设并请呼叫者选择其中的一个假设。
确认步骤630可以定制的其它特征包括:待使用的识别词汇表以及一个否决门限,该门限用于为一要被认为是n个最佳假设之一的词汇表项设定一个最小可信度等级。当然,仍如下所述,这些功能都可由缺省参数提供,或者也可由开发者定制。
4·辨清已确认响应的含义
如果有多个已确认的响应与词汇表项正确匹配,则如块660所示的辨义步骤将用于辨别清楚呼叫者响应的含义。例如,在图1所示的服务中,如果公司A的项目列表词汇表中有两项名为“Mike”的雇员,则确认步骤630可在当呼叫者向公司A打电话时确定出他要找“Mike”通话,但它却不能确定呼叫者要找其中的哪一个。因此,对话模块还含有一个可定制的辨义步骤660。本实施例中,该步骤输出一个定制的提示以列出可能的项目,并要求呼叫者从其中选出一个。
5·错误恢复
对话模块模板包括多种错误恢复方法,它们由开发者定制以用于各种服务中的特定实例。例如,如块640和650所代表的错误恢复步骤能在一对话模块实例成功完成一对话任务之后被执行。例如,如图6所示,当服务在超时周期内不能收集到用户的响应(如路径620a所示)、或者当服务不能确认任何与用户响应相匹配的假设(如路径630a所示)时,错误恢复步骤640,650就会被执行。
如下面所述,错误恢复过程可为服务中对话模块的特定实例而定制。例如,在块640上,对话模块将确定是利用与610相同的方法(如路径640a所示)还是利用后退方法(如路径640b至块650所示)来重新收集响应。可以定制的错误恢复参数包括:用于沿路径640a进行重试的提示610的内容,以及重试次数的门限,它用于确定何时沿路径640a重试以及何时沿路径640b使用后退方法。例如,重试次数可以包括跟随某一提示(沿路径620a)而连续超时的最大次数,在对用户对一特定提示的响应进行理解(沿路径630a)时出现连续错误的最大次数,以及对话模块实例将要重试的次数的综合最大次数。
在块640的重试步骤中,如果对话模块确定出尚未达到重试次数的门限,它将沿路径640a在块610上向呼叫者输出另一个提示。重试期间的一般再提示包括两个子类:致歉和再提示。致歉提示会对未完成任务而发出致歉,它随环境的变化而不同。例如,超时之后的致歉提示可以为“很抱歉,我没有听到您的响应”,而出现识别错误之后的致歉提示则为“很抱歉,我不明白您的意思”。类似地,跟随在致歉提示之后的再提示也可以不同。超时致歉提示之后的再提示可以说:“现在请您回答”,而识别错误致歉提示之后的再提示则可说:“现在请您重复您的回答”。根据先前失败的次数和类型,还可有其它的一些变化。例如,在第二次连续超时之后,致歉提示可以是“很抱歉,我仍未听到您的响应”,其后跟随着同样的再提示“现在请您回答”。
如果对话模块确定出已经达到重试次数的门限,则它将沿路径640b利用块650的后退方法来尝试得出一个可识别的用户响应。后退方法的例子包括:要求呼叫者拼出他或她的响应,或者要求呼叫者利用按钮式电话来输入DTMF音。例如,如图5所示,可将对话模块实例定制为:在达到识别错误的门限次数之后,退出拼音模块550。
6·终止
对话模块实例或者在块670成功终止或者在块680失败终止并且保存了终止的条件。例如,终止条件可包括:SUCCESS(成功完成对话任务),TIMEOUT(超出超时周期的门限次数),已及ERROR(试图识别呼叫者的响应时失败)。
本实施例中,对话模块记录下对话模块实例在终止时的执行情况信息,包括各个步骤的执行情况在内,这些步骤如:收集、确认、辨义、开始并完成提示、以及开始并完成对呼叫者所作响应的识别。被记录的信息可含有额外的信息,如:呼叫者所作响应的录音波形、时间标记、以及“n个最佳”识别假设及其可信度等级分数。
对识别结果进行记录以及保存波形,就可以在以后对服务的执行情况进行分析,以供故障寻找、升级和调谐用。另外,对话模块实例可利用这些信息通过对由语音单元440,450使用的语义、语言和声音模型进行动态调节以提高成功率。这些调节可以在不同的层次上进行。例如,可以在一个总体的层次上对对话模块实例进行调节,此总体层次能够影响对话模块实例在使用语音系统的所有服务中的执行情况。也可以类似地在呼叫者的层次上进行调节,该层次只能影响对话模块实例在服务中与一特定呼叫者进行的交流(由服务执行环境利用如打入的电话号码来进行辨别,或由服务利用一个用于呼叫者的标志如帐号或用户身份来进行辨别)。
对话模块根据已被识别出来的用户响应的含义,利用语义调节来配合由识别引擎使用的识别算法。例如,给自动航班定票服务打电话的人一般都要求提供与一周内的日期或通话日期有关的信息。可以在这种服务中使用用于识别日期的对话模块实例,该实例可先考虑出一个时间间隔(先前通话中已识别出的日期就在此间隔内),然后考虑到以后呼叫者说出的日期很可能落在同一时间间隔内,并对由识别引擎使用的语义进行调整。
利用基于对话模块实例先前所执行的识别结果的信息,就可进行语言调节以配合由识别引擎使用的识别算法。例如,对一个用于识别城市名称的对话模块实例来说,这些信息可以包括:跟踪接入电话的号码,呼叫者对城市名称的发音和根据先前执行的对话模块实例中的那些发音而正确识别出的城市名称,以及识别词汇表中确定单词与其它单词被说出的相对频率。这些信息可以说明,例如,从波士顿区(可由接入的电话号码来辨别)打入电话的人,其类似于“Wuhstuh”的应答声可能是指Worcester城,而从普林斯顿区打入电话的人所作的同样应答则更象是指Wooster城。该信息可被对话模块实例用来配合由识别引擎使用的语言模型。例如,如果先前的识别显示出从波士顿打入电话的人所发出的类似“Wuhstuh”的响应声更象是指“Worcester”而不是“Wooster”,则语言模型可被配合用于统计性地权衡词汇表项“Worcester”和“Wooster”,从而证明当接入的电话号码是波士顿区的电话时,“Worcester”是比“Wooster”更具可能性的假设。
最后,根据从已识别语音及其在经对话模块处理的已接收的用户响应中的对应发音之间的关系,就可以在语音的层次上用声音调节来保持由识别引擎所用的统计声音模型,以将特定的声音与特定的语音关联起来。B·对话模块模板的实例
参考图6所述的各对话模块的实例包括:
1·是/否模块:是/否模块用于输出一个初始提示、收集并确定呼叫者的响应是肯定还是否定,其依据是一个已知的识别词汇表,该表含有各种作为肯定(“是”,“没错”,“正确”,“对”,等等)和否定(“不是”,“不对”,“错”,等等)的响应。该模块能够保存终止条件,并且如果行的话,它会将结果用一个(例如)布尔值(0代表否定,1代表肯定)保存起来。
是/否模块的功能可在其它对话模块中使用。例如,如图5所示,项目列表对话模块可以在执行其确认步骤523时,使用是/否模块的功能。
2·拼音:拼音模块用于输出一个初始提示并收集作为呼叫者响应的一个或多个字母数字字符(包括符号)。在一个实施例中,该模块使用了一个含有待识别项目的特定词汇表,并且对该词汇表进行搜索以便为呼叫者所拼出的各个字符寻找匹配项。如上所述,它利用先行功能来提供对拼出的单词和句子的早期辨别。在一个备选实施例中,该模块可利用一含有多个独立字符的特定词汇表,用以最终辨别出呼叫者所拼出的字符串。当完成工作后,该模块会保存终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。
与是/否模块一样,拼音模块的功能也可在其它对话模块中得到使用。例如,如图5所示,项目列表对话模块可以在执行其后退方法522时,使用拼音模块的功能。
3·格式化代码:可以提供各种模块模板以用于识别具有特定格式的代码,如:电话号码、地址、邮编、日期、时间、货币量、帐号、以及社会保险号。这些模块引入了已知的语法并且使用各种已知的识别词汇表,这些已知词汇表中含有与多个符合所需代码格式的有效响应相对应的项目。在任务完成后,该模块会返回一个终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。
4·菜单:菜单模块能够输出一个初始提示以要求呼叫者在一系列的列表选项中进行选择、收集呼叫者的响应并将该响应与和列表选项相对应的已知识别词汇表中的至少一项进行比较。在任务完成后,该模块会返回一个终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。
5·项目列表:项目列表模块可让开发者把一列单词或项目定义为对呼叫者所作提示的可允许响应。该模块的初始提示通常不限制呼叫者的响应(与菜单模块相同)。例如,图1和图2所示服务中的项目列表模块要求呼叫者说出一个人的姓名,但并不限制呼叫者作出特定的响应。该模块使用一个已知识别词汇表,该词汇表含有与待识别项目相对应的各项。在任务完成后,该模块会返回一个终止条件,并且如果行的话,它会将结果以一种适当的格式(如:数据对象或字符串)保存起来。III·定制服务的生成
再次参考图4,服务410可以多种方式被与对话模块430结合在一起而使用。例如,服务410可以在一个第三代编程语言(如C语言)中被配置成一个“main”函数,在此函数中,对话模块430受到按照通话流程顺序排列的C语言函数的调用。在这种配置中,“main”函数可以是一个独立的程序。另外,如上所述,服务410也可被配置成一个动态链接库(d11),它可在服务410被初始化时与服务执行环境420相连接。在这种配置中,服务410是作为一个函数库而被使用的。服务执行环境420执行服务410中的一个或多个函数,而后者会依次调用对话模块430。A·用户界面
可以提供各种用户界面以允许用不同的方法来生成服务。例如,一种非图形应用编程界面可允许开发者利用传统的编程方法来生成服务。另外,也可使用图形用户界面(GUI)。例如,图7所示的GUI 700,它包括有一个调色模板710,调色模板710含有多个表示状态(如:等待电话和转接电话)720及对话模块模板730的图标,该界面允许开发者通过将适当的图标“拽放”入主工作区740以生成各种对话模块的状态和实例,并进而构成该服务的通话流程。GUI 700还含有多种连接符,它们用于将状态和模板以适当的顺序链接并指定适当的条件。在该图示实施例中,调色模板710沿着GUI窗口700的左边界显示,而各种连接符的类型则存放在下拉式菜单750中。各种服务图标在窗口的主工作区740中显示。
要在服务中插入一个状态或对话模块,开发者可在调色模板710中选取适当的图标并将其放入主工作区,在主工作区740中,图标的下方显示有状态或模板的名称,而图标的上方则显示有实例的名称。一开始,GUI 700会给实例自动分配一个描述性的通用名称,如:实例#1。开发者可以通过选取并编辑文本来修改实例的名称。
菜单条750含有一个“连接符(Connector)”选项,它用于提供各类连接符,以便于根据所需的服务通话流程来连接主工作区740中的图标。例如,在主工作区740中,由一条实线所代表的一个无条件连接符连接了第一和第二个图标,它表示服务总是在第一个图标被完成之后再继续执行第二个图标。而在主工作区740中用一条虚线表示的一个有条件连接符则表示服务只有在条件被满足时才会继续执行第二个图标。B·在服务中定制对话模块
正如参考图4所做的上述说明,各对话模块实例都根据对话模块模板来完成一个分立的对话任务,而且它们可被修改以用于特定服务。服务410与对话模块430(包括模板和实例在内)之间的关系在图8中将有更为详细的说明。
1·对话模块模板
对话模块模板810含有多个配置库,它们定义了对话模块实例850在服务840中使用时的行为。这些配置库包括一个含有缺省配置的“基线(Baseline)”配置库820,缺省配置包括:标准缺省参数,提示文件,识别词汇表,首功能,以及对话模块执行各种对话任务所用的模板。开发者通过提供一个可选的“系统”配置库830并用定制的配置覆盖基线库820中的缺省设置,就可以自行制定基本配置设定。系统库830可以提供多个设置以覆盖缺省设置的一部分或者全部。
2·服务中的对话模块实例
开发者还可以通过在服务840中定制对话模块实例580以定制一个服务。如上所述,在一个服务内调用一特定模块是通过生成一个与对话模块模板相对应的独立“实例”并对具有唯一名称的各个实例进行辨别而得以实现的。这就使得同一模板的对话模块实例能在单个服务中被进行不同的定制。例如,如图8所示,服务840对对话模块#2执行了两次独立的调用,它们分别由对话模块836和826的两个独立实例856A和856B来表示,这两个模板836和826是根据系统库设置830和未被系统库830覆盖的任何基线库设置820而被生成的。
各种对话模块的模板具有共性,如参考图6所作的上述说明。这些基本共性可以定义在多个对话模块中通用的可定制功能,它们包括:输出提示,用于识别功能的参数(如:可以考虑的识别候选者的数目),识别词汇表,以及错误恢复参数。
在开发或执行一个服务期间可以定制各种特征。例如,开发者可以利用基于文本的配置文件来定制一个服务的特征,该配置文件允许开发者改变服务的参数(它可在服务执行期间改变服务的行为)而无需对该服务进行重新编译。另外,也可利用包含在对话模块中的实时应用编程接口来定制各种功能。在与一个图形开发环境相结合的实施例中,可以提供图形用户界面(GUI)以允许开发者通过例如复选框或插入文本来配置对话模块。
例如,利用图7所示的GUI 700,通过在主工作区740中选择一个图标(如:对话模块742),就可定制对话模块实例。当选定该图标后,程序将打开一个对话窗口900,如图9所示。窗口900显示了对话模块910的名称并提供了四种选择:配置信息(ConfigureInformation)920,它允许开发者观看并修改实例的配置信息,这些信息以对话模块模板810的基线库(Baseline)820和系统库(SystemLibrary)830所提供的信息为依据;特征(Feature)930,它允许开发者为实例定制各种特征;词汇表(Vocabulary)940,它允许开发者观看、生成和编辑实例的已知识别词汇表;以及错误恢复(ErrorRecovery)950,它允许开发者观看并修改实例的错误恢复参数。
a·配置信息
在图9的窗口900中选择配置信息920将会出现一个如图10所示的新的对话窗口1000。窗口1000显示了基线库820和系统库830的文件路径,这两个库为对话模块实例850提供了配置信息。如果被使用的基线库820和/或系统库830多于一个,则窗口1000允许开发者在条框1010中寻找所需的库。通过选取观看(View)1020和编辑(Edit)1030选项,就可观看和/或编辑配置库的内容。
b·特征
在图9所示的窗口900中选择功能930将会打开一个如图11所示的新的窗口。该窗口显示出了各种可在特定对话模块实例850中被打开的功能。图11所示的功能包括:初始提示,是否打开“闯入”控制,设定闯入的门限(即,呼叫者必须说多大的声音才能打开闯入控制功能),以及是否在提示完成后发出“嘀”声(即,在提示告诉呼叫者可以开始说话之后播放一个“嘀”声)。这些功能的参数一开始都按照基线库820和系统库830所提供的配置信息而被设定,但它们也可被开发者在条框1110-1140中输入的参数所覆盖。
条框1110被用于为对话模块实例指定初始提示。如图6所示,对话模块在其通话流程中通常都含有一个或多个向用户发出的提示。对话模块模板和实例所用的提示一般被称为“提示对象”,它们是一些以音频形式或文本形式(如果在含有能够利用文本来合成语音的语音单元的系统中使用的话)保存的数据对象。在本实施例中,初始输出提示可由保存着提示对象的文件路径来指定,或者也可由待被文本—语音合成器执行转换的文本来指定。一些对话模块模板可以提供一个缺省初始提示。例如,是/否模块模板可以含有一个缺省初始提示“请说是或否”。在其它情况下,对话模块模板可能会要求开发者提供一个定制的初始提示。
c·词汇表
在图9的窗口900中选择词汇表(Vocabulary)选项940将允许开发者来定制识别词汇表,该词汇表定义了对对话模块提示所作的有效响应。一些对话模块(如:是/否模块)可以使用一个已被定义好的缺省词汇表,当然这些词汇表也可被开发者自行定义或替换。尽管其它一些对话模块(如:项目列表模块)可以使用普通标准词汇表,但它们更适于使用定制的词汇表。
本实施例中,选择词汇表选项940将打开一个窗口1200,如图12所示。图12显示了一个词汇表编辑器,该编辑器用于为对话模块实例定制词汇表。这种编辑器的一个实例是由马萨诸塞州波士顿的应用语言技术公司所开发的商用Speech WorksTM程序中的词汇表编辑器。Speech WorksTM词汇表编辑器允许开发者生成或修改一个被识别词汇表,该词汇表定义了一个含有多个项目的列表,这些项目将在响应提示而被识别。图12所示的初始窗口1200含有多个菜单选项,它们用于生成一个新的词汇表文件1210、打开一个已有文件1220、或者退出1230。对任何已被打开的文件来说,该编辑器提供了三个菜单选项:项目&同义词(Item Synonyms)1240,它用于编辑被识别的项目及其同义词;发音1250,用于编辑已知识别项目及其同义词的发音;以及确认(Confirmation)1260,用于为词汇表文件定制确认设置。
图12是当项目&同义词选项1240被选中时所出现的显示,该显示提供了5种选项1241-1245以用于编辑词汇表的项目及其同义词。在本实施例中,“项目”是指词汇表中的已知识别项目,而“同义词”则是一个项目的备选项。对话模块会把同义词识别为该项目的匹配项。图12显示了三个项目:“bob dole”,“h ross perot”以及“bill clinton”。
使用如图12所示的GUI可以提供选项1241,它允许开发者增加一个新的项目;选项1242,用于为已知识别项目增加同义词;选项1243,用于编辑已有的项目和同义词;选项1244,用于删除已有的项目和同义词;以及选项1245,用于插入另一个词汇表文件。通过点亮一个已有的项目并增加同义词,就可使开发者增加将被对话模块实例识别为匹配项的项目。例如,可以增加“clinton”以作为“bill clinton”的同义词。这可以通过列出该项目下分支处的同义词而显示出来。
选择发音选项1250将打开一个如图13所示的窗口1300。在此图示实施例中,词汇表编辑器可利用一预定系统字典和一用户字典来为各项目及其同义词确定发音,上述系统字典能为待被识别语言中的常用单词提供发音,而用户字典则包括有用户为各特定单词定制的发音以及后退规则,该后退规则是用于根据单词拼音而生成发音的语音规则。
在图13中窗口1300的左侧显示了一个词汇表的项目及其同义词的各个单词1310,紧随其下一条线之后的是它们的发音1320。在本实施例中,发音被以一种颜色加亮以反映其根源。例如,从系统字典中产生的发音可以用白色加亮,从用户字典中产生的发音可以用淡蓝色加亮,被用户编辑的发音可以用深蓝色加亮,而利用语音规则产生的发音则可用红色加亮。
如图所示,菜单选项1251-1254允许开发者倾听任何项目(或同义词)的发音、编辑发音、增加备选发音、以及删除发音。选择一个由编辑选项1252或增加选项1253跟随的项目(或同义词)将会打开一个如图14所示的窗口,该窗口显示出了一个语音键盘1410以及被选中的项目1420,该项目将被增加发音或被进行发音编辑。语音键盘1410的每个键都代表了一个语音音素。按住一个键上的光标将会打开一个弹出框1430,它通过显示含有一个语音音素的常用单词而提供出相应音素声音的一个发音实例。开发者还可通过选择“显示列表(Show Table)”选项140来激活这个信息,“显示列表”选项1470将显示全部可用音素的列表以及一个用于说明它们发音的常用单词。
要对已选定的项目或同义词的发音进行修改或增补,开发者可以选择相应按键以在其发音中插入相应的音素。倾听(Listen)选项1440允许开发者倾听发音(Pronunciation)框1420中所示音素的发音,从而帮助开发者对一个发音进行检验和修改。
参考图12,词汇表编辑器还提供了一个“确认”选项1260。选取该选项将打开一个如图15所示的窗口1500。如上所述,对话模块实例可被用来确认它对呼叫者的响应所作的假设。词汇表编辑器的确认(Confirmation)窗口1500提供了一个选项1510,它允许开发者设定一个缺省参数以用于确定应在何时对一特定词汇表中的项目及同义词进行确认,该选项显示于条框1511之中。确认窗口1500还提供了一个选项1520,它允许开发者为词汇表中的单个项目及同义词设定确认参数。当该选项被选中后,一个用于单个项目和同义词的窗口1521将被打开,并且显示出有效的确认选项。
d·错误恢复参数
在图9的窗口900中选择错误恢复选项950将打开一个如图16所示的窗口1600,它允许开发者定制错误恢复参数以用于确定对话模块实例内的通话流程。如参考图6和图16进行的以上说明所述,可定制的错误恢复参数包括:超时周期,对话模块允许连续超时的最大次数,对话模块在理解呼叫者对一特定提示所作的响应时允许的最大连续识别错误次数,确认选项,以及后退选项。一开始,这些参数的缺省值由基线库820和系统库830中的配置信息来提供,也可利用如图16的窗口1600所示的GUI来为对话模块的各特定实例自行设定这些参数。
其它的错误恢复参数包括致歉提示和再提示的内容。图8显示了一套保存在基线库820和系统库830之中的提示文件822,832。这些文件含有一些用于进行标准提示的适当格式文件,上述标准提示包括:超时致歉提示、错误致歉提示、再提示、以及成功信息。也可在提示文件中提供定制的提示,或者也可将定制提示保存在能在对话模块实例内被访问到的地方。
如上所述,除了初始提示以外,还可以提供多种提示,它们包括:例如,第一和第二超时致歉提示,第一和第二错误致歉提示,以及一般的再提示提示。基线库820和系统库830所提供的用于对话模块模板810的配置数据可以含有一些缺省提示,它们包括:第一超时致歉提示“很抱歉,我没有听到您的响应”和第二超时致歉提示“很抱歉,我仍没有听到您的响应”,第一错误致歉提示“很抱歉,我不明白您的意思”和第二错误致歉提示“很抱歉,我仍不明白您的意思”。缺省提示还可包括:第一普通再提示“现在请说出您的回答”、第二普通再提示“现在请再说一遍您的回答”以及缺省成功提示“谢谢您”。
如上所述,提示可以用任何适当的形式来指定。例如,一些实施例允许利用一个给定的名称(例如:如果被命名并保存在图8所示的提示文件(Prompt Files)822,832中)而通过文件路径来指定提示,或者在使用文本—语音合成器时通过其文本来用文件路径指定提示。
一些模板(如:项目列表模块模板)要求开发者至少建立一些提示,并利用适当的服务来建立并保存这些提示,以便将它们正确地输出给呼叫者。例如,要对一个已有提示进行定制,开发者可以在一个适当的服务中打开提示文件并对其作出修改。要提供一个新的提示,开发者可以生成一个新的提示文件并向用于输出该提示的对话模块实例指明该文件的路径。另外,在使用文本—语音合成器的系统中,开发者只需简单地向对话模块实例提供该提示的文本即可。
在以上的说明中,本发明是以具体实施例为参考而得到说明的。但是,很显然,在不脱离本发明较宽的精神和范围的情况下,可以对其进行各种修改和变换。因此,本文的附图和说明书应被认为是起到说明性的作用,而不是限制性的作用。

Claims (18)

1.一种由计算机实现的用于构成交互式语音应用程序的方法,其特征在于包括:
在语音处理系统中保存多个对话模块,其中各个对话模块都含有计算机可读的指令,这些指令用于在交互式语音应用程序中完成预定的交互对话任务;
响应用户的输入,选择一个由多个对话模块组成的子集,以在该交互式语音应用程序中完成它们各自的交互对话任务;
响应用户输入,按照定义交互式语音应用程序的通话流程的顺序将被选中的对话模块的子集相互连接起来;以及
生成该交互式语音应用程序。
2.如权利要求1所述的方法,其特征在于它还包括:
将至少一个配置参数与至少一个对话模块关联起来,其中的各项配置参数可在交互式语音应用程序执行时,用于改变相应对话模块的操作;以及
响应用户输入设置上述配置参数的值。
3.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并从呼叫者处接收响应,而且上述配置参数中至少有一个参数是超时参数,它用于在提示被输出后定义呼叫者响应的时间段。
4.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并接收呼叫者的响应,而且上述配置参数中至少有一个参数是提示参数,它用于定义一个要被输出的提示。
5.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并接收呼叫者的响应,而且上述配置参数中至少有一个参数是致歉提示参数,它用于在不能识别呼叫者的响应时定义一个待被输出的致歉提示。
6.如权利要求2所述的方法,其特征在于,与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并接收呼叫者的响应,而且上述配置参数中至少有一个参数是用于识别词汇的参数,这些词汇定义了可被识别的用户响应。
7.如权利要求6所述的方法,其特征在于,它还包括响应用户输入而对词汇进行编辑的功能。
8.如权利要求1所述的方法,其特征在于,上述与对话模块相关的交互对话任务含有:
用于向呼叫者输出一个提示的指令;
用于接收呼叫者响应的指令;以及
用于和一语音识别引擎进行交流的指令,该语音识别引擎利用识别模型来对接收到的响应进行识别。
9.如权利要求8所述的方法,其特征在于上述与对话模块相关的交互对话任务还含有用于在交互式语音应用程序执行期间,根据识别到的响应对由语音识别引擎使用的识别模块进行更新的指令。
10.如权利要求1所述的方法,其特征在于它还包括:
在图形显示器中以图标方式图形化显示所保存的多个对话模块,
其中:
响应于用户输入,在图形显示器中选定含有多个对话模块子集的图标;
各对话模块子集的图标与交互式语音应用程序的通话流程的图形显示相互关联;以及
根据此图形显示产生交互式语音应用程序。
11.如权利要求10所述的方法,其特征在于它还包括:
将至少一个配置参数与至少一个对话模块相互关联,其中的各项配置参数在交互式语音应用程序执行时,改变相应对话模块的操作;
当响应用户输入而选中一个具有相关配置参数的对话模块的图标时,显示一个窗口以设置该配置参数的数值;以及
响应用户输入,对该配置参数的数值进行设定。
12.一种保存有计算机可读指令的存储装置,这些指令用于在语音处理系统中构成一个交互式语音应用程序,所述装置含有:
含有多个对话模块模板的指令序列,其中各对话模块模板都含有一系列指令,以在交互式语音应用程序中执行预定的对话模块任务;
用于响应用户输入而生成多个在交互式语音应用程序中使用的对话模块实例的指令,其中各对话模块实例都以一个对话模块模板为依据,并且在交互式语音应用程序中执行相应对话模块模板的预定对话任务;
用于响应用户输入而对至少一个对话模块实例进行定制的指令;
用于按照定义该交互式语音应用程序的一个通话流程的顺序连接对话模块实例的指令;以及
用于生成该交互式语音应用程序的指令。
13.如权利要求12所述的存储装置,其特征在于它还包括:
用于将至少一个配置参数与至少一个对话模块关联起来的指令,其中的各项配置参数可在交互式语音应用程序执行时,用于改变相应对话模块的操作;以及
用于响应用户输入而设置上述配置参数的值的指令。
14.如权利要求13所述的存储装置,其特征在于与对话模块相关联的交互对话任务包括向呼叫者输出一个提示并从呼叫者处接收响应,而且上述配置参数中至少有一个参数是用于识别词汇的参数,这些词汇定义了可被识别的用户响应。
15.如权利要求14所述的存储装置,其特征在于还包括用于响应用户输入而对词汇进行编辑的指令。
16.如权利要求12所述的存储装置,其特征在于与对话模块相关联的交互对话任务包括:
用于向呼叫者输出一个提示的指令;
用于接收呼叫者响应的指令;以及
用于和语音识别引擎进行交流的指令,该语音识别引擎利用识别模型来对接收到的响应进行识别。
17.如权利要求16所述的存储装置,其中上述与对话模块相关的交互对话任务还含有用于在交互式语音应用程序执行期间,根据识别到的响应对由语音识别引擎使用的识别模型进行更新的指令。
18.如权利要求12所述的存储装置,其特征在于它还包括:
用于在图形显示器中用图标来对已保存的多个对话模块进行图形化显示的指令,
其中:
用于在交互式语音应用程序中生成多个对话模块实例的指令包括:用于响应用户输入而对多个对话模块模板进行选择的指令,以及用于在图形显示器中将对话模块实例图形化地显示为图标的指令;
用于按定义一交互式语音应用程序的通话流程的顺序连接对话模块实例的指令包括:用于将代表对话模块实例的图标与代表交互式语音应用程序通话流程的图形显示进行图形化相互连接的指令;以及
用于生成交互式语音应用程序的指令,该指令根据相互连接的图标来生成交互式语音应用程序,而这些图标以图形方式显示了对话模块实例。
CNB988069148A 1997-05-06 1998-05-06 用于开发交互式语音应用程序的系统和方法 Expired - Fee Related CN1163869C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US4574197P 1997-05-06 1997-05-06
US60/045,741 1997-05-06

Publications (2)

Publication Number Publication Date
CN1273661A true CN1273661A (zh) 2000-11-15
CN1163869C CN1163869C (zh) 2004-08-25

Family

ID=21939619

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB988069148A Expired - Fee Related CN1163869C (zh) 1997-05-06 1998-05-06 用于开发交互式语音应用程序的系统和方法

Country Status (6)

Country Link
US (1) US6173266B1 (zh)
EP (1) EP1021804A4 (zh)
CN (1) CN1163869C (zh)
AU (1) AU758006B2 (zh)
CA (1) CA2292959A1 (zh)
WO (1) WO1998050907A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1764899B (zh) * 2003-03-24 2010-09-01 医药图型有限公司 便于用户与工作流过程交互的图形用户界面系统及方法
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置
CN1708784B (zh) * 2002-10-29 2012-05-30 诺基亚有限公司 用于在手持电子设备中编辑文本的方法和系统
CN103632664A (zh) * 2012-08-20 2014-03-12 联想(北京)有限公司 一种语音识别的方法及电子设备
CN104182124A (zh) * 2014-08-25 2014-12-03 广东欧珀移动通信有限公司 移动终端的操作方法和装置
CN105074816A (zh) * 2013-02-25 2015-11-18 微软公司 促进口述自然语言接口的开发
CN107112013A (zh) * 2014-09-14 2017-08-29 谷歌公司 用于创建可定制对话系统引擎的平台
WO2022237376A1 (en) * 2021-05-10 2022-11-17 International Business Machines Corporation Contextualized speech to text conversion

Families Citing this family (337)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999043146A2 (en) * 1998-02-02 1999-08-26 Pulsepoint Communications Dynamically loadable phrase book libraries for spoken language grammars in an interactive system
US20030154072A1 (en) * 1998-03-31 2003-08-14 Scansoft, Inc., A Delaware Corporation Call analysis
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6343116B1 (en) * 1998-09-21 2002-01-29 Microsoft Corporation Computer telephony application programming interface
US7251315B1 (en) 1998-09-21 2007-07-31 Microsoft Corporation Speech processing for telephony API
US6606598B1 (en) * 1998-09-22 2003-08-12 Speechworks International, Inc. Statistical computing and reporting for interactive speech applications
US6462616B1 (en) * 1998-09-24 2002-10-08 Ericsson Inc. Embedded phonetic support and TTS play button in a contacts database
US9037451B2 (en) * 1998-09-25 2015-05-19 Rpx Corporation Systems and methods for multiple mode voice and data communications using intelligently bridged TDM and packet buses and methods for implementing language capabilities using the same
DE19908137A1 (de) * 1998-10-16 2000-06-15 Volkswagen Ag Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog
US6778647B1 (en) * 1998-11-13 2004-08-17 Siemens Information And Communication Networks, Inc. Redundant database storage of selected record information for an automated interrogation device
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
FR2788615B1 (fr) * 1999-01-18 2001-02-16 Thomson Multimedia Sa Appareil comportant une interface utilisateur vocale ou manuelle et procede d'aide a l'apprentissage des commandes vocales d'un tel appareil
US7031440B1 (en) 1999-02-01 2006-04-18 Ssimens Communications Inc. Interactive voice response systems with general-purpose blocks
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6567796B1 (en) * 1999-03-23 2003-05-20 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6502075B1 (en) * 1999-03-26 2002-12-31 Koninklijke Philips Electronics, N.V. Auto attendant having natural names database library
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6434523B1 (en) 1999-04-23 2002-08-13 Nuance Communications Creating and editing grammars for speech recognition graphically
US6314402B1 (en) 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
US6434527B1 (en) * 1999-05-17 2002-08-13 Microsoft Corporation Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue
US6604075B1 (en) * 1999-05-20 2003-08-05 Lucent Technologies Inc. Web-based voice dialog interface
US7283964B1 (en) * 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US8607138B2 (en) 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
WO2000078022A1 (en) * 1999-06-11 2000-12-21 Telstra New Wave Pty Ltd A method of developing an interactive system
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
US6523004B1 (en) * 1999-07-19 2003-02-18 International Business Machines Corporation Method and apparatus for disambiguating lists of elements for speech interfaces
US6964012B1 (en) * 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
US6788768B1 (en) 1999-09-13 2004-09-07 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for book-related information
US6829334B1 (en) 1999-09-13 2004-12-07 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6836537B1 (en) 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US20050223408A1 (en) * 1999-09-13 2005-10-06 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for entertainment-related information
US7143042B1 (en) * 1999-10-04 2006-11-28 Nuance Communications Tool for graphically defining dialog flows and for establishing operational links between speech applications and hypermedia content in an interactive voice response environment
US6850886B2 (en) * 1999-10-21 2005-02-01 Sony Corporation System and method for speech verification using an efficient confidence measure
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US7024363B1 (en) * 1999-12-14 2006-04-04 International Business Machines Corporation Methods and apparatus for contingent transfer and execution of spoken language interfaces
US7222120B1 (en) * 2000-04-12 2007-05-22 Making Everlasting Memories, L.L.C. Methods of providing a registry service and a registry service
DE10034235C1 (de) * 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
EP1301921B1 (en) * 2000-07-20 2007-02-28 BRITISH TELECOMMUNICATIONS public limited company Interactive dialogues
US7143040B2 (en) 2000-07-20 2006-11-28 British Telecommunications Public Limited Company Interactive dialogues
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
US6424935B1 (en) * 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
US6892228B1 (en) * 2000-08-23 2005-05-10 Pure Matrix, Inc. System and method for on-line service creation
US6785651B1 (en) * 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
GB0023834D0 (en) * 2000-09-28 2000-11-08 Digicharm Ltd Variable automated response system
US20020059072A1 (en) * 2000-10-16 2002-05-16 Nasreen Quibria Method of and system for providing adaptive respondent training in a speech recognition application
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
DE10063148A1 (de) * 2000-12-18 2002-06-20 Deutsche Telekom Ag Dialoganlage für eine Mensch-Maschine-Interaktion mit kooperierenden Dialogeinrichtungen
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
JP3857047B2 (ja) * 2000-12-28 2006-12-13 富士通株式会社 音声対話システム及び音声対話方法
US6961694B2 (en) * 2001-01-22 2005-11-01 Microsoft Corporation Method and apparatus for reducing latency in speech-based applications
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US20020169604A1 (en) * 2001-03-09 2002-11-14 Damiba Bertrand A. System, method and computer program product for genre-based grammars and acoustic models in a speech recognition framework
GB2375211A (en) * 2001-05-02 2002-11-06 Vox Generation Ltd Adaptive learning in speech recognition
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems
US6751595B2 (en) 2001-05-09 2004-06-15 Bellsouth Intellectual Property Corporation Multi-stage large vocabulary speech recognition system and method
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
US20020184002A1 (en) * 2001-05-30 2002-12-05 International Business Machines Corporation Method and apparatus for tailoring voice prompts of an interactive voice response system
US6944594B2 (en) 2001-05-30 2005-09-13 Bellsouth Intellectual Property Corporation Multi-context conversational environment system and method
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US7117447B2 (en) * 2001-06-08 2006-10-03 Mci, Llc Graphical user interface (GUI) based call application system
US7020608B2 (en) 2001-06-21 2006-03-28 Delphi Technologies, Inc. Speech recognition handling with synthesized manual input events
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
US7609829B2 (en) * 2001-07-03 2009-10-27 Apptera, Inc. Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US7573986B2 (en) * 2001-07-18 2009-08-11 Enterprise Integration Group, Inc. Method and system for interjecting comments to improve information presentation in spoken user interfaces
DE10147341B4 (de) * 2001-09-26 2005-05-19 Voiceobjects Ag Verfahren und Vorrichtung zum Aufbau einer in einem Computersystem implementierten Dialogsteuerung aus Dialogobjekten sowie zugehöriges Computersystem zur Durchführung einer Dialogsteuerung
US6701066B2 (en) * 2001-10-11 2004-03-02 Micron Technology, Inc. Delivery of solid chemical precursors
ITTO20011035A1 (it) * 2001-10-30 2003-04-30 Loquendo Spa Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale.
US20050149617A1 (en) * 2001-11-26 2005-07-07 Objectworld Communications Corp. Graphical interface based software for creating communication service agents
US20030105804A1 (en) * 2001-11-26 2003-06-05 Objectworld Communication system with personalized call handling
US7359858B2 (en) * 2002-02-07 2008-04-15 Sap Aktiengesellschaft User interface for data access and entry
US7203907B2 (en) * 2002-02-07 2007-04-10 Sap Aktiengesellschaft Multi-modal synchronization
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7246062B2 (en) * 2002-04-08 2007-07-17 Sbc Technology Resources, Inc. Method and system for voice recognition menu navigation with error prevention and recovery
US8126713B2 (en) * 2002-04-11 2012-02-28 Shengyang Huang Conversation control system and conversation control method
US7117158B2 (en) * 2002-04-25 2006-10-03 Bilcare, Inc. Systems, methods and computer program products for designing, deploying and managing interactive voice response (IVR) systems
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
US20030214523A1 (en) * 2002-05-16 2003-11-20 Kuansan Wang Method and apparatus for decoding ambiguous input using anti-entities
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7305340B1 (en) 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
EP1377000B1 (en) * 2002-06-11 2009-04-22 Swisscom (Schweiz) AG Method used in a speech-enabled automatic directory system
US7502730B2 (en) * 2002-06-14 2009-03-10 Microsoft Corporation Method and apparatus for federated understanding
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
AU2002950336A0 (en) * 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
US7249011B2 (en) * 2002-08-12 2007-07-24 Avaya Technology Corp. Methods and apparatus for automatic training using natural language techniques for analysis of queries presented to a trainee and responses from the trainee
US6947539B2 (en) * 2002-08-14 2005-09-20 Graham Jeffrey P Automated call routing
US20040034532A1 (en) * 2002-08-16 2004-02-19 Sugata Mukhopadhyay Filter architecture for rapid enablement of voice access to data repositories
AU2002951244A0 (en) 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
JP3500383B1 (ja) * 2002-09-13 2004-02-23 コナミ株式会社 ゲーム装置、ゲーム装置の制御方法及びプログラム
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
FR2849515B1 (fr) * 2002-12-31 2007-01-26 Thales Sa Procede generique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application et dispositif de mise en oeuvre
US7890336B2 (en) 2003-01-13 2011-02-15 Northwestern University Interactive task-sensitive assistant
AU2003900584A0 (en) 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
US7359860B1 (en) * 2003-02-27 2008-04-15 Lumen Vox, Llc Call flow object model in a speech recognition system
US7603291B2 (en) * 2003-03-14 2009-10-13 Sap Aktiengesellschaft Multi-modal sales applications
JP2004287016A (ja) * 2003-03-20 2004-10-14 Sony Corp 音声対話装置及び方法並びにロボット装置
AU2003902020A0 (en) 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US7331036B1 (en) * 2003-05-02 2008-02-12 Intervoice Limited Partnership System and method to graphically facilitate speech enabled user interfaces
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
US20050004788A1 (en) * 2003-07-03 2005-01-06 Lee Hang Shun Raymond Multi-level confidence measures for task modeling and its application to task-oriented multi-modal dialog management
US20050010418A1 (en) * 2003-07-10 2005-01-13 Vocollect, Inc. Method and system for intelligent prompt control in a multimodal software application
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
US20050027536A1 (en) * 2003-07-31 2005-02-03 Paulo Matos System and method for enabling automated dialogs
US7580909B2 (en) * 2003-08-26 2009-08-25 Northrop Grumman Corporation Visual representation tool for structured arguments
US20050060298A1 (en) * 2003-09-17 2005-03-17 International Business Machines Corporation Method and arrangement of user-modified variables in a presentation list
US7860717B2 (en) * 2003-09-25 2010-12-28 Dictaphone Corporation System and method for customizing speech recognition input and output
US7460652B2 (en) 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US20050075884A1 (en) * 2003-10-01 2005-04-07 Badt Sig Harold Multi-modal input form with dictionary and grammar
CN1864203A (zh) * 2003-10-10 2006-11-15 皇家飞利浦电子股份有限公司 用于对话系统的对话控制
WO2005038775A1 (en) * 2003-10-10 2005-04-28 Metaphor Solutions, Inc. System, method, and programming language for developing and running dialogs between a user and a virtual agent
US20050080628A1 (en) * 2003-10-10 2005-04-14 Metaphor Solutions, Inc. System, method, and programming language for developing and running dialogs between a user and a virtual agent
US7552221B2 (en) 2003-10-15 2009-06-23 Harman Becker Automotive Systems Gmbh System for communicating with a server through a mobile communication device
US7672295B1 (en) * 2003-11-12 2010-03-02 Tellme Networks, Inc. Method and system for design for run-time control of voice XML applications
US20050163136A1 (en) * 2003-11-17 2005-07-28 Leo Chiu Multi-tenant self-service VXML portal
US7697673B2 (en) * 2003-11-17 2010-04-13 Apptera Inc. System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system
US8799001B2 (en) * 2003-11-17 2014-08-05 Nuance Communications, Inc. Method and system for defining standard catch styles for speech application code generation
US20050125486A1 (en) * 2003-11-20 2005-06-09 Microsoft Corporation Decentralized operating system
US7440895B1 (en) 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US20050119892A1 (en) * 2003-12-02 2005-06-02 International Business Machines Corporation Method and arrangement for managing grammar options in a graphical callflow builder
JP4585759B2 (ja) * 2003-12-02 2010-11-24 キヤノン株式会社 音声合成装置、音声合成方法、プログラム、及び記録媒体
GB2409087A (en) * 2003-12-12 2005-06-15 Ibm Computer generated prompting
US20050198300A1 (en) * 2003-12-29 2005-09-08 Li Gong Data logging framework
US7356475B2 (en) * 2004-01-05 2008-04-08 Sbc Knowledge Ventures, L.P. System and method for providing access to an interactive service offering
DE602004010054T2 (de) * 2004-01-19 2008-03-06 Harman Becker Automotive Systems Gmbh Betätigung eines Sprachdialogsystems
US20050165607A1 (en) * 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
EP1560199B1 (en) * 2004-01-29 2008-07-09 Harman Becker Automotive Systems GmbH Multimodal data input
DE602004017955D1 (de) * 2004-01-29 2009-01-08 Daimler Ag Verfahren und System zur Sprachdialogschnittstelle
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
EP1562180B1 (en) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Speech dialogue system and method for controlling an electronic device
US20050228668A1 (en) 2004-03-31 2005-10-13 Wilson James M System and method for automatic generation of dialog run time systems
US8683437B1 (en) * 2004-04-16 2014-03-25 At&T Intellectual Property Ii, L.P. System and method for the automatic validation of dialog run time systems
US20050234725A1 (en) * 2004-04-20 2005-10-20 International Business Machines Corporation Method and system for flexible usage of a graphical call flow builder
DE102004029873B3 (de) * 2004-06-16 2005-12-29 Deutsche Telekom Ag Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
US20060004574A1 (en) * 2004-06-30 2006-01-05 Microsoft Corporation Semantic based validation information in a language model to detect recognition errors and improve dialog performance
US7228278B2 (en) * 2004-07-06 2007-06-05 Voxify, Inc. Multi-slot dialog systems and methods
US7936861B2 (en) * 2004-07-23 2011-05-03 At&T Intellectual Property I, L.P. Announcement system and method of use
US20060026049A1 (en) * 2004-07-28 2006-02-02 Sbc Knowledge Ventures, L.P. Method for identifying and prioritizing customer care automation
US8165281B2 (en) * 2004-07-28 2012-04-24 At&T Intellectual Property I, L.P. Method and system for mapping caller information to call center agent transactions
US7912206B2 (en) * 2004-07-30 2011-03-22 Miller John S Technique for providing a personalized electronic messaging service through an information assistance provider
US8380484B2 (en) * 2004-08-10 2013-02-19 International Business Machines Corporation Method and system of dynamically changing a sentence structure of a message
US7580837B2 (en) * 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7397905B1 (en) * 2004-08-13 2008-07-08 Edify Corporation Interactive voice response (IVR) system providing dynamic resolution of data
US7602898B2 (en) * 2004-08-18 2009-10-13 At&T Intellectual Property I, L.P. System and method for providing computer assisted user support
US8923838B1 (en) 2004-08-19 2014-12-30 Nuance Communications, Inc. System, method and computer program product for activating a cellular phone account
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US20060069560A1 (en) * 2004-08-31 2006-03-30 Christopher Passaretti Method and apparatus for controlling recognition results for speech recognition applications
US20060062375A1 (en) * 2004-09-23 2006-03-23 Sbc Knowledge Ventures, L.P. System and method for providing product offers at a call center
US7197130B2 (en) * 2004-10-05 2007-03-27 Sbc Knowledge Ventures, L.P. Dynamic load balancing between multiple locations with different telephony system
US7668889B2 (en) 2004-10-27 2010-02-23 At&T Intellectual Property I, Lp Method and system to combine keyword and natural language search results
US7657005B2 (en) * 2004-11-02 2010-02-02 At&T Intellectual Property I, L.P. System and method for identifying telephone callers
US8942985B2 (en) * 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7724889B2 (en) * 2004-11-29 2010-05-25 At&T Intellectual Property I, L.P. System and method for utilizing confidence levels in automated call routing
US7864942B2 (en) * 2004-12-06 2011-01-04 At&T Intellectual Property I, L.P. System and method for routing calls
US7242751B2 (en) * 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US20060126811A1 (en) * 2004-12-13 2006-06-15 Sbc Knowledge Ventures, L.P. System and method for routing calls
US20060126808A1 (en) * 2004-12-13 2006-06-15 Sbc Knowledge Ventures, L.P. System and method for measurement of call deflection
US7519946B2 (en) * 2004-12-20 2009-04-14 International Business Machines Corporation Automatically adding code to voice enable a GUI component
US7809569B2 (en) * 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
CN1798210B (zh) * 2004-12-30 2010-08-11 国际商业机器公司 用于选择语音或dtmf接口或二者的混合的方法和系统
US8478589B2 (en) * 2005-01-05 2013-07-02 At&T Intellectual Property Ii, L.P. Library of existing spoken dialog data for use in generating new natural language spoken dialog systems
US8185399B2 (en) 2005-01-05 2012-05-22 At&T Intellectual Property Ii, L.P. System and method of providing an automated data-collection in spoken dialog systems
US20060149553A1 (en) * 2005-01-05 2006-07-06 At&T Corp. System and method for using a library to interactively design natural language spoken dialog systems
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7450698B2 (en) * 2005-01-14 2008-11-11 At&T Intellectual Property 1, L.P. System and method of utilizing a hybrid semantic model for speech recognition
US7627096B2 (en) * 2005-01-14 2009-12-01 At&T Intellectual Property I, L.P. System and method for independently recognizing and selecting actions and objects in a speech recognition system
US7627109B2 (en) 2005-02-04 2009-12-01 At&T Intellectual Property I, Lp Call center system for multiple transaction selections
US20060188087A1 (en) * 2005-02-18 2006-08-24 Sbc Knowledge Ventures, Lp System and method for caller-controlled music on-hold
US20060190260A1 (en) * 2005-02-24 2006-08-24 Nokia Corporation Selecting an order of elements for a speech synthesis
US20060212559A1 (en) * 2005-03-02 2006-09-21 Objectworld Communications Corp. Data source access editor and network data management method
US8130936B2 (en) * 2005-03-03 2012-03-06 At&T Intellectual Property I, L.P. System and method for on hold caller-controlled activities and entertainment
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US7707131B2 (en) * 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US7734471B2 (en) 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
US7930182B2 (en) * 2005-03-15 2011-04-19 Nuance Communications, Inc. Computer-implemented tool for creation of speech application code and associated functional specification
US8223954B2 (en) 2005-03-22 2012-07-17 At&T Intellectual Property I, L.P. System and method for automating customer relations in a communications environment
US7933399B2 (en) * 2005-03-22 2011-04-26 At&T Intellectual Property I, L.P. System and method for utilizing virtual agents in an interactive voice response application
US20060217978A1 (en) * 2005-03-28 2006-09-28 David Mitby System and method for handling information in a voice recognition automated conversation
US20060215824A1 (en) * 2005-03-28 2006-09-28 David Mitby System and method for handling a voice prompted conversation
US8260617B2 (en) * 2005-04-18 2012-09-04 Nuance Communications, Inc. Automating input when testing voice-enabled applications
US7720684B2 (en) * 2005-04-29 2010-05-18 Nuance Communications, Inc. Method, apparatus, and computer program product for one-step correction of voice interaction
US7636432B2 (en) * 2005-05-13 2009-12-22 At&T Intellectual Property I, L.P. System and method of determining call treatment of repeat calls
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8005204B2 (en) * 2005-06-03 2011-08-23 At&T Intellectual Property I, L.P. Call routing system and method of using the same
US20070006082A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Speech application instrumentation and logging
US8503641B2 (en) 2005-07-01 2013-08-06 At&T Intellectual Property I, L.P. System and method of automated order status retrieval
US8175253B2 (en) * 2005-07-07 2012-05-08 At&T Intellectual Property I, L.P. System and method for automated performance monitoring for a call servicing system
US7424431B2 (en) * 2005-07-11 2008-09-09 Stragent, Llc System, method and computer program product for adding voice activation and voice control to a media player
US7912720B1 (en) * 2005-07-20 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for building emotional machines
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8073699B2 (en) * 2005-08-16 2011-12-06 Nuance Communications, Inc. Numeric weighting of error recovery prompts for transfer to a human agent from an automated speech response system
US8526577B2 (en) * 2005-08-25 2013-09-03 At&T Intellectual Property I, L.P. System and method to access content from a speech-enabled automated system
US8548157B2 (en) 2005-08-29 2013-10-01 At&T Intellectual Property I, L.P. System and method of managing incoming telephone calls at a call center
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial
US8719034B2 (en) * 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US8024196B1 (en) * 2005-09-19 2011-09-20 Sap Ag Techniques for creating and translating voice applications
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US20070088549A1 (en) * 2005-10-14 2007-04-19 Microsoft Corporation Natural input of arbitrary text
JP4849662B2 (ja) * 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4846336B2 (ja) * 2005-10-21 2011-12-28 株式会社ユニバーサルエンターテインメント 会話制御装置
JP4849663B2 (ja) 2005-10-21 2012-01-11 株式会社ユニバーサルエンターテインメント 会話制御装置
US8315874B2 (en) * 2005-12-30 2012-11-20 Microsoft Corporation Voice user interface authoring tool
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
JP4197344B2 (ja) * 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
US7599861B2 (en) 2006-03-02 2009-10-06 Convergys Customer Management Group, Inc. System and method for closed loop decisionmaking in an automated care system
US8131548B2 (en) * 2006-03-06 2012-03-06 Nuance Communications, Inc. Dynamically adjusting speech grammar weights based on usage
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
US20070261027A1 (en) * 2006-05-08 2007-11-08 International Business Machines Corporation Method and system for automatically discovering and populating a palette of reusable dialog components
US7809663B1 (en) 2006-05-22 2010-10-05 Convergys Cmg Utah, Inc. System and method for supporting the utilization of machine language
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US9135913B2 (en) * 2006-05-26 2015-09-15 Nec Corporation Voice input system, interactive-type robot, voice input method, and voice input program
EP1879000A1 (en) * 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Transmission of text messages by navigation systems
US9438734B2 (en) * 2006-08-15 2016-09-06 Intellisist, Inc. System and method for managing a dynamic call flow during automated call processing
US8190431B2 (en) * 2006-09-25 2012-05-29 Verizon Patent And Licensing Inc. Method and system for providing speech recognition
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8355913B2 (en) 2006-11-03 2013-01-15 Nokia Corporation Speech recognition with adjustable timeout period
US20080133365A1 (en) * 2006-11-21 2008-06-05 Benjamin Sprecher Targeted Marketing System
US7747442B2 (en) * 2006-11-21 2010-06-29 Sap Ag Speech recognition application grammar modeling
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
US20080154590A1 (en) * 2006-12-22 2008-06-26 Sap Ag Automated speech recognition application testing
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20080243498A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. Method and system for providing interactive speech recognition using speaker data
US20080243499A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. System and method of speech recognition training based on confirmed speaker utterances
US20080243504A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. System and method of speech recognition training based on confirmed speaker utterances
US20080312929A1 (en) * 2007-06-12 2008-12-18 International Business Machines Corporation Using finite state grammars to vary output generated by a text-to-speech system
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8001469B2 (en) * 2007-11-07 2011-08-16 Robert Bosch Gmbh Automatic generation of interactive systems from a formalized description language
US8155959B2 (en) * 2007-11-07 2012-04-10 Robert Bosch Gmbh Dialog system for human agent to correct abnormal output
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9386154B2 (en) * 2007-12-21 2016-07-05 Nuance Communications, Inc. System, method and software program for enabling communications between customer service agents and users of communication devices
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US8868424B1 (en) * 2008-02-08 2014-10-21 West Corporation Interactive voice response data collection object framework, vertical benchmarking, and bootstrapping engine
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US8949122B2 (en) * 2008-02-25 2015-02-03 Nuance Communications, Inc. Stored phrase reutilization when testing speech recognition
DE102008028090A1 (de) * 2008-02-29 2009-09-10 Navigon Ag Verfahren zum Betrieb eines Navigationssystems
US8938059B2 (en) * 2008-03-28 2015-01-20 Avaya Inc. System and method for displaying call flows and call statistics
US8219385B2 (en) * 2008-04-08 2012-07-10 Incentive Targeting, Inc. Computer-implemented method and system for conducting a search of electronically stored information
US8536976B2 (en) * 2008-06-11 2013-09-17 Veritrix, Inc. Single-channel multi-factor authentication
CA2665014C (en) * 2008-05-23 2020-05-26 Accenture Global Services Gmbh Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
CA2665055C (en) * 2008-05-23 2018-03-06 Accenture Global Services Gmbh Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto
CA2665009C (en) * 2008-05-23 2018-11-27 Accenture Global Services Gmbh System for handling a plurality of streaming voice signals for determination of responsive action thereto
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8166297B2 (en) * 2008-07-02 2012-04-24 Veritrix, Inc. Systems and methods for controlling access to encrypted data stored on a mobile device
DE102008033056A1 (de) 2008-07-15 2010-01-21 Volkswagen Ag Kraftfahrzeug mit einem Mikrofon zur akustischen Eingabe eines Befehls zur Bedienung der Funktion des Kraftfahrzeuges
US8131458B1 (en) 2008-08-22 2012-03-06 Boadin Technology, LLC System, method, and computer program product for instant messaging utilizing a vehicular assembly
US8265862B1 (en) 2008-08-22 2012-09-11 Boadin Technology, LLC System, method, and computer program product for communicating location-related information
US8073590B1 (en) 2008-08-22 2011-12-06 Boadin Technology, LLC System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly
US8078397B1 (en) 2008-08-22 2011-12-13 Boadin Technology, LLC System, method, and computer program product for social networking utilizing a vehicular assembly
EP2353125A4 (en) * 2008-11-03 2013-06-12 Veritrix Inc USER AUTHENTICATION FOR SOCIAL NETWORKS
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8346560B2 (en) * 2009-05-01 2013-01-01 Alpine Electronics, Inc Dialog design apparatus and method
US20100303214A1 (en) * 2009-06-01 2010-12-02 Alcatel-Lucent USA, Incorportaed One-way voice detection voicemail
CN102473129B (zh) * 2009-07-16 2015-12-02 株式会社日立制作所 输出表示与故障的根本原因对应的恢复方法的信息的管理系统
US10387140B2 (en) 2009-07-23 2019-08-20 S3G Technology Llc Modification of terminal and service provider machines using an update server machine
US8494148B2 (en) 2009-09-24 2013-07-23 Avaya, Inc. Dynamic IVR dialog based on analytics data
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US8391464B1 (en) 2010-06-24 2013-03-05 Nuance Communications, Inc. Customer service system, method, and software program product for responding to queries using natural language understanding
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US8762154B1 (en) * 2011-08-15 2014-06-24 West Corporation Method and apparatus of estimating optimum dialog state timeout settings in a spoken dialog system
US8972263B2 (en) * 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
US8958532B2 (en) * 2011-11-29 2015-02-17 International Business Machines Corporation Navigating an interactive voice response system
US9679568B1 (en) 2012-06-01 2017-06-13 Google Inc. Training a dialog system using user feedback
US9123338B1 (en) 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
US9489940B2 (en) 2012-06-11 2016-11-08 Nvoq Incorporated Apparatus and methods to update a language model in a speech recognition system
US9230160B1 (en) * 2012-08-27 2016-01-05 Amazon Technologies, Inc. Method, medium, and system for online ordering using sign language
US20140297272A1 (en) * 2013-04-02 2014-10-02 Fahim Saleh Intelligent interactive voice communication system and method
US9336776B2 (en) 2013-05-01 2016-05-10 Sap Se Enhancing speech recognition with domain-specific knowledge to detect topic-related content
US9431008B2 (en) 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10740578B2 (en) 2015-04-08 2020-08-11 Fractal Antenna Systems, Inc. Fractal plasmonic surface reader
US10474439B2 (en) * 2016-06-16 2019-11-12 Microsoft Technology Licensing, Llc Systems and methods for building conversational understanding systems
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
WO2018085760A1 (en) * 2016-11-04 2018-05-11 Semantic Machines, Inc. Data collection for a new conversational dialogue system
WO2018148441A1 (en) 2017-02-08 2018-08-16 Semantic Machines, Inc. Natural language content generator
US10586530B2 (en) 2017-02-23 2020-03-10 Semantic Machines, Inc. Expandable dialogue system
US11069340B2 (en) 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
US10762892B2 (en) 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
US10552543B2 (en) 2017-05-10 2020-02-04 International Business Machines Corporation Conversational authoring of event processing applications
US11056105B2 (en) * 2017-05-18 2021-07-06 Aiqudo, Inc Talk back from actions in applications
WO2018213788A1 (en) 2017-05-18 2018-11-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
US11340925B2 (en) 2017-05-18 2022-05-24 Peloton Interactive Inc. Action recipes for a crowdsourced digital assistant system
US10838746B2 (en) 2017-05-18 2020-11-17 Aiqudo, Inc. Identifying parameter values and determining features for boosting rankings of relevant distributable digital assistant operations
US11043206B2 (en) 2017-05-18 2021-06-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
JP6860431B2 (ja) * 2017-06-08 2021-04-14 株式会社日立製作所 計算機システム、対話制御方法、及び計算機
US11132499B2 (en) 2017-08-28 2021-09-28 Microsoft Technology Licensing, Llc Robust expandable dialogue system
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10621984B2 (en) * 2017-10-04 2020-04-14 Google Llc User-configured and customized interactive dialog application
CN107908743B (zh) * 2017-11-16 2021-12-03 百度在线网络技术(北京)有限公司 人工智能应用构建方法和装置
US10423873B2 (en) * 2017-12-01 2019-09-24 International Business Machines Corporation Information flow analysis for conversational agents
US11115528B1 (en) * 2018-01-25 2021-09-07 Amazon Technologies, Inc. Call control service
WO2019152511A1 (en) 2018-01-30 2019-08-08 Aiqudo, Inc. Personalized digital assistant device and related methods
US11145291B2 (en) * 2018-01-31 2021-10-12 Microsoft Technology Licensing, Llc Training natural language system with generated dialogues
US10861440B2 (en) * 2018-02-05 2020-12-08 Microsoft Technology Licensing, Llc Utterance annotation user interface
US11133001B2 (en) * 2018-03-20 2021-09-28 Microsoft Technology Licensing, Llc Generating dialogue events for natural language system
US10812654B2 (en) * 2018-06-29 2020-10-20 At&T Intellectual Property I, L.P. Interactive voice response system design, development and testing tool
EP3912024A1 (en) * 2019-05-06 2021-11-24 Google LLC Generating and updating voice-based software applications using application templates
CN111145745B (zh) * 2019-12-27 2022-07-01 思必驰科技股份有限公司 对话流程定制方法及装置
US12061636B1 (en) * 2023-05-15 2024-08-13 PolyAI Limited Dialogue configuration system and method

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4625081A (en) * 1982-11-30 1986-11-25 Lotito Lawrence A Automated telephone voice service system
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
CA2091658A1 (en) 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
WO1995001597A2 (en) * 1993-07-01 1995-01-12 British Telecomm System for generating instructions for speech application
US5566272A (en) 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5594638A (en) 1993-12-29 1997-01-14 First Opinion Corporation Computerized medical diagnostic system including re-enter function and sensitivity factors
US5544305A (en) * 1994-01-25 1996-08-06 Apple Computer, Inc. System and method for creating and executing interactive interpersonal computer simulations
US5694558A (en) * 1994-04-22 1997-12-02 U S West Technologies, Inc. Method and system for interactive object-oriented dialogue management
CA2146890C (en) * 1994-06-03 2000-10-24 At&T Corp. Outline programming for developing communication services
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
US5652789A (en) * 1994-09-30 1997-07-29 Wildfire Communications, Inc. Network based knowledgeable assistant
US5842193A (en) * 1995-07-28 1998-11-24 Sterling Software, Inc. Knowledge based planning and analysis (KbPA)™
US5999611A (en) * 1996-11-19 1999-12-07 Stentor Resource Centre Inc. Subscriber interface for accessing and operating personal communication services
WO1998031007A2 (en) * 1997-01-09 1998-07-16 Koninklijke Philips Electronics N.V. Method and apparatus for executing a human-machine dialogue in the form of two-sided speech as based on a modular dialogue structure
US6058166A (en) * 1997-10-06 2000-05-02 Unisys Corporation Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1708784B (zh) * 2002-10-29 2012-05-30 诺基亚有限公司 用于在手持电子设备中编辑文本的方法和系统
CN1764899B (zh) * 2003-03-24 2010-09-01 医药图型有限公司 便于用户与工作流过程交互的图形用户界面系统及方法
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置
CN103632664A (zh) * 2012-08-20 2014-03-12 联想(北京)有限公司 一种语音识别的方法及电子设备
CN105074816A (zh) * 2013-02-25 2015-11-18 微软公司 促进口述自然语言接口的开发
CN105074816B (zh) * 2013-02-25 2019-01-22 微软技术许可有限责任公司 促进口述自然语言接口的开发
CN104182124A (zh) * 2014-08-25 2014-12-03 广东欧珀移动通信有限公司 移动终端的操作方法和装置
CN107112013A (zh) * 2014-09-14 2017-08-29 谷歌公司 用于创建可定制对话系统引擎的平台
CN107112013B (zh) * 2014-09-14 2020-10-23 谷歌有限责任公司 用于创建可定制对话系统引擎的平台
WO2022237376A1 (en) * 2021-05-10 2022-11-17 International Business Machines Corporation Contextualized speech to text conversion

Also Published As

Publication number Publication date
WO1998050907A1 (en) 1998-11-12
CA2292959A1 (en) 1998-11-12
EP1021804A1 (en) 2000-07-26
CN1163869C (zh) 2004-08-25
AU7374798A (en) 1998-11-27
US6173266B1 (en) 2001-01-09
AU758006B2 (en) 2003-03-13
EP1021804A4 (en) 2002-03-20

Similar Documents

Publication Publication Date Title
CN1163869C (zh) 用于开发交互式语音应用程序的系统和方法
US8064573B2 (en) Computer generated prompting
US6871179B1 (en) Method and apparatus for executing voice commands having dictation as a parameter
CN1249667C (zh) 声控服务
US7877261B1 (en) Call flow object model in a speech recognition system
CN101010934B (zh) 用于机器学习的方法
US7668710B2 (en) Determining voice recognition accuracy in a voice recognition system
US7406413B2 (en) Method and system for the processing of voice data and for the recognition of a language
US7609829B2 (en) Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US7624014B2 (en) Using partial information to improve dialog in automatic speech recognition systems
US20050234727A1 (en) Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
CN1783213A (zh) 用于自动语音识别的方法和装置
CN101030368A (zh) 在保持情感的同时跨通道进行通信的方法和系统
JP2008506156A (ja) マルチスロット対話システムおよび方法
JP2005519507A (ja) 音声対話システムの操作方法
US8725505B2 (en) Verb error recovery in speech recognition
CN113779217A (zh) 一种基于人机交互的智能语音外呼业务方法及系统
US6845356B1 (en) Processing dual tone multi-frequency signals for use with a natural language understanding system
CN114844992A (zh) 一种多层ivr导航处理的方法
CN113515274A (zh) 一种关于人机交互逻辑的可视化建模设计方法
TWI722715B (zh) 智能語音助理之模組化系統及其運作方法
CN1629933A (zh) 用于双语连接语音合成的声单元
CN113807642A (zh) 基于程控电话的电力调度智能交互方法
CN111324702A (zh) 人机对话方法及模拟人声进行人机对话的耳麦
KR20050066805A (ko) 음절 음성인식기의 음성인식결과 전달 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee