CN1522432A

CN1522432A - 用于语音应用分布式系统中提高语音识别性能的方法和装置

Info

Publication number: CN1522432A
Application number: CNA02813298XA
Authority: CN
Inventors: S; 迈克尔·S·阮; �Ф; 利奥·肖
Original assignee: FONELET TECHNOLOGY Inc
Current assignee: FONELET TECHNOLOGY Inc
Priority date: 2001-07-03
Filing date: 2002-07-02
Publication date: 2004-08-18
Also published as: EP1428203A4; US20130013299A1; US20030009339A1; CA2450887A1; US20030014670A1; EP1428203A2; US20100114578A1; US20100050265A1; US20030018476A1; US20100318365A1; US20110123006A1; US20030007609A1; US7643998B2; US20030055884A1; WO2003005340A2; US20100057885A1; WO2003005340A3

Abstract

一种对于在用户经语音入口访问数据源的过程中使用语音应用时与文本语音转换和语音文本转换的提交相关的语音识别处理进行限制的词汇表管理系统，包括：一个词汇表管理服务器，与语音应用服务器和电话服务器相连接；以及运行在管理服务器上的词汇表管理软件的实例，用于语音识别软件的词汇表的建立和管理。该系统的特征在于，管理员访问词汇表管理服务器，使用该软件创建唯一的词汇集，该词汇集是和目标数据源相关的词汇表中选定的特定部分，词汇集根据管理员的指令而具有不同的内容。

Description

用于语音应用分布式系统中提高语音识别性能的方法和装置

技术领域

本发明属于软件应用开发领域，尤其适用于语音应用分布式系统中提高语音识别性能的方法和装置。

相关文献的交叉引用

本发明是美国专利申请的部分的续篇，代理卷号为No.P8100，题为“Method and Apparatus for Development and Deployment of aVoice Software Application for Distribution to one or moreApplication Consumers”，于2002年6月14日提出申请，其中包括的全部内容在此公开作为参考。2002年6月14日提出申请的母案(parent case)以2001年7月3日提出申请的序列号为60/302,736的临时申请为优先权，并收入该临时申请的所有公开内容。因此本发明以本段中上述两个申请为优先权。

背景技术

语音应用是在通信(一般为电话)环境中进行开发、配置和维护的最具有挑战性的应用。开发和配置一个可实施的应用所需的专门技术包括计算机电话合成(CTI)硬件和软件、语音识别软件、文本语音转换软件以及语音应用逻辑。

由于近来语音扩展标记语言(VHML)的出现，开发语音方案所需的专门技术在一定程度上得到了简化。VXML这种语言使得软件开发人员可以只将注意力集中在语音应用的应用逻辑上，而不需在电话器件下进行配置。一般来说，开发出的语音应用在VXML解释器上运行，该解释器置于相关的传送语音方案的电话系统中并在其上执行。

如图1A所示(现有技术)，适用VXML电话系统的典型结构包含了一个语音应用服务器(110)和适用VXML电话服务器(130)。对VXML可行IVR方案进行开发和配置的典型步骤在下面使用图1A中的单元进行简单描述。

首先，创建一个新的应用数据库(113)或对现有的数据库进行修改以能够支持VXML环境。程序逻辑112设计成工作流程格式，适用于处理IVR系统中的路由操作。执行应用逻辑所产生的VXML页面由一个基于特定的发生序列的VXML提交引擎(renderingengine)(111)进行提交。

第二步，创建一个面向服务器130的对象，它包含相应的VXML页面，通过网络(120)送往服务器130，该网络可以是Internet、企业内部网或以太网。VXML页面集成到提交引擎111中，可以依照服务器110中设置的工作流程进行显示。

第三步，设置VXML电话服务器130，使其能够从服务器110中的提交引擎111中正确接收特定的VXML页面。服务器110还提供了一个触发机制，这样每出现一个触发事件，服务器110就产生一个合适的外部调用。

服务器130内设置有VXML解释器(131)，语音识别文本语音转换引擎(132)，以及电话硬件/软件设备(133)，并都包含服务器功能。现有技术中，VXML解释器131和电话硬件/软件设备130一起封装成现有的IVR可行技术。然而可论证的是整个系统的最重要的部分是应用服务器110。应用逻辑(112)一般用编程语言如Java编写，封装成一种Java Bean的企业文档。所需的显示逻辑由提交引擎111处理，并使用JSP或PERL编写。

增强的语音应用系统对发明人是已知的，以题为“Method andApparatus for Development and Deployment of a Voice SoftwareApplication for Distribution to one or more Application Consumers”的美国专利申请的公开内容为优先权。该系统使用一个语音应用服务器，它与一个数据网络相连接，用于存储并服务于该语音应用。语音应用服务器具有一个和网络通信服务器相连的数据接口，而网络通信服务器连接到通信网络上，如众所周知的PSTN网。通信服务器将创建的语音应用路由至各自预定的接收器。

计算机工作站是系统的一部分，与数据网络相连并且可访问语音应用服务器。客户软件安装在计算机工作站上，目的是让用户能够创建应用程序并管理程序状态。该系统中，用户使用安装在计算机工作站上的客户软件，以通过目标建模和链接来创建语音应用程序。一旦生成语音应用，就存储在应用服务器中进行配置。用户可以控制并处理配置过程和配置应用程序的状态，包括按照预定的接收器进行预定配置和重复配置的状态。

一个实施例中的系统使用具有一个或多个接收端的通信网络中基于Web的数据作为源数据，进行语音应用的开发和配置。增强型系统含有一个语音应用服务器，能够通过软件和网络连接访问该处的网络服务器和Web站点，并从站点中获取数据。运行语音应用软件的计算机工作站至少能够控制对语音应用服务器的访问，同样也能控制对网络服务器和Web站点的访问。计算机工作站的操作者创建并提供了模板，用于语音应用服务器使用数据语音转换的提交过程中。从这方面看，从基于Web的数据源中可以获得大量的Web数据并转换成语音，作为语音应用中的会话进行传送。

另一个实施例中，上述系统中的方法能够在执行会话创建之前对基于Web的数据进行组织、编辑以及区分优先级。该方法包括按照数据原有结构从基于Web的数据源中收集数据；生成一个表示了逻辑结构和从基于Web数据源收集到的数据类型的对象树；对生成的对象树进行处理，得到一个期望的层次结构和内容；用VXML语言生成语音应用模板，并根据处理后的对象树对模板添加内容；生成一个能够根据模板限定对基于Web的数据源进行访问的语音应用。该方法使语音应用的配置和执行状态更有效率，同时简化了语音应用的开发过程。

上述系统中还提供了安全控制。该协议保证了网络服务器、数据、通过用户端的电话网络以及通过数据源末端的XML网关可访问的语音入口系统之间的事务安全。安全控制包括在网络服务器和语音入口系统之间通过XML网关建立的私人连接、虚拟私用网络、或安全套接字(socket)层其中的一种。在入口和服务器或多个服务器之间执行的事务可以享受与数据网络的安全节点之间相同的安全度。一个实施例中，安全控制还进一步包括了在语音入口的输出端和终端用户的电话处分配的一个语音翻译系统，其中语音会话被翻译成一种非用户语言的模糊语音，然后在用户的电话端再反译为用户的语言。

在这种使用模板进行语音应用会话事务的系统中，语音应用规则和语音识别数据被作为适当的内容判读和响应协议的参考，这样作为响应会话通过语音入口提供给用户端的合成语音不仅内容正确，而且表现形式也有希望达到无误码。因此数据库可用词汇表的单词进行优化，使得语音的范围很广，包含了与许多不同商业情景相应的许多不同的词汇表。

发明人对于不同用途的实施例提供了不同的词汇表管理格式，系统的语音识别和语音提交功能都可在执行速度以及准确合成会话方面进一步得到优化。

目前明确需要的是一种增强型的语音管理系统和方法，能够把语音识别限制在仅与Web数据收集相关的词汇表和规则选项中。应用逻辑和/或数据库的资源适配器之间会相互影响，对于每一个相互影响的步骤动态地调整管理目录，这种管理系统能够使系统的语音识别部分相互协调，从而提高了语音识别性能。

发明内容

本发明的优选实施例中提供了一个词汇表管理系统，在用户通过语音入口访问一个数据源的过程中使用语音应用，对与文本语音转换及语音文本转换的表示过程相关的语音识别处理进行限制，包括一个与语音应用服务器和电话服务器相连接的词汇表管理服务器，一个在管理服务器上运行的词汇表管理软件实例，为语音识别软件设置词汇表并进行管理。该系统的特征在于访问词汇表管理服务器的管理员使用该软件生成唯一的词汇集，该词汇集是所选定的与目标数据源相关的特定的词汇表部分，而词汇集根据管理员的指令具有不同的内容。

在一个优选实施例中，语音入口是一个用在电话环境中的交互性的语音响应单元。同样在一个优选实施例中，数据源位于Internet网络中，并通过电话网络访问。还是在一个优选实施例中，语音应用服务器为文本语音转换识别过程提供VXML格式的数据。

对访问用户的语音应用，有唯一的词汇集和、唯一的规则。而且，唯一的词汇集可与特定的访问用户专用的唯一词汇子集相关联。这些唯一的词汇子集可以与唯一的规则子集相关联。在一些情况下，词汇集既包括从数据源中寻找到的单词，也包括管理员引入的单词。

本发明的另一方面是提供了一个词汇表管理服务器，在用户通过语音入口访问一个数据源的过程中使用语音应用，对与文本语音转换和语音文本转换的表示过程相关的语音识别处理进行限制，包括一个词汇表管理软件用来创建并管理词汇集，以及一个用户接口用来处理软件应用。服务器的特征在于服务器被配置用来在语音应用的语音识别应用中发送特定的词汇集和规则集，并且系统配置以在语音识别功能中以较少的处理要求来创建会话。

优选实施例中，语音入口是在电话环境中工作的一个交互性的语音响应单元。同样在优选实施例中，数据源位于Internet网络中，并通过电话网络访问。在一些优选情况下，语音应用服务器为文本语音转换识别过程提供VXML格式的数据。

对访问用户的语音应用，词汇集彼此都是唯一的，且与唯一的规则集相关联。另外，唯一的词汇集可与特定的访问用户专用的唯一词汇子集相关联。这些唯一的词汇子集可以与唯一的规则子集相关联。在一些情况下，词汇集既包括从数据源中寻找到的单词，也包括管理员引入的单词。同样在一些情况下，语音通过受话器提供给用户。

本发明的另一个方面是提供了一种方法，用于在适用VXML语音应用和系统开发中对语音识别的处理需求进行限制，包括以下步骤：(a)提供一个词汇表管理软件实例，用于创建、编辑、以及组织语音识别过程所需的词汇集；(b)使用该软件创建词汇集，词汇集包括与语音应用中创建会话所使用的数据源相关的一部分可用词汇；(c)当语音应用的语音识别部分被触发时，对语音应用进行设置以使用已创建的词汇集；以及(d)配置语音应用并执行。

优选实施例的步骤(a)中，词汇表管理软件可以访问语音应用系统的数据库资源适配器的应用逻辑。同样在优选实施例的步骤(a)中，词汇集对于数据源是特定的。在其他实施例的步骤(a)中，词汇集对于与数据源相关的客户行为是特定的。词汇集可与一个或多个词汇子集相关联。步骤(b)中通过一个安装了客户语音应用软件的相连接的工作站上管理员的输入对该软件进行操作。同样在步骤(b)中，词汇集中的单词也包含管理员引入的单词。

一些情况中，步骤(c)的设置包括了与词汇集相关的访问适用规则。其他一些情况下，步骤(c)的设置进一步包括了对在词汇集范围内组织的词汇子集以及在规则集范围内组织的规则子集的访问，其中子元素对于各个客户是特定的。步骤(d)中语音应用可以存储在语音应用服务器中用于执行。其他情况中执行过程包括由访问用户触发产生的语音分配，或由于呼出呼叫向用户提供会话。

附图说明

图1A中的框图阐释了依据现有技术的一个VXML可行IVR的开发和配置环境的基本结构。

图1B中的框图阐释了图1A中使用了本发明后增强了的基本结构。

图2是本发明的一个实施例的程序流程图，阐释了为VXML语音应用生成一个语音应用框架(shell)或容器(container)的步骤。

图3中的框图阐释了本发明的一个实施例的一个简单的语音应用容器。

图4中的框图阐释了本发明的一个实施例的一个会话对象模型。

图5是本发明的一个实施例的程序流程图，阐释了VXML可行语音应用中生成语音会话的步骤。

图6中的框图阐释了本发明的一个实施例中和用户建立连接之后的会话转移流程。

图7是本发明的一个实施例的开发器框架的平面图，含有开发器的登录界面。

图8是开发器框架的平面图，含有图7的开发器平台界面的主页的界面。

图9是开发器框架的平面图，通过图8中前一个界面中的部分803中的“地址”选项得到的地址簿911的界面。

图10是开发器框架的平面图，显示了一个创建新语音应用的界面1001。

图11是开发器框架的平面图，阐释了图10中的界面向下滚动后显示了更多的选项。

图12是本发明的一个实施例中会话设置窗口中的会话设置页面的界面。

图13是图12的会话设计面板的界面1300，阐释了随后的连接中会话状态的过程。

图14是优选实施例中由图13的例子激活的词典设置窗口的界面。

图15是本发明的一个实施例的开发器框架的平面图，阐释了一个对生成后的模块进行管理的界面。

图16中的框图阐释了本发明的一个实施例中图6增强了Web数据获取的会话转移流程。

图17是本发明的一个实施例中对图1B中的语音应用分布式环境增加了用于自动Web数据获取以及数据提交的单元。

图18中的框图阐释了获取到的一个Web站点逻辑层次，并且并作为目标模块生成。

图19中的框图阐释了对图18中的模块进行处理并简化用来更经济地进行数据提交。

图20中的程序流程图阐释了降低Web站点逻辑树复杂性的中间步骤。

图21中的框图阐释了本发明的一个实施例中语音入口和Web站点服务器之间的安全连接。

图22中的框图阐释了本发明的一个实施例中带有词汇表管理服务器和软件的增强了的图1B中的结构。

具体实施方式

根据本发明的优选实施例，发明人在这里以一种可以实现的方式，描述了一种以面向对象的方式进行开发并可实时配置动态或静态语音应用的新颖系统，在所支持的通信环境内允许IVR向内或向外传输以及其他的交互语音方案。

图1A中的框图阐释了依据现有技术的一个VXML可行IVR的开发和配置环境的基本结构。如背景部分所述，该例子的现有技术的结构对于发明人来说是已知的并且是可用的。对进行开发和配置语音应用的所示环境，此种情况是电话环境，需要本领域中很高的技术水平。该现有技术的例子中在说明书中的背景部分已经介绍过的单元在此不再重新引入。

在简化了的情景中，语音应用服务器110使用了数据库/资源适配器113用于访问数据库或其他资源库获得数据内容。包括了VXML脚本、商业规则、以及下层电话逻辑的应用逻辑112必须在单个应用由提交引擎111提交之前仔细开发，认真测试。一旦语音应用完成并且服务器110可以提供服务，语音应用可通过数据网络120对电话服务器130进行配置，其中使用了解释器131和文本语音转换引擎132把语音应用以电话软件和硬件133可使用或可执行的格式进行表达和传送。应用程序可通过主流的网络134送往接收设备，此处的设备135图示为电话，这种情况中的网络一般由电话交换机(未示出)将与公共交换电话网(PSTN)相连的电话服务器和消费者(设备135)连接起来。

本发明涉及的实施例比现有技术的例子技术上的提高主要集中在应用服务器110的性能上，包括关于开发和配置规则以及关于响应能力和双向交互会话的选项的总体提高。使用了认为是现有技术的结构描述，发明人在此处还描述了图1A的现有技术的例子中未示出的其他单元，但在图1B的例子中以一种新颖的方式进行描述。

图1B中的框图阐释了图1A使用了本发明增强后的基本结构。图1A中的现有技术的例子中的单元在图1B中保留了原来的附图标记，没有重新引入。为了参考的目的，开发语音应用的一个实体(一个人)在说明书的下面部分中指制作者或开发者。

根据本发明的一个实施例，语音应用的开发者或制作者最好在远程计算机工作站上操作，这里标注为工作站140。工作站140基本上是与网络相连的计算机工作站。工作站140可被置于同样包括了应用服务器110的物理域中。另一个实施例中，工作站140和应用服务器110可安装在同一个机器内。另外一个实施例中，开发者可在他或她的办公室或任何可联网的位置，包括任何无线位置，对工作站140进行操作。

工作站140安装了客户软件工具(CL)141，使开发者能够通过用服务器110，130和接收设备135所表示的主流系统创建语音应用并进行配置。CL 141是一个与该例子中的Web浏览程序类似的或与其结合而成的Web接口应用程序，然而也可采用其它网络方案。CL 141包含了根据本发明的实施例，开发者所需的能够提高性能的软件工具。工作站140与一个语音入口143连接，语音入口置于数据网络上(Internet，以太网，企业内部网等等。)和/或电话网络134内。本例中入口143在两个网络中都做了逻辑上的标注。语音入口143用于使开发者或语音应用的消费者能够调入选定的语音应用，并在其上执行功能性操作(如访问、监控、修改)。

根据本发明的实施例，应用服务器110内有一个语音应用开发服务器142和现有单元111-113相结合的实例，以提供动态的语音应用开发和配置。

可通过与工作站140相连的网络连接以及通过电话网络134连接到语音应用消费者的网桥来访问入口143。一个例子中，入口143作为应用服务器110的一部分。语音入口143除了作为消费者的访问点，主要是作为开发者的接口服务器。语音入口143通过一个适用于CL 141的服务器实例的SW实例144来起动。在电话实施例中，入口143可以是一个交互语音响应(IVR)单元。

在一个优选实施例中，语音应用的制作者或开发者通过入口143和使用远程的工作站140作为“Web接口”的数据网络120来访问应用服务器110，并首先创建通讯录。另一个实施例中，工作站140通过一个网络接口直接访问应用服务器110。连接就类似于需生成语音应用的消费者。收到请求后，CL 141根据需要显示出所有所请求的交互界面，并进行设计、修改、例证并执行从应用服务器110发来的、由服务器130传送的、已完成了的语音应用。

本发明中的软件可将语音应用模型化成一系列具有商业和电话规则(或其他通信传送/访问系统)参数的会话目标，而不需要开发者去执行复杂的编码操作。提供了会话模板用来对会话状态进行建模。会话模板能生成实际的语音会话，指定会话的语音应用消费者(接收方)，捕获来自语音应用消费者(接收方)的响应，并根据消费者响应的系统解释去执行任何后续动作。会话是可以再次使用的单元，可连接到新的会话或现有(预存)的会话上。语音应用就是根据语音应用开发人员设定的一系列商业规则而相互连接的一组会话。一旦语音应用完成，就由服务器110进行配置，并最终通过电话服务器130送到已授权的用户群(设备135)。

在一个优选实施例中，语音应用是VXML格式，并在适用VXML的电话服务器130上运行。该过程通过VXML提交引擎111实现。引擎111直接与服务器130互动，对待判别的语音应用进行定位，恢复它的语音应用逻辑，使用VXML动态创建表示程序，并送往服务器130用于处理和传输。一旦解释器131对VXML格式的表示程序解释完毕，就以一个交互会话(此处情况是IVR会话)的形式送往设备135或由设备135获得。来自设备135的任何响应沿着同样路径返回到应用服务器110，被引擎111解释。这样，服务器110就通过适配器113从数据库取回了语音应用的概况，并确定需本地执行的下一个交易规则。基于这个判断结果，执行与该规则相对应的操作。然后下一个(如果需要的话)VXML表示程序被送到提交引擎111，依次动态产生下一个VXML页面，在服务器130中进行释义、处理及配置。用于这种在适用VXML电话服务器(130)和语音应用服务器(110)之间的双向互动以VXML会话的自动逻辑序列形式持续进行，直到语音应用最终到达终止状态。

语音应用(一个或多个会话组)可通过内部调用或外部调用的形式送往消费者(目标听众)。对于内部调用语音应用的情况，语音应用消费者呼叫进入语音入口143，访问服务器130提供的内部语音应用。语音入口可直接映射为电话号码或作为电话总机号码的一个分机。在一个优选实施例中，语音入口还可作为社区论坛，在这里语音应用的制作者可以把他们的语音应用分成组，从而方便获取以及执行操作如语音应用链接、报告、以及文本语音转换记录等操作动作。

外部调用语音应用有两种子类型。分别是请求型(on-demand)外部调用和预定型(scheduled)外部调用。对于请求式外部调用，语音应用开发人员发出一个和应用相关的外部调用命令，服务器110就立即产生一个外部调用呼叫。外部调用呼叫是面向目标听众的，而服务器130一收到呼叫就会发出语音应用。对于预定外部调用，当到达开发者指定的日期和时间时，调度服务器(在服务器110内，未示出)就会发送出语音应用。优选实施例中，请求式和预定式外部调用的配置功能都支持单点传输、多点传输，以及广播几种传输方案。

如上所述，应用服务器110生成的语音应用包含了一个或多个会话。每个会话的内容可是静态或动态的。静态内容源自语音应用开发者。生成语音应用的同时，开发者也创建了静态内容。动态内容则来自一个第三方的数据源。

在一个优选实施例中，开发工具包含一个交互会话设计面板(稍后将详细描述)，在这里开发者对会话描述或响应域输入一个扩展标记语言(XML)格式的参考链接。当会话响应执行完并被应用服务器110解释后，参考链接调用资源适配器113中的资源应用程序接口(API)。API实时工作，取回所需的数据，并把返回的数据集成到现有的会话内。由此随即产生的VXML页面上就嵌入了动态数据。

本发明的一个目标是高度动态、实时的IVR系统，且能够根据应用程序开发者的指定数据源的要求来自动的自我调整。本发明的另一个目标是不需要任何VXML或其他编程技术的背景知识就可对语音应用进行快速开发和配置。本发明更进一步的目标是减少一般的语音应用的开发周期，并且大幅降低开发成本。

图2是本发明的一个实施例的程序流程图，阐释了对VXML语音应用生成一个语音应用框架或容器的步骤。开发者使用的客户程序认为是小客户量，类似于参照图1b描述的工作站140上的CL 141，生成语音应用框架或容器。步骤201处，开发者通过登录界面登录到系统中。开发者在步骤202创建一个应用消费者的通讯录。一般来说步骤202之前会显示一个问候或欢迎页面。应用消费者一般是听众，可以访问一个或多个实体并通过语音应用进行互动。首先创建了通讯录，这样如果稍后需要呼叫路由逻辑时，在创建语音应用的过程中，所有预期的连接都是可用的。通讯录在多于一个联系人时可由制作者分别输入，或从一些组织/规划软件中引入通信表，如MicrosoftOutlook^TM或PDA^TM organizer。

本发明的一个实施例中，通讯录可被放在一个外部设备中，并通过合理配置的预设好的连接器(未示出)来访问，目的是访问并获取列表。例如，这种方法可用在使用了现有的大型客户数据库时的情况中。即从原始数据库中提取出所需的数据并提供给程序，而不是生成一个数据库的拷贝。

步骤203处，生成了一个语音应用头。语音应用头仅仅是应用程序的标题字段。该字段包括应用程序的名称和应用程序的描述。步骤204处，开发者把语音应用分配成内部调用状态或外部调用状态。外部调用应用程序通过一个外部调用呼叫进行传输，而消费者访问的是内部调用语音应用程序。

在内部调用应用程序的情况下，在步骤205处系统为内部通信设置了一个缺省地址。开发者在步骤206时从配置过的列表中选择一个会话。该例假定这些会话已经创建。步骤207时，开发者执行该会话，然后自动进行配置。

步骤204中指定为外部调用形式时，开发者需在步骤208时选择一个启动类型。该启动类型是请求型或预定型。如果步骤208中开发者选择了预定型，那么在步骤209处，开发者就输入用于启动的全部的合适的时间和日期参数，也包括重复启动同一应用程序的参数。如步骤208中选择了请求型启动方式，那么在步骤210处，开发者从在步骤202处建立的通讯录中选择一个或多个联系人。此处应注意到预定型启动方式中开发者在步骤209之后同样要执行步骤210。会话在步骤207处创建。该步骤中创建了其中有预望的互动的语音应用中可能的会话响应列表，并存储以供使用。

一般情况下，开发者生成语音应用后，将它和后端数据源或者可选地与任何第三方资源进行集成，然后对语音应用进行配置。然后消费者开始使用语音应用，可选地，系统对语音应用收集到的消费者的反馈信息进行分析，如果合理的话可进行进一步的互动。本例中的步骤属于从已有的“建筑材料(building blocks)”中产生和启动语音应用。

图3中的框图阐释了根据本发明的一个实施例的一个简单的语音应用容器300。程序容器300是一个逻辑容器或“语音应用对象”300。容器300又可称为框架(shell)，在逻辑上描述成上述图2的过程的可能结果。此处容器300包含了一个或多个会话状态，标注成会话301a-n，本例中是会话1-4。会话301a-n是对象，因此容器300是会话对象301a-n系列的逻辑组。

本例中表示的会话对象301a-n根据标注为规则1-4的业务规则进行互连。规则1-4由开发者设定，是规则对象。此处需要注意的是组成容器对象300可能有更多或更少的会话对象301a-n及互连业务规则对象1-4，这没有偏离本发明的主旨和范围。发明人对每个实体描述了4个，并认为已经足够用于解释本发明。

除了所述的对象，语音应用框架300包括许多设置选项。本例中，基本设置选项列成表格作为参照，图中列出了3个设置选项，编号是305a-c。从上至下读取该表，第一个选项是启动类型(305a)规定了语音应用300进入通信系统的初始入口点。如上面图2中的步骤204所述，启动类型305a可选为内部调用或外部调用。另一个实施例中，启动类型可由第三方规定或者设定成除内部、外部调用以外的其他模式。

外部调用启动方式设计成语音应用连接到一个或多个地址(消费者)。地址可以是单个联系人或联系人组，通过通信录或分配表来表示，如上面图2中所述(步骤202)。这种情况下当启动了外部调用语音应用时，就被送往语音应用外部调用通信表(未示出)指定的地址。所有指定的地址都接收到外部调用语音应用的一份拷贝，并有同等的机会与语音应用会话及如果在特殊的应用程序中使用了相应的后端数据源进行互动。

启动类型305a设定为内部调用语音应用时，系统向程序发出指令，假定一种就绪等待状态。当设定的语音应用消费者主动发出请求访问语音应用程序时就启动该应用程序。一般的调用中央IVR系统可假定这种类型的内部调用应用。

如果语音应用启动类型设置305a设成外部调用时，启动时间设置(305b)选项才有效。启动时间设置用来对一个新颖的时序引擎进行设置，如图1B所述，引擎假定为应用服务器功能的一部分。时序引擎控制何时向指定地址传输语音应用的时间参数。时间设置可以反映请求型，预定型，以及任何第三方设定的模式。

请求型可以让开发者完全控制语音应用的启动时间。请求型同样允许任何第三方发出一个触发来启动语音应用。此处需注意的是被第三方控制时，语音应用能作用于不止一个通信系统或网络。

属性设置305c基本规定了语音应用程序一般情况下的行为。设置305e可能的状态选项是公共的、持续、或共享。公共状态设置表明语音应用在语音入口域内，任何用户都可获取，这样所有具有最小权限的用户都能使用该应用程序。属性设置305c的持续状态即确保不管有多少用户想访问该应用程序，只有一份语音应用拷贝是永远有效的。这种情况的一个例子是任务分配语音应用。例如，在任务分配的情况下，用户只有在一定数量的时隙内能访问该应用程序。如果任务是一组联系中的一个请求，如客户支持技术人员要建立一个预定的聊天会话(chat session)，那么无论何时选择一个时隙后，其他的技术人员就只能选择剩下的时隙。因此如果只有一份语音应用拷贝在一组技术人员内循环使用，程序根据先到先服务规则来捕获技术人员的响应。

属性设置305a设成共享状态时，消费者可以“看见”会话中其他技术人员的响应，不管语音应用是否持续。一旦语音应用框架生成后，制作者就可根据图2中步骤207的描述生成语音应用的第一个会话。此处需要注意的是使用了一个远程且最好是台式客户机对框架300模型化，稍后将在说明书中详细描述。

图4中的框图阐释了本发明的一个实施例的一个会话目标模块400。会话对象模块400与上面图3中描述的会话对象301a-n类似。对象400把会话和它的全部属性模型化。会话对象400中的属性对象，标注为对象属性(410)，包含了会话类型以及包括适用于该会话的行为状态和业务规则在内的属性。

例如，每个会话都有一个“发往(route-to)”属性，例中标注为Route To属性(411)。属性411映射到并识别出会话源。同样的，每个会话都有一个“发自(route-from)”属性，例中标注为Route From属性(412)。属性412映射到并识别出会话的接收方联系人或会话用户。

每个会话都要被归入一种会话类型，本例中的属性标注为Dialog Type，编号为413。会话类型413可能包括但也并不局限于以下几种会话类型。

1. 广播型会话(Radio Dialog)：广播型会话允许语音应用的用户在听到会话描述后，从选项列表中的可用选项中交互式地选择其中之一。

2. 公告板型会话(Bulletin Dialog)：公告板型会话允许语音应用的用户通过类似公告板论坛进行互动，这样多个用户可以以异步方式共享语音信息。

3. 声明型会话(Statement Dialog)：声明型会话向语音应用用户发出一个声明，而不期望得到用户的任何响应。

4. 开放入口会话(Open Entry Dialog)：开放入口会话允许语音应用的用户在听到会话描述后能够记录一段预定长度的信息。

5. 第三方会话(Third Party Dialog)：第三方会话是一种模块容器结构，允许开发者根据自己的属性和行为方式生成定制的会话类型。例如Nuance’s SpeechObiect^TM。

每种会话类型有一种或几种相关的业务规则，决定在下一步对感知的状态做出响应。有一个规则将应用程序用户的响应和程序开发者定义的操作数进行比较，使用的运算符如小于，大于，等于，或不等于。在本发明的一个实施例中该规则的参数如下：

如果用户响应等于预设值，那么执行下列之一：

A.没有动作并终止会话状态。

B.实时(live bridge)转移到指定的联系人。或，

C.把另一个会话送往另一个联系人。

外部调用语音应用的情况中，与感知的状态相关的可能是异常处理业务规则。在本发明的一个优选实施例中，异常处理规则归纳成三种不同的事件：

1.需接收语音应用程序的指定程序用户拒绝用语音应用程序进行互动的请求。

2.启动语音应用程序时，程序消费者处于连接忙状态，如电话占线信号。以及，

3.程序用户的连接由无人设备应答或被重定向到无人设备，例如电话答录机。

对于以上每一种情况，根据感应到的状态可能做出下列三种后续动作的任何一种：

1.没有动作并终止会话状态。

2.重新拨叫该号码。

3.把另一个会话送往另一个联系人。

图5是根据本发明的一个实施例的程序流程图，阐释了VXML可行语音应用中创建语音会话的步骤。所有会话都可在随后的会话子程序中重复使用。也就是如前所述，用于每个会话和联系人双方的一组业务规则。只有规则允许后，会话才有效，并能够从一个会话状态转到另一个状态。

步骤501处，开发者生成一个会话描述字段进行会话描述。会话描述还包括下面将进一步讨论的XML标记符。步骤502处，根据会话的指定类型输入会话类型的参数。可用参数的实例可参照上面图4中的描述。

步骤503处，开发者为会话类型设定可应用的业务规则，及根据规则设定随后的程序。一个实施例中步骤503处的规则配置决定了在步骤505处基于应用的规则决定随后的程序。例如，开发者可以在步骤505中设定如步骤506处所示的实时转移；步骤507处转移到生成下一个会话；或者开发者可设定如步骤508处的终止会话。

如果开发者没有从步骤505转到配置子程序506，507，或508，而是从步骤503继续进行到步骤504，其中系统指定会话是内部调用还是外部调用，那么流程必须根据会话是内部调用还是外部调用，从步骤504转到步骤508或509。如果步骤504时会话是内部调用，那么会话在步骤508处完成。如果在步骤504处会话指定为外部调用，那么在步骤509处配置呼叫异常业务规则。

在步骤510处，开发者要为系统处理或异常情况设定至少一个后续动作。如果步骤510处不需要指定后续动作，那么流程转到步骤508结束会话。如果步骤510处设定了一个或多个动作，那么就在步骤511执行一个或多个动作，如图示中步骤511的行为是系统重新呼叫。

在一个优选实施例中，一旦生成语音应用后，可通过电话进行访问和配置。访问的方式当然取决于步骤504中设定的方式。例如，如果程序是内部调用型，语音应用消费者进入一个语音入口来访问应用程序。如上所述，语音入口是一个语音界面，用于使用上面图1B中描述的语音应用服务器的一定数量的功能。语音入口可以是面向连接的交换电话线路(COST)的端口或数据网络电话线路(DNT)的端口。如在步骤504处设定为外部调用，通过一个由语音应用服务器发给消费者的呼叫，语音应用消费者接收语音应用。在一个优选实施例中，外部调用呼叫可以基于COST或基于DNT，这依赖于所提供的通信环境。

图6中的框图阐释了本发明的一个实施例中在与用户初始连接之后的会话转移流程。本例中标示的一些单元在上面图1B中已经引入，因此保留了它们的原有附图标记。本例中，应用消费者标注为应用消费者600，与电话服务器130中的会话601主动地进行互动。如前所述，服务器130也标注为适用VXML的电话服务器。

应用服务器110同样在互动序列中是有效的，并且能向消费者600提供动态内容。当应用消费者600开始连接语音应用时，这里表示为电话服务器130中的会话601，语音应用服务器110对状态进行监控。实际情况中，每个处理后送往服务器130、用于送往消费者或由消费者600访问的会话，是配置并执行后的特定语音应用的很小的单元。因此会话601在逻辑上可表示多于一个的会话。

本例中，假定表示多于一个的会话，会话601在互动过程中负责获取消费者600的响应。标注为发送和响应的箭头表示了所述的互动。当消费者600对会话内容作出响应时，响应沿着同一路径送回到VXML提交引擎111，引擎对响应做出解释，并把解释后的版本送往所提供的会话控制器604。控制器604是图1B中所述的服务器110内的应用逻辑112的一部分。会话控制器604是一个模块，能够根据预先设定的规则和响应参数执行表查询、数据获取以及数据记录功能。

会话控制器604接收到会话响应后，把和待处理的会话(601)相应的响应存储到所提供的数据源602中用来进行数据挖掘(mining)操作以及工作流程监控。然后控制器604向所提供的规则器603请求查询业务规则或与已存的响应相对应的规则。一旦对该响应定位出正确的业务规则，会话控制器就开始解释。如果所访问的业务规则需要参照第三方的数据源(未示出)，控制器604需从该数据源中取得必需的数据。控制器604返回的任何数据都被集成到会话内容中并通过VXML提交给引擎111，以生成下一个会话601的会话页面。该过程一直重复，直到会话601终止为止。

一个实施例中，接收到消费者600的响应之后，由控制器604所访问的业务规则实现会话转移状态，而不是返回到当前程序消费者。这种情况下控制器604引起了应用服务器110的一个外部调用呼叫，向指定的目标应用程序消费者传输下一个会话或“生成的会话”。同时，如图5中步骤508所述，根据业务规则中预设的特定逻辑，当前消费者结束了他/她的会话状态。

对于本领域技术人员来说很明显的是，根据规则器603提供的规则使得控制器604能访问数据源602，从而会话可以包含动态内容。大多数实施例中，一般有两种类型的动态内容。优选实施例中的两种类型的结构都是XML格式，并被直接嵌入下一个生成的会话页面中。两种类型的动态内容的第一种归为非循环类。非循环内容相对参照了标注在资源适配器注册表中的非循环资源，资源适配器类似于图1B中所述的语音应用服务器110的适配器113。

上述情况中，会话控制器604对会话进行解释，首先扫描所有资源标注。如果发现匹配资源，就查询资源适配器注册表，然后调用相应资源的API以获取下一个会话内容中所需的数据。一旦第三方数据源返回了原始数据，把原始数据通过相应的资源过滤器做进一步的处理。当过滤器处理过程完成后，会话资源标注或标记被过滤后的数据替换，并被透明地集成到新会话中。

动态内容的第二种类型是循环型。循环内容通常返回不止一个名称和数值对。一个例子是消费者股票总量程序的股票清单。例如，会话能使消费者600模仿一个特定的股票，并得到随后返回的报价，这是通过另一个会话状态使用了循环的动态内容获得了所需结果。循环内容相对参照了标注在语音应用服务器110内的资源适配器注册表内的循环资源。会话控制器604对会话进行解释，对资源进行操作的方式和非循环操作相同。然而，它不是简单地把过滤后的数据返回到会话内容中去，它是在数据列表中循环，并把列表中的每一项设定为语法型的关键词。这样做后，消费者600可以模仿第一个会话中列表项的其中一种(单独股票)，捕获响应，进行处理，并返回到下一个会话状态。下面的股票报价的例子阐释了从消费者600的观点来看可能的会话/响应的状态。

语音应用程序：“早上好Leo，你需要哪一种股票报价？”

应用程序消费者：“Oracle”

语音应用程序：“Oracle是17美元。”

语音应用程序：“早上好Leo，你需要哪一种股票报价？”

这个特定的例子包括两个会话。

第一个会话以语句“早上好Leo，你需要哪一种股票报价？”开始。这个语句之后是等待状态，等待听到关键词如Oracle，Sun，Microsoft等。该语句包含了两个动态非循环资源标注。第一个是当天的时间：早上好，下午好，或晚上好。第二个动态内容是应用程序消费者的名字。这种情况下，应用程序消费者的名字在语音应用服务器内部，因此该资源标注的类型是SYSTEM。在实际的会话描述字段中，看起来如下所示：

<resource type＝’ADAPTER’name＝’time greeting’/>resource

type＝’SYSTEM’name＝’target_contact’/>，what stock quote doyou want？

因为会话希望用户从他/她的现有清单中说出一种股票，会话类型是广播型会话，并且广播型会话的期望的响应属性是

<param>

</param>

</resource>

这段XML资源标注是告诉会话控制器604去寻找标注为stock_list的资源，并调用相应的参数为target_contact_id的API。一旦数据获取完成后，股票的列表作为语法部分集成到会话中。并且无论何时用户按照股票识别作出响应，而识别对照待判别的语法(清单中的证券)进行匹配，并把语法返回值指派给会话响应，会话响应可以把它送往下一个会话作为DIALOG类型的资源。

开发者可使用<resource type＝’DIALOG’name＝’dialog_name’/>，在任何随后的会话中参看任何会话返回值。该规则使得开发者能够在任何后续会话中显示出程序消费者之前选择过的选项。

上述的第二个会话显示了从第一个会话中选择的股票报价，然后返回到第一个会话流程。因为该会话中没有其他的分支逻辑，本例中的会话类型是语句会话。会话的后续动作只是流程简单的返回到第一个会话。这种情况下，会话语句是：<resource type＝’DIALOG’name＝’select stock dialog’/>

<param>

</param>

</resource>

除了提到的ADAPTER，DIALOG和SYSTEM类型，会话也可包括其他的资源类型如SOUND和SCRIPT。通过在会话描述中插入一个声音片断，SOUND可使会话描述拟人化。例如，在股票报价之后播放一段声音，开发者就在ADAPTER资源标记后插入<resource type＝’SOUND’name＝’beep’/>。

使用<resource type＝’RESOURCE’name＝’confirm’/>，开发者可在会话描述中加上一个定制的VXML脚本，这样在优选实施例中，任何VXML都可透明的集成入会话内容中，且具有最大的灵活性和扩展性。

对于本领域技术人员来说很明显的是，这里引用的例子中使用了VXML和XML作为标记语言和标记，此处需要注意的是其他适合的标记语言也可被适当地使用或和提到的规则进行集成也没有偏离本发明的主旨和范围。对于本领域技术人员同样明显的是，如果本发明的初始描述中语音应用服务器和电话服务器的接口使用了普通的HTTP请求和响应，需要注意的是本发明可在能够通过任何分配网络对明确的请求和响应进行处理的任何系统上实现。

图7-15阐释了类似于图1B中工作站140的CL 141的开发平台界面的不同浏览器的图框。下列界面框和图框内容的描述首先假定了存在一台类似于工作站140的台式主机，其中HTTP请求/响应格式的业务是可实现的，例如在Internet网络上进行开发的情况。但是下列描述不应局限于本发明中的方法和装置，不同协议、网络、接口设计以及操作范围都可改变。

图7是本发明的一个实施例的开发框架的平面图，含有开发登录界面700。本发明的一个实施例中，图框700以一种网络浏览器容器的形式。商业的网络浏览器都是众所周知的，任何合适的网络浏览器都能支持该平台。图框700也包括了大多数网络浏览器图框中的传统的选项，包括后退、前进、进行、文件、编辑、视图等等。本例中有一个导航的工具栏。界面710是登录页面。实施例中，开发者可能有一个开发帐号。另一个情况是不止一个开发者共享一个帐号。这有许多种可能性。

界面710中有一个区域用来输入登录ID和登录个人识别码(PIN)。一旦登录参数输入完毕，开发者单击名称为登录的按钮提交该数据。界面710可适用于在台式计算机上或其他许多设备上显示，这些设备能够以特定的、并可在其上显示的格式进行网络连接。

图8是开发器框架的平面图800，含有图7的开发平台界面的主页的界面。图框800包含了一组界面，包括欢迎部分801，产品识别部分802以及导航部分803，这三个部分合在一起构成了整个屏幕或显示区域。发明人给语音应用开发者的平台设计的商业名称是Fonelet。导航部分803在“主页”以及随后的软件工具的图框中都有显示。

导航部分803从上至下包括了多个有用的链接。开始链接到主页，然后链接到地址簿。创建一个新的Fonelet(语音应用)的链接命名为新创建(Create New)。还提供了链接到“我的(My)”Fonelet和链接到“选项(Options)”。如图所示，标准帮助链接在登录退出的链接旁边。803中所示的最后一个链接是一个额外的“选项菜单”。803部分通过使用本例中的显示类型的常用的下拉栏向下滚动，还可看到另外的链接。

图9是开发框架的平面图900，通过图8中前一个界面中的部分803中的“地址”选项得到的地址簿911的界面。界面911作为一个选项，可列出各个联系人以及列出通讯录。通讯录是语音应用消费者的列表，而各个联系人就如本例中代表一个消费者。但在其他实施例中，各个联系人也可能意味着不止一个实体。导航屏803显示在界面911的左边。本例中，联系人依序列出了名，姓，电话号码和电子邮件地址。包括或未包括其他的联系人参数都未偏离本发明的主旨和范围。例如可列出一个联系人的Web站点，也可能是接收语音应用的接口。列出的联系人的左边是选择框用于选择和设定。交互人选项以按钮的形式显示，并使得开发者可以添加或删除联系人。

图10是开发器框架的平面图1000，显示了创建一个新的语音应用的界面1001。界面1001对创建一个由发明人命名为Fonelet的新的语音应用初始化。界面1001中有一个命名区域1002用于输入应用的名称。描述区域1003用于输入应用描述。还显示了属性部分1004，其使得开发者通过单击合适的方框，从列出的可用的选项中选择公共、持续、以及共享。

会话流程设置部分包括一个会话类型区域1005和随后的选择联系人或联系人组的区域1006。所需信息正确输入到恰当的区域之后，开发者单击标为创建的选项1007开始创建会话。

图11是开发器框架的平面图1100，阐释了图10中的界面1001向下滚动后显示了更多的选项。显示了一个呼叫进度表设置部分1101，并提供了请求型或预定型的作用选项。如前所述，选择请求型使得程序按照开发者的意愿配置，而选择预定型，则根据时间/日期参数对预定的配置进行初始设置。接下来的一组登录区域1103用来设定预定型启动的一星期中的一天和一月中的一天。接下来的登录区域1104用来设定预定型启动的小时和分钟。此处需要注意的是这些选项可使同一应用程序重复启动。一旦开发者不再指定语音应用框架，他或她可单击标为创建的创建会话按钮，以打开一个用于会话创建的浏览窗口。

图12是本发明的一个实施例中会话配置窗口1200中的会话设置页面的界面。本窗口中开发者设定语音应用或Fonelet将链接的第一个会话。会话识别部分1201用于确认并描述即将创建的会话。一个文本输入区域用于输入会话名称，另一个文本输入区域用于输入会话描述。在会话描述区域中插入了一个XML资源标记(未示出)。例如，可以是登记在应用服务器中的资源适配器内的资源标注的机器码，资源适配器类似于图1B中所述的应用服务器110的适配器113。

界面1200中有一部分是1202，使得开发者对期望的响应进行设置。这种情况下会话类型是广播型会话。1202部分为多个选择性的会话提供业务规则逻辑控制。1202部分包含一个是否响应的选项。此处需要注意的是除了简单的是否响应，还有更多不同期望的响应。

1202部分中相邻的部分是根据会话实际响应的结果，设置将发生的后续动作。例如，可对每个是和否的期望响应都选择没有动作。一种后续动作的情况中，对每个期望响应选择连接。在图示的连接选择旁是选择区域，用于选择一种后续动作，包括数据获取。

发送选项是使得发送选择后的包括任何嵌入数据的后续动作。后续动作可以是设置响应的任何一种类型，如发送一个新的广播型会话，发送机器修复请求等等。发往选项和相应的选择项是用来确定后续动作的接收端以及能够自动向接收端发送动作。例如，如果第一个会话是请求向多个内部维修技术人员提供机器修复服务，那么如果第一个联系人拒绝接受该任务时或在该配置时刻不可用，后续动作就可把相同的会话发送给下一个可用的联系人。

上述情况中，可以沿着列表向下从一个联系人向另一个联系人传送该会话，直到其中一个联系人可用，并通过接受该任务与会话进行互动。这种情况下的后继行为可以是向接收任务的联系人发送一个新的会话，详细描述哪个机器需要修复及包括问题的诊断数据的参数，以及修复应在何时进行。本例中，提供了一个显示细节的选项目的是为了让开发者进行检查。同样还提供了创建新的或额外的响应的选项以及从系统中删除现有响应的选项。此处需要注意的是一旦会话和会话响应被创建后，在整个语音应用以及语音应用的任何规定的情况中都是可重复使用的。

界面1201中还有一个部分1203用于处理“发往”(Route-To)的连接异常。该部分使得开发者在程序进行配置时对可能遇到的连接状态设定下面该做的事。例如，对于呼叫拒绝，线路忙，或连接到语音信箱，图示中有没有动作及重新拨叫的选项。在此需要注意的是可能会有比本例中更多的异常情况和后续动作类型，这并没有偏离本发明的主旨和范围。

对于每种类型的异常情况提供了一个发送选项，可从相邻的下拉菜单中选择重新发送同一会话或其他会话。例如如果第一个会话是请求修复服务，而所有的初始连接都为忙，会话可以在每个忙音后从第一个联系人向下移到另一个联系人，那么从列表的顶部再重新拨号，这样依次送给所有联系人，直到其中一个可用。如果前一个联系人拒绝了会话，或占线，或者因不可用而重新连接到语音信箱上，这种情况中的John Doe代表下一个接收方。仅当语音应用设成外部调用时，1203部分才可用。一旦第一个会话由开发者创建完成并有效，如果需要的话，单击标为“详细”的可用按钮的其中之一可以创建第二个会话。同时还提供了交互按钮用于保存会话、保存并关闭、以及撤销更改。

图13是图12的会话设计面板1200的界面1300，阐释了随后的连接中会话状态的过程。例中图12中设定的会话状态现在在部分1301中从发自选项列出的联系人发送到发往选项列出的联系人，1301类似于图12中的1201。本例中，包括的联系人有John Doe和Jan Doe。这样因为会话被重复使用，会话名称和描述都是相同的。开发者不需要重新输入任何会话内容。但是因为每个会话与接收方的关系都是唯一的，开发者必须设置相应的业务规则。

本例中的部分1302和1303类似于图12中的部分1202和1203。这样如果John拒绝了机器修复的请求，那么系统建立一个转移到Jan Doe的桥接。如发往选项的连接异常区域1303中所示的异常情况，所有情况都被引导到重新拨号路径。除了在响应区域1302内插入关键词如“是”或“否”，开发者可单击一个本例中未示出的词典按钮来创建一个定制的词典。词典中所有生成的词汇表都可以在之后开发者创建的任何语音应用中重复使用。

图14是优选实施例中由图13的例子激活的词典设置窗口1400的界面。词典窗口1400中的部分1401包含了一个词汇表单词标注的区域以及相应列出该单词的同义词的区域。本例中，单词no可能引起的响应有no，nope，以及句子“I can not make it”。这样语音识别控制可以以一种人性化的方式进行训练，从而适应含义相同的不同响应。

词汇表部分1402用于列出语音应用的所有创建的词汇表单词以及从单词列表中选择其一的选择机制(本例中的选择栏)。部分1402中也有生成新单词和同义词对的选项。窗口1400内还有控制面板部分1403，用于控制从词典中选择；更新词典；从词典中删除；以及退出词典。

图15是本发明的一个实施例的开发器框架的平面图1500，阐释了一个对生成后的模块进行处理的界面1502。

关掉所有会话窗口后，图框1500显示用于模块管理选项的界面或页面1502。菜单部分803再次可见。在图框803中单击选项“我的”或“我的Fonelet”，就出现界面1502。界面1502列出所有已创建并可用的语音应用。列表中，每个语音应用邻近都有一个方框，可被选择用于改变该特定程序的状态。界面1502中标为状态的一列，与已创建的程序列表相邻。

状态栏列出了每个语音应用的可变状态。可用的状态选项包括但并不局限于列出的状态，停止的，激活的以及内部调用。状态栏旁边是标为直接访问ID的一列，使得开发者能够直接通过PSTN网络中的语音接口或一个实施例中的DNT语音接口获取语音应用。PSTN实施例中，直接访问ID的功能可服务于总机号码的分机。另一个标为动作的一列在直接访问ID旁边，功能是使得开发者根据语音应用的状态选择并应用一个特定的动作。

例如，假定开发者刚刚完成程序识别列表顶部的名为区域支持中心(FSC)的语音应用。现在，FSC列出的状态是停止的。开发者现在可激活相应的动作下拉菜单并选择激活来根据请求启动了程序FSC。在预定型启动情况中，根据定义在语音应用框架中的设置，自动激活语音应用。

一旦激活命令被执行，请求式的需求开始排队等待通过系统外部应用服务器进行分配。例如，John Doe接到了语音应用服务器(110)的一个呼叫，询问John是否想接受该呼叫。如果John回答“是”，就开始执行语音应用。实际的呼叫流程如下：

系统：“你好John，你接收到一个来自Jim Doe的fonelet，你愿意接受该呼叫吗？”

John：“是的。”

系统：“机器号008发生故障，你可以去修复它吗？”

John：“不行。”

系统：“谢谢使用fonelet。再见！”

系统：终止和John的连接，把呼叫流程记录到数据源中，并产生一个对Jane Doe的新呼叫。

系统：“你好Jane，你接收到一个来自Jim Doe的fonelet，你愿意接受该呼叫吗？”

Jane：“是的。”

系统：“机器号008发生故障，你可以去修复它吗？”

Jane：“我不会修复它。”

系统：“请等待，fonelet正把你转向Jeff Doe。”

系统：在Jane Doe和Jeff Doe之间建立连接。当会话结束后，终止和Jeff的连接并把呼叫流程记录在数据源中。

语音应用的缺省正文内容是由安装在电话服务器或DNT服务器上的文本语音转换引擎生成的。但是语音应用制作者可通过PSTN或DNT服务器进入语音入口，并通过语音应用中任何现有的提示记录他/她的语音。

对于本领域技术人员来说很明显的是，本发明的方法和装置可用于CTI电话技术环境，开发者通过与数据网络相连的计算机工作站上运行的客户程序进入该环境进行应用程序开发，该数据网络也和生成应用程序的服务器及电话技术单元具有连通性。本发明的方法和装置也可用于基于DNT的系统中，其中电话服务器和应用服务器都连接到数据网络如著名的Internet网络。对于所有通信环境的混合，包括任何合适的适用VXML或其他可行的标记语言的多层系统，程序都能产生同样的效果。

对于本领域技术人员同样很明显的是，对包括单个会话和响应的语音应用建模使得任何开发者通过重复使用模块格式中的已有目标，能够迅速的创建大量的语音应用，因而使得从一个现有的对象存储就能得到很大范围的有用程序。

自动收集Web数据

本发明的一个实施例中，能够自动收集一个或多个Web站点的数据，被VXML引擎提交用来产生语音响应，并且用户通过基于PSTN的入口可以得到该响应。下面马上描述这种增强效果。

图16中的框图阐释了本发明的一个实施例中图6增强了Web数据获取的会话转移流程。本实施例中会话控制器604增强了从HTML，WML，或其他数据源中获取和收集数据，例如本例中的数据位于Web站点上。本实施例的一种方案是银行机构允许他们的所有顾客通过一个语音入口进入他们的站点。

本实施例中，会话控制器604通过网络访问线1601可进入所示的Web站点1600，这里1601表示了两个方向的通信线。第一根标为存储/获取/输入的传输线通过控制器604进入站点1600。第二根(返回)线标为数据返回/源域。图示中的独立的通信线意思是指与双向Internet或其他网络访问线类似。如前所述图6中的内部数据源(602)在此仅因为说明性的目的被图16的Web站点1600替代。需要注意的是服务器110内部的和外部的多个数据源对于会话控制器604可同时进入。

Web站点1600提供了至少一个电子信息页面(网页)，根据用于创建和维护网页的标记语言的现有规则编排格式。站点1600也可能安装了许多信息页面，其中一些是内部联系的并通过随后的导航行为可进入的。本实施例中的控制器604使用了获取规则引擎603的规则，增强了按照用户的语音输入进行网站导航的功能。会话控制器604提供了一个数据模板(未示出)用于促进站点1600的逻辑数据收集。会话控制器604分析了Web站点源代码和数据域作为返回数据，并使用该信息生成提交引擎111所需的VXML页面。

这里需注意的是站点使用的用于一般Internet获取的所有安全和访问机制可推广到用户，这样用户通过提供一个包含安全获取信息的语音提交(响应)才被允许访问该站点。这使得消费者通过一个与网络相连的计算机进入一般的网站，以及通过语音入口开始语音业务，能够使用相同的安全密码和/或个人识别码(PIN)。

图17是本发明的一个实施例中对图1B中的语音应用分配环境增加了用于自动网络数据获取以及数据提交的器件。本例中，运行客户软件140的工作站140能够直接访问网络服务器1701上的目标Web站点1600。访问通过一根Internet访问线1704实现。

这里需要注意的是本实施例中可能会有很多的服务器1701和许多具有一或多个页面的网站，这并没有偏离本发明的主旨和范围。本例中有一个数据库存储器1702，图示中和服务器1701相连用于数据存储。数据存储器1702可能是光存储器、磁存储器、硬盘、或其他适合存储在线获取的数据的格式。一个实施例中，数据存储器1702是一个相关数据库管理系统(RDBMS)，其中单次访问可涉及一个或多个同样存储数据用于获取的相连接的子服务器。

客户程序141的设置、工作站140、服务器1702、Web站点1600以及通过网络1704相连的数据库1702使得对类似于站点1600的网站进行数据挑选和收集。程序141可读取并接收每个HTML脚本或其他标记语言的脚本的存在的所有缺省响应。这些缺省响应嵌入程序逻辑112和VXML提交引擎111中。一旦网页内容挑选后和被客户程序141使用生成提交，那么VXML提交引擎111通过一个单独的访问网络1703，结合程序逻辑112和数据库/资源适配器113成功地访问网站。例如，如果用户(未示出)通过接收设备135(电话)经语音入口143进入Web站点1600，那么他或她可能被语音提示需要密码才能访问该站点。随后，站点上的获取的数据的提交语音通过电话135返回给他或她。

一般地说，语音入口的开发过程和上面图9-15中所述相同。使用客户程序141可执行一些额外的脚本或会话输入。比起要求程序开发者从零开始收集所有的区域，或重新应用前面输入过的选项，这种情况下可根据从站点1600收集到的信息生成使用如前面图9到15中讨论的业务逻辑的区域。为了这个目的，客户软件141上添加了一个软件适配器(未示出)，并允许客户软件和Web站点1600进行通信，并从包括区域和标注等的源代码中和数据参数及数据变量中收集信息。

这里需要注意的是数据获取、接收和语音提交的过程本质上和上面图2-5的过程相同，除了网站连接需要在选择其他任何选项之前先进行设置。

一个实施例中，服务器110和服务器1701之间的连接规定使得通信机之间如安全套接字层(SSL)、防火墙等等安全环境能应用在对消费者创建的语音方案中。类似的，该安全性和允许银行服务的呼入线需防止可能的窃听等没有什么差别。

对于本领域技术人员来说很明显的是，本发明的方法和装置可用于和Internet、以太网或其他任何合适的网络相连接。标记语言包括HTML，SHTML，WML，VHTML，XML等等。一个实施例中，用户的密码信息被保留在站点中，可自动访问该网站。这有很多可能的情况。

区分用于语音提交的网络数据的优先级

根据本发明的一个方面，提供了一个方法用于对从网站收集到的并要填入语音应用的模板的网络数据进行选择和优先顺序的排列。

图18中的框图阐释了一个简单的网站1801的层次结构树以及站点1801的数据收集后的版本。界面1801示出了从用户接口可能看到的一个简单的网站结构树。可选的图标代表了表示的数据元素，这里用实线1802a到1802n表示在任何示范网站中可以有任意数量的图标。本说明书中为了说明起见，图标1802a-1802n表示可选的图标，标识，超链接等等。每个目标1802a-1802n的类别这里用文本标注1803a-1803n表示。例如，可选图标1802a是连接到站点的“主页”，其意思由相邻的类别1803a显示。接下来的图标(1802b)由登录类别表示为站点的登录页面。一些情况下，图标和类别或标注可能是相同的(显然并不是不一致的)。

本例中，层次结构有一个登录障碍，用户必须成功找到选项才能使用这些选项的功能。提供的选项包括账户、状态、历史、查询、交易和报价按照层次结构排列。例如一个消费者必须首先进入账户才能使用状态(账户/状态)或历史(账户/状态/历史)选项。这种标准结构对于用来创建用于会话导航的语音应用模板的模板填充既不方便也不经济。一个原因是语音应用的创建希望能使用该网站的全部数据，很可能包括一些图形、表格及类似的数据，如果数据描述只是被简单的翻译并通过电话以语音会话返回到正在访问的用户，这些数据很可能不被用户所理解。另一个原因是网站结构1801的一般层次可能并不是以请求/响应格式进行的提交语音会话所希望的层次。一般的来说，一些数据可能是有用的，一些则没有用，而会话所要求的数据对用户和管理员(服务提供商)来说都是重要的。

界面1810表示了界面1801已经被彻底数据收集之后相同的结构，其中站点的源代码中所有的图标和元素都被获取用于可能的模板填充。在此需要注意的是，模板根据管理员设置的限定使得语音应用的目的是获取最新数据并进行提交。网站1810被预备用于模板填充。图标标注从1812a到1812n，且类别标注从1813a到1813n。

对象1810用于模仿网站的一般结构，包括图形，图表，会话框，文本链接，数据域，以及其他任何提供了的特征，使用HTML或站点的其他语言运行。为了减少可能会涉及大量潜在数目的用户来通过一个语音入口来接收会话的因素，为了用户的便利和网络负载稳定都需要更加流水线化。因此，就需要一个中间步骤用来对象建模元素和树层次的重组，这样就可根据所需的选择和层次填充语音应用模板，因此促进产生一个更经济、结构和执行都更优化的语音应用。

本发明的对象建模工具可是上面图1B中所述的客户程序141的一部分。创建组织了层次和所需内容的对象可存在于上面图6中所述的应用服务器110中或语音应用服务器110能访问的本地数据库中。

图19中的框图阐释了图18中的网站结构1801以及创建了一个网站对象进行编辑用于模板创建。其中界面1801和图18中的界面1801的内容和描述都类似，因此参照图18中的结构1801中的元素描述，在此不再重新引入任何元素或描述。

界面1910表示了一个数据收集后的网站，启动时是结构1801，但为了以一种优化的方式生成语音应用模板，根据元素优先级进行了重组。可以看出本例中，执行了重要的编辑来改变被数据收集的网站的原有内容和结构。图标1912a到1912n表示了数据收集后保留的图标。1913a至1913n表明了这些目标的类别。首先，注意到对结构1801中的标为主页和登录的图标进行了优化处理。在收集后的界面1910中这两项被合成一个特定的标为登录的图标从而实现了优化，并给定附图标记1913a。这种情况下账户状态和历史被简化为余额这一最重要也是最经常被请求的信息。同样这种情况下的任何图表，图形及其他画面如果翻译成会话后不能被理解，就简单的从语音应用模板中排除。模板填充之前用于组织的中间步骤可插入到收集网站数据和生成语音应用头文件之间。

成功登录之后，用户输入PIN/用户名/密码组合的语音，被允许通过语音入口进入语音应用，本例中下一个优先考虑的事是使得用户能够快速确定他或她的账户余额或多个账户的余额。附图标记1912b和1912c表示了假定的2个账户的2个余额值。使用更多或更少的优先图标没有偏离本发明的范围。这种情况下，通过优化过程得到的第一个“语音应用”是使用电话把账户余额返回给参加了的用户。此处其他现有的和提供了的选项包括查询、交易和报价用附图标记1913c至1913f表示，被移入一个较高的但级别相同的结构或构成，意味着给它们提供了相同的重要性。这三个选项是相关的，因为包含了股票特征信息的用户请求或响应可用于对任何行为初始化。

图20中的程序流程图阐释了增加了中间步骤后运行本发明的情况。步骤2000处，管理员运行上面图17中所述的客户程序141，对网站收集源数据和数据结构。步骤2001处，管理员创建一个可编辑的对象，表示目标网站的现有结构层次。对象树带有图标和相应的属性，完成后是可执行的。一个实施例中，为管理员提供了许多网站共享的许多标准图标和属性，这样简单的拖拉操作就可生成该对象树。如果开发者必须从零开始来生成一个特定的目标，可使用源标记语言根据表示目标元素的对象结构单元来构造该对象。然后保存新的目标，可用于存储和再利用。

一个实施例中，提交源描述作为发给建模器的指令能自动创建对象树。这种情况下，结果对象被送往管理员作为结果和“准备编辑”，其中步骤2000和2001对管理员如果不是完全透明也是大部分透明的。另一个实施例中，管理员使用工作站的鼠标简单的拖放图标就可进行建模。

步骤2002处，管理员对一些对象进行编辑，使得它们更充分适合VXML语音提交的限定。在同一步骤中他或她也可能从树中删除一些对象。还是在该步骤中管理员能进一步根据翻译的优先权移动对象或进行分组。如果网站有登录要求，它当然是有最高的优先权或是产生的语音应用的第一个可执行的会话。复杂的登录会被简化。而且一个或多个对象可被合并地提交到同一会话中。这里有许多的可能性。

在另一个实施例中，对象树可被实现为一个层或者也可能扩展为包含多个层。管理员同样要把不是从网站获得的原始数据(提交给会话)插入。新内容可放在对象树的任意位置，随后就得到其在产生的语音应用的会话中的优先级的位置。一旦语音应用完成后，程序的初始化和执行引起对站点处任何新数据的获取和接收。使用了一个标准的导航模板来访问站点，且仅根据对象树中定义的数据类型进行数据接收。这样就不会从同一网站多次重复获取不需要的数据了。

步骤2003中，生成上述的语音应用模板。步骤2004处，管理员开始对语音应用的执行参数化，包括所有CTI连接参数的设置。步骤2005处，管理员可以创建会话。

对于本领域技术人员来说很明显的是，用于语音提交的网络收集内容进行预组织是一个极其有用的步骤，能够降低复杂性，减少网络和处理器负载，并只向通过相连的语音入口系统的外部调用拨叫进入或连接的用户提供适当的和有用的提交语音。

增强的安全性

图21中的框图阐释了本发明的一个实施例中在语音入口和站点服务器之间的安全连接。

本例中所示的连接图显示了用户(未示出)进入语音入口2106，其中入口2106通过网络获取基于网络的数据，这里表示是在Internet 2108中，更详细地说是一个网络服务器2109和一个与其相连的数据库2110。

语音入口2106包括一个语音应用服务器(VAS)2103并通过数据连接线2105和一个XML网关2104相连。本实施例中，从服务器2109上获取其上的数据并通过传输线2107送往XML网关2104。然后应用服务器2103生成语音应用，把程序分配给通过电话与PSTN2101连接的用户。对于电话技术网络中已知的电话交换机，服务控制点，路由器和CTI装置假定已在PSTN 2101中提供。类似的，假定Internet 2108中存在路由服务器和其他Internet中已知的节点。发明人认为图示的设备已足够用来解释本发明。

一般来说，PSTN 2101中的任一个用户发出的进入语音入口2103的语音假定为未被保护的，不管它是内部调用还是外部调用呼叫。也就是说任何有电话线路窃听能力的人都能在用户电话和语音应用服务器进行语音业务时进行监听。一般来说，现有的传统语音交易技术如公共安全的IVR入口和PIN识别已足够获取帐户信息。但是有着同样信息的其他任何人也都能进入用户的自动帐户线路并发现余额信息等等。

可使用网络认证服务对服务器2109进行保护，其中用户(在线)要从服务器2109获取任何数据必须要发送接受证明和在线鉴别验证的签名。这些条件作为选项提供在用户的浏览器程序中。

把安全性延伸到XML网关2104的一种方法是使用一个完全保密的数据网络。花费较少一些可选择如本例所示的VPN网络。另外一种方法是通过SSL措施如HTTPS。这些方法的任一种都能用于把服务器2109的安全性控制扩展到语音入口2106。本实施例中，网关2104可根据现行的安全措施进行操作。例如，如果用户在线到达服务器2109，更改他或她的密码信息及签署了一个网络鉴别验证，语音入口中必须记录下相同的更改信息。

那么唯一的安全疏漏是在PSTN和入口2106之间。通过监听线路2102能够获得发给任意用户的语音信息和用户返回的响应信息。在一定程度上一个可行的保密方案是在语音入口处和用户的电话端使用一个语音翻译机制。这样，离开入口的语音可被翻译成一种模糊的语言或甚至是代码。在用户端，设备(未示出)再翻译成现在的语言，通过电话扬声器系统会产生一个延迟。

本领域技术人员会认识到使用现有安全技术，VPN，SSL等等一个额外的优点在于安全系统已经被检验过而且一直在改进。本领域技术人员同样能认识到使用许多不同技术也没有偏离本发明的主旨和范围。例如可以使用外部供应的网络。也可使用多站点网络系统增加冗余。同样也可应用外部供应的语音服务或多服务/定位的语音服务。

用于识别的词汇表管理

根据本发明的又一个方面，发明人提供了一个词汇表管理系统和方法，能够增强语音识别软件的优化。下面将描述公开使用的方法和装置。

图22中的框图阐释了本发明的一个实施例中，带有词汇表管理服务器2200和软件2201的增强了的图1B中的结构。

本实施例中的系统结构和上面图1B中讨论的结构大致相同。因此，两个例子图1B和图22中的单元不再被重新引入，除非根据本发明进行了修正。

词汇表管理服务器2200适合和词汇表管理软件(VMS)2201一起用来调整语音识别模板的选项使得所需词汇表恰好可使即时语音应用充分可行。

服务器2200假定有与其相连或内部安装的数据存储设备，用于数据存储和组织。参照图17中所述的关于网络收集数据和使用网络收集的数据作为语音会话的源数据，本实施例中基于网络的元件表示出了Internet访问线路，一个和工作站140相连向其提供网络途径，另一个连着语音应用服务器110使其通过数据库/资源适配器113进入网络。这样，假定对任何用于自动获取，解释和翻译成语音会话的基于网络的目标数据，都有通向数据的网络途径。

运行客户程序141的工作站140能通过语音应用服务器2202访问服务器2200，或者更确切的说是通过经由数据连接线2203的数据库/资源适配器113进行访问。这样，管理员可使用特定的在线或离线(内部)数据源进行词汇表选项的安装及处理。

VMS软件2201适用于对获取的特定目标数据和与目标数据相关的允许的功能提供指定的单独和分离的词汇集。一个实施例中，对同一目标数据源提供了词汇表的额外的子集，这样可对通过PSTN134和入口143进行业务而获取数据的特定的客户进行进一步的修正。对创建的词汇集能够生成特定的规则集并和特定的词汇集相连提供给程序逻辑112。

适用VXML的电话服务器130这里提供了一个文本语音转换和语音文本转换引擎2205作为一个改进后的引擎而替换了图1B中所述的引擎132。一个实施例中可通过单独的器件分别实现这两个功能。发明人描述了一个双工功能的单个引擎，仅仅作说明的目的。引擎2205通过数据连接线2202可访问词汇表管理服务器2200。

语音应用服务器110的程序逻辑112通过数据连接线2204能到达服务器2200，数据库资源适配器113通过数据连接线2203也可到达服务器2200。一个实施例中，单根数据连接线就足够实现语音应用服务器110和服务器2200中刚才提及的组件间的通信。

本发明的实际应用中，假定有一个基于网络的数据源，语音识别能以一种和前述实施例不同的方法进行操作。例如，假定一个客户通过电话135进入PSTN 134中的语音入口143，进入他或她的包含了账户余额提交和股票交易选项的个人投资网页。服务器2200中对目标网站有一个由VMS 2201管理的特定的词汇表。可能对该客户还存在词汇表的子集并在父词汇集下进行组织。

电话服务器130识别到进入的用户，并触发一个现有的语音应用。语音应用服务器2202代表用户经数据库资源适配器113和Internet访问线和网站连接。按照语音应用模板的限定，数据库资源适配器在用户连接到第一个或起始会话之后提供用户登录和密码信息，然后获得帐户数据及该用户有权得到的其他任何最新数据。提交给用户的语音应用的第一个会话响应可能只包括用户帐户的对应的股票值和与这些特定符号相关的现存货币余额。当对用户有更多的可用信息时，一些可用信息对用户可能是不相关或无用的。因此，在每个会话提交前，VMS 2201为每个特定的会话功能提供合适的词汇集和规则集，一些情况下也提供给进入系统的用户。因此，语音识别软件不需要寻找一个很大的词汇表来解释提交后的VXML页面。这种情况下，VXML页面自身在送往电话服务器130之前就已受限于词汇表的管理功能。

另一个实施例中，在提交了标准VXML页面后，服务器130内开始语音识别之前发生VMS 2201的介入。这种情况下，引擎2205查询服务器2200以获得合适的词汇表的限定。本例中没有被VXML识别的数据被简单地丢弃了。VMS 2201可以在会话过程中的许多不同的位置上用来使语音识别功能流水线化。例如，进一步描述上面的第一个会话响应，可能会提示用户启动任何所需的交易行为。如果用户选择进行某些交易，引擎2205的语音文本转换部分可能向VMS2201查阅一个对该用户修正后的有限制的交易词汇表。这样的词汇表可对不同的客户进行扩展，也就是例如贵宾(VIP)可以允许有更多的选项。客户提交的和提供的词汇表不匹配以及/或者和规则不一致的语音会被忽略。

除了为语音识别提供个人化和简化的词汇表功能，管理员可以使用VMS创建新的词汇表以及/或创建多个能被识别为同一个词汇表单词的同义词。例如，管理员可把股票、股份和证券设定为描述票证的同义词。卖出、卖空、和清仓都可被理解成卖出票证的同义词。这里也有许多不同的可能性。一般来说，VMS 2201作为一种管理工具能被应用在一个通信方向(服务器至用户)，用来限制VXML页面上的数据提交，或限制VXML页面的语音识别以及丢弃未识别的部分。VMS 2201还可应用于相反方向(用户至服务商)的会话步骤中，根据服务保证和限定来修正用户或用户组所允许的语音识别功能。

一个实施例中，VMS 2201仅对VXML数据流起作用，它可在应用服务器110或电话服务器130内作用。可以想到的是对进入一个数据源的同一用户的相同语音应用的不同的会话(初始和响应会话)可使用VMS 2201的不同词汇集进行限定。因此管理能力的最佳水平体现在行为/响应上。通过在业务中每个可行的步骤对语音识别过程进行限制，能保留下更多的处理能力和带宽以备其他用途。

对于本领域技术人员很明显的是，本发明的方法和装置能被应用于内部数据源和外部数据源，其中一些外部数据源是类似于网站数据以及其他类型的数字数据网上可用的数据的基于网络的数据源。

本发明的方法和装置考虑到许多可能的实施例和用途，在审查中应给予最充分的理解。本发明的主旨和范围不局限于下列的权利要求。

Claims

1.一种对于在用户经语音入口访问数据源的过程中使用语音应用时与文本语音转换和语音文本转换的提交相关的语音识别处理进行限制的词汇表管理系统，包括：

一个词汇表管理服务器，与语音应用服务器和电话服务器相连接；以及

运行在管理服务器上的词汇表管理软件的实例，用于语音识别软件的词汇表的建立和管理；

其特征在于，管理员访问词汇表管理服务器，使用该软件创建唯一的词汇集，该词汇集是和目标数据源相关的词汇表中选定的特定部分，词汇集根据管理员的指令而具有不同的内容。

2.如权利要求1中所述的系统，其中语音入口是一个在电话环境中工作的交互式语音响应单元。

3.如权利要求1中所述的系统，其中数据源位于Internet网络上，并通过电话技术网络来访问。

4.如权利要求1中所述的系统，其中语音应用服务器提交VXML格式的数据，以进行文本语音转换识别。

5.如权利要求1中所述的系统，其中用于对访问用户进行语音表示的唯一的词汇集和唯一的规则集相关联。

6.如权利要求1中所述的系统，其中唯一的词汇集与对于特定的访问用户专用的词汇子集相关联。

7.如权利要求6中所述的系统，其中唯一的词汇子集和唯一的规则子集相关联。

8.如权利要求1中所述的系统，其中词汇集既包括数据源中发现的单词，也包括管理员引入的单词。

9.一种对于在用户经语音入口访问数据源的过程中使用语音应用时与文本语音转换和语音文本转换的提交相关的语音识别处理进行限制的词汇表管理服务器，包括：

一个词汇表管理软件应用程序，用于创建并管理词汇集；以及

一个用户接口，用于操作软件应用程序；

其特征在于，服务器被配置用来发送特定的词汇集和规则集，以用于语音应用程序的语音识别中，还具有配置系统，能以语音识别功能的较低的处理要求来创建会话。

10.如权利要求9中所述的词汇表管理服务器，其中语音入口是一个在电话环境中工作的交互式语音响应单元。

11.如权利要求9中所述的词汇表管理服务器，其中数据源位于Internet网络上，并通过电话技术网络来访问。

12.如权利要求9中所述的词汇表管理服务器，其中语音应用服务器提交VXML格式的数据，以进行文本语音转换识别。

13.如权利要求9中所述的词汇表管理服务器，其中用于对访问用户进行语音表示的唯一的词汇集和唯一的规则集相关联。

14.如权利要求13中所述的词汇表管理服务器，其中唯一的词汇集与对于特定的访问用户专用的词汇子集相关联。

15.如权利要求14中所述的词汇表管理服务器，其中唯一的词汇子集和唯一的规则子集相关联。

16.如权利要求9中所述的词汇表管理服务器，其中词汇集既包括数据源中发现的单词，也包括管理员引入的单词。

17.如权利要求9中所述的词汇表管理服务器，其中语音通过受话器提供给用户。

18.一种用于限制VXML格式的语音应用及开发系统中的语音识别处理要求的方法，包括的步骤有：

(a)提供一个词汇表管理软件实例，用于创建、编辑、并组织语音识别过程所需的词汇集；

(b)使用该软件创建词汇集，词汇集包括和语音应用中创建会话所要用到的数据源相关的一部分可用词汇；

(c)当语音应用的语音识别部分被触发时，对语音应用进行设置以使用已创建的词汇集；并且

(d)配置语音应用并执行。

19.如权利要求18中所述的方法，其中步骤(a)中词汇表管理软件访问语音应用系统的数据资源适配器的应用逻辑。

20.如权利要求18中所述的方法，其中步骤(a)中词汇集对于数据源是特定的。

21.如权利要求18中所述的方法，其中步骤(a)中词汇集对于和数据源相关的客户行为是特定的。

22.如权利要求18中所述的方法，其中步骤(a)中词汇集与一个或多个词汇子集相关联。

23.如权利要求18中所述的方法，其中步骤(b)中通过一个安装了客户语音应用软件的相连接的工作站上管理员的输入进行该软件的操作。

24.如权利要求18中所述的方法，其中步骤(b)中词汇集中的单词也包括由管理员引入的单词。

25.如权利要求18中所述的方法，其中步骤(c)中的设置过程包括了与词汇集相关的访问适用规则。

26.如权利要求18中所述的方法，其中步骤(c)中的设置过程进一步包括对在词汇集范围内组织的词汇子集以及在规则集范围内组织的规则子集的访问，其中子元素对于单个客户是特定的。

27.如权利要求18中所述的方法，其中步骤(d)中语音应用存储在语音应用服务器中用于执行。

28.如权利要求27中所述的方法，其中执行过程包括由访问用户触发产生的语音分配，或由于外部调用呼叫向用户提供会话。