CN100490448C

CN100490448C - 一种在下一代网络中实现语音交互功能的方法

Info

Publication number: CN100490448C
Application number: CNB2005101033910A
Authority: CN
Inventors: 桑托斯·库马·纳特; 达尔山·比尔迪卡
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2005-09-20
Filing date: 2005-09-20
Publication date: 2009-05-20
Anticipated expiration: 2025-09-20
Also published as: CN1852302A

Abstract

公开了一种在下一代网络中实现语音交互功能的方法，包括：AS预先为每一种类型的语音交互功能生成一个VXML文件模板；AS将生成的VXML文件模板加载到MRS上；MRS对所接收的VXML文件模板进行预解析，并缓存预解析结果；在AS将用户的呼叫转接到MRS时，AS将本次呼叫使用的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数发送到MRS；MRS使用接收到的参数替换对应的VXML文件模板预解析结果中的各个变量，得到本次呼叫语音交互的播放逻辑，并根据所得到的语音交互功能的播放逻辑完成一次语音交互过程。本发明所述方法可以减小语音交互过程的时延，提高语音交互功能的服务质量及系统的性能。

Description

一种在下一代网络中实现语音交互功能的方法

技术领域

本发明涉及到下一代网络(NGN)技术，特别涉及到一种在NGN中实现语音交互功能的方法。

背景技术

语音可扩展标记语言(VXML，Voice Extensible Markup Language)是W3C定义的、对可扩展标记语言(XML)的一种扩展，所述VXML文件记录了根据播放的提示信息、口述的命令、要记录和识别的语音或按键音输入，实现人和计算机之间的交互对话。VXML的标准化将简化网络(Web)上具有语音响应服务的个性化界面的创建，使人们能够通过语音和电话访问网站上的信息和服务。VXML的主要目标是希望通过交互式语音界面应用Web上已经存在的大量信息，同时VXML希望能够将开发人员从最低级的编程和资源处理工作中解放出来。VXML能够利用人们已经非常熟悉的客户端/服务器方式，将语音服务和数据服务融合起来。

在下一代网络中，为了实现在普通呼叫及智能呼叫过程中对分组网中集中放音、收号、会议等媒体资源的支持，引入了媒体资源服务器(MRS)，它可用于提供基本和增强业务中的媒体处理功能，包括业务音提供、会议、交互式应答、播送通知、高级语音业务等。

在MRS上采用VXML技术可以实现的语音交互功能。在这里所述的语音交互功能主要包括：播送通知(PA，Play Announcement)和播送通知并收集号码(PAC，Play Announcement and Collect Digits)。

图1显示了现有利用VXML技术在NGN中实现语音交互功能的方法。如图1所示，所述方法包括以下步骤：

步骤101：将用户发起的需要进行语音交互的呼叫转接至应用服务器(AS，Application Server)；

步骤102：AS根据本次呼叫的相关信息判断出该呼叫需要MRS支持后，发送Invite消息到MRS，并在该Invite消息的用户请求指示(URI)中携带VXML文件名称和所在位置信息，同时根据将本次呼叫的相关信息发送到一个超文本传输协议/会话初始协议(HTTP/SIP)服务器上；

步骤103：所述MRS根据所接收Invite消息与发起本次呼叫的用户终端建立实时传输协议(RTP，Real Time Transport Protocol)连接；

步骤104：MRS根据所接收Invite消息中携带的VXML文件名称及该文件所在的位置信息从所述HTTP/SIP服务器获取所述的VXML文件；

步骤105：所述HTTP/SIP服务器收到MRS的请求后，根据来自AS的呼叫相关信息生成所述VXML文件，并将生成的VXML文件返回MRS；

步骤106：MRS对获取的VXML文件进行解析，根据解析的结果通过在步骤103建立的RTP连接，为用户提供例如PA或PAC等语音交互功能。

在上述操作过程中，步骤104～106所述的MRS从相应HTTP/SIP服务器获取VXML文件，直到解析所获取的VXML文件的过程是一个耗时较长的过程，导致整个PA或PAC的实现过程的时延很大，严重地影响了系统的性能以及用户在进行语音交互过程中的感受。

发明内容

为了解决现有技术存在的问题，本发明提供了一种在NGN中实现语音交互功能的方法，可以减小语音交互过程的时延，大大提高语音交互功能的服务质量及系统的性能。

本发明所述在下一代网络中实现语音交互功能的方法，包括：

A、应用服务器AS预先为每一种类型的语音交互功能生成一个语音可扩展标记语言VXML文件模板；

B、AS将生成的VXML文件模板加载到媒体资源服务器MRS上；

C、MRS对所接收的VXML文件模板进行预解析，并缓存预解析结果；

D、在AS将用户的呼叫转接到MRS时，AS将本次呼叫使用的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数发送到MRS；

E、MRS使用接收到的参数替换对应的VXML文件模板预解析结果中的各个变量，得到本次语音交互的播放逻辑，并根据所得到的语音交互播放逻辑完成一次语音交互过程。

本发明所述VXML文件模板包含静态部分和动态部分，其静态部分定义了MRS实现各种类型语音交互功能时需要解析的VXML语法和语义，其动态部分为在语音交互过程中使用所接收参数替换的变量。

步骤B所述的加载采用超文本传输协议方式或会话初始协议方式实现。

步骤C所述的预解析包括：MRS解析VXML文件模板的静态部分，并在静态部分的预解析结果中保留其动态部分的各个变量；

所述静态部分定义了MRS实现各种类型语音交互功能时需要解析的VXML语法和语义，所述动态部分为在语音交互过程中使用所接收参数替换的变量。

在步骤D，AS通过会话初始协议邀请消息中的用户请求指示字段将本次呼叫使用的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数发送到MRS。

步骤E所述替换为按照所接收各个参数的顺序，逐个替换所述VXML文件模板预解析结果中保留的各个变量。

本发明所述方法在步骤E之前和步骤D之后进一步包括：MRS在接收到来自AS的邀请消息后，与发起本次呼叫的用户终端建立实时传输协议连接；

在步骤E，MRS通过与发起本次呼叫的用户终端建立实时传输协议连接，完成所述语音交互过程。

本发明所述方法在步骤E之后，进一步包括：F、在一次语音交互过程完成后，MRS将通知AS本次语音交互过程完成。

本发明所述通知通过会话初始协议的信息消息或超文本传输协议的获取消息来实现。

本发明所述方法在步骤F之后，进一步包括：判断在本次呼叫过程中AS是否请求下一次语音交互过程，如果是，则AS通过借道法将下一次语音交互过程所需的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数发送到MRS，返回步骤E，进行下一次语音交互过程，否则，结束。

本发明所述借道法为：将下一次语音交互过程所需的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数承载在会话初始协议信息消息或超文本传输协议获取消息的响应消息中，或承载在新的会话初始协议的信息消息中发送到所述MRS。

由此可以看出，本发明通过预先为每种类型的语音交互功能建立一个模板，并预先将这些模板加载到MRS上，因而在语音交互过程中仅需要将模板名称以及替换模板中变量的参数发送到MRS，MRS就可以得到完整的VXML文件，而不需要执行现有技术中的VXML文件获取过程，这大大地降低了语音交互过程的时延。

另外，由于MRS可以预先对所接收到的VXML文件模板进行预解析，因而在语音交互过程中省去了对VXML文件的解析过程，进一步减小了语音交互过程的时延，极大地提高了系统的性能以及用户的感受。

附图说明

图1为现有技术中利用VXML技术在NGN中实现语音交互功能的方法示意图；

图2为本发明优选实施例所述在NGN中实现语音交互功能的方法流程图；

图3为本发明优选实施例所述语音交互功能的具体交互过程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

已知由HTTP/SIP服务器生成的VXML文件定义了MRS实现PA和PAC等语音交互功能时的播放逻辑，MRS通过解析VXML文件就可以获知在与用户的语音交互过程中如何为用户播送通知以及如何收集用户输入的信息。所述的VXML文件包含了静态和动态两个部分，其中，静态部分定义了MRS需要进行解析的VXML文件的语法和语义，这部分内容对应相同类型的语音播放功能是相同的，例如所有相同类型的PA呼叫使用的VXML文件的语法部分是相同的，所有相同类型的PAC呼叫所使用的PAC文件的语法部分是相同的；而动态部分则定义了MRS实现PA和PAC等语音交互功能时的具体参数，主要包括：在PA和PAC等语音交互过程中MRS为用户播送的文件、在PAC过程中为MRS收集用户输入信息所设定的参数，以及上述语音交互功能中的重试处理、超时处理等操作所需的参数，因此，虽然不同的呼叫所使用VXML文件的静态部分可能相同，但是其动态部分应当是不同的。

基于上述事实，本发明的一个优选实施例给出了一种在NGN中实现语音交互的方法，如图2所示，该方法主要包括以下几个步骤：

A、AS预先为每一种类型的语音交互功能生成一个VXML文件模板。

其中每一种类型的语音交互功能与一个VXML文件模板相对应，并且所生成的VXML文件模板也包含静态部分和动态部分，其静态部分与现有技术中HTTP/SIP服务器所生成的VXML文件的静态部分相同，是定义了MRS实现各种类型语音交互功能时需要解析的VXML语法和语义部分；而其动态部分则为可以在语音交互过程中替换的变量。

B、在生成对应各种类型语音交互功能的VXML文件模板后，AS将生成的VXML文件模板加载到MRS上。

在该步骤中，所述加载过程可以采用HTTP的方式也可以采用SIP的方式来实现。

C、MRS接收到所述对应各种类型语音交互功能的VXML文件模板后，首先对所接收的VXML文件模板进行预解析，并将预解析结果缓存起来。

在预解析的过程中，MRS仅需要解析VXML文件模板的静态部分，即仅解析各个VXML文件模板的语法和语义，而将其动态部分的变量保留在预解析的结果中。

D、在AS将用户的呼叫转接到MRS时，AS会同时将对应本次呼叫的VXML文件模板名称以及替换该VXML文件模板上动态部分变量的各个参数发送到MRS；MRS使用接收到的参数替换对应的VXML文件模板预解析结果中的各个变量，得到本次呼叫语音交互的播放逻辑，并根据所得到的语音交互功能的播放逻辑完成一次语音交互过程。

图3显示了步骤D所述实现一次语音交互功能的具体过程。如图3所示，该方法主要包括以下几个步骤：

步骤301：将用户发起的、需要进行语音交互的呼叫转接至AS。

步骤302：AS根据本次呼叫的相关信息判断出该呼叫需要MRS支持后，发送Invite消息到MRS，并在该Invite消息的URI中携带本次呼叫对应的VXML文件模板名称以及替换该VXML文件模板动态部分变量的各个参数。

步骤303：所述MRS接收到Invite消息后，与发起本次呼叫的用户终端建立RTP连接。

步骤304：MRS从自身缓存的各个VXML文件模板预解析结果中读取与步骤302所述VXML文件模板名称对应的VXML文件模板预解析结果，并使用接收到的各个参数替换该VXML文件模板预解析结果中的各个变量，得到对应本次语音交互的完整播送逻辑。

该步骤所述替换为按照所接收各个参数的顺序，逐个替换所述VXML文件模板预解析结果中保留的各个变量。

步骤305：MRS通过在步骤303建立的RTP连接，根据步骤304得到的语音交互播送逻辑为用户播送通知，完成一次语音交互过程。

如果上述语音交互过程为PA，则在通知播送完毕时，本次语音交互过程就结束了。而如果上述语音交互过程为PAC，则在通知播送完毕后，MRS还需要进一步接收用户通过用户终端反馈的信息，例如，用户通过电话拨出的数字等等。

步骤306：在上述播送通知或接收信息过程完成后，MRS将通知AS本次语音交互过程完成。所述的通知可以通过SIP的信息(INFO)消息或HTTP的获取(GET)消息来完成。

步骤307：如果在本次呼叫过程中AS请求下一次语音交互过程，则AS可以通过借道法(Piggy backing)将下一次语音交互过程所需的VXML文件模板名称以及替换该VXML文件模板中变量的各个参数承载在SIP INFO或HTTP GET的响应消息中发送到MRS，也可以直接通过新的SIP INFO消息发送到MRS。MRS在接收到新的VXML文件模板名称以及替换该VXML文件模板中变量的各个参数后将返回上述步骤304，通过已建立的RTP连接与用户终端进行下一次语音交互过程。

从上述过程可以看出，本发明优选实施例所述的方法通过预先为每种类型的语音交互功能建立一个模板，并预先将这些模板加载到MRS上，使得AS在语音交互过程中仅需要将模板名称以及替换模板中变量的参数发送到MRS，就可以使MRS得到完整的VXML文件，实现所述语音交互过程，而不需要执行耗时较长的VXML文件获取过程，这大大地降低了语音交互过程的时延。另外，由于MRS可以预先对所接收到的VXML文件模板进行预解析，因而省去了MRS在语音交互过程中解析VXML文件的过程，故可以进一步减小了语音交互过程的时延。

Claims

1、一种在下一代网络中实现语音交互功能的方法，其特征在于，所述方法包括：

B、AS将生成的VXML文件模板加载到媒体资源服务器MRS上；

2、如权利要求1所述的方法，其特征在于，所述VXML文件模板包含静态部分和动态部分，其静态部分定义了MRS实现各种类型语音交互功能时需要解析的VXML语法和语义，其动态部分为在语音交互过程中使用所接收参数替换的变量。

3、如权利要求1所述的方法，其特征在于，步骤B所述的加载采用超文本传输协议方式或会话初始协议方式实现。

4、如权利要求1所述的方法，其特征在于，步骤C所述的预解析包括：MRS解析VXML文件模板的静态部分，并在静态部分的预解析结果中保留其动态部分的各个变量；

5、如权利要求1所述的方法，其特征在于，在步骤D，AS通过会话初始协议邀请消息中的用户请求指示字段将本次呼叫使用的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数发送到MRS。

6、如权利要求1所述的方法，其特征在于，步骤E所述替换为按照所接收各个参数的顺序，逐个替换所述VXML文件模板预解析结果中保留的各个变量。

7、如权利要求1所述的方法，其特征在于，所述方法在步骤E之前和步骤D之后进一步包括：MRS在接收到来自AS的邀请消息后，与发起本次呼叫的用户终端建立实时传输协议连接；

8、如权利要求1所述的方法，其特征在于，所述方法在步骤E之后，进一步包括：F、在一次语音交互过程完成后，MRS将通知AS本次语音交互过程完成。

9、如权利要求8所述的方法，其特征在于，所述通知通过会话初始协议的信息消息或超文本传输协议的获取消息来实现。

10、如权利要求8所述的方法，其特征在于，所述方法在步骤F之后，进一步包括：判断在本次呼叫过程中AS是否请求下一次语音交互过程，如果是，则AS通过借道法将下一次语音交互过程所需的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数发送到MRS，返回步骤E，进行下一次语音交互过程，否则，结束。

11、如权利要求10所述的方法，其特征在于，所述借道法为：将下一次语音交互过程所需的VXML文件模板名称以及替换该VXML文件模板中各个变量的参数承载在会话初始协议信息消息或超文本传输协议获取消息的响应消息中，或承载在新的会话初始协议的信息消息中发送到所述MRS。