CN101478611A

CN101478611A - 基于软排队机呼叫中心的多语言语音合成方法和系统

Info

Publication number: CN101478611A
Application number: CNA2009100008924A
Authority: CN
Inventors: 邵伟翔; 陈健
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2009-01-20
Filing date: 2009-01-20
Publication date: 2009-07-08
Anticipated expiration: 2029-01-20
Also published as: CN101478611B

Abstract

本发明提出一种基于软排队机呼叫中心的多语言语音合成方法和系统，包括以下步骤：将呼叫接续至软排队机，并由软排队机向计算机电信集成服务器CTI发送路由请求；通过CTI建立软排队机与互动式语音应答服务器IVR的呼叫连接；当软排队机与IVR之间为多语言呼叫时，由IVR向应用服务器发送调用多语言流程的请求；通过应用服务器将标明多语言流程的语言标签传递给IVR；根据语言标签选择多语言流程的引擎函数、设置音库，并由IVR将合成文本传送给语音合成服务器；由语音合成服务器根据透传的合成文本合成语音，并通过IVR播放合成语音。本发明可以实现多语言语音合成功能。

Description

基于软排队机呼叫中心的多语言语音合成方法和系统

技术领域

本发明涉及软排队机呼叫中心领域，特别是涉及基于软排队机呼叫中心的多语言语音合成方法和系统。

背景技术

语音合成技术(Text-To-Speech)，即TTS技术，能够自动将任意文字信息实时转换为连续的语音，是一种能够在任何时间、任何地点向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。

语音合成技术提供高效、灵活的服务，可以在多种领域内使用，比如，PC语音互动娱乐和教学软件、电信级、企业级呼叫中心系统、IVR、UM、Voice Portal等丰富多彩的语音增值业务。

语音合成技术的应用有利于改变原有的语音信息制作方式，即替代传统的简单拼接、人工录音或人工座席，在大规模的语音应用中，提供多路并发的实时语音合成服务，不仅将显著提高信息更新的时效性，同时提供的语音信息内容与范围将得以大大拓展。

现有的软排队机呼叫中心可以提供语音合成技术，下面结合附图对软排队机呼叫中心的层次结构以及框架进行说明，以便有利于对其提供的语音合成技术进行说明。

软排队机呼叫中心的层次结构如图1中虚线部分所示。

软排队机呼叫中心系统采用分层架构模型，将业务接入、业务支撑(控制)以及业务应用进行分离，实现系统内部松耦合，以灵活、快速响应业务变化对系统的需求。整个系统层次结构划分为接入层、业务支撑层、业务应用层以及其他辅助层，通过各层次系统模块间的承载关系，实现系统功能。在层次化的体系结构中，各层之间均采用协议或API封装的方式作为接口，使得各层相对独立。

软排队机呼叫中心的网络架构及接口定义如图2所示。

软排队机(SoftACD)设备处于整个软排队机呼叫中心系统的接入层，为固网和移动网发起的语音/视频/传真呼叫提供接入控制和媒体资源功能。SoftACD屏蔽了底层网络的复杂性，将来自固网和移动网的呼叫抽象成统一的呼叫模型，并通过统一的接口(CSTA接口)将呼叫事件提交给CTI，实现多种网络呼叫的统一接入。

CTI在软排队机呼叫中心系统架构中处于核心地位，负责对各种接入请求(包括语音、Email、FAX、短信、Web等)进行统一的排队和路由，并对座席及IVR/MS等资源进行集中调度和管理。CTI提供呼叫排队与路由，呼叫控制、资源管理等功能。

IVR/MS是软排队机呼叫中心系统的自动业务运行环境，IVR/MS的逻辑功能示意图如图3所示，提供软排队机呼叫中心与客户的自助语音交互功能，实现语音菜单的灵活跳转。IVR/MS具备TTS实时语音合成的功能。IVR与CTI之间的接口为B接口，主要提供了IVR/MS与CTI之间的呼叫控制、呼叫数据等所需的应用程序接口，接口协议采用TCP/IP协议，IVR/MS以基于动态连接库(DLL)的API调用B接口与CTI进行通信。

Agent为话务员提供了人机交互的界面，处于整个软排队机呼叫中心的业务支撑层，能够以不同的方式受理用户的呼叫请求，如：电话、短信、传真、EMAIL、WEB等。Agent与CTI之间具有A接口，提供座席与CTI之间的呼叫控制服务、质检服务和座席与队列服务等所需的应用程序接口以及相关事件等，A接口协议采用TCP/IP协议，Agent以动态链接库(DLL)或控件方式(如，ActiveX)调用A接口与CTI进行通信。

应用服务器(AS)位于软排队机呼叫中心中的业务应用层，主要提供业务控制功能、业务数据功能、应用执行环境功能等。它为IVR、Agent提供各类业务控制功能。AS提供了统一的业务服务接口，屏蔽了不同客户端的复杂性，实现对多种客户端相关业务的统一服务。应用服务器与IVR/MS之间的D接口，接口协议栈如图4所示。在HTTP上可以承载VoiceXML业务文档、脚本文件、语音文件。D接口采用VoiceXML标准，应满足W3C制定的《VoiceXML Version 2.0》(W3CCandidate Recommendation 28 January 2003)标准的规定。

多媒体网关(Multi-Media GW)位于NGCC网络架构的接入层，为短信、彩信、EMAIL等非实时呼叫提供接入控制和媒体资源能力。多媒体网关屏蔽了底层网络的复杂性，将来自不同网络的非实时呼叫抽象成统一的呼叫模型，并通过统一的接口E将呼叫事件提交给CTI，实现多种网络呼叫的统一接入。多媒体网关以API调用接口E与CTI进行通信，接口协议采用TCP/IP协议。接口E主要分为3类：录音接口、OBS(Outbound Server，外拨策略服务器)、多媒体网关。

目前软排队机呼叫中心只支持中文语音合成TTS功能，当用户通过语音终端与呼叫中心建立通话后，系统通过IVR调用TTS设备合成中文语音播放给用户，但是无法实现多语言语音合成TTS功能。

发明内容

本发明要解决的技术问题是提供基于软排队机呼叫中心的多语言语音合成方法和系统。以实现多语言语音合成功能。

根据本发明一方面，提出一种基于软排队机呼叫中心的多语言语音合成方法，包括以下步骤：1)将呼叫接续至软排队机，并由所述软排队机向计算机电信集成服务器CTI发送路由请求；2)通过所述CTI建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；3)当所述软排队机与所述IVR之间为多语言呼叫时，由所述IVR向应用服务器发送调用多语言流程的请求；4)通过所述应用服务器将标明所述多语言流程的语言标签传递给所述IVR；5)根据所述语言标签选择所述多语言流程的引擎函数、设置音库，并由所述IVR将合成文本传送给语音合成服务器；6)由所述语音合成服务器根据透传的所述合成文本合成语音，并通过所述IVR播放所述合成语音。

根据本发明另一方面，还提出一种基于软排队机呼叫中心的多语言语音合成系统，包括：软排队机，接续呼叫并向计算机电信集成服务器CTI发送路由请求；计算机电信集成服务器CTI，建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；互动式语音应答服务器IVR，当所述软排队机与所述IVR之间为多语言呼叫时，向应用服务器发送调用多语言流程的请求；根据所述语言标签选择所述多语言流程的引擎函数、设置音库，并将合成文本传送给语音合成服务器；应用服务器，将标明所述多语言流程的语言标签传递给所述IVR；语音合成服务器，根据透传的所述合成文本合成语音，并通过所述IVR播放所述合成语音。

本发明在目前软排队机呼叫中心的网络架构及接口定义的基础上，增加了各接口的语言属性，使现有技术中各单元具有多语言属性，从而在呼叫流程中通过调用多语言属性来实现多语言合成功能。

附图说明

图1是现有技术软排队机呼叫中心层次结构图。

图2是现有技术软排队机呼叫中心网络架构及接口。

图3是现有技术IVR/MS逻辑功能示意图。

图4是现有技术接口D协议层。

图5是本发明中基于软排队机呼叫中心的多语言语音合成方法流程图。

图6示出本发明另一实施方式中基于软排队机呼叫中心的多语言语音合成方法流程图。

图7示出本发明软排队机呼叫中心多语言业务流程框架。

图8示出本发明中自动进行合成的方法实施例。

图9示出本发明中软排队机识别出语言属性的合成方法实施例。

图10示出本发明中人工判断语言属性的合成方法实施例。

图11示出CTI调用多媒体网关中外呼服务器选择相应语种座席实现外呼的方法实施例。

具体实施方式

图5是本发明中基于软排队机呼叫中心的多语言语音合成方法流程图，包括以下步骤：

在步骤501，将呼叫接续至软排队机，并由所述软排队机向计算机电信集成服务器CTI发送路由请求。

在接续到所述呼叫时，软排队机可以根据用户的接入号、呼叫源、接入中继等网络属性识别出语言属性，并在所述路由请求中携带所述语言属性，所述多语言呼叫可以是至少如下之一：中、英、法、日。当然，也可以根据需要进行语种的扩展。

在步骤502，通过所述CTI建立所述软排队机与互动式语音应答服务器IVR的呼叫连接。

当在上一步骤的操作中，已经识别出语言属性时，可以由所述CTI建立所述软排队机与具有所述语言属性的座席的呼叫连接。在要进行多语言合成时，根据所述座席发送的转移到所述IVR的请求，由所述CTI建立所述软排队机与所述IVR的连接。

在步骤503，当所述软排队机与所述IVR之间为多语言呼叫时，由所述IVR向应用服务器发送调用多语言流程的请求。

在步骤504，通过所述应用服务器将标明所述多语言流程的语言标签传递给所述IVR。

在所述语言标签中可以携带文档的版本号以及保存所述文档的地址信息，产生语音合成和音频的队列并输出给所述IVR。

在步骤505，根据所述语言标签选择所述多语言流程的引擎函数、设置音库，并由所述IVR将合成文本传送给语音合成服务器。

在步骤506，由所述语音合成服务器根据透传的所述合成文本合成语音，并通过所述IVR播放所述合成语音。

此外，在步骤506之后，用户还可以建立与座席的媒体通道，由座席提供人工服务，该方法还可以包括如下步骤：

在步骤507，由所述IVR向所述CTI发送转移到具有所述语言属性的座席的请求。

在步骤508，通过所述CTI向所述软排队机发送转移至所述座席的通知。

在步骤509，拆除所述软排队机与所述IVR的连接，并建立所述软排队机与所述座席的媒体通道。

图6示出本发明另一实施方式中基于软排队机呼叫中心的多语言语音合成方法流程图，在该流程中，CTI调用多媒体网关中外呼服务器选择相应语种座席实现外呼，该方法还可以包括以下步骤：

在步骤601，外呼服务器通过多媒体网关向CTI发起外呼请求，在该请求中携带本次呼叫的语言属性。

在步骤602，CTI根据多媒体网关的要求，启动IVR自动外呼流程。

在步骤603，IVR查询位于AS的外呼用户数据，并返回给CTI。

在步骤604，CTI控制软排队机向被叫用户发起外呼请求。

在步骤605，被叫用户摘机应答后，SoftACD将相关事件上报CTI，CTI选择具有所述语言属性的座席应答本次外呼服务。

在步骤606，所述座席对应答请求进行回复，并通过SoftACD控制，建立与用户之间的语音通话。

在步骤607，CTI获知座席与用户正式建立通话连接后，向多媒体网关报告本次外呼请求建立成功。

图7示出本发明软排队机呼叫中心多语言业务流程框架，下面在该流程框架的基础上，结合附图和具体实施例对本发明进行详细说明。

图8示出本发明中自动进行合成的方法实施例，该实施例以语言属性是日语为例，该方法包括以下步骤：

日语用户C拨打114。SS产生INVITE(From＝C，To＝114)消息，并将呼叫接续至软排队机SoftACD。

软排队机根据业务流程，前置触发IVR流程，SoftACD通过CSTA协议提供的RouteRequest(含CalledDeviceID＝114、CallingDeviceID＝C、ConnectionID、PriorityValue等参数)事件通知CTI呼叫到达。

CTI根据SoftACD的路由请求事件和排队策略，选取路由为IVR，并通过RouteSelect告知SoftACD；CTI发送IvrGetEvent通知IVR。

SoftACD和IVR建立连接。

IVR通知CTI和SoftACD已建立连接，并进行数据配置。

IVR从AS取得初始业务逻辑流程。

IVR放音提示用户C选择服务语种，用户C通过DTMF输入选择服务语种为日语。

IVR从AS取得日语业务逻辑流程，VXML的语种标签为xml:lang＝′ja′。

IVR放音提示用户C选择服务类型，用户C通过DTMF输入选择TTS相关服务，如自动资料播放、非人工语音内容资源。

IVR向AS请求日语自动服务的流程，应用服务器调用日语自动服务的流程，从数据库中取出TTS文本并返回。

IVR根据日语自动服务流程的要求，调用TTS客户端，通过TTSConnect函数选择合成引擎、TTSSetSynthParam函数设置音库、TTSSynthText函数传合成文本给TTS服务器，TTS服务器根据文本合成语音，并将语音文件返回IVR。

IVR将日语合成语音播放给用户C。

用户C通过DTMF输入选择人工服务。

IVR通过IvrRequestRouting向CTI请求人工服务的路由，IvrSetCallData设置呼叫数据，通知CTI usLanguagePreferences＝ja，IvrTransfer进行呼叫转移。

CTI通知SoftACD进行呼叫转移，指示SoftACD将用户C转移至日语座席D。

SoftACD和IVR之间拆除连接。

SoftACD和日语座席D建立会话。

SoftACD和座席协商新的媒体通道，指向日语座席D。

用户C和座席D通话。

图9示出本发明中软排队机识别出语言属性的合成方法实施例，该实施例以语言属性是法语为例，该方法包括以下步骤：

法语用户A拨打114。SS产生INVITE(From＝A，To＝114)消息，并将呼叫接续至软排队机SoftACD。

软排队机根据用户的接入号、呼叫源、接入中继等网络属性判断用户的语言属性，识别出呼叫类型为法语，SoftACD通过CSTA协议提供的RouteRequest(含CalledDeviceID＝114、CallingDeviceID＝A、ConnectionID、PriorityValue、LanguagePreferences＝fr等参数)事件通知CTI呼叫到达且呼叫类型为法语，并向用户播放法语欢迎词。

CTI根据SoftACD的路由请求事件和排队策略，选取相关法语技能的空闲座席B，并通过CSTA协议提供的RouteSelectRequest(含routeSelected＝B等参数)事件通知SoftACD接通对应座席的SIPPhone。另一方面，CTI通过软排队机呼叫中心-A接口AnswerRequest(含Call-ID，MediaType＝语音)通知座席准备接听来话。

法语座席B收到CTI的应答请求事件后，完成呼叫应答准备，向CTI反馈Answer(MediaType＝语音)应答消息。

CTI收到座席应答指示后，需发送AnswerSuccess(MediaType＝语音)事件进行应答确认。否则座席将重新发起Answer应答消息。

SoftACD根据CTI指示，发起到法语座席B的SIP Phone试呼，产生INVITE(From＝A，To＝B)消息。座席B的SIP Phone开始振铃，并向SoftACD反馈180 Ringing消息。SoftACD通过CSTA协议提供的Delivered(含connection＝ConnectionID，alertingDevice＝B，callingDevice＝A，LanguagePreferences＝fr等参数)事件通知CTI座席开始振铃。

法语座席B应答后发送应答消息200 OK(INVITE)。SoftACD发送ACK进行SIP呼叫建立的过程确认。

通话过程建立后，法语座席B与用户A开始通话。座席访问应用服务器AS，查询法语用户A关心的业务信息。

法语座席B向CTI发起SingStepTrans请求将用户转移到IVR上，被叫号码填写IVR流程的接入码。

CTI将请求发送到SoftACD，SoftACD收到SingleStepTran命令后检查Agent和用户的状态等环境，没有问题给CTI回Result消息，CTI将Result回给座席。如果座席状态不正确，SoftACD将回ERROR消息，通知CTI，CTI通知座席操作失败，以及失败原因。

SoftACD开始呼叫IVR，然后将用户和IVR的媒体流连接起来，转移成功。

IVR向CTI发送呼叫请求指示消息，并取回与电话呼叫相关联的数据，CTI通知IVR是法语自动服务。

IVR向AS请求法语自动服务的流程，应用服务器调用法语自动服务的流程，从数据库中取出TTS文本并返回，VXML的语种标签为xml:lang＝′fr-fr′。

IVR根据法语自动服务流程的要求，调用TTS客户端，通过TTSConnect函数选择合成引擎、TTSSetSynthParam函数设置音库、TTSSynthText函数传合成文本给TTS服务器，TTS服务器根据文本合成语音，并将语音文件返回IVR。

IVR将法语合成语音播放给用户A。

图10示出本发明中人工判断语言属性的合成方法实施例，该方法包括以下步骤：

用户E拨打114。SS产生INVITE(From＝E，To＝114)消息，并将呼叫接续至SoftACD。

SoftACD通过CSTA协议提供的RouteRequest(含CalledDeviceID＝114、CallingDeviceID＝E、ConnectionID、PriorityValue等参数)事件通知CTI呼叫到达并向用户播放欢迎词。

CTI根据SoftACD的路由请求事件和排队策略，选取空闲座席F，并通过CSTA协议提供的RouteSelectRequest(含routeSelected＝B等参数)事件通知SoftACD接通对应座席的SIP Phone。另一方面，CTI通过软排队机呼叫中心-A接口AnswerRequest(含Call-ID，MediaType＝语音)通知座席准备接听来话。

座席F收到CTI的应答请求事件后，完成呼叫应答准备，向CTI反馈Answer(MediaType＝语音)应答消息。

SoftACD根据CTI指示，发起到座席F的SIP Phone试呼，产生INVITE(From＝E，To＝F)消息。座席F的SIP Phone开始振铃，并向SoftACD反馈180 Ringing消息。SoftACD通过CSTA协议提供的Delivered(含connection＝ConnectionID，alertingDevice＝F，calIingDevice＝E等参数)事件通知CTI座席开始振铃。

座席F应答后发送应答消息200OK(INVITE)。SoftACD发送ACK进行SIP呼叫建立的过程确认。

通话过程建立后，座席F与用户E开始通话。座席访问应用服务器AS，查询用户E关心的业务信息。

用户E告诉座席F要求使用英语服务。

座席F进行下一步动作，访问应用服务器AS，查询用户E关心的业务信息(英语)。当然，该步骤也可以不执行，直接执行下一步骤。

座席F调用相关方法，如SingleStepTransfer(单步呼叫转出)、Consultation(咨询)、Transfer(呼叫转出)、Conference(三方通话)、SetCallData(设置呼叫数据)，通知CTI相关服务语种为英语；CTI执行后续操作，人工英语服务或自动英语服务。

图11示出CTI调用多媒体网关中外呼服务器选择相应语种座席实现外呼的方法实施例，包括以下步骤：

外呼服务器OBS通过多媒体GW向CTI发起多媒体外呼请求，其中在RequestMultimediaAnswer接口的LanguagePreferences参数携带本次外呼语种信息。

CTI调用ivrGetEvent接口通知IVR呼叫请求事件到达，请求启动IVR自动业务逻辑，IVR在ivrAnswer接口中回应CTI请求，并通过ivrQueryCallData接口进一步获取呼叫详细信息。

IVR在获得本次呼叫详细信息后从应用服务器AS查询外呼数据，此处由HTTP的Get与200 ok消息完成。IVR将从AS获取的外呼数据通过ivrSetCallData接口发送至CTI。

CTI向SoftACD发送CSTA II的MakeCall消息，SoftACD收到请求消息后，立即向用户所在SS发生INVITE(From＝114，To＝E)消息，完成CTI向被叫用户发起外呼请求的过程。

用户摘机应答后，SoftACD通过EstablishedEvent事件向CTI报告外呼成功，此时，CTI选择拥有多媒体GW所要求语种服务能力的座席发出应答要求EvtAnswer-Request事件，在事件的LanguagePreferences参数中指示了座席的语种服务能力。

拥有该语种服务能力的座席通过cmdAnswer对本次CTI的应答请求进行回复，并通过SoftACD控制，建立与用户之间的语音通话。

CTI获知座席与用户建立通话连接后，通过DoReplyMultimediaAndHangup-Call向多媒体网关报告本次外呼请求建立成功。

根据本发明另一方面，还提出一种基于软排队机呼叫中心的多语言语音合成系统。所述系统结构与现有技术基本相同，只是各模块的功能有所变化，将在下面对其进行具体说明。

软排队机SoftACD，接续呼叫并向计算机电信集成服务器CTI发送路由请求。所述软排队机可以在接续到所述呼叫时，根据用户的接入号、呼叫源、接入中继等网络属性识别出语言属性，在所述路由请求中携带所述语言属性，并通过CSTA接口发送给CTI，下面将具体说明该CSTA接口。所述多语言呼叫可以是至少如下之一：中、英、法、日。当然，也可以根据需要进行语种的扩展。

SoftACD-CTI之间接口(CSTA接口)协议可以采用CSTAPhaseIII协议，该协议的具体要求请参照ECMA-269和ECMA-323。对于多语言应用，要求增加基本属性LanguagePreferences。

LanguagePreferences

语言类型，参数类型为：stringzh-CN或空：中文en-US：英语fr-FR：法语ja：日语

本接口协议需至少实现如下的功能定义，同时所有参数须满足TR/68协议的定义。

计算机电信集成服务器CTI，建立所述软排队机与互动式语音应答服务器IVR的呼叫连接。所述CTI可以根据所述语言属性，建立所述软排队机与具有相应所述语言属性的IVR的呼叫连接。其中，所述语言属性是通过B接口进行传递，下面将具体说明B接口。

CTI-IVR之间接口(B接口)提供初始化、事件通知、呼叫请求指示、呼叫数据、请求路由、呼叫转移、切换呼叫、释放呼叫、释放连接等API函数。对于多语言应用增加基本属性usLanguagePreferences。所述属性可以由下表所示，但并不限于此。

usLanguagePreferences

语言类型，参数类型为：USHORTzh-CN或空：中文en-US：英语fr-FR：法语ja：日语

对于Ivrsignin(初始化通讯底层)、IvrGetEvent(事件通知函数)、IvrQueryCallData(查询呼叫数据)、IvrSetCallData(设置呼叫数据)、IvrRequestRouting(请求路由)、IvrTransfer(呼叫转移)等函数需要包括属性usLanguagePreferences。

CTI-多媒体GW之间接口(E接口)提供录音接口、OBS(outbound Server，外呼服务器)、多媒体网关的相关操作方法API函数。对于多语言应用增加基本属性LanguagePreferences。

LanguagePreferences

对于CallOutside(外呼呼出)、SetCallData(设置呼叫数据)、QueryCallData(查询呼叫数据)、RequestMultimediaAnswer(多媒体呼叫到达)、CTIToGW(CTI的多媒体网关呼叫回复消息)、CallGW(向多媒体外呼)等函数需要包括属性LanguagePreferences。

互动式语音应答服务器IVR，当所述软排队机与所述IVR之间为多语言呼叫时，向应用服务器发送调用多语言流程的请求；根据所述语言标签选择所述多语言流程的引擎函数、设置音库，并由所述IVR将合成文本传送给语音合成服务器。

应用服务器，将标明所述多语言流程的语言标签传递给所述IVR。在所述语言标签中可以携带文档的版本号以及保存所述文档的地址信息，产生语音合成和音频的队列并通过D接口输出给所述IVR。

IVR/MS-AS之间接口(D接口)采用VoiceXML标准，对于多语言语音合成应用，元素<vxml>、<prompt>为必选，且必须支持xml:lang属性。其中，元素<vxml>是每个VoiceXML文档中最上层的元素，有如下属性：

version	表示该文档的VoiceXML的版本号(必须的)，比如，当前的版本号是2.0。
version	表示该文档的VoiceXML的版本号(必须的)，比如，当前的版本号是2.0。	xmlns	表示给VoiceXML指定的域名空间(必须的)VoiceXML的域名空间是http://www.w3.org/2001/vxml。
xml：base	该文档的基础URI，文档中所有的相对的URI引用都是相对于这个基础URI的。	xmlns
xml：base	该文档的基础URI，文档中所有的相对的URI引用都是相对于这个基础URI的。	xml：lang	表示该文档的语言标识符，如果省略，默认的语言为平台特定的语言。
application	表示该文档的应用根文档的URI。	xml：lang	表示该文档的语言标识符，如果省略，默认的语言为平台特定的语言。

在文档级，语言信息可以通过继承得到：那些有“xml:lang”属性的元素可以继承“xml:lang”的值，例如<prompt>元素，除非这些元素也指定了一个值。

<prompt>元素产生一个输出给用户的语音合成和音频的队列。<Drompt>元素的属性有：

bargein	控制用户是否可以打断该提示语，值为true或false。当为true时，用户可打断系统提示。默认为bargeinproperty的值。
bargein		bargeintype	设置bargein的类型，值为‘speech’或者‘hotword’，默认为bargeintype property属性值。
cond	ECMAScript表达式。只有当其结果值为boolean true，该<prompt>元素才被执行，否则不被执行。缺省时为true。	bargeintype
cond		count	是一个数字，用于标识不同的<prompt>，默认值为“1”。
timeout	等待随后用户输入的时间，该属性值是一个TimeDesignation。默认的noinput timeout值依赖于平台。	count	是一个数字，用于标识不同的<prompt>，默认值为“1”。
timeout		xml:lang	该<prompt>的语言标识符。它默认为该文档的＂xml:lang＂属性的值。
xml：base	声明一个基本URI，用于解析该<prompt>元素中的相对	xml:lang	该<prompt>的语言标识符。它默认为该文档的＂xml:lang＂属性的值。

URI。<prompt>元素中的该属性的优先权高于<vxml>元素。如果缺省，它的值从文档层次继承得到。

语言标识符用于标注一种特定的人类语言。根据XML技术规范中的语言标识，合法的语言标识符应该为RFC3066的一个代码。语言代码在RFC3066中是必须的，而国家代码或其他的子标签代码在FRC3066中则是可选的。

RFC3066规范定义了语言标识符，

Language-Tag＝Primary-subtag*(＂-＂Subtag)

Primary-subtag＝1*8ALPHA

Subtag＝1*8(ALPHA/DIGIT)

Primary-subtag基于[ISO 639]和[ISO 639-2]，“Code for therepresentation of names of languages”，说明了语言代码。ISO 639定义了二位语言代码，ISO 639-2定义了三位语言代码。

语言	ISO 639语言代码	ISO 639-2语言代码
语言	ISO 639语言代码	ISO 639-2语言代码	中文	Zh	chi/zho
英文	En	eng	中文	Zh	chi/zho
英文	En	eng	法语	Fr	fre/fra
日语	Ja	jpn	法语	Fr	fre/fra

Subtag基于[ISO 3166]，“Codes for the representation of names ofcountries”，说明了国家代码。

语言	ISO 3166国家代码	语言	ISO 3166国家代码
语言	ISO 3166国家代码	语言	ISO 3166国家代码	中国	CN	新西兰	NZ
香港	HK	新加坡	SG	中国	CN	新西兰	NZ
香港	HK	新加坡	SG	台湾	TW	南非	ZA
英国	GB	法国	FR	台湾	TW	南非	ZA
英国	GB	法国	FR	美国	US	加拿大	CA
澳大利亚	AU	日本	JP	美国	US	加拿大	CA

建议使用的语言标示

语言(英文)	语言	语言标识符
语言(英文)	语言	语言标识符	English(American)	美国英语	en-US
French(European)	欧洲法语	fr-FR	English(American)	美国英语	en-US
French(European)	欧洲法语	fr-FR	Japanese	日语	ja
Mandarin(China)	中国普通话	缺省不填为中文或zh-CN	Japanese	日语	ja

语音合成服务器，根据透传的所述引擎函数合成语音，并通过所述IVR播放所述合成语音。

此外，在本发明另一实施方式中多语言语音合成系统，还包括：座席(Agent)，将其具有的语言属性提供给所述CTI，在进行多语言合成时，向所述CTI发送转移到所述IVR的请求。

软排队机接续到呼叫，根据所述呼叫携带的网络属性识别出用户的语言属性，向CTI发送连接到具有相应语言属性的空闲座席的路由请求，由CTI建立所述软排队机与所述空闲座席的呼叫连接。座席访问应用服务器查询业务信息，当要进行多语言合成时，座席向CTI发送将呼叫转移到IVR的请求。由CTI建立所述软排队机与所述IVR的连接。之后，由IVR、应用服务器以及语音合成服务器配合执行向用户播放合成的语音。

此外，在执行上述操作后，所述座席还可以进一步提供人工服务，由所述IVR向所述CTI发送转移到具有所述语言属性的座席的请求，拆除软排队机与IVR的连接，建立起软排队机与座席的媒体通道。

CTI-Agent之间接口(A接口)提供了基本属性(座席工号、密码、座席类型、座席姓名、服务器的IP地址、服务器的端口号、本地座席端口号、电话分机号码)和状态属性，方法包括初始化类、呼叫控制类、质检功能类、呼叫数据类、座席与队列类等，事件包括呼叫控制事件类、质检事件类、座席事件类以及其它事件类。对于多语言应用，要求增加基本属性LanguagePreferences，说明座席的语种属性。

属性	说明
属性	说明	LanguagePreferences	座席的语种技能，参数类型为：String，最大长度8。

对于呼叫控制方法，以下至少之一的方法中需要包括属性LanguagePreferences：CallInside(内部呼叫)、Consultation(咨询)、CallOutside(呼出)、SingleStepTransfer(单步呼叫转出)、Transfer(呼叫转出)、Conference(三方通话)、SetCallData(设置呼叫数据)、QueryCallData(查询呼叫数据)等。

此外，本发明另一实施方式中多语言语音合成系统，还包括：多媒体网关GW。

多媒体网关将外呼服务器的外呼请求发送给CTI，在所述请求中携带本次呼叫的语言属性。CTI根据多媒体网关的要求，启动IVR自动外呼流程。IVR查询位于AS的外呼用户数据并返回给CTI。CTI控制软排队机向被叫用户发起外呼请求。被叫用户摘机应答后，SoftACD将相关事件上报CTI，CTI选择具有所述语言属性的座席应答本次外呼请求。所述座席对应答请求进行回复，并通过SoftACD控制，建立与用户之间的语音通话。CTI获知座席与用户正式建立通话连接后，向多媒体网关报告本次外呼请求建立成功。

本发明可应用在支持分层架构的软排队机呼叫中心系统上，可与固定网络、移动网络实现对接和相关的业务实现。该发明中所指的固定网络包括传统PSTN网络(采用No.7信令系统)和软交换设备，移动网络包括GSM/UMTS，CDMA1X/CDMA2000等。通过本发明，软排队机呼叫中心可以为用户提供多语言信息服务，这一方法填补了呼叫中心目前多语言语音合成TTS功能的空白。

本发明具体可应用于要求提供多语言服务的环境中，比如，以世博服务热线为例，在世博会以及国际化大都市多语言信息服务等背景下，形成面向百万人群规模的多语言信息服务。既提供诸如世博门票预定、接待宾馆预定、特色餐饮预定、车票机票预定、车辆预约租赁等个性化商务服务，又提供世博园区动态、交通指路导航、旅游景点咨询、紧急救助等城市公共服务。

Claims

1.基于软排队机呼叫中心的多语言语音合成方法，包括以下步骤：

1)将呼叫接续至软排队机，并由所述软排队机向计算机电信集成服务器CTI发送路由请求；

2)通过所述CTI建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；

3)当所述软排队机与所述IVR之间为多语言呼叫时，由所述IVR向应用服务器发送调用多语言流程的请求；

4)通过所述应用服务器将标明所述多语言流程的语言标签传递给所述IVR；

5)根据所述语言标签选择所述多语言流程的引擎函数、设置音库，并由所述IVR将合成文本传送给语音合成服务器；

6)由所述语音合成服务器根据透传的所述合成文本合成语音，并通过所述IVR播放所述合成语音。

2.如权利要求1所述方法，其中，步骤1)和步骤2)包括：

11)在接续到所述呼叫时，由所述软排队机识别出语言属性，并在所述路由请求中携带所述语言属性；

21)由所述CTI根据所述语言属性，建立所述软排队机与具有所述语言属性的座席的呼叫连接；

22)当要进行多语言合成时，根据所述座席转移到所述IVR的请求，由所述CTI建立所述软排队机与所述IVR的连接。

3.如权利要求1或2所述方法，还包括以下步骤：

外呼服务器通过多媒体网关向所述CTI发起外呼请求，在所述请求中携带本次呼叫的语言属性；

所述CTI根据所述多媒体网关的要求，启动所述IVR自动外呼流程；

当所述IVR查询到位于应用服务器中的外呼用户数据时，将所述数据返回给所述CTI；

由所述CTI控制所述软排队机向被叫用户发起所述外呼请求；

当所述被叫用户摘机应答后，所述CTI选择具有所述语言属性的座席应答本次外呼请求；

所述座席对应答请求进行回复，并通过所述软排队机控制，建立与所述被叫用户之间的语音通话；

当所述CTI获知所述座席与所述用户正式建立通话连接后，向所述多媒体网关报告本次外呼请求建立成功。

4.如权利要求1或2所述方法，还包括以下步骤：

由所述IVR向所述CTI发送转移到具有所述语言属性的座席的请求；

通过所述CTI向所述软排队机发送转移至所述座席的通知；

拆除所述软排队机与所述IVR的连接，并建立所述软排队机与所述座席的媒体通道。

5.如权利要求1所述方法，其中，步骤4)包括：

在所述语言标签中携带文档的版本号以及保存所述文档的地址信息，产生语音合成和音频的队列并输出给所述IVR。

6.基于软排队机呼叫中心的多语言语音合成系统，包括：

软排队机，接续呼叫并向计算机电信集成服务器CTI发送路由请求；

计算机电信集成服务器CTI，建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；

互动式语音应答服务器IVR，当所述软排队机与所述IVR之间为多语言呼叫时，向应用服务器发送调用多语言流程的请求；根据所述语言标签选择所述多语言流程的引擎函数、设置音库，并将合成文本传送给语音合成服务器；

应用服务器，将标明所述多语言流程的语言标签传递给所述IVR；

语音合成服务器，根据透传的所述合成文本合成语音，并通过所述IVR播放所述合成语音。

7.如权利要求6所述系统，还包括：座席，将其具有的语言属性提供给所述CTI，在进行多语言合成时，向所述CTI发送转移到所述IVR的请求。

8.如权利要求7所述系统，其中：

所述软排队机在接续到所述呼叫时识别出语言属性，并在所述路由请求中携带所述语言属性；

所述CTI根据所述语言属性，建立所述软排队机与具有所述语言属性的座席的呼叫连接，当要进行多语言合成时，根据所述座席转移到所述IVR的请求，建立所述软排队机与所述IVR的连接。

9.如权利要求7所述系统，还包括：多媒体网关，将外呼服务器的外呼请求发送给所述CTI，在所述请求中携带本次呼叫的语言属性。

10.如权利要求9所述系统，其中：

所述CTI根据所述多媒体网关的要求，启动所述IVR自动外呼流程，并接收所述IVR返回的位于所述应用服务器中的外呼用户数据；控制所述软排队机向被叫用户发起所述外呼请求，在所述被叫用户摘机应答后，选择具有所述语言属性的座席应答本次外呼请求。

11.如权利要求6至10任一所述系统，其中：

所述IVR向所述CTI发送转移到具有所述语言属性的座席的请求；

所述CTI向所述软排队机发送转移至所述座席的通知；

所述软排队机拆除与所述IVR的连接，并建立与所述座席的媒体通道。

12.如权利要求6至10任一所述系统，其中，所述应用服务器在所述语言标签中携带文档的版本号以及保存所述文档的地址信息，产生语音合成和音频的队列并输出给所述IVR。