CN101478613A

CN101478613A - 基于软排队呼叫中心的多语言语音识别方法和系统

Info

Publication number: CN101478613A
Application number: CNA2009100085649A
Authority: CN
Inventors: 陈健; 邵伟翔
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2009-02-03
Filing date: 2009-02-03
Publication date: 2009-07-08
Anticipated expiration: 2029-02-03
Also published as: CN101478613B

Abstract

本发明提出一种基于软排队呼叫中心的多语言语音识别方法和系统，包括以下步骤：将呼叫接续至软排队机，并由软排队机向计算机电信集成服务器CTI发送路由请求；通过CTI建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；当软排队机与IVR之间为多语言呼叫时，由IVR向应用服务器发送调用多语言流程的请求；通过应用服务器将标明所述多语言流程的语言标签传递给IVR；根据语言标签，由IVR调用自动语音识别ASR客户端至后台的多语言语音识别ASR服务器的不同语言语法端口；调用与语言语法端口对应的编译服务器，根据不同的语法文件和语言模型对语音进行识别，并将识别后文本返回给所述IVR。本发明可以实现多语言语音识别功能。

Description

基于软排队呼叫中心的多语言语音识别方法和系统

技术领域

本发明涉及软排队呼叫中心领域，特别是涉及基于软排队呼叫中心的多语言语音识别方法和系统。

背景技术

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令。ASR(Automatic Speech Recognize，自动语音识别)提供了“用户友好”的人机交互方式，它可以识别呼叫者说的短语，将语音文字转换为自动系统可以执行的动作指令或信息。ASR自动语音识别功能采用了自然语言理解(NLU)技术，使呼叫者可以使用自己的语言对系统提出请求。

语音识别系统提供高效、灵活的服务，可以在多种领域内使用，比如，PC语音互动娱乐和教学软件，电信级、企业级呼叫中心系统，IVR、UM、Voice Portal等等丰富多彩的语音增值业务。

电话语音识别方案为自助服务应用和主叫方之间提供了沟通的桥梁，它在客户服务领域发挥着越来越重要的作用，所涉及的行业也越来越广泛。语音方案的目的在于平衡自动化与易用性，从而确保有价值的客户互动，提高业务及个人效率。

现有的软排队呼叫中心支持中文语音识别ASR功能，下面结合附图对软排队呼叫中心的层次结构以及框架进行说明，以便有利于对其提供的中文语音识别ASR功能进行说明。

软排队呼叫中心的层次结构如图1中虚线部分所示。

软排队呼叫中心系统采用分层架构模型，将业务接入、业务支撑(控制)以及业务应用进行分离，实现系统内部松耦合，以灵活、快速响应业务变化对系统的需求。整个系统层次结构划分为接入层、业务支撑层、业务应用层以及其他辅助层，通过各层次系统模块间的承载关系，实现系统功能。在层次化的体系结构中，各层之间均采用协议或API封装的方式作为接口，使得各层相对独立。

软排队呼叫中心的网络架构及接口定义如图2所示。

软排队机(SoftACD)设备处于整个软排队呼叫中心系统的接入层，为固网和移动网发起的语音/视频/传真呼叫提供接入控制和媒体资源功能。SoftACD屏蔽了底层网络的复杂性，将来自固网和移动网的呼叫抽象成统一的呼叫模型，并通过统一的CSTA接口(采用CSTA接口协议)将呼叫事件提交给CTI，实现多种网络呼叫的统一接入。

CTI在软排队呼叫中心系统架构中处于核心地位，负责对各种接入请求(包括语音、Email、FAX、短信、Web等)进行统一的排队和路由，并对座席及IVR/MS等资源进行集中调度和管理。CTI提供呼叫排队与路由，呼叫控制、资源管理等功能。

IVR/MS是软排队呼叫中心系统的自动业务运行环境，IVR/MS的逻辑功能示意图如图3所示，提供软排队呼叫中心与客户的自助语音交互功能，实现语音菜单的灵活跳转。IVR/MS具备ASR(AutomaticSpeech Recognize，自动语音识别)进行自动语音识别。IVR与CTI之间的接口为B接口，主要提供了IVR/MS与CTI之间的呼叫控制、呼叫数据等所需的应用程序接口，接口协议采用TCP/IP协议，IVR/MS以基于动态连接库(DLL)的API调用B接口与CTI进行通信。

Agent为话务员提供了人机交互的界面，处于整个软排队呼叫中心的业务支撑层，能够以不同的方式受理用户的呼叫请求，如：电话、短信、传真、EMAIL、WEB等。Agent与CTI之间具有A接口，提供座席与CTI之间的呼叫控制服务、质检服务和座席与队列服务等所需的应用程序接口以及相关事件等，A接口协议采用TCP/IP协议，Agent以动态链接库(DLL)或控件方式(如，ActiveX)调用A接口与CTI进行通信。

应用服务器(AS)位于软排队呼叫中心中的业务应用层，主要提供业务控制功能、业务数据功能、应用执行环境功能等。它为IVR、Agent提供各类业务控制功能。AS提供了统一的业务服务接口，屏蔽了不同客户端的复杂性，实现对多种客户端相关业务的统一服务。应用服务器与IVR/MS之间的D接口，接口协议栈如图4所示。在HTTP上可以承载VoiceXML业务文档、脚本文件、语音文件。D接口采用VoiceXML标准，应满足W3C制定的《VoiceXML Version 2.0》(W3CCandidate Recommendation 28 January 2003)标准的规定。

多媒体网关(Multi-Media GW)位于NGCC网络架构的接入层，为短信、彩信、EMAIL等非实时呼叫提供接入控制和媒体资源能力。多媒体网关屏蔽了底层网络的复杂性，将来自不同网络的非实时呼叫抽象成统一的呼叫模型，并通过统一的接口E将呼叫事件提交给CTI，实现多种网络呼叫的统一接入。多媒体网关以API调用接口E与CTI进行通信，接口协议采用TCP/IP协议。接口E主要分为3类：录音接口、OBS(Outbound Server，外拨策略服务器)、多媒体网关。

目前软排队呼叫中心只支持中文语音识别ASR功能，当用户通过语音终端与呼叫中心建立通话后，系统通过IVR调用ASR设备识别用户的中文语音，识别成功后系统提供后续功能服务。但是无法实现多语言语音识别ASR功能。

发明内容

本发明要解决的技术问题是提供基于软排队呼叫中心的多语言语音识别方法和系统，以实现多语言语音识别功能。

根据本发明一方面，提出一种基于软排队呼叫中心的多语言语音识别方法，包括以下步骤：将呼叫接续至软排队机，并由所述软排队机向计算机电信集成服务器CTI发送路由请求；通过所述CTI建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；当所述软排队机与所述IVR之间为多语言呼叫时，由所述IVR向应用服务器发送调用多语言流程的请求；通过所述应用服务器将标明所述多语言流程的语言标签传递给所述IVR；根据所述语言标签，由所述IVR调用自动语音识别ASR客户端至后台的多语言语音识别ASR服务器的不同语言语法端口；调用与所述语言语法端口对应的编译服务器，根据不同的语法文件和语言模型对语音进行识别，并将识别后文本返回给所述IVR。

根据本发明另一方面，还提出一种基于软排队机呼叫中心的多语言语音识别系统，包括：软排队机，接续呼叫并向计算机电信集成服务器CTI发送路由请求；计算机电信集成服务器CTI，建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；互动式语音应答服务器IVR，当所述软排队机与所述IVR之间为多语言呼叫时，向应用服务器发送调用多语言流程的请求；根据语言标签调用自动语音识别ASR客户端至后台的多语言语音识别ASR服务器的不同语言语法端口；应用服务器，将标明所述多语言流程的语言标签传递给所述IVR；ASR服务器，调用与所述语言语法端口对应的编译服务器，根据不同的语法文件和语言模型对语音进行识别，并将识别后文本返回给所述IVR。

本发明在目前软排队呼叫中心的网络架构及接口定义的基础上，增加了各接口的语言属性，使现有技术中各单元具有多语言属性，从而在呼叫流程中通过调用多语言属性来实现多语言语音识别功能。

附图说明

图1是现有技术软排队呼叫中心层次结构图。

图2是现有技术软排队呼叫中心网络架构及接口。

图3是现有技术IVR逻辑功能示意图。

图4是现有技术接口D协议层。

图5是本发明中基于软排队呼叫中心的多语言语音识别方法流程图。

图6示出本发明软排队呼叫中心多语言业务流程框架。

图7示出本发明中对法语用户的语音进行识别的方法实施例。

图8示出本发明中对日语用户的语音进行识别的方法实施例。

图9示出本发明中对英语用户的语音进行识别的方法实施例。

具体实施方式

图5是本发明中基于软排队呼叫中心的多语言语音识别方法流程图，包括以下步骤：

在步骤501，将呼叫接续至软排队机，并由所述软排队机向计算机电信集成服务器CTI发送路由请求；

电话用户拨打呼叫中心服务热线，由软排队机识别多语种呼叫类型并接入呼叫中心。在接续到所述呼叫时，软排队机可以根据用户的接入号、呼叫源、接入中继等网络属性识别出语言属性，并在所述路由请求中携带所述语言属性，所述多语言呼叫可以是至少如下之一：中、英、法、日。当然，也可以根据需要进行语种的扩展。

在步骤502，通过所述CTI建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；

当在上一步骤的操作中，已经识别出语言属性时，可以由所述CTI建立所述软排队机与具有所述语言属性的座席的呼叫连接。所述座席可以是中文座席、英文座席、法语座席或日语座席。在要进行多语言识别时，根据所述座席发送的转移到所述IVR的请求，由所述CTI建立所述软排队机与所述IVR的连接。

在步骤503，当所述软排队机与所述IVR之间为多语言呼叫时，由所述IVR向应用服务器发送调用多语言流程的请求；

在步骤504，通过所述应用服务器将标明所述多语言流程的语言标签传递给所述IVR。在所述语言标签中可以携带文档的版本号以及保存所述文档的地址信息，产生语音识别和音频的队列并输出给所述IVR；

在步骤505，根据所述语言标签，由所述IVR调用ASR客户端至后台的多语言语音识别ASR服务器的不同语言语法端口；

在步骤506，ASR服务器调用与所述语言语法端口对应的编译服务器，根据不同的语法文件和语言模型对语音进行识别，并将识别后文本返回给IVR。进一步，IVR可以根据识别结果提供后续服务，也可以选择挂断，结束服务。

此外，用户还可以建立与具有某种语言属性的座席的媒体通

座席提供人工服务，该方法还可以包括如下步骤：

由IVR向所述CTI发送转移到具有所述语言属性的座席的请求；

通过所述CTI向所述软排队机发送转移至所述座席的通知；

拆除所述软排队机与所述IVR的连接，并建立所述软排队机与所述座席的媒体通道。

此外，在上述方法中，还包括由CTI对其他来话进行统一排队与路由的步骤，比如，用户通过WEB/IM/Email/短信/彩信/WAP等方式发出呼叫，多媒体网关识别多语种呼叫类型后接入呼叫中心，通过CTI建立多媒体网关与IVR的连接，也可以建立多媒体网关与座席的连接。多媒体网关在建立连接后，可以外呼用户。

图6示出本发明软排队呼叫中心多语言业务流程框架，下面在该流程框架的基础上，结合附图和具体实施例对本发明进行详细说明。

图7示出本发明中对法语用户的语音进行识别的方法实施例，该实施例包括以下步骤：

法语用户A拨打114。SS产生INVITE(From＝A，To＝114)消息，并将呼叫接续至软排队机SoftACD。

软排队机根据用户的接入号、呼叫源、接入中继等网络属性判断用户的语言属性，识别多语种呼叫类型为法语，SoftACD通过CSTA协议提供的RouteRequest(含CalledDeviceID＝114、CallingDeviceID＝A、ConnectionID、PriorityValue、LanguagePreferences＝fr等参数)事件通知CTI呼叫到达且呼叫语种类型为法语，同时向用户播放法语欢迎词。

CTI根据SoftACD的路由请求事件和排队策略，选取相关法语技能的空闲座席B，并通过CSTA协议提供的RouteSelectRequest(含routeSelected＝B等参数)事件通知SoftACD接通对应座席的SIPPhone。另一方面，CTI通过NGCC-A接口AnswerRequest(含Call-ID，MediaType＝语音)通知座席准备接听来话。

法语座席B收到CTI的应答请求事件后，完成呼叫应答准备，向CTI反馈Answer(MediaType＝语音)应答消息。

CTI收到座席应答指示后，需发送AnswerSuccess(MediaType＝语音)事件进行应答确认。否则座席将重新发起Answer应答消息。

SoftACD根据CTI指示，发起到法语座席B的SIP Phone试呼，产生INVITE(From＝A，To＝B)消息。座席B的SIP Phone开始振铃，并向SoftACD反馈180 Ringing消息。SoftACD通过CSTA协议提供的Delivered(含connection＝ConnectionID，alertingDevice＝B，callingDevice＝A，LanguagePreferences＝fr等参数)事件通知CTI座席开始振铃。

法语座席B应答后发送后向应答消息200 OK(INVITE)。SoftACD发送ACK进行SIP呼叫建立的过程确认。

通话过程建立后，法语座席B与用户A开始通话。座席访问应用服务器AS，查询法语用户A关心的业务信息。

法语座席B向CTI发起SingStepTrans请求将用户转移到IVR上，被叫号码填写IVR流程的接入码。

CTI将请求发送到SoftACD，SoftACD收到SingleStepTran命令后检查Agent和用户的状态等环境，没有问题给CTI回Result消息，CTI将Result回给座席。如果座席状态不正确，SoftACD将回ERROR消息，通知CTI，CTI通知座席操作失败，以及失败原因。

SoftACD开始呼叫IVR，然后将用户和IVR的媒体流连接起来，转移成功。

IVR向CTI发送呼叫请求指示消息，并取回与电话呼叫相关联的数据，CTI通知IVR是法语自动服务。

IVR向应用服务器AS请求法语自动服务的流程，AS调用法语自动服务的流程，VXML的语种标签为xml：lang＝＇fr-fr＇。

IVR根据法语自动服务流程的要求，放音提示用户语音输入识别服务内容，用户通过电话语音输入；IVR选择法语编译服务器和端口，通过ASR客户端接口函数如OpenDatabase打开动态语法数据库、AddPhraseToDynamicGrammar增加新的动态语法调用动态语法或使用法语自动服务流程中的静态语法，通过StartRecognizing接口函数开始识别任务。ASR服务器根据语音识别产生文本，并将文本返回IVR。

IVR根据文本向AS请求法语自动服务下一步的流程，IVR为用户提供后续服务。

图8示出本发明中对日语用户的语音进行识别的方法实施例，该实施例包括以下步骤：

日语用户C拨打114。SS产生INVITE(From＝C，To＝114)消息，并将呼叫接续至软排队机SoftACD。

软排队机根据业务流程，前置触发IVR流程，SoftACD通过CSTA协议提供的RouteRequest(含CalledDeviceID＝114、CallingDeviceID＝C、ConnectionID、PriorityValue、等参数)事件通知CTI呼叫到达。

CTI根据SoftACD的路由请求事件和排队策略，选取路由为IVR，并通过RouteSelect告知SoftACD；CTI发送IvrGetEvent通知IVR。

SoftACD和IVR建立连接。

IVR通知CTI和SoftACD已建立连接，并进行数据配置。

IVR从AS取得初始业务逻辑流程。

IVR放音提示用户C选择服务语种，用户C通过DTMF输入选择服务语种为日语。

IVR从AS取得日语业务逻辑流程，VXML的语种标签为xml:lang＝＇ja＇。

IVR根据日语自动服务流程的要求，放音提示用户语音输入识别服务内容，用户通过电话语音输入。

IVR选择日语编译服务器和端口，通过ASR客户端接口函数如OpenDatabase打开动态语法数据库、AddPhraseToDynamicGrammar增加新的动态语法调用动态语法或使用法语自动服务流程中的静态语法，通过StartRecognizing接口函数开始识别任务。ASR服务器根据语音识别产生文本，并将文本返回IVR。

IVR根据文本向AS请求日语自动服务下一步的流程。

IVR为用户提供后续服务。

用户C通过DTMF输入选择人工服务。

IVR通过IvrRequestRouting向CTI请求人工服务的路由，IvrSetCallData设置呼叫数据，通知CTI usLanguagePreferences＝ja，IvrTransfer进行呼叫转移。

CTI通知SoftACD进行呼叫转移，指示SoftACD将用户C转移至日语座席D。

SoftACD和IVR之间拆除连接。

SoftACD和日语座席D建立会话。

SoftACD和座席协商新的媒体通道，指向日语座席D。

用户C和座席D通话。

图9示出本发明中对英语用户的语音进行识别的方法实施例，该实施例包括以下步骤：

用户E拨打114。SS产生INVITE(From＝E，To＝114)消息，并将呼叫接续至SoftACD。

SoftACD通过CSTA协议提供的RouteRequest(含CalledDeviceID＝114、CallingDeviceID＝E、ConnectionID、PriorityValue等参数)事件通知CTI呼叫到达，向用户播放欢迎词。

CTI根据SoftACD的路由请求事件和排队策略，选取空闲座席F，并通过CSTA协议提供的RouteSelectRequest(含routeSelected＝B等参数)事件通知SoftACD接通对应座席的SIP Phone。另一方面，CTI通过NGCC-A接口AnswerRequest(含Call-ID，MediaType＝语音)通知座席准备接听来话。

座席F收到CTI的应答请求事件后，完成呼叫应答准备，向CTI反馈Answer(MediaType＝语音)应答消息。

SoftACD根据CTI指示，发起到座席F的SIP Phone试呼，产生INVITE(From＝E，To＝F)消息。座席F的SIP Phone开始振铃，并向SoftACD反馈180Ringing消息。SoftACD通过CSTA协议提供的Delivered(含connection＝ConnectionID，alertingDevice＝F，callingDevice＝E等参数)事件通知CTI座席开始振铃。

座席F应答后发送后向应答消息200 OK(INVITE)。SoftACD发送ACK进行SIP呼叫建立的过程确认。

通话过程建立后，座席F与用户E开始通话。座席访问应用服务器AS，查询用户E关心的业务信息。

用户E告诉座席F要求使用英语服务。

座席F进行下一步动作，访问应用服务器AS，查询用户E关心的业务信息(英语)。当然，该步骤也可以不执行，直接执行下一步骤。

座席F调用相关方法，如SingleStepTransfer(单步呼叫转出)、Consultation(咨询)、Transfer(呼叫转出)、Conference(三方通话)、SetCallData(设置呼叫数据)，通知CTI相关服务语种为英语；CTI执行后续操作，人工英语服务或自动英语服务。

根据本发明另一方面，还提出一种基于软排队呼叫中心的多语言语音识别系统。所述系统结构与现有技术基本相同，只是各模块的功能有所变化，将在下面对其进行具体说明。

软排队机SoftACD，接续呼叫并向计算机电信集成服务器CTI发送路由请求。电话用户拨打呼叫中心服务热线，由软排队机识别多语种呼叫类型并接入呼叫中心。所述软排队机可以在接续到所述呼叫时，根据用户的接入号、呼叫源、接入中继等网络属性识别出语言属性，在所述路由请求中携带所述语言属性，并通过CSTA接口发送给CTI，下面将具体说明该CSTA接口。所述多语言呼叫可以是至少如下之一：中、英、法、日。当然，也可以根据需要进行语种的扩展。

SoftACD-CTI之间接口(CSTA接口)协议可以采用CSTAPhaseIII协议，该协议的具体要求请参照ECMA-269和ECMA-323。对于多语言应用，要求增加基本属性LanguagePreferences。

LanguagePreferences

语言类型，参数类型为：stringzh-CN或空：中文en-US：英语fr-FR：法语ja：日语

本接口协议需至少实现如下的功能定义，同时所有参数须满足TR/68协议的定义。

计算机电信集成服务器CTI，建立所述软排队机与互动式语音应答服务器IVR的呼叫连接。所述CTI可以根据所述语言属性，建立所述软排队机与具有相应所述语言属性的IVR的呼叫连接。其中，所述语言属性是通过B接口进行传递，下面将具体说明B接口。

CTI-IVR之间接口(B接口)提供初始化、事件通知、呼叫请求指示、呼叫数据、请求路由、呼叫转移、切换呼叫、释放呼叫、释放连接等API函数。对于多语言应用增加基本属性usLanguagePreferences。所述属性可以由下表所示，但并不限于此。

usLanguagePreferences

语言类型，参数类型为：USHORTzh-CN或空：中文en-US：英语fr-FR：法语ja：日语

对于Ivrsignin(初始化通讯底层)、IvrGetEvent(事件通知函数)、IvrQueryCallData(查询呼叫数据)、IvrSetCallData(设置呼叫数据)、IvrRequestRouting(请求路由)、IvrTransfer(呼叫转移)等函数需要包括属性usLanguagePreferences。

互动式语音应答服务器IVR，当所述软排队机与所述IVR之间为多语言呼叫时，向应用服务器发送调用多语言流程的请求；根据语言标签调用自动语音识别ASR客户端至后台的多语言语音识别ASR服务器的不同语言语法端口。

IVR支持两种模式，模式一，根据软排队机和CTI的指示将呼叫转移到多语种人工台或处理多语种人工台转来的呼叫，实现多语种呼叫转移功能；根据CTI指示，向多语种客户提供不同形式或服务等级的自助服务；模式二，根据应用服务器的多语种呼叫业务流程，提示用户选择语种服务类型，然后将语言类型报告给软排队机和CTI。

IVR通过RCEngine API动态调用ASR客户端至后台的多语言语音识别ASR服务器，不同语言使用不同的语法端口，多语种通过同时加载多种语言模型语法来实现：

使用中使用多个-package参数加载识别包；

静态语法使用时选择不同语法名称；

动态语法使用时通过gsl语的RECOGNIZE关键字来选择不同的语言模型。

应用服务器，将标明所述多语言流程的语言标签传递给所述IVR。在所述语言标签中可以携带文档的版本号以及保存所述文档的地址信息，产生语音识别和音频的队列并通过D接口输出给所述IVR。

应用服务器AS支持多语种呼叫业务流程，支持IVR媒体服务器切换语种调用语音识别。应用服务器和IVR的接口支持调用多语言服务流程，AS接口方法为支持VoiceXML 2.0及以上的脚本，使用不同的语言标签传递语种信息给IVR如xml:lang＝＇en-us＇、xml:lang＝＇fr-fr＇、xml:lang＝＇ja＇。

IVR-AS之间接口(D接口)采用VoiceXML标准，对于多语言语音识别应用，元素<vxml>、<prompt>为必选，且必须支持xml：lang属性。其中，元素<vxml>是每个VoiceXML文档中最上层的元素，有如下属性：

version	表示该文档的VoiceXML的版本号(必须的)，当前的版本号是2.0。
version	表示该文档的VoiceXML的版本号(必须的)，当前的版本号是2.0。	xmlns	表示给VoiceXML指定的域名空间(必须的)VoiceXML的域名空间是http://www.w3.org/2001/vxml。
xml:base	该文档的基础URI，文档中所有的相对的URI引用都是相对于这个基础URI的。	xmlns
xml:base	该文档的基础URI，文档中所有的相对的URI引用都是相对于这个基础URI的。	xml:lang	表示该文档的语言标识符，如果省略，默认的语言为平台特定的语言。
application	表示该文档的应用根文档的URI。	xml:lang	表示该文档的语言标识符，如果省略，默认的语言为平台特定的语言。

在文档级，语言信息可以通过继承得到：那些有“xml:lang”属性的元素可以继承“xml:lang”的值，例如<prompt>元素，除非这些元素也指定了一个值。

<prompt>元素产生一个输出给用户的语音识别和音频的队列。

<prompt>元素的属性有：

bargein	控制用户是否可以打断该提示语，值为true或false。当为true时，用户可打断系统提示。默认为bargein property的值。。
bargein		bargeintype	设置bargein的类型，值为‘speech’或者‘hotword’，默认为bargeintype property属性值。
cond	ECMAScript表达式。只有当其结果值为booleantrue，该<prompt>元素才被执行，否则不被执行。缺省时为true。	bargeintype
cond		count	它是一个数字，用于标识不同的<prompt>，默认值为“1”。
timeout	等待随后用户输入的时间，该属性值是一个TimeDesignation(见6.5节)。默认的noinput timeout值是依赖于平台的。	count	它是一个数字，用于标识不同的<prompt>，默认值为“1”。
timeout		xml:lang	该<prompt>的语言标识符。它默认为该文档的＂xml:lang＂属性的值。
xml:base	声明一个基本URI，用于解析该<prompt>元素中的相对URI。<prompt>元素中的该属性的优先权高于<vxml>元素。如果缺省，它的值从文档层次继承得到。	xml:lang	该<prompt>的语言标识符。它默认为该文档的＂xml:lang＂属性的值。

语言标识符用于标注一种特定的人类语言。根据XML技术规范中的语言标识，合法的语言标识符应该为RFC3066的一个代码。语言代码在RFC3066中是必须的，而国家代码或其他的子标签代码在FRC3066中则是可选的。

RFC3066规范定义了语言标识符，

Language-Tag＝Primary-subtag＊(＂-＂Subtag)

Primary-subtag＝1*8ALPHA

Subtag＝1*8(ALPHA/DIGIT)

其中，Primary-subtag基于[ISO639]和[ISO639-2]，“Code for therepresentation of names of languages”，说明了语言代码。ISO 639定义了二位语言代码，ISO 639-2定义了三位语言代码。

语言	ISO 639语言代码	ISO 639-2语言代码
语言	ISO 639语言代码	ISO 639-2语言代码	中文	Zh	chi/zho
英文	En	eng	中文	Zh	chi/zho
英文	En	eng	法语	Fr	fre/fra
日语	Ja	jpn	法语	Fr	fre/fra

Subtag基于[ISO3166]，“Codes for the representation of names ofcountries”，说明了国家代码。

语言	ISO 3166国家代码	语言	ISO 3166国家代码
语言	ISO 3166国家代码	语言	ISO 3166国家代码	中国	CN	新西兰	NZ
香港	HK	新加坡	SG	中国	CN	新西兰	NZ
香港	HK	新加坡	SG	台湾	TW	南非	ZA
英国	GB	法国	FR	台湾	TW	南非	ZA
英国	GB	法国	FR	美国	US	加拿大	CA
澳大利亚	AU	日本	JP	美国	US	加拿大	CA

建议使用的语言标示

语言(英文)	语言	语言标识符
语言(英文)	语言	语言标识符	English(American)	美国英语	en-US
French(European)	欧洲法语	fr-FR	English(American)	美国英语	en-US
French(European)	欧洲法语	fr-FR	Japanese	日语	ja
Mandarin(China)	中国普通话	缺省不填为中文或zh-CN	Japanese	日语	ja

ASR服务器，调用与所述语言语法端口对应的编译服务器，根据不同的语法文件和语言模型对语音进行识别，并将识别后文本返回给IVR。

此外，在本发明另一实施方式的多语言语音识别系统中，还包括：座席(Agent)，将其具有的语言属性提供给所述CTI，在进行多语言识别时，向所述CTI发送转移到所述IVR的请求。座席可选择中、英、法、日任一语种登录，可以在中、英、法、日环境下，实现呼叫转移、转接等功，并提供外呼功能。

软排队机接续到呼叫，根据所述呼叫携带的网络属性识别出用户的语言属性，向CTI发送连接到具有相应语言属性的空闲座席的路由请求，由CTI建立所述软排队机与所述空闲座席的呼叫连接。所述座席可以是中文座席、英文座席、法语座席或日语座席。座席访问应用服务器查询业务信息，当要进行多语言识别时，座席向CTI发送将呼叫转移到IVR的请求。由CTI建立所述软排队机与所述IVR的连接。

在执行上述操作后，所述座席还可以进一步提供人工服务，由所述IVR向所述CTI发送转移到具有所述语言属性的座席的请求，拆除软排队机与IVR的连接，建立起软排队机与座席的媒体通道。

CTI-Agent之间接口(A接口)提供了基本属性(座席工号、密码、座席类型、座席姓名、服务器的IP地址、服务器的端口号、本地座席端口号、电话分机号码)和状态属性，方法包括初始化类、呼叫控制类、质检功能类、呼叫数据类、座席与队列类等，事件包括呼叫控制事件类、质检事件类、座席事件类以及其它事件类。

对于多语言应用，要求增加基本属性LanguagePreferences，说明座席的语种属性。

属性	说明
属性	说明	LanguagePreferences	座席的语种技能，参数类型为：String，最大长度8。

对于呼叫控制方法，以下方法需包括属性LanguagePreferences：

CallInside(内部呼叫)、Consultation(咨询)、CallOutside(呼出)、SingleStepTransfer(单步呼叫转出)、Transfer(呼叫转出)、Conference(三方通话)、SetCallData(设置呼叫数据)、QueryCallData(查询呼叫数据)等方法。

此外，在本发明另一实施方式的多语言语音识别系统中，还包括：多媒体网关。

多媒体网关根据用户的接入方式、服务方式、呼叫源等属性判断用户的语言属性，识别多语种呼叫类型和多媒体类型，支持多语种接入功能直接接入呼叫中心，呼叫事件由多媒体网关上报CTI，且告知CTI该呼叫语种类型，能在CTI的控制下实现多语种呼叫的排队功能。另外CTI可以调度多媒体网关中的外呼服务器并选择相应语种的座席实现多语言外呼。

多媒体GW-CTI之间接口(E接口)提供录音接口、OBS(Outbound Server，外呼服务器)、多媒体网关的相关操作方法API函数。对于多语言应用增加基本属性LanguagePreferences。

LanguagePreferences

语言类型，参数类型为：stringzh-CN或空：中文en-US：英语fr-FR：法语ia：日语

对于CallOutside(外呼呼出)、SetCallData(设置呼叫数据)、QueryCallData(查询呼叫数据)、RequestMultimediaAnswer(多媒体呼叫到达)、CTIToGW(CTI的多媒体网关呼叫回复消息)、CallGW(向多媒体外呼)等函数需要包括属性LanguagePreferences。

本发明在目前软排队呼叫中心的网络架构及接口定义的基础上，对于CTI-Agent之间接口(A接口)增加了语言属性LanguagePreferences，IVR/MS-AS之间接口(D接口)增加了语言属性xml:lang属性，CTI-IVR之间接口(B接口)增加了语言属性usLanguagePreferences，CTI-多媒体GW之间接口(E接口)增加基本属性LanguagePreferences，SoftACD-CTI之间接口(CSTA接口)增加基本属性LanguagePreferences，并对相关函数和方法提出了修改。同时本发明创建了多语言语音识别应用业务在软排队呼叫中心上使用的呼叫流程以及IVR通过AS应用服务器的VXML流程调用多语言ASR的机制。

本发明可应用在支持分层架构的软排队呼叫中心系统上，可与固定网络、移动网络实现对接和相关的业务实现。该发明中所指的固定网络包括传统PSTN网络(采用No.7信令系统)和软交换设备，移动网络包括GSM/UMTS，CDMA1X/CDMA2000等。通过本发明，软排队呼叫中心可以为用户提供多语言信息服务，这一方法填补了呼叫中心目前多语言语音识别ASR功能的空白。

本发明具体可应用于要求提供多语言服务的环境中，比如，以世博服务热线为例，在世博会以及国际化大都市多语言信息服务等背景下，形成面向百万人群规模的多语言信息服务。既提供诸如世博门票预定、接待宾馆预定、特色餐饮预定、车票机票预定、车辆预约租赁等个性化商务服务，又提供世博园区动态、交通指路导航、旅游景点咨询、紧急救助等城市公共服务。

Claims

1.基于软排队呼叫中心的多语言语音识别方法，包括以下步骤：

1)将呼叫接续至软排队机，并由所述软排队机向计算机电信集成服务器CTI发送路由请求；

2)通过所述CTI建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；

3)当所述软排队机与所述IVR之间为多语言呼叫时，由所述IVR向应用服务器发送调用多语言流程的请求；

4)通过所述应用服务器将标明所述多语言流程的语言标签传递给所述IVR；

5)根据所述语言标签，由所述IVR调用自动语音识别ASR客户端至后台的多语言语音识别ASR服务器的不同语言语法端口；

6)调用与所述语言语法端口对应的编译服务器，根据不同的语法文件和语言模型对语音进行识别，并将识别后文本返回给所述IVR。

2.如权利要求1所述方法，其中，步骤1)和步骤2)包括：

11)在接续到所述呼叫时，由所述软排队机识别出语言属性，并在所述路由请求中携带所述语言属性；

21)由所述CTI根据所述语言属性，建立所述软排队机与具有所述语言属性的座席的呼叫连接；

22)当要进行多语言识别时，根据所述座席转移到所述IVR的请求，由所述CTI建立所述软排队机与所述IVR的连接。

3.如权利要求1所述方法，其中，步骤4)包括：

在所述语言标签中携带文档的版本号以及保存所述文档的地址信息，产生语音识别和音频的队列并输出给所述IVR。

4.如权利要求1所述方法，还包括以下步骤：

由所述IVR向所述CTI发送转移到具有所述语言属性的座席的请求；

通过所述CTI向所述软排队机发送转移至所述座席的通知；

5.如权利要求1至4中任一所述方法，其中，所述多语言呼叫至少包括如下之一：中、英、法、日。

6.基于软排队机呼叫中心的多语言语音识别系统，包括：

软排队机，接续呼叫并向计算机电信集成服务器CTI发送路由请求；

计算机电信集成服务器CTI，建立所述软排队机与互动式语音应答服务器IVR的呼叫连接；

互动式语音应答服务器IVR，当所述软排队机与所述IVR之间为多语言呼叫时，向应用服务器发送调用多语言流程的请求；根据语言标签调用自动语音识别ASR客户端至后台的多语言语音识别ASR服务器的不同语言语法端口；

应用服务器，将标明所述多语言流程的语言标签传递给所述IVR；

ASR服务器，调用与所述语言语法端口对应的编译服务器，根据不同的语法文件和语言模型对语音进行识别，并将识别后文本返回给所述IVR。

7.如权利要求6所述系统，还包括：座席，将其具有的语言属性提供给所述CTI，在进行多语言识别时，向所述CTI发送转移到所述IVR的请求。

8.如权利要求7所述系统，其中：

所述软排队机在接续到所述呼叫时识别出语言属性，并在所述路由请求中携带所述语言属性；

所述CTI根据所述语言属性，建立所述软排队机与具有所述语言属性的座席的呼叫连接，当要进行多语言识别时，根据所述座席转移到所述IVR的请求，建立所述软排队机与所述IVR的连接。

9.如权利要求6或7或8所述系统，其中，所述应用服务器在所述语言标签中携带文档的版本号以及保存所述文档的地址信息，产生语音识别和音频的队列并输出给所述IVR。

10.如权利要求6至8任一所述系统，其中：

所述IVR向所述CTI发送转移到具有所述语言属性的座席的请求；

所述CTI向所述软排队机发送转移至所述座席的通知；

所述软排队机拆除与所述IVR的连接，并建立与所述座席的媒体通道。