CN101112076A

CN101112076A - 灵活分散地提供多语言对话的方法

Info

Publication number: CN101112076A
Application number: CNA2005800441770A
Authority: CN
Inventors: D·弗鲁恩德; N·洛比格
Original assignee: Nokia Siemens Networks GmbH and Co KG
Current assignee: Nokia Solutions and Networks GmbH and Co KG
Priority date: 2004-12-21
Filing date: 2005-11-29
Publication date: 2008-01-23
Also published as: EP1832101A1; US20080114589A1; WO2006067027A1; DE102004061524A1

Abstract

本发明说明了一种用于在电信系统中有效且简单地提供基于语音的业务的方法。在现有技术中，一个业务针对每种语言单独被定义。这使得多语言地提供业务麻烦。本申请通过以下方式解决了该问题，即相应业务的定义分别专有地全局定义在中心业务控制器(DSt)中并且接着在地区媒体服务器(MSA，MSB)中根据预定的变换规则被转换成地区格式。此外，根据本发明的方法在选出所希望的语言时使用交换中心(VSt)的信息。

Description

灵活分散地提供多语言对话的方法

不仅在使用时分复用方法(“time division multiplexing”-TDM)的传统电信网络中而且在新的、基于分组的电信网络(如IP网络)中，很多性能特征可供用户使用。这样的性能特征和与其有关联的业务尤其是例如利用语音广播和语音对话提供自动的选择菜单。

在现有技术中，业务控制器大部分由从交换中心看来在外部的部件承担。在此，涉及所谓的应用服务器，所有对于单个业务的定义必要的信息可供应用服务器使用。因此，所提供的业务的整个复杂的智能(Intelligenz)位于应用服务器上，这些应用服务器同时监视和控制所希望的业务的所有参数并且在此分析用户的应答。

寄存在应用服务器上的、受语音控制的业务的定义大多在动作顺序方面具有高复杂性并且此外大多是极度广泛的。在多国场景中，由于必须提供的大量不同的语言而自然进一步增加业务的复杂性。

由于对于业务所必需的文件的数目很大，在现有技术中，这些文件并不是寄存在应用服务器本身上，而是寄存在所谓的媒体服务器上或者寄存在可访问相应媒体服务器的数据库上。于是，在提供业务时，也就是例如在播放相应的音频文件时，应用服务器请求这些媒体服务器之一的、对于相应用途所必需的语音广播。该请求可以直接或者也可以间接通过交换中心来实现。媒体服务器本身不仅可以集中地被安装在网络中而且可以靠近用户地安装。

业务用户对语音广播和对话的控制通常通过传统的DTMF接口(“双音多频(dual tone multi frequency)”接口)来进行。可是，为了更简单地通过语音对话进行导航，这种基于语音的(sprachgefuehrt)业务的现代方法使用自动的语音识别(ASR-“automatic speech recognition”)。由此能够不仅支持适于DTMF的、遵循选择菜单的对话而且支持自然的语音对话。在这种自然的语音对话中使用开放的询问并自由地表达语音输入。在这种情况下，相应的连续询问受识别出的关键字的组合影响。由此，使用者得到与机器对话者交流的印象。

但是，在这种具有自然的语音输入的控制器中，其它参数(例如所述关键字)的附加传输是必需的。由于并未对这种传输设置DTMF接口，所以如MRCP V1(“媒体资源控制协议版本1(media resourcecontrol protocol version 1)”)或者MRCP V2(“媒体资源控制协议版本2”)那样的对于语音识别和语音合成的需要适当的控制协议被定义在媒体服务器的进行语音处理的部件与控制对话逻辑的部件之间的接口上。借助该协议例如也能在媒体服务器与应用服务器之间执行对于语音识别必需的更费事的数据传输。

在多国场景中，通常除了开始业务之外，还借助选择对话来确定需要的语言。可是，可能在电信网的交换中心中存在的、关于相应的用户的数据(诸如优选的语言或者用户所处的地区)在选择时不予考虑。

现有技术中的缺点是，在更新业务时对于所有媒体服务器必须执行一个装载过程。也就是必须在所有媒体服务器上或者必要时在相应的、属于这些媒体服务器的数据库上播放相应语音对话的更新过的版本。对于这种装载过程的执行，媒体服务器或属于这些媒体服务器的外部数据库必需相应的装载逻辑以及附加的、描述装载过程的协议接口(例如FTP“文件传输协议(File Transfer Protocol)”)和尤其是人员的相应操作介入。可是，人员通常不信任业务和语音对话的定义和更新。

现有技术中的另一问题是上面描述的业务的复杂性。因此，如果在多个地区中必须以部分不同的方式提供一种简单的业务的定义，则该定义已经很不清楚。此外，例如可以要求，对于每个地区分别应提供多种不同的语言。迄今为止，因此这些特定情况的每种情况必须被定义为应用服务器中的单个的专用业务。对于例如包括更长的对话序列或者是多级的更费事的业务，自然还激化了复杂性的问题。

本发明所基于的任务在于，说明一种方法，该方法可以在电信系统中更有效且更简单地提供基于语音的业务。

本发明的优点是以下事实，即每个业务仅仅一次全局地以参考语言来定义。在多国网络中，对于每个地区自动地产生全局业务的与该地区的特点相协调的地区版本。因此，如果新业务一次全局地被定义，则通过根据本发明的方法，该新业务在原则上已在所有地区可供使用。

如果使用合适的协议，则本发明的另一优点实际上表明，在更新业务时相关的数据也可以通过信令协议的控制接口来传送。

本发明的另一优点是在选出要使用的语言时使用交换中心的信息。该信息包括关于用户被定位在其中的地区的指示，并且因此在选出语言时，这些信息可有利地被捆绑在一起。在移动无线电场景中，这些数据例如源于所谓的归属位置寄存器(HLR，Home LocationRegister)。

现在，以下借助附图更详细地来阐述本发明，其中

图1示出了在根据现有技术的电信网络中提供业务，以及

图2示出了根据本发明的方法的实施形式。

图1示出了在根据现有技术的传统电信网络中用于提供受语音控制的业务的结构。在此，用户Tn通过传统的TDM网络或者IP网络请求受语音控制的业务。可由用户明确地(例如通过拨号业务电话号码)提出请求或者通过网络的功能(例如，对用户动作的权限询问，占线用户处的语音对话、被改变的电话号码等)隐含地提出请求。

接着，在交换中心Vst传输信令数据，该交换中心Vst将请求转发给应用服务器AS。该应用服务器包含在电信网络中所提供的受语音控制的业务的定义。在多国网络中，特别是针对其中交换中心为多个国家的网络提供其业务的情况，即针对同时包括多个具有不同系统特性的逻辑交换中心的情况，因此在应用服务器中也针对每个地区存放自己的专用业务定义。

在下一步中，交换中心Vst将由应用服务器AS接收到的业务指令(Dienstanweisung)发送给媒体服务器MS，该媒体服务器MS将所请求的语音消息(或者音频文件)发送给用户Tn或与用户Tn展开对话。用户Tn的反应被传输回应用服务器AS并且在那里根据业务定义来处理。如果由用户Tn借助DTMF接口来进行控制，则该信号直接被传输到应用服务器AS。可是，如果控制器应利用语音识别来工作，则此外必须进行将语音转换成信号，这些信号可以通过现有的接口来传送。由于针对高识别概率的更好的条件，优选地已分散地在媒体服务器MS中实现了该转换。

接着，必要时直到对话结束为止，其它指令被发送给媒体服务器MS或由用户Tn接收和分析应答。在更新业务或者添加新业务时，借助一个装载过程，既更新应用服务器AS中的业务定义，又更新所有媒体服务器MS中或所结合的数据库(未示出)中的描述相应广播和对话的数据。

在图2中示出了根据本发明的方法的实施例。在该例子中，来自两个在国家语言方面不同的地区A和B的两个用户TnA和TnB要求受语音控制的业务。

相应的信令数据从交换中心VSt被转发给全局业务控制器DSt(对应于图1中的应用服务器)。全局业务控制器DSt现在确定所请求业务的所希望的语言。这大多借助起始对话来实现，该起始对话为用户TnA和TnB提供所有所提供的语言以供选择。用户现在可以借助例如DTMF控制器或者语音控制器来选出所希望的语言。在此，本发明的附加方面是以下可能性，即借助交换中心VSt拥有的关于用户TnA和TnB的信息来确定所希望的语言。由此，必要时可以省去语言选择或者减小到确认询问。由于交换中心VSt拥有关于用户TnA和TnB被定位在哪里的信息(如关于用户TnA和TnB的国家代码(Country Code)或者本地区域码(Local Area Code)或者HLR中的录入项的信息)，所以这些信息已经限制了语言的选择。在相应用户的地区中经常说的语言在此例如被列在选择列表的最上面。其它可能性是将相应语言直接调整为标准语言并且必要时还简单地列出菜单项，用于改变对话中的语言。

如果用户TnA和TnB所希望的语言被选出或被确认，则全局业务控制器DSt将相应的业务指令以全局语言转交给相应的地区媒体服务器MSA或MSB。该媒体服务器MSA和MSB包含用于将全局指令转换成其相应的地区格式的变换规则。在将指令翻译成地区格式之后，媒体服务器MSA和MSB确定与其特定地区的特点相协调的语音对话版本并且将该语音对话版本传送给用户TnA和TnB。该语音消息作为音频文件或者文本文件被寄存在媒体服务器MSA和MSB本身上或者被寄存在所分配的数据库(未示出)上，媒体服务器MSA和MSB在需要时可以访问这些数据库。

此外，根据上述方法在用户TnA或TnB、全局业务控制器DSt和相应媒体服务器MSA或MSB之间实现接下来的对话：业务控制器DSt分别将业务指令以全局语言输出给相应的媒体服务器MSA或MSB，媒体服务器MSA或MSB根据变换规则将这些指令转换成地区格式并且将所请求的语音消息发送给用户TnA或TnB。

如果用户TnA和TnB的应答通过语音来传送，则这些应答本地地、优选地直接在相应的媒体服务器MSA和MSB中被分析。在此，得到中性参数形式或地区专用的语言输入信息(例如具有所属的识别概率的关键字的序列)。接着，这些数据根据变换规则被转换成全局格式并且被发送给全局业务控制器DSt。

如果业务被更新或者被重新添加，则从全局定义和地区变换规则中直接得到业务的地区版本。即，被改变的或者甚至新的业务只须一次全局地定义。地区格式通过所确定的变换自动地在地区媒体服务器MSA或MSB中产生。

语音消息的产生也分散地实现。媒体服务器MSA和MSB对此可以根据预定的音频定义和文本定义的组来操作，这些预定的音频定义和文本定义根据所变换的全局规则被组合。因此，如果必须添加完全新的音频文件，则仅仅还需要一个装载过程。

根据本方法，如果例如在利用信令接口和控制协议的特性的情况下专有地将业务的德尔塔定义在业务信令的范围内在应用服务器与媒体服务器之间传输，则也绕过要求独立的装载接口的装载过程。这在安全性方面(防火墙)以及维护方面带了额外的优点。在这种情况下，对于网络运营商的操作人员和维护人员不需要独立的工序，以便使这些业务与客户的需要相匹配。

与具有专业的播音员的语音记录相比，文本文件允许还更快速地更新广播。如果通过自动翻译成地区性所希望的语言来转换这些文本记录并且能附加连接合适的地区语言的TTS功能设备(“text-to-speech”-文本转换成语音)，则这些文本文件被包括在本发明的方法中。

Claims

1.一种用于在多国电信系统中提供基于语音的业务的方法，其特征在于，每种业务以参考语言全局地被定义并且自动针对每个地区从全局定义中产生该业务的地区定义。

2.根据权利要求1所述的方法，其特征在于，所述业务包括广播、广播序列、音频输入或者语音输入。

3.根据上述权利要求之一所述的方法，其特征在于，多国电信网络是交换中心(VSt)，所述交换中心(VSt)在多个国家电信网络中用不同的国家语言来操作用户连接和连接线路。

4.根据上述权利要求之一所述的方法，其特征在于，所述参考语言与要操作的国家语言相同。

5.根据上述权利要求之一所述的方法，其特征在于，地区业务定义的自动产生分散地在地区媒体服务器(MSA，MSB)中进行。

6.根据上述权利要求之一所述的方法，其特征在于，地区性地执行语音识别并且对每个区域存在至少一个用于进行语音识别的设备。

7.根据上述权利要求之一所述的方法，其特征在于，描述和定义所述业务的特性尤其是关键字、关键字序列、语法、识别器调整、识别器输出以及语音文件和文本。

8.根据上述权利要求之一所述的方法，其特征在于，描述和定义所述业务的特性在信令的范围内被传输。

9.根据上述权利要求之一所述的方法，其特征在于，以参考语言存在的、通过语音合成输出的文本自动地通过合适的翻译功能和地区相关的语音合成功能被转换成地区语言。

10.根据上述权利要求之一所述的方法，其特征在于，为了确定所希望的语言，交换中心(VSt)的数据库的信息或者在连接处理的范围内可使用的信息被包括在内。