CN1584980A

CN1584980A - 在语音合成系统中将提示音与文本语音合成输出的方法

Info

Publication number: CN1584980A
Application number: CNA200410045000XA
Authority: CN
Inventors: 严峻; 于继栋; 张贻武
Original assignee: ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Current assignee: iFlytek Co Ltd
Priority date: 2004-06-01
Filing date: 2004-06-01
Publication date: 2005-02-23
Anticipated expiration: 2024-06-01
Also published as: CN1254786C

Abstract

本发明公开了一种在语音合成系统中将提示音与文本语音合成输出的方法，包括先由用户向合成系统提供合成文本信息，合成系统经过文本分析和韵律分析，再调用音库中的发音单元，组合成连续的被合成文本语音数据，本发明特征是建立提示音库，在语音合成系统的用户开发接口设置提示音的合成参数，或者在合成文本中插入提示音CSSML标记；通过文本匹配或者CSSML标记的方式调用的提示音，与合成语音拼接，获得含有提示音的合成语音数据输出。提示音是合成系统的一种资源，用户可以将想要播放的提示音添加到提示音库中，实现了提示音的统一管理和处理。

Description

在语音合成系统中将提示音与文本语音合成输出的方法

技术领域

本发明涉及语音合成领域，具体是一种在使用计算机完成从文本到自然语音的转换过程中，管理和应用提示语音的方法。

背景技术

在IVR、呼叫中心等电话语音系统中，业务流程往往需要同时使用预录的提示音和合成语音。预录提示音采用真人录音，效果自然，并且能体现更多的情感风格，给用户以亲切感受。合成语音虽然清晰准确，但是在语气和情感方面还与真人录音存在一定的差距。在具体应用中，预录语音用于播报语音服务系统中相对固定的内容，通常是进系统的问候语和系统操作方法的提示。合成语音用于播报内容经常变化、信息量大、需要即时合成的文本。预录语音与合成语音结合，既可以满足电话语音服务中人性化的要求，又实现了动态信息的即时播报。

但是，目前的电话语音服务系统中，所应用的语音合成系统存在如下的问题：

第一，在系统集成过程中，通常要使用两套接口来分别调用和播放提示音和合成语音，在电话语音系统所提供的服务相对复杂的情况下，尤其是提示语音和合成语音交替出现，需要频繁切换的情况下，业务流程的编写就显得特别复杂，由此也增加了集成开发的工作量。

第二，提示语音一般使用语音文件的形式存放和管理，一条提示语音保存为一个语音文件，而且一般都需要从某种语音数据格式转化为指定的语音数据格式，文件数量众多，管理不便，匹配也困难，在转化的过程中很容易出错。

第三，由于提示音是预录语音，它与合成语音在能量等多个方面有不同的特征，因此，如果只是简单地拼接提示音和合成语音，会造成两段语音差别明显，在语音衔接处会出现跳音等现象，影响播报的整体效果。

另外，由于提示语音文件和合成语音文件都各自保存，电话语音系统中只有提示语音的声音文件，无法从文本角度完全显示整个服务流程及内容，也无法进行提示音、合成语音的拼接调整和优化处理。

发明的内容

本发明的目的就是提供一种在语音合成系统中将提示音与文本语音合成输出的方法。

一种在语音合成系统中将提示音与文本语音合成输出的方法，包括先由用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的被合成文本语音数据，其特征是：建立提示音库，建立标识(序号或名称)与提示音内容相对应的提示音索引，在语音合成系统的资源管理中心中增加对对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等程序内容；在语音合成系统的用户开发接口提供的设置合成参数的函数中增加有关提示音的合成参数，采用文本匹配的方式，使语音合成系统自动比较合成文本与提示音库，搜索合成文本中与提示音文本相同的内容，并将合成文本与提示音文本完全相同的内容替换成相应的提示语音，其余文本仍使用合成语音；或者在合成文本中插入提示音CSSML标记，指定文本中需要使用的提示语音文件名称或者是提示语音的索引序号或名称，并调用提示音库中的相应的提示音，合成文本其它部分仍保持合成语音；通过上述文本匹配或者CSSML标记的方式调用的提示音，均是与合成语音按照一定的音量(能量)比例进行拼接，获得含有提示音的合成语音数据输出。

所述的将提示音与文本语音合成输出的方法，其特征在于提示音库的制作步骤如下：

(1)录音：用户根据自己的应用需要，人工预先录制常用的提示语音，并保存为语音文件；

(2)格式转换：用户将语音文件手工转化为线性PCM、Alaw或vox等合成系统可以识别的语音数据格式；

(3)采样率转换：合成系统根据用户已安装音库的采样率，把提示音转换成相同采样率的语音文件；

(4)能量调整：合成系统根据用户指定的参数，对提示语音进行能量的调整；

(5)语音数据压缩：合成系统将所有提示语音数据压缩成alaw格式；

(6)保存：合成系统将提示语音数据、提示音文本内容等信息按照一定的格式保存到提示音库中。

所述的将提示音与文本语音合成输出的方法，其特征在于采用CSSML标记方式调用提示音步骤如下：

(1)设置标记：在合成文本中按照文本标记语言规范的要求，使用CSSML标记插入提示音的信息，如提示语音的索引序号或名称；

(2)标记解析：合成系统解析CSSML标记文本，对提示音标记进行分析，得到其携带的信息；

(3)提取语音：合成系统根据CSSML标记携带的信息，从提示音音库中提取提示语音数据并解压为线性PCM格式；

(4)波形拼接：合成语音和提示音的语音进行能量比例的调整，使得波形拼接处声音频率与波形和缓；

(5)数据输出：合成系统输出符合要求的语音数据。

所述的将提示音与文本语音合成输出的方法，其特征在于文本匹配方式调用提示音步骤如下：

(1)参数设置：用户在语音合成系统中应用程序设置提示音的合成参数打开合成系统的提示音替换功能；

(2)文本匹配：合成系统将合成文本的内容和提示音文本的内容进行比较；

(3)文本替换：合成系统将合成文本和提示音文本的完全相同的内容替换成相应的提示音的标识(序号或名称)；

(4)提取语音：合成系统根据提示音标识(序号或名称)从提示音音库中提取语音数据并解压；

(5)波形拼接：合成系统将合成语音与替换的提示音语音进行能量调整，使得波形拼接处声音频率与波形和缓；

(6)数据输出：合成系统输出符合要求的语音数据。

所述的将提示音与文本语音合成输出的方法，其特征在于资源管理中心的提示音用户界面中，提供了自动替换提示语音的功能，合成系统能在合成过程中搜索待合成的文本，当文本内容与提示语音的文本信息完全相同时，合成语音中将自动使用提示语音来完成对应文本的播报；“资源管理中心”的“提示语音”界面实现了提示语音资源的添加、删除和修改，以及设置提示音的相关属性的功能；“提示语音信息设置”界面实现了提示语音属性的设置与修改，这些属性包括提示语音名称、提示音索引序号、是否生效、提示音文本内容、匹配语音文件位置、语音文件格式；“提示语音信息设置”界面实现了提示语音试听和调节功能，界面中为用户提供合成语音的参考音量，以及提示音音量的调节工具，便于用户对比和调整，以获得最佳提示音效果；“合成演示程序”界面“高级参数设置”提供了是否开启提示音自动替换文本功能来控制提示音自动替换的功能，如果该参数打开，在语音合成过程中，系统将自动比较被合成文本与提示音资源，并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。

发明的效果

本发明方法应用在InterPhonic CE3.0语音合成系统中，提示音是合成系统的一种资源，存放于系统的提示音库中。在使用合成系统前，需要将用户想要播放的提示音添加到提示音库中，然后就可以在合成系统中使用了。

InterPhonic CE 3.0语音合成系统实现了提示音的统一管理和处理的功能。

与其它电话语音系统中的提示音应用情况相比，本发明的优势显而易见：

首先，本发明使用统一的提示语音管理将IVR系统从原来的众多提示语音文件管理工作中解放出来，而由语音合成系统来进行更加合理的管理和共享；(通过语音合成服务器，多个IVR服务器中都可以使用添加的提示语音)。客户不需要额外的开发工作就可以提升同时使用两种语音的情况下播报的语音效果。

其次，使用语音合成系统提供的统一的开发接口，电话语音流程能更加侧重于业务流程的处理，而不用再处理预录语音和合成语音切换的细节工作，从而减小了集成工作的复杂性，提高了集成开发的效率；

第三，语音合成系统在管理提示语音的过程中，提供了工具帮助用户解决提示语音与合成语音能量不同的问题，在内部自动处理了语音格式转化的问题，在合成过程中还采用了算法保证提示语音和合成语音的自然过渡衔接；

最后，采用CSSML文本标记语言的方式或者是文本替换的方式，用户可以在合成文本的层面进行提示语音和合成语音的拼接处理，方便易用。

另外，本系统还提供面向行业的定制提示音库，满足不同行业提示音应用的需要。

术语解释

语音合成(Text-To-Speech)：又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科，是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是：如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，目的是让计算机能够产生高清晰度、高自然度的连续语音。

IVR：交互式语音应答(Interactive Voice Response)，是呼叫中心系统结构中不可或缺的重要组成部分，它能为来话者提供相应的语音引导，并为其实现自动语音服务。

CSSML：即中文语音合成标记语言(Chinese Speech SynthesisMarkup Language)，是针对中文语音合成的特点，由科大讯飞公司制定的中文语音合成标记规范，该规范是SSML v1.0规范的扩展，于2002年12月发布。本公司语音合成系统产品都把CSSML规范作为中文语音合成的支持标准，用户可以通过CSSML标记文本来指定文本的合成方式，这种方法能够规范化文本的合成方式、解决许多语音合成系统难以智能处理的问题。

附图说明

图1：在InterPhonic 3.0语音合成系统的资源管理中心提示音界面管理提示音资源。可以添加、删除提示音文件，设置提示音文本。

图2：在InterPhonic 3.0语音合成系统的提示音属性设置界面设置提示音属性和调节试听效果。

图3：在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数，确定是否启用提示语音。

图4：本发明的工作流程框图。

具体实施方式

一种在语音合成系统中将提示音与文本语音合成输出的方法，包括先由用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的被合成文本语音数据，其特征是：建立提示音库，建立标识(序号或名称)与提示音内容相对应的提示音索引，在语音合成系统的资源管理中心中增加对对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等程序内容；在语音合成系统的用户开发接口提供的设置合成参数的函数(本例中采用为TtssetSyuthParam函数)中增加有关提示音的合成参数，采用文本匹配的方式，使语音合成系统自动比较合成文本与提示音库，搜索合成文本中与提示音文本相同的内容，并将合成文本与提示音文本完全相同的内容替换成相应的提示语音，其余文本仍使用合成语音；或者在合成文本中插入提示音CSSML标记，指定文本中需要使用的提示语音文件名称或者是提示语音的索引序号或名称，并调用提示音库中的相应的提示音，合成文本其它部分仍保持合成语音；通过上述文本匹配或者CSSML标记的方式调用的提示音，均是与合成语音按照一定的音量(能量)比例进行拼接，获得含有提示音的合成语音数据输出。

提示音库的制作步骤如下：

采用CSSML标记方式调用提示音步骤如下：

(5)数据输出：合成系统输出符合要求的语音数据。

文本匹配方式调用提示音步骤如下：

(6)数据输出：合成系统输出符合要求的语音数据。

本发明上述方法采用计算机软件形式，应用在InterPhonic CE3.0语音合成系统中，为用户提供一系列提示音应用和管理的用户界面，使提示音和合成语音的应用实现自然拼接，提高语音服务品质。

该合成系统目前支持的提示语音文件格式为：单声道量化比特为8/16位、采样率为6/8/11/16/22/44K的pcm和alaw数据格式，以及单声道6k/8k的vox数据格式。系统能够自动识别有头的语音文件格式，对于无头的语音文件，需要用户指定其格式。

以下对本发明的提示音界面进行描述。

■界面1(图1)：在InterPhonic 3.0语音合成系统的资源管理中心提示音界面管理提示音资源。可以添加、删除提示音文件，设置提示音文本。

■界面2(图2)：在InterPhonic 3.0语音合成系统的提示音属性设置界面设置提示音属性和调节试听效果。其中听音即提供提示音和我们合成语音的能量调整和拼接效果测听。

其中各项参数说明：

名称：当前所设置的提示语音标题，也即该提示语音文件的文件名。需要用户输入，长度不大于32个字符。

音库标识：选择匹配音库类型。

生效：表示当前所设置的提示语音是否立即启用。只有在生效的情况下，合成文本中才能使用提示语音。

文本内容：当前所设置的提示语音的文字内容。需要用户输入，长度不大于4K字符(注意：最后的字符不能是标点符号或空格)。语音文件：是指与当前所设置提示语音相匹配的预录语音文件的位置。

语音格式：当系统能够识别预录语音文件格式的时候，采样率选择框变灰；反之，则需要指定语音文件格式。格式说明：

PCM 6K8B1C：6k8bit单声道pcm数据

PCM 6K16B1C：6k16bit单声道pcm数据

PCM 8K8B1C：8k8bit单声道pcm数据

PCM 8K16B1C：8k16bit单声道pcm数据

以此类推；

ALAW 6K1C：6k单声道alaw数据

ALAW 8K1C：8k单声道alaw数据

ALAW 11K1C：11k单声道alaw数据

以此类推；

VOX6K1C：单声道6k的vox数据

VOX8K1C：单声道8k的vox数据

试听功能：单击“试听”按钮，可以试听当前正在设置的提示语音。

用户可以根据需要调整提示语音的音量大小。提示语音后面的女声“科大讯飞语音合成系统”是系统自动加入的合成语音，目的是帮助用户根据合成语音的音量调整提示语音的音量，使之更好地符合合成文本的整体风格。单击“停止”按钮结束试听。

■界面3(图3)：在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数，确定是否启用提示语音。选择“禁用替换功能”，合成的语音文件中不出现提示语音，这是默认形式；选择“启用替换功能”，就是在合成的语音文件中应用提示音。在语音合成过程中，系统将自动比较被合成文本与提示音资源，并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。另外，还可以使用CSSML标记替换被合成文本中指定位置的文字，方法是：用CSSML的audio标记，其src属性值指定为该提示音的名称，例如：

在合成文本中用CSSML标记引用背景音有三种形式：一是用提示音名称，如：

<audio src＝″name：提示音名称″></environment>二是用提示音编号，如：

<audio src＝″id：2″></environment>三是用提示音文件路径，如：

Claims

1、一种在语音合成系统中将提示音与文本语音合成输出的方法，包括先由用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的被合成文本语音数据，其特征是：建立提示音库，建立标识(序号或名称)与提示音内容相对应的提示音索引，在语音合成系统的资源管理中心中增加对对提示音库进行添加、删除、音量调整、文本内容编辑管理操作等等程序内容；在语音合成系统的用户开发接口提供的设置合成参数的函数中增加有关提示音的合成参数，采用文本匹配的方式，使语音合成系统自动比较合成文本与提示音库，搜索合成文本中与提示音文本相同的内容，并将合成文本与提示音文本完全相同的内容替换成相应的提示语音，其余文本仍使用合成语音；或者在合成文本中插入提示音CSSML标记，指定文本中需要使用的提示语音文件名称或者是提示语音的索引序号或名称，并调用提示音库中的相应的提示音，合成文本其它部分仍保持合成语音；通过上述文本匹配或者CSSML标记的方式调用的提示音，均是与合成语音按照一定的音量(能量)比例进行拼接，获得含有提示音的合成语音数据输出。

2、如权利要求1所述的将提示音与文本语音合成输出的方法，其特征在于提示音库的制作步骤如下：

3、如权利要求1所述的将提示音与文本语音合成输出的方法，其特征在于采用CSSML标记方式调用提示音步骤如下：

(5)数据输出：合成系统输出符合要求的语音数据。

4、如权利要求1所述的将提示音与文本语音合成输出的方法，其特征在于文本匹配方式调用提示音步骤如下：

(6)数据输出：合成系统输出符合要求的语音数据。

5、如权利要求1所述的将提示音与文本语音合成输出的方法，其特征在于资源管理中心的提示音用户界面中，提供了自动替换提示语音的功能，合成系统能在合成过程中搜索待合成的文本，当文本内容与提示语音的文本信息完全相同时，合成语音中将自动使用提示语音来完成对应文本的播报；“资源管理中心”的“提示语音”界面实现了提示语音资源的添加、删除和修改，以及设置提示音的相关属性的功能；“提示语音信息设置”界面实现了提示语音属性的设置与修改，这些属性包括提示语音名称、提示音索引序号、是否生效、提示音文本内容、匹配语音文件位置、语音文件格式；“提示语音信息设置”界面实现了提示语音试听和调节功能，界面中为用户提供合成语音的参考音量，以及提示音音量的调节工具，便于用户对比和调整，以获得最佳提示音效果；“合成演示程序”界面“高级参数设置”提供了是否开启提示音自动替换文本功能来控制提示音自动替换的功能，如果该参数打开，在语音合成过程中，系统将自动比较被合成文本与提示音资源，并将被合成文本中与提示音文本完全相同的内容替换成该提示语音。