CN1246826C

CN1246826C - 在语音合成系统中将背景音与文本语音混合输出的方法

Info

Publication number: CN1246826C
Application number: CNB2004100449981A
Authority: CN
Inventors: 严峻; 于继栋; 李海方
Original assignee: ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Current assignee: iFlytek Co Ltd
Priority date: 2004-06-01
Filing date: 2004-06-01
Publication date: 2006-03-22
Anticipated expiration: 2024-06-01
Also published as: CN1584979A

Abstract

本发明公开了一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析和韵律分析，再调用音库中的发音单元，组合成连续的合成文本语音数据。本发明特征是建立背景音库，在合成文本文件中加入背景音的CSSML标记，或者在语音合成系统用户开发接口提供背景音合成参数；然后从背景音库中提取出CSSML标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理后输出，增强了信息播报的听觉效果。

Description

在语音合成系统中将背景音与文本语音混合输出的方法

技术领域

本发明涉及语音合成方法，具体是在使用计算机完成从文本到自然语音的转换过程中，管理和应用背景音乐的方法。

背景技术

目前，在IVR、呼叫中心等电话语音系统中，已经广泛采用完成从文本到语音功能的语音合成系统。随着信息服务系统所提供信息范围越来越广，信息量越来越大，时效要求越来越强，以前的人工服务已经无法满足这种需求，而语音合成系统的功能就是把海量信息的文本及时转换成语音文件，并且立即播放出来。合成语音清晰准确，能满足实时信息播报的需要，能减少人工服务的成本并避免人工播报经常出现的口齿不清、误读等许多问题。

目前语音合成技术的发展已经可以满足大多数语音应用系统的要求，提供自然、流畅、清晰的合成语言。但是由于目前技术所限，合成语音还存在语气不够亲切等问题，影响用户的感受。

另外，在目前的语音应用中往往会同时使用预录语音和合成语音，预录语音与合成语音在音色、音量等语音参数方面存在的差异会影响两种语音衔接处的效果。

如上所述，目前在合成语音的应用过程中会存在一些影响最终效果的缺点，影响了用户的感受。申请人公司的研发人员通过实验和测听发现，在合成语音中适当的添加背景音乐，可以改善用户在实际应用过程中对语音的体验，使语音服务更加的亲切自然。

一般的电话语音应用中，通常没有使用背景音，或仅用背景音乐填补用户的等待时间。这样的使用方法常常会在背景音乐与合成语音切换时造成能量等方面的突兀差别，使语音信息服务常常缺少人性化的亲和力，用户长时间收听合成语音播放的信息，很容易产生疲劳感。

如果希望实现背景音与合成语音的同步播放，语音服务方必须了解语音学的相关知识，并且进行一定的编码工作。这种改进增加了集成开发的工作量，并且存在一定的难度，因此电话语音系统中插入背景音的问题长时间以来都没有得到妥善解决。

实验发现，在语音信息服务中，为合成语音适当地添加背景音乐，可以有效改善用户在实际应用过程中对合成语音的体验，使语音服务更加的亲切自然。

发明内容

本发明的目的就是提供一种在语音合成系统中将背景音与文本语音混合输出的方法，为用户提供背景音应用和管理的界面，使背景音和合成语音相辅相成，将背景音与文本语音合成后输出，提高语音服务品质。

本发明的目的是通过以下技术方案实现的。

一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的合成文本语音数据，其特征是建立背景音库，建立标识(序号或名称)与音库内容相对应的背景音索引，在语音合成系统的资源管理中心中增加对背景音库进行添加、删除、音量调整、描述内容编辑的管理操作等程序内容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML标记，确定添加背景音的起始和终止位置，指定使用的背景音文件名称或者是背景音编号/名称，或者在语音合成系统的用户开发接口提供的设置合成参数的函数中增加背景音的合成参数(合成系统原来支持的合成参数包括设置文本特性的参数：字符集，文本类型，输入缓冲区大小；设置语音数据特性的参数：发音人，语音数据格式，语音数据头格式，字节序，输出缓冲区大小；设置韵律特性的参数：音高，音量，语速；设置读法处理的参数：回车处理，数字处理，英文处理；)；可以从背景音库中提取出CSSML标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理，获得带有背景音效果的合成语音数据输出。

背景音库的的制作步骤如下：

(1)收集背景音：用户根据自己的应用需要，预先收集或录制适用的背景音乐，并保存为语音文件；

(2)格式转化：用户将背景音语音文件的格式手工转换为wav格式；

(3)采样率的转换：合成系统根据用户安装的音库采样率，把背景音转换成相同采样率的语音文件；

(4)能量调整：合成系统根据用户指定的参数，对背景音进行能量的调整；

(5)语音数据压缩：合成系统将所有背景语音数据压缩成alaw格式；

(6)保存：合成系统将背景音文件保存到背景音库中。

在合成系统开发接口提供的设置合成参数的函数中增加的背景音合成参数，用于指定在语音合成时添加的背景音标识(序号或名称)，从背景音库中将用户选择的背景音提出后，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。

从背景音库中提取出CSSML标记设置的背景音，其步骤是：

(1)添加CSSML标记：用户可以手工或使用工具生成CSSML文件，并在文件中需要添加背景音的位置加入背景音的CSSML标记，以句为单位精确的控制背景音的播放位置；

(2)解析标记：合成系统对送入的CSSML文件进行解析，提取背景音CSSML标记的信息，并将信息保存下来，供后继处理使用；

(3)提取背景音文件：根据解析结果，合成系统从背景音库中提取出指定的背景音语音数据；

(4)混音处理：按照指定的比例，将合成语音和背景音进行混音处理，得到带有背景音的合成语音；

(5)语音数据输出：将带有背景音的合成语音数据从合成系统中输出，进行必要的格式转化等操作。

资源管理中心的背景音用户界面中，设置“资源管理中心”的“背景音库”界面实现背景音资源的添加、删除和修改，以及设置提示音的相关属性；设置“背景音属性设置”界面实现背景音属性的设置与修改，这些属性包括背景音名称、编号、背景音时长、重复播放选项、背景音说明；设置“背景音属性设置”界面实现背景音试听和调节功能，界面中为用户提供背景音与合成语音音量对比的调节工具，用户可以试听，并根据需要进行适当调整，以获得最佳混音效果；设置“合成演示程序”界面“高级参数设置”决定是否使用背景音。

背景音是合成系统的一种资源，存放于系统的背景音库中。在使用合成系统前，需要将用户想要播放的背景音添加到背景音库中，然后就可以在合成系统中使用了。

发明的效果

背景音的灵活应用。可以对被合成文本设置任何符合格式要求的背景音，增强信息播报的听觉效果。可以在被合成文本的任何位置插入不同的背景音，例如，配合开门声，风雨声，或者歌声，人群欢笑声，以营造不同的气氛，满足不同性质语音信息，以及不同信息受众的需要。

背景音的统一管理。用户可以根据各自的需要或喜好，自行定制背景音库。合成系统提供了背景音添加向导，帮助用户完成背景音的添加和设置。并且可以用背景音名称或编号减缩，使用十分方便。

试听和调整功能。方便用户调整背景音与合成语音的能量对比，达到和谐悦耳的效果。

术语解释

语音合成(Text-To-Speech)：又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科，是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是：如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，目的是让计算机能够产生高清晰度、高自然度的连续语音。

IVR：交互式语音应答(Interactive Voice Response)，是呼叫中心系统结构中不可或缺的重要组成部分，它能为来话者提供相应的语音引导，并为其实现自动语音服务。

CSSML：即中文语音合成标记语言(Chinese Speech SynthesisMarkup Language)，是针对中文语音合成的特点，由科大讯飞公司制定的中文语音合成标记规范，该规范是SSML v1.0规范的扩展，于2002年12月发布。本公司语音合成系统产品都把CSSML规范作为中文语音合成的支持标准，用户可以通过CSSML标记文本来指定文本的合成方式，这种方法能够规范化文本的合成方式、解决许多语音合成系统难以智能处理的问题。

附图说明

图1：在InterPhonic 3.0语音合成系统的资源管理中心背景音界面管理背景音资源。可以添加、删除背景音文件，修改背景音属性等。

图2：在InterPhonic 3.0语音合成系统的背景音属性设置界面设置背景音属性和调节试听效果。

图3：在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数，确定是否启用背景音。

图4：本发明的工作流程框图。

具体实施方式

一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析(对文本进行分句、分词处理)和韵律分析(产生朗读的音量、音高、语调等)，再调用音库中的发音单元，组合成连续的合成文本语音数据，其特征是建立背景音库，建立序号或名称与音库内容相对应的背景音索引，在语音合成系统的资源管理中心中增加对背景音库进行添加、删除、音量调整、描述内容编辑的管理操作等程序内容；在合成文本文件中需要添加背景音的位置加入背景音的CSSML标记，确定添加背景音的起始和终止位置，指定使用的背景音文件名称或者是背景音编号/名称，或者在语音合成系统的用户开发接口提供的设置合成参数的函数(本例中采用为TtssetSyuthParam函数)中增加背景音的合成参数；可以从背景音库中提取出CSSML标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理，获得带有背景音效果的合成语音数据输出。

背景音库的的制作步骤如下：

(6)保存：合成系统将背景音文件保存到背景音库中。

在合成系统开发接口提供的设置合成参数的函数中增加的背景音合成参数，用于指定在语音合成时添加的背景音序号，从背景音库中将用户选择的背景音提出后，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。

从背景音库中提取出CSSML标记设置的背景音，其步骤是：

本发明采用计算机软件形式，应用于InterPhonic CE3.0语音合成系统中，为用户提供一系列背景音应用和管理的用户界面，用户可以轻松实现背景音的管理和使用。

目前系统只支持未经压缩的wav格式的音频数据，对于A/U law等压缩格式的音频数据，则不能使用。系统推荐使用16K、16Bits以上高质量的音频文件。

在InterPhonic CE3.0语音合成系统中还设置了相应参数，指定在语音合成时添加的背景音，从背景音库中将用户选择的背景音提出后，按照一定的比例，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。

■界面1(图1)：在InterPhonic 3.0语音合成系统的资源管理中心背景音界面管理背景音资源。可以添加、删除背景音文件，修改背景音属性等。

■界面2(图2)：在InterPhonic 3.0语音合成系统的背景音属性设置界面设置背景音属性和调节试听效果。

其中各项参数说明：

编号：当前所设置的背景音在背景音库中的编号，自动显示。

时长：正常情况下，当前背景音的播放时间，自动显示。

重复播放背景音：在语音合成过程中，应用当前背景音时，是否重复播放。用户选择。

名称：当前背景音的名称。在背景音库中，背景音文件的名称必须唯一，长度不大于36字符。

描述：对当前背景音的简单说明，长度不大于256字符。

混音比例：在进行语音合成时，背景音与合成语音的音量比例。

取值范围：0～0.6，值越大，背景音音量越大；取值为零，表示背景音为静音。

试听功能：单击“试听”按钮，可以试听当前正在设置的背景音。单击“停止”按钮结束试听。

■界面3(图3)：在InterPhonic 3.0语音合成系统的合成演示程序界面中设置系统参数，确定是否启用背景音。选择“不使用背景音”，合成的语音文件中不出现背景音，这是默认形式；选择具体的背景音文件名，就是在合成的语音文件中使用此背景音。默认情况下，合成以后的语音文件中通篇都将应用同一段背景音乐。如果只需要在被合成文本某些地方使用背景音乐，或者对不同语句应用不同的背景音乐，应当在被合成文本的适当位置添加CSSML标记，例如：

<？CSSML version＝″1.0″encoding＝″GB2312″？><speak><environment repeat＝″yes″src＝″id：1″>总理温家宝在纽约联合国总部同秘书长安南会谈后提到，中国理解台湾同胞渴望民主的强烈愿望，但是台湾当局内部的分裂势力试图利用民主作为借口，来掩盖他们搞台独的野心，这才是问题的实质。这是中国政府所不能容许的。但是，温家宝指出，只要还有和平统一的希望，中国政府就不会放弃争取和平统一的努力。安南秘书长指出，联合国恪守一个中国的政策，但同时强调台湾海峡两岸的分歧不应该通过武力手段来解决。</environment><environment repeat＝″no″src＝″name：日光海岸″>寒冷气候使人体氧化功能加强，肌体维生素代谢也发生了明显变化，饮食中要及时补充维生素B2(核黄素)，以防口角炎、唇炎、舌炎等疾病的发生。它主要存在于动物肝脏、鸡蛋、牛奶、豆类等食物中。而维生素A能增强人体的耐寒力，应多吃一些富含维生素A的肝脏、胡萝卜、南瓜、白薯等食物。维生素C也可提高人体对寒冷气候的适应能力，对血管具有良好的保护作用，应注意摄取新鲜蔬菜和水果。</environment><environment repeat＝″yes″src＝″c：angel. wav″>Windows2000的默认安全设置可以概括为对4个默认组(Administrators组、Power Users组、Users组、Backup组)和3个特殊组的权限许可。可以将Windows安装程序配置成使用组策略和Active Directory管理计算机的安装选项。</environment></speak>

在合成文本中用CSSML标记引用背景音可以有三种形式：

一是用背景音名称，如：

二是用背景音编号，如：

三是用背景音文件路径，如：

Claims

1、一种在语音合成系统中将背景音与文本语音混合输出的方法，包括用户向合成系统提供合成文本信息，合成系统经过文本分析和韵律分析，再调用音库中的发音单元，组合成连续的合成文本语音数据，其特征是建立背景音库，建立标识与音库内容相对应的背景音索引，在语音合成系统的资源管理中心中增加对背景音库进行添加、删除、音量调整、描述内容编辑的管理操作程序内容；在合成文本文件中需要添加背景音的位置加入背景音的中文语音合成标记语言的标记，确定添加背景音的起始和终止位置，指定使用的背景音文件名称或者是背景音序号/名称，或者在语音合成系统用户开发接口提供的设置合成参数的函数中增加背景音合成参数；可以从背景音库中提取出中文语音合成标记语言的标记或合成参数设置的背景音，把背景音与合成文本语音按照一定能量比例进行混音处理，获得带有背景音效果的合成语音数据输出。

2、根据权利要求1所述的在语音合成系统中将背景音与文本语音混合输出方法，其特征在于在合成系统开发接口提供的设置合成参数的函数中增加的背景音合成参数，用于指定在语音合成时添加的背景音标识，从背景音库中将用户选择的背景音提出后，将合成语音和背景音按一定能量或波形比例进行混音处理，得到带有背景音的合成语音数据输出。

3、根据权利要求1所述的在语音合成系统中将背景音与文本语音混合输出方法，其特征在于从背景音库中提取出中文语音合成标记语言的标记设置的背景音，其步骤是：

(1)添加中文语音合成标记语言的标记：用户可以手工或使用工具生成中文语音合成标记语言的文件，并在文件中需要添加背景音的位置加入背景音的中文语音合成标记语言的标记，以句为单位精确的控制背景音的播放位置；

(2)解析标记：合成系统对送入的中文语音合成标记语言的文件进行解析，提取背景音中文语音合成标记语言的标记的信息，并将信息保存下来，供后继处理使用；

(5)语音数据输出：将带有背景音的合成语音数据从合成系统中输出，进行必要的格式转化操作。

4、根据权利要求1所述的在语音合成系统中将背景音与文本语音混合输出方法，其特征在于资源管理中心的背景音用户界面中，设置“资源管理中心”的“背景音库”界面实现背景音资源的添加、删除和修改，以及设置提示音的相关属性；设置“背景音属性设置”界面实现背景音属性的设置与修改，这些属性包括背景音名称、编号、背景音时长、重复播放选项、背景音说明；设置“背景音属性设置”界面实现背景音试听和调节功能，界面中为用户提供背景音与合成语音音量对比的调节工具，用户可以试听，并根据需要进行适当调整，以获得最佳混音效果；设置“合成演示程序”界面“高级参数设置”决定是否使用背景音。