CN100454387C

CN100454387C - 一种语音拨号的语音合成方法和系统

Info

Publication number: CN100454387C
Application number: CNB2004100011182A
Authority: CN
Inventors: 任文捷; 张继勇; 孙文彦; 诸光
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2004-01-20
Filing date: 2004-01-20
Publication date: 2009-01-21
Anticipated expiration: 2024-01-20
Also published as: CN1558647A

Abstract

本发明提供了语音拨号的语音合成方法和装置。该方法包括步骤：用户给出要合成的语音串的内容；根据所述内容，查找数据库，以获得对应的发音，其中，所述发音包括发音的声调；根据所述对应的发音，由播放模块播放所述发音。该系统包括：提示语生成和存储模块；维护界面单元；以及用户调用API(应用编程接口)模块；其中，提示语生成和存储模块包括提示语模板生成单元，提示语生成单元，提示语录放单元，提示语调用单元。利用本发明，不仅可以进行完全准确的合成，还可以进行多样的合成，为用户提供了一个自定义语音合成元素的方法。

Description

一种语音拨号的语音合成方法和系统

技术领域

本发明涉及一种准确、多样的语音合成方法，该方法不仅可以进行完全准确的合成，还可以进行多样的合成，尤其本方法为用户提供了一个自定义语音合成元素的方法。

背景技术

随着对各种自动化、智能化系统需求的不断增多和语音应用技术的不断成熟，各种基于语音提示引导用户完成系统特定功能的系统日渐增多，应用涉及邮件、电话号码查询、股票信息、银行业务及其他各种信息服务领域，而语音合成则成为这些应用系统中必不可少的模块。因此语音合成技术也迅速的发展起来。

目前，多数语音合成技术都致力于提高语音合成的自然度，在发音的准确性方面投入精力较少。至今为止，还没有能够完全合成正确的合成引擎问世。

另外，目前的合成系统语音合成音库比较单一，使得某用户使用语音系统时，自始至终都是同一个声音，同一个节奏，没有变化的信息。

加之，现有的语音合成技术产品发布之后，无法实现用户自定义语音合成元素。

因此，希望能有一种方法和系统，可以提供很高准确性语音合成，且具有变化的信息，同时，可以实现用户自定义语音合成元素。

发明内容

本发明的目的是克服现有技术的上述缺点，为此，本发明提供一种准确多样的语音合成方法。该方法可以使得语音合成很高的正确率；同时该方法还能提供多样的合成，甚至于一句话中的每个字都是由不同的播音员录制。另外，本发明提供了一个用户自定义语音合成方法，使得用户可以定制新的语音合成元素。

为了达到上面的目的，本发明的技术方案是这样实现的：

本发明的一种语音拨号的语音合成方法，包括步骤：

接收要合成的语音串的内容；

根据所述内容，查找数据库，判断是否找到与该要合成的语音串对应的拼音串，如果找到，则获得与该语音串对应的拼音串，并根据所获得的拼音串查找语音库，判断是否存在与该拼音串对应的发音文件，如果存在，则由播放模块播放所述发音文件；如果没有找到该拼音串对应的发音文件，则分别查找该拼音串中每个拼音对应的发音文件，由播放模块依次播放每个拼音对应的发音文件。

优选地，该方法进一步包括：

接收需要合成单元的汉字；

给出所述汉字对应的拼音串组合；

选择正确的发音拼音串组合；

将正确的发音拼音串组合保存至数据库。

优选地，所述查找数据，判断是否找到与该要合成的语音串对应的拼音串，如果没有找到与该要合成的语音串对应的拼音串，则返回用户应用接口API。

可选地，还包括步骤，生成提示语并播放，其中，所述提示语根据用户的要求生成，以提示用户在适当的位置输入给出要合成的语音串的内容。

优选地，所述生成提示语并播放的步骤包括：生成用户判断语句，以由用户判断是否是需要的语音串。

因此，本发明公开的一种准确、多样的语音合成方法是由开发者在预开发系统生成的时候，把每一句提示语中的每个汉字的拼音输入到系统中；经常使用的固定合成语句还可以由开发用户自定义录制；在开发用户调用API(应用程序接口)的时候，系统优先调用自定义的合成单元，这样合成自然；另外在系统需要着重强调的部分可以通过语速来控制。

附图说明

图1为本发明系统的结构示意图；

图2为本发明系统的工作流程图；

图3A为录入语音合成单元的实现流程图；

图3B为录入语音合成单元的实现流程图的一个具体例子；

图4为本发明的播放语音合成的实现流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明，下面结合附图和实施方式对本发明作进一步的详细说明。

图1为本发明系统的结构示意图；从该图中可以看出本系统主要包括三个部分：提示语生成和存储模块、维护界面单元、以及用户调用API。

其中，提示语生成和存储模块包括提示语模板生成单元、提示语生成单元、提示语录放单元、提示语调用单元以及数据存储单元等。

参照图1和图2，在构造语音拨号系统之前，首先确定本应用中有哪些场景，以及每个场景的提示语模板。例如，在语音拨号的人名确定场景，提示语模板是这样的：[]，是他请按“#”号键，否则请重说一下您找谁。并且把本提示语模板中确定部分的汉字输入拼音。

接下来，在提示语生成单元输入模板中[]部分可能的替代内容，在本例中，[]部分可能是某公司的所有员工的姓名，在加入员工人名的同时还要输入每位员工姓名的拼音。这样，语音拨号系统中使用的每句提示语的发音就都已经确定下来。

在提示语录放单元，把提示语中固定的部分录制成自定义语音合成元素，例如，在本例中第一步生成的提示语模板，可以把“是他请按“#”号健，否则请重说一下您找谁”录制成自定义语音合成元素，并且输入自定义语音合成元素的名称和对应的文字内容，这种对应关系被存储到数据存储单元中。

当系统运转的时候，语音拨号系统调用API中相应的播放函数，并且传递给播放函数播放的内容、播放采用的音库、以及播放的速度，例如，语音拨号系统要播放提示语：“[张三]是他请按“#”号键，否则请重说一下您找谁”则语音拨号系统调用两次API中的播放函数，第一次调用播放函数的参数是：播放的内容为“[张三]”、采用Mary录制的音库播放、并且以1.5倍的默认速度播放。第二次调用播放函数的参数是，播放的内容是：“是他请按“#”号健，否则请重说一下您找谁”、采用默认的音库播放、并且以默认的速度播放。

提示语调用单元首先查找第一句语音合成内容的拼音，然后在Mary录制的音库中分别查找并且播放“zhang1 san1”。接下来再播放第二句提示语，提示语调用单元查找第二句语合成内容的拼音，并且通过查找自定义语音合成元素名称和内容对照表，发现该拼音是一个自定义合成元素，则直接播放该自定义合成元素的内容。

语音合成系统就这样继续工作。

概言之，本发明的系统的主要工作步骤是：录入语音合成单元、播放语音合成两个步骤。下面分别介绍。

图3A为录入语音合成单元的实现流程图，图3B为录入语音合成单元的实现流程图的一个具体例子。

首先，用户输入需要合成单元的汉字，如：张行。

然后，系统给出对应的拼音串组合，在这个实施例中，系统给出对应的拼音串组合为″zhang1 hang2″″zhang1 xing2″。

再后，用户选择正确的发音拼音串组合；在这个实施例中，用户选择正确的发音拼音串组合为″zhang1 hang2″。

完成后，系统将此拼音串保存至数据库；在这个实施例中，系统将“张行zhang1 hang2”保存至数据库。

图4为本发明的播放语音合成的实现流程图。在这个实施例中，播放语音合成的步骤包括：

1.用户给出要合成单元的内容；即：用户通过API给出要合成单元的内容

2.系统查找数据库，得到该合成单元的拼音串；例如：用户给出“张行”，系统从数据库中查找得到拼音串zhang1 hang2

3.系统查找语音库，判断是否存在该拼音串对应的发音文件。如果存在，则系统将此拼音串保存至数据库的内容；然后，交给播放模块依次播放。

4.如果没有找到该拼音串对应的发音文件，则分别查找每个拼音对应的发音文件，交给播放模块依次播放。

概言之，本发明的系统包括：

提示语模板生成单元，用于根据具体业务生成提示语模板。本单元一般只生成每个场景固定的提示信息部分，并且输入固定部分汉字的拼音。例如：在语音拨号应用中的转接电话场景，生成这样的提示语模板：正在转接至[]。其中的[]部分要在提示语生成单元中完成。

提示语生成单元，用于把在提示语模板生成单元中生成的提示语模板生成具体的提示语。例如：在语音拨号应用中的转接电话场景，其提示语模板如前所述，在提示语模板生成单元中已经生成，则在此场景中输入[]中可能的选择，例如：张三、李四，同时输入每个可能选择的拼音。

提示语录放单元，用于录制或者播放用户自定义的提示语。

数据存储单元，用于存储语音合成音库，由同一个播音员录制的汉字所有发音形成一组语音合成子音库；同时，每个播音员录制的每一个汉字的发音就是一个语音合成元素。另外有一组自定义语音合成音库，其中存放着开发用户自定义的语音合成元素。除了自定义语音合成音库之外，其它的音库都是事先提供的。

提示语调用单元，该单元对语音板卡、或者声卡直接控制，把生成好的语音播放出来。系统根据用户调用API的参数来播放不同子音库中的wav文件。另外，用户通过调用API时传递不同的参数还可以设置播放某个或者某几个合成元素的语速。

维护界面单元，该单元为开发用户生成提示语模板、提示语、录放合成元素等提供了一个界面。

API，是用户编写代码、使该语音合成系统运转起来并呈现给最终用户的一种手段。

其中，数据存储单元分别和提示语模板生成单元、提示语生成单元、提示语录放单元、提示语调用单元、维护界面单元相连；维护界面单元除了和数据存储单元相连之外，还分别和提示语模板生成单元、提示语生成单元、提示语录放单元相连；提示语调用单元除了和数据存储单元相连之外，还和API、语音板卡(或者声卡)相连。

上述系统中，所述的数据存储单元包含一个“自定义合成元素名称和内容对照表”，在开发用户通过API调用该合成系统，并且采用默认音库时，系统首先查找该表，如果在该表中找到要合成的内容，即：要合成的内容是一个自定义合成元素，则直接播放该自定义合成元素。

所述的维护界面单元包括提示语模板信息维护单元、提示语信息维护单元、提示语录放单元、参数设定单元等，前三个单元分别对提示语生成和存储模块中的提示语模板生成单元、提示语生成单元、提示语录放单元进行操作；其中的参数设定单元对系统默认采用的语音库、默认播放语速、采用的播放硬件(语音板卡、声卡等)等设定。

所述的维护界面单元在对提示语模板进行维护的时候，要输入提示语模板中每一个汉字的发音。

所述的维护界面单元在对提示语进行维护的时候，要输入提示语填充部分(即：代替相应模板中的[]的内容)中每一个汉字的发音。

本发明的语音合成方法包括以下步骤(参见附图2)：

a.开发用户根据具体业务需要，生成系统所需的所有提示语模板，以及模板中固定部分的汉字拼音；

b.开发用户根据预开发系统的具体场景以及数据库中的内容生成提示语；

c.开发用户根据需要录制自定义的语音合成元素，例如：提示语模板中固定的部分，并且给出给出自定义的语音合成元素名称及内容；

d.开发用户调用API，给出要合成提示语的内容、采用的音库、以及合成的语速；

e.提示语调用单元根据API的内容进行相应的操作，播放提示语。

该方法进一步包括：开发用户在调用API时如果没有给出采用哪组音库，则首先在自定义合成音库中查找，如果没找到，则采用默认组中的合成元素，其中的默认合成组是开发用户设定的。

该方法进一步包括：开发用户在调用API时如果没有给出合成的语速，则采用正常语速。语速还可以设置为正常语速的倍数，例如：1.5正常语速、0.5正常语速等。其中的正常语速是开发用户设定的。

因此，本发明公开的一种准确、多样的语音合成方法是由开发者在预开发系统生成的时候，把每一句提示语中的每个汉字的拼音输入到系统中；经常使用的固定合成语句还可以由开发用户自定义录制；在开发用户调用API的时候，系统优先调用自定义的合成单元，这样合成自然；另外在系统需要着重强调的部分可以通过语速来控制。

虽然通过实施例描绘了本发明，本领域普通技术人员知道，本发明有许多变形和变化而不脱离本发明的精神，希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims

1、一种语音拨号的语音合成方法，包括步骤：

接收要合成的语音串的内容；

2、如权利要求1所述的方法，该方法进一步包括：

接收需要合成单元的汉字；

给出所述汉字对应的拼音串组合；

选择正确的发音拼音串组合；

将正确的发音拼音串组合保存至数据库。

3、如权利要求1所述的方法，所述查找数据库，判断是否找到与该要合成的语音串对应的拼音串，如果没有找到与该要合成的语音串对应的拼音串，则返回用户应用接口API。

4、如权利要求1所述的方法，还包括步骤，生成提示语并播放，其中，所述提示语根据用户的要求生成，以提示用户在适当的位置输入给出要合成的语音串的内容。

5、如权利要求4所述的方法，其中，所述生成提示语并播放的步骤包括：生成用户判断语句，以由用户判断是否是需要的语音串。