CN101872614A

CN101872614A - 混合型语音合成系统

Info

Publication number: CN101872614A
Application number: CN200910030596A
Authority: CN
Inventors: 韩松
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-04-24
Filing date: 2009-04-24
Publication date: 2010-10-27

Abstract

针对现有计算机语音合成系统，计算机发音语音不连续，输出的语音不流畅、不自然的问题，本发明提出一种混合型语音合成系统，包括语音库、语音合成引擎，所述语音库为混合型语音库，包括综合录入的真人发音和计算机处理的非真人发音，其语音库中词语与句子为真人发音，单个字词为非真人发音。语音合成引擎通过对文本中字、词、句的判断，检索调用语音库中已经录制好的真人发音和计算机处理的非真人发音，与传统的文字到语音的自动合成技术对比，本发明合成语音质量高，语音连续，输出的语音流畅、自然，特别适合无线平台的语音合成，如智能手机，手持电子设备平台，导航系统，以及公共场合的广播系统等。

Description

混合型语音合成系统

技术领域

本发明涉及一种语音合成系统，尤其是一种混合型语音合成系统。

背景技术

语音合成是计算机技术领域中的一个分支，主要功能是把一个给定的输入文本，通过计算机程序，自动转化为语音数据，随后可由输出设备如扬声器或耳机等输出。不同的自然语音的语音合成方法一般各不相同。混合型语音合成系统是语音合成系统的一类，它包括一个合成引擎和一个预先录入的语音数据库，合成引擎通过计算机软件查找语音数据库中匹配的读音把文本转化为语音。但是，通过这种系统计算机所发出的语音不连续，输出的语音不流畅、不自然。

发明内容

为解决上述技术问题，本发明提出一种混合型语音合成系统，包括语音库、语音合成引擎，所述语音库为混合型语音库，包括综合录入的真人发音和计算机处理的非真人发音，其语音库中词语与句子为真人发音，单个字词为非真人发音。

所述混合型语音库制作过程包括以下步骤：

A.对语音数据进行统计，分析单个字、词或句子可能出现的所有发音，这一步骤必须具备完备性，即所收集和统计的数据必须覆盖一种自然语言的全部；

B.对字、词、句子的可能发音进行录音，根据适用的目标应用程序的要求，进行有损或无损压缩，编译成二进制文件，另外创建索引信息，应用计算机程序根据一个字、词或句子查找到语音的二进制文件；

C.搜集语言的材料库，分析字词句发音的例外情况，对于例外情况，建立规则集，所述规则集对于给定的字词以及所处的上下文信息，准确地给出最佳的发音；

D.把语音库，规则集压缩创建索引，生成混合型语音库。所述语音合成引擎核心功能是把输入的文本转换为语音，转换过程包括以下步骤：

A.对输入的自然语音文本进行分析，该分析过程包括：语句的切分，寻找切分最理想的粒度，分析语句中可能出现的特殊情况，对于有多种发音可能或者可能动态改变发音的情况，要把待发音的字、词句以及上下文的情况进行编码，生成一个可以被上下文中提及的规则集识别的输入情况；

B.对切分好的字、词、句或段落，查找语音库或者规则集，按索引获取语音信息；

C.合成，优化处理并输出。

由于本发明所述语音库为混合型语音库，包括综合录入的真人发音和计算机处理的非真人发音，语音库中词语与句子为真人发音，真人发音具有语言流畅、清楚、连续的优点，因此非常适用以下领域(不限于所列)：

1、无线平台的语音合成。比如智能手机，手持电子设备平台。这些平台通常只有有限的存储空间。在这些平台上的带有语音的应用程序可以使用本语音合成系统，达到节省存储空间，提高合成质量的目的。

2、导航系统。GPS和车载导航系统需要高质量的语音导航，在需要的时候对驾驶员做出提示。这是本系统一个非常理想的应用场合。此外，任何需要对操作人员进行语音提示或指令，而需要尽量少分散操作元注意力的应用场合，均可使用本语音合成系统。

3、公共场合的广播系统。目前广播系统大多使用人工广播，既浪费人力资源，也容易出错，而广播的内容，往往是程序输出的结果(比如车站机场的提示信息，均是调度软件系统的输出数据)。如果把这些结果数据直接输入到本语音合成系统中，可以降低人员成本，而且不必担心认为因素导致的错误。

有益效果

与传统的文字到语音的自动合成技术对比，本发明具有以下优点：

1、合成结果效果好，语音连续，输出的语言流畅、自然。经过本系统合成的语音，可以达到真人发音的效果；

2、体积小。本系统自带的语音库，体积通常在5M字节以下，体积小，效率高，适合各种计算平台，包括移动手机平台；

3、语音数据库不随待覆盖文本的大小增大而增大；

具体实施方式

实施例1：

一种混合型语音合成系统，包括语音库、语音合成引擎，所述语音库为混合型语音库，包括综合录入的真人发音和计算机处理的非真人发音，其语音库中词语与句子为真人发音，单个字词为非真人发音。

所述混合型语音库制作过程包括以下步骤：

A、对语音数据进行统计，分析单个字、词或句子可能出现的所有发音，这一步骤必须具备完备性，即所收集和统计的数据必须覆盖一种自然语言的全部；

B、对字、词、句子的可能发音进行录音，根据适用的目标应用程序的要求，进行有损或无损压缩，编译成二进制文件，另外创建索引信息，应用计算机程序根据一个字、词或句子查找到语音的二进制文件；

C、搜集语言的材料库，分析字词句发音的例外情况，对于例外情况，建立规则集，所述规则集对于给定的字词以及所处的上下文信息，准确地给出最佳的发音；

D、把语音库，规则集压缩创建索引，生成混合型语音库。

所述语音合成引擎核心功能是把输入的文本转换为语音，转换过程包括以下步骤：

A、对输入的自然语音文本进行分析，该分析过程包括：语句的切分，寻找切分最理想的粒度，分析语句中可能出现的特殊情况，对于有多种发音可能或者可能动态改变发音的情况，要把待发音的字、词句以及上下文的情况进行编码，生成一个可以被上下文中提及的规规则集识别的输入情况；

C.合成，优化处理并输出。

1、合成语音质量高，语音连续，输出的语音流畅、自然。经过本合成系统合成的语音结果可以达到CD或近似CD音质。而传统语音合成结果，通常只可以达到电台语音效果；

2、语音数据库体积小。混合型语音合成系统自身都带有一个语音数据库。本合成系统的语音数据库，对一种自然语音，体积只有不到3.5M字节，而传统语音合成系统的语音数据库大小是我们的10倍甚至更多；

3、体积不随词库大小的增大而线性增大。传统语音合成技术为了优化，可以对特定领域的应用定制语音数据库。即根据可能需要覆盖的文本，提供可以满足需求的最小数据库，随着需要覆盖的文本空间的增大，就需要增大语音数据库的大小。而本合成系统由于考虑了自然语音的特性，语音数据库大小不仅非常小，而且不会随着需要覆盖的文本空间的增大而增大。在待覆盖词库词条达到11万条的时候数据库大小仅仅为3.2M，随后即基本保持一个常数。当待覆盖词库达到17万条时，数据库大小仅增加到3.3M。

实施例2：

一种混合型语音合成系统，包括语音库、语音合成引擎，所述语音库为混合型语音库，包括综合录入的真人发音和计算机处理的非真人发音，其语音库中词语与句子为真人发音，单个字词为非真人发音。本系统适用于基于单字或单词为发音元素的语言，比如中文，日文，韩文等。

所述语音合成系统的工作原理，以中文为例，说明如下：

A、将汉语文字进行统计，分析所有汉字可能发出的声音；

B、把所有单个汉字可能的发音进行分别录音，压缩，并建立索引；

C、对汉语语言进行统计，用计算机程序分析汉字在不同上下文中可能发生的声音变化，比如多音字，连续两个第三声的变音，语速变化，词尾句尾轻声变化，等等。所得结果进行建模，压缩，并建立索引；

D、把B和C所得数据压缩成语音合成数据库格式；

E、对于一个给定的中文文本输入，程序分析扫描文本，从D所述的数据库中高效查找最优匹配，生成语音文件，输出到用户制定的输出设备上(比如文件，扬声器等)，达到语音合成的目的。

其具体实施包括以下两个主要环节：

1.混合型语音库的生成。

混合型语音库生产包括以下几个步骤：

A、对语音数据进行统计，分析单个字、词、句可能出现的所有发音，这一步骤必须具备完备性，即所收集和统计的数据必须覆盖一种自然语言的全部；

B、对字词的可能发音进行录音，根据适用的目标应用程序的要求，进行有损或无损压缩，编译成二进制文件，另外创建索引信息，应用计算机程序根据一个字、词或句子查找到语音的二进制文件。

C、搜集语言的材料库，分析字词句发音的例外情况，比如中文中的多音字，连续三声变音，词尾句尾轻声等，对于例外情况，建立规则集，该规则集可以实现对于给定的字词以及所处的上下文信息，可以准确地给出最佳的发音，比如中文中的“理想”一词，两个字都不是多音字，但是如果组成这个词，那么“理”应改发第二声；

D、把语音库，规则集压缩创建索引，生成混合型语音库。

2.混合型语音合成引擎的实现。

语音合成引擎是一段计算机代码，核心功能是把输入的文本转换为语音，可分为如下几个步骤：

A、对输入的自然语音文本进行分析，该分析过程涉及：语句的切分，寻找切分最理想的粒度，分析语句中可能出现的特殊情况，对于有多种发音可能或者可能动态改变发音的情况，要把待发音的字、词、句，以及上下文的情况进行编码，生成一个可以被上下文中提及的规则集识别的输入情况；

B.对切分好的字、词、句或段落，查找语音库或者规则集，按索引获取语音信息。

C.合成，优化处理并输出。

Claims

1.一种混合型语音合成系统，包括语音库、语音合成引擎，其特征在于：所述语音库为混合型语音库，包括综合录入的真人发音和计算机处理的非真人发音，其语音库中词语与句子为真人发音，单个字词为非真人发音。

2.根据权利要求1所述的混合型语音合成系统，其特征在于：所述混合型语音库制作过程包括以下步骤：

D.把语音库，规则集压缩创建索引，生成混合型语音库。

3.根据权利要求1所述的混合型语音合成系统，其特征在于：所述语音合成引擎核心功能是把输入的文本转换为语音，转换过程包括以下步骤：

C.合成，优化处理并输出。