CN1260704C

CN1260704C - 语音合成方法

Info

Publication number: CN1260704C
Application number: CNB031326986A
Authority: CN
Inventors: 陈芳; 陈桂林
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2006-06-21
Anticipated expiration: 2023-09-29
Also published as: KR20060066121A; EP1668628A1; EP1668628A4; KR100769033B1; CN1604182A; WO2005034082A1; MXPA06003431A

Abstract

本发明公开了一种执行语音合成的方法，其包括：将文本段(120)与包含多个语音样本(140)的语言波形语料库(60)比较。该方法确定在文本段(120)于一个语音样本(140)之间是否有最好的语境匹配。如果没有最好的语境匹配，该方法确定文本段(120)和语音样本(140)之间是否有语境语音混合匹配。语境语音混合匹配要求匹配在已定义的韵律特征组(220)中的所有隐含韵律特征(210)。如果仍然没有找到匹配，通过从韵律特征组(220)中删除一个隐含韵律特征(210)来重新定义韵律特征组(220)。通过从所述组(220)中删除一个隐含韵律特征(210)来连续地重新定义韵律特征组(220)，直到在输入文本段(120)和语音样本(140)之间找到匹配。当找到匹配时，使用匹配的语音样本(140)来产生拼接语音(110)。

Description

语音合成方法

技术领域

本发明总的来说涉及文语(TTS)合成。具体地说，本发明有助于(但不限于)利用非穷尽的语言语料库来确定文本段的适当合成发音。

背景技术

文语(TTS)转换(通常称为拼接文本到语音合成)允许电子设备接收输入的文本串，并且以合成语音的形式来提供所述串的转换表示。然而，可能要求用来对源自接收到的文本串的非确定数目的语音进行合成的设备难以提供高质量的逼真合成语音。这是因为将要被合成的每一个字或者音节(syllable)(用于中文等)的发音取决于文本语境以及所在的位置。例如，在句子的开头(输入文本串)处的字的发音可以被拉长或者加长。如果相同的字出现在要求进行强调的句子的中间，可以更加地加长它的发音。

在大多数语音中，一个字的发音取决于至少一个音调(基音)、音量、和持续时间。而且，许多语言包括各个音节的多种可能的发音。通常，由中文字符(或者基于其它类似字符的笔迹)表示的单个音节具有多达6种不同的发音。而且，为了提供每一个发音的逼真合成语言，要求大量预存储的句子的语言波形语料库。如果要获得逼真的语音合成，这种语料库通常要求每一个发音的平均大约500种变化。因此，用于每一个字符的所有发音的语言波形语料库将是非常大的。在大多数TTS系统中，存在根据与有限大小的语言波形语料库的比较来确定输入文本串的适当发音的需要。当将语言波形语料库嵌入在具有低存储容量的小型电子设备诸如无线电话或者个人数字助理时，可能要特定地限制该语料库的大小。用来比较输入文本串和音频数据库的算法也需要是有效的并且是快速的，使得最终的合成和拼接语音自然地和流利地流动(flow)。由于存储器和处理速度的限制，用于嵌入的应用的现有TTS方法通常导致语音不自然或者是机器人声音。因此，需要一种改进的方法，用于执行TTS以在利用非穷尽的语言语料库来提供自然的声音合成语音。

发明内容

本发明提供了一种用于执行语音合成的方法，其包括：将输入文本段与包含各种语音样本的语言波形语料库进行比较。该方法确定在文本段和包括在语言波形语料库中的一个语音样本之间是否有最好的语境匹配。如果没有最好的语境匹配，该方法确定在文本段和包括在语言波形语料库中的至少一个语音样本之间是否有语境语音混合匹配。语境语音混合匹配要求匹配在已定义的韵律特征组中的所有隐含的韵律特征。如果仍然没有找到匹配，通过从韵律特征组中删除一个隐含的韵律特征以重新定义韵律特征组来完成韵律特征组的重新定义。通过连续地从所述组中删除一个隐含的韵律特征，直到找到输入文本段和语音样本之间的匹配来成功地重定义韵律特征组。当找到匹配时，使用匹配的语音样本来产生拼接语音。

附图说明

结合附图，从下面的详细说明中可以清楚地看到本发明的其它方面，其中，在整个附图中，相同的参考标记表示相同的或者相应的单元或者步骤，其中：

图1为在其上实施本发明的电子设备的框图；

图2为说明本发明的特定实施例的流程图，用来产生中文中的拼接语音；

图3是说明通过连续地放宽对用来定义匹配的限制条件来确定是否存在语境语音混合匹配的过程的流程图。

具体实施方式

参见图1，图示了在其上实现本发明的电子设备10的方框图。设备10包括经公共总线15可操作地耦合到文本存储器模块20的处理器30，只读存储器(ROM)40，随机存储器(RAM)50以及波形语料库60。处理器30还可操作地耦合到触摸屏显示器90和语音合成器70的输入端。语音合成器70的输出端可操作地耦合到扬声器80。本领域普通技术人员将很明显地看到，文本存储器模块是用于存储由任何接收装置获得的文本的存储库，所述接收装置可能是无线接收器、互联网或者便携式存储器卡中的插头(plug)等等。ROM存储用于执行如图和3所介绍的本发明的操作码。与语音合成器70以及扬声器80一样，语料库60实质上是常规的语料库，并且触摸屏显示器90是用户接口，用于显示存储在文本存储器模块20中的文本。

图2是说明本发明的特定实施例的流程图，用来以中文从输入文本段120中产生拼接语音110。将文本段120与包括多个语音样本140的语言波形语料库60进行比较，以确定是否有最好的语境匹配(contextual best match)(S110)。如果在文本段120和特定语音样本140之间找到最好的语境匹配，将特定的语音样本140发送到拼接算法150，以产生拼接语音110。

如果在文本段120和特定语音样本140之间找不到最好的语境匹配，则将文本段120与语言波形语料库130进行比较以确定是否有语境语音混合匹配(步骤S120)。

图3是说明通过连续地放宽对用来定义匹配的限制条件来确定是否存在语境语音混合匹配的过程的流程图。语音混合匹配要求在文本段120和包括在已定义的韵律特征组220中的所有隐含的韵律特征210之间存在匹配。如果没有找到匹配，从已定义的韵律特征组220中删除一个隐含的韵律特征210，并且重新定义组220为包括没有已删除的特征210之外的所有先前包括的特征210(例如，步骤130)。然后，将重新定义的韵律特征组220与文本段120比较以确定是否有匹配。删除一个隐含韵律特征210、重新定义韵律特征组220、然后重新确定是否有匹配的过程一直继续，直到找到一个匹配(步骤S130，S140，等到步骤S170)。当找到语境语音混合匹配时，将匹配文本段120的匹配语音样本140发送到拼接算法150，用于产生拼接语音110。

如图3所示，如果除了拼音(pinyin)之外的所有隐含韵律特征210被连续地从韵律特征组220中删除，而仍然没有找到匹配，则执行基本的语音匹配来匹配拼音(步骤S180)。在本发明的一个实施例中，如此设计语言波形语料库60，使得总是有至少一个音节包括有正确的拼音来匹配所有可能的输入文本段120。然后，将基本的语音匹配输入到拼接算法150中。因此，本发明是一种多层、数据驱动方法，用于控制最终合成的、拼接语音110的韵律(节奏和声调)。其中，所述方法的每一层包括一重新定义的韵律特征组220。为了达到本发明的目的，文本段120指的是任何类型的输入文本串或者编码语言的段。并不仅仅限于被扫描或者输入到TTS系统中的可视文本。

本发明的语言波形语料库130被用存储在语料库130中的、关于每一个语音样本140(通常是一个字)的信息来注释。语音样本140本身通常是实际的人的语音的记录，通常为数字或者模拟波形。因此，要求用注释来识别样本140。这样的注释可以包括特定的字母或者字符(取决于语言)，用于定义样本140以及语音样本140的隐含韵律特征210。隐含韵律特征210包括关于如何在句子中使用语音样本140的语境信息。

例如，中文里的语音样本140可以包括下述的隐含韵律特征210：

文本内容(Text context)：正好在语音样本140的注释文本之前以及之后的中文字符。

拼音(Pinvin)：语音样本的语音表示。Pinyin是一种使用西文字母的中文的标准罗马字体(romanization)。

音调内容(Tone context)：正好在语音样本140的注释文本之前和之后的中文字符的音调内容。

(协同发音)Co-articalation：正好在语音样本140的注释文本之前和之后的语音级表示，诸如音位或者子音节。

音节位置(Svllable position)：在韵律短语中的音节的位置。

短语位置(Phrase position)：句子中的韵律短语的位置。通常，标识短语位置为三个位置即句子开始、句子中间和句子末尾的一个。

字符符号(Character symbol)：表示定义语音样本140的中文的代码(例如，ASII码)。

短语长度(Phrase length)：包括在韵律短语中的中文字符数目。

作为上述的隐含韵律特征210的特定值的一个例子，考虑如下中文句子：“中国很大”。如果在语言波形语料库130中存储了句子的发音音频记录，每一个字符的声音可以表示一个语音样本140，并且可以用上面的隐含韵律特征210来注释。例如，在上面的句子中找到的字符“国”可以如下注释：

文本内容：中，很

拼音：guo2；

音调内容：1，3；

协同发音：ong，h；

音节位置：2；

短语位置：1；

字符符号：用于“国”字的ASCII码；和

短语长度：2。

图2中，步骤S110确定在文本段120和语音样本140之间是否有最好的语境匹配。最好的语境匹配通常被定义为最接近的、或者确切的下述匹配：1)匹配输入文本段120的字母或者字符(取决于语言)与注释的语音样本140的相应字母或字符，2)匹配输入文本段120的隐含韵律特征210与注释的语音样本140的隐含韵律特征210。更加笼统地说，通过识别与在波形语料库60中的每一个波形语言(语音样本)的属性和属性位置相同的、在输入文本段中的最大数目的连续音节来确定最好的匹配。仅当字母或者字符和隐含韵律特征210确切地匹配时，才立即选择语音样本140作为用在拼接算法150中的元素(element)。

当没有找到最好的语境匹配时，本发明的方法随后确定在输入文本段120和语音样本140之间是否有语境语音混合匹配。如上所述，语境语音混合匹配要求匹配文本段120和包括在已定义的韵律特征组220中的所有隐含韵律特征210。如图3所示，用于在中文中合成语音的本发明的一个实施例使用第一已定义的韵律特征组220，该特征组包括拼音、音调内容、协同发音、音节位置、短语位置、字符符号、和短语长度的隐含韵律特征210(步骤S120)。如果在语言波形语料库130中找到的注释语音样本140没有哪一个具有与在输入文本段120中一样的每一个上述特征210的相同值，则语料库130不包含语音样本140，该语音样本140充分接近基于在步骤S120中采用的匹配规则的输入文本段120。因此，必须放宽匹配规则的限制条件，因而被放宽到包括其它的语音样本140，该其它语音样本140具有在输入文本段120中找到的下一个最优选的特征210。换言之，通过删除在已定义的韵律特征组220中找到的、不太可能影响输入文本段120的自然韵律的一个特征210来放宽匹配规则。例如，如在图2和图3中的步骤S130所示，在本发明的实施例中找到的下一个最优特征210包括小于韵律特征210的长度的上述已定义的所有特征210。

从已定义的韵律特征组220中删除隐含韵律特征210的量级(order)由经验来确定。当以适当量级删除特征210时，本发明的方法得到有效的和快速的语音合成。因此，输出的语音听起来更加自然，尽管相对地限制了语言语料库130的大小。

根据本发明，在利用特定的已定义韵律特征组220来将语言语料库120与文本段120进行比较之后，有可能发现多个语音样本140的注释匹配了分析的文本段120。在这种情况下，可以使用下述方程来选择最佳的语音语音混合匹配：

diff = Wp \times {(\frac{pitch - BestPitch}{BestPitch})}^{2} + Wd \times {(\frac{dur - BestDur}{BestDur})}^{2}

(方程1)

式中，

Wp＝文本段120的基音的权重；

Wd＝文本段120的持续时间的权重；

Diff＝用于选择最佳的语境语音混合匹配的差值；

Pitch＝文本段120的基音；

BestPitch＝理想的文本段120的基音

dur＝文本段120的持续时间；和

BestDur＝理想的文本段120的持续时间。

在上述的方程1中，可以根据语言波形语料库130的统计分析来确定变量BestPitch。例如，语料库130可包括5种音调，每一种具有平均的基音。在语料库130中的每一个注释的语音样本140还可包括由基音、持续时间和能量的值代表的各个韵律信息。因此，基音，整个语料库130的持续时间和能量的平均值可以使用。然后，使用下式可确定用于特征语境的最佳基音：

BestPitch＝pitch_tone-nIndex*empiricalvalue (方程2)

式中，

pitch_tone＝包括语言波形语料库的音调的平均基音；

nIndex＝在韵律短语中的文本段120的索引；和

empircalvalue＝基于语言波形语料库的经验值。经验值4被用在本发明的特定实施例中，合成中文；然而，根据特定的语言波形语料库130的语境，可以改变这个值。

类似地，可以使用下述式子来确定理想的文本段120的持续时间：

BestDur＝dur_s*f_s-nIndex*empircalvalue (方程3)

式中，

dur_s＝没有音调的文本段120的平均持续时间；

nIndex＝在韵律短语中的文本段120的索引；

fs＝用于韵律位置的系数；和

empircalvalue＝基于所述语言波形语料库的经验值。同样，经验值4被用在本发明的特定实施例中，合成中文；然而，根据特定的语言波形语料库130的语境，可以改变这个值。

用于字diffW的差值可以是用于字中的每一个音节的差值的总和。这可以用下面的方程以数学式子表示：

diffW = \underset{k}{Σ} {diff}_{k}

(方程4)

如上所述，如果找到几个语音样本140匹配特定的文本段120，系统将选择差值最低的语音样本140。这可以用下面的方程以数学式子表示：

diffW min＝Min∪diffW_i

(方程5)

而且，本发明的方法可包括对用于差值diffW的预设定阈值的使用。如果用于匹配的语音样本140的差值低于特定的阈值，该方法将路由匹配的语音样本140到拼接算法150，用于产生拼接语音110。否则，该方法可要求通过删除一个要求的隐含韵律特征210来放宽对语境语音混合匹配的限制，并且继续搜索匹配。

尽管上面的介绍涉及用于中文的本发明的方法的特定例子，本发明可以是用于任何语言。对于一些语言，需要从上面给出的样本中删除或者重新定义隐含韵律特征210。例如，在将本发明应用到英文中时，将删除上面标识为音调内容的特征210，因为英文不是音调语言。同样，当将本发明应用到英文中时，可能要将上面标识为拼音的特征210重新定义为简单的语音符号。

因此，本发明是一种多层、数据驱动的韵律控制方案，其使用在语言波形语料库130中的隐含韵律信息。当搜索适当的语音样本140以匹配给磁的输入文本段120时，本发明的方法采用基于多层匹配的策略，其中，一次尝试每一层，直到找到足够好的匹配。通过连续地放宽每一层的限制条件，该方法有效地确定语言波形语料库130是否包含匹配。因此，该方法尤其适合于用在TTS系统中，其中，可以限制语言波形语料库130的大小以及系统的处理能力。

尽管在附图中以及上面的说明中已经示出了本发明的方法的示例实施例，应当理解，本发明不限于上面公开的实施例；实际上，本发明可以各种形式来改变，尤其是在除了中文之外的其它语言中应用时。因此，应当认识到本发明仅由权利要求述的范围来限定。

Claims

1.一种用于对文本段执行语音合成的方法，该方法在电子设备上执行，其包括：

将文本段与语言波形语料库进行比较，所述语言波形语料库包括多个语音波形样本；

确定在文本段中的连续音节与和采样的语音波形语言相关的属性之间的最好匹配，所述最好匹配是通过识别与每一个波形语言的属性以及属性位置相同的最大数目的连续音节来确定的；

为所述文本段中的每一个不匹配音节查找合适的匹配，每一个不匹配的音节是一个这样的音节：其不是连续音节中的一个；并且从对具有与采样的语音波形语言相关的属性的韵律特征组中的韵律特征比较中确定所述合适的匹配，其中，该查找的特征在于：连续地从所述韵律特征组中去掉韵律特征，直到得到所述的合适匹配；和

通过使用在所述语料库中的语音波形样本来为所述文本段产生拼接合成语音，所述语音波形样本是从连续音节和用于每一个不匹配的音节的合适匹配之间的最好匹配中选择出来的。

2.如权利要求1的所述方法，其中，所述韵律特征包括从由文本内容、拼音、音调内容、协同发音、音节位置、短语位置、字符符号、和短语长度组成的组中选择出来的特征。

3.如权利要求2的所述方法，进一步包括步骤：在连续地去除了所有所述的其它韵律特征之后，仅根据拼音来执行基本语音匹配。

4.如权利要求1的所述方法，其中，所述确定步骤包括步骤：当利用下式找到多个最好的匹配时，选择最好的语境语音混合匹配：

diff = Wp \times {(\frac{pitch - BestPitch}{BestPitch})}^{2} + Wd \times {(\frac{dur - BestDur}{BestDur})}^{2}

式中，

Wp＝所述语音段的基音的权重；

Wd＝所述语音段的持续时间的权重；

Diff＝用于选择所述最佳的语境语音混合匹配的差值；

Pitch＝所述语音段的基音；

BestPitch＝理想的语音段的基音

dur＝所述语音段的持续时间；和

BestDur＝所述理想的语音段的持续时间。

5.如权利要求4的所述方法，其中，BestPitch是利用下式来确定的：

BestPitch＝pitch_tone-nIndex*empiricalvalue

式中

pitch_tone＝包括所述语言波形语料库的音调的平均基音；

nIndex＝在韵律短语中的所述语音段的索引；和

empircalvalue＝基于所述语言波形语料库的经验值。

6.如权利要求4的所述方法，其中Bestdur是被使用下式来确定的：

BestDur＝dur_s ^*f_s-nIndex^*empircalvalue

式中

dur_s＝没有音调的所述语音段的平均持续时间；

nIndex＝在韵律短语中的所述语音段的索引；

f_s＝用于韵律位置的系数；和

empircalvalue＝基于所述语言波形语料库的经验值。

7.如权利要求1的所述方法，其中，所述最佳语境语音混合匹配是具有最低的差值diff的匹配。

8.如权利要求1的所述方法，其中，将用于选择所述最佳语境语音混合匹配的所述差值diff与一个预设置的阈值进行比较。