CN1841497A

CN1841497A - 语音合成系统和方法

Info

Publication number: CN1841497A
Application number: CNA2006100585044A
Authority: CN
Inventors: 田村正统; 平林刚; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-03-29
Filing date: 2006-03-10
Publication date: 2006-10-04
Anticipated expiration: 2026-03-10
Also published as: CN1841497B; US20060224391A1; US7630896B2; JP4551803B2; JP2006276528A

Abstract

一种语音合成系统，其包括语音单元存储部分，音素环境存储部分，音素序列/韵律信息输入部分，多语音单元选择部分，融合语音单元序列生成部分，以及融合语音单元修改/拼接部分。通过在所述融合语音单元序列生成部分中融合多个选中的语音单元，来生成融合语音单元。在所述融合语音单元序列生成部分中，为选中的M个语音单元计算平均功率信息，将所述N个语音单元融合在一起，并校正所述融合语音单元的所述功率信息，使其等于所述M个语音单元的所述平均功率信息。

Description

语音合成系统和方法

技术领域

本发明涉及一种用于文本到语音的合成的语音合成系统和方法，更具体地，涉及一种用于从音素序列(phonetic sequence)以及包括了基频、音素持续时间(phonetic duration)等的韵律信息来产生语音信号的语音合成系统和方法。

背景技术

从任意文本人工地产生语音信号被称为“文本到语音的合成”。这种文本到语音的合成通常通过语言处理部分、韵律处理部分以及语音合成部分三个阶段来实现。

输入文本首先被输入到所述语言处理部分，以进行词法分析、语法分析等。然后，所述结果文本被转发到所述韵律处理部分，以进行重音或语调处理，并从此输出音素序列/韵律信息，例如基频、音素持续时间等。随后，在所述语音合成部分中，用所述音素序列/韵律信息产生语音波形。

一种语音合成方法为单元选择类型，从大量语音单元中选择特定的语音单元序列，以利用被设定为目标的任何给定的音素序列/韵律信息进行语音合成。利用这种单元选择类型的语音合成，任何给定的音素序列/韵律信息被作为目标，以从大量预先存储的语音单元中进行单元选择。作为一种单元选择技术，在语音合成处理中引起的在作为结果的合成语音中观察到的失真可以用作为代价函数(cost function)的级别(level)来定义，并且，进行单元序列的选择以减少所述代价。例如，失真被转换为作为代价的数字，并且基于这些代价，选择语音单元序列以用于语音合成。在此，所述失真包括表示在目标语音和候选语音单元之间关于韵律/音素环境(phonetic environment)等方面可观察的差异的目标失真，以及因拼接连续语音单元而引起的拼接失真。于是，选中的语音单元序列被用来产生合成语音。同样，利用这种单元选择类型的语音合成，从大量语音单元中选择任何合适的语音单元序列，可以生成具有较少的声音质量损失的合成语音，该声音质量损失通常由修改和拼接语音单元所引起。

还有另一种选择多个语音单元的语音合成方法(Tatsuya Mizutani，andTakehiko Kagoshima，“Speech synthesis based on selection and fusion of amultiple unit”，The Proceedings of 2004 Spring Meeting of the AcousticalSociety of Japan，March 2004，1-7-3，pp.217-218)。即，基于在具有被设置为目标的任何给定的音素序列/韵律信息的合成语音中所观察到的失真的级别，为作为所述音素序列的分段(partition segment)的每一个合成单元片段选择多个语音单元。这样，选中的语音单元被融合在一起，从而产生新的语音单元。然后，作为结果的语音单元被拼接以进行语音合成。

单元融合的示例性的技术为音调周期(pitch-cycle)波形平均。利用此技术，合成的语音在稳定性方面得到增强，并且听起来更像人声。这是因为此技术可减少声音质量损失，该声音质量损失经常出现在基于单元选择的语音合成器中，其由在所述目标的音素序列/韵律信息和所述选中的语音单元序列之间的不匹配，或由两个连续语音单元之间的不连续而引起。

作为一种用于合成语音的功率控制技术，提供了一种语音合成方法(参见JP-A-2001-282276)，其中，在音素边界处分割音素，对每一段进行功率估计，并且基于已估计的功率来改变音素的功率。在功率估计处理中，预先计算的参数，诸如第一类型量化方法的系数，可被用于产生所述功率。

在基于单元选择的语音合成器中，从大量的语音单元中选出最小化所述代价函数的最佳语音单元，但是，所述选中的语音单元的功率并不总是合适的。这正是产生所述功率不连续，导致所述合成语音的声音质量损失的原因。并且在所述基于多单元选择的语音合成器中，增加用于单元融合的语音单元的数量可以稳定所述作为结果的合成语音的功率。然而，这意味着从声音质量特征方面不同的许多语音单元中产生所述作为结果的融合语音，从而引起声音失真增加。更不利的是，在所述单元融合的处理中，若融合的语音单元的功率与任何合适的功率差异很大，则会引起声音质量损失。

同样，在包括了所述功率估计处理并利用预先计算的参数进行功率控制的语音合成方法中，很难实现能够适当地反映大量语音单元的功率信息的功率控制。利用这样的方法，可能引起功率-语音单元不匹配。

考虑到在选择语音单元或选择多个语音单元的语音合成中存在的以上问题，本发明的目的在于提供一种语音合成系统和方法，以实现在音素序列片段中具有自然且稳定的语音单元功率，同时适当地反映大量语音单元的功率信息的高质量语音合成。

发明内容

根据本发明的实施例，提供了一种语音合成系统，其通过将从输入文本得到的音素序列分割成预定的合成单元，以及通过拼接对应于所述合成单元的每一个生成的代表性语音单元，来产生合成语音。所述语音合成系统配备有：存储部分，用于存储对应于所述合成单元的多个语音单元；单元选择部分，用于基于所述合成语音的失真级别，对于从所述输入文本得到的所述音素序列的合成单元的每一个，从存储在所述存储部分的语音单元中选择多个语音单元；代表性语音单元生成部分，用于通过计算来自所述语音单元的功率信息的统计量，以及通过基于所述功率信息的所述统计量校正所述功率信息以提高所述合成语音的声音质量，来生成对应于所述合成单元的代表性语音单元；以及语音波形生成部分，用于通过拼接所述生成的代表性语音单元来产生语音波形。

根据本发明，无论采用何种方法，即无论是采用选择语音单元的语音合成方法，还是采用选择多个语音单元的语音合成方法，都可以在功率上稳定合成语音。与预先进行功率估计的方法相比较，所得到的合成语音适当地反映了多个语音单元的功率信息。这是因为基于用于平均功率生成的代价函数，从大量语音单元中选择出了多个语音单元。

此外，所述功率信息可在单元融合时用于加权赋值，或者用于去除任何离群(outlier)的语音单元，从而提高声音质量。于是，得到的合成语音功率稳定，声音质量良好，并且，该合成语音听上去很自然。

附图说明

图1为框图，示出了本发明第一实施例的语音合成系统的结构；

图2为框图，示出了语音合成部分的示例性的结构；

图3为示图，示出了语音单元存储部分中的示例性的语音单元存储；

图4为示图，示出了音素环境存储部分中的示例性的音素环境的存储；

图5为示图，用于说明从语音数据取得语音单元的程序；

图6为流程图，用于说明多个语音单元选择部分的处理操作；

图7为示图，用于说明为输入音素序列的多个片段中的每一个取得多个语音单元的程序；

图8为流程图，用于说明融合语音单元生成部分的处理操作；

图9为示图，示出了功率信息校正的示例性的方式；

图10A和10B均为示图，示出了功率信息校正的另一种示例性的方式；

图11为流程图，用于说明单元融合步骤的处理；

图12A到12C均为示图，用于说明单元融合部分的处理；

图13为用于说明单元融合部分的处理的另一个示图；

图14也为用于说明单元融合部分的处理的另一个示图；

图15为示图，用于说明单元修改/拼接部分的处理操作；

图16为用于说明融合语音单元生成部分的处理操作的另一个流程图；

图17为流程图，用于说明本发明第二实施例中的融合语音单元生成部分的处理操作；

图18为用于说明所述第二实施例中的融合语音单元生成部分的处理操作的另一个流程图；

图19为框图，示出了本发明第三实施例中的语音合成部分的示例性的结构；

图20为流程图，用于说明所述第三实施例中的多个语音单元选择部分的处理操作；

图21为流程图，用于说明所述第三实施例中的融合语音单元生成部分的处理；

图22为用于说明所述第三实施例中的融合语音单元生成部分的处理的另一个流程图；以及

图23为流程图，用于说明所述融合语音单元生成部分的处理操作。

具体实施方式

在本发明的实施例中，描述了一种语音合成系统，其通过将从输入文本得到的音素序列分割成预定的合成单元，以及通过拼接对应于所述合成单元的每一个生成的代表性语音单元，来生成合成语音。所述语音合成系统配备有：存储部分，用于存储与所述合成单元对应的多个语音单元；单元选择部分，用于基于所述合成语音的失真级别，对于从所述输入文本得到的所述音素序列的合成单元的每一个，从存储在所述存储部分的语音单元中选择多个语音单元；代表性语音单元生成部分，用于通过计算来自所述语音单元的功率信息的统计量，以及通过基于所述功率信息的所述统计量校正所述功率信息以提高所述合成语音的声音质量，来生成对应于所述合成单元的代表性语音单元；以及语音波形生成部分，用于通过拼接所述生成的代表性语音单元来产生语音波形。利用这种结构，在生成合成语音时，从所述语音片段的每一个中的语音单元组选择多个语音单元，并且利用其功率信息的统计量来校正这些语音单元。因此，所述作为结果的合成语音可以适当地反映大量语音单元的功率信息。

在所述单元选择部分中，分别选择N个语音单元和M个语音单元(N≤M)。在所述代表性语音单元生成部分中，用所选中的M个语音单元计算所述功率信息的平均值，并将所述N个语音单元融合在一起以生成融合单元。校正所述作为结果的融合单元的功率信息，使其等于从所述M个语音单元计算得到的功率信息的平均值。如此，得以生成所述代表性语音单元。利用这样的结构，在选择和融合多个语音单元的语音合成方法中，用于单元融合的语音单元的数目被限制为N，以保证声音质量，并且，大于N个语音单元的M个语音单元的平均功率被用于功率校正，以稳定作为结果的融合单元的功率，从而有利地使得合成语音听起来自然。

在一种可选结构中，在所述单元选择部分，分别选择M个语音单元和最佳语音单元。在所述代表性语音单元生成部分，所选中的M个语音单元被用于计算所述功率信息的平均值，并且校正所述最佳语音单元，使其功率信息等于从所述M个语音单元计算得到的功率信息的平均值。如此，得以生成所述代表性语音单元。利用这样的结构，在选择语音单元的语音合成方法中，利用所述M个语音单元的平均功率来校正所选中的最佳语音单元，并且该已校正的语音单元被用于拼接。因此，所述作为结果的合成语音的功率得以稳定，且具有高级别的声音质量。

在另一种可选结构中，在所述单元选择部分中，分别选择N个语音单元和M个语音单元(N≤M)。在所述代表性语音单元生成部分，所选中的M个语音单元被用于计算所述功率信息的平均值，而所述N个语音单元被计算其每一个的功率信息。基于从所述M个语音单元计算的功率信息的统计量，对所述N个语音单元中的每一个进行加权赋值。基于这种权重，将所述N个语音单元融合在一起，从而生成所述代表性语音单元。利用这样的结构，在选择和融合多个语音单元的语音合成方法中，由于用于语音融合的N个语音单元的功率在大于N个语音单元的所述M个语音单元的平均功率的范围以外，在单元融合时的所述权重也被减小。于是，可提高所述作为结果的融合单元的声音质量，从而得到具有高级别声音质量的合成语音。

在另一种可选结构中，在所述单元选择部分中，分别选择N个语音单元和M个语音单元(N≤M)。在所述代表性语音单元生成部分，所选中的M个语音单元被用于计算所述功率信息的统计量，而所述作为结果的统计量被用于得到一个部分(part)。然后所述N个语音单元被计算其每一个的功率信息，并且如果有任何功率信息不适合所述部分，则相应的音素由于具有偏差值而被去除。然后将所剩余的语音单元融合在一起，从而生成所述代表性语音单元。利用这样的结构，在选择和融合多个语音单元的语音合成方法中，任何功率对于大于N个语音单元的所述M个语音单元的平均功率的范围有较大偏移的离群的语音单元都在单元融合之前被去除。因此，通过在去除任何离群的语音单元后融合所述语音单元，可提高所述作为结果的融合语音单元的声音质量，从而得到具有高级别声音质量的合成语音。

在另一种可选结构中，仅当作为融合所述N个语音单元的结果的融合语音单元的功率信息大于从所述M个语音单元计算的功率信息的平均值时，对所述融合音素进行校正，以使其功率信息等于所述功率信息的平均值。利用这样的结构，仅在向下路径(downward path)上校正所述功率信息。因此，即使所述融合单元包括一些噪声分量，也不会放大该噪声分量，从而可以成功地避免功率校正所导致的声音质量损失。

以下，将参照附图详细描述本发明的实施例。

(第一实施例)

下面描述第一实施例的文本到语音的合成系统。

1.文本到语音的合成系统的结构

图1为框图，示出了根据本发明第一实施例的文本到语音的合成系统的结构。

此文本到语音的合成系统被配置为包括文本输入部分11，语言处理部分12，韵律处理部分13，语音合成部分14，以及语音波形输出部分15。

所述语言处理部分12对来自所述文本输入部分11的文本进行语素分析/语法分析。所述分析结果被转发给所述韵律处理部分13。

所述韵律处理部分13对所述语言的分析结果进行重音和声调的处理，从而生成音素序列(音素符号(phonetic symbol)序列)和韵律信息。所生成的序列和信息被转发给所述语音合成部分14。

所述语音合成部分14从所述音素序列和韵律信息产生语音波形。所述作为结果的语音波形被从所述语音波形输出部分15输出。

图1所示的语音合成系统的结构在使用日语以外的其它语言的情况下是同样的，所述语言处理部分12、所述韵律处理部分13、所述语音合成部分14对应于各种语言分别进行语言处理、韵律生成以及语音合成。

2.语音合成部分14的结构

图2为框图，示出了图1中的语音合成部分14的示例性的结构。

在图2中，所述语音合成部分14被配置为包括语音单元存储部分21，音素环境存储部分22，音素序列/韵律信息输入部分23，多语音单元选择部分24，融合语音单元序列生成部分25，以及融合语音单元修改/拼接部分26。

2-1.语音单元存储部分21

在所述语音单元存储部分21中，累积语音单元，并在所述音素环境存储部分22中累积关于其音素环境的信息(音素环境信息)。

所述语音单元存储部分21还存储作为用于生成合成语音的语音单元(合成单元)的典型(type)的语音单元。所述合成单元为音素或音素片段的组合，包括半音素、音素(C，V)、双音素(CV，VC，VV)、三音素(CVC，VCV)、音节(CV，V)等(在此V表示元音，C表示辅音)。所述合成单元可具有可变长度，包括这些中的一些。

所述语音单元的音素环境表示对应于所述语音单元的环境因素的信息。所述环境因素包括所述音素的音素名、在前音素、后续音素、下一个后续音素、基频、音素持续时间、加重或不加重、对于主要加重的部分的位置、停顿后的时间、语速、感情，等等。

2-2.音素序列/韵律信息输入部分23

所述音素序列/韵律信息输入部分23配备有对应于来自所述韵律处理部分13的输入文本的音素序列/韵律信息。提供给所述音素序列/韵律信息输入部分23的所述韵律信息包括所述基频、音素持续时间等。

以下，提供给所述音素序列/韵律信息输入部分23的所述音素序列/韵律信息分别被称为“输入音素序列”和“输入韵律信息”。例如，所述输入音素序列为音素符号的序列。

2-3.多语音单元选择部分24

对于所述输入音素序列的每一个合成单元，所述多语音单元选择部分24估计合成语音的所述失真级别。此失真估计基于所述输入韵律信息以及在融合语音单元的音素环境中找到的语音信息进行。基于为所述合成语音估计的所述作为结果的失真级别，所述多语音单元选择部分24从存储在语音单元存储部分21中的语音单元中选择语音单元。在此语音单元选择中，M个语音单元被选择以得到平均功率信息，而N(N≤M)个语音单元被选择以得到融合语音单元。

在此，作为目标代价和拼接代价的加权和来计算所述合成语音的失真级别。所述目标代价表示作为在存储于所述语音单元存储部分21中的所述语音单元的所述音素环境与来自所述音素序列/韵律信息输入部分23的所述目标音素环境之间的差异而被观察到的失真。所述拼接代价表示作为在任何拼接的语音单元之间的音素环境的差异而被观察到的失真。

即，所述目标代价为在任何输入文本的目标音素环境下使用存储在所述语音单元存储部分21中的所述语音单元而引起的失真。所述拼接代价为在语音单元拼接转换后因不连续的音素环境而引起的失真。在本实施例中，随后将描述的代价函数被用作为所述合成语音的失真级别。

2-4.融合语音单元序列生成部分25

接下来，在所述融合语音单元序列生成部分25中，通过融合多个选中的语音单元来产生融合语音单元。对于单元融合，将如下所述对音调周期波形进行平均。在此融合语音单元序列生成部分25中，对选中的M个语音单元计算所述平均功率信息，并将所述N个语音单元融合在一起。校正所述作为结果的融合语音单元的功率信息，使其等于所述M个语音单元的平均功率信息。于是，得到融合语音单元的序列，其功率信息被校正，以对应于作为输入音素序列的音素符号的序列。在所述融合语音单元修改/拼接部分26中，基于输入韵律信息，变形和拼接融合语音单元的序列，从而生成合成语音的语音波形。所述作为结果的语音波形由所述语音波形输出部分15输出。

在此注意到，所述“功率信息”为所述语音波形的均方值或绝对平均振幅值。

3.语音合成部分14的处理

以下，将详细描述由所述语音合成部分14所执行的处理。

在此例中，假设所述合成单元为音素。

3-1.语音单元存储部分21

如图3所示，在所述语音单元存储部分21中，对于每一个语音单元，语音信号的语音波形被与语音单元号一起存储，以用于语音单元识别。如图4所示，在所述音素环境存储部分22中，在所述语音单元存储部分21中的语音单元的音素环境信息以与所述语音单元号相关的方式被存储。在此例中，音素符号(音素名称)、基频、音素持续时间以及拼接边界倒谱被作为所述音素环境存储。

注意到，在此例中，语音单元的类型被视为音素。或者，如果所述语音单元的类型为半音素、双音素、三音素、音节或其组合，或为可变长度的语音单元类型，也同样适用。

存储在所述语音单元存储部分21中的所述语音单元为在大量分开收集的语音数据中被标记的每一个语音单元所获得的波形。例如，图5示出了语音数据51中音素标记的结果。在图5中，每一个由标记边界52基于音素分割的语音数据(语音波形)被赋以作为标记数据53的音素符号。此语音数据为所述各音素提供音素环境信息，例如，音素(在此例中，为音素名称(音素符号))、基频以及音素持续时间。从所述语音数据51得到的所述语音波形同样被赋予与它们每一个相应的音素环境相同的语音单元号。如图3和图4所示，所述语音单元存储部分21和所述音素环境存储部分22均存储这种信息。在此例中，假设所述音素环境信息包括所述语音单元的音位结构，及其基频和音素持续时间。

3-2.多语音单元选择部分24

以下描述所述多语音单元选择部分24。

3-2-1.代价函数

首先描述在所述多语音单元选择部分24中使用以取得语音单元序列的代价函数。

对于在语音单元被修改和拼接以生成合成语音时发生的失真的每一个因素，定义子代价函数C_n(u_i，u_i-1，t_i)(n：1，…，N，其中N为子代价函数的数目)。在此，当对应于所述输入音素序列和所述输入韵律信息的目标语音为t＝(t₁，…，t_I)时，所述t_i表示位于对应于第i片段的部分的语音单元的目标音素环境信息。所述u_i表示存储在所述语音单元存储部分21中的所述语音单元中的语音单元，其具有与所述目标t_i相同的语音结构。

所述子代价函数用于计算用以估计在将合成语音与目标语音相比较中观察到的失真的级别所需的代价。在利用存储在所述语音单元存储部分21中的所述语音单元生成所述合成语音时，发生所述失真。

在计算这样的代价时，使用了两种类型的子代价。一个为“目标代价”，用于估计因利用存储在所述语音单元存储部分21中的语音单元而引起的合成语音与目标语音相比较的失真的级别。另一个为“拼接代价”，其用于估计因将存储在所述语音单元存储部分21中的语音单元与任何其它语音单元相拼接而引起的合成语音与目标语音相比较的失真的级别。

所述目标代价包括基频代价和音素持续时间代价。所述基频代价表示在目标基频与存储在所述语音单元存储部分21中的所述语音单元的基频之间的差异，而所述音素持续时间代价表示在目标音素持续时间与所述语音单元存储部分21中的所述语音单元的音素持续时间之间的差异。

所述拼接代价包括频谱拼接代价，其表示拼接边界处的频谱差异。更具体地，从如下等式(1)计算所述基频代价：

C₁(u_i，u_i-1，t_i)＝{log(f(v_i))-log(f(t_i))}² (1)

其中v_i表示存储在所述语音单元存储部分21中的语音单元u_i的音素环境，而f表示从所述音素环境v_i提取平均基频的函数。从如下等式(2)计算所述音素持续时间代价：

C₂(u_i，u_i-1，t_i)＝{g(v_i)-g(t_i)}² (2)

其中g表示从所述音素环境v_i中提取所述音素持续时间的函数。从在任何两个语音单元之间的倒谱距离来计算所述频谱拼接代价：

C₃(u_i，u_i-1，t_i)＝‖h(u_i)-h(u_i-1)‖ (3)

其中h表示用于在所述语音单元u_i的拼接边界处提取作为向量的倒谱系数的函数。这些子代价函数加权和被定义为合成单元代价函数：

C (u_{i}, u_{i - 1}, t_{i}) = Σ_{n = 1}^{N} w_{n} C_{n} (u_{i}, u_{i - 1}, t_{i}) \cdot \cdot \cdot (4)

其中w_n表示所述子代价函数的权重。在本实施例中，为简略起见，毫无例外的假设w_n为“1”。等式(4)为赋予特定合成单元的语音单元的合成单元代价。

所述代价表示基于片段从所述等式(4)计算得到的合成单元代价的和。在此，所述片段为利用合成单元分割所述输入音素序列而得到的那些片段。用于计算这种代价的代价函数通过以下等式(5)定义：

Cost = Σ_{i = 1}^{I} C (u_{i}, u_{i - 1}, t_{i}) \cdot \cdot \cdot (5)

3-2-2语音单元选择处理

所述多语音单元选择部分24利用以上等式(1)到(5)中所示的代价函数，在两个步骤中，选择每片段，即，每合成单元的多个语音单元。

图6为流程图，用于说明语音单元选择处理。

作为第一步骤中的语音单元选择，在步骤S61中，存储在所述语音单元存储部分21中的一组语音单元被用于选择具有如所述等式(5)的计算结果的最小代价值的语音单元序列。具有所述最小代价的语音单元的作为结果的组合同样在此后被称为最佳语音单元序列。也就是说，在这种最佳语音单元序列中的语音单元分别对应于多个片段，该多个片段为将所述输入音素序列分割成合成单元的结果。从所述最佳语音单元序列中的语音单元的每一个计算得到的合成单元代价以及由所述等式(5)计算得到的所述代价，其值均小于任何其它的语音单元序列。在此，为搜索这样的最佳语音单元序列，使用动态规划(DP)可提高效率。

然后，程序进行到步骤S62，以进行第二步骤中的语音单元选择。在步骤S62中，所述最佳语音单元序列被用于为每一个片段选择多个语音单元。在此例中，为描述步骤S62，片段的个数为J，并且对于每一个片段，选择M个语音单元以得到所述平均功率信息，并且选择N个语音单元以用于语音单元融合。

3-2-3.为每一个片段选择多个语音单元的方法

在步骤S621到S623中，在其它J个片段中的特定片段被视为目标片段。重复从步骤S621到S623的程序J次，执行处理，使得所有所述J个片段中的每一片段均作为目标片段一次。

首先，在步骤S621中，将所述最佳语音单元序列中的语音单元分配给不作为目标片段的片段的每一个。在此状态下，对于所述目标片段，基于所述等式(5)的所述代价值，将存储在所述语音单元存储部分21中的所述语音单元排序。然后选择最好的M个语音单元以得到所述平均功率信息，并选择最好的N个语音单元以用来进行语音单元融合。

如图7所示，假设此时输入音素序列为“ts□i□i□s□a□...”。当处于这种情况时，所述合成单元对应于这些语音单元“ts”，“i”，“i”，“s”，“a”等中的每一个，并且这些语音单元中的每一个对应于片段。在图7的例子中，目标片段为对应于在所述输入音素序列中的第三个语音单元“i”的片段。图7的例子示出了为此目标片段选择多个语音单元的情况。对应于所述第三个语音单元“i”的片段之外的其它片段被分配了在所述最佳语音单元序列中的语音单元，即，71a，71b，71d，71e等。

在这种状态下，除了存储在所述语音单元存储部分21中的语音单元之外，所述等式(5)还用于计算每一个具有与所述目标片段的音素“i”相同的音素名称(音素符号)的语音单元的代价。在此，同样当计算代价时，仅需要注意代价的数值变化，即，所述目标片段的目标代价，所述目标片段和其在前片段的拼接代价，以及所述目标片段和其后续片段的拼接代价。更具体地，

(程序1)除了存储在所述语音单元存储部分21中的所述语音单元之外，具有与所述目标片段中的音素“i”相同的音素名称(音素符号)的特定语音单元被视为语音单元u₃。利用所述等式(1)，从所述语音单元u₃的基频f(v₃)和目标基频f(t₃)计算基频代价。

(程序2)利用所述等式(2)，从所述语音单元u₃的音素持续时间g(v₃)和目标音素持续时间g(t₃)计算音素持续时间代价。

(程序3)利用所述等式(3)，从所述语音单元u₃的倒谱系数h(u₃)和语音单元51b(u₂)的倒谱系数h(u₂)计算第一频谱拼接代价。同样利用所述等式(3)，从所述语音单元u₃的倒谱系数h(u₃)和语音单元51d(u₄)的倒谱系数h(u₄)计算第二频谱拼接代价。

(程序4)通过计算利用以上程序1到3中的子代价函数所得到的各代价，即，所述基频代价、所述音素持续时间代价以及所述第一和第二频谱拼接代价的加权和，来计算所述语音单元u₃的代价。

(程序5)在根据以上程序1到4对每一个具有与所述目标片段的音素“i”相同的音素名称(音素符号)的所述语音单元存储部分21中的语音单元进行代价计算之后，基于其代价对所述语音单元进行升序排序(图6的步骤S621)。在图7的例子中，所述语音单元72a次序最高，而所述语音单元72e次序最低。其后，最好的M个语音单元，即，语音单元72a到72d，被选中以得到所述平均功率信息(图6中的步骤S622)，而最好的N(N≤M)个语音单元，即，语音单元72a到72c，被选中以用于单元融合(图6中的步骤S623)。

对每个片段执行以上程序1到5，从而对每个片段选择M和N个语音单元。

3-3.融合语音单元生成部分25

下面描述融合语音单元生成部分25。

所述融合语音单元生成部分25融合由所述多语音单元选择部分24所选中的多个语音单元，并生成融合语音单元。

3-3-1.融合语音单元生成部分25的处理

图8示出了由融合语音单元生成部分25执行的处理。

首先，在步骤S81中，为所选中的M个语音单元得到所述平均功率信息。即，从以下等式(6)对每一个语音计算平均功率信息P_i：

P_{i} = \frac{1}{T} Σ_{t = 1}^{T} S_{i} {(t)}^{2} \cdot \cdot \cdot (6)

利用如下等式(7)计算已计算得到的功率信息P_i(1≤i≤M)的平均值P_ave，且所述M个语音单元的平均功率信息如下得到：

P_{ave} = \frac{1}{M} Σ_{m = 1}^{M} P_{m} \cdot \cdot \cdot (7)

其中S_i(n)表示所述第i个语音单元的语音信号，而T表示样本的个数。

接下来，在步骤S82中，利用单元融合方法将所述N个语音单元融合在一起，后面将对此进行描述。从所述语音单元存储部分21获取由所述多语音单元选择部分24选择的所述N个语音单元。然后将所述N个语音单元融合在一起以产生新的语音单元(融合语音单元)。

最后，在步骤S83中，校正所述融合语音单元的功率信息，使其等于所述平均功率信息P_ave。从所述等式(6)得到所述融合语音单元的功率信息P_f，并从以下等式(8)得到用于校正所述功率信息的比率r：

r = \sqrt{\frac{P_{ave}}{P_{f}}} \cdot \cdot \cdot (8)

将所述作为结果的比率r乘以所述融合语音单元，从而校正所述功率信息。

为简明起见，所述融合语音单元的所述功率信息P_f可为所述N个语音单元的所述功率信息P_i(1≤i≤N)的平均值。

3-3-2.功率信息的校正

图9示出了用于功率信息校正的示例性的方式。图9的表格示出了为所述语音单元i选出的所述最好的M(M＝15)个语音单元的功率信息P_i(1≤i≤M)。在此例中，所述合成单元为半音素。当N为3时，所述融合语音单元的所述功率信息P_f将为2691671，而所述M个语音单元的平均功率信息P_ave将为1647084。用于功率信息校正的所述比率r将为0.78，其被乘到所述融合语音单元的语音波形，从而校正所述功率信息。

图10A和10B均示出了作为功率信息校正的结果的示例性的波形。图10A和10B均在最前面示出了所述音素i。图10A示出了不经过校正而对所述融合语音单元进行拼接的情况，图10B示出了根据本发明的功率信息校正情况。沿横轴的数字表示音调标记号。图10A的例子示出了在所述音调标记号9到10的范围内，在左半和右半语音单元之间的所述音素i的拼接部分，所述功率信息的急剧增加。另一方面，图10B示出了在所述拼接部分的平滑拼接，其中，对所述左半语音单元使用为1.28的比率r，而对所述右半语音单元使用为0.78的比率r。在此，所述右半语音单元对应于图9。

3-3-3.语音单元融合的方法

接下来描述在步骤S82中的语音单元融合的方法。在此步骤中，取决于所述语音单元是浊音还是清音，执行两种不同类型的处理。

3-3-3-1浊音情形

首先描述浊音的情形。在浊音的情况下，在从语音单元提取的音调周期波形的级别(level)上进行语音单元融合。以这种方式，可生成新的音调周期波形。在此，所述音调周期波形相对较短，约为所述音调基本周期(pitch period)的几倍长，而所述音调周期波形本身没有所述音调基本周期。所述音调周期波形的频谱表示语音信号的频谱包络。

存在多种用于波形提取的技术，例如，简单地利用音调同步窗来进行波形提取，对作为倒谱分析或PSE分析的结果的功率谱包络进行离散傅立叶逆变换，利用作为线性预测分析的结果的滤波器冲激响应得到音调周期波形，或者利用闭环训练以减少合成语音与自然语音相比的失真，从而得到音调周期波形。

在此以利用使用了音调同步窗的技术来提取音调周期波形的情况作为例子。参考图11的流程图，在此描述对通过融合由所述多语音单元选择部分24选中的所述N个语音单元来生成新的语音单元的情况的处理过程。

在步骤S111中，所述N个语音单元的语音波形的每一个在每个音调间隔被分配标记(音调标记)。图12A示出了所述N个语音单元中的某个特定语音单元的语音波形121在每个音调间隔被分配以音调标记122的示例性的情况。

在步骤S112中，如图12B所示，通过参照所述音调标记进行窗口操作(windowing)来提取音调周期波形。所述窗口为Hanning窗(汉宁窗)123，其窗长为所述音调基本周期的两倍。此后，如图12C所示，窗化波形(windowed waveform)124作为音调周期波形被提取。对于所述N个语音单元的每一个，执行图12A到12C的处理，即，步骤S112的处理。于是，得到所述N个语音单元的每一个的多个音调周期波形的序列。

然后，所述处理进行到步骤S113，并且，进行波形复制，使得所述片段中的所述N个语音单元中的每一个的音调波形序列中的音调周期波形的数目相等，特别地对于包括少量音调周期波形的序列而言。基于所述序列中的音调周期波形的最大数目进行所述波形复制。

图13示出了音调周期波形序列e1到e3，其作为在步骤S112中对所述片段的N(例如，在此例中为3)个语音单元d1到d3进行波形提取的结果。所述序列e1携带七个音调周期波形，所述序列e2携带五个，而所述序列e3携带六个。同样，在这些音调周期波形序列e1到e3中，所述序列e1携带的最大数量的音调周期波形。于是，基于所述序列e1中的音调周期波形的数目，即，在此例中为七，在余下的各序列e2和e3中的任何波形可以被复制，直到音调周期波形的数目成为七个。作为结果的新的音调周期波形序列为e2′和e3′，分别对应于所述序列e2和e3。

然后，所述程序进行到步骤S114。在步骤S114中，对每个音调周期波形执行处理。对应于所述片段中的N个语音单元中每一个的音调周期波形，被基于位置平均，从而产生新的音调周期波形的序列。作为结果的新波形的序列被称为融合语音单元。

图14示出了在步骤S113中从所述片段的所述N(例如，在此例中为3)个语音单元d1到d3得到的所述音调周期波形序列e1、e2′和e3′。由于这些序列均有七个音调周期波形，在步骤S114中，第1到第7个音调周期波形的每一个被三个语音单元平均。如此，产生了新音调周期波形的序列f1，即，七个新音调周期波形。也就是说，例如，得到了所述序列e1的第1个音调周期波形、所述序列e2′的第1个音调周期波形以及所述序列e3′的第1个音调周期波形的形心(centroid)，并且此结果被视为所述新音调周期波形序列f1的第1个音调周期波形。进行同样的处理以得到所述新音调周期波形序列f1的第2到第7个音调周期波形。所述音调周期波形序列f1为上述“融合语音单元”。为获得形心，可选地，可对每个音调周期波形进行加权。如果是这种情况，可以利用所述序列e1的权重w₁，所述序列e2的权重w₂，所述序列e3的权重w₃，进行加权平均，而得到所述新音调周期波形序列f1。

f_{1} = Σ_{i = 1}^{N} w_{i} e_{i}^{'} \cdot \cdot \cdot (9)

Σ_{i = 1}^{N} w_{i} = 1

在等式(9)中，假设所述权重w_i被标准化。

这样的音调周期波形平均不是对所述音调周期波形进行单元融合处理的唯一选择。例如，所述闭环训练可在合成语音的级别上产生任何最佳音调周期波形序列，而无需从所述语音单元的每一个提取音调周期波形。在此，所述闭环训练为一种产生代表性语音单元的技术，在通过实际改变所述基频和音素持续时间来合成的语音的级别上，所述产生的代表性语音单元与自然语音相比，显示出较小的失真。同样，因为由所述闭环训练生成的作为结果的语音单元在所述合成语音的级别上显示出较小的失真，所述作为结果的语音单元比通过音调周期波形平均而产生的语音单元有更高的声音质量。更多细节可参考专利文献2(专利3281281)。

3-3-3-2.清音情形

在语音单元融合的处理步骤中，在具有清音片段的情况下，实际上使用了在由所述多语音单元选择部分24对所述片段选出的所述N个语音单元中处于第一位置的语音单元的波形。

3-4.融合语音单元修改/拼接部分26

所述融合语音单元修改/拼接部分26通过依据所述输入韵律信息修改和拼接融合语音单元来生成合成语音的语音波形。所述融合语音单元实际上采用音调周期波形的形状。于是，可通过以所述融合语音单元具有在所述输入韵律信息中找到的所述目标语音的所述基频和所述音素持续时间的方式，将所述音调周期波形拼接在一起，来产生语音波形。

图15为示图，用于说明由所述融合语音单元修改/拼接部分26执行的处理。在图15中，以这样的情况作为例子，在其中，通过对由用于语音单元“m”，“a”，“d”，和“o”的各合成单元的语音单元融合部分得到的融合语音单元进行修改和拼接来产生语音波形“ma-do”。如图15所示，基于在所述输入韵律信息中找到的所述目标基频和所述音素持续时间，在所述融合语音单元中，各音调周期波形的基频可被改变(所述音调可被改变)，或者，所述音调周期波形的数目可被增加(持续时间可被改变)。此后，可以将在所述片段中或片段之间相邻的任何音调周期波形拼接在一起，以生成合成语音。

如前所述，在本实施例中，对于选择多个语音单元的语音合成方法，选择N个语音单元以用于语音单元融合，并选择M(N≤M)个语音单元以得到所述功率信息。然后校正所述融合语音单元的功率信息，使其等于所述M个语音单元的平均功率信息。于是，所得到的合成语音听起来自然，且具有较少的语音单元拼接的不连续性。

4.变型例

4-1.变型例1

在以上实施例中，校正融合语音单元的功率信息，使其等于所述M个语音单元的平均功率信息。这并不是限制性的，也可以预先校正所述N个语音单元的功率信息，使其等于所述M个语音单元的平均功率信息，并可将作为结果的已校正的N个语音单元融合在一起。

如果是这种情况，所述融合语音单元生成部分25进行图16所示处理。即，在步骤S161中，所述融合语音单元生成部分25利用所述等式(6)和(7)计算所述M个语音单元的平均功率信息。在步骤S162中，所述N个语音单元均被校正以具有所述功率平均值P_ave，并且在步骤S163中，将作为结果的已校正的语音单元融合在一起，以生成融合语音单元。

4-2.变型例2

在以上实施例中，校正融合语音单元的功率信息，使其等于所述M个语音单元的平均功率信息。或者，可以获得用于功率信息校正的比率。在这种情况下，首先分别为所述M个语音单元和N个语音单元获得所述平均功率信息。然后，计算比率以使得所述N个语音单元的平均功率信息等于所述M个语音单元的平均功率信息。然后将作为结果的比率与所述N个语音单元中的每一个相乘，从而校正所述N个语音单元。融合这种已校正的N个语音单元可生成融合语音单元。

在这种情况下，如图23所示，所述融合语音单元生成部分26经过步骤231到235以生成融合语音单元。更具体地，在步骤S231中，利用所述等式(6)和(7)，为所述M个语音单元计算所述平均功率信息P_ave。类似地，在步骤S232中，为所述N个语音单元计算所述平均功率信息P_f。在步骤S233中，从所述计算的平均功率信息P_f和P_ave，利用所述等式(8)计算所述比率r。然后，在步骤S234中，将所述N个语音单元均乘以所述比率r以进行校正。在步骤S235中，融合这种已校正的N个语音单元，从而生成融合语音单元。

4-3.变型例3

此外，在本实施例中，假设所述功率信息为由所述等式(6)表示的均方值。如果假设所述功率信息为绝对平均振幅值，替代等式(6)，可使用如下等式(10)，并且，作为所述等式(8)的替代，可使用绝对平均振幅比率。

A_{i} = \frac{1}{T} Σ_{t = 1}^{T} | S_{i} (t) | \cdot \cdot \cdot (10)

r = \frac{A_{ave}}{A_{f}} \cdot \cdot \cdot (11)

这使得可以不需进行平方根计算，并可仅通过整数操作进行计算。

4-4.变型例4

在图8的步骤S83和图16的步骤S162中，即，在校正融合或选中的语音单元的功率信息的步骤中，仅当由所述等式(8)和(11)得到的所述校正比率r小于1.0时，才对所述功率信息进行校正。这是为了将所述功率信息仅放在向下路径上，从而有利于防止噪声分量被在所述语音单元中放大。

(第二实施例)

接下来描述第二实施例的融合语音单元生成部分25。

图17示出了由第二实施例的融合语音单元生成部分25执行的处理。

在第二实施例中，M(M＞0)条功率信息的统计量被用于确定所述等式(9)中用于所述融合语音单元的权重w_i。

在图17的步骤S171中，计算在所述多语音单元选择部分24选中的所述M个语音单元的功率信息的均值和方差。

然后，所述程序进行到步骤S172，计算用于语音单元融合的所述N个语音单元的功率信息的似然。利用高斯分布的假设，由如下等式(12)计算所述似然。

p (P_{i} | μ, σ^{2}) = \frac{1}{\sqrt{2 πσ}} \exp [- \frac{{(P_{i} - μ)}^{2}}{2 σ^{2}}] \cdot \cdot \cdot (12)

在步骤S173中，由等式(12)得到的所述似然p(P_i|μ，σ²)，(1≤i≤N)被标准化，并且所述结果被视为所述等式(9)中进行语音单元融合时的权重w_i。

w_{i} = \frac{p (P_{i} | μ, σ^{2})}{Σ_{j = 1}^{N} p (P_{j} | μ, σ^{2})} \cdot \cdot \cdot (13)

然后，在步骤S174中，利用前述单元融合方法将所述N个语音单元融合在一起，并生成融合语音单元。根据图9的数据，所述均值μ＝1647083，而所述标准偏差σ＝979927。所述似然为p(P₁|μ，σ²)＝1.89*10^-7，p(P₂|μ，σ²)＝3.52*10^-7，以及p(P₃|μ，σ²)＝1.81*10^-8。并且，所述权重为w₁＝0.34，w₂＝0.63，以及w₃＝0.03。

同样，所述用于单元融合的N个语音单元中的每一个的功率信息被加权，当其靠近从所述M个语音单元的所述功率信息得到的分布平均值的范围时，权重较大，当其落在所述范围之外时，权重越小。因此，在所述选中的语音单元中，在所述片段中功率信息落在平均值范围之外的任何语音单元都被赋以较小的权重，从而有益于即使在单元融合之后，也能防止声音质量的损失。

此外，作为用于单元融合的权重近似，在所述M个语音单元的功率信息的分布中，当所述N个语音单元中的任何一个具有落在预定概率区域之外的功率信息时，则所述权重被设置为0。使得剩余语音单元的权重相等，并将其融合在一起。图18示出了此处理。在步骤S181中，对所述选中的M个语音单元的功率信息进行计算，以得到其均值和标准偏差。在步骤S182中，获得在其中所述功率信息呈现预定概率的区域。例如，对于(μ-1.96σ＜P_i＜μ+1.96σ)的区域，P_i落入该区域的概率为95％。

在步骤S183中，如上所述，将落于所述区域之外的语音单元去除。为了去除这种语音单元，将用于这种落于所述区域之外的语音单元的权重w_i设置为0。

在步骤S184中，剩余的语音单元被融合在一起，从而得到融合语音单元。对于图9的数据，所述区域为(-273573＜P_i＜3567739)，而P₃＝4091979，其落于此区域之外。于是，用w₁＝0.5、w₂＝0.5及w₃＝0进行语音单元融合，以去除任何落于所述区域之外的语音单元。以上技术并不是用于这种区域的确定的唯一选择，基于四分位间距进行统计的技术也是可能的选择。

例如，通过功率分选，在3/4功率值(上四分位)和1/4功率值(下四分位)之间的差被称为四分位间距。将所述四分位间距乘以常数，如1.5，所得到的值，被从下四分位的功率值中减去。将所述四分位间距乘以常数所得到的值加给上四分位的功率值。这两个值之间的范围被定义为一个区域，任何落于此区域之外的值均被认为是错误值。

在本发明中，当为特定片段选择的最好的N个语音单元的功率信息落于这种区域之外时，赋给所述语音单元的所述权重被减小以用于单元融合，或者，在单元融合之前，去除所述语音单元。于是，有利于使得所得到的合成语音声音自然，并且，没有通常因合成功率信息变化的语音单元而引起的声音质量的损失。在所述第一实施例的融合中，可以以所述第二实施例的方式来确定用于语音单元融合的权重，并可以以所述第一实施例的方式来校正所述功率信息。

(第三实施例)

在第三实施例中，利用选择语音单元的语音单元合成方法，校正最佳选择的语音单元的功率信息，使其等于多个语音单元的平均功率信息。与所述第一和第二实施例相比较，其差别在于在处理中不执行语音单元融合。

1.语音合成部分14的结构

图19为框图，示出了第三实施例的语音合成部分14的示例性的结构。

所述语音合成部分14被配置为包括语音单元存储部分191，音素环境存储部分192，音素序列/韵律信息输入部分193，多语音单元选择部分194，语音单元生成部分195，语音单元修改/拼接部分195，以及语音波形输出部分15。

1.语音单元存储部分191

类似于所述第一实施例，所述语音单元存储部分191存储作为数据库分析的结果的语音单元，且所述音素环境存储部分192存储所述语音单元的每一个的音素环境。

2.多语音单元选择部分193

对于所述输入音素序列的合成单元的每一个，所述多语音单元选择部分193估计在所述语音单元的所述音素环境中的韵律信息与所述输入韵律信息相比的失真级别。以最小化所述失真级别的方式，所述多语音单元选择部分193从存储在所述语音单元存储部分191中的语音单元中选出多个语音单元以及最佳语音单元。如图20所示，可基于前述代价函数来选择所述多个语音单元。相比图6所示的处理，其差异在于，仅选择最佳语音单元，而不是选择所述最好的N个语音单元。于是，对应于作为所述输入音素序列的音素符号序列中的各片段，选择M个语音单元(M＞0)，以及最佳语音单元。

3.语音单元生成部分195

接下来描述语音单元生成部分195。

在所述语音单元生成部分195中，校正由所述多语音单元选择部分194选择的所述最佳语音单元的功率信息，从而生成用于语音合成的语音单元。

图21示出了由所述语音单元生成部分195执行的处理。

首先，在步骤S211中，为所选中的M个语音单元(1≤i≤M)中的每一个计算所述功率信息P_i，然后，计算平均功率信息P_ave。类似于所述第一实施例，用等式(6)和(7)进行这些计算。在步骤S212中，校正所述最佳语音单元的功率信息P₁，使其等于在步骤S211中为所述M个语音单元计算的所述平均功率信息P_ave。在此例中，用于功率信息校正的比率r通过如下等式(14)计算：

r = \sqrt{\frac{P_{ave}}{P_{1}}} \cdot \cdot \cdot (14)

通过将此比率r乘到所述最佳语音单元，来校正所述功率信息。

在图9的数据中，所述M个语音单元的所述平均功率信息P_ave为1647084，所述最佳语音单元的功率信息P₁为2859883，而所述比率r为0.76。通过将此比率r乘到所述最佳语音单元的语音波形，可以校正所述功率信息。

4.语音单元修改/拼接部分196

在所述语音单元修改/拼接部分196中，通过依据所述输入韵律信息修改和拼接所述语音单元来生成用于合成语音的语音波形。具体地，可以通过以所述语音单元具有与所述输入韵律信息中的目标语音的基频和音素持续时间相同的基频和音素持续时间的方式，拼接从语音单元中提取的音调周期波形来生成语音波形。

如前所述，在本实施例中，利用选择语音单元的语音合成方法，可校正任何选中的语音单元，使其具有所述M个语音单元的平均功率信息。如此，成功地获得功率稳定且具有很好声音质量的合成语音。

5.变型例

类似于所述第二实施例，所述M个语音单元的功率信息可用于获得这样的区域，并且可在此得到的区域中选择最佳语音单元。

如果是这种情况，所述语音单元生成部分195进行如图22所示的处理。

在步骤S221中，计算所述M个语音单元的功率信息的均值和标准偏差。在步骤S222中，得到在其中所述功率信息具有预定概率的区域。

在步骤S223中，如果第1位置语音单元的功率信息P₁在所述区域中，使用该语音单元。如果在所述区域中没有找到这样的功率信息，则确定是否所述区域涵盖第2位置语音单元的功率信息P₂。重复此处理，直到从功率信息位于所述区域内的那些语音单元中找到呈现出最小代价的语音单元。如此，当任何较高次序的语音单元具有变化的功率信息时，对应的语音单元被当作离群的而去除。因此，可从剩余的非离群的语音单元中选择最佳语音单元。或者，同样可以校正所选中的最佳语音单元的功率信息，使其等于所述M个语音单元的平均功率信息。

同样，在所述语音单元修改/拼接部分196中修改和拼接选择的语音单元，从而得到合成语音。

类似所述第一实施例，可用所述绝对平均振幅值替换所述平均功率信息。

同样类似于所述第一实施例，校正所述功率信息仅将其置于向下路径上。因此，在校正最佳语音单元的功率信息的图21的步骤S212中，仅当所述校正比率r小于1.0时，校正所述功率信息。这可以防止任何噪声分量被在所述最佳语音单元中放大。

此外，在本发明的各个实施例和附图中，日语只是作为用于说明所述语音合成部分14的处理的例子，该处理对于其它语言同样适用。在其它语言的情况下，存储在所述语音单元存储部分21中的语音单元的种类(音素的种类)与所述语言相对应，并且存储在所述音素环境存储部分22中的音素环境的信息也相应地改变。然而，所述多语音单元选择部分24、所述融合语音单元序列生成部分25以及所述融合语音单元修改/拼接部分26所作的处理同样适用于不同的语言。

Claims

1.一种语音合成系统，其通过将从输入文本得到的音素序列分割成预定的合成单元，以及通过拼接对应于所述合成单元的每一个生成的代表性语音单元，来产生合成语音，所述系统包括：

存储器，其被配置为存储对应于所述合成单元的多个语音单元；

选择器，其被配置为基于所述合成语音的失真级别，对于从所述输入文本得到的所述音素序列的所述合成单元的每一个，从存储在所述存储器中的所述语音单元中选择多个语音单元；

代表性语音单元生成器，其被配置为通过计算来自所述语音单元的功率信息的统计量，以及通过基于所述功率信息的所述统计量校正所述功率信息以提高所述合成语音的声音质量，来生成对应于所述合成单元的所述代表性语音单元；以及

语音波形生成器，其被配置为通过拼接所述生成的代表性语音单元来产生语音波形。

2.根据权利要求1的语音合成系统，其中，

所述选择器分别选择N个语音单元和M个语音单元，其中N≤M，并且

所述代表性语音单元生成器

从所述选中的M个语音单元计算功率信息的平均值，

通过将所述选中的N个语音单元融合在一起来生成融合语音单元，以及

通过校正所述融合语音单元的功率信息，使其等于从所述M个语音单元计算的所述功率信息的所述平均值，来生成所述代表性语音单元。

3.根据权利要求1的语音合成系统，其中，

所述代表性语音单元生成器

从所述选中的M个语音单元计算功率信息的平均值，

校正所述选中的N个语音单元中每一个的功率信息，使其等于所述功率信息的所述平均值，以及

通过融合所述已校正的N个语音单元来生成所述代表性语音单元。

4.根据权利要求1的语音合成系统，其中，

所述代表性语音单元生成器

计算所述选中的M个语音单元的功率信息的平均值，

计算所述选中的N个语音单元的功率信息的平均值，

计算校正值，该校正值用于校正所述N个语音单元的所述功率信息的所述平均值，使之等于所述M个语音单元的所述功率信息的所述平均值，

通过使用所述校正值来校正所述N个语音单元中的每一个，以及

5.根据权利要求1的语音合成系统，其中，

所述代表性语音单元生成器

从所述选中的M个语音单元计算功率信息的统计量，

计算所述选中的N个语音单元的每一个的功率信息，

基于所述功率信息的所述已计算的统计量和所述N个语音单元的所述功率信息，确定所述N个语音单元的每一个的权重，以及

通过基于所述权重融合所述N个语音单元来生成所述代表性语音单元。

6.根据权利要求1的语音合成系统，其中，

所述代表性语音单元生成器

从所述选中的M个语音单元的功率信息的统计量，计算这样的区域，在其中所述功率信息的分布等于或高于预定概率，或者在其中所述功率信息是适当的，

计算所述选中的N个语音单元中每一个的功率信息，

当所述N个语音单元中任何一个的所述功率信息不在所述区域中时，从所述选中的语音单元去除该单元，以及

通过在去除后融合所述选中的语音单元来生成所述代表性语音单元。

7.根据权利要求1的语音合成系统，其中，

所述选择器选择M个语音单元，以及呈现出较少的所述合成语音的失真的最佳语音单元，并且

所述代表性语音单元生成器

从所述选中的M个语音单元计算功率信息的平均值，以及

通过校正所述最佳语音单元的功率信息，使其等于所述功率信息的所述平均值，来生成所述代表性语音单元。

8.根据权利要求1的语音合成系统，其中，

所述选择器选择M个语音单元，并且

所述代表性语音单元生成器

从所述选中的M个语音单元的功率信息的统计量，计算这样的区域，在其中所述功率信息的分布等于或高于预定概率，或者在其中所述功率信息是适当的，以及

通过从具有处于所述功率信息的所述区域内的所述功率信息的所述语音单元中选择呈现出较小的所述合成语音的失真的最佳语音单元，来生成所述代表性语音单元。

9.根据权利要求2的语音合成系统，其中，

仅当通过融合所述N个语音单元所得到的所述融合语音单元的所述功率信息大于从所述M个语音单元计算的所述功率信息的所述平均值时，校正所述融合语音单元，使得所述融合语音单元的所述功率信息等于所述功率信息的所述平均值。

10.根据权利要求3的语音合成系统，其中，

仅当所述N个语音单元中每一个的所述功率信息大于从所述M个语音单元计算的所述功率信息的所述平均值时，校正所述语音单元，使得所述N个语音单元中每一个的所述功率信息等于所述功率信息的所述平均值。

11.根据权利要求4的语音合成系统，其中，

仅当所述N个语音单元的所述功率信息的所述平均值大于所述M个语音单元的所述功率信息的所述平均值时，计算校正值以进行校正，使得所述N个语音单元的所述功率信息的所述平均值等于所述M个语音单元的所述功率信息的所述平均值，并且将所述校正值应用于所述N个语音单元。

12.根据权利要求7的语音合成系统，其中，

仅当所述选中的最佳语音单元的所述功率信息大于从所述M个语音单元计算的所述功率信息的所述平均值时，校正所述最佳语音单元的所述功率信息。

13.根据权利要求1到12中至少一个的语音合成系统，其中，

所述功率信息为所述语音波形的均方值或绝对平均振幅值。

14.一种语音合成方法，将从输入文本得到的音素序列分割成预定的合成单元，以及通过拼接从所述合成单元的每一个提取的代表性语音单元，来产生合成语音，所述方法包括如下步骤：

存储对应于所述合成单元的多个语音单元；

基于所述合成语音的失真级别，对于从所述输入文本得到的所述音素序列的所述合成单元的每一个，从在所述存储步骤中存储的所述语音单元中选择多个语音单元；

通过计算来自所述语音单元的功率信息的统计量，以及通过基于所述功率信息的所述统计量校正所述功率信息，来生成对应于所述合成单元的所述代表性语音单元，以提高所述合成语音的声音质量；以及

通过拼接所述生成的代表性语音单元来产生语音波形。