CN104392716B

CN104392716B - 高表现力的语音合成方法和装置

Info

Publication number: CN104392716B
Application number: CN201410645715.2A
Authority: CN
Inventors: 李秀林; 贾磊; 康永国
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2017-10-13
Anticipated expiration: 2034-11-12
Also published as: CN104392716A

Abstract

本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括：将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音，包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。

Description

高表现力的语音合成方法和装置

技术领域

本发明实施例涉及文语转换技术领域，尤其涉及一种高表现力的语音合成方法和装置。

背景技术

语音是人机交流最习惯、最自然的方式。将文字输入转成语音输出的技术称为文语转换(Text-to-Speech,TTS)或语音合成技术。它涉及声学、语言学、数字信号处理多媒体技术等多个领域，是中文信息处理领域的一项前沿技术。

由于合成语音的声学参数大都服从高斯分布，所以利用高斯声学模型来生成合成语音的声学参数，进而产生合成语音。图1示出了现有技术提供的基于高斯声学模型的语音合成系统的信号流。参见图1，所述语音合成系统从模型库中选择一个高斯声学模型101，并基于选择的该高斯声学模型生成声学参数102，进而合成语音。由于语音合成音库的规模往往只有几千到几万句的规模，为了避免过训练，声学模型决策树的叶子节点模型，只能表现统计意义的声学参数，难以区分细致的上下文所带来的差异，因而，造成了合成语音平淡乏味，自然度不高。

发明内容

有鉴于此，本发明实施例提出一种高表现力的语音合成方法和装置，以提高合成语音的自然度。

第一方面，本发明实施例提供了一种高表现力的语音合成方法，所述方法包括：

将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；

根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；

根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。

第二方面，本发明实施例提供了一种高表现力的语音合成装置，所述装置包括：

上下文获取模块，用于将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；

高斯声学模型选取模块，用于根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；

语音合成模块，用于根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。

本发明实施例提供的高表现力的语音合成方法和装置，通过将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文，根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型，根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音，从而应用维特比算法从组成高斯混合声学模型的多个分量中选取一个高斯声学模型来生成声学参数，提高了合成语音的自然度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是现有技术提供的基于高斯声学模型的语音合成系统的信号流示意图；

图2是本发明第一实施例提供的高表现力的语音合成方法的流程图；

图3是本发明第二实施例提供的高表现力的语音合成方法的流程图；

图4是本发明第二实施例提供的基于高斯声学模型的语音合成系统的信号流示意图；

图5是本发明第三实施例提供的高表现力的语音合成方法中高斯混合声学模型训练的流程图；

图6是本发明第四实施例提供的高表现力的语音合成方法中高斯声学模型选取的流程图；

图7是本发明第四实施例提供的最佳路径的示意图；

图8是本发明第五实施例提供的高表现力的语音合成装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图2示出了本发明的第一实施例。

图2是本发明第一实施例提供的高表现力的语音合成方法的流程图。参见图2，所述高表现力的语音合成方法包括：

S210，将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文。

语音合成系统的任务是通过对用户的输入文本进行处理，合成所述输入文本对应的语音。所述语音由一系列前后依次排列的音子组成。比如，输入文本“小明喜欢读书”就包含音子“x”以及音子“iao”。由不同的音子按照前后顺序依次排列而形成的序列被称为音子序列。

所述音子序列中的每个音子又由多个状态组成。每个状态可以具体表征为不同的声学参数。优选的，所述声学参数包括：基频、谱特征以及时长中的至少一个。

所述音子包含的每个状态都处于一定的上下文当中。所述状态的上下文是指输入文本中包含的状态在所述音子序列中所处的上下文环境。它可以是在所述输入文本对应的状态序列中所述状态前方的若干个状态，以及在所述输入文本对应的状态序列中所述状态后方的若干个状态，以及相邻音子、音节、声调、韵律位置等上下文信息。可以理解的是，由于所处的语境不同，相同的状态在不同的上下文中会所体现的声学参数会具有不同的概率分布，也即相同的状态在不同的上下文中会对应于不同的高斯概率分布。

S220，根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型。

所述声学参数通常服从高斯分布，也就是正态分布。因此，可以使用高斯声学模型来表征所述声学参数的这种随机分布特征。进一步的，为了更为形象的表征所述声学参数的随机分布特征，本实施例使用高斯混合声学模型来表征所述声学参数的随机分布特征。

所述高斯混合声学模型具有至少两个分量，并且每个分量相互独立，都服从高斯分布。也就是说，每个分量都是一个独立的、服从高斯分布的随机变量。所述分量具有自己独立的均值和方差。而且，所述分量在所述高斯混合声学模型中具有自己对应的加权值。也就是说，每个分量都是一个独立的高斯声学模型。

示例的，所述状态序列中的第n个状态对应的高斯混合声学模型具有如下形式：

其中，π_k是所述高斯混合声学模型的第k个分量的加权值，u_k是所述高斯混合声学模型的第k个分量的均值，θ_k是所述高斯混合声学模型的第k个分量的方差，N(x；u_k,θ_k)是所述高斯混合声学模型的第k个分量的概率密度函数。应当理解，N(x；u_k,θ_k)是服从高斯分布的概率密度函数。也就是说，N(x；u_k,θ_k)满足：

现有的语音合成系统都依据一个高斯声学模型来生成声学参数。由于在本实施例中为每个状态设置了一个高斯混合声学模型，因此在生成声学参数之前，可以从所述高斯混合声学模型的各个分量对应的高斯声学模型中选择一个，作为最终生成声学参数的高斯声学模型。

在本实施例中，依据维特比算法从所述高斯混合声学模型中选取最终用于生成声学参数的高斯声学模型。

S230，根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。

选取了用于生成声学参数的高斯声学模型之后，根据所选择的高斯声学模型生成声学参数，也就是根据所选择的高斯声学模型生成基频、谱特征以及时长。生成了所述基频、谱特征以及时长以后，根据生成的基频、谱特征以及时长生成合成语音。

优选的，根据生成的基频、谱特征以及时长合成语音包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。

本实施例通过对输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文，根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型，根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音，从而提高了合成语音的自然度。

图3及图4示出了本发明的第二实施例。

图3是本发明第二实施例提供的高表现力的语音合成方法的流程图。所述高表现力的语音合成方法以本发明第一实施例为基础，进一步的，在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，还包括：训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树；为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型；统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。

参见图3，所述高表现力的语音合成方法包括：

S310，训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树。

在语音合成阶段，对于同一个状态在不同上下文对应的高斯混合声学模型是根据决策树来获取的。由于在语音合成阶段所述状态的上下文是与所述语料库中的上下文相对应的，所以可以在语音合成阶段之前，根据语料库中不同的上下文训练所述语料库中不同上下文中对应的高斯混合声学模型的决策树。

训练所述决策树时，选取所述上下文的特定属性作为所述决策树上的节点，利用所述节点将所述上下文进行数据集划分，得到所述决策树。

优选的，可以根据决策树聚类算法训练所述决策树。

S320，为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型。

所述语料库是提取用于合成语音的声学参数，以及训练声学模型而建立的，包含语料数据的数据库。优选的，所述语料库中存储有预先收集的语音片段，以及这些语音片段对应的输入文本。

所述语料库中存储的语音片段也包含有相应的音子序列。所述音子序列由不同的音子组成，而每个音子又包含不同的状态。

在根据输入文本生成合成语音之前，对所述音子包含的状态训练高斯混合声学模型。所述高斯混合声学模型包括至少两个高斯声学模型。并且，对于在不同上下文中的音子包含的状态，应该训练不同的高斯混合声学模型。

S330，统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。

在利用维特比算法对生成声学参数的高斯声学模型进行选择时，需要从所述组成所述高斯混合声学模型的各个分量中选择一个分量，也就是从所述高斯混合声学模型中选择一个高斯声学模型，来生成声学参数。在模型选取的过程中，需要使用在对应于不同状态的高斯声学模型之间跳转的转移概率，因此，在语音合成之前，需要对所述语料库中在不同的上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。

在转移概率统计中，所统计的是从一个状态所对应的高斯混合声学模型中各个高斯声学模型到相邻状态的高斯混合声学模型中各个高斯声学模型的转移概率。在统计这个值时，所述高斯混合声学模型已经根据决策树选定，所以只需要统计相邻高斯混合声学模型中各个分量之间的转移概率。转移概率统计的步骤是在决策树和高斯混合声学模型都已经完成的基础上进行的。

S340，将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文。

S350，根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型。

S360，根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。

图4是本发明第二实施例提供的基于高斯声学模型的语音合成系统的信号流示意图。参见图4，相对于现有技术，所述基于高斯声学模型的语音合成系统在语音合成阶段不再是基于单个高斯声学模型的语音合成，而是先基于预先训练的决策树选取用于声学参数生成的高斯混合声学模型401。所选择的高斯混合声学模型与音子序列中音子包含的状态相对应。然后，再利用维特比算法从所述高斯混合声学模型的各个分量，也就是高斯声学模型中选取最终用于生成声学参数的高斯声学模型402。

本实施例通过在将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文之前，为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型，训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树，以及统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率，使得根据输入文本进行语音合成之前，针对不同状态训练了不同的高斯混合声学模型，并训练了获取所述高斯混合模型的决策树，为高表现力的语音合成提供了应用基础。

图5示出了本发明的第三实施例。

图5是本发明第三实施例提供的高表现力的语音合成方法中高斯混合声学模型训练的流程图。所述高表现力的语音合成方法以本发明第二实施例为基础，进一步的，为不同上下文中的音子序列中各个音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型包括：对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值；将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型。

参见图5，为不同上下文中的音子序列中各个音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型包括：

S321，对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值。

由于需要使用高斯混合声学模型来表示语料库中不同上下文的音子序列中音子包含的状态，所以，在为不同上下文中音子序列中各个音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型之时，首先对所述语料库中不同上下文的音子序列中音子包含的状态的语音进行统计。对所述语料库中不同上下文的音子序列中音子包含的状态的语音进行统计的目的在于获取所述语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值，也就是所述语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中各个分量的均值、方差以及对应的加权值。

S322，将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型。

统计得到所述语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型所包含的高斯声学模型的均值、方差以及对应的加权值之后，将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，并生成所述高斯混合声学模型。

本实施例通过对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不用上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值，并将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型，实现了在语音合成之前的高斯混合声学模型的训练。

图6及图7示出了本发明的第四实施例。

图6是本发明第四实施例提供的高表现力的语音合成方法中高斯声学模型选取的流程图。所述高表现力的语音合成方法以本发明的第二实施例为基础，进一步的，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型包括：根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型；将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值；将所述度量值最大的一条路径作为所述状态序列的最佳路径；通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。

参见图6，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型包括：

S351，根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型。

所述决策树是预先训练的，用于判定在特定上下文环境中应该采用哪个高斯混合声学模型的依据。优选的，所述决策树可以根据决策树聚类算法构建的。

在基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型之时，根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型。

优选的，根据已构建的决策树上各个节点的属性，按照所述决策树的分支获取所述状态对应的高斯混合声学模型。

S352，将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值。

所述合成语音由一系列的音子组成。该一系列的音子被称为音子序列。所述音子序列中包含有不同的音子，而每个音子又可以被划分为不同的状态。所以，所述合成语音可以看作是由一系列状态按照时间顺序组合而成的。

在本发明中，依据预先训练的决策树为所述状态的上下文选取了一个高斯混合声学模型。所述高斯混合声学模型是由多个高斯声学模型作为分量，并按照一定的加权值组合在一起而形成的声学模型。而直接用于生成声学参数的声学模型并不是高斯混合声学模型，而是依据所述状态的上下文，从组成所述高斯混合声学模型的多个高斯声学模型中选择的高斯声学模型。由于依据所述状态的不同的上下文环境而选择不同的高斯声学模型来生成声学参数，所以生成在声学参数的统计特征依据所述状态所在的上下文环境不同而适应性改变，因而生成的语音的自然度较高。

由于所述音子由不同的状态组成，而每个状态对应于一个由多个高斯声学模型组成的高斯混合声学模型，所以所述高斯声学模型的选择过程可以看作是从一组按照时间顺序排列的高斯声学模型中选取一条路径的过程。图7是本发明第四实施例提供的最佳路径的示意图。参见图7，将从按照时间顺序排列的各个高斯混合声学模型中选择的高斯声学模型依次连接，就形成了最佳路径701。

本发明依据维特比算法选取最佳路径。具体的，将各个高斯声学模型在其对应的高斯混合声学模型中的加权值作为所述维特比算法的节点度量，再将所述高斯声学模型之间的转移概率作为所述维特比算法的路径度量，对各条路径上的节点度量和路径度量进行求和，得到该条路径的度量值。

具体的，一条路径的度量值由下式给出：

其中，m(n)表示第n条路径的度量值；所述第n条路径包括K个节点以及K-1个路径段；p_i(n)表示所述第n条路径中第i个节点的节点度量；q_i(n)表示所述第n条路径中第i个路径段的路径度量。

进一步优选的，在计算一条路径的度量值时，可以对所述路径的节点度量和路径度量分别赋予不同的权重系数，并对所述节点度量和所述路径度量进行加权求和，来得到所述路径的度量值。

S353，将所述度量值最大的一条路径作为所述状态序列的最佳路径。

计算得到各条路径的度量值之后，对各条路径之间的度量值进行比较，选择度量值最大的一条路径为所述最佳路径。

S354，通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。

具体的，通过比较最后一个状态对应的各个节点的度量值，找到度量值最大的节点，通过逐一查找最佳前一相邻节点，可以最终找到对应最优路径的所有节点，完成所述路径回溯操作，从而获取到所述状态序列中各个状态对应的高斯声学模型。

本实施例通过根据所述决策树获取所述状态的上下文中所述状态对应的高斯混合声学模型，将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值，将所述度量值最大的一条路径作为所述状态序列的最佳路径，通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型，从而实现了语音合成阶段的高斯声学模型选取。

图8示出了本发明的第五实施例。

图8是本发明第五实施例提供的高表现力的语音合成装置的结构图。参见图8，所述高表现力的语音合成装置包括：上下文获取模块840、高斯声学模型选取模块850以及语音合成模块860。

所述上下文获取模块840用于将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文。

所述高斯声学模型选取模块850用于根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型。

所述语音合成模块860用于根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。

优选的，所述高表现力的语音合成装置还包括：决策树训练模块810、混合模型训练模块820以及转移概率统计模块830。

所述决策树训练模块810用于在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，训练用于获取语料库不同上下文对应的高斯混合声学模型的决策树。

所述混合模型训练模块820用于在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型。

所述转移概率统计模块830用于在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。

优选的，所述混合模型训练模块820包括：参数统计单元821以及模型生成单元822。

所述参数统计单元821用于对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不同上下文的音子序列中音子包含的状态的均值、方差以及对应的加权值。

所述模型生成单元822用于将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型。

优选的，所述高斯声学模型选取模块850包括：混合模型获取单元851、度量值求解单元852、最佳路径获取单元853以及路径回溯单元854。

所述混合模型获取单元851用于根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型。

所述度量值求解单元852用于将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值。

所述最佳路径获取单元853用于将所述度量值最大的一条路径作为所述状态序列的最佳路径。

所述路径回溯单元854用于通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。

优选的，所述声学参数包括：合成语音的基频、谱特征以及时长中的至少一个。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高表现力的语音合成方法，其特征在于，包括：

训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树；

对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值，将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型；

统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率；

根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型，所述高斯混合声学模型包含至少两个分量，每一个分量相互独立并服从高斯分布，每一个分量是一个独立的高斯声学模型，将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值，将所述度量值最大的一条路径作为所述状态序列的最佳路径，通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型；

2.根据权利要求1所述的方法，其特征在于，所述声学参数包括：合成语音的基频、谱特征以及时长中的至少一个。

3.一种高表现力的语音合成装置，其特征在于，包括：

决策树训练模块，用于训练用于获取语料库不同上下文对应的高斯混合声学模型的决策树；

混合模型训练模块，所述混合模型训练模块包括：参数统计单元，用于对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值；模型生成单元，用于将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型；

转移概率统计模块，用于统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率；

语音合成模块，用于根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音；

其中，所述高斯声学模型选取模块包括：

混合模型获取单元，用于根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型，所述高斯混合声学模型包含至少两个分量，每一个分量相互独立并服从高斯分布，每一个分量是一个独立的高斯声学模型；

度量值求解单元，用于将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值；

最佳路径获取单元，用于将所述度量值最大的一条路径作为所述状态序列的最佳路径；

路径回溯单元，用于通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。

4.根据权利要求3所述的装置，其特征在于，所述声学参数包括：合成语音的基频、谱特征以及时长中的至少一个。