CN109313891B

CN109313891B - 用于语音合成的系统和方法

Info

Publication number: CN109313891B
Application number: CN201780037307.0A
Authority: CN
Inventors: 张辉; 李秀林
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2023-02-21
Anticipated expiration: 2037-05-16
Also published as: TWI721268B; US20200082805A1; CN109313891A; WO2018209556A1; TW201901658A

Abstract

本申请公开了基于文本生成语音的系统和方法。该方法包括：从文本中识别多个音素(210)；对每个识别的音素，确定第一组声学特征(230)；基于第一组声学特征中的至少一个声学特征，从语音数据库中选择与每个识别的音素相应的样本音素(250)；对所述每个选择的样本音素，确定第二组声学特征(270)；以及利用生成模型，基于所述第二组声学特征中的至少一个声学特征，生成语音(290)。

Description

用于语音合成的系统和方法

技术领域

本申请涉及到语音合成，更具体地，涉及基于单元选择和基于模型的语音生成来从文本中合成语音的系统和方法。

背景技术

文本-语音系统可以将各种文本转换成语音。通常，文本-语音系统可以包括前端部分和后端部分。前端部分可以包括文本规范化和文本与音素的转换，也就是将原始文本转换成与其等同的书写单词，将拼音转换给每个单词，并将文本划分、标记为韵律单元，例如，短语、短句和句子。前端部分可以将语音转录和韵律信息作为符号语音输出到后端部分。然后，后端部分基于合成方法，例如统计参数合成或拼接合成方法将符号语言数据转化为声音。

统计参数合成方法可以从文本中获得音素的特征，并通过训练的机器学习模型来预测每个音素的音素持续时间、基频和频谱。然而，预测的音素持续时间、基频和频谱可能会被统计方法过度平滑，导致合成语音严重失真。另一方面，连接合成方法，例如单元选择合成(USS)，可以从数据库中选择并连接语音单元。然而，单元选择方法经常在连接处经历“跳跃”，导致语音不连续和不自然。因此，需要一种文本-语音合成系统来生成质量提高的语音。

本申请的实施例提供一种改进语音合成的系统和方法，该系统和方法可以同时运用基于语音数据库的单元选择和基于模型的语音生成。

发明内容

本申请的一个方面是关于一种基于文本生成语音的计算机实施方法。该方法包括：从所述文本中识别多个音素；对每个识别的音素，确定第一组声学特征；基于所述第一组声学特征中的至少一个声学特征，从语音数据库中选择与所述每个识别的音素相对应的样本音素；对所述每个选择的样本音素，确定第二组声学特征；以及利用生成模型，基于所述第二组声学特征中的至少一个声学特征，生成语音。

本申请的另一方面是关于一种用于基于文本生成语音的语音合成系统。语音合成系统包括存储装置，被配置为存储语音数据库和生成模型。语音合成系统还包括处理器，该处理器被配置为：从所述文本中识别多个音素；对每个识别的音素，确定第一组声学特征；基于所述第一组声学特征中的至少一个声学特征，从语音数据库中选择与所述每个识别的音素相对应的样本音素；对所述每个选择的样本音素，确定第二组声学特征；以及利用生成模型，基于所述第二组声学特征中的至少一个声学特征，生成语音。

本申请的另一方面是关于一种存储一组指令的非暂时性计算机可读介质，所述一组指令由至少一个处理器执行时，所述可执行指令使所述至少一个处理器执行从文本生成语音的方法。该方法包括：从所述文本中识别多个音素；对每个识别的音素，确定第一组声学特征；基于所述第一组声学特征中的至少一个声学特征，从语音数据库中选择与所述每个识别的音素相对应的样本音素；对所述每个选择的样本音素，确定第二组声学特征；以及利用生成模型，基于所述第二组声学特征中的至少一个声学特征，生成语音。

应当理解的是，以上描述只是示例性的，不应被视为是对本申请的公开范围的限制。

附图说明

图1是根据本申请的一些实施例所示的一种示例性语音合成系统。

图2是根据本申请的一些实施例所示的一种同时基于选择的和预测的语音参数，合成语音的示例性流程的流程图。

图3是根据本申请的一些实施例所示的一种示例性语音合成系统框图。

具体实施方式

本申请以示例性的实施例的方式来进一步描述。这些示例性实施例参考至随附的图示而被详细地描述。在各种可能的情况下，其中相同的组件符号代表整个图式的数个视图的相似结构。

本申请主要针对基于文本转语音的系统和方法，用以生成高保真度的语音。在一些实施例中，语音合成系统包括合成部分和训练部分。所述合成部分可以包括从文本中识别多个音素的音素识别单元。所述合成部分可以进一步包括声学特征确定单元，该单元确定每个被识别的音素的一组声学特征。在一些实施例中，所确定的一组声学特征可以包括音素持续时间、基频、频谱或其任意组合。

所述合成部分可以进一步包括样本音素选择单元，该样本音素选择单元基于所确定的一组声学特征中的至少一个声学特征从语音数据库中选择与每个识别的音素对应的样本音素。在一些实施例中，所述样本音素选择单元可以被配置为选择语音数据库中存储的音素，所述被选择的音素与所识别音素的声学特征最接近。所述样本音素选择单元还可以被配置为每个被选择的样本音素确定更新的一组声学特征，并将所述更新的一组声学特征提供用于语音合成。在一些实施例中，所述更新的一组声学特征具有音素持续时间、基频、频谱或其任意组合的更新值。由于更新的一组声学特征是根据语音数据库中的真实音素来确定，它们比从文本中识别的音素直接估计的声学特征更准确和自然。因此，利用更新的声学特征可以提高合成语音的质量。

所述语音合成系统的训练部分可以包含多个语音样本的语音数据库。所述训练部分还可以包括特征提取单元，该特征提取单元可以提取语音数据库中的语音样本激励参数和频谱参数以训练生成模型。所述训练部分可以通过使用语音数据库中提取的语音样本的激励参数和频谱参数和训练样本的标签，来执行生成模型的训练流程。示例性激励参数可以包括基频、带通发声强度和/或傅立叶强度。示例性频谱参数可以包括线性预测编码(LPC)系数中的频谱包络和/或倒频系数。示例性标签可以包括上下文标签，例如前一个/当前/下一个音素标识、当前音素标识在当前音节中的位置、前一个/当前/下一个音节是否被强调/重音、前一个/当前/下一个音节中音素的数目、当前音节在当前词语/短语中的位置、当前短语中当前音节之前/之后的强调/重音音节的数量、从前一个/当前强调音节到当前/下一个音节的音节数量、从前一个重音/当前音节到当前/下一个重音音节的音节的数量、当前音节的元音的名称、前一个/当前/下一个单词的预测、前一个/当前/下一个单词/短语中的音节/单词的数量、在话语中的当前短语的位置，和/或在话语中的音节/单词/短语的数量。

在一些实施例中，训练流程可以被配置为通过多个谱的音素来训练生成模型。在一些实施例中，生成模型可以是隐马尔可夫模型(HMM)模型或神经网络模型。训练部分在训练后可以提供经过训练的生成模型，该模型用于基于文本的音素生成语音合成的参数。

通过训练的生成模型，语音合成系统可以基于更新的一组声学特征中的至少一个进一步生成语音。在一些实施例中，语音合成系统还可以包括文本特征提取，其确定每个识别的音素的一组文本特征。除了该组声学特征之外，还可以使用文本特征进一步提高语音合成质量。

图1是根据本申请的一些实施例所示的一种示例性语音合成系统。语音合成系统包括合成部分100和训练部分700。虽然图1描述了在一个系统内的语音合成部分100和训练部分700，可以推测合成部分和训练部分可以是独立系统的一部分。例如，训练部分700可以在服务器中实现，而合成部分100可以在通信连接到服务器的终端装置中实现。

在一些实施例中，合成部分100可以包括音素识别单元110、语音数据库120、声学特征确定单元130、样本音素选择单元150和语音合成单元170。

音素识别单元110可以被配置为识别文本中多个音素。例如，接收到文本后，音素识别单元110可以被配置为将包含诸如数字和缩写符号的文本转换成当它们被读出时的等同的书写单词。音素识别单元110也可以被配置为将语音转录分配给每个词。音素识别单元110还可以进一步配置为将文本划分为韵律单元，例如短语、短句和句子。因此，音素识别单元110可以被配置为识别文本中的多个音素。

声学特征确定单元130可以被配置为确定由音素识别单元110识别的每个音素的一组声学特征。例如，声学特征确定单元130可以被配置为每个识别的音素确定一组声学特征，包含音素持续时间、基频、频谱、音节中的位置和/或相邻音素。在一些实施例中，所确定的一组声学特征可以包括识别的音素的音素持续时间、基频、频谱或其任意组合。声学特征确定单元130还可以被配置为发送这组声学特征到音素选择单元150。

在获得所识别音素的确定的声学特征之后，样本音素选择单元150可以被配置为基于所确定的一组声学特征中的至少一个声学特征从语音数据库中选择与每个识别的音素对应的样本音素。例如，样本音素选择单元150可以被配置为基于音素持续时间、基频和音节中的位置来搜索和选择语音数据库120中的样本音素。语音数据库120可以包括从真人语音中获得的多个样本音素和这些样本音素的声学特征。

在一些实施例中，样本音素选择单元150可以被配置为选择语音数据库中存储的具有与所识别音素声学特征最相似特征的音素。例如，样本音素选择单元150可以被配置为选择语音数据库120中音素持续时间和基频与识别的音素的最相似的音素。在一些实施例中，样本音素选择单元150还可以被配置为对所确定的一组声学特征中的每一个进行加权处理，并根据加权结果选择相似度最佳的音素。加权比率基于每个声学特征对语音合成的影响来确定。

另外，样本音素选择单元150可以被配置为确定每个选择的样本音素的一组声学特征。例如，样本音素选择单元150在选择样本音素之后可以进一步配置为将所选样本音素的一组声学特征(例如，音素持续时间和基频)确定为用于语音合成的音素声学特征。在一些实施例中，所确定的一组声学特征可以包括所选样本音素的音素持续时间、基频、频谱或其任意组合。

训练部分700可以包括语音数据库720、特征提取单元730、训练单元740、生成模型760和参数生成单元780。语音数据库720可以包括记录的真人语音的多个语音样本。该语音样本可以在使用语音合成模型之前用于训练机器学习模型。

特征提取单元720可以被配置为提取样本语音中的特征参数。例如，特征提取单元720可以被配置为提取语音数据库720中的语音频谱参数和激励参数。在一些实施例中，特征提取单元720可以被配置为提取声学特征和/或语言特征。示例性声学特征可以包括基频和/或音素持续时间。示例性语言特征可以包括长度、语调、语法、重读、音调、发声和/或方式。

训练单元740可以被配置为使用多个样本语音训练生成模型。例如，训练单元740可以被配置为借由语音样本中获得的音素标签及其对应的特征提取单元730提取的激励参数和的频谱参数来训练生成模型。在一些实施例中，训练单元740可以被配置为训练基于HMM的生成模型，例如基于上下文的子词HMM模型和HMM和判定树的组合模型。在一些实施例中，训练单元720可以被配置为训练神经网络模型，例如前馈神经网络(FFNN)模型、混合密度网络(MDN)模型、递归神经网络(RNN)模型和Highway网络模型。

在一些实施例中，训练单元740可以被配置为通过多个音素谱来训练生成模型。例如，训练单元740可以被配置为从语音数据库720中获得的样本语音音素的频谱来训练生成模型760。在一些实施例中，与基于文本特征训练的生成模型相比，基于音素的频谱训练的生成模型760复杂度低且计算成本也较低。

一旦训练流程收敛，生成模型760可以包括训练的生成模型，该模型可以根据来自文本的音素的标签生成语音合成的预测参数。在一些实施例中，生成模型760可以包括训练的基于HMM的生成模型，例如经训练的依赖于上下文的子词HMM模型和经训练的HMM和判定树的组合模型。在一些实施例中，生成模型760可以包括训练的神经网络模型，例如经训练的FFNN模型、经训练的MDN模型、经训练的RNN模型和经训练的Highway网络模型。

参数生成单元780可以被配置为通过生成模型760，基于来自文本(未示出)的音素标签来生成预测参数以用于语音合成。所述生成的语音合成参数可以包括预测的语言特征和/或预测的声学特征。这些预测的语言特征和预测的声学特征可以被发送到语音合成单元170用于语音合成。

语音合成单元170可以被配置为从样本音素选择单元150获得针对每个选择的样本音素所确定的一组声学特征和从参数生成单元780中获得预测的语言和声学参数。语音合成单元170可以被配置为基于样本音素选择单元150所确定的一组声学特征中的至少一个来生成基于生成模型760的语音。换句话说，语音合成单元170可以被配置为在生成语音利用所选样本音素的声学特征，而不是利用参数生成单元780来预测的声学特征。所选取样本音素的这些声学特征是从真人语音的样本音素中提取。与来自参数生成单元780预测的声学特征相比，它们可以为语音合成提供真实且更准确的声学特征。预测的声学特征可能过度平滑，由于它们是由统计学训练的生成模型760生成的。

例如，语音合成单元170可以被配置为利用所述所选的样本音素的音素持续时间和基频，而不是预测音素持续时间和预测基频来生成语音。预测的音素持续时间和基频是统计参数，而不是真人语音参数。相应地，语音合成单元170可以生成更接近真人讲话的语音。

在一些实施例中，音素识别单元110可以被配置为将每个识别的音素划分成多个帧。音素识别单元110也可以被配置为确定每个帧的一组声学特征。样本音素选择单元150还可以被配置为基于帧的一组声学特征中的至少一个声学特征来选择多个样本音素。类似地，其他单元的操作可以基于帧来执行。

在一些实施例中，音素识别单元110还可以被配置为确定每个识别音素的一组文本特征。语音合成单元170可以进一步配置为基于所识别的音素的文本特征生成语音。例如，音素识别单元110可以进一步配置为确定所识别的每个音素的一组文本特征并发送该组文本特征到语音合成单元170。语音合成单元170可以被配置为基于该组文本特征和上述预测的语言特征和所选择的声学特征来生成语音。

在一些实施例中，语音合成单元170可以被配置为基于上述频谱参数生成语音，而不是基于当使用频谱参数训练生成模型时的文本特征。例如，当训练单元740通过语音数据库的样本语音提取的音素频谱训练生成模型760时，语音合成单元170可以被配置为基于样本音素选择单元150所选样本音素的频谱生成语音。

图2是根据本申请的一些实施例所示的一种同时基于所选和预测语音参数合成语音的示例性流程的流程图。

步骤210可以包括识别文本中的音素。在一些实施例中，步骤210识别文本中的音素可以包括识别文本中的多个音素。例如，步骤210识别文本中的音素可以包括转换含有符号，例如数字和缩写的文本为其等同的书写单词。步骤210识别文本中的音素还可以包括为每个单词分配拼音。步骤210识别文本中的音素可以包括将文本进一步划分、标记为韵律单元，例如短语、从句和句子。

步骤230可以包括确定经识别的音素的声学特征。在一些实施例中，步骤230确定声学特征可以包括确定步骤210中经识别的每个音素的一组声学特征。例如，步骤230确定声学特征可以包括为步骤210识别的每个音素确定一组声学特征，该组声学特征包含音素持续时间、基频、频谱、音节中的位置、和/或相邻音素。在一些实施例中，所确定的一组声学特征可以包括所确定的音素的音素持续时间、基频、频谱或其任意组合。

步骤250可以包括基于所确定的一组声学特征来选择与识别的音素相对应的样本音素。在一些实施例中，步骤250选择样本音素可以包括基于所确定的一组声学特征中的至少一个，从语音数据库中选择与每个识别的音素相对应的样本音素。例如，步骤250选择样本音素可以包括基于音素持续时间、基频和音节中的位置，从图1中所示的语音数据库120中选择样本音素。语音数据库120可以包括真人语音中获得的多个样本音素和这些样本音素的声学特征。

在一些实施例中，步骤250选择样本音素可以包括选择存储在语音数据库中的音素，所述被选的音素具有与所识别的音素相似度最高的声学特征。例如，步骤250选择样本音素可以包括选择语音数据库120中音素持续时间和基频与所识别音素的最接近的音素。步骤250选择样本音素可以包括对所确定的一组声学特征中的每一个声学特征进行加权，并根据加权结果选择相似度最高的一个。加权比率可以基于每个声学特征对语音合成的影响来确定。

步骤270可以包括确定所选样本音素的声学特征。在一些实施例中，步骤270确定所选样本音素的声学特征可以包括确定步骤250选择的每个样本音素的一组声学特征。例如，步骤270确定所选样本音素的声学特征可以包括确定步骤250中所选择的样本音素的一组声学特征，例如音素持续时间和基频，以作为语音合成用的音素的声学特征。在一些实施例中，所确定的一组声学特征可以包括所选样本音素的音素持续时间、基频、频谱或其任意组合。

步骤290可以包括基于所选择样本音素的声学特征和生成模型来生成语音。在一些实施例中，步骤290生成语音可以包括为步骤250获得的每个选择的样本音素获取所确定的一组声学特征，和从训练的生成模型获取预测的语言和声学参数。步骤290生成语音可以包括基于步骤250中确定的一组声学特征中的至少一个，通过训练的生成模型来生成语音。换而言之，步骤290生成语音可以包括在生成语音时，使用所选样本音素的语音特征，而不是使用预测的语音特征。这些所选样本音素的声学特征可以从中真人语音的样本音素中提取。与预测的声学特征相比，它们可以为语音合成提供真实的声学特征。预测的声学特征可能被过度平滑，由于它们是由统计学训练的生成模型生成的。

例如，步骤290生成语音可以包括通过使用所选样本音素的音素持续时间和基频，而不是使用预测的音素持续时间和预测的基频来生成语音。预测的音素持续时间和基频是统计参数，而不是来自真人语音的参数。因此，步骤290可以生成更类似真人的语音。

图3是根据本申请的一些实施例所示的一种示例性语音合成系统300。在一些实施例中，语音合成系统300可以包括内存310、处理器320、存储器330、I/O接口340和通信接口350。语音合成系统300的一个或多个组件可以被包含用于将文本转换成语音。这些组件可以被配置为在各个组件之间传输数据并发送或接收指令。

处理器320可以包括任何适当类型的通用或专用微处理器、数字信号处理器或微控制器。处理器320可以被配置为从文本中识别音素。在一些实施例中，处理器320可以被配置为从文本中识别多个音素。例如，处理器320可以被配置为将包含诸如数字和缩写等符号的文本转换为等同的书写单词。处理器320还可以被配置为将语音记录分配给每个单词。处理器320还可以被配置为将文本划分为韵律单元，诸如短语、从句和句子。

处理器320还可以被配置为给识别的音素确定声学特征。在一些实施例中，处理器320可以被配置为确定每个识别的音素的一组声学特征。例如，处理器320可以被配置为每个识别的音素确定一组声学特征，包含音素持续时间、基频、频谱、音节中的位置和/或相邻音素。在一些实施例中，所确定的一组声学特征可以包括识别的音素的音素持续时间、基频、频谱或其任何组合。

处理器320还可以被配置为基于确定的声学特征来选择与识别的音素相对应的样本音素。在一些实施例中，处理器320可以被配置为基于确定的一组声学特征中的至少一个，从语音数据库中选择与每个识别的音素对应的样本音素。例如，处理器320可以被配置为基于音素持续时间、基频和音节中的位置，来搜索并选择存储在内存310和/或存储器330中的语音数据库中的样本音素。语音数据库可以包括可以从真人语音中获得的多个样本音素和这些样本音素的声学特征。

在一些实施例中，处理器320可以被配置为选择存储在语音数据库中音素，所述被选的音素具有与所识别音素的声学特征相似度最高的声学特征。例如，处理器320可以被配置为选择语音数据库中音素持续时间和基频与识别的音素最接近的音素。在一些实施例中，处理器320可以被配置为对所确定的一组声学特征中的每一个进行加权并且根据加权结果来选择最相似的一个。加权比例可以基于每个声学特征对语音合成的影响来确定。

另外，处理器320可以被配置为确定所选样本音素的声学特征。在一些实施例中，处理器320可以被配置为确定每个选择的样本音素的一组声学特征。例如，处理器320可以被配置为确定所选择的样本音素的一组声学特征(诸如音素持续时间和基频)，以作为用于语音合成的音素的声学特征。在一些实施例中，所确定的一组声学特征可以包括所选样本音素的音素持续时间、基频、频谱或其任何组合。

此外，处理器320可以被配置为基于所选样本音素的声学特征，使用生成模型来生成语音。在一些实施例中，处理器320可以被配置为每个选择的样本音素获取所确定的一组声学特征，以及从训练的生成模型获取预测的语言和声学参数。处理器320可以被配置为基于一组确定的声学特征中的至少一个，通过训练的生成模型来生成语音。换而言之，处理器320可以被配置为在生成语音中利用所选样本音素的语音特征，而不是使用预测的语音特征。这些所选样本音素的声学特征可以从中真人语音的样本音素中提取。与预测的声学特征相比，它们可以为语音合成提供真实的声学特征。预测的声学特征可能被过度平滑，由于它们是由统计学训练的生成模型生成的。

例如，处理器320可以被配置为通过使用所选样本音素的音素持续时间和基频，而不是使用预测的音素持续时间和预测的基频来生成语音。预测的音素持续时间和基频是统计参数，而不是真实人类语音的参数。相应地，处理器320可以被配置为生成更接近真实人类语音的语音。

内存310存储器330可以包括任何适当类型的大容量存储装置，用来存储处理器320需要操作的任何类型的信息。内存310和存储器330可以是易失性的或非易失性的、磁性的、半导体的、光学的、可移动的、不可移动的或其他类型的存储装置或有形(即，非瞬态)计算机可读介质，包括但不限于ROM、闪存、动态RAM和静态RAM。内存310和/或存储器330可以被配置为存储一个或多个计算机程序，所述一个或多个计算机程序可以由处理器320执行以完成本申请中公开的示例性语音合成方法。例如，如上所述，内存310和/或存储器330可以被配置为存储可以由处理器420执行的用于从文本合成语音的程序。

内存310和/或存储器330可以被进一步配置为存储由处理器320使用的信息和数据。例如，内存310和/或存储器330可以被配置为存储图1所示的语音数据库120和语音数据库720、从文本中识别的音素、所选样本音素、所识别音素的所选声学特征的集合、所选样本音素的所选声学特征的集合、提取激励和频谱参数、图1中的训练的生成模型760、所预测的语言和声学特征，和文本特征。

I/O接口340可以被配置为促进语音合成系统300和其他装置之间的通信。例如，I/O接口340可以从另一个装置(例如，计算机)接收文本。I/O接口340还可以输出合成语音到其他装置，例如膝上型计算机或扬声器。

通信接口350可以被配置为与语音合成服务器进行通信。例如，通信接口350可以被配置为通过有线连接或无线连接，与语音合成服务器相连接以存取语音数据库120和/或语音数据库720。所述无线连接包括，诸如蓝牙，Wi-Fi和蜂窝(例如，GPRS、WCDMA、HSPA、LTE或后代蜂窝通信系统)。所述无线连接包括，例如，USB线或电线。

本申请的另一方面是针对存储指令的非暂时性计算机可读介质，所述指令在被执行时使得一个或多个处理器执行如上所述方法。计算机可读介质可以包括易失性的或非易失性的、磁性的、半导体的、磁带的、光学的、可移动的、不可移动的或其他类型的计算机可读介质或计算机可读存储装置。例如，如所公开的，计算机可读介质可以是其上存储有计算机指令的存储装置或内存模块。在一些实施例中，计算机可读介质可以是其上存储有计算机指令的盘或闪存驱动器。

对于本领域的普通技术人员显而易见的是，可以对所公开的语音合成系统和相关方法进行各种变更、改良和修改。考虑到所公开的语音合成系统和相关方法的说明和实践，其他实施例对于本领域具有通常知识者将是显而易见的。尽管所述实施例使用语音作为示例进行描述，但是可以将所描述的合成系统和方法应用于从文本生成其他音频信号。例如，所描述的系统和方法可用于生成歌曲、收音机/电视广播、演示文稿、语音消息、音频书籍、导航语音指南等。

本申请的说明书和示例仅被认为是示例性的，真正的范围由以下权利要求及其等同物来限定。

Claims

1.一种用于基于文本生成语音的计算机实施方法，所述方法包括：

从所述文本中识别多个音素；

对每个识别的音素，确定第一组声学特征；

基于所述第一组声学特征中的至少一个声学特征，从语音数据库中选择与所述每个识别的音素相对应的样本音素，其中，所述基于所述第一组声学特征中的至少一个声学特征，从语音数据库中选择与所述每个识别的音素相对应的样本音素包括：

将所述每个识别的音素分割为多个帧；

确定每一帧的第三组声学特征；

对所述第三组声学特征中的至少一个声学特征进行加权处理；

根据加权结果从所述语音数据库中选择与所述每个识别的音素相对应的所述样本音素；

对每个选择的样本音素，确定第二组声学特征；以及

利用生成模型，基于所述第二组声学特征中的至少一个声学特征，生成语音。

2.根据权利要求1所述的计算机实施方法，其特征在于，所述第一组声学特征包括第一音素持续时间、第一基频、第一频谱或其任何组合。

3.根据权利要求2所述的计算机实施方法，其特征在于，所述第二组声学特征包括第二音素持续时间、第二基频、第二频谱或其任何组合。

4.根据权利要求1所述的计算机实施方法，进一步包括：

为所述每个识别的音素确定一组文本特征，

其中基于所述识别的音素确定的文本特征生成所述语音。

5.根据权利要求1所述的计算机实施方法，其特征在于，选择所述样本音素进一步包括：

选择存储在所述语音数据库中的音素，被选择的音素的声学特征与所述识别的音素的声学特征相似度最高。

6.根据权利要求1所述的计算机实施方法，其中所述生成模型是隐马尔可夫模型(HMM)或神经网络模型。

7.根据权利要求1所述的计算机实施方法，进一步包括：

利用所述语音数据库中的多个训练样本训练所述生成模型，

其中所述多个训练样本包括多个音素频谱。

8.根据权利要求7所述的计算机实施方法，其特征在于，生成所述语音包括：

利用经训练的生成模型，基于被选择的样本音素的频谱，生成所述语音。

9.一种用于基于文本生成语音的语音合成系统，所述语音合成系统包括：

存储装置，所述存储装置被配置为存储语音数据库和生成模型；以及处理器，所述处理器被配置为：

从所述文本中识别多个音素；

对每个识别的音素，确定第一组声学特征；

基于所述第一组声学特征中的至少一个声学特征，从语音数据库中选择与所述每个识别的音素相对应的样本音素，其中，为基于所述第一组声学特征中的至少一个声学特征，从语音数据库中选择与所述每个识别的音素相对应的样本音素，所述处理器进一步被配置为：将所述每个识别的音素分割为多个帧；

确定每一帧的第三组声学特征；对所述第三组声学特征中的至少一个声学特征进行加权处理；

根据加权结果从所述语音数据库中选择与所述每个识别的音素相对应的所述样本音素；对每个选择的样本音素，确定第二组声学特征；以及

10.根据权利要求9所述的语音合成系统，其特征在于，所述第一组声学特征包括第一音素持续时间、第一基频、第一频谱或其任何组合。

11.根据权利要求10所述的语音合成系统，其特征在于，所述第二组声学特征包括第二音素持续时间、第二基频、第二频谱或其任何组合。

12.根据权利要求9所述的语音合成系统，所述处理器进一步被配置为：

为所述每个识别的音素确定一组文本特征，

其中基于所述识别的音素确定的文本特征生成所述语音。

13.根据权利要求9所述的语音合成系统，其特征在于，为选择所述样本音素，所述处理器进一步被配置为：

14.根据权利要求9所述的语音合成系统，其中所述生成模型是隐马尔可夫模型(HMM)或神经网络模型。

15.根据权利要求9所述的语音合成系统，其特征在于，所述处理器进一步被配置为：

利用所述语音数据库中的多个训练样本训练所述生成模型，

其中所述多个训练样本包括多个音素频谱。

16.根据权利要求15所述的语音合成系统，其特征在于，为生成所述语音，所述处理器进一步被配置为：

17.一种非暂时性计算机可读介质，其存储一组可执行指令，当所述可执行指令由至少一个处理器执行时，所述指令使所述至少一个处理器执行从文本生成语音的方法，所述方法包括：

从所述文本中识别多个音素；

对每个识别的音素，确定第一组声学特征；

将所述每个识别的音素分割为多个帧；

对每个选择的样本音素，确定第二组声学特征；以及

18.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，所述方法进一步包括：

利用所述语音数据库中的多个训练样本训练所述生成模型，其中：

所述多个训练样本包括多个音素频谱，以及

生成所述语音包括利用所述训练的生成模型，基于被选择的样本音素的频谱，生成所述语音。