CN103854643B

CN103854643B - 用于合成语音的方法和装置

Info

Publication number: CN103854643B
Application number: CN201210501075.9A
Authority: CN
Inventors: 康永国; 李健
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2017-03-01
Anticipated expiration: 2032-11-29
Also published as: CN103854643A

Abstract

本发明提供用于合成语音的方法和装置。所述用于合成语音的装置，包括：输入单元，其输入文本句；文本分析单元，其对上述文本句进行文本分析以获得音素序列；查找单元，其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类；概率计算单元，其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率；时长预测单元，其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长；以及语音合成单元，其利用上述时长预测单元预测出的时长合成上述文本句的语音。

Description

用于合成语音的方法和装置

技术领域

本发明涉及语音合成技术，具体地，涉及用于合成语音的方法和装置。

背景技术

目前，基于隐马尔科夫模型的语音合成(HTS，HMM-based Text to Speech)已经广泛应用于语音合成技术。

具体地，图4示出了传统的基于隐马尔科夫模型的语音合成系统。如图4所示，在训练阶段，利用语音数据库10和语境数据库20训练隐马尔科夫模型(HMMs)，得到时长决策树30。

在合成阶段，在步骤405，对步骤401输入的文本句进行文本分析，得到该文本句的音素序列和语境特征序列。然后，在步骤410，基于步骤405中得到的语境特征在时长决策树30中查找与该语境特征对应的音素的叶子节点。然后，在步骤415，将叶子节点的中心时长作为该音素的时长。最后，在步骤420，利用预测出的时长进行语音合成。

在上述传统的基于隐马尔科夫模型的语音合成系统中，某个音素的时长是由时长决策树30的某个叶子节点的中心时长，例如高斯分布的均值决定。也就是说，一个叶子节点上的所有音素时长实例由单一的中心时长来表示，由此导致了过平淡节奏的出现。这种平淡的合成语音会在电子书阅读、汽车导航、移动电话等这样的应用中降低用户体验。

发明内容

为了改善上述现有技术中存在的利用叶子节点的单一的中心时长生成音素的时长而导致合成语音的节奏过于平淡的问题，本发明提出了一种改进合成语音节奏的方法，该方法利用时长决策树的叶子节点上的多中心时长来生成音素的时长。也就是说，本发明提供了用于合成语音的方法和装置。具体地，提供了以下技术方案。

[1]一种用于合成语音的方法，包括以下步骤：

输入文本句；

对上述文本句进行文本分析以获得音素序列；

在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类；

计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率；

利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长；以及

利用上述预测出的时长合成上述文本句的语音。

本发明的上述用于合成语音的方法，在进行音素的时长预测时，与使用叶子节点的单一的中心时长的传统方法不同，使用叶子节点中的多个类的类中心时长进行预测，有效地解决了现有技术中合成语音的节奏过于平淡的技术问题，提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。

[2]根据上述[1]所述的方法，其中，上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括：

将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。

本发明的上述用于合成语音的方法，通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长，可以使上述至少一个音素的时长的预测更加准确。

[3]根据上述[1]所述的方法，其中，上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括：

将上述多个类的类中心时长以上述计算出的概率为权重的加权和，作为上述至少一个音素的时长。

本发明的上述用于合成语音的方法，通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和，作为上述至少一个音素的时长，可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。

[4]根据上述[1]所述的方法，其中，上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括：

利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。

[5]根据上述[4]所述的方法，其中，上述利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长的步骤包括：

将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和，作为上述至少一个音素的时长。

本发明的上述用于合成语音的方法，通过引入先验概率，时长预测中出现异常时长的可能性减小，由此带来了主观感知的提升。

[6]根据上述[1]～[5]的任一项所述的方法，其中，

上述对上述文本句进行文本分析的步骤还获得与上述音素序列对应的语境特征序列，

上述在时长决策树中查找上述音素序列中的至少一个音素的叶子节点的步骤包括：利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。

[7]根据上述[1]～[6]的任一项所述的方法，其中，

上述计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率的步骤包括：利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。

[8]根据上述[7]所述的方法，其中，上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。

[9]根据上述[8]所述的方法，其中，上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。

[10]根据上述[9]所述的方法，其中，上述与用于训练上述时长决策树的语境特征不同的语境特征包括对上述用于训练上述时长决策树的语境特征不同的语境特征进行删减和/或增加后得到的语境特征。

[11]一种用于合成语音的装置，包括：

输入单元，其输入文本句；

文本分析单元，其对上述文本句进行文本分析以获得音素序列；

查找单元，其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类；

概率计算单元，其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率；

时长预测单元，其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长；以及

语音合成单元，其利用上述时长预测单元预测出的时长合成上述文本句的语音。

本发明的上述用于合成语音的装置，在进行音素的时长预测时，与使用叶子节点的单一的中心时长的传统装置不同，使用叶子节点中的多个类的类中心时长进行预测，有效地解决了现有技术中合成语音的节奏过于平淡的技术问题，提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。

[12]根据上述[11]所述的装置，其中，上述时长预测单元，将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。

本发明的上述用于合成语音的装置，通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长，可以使上述至少一个音素的时长的预测更加准确。

[13]根据上述[11]所述的装置，其中，上述时长预测单元，将上述多个类的类中心时长以上述计算出的概率为权重的加权和，作为上述至少一个音素的时长。

本发明的上述用于合成语音的装置，通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和，作为上述至少一个音素的时长，可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。

[14]根据上述[11]所述的装置，其中，上述时长预测单元，利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。

[15]根据上述[14]所述的装置，其中，上述时长预测单元，将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和，作为上述至少一个音素的时长。

本发明的上述用于合成语音的装置，通过引入先验概率，时长预测中出现异常时长的可能性减小，由此带来了主观感知的提升。

[16]根据上述[11]～[15]的任一项所述的装置，其中，

上述文本分析单元还获得与上述音素序列对应的语境特征序列，

上述查找单元，利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。

[17]根据上述[11]～[16]的任一项所述的装置，其中，

上述概率计算单元，利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。

[18]根据上述[17]所述的装置，其中，上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。

[19]根据上述[18]所述的装置，其中，上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。

[20]根据上述[19]所述的装置，其中，上述与用于训练上述时长决策树的语境特征不同的语境特征包括对上述用于训练上述时长决策树的语境特征不同的语境特征进行删减和/或增加后得到的语境特征。

附图说明

结合附图，从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见，其中：

图1示出了根据本发明的第1实施例的用于合成语音的方法的流程图。

图2示出了根据本发明的第1实施例的用于合成语音的方法的一个具体实例。

图3示出了根据本发明的第2实施例的用于合成语音的装置的框图。

图4示出了传统的基于隐马尔科夫模型的语音合成系统。

具体实施方式

下面，结合附图对本发明的实施例进行详细描述。

一般地，本发明的实施例涉及在电子设备(例如电子书、汽车导航、移动电话等和/或类似物)中合成语音的方法及装置。

概括而言，本发明的基本构思是：在训练阶段，使用聚类算法将时长决策树的叶子节点上的音素时长实例聚为多个类，这些类的类中心时长将被用于接下来的时长预测。然后使用类似于条件随机场的机器学习方法建立音素的语境特征和叶子节点的多个类之间的映射关系，获得映射模型。在合成阶段，在对输入的文本句预测时长时，首先根据待合成音素的语境特征在时长决策树上查找其叶子节点，然后根据待合成音素的语境特征，利用训练阶段获得的映射模型计算待合成音素属于其叶子节点的多个类的每个类的概率，最后基于计算得到的概率和多个类的类中心时长预测待合成语音的时长。

用于合成语音的方法

首先，如图1所示，在步骤101，输入文本句。

在本实施例中，输入的文本句可以是本领域的技术人员公知的任何文本的句子，也可以是各种语言的文本句，例如汉语、英语、日语等，本发明对此没有任何限制。

接着，在步骤105，对输入的文本句进行文本分析以获得该文本句的音素序列。优选，在步骤105，还获得与音素序列对应的语境特征序列。

在本实施例中，语境特征包括上述文本句的句长，句中各字(词)的字形、拼音、音素类型、声调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此外，在本实施例中，用于对输入的文本句进行文本分析的文本分析方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

接着，在步骤110，在时长预测模型中的时长决策树中查找上述音素序列中的音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类。

在本实施例中，优选，利用步骤105的文本分析所获得的语境特征序列中与音素对应的语境特征查找音素的叶子节点。在时长决策树上查找音素的叶子节点的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

在本实施例中，时长预测模型的时长决策树是在训练阶段通过训练获得的。图2示出了根据本发明的第1实施例的用于合成语音的方法的一个具体实例。下面结合图2对训练阶段的内容进行详细描述。

如图2所示，在训练阶段，利用语音数据库10的声学信息和语境数据库20的语言学信息训练HMMs模型，得到时长决策树30。

在本实施例中，训练HMMs模型的方法可以是本领域的技术人员公知的任何方法，本发明对此并没有任何限制。另外，时长决策树30也可以是本领域的技术人员公知的基于HHMs模型的任何时长决策树，本发明对此不再进行赘述。

在得到时长决策树30后，本发明在步骤260，对时长决策树30的叶子节点中的音素时长实例进行聚类。下面详细描述聚类的过程。

对于某发音人的时长决策树30，其叶子节点集合定义为L＝{l₀，l₁，...，l_M-1}，M是时长决策树30中叶子节点的总数目。对于某个叶子节点l_m，其所属的音素时长实例使用例如K均值聚类方法聚为K类，类标签定义为T_m＝{0，…，K-1}，并且这些类的类中心时长集合定义为C_m＝{c_m，k}，k∈T_m。为了保持不同叶子节点间的一致性，对这些类根据其类中心的大小进行排序，即c_m，0≤c_m，1≤...≤c_m，k-1。类的先验概率集合定义为P_m＝{p_m，k}，k∈T_m，可以由类所拥有的实例的数目与该叶子节点的实例总数的比值获得。

在本实施例中，虽然使用K均值聚类方法对叶子节点的音素时长实例进行了聚类，但是也可以使用本领域的技术人员公知的任何聚类方法进行聚类，本发明对此没有任何限制。

返回图1，接着，在步骤115，计算音素属于其叶子节点中的多个类的每个类的概率。

在本实施例中，优选，利用步骤105的文本分析所获得的语境特征序列中与音素对应的语境特征和时长预测模型中的映射模型计算音素属于其叶子节点中的多个类的每个类的概率。

在本实施例中，映射模型通过时长预测模型中的音素的语境特征与时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。用于训练映射模型的音素的语境特征可以是用于训练时长决策树的语境特征，也可以是与用于训练上述时长决策树的语境特征不同的语境特征，例如对用于训练时长决策树的语境特征进行删减和/或增加后得到的语境特征，本发明对此没有任何限制。

具体地，下面参照图2详细说明训练映射模型的一个实例。

如图2所示，在步骤270，利用步骤260对叶子节点上的音素时长实例进行聚类后所存储的类标签以及语境数据库20提供的语言学信息训练映射模型。具体的训练过程如下。

对于训练集中的某一句，其音素序列定义为U_s＝｛u_n｝，n＝0，...，N-1，N是该句的音素总数量，其时长和语境特征序列分别为D_s＝｛d_n｝，Θ_s＝｛θ_n｝，n＝0，...，N-1，下文中将Θ称为HTS语境特征序列，将θ_n称为HTS语境特征。

在该实例中，使用类似于条件随机场(CRF，conditional random field)的机器学习方法训练映射模型，即建立音素的语境特征和叶子节点的多个类之间的映射关系。用于训练映射模型的语境特征序列定义为下文中将称为CRF语境特征序列，将称为CRF语境特征。CRF语境特征可以和用于时长模型训练的HTS语境特征θ_n相同，也可以不同，例如对HTS语境特征θ_n进行删减和/或增加而得到CRF语境特征

对于该句中的音素u_n，其对应的叶子节点l_m可以通过使用HTS语境特征θ_n查找时长决策树的方式获得，而所属的类标签t_n＝k，k∈T_m可以通过比较其时长d_n和各类中心c_m的距离的方式得到，从而可以获得音素u_n的CRF语境特征与对应的叶子节点l_m的类标签的对应关系，即获得音素u_n的训练数据对当训练集中所有的音素处理完成后，总的训练数据集合即可获得，然后映射函数即映射模型可以使用CRF训练得到。使用CRF训练映射模型的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

返回图1，在步骤115计算得到音素属于叶子节点中的多个类的每个类的概率后，在步骤120，利用计算出的概率和多个类的每个类的类中心时长预测音素的时长。

在本实施例中，利用计算出的概率和多个类的每个类的类中心时长预测音素的时长的方法主要包括以下3种。

(1)将多个类中概率最大的类的类中心时长，作为音素的时长。

(2)将多个类的类中心时长以计算出的概率为权重的加权和，作为音素的时长。

(3)将多个类的类中心时长以计算出的概率和多个类的每个类的先验概率为权重的加权和，作为音素的时长。

下面以第3种方法为例进行详细描述。

对于在步骤101输入的文本句，在步骤105获得的音素序列表示为U，在步骤105获得的语境特征序列表示为HTS语境特征序列Θ，对HTS语境特征序列Θ进行与训练映射模型时相同的删减和/或增加，获得其CRF特征序列对于音素序列U中的音素u_n，叶子节点l_m和该叶子节点上各类的类中心c_m可以通过对其HTS语境特征θ_n查找时长决策树的方法获得。那么，音素u_n的时长可以由以下公式给出：

其中，是该音素的CRF语境特征，k是某个类的标签，p_m，k和c_m，k分别是标签为k的类的先验概率和类中心时长，是映射模型根据该音素的CRF语境特征和标签为k的类给出的该音素属于该类的概率。

在步骤120预测出音素的时长后，最后，在步骤125，利用预测出的时长合成文本句的语音。

在本实施例中，在合成步骤101输入的文本句的语音时，可以对文本句的音素序列中的某一个音素使用本发明的上述用于合成语音的方法，也可以对音素序列中的多个音素使用本发明的上述用于合成语音的方法，当然也可以对音素序列中的全部音素使用本发明的上述用于合成语音的方法。

另外，本发明的上述用于合成语音的方法，通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长，可以使上述至少一个音素的时长的预测更加准确。

另外，本发明的上述用于合成语音的方法，通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和，作为上述至少一个音素的时长，可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。

另外，本发明的上述用于合成语音的方法，通过引入先验概率，时长预测中出现异常时长的可能性减小，由此带来了主观感知的提升。

用于合成语音的装置

在同一发明构思下，图3示出了根据本发明的第2实施例的用于合成语音的装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图3所示，本实施例的用于合成语音的装置300包括：输入单元301，其输入文本句；文本分析单元305，其对上述文本句进行文本分析以获得音素序列；查找单元310，其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类；概率计算单元315，其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率；时长预测单元320，其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长；以及语音合成单元325，其利用上述时长预测单元预测出的时长合成上述文本句的语音。

在本实施例中，输入单元301输入的文本句可以是本领域的技术人员公知的任何文本的句子，也可以是各种语言的文本句，例如汉语、英语、日语等，本发明对此没有任何限制。

在本实施例中，优选，文本分析单元305还获得与音素序列对应的语境特征序列。

在本实施例中，优选，查找单元310利用文本分析单元305获得的语境特征序列中与音素对应的语境特征查找音素的叶子节点。在时长决策树上查找音素的叶子节点的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

在本实施例中，时长预测模型的时长决策树是在训练阶段通过训练获得的。训练时长决策树的方法与上述参考图2描述的基本相同，在此不再赘述。

在本实施例中，优选，概率计算单元315，利用文本分析单元305获得的语境特征序列中与音素对应的语境特征和时长预测模型中的映射模型计算音素属于其叶子节点中的多个类的每个类的概率。

在本实施例中，映射模型通过时长预测模型中的音素的语境特征与时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。用于训练映射模型的音素的语境特征可以是用于训练时长决策树的语境特征，也可以是与用于训练上述时长决策树的语境特征不同的语境特征，例如对用于训练时长决策树的语境特征进行删减和/或增加后得到的语境特征，本发明对此没有任何限制。训练映射模型的方法与上述参考图2描述的基本相同，在此不再赘述。

在概率计算单元315计算得到音素属于叶子节点中的多个类的每个类的概率后，时长预测单元320利用计算出的概率和多个类的每个类的类中心时长预测音素的时长。

在本实施例中，时长预测单元320利用计算出的概率和多个类的每个类的类中心时长预测音素的时长的方法主要包括以下3种。

下面以第3种方法为例进行详细描述。

对于在输入单元301输入的文本句，文本分析单元305获得的音素序列表示为U，文本分析单元305获得的语境特征序列表示为HTS语境特征序列Θ，对HTS语境特征序列Θ进行与训练映射模型时相同的删减和/或增加，获得其CRF特征序列对于音素序列U中的音素u_n，叶子节点l_m和该叶子节点上各类的类中心c_m可以通过对其HTS语境特征θ_n查找时长决策树的方法获得。那么，音素u_n的时长可以由以下公式给出：

在时长预测单元320预测出音素的时长后，语音合成单元325利用预测出的时长合成文本句的语音。

在本实施例中，在合成输入单元301输入的文本句的语音时，可以利用本发明的上述用于合成语音的装置300预测文本句的音素序列中的某一个音素的时长，也可以利用本发明的上述用于合成语音的装置300预测音素序列中的多个音素的时长，当然也可以利用本发明的上述用于合成语音的装置300预测音素序列中的全部音素的时长。

本发明的上述用于合成语音的装置300，在进行音素的时长预测时，与使用叶子节点的单一的中心时长的传统装置不同，使用叶子节点中的多个类的类中心时长进行预测，有效地解决了现有技术中合成语音的节奏过于平淡的技术问题，提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。

另外，本发明的上述用于合成语音的装置300，通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长，可以使上述至少一个音素的时长的预测更加准确。

另外，本发明的上述用于合成语音的装置300，通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和，作为上述至少一个音素的时长，可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。

另外，本发明的上述用于合成语音的装置300，通过引入先验概率，时长预测中出现异常时长的可能性减小，由此带来了主观感知的提升。

本领域的普通技术人员可以理解上述的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD－ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和装置也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以由上述硬件电路和软件的结合例如固件来实现。

虽然以上结合具体实施例对本发明的用于合成语音的方法和装置进行了详细描述，但本发明并不限于此，本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围；本发明的保护范围由所附权利要求来限定。

Claims

1.一种用于合成语音的装置，包括：

输入单元，其输入文本句；

查找单元，其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类；以及

语音合成单元；

其特征在于，上述装置还包括：

概率计算单元，其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率；以及

时长预测单元，其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长；

上述语音合成单元利用上述时长预测单元预测出的时长合成上述文本句的语音。

2.根据权利要求1所述的装置，其中，上述时长预测单元，将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。

3.根据权利要求1所述的装置，其中，上述时长预测单元，将上述多个类的类中心时长以上述计算出的概率为权重的加权和，作为上述至少一个音素的时长。

4.根据权利要求1所述的装置，其中，上述时长预测单元，利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。

5.根据权利要求4所述的装置，其中，上述时长预测单元，将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和，作为上述至少一个音素的时长。

6.根据权利要求1所述的装置，其中，

7.根据权利要求1所述的装置，其中，

8.根据权利要求7所述的装置，其中，上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。

9.根据权利要求8所述的装置，其中，上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。

10.一种用于合成语音的方法，包括以下步骤：

输入文本句；

对上述文本句进行文本分析以获得音素序列；

在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类；以及

合成上述文本句的语音；

其特征在于，上述方法还包括以下步骤：

计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率；以及

利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长；

上述合成上述文本句的语音的步骤利用上述预测出的时长合成上述文本句的语音。