CN101452699A

CN101452699A - 韵律自适应及语音合成的方法和装置

Info

Publication number: CN101452699A
Application number: CNA2007101971046A
Authority: CN
Inventors: 易立夫; 李健; 楼晓雁; 郝杰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-12-04
Filing date: 2007-12-04
Publication date: 2009-06-10
Also published as: US20090157409A1; JP2009139949A

Abstract

本发明提供数据驱动训练差分韵律自适应模型、生成差分韵律自适应模型、韵律预测和语音合成的方法及装置。该数据驱动训练差分韵律自适应模型的方法包括：用时长和基频的正交多项式的系数表示差分韵律向量；对于差分韵律向量中的每一个参数，利用与差分韵律预测相关的多个属性和这些属性的组合生成初始参数预测模型，其中每个属性或上述属性的组合被作为一项；计算参数预测模型的每一项的重要性；删除所计算的重要性最低的项；利用剩余的项重新生成参数预测模型；判断重新生成的参数预测模型是否最优；如果参数预测模型不是最优，则重复上述计算每一项的重要性的步骤及其之后的步骤；其中差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。

Description

韵律自适应及语音合成的方法和装置

技术领域

本发明涉及信息处理技术，具体地，涉及利用计算机进行数据驱动的差分韵律自适应模型的训练、差分韵律自适应模型的生成和韵律预测的技术，以及语音合成技术。

背景技术

一般地，语音合成技术包括文本分析、韵律预测和语音生成三个主要技术，其中韵律预测技术是指利用韵律自适应模型预测合成语音的语调、节奏和时长信息等韵律特征参数的技术。韵律自适应模型是建立从与韵律预测相关的属性到韵律向量的映射关系，其中与韵律预测相关的属性包括语言、语音、情感/表情类型的属性，并且韵律向量包括时长和基频等参数。

现有的韵律预测方法包括分类与回归树(Classify and RegressionTree，简称CART)、高斯混合模型(Gaussian Mixture Model，简称GMM)和基于规则的方法。

关于高斯混合模型(GMM)，在Dan-ning Jiang，Wei Zhang，Li-qinShen和Lian-hong Cai所著的文章＂Prosody Analysis and Modeling ForEmotional Speech Synthesis＂(发表于ICASSP′05，Vol.I，pp.281-284，Philadelphia，PA，USA)中进行了详细的描述。

关于分类与回归树(CART)和高斯混合模型，还在Jianhua Tao，Yongguo Kang和Aijun Li所著的文章＂Prosody Conversion From NeutralSpeech to Emotional Speech＂(发表于IEEE TRANSACTIONS ONAUDIO，SPEECH AND LANGUAGE PROCESSING，VOL.14，NO.4，pp.1145-1154，JULY 2006)中进行了详细的描述。

然而，这些方法存在以下的缺点：

1)现有的方法不能准确而稳定地表示韵律向量，从而使得韵律自适应模型不灵活。

2)现有的方法受到模型复杂度和训练数据规模之间的不平衡的限制。实际上，情感/表情语料库中的训练数据十分有限。传统模型的系数能通过数据驱动方法计算得到，但是模型的属性和属性组合却是用手工的方法设置的。那么，这种“部分的”数据驱动的方法在一定程度上依赖于人的经验。

发明内容

本发明正是基于上述技术问题而提出的，其提供了一种数据驱动训练差分韵律自适应模型的方法和装置、生成差分韵律自适应模型的方法和装置、韵律预测方法和装置、以及语音合成方法和装置。

根据本发明的一个方面，提供一种数据驱动训练差分韵律自适应模型的方法，包括：用时长和基频的正交多项式的系数表示差分韵律向量；对于上述差分韵律向量中的每一个参数，利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型，其中每个上述属性或上述属性的组合被作为一项；计算上述参数预测模型的每一上述项的重要性；删除上述计算出的重要性最低的项；利用剩余的项重新生成参数预测模型；判断上述重新生成的参数预测模型是否最优；以及如果上述参数预测模型被判断为不是最优，则重复上述计算每一项的重要性的步骤、上述删除重要性最低的项的步骤、上述重新生成参数预测模型的步骤和上述判断上述重新生成的参数预测模型是否最优的步骤；其中，上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。

根据本发明的另一个方面，提供一种生成差分韵律自适应模型的方法，包括：形成差分韵律向量的训练样本集合；以及根据上述差分韵律向量的训练样本集合，利用上述的数据驱动训练差分韵律自适应模型的方法，生成差分韵律自适应模型。

根据本发明的另一个方面，提供一种韵律预测方法，包括：根据输入的文本，获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值；根据中性韵律预测模型，利用上述与中性韵律预测相关的多个属性的值，计算中性韵律向量；根据差分韵律自适应模型，利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值，计算差分韵律向量；以及计算上述中性韵律向量与上述差分韵律向量的和，以获得相应的韵律；其中，上述差分韵律自适应模型是利用上述的生成差分韵律自适应模型的方法生成的。

根据本发明的另一个方面，提供一种语音合成方法，包括：对输入的文本利用上述的韵律预测方法，预测韵律；以及根据上述所预测的韵律，进行语音合成。

根据本发明的另一个方面，提供一种数据驱动训练差分韵律自适应模型的装置，包括：初始模型生成单元，其用时长和基频的正交多项式的系数表示差分韵律向量，并对于上述差分韵律向量中的每一个参数，利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型，其中每个上述属性或上述属性的组合被作为一项；重要性计算单元，用于计算上述参数预测模型的每一上述项的重要性；项删除单元，用于删除上述计算出的重要性最低的项；模型再生成单元，用于利用由上述项删除单元删除后剩余的项重新生成参数预测模型；以及优化判断单元，用于判断由上述模型再生成单元重新生成的参数预测模型是否最优；其中，上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。

根据本发明的另一个方面，提供一种生成差分韵律自适应模型的装置，包括：差分韵律向量的训练样本集合；以及上述的数据驱动训练差分韵律自适应模型的装置，其根据上述差分韵律向量的训练样本集合训练差分韵律自适应模型。

根据本发明的另一个方面，提供一种韵律预测装置，包括：中性韵律预测模型；利用上述的生成差分韵律自适应模型的装置生成的差分韵律自适应模型；属性获得单元，用于根据输入的文本获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值；中性韵律向量预测单元，用于根据上述中性韵律预测模型，利用上述与中性韵律预测相关的多个属性的值，计算中性韵律向量；差分韵律向量预测单元，用于根据上述差分韵律自适应模型，利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值，计算差分韵律向量；以及韵律预测单元，用于计算上述中性韵律向量与上述差分韵律向量的和，以获得相应的韵律。

根据本发明的另一个方面，提供一种语音合成装置，包括：上述的韵律预测装置；并且根据由上述韵律预测装置预测的韵律，进行语音合成。

附图说明

图1是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的方法的流程图；

图2是根据本发明的一个实施例的生成差分韵律自适应模型的方法的流程图；

图3是根据本发明的一个实施例的韵律预测方法的流程图；

图4是根据本发明的一个实施例的语音合成方法的流程图；

图5是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的装置的示意性方框图；

图6是根据本发明的一个实施例的生成差分韵律自适应模型的装置的示意性方框图；

图7是根据本发明的一个实施例的韵律预测装置的示意性方框图；

图8是根据本发明的一个实施例的语音合成装置的示意性方框图。

具体实施方式

相信通过以下结合附图对本发明的具体实施例的详细描述，本发明的上述和其它目的、特征和优点将变得更加明显。

为了便于后面实施例的理解，首先简要介绍一下广义线性模型(Generalized Linear Model，简称GLM)和贝叶斯信息准则(BayesInformation Criterion，简称BIC)的原理。

GLM是对多元线性回归模型的一种扩展。GLM参数预测模型通过语音单元s的属性A，预测出参数

，相应的定义如公式(1)。

d_{i} = {\hat{d}}_{i} + e_{i} = h^{- 1} (β_{0} + Σ_{j = 1}^{p} β_{j} f_{j} (A)) + e_{i} - - - (1)

其中，h表示链接函数。一般地，可以假定d满足指数族分布。为了使d满足不同的指数族分布，只需要设定相应的链接函数。GLM既能进行线性建模，也能进行非线性建模。

比较模型的性能需要有判别标准。越简单的模型对集外数据预测的稳定性越高，而越复杂的模型对集内数据的拟合程度越高。BIC是一种常见的评价标准，它综合了以上对拟合精度和模型可靠性的度量，定义如公式(2)。

BIC＝Nlog(SSE/N)+plogN (2)

其中，SSE表示预测误差e的平方和。公式(2)的第一项表示模型的拟合精度，第二项表示对模型复杂度的惩罚。当训练样本数N一定时，越复杂的模型的参数个数p越大，对训练数据就拟合得越好，相应的SSE就越小，第一项就越小，而第二项就增大。反之亦然。公式中一项的减小总是导致另一项的增大，当两项和最小时，表示模型“最优”。BIC能在模型复杂度和数据规模之间取得一个不错的平衡，这有助于解决数据稀疏和属性协同作用的问题。

下面就结合附图对本发明的各个优选实施例进行详细的说明。

图1是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的方法的流程图。

如图1所示，首先在步骤101，用时长和基频的正交多项式的系数表示差分韵律向量。在本实施例中，差分韵律向量用于表示情感/表情韵律数据与中性韵律数据之间的差。

具体地，在本实施例中，差分韵律向量中的基频的正交多项式可以选用二阶(或更高阶的)勒让德正交多项式。此多项式可以看作是文献(X.Sun著的“F0generation for speech synthesis using a multi-tier approach”，发表于In Proc.ICSLP′02，pp.2077-2080)中描述的高阶多项式的低阶泰勒展开。此外，正交多项式在数学和物理问题中具有优良的性质。在此提出的基频的正交多项式表示与上面的文献中的高阶多项式有两点重要的区别，其一是用抛物线逼近代替泰勒指数逼近，其二是将段长归一到[-1，1]的区间。这些变化能帮助提高参数化时的拟合性能。

勒让德多项式表示如下。正交多项式族的区间t属于[-1，1]，它们之间满足公式(3)表示的正交关系。

{&Integral;}_{- 1}^{1} P_{m} (t) P_{n} (t) dt = δ_{mn} c_{n} - - - (3)

δ_{mn} = \{\begin{matrix} 1, when & m = n \\ 0, when & m &NotEqual; n \end{matrix} - - - (4)

这里，δ_mn是克罗内克尔符号，c_n＝2/(2n+1)，前三阶的多项式如式(5)-(7)所示。

p₀(t)＝1 (5)

p₁(t)＝t (6)

p_{2} (t) = \frac{1}{2} ({3 t}^{2} - 1) - - - (7)

接下来，对于每一个音节定义：

T(t)＝a₀p₀(t)+a₁p₁(t) (8)

F(t)＝a₀p₀(t)+a₁p₁(t)+a₂p₂(t) (9)

这里，T(t)表示潜在的基频目标，F(t)表示基频的包络。勒让德多项式的系数a₀和a₁表示目标基频的截距和斜率，另一系数a₂表示二次逼近的系数。

接着，在步骤105，对于差分韵律向量中的每一个参数，即时长t、基频的正交多项式系数a₀、a₁和a₂，分别生成一个初始参数预测模型。在本实施例中，利用广义线性模型GLM表示每个初始参数预测模型。参数t、a₀、a₁和a₂对应的GLM模型分别为：

t_{i} = {\hat{t}}_{i} + e_{i} = h^{- 1} (β_{0} + Σ_{i = 1}^{p} β_{j} f_{j} (A)) + e_{i} - - - (10)

a_{0 i} = {\hat{a}}_{0 i} + e_{i} = h^{- 1} (β_{0} + Σ_{i = 1}^{p} β_{j} f_{j} (A)) + e_{i} - - - (11)

a_{1 i} = {\hat{a}}_{1 i} + e_{i} = h^{- 1} (β_{0} + Σ_{i = 1}^{p} β_{j} f_{j} (A)) + e_{i} - - - (12)

a_{2 i} = {\hat{a}}_{2 i} + e_{i} = h^{- 1} (β_{0} + Σ_{i = 1}^{p} β_{j} f_{j} (A)) + e_{i} - - - (13)

下面首先针对参数t的GLM模型(10)进行说明。

具体地，利用与差分韵律预测相关的多个属性和这些属性的组合，生成参数t的初始参数预测模型。与差分韵律预测相关的属性可以包括许多，大致可分为语言类型的属性、语音类型的属性和情感/表情类型的属性，具体可包括：情感/表情状态(例如高兴、悲伤、愤怒等)、中文字在句子中的位置(例如句首、句尾等)、声调和句子类型(例如陈述句、感叹句、疑问句、祈使句等)。

在本实施例中，采用GLM模型来表示这些属性和属性组合。为了便于说明，假定与差分韵律预测相关的属性只有情感/表情状态(Emotion/Expression Status)和声调(Tone)。那么，初始参数预测模型的形式如下：parameter～Emotion/Expression Status+Tone+Emotion/Expression Status ^＊ Tone，其中Emotion/Expression Status ^＊Tone表示Emotion/Expression Status和Tone的组合，是一个2阶项。

可以理解，当属性的数量增加时，作为属性组合可以出现多个2阶项、3阶项等等。

另外，在本实施例中，在生成初始参数预测模型时，可以只取其中一部分的属性组合，例如只取到全部的2阶项；当然，也可以取到3阶项或将全部的属性组合加入到初始参数预测模型中。

总之，在初始参数预测模型中包括全部的单独属性(1阶项)和至少一部分的属性组合(2阶项或多阶项)。这样，初始参数预测模型可以利用很简单的规则来自动生成，而不是如现有技术那样，根据经验手工设定。

然后，在步骤110，利用F检验(F-test)计算初始参数预测模型中每一项的重要性。关于F检验，作为一种已知的标准统计方法，在盛骤，谢式千，潘乘毅编的《概率论与数理统计》(2000第二版，高等教育出版社)中已经有详细的说明，在此不再重复。

应当指出，虽然在本实施中使用的是F检验，但是，其它的统计方法也可以使用，例如，Chisq-test等等。

接着，在步骤115，从初始参数预测模型中删除F检验得分最低的项。然后，在步骤120，利用剩余的项，重新生成参数预测模型。

接着，在步骤125，计算重新生成的参数预测模型的BIC值，利用前面所述的方法判断该模型是否为最优。如果步骤125的判断结果为“是”，则将该新生成的参数预测模型作为最佳模型，并在步骤130结束。如果步骤125的判断结果为“否”，则返回到步骤110，再次计算该重新生成的参数预测模型的每一项的重要性，删除重要性最低的项(步骤115)，并利用剩余的项重新生成模型(步骤120)，直到获得最佳参数预测模型。

对于其它参数a₀、a₁和a₂的参数预测模型，根据与参数t相同的上述步骤进行训练。

最终，得到参数t、a₀、a₁和a₂的四个GLM参数预测模型，它们和差分韵律向量共同构成差分韵律自适应模型。

通过以上说明可以看出，在较小语料库的条件下，本实施例能够构建准确而可靠的基于GLM的差分韵律自适应模型，并且使用时长和基频的正交多项式的系数以准确而稳定地表示差分韵律向量。本实施例利用了基于广义线性模型(GLM)的建模方法和基于F检验(F-test)和贝叶斯信息准则(BIC)的逐步回归(stepwise regression)的属性选择方法训练差分韵律自适应模型。由于本实施例的GLM模型结构灵活，容易实现对训练数据的自适应，从而解决了数据稀疏问题。进而，通过逐步回归的方法能够自动地选出重要属性协同作用项。

在同一发明构思下，图2是根据本发明一个实施例的生成差分韵律自适应模型的方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。利用本实施例的方法生成的差分韵律自适应模型将被用于后面结合其它实施例描述的韵律预测方法及装置和语音合成方法及装置。

如图2所示，首先在步骤201，形成差分韵律向量的训练样本集合。差分韵律向量的训练样本集合是用于训练差分韵律自适应模型的训练数据。如前所述，差分韵律向量是情感/表情语料库中的情感/表情数据与中性韵律数据的差，因此，差分韵律向量的训练样本集合是基于情感/表情语料库和中性语料库而形成的。

具体地，在步骤2011，根据中性语料库，获取用时长和基频的正交多项式的系数表示的中性韵律向量。接着，在步骤2015，根据情感/表情语料库，获取用时长和基频的正交多项式的系数表示的情感/表情韵律向量。然后，在步骤2018，计算在步骤2015中获得的情感/表情韵律向量与在步骤2011中获得的中性韵律向量之间的差，以形成差分韵律向量的训练样本集合。

接着，在步骤205，根据所形成的差分韵律向量的训练样本集合，利用图1所示的实施例的数据驱动训练差分韵律自适应模型的方法，生成差分韵律自适应模型。具体地，从差分韵律向量的训练样本集合中提取每个参数的训练样本，对每个参数的参数预测模型进行训练，以获得每个参数的最优参数预测模型。这样，每个参数的最优参数预测模型和差分韵律向量共同构成差分韵律自适应模型

通过以上描述可以看出，本实施例的生成差分韵律自适应模型的方法根据通过情感/表情语料库与中性语料库构成的训练样本集合，利用前面实施例的训练差分韵律自适应模型的方法，生成差分韵律自适应模型。利用本实施例所生成的差分韵律自适应模型，容易实现对训练数据的自适应，解决数据稀疏的问题，并能够自动的选出重要属性协同作用项。

在同一发明构思下，图3根据本发明的一个实施例的韵律预测方法的流程图。下面结合该图对本实施例进行描述，对于那些与前面实施例相同的部分，适当省略其说明。

如图3所示，首先在步骤301，根据输入的文本，获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值。具体地，这些属性的值可以从输入的文本中直接获得，或者经过语法分析、句法分析等获得。需要指出，本实施例可以采用任何已知的和未来的方法来获得这些相应的属性，而并不限于某种特定的方式，并且获得方式还与属性的选择相对应。

在本实施例中，与中性韵律预测相关的多个属性包括语言类型和语音类型的属性。下面的表1示例性地列举了一些可以作为与中性韵律预测相关的属性的属性。

表1：与中性韵律预测相关的属性

属性	描述
属性	描述	PhoClosePhoPrePhoNextPhoTonePreToneNextTonePOSDisNPDisPPPosWordConWordLSNumWSPosSenWNumSen	当前音素(current phoneme)音节中另一个音素(another phoneme in the samesyllable)前一个音节相邻的音素(the neighboring phonemein the previous syllable)后一个音节相邻的音素(the neighboring phonemein the next syllable)声调(Tone of the current syllable)前音节的声调(Tone of the previous syllable)后音节的声调(Tone of the next syllable)词性(Part of speech)到下一个停顿的距离(Distance to the next pause)到前一个停顿的距离(Distance to the previouspause)音节在语法词中的位置(Phoneme position in thelexical word)前后及当前语法词的长度(Length of the current，previous and next lexical word)语法词中音节的个数(Number of syllables in thelexical word)音节在句子中的位置(Syllable position in thesentence)句中语法词的个数(Number of lexical words in thesentence)

SpRate

语速(Speaking rate)

如前所述，与差分韵律预测相关的属性可包括：情感/表情状态、中文字在句子中的位置、声调和句子类型。然而，“情感/表情状态”属性的值不能从输入的文本中获得，而是由用户预先根据需要确定。即，根据输入的文本，可以获得“中文字在句子中的位置”、“声调”和“句子类型”这三个属性的值。

然后，在步骤305，根据中性韵律预测模型，利用在步骤301中获得得与中性韵律预测相关的多个属性的值，计算中性韵律向量。在本实施例中，中性韵律预测模型是预先根据中性语料库训练好的。

接着，在步骤310，根据差分韵律自适应模型，利用在步骤301中获得的至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值，计算差分韵律向量。其中，差分韵律自适应模型是利用图2所示的实施例的生成差分韵律自适应模型的方法生成的。

最后，在步骤315，计算在步骤305中得到的中性韵律向量与在步骤310中得到的差分韵律向量的和，从而获得相应的韵律。

通过以上描述可以看出，本实施例的韵律预测方法利用中性韵律预测模型和由前面实施例的生成差分韵律自适应模型的方法生成的差分韵律自适应模型，通过用差分韵律补偿中性韵律来预测韵律，能够灵活、准确地预测韵律，并且容易实现对训练数据的自适应，解决了数据稀疏问题。

在同一发明构思下，图4是根据本发明的一个实施例的语音合成方法的流程图。下面结合该图，对本发明的实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图4所示，首先在步骤401，利用前面实施例描述的韵律预测方法，对输入的文本预测韵律。接着，在步骤405，根据上述所预测的韵律，进行语音合成。

通过以上的说明可知，由于本实施的语音合成方法采用了前面实施例的韵律预测方法来预测韵律，进而根据所预测的韵律进行语音合成，所以，容易实现对训练数据的自适应，解决了数据稀疏问题。因此，本实施例的语音合成方法可以更准确并且自动地进行语音合成，生成的语音更合理、易懂。

在同一发明构思下，图5是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的装置的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图5所示，本实施例的数据驱动训练差分韵律自适应模型的装置500包括：初始模型生成单元501，其用时长和基频的正交多项式的系数表示差分韵律向量，并对于差分韵律向量中的每一个参数，利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型，其中每个上述属性或上述属性的组合被作为一项；重要性计算单元502，其计算上述参数预测模型的每一上述项的重要性；项删除单元503，用于删除上述计算出的重要性最低的项；模型再生成单元504，用于利用由项删除单元503删除后剩余的项重新生成参数预测模型；以及优化判断单元505，用于判断由模型再生成单元504重新生成的参数预测模型是否最优；其中，上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。

与前面实施例的描述相同，在本实施例中，用时长和基频的正交多项式的系数表示差分韵律向量，并分别为差分韵律向量的每个参数t、a₀、a₁和a₂建立一个GLM参数预测模型。分别对每个参数预测模型进行训练，以得到每个参数t、a₀、a₁和a₂的最优参数预测模型，它们和该差分韵律向量共同构成差分韵律自适应模型。

如前所述，与差分韵律预测相关的多个属性包括：语言类型、语音类型和情感类型的属性，例如，包括：从情感状态、中文字在句子中的位置、声调和句子类型中选择的任意多个属性。

进一步地，重要性计算单元502利用F检验(F-test)计算每一项的重要性。

进一步地，优化判断单元505利用贝叶斯信息准则(BIC)判断上述重新生成的参数预测模型是否最优。

另外，根据本发明的一个优选实施例，至少一部分上述属性的组合包括多个与韵律预测相关的属性的全部2阶的属性组合。

在此，应当指出，本实施例的数据驱动训练差分韵律自适应模型的装置500及其各个组成部分可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的数据驱动训练差分韵律自适应模型的装置500在操作上实现图1所示的实施例的数据驱动训练差分韵律自适应模型的方法。

在同一发明构思下，图6是根据本发明的一个实施例的生成差分韵律自适应模型的装置的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图6所示，本实施例的生成差分韵律自适应模型的装置600包括：差分韵律向量的训练样本集合601；以及数据驱动训练差分韵律自适应模型的装置，其可以是图5所示的实施例描述的数据驱动训练差分韵律自适应模型的装置500，该装置500根据差分韵律向量的训练样本集合601训练差分韵律自适应模型。

进一步地，本实施例的生成差分韵律自适应模型的装置600还包括：中性语料库602，其包含中性语料；中性韵律向量获取单元603，其根据中性语料库602，获得用时长和基频的正交多项式的系数表示的中性韵律向量；情感/表情语料库604，其包含情感/表情语料；情感/表情韵律向量获取单元605，其根据情感/表情语料库604，获得用时长和基频的正交多项式的系数表示的情感/表情韵律向量；以及差分韵律向量计算单元606，其计算由情感/表情韵律向量获取单元605获得的情感/表情韵律向量与由中性韵律向量获取单元603获得的中性韵律向量之间的差，并提供给差分韵律向量的训练样本集合601。

应当指出，本实施例中的生成差分韵律自适应模型的装置600及其各个组成部分可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的生成差分韵律自适应模型的装置600在操作上可以实现图2所示的实施例的生成差分韵律自适应模型的方法。

在同一发明构思下，图7是根据本发明的一个实施例的韵律预测装置700的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图7所示，本实施例的韵律预测装置，包括：中性韵律预测模型701，其是利用中性语料预先训练好的；差分韵律自适应模型702，其由前面实施例描述的生成差分韵律自适应模型的装置600生成；属性获得单元703，其根据输入的文本获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值；中性韵律向量预测单元704，其根据中性韵律预测模型701，利用由属性获得单元703获得的与中性韵律预测相关的多个属性的值，计算中性韵律向量；差分韵律向量预测单元705，其根据差分韵律自适应模型702，利用由属性获得单元703获得的至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值，计算差分韵律向量；以及韵律预测单元706，其计算由中性韵律向量预测单元704计算出的中性韵律向量与由差分韵律向量预测单元705计算出的差分韵律向量的和，以获得相应的韵律。

在本实施例中，与中性韵律预测相关的多个属性包括：语言类型和语音类型的属性，例如，包括：从前面表1中选择的任意多个属性。

如前所述，与差分韵律预测相关的多个属性包括：情感/表情状态、中文字在句子中的位置、声调和句子类型。然而，“情感/表情状态”属性的值不能从输入的文本中获得，而是由用户预先根据需要确定。即，属性获得单元703根据输入的文本可以获得“中文字在句子中的位置”、“声调”和“句子类型”这三个与差分韵律预测相关的属性的值。

应当指出，本实施例中的韵律预测装置700及其各个组成部分可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的韵律预测装置700在操作上可以实现图3所示的实施例的韵律预测方法。

在同一发明构思下，图8是根据本发明一个实施例的语音合成装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图8所示，本实施例的语音合成装置800包括：韵律预测装置700，其可以是前面实施例中描述的韵律预测装置；以及语音合成器801，其可以是现有技术的语音合成器，并根据由韵律预测装置700预测的韵律，进行语音合成。

在此，应当指出，本实施例中的语音合成装置800及其各个组成部分可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的语音合成装置800在操作上可以实现图4所示实施例的语音合成方法。

以上虽然通过一些示例性的实施例详细描述了本发明的数据驱动训练差分韵律自适应模型的方法和装置、生成差分韵律自适应模型的方法和装置、韵律预测的方法和装置以及语音合成的方法和装置，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附的权利要求限定。

Claims

1.一种数据驱动训练差分韵律自适应模型的方法，包括：

用时长和基频的正交多项式的系数表示差分韵律向量；

对于上述差分韵律向量中的每一个参数，

利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型，其中每个上述属性或上述属性的组合被作为一项；

计算上述参数预测模型的每一上述项的重要性；

删除上述计算出的重要性最低的项；

利用剩余的项重新生成参数预测模型；

判断上述重新生成的参数预测模型是否最优；以及

如果上述参数预测模型被判断为不是最优，则重复上述计算每一项的重要性的步骤、上述删除重要性最低的项的步骤、上述重新生成参数预测模型的步骤和上述判断上述重新生成的参数预测模型是否最优的步骤；

其中，上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。

2.根据权利要求1所述的数据驱动训练差分韵律自适应模型的方法，其中，上述与差分韵律预测相关的多个属性包括：语言类型、语音类型和情感/表情类型的属性。

3.根据权利要求1所述的数据驱动训练差分韵律自适应模型的方法，其中，上述与差分韵律预测相关的多个属性包括：从情感/表情状态、中文字在句子中的位置、声调和句子类型中选择的任意多个属性。

4.根据权利要求1至3任意一项所述的数据驱动训练差分韵律自适应模型的方法，其中，上述参数预测模型是广义线性模型。

5.根据权利要求1所述的数据驱动训练差分韵律自适应模型的方法，其中，上述至少一部分上述属性的组合包括上述多个与差分韵律预测相关的属性的全部2阶的属性组合。

6.根据权利要求1至5任意一项所述的数据驱动训练差分韵律自适应模型的方法，其中，上述计算上述参数预测模型中每一上述项的重要性的步骤包括：利用F检验计算每一项的重要性。

7.根据权利要求1至6任意一项所述的数据驱动训练差分韵律自适应模型的方法，其中，上述判断上述重新生成的参数预测模型是否最优的步骤包括：利用贝叶斯信息准则判断上述重新生成的参数预测模型是否最优。

8.根据权利要求7所述的数据驱动训练差分韵律自适应模型的方法，其中，上述判断上述重新生成的参数预测模型是否最优的步骤包括：

计算下式

BIC＝Nlog(SSE/N)+plogN

其中，SSE表示预测误差e的平方和，N表示训练样本数；以及

当上式中的BIC最小时，判断参数预测模型为最优。

9.根据权利要求1至8任意一项所述的数据驱动训练差分韵律自适应模型的方法，其中，上述基频的正交多项式是二阶或更高阶的勒让德正交多项式。

10.根据权利要求9所述的数据驱动训练差分韵律自适应模型的方法，其中，上述勒让德正交多项式表示为：

F(t)＝a₀p₀(t)+a₁p₁(t)+a₂p₂(t)

其中，F(t)表示基频的包络，a₀、a₁和a₂表示所述系数，t属于[-1，1]。

11.一种生成差分韵律自适应模型的方法，包括：

形成差分韵律向量的训练样本集合；以及

根据上述差分韵律向量的训练样本集合，利用权利要求1至10任意一项所述的数据驱动训练差分韵律自适应模型的方法，生成差分韵律自适应模型。

12.根据权利要求11所述的生成差分韵律自适应模型的方法，其中，上述形成差分韵律向量的训练样本集合的步骤包括：

根据中性语料库，获取用时长和基频的正交多项式的系数表示的中性韵律向量；

根据情感/表情语料库，获取用时长和基频的正交多项式的系数表示的情感/表情韵律向量；以及

计算上述情感/表情韵律向量与上述中性韵律向量之间的差，以形成差分韵律向量的训练样本集合。

13.一种韵律预测方法，包括：

根据输入的文本，获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值；

根据中性韵律预测模型，利用上述与中性韵律预测相关的多个属性的值，计算中性韵律向量；

根据差分韵律自适应模型，利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值，计算差分韵律向量；以及

计算上述中性韵律向量与上述差分韵律向量的和，以获得相应的韵律；

其中，上述差分韵律自适应模型是利用权利要求11或12所述的生成差分韵律自适应模型的方法生成的。

14.根据权利要求13所述的韵律预测方法，其中，上述与中性韵律预测相关的多个属性包括：语言类型的属性和语音类型的属性。

15.根据权利要求13所述的韵律预测方法，其中，上述与中性韵律预测相关的多个属性包括：从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。

16.根据权利要求13至15任意一项所述的韵律预测方法，其中，上述预先确定的至少另一部分与差分韵律预测相关的多个属性包括：情感/表情类型的属性。

17.一种语音合成方法，包括：

对输入的文本利用上述权利要求13至16任意一项所述的韵律预测方法，预测韵律；以及

根据上述所预测的韵律，进行语音合成。

18.一种数据驱动训练差分韵律自适应模型的装置，包括：

初始模型生成单元，其用时长和基频的正交多项式的系数表示差分韵律向量，并对于上述差分韵律向量中的每一个参数，利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型，其中每个上述属性或上述属性的组合被作为一项；

重要性计算单元，用于计算上述参数预测模型的每一上述项的重要性；

项删除单元，用于删除上述计算出的重要性最低的项；

模型再生成单元，用于利用由上述项删除单元删除后剩余的项重新生成参数预测模型；以及

优化判断单元，用于判断由上述模型再生成单元重新生成的参数预测模型是否最优；

19.根据权利要求18所述的数据驱动训练差分韵律自适应模型的装置，其中，上述与差分韵律预测相关的多个属性包括：语言类型、语音类型和情感类型的属性。

20.根据权利要求18所述的数据驱动训练差分韵律自适应模型的装置，其中，上述与差分韵律预测相关的多个属性包括：从情感状态、中文字在句子中的位置、声调和句子类型中选择的任意多个属性。

21.根据权利要求18至20任意一项所述的数据驱动训练差分韵律自适应模型的装置，其中，上述参数预测模型是广义线性模型。

22.根据权利要求18所述的数据驱动训练差分韵律自适应模型的装置，其中，上述至少一部分上述属性的组合包括上述多个与差分韵律预测相关的属性的全部2阶的属性组合。

23.根据权利要求18至22任意一项所述的数据驱动训练差分韵律自适应模型的装置，其中，上述重要性计算单元利用F检验计算每一项的重要性。

24.根据权利要求18至23任意一项所述的数据驱动训练差分韵律自适应模型的装置，其中，上述优化判断单元利用贝叶斯信息准则判断上述重新生成的参数预测模型是否最优。

25.根据权利要求18至24任意一项所述的数据驱动训练差分韵律自适应模型的装置，其中，上述基频的正交多项式是二阶或更高阶的勒让德正交多项式。

26.根据权利要求25所述的数据驱动训练差分韵律自适应模型的装置，其中，上述勒让德正交多项式表示为：

F(t)＝a₀p₀(t)+a₁p₁(t)+a₂p₂(t)

27.一种生成差分韵律自适应模型的装置，包括：

差分韵律向量的训练样本集合；以及

权利要求18至26任意一项所述的数据驱动训练差分韵律自适应模型的装置，其根据上述差分韵律向量的训练样本集合训练差分韵律自适应模型。

28.根据权利要求27所述的生成差分韵律自适应模型的装置，还包括：

中性语料库；

中性韵律向量获取单元，其根据上述中性语料库，获得用时长和基频的正交多项式的系数表示的中性韵律向量；

情感/表情语料库；

情感/表情韵律向量获取单元，其根据上述情感/表情语料库，获得用时长和基频的正交多项式的系数表示的情感/表情韵律向量；以及

差分韵律向量计算单元，其计算上述情感/表情韵律向量与上述中性韵律向量之间的差，并提供给上述差分韵律向量的训练样本集合。

29.一种韵律预测装置，包括：

中性韵律预测模型；

利用权利要求27或28所述的生成差分韵律自适应模型的装置生成的差分韵律自适应模型；

属性获得单元，用于根据输入的文本获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值；

中性韵律向量预测单元，用于根据上述中性韵律预测模型，利用上述与中性韵律预测相关的多个属性的值，计算中性韵律向量；

差分韵律向量预测单元，用于根据上述差分韵律自适应模型，利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值，计算差分韵律向量；以及

韵律预测单元，用于计算上述中性韵律向量与上述差分韵律向量的和，以获得相应的韵律。

30.根据权利要求29所述的韵律预测装置，其中，上述与中性韵律预测相关的多个属性包括：语言类型的属性和语音类型的属性。

31.根据权利要求29所述的韵律预测装置，其中，上述与中性韵律预测相关的多个属性包括：从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。

32.根据权利要求29至31任意一项所述的韵律预测装置，其中，上述预先确定的至少另一部分与差分韵律预测相关的多个属性包括：情感/表情类型的属性。

33.一种语音合成装置，包括：

权利要求29至32任意一项所述的韵律预测装置；并且

根据由上述韵律预测装置预测的韵律，进行语音合成。