CN101271687B

CN101271687B - 字音转换预测以及语音合成的方法和装置

Info

Publication number: CN101271687B
Application number: CN2007100891769A
Authority: CN
Inventors: 易立夫; 郝杰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-20
Filing date: 2007-03-20
Publication date: 2012-07-18
Anticipated expiration: 2027-03-20
Also published as: CN101271687A

Abstract

本发明提供了数据驱动训练字音转换概率预测模型、构建字音转换概率预测模型、字音转换预测以及语音合成的方法和装置。本发明的数据驱动训练字音转换概率预测模型的方法包括：利用与字音转换预测相关的多个属性和至少一部分上述属性的组合生成初始字音转换概率预测模型，其中每个上述属性或上述属性的组合被作为一项；计算上述字音转换概率预测模型中每一上述项的重要性；删除上述计算出的重要性最低的项；利用剩余的项重新生成字音转换概率预测模型；判断上述重新生成的字音转换概率预测模型是否最优；以及如果上述字音转换概率预测模型被判断为不是最优，则重复上述计算每一项的重要性的步骤及其之后的步骤。

Description

字音转换预测以及语音合成的方法和装置

技术领域

本发明涉及信息处理技术，具体地，涉及利用计算机进行数据驱动的字音转换概率预测模型的训练、字音转换概率预测模型的构建和字音转换预测的技术，以及语音合成技术。

背景技术

在进行中文语音合成时，会经常遇到对多音字进行字音转换的情况，此时需要根据语境确定多音字在文本中的正确读音。一般地，利用字音转换模型，通过文本中多音字对应的语言和语音属性，以预测多音字的合理读音。

在现有技术中，提出了多种字音转换方法，包括决策树(Decision Tree，DT)、转换规则学习(Transformation-Based Learning，TBL)和扩展随机决策(Extended Stochastic Complexity，ESC)等，这些方法都是词相关的方法，其中决策树和扩展随机决策模型是生成模型，转换规则学习模型是判决模型。

关于决策树(DT)，例如，在Chen Guilin和Han Ke-song著的文章“Letter-to-sound for small-footprint multilingual TTS engine”(发表于INTERSPEECH-2004，pp.1881-1884)中进行了详细的描述。

关于转换规则学习(TBL)，例如，在Zheng Min、Shi Qin、Zhang Wei和Cai Lianhong著的文章“Grapheme-to-phoneme conversion based onTBL algorithm in Mandarin TTS system”(发表于INTERSPEECH-2005，pp.1897-1900)中进行了详细的描述。

关于扩展随机决策(ESC)，例如，在Zi-Rong Zhang和Min Chu著的文章“An efficient way to learn rules for grapheme-to-phonemeconversion in Chinese”(发表于ISCSLP2002，pp.59-63)中进行了详细的描述。以上文献的全部内容以引用的方式包含于此，以供参考。

然而，现有技术的这些方法存在以下缺点：

1)对于中文轻声多音字缺少单独的、统一的预测模型。由于中文轻声多音字与其它类型的多音字存在很大的不同，因此采用词相关的方法预测中文轻声多音字的读音的准确性较低。

2)现有的字音转换方法或者采用生成模型，或者采用判决模型，这两种模型都有一些缺陷：生成模型假定属性之间互相独立而输出的观测之间有关联性；而判决模型则相反，假定属性之间有关联性而输出的观测之间互相独立。

3)由于模型复杂度和训练数据规模之间的不平衡，导致了数据稀疏和属性协同作用两个主要的问题。实际上，多音字的训练数据十分有限。传统模型的系数能通过数据驱动方法计算得到，但是模型的属性和属性组合却是用手工的方法设置的。那么，这种“部分的”数据驱动的方法在一定程度上依赖于人的经验。

发明内容

本发明正是基于上述现有技术中存在的技术问题而提出的，其提供了一种数据驱动训练字音转换概率预测模型的方法和装置、构建字音转换概率预测模型的方法和装置、字音转换预测方法和装置以及语音合成方法和装置。

根据本发明的一个方面，提供了一种数据驱动训练字音转换概率预测模型的方法，包括：利用与字音转换预测相关的多个属性和至少一部分上述属性的组合生成初始字音转换概率预测模型，其中每个上述属性或上述属性的组合被作为一项；计算上述字音转换概率预测模型中每一上述项的重要性；删除上述计算出的重要性最低的项；利用剩余的项重新生成字音转换概率预测模型；判断上述重新生成的字音转换概率预测模型是否最优；以及如果上述字音转换概率预测模型被判断为不是最优，则重复上述计算每一项的重要性的步骤及其之后的步骤。

根据本发明的另一个方面，提供了一种构建字音转换概率预测模型的方法，包括：形成轻声多音字的训练样本集合与非轻声多音字的训练样本集合，以及分别基于上述轻声多音字的训练样本集合与上述非轻声多音字的训练样本集合，利用上述的数据驱动训练字音转换概率预测模型的方法，构建词无关的字音转换概率预测模型和词相关的字音转换概率预测模型。

根据本发明的另一个方面，提供了一种字音转换预测方法，包括：分析输入的文本，以获得该文本的语法词序列和每个语法词的与字音转换预测相关的多个属性的值；确定上述每个语法词是否包含高频多音字；如果上述语法词包含高频多音字，则根据词相关的字音转换概率预测模型和该语法词的与字音转换预测相关的多个属性的值，计算该语法词的非轻声字音转换概率；根据词无关的字音转换概率预测模型和该语法词的与字音转换预测相关的多个属性的值，计算该语法词的轻声字音转换概率；比较上述计算出的上述语法词的各个字音转换概率，将字音转换概率最高的读音作为该语法词的预测读音；如果上述语法词不包含高频多音字，则根据上述词无关的字音转换概率预测模型和该语法词的相应的与字音转换预测相关的多个属性的值，计算该语法词的字音转换概率；以及比较上述计算出的上述语法词的各个字音转换概率，将字音转换概率最高的读音作为该语法词的预测读音。

根据本发明的另一个方面，提供了一种语音合成方法，包括：对输入的文本利用上述的字音转换预测方法，预测上述文本中的语法词的读音；以及根据上述预测的语法词的读音，进行语音合成。

根据本发明的另一个方面，提供了一种数据驱动训练字音转换概率预测模型的装置，包括：初始模型生成单元，其利用与字音转换预测相关的多个属性和至少一部分上述属性的组合生成初始字音转换概率预测模型，其中每个上述属性或上述属性的组合被作为一项；重要性计算单元，其计算上述字音转换概率预测模型中每一上述项的重要性；项删除单元，用于删除上述计算出的重要性最低的项；模型再生成单元，其利用由上述项删除单元删除后剩余的项重新生成字音转换概率预测模型；以及优化判断单元，其判断由上述模型再生成单元重新生成的字音转换概率预测模型是否最优。

根据本发明的另一个方面，提供了一种构建字音转换概率预测模型的装置，包括：轻声多音字的训练样本集合；非轻声多音字的训练样本集合；以及上述的数据驱动训练字音转换概率预测模型的装置，其分别基于上述轻声多音字的训练样本集合与上述非轻声多音字的训练样本集合训练词无关的字音转换概率预测模型和词相关的字音转换概率预测模型。

根据本发明的另一个方面，提供了一种字音转换预测装置，包括：由上述的构建字音转换概率预测模型的装置所构建的词无关的字音转换概率预测模型和词相关的字音转换概率预测模型；文本分析器，用于分析输入的文本，以获得该文本的语法词序列和每个语法词的相应的与字音转换预测相关的多个属性的值；确定单元，用于确定由上述文本分析器得到的每个语法词是否包含高频多音字；第一字音转换概率计算单元，其根据上述词相关的字音转换概率预测模型和语法词的相应的与字音转换预测相关的多个属性的值，计算包含高频多音字的语法词的非轻声字音转换概率；第二字音转换概率计算单元，其根据上述词无关的字音转换概率预测模型和语法词的相应的与字音转换预测相关的多个属性的值，计算包含高频多音字的语法词的轻声字音转换概率和不包含高频多音字的语法词的字音转换概率；以及字音转换概率比较单元，其比较上述计算出的语法词的各个字音转换概率，输出字音转换概率最高的读音作为该语法词的预测读音。

根据本发明的另一个方面，提供了一种语音合成装置，包括：上述的字音转换预测装置；并且根据上述预测的语法词的读音，进行语音合成。

附图说明

图1是根据本发明的一个实施例的数据驱动训练字音转换概率预测模型的方法的流程图；

图2是根据本发明的另一个实施例的数据驱动训练字音转换概率预测模型的方法的流程图；

图3是根据本发明的一个实施例的构建字音转换概率预测模型的方法的流程图；

图4是根据本发明的一个实施例的字音转换预测方法的流程图；

图5是根据本发明的一个实施例的语音合成方法的流程图；

图6是根据本发明的一个实施例的数据驱动训练字音转换概率预测模型的装置的示意性方框图；

图7是根据本发明的另一个实施例的数据驱动训练字音转换概率预测模型的装置的示意性方框图；

图8是根据本发明的一个实施例的构建字音转换概率预测模型的装置的示意性方框图；

图9是根据本发明的一个实施例的字音转换预测装置的示意性方框图；

图10是根据本发明的一个实施例的语音合成装置的示意性方框图。

具体实施方式

相信通过以下结合附图对本发明的具体实施方式的详细描述，本发明的上述和其它目的、特征和优点会变得更加明显。

为了便于后面实施例的理解，首先简要介绍一下广义线性模型(Generalized Linear Model，GLM)、贝叶斯信息准则(Bayes InformationCriterion，BIC)和条件随机场(Conditional Random Field，CRF)的原理。

GLM是对多元线性回归模型的一种扩展，SOP(Sum of Products，积和模型)则是GLM的一个特例。GLM参数预测模型通过语音单元s的属性A，预测出参数

相应的定义如公式(1)。

d_{i} = {\hat{d}}_{i} + e_{i} = h^{- 1} (β_{0} + Σ_{j = 1}^{p} β_{j} f_{j} (A)) + e_{i} - - - (1)

其中，h表示链接函数。一般地，可以假定d满足指数族分布。为了便d满足不同的指数族分布，只需要设定相应的链接函数。当链接函数是logit函数时，GLM就是逻辑GLM模型。GLM既能进行线性建模，也能进行非线性建模。

比较模型的性能需要有判别标准。越简单的模型对集外数据预测的稳定性越高，而越复杂的模型对集内数据的拟合程度越高。BIC是一种常见的评价标准，它综合了以上对拟合精度和模型可靠性的度量，定义如公式(2)。

BIC＝Nlog(SSE/N)+plogN (2)

其中，SSE表示预测误差e的平方和。公式(2)的第一项表示模型的拟合精度，第二项表示对模型复杂度的惩罚。当训练样本的数量N一定时，越复杂的模型的参数个数p越大，对训练数据就拟合得越好，相应的SSE就越小，第一项就越小，而第二项就增大。反之亦然。公式中一项的减小总是导致另一项的增大，当两项和最小时，表示模型“最优”。BIC能在模型复杂度和数据规模之间取得一个不错的平衡，这有助于解决数据稀疏和属性协同作用的问题。

CRF是逻辑GLM模型的扩展，也是隐马尔可夫模型(Hidden MarkovModel，HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model，MEMM)的扩展。CRF一般被用于建立概率模型以对序列数据进行分段和标记，其计算给定观测序列时可能的标记序列的概率。与隐马尔可夫模型相比，CRF的优点在于其条件特性，这放宽了隐马尔可夫模型中的无关假定。而与最大熵马尔可夫模型和其它基于有向图的条件马尔可夫模型相比，CRF可以避免标记偏差(label bias)的问题。

关于条件随机场(CRF)，例如，在John Lafferty，Andrew McCallum和Fernando Pereira著的文章“Conditional random fields：Probabilistic

models for segmenting and labeling sequence data”(发表于Proceedings of

ICML-01，pp.282-289，2001)中进行了详细的描述。

下面结合附图对本发明的各个优选实施例进行详细的说明。

图1是根据本发明的一个实施例的数据驱动训练字音转换概率预测模型的方法的流程图。利用本实施例的方法训练的字音转换概率预测模型将被用于后面结合其它实施例描述的字音转换预测方法及装置和语音合成方法及装置。

如图1所示，首先在步骤101，生成初始字音转换概率预测模型。中文多音字通常具有两个或两个以上的读音候选，因此，多音字的读音可以被认为是概率，并满足伯努利分布。

在本实施例中，字音转换概率预测模型是广义线性模型(GLM)。根据上述的GLM的原理，当链接函数h是logit函数时，得到的字音转换概率预测模型是逻辑GLM模型，如公式(3)、(4)所示：

\Pr = (G = k | A = a) = \frac{\exp (β_{k 0} + β_{k}^{T} a)}{1 + Σ_{l = 1}^{K - 1} \exp (β_{l 0} + β_{l}^{T} a)}, for k = 1,2, \cdot \cdot \cdot, K - 1 - - - (3)

\Pr (G = K | A = a) = \frac{1}{1 + Σ_{l = 1}^{K - 1} \exp (β_{l 0} + β_{l}^{T} a)} - - - (4)

其中，假定一个多音字有K个读音候选，则Pr(G＝k|A＝a)是在给定属性a条件下的第k个读音候选G的后验概率，并且β_k0是回归系数标量，是回归系数矢量。

逻辑GLM模型已被广泛应用于各种分类和回归的统计领域。它的参数通过最大似然估计法获得，更多细节请参考文献(McCullagh P.和NelderJA著的“Generalized Linear Models”，Chapman&Hal，London，1989)。

具体地，利用与字音转换预测相关的多个属性和这些属性的组合生成初始字音转换概率预测模型。如前所述，与字音转换预测相关的属性大致可分为语音类型的属性和语音类型的属性，具体可包括词性(part of speech，POS)、上下文中的词(contextual words)和词长(word length)等。

在本实施例中，采用逻辑GLM模型来表示这些属性和属性组合。为了便于说明，假定与字音转换预测相关的属性只有词性(POS)和上下文中的词(contextual words)。那么，初始字音转换概率预测模型的形式如下：Grapheme-to-Phoneme conversion probability～POS+contextualwords+POS＊contextual words，其中POS＊contextual words表示POS和contextual words的组合，是一个2阶项。

可以理解，当属性的数量增加时，作为属性组合可以出现多个2阶项、3阶项等等。

另外，在本实施例中，在生成初始字音转概率预测模型时，可以只取其中一部分的属性组合，例如只取全部的2阶项；当然，也可以取到3阶项或将全部的属性组合加入初始字音转换概率预测模型。

总之，在初始字音转换概率预测模型中包括全部的单独属性(1阶项)和至少一部分的属性组合(2阶项或多阶项)，其中每个属性或属性的组合被作为一项。这样，初始字音转换概率预测模型可以利用很简单的规则自动生成，而不是如现有技术的那样，根据经验手工设定。

接着，在步骤105，利用F检验(F-test)计算每一项的重要性(得分)。关于F检验，作为一种已知的标准统计方法，在盛骤、谢式千、潘乘毅编的《概率论与数理统计》(2002年第二版，高等教育出版社)中已经有详细的说明，在此不再重复。

应当指出，虽然在本实施例中使用的是F检验，但是，其它的统计方法也可以使用，例如，Chisq-test等。

接着，在步骤110，从初始字音转换概率预测模型中删除F检验得分最低的项。然后，在步骤115，利用剩余的项，重新生成字音转换概率预测模型。

接着，在步骤120，计算重新生成的字音转换概率预测模型的BIC值，利用前面所述的方法判断该模型是否为最优。如果步骤120的判断结果为“是”，则将该新生成的字音转换概率预测模型作为最佳模型，并在步骤125结束。如果步骤120的判断结果为“否”，则返回到步骤105，再次计算该重新生成的字音转换概率预测模型的每一项的重要性，删除重要性最低的项(步骤110)，并利用剩余的项重新生成模型(步骤115)，直到获得最佳字音转换概率预测模型。

通过以上说明可以看出，在较小语料库的条件下，本实施例构建了可靠的字音转换概率预测模型。并且，基于字音转换概率的伯努利分布，提出了一种新颖的逻辑GLM字音转换概率预测模型。本实施例利用了基于广义线性模型(GLM)的建模方法和基于F检验(F-test)和贝叶斯信息准则(BIC)的逐步回归(stepwise regression)的属性选择方法构建和训练字音转换概率预测模型。由于本实施例的GLM模型结构灵活，容易实现对训练数据的自适应，从而解决了数据稀疏问题。进而，通过逐步回归的方法能够自动地选出重要属性协同作用项。

图2是根据本发明的另一个实施例的数据驱动训练字音转换概率预测模型的方法的流程图，其中与上述实施例相同的部分采用相同的符号，并适当省略其说明。利用本实施例的方法训练的字音转换概率预测模型将被用于后面结合其它实施例描述的字音转换预测方法及装置和语音合成方法及装置。

在本实施例中，字音转换概率预测模型将采用条件随机场(CRF)模型。因此，本实施例除了包括图1所示的实施例的所有步骤之外，还包括以下步骤。如前所述，可以将GLM模型进行扩展以得到CRF模型(步骤201)，CRF模型计算在给定属性A条件下的特定输出读音G的条件概率，其定义如公式(5)。

\Pr_{λ} (G | A) = \frac{1}{Z_{a}} \exp (Σ_{t = 1}^{T} \underset{k}{Σ} λ_{k} f_{k} (g_{t - 1}, g_{t}, a, t)) - - - (5)

其中，属性函数f_k(g_t-1，g_t，a，t)用于度量从某个时间状态g_t-1到下一个时间状态g_t的过渡以及在时间t时刻的观测的属性序列a。

然后，在步骤205，使用利用图1所示的实施例的方法判断为最优的GLM模型的每一项的属性或属性的组合对该CRF模型进行训练，并将训练得到的CRF模型作为最终的字音转换概率预测模型。然后，在步骤125结束此次训练过程。

现有技术中存在多种CRF模型的训练方法，本领域的技术人员可以采用任意一种训练方法。

通过以上描述可以看出，本实施例引入了条件随机场模型作为字音转换概率预测模型，可以克服生成模型和判决模型的局限性，相应地提高预测性能。

在同一发明构思下，图3是根据本发明的一个实施例的构建字音转换概率预测模型的方法的流程图。下面结合该图对本实施例进行描述，对于那些与前面实施例相同的部分，适当省略其说明。

如图3所示，首先在步骤301，形成轻声多音字的训练样本集合与非轻声多音字的训练样本集合。多音字的训练样本集合是用于训练字音转换概率预测模型的训练数据。在本实施例中，为了提高对中文轻声多音字的字音转换的准确性，需要对中文轻声多音字构建单独的字音转换概率预测模型，相应地，需要单独形成轻声多音字的训练样本集合。也就是说，将中文多音字分成两类，一类是音调为1到4声的，即非轻声，另一类是音调为5声的，即轻声，其中非轻声多音字对应于词相关的字音转换概率预测模型，轻声多音字对应于词无关的字音转换概率预测模型。

具体地，在步骤3011，统计一个文本语料库中的多音字的每个读音的发生概率，该文本语料库应包含尽可能多的多音字。

然后，在步骤3015，根据所统计的发生概率，将该文本语料库中的多音字分类为轻声多音字和非轻声多音字，从而形成轻声多音字的训练样本集合与非轻声多音字的训练样本集合。具体地，如果某个多音字的1到4声的读音的发生概率大于5声的读音的发生概率，则该多音字是非轻声多音字，反之，该多音字是轻声多音字。

然后在步骤305，基于由步骤301得到的轻声多音字的训练样本集合与非轻声多音字的训练样本集合，利用前面实施例描述的数据驱动训练字音转换概率预测模型的方法，分别构建相应的字音转换概率预测模型。在本实施例中，这两个字音转换概率模型既可以是GLM模型，也可以是CRF模型。

此外，在本实施例中，还包括用于获得高频多音字的步骤。具体地，在形成了轻声多音字的训练样本集合与非轻声多音字的训练样本集合(步骤301)之后，在步骤310，计算上述文本语料库中的多音字的出现频率。然后在步骤315，将计算出的出现频率与阈值进行比较，该阈值可由用户自行确定。在步骤320，根据比较的结果和非轻声多音字的训练样本集合，选择出现频率大于阈值并且包含在非轻声多音字的训练样本集合中的多音字作为高频多音字。

通过以上描述可以看出，本实施例的构建字音转换概率预测模型的方法利用前面实施例的训练字音转换概率预测模型的方法，构建了词相关的字音转换概率预测模型和词无关的字音转换概率模型，以用于非轻声和轻声中文多音字；利用本实施例，可以构建简单而可靠的字音转换概率预测模型，容易实现对训练数据的自适应，解决数据稀疏的问题，能够自动的选出重要属性协同作用项。

在同一发明构思下，图4是根据本发明的一个实施例的字音转换预测方法的流程图。下面结合该图对本实施例进行描述，对于那些与前面实施例相同的部分，适当省略其说明。

如图4所示，在步骤401，分析输入的文本，从而获得该输入文本的语法词序列和其中每个语法词的与字音转换预测相关的多个属性的值。所谓语法词，是指根据语法意义或功能意义对文本进行划分而得到的词。具体的分析文本以获得语法词序列和语法词的属性的方法可以采用任何一种已知的和未来的方法，而并不限于某种特定的方式，并且获得属性的方式还与属性的选择有关。

然后，在步骤405，确定所得到的语法词序列中的语法词是否包含高频多音字。在本实施例中，高频多音字采用在图3所示的实施例中获得的高频多音字。

如果语法词包含高频多音字，则在步骤410，根据词相关的字音转换概率预测模型和获得的该语法词的属性的值，计算该语法词的非轻声字音转换概率，其中，该词相关的字音转换概率预测模型是利用图3所示的实施例描述的构建字音转换概率预测模型的方法构建的。

然后在步骤415，根据词无关的字音转换概率预测模型和获得的该语法词的属性的值，计算该语法词的轻声字音转换概率，其中该词无关的字音转换概率预测模型是利用图3所示的实施例描述的构建字音转换概率预测模型的方法构建的。

通过上述步骤410和415，可以获得包含高频多音字的语法词的各个读音的字音转换概率，然后在步骤420，比较该语法词的各个字音转换概率，并将字音转换概率最高的读音作为该语法词的预测读音。

如果该语法词不包含高频多音字，则直接执行步骤415，根据词无关的字音转换概率预测模型和获得的该语法词的属性的值，计算该语法词的字音转换概率。

然后，在步骤420，比较该语法词的各个字音转换概率，并将字音转换概率最高的读音作为该语法词的预测读音。

然后，判断该语法词是否是由步骤401得到的语法词序列中的最后一个语法词，如果是，则结束此次字音预测过程，如果不是，则返回步骤405，对语法词序列中的下一个语法词执行确定步骤以及后续的步骤。

此外，如果由步骤410和/或415计算出的语法词的各个字音转换概率相同，则将其中任意一个字音转换概率的读音作为该语法词的预测读音。

通过以上描述可以看出，本实施例的字音转换预测方法采用了词相关的字音转换概率预测模型和针对非轻声多音字的词无关的字音转换概率预测模型两个模型，分别处理不同类型的多音字，即轻声多音字和非轻声多音字，可以更准确地预测多音字的读音。

在同一发明构思下，图5是根据本发明的一个实施例的语音合成方法的流程图。下面结合该图，对本发明的实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图5所示，首先在步骤501，利用前面实施例描述的字音转换预测方法，预测输入的文本的各个语法词的读音。

然后，在步骤505，根据所预测的语法词的读音，进行语音合成。

通过以上描述可以看出，本实施例的语音合成方法采用上述实施例的字音转换预测方法预测输入文本中的语法词的读音，进而根据预测的语法词的读音进行语音合成，容易实现对训练数据的自适应，解决了数据稀疏的问题，并且能够自动地选出重要属性协同作用项，因此，本实施例的语音合成方法可以更准确并且自动地进行语音合成，所合成的语音更加合理、易懂。

在同一发明构思下，图6是根据本发明的一个实施例的数据驱动训练字音转换概率预测模型的装置的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图6所示，本实施例的数据驱动训练字音转换概率预测模型的装置600包括：初始模型生成单元601，其利用与字音转换预测相关的多个属性和至少一部分上述属性的组合生成初始字音转换概率预测模型，其中每个上述属性或上述属性的组合被作为一项；重要性计算单元602，其计算上述字音转换概率预测模型中每一上述项的重要性；项删除单元603，其删除上述计算出的重要性最低的项；模型再生成单元604，其利用由项删除单元603删除后剩余的项重新生成字音转换概率预测模型；以及优化判断单元605，其判断由模型再生成单元604重新生成的字音转换概率预测模型是否最优。

在本实施例，字音转换概率预测模型是广义线性模型(GLM)。与前面的实施例相同，与字音转换预测相关的多个属性包括：语言类型和语音类型的属性，例如，包括：从词性、上下文中的词和词长中选择的任意多个属性。

进一步地，重要性计算单元602利用F检验(F-test)计算每一项的重要性。

进一步地，优化判断单元605利用贝叶斯信息准则(BIC)判断上述重新生成的字音转换概率预测模型是否最优。

另外，根据本发明的一个优选实施例，上述至少一部分上述属性的组合包括上述多个与字音转换预测相关的属性的全部2阶的属性组合。

应当指出，本实施例的数据驱动训练字音转换概率预测模型的装置600及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。并且，本实施例的数据驱动训练字音转换概率预测模型的装置600在操作上可以实现如图1所示的实施例的数据驱动训练字音转换概率预测模型的方法。

图7是根据本发明的另一个实施例的数据驱动训练字音转换概率预测模型的装置700的示意性方框图。下面结合该图对本实施例进行详细描述，其中与前面实施例相同的部分采用相同的符号，并适当省略其说明。

本实施例的数据驱动训练字音转换概率预测模型的装置700除了包括如图6所示的实施例之外，还包括：扩展单元701，其对GLM模型进行扩展，从而得到条件随机场(CRF)模型；以及训练单元702，其使用由优化判断单元605判断为最优的GLM模型的每一项的属性或属性组合，对该CRF模型进行训练，并将训练得到的CRF模型作为最终的字音转换概率预测模型。

应当指出，本实施例的数据驱动训练字音转换概率预测模型的装置700及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。并且，本实施例的数据驱动训练字音转换概率预测模型的装置700在操作上可以实现如图2所示的实施例的数据驱动训练字音转换概率预测模型的方法。

在同一发明构思下，图8是根据本发明的一个实施例的构建字音转换概率预测模型的装置的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图8所示，本实施例的构建字音转换概率预测模型的装置800包括：轻声多音字的训练样本集合801；非轻声多音字的训练样本集合802；以及训练字音转换概率预测模型的装置，其可以是前面的实施例描述的数据驱动训练字音转换概率预测模型的装置700，该装置700分别基于轻声多音字的训练样本集合801与非轻声多音字的训练样本集合802进行训练，以构建词无关的字音转换概率预测模型和词相关的字音转换概率预测模型。

进一步地，本实施例的构建字音转换概率预测模型的装置800还包括：文本语料库803，其保存有尽可能多的多音字；统计单元804，其统计文本语料库803中的多音字的每个读音的发生概率；以及分类单元805，其根据由统计单元804得到的发生概率，将文本语料库803中的多音字分类为轻声多音字和非轻声多音字，并分别提供给轻声多音字的训练样本集合801与非轻声多音字的训练样本集合802。

进一步地，本实施例的构建字音转换概率预测模型的装置800还包括：频率计算单元806，其计算文本语料库803中的多音字的出现频率；频率比较单元807，其比较由频率计算单元806计算出的出现频率和阈值，该阈值可由用户自行确定；以及选择单元808，其选择出现频率大于该阈值并且包含在非轻声多音字的训练样本集合802中的多音字作为高频多音字。

应当指出，本实施例的构建字音转换概率预测模型的装置800及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。并且，本实施例的构建字音转换概率预测模型的装置800在操作上可以实现前面实施例的构建字音转换概率预测模型的方法。

在同一发明构思下，图9是根据本发明的一个实施例的字音转换预测装置900的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图9所示，本实施例的字音转换预测装置900包括：词无关的字音转换概率预测模型901和词相关的字音转换概率预测模型902，其由前面的实施例所描述的构建字音转换概率预测模型的装置所构建；文本分析器903，其分析输入的文本，以获得该文本的语法词序列和每个语法词的相应的与字音转换预测相关的多个属性的值；确定单元904，其确定由文本分析器903得到的语法词序列中的每个语法词是否包含高频多音字；第一字音转换概率计算单元905，其根据词相关的字音转换概率预测模型902和语法词的相应的与字音转换预测相关的多个属性的值，计算包含高频多音字的语法词的非轻声字音转换概率；第二字音转换概率计算单元906，其根据词无关的字音转换概率预测模型901和语法词的相应的与字音转换预测相关的多个属性的值，计算包含高频多音字的语法词的轻声字音转换概率和不包含高频多音字的语法词的字音转换概率；以及字音转换概率比较单元907，其比较由第一字音转换概率计算单元905和/或第二字音转换概率计算单元906计算出的语法词的各个字音转换概率，并输出字音转换概率最高的读音作为该语法词的预测读音。

在此，关于分析文本以获得语法词序列和其中每个语法词的属性的方式，如前面实施例中所述的，可以采用任何已知的和未来的方法，而并不限于某种特定的方式，并且获得属性的方式还与属性的选择有关。

进一步地，在由第一字音转换概率计算单元905和/或第二字音转换概率计算单元906计算出的语法词的各个字音转换概率相同的情况下，滋阴转换概率比较单元907输出其中任意一个字音转换概率的读音作为该语法词的预测读音。

应当指出，本实施例的字音转换预测装置900及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。并且，本实施例的字音转换预测装置900在操作上可以实现前面实施例的字音转换预测方法。

图10是根据本发明的一个实施例的语音合成装置1000的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图10所示，本实施例的语音合成装置1000包括：字音转换预测装置900，其可以是前面实施例中描述的字音转换预测装置；以及语音合成器1001，其可以使用现有技术中的语音合成器，并根据由字音转换预测装置900预测的语法词的读音，进行语音合成。

应当指出，本实施例的语音合成装置1000及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。并且，本实施例的语音合成装置1000在操作上可以实现前面实施例的语音合成方法。

以上虽然通过一些示例性的实施例详细描述了本发明的数据驱动训练字音转换概率预测模型的方法和装置、构建字音转换概率预测模型的方法和装置、字音转换预测的方法和装置以及语音合成的方法和装置，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附的权利要求限定。

Claims

1.一种数据驱动训练字音转换概率预测模型的方法，包括：

利用与字音转换预测相关的多个属性和至少一部分上述属性的组合生成初始字音转换概率预测模型，其中每个上述属性或上述属性的组合被作为一项；

计算上述字音转换概率预测模型中每一上述项的重要性；

删除上述计算出的重要性最低的项；

利用剩余的项重新生成字音转换概率预测模型；

判断上述重新生成的字音转换概率预测模型是否最优；以及

如果上述字音转换概率预测模型被判断为不是最优，则重复上述计算每一项的重要性的步骤及其之后的步骤。

2.根据权利要求1所述的数据驱动训练字音转换概率预测模型的方法，其中，上述与字音转换预测相关的多个属性包括：语言类型和语音类型的属性。

3.根据权利要求1所述的数据驱动训练字音转换概率预测模型的方法，其中，上述与字音转换预测相关的多个属性包括：从词性、上下文中的词和词长中选择的任意多个属性。

4.根据权利要求1所述的数据驱动训练字音转换概率预测模型的方法，其中，上述字音转换概率预测模型是广义线性模型(GLM)。

5.根据权利要求4所述的数据驱动训练字音转换概率预测模型的方法，还包括：扩展上述广义线性模型，得到条件随机场(CRF)模型；使用判断为最优的广义线性模型的每一项的属性或属性的组合对上述条件随机场模型进行训练，并将训练得到的条件随机场模型作为上述字音转换概率预测模型。

6.根据权利要求1所述的数据驱动训练字音转换概率预测模型的方法，其中，上述至少一部分上述属性的组合包括上述多个与字音转换预测相关的属性的全部2阶的属性组合。

7.根据权利要求1至6任意一项所述的数据驱动训练字音转换概率预测模型的方法，其中，上述计算上述字音转换概率预测模型中每一上述项的重要性的步骤包括：利用F检验(F-test)计算每一项的重要性。

8.根据权利要求1至6任意一项所述的数据驱动训练字音转换概率预测模型的方法，其中，上述判断上述重新生成的字音转换概率预测模型是否最优的步骤包括：利用贝叶斯信息准则(BIC)判断上述重新生成的字音转换概率预测模型是否最优。

9.根据权利要求8所述的数据驱动训练字音转换概率预测模型的方法，其中，上述判断上述重新生成的字音转换概率预测模型是否最优的步骤包括：

计算下式

BIC＝N log (SSE/N)+p log N，

其中，SSE表示预测误差e的平方和，N表示训练样本的数量；

当上式中的BIC最小时，判断字音转换概率预测模型为最优。

10.根据权利要求1至6任意一项所述的数据驱动训练字音转换概率预测模型的方法，其中，上述字音转换概率满足伯努利分布。

11.一种构建字音转换概率预测模型的方法，包括：

形成轻声多音字的训练样本集合与非轻声多音字的训练样本集合；以及

分别基于上述轻声多音字的训练样本集合与上述非轻声多音字的训练样本集合，利用上述权利要求1至10的任意一项所述的数据驱动训练字音转换概率预测模型的方法，构建词无关的字音转换概率预测模型和词相关的字音转换概率预测模型。

12.根据权利要求11所述的构建字音转换概率预测模型的方法，其中，所述形成轻声多音字的训练样本集合与非轻声多音字的训练样本集合的步骤包括：

统计一个文本语料库中的多音字的每个读音的发生概率；以及

根据上述发生概率，将上述文本语料库中的多音字分类为轻声多音字和非轻声多音字，以形成轻声多音字的训练样本集合与非轻声多音字的训练样本集合。

13.根据权利要求12所述的构建字音转换概率预测模型的方法，还包括：

计算上述文本语料库中的多音字的出现频率；

比较上述计算出的出现频率和阈值；以及

选择上述出现频率大于阈值并且在上述非轻声多音字的训练样本集合中的多音字作为高频多音字。

14.一种字音转换预测方法，包括：

分析输入的文本，以获得该文本的语法词序列和每个语法词的与字音转换预测相关的多个属性的值；

确定上述每个语法词是否包含高频多音字；

如果上述语法词包含上述高频多音字，则根据词相关的字音转换概率预测模型和该语法词的相应的与字音转换预测相关的多个属性的值，计算该语法词的非轻声字音转换概率；

根据词无关的字音转换概率预测模型和该语法词的与字音转换预测相关的多个属性的值，计算该语法词的轻声字音转换概率；

比较上述计算出的上述语法词的各个字音转换概率，将字音转换概率最高的读音作为该语法词的预测读音；

如果上述语法词不包含上述高频多音字，则根据上述词无关的字音转换概率预测模型和该语法词的与字音转换预测相关的多个属性的值，计算该语法词的字音转换概率；以及

其中，上述词相关的字音转换概率预测模型和上述词无关的字音转换概率预测模型是利用上述权利要求11至13的任意一项所述的构建字音转换概率预测模型的方法构建的。

15.根据权利要求14所述的字音转换预测方法，其中，如果上述计算出的上述语法词的各个字音转换概率相同，则将其中任意一个字音转换概率的读音作为该语法词的预测读音。

16.一种语音合成方法，包括：

对输入的文本利用上述权利要求14或15所述的字音转换预测方法，预测上述文本中的语法词的读音；以及

根据上述预测的语法词的读音，进行语音合成。

17.一种数据驱动训练字音转换概率预测模型的装置，包括：

初始模型生成单元，其利用与字音转换预测相关的多个属性和至少一部分上述属性的组合生成初始字音转换概率预测模型，其中每个上述属性或上述属性的组合被作为一项；

重要性计算单元，其计算上述字音转换概率预测模型中每一上述项的重要性；

项删除单元，用于删除上述计算出的重要性最低的项；

模型再生成单元，其利用由上述项删除单元删除后剩余的项重新生成字音转换概率预测模型；以及

优化判断单元，其判断由上述模型再生成单元重新生成的字音转换概率预测模型是否最优。

18.根据权利要求17所述的数据驱动训练字音转换概率预测模型的装置，其中，上述与字音转换预测相关的多个属性包括：语言类型和语音类型的属性。

19.根据权利要求17所述的数据驱动训练字音转换概率预测模型的装置，其中，上述与字音转换预测相关的多个属性包括：从词性、上下文中的词和词长中选择的任意多个属性。

20.根据权利要求17所述的数据驱动训练字音转换概率预测模型的装置，其中，上述字音转换概率预测模型是广义线性模型(GLM)。

21.根据权利要求20所述的数据驱动训练字音转换概率预测模型的装置，还包括：

扩展单元，其对上述广义线性模型(GLM)进行扩展而得到条件随机场(CRF)模型；以及

训练单元，其使用由上述优化判断单元判断为最优的广义线性模型的每一项的属性或属性组合，对上述条件随机场模型进行训练，并将训练得到的条件随机场模型作为上述字音转换概率预测模型。

22.根据权利要求17所述的数据驱动训练字音转换概率预测模型的装置，其中，上述至少一部分上述属性的组合包括上述多个与字音转换预测相关的属性的全部2阶的属性组合。

23.根据权利要求17至22任意一项所述的数据驱动训练字音转换概率预测模型的装置，其中，上述重要性计算单元利用F检验(F-test)计算每一项的重要性。

24.根据权利要求17至22任意一项所述的数据驱动训练字音转换概率预测模型的装置，其中，上述优化判断单元利用贝叶斯信息准则(BIC)判断上述重新生成的字音转换概率预测模型是否最优。

25.根据权利要求17至22任意一项所述的数据驱动训练字音转换概率预测模型的装置，其中，上述字音转换概率满足伯努利分布。

26.一种构建字音转换概率预测模型的装置，包括：

轻声多音字的训练样本集合；

非轻声多音字的训练样本集合；以及

根据权利要求17至25任意一项所述的数据驱动训练字音转换概率预测模型的装置，其分别基于上述轻声多音字的训练样本集合与上述非轻声多音字的训练样本集合训练词无关的字音转换概率预测模型和词相关的字音转换概率预测模型。

27.根据权利要求26所述的构建字音转换概率预测模型的装置，还包括：

文本语料库；

统计单元，其统计上述文本语料库中的多音字的每个读音的发生概率；以及

分类单元，根据由上述统计单元得到的上述发生概率，将上述文本语料库中的多音字分类为轻声多音字和非轻声多音字，并分别提供给轻声多音字的训练样本集合与非轻声多音字的训练样本集合。

28.根据权利要求27所述的构建字音转换概率预测模型的装置，还包括：

频率计算单元，其计算上述文本语料库中的多音字的出现频率；

频率比较单元，其比较上述计算出的出现频率和阈值；以及

选择单元，其选择上述出现频率大于阈值并且在上述非轻声多音字的训练样本集合中的多音字作为高频多音字。

29.一种字音转换预测装置，包括：

由根据上述权利要求28所述的构建字音转换概率预测模型的装置所构建的词无关的字音转换概率预测模型和词相关的字音转换概率预测模型；

文本分析器，用于分析输入的文本，以获得该文本的语法词序列和每个语法词的相应的与字音转换预测相关的多个属性的值；

确定单元，用于确定由上述文本分析器得到的语法词序列中的每个语法词是否包含上述高频多音字；

第一字音转换概率计算单元，其根据上述词相关的字音转换概率预测模型和语法词的相应的与字音转换预测相关的多个属性的值，计算包含上述高频多音字的语法词的非轻声字音转换概率；

第二字音转换概率计算单元，其根据上述词无关的字音转换概率预测模型和语法词的相应的与字音转换预测相关的多个属性的值，计算包含上述高频多音字的语法词的轻声字音转换概率和不包含上述高频多音字的语法词的字音转换概率；以及

字音转换概率比较单元，其比较上述计算出的语法词的各个字音转换概率，输出字音转换概率最高的读音作为该语法词的预测读音。

30.根据权利要求29所述的字音转换预测装置，其中，上述字音转换概率比较单元还适用于：在上述计算出的语法词的各个字音转换概率相同的情况下，输出其中任意一个字音转换概率的读音作为该语法词的预测读音。

31.一种语音合成装置，包括：

上述权利要求29或30所述的字音转换预测装置；并且

根据上述预测的语法词的读音，进行语音合成。