CN102651217A

CN102651217A - 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Info

Publication number: CN102651217A
Application number: CN2011100465804A
Authority: CN
Inventors: 汪曦; 楼晓雁; 李健
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-02-25
Filing date: 2011-02-25
Publication date: 2012-08-29
Also published as: US9058811B2; US20120221339A1

Abstract

本发明涉及一种用于合成语音的方法、设备以及用于训练在语音合成中使用的声学模型的方法。所述用于合成语音的方法可以包括：确定文本分析生成的数据为模糊多音字数据；对所述模糊多音字数据进行模糊多音字预测，以输出所述模糊多音字数据的多个候选发音及其概率；基于所述多个候选发音及其概率，生成模糊上下文特征标注；基于具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数；对所述模型参数生成语音参数；以及将所述语音参数合成为语音。根据本发明的实施例的方法和设备，可以对中文中难以预测的多音字进行模糊化处理，从而改善中文多音字合成的质量。

Description

用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

技术领域

本发明涉及语音合成，更具体地，涉及中文多音字的合成。

背景技术

由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成部分。利用语音合成技术可以让机器象人那样说话，使一些以其它方式表示或存储的信息能转换为语音，从而人们可以通过听觉方便地获得这些信息。

目前展开大量研究和应用的是文语转换TTS系统，在该系统中通常输入待合成的文本，系统包含的文本分析器对之进行处理，输出发音描述符号，其包括音段层面的注音符号与超音段层面的韵律符号。该文本分析器首先根据发音字典，将待合成文本分解为带有属性标注的词及其读音符号，再根据语义规则和语音规则，为每一个词、每一个音节确定语句结构及语调，以及停顿词性距离等目标语音的语言学以及韵律特征。之后将发音描述符号输入到该系统包含的合成器，通过语音合成，输出合成的语音。

在现有技术中，基于隐马尔科夫HMM声学模型已经广泛应用于语音合成技术，可以容易地修改和变换合成的声音。语音合成通常分为模型训练和合成部分。在模型训练阶段，对语音库中各语音单元包含的声学参数以及对应的音段、韵律等标注属性，进行统计模型的训练。这些标注来源于语言和声学知识，其组成的上下文特征(context feature)描述了对应的语音属性(例如声调、词性等)。在HMM声学模型的训练阶段，对模型参数的估计来自对这些语音单元参数的统计计算。

在现有技术中，考虑到如此多、具有大量变化的上下文组合，一般采用决策树的树聚类方法来处理。决策树可以将上下文特征和声学特征相似的候选基元聚成一类，从而有效地避免了数据稀疏，并有效地减少了模型的数量。问题集是供决策树构造使用的问题的集合，结点分裂时所选中的问题与此结点绑定，从而决定哪些基元进入同一个叶子结点。聚类的过程参考预先定义的问题集，决策树的每个结点都绑定一个“Yes/No”问题，所有允许进入根节点的候选基元都要回答结点上绑定的问题，根据回答结果选择进入左分支还是右分支。因此，每个将具有相同或者接近上下文特征的音节或音素处在决策树的同一个叶子结点中，节点对应的模型通常可以是HMM模型或状态，模型由参数描述。同时，聚类也是一个学习处理在合成中遇到新情况的过程，从而可以实现最优的匹配。通过对训练数据的训练以及聚类得到隐马尔科夫(HMM)模型以及对应模型的决策树。

在合成阶段，通过文本分析器和上下文标注生成器得到多音字的上下文特征标注。针对该上下文特征标注在训练好的决策树上找到相应的声学模型参数(例如HMM声学模型的状态序列)。然后该模型参数经过参数生成算法得到相应的语音参数，从而通过合成器(Vocoder)合成语音。

语音合成系统的目标就是能够合成跟人声一样智能和自然的声音。但是对于中文语音合成系统，多音字的读音预测准确率很难保证，因为多音字的发音往往根据语义确定，而语义理解又是一个具有挑战性的课题。这样相互依赖的关系导致多音字预测的难以取得令人满意的高准确性。在现有技术中，即使对这个读音的预测没有足够把握，语音合成系统一般都会对该多音字给出一个确定的发音。

在中文中，不同的读音代表了不同的意义。如果语音合成系统给出错误的发音，将会引起听者理解上的歧义，给听者很不好的感受。从而对于在生活、工作以及科学研究(例如车载导航、自动声讯服务、广播、机器人模拟等)中应用的语音合成系统，将会由于明显错误的多音字读音而造成不好的用户体验，甚至使用的不便。因此，在语音合成领域中存在对改进的多音字的语音合成方法以及系统的需要。

发明内容

为此，提供了本发明的实施例的用于语音合成的方法及其系统以及训练用于语音合成的声学模型的方法。通过实施本发明的实施例，可以具有以下优点：可以在系统没有足够把握给出正确读音的情况下，模糊化多音字的读音，并且不影响整个系统其他正常声音的质量，此方法将会避免明显的错误，从而提高合成系统的整体主观听感。

根据本发明的一个方面，提供了一种用于语音合成的方法，可以包括：确定文本分析生成的数据为模糊多音字数据；对所述模糊多音字数据进行模糊多音字预测，以输出所述模糊多音字数据的多个候选发音及其概率；基于所述多个候选发音及其概率，生成模糊上下文特征标注；基于确定的具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数；对所述模型参数生成语音参数；以及将所述语音参数合成为语音。

优选的，生成模糊上下文特征标注的步骤可以进一步包括：基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度；以及通过量化转换所述程度以生成所述模糊上下文特征标注，其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。

根据本发明的另外的方面，提供一种用于合成语音的设备，可以包括：多音字预测单元，用于预测模糊多音字数据的发音，以输出所述模糊多音字数据的多个候选发音以及预测概率；模糊上下文特征标注生成单元，用于基于所述多个候选发音及其概率，生成模糊上下文特征标注；确定单元，用于基于确定的具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数；参数生成器，用于针对所述模型参数生成语音参数；以及合成器，用于将所述语音参数合成为语音。

优选的，所述模糊上下文特征标注生成单元可以进一步被配置为：基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度；以及通过量化转换所述程度以生成所述模糊上下文特征标注，其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。

根据本发明的另外的方面，提供一种用于合成语音的系统，可以包括：用于确定文本分析生成的数据为模糊多音字数据的装置；用于对所述模糊多音字数据进行模糊多音字预测，以输出所述模糊多音字数据的多个候选发音及其概率的装置；用于基于所述多个候选发音及其概率，生成模糊上下文特征标注的装置；用于基于具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数的装置；用于对所述模型参数生成语音参数的装置；以及用于将所述语音参数合成为语音的装置。

根据本发明的另外的方面，提供一种用于训练声学模型的方法，可以包括：训练语音库中各语音单元，以生成声学模型，所述语音单元包含声学参数以及上下文标注；对于上下文组合，进行决策树聚类处理以生成具有决策树的声学模型；基于所述具有决策树的声学模型，确定语音库中的模糊数据；针对所述模糊数据，生成模糊上下文特征标注；以及基于所述模糊上下文特征标注，对所述语音库进行聚类训练，以生成具有模糊决策树的声学模型。

优选的，确定模糊数据的步骤可以进一步包括：评估语音单元；以及确定所述语音单元的候选上下文标注落入分类的程度；以及如果所述程度满足预定阈值，则确定所述语音单元为模糊数据。

优选的，评估语音单元的步骤可以进一步包括：通过模型后验概率或模型生成参数与语音单元参数之间的距离来评估所述语音单元的候选发音的上下文特征标注的分值。

优选的，生成模糊上下文特征标注的步骤可以进一步包括：通过评估所述语音单元来确定所述语音单元发音的对应候选上下文特征标注的分值；基于所述分值确定所述语音单元的候选上下文标注落入分类的程度；以及通过量化转换所述程度以生成所述模糊上下文特征标注，其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。

优选的，所述基于所述模糊上下文特征标注，进行聚类训练的步骤可以进一步包括以下之一：基于所述模糊上下文特征标注和预设的模糊问题集，训练包括所述模糊数据的训练集以生成具有所述模糊决策树的声学模型；以及基于问题集和上下文特征标注再次训练所述语音库中的各语音单元，其中所述问题集还包括预设的模糊问题集，以及所述语音库中的模糊数据的上下文特征标注为所述模糊上下文特征标注。

附图说明

结合附图，从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见，其中：

图1示出了根据本发明实施例的用于训练具有模糊决策树的声学模型的方法的流程图。

图2示出了根据本发明实施例的方法的确定模糊数据的处理流程图。

图3示出了根据本发明的实施例的方法的通过模型后验概率评估训练数据的操作。

图4示出了根据本发明的实施例的方法的通过模型生成参数与真实参数之间的距离来评估训练数据的操作。

图5例示了根据本发明的实施例的对模糊数据进行量化转换操作以生成模糊上下文。

图6例示了根据本发明的实施例的合成语音的方法。

图7是根据本发明实施例的用于合成语音的设备的框图。

具体实施方式

下面，结合附图对本发明的实施例进行详细描述。

一般地，本发明实施例涉及在电子设备(例如电话系统、移动终端、车载交通工具、自动声讯服务系统、广播系统、机器人等和/或类似物)中合成语音的方法及其系统以及训练声学模型的方法。

概括而言，本发明的基本构思是：针对中文多音字合成，不选择确定的唯一候选发音，而是对模糊多音字的语音进行模糊化处理，从而避免了事先就给出武断甚至错误的抉择。在本发明的实施例中，模糊多音字是指现有技术中的多音字预测单元难以预测处理的多音字；而模糊数据是在训练语音库中的、由于发音人的连续语音协同发音的影响以及偶然的发音失误所产生的语音数据，其满足模糊条件(通常可以根据成员函数定义模糊阈值)以及用于模型训练，相应地，这种不易确定候选发音的语音称为模糊语音。可以在训练和合成阶段引入模糊决策树以较好地实现这一过程，模糊决策树通常用来处理不确定性，能够在复杂和模糊的边界帮助推导出更智能的决策，从而做出模糊情况下的最优选择。而模糊化的读音旨在包含每个候选发音的特征，特别是那些概率较大的候选发音，这样可以避免产生候选发音的判断错误，从而减少合成刺耳或错误的语音的概率。

在本发明的实施例中，在模型训练阶段，可以引入模糊决策树，对包括模糊数据的语音库进一步训练，得到声学模型(例如HMM声学模型)以及该模型对应的模糊决策树(例如具有模糊决策树的HMM声学模型)；在合成阶段，当多音字预测单元不能给出合适的选择时，则对此字的发音进行模糊化处理，以在合成器合成对应的语音，从而使合成的声音更接近预测可能性大的候选。合成阶段的处理可以操作如下：经过多音字预测单元获得多个候选发音的概率，进行模糊上下文特征处理得到具有多候选模糊特征的模糊上下文标注，基于训练生成的具有模糊决策树的声学模型、根据该模糊上下文标注获得对应模型参数，该模型参数经过参数生成算法得到相应的语音参数，从而通过合成器将该语音参数合成为语音。

图1示出了根据本发明实施例的用于训练具有模糊决策树的声学模型的方法的流程图。如图1所示，在步骤S110，训练语音库中各语音单元，以生成声学模型。在本发明的实施例中，语音库一般是预先录制的、通过语音输入端口输入的参考语音。各语音单元包含声学参数以及描述对应的音段、韵律属性的上下文标注。

以HMM声学模型为例，在该模型的训练阶段，对模型参数的估计来自对这些语音单元参数的统计计算，这是本领域中广泛使用的成熟的技术，在此不再赘述。

在步骤S120，对于具有大量变化的上下文组合，通常采用决策树的树聚类方法处理声学模型以生成具有决策树的声学模型，例如CART(Classification and Regression Tree)。采用聚类方法可以有效地避免数据稀疏，并减少模型的数量。同时，聚类也是学习处理在合成中遇到新情况的过程，可以实现最优的匹配。聚类的过程参考预先定义的问题集。问题集是供决策树构造使用的问题的集合，结点分裂时所选中的问题与此结点绑定，从而决定哪些基元进入同一个叶子结点。其问题集可以根据具体应用环境不同。例如中文中具有5类声调{1，2，3，4，5}，每一类可以作为决策树的一个问题，在对多音字确定声调的情况下，问题集可如表一所示来设置：

表一问题集所用的问题以及取值

其代码如下所示：

QS″phntone＝＝1″{″＊|phntone＝1|＊″} 声调为第1类吗？

QS″phntone＝＝2″{″＊|phntone＝2|＊″} 声调为第2类吗？

QS″phntone＝＝3″{″＊|phntone＝3|＊″} 声调为第3类吗？

QS″phntone＝＝4″{″＊|phntone＝4|＊″} 声调为第4类吗？

QS″phntone＝＝5″{″＊|phntone＝5|＊″} 声调为第5类吗？

对于本领域技术人员而言，决策树的使用是本领域常用的技术，其可以依据各种应用环境而采用各种决策树，设置各种问题集，以及基于该问题分裂来构建决策树，在此不再赘述。

在本发明的实施例中，通过对训练数据进行训练以及聚类可以得到隐马尔科夫HMM模型以及对应模型的决策树。然而，本领域技术人员应该理解，其他类型的声学模型也可以应用在本发明的实施例的模糊化处理中。

在本发明的实施例中，语音单元可以是音素、音节或声韵母等其他单元，为简单起见，仅例示声韵母作为语音单元进行处理。然而，本领域技术人员应该理解，本发明的实施例应该不限于此。

在本发明的实施例中，还基于模糊数据，对声学模型进行再次训练。例如，在步骤S140，针对上述具有决策树的声学模型(隐马尔科夫HMM模型)，确定语音库中的模糊数据。在本发明的实施例中，可以采用某些多音字相关上下文的所有可能的标注、基于实际数据来评估该标注表征实际数据的能力，然后根据该评估结果确定该语音数据是否属于模糊数据。之后，在步骤S160，针对符合条件的模糊数据，生成模糊上下文特征标注。于是，在步骤S180，针对包括模糊数据的语音库，基于该模糊上下文特征标注来训练模糊决策树，以生成具有模糊决策树的声学模型。

图2示出了根据本发明实施例的方法的确定模糊数据的处理流程图。如图2所示，在步骤S210，生成训练库中的语音数据的所有可能的上下文特征标注。所有可能的上下文标注指的是对于一些要作为多音字模糊处理的属性，比如声调，生成所有的可能。在本发明的实施例中，不关注是否符合语言规范，而生成所有的可能。例如，对于多音字“为”，理论上该多音字的读音是wei4和wei2。而对于所有声调都生成可能的标注即指生成wei1，wei2，wei3，wei4，wei5。上下文特征标注表征了语音段的语言和语音的属性，例如语音基元的实体声韵母，声调，音节，在音节、词、短语以及句中的位置，前后关联的单元的相关信息，以及句子的类型等。声调是多音字的重要特征，以声调为例，在普通话中可以有5个声调，那么对于该训练数据则可有5个平行的上下文特征标注。本领域技术人员应该理解，对于多音字中的不同的发音，也可以生成可能的上下文特征标注，其处理与声调的处理类似。

在步骤S220，基于在步骤S120训练好的声学模型(例如具有决策树的HMM模型)，评估训练数据。例如，对于具有N个平行的上下文特征标注下的某一语音单元，则可以计算出其对应的N个分值依次是s[1]...s[k]...s[N]，该分值反映了该标注表征真实参数的能力。在本发明的实施例中，任何可以量化出评估的方法都可以采用，例如计算模型条件下的后验概率或者模型生成参数与真实参数之间的距离等，下面将详细描述。

在步骤S230，基于评估结果，例如计算的反映表征力的分值，来判断语音单元是否为模糊数据。在本发明的实施例中，评估分值较低的数据可以被确定为模糊数据，用于进一步的训练。在此，评估分值较低指在平行的上下文特征标注中，所有的分值都没有足够的优势来证明其才是这个单元的实际最优标注。

在本发明的实施例中，也可以根据成员函数(membership function)来计算该语音单元的上下文特征标注对应的分值落入该分类的程度。成员函数m_k可以针对这些平行分值表示如下：

m_{k} = \frac{s [k]}{Σ_{K = 1}^{N} s [k]} - - - (1)

其中，s[k]为上下文特征标注对应的分值，N为上下文特征标注的个数。

在本发明的实施例中，满足模糊条件(通常根据成员函数定义模糊阈值)的数据则为模糊数据。模糊阈值的设定可以是固定的，例如对于所有候选中没有占有50％以上分值的候选，则此数据可以认为是模糊数据。可选地，该模糊阈值也可以是动态的，例如可以根据当前数据库中当前单元所属定义类别总数的分值排序选取排名靠后的某一部分(如10％)

在本发明的实施例中，在对训练数据库进行模糊数据的挑选和转换对整个训练是有利的，该过程不仅生成了用于模糊决策树训练的数据，也为正常数据的训练准确度提高作出了贡献，并且无需显著增加训练量。

图3示出了根据本发明的实施例的方法的通过模型后验概率评估训练数据的操作。在本发明的实施例中，为简明起见，训练数据以某个语音单元为例。如图3所示，对于该语音单元的N个可能的上下文特征标注16a-1label 1...16a-k label k...16a-N label N，可以在步骤S120训练好的模型(例如具有决策树的HMM模型)上找到各自对应的声学模型(21a-1 model1...21a-k model k...21a-N model N)。在本发明的实施例中，以HMM声学模型为例来说明以下评估训练数据的操作。然而，应该理解本发明的实施例不限于此。

对于给定的语音单元，其语音参数矢量序列表示如下：

O = {[o_{1}^{T}, o_{2}^{T}, . . . o_{T}^{T}]}^{T} - - - (2)

该语音单元的语音参数矢量序列在模型HMMλ的后验概率表示为：

P (O | λ) = \underset{Q}{Σ} P (O, Q | λ) - - - (3)

其中，Q为HMM状态序列{q₁，q₂，...，q_T}。

将语音单元的每一帧与模型状态对齐，并得到状态序号。然后可以计算以下概率：

P (o_{t}, q_{i} | λ) = Σ_{j = 1}^{N} b_{j} (o_{t}) - - - (4)

其中，b_j(o_t)是t时刻观测量o_t在当前模型的第j个状态的输出概率，其高斯分布概率及其均依赖于HMM的类型，例如连续混合密度HMM。

b_{j} (o_{t}) = P (o_{i} | i, j) = Σ_{m = 1}^{M} ω_{ijm} b_{ij} (o_{i}) = \frac{1}{{(2 π)}^{p / 2} {| Σ_{ij} |}^{1 / 2}} e^{{- \frac{1}{2} (o_{i} - μ_{ij}) {Σ_{ij}}^{- 1} {(o_{i} - μ_{ij})}^{T}}} - - - (5)

其中，ω_ijm是第j个状态的第i个混合分量的权重。μ_ij和∑_ij是均值和协方差。

可选地，在本发明的实施例中，还可以通过模型生成参数与真实参数之间的距离来评估训练数据。图4示出了根据本发明的实施例的方法的通过模型生成参数与真实参数之间的距离来评估训练数据的操作。如图4所示，仍然以某语音单元为例，其与上述实施例类似，仍然具有所有可能的上下文特征标注16b-1label 1...16b-k label k...l6b-N label N，以及确定其各自对应的模型21a-1model 1..21a-k model k...21a-N model N。同时，根据各个模型参数恢复出语音参数25b-1parameter 1...25b-k parameterk...25b-N parameter N(其为测试参数)。通过计算针对这一单元的语音参数(为参考参数)和恢复参数之间的距离，来评估这些可能上下文特征标注的分值。

如上所述，对于给定的语音单元，其语音参数矢量序列O表示为：

O = {[o_{1}^{T}, o_{2}^{T}, . . . o_{T}^{T}]}^{T}

而恢复语音参数可以如下表示为：

O^{'} = {[{o_{1}^{T}}^{'}, {o_{2}^{T}}^{'}, . . . {o_{T^{'}}^{T}}^{'}]}^{T} - - - (6)

在给定语音单元的真实参数T和恢复语音参数T′之间将存在差异。首先在T和T′之间进行线性映射。通常将恢复语音参数T′扩展或压缩到为T。于是如下来计算两者之间的欧几里得距离：

D (O, O^{'}) = sqrt (Σ_{i = 1}^{N} Σ_{m = 1}^{M} {(o_{mi} - {o_{mi}}^{'})}^{2}) - - - (7)

在本发明的实施例中，可以通过量化映射进行转换来生成模糊上下文标注。模糊上下文标注表征了当前语音单元的语言和声学特征，并且对将要进行模糊化处理的多音字的相关属性进行了程度化的模糊定义，可以根据语音单元的各个标注量化的分值转换为对应的上下文程度(例如high，low等)，并进行联合表示，以生成模糊上下文标注。注意到，在本发明的实施例中，模糊上下文标注按照客观计算而生成，可以不受语言学的限制，比如通过计算得到wei3或者wei的声调1和5的组合等等。以下以对具有5个声调的某个语音单元的操作来例示其生成的模糊上下文标注。

如图5所示，假定该单元的候选声调为声调2，在此表示为tone＝2，按照如上所述的成员函数membership对各可能的上下文特征标注(其对应于声调tone＝(1，2，3，4，5))计算其落入该分类的程度的值。于是将各成员函数值进行归一化，量化到0-1之间的值，如(0.05，0.45，0.1，0.2，0.2)。并确定其上下文的程度，例如high、middle或low。则将各上下文特征标注联合表示为模糊上下文特征标注。

在本发明的实施例中，可设阈值例如threshold＝0.2，则在生成模糊上下文特征标注时只考虑满足该基线要求的发音候选，例如tone 2，4和5。将按照上述声调对应的分布程度生成模糊上下文标注，例如tone＝High2_Low4_Low5。

本领域技术人员应该理解，生成模糊上下文特征标注可以有多种方式，例如可以根据统计整个训练库中同类音段的分值分布，然后根据分布比例的直方图得到量化的模糊上下文。应该注意，本发明的实施例仅用作例示，本发明实施例的生成模糊上下文特征标注的方式不限于此。

在本发明的实施例中，通过生成模糊上下文特征标注，可以具有模糊化的多样性特征，从而可以避免在不好的数据引起的不确定的属性类别中作出生硬的分类。

在本发明的实施例中，对模糊数据生成模糊上下文特征标注后，可以进行模糊决策树训练，而该决策树训练的同时就更新了声学模型的模型参数。在此，仍以确定声调为例，然而本领域技术人员可以理解，该方法对于具有不同读音的多音字确定候选读音同样可以适用。仍以上述实例为例来简要说明。如表二所示，可以设置对应的模糊问题集为：

表二问题集所用的问题以及取值

以上例示的问题可以包含结合声调的分类的多种情况，针对每种情况可以提问。这些情况的组合可以来自语言知识，也可以来自训练时出现的实际组合等。

在本发明的实施例中，可以采用多种聚类方式，例如针对整个训练库重新进行聚类，或仅针对模糊数据组成的二次训练库进行聚类等。在对整个训练库进行重新聚类时，如果该训练库中的训练数据为模糊数据，则将其标注更换为如上生成的模糊上下文特征标注，并在问题集中增加类似的模糊问题集。

在本发明的实施例中，在对二次训练库进行聚类时，基于已经训练的声学模型和决策树，仅使用模糊上下文标注和模糊问题集进行训练。

如上所述的那样进行聚类，则得到具有模糊决策树的声学模型。

在本发明的实施例中，通过训练从真实语音中得到具有模糊决策树的声学模型以改善语音合成的质量，从而使模糊化处理变得合理、灵活和智能，并使常规语音也得到更精确的训练。

图6例示了根据本发明的实施例的合成语音的方法。该用于语音合成的方法，可以包括：确定文本分析生成的数据为模糊多音字数据；对所述模糊多音字数据进行模糊多音字预测，以输出所述模糊多音字数据的多个候选发音及其概率；基于所述多个候选发音及其概率，生成模糊上下文特征标注；基于确定的具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数；对所述模型参数生成语音参数；以及将所述语音参数合成为语音。

如图6所示，在步骤S610，确定文本分析生成的数据为模糊多音字数据。在本发明的实施例中，文本分析器对待合成文本进行分词操作，将其分解为带有属性标注的词及其读音符号，再根据语义规则和语音规则，为每一个词、每一个音节确定语句结构及语调，以及停顿等目标语音的韵律特征。根据分词结果可以得到多字词和单字词，多字词一般可以根据字典确定发音，其中包含多音字，则这样的多音字不作为本发明的模糊多音字数据。而本发明的实施例中的多音字，一般指的是经过分词以后仍具有多个发音的单字。于是在对该多音字进行语音预测过程中，会产生各个候选发音的预测结果，该预测结果描述了在具体的词的情况下，多音字的发音具有的相应概率。判决该多音字为模糊多音字数据的方式具有多种，例如可以设置阈值，满足该阈值的多音字则为模糊多音字数据。例如对于所有候选中没有概率为70％以上的候选，则此多音字可以认为是模糊多音字数据。确定模糊多音字数据的原理与在训练阶段确定模糊数据的原理类似，在此不再赘述。

之后，在步骤S620，对所述模糊多音字数据进行模糊多音字预测，以输出所述模糊多音字数据的多个候选发音及其概率。在本发明的实施例中，对于非模糊多音字数据，其发音可以以较高可信度地确定，因此不需要进行模糊化处理，则进行常规多音字预测处理，以输出该确定的候选发音。如果该多音字为模糊多音字数据，则进行模糊化处理，输出多个候选发音以及对应的概率。

接下来，在步骤S630，基于所述多个候选发音及其概率，生成模糊上下文特征标注。在本发明的实施例中，该步骤的执行与训练过程中生成模糊上下文特征标注的步骤S160类似，均可通过量化映射来转换或其他方式实现，在此不再赘述。

在步骤S640，基于具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定对应的模型参数。在本发明的实施例中，对于HMM声学模型，则对应的模型参数为HMM模型包含的状态下各分量的分布。

在步骤S650，对所述模型参数生成语音参数。可以采用本领域常用的参数生成算法，例如根据最大似然概率条件的参数生成算法等，在此不再赘述。

最后，在步骤S660，将所述语音参数合成为语音。

在本发明的实施例中，通过对模糊多音字数据的发音进行模糊化处理来合成语音，从而在不同的上下文情境下，该发音可以具有多样的变化，从而改善了语音合成的质量。

在同一发明构思下，图7是根据本发明实施例的用于合成语音的设备的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

用于合成语音的设备700可以包括：多音字预测单元703，用于对模糊多音字数据进行模糊预测，以输出所述模糊多音字数据的多个候选发音以及预测概率；模糊上下文特征标注生成单元704，用于基于所述多个候选发音及其概率，生成模糊上下文特征标注；确定单元705，用于基于确定的具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数；参数生成器706，用于针对所述模型参数生成语音参数；以及合成器707，用于将所述语音参数合成语音。

本发明的用于合成语音的设备700可以实现上述用于合成语音的方法，其具体操作请参考如上内容，在此不再赘述。

在本发明的实施例中，设备700还可以包括文本分析器702，用于将待合成文本分解为带有属性标注的词及其读音符号。可选地，设备700还可以包括输入/输出单元701，用于输入待合成的文本以及输出合成的语音。可选地，在本发明的实施例中，还可以从外部直接输入已进行文本分析的符号流。因此，如图7所示，文本分析器702和输入/输出单元701以虚线示出。

在本发明的实施例中，用于合成语音的设备700及其各个部分，操作上可以实现前面描述的实施例的用于合成语音的方法或其步骤。

本实施例中的用于合成语音的设备700及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。

本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和设备也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以由上述硬件电路和软件的结合例如固件来实现。

虽然以上结合具体实施例对本发明的用于训练声学模型的方法、用于合成语音的方法和设备进行了详细描述，但本发明并不限于此，本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围；本发明的保护范围由所附权利要求来限定。

Claims

1.一种用于语音合成的方法，包括：

确定文本分析生成的数据为模糊多音字数据；

对所述模糊多音字数据进行模糊多音字预测，以输出所述模糊多音字数据的多个候选发音及其概率；

基于所述多个候选发音及其概率，生成模糊上下文特征标注；

基于具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数；

对所述模型参数生成语音参数；以及

将所述语音参数合成为语音。

2.如权利要求1所述的方法，其中生成模糊上下文特征标注的步骤进一步包括：

基于所述概率确定所述模糊多音字数据的候选发音的上下文标注落入分类的程度；以及

通过量化转换所述程度以生成所述模糊上下文特征标注，其中所述模糊上下文特征标注为所述候选发音的上下文标注的联合表示。

3.一种用于合成语音的设备，包括：

多音字预测单元，用于模糊预测模糊多音字数据的发音，以输出所述模糊多音字数据的多个候选发音以及预测概率；

模糊上下文特征标注生成单元，用于基于所述多个候选发音及其概率，生成模糊上下文特征标注；

确定单元，用于基于具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数；

参数生成器，用于针对所述模型参数生成语音参数；以及

合成器，用于将所述语音参数合成语音。

4.如权利要求3所述的设备，其中所述模糊上下文特征标注生成单元进一步被配置为：

5.一种用于合成语音的系统，包括：

用于确定文本分析生成的数据为模糊多音字数据的装置；

用于对所述模糊多音字数据进行模糊多音字预测，以输出所述模糊多音字数据的多个候选发音及其概率的装置；

用于基于所述多个候选发音及其概率，生成模糊上下文特征标注的装置；

用于基于具有模糊决策树的声学模型，针对所述模糊上下文特征标注确定模型参数的装置；

用于对所述模型参数生成语音参数的装置；以及

用于将所述语音参数合成为语音的装置。

6.一种用于训练声学模型的方法，包括：

训练语音库中各语音单元，以生成声学模型，所述语音单元包含声学参数以及上下文标注；

对于上下文组合，进行决策树聚类处理以生成具有决策树的声学模型；

基于所述具有决策树的声学模型，确定语音库中的模糊数据；

针对所述模糊数据，生成模糊上下文特征标注；以及

基于所述模糊上下文特征标注，对所述语音库进行聚类训练，以生成具有模糊决策树的声学模型。

7.如权利要求6所述的方法，其中确定模糊数据的步骤进一步包括：

评估语音单元；以及

确定所述语音单元的候选上下文标注落入分类的程度；以及

如果所述程度满足预定阈值，则确定所述语音单元为模糊数据。

8.如权利要求7所述的方法，其中评估语音单元的步骤进一步包括：

通过模型后验概率或模型生成参数与语音单元参数之间的距离来评估所述语音单元的候选发音的上下文特征标注的分值。

9.如权利要求6所述的方法，其中生成模糊上下文特征标注的步骤进一步包括：

通过评估所述语音单元来确定所述语音单元的候选发音的上下文特征标注的分值；

基于所述分值确定所述语音单元的候选上下文标注落入分类的程度；以及

10.如权利要求6所述的方法，其中基于所述模糊上下文特征标注，进行聚类训练的步骤进一步包括以下之一：

基于所述模糊上下文特征标注和预设的模糊问题集，训练包括所述模糊数据的训练集以生成具有所述模糊决策树的声学模型；以及

基于问题集和上下文特征标注再次训练所述语音库中的各语音单元，其中所述问题集还包括预设的模糊问题集，以及所述语音库中的模糊数据的上下文特征标注为所述模糊上下文特征标注。