CN103366733A

CN103366733A - 文本到语音的系统

Info

Publication number: CN103366733A
Application number: CN2013101101486A
Authority: CN
Inventors: 赤岭政巳; L-M·哈维尔; W·V·P·梁; C·K·康; G·M·J·弗朗西斯; K·K·马里
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-03-30
Filing date: 2013-04-01
Publication date: 2013-10-23
Also published as: GB2501067A; EP2650874A1; US20130262119A1; JP6092293B2; GB2501067B; US9269347B2; JP2013214063A; GB201205791D0; JP2015172769A

Abstract

一种文本到语音的方法，其被配置为输出具有所选择的说话者声音和所选择的说话者属性的语音，该方法包括：输入文本；将所输入的文本划分成声学单元序列；选择用于所输入的文本的说话者；选择用于所输入的文本的说话者属性；使用声学模型，将声学单元序列转换成语音向量序列；输出语音向量序列，作为具有所选择的说话者声音和所选择的说话者属性的音频，其中，所述声学模型包括与说话者声音有关的第一组参数和与说话者属性有关的第二组参数，第一组和第二组参数没有重叠，选择说话者声音包括从第一组参数中选择给出说话者声音的参数，选择说话者属性包括从第二组参数中选择给出所选择的说话者属性的参数。

Description

文本到语音的系统

相关申请的交叉引用

本申请基于并要求2012年3月30日提交的申请号为No.1205791.5的英国专利申请的优先权，其整个内容在此作为参考被结合。

技术领域

在此一般描述的实施例涉及文本到语音的系统和方法。

背景技术

文本到语音的系统是响应于接收文本文件而输出音频语音或音频语音文件的系统。

文本到语音的系统被广泛用于各种应用，诸如电子游戏、电子书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动报警系统。

发明内容

为了解决持续需要使系统听起来更像人类声音的问题，本实施例提供一种文本到语音的系统。

在一个实施例中，提供一种文本到语音的方法，其被配置为输出具有所选择的说话者声音和所选择的说话者属性的语音，所述方法包括：

输入文本；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的说话者；

选择用于所输入的文本的说话者属性；

使用声学模型，将所述声学单元序列转换成语音向量序列；以及

输出所述语音向量序列，作为具有所选择的说话者声音和所选择的说话者属性的音频；

其中，所述声学模型包括与说话者声音有关的第一组参数和与说话者属性有关的第二组参数，其中第一组参数和第二组参数没有重叠，选择说话者声音包括从第一组参数中选择给出说话者声音的参数，选择说话者属性包括从第二组参数中选择给出所选择的说话者属性的参数。

上述方法使用说话者声音和属性的分解。第一组参数可被认为提供“说话者模型”，第二组参数可被认为提供“属性模型”。在这两组参数之间没有重叠，因此，它们可独立地变化，以使得属性可与一定范围的不同说话者相结合。

根据一些实施例的方法合成具有多个说话者声音和多个表达（expression）和/或任何其它类型的声音特性（诸如说话风格、口音等）的语音。

这些组参数可以是连续的，以使得说话者声音能够在连续的范围上变化，声音属性能够在连续的范围上变化。连续的控制不仅允许诸如“悲伤的”或“生气的”表达，而且允许任何中间的表达。第一组和第二组参数的值可以使用音频、文本、外部代理或其任意组合定义。

可能的属性与情绪、说话风格或口音有关。

在一个实施例中，有多个独立的属性模型，例如情绪和属性，以使得可以将说话者模型与模拟情绪的第一属性模型和模拟口音的第二属性模型相结合。在此，可以有与不同的说话者属性有关的多组参数，并且这多组参数没有重叠。

在另一个实施例中，声学模型包括将声学单元与语音向量序列相关的概率分布函数，第一组参数和第二组参数的选择将修改所述概率分布。一般地，这些概率密度函数被称为高斯函数，并将用均值和方差描述。然而，其它概率分布函数也是可以的。

在另一个实施例中，说话者声音和属性的控制通过所述概率分布的均值的加权和实现，第一组参数和第二组参数的选择将控制所使用的权重和偏移量。例如：

{μ_{xpr}}^{spkrModel} = \underset{&ForAll; i}{Σ} λ_{i}^{spkr} μ_{i}^{skprModel} + \underset{&ForAll; k}{Σ} λ_{k}^{xpr} μ_{k}^{xprModel}

其中，是与表达xpr相结合的说话者模型的概率分布的均值，μ^spkrModel是缺少表达的说话者模型的均值，μ^xprModel是与说话者无关的表达模型的均值，λ^spkr是说话者依赖权重，λ^xpr是表达依赖权重。

输出语音的控制可利用加权平均值实现，以使得每个声音特性可由独立的一组均值和权重控制。

以上可使用聚类自适应训练（CAT）类型方法实现，其中，第一组参数和第二组参数以聚类（cluster）提供，每个聚类包括至少一个子聚类，对于每个子聚类，获取一个权重。

在一个实施例中，所述第二组参数与偏移量（offset）有关，其中该偏移量被添加到第一组参数的至少一些参数上，例如：

μ_xpr ^spkrModel=μ_neu ^spkrModel+Δ_xpr

其中，是用于中性情绪的说话者模型，Δ_xpr是偏移量。在该特定例子中，偏移量将被应用于中性情绪的说话者模型，但也可根据偏移量是否相对于中性情绪或另一种情绪来计算而被应用于不同情绪的说话者模型。

在此，当使用基于聚类的方法时，偏移量Δ可以被认为是加权平均值。然而，其它方法也可以，如在后面所说明的。

这将允许通过在目标模型的均值上添加模拟一个或多个所期望的声音特性的偏移向量来将一个统计模型的声音特性输出到目标统计模型。

根据本发明的实施例的一些方法允许语音属性被从一个说话者移植到另一个说话者。例如，通过将从第一说话者的语音中获得的第二参数添加到第二说话者的语音上来将语音属性从第一说话者移植到第二说话者。

在一个实施例中，这可通过以下步骤实现：

从用将要被移植的属性说话的第一说话者接收语音数据；

识别最接近于第二说话者的语音数据的第一说话者的语音数据；

确定从用将要被移植的属性说话的第一说话者获取的语音数据与最接近于第二说话者的语音数据的第一说话者的语音数据之间的差异；以及

根据所述差异确定第二参数，例如，第二参数可以通过函数f与所述差异有关：

在此，

是特定说话者的表达模型的均值，该说话者用将要被移植的属性xpr说话，

是特定说话者的模型的均值向量，其最佳匹配于将被应用该属性的说话者的模型。在该例子中，示出了用于中性情绪数据的最佳匹配，但它也可以用于任何其它对于两个说话者是共同或相似的属性。

差异可以根据将声学单元与语音向量序列相关的概率分布的均值向量之间的差异确定。

应当指出，“第一说话者”模型也可以是合成的，诸如根据来自多个说话者的数据的组合而建立的平均声音模型。

在另一个实施例中，第二参数被确定为所述差异的函数，所述函数是线性函数，例如：

其中，A和b是参数。控制所述函数的参数（例如A和b）和/或与说话者模型的表达最相似的表达的均值向量可以根据表达模型集合的参数和以下的一个或多个自动计算：

说话者依赖模型的概率分布的参数或者

用于训练这种说话者依赖模型的数据；

有关说话者依赖模型的声音特性的信息。

识别最接近于第二说话者的语音数据的第一说话者的语音数据可包括最小化距离函数，其依赖于第一说话者的语音数据的概率分布和第二说话者的语音数据的概率分布，例如使用表达式：

其中，

和

是说话者模型的均值和方差，

和

是情绪模型的均值和方差。

距离函数可以是欧氏（euclidean）距离、巴氏（Bhattacharyya）距离或KL（Kullback-Leibler）距离。

在另一个实施例中，提供了一种训练用于文本到语音的系统的声学模型的方法，其中所述声学模型将声学单元序列转换成语音向量序列，该方法包括：

从多个说话者接收语音数据，多个说话者用不同的属性说话；

将与用共同属性说话的说话者有关的语音数据与所接收的数据分离；

使用从用共同属性说话的多个说话者接收的语音数据，训练第一声学子模型，所述训练包括获取第一组参数，其中，所述第一组参数被改变以允许声学模型适应用于多个说话者的语音；

根据剩余的语音训练第二声学子模型，所述训练包括：从所述剩余的语音中识别多个属性，以及获取第二组参数，其中，所述第二组参数被改变以允许所述声学模型适应用于所述多个属性的语音；以及

通过合并第一和第二声学子模型来输出声学模型，以使得所合并的声学模型包括与说话者声音有关的第一组参数和与说话者属性有关的第二组参数，其中第一组和第二组参数没有重叠，选择说话者声音包括从第一组参数中选择给出该说话者声音的参数，选择说话者属性包括从第二组参数中选择给出所选择的说话者属性的参数。

例如，共同属性可以是用中性情绪说话的说话者的子集，或者所有用相同的情绪、相同的口音等说话的说话者。对于所有属性，并不需要记录所有说话者。也可以（如以上关于移植属性所说明的）是关于一个属性训练系统，其中该属性的语音数据仅从不是用于训练第一模型的说话者之一的一个说话者获取。

对于每个声音特性，训练数据的分组可以是唯一的。

在另一个实施例中，声学模型包括概率分布函数，其将声学单元与语音向量序列相关，训练第一声学子模型包括将概率分布排列成聚类，每个聚类包括至少一个子聚类，所述第一参数是将被应用的说话者依赖权重，以使得每个子聚类有一个权重，训练第二声学子模型包括将概率分布排列成聚类，每个聚类包括至少一个子聚类，其中所述第二参数是将被应用的属性依赖权重，以使得每个子聚类有一个权重。

在一个实施例中，训练通过迭代过程进行，其中该方法包括：重新估计第一声学模型的参数而保持第二声学子模型的部分参数固定，然后重新估计第二声学子模型的参数而保持第一声学子模型的部分参数固定，重复执行上述步骤直到满足收敛标准为止。收敛标准可以用执行固定次数的重新估计代替。

在另一个实施例中，提供了一种文本到语音的系统，用于模拟具有所选择的说话者声音和所选择的说话者属性的语音，所述系统包括：

文本输入，用于接收所输入的文本；

处理器，其被配置为：

将所输入的文本划分成声学单元序列；

允许选择用于所输入的文本的说话者；

允许选择用于所输入的文本的说话者属性；

使用声学模型，将所述声学单元序列转换成语音向量序列，其中，所述模型具有多个模型参数，其描述将声学单元与语音向量相关的概率分布；以及

其中，所述声学模型包括与说话者声音有关的第一组参数和与说话者属性有关的第二组参数，其中第一组参数和第二组参数没有重叠，其中，选择说话者声音包括从第一组参数中选择给出该说话者声音的参数，选择说话者属性包括从第二组参数中选择给出所选择的说话者属性的参数。

根据本发明的实施例的方法可在通用计算机的硬件或软件中实现。另外，根据本发明的实施例的方法可被实现为硬件与软件的结合。根据本发明的实施例的方法还可用单个处理装置或处理装置的分布式网络实现。

由于根据实施例的一些方法可以用软件实现，因此，一些实施例包含在任何适当的承载媒体上提供给通用计算机的计算机代码。承载媒体可包括任何存储媒体，诸如软盘、CD-ROM、磁盘或可编程存储器设备，或者任何瞬态媒体，诸如任何信号，例如电、光或微波信号。

附图说明

现在参照附图描述根据非限定性实施例的系统和方法，其中：

图1是文本到语音的系统的示意图；

图2是示出由语音处理系统执行的步骤的流程图；

图3是高斯概率函数的示意图；

图4是根据一个实施例的语音处理方法的流程图；

图5是示出如何选择声音特性的系统的示意图；

图6是图5的系统的变形；

图7是图5的系统的另一个变形；

图8是图5的系统的再一个变形；

图9是可被训练的文本到语音的系统的示意图；

图10是表示根据一个实施例的训练语音处理系统的方法的流程图；

图11是更详细地示出图10的训练说话者聚类的一些步骤的流程图；

图12是更详细地示出图10的训练与属性有关的聚类的一些步骤的流程图；

图13是实施例所使用的决策树的示意图；

图14是示出收集适合于使用图10的方法训练系统的不同类型的数据的示意图；

图15是示出根据一个实施例的系统的适应的流程图；

图16是示出根据另一个实施例的系统的适应的流程图；

图17是示出情绪如何在不同说话者之间移植的图；

图18是示出情绪语音的移植的声学空间的图。

具体实施方式

图1示出文本到语音的系统1。文本到语音的系统1包括处理器3，其执行程序5。文本到语音的系统1还包括存储器7。存储器7存储由程序5使用以将文本转换成语音的数据。文本到语音的系统1还包括输入模块11和输出模块13。输入模块11连接到文本输入15。文本输入15接收文本。文本输入15例如可以是键盘。可选择地，文本输入15可以是用于从外部存储器媒体或网络接收文本数据的装置。

连接到输出模块13的是音频输出17。音频输出17用于输出从输入到文本输入15中的文本转换而来的语音信号。音频输出17例如可以是直接的音频输出，例如扬声器，或者是可被发送到存储器媒体、网络等的音频数据文件的输出。

在使用时，文本到语音的系统1通过文本输入15接收文本。在处理器3上执行的程序5使用在存储器7中存储的数据将文本转换成语音数据。语音经由输出模块13输出到音频输出17。

现在参照图2描述简化的过程。在第一个步骤S101，文本被输入。文本可经由键盘、触摸屏、文本预测器等输入。接着，文本被转换成声学单元序列。这些声学单元可以是音素（phoneme）或字素（grapheme）。这些单元可以是上下文依赖的，例如三音素（triphone），其不仅考虑已被选择的音素，而且考虑正在进行和随后的音素。文本可使用本领域公知的技术来转换成声学单元序列，在此不进一步进行说明。

在步骤S105，查找将声学单元与语音参数相关的概率分布。在该实施例中，概率分布是由均值和方差定义的高斯分布。尽管可以使用其它分布，诸如泊松分布、学生t（Student-t）分布、拉普拉斯分布或伽马分布，但其中一些由与均值和方差不同的变量定义。

对于每个声学单元，不可能具有确定的与语音向量或使用本领域的术语的“观察值”的一对一对应。许多声学单元以相似的方式发音，受到周围的声学单元、其在词或句子中的位置的影响，或者由不同的说话者进行不同的发音。因此，每个声学单元仅具有与语音向量有关的概率，文本到语音的系统计算许多概率，并选择给定声学单元序列时最可能的观察值序列。

高斯分布在图3中示出。图3可以被认为是与语音向量相关的声学单元的概率分布。例如，示为X的语音向量具有与具有图3所示的分布的音素或其它声学单元对应的概率P1。

高斯分布的形状和位置由其均值和方差定义。这些参数在训练系统期间确定。

接着，这些参数在步骤S107中被用在声学模型中。在本描述中，声学模型是隐马尔可夫模型（HMM）。然而，也可以使用其它模型。

文本到语音的系统存储许多概率密度函数，其将声学单元（即音素、字素、词或其一部分）与语音参数相关。由于通常使用高斯分布，因此，这些通常被称为高斯分量（Gaussians component）。

在隐马尔可夫模型或其它类型的声学模型中，与特定声学单元相关的所有潜在语音向量的概率必须被考虑。然后，最可能对应于声学单元序列的语音向量序列将被考虑。这意味着在序列的所有声学单元上的全局优化考虑了两个单元彼此影响的方式。因此，当考虑了声学单元序列时，特定声学单元的最可能的语音向量可能并不是最佳语音向量。

一旦语音向量序列已被确定，则在步骤S109，输出语音。

图4是用于根据一个实施例的文本到语音的系统的过程的流程图。在步骤S201，文本以与参照图2描述的相同的方式接收。接着在步骤S203，文本被转换成声学单元序列，其中声学单元可以是音素、字素、上下文依赖音素或字素、和词或其一部分。

图4的系统可以使用具有多个不同声音属性的多个不同说话者输出语音。例如，在一个实施例中，声音属性可以从声音响亮、高兴的、悲伤的、生气的、紧张的、平静的、命令性的等中选择。说话者可以从潜在的说话声音的范围中选择，诸如男声、年轻女声等。

在步骤S204，确定所期望的说话者。这可通过多个不同的方法来进行。用于确定所选择的说话者的一些可能的方法的例子参照图5至图8说明。

在步骤S206，选择将被用于声音的说话者属性。说话者属性可以从多个不同的种类中选择。例如，种类可从情绪、口音等中选择。在根据一个实施例的方法中，属性可以是高兴的、悲伤的、生气的等。

在参照图4描述的方法中，每个高斯分量用均值和方差描述。在该特定方法中，同样，将被使用的声学模型已使用聚类自适应训练方法（CAT）来训练，其中，说话者和说话者属性通过将权重应用于已被排列成聚类的模型参数来适应。

在某些实施例中，将有多个不同的状态，其每一个使用高斯来模拟。例如，在一个实施例中，文本到语音的系统包括多个流。这种流可以从频谱参数（频谱）、基础频率的对数（Log F₀）、对数F₀的一阶微分（ΔLogF₀）、对数F₀的二阶微分（ΔΔLog F₀）、频带非周期性参数（bandaperiodicity parameter，简称BAP）、持续时间等的一个或多个中选择。这些流还可被划分成类别，诸如沉默（sil）、暂停（pau）和说话（spe）等。在一个实施例中，来自每个流和类别的数据将使用HMM模拟。HMM可包括不同数量的状态，例如，在一个实施例中，5个状态HMM可用于模拟来自以上的流和类别中的一些的数据。对于每个HMM状态，确定高斯分量。

在图4的使用基于CAT的方法的系统中，用于所选择的说话者的高斯的均值被表示为高斯的独立均值的加权和。因此：

μ_{m}^{(s, e_{1}, . . . e_{F})} = \underset{i}{Σ} λ_{i}^{(s, e_{1}, . . . e_{F})} μ_{c (m, i)}

公式1

其中，是具有所选择的说话者语音s和属性e₁,...e_F的分量m的均值，i∈{1,......,P}是聚类的索引，P是聚类的总数，

是说话者s和属性e₁,...e_F的第i个聚类的说话者和属性依赖插值权重；μ_c(m,i)是聚类i中的分量m的均值。对于聚类中的一个，通常聚类i=1，所有的权重总是被设置为1.0。该聚类被称为“偏置聚类（bias cluster）”。

为了获得每个因子的独立控制，权重被定义为：

λ^{(s, e_{1}, . . ., e_{F})} = {[1, λ^{(s) T}, λ^{(e_{1}) T}, . . ., λ^{(e_{F}) T}]}^{T}

因此，公式1可被重写为：

μ_{m}^{(s, e_{1}, . . . e_{F})} = μ_{c (m, 1)} + \underset{i}{Σ} λ_{i}^{(s)} {μ^{(s)}}_{c (m, i)} + Σ_{f = 1}^{F} (\underset{i}{Σ} λ_{i}^{(e_{f})} {μ^{(e_{f})}}_{c (m, i)})

其中，μ_c(m,1)表示与偏置聚类相关联的均值，是说话者聚类的均值，

是属性f的均值。

每个聚类包括至少一个决策树。对于聚类中的每个分量都有一个决策树。为了简化表达式，c(m,i)∈{1,......,N}表示用于第i个聚类的均值向量决策树中分量m的总叶节点索引，N是所有聚类的决策树上的叶节点的总数。决策树的详情将在后面说明。

在步骤S207，系统查找均值和方差，其以可访问的方式存储。

在步骤S209，系统查找用于所期望的说话者和属性的均值的权重。本领域的普通技术人员应当知道，说话者和属性依赖权重可以在步骤S207中查找均值之前或之后查找。

因此，在步骤S209之后，可以获取说话者和属性依赖均值，即使用均值并应用权重，接着在步骤S211，这些以与参照图2中的步骤S107所描述的相同的方式用在声学模型中。然后，语音在步骤S213输出。

高斯的均值被聚类。在一个实施例中，每个聚类包括至少一个决策树，在所述树中使用的决策是基于语言、语音和韵律变化的。在一个实施例中，对于每个分量，有一个决策树，其是聚类的成员。韵律、语音和语言上下文影响最终的语音波形。语音上下文通常影响声道（vocal tract），韵律（例如音节）和语言（例如，词的部分语音）上下文影响韵律，诸如持续时间（节奏）和基础频率（音调）。每个聚类可包括一个或多个子聚类，其中每个子聚类包括所述决策树中的至少一个。

以上可被认为是获取每个子聚类的权重或者每个聚类的权重向量，其中权重向量的分量是每个子聚类的权重。

以下的配置示出标准的实施例。为了模拟该数据，在该实施例中，使用5个状态HMM。对于该例子，数据被分成三个类别：沉默、暂停和说话。在该特定实施例中，每个子聚类的决策树和权重的分配如下所示。

在该特定实施例中，对每个聚类使用以下的流：

频谱：1个流，5个状态，1个树/状态×3个类别

LogF₀：3个流，5个状态/流，1个树/状态和流×3个类别

BAP：1个流，5个状态，1个树/状态×3个类别

持续时间：1个流，5个状态，1个树×3个类别（每个树在所有状态上共享）

总数：3×26＝78个决策树。

对于上面的例子，以下的权重被应用于每个流/声音特性，例如说话者：

频谱：1个流，5个状态，1个权重/流×3个类别

LogF₀：3个流，5个状态/流，1个权重/流×3个类别

BAP：1个流，5个状态，1个权重/流×3个类别

持续时间：1个流，5个状态，1个权重/状态和流×3个类别

总数：3×10＝30个权重。

如在该例子中所示出的，可以对不同的决策树（频谱）分配相同的权重，或者对相同的决策树（持续时间）分配多于一个的权重，或者任意其它组合。如在此所使用的，将被分配相同的权重的决策树被认为形成子聚类。

在一个实施例中，具有所选择的说话者和属性的高斯分布的均值被表示为高斯分量的均值的加权和，其中，总和使用来自每个聚类的一个均值，该均值根据当前正被处理的声学单元的韵律、语言和语音上下文选择。

图5示出选择用于输出声音的说话者和属性的可能方法。在此，用户例如使用鼠标拖放屏幕上的点、使用键盘以输入图形等直接选择权重。在图5中，包括鼠标、键盘等的选择单元251使用显示器253选择权重。显示器253在该例子中具有两个雷达图，一个用于属性，一个用于声音，其示出了权重。用户可以使用选择单元251以经由雷达图改变各个聚类的优势。本领域的普通技术人员应当知道，也可以使用其它显示方法。

在一些实施例中，权重可以被投影到它们自己的空间，“权重空间”，最初权重代表每个维度。该空间可以被重新排列成不同的空间，其维度表示不同的声音属性。例如，如果所模拟的声音特性是“表达（expression）”，则一个维度可表示高兴的声音特性，另一个表示紧张的等，用户可以选择增加在高兴的声音维度上的权重，以使得该声音特性占优势。在这种情况下，新空间的维数低于原始权重空间的维数。然后，原始空间的权重向量λ(s)可被获得为新空间的坐标向量α^(s)的函数。

在一个实施例中，原始权重空间到低维度权重空间的投影使用λ^(s)=Hα^(s)类型的线性公式形成，其中H是投影矩阵。在一个实施例中，矩阵H被定义成对于d个人工选择的代表性说话者，在其列上设置原始λ^(s)，其中d是新空间的所期望的维度。其它技术可用于降低权重空间的维度或者在α^(s)的值对于若干说话者预先定义时用于自动发现将控制α空间映射到原始λ权重空间的函数。

在另一个实施例中，系统具备存储器，其保存预定组的权重向量。每个向量可被设计为允许文本用不同的声音特性和说话者组合输出。例如，高兴的声音、暴怒的声音等与任意说话者组合。根据这种实施例的系统在图6中示出。在此，显示器253示出可由选择单元251选择的不同的声音属性和说话者。

系统可基于预定组的属性指明一组说话者输出的选择。然后，用户可选择所需要的说话者。

在另一个实施例中，如图7所示，系统自动确定权重。例如，系统需要输出与它识别为命令或问题的文本对应的语音。系统可被配置为输出电子书。系统可从文本中识别出何时某些内容由书中角色说出而不是叙述者，例如根据引号，并改变权重以将新的声音属性引到输出。系统还可以被配置为确定用于该不同语音的说话者。系统还可以被配置为识别文本是否被重复。在这种情况下，声音特性可对于第二输出改变。进一步地，系统可被配置为识别文本是指高兴的时刻或者紧张的时刻，文本用适当的声音特性输出。

在上述的系统中，提供了存储器261，其存储将要在文本中检查的属性和规则。输入文本由单元263提供给存储器261。文本的规则被检查，然后有关声音特性的类型的信息被传递给选择单元265。然后，选择单元265查找用于所选择的声音特性的权重。

上述的系统和考虑还可被应用于在计算机游戏中使用的系统，其中游戏中的角色说话。

在另一个实施例中，系统从另一个源接收有关将要被输出的文本的信息。这种系统的例子在图8中示出。例如，在电子书的情况下，系统可以接收表明文本的某些部分应当如何被输出和用于文本的那些部分的说话者的输入。

在计算机游戏中，系统将能够根据游戏确定正在说话的角色是否已受伤、是否在隐藏因而必须低声说、是否正试图吸引某个人的注意、是否已成功完成游戏的一个阶段等。

在图8的系统中，有关文本应当如何被输出的其它信息从单元271接收。然后，单元271将该信息发送给存储器273。接着，存储器273获取有关声音应当如何被输出的信息，并将其发送到单元275。然后，单元275获取用于所期望的声音输出的权重，包括说话者和所期望的属性。

以下将参照图9至图13描述根据实施例的系统的训练。首先描述有关基于CAT的系统的训练。

图9的系统类似于参照图1描述的系统。因此，为了避免不必要的重复，相同的附图标记将用于表示相同的特征。

除了参照图1描述的特征以外，图9还包括音频输入23和音频输入模块21。当训练系统时，必需具有匹配经由文本输入15输入的文本的音频输入。

在基于隐马尔可夫模型（HMM）的语音处理系统中，HMM通常被表示为：

M=(A,B,∏) 公式2

其中，是状态转移概率分布，是状态输出概率分布，是初始状态概率分布，其中N是HMM中状态的数量。

HMM如何用在文本到语音的系统中是本领域公知的，在此将不再描述。

在当前实施例中，状态转移概率分布A和初始状态概率分布根据本领域已知的过程确定。因此，本说明书的剩余部分将涉及状态输出概率分布。

通常，在文本到语音的系统中，来自模型集合M的第m个高斯分量的状态输出向量或语音向量ο(t)是

P (o (t) | m, s, e, M) = N (o (t); μ_{m}^{(s, e)}, Σ_{m}^{(s, e)})

公式3

其中，μ^(s,e) _m和Σ^(s,e) _m是说话者s和表达e的第m个高斯分量的均值和方差。

训练传统的文本到语音的系统的目标是估计模型参数集合M，其使特定观察值序列的似然性最大化。在传统的模型中，有一个单独的说话者和表达，因此，对于所有的分量m，模型参数集合是μ^(s,e) _m=μ_m和Σ^(s,e) _m=Σ_m。

由于不可能根据所谓的最大似然（ML）准则纯粹解析地获得上述模型集合，因此，传统地，问题通过使用称为期望最大化（EM）算法（通常称为Baum-Welch算法）的迭代方法解决。在此，获得辅助函数（Q函数）：

Q (M, M^{'}) = \underset{m, t}{Σ} γ_{m} (t) \log p (o (t), m | M)

公式4

其中，γ_m(t)是分量m的后验概率，其生成在当前模型参数M'下的观察值ο(t)，M是新的参数集合。在每次迭代之后，参数集合M'被新的参数集合M代替，其使Q(M,M')最大化。p(ο(t),m|M)是诸如GMM、HMM等的生成模型。

在本实施例中，使用HMM，其具有状态输出向量：

公式5

其中，m∈{1,......,MN}、t∈{1,......,T}、s∈{1,......,S}和e∈{1,......,E}分别是分量、时间、说话者和表达的索引，其中MN、T、S和E分别是分量、帧、说话者和表达的总数。

和的准确形式依赖于所应用的说话者和表达依赖变换的类型。最一般地，说话者依赖变换包括：

-一组说话者-表达依赖权重

-说话者-表达依赖聚类

-一组线性变换

由此这些变换可以仅依赖于说话者、仅依赖于表达或者依赖于两者。

在步骤211中应用了所有可能的说话者依赖变换之后，用于说话者s和表达e的概率分布m的均值向量

和协方差矩阵

变成：

公式6

公式7

其中，μ_c(m,i)是如在公式1中描述的分量m的聚类I的均值，

是用于说话者s和表达e的附加聚类的分量m的均值向量，其将在后面描述，

和是与用于说话者s、表达e的回归类别（regression class）r(m)相关联的线性变换矩阵和偏置向量。R是回归类别的总数，r(m)∈{1,......,R}表示分量m所属的回归类别。

如果没有应用线性变换，则

和

分别变成单位矩阵和零向量。

由于将在后面说明的原因，在该实施例中，协方差被聚类并排列成决策树，其中v(m)∈{1,......,V}表示分量m的协方差矩阵所属的协方差决策树中的叶节点，V是方差决策树叶节点的总数。

使用上述内容，辅助函数可被表示为：

公式8其中C是与M无关的常数。

因此，使用上述内容并在公式8中替换公式6和7，辅助函数示出模型参数可被分成四个不同的部分。

第一部分是正则模型的参数，即说话者和表达独立均值{μ_n}以及说话者和表达独立协方差{Σ_k}，上述的索引n和k表明将在后面描述的均值和方差决策树的叶节点。第二部分是说话者-表达依赖权重

其中s表示说话者，e表示表达，i表示聚类索引参数。第三部分是说话者-表达依赖聚类的均值μ_c(m,x)，第四部分是CMLLR约束的最大似然线性回归变换

其中s表示说话者，e表示表达，d表示分量或分量m所属的说话者-表达回归类别。

一旦辅助函数以上述形式表示，则其依次相对于每个变量进行最大化，以便获得说话者和声音特性参数的ML值、说话者依赖参数的ML值和声音特性依赖参数的ML值。

详细地，为了确定均值的ML估计值，执行下面的过程：

为了简化下面的公式，假定没有应用线性变换。如果应用线性变换，则原始观察值向量{ο_r(t)}必须用变换向量替换。

公式9

类似地，假定没有附加聚类。在训练期间包括该额外聚类仅相当于添加线性变换，其中

是单位矩阵，

首先，公式4的辅助函数相对于μn求微分，如下所示：

公式10

其中

G_{nv} = \underset{c (m, j) = v}{\underset{c (m, i) = n}{\underset{m, i, j}{Σ}}} G_{ij}^{(m)},

k_{n} = \underset{c (m, i) = n}{\underset{m, i}{Σ}} k_{i}^{(m)}

公式11

并且

和

是累积的统计值

G_{ij}^{(m)} = \underset{t, s, e}{Σ} γ_{m} (t, s, e) λ_{i, q (m)}^{(s, e)} Σ_{v (m)}^{- 1} λ_{j, q (m)}^{(s, e)}

k_{i}^{(m)} = \underset{t, s, e}{Σ} γ_{m} (t, s, e) λ_{i, q (m)}^{(s, e)} Σ_{v (m)}^{- 1} o (t)

公式12

通过将导数设为零而以正常方式最大化公式，从而对于μ_n的ML估计，即获得以下公式：

公式13

应当指出，μ_n的ML估计还依赖于μ_k，其中k不等于n。索引n用于表示均值向量的决策树的叶节点，而索引k表示协方差决策树的叶节点。因此，需要通过在所有μ_n上进行迭代直到收敛为止来实现优化。

这可通过对下面的方程求解来同时优化所有μ_n来实现。

公式14

然而，如果训练数据少或者N相当大，则公式7的系数矩阵不能具有满秩。该问题可通过使用奇异值分解或其它公知的矩阵因式分解技术来避免。

然后，执行相同的过程以便执行协方差的ML估计，即，公式8所示的辅助函数相对于Σk求微分以得到：

公式15

其中：

{\overset{&OverBar;}{o}}_{q (m)}^{(s, e)} (t) = o (t) - M_{m} λ_{q}^{(s, e)}

公式16

说话者依赖权重的ML估计和说话者依赖线性变换也可以相同的方式获得，即，对辅助函数相对于被要求ML估计的参数求微分，然后将导数值设为0。

对于表达依赖权重，得到：

公式17

其中，

同样，对于说话者依赖权重

其中，

在一个实施例中，过程以迭代的方式执行。参照图10至图12的流程图，说明该基本系统。

在步骤S401，接收多个音频语音输入。在该示例性例子中，使用4个说话者。

接着，在步骤S403，对于4个声音中的每一个，其中每个声音用中性情绪说话，训练并产生声学模型。在该实施例中，四个模型中的每一个仅使用来自一个声音的数据训练。S403将参照图11的流程图详细地描述。

在图11的步骤S305，聚类的数量P被设置为V+1，其中V是声音的数量（4）。

在步骤S307，一个聚类（聚类1）被确定为偏置聚类。偏置聚类的决策树和相关的聚类均值向量使用在步骤S303中产生最佳模型的声音进行初始化。在该例子中，每个声音被付与一个标记“声音A”、“声音B”、“声音C”和“声音D”，在此，声音A被假定为已经产生最佳模型。用于多空间概率分布（MSD）的协方差矩阵、空间权重以及它们的参数共享结构也被初始化为声音A模型的。

每个二叉决策树以本地最优方式构建，其从表示所有上下文的单个根节点开始。在该实施例中，通过上下文，使用以下基础，即语音基础、语言基础和韵律基础。当创建每个节点时，选择关于上下文的下一个最优问题。根据哪个问题导致在似然性和在训练例子中生成的终端节点方面的最大增加来选择问题。

然后，搜索该组终端节点以发现可使用其最优问题以将在总似然性上的最大增加提供给训练数据来进行分裂的节点。假定该增加超过阈值，则节点使用最佳问题分开，并创建两个新的终端节点。当由于任何进一步的分裂都不会超过被应用于似然性分裂的阈值而不会形成新的终端节点时，过程结束。

这个过程例如在图13中示出。在均值决策树中的第n个终端节点被问题q划分成两个新的终端节点

和

通过该分裂而获得的似然性增益可如下计算：

L (n) = - \frac{1}{2} μ_{n}^{T} (\underset{m &Element; S (n)}{Σ} G_{ii}^{(m)}) μ_{n} + μ_{n}^{T} \underset{m &Element; S (n)}{Σ} (k_{i}^{(m)} - \underset{j &NotEqual; i}{Σ} G_{ij}^{(m)} μ_{c (m, j)})

公式18

其中，S(n)表示与节点n相关联的一组分量。应当指出，不包括相对于μ_n是常数的项。

C是独立于μ_n的常数项。μ_n的最大似然性通过公式13给出。因此，上面的公式可以写成：

公式19

因此，通过将节点n分裂成节点

和

而获得的似然性如下给出：

ΔL (n; q) = L (n_{+}^{q}) + L (n_{-}^{q}) - L (n)

公式20

因此，使用上述公式，可以对于每个聚类构建一个决策树，其中树被安排成使得首先在树中提问最优问题，决策根据分裂的似然性而按照层级顺序排列。然后，权重被应用于每个聚类。

也可以对方差构建决策树。协方差决策树可如下构建：如果协方差决策树中的终端节点被问题q分成两个新的终端节点

和

，则通过分裂而获得的聚类协方差矩阵和增益如下表示：

Σ_{k} = \frac{\underset{v (m) = k}{\underset{m, t, s, e}{Σ}} γ_{m} (t) Σ_{v (m)}}{\underset{v (m) = k}{\underset{m, t, s, e}{Σ}} γ_{m} (t)}

公式21

L (k) = - \frac{1}{2} \underset{v (m) = k}{\underset{m, t, s, e}{Σ}} γ_{m} (t, s, e) \log | Σ_{k} | + D

公式22

其中，D是独立于{Σ_k}的常数。因此，似然性的增量是

ΔL (k, q) = L (k_{+}^{q}) + L (k_{-}^{q}) - L (k)

公式23

在步骤S309，特定声音标记被分配给聚类2、…、P中的每一个，例如聚类2、3、4和5分别用于说话者B、C、D和A。应当指出，由于声音A用于初始化偏置聚类，因此，它被分配给最后一个将被初始化的聚类。

在步骤S311，一组CAT插值权重根据所分配的声音标记而只设置为1或0：

在该实施例中，每个说话者、每个流有全局权重。

在步骤S313，对于每个聚类2、…、(P-1)，依次如下初始化这些聚类。用于相关联的声音的声音数据（例如聚类2的声音B）使用在步骤S303中训练的用于相关联的声音的单说话者（mono-speaker）模型进行对准。在这些对准下，计算统计值，并估计聚类的决策树和均值。聚类的均值使用在步骤S311中设置的权重被计算为聚类均值的归一化加权和，即在实践中，这导致特定上下文的均值是该上下文的偏置聚类均值和聚类2中该上下文的声音B模型均值的加权和（在两种情况下权重都是1）。

在步骤S315，使用来自所有4个声音的所有数据，对于偏置聚类重新建立决策树，相关的均值和方差参数被重新估计。

在添加了声音B、C和D的聚类之后，同时使用所有4个声音重新估计偏置聚类。

在步骤S317，对于在步骤S313中描述的其它聚类，仅使用来自声音A的数据，初始化聚类P（声音A）。

一旦聚类已经如上所述地初始化，则CAT模型被如下更新/训练：

在步骤S319，从聚类1到P，逐个聚类地重新构建决策树，而保持CAT权重不变。在步骤S321，在CAT模型中估计新的均值和方差。接下来在步骤S323，对于每个聚类，估计新的CAT权重。在一个实施例中，过程循环回到步骤S321直到收敛为止。参数和权重使用通过使用Baum-Welch算法的辅助函数来执行的最大似然计算来估计，以获得所述参数的更好估计。

如前所述，参数通过迭代过程估计。

在另一个实施例中，在步骤S323，过程循环回到步骤S319，以使得决策树在每个迭代期间重新创建，直到收敛为止。

然后，过程返回到图10的步骤S405，在该步骤中，对于不同的属性训练模型。在该特定实施例中，属性是情绪。

在该实施例中，说话者的声音中的情绪以与步骤S403中模拟说话者的声音所描述的相同的方式使用聚类自适应训练来模拟。首先，在步骤S405中初始化“情绪聚类”。这将参照图12更详细地说明。

然后，对于至少一个说话者收集数据，其中说话者的声音是有情绪的。可以仅从一个说话者收集数据，其中说话者提供多个数据样本，每个样本展示不同的情绪，或者多个说话者提供具有不同情绪的语音数据样本。在该实施例中，预先假定被提供以训练系统展示情绪的语音样本来自其数据被收集以在步骤S403中训练初始CAT模型的说话者。然而，系统还可使用来自其数据未在S403中使用的说话者的数据训练展示情绪，这将在后面详细地描述。

在步骤S451，非中性情绪数据被分成N_e个组。在步骤S453，N_e个附加聚类被添加到模型情绪中。聚类与每个情绪组相关联。例如，一个聚类与“高兴”相关联等。

除了在步骤S403中形成的中性说话者聚类外，还提供这些情绪聚类。

在步骤S455，初始化情绪聚类权重的二进制向量，以使得如果语音数据将被用于训练展示一个情绪，则与该情绪相关联的聚类被设置为“1”，而所有其它情绪聚类以“0”加权。

在该初始化阶段，中性情绪说话者聚类被设置为与数据的说话者相关联的权重。

接着，在步骤S457，对每个情绪聚类建立决策树。最后，在步骤S459，根据所有的数据重新估计权重。

在情绪聚类已经如上所述地被初始化后，在步骤S407，对于所有聚类，包括偏置聚类、说话者聚类和情绪聚类，重新估计高斯均值和方差。

接着，在步骤S409，如上所描述地重新估计情绪聚类的权重。然后，在步骤S411，重新计算决策树。接着，过程循环回到步骤S407，在步骤S409的权重和步骤S411的重新构建决策树之后，模型参数被实现，直到收敛为止。在一个实施例中，循环S407-S409被重复几次。

接着，在步骤S413，对于所有聚类，包括偏置、说话者和情绪聚类，重新估计模型方差和均值。在步骤S415，对于说话者聚类重新估计权重，并在步骤S17，重新建立决策树。然后，过程循环回到步骤S413，并且该循环被重复直到收敛为止。然后，过程循环回到步骤S407，关于情绪的循环被重复直到收敛为止。过程持续进行，直到对于两个循环共同达到收敛。

图13示出聚类1至P，其采用决策树的形式。在该简化的例子中，在聚类1中只有四个终端节点，在聚类P中有三个终端节点。需要重点指出的是，决策树不需要是对称的，即每个决策树可以具有不同数量的终端节点。树中终端节点的数量和分支的数量仅通过对数似然性分裂确定，该对数似然性分裂在第一个决策处实现最大分裂，然后按照导致较大分裂的问题的顺序提问问题。一旦所实现的分裂低于阈值，则节点的分裂终止。

以上产生了正则模型（canonical model），其允许执行以下合成：

1．4个声音中的任何一个可使用与该声音对应的最后一组权重向量并结合系统已被训练的任何属性（诸如情绪）来合成。因此，在对于说话者1仅存在“高兴的”数据的情况下，假定系统已经用至少一个其它声音的“生气的”数据进行了训练，则系统可以输出具有“生气的情绪”的说话者1的声音。

2．任意的声音可通过将权重向量设置到任意位置来从被CAT模型跨越的声学空间中合成，所训练的任何一个属性可被应用于该新声音。

3．系统还可用于输出具有两个或更多个不同属性的声音。例如，说话者声音可以被输出具有两个不同的属性，例如情绪和口音。

为了模拟可组合的不同属性，诸如口音和情绪，将被组合的两个不同的属性可如上关于公式3所描述地结合。

在这种情况下，一组聚类将用于不同的说话者，另一组聚类用于情绪，最后一组聚类用于口音。返回参照图10，情绪聚类将如参照图12所说明地进行初始化，口音聚类也将如参照图12针对情绪所描述地初始化为另外一组聚类。图10示出了有单独的循环用于训练情绪，还有单独的循环用于训练说话者。如果声音属性具有两个分量，诸如口音和情绪，则将会有单独的循环用于口音，单独的循环用于情绪。

上述实施例的框架允许模型被合并训练，因此增强控制能力和所生成的语音的质量。上述实施例还考虑对训练数据的范围的要求更轻松。例如，在图14中示出的训练数据配置可用于有：3个女性说话者：fs1，fs2和fs3；3个男性说话者：ms1，ms2和ms3，

其中，fs1和fs2具有美国口音，并被记录用中性情绪说话，fs3具有中国口音并被记录为3组数据说话，其中一个数据组示出中性情绪，一个数据组示出高兴的情绪，一个数据组示出生气的情绪。男性说话者ms1具有美国口音并被记录仅用中性情绪说话，男性说话者ms2具有苏格兰口音并被记录为3组数据用生气、高兴和悲伤的情绪说话。第三个男性说话者ms3具有中国口音并被记录用中性情绪说话。上述系统允许声音数据被输出具有6个说话者声音中的任何一个，并具有任何所记录的口音和情绪的组合。

在一个实施例中，在声音属性和说话者之间存在重叠，以使得用于训练聚类的数据的分组对于每个声音特性是唯一的。

在另一个例子中，辅助者（assistant）用于合成声音特性，其中系统被提供目标说话者声音的输入，其允许系统适应新的说话者或者系统可被提供具有新的声音属性（诸如口音或情绪）的数据。

根据一个实施例的系统还可适应新的说话者和/或属性。

图15示出适应于具有中性情绪的新的说话者的系统的例子。首先，在步骤S501接收输入目标声音。接着在步骤S503，调整正则模型的权重，即先前已被训练的聚类的权重，以匹配目标声音。

然后，使用在步骤S503获得的新的权重输出音频。

在另一个实施例中，新的中性情绪说话者聚类可以如参照图10和图11所说明的进行初始化和训练。

在另一个实施例中，系统用于适应新的属性，诸如新的情绪。这将参照图16描述。

如图16所示，首先在步骤S601，接收目标声音，收集用新的属性说话的声音的数据。在步骤S603调整用于中性说话者聚类的权重以最佳匹配目标声音。

然后，在步骤S607，对于新的情绪，新的情绪聚类被添加到现有的情绪聚类上。接着，新的聚类的决策树如参照图12从步骤S455开始所描述地进行初始化。然后，对于所有的聚类，重新估计和重新建立权重、模型参数和决策树，如参照图11所描述的。

可由系统生成的任何说话者声音可被输出具有新的情绪。

图17示出用于可视化说话者声音和属性如何相关的图。图17的图以3维示出，但可以被扩展到更高维度级别。

说话者沿着Z轴示出。在该简化图中，说话者权重被定义为单个维度，但实际上，可能有两个或更多个说话者权重，其在相应数量的轴上表示。

表达在x-y平面上表示。表达1沿着x轴，表达2沿着y轴，并示出了与生气和悲伤对应的权重。使用该安排，可以生成“生气的”说话者a和“悲伤的”说话者b所需要的权重。通过获取x-y平面上与新的情绪或属性对应的点，可以看出新的情绪或属性如何被应用于已有的说话者。

图18示出如上参照声学空间所说明的原理。在此示出二维声学空间以允许变换可视。然而，实际上，声学空间可扩展到多个维度。

在一个表达CAT中，特定表达的均值向量是：

μ_{xpr} = \underset{&ForAll; k}{Σ} λ_{k}^{xpr} μ_{k}

其中，μ_xpr是表示用表达xpr说话的说话者的均值向量，

是表达xpr的分量k的CAT权重，μ_k是分量k的分量k均值向量。

情绪依赖的唯一部分是权重。因此，两个不同表达（xpr1和xpr2）之间的差异仅仅是均值向量的偏移。

μ_xpr2=μ_xpr1+Δ_xpr1,xpr2

Δ_{xpr 1, xpr 2} = \underset{&ForAll; k}{Σ} (λ_{k}^{xpr 2} - λ_{k}^{xpr 1}) μ_{k}

这在图18中示出。

因此，为了将表达2（xpr2）的特性输出到不同的说话者声音（Spk2），将适当的Δ添加到Spk2的说话者模型的均值向量上就足够了。在这种情况下，适当的Δ从说话者获取，其中数据可用于该用xpr2说话的说话者。该说话者将被称为Spk1。Δ从Spk1获取，作为用所期望的表达xpr2说话的Spk1的均值向量与用表达xpr说话的Spk1的均值向量之间的差异。表达xpr是对于说话者1和说话者2共同的表达。例如，如果中性表达的数据可用于Spk1和Spk2，则xpr可以是中性表达。然而，它可以是任何匹配或近似匹配两个说话者的表达。在一个实施例中，为了确定近似匹配Spk1和Spk2的表达，对于可用于说话者的不同表达，可在Spk1和Spk2之间构建距离函数，并且距离函数可以被最小化。距离函数可以从欧氏距离、巴氏距离或KL距离中选择。

然后，适当的Δ可以被添加到用于Spk2的最佳匹配均值向量上，如下所示：

μ_{xpr 2}^{Spk 2} = μ_{xpr 1}^{Spk 2} + Δ_{xpr 1, xpr 2}

上述的例子主要使用了基于CAT的技术，但在理论上，识别Δ可应用于任何类型的允许输出不同类型的表达的统计模型。

尽管已经描述了某些实施例，但这些实施例仅作为例子提供，而并不意味着限制本发明的范围。实际上，在此描述的新颖的方法和装置可以体现为各种其它形式；另外，在不脱离本发明的精神的情况下，可以对在此描述的方法和装置的形式做出各种省略、替换和改变。后附的权利要求及其等同意在覆盖这些修正形式，使其落入本发明的范围和精神内。

Claims

1.一种文本到语音的方法，其被配置为输出具有所选择的说话者声音和所选择的说话者属性的语音，所述方法包括：

输入文本；

将所输入的文本划分成声学单元序列；

选择用于所输入的文本的说话者；

选择用于所输入的文本的说话者属性；

使用声学模型，将所述声学单元序列转换成语音向量序列；

其中，所述声学模型包括与说话者声音有关的第一组参数和与说话者属性有关的第二组参数，其中，所述第一组参数和所述第二组参数没有重叠；

其中，选择说话者声音包括：从所述第一组参数中选择给出所述说话者声音的参数；选择说话者属性包括：从所述第二组参数中选择给出所选择的说话者属性的参数。

2.如权利要求1所述的方法，其中，有与不同的说话者属性有关的多组参数，并且所述多组参数没有重叠。

3.如权利要求1所述的方法，其中，所述声学模型包括概率分布函数，其将所述声学单元与所述语音向量序列相关，并且所述第一组参数和所述第二组参数的选择修改所述概率分布。

4.如权利要求3所述的方法，其中，所述第二组参数与添加到所述第一组参数中的至少某些参数上的偏移量有关。

5.如权利要求3所述的方法，其中，所述说话者声音和所述说话者属性的控制通过所述概率分布的均值的加权和实现，并且所述第一组参数和所述第二组参数的选择控制所使用的权重。

6.如权利要求5所述的方法，其中，所述第一组参数和所述第二组参数以聚类提供，每个聚类包括至少一个子聚类，对于每个子聚类获得权重。

7.如权利要求1所述的方法，其中，所述第一组参数和所述第二组参数是连续的，以使得所述说话者声音能够在连续的范围上变化，并且所述声音属性能够在连续的范围上变化。

8.如权利要求1所述的方法，其中，所述第一组参数和所述第二组参数的值使用音频、文本、外部代理或其任意组合定义。

9.如权利要求4所述的方法，其中，所述方法被配置为通过将从第一说话者的语音中获取的第二参数添加到第二说话者的语音上来将语音属性从第一说话者移植到第二说话者。

10.如权利要求9所述的方法，其中，所述第二参数通过以下步骤获取：

从用将要被移植的属性说话的第一说话者接收语音数据；

识别最接近于所述第二说话者的语音数据的所述第一说话者的语音数据；

确定从用将要被移植的属性说话的第一说话者获得的语音数据与最接近于所述第二说话者的语音数据的所述第一说话者的语音数据之间的差异；以及

根据所述差异确定所述第二参数。

11.如权利要求10所述的方法，其中，所述差异在将所述声学单元与所述语音向量序列相关的所述概率分布的均值之间确定。

12.如权利要求10所述的方法，其中，所述第二参数被确定为所述差异的函数，所述函数是线性函数。

13.如权利要求11所述的方法，其中，识别最接近于所述第二说话者的语音数据的所述第一说话者的语音数据包括：最小化取决于所述第一说话者的语音数据的概率分布和所述第二说话者的语音数据的概率分布的距离函数。

14.如权利要求13所述的方法，其中，所述距离函数是欧氏距离、巴氏距离或KL距离。

15.一种训练用于文本到语音的系统的声学模型的方法，其中，所述声学模型将声学单元序列转换成语音向量序列，所述方法包括：

将与用共同属性说话的说话者有关的语音数据与所接收的语音数据分离；

使用从用共同属性说话的多个说话者接收的语音数据训练第一声学子模型，所述训练包括获取第一组参数，其中，所述第一组参数被改变以允许所述声学模型适应用于所述多个说话者的语音；

通过合并所述第一声学子模型和所述第二声学子模型来输出声学模型，以使得所合并的声学模型包括与说话者声音有关的第一组参数和与说话者属性有关的第二组参数，其中，所述第一组参数和所述第二组参数没有重叠；

16.如权利要求15所述的方法，其中，所述声学模型包括将所述声学单元与所述语音向量序列相关的概率分布函数；

训练所述第一声学子模型包括：将概率分布排列成聚类，每个聚类包括至少一个子聚类，其中，所述第一参数是将要被应用的说话者依赖权重，以使得每个子聚类有一个权重；

训练所述第二声学子模型包括：将概率分布排列成聚类，每个聚类包括至少一个子聚类，其中，所述第二参数是将要被应用的属性依赖权重，以使得每个子聚类有一个权重。

17.如权利要求16所述的方法，其中，所接收的语音数据包含多种所考虑的声音属性。

18.如权利要求16所述的方法，其中，训练所述模型包括：重新估计所述第一声学子模型的参数而保持所述第二声学子模型的部分参数固定，然后重新估计所述第二声学子模型的参数而保持所述第一声学子模型的部分参数固定，重复执行上述步骤直到满足收敛标准为止。

19.一种文本到语音的系统，用于模拟具有所选择的说话者声音和所选择的说话者属性的语音，所述系统包括：

文本输入，用于接收所输入的文本；

处理器，其被配置为：

将所输入的文本划分成声学单元序列；

允许选择用于所输入的文本的说话者；

允许选择用于所输入的文本的说话者属性；

其中，所述声学模型包括与说话者声音有关的第一组参数和与说话者属性有关的第二组参数，其中，所述第一参数和所述第二组参数没有重叠；