CN103578462A

CN103578462A - 语音处理系统

Info

Publication number: CN103578462A
Application number: CN201310301682.5A
Authority: CN
Inventors: 赤岭政巳; 陈浪舟; M·J·F·盖尔斯; K·M·尼尔
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-07-18
Filing date: 2013-07-18
Publication date: 2014-02-12
Also published as: JP2015180966A; US20140025382A1; JP2014056235A; GB2505400A; GB201212783D0; GB2505400B; JP5768093B2

Abstract

一种文语转换方法，该方法包括：接收输入文本；将所述输入文本分割为声单元序列；利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，模型参数描述将声单元与语音矢量相关联的概率分布；以及将所述语音矢量序列输出为音频，该方法还包括通过如下步骤确定所述模型参数的至少部分：从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；以及将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。

Description

语音处理系统

相关申请的交叉引用

本申请基于在2012年7月18日提交的英国专利申请No.1212783.3，并要求其优先权，其整体内容在此引入作为参考。

技术领域

本文所述实施例总体涉及语音处理系统和方法。

背景技术

语音处理系统通常落入两个主要组：文语转换系统；和语音识别系统。

文语转换系统是这样的系统，其中响应于接收到文本文件而输出音频语音或音频语音文件。文语转换系统用于多个应用中，诸如电子游戏、电子书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动警告系统。

发明内容

为了解决对能够输出具有一定表达程度的语音的系统的持续需要这一问题，本发明实施例提供一种语音处理系统。

在一实施例中，提供文语转换方法，该方法包括：

接收输入文本；

将所述输入文本分割为声单元序列；

利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，所述模型参数用于描述将声单元与语音矢量相关联的概率分布；以及

将所述语音矢量序列输出为音频，

该方法还包括通过如下步骤确定所述模型参数的至少部分：

从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；以及

将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。

在实施例中，将表达语言特征矢量映射到表达合成特征矢量包括，使用机器学习算法，例如，神经网络。

第二空间可以是多维连续空间。这允许平滑改变输出音频中的表达。

在一实施例中，从所述输入文本提取表达特征包括多个提取过程，所述多个提取过程在所述文本的不同信息级别执行。例如，不同信息级别可选自基于单词的语言特征提取级别以生成基于单词的语言特征、选自基于全情境音素的语言特征提取级别以生成基于全情境音素的语言特征、选自基于部分语音（POS）的语言特征提取级别以生成基于POS的特征、以及选自基于叙事风格的语言特征提取级别以生成叙事风格的信息。

在一个实施例中，当从多个信息级别提取表达特征时，多个提取过程中的每个生成特征矢量，该方法还包括连接从不同信息级别生成的语言特征矢量，以生成与第二空间映射的语言特征矢量。

在另一个实施例中，当从多个信息级别提取表达特征时，将表达语言特征矢量映射到表达合成特征矢量包括对应于不同信息级别的每个的多个分级阶段。

在一个实施例中，从第一空间映射到第二空间使用全情境信息。在另一个实施例中，声学模型从输入文本接收全情境信息，并且将该信息与从声学模型中的表达合成特征矢量导出的模型参数组合。在另一个实施例中，在映射步骤中使用全情境信息，并且还与映射步骤分离地接收全情境信息作为声学模型的输入。

在一些实施例中，所述声学模型的模型参数被表达为相同类型的模型参数的加权和，并且权重在第二空间中表示。例如，将所述模型参数表示为高斯平均值的加权和。在另一个实施例中，将参数聚为群集，并且合成特征矢量包括用于每个群集的权重。

每个群集可包括至少一个决策树，所述决策树基于与语言、语音或韵律差异中至少一个相关的问题。另外，在群集的决策树之间可能存在结构差异。

在一些实施例中，提供一种训练文语转换系统的方法，该方法包括：

接收训练数据，所述训练数据包括文本数据和对应于所述文本数据的语音数据；

从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；

从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成矢量；

训练机器学习算法，该机器学习算法的训练输入为表达语言特征矢量，并且训练输出为对应于训练输入的表达合成特征矢量。

在一实施例中，机器学习算法为神经网络。

该方法还包括将表达合成特征矢量输出到语音合成器，所述语音合成器包括声学模型，其中所述模型具有多个模型参数，所述模型参数描述用于将声单元与语音矢量相关联的概率分布。在该配置中，联合训练声学模型的参数和诸如神经网络的机器学习算法。例如，所述声学模型的模型参数可以被表达为相同类型的模型参数的加权和，并且权重在第二空间中表示。在该配置中，可以联合训练在第二空间表示的权重和神经网络。

在一些实施例中，提供文语转换设备，该设备包括：

接收器，用于接收输入文本；

处理器，适于：

将所述输入文本分割为声单元序列；以及

利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，所述模型参数描述声单元与语音矢量相关联的概率分布；以及

音频输出，其适于将所述语音矢量序列输出为音频，

所述处理器还适于通过如下步骤确定所述模型参数的至少部分：

由于根据实施例的一些方法可通过软件实现，一些实施例包括在任何合适的载体介质上提供到通用计算机的计算机代码。该载体介质可以包括任意存储介质，诸如软盘、CD ROM、磁盘或可编程存储装置，或者任意瞬态介质，诸如，例如电、光或微波信号的任意信号。

附图说明

下文将参考附图描述根据非限制性实施例的系统和方法，其中：

图1为文语转换系统的示意图；

图2的流程图示出通过已知语音处理系统执行的步骤；

图3为高斯概率函数的示意图；

图4为根据一实施例的合成方法的示意图；

图5为根据一实施例的训练方法的示意图；

图6示出用于从多个信息级别提取表达特征矢量的并行系统；

图7示出用于从多个信息级别提取表达特征矢量的分级系统；

图8为用于CAT方法中的求和的示意图；

图9为用于提取合成矢量的基于CAT的系统的示意图；

图10为根据一实施例的合成方法的示意图；

图11示出用于根据实施例的方法的变换块和输入矢量；

图12的流程图示出用于训练基于CAT的系统的训练过程；以及

图13示出如何建立决策树以将参数聚为群集用于基于CAT的方法。

具体实施方式

首先，将说明关于文语转换系统的根据实施例的系统。

图1示出文语转换系统1。文语转换系统1包括执行程序5的处理器3。文语转换系统1还包括存储装置7。存储装置7存储程序5使用的数据，以将文本转换为语音。文语转换系统1还包括输入模块11和输出模块13。输入模块11被连接到文本输入15。文本输入15接收文本。文本输入15可以例如为键盘。可选地，文本输入15可以为用于从外部存储介质或网络接收文本数据的装置。

音频的输出17连接到输出模块13。音频输出17用于输出从输入到文本输入15中的文本转换的语音信号。音频输出17可以例如为直接音频输出，例如扬声器，或者是可以被发送到存储介质、网络等的音频数据文件输出。

在使用中，文语转换系统1通过文本输入15接收文本。在处理器3上执行的程序5利用存储在存储装置7中的数据将文本转换为语音数据。语音经输出模块13被输出到音频输出17。

现在将参考图2描述简化的过程。在第一步骤，S101，输入文本。可通过键盘、触摸屏、文本预测器等输入文本。然后将该文本转换为声单元序列。这些声单元可以为音素或字素。这些单元可以是情境相关的，例如三音素，其不仅考虑已经选择的音素，还考虑之前和之后的音素。利用现有技术中熟知的技术（下文将不再对其进行说明）将所述文本转换为声单元序列。

在步骤S105，查找用于将声单元与语音参数相关联的概率分布。在该实施例中，概率分布为通过均值和方差定义的高斯分布。不过可以使用其它分布，诸如Poisson、Student-t、Laplacian或Gamma分布，其中的一些通过除均值和方差之外的变量定义。

不可能每个声单元都具有与语音矢量或“观察值”的确定一对一关系，以使用本领域的术语。很多声单元发声方式类似，受到周围声单元、其在单词或语句中的位置的影响，或者通过不同的发声者或表达而被不同地发声。从而，每个声单元仅具有与语音矢量相关联的概率，文语转换系统计算多个概率并在给定声单元序列下选择最可能的观察值序列。

图3中示出高斯分布。可以将图3看作声单元与语音矢量相关联的概率分布。例如，示出为X的语音矢量具有对应于音素或其它声单元的概率P1，其具有图3所示的分布。

高斯分布的形状和位置通过其均值和方差定义。这些参数在系统训练期间确定。

然后在步骤S107在声学模型中使用这些参数。在该说明书中，声学模型为隐藏Markov模型（Hidden Markov Model）(HMM)。然而，还可以使用其它模型。

语音系统的文本将存储用于将声单元（即音素、字素、单词或其部分）与语音参数相关联的多个概率密度函数。由于通常使用高斯分布，其通常被称为高斯分布或分量。

在Hidden Markov Model或其它类型的声学模型中，必须考虑与特定声单元相关联的全部潜在语音矢量的概率。然后，考虑与声单元序列最有可能对应的语音矢量序列。这意味着通过考虑两个单元相互影响的方式在整个声单元序列上进行整体优化。从而，当考虑声单元序列时，用于特定声单元的最可能的语音矢量可能不是最佳语音矢量。

一旦确定语音矢量序列，在步骤S109输出语音。

图4为根据实施例的文语转换系统的示意图。

在文本输入201处输入文本。然后，在部分203，从输入文本提取表达特征。例如，文本的人类阅读者将从文本自身获知是否应该以焦急的声音、快乐的声音等阅读文本。所述系统在不要求人交互以指示应如何输出文本的情况下从文本自身也导出该信息。

下文将更详细描述如何自动采集该信息。然而，输出为位于第一多维空间中的具有数值的特征矢量。该输出然后被映射到第二连续多维表达合成空间205。可以直接使用第二连续多维空间中的值以在合成器207中修改声学模型。合成器207还接收文本作为输入。

在根据实施例的方法中，将表达TTS视为将文本数据映射到多维连续空间中的点的过程。在该多维连续空间中，每个点表示直接与合成处理相关联的特定表达信息。

多维连续空间包含无限数目的点；从而提出的方法潜在地可以处理无限数目的不同类型的情绪，并以更加丰富的表达信息合成语音。

首先，将描述根据实施例对方法和系统的训练。

将参考图5描述所述训练。训练数据251提供有文本和对应于该文本输入的语音。

假设训练数据251中的每个发声包含唯一的表达信息。该唯一的表达信息可以从语音数据中确定，并且可以从语音的标音（transcription）（即，也为文本数据）读取。在训练数据中，如图5所示同步化语音语句和文本语句。

提供“表达语言特征提取”块253，其将训练数据中的每个文本语句转换为将称为表达语言特征矢量的矢量。

可以通过表达语言特征提取块253将任何文本语句转换为语言特征，并且全部可能的表达语言特征构成将称为表达语言空间的第一空间255。训练语句的每个标音可视为该表达语言空间中的点。表达语言特征矢量应捕捉文本语句中的情绪信息。

在训练期间，除了从文本提取表达语言特征，还提供“表达合成特征提取”块257，其将每个语音语句转换为将称为表达合成特征矢量的矢量。

通过“表达合成特征提取”块257可将任何语音语句转换为表达合成特征，并且全部可能的表达合成特征构成表达合成空间259。对该表达合成特征的要求为，其应捕捉原始语音语句的唯一表达信息；同时，该表达信息可以在合成过程中再生成。

给定来自训练数据的标音的语言特征和来自训练语音语句的合成特征，根据实施例的方法和系统训练转换块261以将语言特征空间255中的语言特征矢量转换为合成特征空间259中的合成特征矢量。

在合成阶段，“表达语言特征提取”块253将有待合成的文本转换为语言特征空间255中的语言特征矢量，然后通过转换块261，将语言特征映射到表达合成空间259中的合成特征。该合成特征矢量包含原始文本数据中的情绪信息，并且可以由合成器207（图4）直接使用，以合成表达语音。

在一实施例中，使用机器学习方法，例如神经网络（NN），来提供变换块261，并训练从表达语言空间255到表达合成空间259的转换。对于训练数据251中的每个语句，使用语音数据以生成合成特征空间259中的表达合成特征矢量，并且使用语音数据的标音以生成语言特征空间255中的表达语言特征。使用训练数据的语言特征作为NN的输入，并使用训练数据的合成特征作为目标输出，可以更新NN的参数以学习从语言特征空间到合成特征空间的映射。

“语言特征提取”块253将文本数据转换为语言特征矢量。该特征矢量应包含差别信息，即，如果两个文本数据包含不同情绪，其语言特征在语言特征空间中应是可区分的。

在一个实施例中，使用单词包（BoW）技术以生成语言特征。BoW方法将文本数据表示为单词频率的矢量。矢量的维度等于词汇表的大小，每个元素包含词汇表中特定单词的频率。可以应用不同的成熟开发的BoW技术，例如潜在语义分析（LSA）、概率潜在语义分析（pLSA）、潜在Dirichlet分配（LDA）等。通过这些技术，可以在非常低的维度中压缩维度等于词汇表大小的原始单词频率矢量。

在另一个实施例中，为了更精确地在文本数据中建模情绪信息，使用来自文本数据的不同级别的知识以生成语言特征。

在一个实施例中，不仅使用单词级别信息，还使用更低级别信息（诸如全情境音素序列）和更高级别信息（诸如部分语音（POS）、叙述风格）以生成语言特征。

为了将来自不同级别的信息组合到一起，在一个实施例中，如图6所示使用并行结构。在并行结构中，分离地提取不同级别的特征，然后将不同级别的特征连接成一个大矢量，以作为转换块的输入。

图6示出可用于根据实施例的系统中的用于提取语言特征的并行结构。在步骤S301中将文本数据转换为单词频率矢量。然后，在步骤S305使用将单词作为单元的LDA模型303以将单词频率矢量转换为单词级别特征矢量。在步骤S305，通过推断过程估计变分后狄利克雷参数。

同时，在步骤S307将文本数据转换为全情境音素的序列。在S311利用将全情境音素作为单元的LDA模型309将该全情境音素序列转换为全情境音素级别特征矢量。

然后，在S313中将单词级别特征矢量和全情境音素级别特征矢量连接为语言特征以形成语言特征矢量。

图6用于示出如何提取语言特征的实例。在另一个实施例中，可以将更高级别知识，诸如POS、叙事风格以及来自文本数据的任何其它有用信息集成到语言特征中。

另外，还可以使用除LDA以外的BoW方法来提取语言特征。

还可以利用分级结构组合从不同信息级别确定的语言特征。在这样的分级结构的一个实施例中，如图7所示，将具有不同知识级别的语言特征组合到具有NN的级连的系统中。

在图11中，语言特征1和语言特征2表示从不同知识级别确定的语言特征，例如，单词级别特征、全情境音素级别特征等。

特征1用作NN1的输入351。然后，将NN1的输出353与作为NN2的输入355的特征2组合以在输出357生成声特征。

返回到图5，使用表达合成特征提取块257以表示语音数据的表达信息。表达合成特征空间259中的每个点表示语音中的唯一表达信息。

在根据实施例的方法和系统中，表达合成特征满足两个要求：

要求1-给定语音数据，相关联的合成特征必须获取该语音数据的表达信息。

要求2-必须在合成阶段使用在表达合成特征中记录的表达信息，以生成具有相同表达性的语音，即，合成特征确定合成参数。

可以构建与合成参数相关联的基。然后，可以将用于每个特定表达性程度的合成参数投影到该基上。这通过其在该投影中的坐标定义了表达合成参数的表示。

在一个实施例中，使用群集适应性训练（CAT）。这里，将群集HMM模型定义为基，并且将与表达性相关的HMM参数投影到该基上（请参考附录）。

这使得可以将与表达性相关的HMM参数表示为对群集模型的线性内插，并且使用每个群集HMM模型的内插权重来表示表达信息。

如图8所示，CAT模型包含偏置群集HMM模型和P-1非偏置群集HMM模型。对于特定高斯分量，假设方差和在先值（prior）在全部群集中相同，而通过对全部群集均值的线性内插确定均值参数。

给定观察矢量，分量m的概率密度函数可以表示为：

p (o_{t} | Λ^{(e)}, M^{(m)}, Σ^{(m)}) = N (o_{t}; μ^{(m, 1)} + Σ_{p = 2}^{p} λ^{(e, p)} μ^{(m, p)}, Σ^{(m)})

其中M^(m)=[μ^(m,1) μ^(m,2) μ^(m,P)]为来自不同群集模型的分量m的均值矢量的矩阵，Σ^(m)是全部群集共用的分量m的方差。

Λ^(e)=[1 λ(^e,2) λ^(e,P)]是情绪e的CAT权重矢量。群集1是偏置模型，并且用于偏置模型的CAT权重被固定为1。

当使用CAT模型以进行表达语音合成时，在CAT权重中记录情绪相关信息。在训练过程中，使用情绪相关训练数据，通过最大似然标准训练情绪相关CAT权重。在合成阶段，使用情绪相关CAT权重以合成具有特定情绪的语音。

CAT权重适于用作提出的方法中的表达合成特征矢量。其满足上述提出的合成特征的两个要求，即，其包含语音数据的情绪信息，并且可以使用特定情绪的CAT权重以合成具有相同情绪的语音。包含全部可能CAT权重的CAT权重空间可以用作提出方法中的合成特征空间。给定CAT规范模型（即，偏置HMM模型和群集HMM模型），可以通过最大化语音语句的似然度将每个训练语句表示为CAT权重空间中的点。图9示出CAT权重空间的概念。

在CAT权重空间中，可以将每个训练语句表示为包含该语句的唯一情绪信息的点。如果在训练数据中存在N个语句，在CAT权重空间中，可以使用N个点来表示训练数据。另外，可以假设，CAT空间中彼此接近的训练语句包含类似的情绪信息。

从而，可以将训练数据分类到组中，并且可以利用该组中的全部训练语句估计与组相关的CAT权重。如果N个训练语句被分类到M组中（M<<N），则可以将训练数据表示为CAT权重空间中的M个点。

在一实施例中，可以联合地训练NN和CAT模型，其中NN用作为用于将语言特征映射到合成特征的转换，CAT模型用于构成表达合成特征空间。可以如下描述联合训练过程

1.初始CAT模型训练，以生成初始规范模型M0和初始CAT权重集Λ₀，初始CAT权重集由用于全部训练语句的CAT权重构成，其中设置迭代数i=0。

2.给定训练语句的表达语言特征和训练语句的CAT权重集Λ_i，利用最小平方误差标准训练用于迭代i的NN，即NN_i。

3.利用训练语句的表达语言特征作为输入，NN_i生成训练语句O_i的输出CAT权重集。

4.Λ_i+1=O_i。给定Λ_i+1，重训练CAT规范模型Μ_i+1，以最大化训练数据的似然度。

5.i=i+1，如果算法收敛，则前进到6，否则前进到2。

6.结束

通过上述过程，联合地更新NN和CAT模型，这可以在合成阶段改善性能。

该联合训练过程不限于NN和CAT模型。通常，可以在相同构架中利用联合训练来更新除NN以外的从语言特征空间到合成特征空间的变换以及除CAT以外的构成合成特征空间的方法。

上文描述了系统的训练。现在将参考图10描述文本至语音的合成。

图10所示的合成系统包括表达语言特征提取块401，其在参照训练所描述的表达语言空间403中提取表达特征矢量。在合成阶段提取该矢量的过程与在训练阶段所述的过程相同。

然后通过转换块405将表达特征矢量映射到表达合成空间407中的表达合成矢量。如上所述已经训练了转换块405。

然后在作为合成器409的对输出语音的合成中直接使用确定的表达合成矢量。如上所述，在一个实施例中，转换块405将表达语言特征矢量直接映射为表达合成特征空间407中的CAT权重。

在一个实施例中，将有待合成的文本直接发送到合成器409。在该配置中，合成器409接收有待合成的文本，以确定与情境相关的信息。在其它实施例中，从表达语言空间到表达合成特征空间的映射可以使用与情境相关的信息。这可以作为由合成器直接接收的信息的补充或替换。

在根据一实施例的方法中，不需要准备特别的训练数据或要求人介入以估计训练数据。另外，将有待合成的文本直接转换为语言特征矢量。该语言特征矢量包括比单个情绪ID多得多的情绪信息。转换块将语言特征矢量转换为具有相同情绪的表达合成特征。另外，可以使用该合成特征以合成具有与原始文本数据中相同的情绪的语音。

如果在表达合成特征空间中，每个训练语句与唯一合成特征矢量相关联，通过转换（例如NN）来学习每个语句中的唯一情绪信息。这可以为用户提供非常丰富的情绪资源用于合成。

可以将当在合成特征空间中时的训练语句分组，并且一个组中的全部训练语句共享情绪信息。通过该方式，由于将有待学习的模式数目减少，改善了对转换的训练。从而，估计的转换具有更高的鲁棒性。在根据实施例的方法中，选择基于语句的合成特征或基于组的合成特征，调节用于训练数据的组数，可以更容易地实现用于合成性能的鲁棒性和表达性之间的平衡。

在上述方法中，可以避免困难的决定情绪识别，这将减少误差。NN的可能输出是无穷的。这表示，提出的方法潜在地可以生成与用于合成的不同情绪相关联的无穷个不同合成特征。另外，上述方法可以容易地实现表达性与鲁棒性之间的平衡。

在上述合成过程中，文本数据的情绪信息不需要由人或从其它源获知或清楚地识别。训练是完全自动的。上述方法旨在，在不需要人来为训练数据标记情绪的情况下构建表达合成系统。在合成过程期间，不需要对来源于输入文本的情绪进行任何分类。提出的方法可以减少表达合成系统的训练成本。同时在合成过程中生成更多表达语音。

在上述实施例中，定义多维连续表达语音合成空间，使得空间中的每个点定义表达语音合成系统的参数。另外，训练映射过程，该过程可以将文本特征映射到表达空间中的点，表达空间中的点又定义了表达语音合成过程的参数。

为示出合成方法，基于4.8k训练语句训练用于表达合成的实验系统。

训练具有一个偏置模型和4个群集模型的CAT模型。对训练语音中的每个语句训练各个CAT权重。同时，将训练数据分类为20组，还训练基于组的CAT权重。基于语句的CAT权重和基于组的CAT权重都被表示为相同CAT权重空间（即所提出的方法中的声学空间）中的点。

训练语音的标音的每个语句被表示为20维LDA变分后特征矢量，并且其用于构建语音特征。还使用训练语句的叙述方式构建语言特征。其为1维值以指示语句是直接语音、叙述语音或载体语音。该实验中所使用的语言特征还包括来自在前语句和最后语句的语言信息。在该实验中，利用并行结构构建语言特征。

通过多层感知（MLP）神经网络训练从语言空间到声学空间的非线性转换。训练2组NN，一组为将语言特征映射到基于语句的CAT权重，另一组为将语言特征映射到基于组的CAT权重。

图11示出在该实验中使用的语言特征和声学特征的结构。

通过经CrowdFlower收听测试来评估所合成的语音的表达性。使用由人读取的原始表达语音数据作为参考，要求收听者选择语音语句的2个合成版本的哪个听起来更接近参考。

在实验中比较了五个不同的系统。

1.sup_sent：通过受控训练而生成的基于语句的CAT权重

2.sup_grp：通过受控训练而生成的基于组的CAT权重

3.nn_sent：通过所提出的方法生成的基于语句的CAT权重

4．nn_grp：通过所提出的方法生成的基于组的CAT权重

5．rand：从训练语句随机选择的CAT权重。

表1示出表达性测试结果

sup_grp	sup_sent	nn_grp	nn_sent	rand	P value
						52.3	47.7			O.107
	63.9		36.1		<O.001
							55.0	45.O		0.004
		61.8		38.2	<O.OOl
								57.2	42.8	<O.OOl

实验结果示出，基于所提出的方法，基于语句的CAT权重和基于组的CAT权重显著好于随机CAT权重。这表示，所提出的方法部分地获取了语句中的正确情绪信息。同时，对于基于组的CAT权重，受控训练的CAT权重和通过所提出方法生成的CAT权重的差别不显著(p>0．025)。这表示在基于组的CAT权重中，所提出方法的性能接近其上边界，即，受控训练。

附录

在一些实施例中，表达合成特征空间包括有待在语音合成中使用的分量的权重。

在一些实施例中，将存在多个不同状态，其每个将利用高斯分布建模。例如，在一实施例中，文语转换系统包括多个流。这样的流可以选自以下参数的一个或多个：光谱参数(光谱)、基本频率的对数(Log F₀)、LogF₀的一阶微分(Delta Log F₀)、Log F₀的二阶微分(Delta-Delta Log F₀)、频带非周期性参数(BAP)、时长等。该流还可以被分为多个类，诸如安静(sil)、短停顿(pau)和语音(spe)等。在实施例中，将利用HMM建模来自每个流和类的数据。HMM可包括不同数目的状态，例如，在一实施例中，可以使用5个状态HMM对来自上述流和类中的一些的数据进行建模。对每个HMM状态确定高斯分量。

将具有特定表达特性的高斯分布的均值表示为高斯分布的与表达特性无关的均值的加权和。从而，

μ_{m}^{(s)} = \underset{i}{Σ} λ_{i, q (m)}^{(s)} μ_{c (m, i)}

公式1

其中

为具有表达特性s的分量m的均值，i∈{1,.......,P}为具有总群集数P的群集的指数，

为用于表达特性s和回归类q(m)的第i群集的与表达特性有关的内插权重；μ_c(m,i)为群集i中分量m的均值。在一个实施例中，群集的一个，通常群集i=1，全部权重通常被设置为1.0。该群集称为“偏置群集”。每个群集包括至少一个决策树。对于群集中的每个分量存在决策树。为了简化表达，c(m,i)∈{1,.......,N}指示用于第i群集的均值矢量决策树中的分量m的一般叶节点指数，其中N为全部群集的决策树上的叶节点的总数。下文将详细描述决策树。

在利用CAT的实施例中，表达合成空间为表达特性加权的空间，并且表达语言空间映射到表达合成空间。

将与表达特性无关的均值聚为群集。在一实施例中，每个群集包括至少一个决策树，在所述树中使用的决策基于语言、音素和节律变化。在一实施例中，作为群集成员的每个分量具有一决策树。节律、音素和语言情境影响最终语音波形。音素情境通常影响声道，而节律（例如音节）和语言（例如单词语音的部分）情境影响诸如时长（节奏）和基频（音调）的节律。每个群集可包括一个或多个子群集，其中每个子群集包括所述决策树的至少一个。

根据实施例可以使用如下配置。为建模该数据，在该实施例中，使用5个状态HMM。在该实例中，将数据分为三类：安静，短停顿和语音。在该特定实施例中，对决策树的分配和每个子群集的权重如下所述。

在该特定实施例中，每个群集使用如下流：

光谱：1流，5状态，每个状态1树×3类

LogF0:3流，每个流5状态，每个状态和流1树×3类

BAP:1流，5状态，每个状态1树×3类

音长：1流，5状态，1树×3类（在全部状态中共用每个树）

总计：3x26=78个决策树

对于上述，对每个声音特性（例如，发声者或表达）的每个流施加下述权重：

光谱：1流，5状态，每个流1权重×3类

LogF0:3流，每个流5状态，每个流1权重×3类

BAP:1流，5状态，每个流1权重×3类

音长：1流，5状态，每个状态和流1权重×3类

总计：3x10=30权重

如在该实例中所示，可以对不同决策树（光谱）分配相同权重，或对相同决策树（时长）分配多于一个权重，或任意其它组合。如这里所用，考虑将被施加相同加权的决策树以形成子群集。

下面，将描述如何导出表达特性权重。在基于隐藏Markov模型（HMM）的语音处理系统中，经常将HMM表示为：

M=(A,B,Π) 公式2

其中

并且是状态转变概率分布，是状态输出概率分布，并且

是初始状态概率分布，其中N为HMM中的状态数目。

在文语转换系统中如何使用HMM在现有技术中是熟知的，在此将不再描述。

在当前实施例中，根据现有技术熟知的过程确定状态转变概率分布A和初始状态概率分布。从而，该说明书的剩余部分将涉及状态输出概率分布。

通常，在表达文语转换系统中，模型集M中的用于表达特性s的第m高斯分量的状态输出矢量或语音矢量o(t)为

公式3

其中μ^(s) _m和Σ^(s) _m是用于表达特性s的第m高斯分量的均值和方差。

训练常规文语转换系统时的目标为估计模型参数集M，其最大化给定观察序列的似然度。在常规模型中，存在一个单个发声者或表达，从而对于全部分量m，模型参数集为μ^(s) _m=μ_m，且Σ^(s) _m=Σ_m。

由于仅分析地基于所谓最大似然度（ML）标准不可能获得上述模型集，通过使用期望值最大化（EM）算法（其经常被称为Baum-Welch算法）的迭代方法常规地解决所述问题。这里，导出辅助函数（“Q”函数）：

公式4

其中γ_m(t)为给定当前模型参数M′时生成观察值o（t）的分量m的后验概率，并且M为新参数集。在每个迭代之后，参数集M′由最大化Q(M,M’)的新参数集M替换。p(o(t),m│M)为诸如GMM、HMM等的生成模型。

在当前实施例中，使用具有如下状态输出矢量的HMM：

公式5

其中m∈{1,.......,MN}、t∈{1,.......,T}和s∈{1,.......,S}为分别用于分量、时间和表达的指数，其中MN、T和S分别为分量、帧和表达的总数。

和

的精确形式取决于所应用的与表达相关的变换的类型。在CAT架构中，可以将用于分量m和表达

的均值矢量表示为公式1。协方差与表达s无关，即，

其中v(m)表示协方差决策树的叶节点。

出于将在下文说明的原因，在该实施例中，协方差被聚为群集并布置到决策树中，其中v(m)∈{1,.......,V}表示分量m的协方差矩阵所属于的协方差决策树中的叶节点，并且V为协方差决策树叶节点的总数。

使用上述，可以将辅助函数表示为：

公式6

其中C为与M无关的常数。

CAT的参数估计可以分为3部分：

第一部分为用于群集模型的高斯分布的参数，即，与表达无关的均值{μ_n}以及与表达无关的协方差{Σ_k}，上述指数n和k指示均值和方差决策树的叶节点，其将在下文描述。第二部分为与表达相关的权重

其中s指示表达，i为群集指数参数，以及q（m）为用于分量m的回归类指数。第三部分为与群集相关的决策树。

一旦辅助函数以上述方式表示，该辅助函数然后又关于每个变量被最大化，以获得与表达无关的以及与表达相关的参数的ML值。

具体是，为了确定均值的ML估计，执行下述过程。

首先，如下相对于μ_n对公式4的辅助函数进行微分：

公式7

其中

G_{nν} = \underset{c (m, j) = ν}{\underset{c (m, i) = n}{\underset{m, i, j}{Σ}}} G_{ij}^{(m)},

k_{n} = \underset{c (m, i) = n}{\underset{m, i}{Σ}} k_{i}^{(m)} .

公式8

其中

和

为累积统计

G_{ij}^{(m)} = \underset{t, s}{Σ} γ_{m} (t, s) λ_{i, q (m)}^{(s)} Σ_{v (m)}^{- 1} λ_{j, q (m)}^{(s)}

k_{i}^{(m)} = \underset{t, s}{Σ} γ_{m} (t, s) λ_{i, q (m)}^{(s)} Σ_{v (m)}^{- 1} o (t) .

公式9

通过将导数设置为零以常规方法最大化公式，获得下面的公式以进行μ_n的ML估计，即

{\hat{μ}}_{n} = G_{nn}^{- 1} (k_{n} - \underset{ν &NotEqual; n}{Σ} G_{nν} μ_{ν})

公式10

应注意，μ_n的ML估计还取决于μ_k，其中k不等于n。指数n用于表示均值矢量的决策树的叶节点，而指数k表示协方差决策树的叶节点。从而，需要通过在全部μ_n上迭代直到收敛以执行优化。

这可以通过求解下面的公式同时优化全部μ_n而执行。

公式11

然而，如果训练数据较小，或N过大，公式11的系数矩阵不能具有满秩。通过使用奇异值分解或其它熟知的矩阵因数分解技术可以避免该问题。

然后执行相同的过程，以执行对协方差的ML估计，即，相对于Σ_k对公式（6）所示的辅助函数进行微分，以给出：

公式12

其中

\overset{&OverBar;}{o} (t) = o (t) - μ_{m}^{(s)}

公式13

还可以以相同方式获得与表达相关的权重的ML估计，即，相对于要求ML估计的参数对辅助函数微分，然后将微分值设置为0。

对于与表达相关的权重，这获得

公式14

公式14为没有偏置群集的CAT权重估计，通过偏置群集，可以将CAT权重估计重写为

λ_{q}^{(s)} = {(\underset{q (m) = q}{\underset{t, m}{Σ}} γ_{m} (t, s) M_{m}^{T} Σ_{v (m)}^{- 1} M_{m})}^{- 1} \underset{q (m) = q}{\underset{t, m}{Σ}} γ_{m} (t, s) M_{m}^{T} Σ_{v (m)}^{- 1} (o (t) - μ_{c (m, 1)})

公式15

其中μ_c(m,1)为用于偏置群集模型的分量m的均值矢量，M_m为用于分量m的非偏置均值矢量的矩阵。

参数估计的第三部分为决策树构建。逐个群集地构建与群集相关的决策树。当构建一群集的决策树时，固定其它群集的参数，包括树结构、高斯均值矢量和协方差矩阵。

每个二进制决策树以局部优化的方式从表示全部情境的单个根节点开始构建。在该实施例中，通过情境，使用下面的基，音素、语言和节律。当创建每个节点，选择关于情境的下一个优化问题。基于哪个问题导致在训练实例中生成的似然度和终端节点的最大增加而选择问题。

然后，搜索终端节点的集，以找到可以利用其优化问题而将其拆分开的节点，以对训练数据提供总似然度的最大增加。假设该增加超过阈值，利用优化问题将节点分开，并且创建两个新终端节点。当由于任何进一步的拆分都不会超过施加到似然度拆分的阈值，从而不能形成新的终端节点时，停止所述过程。

例如图13中示出该过程。通过问题q将均值决策树中的第n终端节点划分为两个新终端节点

和

可以如下计算通过该拆分获得的似然度增益：

公式16

其中S（n）表示与节点n相关联的一组分量。注意，不包括相对于μ_n为常数的项。

通过公式10给出μ_n的最大似然度。从而，上述可以写为：

公式17

通过如下给出通过将节点拆分为和

增加的似然度：

公式18

从而，利用上述，可以对每个群集构建决策树，其中所述树被设置为，使得首先在树中询问最优问题，并且根据拆分的似然度以分级顺序设置所述决策。然后对每个群集施加加权。

在另一个实施例中，还可以针对方差构建决策树。如下构建协方差决策树：如果通过问题q将协方差决策树中的终端节点划分为两个新终端节点

和

如下表示通过拆分得到的群集协方差矩阵和增益：

Σ_{k} = \frac{\underset{v (m) = k}{\underset{m, t, s}{Σ}} γ_{m} (t) Σ_{v (m)}}{\underset{v (m) = k}{\underset{m, t, s}{Σ}} γ_{m} (t)}

公式19

公式20

其中D为与{μ_k}无关的常数。从而似然度的增量为

公式21

在实施例中，以迭代方式执行该过程。参考图12的流程图说明该基础系统。

在步骤S1310，接收多个音频语音的输入。在该说明性实例中，使用4个表达。

然后，在步骤S1303,利用具有不同表达的训练数据训练与表达无关的声学模型。

如下初始化并训练群集适应性模型：

在步骤S1305，将群集P的数目设置为V+1，其中V为可获得数据（4）的不同表达的数目。

在步骤S1307，确定一个群集（群集1）作为偏置群集。利用在步骤S1303中生成与表达无关的模型的声音，初始化用于偏置群集的决策树和相关联的群集均值矢量。对于与表达无关的模型，还初始化协方差矩阵、用于多空间概率分布（MSD）的空间权重及其参数共享结构。

在步骤S1309，对2、...P群集的每个分配具体表达标签，例如群集2、3、4和5分别对应表达A、B、C、D。

在步骤S311，根据分配的表达标签，将一组CAT内插权重简单地设为1或0：

在该实施例中，每个表达、每个流具有全局权重。对于每个表达/流组合设置3组权重：安静、语音和停顿。

在步骤S1313，对于每个群集2,...,(P-1)，如下初始化群集。利用在步骤S1303中训练的与表达无关的模型对准用于相关联的声音的声音数据，例如用于群集2的声音B。在如此对准的情况下，计算统计值，并且估计群集的决策树和均值。在步骤S1311利用权重集将给定情境的均值计算为群集均值的加权和，即，在实际中，这给出，给定情境的均值为该情境的偏置群集均值和群集2中该情境的声音A模型均值的加权和（在两种情况中权重为1）。

一旦如上所述初始化群集，就如下更新/训练CAT模型。

在步骤S1319,从群集1到P逐群集地构建决策树，其中保持CAT权重不变。在步骤S1321,在CAT模型中估计新的均值和方差。然后在步骤S1323，对每个群集估计新的CAT权重。在实施例中，过程循环回到S321直到收敛。利用通过使用Baum-Welch算法的辅助函数执行的最大似然度计算来估计参数和权重，以获得对所述参数的更好的估计。

如前所述，通过迭代过程估计参数。

在另一个实施例中，在步骤S1323，过程循环回步骤S1319,使得在每个迭代中重构决策树直到收敛。

另外，可以基于多维连续空间中的发声级别点，利用表达表示来优化CAT系统。这里可以重复上述过程。然而，以计算用于每个语音发声的点而不是每个表达标记来替换步骤S1323。同样，可以迭代更新模型参数、空间（权重）中的点和决策树。

图13示出群集1到P，其为决策树形式。在该简化实例中，在群集1中仅有四个终端节点，在群集P中仅有三个终端节点。重要的是，注意到，

决策树不需要是对称的，即，每个决策树可以具有不同数目的终端节点。单纯地通过在第一决策中获得最大拆分的对数似然度拆分来确定树中终端节点的数目和分支的数目，然后以导致更大拆分的问题的顺序询问问题。一旦获得的拆分低于阈值，则对节点的拆分结束。

尽管描述了特定实施例，这些实施例仅以实例的方式示出，而不限制本发明的范围。实际上，这里所述的新颖的方法和设备可以以多种其它方式实施；另外，在不偏离本发明精神的情况下，可以进行在这里所述的实施例的形式中的各种省略、替换和变化。所附权利要求及其等同物旨在包括将落入本发明范围和精神内的这样的修改形式。

Claims

1.一种文语转换方法，该方法包括：

接收输入文本；

将所述输入文本分割为声单元序列；

利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，所述模型参数描述将声单元与语音矢量相关联的概率分布；以及

将所述语音矢量序列输出为音频，

该方法还包括通过如下步骤确定至少部分所述模型参数：

2.根据权利要求1所述的方法，其中将所述表达语言特征矢量映射到表达合成特征矢量包括使用机器学习算法。

3.根据权利要求1所述的方法，其中所述第二空间为多维连续空间。

4.根据权利要求1所述的方法，其中从所述输入文本提取表达特征包括多个提取过程，所述多个提取过程在所述文本的不同信息级别执行。

5.根据权利要求4所述的方法，其中所述不同信息级别选自：基于单词的语言特征提取级别以生成基于单词的语言特征矢量、基于全情境音素的语言特征提取级别以生成基于全情境音素的语言特征、基于部分语音（POS）的语言特征提取级别以生成基于POS的特征、以及基于叙事风格的语言特征提取级别以生成叙事风格信息。

6.根据权利要求4所述的方法，多个提取过程中的每个生成特征矢量，该方法还包括连接从不同信息级别生成的语言特征矢量，以生成与第二空间映射的语言特征矢量。

7.根据权利要求4所述的方法，其中，将表达语言特征矢量映射到表达合成特征矢量包括对应于不同信息级别的每个的多个分级阶段。

8.根据权利要求1所述的方法，其中所述映射使用全情境信息。

9.根据权利要求1所述的方法，其中所述声学模型从输入文本接收全情境信息，并且将该信息与从声学模型中的表达合成特征矢量导出的模型参数组合。

10.根据权利要求1所述的方法，其中所述声学模型的模型参数被表示为相同类型的模型参数的加权和，并且在第二空间中表示所述权重。

11.根据权利要求10所述的方法，其中被表示为相同类型的模型参数的加权和的所述模型参数为高斯均值。

12.根据权利要求10所述的方法，其中将相同类型的参数聚为群集，并且所述合成特征矢量包括用于每个群集的权重。

13.根据权利要求12所述的方法，其中每个群集包括至少一个决策树，所述决策树基于与语言、语音或韵律差异中的至少一个相关联的问题。

14.根据权利要求13所述的方法，其中群集的决策树之间存在结构上的差异。

15.一种训练文语转换系统的方法，该方法包括：

训练机器学习算法，该机器学习算法的训练输入为表达语言特征矢量，并且其训练输出为对应于训练输入的表达特征合成矢量。

16.根据权利要求15的方法，还包括将表达合成特征矢量输出到语音合成器，所述语音合成器包括声学模型，其中所述模型具有多个模型参数，所述模型参数描述将声单元与语音矢量相关联的概率分布。

17.根据权利要求16所述的方法，其中联合训练声学模型的参数和机器学习算法。

18.根据权利要求16所述的方法，其中所述声学模型的模型参数被表示为相同类型的模型参数的加权和，权重在第二空间中表示，并且其中联合训练在第二空间中表示的权重和机器学习算法。

19.一种文语转换设备，该设备包括：

接收器，用于接收输入文本；

处理器，适于：

将所述输入文本分割为声单元序列；以及

音频输出，其适于将所述语音矢量序列输出为音频，

所述处理器还适于通过如下步骤确定至少部分所述模型参数：