CN102360543B

CN102360543B - 基于hmm的双语(普通话-英语)tts技术

Info

Publication number: CN102360543B
Application number: CN2011102912130A
Authority: CN
Inventors: Y·钱; F·K-P·宋
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2007-08-20
Filing date: 2008-08-19
Publication date: 2013-03-27
Anticipated expiration: 2028-08-19
Also published as: US20090055162A1; CN102360543A; CN101785048B; US8244534B2; CN101785048A; WO2009026270A2; WO2009026270A3

Abstract

一种用于基于一种或多种语言的文本来生成语音的示例性方法，该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullback-Leibler散度分析。

Description

基于HMM的双语(普通话-英语)TTS技术

本申请是国际申请号为PCT/US2008/073563，国际申请日为2008年8月19日，进入中国国家阶段的申请号为200880103469.0，名称为“基于HMM的双语(普通话-英语)TTS技术”的发明专利申请的分案申请。

背景

虽然文本-语音(TTS)合成质量近年来已极大地提高，但各种电信应用程序(例如，信息询问、预约和预定、以及电子邮件阅读)要求比现有TTS系统所能够提供的更高的合成质量。具体而言，随着全球化及其伴随的语言混合，这些应用程序能够从其中一个引擎能够合成多种语言或甚至混合语言的多语言TTS系统中受益。大多数常规TTS系统只能够处理单一语言，其中语音数据库中的句子由单个说母语的人来发音。尽管多语言文本可通过在每一种语言改变时切换语音或引擎来正确地阅读，但其中语言改变在句子内作为单词或短语发生的代码切换文本实际上是不可行的。此外，随着移动电话或嵌入式设备的广泛使用，语音合成器的覆盖区域成为基于这些设备的关于应用程序的因素。

对多语言TTS系统的研究表明音素覆盖可通过收集多语言语音数据来实现，但语言专用信息(例如，专用文本分析)也是必需的。已经在多语言或语言无关语音识别和合成中尝试了使用最小音素库存来覆盖受影响的语言的所有音素的全局音素集。这一方法采用按音素相似性的音素共享，该音素相似性通过数据驱动聚类方法或者由国际音标字母表(IPA)定义的音节特征来测量。存在对TTS系统的小覆盖区域方面的强烈兴趣，注意基于隐马尔可夫模型的语音合成往往更有希望。某些隐马尔可夫模型(HMM)合成器可具有相对较小的覆盖区域(例如，≤2MB)，这使其适用于嵌入式系统。具体而言，这些HMM合成器已经成功地应用于许多单语的语音合成，例如，英语、日语和普通话。这一HMM方法已经出于多语言的目的而应用，其中首先通过使用来自若干说不同语言的说话者的混合语音来训练平均语音并且然后使该平均语音对特定说话者自适应。因此，该特定说话者能够说包含在训练数据中的所有语言。

通过全球化，嵌在普通话发言中的英语单词或短语在中国的学生和受过教育的人中正在变得越来越普遍地使用。然而，普通话和英语属于不同的语系；这些语言是高度无关的，这表现在基于对其IPA符号的检查，能够一起共享的音素很少。

常规上，基于由双语说话者说出的预先记录的普通话和英语句子来构建双语(普通话-英语)TTS，其中该系统的单元选择模块是跨这两种语言共享的，而来自这两种不同语言的音素彼此不共享。这一方法具有某些缺点。这一系统的覆盖区域太大，即，大约是单一语言系统的大小的两倍。实际上，找到足够数量的专业双语说话者来为各种应用程序构建多个双语音型也不容易。

此处所讨论的各种示例性技术涉及多语言TTS系统。与每一种语言需要单独的TTS系统的现有技术相比，这些技术能够减小TTS系统的覆盖区域。

概述

附图简述

参考附图描述了非限制性的和非穷尽的实施例，其中除非另外指定，否则在各个视图中相同的附图标记指示相同的部分。

图1是包括语音-文本(STT)和文本-语音(TTS)的文本和语音方法的图示。

图2是用于英语的TTS方法和系统以及用于普通话的TTS方法和系统的图示。

图3是示例性多语言TTS方法和系统的图示。

图4是确定英语和普通话的共享音素的示例性方法的图示。

图5是使用KLD来确定共享在英语音素和普通话音素之间是否切实可行的示例性技术的图示。

图6是用于确定共享在英语子音素和普通话子音素之间是否切实可行的示例性方法的图示。

图7是用于确定共享在英语复杂音素和普通话音素对之间是否切实可行的示例性方法的图示。

图8是用于上下文无关状态共享的示例性技术的图示。

图9是用于上下文相关状态共享的示例性技术的图示。

图10是用于语音合成的示例性技术的图示。

图11是基线系统以及用于英语和普通话的两个示例性系统的图示。

图12是用于将示例性系统与图11的基线系统进行比较的一系列表格和图表。

图13是将普通说话者的语音扩展到“外国”语言的示例性技术的图示。

图14是用于学习语言的示例性技术的图示。

图15是可用于实现此处所讨论的各种示例性方法中的部分或全部的示例性计算设备的各个组件的图示。

详细描述

此处描述了用于多语言TTS系统的技术。这些技术可适用于使用概率模型的多种TTS方法中的任一种。虽然参考用于英语和普通话的基于HMM的方法来描述各个示例，但各示例性技术可广泛地适用于其他语言和用于不止两种语言的TTS系统。

此处描述了用于声音共享的若干示例性技术。一种使用基于IPA的音素检查的方法适用于发现来自英语和普通话的某些音素是可共享的。另一种示例性方法展示在子音素产生级存在声音相似性，这也是可共享的。另外，复杂音素可由两个或三个简单音素和众多音位变体来呈现，这些复杂音素在特定音素上下文中使用，提供更多的在普通话和英语之间共享音素的机会。

参考上下文无关性和上下文相关性来讨论各种示例性技术。一种特定的示例性技术包括双语(普通话-英语)TTS系统中的上下文相关HMM状态共享。另一种特定的示例性技术包括状态级映射以便进行新语言合成而不必依赖于特定说话者的新语言语音。更具体而言，说话者的另一种语言的语音映射到新语言的声音以生成该新语言的语音。因此，这一方法可生成说话者的新语言语音而无需记录该说话者的新语言语音。这一技术通过合成来扩展用户的言语能力。

一种示例性方法以基于HMM的语音合成框架为基础。在该框架中，谱包络、基频和状态持续时间同时由对应的HMM来建模。对于给定文本序列，然后在最大似然(ML)意义上从经训练的HMM中生成语音参数迹线和对应的信号。

各种示例性技术可用于构建基于HMM的双语(普通话-英语)TTS系统。一种特定的示例性技术包括使用语言专用和语言无关问题，这些问题是为在一个单个决策树中跨两种语言聚类状态而设计的。试验结果表明具有跨语言上下文相关HMM状态共享的示例性TTS系统胜过其中一起使用两个单独的语言相关HMM的简单基线系统。另一种示例性技术包括基于Kullback-Leibler偏差(KLD)来进行跨语言状态映射以便使用英语决策树中的模型参数来合成普通话语音。试验结果表明经由这一方法合成的普通话语音是高度可理解的。

一种示例性技术可通过允许学生使用该学生的母语语音来生成外语语音来增强学习。这一技术使用例如使用天才双语说话者来建立的映射。根据这一技术，虽然来自说话者母语，但在使用学生自己的语音来合成外语时，该学生可以更容易地理解该外语。这一技术可任选地包括外语补充，例如，当学生变得更精通时，该学生可提供外语语音。

图1示出了文本和语音方法100，该方法包括语音-文本(STT)方法110和文本-语音(TTS)方法120。文本101可使用IPA 102来按音素表示。在说出或生成文本时，可将能量103呈现为相对于时间的振幅。能量波形103可使用各种技术中的任一种来分析，例如，使用傅立叶技术，可将能量变换到频域。

STT方法110接收能量(例如，至数字波形的模数转换)或能量的已记录版本(例如，数字波形文件)，参数化能量波形112并识别对应于能量波形的文本114。TTS方法120接收文本，执行文本分析122、韵律学分析124并且然后生成能量波形126。

如上所述，此处所描述的示例性技术主要涉及TTS方法和系统并且尤其涉及多语言TTS方法和系统。

图2示出了英语方法和系统202以及普通话方法和系统204。这些是两个单独的常规系统，并且需要TTS的英语和普通话能力的设备将需要用于英语方法和系统202以及普通话方法和系统204两者的足够的存储器。

同时描述英语方法和系统202以及普通话方法和系统204，因为各个步骤和组件相当类似。英语方法和系统202接收英语文本203而普通话方法和系统204接收普通话文本205。TTS方法220和240执行文本分析222、242、韵律分析224、244和波形生成226、246以产生波形207、208。当然，例如，英语和普通话的文本分析的细节是不同的。

英语TTS系统230包括用于生成波形207的英语音素232和英语HMM234，而普通话TTS系统250包括用于生成波形208的普通话音素252和普通话HMM 254。

如此处所描述的，一种示例性方法和系统允许多语言TTS。图3示出了示例性多语言方法和系统300。示例性TTS方法320对英语文本(“Hello World”)和/或普通话文本305(“来”)执行文本分析320，之后是韵律分析324和波形生成326。方法320使用示例性系统330，该系统包括一组音素332和对应的HMM 334，它们用于取决于接收到的是英语文本303还是普通话文本305来生成波形307和308。如图3所示，音素332包括英语音素(EP)和普通话音素(MP)。此外，可共享某些音素，其被指定为共享音素(SP)。

对于构建诸如图3的系统330的双语(普通话和英语)TTS系统，预备步骤是决定覆盖两种语言中的所有语音的音素集。另外，这一音素集应当足够紧凑以便于跨语言音素共享并产生大小合理的TTS模型。此处描述了用于找出可能的声音共享候选的若干示例性方法。如参考试验结果所讨论的(参见例如，图12)，共享准则可以是客观的和/或主观的。有时，术语“切实可行”用于共享(例如，音素、子音素、复杂音素等的共享)，这意味着多语言系统能够在可接受的出错水平下操作。

一种示例性方法检查第一语言的音素和第二语言的音素的IPA符号以便进行音素共享。IPA是供在转录任何口语的语音时使用的国际标准。该标准根据音素的语音-发音特征来对音素进行分类。IPA相当准确地表示音素并且古典歌手经常使用IPA来帮助演唱各种语言中的任一种的歌曲。在忽略语音感知的语言相关方面时，由相同的IPA符号标记的不同语言的音素应当被认为是相同的音素。

示例性IPA方法和示例性Kullback-Leibler散度(KLD)方法参考图4来描述，注意，图4主要涉及KLD方法(按照框408)，但它示出了与IPA方法相关的英语音素(EP)410和普通话音素(MP)420。

图4示出了用于分析两种语言的音素以便在这两种语言之间进行共享的示例性基于KLD的方法400。在图4的示例中，提供框404提供英语(EP 410)和普通话(MP 420)中的所有音素，其中英语音素集包括24个辅音、11个单元音和5个双元音，而普通话音素集是更精细的集合，包括27个简单辅音、具有滑音的30个辅音和36个声调元音。框404还包括上标1-4，这些上标如下：1用作音节开始(声母)；2用作音节结尾；3用作滑音；而4用作音节核或结尾。

在检查IPA符号的示例性IPA方法中，八个辅音/k^h/、/p^h/、/t^h/、/f/、/s/、/m/、/n/和/l/以及两个元音(忽略声调信息)/ε/和/a/能够在两种语言之间共享。因此，该IPA方法可确定共享音素集。

在示例性基于KLD的方法中，判定框408通过检查EP 410和MP 420以查找可共享音素(SP)430来执行基于KLD的分析。该KLD技术提供对两个概率分布之间的相似(异)性的信息论度量。当语言HMM的时间结构通过动态编程来对齐时，可进一步修改KLD以测量两种进化的语音的HMM之间的差异。

图5示出了示例性KLD技术440，该技术适用于英语音素集中的音素“i”的英语音素HMM(i)411和普通话音素集中的音素“j”的普通话音素HMM(j)421。根据该KLD技术，对于两个给定的连续随机变量的分布P和Q，P和Q之间的KLD的对称型由图5的等式KLD 444来表示。在该等式中，p和q表示P和Q的密度。对于两个多元高斯分布，等式444具有闭型：

D_{KL} (P, Q) = \frac{1}{2} tr {(Σ_{p}^{- 1} + Σ_{q}^{- 1}) (μ_{p} - μ_{q}) {(μ_{p} - μ_{q})}^{T}

+ Σ_{p} Σ_{q}^{- 1} + Σ_{q} Σ_{p}^{- 1} - 2 I}

其中μ和∑分别是对应的均值向量和协方差矩阵。根据KLD技术440，框404中的每一个EP和每一个MP在听觉上由具有5个发射状态(图5中的状态1-5)的上下文无关HMM来表示。每一个状态输出概率密度函数(pdf)是具有对角协方差矩阵的单个高斯型。对于英语音素HMM(i)411，存在对应于每一个状态的高斯分布412和对角协方差矩阵414，而对于普通话音素HMM(j)421，存在对应于每一个状态的高斯分布422和对角协方差矩阵424。另外，对于图5的示例，对于英语音素和普通话音素两者使用线谱对(LSP)编码416、426。

根据KLD技术440，用于测量任何两个给定HMM之间的KLD的频谱特征442是40阶LSP 416中的前24个LSP和40阶LSP 426中的前24个LSP。因为通常感觉上差别最大的频谱信息位于较低的频率范围内，所以选择前24个LSP。

在图4和5的KLD示例中，用于训练HMM的数据分别包括1024个英语句子和1000个普通话句子。上述闭型等式(等式444的闭型)用于计算由其各自的HMM建模的每一语音对之间的KLD。16个英语元音和由KLD从英语和普通话的所有元音中测出的这16个英语元音的最近邻居在图4的框408中列为集合SP 430。集合SP 430包括最近邻居是普通话元音的六个英语元音，并且存在二对一映射，例如，这六个元音中/ei/和/i/两者都映射到/ε1/。

虽然图4和5的基于KLD的技术适用于音素，但这一方法可适用于子音素和/或复杂音素。另外，如将在下文中进一步描述的，上下文可提供共享机会。

普通话是汉藏语系中的声调语言，而英语是印欧语系中的重音计时(stress-timed)语言；因此，图4和5所示的分析结果以及IPA检查结果暗示英语音素往往与普通话音素不同。然而，因为语音产生受到发音器官的有限移动的约束，所以，如此处所描述的，一种示例性方法能够在粒度、子音素级找出声音属性的共享(参见例如，图6的方法600)。

从另一观点来看，许多复杂音素可由两个或三个音素来很好地呈现(例如，英语双元音可类似于普通话元音对)。一种示例性方法通过将一种语言的多个音素组与可能也是多个音素组的另一种语言的声音进行比较来找出声音共享(参见例如，图7的方法700)。

此外，如此处所描述的，音位变体(例如，普通话中的声母‘w’/u/对应于音节‘wo’中的[u]和音节‘wei’中的[v])提供更多的在特定上下文下的普通话和英语之间的音素共享机会。因此，一种示例性方法可使用用于双语(普通话-英语)TTS系统的上下文相关HMM状态级共享(参见例如，图8的方法800)。

此处所描述的又一种方法包括状态级映射以便进行新语言合成而不记录数据(参见例如，图9的方法900)。

图6示出了用于找出共享子音素的示例性方法600。根据方法600，分析框680例如使用上述用于计算英语子音素660和普通话子音素670的相似性/相异性度量的KLD技术来分析子音素660、670。判定框682使用一个或多个准则来判定是否存在相似性。如果判定框682判定存在相似性，则方法600在框684中将子音素归类为共享；否则，按照框688，方法600将KLD比较归类为指示无共享。

图7示出了用于找出共享的复杂音素的示例性方法700。根据方法700，分析框780例如使用上述用于计算英语复杂音素760(例如，双元音)和普通话音素对770(例如，元音对)的相似性/相异性度量的KLD技术来分析复杂音素和音素对760、770。判定框782使用一个或多个准则来判定是否存在相似性。如果判定框782判定存在相似性，则方法700在框784中将复杂音素归类为与音素对共享；否则，按照框788，方法700将KLD比较归类为指示无共享。

图8示出了用于上下文相关状态共享的示例性方法800。在基于HMM的TTS中，使用丰富上下文的音素模型(例如，三音素、五音素模型或者具有甚至更多且更长的上下文(如音素位置和POS)的模型)来捕捉相邻音素之间的声音协同发音(acoustic co-articulation)效果。然而，实际上，受限于训练数据不足，提供丰富上下文作为更一般化的上下文通常需要模型绑定以便在测试时更稳健地预测看不见的上下文，例如，已经使用经由聚类决策树的状态绑定。

在图8的示例中，提供框804提供音素集，该音素集是英语和普通话中的所有音素的并集。在训练框808，以其中允许将来自跨不同语言的不同中心音素的状态绑定在一起的方式进行训练。方法800在聚类框812中继续，在那里在决策树中聚类上下文相关状态。在该示例中，聚类使用两个问题来使决策树生长：

i)语言无关问题：例如，软腭_爆破音(Velar_Plosive)，“该状态属于包含/g/(英语)、/k^h/(英语)、/k/(普通话)或/k^h/(普通话)的软腭爆破音音素吗？”

ii)语言专用问题：例如，英语_浊_爆破音(E_Voiced_Stop)，“该状态属于包含/b/、/d/和/g/的英语浊爆破音音素吗？”

根据发音方式和地点、超语段特征等来构造问题以便将英语和普通话音素模型的状态绑定在一起。

在图8的示例中，总共生成85006×5个上下文相关状态。其中，43491×5个状态是从1000个普通话句子中训练出来的，而其余状态是从1024个英语句子中训练出来的。然后将所有上下文相关状态聚类成决策树。这一混合双语决策树只有通过组合两个单独训练的英语和普通话TTS系统来形成的系统的叶节点数中的大约60％。同样，在图8的示例中，大约五分之一的状态是跨语言绑定的，即，37871个普通话状态与44548个英语状态绑定在一起。

图9示出了用于上下文相关状态映射的技术900的图示。构建双语(普通话和英语)TTS系统的直接技术可使用由同一说话者说出的预先记录的普通话和英语句子；然而，只要需要构建多个说话者的双语音型的库存就找到精通两种语言的专业说话者并非那么容易。同样，在只有来自说话者的源语言的单语记录可用时的不同目标语言的合成并未明确定义。因此，示例性技术900可用于首先建立跨来自双语说话者的不同语言的绑定的、上下文相关状态映射，并且然后将该状态映射用作合成其他单语说话者的目标语言的语音的基础。

根据技术900，构建框914通过使用由一个说话者记录的双语数据来构建两个语言专用决策树。按照映射框918，普通话决策树(MT)920中的每一个叶节点都具有在最小KLD意义上的英语决策树(ET)910中的映射的叶节点。按照映射框922，英语决策树(ET)910中的每一个叶节点都具有在最小KLD意义上的普通话决策树(MT)920中的映射的叶节点。在该树图中，示出了绑定的、上下文相关状态映射(从普通话到英语)(MT 920到ET 910)。从普通话到英语的定向映射可将普通话树中的不止一个叶节点映射到英语树中的一个叶节点。如图所示，普通话树920中的两个节点映射到英语树910中的一个节点(参见虚线圆圈)。从英语到普通话的映射类似地完成但方向相反，例如，对于每一个英语叶节点，该技术从普通话树中的所有叶节点中找出最小KLD意义上的最近邻居。特定映射节点到节点链接可以是单向或双向的。

对于语音合成，图10示出了示例性技术1000。根据技术1000，在基于HMM的语音合成中，将频谱和音调特征分割成两个流：频谱特征流1010和音调特征流1020。构建流相关模型以将两个特征聚类成单独的决策树。在建模框1022中，通过MSD-HMM来对音调特征建模，该MSD-HMM可对两个(离散和连续)概率空间建模，离散概率空间对应于清音区域而连续概率空间对应于浊音F0轮廓(contour)。

判定框1024根据图10的等式来确定两个MSD-HMM之间的KLD上限。在该示例中，英语和普通话两者都具有频谱、音调和持续时间的树，并且这些树的每一个叶节点用于设置英语和普通话之间的映射。

为了在不预先记录来自同一语音天才的数据的情况下合成新语言的语音，可使用用双语数据和由不同说话者记录的新单语数据来建立的映射。例如，可使用从双语(英语-普通话)说话者“A”的语音数据中训练出的上下文相关状态映射来选择从不同的单语普通话说话者“B”的语音数据中训练出的适当的状态以合成英语句子。在该示例中，同一决策树结构应用于来自说话者A和B的普通话训练数据。

图11示出了训练数据1101和测试数据1103，以及基线TTS系统1100、示例性状态共享TTS系统1200和示例性映射TTS系统1300。在这些试验中使用由女性说话者记录的广播新闻风格语音语料库。训练数据1101包括1000个普通话句子和1024个英语句子，这些句子在音素和韵律上都是丰富的。测试数据1103包括50个普通话、50个英语和50个混合语言句子。语音信号以16kHz进行采样，由5毫秒位移的25毫秒窗口来加窗(window)，并且LPC频谱特征被变换成40阶LSP及其动态特征。采用具有单个、对角高斯分布的五状态从左到右HMM来训练音素模型。

系统1100是HMM的直接组合(基线)。具体而言，系统1100是基线系统，其中单独训练语言专用、普通话和英语HMM和决策树1104、1108。在合成部分中，首先通过双语TTS文本分析前端(由华盛顿州雷蒙德市的微软公司出售的

Mulan软件)来将输入文本转换成上下文音素标签序列。经由语言专用决策树来检索HMM中的上下文状态的对应参数1116。然后，在最大似然意义上生成LSP、增益和F0迹线1120。最后，从所生成的参数迹线中合成语音波形1124。在合成混合语音句子时，取决于要合成的文本段是普通话还是英语，选择适当的语言专用HMM来合成句子的对应部分。

系统1200包括跨语言状态共享。在系统1200中，一起使用1000个普通话句子和1024个英语句子两者以训练HMM 1204，并且应用如上所述的跨语言上下文相关状态共享。按照文本分析框1208，因为训练数据中不存在混合语言句子，所以在文本分析模块中用中心音素所属的语言中的最近上下文来替换语言切换边界处的音素的上下文(例如，左侧音素或右侧音素)。例如，用

来替换三音素其中左侧上下文/o1/(C)是根据KLD度量的

的最近普通话替换。在合成框1212中，使用混合语言的决策树而非系统1100的框1124中的语言专用决策树。

系统1300包括跨语言状态映射。在该系统中，进行普通话HMM 1304和英语HMM 1308的训练，之后构建两个语言专用决策树1312(参见例如，图9的ET 910和MT 920)。按照为映射而提供的映射框1316和1320来进行映射，如参考图9的技术900所解释的。按照合成框1324，执行试验以便在不预先记录数据的情况下合成语言的句子。为了评估目标语言的合成发言的上限质量，试验在提取状态映射规则和合成目标语言时使用同一说话者的语音。

图12示出了用于表征参考图11讨论的试验的各种表格和图表。表1405示出LSP、对数F0和持续时间的决策树中的绑定状态或叶节点的数量的比较，以及在训练时的系统1100和系统1200的对应的平均对数概率。在表1405中，观察到系统1200的绑定状态(HMM参数)的总数与系统1100相比大约少40％。在训练系统1200时获得的每帧对数概率几乎与系统1100相同。

合成质量按照原始语音和由系统1100和系统1200合成的语音之间的失真来客观地测量。因为所生成的发言的预测出的HMM状态持续时间一般与原始语音不同，所以试验测量合成语音的音素持续时间的均方根误差(RMSE)。然后测量原始语音和合成语音之间的频谱和音调失真，其中原始语音的状态持续时间(通过强制对齐来获得)用于语音生成。以此方式，在帧同步的基础上在原始和合成发言之间比较频谱和音调两者。

表1410示出了在由系统1100和系统1200生成的100个测试句子(50个普通话句子和50个英语句子)中估算出的平均对数谱距离、F0的RMSE和音素持续时间的RMSE。该数据指示系统100和系统1200之间的、对数频谱距离、F0的RMSE和持续时间的RMSE方面的失真差异小得可以忽略不计。

图表1420提供主观评估的结果。对由系统1100和系统1200合成的单语句子的非正式聆听确认表1410所示的客观度量：即，在由系统1100和1200合成的100个句子(50个普通话，50个英语)中几乎不存在任何主观或客观差异。

具体而言，图表1420的结果来自由两个系统1100和1200生成的50个混合语言句子，如在九个受实验者的AB偏好测试中主观评估的。系统1200的偏好得分(60.2％)比系统1100(39.8％)高得多(α＝0.001，CI＝[0.1085，0.3004])。由系统1100和1200合成的成对句子中的主要感觉上的显著差异在于混合语言句子中的英语单词和汉语单词之间的转换。系统1200中的跨普通话和英语的通过绑定状态的状态共享帮助缓解普通话和英语转换之间的语段和超语段不连续性的问题。因为所有训练句子排他地或者是汉语或者是英语，所以不存在用于训练这一语言切换现象的特定训练数据。结果，在没有任何跨英语和普通话的状态共享的情况下，系统1100更容易在英语和汉语单词切换时产生合成伪像。

总之，来自试验的结果指示经由跨不同语言的高效状态绑定来获得且HMM模型大小比系统1100小得多的系统1200对于非混合语言句子能够产生相同的合成质量且对于混合语言句子能够产生更好的合成质量。

对于系统1300，五十个普通话测试句子由英语HMM来合成。要求五个受实验者转录50个合成句子以评估其可理解度。获得93.9％的汉字准确度。

由系统1100(虚线)和系统1300(实线)预测的F0迹线的示例在图12的图表1430中示出。如图表1430所示，可能由于对浊音/清音随机现象的MSD建模以及用于状态映射的KLD度量，浊音/清音边界在由系统1100和系统1300生成的两条迹线之间很好地对齐。此外，这两条迹线中的F0轮廓的上升和下降也很好地匹配。然而，由系统1300预测的F0方差小于由系统1100预测的F0方差。在分析英语和普通话训练句子之后，发现普通话句子中的F0方差比英语句子中的F0方差大得多。这两个数据库的均值和方差两者都在表1440中示出。普通话句子的大得多的方差部分是因为普通话的词汇声调特性，其中四个(或五个)词汇声调中的变化增加了普通话中的F0的固有方差或动态范围。

如此处所描述的，各种示例性技术用于构建示例性基于HMM的双语(普通话-英语)TTS系统。试验结果示出具有跨语言上下文相关HMM状态共享的示例性TTS系统1200胜过其中一起使用两个语言相关HMM的简单基线系统1100。另外，基于Kullback-Leibler散度的跨语言状态映射可用于使用英语决策树中的模型参数来合成普通话语音，并且试验结果示出所合成的普通话语音是高度可理解的。

图13是用于将普通说话者的语音扩展到“外国”语言的示例性技术1370。该特定示例可使用图9的技术900来实现，其中在一种语言的决策树和另一种语言的决策树之间进行映射，注意，对于两种语言，映射可以是单向或双向的。对于具有不止两种语言的系统，存在各种映射可能(例如，语言1到2和3、语言2到语言1、语言3到语言2等)。

根据技术1370，提供框1374提供精通语言1和语言2的天才说话者的语音，其中普通说话者理解语言1(例如，母语)并且其中普通说话者并非完全理解语言2(例如，外语)。对于天才说话者的语音，映射框1378将对应于语言1的叶节点映射到对应于语言2的“最近邻居”叶节点。由于天才说话者可提供两种语言的“母语”声音，因此映射能够更准确地映射语言1中所使用的声音和语言2中所使用的声音之间的相似性。

技术1370在框1382中继续，在那里提供普通说话者的语言1的语音。关联框1386将所提供的普通说话者的语音与对应于语言1的适当叶节点相关联。由于已经存在使用天才说话者的语音来建立的、语言1声音和语言2声音之间的映射，因此示例性系统现在能够使用普通说话者的来自语言1的声音来生成至少某些语言2语音。

出于TTS的目的，提供框1390提供例如对于普通说话者是“外语”的语言2的文本，并且生成框1394使用映射和普通说话者的语言1的话音(例如，语音)来生成语言2的语音。由此，技术1370将普通说话者的言语能力扩展到语言2。

在图13的示例中，普通说话者可以是完全以语言2为母语的或者普通说话者可具有某种程度的语言2技能。取决于该技能，说话者可通过提供语言2以及语言1的语音来补充技术1370。存在各种映射和声音选择可能性，其中说话者通过提供语言1和语言2的语音来补充。

在图13的示例中，一旦说话者变得精通语言2，该说话者就可被认为是天才说话者并且按框1374和1378来训练示例性TTS系统，如参考图9的技术900所描述的。

图14示出了帮助学生学习语言的示例性学习技术1470。按照框1474，学生无法完全理解老师的外语语音。例如，学生可以是以普通话为母语的人而老师可以是英语老师；因此，英语是外语。

在框1478中，学生用该学生的母语来训练示例性TTS系统，其中该TTS系统将该学生的语音映射到外语。为了更全面地理解老师的语音并因此理解外语，按框1482，学生输入对应于说出的短语(例如，“the grass is green”)的文本。在生成框1486，TTS系统使用学生的语音来生成该学生的耳朵更熟悉的外语语音。因此，学生更容易地理解老师的发言。此外，TTS系统可显示或以其他方式输出声音列表(例如，音素上或作为单词等)以使得学生能够更容易地发出感兴趣的短语(即，按照框1482的输入文本)的声音。技术1470能够以可增强语言学习的方式向学生提供反馈。

在示例性技术1370和1470中，声音可以是音素、子音素等。如上所述，取决于所使用的相似性标准(或准则)，可在子音素级更容易地或更准确地进行映射。示例性技术可使用声音组合。例如，可使用音素、子音素、复杂音素、音素对等来增加映射并且更广泛地覆盖一种或多种语言的声音范围。

一种至少部分地由计算机实现的用于基于一种或多种语言的文本来生成语音的示例性方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。这一方法可任选地包括上下文相关状态。这一方法可任选地包括将状态聚类成例如决策树，其中该群集可使用语言无关问题和/或语言专用问题。

一种至少部分地由计算机实现的用于基于一种或多种语言的文本来生成语音的示例性方法包括构建第一语言专用决策树、构建第二语言专用决策树、将来自该第一树的叶节点映射到该第二树的叶节点、将来自该第二树的叶节点映射到该第一树的叶节点、接收该第一语言和该第二语言中的一种或多种语言的文本、以及至少部分地基于将来自该第一树的叶节点映射到该第二树的叶节点和/或将来自该第二树的叶节点映射到该第一树的叶节点来生成对应于所接收到的文本的语音。这一方法可任选地使用KLD技术来进行映射。这一方法可任选地包括一个决策树中的、映射到另一决策树树的单个叶节点的多个叶节点。这一方法可任选地在不使用记录数据的情况下生成语音。这一方法可使用单向映射，其中例如，只存在从语言1到语言2的映射或者只存在从语言2到语言1的映射。

一种至少部分地由计算机实现的用于减小多语言TTS系统的存储器大小的示例性方法包括提供用于第一语言中的声音的HMM、提供用于第二语言中的声音的HMM、确定该第一语言中的声音的线谱对、确定该第二语言中的声音的线谱对、基于该第一语言中的声音和该第二语言中的声音的线谱对来计算指示该第一语言中的声音和该第二语言中的声音之间的相似性/相异性的KLD得分、以及构建多语言基于HMM的TTS系统，其中该TTS系统包括基于KLD得分的共享声音。在这一方法中，第一语言中的声音可以是音素、子音素、复杂音素、音素对等，而第二语言中的声音可以是音素、子音素、复杂音素、音素对等。在这一方法中，声音可以是上下文相关声音。

示例性计算设备

图15示出了可用于实现此处所讨论的各种示例性方法的部分或全部的示例性计算设备1500的各个组件。

图15所示的计算设备只是计算环境的一个示例，且并非旨在对计算机和网络体系结构的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例操作环境中所示出的任一组件或其组合有任何依赖性或要求。

参考图15，用于实现使用基于特征的方法来训练墨水数据的示例性字符生成系统的示例性系统包括计算设备，诸如计算设备1500。在一非常基本的配置中，计算设备1500通常包括至少一个处理单元1502和系统存储器1504。取决于计算设备的确切配置和类型，系统存储器1504可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等)或是两者的某种组合。系统存储器1504通常包括操作系统1505、一个或多个程序模块1506，并且可包括程序数据1507。该基本配置在图15中由虚线1508内的组件示出。

操作系统1505可包括基于组件的框架1520，其支持组件(包括属性和事件)、对象、继承、多态性、反射，并且提供面向对象的基于组件的应用程序编程接口(API)，诸如由华盛顿州雷蒙德市的微软公司制造的.NET^TM框架的API。

计算设备1500还可具有附加特征或功能。例如，计算设备1500还可包括附加数据存储设备(可移动和/或不可移动)，诸如，例如磁盘、光盘或磁带。这样的附加存储在图15中由可移动存储1509和不可移动存储1510例示。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器1504、可移动存储1509和不可移动存储1510都是计算机存储介质的示例。因此，计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算设备1500访问的任何其它介质。任何这样的计算机存储介质都可以是设备1500的一部分。计算设备1500还可具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等输入设备1512。还可包括诸如显示器、扬声器、打印机等输出设备1514。这些设备在本领域是公知的，因此不必在此详细讨论。

计算设备1500还可包含允许该设备诸如通过网络来与其它计算设备1518进行通信的通信连接1516。通信连接1516是通信介质的一个示例。通信介质通常由诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据来体现，并包括任何信息传递介质。术语“已调制数据信号”指的是以在信号中编码信息的方式设定或更改其一个或多个特征的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。

各种模块和技术在此处可在诸如程序模块等由一个或多个计算机或其它设备执行的计算机可执行指令的一般上下文中描述。一般而言，程序模块包括用于执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。这些程序模块等可以作为本机代码执行或诸如在虚拟机或其它即时(just-in-time)编译执行环境中下载和执行。通常，程序模块的功能可以在各个实施例中按需进行组合或分布。

这些模块和技术的实现可以存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质传输。计算机可读介质可以是可由计算机访问的任何可用介质。作为示例而非限制，计算机可读介质可包括“计算机存储介质”和“通信介质”。

示例性计算设备可包括处理器、用户输入机制(例如，鼠标、指示笔、滚动垫等)、扬声器、显示器以及至少部分地由该处理器实现的控制逻辑，该控制逻辑用于实现此处所描述的用于TTS的各种示例性方法中的一种或多种。对于TTS，这一设备可以是蜂窝电话或者一般地是手持式计算机。

然而，本领域技术人员可认识到此处所描述的技术也可在没有这些具体细节中的一个或多个的情况下，或者用其它方法、资源、材料等来实施。在其它情况下，仅仅为了避免混淆各示例性技术的各方面而未详细地示出或描述公知的结构、资源或操作。

虽然示出和描述了各示例和应用，但可以理解，这些技术不限于上述精确配置和资源。可以对此处所公开的方法、系统等的安排、操作和细节作出对本领域技术人员显而易见的各种修改、改变和变更，而不背离其实际范围。

Claims

1.一种至少部分地由计算机实现的用于基于文本来生成语音的方法，所述方法包括：

构建第一语言专用决策树；

构建第二语言专用决策树；

基于位于较低频率范围而不是完整频率范围内的频谱特征来测量两个给定隐马尔可夫模型之间的Kullback-Leibler散度来使用Kullback-Leibler散度技术将来自所述第一树的叶节点映射到所述第二树的叶节点；

接收所述第二语言的文本；以及

至少部分地基于将来自所述第一树的叶节点映射到所述第二树的叶节点来生成对应于所接收到的文本的所述第二语言的语音。

2.如权利要求1所述的方法，其特征在于，还包括将来自所述第二树的叶节点映射到所述第一树的叶节点。

3.如权利要求1所述的方法，其特征在于，一个决策树的多个叶节点映射到另一决策树的单个叶节点。

4.如权利要求1所述的方法，其特征在于，所述第一语言包括普通话。

5.如权利要求1所述的方法，其特征在于，所述第一语言和所述第二语言包括英语和普通话。

6.如权利要求1所述的方法，其特征在于，所述生成语音在不使用以所述第二语言所提供的语音的情况下发生。

7.一种至少部分地由计算机实现的用于多语言TTS系统的方法，所述方法包括：

提供用于第一语言中的声音的隐马尔可夫模型；

提供用于第二语言中的声音的隐马尔可夫模型；

确定所述第一语言中的声音的线谱对；

确定所述第二语言中的声音的线谱对；

基于位于较低频率范围而不是完整频率范围内的线谱对来基于所述第一语言中的声音和所述第二语言中的声音的线谱对来计算Kullback-Leibler散度得分，其中所述Kullback-Leibler散度得分指示所述第一语言中的声音和所述第二语言中的声音之间的相似性/相异性；以及

构建多语言基于隐马尔可夫模型的TTS系统，其中所述TTS系统包括基于Kullback-Leibler散度得分的共享声音。

8.如权利要求7所述的方法，其特征在于，所述第一语言中的声音包括音素并且其中，所述第二语言中的声音包括音素。

9.如权利要求7所述的方法，其特征在于，所述第一语言中的声音包括子音素并且其中，所述第二语言中的声音包括子音素。

10.如权利要求7所述的方法，其特征在于，所述第一语言中的声音包括复杂音素并且其中，所述第二语言中的声音包括两个或更多音素。

11.如权利要求7所述的方法，其特征在于，所述第一语言中的声音包括上下文相关声音。