CN102822889B

CN102822889B - 用于tts级联成本的预先保存的数据压缩

Info

Publication number: CN102822889B
Application number: CN201180016984.7A
Authority: CN
Inventors: 宋慧成; 帐国亮; 翁志伟
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-04-05
Filing date: 2011-03-28
Publication date: 2014-08-13
Anticipated expiration: 2031-03-28
Also published as: US8798998B2; US20110246200A1; CN102822889A; WO2011126809A2; WO2011126809A3

Abstract

预先保存的级联成本数据通过语音分段分组来压缩。语音分段基于其与其他语音分段的级联成本值被分配给预定义数量的分组。为每一个分组选择代表分段。在不同分组中在两个分段之间的级联成本随后可以利用其各自分组的代表分段之间的级联成本来近似，从而减少将要预先保存的级联成本数据的量。

Description

用于TTS级联成本的预先保存的数据压缩

背景技术

文本-语音系统（TTS）是使用语音的人机界面之一。能够以软件或硬件实现的TTS将正常的语言文本转换成语音。TTS在许多应用诸如汽车导航系统、通过电话的信息检索、话音邮件、语音-语音翻译系统和以合成具有自然人类声音特征的语音为目标的可比应用中进行实现。现代的文本-语音系统为用户提供针对集成在交互式话音响应系统中的众多服务的访问。电话客户服务是交互式话音响应系统中快速激增的文本-语音功能的示例之一。

单元选择（unit selection）合成是针对使用记录语音的大型数据库的语音合成的一种方案。在数据库创建期间，每个记录的话语（utterance）被分段为一些个别音素、双音素（diphones）、半单音（half-phone）、音节、语素（morphemes）、词、短语和/或句子。这些单元在语音数据库中的索引随后可以基于分段和如同基频（音调）、持续时间、在音节中的位置和相邻音素之类的声学参数来创建。在运行时，通过从数据库中确定候选单元（单元选择）的最佳链，可以创建期望的目标话语。

在单元选择语音合成中，使用级联成本（concatenation cost）来决定是否能够在没有噪声的情况下级联两个语音分段。然而，对于需要大量计算资源的实时计算来说，针对复杂语音模式或高质量合成的级联成本的计算可能是过于繁重的。应对这一挑战的一种方式是对于每一对可能的级联语音分段预先保存（pre-saving）级联成本数据，以避免实时计算。尽管如此，这种方案引入可能以兆兆字节为单位的大内存需求。

发明内容

提供这个发明内容部分来以简化的形式介绍下面在详细描述部分中进一步描述的概念的选择。这个发明内容部分既不打算专门识别所请求保护的主题的关键特征或基本特征，也打算用作辅助手段来确定所请求保护的主题的范围。

实施例涉及通过语音分段分组（grouping）来压缩预先保存的级联成本数据。语音分段可以基于其与其他语音分段的级联成本值而被分配给预定义数量的分组。可以为每一个分组选择代表分段（representative segment）。不同分组中的两个分段之间的级联成本随后可以利用其各自分组的代表分段之间的级联成本来近似，从而减少将要预先保存的级联成本数据的量。

通过阅读下面的具体描述部分和查阅相关联的附图，这些以及其他的特征和优点将是明显的。将明白：前面的一般性描述和下面的具体描述是解释性的，并且不限制所请求保护的各方面。

附图说明

图1是语音合成系统的概念图；

图2是示出根据实施例的采用预先保存的级联成本数据压缩的示例的文本-语音（TTS）系统中的主要交互作用的框图；

图3示出文本-语音系统中用于预先保存的级联成本数据压缩的操作块；

图4示出示例的级联成本矩阵；

图5示出广义的级联成本矩阵；

图6示出根据实施例的在前分段和在后分段类别中的每一个分组的语音分段和代表分段的分组；

图7示出完全级联成本矩阵至代表分段级联成本矩阵的压缩；

图8是其中可以实现根据本发明的系统的联网环境；

图9是其中可以实现实施例的示例计算操作环境的框图；和

图10示出根据实施例的用于通过语音分段分组来压缩预先保存的级联成本数据的逻辑流程图。

具体实施方式

如上面简要描述的，可以通过语音分段分组以及使用每个分组的代表分段来压缩预先保存的级联成本数据。在下面的详细描述中，参考形成其一部分的附图，并且在这些附图中通过示意图来显示具体的实施例或示例。在不脱离目前披露内容的精神或范围的情况下，可以组合这些方面，可以利用其他方面，并且可以进行结构变化。因此不在限制意义上进行下面的详细描述，并且本发明的范围利用所附的权利要求书及其等价物来定义。

虽然将在个人计算机上结合运行在操作系统上的应用程序来执行的程序模块的一般上下文中描述这些实施例，但是本领域的技术人员将认识到：各方面也可以与其他程序模块相组合来实现。

通常，程序模块包括执行特定任务或实现特定的抽象数据类型的例程、程序、组件、数据结构以及其他类型的结构。此外，本领域的技术人员将意识到：实施例可以利用其他的包括手持设备、多处理器系统、基于微处理器或可编程的消费类电子产品、微型计算机、大型计算机以及可比计算设备的计算机系统配置来实践。实施例也可以在其中利用通过通信网络链接的远程处理设备执行任务的分布式计算环境中进行实践。在分布式计算环境中，程序模块可以位于本地和远程内存存储设备二者中。

实施例可以作为计算机实现的处理（方法）、计算系统或作为制品诸如计算机程序产品或计算机可读媒体来实现。计算机程序产品可以是计算机系统可读并编码包括用于导致计算机或计算系统执行（一个或多个）示例处理的指令的计算机程序的计算机存储介质。计算机可读存储介质例如能够经由易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘或光盘以及可比媒体中的一个或多个来实现。

在整个说明书中，术语“服务器”一般指的是通常在联网环境中执行一个或多个软件程序的计算设备。然而，服务器也可以作为在被视为网络上的服务器的一个或多个计算设备上执行的虚拟服务器（软件程序）来实现。在下面提供关于这些技术和示例操作的更多细节。术语“客户”指的是客户端设备和/或应用。

参考图1，示出在文本-语音系统中的顶层组件的框图100。合成的语音能够通过级联数据存储设备中的或由合成器生成的记录语音的片段（piece）来创建，其中合成器合并声道模型和其他的人类声音特征来创建完全合成的话音输出。

文本-语音系统（TTS）112通过（例如，利用分析引擎）对将要转换的文本执行分析、可选的语言分析以及将最终产品语音的元素放在一起的合成而将文本102转换成语音110。将要转换的文本可以利用文本分析组件104来分析，从而产生个别词，这些词利用语言分析组件106来分析，从而产生音素。波形生成组件108（例如，语音合成引擎）基于这些音素来合成输出语音110。

取决于TTS的类型，该系统可以包括附加的组件。这些组件可以执行附加的或更少的任务，并且其中的一些任务可以不同地分布在这些组件之间。例如，作为分析的一部分，可以对该文本执行文本标准化、预处理或标记化。音标随后被分配给每一个词，并且文本被划分并被标记成如同短语、分句和句子之类的韵律单元。这种文本-音素或字素（grapheme）-音素转换利用语言分析组件106来执行。

生成合成语音波形的主要类型包括拼接合成（concatenative synthesis）、共振峰合成以及基于Hidden Markov Model（隐式马尔科夫模型）（HMM）的合成。拼接合成基于记录语音分段的级联（或串在一起）。虽然产生接近于自然发声的合成语音，但是在这种形式的语音生成中，语音中的自然变化与用于分段波形的自动化技术的性质之间的差别有时可能在输出中产生可听到的毛刺。拼接合成的子类型包括单元选择合成，其使用记录语音的大型数据库。在数据库创建期间，每一个记录的话语被分段成个别单音（phone）、双音素、半单音、音节、语素、词、短语和句子中的一些或全部。这些单元在语音数据库中的索引随后基于分段和如同基频（音调）、持续时间、在音节中的位置以及相邻单音之类的声学参数来创建。在运行时，期望的目标话语通过从数据库中确定候选单元（单元选择）的最佳链来创建。

拼接合成的另一种子类型是双音素合成，其使用包含在语言中出现的所有双音素（声音-声音转换）的最小语音数据库。双音素的数量取决于该语言的音位结构学（phonotactics）。在运行时，句子的目标韵律借助于诸如线性预测编码之类的数字信号处理技术被叠加在这些最小单元上。拼接合成的还一种子类型是特定于域的合成，其级联预先记录的词和短语来创建完整的话语。这种类型对于其中将由该系统输出的各种文本限于特定域的应用而言是更兼容的。

与拼接合成形成对照，共振峰合成在运行时并不使用人类语音采样。反而，合成的语音输出使用声学模型来创建。诸如基频、调声（voicing）和噪声电平之类的参数随时间而改变，以创建人工语音的波形。虽然通过共振峰合成生成的语音可能不如通过拼接合成创建的语音自然，但是甚至在非常高的速度上，共振峰合成的语音也能够可靠地理解，从而避免通常在拼接系统中发现的听觉毛刺（acoustic glitch）。高速合成的语音例如由视障人士用于使用屏幕阅读器来快速导航计算机。共振峰合成能够作为更小型软件程序来实现，并因此能够用于其中存储器和微处理器功率特别有限的嵌入式系统中。

图2是示出根据实施例的采用预先保存的级联成本数据压缩的示例的文本-语音（TTS）系统中的主要交互作用的框图。诸如在图表200中所示的拼接语音系统包括所存储的语音分段的语音数据库222。取决于系统的类型，这些语音分段可以包括个别单音、双音素、半单音、音节、语素、词、短语和/或句子。这些语音分段可以通过用户输入228（例如，用户语音的记录和分析）、预先记录的语音模式230或其他源而被提供给语音数据库222。语音数据库222的分段也可以包括语音分段的清单（inventory）的构造，以致于能够在运行时选择语音分段的多个实例。

语音合成的主干是分段选择处理224，其中语音分段被选择来形成合成语音并被转发至波形生成处理226，用于声学语音的生成。分段选择处理224可以利用多个其他处理诸如（将被转换成语音的）输入文本214的文本分析216、韵律分析218（音调，持续时间，能量分析）、语声（phonetic）分析220和/或可比处理来控制。

增强合成语音的质量或减少所需的系统资源的其他处理也可以被采用。例如，韵律信息可以从Hidden Markov model Text to Speech（文本-语音）（HTS）系统中提取并用于引导拼接TTS系统。这可以帮助系统生成更好的初始波形，从而增加整个TTS的效率。

图3在图示300中示出文本-语音系统中的预先保存的级联成本数据压缩的操作块。级联成本是级联两个连续分段的成本的估计。这个成本是两个分段在谱特性和韵律特性方面如何连接在一起（join together）的量度。对于在分段清单（语音数据库）中相邻的两个分段的级联成本为零。语音分段具有其特征向量，其中特征向量被定义成该语音分段与其他分段级联的成本值。

因而，在根据实施例的文本-语音系统（334）中，级联成本335从完全级联矩阵332中进行确定（或存储在完全级联矩阵332中），其中完全级联矩阵列出在每个存储的分段之间的成本。两个语音分段之间的距离是其按照特定距离函数的特征向量的距离（例如Euclidean（欧几里德）距离、城市街区（距离）等等）。因而，在基于距离的加权之前可以提取在前语音分段和在后语音分段的特征向量（336和337）。在根据实施例的系统中，由于较大的级联成本对于压缩误差是不太敏感的，所以可以添加距离加权338。在其他的实施例中，最大成本路径也可以被用作决定因素。这是因为具有大级联成本的级联对不太可能在分段选择中被使用。示例的距离函数可以是：

[1]

其中seg_i和seg_j是两个分段，其中seg_i在seg_j之前。cc_xy代表各自分段之间的级联成本，并且K₀是预定义常数。用于语音分段i的特征向量在它是在前分段时是（cc_i,1, cc_i,2, …, cc_i,n），或者在它是在后分段时是（cc_1,i, cc_2,i,, …, cc_n,i）。在切换这两个分段的顺序时，即当j在i之前时，级联成本的值是不同的。

在距离加权之后，可以执行针对在前和在后语音分段的群集（clustering）处理340和341，以便将所有的分段划分成M个在前分组和N个在后分组，这最小化在相同分组内的分段之间的平均距离。例如，以14个小时记录的语音为基础的分段数据可以生成大约1TB的完全级联矩阵。语音分段在这个示例中可以被群集到1000个分组中，从而产生10MB的压缩的级联矩阵（包括4MB成本表（1000*1000*大小的浮点）和6MB索引数据）。群集和距离加权可以利用使用本文描述的原理的任何合适函数来执行。上面列出的加权函数仅用于说明目的。

群集处理340和341的后面可以跟随着为每一个分组选择代表（342）。可以选择每一个分组的代表分段，以致于它具有至相同分组内的其他分段的最小平均距离。用于代表分段（344）的MxN级联成本矩阵随后可以被构造并被预先保存。预先保存的级联成本数据大小被减至原始矩阵332的[n²/(M×N)]，其中n是语音分段的总数。两个语音分段之间的级联成本现在可以利用其各自（在前或在后）分组的代表分段之间的级联成本来近似。

图4示出示例的级联成本矩阵。如上所提到的，语音分段清单可以包括个别单音、双音素、半单音、音节、语素、词、短语和/或句子。图示400中所示的示例级联成本矩阵446用于可以被组合以创建话音提示的词。

分段450和454被分类成在前分段和在后分段452、448。对于每一个分段，级联成本（例如，456）被计算并被存储在矩阵中。这个说明性示例用于只有少量词的有限数据库。如前所述，典型的TTS系统可能需要从14小时或更多的语音记录中生成的分段，这导致兆兆字节范围的级联成本数据。这样的大型矩阵难以预先记录或实时计算。解决数据大小的一种方案是保存仅用于选择语音分段对的级联成本。另一种方案是降低精度，例如将数据存储在四位块中。然而，利用这两种方案，为了合理的语音合成而要预先保存的数据仍是相对大的（例如，数百兆字节），并且可能遇到缺失值，从而导致质量的退化。

图5示出包括广义的级联成本矩阵558的图示500。级联成本（例如562）对于语音分段i与j（分段j在分段i之后）之间的级联被定义成c_i,j。应该注意：在切换这两个分段的顺序（即j在i之前）时，值是不同的。因而，语音分段的特征向量可以被定义成其与其他分段的级联成本值。例如，语音分段i的特征向量在它是在前分段（552）时是(cc_i,1, cc_i,2, …, cc_i,n)或者在它是在后分段（548）时是(cc_1,i, cc_2,i, …, cc_n,i)。特征向量也可以使用与其他分段的级联成本值的一部分来降低计算成本。

完全矩阵558包括在n个语音分段（例如560，564）之间所有的n x n个级联成本值。沿着在前语音分段轴的每一行对应于在前分段552。沿着在后语音分段轴的每一列对应于在后分段548。两个在前分段seg_i和seg_j之间的距离是（cc_i,1, cc_i,2, ..., cc_i,n, cc_j,1, cc_j,2, ..., cc_j,n）的函数（例如，欧几里德距离或城市街区距离）。对于在后分段548的对，可以定义类似的距离。

图6示出根据实施例的在前分段（668）和在后分段（670）类别中的每一个分组的语音分段和代表分段的分组的图示600。

在根据实施例的TTS系统中，语音分段可以被放置在M个在前分组（672，674，676）和N个在后分组（678，680，682）中，以最小化在每一个分段之间的分组内平均距离。每一个分组中的暗分段是其各自分组的示例代表分段。

虽然利用每一个示例分组具有两个分段来显示示例分组，但是每一个分组中分段的数量可以是任何预定义的数量。分组以及每一个分组内分段的数量可以基于分段的总数、分段之间的距离、期望的级联成本数据的减少以及类似的考虑来确定。

图7在图示700中示出完全级联成本矩阵784至代表分段级联成本矩阵794的压缩。采用如前所述的群集和代表选择处理，完全级联成本矩阵784内每一个分组的代表分段可以被确定，并且全矩阵被压缩为仅包含代表分段（例如786、788、790和792）之间的级联成本。例如，cc_2,1 cc_2,2 cc_3,1 cc_3,2的值在示例压缩矩阵794中全部利用cc_2,1来近似。

根据其他的实施例，代表分段选择的替换方案是中心重新估计。如上所述，cc_2,1 cc_2,2 cc_3,1 cc_3,2的值全部利用cc_2,1来近似，其中分段2和分段1是图示700中的在前/在后分组的代表分段。不使用cc_2,1作为中心，另一种近似可以是cc_2,1 cc_2,2 cc_3,1 cc_3,2的平均或中间值。因而，可以仅采用分组结果而不从每一个分组选择代表分段。此外，在分段数量是大的时候，中心值可以利用整个采样的一部分来估计，以克服计算成本。

虽然示例系统和处理已利用诸如特定的距离函数、群集技术或代表选择方法之类的特定组件和方面进行描述了，但是实施例并不限于这些示例组件和配置。压缩用于预先保存的级联成本数据的TTS系统可以在使用利用本文描述的原理的语音合成的其他方面的其他系统和配置中进行实现。

图8是其中可以实现实施例的示例联网环境。给语音合成服务提供级联成本数据压缩的文本-语音系统可以借助于在个别客户端设备811、812、813和814中或在诸如托管服务之类的一个或多个服务器816上执行的软件来实现。该系统可以促进在用户的个别计算设备（客户端设备811-814）上的客户应用之间通过（一个或多个）网络810进行的通信。

客户端设备811-814可以给一个或多个用户提供合成的语音。语音合成可以使用预先保存的压缩的级联成本矩阵、通过实时计算来执行，其中通过基于语音分段的距离来群集这些语音分段并且为每一个分组选择代表分段，生成压缩的级联成本矩阵。诸如压缩的级联成本矩阵之类的语音合成相关联的信息可以存储在可以利用服务器816中的任何一个或利用数据库服务器818来管理的一个或多个数据存储设备（例如，数据存储设备819）中。

（一个或多个）网络810可以包括服务器、客户、因特网服务供应商以及通信媒体的任何拓扑。根据实施例的系统可以具有静态或动态拓扑。（一个或多个）网络810可以包括诸如企业网之类的安全网络、诸如无线开放网络之类的非安全网络或因特网。（一个或多个）网络810也可以协调诸如PSTN或蜂窝网络之类的其他网络上的通信。（一个或多个）网络810在本文描述的节点之间提供通信。通过示例而非限制，（一个或多个）网络810可以包括无线媒体，诸如声学、RF、红外和其他无线媒体。

计算设备、应用、数据源和数据分发系统的许多其他配置可以被采用来实现采用级联数据压缩来预先保存的TTS系统。此外，图8所讨论的联网环境仅用于说明目的。实施例并不限于示例的应用、模块或处理。

图9以及相关联的讨论旨在提供其中可以实现实施例的合适计算环境的简要的一般性描述。参考图9，示出根据实施例的用于应用的示例计算操作环境的框图，诸如计算设备900。在基本配置中，计算设备900可以是执行TTS服务的客户端设备或服务器，并且包括至少一个处理单元902以及系统存储器904。计算设备900也可以包括多个在执行程序中协作的处理单元。取决于计算设备的确切配置和类型，系统存储器904可以是易失性的（诸如RAM）、非易失性的（诸如ROM、闪存等等）或这二者的某种组合。系统存储器904通常包括适合于控制平台的操作的操作系统905，诸如Redmond, Washington的MICROSOFT CORPORATION的WINDOWS®操作系统。系统存储器904也可以包括一个或多个软件应用诸如程序模块906、TTS应用922以及级联模块924。

语音合成应用922可以是计算设备900的服务或操作系统905的一部分。语音合成应用922采用语音分段的级联来生成合成的语音。如前所述，级联成本数据可以通过基于语音分段的距离来群集语音分段并且为每一个分组选择代表分段来压缩。级联模块924或语音合成应用922可以执行压缩操作。在图9中通过虚线908内的这些组件来示出这种基本配置。

计算设备900可以具有附加的特性或功能。例如，计算设备900也可以包括附加的（可移动和/或不可移动的）数据存储设备，例如，诸如磁盘、光盘或磁带。这样的附加存储设备在图9中利用可移动存储设备909和不可移动存储设备910来示出。计算机可读存储媒体可以包括以任何方法或技术实现的用于信息诸如计算机可读指令、数据结构、程序模块或其他数据的存储的易失性和非易失性、可移动和不可移动的媒体。系统存储器904、可移动存储设备909以及不可移动存储设备910全部是计算机可读存储媒体的示例。计算机可读存储媒体包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多用途盘（DVD）或其他光学存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备或者其他任何的能够用于存储期望信息且能够被计算设备900访问的介质。任何这样的计算机可读存储媒体可以是计算设备900的一部分。计算设备900也可以具有（一个或多个）输入设备912，诸如键盘、鼠标、笔、话音输入设备、触摸输入设备以及可比输入设备。也可以包括（一个或多个）输出设备914，诸如显示器、扬声器、打印机以及其他类型的输出设备。这些设备在本领域中是众所周知的，并且在这里不需要对其进行长篇幅论述。

计算设备900也可以包含允许该设备诸如在分布式计算环境中通过无线网络、卫星链路、蜂窝链路以及可比机制与其他设备918通信的通信连接916。其他设备918可以包括执行通信应用的（一个或多个）计算机设备、其他服务器以及可比设备。（一个或多个）通信连接916是通信媒体的一个示例。通信媒体能够在其中包括计算机可读指令、数据结构、程序模模块或调制的数据信号诸如载波或其他传输机制中的其他数据，并且包括任何信息传送媒体。术语“调制的数据信号”表示其特征中的一个或多个以诸如在信号中编码信息的方式进行设置或改变的信号。通过示例而非限制，通信媒体包括有线媒体诸如有线网络或直接连线连接以及无线媒体诸如声学、RF、红外和其他无线媒体。

示例的实施例也包括方法。这些方法能够采用任何数量的包括在这个文档中描述的结构的方式来实现。一种这样的方式是利用在这个文档中所描述类型的设备的机器操作。

另一种可选方式是结合一个或多个人类操作员来执行这些方法的个别操作中的一个或多个，其中人类操作员执行其中的一些操作。这些人类操作员不必相互搭配，但是每一个能够仅具有执行程序的一部分的机器。

图10示出根据实施例的通过语音分段分组来压缩预先保存的级联成本数据的处理1000的逻辑流程图。处理1000可以在任何计算设备中作为语音生成程序的一部分来实现。

处理1000开始于其中在TTS应用上接收完全级联矩阵的操作1010。该矩阵可以利用基于接收到的分段数据的应用来计算或利用负责语音分段清单的另一应用来提供。在操作1020，如前所述，确定这些分段的特征向量。这之后跟随着操作1030，其中使用诸如结合图3所描述的距离函数来应用距离加权。在操作1040，这些分段被群集，以致于每一个分组内的分段之间的平均距离被最小化。操作1040之后跟随着操作1050，其中每一个分组的代表分段被选择，以致于代表分段具有至同一分组内的其他分段的最小平均距离。也可以采用选择代表分段的替换方法，诸如中间或平均计算。代表分段形成压缩的级联成本矩阵，其可以将数据的大小减至（MxN元素的）原始矩阵的[n²/(MxN)]。

处理1000中包括的操作用于说明目的。对于级联成本采用预先保存的数据压缩的TTS系统可以利用具有更少或附加步骤的类似操作以及采用使用本文描述的原理的操作的不同顺序来实现。

上面的详述、示例和数据提供实施例的组成的制造和使用的完整描述。虽然该主题利用特定于结构特性和/或方法动作的语言进行描述了，但是将明白：在所附的权利要求书中定义的主题不一定限于上述的具体特性或动作。相反，上述的具体特性和动作被披露为实现这些权利要求和实施例的示例形式。

Claims

1.一种将至少部分在计算设备中执行的用于执行级联语音合成的方法，所述方法包括：

基于级联成本的矩阵，确定语音分段的特征向量，其中语音分段的特征向量被定义为所述语音分段与其他语音分段的级联成本值；

基于特征向量，将距离加权应用于每一个语音分段对；

将语音分段群集成预定数量的分组，以致于每一个分组内的语音分段之间的平均距离被最小化；

为每一个分组选择代表语音分段；以及

基于代表语音分段，生成压缩的级联成本矩阵，其中不同分组中的两个语音分段之间的级联成本利用各自的在前语音分段分组与在后语音分段分组的代表语音分段之间的级联成本来近似。

2.如权利要求1所述的方法，进一步包括：

预先保存压缩的级联成本矩阵，用于合成语音中的实时计算。

3.如权利要求1所述的方法，其中级联成本的矩阵沿着在前语音分段轴和在后语音分段轴来构造。

4.如权利要求3所述的方法，其中在前语音分段与在后语音分段之间的级联成本不同于在语音分段的顺序被颠倒的情况下这些相同的语音分段之间的级联成本。

5.如权利要求1所述的方法，其中分组的数量基于以下的集合中的至少一个来确定：语音分段的总数；语音分段之间的距离；以及级联成本数据的期望减少。

6.如权利要求1所述的方法，其中每一个分组的代表语音分段基于每一个分组的中间级联成本和平均级联成本之一来选择。

7.一种用于采用压缩的级联成本数据来生成语音的文本-语音（TTS）合成系统，所述文本-语音（TTS）合成系统包括：

语音分段数据存储设备；

分析引擎；以及

语音合成引擎，其被配置成：

确定每一个语音分段的特征向量，其中每一个语音分段的特征向量被定义为所述语音分段与其他语音分段的级联成本值；

基于每一个语音分段对各自的特征向量，将距离加权应用于每一个语音分段对；

为每一个分组选择代表语音分段，以致于代表语音分段与同一分组内的其他语音分段之间的平均距离被最小化；

基于代表语音分段，生成压缩的级联成本矩阵，其中不同分组中的两个语音分段之间的级联成本利用各自的在前语音分段分组与在后语音分段分组的代表语音分段之间的级联成本来近似；以及

8.如权利要求7所述的文本-语音（TTS）合成系统，其中每一个分组的代表语音分段进一步基于中心重新估计来选择，其中所述中心重新估计包括：基于整个采样的一部分来估计级联成本值，以致于在语音分段数量是相对大的时候降低计算成本。

9.如权利要求7所述的文本-语音（TTS）合成系统，其中语音分段数据存储设备被配置成从以下之中的至少一个接收语音分段：用户输入；以及预先记录的语音模式的集合。

10.一种用于采用压缩的级联成本数据来生成语音的方法，所述方法包括：

基于沿着在前语音分段轴和在后语音分段轴构造的级联成本的矩阵，确定语音分段的特征向量，其中语音分段的特征向量被定义为所述语音分段与其他语音分段的级联成本值；

将语音分段群集成M个在前语音分段分组和N个在后语音分段分组，以致于每一个分组内的语音分段之间的平均距离被最小化；

为每一个分组选择代表语音分段；

生成压缩的级联成本矩阵，以致于利用各自的在前语音分段分组与在后语音分段分组的代表语音分段之间的级联成本来近似不同分组中的两个语音分段之间的级联成本；以及

11.如权利要求10所述的方法，其中采用以下的距离函数来应用距离加权：

其中cc_i,j是语音分段i与j之间的级联成本，n是语音分段的总数，并且K₀是预定义常数。

12.如权利要求10所述的方法，其中每一个分组的代表语音分段基于以下之中的一个来选择：代表语音分段与同一分组内的其他语音分段之间的平均距离的最小化；所述分组的中间级联成本；以及所述分组的平均级联成本。

13.如权利要求10所述的方法，其中所述方法进一步包括：

基于以下的集合中的至少一个来确定M和N：语音分段的总数；语音分段之间的距离；以及级联成本数据的期望减少。

14.如权利要求10所述的方法，其中预先保存的级联数据的大小被减少[n²/(MxN)]，其中n是语音分段的总数。