CN1222924C

CN1222924C - 声音个性化的语音合成器

Info

Publication number: CN1222924C
Application number: CN02806151.9A
Authority: CN
Inventors: 杰－克劳德·约库阿; 佛罗伦特·佩罗宁; 罗兰德·科恩; 帕特里克·恩古因
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-02-26
Filing date: 2002-02-25
Publication date: 2005-10-12
Anticipated expiration: 2022-02-25
Also published as: US20020120450A1; EP1377963A1; CN1496554A; JP2004522186A; WO2002069323A1; US6970820B2; EP1377963A4

Abstract

将语音合成器个性化，使声音类似于或能模仿单个讲话人的语音特征。单个讲话人提供可从少量语音中抽取的一定量的注册数据18，而且由系统修改基础合成参数12以便能更好地模拟新的讲话人36的参数。更具体地说，可以将合成参数12分解成特定讲话人语音参数30，例如与上下文无关的参数，和非特定讲话人语音参数32，例如与上下文有关的参数。用从新的讲话人处得到的注册数据18对特定讲话人语音参数30进行适配。适配后，把特定讲话人语音参数30和非特定讲话人语音参数进行组合从而提供个性化的合成参数群42。

Description

声音个性化的语音合成器

技术领域

本发明主要涉及语音合成。更确切地说，本发明涉及使语音合成器的输出个性化以便在特定讲话人提供了注册数据后能模拟或模仿出该讲话人细微差异的系统和方法。

背景技术

在很多使用文本-语音转换(text-to-speech，TTS)合成器的领域中，都期望使合成器的输出声音能模拟特定讲话人的特征。目前，花费在开发语音合成器方面的很多努力都在于使合成的声音尽可能人性化。尽管在这方面不断有进展，但是目前合成器产生的准自然语音表现的是用于构建合成器的语音数据资料库中包含的混合音素变体。当前，没有有效的方法能生产模仿特定讲话人特性的语音合成器，也无法让讲话人花费一些时间记录他或她的语言实例以便用其构成合成器。尽管非常期望能够仅用少量从特定讲话人得到的注册数据(enrollment data)将现有语音合成器定型或个性化，但是，迄今为止还不存在这种技术。

最近设计的语音合成器已经能将主要是文本格式的信息转换成合成语音。通常，这些合成器是以合成方法为基础并与某些合成参数相关联。通常，通过操作人的实际语音链接单元产生合成参数，所述实际语音已经过预记录、数字化和分段，从而使包含在该语音中的单个音素变体，能够与记录过程中使用的文本相关联或是标记成与所述文本相对应。虽然目前普遍使用的有各种不同的合成方法，但是一种示例性实例是源滤波法。源滤波法把人的语音模仿成源波形集群，所述源波形集群是通过滤波器群提供的。源波形可以是简单的脉冲或正弦波形，或是更复杂的谐波高品质波形。滤波器修改源波形并使其着色以便模仿发音清晰的语音。

在源滤波合成方法中，通常在源波形的复杂性和滤波器的特性之间存在相反的关联性。如果使用复杂的波形，则一般使用相当简单的滤波器模式就足够了。相反，如果使用简单的源波形，则通常应采用较复杂的滤波器结构。现有的语音合成器实例已经利用了全频谱源滤波器的关系，其范围从简单源、复杂滤波器到复杂源、简单滤波器。为了说明本发明的原理，在此将描述声门源、共振峰轨迹滤波合成法。熟悉本领域的技术人员应当认识到这仅仅是一种源滤波合成法的范例，本发明也可以采用大量其他的方法。此外，尽管在此说明的是源滤波合成方法，但是其他合成方法，如非源滤波方法也属于本发明的范围。

发明内容

按照本发明，通过提供一个基础合成器来构成个性化语音合成器，所述基础合成器采用了预定的合成方法并具有可供合成方法使用以产生合成语音的初始参数群。从讲话人那里获取注册数据，并用该注册数据修改初始参数群，由此使基础合成器个性化，从而模仿讲话人的语音特性。

按照本发明的另一方面，将初始参数群分解成特定讲话人语音参数(speaker dependent parameters)和非特定讲话人语音参数(speakerindependent parameters)。然后用从新的讲话人处获得的注册数据与特定讲话人语音参数相配，把得到的特定讲话人系统适配参数与非特定讲话人语音参数进行组合从而产生供语音合成器使用的个性化合成参数群。

按照本发明的另一方面，通过将初始参数群分解成两组，即：与上下文不相关(context independent)的参数和与上下文相关(context dependent)的参数，可以获得前面所述的特定讲话人语音参数和非特定讲话人语音参数。就此而言，根据在不同上下文的参数中是否存在可检测的变化，便可确定所述参数与上下文无关还是与上下文有关。当给定的音素变体发出不同的声音时，根据出现的相邻音素变体，可将与该变体相关的合成参数分解成可识别的与上下文有关的参数(那些随相邻音素变体变化的参数)。同样也把音素变体分解成与上下文无关的参数，该参数在相邻音素变体发生变化时不产生明显变化。

本发明把与上下文无关的参数和特定讲话人语音参数联系起来；并把与上下文有关的参数和非特定讲话人语音参数联系起来。因此，用注册数据与和上下文无关的参数相适配，并将这些参数与和上下文有关的参数重新组合形成适配的合成参数。在优选实施例中，将参数分解成与上下文无关的参数和与上下文有关的参数以便使与上下文无关参数的数量小于与上下文有关参数的数量。由于仅对与上下文无关的参数(数量很少)进行自适应处理，所以可以利用参数的数量差。因此，可用最小的计算量得到极好的个性化结果。

按照本发明的另一方面，可以用极小量的注册数据进行上面讨论的自适应处理。的确，并不需要注册数据包含所有与上下文无关的参数实例。通过使用由本发明的受让人开发的本征语音技术可以用最小量的数据完成自适应处理。本征语音技术包括使用与上下文无关的参数构建超级矢量(supervector)，然后对其进行，例如主分量分析(PCA)等维度精简(dimensionality reduction)的处理，以形成本征空间。本征空间借助相当少的维度表示由原始语音合成器中所有与上下文无关的参数覆盖的空间。一旦生成本征空间，就可以用该本征空间并利用新的讲话人语音中的短样本来判断新的讲话人的与上下文无关的参数。新的讲话人发出一些数字化的、分段的和经标记构成注册数据的注册语音。从注册数据中抽取与上下文无关的参数并使这些抽取的参数似然最大化，从而限制本征空间。

即使是新的讲话人未提供足够量的包含所有与上下文无关参数的语音，本征语音技术也允许系统判断所有新的讲话人的与上下文无关的参数。因为本征空间最初是由一些来自新的讲话人的与上下文无关的参数构建的，所以上述判断是可行的。当将新的讲话人的注册数据限制在本征空间内时(无论用多么不完整的参数群都是有效的)，系统将推测出遗漏的参数是在本征空间内对应于新的讲话人位置的参数。

本发明所用的技术实际上适用于合成方法的任何方面。目前优选的实施例采用了使共振峰轨迹与源滤波模式的滤波器相关联的技术。该技术也可以用于和源表述相关联或是和其他语音模型参数相关联的特定讲话人语音参数，这些参数包括韵律参数、持续时间和倾斜度参数。此外，如果使用本征语音技术，则可以将该技术用于叠合结构中，由此可以反复指定本征空间并且在提供附加的注册数据时可以改善该本征空间。

为了更完整地理解本发明，在下面的描述中将结合附图说明本发明的目的和优点。

附图说明

图1是本发明所述个性化语音合成器的方框图；

图2是表示在构成个性化合成器或将现有合成器个性化过程中包含的基本步骤的流程图；

图3是表示本发明一个实施例的数据流示意图，其中将合成参数分解成与讲话人相关的参数和与讲话人不相关的参数；

图4是表示另一个优选实施例的详细数据流程示意图，其中从音素变体的共振峰轨迹中抽取与上下文不相关的参数和与上下文相关的参数；

图5是表示本征语音技术在使用自适应参数或判断参数时的方框图；

图6是表示判断特定讲话人语音参数的本征矢量技术的流程图。

具体实施方式

参照图1，用标号10表示示例性语音合成器。语音合成器使用了合成参数群12和预定合成方法14，利用该合成方法把输入数据例如文本转换成合成语音。按照本发明的一个方面，个性化器件16提取注册数据18并根据合成参数12进行运算使合成器模拟一个讲话人的语音特征。个性化器件16可根据合成参数12的种类在很多不同的域内进行运算。例如，如果合成参数包括共振峰轨迹等频率参数，则可以将个性化器件设置得能够修改共振峰轨迹，其修改方式是使得最终合成的语音更象提供注册数据18的个体。

本发明提供一种使语音合成器个性化以及构成个性化语音合成器的方法。在图2中示出的基本方法从提供基础合成器的步骤20开始。基础合成器可以以各种不同合成方法中的任何一种为基础。尽管存在其他同样可供本发明使用的合成方法，但在此将描述源滤波法。除了提供基础合成器20之外，该方法还包括获取注册数据22。然后在步骤24中用所述注册数据修改基础合成器。当利用本发明将现有合成器个性化时，获取注册数据的步骤通常是在构建基础合成器之后进行。当然，还可以在构建基础合成器之前或同时获取注册数据。因此，在图2中示出了两条可选的流路(a)和(b)。

图3更详细地示出了本优选实施例。在图3中，从语音数据资料库26产生合成参数12，合成方法14以合成参数12为依据运行。当构建基础合成器时，一般的做法是，让一个或多个指定的讲话人通过朗读准备好的文本来提供实际语音的实例。这样，可以将所提供的语调(utterances)与文本相关联。通常，将语音数据数字化并将其分成与文本中离散的符号对应的小段。在本优选实施例中，将语音数据分成同样大小的单个音素变体段，以便保存相邻音素变体的上下文。然后用这些音素变体来构建合成参数12。在本优选实施例中，分别从每个音素变体单元中抽取声门脉冲和共振峰轨迹等时间和频率参数。

一旦形成合成参数，便开始进行分解过程28。将合成参数12分解成特定讲话人语音参数30和非特定讲话人语音参数32。分解过程可以这样来分离参数，即，利用数据分析技术或是通过计算与上下文无关的音素共振峰轨迹以及考虑每个音素变体单元共振峰轨迹是与上下文无关的共振峰轨迹和与上下文有关的共振峰轨迹两项之和。这一技术将在后面结合图4进行更全面地说明。

一旦将特定讲话人语音参数和非特定讲话人语音参数彼此隔离，则将根据特定讲话人语音参数完成自适应过程34。自适应过程使用了由新的讲话人36提供的用于确定合成器的注册数据18。当然，如果需要的话，新的讲话人36可以是提供语音数据资料库26的讲话人之一。然而，通常新的讲话人将不会有机会参与语音数据资料库的创建，而是在资料库初始建立后成为合成系统的用户。

存在多种不同的可用于自适应过程34的技术。显然，自适应过程与特定合成器使用的合成参数类别有关。一种可能的自适应方法包括用取自新的讲话人36的特定讲话人语音参数代替从讲话人数据资料库26取得的原始确定的参数。如果需要的话，可以用旧参数和新参数的混合平均值或加权平均值提供对应于从新的讲话人36那里得到的特定讲话人语音参数38并且按照从语音数据资料库26中获得的保留参数合理地保留特定讲话人语音参数38。在理想的情况下，新的讲话人36能提供足够量的注册数据18使所有与上下文无关的参数或者至少最重要的参数能适应新的讲话人的语音噪扰。然而，在许多情况下，从新的讲话人那里只能得到少量的数据，而且不代表所有与上下文无关的参数。正如下面将更全面讨论的那样，本发明的另一方面提供一种本征语音技术，其中特定讲话人语音参数可以仅与最少量的注册数据相适应。

在特定讲话人语音参数适配后，进行组合过程40。组合过程40把非特定讲话人语音参数32与和相应的讲话人相关的参数38重新结合并生成个性化的合成参数群42。组合过程40实际上是利用分解过程28反向工作的。换句话说，分解过程28和组合过程40是彼此相反的。

一旦生成个性化合成参数后，便可以用这些合成参数借助于合成方法14产生个性化语音。在图3中，应注意的是，合成方法14出现在两个位置，这表示在合成参数12时使用的方法可以与个性化合成参数42时使用的方法相同，其主要区别在于参数12产生基础合成器的合成语音，而参数42产生模拟或模仿新的讲话人36的合成语音。

图4更详细地表示本发明的一个实施例，其中所述合成方法是采用共振峰轨迹(formant trajectory)或其他类似的频域参数的源滤波法。用标号50表示注册语音数据的示例性链接单元，其包含位于相邻音素变体54和56之间上下文中的给定音素变体52。按照该实例的源滤波模型，合成器通过向滤波器群提供声门源波形58便可以产生合成语音，其中所述声门源波形对应于形成语音的音素变体的共振峰轨迹60。

正如前面结合图3所述的那样，可以将合成参数(在此为共振峰轨迹)分解成特定讲话人语音参数和非特定讲话人语音参数。因此，本实施例将共振峰轨迹60分解成与上下文无关的参数62和与上下文有关的参数64。应注意的是，与上下文无关的参数对应于特定讲话人语音参数；而与上下文有关的参数对应于非特定讲话人语音参数。自适应过程或判断过程34使用注册数据18产生适配参数或判断参数66。然后，将这些参数与和上下文相关的参数64进行组合构成适配的共振峰轨迹68。然后，用适配的共振峰轨迹构建滤波器，使声门源波形58通过滤波器产生合成语音，此时合成的音素变体更接近模拟或模仿新的讲话人。

正如上面特别提到的，如果新的讲话人的注册数据足以判断所有与上下文无关的共振峰轨迹，则用新的讲话人的与上下文无关的信息代替原来的与上下文无关的信息便能足以使合成器输出的声音个性化。相反，如果没有足够的注册数据来判断所有与上下文无关的共振峰轨迹，优选实施例将采用本征语音技术来判断遗漏的轨迹。

图5中表示的是本征语音技术，该技术始于步骤70中所示根据多个指定讲话人的与上下文无关的参数构建超级矢量(supervector)。如果需要的话，可以在用语音数据资料库26生成基础合成器之前构建超级矢量。在构建超级矢量时，应合理选择讲话者的不同断面，对于每个讲话人构建一个超级矢量。每个超级矢量包括按预定顺序链接的供合成器使用的所有音素中所有与上下文无关的参数。音素参数链接的顺序并不重要，只要该顺序符合所有指定的讲话人即可。

接着，在步骤72中，进行维度精简的过程。主分量分析(PCA)是这种精简技术之一。精简的过程生成本征空间74，与用于构建本征空间的本征矢量相比，本征空间74的维度较低。因此，本征空间表示减小了维度的矢量空间，相对于该空间可确定所有指定讲话人的与上下文无关的参数。

然后，从新的讲话人36处获取注册数据18，并如步骤76所示判断新的讲话人在本征空间74中的位置。优选实施例采用最大似然技术来判断新的讲话人在本征空间中的位置。应认识到，注册数据18并不必要包括所有音素的实例。可利用出现的任何音素数据来判断新的讲话人在本征空间74中的位置。实际上，即使是很短语调的注册数据也足以判断新的讲话人在本征空间74中的位置。因此，如在步骤78中那样，通过将遗漏的参数限制在先前判断的本征空间的位置上，便能够生成任何遗漏的音素数据。本征空间包括了特定讲话人的发音如何不同的情况。如果一个新的讲话人注册数据的语音象是Scarlet0’Hara所说的“明天是另一天”，则有理由假设该讲话人的其他语调应该也具有与Scarlet O’Hara类似的声音。在这种情况下，可以将新的讲话人在本征空间中的位置标记为“Scarlet O’Hara”。其他具有类似发音特点的讲话人同样落在本征空间中的相同位置附近。

在图6中示出了构建本征空间的过程，所述本征空间表示来自多个指定讲话人的与上下文无关(特定讲话人)的参数。图中假设T个指定的讲话人120提供了构建本征空间的指定数据122(training data)的资料库。然后如步骤124所示，用这些指定数据产生特定讲话人语音参数。在步骤124中为每个讲话人构建一个模型，每个模型代表该讲话人全部与上下文无关的参数。

在用来自T个讲话人的所有指定数据指定了与各讲话人有关的参数后，在步骤128中构建超级矢量群。因此，相对于T个讲话人中的每个人存在一个超级矢量130。每个讲话人的超级矢量包括该讲话人的与上下文无关的参数序列表。将该表链接即可确定超级矢量。可以用任何方便的序列识别这些参数。该序列不是标准的，但是一旦一个序列得到适配，那么必须使所有T个讲话人都随之得到适配。

在为每个指定讲话人构建了超级矢量之后，可以在步骤132使用主分量分析或某些其他维度精简技术。如在步骤134中所示，主分量分析可根据T个超级矢量得出T个本征矢量。因此，如果已经使用了120个指定讲话人，系统将产生120个本征矢量。这些本征矢量确定了本征空间。

尽管在步骤132中最多产生的本征矢量为T个，但是实际上可以丢弃一些本征矢量，而仅保留前面的N个本征矢量。因此，在步骤136中，我们选择性地抽取T个本征矢量中的N个来构成步骤138中所示减小的参数本征空间。由于较高级别的本征矢量通常包含的是在判断讲话人时不太重要的信息，所以可以将它们丢弃。将本征空间减小到比所有指定讲话人小得多便可以形成固有数据压缩，这在用有限的存储器和处理器资源构建实际系统时是很有益的。

在构建了本征空间之后，可以用该本征空间来判断新的讲话人的与上下文无关的参数。从新的讲话人的注册数据中抽取与上下文无关的参数。然后，用最大似然技术将抽取的参数限制到本征空间。

本发明的最大似然技术在本征空间138内确定了一个点166，该点代表的是和与上下文无关的参数对应的超级矢量，所述参数具有与新的讲话人相关的最大可能性。为了便于说明，将最大似然过程示于图6中的线168下方。

实际上，不管注册数据实际的有效性有多高，最大似然技术都将选择最符合新的讲话人注册数据本征空间内的超级矢量。

在图6中，用一组本征矢量174、175和178代表本征空间138。通过用每个本征矢量乘以用W₁、W₂…W_n表示的相应本征值可以在本征空间中示出与来自新的讲话人的注册数据对应的超级矢量170。这些本征值最初是未知的。最大似然技术可确定这些未知本征值的值。正如下面将更全面解释的，通过寻找本征空间中最能代表新的讲话人的与上下文无关的参数的最佳结果(solution)便可选定这些值。

在将本征值与本征空间138中的相应本征矢量相乘和将所得结果相加之后，便可得到适配的与上下文无关的参数群180。超级矢量180中的值表示最佳结果，即，其具有能表示本征空间中与新的讲话人的上下文无关参数的最大似然性。

从以上描述中可以看出，本发明开发了通过分解不同的变化源(例如特定讲话人和非特定讲话人语音信息)并采用讲话人适配技术来解决语音个性化的问题。本发明一个有利的方面在于，用于表征特定讲话人系统部分的参数数量实际上可以少于用于表征非特定讲话人系统部分的参数数量。这意味着，使合成器适应于单个讲话人的声音所需的注册数据数量相当低。而且，尽管优选实施例特别关注的方面集中在共振峰轨迹上，但是并不意味着本发明仅限于使用共振峰轨迹。还可以使用持续时间和倾斜度等韵律参数以及其他音韵参数借助听觉判断单个声音的特征。通过使现有合成器个性化或是构建新的个性化合成器等快速和有效的方式，本发明能很好地适应对个性化有兴趣的各种不同文本-语音转换领域。这些领域包括传递因特网声频内容、玩具、游戏的系统，对话系统，软件代理等。

尽管以上结合优选实施例描述了本发明，但是应当意识到，在不脱离与所附权利要求相关的本发明构思的情况下，可以对本发明作出某些改进。

Claims

1.一种将语音合成器个性化的方法，其特征在于，包括：

获得用参数群表示的语音数据资料库，所述参数群可供所述产生合成语音的语音合成器使用；

将所述参数群分解成特定讲话人语音参数群和非特定讲话人语音参数群；

从新的讲话人处获取注册数据并用所述注册数据和与所述特定讲话人系统的参数进行适配，由此产生适配的特定讲话人语音参数；

把所述非特定讲话人语音参数和所述适配的特定讲话人语音参数进行组合以构建供所述语音合成器在产生合成语音时使用的个性化合成参数。

2.根据权利要求1所述的方法，其特征在于，非特定讲话人语音参数数量超过特定讲话人语音参数数量。

3.根据权利要求1所述的方法，其特征在于，所述分解步骤是通过识别与上下文有关的信息和采用所述与上下文有关的信息表示的所述非特定讲话人语音参数，以及识别与上下文无关的信息和采用所述与上下文无关的信息表示的所述特定讲话人语音参数实现的。

4.根据权利要求1所述的方法，其特征在于，所述语音数据包括频率参数群，所述频率参数群对应于与人的语音相关联的共振峰轨迹。

5.根据权利要求1所述的方法，其特征在于，所述语音数据包括时间域参数群，所述时间域参数群对应于与人的语音相关联的声门源信息。

6.根据权利要求1所述的方法，其特征在于，所述语音数据包括的参数群对应于与人的语音相关联的韵律信息。

7.根据权利要求1所述的方法，其特征在于，进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间并用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。

8.根据权利要求1所述的方法，其特征在于，进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间，而且如果仅用所述注册数据并不能代表合成器使用的所有音素的话，用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。

9.一种构建个性化语音合成器的方法，其特征在于，包括：

提供基础合成器，所述合成器采用预定的合成方法并且具有供所述合成方法使用以产生合成语音的初始参数群；

将所述初始参数群表示成特定讲话人语音参数和非特定讲话人语音参数；

从讲话人处获取注册数据；和

用所述注册数据修改所述特定讲话人语音参数并由此将所述基础合成器个性化，使之能模仿所述讲话人的语音特性。

10.一种个性化的语音合成器，其特征在于，包括：

合成处理器，该合成处理器包含完成预定合成方法的指令群，其使得合成参数数据库运行，所述合成参数表示成特定讲话人语音参数和非特定讲话人语音参数；

包含合成参数数据库的存储器，所述合成参数表示成特定讲话人语音参数和非特定讲话人语音参数；

输入端，其提供从指定讲话人得到的注册数据；和

接受所述注册数据的自适应模块，该模块用所述注册数据修改所述特定讲话人语音参数，从而将所述指定讲话人的所述参数个性化。

11.根据权利要求10所述的合成器，其特征在于，所述合成参数是与上下文不相关的参数。

12.根据权利要求10所述的合成器，其特征在于，所述合成参数是与上下文相关的参数。

13.根据权利要求10所述的合成器，其特征在于，所述输入端包括话筒，所述话筒从所述指定讲话人提供的语调中获取所述注册数据。

14.根据权利要求10所述的合成器，其特征在于，所述注册数据包括从所述指定讲话人的语调中取出的抽取参数，而且其中所述自适应模块通过将从所述指定讲话人的语调中抽取的参数限定到一个本征空间来判断所述注册数据中未发现的声单元。

15.一种语音合成系统，其特征在于，包括：

语音合成器，该语音合成器通过使合成参数的数据库运行来完成预定的合成方法，所述数据库中的合成参数为特定讲话人语音参数和非特定讲话人语音参数；

接受来自指定讲话人注册数据的个性化器件，所述个性化器件从所述合成参数中抽取特定讲话人语音参数，然后用所述注册数据修改所述特定讲话人语音参数。

16.根据权利要求15所述的系统，其特征在于，所述个性化器件将所述合成参数分解成特定讲话人语音参数和非特定讲话人语音参数，然后用所述注册数据修改与所述特定讲话人系统参数。

17.根据权利要求15所述的系统，其特征在于，进一步包括参数判断系统，所述参数判断系统采用了指定讲话人群指定的本征空间，并通过将所述注册数据限定到所述本征空间而利用所述本征空间对注册数据中遗漏的声单元的参数进行判断。