CN1379391A

CN1379391A - 由文本生成个性化语音的方法

Info

Publication number: CN1379391A
Application number: CN01116305.4A
Authority: CN
Inventors: 唐道南; 沈丽琴; 施勤; 张维
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-04-06
Filing date: 2001-04-06
Publication date: 2002-11-13
Anticipated expiration: 2021-04-06
Also published as: US20020173962A1; JP2002328695A; CN1156819C

Abstract

本发明公开了一种由文本生成个性化语音方法,包括以下步骤:对输入的文本进行分析,通过标准TTS数据库得出可以表征将要合成的语音的特征的标准语音参数;使用通过训练获得的参数个性化模型将所述标准语音参数变换为个性化的语音参数;以及基于所述个性化语音参数合成对应于所述输入文本的语音。本发明的由文本生成个性化语音的方法,可以模仿任意的目标人的语音,从而使标准TTS系统产生的语音更加生动,并且具有个性化特征。

Description

由文本生成个性化语音的方法

本发明一般涉及文本-语音生成技术，具体地说，涉及由文本生成个性化语音的方法。

现有的TTS(文本-语音)系统通常产生缺乏情感的单调的语音。在现有的TTS系统中，首先对所有字/词的标准发音按音节记录并对此进行分析，然后在字/词级将用于表述标准发音的相关参数存储在字典中。通过字典中定义的标准控制参数和常用的平滑技术由各个音节分量合成对应于文本的语音。这样合成的语音非常单调，不具有个性化。

为此本发明提出了一种可以由文本生成个性化语音的方法。

根据本发明的可以由文本生成个性化语音的方法包括以下步骤：对输入的文本进行分析，通过标准文本-语音数据库得出可以表征将要合成的语音的特征的标准语音参数；使用通过先前训练获得的参数个性化模型将所述标准语音参数变换为个性化的语音参数；以及，基于所述个性化语音参数合成对应于所述输入文本的语音。

通过以下结合附图对本发明优选实施例的详细描述，可以使本发明目的、优点以及特征更加清楚。

图1描述了在现有TTS系统中由文本生成语音的过程；

图2描述了根据本发明由文本生成个性化语音的过程；

图3描述了根据本发明一优选实施例产生参数个性化模型的过程；

图4描述了为获得参数个性化模型而在两组倒频谱系数之间进行映射的过程；以及

图5描述了在韵律模型中使用的决策树。

如图1所示，在现有的TTS系统，为了由文本生成语音，通常要经过以下步骤：首先，对输入的文本进行分析，通过标准文本-语音数据库得出用于表述标准发音的相关参数；其次，使用标准控制参数和常用的平滑技术由各个音节分量合成对应于文本的语音。这样产生的语音通常缺乏情感、单调，从而不具有个性化。

为此本发明提出了一种可以由文本生成个性化语音的方法。

如图2所示，根据本发明的由文本生成个性化语音的方法包括以下步骤：首先，对输入的文本进行分析，通过标准文本-语音数据库得出可以表征将要合成的语音的特征的标准语音参数；其次，使用通过训练获得的参数个性化模型将所述标准语音参数变换为个性化的语音参数；最后，基于所述个性化语音参数合成对应于所述输入文本的语音。

以下结合图3描述一下根据本发明一优选实施例产生参数个性化模型的过程。具体地说，为了获得参数个性化模型，首先使用标准TTS分析过程，获取标准的语音参数V_general；同时，对个性化语音进行检测，得出其语音参数V_personalized；初始建立反映标准语音参数V_general与个性化语音参数V_personalized之间对应关系的参数个性化模型：

V_personalized＝F[V_general]；

为了获得稳定的F[^*]，多次重复以上检测个性化语音参数V_personalized过程，并根据检测结果来调整所述参数个性化模型F[^*]，直到获得稳定的参数个性化模型F[^*]。在根据本发明一个具体实施例中，我们认为如果在n次检测中，每相邻两次结果都使|F_i[^*]-F_i+1[^*]|≤δ，则认为F[^*]是稳定的。根据本发明一优选实施例，本发明在以下两个层次上获取反映标准语音参数V_general和个性化语音参数V_personalized之间对应关系的参数个性化模型F[^*]：

层次1：与倒频谱参数相关的声学层次，

层次2：与超音段参数相关的韵律层次。对于不同层次我们采取了不同的训练方式。

·层次1：与倒频谱参数相关的声学层次：

借助于语音识别技术，我们可以获得语音的倒频谱参数序列。如果给出两个人对同一文本的语音，则我们不仅能够获得每个人的倒频谱参数序列，而且还可以获得两个倒频谱序列之间在帧一级上的对应关系。这样我们可以逐帧比较它们之间的差异，并对它们之间的差异建模以得到与倒频谱参数相关的语声级上的F[^*]。

在该模型中，定义两组倒频谱参数，一组来自标准TTS系统，而另一组来自作为要模仿的目标的某个人的语音。使用图4描述的智能VQ(向量量化)方法建立两组倒频谱参数之间的映射关系。首先，对于标准TTS中的语音倒频谱参数，进行初始的高斯聚类，以量化向量，我们得到：G₁，G₂…。其次，从两组倒频谱参数序列之间的逐帧的严格映射关系以及对标准TTS中的语音的倒频谱参数初始高斯聚类结果中，我们得出要模仿的语音的初始高斯聚类结果。为了获得每个G_i’的更精确的模型，我们进行高斯聚类，得到G_1.1’，G_1.2’…，G_2.1’，G_2.2’…。然后我们得到高斯中的一一映射关系，并将F[^*]定义如下：

V_{personalized} = F [V_{general}] : V_{general} &Element; G_{i, j}, V_{personal} = {(V_{general} - M_{G_{i, j}})}^{*} \frac{D_{G_{i, j}^{'}}}{D_{G_{i, j}}} + M_{G_{i, j}^{'}}

在以上等式中，M_Gi，j，D_Gi，j表示G_i，j的均值和变化，而M_Gi，j’，D_Gi，j’表示G_i，j’的均值和变化。

·层次2：与超音段参数相关的韵律层次：

据我们所知，韵律参数是与上下文相关的。上下文信息包括：音子、重音、语义、句法、语义结构等等。为了确定上下文信息之间的关系，我们使用决策树来对韵律层次的变换机制F[^*]建模。

韵律参数包括：基频、时长以及响度。对于每个音子，我们按如下方式定义韵律向量：

基频模式：10个点上的基频值，完全分布在整个音子上；

时长：3个值，包括：爆破部分时长、稳定部分时长以及过渡部分时长

响度：2个值，包括前响度和后响度

我们用15维向量来表示音子的韵律。

假设该韵律向量是高斯分布的，我们可以使用一般的决策树算法来对标准TTS系统的语音的韵律向量进行聚类。所以我们可以得出图5所示的决策树D.T.以及高斯值G₁，G₂，G₃…。

当输入要模仿的语音和其文本时，首先对文本进行分析，得出其上下文信息，然后将上下文信息输入到决策树D.T.，以得到另一组高斯值G₁’，G₂’，G₃’…。

我们假设高斯G₁，G₂，G₃…和G₁’，G₂’，G₃’…是一一映射的，我们构造如下的映射函数：

V_{personalized} = F [V_{general}] : V_{general} &Element; G_{i, j}, V_{personal} = {(V_{general} - M_{G_{i, j}})}^{*} \frac{D_{G_{i, j}^{'}}}{D_{G_{i, j}}} + M_{G_{i, j}^{'}}

在等式中M_Gi，j，D_Gi，j表示G_i，j的均值和变化，而M_Gi，j’，D_Gi，j’表示G_i，j’的均值和变化。

以上结合图1-图5描述了根据本发明的由文本生成个性化语音的方法。其中的关键问题是要从特征向量中实时地合成音子的模拟信号。这基本上是数字化特征提取过程的逆过程(类似于逆付立叶变换)。这样的过程非常复杂，但是人们可以使用当前可以获得的专用算法来实现这一过程，如IBM的由倒频谱特性重构语音的技术。

尽管在通常情况下，人们会通过实时的变换计算来生成个性化的语音，但可以预计，对于任意特定的目标说话音，可以建立完备的个性化TTS数据库。由于变换和生成模拟语音分量是在通过TTS系统产生个性化语音的最后步骤上完成的，所以本发明的方法对于现有的TTS系统不会产生任何的影响。

以上结合具体实施例描述了根据本发明的由文本生成个性化语音的方法。正如本领域一般技术人员所熟知的，在不背离本发明的精神和实质的情况下，可以对本发明作出许多修改和变型，因此本发明将包括所有这些修改和变型，本发明的保护范围应由所附权利要求书来限定。

Claims

1.一种由文本生成个性化语音方法，包括以下步骤：

对输入的文本进行分析，通过标准文本-语音数据库得出可以表征将要合成的语音的特征的标准语音参数；

使用通过先前训练获得的参数个性化模型将所述标准语音参数变换为个性化的语音参数；以及

基于所述个性化语音参数合成对应于所述输入文本的语音。

2.根据权利要求1的方法，其特征在于通过以下步骤获取参数个性化模型：

使用标准文本-语音分析过程，获取标准语音参数；

检测个性化语音中的个性化语音参数；

初始建立反映标准语音参数与个性化语音参数之间对应关系的参数个性化模型；

多次重复以上检测个性化语音参数的过程，并根据检测结果来调整所述参数个性化模型，直到获得稳定的参数个性化模型。

3.根据权利要求1或2的方法，其中所述参数个性化模型包括与倒频谱参数相关的声学层次上的参数个性化模型。

4.根据权利要求3的方法，其中使用智能向量量化方法建立所述与倒频谱参数相关的声学层次上的参数个性化模型。

5.根据权利要求1或2的方法，其中所述参数个性化模型包括与超音段参数相关的韵律层次上的参数个性化模。

6.根据权利要求5的方法，其中使用决策树来建立所述与超音段参数相关的韵律层次上的参数个性化模型。