CN101004910A

CN101004910A - 处理语音的装置和方法

Info

Publication number: CN101004910A
Application number: CNA2007100042697A
Authority: CN
Inventors: 田村正统; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-01-19
Filing date: 2007-01-19
Publication date: 2007-07-25
Also published as: JP2007193139A; EP1811497A2; US7580839B2; JP4241736B2; US20070168189A1; EP1811497A3; KR20070077042A

Abstract

根据本发明实施例的一种语音处理装置，包括：转换源说话人语音单元数据库；语音转换规则学习数据生成装置；以及语音转换规则学习装置，通过其制定语音转换规则。所述语音转换规则学习数据生成装置包括：转换目标说话人语音单元提取装置；属性信息生成装置；转换源说话人语音单元数据库；以及转换源说话人语音单元选择装置。所述转换源说话人语音单元选择装置基于在转换目标说话人语音单元的属性信息和转换源说话人语音单元的属性信息之间的失配来选择对应于转换目标说话人语音单元的转换源说话人语音单元，由此从所选择的转换目标说话人语音单元和转换源说话人语音单元的对来制定语音转换规则。

Description

处理语音的装置和方法

技术领域

本发明涉及一种处理语音的装置和方法，在其中制定了用于将转换源说话人的语音转换为转换目标说话人的语音的规则。

背景技术

输入转换源说话人的语音并将其话音质量转换为转换源说话人的语音的技术被称为语音转换技术。在这种语音转换技术中，将语音频谱信息表达为参数，并从转换源说话人的频谱参数和转换目标说话人的频谱参数之间的关系学习语音转换规则。分析转换源说话人的任何输入语音以得到频谱参数，通过应用所述语音转换规则，将所述频谱参数转换为转换目标说话人的频谱参数，并从所得到的频谱参数合成语音波形。因而，将输入语音的话音质量转换为转换目标说话人的话音质量。

一种语音转换方法是基于高斯混合模型(GMM)学习转换规则的语音转换方法。(例如，参考非专利文献1：Y.Stylianou等的“ContinuousProbabilistic Transform for Voice Conversion”IEEE TRANSACTIONSON SPEECH AND AUDIO PROCESSING，Vol.6，No.2，1998年3月)。

在这种情况下，从转换源说话人的语音频谱参数得到GMM，并通过利用转换源说话人的频谱参数和转换目标说话人的频谱参数的对(pair)来进行回归分析得到GMM的各混合分量(mixture)的回归矩阵，从而制定语音转换规则。对于语音转换，利用概率对回归矩阵进行加权，其中所述概率是在所述GMM的各混合分量中输出所述输入语音的频谱参数的概率。这使得所述转换规则连续，可以得到自然的语音转换。这样，从转换源说话人的语音和转换目标说话人的语音的对来学习转换规则。在非专利文献1中，短语音单元(short phonetic unit)形式的两个说话人的语音数据通过动态时间规整(DTW)互相关联，以形成转换规则学习数据。利用已知的语音转换规则制定装置，如非专利文献1中所公开的，将转换源说话人和转换目标说话人的相同内容的语音数据互相关联，由此学习转换规则。

输入任何句子来产生语音波形被称为文本到语音的合成。所述文本到语音的合成通常由语言处理装置、韵律处理装置以及语音合成装置通过三个步骤进行。首先由语言处理装置对输入文本进行词法分析和语法分析，然后由韵律处理装置进行重音和语调处理，由此输出音素序列和韵律信息(基频，音素持续时间等)。最后，所述语音波形生成装置根据音素序列和韵律信息产生语音波形。语音合成方法中的一种是语音单元选择型的，其从包含了很多语音单元的语音单元数据库中选择语音单元，并向着所述输入的音素序列和韵律信息的目标对它们进行合成。在所述语音单元选择型的语音合成中，根据输入的音素序列和韵律信息从所存储的大量语音单元中选择语音单元，并连接(concatenate)所选出的语音单元来合成语音。在另一种多单元选择型的语音合成方法中，向着输入的音素序列和韵律信息的目标，根据合成的语音的失真程度，为输入的音素序列中的每个合成单元选择多个语音单元，并融合所选择的语音单元以产生新的语音单元，以及连接所述语音单元来合成语音(例如，参考日本申请公开2005-164749)。这种融合语音单元的方法的一个例子是平均音调周期(pitch-cycle)波形的方法。

假设利用转换目标说话人的少量语音数据进行文本到语音的合成的语音单元数据库的语音转换。这样可以利用具有有限的语音数据的转换目标说话人的话音质量进行任何句子的语音合成。为了在此语音转换中应用上述非专利文献1中公开的方法，必须准备转换源说话人和转换目标说话人的相同内容的语音数据，利用其制定语音转换规则。于是，通过非专利文献1中公开的方法，当利用转换源说话人的大量语音数据以及转换目标说话人的少量语音数据学习语音转换规则时，在学习语音转换规则中所使用的语音数据的语音内容有限，从而，尽管存在转换源说话人的大量语音单元数据库，也仅能使用有限的语音内容来学习语音转换规则。这使得语音转换规则的学习不能反映包含在转换源说话人的大量语音片段数据库中的信息。

如上所述，当利用转换源说话人的大量语音数据以及转换目标说话人的少量语音数据来学习语音转换规则时，相关技术存在这样的问题，作为学习数据使用的语音数据的语音内容有限，因而导致语音转换规则的学习不能反映包含在转换源说话人的大量语音单元数据库中的信息。

发明内容

本发明的目的在于提供一种处理语音的装置和方法，其能够利用转换目标说话人的任意语音来制定语音转换规则。

根据本发明实施例的语音处理装置包括：转换源说话人语音存储装置，其被配置为存储关于转换源说话人的多个语音单元的信息以及对应于所述语音单元的源说话人属性信息；语音单元提取装置，其被配置为将转换目标说话人的语音分割为任意类型的语音单元，以形成目标说话人语音单元；属性信息生成装置，其被配置为从关于所述转换目标说话人的语音的信息或所述语音的语言信息生成对应于所述目标说话人语音单元的目标说话人属性信息；转换源说话人语音单元选择装置，其被配置为利用代价函数计算所述目标说话人属性信息和所述源说话人属性信息的代价，并根据所述代价从所述转换源说话人语音存储装置中选择一个或多个语音单元，以形成源说话人语音单元；以及语音转换规则制定装置，其被配置为基于所述目标说话人语音单元和所述一个或多个源说话人语音单元制成用于将所述一个或多个源说话人语音单元转换为所述目标说话人语音单元的语音转换函数。

根据本发明的实施例，可以利用转换目标说话人任意语句的语音来制定语音转换规则。

附图说明

图1是根据本发明第一实施例的语音转换规则制定装置的框图；

图2是框图，其示出了语音转换规则学习数据生成装置的结构；

图3是语音单元提取装置的处理的流程图；

图4A是示图，其示出了语音单元提取装置的标注的例子；

图4B是示图，其示出了语音单元提取部分的音调标记的例子；

图5是示图，其示出了由属性信息生成装置生成的属性信息的例子；

图6是示图，其示出了语音单元数据库中包含的语音单元的例子；

图7是示图，其示出了所述语音单元数据库中包含的属性信息的例子；

图8是转换源说话人语音单元选择装置的处理的流程图；

图9是所述转换源说话人语音单元选择装置的处理的流程图；

图10是框图，其示出了语音转换规则学习装置的结构；

图11是示图，其示出了所述语音转换规则学习装置的处理的例子；

图12是语音转换规则制定装置的处理的流程图；

图13是所述语音转换规则制定装置的处理的流程图；

图14是所述语音转换规则制定装置的处理的流程图；

图15是所述语音转换规则制定装置的处理的流程图；

图16是概念性示图，其示出了通过所述语音转换规则制定装置的VQ的语音转换操作；

图17是所述语音转换规则制定装置的处理的流程图；

图18是概念性示图，其示出了通过所述语音转换规则制定装置的GMM的语音转换操作；

图19是框图，其示出了所述属性信息生成装置的结构；

图20是属性转换规则制定装置的处理的流程图；

图21是所述属性转换规则制定装置的处理的流程图；

图22是框图，其示出了语音合成装置的结构；

图23是框图，其示出了根据本发明第二实施例的语音转换装置的结构；

图24是频谱参数转换装置的处理的流程图；

图25是所述频谱参数转换装置的处理的流程图；

图26是示图，其示出了根据所述第二实施例的语音转换装置的操作的例子；

图27是框图，其示出了根据本发明第三实施例的语音合成器的结构；

图28是框图，其示出了语音合成装置的结构；

图29是框图，其示出了语音转换装置的结构；

图30是示图，其示出了语音单元编辑和连接装置的处理；

图31是框图，其示出了所述语音合成装置的结构；

图32是框图，其示出了所述语音合成装置的结构；

图33是框图，其示出了所述语音合成装置的结构；

图34是框图，其示出了所述语音合成装置的结构。

具体实施方式

以下将描述本发明的实施例。

第一实施例

参考图1到21，描述根据本发明第一实施例的语音转换规则制定装置。

(1)语音转换规则制定装置的结构

图1是根据所述第一实施例的语音转换规则制定装置的框图。

所述语音转换规则制定装置包括转换源说话人语音单元数据库11，语音转换规则学习数据生成装置12，以及语音转换规则学习装置13，以制定语音转换规则14。

所述语音转换规则学习数据生成装置12输入转换目标说话人的语音数据，为被分割为任意类型的语音单元的各个语音单元从所述转换源说话人语音单元数据库11中选择转换源说话人的语音单元，并制作所述转换目标说话人的语音单元和所述转换源说话人的语音单元的对作为学习数据。

语音转换规则学习装置13利用由语音转换规则学习数据生成装置12生成的学习数据来学习语音转换规则14。

(2)语音转换规则学习数据生成装置12

图2示出了语音转换规则学习数据生成装置12的结构。

语音单元提取装置21将所述转换目标说话人的语音数据分割为任意类型的语音单元，以提取转换目标说话人语音单元。

属性信息生成装置22生成对应于所提取的转换目标说话人语音单元的属性信息。

转换源说话人语音单元选择装置23根据指示在转换目标说话人语音单元的属性信息和包含在转换源说话人语音单元数据库中的转换源说话人语音单元的属性信息之间的失配的代价函数选择对应于所述转换目标说话人语音单元的转换源说话人语音单元。

被选择的转换目标说话人语音单元和转换源说话人语音单元的对被用作语音转换规则学习数据。

下面将具体描述语音转换规则学习数据生成装置的处理。

(2-1)语音单元提取装置21

语音单元提取装置21从转换目标说话人语音数据中提取以任意类型的语音单元形式的语音单元。所述类型的语音单元是音素或被分割的因素的序列；例如，半音素，音素(C，V)，双因素(CV，VC，VV)，三音素(CVC，VCV)，音节(CV，V)(V表示元音，C表示辅音)，及其可变长混合。

图3是语音单元提取装置21的处理的流程图。

在步骤S31中，利用音素单元等标注输入的转换目标说话人语音数据。

在步骤S32中，在其上放置音调标记。

在步骤S33中，将所述输入的语音数据分割为对应于任意类型的语音单元的语音单元。

图4A和4B示出了对句子“so-o-ha-na-su”进行标注和音调标记的例子。图4A示出了标注语音数据片段的边界的例子；而图4B示出了对部分“a”进行音调标记的例子。

所述标注装置放置标签，该标签指示语音单元的音素类型以及语音单元之间的边界，这通过利用了隐马尔科夫模型等的方法来进行。所述标注

可以是自动的或手动的。所述音调标记装置同步于语音的基频进行标记，这通过提取波形峰值等方法来进行。

因而，通过标注和音调标记将所述语音数据分割为语音单元。当半音素是所述语音单元的类型时，在音素间的边界和所述音素的中心将所述波形分割为“部分a的左语音单元(左a)”和“部分a的右语音单元(右a)”。

(2-2)属性信息生成装置22

属性信息生成装置22生成对应于由语音单元提取装置21提取的语音单元的属性信息。所述语音单元的属性包括基频信息，音素持续时间信息，音素环境信息，以及频谱信息。

图5示出了转换目标说话人属性信息的例子：基频信息，音素持续时间信息，在连接边界的倒谱，以及音素环境。所述基频是语音单元频率的均值(Hz)，以单位毫秒(msec)表示音素持续时间，所述频谱参数是在连接边界处的倒谱，以及所述音素环境是在前和在后的音素。

通过利用诸如自相关函数来提取语音的音调以及对所述语音单元的频率求平均来得到所述基频。通过分析在语音单元边界的末端的音调周期波形获得所述倒谱或频谱信息。

所述音素环境包括这种在前的音素和这种在后的音素。因而，可以得到转换目标说话人的语音单元以及相应的转换目标说话人属性信息。

(2-3)转换源说话人语音单元数据库11

所述转换源说话人语音单元数据库11存储从转换源说话人的语音数据生成的语音单元和属性信息。所述语音单元和属性信息与通过语音单元提取装置21以及属性信息生成装置22所得到的相同。

参考图6，转换源说话人语音单元数据库11存储了与用于识别所述语音单元的编号相关联的转换源说话人的语音单元的已音调标记的波形。

参考图7，所述转换源说话人语音单元数据库11还存储了与语音单元的所述编号相关联的语音单元的属性信息。

通过标注、音调标记、属性生成以及单元提取等处理从转换源说话人的语音数据生成语音单元和属性的信息，这与语音单元提取装置21和属性信息生成装置22中的处理一样。

(2-4)转换源说话人语音单元选择装置23

转换源说话人语音单元选择装置23将在所述转换目标说话人的语音单元属性信息和所述转换源说话人的属性信息之间的失配表达为代价函数，并选择相对于所述转换目标说话人的属性信息的代价最小的转换源说话人的语音单元。

(2-4-1)代价函数

所述代价函数被表达为每个属性信息的子代价函数C_n(u_t，u_c)(n∶1到N，其中N是所述子代价函数的数目)，其中u_t是转换目标说话人的语音单元，u_c是包含在转换源说话人语音单元数据库11的转换源说话人语音单元中的与u_t具有相同音素的语音单元。

所述子代价函数包括基频代价C₁(u_t，u_c)，其指示在转换目标说话人的语音单元的基频和转换源说话人的语音单元的基频之间的差，音素持续时间代价C₂(u_t，u_c)，其指示音素持续时间的差，频谱代价C₃(u_t，u_c)和C₄(u_t，u_c)，其指示在语音单元边界的频谱的差，音素环境代价C₅(u_t，u_c)和C₆(u_t，u_c)，其指示音素环境的差。

具体而言，通过如下等式将基频代价作为对数基频的差进行计算：

C₁(u_t，u_c)＝{log(f(u_t))-log(f(u_c))}² (1)

其中，f(u)是用于从对应于语音单元u的属性信息提取平均基频的函数。

所述音素持续时间代价被表达为：

C₂(u_t，u_c)＝{g(u_t)-g(u_c)}² (2)

其中，g(u)是用于从对应于语音单元u的属性信息提取音素持续时间的函数。

通过如下等式从在语音单元之间的边界处的倒谱距离来计算所述频谱代价：

C₃(u_t，u_c)＝||h^l(u_t)-h^l(u_c)‖

(3)

C₄(u_t，u_c)＝||h^r(u_t)-h^r(u_c)‖

其中，分别地，h^l(u)是用于提取所述语音单元u的左边界的倒谱系数的函数，而h^r(u)是用于提取右边界的倒谱系数作为向量的函数。

通过如下等式从指示相邻语音单元是否相等的距离来计算所述音素环境代价：

指示在转换目标说话人的语音单元和转换源说话人的语音单元之间的失配的代价函数被定义为子代价函数的加权和。

C (u_{t}, u_{c}) = Σ_{n = 1}^{N} w_{n} C_{n} (u_{t}, u_{c}) - - - (5)

其中w_n是所述子代价函数的权重。在所述实施例中，为简便起见将w_n均设置为“1”。等式(5)是语音单元的代价函数，其指示在使得转换源说话人语音单元数据库中的语音单元与转换目标说话人语音单元一致时的失配。

(2-4-2)处理的细节

转换源说话人语音单元选择装置23利用上述代价函数选择对应于转换目标说话人语音单元的转换源说话人语音单元。所述处理示于图8。

在步骤S81到S83中，包含在所述转换源说话人语音单元数据库中的与转换目标说话人的语音单元具有相同音素的所有语音单元被循环以计算代价函数。在此，相同音素指示相应的语音单元具有相同种类的音素；对于半音素，“部分a的左语音片段”或者“部分i的右语音片段”具有相同种类的音素。

在步骤S81到S83中，确定与转换目标说话人语音单元具有相同音素的所有转换源说话人语音单元的代价。

在步骤S84中，从其中选择代价最小的转换源说话人语音单元。

因而，得到转换目标说话人语音单元和转换源说话人语音单元的学习数据的对。

(2-4-3)其它处理的细节

尽管图8的转换源说话人语音单元选择装置23选择了对于所述转换目标说话人语音单元代价最小的一个最佳语音单元，但是也可以选择多个语音单元。

在这种情况下，转换源说话人语音单元选择装置23通过图9所示的处理以代价值的升序方式从包含在所述转换源说话人语音单元数据库中的相同音素的语音单元中选择较高阶的N个转换源说话人语音单元。

在步骤S81到S83中，与包含在转换源说话人语音单元数据库中的转换目标说话人的语音单元音素相同的所有语音单元被循环以计算代价函数。

然后，在步骤S91中，根据所述代价对所述语音单元进行排序，并且，在步骤S92中，以代价的升序来选择所述较高次序的N个语音单元。

因而，可以为一个转换目标说话人语音单元选择N个转换源说话人语音单元，并且每个转换源说话人语音单元和对应的转换目标说话人语音单元被配对以形成学习数据。

为每个转换目标说话人语音单元使用多个转换源说话人语音单元，减少了由于转换源说话人语音单元和转换目标说话人语音单元的失配导致的坏影响，并且增加了学习数据，使得能够学习更稳定的转换规则。

(3)语音转换规则学习装置13

以下将描述语音转换规则学习装置13。

语音转换规则学习装置13利用通过语音转换规则学习数据生成装置12学习得到的转换源说话人语音单元和转换目标说话人语音单元的对来学习语音转换规则14。所述语音转换规则包括基于平移、简单线性回归分析、多回归分析以及向量量化(VQ)的语音转换规则；以及基于非专利文献1中所示的GMM的语音转换规则。

(3-1)处理的细节

图10示出了语音转换规则学习装置13的处理。

转换目标说话人频谱参数提取装置101和转换源说话人频谱参数提取装置102提取学习数据的频谱参数。所述频谱参数指示关于语音单元的频谱包络的信息：例如，LPC系数、LSF参数以及美尔倒谱(mel-cepstrum)。通过音调同步分析得到所述频谱参数。具体地，通过应用将语音单元的每个音调标记作为中心的两倍于所述音调的汉宁窗来提取音调周期波形，由此从所提取的音调周期波形得到频谱参数。

所述频谱参数中的一个、美尔倒谱被通过正则化离散倒谱的方法(O.Cappe等，“Regularization Techniques for Discrete Cepstrum Estimation”，IEEE Signal Processing Letters，Vol.3，No.3，No.4，1996年4月)，无偏估计的方法(小林隆夫(Takao Kobayashi)，“音声のケプストラム分析，メルケプルストラム分析(Speech Cepstrum Analysis and Mel-CepstrumAnalysis，语音倒谱分析和美尔倒谱分析)”，電子情報通信學会技術硏究報告，(Technical Report of The Institute of Electronic Information andCommunication Engineers，电子信息和通信工程学院技术报告)，DSP98-77/SP98-56，pp.33-40，1998年9月)等获得，其全部内容在此引用作为参考。

在通过对所述转换源说话人语音单元和所述转换目标说话人语音单元进行音调标记而得到频谱参数之后，通过频谱参数映射装置103映射所述频谱参数。

由于所述转换源说话人语音单元和所述转换目标说话人语音单元具有不同数目的音调周期波形，所述频谱参数映射装置103配齐(complete)音调周期波形的数目。这以如下方式进行，通过动态时间规整(DTW)、线性映射或者利用分段线性函数的映射来使得所述转换目标说话人的频谱参数和所述转换源说话人的频谱参数在时间上互相关联。

结果，所述转换源说话人的频谱参数能够被与转换目标说话人的频谱参数相关联。图11中说明了此处理。图11从上到下示出了转换目标说话人语音单元及它们的音调标记、由汉宁窗切割出的音调周期波形以及从通过对所述音调周期波形进行频谱分析而得到的频谱参数获得的频谱包络，并且从下到上示出了转换源说话人语音单元、音调周期波形以及频谱包络。图10的频谱参数映射装置103将转换源说话人语音单元和转换目标说话人语音单元进行一一对应，以获得所述频谱参数的对，从而获得语音转换规则学习数据。

语音转换规则制定装置104利用作为学习数据的所述转换源说话人和转换目标说话人的频谱参数的对来学习语音转换规则。

(3-2)语音转换规则

下面将描述基于平移、简单线性回归分析、多回归分析和向量量化(VQ)的语音转换规则；以及基于GMM的语音转换规则。

(3-2-1)平移

图12示出了利用平移的语音转换规则制定装置104的处理。

对于平移，通过如下等式表达所述语音转换规则：

y′＝x+b (6)

其中，y′是转换后的频谱参数，x是转换源说话人的频谱参数，而b是平移距离。通过如下等式从所述频谱参数对或学习数据求得平移距离b：

b = \frac{1}{N} Σ_{i = 1}^{N} (y_{i} - x_{i}) - - - (7)

其中，N是学习频谱参数对的数目，y_i是转换目标说话人的频谱参数，x_i是转换源说话人的频谱参数，以及i是学习数据对的编号。通过步骤S121到S123的循环，求得所有学习频谱参数对之间的差，并且在步骤S124中，求得平移距离b。平移距离b成为转换规则。

(3-3-2)简单线性回归分析

图13示出了利用简单线性回归分析的语音转换规则制定装置104的处理。

对于简单线性回归分析，为所述频谱参数的每一阶执行回归分析。对于所述简单线性回归分析，通过如下等式表达所述语音转换规则：

y′^k＝a^kx^k+b^k (8)

其中，y′^k是转换后的频谱参数，x^k是转换源说话人的频谱参数，a^k是回归系数，b^k是其偏移，以及k是频谱参数的阶。通过如下等式从所述频谱参数对或者学习数据求得值a^k和b^k：

其中，N是学习频谱参数对的数目，y_i ^k是转换目标说话人的频谱参数，x_i ^k是转换源说话人的频谱参数，以及i是学习数据对的编号。

通过步骤S131到S133的循环，从所有学习频谱参数对求得回归分析所需要的等式(9)的项的值，并且在步骤S134中，求得回归系数a^k和b^k。所述回归系数a^k和b^k被用作为转换规则。

(3-2-3)多回归分析

图14示出了利用多回归分析的语音转换规则制定装置104的处理。

对于所述多回归分析，利用如下等式表达所述语音转换规则：

y′＝Ax′，x′＝(x^T，1)^T (10)

其中，y′是转换后的频谱参数，x′是转换源说话人的频谱参数x和偏移项(1)之和，以及A是回归矩阵。从所述频谱参数对或学习数据求得A。A可由如下方程式给出：

(X^TX)a^k＝X^TY^k (11)

其中，k是频谱参数的阶，a^k是矩阵A的列，Y^k是(y1^k到yN^k)T，X是(x′1^T到x′N^T)，通过将偏移项加到转换源说话人频谱参数xⁱ并代入(xi^T，1)^T而给出x′i^T，其中，X^T是矩阵X的转置。

图14示出了转换规则学习的算法。首先，通过步骤S141到S143从所有学习频谱参数生成矩阵X和Y，并在步骤S144中，通过解方程式(11)求得回归系数a^k，并对所有阶执行所述计算以求得回归矩阵A。所述回归矩阵A成为转换规则。

(3-2-4)向量量化

图15示出了利用向量量化(VQ)的语音转换规则制定装置104的处理。

对于利用VQ的语音转换规则，通过LBG算法将转换源说话人频谱参数的集合群集成C个群集(cluster)，并通过VQ将由语音转换规则学习数据生成装置12生成的学习数据对的转换源说话人频谱参数分配到所述群集，对于每个群集都进行多回归分析。通过如下等式表达利用VQ的语音转换规则：

y^{'} = Σ_{c = 1}^{C} {sel}^{c} (x) A^{c} x^{'}, x^{'} = {(x^{T}, 1)}^{T} - - - (12)

其中，A^c是群集c的回归矩阵，sel^c(x)是选择函数，当x属于群集c时，其选择1，否则，其选择0。等式(12)表示利用所述选择函数选择回归矩阵，并为每个群集转换所述频谱参数。

图16示出了所述概念。图中的黑点表示转换源说话人频谱参数，而每一个白点表示由LBG算法求得的形心。

所述转换源说话人频谱参数的空间被分割为通过图中的线指示的群集。在每个群集中得到回归矩阵A^c。对于转换，输入的转换源说话人频谱参数被与所述群集相关联，并被通过各群集的回归矩阵进行转换。

在步骤S151中，语音转换规则制定装置104对转换源说话人频谱参数进行群集，以利用LBG算法求得各群集的形心，直到群集的数目达到预定数目C。利用从转换源说话人语音单元数据库11中的所有语音单元中提取的音调周期波形的频谱参数进行学习数据的群集。可能仅对由语音转换规则学习数据生成装置12选择的转换源说话人语音单元的频谱参数进行群集。

然后，在步骤S152到S154中，对由语音转换规则学习数据生成装置12生成的学习数据对的转换源说话人频谱参数进行向量量化，其各自被分配到所述群集。

在步骤S155到S157中，利用转换源说话人频谱参数和转换目标说话人频谱参数的对来获得各群集的回归矩阵。在回归矩阵计算步骤S156中，为每个群集建立方程式(11)，就像图14的步骤S141到144的处理一样，并通过解方程式(11)得到回归矩阵A^c。对于利用VQ的语音转换规则，利用LBG算法得到的各群集的形心以及各群集的回归矩阵A^c成为语音转换规则。

(3-2-5)GMM方法

最后，图17示出了利用非专利文献1中所提出的GMM的语音转换规则制定装置104的处理。以如下方式执行所述利用GMM的语音转换，通过GMM对转换源说话人频谱参数进行建模，并且利用在GMM的混合分量中观察到的后验概率对所述输入的转换源说话人频谱参数进行加权。

利用如下等式将GMMλ表示为高斯混合模型的混合分量：

p (x | \bar{e}) = Σ_{c = 1}^{C} w_{c} p (x | {\bar{e}}_{c}) = Σ_{c = 1}^{C} w_{c} N (x | μ_{c}, Σ_{c}) - - - (13)

其中，p是似然，c是混合分量，w_c是混合分量的权重，p(x|λ_c)＝N(x|μ_c，Σ_c)是混合分量c的均值为μ_c、方差为Σ_c的高斯分布的似然。其中，通过如下等式表达利用GMM的语音转换规则：

y^{'} = Σ_{c = 1}^{C} p (m_{c} | x) A^{c} x^{'}, x^{'} {(x^{T}, 1)}^{T} - - - (14)

其中，p(m_c|x)是在混合分量m_c中观察到x的概率。

p (m_{c} | x) = \frac{w_{c} p (x | \bar{e_{c}})}{p (x | \bar{e})} - - - (15)

利用GMM的语音转换具有这样的特征，即可获得混合分量中的连续变化的回归矩阵。图18示出了此概念。图中的黑点表示转换源说话人频谱参数，而每个白点表示通过GMM的最大似然估计得到的混合分量的均值。

在利用GMM的语音转换中，利用VQ的语音转换中的群集对应于GMM的混合分量，并且每个混合分量被表示为高斯分布，其参数为：均值μ_c，方差Σ_c，以及混合权重w_c。根据等式(14)的后验概率应用频谱参数x以对各混合分量的回归矩阵进行加权，其中，A_c是各混合分量的回归矩阵。

如所述等式所示，当混合分量m₁中生成转换源说话人频谱参数x的概率是0.3时；当混合分量m₂中生成所述频谱参数x的概率是0.6时；以及当混合分量m₃中生成所述频谱参数x的概率是0.1时，通过利用各群集的回归矩阵转换得到的频谱参数的加权和给出转换目标说话人频谱参数y。

对于所述GMM，在步骤S171中，语音转换规则制定装置104通过最大似然估计来估计所述GMM。对于GMM的初始值，给出由LBG算法产生的群集，并且通过EM算法估计GMM的最大似然参数。然后，在步骤S172到S174中，计算用于获得回归矩阵的等式的系数。对利用等式(14)加权的数据进行图14中所示的同样处理，由此求得等式的系数，如非专利文献1所述。在步骤S175中，确定各混合分量的回归矩阵A^c。通过采用GMM的语音转换，GMM的模型参数λ和各混合分量的回归矩阵A^c成为语音转换规则。

因而，得到了利用平移、简单线性回归分析、多回归分析和向量量化(VQ)的语音转换规则，以及利用高斯混合模型(GMM)的语音转换规则。

(4)效果

根据本实施例，能够从转换目标说话人的语音数据中提取语音单元和属性信息，并且能够基于属性信息的失配从转换源说话人语音单元数据库中选出语音单元，由此能够利用作为学习数据的转换目标说话人和转换源说话人的对来学习语音转换规则。

根据本实施例，能够提供一种语音转换规则制定装置，其可以利用转换目标说话人的任何句子的语音制定语音转换规则，并且可以学习转换规则，所述转换规则反映包含在大量转换源说话人语音单元数据库中的信息。

(5)变型

根据本实施例，如等式(5)所示的代价函数那样利用转换目标说话人的属性信息和转换源说话人的属性信息的失配来选择代价最小的多个转换源说话人的一个语音单元或多个语音单元。

可选地，转换所述转换目标说话人的属性信息，使其接近于转换源说话人的属性信息，并且从所转换的转换目标说话人属性信息和转换源说话人属性信息之间的失配中求得等式(5)中的代价，可以利用其选择转换源说话人的语音单元。

(5-1)属性信息生成装置22的处理

将在图19中示出在这种情况下的属性信息生成装置22的处理。

属性信息生成装置22通过转换目标说话人属性提取装置191从转换目标说话人的语音单元中提取转换目标说话人的属性。

转换目标说话人属性提取装置191提取图5所示的信息，诸如，转换目标说话人的基频、音素持续时间信息、连接边界倒谱以及音素环境信息。

属性转换装置192对转换目标说话人的属性进行转换，使其接近转换源说话人的属性，以生成将被输入到转换源说话人语音单元选择装置23的转换目标说话人属性信息。利用通过属性转换规则制定装置194预先制定的属性转换规则193进行所述属性的转换。

(5-2)基频和音素持续时间的转换

以下将描述图5所示的属性信息的基频和音素持续时间的转换的例子。

在这种情况下，属性转换规则制定装置194准备使得转换目标说话人的基频达到转换源说话人基频的规则以及使得转换目标说话人的音素持续时间达到转换源说话人的音素持续时间的规则。图20和21示出了所述处理的流程图。

在转换目标说话人平均对数基频提取步骤S201中，求得从转换目标说话人的语音数据中提取的对数基频的平均值。

在转换源说话人平均对数基频提取步骤S202中，求得从转换源说话人的语音数据中提取的对数基频的平均值。

在平均对数基频差计算步骤S203中，计算在转换源说话人的平均对数基频和转换目标说话人的平均对数基频之间的差，以作为属性转换规则193。

类似地，在图21的转换目标说话人平均音素持续时间提取步骤S211中，提取转换目标说话人的音素持续时间的平均值。

在转换源说话人平均音素持续时间提取步骤S212中，提取转换源说话人的音素持续时间的平均值。

在音素持续时间比计算步骤S213中，计算转换源说话人的平均音素持续时间与转换目标说话人的平均音素持续时间的比，以作为属性转换规则193。

属性转换规则193可包括这样的规则，以校正所述平均对数基频的范围以及平均对数基频差和平均音素持续时间比。此外，属性转换规则193可能不会共用于所有数据，但是，可以通过例如制定基于音素或重音类型的规则来对所述属性进行群集，并且可以在每个群集中得到属性转换规则。因而，属性转换规则制定装置194制定属性转换规则193。

属性信息生成装置22从转换目标说话人语音单元获得图5所示的属性，并根据属性转换规则193中的转换规则对属性中的基频和音素持续时间进行转换。对于基频，属性信息生成装置22将基频转换为对数基频，然后通过将平均对数基频差加到所述对数基频以对其进行转换，从而使其接近转换源说话人的基频，并且之后将所转换的对数基频转换回基频，从而在选择语音单元时制定转换目标说话人的基频属性。

对于音素持续时间，属性信息生成装置22通过乘以平均音素持续时间比来对音素持续时间进行转换，以使其接近转换源说话人的音素持续时间，从而在选择语音单元时生成转换目标说话人音素持续时间属性。

在为平均基频显著不同的说话人学习语音转换规则的情况下，与将男声转换为女声的情况一样，当利用女性转换目标说话人的基频从男性转换源说话人的语音单元数据库中选择语音单元时，仅从所述男性语音单元数据库中选择最高基频的语音单元。然而，此安排能够防止这样的选择语音单元的偏向。

而且，在制定将快语速的语音转换为慢语速的语音的语音转换规则的情况下，仅从转换源说话人的语音单元中选择具有最长音素持续时间的语音单元。此安排也能够防止这样的选择语音单元的偏向。

于是，即使转换目标说话人和转换源说话人的特征不同，也能够制定反映了包含在转换源说话人的语音单元数据库中的语音单元的特征的语音转换规则。

第二实施例

以下将参照图23到26描述根据本发明第二实施例的语音转换装置。

所述语音转换装置对转换源说话人的任意语音数据应用由根据所述第一实施例的语音转换规则制定装置制定的语音转换规则，以将转换源说话人语音数据中的话音质量转换为转换目标说话人的话音质量。

(1)语音转换装置的结构

图23是框图，其示出了根据第二实施例的语音转换装置。

所述语音转换装置首先利用转换源说话人频谱参数提取装置231从转换源说话人的语音数据中提取频谱参数。

频谱参数转换装置232根据由根据第一实施例的语音转换规则制定装置制定的语音转换规则14转换所提取的频谱参数。

波形生成装置233从所转换的频谱参数生成语音波形。因而，可以生成从转换源说话人语音数据转换得到的转换目标说话人语音波形。

(2)转换源说话人频谱参数提取装置231

转换源说话人频谱参数提取装置231在转换源说话人语音数据上放置音调标记，以各音调标记为中心切割出音调周期波形，并对所切割出的音调周期波形进行频谱分析。对于所述音调标记和频谱分析，采用与根据第一实施例的转换源说话人频谱参数提取装置102相同的方法。因而，对于转换源说话人语音数据的音调周期波形，得到由图11的转换源说话人频谱参数提取装置102提取的频谱参数。

(3)频谱参数转换装置232

频谱参数转换装置232根据由语音转换规则学习装置13制定的语音转换规则14中的语音转换规则来转换所述频谱参数。

(3-1)平移

对于平移，所述语音转换规则如等式(6)表示，其中，x是转换源说话人的频谱参数，y′是转换后的频谱参数，而b是平移距离。

(3-2)简单线性回归分析

利用简单线性回归分析，所述语音转换规则如等式(8)表示，其中，x^k是转换源说话人的k阶频谱参数，y′^k是转换后的k阶频谱参数，a^k是k阶频谱参数的回归系数，b^k是k阶频谱参数的偏移。

(3-3)多回归分析

对于多回归分析，所述语音转换规则如等式(10)表示，其中，x′是转换源说话人的频谱参数，y′是转换后的频谱参数，以及A是回归矩阵。

(3-4)向量量化方法

对于所述VQ方法，频谱参数转换装置232通过图24的处理对转换源说话人的频谱参数进行转换。

参照图24，在步骤S241中，从由语音转换规则学习装置13利用所述LBG算法得到的各群集的形心与所述输入的频谱参数之间的距离来选择所述距离最小的群集(向量量化)。

在步骤S242中，利用等式(12)转换所述频谱参数，其中，x′是转换源说话人的频谱参数，y′是转换后的频谱参数，以及sel^c(x)是选择函数，当x属于群集c时，其选择1，否则，其选择0。

(3-5)GMM方法

图25示出了所述GMM方法的过程。

参照图25，在步骤S251中，计算后验概率的等式(15)，其中，在通过语音转换规则学习装置13的最大似然估计得到的GMM的每个混合分量中生成频谱参数。

然后，在步骤S252中，利用各混合分量的后验概率作为权重来通过等式(14)转换所述频谱参数。在等式(14)中，p(m_c|x)是在混合分量m_c中观察到x的概率，x′是转换源说话人的频谱参数，y′是转换后的频谱参数，以及A^c是混合分量c的回归矩阵。

因而，频谱参数转换装置232根据各语音转换规则对转换源说话人的频谱参数进行转换。

(4)波形生成装置233

波形生成装置233从所转换的频谱参数生成波形。

具体地，波形生成装置233为所转换的频谱参数的频谱赋以适当的相位，通过逆傅立叶变换生成音调周期波形，在音调标记上重叠相加(overlapadd)所述音调周期波形，从而生成波形。

用于生成波形的音调标记可以从转换源说话人的音调标记改变而来，从而接近于目标说话人的音素。在这种情况下，由图20和21所示的属性转换规则制定装置194生成的基频和音素持续时间的转换规则被转换为用于从转换源说话人提取的基频和音素持续时间，其中从该提取的基频和音素持续时间形成音调标记。

因而，能够使得所述音素信息接近目标说话人的音素信息。

当通过逆傅立叶变换生成音调周期波形时，可以通过利用适当的语音源信息进行滤波来再生所述音调周期波形。对于所述LPC系数，可以利用全极滤波器生成音调周期波形；对于美尔倒谱，可以利用通过MLSA滤波器的语音源信息以及频谱包络参数来生成音调周期波形。

(5)语音数据

图26示出了通过所述语音转换装置转换的语音数据的例子。

图26从左边开始分别示出了从转换源说话人的语音数据、转换后的语音数据以及转换目标说话人的语音数据提取的对数频谱和音调周期波形。

转换源说话人频谱参数提取装置231从在转换源说话人语音数据中提取的音调周期波形中提取频谱包络参数。频谱参数转换装置232根据语音转换规则转换所述提取的频谱包络参数。然后，波形生成装置233从所述转换的频谱包络参数生成转换后的音调周期波形。与从转换目标说话人语音数据提取的音调周期波形和频谱包络的比较表明转换后的音调周期波形接近于从转换目标说话人语音数据提取的音调周期波形。

(6)效果

如所述，第二实施例的安排使得可利用由所述第一实施例的语音转换规则制定装置制定的语音转换规则将所述输入的转换源说话人语音数据转换为转换目标说话人的话音质量。

根据第二实施例，能够将根据转换目标说话人的任意句子的语音转换规则或者反映大量转换源说话人语音单元数据库中的信息的语音转换规则应用到转换源说话人语音数据，从而实现高质量的语音转换。

第三实施例

下面将参照图27到33描述根据本发明第三实施例的文本到语音的合成器。

所述文本到语音的合成器通过应用由根据第一实施例的语音转换规则制定装置制定的语音转换规则来生成这样的合成语音，其对于任意句子的输入具有与转换目标说话人相同的话音质量。

(1)文本到语音的合成器的结构

图27是框图，其示出了根据第三实施例的文本到语音的合成器。

所述文本到语音的合成器包括文本输入装置271、语言处理装置272、韵律处理装置273、语音合成装置274以及语音波形输出装置275。

(2)语言处理装置272

语言处理装置272分析从文本输入装置271输入的文本的语素和结构，并将结果发送给韵律处理装置273。

(3)韵律处理装置273

韵律处理装置273基于所述语言分析来处理重音和语调，以生成音素序列(音素符号串)和韵律信息，并将它们发送给语音合成装置274。

(4)语音合成装置274

语音合成装置274从所述音素序列和韵律信息生成语音波形。所生成的语音波形由语音波形输出装置275输出。

(4-2)语音合成装置274的结构

图28示出了语音合成装置274的结构例。

语音合成装置274包括音素序列和韵律信息输入装置281、语音单元选择装置282、语音单元编辑和连接装置283、语音波形输出装置275以及存储转换目标说话人的语音单元和属性信息的语音单元数据库284。

根据此实施例，以这样的方法得到转换目标说话人语音单元数据库284，即语音转换装置285对转换源说话人语音单元数据库11应用由根据第一实施例的语音转换制定的语音转换规则14。

与第一实施例一样，转换源说话人语音单元数据库11存储语音单元和属性信息，其中所述语音单元被分割为任意类型的语音单元并且从所述转换源说话人语音数据生成。转换源说话人语音单元的音调标记的波形被与用于识别所述语音单元的编号一起存储，如图6所示。所述属性信息包括语音单元选择装置282所使用的信息，诸如音素(半音素名称)、基频、音素持续时间、连接边界倒谱以及音素环境。所述信息被与语音单元的编号一起存储，如图7所示。与转换目标说话人语音单元提取装置以及属性生成装置的处理一样，通过标注、音调标记、属性生成以及语音单元提取来从所述转换源说话人语音数据生成所述语音单元和属性信息。

语音转换规则14具有由根据第一实施例的语音转换规则制定装置制定的并将转换源说话人的语音转换为转换目标说话人的语音的语音转换规则。

所述语音转换规则依赖于语音转换的方法。

如第一和第二实施例中所述，当采用平移作为语音转换规则时，存储通过等式(7)求得的平移距离b。

利用简单的线性回归分析，存储通过等式(9)获得的回归系数a^k和b^k。

利用多回归分析，存储通过等式(11)获得的回归矩阵A。

利用VQ方法，存储各群集的形心以及各群集的回归矩阵A^c。

利用GMM方法，存储通过最大似然估计得到的GMMλ以及各混合分量的回归矩阵A^c。

(4-3)语音转换装置285

语音转换装置285生成转换目标说话人语音单元数据库284，通过对转换源说话人语音单元数据库中的语音单元应用语音转换规则来将其转换为转换目标说话人的话音质量。语音转换装置285对转换源说话人的语音单元进行转换，如图29所示。

(4-3-1)转换元说话人频谱参数提取装置291

转换元说话人频谱参数提取装置291通过参考放置在转换源说话人的语音单元上的音调标记来提取音调周期波形，并以与图23的转换源说话人频谱参数提取装置231类似的方式提取频谱参数。

(4-3-2)频谱参数转换装置292和波形生成装置293

频谱参数转换装置292和波形生成装置293利用语音转换规则14转换所述频谱参数，以从所述转换的频谱参数形成语音波形，从而转换话音质量，这与利用图23的频谱参数转换装置232和波形生成装置233以及图25的语音转换一样。

因而，转换源说话人的语音单元被转换为转换目标说话人语音单元。转换目标说话人语音单元和相应的属性信息被存储在转换目标说话人语音单元数据库284中。

语音合成装置274从语音单元数据库284中选出语音单元来合成语音。向音素序列和韵律信息输入装置281输入对应于从音素处理装置273输出的输入文本的音素序列和韵律信息。被输入到音素序列和韵律信息输入装置281的韵律信息包括基频和音素持续时间。

(5)语音单元选择装置282

语音单元选择装置282基于在语音单元数据库284中存储的输入的音素信息和属性信息为输入音位系统的各语音装置估计合成语音的失配程度，并根据所述合成语音的失配程度从存储在语音单元数据库284中的语音单元中选择语音单元。

所述合成语音的失配程度被表示为目标代价和连接代价的加权和，所述目标代价是取决于在存储于语音单元数据库284中的属性信息和从音素序列和韵律信息输入装置281发送的目标语音单元环境之间的差异的失配，而所述连接代价是基于在连接的语音单元之间的语音单元环境的差异的失配。

由当修改和连接语音单元以生成合成语音时所发生的失配的每个因素来确定子代价函数C_n(u_i，u_i-1，t_i)(n：1到N，其中N是子代价函数的数目)。第一实施例中描述的等式(5)的代价函数用来测量两个语音单元之间的失配，而在此定义的代价函数用来测量在输入的音素序列和韵律信息与语音单元之间的失配。在此，如果对应于输入音素序列和输入韵律信息的目标语音是t＝(t1到tI)，则t_i是对应于第i个单元的语音单元的目标属性信息，而u_i是在存储于转换目标说话人语音单元数据库284的语音单元中的与t_j具有相同音素的语音单元。

子代价函数用于计算用来估计在利用存储于转换目标说话人语音单元数据库284中的语音单元生成的合成语音和目标语音之间的失配程度的代价。所述目标代价包括表示在存储于转换目标说话人语音单元数据库284中的语音单元的基频和目标基频之间的差的基频代价，表示在所述语音单元的音素持续时间和目标音素持续时间之间的差的音素持续时间代价，以及表示在所述语音单元的音素持续时间和目标音素环境之间的差的音素环境代价。作为连接代价，频谱连接代价表示在边界处的频谱之间的差。具体地，所述基频代价表示如下：

c₁(u_i，u_i-1，t_i)＝{log(f(V_i))-log(f(t_i))}² (16)

其中，v_i是存储在转换目标说话人语音单元数据库284中的语音单元u_i的属性信息，而f(v_i)是从属性信息v_i提取平均基频的函数。

如下计算所述音素持续时间代价：

c₂(u_i，u_i-1，t_i)＝{g(V_i)-g(t_i)}² (17)

其中g(v_i)是从语音单元环境v_i中提取音素持续时间的函数。

如下计算所述音素环境代价：

其表示相邻的音素是否匹配。

通过如下等式从两个语音单元之间的倒谱距离来计算所述频谱连接代价：

C₅(u_i，u_i-1，t_i)＝||h(u_i)-h(u_i-1)‖ (19)

其中h(u_i)表示在作为向量的语音单元u_i的连接边界处提取倒谱系数的函数。

子代价函数的加权和被定义为语音单元代价函数。

C (u_{i}, u_{i - 1}, t_{i}) = Σ_{n = 1}^{N} w_{n} C_{n} (u_{i}, u_{i - 1}, t_{i}) - - - (20)

其中w_n是子代价函数的权重。在此实施例中，为简便起见，将所有w_n设置为1。等式(20)表示在将所述语音单元应用到某个语音单元的情况下，语音单元的语音单元代价。

将通过等式(20)为通过分割输入的音素序列而得到的片段的每一个计算的语音单元代价的计算结果之和称为代价。通过如下等式定义计算所述代价的代价函数。

Cost = Σ_{i = 1}^{1} C (u_{i}, u_{i - 1}, t_{i}) - - - (21)

语音单元选择装置282利用等式(16)到(21)所示的代价函数来选择语音单元。在此，语音单元选择装置282从存储在转换目标说话人语音单元数据库284的语音单元中选择通过等式(21)计算的代价函数值最小的语音单元序列。所述代价最小的语音单元序列被称为最佳语音单元序列。换言之，所述最佳语音单元序列中的各语音单元对应于通过由合成单元分割所述输入的音素序列得到的各单元，并且从所述最佳语音单元序列中的各语音单元计算得到的语音单元代价以及通过等式(21)计算得到的代价小于任何其它语音单元序列的代价。可以通过动态规划(DP)有效地搜索所述最佳单元序列。

(6)语音单元编辑和连接装置283

语音单元编辑和连接装置283通过根据输入的韵律信息变换和连接选择的语音单元来生成合成语音波形。语音单元编辑和连接装置283从选择的语音单元提取音调周期波形，并重叠相加所述音调周期波形，以使得所述语音单元的基频和音素持续时间成为输入的韵律信息中所指示的目标基频和目标音素持续时间，从而生成语音波形。

(6-1)处理的细节

图30是语音单元编辑和连接装置283的处理的说明图。

图30示出了生成合成语音“a-i-sa-tsu”的音素“a”的波形的例子，从上到下示出了选择的语音单元，用于提取音调周期波形的汉宁窗、音调周期波形以及合成语音。所述合成语音的竖线表示音调标记，其根据所述输入的韵律信息中的目标基频和目标音素持续时间产生。语音单元编辑和连接装置283根据所述音调标记为每个任意的语音单元重叠相加从选择的语音单元提取的音调周期波形，以编辑所述语音单元，从而改变所述基频和所述音素持续时间，并且之后连接相邻的音调周期波形来生成合成语音。

(7)效果

如所述，根据本实施例，能够利用根据由第一实施例的语音转换规则制定装置所制定的语音转换规则转换的转换目标说话人语音单元数据库进行单元选择型的语音合成，从而根据任意输入的句子生成合成语音。

更具体地，能够通过对转换源说话人语音单元数据库中的语音单元应用利用转换目标说话人的少量数据单元制定的语音转换规则来生成转换目标说话人语音单元数据库，并从转换目标说话人语音单元数据库合成语音，从而生成具有转换目标说话人的话音质量的任意句子的合成语音。

此外，根据本实施例，能够从通过应用根据转换目标说话人的任意句子的语音的语音转换规则以及反映大量转换源说话人语音单元数据库中的信息的语音转换规则而得到的转换目标说话人语音单元数据库来合成语音，从而获得所述转换目标说话人的自然的合成语音。

(8)第一变型例

虽然在所述实施例中预先对转换源说话人语音单元数据库中的语音单元应用了语音转换规则，也可以在合成期间应用所述语音转换规则。

在这种情况下，如图31所示，语音合成装置274存储由根据第一实施例的语音转换规则制定装置所制定的语音转换规则14，以及转换源说话人语音单元数据库11。

在语音合成期间，音素序列和韵律信息输入装置281输入通过文本分析获得的音素序列和韵律信息；语音单元选择装置311从转换源说话人语音单元数据库选择语音单元，以最小化由等式(21)计算得到的代价；以及，语音转换装置312转换所述选择的语音单元的话音质量。由语音转换装置312进行的语音转换可以与由图28的语音转换装置285所进行的相同。此后，语音单元编辑和连接装置283改变和连接所述转换的语音单元的音素，从而获得合成语音。

根据所述变型例，因为在语音合成时加入语音转换处理，语音合成的计算量增加。然而，由于能够根据语音转换规则14转换所述合成语音的话音质量，在利用所述转换目标说话人的话音质量生成合成语音时，不再需要所述转换目标说话人的语音单元数据库。

于是，在构造利用不同的说话人的话音质量来合成语音的系统时，能够仅利用所述转换源说话人语音单元数据库以及用于所述说话人的语音转换规则来实现所述语音合成，从而能够利用少量存储器，而不是所有说话人的语音单元数据库来实现语音合成。

而且，仅仅用于新的说话人的转换规则能够被经由网络发送给另一个语音合成系统，这消除了发送所述新的说话人的全部语音单元数据库的需要，从而减少了需要发送的信息。

(9)第二变型例

虽然已经参照实施例描述了本发明，在其中对单元选择型的语音合成应用语音转换，但应该理解的是，本发明不限于此。本发明可以被应用于多单元选择和融合型的语音合成。

图32示出了这种情况下的语音合成器。

语音转换装置285利用语音转换规则14对转换源说话人语音单元数据库11进行转换，以生成转换目标说话人语音单元数据库284。

语音合成装置274输入音素序列和韵律信息，其中所述音素序列和韵律信息是音素序列和韵律信息输入装置281的文本分析结果。

多语音单元选择装置321根据通过等式(21)计算的代价从所述语音单元数据库中选择语音单元片段上的多个语音单元。

多语音单元融合装置322融合多个选择的语音单元以形成融合的语音单元。融合语音单元编辑和连接装置323改变和连接所述融合的语音单元以形成合成语音波形。

可以利用在专利文献1中描述的方法进行多语音单元选择装置321和多语音单元融合装置322的处理。

多语音单元选择装置321首先利用DP算法选择最佳语音单元序列，以最小化等式(21)的代价函数值，然后利用与前后语音区域中的最佳语音单元拼接的代价和输入到相应区域的属性的目标代价之和，以所述代价函数值的升序从包含在转换目标说话人语音单元数据库中的相同音素的语音单元中选出多个语音单元。

通过所述多语音单元融合装置融合所述选择的语音单元，以得到代表所选择的语音单元的语音单元。可以通过从选择的语音单元提取音调周期波形、复制或删除所述音调周期波形以匹配具有从目标音素生成的音调标记的音调周期波形的数目并且在时间域中对与所述音调标记相对应的音调周期波形求平均，来进行语音单元的单元融合。

所述融合语音单元编辑和连接装置323改变并连接所述融合的语音单元的音素，以形成合成语音波形。由于已经确认了所述多单元选择和融合型的语音合成能够得到比单元选择型更稳定的合成语音，此安排使得转换目标说话人的语音合成具有高稳定性和自然的话音。

(10)第三变型例

该实施例描述了多单元选择和融合型的语音合成，其使用了根据语音转换规则预先制成的语音单元数据库。可选地，可以通过从转换源说话人语音单元数据库中选择多个语音单元、对所选择的语音单元的话音质量进行转换、并融合所转换的语音单元以形成融合的语音单元，以及编辑并连接所融合的语音单元，来进行语音合成。

在这种情况下，如图33所示，语音合成装置274存储转换源说话人语音单元数据库11以及由根据第一实施例的语音转换规则制定装置所制定的语音转换规则14。

在语音合成时，音素序列和韵律信息输入装置281输入作为测试分析的结果的音素序列和韵律信息；与使用图31的语音单元选择装置311一样，多语音单元选择装置331选择来自转换源说话人语音单元数据库11的语音单元片段上的多个语音单元。

通过语音转换装置332根据语音转换规则14将所述选择的语音单元转换为具有转换目标说话人的话音质量的语音单元。由语音转换装置332进行的语音转换类似于图28中的语音转换装置285所进行的语音转换。此后，多语音单元融合装置332融合所述转换的语音单元，并且所述融合语音单元编辑和连接装置323改变并连接所述音素以形成合成语音波形。

根据所述变型例，因为对语音合成加入了语音转换处理，语音合成的计算量增加。然而，由于能够根据存储的语音转换规则转换所述合成语音的话音质量，在利用所述转换目标说话人的话音质量生成合成语音时，不再需要所述转换目标说话人的语音单元数据库。

于是，在构造利用不同的说话人的话音质量来合成语音的系统时，能够仅利用所述转换源说话人语音单元数据库以及用于说话人的语音转换规则来实现所述语音合成，从而能够利用少量存储器，而不是所有说话人的语音单元数据库来实现语音合成。

由于已经确认所述多单元选择和融合型的语音合成能够得到比单元选择型更稳定的合成语音，此变型例使得转换目标说话人的语音合成具有高稳定性和自然的话音。

尽管在语音转换之后进行所述语音单元融合处理，可以在生成了所述融合的语音单元之后转换所述融合的语音单元的音调周期波形的话音质量。在这种情况下，如图34所示，在语音转换装置之前设置多语音单元融合装置341；由多语音单元选择装置331选择所述转换源说话人的多个语音单元；由多语音单元融合装置341融合所述选择的语音单元；由语音转换装置342利用语音转换规则14转换所述融合的语音单元；以及由融合语音单元编辑和连接装置323编辑和连接所述转换的融合语音单元，由此给出合成语音。

(11)第四变型例

尽管所述实施例对所述单元选择型的语音合成和所述多单元选择和融合型的语音合成应用由根据所述第一实施例的语音转换规则制定装置所制定的语音转换规则，本发明不限于此。

例如，本发明可被应用于作为一种单元学习型语音合成的基于闭环学习的语音合成器(例如，参考日本专利3281281)。

在所述单元学习型语音合成中，以如下方式合成语音，即，从多个语音单元或学习数据中学习和存储代表性语音单元，并且根据输入的音素序列和韵律信息编辑和连接所学习到的语音单元。在这种情况下，能够以如下方式应用语音转换，即，对从其学习代表性语音单元的所述语音单元或学习数据进行转换。而且，可以对所学习的语音单元应用语音转换，以形成具有所述转换目标说话人的话音质量的代表性语音单元。

(12)第五变型例

根据本实施例，可以应用由属性转换规则制定装置194制定的属性转换规则。

在这种情况下，对转换源说话人语音单元数据库中的属性信息应用所述属性转换规则，以使得所述属性信息接近转换目标说话人的属性，由此能够对语音合成使用与转换目标说话人的属性相接近的属性信息。

此外，可以通过根据属性转换规则制定装置194的属性转换对由韵律处理装置273生成的韵律信息进行转换。因而，韵律处理装置273能够利用转换源说话人的特征来生成韵律，并且能够将所生成的韵律信息转换为转换目标说话人的韵律，由此能够利用转换目标说话人的韵律来实现语音合成。于是，不仅能够转换话音质量，还能够转换韵律。

(13)第六变型例

根据第一到第三实施例，基于音调同步分析来分析并合成语音单元。然而，本发明不限于此。例如，由于在无声片段中观察不到音调，则不能进行音调同步处理。在这样的片段中，可以利用固定帧速率通过分析合成来进行语音转换。

所述固定帧速率分析合成不仅适用于所述无声片段。可以不对所述无声语音单元进行转换，但可以原样使用所述转换源说话人的语音单元。

变型例

本领域技术人员可以理解到，本发明不限于所述第一到第三实施例，无需脱离本发明的精神和范围，通过修改所述组成部分即可得到各种变型。

并且很明显，结合所述实施例中公开的多个组成部分可以实现各种改变和变型。例如，可以从所述实施例的所有组成部分中去除任意几个组成部分。

Claims

1.一种语音处理装置，包括：

语音存储器，其被配置为存储转换源说话人的多个语音单元以及对应于所述语音单元的源说话人属性信息；

语音单元提取器，其被配置为将转换目标说话人的语音分割为任意类型的语音单元，以形成目标说话人语音单元；

属性信息生成器，其被配置为从所述转换目标说话人的语音或所述语音的语言信息生成对应于所述目标说话人语音单元的目标说话人属性信息；

语音单元选择器，其被配置为利用代价函数计算所述目标说话人属性信息和所述源说话人属性信息的代价，并根据所述代价从所述语音存储器中选择一个或多个语音单元，以形成源说话人语音单元；以及

语音转换规则生成器，其被配置为基于所述目标说话人语音单元和所述一个或多个源说话人语音单元生成用于将所述一个或多个源说话人语音单元转换为所述目标说话人语音单元的语音转换函数。

2.根据权利要求1所述的装置，其中，

所述语音单元选择器从所述语音存储器中选择对应于所述代价函数的代价最小的源说话人属性信息的语音单元作为所述源说话人语音单元。

3.根据权利要求1所述的装置，其中，

所述属性信息是基频信息、持续时间信息、音素环境信息以及频谱信息中的至少一种。

4.根据权利要求1所述的装置，其中，

所述属性信息生成器包括：

属性转换规则生成器，其被配置为生成属性转换函数，该函数用于将所述转换目标说话人的属性信息转换为所述转换源说话人的属性信息；

属性信息提取器，其被配置为从所述转换目标说话人的语音或者所述转换目标说话人的语音的语言信息中提取对应于所述目标说话人语音单元的属性信息；以及

属性信息转换器，其被配置为利用所述属性转换函数来转换对应于所述目标说话人语音单元的所述属性信息，以使用所述转换的属性信息作为对应于所述目标说话人语音单元的目标说话人属性信息。

5.根据权利要求4所述的装置，其中，

所述属性转换规则生成器包括：

分析器，其被配置为求得所述转换目标说话人的基频信息的平均值以及所述转换源说话人的基频信息的平均值；以及

差生成器，其被配置为确定在所述转换目标说话人的基频信息的平均值以及所述转换源说话人的基频信息的平均值之间的差，并且生成将所述差加到所述转换源说话人的基频信息的属性转换函数。

6.根据权利要求1所述的装置，其中，

所述语音转换规则生成器包括：

语音参数提取器，其被配置为提取表示所述目标说话人语音单元的话音质量的目标说话人语音参数以及表示所述源说话人语音单元的话音质量的源说话人语音参数；以及

回归分析器，其被配置为从所述源说话人语音参数获得用于估计所述目标说话人语音参数的回归矩阵，

所述回归矩阵是所述语音转换函数。

7.根据权利要求1所述的装置，进一步包括：

语音转换器，其被配置为利用所述语音转换函数对所述转换源说话人的语音的话音质量进行转换。

8.根据权利要求1所述的装置，进一步包括：

语音单元存储器，其被配置为存储通过利用所述语音转换函数对所述转换源说话人语音单元进行转换所获得的转换目标说话人语音单元；

语音单元选择器，其被配置为从所述语音单元存储器中选择语音单元以获得代表性语音单元；以及

语音波形生成器，其被配置为通过连接所述代表性语音单元来生成语音波形。

9.根据权利要求1所述的装置，进一步包括：

语音单元选择器，其被配置为从所述语音单元存储器中选择语音单元，以获得代表性转换源说话人语音单元；

语音转换器，其被配置为利用所述语音转换函数对所述代表性转换源说话人语音单元进行转换，以获得代表性转换目标说话人语音单元；以及

语音波形生成器，其被配置为连接所述代表性转换目标说话人语音单元以生成语音波形。

10.根据权利要求1所述的装置，进一步包括：

多语音单元选择器，其被配置为从所述语音单元存储器中为每个合成单元选择多个语音单元；

融合单元，其被配置为融合所述选择的多个语音单元，以形成融合的语音单元；以及

语音波形生成器，其被配置为连接所述融合的语音单元，以生成语音波形。

11.根据权利要求1所述的装置，进一步包括：

语音转换器，其被配置为利用所述语音转换函数对所述选择的多个语音单元进行转换，以获得多个转换目标说话人语音单元；

融合单元，其被配置为融合所述选择的多个转换目标说话人语音单元，以形成融合的语音单元；以及

12.一种处理语音的方法，所述方法包括以下步骤：

存储转换源说话人的多个语音单元以及对应于所述语音单元的源说话人属性信息；

将转换目标说话人的语音分割为任意类型的语音单元，以形成目标说话人语音单元；

从关于所述转换目标说话人的语音的信息或所述语音的语言信息生成对应于所述目标说话人语音单元的目标说话人属性信息；

利用代价函数计算所述目标说话人属性信息和所述源说话人属性信息的代价；

根据所述代价从所述转换源说话人语音单元中选择一个或多个语音单元，以形成源说话人语音单元；以及

基于所述目标说话人语音单元和所述一个或多个源说话人语音单元生成用于将所述一个或多个源说话人语音单元转换为所述目标说话人语音单元的语音转换函数。