CN1954361B

CN1954361B - 声音合成装置和方法

Info

Publication number: CN1954361B
Application number: CN2005800150686A
Authority: CN
Inventors: 广濑良文
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2004-05-11
Filing date: 2005-04-01
Publication date: 2010-11-03
Anticipated expiration: 2025-04-01
Also published as: US20070233489A1; CN1954361A; JP3913770B2; WO2005109399A1; JPWO2005109399A1; US7912719B2

Abstract

在生成合成音时不会显著降低声音质量的声音合成装置，具有：目标声音单元信息生成部(102)、声音单元数据库(103)、声音单元选择部(104)、音质指定部(105)、音质变换部(106)、失真判断部(108)和目标声音单元信息修正部(109)，由音质变换部(106)变换后的声音单元被失真判断部(108)判断为失真的情况下，目标声音单元信息修正部(109)将目标声音单元信息生成部(102)生成的声音单元信息修正为变换后的音质的声音单元信息，由声音单元选择部(104)来再选择声音单元。这样能够生成由音质指定部(105)指定的音质的合成音，而不会使合成音的声音质量降低。

Description

声音合成装置和方法

技术领域

本发明涉及声音合成装置，尤其涉及能够再现编辑者指定的音质，而且在使音质连续变化时音质连续变化的声音合成装置。

背景技术

过去，作为能够合成声音，改变合成音的音质的声音合成系统，提出了对音质进行变换，以符合对声音单元选择部所选择的声音单元输入的音质的系统(例如，参见专利文献1)。

图9是专利文献1记载的过去的音质可变声音合成装置的构成图。过去的音质可变声音合成装置具有：文本输入部1、音质变换参数输入部2、声音单元存储部3、声音单元选择部4、音质变换部5和波形合成部6。

文本输入部1是从外部接收表示希望进行声音合成的语言内容的音素信息、和表示重音(アクセント)或说话总体的抑扬的韵律信息，输出到声音单元选择部4内。

音质变换参数输入部2是接受变换成编辑者希望的音质所必须的变换参数的输入的处理部。声音单元存储部3是存储对各种声音的声音单元的存储部。声音单元选择部4是从声音单元选择部3中选择出与文本输入部1输出的声音单元信息和韵律信息最适合的声音单元的处理部。

音质变换部5是利用由音质变换参数输入部2输入的变换参数，把由声音单元选择部4选择的声音单元变换成编辑者希望的音质的处理部。波形合成部6是利用由音质变换部5进行了音质变换的声音单元来合成声音波形的处理部。

这样，在过去的音质可变声音合成装置中，音质变换部5利用由音质变换参数输入部2输入的声音变换参数，来对声音单元选择部4所选择的声音单元进行变换，由此可获得编辑者所希望的音质的合成音。

此外，还有这样一种方法，即对每种音质准备多个声音单元数据库，通过选择使用对被输入的音质最适合的声音单元数据库，来进行音质可变的声音合成。

专利文献1：日本特开2003-66982号公报(第1～10页，图1)

然而，在上述音质可变声音合成装置中，有时编辑者所希望的音质与声音单元存储部3内存储的标准音质(中性音质)的声音单元的音质有很大不同。这样，由声音单元存储部3选择的声音单元的音质与音质变换参数输入部2所指定的音质有很大不同的情况下，必须使音质变换部5所选择的声音单元产生很大的变化。因此，存在的问题是，利用波形合成部6来生成合成音时，声音质量显著降低。

另一方面，在后一种方法中，音质变换通过切换声音单元数据库来进行。但是，声音单元数据库的个数是有限的。所以，音质变换形成离散状态，不能够连续地改变音质。

发明内容

本发明为了解决上述问题而提出。其第1目的是提供当生成合成音时，声音质量不会显著降低的声音合成装置。

并且，第2目的是提供能够使合成音的音质连续变化的声音合成装置。

为了解决上述现有技术的问题，根据本发明的声音合成装置，合成具有所需音质的声音，其特征在于：具有：声音单元存储机构，用于存储多个音质的声音单元；目标声音单元信息生成机构，用于根据包含音素信息的语言信息，生成与该语言信息相对应的声音单元信息；声音单元选择机构，用于从上述声音单元存储机构中选择与上述声音单元信息相对应的声音单元；音质指定机构，用于接受合成音的音质的指定；音质变换机构，用于将上述声音单元选择机构选择出的声音单元变换成具有上述音质指定机构接受的音质的声音单元；失真判断机构，用于判断由上述音质变换机构变换的变换后的声音单元的失真；以及目标声音单元信息修正机构，用于在由上述失真判断机构判断为变换后的声音单元失真的情况下，将由上述目标声音单元信息生成机构生成的声音单元信息修正为与由上述音质变换机构变换的声音单元相对应的声音单元信息，上述声音单元选择机构在利用上述目标声音单元信息修正机构对声音单元信息进行了修正的情况下，从上述声音单元存储机构中选择与修正后的声音单元信息相对应的声音单元。

在失真判断机构判断出音质变换的声音单元的失真，并且失真较大的情况下，目标声音单元信息修正机构对声音单元信息进行修正，声音单元选择机构进一步选择与修正后的声音单元信息相对应的声音单元。因此，声音变换机构能够根据接近音质指定机构所指定的音质的声音单元，来进行音质变换。所以，能够提供在生成合成音时声音质量不会显著下降的声音合成装置。并且，由声音单元存储机构来存储多个音质的声音单元，根据其中的某一个声音单元来进行音质变换。因此，即使编辑者利用音质指定机构来使音质连续地变化，也能够使合成音的音质连续地变化。

优选地，其特征在于：上述音质变换机构还将与上述修正后的声音单元信息相对应的声音单元，变换成具有由上述音质指定机构接受的音质的声音单元。

若采用该结构，则根据再选择后的声音单元，再次进行向具有音质指定机构所接受的音质的声音单元的变换。因此，通过反复进行声音单元的再选择和再变换，可使合成音的音质连续变化。并且，这样，由于使音质连续性变化，所以不会使声音质量变坏，能够使音质大大变化。

优选地，其特征在于：上述目标声音单元信息修正机构还在对由上述目标声音单元信息生成机构生成的声音单元信息进行修正时，将由上述音质变换机构变换后的声音单元的声道特征加到修正后的声音单元信息中。

通过将声道特征新加到修正后的声音单元信息中，声音单元选择机构能够选择出更接近指定的音质的声音单元，能够生成声音质量下降得更少而且接近指定的音质的合成音。

再者，优选地，其特征在于：上述失真判断机构根据相邻的声音单元之间的连接性来判断失真。

根据相邻的声音单元之间的连接性来判断失真。所以，在再现时，能够获得平滑的合成音。

再者，优选地，其特征在于：上述失真判断机构根据从上述声音单元选择机构所选择的声音单元到由上述音质变换机构变换的变换后的声音单元的变形率来判断失真。

根据变换前和变换后的声音单元的变形率来判断失真。所以，根据最接近作为目标的音质的声音单元来进行音质变换。因此，能够生成声音质量下降少的合成音。

再者，优选地，其特征在于：上述声音单元选择机构在由上述目标声音单元信息修正机构修正了声音单元信息的情况下，仅对在上述失真判断机构中检测出失真的范围，从上述声音单元存储机构中选择与修正后的声音单元信息相对应的声音单元。

仅将检测出了失真的范围作为再变换的对象。所以，能够高速进行声音合成。并且，若把不失真的部分也作为变换的对象，则有时会获得与指定的音质不同的合成音，但本结构不会发生这种情况，能够获得高精度的合成音。

再者，优选地，其特征在于：上述声音单元存储机构具有：基本声音单元存储机构，用于存储标准的音质的声音单元；以及音质声音单元存储机构，用于存储和上述标准音质的声音单元不同的多个音质的声音单元，上述声音单元选择机构具有：基本声音单元选择机构，用于从上述基本声音单元存储机构中选择与由上述目标声音单元信息生成机构生成的声音单元信息相对应的声音单元；以及音质声音单元选择机构，用于从上述音质声音单元存储机构中选择与由上述目标声音单元信息修正机构修正的声音单元信息相对应的声音单元。

第1次选择的声音单元总是标准的音质的声音单元。所以，能够高速进行第1次声音单元的选择。并且，即使在生成了各种音质的合成音的情况下，仍然是收敛速度快。因此，能够高速获得合成音。再者，一定以标准的声音单元为出发点，进行其后的音质变换和声音单元选择。所以，不会合成编辑者不希望的声音，能够生成高精度的合成音。

而且，本发明不仅能够实现为具有这样的特征机构的声音合成装置，也能够实现为以声音合成装置所包含的特征机构为步骤的声音合成方法，或者实现为使计算机发挥声音合成装置中所包含的机构的功能的程序。并且，不言而喻，这样的程序能够通过CD-ROM(光盘只读存储器)等记录媒体或互联网等通信网络而进行流通。

发明的效果

若采用本发明的声音合成装置，则根据音质变换时的声音单元失真，从声音单元数据库中再选择声音单元，由此不会使合成音的质量下降，而能够变换成编辑者希望的连续且大范围的音质。

附图说明

图1是本发明第1实施方式的音质可变声音合成装置的构成图。

图2是声音单元选择部的一般构成图。

图3是表示音质指定部的一例的图。

图4是失真判断部的范围指定的说明图。

图5是音质可变声音合成装置所执行的处理的流程图。

图6是音质空间的音质变换过程的说明图。

图7是本发明第2实施方式的音质可变声音合成装置的构成图。

图8是声音单元再选择时的说明图。

图9是过去的音质可变声音合成装置的构成图。

具体实施方式

以下参照附图，详细说明本发明的实施方式。

[第1实施方式]

音质可变声音合成装置100是用于合成具有编辑者希望的音质的声音的装置，具有：文本解析部101、目标声音单元信息生成部102、声音单元数据库103、声音单元选择部104，音质指定部105、音质变换部106、波形生成部107、失真判断部108、和目标声音单元信息修正部109。

文本解析部101从语言上对从外部输入的文本进行解析，输出词素信息和音素信息。目标声音单元信息生成部102根据由文本解析部101解析的包括音素信息的语言信息，来生成音韵环境、基本频率、持续时间长度、强度(power)等声音单元信息。声音单元数据库103存储按音素等单位来对预先收录的声音进行标注(labeling)的声音单元。

声音单元选择部104根据由目标声音单元信息生成部102生成的目标声音单元信息，从声音单元数据库103中选择最佳声音单元。音质指定部105接受对编辑者所希望的合成音的音质的指定。音质变换部106对由声音单元选择部104选择的声音单元进行变换，使其符合音质指定部105指定的合成音的音质。

波形生成部107根据由音质变换部106变换后的声音单元系列生成声音波形，输出合成音。失真判断部108对经过音质变换部106进行了音质变换的声音单元的失真进行判断。

目标声音单元信息修正部109在由失真判断部108判断出的声音单元失真超过了规定阈值的情况下，把声音单元选择部104选择声音单元时所使用的目标声音单元信息，修正成为由音质变换部106进行变换后的声音单元的信息。

以下说明各部的动作。

<目标声音单元信息生成部102>

目标声音单元信息生成部102根据从文本解析部101发送的语言信息，来预测被输入的文本的韵律信息。在此，韵律信息至少包括：每个音素单位的持续时间长度、基本频率、强度信息。并且，在音素单位以外也还可以按每个韵素(mora)单位或音节单位预测持续时间长度、基本频率、强度信息。目标声音单元信息生成部102也可以进行任何方式的预测。例如可以利用基于数量化I类的方法来进行预测。

<声音单元数据库103>

声音单元数据库103存储预先收录的声音的声音单元。存储的形式既可以是存储波形本身的方法，也可以是划分成音源波信息和声道信息分别进行存储的方法。并且，存储的声音单元不仅限于波形，也可以存储能够再合成的分析参数。

在声音单元数据库103中，不仅声音单元，还按每个声音单元单位存储选择存储的声音单元时所使用的特征。作为声音单元单位有音素或音节、韵素、词素、单词等。但并无特别限制。

选择声音单元时所使用的特征，作为基本特征是存储声音单元的前后的音韵环境、基本频率、持续时间长度、强度等信息。

并且，作为详细特征有：作为声音单元的频谱特征的共振峰的图形或对数倒频谱图形、基本频率的时间性图形、强度的时间性图形等。

<声音单元选择部104>

声音单元选择部104根据目标声音单元信息生成部102生成的信息，从声音单元数据库103中选择最佳声音单元系列。对声音单元选择部104的具体构成没有特别规定，但其一例的构成示于图2。

对在图1中己出现过的部分，其说明从略。声音单元选择部104具有：声音单元候补抽出部301、检索部302和成本计算部303。

声音单元候补抽出部301是一种处理部，它用于从目标声音单元信息生成部102生成的声音单元信息中抽出一种候补，该候补是根据与音韵有关的项目(例如音素等)有可能从声音数据库103中选择出来的候补。检索部302是一种处理部，它用于从声音单元候补抽出部301抽出的声音单元候补中决定由成本计算部303计算出的使成本达到最低的声音单元系列。

成本计算部303具有：目标成本计算部304，用于计算声音单元候补和目标声音单元信息生成部102生成的声音单元信息之间的距离；以及连接成本计算部305，用于评价对2个声音单元候补进行时间性连接时的连接性。

该目标成本和连接成本之和所表示的成本函数达到最小的声音单元系列由检索部302进行检索，这样，能够获得与作为目标的声音单元信息相类似的、而且连接平滑的合成音。

<音质指定部105>

音质指定部105接受编辑者所希望的合成音的音质的指定，对具体的指定方法并无特别限制，其一例于示图3。

例如，图3所示，利用GUI(图形用户接口)来构成音质指定部105。作为合成音的音质对能够更改的基本轴(例如年龄、性别、感情等)设置滑动条，利用滑动条的位置来指定各基本轴的控制值。对基本轴的数量没有特别限制。

<音质变换部106>

音质变换部106对声音单元选择部104所选择的声音单元系列进行变换，以便符合音质指定部105所指定的音质。对变换的方法没有特别限制。

在通过LPC(Linear Predictive Coefficient：线性预测系数)分析的声音合成方法的情况下，有一种方法是利用音质变换矢量来移动LPC系数，由此获得不同音质的合成音。例如利用音质A的LPC系数和音质B的LPC系数之间的差分，来生成移动矢量，利用该移动矢量来变换LPC系数，实现音质变换。

或者，也可以是通过使共振峰频率伸缩，来进行音质变换的方法。

<波形生成部107>

波形生成部107对通过音质变换部106进行变换后的声音单元系列进行合成，并合成声音波形。对合成方法没有特别限制。例如在声音单元数据库103所存储的声音单元是声音波形的情况下，可以用波形连接法来进行合成。或者在声音单元数据库所存储的信息是音源波信息和声道信息的情况下，作为源滤波模式进行再合成也是可以的。

<失真判断部108>

失真判断部108对由声音单元检索部104选择的声音单元和由音质变换部106进行了音质变换后的声音单元进行比较，计算出音质变换部106的变形所造成的声音单元的失真。判断失真时的范围可以是音素、音节、韵素、词素、单词、文节、重音句、呼气段落、全文中的任意一个。

对失真的计算方法并无特别限制。但大致上可分为利用声音单元的连接边界处的失真进行计算的方法、以及利用声音单元的变形率来计算的方法。其具体例表示如下。

1、利用连接边界的连续性的判断

在声音单元的连接边界附近，由于音质变换部106的变形而使失真增大。这种现象在由音质变换部106按每个声音单元独立地进行音质变换的情况下，表现得比较显著。在由于该失真由波形生成部107合成了合成音的情况下，在声音单元连接点附近音质变坏。因此，判断出在该声音单元连接点上的失真。判断方法，例如有以下方法。

1.1、对数倒频谱距离

利用表示声音单元连接点的波谱的形状的对数倒频谱距离来判断失真。也就是说，计算出连接点的前方声音单元的最终帧和连接点的后方声音单元的开头帧之间的对数倒频谱距离。

1.2、共振峰距离

利用声音单元连接点的共振峰的连续性来判断失真，也就是说，根据连接点的前方声音单元的最终帧和连接点的后方声音单元的开头帧之间的各共振峰频率的差分，来计算距离。

1.3、音高(pitch)的连续性

利用声音单元连接点的基本频率的连续性来判断失真，也就是说，计算出连接点的前方声音单元的最终帧的基本频率和连接点的后方声音单元的开头帧的基本频率之间的差分。

1.4、强度的连续性

利用声音单元的连接点的强度的连续性来判断失真。也就是说，计算出连接点的前方声音单元的最终帧的强度和连接点的后方声音单元的开头帧的强度之间的差分。

2、利用声音单元变形率的判断

由于音质变换部106变形而使声音单元选择部104选择的声音单元产生变形时，由音质指定部105指定的音质和选择时大不相同的情况下，音质变化量增大，在由波形生成部107进行合成时，声音的质量，尤其是清晰度降低。因此，对声音单元选择部104选择的声音单元和由音质变换部106进行了变换的声音单元进行比较，根据其变化量，来判断失真。例如，能够用以下方法进行判断。

2.1、对数倒频谱距离

利用音质变换前的声音单元和音质变换后的声音单元之间的对数倒频谱距离来判断失真。

2.2、共振峰距离

利用音质变换前的声音单元和音质变换后的声音单元之间的基于共振峰频率的差分的距离来判断失真。

2.3、基本频率的变形率

利用音质变换前的声音单元和音质变换后的声音单元之间的基本频率平均值的差分来判断失真。或者利用基本频率的时间图形的差分来判断失真。

2.4、强度的变形率

利用音质变换前的声音单元和音质变换后的声音单元之间的强度的平均值的差分来判断失真。或者利用强度的时间图形的差分来判断失真。

在利用以上任一方法计算出的失真大于规定的阈值的情况下，失真判断部108指示声音单元选择部104和目标声音单元信息修正部109进行声音单元的再选择。

而且，也可以是通过对上述方法进行组合而计算出失真，在该失真大于规定阈值的情况下，失真判断部108指示声音单元选择部104和目标声音单元信息修正部109进行声音单元信息的再选择。

<目标声音单元信息修正部109>

在利用失真判断部108判断出声音单元失真的情况下，目标声音单元信息修正部109为了修正由失真判断部108判断为失真的声音单元，对目标声音单元信息生成部102生成的目标声音单元信息进行修正。

[0098]以下说明例如对图4的“あらゆる現実を全て自分の方へねじ曲げたのだ”这一文本的失真判断部108的动作。在图4所示的曲线中，在横轴方向上表示音素系列。声音单元系列中的“’”表示重音位置。这里，“/”表示重音句边界，“，”表示停顿。纵轴表示在失真判断部108中计算的声音单元的失真程度。

失真程度的计算按每个音素分别进行。并且，失真判断以音素、音节、韵素、词素、单词、文节、重音句、短语、呼气段落和全文中的任意一个作为单位来进行。在失真判断的范围大于音素的情况下，利用范围内所包括的最大失真度或者范围内所包括的失真度的平均来对该范围的失真进行判断。在图4的例中，例如把“自分の方へ(jibuNnoho-e)”这一重音句作为判断的范围，范围内所包括的音素的失真度的最大值超过规定阈值，所以，把该重音句判断为失真。在此情况下，由目标声音单元信息修正部109对该范围的目标声音单元信息进行修正。

具体来说，根据由音质变换部106进行变换后的声音单元，将该声音单元的基本频率、持续时间长度、强度作为新的声音单元信息使用。

并且，也可以是把作为变换后的声音单元的声道信息的共振峰图形或对数倒频谱图形新追加为声音单元信息，以便能够重现由音质变换部106变换的音质。

再者，也可以是，不仅是变换后的声道信息，而且把作为音源波信息的基本频率的时间图形或强度的时间图形追加到声音单元信息中。

这样，对于在第1次声音单元选择中未能设定的与音质有关的声音单元信息进行设定，由此即可在再选择时指定出与当前设定的音质接近的声音单元。

以下使用输入“明日の天気は晴れです”作为输入文本时的动作例来说明实际动作时的情况。由文本解析部101进行语言解析。其结果，例如输出“ashitano/teNkiwa/haredesu.”这样的音素系列。(斜线符号表示重音句的划分。)

目标声音单元信息生成部102根据文本解析部101的解析结果，来决定各音素的音韵环境、基本频率、持续时间、强度等成为目标的声音单元信息。例如，作为关于句子开头的“a”的声音单元信息，输出音韵环境为“-a+sh”(“-”表示前面的音素是句子开头，“+sh“表示后面的音素是sh。)，基本频率是120Hz，持续时间是60ms，强度是200这样的信息。

声音单元选择部104从声音单元数据库103中选择出与目标声音单元信息生成部102输出的目标声音单元信息最适合的声音单元。具体来说，由声音单元候补抽出部301从声音数据库103中抽出与声音单元信息的音韵环境相适合的声音单元作为声音单元选择的候补。检索部302利用维特比(Viterbi)算法等从声音单元候补抽出部301所抽出的声音单元候补中决定由成本计算部303计算的成本值最小的声音单元候补。成本计算部303如上所述由目标成本计算部304和连接成本计算部305构成。目标成本计算部304，例如对上述声音单元信息的“a”和候补的声音单元信息进行比较，计算出一致度。例如，在候补声音单元的声音单元信息为，音韵信息是“＾-a+k”，基本频率是110Hz，持续时间是50ms，强度是200的情况下，对各声音单元信息，计算其一致度，对各个一致度加以综合后的数值作为目标成本值输出。连接成本计算部305对相邻的2个声音单元——在上述例中为“a”和“sh”2个声音单元进行连接时的连接性进行评价，作为连接成本值进行输出。作为评价方法例如可以用“a”的终端部和“sh”的始端部的对数倒频谱距离进行评价。

编辑者利用图3所示的音质指定部105的GUI，来进行所需音质的指定。在此，指定了年龄稍接近老人，性别接近女性，性格不够开朗，情绪基本上一般的音质。

音质变换部106把声音单元的音质变换成用音质指定部105指定的音质。

这时，初始选择时由声音单元选择部104选择的声音单元的音质、和由音质指定部105指定的音质有很大不同的情况下，利用音质变换部106进行了修正的声音单元的变化量增大，即使音质是希望的音质，也会使合成音的质量，例如清晰度等显著恶化。因此，在失真判断部108例如根据“a”和“sh”的连接性、从声音单元数据库中选择的声音单元“a”以及经过音质变换部106进行音质变换后的声音单元“a”的声音单元变形率(例如声音单元间的对数倒频谱距离)，预计合成音的音质下降的情况下，从声音单元数据库103中再选择对音质指定部105指定的当前音质最适合的声音单元。而且，失真的判断方法并不限于该方法。

在再选择时，由目标声音单元信息修正部109进行更改，使修正后的声音单元“a”的声音单元信息为例如基本频率为110Hz，持续时间为85ms，强度为300。并且，新增加表示音质变换后的声音单元“a”的声道特征的对数倒频谱系数或共振峰轨迹。这样一来，能够在选择声音单元时考虑不能够根据输入文本来推定的音质的信息。

声音单元选择部104根据由目标声音单元信息修正部109修正后的声音单元信息从声音单元数据库103中再选择最佳声音单元系列。

这样，通过仅对己检测出失真的声音单元再选择，能够使再选择时的声音单元的音质接近于选择前的声音单元的音质。所以，在利用图3所示的GUI来阶段性地编辑所需音质时，能够选择出与上述指定的音质的合成音的音质接近的音质的声音单元。所以能够进行使音质连续变化的编辑，能够编辑出符合编辑者的直感的合成音。

这时，目标成本计算部304对初始选择时未考虑的、声道特征的一致度也加以考虑，来计算目标成本。具体来说，计算出目标声音单元“a”和声音单元候补“a”之间的对数倒频谱距离或共振峰距离。这样，能够选择出与当前音质类似而且变形量小音质好的声音单元。

如以上那样，通过再选择音质变换部106中的变化量小的声音单元，即使在利用音质指定部105由编辑者逐次改变合成音的音质的情况下，也总是能根据最佳声音单元由音质变换部106进行音质变换。因此，能够进行声音质量高而且音质变化幅度大的音质可变声音合成。

以下说明在编辑者合成所需音质的声音时，在音质可变声音合成装置100中进行的处理。图5是音质可变声音合成装置100所执行的处理的流程图。

文本解析部101对输入的文本进行语言解析(S1)。目标声音单元信息生成部102根据在文本解析部101中解析的语言信息，生成各声音单元的基本频率和持续时间长度这样的声音单元信息(S2)。

声音单元选择部104从声音单元数据库103中选择出与声音单元信息生成处理(S2)中生成的声音单元信息最适合的声音单元系列(S3)。

接着，若由编辑者利用由图3所示的GUI构成的音质指定部105来指定音质，则音质指定部106根据己指定的信息，对在声音单元系列选择处理(S3)中所选择的声音单元系列的音质进行变换(S4)。

失真判断部108对在音质变换处理(S4)中进行了音质变换的声音单元系列是否失真进行判断(S5)。具体来说，利用上述任一方法计算声音单元系列中的失真，如果该失真大于规定阈值，那么判断为声音单元系列失真。

在判断为声音单元系列失真的情况下(在S5中为是)，目标声音单元信息修正部109把由目标声音单元信息生成部102生成的声音单元信息，修正成为与当前的音质相符合的声音单元信息(S6)。然后，由声音单元选择部104以声音单元信息修正处理(S6)中修正过的声音单元信息为目标，从声音单元数据库103中再选择声音单元(S7)。

在判断为无失真的情况下(在S5为否)，或者在再选择了声音单元之后(S7)，由波形生成部107利用被选择的声音单元来合成声音(S8)。

编辑者听取合成声音，判断是否是所需的音质(S9)。在是所需的音质的情况下(在S9为是)，结束处理。在不是所需的音质的情况下(在S9为否)，返回到音质变换处理(S4)。

从音质变换处理(S4)到音质判断处理(S9)反复进行，由此编辑者能够合成所需音质的声音。

以下根据图5所示的流程图，说明编辑对“あらゆる現実を全て自分の方へねじ曲げたのだ”这一文本，希望“男性的开朗音质”的合成音时的动作。

由文本解析部101进行词素解析、读的决定、文节的决定、依存(係り受け)分析等(S1)。其结果，获得“arayu’ru/genjitsuo，su’bete/jibuNno/ho’-e，nejimageta’noda”这样的声音单元系列。

目标声音单元信息生成部102对各音素“a”、“r”、“a”、“y”等分别生成音韵环境及基本频率、持续时间长度、强度等各音素的特征(S2)。

声音单元选择部104根据在声音单元信息生成处理(S2)中生成的声音单元信息，从声音单元数据库103中选择出最佳声音单元系列(S3)。

编辑者利用图3所示的音质指定部105，来指定目标音质。例如要使性别轴向男性侧移动，使性格轴向开朗侧移动。于是，音质变换部106根据音质指定部105来变换声音单元系列的音质(S4)。

失真判断部108对在音质变换处理(S4)中进行了音质变换的声音单元系列是否失真进行判断(S5)。例如，在失真判断部108中在如图4所示检测出了失真的情况下(在S5为是)，向声音单元信息修正处理(S6)转移。或者，如图4所示，在失真未超过规定阈值的情况下(在S5为否)，向波形生成处理(S8)转移。

在声音单元信息修正处理(S6)中，目标声音单元信息修正部109抽出在音质变换处理(S4)中进行了音质变换的声音单元的声音单元信息，修正声音单元信息。在图4的例中，作为失真超过阈值的重音句的“自分の方へ”被指定为再选择的范围，对声音单元信息进行修正。

声音单元选择部104从声音单元数据库103中再选择最符合经过声音单元信息修正处理(S6)进行了修正的目标声音单元信息的声音单元系列(S7)。然后，波形生成部107根据音质变换后的声音单元系列生成声音波形。

编辑者听取已生成的声音波形，对是否达到了目标音质进行判断(S9)。在未达到目标音质的情况下(在S9为否)，例如希望产生“更男性化的声音”的情况下，转移到音质变换处理(S4)，编辑者使图3所示的音质指定部105的性别轴进一步向男性侧偏移。

从以上的音质变换处理(S4)到音质判断处理(S9)反复进行，这样，不会使合成音的质量下降，而且，能够以连续的音质变化方式来慢慢变换编辑者所希望的“男性的开朗音质”的合成音。

图6是表示本发明的效果的图像。图6表示了音质空间。音质701表示初始选择时所选择的声音单元系列的音质。范围702表示根据与音质701相对应的声音单元，不通过失真判断部108检测失真就能够进行音质变换的音质范围。假定由编辑者用音质指定部105指定了音质703的情况下，利用失真判断部108来检测失真。因此，声音单元选择部104从声音单元数据库103中再选择接近音质703的声音单元系列。这样，能够选择出具有接近音质703的音质704的声音单元系列。并且，从具有音质704的声音单元系列不用失真判断部108检测失真就能够变换音质的范围是范围705的内部。所以，进一步根据音质704的声音单元系列来变换音质，能够使音质变换达到音质706，该音质706是过去不能够实现的无失真音质变换的音质。这样，通过分阶段指定由音质指定部105指定的音质，能够合成编辑者所希望的音质的声音。

若采用该结构，则在由失真判断部108检测出规定的阈值以上的失真的情况下，利用目标声音单元信息修正部109来修正声音单元信息，并利用声音单元选择部104来再选择声音单元，由此，能够从声音单元数据库103再选择出与音质指定部105所指定的音质相符合的声音单元。所以，例如，在图6所示的音质空间中，在编辑者希望合成音质703的声音的情况下，不是进行从初始选择的音质701的声音单元系列向音质703音质变换，而是进行从最接近音质703的音质704的声音单元系列向音质703音质变换。这样，因为总是根据最佳的声音单元系列进行音质变换，所以，能够进行无失真且声音质量良好的声音合成。

并且，在编辑者用音质指定部105重新指定所需的音质的情况下，在图5的流程图中，不是从声音单元的初始选择处理(S3)重新开始处理，而是从音质变换处理(S4)重新开始处理。所以，例如，在图6的音质空间内，在编辑者把所需的音质从音质703重新指定为音质706的情况下，不是再次从音质701的声音单元系列进行音质变换，而是根据向音质703进行音质变换时所使用的音质704的声音单元系列，进行音质变换。假定要从声音单元的初始选择处理(S3)重新开始处理，那么编辑者慢慢重新指定所需的音质的情况下，尽管重新指定的音质在音质空间上与重新指定音质前的音质接近，但有时仍然进行从完全不同的音质的声音单元系列向重新指定的音质的音质变换。所以，有时不太容易获得编辑者所希望的音质的声音。但是，若采用本实施方式的方法，则即使在重新指定音质的情况下，如果音质变换所使用的声音单元系列，在音质变换后的声音单元系列没有产生失真的情况下，和此前的音质变换所使用的声音单元系列相同。所以，能够使合成音的音质连续地变化。并且，这样，因为使音质连续地变化，所以不会使声音质量劣化，而能够使音质大大变化。

[第2实施方式]

图7是本发明第2实施方式的音质可变声音合成装置的构成图。在图7中，对于和图1相同的结构要素，使用相同的符号，其说明从略。

图7所示的音质可变声音合成装置200不同于图1所示的音质可变声音合成装置100，其中采用了基本声音单元数据库201和音质声音单元数据库202来代替声音单元数据库103。

声音单元数据库201是一种存储部，其存储的声音单元用于合成在音质指定部105未指定任何音质的情况下的中性音质。音质声音单元数据库202构成为用于存储能够合成由音质指定部105指定音质的、具有丰富音质变化的声音单元，这一点不同于第1实施方式。

在本实施方式中，对输入的文本的最初的声音单元的选择是，根据目标声音单元信息生成部102生成的声音单元信息，由声音单元选择部104从基本声音单元数据库201中选择最佳声音单元。

由音质变换部106把声音单元的音质变换成音质指定部105所指定的音质，由此，由失真判断部108检测失真，由目标声音单元信息修正部109修正声音单元信息，在由声音单元选择部104再选择声音单元的情况下，从声音单元数据库202中再选择最适合修正后的声音单元信息的声音单元系列。

若采用该结构，则在生成由音质指定部105指定音质以前的中性音质的合成音时，声音单元选择部104只是从仅由中性音质的声音单元构成的基本声音单元数据库中选择声音单元，所以，能够缩短声音单元检索所需的时间，而且能够生成精度高的中性音质的合成音。

以上根据实施方式来说明了根据本发明的音质可变声音合成装置，但本发明并不仅限于该实施方式。

例如，图8所示，也可以在图7所示的音质可变声音合成装置200内设置声音单元保存部801，构成音质可变声音合成装置800。声音单元保存部801用于保存由声音单元选择部104选择了的声音单元系列的识别符。根据利用目标声音单元信息修正部109进行了修正的声音单元信息，由声音单元选择部104从声音单元数据库103中进行再选择时，仅对由失真判断部108判断为声音单元失真的范围进行再选择。也就是说，也可以是声音单元选择部104构成为对于被判断为未失真的范围的声音单元，使用这样一种声音单元，其与利用声音单元保存部801所保存的识别符在上次声音单元选择时所选择的声音单元相同。

而且，声音单元保存部801也可以不是保存识别符，而是保存声音单元本身。

并且，再选择的范围也可以是音素、音节、词素、单词、文节、重音句、呼气段落、全文中的任意一个。

产业上可利用性

涉及本发明的音质可变声音合成装置能够用作具有在大幅度改变合成音的音质的情况下，仍能够不降低合成音的声音质量地进行音质变换的功能，并且生成娱乐或声音对话系统的应答声音的声音合成装置等。

Claims

1.一种声音合成装置，合成具有所需音质的声音，其特征在于：

具有：

声音单元存储机构，用于存储多个音质的声音单元；

目标声音单元信息生成机构，用于根据包含音素信息的语言信息，生成与该语言信息相对应的声音单元信息；

声音单元选择机构，用于从上述声音单元存储机构中选择与上述声音单元信息相对应的声音单元；

音质指定机构，用于接受合成音的音质的指定；

音质变换机构，用于将上述声音单元选择机构选择出的声音单元变换成具有上述音质指定机构接受的音质的声音单元；

失真判断机构，用于计算由上述音质变换机构变换的变换后的声音单元和该变换之前的声音单元之间的失真，并判断该失真是否大于规定的阈值；以及

目标声音单元信息修正机构，用于在由上述失真判断机构判断为上述失真大于上述规定的阈值的情况下，将由上述目标声音单元信息生成机构生成的声音单元信息修正为与由上述音质变换机构变换的变换后的声音单元相对应的声音单元信息，

上述声音单元选择机构在利用上述目标声音单元信息修正机构对声音单元信息进行了修正的情况下，从上述声音单元存储机构中选择与修正后的声音单元信息相对应的声音单元。

2.如权利要求1所述的声音合成装置，其特征在于：

上述音质变换机构还将与上述修正后的声音单元信息相对应的声音单元，变换成具有由上述音质指定机构接受的音质的声音单元。

3.如权利要求1所述的声音合成装置，其特征在于：

上述目标声音单元信息修正机构还在对由上述目标声音单元信息生成机构生成的声音单元信息进行修正时，将由上述音质变换机构变换后的声音单元的声道特征加到修正后的声音单元信息中。

4.如权利要求3所述的声音合成装置，其特征在于：

上述声道特征是由上述音质变换机构变换的声音单元的对数倒频谱系数或对数倒频谱系数的时间图形。

5.如权利要求3所述的声音合成装置，其特征在于：

上述声道特征是由上述音质变换机构变换的声音单元的共振峰频率或共振峰频率的时间图形。

6.如权利要求1所述的声音合成装置，其特征在于：

上述失真判断机构根据变换后的相邻的声音单元之间的连接性来计算上述失真。

7.如权利要求6所述的声音合成装置，其特征在于：

上述变换后的相邻的声音单元之间的连接性是变换后的相邻的声音单元间对数倒频谱距离、变换后的相邻的声音单元之间的共振峰频率的距离、变换后的相邻的声音单元之间的基本频率的差分、或者变换后的相邻的声音单元之间的强度的差分。

8.如权利要求1所述的声音合成装置，其特征在于：

上述失真判断机构根据从上述声音单元选择机构所选择的声音单元到由上述音质变换机构变换的变换后的声音单元的变形率来计算上述失真。

9.如权利要求8所述的声音合成装置，其特征在于：

从上述声音单元选择机构所选择的声音单元到由上述音质变换机构变换的变换后的声音单元的变形率，是由上述声音单元选择机构所选择的声音单元和上述变换后的声音单元之间的对数倒频谱距离、由上述声音单元选择机构所选择的声音单元和上述变换后的声音单元之间的共振峰频率的距离、由上述声音单元选择机构所选择的声音单元和上述变换后的声音单元之间的基本频率的差分、或者由上述声音单元选择机构所选择的声音单元和上述变换后的声音单元之间的强度的差分。

10.如权利要求1所述的声音合成装置，其特征在于：

上述失真判断机构以音素、音节、韵素、词素、单词、文节、重音句、短语、呼气段落以及全文中的任意一个为单位，来计算上述失真。

11.如权利要求1所述的声音合成装置，其特征在于：

上述声音单元选择机构在由上述目标声音单元信息修正机构修正了声音单元信息的情况下，仅对在上述失真判断机构中判断为上述失真大于上述规定的阈值的范围，从上述声音单元存储机构中选择与修正后的声音单元信息相对应的声音单元。

12.如权利要求11所述的声音合成装置，其特征在于：

还具有声音单元保存机构，用于保存由上述声音单元选择机构所选择的声音单元的识别符，

上述声音单元选择机构对于在上述失真判断机构中未判断为上述失真大于上述规定的阈值的范围的声音单元，根据上述声音单元保存机构所保存的上述识别符，来选择上述声音单元。

13.如权利要求1所述的声音合成装置，其特征在于：

上述声音单元存储机构具有：

基本声音单元存储机构，用于存储标准的音质的声音单元；以及

音质声音单元存储机构，用于存储和上述标准音质的声音单元不同的多个音质的声音单元，

上述声音单元选择机构具有：

基本声音单元选择机构，用于从上述基本声音单元存储机构中选择与由上述目标声音单元信息生成机构生成的声音单元信息相对应的声音单元；以及

音质声音单元选择机构，用于从上述音质声音单元存储机构中选择与由上述目标声音单元信息修正机构修正的声音单元信息相对应的声音单元。

14.一种声音合成装置的声音合成方法，该声音合成装置具有存储多个音质的声音单元的声音单元存储机构，其特征在于：

该声音合成方法具有以下步骤：

目标声音单元信息生成步骤，用于根据包含音素信息的语言信息，生成与该语言信息相对应的声音单元信息；

声音单元选择步骤，用于从上述声音单元存储机构中选择与上述声音单元信息相对应的声音单元；

音质指定步骤，用于接受合成音的音质的指定；

音质变换步骤，用于将上述声音单元选择步骤选择出的声音单元变换成具有上述音质指定步骤接受的音质的声音单元；

失真判断步骤，用于计算在上述音质变换步骤变换的变换后的声音单元和该变换之前的声音单元之间的失真，并判断该失真是否大于规定的阈值；以及

目标声音单元信息修正步骤，用于在上述失真判断步骤判断为上述失真大于上述规定的阈值的情况下，将在上述目标声音单元信息生成步骤生成的声音单元信息修正为与在上述音质变换步骤变换的变换后的声音单元相对应的声音单元信息，

上述声音单元选择步骤中，在上述目标声音单元信息修正步骤中对声音单元信息进行了修正的情况下，从上述声音单元存储机构中选择出与修正后的声音单元信息相对应的声音单元。