CN1108603C

CN1108603C - 声音合成方法和声音合成装置

Info

Publication number: CN1108603C
Application number: CN00121651A
Authority: CN
Inventors: 笠井�治; 沟口稔幸
Original assignee: Konami Corp; Konami Computer Entertainment Co Ltd
Current assignee: Konami Computer Entertainment Co Ltd; Konami Group Corp
Priority date: 1999-07-23
Filing date: 2000-07-21
Publication date: 2003-05-14
Anticipated expiration: 2020-07-21
Also published as: EP1071074B1; CN1282018A; HK1034130A1; DE60035001D1; TW523733B; EP1071074A2; JP3361291B2; EP1071074A3; JP2001034283A; DE60035001T2; KR100403293B1; KR20010021106A; US6778962B1

Abstract

本发明的声音合成方法是，决定输入文字串的语调类型(s1)，依据该输入文字串与其语调类型，从收录表示单词辞典中的文字串的韵律信息的韵律模式中的代表性韵律模式的韵律辞典中选择韵律模式(s2)，在该选择的韵律模式的文字串与输入文字串不一致时，使该韵律模式的韵律信息变形(s3)，依据变形后的韵律模式从波形辞典选择与输入文字串各文字对应的波形数据(s4)，将该选择的波形数据相互连接(s5)，以此尽可能消除任意输入文字串与辞典中的文字串的差异，合成自然的声音。

Description

声音合成方法和声音合成装置

发明领域

本发明涉及声音合成方法、声音合成装置及记录声音合成程序的可用电脑读取的媒体的改良。

背景技术

已有的从机器中输出各种声音信息(人类交谈的语言)的方法，有预先把构成声音信息的各种语言对应的合成单位的声音数据加以存储，按照任意输入的文字串(text)把所述声音数据加以组合输出的输出方法、即所谓声音合成方法。

这样的声音合成方法中，通常把日常使用的各种单词(文字串)对应之处的发音记号等音韵信息和语调、声调、振幅等韵律信息收录于辞典里。然后，解析输入的文字串，如果相同的文字串在辞典中有收录，则依据该信息将合成单位的声音数据加以组合后输出，如果在辞典里没有收录，则根据输入的文字串按照预先决定的规则作成这些信息，以此为依据将合成单位的声音数据加以组合后输出。

但是，上述已有的声音合成方法中，在遇到辞典里没有记载的文字串的情况下，未必能够作成与实际声音信息对应的信息、特别是韵律信息，结果，或是得到不自然的声音，或是得到与希望的声音不同的印象的声音。

发明内容

本发明的目的在于，提供能在很大程度上消除任意输入的文字串与辞典中收录的文字串的差异，合成自然的声音的声音合成方法、声音合成装置及记录声音合成程序的电脑可读取的媒体。

在本发明中，为了达到上述目的，本发明提出了作成与输入的文字串对应的声音信息数据的声音合成方法，这种方法使用将许多包含至少一种文字的文字串与其语调类型一起收录的单词辞典、收录表示对于该单词辞典中收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以及以收录的声音作为合成单位的声音波形数据收录的波形辞典，决定输入的文字串的语调类型，依据输入的文字串与语调类型从韵律词典中选择韵律模式数据，在该选择出的韵律模式数据的文字串与输入的文字串不一致的情况下，使该韵律模式数据的韵律信息对照着输入的文字串变形，依据韵律模型数据从辞典选择与输入文字串的各文字对应的波形数据，将该选择的数据相互连接。

采用本发明，即使是在输入的文字串在辞典里没有记录的情况下，也能够利用与该文字串接近的韵律模式数据，再使该韵律信息对照着输入的文字串变形，以此为依据选择波形数据，因此能够合成自然的声音。

在这里，韵律模式数据的选择可以这样进行，即利用收录包括文字串、拍数、语调类型及音节信息的韵律模式数据的韵律辞典，作成输入文字串的音节信息，从韵律辞典中提取文字串与拍数及语调类型一致的韵律模式数据作为韵律模式数据的候补，对各韵律模式数据的候补，将其音节信息与输入的文字串的音节信息加以比较，分别作成韵律复原信息，依据各韵律模式数据候补的文字串及韵律复原信息，选择最合适的韵律模式数据。

这时，韵律模式数据的候补中，如果有其全部音素与输入的文字串的音素一致的候补、则以其为最佳韵律模式数据，如果没有全部音素一致的候补，则以韵律模式数据的候补中与输入文字串的音素一致的音素数目最大的候补作为最佳韵律模式数据，在一致的音素的数目为最大的候补为多个的情况下，其中的连续一致的音素数目以最大的候补作为最佳韵律模式数据，以此可以选择包含最多且连续的与输入的文字串相同位置的同一音素、即可以原封不动地利用的音素(下称复原音素)的韵律模式数据，可以进行更加自然的声音合成。

又，韵律模式数据的变形在选择的韵律模式数据的文字串与输入的文字串不一致的情况下，对于该韵律模式数据中的每一不一致的文字，根据对使用于声音合成全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度，求变形后的音节长度，以此可以使所选择的韵律模式数据的韵律信息相应于输入的文字串变形，能够合成更自然的声音。

而且，波形数据的选择利用在构成输入的文字串的各音素中，对复原的音素从波形辞典中选择韵律模式数据的相当的音素的波形数据；对其他音素则在对应的音素中，从波形辞典中选择出韵律模式数据与频率最接近的音素的波形数据，以此可以选择出与变形后的韵律模式数据最接近的波形数据，能够更自然地合成接近理想的声音。

又，本发明为了达到上述目的，提出了一种作成与输入的文字串对应的声音信息数据的声音合成装置，该装置具备，将许多包含至少一种文字的文字串及其语调类型一起收集的单词辞典、收录表示相对于该单词辞典收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以收录的声音作为合成单位的声音波形数据收录的波形辞典，决定输入的文字串的语调类型的语调类型决定装置，依据输入的文字串与其语调类型从韵律辞典中选择韵律模式数据的韵律模式选择装置，在该选择的韵律模式数据的文字串与输入的文字串不一致的情况下，使该韵律模式数据的韵律信息相应于输入文字串变化的韵律变形装置，依据韵律模式数据从波形辞典中选择与输入的文字串的各文字对应的波形数据的波形选择装置，以及把所选择的波形数据相互连接的波形连接装置。

附图说明

本发明的上述目的以及此外的其他目的、特征及利益从下述说明和附图中可以更加清楚地得到了解。

图1是表示本发明的声音合成方法的总流程图。

图2表示韵律辞典的一个例子。

图3是表示韵律模式选择处理的详细情况的流程图。

图4是表示具体的韵律模式选择处理的样子的一个例子的图。

图5是表示韵律变形处理的详细情况的流程图。

图6是表示具体的韵律变形的样子的一个例子的图。

图7是表示波形选择处理的详细情况的流程图。

图8是表示具体的波形选择处理的样子的一个例子的图。

图9是表示具体的波形选择处理的样子的一个例子的图。

图10是表示波形连接处理的详细情况的流程图。

图11是本发明的声音合成装置的功能方框图。

具体实施方式

图1表示本发明的声音合成方法的总流程。

首先，利用未图示的输入装置和游戏系统，一旦输入要合成的文字串，就根据单词辞典等决定其语调类型(s1)。在这里，所谓单词辞典是将包含至少一种文字的文字串(单词)与其语调类型一起大量收录的辞典，例如大量地把表示预料要输入的游戏者的特征的名字(实际上是名字的后面加上日语敬称“君”)的单词与其语调一起收录。

具体地决定是把输入的文字串与单词词典中收录的单词加以比较，如有相同的单词，就采用其语调，如果没有相同的单词，就采用相同拍数的单词中具有相似的文字串的单词的语调。

还有，在没有相同单词的情况下，也可以由操作者(游戏参加者)等利用未图示的输入装置从与输入的文字串相同拍数的单词中可能出现的所有的语调中任意选择决定。

接着，根据输入的文字串与语调从韵律辞典中选择韵律模式数据(s2)。这里，所谓韵律辞典是指收录表示收录单词辞典的单词的韵律信息的韵律模式数据中的代表性韵律模式数据的辞典。

接着，在所选择的韵律模式数据的文字串与输入的文字串不一致的情况下，使该韵律模式数据的韵律信息相应于输入的文字串变形(s3)。

接着，根据变形后的韵律模式数据(还有，所选择的韵律模式数据的文字串在与输入的文字串一致的情况下没有变形，因此变形后的韵律模式数据中，实际上也包含未变形的韵律模式数据)，从波形辞典中选择与输入文字串的各文字对应的波形数据(s4)。这里所谓波形辞典是把收录的声音作为合成单位的声音波形数据收录的辞典，在本实施形态中，收录众所周知的VCV音素方式的声音波形数据(音素片)。

最后，把所选择的波形数据相互加以连接(s5)，作成合成声音数据。

下面详细叙述韵律模式选择处理。

图2表示韵律辞典的一个例子，收录包含文字串、拍数、语调类型及音节信息的韵律模式数据，即收录与单词辞典中收录的一些文字串对应的代表性的多个韵律模式数据。这里所谓音节信息包含表示构成文字串的各种文字C相应于辅音+元音，V相应于元音，N′相应于拨间，Q′相应于促音，L相应于长音，#相应于无声的音节种类，以及表示是用ASJ(日本音响学会)表示法表示的表达声音用的记号的第几号(A(あ)：1、I(い)：2、U(ラ)：3、E(ぇ)：4、O(ぢ)：5、KA(ガ)：6、……)的音节编号(在图2中省略)。还有，韵律辞典实际上对于每一韵律模式数据具有构成的各音素的频率、音量、音节长度等详细信息，但是在图中省略了。

图3是韵律模式选择处理的详细流程图。

图4表示具体的韵律模式选择处理的样子的一个例子，下面详细说明。

首先，作成输入文字串的音节信息(s201)。具体地说，利用上述ASJ表示法把用平假名表示的文字串用罗马字(即利用ABC…拼音化)表示，作成由上述音节种类及音节编号构成的音节信息。例如上述图4所示，在文字串为「ガさいくん」的情况下，用罗马字拼写成「Kasaikun′」，再作成由音节种类「CCVCN′」及音节编号「6、11、2、8、98」构成的音节信息。

接着，为了以VCV音素单位看复原音素的个数，作成对于输入文字串的VCV音素串(s202)。例如上述「ガさいくん」表示为「Ka asa ai iku un」。

另一方面，从收录于韵律辞典中的韵律数据中只将输入文字串与语调类型及拍数(モ-ラ数)一致的韵律模式数据提取作为韵律模式数据的候补(s203)。例如在图2、图4的例子中为「ガまいくん」、「ささいくん」、「レさいくん」。

接着，对于各韵律模式数据候补，将其每一音节信息与输入文字串的音节信息加以比较，作成韵律复原信息(s204)。具体地说，把韵律模式数据候补与输入文字串的音节信息逐个文字加以比较，如果辅音与元音都一致，则赋予「11」的信息，辅音不同而元音一致时赋予「01」，辅音一致而元音不一致时赋予「10」，辅音与元音均不一致时赋予「00」的信息，再以VCV单位分段。

例如在图2、图4的例子中，比较信息「ガまいくん」为「11 01 11 11 11」、「ささいくん」为「01 11 11 11 11」、「レさいくん」为「00 11 11 11 11」，韵律复原信息「ガまいくん」为「11 101 111 111 111」、「ささいくん」为「01 111111 111 111」、「レさいくん」为「00 011 111 111 111」。

接着，从各韵律模式数据候补中选择一个(s205)，查明该音素与输入文字串的音素在VCV单位上是否一致，即上述韵律复原信息是否是「11」或「111」。这里如果全部音素一致，就把这决定为最合适的韵律模式数据(s207)。

另一方面，即使只有一个音素不一致，就将在VCV单位一致的音素数目、即上述韵律复原信息中的「11」或「111」的数目加以比较(初始值为0)(s208)，如果是最大值，则把该模式当作最合适的韵律模式数据的候补(s209)。再把按VCV单位一致的音素的连续数、即上述韵律复原信息中的「11」或「111」的连续数加以比较(初始值为0)(s210)，如果是最大值，则把该模式当作最合适的韵律模式数据的候补(s211)。

把上述处理对于全部韵律模式数据候补反复进行(s212)，在全部音素一致或一致的音素数最大或一致音素数目最大的模式有多个的情况下，把一致音素连续数目最大的模式决定为最合适的韵律模式数据。

如果用上述图2、图4的例子说明，文字串没有与输入的文字串相同的模式，一致的音素数目「ガまいくん」是4个，「ささいくん」是4个，「レさいくん」是3个，一致的音素的连续数目「ガまいくん」是3个，「ささいくん」是4个，因此，「ささいくん」决定为最合适的韵律模式数据。

下面对韵律变形处理进行详细叙述。

图5是韵律变形处理的详细流程图。图6是表示具体的韵律变形处理的样子的一个例子，下面进行详细叙述。

首先，对如前所述选择的韵律模式数据及输入文字串的文字从前头开始逐个文字进行选择(s301)，这时，如果文字一致(s302)，就照样反复进行下一文字的选择〔s303〕。在文字不一致时，按照下面所属方法求与韵律模式数据中的文字对应的变形后的音节长度，又根据需要求变形后的音量，改写韵律模式数据(s304、s305)。

变形后的音节长度y可以利用下式求得：

y＝y’×(x/x’)其中x为模式数据中的音节长度，x’为与模式数据的文字对应的平均音节长度，y为变形后的音节长度，y’为与变形后的文字对应的平均音节长度。还有，平均音节长度预先对各文字求出并存储着。

图6表示输入文字串采用「さガいくん」，所选择的韵律数据采用「ガさいくん」的情况下的例子，使韵律模式数据中的文字「ガ」对应于输入文字串中的文字「さ」变形时，设文字「ガ」的音节长度为「22」，文字「さ」的音节长度为「25」，则变形后的「さ」的音节长度为：

「さ」的音节长度＝「さ」的平均×(「ガ」的音节长度/「ガ」的平均)

＝25×(20/22)

≈23

同样，使韵律模式数据中的文字「さ」对应于输入文字串中的文字「ガ」变形时，变形后的「ガ」的音节长度为：

「ガ」的音节长度＝「ガ」的平均×(「さ」的音节长度/「さ」的平均)

＝25×(30/25)

≈26还有，对于音量，可以与音节长度的情况一样进行计算求出并且变形，或是原封不动地使用韵律模式数据中的值。

对于韵律模式数据中的全部文字反复进行上述处理之后，将其变换为音素(VCV)信息(s306)，作成各音素的连接信息(s307)。

还有，在上述输入文字串是「さガいくん」，所选择的韵律模式数据是「ガさいくん」的情况下，「い」、「く」、「ん」3个字由于其位置及音素一致，它们就成了可以原封不动利用的音素(复原音素)。

下面叙述波形选择处理的详细情况。

图7表示波形选择处理的详细流程图，下面进行详细说明。

首先，从前头起逐个选择构成输入文字串的音素(s401)，如果这就是上述复原音素(s402)，从波形辞典中选择如上所述选择、变形的韵律模式数据中的相当的音素的波形数据(s403)。

而如果不是复原音素，则把波形辞典中的具有相同分段记号的音素选择作为候补(s404)，计算出与变形后的韵律模式数据中的相当的音素的频率差(s405)。这时，音素的V区间有2个，对此也考虑语调类型计算每一V区间的频率差的和。对全部候补将其反复进行(s406)，从波形辞典选择差(或差的和)最小的候补音素的波形数据(s407)。还有，在这时也可以参考候补音素的音量，进行把数值极小的除外的处理等等。

对构成输入文字串的全部音素反复进行上述处理，(s408)。

图8、图9表示具体的波形选择处理的样子的一个例子，这里，对构成输入文字串「さガいくん」的VCV音素「sa aka ai iku un」中并非复原音素的「sa」、「aka」分别表示出变形后的韵律模式数据的相当的音素的频率及音量值，以及候补音素的频率及音量值。

具体地说，在图8中表示出变形后的韵律模式数据中的音素「sa」的频率「450」及音量值「1000」，以及候补音素，在这里是3个候补音素「sa-001」、「sa-002」、「sa-003」的频率「440」、「500」、「400」及音量值「800」、「1050」、「950」，在这种情况下，选择频率为440的最接近的候补音素「sa-001」。

又，在图9中，表示出变形后的韵律模式数据中的音素「aka」V区间1的频率「450」及音量值「1000」及V区间2的频率「400」及音量值「800」，以及候补音素，在这里是2个候补音素「aka-001」、「aka-002」的V区间1的频率「400」、「460」及音量值「1000」、「800」以及V区间2的频率「450」、「410」及音量值「800」、「1000」，在这种情况下，选择V区间1及V区间2每一频率差的和(对于候补音素「aka-001」为｜450-400｜+｜400-450｜＝100，对于候补音素「aka-002」为｜450-460｜+｜400-410｜＝20)为最小的候补音素「aka-002」。

图10表示波形连接处理的详细流程图，下面进行详细说明。

首先，从前头起逐个选择如上所述选择的音素的波形数据(s501)，设定连接的候补位置(s502)，这时，如果连接是能够复原的(s503)，就以复原连接信息为依据进行连接(s504)。

又，如果不能复原，就判断音节长度(s505)，与其相应，按照各种连接方法(元音区间连接、长音连接、无声化音节连接、促音连接、拨音连接等)进行连接(s506)。

对全部音素的波形数据反复进行上述处理(s507)，作成合成声音数据。

图11表示本发明的声音合成装置的功能块图，在图中，11是单词辞典，12是韵律辞典，13是波形辞典，14是语调类型决定装置，15是韵律模式选择装置，16是韵律变形装置，17是波形选择装置，18是波形连接装置。

单词辞典11大量地将包含至少一种文字的文字串(单词)与其语调类型一起收录。而韵律辞典12收录包含文字串、拍数、语调类型及音节信息的韵律模式数据、相对于单词辞典中收录的一些文字串的代表性的多个韵律模式数据。波形辞典13把收录的声音作为合成单位的声音波形数据收录。

语调类型决定装置14所进行的处理是，将由输入装置或游戏系统等输入文字串与单词辞典11中收录的单词加以比较，如果有相同的单词，就将其语调类型决定为所述文字串的语调类型，如果没有相同的单词，就把具有类似的文字串的单词的语调类型决定为所述文字串的语调类型等处理。

韵律模式选择装置15进行的处理是，作成输入文字串的音节信息，从韵律辞典12中提取输入文字串与拍数及语调类型一致的韵律模式数据作为韵律模式数据候补，对各韵律模式数据的候补比较其音节信息与输入文字串的音节信息，分别作成韵律复原信息，依据韵律模式数据候补的文字串及韵律复原信息，选择最合适的韵律模式数据等处理。

韵律变形装置16进行的处理是，在所选择的韵律模式数据的文字串与输入文字串不一致的情况下，对该韵律模式数据中的每一不一致的文字，从对于声音合成中使用的全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度求变形后的音节长度的处理。

变形选择装置17进行的处理是这样的处理，即在构成输入文字串的各音素中，对于复原音素，从波形辞典中选择变形后的韵律模式数据中的相当的音素的波形数据，对于其他音素，从波形辞典中选择对应的音素中变形后的韵律模式数据与频率最接近的音素的波形数据。

波形连接装置18进行将所选择的波形数据相互连接作成合成声音数据的处理。

本说明书所述的最佳实施形态是一些例子，而本发明不限于此。本发明的范围根据权利要求书所示，这些权利要求的内容的全部变形例都属于本发明。

Claims

1.一种声音合成方法，作成与输入文字串对应的声音信息数据，其特征在于，

使用将许多包含至少一种文字的文字串与其语调类型一起收录的单词辞典、收录表示相对于该单词辞典收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以及以收录的声音作为合成单位的声音波形数据收录的波形辞典，

决定输入文字串的语调类型，

依据输入文字串与其语调类型从韵律辞典选择韵律模式数据，

在该选择的韵律模式数据的文字串与输入文字串不一致的情况下，使该韵律模式数据的韵律信息迎合输入文字串变形，

依据韵律模式数据从波形辞典选择与输入文字串的各文字对应的波形数据，

将该选择的波形数据相互连接。

2.根据权利要求1所述的声音合成方法，其特征在于，

使用收录包含文字串、拍数、语调类型及音节信息的韵律模式数据的韵律辞典，

作成输入文字串的音节信息，

从韵律辞典中提取输入文字串与拍数及语调一致的韵律模式数据作为韵律模式数据的候补，

对各韵律模式数据的候补，将其音节信息与输入文字串的音节信息加以比较，分别作成韵律复原信息，

依据各韵律模式数据候补的文字串及韵律复原信息，选择最合适的韵律模式数据。

3.根据权利要求2所述的声音合成方法，其特征在于，

在韵律模式数据的候补中，如果有其全部音素与输入文字串的音素一致的候补，则将其作为最合适的韵律模式数据，

如果没有全部音素一致的候补，则将该韵律模式数据候补中与输入文字串的音素一致的音素数目最大的候补作为最合适的韵律模式数据，

在一致的音素数目最大的候补有多个的情况下，以其中的连续一致的音素的数目最大的候补作为最合适的韵律模式数据。

4.根据权利要求1所述的声音合成方法，其特征在于，

在所述选择的韵律模式数据的文字串与输入文字串不一致的情况下，对于该韵律模式数据中的每一不一致的文字，根据对于声音合成中使用的全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度，求变形后的音节长度。

5.根据权利要求1所述的声音合成方法，其特征在于，在构成输入文字串的各音素中，对于与韵律模式数据位置及音素一致的音素，从波形辞典中选择韵律模式数据中的相当的音素的波形数据，对于其他音素，则从波形辞典中选择对应的音素中韵律模式数据与频率最接近的音素的波形数据。

6.一种声音合成装置，作成与输入文字串对应的声音信息数据，其特征在于，具备

将许多包含至少一种文字的文字串与其语调类型一起收录的单词辞典、收录表示相对于该单词辞典收录的文字串的韵律信息的韵律模式数据中的代表性韵律模式数据的韵律辞典、以及以收录的声音作为合成单位的声音波形数据收录的波形辞典，

决定输入文字串的语调类型的语调类型决定装置，

依据输入文字串与其语调类型从韵律辞典选择韵律模式数据的韵律模式选择装置，

在该选择的韵律模式数据的文字串与输入文字串不一致的情况下，使该韵律模式数据的韵律信息迎合输入文字串变形的韵律变形装置，

依据韵律模式数据从波形辞典选择与输入文字串的各文字对应的波形数据的波形选择装置，

将该选择的波形数据相互连接的波形连接装置。

7.根据权利要求6所述的声音合成装置，其特征在于，还具备

收录包含文字串、拍数、语调类型及音节信息的韵律模式数据的韵律辞典，以及

作成输入文字串的音节信息，从韵律辞典中提取输入文字串与拍数及语调类型一致的韵律模式数据作为韵律模式数据的候补，对各韵律模式数据的候补，将其音节信息与输入文字串的音节信息加以比较，分别作成韵律复原信息，依据各韵律模式数据候补的文字串及韵律复原信息，选择最合适的韵律模式数据的韵律模式选择装置。

8.根据权利要求7所述的声音合成装置，其特征在于，

如果没有其全部音素一致的候补，则将该韵律模式数据候补中与输入文字串的音素一致的音素数目最大的候补作为最合适的韵律模式数据，

9.根据权利要求6所述的声音合成装置，其特征在于，还具备

在所述选择的韵律模式数据的文字串与输入文字串不一致的情况下，对于该韵律模式数据中的每一不一致的文字，根据对于声音合成中使用的全部文字预先求出的平均音节长度与所述韵律模式数据的音节长度，求变形后的音节长度的韵律变形装置。

10.根据权利要求6所述的声音合成装置，其特征在于，还具备

在构成输入文字串的各音素中，对于与韵律模式数据位置及音素一致的音素，从波形辞典中选择韵律模式数据中的相当的音素的波形数据，对于其他音素，则从波形辞典中选择对应的音素中韵律模式数据与频率最接近的音素的波形数据的波形选择装置。