JP3361291B2

JP3361291B2 - 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体

Info

Publication number: JP3361291B2
Application number: JP20860699A
Authority: JP
Inventors: 治笠井; 稔幸溝口
Original assignee: Konami Corp
Current assignee: Konami Corp
Priority date: 1999-07-23
Filing date: 1999-07-23
Publication date: 2003-01-07
Anticipated expiration: 2019-07-23
Also published as: CN1108603C; TW523733B; EP1071074A3; DE60035001T2; EP1071074B1; DE60035001D1; KR20010021106A; JP2001034283A; HK1034130A1; EP1071074A2; US6778962B1; KR100403293B1; CN1282018A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成方法、音
声合成装置及び音声合成プログラムを記録したコンピュ
ータ読み取り可能な媒体の改良に関するものである。

【０００２】

【従来の技術】従来より、各種の音声メッセージ（人間
が話す言葉）を機械から出力させる方法として、予め音
声メッセージを構成する様々な語に対応する合成単位の
音声データを記憶させておき、任意に入力された文字列
（テキスト）に従って前記音声データを組み合わせて出
力する方法、いわゆる音声合成方法があった。

【０００３】このような音声合成方法では、通常、日常
的に使われる様々な単語（文字列）に対応する、発音記
号等の音韻情報や、アクセント、イントネーション、振
幅等の韻律情報を辞書に収録させておき、入力された文
字列を解析し、同一の文字列が辞書に収録されていれば
その情報に基づいて合成単位の音声データを組み合わせ
て出力し、辞書に収録されていなければ、入力された文
字列から予め決められた規則に従ってこれらの情報を作
成し、これに基づいて合成単位の音声データを組み合わ
せて出力する如くなしていた。

【０００４】

【発明が解決しようとする課題】しかしながら、前述し
た従来の音声合成方法では、辞書に登録されていない文
字列の場合、必ずしも実際の音声メッセージに対応した
情報、特に韻律情報を作成できず、結果として、不自然
な音声になったり、意図するところと印象の異なる音声
になってしまうという問題があった。

【０００５】本発明の目的は、任意に入力された文字列
と辞書に収録された文字列との相違を高度に吸収して自
然な音声を合成し得る音声合成方法、音声合成装置及び
音声合成プログラムを記録したコンピュータ読み取り可
能な媒体を提供することにある。

【０００６】

【課題を解決するための手段】本発明では、前記目的を
達成するため、入力された文字列に対応する音声メッセ
ージデータを作成する音声合成方法であって、少なくと
も１つの文字を含む文字列（単語）をそのアクセント型
とともに多数収録した単語辞書と、該単語辞書に収録さ
れた文字列に対する韻律情報を表す韻律モデルデータの
うちの代表的な韻律モデルデータを収録した韻律辞書
と、収録音声を合成単位の音声波形データとして収録し
た波形辞書とを用い、入力文字列のアクセント型を決定
し、入力文字列とアクセント型に基づいて韻律辞書から
韻律モデルデータを選択し、該選択した韻律モデルデー
タの文字列が入力文字列と一致しない場合は該韻律モデ
ルデータの韻律情報を入力文字列に合わせて変形し、韻
律モデルデータに基づいて入力文字列の各文字に対応す
る波形データを波形辞書から選択し、該選択した波形デ
ータ同士を接続する音声合成方法を提案する。

【０００７】本発明によれば、入力文字列が辞書に登録
されていない場合でもこの文字列に近い韻律モデルデー
タを利用でき、さらにその韻律情報を入力文字列に合わ
せて変形し、これに基づいて波形データを選択できるた
め、自然な音声を合成することができる。

【０００８】ここで、韻律モデルデータの選択は、文字
列、モーラ数、アクセント型及び音節情報を含む韻律モ
デルデータを収録した韻律辞書を用い、入力文字列の音
節情報を作成し、韻律辞書中より、入力文字列とモーラ
数及びアクセント型が一致する韻律モデルデータを抽出
して韻律モデルデータ候補とし、各韻律モデルデータ候
補についてその音節情報と入力文字列の音節情報とを比
較してそれぞれ韻律復元情報を作成し、各韻律モデルデ
ータ候補の文字列及び韻律復元情報に基づいて最適な韻
律モデルデータを選択することにより行うことができ
る。

【０００９】この際、韻律モデルデータ候補のうち、そ
の全ての音素が入力文字列の音素と一致する候補があれ
ばこれを最適韻律モデルデータとし、全ての音素が一致
する候補がなければ、韻律モデルデータ候補のうち、入
力文字列の音素と一致する音素の数が最大の候補を最適
韻律モデルデータとし、一致する音素の数が最大の候補
が複数ある場合は、そのうちの連続して一致する音素の
数が最大の候補を最適韻律モデルデータとすることによ
り、入力文字列と同一位置の同一音素、即ちそのまま利
用可能な音素（以下、復元音素と呼ぶ。）を最も多くし
かも連続して含む韻律モデルデータを選択することが可
能となり、より自然な音声合成が可能となる。

【００１０】また、韻律モデルデータの変形は、選択し
た韻律モデルデータの文字列が入力文字列と一致しない
場合、該韻律モデルデータ中の一致しない文字毎に、音
声合成に使用する全ての文字について予め求めておいた
平均音節長と、前記韻律モデルデータにおける音節長と
から変形後の音節長を求めることにより行うことができ
る。

【００１１】さらにまた、波形データの選択は、入力文
字列を構成する各音素のうち、復元音素については韻律
モデルデータ中の該当する音素の波形データを波形辞書
から選択し、その他の音素については対応する音素のう
ち、韻律モデルデータと周波数が最も近い音素の波形デ
ータを波形辞書から選択することにより行うことができ
る。

【００１２】また、本発明では、前記目的を達成するた
め、入力された文字列に対応する音声メッセージデータ
を作成する音声合成装置であって、少なくとも１つの文
字を含む文字列（単語）をそのアクセント型とともに多
数収録した単語辞書と、該単語辞書に収録された文字列
に対する韻律情報を表す韻律モデルデータのうちの代表
的な韻律モデルデータを収録した韻律辞書と、収録音声
を合成単位の音声波形データとして収録した波形辞書
と、入力文字列のアクセント型を決定するアクセント型
決定手段と、入力文字列とアクセント型に基づいて韻律
辞書から韻律モデルデータを選択する韻律モデル選択手
段と、該選択した韻律モデルデータの文字列が入力文字
列と一致しない場合に該韻律モデルデータの韻律情報を
入力文字列に合わせて変形する韻律変形手段と、韻律モ
デルデータに基づいて入力文字列の各文字に対応する波
形データを波形辞書から選択する波形選択手段と、該選
択した波形データ同士を接続する波形接続手段とを備え
た音声合成装置を提案する。

【００１３】また、前述したような音声合成装置は、音
声合成プログラムを記録したコンピュータ読み取り可能
な媒体において、前記プログラムはコンピュータに読み
取られた際、このコンピュータを、少なくとも１つの文
字を含む文字列（単語）をそのアクセント型とともに多
数収録した単語辞書と、該単語辞書に収録された文字列
に対する韻律情報を表す韻律モデルデータのうちの代表
的な韻律モデルデータを収録した韻律辞書と、収録音声
を合成単位の音声波形データとして収録した波形辞書
と、入力文字列のアクセント型を決定するアクセント型
決定手段と、入力文字列とアクセント型に基づいて韻律
辞書から韻律モデルデータを選択する韻律モデル選択手
段と、該選択した韻律モデルデータの文字列が入力文字
列と一致しない場合に該韻律モデルデータの韻律情報を
入力文字列に合わせて変形する韻律変形手段と、韻律モ
デルデータに基づいて入力文字列の各文字に対応する波
形データを波形辞書から選択する波形選択手段と、該選
択した波形データ同士を接続する波形接続手段として機
能させる音声合成プログラムを記録したコンピュータ読
み取り可能な媒体によっても実現できる。

【００１４】

【発明の実施の形態】図１は本発明の音声合成方法の全
体の流れを示すものである。

【００１５】まず、図示しない入力手段やゲームシステ
ム等より、合成しようとする文字列が入力されると、そ
のアクセント型を単語辞書等に基づいて決定する（ｓ
１）。ここで、単語辞書とは、少なくとも１つの文字を
含む文字列（単語）をそのアクセント型とともに多数収
録したものであり、例えば入力されることが予想される
プレイヤーキャラクタの名前を表す単語をそのアクセン
ト型とともに多数収録したものである。

【００１６】具体的な決定は、入力文字列と単語辞書に
収録された単語とを比較し、同一の単語があればそのア
クセント型を採用し、なければ同一モーラ数の単語のう
ち、類似する文字列を有する単語のアクセント型を採用
する。

【００１７】なお、同一の単語がない場合、入力文字列
と同一モーラ数の単語に現れ得る全てのアクセント型か
ら、オペレータ（ゲームプレイヤー）等が図示しない入
力手段より任意に選択・決定できるようにしても良い。

【００１８】次に、入力文字列とアクセント型に基づい
て韻律辞書から韻律モデルデータを選択する（ｓ２）。
ここで、韻律辞書とは、単語辞書に収録された単語に対
する韻律情報を表す韻律モデルデータのうちの代表的な
韻律モデルデータを収録したものである。

【００１９】次に、選択した韻律モデルデータの文字列
が入力文字列と一致しない場合は該韻律モデルデータの
韻律情報を入力文字列に合わせて変形する（ｓ３）。

【００２０】次に、変形後の韻律モデルデータ（なお、
選択した韻律モデルデータの文字列が入力文字列と一致
する場合は変形されないため、変形後の韻律モデルデー
タの中には、実際には変形されていない韻律モデルデー
タも含むものとする。）に基づいて入力文字列の各文字
に対応する波形データを波形辞書から選択する（ｓ
４）。ここで、波形辞書とは、収録音声を合成単位の音
声波形データとして収録したものであり、本実施の形態
では周知のＶＣＶ音素方式による音声波形データを収録
している。

【００２１】最後に、選択した波形データ同士を接続し
て（ｓ５）、合成音声データを作成する。

【００２２】次に、韻律モデル選択処理の詳細について
述べる。

【００２３】図２は韻律辞書の一例を示すもので、文字
列、モーラ数、アクセント型及び音節情報を含む複数の
韻律モデルデータ、即ち単語辞書に収録された多数の文
字列に対する代表的な複数の韻律モデルデータを収録し
てなっている。ここで、音節情報とは、文字列を構成す
る各文字が、Ｃ：子音＋母音、Ｖ：母音、Ｎ’：撥音、
Ｑ’：促音、Ｌ：長音、＃：無声音のいずれに該当する
かを表す音節種類と、ＡＳＪ表記法（日本音響学会）で
表される音声表記用記号の何番目（Ａ（あ）：１、Ｉ
（い）：２、Ｕ（う）：３、Ｅ（え）：４、Ｏ（お）：
５、ＫＡ（か）：６、……）であるかを表す音節番号と
からなっている（但し、図２では省略）。なお、韻律辞
書は、実際には韻律モデルデータ毎に、構成する各音素
の周波数、ボリューム、音節長等の詳細な情報を備えて
いるが、図面では省略した。

【００２４】図３は韻律モデル選択処理の詳細フローチ
ャート、図４は具体的な韻律モデル選択処理のようすの
一例を示すもので、以下、詳細に説明する。

【００２５】まず、入力文字列の音節情報を作成する
（ｓ２０１）。具体的には、ひらがなで表記された文字
列を前述したＡＳＪ表記法でローマ字化し、前述した音
節種類及び音節番号からなる音節情報を作成する。例え
ば、図４に示すように、文字列「かさいくん」の場合、
「ｋａｓａｉｋｕｎ’」とローマ字化し、さらに音節種
類「ＣＣＶＣＮ’」及び音節番号「６，１１，２，８，
９８」からなる音節情報を作成する。

【００２６】次に、復元音素個数をＶＣＶ音素単位で見
るため、入力文字列に対するＶＣＶ音素列を作成する
（ｓ２０２）。例えば、前述した「かさいくん」の場合
は「ｋａａｓａａｉｉｋｕｕｎ」となる。

【００２７】一方、韻律辞書に収録されている韻律モデ
ルデータから、入力文字列とアクセント型及びモーラ数
が一致する韻律モデルデータのみを抽出して韻律モデル
データ候補とする（ｓ２０３）。例えば、図２、図４の
例では、「かまいくん」、「ささいくん」、「しさいく
ん」である。

【００２８】次に、各韻律モデルデータ候補毎にその音
節情報と入力文字列の音節情報とを比較して韻律復元情
報を作成する（ｓ２０４）。具体的には、韻律モデルデ
ータ候補と入力文字列の音節情報を文字毎に比較し、子
音も母音も一致すれば「１１」、子音は異なるが母音は
一致する場合は「０１」、子音は一致するが母音は異な
る場合は「１０」、子音も母音も異なる場合は「００」
という情報を付与し、さらにＶＣＶ単位で区切る。

【００２９】例えば、図２、図４の例では、比較情報
は、「かまいくん」が「１１０１１１１１１
１」、「ささいくん」が「０１１１１１１１１
１」、「しさいくん」が「００１１１１１１１
１」となり、韻律復元情報は、「かまいくん」が「１１
１０１１１１１１１１１１」、「ささいくん」
が「０１１１１１１１１１１１１１」、「しさ
いくん」が「０００１１１１１１１１１１１」と
なる。

【００３０】次に、各韻律モデルデータ候補から１つ選
択し（ｓ２０５）、その音素が入力文字列の音素とＶＣ
Ｖ単位で一致しているか否か、即ち前述した韻律復元情
報が「１１」または「１１１」であるか否かを調べる
（ｓ２０６）。ここで、全ての音素が一致していれば、
これを最適韻律モデルデータに決定する（ｓ２０７）。

【００３１】一方、１つでも不一致の音素があれば、Ｖ
ＣＶ単位で一致する音素の数、即ち前述した韻律復元情
報中の「１１」または「１１１」の数を比較（初期値は
０）し（ｓ２０８）、最大値であればそのモデルを最適
韻律モデルデータの候補とする（ｓ２０９）。さらに、
ＶＣＶ単位で一致する音素の連続数、即ち前述した韻律
復元情報中の「１１」または「１１１」の連続数を比較
（初期値は０）し（ｓ２１０）、最大値であればそのモ
デルを最適韻律モデルデータの候補とする（ｓ２１
１）。

【００３２】以上の処理を全ての韻律モデルデータ候補
について繰り返して行い（ｓ２１２）、全ての音素が一
致もしくは一致音素数が最大あるいは一致音素数最大の
モデルが複数ある場合は一致音素連続数が最大のモデル
を最適韻律モデルデータに決定する。

【００３３】前述した、図２、図４の例でいえば、文字
列が入力文字列と同一のモデルはなく、一致音素数は
「かまいくん」が４、「ささいくん」が４、「しさいく
ん」が３であるが、一致音素連続数は「かまいくん」が
３、「ささいくん」が４であるので、「ささいくん」が
最適韻律モデルデータに決定する。

【００３４】次に、韻律変形処理の詳細について述べ
る。

【００３５】図５は韻律変形処理の詳細フローチャー
ト、図６は具体的な韻律変形処理のようすの一例を示す
もので、以下、詳細に説明する。

【００３６】まず、前述した如くして選択された韻律モ
デルデータ及び入力文字列の文字を先頭から１文字ずつ
選択し（ｓ３０１）、この時、文字が一致すれば（ｓ３
０２）、そのまま次の文字の選択を繰り返す（ｓ３０
３）。文字が不一致の場合、韻律モデルデータ中の文字
に対応する変形後の音節長を以下のようにして求め、ま
た、必要に応じて変形後のボリュームを求めて韻律モデ
ルデータを書き換える（ｓ３０４，ｓ３０５）。

【００３７】変形後の音節長は、モデルデータ中の音節
長をｘ、モデルデータの文字に対応する平均音節長を
ｘ’、変形後の音節長をｙ、変形後の文字に対応する平
均音節長をｙ’とした時、ｙ＝ｙ’×（ｘ／ｘ’）より求める。なお、平均音節長は、予め各文字毎に求め
て記憶しておくものとする。

【００３８】図６は入力文字列を「さかいくん」、選択
された韻律モデルデータを「かさいくん」とした場合の
例を示しており、韻律モデルデータ中の文字「か」を入
力文字列中の文字「さ」に合わせて変形する場合、文字
「か」の平均音節長を「２２」、文字「さ」の平均音節
長を「２５」とすると、変形後の「さ」の音節長は、「さ」の音節長＝「さ」の平均×（「か」の音節長／「か」の平均）＝２５×（２０／２２） ≒２３となる。

【００３９】同様に、韻律モデルデータ中の文字「さ」
を入力文字列中の文字「か」に合わせて変形する場合、
変形後の「か」の音節長は、「か」の音節長＝「か」の平均×（「さ」の音節長／「さ」の平均）＝２２×（３０／２５） ≒２６となる。なお、ボリュームについては音節長の場合と同
様の計算によって求めて変形しても良く、あるいは韻律
モデルデータ中の値をそのまま用いても良い。

【００４０】以上の処理を韻律モデルデータ中の全ての
文字について繰り返して行った後、音素（ＶＣＶ）情報
に変換し（ｓ３０６）、各音素の接続情報を作成する
（ｓ３０７）。

【００４１】次に、波形選択処理の詳細について述べ
る。

【００４２】図７は波形選択処理の詳細フローチャート
を示すもので、以下、詳細に説明する。

【００４３】まず、入力文字列を構成する音素を先頭か
ら１つずつ選択し（ｓ４０１）、これが前述した復元音
素であれば（ｓ４０２）、前述した如くして選択・変形
した韻律モデルデータ中の該当する音素の波形データを
波形辞書から選択する（ｓ４０３）。

【００４４】また、復元音素でなければ、波形辞書中の
同じ区切り記号を持つ音素を候補として選択し（ｓ４０
４）、変形後の韻律モデルデータにおける該当音素との
周波数の差を算出する（ｓ４０５）。この際、音素のＶ
区間が２つあるものに関しては、アクセント型も考慮
し、それぞれのＶ区間毎の周波数の差の和を算出する。
これを全ての候補について繰り返し（ｓ４０６）、差
（もしくは差の和）の最も小さい候補の音素の波形デー
タを波形辞書から選択する（ｓ４０７）。なお、この
時、音素候補のボリュームについても補助的に参照し、
極端に値が小さいものを除外する等の処理を行っても良
い。

【００４５】以上の処理を入力文字列を構成する全ての
音素について繰り返し行う（ｓ４０８）。

【００４６】図８、９は具体的な波形選択処理のようす
の一例を示すもので、ここでは入力文字列「さかいく
ん」を構成するＶＣＶ音素「ｓａａｋａａｉｉｋ
ｕｕｎ」のうち、復元音素でない「ｓａ」、「ａｋ
ａ」のそれぞれについて変形後の韻律モデルデータにお
ける該当音素の周波数及びボリューム値と、音素候補の
周波数及びボリューム値とを表している。

【００４７】具体的には、図８では、変形後の韻律モデ
ルデータにおける音素「ｓａ」の周波数「４５０」及び
ボリューム値「１０００」と、音素候補、ここでは３つ
の音素候補「ｓａ−００１」，「ｓａ−００２」，「ｓ
ａ−００３」の周波数「４４０」，「５００」，「４０
０」及びボリューム値「８００」，「１０５０」，「９
５０」とを表しており、この場合、周波数が「４４０」
で最も近い音素候補「ｓａ−００１」が選択される。

【００４８】また、図９では、変形後の韻律モデルデー
タにおける音素「ａｋａ」のＶ区間１の周波数「４５
０」及びボリューム値「１０００」並びにＶ区間２の周
波数「４００」及びボリューム値「８００」と、音素候
補、ここでは２つの音素候補「ａｋａ−００１」，「ａ
ｋａ−００２」のＶ区間１の周波数「４００」，「４６
０」及びボリューム値「１０００」，「８００」並びに
Ｖ区間２の周波数「４５０」，「４１０」及びボリュー
ム値「８００」，「１０００」とを表しており、この場
合、Ｖ区間１並びにＶ区間２毎の周波数の差の和（音素
候補「ａｋａ−００１」では、｜４５０−４００｜＋｜
４００−４５０｜＝１００、音素候補「ａｋａ−００
２」では、｜４５０−４６０｜＋｜４００−４１０｜＝
２０）が最も小さい音素候補「ａｋａ−００２」が選択
される。

【００４９】図１０は波形接続処理の詳細フローチャー
トを示すもので、以下、詳細に説明する。

【００５０】まず、前述した如くして選択した音素の波
形データを先頭から１つずつ選択し（ｓ５０１）、接続
候補位置を設定し（ｓ５０２）、この際、接続が復元可
能であれば（ｓ５０３）、復元接続情報を元に接続する
（ｓ５０４）。

【００５１】また、復元できなければ、音節長を判定し
（ｓ５０５）、これに応じて各種の接続方法（母音区間
接続、長音接続、無声化音節接続、促音接続、撥音接続
等）に従って接続する（ｓ５０６）。

【００５２】以上の処理を全ての音素の波形データにつ
いて繰り返し行い（ｓ５０７）、合成音声データを作成
する。

【００５３】図１１は本発明の音声合成装置の機能ブロ
ック図を示すもので、図中、１１は単語辞書、１２は韻
律辞書、１３は波形辞書、１４はアクセント型決定手
段、１５は韻律モデル選択手段、１６は韻律変形手段、
１７は波形選択手段、１８は波形接続手段である。

【００５４】単語辞書１１は、少なくとも１つの文字を
含む文字列（単語）をそのアクセント型とともに多数収
録してなっている。また、韻律辞書１２は、文字列、モ
ーラ数、アクセント型及び音節情報を含む韻律モデルデ
ータを複数、単語辞書に収録された多数の文字列に対す
る代表的な複数の韻律モデルデータを収録してなってい
る。また、波形辞書１３は、収録音声を合成単位の音声
波形データとして収録してなっている。

【００５５】アクセント型決定手段１４は、入力手段や
ゲームシステム等より入力された文字列と単語辞書１１
に収録された単語とを比較し、同一の単語があればその
アクセント型を前記文字列のアクセント型と決定し、な
ければ同一モーラ数の単語のうち、類似する文字列を有
する単語のアクセント型を前記文字列のアクセント型と
決定する処理等を行う。

【００５６】韻律モデル選択手段１５は、入力文字列の
音節情報を作成し、韻律辞書１２中より、入力文字列と
モーラ数及びアクセント型が一致する韻律モデルデータ
を抽出して韻律モデルデータ候補とし、各韻律モデルデ
ータ候補についてその音節情報と入力文字列の音節情報
とを比較してそれぞれ韻律復元情報を作成し、各韻律モ
デルデータ候補の文字列及び韻律復元情報に基づいて最
適な韻律モデルデータを選択する処理を行う。

【００５７】韻律変形手段１６は、選択した韻律モデル
データの文字列が入力文字列と一致しない場合、該韻律
モデルデータ中の一致しない文字毎に、音声合成に使用
する全ての文字について予め求めておいた平均音節長
と、前記韻律モデルデータにおける音節長とから変形後
の音節長を求める処理を行う。

【００５８】波形選択手段１７は、入力文字列を構成す
る各音素のうち、復元音素については変形後の韻律モデ
ルデータ中の該当する音素の波形データを波形辞書から
選択し、その他の音素については対応する音素のうち、
変形後の韻律モデルデータと周波数が最も近い音素の波
形データを波形辞書から選択する処理を行う。

【００５９】波形接続手段１８は、選択した波形データ
同士を接続して合成音声データを作成する処理を行う。

【００６０】

【発明の効果】以上説明したように、本発明によれば、
少なくとも１つの文字を含む文字列（単語）をそのアク
セント型とともに多数収録した単語辞書と、該単語辞書
に収録された文字列に対する韻律情報を表す韻律モデル
データのうちの代表的な韻律モデルデータを収録した韻
律辞書と、収録音声を合成単位の音声データとして収録
した波形辞書とを用い、入力文字列のアクセント型を決
定し、入力文字列とアクセント型に基づいて韻律辞書か
ら韻律モデルデータを選択し、該選択した韻律モデルデ
ータの文字列が入力文字列と一致しない場合は該韻律モ
デルデータの韻律情報を入力文字列に合わせて変形し、
韻律モデルデータに基づいて入力文字列の各文字に対応
する波形データを波形辞書から選択して接続するため、
入力文字列が辞書に登録されていない場合でもこの文字
列に近い韻律モデルデータを利用でき、さらにその韻律
情報を入力文字列に合わせて変形し、これに基づいて波
形データを選択でき、これによって自然な音声を合成す
ることができる。

【００６１】また、本発明によれば、入力文字列と同一
位置の同一音素、即ちそのまま利用可能な音素（復元音
素）を最も多くしかも連続して含む韻律モデルデータを
選択することが可能となり、より自然な音声合成が可能
となる。

【００６２】また、本発明によれば、平均音節長と、選
択した韻律モデルデータにおける音節長とから変形後の
音節長を求めることができるため、選択した韻律モデル
データの韻律情報を入力文字列に合わせて変形でき、さ
らに自然な音声合成が可能となる。

【００６３】また、本発明によれば、復元音素について
は該当音素の波形データを波形辞書から選択し、その他
の音素については韻律モデルデータと周波数が最も近い
音素の波形データを波形辞書から選択することにより、
変形後の韻律モデルデータに最も近い波形データを選択
でき、さらに自然で意図するところに近い音声合成が可
能となる。

【図面の簡単な説明】

【図１】本発明の音声合成方法の全体を示すフローチャ
ート

【図２】韻律辞書の一例を示す図

【図３】韻律モデル選択処理の詳細を示すフローチャー
ト

【図４】具体的な韻律モデル選択処理のようすの一例を
示す図

【図５】韻律変形処理の詳細を示すフローチャート

【図６】具体的な韻律変形のようすの一例を示す図

【図７】波形選択処理の詳細を示すフローチャート

【図８】具体的な波形選択処理のようすの一例を示す図

【図９】具体的な波形選択処理のようすの一例を示す図

【図１０】波形接続処理の詳細を示すフローチャート

【図１１】本発明の音声合成装置の機能ブロック図

【符号の説明】

１１：単語辞書、１２：韻律辞書、１３：波形辞書、１
４：アクセント型決定手段、１５：韻律モデル選択手
段、１６：韻律変形手段、１７：波形選択手段、１８：
波形接続手段。

───────────────────────────────────────────────────── フロントページの続き (72)発明者溝口稔幸東京都千代田区神田神保町３番25号株式会社コナミコンピュータエンタテインメント東京内 (56)参考文献特開平９−34492（ＪＰ，Ａ) 特開平８−160990（ＪＰ，Ａ) 特開平９−230893（ＪＰ，Ａ) 特開平５−73092（ＪＰ，Ａ) 特開平７−261778（ＪＰ，Ａ) 特開平８−87297（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/08

Claims

(57)【特許請求の範囲】

【請求項１】入力された文字列に対応する音声メッセ
ージデータを作成する音声合成方法であって、少なくと
も１つの文字を含む文字列（単語）をそのアクセント型
とともに多数収録した単語辞書と、該単語辞書に収録さ
れた文字列に対する韻律情報を表す韻律モデルデータの
うちの代表的な韻律モデルデータを収録した韻律辞書
と、収録音声を合成単位の音声波形データとして収録し
た波形辞書とを用い、入力文字列のアクセント型を決定
し、入力文字列とアクセント型に基づいて韻律辞書から
韻律モデルデータを選択し、該選択した韻律モデルデー
タの文字列が入力文字列と一致しない場合は該韻律モデ
ルデータの韻律情報を入力文字列に合わせて変形し、韻
律モデルデータに基づいて入力文字列の各文字に対応す
る波形データを波形辞書から選択し、該選択した波形デ
ータ同士を接続する音声合成方法において、文字列、モーラ数、アクセント型及び音節情報を含む韻
律モデルデータを収録した韻律辞書を用い、入力文字列の音節情報を作成し、韻律辞書中より、入力文字列とモーラ数及びアクセント
型が一致する韻律モデルデータを抽出して韻律モデルデ
ータ候補とし、韻律モデルデータ候補のうち、その全ての音素が入力文
字列の音素と一致する候補があればこれを最適韻律モデ
ルデータとし、全ての音素が一致する候補がなければ、韻律モデルデー
タ候補のうち、入力文字列の音素と一致する音素の数が
最大の候補を最適韻律モデルデータとし、一致する音素の数が最大の候補が複数ある場合は、その
うちの連続して一致する音素の数が最大の候補を最適韻
律モデルデータとすることを特徴とする音声合成方法。
【請求項２】前記選択した韻律モデルデータの文字列
が入力文字列と一致しない場合、該韻律モデルデータ中
の一致しない文字毎に、音声合成に使用する全ての文字
について予め求めておいた平均音節長と、前記韻律モデ
ルデータにおける音節長とから変形後の音節長を求める
ことを特徴とする請求項１記載の音声合成方法。
【請求項３】入力文字列を構成する各音素のうち、復
元音素については韻律モデルデータ中の該当する音素の
波形データを波形辞書から選択し、その他の音素につい
ては対応する音素のうち、韻律モデルデータと周波数が
最も近い音素の波形データを波形辞書から選択すること
を特徴とする請求項１または２記載の音声合成方法。
【請求項４】入力された文字列に対応する音声メッセ
ージデータを作成する音声合成装置であって、少なくと
も１つの文字を含む文字列（単語）をそのアクセント型
とともに多数収録した単語辞書と、該単語辞書に収録さ
れた文字列に対する韻律情報を表す韻律モデルデータの
うちの代表的な韻律モデルデータを収録した韻律辞書
と、収録音声を合成単位の音声波形データとして収録し
た波形辞書と、入力文字列のアクセント型を決定するア
クセント型決定手段と、入力文字列とアクセント型に基
づいて韻律辞書から韻律モデルデータを選択する韻律モ
デル選択手段と、該選択した韻律モデルデータの文字列
が入力文字列と一致しない場合に該韻律モデルデータの
韻律情報を入力文字列に合わせて変形する韻律変形手段
と、韻律モデルデータに基づいて入力文字列の各文字に
対応する波形データを波形辞書から選択する波形選択手
段と、該選択した波形データ同士を接続する波形接続手
段とを備えた音声合成装置において、文字列、モーラ数、アクセント型及び音節情報を含む韻
律モデルデータを収録した韻律辞書と、入力文字列の音節情報を作成し、韻律辞書中より、入力
文字列とモーラ数及びアクセント型が一致する韻律モデ
ルデータを抽出して韻律モデルデータ候補とし、韻律モ
デルデータ候補のうち、その全ての音素が入力文字列の
音素と一致する候補があればこれを最適韻律モデルデー
タとし、全ての音素が一致する候補がなければ、韻律モ
デルデータ候補のうち、入力文字列の音素と一致する音
素の数が最大の候補を最適韻律モデルデータとし、一致
する音素の数が最大の候補が複数ある場合は、そのうち
の連続して一致する音素の数が最大の候補を最適韻律モ
デルデータとする韻律モデル選択手段とを備えたことを
特徴とする音声合成装置。
【請求項５】前記選択した韻律モデルデータの文字列
が入力文字列と一致しない場合、該韻律モデルデータ中
の一致しない文字毎に、音声合成に使用する全ての文字
について予め求めておいた平均音節長と、前記韻律モデ
ルデータにおける音節長とから変形後の音節長を求める
韻律変形手段を備えたことを特徴とする請求項４記載の
音声合成装置。
【請求項６】入力文字列を構成する各音素のうち、復
元音素については韻律モデルデータ中の該当する音素の
波形データを波形辞書から選択し、その他の音素につい
ては対応する音素のうち、韻律モデルデータと周波数が
最も近い音素の波形データを波形辞書から選択する波形
選択手段を備えたことを特徴とする請求項４または５記
載の音声合成装置。
【請求項７】音声合成プログラムを記録したコンピュ
ータ読み取り可能な媒体であって、前記プログラムはコ
ンピュータに読み取られた際、このコンピュータを、少
なくとも１つの文字を含む文字列（単語）をそのアクセ
ント型とともに多数収録した単語辞書と、該単語辞書に
収録された文字列に対する韻律情報を表す韻律モデルデ
ータのうちの代表的な韻律モデルデータを収録した韻律
辞書と、収録音声を合成単位の音声波形データとして収
録した波形辞書と、入力文字列のアクセント型を決定す
るアクセント型決定手段と、入力文字列とアクセント型
に基づいて韻律辞書から韻律モデルデータを選択する韻
律モデル選択手段と、該選択した韻律モデルデータの文
字列が入力文字列と一致しない場合に該韻律モデルデー
タの韻律情報を入力文字列に合わせて変形する韻律変形
手段と、韻律モデルデータに基づいて入力文字列の各文
字に対応する波形データを波形辞書から選択する波形選
択手段と、該選択した波形データ同士を接続する波形接
続手段として機能させる音声合成プログラムを記録した
コンピュータ読み取り可能な媒体において、前記プログラムはまた、コンピュータに読み取られた
際、このコンピュータを、文字列、モーラ数、アクセント型及び音節情報を含む韻
律モデルデータを収録した韻律辞書と、入力文字列の音節情報を作成し、韻律辞書中より、入力
文字列とモーラ数及びアクセント型が一致する韻律モデ
ルデータを抽出して韻律モデルデータ候補とし、韻律モ
デルデータ候補のうち、その全ての音素が入力文字列の
音素と一致する候補があればこれを最適韻律モデルデー
タとし、全ての音素が一致する候補がなければ、韻律モ
デルデータ候補のうち、入力文字列の音素と一致する音
素の数が最大の候補を最適韻律モデルデータとし、一致
する音素の数が最大の候補が複数ある場合は、そのうち
の連続して一致する音素の数が最大の候補を最適韻律モ
デルデータとする韻律モデル選択手段として機能させる
ことを特徴とする音声合成プログラムを記録したコンピ
ュータ読み取り可能な媒体。
【請求項８】前記選択した韻律モデルデータの文字列
が入力文字列と一致しない場合、該韻律モデルデータ中
の一致しない文字毎に、音声合成に使用する全ての文字
について予め求めておいた平均音節長と、前記韻律モデ
ルデータにおける音節長とから変形後の音節長を求める
韻律変形手段として機能させることを特徴とする請求項
７記載の音声合成プログラムを記録したコンピュータ読
み取り可能な媒体。
【請求項９】入力文字列を構成する各音素のうち、復
元音素については韻律モデルデータ中の該当する音素の
波形データを波形辞書から選択し、その他の音素につい
ては対応する音素のうち、韻律モデルデータと周波数が
最も近い音素の波形データを波形辞書から選択する波形
選択手段として機能させることを特徴とする請求項７ま
たは８記載の音声合成プログラムを記録したコンピュー
タ読み取り可能な媒体。