JP3718116B2

JP3718116B2 - 音声合成装置、音声合成方法及び情報記憶媒体

Info

Publication number: JP3718116B2
Application number: JP2000263544A
Authority: JP
Inventors: 稔幸溝口; 治笠井
Original assignee: Konami Corp
Current assignee: Konami Corp
Priority date: 2000-08-31
Filing date: 2000-08-31
Publication date: 2005-11-16
Anticipated expiration: 2020-08-31
Also published as: JP2002073069A

Description

【０００１】
【発明の属する技術分野】
本発明は音声合成装置、音声合成方法及び情報記憶媒体に関し、接続に適した位置で確実に連続再生されるべき２つの基礎音声データを接続するための技術に関する。
【０００２】
【従来の技術】
音声は人間にとって最も自然な情報伝達手段であることから、各種家電製品の他、家庭用又は業務用ゲーム機、或いはゲームソフトウェアにも音声合成技術の利用範囲が広がりつつある。例えば、予めプレイヤの名前を文字入力させておき、その入力された文字を音声合成してゲームの中で適宜発音するようにすれば、ゲームの面白さをさらに増すことができる。
【０００３】
従来、各種の音声合成技術が提案されているが、その中でも自然音声の波形そのもの、或いは自然音声又はそれに準ずる音声の波形を復元するためのパラメータを記録してなる基礎音声データを予め多数用意しておき、それを例えばユーザが入力した文字列等に応じて組み合わせて、合成音声の波形を表す合成音声データを生成する技術は、合成音声を比較的自然なものとすることができる点で利用価値が高い。
【０００４】
【発明が解決しようとする課題】
上記音声合成技術は、具体的には、多数の基礎音声データの中から合成音声に対応する基礎音声データ列を選出し、それを接続することにより合成音声を再生するための合成音声データを生成する。このとき、選出される基礎音声データ列において、連続する２つの基礎音声データのうち、先に再生される方がある音素で終わり、続いて再生される方が同じ音素で始まる場合、先に再生される基礎音声データと続いて再生される基礎音声データとで、波形が近似している部分（パラメータ編集方式においてはパラメータが近似している部分。以下同じ。）を探し、そこで両基礎音声データを接続している。例えば基礎音声データをＶＣＶ（母音−子音−母音）形式で記録しておき、同じ音素に対応するＶ区間で連続再生されるべき基礎音声データを接続する場合、或いは基礎音声データをＣＶＣ（子音−母音−子音）形式で記録しておき、同じ音素に対応するＣ区間で連続再生されるべき基礎音声データを接続する場合において、先後の基礎音声データのＶ区間或いはＣ区間のうち波形が近似しているタイミングを探し出し、そこで両基礎音声データを接続する。その他、ＣＶ（子音−母音）形式で記録された基礎音声データの後にＶＣＶ形式で記録された基礎音声データを同じ音素に対応するＶ区間で接続する場合や、ＣＶＣ形式で記録された基礎音声データの後にＣＶ形式で記録された基礎音声データを同じ音素に対応するＣ区間で接続する場合も同様である。このように同じ音素に対応する区間で２つの基礎音声データを接続する場合、波形が近似した部分で接続するようにすれば、接続部分を目立たないようにすることができ、合成音声の品質を向上させることができる。
【０００５】
しかしながら、たとえ波形が近似している部分で２つの基礎音声データを接続したとしても、基礎音声データのうち、過渡区間（ある音素から他の音素へ推移する部分であり、例えばＶＣＶ形式で記録された基礎音声データではＶＣ又はＣＶの中間部分）や先頭区間又は後尾区間にて偶々波形が近似してしまう場合があり、このような部分で基礎音声データを接続してしまうと、却って接続部分が目立ってしまい、合成音声の品質が劣化するという問題がある。
【０００６】
本発明は上記課題に鑑みてなされたものであって、その目的は、接続に適した位置で確実に連続再生されるべき２つの基礎音声データを接続し、以て合成音声の品質を向上させることのできる音声合成装置、音声合成方法及び情報記憶媒体を提供することにある。
【０００７】
【課題を解決するための手段】
上記課題を解決するために、本発明に係る音声合成装置は、複数の基礎音声データを記憶する基礎音声データ記憶手段と、前記複数の基礎音声データの中から合成音声に対応する基礎音声データ列を選出する基礎音声データ列選出手段と、選出される前記基礎音声データ列を接続して合成音声を再生するための合成音声データを生成する合成音声データ生成手段と、を含む音声合成装置において、前記複数の基礎音声データのうち少なくとも２つの基礎音声データにそれぞれ対応づけて、該２つの基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、接続候補区間データを記憶する接続候補区間特定データ記憶手段と、前記２つの基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定する音節長決定手段と、をさらに含み、前記合成音声データ生成手段は、前記基礎音声データ列選出手段により選出される前記基礎音声データ列に前記２つの基礎音声データが隣接して含まれる場合に、前記接続候補区間特定データ記憶手段から前記２つの基礎音声データに対応する接続候補区間特定データを読み出すとともに、該接続候補区間特定データにより特定される接続候補区間の範囲内で前記２つの基礎音声データのそれぞれについて、合成音声の音節の長さが前記音節長決定手段により決定される音節の長さとなるように接続位置を決定し、該接続位置にて前記２つの基礎音声データを接続する、ことを特徴とする。
【０００８】
基礎音声データにおける所定音素に対応する区間の内側には、過渡区間や安定発音区間等、音素に対応して接続に適した区間と接続に適しない区間とが存在する。本発明によれば、接続候補区間を基礎音声データの接続に適した区間に確実に設定することができ、これにより同じ音素（所定音素）に対応する区間のうち接続に適した区間で、連続再生されるべき前記２つの基礎音声データを接続し、以て合成音声の品質を向上させることができる。なお、前記基礎音声データを録音音声データとすれば、さらに自然な合成音声とすることができる。また、前記２つの基礎音声データの接続部分に対応する前記所定音素を含む音節の長さを決定する音節長決定手段をさらに含み、前記合成音声データ生成手段は、前記音節長決定手段により決定される音節の長さに基づき、前記接続位置を決定する。こうすれば、前記音節長決定手段により決定される音節の長さに、前記２つの基礎音声データの接続部分に対応する前記所定音素を含む音節の長さを調整できるようになる。
【０００９】
また、本発明の一態様では、各接続候補区間内に設定された複数の接続候補位置を特定する、接続候補位置特定データを記憶する接続候補位置特定データ記憶手段をさらに含み、前記合成音声データ生成手段は、前記２つの基礎音声データに対応する接続候補区間特定データにより特定される接続候補区間内に設定された接続候補位置を前記接続候補位置特定データ記憶手段に記憶された前記接続候補位置特定データにより特定し、前記２つの基礎音声データのそれぞれについて該接続候補位置の中から前記接続位置を選出する、ことを特徴とする。この態様によれば、接続候補位置として相応しい接続候補区間内の位置を予め前記接続候補区間特定データにより特定可能としておくことにより、さらに軽い処理負担で基礎音声データの接続部分を目立たないようにすることができ、以て合成音声の品質を向上させることができる。
【００１０】
また、本発明の一態様では、前記接続候補区間は、前記所定音素の安定発声区間内に設定される。こうすれば、基礎音声データの接続部分を目立たないようにすることができる。
【００１２】
また、本発明の一態様では、前記基礎音声データ列選出手段は、合成すべき音声を表す記号列を入力する記号列入力手段を含み、該記号列入力手段により入力される前記記号列に基づいて前記基礎音声データ列を選出する。こうすれば、入力する記号列に応じた合成音声を得ることができるようになる。
【００１３】
また、本発明に係る音声合成方法は、第１及び第２の基礎音声データのそれぞれに対応づけられ、前記第１及び第２の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、２つの接続候補区間データを取得するステップと、前記第１及び第２の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定するステップと、該２つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第１及び第２の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、該接続位置にて前記第１及び第２の基礎音声データを接続するステップと、を含むことを特徴とする。
【００１４】
さらに、本発明に係る情報記憶媒体は、第１及び第２の基礎音声データのそれぞれに対応づけられ、前記第１及び第２の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、２つの接続候補区間データを取得するステップと、前記第１及び第２の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定するステップと、該２つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第１及び第２の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、接続位置にて前記第１及び第２の基礎音声データを接続するステップと、をコンピュータに実行させるためのプログラムを記憶したものである。
【００１５】
第１及び第２の基礎音声データにおける所定音素に対応する区間の内側には、過渡区間や安定発音区間等、音素に対応して接続に適した区間と接続に適しない区間とが存在する。本発明によれば、接続候補区間を第１及び第２の基礎音声データの接続に適した区間に設定することができ、これにより前記所定音素に対応する区間のうち接続に適した区間で、第１及び第２の基礎音声データを接続し、以て合成音声の品質を向上させることができる。
【００１６】
【発明の実施の形態】
以下、本発明の好適な実施の形態について図面に基づき詳細に説明する。
【００１７】
本実施の形態に係る音声合成方法では、同じ音素に対応する区間（音素区間）で基礎音声データを接続し、以て合成音声データを生成する。このとき、基礎音声データのそれら同じ音素に対応する音素区間の中に、さらに接続候補区間が予め設定されている。この接続候補区間は、例えば音素区間が母音に対応するものであれば音素環境に依存しにくい中央付近の安定発音区間内に設定される。また、音素区間が子音に対応するものであれば中央付近であって、他の音素からの移行或いは他の音素への移行の影響を受けていない区間、すなわち音素環境に依存しにくい安定発音区間内に設定される。そして、本実施の形態に係る音声合成方法では、この接続候補区間の範囲内で各基礎音声データの接続位置を決定し、その接続位置にて基礎音声データを接続して合成音声データとする。
【００１８】
このとき、本実施の形態に係る音声合成方法では、接続候補区間内に複数の接続候補位置が予め設定されており、具体的な接続位置は各基礎音声データにおいて接続候補位置から選ぶようにしているので、極めて軽い処理で合成音声データを生成することができる。なお、接続候補位置は基礎音声データの接続に適した具体的位置の候補であり、例えば各音素の接続候補区間内で各周期波形（当該音素の基本周波数をｆ０として、１／ｆ０毎に現れる）の１ピッチを同定するある開始点（ピッチマーク）を接続候補位置として選ぶようにすればよい。また例えば、声門閉鎖点を接続候補位置として選ぶようにしてもよい。
【００１９】
図１は、”ｎａ”を表す第１基礎音声データと、”ａｋａ”を表す第２基礎音声データとを接続して、”ｎａｋａ”を表す合成音声データを生成する様子を説明する図である。同図（ａ）は第１基礎音声データを示しており、同図（ｂ）は第２基礎音声データを示しており、同図（ｃ）は合成音声データを示している。同図において斜線は接続候補区間を示している。また、縦線は各音素区間の区切りを示している。第１基礎音声データはＣＶ形式で記録されており、第２基礎音声データはＶＣＶ形式で記録されている。そして、合成音声データは、第１基礎音声データの”ａ”を表す音素区間（Ｖ区間）と第２基礎音声データの前側の”ａ”を表す音素区間（Ｖ区間）とで接続されている。すなわち、同図は、ＣＶ形式で記録された第１基礎音声データとＶＣＶ形式で記録された第２基礎音声データとを、同じ母音”ａ”を表す音素区間で接続し、合成音声データを生成する場合を示している。このとき、第１基礎音声データにおいて、少なくとも”ａ”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。具体的には、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。同様に、第２基礎音声データにおいて、少なくとも前側の”ａ”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。ここでも同様に、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。
【００２０】
そして、これら接続位置にて第１基礎音声データと第２基礎音声データとが接続され、合成音声データが生成される。このとき、接続位置以降の第１基礎音声データ及び接続位置以前の第２基礎音声データは遺棄される。ここで、接続候補区間はＶ区間に設定されており、母音に対する安定発音区間内に設定されている。このため、接続候補区間のいずれの位置も、安定的に”ａ”の音を再生することができる波形（波形そのもの又はスペクトルパラメータ等）となっている。そして、接続候補区間の範囲内で接続位置を決定するようにすれば、第１基礎音声データのうち”ａ”を表す音素区間と、第２基礎音声データのうち”ａ”を表す音素区間と、で波形が近似した部分を探し、その部分で第１及び第２基礎音声データを接続する従来技術に比し、軽い演算量で接続部分を目立たないよう第１及び第２基礎音声データを接続することができる。また、接続候補区間内で接続位置を決定するようにしているので、接続に適しない位置で第１及び第２の基礎音声データが接続されてしまうことを、確実に防止できる。
【００２１】
次に、図２は、”ｈａｓｈ”を表す第１基礎音声データと、”ｓｈｉ”を表す第２基礎音声データとを接続して、”ｈａｓｈｉ”を表す合成音声データを生成する様子を説明する図である。同図（ａ）は第１基礎音声データを示しており、同図（ｂ）は第２基礎音声データを示しており、同図（ｃ）は合成音声データを示している。同図において斜線は接続候補区間を示している。また、縦線は各音素区間の区切りを示している。第１基礎音声データはＣＶＣ形式で記録されており、第２基礎音声データはＣＶ形式で記録されている。そして、合成音声データは、第１基礎音声データの”ｓｈ”を表す音素区間（Ｃ区間）と第２基礎音声データの”ｓｈ”を表す音素区間（Ｃ区間）とで接続されている。すなわち、同図は、ＣＶＣ形式で記録された第１基礎音声データとＣＶ形式で記録された第２基礎音声データとを、同じ子音”ｓｈ”を表す音素区間で接続し、合成音声データを生成する場合を示している。このとき、第１基礎音声データにおいて、少なくとも”ｓｈ”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。具体的には、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。同様に、第２基礎音声データにおいて、少なくとも”ｓｈ”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。ここでも同様に、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。
【００２２】
そして、これら接続位置にて第１基礎音声データと第２基礎音声データとが接続され、合成音声データが生成される。このとき、接続位置以降の第１基礎音声データ及び接続位置以前の第２基礎音声データは遺棄される。ここで、接続候補区間はＣ区間に設定されており、子音に対する安定発音区間内に設定されている。このため、接続候補区間のいずれの位置も、安定的に”ｓｈ”の音を再生することができる波形（波形そのもの又はスペクトルパラメータ等）となっている。そして、接続候補区間の範囲内で接続位置を決定するようにすれば、第１基礎音声データのうち”ｓｈ”を表す音素区間と、第２基礎音声データのうち”ｓｈ”を表す音素区間と、で波形が近似した部分を探し、その部分で第１及び第２基礎音声データを接続する従来技術に比し、軽い演算量で接続部分を目立たないよう第１及び第２基礎音声データを接続することができる。また、接続候補区間内で接続位置を決定するようにしているので、接続に適しない位置で第１及び第２の基礎音声データが接続されてしまうことを、確実に防止できる。
【００２３】
図３は、本発明の一実施形態に係るゲーム装置の構成を示す図である。以下では、同図に示すゲーム装置１０にて本発明に係る音声合成装置を実現する例について説明する。同図に示すゲーム装置１０は、家庭用ゲーム機１１にモニタ１８及びスピーカ２２を接続し、さらに情報記憶媒体たるＤＶＤ−ＲＯＭ２５を装着することによって構成される。ここでは、ゲームプログラムやゲームデータを家庭用ゲーム機１１に供給するためにＤＶＤ−ＲＯＭ２５を用いるが、ＣＤ−ＲＯＭやＲＯＭカード等、他のあらゆる情報記憶媒体を用いることができる。また、通信ネットワークを介して遠隔地からゲームプログラムやゲームデータを家庭用ゲーム機１１に供給することもできる。
【００２４】
家庭用ゲーム機１１は、マイクロプロセッサ１４、画像処理部１６、主記憶２６及び入出力処理部３０がバス１２により相互データ通信可能に接続され、さらに入出力処理部３０には、コントローラ３２、音声処理部２０及びＤＶＤ再生部２４が接続されている。コントローラ３２以外の家庭用ゲーム機１１の各構成要素は筐体内に収容されている。モニタ１８には例えば家庭用のテレビ受像機が用いられ、スピーカ２２には例えばその内蔵スピーカが用いられる。
【００２５】
マイクロプロセッサ１４は、図示しないＲＯＭに格納されるオペレーティングシステム（ＯＳ）やＤＶＤ−ＲＯＭ２５から読み出されるゲームプログラムに基づいて、家庭用ゲーム機１１の各部を制御する。バス１２はアドレス及びデータを家庭用ゲーム機１１の各部でやり取りするためのものである。また、主記憶２６には、ＤＶＤ−ＲＯＭ２５から読み取られたゲームプログラム及びゲームデータが必要に応じて書き込まれる。画像処理部１６はＶＲＡＭを含んで構成されており、マイクロプロセッサ１４から送られる画像データを受け取ってＶＲＡＭ上にゲーム画面を描画するとともに、その内容を所定ビデオ信号に変換して所定タイミングでモニタ１８に出力する。
【００２６】
入出力処理部３０はコントローラ３２、音声処理部２０及びＤＶＤ再生部２４とマイクロプロセッサ１４との間のデータ通信を中継するためのインターフェースである。コントローラ３２はプレイヤがゲーム操作をするための入力手段である。入出力処理部３０は一定周期（例えば１／６０秒毎）にコントローラ３２の各種ボタンの操作状態をスキャンし、そのスキャン結果を表す操作信号をバス１２を介してマイクロプロセッサ１４に渡す。マイクロプロセッサ１４は、その操作信号に基づいてプレイヤのゲーム操作を判定する。音声処理部２０はサウンドバッファを含んで構成されており、ＤＶＤ−ＲＯＭ２５から読み出されてサウンドバッファに記憶された音楽やゲーム効果音等のデータを再生してスピーカ２２から出力する。また、マイクロプロセッサ１４により生成され、主記憶２６又は入出力処理部３０に接続される図示しないメモリカードに記憶される合成音声データを転送すると、それをスピーカ２２から再生出力するようになっている。ＤＶＤ再生部２４は、マイクロプロセッサ１４からの指示に従ってＤＶＤ−ＲＯＭ２５に記録されたゲームプログラム及びゲームデータを読み取る。
【００２７】
以上の構成を有するゲーム装置１０において、ＤＶＤ−ＲＯＭ２５には、図４にその一部が示されている音声合成用データベースが予め格納されている。音声合成用データベースにおいては多数の基礎音声データ（ここで波形データそのものを基礎音声データとして保持しておく方式を採用するが、波形を復元可能な各種パラメータを保持しておく方式を採用してもよい。）が記憶されている。基礎音声データとして、ここではＣＶ形式で記録されたデータ及びＶＣＶ形式で記録されたデータ等が網羅的に記憶されているものとするが、ＣＶＣ形式で記録されたデータ及びＣＶ形式で記録されたデータ等を網羅的に記録しておく方式を採用してもよい。
【００２８】
同図（ａ）は”ａｋａ”を表す基礎音声データについての音声合成用データベースの記録内容を一例として示しており、同図（ａ）に示すように各基礎音声データに対して、その基礎音声データが表す音素のそれぞれにつき、音素の種類、音素区間の開始タイミング、接続候補区間特定データ、接続候補位置特定データが付加的に記憶されている。音素の種類は音素記号を記したものである。接続候補区間特定データは接続候補区間を特定するものであり、各音素区間の内部に設定される接続候補区間を特定すべく、例えばその開始タイミング及び終了タイミングを記している。接続候補位置特定データは接続候補区間内の具体的な接続位置の複数候補を特定するものである。各接続候補区間において最初の接続候補位置は接続候補区間の開始タイミングと一致し、最後の接続候補位置は接続候補区間の終了タイミングと一致する。このため、接続候補位置特定データのみを合成音声用データベースに記憶しておくようにして、接続候補区間特定データだけ別途記憶するのは省略してもよい。この場合、接続候補位置特定データのうち、最初の接続候補位置と最後の接続候補位置とを特定するものは、接続候補区間特定データとしても用いられることになる。各音素区間の開始タイミングｔ_ｎ、接続候補区間特定データｔ_ｓ ^（ｎ），ｔ_ｅ ^（ｎ）、接続候補位置特定データｔ^（ｎ）（１）〜ｔ^（ｎ）（Ｎ）の関係は、同図（ｂ）に示されている。この他、各基礎音声データにつき、Ｖ区間については、そのピッチ及び音量が記憶される（図示せず）。このピッチ及び音量については、入力テキストに対応する基礎音声データ列を選定する際に参照される。なお、後述するように、このゲーム装置１０では基礎音声データをＶ区間で接続するので、Ｃ区間について接続候補区間特定データは不要であり、音声合成用データベースへの記録を省略してもよい。
【００２９】
図５は、ゲーム装置１０で実行される音声合成処理について説明するフロー図である。同図に示される音声合成処理は、合成音声データを生成し、それを主記憶２６等に格納するものである。この処理はＤＶＤ−ＲＯＭ２５に格納されているゲームプログラムに基づき、例えばゲーム開始時等に実行される。この処理により生成された合成音声データは、ゲームプログラムに従って適宜主記憶２６等から読み出され、音声処理部２０に転送される。そして、音声処理部２０により合成音声データが再生され、合成音声がスピーカ２２から出力される。こうして、合成音声によりゲームを盛り上げることができる。
【００３０】
同図に示すように、この音声合成処理では、まずプレイヤがコントローラ３２により自分の名前等のテキスト（記号列）を入力する（Ｓ１０１）。例えば、モニタ１８にテキスト一覧を表示しておき、コントローラ３２により順に自分の名前等を表すテキストを指定すると、それが主記憶２６に一旦格納されるようにする。ここで入力されるテキストは音声合成の対象とされる。次に、入力されたテキストを解析する（Ｓ１０２）。具体的には、ここでマイクロプロセッサ１４が入力済みテキストを音素列に変換するとともに、それをＣＶ及びＶＣＶ単位の組合せにより再表現する。
【００３１】
さらに、マイクロプロセッサ１４は入力済みテキストに含まれる各音節のピッチ、音量、長さを決定する（Ｓ１０３）。例えば、幾つかの代表テキストに対し、各音節のピッチ、音量、長さを予めＤＶＤ−ＲＯＭ２５に韻律モデルデータとして記憶させておき、Ｓ１０１で入力されたテキストに最も近い代表テキストの各音節に対するピッチ、音量、長さを、その入力されたテキストの各音節に対するピッチ、音量、長さとして採用すればよい。両者が完全に一致しない場合には、所定アルゴリズムにより、それらピッチ、音量、長さを補正するようにしてもよい。
【００３２】
その後、テキスト解析（Ｓ１０２）で得られたＣＶ及びＶＣＶ単位の組合せによる入力済みテキストの表現に基づき、入力済みテキストに対応する基礎音声データ列を選び出す（Ｓ１０４）。具体的には、テキスト解析で得られたＣＶ又はＶＣＶの各単位に対して、最もＶ区間のピッチ及び音量が近い基礎音声データを選択し、それらを入力テキストに対応して順に並べることにより基礎音声データ列を得る。Ｖ区間のピッチ及び音量は音声合成用データベースから取得する。
【００３３】
さらに、各Ｖ区間（最後尾を除く）について接続位置を決定する（Ｓ１０５）。具体的には、Ｓ１０３で決定した入力テキストの各音節の長さに基づき、実際に合成音声の各音声の長さが、その決定した長さになるよう、各Ｖ区間（音素区間）の内側に設定されている接続候補区間の範囲内で接続位置を決定する。接続候補区間は、各音素区間に対して音声合成用データベースに記憶されている接続候補区間特定データを読みだし、それにより特定する。接続位置の決定に自由度がある場合には、さらに別の基準を用いて決定するようにすればよい。例えば、２つの接続位置が共にできるだけ接続候補区間の中央寄りの音素環境に依存しにくい箇所に設定されるようにしてもよい。なお、マイクロプロセッサ１４のデータ処理能力に余裕があれば、接続候補区間の範囲内で波形の近似している部分を探し、そこを接続位置としてもよい。こうしても、接続候補区間の範囲内で接続位置を決定するので、接続に適しない位置が接続位置となることを防止でき、合成音声の品質を向上させることができる。
【００３４】
図６は接続位置決定処理の一例を詳細に示すフロー図である。この処理では接続候補区間内に予め設定されている接続候補位置から具体的な接続位置が選出される。図７は第１基礎音声データと第２基礎音声データとの接続態様を模式的に示す図であり、同図（ａ）は、第１基礎音声データにおける接続部分の音素（以下、「前接続音素」という。）の接続候補区間を合成音声データに全て含めるようにして、さらに続いて第２基礎音声データにおける接続部分の音素（以下、「後接続音素」という。）の接続候補区間の一部を合成音声データに含める接続態様を示す。また、同図（ｂ）は、前接続音素の接続候補区間の一部を合成音声データに含めるようにして、その続き第２基礎音声データのうち後接続音素における接続候補区間の終了タイミング以降として、後接続音素の接続候補区間は合成音声データに含めない接続態様を示す。
【００３５】
図６に示すように、この接続位置決定処理では、まず接続音素の１つ前の音素の長さｌ１（図７参照）を取得する（Ｓ２０１）。ここでは接続音素を母音としているため、その前に位置する子音の長さをｌ１として取得する。長さｌ１は音声合成用データベースにおいて各音素の開始タイミングを引き算することにより得ることができる。次に、前接続音素における接続候補区間前の長さｌ２（図７参照）を取得する（Ｓ２０２）。長さｌ２は前接続音素における接続候補区間の開始タイミングｔ_ｓ（ｎ）から該前接続音素の開始タイミングを引き算することにより得ることができる。同様に、後接続音素における接続候補区間後の長さｌ３（図７参照）を取得する（Ｓ２０３）。長さｌ３は後接続音素に続く音素の開始タイミングから当該後接続候補区間の終了タイミングを引き算することにより得ることができる。さらに、接続音素が含まれる音節の長さＬを取得する（Ｓ２０４）。長さＬはＳ１０３（図５）において既に取得している値を用いる。
【００３６】
次に、前接続音素の接続候補区間の長さ、すなわちｔ_ｅ ^（α）−ｔ_ｓ ^（α）を算出する（Ｓ２０５）。ここでαは前接続音素のインデックスである。そして、Ｌ−（ｌ１＋ｌ２＋ｌ３）が前接続音素の接続候補区間の長さｔ_ｅ ^（α）−ｔ_ｓ ^（α）以上であるかを判断する（Ｓ２０６）。Ｌ−（ｌ１＋ｌ２＋ｌ３）は、合成音声において接続部分に含められる接続候補区間のトータルの長さを示しており、この長さを前接続音素の接続候補区間だけで満たすことができるか、それとも後接続音素の接続候補区間の全部又は一部も加える必要があるかを調べるのである。Ｌ−（ｌ１＋ｌ２＋ｌ３）が前接続音素の接続候補区間の長さｔ_ｅ ^（α）−ｔ_ｓ ^（α）以上であれば、後接続音素の接続候補区間も合成音声に含める必要があり、Ｌ−（ｌ１＋ｌ２＋ｌ３）−（ｔ_ｅ ^（α）−ｔ_ｓ ^（α））≒ｔ_ｅ ^（β）−ｔ^（β）（ｎ）となるｎを探し出す（Ｓ２０７）。ここでβは後接続音素のインデックスである。そして、前接続音素におけるｔ_ｅ ^（α）と後接続音素におけるｔ^（β）（ｎ）とをそれぞれ第１基礎音声データ及び第２基礎音声データの接続位置に決定する（Ｓ２０８）。一方、Ｌ−（ｌ１＋ｌ２＋ｌ３）が前接続音素の接続候補区間の長さｔ_ｅ ^（α）−ｔ_ｓ ^（α）未満であれば、後接続音素の接続候補区間を合成音声に含める必要がなく、Ｌ−（ｌ１＋ｌ２＋ｌ３）≒ｔ^（α）（ｎ）−ｔ_ｓ ^（α）となるｎを探し出す（Ｓ２０９）。そして、前接続音素におけるｔ^（α）（ｎ）と後接続音素におけるｔ_ｅ ^（β）とをそれぞれ第１基礎音声データ及び第２基礎音声データの接続位置に決定する（Ｓ２１０）。
【００３７】
次に図５に戻り、Ｓ１０４で選出された基礎音声データ列を接続する（Ｓ１０６）。このとき、Ｓ１０５（Ｓ２０８，Ｓ２１０）で決定された接続位置により、各基礎音声データの開始部分又は終了部分を決定する。すなわち、Ｓ１０５で決定された接続位置の間の基礎音声データを音声合成用データベースから読みだし、それを前方（先に再生される方）の基礎音声データに接続する。こうして基礎音声データ列を接続して合成音声データを作成する。そして、作成した合成音声データを主記憶２６に格納しておく（Ｓ１０７）。こうして記憶された合成音声データは、図示しないゲームプログラムに従って適宜読み出され、ゲームの演出としてスピーカ２２から再生出力される。また、入出力処理部３０に不揮発性のメモリカードを着脱可能に接続しておき、そこに合成音声データを格納するようにしてもよい。こうすれば、次回プレイのときに、再度合成音声データを作成しなくとも、直ちに合成音声を出力できるようになる。
【００３８】
以上説明したゲーム装置１０によれば、２つの基礎音声データを同じ音素に対応する区間で接続する際、その区間の内側に予め設定された接続候補区間の範囲内で接続位置を決定するので、接続に適しない位置で２つの基礎音声データが接続されてしまう事態を防止でき、合成音声の品質を向上させることができる。また、接続候補区間を安定発音区間内に設定しておけば、接続候補区間の範囲内で接続位置を決定する限り、２つの基礎音声データの接続部分を目立たなくすることができるため、波形比較やパラメータ比較等の重いデータ処理を必要とすることなく、簡易に高品質の合成音声データを生成することができる。さらに、接続候補位置を複数用意しておき、そこから具体的な接続位置を選出するようにしたので、極めて軽い処理で高品質の合成音声データを生成することができる。
【００３９】
なお、本発明は以上説明した実施の形態に限定されるものではない。
【００４０】
例えば、以上の説明ではＣＶ形式及びＶＣＶ形式で記録された基礎音声データをＶ区間で接続して合成音声データを生成したが、ＣＶＣ形式及びＣＶ形式で記録された基礎音声データをＣ区間で接続して合成音声データを生成する場合も、Ｃ区間に接続候補区間を設定しておくことで、接続に適した位置で確実に２つの基礎音声データを接続することができるようになる。その他、基礎音声データの形式に依らず、同じ音素を表す音素区間で２つの基礎音声データを接続する場合は、その音素区間の内側に接続候補区間を設定しておき、その範囲内で接続位置を決定することで、接続に適した位置で確実に２つの基礎音声データを接続することができるようになる。
【００４１】
また、以上の説明は本発明を家庭用ゲーム機１１を用いて実施する例についてのものであるが、業務用ゲーム装置にも本発明は同様に適用可能である。この場合、ＤＶＤ−ＲＯＭ２５及びＤＶＤ再生部２４に代えてより高速な記憶装置を用い、モニタ１８やスピーカ２２も一体的に形成することが望ましい。
【００４２】
さらに、以上の説明ではゲームプログラム及びゲームデータを格納したＤＶＤ−ＲＯＭ２５を家庭用ゲーム機１１で使用するようにしたが、パーソナルコンピュータ等、ゲームプログラム及びゲームデータを記録した情報記憶媒体を読み取って、その読み取った内容に基づく情報処理が可能なコンピュータであれば、どのようなものでも使用することができる。
【００４３】
【発明の効果】
以上説明したように、本発明では、２つの基礎音声データを同じ音素に対応する区間で接続する際に、その区間に対応する接続候補区間データを読みだし、該接続候補区間が特定する接続候補区間の範囲内で接続位置を決定するようにしたので、接続に適した位置で確実に２つの基礎音声データを接続することができ、以て合成音声の品質を向上させることができる。また、接続候補位置の中から接続位置を選出するようにすれば、高品質の合成音声を比較的軽い処理で生成することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る音声合成方法の一例を説明する図である。
【図２】本発明の実施の形態に係る音声合成方法の他の例を説明する図である。
【図３】本発明の実施の形態に係るゲーム装置の構成を示す図である。
【図４】各基礎音声データに対し、付加的に記憶されるデータを説明する図である。
【図５】本発明の実施の形態に係るゲーム装置により実行される音声合成処理を説明するフロー図である。
【図６】基礎音声データの接続位置決定処理について詳細に説明するフロー図である。
【図７】基礎音声データの接続態様を示す図である。
【符号の説明】
１０ゲーム装置、１１家庭用ゲーム機、１２バス、１４マイクロプロセッサ、１６画像処理部、１８モニタ、２０音声処理部、２２スピーカ、２４ＤＶＤ再生部、２５ＤＶＤ−ＲＯＭ、２６主記憶、３０入出力処理部、３２コントローラ。

Claims

複数の基礎音声データを記憶する基礎音声データ記憶手段と、
前記複数の基礎音声データの中から合成音声に対応する基礎音声データ列を選出する基礎音声データ列選出手段と、
選出される前記基礎音声データ列を接続して合成音声を再生するための合成音声データを生成する合成音声データ生成手段と、
を含む音声合成装置において、
前記複数の基礎音声データのうち少なくとも２つの基礎音声データにそれぞれ対応づけて、該２つの基礎音声データにおける、同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、接続候補区間データを記憶する接続候補区間特定データ記憶手段と、
前記２つの基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定する音節長決定手段と、
をさらに含み、
前記合成音声データ生成手段は、前記基礎音声データ列選出手段により選出される前記基礎音声データ列に前記２つの基礎音声データが隣接して含まれる場合に、前記接続候補区間特定データ記憶手段から前記２つの基礎音声データに対応する接続候補区間特定データを読み出すとともに、該接続候補区間特定データにより特定される接続候補区間の範囲内で前記２つの基礎音声データのそれぞれについて、合成音声の音節の長さが前記音節長決定手段により決定される音節の長さとなるように接続位置を決定し、該接続位置にて前記２つの基礎音声データを接続する、ことを特徴とする音声合成装置。
請求項１に記載の音声合成装置において、
各接続候補区間内に設定された複数の接続候補位置を特定する、接続候補位置特定データを記憶する接続候補位置特定データ記憶手段をさらに含み、
前記合成音声データ生成手段は、前記２つの基礎音声データに対応する接続候補区間特定データにより特定される接続候補区間内に設定された接続候補位置を前記接続候補位置特定データ記憶手段に記憶された前記接続候補位置特定データにより特定し、前記２つの基礎音声データのそれぞれについて該接続候補位置の中から前記接続位置を選出する、ことを特徴とする音声合成装置。
請求項１又は２に記載の音声合成装置において、
前記接続候補区間は、前記同じ音素の安定発声区間内に設定されることを特徴とする音声合成装置。
請求項１乃至３のいずれかに記載の音声合成装置において、
前記基礎音声データ列選出手段は、合成すべき音声を表す記号列を入力する記号列入力手段を含み、該記号列入力手段により入力される前記記号列に基づいて前記基礎音声データ列を選出することを特徴とする音声合成装置。
第１及び第２の基礎音声データのそれぞれに対応づけられ、前記第１及び第２の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、２つの接続候補区間データを取得するステップと、
前記第１及び第２の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定するステップと、
該２つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第１及び第２の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、
該接続位置にて前記第１及び第２の基礎音声データを接続するステップと、
を含むことを特徴とする音声合成方法。
第１及び第２の基礎音声データのそれぞれに対応づけられ、前記第１及び第２の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、２つの接続候補区間データを取得するステップと、
前記第１及び第２の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定するステップと、
該２つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第１及び第２の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、
該接続位置にて前記第１及び第２の基礎音声データを接続するステップと、
をコンピュータに実行させるためのプログラムを記憶した情報記憶媒体。