JP3718116B2 - 音声合成装置、音声合成方法及び情報記憶媒体 - Google Patents
音声合成装置、音声合成方法及び情報記憶媒体 Download PDFInfo
- Publication number
- JP3718116B2 JP3718116B2 JP2000263544A JP2000263544A JP3718116B2 JP 3718116 B2 JP3718116 B2 JP 3718116B2 JP 2000263544 A JP2000263544 A JP 2000263544A JP 2000263544 A JP2000263544 A JP 2000263544A JP 3718116 B2 JP3718116 B2 JP 3718116B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- basic
- connection
- speech
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は音声合成装置、音声合成方法及び情報記憶媒体に関し、接続に適した位置で確実に連続再生されるべき2つの基礎音声データを接続するための技術に関する。
【0002】
【従来の技術】
音声は人間にとって最も自然な情報伝達手段であることから、各種家電製品の他、家庭用又は業務用ゲーム機、或いはゲームソフトウェアにも音声合成技術の利用範囲が広がりつつある。例えば、予めプレイヤの名前を文字入力させておき、その入力された文字を音声合成してゲームの中で適宜発音するようにすれば、ゲームの面白さをさらに増すことができる。
【0003】
従来、各種の音声合成技術が提案されているが、その中でも自然音声の波形そのもの、或いは自然音声又はそれに準ずる音声の波形を復元するためのパラメータを記録してなる基礎音声データを予め多数用意しておき、それを例えばユーザが入力した文字列等に応じて組み合わせて、合成音声の波形を表す合成音声データを生成する技術は、合成音声を比較的自然なものとすることができる点で利用価値が高い。
【0004】
【発明が解決しようとする課題】
上記音声合成技術は、具体的には、多数の基礎音声データの中から合成音声に対応する基礎音声データ列を選出し、それを接続することにより合成音声を再生するための合成音声データを生成する。このとき、選出される基礎音声データ列において、連続する2つの基礎音声データのうち、先に再生される方がある音素で終わり、続いて再生される方が同じ音素で始まる場合、先に再生される基礎音声データと続いて再生される基礎音声データとで、波形が近似している部分(パラメータ編集方式においてはパラメータが近似している部分。以下同じ。)を探し、そこで両基礎音声データを接続している。例えば基礎音声データをVCV(母音−子音−母音)形式で記録しておき、同じ音素に対応するV区間で連続再生されるべき基礎音声データを接続する場合、或いは基礎音声データをCVC(子音−母音−子音)形式で記録しておき、同じ音素に対応するC区間で連続再生されるべき基礎音声データを接続する場合において、先後の基礎音声データのV区間或いはC区間のうち波形が近似しているタイミングを探し出し、そこで両基礎音声データを接続する。その他、CV(子音−母音)形式で記録された基礎音声データの後にVCV形式で記録された基礎音声データを同じ音素に対応するV区間で接続する場合や、CVC形式で記録された基礎音声データの後にCV形式で記録された基礎音声データを同じ音素に対応するC区間で接続する場合も同様である。このように同じ音素に対応する区間で2つの基礎音声データを接続する場合、波形が近似した部分で接続するようにすれば、接続部分を目立たないようにすることができ、合成音声の品質を向上させることができる。
【0005】
しかしながら、たとえ波形が近似している部分で2つの基礎音声データを接続したとしても、基礎音声データのうち、過渡区間(ある音素から他の音素へ推移する部分であり、例えばVCV形式で記録された基礎音声データではVC又はCVの中間部分)や先頭区間又は後尾区間にて偶々波形が近似してしまう場合があり、このような部分で基礎音声データを接続してしまうと、却って接続部分が目立ってしまい、合成音声の品質が劣化するという問題がある。
【0006】
本発明は上記課題に鑑みてなされたものであって、その目的は、接続に適した位置で確実に連続再生されるべき2つの基礎音声データを接続し、以て合成音声の品質を向上させることのできる音声合成装置、音声合成方法及び情報記憶媒体を提供することにある。
【0007】
【課題を解決するための手段】
上記課題を解決するために、本発明に係る音声合成装置は、複数の基礎音声データを記憶する基礎音声データ記憶手段と、前記複数の基礎音声データの中から合成音声に対応する基礎音声データ列を選出する基礎音声データ列選出手段と、選出される前記基礎音声データ列を接続して合成音声を再生するための合成音声データを生成する合成音声データ生成手段と、を含む音声合成装置において、前記複数の基礎音声データのうち少なくとも2つの基礎音声データにそれぞれ対応づけて、該2つの基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、接続候補区間データを記憶する接続候補区間特定データ記憶手段と、前記2つの基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定する音節長決定手段と、をさらに含み、前記合成音声データ生成手段は、前記基礎音声データ列選出手段により選出される前記基礎音声データ列に前記2つの基礎音声データが隣接して含まれる場合に、前記接続候補区間特定データ記憶手段から前記2つの基礎音声データに対応する接続候補区間特定データを読み出すとともに、該接続候補区間特定データにより特定される接続候補区間の範囲内で前記2つの基礎音声データのそれぞれについて、合成音声の音節の長さが前記音節長決定手段により決定される音節の長さとなるように接続位置を決定し、該接続位置にて前記2つの基礎音声データを接続する、ことを特徴とする。
【0008】
基礎音声データにおける所定音素に対応する区間の内側には、過渡区間や安定発音区間等、音素に対応して接続に適した区間と接続に適しない区間とが存在する。本発明によれば、接続候補区間を基礎音声データの接続に適した区間に確実に設定することができ、これにより同じ音素(所定音素)に対応する区間のうち接続に適した区間で、連続再生されるべき前記2つの基礎音声データを接続し、以て合成音声の品質を向上させることができる。なお、前記基礎音声データを録音音声データとすれば、さらに自然な合成音声とすることができる。また、前記2つの基礎音声データの接続部分に対応する前記所定音素を含む音節の長さを決定する音節長決定手段をさらに含み、前記合成音声データ生成手段は、前記音節長決定手段により決定される音節の長さに基づき、前記接続位置を決定する。こうすれば、前記音節長決定手段により決定される音節の長さに、前記2つの基礎音声データの接続部分に対応する前記所定音素を含む音節の長さを調整できるようになる。
【0009】
また、本発明の一態様では、各接続候補区間内に設定された複数の接続候補位置を特定する、接続候補位置特定データを記憶する接続候補位置特定データ記憶手段をさらに含み、前記合成音声データ生成手段は、前記2つの基礎音声データに対応する接続候補区間特定データにより特定される接続候補区間内に設定された接続候補位置を前記接続候補位置特定データ記憶手段に記憶された前記接続候補位置特定データにより特定し、前記2つの基礎音声データのそれぞれについて該接続候補位置の中から前記接続位置を選出する、ことを特徴とする。この態様によれば、接続候補位置として相応しい接続候補区間内の位置を予め前記接続候補区間特定データにより特定可能としておくことにより、さらに軽い処理負担で基礎音声データの接続部分を目立たないようにすることができ、以て合成音声の品質を向上させることができる。
【0010】
また、本発明の一態様では、前記接続候補区間は、前記所定音素の安定発声区間内に設定される。こうすれば、基礎音声データの接続部分を目立たないようにすることができる。
【0012】
また、本発明の一態様では、前記基礎音声データ列選出手段は、合成すべき音声を表す記号列を入力する記号列入力手段を含み、該記号列入力手段により入力される前記記号列に基づいて前記基礎音声データ列を選出する。こうすれば、入力する記号列に応じた合成音声を得ることができるようになる。
【0013】
また、本発明に係る音声合成方法は、第1及び第2の基礎音声データのそれぞれに対応づけられ、前記第1及び第2の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、2つの接続候補区間データを取得するステップと、前記第1及び第2の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定するステップと、該2つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第1及び第2の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、該接続位置にて前記第1及び第2の基礎音声データを接続するステップと、を含むことを特徴とする。
【0014】
さらに、本発明に係る情報記憶媒体は、第1及び第2の基礎音声データのそれぞれに対応づけられ、前記第1及び第2の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、2つの接続候補区間データを取得するステップと、前記第1及び第2の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定するステップと、該2つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第1及び第2の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、接続位置にて前記第1及び第2の基礎音声データを接続するステップと、をコンピュータに実行させるためのプログラムを記憶したものである。
【0015】
第1及び第2の基礎音声データにおける所定音素に対応する区間の内側には、過渡区間や安定発音区間等、音素に対応して接続に適した区間と接続に適しない区間とが存在する。本発明によれば、接続候補区間を第1及び第2の基礎音声データの接続に適した区間に設定することができ、これにより前記所定音素に対応する区間のうち接続に適した区間で、第1及び第2の基礎音声データを接続し、以て合成音声の品質を向上させることができる。
【0016】
【発明の実施の形態】
以下、本発明の好適な実施の形態について図面に基づき詳細に説明する。
【0017】
本実施の形態に係る音声合成方法では、同じ音素に対応する区間(音素区間)で基礎音声データを接続し、以て合成音声データを生成する。このとき、基礎音声データのそれら同じ音素に対応する音素区間の中に、さらに接続候補区間が予め設定されている。この接続候補区間は、例えば音素区間が母音に対応するものであれば音素環境に依存しにくい中央付近の安定発音区間内に設定される。また、音素区間が子音に対応するものであれば中央付近であって、他の音素からの移行或いは他の音素への移行の影響を受けていない区間、すなわち音素環境に依存しにくい安定発音区間内に設定される。そして、本実施の形態に係る音声合成方法では、この接続候補区間の範囲内で各基礎音声データの接続位置を決定し、その接続位置にて基礎音声データを接続して合成音声データとする。
【0018】
このとき、本実施の形態に係る音声合成方法では、接続候補区間内に複数の接続候補位置が予め設定されており、具体的な接続位置は各基礎音声データにおいて接続候補位置から選ぶようにしているので、極めて軽い処理で合成音声データを生成することができる。なお、接続候補位置は基礎音声データの接続に適した具体的位置の候補であり、例えば各音素の接続候補区間内で各周期波形(当該音素の基本周波数をf0として、1/f0毎に現れる)の1ピッチを同定するある開始点(ピッチマーク)を接続候補位置として選ぶようにすればよい。また例えば、声門閉鎖点を接続候補位置として選ぶようにしてもよい。
【0019】
図1は、”na”を表す第1基礎音声データと、”aka”を表す第2基礎音声データとを接続して、”naka”を表す合成音声データを生成する様子を説明する図である。同図(a)は第1基礎音声データを示しており、同図(b)は第2基礎音声データを示しており、同図(c)は合成音声データを示している。同図において斜線は接続候補区間を示している。また、縦線は各音素区間の区切りを示している。第1基礎音声データはCV形式で記録されており、第2基礎音声データはVCV形式で記録されている。そして、合成音声データは、第1基礎音声データの”a”を表す音素区間(V区間)と第2基礎音声データの前側の”a”を表す音素区間(V区間)とで接続されている。すなわち、同図は、CV形式で記録された第1基礎音声データとVCV形式で記録された第2基礎音声データとを、同じ母音”a”を表す音素区間で接続し、合成音声データを生成する場合を示している。このとき、第1基礎音声データにおいて、少なくとも”a”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。具体的には、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。同様に、第2基礎音声データにおいて、少なくとも前側の”a”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。ここでも同様に、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。
【0020】
そして、これら接続位置にて第1基礎音声データと第2基礎音声データとが接続され、合成音声データが生成される。このとき、接続位置以降の第1基礎音声データ及び接続位置以前の第2基礎音声データは遺棄される。ここで、接続候補区間はV区間に設定されており、母音に対する安定発音区間内に設定されている。このため、接続候補区間のいずれの位置も、安定的に”a”の音を再生することができる波形(波形そのもの又はスペクトルパラメータ等)となっている。そして、接続候補区間の範囲内で接続位置を決定するようにすれば、第1基礎音声データのうち”a”を表す音素区間と、第2基礎音声データのうち”a”を表す音素区間と、で波形が近似した部分を探し、その部分で第1及び第2基礎音声データを接続する従来技術に比し、軽い演算量で接続部分を目立たないよう第1及び第2基礎音声データを接続することができる。また、接続候補区間内で接続位置を決定するようにしているので、接続に適しない位置で第1及び第2の基礎音声データが接続されてしまうことを、確実に防止できる。
【0021】
次に、図2は、”hash”を表す第1基礎音声データと、”shi”を表す第2基礎音声データとを接続して、”hashi”を表す合成音声データを生成する様子を説明する図である。同図(a)は第1基礎音声データを示しており、同図(b)は第2基礎音声データを示しており、同図(c)は合成音声データを示している。同図において斜線は接続候補区間を示している。また、縦線は各音素区間の区切りを示している。第1基礎音声データはCVC形式で記録されており、第2基礎音声データはCV形式で記録されている。そして、合成音声データは、第1基礎音声データの”sh”を表す音素区間(C区間)と第2基礎音声データの”sh”を表す音素区間(C区間)とで接続されている。すなわち、同図は、CVC形式で記録された第1基礎音声データとCV形式で記録された第2基礎音声データとを、同じ子音”sh”を表す音素区間で接続し、合成音声データを生成する場合を示している。このとき、第1基礎音声データにおいて、少なくとも”sh”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。具体的には、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。同様に、第2基礎音声データにおいて、少なくとも”sh”を表す音素区間には、その内側にさらに接続候補区間が設定されており、この接続候補区間の範囲内で接続位置が決定される。ここでも同様に、この接続候補区間内に予め設定されている接続候補位置の中から接続位置が決定される。
【0022】
そして、これら接続位置にて第1基礎音声データと第2基礎音声データとが接続され、合成音声データが生成される。このとき、接続位置以降の第1基礎音声データ及び接続位置以前の第2基礎音声データは遺棄される。ここで、接続候補区間はC区間に設定されており、子音に対する安定発音区間内に設定されている。このため、接続候補区間のいずれの位置も、安定的に”sh”の音を再生することができる波形(波形そのもの又はスペクトルパラメータ等)となっている。そして、接続候補区間の範囲内で接続位置を決定するようにすれば、第1基礎音声データのうち”sh”を表す音素区間と、第2基礎音声データのうち”sh”を表す音素区間と、で波形が近似した部分を探し、その部分で第1及び第2基礎音声データを接続する従来技術に比し、軽い演算量で接続部分を目立たないよう第1及び第2基礎音声データを接続することができる。また、接続候補区間内で接続位置を決定するようにしているので、接続に適しない位置で第1及び第2の基礎音声データが接続されてしまうことを、確実に防止できる。
【0023】
図3は、本発明の一実施形態に係るゲーム装置の構成を示す図である。以下では、同図に示すゲーム装置10にて本発明に係る音声合成装置を実現する例について説明する。同図に示すゲーム装置10は、家庭用ゲーム機11にモニタ18及びスピーカ22を接続し、さらに情報記憶媒体たるDVD−ROM25を装着することによって構成される。ここでは、ゲームプログラムやゲームデータを家庭用ゲーム機11に供給するためにDVD−ROM25を用いるが、CD−ROMやROMカード等、他のあらゆる情報記憶媒体を用いることができる。また、通信ネットワークを介して遠隔地からゲームプログラムやゲームデータを家庭用ゲーム機11に供給することもできる。
【0024】
家庭用ゲーム機11は、マイクロプロセッサ14、画像処理部16、主記憶26及び入出力処理部30がバス12により相互データ通信可能に接続され、さらに入出力処理部30には、コントローラ32、音声処理部20及びDVD再生部24が接続されている。コントローラ32以外の家庭用ゲーム機11の各構成要素は筐体内に収容されている。モニタ18には例えば家庭用のテレビ受像機が用いられ、スピーカ22には例えばその内蔵スピーカが用いられる。
【0025】
マイクロプロセッサ14は、図示しないROMに格納されるオペレーティングシステム(OS)やDVD−ROM25から読み出されるゲームプログラムに基づいて、家庭用ゲーム機11の各部を制御する。バス12はアドレス及びデータを家庭用ゲーム機11の各部でやり取りするためのものである。また、主記憶26には、DVD−ROM25から読み取られたゲームプログラム及びゲームデータが必要に応じて書き込まれる。画像処理部16はVRAMを含んで構成されており、マイクロプロセッサ14から送られる画像データを受け取ってVRAM上にゲーム画面を描画するとともに、その内容を所定ビデオ信号に変換して所定タイミングでモニタ18に出力する。
【0026】
入出力処理部30はコントローラ32、音声処理部20及びDVD再生部24とマイクロプロセッサ14との間のデータ通信を中継するためのインターフェースである。コントローラ32はプレイヤがゲーム操作をするための入力手段である。入出力処理部30は一定周期(例えば1/60秒毎)にコントローラ32の各種ボタンの操作状態をスキャンし、そのスキャン結果を表す操作信号をバス12を介してマイクロプロセッサ14に渡す。マイクロプロセッサ14は、その操作信号に基づいてプレイヤのゲーム操作を判定する。音声処理部20はサウンドバッファを含んで構成されており、DVD−ROM25から読み出されてサウンドバッファに記憶された音楽やゲーム効果音等のデータを再生してスピーカ22から出力する。また、マイクロプロセッサ14により生成され、主記憶26又は入出力処理部30に接続される図示しないメモリカードに記憶される合成音声データを転送すると、それをスピーカ22から再生出力するようになっている。DVD再生部24は、マイクロプロセッサ14からの指示に従ってDVD−ROM25に記録されたゲームプログラム及びゲームデータを読み取る。
【0027】
以上の構成を有するゲーム装置10において、DVD−ROM25には、図4にその一部が示されている音声合成用データベースが予め格納されている。音声合成用データベースにおいては多数の基礎音声データ(ここで波形データそのものを基礎音声データとして保持しておく方式を採用するが、波形を復元可能な各種パラメータを保持しておく方式を採用してもよい。)が記憶されている。基礎音声データとして、ここではCV形式で記録されたデータ及びVCV形式で記録されたデータ等が網羅的に記憶されているものとするが、CVC形式で記録されたデータ及びCV形式で記録されたデータ等を網羅的に記録しておく方式を採用してもよい。
【0028】
同図(a)は”aka”を表す基礎音声データについての音声合成用データベースの記録内容を一例として示しており、同図(a)に示すように各基礎音声データに対して、その基礎音声データが表す音素のそれぞれにつき、音素の種類、音素区間の開始タイミング、接続候補区間特定データ、接続候補位置特定データが付加的に記憶されている。音素の種類は音素記号を記したものである。接続候補区間特定データは接続候補区間を特定するものであり、各音素区間の内部に設定される接続候補区間を特定すべく、例えばその開始タイミング及び終了タイミングを記している。接続候補位置特定データは接続候補区間内の具体的な接続位置の複数候補を特定するものである。各接続候補区間において最初の接続候補位置は接続候補区間の開始タイミングと一致し、最後の接続候補位置は接続候補区間の終了タイミングと一致する。このため、接続候補位置特定データのみを合成音声用データベースに記憶しておくようにして、接続候補区間特定データだけ別途記憶するのは省略してもよい。この場合、接続候補位置特定データのうち、最初の接続候補位置と最後の接続候補位置とを特定するものは、接続候補区間特定データとしても用いられることになる。各音素区間の開始タイミングtn、接続候補区間特定データts (n),te (n)、接続候補位置特定データt(n)(1)〜t(n)(N)の関係は、同図(b)に示されている。この他、各基礎音声データにつき、V区間については、そのピッチ及び音量が記憶される(図示せず)。このピッチ及び音量については、入力テキストに対応する基礎音声データ列を選定する際に参照される。なお、後述するように、このゲーム装置10では基礎音声データをV区間で接続するので、C区間について接続候補区間特定データは不要であり、音声合成用データベースへの記録を省略してもよい。
【0029】
図5は、ゲーム装置10で実行される音声合成処理について説明するフロー図である。同図に示される音声合成処理は、合成音声データを生成し、それを主記憶26等に格納するものである。この処理はDVD−ROM25に格納されているゲームプログラムに基づき、例えばゲーム開始時等に実行される。この処理により生成された合成音声データは、ゲームプログラムに従って適宜主記憶26等から読み出され、音声処理部20に転送される。そして、音声処理部20により合成音声データが再生され、合成音声がスピーカ22から出力される。こうして、合成音声によりゲームを盛り上げることができる。
【0030】
同図に示すように、この音声合成処理では、まずプレイヤがコントローラ32により自分の名前等のテキスト(記号列)を入力する(S101)。例えば、モニタ18にテキスト一覧を表示しておき、コントローラ32により順に自分の名前等を表すテキストを指定すると、それが主記憶26に一旦格納されるようにする。ここで入力されるテキストは音声合成の対象とされる。次に、入力されたテキストを解析する(S102)。具体的には、ここでマイクロプロセッサ14が入力済みテキストを音素列に変換するとともに、それをCV及びVCV単位の組合せにより再表現する。
【0031】
さらに、マイクロプロセッサ14は入力済みテキストに含まれる各音節のピッチ、音量、長さを決定する(S103)。例えば、幾つかの代表テキストに対し、各音節のピッチ、音量、長さを予めDVD−ROM25に韻律モデルデータとして記憶させておき、S101で入力されたテキストに最も近い代表テキストの各音節に対するピッチ、音量、長さを、その入力されたテキストの各音節に対するピッチ、音量、長さとして採用すればよい。両者が完全に一致しない場合には、所定アルゴリズムにより、それらピッチ、音量、長さを補正するようにしてもよい。
【0032】
その後、テキスト解析(S102)で得られたCV及びVCV単位の組合せによる入力済みテキストの表現に基づき、入力済みテキストに対応する基礎音声データ列を選び出す(S104)。具体的には、テキスト解析で得られたCV又はVCVの各単位に対して、最もV区間のピッチ及び音量が近い基礎音声データを選択し、それらを入力テキストに対応して順に並べることにより基礎音声データ列を得る。V区間のピッチ及び音量は音声合成用データベースから取得する。
【0033】
さらに、各V区間(最後尾を除く)について接続位置を決定する(S105)。具体的には、S103で決定した入力テキストの各音節の長さに基づき、実際に合成音声の各音声の長さが、その決定した長さになるよう、各V区間(音素区間)の内側に設定されている接続候補区間の範囲内で接続位置を決定する。接続候補区間は、各音素区間に対して音声合成用データベースに記憶されている接続候補区間特定データを読みだし、それにより特定する。接続位置の決定に自由度がある場合には、さらに別の基準を用いて決定するようにすればよい。例えば、2つの接続位置が共にできるだけ接続候補区間の中央寄りの音素環境に依存しにくい箇所に設定されるようにしてもよい。なお、マイクロプロセッサ14のデータ処理能力に余裕があれば、接続候補区間の範囲内で波形の近似している部分を探し、そこを接続位置としてもよい。こうしても、接続候補区間の範囲内で接続位置を決定するので、接続に適しない位置が接続位置となることを防止でき、合成音声の品質を向上させることができる。
【0034】
図6は接続位置決定処理の一例を詳細に示すフロー図である。この処理では接続候補区間内に予め設定されている接続候補位置から具体的な接続位置が選出される。図7は第1基礎音声データと第2基礎音声データとの接続態様を模式的に示す図であり、同図(a)は、第1基礎音声データにおける接続部分の音素(以下、「前接続音素」という。)の接続候補区間を合成音声データに全て含めるようにして、さらに続いて第2基礎音声データにおける接続部分の音素(以下、「後接続音素」という。)の接続候補区間の一部を合成音声データに含める接続態様を示す。また、同図(b)は、前接続音素の接続候補区間の一部を合成音声データに含めるようにして、その続き第2基礎音声データのうち後接続音素における接続候補区間の終了タイミング以降として、後接続音素の接続候補区間は合成音声データに含めない接続態様を示す。
【0035】
図6に示すように、この接続位置決定処理では、まず接続音素の1つ前の音素の長さl1(図7参照)を取得する(S201)。ここでは接続音素を母音としているため、その前に位置する子音の長さをl1として取得する。長さl1は音声合成用データベースにおいて各音素の開始タイミングを引き算することにより得ることができる。次に、前接続音素における接続候補区間前の長さl2(図7参照)を取得する(S202)。長さl2は前接続音素における接続候補区間の開始タイミングts(n)から該前接続音素の開始タイミングを引き算することにより得ることができる。同様に、後接続音素における接続候補区間後の長さl3(図7参照)を取得する(S203)。長さl3は後接続音素に続く音素の開始タイミングから当該後接続候補区間の終了タイミングを引き算することにより得ることができる。さらに、接続音素が含まれる音節の長さLを取得する(S204)。長さLはS103(図5)において既に取得している値を用いる。
【0036】
次に、前接続音素の接続候補区間の長さ、すなわちte (α)−ts (α)を算出する(S205)。ここでαは前接続音素のインデックスである。そして、L−(l1+l2+l3)が前接続音素の接続候補区間の長さte (α)−ts (α)以上であるかを判断する(S206)。L−(l1+l2+l3)は、合成音声において接続部分に含められる接続候補区間のトータルの長さを示しており、この長さを前接続音素の接続候補区間だけで満たすことができるか、それとも後接続音素の接続候補区間の全部又は一部も加える必要があるかを調べるのである。L−(l1+l2+l3)が前接続音素の接続候補区間の長さte (α)−ts (α)以上であれば、後接続音素の接続候補区間も合成音声に含める必要があり、L−(l1+l2+l3)−(te (α)−ts (α))≒te (β)−t(β)(n)となるnを探し出す(S207)。ここでβは後接続音素のインデックスである。そして、前接続音素におけるte (α)と後接続音素におけるt(β)(n)とをそれぞれ第1基礎音声データ及び第2基礎音声データの接続位置に決定する(S208)。一方、L−(l1+l2+l3)が前接続音素の接続候補区間の長さte (α)−ts (α)未満であれば、後接続音素の接続候補区間を合成音声に含める必要がなく、L−(l1+l2+l3)≒t(α)(n)−ts (α)となるnを探し出す(S209)。そして、前接続音素におけるt(α)(n)と後接続音素におけるte (β)とをそれぞれ第1基礎音声データ及び第2基礎音声データの接続位置に決定する(S210)。
【0037】
次に図5に戻り、S104で選出された基礎音声データ列を接続する(S106)。このとき、S105(S208,S210)で決定された接続位置により、各基礎音声データの開始部分又は終了部分を決定する。すなわち、S105で決定された接続位置の間の基礎音声データを音声合成用データベースから読みだし、それを前方(先に再生される方)の基礎音声データに接続する。こうして基礎音声データ列を接続して合成音声データを作成する。そして、作成した合成音声データを主記憶26に格納しておく(S107)。こうして記憶された合成音声データは、図示しないゲームプログラムに従って適宜読み出され、ゲームの演出としてスピーカ22から再生出力される。また、入出力処理部30に不揮発性のメモリカードを着脱可能に接続しておき、そこに合成音声データを格納するようにしてもよい。こうすれば、次回プレイのときに、再度合成音声データを作成しなくとも、直ちに合成音声を出力できるようになる。
【0038】
以上説明したゲーム装置10によれば、2つの基礎音声データを同じ音素に対応する区間で接続する際、その区間の内側に予め設定された接続候補区間の範囲内で接続位置を決定するので、接続に適しない位置で2つの基礎音声データが接続されてしまう事態を防止でき、合成音声の品質を向上させることができる。また、接続候補区間を安定発音区間内に設定しておけば、接続候補区間の範囲内で接続位置を決定する限り、2つの基礎音声データの接続部分を目立たなくすることができるため、波形比較やパラメータ比較等の重いデータ処理を必要とすることなく、簡易に高品質の合成音声データを生成することができる。さらに、接続候補位置を複数用意しておき、そこから具体的な接続位置を選出するようにしたので、極めて軽い処理で高品質の合成音声データを生成することができる。
【0039】
なお、本発明は以上説明した実施の形態に限定されるものではない。
【0040】
例えば、以上の説明ではCV形式及びVCV形式で記録された基礎音声データをV区間で接続して合成音声データを生成したが、CVC形式及びCV形式で記録された基礎音声データをC区間で接続して合成音声データを生成する場合も、C区間に接続候補区間を設定しておくことで、接続に適した位置で確実に2つの基礎音声データを接続することができるようになる。その他、基礎音声データの形式に依らず、同じ音素を表す音素区間で2つの基礎音声データを接続する場合は、その音素区間の内側に接続候補区間を設定しておき、その範囲内で接続位置を決定することで、接続に適した位置で確実に2つの基礎音声データを接続することができるようになる。
【0041】
また、以上の説明は本発明を家庭用ゲーム機11を用いて実施する例についてのものであるが、業務用ゲーム装置にも本発明は同様に適用可能である。この場合、DVD−ROM25及びDVD再生部24に代えてより高速な記憶装置を用い、モニタ18やスピーカ22も一体的に形成することが望ましい。
【0042】
さらに、以上の説明ではゲームプログラム及びゲームデータを格納したDVD−ROM25を家庭用ゲーム機11で使用するようにしたが、パーソナルコンピュータ等、ゲームプログラム及びゲームデータを記録した情報記憶媒体を読み取って、その読み取った内容に基づく情報処理が可能なコンピュータであれば、どのようなものでも使用することができる。
【0043】
【発明の効果】
以上説明したように、本発明では、2つの基礎音声データを同じ音素に対応する区間で接続する際に、その区間に対応する接続候補区間データを読みだし、該接続候補区間が特定する接続候補区間の範囲内で接続位置を決定するようにしたので、接続に適した位置で確実に2つの基礎音声データを接続することができ、以て合成音声の品質を向上させることができる。また、接続候補位置の中から接続位置を選出するようにすれば、高品質の合成音声を比較的軽い処理で生成することができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る音声合成方法の一例を説明する図である。
【図2】 本発明の実施の形態に係る音声合成方法の他の例を説明する図である。
【図3】 本発明の実施の形態に係るゲーム装置の構成を示す図である。
【図4】 各基礎音声データに対し、付加的に記憶されるデータを説明する図である。
【図5】 本発明の実施の形態に係るゲーム装置により実行される音声合成処理を説明するフロー図である。
【図6】 基礎音声データの接続位置決定処理について詳細に説明するフロー図である。
【図7】 基礎音声データの接続態様を示す図である。
【符号の説明】
10 ゲーム装置、11 家庭用ゲーム機、12 バス、14 マイクロプロセッサ、16 画像処理部、18 モニタ、20 音声処理部、22 スピーカ、24 DVD再生部、25 DVD−ROM、26 主記憶、30 入出力処理部、32 コントローラ。
Claims (6)
- 複数の基礎音声データを記憶する基礎音声データ記憶手段と、
前記複数の基礎音声データの中から合成音声に対応する基礎音声データ列を選出する基礎音声データ列選出手段と、
選出される前記基礎音声データ列を接続して合成音声を再生するための合成音声データを生成する合成音声データ生成手段と、
を含む音声合成装置において、
前記複数の基礎音声データのうち少なくとも2つの基礎音声データにそれぞれ対応づけて、該2つの基礎音声データにおける、同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、接続候補区間データを記憶する接続候補区間特定データ記憶手段と、
前記2つの基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定する音節長決定手段と、
をさらに含み、
前記合成音声データ生成手段は、前記基礎音声データ列選出手段により選出される前記基礎音声データ列に前記2つの基礎音声データが隣接して含まれる場合に、前記接続候補区間特定データ記憶手段から前記2つの基礎音声データに対応する接続候補区間特定データを読み出すとともに、該接続候補区間特定データにより特定される接続候補区間の範囲内で前記2つの基礎音声データのそれぞれについて、合成音声の音節の長さが前記音節長決定手段により決定される音節の長さとなるように接続位置を決定し、該接続位置にて前記2つの基礎音声データを接続する、ことを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置において、
各接続候補区間内に設定された複数の接続候補位置を特定する、接続候補位置特定データを記憶する接続候補位置特定データ記憶手段をさらに含み、
前記合成音声データ生成手段は、前記2つの基礎音声データに対応する接続候補区間特定データにより特定される接続候補区間内に設定された接続候補位置を前記接続候補位置特定データ記憶手段に記憶された前記接続候補位置特定データにより特定し、前記2つの基礎音声データのそれぞれについて該接続候補位置の中から前記接続位置を選出する、ことを特徴とする音声合成装置。 - 請求項1又は2に記載の音声合成装置において、
前記接続候補区間は、前記同じ音素の安定発声区間内に設定されることを特徴とする音声合成装置。 - 請求項1乃至3のいずれかに記載の音声合成装置において、
前記基礎音声データ列選出手段は、合成すべき音声を表す記号列を入力する記号列入力手段を含み、該記号列入力手段により入力される前記記号列に基づいて前記基礎音声データ列を選出することを特徴とする音声合成装置。 - 第1及び第2の基礎音声データのそれぞれに対応づけられ、前記第1及び第2の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、2つの接続候補区間データを取得するステップと、
前記第1及び第2の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長さを決定するステップと、
該2つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第1及び第2の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、
該接続位置にて前記第1及び第2の基礎音声データを接続するステップと、
を含むことを特徴とする音声合成方法。 - 第1及び第2の基礎音声データのそれぞれに対応づけられ、前記第1及び第2の基礎音声データにおける同じ音素に対応する区間の内側に設定された接続候補区間をそれぞれ特定する、2つの接続候補区間データを取得するステップと、
前記第1及び第2の基礎音声データの接続部分に対応する前記同じ音素を含む音節の長 さを決定するステップと、
該2つの接続候補区間特定データによりそれぞれ特定される接続候補区間の範囲内で前記第1及び第2の基礎音声データのそれぞれについて、合成音声の音節の長さが前記決定された音節の長さとなるように接続位置を決定するステップと、
該接続位置にて前記第1及び第2の基礎音声データを接続するステップと、
をコンピュータに実行させるためのプログラムを記憶した情報記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000263544A JP3718116B2 (ja) | 2000-08-31 | 2000-08-31 | 音声合成装置、音声合成方法及び情報記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000263544A JP3718116B2 (ja) | 2000-08-31 | 2000-08-31 | 音声合成装置、音声合成方法及び情報記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002073069A JP2002073069A (ja) | 2002-03-12 |
JP3718116B2 true JP3718116B2 (ja) | 2005-11-16 |
Family
ID=18751077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000263544A Expired - Fee Related JP3718116B2 (ja) | 2000-08-31 | 2000-08-31 | 音声合成装置、音声合成方法及び情報記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3718116B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4265501B2 (ja) | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP5423375B2 (ja) * | 2009-12-15 | 2014-02-19 | ヤマハ株式会社 | 音声合成装置 |
-
2000
- 2000-08-31 JP JP2000263544A patent/JP3718116B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002073069A (ja) | 2002-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH09204163A (ja) | カラオケの表示装置 | |
JPH08194495A (ja) | カラオケ装置 | |
JP5648347B2 (ja) | 音声合成装置 | |
KR20090005090A (ko) | 음성합성장치 및 그 방법 | |
JP5151245B2 (ja) | データ再生装置、データ再生方法およびプログラム | |
JP2007295218A (ja) | ノンリニア編集装置およびそのプログラム | |
JP2003311019A (ja) | ゲーム装置及びプログラム | |
JP4748568B2 (ja) | 歌唱練習システムおよび歌唱練習システム用プログラム | |
JP5887293B2 (ja) | カラオケ装置及びプログラム | |
JP3718116B2 (ja) | 音声合成装置、音声合成方法及び情報記憶媒体 | |
JP2006189471A (ja) | プログラム、歌唱力判定方法、ならびに、判定装置 | |
JP6170604B1 (ja) | 音声生成装置 | |
JP3463804B2 (ja) | 音声合成装置並びに方法及び情報記憶媒体 | |
JP2007256456A (ja) | コンテンツ提供装置およびコンテンツ提供方法 | |
JP2005055457A (ja) | 楽譜表示装置及びプログラム | |
JP5126627B2 (ja) | カラオケ装置 | |
JP2001042879A (ja) | カラオケ装置 | |
JP4651168B2 (ja) | 合成音声出力装置およびその方法並びに記録媒体 | |
JPH07334178A (ja) | 音楽再生装置 | |
JP6406182B2 (ja) | カラオケ装置、及びカラオケシステム | |
JP2002116785A (ja) | 音声合成装置並びに方法及び情報記憶媒体 | |
JP6185136B1 (ja) | 音声生成プログラムおよびゲーム装置 | |
JP5184234B2 (ja) | データ生成装置及びデータ生成プログラム、並びに、再生装置 | |
JP2005321520A (ja) | 音声合成装置及びそのプログラム | |
JP3963141B2 (ja) | 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030805 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050901 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090909 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090909 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090909 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090909 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100909 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110909 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110909 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120909 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130909 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130909 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |