JP3463804B2

JP3463804B2 - 音声合成装置並びに方法及び情報記憶媒体

Info

Publication number: JP3463804B2
Application number: JP2000306614A
Authority: JP
Inventors: 治笠井; 稔幸溝口
Original assignee: 株式会社コナミコンピュータエンタテインメント東京
Priority date: 2000-10-05
Filing date: 2000-10-05
Publication date: 2003-11-05
Anticipated expiration: 2020-10-05
Also published as: JP2002116786A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声合成装置並びに
方法及び情報記憶媒体に関し、特に複数の音声データを
接続して合成音声データを生成する技術に関する。

【０００２】

【従来の技術】音声は人間にとって最も自然な情報伝達
手段であることから、各種家電製品の他、家庭用又は業
務用ゲーム機、或いはゲームソフトウェアにも音声合成
技術の利用範囲が広がりつつある。例えば、予めプレイ
ヤの名前を文字入力させておき、その入力された文字を
音声合成してゲームの中で適宜発音するようにすれば、
ゲームの面白さをさらに増すことができる。

【０００３】従来、各種の音声合成技術が提案されてい
るが、その中でも自然音声の波形そのもの、或いは自然
音声又はそれに準ずる音声の波形を復元するためのパラ
メータを記録してなる基礎音声データを予め多数用意し
ておき、それを例えばユーザが入力した文字列等に応じ
て組み合わせることにより、合成音声の波形を表す合成
音声データを生成する技術は、合成音声を比較的自然な
ものとすることができる点で利用価値が高い。

【０００４】上記音声合成技術は、具体的には、多数の
基礎音声データの中から合成音声に対応する基礎音声デ
ータ列を選出し、それを接続することにより合成音声を
再生するための合成音声データを生成する。このとき、
基礎音声データは、予め多数用意されたフレーズデータ
のいずれかから抽出されるものである。

【０００５】例えば基礎音声データをＣＶ（子音−母
音）形式及びＶＣＶ（母音−子音−母音）で記録してお
く場合、各フレーズデータからＣＶ単位又はＶＣＶ単位
の音声データが抽出され、それが基礎音声データとされ
る。このとき、ＣＶ単位を表す基礎音声データとＶＣＶ
単位を表す基礎音声データとは、同一音素のＶ区間によ
り接続される。ＶＣＶ単位を表す基礎音声データ同士の
接続も同様である。

【０００６】また、基礎音声データをＣＶＣ（子音−母
音−母音）及びＣＶ形式で記録しておく場合、各フレー
ズデータからＣＶＣ単位又はＣＶ単位の音声データが抽
出され、それが基礎音声データとされる。このとき、Ｃ
ＶＣ単位を表す基礎音声データとＣＶ単位を表す基礎音
声データとは、同一音素のＣ区間により接続される。Ｃ
ＶＣ単位を表す基礎音声データ同士の接続も同様であ
る。

【０００７】

【発明が解決しようとする課題】上記音声合成技術で
は、異なるフレーズデータから抽出された複数の基礎音
声データを接続して合成音声データを生成するため、合
成しようとする音声と韻律が似通ったフレーズデータか
ら基礎音声データを抽出して、それを滑らかに接続しな
ければ、合成音声に違和感が残ることになる。しかしな
がら、合成音声データを多数の基礎音声データを接続し
て生成しなければならないとすると、それらをいくら滑
らかに接続したとしても、合成音声の品質向上に限界が
ある。

【０００８】本発明は上記課題に鑑みてなされたもので
あって、その目的は、複数の音声データを接続して合成
音声データを生成する場合に、その接続数を減らし、以
って合成音声の品質を高めることのできる音声合成装置
並びに方法及び情報記憶媒体を提供することにある。

【０００９】

【課題を解決するための手段】上記課題を解決するため
に、本発明に係る音声合成装置は、複数のフレーズデー
タを記憶するフレーズデータ記憶手段と、音声合成の対
象音素列の先頭音素をその先頭音素とする複数の先頭音
素共通音素列を抽出するとともに、前記対象音素列の最
後尾音素をその最後尾音素とする複数の最後尾音素共通
音素列を抽出する音素列抽出手段と、前記複数のフレー
ズデータが表す音素列から前記音素列抽出手段により抽
出される音素列を検索する音素列検索手段と、検索によ
り発見された先頭音素共通音素列に対応する音声データ
のうち１つと、同じく検索により発見された最後尾音素
共通音素列に対応する音声データのうち１つとを前記複
数のフレーズデータのいずれかからそれぞれ抽出する音
声データ抽出手段と、前記音声データ抽出手段によって
抽出された先頭音素共通音列と最後尾音素共通音素列と
のそれぞれに対応する音声データの音素列の長さを加算
した値が、音声合成の対象音素列の長さ未満である場合
に、音声合成の対象音素列の残余部分に対応する音声デ
ータを抽出する手段と、前記抽出された、先頭音素共通
音列と最後尾音素共通音素列とのそれぞれに対応する音
声データと、前記音声合成の対象音素列の残余部分に対
応する音声データとに基づいて、前記音声合成の対象音
素列に対応する合成音声データを生成する合成音声デー
タ生成手段と、を含むことを特徴とする。

【００１０】また、本発明に係る音声合成方法は、音声
合成の対象音素列の先頭音素をその先頭音素とする複数
の先頭音素共通音素列を抽出するとともに、前記対象音
素列の最後尾音素をその最後尾音素とする複数の最後尾
音素共通音素列を抽出する音素列抽出ステップと、予め
記憶されている複数のフレーズデータが表す音素列から
前記音素列抽出手段により抽出される音素列を検索する
音素列検索ステップと、検索により発見された先頭音素
共通音素列に対応する音声データのうち１つと、同じく
検索により発見された最後尾音素共通音素列に対応する
音声データのうち１つとを前記複数のフレーズデータの
いずれかからそれぞれ抽出する音声データ抽出ステップ
と、前記抽出された先頭音素共通音列と最後尾音素共通
音素列とのそれぞれに対応する音声データの音素列の長
さを加算した値が、音声合成の対象音素列の長さ未満で
ある場合に、音声合成の対象音素列の残余部分に対応す
る音声データを抽出するステップと、前記抽出された、
先頭音素共通音列と最後尾音素共通音素列とのそれぞれ
に対応する音声データと、前記音声合成の対象音素列の
残余部分に対応する音声データとに基づいて、前記音声
合成の対象音素列に対応する合成音声データを生成する
合成音声データ生成ステップと、を含むものである。

【００１１】さらに、本発明に係る情報記憶媒体は、音
声合成の対象音素列の先頭音素をその先頭音素とする複
数の先頭音素共通音素列を抽出するとともに、前記対象
音素列の最後尾音素をその最後尾音素とする複数の最後
尾音素共通音素列を抽出する音素列抽出ステップと、予
め記憶されている複数のフレーズデータが表す音素列か
ら前記音素列抽出手段により抽出される音素列を検索す
る音素列検索ステップと、検索により発見された先頭音
素共通音素列に対応する音声データのうち１つと、同じ
く検索により発見された最後尾音素共通音素列に対応す
る音声データのうち１つとを前記複数のフレーズデータ
のいずれかからそれぞれ抽出する音声データ抽出ステッ
プと、前記抽出された先頭音素共通音列と最後尾音素共
通音素列とのそれぞれに対応する音声データの音素列の
長さを加算した値が、音声合成の対象音素列の長さ未満
である場合に、音声合成の対象音素列の残余部分に対応
する音声データを抽出するステップと、前記抽出され
た、先頭音素共通音列と最後尾音素共通音素列とのそれ
ぞれに対応する音声データと、前記音声合成の対象音素
列の残余部分に対応する音声データとに基づいて、前記
音声合成の対象音素列に対応する合成音声データを生成
する合成音声データ生成ステップと、をコンピュータに
実行させるためのプログラムを記憶したものである。

【００１２】本発明では、音声合成の対象音素列から複
数の音素列が抽出される。これら音素列は先頭音素又は
最後尾音素が共通するものであり、例えば音声合成の対
象音素列に含まれる、ある１つの音素を共に先頭音素又
は最後尾音素とするものである。複数の音素列の先頭音
素又は最後尾音素は、合成音素の対象音素列の先頭音素
又は最後尾音素と同じである必要はない。本発明では、
複数のフレーズデータが表す音素列から、それら複数の
音素列がそれぞれ検索される。最後に、検索により発見
された音素列のうち１つに対応する音声データが複数の
フレーズデータのいずれかから抽出され、それに基づい
て合成音声データが生成される。こうすれば、検索によ
り発見された音素列のうち長い方に対応する音声データ
をフレーズデータから抽出し、それに基づいて合成音声
データを生成することができ、音声データの接続数を減
らすことができる。その結果、合成音声の品質を向上さ
せることができるようになる。

【００１３】また、本発明の一態様においては、前記音
声データ抽出手段は、前記検索により発見された音素列
のうち最長の音素列に対応する音声データを前記複数の
フレーズデータのいずれかから抽出する。こうすれば、
合成音声データの生成に用いる音声データをできるだけ
長い音素列に対応するものにでき、音声データのさらに
接続数を減らして、合成音声の品質向上を図ることがで
きる。

【００１４】また、本発明の一態様においては、前記音
素列抽出手段は、前記対象音素列の先頭音素をその先頭
音素とする複数の先頭音素共通音素列を抽出するととも
に、前記対象音素列の最後尾音素をその最後尾音素とす
る複数の最後尾音素共通音素列を抽出し、前記合成音声
データ生成手段は、検索により発見された先頭音素共通
音素列に対応する音声データのうち１つと、同じく検索
により発見された最後尾音素共通音素列に対応する音声
データのうち１つと、に基づいて合成音声データを生成
する。こうすれば、音声合成の対象音素列のうち、検索
により発見された先頭音素共通音素列のうち長い方の音
素列に対応する音声データと、同じく検索により発見さ
れた最後尾共通音素列のうち長い方の音素列に対応する
音声データと、に基づいて合成音声データを生成するこ
とができ、音声データの接続数を減らして、合成音声の
品質向上を図ることができる。

【００１５】特に、１つのフレーズデータからできるだ
け長い音声データを抽出し、それを合成音声データの先
頭に配置すれば、合成音声の滑らかさを強く印象づける
ことができる。また、１つのフレーズからできるだけ長
い音声データを抽出し、それを合成音声データの最後尾
に配置しても、合成音声の滑らかさを強く印象づけるこ
とができる。

【００１６】

【発明の実施の形態】以下、本発明の好適な実施の形態
について図面に基づき詳細に説明する。

【００１７】図１は、本発明の一実施形態に係るゲーム
装置の構成を示す図である。以下では、同図に示すゲー
ム装置１０により本発明に係る音声合成装置及び方法を
実現する例について説明する。同図に示すゲーム装置１
０は、家庭用ゲーム機１１にモニタ１８及びスピーカ２
２を接続し、さらに情報記憶媒体たるＤＶＤ−ＲＯＭ２
５を装着することによって構成される。ここでは、ゲー
ムプログラムやゲームデータを家庭用ゲーム機１１に供
給するためにＤＶＤ−ＲＯＭ２５を用いるが、ＣＤ−Ｒ
ＯＭやＲＯＭカード等、他のあらゆる情報記憶媒体を用
いることができる。また、通信ネットワークを介して遠
隔地からゲームプログラムやゲームデータを家庭用ゲー
ム機１１に供給することもできる。

【００１８】家庭用ゲーム機１１は、マイクロプロセッ
サ１４、画像処理部１６、主記憶２６及び入出力処理部
３０がバス１２により相互データ通信可能に接続され、
さらに入出力処理部３０には、コントローラ３２、音声
処理部２０及びＤＶＤ再生部２４が接続されている。コ
ントローラ３２以外の家庭用ゲーム機１１の各構成要素
は筐体内に収容されている。モニタ１８には例えば家庭
用のテレビ受像機が用いられ、スピーカ２２には例えば
その内蔵スピーカが用いられる。

【００１９】マイクロプロセッサ１４は、図示しないＲ
ＯＭに格納されるオペレーティングシステム（ＯＳ）や
ＤＶＤ−ＲＯＭ２５から読み出されるゲームプログラム
に基づいて、家庭用ゲーム機１１の各部を制御する。バ
ス１２はアドレス及びデータを家庭用ゲーム機１１の各
部でやり取りするためのものである。また、主記憶２６
には、ＤＶＤ−ＲＯＭ２５から読み取られたゲームプロ
グラム及びゲームデータが必要に応じて書き込まれる。
画像処理部１６はＶＲＡＭを含んで構成されており、マ
イクロプロセッサ１４から送られる画像データを受け取
ってＶＲＡＭ上にゲーム画面を描画するとともに、その
内容をビデオ信号に変換して所定タイミングでモニタ１
８に出力する。

【００２０】入出力処理部３０はコントローラ３２、音
声処理部２０及びＤＶＤ再生部２４とマイクロプロセッ
サ１４との間のデータ通信を中継するためのインターフ
ェースである。コントローラ３２はプレイヤがゲーム操
作をするための入力手段である。入出力処理部３０は一
定周期（例えば１／６０秒毎）にコントローラ３２の各
種ボタンの操作状態をスキャンし、そのスキャン結果を
表す操作信号をバス１２を介してマイクロプロセッサ１
４に渡す。マイクロプロセッサ１４は、その操作信号に
基づいてプレイヤのゲーム操作を判定する。音声処理部
２０はサウンドバッファを含んで構成されており、ＤＶ
Ｄ−ＲＯＭ２５から読み出されてサウンドバッファに記
憶された音楽やゲーム効果音等のデータを再生してスピ
ーカ２２から出力する。また、マイクロプロセッサ１４
により生成され、主記憶２６又は入出力処理部３０に接
続される図示しないメモリカードに記憶される合成音声
データを転送すると、それをスピーカ２２から再生出力
するようになっている。ＤＶＤ再生部２４は、マイクロ
プロセッサ１４からの指示に従ってＤＶＤ−ＲＯＭ２５
に記録されたゲームプログラム及びゲームデータを読み
取る。

【００２１】以上の構成を有するゲーム装置１０におい
て、ＤＶＤ−ＲＯＭ２５には、多数のフレーズデータ、
図２に示されるフレーズテーブル、及び図３に示される
基礎音声データ特定テーブルが予め格納されている。ま
た、これらのデータを処理して合成音声データを生成す
るためのプログラムもＤＶＤ−ＲＯＭ２５に格納されて
いる。

【００２２】フレーズデータは基礎音声データの抽出元
である音声データ（ここで波形データそのものをフレー
ズデータとして保持しておく方式を採用するが、波形を
復元可能な各種パラメータを保持しておく方式を採用し
てもよい。）であり、予め多数のフレーズがナレータに
より発声され、それぞれフレーズデータとして収録され
ている。このフレーズデータから基礎音声データ特定テ
ーブルに基づいて基礎音声データが抽出される。例え
ば、「たけだ（ＴＡＫＥＤＡ）」をナレータが発声して
得られるフレーズデータからは、ＣＶ又はＶＣＶ単位で
ある「ＴＡ」、「ＡＫＥ」及び「ＥＤＡ」を表す３つの
基礎音声データが抽出される。以下では、基礎音声デー
タはＣＶ単位又はＶＣＶ単位を表し、全種類のＣＶ形式
及びＶＣＶ形式の基礎音声データが基礎音声データ特定
テーブルに基づいていずれかのフレーズデータから抽出
可能であるものとするが、基礎音声データがＣＶＣ単位
又はＣＶ単位を表し、全種類のＣＶＣ形式及びＣＶ形式
の基礎音声データがいずれかのフレーズデータから抽出
可能である方式を採用してもよい。

【００２３】図２に示されるフレーズテーブルは、各フ
レーズデータの内容を記録したものであり、各フレーズ
データにつき、フレーズＩＤ、音素列、アクセント型及
び基礎音声データＩＤ列を対応づけて記憶している。フ
レーズＩＤは各フレーズデータを識別する番号であり、
対応するフレーズデータに割り当てられた番号が記録さ
れる。音素列は、そのフレーズデータが、どの音素列を
ナレータが読み上げることにより得られたものであるか
を示している。アクセント型はそのフレーズが読み上げ
られたときの高低（ピッチ）を示すものである。基礎音
声データＩＤ列は、そのフレーズデータから抽出される
基礎音声データのＩＤを前から順に記したものである。

【００２４】一方、図３に示される基礎音声データ特定
テーブルは、フレーズデータから基礎音声データを抽出
するために参照されるものであり、基礎音声データＩ
Ｄ、フレーズＩＤ、音素列種類、開始並びに終了タイミ
ング、及び前接続候補タイミング並びに後接続候補タイ
ミング、各基礎音声データに対応づけて記憶されてい
る。基礎音声データＩＤは基礎音声データを識別するた
めの番号である。フレーズＩＤは当該基礎音声データの
抽出元フレーズデータを識別する番号である。音素列種
類は当該基礎音声データが表す音素列（ＣＶ又はＶＣＶ
単位）を音素記号により記したものである。開始及び終
了タイミングは、フレーズデータにおける基礎音声デー
タの位置を特定する情報であり、フレーズＩＤにより特
定されるフレーズデータにおいて、当該開始タイミング
から終了タイミングまでの部分を読み出すことにより、
基礎音声データを抽出することができるようになってい
る。前接続候補タイミングは、前方に他の基礎音声デー
タを接続するのに適したタイミングの候補を列挙したも
のである。また、後接続候補タイミングは、後方に他の
基礎音声データを接続するのに適したタイミングの候補
を列挙したものである。なお、同図に示す基礎音声デー
タ特定テーブルにおいて、ＣＶ単位の基礎音声データに
対しては、前接続候補タイミングは記憶されない。

【００２５】図４は、フレーズデータ及び基礎音声デー
タと、開始並びに終了タイミング及び前後接続候補タイ
ミングと、の関係を示す図である。同図では、「なかた
（ＮＡＫＡＴＡ）」の音素列を表すフレーズデータか
ら、音素列種類「ＮＡ」の基礎音声データ、音素列種類
「ＡＫＡ」の基礎音声データ、及び音素列種類「ＡＴ
Ａ」の基礎音声データを抽出する様子を示している。同
図では、音素列種類「ＮＡ」の基礎音声データの開始及
び終了タイミングは、「なかた」の音素列を表すフレー
ズデータにおいて、それぞれ先頭からｔｓ^{（００４）}及
びｔｅ^{（００４）}に位置することが示されている。ま
た、音素列種類「ＡＫＡ」の基礎音声データの開始及び
終了タイミングは、それぞれ先頭からｔｓ^{（００５）}及
びｔｅ^（００５ ^）に位置することが示されている。ま
た、音素列種類「ＡＴＡ」の基礎音声データの開始及び
終了タイミングは、それぞれ先頭からｔｓ^{（００６）}及
びｔｅ^（０ ^０６）に位置することが示されている。

【００２６】また、同図において、各基礎音声データの
各Ｖ区間には前接続候補タイミング又は後接続候補タイ
ミングが設定されている。接続候補タイミングは、基礎
音声データの接続に適した具体的位置の候補であり、例
えば各Ｖ区間内で周期波形（当該音素の基本周波数をｆ
０として、１／ｆ０毎に現れる）の１ピッチを同定す
る、ある開始点（ピッチマーク）を接続候補位置として
選ぶようにすればよい。その他、声門閉鎖点を接続候補
タイミングとして選ぶようにしてもよい。

【００２７】図５は、ゲーム装置１０で実行される音声
合成処理について説明するフロー図である。同図に示さ
れる音声合成処理は、合成音声データを生成し、それを
主記憶２６等に格納するものである。この処理はＤＶＤ
−ＲＯＭ２５に格納されているゲームプログラムに基づ
き、例えばゲーム開始時等に実行される。この処理によ
り生成された合成音声データは、ゲームプログラムに従
って適宜主記憶２６等から読み出され、音声処理部２０
に転送される。そして、音声処理部２０により合成音声
データが再生され、合成音声がスピーカ２２から出力さ
れる。こうして、合成音声によりゲームを盛り上げるこ
とができる。

【００２８】同図に示すように、この音声合成処理で
は、まずプレイヤがコントローラ３２により自分の名前
等のテキスト（記号列）を入力する（Ｓ１０１）。例え
ば、モニタ１８にテキスト一覧を表示しておき、コント
ローラ３２により順に自分の名前等を表すテキストを指
定すると、それが主記憶２６に一旦格納されるようにす
る。ここで入力されるテキストは音声合成の対象とされ
る。次に、入力されたテキストを解析する（Ｓ１０
２）。具体的には、ここでマイクロプロセッサ１４が入
力済みテキストを音素列に変換するとともに、それをＣ
Ｖ及びＶＣＶ単位の組合せにより再表現する。

【００２９】さらに、マイクロプロセッサ１４は入力済
みテキストのアクセント型を決定する（Ｓ１０３）。ア
クセント型の決定は、例えばＤＶＤ−ＲＯＭ２５にアク
セント辞書を用意しておき、このアクセント辞書を参照
することにより行う。このアクセント辞書は、プレイヤ
により入力が予想されるテキスト（プレイヤが自分の名
前を入力する場合には代表的な日本人の名前）に対し、
そのアクセント型を収録したものである。Ｓ１０１で入
力されたテキストがアクセント辞書に存在すれば、その
アクセント型を入力テキストのアクセント型として採用
する。また、存在しない場合、モーラ数が等しく、且つ
テキスト自体も類似しているテキストのアクセント型を
採用する。複数存在する場合には、プレイヤの選択に委
ねるようにしてもよい。

【００３０】その後、テキスト解析（Ｓ１０２）で得ら
れたＣＶ及びＶＣＶ単位の組合せによる入力済みテキス
トの表現、及びアクセント型決定（Ｓ１０３）で得られ
たアクセント型に基づき、入力済みテキストに対応する
音声データ列を選び出す（Ｓ１０４）。

【００３１】図６は、この音声データ列選出処理をさら
に詳細に説明するフロー図である。同図に示すように、
この処理では、まず検索対象音素列として入力音素列
（入力テキストを音素表現したもの）を設定する（Ｓ２
０１）。次に、フレーズテーブル（図２）を参照しなが
ら、検索対象音素列と語頭部分のアクセント型が共通す
るフレーズをフレーズデータ群の中から抽出する（Ｓ２
０２）。アクセント型はＳ１０３で決定されたものを用
いる。さらに、Ｓ２０２で抽出された各フレーズの語頭
に、検索対象音素列と同じ音素列が含まれていないかを
調べる（Ｓ２０３）。いずれのフレーズの語頭にも検索
対象音素列と同じ音素列が含まれていなければ、検索対
象音素列の最後尾の音素をＶＣＶ単位で減らし、検索対
象音素列を更新する（Ｓ２０４）。例えば、入力音素列
が「ＮＡＫＡＭＵＲＡ」であれば、当初の検索対象音素
列を「ＮＡＫＡＭＵＲＡ」に設定し、「ＮＡＫＡＭＵＲ
Ａ」を語頭に含むフレーズが抽出フレーズに無ければ、
最後尾のＶＣＶ単位、すなわち「ＵＲＡ」を削除し、
「ＮＡＫＡＭＵ」を新たな検索対象音素列とする。基礎
音声データの形式に応じて、ＣＶ単位等、その他の単位
で検索対象音素列を短くしていくようにしてもよい。そ
うして、再び、新たな検索対象音素列のアクセント型
と、語頭部分のアクセント型が共通するフレーズを、フ
レーズデータ群の中から抽出し（Ｓ２０２）、その中に
語頭に検索対象音素列と同じ音素列が含まれていないか
を調べる（Ｓ２０３）。こうして、語頭に検索対象音素
列と同じ音素列が含まれているフレーズデータが抽出フ
レーズデータに見つかれば（Ｓ２０３）、そのときの検
索対象音素列の長さを変数Ｌ_ＦＭＡＸに設定する（Ｓ２
０５）。

【００３２】このときの検索対象音素列については、フ
レーズデータの１つから対応する音声データを抽出可能
であり、この音声データは、１つのフレーズデータから
抽出可能な、最長の音素列に対応したものとなる。Ｓ２
０５ではさらに、検索対象音素列に対応する音声データ
を後刻抽出できるように、基礎音声データ特定テーブル
（図３）から、フレーズＩＤ、検索対象音素列の先頭音
素（ＣＶ単位又はＶＣＶ単位）の開始タイミング、及び
検索対象音素列の最後尾音素（ＣＶ単位又はＶＣＶ単
位）の後接続候補タイミングを読み出し、それを一時保
存しておく。

【００３３】次に、検索対象音素列として、入力音素列
から先頭音素をＣＶ単位で取り除いたものを再設定する
（Ｓ２０６）。例えば、入力音素列が「ＮＡＫＡＭＵＲ
Ａ」であれば、先頭のＣＶ単位、すなわち「ＮＡ」を入
力音素列から取り除き、「ＡＫＡＭＵＲＡ」を検索対象
音素列に設定する。基礎音声データの形式に応じて、Ｃ
ＶＣ単位等、その他の単位で検索対象音素列を短くして
いくようにしてもよい。その後、フレーズテーブル（図
２）を参照しながら、検索対象音素列と語尾部分のアク
セント型が共通するフレーズをフレーズデータ群の中か
ら抽出する（Ｓ２０７）。アクセント型はＳ１０３で決
定されたものを用いる。さらに、Ｓ２０７で抽出された
各フレーズの語尾に、検索対象音素列と同じ音素列が含
まれていないかを調べる（Ｓ２０８）。いずれのフレー
ズの語尾にも検索対象音素列と同じ音素列が含まれてい
なければ、検索対象音素列の先頭音素をＶＣＶ単位で減
らし、検索対象音素列を更新する（Ｓ２０９）。例え
ば、検索対象音素列が「ＡＭＵＲＡ」である場合、先頭
のＶＣＶ単位、すなわち「ＡＭＵ」を減らし、「ＵＲ
Ａ」を新たな検索対象音素列とする。そして、再び、新
たな検索対象音素列のアクセント型と、語尾部分のアク
セント型が共通するフレーズを、フレーズデータ群の中
から抽出し（Ｓ２０７）、その中に語尾に検索対象音素
列と同じ音素列が含まれていないかを調べる（Ｓ２０
８）。こうして、語尾に検索対象音素列と同じ音素列が
含まれているフレーズデータが抽出フレーズデータに見
つかれば（Ｓ２０８）、そのときの検索対象音素列の長
さを変数Ｌ_ＢＭＡＸに設定する（Ｓ２１０）。

【００３４】このときの検索対象音素列については、フ
レーズデータの１つから対応する音声データを抽出可能
であり、この音声データは、１つのフレーズデータから
抽出可能な、最長の音素列に対応したものとなる。Ｓ２
１０ではさらに、検索対象音素列に対応する音声データ
を後刻抽出できるように、基礎音声データ特定テーブル
（図３）から、フレーズＩＤ、検索対象音素列の先頭音
素（ＣＶ単位又はＶＣＶ単位）の後接続候補タイミン
グ、及び検索対象音素列の最後尾音素（ＣＶ単位又はＶ
ＣＶ単位）の終了タイミングを読み出し、それを一時保
存しておく。

【００３５】次に、変数Ｌ_ＦＭＡＸと変数Ｌ_ＢＭＡＸと
を加算した値が元々の入力音素列長Ｌ以上であるかを調
べる（Ｓ２１１）。入力音素長Ｌ未満であれば、残りの
音素部分について音声データを選出する（Ｓ２１２）。
すなわち、変数Ｌ_{ＦＭＡＸと}変数Ｌ_ＢＭＡＸとを加算し
た値が入力音素列長Ｌ未満である場合には、すでに選出
した音声データだけでは入力音素列の全てを表現しきれ
ない。このため、残余部分、すなわち入力音素列の中盤
部分に対応する音声データをさらに他のフレーズデータ
から抽出すべく、検索処理を行う。このＳ２１２の処理
では、例えば従来同様、基礎音声データの組み合わせに
より残余部分を表現するようにしてもよいし、Ｓ２０１
乃至Ｓ２１０の処理を再帰的に適用してもよい。この場
合、各検索対象音素列のアクセント型をフレーズ中盤に
有するフレーズをフレーズテーブルから抽出し、その中
から音声データを探すようにする。すなわち、入力音素
列の中程に含まれる音素を先頭音素又は最後尾音素とす
る音素列のうち、できるだけ長いものに対応する音声デ
ータを探すようにする。なお、Ｓ２１１において入力音
素列長Ｌ以上であると判断されれば、Ｓ２１２の処理を
スキップする。

【００３６】最後に、検索により各フレーズデータ中に
発見された音声データを相互接続するためのタイミング
を決定する（Ｓ２１３）。図７は、図６に示される音声
データ選択選出処理で生成される中間データを示してい
る。この中間データは、フレーズＩＤ、読み出し開始位
置、及び読み出し終了位置を各音声データについて記録
したものであり、このデータに基づき、上から順にフレ
ーズＩＤで特定されるフレーズデータから、読み出し開
始位置及び読み出し終了位置の部分を読み出し、それを
順に接続していくことで、合成音声データを生成するこ
とができるようになっている。この中間データでは、入
力音素列の語頭部分に対応する音声データ（同中間デー
タの先頭レコードに対応する。）については、Ｓ２０５
で一時保存されたフレーズＩＤが同中間データのフレー
ズＩＤの部分に格納される。また、先頭音素（ＣＶ単
位）の開始タイミングが読み出し開始位置として格納さ
れる。さらに、最後尾音素（ＶＣＶ単位）の後接続候補
タイミングのいずれかが読み出し終了位置として格納さ
れる。

【００３７】また、入力音素列の語尾部分に対応する音
声データ（同中間データの最後のレコードに対応す
る。）については、Ｓ２１０で一時保存されたフレーズ
ＩＤが同中間データのフレーズＩＤの部分に格納され
る。また、先頭音素（ＶＣＶ単位）の前接続候補タイミ
ングが読み出し開始位置として格納される。さらに、最
後尾音素（ＶＣＶ単位）の終了タイミングが読み出し終
了位置として格納される。さらに、Ｓ２１２で選出され
る残余部分に対応する音声データも同中間データに記録
される。また、接続候補タイミングの中から１つのタイ
ミングを実際の接続タイミングとして選択する場合、例
えば入力テキストの各音節の長さをモデルデータから推
定し、その推定値に合致するよう選択すればよい。

【００３８】図５に戻り、その後、Ｓ１０４で選出され
た音声データ列を接続する（Ｓ１０５）。このとき、図
７に示す中間データにより、各音声データの開始部分又
は終了部分を決定する。すなわち、中間データに列記さ
れた各フレーズＩＤによって特定されるフレーズデータ
から、読み出し開始及び終了タイミングの部分の音声デ
ータを順次読み出し、それを前方（先に再生される方）
の音声データに接続する。こうして音声データ列を接続
して合成音声データを作成する。そして、作成した合成
音声データを主記憶２６に格納しておく（Ｓ１０６）。
こうして記憶された合成音声データは、図示しないゲー
ムプログラムに従って適宜読み出され、ゲームの演出と
してスピーカ２２から再生出力される。また、入出力処
理部３０に不揮発性のメモリカードを着脱可能に接続し
ておき、そこに合成音声データを格納するようにしても
よい。こうすれば、次回プレイのときに、再度合成音声
データを作成しなくとも、直ちに合成音声を出力できる
ようになる。

【００３９】図８は、以上説明した音声合成処理によ
り、入力テキスト「なかむら（ＮＡＫＡＭＵＲＡ）」か
ら合成音声データを生成する様子を示している。この
「なかむら」はＳ１０１のテキスト入力により取得され
るものであり、Ｓ１０２のテキスト解析処理において、
音素列種類「ＮＡ」、「ＡＫＡ」、「ＡＭＵ」及び「Ｕ
ＲＡ」の基礎音声データに分解される。このうち、最初
の２つを表す音声データは、フレーズＩＤが「００２」
の「なかた（ＮＡＫＡＴＡ）」を表すフレーズデータか
ら抽出され、後の２つを表す音声データは、フレーズＩ
Ｄが「００４」の「おかむら（ＯＫＡＭＵＲＡ）」を表
すフレーズデータから抽出される。両者は、音素種類
「ＡＫＡ」の基礎音声データに対応する後接続候補タイ
ミングｔｂ^（０ ^０５）と、音素種類「ＡＭＵ」の基礎音
声データに対応する前接続候補タイミングｔｆ
^{（０１２）}と、で接続される。

【００４０】以上説明したように、ゲーム装置１０にお
ける音声合成処理では、入力音素列から先頭又は最後尾
音素を共通とする複数の音素列を抽出し、それを検索対
象音素列としてフレーズテーブルに記載された各フレー
ズデータが表す音素列から検索している。そして、検索
により発見された音素列のうち１つ、具体的には最長の
ものに対応する音声データをフレーズデータから抽出
し、その抽出される音声データに基づいて合成音声デー
タを生成している。このため、入力音素列からできるだ
け長い音素列を抽出し、それに対応する音声データを単
一のフレーズデータから抽出するようにでき、音声デー
タの接続数を減らして合成音声の品質を向上させること
ができる。

【００４１】なお、本発明は以上説明した実施の形態に
限定されるものではない。

【００４２】例えば、以上の説明ではＣＶ又はＶＣＶ単
位で入力音素列を処理するようにしたが、ＣＶＣ又はＣ
Ｖ単位で処理するようにしてもよい。この場合は基礎音
声データ特定テーブルによりＣＶＣ単位又はＣＶ単位の
基礎音声データをフレーズデータから特定できるように
しておけばよい。さらに、基礎音声特定テーブルによ
り、ＶＣＶ、ＣＶＣ、ＣＶ、ＶＣ単位のいずれの基礎音
声データも、フレーズデータから特定できるようにして
おけば、図６に示す音声データ選出処理にて、検索対象
音素列をＶＣＶ、ＣＶＣ、ＣＶ又はＶＣ単位のいずれで
も縮めることができるようになるため、さらに長い音声
データを１つのフレーズデータから抽出できるようにな
る。

【００４３】また、以上の説明では検索対象文字列と同
じアクセント型との条件でフレーズデータを一旦絞り込
み、その範囲で検索対象音素列を検索するようにした
が、フレーズテーブルにおいて、各フレーズのパラ言語
的特徴（発声のときの感情等）を記憶しておき、それに
より検索範囲のフレーズデータを絞り込むようにしても
よい。

【００４４】また、以上の説明は本発明を家庭用ゲーム
機１１を用いて実施する例についてのものであるが、業
務用ゲーム装置にも本発明は同様に適用可能である。こ
の場合、ＤＶＤ−ＲＯＭ２５及びＤＶＤ再生部２４に代
えてより高速な記憶装置を用い、モニタ１８やスピーカ
２２も一体的に形成することが望ましい。

【００４５】さらに、以上の説明ではゲームプログラム
及びゲームデータを格納したＤＶＤ−ＲＯＭ２５を家庭
用ゲーム機１１で使用するようにしたが、パーソナルコ
ンピュータ等、ゲームプログラム及びゲームデータを記
録した情報記憶媒体を読み取って、その読み取った内容
に基づく情報処理が可能なコンピュータであれば、どの
ようなものでも使用することができる。また、ゲームプ
ログラム及びゲームデータの格納には、ＤＶＤ−ＲＯＭ
２５の他、あらゆる情報記憶媒体を採用することができ
る。

【００４６】

【発明の効果】以上説明したように、本発明によれば、
音声合成の対象音素列から先頭音素又は最後尾音素が共
通する複数の音素列を抽出し、それを複数のフレーズデ
ータが表す音素列から検索するようにしたので、複数の
音素列長でフレーズデータから抽出可能な音声データを
調べることができる。また、検索により発見された音素
列のうち１つに対応する音声データを複数のフレーズデ
ータのいずれかから抽出し、それに基づいて合成音声デ
ータを生成するようにしたので、検索により発見された
音素列のうち長い方に対応する音声データをフレーズデ
ータから抽出し、それに基づいて合成音声データを生成
することができる。このため、音声データの接続数を減
らすことがで、合成音声の品質を向上させることができ
る。

【図面の簡単な説明】

【図１】本発明の実施の形態に係るゲーム装置の構成
を示す図である。

【図２】フレーズテーブルを示す図である。

【図３】基礎音声データ特定テーブルを示す図であ
る。

【図４】基礎音声データ特定テーブルの記憶内容を説
明する図である。

【図５】本発明の実施の形態に係る合成音声データ生
成処理を説明するフロー図である。

【図６】音声データ選出処理を詳細に説明するフロー
図である。

【図７】音声データ選出処理で生成される中間データ
を示す図である。

【図８】本発明の実施の形態に係る音声合成処理を模
式的に示す図である。

【符号の説明】

１０ゲーム装置、１１家庭用ゲーム機、１２バ
ス、１４マイクロプロセッサ、１６画像処理部、１
８モニタ、２０音声処理部、２２スピーカ、２４
ＤＶＤ再生部、２５ＤＶＤ−ＲＯＭ、２６主記
憶、３０入出力処理部、３２コントローラ。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−264800（ＪＰ，Ａ) 特開平10−39895（ＪＰ，Ａ) 特開平７−160291（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/06

Claims

(57)【特許請求の範囲】

【請求項１】複数のフレーズデータを記憶するフレー
ズデータ記憶手段と、音声合成の対象音素列の先頭音素をその先頭音素とする
複数の先頭音素共通音素列を抽出するとともに、前記対
象音素列の最後尾音素をその最後尾音素とする複数の最
後尾音素共通音素列を抽出する音素列抽出手段と、前記複数のフレーズデータが表す音素列から前記音素列
抽出手段により抽出される音素列を検索する音素列検索
手段と、検索により発見された先頭音素共通音素列に対応する音
声データのうち１つと、同じく検索により発見された最
後尾音素共通音素列に対応する音声データのうち１つと
を前記複数のフレーズデータのいずれかからそれぞれ抽
出する音声データ抽出手段と、前記音声データ抽出手段によって抽出された先頭音素共
通音列と最後尾音素共通音素列とのそれぞれに対応する
音声データの音素列の長さを加算した値が、音声合成の
対象音素列の長さ未満である場合に、音声合成の対象音
素列の残余部分に対応する音声データを抽出する手段
と、前記抽出された、先頭音素共通音列と最後尾音素共通音
素列とのそれぞれに対応する音声データと、前記音声合
成の対象音素列の残余部分に対応する音声データとに基
づいて、前記音声合成の対象音素列に対応する合成音声
データを生成する合成音声データ生成手段と、を含むことを特徴とする音声合成装置。
【請求項２】請求項１に記載の音声合成装置におい
て、前記音声データ抽出手段は、前記検索により発見さ
れた先頭音素共通音列と最後尾音素共通音素列とのそれ
ぞれに対応する音声データのうち、最長の音素列に対応
する音声データを前記複数のフレーズデータのいずれか
からそれぞれ抽出することを特徴とする音声合成装置。
【請求項３】音声合成の対象音素列の先頭音素をその
先頭音素とする複数の先頭音素共通音素列を抽出すると
ともに、前記対象音素列の最後尾音素をその最後尾音素
とする複数の最後尾音素共通音素列を抽出する音素列抽
出ステップと、予め記憶されている複数のフレーズデータが表す音素列
から前記音素列抽出手段により抽出される音素列を検索
する音素列検索ステップと、検索により発見された先頭音素共通音素列に対応する音
声データのうち１つと、同じく検索により発見された最
後尾音素共通音素列に対応する音声データのうち１つと
を前記複数のフレーズデータのいずれかからそれぞれ抽
出する音声データ抽出ステップと、前記抽出された先頭音素共通音列と最後尾音素共通音素
列とのそれぞれに対応する音声データの音素列の長さを
加算した値が、音声合成の対象音素列の長さ未満である
場合に、音声合成の対象音素列の残余部分に対応する音
声データを抽出するステップと、前記抽出された、先頭音素共通音列と最後尾音素共通音
素列とのそれぞれに対応する音声データと、前記音声合
成の対象音素列の残余部分に対応する音声データとに基
づいて、前記音声合成の対象音素列に対応する合成音声
データを生成する合成音声データ生成ステップと、を含むことを特徴とする音声合成方法。
【請求項４】音声合成の対象音素列の先頭音素をその
先頭音素とする複数の先頭音素共通音素列を抽出すると
ともに、前記対象音素列の最後尾音素をその最後尾音素
とする複数の最後尾音素共通音素列を抽出する音素列抽
出ステップと、予め記憶されている複数のフレーズデータが表す音素列
から前記音素列抽出手段により抽出される音素列を検索
する音素列検索ステップと、検索により発見された先頭音素共通音素列に対応する音
声データのうち１つと、同じく検索により発見された最
後尾音素共通音素列に対応する音声データのうち１つと
を前記複数のフレーズデータのいずれかからそれぞれ抽
出する音声データ抽出ステップと、前記抽出された先頭音素共通音列と最後尾音素共通音素
列とのそれぞれに対応する音声データの音素列の長さを
加算した値が、音声合成の対象音素列の長さ未満である
場合に、音声合成の対象音素列の残余部分に対応する音
声データを抽出するステップと、前記抽出された、先頭音素共通音列と最後尾音素共通音
素列とのそれぞれに対応する音声データと、前記音声合
成の対象音素列の残余部分に対応する音声データとに基
づいて、前記音声合成の対象音素列に対応する合成音声
データを生成する合成音声データ生成ステップと、をコンピュータに実行させるためのプログラムを記憶し
た情報記憶媒体。