JP3463804B2 - 音声合成装置並びに方法及び情報記憶媒体 - Google Patents
音声合成装置並びに方法及び情報記憶媒体Info
- Publication number
- JP3463804B2 JP3463804B2 JP2000306614A JP2000306614A JP3463804B2 JP 3463804 B2 JP3463804 B2 JP 3463804B2 JP 2000306614 A JP2000306614 A JP 2000306614A JP 2000306614 A JP2000306614 A JP 2000306614A JP 3463804 B2 JP3463804 B2 JP 3463804B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- sequence
- voice data
- data
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
方法及び情報記憶媒体に関し、特に複数の音声データを
接続して合成音声データを生成する技術に関する。
手段であることから、各種家電製品の他、家庭用又は業
務用ゲーム機、或いはゲームソフトウェアにも音声合成
技術の利用範囲が広がりつつある。例えば、予めプレイ
ヤの名前を文字入力させておき、その入力された文字を
音声合成してゲームの中で適宜発音するようにすれば、
ゲームの面白さをさらに増すことができる。
るが、その中でも自然音声の波形そのもの、或いは自然
音声又はそれに準ずる音声の波形を復元するためのパラ
メータを記録してなる基礎音声データを予め多数用意し
ておき、それを例えばユーザが入力した文字列等に応じ
て組み合わせることにより、合成音声の波形を表す合成
音声データを生成する技術は、合成音声を比較的自然な
ものとすることができる点で利用価値が高い。
基礎音声データの中から合成音声に対応する基礎音声デ
ータ列を選出し、それを接続することにより合成音声を
再生するための合成音声データを生成する。このとき、
基礎音声データは、予め多数用意されたフレーズデータ
のいずれかから抽出されるものである。
音)形式及びVCV(母音−子音−母音)で記録してお
く場合、各フレーズデータからCV単位又はVCV単位
の音声データが抽出され、それが基礎音声データとされ
る。このとき、CV単位を表す基礎音声データとVCV
単位を表す基礎音声データとは、同一音素のV区間によ
り接続される。VCV単位を表す基礎音声データ同士の
接続も同様である。
音−母音)及びCV形式で記録しておく場合、各フレー
ズデータからCVC単位又はCV単位の音声データが抽
出され、それが基礎音声データとされる。このとき、C
VC単位を表す基礎音声データとCV単位を表す基礎音
声データとは、同一音素のC区間により接続される。C
VC単位を表す基礎音声データ同士の接続も同様であ
る。
は、異なるフレーズデータから抽出された複数の基礎音
声データを接続して合成音声データを生成するため、合
成しようとする音声と韻律が似通ったフレーズデータか
ら基礎音声データを抽出して、それを滑らかに接続しな
ければ、合成音声に違和感が残ることになる。しかしな
がら、合成音声データを多数の基礎音声データを接続し
て生成しなければならないとすると、それらをいくら滑
らかに接続したとしても、合成音声の品質向上に限界が
ある。
あって、その目的は、複数の音声データを接続して合成
音声データを生成する場合に、その接続数を減らし、以
って合成音声の品質を高めることのできる音声合成装置
並びに方法及び情報記憶媒体を提供することにある。
に、本発明に係る音声合成装置は、複数のフレーズデー
タを記憶するフレーズデータ記憶手段と、音声合成の対
象音素列の先頭音素をその先頭音素とする複数の先頭音
素共通音素列を抽出するとともに、前記対象音素列の最
後尾音素をその最後尾音素とする複数の最後尾音素共通
音素列を抽出する音素列抽出手段と、前記複数のフレー
ズデータが表す音素列から前記音素列抽出手段により抽
出される音素列を検索する音素列検索手段と、検索によ
り発見された先頭音素共通音素列に対応する音声データ
のうち1つと、同じく検索により発見された最後尾音素
共通音素列に対応する音声データのうち1つとを前記複
数のフレーズデータのいずれかからそれぞれ抽出する音
声データ抽出手段と、前記音声データ抽出手段によって
抽出された先頭音素共通音列と最後尾音素共通音素列と
のそれぞれに対応する音声データの音素列の長さを加算
した値が、音声合成の対象音素列の長さ未満である場合
に、音声合成の対象音素列の残余部分に対応する音声デ
ータを抽出する手段と、前記抽出された、先頭音素共通
音列と最後尾音素共通音素列とのそれぞれに対応する音
声データと、前記音声合成の対象音素列の残余部分に対
応する音声データとに基づいて、前記音声合成の対象音
素列に対応する合成音声データを生成する合成音声デー
タ生成手段と、を含むことを特徴とする。
合成の対象音素列の先頭音素をその先頭音素とする複数
の先頭音素共通音素列を抽出するとともに、前記対象音
素列の最後尾音素をその最後尾音素とする複数の最後尾
音素共通音素列を抽出する音素列抽出ステップと、予め
記憶されている複数のフレーズデータが表す音素列から
前記音素列抽出手段により抽出される音素列を検索する
音素列検索ステップと、検索により発見された先頭音素
共通音素列に対応する音声データのうち1つと、同じく
検索により発見された最後尾音素共通音素列に対応する
音声データのうち1つとを前記複数のフレーズデータの
いずれかからそれぞれ抽出する音声データ抽出ステップ
と、前記抽出された先頭音素共通音列と最後尾音素共通
音素列とのそれぞれに対応する音声データの音素列の長
さを加算した値が、音声合成の対象音素列の長さ未満で
ある場合に、音声合成の対象音素列の残余部分に対応す
る音声データを抽出するステップと、前記抽出された、
先頭音素共通音列と最後尾音素共通音素列とのそれぞれ
に対応する音声データと、前記音声合成の対象音素列の
残余部分に対応する音声データとに基づいて、前記音声
合成の対象音素列に対応する合成音声データを生成する
合成音声データ生成ステップと、を含むものである。
声合成の対象音素列の先頭音素をその先頭音素とする複
数の先頭音素共通音素列を抽出するとともに、前記対象
音素列の最後尾音素をその最後尾音素とする複数の最後
尾音素共通音素列を抽出する音素列抽出ステップと、予
め記憶されている複数のフレーズデータが表す音素列か
ら前記音素列抽出手段により抽出される音素列を検索す
る音素列検索ステップと、検索により発見された先頭音
素共通音素列に対応する音声データのうち1つと、同じ
く検索により発見された最後尾音素共通音素列に対応す
る音声データのうち1つとを前記複数のフレーズデータ
のいずれかからそれぞれ抽出する音声データ抽出ステッ
プと、前記抽出された先頭音素共通音列と最後尾音素共
通音素列とのそれぞれに対応する音声データの音素列の
長さを加算した値が、音声合成の対象音素列の長さ未満
である場合に、音声合成の対象音素列の残余部分に対応
する音声データを抽出するステップと、前記抽出され
た、先頭音素共通音列と最後尾音素共通音素列とのそれ
ぞれに対応する音声データと、前記音声合成の対象音素
列の残余部分に対応する音声データとに基づいて、前記
音声合成の対象音素列に対応する合成音声データを生成
する合成音声データ生成ステップと、をコンピュータに
実行させるためのプログラムを記憶したものである。
数の音素列が抽出される。これら音素列は先頭音素又は
最後尾音素が共通するものであり、例えば音声合成の対
象音素列に含まれる、ある1つの音素を共に先頭音素又
は最後尾音素とするものである。複数の音素列の先頭音
素又は最後尾音素は、合成音素の対象音素列の先頭音素
又は最後尾音素と同じである必要はない。本発明では、
複数のフレーズデータが表す音素列から、それら複数の
音素列がそれぞれ検索される。最後に、検索により発見
された音素列のうち1つに対応する音声データが複数の
フレーズデータのいずれかから抽出され、それに基づい
て合成音声データが生成される。こうすれば、検索によ
り発見された音素列のうち長い方に対応する音声データ
をフレーズデータから抽出し、それに基づいて合成音声
データを生成することができ、音声データの接続数を減
らすことができる。その結果、合成音声の品質を向上さ
せることができるようになる。
声データ抽出手段は、前記検索により発見された音素列
のうち最長の音素列に対応する音声データを前記複数の
フレーズデータのいずれかから抽出する。こうすれば、
合成音声データの生成に用いる音声データをできるだけ
長い音素列に対応するものにでき、音声データのさらに
接続数を減らして、合成音声の品質向上を図ることがで
きる。
素列抽出手段は、前記対象音素列の先頭音素をその先頭
音素とする複数の先頭音素共通音素列を抽出するととも
に、前記対象音素列の最後尾音素をその最後尾音素とす
る複数の最後尾音素共通音素列を抽出し、前記合成音声
データ生成手段は、検索により発見された先頭音素共通
音素列に対応する音声データのうち1つと、同じく検索
により発見された最後尾音素共通音素列に対応する音声
データのうち1つと、に基づいて合成音声データを生成
する。こうすれば、音声合成の対象音素列のうち、検索
により発見された先頭音素共通音素列のうち長い方の音
素列に対応する音声データと、同じく検索により発見さ
れた最後尾共通音素列のうち長い方の音素列に対応する
音声データと、に基づいて合成音声データを生成するこ
とができ、音声データの接続数を減らして、合成音声の
品質向上を図ることができる。
け長い音声データを抽出し、それを合成音声データの先
頭に配置すれば、合成音声の滑らかさを強く印象づける
ことができる。また、1つのフレーズからできるだけ長
い音声データを抽出し、それを合成音声データの最後尾
に配置しても、合成音声の滑らかさを強く印象づけるこ
とができる。
について図面に基づき詳細に説明する。
装置の構成を示す図である。以下では、同図に示すゲー
ム装置10により本発明に係る音声合成装置及び方法を
実現する例について説明する。同図に示すゲーム装置1
0は、家庭用ゲーム機11にモニタ18及びスピーカ2
2を接続し、さらに情報記憶媒体たるDVD−ROM2
5を装着することによって構成される。ここでは、ゲー
ムプログラムやゲームデータを家庭用ゲーム機11に供
給するためにDVD−ROM25を用いるが、CD−R
OMやROMカード等、他のあらゆる情報記憶媒体を用
いることができる。また、通信ネットワークを介して遠
隔地からゲームプログラムやゲームデータを家庭用ゲー
ム機11に供給することもできる。
サ14、画像処理部16、主記憶26及び入出力処理部
30がバス12により相互データ通信可能に接続され、
さらに入出力処理部30には、コントローラ32、音声
処理部20及びDVD再生部24が接続されている。コ
ントローラ32以外の家庭用ゲーム機11の各構成要素
は筐体内に収容されている。モニタ18には例えば家庭
用のテレビ受像機が用いられ、スピーカ22には例えば
その内蔵スピーカが用いられる。
OMに格納されるオペレーティングシステム(OS)や
DVD−ROM25から読み出されるゲームプログラム
に基づいて、家庭用ゲーム機11の各部を制御する。バ
ス12はアドレス及びデータを家庭用ゲーム機11の各
部でやり取りするためのものである。また、主記憶26
には、DVD−ROM25から読み取られたゲームプロ
グラム及びゲームデータが必要に応じて書き込まれる。
画像処理部16はVRAMを含んで構成されており、マ
イクロプロセッサ14から送られる画像データを受け取
ってVRAM上にゲーム画面を描画するとともに、その
内容をビデオ信号に変換して所定タイミングでモニタ1
8に出力する。
声処理部20及びDVD再生部24とマイクロプロセッ
サ14との間のデータ通信を中継するためのインターフ
ェースである。コントローラ32はプレイヤがゲーム操
作をするための入力手段である。入出力処理部30は一
定周期(例えば1/60秒毎)にコントローラ32の各
種ボタンの操作状態をスキャンし、そのスキャン結果を
表す操作信号をバス12を介してマイクロプロセッサ1
4に渡す。マイクロプロセッサ14は、その操作信号に
基づいてプレイヤのゲーム操作を判定する。音声処理部
20はサウンドバッファを含んで構成されており、DV
D−ROM25から読み出されてサウンドバッファに記
憶された音楽やゲーム効果音等のデータを再生してスピ
ーカ22から出力する。また、マイクロプロセッサ14
により生成され、主記憶26又は入出力処理部30に接
続される図示しないメモリカードに記憶される合成音声
データを転送すると、それをスピーカ22から再生出力
するようになっている。DVD再生部24は、マイクロ
プロセッサ14からの指示に従ってDVD−ROM25
に記録されたゲームプログラム及びゲームデータを読み
取る。
て、DVD−ROM25には、多数のフレーズデータ、
図2に示されるフレーズテーブル、及び図3に示される
基礎音声データ特定テーブルが予め格納されている。ま
た、これらのデータを処理して合成音声データを生成す
るためのプログラムもDVD−ROM25に格納されて
いる。
である音声データ(ここで波形データそのものをフレー
ズデータとして保持しておく方式を採用するが、波形を
復元可能な各種パラメータを保持しておく方式を採用し
てもよい。)であり、予め多数のフレーズがナレータに
より発声され、それぞれフレーズデータとして収録され
ている。このフレーズデータから基礎音声データ特定テ
ーブルに基づいて基礎音声データが抽出される。例え
ば、「たけだ(TAKEDA)」をナレータが発声して
得られるフレーズデータからは、CV又はVCV単位で
ある「TA」、「AKE」及び「EDA」を表す3つの
基礎音声データが抽出される。以下では、基礎音声デー
タはCV単位又はVCV単位を表し、全種類のCV形式
及びVCV形式の基礎音声データが基礎音声データ特定
テーブルに基づいていずれかのフレーズデータから抽出
可能であるものとするが、基礎音声データがCVC単位
又はCV単位を表し、全種類のCVC形式及びCV形式
の基礎音声データがいずれかのフレーズデータから抽出
可能である方式を採用してもよい。
レーズデータの内容を記録したものであり、各フレーズ
データにつき、フレーズID、音素列、アクセント型及
び基礎音声データID列を対応づけて記憶している。フ
レーズIDは各フレーズデータを識別する番号であり、
対応するフレーズデータに割り当てられた番号が記録さ
れる。音素列は、そのフレーズデータが、どの音素列を
ナレータが読み上げることにより得られたものであるか
を示している。アクセント型はそのフレーズが読み上げ
られたときの高低(ピッチ)を示すものである。基礎音
声データID列は、そのフレーズデータから抽出される
基礎音声データのIDを前から順に記したものである。
テーブルは、フレーズデータから基礎音声データを抽出
するために参照されるものであり、基礎音声データI
D、フレーズID、音素列種類、開始並びに終了タイミ
ング、及び前接続候補タイミング並びに後接続候補タイ
ミング、各基礎音声データに対応づけて記憶されてい
る。基礎音声データIDは基礎音声データを識別するた
めの番号である。フレーズIDは当該基礎音声データの
抽出元フレーズデータを識別する番号である。音素列種
類は当該基礎音声データが表す音素列(CV又はVCV
単位)を音素記号により記したものである。開始及び終
了タイミングは、フレーズデータにおける基礎音声デー
タの位置を特定する情報であり、フレーズIDにより特
定されるフレーズデータにおいて、当該開始タイミング
から終了タイミングまでの部分を読み出すことにより、
基礎音声データを抽出することができるようになってい
る。前接続候補タイミングは、前方に他の基礎音声デー
タを接続するのに適したタイミングの候補を列挙したも
のである。また、後接続候補タイミングは、後方に他の
基礎音声データを接続するのに適したタイミングの候補
を列挙したものである。なお、同図に示す基礎音声デー
タ特定テーブルにおいて、CV単位の基礎音声データに
対しては、前接続候補タイミングは記憶されない。
タと、開始並びに終了タイミング及び前後接続候補タイ
ミングと、の関係を示す図である。同図では、「なかた
(NAKATA)」の音素列を表すフレーズデータか
ら、音素列種類「NA」の基礎音声データ、音素列種類
「AKA」の基礎音声データ、及び音素列種類「AT
A」の基礎音声データを抽出する様子を示している。同
図では、音素列種類「NA」の基礎音声データの開始及
び終了タイミングは、「なかた」の音素列を表すフレー
ズデータにおいて、それぞれ先頭からts(004)及
びte(004)に位置することが示されている。ま
た、音素列種類「AKA」の基礎音声データの開始及び
終了タイミングは、それぞれ先頭からts(005)及
びte(005 )に位置することが示されている。ま
た、音素列種類「ATA」の基礎音声データの開始及び
終了タイミングは、それぞれ先頭からts(006)及
びte(0 06)に位置することが示されている。
各V区間には前接続候補タイミング又は後接続候補タイ
ミングが設定されている。接続候補タイミングは、基礎
音声データの接続に適した具体的位置の候補であり、例
えば各V区間内で周期波形(当該音素の基本周波数をf
0として、1/f0毎に現れる)の1ピッチを同定す
る、ある開始点(ピッチマーク)を接続候補位置として
選ぶようにすればよい。その他、声門閉鎖点を接続候補
タイミングとして選ぶようにしてもよい。
合成処理について説明するフロー図である。同図に示さ
れる音声合成処理は、合成音声データを生成し、それを
主記憶26等に格納するものである。この処理はDVD
−ROM25に格納されているゲームプログラムに基づ
き、例えばゲーム開始時等に実行される。この処理によ
り生成された合成音声データは、ゲームプログラムに従
って適宜主記憶26等から読み出され、音声処理部20
に転送される。そして、音声処理部20により合成音声
データが再生され、合成音声がスピーカ22から出力さ
れる。こうして、合成音声によりゲームを盛り上げるこ
とができる。
は、まずプレイヤがコントローラ32により自分の名前
等のテキスト(記号列)を入力する(S101)。例え
ば、モニタ18にテキスト一覧を表示しておき、コント
ローラ32により順に自分の名前等を表すテキストを指
定すると、それが主記憶26に一旦格納されるようにす
る。ここで入力されるテキストは音声合成の対象とされ
る。次に、入力されたテキストを解析する(S10
2)。具体的には、ここでマイクロプロセッサ14が入
力済みテキストを音素列に変換するとともに、それをC
V及びVCV単位の組合せにより再表現する。
みテキストのアクセント型を決定する(S103)。ア
クセント型の決定は、例えばDVD−ROM25にアク
セント辞書を用意しておき、このアクセント辞書を参照
することにより行う。このアクセント辞書は、プレイヤ
により入力が予想されるテキスト(プレイヤが自分の名
前を入力する場合には代表的な日本人の名前)に対し、
そのアクセント型を収録したものである。S101で入
力されたテキストがアクセント辞書に存在すれば、その
アクセント型を入力テキストのアクセント型として採用
する。また、存在しない場合、モーラ数が等しく、且つ
テキスト自体も類似しているテキストのアクセント型を
採用する。複数存在する場合には、プレイヤの選択に委
ねるようにしてもよい。
れたCV及びVCV単位の組合せによる入力済みテキス
トの表現、及びアクセント型決定(S103)で得られ
たアクセント型に基づき、入力済みテキストに対応する
音声データ列を選び出す(S104)。
に詳細に説明するフロー図である。同図に示すように、
この処理では、まず検索対象音素列として入力音素列
(入力テキストを音素表現したもの)を設定する(S2
01)。次に、フレーズテーブル(図2)を参照しなが
ら、検索対象音素列と語頭部分のアクセント型が共通す
るフレーズをフレーズデータ群の中から抽出する(S2
02)。アクセント型はS103で決定されたものを用
いる。さらに、S202で抽出された各フレーズの語頭
に、検索対象音素列と同じ音素列が含まれていないかを
調べる(S203)。いずれのフレーズの語頭にも検索
対象音素列と同じ音素列が含まれていなければ、検索対
象音素列の最後尾の音素をVCV単位で減らし、検索対
象音素列を更新する(S204)。例えば、入力音素列
が「NAKAMURA」であれば、当初の検索対象音素
列を「NAKAMURA」に設定し、「NAKAMUR
A」を語頭に含むフレーズが抽出フレーズに無ければ、
最後尾のVCV単位、すなわち「URA」を削除し、
「NAKAMU」を新たな検索対象音素列とする。基礎
音声データの形式に応じて、CV単位等、その他の単位
で検索対象音素列を短くしていくようにしてもよい。そ
うして、再び、新たな検索対象音素列のアクセント型
と、語頭部分のアクセント型が共通するフレーズを、フ
レーズデータ群の中から抽出し(S202)、その中に
語頭に検索対象音素列と同じ音素列が含まれていないか
を調べる(S203)。こうして、語頭に検索対象音素
列と同じ音素列が含まれているフレーズデータが抽出フ
レーズデータに見つかれば(S203)、そのときの検
索対象音素列の長さを変数LFMAXに設定する(S2
05)。
レーズデータの1つから対応する音声データを抽出可能
であり、この音声データは、1つのフレーズデータから
抽出可能な、最長の音素列に対応したものとなる。S2
05ではさらに、検索対象音素列に対応する音声データ
を後刻抽出できるように、基礎音声データ特定テーブル
(図3)から、フレーズID、検索対象音素列の先頭音
素(CV単位又はVCV単位)の開始タイミング、及び
検索対象音素列の最後尾音素(CV単位又はVCV単
位)の後接続候補タイミングを読み出し、それを一時保
存しておく。
から先頭音素をCV単位で取り除いたものを再設定する
(S206)。例えば、入力音素列が「NAKAMUR
A」であれば、先頭のCV単位、すなわち「NA」を入
力音素列から取り除き、「AKAMURA」を検索対象
音素列に設定する。基礎音声データの形式に応じて、C
VC単位等、その他の単位で検索対象音素列を短くして
いくようにしてもよい。その後、フレーズテーブル(図
2)を参照しながら、検索対象音素列と語尾部分のアク
セント型が共通するフレーズをフレーズデータ群の中か
ら抽出する(S207)。アクセント型はS103で決
定されたものを用いる。さらに、S207で抽出された
各フレーズの語尾に、検索対象音素列と同じ音素列が含
まれていないかを調べる(S208)。いずれのフレー
ズの語尾にも検索対象音素列と同じ音素列が含まれてい
なければ、検索対象音素列の先頭音素をVCV単位で減
らし、検索対象音素列を更新する(S209)。例え
ば、検索対象音素列が「AMURA」である場合、先頭
のVCV単位、すなわち「AMU」を減らし、「UR
A」を新たな検索対象音素列とする。そして、再び、新
たな検索対象音素列のアクセント型と、語尾部分のアク
セント型が共通するフレーズを、フレーズデータ群の中
から抽出し(S207)、その中に語尾に検索対象音素
列と同じ音素列が含まれていないかを調べる(S20
8)。こうして、語尾に検索対象音素列と同じ音素列が
含まれているフレーズデータが抽出フレーズデータに見
つかれば(S208)、そのときの検索対象音素列の長
さを変数LBMAXに設定する(S210)。
レーズデータの1つから対応する音声データを抽出可能
であり、この音声データは、1つのフレーズデータから
抽出可能な、最長の音素列に対応したものとなる。S2
10ではさらに、検索対象音素列に対応する音声データ
を後刻抽出できるように、基礎音声データ特定テーブル
(図3)から、フレーズID、検索対象音素列の先頭音
素(CV単位又はVCV単位)の後接続候補タイミン
グ、及び検索対象音素列の最後尾音素(CV単位又はV
CV単位)の終了タイミングを読み出し、それを一時保
存しておく。
を加算した値が元々の入力音素列長L以上であるかを調
べる(S211)。入力音素長L未満であれば、残りの
音素部分について音声データを選出する(S212)。
すなわち、変数LFMAXと変数LBMAXとを加算し
た値が入力音素列長L未満である場合には、すでに選出
した音声データだけでは入力音素列の全てを表現しきれ
ない。このため、残余部分、すなわち入力音素列の中盤
部分に対応する音声データをさらに他のフレーズデータ
から抽出すべく、検索処理を行う。このS212の処理
では、例えば従来同様、基礎音声データの組み合わせに
より残余部分を表現するようにしてもよいし、S201
乃至S210の処理を再帰的に適用してもよい。この場
合、各検索対象音素列のアクセント型をフレーズ中盤に
有するフレーズをフレーズテーブルから抽出し、その中
から音声データを探すようにする。すなわち、入力音素
列の中程に含まれる音素を先頭音素又は最後尾音素とす
る音素列のうち、できるだけ長いものに対応する音声デ
ータを探すようにする。なお、S211において入力音
素列長L以上であると判断されれば、S212の処理を
スキップする。
発見された音声データを相互接続するためのタイミング
を決定する(S213)。図7は、図6に示される音声
データ選択選出処理で生成される中間データを示してい
る。この中間データは、フレーズID、読み出し開始位
置、及び読み出し終了位置を各音声データについて記録
したものであり、このデータに基づき、上から順にフレ
ーズIDで特定されるフレーズデータから、読み出し開
始位置及び読み出し終了位置の部分を読み出し、それを
順に接続していくことで、合成音声データを生成するこ
とができるようになっている。この中間データでは、入
力音素列の語頭部分に対応する音声データ(同中間デー
タの先頭レコードに対応する。)については、S205
で一時保存されたフレーズIDが同中間データのフレー
ズIDの部分に格納される。また、先頭音素(CV単
位)の開始タイミングが読み出し開始位置として格納さ
れる。さらに、最後尾音素(VCV単位)の後接続候補
タイミングのいずれかが読み出し終了位置として格納さ
れる。
声データ(同中間データの最後のレコードに対応す
る。)については、S210で一時保存されたフレーズ
IDが同中間データのフレーズIDの部分に格納され
る。また、先頭音素(VCV単位)の前接続候補タイミ
ングが読み出し開始位置として格納される。さらに、最
後尾音素(VCV単位)の終了タイミングが読み出し終
了位置として格納される。さらに、S212で選出され
る残余部分に対応する音声データも同中間データに記録
される。また、接続候補タイミングの中から1つのタイ
ミングを実際の接続タイミングとして選択する場合、例
えば入力テキストの各音節の長さをモデルデータから推
定し、その推定値に合致するよう選択すればよい。
た音声データ列を接続する(S105)。このとき、図
7に示す中間データにより、各音声データの開始部分又
は終了部分を決定する。すなわち、中間データに列記さ
れた各フレーズIDによって特定されるフレーズデータ
から、読み出し開始及び終了タイミングの部分の音声デ
ータを順次読み出し、それを前方(先に再生される方)
の音声データに接続する。こうして音声データ列を接続
して合成音声データを作成する。そして、作成した合成
音声データを主記憶26に格納しておく(S106)。
こうして記憶された合成音声データは、図示しないゲー
ムプログラムに従って適宜読み出され、ゲームの演出と
してスピーカ22から再生出力される。また、入出力処
理部30に不揮発性のメモリカードを着脱可能に接続し
ておき、そこに合成音声データを格納するようにしても
よい。こうすれば、次回プレイのときに、再度合成音声
データを作成しなくとも、直ちに合成音声を出力できる
ようになる。
り、入力テキスト「なかむら(NAKAMURA)」か
ら合成音声データを生成する様子を示している。この
「なかむら」はS101のテキスト入力により取得され
るものであり、S102のテキスト解析処理において、
音素列種類「NA」、「AKA」、「AMU」及び「U
RA」の基礎音声データに分解される。このうち、最初
の2つを表す音声データは、フレーズIDが「002」
の「なかた(NAKATA)」を表すフレーズデータか
ら抽出され、後の2つを表す音声データは、フレーズI
Dが「004」の「おかむら(OKAMURA)」を表
すフレーズデータから抽出される。両者は、音素種類
「AKA」の基礎音声データに対応する後接続候補タイ
ミングtb(0 05)と、音素種類「AMU」の基礎音
声データに対応する前接続候補タイミングtf
(012)と、で接続される。
ける音声合成処理では、入力音素列から先頭又は最後尾
音素を共通とする複数の音素列を抽出し、それを検索対
象音素列としてフレーズテーブルに記載された各フレー
ズデータが表す音素列から検索している。そして、検索
により発見された音素列のうち1つ、具体的には最長の
ものに対応する音声データをフレーズデータから抽出
し、その抽出される音声データに基づいて合成音声デー
タを生成している。このため、入力音素列からできるだ
け長い音素列を抽出し、それに対応する音声データを単
一のフレーズデータから抽出するようにでき、音声デー
タの接続数を減らして合成音声の品質を向上させること
ができる。
限定されるものではない。
位で入力音素列を処理するようにしたが、CVC又はC
V単位で処理するようにしてもよい。この場合は基礎音
声データ特定テーブルによりCVC単位又はCV単位の
基礎音声データをフレーズデータから特定できるように
しておけばよい。さらに、基礎音声特定テーブルによ
り、VCV、CVC、CV、VC単位のいずれの基礎音
声データも、フレーズデータから特定できるようにして
おけば、図6に示す音声データ選出処理にて、検索対象
音素列をVCV、CVC、CV又はVC単位のいずれで
も縮めることができるようになるため、さらに長い音声
データを1つのフレーズデータから抽出できるようにな
る。
じアクセント型との条件でフレーズデータを一旦絞り込
み、その範囲で検索対象音素列を検索するようにした
が、フレーズテーブルにおいて、各フレーズのパラ言語
的特徴(発声のときの感情等)を記憶しておき、それに
より検索範囲のフレーズデータを絞り込むようにしても
よい。
機11を用いて実施する例についてのものであるが、業
務用ゲーム装置にも本発明は同様に適用可能である。こ
の場合、DVD−ROM25及びDVD再生部24に代
えてより高速な記憶装置を用い、モニタ18やスピーカ
22も一体的に形成することが望ましい。
及びゲームデータを格納したDVD−ROM25を家庭
用ゲーム機11で使用するようにしたが、パーソナルコ
ンピュータ等、ゲームプログラム及びゲームデータを記
録した情報記憶媒体を読み取って、その読み取った内容
に基づく情報処理が可能なコンピュータであれば、どの
ようなものでも使用することができる。また、ゲームプ
ログラム及びゲームデータの格納には、DVD−ROM
25の他、あらゆる情報記憶媒体を採用することができ
る。
音声合成の対象音素列から先頭音素又は最後尾音素が共
通する複数の音素列を抽出し、それを複数のフレーズデ
ータが表す音素列から検索するようにしたので、複数の
音素列長でフレーズデータから抽出可能な音声データを
調べることができる。また、検索により発見された音素
列のうち1つに対応する音声データを複数のフレーズデ
ータのいずれかから抽出し、それに基づいて合成音声デ
ータを生成するようにしたので、検索により発見された
音素列のうち長い方に対応する音声データをフレーズデ
ータから抽出し、それに基づいて合成音声データを生成
することができる。このため、音声データの接続数を減
らすことがで、合成音声の品質を向上させることができ
る。
を示す図である。
る。
明する図である。
成処理を説明するフロー図である。
図である。
を示す図である。
式的に示す図である。
ス、14 マイクロプロセッサ、16 画像処理部、1
8 モニタ、20 音声処理部、22 スピーカ、24
DVD再生部、25 DVD−ROM、26 主記
憶、30 入出力処理部、32 コントローラ。
Claims (4)
- 【請求項1】 複数のフレーズデータを記憶するフレー
ズデータ記憶手段と、 音声合成の対象音素列の先頭音素をその先頭音素とする
複数の先頭音素共通音素列を抽出するとともに、前記対
象音素列の最後尾音素をその最後尾音素とする複数の最
後尾音素共通音素列を抽出する音素列抽出手段と、 前記複数のフレーズデータが表す音素列から前記音素列
抽出手段により抽出される音素列を検索する音素列検索
手段と、検索により発見された先頭音素共通音素列に対応する音
声データのうち1つと、同じく検索により発見された最
後尾音素共通音素列に対応する音声データのうち1つと
を前記複数のフレーズデータのいずれかからそれぞれ抽
出する音声データ抽出手段と、前記音声データ抽出手段によって抽出された先頭音素共
通音列と最後尾音素共通音素列とのそれぞれに対応する
音声データの音素列の長さを加算した値が、音声合成の
対象音素列の長さ未満である場合に、音声合成の対象音
素列の残余部分に対応する音声データを抽出する手段
と、 前記抽出された、先頭音素共通音列と最後尾音素共通音
素列とのそれぞれに対応する音声データと、前記音声合
成の対象音素列の残余部分に対応する音声データとに基
づいて、前記音声合成の対象音素列に対応する合成音声
データを生成する 合成音声データ生成手段と、 を含むことを特徴とする音声合成装置。 - 【請求項2】 請求項1に記載の音声合成装置におい
て、前記音声データ抽出手段は、前記検索により発見さ
れた先頭音素共通音列と最後尾音素共通音素列とのそれ
ぞれに対応する音声データのうち、最長の音素列に対応
する音声データを前記複数のフレーズデータのいずれか
からそれぞれ抽出することを特徴とする音声合成装置。 - 【請求項3】 音声合成の対象音素列の先頭音素をその
先頭音素とする複数の先頭音素共通音素列を抽出すると
ともに、前記対象音素列の最後尾音素をその最後尾音素
とする複数の最後尾音素共通音素列を抽出する音素列抽
出ステップと、 予め記憶されている複数のフレーズデータが表す音素列
から前記音素列抽出手段により抽出される音素列を検索
する音素列検索ステップと、検索により発見された先頭音素共通音素列に対応する音
声データのうち1つと、同じく検索により発見された最
後尾音素共通音素列に対応する音声データのうち1つと
を前記複数のフレーズデータのいずれかからそれぞれ抽
出する音声データ抽出ステップと、前記抽出された先頭音素共通音列と最後尾音素共通音素
列とのそれぞれに対応する音声データの音素列の長さを
加算した値が、音声合成の対象音素列の長さ未満である
場合に、音声合成の対象音素列の残余部分に対応する音
声データを抽出するステップと、 前記抽出された、先頭音素共通音列と最後尾音素共通音
素列とのそれぞれに対応する音声データと、前記音声合
成の対象音素列の残余部分に対応する音声データとに基
づいて、前記音声合成の対象音素列に対応する合成音声
データを生成する 合成音声データ生成ステップと、 を含むことを特徴とする音声合成方法。 - 【請求項4】 音声合成の対象音素列の先頭音素をその
先頭音素とする複数の先頭音素共通音素列を抽出すると
ともに、前記対象音素列の最後尾音素をその最後尾音素
とする複数の最後尾音素共通音素列を抽出する音素列抽
出ステップと、 予め記憶されている複数のフレーズデータが表す音素列
から前記音素列抽出手段により抽出される音素列を検索
する音素列検索ステップと、検索により発見された先頭音素共通音素列に対応する音
声データのうち1つと、同じく検索により発見された最
後尾音素共通音素列に対応する音声データのうち1つと
を前記複数のフレーズデータのいずれかからそれぞれ抽
出する音声データ抽出ステップと、前記抽出された先頭音素共通音列と最後尾音素共通音素
列とのそれぞれに対応する音声データの音素列の長さを
加算した値が、音声合成の対象音素列の長さ未満である
場合に、音声合成の対象音素列の残余部分に対応する音
声データを抽出 するステップと、 前記抽出された、先頭音素共通音列と最後尾音素共通音
素列とのそれぞれに対応する音声データと、前記音声合
成の対象音素列の残余部分に対応する音声データとに基
づいて、前記音声合成の対象音素列に対応する合成音声
データを生成する 合成音声データ生成ステップと、 をコンピュータに実行させるためのプログラムを記憶し
た情報記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000306614A JP3463804B2 (ja) | 2000-10-05 | 2000-10-05 | 音声合成装置並びに方法及び情報記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000306614A JP3463804B2 (ja) | 2000-10-05 | 2000-10-05 | 音声合成装置並びに方法及び情報記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002116786A JP2002116786A (ja) | 2002-04-19 |
JP3463804B2 true JP3463804B2 (ja) | 2003-11-05 |
Family
ID=18787274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000306614A Expired - Fee Related JP3463804B2 (ja) | 2000-10-05 | 2000-10-05 | 音声合成装置並びに方法及び情報記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3463804B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6519097B2 (ja) * | 2014-02-14 | 2019-05-29 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
-
2000
- 2000-10-05 JP JP2000306614A patent/JP3463804B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002116786A (ja) | 2002-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070168864A1 (en) | Video summarization apparatus and method | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
US20040266337A1 (en) | Method and apparatus for synchronizing lyrics | |
JP2002221980A (ja) | テキスト音声変換装置 | |
JP2013231999A (ja) | 音声録音における音声特性を変換するための装置および方法 | |
JP7069386B1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2005342862A (ja) | ロボット | |
JP5819147B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP3463804B2 (ja) | 音声合成装置並びに方法及び情報記憶媒体 | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
JP2001117920A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP6170604B1 (ja) | 音声生成装置 | |
JP3718116B2 (ja) | 音声合成装置、音声合成方法及び情報記憶媒体 | |
JP2007199574A (ja) | 楽曲再生装置、楽曲テロップ検索サーバ | |
JP4563418B2 (ja) | 音声処理装置、音声処理方法、ならびに、プログラム | |
JP4651168B2 (ja) | 合成音声出力装置およびその方法並びに記録媒体 | |
JP6163454B2 (ja) | 音声合成装置、その方法及びプログラム | |
JP2004313767A (ja) | プログラム、記憶媒体及びゲーム装置 | |
JP6185136B1 (ja) | 音声生成プログラムおよびゲーム装置 | |
JP2002116785A (ja) | 音声合成装置並びに方法及び情報記憶媒体 | |
JP7048141B1 (ja) | プログラム、ファイル生成方法、情報処理装置、及び情報処理システム | |
JP3426957B2 (ja) | 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体 | |
JP2002123282A (ja) | 翻訳装置および記録媒体 | |
JP5184234B2 (ja) | データ生成装置及びデータ生成プログラム、並びに、再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030805 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090822 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090822 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090822 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090822 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100822 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140822 Year of fee payment: 11 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S802 | Written request for registration of partial abandonment of right |
Free format text: JAPANESE INTERMEDIATE CODE: R311802 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |