(第1の実施形態)
図1は、本発明の第1の実施形態の音声編集合成装置を示すブロック図である。
本実施形態は、例として、カーナビゲーションシステムに使用される音声編集合成装置1を示す。このため、本実施形態の音声編集合成装置1は、図1に示すとおり、ナビゲーション制御装置2に接続される。
本実施形態のナビゲーション制御装置2は、公知のものであってよい。例えば、ナビゲーション制御装置2は、情報受信部、ナビゲーション制御部及びナビゲーション用データ記憶部を備える。ナビゲーション制御部は、情報受信部が受信した情報及びナビゲーション用データ記憶部に格納されたデータに基づいて、中間記号列を生成し、音声編集合成装置1に出力する。
音声編集合成装置1は、入力解析部10、録音音声データベース20、録音音声選択部30、可変部分テキスト生成部40、音響特徴情報取得部50、編集情報取得部60、規則合成部70、接続合成部80及び音声出力部90を備える。
入力解析部10は、ナビゲーション制御装置2から入力される中間記号列から録音音声の指定及び可変部テキストの指定を抽出する。
録音音声データベース20は、録音音声データを格納する。録音音声データとは、発話者によって発話された音声をアナログ/デジタル(A/D)変換することによって生成されたデータである。
録音音声選択部30は、録音音声の指定に基づいて、録音音声データベース20から録音音声データを選択する。
可変部分テキスト生成部40は、可変部分を含んだ規則合成を行うためのテキストを生成する。
音響特徴情報取得部50は、録音音声データベース20から録音音声の音響特徴情報を取得する。
編集情報取得部60は、録音音声データベース20から録音音声の音響特徴情報に関する編集情報を取得する。
規則合成部70は、可変部分テキスト、録音音声の音響特徴情報及び編集情報に基づいて規則合成音声を生成する。
接続合成部80は、録音音声と規則合成音声とを接続してハイブリッド合成音声を生成する。
音声出力部90は、ハイブリッド合成音声を出力する。
図2は、本発明の第1の実施形態の音声編集合成装置1のハードウェア構成を示すブロック図である。
本実施形態の音声編集合成装置1は、相互に通信可能に接続された制御装置210、記憶装置220、入力装置230、出力装置240及び通信装置250を備える。
制御装置210は、本実施形態の音声編集合成装置1の動作を制御する。制御装置210は、CPU211及びメモリ212を備える。CPU211は、メモリ212に格納されたプログラムを実行するプロセッサである。メモリ212は、例えば半導体メモリであり、CPU211によって実行されるプログラム及びCPU211によって参照されるデータを格納する。それらのプログラム及びデータは、記憶装置220に格納され、必要に応じて記憶装置220からメモリ212にコピーされてもよい。CPU211は、メモリ212に格納されたプログラムを実行することによって、記憶装置220、入力装置230、出力装置240及び通信装置250におけるデータの入出力及びその他の種々の処理を制御する。
記憶装置220は、CPU211によって実行されるプログラム及びCPU211によって参照されるデータを格納する。記憶装置220は、例えば、ハードディスクドライブ(HDD)又は光ディスク装置のようなディスク装置、デジタルオーディオテープ(DAT)装置のようなテープ装置又はフラッシュメモリのような半導体メモリであってもよい。本実施形態の記憶装置220には、入力解析部10、録音音声選択部30、可変部分テキスト生成部40、音響特徴情報取得部50、編集情報取得部60、規則合成部70、接続合成部80及び音声出力部90が格納される。これらは、CPU211によって実行されるプログラムである。したがって、図1に示す音声編集合成装置1の各部の機能は、CPU211が上記のプログラムを実行することによって実現される。
さらに、記憶装置220には、録音音声データベース20が格納される。録音音声データベース20に格納されるデータの詳細については後述する(図4等参照)。
入力装置230は、A/D変換器231、マイク232、キーボード233及びマウス234を備える。マイク232は、発話者が発話した音声をアナログ電気信号に変換する。A/D変換器231は、マイク232が出力したアナログ電気信号をデジタルデータ(すなわち録音音声データ)に変換する。キーボード233及びマウス234は、操作者による指示などを受け付け、その指示を制御装置210に送信するインターフェースである。入力装置230は、キーボード233及びマウス234の代わりに(又はそれらに加えて)、いかなる種類のインターフェースを備えてもよい。
出力装置240は、デジタル/アナログ(D/A)変換器241、スピーカ242及びディスプレイ243を備える。D/A変換器241は、音声データをアナログ電気信号に変換する。スピーカ242は、D/A変換器241から出力されたアナログ電気信号を音声に変換する。ディスプレイ243は、操作者に種々の情報を表示するインターフェースである。
通信装置250は、種々の装置(例えば、図1に示すナビゲーション制御装置2)に接続され、その接続された装置と通信する。例えば、図1及び図2の例では、制御装置210によって実行される入力解析部10は、通信装置250を介して中間記号列をナビゲーション制御装置2から受信する。
次に、図1及び図3を用いて本発明の第1の実施形態の音声編集合成装置1の動作について説明する。
図3は、本発明の第1の実施形態の音声編集合成装置1の動作を示すフローチャートである。
まず、ナビゲーション制御装置2は、音声編集合成を行うための入力記号列(すなわち、前述の中間記号列)を生成する(ステップS101)。入力記号列は、音声編集合成装置1の入力解析部10が解釈可能な記号列フォーマットとして予め定義され、録音音声データの指定、可変部分テキストの指定及び編集情報の指定のうち一つ以上を含む。
本実施形態では一例として、「この先、中野付近で、渋滞があります」というテキストに対応する録音音声データが録音音声データベース20に格納されている場合において、「この先、品川付近で、渋滞があります」という音声を出力しようとする場合について説明する。この例では、「品川」に対応する録音音声データが存在しないため、少なくとも、「品川」に対応する規則合成音声を生成して、録音音声データ「この先、」及び「付近で、渋滞があります」と接続する必要がある。
このような場合、例えば、「A、B1シナガワ、C」のような入力記号列が生成され、音声編集合成装置1に入力される。この入力記号列のうち、「A」、「B」及び「C」は、録音音声データを指定する。「B」に続く「1」は、編集情報を指定する。「1」に続く「シナガワ(品川)」は、可変部分テキストを指定する。この入力記号列によって、音声編集合成装置1は、「この先、品川付近で、渋滞があります。」という文章に対応する音声を出力させることができる。
なお、「シナガワ(品川)」は、4音節(8音素)からなる地名である。後述する「ナカノ(中野)」及び「ミタカ(三鷹)」は、3音節(6音素)からなる地名である。本実施形態において、「シナガワ」の先頭の「sh」は、1音素として計数されている。
入力解析部10は、前記の入力記号列を次のように解釈する。まず、入力解析部10は、番号Aに対応する録音音声データ(すなわち、発話者が「コノサキ(この先)」と発話している音声のデータ)を指定する。次に、入力解析部10は、番号Bに対応する録音音声データ(すなわち、発話者が「ナカノフキンデ(中野付近で)」と発話している音声のデータ)、番号Bに対応する1番目の編集情報、及び、番号Bの可変部分テキスト「シナガワ」を指定する。次に、入力解析部10は、番号Cに対応する録音音声データ(すなわち、発話者が「ジュウタイガアリマス(渋滞があります)」と発話している音声)を指定する。以降のステップでは、「B1シナガワ」に対応して、「品川付近で、」と発話する音声を出力する手順について説明する。
次に、入力解析部10の解析結果に従い、必要となる録音音声が録音音声データベース20から取得される(ステップS102)。ここで、録音音声データベース20に格納されているデータについて、図4及び図5を参照して説明する。
図4は、本発明の第1の実施形態の録音音声データベース20の説明図である。
録音音声データベース20には、複数の録音音声データ21が格納される。各録音音声データ21には一意な番号が付与される。録音音声データ21は、発話者がテキスト(例えば、「ナカノフキンデ」)を読み上げることによって発話された音声を録音することによって得られる。このとき、発話者は、所定の話調(例えば、平板な話調)を付加してテキストを読み上げてもよい。話調については後述する。
録音音声データベース20には、各録音音声データ21に関連付けて、音響特徴情報22、可変部分位置情報23及び編集情報24が格納される。録音音声データ21と、それに関連付けられた音響特徴情報22、可変部分位置情報23及び編集情報24とが一つのレコードを構成する。
図4は、番号Aが付与された録音音声データ21A及び番号Bが付与された録音音声データ21Bが格納される例を示す。録音音声データ21A及び21Bの各々は、複数の録音音声データ21の一つである。音響特徴情報22A、可変部分位置情報23A及び編集情報24Aが、録音音声データ21Aに関連付けて格納される。音響特徴情報22B、可変部分位置情報23B及び編集情報24Bが、録音音声データ21Bに関連付けて格納される。音響特徴情報22A及び22Bは、それぞれ、録音音声データ21A及び21Bに対応付けられた音響特徴情報22である。可変部分位置情報23A及び23Bは、それぞれ、録音音声データ21A及び21Bに対応付けられた可変部分位置情報23である。編集情報24A及び24Bは、それぞれ、録音音声データ21A及び21Bに対応付けられた編集情報24である。
図5は、本発明の第1の実施形態の録音音声データベース20に格納されたレコードの説明図である。
図5は、録音音声データベース20に格納されたレコードの一例として、番号Bが付与された録音音声データ21Bを含むレコードを示す。このレコードには、録音音声データ21Bに関連付けられた音響特徴情報22B、可変部分位置情報23B及び編集情報24Bが含まれる。
録音音声データ21Bは、発話者が「ナカノフキンデ」と発話している音声のデータである。
音響特徴情報22Bは、録音音声データ21Bに含まれる音素の特徴を示すパラメータ(すなわち音響特徴量)を含む。具体的には、音響特徴情報22Bは、音素ラベルに関連付けられた開始時刻、終了時刻、開始基本周波数及び終了基本周波数などを含む。なお、音素ラベルは、録音音声データ21Bに含まれる各音素に付与されたラベルである。
例えば、図5において、最初の音素ラベル「N」(すなわち、「ナカノフキンデ(NAKANOFUKINDE)」の最初の「N」)に対応する開始時刻、終了時刻、開始基本周波数及び終了基本周波数として、それぞれ、210ミリ秒(ms)、280ms、80ヘルツ(Hz)及び70Hzが格納されている。これは、最初の音素「N」に対応する音声が時刻210msから280msまで継続し、その開始時点及び終了時点の基本周波数が、それぞれ、80Hz及び70Hzであることを示す。
なお、開始時刻から終了時刻までの時間(すなわち継続長)は、音素が発話された時間の長さを示すパラメータである。開始基本周波数及び終了基本周波数は、それぞれ、発話が開始された時点及び発話が終了した時点における、発話された音素の音程(すなわち声の高さ)を示すパラメータである。
音響特徴情報22Bには、さらに他のパラメータ、例えば、パワー及びスペクトルが含まれてもよい。あるいは、これらのパラメータの任意の一つ以上が含まれてもよい。パワーは、声の大きさ及び歯切れのよさ等を示すパラメータである。スペクトルは、声の質を示すパラメータである。
上記のような音響特徴情報22は、録音音声データ21を公知の音声分析方法を用いて自動分析することによって取得及び保存されてもよい。また、より正確な情報とするために、自動分析結果における誤り(例えば、録音時の雑音等に起因する誤り)を手作業で修正した結果を保存しておいてもよい。
可変部分位置情報23Bは、録音音声データ21Bに設定された可変部分(すなわち、規則合成音声によって置き換え可能な部分)を示す情報である。可変部分位置情報23Bは、可変部ID、開始インデックス及び音素数を含む。
可変部IDは、設定された可変部分を識別する情報である。一つの録音音声データ21に複数の可変部分が設定されている場合、各可変部分は可変部IDによって識別される。
開始インデックスは、可変部分として設定された範囲の先頭の音素を示す。
音素数は、可変部分として設定された範囲に含まれる音素の数を示す。
図5の例では、音素ラベル「Pause」にインデックス「0」が付与され、最初の音素ラベル「N」にインデックス「1」が付与される。すなわち、図5に例示するように、開始インデックス及び音素数がそれぞれ「1」及び「6」である場合、設定された可変部分は、最初の音素ラベル「N」が付与された音素を先頭とする6音素、すなわち、音素ラベル「N」、「A」、「K」、「A」、「N」及び「O」がそれぞれ付与された6音素である。
編集情報24Bは、録音音声データ21Bに話調を付加するために音響特徴情報22Bに加えられる調整(変更)の量を示す。
話調とは、発話者の心的態度を表現するために音声に付加される特徴である。発話者の心的態度とは、例えば、「強調」、「喜び」、「怒り」、「哀しみ」、「楽しみ」等である。あるいは、発話者が特別な心的態度を込めずに発話した音声には平板な話調が付加されている、と解釈することもできる。
具体的には、編集情報24Bは、第1の話調(例えば、平板な話調)が付加された録音音声データ21Bに、新たに第2の話調(例えば、「強調」を表現する話調)を付加するために、音響特徴情報22Bに重畳されるべき調整量(すなわち変更量)を示す。例えば、編集情報24Bは、第1の話調が付加された録音音声データ21Bの音響特徴情報22Bと、第2の話調が付加された録音音声データ21Bの音響特徴情報22Bとの差分を示す。
図5の例において、編集情報24Bは、継続長調整量及び基本周波数調整量を含む。継続長調整量は、音響特徴情報22Bの開始時刻から終了時刻までの時間(すなわち継続長)の調整量を示す値である。基本周波数調整量は、音響特徴情報22Bの開始基本周波数及び終了基本周波数の調整量を示す値である。
図5の例では、最初の音素ラベル「N」に対応する編集情報24Bとして、継続長調整量「+10ms」及び基本周波数調整量「+10Hz」が格納される。この場合、録音音声データ21Bに第2の話調を付加するために、最初の音素ラベル「N」に対応する開始時刻から終了時刻までの時間が10ms延長される。さらに、その音素ラベル「N」に対応する開始基本周波数及び終了基本周波数に10Hzが加算される。
上記のように、図5は、編集情報24Bとして音響特徴情報22の差分が格納され、この差分をいずれかの音響特徴情報22(例えば音響特徴情報22B)に加算することによって話調が付加される例を示す。しかし、加算以外の方法(例えば乗算)によって、編集情報24Bに含まれる調整量が音響特徴情報22に重畳されてもよい。
例えば、最初の音素ラベル「N」に対応する編集情報24Bとして、継続長調整量「+10ms」の代わりに継続長調整量「+10%」が、基本周波数調整量「+10Hz」の代わりに基本周波数調整量「+10%」が格納されてもよい。この場合、録音音声データ21Bに第2の話調を付加するために、最初の音素ラベル「N」に対応する開始時刻から終了時刻までの時間が10%延長される。さらに、その音素ラベル「N」に対応する開始基本周波数及び終了基本周波数に「1.1」が乗算される。その結果、開始基本周波数及び終了基本周波数が10%上昇する。
なお、図6を参照して後述するように、編集情報24は、規則合成パラメータにも重畳される。この場合にも、上記と同様に、加算又は乗算等の方法によって、編集情報24に含まれる調整量を重畳することができる。
図5の例では、一組の音響特徴情報22Bに対応して、一組の編集情報24B(すなわち、一組の継続長調整量及び基本周波数調整量)が格納されている。しかし、一組の音響特徴情報22Bに対応して複数組の編集情報24Bが格納されてもよい。例えば、第1の話調と第2の話調との差分に相当する継続長調整量及び基本周波数調整量の組に加えて、第1の話調と第3の話調(例えば、「喜び」を表現する話調)との差分に相当する継続長調整量及び基本周波数調整量の組が編集情報24Bとして格納されてもよい。
この場合、複数組の編集情報24Bの各々は、番号によって識別される。例えば、図3のステップS101において「A、B1シナガワ、C」が入力された場合、「B」に続く「1」は、複数の編集情報24Bの組のうち1番目のものを指定する。
音響特徴情報22Bが、図5に示していないパラメータ(例えば、パワー又はスペクトル等)を含む場合、編集情報24Bは、これらのパラメータに対応する調整量をさらに含んでもよい。
図3のステップS102において、録音音声選択部30は、録音音声データベース20から録音音声データ21(例えば録音音声データ21B)を選択する。さらに、音響特徴情報取得部50は、録音音声データ21に関連付けられた音響特徴情報22(例えば音響特徴情報22B)を取得する。さらに、編集情報取得部60は、録音音声データ21に関連付けられた1番目の編集情報24(例えば編集情報24Bの1番目のもの)を取得する。
このような録音音声データベース20の構成は、例えばリレーショナルデータベース又はファイルシステムなどを用いて実現することができる。あるいは、音響特徴情報22は、録音音声データベース20に格納されなくてもよい。音響特徴情報22は録音音声データ21から自動的に生成することができるためである。この場合、録音音声データ21が選択される度に、その選択された録音音声データ21から音響特徴情報22が生成される必要がある。
図5の例において、可変部分位置情報23Bは一つの可変部分を示す情報のみを含んでいる。しかし、可変部分位置情報23は、複数の可変部分を示す情報を含んでもよいし、可変部分を示す情報を一つも含まなくてもよい。例えば、可変部分位置情報23が可変部分を示す情報を一つも含まない場合、その可変部分位置情報23に対応する録音音声データ21は、可変部分を含まない定型音声である。この場合、その録音音声データ21に対しては、可変部分テキスト生成部40、音響特徴情報取得部50、編集情報取得部60及び規則合成部70を動作しないように制御することができる。
さらに、既に説明したように、編集情報24も複数の調整量の組を含むことができる。あるいは、編集情報24は、一つの調整量の組も含まなくてもよい。例えば、一つの調整量の組も含まない場合、編集情報取得部60を動作させず、可変部分テキスト生成部40の出力と音響特徴情報22だけを用いて規則合成部70を動作させるように制御することができる。
再び図3を参照して、ステップ102に続く処理について説明する。
次に、可変部分テキスト生成部40は、規則合成部70へ入力するテキストを生成する(ステップS103)。可変部分テキスト生成部40は、録音音声データ21に関連付けられた可変部分位置情報23に基づいて、録音音声の可変部分「ナカノ」を可変部分テキスト「シナガワ」に置き換えた「シナガワフキンデ」を生成する。録音音声の可変部分と定型部分の文字列は、音響特徴情報22として格納されている音素ラベルから求められてもよいし、録音音声データ21に関連付けて格納されていてもよい。
次に、規則合成部70は、可変部分テキスト生成部40の出力を用いて規則合成パラメータ72を生成する(ステップS104)。規則合成パラメータ72とは、規則合成音声の音響特徴量である。図6を参照して本ステップの動作を説明する。
図6は、本発明の第1の実施形態において生成される規則合成パラメータの説明図である。
図6に示す録音音声データ21Bは、図5に示したものと同様である。
図6に示す録音音声データの音響特徴情報22Bは、図5に示す音響特徴情報22Bをグラフによって表示したものである。このグラフにおいて、横軸は時刻、縦軸は基本周波数である。図5に示す音響特徴情報22Bの各音素の開始時刻と開始基本周波数との組み合わせに対応する点、及び、終了時刻と終了基本周波数との組み合わせに対応する点がグラフ上にプロットされる。図6に音響特徴情報22Bとして示す実線は、これらの点を線によって連結したものである。
録音音声データの音響特徴情報22Bの可変部分は、可変部分位置情報23Bによって指定されたものである。
録音音声データの音響特徴情報22Bの可変部分に種々の編集情報24を重畳することによって、種々の話調が付加される。話調が付加された録音音声データの音響特徴情報を破線で示す。
例えば、図6に示す編集情報24Bは、図5に示すものである。一方、図6に示す編集情報24Cは、編集情報24Bとは異なる話調を付加するために重畳される編集情報24である。図6の例では、可変部分のうち末尾の2音節(すなわち「no」)に重畳される編集情報24Cの値は「0」である。
図6に示す規則合成パラメータ72は、可変部分テキスト生成部40の出力「シナガワフキンデ」から生成される。可変部分テキスト生成部40の出力は、少なくとも、録音音声データの可変部分(例えば「ナカノ」)を置き換える可変部分テキスト71(例えば「シナガワ」)を含む必要がある。
本実施形態において、可変部分テキスト生成部40の出力「シナガワフキンデ」に対応する規則合成パラメータ72を生成するために、公知の一般的な規則合成方法を使用することができる。一般的な規則合成方法によれば、韻律モデルに基づいて、基本周波数及び音素継続長などの規則合成パラメータが生成される。
規則合成パラメータ72に種々の編集情報24を重畳することによって、種々の話調が付加された修正規則合成パラメータ73が生成される。この処理については後述する。破線で示される修正規則合成パラメータ73A、73B及び73Dは、それぞれ、修正規則合成パラメータ73の例である。
さらに、本実施形態では、音響特徴情報22を用いて、韻律モデルから生成された規則合成パラメータ72の平均基本周波数及び平均発話速度などを、音響特徴情報22と一致させるように伸縮させることができる。これによって、より録音音声データと滑らかに接続される規則合成パラメータ72を生成することができる。
また、定型部分(図6に示す例の「フキンデ」に相当する部分)は、音響特徴情報22をそのまま規則合成パラメータ72に反映することで、規則合成パラメータ72を録音音声データ21と滑らかに接続することができる。
図6には、音響特徴情報として基本周波数が使用される場合を示したが、音響特徴情報がパワーを含む場合、基本周波数の代わりにパワーがプロットされてもよい。
次に、図3及び図6を参照して、ステップ104に続く処理について説明する。
規則合成部70は、規則合成パラメータ72を編集情報24に基づいて修正することによって、修正規則合成パラメータ73を生成する(ステップS105)。図5に示すように、編集情報24は、音響特徴情報22の変更量として格納されている。例えば、編集情報24は、基本周波数を上げることによって、部分的な強調という話調を表現している。
規則合成パラメータ72に編集情報24を重畳して修正規則合成パラメータ73を生成することによって、可変部分の規則合成音声による部分的な強調の表現が可能となる。
録音音声の可変部分と規則合成パラメータの可変部分テキストとの音節数(及び音素数)が同一である場合、録音音声の可変部分に対応する編集情報24をそのまま規則合成パラメータに適用することができる。
例えば、録音音声の可変部分が3音節(6音素)の「ナカノ」であり、「ナカノ」を置き換える規則合成パラメータの可変部分テキストが3音節(6音素)の「ミタカ」(図示省略)である場合、「ナカノ」に含まれる各音素に対応する編集情報24(例えば図5に示す編集情報24B)を、「ミタカ」に含まれる各音素に重畳することができる。編集情報24Bが「強調」を表現するものである場合、この編集情報24Bを「ミタカ」に重畳することによって、「ミタカ」の部分が強調された音声が生成される。
一方、録音音声の可変部分と規則合成パラメータの可変部分テキストとの間で音節数(及び音素数)が異なる場合がある。図6には、録音音声の可変部分が、3音節(6音素)の「ナカノ」であり、「ナカノ」を置き換える規則合成パラメータの可変部分テキスト71が、4音節(8音素)の「シナガワ」である場合を示す。
このような場合、上記の「ミタカ」の場合と同様、「ナカノ」に含まれる各音素に対応する編集情報24Bを、そのまま規則合成パラメータ72の「シナガワ」に対応する部分に重畳してもよい。ただし、この場合、「シナガワ」に含まれる音素数が「ナカノ」に含まれるものより二つ多いため、「シナガワ」に含まれる先頭の6音素に、「ナカノ」に含まれる6音素に対応する編集情報24Bが重畳され、残りの2音素には、編集情報24Bが重畳されない。その結果、例えば、図6に示す修正規則合成パラメータ73Bが生成される。
あるいは、編集情報24を補間することによって、任意の音素数の規則合成パラメータに適合する編集情報が生成されてもよい。この補間は、任意の公知の補間方法(例えば線形補間)によって実行されてもよい。
例えば、6音素の編集情報24Bを線形補間することによって、8音素の編集情報24Dを生成し、その編集情報24Dを、規則合成パラメータ72の「シナガワ」に含まれる各音素に重畳してもよい。その結果、例えば、図6に示す修正規則合成パラメータ73Aが生成される。このように、補間によって任意の音素数に対応する編集情報を生成することによって、より自然な話調が付加された音声を生成することができる。
なお、編集情報24は、可変部分として指定された範囲の一部に対応する変更量のみを含む場合がある。例えば、図6において、編集情報24Cは、可変部分として指定された「ナカノ(nakano)のうち、先頭の4音素(すなわち「naka」)に対応する変更量のみを含み、末尾の2音素(すなわち「no」)に対応する変更量を含まない。この場合、編集情報24Cを「nakano」に重畳すると、「naka」に対応する音響特徴量は変更されるが、「no」に対応する音響特徴量は変更されない。
これは、末尾の2音素に付加された編集情報24Cの値が、「音響特徴量を変更しないこと」を示している、と言い換えることもできる。編集情報24Cが加算によって重畳される場合、「音響特徴量を変更しないこと」を示す編集情報24Cの値は「0」である。編集情報24Cが乗算によって重畳される場合、「音響特徴量を変更しないこと」を示す編集情報24Cの値は「1」(又は、「±0%」)である。
ここで、録音音声データの可変部分の音素のうち、末尾の1音素を含む連続した1以上の音素に付加された編集情報24の値が「0」である場合を仮定する。この場合において、録音音声データの可変部分の音素の数を「A」、編集情報24の値が「音響特徴量を変更しないこと」を示す末尾の連続した1以上の音素の数を「B」とする。この場合、編集情報24が重畳されるべき規則合成パラメータの音素数が「A−B」以上であれば、先頭の「A−B」個の音素のみに編集情報24を重畳することによって、適切に話調を付加することができる可能性がある。
例えば、「ナカノ」の「ナカ」に対応する音響特徴量のみを変更することによって所定の話調が付加されるのであれば、「シナガワ」の「シナ」に対応する音響特徴量のみに同様の変更を加えることによって、同様の話調を付加することができる可能性がある。したがって、このような場合には、補間をすることなく、編集情報24をそのまま規則合成パラメータ72に含まれる各音素に重畳してもよい。
例えば、図5の編集情報24Cの例では、上記の「A」が「6」、「B」が「2」、「A−B」が「4」である。したがって、規則合成パラメータ72の音素数「8」は、「A−B」以上である。この場合、規則合成パラメータ72のうち先頭の4音素のみに編集情報24Cを重畳することによって、修正規則合成パラメータ73Cが生成される。
このように、本実施形態では、編集情報24の重畳(ステップS105)が、音響特徴情報22を利用した規則合成パラメータの生成(ステップS104)から分離して実行される。このため、抑揚変化による部分的な強調及び喜怒哀楽などの心的態度を表現するための編集処理を、録音音声及び可変部分テキストの読み又はアクセント情報の構成に左右されずに行うことができる。
次に、規則合成部70は、修正規則合成パラメータ73を用いて規則合成音声を生成する(ステップS106)。ここでは、公知の音声合成技術を利用することができるが、修正規則合成パラメータ73に含まれる、音素ごとの基本周波数変化及び音素継続長変化に対応して、規則合成音声を出力することのできる音声合成技術を用いることが望ましい。
次に、接続合成部80は、録音音声データ21と規則合成部70の出力した規則合成音声を接続することによって、ハイブリッド合成音声を生成する(ステップS107)。ここでは、録音音声と規則合成音声を接続するために様々な方法を用いることができるが、歪の少ない、高品質のハイブリッド合成音声が得られる方法を用いることが望ましい。
例えば、録音音声データ21と規則合成音声データとの間に重複区間が設けられ、その中で好適な接続境界が選択されてもよい。具体的には、例えば、図6の例において、「シナガワフキンデ」に対応する規則合成音声が生成される。その結果、「フキンデ」に対応する音声として、録音音声と規則合成音声の二種類が取得される。すなわち、この場合、「フキンデ」が重複区間となる。この重複区間の中で、最も自然なハイブリッド合成音声を生成する接続境界が選択される。
例えば、「フ」と「キンデ」の間の点が好適な接続境界として選択された場合、「シナガワフ」に対応する規則合成音声の後に「キンデ」に対応する録音音声が接続され、それによって自然なハイブリッド合成音声が生成される。
最後に、音声出力部90は、接続合成部80の出力であるハイブリッド合成音声をスピーカ242などの音声出力装置に出力する(ステップS108)。音声出力部90は、ハイブリッド合成音声を出力する代わりに音声ファイルとして保存してもよい。あるいは、音声出力部90は、生成されたハイブリッド合成音声に続く入力記号列を受け付けて、それらを接続してから出力してもよい。
以上のように、本発明の第1の実施形態によれば、車載用カーナビゲーションシステム用に構成された、録音音声データと規則合成音声データを接続する音声編集合成装置において、録音音声データの音響特徴情報を編集するための編集情報によって、規則合成パラメータが調整される。その結果、可変部分に対して、心的態度を表現する話調の付加が適切に行われる。さらに、録音音声と規則合成音声の韻律の整合がとられる。このため、本発明の第1の実施形態によれば、高品質の合成音声が出力される。
(実施例2)
次に、本発明の第2の実施形態について説明する。
図7は、本発明の第2の実施形態の、録音音声データベース作成装置を備える音声編集合成システムの構成を示すブロック図である。
本実施形態の音声編集合成システムは、図7に示すとおり、音声編集合成装置1及び録音音声データベース作成装置3を備える。音声編集合成装置1は、本発明の第1の実施形態における音声編集合成装置1と同等の構成である(図2等参照)。ただし、第2実施形態において、通信装置250は、後述する通信装置850と接続される。
録音音声データベース作成装置3は、録音音声データ作成画面100、音響特徴情報設定部110、可変部分位置設定部120、編集情報設定部130、編集合成部140及び情報記憶部150を備える。
音響特徴情報設定部110は、録音音声データ21の音響特徴情報22を設定する。
可変部分位置設定部120は、録音音声データの可変部分位置情報23を指定する。
編集情報設定部130は、編集情報24を設定する。
編集合成部140は、音声編集合成装置1を用いてハイブリッド合成音声を出力する。
情報記憶部150は、音響特徴情報設定部110、可変部分位置設定部120及び編集情報設定部130の出力を録音音声データベース20へ格納する。
図8は、本発明の第2の実施形態の録音音声データベース作成装置3のハードウェア構成を示すブロック図である。
本実施形態の録音音声データベース作成装置3は、相互に通信可能に接続された制御装置810、記憶装置820、入力装置830、出力装置840及び通信装置850を備える。
制御装置810は、本実施形態の録音音声データベース作成装置3の動作を制御する。制御装置810は、CPU811及びメモリ812を備える。これらは、それぞれ、図2に示すCPU211及びメモリ212と同様のものであるため、これらについての詳細な説明は省略する。
記憶装置820は、CPU811によって実行されるプログラム及びCPU811によって参照されるデータを格納する。記憶装置820は、図2に示す記憶装置220と同様、例えば、ハードディスクドライブ(HDD)又はその他の種類の記憶装置であってもよい。本実施形態の記憶装置820には、音響特徴情報設定部110、可変部分位置設定部120、編集情報設定部130、編集合成部140及び情報記憶部150が格納される。CPU811がこれらを実行することによって、図7に示す各部の処理が実現される。
入力装置830は、A/D変換器831、マイク832、キーボード833及びマウス834を備える。これらは、それぞれ、図2に示すA/D変換器231、マイク232、キーボード233及びマウス234と同様のものであるため、これらについての詳細な説明は省略する。
出力装置840は、D/A変換器241、スピーカ242及びディスプレイ243を備える。これらは、それぞれ、図2に示すD/A変換器241、スピーカ242及びディスプレイ243と同様のものであるため、これらについての詳細な説明は省略する。
通信装置850は、種々の装置(例えば、図7に示す音声編集合成装置1)に接続され、その接続された装置と通信する。
なお、図2及び図8には、音声編集合成装置1及び録音音声データベース作成装置3がそれぞれ独立したハードウェアによって実現される例を示したが、これらの装置は、単一のハードウェアによって実現されてもよい。その場合、第2の実施形態の音声編集合成システムは、図8に示すハードウェアを備えない。その代わりに、図2に示す記憶装置220に、さらに、音響特徴情報設定部110、可変部分位置設定部120、編集情報設定部130、編集合成部140及び情報記憶部150が格納される。これらは、制御装置210のCPU211によって実行される。
図9は、本発明の第2の実施形態における録音音声データ作成画面100の構成例を示す説明図である。
録音音声データ作成画面100は、図9に示すとおり、ファイル選択表示部101、音声波形表示部102、音響特徴情報表示部103、編集情報表示部105、可変部分位置情報表示部104、編集制御表示部106、編集効果確認表示部107及び録音音声データベースへのデータ保存を制御するデータベース保存表示部108を含む。
ファイル選択表示部101は、録音音声ファイルの選択を制御するために使用される。
音声波形表示部102には、録音音声データ21の音声波形が表示される。
音響特徴情報表示部103には、録音音声データ21の音響特徴情報22が表示される。
編集情報表示部105には、編集情報24が表示される。
可変部分位置情報表示部104には、可変部分位置情報23が表示される。
編集制御表示部106は、編集情報24を制御するために使用される。
編集効果確認表示部107は、編集情報24の効果の確認及びハイブリッド合成のテストに使用される。
データベース保存表示部108は、録音音声データベースへのデータ保存を制御するために使用される。
次に、図7から図10を参照して、本発明の第2の実施形態の音声編集合成システムの動作について説明する。
図10は、本発明の第2の実施形態の音声編集合成システムの動作を示すフローチャートである。
まず、音声編集合成システムのユーザは、ファイル選択表示部101を操作することによって、録音音声データ21を選択する(ステップS201)。例えば、ユーザは、録音音声データ21を含むファイルのファイル名(例えばrokuon.pcm)をファイル選択表示部101に入力し、データ選択ボタンを操作することによって、録音音声データ21を選択してもよい。音声波形表示部102は、選択された録音音声データ21に対応する音声波形データを表示する。
ステップS201において、ユーザは、録音音声ファイルを指定してもよいが、例えばマイク832などを用いて録音音声データ21を直接入力してもよいし、録音音声データベース20から録音音声データ21を取得するように指示してもよい。
次に、音響特徴情報設定部110は、選択された録音音声データ21の音声分析を行い、音響特徴情報22を設定する(ステップS202)。分析された音響特徴情報22は、音響特徴情報表示部103に表示される。図9の例において、分析された音響特徴情報22は、音響特徴情報表示部103に実線の曲線として表示される。音響特徴情報設定部110は、ユーザによる音響特徴情報表示部103への操作に従って、分析された音響特徴情報22を修正してもよい。
次に、可変部分位置設定部120は、ユーザによる可変部分位置情報表示部104への操作に従って、可変部分位置情報23を設定する(ステップS203)。ユーザは、可変部分位置情報表示部104への操作によって、可変部分位置情報23に含まれる開始インデックス及び音素数を変更することができる。
次に、編集情報設定部130は、ユーザによる編集情報表示部105への操作に従って、編集情報24を設定する(ステップS204)。ユーザは、編集情報表示部105への操作によって、編集情報24の基本周波数調整量を変更することができる。図9の例において、編集情報表示部105に表示される破線の曲線は、編集情報24(すなわち基本周波数調整量)が重畳された音響特徴情報を示す。
例えば、ユーザは、この破線を、マウス834等を操作することによって任意の形状に設定することができる。音響特徴情報表示部103に表示される実線から、編集情報表示部105に表示される破線への変更量が、編集情報24の基本周波数調整量として設定される。
さらに、ステップS204において、編集情報設定部130は、ユーザによる可変部分位置情報表示部104への操作に従って、編集情報24の継続長調整量を変更することができる。図9の例において、音響特徴情報表示部103及び可変部分位置情報表示部104に表示される各音素ラベルを囲む長方形の横幅が、各音素に設定された継続長に対応する。ユーザは、可変部分位置情報表示部104に表示されたこれらの長方形の横幅を、マウス834等を操作することによって、任意の値に設定することができる。ユーザによって設定された横幅に対応する継続長と、音響特徴情報表示部103に表示されている長方形の横幅に対応する継続長との差分が、編集情報24の継続長調整量として設定される。
ステップS204において、編集情報設定部130は、ユーザによる編集制御表示部106への操作に従って、編集情報24を設定することもできる。例えばテンプレートとして、強調・喜・怒・哀・楽などの編集情報24に関する代表的な設定が予め用意されていてもよい。ユーザは、例えばマウス834等を操作することによって、それらのテンプレートのいずれかとその強度とを指定することによって、編集情報24を簡易に設定することができる。さらに、ユーザは、マウス834等を操作して、テンプレートによって設定された基本周波数の上昇又は下降、音素継続長の圧縮又は伸長を編集制御表示部106において指定することによって、編集情報24を微調整することもできる。
これらのテンプレートを用いる操作は、編集情報表示部105等に対する操作と組み合わせて実行されてもよい。具体的には、編集制御表示部106への操作によって設定された編集情報24が、編集情報表示部105及び可変部分位置情報表示部104に表示されてもよい。ユーザは、その表示された編集情報をさらにマウス834等を操作することによって変更することができる。
次に、編集合成部140は、ユーザによる編集効果確認表示部107への操作に従って、ハイブリッド合成音声の聴取確認を行う(ステップS205)。
例えば、ユーザが、編集効果確認表示部107に可変部分テキストとして任意の入力(例えば「シナガワ」)を与えて、再生を指示すると、編集合成部140は、入力されたテキストを音声編集合成装置1へ入力する。音声編集合成装置1は、規則合成音声を出力する。さらに、ユーザが編集再生を指示すると、編集合成部140は、入力されたテキスト及びその時点で設定されている編集情報24の指定を音声編集合成装置1へ入力する。音声編集合成装置1は、編集情報24によって音響特徴量が変更された規則合成音声を出力する。さらに、ユーザが編集合成を指示すると、編集合成部140は、録音音声データ、入力されたテキスト及びその時点で設定されている編集情報24に指定を音声編集合成装置1へ入力する。音声編集合成装置1は、編集情報24によって音響特徴量が変更された規則合成音声に録音音声を接続することによって合成された音声を出力する。
ユーザは、音声編集合成装置1から出力された音声を聴取することによって、音響特徴情報22、可変部分位置情報23及び編集情報24の妥当性を確認することができる。その際、録音音声データベース20を利用する代わりに、音響特徴情報設定部110、可変部分位置設定部120及び編集情報設定部130の出力結果として一時的に保存されている、音響特徴情報22、可変部分位置情報23及び編集情報24が利用される。
ステップS205において、音声聴取を行った結果、編集情報24の再設定を行いたい場合、処理はステップS204に戻ることができる(ステップS206)。可変部分位置情報23の再設定を行いたい場合、処理はステップS203に戻ることができる(ステップS207)。音響特徴情報22の再設定を行いたい場合、処理はステップS202に戻ることができる(ステップS208)。さらに、別の録音音声データ21について処理したい場合、処理はステップS201に戻ることができる(ステップS209)。
最後に、情報記憶部150は、データベース保存表示部108に対する操作によって、録音音声データ21、それに関連付けられた音響特徴情報22、可変部分位置情報23及び編集情報24を録音音声データベース20へ格納する(ステップS210)。
以上のように本発明の第2の実施形態によれば、録音音声データベース作成装置を備える音声編集合成システムにおいて、録音音声データの音響特徴情報を編集するための画面表示及び入力インターフェースが提供される。これによって、録音音声データの一部を編集して、可変部分に対する、心的態度を表現する話調の付加を適切に行うことのできる、高品質な音声編集合成システムを実現することができる。さらに、本実施形態のシステムを用いることによって、高品質な音声編集合成装置を構築することが可能となる。
以上詳述したように、本発明の実施形態によれば、録音音声データの音響特徴情報を編集することによって取得された編集情報が予め格納される。そして、その編集情報を用いて、規則合成パラメータを調整することによって、可変部分に対する話調の付加が適切に行われ、さらに、録音音声と規則合成音声部分の韻律の整合が図られる。その結果、高品質の合成音声が出力される。
さらに、録音音声データの音響特徴が規則合成パラメータに反映されるため、録音音声データと滑らかに接続可能な規則合成音声を生成することができる。さらに、話調に対応する編集情報は、録音音声データの音響特徴情報と分離して格納され、規則合成パラメータに重畳されることによって、録音音声の音響特徴及び可変部分テキストの内容から独立した話調を規則合成音声に付加することができる。
さらに、編集情報を補間することによって、可変部分テキストの長さが元の録音音声の可変部分の長さと異なる場合においても適切な話調を付加することができる。
さらに、音響特徴情報が、各音素に対応する基本周波数、継続長、パワー及びスペクトルの少なくとも一つを含むため、言語情報に基づいて適切に編集情報を補完することができる。
さらに、録音音声データの音響特徴情報を編集するための画面表示及び入力インターフェースが提供されるため、録音音声データの一部を編集して可変部分に対する話調を適切に付加するために必要な録音データベースを容易に生成することができる。
以上の結果、高品質な音声編集合成システムを実現することができる。
本発明は、車載用カーナビゲーションシステムや鉄道放送システムへの適用が好適であるが、テキスト入力から音声出力を実現する音声案内システム一般に適用可能である。