JP2009157220A

JP2009157220A - 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法

Info

Publication number: JP2009157220A
Application number: JP2007337252A
Authority: JP
Inventors: Yusuke Fujita; 雄介藤田; Ryota Kamoshita; 亮太鴨志田; Kenji Nagamatsu; 健司永松
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-12-27
Filing date: 2007-12-27
Publication date: 2009-07-16

Abstract

【課題】録音音声と規則合成音声とを組み合わせて、音声データを生成する音声編集合成装置において、話者の心的態度を表現する話調を付加する。
【解決手段】音声編集合成システムであって、第１話調を付加して発話された第１テキストの音声データである第１音声データを格納し、前記第１音声データの音響特徴量である第１音響特徴量を示す情報を格納し、前記第１音声データに第２話調を付加することによって生成された第２音声データの前記音響特徴量である第２音響特徴量と、前記第１音響特徴量と、の間の変更量を示す編集情報を格納し、第２テキストに韻律モデルを適用することによって、前記第１話調が付加された第３音声データの前記音響特徴量である第３音響特徴量を生成し、前記第３音響特徴量に前記編集情報を重畳することによって第４音響特徴量を生成し、前記第４音響特徴量を有する第４音声データに基づいて、前記出力装置に音声を出力させる。
【選択図】図１

Description

本願明細書で開示される技術は、音声を合成する技術に関し、特に、録音音声と規則合成音声とを組み合わせて合成する音声合成技術に関する。

車載用ナビゲーション装置及び公共施設における自動放送装置など、音声を用いて自動的に情報を提供する、自動音声案内システムが広く普及している。これらのシステムは、録音した音声を接続して再生する録音編集方式と呼ばれるものと、発音を表した文字又は符号列から音声を合成する規則合成方式と呼ばれるものに分けられる。

録音編集方式は、従来、自動音声案内で用いられてきた方式である。自動音声案内では定型的な表現が多く使用されるため、定型部分を録音音声の部品として複数用意しておき、要求に応じてそれらを適宜組み合わせることによって、音声が作成される。

一方、規則合成方式は、入力された任意のテキストを音声に変換することを可能とする方式である。規則合成方式では、入力されたテキストに対して言語処理を行い、読み及びアクセントの情報を示す中間記号列を生成した後、基本周波数パタン（すなわち声の高さに対応する声帯の振動周期）及び音素継続時間長（すなわち発声速度に対応する各音素の長さ）などの韻律パラメータを決定する。そして、波形生成処理によって、韻律パラメータにあわせた音声波形が生成される。韻律パラメータから音声波形を生成する方法として、音素又は音節に対応する音声素片を組み合わせる、波形接続型音声合成が広く用いられている。

一般的な規則合成の流れは次の通りである。まず、言語処理では、入力されたテキストから、中間記号列が生成される。中間記号列には、音素（音声の意味を弁別するための最小単位）又は音節（１ないし３個程度の音素の結合からなる音声の聞こえの一種のまとまり）の並びを表現する読み情報、及び、アクセント（発音の強さを指定する情報）又は抑揚（疑問文や話し手の感情を示す情報）を表現するアクセント情報が含まれる。中間記号列の生成には、辞書を用いた言語処理又は形態素解析処理が応用される。次に、中間記号列のアクセント情報に対応するように、基本周波数パタン及び音素継続時間長などの韻律パラメータが決定される。

韻律パラメータは、あらかじめ肉声を用いて学習された韻律モデル、及び、ヒューリスティクス（発見的に求められた制御規則）に基づいて生成される。最後に波形生成処理によって、韻律パラメータに合わせた音声波形が生成される。

規則合成方式によれば、入力された任意のテキストを音声として出力することができるため、録音編集方式を利用する場合と比べて、柔軟性の高い音声案内システムが構築できる。しかし、規則合成方式によって出力された音声の品質は、肉声と比べると充分でない。このため、従来、録音編集方式を利用している車載用カーナビゲーション装置などの音声案内システムに、規則合成方式を導入するには、品質の面で問題があった。

このような品質の問題に対応するために、ハイブリッド方式が考えられている。ハイブリッド方式によれば、規則合成音声を利用した音声案内システムを実現するために、定型部分にはあらかじめ録音された録音音声を用い、可変部分には規則合成音声を用いることによって、録音音声の高品質性と規則合成音声の柔軟性を組み合わせることができる。

ハイブリッド方式では、録音音声と規則合成音声との間で、抑揚及びリズムが異なることが問題となっていた。この問題に対して、特許文献１に示すように、録音音声の韻律情報を利用して、規則合成音声の韻律パラメータをより高品質に生成する技術が開示されている。
特開平１１−２４９６７７号公報

ハイブリッド方式によれば、特許文献１に示すような技術を用いて、録音音声と規則合成音声を組み合わせた高品質の音声合成が可能になる。しかし、規則合成音声の韻律パラメータは録音音声の韻律情報を利用して制御されるため、規則合成音声は、録音音声と同等の表現ができるにとどまり、話者の心的態度（すなわち強調又は感情の表出）を表現することができなかった。

規則合成方式において話者の心的態度を表現するためは、韻律パラメータを適切に制御する必要がある。例えば、心的態度を表現するように抑揚及びリズムが調整された韻律パラメータをあらかじめ保持しておき、それを規則合成音声に適用することが考えられる。しかし、任意のテキスト入力に対して、心的態度に対応する韻律パラメータをあらかじめ作っておくことは現実的でない。

あるいは、あらかじめ心的態度を表現した録音音声を用意すれば、特許文献１に示すような技術を用いて、録音音声の韻律情報から話者の心的態度を表現することも可能である。しかし、韻律情報の中には、録音音声の読み及びアクセントを表現するための情報と、心的態度を表現する情報とが混在している。このため、上記の方法は、規則合成音声部分に適切に心的態度を反映する方法としては不充分である。

本発明は、上記の問題に鑑みてなされたものであり、心的態度を表現した合成音声を提供することを目的とする。

本願で開示する代表的な発明は、音声を合成する音声編集合成システムであって、前記音声編集合成装置は、プロセッサと、前記プロセッサに接続される記憶装置と、前記プロセッサに接続される出力装置と、を備え、前記記憶装置には、発話者が第１話調を付加して第１テキストを読み上げることによって発話された音声を録音することによって得られた第１音声データが格納され、前記第１音声データの音響特徴量である第１音響特徴量を示す情報が格納され、前記第１音声データに第２話調を付加することによって生成された第２音声データの前記音響特徴量である第２音響特徴量と、前記第１音響特徴量と、の間の変更量を示す編集情報が格納され、前記プロセッサは、第２テキストに韻律モデルを適用することによって、前記第１話調が付加された第３音声データの前記音響特徴量である第３音響特徴量を生成し、前記第３音響特徴量に前記編集情報を重畳することによって第４音響特徴量を生成し、前記第４音響特徴量を有する第４音声データを生成し、生成された前記第４音声データに基づいて、前記出力装置に音声を出力させることを特徴とする。

本発明の一実施形態によれば、録音音声と規則合成音声とを接続する音声編集合成装置において、簡易な入力方法で、高品質に、話者の心的態度を表現することが可能となる。

（第１の実施形態）
図１は、本発明の第１の実施形態の音声編集合成装置を示すブロック図である。

本実施形態は、例として、カーナビゲーションシステムに使用される音声編集合成装置１を示す。このため、本実施形態の音声編集合成装置１は、図１に示すとおり、ナビゲーション制御装置２に接続される。

本実施形態のナビゲーション制御装置２は、公知のものであってよい。例えば、ナビゲーション制御装置２は、情報受信部、ナビゲーション制御部及びナビゲーション用データ記憶部を備える。ナビゲーション制御部は、情報受信部が受信した情報及びナビゲーション用データ記憶部に格納されたデータに基づいて、中間記号列を生成し、音声編集合成装置１に出力する。

音声編集合成装置１は、入力解析部１０、録音音声データベース２０、録音音声選択部３０、可変部分テキスト生成部４０、音響特徴情報取得部５０、編集情報取得部６０、規則合成部７０、接続合成部８０及び音声出力部９０を備える。

入力解析部１０は、ナビゲーション制御装置２から入力される中間記号列から録音音声の指定及び可変部テキストの指定を抽出する。

録音音声データベース２０は、録音音声データを格納する。録音音声データとは、発話者によって発話された音声をアナログ／デジタル（Ａ／Ｄ）変換することによって生成されたデータである。

録音音声選択部３０は、録音音声の指定に基づいて、録音音声データベース２０から録音音声データを選択する。

可変部分テキスト生成部４０は、可変部分を含んだ規則合成を行うためのテキストを生成する。

音響特徴情報取得部５０は、録音音声データベース２０から録音音声の音響特徴情報を取得する。

編集情報取得部６０は、録音音声データベース２０から録音音声の音響特徴情報に関する編集情報を取得する。

規則合成部７０は、可変部分テキスト、録音音声の音響特徴情報及び編集情報に基づいて規則合成音声を生成する。

接続合成部８０は、録音音声と規則合成音声とを接続してハイブリッド合成音声を生成する。

音声出力部９０は、ハイブリッド合成音声を出力する。

図２は、本発明の第１の実施形態の音声編集合成装置１のハードウェア構成を示すブロック図である。

本実施形態の音声編集合成装置１は、相互に通信可能に接続された制御装置２１０、記憶装置２２０、入力装置２３０、出力装置２４０及び通信装置２５０を備える。

制御装置２１０は、本実施形態の音声編集合成装置１の動作を制御する。制御装置２１０は、ＣＰＵ２１１及びメモリ２１２を備える。ＣＰＵ２１１は、メモリ２１２に格納されたプログラムを実行するプロセッサである。メモリ２１２は、例えば半導体メモリであり、ＣＰＵ２１１によって実行されるプログラム及びＣＰＵ２１１によって参照されるデータを格納する。それらのプログラム及びデータは、記憶装置２２０に格納され、必要に応じて記憶装置２２０からメモリ２１２にコピーされてもよい。ＣＰＵ２１１は、メモリ２１２に格納されたプログラムを実行することによって、記憶装置２２０、入力装置２３０、出力装置２４０及び通信装置２５０におけるデータの入出力及びその他の種々の処理を制御する。

記憶装置２２０は、ＣＰＵ２１１によって実行されるプログラム及びＣＰＵ２１１によって参照されるデータを格納する。記憶装置２２０は、例えば、ハードディスクドライブ（ＨＤＤ）又は光ディスク装置のようなディスク装置、デジタルオーディオテープ（ＤＡＴ）装置のようなテープ装置又はフラッシュメモリのような半導体メモリであってもよい。本実施形態の記憶装置２２０には、入力解析部１０、録音音声選択部３０、可変部分テキスト生成部４０、音響特徴情報取得部５０、編集情報取得部６０、規則合成部７０、接続合成部８０及び音声出力部９０が格納される。これらは、ＣＰＵ２１１によって実行されるプログラムである。したがって、図１に示す音声編集合成装置１の各部の機能は、ＣＰＵ２１１が上記のプログラムを実行することによって実現される。

さらに、記憶装置２２０には、録音音声データベース２０が格納される。録音音声データベース２０に格納されるデータの詳細については後述する（図４等参照）。

入力装置２３０は、Ａ／Ｄ変換器２３１、マイク２３２、キーボード２３３及びマウス２３４を備える。マイク２３２は、発話者が発話した音声をアナログ電気信号に変換する。Ａ／Ｄ変換器２３１は、マイク２３２が出力したアナログ電気信号をデジタルデータ（すなわち録音音声データ）に変換する。キーボード２３３及びマウス２３４は、操作者による指示などを受け付け、その指示を制御装置２１０に送信するインターフェースである。入力装置２３０は、キーボード２３３及びマウス２３４の代わりに（又はそれらに加えて）、いかなる種類のインターフェースを備えてもよい。

出力装置２４０は、デジタル／アナログ（Ｄ／Ａ）変換器２４１、スピーカ２４２及びディスプレイ２４３を備える。Ｄ／Ａ変換器２４１は、音声データをアナログ電気信号に変換する。スピーカ２４２は、Ｄ／Ａ変換器２４１から出力されたアナログ電気信号を音声に変換する。ディスプレイ２４３は、操作者に種々の情報を表示するインターフェースである。

通信装置２５０は、種々の装置（例えば、図１に示すナビゲーション制御装置２）に接続され、その接続された装置と通信する。例えば、図１及び図２の例では、制御装置２１０によって実行される入力解析部１０は、通信装置２５０を介して中間記号列をナビゲーション制御装置２から受信する。

次に、図１及び図３を用いて本発明の第１の実施形態の音声編集合成装置１の動作について説明する。

図３は、本発明の第１の実施形態の音声編集合成装置１の動作を示すフローチャートである。

まず、ナビゲーション制御装置２は、音声編集合成を行うための入力記号列（すなわち、前述の中間記号列）を生成する（ステップＳ１０１）。入力記号列は、音声編集合成装置１の入力解析部１０が解釈可能な記号列フォーマットとして予め定義され、録音音声データの指定、可変部分テキストの指定及び編集情報の指定のうち一つ以上を含む。

本実施形態では一例として、「この先、中野付近で、渋滞があります」というテキストに対応する録音音声データが録音音声データベース２０に格納されている場合において、「この先、品川付近で、渋滞があります」という音声を出力しようとする場合について説明する。この例では、「品川」に対応する録音音声データが存在しないため、少なくとも、「品川」に対応する規則合成音声を生成して、録音音声データ「この先、」及び「付近で、渋滞があります」と接続する必要がある。

このような場合、例えば、「Ａ、Ｂ１シナガワ、Ｃ」のような入力記号列が生成され、音声編集合成装置１に入力される。この入力記号列のうち、「Ａ」、「Ｂ」及び「Ｃ」は、録音音声データを指定する。「Ｂ」に続く「１」は、編集情報を指定する。「１」に続く「シナガワ（品川）」は、可変部分テキストを指定する。この入力記号列によって、音声編集合成装置１は、「この先、品川付近で、渋滞があります。」という文章に対応する音声を出力させることができる。

なお、「シナガワ（品川）」は、４音節（８音素）からなる地名である。後述する「ナカノ（中野）」及び「ミタカ（三鷹）」は、３音節（６音素）からなる地名である。本実施形態において、「シナガワ」の先頭の「ｓｈ」は、１音素として計数されている。

入力解析部１０は、前記の入力記号列を次のように解釈する。まず、入力解析部１０は、番号Ａに対応する録音音声データ（すなわち、発話者が「コノサキ（この先）」と発話している音声のデータ）を指定する。次に、入力解析部１０は、番号Ｂに対応する録音音声データ（すなわち、発話者が「ナカノフキンデ（中野付近で）」と発話している音声のデータ）、番号Ｂに対応する１番目の編集情報、及び、番号Ｂの可変部分テキスト「シナガワ」を指定する。次に、入力解析部１０は、番号Ｃに対応する録音音声データ（すなわち、発話者が「ジュウタイガアリマス（渋滞があります）」と発話している音声）を指定する。以降のステップでは、「Ｂ１シナガワ」に対応して、「品川付近で、」と発話する音声を出力する手順について説明する。

次に、入力解析部１０の解析結果に従い、必要となる録音音声が録音音声データベース２０から取得される（ステップＳ１０２）。ここで、録音音声データベース２０に格納されているデータについて、図４及び図５を参照して説明する。

図４は、本発明の第１の実施形態の録音音声データベース２０の説明図である。

録音音声データベース２０には、複数の録音音声データ２１が格納される。各録音音声データ２１には一意な番号が付与される。録音音声データ２１は、発話者がテキスト（例えば、「ナカノフキンデ」）を読み上げることによって発話された音声を録音することによって得られる。このとき、発話者は、所定の話調（例えば、平板な話調）を付加してテキストを読み上げてもよい。話調については後述する。

録音音声データベース２０には、各録音音声データ２１に関連付けて、音響特徴情報２２、可変部分位置情報２３及び編集情報２４が格納される。録音音声データ２１と、それに関連付けられた音響特徴情報２２、可変部分位置情報２３及び編集情報２４とが一つのレコードを構成する。

図４は、番号Ａが付与された録音音声データ２１Ａ及び番号Ｂが付与された録音音声データ２１Ｂが格納される例を示す。録音音声データ２１Ａ及び２１Ｂの各々は、複数の録音音声データ２１の一つである。音響特徴情報２２Ａ、可変部分位置情報２３Ａ及び編集情報２４Ａが、録音音声データ２１Ａに関連付けて格納される。音響特徴情報２２Ｂ、可変部分位置情報２３Ｂ及び編集情報２４Ｂが、録音音声データ２１Ｂに関連付けて格納される。音響特徴情報２２Ａ及び２２Ｂは、それぞれ、録音音声データ２１Ａ及び２１Ｂに対応付けられた音響特徴情報２２である。可変部分位置情報２３Ａ及び２３Ｂは、それぞれ、録音音声データ２１Ａ及び２１Ｂに対応付けられた可変部分位置情報２３である。編集情報２４Ａ及び２４Ｂは、それぞれ、録音音声データ２１Ａ及び２１Ｂに対応付けられた編集情報２４である。

図５は、本発明の第１の実施形態の録音音声データベース２０に格納されたレコードの説明図である。

図５は、録音音声データベース２０に格納されたレコードの一例として、番号Ｂが付与された録音音声データ２１Ｂを含むレコードを示す。このレコードには、録音音声データ２１Ｂに関連付けられた音響特徴情報２２Ｂ、可変部分位置情報２３Ｂ及び編集情報２４Ｂが含まれる。

録音音声データ２１Ｂは、発話者が「ナカノフキンデ」と発話している音声のデータである。

音響特徴情報２２Ｂは、録音音声データ２１Ｂに含まれる音素の特徴を示すパラメータ（すなわち音響特徴量）を含む。具体的には、音響特徴情報２２Ｂは、音素ラベルに関連付けられた開始時刻、終了時刻、開始基本周波数及び終了基本周波数などを含む。なお、音素ラベルは、録音音声データ２１Ｂに含まれる各音素に付与されたラベルである。

例えば、図５において、最初の音素ラベル「Ｎ」（すなわち、「ナカノフキンデ（ＮＡＫＡＮＯＦＵＫＩＮＤＥ）」の最初の「Ｎ」）に対応する開始時刻、終了時刻、開始基本周波数及び終了基本周波数として、それぞれ、２１０ミリ秒（ｍｓ）、２８０ｍｓ、８０ヘルツ（Ｈｚ）及び７０Ｈｚが格納されている。これは、最初の音素「Ｎ」に対応する音声が時刻２１０ｍｓから２８０ｍｓまで継続し、その開始時点及び終了時点の基本周波数が、それぞれ、８０Ｈｚ及び７０Ｈｚであることを示す。

なお、開始時刻から終了時刻までの時間（すなわち継続長）は、音素が発話された時間の長さを示すパラメータである。開始基本周波数及び終了基本周波数は、それぞれ、発話が開始された時点及び発話が終了した時点における、発話された音素の音程（すなわち声の高さ）を示すパラメータである。

音響特徴情報２２Ｂには、さらに他のパラメータ、例えば、パワー及びスペクトルが含まれてもよい。あるいは、これらのパラメータの任意の一つ以上が含まれてもよい。パワーは、声の大きさ及び歯切れのよさ等を示すパラメータである。スペクトルは、声の質を示すパラメータである。

上記のような音響特徴情報２２は、録音音声データ２１を公知の音声分析方法を用いて自動分析することによって取得及び保存されてもよい。また、より正確な情報とするために、自動分析結果における誤り（例えば、録音時の雑音等に起因する誤り）を手作業で修正した結果を保存しておいてもよい。

可変部分位置情報２３Ｂは、録音音声データ２１Ｂに設定された可変部分（すなわち、規則合成音声によって置き換え可能な部分）を示す情報である。可変部分位置情報２３Ｂは、可変部ＩＤ、開始インデックス及び音素数を含む。

可変部ＩＤは、設定された可変部分を識別する情報である。一つの録音音声データ２１に複数の可変部分が設定されている場合、各可変部分は可変部ＩＤによって識別される。

開始インデックスは、可変部分として設定された範囲の先頭の音素を示す。

音素数は、可変部分として設定された範囲に含まれる音素の数を示す。

図５の例では、音素ラベル「Ｐａｕｓｅ」にインデックス「０」が付与され、最初の音素ラベル「Ｎ」にインデックス「１」が付与される。すなわち、図５に例示するように、開始インデックス及び音素数がそれぞれ「１」及び「６」である場合、設定された可変部分は、最初の音素ラベル「Ｎ」が付与された音素を先頭とする６音素、すなわち、音素ラベル「Ｎ」、「Ａ」、「Ｋ」、「Ａ」、「Ｎ」及び「Ｏ」がそれぞれ付与された６音素である。

編集情報２４Ｂは、録音音声データ２１Ｂに話調を付加するために音響特徴情報２２Ｂに加えられる調整（変更）の量を示す。

話調とは、発話者の心的態度を表現するために音声に付加される特徴である。発話者の心的態度とは、例えば、「強調」、「喜び」、「怒り」、「哀しみ」、「楽しみ」等である。あるいは、発話者が特別な心的態度を込めずに発話した音声には平板な話調が付加されている、と解釈することもできる。

具体的には、編集情報２４Ｂは、第１の話調（例えば、平板な話調）が付加された録音音声データ２１Ｂに、新たに第２の話調（例えば、「強調」を表現する話調）を付加するために、音響特徴情報２２Ｂに重畳されるべき調整量（すなわち変更量）を示す。例えば、編集情報２４Ｂは、第１の話調が付加された録音音声データ２１Ｂの音響特徴情報２２Ｂと、第２の話調が付加された録音音声データ２１Ｂの音響特徴情報２２Ｂとの差分を示す。

図５の例において、編集情報２４Ｂは、継続長調整量及び基本周波数調整量を含む。継続長調整量は、音響特徴情報２２Ｂの開始時刻から終了時刻までの時間（すなわち継続長）の調整量を示す値である。基本周波数調整量は、音響特徴情報２２Ｂの開始基本周波数及び終了基本周波数の調整量を示す値である。

図５の例では、最初の音素ラベル「Ｎ」に対応する編集情報２４Ｂとして、継続長調整量「＋１０ｍｓ」及び基本周波数調整量「＋１０Ｈｚ」が格納される。この場合、録音音声データ２１Ｂに第２の話調を付加するために、最初の音素ラベル「Ｎ」に対応する開始時刻から終了時刻までの時間が１０ｍｓ延長される。さらに、その音素ラベル「Ｎ」に対応する開始基本周波数及び終了基本周波数に１０Ｈｚが加算される。

上記のように、図５は、編集情報２４Ｂとして音響特徴情報２２の差分が格納され、この差分をいずれかの音響特徴情報２２（例えば音響特徴情報２２Ｂ）に加算することによって話調が付加される例を示す。しかし、加算以外の方法（例えば乗算）によって、編集情報２４Ｂに含まれる調整量が音響特徴情報２２に重畳されてもよい。

例えば、最初の音素ラベル「Ｎ」に対応する編集情報２４Ｂとして、継続長調整量「＋１０ｍｓ」の代わりに継続長調整量「＋１０％」が、基本周波数調整量「＋１０Ｈｚ」の代わりに基本周波数調整量「＋１０％」が格納されてもよい。この場合、録音音声データ２１Ｂに第２の話調を付加するために、最初の音素ラベル「Ｎ」に対応する開始時刻から終了時刻までの時間が１０％延長される。さらに、その音素ラベル「Ｎ」に対応する開始基本周波数及び終了基本周波数に「１．１」が乗算される。その結果、開始基本周波数及び終了基本周波数が１０％上昇する。

なお、図６を参照して後述するように、編集情報２４は、規則合成パラメータにも重畳される。この場合にも、上記と同様に、加算又は乗算等の方法によって、編集情報２４に含まれる調整量を重畳することができる。

図５の例では、一組の音響特徴情報２２Ｂに対応して、一組の編集情報２４Ｂ（すなわち、一組の継続長調整量及び基本周波数調整量）が格納されている。しかし、一組の音響特徴情報２２Ｂに対応して複数組の編集情報２４Ｂが格納されてもよい。例えば、第１の話調と第２の話調との差分に相当する継続長調整量及び基本周波数調整量の組に加えて、第１の話調と第３の話調（例えば、「喜び」を表現する話調）との差分に相当する継続長調整量及び基本周波数調整量の組が編集情報２４Ｂとして格納されてもよい。

この場合、複数組の編集情報２４Ｂの各々は、番号によって識別される。例えば、図３のステップＳ１０１において「Ａ、Ｂ１シナガワ、Ｃ」が入力された場合、「Ｂ」に続く「１」は、複数の編集情報２４Ｂの組のうち１番目のものを指定する。

音響特徴情報２２Ｂが、図５に示していないパラメータ（例えば、パワー又はスペクトル等）を含む場合、編集情報２４Ｂは、これらのパラメータに対応する調整量をさらに含んでもよい。

図３のステップＳ１０２において、録音音声選択部３０は、録音音声データベース２０から録音音声データ２１（例えば録音音声データ２１Ｂ）を選択する。さらに、音響特徴情報取得部５０は、録音音声データ２１に関連付けられた音響特徴情報２２（例えば音響特徴情報２２Ｂ）を取得する。さらに、編集情報取得部６０は、録音音声データ２１に関連付けられた１番目の編集情報２４（例えば編集情報２４Ｂの１番目のもの）を取得する。

このような録音音声データベース２０の構成は、例えばリレーショナルデータベース又はファイルシステムなどを用いて実現することができる。あるいは、音響特徴情報２２は、録音音声データベース２０に格納されなくてもよい。音響特徴情報２２は録音音声データ２１から自動的に生成することができるためである。この場合、録音音声データ２１が選択される度に、その選択された録音音声データ２１から音響特徴情報２２が生成される必要がある。

図５の例において、可変部分位置情報２３Ｂは一つの可変部分を示す情報のみを含んでいる。しかし、可変部分位置情報２３は、複数の可変部分を示す情報を含んでもよいし、可変部分を示す情報を一つも含まなくてもよい。例えば、可変部分位置情報２３が可変部分を示す情報を一つも含まない場合、その可変部分位置情報２３に対応する録音音声データ２１は、可変部分を含まない定型音声である。この場合、その録音音声データ２１に対しては、可変部分テキスト生成部４０、音響特徴情報取得部５０、編集情報取得部６０及び規則合成部７０を動作しないように制御することができる。

さらに、既に説明したように、編集情報２４も複数の調整量の組を含むことができる。あるいは、編集情報２４は、一つの調整量の組も含まなくてもよい。例えば、一つの調整量の組も含まない場合、編集情報取得部６０を動作させず、可変部分テキスト生成部４０の出力と音響特徴情報２２だけを用いて規則合成部７０を動作させるように制御することができる。

再び図３を参照して、ステップ１０２に続く処理について説明する。

次に、可変部分テキスト生成部４０は、規則合成部７０へ入力するテキストを生成する（ステップＳ１０３）。可変部分テキスト生成部４０は、録音音声データ２１に関連付けられた可変部分位置情報２３に基づいて、録音音声の可変部分「ナカノ」を可変部分テキスト「シナガワ」に置き換えた「シナガワフキンデ」を生成する。録音音声の可変部分と定型部分の文字列は、音響特徴情報２２として格納されている音素ラベルから求められてもよいし、録音音声データ２１に関連付けて格納されていてもよい。

次に、規則合成部７０は、可変部分テキスト生成部４０の出力を用いて規則合成パラメータ７２を生成する（ステップＳ１０４）。規則合成パラメータ７２とは、規則合成音声の音響特徴量である。図６を参照して本ステップの動作を説明する。

図６は、本発明の第１の実施形態において生成される規則合成パラメータの説明図である。

図６に示す録音音声データ２１Ｂは、図５に示したものと同様である。

図６に示す録音音声データの音響特徴情報２２Ｂは、図５に示す音響特徴情報２２Ｂをグラフによって表示したものである。このグラフにおいて、横軸は時刻、縦軸は基本周波数である。図５に示す音響特徴情報２２Ｂの各音素の開始時刻と開始基本周波数との組み合わせに対応する点、及び、終了時刻と終了基本周波数との組み合わせに対応する点がグラフ上にプロットされる。図６に音響特徴情報２２Ｂとして示す実線は、これらの点を線によって連結したものである。

録音音声データの音響特徴情報２２Ｂの可変部分は、可変部分位置情報２３Ｂによって指定されたものである。

録音音声データの音響特徴情報２２Ｂの可変部分に種々の編集情報２４を重畳することによって、種々の話調が付加される。話調が付加された録音音声データの音響特徴情報を破線で示す。

例えば、図６に示す編集情報２４Ｂは、図５に示すものである。一方、図６に示す編集情報２４Ｃは、編集情報２４Ｂとは異なる話調を付加するために重畳される編集情報２４である。図６の例では、可変部分のうち末尾の２音節（すなわち「ｎｏ」）に重畳される編集情報２４Ｃの値は「０」である。

図６に示す規則合成パラメータ７２は、可変部分テキスト生成部４０の出力「シナガワフキンデ」から生成される。可変部分テキスト生成部４０の出力は、少なくとも、録音音声データの可変部分（例えば「ナカノ」）を置き換える可変部分テキスト７１（例えば「シナガワ」）を含む必要がある。

本実施形態において、可変部分テキスト生成部４０の出力「シナガワフキンデ」に対応する規則合成パラメータ７２を生成するために、公知の一般的な規則合成方法を使用することができる。一般的な規則合成方法によれば、韻律モデルに基づいて、基本周波数及び音素継続長などの規則合成パラメータが生成される。

規則合成パラメータ７２に種々の編集情報２４を重畳することによって、種々の話調が付加された修正規則合成パラメータ７３が生成される。この処理については後述する。破線で示される修正規則合成パラメータ７３Ａ、７３Ｂ及び７３Ｄは、それぞれ、修正規則合成パラメータ７３の例である。

さらに、本実施形態では、音響特徴情報２２を用いて、韻律モデルから生成された規則合成パラメータ７２の平均基本周波数及び平均発話速度などを、音響特徴情報２２と一致させるように伸縮させることができる。これによって、より録音音声データと滑らかに接続される規則合成パラメータ７２を生成することができる。

また、定型部分（図６に示す例の「フキンデ」に相当する部分）は、音響特徴情報２２をそのまま規則合成パラメータ７２に反映することで、規則合成パラメータ７２を録音音声データ２１と滑らかに接続することができる。

図６には、音響特徴情報として基本周波数が使用される場合を示したが、音響特徴情報がパワーを含む場合、基本周波数の代わりにパワーがプロットされてもよい。

次に、図３及び図６を参照して、ステップ１０４に続く処理について説明する。

規則合成部７０は、規則合成パラメータ７２を編集情報２４に基づいて修正することによって、修正規則合成パラメータ７３を生成する（ステップＳ１０５）。図５に示すように、編集情報２４は、音響特徴情報２２の変更量として格納されている。例えば、編集情報２４は、基本周波数を上げることによって、部分的な強調という話調を表現している。

規則合成パラメータ７２に編集情報２４を重畳して修正規則合成パラメータ７３を生成することによって、可変部分の規則合成音声による部分的な強調の表現が可能となる。

録音音声の可変部分と規則合成パラメータの可変部分テキストとの音節数（及び音素数）が同一である場合、録音音声の可変部分に対応する編集情報２４をそのまま規則合成パラメータに適用することができる。

例えば、録音音声の可変部分が３音節（６音素）の「ナカノ」であり、「ナカノ」を置き換える規則合成パラメータの可変部分テキストが３音節（６音素）の「ミタカ」（図示省略）である場合、「ナカノ」に含まれる各音素に対応する編集情報２４（例えば図５に示す編集情報２４Ｂ）を、「ミタカ」に含まれる各音素に重畳することができる。編集情報２４Ｂが「強調」を表現するものである場合、この編集情報２４Ｂを「ミタカ」に重畳することによって、「ミタカ」の部分が強調された音声が生成される。

一方、録音音声の可変部分と規則合成パラメータの可変部分テキストとの間で音節数（及び音素数）が異なる場合がある。図６には、録音音声の可変部分が、３音節（６音素）の「ナカノ」であり、「ナカノ」を置き換える規則合成パラメータの可変部分テキスト７１が、４音節（８音素）の「シナガワ」である場合を示す。

このような場合、上記の「ミタカ」の場合と同様、「ナカノ」に含まれる各音素に対応する編集情報２４Ｂを、そのまま規則合成パラメータ７２の「シナガワ」に対応する部分に重畳してもよい。ただし、この場合、「シナガワ」に含まれる音素数が「ナカノ」に含まれるものより二つ多いため、「シナガワ」に含まれる先頭の６音素に、「ナカノ」に含まれる６音素に対応する編集情報２４Ｂが重畳され、残りの２音素には、編集情報２４Ｂが重畳されない。その結果、例えば、図６に示す修正規則合成パラメータ７３Ｂが生成される。

あるいは、編集情報２４を補間することによって、任意の音素数の規則合成パラメータに適合する編集情報が生成されてもよい。この補間は、任意の公知の補間方法（例えば線形補間）によって実行されてもよい。

例えば、６音素の編集情報２４Ｂを線形補間することによって、８音素の編集情報２４Ｄを生成し、その編集情報２４Ｄを、規則合成パラメータ７２の「シナガワ」に含まれる各音素に重畳してもよい。その結果、例えば、図６に示す修正規則合成パラメータ７３Ａが生成される。このように、補間によって任意の音素数に対応する編集情報を生成することによって、より自然な話調が付加された音声を生成することができる。

なお、編集情報２４は、可変部分として指定された範囲の一部に対応する変更量のみを含む場合がある。例えば、図６において、編集情報２４Ｃは、可変部分として指定された「ナカノ（ｎａｋａｎｏ）のうち、先頭の４音素（すなわち「ｎａｋａ」）に対応する変更量のみを含み、末尾の２音素（すなわち「ｎｏ」）に対応する変更量を含まない。この場合、編集情報２４Ｃを「ｎａｋａｎｏ」に重畳すると、「ｎａｋａ」に対応する音響特徴量は変更されるが、「ｎｏ」に対応する音響特徴量は変更されない。

これは、末尾の２音素に付加された編集情報２４Ｃの値が、「音響特徴量を変更しないこと」を示している、と言い換えることもできる。編集情報２４Ｃが加算によって重畳される場合、「音響特徴量を変更しないこと」を示す編集情報２４Ｃの値は「０」である。編集情報２４Ｃが乗算によって重畳される場合、「音響特徴量を変更しないこと」を示す編集情報２４Ｃの値は「１」（又は、「±０％」）である。

ここで、録音音声データの可変部分の音素のうち、末尾の１音素を含む連続した１以上の音素に付加された編集情報２４の値が「０」である場合を仮定する。この場合において、録音音声データの可変部分の音素の数を「Ａ」、編集情報２４の値が「音響特徴量を変更しないこと」を示す末尾の連続した１以上の音素の数を「Ｂ」とする。この場合、編集情報２４が重畳されるべき規則合成パラメータの音素数が「Ａ−Ｂ」以上であれば、先頭の「Ａ−Ｂ」個の音素のみに編集情報２４を重畳することによって、適切に話調を付加することができる可能性がある。

例えば、「ナカノ」の「ナカ」に対応する音響特徴量のみを変更することによって所定の話調が付加されるのであれば、「シナガワ」の「シナ」に対応する音響特徴量のみに同様の変更を加えることによって、同様の話調を付加することができる可能性がある。したがって、このような場合には、補間をすることなく、編集情報２４をそのまま規則合成パラメータ７２に含まれる各音素に重畳してもよい。

例えば、図５の編集情報２４Ｃの例では、上記の「Ａ」が「６」、「Ｂ」が「２」、「Ａ−Ｂ」が「４」である。したがって、規則合成パラメータ７２の音素数「８」は、「Ａ−Ｂ」以上である。この場合、規則合成パラメータ７２のうち先頭の４音素のみに編集情報２４Ｃを重畳することによって、修正規則合成パラメータ７３Ｃが生成される。

このように、本実施形態では、編集情報２４の重畳（ステップＳ１０５）が、音響特徴情報２２を利用した規則合成パラメータの生成（ステップＳ１０４）から分離して実行される。このため、抑揚変化による部分的な強調及び喜怒哀楽などの心的態度を表現するための編集処理を、録音音声及び可変部分テキストの読み又はアクセント情報の構成に左右されずに行うことができる。

次に、規則合成部７０は、修正規則合成パラメータ７３を用いて規則合成音声を生成する（ステップＳ１０６）。ここでは、公知の音声合成技術を利用することができるが、修正規則合成パラメータ７３に含まれる、音素ごとの基本周波数変化及び音素継続長変化に対応して、規則合成音声を出力することのできる音声合成技術を用いることが望ましい。

次に、接続合成部８０は、録音音声データ２１と規則合成部７０の出力した規則合成音声を接続することによって、ハイブリッド合成音声を生成する（ステップＳ１０７）。ここでは、録音音声と規則合成音声を接続するために様々な方法を用いることができるが、歪の少ない、高品質のハイブリッド合成音声が得られる方法を用いることが望ましい。

例えば、録音音声データ２１と規則合成音声データとの間に重複区間が設けられ、その中で好適な接続境界が選択されてもよい。具体的には、例えば、図６の例において、「シナガワフキンデ」に対応する規則合成音声が生成される。その結果、「フキンデ」に対応する音声として、録音音声と規則合成音声の二種類が取得される。すなわち、この場合、「フキンデ」が重複区間となる。この重複区間の中で、最も自然なハイブリッド合成音声を生成する接続境界が選択される。

例えば、「フ」と「キンデ」の間の点が好適な接続境界として選択された場合、「シナガワフ」に対応する規則合成音声の後に「キンデ」に対応する録音音声が接続され、それによって自然なハイブリッド合成音声が生成される。

最後に、音声出力部９０は、接続合成部８０の出力であるハイブリッド合成音声をスピーカ２４２などの音声出力装置に出力する（ステップＳ１０８）。音声出力部９０は、ハイブリッド合成音声を出力する代わりに音声ファイルとして保存してもよい。あるいは、音声出力部９０は、生成されたハイブリッド合成音声に続く入力記号列を受け付けて、それらを接続してから出力してもよい。

以上のように、本発明の第１の実施形態によれば、車載用カーナビゲーションシステム用に構成された、録音音声データと規則合成音声データを接続する音声編集合成装置において、録音音声データの音響特徴情報を編集するための編集情報によって、規則合成パラメータが調整される。その結果、可変部分に対して、心的態度を表現する話調の付加が適切に行われる。さらに、録音音声と規則合成音声の韻律の整合がとられる。このため、本発明の第１の実施形態によれば、高品質の合成音声が出力される。

（実施例２）
次に、本発明の第２の実施形態について説明する。

図７は、本発明の第２の実施形態の、録音音声データベース作成装置を備える音声編集合成システムの構成を示すブロック図である。

本実施形態の音声編集合成システムは、図７に示すとおり、音声編集合成装置１及び録音音声データベース作成装置３を備える。音声編集合成装置１は、本発明の第１の実施形態における音声編集合成装置１と同等の構成である（図２等参照）。ただし、第２実施形態において、通信装置２５０は、後述する通信装置８５０と接続される。

録音音声データベース作成装置３は、録音音声データ作成画面１００、音響特徴情報設定部１１０、可変部分位置設定部１２０、編集情報設定部１３０、編集合成部１４０及び情報記憶部１５０を備える。

音響特徴情報設定部１１０は、録音音声データ２１の音響特徴情報２２を設定する。

可変部分位置設定部１２０は、録音音声データの可変部分位置情報２３を指定する。

編集情報設定部１３０は、編集情報２４を設定する。

編集合成部１４０は、音声編集合成装置１を用いてハイブリッド合成音声を出力する。

情報記憶部１５０は、音響特徴情報設定部１１０、可変部分位置設定部１２０及び編集情報設定部１３０の出力を録音音声データベース２０へ格納する。

図８は、本発明の第２の実施形態の録音音声データベース作成装置３のハードウェア構成を示すブロック図である。

本実施形態の録音音声データベース作成装置３は、相互に通信可能に接続された制御装置８１０、記憶装置８２０、入力装置８３０、出力装置８４０及び通信装置８５０を備える。

制御装置８１０は、本実施形態の録音音声データベース作成装置３の動作を制御する。制御装置８１０は、ＣＰＵ８１１及びメモリ８１２を備える。これらは、それぞれ、図２に示すＣＰＵ２１１及びメモリ２１２と同様のものであるため、これらについての詳細な説明は省略する。

記憶装置８２０は、ＣＰＵ８１１によって実行されるプログラム及びＣＰＵ８１１によって参照されるデータを格納する。記憶装置８２０は、図２に示す記憶装置２２０と同様、例えば、ハードディスクドライブ（ＨＤＤ）又はその他の種類の記憶装置であってもよい。本実施形態の記憶装置８２０には、音響特徴情報設定部１１０、可変部分位置設定部１２０、編集情報設定部１３０、編集合成部１４０及び情報記憶部１５０が格納される。ＣＰＵ８１１がこれらを実行することによって、図７に示す各部の処理が実現される。

入力装置８３０は、Ａ／Ｄ変換器８３１、マイク８３２、キーボード８３３及びマウス８３４を備える。これらは、それぞれ、図２に示すＡ／Ｄ変換器２３１、マイク２３２、キーボード２３３及びマウス２３４と同様のものであるため、これらについての詳細な説明は省略する。

出力装置８４０は、Ｄ／Ａ変換器２４１、スピーカ２４２及びディスプレイ２４３を備える。これらは、それぞれ、図２に示すＤ／Ａ変換器２４１、スピーカ２４２及びディスプレイ２４３と同様のものであるため、これらについての詳細な説明は省略する。

通信装置８５０は、種々の装置（例えば、図７に示す音声編集合成装置１）に接続され、その接続された装置と通信する。

なお、図２及び図８には、音声編集合成装置１及び録音音声データベース作成装置３がそれぞれ独立したハードウェアによって実現される例を示したが、これらの装置は、単一のハードウェアによって実現されてもよい。その場合、第２の実施形態の音声編集合成システムは、図８に示すハードウェアを備えない。その代わりに、図２に示す記憶装置２２０に、さらに、音響特徴情報設定部１１０、可変部分位置設定部１２０、編集情報設定部１３０、編集合成部１４０及び情報記憶部１５０が格納される。これらは、制御装置２１０のＣＰＵ２１１によって実行される。

図９は、本発明の第２の実施形態における録音音声データ作成画面１００の構成例を示す説明図である。

録音音声データ作成画面１００は、図９に示すとおり、ファイル選択表示部１０１、音声波形表示部１０２、音響特徴情報表示部１０３、編集情報表示部１０５、可変部分位置情報表示部１０４、編集制御表示部１０６、編集効果確認表示部１０７及び録音音声データベースへのデータ保存を制御するデータベース保存表示部１０８を含む。

ファイル選択表示部１０１は、録音音声ファイルの選択を制御するために使用される。

音声波形表示部１０２には、録音音声データ２１の音声波形が表示される。

音響特徴情報表示部１０３には、録音音声データ２１の音響特徴情報２２が表示される。

編集情報表示部１０５には、編集情報２４が表示される。

可変部分位置情報表示部１０４には、可変部分位置情報２３が表示される。

編集制御表示部１０６は、編集情報２４を制御するために使用される。

編集効果確認表示部１０７は、編集情報２４の効果の確認及びハイブリッド合成のテストに使用される。

データベース保存表示部１０８は、録音音声データベースへのデータ保存を制御するために使用される。

次に、図７から図１０を参照して、本発明の第２の実施形態の音声編集合成システムの動作について説明する。

図１０は、本発明の第２の実施形態の音声編集合成システムの動作を示すフローチャートである。

まず、音声編集合成システムのユーザは、ファイル選択表示部１０１を操作することによって、録音音声データ２１を選択する（ステップＳ２０１）。例えば、ユーザは、録音音声データ２１を含むファイルのファイル名（例えばｒｏｋｕｏｎ．ｐｃｍ）をファイル選択表示部１０１に入力し、データ選択ボタンを操作することによって、録音音声データ２１を選択してもよい。音声波形表示部１０２は、選択された録音音声データ２１に対応する音声波形データを表示する。

ステップＳ２０１において、ユーザは、録音音声ファイルを指定してもよいが、例えばマイク８３２などを用いて録音音声データ２１を直接入力してもよいし、録音音声データベース２０から録音音声データ２１を取得するように指示してもよい。

次に、音響特徴情報設定部１１０は、選択された録音音声データ２１の音声分析を行い、音響特徴情報２２を設定する（ステップＳ２０２）。分析された音響特徴情報２２は、音響特徴情報表示部１０３に表示される。図９の例において、分析された音響特徴情報２２は、音響特徴情報表示部１０３に実線の曲線として表示される。音響特徴情報設定部１１０は、ユーザによる音響特徴情報表示部１０３への操作に従って、分析された音響特徴情報２２を修正してもよい。

次に、可変部分位置設定部１２０は、ユーザによる可変部分位置情報表示部１０４への操作に従って、可変部分位置情報２３を設定する（ステップＳ２０３）。ユーザは、可変部分位置情報表示部１０４への操作によって、可変部分位置情報２３に含まれる開始インデックス及び音素数を変更することができる。

次に、編集情報設定部１３０は、ユーザによる編集情報表示部１０５への操作に従って、編集情報２４を設定する（ステップＳ２０４）。ユーザは、編集情報表示部１０５への操作によって、編集情報２４の基本周波数調整量を変更することができる。図９の例において、編集情報表示部１０５に表示される破線の曲線は、編集情報２４（すなわち基本周波数調整量）が重畳された音響特徴情報を示す。

例えば、ユーザは、この破線を、マウス８３４等を操作することによって任意の形状に設定することができる。音響特徴情報表示部１０３に表示される実線から、編集情報表示部１０５に表示される破線への変更量が、編集情報２４の基本周波数調整量として設定される。

さらに、ステップＳ２０４において、編集情報設定部１３０は、ユーザによる可変部分位置情報表示部１０４への操作に従って、編集情報２４の継続長調整量を変更することができる。図９の例において、音響特徴情報表示部１０３及び可変部分位置情報表示部１０４に表示される各音素ラベルを囲む長方形の横幅が、各音素に設定された継続長に対応する。ユーザは、可変部分位置情報表示部１０４に表示されたこれらの長方形の横幅を、マウス８３４等を操作することによって、任意の値に設定することができる。ユーザによって設定された横幅に対応する継続長と、音響特徴情報表示部１０３に表示されている長方形の横幅に対応する継続長との差分が、編集情報２４の継続長調整量として設定される。

ステップＳ２０４において、編集情報設定部１３０は、ユーザによる編集制御表示部１０６への操作に従って、編集情報２４を設定することもできる。例えばテンプレートとして、強調・喜・怒・哀・楽などの編集情報２４に関する代表的な設定が予め用意されていてもよい。ユーザは、例えばマウス８３４等を操作することによって、それらのテンプレートのいずれかとその強度とを指定することによって、編集情報２４を簡易に設定することができる。さらに、ユーザは、マウス８３４等を操作して、テンプレートによって設定された基本周波数の上昇又は下降、音素継続長の圧縮又は伸長を編集制御表示部１０６において指定することによって、編集情報２４を微調整することもできる。

これらのテンプレートを用いる操作は、編集情報表示部１０５等に対する操作と組み合わせて実行されてもよい。具体的には、編集制御表示部１０６への操作によって設定された編集情報２４が、編集情報表示部１０５及び可変部分位置情報表示部１０４に表示されてもよい。ユーザは、その表示された編集情報をさらにマウス８３４等を操作することによって変更することができる。

次に、編集合成部１４０は、ユーザによる編集効果確認表示部１０７への操作に従って、ハイブリッド合成音声の聴取確認を行う（ステップＳ２０５）。

例えば、ユーザが、編集効果確認表示部１０７に可変部分テキストとして任意の入力（例えば「シナガワ」）を与えて、再生を指示すると、編集合成部１４０は、入力されたテキストを音声編集合成装置１へ入力する。音声編集合成装置１は、規則合成音声を出力する。さらに、ユーザが編集再生を指示すると、編集合成部１４０は、入力されたテキスト及びその時点で設定されている編集情報２４の指定を音声編集合成装置１へ入力する。音声編集合成装置１は、編集情報２４によって音響特徴量が変更された規則合成音声を出力する。さらに、ユーザが編集合成を指示すると、編集合成部１４０は、録音音声データ、入力されたテキスト及びその時点で設定されている編集情報２４に指定を音声編集合成装置１へ入力する。音声編集合成装置１は、編集情報２４によって音響特徴量が変更された規則合成音声に録音音声を接続することによって合成された音声を出力する。

ユーザは、音声編集合成装置１から出力された音声を聴取することによって、音響特徴情報２２、可変部分位置情報２３及び編集情報２４の妥当性を確認することができる。その際、録音音声データベース２０を利用する代わりに、音響特徴情報設定部１１０、可変部分位置設定部１２０及び編集情報設定部１３０の出力結果として一時的に保存されている、音響特徴情報２２、可変部分位置情報２３及び編集情報２４が利用される。

ステップＳ２０５において、音声聴取を行った結果、編集情報２４の再設定を行いたい場合、処理はステップＳ２０４に戻ることができる（ステップＳ２０６）。可変部分位置情報２３の再設定を行いたい場合、処理はステップＳ２０３に戻ることができる（ステップＳ２０７）。音響特徴情報２２の再設定を行いたい場合、処理はステップＳ２０２に戻ることができる（ステップＳ２０８）。さらに、別の録音音声データ２１について処理したい場合、処理はステップＳ２０１に戻ることができる（ステップＳ２０９）。

最後に、情報記憶部１５０は、データベース保存表示部１０８に対する操作によって、録音音声データ２１、それに関連付けられた音響特徴情報２２、可変部分位置情報２３及び編集情報２４を録音音声データベース２０へ格納する（ステップＳ２１０）。

以上のように本発明の第２の実施形態によれば、録音音声データベース作成装置を備える音声編集合成システムにおいて、録音音声データの音響特徴情報を編集するための画面表示及び入力インターフェースが提供される。これによって、録音音声データの一部を編集して、可変部分に対する、心的態度を表現する話調の付加を適切に行うことのできる、高品質な音声編集合成システムを実現することができる。さらに、本実施形態のシステムを用いることによって、高品質な音声編集合成装置を構築することが可能となる。

以上詳述したように、本発明の実施形態によれば、録音音声データの音響特徴情報を編集することによって取得された編集情報が予め格納される。そして、その編集情報を用いて、規則合成パラメータを調整することによって、可変部分に対する話調の付加が適切に行われ、さらに、録音音声と規則合成音声部分の韻律の整合が図られる。その結果、高品質の合成音声が出力される。

さらに、録音音声データの音響特徴が規則合成パラメータに反映されるため、録音音声データと滑らかに接続可能な規則合成音声を生成することができる。さらに、話調に対応する編集情報は、録音音声データの音響特徴情報と分離して格納され、規則合成パラメータに重畳されることによって、録音音声の音響特徴及び可変部分テキストの内容から独立した話調を規則合成音声に付加することができる。

さらに、編集情報を補間することによって、可変部分テキストの長さが元の録音音声の可変部分の長さと異なる場合においても適切な話調を付加することができる。

さらに、音響特徴情報が、各音素に対応する基本周波数、継続長、パワー及びスペクトルの少なくとも一つを含むため、言語情報に基づいて適切に編集情報を補完することができる。

さらに、録音音声データの音響特徴情報を編集するための画面表示及び入力インターフェースが提供されるため、録音音声データの一部を編集して可変部分に対する話調を適切に付加するために必要な録音データベースを容易に生成することができる。

以上の結果、高品質な音声編集合成システムを実現することができる。

本発明は、車載用カーナビゲーションシステムや鉄道放送システムへの適用が好適であるが、テキスト入力から音声出力を実現する音声案内システム一般に適用可能である。

本発明の第１の実施形態の音声編集合成装置を示すブロック図である。本発明の第１の実施形態の音声編集合成装置のハードウェア構成を示すブロック図である。本発明の第１の実施形態の音声編集合成装置の動作を示すフローチャートである。本発明の第１の実施形態の録音音声データベースの説明図である。本発明の第１の実施形態の録音音声データベースに格納されたレコードの説明図である。本発明の第１の実施形態において生成される規則合成パラメータの説明図である。本発明の第２の実施形態の、録音音声データベース作成装置を備える音声編集合成システムの構成を示すブロック図である。本発明の第２の実施形態の録音音声データベース作成装置のハードウェア構成を示すブロック図である。本発明の第２の実施形態における録音音声データ作成画面の構成例を示す説明図である。本発明の第２の実施形態の音声編集合成システムの動作を示すフローチャートである。

符号の説明

１音声編集合成装置
２ナビゲーション制御装置
３録音データベース作成装置
１０入力解析部
２０録音音声データベース
３０録音音声選択部
４０可変部分テキスト生成部
５０音響特徴情報取得部
６０編集情報取得部
７０規則合成部
８０接続合成部
９０音声出力部
１００録音音声データ作成画面
１１０音響特徴情報設定部
１２０可変部分位置設定部
１３０編集情報設定部
１４０編集合成部
１５０情報記憶部

Claims

音声を合成する音声編集合成システムであって、
前記音声編集合成装置は、
プロセッサと、前記プロセッサに接続される記憶装置と、前記プロセッサに接続される出力装置と、を備え、
前記記憶装置には、
発話者が第１話調を付加して第１テキストを読み上げることによって発話された音声を録音することによって得られた第１音声データが格納され、
前記第１音声データの音響特徴量である第１音響特徴量を示す情報が格納され、
前記第１音声データに第２話調を付加することによって生成された第２音声データの前記音響特徴量である第２音響特徴量と、前記第１音響特徴量と、の間の変更量を示す編集情報が格納され、
前記プロセッサは、
第２テキストに韻律モデルを適用することによって、前記第１話調が付加された第３音声データの前記音響特徴量である第３音響特徴量を生成し、
前記第３音響特徴量に前記編集情報を重畳することによって第４音響特徴量を生成し、
前記第４音響特徴量を有する第４音声データを生成し、
生成された前記第４音声データに基づいて、前記出力装置に音声を出力させることを特徴とする音声編集合成システム。
前記編集情報は、前記第１音声データに含まれる各音素に対応する前記第２音響特徴量と前記第１音響特徴量との間の変更量を含み、
前記プロセッサは、
前記第１音声データに含まれる音素数と前記第３音声データに含まれる音素数とが異なる場合、前記編集情報に含まれる前記変更量を補間することによって、前記第３音声データに含まれる音素数分の変更量を算出し、
補間によって算出された前記変更量を、前記第３音声データに含まれる各音素に対応する前記第３音響特徴量に重畳することによって前記第４音響特徴量を生成することを特徴とする請求項１に記載の音声編集合成システム。
前記編集情報に含まれる前記変更量は、前記第１音声データの末尾の１音素を含む１以上の第１数の連続した音素に対応する第１変更量、及び、前記第１音声データの残りの第２数の音素に対応する第２変更量を含み、
前記プロセッサは、前記第１変更量が、前記音響特徴量を変更しないことを示す値であること、及び、前記第３音声データに含まれる前記音素の数が前記第２数より小さいこと、の少なくとも一方が満たされる場合のみ、前記編集情報に含まれる前記変更量を補間することによって、前記第３音声データに含まれる音素数分の変更量を算出することを特徴とする請求項２に記載の音声編集合成システム。
前記音響特徴量は、各音素の基本周波数、各音素の継続長、各音素のパワー及び各音素のスペクトルの少なくとも一つを含むことを特徴とする請求項１に記載の音声編集合成システム。
前記プロセッサは、
前記第１音響特徴量を変更することによって前記第２音響特徴量を生成し、
生成された前記第２音響特徴量を有する前記第２音声データに基づく音声を前記出力装置に出力させ、
前記第１音響特徴量と生成された前記第２音響特徴量との間の変更量を前記編集情報として前記記憶装置に格納することを特徴とする請求項１に記載の音声編集合成システム。
音声を合成する音声編集合成装置を制御するプログラムであって、
前記音声編集合成装置は、
プロセッサと、前記プロセッサに接続される記憶装置と、前記プロセッサに接続される出力装置と、を備え、
前記記憶装置には、
発話者が第１話調を付加して第１テキストを読み上げることによって発話された音声を録音することによって得られた第１音声データが格納され、
前記第１音声データの音響特徴量である第１音響特徴量を示す情報が格納され、
前記第１音声データに第２話調を付加することによって生成された第２音声データの前記音響特徴量である第２音響特徴量と、前記第１音響特徴量と、の間の変更量を示す第１編集情報が格納され、
前記プログラムは、
第２テキストに韻律モデルを適用することによって、前記第１話調が付加された第３音声データの前記音響特徴量である第３音響特徴量を生成する第１手順と、
前記第３音響特徴量に前記編集情報を重畳することによって第４音響特徴量を生成する第２手順と、
前記第４音響特徴量を有する第４音声データを生成する第３手順と、
生成された前記第４音声データに基づいて、前記出力装置に音声を出力させる第４手順と、を前記プロセッサに実行させることを特徴とするプログラム。
前記編集情報は、前記第１音声データに含まれる各音素に対応する前記第２音響特徴量と前記第１音響特徴量との間の変更量を含み、
前記第２手順は、
前記第１音声データに含まれる音素数と前記第３音声データに含まれる音素数とが異なる場合、前記編集情報に含まれる前記変更量を補間することによって、前記第３音声データに含まれる音素数分の変更量を算出する手順と、
補間によって算出された前記変更量を、前記第３音声データに含まれる各音素に対応する前記第３音響特徴量に重畳することによって前記第４音響特徴量を生成する手順と、を含むことを特徴とする請求項６に記載のプログラム。
前記編集情報に含まれる前記変更量は、前記第１音声データの末尾の１音素を含む１以上の第１数の連続した音素に対応する第１変更量、及び、前記第１音声データの残りの第２数の音素に対応する第２変更量を含み、
前記編集情報に含まれる前記変更量を補間することによって、前記第３音声データに含まれる音素数分の変更量を算出する手順は、前記第１変更量が、前記音響特徴量を変更しないことを示す値であること、及び、前記第３音声データに含まれる前記音素の数が前記第２数より小さいこと、の少なくとも一方が満たされる場合にのみ実行されることを特徴とする請求項７に記載のプログラム。
前記音響特徴量は、各音素の基本周波数、各音素の継続長、各音素のパワー及び各音素のスペクトルの少なくとも一つを含むことを特徴とする請求項６に記載のプログラム。
前記プログラムは、さらに、
前記第１音響特徴量を変更することによって前記第２音響特徴量を生成する第５手順と、
生成された前記第２音響特徴量を有する前記第２音声データに基づく音声を前記出力装置に出力させる第６手順と、
前記第１音響特徴量と生成された前記第２音響特徴量との間の変更量を前記編集情報として前記記憶装置に格納する第７手順と、を前記プロセッサに実行させることを特徴とする請求項６に記載のプログラム。
音声を合成する音声編集合成装置を制御する方法であって、
前記音声編集合成装置は、
プロセッサと、前記プロセッサに接続される記憶装置と、前記プロセッサに接続される出力装置と、を備え、
前記記憶装置には、
発話者が第１話調を付加して第１テキストを読み上げることによって発話された音声を録音することによって得られた第１音声データが格納され、
前記第１音声データの音響特徴量である第１音響特徴量を示す情報が格納され、
前記第１音声データに第２話調を付加することによって生成された第２音声データの前記音響特徴量である第２音響特徴量と、前記第１音響特徴量と、の間の変更量を示す編集情報が格納され、
前記方法は、
第２テキストに韻律モデルを適用することによって、前記第１話調が付加された第３音声データの前記音響特徴量である第３音響特徴量を生成する第１手順と、
前記第３音響特徴量に前記編集情報を重畳することによって第４音響特徴量を生成する第２手順と、
前記第４音響特徴量を有する第４音声データを生成する第３手順と、
生成された前記第４音声データに基づいて、前記出力装置に音声を出力させる第４手順と、を含むことを特徴とする方法。
前記編集情報は、前記第１音声データに含まれる各音素に対応する前記第２音響特徴量と前記第１音響特徴量との間の変更量を含み、
前記第２手順は、
前記第１音声データに含まれる音素数と前記第３音声データに含まれる音素数とが異なる場合、前記編集情報に含まれる前記変更量を補間することによって、前記第３音声データに含まれる音素数分の変更量を算出する手順と、
補間によって算出された前記変更量を、前記第３音声データに含まれる各音素に対応する前記第３音響特徴量に重畳することによって前記第４音響特徴量を生成する手順と、を含むことを特徴とする請求項１１に記載の方法。
前記編集情報に含まれる前記変更量は、前記第１音声データの末尾の１音素を含む１以上の第１数の連続した音素に対応する第１変更量、及び、前記第１音声データの残りの第２数の音素に対応する第２変更量を含み、
前記編集情報に含まれる前記変更量を補間することによって、前記第３音声データに含まれる音素数分の変更量を算出する手順は、前記第１変更量が、前記音響特徴量を変更しないことを示す値であること、及び、前記第３音声データに含まれる前記音素の数が前記第２数より小さいこと、の少なくとも一方が満たされる場合にのみ実行されることを特徴とする請求項１２に記載の方法。
前記音響特徴量は、各音素の基本周波数、各音素の継続長、各音素のパワー及び各音素のスペクトルの少なくとも一つを含むことを特徴とする請求項１１に記載の方法。
前記方法は、さらに、
前記第１音響特徴量を変更することによって前記第２音響特徴量を生成する第５手順と、
生成された前記第２音響特徴量を有する前記第２音声データに基づく音声を前記出力装置に出力させる第６手順と、
前記第１音響特徴量と生成された前記第２音響特徴量との間の変更量を前記編集情報として前記記憶装置に格納する第７手順と、を含むことを特徴とする請求項１１に記載の方法。