JP4585759B2

JP4585759B2 - 音声合成装置、音声合成方法、プログラム、及び記録媒体

Info

Publication number: JP4585759B2
Application number: JP2003403364A
Authority: JP
Inventors: 賢一郎中川; 誠廣田; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-02
Filing date: 2003-12-02
Publication date: 2010-11-24
Anticipated expiration: 2023-12-02
Also published as: JP2005164944A; US20050120046A1

Description

本発明は、カーナビゲーションシステムや自動チケット予約システム等に適用される音声合成装置及び音声合成方法、並びに前記音声合成方法を実現するためのプログラム、前記プロクラムを記録した記録媒体に関する。

音声を用いた対話は、人間にとって使いなれたものである。このため、音声対話を用いた機器の操作は、子供からお年寄りまで機器に不慣れなユーザにも自然な操作を提供することが可能となる。また、音声対話が必要とするデバイスはマイクとスピーカだけであり、これはマウスやキーボードと比較して機器の小型化に貢献するメリットもある。

近年、音声を用いた対話システムは、カーナビゲーションシステムや自動コールセンター等で実現され始めている。また、ＶｏｉｃｅＸＭＬ（ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ｖｏｉｃｅｘｍｌ２０／）やＭｕｌｔｉｍｏｄａｌＩｎｔｅｒａｃｔｉｏｎ（ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ｍｍｉ−ｆｒａｍｅｗｏｒｋ／）のような音声を用いた対話の標準仕様も策定中であり、この標準化が進むにつれ、多くの音声対話製品が世の中に出回ると考えられる。

この種の対話システムでは、システムが完全に対話の主導権を握る“システム主導型”で実装されることが多い。これは、システムが質問し、ユーザが答えることで、タスクを遂行する形式である。例えば、次のような経路案内システムの例が挙げられる。（Ｓはシステムの出力、Ｕはユーザの入力とする）。
Ｓ：「こちらは経路案内システムです。」
Ｓ：「出発駅を発声してください。」
Ｕ：「東京」
Ｓ：「到着駅を発声してください。」
Ｕ：「大阪」
Ｓ：「東京から大阪でよろしいですか？」
Ｕ：「はい」
：
このようなシステム主導型の対話システムにおいては、ユーザが適切な場所で適切な入力を行うように、対話を組み上げていくことが大切である。しかし、どこで、どのような入力を行うかをユーザに適切に通知することは意外に難しく、結果として次のような入力ミスが生じることが多い。
（１）システムアナウンスがまだ続くと勘違いすることにより、入力を躊躇してしまう。
（２）入力可能位置と勘違いすることにより、システムアナウンス中に無駄な入力をしてしまう。
（３）入力を急に促されることにより、入力内容を頭の中で整理しきれない、あるいは喉の調子を整えられていないため、「えー」「あのー」等の不要語の入力や、咳払いをしてしまう。

これらの入力ミスを回避するため、ユーザが入力可能となる前にガイド音（ピー音）を付けることが行われている（第１の従来手法）。その一例を次に示す。
Ｓ：「こちらは経路案内システムです。」
Ｓ：「発信音の後に出発駅を発声してください。」（ピー）
Ｕ：「東京」
：
また、従来技術には、ユーザの対話モードに合わせて音声合成パラメータを変更するようにしたものがある（例えば特許文献１を参照：第２の従来手法）。これにより、ユーザはシステムアナウンスを聞くだけで、どのような対話状況であるかが判るようになる。
特開２００２−１２３３８５号公報

しかしながら、上記第１及び第２の従来手法では、上記の問題（１）と（２）を回避することができるものの、（３）の問題は回避することができなかった。さらに、現在どのような種類の入力（音声、プッシュボタン等）が行えるかをユーザに伝えることはできなかった。

本発明は上記従来の問題点に鑑み、ユーザとの対話状態に応じた動作パラメータを利用して、音声入力するタイミングや種類をユーザに的確に知らせることができる音声合成装置、音声合成方法、プログラム、及び記録媒体を提供することを目的とする。

上記目的を達成するために、本発明の音声合成装置は、音声出力する際の音声の種類を決定する動作パラメータとテキスト情報とを用いて、システムアナウンスとして当該テキスト情報の内容を示す合成音声を出力する音声合成装置であって、前記システムアナウンスがユーザの音声入力に対してどのような状況にあるかを示す対話状態と前記テキスト情報とを対応付けたセットを１セット以上有するコンテンツから、注目するテキスト情報に対応する対話状態を判断する判断手段と、前記判断手段により、前記注目するテキスト情報に対応する前記対話状態がないと判断された場合、予め設定された第１の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が音声を入力する直前のシステムアナウンスを出力している状態にあることを示す第２の対話状態と判断された場合、対話状態と動作パラメータとを対応付けて保持するテーブルから、前記第２の対話状態に対応する動作パラメータとして前記第１の動作パラメータと異なる第２の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が前記第２の対話状態と判断され、かつ前記注目するテキスト情報に対応する対話状態がバージイン可能なシステムアナウンスを出力している状態にあることを示す第３の対話状態と判断された場合、前記テーブルから、前記第２の対話状態に対応する前記第２の動作パラメータと前記第３の対話状態に対応する動作パラメータとして前記第１の動作パラメータ及び前記第２の動作パラメータと異なる第３の動作パラメータとを検索する検索手段と、前記検索手段により、前記第１の動作パラメータが検索された場合、前記注目するテキスト情報と前記第１の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声として第１の合成音声を生成し、前記検索手段により、前記第２の動作パラメータのみが検索された場合、前記注目するテキスト情報と前記第２の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第１の合成音声とは識別可能な第２の合成音声を生成し、前記検索手段により、前記第２の動作パラメータと前記第３の動作パラメータとが検索された場合、前記注目するテキスト情報と前記第２及び第３の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第１及び第２の合成音声と識別可能な第３の合成音声を生成する音声合成手段とを有する。

本発明によれば、外部との対話状態に応じた動作パラメータを出力することが可能になる。

また、外部との対話状態に応じて決定された動作パラメータを利用して、入力するタイミングや種類をユーザに的確に知らせることが可能になる。

まず、例えばカーナビゲーションシステムや自動チケット予約システムに適用される本実施形態の動作パラメータ決定装置について説明する。

［実施の形態］
図１は、本発明の実施の形態に係る動作パラメータ決定装置の機能構成図である。

この動作パラメータ決定装置１０１は、問い合わせシグナルが入力された瞬間に検知した対話状態よって、動作パラメータを生成し出力する機能を有し、装置外部に、ユーザとの対話を管理する対話管理装置１００と、装置１０１から出力された動作パラメータを受信する動作パラメータ受信部１０３と、動作パラメータを問い合わせる場合に問い合わせシグナルを装置１０１内に入力する問い合わせシグナル入力部１０４とが接続されている。対話管理装置１００は、現在の対話状態を検出する対話状態検出部１０２を有している。

動作パラメータ決定装置１０１の内部には、問い合わせシグナル受付部１１０が設けられている。問い合わせシグナル受付部１１０は、装置外部から入力される問い合わせシグナルを監視し、問い合わせシグナル入力部１０４から問い合わせシグナルが入力された場合に、その後の処理を開始する。問い合わせシグナルは、押しボタン等から送られるボタンイベントでもよいし、前もって決まったメモリ領域に、特定のメモリイメージがセットされることでもよい。

問い合わせシグナルが入力されると、問い合わせシグナル受付部１１０は、対話状態取り込み部１０７と動作パラメータ統合部１０９にその旨を通知する。対話状態取り込み部１０７は、装置外部の対話状態検出部１０２を動作させ、これによって現在の対話状態を検知するようになっている。

取り込まれた対話状態は、動作パラメータ検索部１０６へ送られる。動作パラメータ検索部１０６は、対話状態と動作パラメータとが対となって格納された対話状態／動作パラメータ対応テーブル１０５（例えば後述の図５参照）にアクセスし、対話状態に対応する動作パラメータを検索する。

検索された全動作パラメータは、動作パラメータ統合部１０９へ送られる。この動作パラメータ統合部１０９では、選択された動作パラメータが複数の場合に、これらが互いに矛盾したパラメータとならないように統合処理を施す。そして、動作パラメータ群は、動作パラメータ出力部１０８へ送られ、ここから装置外部の動作パラメータ受信部１０３に動作パラメータが出力される。

図２は、図１に示した動作パラメータ決定装置の詳細な動作を示すフローチャートである。本装置１０１が立ち上がると、このフローに入るものとする。

まず、終了シグナルを受信したかどうかの判定を行う（ステップＳ２０１）。終了シグナルは、例えば装置１０１に設置された終了ボタン（図示省略）が押された場合などに発行されるものである。終了シグナルが検出されない場合は、そのまま処理を続け、検出された場合は処理を終了する。

次に、問い合わせシグナル受付部１１０で問い合わせシグナルが受信されたかどうかの判定を行う（ステップＳ２０２）。この問い合わせシグナルは、本装置１０１の外部の問い合わせシグナル入力部１０４から送信されるものである。このシグナルを受信するまで、本処理は待機することになる。

問い合わせシグナルを受信すると、問い合わせシグナル受付部１１０は、対話状態取り込み部１０７と動作パラメータ統合部１０９にその旨を通知し、対話状態取り込み部１０７は、装置外部の対話状態検出部１０２を動作させ、現在の対話状態を検知し、現在の対話状態の取り込みを行う（ステップＳ２０３）。ここで、対話状態とは、“ユーザ入力待ち”、“システム出力中”等、何らかの対話の状態を表す情報である。場合によっては、複数の状態が検出されることもあり得る。

次に、検知された全対話状態に対応する動作パラメータを対話状態／動作パラメータ対応テーブル１０５から検索する（ステップＳ２０４）。検知された対話状態に対応する動作パラメータがテーブル１０５に存在した場合は（ステップＳ２０５）、その検索された動作パラメータを全て選択する（ステップＳ２０６）。もし、検知された対話状態に対応する動作パラメータがない場合は、デフォルトの動作パラメータを選択する（ステップＳ２０７）。

そして、選択された動作パラメータが複数の場合は、動作パラメータ統合部１０９において、互いに矛盾したパラメータとならないように統合処理がなされる（ステップＳ２０８）。この動作パラメータ統合部１０９の統合処理では、動作パラメータ検索部１０６により互いに相容れないパラメータが検索された場合に、例えば、“Ａに１０を加えよ”という動作パラメータと“Ａに３０を加えよ”という動作パラメータが得られた場合は、“Ａに４０を加えよ”という１つの動作パラメータに変換される。また、“Ａ＝１０とせよ”という動作パラメータと、“Ａ＝３０とせよ”という動作パラメータが検索された場合は、その間を採り“Ａ＝２０とせよ”という１つの動作パラメータに変換される。

こうして、互いに相容れないものが解消された動作パラメータ群は、動作パラメータ出力部１０８より装置外部に出力される（ステップＳ２０９）。出力後は処理の先頭に戻り、再び問い合わせシグナルを受信するまで待機する。

このように本実施形態では、ユーザとの対話状態に応じた動作パラメータを出力することが可能となる。

＜第１の実施例＞
次に、図１に示した動作パラメータ決定装置をカーナビゲーションシステムに利用した例について、図３〜図６を参照して説明する。

図３は、本発明の第１の実施例を示すブロック図であり、図１に示した動作パラメータ決定装置１０１を組み込んだカーナビゲーションシステム（以下、単にカーナビと記す）を示している。また、図４は、本実施例のカーナビの概観とＧＵＩ画面の例を示す図である。

このカーナビ４０１は、前述した動作パラメータ決定装置１０１を搭載しており、動作パラメータ決定装置１０１から出力された動作パラメータは、動作パラメータ受信部１０３を介して表示制御部３０２に供給される。本例では、一定間隔で問い合わせシグナルを送信し、動作パラメータを得るものとする。

表示制御部３０２は、ナビゲーション本体部３０１からの地図データ等の画像データを入力してＧＵＩ画面４０５に表示する機能を有すると共に、動作パラメータ決定装置１０１から得た動作パラメータに応じて、ＧＵＩ画面４０５に表示するアイコン等の形状を変更するＧＵＩ変更機能やマイクランプ４０３の点灯状態を制御する機能を有する。また、ナビゲーション本体部３０１には、スピーカ４０４やマイク４０８が接続されている。

カーナビは、一般的に混合主導のシステムとして構築されている。混合主導とは、システムが主導権を持つ場合とユーザが主導権を持つ場合とが混ざった対話である。例えば、次のような対話が想定される。
Ｕ０１：（ボタンを押しながら）「近くのコンビニ」
Ｓ０２：「進行方向５分圏内に、４軒あります。」
Ｓ０３：「最も近いコンビニはＡＢＣです。」
Ｓ０４：「こちらでよろしいですか？」
Ｕ０５：「はい」
：
（Ｓはシステムの出力アナウンス、Ｕはユーザの入力）
システムからのアナウンス（問いかけ）に対し、ユーザがどのアナウンス後に入力すべきかは、そのシステムアナウンスの内容により判断することが可能である。しかし、運転により対話に気が回らない場合やシステム自体に不慣れな場合には、入力すべきタイミングを適切に判断することができないことがある。そこで、発声のガイドとして、本例では、図４に示すようなアニメーションアイコン４０２を表示する。

本実施例の動作パラメータ決定装置１０５が利用する対話状態／動作パラメータ対応テーブル１０５は、例えば図５に示すような内容の、対話状態と動作パラメータとが対となったデータが格納されている。

その結果、例えば、ユーザが音声入力可能となる直前のアナウンス出力時（上の例ではＳ０４のシステムアナウンス出力時）は、“アニメーションＡを出力、マイクランプ点滅”という動作パラメータを得る。これにより、カーナビ４０１内のＧＵＩ画面４０５には、図６（ａ）に示すようなアニメーションアイコンＡ（４０６）が表示され、マイクランプ４０３が点滅する。

さらに、システムアナウンスＳ０４が終わり、ユーザの音声入力可能時になると、図５のテーブル１０５の内容から、“アニメーションＢを出力、マイクランプ点灯”という動作パラメータが得られるようになる。これにより、ＧＵＩ画面４０５には、図６（ｂ）に示すようなアニメーションアイコンＢ（４０７）が表示され、マイクランプ４０３が点灯状態となる。

このような見た目の変化により、ユーザは、このシステムアナウンスの終了後に音声入力が可能になること、あるいは現在音声入力が可能であることが判断できるようになる。これにより、運転中でシステムアナウンスに気が回らなかった場合や、周囲の騒音等で一時的にシステムアナウンスが聞こえなかった場合でも、入力のタイミングが的確に判るようになる。

＜第２の実施例＞
本実施例では、図１に示した動作パラメータ決定装置を利用した音声合成装置の例について、図７〜図１２を参照して説明する。

図７は、本発明の第２の実施例を示すブロック図であり、図１に示した動作パラメータ決定装置を組み込んだ音声合成装置の機能構成を示している。

この音声合成装置５０１は、図１に示した動作パラメータ決定装置１０１を備えるほか、図１中の動作パラメータ受信部１０３及び問い合わせシグナル入力部１０４にそれぞれ相当する音声合成パラメータ受信部５０２及び問い合わせシグナル送信部５０４と、装置外部からテキスト情報を取り込むテキスト情報取り込み部５０７と、音声合成用データを格納する音声合成用データ格納部５０３と、音声合成処理を行う音声合成部５０６と、音声合成部５０６で生成された合成音声を出力する合成音出力部５０５とを備えている。

そして、装置外部には、テキスト情報取り込み部５０７に対してテキスト情報を供給するテキスト入力部５０９と、合成音出力部５０５からの合成音を出力するスピーカ等の音声出力装置５０８とが接続されている。テキスト入力部５０９は、対話管理装置１００内に設けられている。

図８は、本実施例に係る音声合成装置の動作を示すフローチャートである。

音声合成装置５０１は、外部のテキスト入力部５０９からテキスト情報取り込み部５０７を介してテキスト情報を取り込む（ステップＳ６０１）。テキスト情報が取り込まれると、その旨が問い合わせシグナル送信部５０４へ送られる。

問い合わせシグナル送信部５０４は、動作パラメータ決定装置１０１内の問い合わせシグナル受付部１１０に対し、動作パラメータの問い合わせシグナルを発行する（ステップＳ６０２）。これにより、現在の対話状態に応じた動作パラメータが決定され、音声合成パラメータ受信部（５０２）に動作パラメータ（この場合は音声合成パラメータ）が戻される（ステップＳ６０３）。

一方、テキスト情報取り込み部５０７に取り込まれたテキスト情報は、音声合成部５０６にも送られる。音声合成部５０６では、動作パラメータ決定装置１０１によって得られた音声合成パラメータと、テキスト情報と、音声合成用データとを用いて音声合成処理を行う（ステップＳ６０４）。音声合成処理に関しては公知の技術を使う。

音声合成部５０６で作成された合成音声は、合成音出力部５０５を介して装置外部の音声出力装置５０８へ送られて外部へ出力される（ステップＳ６０５）。

図９は、本実施例で使用する対話状態／動作パラメータ対応テーブル１０５の一例を示す図であり、検知した対話状態と、それに対応する音声合成用の動作パラメータとが対になって格納されている。

このように本実施例では、音声合成装置において、検知された対話状態により、合成音声のパラメータを変えることが可能になる。

以下に、上記音声合成装置５０１を自動コールセンター（自動チケット予約システム）に応用した例を説明する。

この例では、ユーザは電話を通じてシステムと対話を行う。従って、ユーザが用いることができる入力デバイスは音声とプッシュボタンであり、システムからの出力は全て音声情報である。本実施例の対話内容の一例を図１０に示す。

図１１は、本実施例の対話コンテンツをＶｏｉｃｅＸＭＬで記述した一部分を示す図である。

対話管理装置１００は、図１１に示したような対話コンテンツ９０１を読み込み、ユーザとシステムの対話を管理する。対話管理装置１００は、各システムアナウンスを出力する際に、テキスト入力部５０９を用いて上記の音声合成装置５０１にテキスト情報を入力する。例えば、図１１の記述部分９０３のシステムアナウンス（図１０のＳ０２に相当）を出力する際の処理は、次のようになる。

対話管理装置１００が、このシステムアナウンス（Ｓ０２）を出力するために、テキスト入力部５０９を用いて上記の音声合成装置５０１に、当該アナウンス（Ｓ０２）に相当するテキスト情報を入力する。音声合成装置５０１のテキスト情報取り込み部５０７は、このテキスト情報を取り込み、問い合わせシグナル送信部５０４は、動作パラメータ決定装置１０１へ問い合わせシグナルを発行する。

動作パラメータ決定装置１０１は、問い合わせシグナル受付部１１０によって問い合わせシグナルを受信すると、対話状態取り込み部１０７を用いて装置外部の対話管理装置１００にアクセスし、対話状態検出部１０２から現在の対話状態の取り込みを行う。

ここで、対話状態とは、音声入力直前のシステムアナウンス出力状態、プッシュボタン入力直前のシステムアナウンス出力状態、及びバージイン可能なシステムアナウンス出力状態、のいずれかの状態を示す。場合によっては、複数の状態が検出されることもあり得る。また、バージイン可能とは、システムアナウンスをユーザ入力により中断できることであり、ＶｏｉｃｅＸＭＬでは＜ｐｒｏｍｐｔ＞タグのｂａｒｇｅｉｎ属性で指定することができる。また、ＶｏｉｃｅＸＭＬでは、＜ｐｒｏｍｐｔ＞の兄弟要素の＜ｇｒａｍｍａｒ＞や＜ｄｔｍｆ＞を調べることにより、そのアナウンスが音声入力直前のアナウンスであるか、プッシュボタン入力直前のアナウンスであるかを判断可能である。

動作パラメータ決定装置１０１は、システムの内部状態や対話コンテンツ９０１を解釈することにより、９０３の部分で記述されたシステムアナウンス（Ｓ０２）の出力時は、“バージイン可能なシステムアナウンス出力時”、及び“ユーザが音声入力可能となる直前アナウンスの出力時”であると判断する。従って、この対話状態に対応する動作パラメータは、図９に示したテーブル１０５から、“ピッチ周波数＋４０”、“合成話者＝Ａ”となる。

動作パラメータ決定装置１０１は、得られた２つの動作パラメータを出力し、音声合成装置５０１は、これらの動作パラメータとテキスト情報「ご希望の日を仰って下さい。」とを用いて、合成波形を生成する。ここでは、合成音の話者をＡに設定し、基本となるピッチ周波数を４０Ｈｚ分高く設定し、合成音を生成する。

生成された合成音声は、電話回線を介してユーザ側に出力される。ユーザは、このシステムアナウンスの合成音を聞くだけで、そのアナウンスが終了した後に例えば音声入力が可能になることが予測でき、さらにそのシステムアナウンス中にバージイン可能であることが判るようになる。

なお、タスク（チケット予約等）が終了するまでに必要な対話数により、動作パラメータを変更することも可能である。例えば図９のテーブルには、タスク完了までの対話数に合わせて、合成音に特定の音声データを重畳させる指示が記述されている。これにより、ユーザは合成音に重畳された音声データにより、タスクの完了までにどれくらいの対話を行わなければならないかを知ることができる。

＜第３の実施例＞
本実施例は、図１に示した動作パラメータ決定装置を、ＧＵＩと音声によるフォーム入力に利用したものである。

図１２は、本発明の第３の実施例を示す図であり、第２の実施例で説明した自動チケット予約システムのタスクを一般的なフォーム入力画面で表した例を示している。

同図に示すようなフォーム入力画面１００１において、ユーザは、マウスとキーボードで各フォーム内容を埋めていってもよいし、マイクからの音声入力によってフォームを埋めてもよい。

このような音声入力を許すフォーム入力画面１００１においては、ユーザが音声入力できないデータを延々と発声し続ける恐れがあるため、どのデータが音声入力可能であるのかをユーザに示すことが効果的である。図１２においては、現時点で音声入力可能なフォーム近傍に、アニメーションアイコン１００２を付けている。

このアニメーションアイコン１００２は、ユーザとの対話状態に応じて形態や動作を変更する。例えば、システムアナウンス中であるか、そうでないかに応じてアイコンの形態や動作を変えてもよい。また、同じシステムアナウンス中であっても、そのアナウンス終了後に音声入力が可能になるか、そうでないかに応じてアイコンの形態や動作を変更してもよい。

本発明は、上述した実施形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、１つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるＣＰＵなどが処理を行って実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明の実施形態に係る動作パラメータ決定装置の機能構成図である。図１に示した動作パラメータ決定装置の詳細な動作を示すフローチャートである。本発明の第１の実施例を示す構成ブロック図である。カーナビの概観とＧＵＩ画面の例を示す図である。第１の実施例に係る対話状態／動作パラメータ対応テーブルの一例を示す図である。ＧＵＩ画面に表示されるアニメーションアイコンの一例を示す図である。本発明の第２の実施例を示す構成ブロック図である。第２の実施例に係る音声合成装置の動作を示すフローチャートである。第２の実施例で使用する対話状態／動作パラメータ対応テーブル１０５の一例を示す図である。第２の実施例の対話内容の一例を示す図である。第２の実施例の対話コンテンツをＶｏｉｃｅＸＭＬで記述した一部分を示す図である。本発明の第３の実施例を示す図である。

符号の説明

１００対話管理装置
１０１動作パラメータ決定装置
１０２対話状態検出部
１０３動作パラメータ受信部
１０４問い合わせシグナル入力部
１０５対話状態／動作パラメータ対応テーブル
１０６動作パラメータ検索部
１０７対話状態取り込み部
１０８動作パラメータ出力部
１０９動作パラメータ統合部
１１０問い合わせシグナル受付部

Claims

音声出力する際の音声の種類を決定する動作パラメータとテキスト情報とを用いて、システムアナウンスとして当該テキスト情報の内容を示す合成音声を出力する音声合成装置であって、
前記システムアナウンスがユーザの音声入力に対してどのような状況にあるかを示す対話状態と前記テキスト情報とを対応付けたセットを１セット以上有するコンテンツから、注目するテキスト情報に対応する対話状態を判断する判断手段と、
前記判断手段により、前記注目するテキスト情報に対応する前記対話状態がないと判断された場合、予め設定された第１の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が音声を入力する直前のシステムアナウンスを出力している状態にあることを示す第２の対話状態と判断された場合、対話状態と動作パラメータとを対応付けて保持するテーブルから、前記第２の対話状態に対応する動作パラメータとして前記第１の動作パラメータと異なる第２の動作パラメータを検索し、前記判断手段により、前記注目するテキスト情報に対応する対話状態が前記第２の対話状態と判断され、かつ前記注目するテキスト情報に対応する対話状態がバージイン可能なシステムアナウンスを出力している状態にあることを示す第３の対話状態と判断された場合、前記テーブルから、前記第２の対話状態に対応する前記第２の動作パラメータと前記第３の対話状態に対応する動作パラメータとして前記第１の動作パラメータ及び前記第２の動作パラメータと異なる第３の動作パラメータとを検索する検索手段と、
前記検索手段により、前記第１の動作パラメータが検索された場合、前記注目するテキスト情報と前記第１の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声として第１の合成音声を生成し、前記検索手段により、前記第２の動作パラメータのみが検索された場合、前記注目するテキスト情報と前記第２の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第１の合成音声とは識別可能な第２の合成音声を生成し、前記検索手段により、前記第２の動作パラメータと前記第３の動作パラメータとが検索された場合、前記注目するテキスト情報と前記第２及び第３の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第１及び第２の合成音声と識別可能な第３の合成音声を生成する音声合成手段とを有する音声合成装置。
判断手段、検索手段、及び音声合成手段を有し、音声出力する際の音声の種類を決定する動作パラメータとテキスト情報とを用いて、システムアナウンスとして当該テキスト情報の内容を示す合成音声を出力する音声合成装置の音声合成方法であって、
前記システムアナウンスがユーザの音声入力に対してどのような状況にあるかを示す対話状態と前記テキスト情報とを対応付けたセットを１セット以上有するコンテンツから、前記判断手段が、注目するテキスト情報に対応する対話状態を判断する判断工程と、
前記検索手段が、前記判断工程により、前記注目するテキスト情報に対応する前記対話状態がないと判断された場合、予め設定された第１の動作パラメータを検索し、前記判断工程により、前記注目するテキスト情報に対応する対話状態が音声を入力する直前のシステムアナウンスを出力している状態にあることを示す第２の対話状態と判断された場合、対話状態と動作パラメータとを対応付けて保持するテーブルから、前記第２の対話状態に対応する動作パラメータとして前記第１の動作パラメータと異なる第２の動作パラメータを検索し、前記判断工程により、前記注目するテキスト情報に対応する対話状態が前記第２の対話状態と判断され、かつ前記注目するテキスト情報に対応する対話状態がバージイン可能なシステムアナウンスを出力している状態にあることを示す第３の対話状態と判断された場合、前記テーブルから、前記第２の対話状態に対応する前記第２の動作パラメータと前記第３の対話状態に対応する動作パラメータとして前記第１の動作パラメータ及び前記第２の動作パラメータと異なる第３の動作パラメータとを検索する検索工程と、
前記音声合成手段が、前記検索工程により前記第１の動作パラメータが検索された場合、前記注目するテキスト情報と前記第１の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声として第１の合成音声を生成し、前記検索工程により前記第２の動作パラメータのみが検索された場合、前記注目するテキスト情報と前記第２の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第１の合成音声とは識別可能な第２の合成音声を生成し、前記検索工程により前記第２の動作パラメータと前記第３の動作パラメータとが検索された場合、前記注目するテキスト情報と前記第２及び第３の動作パラメータとを用いて、前記注目するテキスト情報の内容を示す合成音声であって前記第１及び第２の合成音声と識別可能な第３の合成音声を生成する音声合成工程とを有する音声合成装置の音声合成方法。
請求項２に記載の音声合成方法をコンピュータに実行させるプログラム。
請求項３に記載のプログラムが記録されたことを特徴とするコンピュータが読み取り可能な記録媒体。