JP4174233B2

JP4174233B2 - 音声対話システム及び音声対話方法

Info

Publication number: JP4174233B2
Application number: JP2002122491A
Authority: JP
Inventors: 信夫畑岡; 純一郎渡辺; 俊宏鯨井; 一郎赤堀; 雅彦立石; ミタムラ・テルコ; エリック・ナイバーグ; 祥樹上野
Original assignee: Hitachi Ltd; Denso Corp
Current assignee: Hitachi Ltd; Denso Corp
Priority date: 2002-04-24
Filing date: 2002-04-24
Publication date: 2008-10-29
Anticipated expiration: 2022-04-24
Also published as: JP2003316385A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声対話システム及び音声対話方法に係り、特に、音声入出力機能を有するネットワーク型の車載情報サービスシステム、電話を端末とした音声ポータルによるネットワーク型の各種情報サービスシステム等に適用して好適で、効率的に端末とセンターとの機能分担を行って音声による対話を行うことを可能とした音声対話システム及び音声対話方法に関する。
【０００２】
【従来の技術】
従来、音声を利用した情報サービスシステムの１つとして、例えば、カーナビシステムが知られている。一般に、カーナビシステムは、ネットワーク型の構成となっていないため、ユーザがセンター側の情報を自由に入手することができない。また、ネットワーク型構成のものも知られているが、音声入力の対話シーケンスが一意なものであり、自由な音声入力ができないものである。
【０００３】
【発明が解決しようとする課題】
前述したように、従来の音声対話機能を有するシステムは、ユーザがセンター側の情報を自由に入手することができなかったり、自由な音声の入力ができないという問題点を有している。
【０００４】
本発明の目的は、前記従来技術の問題点を解決し、例えば、車載情報サービスシステムにおいて、音声入力による対話を自由に、かつ、効率的に行うことができるようにし、車の中に居ながら道路の混雑状況、旅行先、施設等の利用状況及び音楽配信等の各種車載情報サービスを、安価に、かつ、効率的に、使い勝手よく利用することができる音声対話システム及び音声対話方法を提供することにある。
【０００５】
【課題を解決するための手段】
本発明によれば前記目的は、音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声により対話する音声対話システムにおいて、前記センターは、端末からの音声入力の内容に応じて、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む対話シーケンスを生成し、また、状態情報及び音声入力に基づいて前記対話シーケンスを変更する手段を有し、前記変更は、第１の対話シーケンス実行中に入力される所定の音声入力に基づいて第２の対話シーケンスを生成すると共に、前記第１の対話シーケンスから第２の対話シーケンスへの分岐、及び、前記第２の対話シーケンスから前記第１の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第１の対話シーケンスのどのノードから前記第２の対話シーケンスへ分岐したかを記憶することにより達成される。
【０００６】
また、前記目的は、音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声による対話を行う音声対話方法において、前記センターは、前記端末から入力される話題の項目を認識し、該話題の項目の詳細情報を、複数の話題の項目について各項目間の関係を含む詳細情報、及び、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む前記各項目毎の対話シーケンスとを記録している記録部から読み出し、前記読み出された詳細情報に基づいて、前記項目に対応する対話シーケンスを前記記録部から読み出し、前記読み出した対話シーケンスを合成し、この対話シーケンスを前記端末にダウンロードすることにより、端末との間での音声による対話を行う方法であり、前記対話は、対話シーケンスを構成する状態情報及び音声入力に基づいて前記対話シーケンスを変更して行われ、前記変更は、第１の対話シーケンス実行中に入力される所定の音声入力に基づいて第２の対話シーケンスを生成すると共に、前記第１の対話シーケンスから第２の対話シーケンスへの分岐、及び、前記第２の対話シーケンスから前記第１の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第１の対話シーケンスのどのノードから前記第２の対話シーケンスへ分岐したかを記憶することにより達成される。
【０００７】
【発明の実施の形態】
以下、本発明による音声対話方法及び音声対話システムの実施形態を図面により詳細に説明する。
【０００８】
図１は本発明の応用例の１つであるカー・マルチメディアシステムの概念と現行のカーナビシステムとを説明する図である。
【０００９】
図１に示すように、現在のカーナビシステムは、「単体」の装置として使用され、経路誘導等に使用されるのが一般的である。一方、今後のカーナビシステムは、インターネット等のネットワークに結合した「ネットワーク型」のシステムへ展開されて車載情報システムとして使用されるようになると予想される。その際、従来のカーナビシステムでの音声インタフェース機能の他に、車載情報サービスを効率よく、かつ、サービスの質を向上させるために、車載での端末とネットワーク側のセンターとの効率的な融合が必須となってくる。そして、ネットワーク型の車載情報システムに対するサービスとしては、例えば、インターネット上にある各種店舗、レストラン等の時々刻々と変化するサービス情報、スキー場等のスポーツ施設近辺の天気予報、交通状態に関する情報、音楽等のエンタテーメントの配信情報等のサービスがあり、また、緊急時の連絡に関するサービスも必須となってくる。これらの情報サービスのために、「テレマティクス・サービス」が台頭してくると、「音声ポータル」を使用した音声による情報サービスも必須となってくる。
【００１０】
図２は音声による情報サービスを行う場合の本発明の一実施形態による端末とネットワークとの構成を示す概念図である。図２において、２００はユーザ、２０１は端末、２０２は音声ポータルゲートウェイ(Gateway）、２０３はネットワーク、２０４〜２０６は情報サービスＷｅｂセンタサーバである。
【００１１】
図２において、端末２０１は、音声ポータルゲートウェイ２０２を介してインターネット等のネットワーク２０３に結合されている。ネットワーク２０３上には、各種のコンテンツサーバである情報サービスＷｅｂセンタサーバ２０４〜２０６が結合されている。利用者であるユーザ２００は、端末２０１が有する音声インタフェースを利用して音声入力を行い、各種情報サービスを利用することが可能である。端末２０１は、車載情報システムの場合、車に搭載されている車載端末であり、通信手段としては、携帯電話等で使用しているインフラであるＰＤＣ(Personal Digital Communication)の通信手段を利用することができる。また、携帯電話を端末として利用することも可能である。
【００１２】
図３は音声インタフェースを利用した車載情報サービスシステムの構成例を示す図である。図３において、３０１は車載システム、３０２は音声ポータルシステム、３０３はネットワーク、３０１１は車載端末、３０１２は雑音抑圧処理部、３０１３は音声認識部、３０１４は対話管理部、３０１５はVoiceXMLインタプリタ、３０１６はオーディオ、カーナビ等の車載機器である。図３に示す例は、サービスの内容が、ルートガイダンスと天気予報とのサービスであるとして、その具体例を説明する例である。
【００１３】
図３においてユーザは、車載システム３０１の車載端末３０１１の音声インタフェースを利用して、センター側のサーバにアクセスすることにより、目的地までの距離と目的地の天気とに関する情報を入手することができる。音声インタフェースを実現する音声認識部３０１３と対話管理部３０１４とは、車載端末側と音声ポータル側とのどちらにも備えられる場合があり、効率的な連携をもって、ユーザであるドライバーへ必要な情報を供給する。音声認識部の前段に、車載利用に耐えるような雑音抑圧の前処理を行う雑音抑圧処理部３０１２が具備されることが多い。さらに、VoiceXMLインタプリタ３０１５が、車載システム３０１側あるいは音声ポータルセンター３０２側の両方に具備されている。音声ポータルセンター３０２は、少なくとも、対話管理部、音声認識部及び音声合成部を具備し、対話シーケンスをVoiceXML記述言語により実現するものとしている。車載端末３０１１の音声処理部と音声ポータルでの音声処理部との連携、例えば、車載オーディオ等の機器３０１６の操作等のネットワークに接続する必要のないサービス要求に関しては、車載端末だけで処理を完了させて、時々刻々変動する道路情報等は、センターに接続して、ネットワーク３０３を介してＷＷＷ等から入手する。その際、音声ポータルゲートウェイ等で、音声認識処理、対話管理処理等を分担連携することが、通信料の削減や通信線路の音声の歪み回避等の面から重要である。
【００１４】
図４はVoiceXMLゲートウェイを具備した情報サービスシステムの構成例を示す図である。図４において、４０１は携帯電話機、４０２は電話網、４０３はVoiceXMLゲートウェイ（あるいは音声ポータルゲートウェイ）、４０５、４０６はホームページ、４０７は音声ポータル、４０８はパソコン（ＰＣ）、４０９はＨＴＭＬ、４０１０はインターネットである。
【００１５】
図４に示すように、インターネット４０１０等のネットワークへ接続してサービスを受ける構成として、従来、パソコンＰ（ＰＣ）４０８から入力を行う方法が主流であった。この場合、インターネット４０１０に接続されているコンテンツに関するホームページは、通常のＨＴＭＬ４０９で記述されている。しかし、携帯電話４０１等の入力手段を利用する場合、電話網４０２を利用して、VoiceXMLゲートウェイ（あるいは音声ポータルゲートウェイ）４０３を介して、VoiceXMLで記述されているホームページ４０５、４０６にアクセスすることになる。VoiceXMLは、このような音声によるホームページアクセスに対処したコンテンツの記述言語であり、現在、VoiceXMLフォーラムとＷ３Ｃ（ＷＷＷコンソーシアム）とにより、世界標準化作業が進められている。VoiceXMLゲートウェイ４０３は、例えば、VoiceXMLインタプリタ、音声認識、音声合成、ＤＴＭＦ等の処理モジュールで構成される。
【００１６】
図５は音声インタフェース機能を備えた車載情報サービス等に使用される音声対話システムの構成例を示すブロック図、図６は図５における音声認識部の機能構成例を示すブロック図である。図５、図６において、５０１は入力音声、５０２は雑音抑圧部、５０３は音声認識部、５０４は対話管理部、５０５はVoiceXML記述言語、５０６は音響モデル単語辞書、５０７は対話コーパス、５０８はユーザプロファイル、５０９は認識結果、６０２は音声入力部、６０３は音声分析部、６０４は音声検出部、６０５は照合部、６０６はＨＭＭ連結部、６０７はＨＭＭ音響モデル、６０８は単語辞書、６０９は判定部である。
【００１７】
図５に示す音声対話システムは、雑音抑圧部５０２と、音声認識部５０３と、対話管理部５０４とにより構成され、音声５０１が雑音抑圧部５０２に入力され、雑音抑圧部５０２、音声認識部５０３、対話管理部５０４により順に処理されて認識結果５０９として出力される。音声認識部５０３は、通常、音響モデル情報及び単語辞書情報５０６を持ち、また、対話管理部５０４は、対話コーパス５０７とユーザプロファイル５０８とに関する情報を有する。音声認識と対話管理とは、VoiceXML記述言語５０５により、より密接に連携されて、対話シーケンスを実現している。
【００１８】
音声認識部５０３は、図６に示すように、音声入力部６０２、音声分析部６０３、音声検出部６０４、照合部６０５、ＨＭＭ連結部６０６、ＨＭＭ音響モデル６０７、単語辞書６０８、判定部６０９により構成されている。
【００１９】
このように構成される音声認識部５０３において、入力された音声５０１は、音声入力部６０２でサンプリングの折り返し雑音を除去するためにＬＰＦ(Low Pass Filtering)処理が施され、Ａ／Ｄ(Analog to Digital）変換器によりアナログデータからデジタルデータへ変換される。デジタルデータに変換された音声波形データは、音声分析部６０３でスペクトル分析により、音声のスペクトル情報へ変換される。その後、このスペクトル情報は、音声検出部６０４により音声区間の検出が行われ、音声区間内の音声データとされる。この音声データは、照合部６０５により標準音声データとの類似度との算出が施され、判定部６０９により、最終的に入力音声の内容が認識、決定されて認識結果５０９が出力される。前述における照合部６０５の処理は、現在、最もよく使用されている隠れマルコフモデル(ＨＭＭ：Hidden Markov Model）方式を用いることとしている。この場合、標準音声データとして、少なくてもＨＭＭ音響モデル６０７、単語辞書６０８及びＨＭＭ連結部６０６の構成が必要となる。隠れマルコフモデル方式による音声認識に関しては、文献「確率モデルによる音声認識（中川聖一著、電子情報通信学会編）」に記載されたものが知られている。前述した照合部６０５の例は、隠れマルコフモデルを使用するとしたが、本発明は、ニューラルネットワーク等による認識方式使用することができる。
【００２０】
図７は音声認識・合成を行う端末装置の構成例を示すブロック図である。音声認識や合成は、パソコン等のソフトウェアによっても実現することができるが、図７に示す例は、汎用マイコンを使用した音声認識、合成ボードにより実現した例である。図７において、７０１はＡ／Ｄ変換モジュール７０１、７０２はシステムコントローラ、７０３はＲＯＭ、７０４はマイコン、７０５はＲＡＭ、７０６はバス、７０７はＲＳ２３２ＣＩ／Ｆ、７０８はＤ／Ａ変換モジュールである。
【００２１】
図７に示すように、音声認識・合成を行う端末装置は、入力音声５０１をＡ／Ｄ変換するＡ／Ｄ変換モジュール７０１と、サンプリングされた音声データを編集するシステムコントローラ７０２と、音声認識ミドルウェアと標準音声データが記憶されているＲＯＭ(Read Only Memory)７０３と、主処理部であるマイコン７０４と、ワークメモリとして働くＲＡＭ(Random Access Memory)７０５と、それらを有機的に結合処理するＢＵＳ７０６と、認識結果５０９の出力を行うインタフェースであるＲＳ２３２ＣＩ／Ｆ７０７とにより構成される。音声合成ボードには、音声合成音７０９を出力するＤ／Ａ変換モジュール７０８が備えられている。
【００２２】
前述した端末装置の構成は、最低限必要な機能による例を示したものであり、この他に、種々の回路構成をとることができる。
【００２３】
図８は本発明の実施形態による対話管理を用いた車載サービスにおける対話ダイアログの生成について説明する図である。図８において、８０１はタスクドキュメント、８０２はタスク管理処理、８０３は天気予報VoiceXML、８０４は観光ガイドVoiceXML、８０５は催し物ガイドVoiceXML、８０６は応答ダイアログ、８０７は時間ダイアログ、８０８は場所ダイアログ、８０９は会場ダイアログ、８０１０は時間辞書、８０１１は地名辞書、８０１２は会場名辞書である。
【００２４】
図８において、タスク管理処理８０２は、天気予報の情報入手や観光案内情報の等の各タスクに関するデータであるタスクドキュメント８０１をデータとして、具体的に必須な対話シーケンスの表現を生成する。この対話シーケンスに基づいて、各タスクにおいて出現する応答ダイアログ８０６や、時間ダイアログ８０７、場所ダイアログ８０８、会場ダイアログ８０９等の具体的な対話のダイアログが、実際の時間辞書８０１０、地名辞書８０１１、会場名辞書８０１２等を利用して、より詳細な対話ダイアログに生成される。前述のタスクの対話シーケンスから具体的な対話ダイアログの流れへの生成過程は、自動的に行われる。その結果、音声認識に必須な対話の流れがVoiceXML記述言語等により表現されて、実際の音声対話のサービスが実行されることになる。
【００２５】
図８に示す例は、具体的なVoiceXML表現の対話シーケンスが、天気予報VoiceXML８０３、観光ガイドVoiceXML８０４、催し物ガイドVoiceXML８０５等のモジュールとして自動生成される。この自動生成されたVoiceXMLモジュールは、センター側あるいは端末へ転送されて、実際の音声対話を利用したサービスが実施されることになる。
【００２６】
次に、前述で説明した本発明の実施形態を運転中の道案内に適用した場合の具体例について説明する。
【００２７】
図９は道路を走行中のドライバーが音声対話により目的地（ここでは四川楼）を設定したときの対話シーケンスを説明する図である。ここで注意すべきことは、四川楼という目的地を設定した後でなければ、道案内の対話シーケンスが決まらないこと、換言すると道案内の対話シーケンスは、四川楼という目的地が決まった後で自動生成しなければならないことである。この対話シーケンスの自動生成は、すでに説明したように、各タスクに関するデータ（タスクドキュメント）８０１をデータとして、タスク管理処理８０２により、具体的に必須な対話シーケンスに表現されるように行われる。その対話シーケンスに基づいて、各タスクにおいて出現するダイアログが、図示していない店名辞書、地名辞書等を利用して自動生成される。ここで以後の説明のため、道案内の対話シーケンスを図９のように、３つの区間Ａ、Ｂ、Ｃに分ける。
【００２８】
図１０は対話シーケンスと実際の運転状況との対応を説明する図、図１１は図１０に示す対話シーケンスを状態遷移モデルにより表現した図である。いま、ドライバーが「四川楼に行きたい」と発話すると、端末は「桜通を東に向かってください」と案内する。車両が図１０に示す区間Ａを通過し、点Ｐ１に到達すると、端末は「伏見通りで右折してください」と案内する。車両が区間Ｂを通過し、点Ｐ２に到達すると端末は「四川楼はまもなく左側にあります」と案内する。そして、車両が目的地に到着して対話シーケンスが完了する。
【００２９】
前述したような対話シーケンスを状態遷移モデルにより表現すると、図１１に示すようになる。図１１において、Ａ３０１〜Ａ３０５はノードであり、ノード間が有向リンクにより接続されている。ドライバーが「四川楼に行きたい」と発話すると、対話プログラムは、制御をノードＡ３０１に移し、「桜通を東に向かってください」と案内して、制御をノードＡ３０２に移す。車両が区間Ａを通過している時点で制御はノードＡ３０２にある。そして、車両が点Ｐ１に到達すると、対話プログラムは、「伏見通りで右折してください」と案内する。そして制御をＡ３０３に移す。車両が区間Ｂを通過している時点で制御はＡ３０３にある。そして、車両が点Ｐ２に到達すると、対話プログラムは、「四川楼はまもなく左側にあります」と案内し、制御をノードＡ３０４に移す。そして、車両が目的地に到着すると、制御をノードＡ３０５に移す。そして、対話シーケンスが完了する。
【００３０】
なお、前述の状態遷移モデルに基づく対話シーケンスは、前述の自動生成により作成されたものであり、ＸＭＬベースの記述言語で記述される。
【００３１】
以上述べたように、本発明の実施形態は、道案内のように目的地が確定した後に対話シーケンスを生成しなければならないような事例に対して特に効果を発揮する。
【００３２】
図１２は図９の対話の区間Ｂにおいて、ドライバーが駐車場情報を問い合わせた場合の対話シーケンスについて説明する図、図１３は対話シーケンスと実際の運転状況との対応を説明する図、図１４は図１３に示す対話シーケンスを状態遷移モデルにより表現した図である。図１２において注意すべきことは、駐車場情報問い合わせは、区間Ａ、Ｂ、Ｃのいずれの区間においても起こり得ることである。
【００３３】
図１４に示す状態遷移モデルにおいて、ノードＡ５０１、Ａ５０２は駐車場案内の対話シーケンスを表現しており、ノードＡ５０１に制御が移ると、「お店の裏手に駐車場があります」と案内してノードＡ５０２に制御を移して対話を完了する。
【００３４】
さて、前述の例では、区間Ａ、Ｂ、Ｃに対応するノードから、ノードＡ５０１に有向リンクにより接続され、「駐車場はある？」といった駐車場案内の問い合わせ発話をドライバーが発したとき、制御は、前記有向リンクを辿ってノードＡ５０１に到達する。この時点で、対話制御プログラムは、復帰先記憶手段にどのノードから制御が移ったかを記憶する。復帰先記憶手段は、いわゆるスタックで構成される。ここでは、区間Ｂ走行中に駐車場問い合わせが発生したので、復帰先としてＡ３０３がｐｕｓｈされる。「お店の裏手に駐車場があります」という案内をした後、制御はノードＡ５０２に移る。駐車場案内対話が終了すると、対話プログラムは、復帰先記憶手段から復帰先をｐｏｐし、ノードＡ３０３に制御を復帰させる。
【００３５】
なお、前述の駐車場案内対話シーケンスも前述した自動生成機能により自動的に生成したものである。また、道案内対話シーケンスの各ノードＡ３０２〜Ａ３０４から、ノードＡ５０１への有向リンクの接続も、自動生成することが可能である。具体的には、ＸＭＬベースの記述言語で、有向リンクをどのノードからどのノードに接続するか、また、どのような発話が入力されたとき、その有向リンクを辿るかを記述する。この機能により、ある対話の最中に、違う対話を割り込ませる対話シーケンスの自動生成が可能となる。さらに、復帰先記憶手段としてスタックを用いることにより、道案内の最中に寄り道情報を尋ね、さらに寄り道情報を尋ねている最中に天気情報を尋ねるというような２回以上の対話の割り込みも可能となる。このような複雑な対話シーケンスの制御は、各タスクに関するデータ（タスクドキュメント）８０１をデータとして、タスク管理処理８０２により、具体的に必須な対話シーケンスに表現される。本発明の実施形態は、その対話シーケンスに基づいて、各タスクにおいて出現するダイアログが、図示しない店名辞書、地名辞書等を利用して自動生成されること、また、各対話シーケンスを表現するノード間の接続を自動生成するという手法を用いることにより、前述で説明したような音声による案内を行うことができるものである。
【００３６】
図１５はVoiceXMLを用いた対話シーケンスの内部表現の一例を説明する図である。ここでは、県名と地名とを入力することにより、その土地の天気の情報を入手するタスクを前提としている。そして、図示例では、「お天気情報サービスへようこそ」というシステムからのプロンプトを開始として、ユーザは県名と地名とを音声で入力することにより、知りたい土地の天気の情報を入手することになる。
【００３７】
図１６は３階層構造による対話管理部の構成を示すブロック図である。図１６において、１００１は対話コーパス、１００２は対話ドキュメント、１００３は対話内容管理部、１００４はVoiceXML生成部であり、他の符号は図８の場合と同一である。
【００３８】
図１６に示す例は、VoiceXMLの自動生成を可能とする対話管理部の構成を示しており、実際には、データ制御部と記録部とを有するシステムとして構成され、制御部によって処理が制御される。３階層構造は、タスク管理部８０２、対話内容（対話ダイアログ）管理部１００３、及び、VoiceXML生成部１００４である。そして、有人システムとユーザとによる実際の対話を記録した対話コーパス１００１を基に事前作成されたタスクドキュメント８０１と対話ドキュメント１００２とを使用して、タスク管理部８０２は、各タスクにより話される対話シーケンスを明記する。その後、対話内容管理部１００３は、対話シーケンスをより具体化し、詳細な対話内容（対話ダイアログ）を対話ドキュメント１００２を基にして表記する。最後に、VoiceXML生成部１００４は、音声入力処理の必要なVoiceXMLモジュールを自動生成する。
【００３９】
ここで、処理部とデータ部との詳細に関して説明する。対話コーパス１００１は、例えば、図９に示されるような道路を走行中のドライバーが音声対話により目的地（を設定した時の対話シーケンス等）の詳細をテキストに書き起こしたものであり、話題（タスク）の種類に従って、どのような具体的な対話シーケンスとなっているかを整理した情報をも有する。タスクドキュメント８０１は、対話コーパス１００１に格納されている情報の中から、話題（タスク）に関する情報を纏めたものである。
【００４０】
図１７はタスクドキュメント８０１の例と対話ドキュメント１００２の例とを説明する図である。タスクドキュメント８０１には、サービス名として「車載情報サービス」、具体的話題タスクとして、タスク１：天気予報、タスク２：観光案内等のように、車載情報サービスで必要となる各種タスクの詳細が、単独タスクと、結合タスクとのような形で明記されている。対話ドキュメント１００２には、各タスクに使用される具体的な対話ダイアログの詳細が明記されている。例えば、天気予報のタスク１には、応答ダイアログ、時間ダイアログ、場所ダイアログ等のように、各対話で使用される具体的な対話（ダイアログ）の詳細が明記されている。タスク管理部８０２は、音声認識で得られた結果を基に、現在ユーザ（ドライバー）が、どの話題に関して入力しているのかを判断し、タスク手順を明記して、次の対話内容管理部１００３に送る。対話内容管理部１００３は、対話ドキュメント１００２の情報に基づいて、具体的な対話内容の手順を生成する。そして、生成された対話シーケンスを基に、音声認識を稼動させるためのVoiceXML記述言語による表現が自動生成されることになる。
【００４１】
前述で説明した本発明の実施形態に含まれる各種の機能部及びその処理は、プログラムとして構成することができ、このプログラムは、ＨＤ、ＤＡＴ、ＦＤ、ＭＯ、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ等の記録媒体に格納して提供することができる。
【００４２】
図１８は本発明が適用されたカーマルチメディアシステムの機能構成を示す図である。
【００４３】
カーマルチメディアシステムを構成する上での必須な要件としては、図１８に示すように、ヒューマンインタフェース、マシンインタフェース、基盤技術の３項目を挙げることができる。これらの中で、将来の車載情報サービスシステム、いわゆる、カーマルチメディアを実現する重要な要素として、音声によるインタフェースがある。前述した本発明の実施形態は、このような重要な要素としての音声を用いたインタフェースで、必須となる音声対話の自動生成の手法を提供することができる。
【００４４】
【発明の効果】
以上説明したように本発明によれば、車の中に居ながら道路の混雑状況、旅行先、施設等の利用状況及び音楽配信等の各種車載情報サービスを、安価に、かつ、効率的入力、使い勝手よく利用することが可能となる。
【図面の簡単な説明】
【図１】本発明の応用例の１つであるカー・マルチメディアシステムの概念と現行のカーナビシステムとを説明する図である。
【図２】音声による情報サービスを行う場合の本発明の一実施形態による端末とネットワークとの構成を示す概念図である。
【図３】音声インタフェースを利用した車載情報サービスシステムの構成例を示す図である。
【図４】 VoiceXMLゲートウェイを具備した情報サービスシステムの構成例を示す図である。
【図５】音声インタフェース機能を備えた車載情報サービス等に使用される音声対話システムの構成例を示すブロック図である。
【図６】図５における音声認識部の機能構成例を示すブロック図である。
【図７】音声認識・合成を行う端末装置の構成例を示すブロック図である。
【図８】本発明の実施形態による対話管理を用いた車載サービスにおける対話ダイアログの生成について説明する図である。
【図９】道路を走行中のドライバーが音声対話により目的地（ここでは四川楼）を設定したときの対話シーケンスを説明する図である。
【図１０】対話シーケンスと実際の運転状況との対応を説明する図である。
【図１１】図１０に示す対話シーケンスを状態遷移モデルにより表現した図である。
【図１２】図９の対話の区間Ｂにおいて、ドライバーが駐車場情報を問い合わせた場合の対話シーケンスについて説明する図である。
【図１３】対話シーケンスと実際の運転状況との対応を説明する図である。
【図１４】図１３に示す対話シーケンスを状態遷移モデルにより表現した図である。
【図１５】 VoiceXMLを用いた対話シーケンスの内部表現の一例を説明する図である。
【図１６】３階層構造による対話管理部の構成を示すブロック図である。
【図１７】タスクドキュメント８０１の例と対話ドキュメント１００２の例とを説明する図である。
【図１８】本発明が適用されたカーマルチメディアシステムの機能構成を示す図である。
【符号の説明】
２００ユーザ
２０１端末
２０２音声ポータルゲートウェイ(Gateway）
２０３ネットワーク
２０４〜２０６情報サービスＷｅｂセンタサーバ
３０１車載システム
３０２音声ポータルシステム
３０３ネットワーク
３０１１車載端末
３０１２雑音抑圧処理部
３０１３音声認識部
３０１４対話管理部
３０１５ VoiceXMLインタプリタ
３０１６オーディオ、カーナビ等の車載機器
４０１携帯電話機
４０２電話網
４０３ VoiceXMLゲートウェイ（あるいは音声ポータルゲートウェイ）
４０５、４０６ホームページ
４０７音声ポータル
４０８パソコン（ＰＣ）
４０９ＨＴＭＬ
４０１０インターネット
５０１入力音声
５０２雑音抑圧部
５０３音声認識部
５０４対話管理部
５０５ VoiceXML記述言語
５０６音響モデル単語辞書
５０７対話コーパス
５０８ユーザプロファイル
５０９認識結果
６０２音声入力部
６０３音声分析部
６０４音声検出部
６０５照合部
６０６ＨＭＭ連結部
６０７ＨＭＭ音響モデル
６０８単語辞書
６０９判定部
７０１Ａ／Ｄ変換モジュール７０１
７０２システムコントローラ
７０３ＲＯＭ
７０４マイコン
７０５ＲＡＭ
７０６バス
７０７ＲＳ２３２ＣＩ／Ｆ
７０８Ｄ／Ａ変換モジュール
８０１タスクドキュメント
８０２タスク管理処理
８０３天気予報VoiceXML
８０４観光ガイドVoiceXML
８０５催し物ガイドVoiceXML
８０６応答ダイアログ
８０７時間ダイアログ
８０８場所ダイアログ
８０９会場ダイアログ
８０１０時間辞書
８０１１地名辞書
８０１２会場名辞書
１００１対話コーパス
１００２対話ドキュメント
１００３対話内容管理部
１００４ VoiceXML生成部

Claims

音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声により対話する音声対話システムにおいて、前記センターは、端末からの音声入力の内容に応じて、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む対話シーケンスを生成し、また、状態情報及び音声入力に基づいて前記対話シーケンスを変更する手段を有し、前記変更は、第１の対話シーケンス実行中に入力される所定の音声入力に基づいて第２の対話シーケンスを生成すると共に、前記第１の対話シーケンスから第２の対話シーケンスへの分岐、及び、前記第２の対話シーケンスから前記第１の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第１の対話シーケンスのどのノードから前記第２の対話シーケンスへ分岐したかを記憶することを特徴とする音声対話システム。
前記センターは、変更された音声入出力の対話シーケンスの情報を、通信で結合された端末へ転送する手段を有すること特徴とする請求項１記載の音声対話システム。
前記端末は、音声入出力部、音声分析部、音声認識部、対話管理部を備えて構成され、前記センターは、前記端末と連携動作する対話管理部、音声分析部、音声認識部を備えて構成されたことを特徴とする請求項１または２記載の音声対話システム。
前記センターに備えられる対話管理部は、対話シーケンスをＸＭＬベースの記述言語により表現することを特徴とする請求項３記載の音声対話システム。
前記センターに設けられる対話管理部は、ＸＭＬベースの記述言語による対話シーケンスを、前記端末からの音声入力の内容に応じて変更して前記端末にダウンロードすることを特徴とする請求項４記載の音声対話システム。
前記センターに設けられる対話管理部は、対話タスクに関するデータから対話シーケンスの表現を生成するタスク管理手段と、前記対話シーケンスに基づいてより詳細な対話ダイアログを生成する対話内容管理手段と、前記対話ダイアログをVoiceXML記述言語に表現するVoiceXML生成手段とによる少なくとも３階層構造の対話管理手段を備えて構成されたことを特徴とする請求項４または５記載の音声対話システム。
前記端末にダウンロードする情報は、対話シーケンス表記手段により表記された情報であることを特徴とする請求項５記載の音声対話システム。
音声入出力機能を具備する端末と、該端末が通信手段によりネットワークを介して結合されているセンターとの間で音声による対話を行う音声対話方法において、前記センターは、前記端末から入力される話題の項目を認識し、該話題の項目の詳細情報を、複数の話題の項目について各項目間の関係を含む詳細情報、及び、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む前記各項目毎の対話シーケンスとを記録している記録部から読み出し、前記読み出された詳細情報に基づいて、前記項目に対応する対話シーケンスを前記記録部から読み出し、前記読み出した対話シーケンスを合成し、この対話シーケンスを前記端末にダウンロードすることにより、端末との間での音声による対話を行う方法であり、前記対話は、対話シーケンスを構成する状態情報及び音声入力に基づいて前記対話シーケンスを変更して行われ、前記変更は、第１の対話シーケンス実行中に入力される所定の音声入力に基づいて第２の対話シーケンスを生成すると共に、前記第１の対話シーケンスから第２の対話シーケンスへの分岐、及び、前記第２の対話シーケンスから前記第１の対話シーケンスへの復帰を制御し、前記復帰を制御するために前記第１の対話シーケンスのどのノードから前記第２の対話シーケンスへ分岐したかを記憶することを特徴とする音声対話方法。
端末から入力される話題の項目を認識するステップと、該話題の項目の詳細情報を、複数の話題の項目について各項目間の関係を含む詳細情報、及び、対話シーケンスを構成する複数の状態、これらの状態間の遷移関係、及び、各状態における音声入力と音声出力との対応付けを含む前記各項目毎の対話シーケンスとを記録している記録部から読み出すステップと、前記読み出された詳細情報に基づいて、前記項目に対応する対話シーケンスを前記記録部から読み出すステップと、前記読み出した対話シーケンスを合成するステップと、この対話シーケンスを前記端末にダウンロードするステップとをコンピュータに実行させて対話を行わせるプログラムであり、前記対話は、対話シーケンスを構成する状態情報及び音声入力に基づいて前記対話シーケンスを変更して行われ、前記変更は、第１の対話シーケンス実行中に入力される所定の音声入力に基づいて第２の対話シーケンスを生成するステップと、前記第１の対話シーケンスから第２の対話シーケンスへの分岐、及び、前記第２の対話シーケンスから前記第１の対話シーケンスへの復帰を制御するステップと、前記復帰を制御するために前記第１の対話シーケンスのどのノードから前記第２の対話シーケンスへ分岐したかを記憶するステップとをコンピュータに実行させるプログラムであることを特徴とするプログラム。