JP3729918B2

JP3729918B2 - マルチモーダル対話装置及び対話方法

Info

Publication number: JP3729918B2
Application number: JP05661396A
Authority: JP
Inventors: 恭之河野; 朋男池田; 哲朗知野; 克己田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-07-19
Filing date: 1996-03-14
Publication date: 2005-12-21
Anticipated expiration: 2016-03-14
Also published as: JPH0991112A; US5878274A

Description

【０００１】
【発明の属する技術分野】
本発明は、情報処理装置において、組合わせて利用可能な複数の入出力手段を有するヒューマン・マシン対話装置およびその制御方法に関する。
【０００２】
【従来の技術】
近年、電子計算機は、キーボード、マウス、マイクロフォン、タッチパネル、イメージスキャナ、ビデオカメラ、ペン、データグローブ、対人センサなどの種類の異なる複数の入力手段、すなわち入力デバイスを装備し、様々な情報を入力することができるようになっており、また、ディスプレイやスピーカといった出力デバイスにも、様々な情報を音声言語や効果音、音楽といった様々な形態で出力できる機能を装備してきており、これらの各種入出力デバイスを有効に利用したより、使い易いヒューマン・マシンインタフェイスの要求が高まっている。また、近年、これらの入出力デバイスを用いて、例えば利用者がディスプレイ上の対象を指で指示しながら音声でコマンドを発声するなど、複数の入力デバイスを組み合わせた複雑な入力が可能な入力手段、すなわち入力メディアを装備し、また、ディスプレイやスピーカなどの複数の出力デバイスを利用して、例えばスピーカから音声言語でメッセージを伝えながらディスプレイに表示した人間の顔の表情と、スピーカからの効果音でニュアンスを伝えるといった具合に、複数の出力デバイスやその出力内容および形式を組み合わせた複雑な出力が可能な出力手段、すなわち出力メディアを装備することで、インタフェイスの使い易さや情報伝達の質及び効率を向上させようというマルチモーダルインタフェイス技術の開発が盛んに行われている。
【０００３】
ところで従来、スムーズで自然な、利用者と計算機上のアプリケーションソフトウェアとの間の情報の授受を実現するためには、この情報の授受を利用者とアプリケーションの間の対話と見なし、予め記録された対話規則に基づいて対話プランを展開し、対話規則において決められた入出力方法の組合せでマルチモーダル対話を実現するなどしていた。
【０００４】
【発明が解決しようとする課題】
しかし、各々の対話のフェイズにおいて入出力に使用するデバイスとデバイスの利用方式の組合わせ、すなわち、メディア割当（メディアロケーション）を対話規則中に予め記述しておく方式では、例えば、周辺ノイズ音量が大きく音声を入出力手段として用いることが適切でないような状況に対処できないなど、メディアアロケーションが対話の流れに固定的であり、状況に応じて入出力手段の組合せを選択し利用者と対話することができないという問題があった。
【０００５】
例えば、利用者が音声で入力することが可能な対話装置を利用する場合を考えてみる。この場合、現在の技術では音声認識の技術が十分成熟していないため、利用者によっては何度も同じ単語を発生しても認識に失敗するということが発生し得る。これは、発音に癖があり過ぎる場合等に多く発生し、対話装置側での認識成功の確率は極めて低くなる。
【０００６】
にも拘らず、従来のマルチモーダル対話装置はこのような利用者に対しても、音声による入力のし直しを何度も要求してしまうため、時間の無駄が生じたり、利用者にストレスを感じさせたりするという問題があった。
【０００７】
また、例えば音声による地名入力に対して音声認識により、該当の観光地をデータベースから検索し、検索結果を出力手段に出力するといった構成の音声指示による旅行案内システムを考えてみると、この旅行案内システムが利用者に音声による地名入力を求めたが、これに対して利用者が例えば「竜安寺」（りょうあんじ）という地名を「りゅうあんじ」と読み間違えて発声したため、システムが検索に失敗したような場合、従来のマルチモーダル対話装置においては入出力メディア割当を動的に行う手段を持たないため、利用者とのコミュニケーションを回復するのが困難であった。
【０００８】
つまり、利用者が「りょうあんじ」という正しい固有名詞の読みを知らないことが、利用者とのコミュニケーショクの失敗に繋がっているわけであるが、これも例えば、漢字で入力選択する形式に切り替えたりすれば、コミュニケーション回復が出来る可能性が極めて大であるにもかかわらず、このような入出力メディア割当を状況に応じて変更するといったことができないので、硬直状態に陥り、結果的には案内サービスができないということになる。
【０００９】
また、例えば従来からある対話装置においてデータベース検索結果の内容を利用者に提示するような場合、出力形態は予めプログラミングされた形態に固定されている。つまり、検索結果の出力件数にかかわりなく同一の出力形態が採られ、例えば数十件あるいは数百件の検索結果があるのに、それを一つ一つ音声で読み上げたり、逆に数件しかない検索結果を表形式で表示したりといった、利用者にとってわかりにくく使いにくい入出力方式となる場合が少なからずあった。
【００１０】
さらに、利用者が要求するメディア割当に合わせてシステムが利用者と対話を行うことができないため、システムの利用者はシステムが決定し指定したメディア割当に従って入出力を行わなければならないという問題もあった。
【００１１】
入力手段には種々のものがあるが、利用者にとって使い易い入力手段は各人共通しているわけではなく、例えば、ある利用者は音声による入力を好むが、別の利用者はコマンド文字列をキーボード入力するのを好むといった具合に、利用者により使い易い入出力手段は異なっているのが普通である。
【００１２】
しかしながら、従来の対話装置においてはこれらの個々人の差異が考慮されておらず、固定的な入出力手段の組合せが提供されていて、利用者の好みで入出力手段を選択的に利用できるようにはなっておらず、使い勝手が良いものとはいえないという問題があった。
【００１３】
また、入力手段を複数持つ従来のマルチモーダル対話装置において、どの入力手段を用いるべきかといったことや、どの入力手段がある時点で利用可能かというこを利用者が認識することは困難であり、入力に際して利用者に戸惑いやストレスを与えるという問題があった。
【００１４】
更に、例えば従来の音声による入力もしくは出力が可能な対話装置において、外部の騒音が激しくなるなど音声を利用するのが好ましくない場合でも音声を入力あるいは出力に用いるなど、動的にメディアアロケーション（メディア割当）が行なえない従来の対話装置においては、外部環境的要素の変化に応じた入出力方式の変更が行えないという問題があった。
【００１５】
このように従来のマルチモーダル対話装置では、利用者はシステムが持つ対話規則で予め決められた入出力モードの組合せに従ってシステムと対話を行うことを強制させ、利用者にとってわかり易く使い易いインタフェイスではなかったため、利用者が情報の入力に際してストレスを感じたり、出力を理解し難かったりしており、ときには入出力の失敗の原因ともなっていた。
【００１６】
また、音声単語認識モードでは認識失敗に起因する入力や失敗や誤入力があり得るといったように、選択された特定の入出力手段の性質に起因する入出力の失敗の場合でも、結果として対話の目的が未達成となってしまっていた。
【００１７】
そこで、この発明の目的とするところは、利用者の使い易い入出力インタフェイスとなり得るマルチモーダル対話装置を提供することにある。
特に本発明では、ある時点で適切な入出力のメディア割当を動的に選択する機能を持つことで、アプリケーションプログラムのフロントエンドとして様々な状況に応じて利用者に使い易い入出力インタフェイスを提供することができるマルチモーダル対話装置を作成することにある。
【００１８】
【課題を解決するための手段】
本発明に係るマルチモーダル対話装置は、利用者との対話により所要の処理を行って結果を出力する対話装置において、利用者からの情報を得るための異なる各種入力用デバイスのうち、入力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて入力対応情報を発生させる入力手段と、この発生された対応情報それぞれに、所要の目的に応じた処理を行い、この処理結果を出力する問題解決手段と、前記処理結果を、異なる各種出力用デバイスのうち、出力メディア割当に従った出力用デバイスから出力する出力手段と、前記入力手段から前記問題解決手段へ与えられる前記入力対応情報の中から１つを選択する手段及び前記入力手段により発生される複数の入力対応情報を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、および、前記問題解決手段から出力手段に出力する出力情報を得るために該問題解決手段からの情報の１つを選択する手段及び該問題解決手段からの情報を複数を選択するときの前記複数を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、の双方の組を割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段と、前記問題解決する上で前記問題を解決するためのプランを作成するプラン作成手段と、このプラン作成手段により作成されたプランに基づいて前記入力手段、前記出力手段および前記問題解決手段に指示を行うことによって前記所要の処理を実行させる手段と、前記プランによる前記出力用デバイスへの指示に応答した利用者による前記入力用デバイスへ入力により、利用者との対話状況を取得する対話状況取得手段と、前記利用者との対話状況に応じて、前記入出力メディア割当手段が割り当てる割り当てを変更する手段と、を具備したことを特徴とするものである。
【００１９】
本発明によれば、利用者が計算機システムと対話を行う際に、対話の各時点で利用可能な入出力手段を反映した入出力方式を選択し、また利用者がその利用者にとって利用しやすい入出力手段を用いた入出力の方式を選択し利用することが可能となる。
【００２０】
また本発明によれば、メディアアロケーション（メディア割当）が対話の流れに固定的であり、状況に応じて入出力手段の組合せを選択し利用者と対話することができないという従来のマルチモーダル対話装置の問題を解決することが可能となる。
【００２１】
更に本発明によれば、従来のマルチモーダル対話装置ならば特定の利用者に対して音声による入力のし直しを何度も要求してしまうなど、時間の無駄が生じたり利用者にストレスを感じさせたりするという問題があったような場合においても、動的に入出力手段を選択し切替える手段を具備することによりこの問題を解決し、利用者が時間の無駄やストレスを感じることなく計算機システムを利用することが可能となる。
【００２２】
更に本発明によれば、入力の解釈処理が失敗した場合に従来のマルチモーダル対話装置においては利用者とのコミュニケーションを回復するのが困難であったのに対し、動的に入出力手段を選択し切替える手段を具備することにより、この問題を解決し、速かに利用者とのコミニュケーションを回復することができる。
【００２３】
更に、例えば従来からある対話装置においてデータベース検索結果の内容を利用者に提示するような場合、少ない検索結果を知らせるために音声出力の形態を採用していれば、検索結果が数十件、数百件あってもその検索結果の出力を音声で読み上げるなど、出力件数にかかわりなく同一の出力形態が採られ、逆に大量の検索結果の扱いを容易にするために表形式を採用している場合には、数件しかない検索結果であっても表形式で表示したりといった固定的なものである。
【００２４】
しかし、本発明では動的に入出力手段を選択し切替える手段を設けて、このような、利用者にとってわかりにくく使いにくい入出力方式となるような場合においては、動的に入出力手段を選択し切替えるようにすることにより、この問題を解決し、利用者にわかりやすい入出力方式をとることができるようになる。
【００２５】
更に、本発明によれば、従来の対話装置においては使い易い入出力手段に関する個々人の差異が考慮されておらず、固定的な入出力手段の組合せが選択されていたという問題に対して、各々の利用者がそれぞれにとって使いやすい入出力方法の組合せを利用することが可能となる。
【００２６】
更に、本発明によれば、入力手段を複数持つ従来のマルチモーダル対話装置において、どの入力手段を用いるべきかやどの入力手段がある時点で利用可能かということを利用者が認識することは困難であり、入力に際して利用者に戸惑いやストレスを与えるという問題に対して、利用者が入力に利用することが可能な手段を表示もしくは掲示する手段を具備することによりこの問題を解決し、利用者が入力手段を容易に認識することが可能となり、利用者にわかりやすく使いやすいインタフェイスを提供することが可能となる。
【００２７】
かくして、利用者は利用者とアプリケーションプログラムが求める情報の質と量、及び利用する計算機システムが利用可能な入出力手段に依存するがアプリケーションプログラムに依存しないヒューマン・マシンインタフェイスを利用することが可能になる。
【００２８】
【発明の実施の形態】
本発明は、入出力のそれぞれについて、手段の組み合わせを動的に選択する手段を具備することにより、状況に応じた入出力方法を利用者に提供することで、使い易いインタフェイスを実現し、また、利用可能な入力手段を利用者に知らしめる手段を具備することで、よりわかり易い入力環境を利用者に提供し、さらに入出力手段の組み合わせを変更して利用者との対話の失敗から回復し、対話を継続することができるマルチモーダル対話装置を提供するものであり、以下、図面を参照して本発明の詳細について説明する。
【００２９】
図１は本発明の具体例に係るマルチモーダル対話装置の構成図である。
図１に示すように本発明のマルチモーダル対話装置１０は入力部１１、メディア割当決定部１２、対話管理部１３、出力部１４の計４つの構成要素からなり、システムに接続される物理デバイスを通じて利用者との対話処理を行い、利用者と問題解決手段（バックグラウンドアプリケーション）１５の仲立ちを行う。
【００３０】
入力部１１はマウスデバイス、マイクロフォン、テレビカメラ、キーボード、タブレット、イメージスキャナ、センサなど各種の入力デバイスＩＤＶａ〜ＩＤＶｎの出力を取り込むためのものであり、出力部１４はディスプレイ、スピーカ、ランプ、プリンタ、プロッタ等各種の出力デバイスＯＤＶａ〜ＯＤＶｎへの駆動出力を発生するものである。
【００３１】
メディア割当決定部１２は入力用出力用の各種デバイスとそれら各種デバイスの利用方式の組合せ、すなわち、メディア割当（メディアアロケーション）を決定するための装置であり、その時々での最良の組み合わせを選択することができる機能を有する。
【００３２】
また、対話管理部１３は問題解決手段１５との間で授受される情報や、入力部１１および出力部１４からの状態情報等に基づいてメディア割当の要求を行ったり、対話のプランを生成したりする等、ユーザとシステムの間の対話の方法、流れを制御するものである。
【００３３】
問題解決手段１５は、入力に対してその回答や返答を行うアプリケーションであり、これは対話によって目的の回答を出したり、目的の仕事をするようなアプリケーションであって例えば、観光案内システムや定期券乗車券発売機等なんでも良い。
図１５に、本発明のマルチモーダル対話装置１０の詳細構成をブロック図で示す。
【００３４】
（入力部１１および出力部１４の詳細）
図１５に示すように、本発明のマルチモーダル対話装置１０の入力部１１は入力デバイス処理部１１１、入力モード処理部１１２、入力メディア処理部１１３の３つのモジュールから構成され、また、出力部１４は出力メディア処理部１４１、出力モード処理部１４２、出力デバイス処理部１４３の３個のモジュールからなる。
【００３５】
ここで、モードとは一つのデバイスからの入力（出力も同様）を解釈し、抽象化したものとする。例えば、マウスデバイスから入力されたデータはそれを解釈するモード部品により操作対象の指示、コマンドの発行といった複数のモードによる解釈と利用が可能である。
【００３６】
同様に、メディアとは複数（一つでもよい）のモードからの解釈結果を組み合わせたものとし、入力を組み合わせて得られる処理結果を指示内容として指示対象に渡すことができるものを指している。
【００３７】
例えば、マウス・オブジェクト指示−音声コマンドメディアは、パソコン等のポインティングデバイスであるマウスデバイスからの入力と、音声によるコマンドを併せて解釈してコマンド発行をするものであり、アプリケーションへのコマンドを指示する音声を解釈することのできる音声コマンドモードと、マウスデバイスからの入力をコマンド操作対象を指示する操作として解釈するマウス・オブジェクト指示モードの解釈結果とを入力とし、それらの入力を組み合わせて「マウスで指示された対象に対して音声で指示されたコマンドを発行する」という処理をアプリケーションに伝えるといったことを行うメディアである。
【００３８】
＜入力部１１＞
入力部１１の構成要素である入力デバイス処理部１１１は、各物理入力デバイスから伝達されたデータを入力とし、ディジタルデータへの変換等そのデータを解釈するための最小限の処理を行う入力デバイス処理部品を構成要素に持つ。
デバイス処理部品は入力デバイス毎に用意され、独立・並列に動作する。各デバイス処理部品は、対応するデバイスへの入力に上記の処理を施した後、対応する一つまたは複数の入力モード処理部１１２に送付する。例えばマイクデバイス処理部品は、例えば利用者がマイクロフォンから入力した音声を背景ノイズと共に取り込み、例えば１２ｋＨｚの標本周波数、１６ｂｉｔの量子化ビット数のデジタルオーディオ信号に変換し、その信号を入力モード処理部１１２に出力する。
【００３９】
入力モード処理部１１２は、各抽象入力モードへの入力を処理する部品を構成要素に持つ。一つの入力モード処理部品は一つの抽象入力モードに対応し、一つの入力デバイス処理部から送付された整形されたデータを、抽象モード毎に抽象化し解釈する。各入力モード部品は入力デバイス部品と例えば表１に示したように１対１、もしくは１対多の対応関係にある。
【００４０】
各入力モード処理部１１２で解釈された結果は、入力メディア処理部１１３に送付される。例えば、音声コマンド入力モード処理部品は、送られてきたデジタルオーディオ信号を、例えば高速フーリエ変換による周波数分析により特徴パラメータ時系列を求め、さらに例えば複合類似度法、隠れマルコフモデルなどの方式に基づき音声認識を行い、与えられた認識対象コマンド語彙の中から尤度の最も高い語彙を得、その情報を入力メディア処理部１１３に出力する。
【００４１】
入力メディア処理部１１３は、入力モード処理部１１２から得られた利用者の入力のモード毎の解釈結果を各抽象メディア単位に組合せることで統合された入力を生成し、得られた複数のメディア入力のうちから必要なメディアからの入力をメディア割当決定部１２の指示に従いながら選択し、問題解決手段１５に対する入力コマンドおよびデータを与える。
【００４２】
入力メディア処理部１１３の構成要素は、各抽象メディア毎に用意された入力メディア処理部品１１３ａと、それらの部品の処理結果のうちどれを問題解決手段１５に送付するかを指定するメディア選択スイッチＳＷである。各入力メディア処理部品１１３ａは、一つまたは複数の入力モード部品からの出力データ（抽象モードでの解釈結果）を入力として受け入れ、それらを統合してメディアとしての解釈結果をメディア選択スイッチＳＷに送る。
【００４３】
メディア選択スイッチＳＷは、対話管理部１３の指示に従いバックグラウンドアプリケーションに送付するメディア出力を選択し、送付する。例えばマウス・オブジェクト指示−音声コマンドメディア入力処理部品は、マウス・オブジェクト指示モード入力処理部品の出力と音声コマンドモード入力処理部品の出力を入力とし、それらを組み合わせてメディアとしての解釈を生成し出力する。そして、例えば、現在の入力メディアとしてマウス・オブジェクト指示−音声コマンドメディアが選択されている場合、メディア選択スイッチＳＷはこのメディアによる入力の解釈結果のみを問題解決手段１５に引き渡す。
【００４４】
＜出力部１４＞
出力部１４の構成要素である出力メディア処理部１４３は、対話管理部１３が与えるメディアのアロケーション情報（割当て情報）に従いながら問題解決手段１５からの出力データを選択し、各抽象出力メディアに振り分けてメディア毎に加工し、それらを出力モード単位に分割・統合して出力モード処理部の各モード処理部品にその出力モードが取り扱うデータを受け渡す。
このような処理を行うために、出力メディア処理部１４３は出力メディア振り分けスイッチ１４３ａ、出力メディア処理部１４３ｂ、メディア・モードインタフェイス１４３ｃの３つのモジュールから成る。メディア振り分けスイッチ１４３ａは、バックグラウンドアプリケーションが送付してきた出力データを対話管理部１３の指示に従いながら、実際に（利用者に）出力されるデータを選択し、それを抽象メディア処理部品に振り分ける。
【００４５】
出力メディア処理部品１４３は、各抽象出力メディアに対応する出力メディア処理部品を構成要素として持ち、メディア振り分けスイッチ１４３ａにより担当メディアに振り分けられた出力データを、そのメディアに出力できる形に加工して送出する。メディア・モードインタフェイス１４３ｃは、各抽象出力モード１対１に対応するメディア・モードインタフェイス部品を構成要素に持つ。各メディア・モードインタフェイス部品はそのモードが担当する１つまたは複数の抽象メディア処理部品からの出力を統合し、対応する出力モード処理部品にデータを受け渡す。
【００４６】
出力モード処理部１４２は、各抽象出力モードへの出力を処理する出力モード処理部品１４２ａとモード毎の出力データを出力デバイス毎に統合するモード・デバイスインタフェイス１４２ｂを構成要素に持つ。一つの出力モード処理部品は一つの抽象出力モードに対応し、そのモードに対応するメディア・モードインタフェイス部品から送られてきたメディアデータに出力モード毎の処理を施し、モード・デバイスインタフェイス１４２ｂに受け渡す。
【００４７】
モード・デバイスインタフェイス１４２ｂの一つの部品は一つの出力デバイス部品に対応し、そのデバイスが担当する１つまたは複数の抽象デバイス処理部品からの出力を統合し、対応する出力デバイス処理部品にデータを受け渡す。
出力デバイス処理部１４１は、各出力デバイス毎に用意された出力デバイス処理部品を構成要素として持つ。各出力デバイス処理部品は、対応するメディア・デバイスインタフェイスの出力データを入力コマンド及びデータとして担当する出力デバイスを駆動する。
【００４８】
（メディア割当決定部１２の詳細）
図１５に示されるように本発明のマルチモーダル対話装置１０のメディア割当決定部１２は、符号１２１を付して示したように、メディア割当生成部というモジュールと、符号１２２を付して示す次メディア割当選択テーブル、およひ符号１２３を付して示す現メディア割当記憶スロット、符号１２４を付して示すモード−メディア割当対応表の３つの記憶部品から構成される。
これらのうち、メディア割当生成部１２１は、実際にアプリケーションに入力するデータ及びその組み合わせ（メディアアロケーション）、そして対話管理部１３の問いに合わせに応じて次メディア割当選択テーブル１１２を参照して、実際にユーザに与えるデータとしその適切な組み合わせ・表現方法を生成し、対話管理部１３に伝達する。
【００４９】
（対話管理部１３の詳細）
図１５に示されるように、本発明のマルチモーダル対話装置１０の対話管理部１３は、入力メディア処理部１１３および出力メディア処理部１４３から得られる入出力モードの状態と、問題解決手段（バックグラウンドアプリケーション）１５とのデータ交換の状態を、問題解決手段１５から問題解決手段１５の状態の通知や問題解決手段１５からの入出力要求を、複数の利用者に共通した特徴情報、問題解決手段１５の制御方法に関する情報をイベントとして受け取り、それらの情報をもとに対話のプランを生成する。
【００５０】
そして、そのプランの実行過程において入力メディア処理部１１３と出力メディア処理部１４３、そして問題解決手段１５に指示を行うことにより、ユーザとシステムの間の対話の方法・流れを制御する。
【００５１】
このような処理を行う枠組としては、入力メディア処理部１１３や出力メディア処理部１４３、問題解決手段（バックグラウンドアプリケーション）１５、およびメディア割当決定部１２といった他のモジュールとの間の情報の授受を対話と見做せば、例えば、特開平５−２１６６１８号に開示した音声対話システムのように、状態遷移モデルを用いた方法や、Ｓａｃｅｒｄｏｔｉ，Ｅ．Ｄ．著“ＡＳｔｒｕｃｔｕｒｅｆｏｒＰｌａｎｓａｎｄＢｅｈａｖｉｏｒ”，ＡｍｅｒｉｃａｎＥｌｓｅｒｖｉｅｒ刊，１９７７年にあるような階層プラン合成方式を利用することで、実現可能である。
【００５２】
対話管理部１３は符号１３１を付して示したように、対話プランナと呼ぶモジュールを持ち、この対話プランナ１３１は対話規制記憶テーブル１３２、および対話プリミティブ記憶テーブル１３３の２つの記憶テーブルと、図示しないがプラン記憶部、初期目標記録スロット、および現在目標スロットという３つの記憶部品を持ち、それにより対話プランを構築し、実行する。
【００５３】
以上が本装置の構成とその機能である。
本装置の中核モジュールである対話管理部１３の動作のフローチャートを図１９に示す。この図に基づいて本装置の動作原理とデータの利用方法について述べる。
【００５４】
まず、本装置が起動されると、対話管理部１３の対話プランナ１３１はプラン生成のための初期目標が予め設定されている初期目標記録スロットから取り出し、その目標を基に対話管理部１３内の図示しないプラント記憶部に全ての対話プランを順に展開する。
【００５５】
プラン記憶部の一つの項目は、“ノードＩＤ”、“目標”、“状態”、“サブノードＩＤリスト”、“結果”の５つのスロットから成り、これをプランノードと呼ぶ。ある一つの目標が立てられると、プランノードが一つ生成され、設定された目標が目標スロットに代入され、ノードＩＤスロットには各プランノードにユニークな記号が割りあてられる。
【００５６】
状態スロットには、“未処理”、“処理中”、“成功”、“失敗”、“再試行”の５つのうち１つが代入される。
サブノードＩＤリストスロットには、目標スロットの内容から展開されたサブ目標に対応するプランノードのＩＤがリストの形式で収納される。
【００５７】
結果スロットには、そのスロットが属するプランノードの目標の実行結果が収納される。以降、例えば、“ノードＩＤスロットの値がｐ０００であるプランノード”のことを、単に“プランｐ０００”、あるいは“サブプランｐ０００”と記述する。
【００５８】
ある対話目標をそのサブ目標に展開するために、対話管理部１３は対話規則記憶テーブル１３２を持つ。対話規則記憶テーブル１３２には図２に示すような対話規則を表す複数の項目が収められており、その各々を対話規則ノードと呼ぶ。一つの対話規則ノードは“ルールＩＤ”、“目標”、“適用条件”、“サブ目標リスト”の４つのスロットからなる。“ルールＩＤ”はプランノードのノードＩＤと同様に、各対話規則にユニークな記号が割り当てられる。
【００５９】
各対話規則ノードには、その規則が達成する目標が目標スロットに納められ、目標が展開されて生成される（一般に複数の）サブ目標の系列がサブ目標リストスロットに納められ、規則を適用するための条件が適用条件スロットにそれぞれ納められる。
【００６０】
対話プランナ１３１は対話規則記憶テーブル１３２に収められた対話規則を上から順に探索し、条件に適合する最初の対話規則を適用する。対話プランの生成と実行は、与えられた目標を満足する規則を対話規則の中から探索・適用してサブ目標に展開・実行するという操作を再帰的に繰り返すことで実現されている。
【００６１】
そして、最終的に初期目標が満足された場合、対話全体が成功し、本装置は停止する。以降、例えば、ルールＩＤスロットの値が“ｒ００”である対話規則ノード”のことを、単に“対話規則ｒ００”、あるいは“ルールｒ００”と記述する。
【００６２】
対話プランナ１３１はある時点での対話の目標を現在目標スロットに納めて管理する。現在目標スロットの目標を展開する対話規則を探索する前に、対話プランナ１３１は図３に示すような直接実行可能な対話の最小単位である対話プリミティブを収納した対話プリミティブ記憶テーブル１３３を探索する。
【００６３】
対話プリミティブ記憶テーブル１３３の一つの項目を対話プリミティブノードと呼び、これは“ファクトＩＤ”、“目標”、“仕様”の３つのスロットからなる。現在目標スロットの内容が、対話プリミティブ記憶テーブル１３３中の、ある対話プリミティブノードの目標スロットの値に単一化可能である場合、対話プラナン１３１はその目標を対話プリミティブとなみし、対応する対話プリミティブノードの仕様スロットに記述されている内容を実行する。
【００６４】
対話管理部１３が管理し実行するモジュール間の対話のプリミティブは、メディア割当決定部１２に対する適切なメディア割り当ての問い合わせとその回答、入出力メディア部品に対する設定指令と入出力指令、問題解決手段１５に対する入出力要求のいずれかである。
【００６５】
以降、例えば、「ファクトＩＤスロットの値が“ｆ００”である対話プリミティブノード」のことを単に“対話プリミティブｆ００”あるいは“ファクトｆ００”と記述する。
【００６６】
対話プラントの展開・実行時にある時点での目標に単一化可能な対話プリミティブ、および対話規則のいずれもなかった場合、その目標は失敗する。
ある目標が失敗した場合、対話プランナ１３１はコンピュータプログラム言語のひとつである“Ｐｒｏｌｏｇ言語”の実行過程において計算機をバックトラックするのと同様の方法で、対話プラントの展開過程の後戻りと対話規則の再試行を行う。
【００６７】
すなわち、ある対話目標Ｐ_i の実行に際し、対話規則Ｒ_i を適用して失敗した場合、対話プランナ１３１Ｐ_i に適用可能な他の対話規則、もしくは対話プリミティブを探索し、適用可能なものがあればその対話規則または対話プリミティブを適用してＰ_i を満足するという目標を再試行する。
【００６８】
Ｐ_i に適用可能なすべての対話規則および対話プリミティブが失敗した場合、対話プランナ１３１は対話目標Ｐ_i の直前に成功した対話目標Ｐ_c まで後戻りし、同様にその対話目標Ｐ_c の再試行を行う。目標遂行の失敗が続く限り目標の後戻りは連続的に発生し、仮に初期目標まで後戻りして初期目標自体が失敗した場合、対話全体が失敗したことになり、本装置は停止する。
【００６９】
メディア割当決定部１２は、マルチメディア割当（ＭＡ）の問合せである“ＭＡ問合せ”という対話プリミティブの実行という形で対話プランナ１３１から呼び出される。メディア割当決定部１２は、現メディア割当記憶スロットに収納されている問い合せが発生した時点でのメディア割当の状態と、図６に示すような次メディア割当選択テーブル１２２を用いて、その時点で適切なメディア割当を決定する。
【００７０】
次メディア割当選択テーブル１２２の一つの項目を次メディア割当選択ノードと呼び、各次メディア割当選択ノードは“ノードＩＤ”、“現メディア割当”、“条件”、“次メディア割当”の４つのスロットを持つ。
【００７１】
メディアアロケーション生成部１２１は、現メディア割当記憶スロットの内容とメディア割当決定部１２が呼び出された際の条件が適合する次メディア割当選択ノードを、次メディア割当選択テーブル１２２の中から探索し、次メディア割当の候補を生成する。
【００７２】
次にメディア割当生成部１２１は、発見した次メディア割当選択ノードの次メディア割当スロットの内容から、図７に示すようなモード−メディア割当対応表１２４を探索して、あるメディア割当を適用する際の制約条件を検証する。モード−メディア割当対応表１２４の一つの項目をモード−メデァア割当対応ノードと呼び、各モード−メディア割当対応ノードは、“ＩＤ”、メディア割当名”、“制約”、“入出力モード組”の４つのスロットからなる。
【００７３】
メディア割当生成部１２１がメディア割当の制約検証を行う際には、メディア割当名のスロットが探索するメディア割当名と合致するモード−メディア割当対応ノードを探索し、そのモード−メディア割当対応ノードの制約スロットに記述されているメディア割当を実際に行う際の制約を取り出し、問い合わせ時点での状態がその制約を満足しているかどうかを検証する。
【００７４】
この制約が満足されていれば、そのメディア割当候補が最終的に次メディア割当として選択され、対話プランナ１３１に回答される。ここで、メディア割当生成部１２１がメディア割当の決定を依頼され、次メディア割当選択テーブルを探索する際に、あるメディア割当ノードの現メディア割当スロットもしくは条件スロットの値が“−”の場合、そのスロットの値は検証に用いられない。
【００７５】
例えば、現メディア割当スロットの内容が“−”である次メディア割当ノードは、現メディア割当記憶スロットの値が何であっても条件スロットの内容とモード−メディア対応表の制約スロットの内容が適合していれば、適応可能である。また、次メディア割当ノードの現メディア割当スロットおよび次メディア割当スロットには、メディア割当の内容以外に入力メディアと出力メディアの組の形でも記述できる。
【００７６】
また、この入力メディアと出力メディアのいずれかに、変数を用いることが可能である。例えば、図６にノードＩＤスロットの値が“ｍ０６”である次メディア割当選択ノードにおいて、現メディア割当スロット値が“（音声言語、ＸＸＸ）”であり、次メディア割当スロットの値が“（ペン文字列、ＸＸＸ）”となっているが、次メディア割当選択ノードは現メディア割当記憶スロットの値になっているメディア割当の入力メディア、すなわち、現在設定されている入力メディアが“音声言語”であれば、出力メディアが何であれ他の制約が満足されれば適用可能である。
【００７７】
このとき、現メディア割当スロットの出力メディア側の値、すなわち、変数““ＸＸＸ”には現メディア割当記憶スロットの出力メディア側の値が一時的に代入され、その代入結果はその現メディア割当スロットが属する次メディア割当選択ノードに反映される。
【００７８】
そして、次メディア割当スロットの制約の探索と検証は、モード−メディア割当対応表の入出力メディアスロットの値と対応づけることにより行う。例えば、現メディア割当スロットの値が“ヒューマン”である時に、呼出条件が“入力失敗”でメディア割当生成部１２１が呼び出されたとする。
【００７９】
メディア割当生成部１２１は次メディア割当を決定するために、まず次メディア割当選択テーブル１２２を探索するが、図６にある次メディア割当選択ノードのうちノードＩＤスロットの値が“ｍ０１”から“ｍ０５”の次メディア割当選択ノードは条件が適合しないため選択されない。
【００８０】
次にメディア割当生成部１２１はノードＩＤスロットの値が“ｍ０６”の次メディア割当選択ノードが適応可能であるか否か検証しようとするが、この次メディア割当選択ノードの現メディア割当スロットの値が入力メディアと出力メディアの組の形式で記述されているため、まず現メディア割当記憶スロットの値を入力メディアと出力メディアの組に再構成する。
【００８１】
そのために、メディア割当生成部１２１は図７を探索し、ノードＩＤスロットの値が“ｍｍ０１”であるモード−メディア割当対応ノードのメディア割当スロットの値が現メディア割当記憶スロットの値と同じ“ヒューマン”であることから、このモード−メディア割当対応ノードの入出力モードスロットの値からメディア割当“ヒューマン”の入力メディアが“音声言語”モード単体であり出力メディアが“音声言語”モードと“顔画像”モードの組合せである“（音声言語、音声言語＋顔画像）”という入出力メディア組であることを得る。
【００８２】
メディア割当生成部１２１はこの情報を用い、ノードＩＤの値がｍ０６である件の次メディア割当選択ノードの現メディア割当スロットの値である。“（音声言語、ＸＸＸ）”と単一化を図り、変数ＸＸＸに“音声言語＋顔画像”を一時的に代入する。
【００８３】
この代入は同じ次メディア割当選択ノードの次メディア割当スロットに反映され、このスロットの値は“（ペン文字列、音声言語＋顔画像）”となる。
次に、メディア割当生成部１２１は同じ次メディア割当選択ノードの条件スロットの値“呼出条件＝入力失敗”を検証し、この場合は成功する。さらにメディア割当生成部１２１は図７の如きモード−メディア割当対応表の探索を行い、入出力モードスロットの値が“（ペン文字列、音声言語＋顔画像）”であるモード−メディア割当対応ノードの制約を検証する。
【００８４】
仮にその制約が満足された場合、次メディア割当の選択は成功し、このモード−メディア割当対応のノードのメディア割当名スロットの値である“ペン文字列入力・ヒューマン対応”と言うメディア割当が現メディア割当記憶スロットに代入され、メディアアロケーション結果（メディア割当結果）として対話管理部１３に返される。
変数ＸＸＸへの一時的な代入は、その変数が所属する次メディア割当選択ノードの検証が終了すると解消される。
以降、例えば「ノードＩＤスロットの値が“ｍ００”である次メディア割当選択ノード」のことを、単に“次メディア割当選択ノードｍ００”と記述する。また例えば「ＩＤスロットの値が“ｍｍ００”であるモード−メディア割当対応ノード」のことを、単に“モード・メディア割当対応ノードｍｍ００”と記述する。
【００８５】
［具体的動作例（第一の動作例）］
本発明を理解し易くするために、具体例として本装置を観光地における旅館案内のアプリケーションに適用した場合の例をつぎに述べる。ここでの観光地における旅館案内のアプリケーションが、すなわち、今までの説明で登場した問題解決手段１５に相当する。
【００８６】
対話管理部１３の対話規則記憶テーブル１３２には、図２に示す対話規則および図３に示す対話プリミティブが予め記憶されている。また、初期目標記憶スロットには、“対話セッション”という初期目標が予め与えられ記憶されている。
【００８７】
まず本装置を起動させた時、対話プランナ１３１は初期目標を初期目標記憶スロットから取り出し、その目標を満足する規則“ｒ００”を呼び出す。そして、対話プランナ１３１によって対話規則“ｒ００”は図４に示すように展開される。
【００８８】
対話プランナ１３１は初期のサブ目標であるユーザ検出を呼び出し、対話規則“ｒ１１”が展開され、さらに対話規則“ｒ１２”が展開される。サブ目標“ＭＡ問合せ（待機、ＭＡ１）”の実行にあたり、対話プランナ１３１は適応可能な対話規則が対話規則記憶テーブル１３２に無いため、図３に示す対話プリミティブ記憶テーブル１３３を検索する。
【００８９】
その結果、対話プランナ１３１は、対話プリミティブ“ｆ０１”を発見し、仕様の項目にある“メディア割当決定部呼び出し”を実行し、メディア割当決定部１２にその時点で呼び出し条件に適合し、かつ、利用可能なメディア割り当てを問い合わせる。
【００９０】
メディア割当決定部１２は、その時点のメディア割当と利用可能なメディアやその他の状況をもとに、図６に示すような次メディア割当選択テーブル１２２を引いて次に選択すべきメディア割当を決定する。この場合テーブル要素“ｍ０１”が適用され、“待機”のメディア割当が選択される。
【００９１】
次にメディア割当決定部１２は、図７のモード−メディア割当対応表を引いて該当するメディア割当を適用する際の制約を確認する。この場合、入力センサデバイスが利用可能であれば、メディア割当決定部１２は最終的に“待機”のメディア割当を選択し対話管理部に返答する。
【００９２】
対話管理部１３は、メディア割当決定部１２が返答してきたメディア割当に基づき、入力メディア処理部１１３および出力メディア処理部１４３に、それぞれ利用すべきメディアを通知する。これにより、入力メディア処理部１１３および出力メディア処理部１４３はその通知に従ってモード−メディア割当対応表を引き、それぞれメディア選択スイッチＳＷ、メディア振り分けスイッチ１４３ａの状態を変更することで入出力チャネルを設定する。
【００９３】
この例の待機メディア割当の場合、入力チャネルとして対人センサのみを開き、出力チャネルは例えば図２０のような待機メッセージを画面に出力する。
以上の処理により、サブ目標“ｐ１１”は成功し、対話プランナ１３１は次のサブ目標“検出待機”を実行に移そうとする。このサブ目標は図３の対話プリミティブ記憶テーブル１３３に記憶されている通り対話プリミティブであり、即座に実行される。
【００９４】
このとき、対話管理部１３内のプラン記憶部の状態は図５のようになっている。対話プリミティブ“ユーザ検出”は、対人センサ検出メディアの状態が変化するまで待ち状態を続ける。
【００９５】
装置の前に利用者が立つと入力センサが反応し、対話プリミティブ“ユーザ検出”が成功し、サブプラン“ｐ０１”が満足され、次のサブ目標“ＭＡＲ選択（初期）”が呼び出される。このサブ目標は更に“ｒ１２”により展開され、待機メディアの選択時と同様に対話プランナ１３１はサブ目標“ＭＡ問合わせ”を実行するためにメディア割当決定部１２を呼び出して対話開始のためのメディア割当を問合わせる。
【００９６】
メディア割当決定部１２は、待機メディア割当の場合と同様に、自己の保持する次メディア割当選択テーブル１２２とモード−メディア割当対応表１２４を引くことによって、条件と制約を満足するメディア割当を選択する。
【００９７】
この結果、この例の場合には“ヒューマン”というメディア割当が選択され、対話管理部１３に返答される。対話管理部１３は返答されたメディア割当を入力メディア処理部１１３と出力メディア処理部１４３に指示することで、メディア割当“ヒューマン”に基づく対話を行う。
【００９８】
このメディア割当“ヒューマン”というのは、入力に音声認識、出力には顔画像と音声言語を用いることで音声による自然な対話が行えるメディア割当である。従って、利用者は自分の声で質問や要望、回答や応答等を行えば良く、それに対する返答や回答等は装置側がディスプレイに顔画像を表示し、併せて音声言語を用いて行ってくれることになって、より人間がわかり易く、扱い易いものとなる。
【００９９】
また更に、例えば上のような場合において、背景雑音が大きいために音声入力モードもしくは音声出力モートが使用不可能であると入力メディア処理部１１３もしくは出力メディア処理部１４３からメディア割当決定部１２にデータが与えられていれば、メディア割当“ヒューマン”は選択されず、別のメディア割当が行われて対話が継続される。例えば、背景雑音の影響を全く受けることのないように、入力はキーボード、出力は画面による文字表示といった具合である。
【０１００】
かくして、本発明は従来のマルチモーダル対話装置の基本構成に、適切なメディア割当を決定する手段を追加する構成としたことにより、対話の状況およびその時点で利用可能な入出力手段に合わせて適切な入出力メディアを動的に選択することができるようになり、これにより、状況に応じてより使い易いインタフェイスを利用者に提供することが可能となる。
【０１０１】
以上は、マルチモーダル対話装置の側がその時々の状況に対応して最適な種々の入出力メディアを動的に選択することで、使い易いインタフェイスを利用者に提供するものであったが、利用者の側が種々の入出力メディアのうちの、使用したいものを任意に選択指定することで、個々の利用者の使い易いインタフェイスを提供する構成とすることもできる。
【０１０２】
マルチモーダル対話装置において、利用者の側が種々の入出力メディアのうちの、使用したいものを任意に選択指定する構成にするには、前述の構成に更に、利用者が入力可能なメディアを掲示する手段を付加すれば良い。このような構成とすることにより、利用者がどのような手段で入力を行うことができるかを容易に知ることができ、より使い易いインタフェイスを提供することが可能となる。
【０１０３】
例えば、上記の動作例のメディア割当“ヒューマン”においては、図１６のように例えばマイクのアイコンを画面に表示することで音声による入力が可能であることを利用者に知らしめ、音声による入力を促す効果が期待できる。その後、サブ目標“開始セッション”が対話規則“ｒ０３”で満足される過程で、利用者のセッション開始要求とシステムの認識が行われ、かくして図８に示す一例としてのシナリオの“Ａ）”および“Ｂ）”を動作させることが可能となる。
【０１０４】
すなわち、シナリオのＡ）
案内システムの前に一人の旅行者が立つ
これにより、案内システムではセンサがこれを検知してディスプレイをオンにし、システムのタイトル画面を表示し、効果音と共に入力を促すプロンプトを画面に表示する。
【０１０５】
シナリオのＢ）
旅行者が音声により「宿を探して下さい」と話しかけ、これにシステムが「了解しました」と答える。
【０１０６】
このような内容の開始セッションが成功すると、対話管理部１３は問題解決手段である案内システムを実現するアプリケーションにタスクが開始されたことを通告する。この場合、問題解決手段である当該アプリケーションは、その通知に応じてデータベース検索のための初期検索条件の獲得、すなわち、“到着日”、“出発日”、“人数”、“予算”を対話管理部１３に対して要求する。
【０１０７】
この要求に基づいて、対話管理部１３は再びメディア割当決定部１２に適切なメディア割当の決定を要請し、その解答に基づき、メディア割当“変数表示音声入出力”をセットし、図１７に示すような画面のように入力中の検索条件の状態を表示しながら、図８のシナリオの“Ｃ）”に示す如き対話を音声を用いて行うことで、対話管理部１３は問題解決手段であるアプリケーションの要求を満足する。
【０１０８】
（第二の動作例）
次に場面展開を変えた第二の動作例ついて述べる。
図８のシナリオ“Ｃ）”までの対話により、データベース検索の初期条件を得て、問題解決手段（バックグラウンドアプリケーション）は検索処理を行い、検索終了後、対話管理部１３に対して検索結果の出力を要求する。
【０１０９】
このとき、問題解決手段１５側は出力要求と共に検索結果の概要、すなわち検索結果の件数と１件毎のデータベース要素、すなわち、“名称”、“名称の読み”、“住所”、“規模”、“部屋の種類と各部屋の宿泊料”、その他“特徴”、“外観写真”、“地図”、“そこまでの行き方と到達時間”、“最寄り駅”、“付近の名勝”が問題解決手段１５側からマルチモーダル対話装置１０の出力部１４における出力メディア処理部１４３に出力されることが通告される。
【０１１０】
このとき、対話プランナ１３１のプラン記憶部は図１０のサブ目標“ｐ４２”まで成功した状態となっている。
次のサブ目標“ｐ４３”である“候補決定”を満足するために、対話プランナ１３１は対話規則を検索し、まず“ｒ０７”を適用しようとするが適用条件が合わないために失敗し、他の対話規則を検索する。
【０１１１】
次に対話プランナ１３１は“ｒ０８”を選択し、サブ目標“ｐ４３１”である“選択要求”が展開される。このサブ目標は同様に対話規則“ｒ１０”によって、サブ目標系統列［ｐ４３１１，ｐ４３１２，ｐ４３１３］に展開される。
【０１１２】
これらのサブ目標系統列のうち、サブ目標“ｐ４３１１”は更に展開されてプラン記憶部は図１０のような状態になり、更に対話規則“ｒ１２”に従い、メディア割当決定で１２が呼び出される。メディア割当決定部１２ではこれまでの記述と同様の処理が行われるが、検索結果が３件と少ないことから次メディア割当選択テーブル１２２の探索において次メディア割当選択ノード“ｍ３”が条件に適合して選択される。
【０１１３】
その結果、利用者が検索結果の中から候補を選択するための入出力メディア割当として“タッチパネル表示選択・要素名音声読み上げ”が選択され、対話管理部１３により、そのメディア割当が実行される。
【０１１４】
これにより、図１８のように画面上に３件の宿泊施設についてそれぞれ“名称”、“住所”、“写真”、“規模”、“付近の名称”が配置されたタッチパネルボタンを、出力メディア処理部１４３が問題解決手段１５から流されてきたデータから選択してセットするとともに、図８のシナリオ“Ｄ）”のように、それぞれの物件の名称を音声で読み上げてその選択を促すメッセージがスピーカから音声が出力されることになる。
【０１１５】
従来からある対話装置の場合、出力件数にかかわらず同一の出力形態が取られ、例えば数十件あるいは数百件の検索結果を音声で読み上げたり、逆に数件しかない検索結果を表形式で表示したりといった、利用者にとってわかりにくく使いにくい入出力方式となる場合が少なからずあった。
【０１１６】
例えば、データベースの検索結果が多いような場合にも、従来の対話装置では図８のシナリオ“Ｄ）”の対話と同様に全ての物件の名称が読み上げられるといったことが発生していた。
【０１１７】
本対話装置はこのような問題にも対処すべく、従来からある階層プラン生成方式や状態遷移グラフ方式に基づく対話管理機構に加えて、状況に応じ動的に入出力の形態を設定する機構を導入している。従って、本装置によれば、対話管理部１３がメディア割当決定部１２にその時点で適切なメディア割当を問い合わせ、その回答内容に対応してメディア割当を動的に設定し、利用者に提示する物件数が多ければ、例えば、表形式の検索結果提示を選択するといったように、その時々の状況に合わせて最適な形態で検索結果提示をすることができる。
【０１１８】
例えば、図８のシナリオ“Ｄ）”の対話においては、上述のように検索結果の提示物件数が３件であり、この３件の宿泊施設の検索結果から利用者に望みのものを選択させるために、メディア割当生成部１２１で次メディア割当選択テーブル１２２のノード“ｍ０４”が選択され、その結果、図１８のように１件に対しして比較的画面の面積を割いた形での入出力メディア割当がなされていた。
【０１１９】
しかしながら、同様の場面でも検索結果件数が仮に１０件であった場合、メディア割当生成部１２１で選択される次メディア割当選択ノードは“ｍ０５”となり、これによって図２１のような表形式の画面出力が割り当てられ、また宿泊施設名を音声で読み上げることなく検索結果件数のみを音声で伝えるといった形で利用者にストレスを与えないような入出力メディア割当がなされる。
【０１２０】
かくして、本装置によればアプリケーション（問題解決手段）が出力を要求する情報の質と量に対応して利用者に受け入れ易く、わかり易い出力手段の組み合わせを設定することが可能となる。
【０１２１】
更に、例えば図８のシナリオ“Ｇ）”の場合のように、データベース検索結果の件数が極めて多いような場合には、表形式での出力形態でも利用者が結果を選択する際に大きな負担を与えるため、アプリケーション（問題解決手段）の要求に従って検索結果を提示すること自体が適切でない。
【０１２２】
この場合にはつぎのようになる。今、上記図８のシナリオ“Ｄ）”のケースと同様に、問題解決手段による検索処理が行われ、対話プランナ１３１のプラン記憶部は図１０のようにサブ目標“ｐ４３１１１”まで対話が進んでいるとする。
【０１２３】
この例の場合、検索結果要素数が５３４件と多く図６の次メディア割当選択テーブルに条件が適合する次メディア割当選択ノード１２２がないため、メディア割当決定部１２を呼び出すサブ目標“ｐ４３１１１”、すなわち“ＭＡ問い合わせ”が失敗してしまう。“ｐ４３１１１”の失敗を受けて、対話プランナ１３１は周知のコンピュータ言語の一つであるｐｒｏｌｏｇインタプリンタと同様の後戻処理を行う。
【０１２４】
すなわち、“ｐ４３１１１”の上位ゴールである“ｐ４３１１”の“ＭＡ選択（選択肢提示）”にまず後戻し、“ｐ４３１１”に適用可能な対話規則もしくは対話プリミティブがないか再試行する。この場合、失敗した対話規則“ｒ１２”意外に適用可能な対話規則も対話プリミティブもないため、“ｐ４３１１”も失敗し、“ｐ４３１１”の上位ゴールである“ｐ４３１”の“選択要求”まだ後戻りする。
【０１２５】
更にこの“ｐ４３１”も同様に失敗するため、“ｐ４３”の“候補決定”まで後戻し、同様にこのゴールの再試行のために適用可能な対話規則もしくは対話プリミティブが探索され、図２の対話規則“ｒ０９”が適用され、図１１のようにサブ目標系列［ｐ４３０１，ｐ４３０２，ｐ４３０３］が展開される。
【０１２６】
対話プランナ１３１は“ｐ４３０１”の“検索条件絞り込み”の実行に際し、更に、対話規則“ｒ１４”を適用し、サブ目標系列［ｐ４３０１１，ｐ４３０１２，ｐ４３０１３］を生成する。
【０１２７】
次に対話プリミティブであるサブ目標“ｐ４３０１１”の“未入力変数問合せ”の実行過程で対話管理部１３は問題解決手段１５に対し、物件検索にまだ用いていない変数を問合せ、問題解決手段１５側はその要請に対し、未入力の変数リスト［観光予定地，部屋様式，宿泊施設様式］を報告する。
【０１２８】
次のサブ目標“ｐ４３０１２”の“ｍｅｍｂｅｒ（入力変数、［観光予定地，部屋様式，宿泊施設様式］）”の実行で未入力変数リストの内から変数“観光予定地”が取り出される。
【０１２９】
そして、その変数を追加条件として利用者に入力させるために、次のサブ目標“ｐ４３０１３”の“追加条件入力”に対話規則“ｒ１７”が適用され、サブ目標系列［ｐ４３０１３１，ｐ４３０１３２，ｐ４３０１３３］が生成される。
【０１３０】
これらのサブ目標系列の実行過程において図８のシナリオ“Ｇ）”のような対話を行われ、かくして本装置はメディア割当の失敗から回復して利用者との対話を継続することが可能となる。
【０１３１】
図１１は、図１１図８のシナリオ“Ｇ）”のシステムの発話Ｓ１４が発せられた時のプラン記憶部の状態を示している。
【０１３２】
（第三の動作例）
次に場面展開を変えた第三の動作例について述べる。
図８のシナリオ“Ｄ）”までの対話の後に、図８のシナリオ“Ｅ）”のように利用者が道順と到達時間を求めたとする。すなわち、対話装置１０が決定し出力したメディア割当に対して利用者がそのメディア割当とは異なるメディア割当での出力を求めたような場合、従来のマルチモーダル対話装置においては入出力メディア割当を動的に行う手段を持たないため、そもそもこのような利用者の要求に応えることが不可能であった。しかし、本発明の装置ではこのような事態に対応できる。
【０１３３】
このような事態に遭遇した場合、本装置は対話の制御と入出力メディアの割り当てを分離し、メディア割当決定部１２が対話の流れとは独立にメディア割当選択することができる。そのため、このような事態での対処を可能にしている。
【０１３４】
図８のシナリオ“Ｅ）”におけるＵ６のような利用者の要求があった時、対話プランナ１３１のプラン記憶部の状態は図１２のように、サブ目標“ｐ４３１３”の“ユーザ選択”の処理中の状態で利用者の入力を待っている状態であった。ここで利用者の入力が候補の選択好意でなく、メディア割当変更とそれに伴う再出力要求であったため、サブ目標“ｐ４３１３”は失敗する。
【０１３５】
この失敗に伴い第二の動作例の場合と同様に後戻処理が発生し、“ｐ４３１３”の親目標である“ｐ４３１”の“選択要求”が失敗し、図２の対話規則“ｒ１５”が再試行される。この対話規則の実行過程で対話プランナ１３１は
“ユーザ要求（出力（［道順，到達時間］））”
という条件で、メディア割当決定部１２に適切なメディア割当の選択を依頼する。この依頼により、メディア割当決定部１２は“名称、写真、地図タッチパネル表示選択・道順音声読み上げ”というメディア割当を選択する。そして、この選択したメディア割当を対話プランナ１３１に渡す。
【０１３６】
対話プランナ１３１はこの選択に従い、宿泊施設の選択肢を表示する際の出力メディア割当を変更し、三件の各宿泊施設についてその“名称”、“写真”、“地図”をディスプレイに表示してタッチパネルボタンを設定すると共に、図８のシナリオ“Ｅ）”におけるＳ１１のような発話［離山山荘はバスで約１時間半ほどです。ひなびた庵には列車で３０分ほど行ったところからバスに乗り換えて３０分程かかります。奥山院はここからバスで３０分ほど乗ってから３０分ほど歩いたところにあります。」といった内容の発話を行い、利用者に情報を提供し、宿泊施設の候補の選択を再び利用者に要求する。この時点でのプラン記憶部の状態を図１３に示す。
【０１３７】
かくして、本装置によれば利用者が要求する入出力方法を用い、また利用者の割込みに応じて利用者が主導権を持った形での対話継続が可能となり、より個々の利用者に使い易いインタフェイスを提供することが可能となる。
【０１３８】
（第四の動作例）
利用者から得た音声入力の内容が、正しくないためにシステムが音声認識処理に失敗したような場合での対処動作例を、次に、第四の動作例として述べる。
図８のシナリオ“Ｈ）“のように、システムが利用者からの音声入力を求めたが、利用者が地名を読み間違えたため、システムが音声認識処理に失敗したような場合、従来のマルチモーダル対話装置においては入出力メディア割当を動的に行う手段を持たないため、利用者とのコミニュケーションを回復するのが困難であった。
【０１３９】
しかしながら、このような場合にも本装置では、対話プランナ１３１が利用者との対話の失敗を対話規則実行時の失敗と捉え、失敗したサブ目標を満足できる他の対話規則を探索し、適用可能な対話規則があれば再試行する。
【０１４０】
この例では音声入力というヒューマン・マシンインタフェイスとしての観点がは優れているが、入力処理、特に読み間違いが発生し易い地名の入力処理の確実性という観点では劣っている入力メディアにおいて失敗が発生したとことから、手書き文字認識という入力メディアを選択し再試行することで利用者との対話を継続することに成功している。
【０１４１】
このような制御は次のようにして実現されている。
既に述べたように、図８のシシナリオＧ）に示したシステム発話Ｓ１４つまり、「どのようなところを観光されるご予定でしょうか？」という発話の時点でのプラン記憶部の状態は、図１１のようになっている。
【０１４２】
ここで、音声言語モードでの入力処理において、利用者が“竜安寺”を指名するつもりで“りゅうあんじ”と読み間違えたとする。この“りゅうあんじ”は音声認識の対象語彙となっていなかったとすると、音声認識処理が失敗してしまうことになる。
【０１４３】
このため、サブ目標“ｐ４３０１３３１”は失敗し、その親目標“ｐ４３０１３３”の“入力処理”は適用可能な別の対話規則“ｒ１９”で再試行される。この“ｒ１９”は同じメディア割当で再入力を求めるという対話規則であり、この対話規則により、“ｐ４３０１３３１”は図１４に示すようにサブ目標系列［ｐ４３０１３３０１，ｐ４３０１３３０２］に展開され、それらの実行過程で装置と利用者のあいだでＳ１５とＵ９の対話がなされる。
【０１４４】
つまり、
装置：「は？もう一度お願いします」
利用者：「りゅうあんじです」
なる対話がなされる。
【０１４５】
しかし同様の理由で音声認識処理は失敗し、サブ目標“ｐ４３０１３３”は再び失敗する。
次に適用された規則“ｒ２０”は、入力失敗をキーとしてメディア割当をやり直し、再入力させる対話規則であり、この対話規則により“ｐ４３０１３３”は再試行され、サブ目標列［ｐ４３０１３３１１，ｐ４３０１３３１２，ｐ４３０１３３１３］に展開される。
【０１４６】
サブ目標“ｐ４３０１３１１”のＭＡ選択（入力失敗（観光予定地））”は更に対話規則“ｒ１２”でサブ目標系列［ｐ４３０１３３１１１，ｐ４３０１３３１１２］に展開される。
【０１４７】
サブ目標“ｐ４３０１３３１１１”の“ＭＡ問合せ”は対話プリミティブであり、対話プリミティブ記憶テーブル１３３の内容に従いメディア割当決定部１２の呼び出しが行われる。
【０１４８】
既に述べたように、メディア割当決定部１２は図６に示す次メディア割当選択テーブル１２２を参照し、次メディア割当選択ノード“ｍ６”がこの場合選択される。この次メディア割当選択ノードは現在のメディア割当の入力モードのみを音声言語モードからペン文字列入力モードに変更するというメディア割当の選択であり、このメディア割当に従って変数入力の対話を継続することで、図８のＳ１６以降に対話を進め、更には宿泊施設の選択というタスクを継続させるような対話に復帰することが可能となる。
【０１４９】
すなわち、
装置：「認識できませんでした。ペンで行き先の名前を書いてください」
利用者がペンで画面に「竜安寺」と書くことで文字認識し、装置は「竜安寺」を「りょうあんじ」と認識する。
装置：「竜安寺（りょうあんじ）ですね。検索しますのでしばらくお待ちください」
なる対話が成功する。
【０１５０】
かくして、本装置によれば利用者との対話の失敗に対して、別の入出力手段に替えて再度実施すべく、入出力手段を変更するよう制御する構成としたことで失敗から回復し、利用者との対話を継続することが可能となる。
【０１５１】
更に、例えば外部の騒音が激しくなったような場合に対処できるように、外部雑音を捉えるデバイスを本装置に付加し、その入力により音声入出力の適切性を判断する入力モード部品を実現すれば、メディア割当生成部１２１でメディア割当を行う際に、音声入力可能もしくは音声出力可能と図７のモード−メディア対応表の制約部に記述されているメディア割当については、選択されることがなくなる。
【０１５２】
その結果、例えば音声入力を行うメディア割当が選択されていて、利用者からの入力を音声で受け付けていた時に急に騒音が激しくなったような場合に、上記の動作例と同様に音声認識失敗に伴ってメディア割当決定部呼び出しが発生し、メディア割当決定部での次メディア割当の選択が新たに実施されるが、その選択においては音声を入出力に用いるようなメディア割当は選択されることがなくなる。
【０１５３】
かくして、このような構成の装置によれば、外部環境的要素の変化に応じて入出力方式を変更する制御を付加したことで、外部環境的要素に応じて最適な入出力方式を選択して使用するので、利用者との対話を継続することが可能となる。
【０１５４】
なお、上述の例では、入力部１１の構成について入力デバイス処理部１１１、入力モード処理部１１２、入力メディア処理部１１３の３つのモジュールを持ち、出力部１４についても出力メディア処理部１４１、出力モード処理部１４２、出力デバイス処理部１４３の３つのモジュールを持つことを前提として記述しているが、本装置を実現する入出力処理部品の構成はこれに限定されるものではなく、種々の変形を行うことが可能である。
【０１５５】
また、上述の例では、入力部と出力部が独立した別の構成要素として記述しているが、これらを一体化した入出力部として実現することも可能であり、そのような実現方法も本発明の趣旨の範囲内である。
【０１５６】
また、上述した例では、メディア割当決定部を対話管理部や問題解決手段と独立した構成部品として、また、問題解決手段についても同様に入力部や出力部、対話管理部等に対して独立した部品として記述しているが、本装置を実現する部品の構成方法はこれに限定されるものではなく、例えば、メディア割当決定機能を持つ対話管理部を実現することで独立した部品としてのメディア割当決定部がなくとも本装置を実現することが可能であり、また、例えば、問題解決手段が対話管理部の機能やメディア割当決定部の機能、さらには入力部の機能や出力部の機能を持つように構成することも可能であり、そのような実現方法も本発明の趣旨の範囲内である。
【０１５７】
このように、本発明を実現する装置はその部品構成について種々の実現方法があり、ここに説明した部品の構成に限定されるものではないことを断っておく。また、上述した例では、メディア割当決定部１２の制御方式について、ある時点におけるメディア割当と、その時点での状況に基づいて次のメディア割当を決定する次メディア割当選択テーブル１２２を用いることを前提として記述しているが、本装置を実現するメディア割当決定方式はこれに限定されるものではなく、例えば状態遷移モデルに基づくメディア割当決定方式においても実現可能であり、また、例えば次メディア割当選択テーブル１２２に選好度などのスロットや情報を付け加えることで、よりきめ細かいメディア割当の選択を実現することも可能になる。
【０１５８】
また上述した例ではメディア割当生成部１２１においてメディア割当を決定する際に用いるメディア割当のヒストリ情報として１回分、すなわち現在のメディア割当情報のみ明確に記述されているが、例えば次メディア割当選択テーブル１２２の条件部に過去のメディア割当の状態を記述することにより、メディア割当の決定に対し、メディア割当のヒストリ情報を利用することが可能である。
【０１５９】
また、上述の例では、階層プラン生成方式に基づく対話管理を前提として記述するが、本装置を実現する対話管理方式はこれに限定されるものではなく、例えば状態遷移モデルに基づく対話制御方式においても実現可能である。
【０１６０】
更に、上述の例では、利用者が利用可能な入力方法をディスプレイ上に他の情報と共に表示することにより利用者に知らしめているが、本装置を実現する入力メディアの提示形式はこれに限定されるものではなく、例えばもう一つのディスプレイに表示するなど他の出力デバイスから提示することとしても実現可能である。
【０１６１】
また、上述の例では、利用者が利用可能な入力方法のみをディスプレイに表示することで利用者に知らしめているが、利用者に知らしめるのは入力方法に限定されるものではなく、出力方法についても同様に表示することが可能であり、例えば耳の不自由な利用者に対して音声による応答を本装置が行ったとしても、利用者がそれを知ることができるため、利用者がメディア割当の変更を要求することが可能となる。
【０１６２】
また、更に例えば、メディア割当決定部に特定利用者モデル記憶部を設け、そこに利用者が利用可能なメディアもしくは利用不可能なメディアを予め記録しておくことで、上記の耳の不自由な利用者に対する場合においても利用者が毎回要求することなしに、個々の利用者に対応して最適なメディア割当を設定することが可能になる。
【０１６３】
また、例えば、上記のようなメディア割当に関する利用者個々の事情を、例えば、ＩＣカードのような可変媒体に記録しておき、例えば、ＩＣカード読取り可能なデバイスを本装置に装備して、このデバイスを利用して利用者が利用開始時にそのＩＣカードを挿入して読み取らせ、特定利用者モデル記憶部にその読取り情報を記憶させることで、不特定多数を対象とした装置においても、予め利用者個々の事情を設定して対処することができるようになり、その結果、利用者個々の事情に応じたメディア割当の設定が利用開始の最初の時点から可能になる装置が得られるようになる。この場合、個々の利用者の最適なメディア割当てが利用開始の最初の時点から実施されるので、変更の要求操作をすることなしに、円滑な利用が可能になることからサービス向上に役立つ。
【０１６４】
また、特定利用者のみが利用するようなシステケの場合には例えば、不揮発性メモリに特定利用者モデル記憶を行うようにし、利用者が更新できるようにしたり、学習機能を持たせて記憶内容を学習結果を反映させるようにする等のことによって、利用を重ねるに連れ、その利用者が利用しやすいインタフェイスを提供することができるようになる。
【０１６５】
さらにメディア割当決定部にＩＤ３やニューロ等の機能的な学習機能を装備し、特定利用者モデル記憶部の内容を学習により自動更新することにより、利用者が自分で利用者モデルを更新せずとも、利用を重ねるだけで次第にその利用者が利用し易いインタフェイスを提供することができるようになる。
【０１６６】
また、以上では特定利用者モデル記憶部の記憶内容について、特定の利用者が利用可能なメディアもしくは利用不可能なメディアとしたが、特定利用者モデル記憶部の記憶内容はこれに限定されるものではなく、例えば、特定利用者が選考するメディアについても同様に、特定利用者モデル記憶部に記憶することで、より個々の利用者にとり好ましいインタフェイスを提供することができるようになり、そのような実現方法も本発明の趣旨の範囲内である。
【０１６７】
さらに利用者が利用可能な入り方法を知らしめるための出力メディア自体をメディア割当決定部において決定し、その決定に基づく出力メディア割当を用いて出力することで、利用者に知らしめるといった方法を採用することも可能であり、そのような実現方法も本発明の趣旨の範囲内である。
【０１６８】
なお、上述の例では、利用者の読み間違いによる音声認識の失敗を扱う例を示したが、例えば、環境音（ノイズ）が原因となって音声入力が阻害される場合等のように、利用するメディアの状況の変化によって対話に傷害が発生するような状況においても、入力及び出力メディアの状態を監視するメディア監視機能をメディア切替部に組み込み、ある時点でメディア切替部によって設定され、現在利用しようとしているメディア割当が、障害なく利用され、利用者と対話装置とのコミュニケーションが無事に達成されたかを監視することによって、障害解消のための処理を行うことが可能となる。
【０１６９】
すなわち、例えば、利用者からの音声入力を受付けようとしている場面や、利用者への出力を音声によって行おうとしている場面等において、例えば、周囲雑音のレベル等を常時監視することによって、例えば、大きな騒音等の発生による利用者と対話装置とのコミュニケーションの阻害の生じた場合に、これを対話管理部に通知して例えば、音声による入出力をやめて、画面表示とキーボード入力を行わせるようにする等、何等かの障害発生の場合に、適切にメディア変更を行ったり、あるいは、問い返し等の障害解消のためのサブ対話を起動させる等の処理を実現することが可能になり、その結果、環境等の変化に対しても対処し得る対話装置が実現できる。
このように本発明においては、その趣旨を逸脱しない範囲で種々の変形を行うことが可能である。
【０１７０】
【発明の効果】
以上説明したように、本発明によれば、対話の状況及びその時点で利用可能な入出力手段に合せて適切な入出力メディアを動的に選択するようにしたことにより、状況に応じて使いやすいインタフェイスを利用者に提供することが可能となる。また、利用者がどのような手段で入力を行うことが出来るかを容易に知ることができ、より使い易いインタフェイスを提供することが可能となる。
【０１７１】
また、アプリケーションが出力を要求する情報の質と量に対応して利用者が受け入れ易くわかに易い出力手段の組み合わせを設定することが可能となり、利用者が要求する入出力方法を用いることでより個々の利用者に使いやすいインタフェイスを提供することが可能となり、利用者にとって好ましい入出力手段を用いることで、より個々の利用者に使いやすいインタフェイスを提供することが可能となる。また、利用者にとって好ましくない入出力手段を避けることで、より個々の利用者に使い易いインタフェイスを提供することが可能となる。更には、入出力手段を変更することで利用者との対話の失敗から回復し、利用者との対話を継続することが可能となるなどの実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図１】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのブロック構成図。
【図２】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための対話規則の例を示す図。
【図３】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための対話プリミティブ記憶テーブル例を示す図。
【図４】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（起動時）の例を示す図。
【図５】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（待機時）の例を示す図。
【図６】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための次メディア割当選択テーブルの例を示す図。
【図７】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのモード−メディア割当対応表の例を示す図。
【図８】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための想定する動作例シナリオの例を図。
【図９】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（初期条件入力要求時）の例を示す図。
【図１０】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（初期検索終了時、抜粋）の例いを示す図。
【図１１】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（条件絞り込み対話、抜粋）の例を示す図。
【図１２】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（利用者割込時、抜粋）の例を示す図。
【図１３】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（利用者割込対処時、抜粋）の例を示す図。
【図１４】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのプラン記憶部（音声認識失敗への対処、抜粋）の例を示す図。
【図１５】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための詳細な構成図。
【図１６】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“ヒューマン”の画面例を示す図。
【図１７】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“変数表示音声入出力”の画面例を示す図。
【図１８】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“タッチパネル表示選択・要素名音声読み上げ”の画面例を示す図。
【図１９】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための対話管理のアルゴリズム例を示す図。
【図２０】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するための待機状態例を示す図。
【図２１】本発明を説明するための図であって、本発明の具体的な実施の態様を説明するためのメディア割当“表形式タッチパネル表示選択・検索結果件数音声出力”の画面例を示す図。
【符号の説明】
１０…マルチモーダル対話装置
１１…入力部
１２…メディア割当決定部
１３…対話管理部
１４…出力部
１１１…入力デバイス処理部
１１２…入力モード処理部
１１３…入力メディア処理部
１２１…メディアアロケーション生成部
１２２…次メディア割当選択テーブル
１２３…現メディア割当記憶スロット
１２４…モードメディア割当対応表
１３１…対話プランナ
１３２…対話規則テーブル
１３３…対話プリミティブ記憶テーブル
１４１…出力メディア処理部
１４２…出力モード処理部
１４３…出力デバイス処理部
１４３ａ…出力メディア振り分けスイッチ
１４３ｂ…出力メディア処理部
１４３ｃ…メディア・モードインタフェイス
ＳＷ…メディア選択スイッチ
ＩＤＶａ〜ＩＤＶｎ…入力デバイス
ＯＤＶａ〜ＯＤＶｎ…出力デバイス

Claims

利用者との対話により所要の処理を行って結果を出力する対話装置において、
利用者からの情報を得るための異なる各種入力用デバイスのうち、入力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて入力対応情報を発生させる入力手段と、
この発生された対応情報それぞれに、所要の目的に応じた処理を行い、この処理結果を出力する問題解決手段と、
前記処理結果を、異なる各種出力用デバイスのうち、出力メディア割当に従った出力用デバイスから出力する出力手段と、
前記入力手段から前記問題解決手段へ与えられる前記入力対応情報の中から１つを選択する手段及び前記入力手段により発生される複数の入力対応情報を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、
および、前記問題解決手段から出力手段に出力する出力情報を得るために該問題解決手段からの情報の１つを選択する手段及び該問題解決手段からの情報を複数を選択するときの前記複数を組み合わせこの組み合わせたものを選択する手段の少なくとも一つ、
の双方の組を割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段と、
前記問題解決する上で前記問題を解決するためのプランを作成するプラン作成手段と、
このプラン作成手段により作成されたプランに基づいて前記入力手段、前記出力手段および前記問題解決手段に指示を行うことによって前記所要の処理を実行させる手段と、
前記プランによる前記出力用デバイスへの指示に応答した利用者による前記入力用デバイスへ入力により、利用者との対話状況を取得する対話状況取得手段と、
前記利用者との対話状況に応じて、前記入出力メディア割当手段が割り当てる割り当てを変更する手段と、
を具備したことを特徴とするマルチモーダル対話装置。
利用者との対話により所要の処理を行って結果を出力する対話装置において、
利用者からの情報を得るための異なる各種入力用デバイスのうち、入出力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて対応情報を発生させる入力手段と、
この発生された対応情報それぞれに、所要の目的に応じた処理を行い、結果を出力する問題解決手段と、
前記問題解決手段の出力に基づいた結果を、異なる各種出力用デバイスのうち、入出力メディア割当に従った出力用デバイスから出力する出力手段と、
前記問題解決手段からの処理結果に応じて前記入力メディア割当および前記出力メディア割当の少なくともいずれか一方の変更処理を指示し、また、前記入力手段と出力手段による入出力を管理する対話管理手段と、
利用者から少なくとも一つの入力用デバイスに与えられた入力データから前記問題解決手段への入力を得るために、前記入力用デバイスのうち、利用する前記入力用デバイスと当該入力用デバイスに与えられた前記入力データの入力方法の組の少なくとも一つ、
および、前記問題解決手段の出力から利用者に指示する表現を得るために、前記出力用デバイスのうち、利用する前記出力用デバイスと当該出力用デバイスに与えられた前記出力データの出力方法の組の少なくとも一つ、
の双方の組を前記問題解決手段の処理内容に応じて割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段と、
前記問題解決手段の処理内容に応じて前記入出力メディア割当手段が割り当てる割り当てを変更する手段と、
ための入出力メディア割当を実施すると共に、入出力メディア割当の変更処理の指示を受けたときはその変更を行うべく処理して新たなメディア割当をするメディア割当手段と、
を具備したことを特徴とするマルチモーダル対話装置。
入力対応に、システムの目的に応じた計算処理を行ない、この処理結果を出力する問題解決手段と、
異なる各種入力用デバイスのうち、入力メディア割当に対応して少なくとも一つの入力用デバイスから、利用者によって前記入力用デバイスに入力された入力情報を解釈し、この解釈に基づいて入力対応情報を前記問題解決手段に与える入力手段と、
前記問題解決手段からの前記処理結果を得て、これを異なる各種出力用デバイスのうち、出力メディア割当に対応した出力用デバイスに振り分けて、利用者に出力する出力手段と、
前記問題解決手段からの前記処理結果に応じて前記入力メディア割当および前記出力メディア割当の少なくともいずれか一方の変更処理を指示し、また、前記入力手段と出力手段による入出力を管理する対話管理手段と、
前記入力手段から前記問題解決手段に与えられる入力対応情報を、入力メディア毎に発生する前記入力対応情報の中から選択する手段、および入力メディア毎に発生される入力対応情報を組み合わせる手段の少なくとも一つ、
および前記問題解決手段の出力から利用者に指示する表現を生成するためにその出力を選択する手段およびそれらを組み合わせる手段の少なくとも一つ、
の双方の組を割り当て、この割り当てに応じて、前記入力メディア割当を前記入力手段へ、前記出力メディア割当を前記出力手段へそれぞれ出力する入出力メディア割当手段とを備え、
前記入出力メディア割当手段は、前記対話管理手段から前記入力メディア割当または前記出力メディア割当の変更処理の指示を受けたときはこの変更を行なうことを特徴とするマルチモーダル対話装置。
前記対話管理手段には、
前記入力手段および前記出力手段の少なくとも一方の動作状況を適宜監視し、現在選択され利用されている入力メディア割当および出力メディア割当の利用に対する障害が発生した場合に、該障害の発生を表す障害情報を、前記入出力メディア割当手段に通知するメディア監視機能を備えると共に、
前記入出力メディア割当手段には、
該障害情報を前記対話管理手段から受けると、前記入力メディア割当および出力メディア割当の少なくとも一方を前記動作状況に応じて変更する機能を備えることを特徴とする請求項３に記載のマルチモーダル対話装置。
前記問題解決手段には、
システムの問題解決のために必要な入力対応情報である入力必要情報を利用者から獲得する必要があるような場合に、前記対話管理手段に対し前記入力要求情報を発生し、前記入力必要情報を利用者に入力してもらうよう求める入力要求機能、
もしくは、前記対話管理手段には、前記出力手段が設定されている前記出力メディア割当に従って利用者に対する出力を構成するために必要な情報を、前記問題解決手段に出力を求める出力必要情報を発生し、この出力必要情報を前記問題解決手段が出力するよう求める出力要求機能、
のうち少なくとも一つの機能を備えると共に、
前記メディア割当手段には、
この備えた機能により前記入力メディア割当または出力メディア割当の変更処理の指示を受けたときは、前記入力要求情報、もしくは前記出力要求情報のうちの少なくとも一つを利用して新たなメディア割当を行なう機能を備えることを特徴とする請求項２または３いずれか１項記載のマルチモーダル対話装置。
前記メディア割当手段は、
更に、前記入出力メディア割当を記録するメディア割当記憶スロットと、
前記メディア割当記憶スロットに現在選択されている入力メディア割当および出力メディア割当を記録する手段とを備え、
入力メディア割当または出力メディア割当変更処理の指示を受けたときは、前記メディア割当記憶スロットに記録されている入力メディア割当および出力メディア割当を利用して、まだ用していない入力メディア割当および出力メディア割当の組の割当を行なうことを特徴とする請求項１乃至３のいずれか１項記載のマルチモーダル対話装置。
対話装置によって入力された情報に対して所要の処理を行って結果を出力する対話方法において、
前記対話装置が、
異なる各種入力用デバイスのうち、入力メディア割当に従って少なくとも一つの入力用デバイスからの入力情報を解釈し、この解釈に基づいて入力対応情報を発生させる入力ステップと、
この発生された対応情報それぞれに、所要の目的に応じた処理を行い、この処理結果を出力する問題解決ステップと、
前記処理結果を、異なる各種出力用デバイスのうち、出力メディア割当に従った出力用デバイスから出力する出力ステップと、
前記入力ステップから前記問題解決ステップへ与えられる前記入力対応情報の中から１つを選択するステップ及び前記入力ステップにより発生される複数の入力対応情報を組み合わせこの組み合わせたものを選択するステップの少なくとも一つ、
および、前記問題解決ステップから出力ステップに出力される出力情報を得るために該問題解決ステップからの情報の１つを選択するステップ及び該問題解決ステップからの情報を複数を選択するときの前記複数を組み合わせこの組み合わせたものを選択するステップの少なくとも一つ、
の双方を対応させて割り当て、この割り当てに応じて、前記入力メディア割当を前記入力ステップへ、前記出力メディア割当を前記出力ステップへそれぞれ出力する入出力メディア割当ステップと、
前記問題解決ステップの処理内容に応じて前記入出力メディア割当ステップが割り当てる割り当てを変更するステップと、
を実行することを特徴とするマルチモーダル対話方法。