JP2004192653A

JP2004192653A - マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法

Info

Publication number: JP2004192653A
Application number: JP2004000494A
Authority: JP
Inventors: Tetsuro Chino; 哲朗知野; Tomoo Ikeda; 朋男池田; Yasuyuki Kono; 恭之河野; Takehide Yano; 武秀屋野; Katsumi Tanaka; 克己田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-02-28
Filing date: 2004-01-05
Publication date: 2004-07-08

Abstract

【課題】人間同士の対話のように人間にとって自然なかたちで対話を進めることができるようにしたインタフェースを提供すること。
【解決手段】擬人化されたエージェント画像を供給する擬人化イメージ提供手段103と、利用者の注視対象を検出する検出手段101と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を取得する他メディア入力手段102と、この他メディア入力手段からの入力情報を受け、認識動作の状況を制御するものであって検出手段101により得られる注視対象情報を基に利用者の注視対象が擬人化イメージ提示手段により提示されるエージェント画像のいずれの部分かを認識して、その認識結果に応じ前記他メディア入力認識手段からの入力の受付選択をする制御手段107とを備える。
【選択図】図１

Description

本発明は、自然言語情報、音声情報、視覚情報、操作情報のうち少なくとも一つの入力あるいは出力を通じて利用者と対話するマルチモーダル対話装置に適用して最適なマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法に関する。

近年、パーソナルコンピュータを含む計算機システムにおいて、従来のキーボードやマウスなどによる入力と、ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報などマルチメディア情報を入出力することが可能になって来ている。

このような状況下に加え、自然言語解析や自然言語生成、あるいは音声認識や音声合成技術あるいは対話処理技術の進歩などによって、利用者と音声入出力を対話する音声対話システムへの要求が高まっており、自由発話による音声入力によって利用可能な対話システムである“ＴＯＳＢＵＲＧ−ＩＩ”（下記非特許文献１参照）など、様々な音声対話システムの研究開発がなされ、発表されている。

また、さらに、このような音声入出力に加え、例えばカメラを使用しての視覚情報入力を利用したり、あるいは、タッチパネル、ぺン、タブレット、データグローブやフットスイッチ、対人センサ、ヘッドマウントディスプレイ、フォースディスプレイ（提力装置）など、様々な入出力デバイスを通じて利用者と授受できる情報を利用して、利用者とインタラクションを行なうマルチモーダル対話システムへの要求が高まっている。

すなわち、このような各種入出力デバイスを用いたマルチモーダルインタフェースを駆使することで、様々な情報を授受でき、従って、利用者はシステムと自然な対話が可能であることから、人間にとって自然で使い易いヒューマンインタフェースを実現するための一つの有力な方法となり得る故に、注目を集めている。

つまり、人間同士の対話においても、例えば音声など一つのメディア（チャネル）のみを用いてコミュニケーションを行なっている訳ではなく、身振りや手ぶりあるいは表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションを行なっている（下記非特許文献２参照）。

このことから考えても、自然で使い易いヒューマンインタフェースを実現するためには、音声入出力の他に、カメラを使用しての視覚情報入力、タッチパネル、ぺン、タブレット、データグローブやフットスイッチ、対人センサ、ヘッドマウントディスプレイ、フォースディスプレイなど、様々な入出力のメディアを用いた言語メッセージ、非言語メッセージによる対話の実現と応用に期待が高まっている。

しかし、次の（ｉ）（ｉｉ）のような現状がある。

［バックグラウンド（ｉ）］従来、それぞれのメディアからの入力の解析精度の低さの問題や、それぞれの入出力メディアの性質が十分に明らかとなっていないことなどのため、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていない。

つまり、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識が発生したり、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しに失敗するといったことなどによって、誤動作が起こり、それが結果的には利用者への負担となる。

また、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自己への入力であると判断して、認識処理などを行ない、結果として誤動作を起す。そして、その誤動作の取消や、誤動作の影響の復旧の処置を利用者は行わねばならず、また、誤動作を避けるために利用者は絶えず注意を払わなくてはならないなど、利用者への負担が大きい。

また、本来、判断が不要な場面においても、入力信号の処理が継続的にして行なわれるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下するなどの問題を抱える。

また、この問題を解決するために、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択するなど、特別な操作によってモードを変更する方法も採用されているが、このような特別な操作は、人間同士の会話であった場合、存在しない操作であるため、不自然なインタフェースとなるばかりでなく、利用者にとって繁雑であったり、操作の種類によっては、習得のための訓練が必要となったりすることによって、利用者の負担をいたずらに増やすこととなっている。

また、例えば、音声入力の可否をボタン操作によって切替える場合などでは、音声メディアの持つ利点を活かすことができない。すなわち、音声メディアによる入力は、本来、口だけを使ってコミュニケーションが出来るもので、例えば手で行なっている作業があったとしてもそれを妨害することがなく、双方を同時に利用することが可能であるが、音声入力の可否をボタン操作で切り替えることが必要な仕組みにした場合、このような音声メディア本来の利点を活かすことが出来ない。

また、音声出力や、動画像情報や、複数画面に亙る文字や画像情報など、提示する情報がすぐ消滅しまうものであったり、刻々変化するものであったりする等、一過性のメディアも用いて利用者に情報提示する必要があるケースも多いが、このような場合、利用者がその情報に注意を払っていないと、提示された情報の一部あるいは全部を利用者が受け取れない場合があると言う問題があった。

また、従来は、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示し、利用者が何らかの特別な操作による確認動作を行なうことによって、継続する次の情報を提示する方法もあるが、この場合は、確認動作のために、利用者の負担が増えることになり、また、慣れないと操作に戸惑い、システムの運用効率が悪くなるという問題も残る。

また、従来のマルチモーダルインタフェースでは、利用技術の未発達から、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、視線一致（アイコンタクト）、注視位置、身振り、手振りなどのジェスチャ、顔表情などの非言語メッセージを、効果的に利用することが出来ない。

［バックグラウンド（ｉｉ）］また、別の観点として従来における現実のマルチモーダルインターフェースを見てみると、音声入力、タッチセンサ入力、画像入力、距離センサ入力といったものを扱うが、その処理を考えてみる。

音声入力の場合、たとえば利用者から音声入力がなされたとして、その場合には入力された音声波形信号を例えばアナログ／デジタル変換し、単位時間当たりのパワー計算を行うことなどによって、音声区間を検出し、これを例えばＦＦＴ（高速フーリエ変換）などの方法によって分析すると共に、例えば、ＨＭＭ（隠れマルコフモデル）などの方法を用いて、予め用意した標準パターンである音声認識辞書と照合処理を行うことなどにより、発声内容を推定し、その結果に応じた処理を行う。

また、タッチセンサなどの接触式の入力装置を通じて、利用者からの指し示しジェスチャの入力がなされた場合には、タッチセンサの出力情報である、座標情報、あるいはその時系列情報、あるいは入力圧力情報、あるいは入力時間間隔などを用いて、指し示し先を同定する処理を行う。

また、画像を使用する場合には、単数あるいは複数のカメラを用いて、例えば、利用者の手などを撮影し、観察された形状、あるいは動作などを例えば、下記非特許文献３などに示された方法を用いて解析することによって、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などを入力することが出来るようにしている。

また、距離センサ、この場合、例えば、赤外線などを用いた距離センサなどを用いるがこの距離センサにより、利用者の手の位置や形、あるいは動きなどを画像の場合と同様の解析方法により、解析して認識することで、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などへの指し示しジェスチャを入力することが出来るようにしている。

その他、入力手段としては利用者の手に、例えば、磁気センサや加速度センサなどを装着することによって、手の空間的位置や、動き、あるいは形状を入力したり、仮想現実（ＶＲ＝ＶｉｒｔｕａｌＲｅａｌｉｔｙ）技術のために開発された、データグローブやデータスーツを利用者が装着することで、利用者の手や体の、動き、位置、あるいは形状を解析することなどによって利用者の指し示した実世界中の指示対象、あるいは表示画面上の指示対象などを入力するといったことが採用可能である。

ところが、従来、指し示しジェスチャの入力において、例えばタッチセンサを用いて実現されたインタフェース方法では、離れた位置からや、機器に接触せずに、指し示しジェスチャを行うことが出来ないという問題があった。さらに、例えばデータグローブや、磁気センサや、加速度センサなどを利用者が装着することで実現されたインタフェース方法では、機器を装着しなければ利用できないという問題点があった。

また、カメラなどを用いて、利用者の手などの形状、位置、あるいは動きを検出することで実現されているインタフェース方法では、十分な精度が得られないために、利用者が入力を意図したジェスチャだけを、適切に抽出することが困難であり、結果として、利用者かジェスチャとしての入力を意図していない手の動きや、形やなどを、誤ってジェスチャ入力であると誤認識したり、あるいは利用者が入力を意図したジェスチャを、ジェスチャ入力であると正しく抽出することが出来ないといったことが生じる。

その結果、例えば、誤認識のために引き起こされる誤動作の影響の訂正が必要になったり、あるいは利用者が入力を意図して行ったジェスチャ入力が実際にはシステムに正しく入力されず、利用者が再度入力を行う必要が生じ、利用者の負担を増加させてしまうという問題があった。

また、利用者が入力したジェスチャが、解析が終了した時点で得られるために、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているかどうかが分からない。

そのため、例えばジェスチャの開始時点が間違っていたり、あるいは利用者によってジェスチャ入力が行われていることを正しく検知できなかったりするなどして、利用者が現在入力途中のジェスチャが、実際にはシステムによって正しく抽出されておらず、結果として誤認識を引き起こしたり、あるいは利用者が再度入力を行わなくてはならなくなるなどして、利用者にかかる負担が大きくなる。

あるいは、利用者がジェスチャ入力を行っていないのにシステムが誤ってジェスチャが開始されているなどと誤認識することによって、誤動作が起こり、その影響の訂正をしなければならなくなる。

また、例えばタッチセンサやタブレットなどの接触式の入力装置を用いたジェスチャ認識方法では、利用者は接触式入力装置自身の一部分を指し示すこととなるため、その接触式入力装置自身以外の実世界の場所や、ものなどを参照するための、指し示しジェスチャを入力することが出来ないという問題があり、一方、例えばカメラや赤外センサーや加速度センサなどを用いる接触式でない入力方法を用いる、指し示しジェスチャ入力の認識方法では、実世界の物体や場所を指し示すことは可能であるがシステムがその指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示する方法がないという問題があった。
電子通信学会論文誌、Ｖｏｌ．Ｊ７７−Ｄ−ＩＩ、Ｎｏ．８，ｐｐ１４１７−１４２８，１９９４ "ＩｎｔｅｌｌｉｇｅｎｔＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅｓ"，ＭａｙｂｕｒｙＭ．Ｔ，Ｅｄｓ．，ＴｈｅＡＡＡＩＰｒｅｓｓ／ＴｈｅＭＩＴＰｒｅｓｓ，１９９３ "ＵｎｃａｌｉｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉｏｎＷｉｔｈＰｏｉｎｔｉｎｇｆｏｒａＭａｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ（Ｒ．Ｃｉｐｏｌｌａ，ｅｔ．ａｌ．，ＰｒｏｃｅｅｄｉｎｇｓｏｆＭＶＡ’９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏｎ，ｐｐ．１６３−１６６，１９９４．）

以上、バックグラウンド（ｉ）で説明したように、従来のマルチモーダルインタフェースは、それぞれの入出力メディアからの入力情報についての解析精度の低さ、そして、それぞれの入出力メディアの性質が十分に解明されていない等の点から、新たに利用可能となった種々の入出力メディアあるいは、複数の入出力メディアを効果的に活用し、高能率で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていないと言う問題がある。

つまり、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識の発生や、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しに失敗することなどによって、誤動作が起こり、利用者へ負担が増加すると言う問題があつた。

また、音声やジェスチャなどのメディアはマルチモーダルインタフェースとして重要なものであるが、このメディアは、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば、周囲の人との対話にも利用される。

そのため、このようなメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自己への入力であると誤判断をして、その情報の認識処理などを行なってしまい、誤動作を引き起こすことにもなる。そのため、その誤動作の取消や、誤動作の影響の復旧に利用者が対処しなければならなくなり、また、そのような誤動作を招かないようにするために、利用者は絶えず注意を払わなくてはならなくなるといった具合に、利用者の負担が増えるという問題があった。

また、マルチモーダル装置において本来、情報の認識処理が不要な場面においても、入力信号の監視と処理は継続的に行なわれるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下するという問題点があった。

また、この問題を解決するために、音声やジェスチャなどの入力を行なう際に、利用者にたとえば、ボタンを押させるようにしたり、メニュー選択させるなど、特別な操作によってモードを変更するなどの手法を用いることがあるが、このような特別な操作は、人間同士の対話では本来ないものであるから、このような操作を要求するインタフェースは、利用者にとって不自然なインタフェースとなるだけでなく、繁雑で煩わしさを感じたり、操作の種類によっては、習得のための訓練が必要となったりすることによって、利用者の負担増加を招くという問題があった。

また、音声メディアによる入力は、本来、口だけを使ってコミュニケーションが出来るため、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う利点があるが、例えば、音声入力の可否をボタン操作によって切替えるといった構成とした場合などでは、このような音声メディアが本来持つ利点を損なってしまうという問題点があった。

また、例えば、音声出力や、動画像情報や、複数画面に亙る文字や画像情報などでは、提示情報が提示されるとすぐ消滅したり、刻々変化したりする一過性のものとなることも多いが、このような一過性メディアも用いて利用者に情報提示する際、利用者がその情報に注意を払っていないと提示された情報の一部あるいは全部を利用者が受け取れない場合があると言う問題があった。

また、従来は、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示し、利用者が何らかの特別な操作による確認動作を行なうことによって、継続する次の情報を提示する手法を用いることがあるが、このような方法では、確認動作のために、利用者の負担が増加し、また、システムの運用効率を悪くするという問題があった。

また、従来のマルチモーダルインタフェースでは、応用技術の未熟から人間同士のコミュニケーションにおいて重要な役割を演じていると言われる、視線一致（アイコンタクト）、注視位置、身振り、手振りなどのジェスチャ、そして、顔表情などの非言語メッセージを、効果的に利用することが出来ないという問題があった。

また、バックグラウンド（ｉｉ）で説明したように、マルチモーダルインタフェース用の現実の入力手段においては、指し示しジェスチャの入力の場合、接触式の入力機器を使用するインタフェース方法では、離れた位置からや、機器に接触せずに、指し示しジェスチャを行うことが出来ず、また、装着式のインタフェース方法では、機器を装着しなければ利用できないという問題があった。

また、ジェスチャ認識を遠隔で行うインタフェース方法では、十分な精度が得られないために、利用者がジェスチャとしての入力を意図していない手の動きや、形やなどを、誤ってジェスチャ入力であると誤認識してしまったり、あるいは利用者が入力を意図したジェスチャを、ジェスチャ入力であると正しく抽出することが出来ない場合が多発するという問題があった。

また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムが、そのジェスチャ入力を正しく抽出しているかどうかが分からないため、結果として誤認識を引きおこしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして、利用者の負担が増加するという問題があった。

また、接触式の入力装置を用いたジェスチャ認識方法では、その接触式入力装置自身以外の実世界の場所や、ものなどを参照するための、指し示しジェスチャを入力することが出来ず、一方、非接触式の入力方法を用いる、指し示しジェスチャ入力の認識方法では、実世界の物体や場所を指し示すことは可能であるが、システムがその指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示する方法がないという問題があった。

さらに、以上示した問題によって誘発される従来方法の問題としては、例えば、誤動作による影響の訂正が必要になったり、あるいは再度の入力が必要になったり、あるいは利用者が入力を行う際に、現在行っている入力が正しくシステムに入力されているかどうかが分からないため、不安になるなどして、利用者の負担が増すという問題があった。

そこでこの発明の目的とするところは、バックグラウンド（ｉ）の課題を解決するために、第１には、複数種の入出力メディアを効率的、効果的に利用することができ、利用者の負担を軽減できて人間同士のコミュニケーションに近い状態で自然な対話ができるようにしたマルチモーダルインタフエースを提供することにある。

また、本発明の第２の目的は、各メディアからの入力の解析精度が不十分であるための誤動作や、あるいは周囲雑音による誤動作や、あるいは入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しの失敗などに起因する誤動作などによる利用者への負担を解消するマルチモーダルインタフェースを提供するものである。

また、第３には、音声やジェスチャなどのように、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、人間同士の対話に用いるメディアを用いたインタフェース装置では、利用者が、操作中のマルチモーダルシステムのインタフェース装置にではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、利用者がマルチモーダルシステムのそばにいるがために、そのマルチモーダルシステムのインタフェース装置が自己への入力であると判断してしまうことになり誤動作の原因となるが、その場合でもこのような事態を解消でき、誤動作に伴う取消操作や、誤動作の影響の復旧のための処置や、誤動作を避けるために利用者が絶えず注意を払わなくてはならないといった負荷を含め、利用者への負担を解消することができるマルチモーダルインタフェースを提供することにある。

また、第４には、システムの処理動作状態から、本来メディア入力の情報識別が不要な場面においても、入力信号の処理が継続的に行なわれることによってその割り込み処理のために、現在処理中の作業の遅延を招くという悪影響をなくすべく、不要な場面でのメディア入力に対する処理負荷を解消できるようにすることにより、利用している装置に関与する他のサービスの実行速度や利用効率の低下を抑制できるようにしたマルチモーダルインタフェースを提供することにある。

また、第５には、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などによるモード変更などといった、特別な操作を必要としない構成とすることにより、煩雑さを伴わず、自然で、しかも、習得のための訓練などが不要、且つ、利用者に負担をかけないマルチモーダルインタフェースを提供することにある。

また、第６には、音声メディアを使用する際には、例えば、音声入力の可否をボタン操作によって切替えるといった余分な操作を完全に排除して、しかも、必要な音声情報を取得することができるようにしたマルチモーダルインタフェースを提供することにある。

また、第７には、提示が一過性となるかたちでの情報を、見逃すことなく利用者が受け取れるようにしたマルチモーダルインタフェースを提供することにある。

また、第８には、一過性のメディアによる情報提示の際に、利用者が一度に受け取れる量に小分けして提示するようにした場合に、特別な操作など利用者の負担を負わせることなく円滑に情報を提示できるようにしたインタフェースを提供することにある。

また、第９には、人間同士のコミュニケーションにおいては重要な役割を演じていると言われるが、従来のマルチモーダルインタフェースでは、効果的に利用することが出なかった、視線一致（アイコンタクト）、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的に活用できるインタフェースを提供することにある。

また、この発明の目的とするところは、バックグラウンド（ｉｉ）の課題を解決するために、利用者がシステムから離れた位置や、あるいは機器に接触せずに、かつ、機器を装着せずに、遠隔で指し示しジェスチャを行って指示を入力することが出来、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を無くすことができるようにしたマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供するものである。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているか否かが分からないため、結果として誤認識を引きおこしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして発生する利用者の負担を抑制することが可能なマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供するものである。

また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することが可能なマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供するものである。

さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することにある。

さらに、擬人化インタフェースを用いたインタフェース装置、およびインタフェース方法で、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することにある。

上記目的を達成するため、本発明は次のように構成する。バックグラウンド（ｉ）に関する課題を解決するために、［１］第１には、利用者の注視対象を検出する検出手段と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を受け、認識動作の状況を制御する制御手段とを備えたことを特徴とする。

本発明にかかるマルチモーダルインタフェースは、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力する検出手段と、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ぺン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの入力情報を受けとり処理を行なう少なくとも一つの他メディア入力処理手段とを具備しており、制御手段により、該注視対象情報に応じて、少なくとも一つの他メディア入力処理手段の、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御するようにしたものである。

［２］第２には、擬人化されたエージェント画像を供給する擬人化イメージ提供手段と、利用者の注視対象を検出する検出手段と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を取得する他メディア入力手段と、この他メディア入力手段からの入力情報を受け、認識動作の状況を制御するものであって、前記検出手段により得られる注視対象情報を基に、利用者の注視対象が擬人化イメージ提示手段により提示されるエージェント画像のいずれの部分かを認識して、その認識結果に応じ前記他メディア入力認識手段からの入力の受付選択をする制御手段とを備えたことを特徴とする。

この構成によれば、利用者に対して応対する擬人化されたエージェント画像具体的には、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者へ提示する擬人化イメージ提示手段があり、検出手段によって得られる注視対象情報に応じて、利用者の注視対象が、擬人化イメージ提示手段で提示されるエージェント人物の、全体、あるいは、顔、目、口、耳など一部を指しているか否かに応じて、制御手段は他メディア入力認識手段からの入力受付を選択するようにしたものである。

［３］第３には、文字情報、音声情報、静止面像情報、動画像情報、力の提示など少なくとも一つの信号の提示により、利用者に対してフィードバック信号提示するフィードバック提示手段と、注視対象情報を参照して、メディア入力認識手段からの入力の受付選択をする際に、該フィードバック提示手段を通じて適宜利用者へのフィードバック信号を提示すべく制御する制御手段を更に具備したことを特徴とする。

この場合、利用者に対し、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、フィードバック信号を提示するフィードバック提示手段があり、制御手段は、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、該フィードバック提示手段を通じて利用者へのフィードバック信号を適宜提示するよう制御することを特徴とするものである。

［４］第４には、利用者と対面してサービスを提供する擬人化されたエージェン卜人物の画像であって、該エージェント人物画像は利用者に、所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして当該画像を提示する擬人化イメージ提示手段と、注視対象情報を参照して、メディア入力認識手段からの入力の受付選択する際に、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示すべく制御する制御手段とを具備したことを特徴とする。

この場合、擬人化イメージ提示手段は、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による面像情報と、利用者へ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類のエージェント人物画像を用意、あるいは適宜に生成できるようにしてあり、これらの画像を使用して非言語メッセージを提示することができるようにしてあって、制御手段により、注視対象情報を参照して、メディア入力認識手段からの入力を受付選択する際に、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示するよう制御するものである。

［５］第５には、利用者の注視対象を検出する検出手段と、利用者への音声情報、操作情報、画像情報を出力する情報出力手段と、利用者からの音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を受け、認識動作の状況を制御する第１の制御手段と、前記注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、あるいは提示速度の調整などの動作状況を適宜制御する第２の制御手段とを備したことを特徴とする。

この構成の場合、注視対象物を検出する検出手段、具体的には、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力する注視対象検出用の検出手段があり、また、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力する少なくとも一つの情報出力手段があって、制御手段は前記注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、あるいは提示速度の調整などの動作状況を適宜制御するものである。

［６］第６には、文字情報、音声情報、静止面像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者の注意を喚起する注意喚起手段と、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御する第２の制御手段とを更に具備する。

この構成の場合、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、利用者の注意を喚起する注意喚起手段があり、第２の制御手段は、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御する。

［７］第７には、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段のうち、少なくとも一つの入力手段を用いて、該注意喚起のための信号に対する利用者の反応を検知し、これを利用者反応情報として出力する反応検知手段と、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する制御手段を設ける。

このような構成において、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段を用いて、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力する反応検知手段があり、制御手段は、利用者反応情報の内容に応じて、情報出力手段の動作状況およぴ注意喚起手段の少なくとも一つを適宜制御するようにしたものである。

［８］第８には、利用者の注視対象を検出する検出手段と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を取得する他メディア入力手段と、利用者と対面してサービスを提供する擬人化されたエージェント人物の画像であって、該エージェント人物画像は利用者に所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして当該画像を提示する擬人化イメージ提示手段と、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示により、利用者に対して情報を出力する情報出力手段と、前記擬人化イメージ提示手段を通しての非言語メッセージの提示により、利用者の注意を喚起する注意喚起手段と、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどからの入力情報のうち、少なくとも一つの情報を参照して、前記注意喚起のための信号に対する利用者の反応を検知し、利用者反応情報として出力する反応検知手段と、該注視対象情報に応じて、少なくとも一つの他メディア入力処理手段の、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示するよう制御し、該注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する制御手段とを具備する。

このような構成においては、注視対象を検出する検出手段、具体的には、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力する検出手段があり、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ペン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの入力情報を受け取り、処理を行なう少なくとも一つの他メディア入力処理手段と、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報と、利用者へ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類の非言語メッセージを提示する提示する擬人化イメージ提示手段と、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力する少なくとも一つの情報出力手段と、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示あるいは、擬人化イメージ提示手段を通じての非言語メッセージの提示によって、利用者の注意を喚起する注意喚起手段と、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどからの入力情報を参照して、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力する反応検知手段があり、制御手段は、前記注視対象情報に応じて、少なくとも一つの他メディア入力処理手段の、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示するよう制御し、該注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御するものである。

［９］また、第９には、マルチモーダルインタフェース方法として、利用者の注視対象を検出し、利用者の音声、ジェスチャ、操作手段による利用者の操作情報などのうち、少なくとも一つの情報への処理について、前記注視対象情報に応じて、入力受付の選択、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御するようにした。また、利用者の注視対象を検出するとともに、利用者と対面してサービスを提供する擬人化されたエージェント人物の画像を画像情報として利用者へ提示し、また、注視対象情報を基に、注視対象が前記エージェン卜人物画像のどの部分かに応じて、利用者の音声、ジェスチャ、操作手段による利用者の操作情報などの受付を選択するようにした。

すなわち、マルチモーダル入力にあたっては、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して注視対象情報としてを出力し、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ぺン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの少なくとも一つの入力情報への処理について、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御する方法である。

また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者ヘ提示し、注視対象情報に応じて、注視対象が、擬人化イメージ提示手段で提示されるエージェント人物の、全体、あるいは、顔、目、口、耳など一部を指しているか否かに応じて、他メディア入力認識手段からの入力を受付可否を切替えるものである。

また、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、フィードバック信号を提示する。

また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止面あるいは動画による画像情報と、利用者ヘ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類の非言語メッセージを提示し、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示する。

［１０］第１０には、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者に情報を提供するにあたり、利用者の注視対象を検出し、この検出された注視対象情報を参照して、前記提示の開始、終了、中断、再開、処理レベルの調整などの動作状況を制御するようにする。

また、情報を提示する際に、注視対象情報に応じて、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者の注意を喚起するようにする。また、注意喚起のための信号に対する利用者の反応を検知し、利用者反応情報として得ると共に、利用者反応情報内容に応じて、利用者の音声入力情報、操作入力情報、画像入力情報の取得および注意喚起の少なくとも一つを制御するようにする。

このように、利用者の注視対象を検知してその情報を注視対象情報として得る。具体的には利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報として得る。そして、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力する際に、この注視対象情報を参照して、出力の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御する。

また、情報出力手段から情報を提示する際に、注視対象情報に応じて、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、利用者の注意を喚起する。

また、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段を用いて、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する。

［１１］第１１には、利用者の注視対象を検出して注視対象情報として出力し、利用者に対面してサービスを提供する擬人化されたエージェント人物画像であって該エージェント人物画像は利用者に所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして提示するようにし、また、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者に情報を出力し、利用者の音声入力情報、ジェスチャ入力情報、操作入力情報のうち、少なくとも一つ以上の入力情報を受け、処理を行なう際に、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を制御する。また、注視対象情報を参照して、入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ人物画像により所要の提示をする。

［１２］第１２には、利用者の注視対象を検出して注視対象情報として出力し、利用者に対面してサービスを提供する擬人化されたエージェント人物画像であって該エージェント人物画像は利用者に所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして提示するようにし、また、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者に情報を出力し、利用者の音声入力情報、ジェスチャ入力情報、操作入力情報のうち、少なくとも一つ以上の入力情報を受け、処理を行なう際に、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を制御することを特徴とする。

また、注視対象情報を参照して、入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ人物画像により所要の提示をすることを特徴とする。

これは、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力し、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報と、利用者へ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類の非言語メッセージを提示する提示し、利用者へ、文字情報、音声情報、静止画像情報、動面像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力し、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ぺン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの入力情報を受けとり処理を行なう際に、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御する方法である。

また、注視対象情報を参照して、入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示する方法である。

また、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどからの入力情報を参照して、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する。

以上、本発明は、視線検出等の技術を用い、利用者の注視対象を検出するとともに、その検出した注視対象に応じて他メディアからの入力の受付可否や、認識処理、あるいは出力の提示方法や中断、確認等を制御するようにしたものであって、特に擬人化インターフェースでは例えば顔を見ることによって会話を開始できるようにする等、人間同士のコミュニケーションでの非言語メッセージの使用法や役割をシミュレートするようにシステムに応用したものである。

従って、本発明によれば、複数種の入出力メディアを効率的、効果的に利用することができ、利用者の負担を軽減できて人間同士のコミュニケーションに近い状態で自然な対話ができるようにしたインタフエースを提供できる。

また、各メディアからの入力の解析精度が不十分であるための誤動作や、あるいは周囲雑音による誤動作や、あるいは入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しの失敗などに起因する誤動作などによる利用者への負担を解消するインタフェースを提供できる。

また、音声やジェスチャなどのように、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、人間同士の対話に用いるメディアを用いたインタフェース装置では、利用者が、操作中のマルチモーダルシステムのインタフェース装置にではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、利用者がマルチモーダルシステムのそばにいるがために、そのマルチモーダルシステムのインタフェース装置が自己への入力であると判断してしまうことになり誤動作の原因となるが、その場合でもこのような事態を解消でき、誤動作に伴う取消操作や、誤動作の影響の復旧のための処置や、誤動作を避けるために利用者が絶えず注意を払わなくてはならないといった負荷を含め、利用者への負担を解消することができるインタフェースを提供できる。

また、システムの処理動作状態から、本来メディア入力の情報識別が不要な場面においても、入力信号の処理が継続的に行なわれることによってその割り込み処理のために、現在処理中の作業の遅延を招くという悪影響をなくすべく、不要な場面でのメディア入力に対する処理負荷を解消できるようにすることにより、利用している装置に関与する他のサービスの実行速度や利用効率の低下を抑制できるようにしたインタフェースを提供できる。

また、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などによるモード変更などといった、特別な操作を必要としない構成とすることにより、煩雑さを伴わず、自然で、しかも、習得のための訓練などが不要で、利用者に負担を与えないインタフェースを提供できる。

また、本発明によれば、音声メディアによる入力の場合、本来、口だけを用いてコミュニケーションが出来るため、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を、阻害することなく活用できるインタフェースを提供できる。

また、例えば、音声出力や、動画像情報や、複数画面に亙る文字や面像情報など、提示される情報が提示してすぐ消滅したり、刻々変化したりする一過性のメディアも用いて利用者に情報提示する際に、利用者がその情報に注意を払っていなかった場合にも、提示された情報の一部あるいは全部を利用者が受け取れないといったことのないようにしたインタフェースを提供できる。

また、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示して、継続する次の情報を提示する際に、利用者が何らかの特別な操作を行なうといった負担を負わせることなく、円滑に情報提示できるようになるインタフェースを提供できる。

また、擬人化エージェント人物画像で現在の様々な状況を表示するようにし、利用者の視線を検知して、利用者が注意を向けている事柄を知って、対処するようにしたので、人間同士のコミュニケーションに近い形でシステムと人間との対話を進めることができるようになるインタフェースを提供できる。

また、バックグラウンド（ｉｉ）に関する課題、すなわち、非接触遠隔操作を可能にし、誤認識を防止し、利用者の負担を解消するために、擬人化エージェントに利用者の指し示したジェスチャの指示対象を、注視させるようにし、これにより、システムの側で認識できなくなったり、システム側での認識結果が誤っていないかなどが、利用者の側で直感的にわかるようにするべく、本発明は次のように構成する。すなわち、［１３］利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力手段と、該入力手段から得られる入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識の少なくとも一つの処理を施すことによって、該利用者からの入力を、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識手段と、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして利用者に提示する出力手段と、該入力認識手段から得られる該動作状況情報に応じて、該出力手段を通じて、利用者にフィードバック情報を提示する制御手段を具備したことを特徴とする。

［１４］また、カメラ（撮像装置）などの画像入力手段によって利用者の画像を取り込み、入力情報として例えばアナログデジタル変換された画像情報を出力する入力手段と、前記入力手段から得られる画像情報に対して、例えば前時点の画像との差分抽出やオプティカルフローなどの方法を適用することで、例えば動領域を検出し、例えばパターンマッチング技術などの手法によって照合することで、入力画像から、ジェスチャ入力を抽出し、これら各処理の進行状況を動作状況情報として随時出力する入力認識手段と、該入力認識手段から得られる動作状況情報に応じて、文字列や画像を、あるいはブザー音や音声信号などを、例えば、ＣＲＴディスプレイやスピーカといった出力手段から出力するよう制御する制御部を持つことを特徴とする。

［１５］また、入力手段から得られる入力情報、および入力認識手段から得られる動作状況情報の少なくとも一方の内容に応じて、利用者へのフィードバックとして提示すべき情報であるフィードバック情報を生成するフィードバック情報生成手段を具備したことを特徴とする。

［１６］また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者へ提示する擬人化イメージを生成するフィードバック情報生成手段と、入力認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージの表情あるいは動作の少なくとも一方を決定し、出力手段を通じて、例えば指し示しジェスチャの指し示し先、あるいは例えば指先や顔や目など、利用者がジェスチャ表現を実現している部位あるいはその一部分など、注視する表情であるフィードバック情報を生成するフィードバック情報生成手段と、利用者に該フィードバック情報生成手段によって生成されたフィードバック情報を、出力手段から利用者へのフィードバック情報として提示する制御手段を具備したことを特徴とする。

［１７］また、入力手段の空間的位置、および出力手段の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置置情報として保持する配置情報記憶手段と、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置を表す参照物位置情報を出力する入力認識手段と、該配置情報記憶手段から得られる配置情報と、該入力認識手段から得られる参照物位置情報と、動作状況情報との少なくとも一つを参照して、擬人化エージェントの動作、あるいは表情、あるいは制御タイミングの少なくとも一つを決定し、フィードバック情報として出力するフィードバック手段を具備したことを特徴とする。

［１８］また、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力ステップと、該入力ステップによって得られる該入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識の少なくとも一つの処理を施すことによって、該利用者からの入力を、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識ステップと、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして利用者に提示する出力ステップと、入力認識ステップによって得られる動作状況情報に基づいて、出力ステップを制御して、フィードバックを利用者に提示することを特徴とする。

［１９］また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、入力認識ステップから得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージ情報として生成するフィードバック情報生成ステップと、入力認識ステップによって得られる動作状況情報に基づいて、フィードバック情報生成ステップと、出力ステップを制御することによって、たとえば音声入力がなされた時点で擬人化エージェントによって例えば、「うなずき」の表情を提示するなど、利用者にフィードバックを提示することを特徴とする。

［２０］また、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置に関する情報である位置情報を出力する認識ステップと、入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶ステップと、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、例えば、利用者の指し示しジェスチャの対象である参照物を、随時注視する表情を提示するなど利用者にフィードバックを提示することを特徴とするものである。

そして、このような構成の本システムは、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカあるいは頭部の動きを検知するヘッドトラッカー、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどによる入力手段のうち、少なくとも一つから入力される利用者からの入力を随時取り込み、入力情報として得、これを音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識のうち、少なくとも一つの認識処理を施すことによって、該利用者からの入力に対する受付状況の情報、すなわち、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受付状況の情報を動作状況情報として得、得られた動作状況情報に基づいて、警告音、合成音声、文字列、画像、あるいは動画を用い、利用者に対するシステム側からのフィードバック（すなわち、システム側から利用者に対する認識状況対応の反応）として、利用者に提示するものである。

また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、フィードバック情報認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージ情報として生成し、これを表示することで、たとえば音声入力がなされた時点で擬人化エージェントによって例えば「うなずき」の表情を提示するなど利用者にフィードバックを提示する。

また、認識手段により画像認識して、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置に関する情報である位置情報を得、配置情報記憶手段により入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持し、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、例えば、利用者の指し示しジェスチャの対象である参照物を、随時注視する表情を提示するなど利用者にフィードバックを提示する。

このように、利用者がシステムから離れた位置や、あるいは機器に非接触状態で行った指し示しジェスチャを認識させ、そのジェスチャによる指示を入力させることが出来るようになり、かつ、誤認識なくジェスチャ認識を行えて、ジェスチャ抽出の失敗を無くすことができるようになるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することができる。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点で、システムがそのジェスチャ入力を正しく抽出しているか否かを知ることができ、利用者が再入力を行わなくてはならなくなるな負担を解消できるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することができるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。

本発明は視線検出等の技術を用い、利用者の注視対象に応じて他メディアからの入力の受付可否や、認識処理、あるいは出力の提示方法や中断、確認等を制御するようにしたものであって、特に擬人化インターフェースでは例えば顔を見ることによって会話を開始できるようにする等、人間同士のコミュニケーションでの非言語メッセージの使用法や役割をシミュレートするようにして適用したものである。従って、本発明によれば、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースを実現することが出来る。

利用者が入力を意図した音声やジェスチャを、自然且つ、円滑に入力可能にするものであり、利用者からのジェスチャ入力を検知した際に、擬人化エージェントの表情によって、ジェスチャ入力を行う手などを随時注視したり、あるいは指し示しジェスチャに対して、その参照対象を注視することによって、利用者へ自然なフィードバックを提示し、さらに、その際、利用者や擬人化エージェン卜の視界、あるいは参照対象等の空間的位置を考慮して、擬人化エージェントを適切な場所に移動、表示するよう制御するようにしたもので、このような本発明によれば、利用者が離れた位置や、あるいは機器に接触せずに、かつ、機器を装着せずに、遠隔で指し示しジェスチャを行うことが出来、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を抑制することが可能となる。

また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムが、そのジェスチャ入力を正しく抽出しているかどうかが分からないため、結果として誤認識を引き起こしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして発生する利用者の負担を抑制することが可能となる。また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することが可能となる。さらに、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが可能となる。

さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができる等の実用上多大な効果が奏せられる。

以下、図面を参照して本発明の実施例を説明するが、初めに上述のバックグラウンド（ｉ）に関わるその解決策としての発明の実施例を説明する。

（第１の実施例）本発明は、視線検出等の技術を使用し、利用者の注視対象に応じて他メディアからの入力の受付可否や、認識処理、あるいは出力の提示方法や中断、確認等を制御するもので、特に擬人化インターフェースでは例えば顔を見ることによって会話を開始できるようにする等、人間同士のコミュニケーションでの非言語メッセージの使用法や役割をシミュレートすることで、利用者にとって自然で負担がなく、かつ確実なヒューマンインタフェースを実現する。

以下、図面を参照して、本発明の第１の実施例に係るマルチモーダル対話装置について詳細に説明する。

本発明は種々のメディアを駆使して、より自然な対話を進めることができるようにしたマルチモーダル対話装置におけるヒューマンインタフェースに関わるものであり、発明の主体はヒューマンインタフェース（マルチモーダルインタフェース）の部分にあるが、マルチモーダル対話装置全体から、それぞれ必要な構成要素とその機能を抽出し組み合わせることによって、インタフェース部分の各種構成が実現可能であるため、ここでは、マルチモーダル対話装置に係る一実施形態を示すこととする。

＜本装置の構成の説明＞図１は、本発明の一例としてのマルチモーダル対話装置の構成例を示したブロック図であり、図に示す如く、本装置は注視対象検出部１０１、他メディア入力部１０２、擬人化イメージ提示部１０３、情報出力部１０４、注意喚起部１０５、反応検知部１０６、および制御部１０７から構成されている。

これらのうち、注視対象検出部１０１は、当該マルチモーダル対話装置の利用者の視線方向を検出して、当該利用者が向いている“場所”、“領域”、“方向”、“物”、あるいはその“部分”を検出し、注視対象情報としてを出力する装置である。この注視対象検出部１０１は、例えば、利用者の眼球運動を観察するアイトラッカ装置や、利用者の頭部の動きを検出するヘッドトラッカ装置や、着席センサや、例えば、特開平０８−０５９０７１号公報「視箇所推定装置とその方法」に開示されている方法などによって、利用者を観察するカメラや利用者が装着したカメラから得られる画像情報を処理し、利用者の視線方向の検出することなどによって、利用者が、“現在見ている”か、あるいは利用者が向いている“場所”、“領域”、“方向”、“物”、あるいはその“部分”を検出して、注視対象情報としてを出力するようにしている。

また、注視対象検出部１０１では、任意の注視対象となる物体の全部あるいは位置部分や、任意の注視対象となる領域と、その注視対象の記述（名称など）の組を予め定義して保存しておくことによって、注視対象記述を含む注視対象情報と、利用者がその注視対象を注視した時間に関する情報を出力するようにしている。

図２は、当該注視対象検出部１０１により出力される注視対象情報の例を表しており、注視対象情報が、“注視対象情報ＩＤ”、“注視対象記述情報Ａ”、“時間情報Ｂ”、などから構成されていることを示している。

図２に示した注視対象情報では、“注視対象情報ＩＤ”の欄には“Ｐ１０１”，“Ｐ１０２”，“Ｐ１０３”，…“Ｐ２０１”，…といった具合に、対応する注視対象情報の識別記号が記録されている。

また、“注視対象記述Ａ”の欄には、“擬人化イメージ”，“他人物”，“出力領域”，“画面外領域”，…といった具合に、注視対象検出部１０１によって検出された注視対象の記述が記録され、また、“時間情報Ｂ”の欄には“ｔ３”，“ｔ１０”，“ｔ１５”，“ｔ１８”，…といった具合に、利用者が、対応する注視対象を注視した時点に関する時間情報が記録されている。

すなわち、利用者が注視行動をとり、それが検出される毎に“Ｐ１０１”，“Ｐ１０２”，“Ｐ１０３”，“Ｐ１０４”，“Ｐ１０５”，…といった具合に順に、ＩＤ（識別符号）が付与され、その検出された注視行動の対象が何であるか、そして、それが行われた時点がいつであるのかが、注視対象情報として出力される。

図２の例はＩＤが“Ｐ１０１”の情報は、注視対象が“擬人化イメージ”であり、発生時点は“ｔ３”であり、ＩＤが“Ｐ１０２”の情報は、注視対象が“他人物”であり、発生時点は“ｔ１０”であり、ＩＤが“Ｐ１０６”の情報は、注視対象が“出力領域”であり、発生時点は“ｔ２２ａ”であるといったことを示している。

図１における他メディア入力部１０２は、種々の入力デバイスから得られる利用者からの入力情報を取得するためのものであって、その詳細な構成例を図３に示す。

すなわち、他メディア入力部１０２は、図３に示すように、入力デバイス部とデータ処理部とに別れており、これらのうち、データ処理部の構成要素としては、音声認識装置１０２ａ、文字認識装置１０２ｂ、言語解析装置１０２ｃ、操作入力解析装置１０２ｄ、画像認識装置１０２ｅ、ジェスチャ解析装置１０２ｆ等かが該当する。また、入力デバイス部の構成要素としては、マイク（マイクロフォン）１０２ｇ、キーボード１０２ｈ、ペンタブレット１０２ｉ、ＯＣＲ（光学文字認識装置）１０２ｊ、マウス１０２ｋ、スイッチ１０２ｌ、タッチパネル１０２ｍ、カメラ１０２ｎ、データグローブ１０２ｏ、データスーツ１０２ｐ、さらにはアイトラッカ、ヘッドトラッカ、対人センサ、着席センサ、…等が該当する。

これらのうち、音声認識装置１０２ａは、マイク１０２ｇの音声出力信号を解析して単語の情報にして順次出力する装置であり、文字認識装置１０２ｂは、ペンタブレット１０２ｉやＯＣＲ１０２ｊから得られる文字パターン情報を基に、どのような文字であるかを認識し、その認識した文字情報を出力するものである。

また、言語解析装置１０２ｃは、キーボード１０２ｈからの文字コード情報、音声認識装置１０２ａや文字認識装置１０２ｂからの文字情報を基に、言語解析して利用者の意図する内容を利用者入力情報として出力する装置である。

また、操作入力解析装置１０２ｄは、マウス１０２ｋやスイッチ１０２ｌ、あるいはタッチパネル１０２ｍなどによる利用者の操作情報を解析して、利用者の意図する内容を利用者入力情報として出力する装置である。また、画像認識装置１０２ｅは、逐次、カメラ１０２ｎで得た利用者の画像から、利用者のシルエットや、視線、顔の向き等を認識してその情報を出力する装置である。

また、データグローブ１０２ｏは、各所に各種センサを設けたものであり、利用者の手に当該グローブをはめることにより、指の曲げや指の開き、指の動き等の情報を出力することができる装置であり、データスーツ１０２ｐは各所に各種のセンサを取り付けたもので、利用者に当該データスーツ１０２ｐを着せることにより、利用者の体の動き情報を種々得ることができるものである。

ジェスチャ解析装置１０２ｆは、これらデータスーツ１０２ｐやデータグローブ１０２ｏからの情報、あるいは画像認識装置１０２ｅからの情報を基に、使用者の示した行動がどのようなジェスチャであるかを解析してその解析したジェスチャ対応の情報を利用者入力情報として出力するものである。

すなわち、他メディア入力部１０２は、マイク１０２ｇや、カメラ１０２ｎ、キーボード１０２ｈ、タッチパネル１０２ｍ、ペンタブレット１０２ｉ、そして、マウス１０２ｋ（あるいはトラックボール）などのポインティングデバイス、あるいはデータグローブ１０２ｏや、データスーツ１０２ｐ、さらにはアイトラッカ、ヘッドトラッカ、ＯＣＲ１０２ｊ、そして、さらには図３には示さなかったが、対人センサ、着席センサ、などを含め、これらのうちの少なくとも一つの入力デバイスを通じて得られる利用者からの音声情報、視覚情報、操作情報などの入力に対して、取り込み、標本化、コード化、ディジタル化、フイルタリング、信号変換、記録、保存、パターン認識、言語／音声／画像／動作／操作の解析、理解、意図抽出など、少なくとも一つの処理を処理を行なうことによって利用者からの装置への入力である利用者入力情報を得る様にしている。

なお、図３は、他メディア入力部の構成の一例を示したものに過ぎず、その構成要素およびその数およびそれら構成要素間の接続関係はこの例に限定されるものではない。

図１における擬人化イメージ提示部１０３は、身振り、手振り、顔表情の変化などのジェスチャを、利用者に対して像として提示するための装置であり、図４に擬人化イメージ提示部１０３の出力を含むディスプレイ画面の例を示す。

図４において、１０３ａは擬人化イメージを提示するための表示領域であり、１０２ｂは情報を出力するための表示領域である。擬人化イメージ提示部１０３は、マルチモーダル対話装置が利用者に対して対話する上で、提示したい意図を、身振り、手振り、顔表情の変化などのジェスチャのかたちで画像提示できるようにしており、後述の制御部１０７からの制御によって、“肯定”や、“呼掛け”、“音声を聞きとり可能である”こと、“コミュニケーションが失敗した”ことなどを適宜、利用者にジェスチャ画像で提示するようにしている。

従って、利用者はこのジェスチャ画像を見ることで、今どのような状態か、直感的に認識できるようになるものである。すなわち、ここでは人間同士の対話のように、状況や理解の度合い等をジェスチャにより示すことで、機械と人とのコミュニケーションを円滑に行い、意志疎通を図ることができるようにしている。

図１における情報出力部１０４は、利用者に対して、“文字”、“静止面画”、“動画像”、“音声”、“警告音”、“力”などの情報提示を行なう装置であり、図５にこの情報出力部１０４の構成例を示す。

図５に示すように、情報出力部１０４は文字画像信号生成装置１０４ａ、音声信号生成駆動装置１０４ｂ、機器制御信号生成装置１０４ｃ等から構成される。これらのうち、文字画像信号生成装置１０４ａは、制御部１０７からの出力情報を基に、表示すべき文字列の画像信号である文字時画像信号を生成する装置であり、また、音声信号生成駆動装置１０４ｂは制御部１０７からの出力情報を基に、利用者に伝えるべき音声の信号を生成してマルチモーダル対話装置の備えるスピーカやヘッドホーン、イヤホン等の音声出力装置に与え、駆動するものである。また、機器制御信号生成装置１０４ｃは、制御部１０７からの出力情報を基に、利用者に対する反応としての動作を物理的な力で返すフォースディスプレイ（提力装置）に対する制御信号や、ランプ表示などのための制御信号を発生する装置である。

このような構成の情報出力部１０４では、利用者への出力すべき情報として、当該情報出力部１０４が接続されるマルチモーダル対話装置の構成要素である問題解決装置やデータベース装置などから渡される出力情報を受け取り、文字および画像ディスプレイや、スピーカやフォースディスプレイ（提力装置）などの出力デバイスを制御して、利用者へ、文字、静止面画、動画像、音声、警告音、力など情報提示を行なう様にしている。

すなわち、マルチモーダル対話装置は、利用者が投げかける質問や、要求、要望、戸惑い等を解釈して解決しなければならない問題や為すべき事柄を解釈し、その解を求める装置である問題解決装置や、この問題解決装置の用いるデータベース（知識ベースなども含む）を備える。そして、問題解決装置やデータベース装置などから渡される出力情報を受け取り、文字および画像ディスプレイや、スピーカやフォースディスプレイ（提力装置）などの出力デバイスを制御して、利用者へ、“文字”、“静止面画”、“動画像”、“音声”、“警告音”、“力”など様々な意志伝達手段を活用して情報提示を行なうものである。

また、図１における注意喚起部１０５は、利用者に対して呼び掛けや警告音を発するなどして注意を喚起する装置である。この注意喚起部１０５は、制御部１０７の制御に従って、利用者に対し、警告音や、呼掛けのための特定の言語表現や、利用者の名前などを音声信号として提示したり、画面表示部に文字信号として提示したり、ディスプレイ画面を繰り返し反転（フラッシュ）表示させたり、ランプなどを用いて光信号を提示したり、フォースディスプレイを用いることによって、物理的な力信号を利用者に提示したり、あるいは擬人化イメージ提示部１０３を通じて、例えば身振り、手振り、表情変化、身体動作を摸した画像情報などを提示するといったことを行い、これによって、利用者の注意を喚起するようにしている。

なお、この注意喚起部１０５は、独立した一つの要素として構成したり、あるいは、利用者への注意喚起のための信号の提示を出力部１０４を利用して行なうように構成することも可能である。

図１における反応検知部１０６はマルチモーダル対話装置からのアクションに対して、利用者が何らかの反応を示したか否かを検知するものである。この反応検知１０６は、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段を用いて、注意喚起部１０５により利用者に注意喚起の提示をした際に、利用者が予め定めた特定の操作を行ったり、予め定めた特定の音声を発したり、予め定めた特定の身振り手振りなどを行なったりしたことを検知したり、あるいは、注視対象検出部１０１から得られる注視対象情報を参照することによって、利用者が注意喚起のための信号に反応したかどうかを判断し、利用者反応情報として出力する様にしている。

なお、この反応検知部１０６は、独立した一つの部品として構成することも、あるいは、他メディア入力部１０２に機能として組み込んで実現することも可能である。

図１における制御部１０７は、本システムの各種制御や、演算処理、判断等を司どるもので、本システムの制御、演算の中枢を担うものである。

なお、この制御部１０７が本装置の他の構成要素を制御することによって、本発明装置の動作を実現し、本発明装置の効果を得るものであるので、この制御部１０７の処理の手順については後で、その詳細に触れることとする。

図６に制御部１０７の内部構成例を示す。図に示すように、制御部１０７は、制御処理実行部２０１、制御規則記憶部２０２、および解釈規則記憶部２０３などから構成される。

これらのうち、制御処理実行部２０１は、内部に各要素の状態情報を保持するための状態レジスタＳと、情報種別を保持する情報種レジスタＭとを持ち、また、本マルチモーダル対話装置の各構成要素の動作状況、注視対象情報、利用者反応情報、出力情報など、各構成要素からの信号を受け取ると共に、これらの信号と、状態レジスタＳの内容と、制御規則記憶部２０２および解釈規則記憶部２０３の内容を参照して、後述の処理手順Ａに沿った処理を行ない、得られた結果対応に本マルチモーダルインタフェース装置の各構成要素への制御信号を出力することによつて、本マルチモーダルインタフェース装置の機能と効果を実現するものである。

また、制御規則記憶部２０２は所定の制御規則を保持させたものであり、また、解釈規則記憶部２０３は、所定の解釈規則を保持させたものである。

図７は、制御規則記憶部２０２に記憶された制御規則の内容例を表している。ここでは、各制御規則の情報が、“規則ＩＤ”、“現状態情報Ａ”、“イベント条件情報Ｂ”、“アクションリスト情報Ｃ”、“次状態情報Ｄ”などに分類され記録されるようにしている。

制御記憶記憶部２０２の各エントリに於いて、“規則ＩＤ”には制御規則毎の識別記号が記録される。

また、“現状態情報Ａ”の欄には、対応するエントリの制御規則を適用するための条件となる状態レジスタＳの内容に対する制限が記録され、“イベント情報Ｂ”の欄には、対応するエントリの制御規則を適用するための条件となるイベントに対する制限が記録されるようにしている。

また、“アクションリスト情報Ｃ”の欄には、対応する制御規則を適応した場合に、行なうベき制御処理に関する情報が記録されており、また、“次状態情報Ｄ”の欄には、対応するエントリの制御規則を実行した場合に、状態レジスタＳに更新値として記録すべき状態に関する情報が記録されるようにしている。

具体的には、制御記憶記憶部２０２の各エントリに於いて、“規則ＩＤ”には“Ｑ１”，“Ｑ２”，“Ｑ３”，“Ｑ４”，“Ｑ５”，…といった具合に制御規則毎の識別記号が記録される。また、“現状態情報Ａ”には、“入出力待機”，“入力中”，“可否確認中”，“出力中”，“準備中”，“中断中”，“呼掛中”，…といった具合に、それぞれの規則ＩＤによるエントリの制御規則を適用するための条件として状態レジスタＳの内容が、どのようなものでなければならないかを規則ＩＤ対応に設定してある。

また、“イベント条件情報Ｂ”は、“入力要求”，“出力制御受信”，“出力開始要求”，“出力準備要求”，“入力完了”，…といった具合に、対応するエントリの制御規則を適用するための条件となるイベントがどのようなものでなければならないかを規則ＩＤ対応に設定してある。また、“アクション情報Ｃ”は、“［入力受付ＦＢ入力受付開始］”，“［］”，“［出力開始］”，“［出力可否］”，“［入力受付停止入力完了ＦＢ］”，“［入力受付停止取消ＦＢ提示］”，“［出力開始］”，“［呼掛け］”，…といった具合に、対応する制御規則を適用した場合に、どのようなアクションを行うのかを規則ＩＤ対応に設定してある。

なお、“アクション情報Ｃ”の欄に記録される制御処理のうち、“［入力受付ＦＢ（フィードバック）］”は利用者に対して、本装置の他メディア入力部１０２からの入力が可能な状態になったことを示すフィードバックを提示するものであり、例えば文字列や、面像情報あるいはチャイムや肯定の意味を持つ相槌など音声などの音信号を提示したり、あるいは擬人化イメージ提示部１０３を通じて利用者へ視線を向けたり、耳に手を当てるジェスチャを表示するなどを利用者へ提示する処理を表している。

また、“［入力完了ＦＢ（フィードバック）］”と“［確認受領ＦＢ（フィードバック）］”は、利用者に対してコミュニケーションが正しく行なわれたこと、あるいは利用者への呼掛けに対する利用者からの確認の意図を正しく受け取ったことを表すフィードバックを提示する処理である。

なお、“アクションリスト情報Ｃ”の欄に記録される制御処理のうち、“［入力受付ＦＢ（フィードバック）］”は利用者に対して、本装置の他メディア入力部１０２からの入力が可能な状態になったことを示すフィードバックを提示するものであり、その提示方法としては例えば“文字列”や、“面像情報”で提示したり、あるいは“チャイム”や肯定の意味を持つ“相槌”の音声などのように、音信号で提示したり、あるいは擬人化イメージ提示部１０３を通じて利用者へ視線を向けたり、耳に手を当てるジェスチャの画像を表示するなど、利用者に対しての反応を提示する処理を表している。

また、“［入力完了ＦＢ（フィードバック）］”と“［確認受領ＦＢ（フィードバック）］”は、利用者に対してコミュニケーションが正しく行なわれたこと、あるいは利用者への呼掛けに対する利用者からの確認の意図を正しく受け取ったことを表すフィードバックを提示する処理であり、“［入力受付ＦＢ（フィードバック）］”と同様に、音や音声や文字や画像による信号を提示したり、あるいは擬人化イメージ提示部１０３を通じて、例えば「うなづき」などのジェスチャを提示する処理を表している。

また、“［取消ＦＢ（フィードバック）］”は、利用者とのコミュニケーションにおいて、何らかの問題が生じたことを示すフィードバックをを利用者に提示する処理であり、警告音や、警告を意味する文字列や画像を提示したり、あるいは、擬人化イメージ提示部１０３を通じて、例えば手の平を上にした両手を曲げながら広げるジェスチャを提示する処理を表している。

また、“［入力受付開始］”、および“［入力受付停止］”はそれぞれ、他モード入力部１０２の入力を開始、および停止する処理であり、同様に“［出力開始］”、“［出力中断］”、“［出力再開］”、“［出力停止］”は情報出力部１０４からの利用者への情報の出力を、それぞれ開始、中断、再開、および停止する処理を表している。

また、“［出力可否検査］”は、注視対象検出部１０１から出力される注視対象情報と、解釈規則記憶部２０３の内容を参照して、利用者へ提示しようとしている情報を、現在利用者に提示可能であるかどうかを調べる処理を表している。

また、“［呼掛け］”は、利用者へ情報を提示する際に、利用者の注意を喚起するためにに、例えば警告音を提示したり、呼掛けの間投詞音声を提示したり、利用者の名前を提示したり、画面をフラッシュ（一次的に繰り返し反転表示させる）させたり、特定の画像を提示したり、あるいは擬人化イメージ提示部１０３を通じて、例えば手を左右に振るジェスチャを提示する処理を表している。

“［入力受付ＦＢ（フィードバック）］”と同様に、音や音声や文字や画像による信号を提示したり、あるいは擬人化イメージ提示部１０３を通じて、例えば「うなづき」などのジェスチャを提示する処理を表している。

また、“［取消ＦＢ（フィードバック）］”は、利用者とのコミュニケーションにおいて、何らかの問題が生じたことを示すフィードバックをを利用者に提示する処理であり、警告音や、警告を意味する文字列や画像を提示ししたり、あるいは、擬人化イメージ提示部１０３を通じて、例えば手の平を上にした両手を曲げながら広げるジェスチャを提示する処理を表している。

また、“［呼掛け］”は、利用者へ情報を提示する際に、利用者の注意を喚起するために、例えば警告音を提示したり、呼掛けの間投詞音声を提示したり、利用者の名前を提示したり、画面をフラッシュ（一次的に反転表示させる）させたり、特定の画像を提示したり、あるいは擬人化イメージ提示部１０３を通じて、例えば手を左右に振るジェスチャを提示する処理を表している。

また、“次状態情報Ｄ”は、“入力中”，“可否確認中”，“出力中”，“準備中”，“入出力待機”，“呼掛中”，…といった具合に、対応するエントリの制御規則を実行した場合に、状態レジスタＳに更新値として記録すべき情報（状態に関する情報）を規則ＩＤ対応に設定してある。

従って、“規則ＩＤ”が“Ｑ１”のものは、対応するエントリの制御規則を適用する条件となる状態レジスタＳの内容が“入出力待機”であり、“Ｑ１”なるエントリが発生したときは、状態レジスタＳの内容が“入出力待機”であれば、イベントとして“入力要求”が起こり、このとき、“入力受付フィードバックと入力受付開始”という制御処理を行って、状態レジスタＳには“入力中”なる内容を書き込んで、“入出力待機”から“入力中”なる内容に当該状態レジスタＳの内容を更新させる、ということがこの制御規則で示されていることになる。

同様に“規則ＩＤ”が“Ｑ５”のものは、対応するエントリの制御規則を適用する条件となる状態レジスタＳの内容が“入力中”であり、“Ｑ５”なるエントリが発生したときは、状態レジスタＳの内容が“入力中”であれば、イベントとして“入力完了”が起こり、このとき“入力受付停止と入力完了フィードバック”という制御処理を行って、状態レジスタＳはその内容を“入出力待機”に改める、ということがこの制御規則で示されていることになる。

図８は、解釈規則記憶部２０３の内容例を表しており、各解釈規則に関する情報が、“現状態情報Ａ”、“注視対象情報Ｂ”、“入出力情報種情報Ｃ”、および“解釈結果情報Ｄ”などに分類され記録されるようにしている。

解釈規則記憶部２０３の各エントリにおいて、“規則ＩＤ”の欄には、対応する規則の識別記号が記録されている。また、“現状態情報Ａ”の欄には対応する解釈規則を適応する場合の、状態レジスタＳに対する制約が記録されている。

また、“注視対象情報Ｂ”の欄には、注視対象検出部１０１から受け取り、制御処理実行部２０１によって解釈を行なう、注視対象情報の“注視対象情報Ａ”の欄と比較照合するための注視対象に関する情報が記録されている。

また、“入出力情報Ｃ”の欄には、入力時には利用者から入力される情報の種類に対する制約が、また出力時には利用者へ提示する情報の種類に関する制約が記録されるようにしている。

そして、“解釈結果情報Ｄ”の欄には、受け取った注視対象情報に対してその解釈規則を適用した場合の解釈結果が記録されるようにしている。

具体的には、“規則ＩＤ”には、“Ｒ１”，“Ｒ２”，“Ｒ３”，“Ｒ４”，“Ｒ５”，“Ｒ６”，…といった具合に、対応する規則の識別符号が記録される。また、“現状態情報Ａ”には“入出力待機”，“入力中”，“可否確認中”，“出力中”，“準備中”，“中断中”，…といった具合に、対応する解釈規則を適応する場合に、状態レジスタＳの保持している情報の持つべき内容が記録されている。

また、“注視対象情報Ｂ”には、“入力要求領域”，“擬人化イメージ”，“マイク領域”，“カメラ領域”，“出力要求領域”，“キャンセル要求領域”，“出力要求領域以外”，“他人物”，“出力領域”，“装置正面”，…といった具合に、注視対象検出部１０１から受け取り、制御処理実行部２０１によって解釈を行なう、注視対象情報の“注視対象情報Ａ”の欄と比較照合するための注視対象に関する情報が記録されている。

また、“入出力情報種情報Ｃ”には、“音声情報”，“視覚情報”，“動画情報”，“動画情報以外”，“静止画情報”，…といった具合に、入力時においては利用者から入力される情報の種類に対する制約が、また出力時には利用者へ提示する情報の種類に関する制約が記録される。

そして、“解釈結果情報Ｄ”には、“入力要求”，“出力準備”，“取消要求”，“要中断”，“開始可能”，“再会可能”，“確認検出”，…といった具合に、受け取った注視対象情報に対してその解釈規則を適用した場合の解釈結果が記録される。

従って、例えば、“規則ＩＤ”が“Ｒ２”である規則を適用する場合は、状態レジスタＳの内容が“入出力待機”である必要があり、注視対象領域は“擬人化イメージ”であり、入力時及び出力時は“音声情報”を使用し、解釈結果は“入力要求”であることを示している。

以上が制御部１０７の構成である。

続いて、本発明装置において、中心的な役割を演じる制御処理実行部２０１での処理の詳細について説明する。

制御部１０７の構成要素である制御処理実行部２０１での処理は下記の処理手順Ａに沿って行なわれる。

なお、図９は処理手順Ａの流れを表すフローチャートである。

＜処理手順Ａ＞［ステップＡ１］まずはじめに、制御処理部２０１は初期化処理をする。この初期化処理は状態レジスタＳと情報種レジスタＭを初期状態に設定するもので、この初期化処理により状態レジスタＳには「入出力待機」なる内容の情報が設定され、情報種レジスタＭには、「未定義」なる内容の情報が設定され、他メディア入力部１０２が入力非受付状態にされる（初期化）。

［ステップＡ２］初期化が済んだならば、入力／出力の判断がなされる。本制御部１０７への入力を待ち、入力があった場合には、その入力が注視対象検出部１０１からであった場合、すなわち、注視対象検出部１０１からその検出出力である注視対象情報Ｇｉが送られて来た場合は、注視情報解釈処理を行うステップＡ３へと進む。また、本発明では直接関係ないので詳細は説明しないが、マルチモーダル対話装置の主要な構成要素となる問題解決装置あるいは、データベース装置、あるいはサービス提供装置から、本制御部１０７に出力情報Ｏｊが与えられた時は、入力／出力判断ステップであるステップＡ２ではステップＡ１２へと処理を移す。

すなわち、制御部１０７ではＡ２において、解決装置やデータベース装置あるいはサービス提供装置から出力情報Ｏｊが与えられたときは、ステップＡ１２に進む。出力情報Ｏｊは情報出力部１０４を用いて、利用者へ情報出力を行なうための制御信号であり、利用者へ提示すべき情報内容Ｃｊと、情報の種類である情報種別Ｍｊを含む（入力／出力判定）。

［ステップＡ３］ここでの処理は注視情報解釈であり、状態レジスタＳの内容、および注視対象情報Ｇｉの内容、および情報種レジスタＭの内容と、解釈規則記憶部２０３の各エントリの“現状態情報Ａ”の内容、および“注視注対象情報Ｂ”の内容、および“入出力情報種情報Ｃ”とを、それぞれ比較照合することで、解釈規則中で条件が適合する解釈規則Ｒｉ（ｉ＝１，２，３，４，５…）を探す（注視情報解釈）。

［ステップＡ４］ステップＡ３において、条件が適合する解釈規則Ｒｉが見つからない場合には、ステップＡ１１へ進み、見つかった場合はステップＡ５に進む（解釈可能判定）。

［ステップＡ５］見つかった解釈規則Ｒｉに対応する“解釈結果情報Ｄ”を参照し、当該“解釈結果情報Ｄ”に記述されている解釈結果Ｉｉを得る。そして、ステップＡ６に進む（解釈結果決定）。

［ステップＡ６］状態レジスタＳの内容、および解釈結果Ｉｉを、制御規則記憶部２０２の“現状対情報Ａ”の内容、および“イベント条件情報Ｂ”の内容と、それぞれ比較照合することで、対応する制御規則Ｑｉを探す。そして、ステップＡ７に進む（制御規則検索）。

［ステップＡ７］ステップＡ６の処理において、条件に適合する解釈規則Ｑｉが見つからなかった場合には、ステップＡ１１へ進む。一方、条件に適合する解釈規則Ｑｉが見つかった場合にはステップＡ８に進む（制御規則有無判定）。

［ステップＡ８］ここでは制御規則Ｑｉの、“アクション情報Ｃ”の欄を参照して、実行すべき制御処理のリスト［Ｃｉ１．Ｃｉ２、…］を得る。そして、ステップＡ９に進む（制御処理リスト取得）。

［ステップＡ９］実行すべき制御処理のリスト［Ｃｉ１．Ｃｉ２、…］が得られたならば、この得られた制御処理のリスト［Ｃｉ１．Ｃｉ２、…］の各要素について、順次＜処理手順Ｂ＞（後述）に従い制御処理を実行する（各制御処理実行）。

［ステップＡ１０］状態レジスタＳに、Ｑｉの“次状態情報Ｄ”の内容を記録する。そして、ステップＡ１１に進む（状態更新）。

［ステップＡ１１］注視対象情報Ｇｉに関する処理を終了し、ステップＡ２へ戻る（リターン処理）。

［ステップＡ１２］ステップＡ２において、出力情報Ｏｊが与えられた時は、制御部１０７はステップＡ１２の処理に進むが、このステップでは情報種レジスタＭに、その出力情報Ｏｊの情報種別Ｍｊを記録し、制御規則記憶部２０２に記憶されている制御規則を参照し、その中の“現状状態Ａ”の内容が状態レジスタＳの内容と一致し、かつ“イベント条件情報Ｂ”の内容が「出力制御受信」であるエントリＱｋ（ｋ＝１，２，３，４，５，…）を探す。そして、ステップＡ１３の処理に移る（制御規則検索）。

［ステップＡ１３］ここでは、ステップＡ１２において、Ｑ１からＱｘの規則ＩＤの中から、条件に適合する制御規則ＩＤＱｋ（ｋ＝１，２，３，４，…ｋ−１，ｋ、ｋ＋１，ｋ＋２，…ｘ）が見つからない場合には、ステップＡ１７へ進み、条件に適合する制御規則Ｑｋが見つかった場合はステップＡ１４に進む（該当する制御規則の有無判定）。

［ステップＡ１４］ステップＡ１４では、制御規則記憶部２０２にある制御規則中の“アクション情報Ｃ”のうち、見つかった制御規則Ｑｋに対応する“アクション情報Ｃ”を参照して、実行すべき制御処理のリスト［Ｃｋ１．Ｃｋ２、…」を得る（制御処理リスト取得）。

［ステップＡ１５］制御処理のリスト［Ｃｋ１、Ｃｋ２、…」の各要素について、順次＜処理手順Ｂ＞（後述）に従い制御処理を実行する（各制御処理実行）。

［ステップＡ１６］そして、状態レジスタＳに、Ｑｋなる規則ＩＤに対応する“次状態情報Ｄ”の内容を記録する（状態更新）。

［ステップＡ１７］情報情報Ｏｊに関する処理を終了し、ステップＡ２へ戻る（リターン処理）。

以上が、処理手順Ａの内容であり、入ってきた情報が、利用者からのものであるか、利用者に対して提示するものであるかを判定し、前者（利用者からの情報）であれば注視情報を解釈し、解釈結果を決定し、その決定した解釈結果に対応する制御規則を検索し、該当の制御規則があればどのような制御をするのかを制御規則中からリストアップし、そのリストアップされた制御内容の制御を実施し、また、後者（利用者に対して提示するもの）であれば出力のための制御規則を検索し、該当制御規則があればどのような制御をするのかを制御規則中からリストアップし、そのリストアップされた制御内容の出力制御処理を行うようにしたもので、音声や、映像、カメラ、キーボードやマウス、データグローブなど、様々な入出力デバイスと解析処理や制御技術を用いてコミュニケーションを図る際に、人間同士のコミュニケーションのように、何に注意を払って対話を進めれば良いかをルールで決めて、対話の流れと用いたデバイスに応じて、使用すべき情報とそれ以外の情報とに分け、対話のための制御を進めていくようにしたから、雑音成分の取り込みを排除できて、誤動作を防止できるようにし、また、状況に応じて、注意を喚起したり、理解度や対話の状況、反応を擬人化画像でジェスチャ表示したりして、自然な対話を可能にした。

次に処理手順Ｂを説明する。処理手順Ｂでは、アクション情報の内容に応じて次のような提示動作や制御動作をする。

＜処理手順Ｂ＞［ステップＢ１］まず、アクション情報である制御処理Ｃｘが「入力受付ＦＢ」である場合は、例えば「入力可能」といった文字列や、「マイクに丸印の付された絵」といった画像情報や、あるいはチャイム音や、肯定の意味を持つ「はい」といった相槌などを、音声や文字で提示したり、あるいは擬人化イメージ提示部１０３を通じて利用者へ視線を向けたり、耳に手を当てるジェスチャを表示する。

［ステップＢ２］制御処理Ｃｘが「入力完了ＦＢ」である場合は、例えば「入力完了」といった文字列や、「マイクに×印の絵」といった画像情報や、あるいは「チャイム音」や、肯定の意味を持つ「はい」や、「判りました」といった相槌などを、音声や文字で提示したり、あるいは擬人化イメージ提示部１０３を通じて利用者へ視線を向ける画像を提示したり、うなづく画像を提示したりといった具合にジェスチャを画像で表示する。

［ステップＢ３］制御処理Ｃｘが、「受領確認ＦＢ」である場合は、例えば「確認」といった文字列や、画像情報や、あるいはチャイム音や、肯定の意味を持つ「はい」や、「判りました」といった相槌などを、音声や文字で提示したり、あるいは擬人化イメージ提示部１０３を通じて利用者へ視線を向けたり、うなづくなどの画像を用いてジェスチャを表示する。

［ステップＢ４］制御処理Ｃｘが、「取消ＦＢ」である場合は、警告音や、警告を意味する文字列や、記号や、画像を提示したり、あるいは、擬人化イメージ提示部１０３を通じて、例えば手の平を上にした両手を曲げながら広げるといった具合の画像を用いてジェスチャを提示する。

［ステップＢ５］制御処理Ｃｘが、「入力受付開始」および、「入力受付停止」である場合は、他モード入力部１０２からの入力をそれぞれ、開始および停止する。

［ステップＢ７］制御処理Ｃｘが、「出力開始」、「出力中断」、「出力再開」、および「出力停止」である場合は、情報出力部１０４からの利用者への情報の出力を、それぞれ開始、中断、再開、および停止する。

［ステップＢ８］制御処理Ｃｘが、「呼掛け」である場合は、例えば警告音を提示したり、例えば「もしもし」などの呼掛けの間投詞音声を提示したり、利用者の名前を提示したり、画面をフラッシュ（一次的に反転表示させる）させたり、特定の画像を提示したり、あるいは擬人化イメージ提示部１０３を通じて、例えば手を左右に振るジェスチャを提示する。

なお、情報種レジスタＭには、利用者へ提示しようとする際に、出力情報の種類が適宜記録されるようにしている。

以上が本装置の構成とその機能である。

＜具体例を用いた説明＞続いて、上述したマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について、さらに詳しく説明する。

ここでは、利用者の視線および頭部方向検機能と、本装置の前にいる利用者と他人を認識する人物認識出機能を持つ注視対象抽出部１０１と、他メディア入力手段１０２としての音声入力部と、身振り、手振り、表情変化によるジェスチャを利用者に提示可能な擬人化イメージ提示部１０３と、情報出力部１０４としての文字情報および静止画像情報および動画像情報の画像出力と音声出力部を持つ装置を利用者が使用する場面を、具体例として説明を行なう。

なお、図１０は、各時点における本装置の内部状態を表している。

［ｔ０］制御部１０７では“処理手順Ａ”におけるステップＡ１の処理によって、状態レジスタＳおよび情報種レジスタＭにそれぞれ「入出力待機」と「未定義」が記録され、これにより他メディア入力手段１０２の構成要素の一つである音声入力部は「入力非受付」の状態となる。

［ｔ１］ここで、本装置の周囲でノイズ（雑音）が発生したとする。しかし、音声入力は非受付の状態であるので、このノイズを音声として拾うことはなく、従って、ノイズによる誤動作は起こらない。

［ｔ２］つづいて、擬人化イメージ提示部１０３の顔を見ることで、利用者が音声入力の開始を試みる。すなわち、擬人化イメージ提示部１０３には図４に示すように、利用者とジェスチャをまじえたコミュニケーションをとることができるようにディスプレイ画面に受付嬢の画像を提示する擬人化イメージ提示部１０２ａがあり、また、文字や映像等で情報を出力するために、情報出力領域１０２ｂがある。この擬人化イメージ提示部１０３には、初期の段階では図１１（ａ）に示すような待機状態の受付嬢の上半身の姿が提示されるように制御されている。従って、利用者は無意識のうちにこの受付嬢の姿を目で注視することになる。

［ｔ３］注視対象検出部１０１が、これを検知して、注視対象情報として、図２のＩＤ＝Ｐ１０１の欄に示した、注視対象情報を出力する。

［ｔ４］ “処理手順Ａ”におけるステップＡ２での判断によって、ステップＡ３へ進み、解釈規則記憶部２０３から対応する解釈規則が検索され、またこのとき、“状態レジスタＳ”の内容が「入出力待機」であり、かつＩＤ＝Ｐ１０１の注視対象情報の“注視対象情報Ａ”が「擬人化イメージ」であることから、図８に示した解釈規則記憶部２０３から、規則ＩＤ＝Ｒ２の解釈規則が抽出される（図８における“規則ＩＤ”が“Ｒ２”の該当する“解釈結果情報Ｄ”である「入力要求」という解釈結果情報が抽出される）。

［ｔ５］ “処理手順Ａ”におけるステップＡ５によって、“解釈規則Ｒ２”の“解釈結果情報Ｄ”の内容から、解釈結果として「入力要求」が得られる。

［ｔ６］ “処理手順Ａ”におけるステップＡ６の処理によって、制御規則記憶部２０２からの検索が行なわれ、現状態情報（図２の“注視対象情報Ａ”）が「入力待機」であり、かつ、イベン卜条件情報（図２の“時間情報Ｂ”）が「入力要求」であることから、図７の“規則ＩＤ”が［Ｑ１］なるＩＤの制御規則が選択され、ステップＡ８の処理によって、“制御規則Ｑ２”の対応の“アクション情報Ｃ”の内容として、“［入力受付ＦＢ、入力受付開始］”を得る。

［ｔ７］ “処理手順Ａ”におけるステップＡ９の処理および、“処理手順Ｂ”での処理によって、例えば、擬人化イメージ提示部１０３を通じて、図１１（ｂ）の如き「耳に手をかざす」ジェスチャの画像が利用者に提示されるとともに、「はい」という音声が利用者に提示され、音声入力の受付が開始され、ステップＡ１０，ステップＡ１１によって、状態レジスタＳおよび情報種レジスタＭの内容が更新される。

［ｔ８］利用者からの音声入力が完了し、制御信号（イベン卜）として「入力完了」が制御部に通知され、“処理手順Ａ”に従った処理により、解釈規則Ｑ５が選択／実行され、音声入力が非受付となった後、“処理手順Ｂ２”によって、例えば「入力完了」といった文字列や、マイクに×印の絵といった画像情報や、あるいはチャイム音が利用者に提示される。

以上例示した処理によって、“音声入力が必要でない場面”では入力を“非受付”としておくことによって、ノイズなどによる誤動作を防ぐことが出来、また“音声入力が必要な場面”では、単に擬人化イメージの方を向くだけで音声入力が可能となり、
さらに、そのときジェスチャなどにより利用者へフィードバックを提示することによって、音声入力の受付状態が変更されたことが利用者に判るようになることによって、誤動作がなく、しかも、特別な操作による負担がなく、人間同士の対話での方法と同じであるために、自然で、習得や余分な負担が必要のないヒューマンインタフェースにふさわしいマルチモーダルインタフェースを実現している。

［ｔ９］つづいて、利用者ではない他の人物ｘが利用者に近付き、利用者がその人物ｘの方向を向いたとする。

［ｔ１０］ここで、注視対象検出部１０１が、これを検知して、注視対象情報として、図２の“注視対象情報ＩＤ”のうち、“Ｐ１０２”なるＩＤの欄に示した、“注視対象情報Ａ”である「他人物」なる注視対象情報を出力する。

［ｔ１１］時点ｔ４と同様の処理が行なわれるが、この場合の条件に適合する解釈規則は存在しないから、ステップＡ１１へ進み、この注視対象情報に関する処理は終了する。

［ｔ１２］さらに、利用者が“人物ｘ”の方向を向いたままの状態であるときに、制御部１０７に対して、例えば、情報種別Ｍ＝「動画情報」である出力情報Ｏｊを利用者に提示するための出力制御信号が与えられたとする。

［ｔ１３］ “制御手順Ａ”におけるステップＡ２によって、ステップＡ１２へ進み、情報種レジスタＭに「動画情報」が記録され、制御規則記憶部２０２を参照し、“現状態情報Ａ”が、状態レジスタＳの内容「入出力待機」と一致し、かつ“イベント条件情報Ｂ”が、「出力制御受信」であるエントリとして、規則ＩＤ＝Ｑ２の制御規則が抽出される。

［ｔ１４］ “制御手順Ａ”におけるステップＡ１３〜Ａ１７の処理を経ることによって、“制御規則Ｑ２”の対応する“アクション情報Ｃ”から、「実行すべき制御処理はない」ことが判り、ステップＡ１６の処理によって、“制御規則Ｑ２”の対応する“次状態情報Ｄ”を参照し、状態レジスタＳに「可否確認中」が記録され、ステップＡ２の処理へと進む。

［ｔ１５］続いて、利用者が“人物Ｘ”の方向を向いていることから、注視対象検出部１０１から、図２の注視対象情報ＩＤのうち、“Ｐ１０３”なるＩＤを持つ注視対象情報が得られる。

［ｔ１６］ “処理手順Ａ”におけるステップＡ２〜Ａ５の処理を経ることによって、状態レジスタＳの内容が「可否確認中」であり、かつ注視対象情報Ｐ１０３の“注視対象情報Ａ”が「他人物」であり、かつ情報種レジスタＭの内容が「動画像情報」であることから、図８の規則ＩＤ＝Ｒ１１のエントリが抽出され、解釈結果として、「出力不能」が得られる。

［ｔ１７］ “処理手順Ａ”のステップＡ６〜Ａ９の処理を経ることによって、時点ｔ６〜ｔ８と様の処理により“制御規則Ｑ９”が選択され、処理手順ＢのステップＢ８の処理によって、利用者に対して、例えば、画面フラッシュや名前の呼掛けが行なわれる。

［ｔ１８］ここで利用者が、動画情報が提示される画面領域を向くことによって、注視対象検出部１０１から、図２における“Ｐ１０４”なる注視対象ＩＤの注視対象情報が出力され、上述の場合と同様の処理によって、“解釈規則Ｒ２２”から、解釈結果として「確認検出」が得られ、図７の“制御規則Ｑ１４”によって、その“アクション情報Ｃ”から、制御処理として、［確認受領ＦＢ提示、出力開始］なるアクション情報が得られる。

［ｔ１９］ “処理手順Ａ”におけるステップＡ９および“処理手順Ｂ”におけるステップＢ３の処理によって、例えば、「はい」といった相槌などが音声や文字で利用者に提示されたあと、“処理手順Ｂ”のステップＢ７の処理によって利用者に提示すべき動画情報の出力が開始され、ステップＡ１０で状態レジスタＳの内容が「出力中」に更新される。

以上の処理によって、本装置では、利用者の注視対象、および提示する情報の種類に応じて、適切に出力の開始を制御し、また、利用者への呼掛けと、その呼掛けに対する利用者の反応に応じて各部を制御することによって、利用者の注意が別に向いており、かつその状態で情報の提示を開始すると、提示する情報の一部あるいは全部を利用者が受け取れなくなるという問題を解消している。

［ｔ２０］さらに、この動画情報の提示中に利用者が再度、他の“人物Ｘ”の方を向き、それが注視対象検出部１０１によって検知され、注視対象情報ＩＤが“Ｐ１０１”なる注視対象情報が出力されたとする。

［ｔ２１］その結果、解釈規則記憶部２０３の持つ図８の記憶情報のうちの“解釈規則Ｒ１４”により、「要中断」なる“解釈結果情報Ｄ”が得られ、制御規則記憶部２０２の記憶情報中の当該「要中断」なる“イベント条件情報Ｂ”に対応する制御規則である“制御規則Ｑ１１”なる規則ＩＤの制御規則により、出力が中断され、状態レジスタが「中断中」となる。

［ｔ２２ａ］その後、利用者が再度出力領域を注視すれば、“注視対象情報Ｐ１０６”が出力され、“解釈規則Ｒ１９”と、“制御規則Ｑ１２”により出力が再開される。

［ｔ２２ｂ］あるいは、例えば、利用者がそのまま他に注意を向け続けた場合には、予め定めた時間の経過などによって、中断タイムアウトの制御信号が出力され、“制御規則Ｑ１３”によって、動画像の出力の中断その報告がなされる。

以上示した通り、本装置によって、利用者の注意の向けられる対象である注視対象と、装置の動作状況と、提示する情報の種類や性質に応じて、適切に情報の提示を制御することによって、注意を逸らした状態では正しく受け取ることが困難な情報を、利用者が受け取り損なうという問題や、情報の出力を中断したり、あるいは中断した出力を再開する際に特別な操作を行なう必要があるために利用者の負担が増加するという問題を解決することが出来る。

さらに、上記の動作例には含まれてないが、図７の制御規則Ｑ４、Ｑ１２、Ｑ１３などを使用することによって、例えば動画情報などのように利用者が出力領域を注視していない状態で、出力を開始すると、提示情報の一部あるいは全部を利用者が受け取り損なう恐れのある情報を提示する際、情報の出力要求があった時点では出力を開始せず、状態を準備中として待機し、注視対象情報から利用者が出力対象領域を注視したことを知った段階で、解釈規則Ｒ１３、Ｒ１４、Ｒ１５などを利用することによって、情報提示が開始可能であることを検知し、その時点で情報の提示を開始することで、これらの問題を回避することも可能である。

あるいは、解釈規則Ｒ３、解釈規則Ｒ４、解釈規則Ｒ１８、解釈規則Ｒ２１などを用いることによって、例えば、マイクを注視したら音声入力が受付られるように構成したり、カメラを注視したら画像入力が開始されるようにしたり、あるいはスピーカを注視したら、音声出力が開始されるように構成することも可能である。

なお、以上はマルチモーダル対話装置としての具体例であるが、前述の通り、本発明のインタフェースとしての構成要素部分は、本実施例のマルチモーダル対話装置から、それぞれ必要な構成要素とその機能を抽出し組み合わせることによって、実現可能である。

具体的には、課題を解決するための手段の項における［１］の発明の装置は、注視対象検出部１０１と、他メディア入力部１０２、および制御部１０７を組み合わせることによって実現可能である。

また、［２］の発明および［４］の発明の装置は、これらに擬人化イメージ提示部１０３を加えることによって実現可能であり、また、［３］の発明の装置は、［４］の発明の装置において、擬人化イメージ提示部１０３を通じてなされる、利用者へのフィードバックの提示を、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示する機能を追加することによって実現することができる。

また、［５］の発明の装置は、注視対象検出部１０１と、情報出力部１０４、および制御部１０７を組み合わせることで実現でき、［６］の発明の装置は、［５］の発明の装置に、注意喚起部１０５を追加することによつて実現することができ、［７］の発明の装置は、［６］の発明の装置に、反応検知部１０６を追加することによって実現できる。以上が本装置の構成と機能である。

なお、第１の実施例に示した本発明は方法としても適用できるものであり、また、上述の具体例の中で示した処理手順、フローチャート、解釈規則や制御規則をプログラムとして記述し、実装し、汎用の計算機システムで実行することによっても同様の機能と効果を得ることが可能である。

すなわち、本発明は汎用コンピュータにより実現することも可能で、この場合、図１２に示すように、ＣＰＵ３０１，メモリ３０２，大容量外部記憶装置３０３，通信インタフェース３０４などからなる汎用コンピュータに、入力インタフェース３０５ａ〜３０５ｎと、入力デバイス３０６ａ〜３０６ｎ、そして、出力インタフェース３０７ａ〜３０７ｍと出力デバイス３０８ａ〜３０８ｍを設け、入力デバイス３０６ａ〜３０６ｎとして、マイクやキーボード、ペンタブレット、ＯＣＲ、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツといったものを使用し、そして、出力デバイス３０８ａ〜３０８ｍとして、ディスプレイ、スピーカ、フォースディスプレイ、等を用いてＣＰＵ３０１によるソフトウエア制御により、上述の如き動作を実現することができる。

以上、バックグラウンド（ｉ）に関わるその解決策を提示した。

本実施例によれば、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識の発生や、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号のなかから、利用者が入力メッセージとして意図した信号部分の切りだしに失敗することなどによる誤動作が起こらないインタフェースが実現できる。また、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自分への入力であると誤って判断をして、認識処理などを行なって、誤動作を起こり、その誤動作の取消や、誤動作の影響の復旧や、誤動作を避けるために利用者が絶えず注意を払わなくてはいけなくなるなどの負荷を解消することによって、利用者の負担を軽減することが出来る。

また、本来不要な場面には、入力信号の処理を継続的にして行なわないようにできるため、利用している装置に関与する他のサービスの実行速度や利用効率を向上することが出来る。

また、入力モードなどを変更するための特別な操作が必要なく、利用者にとって繁雑でなく、習得や訓練が必要でなく、利用者に負担を与えない人間同士の会話と同様の自然なインタフェースを実現することが出来る。

また、例えば音声入力は手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を有効に活用するインタフェースを実現することが出来る。

また、提示される情報が提示してすぐ消滅したり、刻々変化したりする一過性のメディアも用いて利用者に情報提示する際にも、利用者がそれらの情報を受け損なうことのないインタフェースを実現することが出来る。

また、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示し、継続する次の情報を提示する場合にも、特別な操作が不要なインタフェースを実現することが出来る。

また、従来のマルチモーダルインタフェース不可能であった視線一致（アイコンタクト）、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的活用することが出来る。

つまり、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、インタフェースが実現できる。

次に、上述のバックグラウンド（ｉｉ）に関わるその解決策としての発明の実施例を説明する。

利用者が入力を意図した音声やジェスチャなどの非言語メッセージを、自然且つ、円滑に入力できるようにするべく擬人化エージェントを提示することは、利用者にとって自然人との対話をしているかの如き効果があり、操作性の著しい改善が期待できるが、これを更に一歩進めて、利用者の指し示したジェスチャの指示対象を擬人化エージェントが注視するよう表示する構成とすることにより、利用者のジェスチャの指し示し先をシステムの側で認識できなくなったり、システム側での認識結果が誤っていないかなどが、利用者の側で直感的にわかるようになり、このようにすると、利用者にとって、自然人の案内係が一層懇切丁寧に応対してくれているかの如き操作性が得られ、操作にとまどったり、操作上、無用に利用者に負担をかける心配が無くなる。そこで、次にこのようなシステムを実現するための実施例を第２の実施例として説明する。

（第２の実施例）ここでは、利用者が入力を意図した音声やジェスチャなどの非言語メッセージを、自然且つ、円滑に入力できるようにするべく、利用者からのジェスチャ入力を検知した際に、擬人化エージェントの表情によって、ジェスチャ入力を行う手などを随時注視したり、あるいは指し示しジェスチャに対して、その参照対象を注視することによって、利用者へ自然なフィードバック（すなわち、システム側から利用者に対する認識状況対応の反応）を提示できるようにし、さらに、その際、利用者や擬人化エージェン卜の視界、あるいは参照対象等の空間的位置を考慮して、擬人化エージェントを適切な場所に移動、表示するよう制御できるようにした例を説明する。

また、この第２の実施例では、その目的として、機器の装着や機器の接触操作による指示は勿論のこと、これに加えて一つは離れた位置からや、機器に非接触で、かつ、機器を装着せずとも、遠隔で指し示しジェスチャを行い、認識させることも可能であり、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を抑制することができるようにする実施例を示す。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているか否かが分からないため、結果として誤認識を引きおこしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして生じる利用者の負担を抑制するため、このようなことを未然に防ぐことができるようにする技術を示す。

また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することを可能にする技術提供するものである。さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができるようにする。

さらに、擬人化インタフェースを用いたインタフェース装置、およびインタフェース方法で、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが出来るようにする。

以下、図面を参照して本発明の第２の実施例に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式につき説明する。はじめに構成を説明する。

＜構成＞図１３は、本発明の第２の実施例にかかるマルチモーダルインタフェース装置の構成の概要を表すブロック図であり、図１３に示す如く本装置は、入力部１１０１、認識部１１０２、フィードバック生成部１１０３、出力部１１０４、配置情報記憶部１１０５、および制御部１１０６から構成される。

このうち、入力部１１０１は、当該マルチモーダルインタフェース装置の利用者からの音声信号、あるいは画像信号、あるいは操作信号などの入力を随時、取り込むことができるものであり、利用者からの音声入力を取り込むマイクロフォン、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは利用者の手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち少なくとも一つからなるものである。

そして、利用者からの入力として音声入力を想定する場合には、入力部１１０１は、例えば、マイクロフォン、アンプ、アナログ／デジタル（Ａ／Ｄ）変換装置などから構成されることとなり、また利用者からの入力として、画像入力を想定する場合には、入力部１１０１は、例えば、カメラ、ＣＣＤ素子（固体撮像素子）、アンプ、Ａ／Ｄ変換装置、画像メモリ装置などから構成されることとなる。

また、認識部１１０２は、入力部１１０１から入力される入力信号を随時解析し、例えば、利用者の意図した入力の時間的区間あるいは空間的区間の抽出処理や、あるいは標準パターンとの照合処理などによって認識結果を出力するものである。

より具体的に説明すると当該認識部１１０２は、音声入力に対しては、例えば、時間当たりのパワーを計算することなどによって音声区間を検出し、例えばＦＦＴ（高速フーリエ変換）などの方法によって周波数分析を行い、例えばＨＭＭ（隠れマルコフモデル）や、ニューラルネットワークなどを用いて照合弁別処理や、あるいは標準パターンである音声辞書との、例えばＤＰ（ダイナミックプログラミング）などの方法を用いた照合処理によって、認識結果を出力するようにしている。

また、画像入力に対しては、例えば“ＵｎｃａｌｉｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉｏｎｗｉｔｈＰｏｉｎｔｉｎｇｆｏｒａＭａｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ”（Ｒ．Ｃｉｐｏｌｌａ，ｅｔ．ａｌ．，ＰｒｏｃｅｅｄｉｎｇｓｏｆＭＶＡ′９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＶｉｓｉｏｎＡｐｐｌｌｃａｔｉｏｎ，ｐｐ．１６３−１６６，１９９４．）に示された方法などを用いて、利用者の手の領域を抽出し、その形状、空間位置、向き、あるいは動きなどを認識結果として出力するようにしている。

図１４は、画像入力を想定した場合の実施例の入力部１１０１および認識部１１０２の内部構成の例を表している。

図１４において、１２０１はカメラ、１２０２はＡ／Ｄ変換部、１２０３は画像メモリであり、入力部１１０１はこれらにて構成される。カメラ１２０１は、利用者の全身あるいは、例えば、顔や手などの部分を撮影し、例えばＣＣＤ素子などによって画像信号を出力するようにしている。また、Ａ／Ｄ変換部１２０２は、カメラ１２０１から得られる画像信号を変換し、例えばビットマップなどのデイジタル画像信号に変換する様にしている。また、画像メモリ１２０３は、Ａ／Ｄ変換部１２０２から得られるディジタル画像信号を随時記録するようにしている。

また、図１４において１２０４は注目領域推定部、１２０５は認識辞書記憶部、１２０６は照合部であり、これら１２０４〜１２０６にて認識部１１０２は構成される。

認識部１１０２の構成要素のうち、注目領域推定部１２０４は、画像メモリ１２０３の内容を参照し、例えば差分画像や、オプティカルフローなどの手法によって、例えば、利用者の顔や目や口、あるはジェスチャ入力を行っている手や腕などといった注目領域情報を抽出するようにして構成されている。また、認識辞書記憶部１２０５は、認識対象の代表画像や、抽象化された特徴情報などを、あらかじめ用意した標準パターンとして記憶するものである。また、照合部１２０６は、画像メモリ１２０３と、注目領域推定部１２０４から得られる注目領域情報の内容と認識辞書記憶部１２０５の内容とを参照し、例えば、パターンマッチングや、ＤＰ（ダイナミックプログラミング）や、ＨＭＭ（隠れマルコフモデル）や、ニューラルネットなどの手法を用いて両者を比較照合し、認識結果を出力するものである。

なお、注目領域推定部１２０４および照合部１２０６の動作状況は、動作状況情報として制御部１１０６に随時通知されるようにしている。また、注目領域推定部１２０４および照合部１２０６は、両者の処理を一括して行う同一のモジュールとして実現することも可能である。

以上が、入力部１１０１と認識部１１０２の詳細である。

再び、図１３の構成に戻って説明を続ける。図１３におけるフィードバック生成部１１０３は、利用者ヘフィードバックとして提示すべき情報を生成するものであり、例えば、利用者に対する注意喚起や、システムの動作状況を知らせるために、予め用意した警告音や、文字列、画像を選択したりあるいは、動的に生成したり、あるいは、提示すべき文字列から合成音声技術を利用して音声波形を生成したり、あるいは第１の実施例に示した「マルチモーダル対話装置及びマルチモーダル対話方法」での擬人化イメージ提示部１０３や、あるいは本発明者等が提案し、特許出願した「身体動作生成装置および身体動作動作制御方法（特願平８−５７９６７号）」に開示した技術等と同様に、例えば、ＣＧ（コンピュータグラフィックス）を用いて、利用者と対面し、サービスを行う「人間」、「動物、」あるいは「ロボット」など、擬人化されたキャラクタが、例えば顔表情や身振り、手振りなどを表現した静止画像あるいは動画像を生成したりするようにしている。

また、出力部１４０４は、例えば、ランプ、ＣＲＴディスプレイ、ＬＣＤ（液晶）ディスプレイ、プラズマディスプレイ、スピーカ、アンプ、ＨＭＤ（へッドマウントディスプレイ）、提力ディスプレイ、ヘッドフォン、イヤホン、など少なくとも一つの出力装置から構成され、フィードバック生成部１１０３によって生成された、フィードバック情報を利用者に提示するようにしている。

なお、ここではフィードバック生成部１１０３で音声信号が生成されるマルチモーダルインタフェース装置を実現する場合には、例えばスピーカなど音声信号を出力するための出力装置によって出力部１１０４が構成され、また、フィードバック生成部１１０３において、例えば、擬人化イメージが生成されるマルチモーダルインタフェース装置を実現する場合には、例えばＣＲＴディスプレイによって出力部１１０４が構成される。

また、配置情報記憶部１１０５は、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置に関する情報である位置情報を得、入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持するようにすると共に、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、例えば、利用者の指し示しジェスチャの対象である参照物を、随時注視する表情を提示するなど利用者にフィードバックを提示する方式にする場合に使用される。

配置情報記憶部１１０５には、例えば、利用者からの実世界への指し示しジェスチャを装置が受け付ける場合に、利用者に対して提示するフィードバック情報の生成の際に参照される出力部１１０４の空間位置から指し示す際に必要となる方向情報算出用の出力部１１０４の空間位置あるは配置方向などの情報（利用者に対して提示するフィードバック情報生成の際に参照される空間位置情報あるいは方向情報であって、入力部１１０１から入力され、認識部１１０２によって認識されて出力される参照物位置情報に含まれる利用者の意図した参照先の空間位置を、出力部１１０４の空間位置から指し示す際に必要となる方向情報の算出のための出力部１１０４の空間位置、あるは配置方向などの情報）が記録されるようにしている。

図１５は、この配置情報記憶部１１０５の保持内容の例を表している。

図１５に示す一例としての配置情報記憶部１１０５の各エントリには、本装置の構成要素である認識部１１０２によって得られる指示場所、指示対象および利用者の手や顔の位置、および指し示しジェスチャの参照先の位置、および方向などに関する情報が、「ラベル情報Ａ」、「代表位置情報Ｂ」、「方向情報Ｃ」などと分類され、随時記録されるようにしている。

ここで、配置情報記憶部１１０５の各エントリにおいて、「ラベル情報Ａ」の欄には該エントリにその位置情報および方向情報を記録している場所や物を識別するためのラベルが記録される。また、「代表位置情報Ｂ」の欄には対応する場所あるいはものの位置（座標）が記録される。また、「方向情報Ｃ」の欄には、対応する場所あるいはものの方向を表現するための方向ベクトルの値が、必要に応じて記録される。

なお、これら「代表位置情報Ｂ」および「方向情報Ｃ」はあらかじめ定めた座標系（世界座標系）に基づいて記述されるようにしている。

また、図１５の各エントリにおいて、記号「−」は対応する手間の内容が空であることを表し、また記号「〜」は本実施例の説明において不要な情報を省略したものであることを表し、また記号「：」は本発明の説明において不要なエントリを省略して表しているものとする（以下同様）。

また、図１３における制御部１１０６は、本発明システムにおける入力部１１０１、認識部１１０２、フィードバック部１１０３、出力部１１０４、および配置情報記憶部１１０５などの各構成要素の動作及びこれら要素間で入出力される情報の授受などの制御を司るものである。

なお、本システムにおいては制御部１１０６の動作が本発明システムの実現に重要な役割を担っているので、この動作については後に詳しく述べることとする。

以上が本システムの装置構成とその機能である。つづいて、制御部１１０６の制御によってなされる本発明システムの処理の流れについて説明する。

＜制御部１１０６による制御内容＞制御部１１０６の制御による本発明システムの処理の流れについて説明する。なお、ここからは、入力部１１０１として、図１４に示したようにカメラ１２０１による画像入力手段を有すると共に、また、例えば、“ＵｎｃａｌｉｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉｏｎｗｉｔｈＰｏｉｎｔｉｎｇｆｏｒａＭａｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ”（Ｒ．Ｃｉｐｏｌｌａ，ｅｔ．ａｌ．，ＰｒｏｃｅｅｄｉｎｇｓｏｆＭＶＡ’９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏ，ｐｐ．１６３−１６６，１９９４．）に示された方法などによって、実世界の場所あるいは物への利用者の指し示しジェスチャを認識し、利用者の指し示しジェスチャの参照対象の位置、および利用者の顔の位置及び向きなどを出力する認識部１１０２を持ち、かつ、例えば第１の実施例において説明した「マルチモーダル対話装置及びマルチモーダル対話方法」での擬人化イメージ提示部１０３や、あるいは既に特許出願済みの技術である「身体動作生成装置および身体動作動作制御方法（特願平８−５７９６７号）」に開示されている技術等と同様に、例えばＣＧ（コンピュータグラフィックス）を用いて、利用者と対面し、サービスを行う人間、動物、あるいはロボットなど、擬人化されたキャラクタによって指定した方向へ視線を向けた顔表情や、「驚き」や「謝罪」を表す顔表情や身振りや、ジェスチャを持つ擬人化エージェントの表情あるいは動作などの静止画像あるいは動画像を生成するフィードバック生成部１１０３を持ち、かつ少なくとも一つの例えばＣＲＴディスプレイなどによる出力部１１０４を持つマルチモーダルインタフェース装置を例題として、本発明の実施例を説明することとする。

第２の実施例システムにおける制御部１１０６は下記の“＜処理手順ＡＡ＞”、“＜処理手順ＢＢ＞”、“＜処理手順ＣＣ＞”、“＜処理手順ＤＤ＞”、および“＜処理手順ＥＥ＞”に沿った処理に従った制御動作をする。

ここで、“＜処理手順ＡＡ＞”は、「処理のメインルーチン」であり、“＜処理手順ＢＢ＞”は、「擬人化エージェントから利用者のジェスチャ入力位置が注視可能か否かを判定する」処理手順であり、“＜処理手順ＣＣ＞”は、「ある擬人化エージェントの提示位置Ｌｃを想定した場合に、利用者から擬人化エージェントを観察可能であるかどうかを判定する」ための手順であり、“＜処理手順ＤＤ＞”は、「ある擬人化エージェントの提示位置Ｌｄを想定した場合に、擬人化エージェントから、現在注目しているある指し示しジェスチャＧの指示対象Ｒが注視可能であるか否かの判定をする」処理手順であり、“＜処理手順ＥＥ＞”は「注視対象Ｚを注視する擬人化エージェントの表情」を生成する擬人化エージェント表情生成手順である。

＜処理手順ＡＡ＞［ステップＡＡ１］：認識部１１０２の動作状況情報から、利用者がジェスチャ入力（Ｇｉ）の開始を検知するまで待機し、検知したならばステップ（ＡＡ２）へ進む。

［ステップＡＡ２］： “＜処理手順ＢＢ＞”により、「現在の擬人化エージェントの提示位置Ｌｊから、ジェスチャ入力Ｇｉが行われている場所Ｌｉを擬人化エージェントから注視可能である」と判断されており、かつ、“＜処理手順ＣＣ＞”により「提示位置Ｌｊに提示されている擬人化エージェントを、利用者が観察可能である」と判断された場合にはステップＡＡ６へ進み、そうでない場合はステップＡＡ３へ進む。

［ステップＡＡ３］：配置情報記憶部１１０５を参照し、全ての提示位置に対応するエントリに対して順次、“＜処理手順ＢＢ＞”と“＜処理手順ＣＣ＞”を用いた条件判断を実施することによって、「ジェスチャ入力Ｇｉが行われている場所Ｌｉを、擬人化エージェントが注視可能」であり、かつ「利用者から擬人化エージェントを観察可能」であるような擬人化エージェントの提示位置Ｌｋを探す。

［ステップＡＡ４］：提示位置Ｌｋが見つかったならば、ステップＡＡ５へ進み、見つからない場合は、ステップＡＡ７へ進む。

［ステップＡＡ５］：出力部１１０４を制御し、擬人化エージェントを提示位置Ｌｋへ移動する。

［ステップＡＡ６］：フィードバック生成部１１０３と出力部１１０４を制御し、“＜処理手順ＥＥ＞”によってジェスチャ入力が行われている場所Ｌｉを注視する擬人化エージェントの表情を生成し、提示し、ステップ（ＡＡ１２）ヘ進む。

［ステップＡＡ７］： “＜処理手順ＣＣ＞”によって、「利用者から擬人化エージェントを観察可能」であるかどうかを調べ、その結果、観察可能であれば、ステップＡＡ１１へ進み、そうでなければ、ステップＡＡ８へ進む。

［ステップＡＡ８］：配置情報記憶部１１０５を参照し、全ての提示位置に対応するエントリに対して順次、“＜処理手順ＣＣ＞”を用いた条件判断を実施することによって、利用者から擬人化エージェントを観察可能であるような擬人化エージェントの提示位置Ｌｍを探す。

［ステップＡＡ９］：提示位置Ｌｍが存在する場合は、ステップＡＡ１０に進み、そうでない場合はステップＡＡ１２へ進む。

［ステップＡＡ１０］：出力部１１０４を制御し、擬人化エージェン卜を、提示位置Ｌｍへ移動する。

［ステップＡＡ１１］：フィードバック生成部１１０３を制御し、「現在、システムが利用者からの指し示しジェスチャ入力を受付中」であることを表す、例えば「うなづき」などの表情を生成し、出力部１１０４を制御して利用者に提示する。

［ステップＡＡ１２］：もし、入力部１１０１あるいは認識部１１０２から得られる動作状況情報により、ジェスチャＧｉ入力を行っている場所Ｌｉが、入力部１１０１の観察範囲から逸脱したならばステップＡＡ１３へ進み、そうでない場合、ステップＡＡ１４へ進む。

［ステップＡＡ１３］：フィードバック生成部１１０３を制御し、現在システムが受け取り途中であった、利用者からの指し示しジェスチャ入力の解析失敗を表す、例えば「驚き」などの表情を生成し、出力部１１０４を制御して、利用者に提示し、ステップＡＡ１へ進む。

［ステップＡＡ１４］：認識部１１０２から得られる動作状況情報から、利用者が入力してきたジェスチャ入力Ｇｉの終了を検知した場合は、ステップＡＡ１５ヘ進み、そうでない場合はステップＡＡ２６へ進む。

［ステップＡＡ１５］：認識部１１０２から得られるジェスチャ入力Ｇｉの認識結果が、指し示しジェスチャ（ポインティングジェスチャ）であった場合はステツプＡＡ１６へ進み、そうでない場合はステップＡＡ２１ヘ進む。

［ステップＡＡ１６］： “＜処理手順ＤＤ＞”によって擬人化エージェントから、指し示しジェスチャＧｉの指示対象Ｒｌを注視可能であると判断され、かつ“＜処理手順ＣＣ＞”によって、利用者から擬人化エージェン卜を観察可能であると判定された場合には、ステップＡＡ２０へ進み、そうでなければ、ステップＡＡ１７へ進む。

［ステップＡＡ１７］：配置情報記憶部１１０５を参照し、全ての提示位置に対応するエントリに対して、順次、“＜処理手順ＤＤ＞”および“＜処理手順ＣＣ＞”を用いた条件判断を行うことによって、擬人化エージェントから、指し示しジェスチャＧｉの指示対象Ｒｌが注視可能であり、かつ利用者から擬人化エージェントを観察可能であるような、擬人化エージェントの提示位置Ｌｎを探す。

［ステップＡＡ１８］：提示位置Ｌｎが存在する場合は、ステップＡＡ１９へ進み、そうでない場合はステップＡＡ２１へ進む。

［ステップＡＡ１９］：出力部１１０４を制御し、擬人化エージェントを、提示位置Ｌｎへ移動する。

［ステップＡＡ２０］： “＜処理手順ＥＥ＞”を用いて、フィードバック生成部１１０３を制御し、ジェスチャＧｉの参照先Ｒｌを注視する擬人化エージェント表情を生成し、出力部１１０４を制御して利用者に提示し、ステップＡＡ１ヘ進む。

［ステップＡＡ２１］： “＜処理手順ＣＣ＞”によって、「利用者から擬人化エージェントを観察可能」であるかどうかを調べ、その結果、観察可能であればステップＡＡ２５へ進み、そうでなければステップＡＡ２２へ進む。

［ステップＡＡ２２］：配置情報記憶部１１０５を参照し、全ての提示位置に対応するエントリに対して、順次、“＜処理手順ＣＣ＞”を用いた条件判断を実施することにより、利用者から擬人化エージェントを観察可能であるような擬人化エージェン卜の提示位置Ｌｏを探す。

［ステップＡＡ２３］：提示位置Ｌｏが存在する場合は、ステップＡＡ２４へ進み、そうでない場合はステップＡＡ１へ進む。

［ステップＡＡ２４］：出力部１４０４を制御し、擬人化エージェントを提示位置Ｌｏへ移動する。

［ステップＡＡ２５］：次に制御部１１０６はフィードバック生成部１１０３を制御し、「現在システムが利用者からの指し示しジェスチャ入力を受付中」であることを表す例えば、「うなづき」などの表情を生成し、出力部１１０４を制御して利用者に提示し、ステップＡＡ１の処理へ戻る。

［ステップＡＡ２６］：制御部１１０６は認識部１１０２から得られる動作状況情報から、利用者から入力受付中のジェスチャ入力の解析に失敗したことが判明した場合には、ステップＡＡ２７へ進み、そうでない場合はステップＡＡ１２ヘ進む。

［ステップＡＡ２７］：制御部１１０６はフィードバック生成部１１０３を制御し、システムが利用者からのジェスチャ入力の解析に失敗したことを表す、「謝罪」などの表情を生成し、さらに出力部１１０４を制御して、利用者に提示し、ステップＡＡ１へ戻る。

なお、図１７は、制御部１１０６による以上の“＜処理手順ＡＡ＞”をフローチャートの形で表現したものであり、記号「Ｔ」の付与された矢印線は分岐条件が成立した場合の分岐方向を表し、記号「Ｆ」が付与された矢印線は分岐条件が成立しなかった場合の分岐方向を表すものとする。また、図１８〜図２０に図１７のフローチャートの部分詳細を示す。

次に“＜処理手順ＢＢ＞”を説明する。当該“＜処理手順ＢＢ＞”では以下の手順を実行することによって、ある擬人化エージェントの提示位置Ｌｂを想定した場合に、擬人化エージェントから、例えば、利用者の指の先端など、ジェスチャ入力Ｇが行われている位置Ｌｇが注視可能であるかどうかの判定を行う。

＜処理手順ＢＢ＞［ステップＢＢ１］：制御部１１０６は配置情報記憶部１１０５を参照し、提示位置Ｌｂに対応する“エントリＨｂ”を得る。

［ステップＢＢ２］：また、配置情報記憶部１１０５を参照し、ラベル情報Ａの欄を調べることによって、ジェスチャが行われている位置Ｇに対応する“エントリＨｇ”を得る。

［ステップＢＢ３］： “エントリＨｂ”と“エントリＨｇ”が得られると、制御部１１０６は配置情報記憶部１１０５に記憶されている“エントリＨｂ”の“代表位置情報Ｂ”の値（Ｘｂ，Ｙｂ，Ｚｂ）、および“方向情報Ｃ”の値（Ｉｂ，Ｊｂ，Ｋｂ）、および、“エントリＨｇ”の“代表位置情報Ｂ”の値（Ｘｇ，Ｙｇ，Ｚｇ）を参照し、ベクトル（Ｘｂ−Ｘｇ，Ｙｂ−Ｙｇ，Ｚｂ−Ｚｇ）とベクトル（Ｉｂ，Ｊｂ，Ｋｂ）の内積の値Ｉｂを計算する。

［ステップＢＢ４］：そして、制御部１１０６は次に当該計算結果である内積の値Ｉｂが正の値であるか負の値であるかを調べ、その結果、正の値である場合は、“エントリＨｂ”に対応する提示位置Ｌｂに提示する擬人化エージェントから、“エントリＨｇ”に対応するジェスチャＧが行われている位置Ｌｇが「注視可能」であると判断し、負である場合は「注視不可能」であると判断する。

以上により、「擬人化エージェントから利用者のジェスチャ入力位置が注視可能か否かを判定する」処理が行える。

同様に、以下の“＜処理手順ＣＣ＞”によって、ある擬人化エージェントの提示位置Ｌｃを想定した場合に、利用者から擬人化エージェントを観察可能であるかどうかの判定が行われる。

＜処理手順ＣＣ＞［ステップＣＣ１］：制御部１１０６は配置情報記憶部１１０５を参照し、提示位置Ｌｃに対応する“エントリＨｃ”を得る。

［ステップＣＣ２］：配置情報記憶部１１０５を参照し、ラベル情報Ａの内容を調べることによって、利用者の顔の位置に対応する“エントリＨｕ”を得る。

［ステップＣＣ３］： “エントリＨｃ”と“エントリＨｕ”が得られたなばらば次に制御部１１０６は配置情報記憶部１１０５をもとに“エントリＨｃ”の“代表位置情報Ｂ”の値（Ｘｃ，Ｙｃ，Ｚｃ）、および“方向情報Ｃ”の値（Ｉｃ，Ｊｃ，Ｋｃ）、および、“エントリＨｕ”の“代表位置情報Ｂ”の値（Ｘｕ．Ｙｕ．Ｚｕ）を参照し、ベクトル（Ｘｃ−Ｘｕ，Ｙｃ−Ｙｕ，Ｚｃ−Ｚｕ）とベクトル（Ｉｃ，Ｊｃ，Ｋｃ）の内積の値Ｉｃを計算する。

［ステップＣＣ４］：次に制御部１１０６は内積の値Ｉｃが正の値であるか負の値であるかを判別し、その結果、正の値である場合は、“エントリＨｃ”に対応する提示位置Ｌｃに提示する擬人化エージェントが、「利用者から観察可能」と判断し、負である場合は「観察不可能」と判断する。

また、同様に以下の“＜処理手順ＤＤ＞”によって、「ある擬人化エージェントの提示位置Ｌｄを想定した場合に、擬人化エージェントから、現在注目しているある指し示しジェスチャＧの指示対象Ｒが注視可能であるかどうか」の判定が行われる。

＜処理手順ＤＤ＞［ステップＤＤ１］：制御部１１０６は配置情報記憶部１１０５を参照し、提示位置Ｌｄに対応する“エントリＨｄ”を得る。

［ステップＤＤ２］：また、配置情報記憶部１１０５を参照し、“ラベル情報Ａ”の内容を調べることによって、“指示対象Ｒ”に対応する“エントリＨｒ”を得る。

［ステップＤＤ３］： “エントリＨｄ”と“エントリＨｒ”が得られたならば、制御部１１０６は“エントリＨｄ”の“代表位置情報Ｂ”の値（Ｘｄ，Ｙｄ，Ｚｄ）、および“方向情報Ｃ”の値（Ｉｄ，Ｊｄ，Ｋｄ）、および、“エントリＨｒ”の“代表位置情報Ｂ”の値（Ｘｒ，Ｙｒ，Ｚｒ）を参照し、ベクトル（Ｘｄ−Ｘｒ，Ｙｄ−Ｙｒ，Ｚｄ−Ｚｒ）とベクトル（Ｉｄ，Ｊｄ，Ｋｄ）の内積の値Ｉｄを計算する。

［ステップＤＤ４］：次に制御部１１０６は求められた内積の値Ｉｄが正の値であるか負の値であるかを判断する。その結果、正の値である場合は、“エントリＨｄ”に対応する“提示位置Ｌｄ”に提示する擬人化エージェントから、“エントリＨｒ”に対応する指し示しジェスチャＧの“参照先Ｒ”を「注視可能」と判断し、負である場合には「注視不可能」と判断する。

また、以下の“＜処理手順ＥＥ＞”によって、フィードバック生成部１１０３によって、ある提示位置Ｌｅを想定した際に、擬人化エージェントが、例えば、ジェスチャの行われている位置や、あるいは指し示しジェスチャの参照先などの、“注視対象Ｚ”を注視する擬人化エージェントの表情が生成される。

＜処理手順ＥＥ＞［ステップＥＥ１］：制御部１１０６は配置情報記憶部１１０５を参照し、提示位置Ｌｅに対応する“エントリＨｅ”を得る。

［ステップＥＥ２］：また、配置情報記憶部１１０５を参照し、“ラベル情報Ａ”の内容を調べることによって、注視対象ｚに対応する“エントリＨｚ”を得る。

［ステップＥＥ３］：次に制御部１１０６は“エントリＨｅ”の“代表位置情報Ｂ”の値（Ｘｅ，Ｙｅ，Ｚｅ）、および、“エントリＨｚ”の“代表位置情報Ｂ”の値（Ｘｚ，Ｙｚ，Ｚｚ）を参照し、ベクトルＶｆ＝（Ｘｅ−Ｘｚ，Ｙｅ−Ｙｚ，Ｚｅ−Ｚｅ）を得る。

［ステップＥＥ４］： “エントリＨｅ”と“ベクトルＶｆ”が求められたならば、制御部１１０６は次に“エントリＨｅ”の“方向情報Ｃ”から得られる提示位置Ｌｅの基準方向を正面とした場合で擬人化エージェントが“べクトルＶｆ”の方向を向く表情を作成する。このような表情作成には本発明者等が提案し、特許出願した例えば、「身体動作生成装置および身体動作動作制御方法（特願平８−５７９６７号）」に開示の技術などが適用可能である。

このようにして、制御部１１０６は、擬人化エージェントから利用者のジェスチャ入力位置が注視可能か否かを判定し、ある擬人化エージェントの提示位置Ｌｃを想定した場合に、利用者から擬人化エージェントを観察可能であるか否かを判断し、ある擬人化エージェントの提示位置Ｌｄを想定した場合に、擬人化エージェントから、現在注目しているある指し示しジェスチャＧの指示対象Ｒが注視可能であるか否か判断し、注視可能であれば注視対象Ｚを注視する擬人化エージェントの表情を生成する。また、注視不可能の場合や認識失敗の場合はそれを端的に示すジェスチャの擬人化エージェントを表示する。

以上が、本発明にかかるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法の構成と機能及び主要な処理の流れである。続いて、本発明にかかるマルチモーダルインタフェース装置の動作の様子を、図を参照しながら、具体例を用いて更に詳しく説明する。

＜第２の具体例装置の具体な動作例＞ここでは、カメラを用いた入力部１１０１と画像認識技術とにより、利用者の顔の位置、向き、および指し示しのためのハンドジェスチャの行われている位置、方向、および参照先の位置情報を得る認識部１１０２と、利用者とシステムとの自然な対話を進めるために重要な擬人化エージェントのＣＧを生成するフィードバック生成部１１０３と、２つのディスプレイ装置を出力部１１０４として持つ、本発明の第２の実施例に基づくマルチモーダルインタフェース装置に向かって、利用者が指し示しジェスチャ入力を行うという設定で具体的動作を説明する。

図１６は、この動作例の状況を説明する図である。図１６において、Ｘ，Ｙ，Ｚは世界座標系の座標軸を表している。また、Ｐ１，Ｐ２，Ｐ３，〜Ｐ９はそれぞれ場所であり、これらのうち、場所Ｐ１（Ｐ１の座標＝（１０，２０，４０））は、“提示場所１”の代表位置を表しており、場所Ｐ１から描かれた矢印Ｖ１（Ｖ１の先端位置座標＝（１０，０，１））は、“提示場所１”の法線方向を表すベクトルである。

同様に、場所Ｐ２（Ｐ２の座標＝（−２０，０，３０））は、“提示位置２”の代表位置を表しており、場所Ｐ２から描かれた矢印Ｖ２（Ｖ２の先端位置座標＝（１０，１０，−１））は、“提示場所２”の法線方向を表すベクトルである。

また、場所Ｐ３（Ｐ３の座標＝（４０，３０，５０））は、認識部１１０２から得られる現在の利用者の顔を代表位置を表しており、場所Ｐ３から描かれた矢印Ｖ３（Ｖ３の先端位置座標＝（−４，−３，−１０））は、利用者の顔の向きを表すベクトルである。また、場所Ｐ４（Ｐ４の座標＝（４０，１０，２０））は、ある時点（Ｔ２〜Ｔ８）において、利用者が指し示しジェスチャを行った際の指の先端位置を表しており、場所Ｐ４から描かれたＶ４（Ｖ４の先端位置座標＝（−１，−１，−１））は、その指し示しジェスチャの方向を表すベクトルである。

また、場所Ｐ５（Ｐ５の座標＝（２０，１０，２０））は、ある時点（Ｔ１４〜Ｔ１５）において、利用者が指し示しジェスチャを行った際の指の先端位置を表しており、場所Ｐ５から描かれたＶ５（Ｖ５の先端位置座標＝（−１，−１，−１））は、その指し示しジェスチャの方向を表すべクトルである。

また、場所Ｐ８（Ｐ８の座標＝（３０，０，１０））は、ある時点（Ｔ２〜Ｔ８）において、利用者が行った指し示しジェスチャの指示対象である“物体Ａ”の代表位置を表している。また、場所Ｐ９（Ｐ９の座標＝（０，−１０，０））は、ある時点（Ｔ１４〜Ｔ１５）において、利用者が行った指し示しジェスチャの指示対象である“物体Ｂ”の代表位置を表している。

なお、以上の代表位置および方向に関する情報は、予め用意されるか、あるいは入力部１１０１から得られる画像情報などを解析する認識部１１０２によって検知され、配置情報記憶部１１０５に随時記録されるようにしている。

続いて、処理の流れに沿って説明を行う。

＜処理例１＞ここでは、利用者が指し示しジェスチャ入力を行った際に、そのフィードバック情報として、参照先を注視する擬人化エージェントの表情を利用者に提示するための処理例を説明する。

［Ｔ１］：最初、場所Ｐ１に対応する“提示場所１”に擬人化エージェントが表示されているものとする。

［Ｔ２］：ここで、利用者が“物体Ａ”への指し示しジェスチャ（Ｇ１とする）を開始したとする。

［Ｔ３］：入力部１１０１からの入力画像を解析する認識部１１０２が、ジェスチャＧ１の開始を検知して、動作状況情報として制御部１１０６に通知する。

［Ｔ４］：制御部１１０６では“＜処理手順ＡＡ＞”のステップＡＡ１からＡＡ２へと処理を進める。

［Ｔ５］：制御部１１０６はステップＡＡ２の処理においてで、まず、図１５に示した配置情報記憶部１１０５の“エントリＱ１”と“エントリＱ４”を参照した“＜処理手順ＢＢ＞”に基づく処理によって、現在の擬人化エージェントの提示位置Ｐ１から、ジェスチャＧ１の行われている位置Ｐ４が注視可能であることが判明する。

［Ｔ６］：また、図１５に示した配置情報記憶部１１０５の“エントリＱ１”と“エントリＱ３”を参照した“＜処理手順ＣＣ＞”に基づく処理によって、現在の利用者の顔の位置であるＰ３から、現在の擬人化エージェントの提示位置Ｐ１が観察可能であることが判明する。

［ステップＴ７］：次に制御部１１０６はステップＡＡ６の処理へと進み、“＜処理手順ＥＥ＞”に基づく処理を実行することにより、フィードバック生成部１１０３により、現在利用者が行っているジェスチャＧ１を注視する擬人化エージェントの表情を生成し、出力部１１０４を通じて利用者に提示させる。

以上の処理によって、利用者がジェスチャ入力を開始した際に、フィードバック情報として、ジェスチャ入力を行っている利用者の手や指などを注視する擬人化エージェントの表情を、利用者に提示することが出来る。

［Ｔ８］：次に制御部１１０６はステップＡＡ１２の処理に移る。ここでは、ジェスチャＧ１が入力部１１０１の観察範囲から外れたか否かを判断する。

なお、ジェスチャＧ１は入力部１１０１の観察範囲から逸脱しなかっとし、その結果、ステップＡＡ１４ヘ進んだものとする。

［Ｔ９］：制御部１１０６はステップＡＡ１４において、利用者のジェスチャが終了を指示したか否かを認識部１１０２の動作状況情報から判断する。いま、ジェスチャＧ１の終了が認識部１１０２から動作状況情報として通知されたものとする。従って、この場合、ジェスチャＧ１の終了を制御部１１０６は認識する。

［Ｔ１０］：次に制御部１１０６はステップＡＡ１５の処理に移る。当該処理においては、ジェスチャが指し示しジェスチャであるかを判断する。そして、この場合、ジェスチャＧ１は指し示しジェスチャであるので、認識部１１０２から得られる動作状況情報に基づいて、ステップＡＡ１６へ進む。

［Ｔ１１］：制御部１１０６はステップＡＡ１６の処理において、まず、図１５に示した配置情報記憶部１１０５の“エントリＱ１”と“エントリＱ８”を参照した“＜処理手順Ｄ＞”に基づく処理を行う。そして、これにより、ジェスチャＧ１の指示示対象である“物体Ａ”を擬人化エージェントから注視可能であることを知る。

［Ｔ１２］：また、図１５に示した配置情報記憶部１１０５の“エントリＱ１”と“エントリＱ３”を参照した“＜処理手順ＣＣ＞”に基づく処理によって、利用者から擬人化エージェントを観察可能であることも判明し、ステップＡＡ２０への処理へと移る。

［Ｔ１３］ステップＡＡ２０において、制御部１１０６は図１５に示した配置情報記憶部１１０５の“エントリＱ１”と“エントリＱ８”を参照した“＜処理手順ＥＥ＞”に基づく処理を実施し、これによって、ジェスチャＧ１の参照先である“物体Ａ”の場所Ｐ８を注視するエージェント表情を利用者に提示させる。そして、ステップＡＡ１ヘ戻る。

以上の処理によって、利用者が指し示しジェスチャ入力を行った際に、そのフィードバック情報として、参照先を注視する擬人化エージェントの表情を利用者に提示することが可能となる。

続いて、条件の異なる別の処理例を示す。

＜処理例２＞［Ｔ２１］：利用者から、場所Ｐ９にある“物体Ｂ”を参照する、指し示しジェスチャＧ２の入力が開始され始めたとする。

［Ｔ２２］：ステップＴ２〜Ｔ７での処理と同様の処理によって、ジェスチャＧ２を注視する擬人化エージェント表情が利用者に提示される。

［Ｔ２３］：ステップＡＡ１６で、まず、図１５に示した配置情報記憶部１１０５の“エントリＱ１”と“エントリＱ９”を参照した“＜処理手順ＢＢ＞”に基づく処理によって、現在の擬人化エージェントの提示位置Ｐ１から、ジェスチャＧ２の行われている位置Ｐ９が注視不可能であることが判明する。

［Ｔ２４］：ステップＡＡ１７において、図１５に示した配置情報記憶１０５のエントリＱ１およびエントリＱ２など全ての提示位置に対応するエントリを、“＜処理手順ＤＤ＞”に基づく処理によって判定することによって、ジェスチャＧ１の指示対象である物体Ｂを、擬人化エージェントが注視可能で、かつ利用者の位置であるＰ３から観察可能な提示位置が検索され、提示位置２に対応する場所Ｐ２が得られる。

［Ｔ２５］：ステップＡＡ１９へ進み、出力部１１０４を通じて擬人化エージェントを場所Ｐ２へ移動させ、ステップＡＡ２０へ進む。

［Ｔ２６］：前記Ｔ１３と同様の処理によって、指示対象である“物体Ｂ”を注視する擬人化エージェン卜の表情が、ジェスチャＧ２に対するフィードバックとして利用者に提示される。

制御部１１０６による以上の処理の結果、利用者が行った指し示しジェスチャの参照先が擬人化エージェントから注視できない場所にあった場合でも、適切な位置に擬人化エージェントが移動されるようにしたことで、適切なフィードバックを利用者に提示することが可能となる。

その他、利用者が行ったジェスチャ入力を、擬人化エージェントが注視できない場合には、ステップＡＡ３の処理によって、適切な位置に擬人化エージェントを移動させることで、適切なフィードバックを利用者に提示することが可能となる。また、そのような移動が不可能である場合には、ステップＡＡ７〜ＡＡ１１の処理によって、「うなずき」の表情がフィードバックとして提示される。

また、利用者の行っているジェスチャ入力の途中で、例えばジェスチャ入力を行っている手が、カメラの撮影視野から外れるなどした場合には、ステップＡＡ１２〜ＡＡ１３の処理によって、「驚きの表情」がフィードバックとして利用者に提示される。

また、利用者の入力したジェスチャ入力が、指し示しジェスチャ以外の種類である場合にも、ステップＡＡ２１〜ＡＡ２５の処理によって、必要に応じて擬人化エージェントの表示位置を移動させた上で、「うなずき」の表情がフィードバックとして提示される。また、利用者の入力したジェスチャの認識に失敗した場合にも、ステップＡＡ２７の処理によって、擬人化エージェントの「謝罪」の表情がフィードバックとして利用者に提示される。

かくして、このように構成された本装置によれば、利用者が、離れた位置からや、機器に接触せずに、かつ、機器を装着せずに、遠隔で指し示しジェスチャを行うことが出来、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を抑制することが可能となる。

また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているかどうか分からないため、結果として誤認識を引き起こしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして発生する利用者の負担を抑制することができるようになる。

また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することが可能となる。さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができる。

さらに、擬人化インタフェースを用いたインタフェース装置、およびインタフェース方法では、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが可能となる。

尚、本発明にかかるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法の実施形態は、上述した例に限定されるものではない。例えば、上述の実施例では、カメラを用いて取り込んだ画像から利用者のジェスチャおよび顔等などの位置や向きの認識処理を行うようにしているが、これを例えば、磁気センサ、赤外センサ、データグローブ、あるいはデータスーツなどを用いた方法によって実現することも可能である。また、上述の実施例では、擬人化エージェントの注視の表情によって、指し示し先のフィードバックを実現しているが、例えば、擬人化エージェントが指示対象を手で指し示す動作をすることなどによって指し示し先のフィードバックを実現することも可能である。

また、上述の実施例では、一箇所の場所を指すポインティングによる指し示しジェスチャの入力を例として説明したが、例えば空間中のある広がりを持った領域を囲う動作によるサークリングジェスチャなどに対して、例えばサークリングを行っている指先を、擬人化エージェントが随時注視することなどによって、フィードバック行うよう構成することも可能である。

また、上述の実施例では、配置情報記憶部の内容のうち、例えば、出力部に関するエントリを予め用意しておくよう構成していたが、例えば、出力部などに、例えば、磁気センサなどを取り付けたり、あるいは入力部などによって周囲環境の変化を随時観察し、出力部や利用者の位置などが変更された場合に、動的に配置情報記憶部の内容を更新するように構成することも可能である。

また、上述の実施例では、利用者の指し示したジェスチャの指示対象を擬人化エージェントが注視するよう構成し、これにより、システムの側で認識できなくなったり、システム側での認識結果が誤っていないかなどが、利用者の側で直感的にわかるようにしていたが、逆にたとえば擬人化エージェントが、例えばフロッピドライブの物理的な位置を利用者に教える場合などにも、擬人化エージェントがその方向を見るように表示することで、擬人化エージェントの目配せによる指示により利用者がその対象の位置を認識し易くするように構成することも出来る。

あるいは、上述の実施例では、たとえば、利用者や擬人化エージェントから、ある位置が注視可能あるいは観察可能であるかを、それらの方向ベクトルに垂直な平面との位置関係によって判定を行っているが、例えば、円錐状の領域によって判定を行ったり、あるいは実際の人間の視界パターンを模擬した領域形状によって判定を行うよう構成することも可能である。あるいは、上述の実施例では、ＣＲＴディスプレイに表示される擬人化エージェントによる実施例を示したが、例えば、ホログラフなどの三次元表示技術を利用した出力部を用いて、本発明を実現することも可能である。

また、本発明の出力部は、一つの表示装置によって実現することも可能であるし、あるいは物理的に複数の表示装置を用いて実現することも可能であるし、あるいは物理的には一つである表示装置の複数の領域を用いて実現することも可能である。あるいは、例えば図１２に示した様な汎用コンピュータを用い、上述の処理手順に基づいて作成されたプログラムを、例えば、フロッピディスクなど外部記憶媒体に記録しておき、これをメモリに読み込み、例えば、ＣＰＵ（中央演算装置）などで実行することによっても、本発明を実現することも可能である。

以上、第２の実施例に示す本発明は、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカー、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者が装着しその動作などを取り込むデータグローブ、あるいはデータスーツ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち、少なくとも一つからなり、利用者からの入力を随時取り込んで入力情報として出力する入力手段と、該入力手段から得られる該入力情報を受け取り、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識の少なくとも一つの処理を施すことによって、該利用者からの入力を、「受付中」であること、「受け付け完了」したこと、「認識成功」したこと、あるいは「認識失敗」したことなどの如き利用者からの入力の受け付け状況情報を、動作状況情報として出力する入力認識手段と、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして利用者に提示する出力手段と、該入力認識手段から得られる該動作状況情報に応じ、該出力手段を通じて利用者にフィードバック情報を提示する制御手段とより構成したことを特徴とするものである。

あるいは、入力手段はカメラ（撮像装置）などの画像取得手段によって利用者の画像を取り込み、入力情報として例えば、アナログデジタル変換された画像情報を出力する手段を用い、入力認識手段は該入力手段から得られる該画像情報に対して、例えば前時点の画像との差分抽出やオプティカルフローなどの方法を適用することで、例えば動領域を検出し、例えばパターンマッチング技術などの手法によって照合することで、入力画像から、ジェスチャ入力を抽出し、これら各処理の進行状況を動作状況情報として随時出力する認識手段とし、制御手段は該入力認識手段から得られる該動作状況情報に応じて、文字列や画像を、あるいはブザー音や音声信号などを、例えば、ＣＲＴディスプレイやスピーカといった出力手段から出力するよう制御する手段とすることを特徴とする。さらには、入力手段から得られる入力情報、および入力認識手段から得られる動作状況情報の少なくとも一方の内容に応じて、利用者へのフィードバックとして提示すべき情報であるフィードバック情報を生成するフィードバック情報生成手段を具備する。また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者へ提示する擬人化イメージとして生成するフィードバック情報生成手段と、入力認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージの表情あるいは動作の少なくとも一方を決定し、出力手段を通じて、例えば、指し示しジェスチャの指し示し先、あるいは例えば指先や顔や目など、利用者がジェスチャ表現を実現している部位あるいはその一部など注視する表情であるフィードバック情報を生成するフィードバック情報生成手段とを更に設け、制御手段には、利用者に該フィードバック情報生成手段によって生成されたフィードバック情報を、出力手段から利用者へのフィードバック情報として提示する機能を持たせるようにしたものである。更には、入力手段の空間的位置、および出力手段の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶手段を設け、入力認識手段には、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置を表す位置情報を出力する機能を設けると共に、また、配置情報記憶手段から得られる配置情報および該入力認識手段から得られる位置情報および動作状況情報のうち、少なくとも一つを参照して擬人化エージェントの動作、あるいは表情あるいは制御タイミングの少なくとも一つを決定し、フィードバック情報として出力するフィードバック手段とを設ける構成としたものである。

そして、このような構成の本システムは、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカあるいは頭部の動きを検知するヘッドトラッカー、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどによる入力手段のうち、少なくとも一つから入力される利用者からの入力を随時取り込み、入力情報として得、これを音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識のうち、少なくとも一つの認識処理を施すことによって、該利用者からの入力に対する受付状況の情報、すなわち、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受付状況の情報を動作状況情報として得、得られた動作状況情報に基づいて、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして、利用者に提示するものである。

このように、利用者がシステムから離れた位置や、あるいは機器に非接触状態で指し示しジェスチャを認識させ、指示を入力することが出来るようになり、かつ、誤認識なくジェスチャ認識を行えて、ジェスチャ抽出の失敗を無くすことができるようになるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することができる。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点で、システムがそのジェスチャ入力を正しく抽出しているか否かを知ることができ、利用者が再入力を行わなくてはならなくなるな負担を解消できるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することができるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。

なお、第２の実施例に示した本発明は方法としても適用できるものであり、また、上述の具体例の中で示した処理手順、フローチャートをプログラムとして記述し、実装し、汎用の計算機システムで実行することによっても同様の機能と効果を得ることが可能である。すなわち、この場合、図１２に示したように、ＣＰＵ３０１，メモリ３０２，大容量外部記憶装置３０３，通信インタフェース３０４などからなる汎用コンピュータに、入力インタフェース３０５ａ〜３０５ｎと、入力デバイス３０６ａ〜３０６ｎ、そして、出力インタフェース３０７ａ〜３０７ｍと出力デバイス３０８ａ〜３０８ｍを設け、入力デバイス３０６ａ〜３０６ｎとして、マイクやキーボード、ペンタブレット、ＯＣＲ、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツといったものを使用し、そして、出力デバイス３０８ａ〜３０８ｍとして、ディスプレイ、スピーカ、フォースディスプレイ、等を用いてＣＰＵ３０１によるソフトウエア制御により、上述の如き動作を実現することができる。

すなわち、第１及び第２の実施例に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピーディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできるので、この記録媒体を用いてコンピュータにプログラムを読み込み、ＣＰＵ３０１に実行させれば、本発明のマルチモーダル対話装置が実現できることになる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明を説明するための図であって、本発明の一具体例としてのマルチモーダル装置の構成例を示す図。本発明を説明するための図であって、本発明装置において出力される注視対象情報の例を示す図。本発明を説明するための図であって、本発明装置における他メディア入力部１０２の構成例を示す図。本発明を説明するための図であって、本発明装置における擬人化イメージ提示部１０３の出力を含むディスプレイ画面の例を示す図。本発明を説明するための図であって、本発明装置における情報出力部１０４の構成例を示す図。本発明を説明するための図であって、本発明装置における制御部１０７の内部構成の例を示す図。本発明を説明するための図であって、本発明装置における制御規則記憶部２０２の内容の例を示す図。本発明を説明するための図であって、本発明装置における解釈規則記憶部２０３の内容の例を示す図。本発明を説明するための図であって、本発明装置における処理手順Ａの流れを示す図。本発明を説明するための図であって、本発明装置における各時点における本装置の内部状態を説明する図。本発明を説明するための図であって、本発明装置の擬人化イメージ提示部１０３において使用する一例として擬人化エージェント人物の画像を示す図。本発明を説明するための図であって、本発明を汎用コンピュータで実現するための装置構成例を示すブロック図。本発明を説明するための図であって、本発明の第２の実施例に関わるマルチモーダルインタフェース装置の構成例を示すブロック図。本発明を説明するための図であって、画像入力を想定した場合における第２の実施例での入力部１１０１および認識部１１０２の構成例を示すブロック図。本発明を説明するための図であって、本発明の第２の実施例における配置情報記憶部１１０５の保持内容の一例を示す図。本発明を説明するための図であって、本発明の第２の実施例における動作例を示す状況の説明図。本発明を説明するための図であって、本発明の第２の実施例における制御部１１０６における“＜処理手順ＡＡ＞”の内容例を示すフローチャート。本発明を説明するための図であって、本発明の第２の実施例における図１７のフローチャートの部分詳細を示す図。本発明を説明するための図であって、本発明の第２の実施例における図１７のフローチャートの部分詳細を示す図。本発明を説明するための図であって、本発明の第２の実施例における図１７のフローチャートの部分詳細を示す図。

符号の説明

１０１…注視対象検出部、１０２…他メディア入力部、１０２ａ…音声認識装置、１０２ｂ…文字認識装置、１０２ｃ…言語解析装置、１０２ｄ…操作入力解析装置、１０２ｅ…画像認識装置、１０２ｆ…ジェスチャ解析装置、１０２ｇ…マイク、１０２ｈ…キーボード、１０２ｉ…ペンタブレット、１０２ｊ…ＯＣＲ、１０２ｋ…マウス、１０２ｌ…スイッチ、１０２ｍ…タッチパネル、１０２ｎ…カメラ、１０２ｏ…データグローブ、１０２ｐ…データスーツ、１０３…擬人化イメージ提示部、１０４…情報出力部、１０４ａ…文字画像信号生成装置、１０４ｂ…音声信号生成駆動装置、１０４ｃ…機器制御信号生成装置、１０５…注意喚起部、１０６…反応検知部、１０７…制御部、２０１…制御処理実行部、２０２…制御規則記憶部、２０３…解釈規則記憶部、１１０１…入力部、１１０２…認識部、１１０３…フィードバック生成部、１１０４…出力部、１１０５…配置情報記憶部、１１０６…制御部、１２０１…カメラ、１２０２…Ａ／Ｄ変換部、１２０３…画像メモリ、１２０４…注目領域推定部、１２０５…照合部、１２０６…認識辞書記憶部。

Claims

利用者からの各種情報を随時取り込んで入力情報として得る入力手段と、
該入力手段から得られる該入力情報を処理して、該利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識手段と、
警告音、合成音声、文字列、画像、あるいは動画のうち、少なくとも一つを反応結果として利用者に提示する出力手段と、
前記入力認識手段から得られる動作状況情報に応じて、利用者に提示する反応結果を得るべく前記出力手段を制御する制御手段とを具備したことを特徴とするマルチモーダルインタフェース装置。
利用者からの音声入力を取り込むマイクロフォン、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは利用者の手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力手段と、
該入力手段から得られる入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、前記入力情報の種別に対応した必要な処理を施すことにより利用者からの入力の受付状況を動作状況情報として出力する入力認識手段と、
警告音、合成音声、文字列、画像のうち、少なくともいずれかにより、利用者に対する反応として利用者に提示する出力手段と、
前記入力認識手段から得られる動作状況情報に応じて、利用者に提示する反応結果を得るべく前記出力手段を制御する制御手段とを具備したことを特徴とするマルチモーダルインタフェース装置。
画像取得手段によって利用者の画像を取り込み、画像情報として出力する入力手段と、
該入力手段から得られる画像情報からジェスチャ入力を抽出し、これら各処理の進行状況を動作状況情報として随時出力する入力認識手段と、
該入力認識手段から得られる該動作状況情報に応じて、利用者による入力対応の反応を文字列、画像、あるいは音信号のいずれかで提示する手段と、
を備えることを特徴とするマルチモーダルインタフェース装置。
利用者からの音声入力を取り込むマイクロフォン、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは利用者の手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力手段と、
該入力手段から得られる入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、前記入力情報の種別に対応した必要な処理を施すことにより利用者からの入力の受付状況を動作状況情報として出力する入力認識手段と、
前記入力手段から得られる入力情報、および前記入力認識手段から得られる動作状況情報の少なくとも一方の内容に応じて、利用者へのフィードバックとして提示すべき情報を生成するフィードバック情報生成手段と、
を具備したことを特徴とするマルチモーダルインタフェース装置。
利用者と対面してサービスを提供する擬人化されたエージェント人物の画像情報を、利用者提示用の擬人化イメージとして生成するフィードバック情報生成手段と、
入力認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージの表情あるいは動作の少なくとも一方を決定し、出力手段を通じて、利用者がジェスチャ表現を実現している部位を注視する表情であるフィードバック情報を生成するフィードバック情報生成手段と、
前記フィードバック情報生成手段によって生成されたフィードバック情報を、出力手段から利用者へのフィードバック情報として提示する制御手段と、
を具備したことを特徴とする請求項４記載のマルチモーダルインタフェース装置。
入力手段の空間的位置、および出力手段の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶手段と、
利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置を表す位置情報を出力する入力認識手段と、
前記配置情報記憶手段から得られる配置情報と、前記入力認識手段から得られる位置情報と、動作状況情報との少なくとも一つを参照して、擬人化エージェントの動作、あるいは表情あるいは制御タイミングの少なくとも一つを決定し、フィードバック情報として出力するフィードバック手段と、
を具備したことを特徴とする請求項５のマルチモーダルインタフェース装置。
利用者からの音声、あるいは利用者の動作や表情などを示す画像、あるいは利用者の体の一部あるいは全体の動き、あるいは利用者の接近、離脱、着席などの検知情報のうち少なくとも一つからなり、利用者からの入力情報として出力する入力ステップと、
該入力ステップにより得られる入力情報をもとに、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、入力情報種別に応じた処理を施すことにより、該利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識ステップと、
利用者からの入力に対する反応の結果を、入力認識ステップによって得られる動作状況情報に基づいて、警告音、合成音声、文字列、画像のいずれかにより利用者に提示するステップと、
を備えることを特徴とするマルチモーダルインタフェース方法。
利用者と対面してサービスを提供する擬人化されたエージェント人物の画像情報を、入力認識ステップから得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージ情報として生成するフィードバック情報生成ステップと、
利用者からの入力がなされた時点でその反応として擬人化エージェントによる反応の表情を提示する利用者フィードバック提示ステップと、
を具備することを特徴とする請求項７記載のマルチモーダルインタフエース方法。
利用者からの音声、あるいは利用者の動作や表情などを示す画像、あるいは利用者の体の一部あるいは全体の動き、あるいは利用者の接近、離脱、着席などの検知情報のうち少なくとも一つからなり、利用者からの入力情報として出力する入力ステップと、
入力ステップにより得られる入力情報に対し、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、入力情報種別に応じた処理を施すことにより、該利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識ステップと、
利用者の入力した指し示しジェスチャの参照物、利用者、利用者の特定部位の空間位置に関する情報を出力する認識ステップと、
入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶ステップと、
利用者からの入力に対する反応の結果を、入力認識ステップによって得られる動作状況情報に基づいて、警告音、合成音声、文字列、画像のいずれかにより利用者に提示し、また、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、利用者の指し示しジェスチャに対する反応画像を提示するステップと、
からなるマルチモーダルインタフェース方法。