JP2004192653A - マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 - Google Patents
マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 Download PDFInfo
- Publication number
- JP2004192653A JP2004192653A JP2004000494A JP2004000494A JP2004192653A JP 2004192653 A JP2004192653 A JP 2004192653A JP 2004000494 A JP2004000494 A JP 2004000494A JP 2004000494 A JP2004000494 A JP 2004000494A JP 2004192653 A JP2004192653 A JP 2004192653A
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- input
- recognition
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】人間同士の対話のように人間にとって自然なかたちで対話を進めることができるようにしたインタフェースを提供すること。
【解決手段】擬人化されたエージェント画像を供給する擬人化イメージ提供手段103と、利用者の注視対象を検出する検出手段101と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を取得する他メディア入力手段102と、この他メディア入力手段からの入力情報を受け、認識動作の状況を制御するものであって検出手段101により得られる注視対象情報を基に利用者の注視対象が擬人化イメージ提示手段により提示されるエージェント画像のいずれの部分かを認識して、その認識結果に応じ前記他メディア入力認識手段からの入力の受付選択をする制御手段107とを備える。
【選択図】 図1
【解決手段】擬人化されたエージェント画像を供給する擬人化イメージ提供手段103と、利用者の注視対象を検出する検出手段101と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を取得する他メディア入力手段102と、この他メディア入力手段からの入力情報を受け、認識動作の状況を制御するものであって検出手段101により得られる注視対象情報を基に利用者の注視対象が擬人化イメージ提示手段により提示されるエージェント画像のいずれの部分かを認識して、その認識結果に応じ前記他メディア入力認識手段からの入力の受付選択をする制御手段107とを備える。
【選択図】 図1
Description
本発明は、自然言語情報、音声情報、視覚情報、操作情報のうち少なくとも一つの入力あるいは出力を通じて利用者と対話するマルチモーダル対話装置に適用して最適なマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法に関する。
近年、パーソナルコンピュータを含む計算機システムにおいて、従来のキーボードやマウスなどによる入力と、ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報などマルチメディア情報を入出力することが可能になって来ている。
このような状況下に加え、自然言語解析や自然言語生成、あるいは音声認識や音声合成技術あるいは対話処理技術の進歩などによって、利用者と音声入出力を対話する音声対話システムへの要求が高まっており、自由発話による音声入力によって利用可能な対話システムである“TOSBURG−II”(下記非特許文献1参照)など、様々な音声対話システムの研究開発がなされ、発表されている。
また、さらに、このような音声入出力に加え、例えばカメラを使用しての視覚情報入力を利用したり、あるいは、タッチパネル、ぺン、タブレット、データグローブやフットスイッチ、対人センサ、ヘッドマウントディスプレイ、フォースディスプレイ(提力装置)など、様々な入出力デバイスを通じて利用者と授受できる情報を利用して、利用者とインタラクションを行なうマルチモーダル対話システムへの要求が高まっている。
すなわち、このような各種入出力デバイスを用いたマルチモーダルインタフェースを駆使することで、様々な情報を授受でき、従って、利用者はシステムと自然な対話が可能であることから、人間にとって自然で使い易いヒューマンインタフェースを実現するための一つの有力な方法となり得る故に、注目を集めている。
つまり、人間同士の対話においても、例えば音声など一つのメディア(チャネル)のみを用いてコミュニケーションを行なっている訳ではなく、身振りや手ぶりあるいは表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションを行なっている(下記非特許文献2参照)。
このことから考えても、自然で使い易いヒューマンインタフェースを実現するためには、音声入出力の他に、カメラを使用しての視覚情報入力、タッチパネル、ぺン、タブレット、データグローブやフットスイッチ、対人センサ、ヘッドマウントディスプレイ、フォースディスプレイなど、様々な入出力のメディアを用いた言語メッセージ、非言語メッセージによる対話の実現と応用に期待が高まっている。
しかし、次の(i)(ii)のような現状がある。
[バックグラウンド(i)]従来、それぞれのメディアからの入力の解析精度の低さの問題や、それぞれの入出力メディアの性質が十分に明らかとなっていないことなどのため、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていない。
つまり、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識が発生したり、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しに失敗するといったことなどによって、誤動作が起こり、それが結果的には利用者への負担となる。
また、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自己への入力であると判断して、認識処理などを行ない、結果として誤動作を起す。そして、その誤動作の取消や、誤動作の影響の復旧の処置を利用者は行わねばならず、また、誤動作を避けるために利用者は絶えず注意を払わなくてはならないなど、利用者への負担が大きい。
また、本来、判断が不要な場面においても、入力信号の処理が継続的にして行なわれるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下するなどの問題を抱える。
また、この問題を解決するために、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択するなど、特別な操作によってモードを変更する方法も採用されているが、このような特別な操作は、人間同士の会話であった場合、存在しない操作であるため、不自然なインタフェースとなるばかりでなく、利用者にとって繁雑であったり、操作の種類によっては、習得のための訓練が必要となったりすることによって、利用者の負担をいたずらに増やすこととなっている。
また、例えば、音声入力の可否をボタン操作によって切替える場合などでは、音声メディアの持つ利点を活かすことができない。すなわち、音声メディアによる入力は、本来、口だけを使ってコミュニケーションが出来るもので、例えば手で行なっている作業があったとしてもそれを妨害することがなく、双方を同時に利用することが可能であるが、音声入力の可否をボタン操作で切り替えることが必要な仕組みにした場合、このような音声メディア本来の利点を活かすことが出来ない。
また、音声出力や、動画像情報や、複数画面に亙る文字や画像情報など、提示する情報がすぐ消滅しまうものであったり、刻々変化するものであったりする等、一過性のメディアも用いて利用者に情報提示する必要があるケースも多いが、このような場合、利用者がその情報に注意を払っていないと、提示された情報の一部あるいは全部を利用者が受け取れない場合があると言う問題があった。
また、従来は、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示し、利用者が何らかの特別な操作による確認動作を行なうことによって、継続する次の情報を提示する方法もあるが、この場合は、確認動作のために、利用者の負担が増えることになり、また、慣れないと操作に戸惑い、システムの運用効率が悪くなるという問題も残る。
また、従来のマルチモーダルインタフェースでは、利用技術の未発達から、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、視線一致(アイコンタクト)、注視位置、身振り、手振りなどのジェスチャ、顔表情などの非言語メッセージを、効果的に利用することが出来ない。
[バックグラウンド(ii)]また、別の観点として従来における現実のマルチモーダルインターフェースを見てみると、音声入力、タッチセンサ入力、画像入力、距離センサ入力といったものを扱うが、その処理を考えてみる。
音声入力の場合、たとえば利用者から音声入力がなされたとして、その場合には入力された音声波形信号を例えばアナログ/デジタル変換し、単位時間当たりのパワー計算を行うことなどによって、音声区間を検出し、これを例えばFFT(高速フーリエ変換)などの方法によって分析すると共に、例えば、HMM(隠れマルコフモデル)などの方法を用いて、予め用意した標準パターンである音声認識辞書と照合処理を行うことなどにより、発声内容を推定し、その結果に応じた処理を行う。
また、タッチセンサなどの接触式の入力装置を通じて、利用者からの指し示しジェスチャの入力がなされた場合には、タッチセンサの出力情報である、座標情報、あるいはその時系列情報、あるいは入力圧力情報、あるいは入力時間間隔などを用いて、指し示し先を同定する処理を行う。
また、画像を使用する場合には、単数あるいは複数のカメラを用いて、例えば、利用者の手などを撮影し、観察された形状、あるいは動作などを例えば、下記非特許文献3などに示された方法を用いて解析することによって、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などを入力することが出来るようにしている。
また、距離センサ、この場合、例えば、赤外線などを用いた距離センサなどを用いるがこの距離センサにより、利用者の手の位置や形、あるいは動きなどを画像の場合と同様の解析方法により、解析して認識することで、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などへの指し示しジェスチャを入力することが出来るようにしている。
その他、入力手段としては利用者の手に、例えば、磁気センサや加速度センサなどを装着することによって、手の空間的位置や、動き、あるいは形状を入力したり、仮想現実(VR=Virtual Reality)技術のために開発された、データグローブやデータスーツを利用者が装着することで、利用者の手や体の、動き、位置、あるいは形状を解析することなどによって利用者の指し示した実世界中の指示対象、あるいは表示画面上の指示対象などを入力するといったことが採用可能である。
ところが、従来、指し示しジェスチャの入力において、例えばタッチセンサを用いて実現されたインタフェース方法では、離れた位置からや、機器に接触せずに、指し示しジェスチャを行うことが出来ないという問題があった。さらに、例えばデータグローブや、磁気センサや、加速度センサなどを利用者が装着することで実現されたインタフェース方法では、機器を装着しなければ利用できないという問題点があった。
また、カメラなどを用いて、利用者の手などの形状、位置、あるいは動きを検出することで実現されているインタフェース方法では、十分な精度が得られないために、利用者が入力を意図したジェスチャだけを、適切に抽出することが困難であり、結果として、利用者かジェスチャとしての入力を意図していない手の動きや、形やなどを、誤ってジェスチャ入力であると誤認識したり、あるいは利用者が入力を意図したジェスチャを、ジェスチャ入力であると正しく抽出することが出来ないといったことが生じる。
その結果、例えば、誤認識のために引き起こされる誤動作の影響の訂正が必要になったり、あるいは利用者が入力を意図して行ったジェスチャ入力が実際にはシステムに正しく入力されず、利用者が再度入力を行う必要が生じ、利用者の負担を増加させてしまうという問題があった。
また、利用者が入力したジェスチャが、解析が終了した時点で得られるために、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているかどうかが分からない。
そのため、例えばジェスチャの開始時点が間違っていたり、あるいは利用者によってジェスチャ入力が行われていることを正しく検知できなかったりするなどして、利用者が現在入力途中のジェスチャが、実際にはシステムによって正しく抽出されておらず、結果として誤認識を引き起こしたり、あるいは利用者が再度入力を行わなくてはならなくなるなどして、利用者にかかる負担が大きくなる。
あるいは、利用者がジェスチャ入力を行っていないのにシステムが誤ってジェスチャが開始されているなどと誤認識することによって、誤動作が起こり、その影響の訂正をしなければならなくなる。
また、例えばタッチセンサやタブレットなどの接触式の入力装置を用いたジェスチャ認識方法では、利用者は接触式入力装置自身の一部分を指し示すこととなるため、その接触式入力装置自身以外の実世界の場所や、ものなどを参照するための、指し示しジェスチャを入力することが出来ないという問題があり、一方、例えばカメラや赤外センサーや加速度センサなどを用いる接触式でない入力方法を用いる、指し示しジェスチャ入力の認識方法では、実世界の物体や場所を指し示すことは可能であるがシステムがその指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示する方法がないという問題があった。
電子通信学会論文誌、Vol.J77−D−II、No.8,pp1417−1428,1994 "Intelligent Multimedia Interfaces",Maybury M.T,Eds., The AAAI Press/The MIT Press,1993 "Uncalibrated Stereo Vision With Pointing for a Man−Machine Interface(R.Cipolla,et.al.,Proceedings of MVA’94,IAPR Workshop on Machine Vision Application,pp.163−166,1994.)
電子通信学会論文誌、Vol.J77−D−II、No.8,pp1417−1428,1994 "Intelligent Multimedia Interfaces",Maybury M.T,Eds., The AAAI Press/The MIT Press,1993 "Uncalibrated Stereo Vision With Pointing for a Man−Machine Interface(R.Cipolla,et.al.,Proceedings of MVA’94,IAPR Workshop on Machine Vision Application,pp.163−166,1994.)
以上、バックグラウンド(i)で説明したように、従来のマルチモーダルインタフェースは、それぞれの入出力メディアからの入力情報についての解析精度の低さ、そして、それぞれの入出力メディアの性質が十分に解明されていない等の点から、新たに利用可能となった種々の入出力メディアあるいは、複数の入出力メディアを効果的に活用し、高能率で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていないと言う問題がある。
つまり、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識の発生や、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しに失敗することなどによって、誤動作が起こり、利用者へ負担が増加すると言う問題があつた。
また、音声やジェスチャなどのメディアはマルチモーダルインタフェースとして重要なものであるが、このメディアは、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば、周囲の人との対話にも利用される。
そのため、このようなメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自己への入力であると誤判断をして、その情報の認識処理などを行なってしまい、誤動作を引き起こすことにもなる。そのため、その誤動作の取消や、誤動作の影響の復旧に利用者が対処しなければならなくなり、また、そのような誤動作を招かないようにするために、利用者は絶えず注意を払わなくてはならなくなるといった具合に、利用者の負担が増えるという問題があった。
また、マルチモーダル装置において本来、情報の認識処理が不要な場面においても、入力信号の監視と処理は継続的に行なわれるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下するという問題点があった。
また、この問題を解決するために、音声やジェスチャなどの入力を行なう際に、利用者にたとえば、ボタンを押させるようにしたり、メニュー選択させるなど、特別な操作によってモードを変更するなどの手法を用いることがあるが、このような特別な操作は、人間同士の対話では本来ないものであるから、このような操作を要求するインタフェースは、利用者にとって不自然なインタフェースとなるだけでなく、繁雑で煩わしさを感じたり、操作の種類によっては、習得のための訓練が必要となったりすることによって、利用者の負担増加を招くという問題があった。
また、音声メディアによる入力は、本来、口だけを使ってコミュニケーションが出来るため、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う利点があるが、例えば、音声入力の可否をボタン操作によって切替えるといった構成とした場合などでは、このような音声メディアが本来持つ利点を損なってしまうという問題点があった。
また、例えば、音声出力や、動画像情報や、複数画面に亙る文字や画像情報などでは、提示情報が提示されるとすぐ消滅したり、刻々変化したりする一過性のものとなることも多いが、このような一過性メディアも用いて利用者に情報提示する際、利用者がその情報に注意を払っていないと提示された情報の一部あるいは全部を利用者が受け取れない場合があると言う問題があった。
また、従来は、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示し、利用者が何らかの特別な操作による確認動作を行なうことによって、継続する次の情報を提示する手法を用いることがあるが、このような方法では、確認動作のために、利用者の負担が増加し、また、システムの運用効率を悪くするという問題があった。
また、従来のマルチモーダルインタフェースでは、応用技術の未熟から人間同士のコミュニケーションにおいて重要な役割を演じていると言われる、視線一致(アイコンタクト)、注視位置、身振り、手振りなどのジェスチャ、そして、顔表情などの非言語メッセージを、効果的に利用することが出来ないという問題があった。
また、バックグラウンド(ii)で説明したように、マルチモーダルインタフェース用の現実の入力手段においては、指し示しジェスチャの入力の場合、接触式の入力機器を使用するインタフェース方法では、離れた位置からや、機器に接触せずに、指し示しジェスチャを行うことが出来ず、また、装着式のインタフェース方法では、機器を装着しなければ利用できないという問題があった。
また、ジェスチャ認識を遠隔で行うインタフェース方法では、十分な精度が得られないために、利用者がジェスチャとしての入力を意図していない手の動きや、形やなどを、誤ってジェスチャ入力であると誤認識してしまったり、あるいは利用者が入力を意図したジェスチャを、ジェスチャ入力であると正しく抽出することが出来ない場合が多発するという問題があった。
また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムが、そのジェスチャ入力を正しく抽出しているかどうかが分からないため、結果として誤認識を引きおこしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして、利用者の負担が増加するという問題があった。
また、接触式の入力装置を用いたジェスチャ認識方法では、その接触式入力装置自身以外の実世界の場所や、ものなどを参照するための、指し示しジェスチャを入力することが出来ず、一方、非接触式の入力方法を用いる、指し示しジェスチャ入力の認識方法では、実世界の物体や場所を指し示すことは可能であるが、システムがその指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示する方法がないという問題があった。
さらに、以上示した問題によって誘発される従来方法の問題としては、例えば、誤動作による影響の訂正が必要になったり、あるいは再度の入力が必要になったり、あるいは利用者が入力を行う際に、現在行っている入力が正しくシステムに入力されているかどうかが分からないため、不安になるなどして、利用者の負担が増すという問題があった。
そこでこの発明の目的とするところは、バックグラウンド(i)の課題を解決するために、第1には、複数種の入出力メディアを効率的、効果的に利用することができ、利用者の負担を軽減できて人間同士のコミュニケーションに近い状態で自然な対話ができるようにしたマルチモーダルインタフエースを提供することにある。
また、本発明の第2の目的は、各メディアからの入力の解析精度が不十分であるための誤動作や、あるいは周囲雑音による誤動作や、あるいは入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しの失敗などに起因する誤動作などによる利用者への負担を解消するマルチモーダルインタフェースを提供するものである。
また、第3には、音声やジェスチャなどのように、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、人間同士の対話に用いるメディアを用いたインタフェース装置では、利用者が、操作中のマルチモーダルシステムのインタフェース装置にではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、利用者がマルチモーダルシステムのそばにいるがために、そのマルチモーダルシステムのインタフェース装置が自己への入力であると判断してしまうことになり誤動作の原因となるが、その場合でもこのような事態を解消でき、誤動作に伴う取消操作や、誤動作の影響の復旧のための処置や、誤動作を避けるために利用者が絶えず注意を払わなくてはならないといった負荷を含め、利用者への負担を解消することができるマルチモーダルインタフェースを提供することにある。
また、第4には、システムの処理動作状態から、本来メディア入力の情報識別が不要な場面においても、入力信号の処理が継続的に行なわれることによってその割り込み処理のために、現在処理中の作業の遅延を招くという悪影響をなくすべく、不要な場面でのメディア入力に対する処理負荷を解消できるようにすることにより、利用している装置に関与する他のサービスの実行速度や利用効率の低下を抑制できるようにしたマルチモーダルインタフェースを提供することにある。
また、第5には、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などによるモード変更などといった、特別な操作を必要としない構成とすることにより、煩雑さを伴わず、自然で、しかも、習得のための訓練などが不要、且つ、利用者に負担をかけないマルチモーダルインタフェースを提供することにある。
また、第6には、音声メディアを使用する際には、例えば、音声入力の可否をボタン操作によって切替えるといった余分な操作を完全に排除して、しかも、必要な音声情報を取得することができるようにしたマルチモーダルインタフェースを提供することにある。
また、第7には、提示が一過性となるかたちでの情報を、見逃すことなく利用者が受け取れるようにしたマルチモーダルインタフェースを提供することにある。
また、第8には、一過性のメディアによる情報提示の際に、利用者が一度に受け取れる量に小分けして提示するようにした場合に、特別な操作など利用者の負担を負わせることなく円滑に情報を提示できるようにしたインタフェースを提供することにある。
また、第9には、人間同士のコミュニケーションにおいては重要な役割を演じていると言われるが、従来のマルチモーダルインタフェースでは、効果的に利用することが出なかった、視線一致(アイコンタクト)、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的に活用できるインタフェースを提供することにある。
また、この発明の目的とするところは、バックグラウンド(ii)の課題を解決するために、利用者がシステムから離れた位置や、あるいは機器に接触せずに、かつ、機器を装着せずに、遠隔で指し示しジェスチャを行って指示を入力することが出来、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を無くすことができるようにしたマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供するものである。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているか否かが分からないため、結果として誤認識を引きおこしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして発生する利用者の負担を抑制することが可能なマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供するものである。
また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することが可能なマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供するものである。
さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することにある。
さらに、擬人化インタフェースを用いたインタフェース装置、およびインタフェース方法で、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することにある。
上記目的を達成するため、本発明は次のように構成する。バックグラウンド(i)に関する課題を解決するために、[1] 第1には、利用者の注視対象を検出する検出手段と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を受け、認識動作の状況を制御する制御手段とを備えたことを特徴とする。
本発明にかかるマルチモーダルインタフェースは、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力する検出手段と、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ぺン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの入力情報を受けとり処理を行なう少なくとも一つの他メディア入力処理手段とを具備しており、制御手段により、該注視対象情報に応じて、少なくとも一つの他メディア入力処理手段の、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御するようにしたものである。
[2] 第2には、擬人化されたエージェント画像を供給する擬人化イメージ提供手段と、利用者の注視対象を検出する検出手段と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を取得する他メディア入力手段と、この他メディア入力手段からの入力情報を受け、認識動作の状況を制御するものであって、前記検出手段により得られる注視対象情報を基に、利用者の注視対象が擬人化イメージ提示手段により提示されるエージェント画像のいずれの部分かを認識して、その認識結果に応じ前記他メディア入力認識手段からの入力の受付選択をする制御手段とを備えたことを特徴とする。
この構成によれば、利用者に対して応対する擬人化されたエージェント画像具体的には、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者へ提示する擬人化イメージ提示手段があり、検出手段によって得られる注視対象情報に応じて、利用者の注視対象が、擬人化イメージ提示手段で提示されるエージェント人物の、全体、あるいは、顔、目、口、耳など一部を指しているか否かに応じて、制御手段は他メディア入力認識手段からの入力受付を選択するようにしたものである。
[3] 第3には、文字情報、音声情報、静止面像情報、動画像情報、力の提示など少なくとも一つの信号の提示により、利用者に対してフィードバック信号提示するフィードバック提示手段と、注視対象情報を参照して、メディア入力認識手段からの入力の受付選択をする際に、該フィードバック提示手段を通じて適宜利用者へのフィードバック信号を提示すべく制御する制御手段を更に具備したことを特徴とする。
この場合、利用者に対し、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、フィードバック信号を提示するフィードバック提示手段があり、制御手段は、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、該フィードバック提示手段を通じて利用者へのフィードバック信号を適宜提示するよう制御することを特徴とするものである。
[4] 第4には、利用者と対面してサービスを提供する擬人化されたエージェン卜人物の画像であって、該エージェント人物画像は利用者に、所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして当該画像を提示する擬人化イメージ提示手段と、注視対象情報を参照して、メディア入力認識手段からの入力の受付選択する際に、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示すべく制御する制御手段とを具備したことを特徴とする。
この場合、擬人化イメージ提示手段は、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による面像情報と、利用者へ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類のエージェント人物画像を用意、あるいは適宜に生成できるようにしてあり、これらの画像を使用して非言語メッセージを提示することができるようにしてあって、制御手段により、注視対象情報を参照して、メディア入力認識手段からの入力を受付選択する際に、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示するよう制御するものである。
[5] 第5には、利用者の注視対象を検出する検出手段と、利用者への音声情報、操作情報、画像情報を出力する情報出力手段と、利用者からの音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を受け、認識動作の状況を制御する第1の制御手段と、前記注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、あるいは提示速度の調整などの動作状況を適宜制御する第2の制御手段とを備したことを特徴とする。
この構成の場合、注視対象物を検出する検出手段、具体的には、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力する注視対象検出用の検出手段があり、また、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力する少なくとも一つの情報出力手段があって、制御手段は前記注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、あるいは提示速度の調整などの動作状況を適宜制御するものである。
[6] 第6には、文字情報、音声情報、静止面像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者の注意を喚起する注意喚起手段と、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御する第2の制御手段とを更に具備する。
この構成の場合、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、利用者の注意を喚起する注意喚起手段があり、第2の制御手段は、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御する。
[7] 第7には、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段のうち、少なくとも一つの入力手段を用いて、該注意喚起のための信号に対する利用者の反応を検知し、これを利用者反応情報として出力する反応検知手段と、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する制御手段を設ける。
このような構成において、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段を用いて、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力する反応検知手段があり、制御手段は、利用者反応情報の内容に応じて、情報出力手段の動作状況およぴ注意喚起手段の少なくとも一つを適宜制御するようにしたものである。
[8] 第8には、利用者の注視対象を検出する検出手段と、利用者の音声入力情報、操作入力情報、画像入力情報のうち、少なくとも一つ以上の入力情報を取得する他メディア入力手段と、利用者と対面してサービスを提供する擬人化されたエージェント人物の画像であって、該エージェント人物画像は利用者に所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして当該画像を提示する擬人化イメージ提示手段と、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示により、利用者に対して情報を出力する情報出力手段と、前記擬人化イメージ提示手段を通しての非言語メッセージの提示により、利用者の注意を喚起する注意喚起手段と、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどからの入力情報のうち、少なくとも一つの情報を参照して、前記注意喚起のための信号に対する利用者の反応を検知し、利用者反応情報として出力する反応検知手段と、該注視対象情報に応じて、少なくとも一つの他メディア入力処理手段の、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示するよう制御し、該注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する制御手段とを具備する。
このような構成においては、注視対象を検出する検出手段、具体的には、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力する検出手段があり、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ペン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの入力情報を受け取り、処理を行なう少なくとも一つの他メディア入力処理手段と、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報と、利用者へ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類の非言語メッセージを提示する提示する擬人化イメージ提示手段と、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力する少なくとも一つの情報出力手段と、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示あるいは、擬人化イメージ提示手段を通じての非言語メッセージの提示によって、利用者の注意を喚起する注意喚起手段と、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどからの入力情報を参照して、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力する反応検知手段があり、制御手段は、前記注視対象情報に応じて、少なくとも一つの他メディア入力処理手段の、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示するよう制御し、該注視対象情報を参照して、少なくとも一つの情報出力手段の、出力の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御し、情報出力手段から情報を提示する際に、注視対象情報に応じて、注意喚起手段を通じて、利用者の注意を喚起するための信号を適宜提示するよう制御し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御するものである。
[9] また、第9には、マルチモーダルインタフェース方法として、利用者の注視対象を検出し、利用者の音声、ジェスチャ、操作手段による利用者の操作情報などのうち、少なくとも一つの情報への処理について、前記注視対象情報に応じて、入力受付の選択、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御するようにした。また、利用者の注視対象を検出するとともに、利用者と対面してサービスを提供する擬人化されたエージェント人物の画像を画像情報として利用者へ提示し、また、注視対象情報を基に、注視対象が前記エージェン卜人物画像のどの部分かに応じて、利用者の音声、ジェスチャ、操作手段による利用者の操作情報などの受付を選択するようにした。
すなわち、マルチモーダル入力にあたっては、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して注視対象情報としてを出力し、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ぺン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの少なくとも一つの入力情報への処理について、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御する方法である。
また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者ヘ提示し、注視対象情報に応じて、注視対象が、擬人化イメージ提示手段で提示されるエージェント人物の、全体、あるいは、顔、目、口、耳など一部を指しているか否かに応じて、他メディア入力認識手段からの入力を受付可否を切替えるものである。
また、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、フィードバック信号を提示する。
また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止面あるいは動画による画像情報と、利用者ヘ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類の非言語メッセージを提示し、注視対象情報を参照して、メディア入力認識手段からの入力を受付可否を切替える際に、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示する。
[10] 第10には、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者に情報を提供するにあたり、利用者の注視対象を検出し、この検出された注視対象情報を参照して、前記提示の開始、終了、中断、再開、処理レベルの調整などの動作状況を制御するようにする。
また、情報を提示する際に、注視対象情報に応じて、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者の注意を喚起するようにする。また、注意喚起のための信号に対する利用者の反応を検知し、利用者反応情報として得ると共に、利用者反応情報内容に応じて、利用者の音声入力情報、操作入力情報、画像入力情報の取得および注意喚起の少なくとも一つを制御するようにする。
このように、利用者の注視対象を検知してその情報を注視対象情報として得る。具体的には利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報として得る。そして、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力する際に、この注視対象情報を参照して、出力の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御する。
また、情報出力手段から情報を提示する際に、注視対象情報に応じて、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示によって、利用者の注意を喚起する。
また、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段を用いて、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する。
[11] 第11には、利用者の注視対象を検出して注視対象情報として出力し、利用者に対面してサービスを提供する擬人化されたエージェント人物画像であって該エージェント人物画像は利用者に所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして提示するようにし、また、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者に情報を出力し、利用者の音声入力情報、ジェスチャ入力情報、操作入力情報のうち、少なくとも一つ以上の入力情報を受け、処理を行なう際に、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を制御する。また、注視対象情報を参照して、入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ人物画像により所要の提示をする。
[12] 第12には、利用者の注視対象を検出して注視対象情報として出力し、利用者に対面してサービスを提供する擬人化されたエージェント人物画像であって該エージェント人物画像は利用者に所要のジェスチャ、表情変化を持つ画像による非言語メッセージとして提示するようにし、また、文字情報、音声情報、静止画像情報、動画像情報、力の提示などのうち、少なくとも一つの信号の提示によって、利用者に情報を出力し、利用者の音声入力情報、ジェスチャ入力情報、操作入力情報のうち、少なくとも一つ以上の入力情報を受け、処理を行なう際に、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を制御することを特徴とする。
また、注視対象情報を参照して、入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ人物画像により所要の提示をすることを特徴とする。
これは、利用者を観察するカメラや利用者が装着したカメラなどから入力される視覚情報を用いた視線検出処理や、利用者の視線の動きを検出するアイトラッカや、利用者の頭部の動きを検出するヘッドトラッカや、着席センサ、対人センサなどによって、利用者が、現在見ているか、あるいは向いている、場所、領域、方向、物、あるいはその部分を検出して、注視対象情報としてを出力し、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報と、利用者へ、うなづき、身振り、手振り、などのジェスチャや、表情変化など、任意個数、任意種類の非言語メッセージを提示する提示し、利用者へ、文字情報、音声情報、静止画像情報、動面像情報、力の提示など少なくとも一つの信号の提示によって、情報を出力し、音声入力や、ジェスチャ入力や、キーボード入力や、ポインティングデバイスを用いた入力や、カメラからの視覚入力情報や、マイクからの音声入力情報や、キーボード、タッチパネル、ぺン、マウスなどポインティングデバイス、データグローブなどからの操作入力情報など、利用者の注視対象以外を表す利用者からの入力情報を受けとり処理を行なう際に、注視対象情報に応じて、入力受付可否、あるいは処理あるいは認識動作の開始、終了、中断、再開、処理レベルの調整などの動作状況を適宜制御する方法である。
また、注視対象情報を参照して、入力を受付可否を切替える際に、利用者へ、文字情報、音声情報、静止画像情報、動画像情報、力の提示、あるいは、擬人化イメージ提示手段を通じて利用者への非言語メッセージによる信号を適宜提示する方法である。
また、注視対象情報あるいは、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどからの入力情報を参照して、該注意喚起のための信号に対する利用者の反応を検知し利用者反応情報として出力し、利用者反応情報の内容に応じて、情報出力手段の動作状況および注意喚起手段の少なくとも一つを適宜制御する。
以上、本発明は、視線検出等の技術を用い、利用者の注視対象を検出するとともに、その検出した注視対象に応じて他メディアからの入力の受付可否や、認識処理、あるいは出力の提示方法や中断、確認等を制御するようにしたものであって、特に擬人化インターフェースでは例えば顔を見ることによって会話を開始できるようにする等、人間同士のコミュニケーションでの非言語メッセージの使用法や役割をシミュレートするようにシステムに応用したものである。
従って、本発明によれば、複数種の入出力メディアを効率的、効果的に利用することができ、利用者の負担を軽減できて人間同士のコミュニケーションに近い状態で自然な対話ができるようにしたインタフエースを提供できる。
また、各メディアからの入力の解析精度が不十分であるための誤動作や、あるいは周囲雑音による誤動作や、あるいは入力デバイスから刻々得られる信号の中から、利用者が入力メッセージとして意図した信号部分の切り出しの失敗などに起因する誤動作などによる利用者への負担を解消するインタフェースを提供できる。
また、音声やジェスチャなどのように、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、人間同士の対話に用いるメディアを用いたインタフェース装置では、利用者が、操作中のマルチモーダルシステムのインタフェース装置にではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、利用者がマルチモーダルシステムのそばにいるがために、そのマルチモーダルシステムのインタフェース装置が自己への入力であると判断してしまうことになり誤動作の原因となるが、その場合でもこのような事態を解消でき、誤動作に伴う取消操作や、誤動作の影響の復旧のための処置や、誤動作を避けるために利用者が絶えず注意を払わなくてはならないといった負荷を含め、利用者への負担を解消することができるインタフェースを提供できる。
また、システムの処理動作状態から、本来メディア入力の情報識別が不要な場面においても、入力信号の処理が継続的に行なわれることによってその割り込み処理のために、現在処理中の作業の遅延を招くという悪影響をなくすべく、不要な場面でのメディア入力に対する処理負荷を解消できるようにすることにより、利用している装置に関与する他のサービスの実行速度や利用効率の低下を抑制できるようにしたインタフェースを提供できる。
また、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などによるモード変更などといった、特別な操作を必要としない構成とすることにより、煩雑さを伴わず、自然で、しかも、習得のための訓練などが不要で、利用者に負担を与えないインタフェースを提供できる。
また、本発明によれば、音声メディアによる入力の場合、本来、口だけを用いてコミュニケーションが出来るため、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を、阻害することなく活用できるインタフェースを提供できる。
また、例えば、音声出力や、動画像情報や、複数画面に亙る文字や面像情報など、提示される情報が提示してすぐ消滅したり、刻々変化したりする一過性のメディアも用いて利用者に情報提示する際に、利用者がその情報に注意を払っていなかった場合にも、提示された情報の一部あるいは全部を利用者が受け取れないといったことのないようにしたインタフェースを提供できる。
また、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示して、継続する次の情報を提示する際に、利用者が何らかの特別な操作を行なうといった負担を負わせることなく、円滑に情報提示できるようになるインタフェースを提供できる。
また、擬人化エージェント人物画像で現在の様々な状況を表示するようにし、利用者の視線を検知して、利用者が注意を向けている事柄を知って、対処するようにしたので、人間同士のコミュニケーションに近い形でシステムと人間との対話を進めることができるようになるインタフェースを提供できる。
また、バックグラウンド(ii)に関する課題、すなわち、非接触遠隔操作を可能にし、誤認識を防止し、利用者の負担を解消するために、擬人化エージェントに利用者の指し示したジェスチャの指示対象を、注視させるようにし、これにより、システムの側で認識できなくなったり、システム側での認識結果が誤っていないかなどが、利用者の側で直感的にわかるようにするべく、本発明は次のように構成する。すなわち、[13] 利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力手段と、該入力手段から得られる入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識の少なくとも一つの処理を施すことによって、該利用者からの入力を、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識手段と、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして利用者に提示する出力手段と、該入力認識手段から得られる該動作状況情報に応じて、該出力手段を通じて、利用者にフィードバック情報を提示する制御手段を具備したことを特徴とする。
[14] また、カメラ(撮像装置)などの画像入力手段によって利用者の画像を取り込み、入力情報として例えばアナログデジタル変換された画像情報を出力する入力手段と、前記入力手段から得られる画像情報に対して、例えば前時点の画像との差分抽出やオプティカルフローなどの方法を適用することで、例えば動領域を検出し、例えばパターンマッチング技術などの手法によって照合することで、入力画像から、ジェスチャ入力を抽出し、これら各処理の進行状況を動作状況情報として随時出力する入力認識手段と、該入力認識手段から得られる動作状況情報に応じて、文字列や画像を、あるいはブザー音や音声信号などを、例えば、CRTディスプレイやスピーカといった出力手段から出力するよう制御する制御部を持つことを特徴とする。
[15] また、入力手段から得られる入力情報、および入力認識手段から得られる動作状況情報の少なくとも一方の内容に応じて、利用者へのフィードバックとして提示すべき情報であるフィードバック情報を生成するフィードバック情報生成手段を具備したことを特徴とする。
[16] また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者へ提示する擬人化イメージを生成するフィードバック情報生成手段と、入力認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージの表情あるいは動作の少なくとも一方を決定し、出力手段を通じて、例えば指し示しジェスチャの指し示し先、あるいは例えば指先や顔や目など、利用者がジェスチャ表現を実現している部位あるいはその一部分など、注視する表情であるフィードバック情報を生成するフィードバック情報生成手段と、利用者に該フィードバック情報生成手段によって生成されたフィードバック情報を、出力手段から利用者へのフィードバック情報として提示する制御手段を具備したことを特徴とする。
[17] また、入力手段の空間的位置、および出力手段の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置置情報として保持する配置情報記憶手段と、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置を表す参照物位置情報を出力する入力認識手段と、該配置情報記憶手段から得られる配置情報と、該入力認識手段から得られる参照物位置情報と、動作状況情報との少なくとも一つを参照して、擬人化エージェントの動作、あるいは表情、あるいは制御タイミングの少なくとも一つを決定し、フィードバック情報として出力するフィードバック手段を具備したことを特徴とする。
[18] また、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力ステップと、該入力ステップによって得られる該入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識の少なくとも一つの処理を施すことによって、該利用者からの入力を、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識ステップと、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして利用者に提示する出力ステップと、入力認識ステップによって得られる動作状況情報に基づいて、出力ステップを制御して、フィードバックを利用者に提示することを特徴とする。
[19] また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、入力認識ステップから得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージ情報として生成するフィードバック情報生成ステップと、入力認識ステップによって得られる動作状況情報に基づいて、フィードバック情報生成ステップと、出力ステップを制御することによって、たとえば音声入力がなされた時点で擬人化エージェントによって例えば、「うなずき」の表情を提示するなど、利用者にフィードバックを提示することを特徴とする。
[20] また、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置に関する情報である位置情報を出力する認識ステップと、入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶ステップと、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、例えば、利用者の指し示しジェスチャの対象である参照物を、随時注視する表情を提示するなど利用者にフィードバックを提示することを特徴とするものである。
そして、このような構成の本システムは、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカあるいは頭部の動きを検知するヘッドトラッカー、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどによる入力手段のうち、少なくとも一つから入力される利用者からの入力を随時取り込み、入力情報として得、これを音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識のうち、少なくとも一つの認識処理を施すことによって、該利用者からの入力に対する受付状況の情報、すなわち、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受付状況の情報を動作状況情報として得、得られた動作状況情報に基づいて、警告音、合成音声、文字列、画像、あるいは動画を用い、利用者に対するシステム側からのフィードバック(すなわち、システム側から利用者に対する認識状況対応の反応)として、利用者に提示するものである。
また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、フィードバック情報認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージ情報として生成し、これを表示することで、たとえば音声入力がなされた時点で擬人化エージェントによって例えば「うなずき」の表情を提示するなど利用者にフィードバックを提示する。
また、認識手段により画像認識して、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置に関する情報である位置情報を得、配置情報記憶手段により入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持し、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、例えば、利用者の指し示しジェスチャの対象である参照物を、随時注視する表情を提示するなど利用者にフィードバックを提示する。
このように、利用者がシステムから離れた位置や、あるいは機器に非接触状態で行った指し示しジェスチャを認識させ、そのジェスチャによる指示を入力させることが出来るようになり、かつ、誤認識なくジェスチャ認識を行えて、ジェスチャ抽出の失敗を無くすことができるようになるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することができる。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点で、システムがそのジェスチャ入力を正しく抽出しているか否かを知ることができ、利用者が再入力を行わなくてはならなくなるな負担を解消できるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することができるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。
本発明は視線検出等の技術を用い、利用者の注視対象に応じて他メディアからの入力の受付可否や、認識処理、あるいは出力の提示方法や中断、確認等を制御するようにしたものであって、特に擬人化インターフェースでは例えば顔を見ることによって会話を開始できるようにする等、人間同士のコミュニケーションでの非言語メッセージの使用法や役割をシミュレートするようにして適用したものである。従って、本発明によれば、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースを実現することが出来る。
利用者が入力を意図した音声やジェスチャを、自然且つ、円滑に入力可能にするものであり、利用者からのジェスチャ入力を検知した際に、擬人化エージェントの表情によって、ジェスチャ入力を行う手などを随時注視したり、あるいは指し示しジェスチャに対して、その参照対象を注視することによって、利用者へ自然なフィードバックを提示し、さらに、その際、利用者や擬人化エージェン卜の視界、あるいは参照対象等の空間的位置を考慮して、擬人化エージェントを適切な場所に移動、表示するよう制御するようにしたもので、このような本発明によれば、利用者が離れた位置や、あるいは機器に接触せずに、かつ、機器を装着せずに、遠隔で指し示しジェスチャを行うことが出来、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を抑制することが可能となる。
また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムが、そのジェスチャ入力を正しく抽出しているかどうかが分からないため、結果として誤認識を引き起こしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして発生する利用者の負担を抑制することが可能となる。また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することが可能となる。さらに、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが可能となる。
さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができる等の実用上多大な効果が奏せられる。
以下、図面を参照して本発明の実施例を説明するが、初めに上述のバックグラウンド(i)に関わるその解決策としての発明の実施例を説明する。
(第1の実施例)本発明は、視線検出等の技術を使用し、利用者の注視対象に応じて他メディアからの入力の受付可否や、認識処理、あるいは出力の提示方法や中断、確認等を制御するもので、特に擬人化インターフェースでは例えば顔を見ることによって会話を開始できるようにする等、人間同士のコミュニケーションでの非言語メッセージの使用法や役割をシミュレートすることで、利用者にとって自然で負担がなく、かつ確実なヒューマンインタフェースを実現する。
以下、図面を参照して、本発明の第1の実施例に係るマルチモーダル対話装置について詳細に説明する。
本発明は種々のメディアを駆使して、より自然な対話を進めることができるようにしたマルチモーダル対話装置におけるヒューマンインタフェースに関わるものであり、発明の主体はヒューマンインタフェース(マルチモーダルインタフェース)の部分にあるが、マルチモーダル対話装置全体から、それぞれ必要な構成要素とその機能を抽出し組み合わせることによって、インタフェース部分の各種構成が実現可能であるため、ここでは、マルチモーダル対話装置に係る一実施形態を示すこととする。
<本装置の構成の説明>図1は、本発明の一例としてのマルチモーダル対話装置の構成例を示したブロック図であり、図に示す如く、本装置は注視対象検出部101、他メディア入力部102、擬人化イメージ提示部103、情報出力部104、注意喚起部105、反応検知部106、および制御部107から構成されている。
これらのうち、注視対象検出部101は、当該マルチモーダル対話装置の利用者の視線方向を検出して、当該利用者が向いている“場所”、“領域”、“方向”、“物”、あるいはその“部分”を検出し、注視対象情報としてを出力する装置である。この注視対象検出部101は、例えば、利用者の眼球運動を観察するアイトラッカ装置や、利用者の頭部の動きを検出するヘッドトラッカ装置や、着席センサや、例えば、特開平08−059071号公報「視箇所推定装置とその方法」に開示されている方法などによって、利用者を観察するカメラや利用者が装着したカメラから得られる画像情報を処理し、利用者の視線方向の検出することなどによって、利用者が、“現在見ている”か、あるいは利用者が向いている“場所”、“領域”、“方向”、“物”、あるいはその“部分”を検出して、注視対象情報としてを出力するようにしている。
また、注視対象検出部101では、任意の注視対象となる物体の全部あるいは位置部分や、任意の注視対象となる領域と、その注視対象の記述(名称など)の組を予め定義して保存しておくことによって、注視対象記述を含む注視対象情報と、利用者がその注視対象を注視した時間に関する情報を出力するようにしている。
図2は、当該注視対象検出部101により出力される注視対象情報の例を表しており、注視対象情報が、“注視対象情報ID”、“注視対象記述情報A”、“時間情報B”、などから構成されていることを示している。
図2に示した注視対象情報では、“注視対象情報ID”の欄には“P101”,“P102”,“P103”,…“P201”,…といった具合に、対応する注視対象情報の識別記号が記録されている。
また、“注視対象記述A”の欄には、“擬人化イメージ”,“他人物”,“出力領域”,“画面外領域”,…といった具合に、注視対象検出部101によって検出された注視対象の記述が記録され、また、“時間情報B”の欄には“t3”,“t10”,“t15”,“t18”,…といった具合に、利用者が、対応する注視対象を注視した時点に関する時間情報が記録されている。
すなわち、利用者が注視行動をとり、それが検出される毎に“P101”,“P102”,“P103”,“P104”,“P105”,…といった具合に順に、ID(識別符号)が付与され、その検出された注視行動の対象が何であるか、そして、それが行われた時点がいつであるのかが、注視対象情報として出力される。
図2の例はIDが“P101”の情報は、注視対象が“擬人化イメージ”であり、発生時点は“t3”であり、IDが“P102”の情報は、注視対象が“他人物”であり、発生時点は“t10”であり、IDが“P106”の情報は、注視対象が“出力領域”であり、発生時点は“t22a”であるといったことを示している。
図1における他メディア入力部102は、種々の入力デバイスから得られる利用者からの入力情報を取得するためのものであって、その詳細な構成例を図3に示す。
すなわち、他メディア入力部102は、図3に示すように、入力デバイス部とデータ処理部とに別れており、これらのうち、データ処理部の構成要素としては、音声認識装置102a、文字認識装置102b、言語解析装置102c、操作入力解析装置102d、画像認識装置102e、ジェスチャ解析装置102f等かが該当する。また、入力デバイス部の構成要素としては、マイク(マイクロフォン)102g、キーボード102h、ペンタブレット102i、OCR(光学文字認識装置)102j、マウス102k、スイッチ102l、タッチパネル102m、カメラ102n、データグローブ102o、データスーツ102p、さらにはアイトラッカ、ヘッドトラッカ、対人センサ、着席センサ、…等が該当する。
これらのうち、音声認識装置102aは、マイク102gの音声出力信号を解析して単語の情報にして順次出力する装置であり、文字認識装置102bは、ペンタブレット102iやOCR102jから得られる文字パターン情報を基に、どのような文字であるかを認識し、その認識した文字情報を出力するものである。
また、言語解析装置102cは、キーボード102hからの文字コード情報、音声認識装置102aや文字認識装置102bからの文字情報を基に、言語解析して利用者の意図する内容を利用者入力情報として出力する装置である。
また、操作入力解析装置102dは、マウス102kやスイッチ102l、あるいはタッチパネル102mなどによる利用者の操作情報を解析して、利用者の意図する内容を利用者入力情報として出力する装置である。また、画像認識装置102eは、逐次、カメラ102nで得た利用者の画像から、利用者のシルエットや、視線、顔の向き等を認識してその情報を出力する装置である。
また、データグローブ102oは、各所に各種センサを設けたものであり、利用者の手に当該グローブをはめることにより、指の曲げや指の開き、指の動き等の情報を出力することができる装置であり、データスーツ102pは各所に各種のセンサを取り付けたもので、利用者に当該データスーツ102pを着せることにより、利用者の体の動き情報を種々得ることができるものである。
ジェスチャ解析装置102fは、これらデータスーツ102pやデータグローブ102oからの情報、あるいは画像認識装置102eからの情報を基に、使用者の示した行動がどのようなジェスチャであるかを解析してその解析したジェスチャ対応の情報を利用者入力情報として出力するものである。
すなわち、他メディア入力部102は、マイク102gや、カメラ102n、キーボード102h、タッチパネル102m、ペンタブレット102i、そして、マウス102k(あるいはトラックボール)などのポインティングデバイス、あるいはデータグローブ102oや、データスーツ102p、さらにはアイトラッカ、ヘッドトラッカ、OCR102j、そして、さらには図3には示さなかったが、対人センサ、着席センサ、などを含め、これらのうちの少なくとも一つの入力デバイスを通じて得られる利用者からの音声情報、視覚情報、操作情報などの入力に対して、取り込み、標本化、コード化、ディジタル化、フイルタリング、信号変換、記録、保存、パターン認識、言語/音声/画像/動作/操作の解析、理解、意図抽出など、少なくとも一つの処理を処理を行なうことによって利用者からの装置への入力である利用者入力情報を得る様にしている。
なお、図3は、他メディア入力部の構成の一例を示したものに過ぎず、その構成要素およびその数およびそれら構成要素間の接続関係はこの例に限定されるものではない。
図1における擬人化イメージ提示部103は、身振り、手振り、顔表情の変化などのジェスチャを、利用者に対して像として提示するための装置であり、図4に擬人化イメージ提示部103の出力を含むディスプレイ画面の例を示す。
図4において、103aは擬人化イメージを提示するための表示領域であり、102bは情報を出力するための表示領域である。擬人化イメージ提示部103は、マルチモーダル対話装置が利用者に対して対話する上で、提示したい意図を、身振り、手振り、顔表情の変化などのジェスチャのかたちで画像提示できるようにしており、後述の制御部107からの制御によって、“肯定”や、“呼掛け”、“音声を聞きとり可能である”こと、“コミュニケーションが失敗した”ことなどを適宜、利用者にジェスチャ画像で提示するようにしている。
従って、利用者はこのジェスチャ画像を見ることで、今どのような状態か、直感的に認識できるようになるものである。すなわち、ここでは人間同士の対話のように、状況や理解の度合い等をジェスチャにより示すことで、機械と人とのコミュニケーションを円滑に行い、意志疎通を図ることができるようにしている。
図1における情報出力部104は、利用者に対して、“文字”、“静止面画”、“動画像”、“音声”、“警告音”、“力”などの情報提示を行なう装置であり、図5にこの情報出力部104の構成例を示す。
図5に示すように、情報出力部104は文字画像信号生成装置104a、音声信号生成駆動装置104b、機器制御信号生成装置104c等から構成される。これらのうち、文字画像信号生成装置104aは、制御部107からの出力情報を基に、表示すべき文字列の画像信号である文字時画像信号を生成する装置であり、また、音声信号生成駆動装置104bは制御部107からの出力情報を基に、利用者に伝えるべき音声の信号を生成してマルチモーダル対話装置の備えるスピーカやヘッドホーン、イヤホン等の音声出力装置に与え、駆動するものである。また、機器制御信号生成装置104cは、制御部107からの出力情報を基に、利用者に対する反応としての動作を物理的な力で返すフォースディスプレイ(提力装置)に対する制御信号や、ランプ表示などのための制御信号を発生する装置である。
このような構成の情報出力部104では、利用者への出力すべき情報として、当該情報出力部104が接続されるマルチモーダル対話装置の構成要素である問題解決装置やデータベース装置などから渡される出力情報を受け取り、文字および画像ディスプレイや、スピーカやフォースディスプレイ(提力装置)などの出力デバイスを制御して、利用者へ、文字、静止面画、動画像、音声、警告音、力など情報提示を行なう様にしている。
すなわち、マルチモーダル対話装置は、利用者が投げかける質問や、要求、要望、戸惑い等を解釈して解決しなければならない問題や為すべき事柄を解釈し、その解を求める装置である問題解決装置や、この問題解決装置の用いるデータベース(知識ベースなども含む)を備える。そして、問題解決装置やデータベース装置などから渡される出力情報を受け取り、文字および画像ディスプレイや、スピーカやフォースディスプレイ(提力装置)などの出力デバイスを制御して、利用者へ、“文字”、“静止面画”、“動画像”、“音声”、“警告音”、“力”など様々な意志伝達手段を活用して情報提示を行なうものである。
また、図1における注意喚起部105は、利用者に対して呼び掛けや警告音を発するなどして注意を喚起する装置である。この注意喚起部105は、制御部107の制御に従って、利用者に対し、警告音や、呼掛けのための特定の言語表現や、利用者の名前などを音声信号として提示したり、画面表示部に文字信号として提示したり、ディスプレイ画面を繰り返し反転(フラッシュ)表示させたり、ランプなどを用いて光信号を提示したり、フォースディスプレイを用いることによって、物理的な力信号を利用者に提示したり、あるいは擬人化イメージ提示部103を通じて、例えば身振り、手振り、表情変化、身体動作を摸した画像情報などを提示するといったことを行い、これによって、利用者の注意を喚起するようにしている。
なお、この注意喚起部105は、独立した一つの要素として構成したり、あるいは、利用者への注意喚起のための信号の提示を出力部104を利用して行なうように構成することも可能である。
図1における反応検知部106はマルチモーダル対話装置からのアクションに対して、利用者が何らかの反応を示したか否かを検知するものである。この反応検知106は、カメラ、マイク、キーボード、スイッチ、ポインティングデバイス、センサなどの入力手段を用いて、注意喚起部105により利用者に注意喚起の提示をした際に、利用者が予め定めた特定の操作を行ったり、予め定めた特定の音声を発したり、予め定めた特定の身振り手振りなどを行なったりしたことを検知したり、あるいは、注視対象検出部101から得られる注視対象情報を参照することによって、利用者が注意喚起のための信号に反応したかどうかを判断し、利用者反応情報として出力する様にしている。
なお、この反応検知部106は、独立した一つの部品として構成することも、あるいは、他メディア入力部102に機能として組み込んで実現することも可能である。
図1における制御部107は、本システムの各種制御や、演算処理、判断等を司どるもので、本システムの制御、演算の中枢を担うものである。
なお、この制御部107が本装置の他の構成要素を制御することによって、本発明装置の動作を実現し、本発明装置の効果を得るものであるので、この制御部107の処理の手順については後で、その詳細に触れることとする。
図6に制御部107の内部構成例を示す。図に示すように、制御部107は、制御処理実行部201、制御規則記憶部202、および解釈規則記憶部203などから構成される。
これらのうち、制御処理実行部201は、内部に各要素の状態情報を保持するための状態レジスタSと、情報種別を保持する情報種レジスタMとを持ち、また、本マルチモーダル対話装置の各構成要素の動作状況、注視対象情報、利用者反応情報、出力情報など、各構成要素からの信号を受け取ると共に、これらの信号と、状態レジスタSの内容と、制御規則記憶部202および解釈規則記憶部203の内容を参照して、後述の処理手順Aに沿った処理を行ない、得られた結果対応に本マルチモーダルインタフェース装置の各構成要素への制御信号を出力することによつて、本マルチモーダルインタフェース装置の機能と効果を実現するものである。
また、制御規則記憶部202は所定の制御規則を保持させたものであり、また、解釈規則記憶部203は、所定の解釈規則を保持させたものである。
図7は、制御規則記憶部202に記憶された制御規則の内容例を表している。ここでは、各制御規則の情報が、“規則ID”、“現状態情報A”、“イベント条件情報B”、“アクションリスト情報C”、“次状態情報D”などに分類され記録されるようにしている。
制御記憶記憶部202の各エントリに於いて、“規則ID”には制御規則毎の識別記号が記録される。
また、“現状態情報A”の欄には、対応するエントリの制御規則を適用するための条件となる状態レジスタSの内容に対する制限が記録され、“イベント情報B”の欄には、対応するエントリの制御規則を適用するための条件となるイベントに対する制限が記録されるようにしている。
また、“アクションリスト情報C”の欄には、対応する制御規則を適応した場合に、行なうベき制御処理に関する情報が記録されており、また、“次状態情報D”の欄には、対応するエントリの制御規則を実行した場合に、状態レジスタSに更新値として記録すべき状態に関する情報が記録されるようにしている。
具体的には、制御記憶記憶部202の各エントリに於いて、“規則ID”には“Q1”,“Q2”,“Q3”,“Q4”,“Q5”,…といった具合に制御規則毎の識別記号が記録される。また、“現状態情報A”には、“入出力待機”,“入力中”,“可否確認中”,“出力中”,“準備中”,“中断中”,“呼掛中”,…といった具合に、それぞれの規則IDによるエントリの制御規則を適用するための条件として状態レジスタSの内容が、どのようなものでなければならないかを規則ID対応に設定してある。
また、“イベント条件情報B”は、“入力要求”,“出力制御受信”,“出力開始要求”,“出力準備要求”,“入力完了”,…といった具合に、対応するエントリの制御規則を適用するための条件となるイベントがどのようなものでなければならないかを規則ID対応に設定してある。また、“アクション情報C”は、“[入力受付FB 入力受付開始]”,“[]”,“[出力開始]”,“[出力可否]”,“[入力受付停止 入力完了FB]”,“[入力受付停止 取消FB提示]”,“[出力開始]”,“[呼掛け]”,…といった具合に、対応する制御規則を適用した場合に、どのようなアクションを行うのかを規則ID対応に設定してある。
なお、“アクション情報C”の欄に記録される制御処理のうち、“[入力受付FB(フィードバック)]”は利用者に対して、本装置の他メディア入力部102からの入力が可能な状態になったことを示すフィードバックを提示するものであり、例えば文字列や、面像情報あるいはチャイムや肯定の意味を持つ相槌など音声などの音信号を提示したり、あるいは擬人化イメージ提示部103を通じて利用者へ視線を向けたり、耳に手を当てるジェスチャを表示するなどを利用者へ提示する処理を表している。
また、“[入力完了FB(フィードバック)]”と“[確認受領FB(フィードバック)]”は、利用者に対してコミュニケーションが正しく行なわれたこと、あるいは利用者への呼掛けに対する利用者からの確認の意図を正しく受け取ったことを表すフィードバックを提示する処理である。
なお、“アクションリスト情報C”の欄に記録される制御処理のうち、“[入力受付FB(フィードバック)]”は利用者に対して、本装置の他メディア入力部102からの入力が可能な状態になったことを示すフィードバックを提示するものであり、その提示方法としては例えば“文字列”や、“面像情報”で提示したり、あるいは“チャイム”や肯定の意味を持つ“相槌”の音声などのように、音信号で提示したり、あるいは擬人化イメージ提示部103を通じて利用者へ視線を向けたり、耳に手を当てるジェスチャの画像を表示するなど、利用者に対しての反応を提示する処理を表している。
また、“[入力完了FB(フィードバック)]”と“[確認受領FB(フィードバック)]”は、利用者に対してコミュニケーションが正しく行なわれたこと、あるいは利用者への呼掛けに対する利用者からの確認の意図を正しく受け取ったことを表すフィードバックを提示する処理であり、“[入力受付FB(フィードバック)]”と同様に、音や音声や文字や画像による信号を提示したり、あるいは擬人化イメージ提示部103を通じて、例えば「うなづき」などのジェスチャを提示する処理を表している。
また、“[取消FB(フィードバック)]”は、利用者とのコミュニケーションにおいて、何らかの問題が生じたことを示すフィードバックをを利用者に提示する処理であり、警告音や、警告を意味する文字列や画像を提示したり、あるいは、擬人化イメージ提示部103を通じて、例えば手の平を上にした両手を曲げながら広げるジェスチャを提示する処理を表している。
また、“[入力受付開始]”、および“[入力受付停止]”はそれぞれ、他モード入力部102の入力を開始、および停止する処理であり、同様に“[出力開始]”、“[出力中断]”、“[出力再開]”、“[出力停止]”は情報出力部104からの利用者への情報の出力を、それぞれ開始、中断、再開、および停止する処理を表している。
また、“[出力可否検査]”は、注視対象検出部101から出力される注視対象情報と、解釈規則記憶部203の内容を参照して、利用者へ提示しようとしている情報を、現在利用者に提示可能であるかどうかを調べる処理を表している。
また、“[呼掛け]”は、利用者へ情報を提示する際に、利用者の注意を喚起するためにに、例えば警告音を提示したり、呼掛けの間投詞音声を提示したり、利用者の名前を提示したり、画面をフラッシュ(一次的に繰り返し反転表示させる)させたり、特定の画像を提示したり、あるいは擬人化イメージ提示部103を通じて、例えば手を左右に振るジェスチャを提示する処理を表している。
“[入力受付FB(フィードバック)]”と同様に、音や音声や文字や画像による信号を提示したり、あるいは擬人化イメージ提示部103を通じて、例えば「うなづき」などのジェスチャを提示する処理を表している。
また、“[取消FB(フィードバック)]”は、利用者とのコミュニケーションにおいて、何らかの問題が生じたことを示すフィードバックをを利用者に提示する処理であり、警告音や、警告を意味する文字列や画像を提示ししたり、あるいは、擬人化イメージ提示部103を通じて、例えば手の平を上にした両手を曲げながら広げるジェスチャを提示する処理を表している。
また、“[入力受付開始]”、および“[入力受付停止]”はそれぞれ、他モード入力部102の入力を開始、および停止する処理であり、同様に“[出力開始]”、“[出力中断]”、“[出力再開]”、“[出力停止]”は情報出力部104からの利用者への情報の出力を、それぞれ開始、中断、再開、および停止する処理を表している。
また、“[出力可否検査]”は、注視対象検出部101から出力される注視対象情報と、解釈規則記憶部203の内容を参照して、利用者へ提示しようとしている情報を、現在利用者に提示可能であるかどうかを調べる処理を表している。
また、“[呼掛け]”は、利用者へ情報を提示する際に、利用者の注意を喚起するために、例えば警告音を提示したり、呼掛けの間投詞音声を提示したり、利用者の名前を提示したり、画面をフラッシュ(一次的に反転表示させる)させたり、特定の画像を提示したり、あるいは擬人化イメージ提示部103を通じて、例えば手を左右に振るジェスチャを提示する処理を表している。
また、“次状態情報D”は、“入力中”,“可否確認中”,“出力中”,“準備中”,“入出力待機”,“呼掛中”,…といった具合に、対応するエントリの制御規則を実行した場合に、状態レジスタSに更新値として記録すべき情報(状態に関する情報)を規則ID対応に設定してある。
従って、“規則ID”が“Q1”のものは、対応するエントリの制御規則を適用する条件となる状態レジスタSの内容が“入出力待機”であり、“Q1”なるエントリが発生したときは、状態レジスタSの内容が“入出力待機”であれば、イベントとして“入力要求”が起こり、このとき、“入力受付フィードバックと入力受付開始”という制御処理を行って、状態レジスタSには“入力中”なる内容を書き込んで、“入出力待機”から“入力中”なる内容に当該状態レジスタSの内容を更新させる、ということがこの制御規則で示されていることになる。
同様に“規則ID”が“Q5”のものは、対応するエントリの制御規則を適用する条件となる状態レジスタSの内容が“入力中”であり、“Q5”なるエントリが発生したときは、状態レジスタSの内容が“入力中”であれば、イベントとして“入力完了”が起こり、このとき“入力受付停止と入力完了フィードバック”という制御処理を行って、状態レジスタSはその内容を“入出力待機”に改める、ということがこの制御規則で示されていることになる。
図8は、解釈規則記憶部203の内容例を表しており、各解釈規則に関する情報が、“現状態情報A”、“注視対象情報B”、“入出力情報種情報C”、および“解釈結果情報D”などに分類され記録されるようにしている。
解釈規則記憶部203の各エントリにおいて、“規則ID”の欄には、対応する規則の識別記号が記録されている。また、“現状態情報A”の欄には対応する解釈規則を適応する場合の、状態レジスタSに対する制約が記録されている。
また、“注視対象情報B”の欄には、注視対象検出部101から受け取り、制御処理実行部201によって解釈を行なう、注視対象情報の“注視対象情報A”の欄と比較照合するための注視対象に関する情報が記録されている。
また、“入出力情報C”の欄には、入力時には利用者から入力される情報の種類に対する制約が、また出力時には利用者へ提示する情報の種類に関する制約が記録されるようにしている。
そして、“解釈結果情報D”の欄には、受け取った注視対象情報に対してその解釈規則を適用した場合の解釈結果が記録されるようにしている。
具体的には、“規則ID”には、“R1”,“R2”,“R3”,“R4”,“R5”,“R6”,…といった具合に、対応する規則の識別符号が記録される。また、“現状態情報A”には“入出力待機”,“入力中”,“可否確認中”,“出力中”,“準備中”,“中断中”,…といった具合に、対応する解釈規則を適応する場合に、状態レジスタSの保持している情報の持つべき内容が記録されている。
また、“注視対象情報B”には、“入力要求領域”,“擬人化イメージ”,“マイク領域”,“カメラ領域”,“出力要求領域”,“キャンセル要求領域”,“出力要求領域以外”,“他人物”,“出力領域”,“装置正面”,…といった具合に、注視対象検出部101から受け取り、制御処理実行部201によって解釈を行なう、注視対象情報の“注視対象情報A”の欄と比較照合するための注視対象に関する情報が記録されている。
また、“入出力情報種情報C”には、“音声情報”,“視覚情報”,“動画情報”,“動画情報以外”,“静止画情報”,…といった具合に、入力時においては利用者から入力される情報の種類に対する制約が、また出力時には利用者へ提示する情報の種類に関する制約が記録される。
そして、“解釈結果情報D”には、“入力要求”,“出力準備”,“取消要求”,“要中断”,“開始可能”,“再会可能”,“確認検出”,…といった具合に、受け取った注視対象情報に対してその解釈規則を適用した場合の解釈結果が記録される。
従って、例えば、“規則ID”が“R2”である規則を適用する場合は、状態レジスタSの内容が“入出力待機”である必要があり、注視対象領域は“擬人化イメージ”であり、入力時及び出力時は“音声情報”を使用し、解釈結果は“入力要求”であることを示している。
以上が制御部107の構成である。
続いて、本発明装置において、中心的な役割を演じる制御処理実行部201での処理の詳細について説明する。
制御部107の構成要素である制御処理実行部201での処理は下記の処理手順Aに沿って行なわれる。
なお、図9は処理手順Aの流れを表すフローチャートである。
<処理手順A>[ステップA1] まずはじめに、制御処理部201は初期化処理をする。この初期化処理は状態レジスタSと情報種レジスタMを初期状態に設定するもので、この初期化処理により状態レジスタSには「入出力待機」なる内容の情報が設定され、情報種レジスタMには、「未定義」なる内容の情報が設定され、他メディア入力部102が入力非受付状態にされる(初期化)。
[ステップA2] 初期化が済んだならば、入力/出力の判断がなされる。本制御部107への入力を待ち、入力があった場合には、その入力が注視対象検出部101からであった場合、すなわち、注視対象検出部101からその検出出力である注視対象情報Giが送られて来た場合は、注視情報解釈処理を行うステップA3へと進む。また、本発明では直接関係ないので詳細は説明しないが、マルチモーダル対話装置の主要な構成要素となる問題解決装置あるいは、データベース装置、あるいはサービス提供装置から、本制御部107に出力情報Ojが与えられた時は、入力/出力判断ステップであるステップA2ではステップA12へと処理を移す。
すなわち、制御部107ではA2において、解決装置やデータベース装置あるいはサービス提供装置から出力情報Ojが与えられたときは、ステップA12に進む。出力情報Ojは情報出力部104を用いて、利用者へ情報出力を行なうための制御信号であり、利用者へ提示すべき情報内容Cjと、情報の種類である情報種別Mjを含む(入力/出力判定)。
[ステップA3] ここでの処理は注視情報解釈であり、状態レジスタSの内容、および注視対象情報Giの内容、および情報種レジスタMの内容と、解釈規則記憶部203の各エントリの“現状態情報A”の内容、および“注視注対象情報B”の内容、および“入出力情報種情報C”とを、それぞれ比較照合することで、解釈規則中で条件が適合する解釈規則Ri(i=1,2,3,4,5…)を探す(注視情報解釈)。
[ステップA4] ステップA3において、条件が適合する解釈規則Riが見つからない場合には、ステップA11へ進み、見つかった場合はステップA5に進む(解釈可能判定)。
[ステップA5] 見つかった解釈規則Riに対応する“解釈結果情報D”を参照し、当該“解釈結果情報D”に記述されている解釈結果Iiを得る。そして、ステップA6に進む(解釈結果決定)。
[ステップA6] 状態レジスタSの内容、および解釈結果Iiを、制御規則記憶部202の“現状対情報A”の内容、および“イベント条件情報B”の内容と、それぞれ比較照合することで、対応する制御規則Qiを探す。そして、ステップA7に進む(制御規則検索)。
[ステップA7] ステップA6の処理において、条件に適合する解釈規則Qiが見つからなかった場合には、ステップA11へ進む。一方、条件に適合する解釈規則Qiが見つかった場合にはステップA8に進む(制御規則有無判定)。
[ステップA8] ここでは制御規則Qiの、“アクション情報C”の欄を参照して、実行すべき制御処理のリスト[Ci1.Ci2、…]を得る。そして、ステップA9に進む(制御処理リスト取得)。
[ステップA9] 実行すべき制御処理のリスト[Ci1.Ci2、…]が得られたならば、この得られた制御処理のリスト[Ci1.Ci2、…]の各要素について、順次<処理手順B>(後述)に従い制御処理を実行する(各制御処理実行)。
[ステップA10] 状態レジスタSに、Qiの“次状態情報D”の内容を記録する。そして、ステップA11に進む(状態更新)。
[ステップA11] 注視対象情報Giに関する処理を終了し、ステップA2へ戻る(リターン処理)。
[ステップA12] ステップA2において、出力情報Ojが与えられた時は、制御部107はステップA12の処理に進むが、このステップでは情報種レジスタMに、その出力情報Ojの情報種別Mjを記録し、制御規則記憶部202に記憶されている制御規則を参照し、その中の“現状状態A”の内容が状態レジスタSの内容と一致し、かつ“イベント条件情報B”の内容が「出力制御受信」であるエントリQk(k=1,2,3,4,5,…)を探す。そして、ステップA13の処理に移る(制御規則検索)。
[ステップA13] ここでは、ステップA12において、Q1からQxの規則IDの中から、条件に適合する制御規則ID Qk(k=1,2,3,4,…k−1,k、k+1,k+2,…x)が見つからない場合には、ステップA17へ進み、条件に適合する制御規則Qkが見つかった場合はステップA14に進む(該当する制御規則の有無判定)。
[ステップA14] ステップA14では、制御規則記憶部202にある制御規則中の“アクション情報C”のうち、見つかった制御規則Qkに対応する“アクション情報C”を参照して、実行すべき制御処理のリスト[Ck1.Ck2、…」を得る(制御処理リスト取得)。
[ステップA15] 制御処理のリスト[Ck1、Ck2、…」の各要素について、順次<処理手順B>(後述)に従い制御処理を実行する(各制御処理実行)。
[ステップA16] そして、状態レジスタSに、Qkなる規則IDに対応する“次状態情報D”の内容を記録する(状態更新)。
[ステップA17] 情報情報Ojに関する処理を終了し、ステップA2へ戻る(リターン処理)。
以上が、処理手順Aの内容であり、入ってきた情報が、利用者からのものであるか、利用者に対して提示するものであるかを判定し、前者(利用者からの情報)であれば注視情報を解釈し、解釈結果を決定し、その決定した解釈結果に対応する制御規則を検索し、該当の制御規則があればどのような制御をするのかを制御規則中からリストアップし、そのリストアップされた制御内容の制御を実施し、また、後者(利用者に対して提示するもの)であれば出力のための制御規則を検索し、該当制御規則があればどのような制御をするのかを制御規則中からリストアップし、そのリストアップされた制御内容の出力制御処理を行うようにしたもので、音声や、映像、カメラ、キーボードやマウス、データグローブなど、様々な入出力デバイスと解析処理や制御技術を用いてコミュニケーションを図る際に、人間同士のコミュニケーションのように、何に注意を払って対話を進めれば良いかをルールで決めて、対話の流れと用いたデバイスに応じて、使用すべき情報とそれ以外の情報とに分け、対話のための制御を進めていくようにしたから、雑音成分の取り込みを排除できて、誤動作を防止できるようにし、また、状況に応じて、注意を喚起したり、理解度や対話の状況、反応を擬人化画像でジェスチャ表示したりして、自然な対話を可能にした。
次に処理手順Bを説明する。処理手順Bでは、アクション情報の内容に応じて次のような提示動作や制御動作をする。
<処理手順B>[ステップB1] まず、アクション情報である制御処理Cxが「入力受付FB」である場合は、例えば「入力可能」といった文字列や、「マイクに丸印の付された絵」といった画像情報や、あるいはチャイム音や、肯定の意味を持つ「はい」といった相槌などを、音声や文字で提示したり、あるいは擬人化イメージ提示部103を通じて利用者へ視線を向けたり、耳に手を当てるジェスチャを表示する。
[ステップB2] 制御処理Cxが「入力完了FB」である場合は、例えば「入力完了」といった文字列や、「マイクに×印の絵」といった画像情報や、あるいは「チャイム音」や、肯定の意味を持つ「はい」や、「判りました」といった相槌などを、音声や文字で提示したり、あるいは擬人化イメージ提示部103を通じて利用者へ視線を向ける画像を提示したり、うなづく画像を提示したりといった具合にジェスチャを画像で表示する。
[ステップB3] 制御処理Cxが、「受領確認FB」である場合は、例えば「確認」といった文字列や、画像情報や、あるいはチャイム音や、肯定の意味を持つ「はい」や、「判りました」といった相槌などを、音声や文字で提示したり、あるいは擬人化イメージ提示部103を通じて利用者へ視線を向けたり、うなづくなどの画像を用いてジェスチャを表示する。
[ステップB4] 制御処理Cxが、「取消FB」である場合は、警告音や、警告を意味する文字列や、記号や、画像を提示したり、あるいは、擬人化イメージ提示部103を通じて、例えば手の平を上にした両手を曲げながら広げるといった具合の画像を用いてジェスチャを提示する。
[ステップB5] 制御処理Cxが、「入力受付開始」および、「入力受付停止」である場合は、他モード入力部102からの入力をそれぞれ、開始および停止する。
[ステップB7] 制御処理Cxが、「出力開始」、「出力中断」、「出力再開」、および「出力停止」である場合は、情報出力部104からの利用者への情報の出力を、それぞれ開始、中断、再開、および停止する。
[ステップB8] 制御処理Cxが、「呼掛け」である場合は、例えば警告音を提示したり、例えば「もしもし」などの呼掛けの間投詞音声を提示したり、利用者の名前を提示したり、画面をフラッシュ(一次的に反転表示させる)させたり、特定の画像を提示したり、あるいは擬人化イメージ提示部103を通じて、例えば手を左右に振るジェスチャを提示する。
なお、情報種レジスタMには、利用者へ提示しようとする際に、出力情報の種類が適宜記録されるようにしている。
以上が本装置の構成とその機能である。
<具体例を用いた説明>続いて、上述したマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について、さらに詳しく説明する。
ここでは、利用者の視線および頭部方向検機能と、本装置の前にいる利用者と他人を認識する人物認識出機能を持つ注視対象抽出部101と、他メディア入力手段102としての音声入力部と、身振り、手振り、表情変化によるジェスチャを利用者に提示可能な擬人化イメージ提示部103と、情報出力部104としての文字情報および静止画像情報および動画像情報の画像出力と音声出力部を持つ装置を利用者が使用する場面を、具体例として説明を行なう。
なお、図10は、各時点における本装置の内部状態を表している。
[t0] 制御部107では“処理手順A”におけるステップA1の処理によって、状態レジスタSおよび情報種レジスタMにそれぞれ「入出力待機」と「未定義」が記録され、これにより他メディア入力手段102の構成要素の一つである音声入力部は「入力非受付」の状態となる。
[t1] ここで、本装置の周囲でノイズ(雑音)が発生したとする。しかし、音声入力は非受付の状態であるので、このノイズを音声として拾うことはなく、従って、ノイズによる誤動作は起こらない。
[t2] つづいて、擬人化イメージ提示部103の顔を見ることで、利用者が音声入力の開始を試みる。すなわち、擬人化イメージ提示部103には図4に示すように、利用者とジェスチャをまじえたコミュニケーションをとることができるようにディスプレイ画面に受付嬢の画像を提示する擬人化イメージ提示部102aがあり、また、文字や映像等で情報を出力するために、情報出力領域102bがある。この擬人化イメージ提示部103には、初期の段階では図11(a)に示すような待機状態の受付嬢の上半身の姿が提示されるように制御されている。従って、利用者は無意識のうちにこの受付嬢の姿を目で注視することになる。
[t3] 注視対象検出部101が、これを検知して、注視対象情報として、図2のID=P101の欄に示した、注視対象情報を出力する。
[t4] “処理手順A”におけるステップA2での判断によって、ステップA3へ進み、解釈規則記憶部203から対応する解釈規則が検索され、またこのとき、“状態レジスタS”の内容が「入出力待機」であり、かつID=P101の注視対象情報の“注視対象情報A”が「擬人化イメージ」であることから、図8に示した解釈規則記憶部203から、規則ID=R2の解釈規則が抽出される(図8における“規則ID”が“R2”の該当する“解釈結果情報D”である「入力要求」という解釈結果情報が抽出される)。
[t5] “処理手順A”におけるステップA5によって、“解釈規則R2”の“解釈結果情報D”の内容から、解釈結果として「入力要求」が得られる。
[t6] “処理手順A”におけるステップA6の処理によって、制御規則記憶部202からの検索が行なわれ、現状態情報(図2の“注視対象情報A”)が「入力待機」であり、かつ、イベン卜条件情報(図2の“時間情報B”)が「入力要求」であることから、図7の“規則ID”が[Q1]なるIDの制御規則が選択され、ステップA8の処理によって、“制御規則Q2”の対応の“アクション情報C”の内容として、“[入力受付FB、入力受付開始]”を得る。
[t7] “処理手順A”におけるステップA9の処理および、“処理手順B”での処理によって、例えば、擬人化イメージ提示部103を通じて、図11(b)の如き「耳に手をかざす」ジェスチャの画像が利用者に提示されるとともに、「はい」という音声が利用者に提示され、音声入力の受付が開始され、ステップA10,ステップA11によって、状態レジスタSおよび情報種レジスタMの内容が更新される。
[t8] 利用者からの音声入力が完了し、制御信号(イベン卜)として「入力完了」が制御部に通知され、“処理手順A”に従った処理により、解釈規則Q5が選択/実行され、音声入力が非受付となった後、“処理手順B2”によって、例えば「入力完了」といった文字列や、マイクに×印の絵といった画像情報や、あるいはチャイム音が利用者に提示される。
以上例示した処理によって、“音声入力が必要でない場面”では入力を“非受付”としておくことによって、ノイズなどによる誤動作を防ぐことが出来、また“音声入力が必要な場面”では、単に擬人化イメージの方を向くだけで音声入力が可能となり、
さらに、そのときジェスチャなどにより利用者へフィードバックを提示することによって、音声入力の受付状態が変更されたことが利用者に判るようになることによって、誤動作がなく、しかも、特別な操作による負担がなく、人間同士の対話での方法と同じであるために、自然で、習得や余分な負担が必要のないヒューマンインタフェースにふさわしいマルチモーダルインタフェースを実現している。
さらに、そのときジェスチャなどにより利用者へフィードバックを提示することによって、音声入力の受付状態が変更されたことが利用者に判るようになることによって、誤動作がなく、しかも、特別な操作による負担がなく、人間同士の対話での方法と同じであるために、自然で、習得や余分な負担が必要のないヒューマンインタフェースにふさわしいマルチモーダルインタフェースを実現している。
[t9] つづいて、利用者ではない他の人物xが利用者に近付き、利用者がその人物xの方向を向いたとする。
[t10] ここで、注視対象検出部101が、これを検知して、注視対象情報として、図2の“注視対象情報ID”のうち、“P102”なるIDの欄に示した、“注視対象情報A”である「他人物」なる注視対象情報を出力する。
[t11] 時点t4と同様の処理が行なわれるが、この場合の条件に適合する解釈規則は存在しないから、ステップA11へ進み、この注視対象情報に関する処理は終了する。
[t12] さらに、利用者が“人物x”の方向を向いたままの状態であるときに、制御部107に対して、例えば、情報種別M=「動画情報」である出力情報Ojを利用者に提示するための出力制御信号が与えられたとする。
[t13] “制御手順A”におけるステップA2によって、ステップA12へ進み、情報種レジスタMに「動画情報」が記録され、制御規則記憶部202を参照し、“現状態情報A”が、状態レジスタSの内容「入出力待機」と一致し、かつ“イベント条件情報B”が、「出力制御受信」であるエントリとして、規則ID=Q2の制御規則が抽出される。
[t14] “制御手順A”におけるステップA13〜A17の処理を経ることによって、“制御規則Q2”の対応する“アクション情報C”から、「実行すべき制御処理はない」ことが判り、ステップA16の処理によって、“制御規則Q2”の対応する“次状態情報D”を参照し、状態レジスタSに「可否確認中」が記録され、ステップA2の処理へと進む。
[t15] 続いて、利用者が“人物X”の方向を向いていることから、注視対象検出部101から、図2の注視対象情報IDのうち、“P103”なるIDを持つ注視対象情報が得られる。
[t16] “処理手順A”におけるステップA2〜A5の処理を経ることによって、状態レジスタSの内容が「可否確認中」であり、かつ注視対象情報P103の“注視対象情報A”が「他人物」であり、かつ情報種レジスタMの内容が「動画像情報」であることから、図8の規則ID=R11のエントリが抽出され、解釈結果として、「出力不能」が得られる。
[t17] “処理手順A”のステップA6〜A9の処理を経ることによって、時点t6〜t8と様の処理により“制御規則Q9”が選択され、処理手順BのステップB8の処理によって、利用者に対して、例えば、画面フラッシュや名前の呼掛けが行なわれる。
[t18] ここで利用者が、動画情報が提示される画面領域を向くことによって、注視対象検出部101から、図2における“P104”なる注視対象IDの注視対象情報が出力され、上述の場合と同様の処理によって、“解釈規則R22”から、解釈結果として「確認検出」が得られ、図7の“制御規則Q14”によって、その“アクション情報C”から、制御処理として、[確認受領FB提示、出力開始]なるアクション情報が得られる。
[t19] “処理手順A”におけるステップA9および“処理手順B”におけるステップB3の処理によって、例えば、「はい」といった相槌などが音声や文字で利用者に提示されたあと、“処理手順B”のステップB7の処理によって利用者に提示すべき動画情報の出力が開始され、ステップA10で状態レジスタSの内容が 「出力中」に更新される。
以上の処理によって、本装置では、利用者の注視対象、および提示する情報の種類に応じて、適切に出力の開始を制御し、また、利用者への呼掛けと、その呼掛けに対する利用者の反応に応じて各部を制御することによって、利用者の注意が別に向いており、かつその状態で情報の提示を開始すると、提示する情報の一部あるいは全部を利用者が受け取れなくなるという問題を解消している。
[t20] さらに、この動画情報の提示中に利用者が再度、他の“人物X”の方を向き、それが注視対象検出部101によって検知され、注視対象情報IDが“P101”なる注視対象情報が出力されたとする。
[t21] その結果、解釈規則記憶部203の持つ図8の記憶情報のうちの“解釈規則R14”により、「要中断」なる“解釈結果情報D”が得られ、制御規則記憶部202の記憶情報中の当該「要中断」なる“イベント条件情報B”に対応する制御規則である“制御規則Q11”なる規則IDの制御規則により、出力が中断され、状態レジスタが「中断中」となる。
[t22a] その後、利用者が再度出力領域を注視すれば、“注視対象情報P106”が出力され、“解釈規則R19”と、“制御規則Q12”により出力が再開される。
[t22b] あるいは、例えば、利用者がそのまま他に注意を向け続けた場合には、予め定めた時間の経過などによって、中断タイムアウトの制御信号が出力され、“制御規則Q13”によって、動画像の出力の中断その報告がなされる。
以上示した通り、本装置によって、利用者の注意の向けられる対象である注視対象と、装置の動作状況と、提示する情報の種類や性質に応じて、適切に情報の提示を制御することによって、注意を逸らした状態では正しく受け取ることが困難な情報を、利用者が受け取り損なうという問題や、情報の出力を中断したり、あるいは中断した出力を再開する際に特別な操作を行なう必要があるために利用者の負担が増加するという問題を解決することが出来る。
さらに、上記の動作例には含まれてないが、図7の制御規則Q4、Q12、Q13などを使用することによって、例えば動画情報などのように利用者が出力領域を注視していない状態で、出力を開始すると、提示情報の一部あるいは全部を利用者が受け取り損なう恐れのある情報を提示する際、情報の出力要求があった時点では出力を開始せず、状態を準備中として待機し、注視対象情報から利用者が出力対象領域を注視したことを知った段階で、解釈規則R13、R14、R15などを利用することによって、情報提示が開始可能であることを検知し、その時点で情報の提示を開始することで、これらの問題を回避することも可能である。
あるいは、解釈規則R3、解釈規則R4、解釈規則R18、解釈規則R21などを用いることによって、例えば、マイクを注視したら音声入力が受付られるように構成したり、カメラを注視したら画像入力が開始されるようにしたり、あるいはスピーカを注視したら、音声出力が開始されるように構成することも可能である。
なお、以上はマルチモーダル対話装置としての具体例であるが、前述の通り、本発明のインタフェースとしての構成要素部分は、本実施例のマルチモーダル対話装置から、それぞれ必要な構成要素とその機能を抽出し組み合わせることによって、実現可能である。
具体的には、課題を解決するための手段の項における[1]の発明の装置は、注視対象検出部101と、他メディア入力部102、および制御部107を組み合わせることによって実現可能である。
また、[2]の発明および[4]の発明の装置は、これらに擬人化イメージ提示部103を加えることによって実現可能であり、また、[3]の発明の装置は、[4]の発明の装置において、擬人化イメージ提示部103を通じてなされる、利用者へのフィードバックの提示を、文字情報、音声情報、静止画像情報、動画像情報、力の提示など少なくとも一つの信号の提示する機能を追加することによって実現することができる。
また、[5]の発明の装置は、注視対象検出部101と、情報出力部104、および制御部107を組み合わせることで実現でき、[6]の発明の装置は、[5]の発明の装置に、注意喚起部105を追加することによつて実現することができ、[7]の発明の装置は、[6]の発明の装置に、反応検知部106を追加することによって実現できる。以上が本装置の構成と機能である。
なお、第1の実施例に示した本発明は方法としても適用できるものであり、また、上述の具体例の中で示した処理手順、フローチャート、解釈規則や制御規則をプログラムとして記述し、実装し、汎用の計算機システムで実行することによっても同様の機能と効果を得ることが可能である。
すなわち、本発明は汎用コンピュータにより実現することも可能で、この場合、図12に示すように、CPU301,メモリ302,大容量外部記憶装置303,通信インタフェース304などからなる汎用コンピュータに、入力インタフェース305a〜305nと、入力デバイス306a〜306n、そして、出力インタフェース307a〜307mと出力デバイス308a〜308mを設け、入力デバイス306a〜306nとして、マイクやキーボード、ペンタブレット、OCR、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツといったものを使用し、そして、出力デバイス308a〜308mとして、ディスプレイ、スピーカ、フォースディスプレイ、等を用いてCPU301によるソフトウエア制御により、上述の如き動作を実現することができる。
以上、バックグラウンド(i)に関わるその解決策を提示した。
本実施例によれば、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識の発生や、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号のなかから、利用者が入力メッセージとして意図した信号部分の切りだしに失敗することなどによる誤動作が起こらないインタフェースが実現できる。また、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自分への入力であると誤って判断をして、認識処理などを行なって、誤動作を起こり、その誤動作の取消や、誤動作の影響の復旧や、誤動作を避けるために利用者が絶えず注意を払わなくてはいけなくなるなどの負荷を解消することによって、利用者の負担を軽減することが出来る。
また、本来不要な場面には、入力信号の処理を継続的にして行なわないようにできるため、利用している装置に関与する他のサービスの実行速度や利用効率を向上することが出来る。
また、入力モードなどを変更するための特別な操作が必要なく、利用者にとって繁雑でなく、習得や訓練が必要でなく、利用者に負担を与えない人間同士の会話と同様の自然なインタフェースを実現することが出来る。
また、例えば音声入力は手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を有効に活用するインタフェースを実現することが出来る。
また、提示される情報が提示してすぐ消滅したり、刻々変化したりする一過性のメディアも用いて利用者に情報提示する際にも、利用者がそれらの情報を受け損なうことのないインタフェースを実現することが出来る。
また、一過性のメディアも用いて利用者に情報提示する際、利用者が一度に受け取れる分量毎の情報を提示し、継続する次の情報を提示する場合にも、特別な操作が不要なインタフェースを実現することが出来る。
また、従来のマルチモーダルインタフェース不可能であった視線一致(アイコンタクト)、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的活用することが出来る。
つまり、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、インタフェースが実現できる。
次に、上述のバックグラウンド(ii)に関わるその解決策としての発明の実施例を説明する。
利用者が入力を意図した音声やジェスチャなどの非言語メッセージを、自然且つ、円滑に入力できるようにするべく擬人化エージェントを提示することは、利用者にとって自然人との対話をしているかの如き効果があり、操作性の著しい改善が期待できるが、これを更に一歩進めて、利用者の指し示したジェスチャの指示対象を擬人化エージェントが注視するよう表示する構成とすることにより、利用者のジェスチャの指し示し先をシステムの側で認識できなくなったり、システム側での認識結果が誤っていないかなどが、利用者の側で直感的にわかるようになり、このようにすると、利用者にとって、自然人の案内係が一層懇切丁寧に応対してくれているかの如き操作性が得られ、操作にとまどったり、操作上、無用に利用者に負担をかける心配が無くなる。そこで、次にこのようなシステムを実現するための実施例を第2の実施例として説明する。
(第2の実施例)ここでは、利用者が入力を意図した音声やジェスチャなどの非言語メッセージを、自然且つ、円滑に入力できるようにするべく、利用者からのジェスチャ入力を検知した際に、擬人化エージェントの表情によって、ジェスチャ入力を行う手などを随時注視したり、あるいは指し示しジェスチャに対して、その参照対象を注視することによって、利用者へ自然なフィードバック(すなわち、システム側から利用者に対する認識状況対応の反応)を提示できるようにし、さらに、その際、利用者や擬人化エージェン卜の視界、あるいは参照対象等の空間的位置を考慮して、擬人化エージェントを適切な場所に移動、表示するよう制御できるようにした例を説明する。
また、この第2の実施例では、その目的として、機器の装着や機器の接触操作による指示は勿論のこと、これに加えて一つは離れた位置からや、機器に非接触で、かつ、機器を装着せずとも、遠隔で指し示しジェスチャを行い、認識させることも可能であり、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を抑制することができるようにする実施例を示す。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているか否かが分からないため、結果として誤認識を引きおこしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして生じる利用者の負担を抑制するため、このようなことを未然に防ぐことができるようにする技術を示す。
また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することを可能にする技術提供するものである。さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができるようにする。
さらに、擬人化インタフェースを用いたインタフェース装置、およびインタフェース方法で、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが出来るようにする。
以下、図面を参照して本発明の第2の実施例に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式につき説明する。はじめに構成を説明する。
<構成>図13は、本発明の第2の実施例にかかるマルチモーダルインタフェース装置の構成の概要を表すブロック図であり、図13に示す如く本装置は、入力部1101、認識部1102、フィードバック生成部1103、出力部1104、配置情報記憶部1105、および制御部1106から構成される。
このうち、入力部1101は、当該マルチモーダルインタフェース装置の利用者からの音声信号、あるいは画像信号、あるいは操作信号などの入力を随時、取り込むことができるものであり、利用者からの音声入力を取り込むマイクロフォン、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは利用者の手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち少なくとも一つからなるものである。
そして、利用者からの入力として音声入力を想定する場合には、入力部1101は、例えば、マイクロフォン、アンプ、アナログ/デジタル(A/D)変換装置などから構成されることとなり、また利用者からの入力として、画像入力を想定する場合には、入力部1101は、例えば、カメラ、CCD素子(固体撮像素子)、アンプ、A/D変換装置、画像メモリ装置などから構成されることとなる。
また、認識部1102は、入力部1101から入力される入力信号を随時解析し、例えば、利用者の意図した入力の時間的区間あるいは空間的区間の抽出処理や、あるいは標準パターンとの照合処理などによって認識結果を出力するものである。
より具体的に説明すると当該認識部1102は、音声入力に対しては、例えば、時間当たりのパワーを計算することなどによって音声区間を検出し、例えばFFT(高速フーリエ変換)などの方法によって周波数分析を行い、例えばHMM(隠れマルコフモデル)や、ニューラルネットワークなどを用いて照合弁別処理や、あるいは標準パターンである音声辞書との、例えばDP(ダイナミックプログラミング)などの方法を用いた照合処理によって、認識結果を出力するようにしている。
また、画像入力に対しては、例えば“Uncalibrated Stereo Vision with Pointing for a Man−Machine Interface”(R.Cipolla,et.al.,Proceedings of MVA′94,IAPR Workshop onMachine Vision Appllcation,pp.163−166,1994.)に示された方法などを用いて、利用者の手の領域を抽出し、その形状、空間位置、向き、あるいは動きなどを認識結果として出力するようにしている。
図14は、画像入力を想定した場合の実施例の入力部1101および認識部1102の内部構成の例を表している。
図14において、1201はカメラ、1202はA/D変換部、1203は画像メモリであり、入力部1101はこれらにて構成される。カメラ1201は、利用者の全身あるいは、例えば、顔や手などの部分を撮影し、例えばCCD素子などによって画像信号を出力するようにしている。また、A/D変換部1202は、カメラ1201から得られる画像信号を変換し、例えばビットマップなどのデイジタル画像信号に変換する様にしている。また、画像メモリ1203は、A/D変換部1202から得られるディジタル画像信号を随時記録するようにしている。
また、図14において1204は注目領域推定部、1205は認識辞書記憶部、1206は照合部であり、これら1204〜1206にて認識部1102は構成される。
認識部1102の構成要素のうち、注目領域推定部1204は、画像メモリ1203の内容を参照し、例えば差分画像や、オプティカルフローなどの手法によって、例えば、利用者の顔や目や口、あるはジェスチャ入力を行っている手や腕などといった注目領域情報を抽出するようにして構成されている。また、認識辞書記憶部1205は、認識対象の代表画像や、抽象化された特徴情報などを、あらかじめ用意した標準パターンとして記憶するものである。また、照合部1206は、画像メモリ1203と、注目領域推定部1204から得られる注目領域情報の内容と認識辞書記憶部1205の内容とを参照し、例えば、パターンマッチングや、DP(ダイナミックプログラミング)や、HMM(隠れマルコフモデル)や、ニューラルネットなどの手法を用いて両者を比較照合し、認識結果を出力するものである。
なお、注目領域推定部1204および照合部1206の動作状況は、動作状況情報として制御部1106に随時通知されるようにしている。また、注目領域推定部1204および照合部1206は、両者の処理を一括して行う同一のモジュールとして実現することも可能である。
以上が、入力部1101と認識部1102の詳細である。
再び、図13の構成に戻って説明を続ける。図13におけるフィードバック生成部1103は、利用者ヘフィードバックとして提示すべき情報を生成するものであり、例えば、利用者に対する注意喚起や、システムの動作状況を知らせるために、予め用意した警告音や、文字列、画像を選択したりあるいは、動的に生成したり、あるいは、提示すべき文字列から合成音声技術を利用して音声波形を生成したり、あるいは第1の実施例に示した「マルチモーダル対話装置及びマルチモーダル対話方法」での擬人化イメージ提示部103や、あるいは本発明者等が提案し、特許出願した「身体動作生成装置および身体動作動作制御方法(特願平8−57967号)」に開示した技術等と同様に、例えば、CG(コンピュータグラフィックス)を用いて、利用者と対面し、サービスを行う「人間」、「動物、」あるいは「ロボット」など、擬人化されたキャラクタが、例えば顔表情や身振り、手振りなどを表現した静止画像あるいは動画像を生成したりするようにしている。
また、出力部1404は、例えば、ランプ、CRTディスプレイ、LCD(液晶)ディスプレイ、プラズマディスプレイ、スピーカ、アンプ、HMD(へッドマウントディスプレイ)、提力ディスプレイ、ヘッドフォン、イヤホン、など少なくとも一つの出力装置から構成され、フィードバック生成部1103によって生成された、フィードバック情報を利用者に提示するようにしている。
なお、ここではフィードバック生成部1103で音声信号が生成されるマルチモーダルインタフェース装置を実現する場合には、例えばスピーカなど音声信号を出力するための出力装置によって出力部1104が構成され、また、フィードバック生成部1103において、例えば、擬人化イメージが生成されるマルチモーダルインタフェース装置を実現する場合には、例えばCRTディスプレイによって出力部1104が構成される。
また、配置情報記憶部1105は、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置に関する情報である位置情報を得、入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持するようにすると共に、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、例えば、利用者の指し示しジェスチャの対象である参照物を、随時注視する表情を提示するなど利用者にフィードバックを提示する方式にする場合に使用される。
配置情報記憶部1105には、例えば、利用者からの実世界への指し示しジェスチャを装置が受け付ける場合に、利用者に対して提示するフィードバック情報の生成の際に参照される出力部1104の空間位置から指し示す際に必要となる方向情報算出用の出力部1104の空間位置あるは配置方向などの情報(利用者に対して提示するフィードバック情報生成の際に参照される空間位置情報あるいは方向情報であって、入力部1101から入力され、認識部1102によって認識されて出力される参照物位置情報に含まれる利用者の意図した参照先の空間位置を、出力部1104の空間位置から指し示す際に必要となる方向情報の算出のための出力部1104の空間位置、あるは配置方向などの情報)が記録されるようにしている。
図15は、この配置情報記憶部1105の保持内容の例を表している。
図15に示す一例としての配置情報記憶部1105の各エントリには、本装置の構成要素である認識部1102によって得られる指示場所、指示対象および利用者の手や顔の位置、および指し示しジェスチャの参照先の位置、および方向などに関する情報が、「ラベル情報A」、「代表位置情報B」、「方向情報C」などと分類され、随時記録されるようにしている。
ここで、配置情報記憶部1105の各エントリにおいて、「ラベル情報A」の欄には該エントリにその位置情報および方向情報を記録している場所や物を識別するためのラベルが記録される。また、「代表位置情報B」の欄には対応する場所あるいはものの位置(座標)が記録される。また、「方向情報C」の欄には、対応する場所あるいはものの方向を表現するための方向ベクトルの値が、必要に応じて記録される。
なお、これら「代表位置情報B」および「方向情報C」はあらかじめ定めた座標系(世界座標系)に基づいて記述されるようにしている。
また、図15の各エントリにおいて、記号「−」は対応する手間の内容が空であることを表し、また記号「〜」は本実施例の説明において不要な情報を省略したものであることを表し、また記号「:」は本発明の説明において不要なエントリを省略して表しているものとする(以下同様)。
また、図13における制御部1106は、本発明システムにおける入力部1101、認識部1102、フィードバック部1103、出力部1104、および配置情報記憶部1105などの各構成要素の動作及びこれら要素間で入出力される情報の授受などの制御を司るものである。
なお、本システムにおいては制御部1106の動作が本発明システムの実現に重要な役割を担っているので、この動作については後に詳しく述べることとする。
以上が本システムの装置構成とその機能である。つづいて、制御部1106の制御によってなされる本発明システムの処理の流れについて説明する。
<制御部1106による制御内容>制御部1106の制御による本発明システムの処理の流れについて説明する。なお、ここからは、入力部1101として、図14に示したようにカメラ1201による画像入力手段を有すると共に、また、例えば、“Uncalibrated Stereo Vision with Pointing for aMan−Machine Interface”(R.Cipolla,et.al.,Proceedings of MVA’94,IAPR Workshop on Machine Vision Applicatio,pp.163−166,1994.)に示された方法などによって、実世界の場所あるいは物への利用者の指し示しジェスチャを認識し、利用者の指し示しジェスチャの参照対象の位置、および利用者の顔の位置及び向きなどを出力する認識部1102を持ち、かつ、例えば第1の実施例において説明した「マルチモーダル対話装置及びマルチモーダル対話方法」での擬人化イメージ提示部103や、あるいは既に特許出願済みの技術である「身体動作生成装置および身体動作動作制御方法(特願平8−57967号)」に開示されている技術等と同様に、例えばCG(コンピュータグラフィックス)を用いて、利用者と対面し、サービスを行う人間、動物、あるいはロボットなど、擬人化されたキャラクタによって指定した方向へ視線を向けた顔表情や、「驚き」や「謝罪」を表す顔表情や身振りや、ジェスチャを持つ擬人化エージェントの表情あるいは動作などの静止画像あるいは動画像を生成するフィードバック生成部1103を持ち、かつ少なくとも一つの例えばCRTディスプレイなどによる出力部1104を持つマルチモーダルインタフェース装置を例題として、本発明の実施例を説明することとする。
第2の実施例システムにおける制御部1106は下記の“<処理手順AA>”、“<処理手順BB>”、“<処理手順CC>”、“<処理手順DD>”、および“<処理手順EE>”に沿った処理に従った制御動作をする。
ここで、“<処理手順AA>”は、「処理のメインルーチン」であり、“<処理手順BB>”は、「擬人化エージェントから利用者のジェスチャ入力位置が注視可能か否かを判定する」処理手順であり、“<処理手順CC>”は、「ある擬人化エージェントの提示位置Lcを想定した場合に、利用者から擬人化エージェントを観察可能であるかどうかを判定する」ための手順であり、“<処理手順DD>”は、「ある擬人化エージェントの提示位置Ldを想定した場合に、擬人化エージェントから、現在注目しているある指し示しジェスチャGの指示対象Rが注視可能であるか否かの判定をする」処理手順であり、“<処理手順EE>”は「注視対象Zを注視する擬人化エージェントの表情」を生成する擬人化エージェント表情生成手順である。
<処理手順AA>[ステップAA1]: 認識部1102の動作状況情報から、利用者がジェスチャ入力(Gi)の開始を検知するまで待機し、検知したならばステップ(AA2)へ進む。
[ステップAA2]: “<処理手順BB>”により、「現在の擬人化エージェントの提示位置Ljから、ジェスチャ入力Giが行われている場所Liを擬人化エージェントから注視可能である」と判断されており、かつ、“<処理手順CC>”により「提示位置Ljに提示されている擬人化エージェントを、利用者が観察可能である」と判断された場合にはステップAA6へ進み、そうでない場合はステップAA3へ進む。
[ステップAA3]: 配置情報記憶部1105を参照し、全ての提示位置に対応するエントリに対して順次、“<処理手順BB>”と“<処理手順CC>”を用いた条件判断を実施することによって、「ジェスチャ入力Giが行われている場所Liを、擬人化エージェントが注視可能」であり、かつ「利用者から擬人化エージェントを観察可能」であるような擬人化エージェントの提示位置Lkを探す。
[ステップAA4]: 提示位置Lkが見つかったならば、ステップAA5へ進み、見つからない場合は、ステップAA7へ進む。
[ステップAA5]: 出力部1104を制御し、擬人化エージェントを提示位置Lkへ移動する。
[ステップAA6]: フィードバック生成部1103と出力部1104を制御し、“<処理手順EE>”によってジェスチャ入力が行われている場所Liを注視する擬人化エージェントの表情を生成し、提示し、ステップ(AA12)ヘ進む。
[ステップAA7]: “<処理手順CC>”によって、「利用者から擬人化エージェントを観察可能」であるかどうかを調べ、その結果、観察可能であれば、ステップAA11へ進み、そうでなければ、ステップAA8へ進む。
[ステップAA8]: 配置情報記憶部1105を参照し、全ての提示位置に対応するエントリに対して順次、“<処理手順CC>”を用いた条件判断を実施することによって、利用者から擬人化エージェントを観察可能であるような擬人化エージェントの提示位置Lmを探す。
[ステップAA9]: 提示位置Lmが存在する場合は、ステップAA10に進み、そうでない場合はステップAA12へ進む。
[ステップAA10]: 出力部1104を制御し、擬人化エージェン卜を、提示位置Lmへ移動する。
[ステップAA11]: フィードバック生成部1103を制御し、「現在、システムが利用者からの指し示しジェスチャ入力を受付中」であることを表す、例えば「うなづき」などの表情を生成し、出力部1104を制御して利用者に提示する。
[ステップAA12]: もし、入力部1101あるいは認識部1102から得られる動作状況情報により、ジェスチャGi入力を行っている場所Liが、入力部1101の観察範囲から逸脱したならばステップAA13へ進み、そうでない場合、ステップAA14へ進む。
[ステップAA13]: フィードバック生成部1103を制御し、現在システムが受け取り途中であった、利用者からの指し示しジェスチャ入力の解析失敗を表す、例えば「驚き」などの表情を生成し、出力部1104を制御して、利用者に提示し、ステップAA1へ進む。
[ステップAA14]: 認識部1102から得られる動作状況情報から、利用者が入力してきたジェスチャ入力Giの終了を検知した場合は、ステップAA15ヘ進み、そうでない場合はステップAA26へ進む。
[ステップAA15]: 認識部1102から得られるジェスチャ入力Giの認識結果が、指し示しジェスチャ(ポインティングジェスチャ)であった場合はステツプAA16へ進み、そうでない場合はステップAA21ヘ進む。
[ステップAA16]: “<処理手順DD>”によって擬人化エージェントから、指し示しジェスチャGiの指示対象Rlを注視可能であると判断され、かつ“<処理手順CC>”によって、利用者から擬人化エージェン卜を観察可能であると判定された場合には、ステップAA20へ進み、そうでなければ、ステップAA17へ進む。
[ステップAA17]: 配置情報記憶部1105を参照し、全ての提示位置に対応するエントリに対して、順次、“<処理手順DD>”および“<処理手順CC>”を用いた条件判断を行うことによって、擬人化エージェントから、指し示しジェスチャGiの指示対象Rlが注視可能であり、かつ利用者から擬人化エージェントを観察可能であるような、擬人化エージェントの提示位置Lnを探す。
[ステップAA18]: 提示位置Lnが存在する場合は、ステップAA19へ進み、そうでない場合はステップAA21へ進む。
[ステップAA19]: 出力部1104を制御し、擬人化エージェントを、提示位置Lnへ移動する。
[ステップAA20]: “<処理手順EE>”を用いて、フィードバック生成部1103を制御し、ジェスチャGiの参照先Rlを注視する擬人化エージェント表情を生成し、出力部1104を制御して利用者に提示し、ステップAA1ヘ進む。
[ステップAA21]: “<処理手順CC>”によって、「利用者から擬人化エージェントを観察可能」であるかどうかを調べ、その結果、観察可能であればステップAA25へ進み、そうでなければステップAA22へ進む。
[ステップAA22]: 配置情報記憶部1105を参照し、全ての提示位置に対応するエントリに対して、順次、“<処理手順CC>”を用いた条件判断を実施することにより、利用者から擬人化エージェントを観察可能であるような擬人化エージェン卜の提示位置Loを探す。
[ステップAA23]: 提示位置Loが存在する場合は、ステップAA24へ進み、そうでない場合はステップAA1へ進む。
[ステップAA24]: 出力部1404を制御し、擬人化エージェントを提示位置Loへ移動する。
[ステップAA25]: 次に制御部1106はフィードバック生成部1103を制御し、「現在システムが利用者からの指し示しジェスチャ入力を受付中」であることを表す例えば、「うなづき」などの表情を生成し、出力部1104を制御して利用者に提示し、ステップAA1の処理へ戻る。
[ステップAA26]: 制御部1106は認識部1102から得られる動作状況情報から、利用者から入力受付中のジェスチャ入力の解析に失敗したことが判明した場合には、ステップAA27へ進み、そうでない場合はステップAA12ヘ進む。
[ステップAA27]: 制御部1106はフィードバック生成部1103を制御し、システムが利用者からのジェスチャ入力の解析に失敗したことを表す、「謝罪」などの表情を生成し、さらに出力部1104を制御して、利用者に提示し、ステップAA1へ戻る。
なお、図17は、制御部1106による以上の“<処理手順AA>”をフローチャートの形で表現したものであり、記号「T」の付与された矢印線は分岐条件が成立した場合の分岐方向を表し、記号「F」が付与された矢印線は分岐条件が成立しなかった場合の分岐方向を表すものとする。また、図18〜図20に図17のフローチャートの部分詳細を示す。
次に“<処理手順BB>”を説明する。当該“<処理手順BB>”では以下の手順を実行することによって、ある擬人化エージェントの提示位置Lbを想定した場合に、擬人化エージェントから、例えば、利用者の指の先端など、ジェスチャ入力Gが行われている位置Lgが注視可能であるかどうかの判定を行う。
<処理手順BB>[ステップBB1]: 制御部1106は配置情報記憶部1105を参照し、提示位置Lbに対応する“エントリHb”を得る。
[ステップBB2]: また、配置情報記憶部1105を参照し、ラベル情報Aの欄を調べることによって、ジェスチャが行われている位置Gに対応する“エントリHg”を得る。
[ステップBB3]: “エントリHb”と“エントリHg”が得られると、制御部1106は配置情報記憶部1105に記憶されている“エントリHb”の“代表位置情報B”の値(Xb,Yb,Zb)、および“方向情報C”の値(Ib,Jb,Kb)、および、“エントリHg”の“代表位置情報B”の値(Xg,Yg,Zg)を参照し、ベクトル(Xb−Xg,Yb−Yg,Zb−Zg)とベクトル(Ib,Jb,Kb)の内積の値Ibを計算する。
[ステップBB4]: そして、制御部1106は次に当該計算結果である内積の値Ibが正の値であるか負の値であるかを調べ、その結果、正の値である場合は、“エントリHb”に対応する提示位置Lbに提示する擬人化エージェントから、“エントリHg”に対応するジェスチャGが行われている位置Lgが「注視可能」であると判断し、負である場合は「注視不可能」であると判断する。
以上により、「擬人化エージェントから利用者のジェスチャ入力位置が注視可能か否かを判定する」処理が行える。
同様に、以下の“<処理手順CC>”によって、ある擬人化エージェントの提示位置Lcを想定した場合に、利用者から擬人化エージェントを観察可能であるかどうかの判定が行われる。
<処理手順CC>[ステップCC1]: 制御部1106は配置情報記憶部1105を参照し、提示位置Lcに対応する“エントリHc”を得る。
[ステップCC2]: 配置情報記憶部1105を参照し、ラベル情報Aの内容を調べることによって、利用者の顔の位置に対応する“エントリHu”を得る。
[ステップCC3]: “エントリHc”と“エントリHu”が得られたなばらば次に制御部1106は配置情報記憶部1105をもとに“エントリHc”の“代表位置情報B”の値(Xc,Yc,Zc)、および“方向情報C”の値(Ic,Jc,Kc)、および、“エントリHu”の“代表位置情報B”の値(Xu.Yu.Zu)を参照し、ベクトル(Xc−Xu,Yc−Yu,Zc−Zu)とベクトル(Ic,Jc,Kc)の内積の値Icを計算する。
[ステップCC4]: 次に制御部1106は内積の値Icが正の値であるか負の値であるかを判別し、その結果、正の値である場合は、“エントリHc”に対応する提示位置Lcに提示する擬人化エージェントが、「利用者から観察可能」と判断し、負である場合は「観察不可能」と判断する。
また、同様に以下の“<処理手順DD>”によって、「ある擬人化エージェントの提示位置Ldを想定した場合に、擬人化エージェントから、現在注目しているある指し示しジェスチャGの指示対象Rが注視可能であるかどうか」の判定が行われる。
<処理手順DD>[ステップDD1]: 制御部1106は配置情報記憶部1105を参照し、提示位置Ldに対応する“エントリHd”を得る。
[ステップDD2]: また、配置情報記憶部1105を参照し、“ラベル情報A”の内容を調べることによって、“指示対象R”に対応する“エントリHr”を得る。
[ステップDD3]: “エントリHd”と“エントリHr”が得られたならば、制御部1106は“エントリHd”の“代表位置情報B”の値(Xd,Yd,Zd)、および“方向情報C”の値(Id,Jd,Kd)、および、“エントリHr”の“代表位置情報B”の値(Xr,Yr,Zr)を参照し、ベクトル(Xd−Xr,Yd−Yr,Zd−Zr)とベクトル(Id,Jd,Kd)の内積の値Idを計算する。
[ステップDD4]: 次に制御部1106は求められた内積の値Idが正の値であるか負の値であるかを判断する。その結果、正の値である場合は、“エントリHd”に対応する“提示位置Ld”に提示する擬人化エージェントから、“エントリHr”に対応する指し示しジェスチャGの“参照先R”を「注視可能」と判断し、負である場合には「注視不可能」と判断する。
また、以下の“<処理手順EE>”によって、フィードバック生成部1103によって、ある提示位置Leを想定した際に、擬人化エージェントが、例えば、ジェスチャの行われている位置や、あるいは指し示しジェスチャの参照先などの、“注視対象Z”を注視する擬人化エージェントの表情が生成される。
<処理手順EE>[ステップEE1]: 制御部1106は配置情報記憶部1105を参照し、提示位置Leに対応する“エントリHe”を得る。
[ステップEE2]: また、配置情報記憶部1105を参照し、“ラベル情報A”の内容を調べることによって、注視対象zに対応する“エントリHz”を得る。
[ステップEE3]: 次に制御部1106は“エントリHe”の“代表位置情報B”の値(Xe,Ye,Ze)、および、“エントリHz”の“代表位置情報B”の値(Xz,Yz,Zz)を参照し、ベクトルVf=(Xe−Xz,Ye−Yz,Ze−Ze)を得る。
[ステップEE4]: “エントリHe”と“ベクトルVf”が求められたならば、制御部1106は次に“エントリHe”の“方向情報C”から得られる提示位置Leの基準方向を正面とした場合で擬人化エージェントが“べクトルVf”の方向を向く表情を作成する。このような表情作成には本発明者等が提案し、特許出願した例えば、「身体動作生成装置および身体動作動作制御方法(特願平8−57967号)」に開示の技術などが適用可能である。
このようにして、制御部1106は、擬人化エージェントから利用者のジェスチャ入力位置が注視可能か否かを判定し、ある擬人化エージェントの提示位置Lcを想定した場合に、利用者から擬人化エージェントを観察可能であるか否かを判断し、ある擬人化エージェントの提示位置Ldを想定した場合に、擬人化エージェントから、現在注目しているある指し示しジェスチャGの指示対象Rが注視可能であるか否か判断し、注視可能であれば注視対象Zを注視する擬人化エージェントの表情を生成する。また、注視不可能の場合や認識失敗の場合はそれを端的に示すジェスチャの擬人化エージェントを表示する。
以上が、本発明にかかるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法の構成と機能及び主要な処理の流れである。続いて、本発明にかかるマルチモーダルインタフェース装置の動作の様子を、図を参照しながら、具体例を用いて更に詳しく説明する。
<第2の具体例装置の具体な動作例>ここでは、カメラを用いた入力部1101と画像認識技術とにより、利用者の顔の位置、向き、および指し示しのためのハンドジェスチャの行われている位置、方向、および参照先の位置情報を得る認識部1102と、利用者とシステムとの自然な対話を進めるために重要な擬人化エージェントのCGを生成するフィードバック生成部1103と、2つのディスプレイ装置を出力部1104として持つ、本発明の第2の実施例に基づくマルチモーダルインタフェース装置に向かって、利用者が指し示しジェスチャ入力を行うという設定で具体的動作を説明する。
図16は、この動作例の状況を説明する図である。図16において、X,Y,Zは世界座標系の座標軸を表している。また、P1,P2,P3,〜P9はそれぞれ場所であり、これらのうち、場所P1(P1の座標=(10,20,40))は、“提示場所1”の代表位置を表しており、場所P1から描かれた矢印V1(V1の先端位置座標=(10,0,1))は、“提示場所1”の法線方向を表すベクトルである。
同様に、場所P2(P2の座標=(−20,0,30))は、“提示位置2”の代表位置を表しており、場所P2から描かれた矢印V2(V2の先端位置座標=(10,10,−1))は、“提示場所2”の法線方向を表すベクトルである。
また、場所P3(P3の座標=(40,30,50))は、認識部1102から得られる現在の利用者の顔を代表位置を表しており、場所P3から描かれた矢印V3(V3の先端位置座標=(−4,−3,−10))は、利用者の顔の向きを表すベクトルである。また、場所P4(P4の座標=(40,10,20))は、ある時点(T2〜T8)において、利用者が指し示しジェスチャを行った際の指の先端位置を表しており、場所P4から描かれたV4(V4の先端位置座標=(−1,−1,−1))は、その指し示しジェスチャの方向を表すベクトルである。
また、場所P5(P5の座標=(20,10,20))は、ある時点(T14〜T15)において、利用者が指し示しジェスチャを行った際の指の先端位置を表しており、場所P5から描かれたV5(V5の先端位置座標=(−1,−1,−1))は、その指し示しジェスチャの方向を表すべクトルである。
また、場所P8(P8の座標=(30,0,10))は、ある時点(T2〜T8)において、利用者が行った指し示しジェスチャの指示対象である“物体A”の代表位置を表している。また、場所P9(P9の座標=(0,−10,0))は、ある時点(T14〜T15)において、利用者が行った指し示しジェスチャの指示対象である“物体B”の代表位置を表している。
なお、以上の代表位置および方向に関する情報は、予め用意されるか、あるいは入力部1101から得られる画像情報などを解析する認識部1102によって検知され、配置情報記憶部1105に随時記録されるようにしている。
続いて、処理の流れに沿って説明を行う。
<処理例1>ここでは、利用者が指し示しジェスチャ入力を行った際に、そのフィードバック情報として、参照先を注視する擬人化エージェントの表情を利用者に提示するための処理例を説明する。
[T1]: 最初、場所P1に対応する“提示場所1”に擬人化エージェントが表示されているものとする。
[T2]: ここで、利用者が“物体A”への指し示しジェスチャ(G1とする)を開始したとする。
[T3]: 入力部1101からの入力画像を解析する認識部1102が、ジェスチャG1の開始を検知して、動作状況情報として制御部1106に通知する。
[T4]: 制御部1106では“<処理手順AA>”のステップAA1からAA2へと処理を進める。
[T5]: 制御部1106はステップAA2の処理においてで、まず、図15に示した配置情報記憶部1105の“エントリQ1”と“エントリQ4”を参照した“<処理手順BB>”に基づく処理によって、現在の擬人化エージェントの提示位置P1から、ジェスチャG1の行われている位置P4が注視可能であることが判明する。
[T6]: また、図15に示した配置情報記憶部1105の“エントリQ1”と“エントリQ3”を参照した“<処理手順CC>”に基づく処理によって、現在の利用者の顔の位置であるP3から、現在の擬人化エージェントの提示位置P1が観察可能であることが判明する。
[ステップT7]: 次に制御部1106はステップAA6の処理へと進み、“<処理手順EE>”に基づく処理を実行することにより、フィードバック生成部1103により、現在利用者が行っているジェスチャG1を注視する擬人化エージェントの表情を生成し、出力部1104を通じて利用者に提示させる。
以上の処理によって、利用者がジェスチャ入力を開始した際に、フィードバック情報として、ジェスチャ入力を行っている利用者の手や指などを注視する擬人化エージェントの表情を、利用者に提示することが出来る。
[T8]: 次に制御部1106はステップAA12の処理に移る。ここでは、ジェスチャG1が入力部1101の観察範囲から外れたか否かを判断する。
なお、ジェスチャG1は入力部1101の観察範囲から逸脱しなかっとし、その結果、ステップAA14ヘ進んだものとする。
[T9]: 制御部1106はステップAA14において、利用者のジェスチャが終了を指示したか否かを認識部1102の動作状況情報から判断する。いま、ジェスチャG1の終了が認識部1102から動作状況情報として通知されたものとする。従って、この場合、ジェスチャG1の終了を制御部1106は認識する。
[T10]: 次に制御部1106はステップAA15の処理に移る。当該処理においては、ジェスチャが指し示しジェスチャであるかを判断する。そして、この場合、ジェスチャG1は指し示しジェスチャであるので、認識部1102から得られる動作状況情報に基づいて、ステップAA16へ進む。
[T11]: 制御部1106はステップAA16の処理において、まず、図15に示した配置情報記憶部1105の“エントリQ1”と“エントリQ8”を参照した“<処理手順D>”に基づく処理を行う。そして、これにより、ジェスチャG1の指示示対象である“物体A”を擬人化エージェントから注視可能であることを知る。
[T12]: また、図15に示した配置情報記憶部1105の“エントリQ1”と“エントリQ3”を参照した“<処理手順CC>”に基づく処理によって、利用者から擬人化エージェントを観察可能であることも判明し、ステップAA20への処理へと移る。
[T13] ステップAA20において、制御部1106は図15に示した配置情報記憶部1105の“エントリQ1”と“エントリQ8”を参照した“<処理手順EE>”に基づく処理を実施し、これによって、ジェスチャG1の参照先である“物体A”の場所P8を注視するエージェント表情を利用者に提示させる。そして、ステップAA1ヘ戻る。
以上の処理によって、利用者が指し示しジェスチャ入力を行った際に、そのフィードバック情報として、参照先を注視する擬人化エージェントの表情を利用者に提示することが可能となる。
続いて、条件の異なる別の処理例を示す。
<処理例2>[T21]: 利用者から、場所P9にある“物体B”を参照する、指し示しジェスチャG2の入力が開始され始めたとする。
[T22]: ステップT2〜T7での処理と同様の処理によって、ジェスチャG2を注視する擬人化エージェント表情が利用者に提示される。
[T23]: ステップAA16で、まず、図15に示した配置情報記憶部1105の“エントリQ1”と“エントリQ9”を参照した“<処理手順BB>”に基づく処理によって、現在の擬人化エージェントの提示位置P1から、ジェスチャG2の行われている位置P9が注視不可能であることが判明する。
[T24]: ステップAA17において、図15に示した配置情報記憶105のエントリQ1およびエントリQ2など全ての提示位置に対応するエントリを、“<処理手順DD>”に基づく処理によって判定することによって、ジェスチャG1の指示対象である物体Bを、擬人化エージェントが注視可能で、かつ利用者の位置であるP3から観察可能な提示位置が検索され、提示位置2に対応する場所P2が得られる。
[T25]: ステップAA19へ進み、出力部1104を通じて擬人化エージェントを場所P2へ移動させ、ステップAA20へ進む。
[T26]: 前記T13と同様の処理によって、指示対象である“物体B”を注視する擬人化エージェン卜の表情が、ジェスチャG2に対するフィードバックとして利用者に提示される。
制御部1106による以上の処理の結果、利用者が行った指し示しジェスチャの参照先が擬人化エージェントから注視できない場所にあった場合でも、適切な位置に擬人化エージェントが移動されるようにしたことで、適切なフィードバックを利用者に提示することが可能となる。
その他、利用者が行ったジェスチャ入力を、擬人化エージェントが注視できない場合には、ステップAA3の処理によって、適切な位置に擬人化エージェントを移動させることで、適切なフィードバックを利用者に提示することが可能となる。また、そのような移動が不可能である場合には、ステップAA7〜AA11の処理によって、「うなずき」の表情がフィードバックとして提示される。
また、利用者の行っているジェスチャ入力の途中で、例えばジェスチャ入力を行っている手が、カメラの撮影視野から外れるなどした場合には、ステップAA12〜AA13の処理によって、「驚きの表情」がフィードバックとして利用者に提示される。
また、利用者の入力したジェスチャ入力が、指し示しジェスチャ以外の種類である場合にも、ステップAA21〜AA25の処理によって、必要に応じて擬人化エージェントの表示位置を移動させた上で、「うなずき」の表情がフィードバックとして提示される。また、利用者の入力したジェスチャの認識に失敗した場合にも、ステップAA27の処理によって、擬人化エージェントの「謝罪」の表情がフィードバックとして利用者に提示される。
かくして、このように構成された本装置によれば、利用者が、離れた位置からや、機器に接触せずに、かつ、機器を装着せずに、遠隔で指し示しジェスチャを行うことが出来、かつ、ジェスチャ認識方式の精度が十分に得られないために発生する誤認識やジェスチャ抽出の失敗を抑制することが可能となる。
また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点では、システムがそのジェスチャ入力を正しく抽出しているかどうか分からないため、結果として誤認識を引き起こしたり、あるいは、利用者が再度入力を行わなくてはならなくなるなどして発生する利用者の負担を抑制することができるようになる。
また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することが可能となる。さらに、前述の問題によって誘発される従来方法の問題である、誤動作による影響の訂正や、あるいは再度の入力によって引き起こされる利用者の負担や、利用者の入力の際の不安による利用者の負担を解消することができる。
さらに、擬人化インタフェースを用いたインタフェース装置、およびインタフェース方法では、利用者の視界、および擬人化エージェントから視界などを考慮した、適切なエージェントの表情を生成し、フィードバックとして提示することが可能となる。
尚、本発明にかかるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法の実施形態は、上述した例に限定されるものではない。例えば、上述の実施例では、カメラを用いて取り込んだ画像から利用者のジェスチャおよび顔等などの位置や向きの認識処理を行うようにしているが、これを例えば、磁気センサ、赤外センサ、データグローブ、あるいはデータスーツなどを用いた方法によって実現することも可能である。また、上述の実施例では、擬人化エージェントの注視の表情によって、指し示し先のフィードバックを実現しているが、例えば、擬人化エージェントが指示対象を手で指し示す動作をすることなどによって指し示し先のフィードバックを実現することも可能である。
また、上述の実施例では、一箇所の場所を指すポインティングによる指し示しジェスチャの入力を例として説明したが、例えば空間中のある広がりを持った領域を囲う動作によるサークリングジェスチャなどに対して、例えばサークリングを行っている指先を、擬人化エージェントが随時注視することなどによって、フィードバック行うよう構成することも可能である。
また、上述の実施例では、配置情報記憶部の内容のうち、例えば、出力部に関するエントリを予め用意しておくよう構成していたが、例えば、出力部などに、例えば、磁気センサなどを取り付けたり、あるいは入力部などによって周囲環境の変化を随時観察し、出力部や利用者の位置などが変更された場合に、動的に配置情報記憶部の内容を更新するように構成することも可能である。
また、上述の実施例では、利用者の指し示したジェスチャの指示対象を擬人化エージェントが注視するよう構成し、これにより、システムの側で認識できなくなったり、システム側での認識結果が誤っていないかなどが、利用者の側で直感的にわかるようにしていたが、逆にたとえば擬人化エージェントが、例えばフロッピドライブの物理的な位置を利用者に教える場合などにも、擬人化エージェントがその方向を見るように表示することで、擬人化エージェントの目配せによる指示により利用者がその対象の位置を認識し易くするように構成することも出来る。
あるいは、上述の実施例では、たとえば、利用者や擬人化エージェントから、ある位置が注視可能あるいは観察可能であるかを、それらの方向ベクトルに垂直な平面との位置関係によって判定を行っているが、例えば、円錐状の領域によって判定を行ったり、あるいは実際の人間の視界パターンを模擬した領域形状によって判定を行うよう構成することも可能である。あるいは、上述の実施例では、CRTディスプレイに表示される擬人化エージェントによる実施例を示したが、例えば、ホログラフなどの三次元表示技術を利用した出力部を用いて、本発明を実現することも可能である。
また、本発明の出力部は、一つの表示装置によって実現することも可能であるし、あるいは物理的に複数の表示装置を用いて実現することも可能であるし、あるいは物理的には一つである表示装置の複数の領域を用いて実現することも可能である。あるいは、例えば図12に示した様な汎用コンピュータを用い、上述の処理手順に基づいて作成されたプログラムを、例えば、フロッピディスクなど外部記憶媒体に記録しておき、これをメモリに読み込み、例えば、CPU(中央演算装置)などで実行することによっても、本発明を実現することも可能である。
以上、第2の実施例に示す本発明は、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカー、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者が装着しその動作などを取り込むデータグローブ、あるいはデータスーツ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち、少なくとも一つからなり、利用者からの入力を随時取り込んで入力情報として出力する入力手段と、該入力手段から得られる該入力情報を受け取り、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識の少なくとも一つの処理を施すことによって、該利用者からの入力を、「受付中」であること、「受け付け完了」したこと、「認識成功」したこと、あるいは「認識失敗」したことなどの如き利用者からの入力の受け付け状況情報を、動作状況情報として出力する入力認識手段と、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして利用者に提示する出力手段と、該入力認識手段から得られる該動作状況情報に応じ、該出力手段を通じて利用者にフィードバック情報を提示する制御手段とより構成したことを特徴とするものである。
あるいは、入力手段はカメラ(撮像装置)などの画像取得手段によって利用者の画像を取り込み、入力情報として例えば、アナログデジタル変換された画像情報を出力する手段を用い、入力認識手段は該入力手段から得られる該画像情報に対して、例えば前時点の画像との差分抽出やオプティカルフローなどの方法を適用することで、例えば動領域を検出し、例えばパターンマッチング技術などの手法によって照合することで、入力画像から、ジェスチャ入力を抽出し、これら各処理の進行状況を動作状況情報として随時出力する認識手段とし、制御手段は該入力認識手段から得られる該動作状況情報に応じて、文字列や画像を、あるいはブザー音や音声信号などを、例えば、CRTディスプレイやスピーカといった出力手段から出力するよう制御する手段とすることを特徴とする。さらには、入力手段から得られる入力情報、および入力認識手段から得られる動作状況情報の少なくとも一方の内容に応じて、利用者へのフィードバックとして提示すべき情報であるフィードバック情報を生成するフィードバック情報生成手段を具備する。また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、利用者へ提示する擬人化イメージとして生成するフィードバック情報生成手段と、入力認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージの表情あるいは動作の少なくとも一方を決定し、出力手段を通じて、例えば、指し示しジェスチャの指し示し先、あるいは例えば指先や顔や目など、利用者がジェスチャ表現を実現している部位あるいはその一部など注視する表情であるフィードバック情報を生成するフィードバック情報生成手段とを更に設け、制御手段には、利用者に該フィードバック情報生成手段によって生成されたフィードバック情報を、出力手段から利用者へのフィードバック情報として提示する機能を持たせるようにしたものである。更には、入力手段の空間的位置、および出力手段の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶手段を設け、入力認識手段には、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置を表す位置情報を出力する機能を設けると共に、また、配置情報記憶手段から得られる配置情報および該入力認識手段から得られる位置情報および動作状況情報のうち、少なくとも一つを参照して擬人化エージェントの動作、あるいは表情あるいは制御タイミングの少なくとも一つを決定し、フィードバック情報として出力するフィードバック手段とを設ける構成としたものである。
そして、このような構成の本システムは、利用者からの音声入力を取り込むマイク、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカあるいは頭部の動きを検知するヘッドトラッカー、あるいは手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどによる入力手段のうち、少なくとも一つから入力される利用者からの入力を随時取り込み、入力情報として得、これを音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識のうち、少なくとも一つの認識処理を施すことによって、該利用者からの入力に対する受付状況の情報、すなわち、受付中であること、受け付け完了したこと、認識成功したこと、あるいは認識失敗したこと、などといった利用者からの入力の受付状況の情報を動作状況情報として得、得られた動作状況情報に基づいて、警告音、合成音声、文字列、画像、あるいは動画を用い、フィードバックとして、利用者に提示するものである。
また、利用者と対面してサービスを提供する人物、生物、機械、あるいはロボットなどとして擬人化されたエージェント人物の、静止画あるいは動画による画像情報を、フィードバック情報認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージ情報として生成し、これを表示することで、たとえば音声入力がなされた時点で擬人化エージェントによって例えば「うなずき」の表情を提示するなど利用者にフィードバックを提示する。
また、認識手段により画像認識して、利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置に関する情報である位置情報を得、配置情報記憶手段により入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持し、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、例えば、利用者の指し示しジェスチャの対象である参照物を、随時注視する表情を提示するなど利用者にフィードバックを提示する。
このように、利用者がシステムから離れた位置や、あるいは機器に非接触状態で指し示しジェスチャを認識させ、指示を入力することが出来るようになり、かつ、誤認識なくジェスチャ認識を行えて、ジェスチャ抽出の失敗を無くすことができるようになるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することができる。また、利用者が入力意図したジェスチャを開始した時点あるいは入力を行っている途中の時点で、システムがそのジェスチャ入力を正しく抽出しているか否かを知ることができ、利用者が再入力を行わなくてはならなくなるな負担を解消できるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。また、実世界の場所やものなどを参照するための利用者からの指し示しジェスチャ入力に対して、その指し示し先として、どの場所、あるいはどの物体あるいはそのどの部分を受け取ったかを適切に表示することができるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供できる。
なお、第2の実施例に示した本発明は方法としても適用できるものであり、また、上述の具体例の中で示した処理手順、フローチャートをプログラムとして記述し、実装し、汎用の計算機システムで実行することによっても同様の機能と効果を得ることが可能である。すなわち、この場合、図12に示したように、CPU301,メモリ302,大容量外部記憶装置303,通信インタフェース304などからなる汎用コンピュータに、入力インタフェース305a〜305nと、入力デバイス306a〜306n、そして、出力インタフェース307a〜307mと出力デバイス308a〜308mを設け、入力デバイス306a〜306nとして、マイクやキーボード、ペンタブレット、OCR、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツといったものを使用し、そして、出力デバイス308a〜308mとして、ディスプレイ、スピーカ、フォースディスプレイ、等を用いてCPU301によるソフトウエア制御により、上述の如き動作を実現することができる。
すなわち、第1及び第2の実施例に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできるので、この記録媒体を用いてコンピュータにプログラムを読み込み、CPU301に実行させれば、本発明のマルチモーダル対話装置が実現できることになる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
101…注視対象検出部、102…他メディア入力部、102a…音声認識装置、102b…文字認識装置、102c…言語解析装置、102d…操作入力解析装置、102e…画像認識装置、102f…ジェスチャ解析装置、102g…マイク、102h…キーボード、102i…ペンタブレット、102j…OCR、102k…マウス、102l…スイッチ、102m…タッチパネル、102n…カメラ、102o…データグローブ、102p…データスーツ、103…擬人化イメージ提示部、104…情報出力部、104a…文字画像信号生成装置、104b…音声信号生成駆動装置、104c…機器制御信号生成装置、105…注意喚起部、106…反応検知部、107…制御部、201…制御処理実行部、202…制御規則記憶部、203…解釈規則記憶部、1101…入力部、1102…認識部、1103…フィードバック生成部、1104…出力部、1105…配置情報記憶部、1106…制御部、1201…カメラ、1202…A/D変換部、1203…画像メモリ、1204…注目領域推定部、1205…照合部、1206…認識辞書記憶部。
Claims (9)
- 利用者からの各種情報を随時取り込んで入力情報として得る入力手段と、
該入力手段から得られる該入力情報を処理して、該利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識手段と、
警告音、合成音声、文字列、画像、あるいは動画のうち、少なくとも一つを反応結果として利用者に提示する出力手段と、
前記入力認識手段から得られる動作状況情報に応じて、利用者に提示する反応結果を得るべく前記出力手段を制御する制御手段とを具備したことを特徴とするマルチモーダルインタフェース装置。 - 利用者からの音声入力を取り込むマイクロフォン、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは利用者の手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力手段と、
該入力手段から得られる入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、前記入力情報の種別に対応した必要な処理を施すことにより利用者からの入力の受付状況を動作状況情報として出力する入力認識手段と、
警告音、合成音声、文字列、画像のうち、少なくともいずれかにより、利用者に対する反応として利用者に提示する出力手段と、
前記入力認識手段から得られる動作状況情報に応じて、利用者に提示する反応結果を得るべく前記出力手段を制御する制御手段とを具備したことを特徴とするマルチモーダルインタフェース装置。 - 画像取得手段によって利用者の画像を取り込み、画像情報として出力する入力手段と、
該入力手段から得られる画像情報からジェスチャ入力を抽出し、これら各処理の進行状況を動作状況情報として随時出力する入力認識手段と、
該入力認識手段から得られる該動作状況情報に応じて、利用者による入力対応の反応を文字列、画像、あるいは音信号のいずれかで提示する手段と、
を備えることを特徴とするマルチモーダルインタフェース装置。 - 利用者からの音声入力を取り込むマイクロフォン、あるいは利用者の動作や表情などを観察するカメラ、あるいは利用者の目の動きを検出するアイトラッカ、あるいは頭部の動きを検知するヘッドトラッカ、あるいは利用者の手や足など体の一部あるいは全体の動きを検知する動きセンサ、あるいは利用者の接近、離脱、着席などを検知する対人センサなどのうち少なくとも一つからなり、利用者からの入力を随時取り込み入力情報として出力する入力手段と、
該入力手段から得られる入力情報を受け、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、前記入力情報の種別に対応した必要な処理を施すことにより利用者からの入力の受付状況を動作状況情報として出力する入力認識手段と、
前記入力手段から得られる入力情報、および前記入力認識手段から得られる動作状況情報の少なくとも一方の内容に応じて、利用者へのフィードバックとして提示すべき情報を生成するフィードバック情報生成手段と、
を具備したことを特徴とするマルチモーダルインタフェース装置。 - 利用者と対面してサービスを提供する擬人化されたエージェント人物の画像情報を、利用者提示用の擬人化イメージとして生成するフィードバック情報生成手段と、
入力認識手段から得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージの表情あるいは動作の少なくとも一方を決定し、出力手段を通じて、利用者がジェスチャ表現を実現している部位を注視する表情であるフィードバック情報を生成するフィードバック情報生成手段と、
前記フィードバック情報生成手段によって生成されたフィードバック情報を、出力手段から利用者へのフィードバック情報として提示する制御手段と、
を具備したことを特徴とする請求項4記載のマルチモーダルインタフェース装置。 - 入力手段の空間的位置、および出力手段の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶手段と、
利用者の入力した指し示しジェスチャの参照物、利用者、利用者の顔や手などの空間位置を表す位置情報を出力する入力認識手段と、
前記配置情報記憶手段から得られる配置情報と、前記入力認識手段から得られる位置情報と、動作状況情報との少なくとも一つを参照して、擬人化エージェントの動作、あるいは表情あるいは制御タイミングの少なくとも一つを決定し、フィードバック情報として出力するフィードバック手段と、
を具備したことを特徴とする請求項5のマルチモーダルインタフェース装置。 - 利用者からの音声、あるいは利用者の動作や表情などを示す画像、あるいは利用者の体の一部あるいは全体の動き、あるいは利用者の接近、離脱、着席などの検知情報のうち少なくとも一つからなり、利用者からの入力情報として出力する入力ステップと、
該入力ステップにより得られる入力情報をもとに、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、入力情報種別に応じた処理を施すことにより、該利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識ステップと、
利用者からの入力に対する反応の結果を、入力認識ステップによって得られる動作状況情報に基づいて、警告音、合成音声、文字列、画像のいずれかにより利用者に提示するステップと、
を備えることを特徴とするマルチモーダルインタフェース方法。 - 利用者と対面してサービスを提供する擬人化されたエージェント人物の画像情報を、入力認識ステップから得られる動作状況情報に応じて、利用者に提示すべき擬人化イメージ情報として生成するフィードバック情報生成ステップと、
利用者からの入力がなされた時点でその反応として擬人化エージェントによる反応の表情を提示する利用者フィードバック提示ステップと、
を具備することを特徴とする請求項7記載のマルチモーダルインタフエース方法。 - 利用者からの音声、あるいは利用者の動作や表情などを示す画像、あるいは利用者の体の一部あるいは全体の動き、あるいは利用者の接近、離脱、着席などの検知情報のうち少なくとも一つからなり、利用者からの入力情報として出力する入力ステップと、
入力ステップにより得られる入力情報に対し、音声検出処理、音声認識、形状検出処理、画像認識、ジェスチャ認識、表情認識、視線検出処理、あるいは動作認識処理のうち、入力情報種別に応じた処理を施すことにより、該利用者からの入力の受け付け状況を、動作状況情報として出力する入力認識ステップと、
利用者の入力した指し示しジェスチャの参照物、利用者、利用者の特定部位の空間位置に関する情報を出力する認識ステップと、
入力部の空間的位置、および出力部の空間的位置に関する情報、および利用者の空間的位置に関する情報の少なくとも一つを配置情報として保持する配置情報記憶ステップと、
利用者からの入力に対する反応の結果を、入力認識ステップによって得られる動作状況情報に基づいて、警告音、合成音声、文字列、画像のいずれかにより利用者に提示し、また、位置情報、および配置情報、動作状況情報の少なくとも一つに応じて、利用者の指し示しジェスチャに対する反応画像を提示するステップと、
からなるマルチモーダルインタフェース方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004000494A JP2004192653A (ja) | 1997-02-28 | 2004-01-05 | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4675297 | 1997-02-28 | ||
JP2004000494A JP2004192653A (ja) | 1997-02-28 | 2004-01-05 | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30395397A Division JP3886074B2 (ja) | 1997-02-28 | 1997-11-06 | マルチモーダルインタフェース装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004192653A true JP2004192653A (ja) | 2004-07-08 |
Family
ID=32774050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004000494A Pending JP2004192653A (ja) | 1997-02-28 | 2004-01-05 | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004192653A (ja) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008001549A1 (fr) * | 2006-06-26 | 2008-01-03 | Murata Kikai Kabushiki Kaisha | Dispositif audio interactif, procédé audio interactif, et programme correspondant |
JP2008033198A (ja) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | 音声対話システム、音声対話方法、音声入力装置、プログラム |
EP2450879A1 (en) | 2010-11-09 | 2012-05-09 | Sony Corporation | Information processing apparatus, information processing method, and computer-readable storage medium |
JP2012159683A (ja) * | 2011-01-31 | 2012-08-23 | Toshiba Corp | 電子機器 |
JP2015514254A (ja) * | 2012-04-27 | 2015-05-18 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | ユーザからのオーディオ入力 |
JP2017054369A (ja) * | 2015-09-10 | 2017-03-16 | 富士通株式会社 | システム、情報処理装置、アラーム制御プログラム、およびアラーム制御方法 |
JP2017054065A (ja) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | 対話装置および対話プログラム |
WO2017057106A1 (ja) * | 2015-09-28 | 2017-04-06 | 日本電気株式会社 | 入力装置、入力方法、及びプログラム |
JP2019531550A (ja) * | 2016-06-13 | 2019-10-31 | 株式会社ソニー・インタラクティブエンタテインメント | 仮想現実環境内の特定のコンテンツに焦点を合わせるためのhmd遷移 |
JP2020509505A (ja) * | 2017-03-06 | 2020-03-26 | Line株式会社 | 拡張現実を提供するための方法、装置及びコンピュータプログラム |
JP2020077135A (ja) * | 2018-11-06 | 2020-05-21 | 本田技研工業株式会社 | 制御装置、エージェント装置及びプログラム |
CN111443801A (zh) * | 2020-03-25 | 2020-07-24 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备及存储介质 |
JPWO2019087495A1 (ja) * | 2017-10-30 | 2020-12-10 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11373650B2 (en) | 2017-10-17 | 2022-06-28 | Sony Corporation | Information processing device and information processing method |
CN115845404A (zh) * | 2023-02-27 | 2023-03-28 | 自贡创赢智能科技有限公司 | 一种仿真恐龙模型 |
-
2004
- 2004-01-05 JP JP2004000494A patent/JP2004192653A/ja active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008001549A1 (fr) * | 2006-06-26 | 2008-01-03 | Murata Kikai Kabushiki Kaisha | Dispositif audio interactif, procédé audio interactif, et programme correspondant |
JPWO2008001549A1 (ja) * | 2006-06-26 | 2009-11-26 | 村田機械株式会社 | 音声対話装置と音声対話方法及びそのプログラム |
JP4505862B2 (ja) * | 2006-06-26 | 2010-07-21 | 村田機械株式会社 | 音声対話装置と音声対話方法及びそのプログラム |
JP2008033198A (ja) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | 音声対話システム、音声対話方法、音声入力装置、プログラム |
EP2450879A1 (en) | 2010-11-09 | 2012-05-09 | Sony Corporation | Information processing apparatus, information processing method, and computer-readable storage medium |
CN102591448A (zh) * | 2010-11-09 | 2012-07-18 | 索尼公司 | 信息处理设备、信息处理方法和计算机可读存储介质 |
JP2012159683A (ja) * | 2011-01-31 | 2012-08-23 | Toshiba Corp | 電子機器 |
US8538758B2 (en) | 2011-01-31 | 2013-09-17 | Kabushiki Kaisha Toshiba | Electronic apparatus |
US9047858B2 (en) | 2011-01-31 | 2015-06-02 | Kabushiki Kaisha Toshiba | Electronic apparatus |
JP2015514254A (ja) * | 2012-04-27 | 2015-05-18 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | ユーザからのオーディオ入力 |
US9626150B2 (en) | 2012-04-27 | 2017-04-18 | Hewlett-Packard Development Company, L.P. | Audio input from user |
JP2017054369A (ja) * | 2015-09-10 | 2017-03-16 | 富士通株式会社 | システム、情報処理装置、アラーム制御プログラム、およびアラーム制御方法 |
JP2017054065A (ja) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | 対話装置および対話プログラム |
CN108027656A (zh) * | 2015-09-28 | 2018-05-11 | 日本电气株式会社 | 输入设备、输入方法和程序 |
JPWO2017057106A1 (ja) * | 2015-09-28 | 2018-07-05 | 日本電気株式会社 | 入力装置、入力方法、及びプログラム |
US10168769B2 (en) | 2015-09-28 | 2019-01-01 | Nec Corporation | Input apparatus, input method, and program |
WO2017057106A1 (ja) * | 2015-09-28 | 2017-04-06 | 日本電気株式会社 | 入力装置、入力方法、及びプログラム |
JP2019531550A (ja) * | 2016-06-13 | 2019-10-31 | 株式会社ソニー・インタラクティブエンタテインメント | 仮想現実環境内の特定のコンテンツに焦点を合わせるためのhmd遷移 |
US11568604B2 (en) | 2016-06-13 | 2023-01-31 | Sony Interactive Entertainment Inc. | HMD transitions for focusing on specific content in virtual-reality environments |
US11120629B2 (en) | 2017-03-06 | 2021-09-14 | Line Corporation | Method and device for providing augmented reality, and computer program |
JP2020509505A (ja) * | 2017-03-06 | 2020-03-26 | Line株式会社 | 拡張現実を提供するための方法、装置及びコンピュータプログラム |
US11562545B2 (en) | 2017-03-06 | 2023-01-24 | Line Corporation | Method and device for providing augmented reality, and computer program |
US11373650B2 (en) | 2017-10-17 | 2022-06-28 | Sony Corporation | Information processing device and information processing method |
JPWO2019087495A1 (ja) * | 2017-10-30 | 2020-12-10 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2020077135A (ja) * | 2018-11-06 | 2020-05-21 | 本田技研工業株式会社 | 制御装置、エージェント装置及びプログラム |
CN111443801A (zh) * | 2020-03-25 | 2020-07-24 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备及存储介质 |
CN111443801B (zh) * | 2020-03-25 | 2023-10-13 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备及存储介质 |
CN115845404A (zh) * | 2023-02-27 | 2023-03-28 | 自贡创赢智能科技有限公司 | 一种仿真恐龙模型 |
CN115845404B (zh) * | 2023-02-27 | 2023-06-16 | 自贡创赢智能科技有限公司 | 一种仿真恐龙模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3886074B2 (ja) | マルチモーダルインタフェース装置 | |
US6118888A (en) | Multi-modal interface apparatus and method | |
US11409497B2 (en) | Hands-free navigation of touch-based operating systems | |
EP3616050B1 (en) | Apparatus and method for voice command context | |
US20180181197A1 (en) | Input Determination Method | |
JP2004192653A (ja) | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 | |
WO2017104207A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US11507216B2 (en) | Customizing user interfaces of binary applications | |
WO2003044648A2 (en) | Method and apparatus for a gesture-based user interface | |
EP3550812B1 (en) | Electronic device and method for delivering message by same | |
JP3753882B2 (ja) | マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法 | |
US10514755B2 (en) | Glasses-type terminal and control method therefor | |
JP3844874B2 (ja) | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 | |
JP6841232B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2007272534A (ja) | 省略語補完装置、省略語補完方法、及びプログラム | |
JP7259447B2 (ja) | 発話者検出システム、発話者検出方法及びプログラム | |
JP2000187553A (ja) | 入力装置および入力装置用ヘッドマウントディスプレイ | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
US10558951B2 (en) | Method and arrangement for generating event data | |
KR20200079748A (ko) | 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법 | |
JP2019086858A (ja) | 顧客応対システム及び顧客応対方法 | |
KR20170029390A (ko) | 음성 명령 모드 진입 방법 | |
Jiang et al. | Knock the Reality: Virtual Interface Registration in Mixed Reality | |
US20220230659A1 (en) | System for non-verbal hands-free user input | |
US20240231580A9 (en) | System and method for multi modal input and editing on a human machine interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060828 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061219 |