JP3753882B2

JP3753882B2 - マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法

Info

Publication number: JP3753882B2
Application number: JP05477899A
Authority: JP
Inventors: 哲朗知野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-03-02
Filing date: 1999-03-02
Publication date: 2006-03-08
Anticipated expiration: 2019-03-02
Also published as: JP2000250677A

Description

【０００１】
【発明の属する技術分野】
本発明は、マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法に関する。特に、複数の対話モードにより利用者とコンピュータとの間のデータの授受を行うマルチモーダルインターフェース環境において、利用者に対話を補助するガイド情報を最適に提示することで、自然かつ円滑な対話を実現するための技術に関する。
【０００２】
【従来の技術】
近年、パーソナルコンピュータを含む各種計算機システムにおいて、従来のキーボードやマウスなどによる入力・ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報等のマルチメディア情報を入出力することが実現された。
【０００３】
これらのマルチメディア情報を用いた対話システムの１つとして、音声対話システムがある。自然言語解析・自然言語生成、音声認識・音声合成技術、或いは対話処理技術の進歩などによって、利用者と音声入出力データを対話する音声対話システムへの要求が高まっている。例えば自由発話による音声入力による対話システムである“ＴＯＳＢＵＲＧ−ＩＩ”（電気情報通信学会論文誌、Ｖｏｌ．Ｊ７７−Ｄ−ＩＩ、Ｎｏ．８，ｐｐ１４１７−１４２８，１９９４）等、様々な音声対話システムの開発がなされている。
【０００４】
この音声入出力に加え、例えばカメラを使って把握した視覚情報入力データを利用し、或いは、タッチパネル・ペン・タブレット・データグローブ・フットスイッチ・対人センサ・ヘッドマウントディスプレイ・フォースディスプレイ（提力装置）など様々な外部入出力デバイスを通じて利用者と授受できる情報を利用することにより、利用者と対話（インタラクション）を行なうマルチモーダル対話システムへの要求が高まっている。これらの複数の対話モードを備えるユーザーインターフェースを、以下、マルチモーダルインターフェース（Multimodal Interface、ＭＭＩ）と称する。
【０００５】
人間同士の対話においては、例えば音声など一つのメディア（チャネル）のみを用いてコミュニケーションを行なっている訳ではなく、身振り・手ぶり・表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションが実現されている（“ＩｎｔｅｌｌｉｇｅｎｔＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅｓ”，ＭａｙｂｕｒｙＭ．Ｔ，Ｅｄｓ．，ＴｈｅＡＡＡＩＰｒｅｓｓ／ＴｈｅＭＩＴＰｒｅｓｓ，１９９３）。これと同様、人間とコンピュータとの対話においても、マルチモーダルインターフェースは自然で使いやすいヒューマンインタフェースを実現するための有力な手法である。
【０００６】
従来のマルチモーダルインターフェースの処理を以下に説明する。
【０００７】
利用者からコンピュータに音声入力等がなされると、入力された音声波形信号はアナログ／デジタル変換される。このデジタル化された音声信号の単位時間当たりのパワー計算を行なうこと等によって、音声区間が検出される。音声信号は、例えばＦＦＴ（高速フーリエ変換）などの方法によって分析される。次に、例えば、ＨＭＭ（隠れマルコフモデル）などの方法を用いて、分析された音声信号と予め用意した標準パターンである音声認識辞書との照合処理が行われ、この照合結果に従って発声内容が推定される。推定された発生内容に応じた処理が行なわれる。
【０００８】
音声入力以外の非言語メッセージによる入力の場合、カメラから得られる利用者を撮像した画像情報の解析、赤外線などを用いた距離センサなどの出力情報の解析、或いはタッチセンサなどの接触式の入力装置の出力情報の解析によって、利用者の手の位置・形・或いは動きなどを認識することで、利用者からのジェスチャ等の非言語メッセージによる入力が行われていた。
【０００９】
【発明が解決しようとする課題】
しかしながら、従来のマルチモーダルインターフェースには、以下の問題点があった。
【００１０】
そもそもマルチモーダルインターフェース環境は、従来と異なる以下の特性を有する。すなわち、第１に、入力された情報が、利用者が意図した情報か不要な情報かを判別することが困難である。
【００１１】
第２に、入力データは予め登録した辞書などとの照合処理により意味内容が推定されるため、この照合の精度を上げるためには利用者に対する入力候補などのガイド情報が不可欠である。以下、この入力のガイドにつき詳述する。
【００１２】
現在の技術においては、それぞれのメディアからの入力の照合処理による解析精度は低く、それぞれの入出力メディアの性質が十分には明らかとなっていない。このため、新たに利用可能となった各入出力メディア、あるいは複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減するマルチモーダルインタフェースは未だ実現されていない。
【００１３】
また、利用者は、音声或いはジェスチャ等によって入力を行なう際に、各場面毎に現在入力可能な語彙やジェスチャ種などの入力候補である表現が分かり難い。同時に、どの時点に入力が可能であるかどうかが分かり難い。
【００１４】
また、音声やジェスチャなどの認識技術を利用したインターフェースでは、認識精度の低さから入力内容が意図した内容で入力されたか否かには不確実性がある。このため、利用者は各入力が正しく認識されたか否か分かり難い。
【００１５】
これらに対処するために、利用者に対して適宜入力のガイドを提示することが必要となる。このガイドは、現在入力可能な表現、現在の入力受け付けの状態、又は入力のタイミングを示したり、或いは入力された表現の認識結果などを表示領域上の一部分等に表示して、利用者の入力を補助する。
【００１６】
音声やジェスチャなどの入力の各時点において入力可能な表現の組合せは一般に複雑かつ膨大になる。さらに、利用者は、あらかじめ決めた表現を入力するだけでなく、その場で逐次表現を決定・変更して、入力する場合も少なくはない。
上記の入力ガイドを参照することにより、利用者はこの全ての表現の組み合わせを覚えておくことが不要となる。
【００１７】
この入力ガイドにより、利用者は、各時点に於いて入力可能な表現の候補を見ながら入力する表現を決定できる。また、音声あるいはジェスチャなどによる入力を行なう際に、その入力のタイミングを得ることができる。これらの理由により、利用者は入力を行う際に、しばしばこの入力ガイドを参照する。
【００１８】
しかし、従来の入力ガイドには、以下の問題点があった。
【００１９】
一般にマルチモーダルインタフェースは、何らかのタスクを実施する装置又は方法と併用され、これらの装置等に対する音声やジェスチャ等の認識技術を用いた入力を利用可能とするものである。従って、本来のタスクを実行するためには、利用者はほとんどの時間タスクに対応する作業領域を見る必要がある。
【００２０】
この利用者が現在行なっている作業を行なうための領域と、上述のガイドが表示される領域とは、ほとんどの場合に別の領域となる。音声或いはジェスチャなど認識技術を用いた入力手段を利用する際には、ガイドを見る必要があるにも拘わらず、利用者が作業領域のみに視線を投げかけている場合には、音声あるいはジェスチャなどの入力のためのガイドを見ることができなくなる。他方、利用者がガイドのみに視線を投げかけている場合には、作業領域を見ることが出来なくなるために、本来のタスクを行なうことが出来ない。他方、利用者がガイドと作業領域の双方に視線を投げかけようとする場合には、利用者の視線が双方の間を頻繁に行き来することとなる。このため、利用者が視線を動かして双方の領域に視線を合わせ直したり、あるいは双方の領域で現在必要な情報を捜し出す余分な作業が必要となって、利用者の負荷が増大する。
【００２１】
このように、第１の問題点として、作業領域と入力ガイドを別領域に表示していたので、音声あるいはハンドジェスチャなどといった、本来は目の動きに関して拘束の無いメディアを用いたメディアを使っているにも拘わらず、利用者の目の動きに制限を与えてしまい、結果としてこれらのメディアの持つ本来のメリットを無効にしてしまう。
【００２２】
第２の問題点として、入力内容を解析した結果を利用者に対してフィードバックする際に、このフィードバック信号として従来は、ビープ音、相槌音声等の音声信号が用いられていた。
【００２３】
しかし、周囲の環境によっては、常に音声信号によるフィードバックを行なうことは、周囲に対する雑音となる。あるいは利用者自身に対しても繁雑となってしまう。
【００２４】
第３の問題点として、利用者とコンピュータとの間の入力ガイドにおける対話を制御する手段が必要となる。具体的には、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などに、その障害の発生を検知し、かつその障害を解消する手段である。これらの障害として、利用者からの入力の認識に失敗したり、或いは利用者への情報の出力に失敗をした場合等がある。これらの障害を解決するためには、例えば確認のための情報の再提示・利用者への問い返し質問対話・対話の論議の流れを適切に制御すること等によって、利用者からの入力に対応して利用者への適切な出力を行なったり、利用者からの入力と利用者への出力のタイミングを適切に制御したりする処理が必要となる。
【００２５】
従来のマウス・キーボード等の入力デバイスを想定した対話管理処理には各種の手法が用いられている。例えば、予め用意した対話の流れであるスクリプトを利用した方法や、例えば質問／回答・挨拶／挨拶といった互いに対となる発話の組である発話対や発話交換構造等の情報を利用した方法がある。さらに、対話の流れ全体を対話の参加者の各個人の計画（プラン）或いは参加者間の共同の計画（プラン）として形式化して記述・生成・認識するプランニングによる方法などが用いられている。
【００２６】
しかし、特に音声或いはジェスチャ等のマルチモーダルによる入力の場合、利用者は入力すべき表現を考えながら入力したり、途中で取り消したり、或いは入力内容の決定に時間をかける。このため、入力を受け付ける時間の制御を行なう際に、適切なタイミングの制御が困難である。
【００２７】
このタイミング制御を、予め設定した一定の時間、入力を受け付けるように制御する第１の方法がある。しかしこの方法では、上述のように利用者が入力に時間をかけた場合に入力が不可能となる。
【００２８】
一方、利用者が任意のタイミングで入力を行なう可能性を考慮して、常時入力を受け付けるようにした第２の方法がある。しかしこの方法では、入力が意図されない音声あるいは動作を誤って受け付けたり、あるいは周囲の雑音・関係のない動作・画像等を誤って受け付ける。このため、誤動作が起こり、利用者の負担を増加していた。
【００２９】
一方、利用者が通常より遅いタイミングで入力を行なう可能性を考慮して、利用者からの入力を受け付ける時間を長くする第３の方法がある。しかしこの方法でも第２の方法と同様、入力が意図されない音声あるいは動作を誤って受け付けたり、あるいは周囲の雑音・関係のない動作・画像を誤って受け付ける。このため、誤動作が起こり、利用者の負担を増加していた。
【００３０】
また、利用者がまだ入力を継続する意思があるか否かを判定する手法がない。
このため、どこまで入力の待ち受け時間を延長すべきかの、適当なタイミングを判断することができない。
【００３１】
従って、従来のマルチモーダルインタフェースでは、人間同士のコミュニケーションにおいては重要な役割を演じている、視線、身振り・手振りなどのジェスチャ・顔表情などの非言語メッセージを効果的に活用することができなかった。
【００３２】
以上説明したように、本発明は、マルチモーダルインターフェース環境において、各メディアによる入力の認識の精度を向上させるために利用され、対話を補助するために提示される各種ガイド情報が、本来処理すべきアプリケーション処理とは異なる領域に提示されていた、また状況によらずに音声信号によるフィードバックを一律行っていた、さらには対話に障害が発生した場合等に利用者の意図する入力内容が必ずしも正しく最後まで入力できなかったために、利用者の負担が増加し、適切に入力ガイドが行えなかったという問題点を解決するためになされたものである。
【００３３】
そして、その目的とするところは、対話を補助するためのガイド情報を、利用者が作業する作業領域と対応させて提示することで、利用者の負担を軽減しつつ適切に入力ガイドを行って複数の入出力メディアを効率的に利用することを可能とするマルチモーダルインターフェース装置及びマルチモーダルインターフェース方法を提供することにある。
【００３４】
また、他の目的は、周囲の状況に即して必要に応じて音声信号によるフィードバックを行うことで、より確実かつ自然に利用者に対して入力のフィードバックを行うことにある。
【００３５】
また、他の目的は、対話のタイミング或いは流れを適切に制御することで、より効率よく利用者の意図する入力情報を取得することにある。
【００３６】
【課題を解決するための手段】
上記の課題を解決するための本発明の特徴は、利用者の入力を補助するガイド情報を利用者の注視位置の近傍に提示すべくガイド情報の提示を最適化する点にある。
【００３７】
この注視位置は、例えば利用者の視線方向から得られる。
【００３８】
かかる機能を実現するための、本発明の第１の特徴は、使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース装置であって、使用者の注視位置を検出して注視情報として生成する注視情報生成手段と、前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する位置を求めるガイド情報制御手段と、ガイド情報制御手段により求められた位置にガイド情報を提示制御する提示制御手段とを具備し、提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定する点にある。
【００３９】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【００４０】
また、本発明の第２の特徴は、前記ガイド情報制御手段は、さらに、前記注視情報が示す前記使用者の注視位置と前記ガイド情報の提示位置との間の距離が所定の第１の閾値の範囲内にあるか否かを判題する第１の判定手段を具備し、前記距離が前記第１の閾値の範囲内にない場合に、前記使用者の注視位置の近傍に前記ガイド情報の提示位置を設定する点にある。
【００４１】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【００４２】
また、本発明の第３の特徴は、前記ガイド情報制御手段は、さらに、前記利用者が前記ガイド情報に注目していると判断される場合には、前記ガイド情報の提示位置を固定とする点にある。
【００４３】
上記構成によれば、利用者がすでにガイド情報を捕捉している場合には、ガイド情報を移動させないことにより、無駄なちらつきをなくして利用者の負担を軽減することが可能となる。
【００４４】
また、本発明の第４の特徴は、前記ガイド情報制御手段は、さらに、求められた前記ガイド情報の提示位置が、前記ガイド情報を提示すべき所定の提示領域内にあるか否かを判定する第２の判定手段を具備し、前記提示位置が前記提示領域内にない場合に、前記提示領域内に前記ガイド情報の提示位置を補正する点にある。
【００４５】
上記構成によれば、算出されたガイド情報の提示位置が表示画面等を越える場合に、提示位置を自動的にオフセットすることができる。従って、利用者に確実にガイド情報を認識させることが可能となる。
【００４６】
また、本発明の第５の特徴は、前記ガイド情報制御手段は、前記使用者の視野領域内に前記ガイド情報を提示させるべく前記ガイド情報の大きさを補正する点にある。
【００４７】
上記構成によれば、利用者の視野領域内に提示すべき全ガイド情報を収めることができる。従って、利用者のガイド情報取得の負荷が軽減される。
【００４８】
また、本発明の第６の特徴は、上記マルチモーダルインターフェース装置は、さらに、提示領域に提示される各アプリケーションの利用状況及び前記アプリケーションの各提示要素の配置情報のいずれか１つ以上を示すアプリケーション提示情報を生成するアプリケーション状況把握手段を具備し、前記ガイド情報制御手段は、前記アプリケーション提示情報に基づき、前記ガイド情報を、前記各アプリケーションの提示を妨げない位置に設定する点にある。
【００４９】
上記構成によれば、画面上の各アプリケーションが表示する情報を妨げることなくガイド情報を提示することができる。従って、各アプリケーションとの対話の効率が向上する。
【００５０】
また、本発明の第７の特徴は、上記マルチモーダルインターフェース装置は、さらに、使用者からの入力を補助するための、音声信号による音声ガイド情報を生成する補助音声生成手段と、前記音声ガイド情報を出力制御する出力制御手段とを具備し、前記ガイド情報制御手段は、前記注視情報に基づいて、前記使用者が視野領域近傍に前記ガイド情報を捕捉不能と判断される場合に、前記音声ガイド情報を提示すべきガイド情報に設定する点にある。
【００５１】
上記構成によれば、利用者が表示画面を注視していない場合であっても、利用者にガイド情報を認識させることができる。
【００５２】
また、本発明の第８の特徴は、上記マルチモーダルインターフェース装置は、さらに、前記注視情報に基づいて、前記使用者の注視箇所が提示された前記ガイド情報の領域内に滞留しているか否かを判定する第３の判定手段を具備し、前記ガイド情報制御手段は、前記使用者の前記注視箇所が滞留していると判定される場合に、前記制御手段は、前記使用者からの入力の待ち受け状態を維持する点にある。
【００５３】
上記構成によれば、利用者からの入力待ち受け時間を最適化することができる。従って、システムの負荷が軽減される。
【００５４】
また、本発明の第９の特徴は、前記提示制御手段は、前記ガイド情報を、提示領域に、半透明表示或いは強調表示により提示制御する点にある。
【００５５】
上記構成によれば、すでに表示されている表示要素を妨げることなく、ガイド情報を提示することができる。
【００５６】
さらに、本発明の第１０の特徴は、使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース方法であって、使用者の注視位置を検出して注視情報として生成するステップと、前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるステップと、前記提示位置にガイド情報を提示するステップと、提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するステップとを含む点にある。
【００５７】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【００５８】
また、本発明の第１１の特徴は、使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体であって、使用者の注視位置を検出して注視情報として生成するモジュールと、前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるモジュールと、前記提示位置にガイド情報を提示するモジュールと、提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するモジュールとを含む点にある。
【００５９】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【００６０】
【発明の実施の形態】
第１の実施形態
以下、図面を用いて本発明の第１の実施形態を詳細に説明する。第１の実施形態は、利用者の視線位置に対応して入力ガイド情報の位置を制御する機能を提供する。
【００６１】
図１は本発明の第１の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。図１に示すように、第１の実施形態に係るマルチモーダルインターフェース装置１は、出力部１０１と、入力部１０２と、視覚ガイド提示部１０３と、注視対象検出部１０４と、制御部１０５とから構成される。
【００６２】
出力部１０１は、コンピュータ内部から利用者に対する各種メディアによるデータの出力を行う。出力部１０１は、例えばＣＲＴディスプレイ・ＬＣＤディスプレイ・投影プロジェクタ・ヘッドマウントディスプレイ等の利用者に対して少なくとも視覚的な情報を出力する。このうち例えばＧＵＩ（グラフィカルユーザインタフェース）により出力する場合には、例えばビットマップディスプレイ上にウィンドウやメニューやポインタなどを表示するように構成される。
【００６３】
図１においては１０２は、入力部を表している。
【００６４】
入力部１０２は、利用者からコンピュータに対する各種メディアによるデータの入力を行う。入力部１０２は、マイク、カメラ、キーボード、タッチパネル・ペン・タブレット・マウス・トラックボール等のポインティングデバイス、データグローブ、データスーツ、アイトラッカ、ヘッドトラッカ、ＯＣＲ、対人センサ、着席センサ、などの少なくとも一つの入力デバイスを通じて得られる利用者からの音声情報・視覚情報・操作情報などの入力を取り込む。入力された音声情報・視覚情報・操作情報は、標本化、コード化、ディジタル化、フィルタリング、信号変換、記録、保存、パターン認識、言語／音声／画像／動作／操作の解析、理解、意図抽出など、少なくとも一つの処理を行なうことによって入力情報として解析される。
【００６５】
視覚ガイド提示部１０３は、入力部１０２から入力される利用者からの入力を補助するための情報であるガイド情報を利用者に提示する。視覚ガイド提示部１０３は、このガイド情報を、例えば文字や画像などといった視覚的手段によって、出力部１０１上に表示する。この表示の際には、ガイド情報は、例えばウインドウやメニューやポインタなどといった他の表示要素に重複させて表示されてもおよい。あるいは半透明で重畳させたり、色・フォント・ブリンク・ハイライトなどの表示属性を変更した表示形態で提示されてもよい。
【００６６】
提示されるガイド情報の内容は、第１に例えば各時点における入力の受け付け可否の状況、音声による入力を想定した場合の入力可能な語彙のリスト、あるいはジェスチャ入力を想定した場合の入力可能なジェスチャの種類名や記号や絵による表現のリスト等の、利用者が現在入力することの可能な表現の候補に関する情報がある。第２には、利用者からの入力の処理の進行状況、或いは利用者からの入力の処理によって得られた認識候補などに関する情報がある。これらの情報が、利用者の入力を補助する情報として適宜提示されるように構成されている。
【００６７】
また、視覚ガイド提示部１０３は、後述される制御部１０５の制御に従って、ガイド情報を出力部１０１の指定された位置に指定された形式で提示する。尚、視覚ガイド提示部１０３は、請求項における提示制御手段に対応する。
【００６８】
尚、以下において、第１の実施形態では、入力部１０２からの入力情報としては音声認識入力を想定する。視覚ガイド提示部１０３で提示されるガイド情報としては、各時点において入力が可能な発声の候補である音声認識語彙を半透明に適宜提示するものとする。ただし、視覚ガイド提示部１０３における表示内容および表示形式は限定されるものではなく、任意の手法を用いることができることは言うまでもない。
【００６９】
注視対象検出部１０４は、利用者がコンピュータ画面等を現在見ているか否か、また利用者の視線が向いている場所・座標・領域・方向・物、或いはその部分のうち少なくとも一つを検出する。検出された情報は、注視対象情報として出力される。具体的には、この注視対象情報は、例えば、利用者の眼球運動を観察するアイトラッカ装置や、利用者の頭部の動きを検出するヘッドトラッカ装置や、着席センサや、特願平０８−０５９０７１「注視箇所推定装置とその方法」で用いられている方法などにより利用者を観察するカメラや利用者が装着したカメラから得られる画像情報を処理して利用者の視線方向を検出する手法などによって、検出される。尚、注視対象検出部１０４は、請求項における注視情報生成手段に対応する。
【００７０】
制御部１０５は、出力部１０１、入力部１０２、視覚ガイド提示部１０３、注視対象検出部１０４の各構成要素を制御及び管理する。尚、制御部１０５は、請求項におけるガイド情報制御手段に対応する。
【００７１】
次に、第１の実施形態におけるマルチモーダルインターフェース装置のハードウエア構成を説明する。本発明に係るマルチモーダルインターフェース装置１は、いわゆる汎用計算機、ワークステーション、ＰＣ、ネットワーク端末等の各種コンピュータ単体又は各コンピュータを相互接続したシステムに実装される。あるいは、自動販売機・券売機・遊技機等の対面型装置システムに実装されてもよい。
【００７２】
図２は、第１の実施形態を汎用計算機に実装する場合の内部構成の一例を示す。図２に示す汎用計算機は、ＣＰＵ部５０１と、メモリ部５０２と、大容量記憶部５０３と、通信インタフェース部５０４とを備える。図２に示す汎用計算機は、さらに、入力インタフェース部５０５ａ〜５０５ｎと、入力デバイス部５０６ａ〜５０６ｎと、出力インタフェース部５０７ａ〜５０７ｍと、出力デバイス部５０８ａ〜５０８ｍを備える。尚、メモリ部５０２と大容量記憶部５０３とは共用されてもよい。
【００７３】
入力デバイス部５０６ａ〜５０６ｎは、例えばマイク、キーボード、ペンタブレット、ＯＣＲ、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツ等に実装される。出力デバイス部５０８ａ〜５０８ｍは、例えばディスプレイ、スピーカ、フォースディスプレイ等に実装される。ＣＰＵ部５０１は、マルチモーダルインターフェース装置及び方法を実現するソフトウェアを制御することにより、第１の実施形態の機能を実現する。
【００７４】
尚、本発明のマルチモーダルインターフェースの各種処理を実現するためのプログラムは、各種記録媒体に保存することができる。かかる記録媒体を、上記ハードウエアを具備する汎用機中のＣＰＵ部５０１により読み出し、当該プログラムを実行することにより、本発明が実施される。ここで、記録媒体とは、例えば、半導体メモリ・磁気ディスク（フロッピーディスク・ハードディスク等）・光ディスク（ＣＤ−ＲＯＭ・ＤＶＤ等）、プログラムを記録することができる装置全般を含む。さらに、上記プログラムは、ネットワークなどの各種通信手段を通じて提供されてもよい。
【００７５】
本発明の第１の実施形態は上記のように構成されており、以下その処理の流れを図３乃至図５を用いて順に説明する。
【００７６】
制御部１０５は、以下の手順に従って、視覚ガイド提示部１０３の提示位置、提示サイズ等の各属性を制御する。
【００７７】
まず、視覚ガイド提示部１０３の提示位置決定処理を説明する。
【００７８】
図３は、制御部１０５が行う視覚ガイド提示部の提示位置の決定処理の手順を示すフローチャートである。
【００７９】
ステップＳ１０は、視覚ガイド提示部１０３の表示位置を保持するレジスタＬに、あらかじめ設定した通常時の表示位置の値Ｌ０を設定する。
【００８０】
ステップＳ２０は、あらかじめ設定した初期状態での発声候補Ｗ０を、発声候補を保持するレジスタＷに設定する。
【００８１】
ステップＳ３０は、出力部１０１上に、レジスタＬの示す座標を中心とする位置に視覚ガイド提示部１０３を半透明で表示する。
【００８２】
ステップＳ４０は、注視対象検出部１０４から利用者の注視位置Ｅが得られたか否かを判断する。注視位置Ｅが得られた場合、ステップＳ６０へ進む。一方、注視位置Ｅが得られなかった場合はステップＳ５０に進む。
【００８３】
ステップＳ５０は、新たな発声候補の集合Ｗｉが得られたか否かを判断する。
新たな発声候補の集合Ｗｉが得られた場合、ステップＳ８０へ進む。一方、発声候補の集合Ｗ０に変化がない場合には、ステップＳ４０に戻る。
【００８４】
ステップＳ６０は、レジスタＬの内容と注視位置Ｅの内容を比較する。この比較結果により、レジスタＬと注視位置Ｅ双方の中心座標のずれが、一般的な利用者の周辺視野領域のサイズなどに基づいて予め決定された閾値Ｆ１以下である場合はステップＳ５０へ進む。一方、中心座標のずれが、閾値Ｆ１より大きい場合は、ステップＳ７０に進む。
【００８５】
ステップＳ７０は、レジスタＬの内容をＥの内容で更新し、ステップＳ１００へ進む。
【００８６】
ステップＳ８０は、レジスタＷの内容をＷｉで更新する。
【００８７】
ステップＳ９０は、視覚ガイド提示部１０３にレジスタＷの内容を設定する。
【００８８】
ステップＳ１００は、提示補正処理により、レジスタＭの内容を決定する。提示補正処理の詳細は後述する。レジスタＭは、提示補正処理で用いられる提示位置を保持するレジスタである。
【００８９】
ステップＳ１１０は、出力部１０１上に、レジスタＭの示す座標を中心として視覚ガイド提示部１０３を半透明で表示する。この処理の後、ステップＳ４０に戻る。
【００９０】
次に、視覚ガイド提示部１０３の提示補正処理を説明する。
【００９１】
図４は、制御部１０５が行う視覚ガイド提示部の提示補正処理の手順を示すフローチャートである。
【００９２】
ステップＳ１０１は、レジスタＭにレジスタＬの内容を複写する。
【００９３】
ステップＳ１０２は、現在の語彙Ｗを表示する際の視覚ガイド提示部１０３の提示に必要な表示領域のサイズが、一般的な利用者の周辺視野領域などに基づいてあらかじめ規定した領域のサイズを表す閾値Ｆ２以下であるか否かを判断する。必要な表示領域のサイズが閾値Ｆ２以下である場合は、ステップＳ１０４に進む。一方、必要な表示領域のサイズが閾値Ｆ２より大きい場合は、ステップＳ１０３に進む。
【００９４】
ステップＳ１０３は、視覚ガイド提示部１０３の必要な表示領域のサイズを、閾値Ｆ２以下とするよう、調整する。このサイズの調整は、例えば視覚ガイド提示部１０３の表示フォントを縮小するなど表示様式を変更することで行うことができる。
【００９５】
ステップＳ１０４は、レジスタＭの内容を中心として、視覚ガイド提示部１０３の表示領域の全体が出力部１０１の中に収まるか否かを判断する。視覚ガイド提示部１０３の表示領域全体が出力部１０１の中に収まる場合には、処理を終了する。一方、視覚ガイド提示部１０３の表示領域全体が出力部１０１の画面内に収まらない場合は、ステップＳ１０５に進む。
【００９６】
ステップＳ１０５は、レジスタＭの内容を、出力部１０１の中心方向にあらかじめ設定した距離Ｄ分シフトして、レジスタＭの内容を更新する。
【００９７】
ステップＳ１０６は、レジスタＭとレジスタＬの中心座標のずれが、一般的な利用者の周辺視野領域のサイズを表すあらかじめ規定した閾値Ｆ３を越えるか否かを判定する。レジスタＭとレジスタＬの中心座標のずれ量が、閾値Ｆ３を越える場合は、レジスタＭに、あらかじめ設定した通常時の表示位置の値Ｌ０を設定し、提示補正処理を終了する。レジスタＭとレジスタＬの中心座標のずれ量が、閾値Ｆ３の範囲内にある場合はステップＳ１０４に戻る。
【００９８】
尚、利用者の周辺視野領域とは、例えば利用者が視野位置を動かさずに表示内容を確認可能な領域等を表すものとする。
【００９９】
また、第１の実施形態においては、閾値Ｆ１、Ｆ２、及びＦ３は、出力部１０１全体より十分に小さい領域の任意のサイズであるとする。
【０１００】
次に、上記の処理に従った第１の実施形態の動作の具体例を、図５を用いて詳細に説明する。
【０１０１】
尚、ここでは、入力ガイド提示部の初期位置であるＬ０には出力部１０１の右上の位置が指定されているものと仮定する。また初期状態での発声候補の集合Ｗ０には、［「w1」、「w2」、「w3」］が設定されているものと仮定する。
【０１０２】
まず、図３に示すステップＳ１０、Ｓ２０、Ｓ３０の処理が実行され、入力ガイドの初期提示位置Ｌ０および発声候補Ｗ０がそれぞれ設定される。図５（ａ）に示すように出力部１０１であるディスプレイ画面の右上に現在の認識候補がガイド情報として半透明表示される。
【０１０３】
ここで、利用者は図５（ｂ）に示すように現在のガイド情報の近傍（Ｅ１）辺りを注視したとする。
【０１０４】
この場合、図３に示すステップＳ４０、Ｓ６０の処理が実行され、現在利用者はガイド情報を周辺視野の領域内で確認することが出来ることが確認される。このため、ガイド情報はそのまま表示される。利用者は入力可能な語彙を周辺視野領域内で確認しながら例えば「w1」等の入力を行なうことが可能である。
【０１０５】
また、この状態で利用者が、入力ガイドの内容を見るために、或いは近傍に表示されている他の情報を確認するために、視線位置Ｅ１の近傍に視線をめぐらせた場合を想定する。この近傍に視線をめぐらせる場合にも、図３のステップＳ６０の処理によって、入力ガイドは移動されることなく一定の位置に表示され続ける。これらの処理によって、入力ガイドが利用者の視線移動につれて頻繁に動くことなどによる利用者への負担の増加がないインタフェースが実現される。
【０１０６】
次に、図５（ｃ）に示すように、利用者が、現在の入力ガイドから離れた位置にあるアプリケーションＡ１を参照又は操作するために、視線位置Ｅ２辺りに視線を移した場合を想定する。
【０１０７】
この視線の移動は、注視対象検出部１０３によって検出され、制御部１０５に通知される。制御部１０５は、視線位置Ｅ２は現在の入力ガイドの提示位置を示すレジスタＬの値から閾値Ｆ１以上離れていることを判別する。図３に示すステップＳ４０〜ステップＳ７０の処理は、入力ガイドの提示位置を変更すべきであることを判定する。
【０１０８】
この判定結果に従い、図５（ｄ）に示すように、図３のステップＳ１００（図４のステップＳ１０１〜ステップＳ１０７）の処理は、利用者がその周辺視野で確認可能な位置に入力ガイドを自動的に移動する。
【０１０９】
なお、入力ガイドは半透明表示される。この半透明表示は、現在利用者が操作中あるいは参照中のアプリケーションＡ２の表示を隠してしまうことがない。このため、利用者は支障なく入力、アプリケーションの操作・参照・利用等を行なうことができる。
【０１１０】
次に、図５（ｅ）に示すように、提示すべき発声候補の数が多いため入力ガイドの表示サイズが周辺視野を越えてしまう場合がある。この場合に、図４のステップＳ１０３の処理は、入力ガイドの表示サイズを縮小する。このため、利用者は、発声候補などの入力ガイドの情報を視野内に収めることができる。
【０１１１】
さらに、図５（ｆ）に示すように、利用者の注視位置Ｅ３が出力部１０１の周辺近傍にあり、算出された入力ガイドの提示位置が出力部１０１からはみ出る場合がある。この場合に、図４のステップＳ１０４〜ステップＳ１０７の処理は、入力ガイドの表示位置を出力部１０１の中心方向に向けて適切にオフセット表示する。このため、利用者は、入力ガイドの情報を支障なく視野内に収めることができる。
【０１１２】
尚、全ての時点において、認識可能な発声候補が変更された場合には、図３のステップＳ４０〜ステップＳ１１０の処理は、入力ガイドの表示内容を逐次更新する。同時に、表示内容が変わることによって必要な表示領域のサイズ変更が変更される場合には、適切に表示位置・表示形式が変更される。
【０１１３】
尚、第１の実施形態では、入力部１０２として音声認識入力を例としたが、入力手段はこれに限定されない。例えばジェスチャ入力に対しても第１の実施形態は適応可能である。
【０１１４】
尚、第１の実施形態では、視覚的な出力部１０１として一つのディスプレイを持つ装置を例としたが、出力部１０１はこれに限定されない。例えば複数のディスプレイを持つマルチモニタ環境、或いは例えば頭部装着型のヘッドマウントディスプレイなどを用いた仮想空間環境においても、第１の実施形態は利用可能である。
【０１１５】
また、第１の実施形態では、視覚ガイド提示部１０３の制御方法として、表示形態、表示位置、サイズなどを制御する例を示したが、制御方法はこれに限定されない。例えば視覚ガイド提示部の出力の形を変形させたり、複数配置させたり、あるいは利用者の注視位置の周囲に渡って表示するように制御することも可能である。
【０１１６】
また、第１の実施形態では、表示を縮小することによって、視覚ガイド提示部１０３に多くの情報を提示するようにしたが、提示方法はこれに限定されない。
例えば自動的にスクロールする表示形式などを利用することも可能である。
【０１１７】
また、視覚ガイド提示部１０３は、音声やジェスチャなどの入力を受けて受けている期間中だけ表示するようにすることも可能である。
【０１１８】
また、視覚ガイド提示部１０３の出力は、音声やジェスチャなどの入力を受けて受けている期間中だけ、利用者の視線位置に追従させて表示させることも可能である。
【０１１９】
また、第１の実施形態では、利用者の周辺視野領域の判定に、注視位置からの距離を用いていたが、判定方法はこれに限定されない。例えば人間の視野の特性を考慮した他の判断基準を追加して利用することも可能である。
【０１２０】
また、上記の第１の実施形態の機能を適宜組み合わせて利用することもできる。例えば、利用者がある位置に視線をなげかけている時に、利用者が視線を大きく動かすことなく内容を確認できる近傍位置であり、かつ現在の利用者が利用・参照している画面上の表示要素と重ならないか又は重なりの最小となる位置に入力ガイド情報を提示することが可能である。
【０１２１】
第１の実施形態によれば、以下の効果が得られる。
【０１２２】
注視対象検出部１０４は、検出された利用者の視線位置に基づく注視情報を検出する。制御部１０５は、この注視情報と現在の入力ガイドの表示位置とに基づき、入力ガイドが利用者の注視位置の近傍に表示されるべく制御する。
【０１２３】
このため、作業をする利用者は、入力ガイドを支障なく周辺視野内に収めることができる。従って、利用者は入力すべき内容を効率よく把握することができる。
【０１２４】
第２の実施形態
以下、本発明の第２の実施形態を、第１の実施形態と異なる点についてのみ、図面を用いて詳細に説明する。
【０１２５】
第２の実施形態は、第１の実施形態に加えてさらに、コンピュータ上で稼働するアプリケーションの処理と入力ガイドとの間の衝突を避ける機能を提供する。
図６は、本発明の第２の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。第２の実施形態は、出力部１０１と、入力部１０２と、視覚ガイド提示部１０３と、注視対象検出部１０４と、制御部２０６と、アプリケーション管理部２０６とを具備する。
【０１２６】
アプリケーション管理部２０６は、各時点において出力部１０１に表示されている、例えばウインドウ・メニュー等といった表示要素の配置・依存関係・表示状態を逐次管理する。このアプリケーションの状態の把握は、アプリケーションに関連するタスクの状態を監視するための一般に知られる手法を用いて行うことができる。アプリケーション管理部２０６は、制御部２０５からの問い合わせに応じて、或いは制御部２０５に非同期的にアプリケーションの状態情報を提供する。尚、アプリケーション管理部２０６は、請求項におけるアプリケーション状況把握手段に対応する。
【０１２７】
制御部２０５は、第１の実施形態の制御部１０５とほぼ同様の機能を持つ。ただし、制御部２０５は、図４のステップＳ１０４に替えて、以下の処理を行う。
即ち、制御部２０５は、レジスタＭの内容を中心として、視覚ガイド提示部１０３の表示領域の全体が出力部１０１の中に収まるか否かを判断する。第２の実施形態においては、制御部２０５は、さらに、アプリケーション管理部２０６を参照して、レジスタＭの内容を中心とした視覚ガイド提示部１０３の表示領域の全体が、稼働するアプリケーションの他の表示要素と重複するか否かを判定する。
入力ガイドと他の表示要素とが重複する場合には、入力ガイドの現在の位置を、他の表示要素と離間する位置まで移動する。一方、重複しない場合には、処理を終了する。
【０１２８】
第２の実施形態のその他の構成および処理手順は第１の実施形態と同様であるため、説明は省略される。
【０１２９】
尚、第２の実施形態では、アプリケーション管理部２０６を用いて、制御部２０５が他の表示要素のある領域を避けてガイド情報を提示していたが、表示方法はこれに限定されない。例えば、利用者の視線の動きや他の入出力要素の動作状態を解析するなどにより、現在利用者が使っているアプリケーションや、現在利用者が参照しているアプリケーション或いはウインドウなどの表示要素を識別し、これら要素との重複を避けるよう再配置して入力ガイドを提示するようにしてもよい。
【０１３０】
第２の実施形態によれば、第１の実施形態に加えてさらに以下の効果が得られる。
【０１３１】
アプリケーション管理部２０６は、稼働するアプリケーションの状態を監視する。制御部２０５は、このアプリケーションの表示状態に従って、適宜入力ガイドの位置を補正する。このため、視覚ガイド情報と他の表示要素との重複表示が避けられ、利用者が入力ガイドを介した対話のためにアプリケーション処理を中断することが不要となる。従って、利用者の作業効率が向上し、利用者にとってより分かりやすいインタフェースが実現される。
【０１３２】
第３の実施形態
以下、本発明の第３の実施形態を、第１の実施形態及び第２の実施形態と異なる点についてのみ、図面を用いて詳細に説明する。
【０１３３】
第３の実施形態は、第１の実施形態及び第２の実施形態に加えてさらに、利用者への出力を補助音声により補完する機能を提供する。
【０１３４】
図７は、本発明の第３の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。第３の実施形態は、出力部１０１と、入力部１０２と、視覚ガイド提示部１０３と、注視対象検出部１０４と、制御部３０６と、補助音声提示部３０７とを具備する。
【０１３５】
補助音声提示部３０７は、例えば利用者からの入力を正しく受け取ったことの確認、或いは利用者からの入力を促す等の目的のため、音声信号によるフィードバックを行う。このフィードバックを補助音声と称する。補助音声は、ブザー、ディジタル記録された音声信号の再生、或いは合成音声出力等により利用者に提示される。尚、補助音声提示部３０７は、請求項における出力制御手段に対応する。
【０１３６】
制御部３０５は、第１の実施形態の制御部１０５とほぼ同様の機能を持つ。ただし、制御部３０５は、さらに以下の処理を行う。
【０１３７】
即ち、制御部３０５は、視覚ガイド提示部３０４が利用者の入力内容に対するフィードバックを提示する際に、適宜補助音声提示部３０７を用いる。具体的には、制御部３０５は、注視対象検出部１０３から得られる利用者の注視位置Ｅと、現在視覚ガイド情報が提示されている位置を表すレジスタＭの内容とを比較する。制御部３０５は、双方の位置のずれが予め決定される閾値Ｆ４より大きい場合には、利用者が視覚ガイド情報を視野領域内に収められていないと判断する。視覚ガイド情報が視野領域内にない場合、制御部３０５は、補助音声提示部３０７から、音声信号によるフィードバックを提示する。尚、制御部３０５又は補助音声提示部３０７は、請求項における補助音声生成手段に対応する。
【０１３８】
第３の実施形態のその他の構成および処理手順は第１の実施形態及び第２の実施形態と同様であるため、説明は省略される。
【０１３９】
尚、第３の実施形態では、視覚的なガイド情報の補助のため音声信号出力を用いる例を示したが、第３の実施形態はこれに限定されない。例えば、振動や力などを用いた出力等、利用者の視覚を拘束しない出力であれば、他の出力信号に対しても第３の実施形態を適用することができる。また、補助音声には、人間同士の会話で多用される相槌を利用してもよい。
【０１４０】
第３の実施形態は、第１の実施形態及び第２の実施形態と適宜組み合わせて実施されてもよいことは言うまでもない。
【０１４１】
第３の実施形態によれば、第１の実施形態及び第２の実施形態に加えてさらに以下の効果が得られる。
【０１４２】
補助音声提示部３０７は、制御部３０５の制御により、視覚ガイド提示部１０３と共に、或いは視覚ガイド提示部１０３に替えて、利用者からの入力に対するフィードバックを補助音声により提示する。これにより、利用者は、視覚ガイド情報を見ていない時には補助音声によるフィードバックが視覚ガイド情報を補完し、かつ必要のないときには補助音声が提示されない。従って、より確実に利用者に入力のフィードバックを与えるインタフェースが実現される。
【０１４３】
第４の実施形態
以下、本発明の第４の実施形態を、第１の実施形態乃至第３の実施形態と異なる点についてのみ、図面を用いて詳細に説明する。
【０１４４】
第４の実施形態は、上記の実施形態に加えてさらに、利用者からの入力待ち受けの時間を調整する機能を提供する。
【０１４５】
図８は、本発明の第４の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。第４の実施形態は、出力部１０１と、入力部１０２と、視覚ガイド提示部１０３と、注視対象検出部１０４と、制御部４０５と、探索状態検出部４０８とを具備する。
【０１４６】
探索状態検出部４０８は、注視対象検出部１０３から逐次提供される利用者の視線位置をあらかじめ用意した規則によって監視する。具体的には、探索状態検出部４０８は、例えば、利用者の視線位置が入力候補を提示している視覚ガイド提示部１０４の上に滞留している場合に、利用者が入力すべき候補を選択中であると判断する等の解析を行なう。解析結果は、制御部４０５に逐次通知される。
尚、探索状態検出部４０８は、請求項における第３の判定手段に対応する。
【０１４７】
制御部４０５は、第１の実施形態の制御部１０５とほぼ同様の機能を持つ。ただし、制御部４０５は、さらに以下の処理を行う。
【０１４８】
即ち、制御部４０５は、探索状態検出部４０８から得られる利用者の探索状況に応じて、入力の待ち受け時間の延長や、入力ガイド情報の提示時間の調整等を適宜実行する。
【０１４９】
第４の実施形態のその他の構成および処理手順は第１の実施形態乃至第３の実施形態と同様であるため、説明は省略される。
【０１５０】
尚、第４の実施形態と上記の実施形態とを適宜組み合わせて利用することができることはいうまでもない。これらの組み合わせにより、例えば、利用者がある位置に視線をなげかけている時に、利用者が視線を大きく動かすことなく内容を確認できる近傍位置であり、かつ現在の利用者が利用・参照している画面上の表示要素と重ならないか或いは重なりの最小となる位置にガイド情報を提示することが可能である。
【０１５１】
さらに、これに続き、利用者が例えば異なる表示要素の内容を確認するために現在参照している表示要素の近傍の他の表示要素上へ視線を移動させた場合にも、新たに参照している表示要素と重ならないか或いは重なりが最小となる位置であり、かつ利用者が視線を大きく動かすことなく内容を確認可能な位置に入力ガイドが移動されるべく制御することも可能である。
【０１５２】
第４の実施形態は、上記の実施形態と適宜組み合わせて実施されてもよいことは言うまでもない。
【０１５３】
第４の実施形態によれば、上記の実施形態に加えてさらに以下の効果が得られる。
【０１５４】
探索状態検出部４０８は、利用者の探索状況を監視する。制御部４０５は、この探索状況に応じて、入力の待ち受け時間の延長や、入力ガイド情報の提示時間の調整等を行う。これにより、利用者が入力ガイドを見ながら入力すべき表現・内容を検討或いは選択している状態では、適切に入力の待ち受け延長等がされる。従って、少ない負荷でより使いやすいインターフェースが実現される。
【０１５５】
【発明の効果】
以上説明したように、本発明によれば、以下に記載されるような効果を奏する。即ち、本発明は、利用者の入力を補助するガイド情報を、利用者の視線の位置を示す注視情報等に基づいて決定された位置に適宜配置する機能を提供する。また、利用者の注視情報に基づいて、ガイド情報を音声等の他のガイド情報により適宜補完する機能を提供する。
【０１５６】
これにより、利用者の負担を軽減しつつ効率的かつ適切に入力のガイドを行うことが可能となる。
【０１５７】
このように、本発明を用いれば、マルチモーダルインターフェース環境において、利用者とコンピュータとの間の対話におけるデータ授受の精度が向上され、ひいては、利用者とコンピュータとの間の自然かつ円滑なコミュニケーションが実現される。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【図２】本発明に係るマルチモーダルインターフェース装置が実装されるコンピュータシステムのハードウエア構成を示すブロック図である。
【図３】本発明の第１の実施形態に係るマルチモーダルインターフェース装置における制御部１０５が行う処理手順を示すフローチャートである。
【図４】本発明の第１の実施形態に係るマルチモーダルインターフェース装置における制御部１０５が行う提示補正処理の処理手順を示すフローチャートである。
【図５】本発明に係る利用者の視線に伴うマルチモーダルインターフェース装置の動作の一例を説明する図である。
【図６】本発明の第２の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【図７】本発明の第３の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【図８】本発明の第４の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【符号の説明】
１、２、３、４マルチモーダルインターフェース装置
１０１出力部
１０２入力部
１０３視覚ガイド提示部
１０４注視対象検出部
１０５、２０５、３０５、４０５制御部
２０６アプリケーション管理部
３０７補助音声提示部
４０８探索状態検出部

Claims

使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース装置であって、
使用者の注視位置を検出して注視情報として生成する注視情報生成手段と、
前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する位置を求めるガイド情報制御手段と、
ガイド情報制御手段により求められた位置にガイド情報を提示制御する提示制御手段とを具備し、
提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定することを特徴とするマルチモーダルインターフェース装置。
使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース装置であって、
使用者の注視位置を検出して注視情報として生成する注視情報生成手段と、
前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する位置を求めるガイド情報制御手段と、
ガイド情報制御手段により求められた位置にガイド情報を提示制御する提示制御手段と、
求められた前記ガイド情報の提示領域が、使用者の周辺視野の範囲内にない場合に、該提示領域が前記周辺視野の範囲内に収まるように前記提示領域のサイズを補正する提示位置補正手段とを具備することを特徴とするマルチモーダルインターフェース装置。
前記ガイド情報制御手段は、さらに、
前記注視情報が示す前記使用者の注視位置と前記ガイド情報の提示位置との間の距離が所定の第１の閾値の範囲内にあるか否かを判題する第１の判定手段を具備し、
前記距離が前記第１の閾値の範囲内にない場合に、前記使用者の注視位置の近傍に前記ガイド情報の提示位置を設定する
ことを特徴とする請求項１または２に記載のマルチモーダルインターフェース装置。
前記ガイド情報制御手段は、さらに、
求められた前記ガイド情報の位置が、前記ガイド情報を提示すべき所定の提示領域内にあるか否かを判定する第２の判定手段を具備し、
前記提示位置が前記提示領域内にない場合に、前記提示領域内に前記ガイド情報の提示位置を補正する
ことを特徴とする請求項１乃至３のいずれか記載のマルチモーダルインターフェース装置。
上記マルチモーダルインターフェース装置は、さらに、
提示領域に提示される各アプリケーションの利用状況及び前記アプリケーションの各提示要素の配置情報のいずれか１つ以上を示すアプリケーション提示情報を生成するアプリケーション状況把握手段を具備し、
前記ガイド情報制御手段は、前記アプリケーション提示情報に基づき、前記ガイド情報を、各アプリケーションの提示を妨げない位置に設定する
ことを特徴とする請求項１乃至４のいずれか記載のマルチモーダルインターフェース装置。
上記マルチモーダルインターフェース装置は、さらに、
使用者からの入力を補助するための、音声信号による音声ガイド情報を生成する補助音声生成手段と、
前記音声ガイド情報を出力制御する出力制御手段とを具備し、
前記ガイド情報制御手段は、
前記注視情報に基づいて、前記使用者が視野領域近傍に前記ガイド情報を捕捉不能と判断される場合に、前記音声ガイド情報を提示すべきガイド情報に設定する
ことを特徴とする請求項１乃至５のいずれか記載のマルチモーダルインターフェース装置。
上記マルチモーダルインターフェース装置は、さらに、
前記注視情報に基づいて、前記使用者の注視位置が提示された前記ガイド情報の領域内に滞留しているか否かを判定する第３の判定手段を具備し、
前記ガイド情報制御手段は、
前記使用者の前記注視位置が滞留していると判定される場合に、前記制御手段は、前記使用者からの入力の待ち受け状態を維持する
ことを特徴とする請求項１乃至６のいずれか記載のマルチモーダルインターフェース装置。
前記提示制御手段は、
前記ガイド情報を、提示領域に、半透明或いは強調表示により提示制御する
ことを特徴とする請求項１乃至７のいずれか記載のマルチモーダルインターフェース装置。
使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース方法であって、
使用者の注視位置を検出して注視情報として生成するステップと、
前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるステップと、
前記提示位置にガイド情報を提示するステップと、
提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するステップと
を含むことを特徴とするマルチモーダルインターフェース方法。
使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース方法であって、
使用者の注視位置を検出して注視情報として生成するステップと、
前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるステップと、
前記提示位置にガイド情報を提示するステップと、
求められた前記ガイド情報の提示領域が、使用者の周辺視野の範囲内にない場合に、該提示領域が前記周辺視野の範囲内に収まるように前記提示領域のサイズを補正するステップとを含むことを特徴とするマルチモーダルインターフェース方法。
使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体であって、
使用者の注視位置を検出して注視情報として生成するモジュールと、
前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるモジュールと、
前記提示位置にガイド情報を提示するモジュールと、
提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するモジュールとを含む
ことを特徴とするマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体。
使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体であって、
使用者の注視位置を検出して注視情報として生成するモジュールと、
前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する提示位置を求めるモジュールと、
前記提示位置にガイド情報を提示するモジュールと、
求められた前記ガイド情報の提示領域が、使用者の周辺視野の範囲内にない場合に、該提示領域が前記周辺視野の範囲内に収まるように前記提示領域のサイズを補正するモジュールとを含むことを特徴とするマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体。