JP3753882B2 - マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法 - Google Patents

マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法 Download PDF

Info

Publication number
JP3753882B2
JP3753882B2 JP05477899A JP5477899A JP3753882B2 JP 3753882 B2 JP3753882 B2 JP 3753882B2 JP 05477899 A JP05477899 A JP 05477899A JP 5477899 A JP5477899 A JP 5477899A JP 3753882 B2 JP3753882 B2 JP 3753882B2
Authority
JP
Japan
Prior art keywords
user
information
guide information
presentation
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05477899A
Other languages
English (en)
Other versions
JP2000250677A (ja
Inventor
哲朗 知野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP05477899A priority Critical patent/JP3753882B2/ja
Publication of JP2000250677A publication Critical patent/JP2000250677A/ja
Application granted granted Critical
Publication of JP3753882B2 publication Critical patent/JP3753882B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法に関する。特に、複数の対話モードにより利用者とコンピュータとの間のデータの授受を行うマルチモーダルインターフェース環境において、利用者に対話を補助するガイド情報を最適に提示することで、自然かつ円滑な対話を実現するための技術に関する。
【0002】
【従来の技術】
近年、パーソナルコンピュータを含む各種計算機システムにおいて、従来のキーボードやマウスなどによる入力・ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報等のマルチメディア情報を入出力することが実現された。
【0003】
これらのマルチメディア情報を用いた対話システムの1つとして、音声対話システムがある。自然言語解析・自然言語生成、音声認識・音声合成技術、或いは対話処理技術の進歩などによって、利用者と音声入出力データを対話する音声対話システムへの要求が高まっている。例えば自由発話による音声入力による対話システムである“TOSBURG−II”(電気情報通信学会論文誌、Vol.J77−D−II、No.8,pp1417−1428,1994)等、様々な音声対話システムの開発がなされている。
【0004】
この音声入出力に加え、例えばカメラを使って把握した視覚情報入力データを利用し、或いは、タッチパネル・ペン・タブレット・データグローブ・フットスイッチ・対人センサ・ヘッドマウントディスプレイ・フォースディスプレイ(提力装置)など様々な外部入出力デバイスを通じて利用者と授受できる情報を利用することにより、利用者と対話(インタラクション)を行なうマルチモーダル対話システムへの要求が高まっている。これらの複数の対話モードを備えるユーザーインターフェースを、以下、マルチモーダルインターフェース(Multimodal Interface、MMI)と称する。
【0005】
人間同士の対話においては、例えば音声など一つのメディア(チャネル)のみを用いてコミュニケーションを行なっている訳ではなく、身振り・手ぶり・表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションが実現されている(“Intelligent Multimedia Interfaces”,Maybury M.T,Eds.,The AAAI Press/The MIT Press,1993)。これと同様、人間とコンピュータとの対話においても、マルチモーダルインターフェースは自然で使いやすいヒューマンインタフェースを実現するための有力な手法である。
【0006】
従来のマルチモーダルインターフェースの処理を以下に説明する。
【0007】
利用者からコンピュータに音声入力等がなされると、入力された音声波形信号はアナログ/デジタル変換される。このデジタル化された音声信号の単位時間当たりのパワー計算を行なうこと等によって、音声区間が検出される。音声信号は、例えばFFT(高速フーリエ変換)などの方法によって分析される。次に、例えば、HMM(隠れマルコフモデル)などの方法を用いて、分析された音声信号と予め用意した標準パターンである音声認識辞書との照合処理が行われ、この照合結果に従って発声内容が推定される。推定された発生内容に応じた処理が行なわれる。
【0008】
音声入力以外の非言語メッセージによる入力の場合、カメラから得られる利用者を撮像した画像情報の解析、赤外線などを用いた距離センサなどの出力情報の解析、或いはタッチセンサなどの接触式の入力装置の出力情報の解析によって、利用者の手の位置・形・或いは動きなどを認識することで、利用者からのジェスチャ等の非言語メッセージによる入力が行われていた。
【0009】
【発明が解決しようとする課題】
しかしながら、従来のマルチモーダルインターフェースには、以下の問題点があった。
【0010】
そもそもマルチモーダルインターフェース環境は、従来と異なる以下の特性を有する。すなわち、第1に、入力された情報が、利用者が意図した情報か不要な情報かを判別することが困難である。
【0011】
第2に、入力データは予め登録した辞書などとの照合処理により意味内容が推定されるため、この照合の精度を上げるためには利用者に対する入力候補などのガイド情報が不可欠である。以下、この入力のガイドにつき詳述する。
【0012】
現在の技術においては、それぞれのメディアからの入力の照合処理による解析精度は低く、それぞれの入出力メディアの性質が十分には明らかとなっていない。このため、新たに利用可能となった各入出力メディア、あるいは複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減するマルチモーダルインタフェースは未だ実現されていない。
【0013】
また、利用者は、音声或いはジェスチャ等によって入力を行なう際に、各場面毎に現在入力可能な語彙やジェスチャ種などの入力候補である表現が分かり難い。同時に、どの時点に入力が可能であるかどうかが分かり難い。
【0014】
また、音声やジェスチャなどの認識技術を利用したインターフェースでは、認識精度の低さから入力内容が意図した内容で入力されたか否かには不確実性がある。このため、利用者は各入力が正しく認識されたか否か分かり難い。
【0015】
これらに対処するために、利用者に対して適宜入力のガイドを提示することが必要となる。このガイドは、現在入力可能な表現、現在の入力受け付けの状態、又は入力のタイミングを示したり、或いは入力された表現の認識結果などを表示領域上の一部分等に表示して、利用者の入力を補助する。
【0016】
音声やジェスチャなどの入力の各時点において入力可能な表現の組合せは一般に複雑かつ膨大になる。さらに、利用者は、あらかじめ決めた表現を入力するだけでなく、その場で逐次表現を決定・変更して、入力する場合も少なくはない。
上記の入力ガイドを参照することにより、利用者はこの全ての表現の組み合わせを覚えておくことが不要となる。
【0017】
この入力ガイドにより、利用者は、各時点に於いて入力可能な表現の候補を見ながら入力する表現を決定できる。また、音声あるいはジェスチャなどによる入力を行なう際に、その入力のタイミングを得ることができる。これらの理由により、利用者は入力を行う際に、しばしばこの入力ガイドを参照する。
【0018】
しかし、従来の入力ガイドには、以下の問題点があった。
【0019】
一般にマルチモーダルインタフェースは、何らかのタスクを実施する装置又は方法と併用され、これらの装置等に対する音声やジェスチャ等の認識技術を用いた入力を利用可能とするものである。従って、本来のタスクを実行するためには、利用者はほとんどの時間タスクに対応する作業領域を見る必要がある。
【0020】
この利用者が現在行なっている作業を行なうための領域と、上述のガイドが表示される領域とは、ほとんどの場合に別の領域となる。音声或いはジェスチャなど認識技術を用いた入力手段を利用する際には、ガイドを見る必要があるにも拘わらず、利用者が作業領域のみに視線を投げかけている場合には、音声あるいはジェスチャなどの入力のためのガイドを見ることができなくなる。他方、利用者がガイドのみに視線を投げかけている場合には、作業領域を見ることが出来なくなるために、本来のタスクを行なうことが出来ない。他方、利用者がガイドと作業領域の双方に視線を投げかけようとする場合には、利用者の視線が双方の間を頻繁に行き来することとなる。このため、利用者が視線を動かして双方の領域に視線を合わせ直したり、あるいは双方の領域で現在必要な情報を捜し出す余分な作業が必要となって、利用者の負荷が増大する。
【0021】
このように、第1の問題点として、作業領域と入力ガイドを別領域に表示していたので、音声あるいはハンドジェスチャなどといった、本来は目の動きに関して拘束の無いメディアを用いたメディアを使っているにも拘わらず、利用者の目の動きに制限を与えてしまい、結果としてこれらのメディアの持つ本来のメリットを無効にしてしまう。
【0022】
第2の問題点として、入力内容を解析した結果を利用者に対してフィードバックする際に、このフィードバック信号として従来は、ビープ音、相槌音声等の音声信号が用いられていた。
【0023】
しかし、周囲の環境によっては、常に音声信号によるフィードバックを行なうことは、周囲に対する雑音となる。あるいは利用者自身に対しても繁雑となってしまう。
【0024】
第3の問題点として、利用者とコンピュータとの間の入力ガイドにおける対話を制御する手段が必要となる。具体的には、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などに、その障害の発生を検知し、かつその障害を解消する手段である。これらの障害として、利用者からの入力の認識に失敗したり、或いは利用者への情報の出力に失敗をした場合等がある。これらの障害を解決するためには、例えば確認のための情報の再提示・利用者への問い返し質問対話・対話の論議の流れを適切に制御すること等によって、利用者からの入力に対応して利用者への適切な出力を行なったり、利用者からの入力と利用者への出力のタイミングを適切に制御したりする処理が必要となる。
【0025】
従来のマウス・キーボード等の入力デバイスを想定した対話管理処理には各種の手法が用いられている。例えば、予め用意した対話の流れであるスクリプトを利用した方法や、例えば質問/回答・挨拶/挨拶といった互いに対となる発話の組である発話対や発話交換構造等の情報を利用した方法がある。さらに、対話の流れ全体を対話の参加者の各個人の計画(プラン)或いは参加者間の共同の計画(プラン)として形式化して記述・生成・認識するプランニングによる方法などが用いられている。
【0026】
しかし、特に音声或いはジェスチャ等のマルチモーダルによる入力の場合、利用者は入力すべき表現を考えながら入力したり、途中で取り消したり、或いは入力内容の決定に時間をかける。このため、入力を受け付ける時間の制御を行なう際に、適切なタイミングの制御が困難である。
【0027】
このタイミング制御を、予め設定した一定の時間、入力を受け付けるように制御する第1の方法がある。しかしこの方法では、上述のように利用者が入力に時間をかけた場合に入力が不可能となる。
【0028】
一方、利用者が任意のタイミングで入力を行なう可能性を考慮して、常時入力を受け付けるようにした第2の方法がある。しかしこの方法では、入力が意図されない音声あるいは動作を誤って受け付けたり、あるいは周囲の雑音・関係のない動作・画像等を誤って受け付ける。このため、誤動作が起こり、利用者の負担を増加していた。
【0029】
一方、利用者が通常より遅いタイミングで入力を行なう可能性を考慮して、利用者からの入力を受け付ける時間を長くする第3の方法がある。しかしこの方法でも第2の方法と同様、入力が意図されない音声あるいは動作を誤って受け付けたり、あるいは周囲の雑音・関係のない動作・画像を誤って受け付ける。このため、誤動作が起こり、利用者の負担を増加していた。
【0030】
また、利用者がまだ入力を継続する意思があるか否かを判定する手法がない。
このため、どこまで入力の待ち受け時間を延長すべきかの、適当なタイミングを判断することができない。
【0031】
従って、従来のマルチモーダルインタフェースでは、人間同士のコミュニケーションにおいては重要な役割を演じている、視線、身振り・手振りなどのジェスチャ・顔表情などの非言語メッセージを効果的に活用することができなかった。
【0032】
以上説明したように、本発明は、マルチモーダルインターフェース環境において、各メディアによる入力の認識の精度を向上させるために利用され、対話を補助するために提示される各種ガイド情報が、本来処理すべきアプリケーション処理とは異なる領域に提示されていた、また状況によらずに音声信号によるフィードバックを一律行っていた、さらには対話に障害が発生した場合等に利用者の意図する入力内容が必ずしも正しく最後まで入力できなかったために、利用者の負担が増加し、適切に入力ガイドが行えなかったという問題点を解決するためになされたものである。
【0033】
そして、その目的とするところは、対話を補助するためのガイド情報を、利用者が作業する作業領域と対応させて提示することで、利用者の負担を軽減しつつ適切に入力ガイドを行って複数の入出力メディアを効率的に利用することを可能とするマルチモーダルインターフェース装置及びマルチモーダルインターフェース方法を提供することにある。
【0034】
また、他の目的は、周囲の状況に即して必要に応じて音声信号によるフィードバックを行うことで、より確実かつ自然に利用者に対して入力のフィードバックを行うことにある。
【0035】
また、他の目的は、対話のタイミング或いは流れを適切に制御することで、より効率よく利用者の意図する入力情報を取得することにある。
【0036】
【課題を解決するための手段】
上記の課題を解決するための本発明の特徴は、利用者の入力を補助するガイド情報を利用者の注視位置の近傍に提示すべくガイド情報の提示を最適化する点にある。
【0037】
この注視位置は、例えば利用者の視線方向から得られる。
【0038】
かかる機能を実現するための、本発明の第1の特徴は、使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース装置であって、使用者の注視位置を検出して注視情報として生成する注視情報生成手段と、前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する位置を求めるガイド情報制御手段と、ガイド情報制御手段により求められた位置にガイド情報を提示制御する提示制御手段とを具備し、提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定する点にある。
【0039】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【0040】
また、本発明の第2の特徴は、前記ガイド情報制御手段は、さらに、前記注視情報が示す前記使用者の注視位置と前記ガイド情報の提示位置との間の距離が所定の第1の閾値の範囲内にあるか否かを判題する第1の判定手段を具備し、前記距離が前記第1の閾値の範囲内にない場合に、前記使用者の注視位置の近傍に前記ガイド情報の提示位置を設定する点にある。
【0041】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【0042】
また、本発明の第3の特徴は、前記ガイド情報制御手段は、さらに、前記利用者が前記ガイド情報に注目していると判断される場合には、前記ガイド情報の提示位置を固定とする点にある。
【0043】
上記構成によれば、利用者がすでにガイド情報を捕捉している場合には、ガイド情報を移動させないことにより、無駄なちらつきをなくして利用者の負担を軽減することが可能となる。
【0044】
また、本発明の第4の特徴は、前記ガイド情報制御手段は、さらに、求められた前記ガイド情報の提示位置が、前記ガイド情報を提示すべき所定の提示領域内にあるか否かを判定する第2の判定手段を具備し、前記提示位置が前記提示領域内にない場合に、前記提示領域内に前記ガイド情報の提示位置を補正する点にある。
【0045】
上記構成によれば、算出されたガイド情報の提示位置が表示画面等を越える場合に、提示位置を自動的にオフセットすることができる。従って、利用者に確実にガイド情報を認識させることが可能となる。
【0046】
また、本発明の第5の特徴は、前記ガイド情報制御手段は、前記使用者の視野領域内に前記ガイド情報を提示させるべく前記ガイド情報の大きさを補正する点にある。
【0047】
上記構成によれば、利用者の視野領域内に提示すべき全ガイド情報を収めることができる。従って、利用者のガイド情報取得の負荷が軽減される。
【0048】
また、本発明の第6の特徴は、上記マルチモーダルインターフェース装置は、さらに、提示領域に提示される各アプリケーションの利用状況及び前記アプリケーションの各提示要素の配置情報のいずれか1つ以上を示すアプリケーション提示情報を生成するアプリケーション状況把握手段を具備し、前記ガイド情報制御手段は、前記アプリケーション提示情報に基づき、前記ガイド情報を、前記各アプリケーションの提示を妨げない位置に設定する点にある。
【0049】
上記構成によれば、画面上の各アプリケーションが表示する情報を妨げることなくガイド情報を提示することができる。従って、各アプリケーションとの対話の効率が向上する。
【0050】
また、本発明の第7の特徴は、上記マルチモーダルインターフェース装置は、さらに、使用者からの入力を補助するための、音声信号による音声ガイド情報を生成する補助音声生成手段と、前記音声ガイド情報を出力制御する出力制御手段とを具備し、前記ガイド情報制御手段は、前記注視情報に基づいて、前記使用者が視野領域近傍に前記ガイド情報を捕捉不能と判断される場合に、前記音声ガイド情報を提示すべきガイド情報に設定する点にある。
【0051】
上記構成によれば、利用者が表示画面を注視していない場合であっても、利用者にガイド情報を認識させることができる。
【0052】
また、本発明の第8の特徴は、上記マルチモーダルインターフェース装置は、さらに、前記注視情報に基づいて、前記使用者の注視箇所が提示された前記ガイド情報の領域内に滞留しているか否かを判定する第3の判定手段を具備し、前記ガイド情報制御手段は、前記使用者の前記注視箇所が滞留していると判定される場合に、前記制御手段は、前記使用者からの入力の待ち受け状態を維持する点にある。
【0053】
上記構成によれば、利用者からの入力待ち受け時間を最適化することができる。従って、システムの負荷が軽減される。
【0054】
また、本発明の第9の特徴は、前記提示制御手段は、前記ガイド情報を、提示領域に、半透明表示或いは強調表示により提示制御する点にある。
【0055】
上記構成によれば、すでに表示されている表示要素を妨げることなく、ガイド情報を提示することができる。
【0056】
さらに、本発明の第10の特徴は、使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース方法であって、使用者の注視位置を検出して注視情報として生成するステップと、前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるステップと、前記提示位置にガイド情報を提示するステップと、提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するステップとを含む点にある。
【0057】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【0058】
また、本発明の第11の特徴は、使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体であって、使用者の注視位置を検出して注視情報として生成するモジュールと、前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるモジュールと、前記提示位置にガイド情報を提示するモジュールと、提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するモジュールとを含む点にある。
【0059】
上記構成によれば、利用者の作業領域の近傍にガイド情報を提示することができる。従って、利用者の負担を増加させることなく、利用者に確実にガイド情報を認識させることが可能となる。
【0060】
【発明の実施の形態】
第1の実施形態
以下、図面を用いて本発明の第1の実施形態を詳細に説明する。第1の実施形態は、利用者の視線位置に対応して入力ガイド情報の位置を制御する機能を提供する。
【0061】
図1は本発明の第1の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。図1に示すように、第1の実施形態に係るマルチモーダルインターフェース装置1は、出力部101と、入力部102と、視覚ガイド提示部103と、注視対象検出部104と、制御部105とから構成される。
【0062】
出力部101は、コンピュータ内部から利用者に対する各種メディアによるデータの出力を行う。出力部101は、例えばCRTディスプレイ・LCDディスプレイ・投影プロジェクタ・ヘッドマウントディスプレイ等の利用者に対して少なくとも視覚的な情報を出力する。このうち例えばGUI(グラフィカルユーザインタフェース)により出力する場合には、例えばビットマップディスプレイ上にウィンドウやメニューやポインタなどを表示するように構成される。
【0063】
図1においては102は、入力部を表している。
【0064】
入力部102は、利用者からコンピュータに対する各種メディアによるデータの入力を行う。入力部102は、マイク、カメラ、キーボード、タッチパネル・ペン・タブレット・マウス・トラックボール等のポインティングデバイス、データグローブ、データスーツ、アイトラッカ、ヘッドトラッカ、OCR、対人センサ、着席センサ、などの少なくとも一つの入力デバイスを通じて得られる利用者からの音声情報・視覚情報・操作情報などの入力を取り込む。入力された音声情報・視覚情報・操作情報は、標本化、コード化、ディジタル化、フィルタリング、信号変換、記録、保存、パターン認識、言語/音声/画像/動作/操作の解析、理解、意図抽出など、少なくとも一つの処理を行なうことによって入力情報として解析される。
【0065】
視覚ガイド提示部103は、入力部102から入力される利用者からの入力を補助するための情報であるガイド情報を利用者に提示する。視覚ガイド提示部103は、このガイド情報を、例えば文字や画像などといった視覚的手段によって、出力部101上に表示する。この表示の際には、ガイド情報は、例えばウインドウやメニューやポインタなどといった他の表示要素に重複させて表示されてもおよい。あるいは半透明で重畳させたり、色・フォント・ブリンク・ハイライトなどの表示属性を変更した表示形態で提示されてもよい。
【0066】
提示されるガイド情報の内容は、第1に例えば各時点における入力の受け付け可否の状況、音声による入力を想定した場合の入力可能な語彙のリスト、あるいはジェスチャ入力を想定した場合の入力可能なジェスチャの種類名や記号や絵による表現のリスト等の、利用者が現在入力することの可能な表現の候補に関する情報がある。第2には、利用者からの入力の処理の進行状況、或いは利用者からの入力の処理によって得られた認識候補などに関する情報がある。これらの情報が、利用者の入力を補助する情報として適宜提示されるように構成されている。
【0067】
また、視覚ガイド提示部103は、後述される制御部105の制御に従って、ガイド情報を出力部101の指定された位置に指定された形式で提示する。尚、視覚ガイド提示部103は、請求項における提示制御手段に対応する。
【0068】
尚、以下において、第1の実施形態では、入力部102からの入力情報としては音声認識入力を想定する。視覚ガイド提示部103で提示されるガイド情報としては、各時点において入力が可能な発声の候補である音声認識語彙を半透明に適宜提示するものとする。ただし、視覚ガイド提示部103における表示内容および表示形式は限定されるものではなく、任意の手法を用いることができることは言うまでもない。
【0069】
注視対象検出部104は、利用者がコンピュータ画面等を現在見ているか否か、また利用者の視線が向いている場所・座標・領域・方向・物、或いはその部分のうち少なくとも一つを検出する。検出された情報は、注視対象情報として出力される。具体的には、この注視対象情報は、例えば、利用者の眼球運動を観察するアイトラッカ装置や、利用者の頭部の動きを検出するヘッドトラッカ装置や、着席センサや、特願平08−059071「注視箇所推定装置とその方法」で用いられている方法などにより利用者を観察するカメラや利用者が装着したカメラから得られる画像情報を処理して利用者の視線方向を検出する手法などによって、検出される。尚、注視対象検出部104は、請求項における注視情報生成手段に対応する。
【0070】
制御部105は、出力部101、入力部102、視覚ガイド提示部103、注視対象検出部104の各構成要素を制御及び管理する。尚、制御部105は、請求項におけるガイド情報制御手段に対応する。
【0071】
次に、第1の実施形態におけるマルチモーダルインターフェース装置のハードウエア構成を説明する。本発明に係るマルチモーダルインターフェース装置1は、いわゆる汎用計算機、ワークステーション、PC、ネットワーク端末等の各種コンピュータ単体又は各コンピュータを相互接続したシステムに実装される。あるいは、自動販売機・券売機・遊技機等の対面型装置システムに実装されてもよい。
【0072】
図2は、第1の実施形態を汎用計算機に実装する場合の内部構成の一例を示す。図2に示す汎用計算機は、CPU部501と、メモリ部502と、大容量記憶部503と、通信インタフェース部504とを備える。図2に示す汎用計算機は、さらに、入力インタフェース部505a〜505nと、入力デバイス部506a〜506nと、出力インタフェース部507a〜507mと、出力デバイス部508a〜508mを備える。尚、メモリ部502と大容量記憶部503とは共用されてもよい。
【0073】
入力デバイス部506a〜506nは、例えばマイク、キーボード、ペンタブレット、OCR、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツ等に実装される。出力デバイス部508a〜508mは、例えばディスプレイ、スピーカ、フォースディスプレイ等に実装される。CPU部501は、マルチモーダルインターフェース装置及び方法を実現するソフトウェアを制御することにより、第1の実施形態の機能を実現する。
【0074】
尚、本発明のマルチモーダルインターフェースの各種処理を実現するためのプログラムは、各種記録媒体に保存することができる。かかる記録媒体を、上記ハードウエアを具備する汎用機中のCPU部501により読み出し、当該プログラムを実行することにより、本発明が実施される。ここで、記録媒体とは、例えば、半導体メモリ・磁気ディスク(フロッピーディスク・ハードディスク等)・光ディスク(CD−ROM・DVD等)、プログラムを記録することができる装置全般を含む。さらに、上記プログラムは、ネットワークなどの各種通信手段を通じて提供されてもよい。
【0075】
本発明の第1の実施形態は上記のように構成されており、以下その処理の流れを図3乃至図5を用いて順に説明する。
【0076】
制御部105は、以下の手順に従って、視覚ガイド提示部103の提示位置、提示サイズ等の各属性を制御する。
【0077】
まず、視覚ガイド提示部103の提示位置決定処理を説明する。
【0078】
図3は、制御部105が行う視覚ガイド提示部の提示位置の決定処理の手順を示すフローチャートである。
【0079】
ステップS10は、視覚ガイド提示部103の表示位置を保持するレジスタLに、あらかじめ設定した通常時の表示位置の値L0を設定する。
【0080】
ステップS20は、あらかじめ設定した初期状態での発声候補W0を、発声候補を保持するレジスタWに設定する。
【0081】
ステップS30は、出力部101上に、レジスタLの示す座標を中心とする位置に視覚ガイド提示部103を半透明で表示する。
【0082】
ステップS40は、注視対象検出部104から利用者の注視位置Eが得られたか否かを判断する。注視位置Eが得られた場合、ステップS60へ進む。一方、注視位置Eが得られなかった場合はステップS50に進む。
【0083】
ステップS50は、新たな発声候補の集合Wiが得られたか否かを判断する。
新たな発声候補の集合Wiが得られた場合、ステップS80へ進む。一方、発声候補の集合W0に変化がない場合には、ステップS40に戻る。
【0084】
ステップS60は、レジスタLの内容と注視位置Eの内容を比較する。この比較結果により、レジスタLと注視位置E双方の中心座標のずれが、一般的な利用者の周辺視野領域のサイズなどに基づいて予め決定された閾値F1以下である場合はステップS50へ進む。一方、中心座標のずれが、閾値F1より大きい場合は、ステップS70に進む。
【0085】
ステップS70は、レジスタLの内容をEの内容で更新し、ステップS100へ進む。
【0086】
ステップS80は、レジスタWの内容をWiで更新する。
【0087】
ステップS90は、視覚ガイド提示部103にレジスタWの内容を設定する。
【0088】
ステップS100は、提示補正処理により、レジスタMの内容を決定する。提示補正処理の詳細は後述する。レジスタMは、提示補正処理で用いられる提示位置を保持するレジスタである。
【0089】
ステップS110は、出力部101上に、レジスタMの示す座標を中心として視覚ガイド提示部103を半透明で表示する。この処理の後、ステップS40に戻る。
【0090】
次に、視覚ガイド提示部103の提示補正処理を説明する。
【0091】
図4は、制御部105が行う視覚ガイド提示部の提示補正処理の手順を示すフローチャートである。
【0092】
ステップS101は、レジスタMにレジスタLの内容を複写する。
【0093】
ステップS102は、現在の語彙Wを表示する際の視覚ガイド提示部103の提示に必要な表示領域のサイズが、一般的な利用者の周辺視野領域などに基づいてあらかじめ規定した領域のサイズを表す閾値F2以下であるか否かを判断する。必要な表示領域のサイズが閾値F2以下である場合は、ステップS104に進む。一方、必要な表示領域のサイズが閾値F2より大きい場合は、ステップS103に進む。
【0094】
ステップS103は、視覚ガイド提示部103の必要な表示領域のサイズを、閾値F2以下とするよう、調整する。このサイズの調整は、例えば視覚ガイド提示部103の表示フォントを縮小するなど表示様式を変更することで行うことができる。
【0095】
ステップS104は、レジスタMの内容を中心として、視覚ガイド提示部103の表示領域の全体が出力部101の中に収まるか否かを判断する。視覚ガイド提示部103の表示領域全体が出力部101の中に収まる場合には、処理を終了する。一方、視覚ガイド提示部103の表示領域全体が出力101の画面内に収まらない場合は、ステップS105に進む。
【0096】
ステップS105は、レジスタMの内容を、出力部101の中心方向にあらかじめ設定した距離D分シフトして、レジスタMの内容を更新する。
【0097】
ステップS106は、レジスタMとレジスタLの中心座標のずれが、一般的な利用者の周辺視野領域のサイズを表すあらかじめ規定した閾値F3を越えるか否かを判定する。レジスタMとレジスタLの中心座標のずれ量が、閾値F3を越える場合は、レジスタMに、あらかじめ設定した通常時の表示位置の値L0を設定し、提示補正処理を終了する。レジスタMとレジスタLの中心座標のずれ量が、閾値F3の範囲内にある場合はステップS104に戻る。
【0098】
尚、利用者の周辺視野領域とは、例えば利用者が視野位置を動かさずに表示内容を確認可能な領域等を表すものとする。
【0099】
また、第1の実施形態においては、閾値F1、F2、及びF3は、出力部101全体より十分に小さい領域の任意のサイズであるとする。
【0100】
次に、上記の処理に従った第1の実施形態の動作の具体例を、図5を用いて詳細に説明する。
【0101】
尚、ここでは、入力ガイド提示部の初期位置であるL0には出力部101の右上の位置が指定されているものと仮定する。また初期状態での発声候補の集合W0には、[「w1」、「w2」、「w3」]が設定されているものと仮定する。
【0102】
まず、図3に示すステップS10、S20、S30の処理が実行され、入力ガイドの初期提示位置L0および発声候補W0がそれぞれ設定される。図5(a)に示すように出力部101であるディスプレイ画面の右上に現在の認識候補がガイド情報として半透明表示される。
【0103】
ここで、利用者は図5(b)に示すように現在のガイド情報の近傍(E1)辺りを注視したとする。
【0104】
この場合、図3に示すステップS40、S60の処理が実行され、現在利用者はガイド情報を周辺視野の領域内で確認することが出来ることが確認される。このため、ガイド情報はそのまま表示される。利用者は入力可能な語彙を周辺視野領域内で確認しながら例えば「w1」等の入力を行なうことが可能である。
【0105】
また、この状態で利用者が、入力ガイドの内容を見るために、或いは近傍に表示されている他の情報を確認するために、視線位置E1の近傍に視線をめぐらせた場合を想定する。この近傍に視線をめぐらせる場合にも、図3のステップS60の処理によって、入力ガイドは移動されることなく一定の位置に表示され続ける。これらの処理によって、入力ガイドが利用者の視線移動につれて頻繁に動くことなどによる利用者への負担の増加がないインタフェースが実現される。
【0106】
次に、図5(c)に示すように、利用者が、現在の入力ガイドから離れた位置にあるアプリケーションA1を参照又は操作するために、視線位置E2辺りに視線を移した場合を想定する。
【0107】
この視線の移動は、注視対象検出部103によって検出され、制御部105に通知される。制御部105は、視線位置E2は現在の入力ガイドの提示位置を示すレジスタLの値から閾値F1以上離れていることを判別する。図3に示すステップS40〜ステップS70の処理は、入力ガイドの提示位置を変更すべきであることを判定する。
【0108】
この判定結果に従い、図5(d)に示すように、図3のステップS100(図4のステップS101〜ステップS107)の処理は、利用者がその周辺視野で確認可能な位置に入力ガイドを自動的に移動する。
【0109】
なお、入力ガイドは半透明表示される。この半透明表示は、現在利用者が操作中あるいは参照中のアプリケーションA2の表示を隠してしまうことがない。このため、利用者は支障なく入力、アプリケーションの操作・参照・利用等を行なうことができる。
【0110】
次に、図5(e)に示すように、提示すべき発声候補の数が多いため入力ガイドの表示サイズが周辺視野を越えてしまう場合がある。この場合に、図4のステップS103の処理は、入力ガイドの表示サイズを縮小する。このため、利用者は、発声候補などの入力ガイドの情報を視野内に収めることができる。
【0111】
さらに、図5(f)に示すように、利用者の注視位置E3が出力部101の周辺近傍にあり、算出された入力ガイドの提示位置が出力部101からはみ出る場合がある。この場合に、図4のステップS104〜ステップS107の処理は、入力ガイドの表示位置を出力部101の中心方向に向けて適切にオフセット表示する。このため、利用者は、入力ガイドの情報を支障なく視野内に収めることができる。
【0112】
尚、全ての時点において、認識可能な発声候補が変更された場合には、図3のステップS40〜ステップS110の処理は、入力ガイドの表示内容を逐次更新する。同時に、表示内容が変わることによって必要な表示領域のサイズ変更が変更される場合には、適切に表示位置・表示形式が変更される。
【0113】
尚、第1の実施形態では、入力部102として音声認識入力を例としたが、入力手段はこれに限定されない。例えばジェスチャ入力に対しても第1の実施形態は適応可能である。
【0114】
尚、第1の実施形態では、視覚的な出力部101として一つのディスプレイを持つ装置を例としたが、出力部101はこれに限定されない。例えば複数のディスプレイを持つマルチモニタ環境、或いは例えば頭部装着型のヘッドマウントディスプレイなどを用いた仮想空間環境においても、第1の実施形態は利用可能である。
【0115】
また、第1の実施形態では、視覚ガイド提示部103の制御方法として、表示形態、表示位置、サイズなどを制御する例を示したが、制御方法はこれに限定されない。例えば視覚ガイド提示部の出力の形を変形させたり、複数配置させたり、あるいは利用者の注視位置の周囲に渡って表示するように制御することも可能である。
【0116】
また、第1の実施形態では、表示を縮小することによって、視覚ガイド提示部103に多くの情報を提示するようにしたが、提示方法はこれに限定されない。
例えば自動的にスクロールする表示形式などを利用することも可能である。
【0117】
また、視覚ガイド提示部103は、音声やジェスチャなどの入力を受けて受けている期間中だけ表示するようにすることも可能である。
【0118】
また、視覚ガイド提示部103の出力は、音声やジェスチャなどの入力を受けて受けている期間中だけ、利用者の視線位置に追従させて表示させることも可能である。
【0119】
また、第1の実施形態では、利用者の周辺視野領域の判定に、注視位置からの距離を用いていたが、判定方法はこれに限定されない。例えば人間の視野の特性を考慮した他の判断基準を追加して利用することも可能である。
【0120】
また、上記の第1の実施形態の機能を適宜組み合わせて利用することもできる。例えば、利用者がある位置に視線をなげかけている時に、利用者が視線を大きく動かすことなく内容を確認できる近傍位置であり、かつ現在の利用者が利用・参照している画面上の表示要素と重ならないか又は重なりの最小となる位置に入力ガイド情報を提示することが可能である。
【0121】
第1の実施形態によれば、以下の効果が得られる。
【0122】
注視対象検出部104は、検出された利用者の視線位置に基づく注視情報を検出する。制御部105は、この注視情報と現在の入力ガイドの表示位置とに基づき、入力ガイドが利用者の注視位置の近傍に表示されるべく制御する。
【0123】
このため、作業をする利用者は、入力ガイドを支障なく周辺視野内に収めることができる。従って、利用者は入力すべき内容を効率よく把握することができる。
【0124】
第2の実施形態
以下、本発明の第2の実施形態を、第1の実施形態と異なる点についてのみ、図面を用いて詳細に説明する。
【0125】
第2の実施形態は、第1の実施形態に加えてさらに、コンピュータ上で稼働するアプリケーションの処理と入力ガイドとの間の衝突を避ける機能を提供する。
図6は、本発明の第2の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。第2の実施形態は、出力部101と、入力部102と、視覚ガイド提示部103と、注視対象検出部104と、制御部206と、アプリケーション管理部206とを具備する。
【0126】
アプリケーション管理部206は、各時点において出力部101に表示されている、例えばウインドウ・メニュー等といった表示要素の配置・依存関係・表示状態を逐次管理する。このアプリケーションの状態の把握は、アプリケーションに関連するタスクの状態を監視するための一般に知られる手法を用いて行うことができる。アプリケーション管理部206は、制御部205からの問い合わせに応じて、或いは制御部205に非同期的にアプリケーションの状態情報を提供する。尚、アプリケーション管理部206は、請求項におけるアプリケーション状況把握手段に対応する。
【0127】
制御部205は、第1の実施形態の制御部105とほぼ同様の機能を持つ。ただし、制御部205は、図4のステップS104に替えて、以下の処理を行う。
即ち、制御部205は、レジスタMの内容を中心として、視覚ガイド提示部103の表示領域の全体が出力部101の中に収まるか否かを判断する。第2の実施形態においては、制御部205は、さらに、アプリケーション管理部206を参照して、レジスタMの内容を中心とした視覚ガイド提示部103の表示領域の全体が、稼働するアプリケーションの他の表示要素と重複するか否かを判定する。
入力ガイドと他の表示要素とが重複する場合には、入力ガイドの現在の位置を、他の表示要素と離間する位置まで移動する。一方、重複しない場合には、処理を終了する。
【0128】
第2の実施形態のその他の構成および処理手順は第1の実施形態と同様であるため、説明は省略される。
【0129】
尚、第2の実施形態では、アプリケーション管理部206を用いて、制御部205が他の表示要素のある領域を避けてガイド情報を提示していたが、表示方法はこれに限定されない。例えば、利用者の視線の動きや他の入出力要素の動作状態を解析するなどにより、現在利用者が使っているアプリケーションや、現在利用者が参照しているアプリケーション或いはウインドウなどの表示要素を識別し、これら要素との重複を避けるよう再配置して入力ガイドを提示するようにしてもよい。
【0130】
第2の実施形態によれば、第1の実施形態に加えてさらに以下の効果が得られる。
【0131】
アプリケーション管理部206は、稼働するアプリケーションの状態を監視する。制御部205は、このアプリケーションの表示状態に従って、適宜入力ガイドの位置を補正する。このため、視覚ガイド情報と他の表示要素との重複表示が避けられ、利用者が入力ガイドを介した対話のためにアプリケーション処理を中断することが不要となる。従って、利用者の作業効率が向上し、利用者にとってより分かりやすいインタフェースが実現される。
【0132】
第3の実施形態
以下、本発明の第3の実施形態を、第1の実施形態及び第2の実施形態と異なる点についてのみ、図面を用いて詳細に説明する。
【0133】
第3の実施形態は、第1の実施形態及び第2の実施形態に加えてさらに、利用者への出力を補助音声により補完する機能を提供する。
【0134】
図7は、本発明の第3の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。第3の実施形態は、出力部101と、入力部102と、視覚ガイド提示部103と、注視対象検出部104と、制御部306と、補助音声提示部307とを具備する。
【0135】
補助音声提示部307は、例えば利用者からの入力を正しく受け取ったことの確認、或いは利用者からの入力を促す等の目的のため、音声信号によるフィードバックを行う。このフィードバックを補助音声と称する。補助音声は、ブザー、ディジタル記録された音声信号の再生、或いは合成音声出力等により利用者に提示される。尚、補助音声提示部307は、請求項における出力制御手段に対応する。
【0136】
制御部305は、第1の実施形態の制御部105とほぼ同様の機能を持つ。ただし、制御部305は、さらに以下の処理を行う。
【0137】
即ち、制御部305は、視覚ガイド提示部304が利用者の入力内容に対するフィードバックを提示する際に、適宜補助音声提示部307を用いる。具体的には、制御部305は、注視対象検出部103から得られる利用者の注視位置Eと、現在視覚ガイド情報が提示されている位置を表すレジスタMの内容とを比較する。制御部305は、双方の位置のずれが予め決定される閾値F4より大きい場合には、利用者が視覚ガイド情報を視野領域内に収められていないと判断する。視覚ガイド情報が視野領域内にない場合、制御部305は、補助音声提示部307から、音声信号によるフィードバックを提示する。尚、制御部305又は補助音声提示部307は、請求項における補助音声生成手段に対応する。
【0138】
第3の実施形態のその他の構成および処理手順は第1の実施形態及び第2の実施形態と同様であるため、説明は省略される。
【0139】
尚、第3の実施形態では、視覚的なガイド情報の補助のため音声信号出力を用いる例を示したが、第3の実施形態はこれに限定されない。例えば、振動や力などを用いた出力等、利用者の視覚を拘束しない出力であれば、他の出力信号に対しても第3の実施形態を適用することができる。また、補助音声には、人間同士の会話で多用される相槌を利用してもよい。
【0140】
第3の実施形態は、第1の実施形態及び第2の実施形態と適宜組み合わせて実施されてもよいことは言うまでもない。
【0141】
第3の実施形態によれば、第1の実施形態及び第2の実施形態に加えてさらに以下の効果が得られる。
【0142】
補助音声提示部307は、制御部305の制御により、視覚ガイド提示部103と共に、或いは視覚ガイド提示部103に替えて、利用者からの入力に対するフィードバックを補助音声により提示する。これにより、利用者は、視覚ガイド情報を見ていない時には補助音声によるフィードバックが視覚ガイド情報を補完し、かつ必要のないときには補助音声が提示されない。従って、より確実に利用者に入力のフィードバックを与えるインタフェースが実現される。
【0143】
第4の実施形態
以下、本発明の第4の実施形態を、第1の実施形態乃至第3の実施形態と異なる点についてのみ、図面を用いて詳細に説明する。
【0144】
第4の実施形態は、上記の実施形態に加えてさらに、利用者からの入力待ち受けの時間を調整する機能を提供する。
【0145】
図8は、本発明の第4の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。第4の実施形態は、出力部101と、入力部102と、視覚ガイド提示部103と、注視対象検出部104と、制御部405と、探索状態検出部408とを具備する。
【0146】
探索状態検出部408は、注視対象検出部103から逐次提供される利用者の視線位置をあらかじめ用意した規則によって監視する。具体的には、探索状態検出部408は、例えば、利用者の視線位置が入力候補を提示している視覚ガイド提示部104の上に滞留している場合に、利用者が入力すべき候補を選択中であると判断する等の解析を行なう。解析結果は、制御部405に逐次通知される。
尚、探索状態検出部408は、請求項における第3の判定手段に対応する。
【0147】
制御部405は、第1の実施形態の制御部105とほぼ同様の機能を持つ。ただし、制御部405は、さらに以下の処理を行う。
【0148】
即ち、制御部405は、探索状態検出部408から得られる利用者の探索状況に応じて、入力の待ち受け時間の延長や、入力ガイド情報の提示時間の調整等を適宜実行する。
【0149】
第4の実施形態のその他の構成および処理手順は第1の実施形態乃至第3の実施形態と同様であるため、説明は省略される。
【0150】
尚、第4の実施形態と上記の実施形態とを適宜組み合わせて利用することができることはいうまでもない。これらの組み合わせにより、例えば、利用者がある位置に視線をなげかけている時に、利用者が視線を大きく動かすことなく内容を確認できる近傍位置であり、かつ現在の利用者が利用・参照している画面上の表示要素と重ならないか或いは重なりの最小となる位置にガイド情報を提示することが可能である。
【0151】
さらに、これに続き、利用者が例えば異なる表示要素の内容を確認するために現在参照している表示要素の近傍の他の表示要素上へ視線を移動させた場合にも、新たに参照している表示要素と重ならないか或いは重なりが最小となる位置であり、かつ利用者が視線を大きく動かすことなく内容を確認可能な位置に入力ガイドが移動されるべく制御することも可能である。
【0152】
第4の実施形態は、上記の実施形態と適宜組み合わせて実施されてもよいことは言うまでもない。
【0153】
第4の実施形態によれば、上記の実施形態に加えてさらに以下の効果が得られる。
【0154】
探索状態検出部408は、利用者の探索状況を監視する。制御部405は、この探索状況に応じて、入力の待ち受け時間の延長や、入力ガイド情報の提示時間の調整等を行う。これにより、利用者が入力ガイドを見ながら入力すべき表現・内容を検討或いは選択している状態では、適切に入力の待ち受け延長等がされる。従って、少ない負荷でより使いやすいインターフェースが実現される。
【0155】
【発明の効果】
以上説明したように、本発明によれば、以下に記載されるような効果を奏する。即ち、本発明は、利用者の入力を補助するガイド情報を、利用者の視線の位置を示す注視情報等に基づいて決定された位置に適宜配置する機能を提供する。また、利用者の注視情報に基づいて、ガイド情報を音声等の他のガイド情報により適宜補完する機能を提供する。
【0156】
これにより、利用者の負担を軽減しつつ効率的かつ適切に入力のガイドを行うことが可能となる。
【0157】
このように、本発明を用いれば、マルチモーダルインターフェース環境において、利用者とコンピュータとの間の対話におけるデータ授受の精度が向上され、ひいては、利用者とコンピュータとの間の自然かつ円滑なコミュニケーションが実現される。
【図面の簡単な説明】
【図1】 本発明の第1の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【図2】 本発明に係るマルチモーダルインターフェース装置が実装されるコンピュータシステムのハードウエア構成を示すブロック図である。
【図3】 本発明の第1の実施形態に係るマルチモーダルインターフェース装置における制御部105が行う処理手順を示すフローチャートである。
【図4】 本発明の第1の実施形態に係るマルチモーダルインターフェース装置における制御部105が行う提示補正処理の処理手順を示すフローチャートである。
【図5】 本発明に係る利用者の視線に伴うマルチモーダルインターフェース装置の動作の一例を説明する図である。
【図6】 本発明の第2の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【図7】 本発明の第3の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【図8】 本発明の第4の実施形態に係るマルチモーダルインターフェース装置の機能構成を示すブロック図である。
【符号の説明】
1、2、3、4 マルチモーダルインターフェース装置
101 出力部
102 入力部
103 視覚ガイド提示部
104 注視対象検出部
105、205、305、405 制御部
206 アプリケーション管理部
307 補助音声提示部
408 探索状態検出部

Claims (12)

  1. 使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース装置であって、
    使用者の注視位置を検出して注視情報として生成する注視情報生成手段と、
    前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する位置を求めるガイド情報制御手段と、
    ガイド情報制御手段により求められた位置にガイド情報を提示制御する提示制御手段とを具備し、
    提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定することを特徴とするマルチモーダルインターフェース装置。
  2. 使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース装置であって、
    使用者の注視位置を検出して注視情報として生成する注視情報生成手段と、
    前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する位置を求めるガイド情報制御手段と、
    ガイド情報制御手段により求められた位置にガイド情報を提示制御する提示制御手段と、
    求められた前記ガイド情報の提示領域が、使用者の周辺視野の範囲内にない場合に、該提示領域が前記周辺視野の範囲内に収まるように前記提示領域のサイズを補正する提示位置補正手段とを具備することを特徴とするマルチモーダルインターフェース装置。
  3. 前記ガイド情報制御手段は、さらに、
    前記注視情報が示す前記使用者の注視位置と前記ガイド情報の提示位置との間の距離が所定の第1の閾値の範囲内にあるか否かを判題する第1の判定手段を具備し、
    前記距離が前記第1の閾値の範囲内にない場合に、前記使用者の注視位置の近傍に前記ガイド情報の提示位置を設定する
    ことを特徴とする請求項1または2に記載のマルチモーダルインターフェース装置。
  4. 前記ガイド情報制御手段は、さらに、
    求められた前記ガイド情報の位置が、前記ガイド情報を提示すべき所定の提示領域内にあるか否かを判定する第2の判定手段を具備し、
    前記提示位置が前記提示領域内にない場合に、前記提示領域内に前記ガイド情報の提示位置を補正する
    ことを特徴とする請求項1乃至3のいずれか記載のマルチモーダルインターフェース装置。
  5. 上記マルチモーダルインターフェース装置は、さらに、
    提示領域に提示される各アプリケーションの利用状況及び前記アプリケーションの各提示要素の配置情報のいずれか1つ以上を示すアプリケーション提示情報を生成するアプリケーション状況把握手段を具備し、
    前記ガイド情報制御手段は、前記アプリケーション提示情報に基づき、前記ガイド情報を、各アプリケーションの提示を妨げない位置に設定する
    ことを特徴とする請求項1乃至4のいずれか記載のマルチモーダルインターフェース装置。
  6. 上記マルチモーダルインターフェース装置は、さらに、
    使用者からの入力を補助するための、音声信号による音声ガイド情報を生成する補助音声生成手段と、
    前記音声ガイド情報を出力制御する出力制御手段とを具備し、
    前記ガイド情報制御手段は、
    前記注視情報に基づいて、前記使用者が視野領域近傍に前記ガイド情報を捕捉不能と判断される場合に、前記音声ガイド情報を提示すべきガイド情報に設定する
    ことを特徴とする請求項1乃至5のいずれか記載のマルチモーダルインターフェース装置。
  7. 上記マルチモーダルインターフェース装置は、さらに、
    前記注視情報に基づいて、前記使用者の注視位置が提示された前記ガイド情報の領域内に滞留しているか否かを判定する第3の判定手段を具備し、
    前記ガイド情報制御手段は、
    前記使用者の前記注視位置が滞留していると判定される場合に、前記制御手段は、前記使用者からの入力の待ち受け状態を維持する
    ことを特徴とする請求項1乃至6のいずれか記載のマルチモーダルインターフェース装置。
  8. 前記提示制御手段は、
    前記ガイド情報を、提示領域に、半透明或いは強調表示により提示制御する
    ことを特徴とする請求項1乃至7のいずれか記載のマルチモーダルインターフェース装置。
  9. 使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース方法であって、
    使用者の注視位置を検出して注視情報として生成するステップと、
    前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるステップと、
    前記提示位置にガイド情報を提示するステップと、
    提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するステップと
    を含むことを特徴とするマルチモーダルインターフェース方法。
  10. 使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェース方法であって、
    使用者の注視位置を検出して注視情報として生成するステップと、
    前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるステップと、
    前記提示位置にガイド情報を提示するステップと、
    求められた前記ガイド情報の提示領域が、使用者の周辺視野の範囲内にない場合に、該提示領域が前記周辺視野の範囲内に収まるように前記提示領域のサイズを補正するステップとを含むことを特徴とするマルチモーダルインターフェース方法。
  11. 使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体であって、
    使用者の注視位置を検出して注視情報として生成するモジュールと、
    前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する定時位置を求めるモジュールと、
    前記提示位置にガイド情報を提示するモジュールと、
    提示された前記ガイド情報の提示位置近傍を使用者が注視する間は、前記注視位置の移動にかかわらず前記ガイド情報の提示位置を固定するモジュールとを含む
    ことを特徴とするマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体。
  12. 使用者とコンピュータとの間での情報の入出力を、複数の対話モードにより行うマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体であって、
    使用者の注視位置を検出して注視情報として生成するモジュールと、
    前記注視情報に基づいて、前記使用者の入力を補助するためのガイド情報を提示する提示位置を求めるモジュールと、
    前記提示位置にガイド情報を提示するモジュールと、
    求められた前記ガイド情報の提示領域が、使用者の周辺視野の範囲内にない場合に、該提示領域が前記周辺視野の範囲内に収まるように前記提示領域のサイズを補正するモジュールとを含むことを特徴とするマルチモーダルインターフェースプログラムを格納するコンピュータ読み取り可能な記録媒体。
JP05477899A 1999-03-02 1999-03-02 マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法 Expired - Fee Related JP3753882B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05477899A JP3753882B2 (ja) 1999-03-02 1999-03-02 マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05477899A JP3753882B2 (ja) 1999-03-02 1999-03-02 マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法

Publications (2)

Publication Number Publication Date
JP2000250677A JP2000250677A (ja) 2000-09-14
JP3753882B2 true JP3753882B2 (ja) 2006-03-08

Family

ID=12980239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05477899A Expired - Fee Related JP3753882B2 (ja) 1999-03-02 1999-03-02 マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法

Country Status (1)

Country Link
JP (1) JP3753882B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9977241B2 (en) 2015-03-17 2018-05-22 Seiko Epson Corporation Head-mounted display device, control method for head-mounted display device, and computer program

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7256770B2 (en) * 1998-09-14 2007-08-14 Microsoft Corporation Method for displaying information responsive to sensing a physical presence proximate to a computer input device
JP4006395B2 (ja) 2003-12-11 2007-11-14 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
SE529156C2 (sv) * 2005-10-28 2007-05-15 Tobii Technology Ab Ögonföljare med visuell återkoppling
JP4728982B2 (ja) * 2007-03-05 2011-07-20 株式会社東芝 利用者と対話する装置、方法およびプログラム
US20100031202A1 (en) * 2008-08-04 2010-02-04 Microsoft Corporation User-defined gesture set for surface computing
JP5332551B2 (ja) * 2008-11-26 2013-11-06 株式会社リコー 情報処理装置、表示制御方法、及びプログラム
US20110267374A1 (en) * 2009-02-05 2011-11-03 Kotaro Sakata Information display apparatus and information display method
US20130293466A1 (en) * 2011-03-30 2013-11-07 Honda Motor Co., Ltd. Operation device
JP2013254080A (ja) * 2012-06-06 2013-12-19 Sharp Corp 表示装置
JP6108713B2 (ja) * 2012-08-09 2017-04-05 キヤノン株式会社 画像表示装置及びその制御方法
JP6079418B2 (ja) * 2013-05-07 2017-02-15 富士通株式会社 入力装置および入力プログラム
KR101795204B1 (ko) 2013-06-25 2017-11-07 후지쯔 가부시끼가이샤 정보 처리 장치 및 기록 매체
JP6684559B2 (ja) 2015-09-16 2020-04-22 株式会社バンダイナムコエンターテインメント プログラムおよび画像生成装置
JP6646511B2 (ja) * 2016-04-14 2020-02-14 株式会社フジタ 技能伝承システム及び方法
JP6278546B1 (ja) * 2017-06-02 2018-02-14 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
JP7077603B2 (ja) 2017-12-19 2022-05-31 富士通株式会社 判定プログラム、判定方法及び画像生成装置
JP7215254B2 (ja) * 2019-03-13 2023-01-31 株式会社リコー 情報処理装置、表示制御方法、及びプログラム
JP7458223B2 (ja) 2020-03-26 2024-03-29 本田技研工業株式会社 待機時間調整方法、装置、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9977241B2 (en) 2015-03-17 2018-05-22 Seiko Epson Corporation Head-mounted display device, control method for head-mounted display device, and computer program
US10175484B2 (en) 2015-03-17 2019-01-08 Seiko Epson Corporation Head-mounted display device, control method for head-mounted display device, and computer program

Also Published As

Publication number Publication date
JP2000250677A (ja) 2000-09-14

Similar Documents

Publication Publication Date Title
JP3753882B2 (ja) マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法
US6345111B1 (en) Multi-modal interface apparatus and method
JP3886074B2 (ja) マルチモーダルインタフェース装置
Morency et al. Head gestures for perceptual interfaces: The role of context in improving recognition
Morency et al. Head gesture recognition in intelligent interfaces: the role of context in improving recognition
JP3970920B2 (ja) 情報処理システム、情報処理装置および方法
Sears et al. Hands-free, speech-based navigation during dictation: difficulties, consequences, and solutions
US8370163B2 (en) Processing user input in accordance with input types accepted by an application
US20150331490A1 (en) Voice recognition device, voice recognition method, and program
US20030095154A1 (en) Method and apparatus for a gesture-based user interface
KR20190030140A (ko) 시선 추적 방법 및 이를 수행하기 위한 사용자 단말
JPH04372012A (ja) 入力装置
JP2007272534A (ja) 省略語補完装置、省略語補完方法、及びプログラム
US11900931B2 (en) Information processing apparatus and information processing method
JP2002149302A (ja) インターフェース装置およびインターフェース処理プログラムを記録した記録媒体
US20230251745A1 (en) Systems and methods for providing on-screen virtual keyboards
US6033072A (en) Line-of-sight-information input apparatus and method
JP2000187553A (ja) 入力装置および入力装置用ヘッドマウントディスプレイ
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
CN108369451B (zh) 信息处理装置、信息处理方法及计算机可读存储介质
JPH11288342A (ja) マルチモーダル入出力装置のインタフェース装置及びその方法
WO2015156011A1 (ja) 情報処理装置、情報処理方法およびプログラム
Perzanowski et al. Towards seamless integration in a multi-modal interface
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2019086858A (ja) 顧客応対システム及び顧客応対方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051214

LAPS Cancellation because of no payment of annual fees