JP3689285B2 - 入力装置および入力装置用ヘッドマウントディスプレイ - Google Patents
入力装置および入力装置用ヘッドマウントディスプレイ Download PDFInfo
- Publication number
- JP3689285B2 JP3689285B2 JP28705199A JP28705199A JP3689285B2 JP 3689285 B2 JP3689285 B2 JP 3689285B2 JP 28705199 A JP28705199 A JP 28705199A JP 28705199 A JP28705199 A JP 28705199A JP 3689285 B2 JP3689285 B2 JP 3689285B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- operator
- display
- utterance
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
Description
【発明の属する技術分野】
本発明は、ユーザインターフェースとして映像表示装置を有する情報処理装置において、該映像表示装置上に視覚的に表示された操作情報群を操作するための情報操作者の意思をキーボードやマウスを用いることなく情報処理装置側に伝達するための入力装置に関する。
そして、本発明は、特にCRT等の映像表示装置を情報出力装置の一つとして有し、キーボードやマウスなどの手操作型情報入力手段以外の情報入力手段、すなわち音声入力,視線入力,および/または動作入力を備え、映像表示装置に表示される視覚的情報出力手段以外の情報出力手段として音声合成装置などを備えて、マルチ・メディア対応の情報処理装置を構成する情報処理システムに適用して有効な入力装置を提供するものである。
【0002】
【従来の技術】
情報処理装置に操作者の意思を伝達する手段としては、従来からキーボードやマウス、その他の手操作型入力手段が採用されている。
しかし、近年の情報処理環境の進展に伴い、情報処理装置,すなわち機械とその操作者である人間との間における意思の伝達が、記号情報を媒体としたものから感覚情報や感情的情報を含んだ幅広い情報を授受することで、機械と人間との融和を醸成すべき段階に達しつつある。
その初期的な試みとして、機械と人間との間の意思伝達に物理的な接触を伴わない手段が種々提案されている。
【0003】
その一つとして、人間(以下、操作者という)の視線の動きを機械(以下、情報処理装置という)に認識させることで操作者の意思を伝達する所謂アイカメラが知られている。
この視線の動きによる意思表示の情報処理装置への伝達は、操作者の眼球の回転を検知してその視線方向を特定することにより、操作者が情報処理装置に備えるインターフェースの一つである映像表示装置に表示された情報群の中から特定の情報を認識させるものである。
眼球回転角度の検出により操作者の視線方向を特定する方式としては、特開平1−160527号公報、特開平2−88034号公報に開示されたものが知られている。
この種の視線検出装置は、手を用いない対象指示装置として、既に各種の情報機器,医療用機器等に組み込まれている。特開昭64−46122号公報、特開昭60−188976号公報、特開昭63−75824号公報などに記載されたシステムがその例である。
【0004】
【発明が解決しようとする課題】
このような視線検出装置を注視対象の選択意志認識装置,すなわち情報処理装置への入力装置として利用する際に問題となるのは、操作者が対象を注視したときに、どの時点でその対象を選択している意志が発生したかを判断することである。
特開昭63−75824号公報に記載されたシステムにおいては、当該対象を注視している注視時間を監視し、所定以上の時間が継続したことによってその意志発生を判定している。
【0005】
また、特開昭64−46122号公報に記載されたシステムでは、脳の活動に伴う磁気変化、すなわち注視した対象を選択するという思考の発生に伴う脳の活動の結果として発生する脳磁気の変化を検知することによって当該注視対象の選択意志の発生を判定している。
しかしながら、注視時間によって選択の意志ありと見做す方式は、操作者の無意識な注視,眼球の微小な振動の存在による注視点の変動,あるいは操作者の計時認識の曖昧さにより誤判定を生じ易いという問題がある。
また、脳活動の磁気を測定する方法は、現在のところコストがかかり、装置も大がかりなものになりがちであるため、通常のシステム環境への組み込みが困難であるという問題がある。
【0006】
なお、一般に、前記した視線解析手段は、完全な顔面固定等を施さない限り、例えばCRT等の表示画面上に表示されたカーソルやアイコン等の表象に対して精度の高い位置特定を実現することは困難である。前記公報に開示されたもののように、操作者の顔面固定を実施することは、操作者が病床人である場合や、あるいは既知の,スチルカメラやビデオカメラのように装置(注視対象)と頭部との相対位置を固定できる特殊な場合を除き、CRT等を表示手段として用いる一般の情報操作機器に応用することには大きな制約がある。
また、視線解析手段の代わりに頭部の動きを解析する動作解析手段を使用することが考えられる。そして、前記音声認識手段により認識された発話及び前記動作解析手段により解析された前記操作者の頭部の動きに基づいて操作すべき指示内容を判断する指示内容推論手段により入力を行うことが可能である。
【0007】
本発明は前記問題点に鑑み、次の記載内容(O01)を課題とする。
(O01)操作者の意思を表す音声を認識する音声認識手段を有する入力装置に加えて、視線解析手段(あるいは視点解析手段)または頭部の動きを解析する動作解析手段を併用することにより、映像表示手段に表示された操作対象となる情報群の中で情報操作者が選択した情報を正確に特定できるようにすること。すなわち、映像表示手段上で操作者が真に意図する対象物(操作対象となる情報)を正確に特定できるようにして、前記意図する対象物付近の別の対象物(操作対象となる情報)が誤って選択される割合を減少させること。
【0008】
【課題を解決するための手段】
上記目的を達成するために、本発明は、操作の対象となる情報群に対応した表象を2次元もしくは3次元映像として視覚的に複数個表示する映像表示手段と、操作者が映像表示手段に表示された映像表現(情報群)のどれを対象として注視しているかをリアルタイムで推定する視点解析手段と、表示された表象を操作するための言葉、すなわち表象名と操作コマンド名とに関して、操作者の発話をリアルタイムで認識する音声認識手段と、操作者の頭部の動きあるいは瞬きなどの操作者の動作をモニターし、この動作をリアルタイムで解析する動作解析手段と、上記視点解析手段の解析結果と音声認識手段の認識結果および/または上記動作解析手段の解析結果とに基づいて情報操作者の指示内容を判断するとともに、前記音声認識手段の認識した発話に対応する表示情報の候補が複数抽出された場合には、表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報を情報操作者の指示内容であると判断する指示内容推論手段と、この指示内容推論手段の推論結果に従ってその指示内容を実行する指示操作実行手段を備えた構成とすることによって達成される。
また、操作者に対して、必要な確認情報を合成音声で与える音声合成出力手段とを備えることによって指示内容の推論結果をその実行前に確認する構成とすることもできる。
【0009】
(第1発明)
すなわち、第1発明の入力装置は、操作対象となる情報群であって情報操作者の発話により特定される表示情報を含む前記情報群を視覚的に表示するための映像表示手段と、
前記映像表示手段における情報操作者の発話時の注視位置を推定する視点解析手段と、
前記映像表示手段の表示位置を特定する前記情報操作者の発話および前記映像表示手段の表示情報を特定する発話を認識する音声認識手段と、
前記視点解析手段の解析により推定した情報操作者の発話時の注視位置と、前記音声認識手段により認識した発話内容とに基づいて、情報操作者の指示内容を判断するとともに、前記音声認識手段の認識した発話内容に対応する表示情報の候補が複数抽出された場合には、現在表示されている情報を含む表示情報を記憶する表示情報データべースに記憶され且つ現在表示されている表示情報であって注視位置に近い表示情報を情報操作者の指示内容であると判断し、前記視点解析手段の推定した注視位置に対応する発話内容の候補が複数抽出された場合には注視位置の表示情報に整合する発話内容を情報操作者の発話内容であると判断し、前記指示内容と前記発話内容との整合の検証をして実行する操作を判断する指示内容推論手段と、
前記指示内容推論手段により判断された情報操作者の指示内容の操作を実行する指示操作実行手段と、を備えたことを特徴とする。
【0010】
前記指示内容推論手段は、表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報が複数有る場合には、前記抽出順序の最も高い複数の表示情報の中で、前記表示情報データベースにより定まる表示位置と情報操作者の注視位置とが一致している表示情報を情報操作者の指示内容であると判断するように構成することが可能である。
また、前記指示内容推論手段は、前記音声認識手段の認識した発話に対応する表示情報の候補が、現在表示されている表示情報でない場合には前記発話を無視するように構成することが可能である。
また、前記視点解析手段は、発光器から出射して情報操作者の眼球で反射した反射光を検出する光位置検出素子の出力信号に基づいて前記映像表示手段における情報操作者の注視位置を推定することが可能である。
【0011】
また、第1発明は前記情報操作者の意図的動作を認識する動作解析手段を設けることが可能であり、その場合、前記指示内容推論手段は、前記動作解析手段により認識した意図的動作に基づいて情報操作者の指示内容を判断するように構成することが可能である。
また、前記動作解析手段は、発光器から出射して情報操作者の眼球で反射した反射光を検出する光位置検出素子の出力信号から瞬きを検知し、前記瞬きを検知したときに前記意図的動作を認識する瞬き検知手段により構成することが可能である。
また、前記動作解析手段は、頭部の動きを検知したときに前記意図的動作を認識するように構成することが可能である。その場合、前記動作解析手段は、頭部のうなづき動作を検知したときに前記意図的動作を認識するように構成することが可能である。
【0012】
また、第1発明の入力装置は、前記映像表示手段と、前記情報操作者の眼球に光を入射させる発光器と、前記眼球で反射した反射光を検出する前記光位置検出素子とを有し情報操作者の頭部に装着されるヘッドマウントディスプレイを備えることが可能である。
【0013】
さらに第1発明は、前記指示内容推論手段により判断された内容を音声信号に変換して情報操作者の確認を促すための音声合成出力手段と、前記指示内容推論手段により判断された情報操作者の指示内容の操作を前記音声認識手段により認識した確認結果にしたがって実行する指示操作実行手段とを設けることが可能である。
さらにまた、第1発明の入力装置は、前記音声認識手段により認識した発話内容および前記動作解析手段により認識した意図的動作に基づいて、情報操作者の指示内容を判断する指示内容推論手段により判断された内容を音声信号に変換して情報操作者の確認を促すための音声合成出力手段と、前記指示内容推論手段により判断された情報操作者の指示内容の操作を前記動作解析手段の確認結果にしたがって実行する指示操作実行手段とを設けることが可能である。
【0014】
また、第1発明の入力装置は、
前記操作者の頭部の動きを解析する動作解析手段と、
前記音声認識手段により認識された発話内容及び前記動作解析手段により解析された前記操作者の頭部の動きに基づいて操作すべき指示内容を判断する前記指示内容推論手段を備えることができる。
【0015】
【作用】
前記第1発明による入力装置は、情報処理装置に対する選択指示やコマンドの入力方式として、音声,視線,および/または動作の二以上の解析あるいは認識手段を多重に備えることにより、各方式の情報を互いに補い合わせて操作者の意図を正確に特定することができる。
前記指示内容推論手段は、音声認識手段の認識した発話に対応する表示情報の候補が複数抽出された場合には、現在表示されている情報を記憶する表示情報データべースに記憶されている表示情報であって且つ注視位置に近い表示情報を情報操作者の指示内容であると判断し、前記視点解析手段の推定した注視位置に対応する発話内容の候補が複数抽出された場合には注視位置の表示情報に整合する発話内容を情報操作者の発話内容であると判断し、前記指示内容と前記発話内容との整合の検証をして実行する操作を判断する。
【0016】
これにより、従来は視線(表示装置上の注視位置)だけで映像表示上の位置を指定することはかなり困難であったが、発話情報から操作者の意図する注視対象を絞りこめるので、この発話情報を併せて利用することで正確な位置決めを実行できるようになる。逆に、発話だけでは言葉のあいまいさから対象を特定できない場合にも、注視位置付近に存在する対象を考え併せることによって、操作者の発話意図を推論して正しく認識させることができる。
また、操作者の頭部の動きや瞬き、その他の操作者の動作を操作者の意思確認情報として利用することにより、情報処理装置に対して、より確実な意思伝達を行うことができる。
【0017】
このように、指示入力,すなわち処理機能の選択あるいはコマンドの入力に関しては主に音声が担当し、位置の指定については主に視線が担当し、さらに必要に応じて選択された処理対象の実行の可否に関する確認情報は動作が担当するという様に、各コミュニケーション方式に適切な情報項目を分担させることにより、言葉で位置を特定するといった不自然な作業を排除できるので、操作者の作業効率,作業疲労を改善することができる。
そして、上記したように、視線解析により選択あるいはコマンド等の指示作業を行う情報処理装置の場合、当該情報処理装置からのフィードバック情報を、一般に行われているような表示手段上での視覚的メッセージだけでなく、合成音声で操作者に与えることにより、視点の移動量を増加させることがなく、さらに操作者の発話(音声)→視認(視覚)という心理的なモード切換えを要することがないことで、操作者の作業効率・作業疲労を飛躍的に改善できる。
【0019】
【実施例】
以下、本発明の実施例を詳細に説明する。
図1は本発明による入力装置の基本構成を説明するブロツク図であって、1は映像表示手段、2は視点解析手段、3は音声認識手段、4は指示内容推論手段、5は指示操作実行手段、6は動作解析手段、7は音声合成出力手段である。
映像表示手段1は、操作の対象となる情報群に対応した指示対象であるカーソルあるいは複数の表象(アイコン)を2次元もしくは3次元映像として視覚的に表示して、操作者に提示する。
視点解析手段2は、操作者が映像表示手段1上のどの対象を注視しているかをリアルタイムで特定する。
【0020】
音声認識手段3は、表示された表象を操作するための言葉、すなわち当該表象名と操作コマンド名の発話を認識する。
指示内容推論手段4は、視点解析手段2で解析された映像表示手段1上の注視位置と音声認識手段3で認識された発話を基にして操作すべき指示内容を判断する。
指示内容実行手段5は、指示内容推論手段4の推論結果で判断された操作内容を映像表示手段1上で視覚表現すると共に、当該操作内容を実行させる。なお、推論結果を映像表示手段1上の当該表象の表示状態を白黒反転する等で視覚表現したのち、実行コマンドを音声入力する等の方法で当該操作の実行を開始させる構成としてもよい。
【0021】
以上の視点解析手段2,音声認識手段3および指示内容推論手段4によって得たパラメータを用いて操作者の意思を高確率で推論できるが、操作者の頭部の動き、あるいは瞬きを検出して上記推論のパラメータとする動作解析手段6を備えることにより、さらに上記の推論の正確さを向上させることができる。
動作解析手段6は、操作者の頭部の動き,例えば頷きなどの動作あるいは瞬きなどの動作をモニターする機能を有するものであり、この動作解析手段6の解析結果を推論条件として付加することで、指示内容推論手段4の確度を上げる構成とすることができる。
さらに、指示内容推論手段4の推論結果を音声合成出力手段7により音声情報として操作者に与えることにより、作業効率と作業疲労を軽減できる。
【0022】
以下、上記した本発明の基本構成に基づく実施例について詳細に説明する。
図2は本発明による入力装置の第1の実施例を説明するブロック図であって、10は映像表示手段に対応する映像表示装置、20は視点解析手段2に対応する視点解析装置(所謂、アイカメラ)、21は操作者の眼球からの反射光を受光する反射光受光器、22は反射光重心演算回路、23は眼球表面の曲率と映像表示手段1の表示画面との非線形を補正する画面座標変換回路、24は注視対象推定回路、30は音声認識手段3に対応する音声認識装置、31は音素変換回路、32は発話照合回路、33は操作用語/表示情報辞書、34は発話推定回路、40は指示内容推論手段に対応する操作推定回路、50は表示情報データべース、60は指示操作実行手段5に対応する操作実行回路(コマンド実行回路)である。
【0023】
次に、上記構成における各機能について説明する。
[注視位置推定]
まず、操作者は視点解析装置20によって、常に視線がモニターされる。この視点解析装置20は図3に示された構成を有し、操作者の眼球200に対して赤外線発光ダイオード(IR−LED)等の光源201から赤外光を投射し、その反射光をCCD等の反射光受光器203で受光する。
光源201からの赤外光は眼球200の角膜付近で反射し、光学レンズ202を介して反射光受光器203にスポット光として集められる。受光された反射光は反射光重心演算回路22において、そのスポット光の重心点が計算される。
【0024】
眼球表面は非球面であるため、また表象が表示される画面が略々平面であるため、この重心点演算により計算されたスポツト光の重心値を示す座標は、そのままでは映像表示装置の画面に対応する空間的な座標位置の値と直接対応するものとはならないので、画面座標変換回路23によって非線型座標変換を施して映像表示装置の画面における座標値に変換される。この変換された座標値により注視対象推定回路24で映像表示装置1上の注視対象が推定される。推定された注視対象推定データは操作推定回路40に与えられる。
上記画面座標変換回路23は、操作者の眼球曲面と表示画面との間の対応補正値を書き込んだ変換テーブル(非線型変換テーブル)を用いる。この変換テーブルは作業開始前に画面状の複数の表象の視線取込みを行う学習によって変換パラメータの書込みを実行する。
【0025】
[発話推定]
操作者の発話が発生すると、その音声データは、ただちに音素変換器31によって原波形から音素時系列データへ変換されて発話照合回路32に送られる。
発話照合回路32は、音素時系列データを、操作用語および表示情報名に関する音素データを格納した操作用語/表示情報辞書33と照合することにより、操作コマンドもしくは指示情報(操作者が音声で指示した表示情報)の候補を抽出する。
この照合過程は既知の所謂DPマッチング等の音声認識手法によって実行される。抽出された指示情報の候補について、発話推定回路34により操作者の発話が推定され、操作推定回路40に送られる。なお、指示情報の候補が複数抽出された場合には複数の指示情報の候補が抽出順位を付けて送られる。
[操作推定:操作および操作対象の推定]
操作推定回路40は、以上説明した視点解析装置20と音声認識装置30の処理により推定された注視位置データと発話内容データとを用いて、操作者の真に意図する操作内容を推定する。
【0026】
表示情報に対する操作は、基本的には以下の3つのタイプである。
1.[対象選択]・・・ 操作者は、映像表示装置に映し出されている対象表象の中から、選択したいものを発見した場合、それを注視しながら、指示選択を意味する発話をおこなう。このときの単語は、操作用語/表示情報辞書33に格納済みの予め定めたものであるとする。
2.[位置推定]・・・ 情報操作において位置情報を必要とする際、例えば情報の表示位置を変えたい場合には、その位置を注視しながら位置指定を意味する発話、例えば「ソコ」と発話することで、位置の指定をおこなう。
3.[操作指定]・・・ 選択されている情報に対する操作は、発話により操作コマンドを特定し実行する。
【0027】
図4は操作推定回路の処理を説明するデータフロー図であって、41は発話の認識結果と表示情報を比較する比較器、43は指示情報(操作者が音声で指示した表示情報)とコマンドと指示位置の間の関係整合性を照合する整合器、44はコマンドや処理を実行する所定の操作命令列を生成する操作命令列インタプリタ、50は現在表示されている情報を含む全表示情報を記憶する表示情報データべース、60はコマンド/処理実行回路、なお、53は表示情報データベース50を含むシステム全体の情報を格納する情報データべースである。
図4に示された「推定単語および推定信頼度」の中の「推定信頼度」の意味は次のとおりである。すなわち、前記音声認識装置30(図2参照)が操作者の発話の音声データと、表示情報、位置情報および操作コマンドの単語の音声データとの類似度が高い単語を、発話に対応する単語として推定する。前記推定された単語(推定単語)の類似度の高さが推定信頼度である。前記推定信頼度は操作者の発話の音声データ(発話データ)と前記単語の音声データ(単語データ)とを比較して、発話データに類似する単語データが複数有る場合に類似度の高い単語程、推定信頼度(抽出順位)が高くなる。
同図4において、音声認識装置30(図2参照)によって推定された単語(発話)は、比較器41において表示情報データベース50と比較されて、それがオブジェクト語(表示情報を特定する語)かコマンド語かの判断、すなわち単語タイプの判断がなされる。
【0028】
当該単語がオブジェクト語である場合は、オブジェクトとして現在の画面状態を保持している表示情報データベースに照らし合わせられる。発話単語の推定信頼度が高く(すなわち、候補単語の抽出順位が上位で)、表示情報データベース50にもその対象が存在する場合には、その推定単語を採用する。
推定信頼度が低い場合には、注視点推定値と表示情報データベース50から期待される対象と合致しているかを比較器41で確認する。合致している場合は該当対象を選択する。合致しない場合には、認識不能の処置をとる。
また、推定単語の特定する情報対象名が複数存在する場合、すなわち、同名のラベルづけされた情報が呼ばれた場合は、注視点位置が参照され、注視点により近い情報を選択する。
以上は、情報対象の選択に関する手続きである。選択された情報は、像の反転によって選択状態を表現する。
【0029】
一方、発話では、情報操作に関するコマンドの入力も行われる。操作コマンドには、「移動」「コピー」「開示」「閉める」などがある。それらの操作には、対象の特定が必要な場合や位置情報の指定が必要な場合がある。
まず、前者,すなわちコマンドの選択に関しては、注視点推定によりある程度操作対象の特定が可能である。そして、移動不可能なものを注視している際に、「イドウ」という発話推定があったり、すでに開示されている対象を注視しているときに、「ヒラケ」という発話推定がなされるのは誤りの可能性が大きい。そのような際には発話推定の第二候補以下を検討したり、推定を却下する(何もせずに発話を無視する)ことにする。
【0030】
次に後者,すなわち位置情報を必要とする処理について説明する。
図5は発話受理に伴うインタプリタの状態遷移図であって、Sは初期状態、Oは「コレ」,「レポート」,「週報」,「伝票」などのアイコン名(オブジェクト)を指定する対象指定語、Pは「ソコ」,「ミギウエ」などの場所を表す場所指定語、Aはアクションすなわちコマンドの実行を示す。
位置情報の入力は、選択しようとする例えばアイコンを注視しながら、位置選択を示す発話(場所指定語)を、例えば「ソコ」と指定する。このとき、図4の整合器43は、表示情報データベース50と確認をとりながら、移動できない位置への指定がなされていないかを検査する。このときは2−オペランドコマンド語であるから、2−オペランドコマンドを実行して初期状態に戻る。
アイコンを注視しながら対象指定語のみの発話である「アケル」とか「サクジョ」というコマンドは、1−オペランドコマンド語であり、また「トジル」というコマンドは0−オペランドコマンド語であり、それぞれのコマンド実行後初期状態に戻る。
【0031】
なお、発話の例としては、次のようなものを挙げることができる。
対象指定語:「コレ」,「ソレ」,「アイコン名(レポート、伝票、…)」等
場所指定語:「ソコ」,「ミギウエ」,「マンナカ」,「ヨコニ」,…等
2−オペランドコマンド:コピー,イドウ,…等
1−オペランドコマンド:アケル,サクジョ,プロパティ,…等
0−オペランドコマンド:トジル,…等
すなわち、2−オペランドコマンド語は、「ソレ」を「コピー」というような2つのオペランドを持つコマンド、1−オペランドコマンド語は「アケル」,「サクジョ」のようにオペランドが1つのコマンド、0−オペランドコマンド語は、「トジル」のようにオペランドを要しないコマンドを意味する。
【0032】
以上に記述した、情報対象、操作コマンド、位置情報の内容は、操作命令列インタプリタ44に順次送られ、コマンド実行回路60により実際のコマンドあるいは操作が情報データベース53に対して実行される。
なお、実際の操作発生のためには、上記の情報対象、操作コマンド、位置情報が操作列(シーケンス)として所定の整合がとれていなれけばならない。この整合の検証は操作命令列インタプリタ44内でなされ、解消できない不整合が発見された場合は、指示されたシーケンスは無視される。
上記の推定結果を、表示もしくは音声合成によるメッセージとして操作者にを与えて、確認を促すようにすることもできる。また、その結果、コマンドあるいは処理の操作が発生した際には、表示情報データベース50を情報データベース53と整合的に書き換えておくことはいうまでもない。
【0033】
図6は音声認識による発話音声データとアイカメラによる視点解析データを用いたコマンド選択実行の処理におけるデータフロー図である。
まず、音声認識により得た発話音声データは、音素辞書を参照して音素変換される。音素変換された発話単語は登録単語辞書に予め登録された単語とマッチングが取られる(DPマッチング)。
DPマッチングにより認識された単語について、一般コマンド(「ヒラケ」,「トジル」など)か,アイコン名(ファイル名など)か,アイコン選択コマンド(「コレ」,「ソレ」など)かが判断される。
その結果、当該単語が一般コマンド名である場合は、コマンドの整合性をチェックした後、整合すればそのコマンドを実行する。このとき、該当するアイコンの表示状態を反転し、これをアイコン状態保存メモリに保存する。
【0034】
認識された単語がアイコン選択コマンドである場合は、該当するアイコンを選択し、その表示状態を反転する処理に入る。
なお、このとき、アイカメラにより視点位置が推定されてカーソルの位置が解析されているので、当該アイコンがカーソル位置にあればその表示状態を反転し、カーソル位置から外れている場合には何もしない。
認識された単語がアイコン名である場合は、そのアイコン名に対応するアイコンの表示状態を反転する。
このようにして、表示画面上のカーソル、アイコンを選択し、対応する操作やコマンドを実行させる。
【0035】
図7は本発明による入力装置の第2の実施例を説明する構成図であって、操作者の視点解析手段と視線を認識するための瞬き動作検出手段を備えた3次元表示ヘッドマウントディスプレイ装置の概略構造説明図であって、100は左目用液晶ディスプレイ、101は右目用液晶ディスプレイ、102は赤外線発光ダイオード(赤外LED)、103は光位置検出素子(例えば、浜松ホトニクス社製のPSD)、104は集光レンズである。
操作者は、このディスプレイ装置を眼鏡の要領で顔面に装着し、液晶ディスプレィ100,101により3次元的に表示されるカーソルやアイコンなどの表象からなる情報群のうちの特定の表象を注視する。
赤外LED102から発射される赤外光は、常に操作者の眼球(ここでは右目)に投射されている。そのスポット光は角膜で反射し、集光レンズ104を経て光位置検出素子103に集光される。
角膜の曲率は眼球全体より小さく、その曲率の中心点も眼球の回転中心とずれているので、反射光角度は眼球の回転によって変化する。従って光位置検出素子103上での眼球反射光の入力位置を求めることにより、間接的に眼球回転角を検出することができる。
【0036】
図8は図7に示したヘッドマウントディスプレイ装置の入力処理を説明するデータフロー図であって、81はPSDからなる空間位置検出素子、82は差分回路、83は眼球角度−画面位置変換回路(画面座標変換回路)、84は瞬き検出回路、85は制御回路(マイクロプロセッサ)、86は液晶ディスプレイ、87は表示情報メモリである。
以下、図7に示した装置の動作を図8を参照して説明する。
[視線検知]
まず、眼球からの反射光を受光する空間位置検出素子81の出力は所定の周期でサンプリングされ、時間軸上における前後の座標値を差分回路で差分演算し、その差分値を得る。
【0037】
この差分値は変換回路によって非線型的な座標変換をほどこされ、液晶ディスプレィ101上における注視点の空間的位置を示す値が検出される。この非線形変換は、眼球の形状やディスプレィと視点との位置関係により定まるものである。そして、この変換関数は、使用前にあらかじめ学習することによって取り込まれ、変換テーブル上に保持される。
この学習は、液晶ディスプレィ上の数か所を指定して操作者に凝視させることで、その位置と眼球角度との関数関係を得る。この関数関係は、装置使用中にも定期的に校正することで高精度な位置特定性能を保証できる。この校正処理は、ある情報の表象選択が発生したときに、その瞬間における表象の配置位置と眼球角度とのデータ対によって行う。そのため、わざわざ別個の校正処理プログラムを動かす必要がなく、校正作業による作業効率の低下を来すことはない。
なお、この学習は、前記第1の実施例においても同様である。
【0038】
[まばたき検知]
空間位置検出素子81の出力値は、オペレータの視線検出と併せて、瞬きの検出にも用いられる。すなわち、空間位置検出素子81からの(差分前の)生出力は、該素子上での光量分布を反映しているので、瞬き検出回路84は単位時間毎に上記空間位置検出素子81の出力を積分し、それらの単位時間積分値が閾値以下になったときに、瞬きが発生したと見做す。この瞬きの発生が検出されたという情報はただちに制御回路85へ送られる。
【0039】
[制御回路]
制御回路85は、マイクロプロセサ上にソフトウェアとして実現される。
図9は制御回路による液晶ディスプレイ上の表象の表示処理過程を説明するフローチヤートである。
図8の差分回路82からの注視点位置データは、常にポーリングおよびデータ照合ステップ81で取り込まれて表示データメモリ82上の表象位置データと照合される。
この照合結果のデータ状態について、注視位置に表象が配置されている場合には、液晶ディスプレィ上での表象表示をグレー反転させる(84)。これは、オペレータがその表象を注視していることを示しているだけの表示である。
【0040】
瞬き検出回路から瞬き発生の信号がきた際に、このグレー反転表象が存在する場合には、この表象を完全に反転させる(ステップ86)。この表示は、その表象がシステムにおいて選択された旨を示すものである。すなわち、表象がいわゆるメニュー形式のものであれば、選択された項目が選ばれ、該当するアプリケーションのプログラムが実行されたことを示す(ステップ87)。ただし、具体的な表象システムの設計については千差万別なものが可能であるので、ここでは特定なものを例示したにすぎない。
一方、瞬き発生の信号がきた際にグレー反転表象が存在しない場合には、選択状態の対象すなわち白黒反転表象をすべてクリアし、反転解除する(ステップ85)。
これらの処理がなされた後は、再び注視点位置データと瞬き検出信号のポーリングおよびデータ照合のステップ(ステツプ81)にもどる。
【0041】
このように、頭部に固定した3次元映像表示手段(図7に示したヘッドマウントディスプレイ)に、操作者の操作対象となる情報群に対応した表象群を空間的に布置する。視線検出手段は操作者の眼球運動角度により注視している表象を特定する。このとき、映像表示手段は操作者の身体運動に拘わらず操作者の眼球との相対的位置関係を不変に保っているので、長時間の使用においても注視位置がずれることがない。さらに、位置指定の精度を保持するために表示装置との間で頻繁なレジストーションを実施したり、注視点カーソルを表示して操作者に制御させたり、頭部の動きを固定したりする必要がまったくない。このことは、作業効率の向上と操作者の心理・整理的負担軽減をもたらす。
【0042】
[対象選択意志発生の告知]
頭部に固定した映像表示手段は、通常の視認活動を妨げるのでキーボードその他のスイッチ類を用いて情報選択意志を入力することは困難である。そこで、操作者の意図的な瞬き,すなわち通常の生理的なまばたき動作よりも長時間にわたる随意的な瞬き行為により情報選択意志を検出し、円滑な作業を実現させる。
【0043】
【発明の効果】
以上説明したように、本発明によれば、操作対象となる情報群を視覚的に表示するための映像表示手段における情報操作者の注視位置を推定する視点解析手段と、映像表示手段の表示位置を特定する前記情報操作者の発話および前記映像表示手段の表示情報を特定する発話を認識する音声認識手段とを組み合わせて入力装置を構成することにより、操作対象となる情報群の中で情報操作者が選択した情報を正確に特定することができる。
また、前記音声認識手段の認識した発話に対応する表示情報の候補が複数抽出された場合には、指示内容推論手段は、表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報を情報操作者の指示内容であると判断するので、映像表示手段上で操作者が真に意図する対象物(操作対象となる情報)を正確に特定できるようになり、前記意図する対象物付近の別の対象物が誤って選択される割合を減少できる。
また、上記視点解析手段,音声認識手段、操作者の動作解析手段を組合せた入力装置を使用することにより、操作対象となる情報の中で選択された情報の特定をより正確に行うことができる。
また、音声合成による音声出力手段を操作コマンド推定の補助情報として用いた場合には、操作対象となる情報の中で選択された情報の特定をより正確に行うことが可能となる。
【図面の簡単な説明】
【図1】 本発明による入力装置の基本構成を説明するブロツク図である。
【図2】 本発明による入力装置の第1の実施例を説明するブロック図である。
【図3】 本発明に用いる視点解析装置の概略構成の説明図である。
【図4】 操作推定回路の処理を説明するデータフロー図である。
【図5】 発話受理に伴うインタプリタの状態遷移図である。
【図6】 音声認識による発話音声データとアイカメラによる視点解析データを用いたコマンド選択実行の処理におけるデータフロー図である。
【図7】 本発明による入力装置の第1の実施例を説明するブロック図であって、操作者の視点解析手段と視線を認識するための瞬き動作検出手段を備えた3次元表示ヘッドマウントディスプレイ装置の概略構造説明図である。
【図8】 図7に示したヘッドマウントディスプレイ装置の入力処理を説明するデータフロー図である。
【図9】 制御回路による液晶ディスプレイ上の表象の表示処理過程を説明するフローチヤートである。
【符号の説明】
1…映像表示手段、2…視点解析手段、3…音声認識手段、4…指示内容推論手段、5…指示操作実行手段、6…動作解析手段、7…音声合成出力手段。
Claims (4)
- 操作対象となる情報群であって情報操作者の発話により特定される表示情報を含む前記情報群を視覚的に表示するための映像表示手段と、
前記映像表示手段における情報操作者の発話時の注視位置を推定する視点解析手段と、
前記映像表示手段の表示位置を特定する前記情報操作者の発話および前記映像表示手段の表示情報を特定する発話を認識する音声認識手段と、
前記視点解析手段の解析により推定した情報操作者の発話時の注視位置と、前記音声認識手段により認識した発話内容とに基づいて、情報操作者の指示内容を判断するとともに、前記音声認識手段の認識した発話内容に対応する表示情報の候補が複数抽出された場合には、現在表示されている情報を含む表示情報を記憶する表示情報データべースに記憶され且つ現在表示されている表示情報であって注視位置に近い表示情報を情報操作者の指示内容であると判断し、前記視点解析手段の推定した注視位置に対応する発話内容の候補が複数抽出された場合には注視位置の表示情報に整合する発話内容を情報操作者の発話内容であると判断し、前記指示内容と前記発話内容との整合の検証をして実行する操作を判断する指示内容推論手段と、
前記指示内容推論手段により判断された情報操作者の指示内容の操作を実行する指示操作実行手段と、を備えたことを特徴とする入力装置。 - 表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報が複数有る場合には、前記抽出順序の最も高い複数の表示情報の中で、前記表示情報データベースにより定まる表示位置と情報操作者の注視位置とが一致している表示情報を情報操作者の指示内容であると判断する前記指示内容推論手段を備えた請求項1記載の入力装置。
- 前記音声認識手段の認識した発話に対応する表示情報の候補が、現在表示されている表示情報でない場合には前記発話を無視する前記指示内容推論手段を備えた請求項1または2記載の入力装置。
- 前記操作者の頭部の動きを解析する動作解析手段と、
前記音声認識手段により認識された発話内容及び前記動作解析手段により解析された前記操作者の頭部の動きに基づいて操作すべき指示内容を判断する前記指示内容推論手段を備えたことを特徴とする請求項1ないし3のいずれか記載の入力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28705199A JP3689285B2 (ja) | 1991-06-20 | 1999-10-07 | 入力装置および入力装置用ヘッドマウントディスプレイ |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3174839A JPH04372012A (ja) | 1991-06-20 | 1991-06-20 | 入力装置 |
JP28705199A JP3689285B2 (ja) | 1991-06-20 | 1999-10-07 | 入力装置および入力装置用ヘッドマウントディスプレイ |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3174839A Division JPH04372012A (ja) | 1991-06-20 | 1991-06-20 | 入力装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000187553A JP2000187553A (ja) | 2000-07-04 |
JP3689285B2 true JP3689285B2 (ja) | 2005-08-31 |
Family
ID=17712427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28705199A Expired - Fee Related JP3689285B2 (ja) | 1991-06-20 | 1999-10-07 | 入力装置および入力装置用ヘッドマウントディスプレイ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3689285B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3542410B2 (ja) * | 1995-06-27 | 2004-07-14 | キヤノン株式会社 | 視線検出手段を有する機器 |
US7028269B1 (en) * | 2000-01-20 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Multi-modal video target acquisition and re-direction system and method |
JP2002358149A (ja) * | 2001-06-01 | 2002-12-13 | Sony Corp | ユーザ入力装置 |
DE10127367A1 (de) * | 2001-06-06 | 2002-12-12 | Klaus Dietrich | Vorrichtung und Verfahren zur Laserprojektion hochauflösender Bilder auf die Netzhaut des Auges, überlagert mit dem Bildinhalt des Gesichtsfeldes |
JP2006309448A (ja) * | 2005-04-27 | 2006-11-09 | Sony Corp | ユーザインターフェース装置及び方法 |
JP4537901B2 (ja) * | 2005-07-14 | 2010-09-08 | 日本放送協会 | 視線測定装置および視線測定プログラム、ならびに、視線校正データ生成プログラム |
JP5548042B2 (ja) * | 2010-06-23 | 2014-07-16 | ソフトバンクモバイル株式会社 | ユーザ端末装置及びショッピングシステム |
JP5710464B2 (ja) * | 2011-12-27 | 2015-04-30 | 株式会社東芝 | 電子機器、表示方法、およびプログラム |
KR102070281B1 (ko) * | 2013-08-26 | 2020-01-28 | 엘지전자 주식회사 | 두부 장착형 디스플레이 장치 및 이의 제어방법 |
EP2843507A1 (en) * | 2013-08-26 | 2015-03-04 | Thomson Licensing | Display method through a head mounted device |
JP2017076970A (ja) * | 2014-01-17 | 2017-04-20 | カシオ計算機株式会社 | システム |
WO2015114824A1 (ja) * | 2014-02-03 | 2015-08-06 | 株式会社日立製作所 | 発話訓練システム及び発話訓練方法 |
CN106030697B (zh) * | 2014-02-26 | 2019-10-25 | 三菱电机株式会社 | 车载控制装置及车载控制方法 |
US10191541B2 (en) * | 2016-06-30 | 2019-01-29 | Sony Interactive Entertainment Inc. | Augmenting virtual reality content with real world content |
EP3816774A4 (en) | 2018-06-28 | 2022-01-05 | Sony Group Corporation | INFORMATION PROCESSING DEVICE ALLOWING TO EXECUTE A PLURALITY OF PROCESSES IN PARALLEL |
JP2021182344A (ja) * | 2020-05-20 | 2021-11-25 | 京セラ株式会社 | 視点検出装置および表示装置 |
-
1999
- 1999-10-07 JP JP28705199A patent/JP3689285B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000187553A (ja) | 2000-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3689285B2 (ja) | 入力装置および入力装置用ヘッドマウントディスプレイ | |
US10318831B2 (en) | Method and system for monitoring the status of the driver of a vehicle | |
US5912721A (en) | Gaze detection apparatus and its method as well as information display apparatus | |
JPH04372012A (ja) | 入力装置 | |
US6393136B1 (en) | Method and apparatus for determining eye contact | |
JP4481663B2 (ja) | 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム | |
US6345111B1 (en) | Multi-modal interface apparatus and method | |
US6686844B2 (en) | Human interface system using a plurality of sensors | |
US9039419B2 (en) | Method and system for controlling skill acquisition interfaces | |
US20150309569A1 (en) | User interface control using gaze tracking | |
JPH10301675A (ja) | マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 | |
JP2003150306A (ja) | 情報表示装置とその方法 | |
JP3822357B2 (ja) | マルチモーダル入出力装置のインタフェース装置及びその方法 | |
US6033072A (en) | Line-of-sight-information input apparatus and method | |
KR101396488B1 (ko) | 신호 입력 장치 및 신호 입력 방법 | |
JP2000250677A (ja) | マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法 | |
KR20230037147A (ko) | 비접촉 응시 기반 헤딩 정보를 이용한 사용자 명령 인식 장치 및 이를 이용한 방법 | |
KR101724108B1 (ko) | 손 모양 및 제스처에 의한 기기 제어 방법 및 그에 의한 제어 장치 | |
US20200272810A1 (en) | Response apparatus and response method | |
JPH1124694A (ja) | 命令認識装置 | |
JP2017191426A (ja) | 入力装置、入力制御方法、コンピュータプログラム、及び記憶媒体 | |
JP5482412B2 (ja) | ロボット、位置推定方法及びプログラム | |
US20230168745A1 (en) | Gesture recognition apparatus, system, and program thereof | |
JPH05232908A (ja) | 指示入力装置 | |
CN114740966A (zh) | 多模态图像显示控制方法、系统及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050610 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080617 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090617 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100617 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110617 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |