JP3689285B2

JP3689285B2 - 入力装置および入力装置用ヘッドマウントディスプレイ

Info

Publication number: JP3689285B2
Application number: JP28705199A
Authority: JP
Inventors: 浩史川本; 隆大澤; 伸行斎藤
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-06-20
Filing date: 1999-10-07
Publication date: 2005-08-31
Anticipated expiration: 2020-08-31
Also published as: JP2000187553A

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザインターフェースとして映像表示装置を有する情報処理装置において、該映像表示装置上に視覚的に表示された操作情報群を操作するための情報操作者の意思をキーボードやマウスを用いることなく情報処理装置側に伝達するための入力装置に関する。
そして、本発明は、特にＣＲＴ等の映像表示装置を情報出力装置の一つとして有し、キーボードやマウスなどの手操作型情報入力手段以外の情報入力手段、すなわち音声入力，視線入力，および／または動作入力を備え、映像表示装置に表示される視覚的情報出力手段以外の情報出力手段として音声合成装置などを備えて、マルチ・メディア対応の情報処理装置を構成する情報処理システムに適用して有効な入力装置を提供するものである。
【０００２】
【従来の技術】
情報処理装置に操作者の意思を伝達する手段としては、従来からキーボードやマウス、その他の手操作型入力手段が採用されている。
しかし、近年の情報処理環境の進展に伴い、情報処理装置，すなわち機械とその操作者である人間との間における意思の伝達が、記号情報を媒体としたものから感覚情報や感情的情報を含んだ幅広い情報を授受することで、機械と人間との融和を醸成すべき段階に達しつつある。
その初期的な試みとして、機械と人間との間の意思伝達に物理的な接触を伴わない手段が種々提案されている。
【０００３】
その一つとして、人間（以下、操作者という）の視線の動きを機械（以下、情報処理装置という）に認識させることで操作者の意思を伝達する所謂アイカメラが知られている。
この視線の動きによる意思表示の情報処理装置への伝達は、操作者の眼球の回転を検知してその視線方向を特定することにより、操作者が情報処理装置に備えるインターフェースの一つである映像表示装置に表示された情報群の中から特定の情報を認識させるものである。
眼球回転角度の検出により操作者の視線方向を特定する方式としては、特開平１−１６０５２７号公報、特開平２−８８０３４号公報に開示されたものが知られている。
この種の視線検出装置は、手を用いない対象指示装置として、既に各種の情報機器，医療用機器等に組み込まれている。特開昭６４−４６１２２号公報、特開昭６０−１８８９７６号公報、特開昭６３−７５８２４号公報などに記載されたシステムがその例である。
【０００４】
【発明が解決しようとする課題】
このような視線検出装置を注視対象の選択意志認識装置，すなわち情報処理装置への入力装置として利用する際に問題となるのは、操作者が対象を注視したときに、どの時点でその対象を選択している意志が発生したかを判断することである。
特開昭６３−７５８２４号公報に記載されたシステムにおいては、当該対象を注視している注視時間を監視し、所定以上の時間が継続したことによってその意志発生を判定している。
【０００５】
また、特開昭６４−４６１２２号公報に記載されたシステムでは、脳の活動に伴う磁気変化、すなわち注視した対象を選択するという思考の発生に伴う脳の活動の結果として発生する脳磁気の変化を検知することによって当該注視対象の選択意志の発生を判定している。
しかしながら、注視時間によって選択の意志ありと見做す方式は、操作者の無意識な注視，眼球の微小な振動の存在による注視点の変動，あるいは操作者の計時認識の曖昧さにより誤判定を生じ易いという問題がある。
また、脳活動の磁気を測定する方法は、現在のところコストがかかり、装置も大がかりなものになりがちであるため、通常のシステム環境への組み込みが困難であるという問題がある。
【０００６】
なお、一般に、前記した視線解析手段は、完全な顔面固定等を施さない限り、例えばＣＲＴ等の表示画面上に表示されたカーソルやアイコン等の表象に対して精度の高い位置特定を実現することは困難である。前記公報に開示されたもののように、操作者の顔面固定を実施することは、操作者が病床人である場合や、あるいは既知の，スチルカメラやビデオカメラのように装置（注視対象）と頭部との相対位置を固定できる特殊な場合を除き、ＣＲＴ等を表示手段として用いる一般の情報操作機器に応用することには大きな制約がある。
また、視線解析手段の代わりに頭部の動きを解析する動作解析手段を使用することが考えられる。そして、前記音声認識手段により認識された発話及び前記動作解析手段により解析された前記操作者の頭部の動きに基づいて操作すべき指示内容を判断する指示内容推論手段により入力を行うことが可能である。
【０００７】
本発明は前記問題点に鑑み、次の記載内容（Ｏ01）を課題とする。
（Ｏ01）操作者の意思を表す音声を認識する音声認識手段を有する入力装置に加えて、視線解析手段（あるいは視点解析手段）または頭部の動きを解析する動作解析手段を併用することにより、映像表示手段に表示された操作対象となる情報群の中で情報操作者が選択した情報を正確に特定できるようにすること。すなわち、映像表示手段上で操作者が真に意図する対象物（操作対象となる情報）を正確に特定できるようにして、前記意図する対象物付近の別の対象物（操作対象となる情報）が誤って選択される割合を減少させること。
【０００８】
【課題を解決するための手段】
上記目的を達成するために、本発明は、操作の対象となる情報群に対応した表象を２次元もしくは３次元映像として視覚的に複数個表示する映像表示手段と、操作者が映像表示手段に表示された映像表現（情報群）のどれを対象として注視しているかをリアルタイムで推定する視点解析手段と、表示された表象を操作するための言葉、すなわち表象名と操作コマンド名とに関して、操作者の発話をリアルタイムで認識する音声認識手段と、操作者の頭部の動きあるいは瞬きなどの操作者の動作をモニターし、この動作をリアルタイムで解析する動作解析手段と、上記視点解析手段の解析結果と音声認識手段の認識結果および／または上記動作解析手段の解析結果とに基づいて情報操作者の指示内容を判断するとともに、前記音声認識手段の認識した発話に対応する表示情報の候補が複数抽出された場合には、表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報を情報操作者の指示内容であると判断する指示内容推論手段と、この指示内容推論手段の推論結果に従ってその指示内容を実行する指示操作実行手段を備えた構成とすることによって達成される。
また、操作者に対して、必要な確認情報を合成音声で与える音声合成出力手段とを備えることによって指示内容の推論結果をその実行前に確認する構成とすることもできる。
【０００９】
（第１発明）
すなわち、第１発明の入力装置は、操作対象となる情報群であって情報操作者の発話により特定される表示情報を含む前記情報群を視覚的に表示するための映像表示手段と、
前記映像表示手段における情報操作者の発話時の注視位置を推定する視点解析手段と、
前記映像表示手段の表示位置を特定する前記情報操作者の発話および前記映像表示手段の表示情報を特定する発話を認識する音声認識手段と、
前記視点解析手段の解析により推定した情報操作者の発話時の注視位置と、前記音声認識手段により認識した発話内容とに基づいて、情報操作者の指示内容を判断するとともに、前記音声認識手段の認識した発話内容に対応する表示情報の候補が複数抽出された場合には、現在表示されている情報を含む表示情報を記憶する表示情報データべースに記憶され且つ現在表示されている表示情報であって注視位置に近い表示情報を情報操作者の指示内容であると判断し、前記視点解析手段の推定した注視位置に対応する発話内容の候補が複数抽出された場合には注視位置の表示情報に整合する発話内容を情報操作者の発話内容であると判断し、前記指示内容と前記発話内容との整合の検証をして実行する操作を判断する指示内容推論手段と、
前記指示内容推論手段により判断された情報操作者の指示内容の操作を実行する指示操作実行手段と、を備えたことを特徴とする。
【００１０】
前記指示内容推論手段は、表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報が複数有る場合には、前記抽出順序の最も高い複数の表示情報の中で、前記表示情報データベースにより定まる表示位置と情報操作者の注視位置とが一致している表示情報を情報操作者の指示内容であると判断するように構成することが可能である。
また、前記指示内容推論手段は、前記音声認識手段の認識した発話に対応する表示情報の候補が、現在表示されている表示情報でない場合には前記発話を無視するように構成することが可能である。
また、前記視点解析手段は、発光器から出射して情報操作者の眼球で反射した反射光を検出する光位置検出素子の出力信号に基づいて前記映像表示手段における情報操作者の注視位置を推定することが可能である。
【００１１】
また、第１発明は前記情報操作者の意図的動作を認識する動作解析手段を設けることが可能であり、その場合、前記指示内容推論手段は、前記動作解析手段により認識した意図的動作に基づいて情報操作者の指示内容を判断するように構成することが可能である。
また、前記動作解析手段は、発光器から出射して情報操作者の眼球で反射した反射光を検出する光位置検出素子の出力信号から瞬きを検知し、前記瞬きを検知したときに前記意図的動作を認識する瞬き検知手段により構成することが可能である。
また、前記動作解析手段は、頭部の動きを検知したときに前記意図的動作を認識するように構成することが可能である。その場合、前記動作解析手段は、頭部のうなづき動作を検知したときに前記意図的動作を認識するように構成することが可能である。
【００１２】
また、第１発明の入力装置は、前記映像表示手段と、前記情報操作者の眼球に光を入射させる発光器と、前記眼球で反射した反射光を検出する前記光位置検出素子とを有し情報操作者の頭部に装着されるヘッドマウントディスプレイを備えることが可能である。
【００１３】
さらに第１発明は、前記指示内容推論手段により判断された内容を音声信号に変換して情報操作者の確認を促すための音声合成出力手段と、前記指示内容推論手段により判断された情報操作者の指示内容の操作を前記音声認識手段により認識した確認結果にしたがって実行する指示操作実行手段とを設けることが可能である。
さらにまた、第１発明の入力装置は、前記音声認識手段により認識した発話内容および前記動作解析手段により認識した意図的動作に基づいて、情報操作者の指示内容を判断する指示内容推論手段により判断された内容を音声信号に変換して情報操作者の確認を促すための音声合成出力手段と、前記指示内容推論手段により判断された情報操作者の指示内容の操作を前記動作解析手段の確認結果にしたがって実行する指示操作実行手段とを設けることが可能である。
【００１４】
また、第１発明の入力装置は、
前記操作者の頭部の動きを解析する動作解析手段と、
前記音声認識手段により認識された発話内容及び前記動作解析手段により解析された前記操作者の頭部の動きに基づいて操作すべき指示内容を判断する前記指示内容推論手段を備えることができる。
【００１５】
【作用】
前記第１発明による入力装置は、情報処理装置に対する選択指示やコマンドの入力方式として、音声，視線，および／または動作の二以上の解析あるいは認識手段を多重に備えることにより、各方式の情報を互いに補い合わせて操作者の意図を正確に特定することができる。
前記指示内容推論手段は、音声認識手段の認識した発話に対応する表示情報の候補が複数抽出された場合には、現在表示されている情報を記憶する表示情報データべースに記憶されている表示情報であって且つ注視位置に近い表示情報を情報操作者の指示内容であると判断し、前記視点解析手段の推定した注視位置に対応する発話内容の候補が複数抽出された場合には注視位置の表示情報に整合する発話内容を情報操作者の発話内容であると判断し、前記指示内容と前記発話内容との整合の検証をして実行する操作を判断する。
【００１６】
これにより、従来は視線（表示装置上の注視位置）だけで映像表示上の位置を指定することはかなり困難であったが、発話情報から操作者の意図する注視対象を絞りこめるので、この発話情報を併せて利用することで正確な位置決めを実行できるようになる。逆に、発話だけでは言葉のあいまいさから対象を特定できない場合にも、注視位置付近に存在する対象を考え併せることによって、操作者の発話意図を推論して正しく認識させることができる。
また、操作者の頭部の動きや瞬き、その他の操作者の動作を操作者の意思確認情報として利用することにより、情報処理装置に対して、より確実な意思伝達を行うことができる。
【００１７】
このように、指示入力，すなわち処理機能の選択あるいはコマンドの入力に関しては主に音声が担当し、位置の指定については主に視線が担当し、さらに必要に応じて選択された処理対象の実行の可否に関する確認情報は動作が担当するという様に、各コミュニケーション方式に適切な情報項目を分担させることにより、言葉で位置を特定するといった不自然な作業を排除できるので、操作者の作業効率，作業疲労を改善することができる。
そして、上記したように、視線解析により選択あるいはコマンド等の指示作業を行う情報処理装置の場合、当該情報処理装置からのフィードバック情報を、一般に行われているような表示手段上での視覚的メッセージだけでなく、合成音声で操作者に与えることにより、視点の移動量を増加させることがなく、さらに操作者の発話（音声）→視認（視覚）という心理的なモード切換えを要することがないことで、操作者の作業効率・作業疲労を飛躍的に改善できる。
【００１９】
【実施例】
以下、本発明の実施例を詳細に説明する。
図１は本発明による入力装置の基本構成を説明するブロツク図であって、１は映像表示手段、２は視点解析手段、３は音声認識手段、４は指示内容推論手段、５は指示操作実行手段、６は動作解析手段、７は音声合成出力手段である。
映像表示手段１は、操作の対象となる情報群に対応した指示対象であるカーソルあるいは複数の表象（アイコン）を２次元もしくは３次元映像として視覚的に表示して、操作者に提示する。
視点解析手段２は、操作者が映像表示手段１上のどの対象を注視しているかをリアルタイムで特定する。
【００２０】
音声認識手段３は、表示された表象を操作するための言葉、すなわち当該表象名と操作コマンド名の発話を認識する。
指示内容推論手段４は、視点解析手段２で解析された映像表示手段１上の注視位置と音声認識手段３で認識された発話を基にして操作すべき指示内容を判断する。
指示内容実行手段５は、指示内容推論手段４の推論結果で判断された操作内容を映像表示手段１上で視覚表現すると共に、当該操作内容を実行させる。なお、推論結果を映像表示手段１上の当該表象の表示状態を白黒反転する等で視覚表現したのち、実行コマンドを音声入力する等の方法で当該操作の実行を開始させる構成としてもよい。
【００２１】
以上の視点解析手段２，音声認識手段３および指示内容推論手段４によって得たパラメータを用いて操作者の意思を高確率で推論できるが、操作者の頭部の動き、あるいは瞬きを検出して上記推論のパラメータとする動作解析手段６を備えることにより、さらに上記の推論の正確さを向上させることができる。
動作解析手段６は、操作者の頭部の動き，例えば頷きなどの動作あるいは瞬きなどの動作をモニターする機能を有するものであり、この動作解析手段６の解析結果を推論条件として付加することで、指示内容推論手段４の確度を上げる構成とすることができる。
さらに、指示内容推論手段４の推論結果を音声合成出力手段７により音声情報として操作者に与えることにより、作業効率と作業疲労を軽減できる。
【００２２】
以下、上記した本発明の基本構成に基づく実施例について詳細に説明する。
図２は本発明による入力装置の第１の実施例を説明するブロック図であって、１０は映像表示手段に対応する映像表示装置、２０は視点解析手段２に対応する視点解析装置（所謂、アイカメラ）、２１は操作者の眼球からの反射光を受光する反射光受光器、２２は反射光重心演算回路、２３は眼球表面の曲率と映像表示手段１の表示画面との非線形を補正する画面座標変換回路、２４は注視対象推定回路、３０は音声認識手段３に対応する音声認識装置、３１は音素変換回路、３２は発話照合回路、３３は操作用語／表示情報辞書、３４は発話推定回路、４０は指示内容推論手段に対応する操作推定回路、５０は表示情報データべース、６０は指示操作実行手段５に対応する操作実行回路（コマンド実行回路）である。
【００２３】
次に、上記構成における各機能について説明する。
［注視位置推定］
まず、操作者は視点解析装置２０によって、常に視線がモニターされる。この視点解析装置２０は図３に示された構成を有し、操作者の眼球２００に対して赤外線発光ダイオード（ＩＲ−ＬＥＤ）等の光源２０１から赤外光を投射し、その反射光をＣＣＤ等の反射光受光器２０３で受光する。
光源２０１からの赤外光は眼球２００の角膜付近で反射し、光学レンズ２０２を介して反射光受光器２０３にスポット光として集められる。受光された反射光は反射光重心演算回路２２において、そのスポット光の重心点が計算される。
【００２４】
眼球表面は非球面であるため、また表象が表示される画面が略々平面であるため、この重心点演算により計算されたスポツト光の重心値を示す座標は、そのままでは映像表示装置の画面に対応する空間的な座標位置の値と直接対応するものとはならないので、画面座標変換回路２３によって非線型座標変換を施して映像表示装置の画面における座標値に変換される。この変換された座標値により注視対象推定回路２４で映像表示装置１上の注視対象が推定される。推定された注視対象推定データは操作推定回路４０に与えられる。
上記画面座標変換回路２３は、操作者の眼球曲面と表示画面との間の対応補正値を書き込んだ変換テーブル（非線型変換テーブル）を用いる。この変換テーブルは作業開始前に画面状の複数の表象の視線取込みを行う学習によって変換パラメータの書込みを実行する。
【００２５】
［発話推定］
操作者の発話が発生すると、その音声データは、ただちに音素変換器３１によって原波形から音素時系列データへ変換されて発話照合回路３２に送られる。
発話照合回路３２は、音素時系列データを、操作用語および表示情報名に関する音素データを格納した操作用語／表示情報辞書３３と照合することにより、操作コマンドもしくは指示情報（操作者が音声で指示した表示情報）の候補を抽出する。
この照合過程は既知の所謂ＤＰマッチング等の音声認識手法によって実行される。抽出された指示情報の候補について、発話推定回路３４により操作者の発話が推定され、操作推定回路４０に送られる。なお、指示情報の候補が複数抽出された場合には複数の指示情報の候補が抽出順位を付けて送られる。
［操作推定：操作および操作対象の推定］
操作推定回路４０は、以上説明した視点解析装置２０と音声認識装置３０の処理により推定された注視位置データと発話内容データとを用いて、操作者の真に意図する操作内容を推定する。
【００２６】
表示情報に対する操作は、基本的には以下の３つのタイプである。
１．［対象選択］・・・操作者は、映像表示装置に映し出されている対象表象の中から、選択したいものを発見した場合、それを注視しながら、指示選択を意味する発話をおこなう。このときの単語は、操作用語／表示情報辞書３３に格納済みの予め定めたものであるとする。
２．［位置推定］・・・情報操作において位置情報を必要とする際、例えば情報の表示位置を変えたい場合には、その位置を注視しながら位置指定を意味する発話、例えば「ソコ」と発話することで、位置の指定をおこなう。
３．［操作指定］・・・選択されている情報に対する操作は、発話により操作コマンドを特定し実行する。
【００２７】
図４は操作推定回路の処理を説明するデータフロー図であって、４１は発話の認識結果と表示情報を比較する比較器、４３は指示情報（操作者が音声で指示した表示情報）とコマンドと指示位置の間の関係整合性を照合する整合器、４４はコマンドや処理を実行する所定の操作命令列を生成する操作命令列インタプリタ、５０は現在表示されている情報を含む全表示情報を記憶する表示情報データべース、６０はコマンド／処理実行回路、なお、５３は表示情報データベース５０を含むシステム全体の情報を格納する情報データべースである。
図４に示された「推定単語および推定信頼度」の中の「推定信頼度」の意味は次のとおりである。すなわち、前記音声認識装置３０（図２参照）が操作者の発話の音声データと、表示情報、位置情報および操作コマンドの単語の音声データとの類似度が高い単語を、発話に対応する単語として推定する。前記推定された単語（推定単語）の類似度の高さが推定信頼度である。前記推定信頼度は操作者の発話の音声データ（発話データ）と前記単語の音声データ（単語データ）とを比較して、発話データに類似する単語データが複数有る場合に類似度の高い単語程、推定信頼度（抽出順位）が高くなる。
同図４において、音声認識装置３０（図２参照）によって推定された単語（発話）は、比較器４１において表示情報データベース５０と比較されて、それがオブジェクト語（表示情報を特定する語）かコマンド語かの判断、すなわち単語タイプの判断がなされる。
【００２８】
当該単語がオブジェクト語である場合は、オブジェクトとして現在の画面状態を保持している表示情報データベースに照らし合わせられる。発話単語の推定信頼度が高く（すなわち、候補単語の抽出順位が上位で）、表示情報データベース５０にもその対象が存在する場合には、その推定単語を採用する。
推定信頼度が低い場合には、注視点推定値と表示情報データベース５０から期待される対象と合致しているかを比較器４１で確認する。合致している場合は該当対象を選択する。合致しない場合には、認識不能の処置をとる。
また、推定単語の特定する情報対象名が複数存在する場合、すなわち、同名のラベルづけされた情報が呼ばれた場合は、注視点位置が参照され、注視点により近い情報を選択する。
以上は、情報対象の選択に関する手続きである。選択された情報は、像の反転によって選択状態を表現する。
【００２９】
一方、発話では、情報操作に関するコマンドの入力も行われる。操作コマンドには、「移動」「コピー」「開示」「閉める」などがある。それらの操作には、対象の特定が必要な場合や位置情報の指定が必要な場合がある。
まず、前者，すなわちコマンドの選択に関しては、注視点推定によりある程度操作対象の特定が可能である。そして、移動不可能なものを注視している際に、「イドウ」という発話推定があったり、すでに開示されている対象を注視しているときに、「ヒラケ」という発話推定がなされるのは誤りの可能性が大きい。そのような際には発話推定の第二候補以下を検討したり、推定を却下する（何もせずに発話を無視する）ことにする。
【００３０】
次に後者，すなわち位置情報を必要とする処理について説明する。
図５は発話受理に伴うインタプリタの状態遷移図であって、Ｓは初期状態、Ｏは「コレ」，「レポート」，「週報」，「伝票」などのアイコン名（オブジェクト）を指定する対象指定語、Ｐは「ソコ」，「ミギウエ」などの場所を表す場所指定語、Ａはアクションすなわちコマンドの実行を示す。
位置情報の入力は、選択しようとする例えばアイコンを注視しながら、位置選択を示す発話（場所指定語）を、例えば「ソコ」と指定する。このとき、図４の整合器４３は、表示情報データベース５０と確認をとりながら、移動できない位置への指定がなされていないかを検査する。このときは２−オペランドコマンド語であるから、２−オペランドコマンドを実行して初期状態に戻る。
アイコンを注視しながら対象指定語のみの発話である「アケル」とか「サクジョ」というコマンドは、１−オペランドコマンド語であり、また「トジル」というコマンドは０−オペランドコマンド語であり、それぞれのコマンド実行後初期状態に戻る。
【００３１】
なお、発話の例としては、次のようなものを挙げることができる。
対象指定語：「コレ」，「ソレ」，「アイコン名（レポート、伝票、…）」等
場所指定語：「ソコ」，「ミギウエ」，「マンナカ」，「ヨコニ」，…等
２−オペランドコマンド：コピー，イドウ，…等
１−オペランドコマンド：アケル，サクジョ，プロパティ，…等
０−オペランドコマンド：トジル，…等
すなわち、２−オペランドコマンド語は、「ソレ」を「コピー」というような２つのオペランドを持つコマンド、１−オペランドコマンド語は「アケル」，「サクジョ」のようにオペランドが１つのコマンド、０−オペランドコマンド語は、「トジル」のようにオペランドを要しないコマンドを意味する。
【００３２】
以上に記述した、情報対象、操作コマンド、位置情報の内容は、操作命令列インタプリタ４４に順次送られ、コマンド実行回路６０により実際のコマンドあるいは操作が情報データベース５３に対して実行される。
なお、実際の操作発生のためには、上記の情報対象、操作コマンド、位置情報が操作列（シーケンス）として所定の整合がとれていなれけばならない。この整合の検証は操作命令列インタプリタ４４内でなされ、解消できない不整合が発見された場合は、指示されたシーケンスは無視される。
上記の推定結果を、表示もしくは音声合成によるメッセージとして操作者にを与えて、確認を促すようにすることもできる。また、その結果、コマンドあるいは処理の操作が発生した際には、表示情報データベース５０を情報データベース５３と整合的に書き換えておくことはいうまでもない。
【００３３】
図６は音声認識による発話音声データとアイカメラによる視点解析データを用いたコマンド選択実行の処理におけるデータフロー図である。
まず、音声認識により得た発話音声データは、音素辞書を参照して音素変換される。音素変換された発話単語は登録単語辞書に予め登録された単語とマッチングが取られる（ＤＰマッチング）。
ＤＰマッチングにより認識された単語について、一般コマンド（「ヒラケ」，「トジル」など）か，アイコン名（ファイル名など）か，アイコン選択コマンド（「コレ」，「ソレ」など）かが判断される。
その結果、当該単語が一般コマンド名である場合は、コマンドの整合性をチェックした後、整合すればそのコマンドを実行する。このとき、該当するアイコンの表示状態を反転し、これをアイコン状態保存メモリに保存する。
【００３４】
認識された単語がアイコン選択コマンドである場合は、該当するアイコンを選択し、その表示状態を反転する処理に入る。
なお、このとき、アイカメラにより視点位置が推定されてカーソルの位置が解析されているので、当該アイコンがカーソル位置にあればその表示状態を反転し、カーソル位置から外れている場合には何もしない。
認識された単語がアイコン名である場合は、そのアイコン名に対応するアイコンの表示状態を反転する。
このようにして、表示画面上のカーソル、アイコンを選択し、対応する操作やコマンドを実行させる。
【００３５】
図７は本発明による入力装置の第２の実施例を説明する構成図であって、操作者の視点解析手段と視線を認識するための瞬き動作検出手段を備えた３次元表示ヘッドマウントディスプレイ装置の概略構造説明図であって、１００は左目用液晶ディスプレイ、１０１は右目用液晶ディスプレイ、１０２は赤外線発光ダイオード（赤外ＬＥＤ）、１０３は光位置検出素子（例えば、浜松ホトニクス社製のＰＳＤ）、１０４は集光レンズである。
操作者は、このディスプレイ装置を眼鏡の要領で顔面に装着し、液晶ディスプレィ１００，１０１により３次元的に表示されるカーソルやアイコンなどの表象からなる情報群のうちの特定の表象を注視する。
赤外ＬＥＤ１０２から発射される赤外光は、常に操作者の眼球（ここでは右目）に投射されている。そのスポット光は角膜で反射し、集光レンズ１０４を経て光位置検出素子１０３に集光される。
角膜の曲率は眼球全体より小さく、その曲率の中心点も眼球の回転中心とずれているので、反射光角度は眼球の回転によって変化する。従って光位置検出素子１０３上での眼球反射光の入力位置を求めることにより、間接的に眼球回転角を検出することができる。
【００３６】
図８は図７に示したヘッドマウントディスプレイ装置の入力処理を説明するデータフロー図であって、８１はＰＳＤからなる空間位置検出素子、８２は差分回路、８３は眼球角度−画面位置変換回路（画面座標変換回路）、８４は瞬き検出回路、８５は制御回路（マイクロプロセッサ）、８６は液晶ディスプレイ、８７は表示情報メモリである。
以下、図７に示した装置の動作を図８を参照して説明する。
［視線検知］
まず、眼球からの反射光を受光する空間位置検出素子８１の出力は所定の周期でサンプリングされ、時間軸上における前後の座標値を差分回路で差分演算し、その差分値を得る。
【００３７】
この差分値は変換回路によって非線型的な座標変換をほどこされ、液晶ディスプレィ１０１上における注視点の空間的位置を示す値が検出される。この非線形変換は、眼球の形状やディスプレィと視点との位置関係により定まるものである。そして、この変換関数は、使用前にあらかじめ学習することによって取り込まれ、変換テーブル上に保持される。
この学習は、液晶ディスプレィ上の数か所を指定して操作者に凝視させることで、その位置と眼球角度との関数関係を得る。この関数関係は、装置使用中にも定期的に校正することで高精度な位置特定性能を保証できる。この校正処理は、ある情報の表象選択が発生したときに、その瞬間における表象の配置位置と眼球角度とのデータ対によって行う。そのため、わざわざ別個の校正処理プログラムを動かす必要がなく、校正作業による作業効率の低下を来すことはない。
なお、この学習は、前記第１の実施例においても同様である。
【００３８】
［まばたき検知］
空間位置検出素子８１の出力値は、オペレータの視線検出と併せて、瞬きの検出にも用いられる。すなわち、空間位置検出素子８１からの（差分前の）生出力は、該素子上での光量分布を反映しているので、瞬き検出回路８４は単位時間毎に上記空間位置検出素子８１の出力を積分し、それらの単位時間積分値が閾値以下になったときに、瞬きが発生したと見做す。この瞬きの発生が検出されたという情報はただちに制御回路８５へ送られる。
【００３９】
［制御回路］
制御回路８５は、マイクロプロセサ上にソフトウェアとして実現される。
図９は制御回路による液晶ディスプレイ上の表象の表示処理過程を説明するフローチヤートである。
図８の差分回路８２からの注視点位置データは、常にポーリングおよびデータ照合ステップ８１で取り込まれて表示データメモリ８２上の表象位置データと照合される。
この照合結果のデータ状態について、注視位置に表象が配置されている場合には、液晶ディスプレィ上での表象表示をグレー反転させる（８４）。これは、オペレータがその表象を注視していることを示しているだけの表示である。
【００４０】
瞬き検出回路から瞬き発生の信号がきた際に、このグレー反転表象が存在する場合には、この表象を完全に反転させる（ステップ８６）。この表示は、その表象がシステムにおいて選択された旨を示すものである。すなわち、表象がいわゆるメニュー形式のものであれば、選択された項目が選ばれ、該当するアプリケーションのプログラムが実行されたことを示す（ステップ８７）。ただし、具体的な表象システムの設計については千差万別なものが可能であるので、ここでは特定なものを例示したにすぎない。
一方、瞬き発生の信号がきた際にグレー反転表象が存在しない場合には、選択状態の対象すなわち白黒反転表象をすべてクリアし、反転解除する（ステップ８５）。
これらの処理がなされた後は、再び注視点位置データと瞬き検出信号のポーリングおよびデータ照合のステップ（ステツプ８１）にもどる。
【００４１】
このように、頭部に固定した３次元映像表示手段（図７に示したヘッドマウントディスプレイ）に、操作者の操作対象となる情報群に対応した表象群を空間的に布置する。視線検出手段は操作者の眼球運動角度により注視している表象を特定する。このとき、映像表示手段は操作者の身体運動に拘わらず操作者の眼球との相対的位置関係を不変に保っているので、長時間の使用においても注視位置がずれることがない。さらに、位置指定の精度を保持するために表示装置との間で頻繁なレジストーションを実施したり、注視点カーソルを表示して操作者に制御させたり、頭部の動きを固定したりする必要がまったくない。このことは、作業効率の向上と操作者の心理・整理的負担軽減をもたらす。
【００４２】
［対象選択意志発生の告知］
頭部に固定した映像表示手段は、通常の視認活動を妨げるのでキーボードその他のスイッチ類を用いて情報選択意志を入力することは困難である。そこで、操作者の意図的な瞬き，すなわち通常の生理的なまばたき動作よりも長時間にわたる随意的な瞬き行為により情報選択意志を検出し、円滑な作業を実現させる。
【００４３】
【発明の効果】
以上説明したように、本発明によれば、操作対象となる情報群を視覚的に表示するための映像表示手段における情報操作者の注視位置を推定する視点解析手段と、映像表示手段の表示位置を特定する前記情報操作者の発話および前記映像表示手段の表示情報を特定する発話を認識する音声認識手段とを組み合わせて入力装置を構成することにより、操作対象となる情報群の中で情報操作者が選択した情報を正確に特定することができる。
また、前記音声認識手段の認識した発話に対応する表示情報の候補が複数抽出された場合には、指示内容推論手段は、表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報を情報操作者の指示内容であると判断するので、映像表示手段上で操作者が真に意図する対象物（操作対象となる情報）を正確に特定できるようになり、前記意図する対象物付近の別の対象物が誤って選択される割合を減少できる。
また、上記視点解析手段，音声認識手段、操作者の動作解析手段を組合せた入力装置を使用することにより、操作対象となる情報の中で選択された情報の特定をより正確に行うことができる。
また、音声合成による音声出力手段を操作コマンド推定の補助情報として用いた場合には、操作対象となる情報の中で選択された情報の特定をより正確に行うことが可能となる。
【図面の簡単な説明】
【図１】本発明による入力装置の基本構成を説明するブロツク図である。
【図２】本発明による入力装置の第１の実施例を説明するブロック図である。
【図３】本発明に用いる視点解析装置の概略構成の説明図である。
【図４】操作推定回路の処理を説明するデータフロー図である。
【図５】発話受理に伴うインタプリタの状態遷移図である。
【図６】音声認識による発話音声データとアイカメラによる視点解析データを用いたコマンド選択実行の処理におけるデータフロー図である。
【図７】本発明による入力装置の第１の実施例を説明するブロック図であって、操作者の視点解析手段と視線を認識するための瞬き動作検出手段を備えた３次元表示ヘッドマウントディスプレイ装置の概略構造説明図である。
【図８】図７に示したヘッドマウントディスプレイ装置の入力処理を説明するデータフロー図である。
【図９】制御回路による液晶ディスプレイ上の表象の表示処理過程を説明するフローチヤートである。
【符号の説明】
１…映像表示手段、２…視点解析手段、３…音声認識手段、４…指示内容推論手段、５…指示操作実行手段、６…動作解析手段、７…音声合成出力手段。

Claims

操作対象となる情報群であって情報操作者の発話により特定される表示情報を含む前記情報群を視覚的に表示するための映像表示手段と、
前記映像表示手段における情報操作者の発話時の注視位置を推定する視点解析手段と、
前記映像表示手段の表示位置を特定する前記情報操作者の発話および前記映像表示手段の表示情報を特定する発話を認識する音声認識手段と、
前記視点解析手段の解析により推定した情報操作者の発話時の注視位置と、前記音声認識手段により認識した発話内容とに基づいて、情報操作者の指示内容を判断するとともに、前記音声認識手段の認識した発話内容に対応する表示情報の候補が複数抽出された場合には、現在表示されている情報を含む表示情報を記憶する表示情報データべースに記憶され且つ現在表示されている表示情報であって注視位置に近い表示情報を情報操作者の指示内容であると判断し、前記視点解析手段の推定した注視位置に対応する発話内容の候補が複数抽出された場合には注視位置の表示情報に整合する発話内容を情報操作者の発話内容であると判断し、前記指示内容と前記発話内容との整合の検証をして実行する操作を判断する指示内容推論手段と、
前記指示内容推論手段により判断された情報操作者の指示内容の操作を実行する指示操作実行手段と、を備えたことを特徴とする入力装置。
表示情報データべースに記憶され且つ現在表示されている表示情報であって抽出順序の最も高い表示情報が複数有る場合には、前記抽出順序の最も高い複数の表示情報の中で、前記表示情報データベースにより定まる表示位置と情報操作者の注視位置とが一致している表示情報を情報操作者の指示内容であると判断する前記指示内容推論手段を備えた請求項１記載の入力装置。
前記音声認識手段の認識した発話に対応する表示情報の候補が、現在表示されている表示情報でない場合には前記発話を無視する前記指示内容推論手段を備えた請求項１または２記載の入力装置。
前記操作者の頭部の動きを解析する動作解析手段と、
前記音声認識手段により認識された発話内容及び前記動作解析手段により解析された前記操作者の頭部の動きに基づいて操作すべき指示内容を判断する前記指示内容推論手段を備えたことを特徴とする請求項１ないし３のいずれか記載の入力装置。