JPH04372012A

JPH04372012A - 入力装置

Info

Publication number: JPH04372012A
Application number: JP3174839A
Authority: JP
Inventors: Hiroshi Kawamoto; 川本　浩史; Takashi Osawa; 隆大澤; Nobuyuki Saito; 伸行斎藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-06-20
Filing date: 1991-06-20
Publication date: 1992-12-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【産業上の利用分野】本発明は、ユーザインターフェー
スとして映像表示装置を有する情報処理装置において、
該映像表示装置上に視覚的に表示された操作情報群を操
作するための情報操作者の意思をキーボードやマウスを
用いることなく情報処理装置側に伝達するための入力装
置に関する。そして、本発明は、特にＣＲＴ等の映像表
示装置を情報出力装置の一つとして有し、キーボードや
マウスなどの手操作型情報入力手段以外の情報入力手段
、すなわち音声入力，視線入力，および／または動作入
力を備え、映像表示装置に表示される視覚的情報出力手
段以外の情報出力手段として音声合成装置などを備えて
、マルチ・メディア対応の情報処理装置を構成する情報
処理システムに適用して有効な入力装置を提供するもの
である。

【従来の技術】情報処理装置に操作者の意思を伝達する
手段としては、従来からキーボードやマウス、その他の
手操作型入力手段が採用されている。しかし、近年の情
報処理環境の進展に伴い、情報処理装置，すなわち機械
とその操作者である人間との間における意思の伝達が、
記号情報を媒体としたものから感覚情報や感情的情報を
含んだ幅広い情報を授受することで、機械と人間との融
和を醸成すべき段階に達しつつある。その初期的な試み
として、機械と人間との間の意思伝達に物理的な接触を
伴わない手段が種々提案されている。その一つとして、
人間（以下、操作者という）の視線の動きを機械（以下
、情報処理装置という）に認識させることで操作者の意
思を伝達する所謂アイカメラが知られている。この視線
の動きによる意思表示の情報処理装置への伝達は、操作
者の眼球の回転を検知してその視線方向を特定すること
により、操作者が情報処理装置に備えるインターフェー
スの一つである映像表示装置に表示された情報群の中か
ら特定の情報を認識させるものである。眼球回転角度の
検出により操作者の視線方向を特定する方式としては、
特開平１−１６０５２７号公報、特開平２−８８０３４
号公報に開示されたものが知られている。この種の視線
検出装置は、手を用いない対象指示装置として、既に各
種の情報機器，医療用機器等に組み込まれている。特開昭６４−４６１２２号公報、特開昭６０−１８８９
７６号公報、特開昭６３−７５８２４号公報などに記載
されたシステムがその例である。

【発明が解決しようとする課題】このような視線検出装
置を注視対象の選択意志認識装置，すなわち情報処理装
置への入力装置として利用する際に問題となるのは、操
作者が対象を注視したときに、どの時点でその対象を選
択している意志が発生したかを判断することである。特
開昭６３−７５８２４号公報に記載されたシステムにお
いては、当該対象を注視している注視時間を監視し、所
定以上の時間が継続したことによってその意志発生を判
定している。また、特開昭６４−４６１２２号公報に記
載されたシステムでは、脳の活動に伴う磁気変化、すな
わち注視した対象を選択するという思考の発生に伴う脳
の活動の結果として発生する脳磁気の変化を検知するこ
とによって当該注視対象の選択意志の発生を判定してい
る。しかしながら、注視時間によって選択の意志ありと
見做す方式は、操作者の無意識な注視，眼球の微小な振
動の存在による注視点の変動，あるいは操作者の計時認
識の曖昧さにより誤判定を生じ易いという問題がある。また、脳活動の磁気を測定する方法は、現在のところコ
ストがかかり、装置も大がかりなものになりがちである
ため、通常のシステム環境への組み込みが困難であると
いう問題がある。なお、一般に、前記した視線解析手段
は、完全な顔面固定等を施さない限り、例えばＣＲＴ等
の表示画面状に表示されたカーソルやアイコン等の表象
に対して精度の高い位置特定を実現することは困難であ
る。前記公報に開示されたもののように、操作者の顔面
固定を実施することは、操作者が病床人である場合や、
あるいは既知の，スチルカメラやビデオカメラのように
装置（注視対象）と頭部との相対位置を固定できる特殊
な場合を除き、ＣＲＴ等を表示手段として用いる一般の
情報操作機器に応用することには大きな制約がある。本
発明の目的は、視線解析手段（あるいは視点解析手段）
に加えて、操作者の意思を表す他の意思表示手段を備え
ることにより、上記従来技術の問題点を解消し、情報処
理装置と操作者との間の意思伝達を効果的に達成できる
入力装置を提供することにある。

【課題を解決するための手段】上記目的を達成するため
に、本発明は、操作の対象となる情報群に対応した表象
を２次元もしくは３次元映像として視覚的に複数個表示
する映像表示手段と、操作者が映像表示手段に表示され
た映像表現（情報群）のどれを対象として注視している
かをリアルタイムで推定する視点解析手段と、表示され
た表象を操作するための言葉、すなわち表象名と操作コ
マンド名とに関して、操作者の発話をリアルタイムで認
識する音声認識手段と、操作者の頭部の動きあるいは瞬
きなどの操作者の動作をモニターし、この動作をリアル
タイムで解析する動作解析手段と、上記視点解析手段の
解析結果と音声認識手段の認識結果および／または上記
動作解析手段の解析結果とから操作者の指示内容をリア
ルタイムで推論する指示内容推論手段と、この指示内容
推論手段の推論結果に従ってその指示内容を実行する指
示操作実行手段を備えた構成とすることによって達成さ
れる。また、操作者に対して、必要な確認情報を合成音
声で与える音声合成出力手段とを備えることによって指
示内容の推論結果をその実行前に確認する構成とするこ
ともできる。すなわち、本発明は、操作対象となる情報
群を視覚的に表示するための映像表示手段と、前記映像
表示手段における情報操作者の注視位置を推定する視点
解析手段と、前記情報操作者の発話を認識する音声認識
手段と、前記視点解析手段の解析により特定した情報操
作者の注視位置と、前記音声認識手段により認識した発
話内容に基づいて、情報操作者の指示内容を判断する指
示内容推論手段と、前記指示内容推論手段により判断さ
れた情報操作者の指示内容の操作を実行する指示操作実
行手段と、を備えたことを特徴とする。また、本発明は
、操作対象となる情報群を視覚的に表示するための映像
表示手段と、前記映像表示手段における情報操作者の注
視位置を推定する視点解析手段と、前記情報操作者の発
話を認識する音声認識手段と、情報操作者の頭部の動き
あるいは瞬きを解析し意図的動作を認識する動作認識手
段と、前記視点解析手段の解析により特定した情報操作
者の注視位置と、前記音声認識手段により認識した発話
内容、および前記動作認識手段により認識した意図的動
作に基づいて、情報操作者の指示内容を判断する指示内
容推論手段と、前記指示内容推論手段により判断された
情報操作者の指示内容の操作を実行する指示操作実行手
段と、を備えたことを特徴とする。さらに、本発明は、
操作対象となる情報群を視覚的に表示するための映像表
示手段と、前記映像表示手段における情報操作者の注視
位置を推定する視点解析手段と、前記情報操作者の発話
を認識する音声認識手段と、前記視点解析手段の解析に
より特定した情報操作者の注視位置と、前記音声認識手
段により認識した発話内容に基づいて、情報操作者の指
示内容を判断する指示内容推論手段と、前記指示内容推
論手段により判断された内容を音声信号に変換して情報
操作者の確認を促すための音声合成出力手段と、前記指
示内容推論手段により判断された情報操作者の指示内容
の操作を前記音声認識手段により認識した確認結果にし
たがって実行する指示操作実行手段と、を備えたことを
特徴とする。さらにまた、本発明は、操作対象となる情
報群を視覚的に表示するための映像表示手段と、前記映
像表示手段における情報操作者の注視位置を推定する視
点解析手段と、前記情報操作者の発話を認識する音声認
識手段と、情報操作者の頭部の動きあるいは瞬きを解析
し意図的動作を認識する動作認識手段と、前記視点解析
手段の解析により特定した情報操作者の注視位置と、前
記音声認識手段により認識した発話内容、および前記動
作認識手段により認識した意図的動作に基づいて、情報
操作者の指示内容を判断する指示内容推論手段と、前記
指示内容推論手段により判断された内容を音声信号に変
換して情報操作者の確認を促すための音声合成出力手段
と、前記指示内容推論手段により判断された情報操作者
の指示内容の操作を前記動作認識手段の確認結果にした
がって実行する指示操作実行手段と、を備えたことを特
徴とする。

【作用】本発明による入力装置は、情報処理装置に対す
る選択指示やコマンドの入力方式として、音声，視線，
および／または動作の二以上の解析あるいは認識手段を
多重に備えることにより、各方式の情報を互いに補い合
わせて操作者の意図を正確に特定することができる。こ
れにより、従来は視線（表示装置上の注視位置）だけで
映像表示上の位置を指定することはかなり困難であった
が、発話情報から操作者の意図する注視対象を絞りこめ
るので、この発話情報を併せて利用することで正確な位
置決めを実行できるようになる。逆に、発話だけでは言
葉のあいまいさから対象を特定できない場合にも、注視
位置付近に存在する対象を考え併せることによって、操
作者の発話意図を推論して正しく認識させることができ
る。また、操作者の頭部の動きや瞬き、その他の操作者
の動作を操作者の意思確認情報として利用することによ
り、情報処理装置に対して、より確実な意思伝達を行う
ことができる。このように、指示入力，すなわち処理機
能の選択あるいはコマンドの入力に関しては主に音声が
担当し、位置の指定については主に視線が担当し、さら
に必要に応じて選択された処理対象の実行の可否に関す
る確認情報は動作が担当するという様に、各コミュニケ
ーション方式に適切な情報項目を分担させることにより
、言葉で位置を特定するといった不自然な作業を排除で
きるので、操作者の作業効率，作業疲労を改善すること
ができる。そして、上記したように、視線解析により選
択あるいはコマンド等の指示作業を行う情報処理装置の
場合、当該情報処理装置からのフィードバック情報を、
一般に行われているような表示手段状での視覚的メッセ
ージだけでなく、合成音声で操作者に与えることにより
、視点の移動量を増加させることがなく、さらに操作者
の発話（音声）→視認（視覚）という心理的なモード切
換えを要することがないことで、操作者の作業効率・作
業疲労を飛躍的に改善できる。

【実施例】以下、本発明を実施例に基づいて詳細に説明
する。図１は本発明による入力装置の基本構成を説明す
るブロツク図であって、１は映像表示手段、２は視点解
析手段、３は音声認識手段、４は指示内容推論手段、５
は指示操作実行手段、６は動作解析手段、７は音声合成
出力手段である。映像表示手段１は、操作の対象となる
情報群に対応した指示対象であるカーソルあるいは複数
の表象（アイコン）を２次元もしくは３次元映像として
視覚的に表示して、操作者に提示する。視点解析手段２
は、操作者が映像表示手段１上のどの対象を注視してい
るかをリアルタイムで特定する。音声認識手段３は、表
示された表象を操作するための言葉、すなわち当該表象
名と操作コマンド名の発話を認識する。指示内容推論手
段４は、視点解析手段２で解析された映像表示手段１上
の注視位置と音声認識手段３で認識された発話を基にし
て操作すべき指示内容を判断する。指示内容実行手段５
は、指示内容推論手段４の推論結果で判断された操作内
容を映像表示手段１上で視覚表現すると共に、当該操作
内容を実行させる。なお、推論結果を映像表示手段１上
の当該表象の表示状態を白黒反転する等で視覚表現した
のち、実行コマンドを音声入力する等の方法で当該操作
の実行を開始させる構成としてもよい。以上の視点解析
手段２，音声認識手段３および指示内容推論手段４によ
って得たパラメータを用いて操作者の意思を高確率で推
論できるが、操作者の頭部の動き、あるいは瞬きを検出
して上記推論のパラメータとする動作解析手段６を備え
ることにより、さらに上記の推論の正確さを向上させる
ことができる。動作解析手段６は、操作者の頭部の動き
，例えば頷きなどの動作あるいは瞬きなどの動作をモニ
ターする機能を有するものであり、この動作解析手段６
の解析結果を推論条件として付加することで、指示内容
推論手段４の確度を上げる構成とすることができる。さらに、指示内容推論手段４の推論結果を音声合成出力
手段７により音声情報として操作者に与えることにより
、作業効率と作業疲労を軽減できる。以下、上記した本
発明の基本構成に基づく実施例について詳細に説明する
。図２は本発明による入力装置の第１の実施例を説明す
るブロック図であって、１０は映像表示手段に対応する
映像表示装置、２０は視点解析手段２に対応する視点解
析装置（所謂、アイカメラ）、２１は操作者の眼球から
の反射光を受光する反射光受光器、２２は反射光重心演
算回路、２３は眼球表面の曲率と映像表示手段１の表示
画面との非線形を補正する画面座標変換回路、２４は注
視対象推定回路、３０は音声認識手段３に対応する音声
認識装置、３１は音素変換回路、３２は発話照合回路、
３３は操作用語／表示情報辞書、３４は発話推定回路、
４０は指示内容推論手段に対応する操作推定回路、５０
は表示情報データべース、６０は指示操作実行手段５に
対応する操作実行回路（コマンド実行回路）である。次
に、上記構成における各機能について説明する。［注視位置推定］まず、操作者は視点解析装置２０によ
って、常に視線がモニターされる。この視点解析装置２
０は図３に示された構成を有し、操作者の眼球２００に
対して赤外線発光ダイオード（ＩＲ−ＬＥＤ）等の光源
２０１から赤外光を投射し、その反射光をＣＣＤ等の反
射光受光器２０３で受光する。光源２０１からの赤外光
は眼球２００の角膜付近で反射し、光学レンズ２０２を
介して反射光受光器２０３にスポット光として集められ
る。受光された反射光は反射光重心演算回路２２におい
て、そのスポット光の重心点が計算される。眼球表面は
非球面であるため、また表象が表示される画面が略々平
面であるため、この重心点演算により計算されたスポツ
ト光の重心値を示す座標は、そのままでは映像表示装置
の画面に対応する空間的な座標位置の値と直接対応する
ものとはならないので、画面座標変換回路２３によって
非線型座標変換を施して映像表示装置の画面における座
標値に変換される。この変換された座標値により注視対
象推定回路２４で映像表示装置１上の注視対象が推定さ
れる。推定された注視対象推定データは操作推定回路４
０に与えられる。上記画面座標変換回路２３は、操作者
の眼球曲面と表示画面との間の対応補正値を書き込んだ
変換テーブル（非線型変換テーブル）を用いる。この変
換テーブルは作業開始前に画面状の複数の表象の視線取
込みを行う学習によって変換パラメータの書込みを実行
する。［発話推定］操作者の発話が発生すると、その音声デー
タは、ただちに音素変換器３１によって原波形から音素
時系列データへ変換されて発話照合回路３２に送られる
。発話照合回路３２は、音素時系列データを、操作用語
および表示情報名に関する音素データを格納した操作用
語／表示情報辞書３３と照合することにより、操作コマ
ンドもしくは被指示情報の候補を抽出する。この照合過
程は既知の所謂ＤＰマッチング等の音声認識手法によっ
て実行される。抽出された非指示情報の候補について、
発話推定回路３４により操作者の発話が推定され、操作
推定回路４０に送られる。［操作推定：操作および操作対象の推定］操作推定回路
４０は、以上説明した視点解析装置２０と音声認識装置
３０の処理により推定された注視位置データと発話内容
データとを用いて、操作者の真に意図する操作内容を推
定する。表示情報に対する操作は、基本的には以下の３
つのタイプである。１．［対象選択］・・・　　操作者は、映像表示装置に
映し出されている対象表象の中から、選択したいものを
発見した場合、それを注視しながら、指示選択を意味す
る発話をおこなう。このときの単語は、操作用語／表示
情報辞書３３に格納済みの予め定めたものであるとする
。２．［位置推定］・・・　　情報操作において位置情報
を必要とする際、例えば情報の表示位置を変えたい場合
には、その位置を注視しながら位置指定を意味する発話
、例えば「ソコ」と発話することで、位置の指定をおこ
なう。３．［操作指定］・・・　　選択されている情報に対す
る操作は、発話により操作コマンドを特定し実行する。図４は操作推定回路の処理を説明するデータフロー図で
あって、４１は発話の認識結果と表示情報を比較する比
較器、４３は指示情報とコマンドと指示位置の間の関係
整合性を照合する整合器、４４はコマンドや処理を実行
する所定の操作命令列を生成する操作命令列インタプリ
タ、５０は表示情報データべース、６０はコマンド／処
理実行回路、なお、５３は表示情報データベース５０を
含むシステム全体の情報を格納する情報データべースで
ある。同図において、音声認識装置３０によって推定さ
れた単語は、比較器４１において表示情報データベース
５０と比較されて、それがオブジェクト語かコマンド語
かの判断、すなわち単語タイプの判断がなされる。当該
単語がオブジェクト語である場合は、オブジェクトとし
て現在の画面状態を保持している表示情報データベース
に照らし合わせられる。発話単語の推定信頼度が高く（
すなわち、候補単語の抽出順位が上位で）、表示情報デ
ータベース５０にもその対象が存在する場合には、その
推定単語を採用する。推定信頼度が低い場合には、注視
点推定値と表示情報データベース５０から期待される対
象と合致しているかを比較器４１で確認する。合致して
いる場合は該当対象を選択する。合致しない場合には、
認識不能の処置をとる。また、推定単語の特定する情報
対象名が複数存在する場合、すなわち、同名のラベルづ
けされた情報が呼ばれた場合は、注視点位置が参照され
、注視点により近い情報を選択する。以上は、情報対象
の選択に関する手続きである。選択された情報は、像の
反転によって選択状態を表現する。一方、発話では、情
報操作に関するコマンドの入力も行われる。操作コマン
ドには、「移動」「コピー」「開示」「閉める」などが
ある。それらの操作には、対象の特定が必要な場合や位
置情報の指定が必要な場合がある。まず、前者，すなわ
ちコマンドの選択に関しては、注視点推定によりある程
度操作対象の特定が可能である。そして、移動不可能な
ものを注視している際に、「イドウ」という発話推定が
あったり、すでに開示されている対象を注視していると
きに、「ヒラケ」という発話推定がなされるのは誤りの
可能性が大きい。そのような際には発話推定の第二候補
以下を検討したり、推定を却下することにする。次に後者，すなわち位置情報を必要とする処理について
説明する。図５は発話受理に伴うインタプリタの状態遷
移図であって、Ｓは初期状態、Ｏは「コレ」，「レポー
ト」，「週報」，「伝票」などのアイコン名（オブジェ
クト）を指定する対象指定語、Ｐは「ソコ」，「ミギウ
エ」などの場所を表す場所指定語、Ａはアクションすな
わちコマンドの実行を示す。位置情報の入力は、選択し
ようとする例えばアイコンを注視しながら、位置選択を
示す発話（場所指定語）を、例えば「ソコ」と指定する
。このとき、図４の整合器４３は、表示情報データベー
ス５０と確認をとりながら、移動できない位置への指定
がなされていないかを検査する。このときは２−オペラ
ンドコマンド語であるから、２−オペランドコマンドを
実行して初期状態に戻る。アイコンを注視しながら対象
指定語のみの発話である「アケル」とか「サクジョ」と
いうコマンドは、１−オペランドコマンド語であり、ま
た「トジル」というコマンドは０−オペランドコマンド
語であり、それぞれのコマンド実行後初期状態に戻る。なお、発話の例としては、次のようなものを挙げること
ができる。対象指定語：「コレ」，「ソレ」，「アイコン名（レポ
ート、伝票、・・・・・）等場所指定語：「ソコ」，「ミギウエ」，「マンナカ」，
「ヨコニ」，・・・・等２−オペランドコマンド：コピー，イドウ，・・・・等
１−オペランドコマンド：アケル，サクジョ，プロパテ
ィ，・・・・等０−オペランドコマンド：トジル，・・・・等すなわち
、２−オペランドコマンド語は、「ソレ」を「コピー」
というような２つのオペランドを持つコマンド、１−オ
ペランドコマンド語は「アケル」，「サクジョ」のよう
にオペランドが１つのコマンド、０−オペランドコマン
ド語は、「トジル」のようにオペランドを要しないコマ
ンドを意味する。以上に記述した、情報対象、操作コマ
ンド、位置情報の内容は、操作命令列インタプリタ４４
に順次送られ、コマンド実行回路６０により実際のコマ
ンドあるいは操作が情報データベース５３に対して実行
される。なお、実際の操作発生のためには、上記の情報
対象、操作コマンド、位置情報が操作列（シーケンス）
として所定の整合がとれていなれけばならない。この整
合の検証は操作命令列インタプリタ４４内でなされ、解
消できない不整合が発見された場合は、指示されたシー
ケンスは無視される。上記の推定結果を、表示もしくは
音声合成によるメッセージとして操作者にを与えて、確
認を促すようにすることもできる。また、その結果、コ
マンドあるいは処理の操作が発生した際には、表示情報
データベース５０を情報データベース５３と整合的に書
き換えておくことはいうまでもない。図６は音声認識による発話音声データとアイカメラによ
る視点解析データを用いたコマンド選択実行の処理にお
けるデータフロー図である。まず、音声認識により得た
発話音声データは、音素辞書を参照して音素変換される
。音素変換された発話単語は登録単語辞書に予め登録さ
れた単語とマッチングが取られる（ＤＰマッチング）。ＤＰマッチングにより認識された単語について、一般コ
マンド（「ヒラケ」，「トジル」など）か，アイコン名
（ファイル名など）か，アイコン選択コマンド（「コレ
」，「ソレ」など）かが判断される。その結果、当該単
語が一般コマンド名である場合は、コマンドの整合性を
チェックした後、整合すればそのコマンドを実行する。このとき、該当するアイコンの表示状態を反転し、これ
をアイコン状態保存メモリに保存する。認識された単語
がアイコン選択コマンドである場合は、該当するアイコ
ンを選択し、その表示状態を反転する処理に入る。なお
、このとき、アイカメラにより視点位置が推定されてカ
ーソルの位置が解析されているので、当該アイコンがカ
ーソル位置にあればその表示状態を反転し、カーソル位
置から外れている場合には何もしない。認識された単語
がアイコン名である場合は、そのアイコン名に対応する
アイコンの表示状態を反転する。このようにして、表示
画面上のカーソル、アイコンを選択し、対応する操作や
コマンドを実行させる。図７は本発明による入力装置の
第２の実施例を説明する構成図であって、操作者の視点
解析手段と視線を認識するための瞬き動作検出手段を備
えた３次元表示ヘッドマウントディスプレイ装置の概略
構造説明図であって、１００は左目用液晶ディスプレイ
、１０１は右目用液晶ディスプレイ、１０２は赤外線発
光ダイオード（赤外ＬＥＤ）、１０３は光位置検出素子
（例えば、浜松ホトニクス社製のＰＳＤ）、１０４は集
光レンズである。操作者は、このディスプレイ装置を眼
鏡の要領で顔面に装着し、液晶ディスプレィ１００，１
０１により３次元的に表示されるカーソルやアイコンな
どの表象からなる情報群のうちの特定の表象を注視する
。赤外ＬＥＤ１０２から発射される赤外光は、常に操作
者の眼球（ここでは右目）に投射されている。そのスポ
ット光は角膜で反射し、集光レンズ１０４を経て光位置
検出素子１０３に集光される。角膜の曲率は眼球全体よ
り小さく、その曲率の中心点も眼球の回転中心とずれて
いるので、反射光角度は眼球の回転によって変化する。従って光位置検出素子１０３上での眼球反射光の入力位
置を求めることにより、間接的に眼球回転角を検出する
ことができる。図８は図７に示したヘッドマウントディ
スプレイ装置の入力処理を説明するデータフロー図であ
って、８１はＰＳＤからなる空間位置検出素子、８２は
差分回路、８３は眼球角度−画面位置変換回路（画面座
標変換回路）、８４は瞬き検出回路、８５は制御回路（
マイクロプロセッサ）、８６は液晶ディスプレイ、８７
は表示情報メモリである。以下、図７に示した装置の動
作を図８を参照して説明する。［視線検知］まず、眼球からの反射光を受光する空間位
置検出素子８１の出力は所定の周期でサンプリングされ
、時間軸上における前後の座標値を差分回路で差分演算
し、その差分値を得る。この差分値は変換回路によって
非線的な座標変換をほどこされ、液晶ディスプレィ１０
１上における注視点の空間的位置を示す値が検出される
。この非線形変換は、眼球の形状やディスプレィと視点
との位置関係により定まるものである。そして、この変
換関数は、使用前にあらかじめ学習することによって取
り込まれ、変換テーブル上に保持される。この学習は、
液晶ディスプレィ上の数か所を指定して操作者に凝視さ
せることで、その位置と眼球角度との関数関係を得る。この関数関係は、装置使用中にも定期的に校正すること
で高精度な位置特定性能を保証できる。この校正処理は
、ある情報の表象選択が発生したときに、その瞬間にお
ける表象の配置位置と眼球角度とのデータ対によって行
う。そのため、わざわざ別個の校正処理プログラムを動
かす必要がなく、校正作業による作業効率の低下を来す
ことはない。なお、この学習は、前記第１の実施例にお
いても同様である。［まばたき検知］空間位置検出素子８１の出力値は、オ
ペレータの視線検出と併せて、瞬きの検出にも用いられ
る。すなわち、空間位置検出素子８１からの（差分前の
）生出力は、該素子上での光量分布を反映しているので
、瞬き検出回路８４は単位時間毎に上記空間位置検出素
子８１の出力を積分し、それらの単位時間積分値が閾値
以下になったときに、瞬きが発生したと見做す。この瞬
きの発生が検出されたという情報はただちに制御回路８
５へ送られる。［制御回路］制御回路８５は、マイクロプロセサ上にソ
フトウェアとして実現される。図９は制御回路による液
晶ディスプレイ上の表象の表示処理過程を説明するフロ
ーチヤートである。図８の差分回路８２からの注視点位
置データは、常にポーリングおよびデータ照合ステップ
８１で取り込まれて表示データメモリ８２上の表象位置
データと照合される。この照合結果のデータ状態につい
て、注視位置に表象が配置されている場合には、液晶デ
ィスプレィ上での表象表示をグレー反転させる（８４）
。これは、オペレータがその表象を注視していることを
示しているだけの表示である。瞬き検出回路から瞬き発
生の信号がきた際に、このグレー反転表象が存在する場
合には、この表象を完全に反転させる（ステップ８６）
。この表示は、その表象がシステムにおいて選択された
旨を示すものである。すなわち、表象がいわゆるメニュ
ー形式のものであれば、選択された項目が選ばれ、該当
するアプリケーションのプログラムが実行されたことを
示す（ステップ８７）。ただし、具体的な表象システム
の設計については千差万別なものが可能であるので、こ
こでは特定なものを例示したにすぎない。一方、瞬き発
生の信号がきた際にグレー反転表象が存在しない場合に
は、選択状態の対象すなわち白黒反転表象をすべてクリ
アし、反転解除する（ステップ８５）。これらの処理が
なされた後は、再び注視点位置データと瞬き検出信号の
ポーリングおよびデータ照合のステップ（ステツプ８１
）にもどる。このように、頭部に固定した３次元映像表
示手段（図７に示したヘッドマウントディスプレイ）に
、操作者の操作対象となる情報群に対応した表象群を空
間的に布置する。視線検出手段は操作者の眼球運動角度
により注視している表象を特定する。このとき、映像表
示手段は操作者の身体運動に拘わらず操作者の眼球との
相対的位置関係を不変に保っているので、長時間の使用
においても注視位置がずれることがない。さらに、位置
指定の精度を保持するために表示装置との間で頻繁なレ
ジストーションを実施したり、注視点カーソルを表示し
て操作者に制御させたり、頭部の動きを固定したりする
必要がまったくない。このことは、作業効率の向上と操
作者の心理・整理的負担軽減をもたらす。［対象選択意志発生の告知］頭部に固定した映像表示手
段は、通常の視認活動を妨げるのでキーボードその他の
スイッチ類を用いて情報選択意志を入力することは困難
である。そこで、操作者の意図的な瞬き，すなわち通常
の生理的なまばたき動作よりも長時間にわたる随意的な
瞬き行為により情報選択意志を検出し、円滑な作業を実
現させる。

【発明の効果】以上説明したように、本発明によれば、
視点解析手段と発話認識装置、および操作者の頭部の動
きあるいは瞬きの検出を行う動作解析装置とを組み合わ
せて入力装置を構成することにより、注視対象の特定が
時間的タイミングにおいて、操作者の選択意図発生を正
確に反映し、また、映像表示上で操作者が真に意図する
対象物に対して選択がおこなわれ、付近の対象物が誤っ
て選択される割合を減少できる。また、上記視点解析手
段，発話認識手段、および操作者の動作解析手段の二以
上の手段を組合せた入力装置に、音声合成による音声出
力手段を操作コマンド推定の補助情報として用いること
により、表象認識をより確実に行うことができる。

【図面の簡単な説明】

【図１】　　本発明による入力装置の基本構成を説明す
るブロツク図である。

【図２】　　本発明による入力装置の第１の実施例を説
明するブロック図である。

【図３】　　本発明に用いる視点解析装置の概略構成の
説明図である。

【図４】　　操作推定回路の処理を説明するデータフロ
ー図である。

【図５】　　発話受理に伴うインタプリタの状態遷移図
である。

【図６】　　音声認識による発話音声データとアイカメ
ラによる視点解析データを用いたコマンド選択実行の処
理におけるデータフロー図である。

【図７】　　本発明による入力装置の第１の実施例を説
明するブロック図であって、操作者の視点解析手段と視
線を認識するための瞬き動作検出手段を備えた３次元表
示ヘッドマウントディスプレイ装置の概略構造説明図で
ある。

【図８】　　図７に示したヘッドマウントディスプレイ
装置の入力処理を説明するデータフロー図である。

【図９】　　制御回路による液晶ディスプレイ上の表象
の表示処理過程を説明するフローチヤートである。

【符号の説明】

１・・・・映像表示手段、２・・・・視点解析手段、３
・・・・音声認識手段、４・・・・指示内容推論手段、
５・・・・指示操作実行手段、６・・・・動作解析手段
、７・・・・音声合成出力手段。

Claims

【特許請求の範囲】

【請求項１】　　操作対象となる情報群を視覚的に表示
するための映像表示手段と、前記映像表示手段における
情報操作者の注視位置を推定する視点解析手段と、前記
情報操作者の発話を認識する音声認識手段と、前記視点
解析手段の解析により推定した情報操作者の注視位置と
、前記音声認識手段により認識した発話内容に基づいて
、情報操作者の指示内容を判断する指示内容推論手段と
、前記指示内容推論手段により判断された情報操作者の
指示内容の操作を実行する指示操作実行手段と、を備え
たことを特徴とする入力装置。
【請求項２】　　操作対象となる情報群を視覚的に表示
するための映像表示手段と、前記映像表示手段における
情報操作者の注視位置を推定する視点解析手段と、前記
情報操作者の発話を認識する音声認識手段と、前記情報
操作者の意図的動作を認識する動作解析手段と、前記視
点解析手段の解析により推定した情報操作者の注視位置
と、前記音声認識手段により認識した発話内容、および
前記動作認識手段により認識した意図的動作に基づいて
、情報操作者の指示内容を判断する指示内容推論手段と
、前記指示内容推論手段により判断された情報操作者の
指示内容の操作を実行する指示操作実行手段と、を備え
たことを特徴とする入力装置。