JP2005100366A

JP2005100366A - 眼球運動を用いた視線入力コミュニケーション方法

Info

Publication number: JP2005100366A
Application number: JP2004236083A
Authority: JP
Inventors: Mikiya Tanaka; 幹也田中; Yoshiki Mizukami; 嘉樹水上; Yuji Wakasa; 裕治若佐
Original assignee: Yamaguchi University NUC
Current assignee: Yamaguchi University NUC
Priority date: 2003-08-18
Filing date: 2004-08-13
Publication date: 2005-04-14
Anticipated expiration: 2024-08-13
Also published as: JP3673834B2

Abstract

【課題】本発明は、眼球運動を用いた視線入力コミュニケーションシステムの開発を課題として、ビデオカメラを用いて患者の顔画像を取得し、画像処理により非接触的に患者の視線方向検出を行うことにより、表示画面上の意図する項目を選択するとともに、眼球運動と瞼の開閉動作による眼球機能のみで入力し、スイッチング操作で仮想ボードによる操作により、在宅勤務を行うようにした眼球運動を用いた視線入力コミュニケーションシステムの構築を目的とする。
【解決手段】被験者の顔全体をとらえた画像より被験者に目の開閉をさせて差画像を取得し、次いで目と眉のテンプレートを登録し、キャリブレーション時に得たデータと入力画像により得られたデータを比較して視線方向を検出するようにした。
【選択図】図５

Description

本発明は、重度の筋萎縮性側策硬化症患者（以下、ＡＬＳという）等と介護者、家族等とのコミュニケーションを支援する、眼球運動を用いた視線入力コミュニケーションシステムに関する。

ビデオカメラより取り込んだ画像から、視線方向を推定する研究は歴史が長く、従来の研究には近赤外線を用いる手法や、蛍光灯を瞳孔内に映し出すことにより、視線方向を検出する手法等がある。

まず、ＡＬＳ患者等が意思伝達装置を使用している際、顔が動くことによって、眼球の注視位置が検出できない状況をなくし、意思伝達装置が誤操作しないようにすると共に、制御装置の小型化と経済性の優れたものとする特許が公開されている（例えば、特許文献１）。該装置は、視線を利用して意思伝達装置を使用する際には誤操作せず、容易且つ正確に制御できる装置とした。また、該装置は小型で経済性の優れたものとした。具体的には、被験者の顔をデータとして読み込む際に使用する方法を赤外線からＣＣＤカメラとした。また、顔の画像データ量（眼球の位置だけではなく顔の位置、向き、視線方向などとした）を増やした。更に、予めモニターを分割化して被験者がどの部分を見ていたか認識させ画像としてデータ化（辞書）し、実際に使用時には被験者がどのキーを見ているかを辞書から画像データを選定させることで誤操作をなくし、小型化を実現し、経済性の優れたものとする。意思伝達装置を容易且つ正確に、視線による指示入力し制御する具体的な手順は以下の通りである。予め意思伝達装置のモニターを分割化し、被験者に分割箇所の一つ一つの箇所を見てもらい、その都度ＣＣＤカメラによって被験者の画像（顔の位置、向き、視線方向）を読み込み認識させデータ化（辞書）しておく。意思伝達装置の使用時には、ＣＣＤカメラによって使用者の画像データを読み取り、実際に被験者が操作する上で前記モニター上のキーを見た画像と予め画像データ化しておいた辞書とを比較して辞書の中から類似した画像データを選出し、選出した画像データと対応した箇所に録音されている会話の発声と操作手順を実行する。ところが、特許文献１に記載のものは、本発明のようにＡＬＳ患者等が眼球機能のみで操作が簡単で汎用的なＰＣソフトが利用できないといった問題がある。

次に、ビデオカメラより取り込んだ画像から、視線方向を検出する従来の技術について説明する。表示画面上に取り付けた２台の小型カメラで取り込んで操作者の顔面の映像から、画像処理装置によりいくつか決定する。視線方向算出装置は、事前に決められている。表示画面上の基準点を見ている時いくつかの点を初期値として記憶する。また、画像処理装置により決定された点と初期値として記憶している点から顔面と眼球の方向を決定し、これらに基づいて視線の方向を算出する。算出された視線方向は演算処理装置に与えられる。また、操作者までの距離が決定され、結果が演算処理装置に与えられる。演算処理装置は、操作者が事前に決められた距離よりも近くにいる場合にかぎり、表示画面上にカーソルを出力する。しかも、視線の方向に応じてカーソルを移動させるようになっている（例えば、特許文献２）。ところが、特許文献２に記載のものは、本発明のようにＡＬＳ患者等が眼球機能のみで操作が簡単で汎用的なＰＣソフトが利用できないといった問題がある。

また、ユーザのジェスチャ、音声、操作、視線、瞬きの少なくとも一つの情報に基づき、視線検出の機能を中断、再開することで、ユーザの意思に従ってカーソルを制御するようにしたものであり、利用者の視線方向を検出する視線検出手段と、検出した視線位置にカーソルを移動させるかさせないかのカーソル追従モードを管理するカーソル管理手段と、検出された視線位置にカーソルを移動させるカーソル制御部とを備えたものがある（例えば、特許文献３）。ところが、特許文献３に記載のものは特許文献２と同様に、本発明のようにＡＬＳ患者等が眼球機能のみで操作が簡単で汎用的なＰＣソフトが利用できないといった問題がある。

T.N.Cornsweetらは、近赤外線を目に照射することによって作られる、第１〜第４
Purkinje像の中で、第１ Purkinje像（角膜表面の反射像）と第４ Purkinje像（水晶体裏面の反射像）が頭部の動きの影響を相殺することに着目し、頭部をあご台とヘッドレストで簡単に固定するだけで高精度な視線検出を可能にした（非特許文献１）。しかし、第１Purkinje像に比べて１／５００倍程度の第４Purkinje像からの信号を分離し検出するための光学系が、複雑かつ大掛かりになるという問題がある。

飯田と伴野は、角膜強膜反射法を利用したアイカメラと３次元磁気センサの併用により、使用者の頭の動きによらずに、表示画面上の注視点を検出する手法について提案している（非特許文献２）。ところが、アイカメラは角膜（黒目）と強膜（白目）の光の反射率の違いを利用したＬＢＭ方式のアイカメラを用いており、頭部に装着する必要がある。精度評価を行った結果は、検出された注視点と指標の間の平均誤差として０.８９ deg.であった。また、視線とマウスを併用することにより、マウス単体による指示入力に比べて、指標の移動距離が大きい場合には有利であることが確認されている。しかし、単一色の背景中に指標やカーソルを表示するという、特殊なケースで実験した等の問題が残る。そこで、実際のワークステーションで表示画面を指示する場合にできるだけ近い指示入力実験を行い、有効性を実用に合った方法で確認している（非特許文献３）。

伴野は、近赤外線を眼に照射した時に反射し瞳孔から出る光をカメラでとらえるには、照明装置の配置条件に大きく依存してしまうことに着目し、配置条件の異なる２種類の照明を用いて、瞳孔を抽出する方法を提案している（非特許文献４）。眼球を二つの球が重なったモデルで近似し、レイトレーシングにより、瞳孔全体が同様な明るさで撮影される照明配置条件と、瞳孔が暗く撮影される照明配置条件を求めた。この２つの配置条件の下で、瞳孔が明るい画像と暗い画像を同一カメラで撮影し、これらの差分をとることで瞳孔を抽出している。

伴野と岸野は、ステレオ画像計測により顔の３点と瞳孔の空間位置を求め、特徴点の位置情報より、眼球中心を計測し、視線検出を行っている（非特許文献５）。縁に三つのマークをつけた、レンズのない眼鏡を装着することにより、顔上に動きの少ない三つの特徴点を作り出す。２台のカメラシステムは、各々四つの特徴点を撮影画面いっぱいにとらえることで、特徴点の相対的な３次元位置を０.１〜０.１５ｍｍ程度の精度で検出できる。

向井らは、濃淡画像を用いて特徴パターン抽出による視線方向検出を行っている（非特許文献６）。照明には一般的な蛍光灯を用いており、赤外線光などの特殊照明灯は使用していないのが特徴である。１００インチ表示画面内を３×３に分割し、９方向の視線識別を行っている。入力画像には、顔の鼻より上が用いられており、ソーベルフィルタを用いて、目の位置を検出する。得られた目の位置情報より、目周辺画像を抜き出す。肌の色がノイズとなり黒目の位置を得ることが難しいので、肌の色に近い色彩を除去し、濃淡化することにより特徴パターンを抽出している。標準パターンとのマッチングにより、視線方向を識別する。標準パターンは学習用画像データより作成され、両目それぞれに対して水平・垂直各３パターンが用意されている。実験の結果、９方向識別において、正解率が７１.４％であった。表示画面が１００インチという大きさを考慮すると、実用的ではないと考えられる。

青山らは、眼球の回転角度に顔方向を加算することにより視線方向を求めている（非特許文献７）。心理実験を行い、視線方向の推定には、両目と口の情報から推定できることを確認している。入力画像は胸上の上半身全体であり、エッジ、モザイクパターンを用いて、入力画像より顔画像領域を抽出する。両目と口の抽出には、テンプレートマッチングを用いる。あらかじめ、本人の正面画像より切り出した両目、口の画像を用いてマッチングを行い、各々候補領域を１０個ずつ決定する。得られた候補領域より、両目、口として適切な距離にある組み合わせを選択する。目頭・顔の両端も検出し、顔の方向を推定する。テクスチャマッピング画像を用いることにより、投影像と入力画像を比較することにより方向の補正を行っている。評価実験結果は、まず特徴抽出に成功したのが１２６枚中１１３枚、８９.７％であった。左右方向の平均誤差は円筒モデルで１２.９度、平面モデルで１０.２度であった。上下方向に関しては、今後の課題となっている。

堀場らは、目周辺領域を拡大した画像を２値化することによって、眉毛端点、虹彩中心を抽出し、２点間の相対距離の変位によって視線方向を推定している（非特許文献８）。基準点を顔画像上に設けることにより、頭部の動きを許容するとあるが、目周辺画像が拡大されており、頭部が揺らぐとカメラ画像内から目、眉がはみ出してしまうことが十分に考えられる。

西内らは、マーカーを必要とせずに顔の特徴点の抽出を行うことによって顔の向きを検出し、黒目中心の位置を加算することにより視線検出を行っている（非特許文献９）。２値化によって白と黒のみに変換された顔画像より、両目頭と二つの鼻の穴の最も近接する位置の中点を、鼻の特徴点として抽出する。各個人の顔の特徴点間の距離は、あらかじめ測定されており、この距離より三次元空間における座標を計算し顔の向きを推定する。なお、赤外線を用いない代わりに、蛍光灯をＣＲＴの下部に置き、それ以外の照明は無いものとしている。黒目中心は、虹彩領域内に映し出された蛍光灯の光の反射と、黒目の端点より求められる。

竹上、後藤は、角膜反射像と虹彩領域の相対関係に基づき、視線方向を推定している（非特許文献１０）。視線方向の変化に伴って、角膜における光源の反射像の位置が虹彩領域内で相対的に変化することに着目している。また、角膜反射像と虹彩領域のエッジ部分を特徴点として利用することにより、頭部の固定や指標等を装着することなく、単一カメラで比較的高精度な計測を可能としている。光源によって、安定的に角膜反射像が作り出せるのか問題は残るが、固視微動とほぼ対応する精度（±０.５〜０.９ deg.）で検出できることを実験により確認している。

特開２００１−３５０５７８号公報特開平５−２９８０１５号公報特開２００１−１００９０３号公報

T.N. Cornsweet and H.D. Crane,"Accurate two-dimensional eye tracker using first and fourth Purkinje images,"JournalOpt.Soc.Am.,vol.62,No.8,pp.921-928,1973. 飯田,伴野,"頭部の動きを許容した注視点検出装置と指示入力への応用,"電子情報通信学会論文誌,D-II,No.4,pp.520-527,1991. 伴野,鉄谷,岸野,"視線とマウスを併用する指示入力法の評価,"電子情報通信学会論文誌,D-II,No.6,pp.867-875,1993. 伴野,"視線検出のための瞳孔撮影光学系の設計法,"電子情報通信学会論文誌,D-II,No.6,1991. 伴野,岸野,"顔と瞳孔の3次元位置計測に基づく注視点検出アルゴリズム,"電子情報通信学会論文誌,D-II,No.5,pp.861-872,1992. 向井,三谷,外川,"画像処理による視線方向検出手法,"第２回画像センシングシンポジウム講演論文集,pp.135-138,1996. 青山,山村,"一台のカメラによる顔と視線方向の推定,"電子情報通信学会技術報告書,PRU.95-233,pp.131-136,1996. 堀場,李,井上,"画像処理による視線検出手法とその応用,"第40回システム制御情報学会研究発表講演会,pp.187-188,1996. 西内,柴田,高田,"画像処理による非接触視線検出法の研究,"日本機械学会論文集（C編）,64巻620号,pp121-127,1998. 竹上,後藤,"角膜反射像と虹彩輪郭情報を併用した視線検出法,"電子情報通信学会論文誌,D-Ｉ,vol.J82,pp.1295-1303,1999.

本発明は、眼球運動を用いた視線入力コミュニケーションシステムの開発を課題として、ビデオカメラを用いて患者の顔画像を取得し、画像処理により非接触的に患者の視線方向検出を行うことにより、表示画面上の意図する項目を選択するとともに、眼球運動と瞼の開閉動作による眼球機能のみで入力し、スイッチング操作で仮想ボードによる操作により、在宅勤務を行うようにした眼球運動を用いた視線入力コミュニケーションシステムの構築を目的とする。

上記目的を達成するために、第１の発明では、被験者の顔全体をとらえた画像より被験者に目の開閉をさせて差画像を取得し、次いで目と眉のテンプレートを登録し、キャリブレーション時に得たデータと入力画像により得られたデータを比較して視線方向を検出するようにした。第１の発明を主体とする第２の発明では、該目の位置の検出後、ビデオカメラのズームイン機能により目周辺を大きくとらえた画像を取得するようにした。

第１乃至第２の発明を主体とする第３の発明では、該キャリブレーションを行う時、方向別に画像を登録しておき、黒目の位置を画像処理手法により求め、視線方向検出のための各方向別の黒目と眉の相対距離を求めておくようにした。また、第１乃至第３の発明を主体とする第４の発明では、複数で該システムを使用する場合は、テンプレートマッチングを用いた個人認証を行い、該個人ごとに必要な設定を選択するようにした。さらに、第１乃至第４の発明を主体とする第５の発明では、顔画像をビデオカメラで取得した後、該画像より目の位置を検出して画像処理を行い非接触に視線方向検出を行うようにした。

第１乃至第５の発明を主体とする第６の発明では、該顔画像認識を行う際、テンプレート画像内に取り込む領域が、「目＋眉」、「目＋眉＋鼻」、「目＋眉＋鼻＋口」、「目＋眉＋鼻＋口＋頬輪郭」の４つのパターンの中から少なくとも一つを使用してマッチングを行うようにした。また、第１乃至第６の発明を主体とする第７の発明では、該顔画像認識においてテンプレート画像内に取り込む領域を、「目＋眉」または「目＋眉＋鼻」の中から少なくとも一つを選択するようにした。さらに、第１乃至第７の発明を主体とする第８の発明では、該個人認証が目の開閉によって登録されている暗証番号により行われるようにした。第１乃至第８の発明を主体とする第９の発明では、該個人認証の暗証番号が「右、左、左、右」といった片目の開閉順に入力するようにした。

第１０の発明では、被験者の顔全体をとらえた画像より被験者に目の開閉をさせて差画像を取得し、次いで目と眉のテンプレートを登録し、キャリブレーション時に得たデータと入力画像により得られたデータを比較して視線方向を検出するようにした被験者の顔全体をとらえた画像より被験者に目の開閉させ、差画像により目の位置を検出後、目周辺の画像を取得し、次いで目と眉のテンプレートを登録し、キャリブレーションの後、入力される毎画像に対して予め決められた手法により視線方向検出を実施し、キャリブレーション時に得たデータと入力画像により得られたデータを比較して視線方向を検出後、表示画面上の視線ポインタを眼球と瞼の開閉運動のみで操作しながら入力信号をコマンド送信し、次いでアプリケーションまたは仮想キーボードを使用するか、あるいは前記両方を併用しながら使用するようにした。

第１０の発明を主体とする第１１の発明では、該視線ポインタが移動を行わない視線の先にある該表示画面中央領域近傍に表示させ、該表示画面で該視線ポインタの現在位置と起動させたいアプリケーションの位置を確認するようにした。第１０乃至１１の発明を主体とする第１２の発明では、起動させたい該視線ポインタ近傍の領域を該視線ポインタの移動が行われない該表示画面中央まで該アプリケーションを移動させて選択するようにした。また、第１１乃至１２の発明を主体とする第１３の発明では、該表示画面中央に起動させたい該アプリケーションを選択するための選択決定領域を設け、その領域内に該アプリケーションを移動させるようにした。

第１０の発明を主体とする第１４の発明では、起動させたい該アプリケーションを含む区画された該表示画面を２秒以上注視することにより、注視していた該区画内の領域が拡大されるようにした。また、第１４の発明を主体とする第１５の発明では、起動させたい該アプリケーション近傍領域のみを抽出した後、該表示画面全体に拡大表示させ、該表示画面の高速スクロールによって起動させたい該アプリケーションを該表示画面中央付近まで移動した後、意識的な瞬きを行うことにより、該視線ポインタが該表示画面中央に表示されるようにした。第１４乃至１５を主体とする第１６の発明では、該視線ポインタを起動させたい該アプリケーション上まで移動させ、瞼を３秒以上５秒未満意識的に閉じることにより、目的とする該アプリケーションが選択され起動するようにし、拡大前の該表示画面に戻る場合は瞼を５秒以上意識的に閉じるようにした。さらに、第１０乃至１６を主体とする第１７の発明では、該被験者が同一方向に少なくとも３秒間以上視線を向けると該視線ポインタの移動速度が高速化するようにした。

第１０乃至１７を主体とする第１８の発明では、該表示画面上の記載事項を選択する場合を、瞼閉状態１．５秒以上で３秒未満としてクリックするようにした。また、第１０乃至１８を主体とする第１９の発明では、該表示画面上の記載事項を決定する場合を、瞼閉状態３秒以上としてダブルクリックするようにした。

本発明の眼球運動を用いた視線入力コミュニケーションシステムの開発により、ビデオカメラを用いて患者の顔画像を取得し、画像処理により非接触的に患者の視線方向検出を行うことにより、表示画面上の意図する項目を選択することができるコミュニケーションシステムが構築できた。さらに、眼球機能のみで入力し、汎用のＰＣソフトを使用してスイッチングで仮想ボードによる操作が可能になるとともに、ＡＬＳ患者などの在宅勤務が可能となる。

次に、本発明に係る眼球運動を用いた視線入力コミュニケーションシステムの実施形態について、実施例１については、図１〜図２１を参照しながら詳細に説明する。

図１は本発明に係る眼球運動を用いた視線入力コミュニケーションシステムのハードウェア構成図、図２は視線入力式コミュニケーションシステムの概要図、図３はコミュニケーションスクリーン（初期画面）の一例として、９分割画面を示す正面図、図４は図３のコミュニケーションスクリーンにおいて「テレビ」が選ばれた場合のコミュニケーションスクリーンの一例を図４（a）に示し、さらに図４（a）の画面で「チャンネルを変えて」を選択した場合のコミュニケーションスクリーンの一例（図４（b））を示した図、図５はシステムの処理手順を示すフロー図、図６は個人識別手順を示すフロー図、図７は入力画像における(a)は顔全体を示し(b)は目周辺領域を示す拡大図、図８は差画像を示す図、図９は目の位置検出を示す図、図１０はサイズ別テンプレート画像を示す図、図１１は画像サイズ別テンプレートマッチングを示す図、図１２は登録されたテンプレート画像の例を示す図、図１３はマッチング結果を示す図、図１４は方向別画像相関法（method I）における９方向別テンプレート画像の一例を示す図、図１５は黒画素領域検出法（method II）における高速テンプレートマッチングによる黒目追従の一例を示す図、図１６はエッジ特徴点検出法（method III）における前処理の一例を示す図、図１７はエッジ特徴点検出法（method III）におけるソーベル・フィルタによるエッジ検出の一例を示す図、図１８はエッジ特徴点検出法（method III）における接点４点の検出の一例を示す図、図１９は被験者に対する視線方向検出実験における実験画面を示す図、図２０は被験者に対する視線方向検出実験における９方向視線検出結果の一例を示す図、図２１は被験者に対する視線方向検出実験における１２方向視線検出結果の一例を示す図である。

さらに、図２２は視線方向の取得から仮想キーワードの使用またはアプリケーションの使用までのフロー図、図２３は視線ポインタ付近の画面領域が拡大されて画面中央に表示された画面図、図２４はポインタを起動させたいアプリケーション近傍まで移動させる画面図、図２５は表示画面中央のウインドウで位置確認を行い視線ポインタをアプリケーション上に移動した画面図、図２６は瞼を意識的に３秒以上閉じると選択したアプリケーションが移動する画面図、図２７は表示画面中央に起動させたいアプリケーションを選択するための選択決定領域を表示する画面図、図２８は起動させたいアプリケーションに視線を向けると、そのアプリケーションがモニタ中央付近に位置するように表示画面をスクロールする画面図、図２９はモニタ中央に常に選択決定領域が固定表示されており、起動させたいアプリケーションを選択決定領域内に移動するための画面図、図３０は瞼を意識的に３秒以上閉じると領域内のアプリケーションが起動するための画面図、図３１は初期画面、図３２はアプリケーションを含む区画を注視し選択するための画面図、図３３は選択された区画領域拡大した画面図、図３４はアプリケーションを向け表示画面をスクロールするための画面図、図３５は意識的な瞬きを行いポインタ表示する画面図、図３６はポインタをアプリケーション上に移動させ起動するための画面図、図３７は視線ポインタ近傍領域拡大法による測定結果図（１〜５回目の平均測定値）、図３８は画面スクロール法による測定結果図（１〜５回目の平均測定値）、図３９は分割領域拡大法による測定図（１〜５回目の平均測定値）、図４０はポインタ近傍領域拡大法による測定結果図（６〜１０回目の平均測定値）、図４１は画面スクロール法による測定結果図（６〜１０回目の平均測定値）、図４２は分割領域拡大法による測定図（６〜１０回目の平均測定値）である。
である。

まず、ＡＬＳ（Amyotrophic Lateral Sclerosis：筋萎縮性側策硬化症）は、国の特定疾患に指定される進行性神経疾患である。１０万人に５人程度の有病率で、そのうち９０％は中年期以降に発症している。男女比または性別比は、１:１.５でやや男性に多い。国内の患者は、４５００人程度である。１８７４年、フランスのシャルコー医師によって最初に定義付けされて以来、現在に至っても、治療法も、進行をおさえる医学的対処法も無いと言われている。症状が進行するに伴い運動神経が侵され、四肢筋、嚥下筋、呼吸筋の筋力低下と萎縮が進み、通常発症から４〜５年で完全な四肢麻痺となって、手足のみならず、身体全体の筋肉が麻痺し、言葉を発することもできなくなる。最終的には呼吸する筋肉も犯され、人工呼吸器がなければ生存できない状態になる。しかし、知能、感覚、眼球運動は正常であり、知的な創作活動は可能である。アメリカではメジャーリーグ野球選手のルー・ゲーリックが罹患したことからゲーリック病とも呼ばれており、また、イギリスの有名な宇宙物理学者ホーキング博士も３０年来の患者である。

ＡＬＳ患者２０は、手足の麻痺のため介護が必要となるが、病状の進行に伴い言葉が話せなくなってしまうと、医療従事者や介護者、家族とのコミュニケーションを図ることも困難になってくる。それゆえ、ＡＬＳ患者２０とのコミュニケーションが円滑にとれず、介護量が多くなり入院を断る医療機関もある。このため患者のＱＯＬ（Ｑｕａｌｉｔｙ・ｏｆ・Ｌｉｆｅ）を向上させるためのコミュニケーション機器の開発が望まれている。意思や情報の伝達に障害をもった人々が、残存機能を活用して、より円滑にコミュニケーションがおこなえるよう支援する器具や機器を総称してコミュニケーションエイドという。肢体不自由者が利用するコミュニケーションエイドの種類は、文字盤のような簡単な道具から、種々の工学技術を応用したハイテク機器まで広範囲に及ぶ。

本発明では、このようなＡＬＳ患者が、眼球運動を用いた視線入力コミュニケーションシステムの開発を目指した。ビデオカメラを用いて患者の顔画像を取得し、画像処理を用いて非接触に患者の視線方向検出を行う。検出された視線方向を用いて、患者がディスプレイ内のどの位置を見ているか識別し、それによって意図する項目を選択することができる視線入力コミュニケーションシステムの構築を目的とした。

図１は本発明に係る眼球運動を用いた視線入力コミュニケーションシステムのハードウェア構成図である。図１において、パソコン（以下、ＰＣと呼び、表示画面１１と演算処理装置１８の両方の機能を含む）の表示画面１１の上部に取り付けられたビデオカメラ１２で取り込んだＡＬＳ患者（使用者または被験者）２０の顔面の映像から、演算処理装置１８によりＡＬＳ患者２０の目の位置を決定する。視線方向の算出は、事前に決められているＰＣ上の基準点を見ている時のいくつかの点を初期値として記憶する。また、演算処理装置１８により決定された目の位置と初期値として記憶している目の位置から眼球の方向を決定し、これらに基づいて視線の方向を算出する。算出された視線方向は演算処理装置１８に与えられる。画像取り込み装置１４を経由して得られた小型のビデオカメラ１２の画像から、患者の頭の位置ずれが検出された場合には、演算処理装置１８は頭のずれを補正するためにビデオカメラ１２の上下左右の補正値を、カメラ制御装置１６に送り、その補正値分の移動をビデオカメラ１２に与える。演算処理装置１８は、視線方向に対応した方向に、ＰＣ上に表示されているカーソルを移動する。しかも、意識的に瞬きまたは注視をすることで、通常のＰＣ用のマウスを使ってクリックするのと同じ機能を、目でクリックしてコマンドを送信することが可能である。また、画像取り込み装置１４によって得られた計算結果より、ＡＬＳ患者２０の見ている領域を推定し、その領域の色を変更し表示（出力）することができる。室内の照明条件は通常の蛍光灯による明るさのみで十分であり、赤外線や特別な照明などを設置する必要はない。

図２は視線入力式コミュニケーションシステムの説明図であり、本システムは、主として一台のＰＣとビデオカメラ１２により構成される、非接触型コミュニケーションシステムである。ＡＬＳ患者２０等を対象としたシステムであり、ベッド上で使用されることが想定されている。ＰＣ、ビデオカメラ１２共に市販の製品を用いており、比較的安価なシステムを実現している。ＡＬＳ患者２０等は、ＰＣの表示画面１１上の区画された領域を目で注視することにより、意図する項目を選択することができる（図２参照）。表示画面１１は、設置が容易である液晶ディスプレイを用いると良い。また、システムの使用開始時にキャリブレーションを行う必要がある。キャリブレーションでは、表示画面１１の区画を順次点滅（他と異なる色に変更）させて行き、ＡＬＳ患者２０にそれを目で追ってもらう。その時の眼球の位置などを記録し、方向決定用の基準としている。

図３はコミュニケーションスクリーン（初期画面）の一例として、９分割画面を示す正面図である。本発明は、特に重度のＡＬＳ患者２０も対象としているコミュニケーションシステムである。表示画面１１上は、図３のように９分割、または１２分割されており、各分割された領域には、ＡＬＳ患者２０にとって重要とされる表現が提示されている。この画面を、以下コミュニケーションスクリーンと呼ぶ。この提示されている意思項目は、ＡＬＳ患者２０の家族や病院に対して行ったアンケート結果を参考にして、決定されている。ＡＬＳ患者２０は、意図する項目を目で注視し選択することになる。２秒以上の注視が行われた時点で、ＰＣは注視であると認識し、その項目の選択を行う。選択された項目は、あらかじめ登録しておいた音声で読み上げるようにしてある。９分割や１２分割では、患者にとって必要とされる全ての表現を提示することはできないが、項目の下に予備項目を用意することで、より多くの表現の提示が可能となる。使用頻度が高いと考えられる、「はい」、「いいえ」は初期画面に表示されている。

図４は図３のコミュニケーションスクリーンにおいて「テレビ」が選ばれた場合のコミュニケーションスクリーンの一例を図４（a）に示し、さらに図４（a）の画面で「チャンネルを変えて」を選択した場合のコミュニケーションスクリーンの一例（図４（b））を示した図であり、例えば、初期画面で「テレビ」という項目を選んだとすると、次の画面には図４（ａ）のように、ＴＶに関する項目が表示される。なお、「戻る」と「メニューへ」の二つの項目に関しては、初期画面以外において常に表示されるようになっている。そして、ここで「チャンネルを変えて」を選択すると、図４（ｂ）が表示される。通常ＴＶのチャンネルは１２チャンネルまで用いることが多いので、「次へ」を選択すると７から１２までが表示される。患者が、この中から希望する番号（ここでは５）を選択すると“チャンネル５に変えてください。”と音声で読み上げるようになっている。

図５はシステムの処理手順を示すフロー図である。まず、顔全体をとらえた画像より、ＡＬＳ患者２０（または被験者）に目の開閉をしてもらい、差画像により目の位置を検出（１００）する。つぎに、複数のＡＬＳ患者２０が一つのシステムを共用する場合は、テンプレートマッチングを用いた個人認証（１０２）を行い、個人ごとに必要な設定を選択することができる。目の位置検出後、ビデオカメラ１２のズームイン（１０４）機能により、目周辺を大きくとらえた画像を取得する。次に、目と眉のテンプレートを登録（１０６）し、キャリブレーション（１０８）を行う。この時、方向別に画像を登録しておき、黒目の位置等を以後提案する画像処理手法により求め、視線方向検出のための各方向別の基準となる値（黒目と眉の相対距離）を求めておく。キャリブレーションの後、入力される画像に対して、提案手法により視線方向検出（１１０）を行う。キャリブレーション時に得たデータ（黒目位置等）と入力画像より得られたデータを比較することにより、視線方向は検出される。これにより、ＡＬＳ患者２０は画面表示１１内の意図する項目を目で見つめることにより、選択することが可能となる。ＡＬＳ患者２０の見ている領域は、色を変えて出力することにより確認できる。意図する項目を選択する時は、その項目の領域を２秒以上注視することにより可能となる。もし、選択された項目（１１２）の下に予備項目が存在する場合は、画面が切り替わり予備項目が表示される。最終的に選択された項目は、音声で項目の内容を読み上げる（１１４）ようにしてある。

以上に述べた画像処理手法を用いて、個人認証（１０２）を行う。個人認証（１０２）を行う目的としては、視線検出においては個人差があるため、各個人のデータを登録しておき、ＡＬＳ患者２０ごとに個人認証を行い瞬時に被験者２０のデータを取り出すことである。また、セキュリティーの分野においても、顔画像による個人認証（１０２）は、今後重要な役割を果たすと考えられる。

図６に、個人認証の手順を示した。被験者は、目の開閉が行えるものとする。まず、目の開閉を行い、差画像により目の位置検出（１２０）を行う。ここで、あらかじめ登録されているテンプレート画像によりマッチング（１２２）を行い、個人識別（１２４）する。各個人に対して、暗証番号が決められており、目の開閉で暗証番号（１２６）を入力する。ここで言う暗証番号とは、目の開閉の順番であり、例えば「右、左、左、右」のように交互に目の開閉を行う。暗証番号が正しく入力されれば、個人認識は完了（１２８）となる。

テンプレートマッチングを用いて顔画像認識を行う場合、画像内に含まれる領域が髪などを含むと、時間と共に変化しやすく、顔画像認識が困難となってくると考えられる。そこで、テンプレート画像内に含む領域を、「目＋眉」、「目＋眉＋鼻」、「目＋眉＋鼻＋口」、「目＋眉＋鼻＋口＋頬輪郭」の４つのパターン（図１０）を用意して、マッチングを行った。「目＋眉」および「目＋眉＋鼻領域」を含んだテンプレートマッチングにおいて、本人に対する相関値が、０.９９を超える高い値であることが確認された（図１１）。また、「目＋眉＋鼻＋口」、「目＋眉＋鼻＋口＋頬輪郭」を含んだテンプレートマッチングについては、相関値は最も本人が高くなっており有用ではあるが、残りの２つと比べて相関値が低かった。よって、「目＋眉」または「目＋眉＋鼻領域」を含んだテンプレートマッチングが最適と考えられる。

「目＋眉＋鼻領域」を含んだテンプレートを用いて、１０人の被験者２０に対して、一人につき１０枚のテンプレート画像（８０×６０）を用意し、テンプレート画像と各個人ごとの入力画像とのマッチングを行い、相関値より個人識別を行った結果、個人の識別が可能であることが判明した。テンプレートマッチングと、目の開閉による暗証番号の入力により、高い確率で個人の認証が可能であった。

本発明においては、ビデオカメラ１２より取り込んだ画像をＰＣ内で処理することにより、ＡＬＳ患者２０の視線方向の検出を行い、コミュニケーションシステムの操作に利用する。特に、重度のＡＬＳ患者２０を対象としたコミュニケーションシステムの構築を目標としており、ＡＬＳの症状により、ＡＬＳ患者２０の頭は大きくは動かないものと想定して視線方向検出を行うのが妥当である。また、病院内や自宅室内で使用することを目的としており、通常の蛍光灯等の照明条件下で適切に動作することも重要となってくる。本発明においては、照明条件は通常の室内の蛍光灯による明かりのみによって視線検出が行えることが望ましいと考え、赤外線の利用や特別に蛍光灯等の光源を増やすようなことはしなかった。照明条件を設定しない報告（非特許文献６）がされているが、検出精度の低さに問題が残る。

本発明の視線方向検出精度としては、ＰＣの表示画面１１内を数分割し、各領域を正しく選択できることを目的としている。これらの条件を実現するための視線方向検出手法として、テンプレートマッチングを用いた方向別画像相関法、黒画素領域検出法および虹彩領域のエッジに着目したエッジ特徴点検出法の３つの方法を検討した。眼球には、固視微動と呼ばれる細かい動きがあるため、一点を注視しているときでも、視線はその方向から０.３度程度ずれることが知られている（山田, 福田,“画像における注視点の定義と画像分析への応用,”電子通信学会論文誌,D-II,No.9,pp.1335-1342,1986.）。しかし、今回のシステムにおいて、指定された領域内の注視においては、０.３度のずれは視線方向検出に誤差を生むとは考えにくく、考慮しないことにした。視線方向検出手法は、方向別画像相関法（methodＩ）、黒画素領域検出法（methodII）およびエッジ特徴点検出法（methodIII）の３つの手法について検討した。

方向別画像相関法（methodＩ）の場合、キャリブレーション時に、目周辺画像を方向別にテンプレートとして登録しておいた（図１４）。目の位置は、ピラミッド構造を用いた高速テンプレートマッチングによって検出した。検出された目の位置に、登録しておいた方向別テンプレートを用いてマッチングを行い、最も高い相関を与える方向画像より視線方向を決定した。

黒画素領域検出法（methodII）においては、瞳孔を含む虹彩領域（以下、虹彩領域と略記）をテンプレート画像として登録し（６０×６０pixel）、目の位置を拡大した画像（入力画像）に対してテンプレートマッチングを行い、虹彩領域の位置を決定した（図１５）。

エッジ特徴点検出法（methodIII）においては、眼球内の虹彩領域（黒目）と白目領域及び瞼との輝度の変化に着目し、エッジ検出を用いて視線方向を検出した。エッジ検出を容易にするために、画像強調、メディアン・フィルタによる平滑化を行い、ソーベル・フィルタによりエッジの検出を行った。

頭部の位置補正を行うことによって、methodII,methodIIIにおいて検出精度が大幅に改善された（図２０および図２１）。MethodＩにおいては、マッチングの相関値により視線方向検出を行っているため、頭部位置補正は困難であるが、９，１２方向共に平均正答率は８０％を超えている。

重度のＡＬＳ患者２０は、手、口等が自由に動かせなくなり、第３者との間でコミュニケーション障害に陥る。ＡＬＳ患者２０の残存機能のひとつである、眼球運動を用いたコミュニケーション支援システムの構築が本発明の目的である。また本発明では、ＡＬＳ患者２０に対する負担が最も少ない、非接触型コミュニケーションシステムの開発を目的とした。市販のビデオカメラ１２とＰＣのみを用いることにより、安価なシステムの構築も目的である。

実施例１では、ビデオカメラ１２によりＡＬＳ患者２０の代わりに学生を被験者２０として顔画像を撮影し、ＰＣに取り込み種々の画像処理を行った。入力画像のサイズは、３２０×２４０pixelであり、２５６階調のＲＧＢ画像である（図７）。ビデオカメラ１２は、ズーム機能を有しており、取り込み画像の拡大率は自由に設定することができる。

目の位置検出の方法を、以下に示した。入力された画像内における目の位置は、瞼の開閉に着目し、連続画像間で輝度の変化の著しいところを求めることにより決定した。次に、記録された画像と過去に記録された画像を比較した。すなわち、各画素における値の差を計算し、この差の値を画素値としてもつ新しい画像を生成させた。以後、これを差画像とよぶ。

この差画像を用いた目の位置検出手順を説明する。
（１）画像を垂直方向にＹ分割する。上部からｍ番目(１≦ｍ≦Ｙ)の分割領域を、水平分割領域Ｈｍと表現する（図８）。
（２）水平分割領域Ｈｍ上の画素値を合計し、それらをＨｍ＃ＳＵＭとする。
（３）最も大きなＨｍ＃ＳＵＭを与える水平分割領域のｍ番目の値を、目の垂直位置として採用する。
（４）採用された水平分割領域Ｈｍ内で、２つの大きな値を持つ連続した区域を検出する。この際、値が０でない連続区域を採用することも考えられるが、検出時のビデオカメラ１２等の雑音の影響を避けるために、ある値以上をもつ連続区域を採用した。
（５）それぞれの区域の中心または中心をｎ１，ｎ２として、これを目の水平位置として採用した。以上の工程により、得られた位置(ｎ１，ｍ)および(ｎ２，ｍ)に被験者２０の目が存在することになる（図９）。

差画像によって目の位置が発見された後、高速テンプレートマッチングを用いて、目の位置を連続的に追従した。この操作は、目の位置追跡に必要な画像処理である、ピラミッド構造を用いた高速テンプレートマッチングを用いて行った。目開閉の判定は、２値化法を用いた。

以上に述べた画像処理手法を用いて、個人認証を行った。個人認証を行う目的としては、視線検出においては個人差があるため各個人のデータを登録しておき、被験者２０ごとに個人認証を行い、瞬時に被験者２０のデータを取り出すことである。また、セキュリティーの分野においても、顔画像による個人認証は、今後、重要な役割を果たすと考えられる。

すでに前述したが、図６による個人認証の手順を示す。まず、目の開閉を行い、差画像により目の位置検出（１２０）を行った。ここで、あらかじめ登録されているテンプレート画像によりマッチング（１２２）を行い、個人識別を行った。各個人に対して、暗証番号が決められており、目の開閉で暗証番号（１２６）を入力する。ここで言う暗証番号とは、左右の目の開閉の順番であり、例えば「右、左、左、右」のように交互に目の開閉を行うことにより入力した。暗証番号が正しく入力されれば、個人認識は完了となる。

テンプレートマッチングを用いて顔画像認識を行う場合、画像内に含まれる領域が髪などを含むと、時間と共に変化しやすく認識が困難となってくることが考えられる。そこで、テンプレート画像内に含む領域を、「目＋眉」、「目＋眉＋鼻」、「目＋眉＋鼻＋口」、「目＋眉＋鼻＋口＋頬輪郭」の４つのパターンを用意して、マッチングを行った。サイズ別テンプレート画像例を図１０に示した。被験者２０は６人で、あらかじめ取得しておいた画像に対して、４つのパターンのサイズ別テンプレート画像を用いてマッチングを行った。図１１にマッチング結果を示した。

「目＋眉」および「目＋眉＋鼻」領域を含んだテンプレートマッチングにおいて、本人に対する相関値が、０.９９を超える事が確認された。また、「目＋眉＋鼻＋口」、「目＋眉＋鼻＋口＋頬輪郭」を含んだテンプレートマッチングについては、相関値は、本人が最も高くなっており有用ではあるが、「目＋眉」および「目＋眉＋鼻」領域を含んだテンプレートマッチングと比べて、相関値が低いことがわかった。よって、「目＋眉」または「目＋眉＋鼻」領域を含んだテンプレートマッチングが最適と考えられる。

画像サイズ別テンプレートマッチング認識実験において最適とされた「目＋眉＋鼻」領域を含んだテンプレートを用いて、個人の識別が可能であるかを実験によって検討した。１０人の被験者２０に対して、一人につき１０枚のテンプレート画像(８０×６０)を用意し、入力画像に対してマッチングを行い、相関値より個人識別を行った。図１２に、登録されたテンプレート画像の例を示した。

以上に示したような、テンプレート画像（８０×６０）と入力画像（３２０×２４０）とのマッチングによる、個人差比較結果の例を図１３に示した。縦軸は、入力画像とテンプレート画像との相関値であり、１に近い程２つの画像は相似であるということになる。また横軸は、用意されたテンプレート画像１００枚（１０枚／人、１０人分）である。あらかじめ登録しておいた各個人に対して、１０枚のテンプレート画像と各個人ごとの入力画像とのマッチングを行った。図１３の結果から分かるように、今回のテンプレートマッチングにおいて、本人であると認識することは可能であった。テンプレートマッチングと、片目の開閉による暗証番号の入力によって、より高い確率で個人の認証が可能であるという結果が得られた。

実施例２では、ビデオカメラ１２より取り込んだ画像をＰＣ内で処理することにより、実施例１同様にＡＬＳ患者２０の代わりに学生に被験者２０として視線方向の検出を行い、コミュニケーションシステムの操作に利用した。特に、重度のＡＬＳ患者２０を対象としたコミュニケーションシステムの構築を目標としており、ＡＬＳの症状により患者２０の頭は動かないものと想定して視線方向検出を行うのが妥当である。また、病院内や自宅室内で使用することを目的としており、通常の蛍光灯等の照明条件下で適切に動作することも重要となってくる。

本発明の視線方向検出精度としては、ＰＣの表示画面１１内を数分割し、各領域を正しく選択できることを目的としている。これらの条件を実現するための視線方向検出手法として、テンプレートマッチングを用いた方向別画像相関法、黒画素領域検出法および虹彩領域のエッジに着目したエッジ特徴点検出法の３つの方法を検討した。眼球には、固視微動と呼ばれる細かい動きがあるため、一点を注視しているときでも、視線はその方向から０.３度程度ずれることが知られている（山田,福田,“画像における注視点の定義と画像分析への応用,”電子通信学会論文誌,D-II,no.9,pp.1335-1342,1986.）。しかし、今回のシステムにおいて、指定された領域内の注視においては、０.３度のずれは視線方向検出に誤差を生むとは考えにくく、考慮しないことにした。

黒画素領域検出法（methodII）においては、瞳孔を含む虹彩領域（以下、虹彩領域と略記）をテンプレート画像として登録し（６０×６０pixel）、目の位置を拡大した画像（入力画像）に対してテンプレートマッチングを行い、虹彩領域の位置を決定した（図１５）。計算時間短縮のために、ピラミッド構造（高木,下田,“画像解析ハンドブック,”東京大学出版会,1978.）を用いたテンプレートマッチングを行った。この時、頭部のわずかな動きによって虹彩領域の位置が変化し、視線方向検出に誤差が生じてくるため、眼球運動に対して変化の少ない眉左上に基準点をとった。従来は、この基準点の位置を、目と眉を含む全体を対象としていたため、眼球の動きに合わせて基準点が動いてしまうという問題を残していた。この改良により、基準点と虹彩の相対距離の変化によって、視線方向を検出することができた。

図１５（b）において、黒目を含んだテンプレートの左上端座標を（Ｘ_ｅ，Ｙ_ｅ）とした。眉毛付近に取ったテンプレートの左上端座標を（Ｘ_ｂ，Ｙ_ｂ）とする。この２点間の距離を（Ｌ_ｘ，Ｌ_ｙ）とすると、以下のような式が得られる。

キャリブレーション時に登録しておいた、方向別のＬ_ｘ ^（ｎ），Ｌ_ｙ ^（ｎ）（０＜ｎ≦Ｎ：Ｎは分割数）と比較し、最小の重みつきユークリッド距離を与えるｎ番目の項目を視線方向として採用した。しかし通常、我々が何かを目で追う時には、眼球運動ではなく頭部を動かして対象物を目で追っている事が多いと思われる。よって、表示画面１１上の区画された領域を追う時も、自然と頭が動いてしまう傾向にあった。本発明では重度の身障者を対象としており、頭部の大きな動きにより入力画像内から目や眉がはみ出してしまうことまでは考慮する必要はないが、頭部の微妙な動きによって視線方向の検出に誤差が生じる事は十分に考えられる。そこで、Ｌ_ｘ，Ｌ_ｙに以下の補正項を加えることにより、頭部の移動量を相殺した。補正項は以下のようにして求めた。

ここで、Ｘ_ｃ，Ｙ_ｃは定数であり、実験的に求めるものである。なお（Ｘ_ｂ０，Ｙ_ｂ０）は、図１４(a) における眉毛左上基準点の初期座標で、（Ｘ_ｂ，Ｙ_ｂ）はその時点における入力画像の眉左上座標となる。

エッジ特徴点検出法（methodIII）においては、眼球内の虹彩領域（黒目）と白目領域及び瞼との輝度の変化に着目し、エッジ検出を用いて視線方向を検出した。エッジ検出を容易にするために、画像強調、メディアン・フィルタによる平滑化を行い、ソーベル・フィルタによりエッジの検出を行った。画像化の過程で重畳される雑音を除去ないしは低減する手法として、平滑化（smoothing）がある。雑音とは本来緩やかに変化する部分における望ましくない急峻な濃度値の変化であり、急激な変化を滑らかに変換する平滑化は雑音を低減する効果がある。平滑化には、幾つかの方法が提案されているが、今回はメディアン・フィルタ（median filter）を用いた。メディアン・フィルタは局所平均化（長谷川,“画像処理の基本技法＜技法入門編＞,”技術評論社,1986.）よりも、（１）雑音除去の効果が大きい、（２）小さな変動を平滑化する、（３）エッジのボケの程度が少ない等の利点が挙げられる。

画像上における、エッジ検出（edge detection）を目的とした画像処理手法で、ロバーツ（Roberts）やプレヴィト（Prewitt）等（土屋,深田,“画像処理,”コロナ社,
1990.）も利用できるが、今回はソーベル（Sobel）・フィルタを用いて虹彩領域と白目及び瞼との接辺の検出を行った。ディジタル画像では間隔の最小は１なので、微分の代わりに差分が用いられており、差分の絶対値はエッジの強さ、言い換えるとエッジらしさを数値化したものである。

目と眉を含んだ入力画像（３２０×２４０ pixel）より、目周辺領域の画像をテンプレートマッチングにより抜き出した。この時の画像サイズは１６０×８０pixelである（図１６(a)）。まず、エッジ検出を容易にするために、前処理として画像を強調し、その後３×３pixelのメディアン・フィルタを用いてエッジ情報を保存した平滑化を行い、虹彩領域と白目領域及び瞼との輝度の差を明確にした（図１６(b)）。この段階でエッジ検出を行うと、黒目と瞼下部の間に光の反射によって白い境界が作られてしまい、検出が困難となる。そこで、各画素を全て３倍とするコントラストの変換によって、肌色や白目領域はすべて白く変換した（図１６(c)）。また、肌色領域も白く変換することで虹彩と瞼との境界がより強調され、エッジ検出が容易となった。

次にソーベル・フィルタを水平方向、垂直方向に各々分けて用い、虹彩の左右両端及び、虹彩と瞼の接辺を検出した。この時、ソーベル・フィルタの出力値がプラス（白から黒）となる場合を青色で出力し、同様に出力値がマイナス（白から黒）となる場合を緑色で出力した（図１７）。これにより、虹彩の左右、虹彩と瞼の接辺の上下が区別される。図１７(a)より、斜め方向に近傍する１０ pixel程度の画素の合計が最も高い値を与える座標を、虹彩の左右両端Ｘ_Ｒ，Ｘ_Ｌとして採用した。次に図１７(b) に対して、既に得られたＸ_Ｒ，Ｘ_Ｌの中点に着目し、この中点の垂直方向上に、水平方向に近傍する１０pixel程度の画素の合計が最大値を与える点を、瞼との接点Ｙ_Ｕ，Ｙ_Ｄとして採用した（図１８）。ここで、黒画素領域検出法と同様に、眉毛を基準とした高速テンプレートマッチングを行い、得られたＸ_ｂ，Ｙ_ｂとの距離Ｌ_ｘＲ，Ｌ_ｘＬ，Ｌ_ＹＴ，Ｌ_ＹＢを求め、視線方向を検出した。

４人の被験者２０に対して、視線方向検出実験を行った。４人の内訳としては、男性３名（１名は眼鏡装着）、女性１名となっている。被験者２０の目と表示画面１１の距離は７５cm、ビデオカメラ１２との距離は８５cmとした。室内の照明条件は通常の天井に備え付けられた蛍光灯による明るさで、実験中に大きな変化は無かった。表示画面１１内を９分割、１２分割に区画し（図１９）、各領域を見つめた時の眼球の動きをもとに、３種類の提案手法において、正しく視線方向の検出が可能であるかの確認を行った。まず、表示画面１１の中央を注視してもらい、基準となる画像を記録した。次にキャリブレーションとして、表示画面１１内の区画を順次点滅（他と異なる色に変更）させて行き、それを目で追ってもらい、方向決定用の基準となる画像の記録を行った。その後、約５０回ランダムに区画を点滅させて目で追う作業を繰り返してもらい、その時の顔画像と目の座標、視線方向を記録した。実験で得られた画像に対して、先に提案した３つの手法を用いて視線方向検出を試みた。３提案手法に対して再現性を期すために、全く同じ画像を用いることにした。

頭部の位置補正を行うことによって、methodII,methodIIIにおいて検出精度が大幅に改善されたことが、図２０および図２１より分かる。MethodＩにおいては、マッチングの相関値により視線方向検出を行っているため、頭部位置補正は困難であるが、９,１２方向共に平均正答率は８０％を超えている。被験者Ｔについて見てみると、９,１２方向共に補正項を加えなくても、平均正解率は３つの手法すべてにおいて９０％を越えていた。また、頭部の位置補正により、視線検出が正しく行えることが確認できたので、今後はシステムの対象を広げていくことが可能ではないかと考えられる。次に、提案手法ごとに考察を行った。方向別画像相関法（methodＩ）は、図２０(a)、図２１(a)において示されるように、１２方向の方が９方向より、わずかに視線検出精度が良いことが分かった。誤認識を見てみると、全てにおいて左右、上下のいずれか一マス誤って認識している場合がほとんどである。頭部の位置補正を行わずに、９方向、１２方向共に８５％以上の精度で視線方向の検出が行われている。MethodII,IIIと比べて、頭部の位置補正が困難なため、頭部位置補正後の正答率はあまりよくないが、補正をしなくても８５％以上の正答率を示している。黒画素領域検出法（methodII）は、９方向、１２方向共に頭部位置の補正を行うことにより、正答率は９０％以上となり改善されていることが分かる。この手法における、誤認識の大半は垂直方向となっている。垂直方向は、水平方向に比べて、眼球が瞼に隠れている領域が多いこともあり、黒画素領域（黒目）をテンプレートマッチングで追従するのが困難であると考えられる。エッジ特徴点検出法（methodIII）は、黒画素領域検出法とほとんど変わらない結果となっている。

次に、実施例３に基づき図２２〜図４２を参照して説明する。なお、図５から図１８までの説明は前述しており、実施例３では、差画像による目の位置検出から視線方向の決定までのシステム処理手順を簡単に再説明を行った後、前記視線方向の決定以降の、表示画面１１上の視線ポインタをマウスの代わりに眼球機能（眼球運動と瞼の開閉動作のみ）を入力し、スイッチング操作により、いわゆる仮想キーボードによる操作が可能となるようにするため、ＡＬＳ患者のような重度肢体不自由者の眼球機能を用いた在宅勤務を可能とする本発明について説明する。

特に、ＡＬＳ患者２０は、四肢に障害を持っているため、ＰＣを操作するような入力装置を利用する手段を有しない。言葉を発することが困難であるので音声入力によるＰＣ操作も不可能である。そこで、本発明ではＡＬＳ患者２０の残存機能である眼球と瞼の開閉運動をＰＣ操作の入力に応用することにより、汎用のＰＣソフトを使用して自在なＰＣ操作環境を実現し、ＡＬＳ患者２０のような重度肢体不自由者の在宅勤務が可能になった。なお、ここではＡＬＳ患者２０について述べたが、ＡＬＳ患者２０に限定する必要はなく、ＡＬＳ患者２０に類似した重度肢体不自由者についても同様の対応が可能となる。

このように、本発明では、ＡＬＳ患者２０の眼球機能を使用するのみで在宅勤務を行うことを主眼にしている。一般的にマウスを使用してＰＣに送られる入力信号を、本発明では、眼球と瞼の開閉運動により作成し送信した。これにより、表示画面１１上の視線ポインタをマウスの代わりに眼球機能（眼球運動と瞼の開閉動作のみ）を入力し、スイッチング操作で、いわゆる仮想キーボードによる操作が可能となる。すなわち、重度のＡＬＳ患者２０が眼球運動および瞬きしかできないのであれば、ビデオカメラ１２で逐次取り込む画像（入力画像）中で変化するのは眼球周辺のみである。そこで、入力画像で適切に設定した基準座標と眼球運動により変化する座標の相対距離と、入力画像と方向別登録画像の濃度誤差から視線方向を決定する。処理手順とその詳細な説明は図５から図２１までに詳細に記載してあるものと同様であるが、簡単に概要を説明しておく。

まず、背景を含んだ重度のＡＬＳ患者２０の顔画像から目の領域だけを抽出して拡大する。次に、黒目を含んだ１２０×８０画素の領域をテンプレートして登録する。テンプレート登録後、目の位置の自動追跡が可能となる。重度のＡＬＳ患者２０に瞼の開閉動作を５秒間行ってもらい開閉判別のための閾値を登録する。開閉閾値登録後、瞼の開閉状態の判別が可能となる。続いて、キャリブレーション後、入力画像に画像処理を施し、解析後得られた結果とキャリブレーション時に登録したデータを比較して、視線方向を検出する。視線方向の入力には瞼の開閉動作を用いた。瞼が閉じている状態が一定時間以上あると、意識的な瞬きと判断して瞼を閉じる直前の視線方向が採用される。

その後の動作を引き続き、図２２を用いて説明する。図２２は視線方向の取得から仮想キーボードの使用またはアプリケーション（以下、アプリケーションとはＰＣ内部にインストールされている各種ソフトウェアのことを指す）の使用までフロー図である。

図２２に示すように、視線方向決定（２００）を行った後、視線ポインタを移動（２０２）し、目標に到達したかどうかの判断を行い（２０４）、もし目標に到達していない場合は、再度視線ポインタの移動（２０２）を行う。そして、もし目標に到達していたと判断された場合は、眼の意識的な瞬き（２０６）を行い、その状態をコマンド送信（２０８）する。コマンド送信したものは、仮想キーボードの使用（２１０）とアプリケーションの使用（２１２）のいずれかに使用されるか、または両方を併用して使用することもできる。

仮想キーボードの使用例を簡単に述べる。まず、目標の文字の領域まで視線ポインタを移動させる。そして、目標の文字を入力するために意識的な瞬きを行う。すると目標の文字は仮想キーボードを介して目標の入力場所に文字が入力される。

次に、アプリケーションの使用例を簡単に述べる。例としてディスクトップ上にマイクロソフト社のＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ（以下ＩＥ）を起動するまでの手順を示す。まず、視線ポインタをＩＥのアイコン上に移動させる。そして、ＩＥを起動させるために意識的な瞬きを行う。するとＩＥのアイコンは視線ポインタを介して起動コマンドを受け取り起動する。

まず、視線ポインタを用いた表示画面１１上のアプリケーション利用方法について述べる。本発明で提案する手法は、（１）ポインタ近傍領域拡大法、（２）画面スクロール法、（３）分割領域拡大法の３手法である。この３つの手法は、起動させたいアプリケーション近辺での操作性、選択までに要する時間がマウスポインタに比べて劣るという欠点を克服することを主な目的としている。

まず、ポインタ近傍領域拡大法について述べる。ポインタ近傍領域拡大法の場合、ポインタが移動を行わない視線の先にある領域（画面中央領域）に、ポインタ近傍の領域を表示させ（図２３）、この表示画面１１でポインタの現在位置と起動させたいアプリケーションの位置を確認しながらポインタを操作（図２４、図２５）できるようにした。これにより、通常のマウスでポインタを操る作業と同様の微細な位置調整が実現できることになる。さらに、ポインタ近傍領域を拡大して画面中央に表示させることにより、視覚的にも視線ポインタとアプリケーションの位置が明確となった。そして、起動させたいアプリケーション上に視線ポインタが到達した後に、３秒以上の意識的な瞬きを行うことで、アプリケーションが起動するようにした（図２６）。
視線ポインタの移動時間は、移動距離に比例して大きくなり、マウス操作に比べてその差が顕著に現れてくる。そこで、ＡＬＳ患者２０が同一の方向に３秒間以上視線を向けると、視線ポインタの移動速度が高速化するようにした。これにより、遠く離れた位置への移動に要する時間の短縮が図れた。

次に、画面スクロール法では、視線ポインタの移動が行われない画面中央まで、カーソル領域拡大法とは逆に視線ポインタではなく起動させたいアプリケーションを移動させて選択する。表示画面１１の中央には、起動させたいアプリケーションを選択するための領域（選択決定領域）を設け（図２７）、その領域内にそのアプリケーションを移動させる（図２８）。また、表示画面１１はスクロール式で常に画面全体がモニター上に表示されており（図２９）、カーソル領域拡大法に比べて使用できる画面領域が広くなっている。そして、起動させたいアプリケーションが選択領域上に到達した後に、３秒以上の意識的な瞬きを行うことで、アプリケーションが起動するようにした（図３０）。
さらに、本手法では起動させたいアプリケーションを表示画面１１中央に移動させるため移動時間はさほど問題とならない。しかし、アプリケーションの配置は通常画面の淵側が多いという現状も考慮して、ポインタ近傍領域拡大法と同様に、使用者の視線が３秒間以上同一方向に向けられていると画面のスクロール速度が高速化する方式を採用した。

最後に、分割領域拡大法では、予め初期画面を９分割表示させておき（図３１）、ＡＬＳ患者２０が起動させたいアプリケーションを含む区画を注視して選択することにより行われる（図３２）。視線ポインタの移動時間問題を解決するために、起動させたいアプリケーション近傍領域のみを抽出しモニター全体に拡大表示させ（図３３）、表示画面１１の高速スクロールによって起動させたいアプリケーションを表示画面１１中央付近まで移動させた（図３４）。起動させたいアプリケーション近傍領域でのポインタ操作についても、そのアプリケーションがほぼ表示画面１１中央に位置し、近傍領域が９倍に拡大された表示画面１１上でポインタを表示させ作業を行うため、正確な移動操作が可能である（図３５、図３６）。

以下に、分割領域拡大法の処理手順を示す。
（１）９区画に分割された初期画面が表示される。
（２）起動させたいアプリケーションを含む区画を注視する。注視時間が２秒以上であると、注視していた区画内の領域が拡大される。
（３）起動させたいアプリケーションに注視を向けると、表示画面１１がそのアプリケーションをモニタ中央付近に位置するようにスクロールする。
（４）起動させたいアプリケーションがモニター中央付近まで移動した後、意識的な瞬きを行うと視線ポインタが表示画面１１中央に表示される。
（５）視線ポインタを起動させたいアプリケーション上まで移動させ、瞼を３秒以上５秒未満意識的に閉じると目的アプリケーションが選択され起動する。但し、拡大前の表示画面に戻る場合は、５秒以上意識的に閉じる。

視線ポインタの実用性を検証するため、７人の健常者に対して以下のような実験を行った。各被験者２０に画面上のＩＥを、各手法を適用した視線ポインタにより起動してもらう。各被験者２０に対して各手法で１０回行い、ＩＥ起動の成否とＩＥ選択までの経過時間の測定を調査した（図３７、図３８、図３９）。我々が普段ＰＣを使用する場合、頻繁に起動させるアプリケーションは、そのショートカットを画面の左側に作成して表示させていることが多い。よって、アプリケーションの起動作業だけを考えるのであれば、視線ポインタの移動範囲は画面左側のみに限定できる。そこで、視線ポインタの初期表示位置を表示画面１１中央付近、ＩＥの表示位置を表示画面１１左上端付近に設定して調査を行った。本調査は、視線ポインタの問題点である、視線ポインタ移動時間のロス、起動させたいアプリケーション近傍領域での操作性の低さが、提案手法により改善されたかどうかの判別を目的としている。

表１は視線ポインタによるＩＥ起動の成否を表す。表１により、本発明で提案する３手法を用いた視線ポインタでＩＥを起動させることは可能であると確認された。被験者２０の多くが視線ポインタの使用が初めてであったことを考慮すると、提案する視線ポインタの実用性は高いといえる。視線ポインタの課題であった操作性については、誤作動を起こすことなく被験者２０が意図する方向に移動していたことより、正確性が高いうえに直感的に分かり易く良好であったといえる。ＩＥ近傍領域での操作は、使用回数が増すにつれてスムーズな視線ポインタ移動がなされていた。このことは、実験回数６〜１０回目の視線ポインタ平均移動時間（図４１、図４２、図４３）が実験回数１〜５回目の視線ポインタ平均移動時間（図３８、図３９、図４０）より５秒程度短くなっていることからもわかる。

視線ポインタの移動時間については、３手法とも全被験者平均１０秒程度であり、通常のマウス操作に比べて遅いことは否めないが、アプリケーションを選択するうえでは支障がないといえる。また、一回の視線検出における視線ポインタの移動量を大きくすれば移動速度も必然的に上がる。本調査では、視線ポインタの使用が初めての被験者２０が多かったため移動量を小さくして移動速度を抑えたが、視線ポインタの使用に慣れるに従い移動速度を上げて、各被験者２０に最適な速度を設定することにより、さらなる快適な操作を実現できる。その場合、選択したいアプリケーション近傍領域での操作性を考慮して移動量を設定する必要がある。

本発明に係る眼球運動を用いた視線入力コミュニケーションシステムのハードウェア構成図である。視線入力式コミュニケーションシステムの概要図である。コミュニケーションスクリーン（初期画面）の一例として、９分割画面を示す図である。図３のコミュニケーションスクリーンにおいて「テレビ」が選ばれた場合のコミュニケーションスクリーンの一例を図４（a）に示し、さらに図４（a）の画面で「チャンネルを変えて」を選択した場合のコミュニケーションスクリーンの一例（図４（b））を示した図である。システムの処理手順を示すフロー図である。個人識別手順を示すフロー図である。入力画像における(a)は顔全体を示し(b)は目周辺領域を示す拡大図である。差画像を示す図である。目の位置検出を示す図である。サイズ別テンプレート画像を示す図である。画像サイズ別テンプレートマッチングを示す図である。登録されたテンプレート画像の例を示す図である。マッチング結果を示す図である。方向別画像相関法（method I）における９方向別テンプレート画像の一例を示す図である。黒画素領域検出法（method II）における高速テンプレートマッチングによる黒目追従の一例を示す図である。エッジ特徴点検出法（method III）における前処理の一例を示す図である。エッジ特徴点検出法（method III）におけるソーベル・フィルタによるエッジ検出の一例を示す図である。エッジ特徴点検出法（method III）における接点４点の検出の一例を示す図である。被験者に対する視線方向検出実験における実験画面を示す図である。被験者に対する視線方向検出実験における９方向視線検出結果の一例を示す図である。被験者に対する視線方向検出実験における１２方向視線検出結果の一例を示す図である。視線方向の取得から仮想キーワードの使用またはアプリケーションの使用までのフロー図である。視線ポインタ付近の表示画面領域が拡大されて画面中央に表示された画面図である。視線ポインタを起動させたいアプリケーション近傍まで移動させる画面図である。表示画面中央のウインドウで位置確認を行い視線ポインタをアプリケーション上に移動した画面図である。瞼を意識的に３秒以上閉じると選択したアプリケーションが移動する画面図である。表示画面中央に起動させたいアプリケーションを選択するための選択決定領域を表示する画面図である。起動させたいアプリケーションに視線を向けると、そのアプリケーションがモニタ中央付近に位置するように表示画面をスクロールする画面図である。モニタ中央に常に選択決定領域が固定表示されており、起動させたいアプリケーションを選択決定領域内に移動するための画面図である。瞼を意識的に３秒以上閉じると領域内のアプリケーションが起動するための画面図である。初期画面である。アプリケーションを含む区画を注視し選択するための表示画面図である。選択された区画領域拡大した画面図である。アプリケーションを向け画面をスクロールするための画面図である。意識的な瞬きを行いポインタ表示する画面図である。ポインタをアプリケーション上に移動させ起動するための画面図である。ポインタ近傍領域拡大法による測定結果図（１〜５回目の平均測定値）である。画面スクロール法による測定結果図（１〜５回目の平均測定値）である。分割領域拡大法による測定図（１〜５回目の平均測定値）である。視線ポインタ近傍領域拡大法による測定結果図（６〜１０回目の平均測定値）である。画面スクロール法による測定結果図（６〜１０回目の平均測定値）である。分割領域拡大法による測定図（６〜１０回目の平均測定値）である。

符号の説明

１１表示画面
１２ビデオカメラ
１４画像取り込み装置
１６カメラ制御装置
１８演算処理装置
２０ＡＬＳ患者（被験者）

Claims

被験者の顔全体をとらえた画像より該被験者に目の開閉をさせて差画像を取得し、次いで目と眉のテンプレートを登録し、キャリブレーション時に得たデータと入力画像により得られたデータを比較して視線方向を検出するようにしたことを特徴とする眼球運動を用いた視線入力コミュニケーションシステム。
該目の位置の検出後、ビデオカメラのズームイン機能により目周辺を大きくとらえた画像を取得するようにしたことを特徴とする請求項１記載の眼球運動を用いた視線入力コミュニケーションシステム。
該キャリブレーションを行う時、方向別に画像を登録しておき、黒目の位置を画像処理手法により求め、視線方向検出のための各方向別の黒目と眉の相対距離を求めておくようにしたことを特徴とする請求項１乃至２のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
複数で該システムを使用する場合は、テンプレートマッチングを用いた個人認証を行い、該個人ごとに必要な設定を選択するようにしたことを特徴とする請求項１乃至３記載のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
顔画像をビデオカメラで取得した後、該画像より目の位置を検出して画像処理を行い非接触に視線方向検出を行うようにしたことを特徴とする請求項１乃至４のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該顔画像認識を行う際、テンプレート画像内に取り込む領域が、「目＋眉」、「目＋眉＋鼻」、「目＋眉＋鼻＋口」、「目＋眉＋鼻＋口＋頬輪郭」の４つのパターンの中から少なくとも一つを使用してマッチングを行うようにしたことを特徴とする請求項１乃至５のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該顔画像認識においてテンプレート画像内に取り込む領域を、「目＋眉」または「目＋眉＋鼻」の中から少なくとも一つを選択するようにしたことを特徴とする請求項１乃至６のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該個人認証が目の開閉によって登録されている暗証番号により行われるようにしたことを特徴とする請求項１乃至７のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該個人認証の暗証番号が「右、左、左、右」といった片目の開閉順に入力するようにしたことを特徴とする請求項１乃至８のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
被験者の顔全体をとらえた画像より被験者に目の開閉をさせて差画像を取得し、次いで目と眉のテンプレートを登録し、キャリブレーション時に得たデータと入力画像により得られたデータを比較して視線方向を検出するようにした被験者の顔全体をとらえた画像より被験者に目の開閉させ、差画像により目の位置を検出後、目周辺の画像を取得し、次いで目と眉のテンプレートを登録し、キャリブレーションの後、入力される毎画像に対して予め決められた手法により視線方向検出を実施し、キャリブレーション時に得たデータと入力画像により得られたデータを比較して視線方向を検出後、表示画面上の視線ポインタを眼球と瞼の開閉運動のみで操作しながら入力信号をコマンド送信し、次いでアプリケーションまたは仮想キーボードを使用するか、あるいは前記両方を併用しながら使用するようにしたことを特徴とする眼球運動を用いた視線入力コミュニケーションシステム。
該視線ポインタが移動を行わない視線の先にある該表示画面中央領域近傍に表示させ、該表示画面で該視線ポインタの現在位置と起動させたいアプリケーションの位置を確認するようにしたことを特徴とする請求項１０に記載の眼球運動を用いた視線入力コミュニケーションシステム。
起動させたい該視線ポインタ近傍の領域を該視線ポインタの移動が行われない該表示画面中央まで該アプリケーションを移動させて選択するようにしたことを特徴とする請求項１０乃至１１のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該表示画面中央に起動させたい該アプリケーションを選択するための選択決定領域を設け、その領域内に該アプリケーションを移動させるようにしたことを特徴とする請求項１１乃至１２のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
起動させたい該アプリケーションを含む区画された該表示画面を２秒以上注視することにより、注視していた該区画内の領域が拡大されるようにしたことを特徴とする請求項１０に記載の眼球運動を用いた視線入力コミュニケーションシステム。
起動させたい該アプリケーション近傍領域のみを抽出した後、該表示画面全体に拡大表示させ、該表示画面の高速スクロールによって起動させたい該アプリケーションを該表示画面中央付近まで移動した後、意識的な瞬きを行うことにより、該視線ポインタが該表示画面中央に表示されるようにしたことを特徴とする請求項１４記載の眼球運動を用いた視線入力コミュニケーションシステム。
該視線ポインタを起動させたい該アプリケーション上まで移動させ、瞼を３秒以上５秒未満意識的に閉じることにより、目的とする該アプリケーションが選択され起動するようにし、拡大前の該表示画面に戻る場合は瞼を５秒以上意識的に閉じるようにしたことを特徴とする請求項１４乃至１５のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該被験者が同一方向に少なくとも３秒間以上視線を向けると該視線ポインタの移動速度が高速化するようにしたことを特徴とする請求項１０乃至１６のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該表示画面上の記載事項を選択する場合を、瞼を閉状態１．５秒以上で３秒未満としてクリックするようにした請求項１０乃至１７のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。
該表示画面上の記載事項を決定する場合を、瞼閉状態３秒以上としてダブルクリックするようにした請求項１０乃至１８のいずれか一項に記載の眼球運動を用いた視線入力コミュニケーションシステム。