JP7296069B2

JP7296069B2 - 視線入力装置、および視線入力方法

Info

Publication number: JP7296069B2
Application number: JP2021012093A
Authority: JP
Inventors: 弘毅柴里; 公保清田; 勝幸中島
Original assignee: Institute of National Colleges of Technologies Japan
Current assignee: Institute of National Colleges of Technologies Japan
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-06-22
Anticipated expiration: 2041-01-28
Also published as: JP2022115480A

Description

特許法第３０条第２項適用令和２年１０月１５日人間工学，２０２０，Ｖｏｌ．５６，Ｎｏ．５，１８１－１９０頁（一般社団法人日本人間工学会）「畳み込みニューラルネットワークを用いたリアルタイム視線領域推定システムの構築と評価」にて発表

本発明は、視線により表示された選択肢を特定して入力する視線入力方法に関する。また、本発明は視線入力方装置に関する。

今日、視線の推定に関しては数多くの手法（非特許文献１、非特許文献２）が提案されており、その成果は様々な分野に利用されている。一例として、発話が困難な脳血管障害者や筋萎縮性側索硬化症患者の意思表示を目的とした視線入力装置がある（非特許文献３）。視線で画面上のアイコンを選択したり、文字を入力したりすることで文章を書いて読み上げるなどの機能を備えており、意思や気持ちの伝達が可能になるため、生活の質が改善されることが期待されている。

特許文献１は、眼球信号のためのシステム等に関して、以下のような技術を開示している。主に眼球運動に基づいてデバイス着用者の意図を識別するためのシステムおよび方法が提供される。当該システムは、アイトラッキングを実行して画面表示を制御する邪魔にならないヘッドウェア内に含まれてもよい。当該システムは、リモートアイトラッキングカメラ、リモートディスプレイおよび／または他の補助的な入力も利用してもよい。画面レイアウトは、高速眼球信号の形成および確実な検出を容易にするように最適化される。眼球信号の検出は、デバイス着用者による自発的な制御下にある生理学的な眼球運動の追跡に基づく。眼球信号の検出は、ウェアラブルコンピューティングおよび幅広いディスプレイデバイスに適合する動作をもたらす。

特許文献２は、人物の顔を含む画像を取得する画像取得部と、前記人物の目を含む部分画像を前記画像から抽出する画像抽出部と、視線方向を推定するための機械学習を行った学習済みの学習器に前記部分画像を入力することで、前記人物の視線方向を示す視線情報を当該学習器から取得する推定部と、を備える、人物の視線方向を推定するための情報処理装置を開示している。

特許文献３は、オペレータの視線の変化に応じた眼球の変位量を検出する眼球変位量検出手段と、眼球変位量検出手段からの変位量検出出力を受け取って所定の時間分の当該眼球変位量を平滑化する信号平滑手段と、信号平滑手段からの眼球変位量平滑出力を受け取り、表示画面上の座標との対応づけを学習，認識するニューラルネットワークとを備えたことを特徴とする視線認識装置を開示している。

特表２０１７－５２６０７８号公報特開２０１９－２８８４３号公報特開平５－４６３０９号公報

伊藤和幸，数藤康雄，他．重度肢体不自由者向けの視線入力式コミュニケーション装置．電子情報通信学会論文誌．２０００，８３（５），ｐ．４９５－５０３．新井康平，上滝寛美．利用者の動きを許容する黒目中心検出による視線推定に基づくコンピュータ入力システム．電気学会論文誌．２００７，１２７（７），ｐ．１１０７－１１１４．後関利明，星飛雄馬，他．Ｔｏｂｉｉ社製眼球運動計測装置．神経眼科．２０１６，３３（１），ｐ．４７－５２．

特許文献１～３に開示されているように、視線領域の特定や、それによる入力・操作などを行うにあたっては、一般的には、使用者の目を撮影した情報に注目した処理が行われている。目の情報に頼ると、小さい領域の解像度が高い撮影像が必要となる。特に、目の大きさはヒトによって異なるし、さらに、いわゆる白目や黒目の位置関係に着目するにあたってもこれらの大きさもヒトによって異なる。

さらに、黒目においても角膜内の瞳孔と虹彩のように色調の区別が難しい部分を特定しないと視線の特定ができず、より高解像度の撮影像が必要となる。このような目を中心に視線を特定しようとすると、カメラの仕様も重要となり、その撮像したデータの画像処理の負荷も大きい。また、視線領域の特定にあたっては、個人差も生じるため、操作を開始する前にキャリブレーションも必要となる。

しかし、視線入力装置は、そもそも意思表示や難しい操作が難しい重度の重複障害等を有する特別支援学校の児童などで利用することが求められている場合がある。このような児童などに繰り返し複数回の高度な処理を求めるキャリブレーション処理などは難しい場合がある。

かかる状況下、本発明は、キャリブレーションを必要とせず、操作者の視線により電子計算機の操作のための入力を行う視線入力方法等を提供することを目的とする。

本発明者は、上記課題を解決すべく鋭意研究を重ねた結果、下記の発明が上記目的に合致することを見出し、本発明に至った。すなわち、本発明は、以下の発明に係るものである。

＜１＞電子計算機への入力情報が表示された画面を見ている使用者の顔を撮像手段で撮像し撮像データを取得する撮像工程と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定工程と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力方法。
＜２＞前記撮像する工程の撮像データが、前記使用者の顔を、所定の時間ごとに連続的に複数回撮像した複数の撮像データを含む連続撮像データであり、
前記特定工程により、前記連続撮像データのそれぞれの撮像データについて視線領域を特定し、
前記連続撮像データに基づいて特定されたそれぞれの前記視線領域を、移動平均処理したものを、前記所定の時間の平均視線領域とする平均化処理工程を有する、前記＜１＞に記載の視線入力方法。
＜３＞前記特定工程により特定される前記視線領域が所定の時間、所定の領域内と判断され、前記視線領域に入力情報が存在するとき、選択肢を強調表示する強調表示工程と、
前記強調表示されているとき、前記強調表示の入力情報を入力することを確認するための確認領域を前記画面に表示し、前記確認領域に前記使用者の視線領域が特定されたとき、前記使用者が、前記強調表示の入力情報を入力したものとする確認工程とを有する、前記＜１＞または＜２＞に記載の視線入力方法。
＜４＞前記入力情報が複数設けられ、表示される前記複数の入力情報間に、入力情報としない不感帯を有する、前記＜１＞～＜３＞のいずれかに記載の視線入力方法。
＜５＞前記撮像手段が、表示部の周囲に固定されたものである、前記＜１＞～＜４＞のいずれかに記載の視線入力方法。
＜６＞電子計算機への入力情報が表示された画面を有する表示部と、
前記画面を見ている使用者の顔を撮像し撮像データを取得する撮像手段と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定部と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力装置。

本発明によれば、キャリブレーションを必要とせず、操作者の視線により電子計算機の操作のための入力を行う視線入力方法等が提供される。

本発明の視線入力方法に係るフロー図である。本発明の視線入力装置に係る概要図である。本発明の視線入力装置に係る概要図である。本発明の視線入力装置の使用状態を説明するための概要図である。本発明に用いる学習済みモデルの取得に関するフロー図である。本発明の視線入力方法や学習済みモデルの処理を説明するための概要図である。本発明に用いる学習済みモデルの取得に関する機械学習の処理の一部を説明するための概要図である。本願の試験例に係る試験条件の概要を説明するための概要図である。表示部の注視点の配置パターンを示す図である。基本姿勢における視線領域の推定精度のグラフである。推定精度の時間変化のグラフである。推定精度の時間変化を移動平均処理したグラフである。距離を変更したときの推定精度のグラフである。顔の位置を変更したときの推定精度のグラフである。ヨー角を変更したときの推定精度のグラフである。ピッチ角を変更したときの推定精度のグラフである。ロール角を変更したときの推定精度のグラフである。複合的な条件を変更したときの推定精度のグラフである。複合的な条件を変更し移動平均処理をした推定精度のグラフである。表示部の注視点の配置パターンに不感帯を設けた状態を示す図である。不感帯を排除したときの推定精度を選択的に表示したグラフである。

以下に本発明の実施の形態を詳細に説明するが、以下に記載する構成要件の説明は、本発明の実施態様の一例（代表例）であり、本発明はその要旨を変更しない限り、以下の内容に限定されない。なお、本明細書において「～」という表現を用いる場合、その前後の数値を含む表現として用いる。

［本発明の視線入力方法］
本発明の視線入力方法は、電子計算機への入力情報が表示された画面を見ている使用者の顔を撮像手段で撮像し撮像データを取得する撮像工程と、前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定工程と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである。

［本発明の視線入力装置］
本発明の視線入力装置は、電子計算機への入力情報が表示された画面を有する表示部と、前記画面を見ている使用者の顔を撮像し撮像データを取得する撮像手段と、前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定部と、を有し、前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである。

本発明の視線入力方法や視線入力方法によれば、キャリブレーションを必要とせず、操作者の視線により電子計算機の操作のための入力を行うことができる。なお、本願において本発明の視線入力装置により本発明の視線入力方法を行うこともでき、本願においてそれぞれに対応する構成は相互に利用することができる。

本発明者らは、非接触型の視線入力装置について検討した。従来の視線入力装置は、使用開始前にキャリブレーションを必要としている。しかし、知的な遅れがあり身体を思うように動かすことが難しい重度重複障碍者にとって、キャリブレーションの操作指示に従い視線を移動させることは困難な場合がある。また、目の像から判断しようとするために高解像度のカメラや、専用の取り付け器具などが必要となり、設備導入の手間もかかることも視線による意思表示と入力を困難なものとしている。

本発明者らは、キャリブレーションを行うことなく、汎用性が高いカメラでも視線領域を特定して入力する装置を検討した。この検討にあたって、注視座標点情報を有するパソコンの操作者の顔画像から、目と顔を含む領域を抽出して、畳み込みニューラルネットワークで学習することを検討した。その結果、汎用のカメラの解像度でも、使用者がキャリブレーションを行わずに視線領域を特定して入力することができる視線入力方法や視線入力装置を実現した。

これは、視線は、目における黒目や白目の位置も重要な要素であるものの、それに加えて、首などの姿勢等の影響も受ける顔全体の向きも大きな影響を与えており、これらを入力データとして総合的に解析することが有効であることと、これらの顔全体を対象とすれば、顔における目の位置の特定などは比較的解像度が低い像からも有用なデータを得やすいためと考えられる。

［視線入力のフロー図］
図１は、本発明の視線入力方法に係るフロー図である。また、図２、３は、本発明の視線入力装置に係る概要図である。図２、３に示すように視線入力装置１０は、表示部１と、撮像手段２と、特定部３１を含む制御部３と、記憶部４と、表示部１への信号出力などを行う出力部５を有する。制御部３や記憶部４、出力部５は電子計算機６に内蔵されている。電子計算機６と、表示部１や撮像手段２は、有線や無線で信号を入出力できる。

図１に示すように、視線入力方法は、顔の撮像を行うステップＳ１１を行い、次に撮像された顔に基づいて視線領域を特定するステップＳ２１を行い、次に視線領域に対応する指示を入力する。

ステップＳ１１は、より詳しくは、電子計算機への入力情報が表示された画面を見ている使用者の顔を撮像手段で撮像し撮像データを取得するものである。
ステップＳ２１は、より詳しくは、ステップＳ１１で撮像した撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、使用者の視線領域を特定するものである。
ステップＳ３１は、ステップＳ２１で特定された視線領域に対応する選択肢を選択したものとして、操作するための入力を行うものである。

［視線入力装置１０］
視線入力装置１０は、視線で使用者の選択した選択内容を電子計算機に入力するものである。例えば、文章などの文字入力をしようとするときは、文字の選択肢を表示部に表示したところから、視線でその選択肢を選択し、入力する。このほかにも、その時の使用者の意思表示などを視線だけで入力するものである。

図４は、本発明の視線入力装置の使用状態を説明するための概要図である。例えば、ベッドに横になっている使用者が、使用者の視線上にアーム等で固定されたタブレット端末の画面のアイコンを注視して意思表示することができる。タブレット端末などの画面は、介助者が保持して使用者に見せることなどもできる。このような装置によれば、使用者が手や発話などで操作や指示が難しい場合も、様々な意思表示をすることができる。

［表示部１］
表示部１は、パーソナルコンピュータなどの電子計算機に接続されたモニターや、タブレット端末やラップトップコンピュータのように電子計算機と一体化されたモニターなどを用いることができる。または、プロジェクタなどで投影した像などでもよい。

表示部１は、電子計算機６への入力情報が表示されており、使用者はこの画面を見て、指示等を入力する。電子計算機６への入力情報は、画面上の領域として、選択肢などが表示されている。図２（ａ）は、表示部１の左上に選択肢Ａが表示され、右上に選択肢Ｂが表示され、左下に選択肢Ｃが表示され、右下に選択肢Ｄが表示されている。図２（ｂ）では、選択した内容が正しいかを確認したりするための選択肢として、左上に「はい」、右上に「いいえ」の選択肢が表示されている。

［撮像手段２］
撮像手段２は、表示部１の画面を見ている使用者の顔を撮像し撮像データを取得するものである。撮像手段２は、使用者の顔を撮像することができる位置に配置され、使用者の顔を撮像できる画素数や画角などを有するものである。表示部１や撮像手段２と使用者の距離などにもよるが、１ＭＰ（１００万画素）程度以上の画素で、６０度以上程度の画角のものなどを用いることができる。画素数は、高すぎると解析負荷が大きく、画素数を低減する処理などが必要な場合もあるため、１２ＭＰ以下程度としてもよい。また、画角も広すぎると顔周辺が十分に映らずに周囲の要素が増え、複数人映り込む恐れもあるため、９０度以下程度とすることができる。画素は、０．８ＭＰ～１２Ｍｐ程度や２ＭＰ～６ＭＰ程度とし、画角は７０～９０度程度のものを用いることができる。

撮像手段２は、使用者を表示部１側の正面からとらえる配置とすることが好ましい。より好ましくは、表示部１の周囲に固定されたものであることが好ましい。例えば、表示部１のモニター上部や下部や左右などに取り付けたものや、インカメラタイプのモニターなどを用いることができる。

［特定部３１］
特定部３１は、撮像手段２により得た撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、使用者の視線領域を特定する。

［視線領域予測の学習済みモデル］
予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する画像を学習用データとして用いる。また、その学習用データから、顔領域を検出して用いる。また、学習済みモデルは、画像を学習用データとして畳み込みニューラルネットワークに対して機械学習を行って、顔と目に係る特徴量を抽出することにより作成されたものである。この学習済みモデルは、顔領域を対象としていることから、顔と目に係る特徴量を抽出したものとなる。

図５は、本発明に用いる学習済みモデルの取得に関するフロー図である。図６は、本発明の視線入力方法や学習済みモデルの処理を説明するための概要図である。図５に示すように、学習済みモデルの取得にあたっては、注視点や注視領域が特定されている多数の顔画像を用いる。まず、顔画像の学習データ入力を行うステップＳ１０１を行う。次に、顔領域を検出し抽出するステップＳ２０１を行う。次に、抽出された顔領域の情報を学習用データとして機械学習するステップＳ３０１を行う。そして、学習済みモデルを取得するステップＳ４０１を行う。

ステップＳ１０１は、顔画像の学習データを入力するステップである。図６（ａ１）の画像９１は、表示部１の注視点１１を見ている人を、表示部１の上部に取り付けた撮像手段２から撮像した像である。この画像９１のような顔画像を学習用のデータとして、入力する。

ステップＳ２０１は、画像９１から顔領域を特定して抽出するステップである。図６（ａ２）の画像９２は、画像９１から、顔領域９２１を特定した状態である。また、さらに図６（ａ３）の画像９３は、画像９２で特定した顔領域９２１を、入力用データとして抽出した顔領域９２２としたものである。このとき、右上がりの斜線で塗りつぶした領域は、ノイズとなる恐れがあるため、重みづけを小さくしたり、学習用データに用いない。

顔領域の抽出には、Ｈａａｒ－Ｌｉｋｅ特徴量などを用いることができる。なお、顔領域を特定できない画像の場合は、学習データとして用いずに排除する。

ステップＳ３０１は、画像９３に示す、顔領域９２２を学習用データとして機械学習するステップである。機械学習には、１００以上や、１０００以上、１００００以上などの注視点との関係が特定された画像を学習データセットとして用いる。なお、過学習を抑制するために、１０００００以下や、５００００以下、３００００以下などの学習データを用いるものとしてもよい。

学習データセットは、おおむね同環境となる条件で多数の被験者等からデータを取得して用いてもよい。また、このような学習データセットとして、例えば、ＭＰＩＩＧＡＺＥ（参考文献：University of Edinburgh, "Eye gaze software curve"）などを用いることもできる。

機械学習は、畳み込みニューラルネットワーク（ＣＮＮ）を用いることが好ましい。ＣＮＮモデルには、畳み込み層やプーリング層などの層が存在し、その数や組み合わせ方により様々なモデルが存在し適宜適したものを採用する。例えばＶＧＧや、ＧｏｏｇＬｅＮｅｔ（Ｉｎｃｅｐｔｉｏｎ）、Ｘｃｅｐｔｉｏｎなどを用いることができる。図７は、本発明に用いる学習済みモデルの取得に関する機械学習の処理の一部を説明するための概要図である。具体的には、図７は、ＶＧＧの一種であるＶＧＧ１６の構造に基づいた、本発明の畳み込みニューラルネットワークを示す概要図である。図７に示すように、最後の全結合層で４クラス（ａｒｅａ１～４）の推定確率を算出している。

ＶＧＧの参考文献：Liu, S.; Deng, W. "Very deep convolutional neural network based image classification using small training sample size". Proceedings of 2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR). Kuala, Lumpur, 2015-11-03/06, p.730-734, doi: 10.1109/ACPR.2015.7486599.

ＧｏｏｇＬｅＮｅｔ（Ｉｎｃｅｐｔｉｏｎ）の参考文献：Szegedy, C.; Liu, W.; et al. "Going deeper with convolutions". Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, 2015-07-07/12, p.1-9, doi: 10.1109/CVPR.2015.7298594.

Ｘｃｅｐｔｉｏｎの参考文献：Chollet, F. "Xception: deep learning with depthwise separable convolutions". Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, 2017-07-21/26, p.1800-1807, doi: 10.1109/CVPR.2017.195.

ステップＳ４０１は、機械学習された学習済みモデルを取得するもので、取得された学習済みモデルは、図２等に示す電子計算機６の記憶部４に記憶され、特定部３１での処理に用いられる。

［記憶部４］
記憶部４は、学習済みモデルや、撮像された撮像データや、抽出された顔領域や、これらの処理を行うためのプログラムなどを記憶するメモリである。

［平均化処理部３２］
平均化処理部３２は、所定の時間の平均視線領域を得る平均化処理を行う部分である。平均化処理工程は、撮像データとして、使用者の顔を、所定の時間ごとに連続的に複数回撮像した複数の撮像データを含む連続撮像データを用いて処理する。平均化処理を行うにあたって、特定工程により、連続撮像データのそれぞれの撮像データについて視線領域を特定する。そして、連続撮像データに基づいて特定されたそれぞれの視線領域を、移動平均処理したものを、所定の時間の平均視線領域とする。

人の視線は、短時間で揺らぎが生じる場合がある。選択肢が表示されている領域を見る意思があっても、その周囲を確認のために見たり、選択肢が表示されている領域内で視線が泳いだり、瞬きなどにより視線が誤って処理されたりする場合がある。これらによる揺らぎを解消するために、移動平均処理した平均化処理を行うことが好ましい。特に本発明の視線入力方法は、解析負荷が低いため、短時間で視線領域を特定できる。このため、一定のフレームレートで連続的に撮像されている撮像データに対しても、リアルタイムで視線領域を特定できる。フレームレートは、１５～６０ｆｐｓ程度で撮像されたものを利用できる。瞬きのノイズは数フレーム程度と考えられ、視線による意思表示は、０．５秒程度でその意思がある可能性が高いものとして解析できると考えられる。このため、例えば、３０ｆｐｓのフレームレートであれば、１０～２０コマ程度の移動平均処理をすれば、より信頼性が高い視線領域の特定ができる。

［確認部３３］
確認部３３は、入力された視線領域を確認する処理を行う部分である。図３（ａ）は、特定手段により特定される視線領域が所定の時間、選択肢Ａに関する入力情報が存在する領域内と判断された例である。このため、その選択肢Ａを強調表示する強調表示が行われている。この強調表示は、選択肢Ａをハイライト表示したり、その周囲に確認のフレームを表示したり、他の選択肢の視認性を薄く表示して相対的に強調するなどの処理とすることができる。
さらに、図３（ｂ）は、選択肢Ａが強調表示されているとき、その強調表示の入力情報を入力することを確認するための確認領域を表示部１の画面に表示し、左上に「はい」の確認領域を設け、右上に「いいえ」のキャンセル表示を行ったものである。「はい」に相当する確認領域に使用者の視線領域が特定されたとき、使用者が、強調表示の入力情報を入力したものとする確認を行うことができる。

［出力部５］
出力部５は、撮像手段２から入力された画像などに基づいて、制御部３で処理された結果に基づいて、さらに確認の表示を行ったり、その選択に対する次の処理などを表示部１に表示させたり、他の端末等にその信号を出力する部分である。

［電子計算機６］
これらの制御部３や出力部５は、電子計算機６にアプリケーションソフトとしてインストールさせたものとして用いることができる。電子計算機６は、さらに表示部１やカメラ２、記憶部４と一体化されたタブレット端末などを用いることもできる。

［試験例］
本発明の視線入力に係る視線領域の特定に関して、以下の試験を行った。

［学習済みモデルの作成］
１．学習用データの構成
機械学習の学習用データセットとして、ＭＰＩＩＧＡＺＥを用いた。ＭＰＩＩＧＡＺＥは、インカメラが設置されているノートＰＣを注視している１５人の画像と、そのパソコンのモニター上の注視座標点に係る組み合わせの３７６６７組で構成されている。このデータセットを用いて、以下の手順で再構成した。
（１）注視点座標から注視領域のラベリングを行う。（２）Ｈａａｒ－Ｌｉｋｅ特徴量に基づき、元画像から顔領域のみを抽出する。（３）Ｈａａｒ－Ｌｉｋｅ特徴量による顔領域検出ができない画像をスクリーニングして排除し、残った画像について、訓練用、検証用、テスト用データに分割した。訓練用データは１８０００枚、検証用データは２８６０枚、テスト用データは２００８枚とした。訓練用データおよび検証用データは機械学習を行う際に用いて、テスト用データは推定精度を確認する際に用いた。

２．機械学習
前述の訓練用データをおよび検証用データを用いて、畳み込みニューラルネットワークに対して機械学習を行った。畳み込みニューラルネットワークは、ＶＧＧ１６を用いた。この機械学習を行ったことにより作成されたＣＮＮモデルを、学習済みモデルとして使用する。

［リアルタイム視線領域推定］
１．撮像条件
図８本願の試験例に係る試験条件の概要を説明するための概要図である。
デスクトップパーソナルコンピュータのモニターを注視用ディスプレイとした。この注視用ディスプレイの上部にウェブカメラ（Ｌｏｇｉｃｏｏｌｗｅｂカメラ“Ｃ２７０”（画素数１２８０×７２０）フレームレート２５ｆｐｓ以上に設定）を取り付けた。
ウェブカメラからの高さ（Ｈｃ）を調整できるものとした。
ウェブカメラからの前に、実験台用顎台を配置して、この実験台用顎台上に被験者の顔を置いて撮像するものとした。
実験台用顎台は、あごの高さ（Ｈ）、ウェブカメラからの距離（Ｌ）、被験者の顔の向きに係るヨー角（Ｙａｗ）、ロール角（Ｒｏｌｌ）、ピッチ角（Ｐｉｔｃｈ）を調整できるものとした。

２．視線領域の特定
撮像した画像について、以下の処理を行って、視線領域を特定した。（１）ウェブカメラから画像フレームを取得する。（２）Ｈａａｒ－Ｌｉｋｅ特徴量分類器を用いて、顔領域を切り出し、画像として保存する。（３）保存された顔画像を、前述のＣＮＮモデルの入力とする。（４）画面注視領域の推定結果を比較し、最も確率の高いものを推定領域とした。なお、適宜、推定領域を画像フレームに赤枠で表示した。また、注視点は後述する４つの領域としており、その４つの領域のうちＣＮＮの推定確率が５０％を上回った領域をシステムが推定した視線領域として扱った。

［注視点の配置パターン］
図９は、試験例における表示部の注視点の配置パターンを示す図である。Ｎｏ．１～９を領域１（ａｒｅａ１）、Ｎｏ．１０～１８を領域２（ａｒｅａ２）、Ｎｏ．１９～２７を領域３（ａｒｅａ３）、Ｎｏ．２８～３６を領域４（ａｒｅａ４）とした。

［基本姿勢］
図１０は、基本姿勢における視線領域の推定精度のグラフである。基本姿勢は、Ｌ＝７００ｍｍ、Ｈｃ＝４５０ｍｍ、Ｈ＝３５０ｍｍとした。基本姿勢となる初期配置におけるヨー角を０度、ピッチ角を０度、ロール角を０度とする。１人あたり、注視点（Ｍａｒｋｅｒｐｏｓｉｔｉｏｎ）１点ごとに１５０フレームのデータを取得した。被験者は６名として、その平均を求めた。被験者は２０代～５０代の健常者男性である。
注視点が含まれる領域を正しく判定できたかの正確さ（Ａｃｃｕｒａｓｙ）をグラフ化したものが図１０である。

被験者６名の平均推定精度は９８．２％であった。また、個人ごとの成績としては最高で９９．２％、最低９７．０％であった。標本標準偏差の範囲は、０．００～１１．３％、中央値は１．３５％、平均値は２．０１％であった。ばらつきは一定の範囲内に収まっており、再現性があることが確認された。

［推定精度の時間変化］
図１１は、推定精度の時間変化のグラフである。注視点１６は、領域２（ａｒｅａ２）に属する。しかし、他の領域との境界に近いため、誤認識が生じやすい部分である。図１１は、この点について、１名の被験者の１５０フレームの詳細データを示したものである。正答となるａｒｅａ２が支配的なものの、領域１や領域４に誤認識される瞬間も散見された。

［推定精度に対する移動平均処理の影響］
図１２は、推定精度の時間変化を移動平均処理したグラフである。図１２は、図１１に係る推定精度の時間変化について、１０フレームの移動平均処理を施したものである。移動平均処理することで、推定結果は、領域２とより正確に推定されるものとなり、他の領域に誤った推定がされる可能性が非常に低くなった。

［距離の影響］
図１３は、距離を変更したときの推定精度のグラフである。図１３は、基本姿勢に準じる条件で、距離（Ｌ）を７００ｍｍから、１２００ｍｍに変更し、被験者を４名とした試験結果である。距離を変更しても、平均推定精度９７．４％を達成することができた。

［顔の位置の影響］
図１４は、顔の位置を変更したときの推定精度のグラフである。図１４は、基本姿勢に準じる条件で、顎台の高さを１００ｍｍ下げて、被験者を４名とした試験結果である。顎帯の高さを変更しても、平均推定精度９７．４％を達成することができた。

［ヨー角の影響］
図１５は、ヨー角を変更したときの推定精度のグラフである。図１５は、基本姿勢に準じる条件で、ヨー角を１０度変更し、被験者を１名とした試験結果である。ヨー角を変更しても、高い推定精度を達成することができた。

［ピッチ角の影響］
図１６は、ピッチ角を変更したときの推定精度のグラフである。図１６は、基本姿勢に準じる条件で、ピッチ角を、１５度に変更し、被験者を１名とした試験結果である。ピッチ角を変更しても、高い推定精度を達成することができた。

［ロール角の影響］
図１７は、ロール角を変更したときの推定精度のグラフである。図１７は、基本姿勢に準じる条件で、ロール角を、１７度に変更し、被験者を１名とした試験結果である。ロール角を変更しても、高い推定精度を達成することができた。

［複合的な条件の影響］
図１８は、複合的な条件を変更したときの推定精度のグラフである。図１８は、基本姿勢に準じる条件で、ヨー角１０度、ピッチ角１５度、ロール角１５度に変更し、被験者を１名とした試験結果である。これらの条件を複合的に変更しても、平均推定精度９２．５％を達成することができた。ただし、最も正確性が低下した注視点は推定精度６７．３％となった。

［移動平均処理の影響］
図１９は、複合的な条件を変更し移動平均処理をした推定精度のグラフである。この図１９は、図１８の試験結果に基づいて、１０フレームの移動平均処理を行ったときと、１５フレームの移動平均処理したときの推定精度の推移である。なお、本試験例の条件では、１５フレームが約０．５秒に相当する。

［不感帯の配置］
図２０は、表示部の注視点の配置パターンに不感帯を設けた状態を示す図である。領域の境界付近となる注視点は、誤認識が生じやすいため、これらについては、図２０に右上がり斜線で示す不感帯を設けるものとすることができる。ＣＮＮモデルによる注視点座標が、仮にこの不感帯の範囲と推定された場合は、視線領域を判定しないものとすることができる。また、視線入力装置において、表示部に対しては、これらの不感帯は、選択肢が表示されないものとする。

［不感帯を設けたときの推定精度］
図２１は、不感帯を排除したときの推定精度を選択的に表示したグラフである。図２１は、不感帯に相当する部分を濃いグレーで着色している。これらの不感帯に相当する部分を排除すれば、より正確性が高い判定がされた部分のみとなるため、キャリブレーションを行わずとも、視線入力を行うことができる。

本発明は、電子計算機等への指示を視線で入力する装置等に利用することができ、産業上有用である。

１０視線入力装置
１表示部
１１注視点
２撮像手段
３制御部
３１特定部
３２平均化処理部
３３確認部
４記憶部
５出力部
６電子計算機
９１～９３画像
９２１～９２２抽出領域

Claims

電子計算機への入力情報が表示された画面を見ている使用者の顔全体を、前記画面を有する表示部の周囲に固定された撮像手段で撮像し撮像データを取得する撮像工程と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定工程と、を有し、
前記予め作成された視線領域の学習済みモデルが、注視座標点の情報を有する顔全体を含む画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力方法。
前記撮像する工程の撮像データが、前記使用者の顔全体を、所定の時間ごとに連続的に複数回撮像した複数の撮像データを含む連続撮像データであり、
前記特定工程により、前記連続撮像データのそれぞれの撮像データについて視線領域を特定し、
前記連続撮像データに基づいて特定されたそれぞれの前記視線領域を、移動平均処理したものを、前記所定の時間の平均視線領域とする平均化処理工程を有する、請求項１に記載の視線入力方法。
前記特定工程により特定される前記視線領域が所定の時間、所定の領域内と判断され、前記視線領域に入力情報が存在するとき、選択肢を強調表示する強調表示工程と、
前記強調表示されているとき、前記強調表示の入力情報を入力することを確認するための確認領域を前記画面に表示し、前記確認領域に前記使用者の視線領域が特定されたとき、前記使用者が、前記強調表示の入力情報を入力したものとする確認工程とを有する、請求項１または２に記載の視線入力方法。
前記入力情報が複数設けられ、表示される前記複数の入力情報間に、入力情報としない不感帯を有する、請求項１～３のいずれかに記載の視線入力方法。
前記撮像手段の画素が０．８ＭＰ～１２ＭＰであり、前記撮像手段の画角が７０～９０度である、請求項１～４のいずれかに記載の視線入力方法。
電子計算機への入力情報が表示された画面を有する表示部と、
前記画面を見ている使用者の顔全体を撮像し撮像データを取得する前記表示部の周囲に固定された撮像手段と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定部と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔全体を含む画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力装置。