JP2020140630A - 注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体 - Google Patents
注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体 Download PDFInfo
- Publication number
- JP2020140630A JP2020140630A JP2019037630A JP2019037630A JP2020140630A JP 2020140630 A JP2020140630 A JP 2020140630A JP 2019037630 A JP2019037630 A JP 2019037630A JP 2019037630 A JP2019037630 A JP 2019037630A JP 2020140630 A JP2020140630 A JP 2020140630A
- Authority
- JP
- Japan
- Prior art keywords
- eye
- eye image
- gaze
- estimation
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】キャリブレーション処理が不要で、装置構成の簡略化と製造コストの低減が可能な注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体を提供する。【解決手段】使用者の前方に配置された目画像撮像手段12により、使用者の目11をカラーで撮像する目画像撮像工程と、目画像撮像手段12の裏面側に一体的に設けられたシーン画像撮像手段14により、使用者の視線が向けられる対象物13を撮像するシーン画像撮像工程と、推定処理手段15により、目画像撮像手段12で撮像された目画像から、シーン画像撮像手段14で撮像されたシーン画像中の、使用者の視線が向けられた注視点を推定する推定処理工程を有し、推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、この機械学習に複数の畳込みニューラルネットワークを用いる。【選択図】図1
Description
本発明は、使用者がどこを見ているのかを推定するウェアラブル型の(wearable:身体に装着して利用可能な)注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体に関する。
注視点推定技術は、人がどこを見ているのかを推定する技術であり、人の意図や興味の推定などにおいて重要である。
この注視点推定技術を実装するデバイスは、据え置き型デバイスとウェアラブル型デバイスに大別される。なお、前者は非接触型であるが注視点推定範囲はスクリーン内に限定され、後者は接触型であるが注視点推定範囲に制限はない。
ウェアラブル型デバイスには、使用者の目を撮像するアイカメラ(目画像撮像手段)と、使用者の視線が向けられる対象物を撮像するシーンカメラ(シーン画像撮像手段)とを備えた注視点推定システム(GES)があり、様々な用途への適用が期待されている。
この注視点推定技術を実装するデバイスは、据え置き型デバイスとウェアラブル型デバイスに大別される。なお、前者は非接触型であるが注視点推定範囲はスクリーン内に限定され、後者は接触型であるが注視点推定範囲に制限はない。
ウェアラブル型デバイスには、使用者の目を撮像するアイカメラ(目画像撮像手段)と、使用者の視線が向けられる対象物を撮像するシーンカメラ(シーン画像撮像手段)とを備えた注視点推定システム(GES)があり、様々な用途への適用が期待されている。
しかし、市販の一般的な注視点推定システムはいずれも、使用者の注視点推定を行う前に、最初にアイカメラ画像の目(瞳孔)中心点とシーンカメラ画像の注視点との間の関係を求めるキャリブレーション処理を行う必要があり、操作性が悪かった。
また、一度キャリブレーション処理を行ったとしても、例えば、使用者が長時間利用したり、激しく動いたりした場合には、ウェアラブル型デバイスが動いてアイカメラと目の位置関係が変化するため、再度キャリブレーション処理を行う必要があった。
そこで、キャリブレーション処理を行わない技術が提案されている。
また、一度キャリブレーション処理を行ったとしても、例えば、使用者が長時間利用したり、激しく動いたりした場合には、ウェアラブル型デバイスが動いてアイカメラと目の位置関係が変化するため、再度キャリブレーション処理を行う必要があった。
そこで、キャリブレーション処理を行わない技術が提案されている。
例えば、特許文献1には、据え置き型デバイスであって、キャリブレーション処理を行うことなく、赤外カメラと角膜反射を利用して、視線方向を検出できる視線検出用コンピュータプログラム、視線検出装置及び視線検出方法が開示されている。
特許文献2には、据え置き型デバイスであって、ユーザ毎にキャリブレーションを行うことなく、赤外線と角膜反射を利用して視線の位置を精度よく検知することができる情報処理装置、画像形成装置及びプログラムが開示されている。
特許文献3には、事前のキャリブレーションなしに、画面に表示された文書をユーザが読む際の視線の動きに基づいて、ユーザが読んだ範囲の特定精度を向上可能な読書範囲検出装置、読書範囲検出方法及び読書範囲検出用コンピュータプログラムが開示されている。
特許文献4には、キャリブレーションを必要とせずに、近赤外線と角膜反射を利用して、対象者の左眼又は右眼の片眼の画像のみを解析して対象者の視線方向を検出する視線検出装置及び視線入力システムが開示されている。
特許文献5には、キャリブレーションを要することなく、赤外線を用いて被検者の視線を検出する視線検出による信号発信装置が開示されている。
特許文献6には、キャリブレーションを行うことなく、角膜表面反射画像と環境画像をマッチングすることにより注視点を推測する角膜表面反射画像を利用した視線計測方法及びその装置が開示されている。
特許文献2には、据え置き型デバイスであって、ユーザ毎にキャリブレーションを行うことなく、赤外線と角膜反射を利用して視線の位置を精度よく検知することができる情報処理装置、画像形成装置及びプログラムが開示されている。
特許文献3には、事前のキャリブレーションなしに、画面に表示された文書をユーザが読む際の視線の動きに基づいて、ユーザが読んだ範囲の特定精度を向上可能な読書範囲検出装置、読書範囲検出方法及び読書範囲検出用コンピュータプログラムが開示されている。
特許文献4には、キャリブレーションを必要とせずに、近赤外線と角膜反射を利用して、対象者の左眼又は右眼の片眼の画像のみを解析して対象者の視線方向を検出する視線検出装置及び視線入力システムが開示されている。
特許文献5には、キャリブレーションを要することなく、赤外線を用いて被検者の視線を検出する視線検出による信号発信装置が開示されている。
特許文献6には、キャリブレーションを行うことなく、角膜表面反射画像と環境画像をマッチングすることにより注視点を推測する角膜表面反射画像を利用した視線計測方法及びその装置が開示されている。
前記した特許文献1、2、4、5に開示の技術は、赤外線を用いることで、瞳孔中心を検出しており、処理は容易になるが製造コストがかかっていた。なお、特許文献2の技術は、ユーザ毎にキャリブレーションを行わなくてもよいと記載しているが、事前にキャリブレーションを行う必要があった。
特許文献3の開示の技術は、キャリブレーションのための操作をユーザにさせることはないが、キャリブレーションそのものを実行する必要はあった。
特許文献6に開示の技術は、角膜表面反射画像と環境画像をマッチングさせることで、注視点を推測するため、推測精度の向上には多くのデータが必要であった。
特許文献3の開示の技術は、キャリブレーションのための操作をユーザにさせることはないが、キャリブレーションそのものを実行する必要はあった。
特許文献6に開示の技術は、角膜表面反射画像と環境画像をマッチングさせることで、注視点を推測するため、推測精度の向上には多くのデータが必要であった。
本発明はかかる事情に鑑みてなされたもので、キャリブレーション処理が不要で、装置構成の簡略化と製造コストの低減が可能な注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体を提供することを目的とする。
前記目的に沿う本発明に係る注視点推定システムは、使用者の視線が向けられた注視点を推定する注視点推定システムにおいて、
前記使用者の前方に配置され、該使用者の目をカラーで撮像する目画像撮像手段と、
前記目画像撮像手段の裏面側に一体的に設けられ、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像手段と、
前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理手段とを有し、
前記推定処理手段では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習が行われ、しかも、該機械学習に複数の畳込みニューラルネットワークが用いられる。
前記使用者の前方に配置され、該使用者の目をカラーで撮像する目画像撮像手段と、
前記目画像撮像手段の裏面側に一体的に設けられ、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像手段と、
前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理手段とを有し、
前記推定処理手段では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習が行われ、しかも、該機械学習に複数の畳込みニューラルネットワークが用いられる。
本発明に係る注視点推定システムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルでは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標が推定され、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標が求められることが好ましい。
前記注視推定モデルでは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標が推定され、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標が求められることが好ましい。
前記目的に沿う本発明に係る注視点推定方法は、使用者の視線が向けられた注視点を推定する注視点推定方法において、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用いる。
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用いる。
本発明に係る注視点推定方法において、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることが好ましい。
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることが好ましい。
前記目的に沿う本発明に係る注視点推定プログラムは、使用者の視線が向けられた注視点を推定する注視点推定プログラムにおいて、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用い、
前記目画像撮像工程、前記シーン画像撮像工程、及び、前記推定処理工程の各処理をコンピュータに実行させる。
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用い、
前記目画像撮像工程、前記シーン画像撮像工程、及び、前記推定処理工程の各処理をコンピュータに実行させる。
本発明に係る注視点推定プログラムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることが好ましい。
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることが好ましい。
前記目的に沿う本発明に係る情報記録媒体は、本発明に係る注視点推定プログラムが記録されている。
本発明に係る注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体は、使用者の目を目画像撮像手段によりカラーで撮像するので、従来のように、赤外線を用いることなく、目画像の目中心点を推定し易くなる。
また、使用者の視線が向けられた注視点の推定処理で、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、機械学習に複数の畳込みニューラルネットワークを用いるので、注視点の推定精度を向上できる。
従って、従来のようなキャリブレーション処理が不要となり、装置構成の簡略化と製造コストの低減も図れる。
また、使用者の視線が向けられた注視点の推定処理で、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、機械学習に複数の畳込みニューラルネットワークを用いるので、注視点の推定精度を向上できる。
従って、従来のようなキャリブレーション処理が不要となり、装置構成の簡略化と製造コストの低減も図れる。
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図1(A)、(B)、図2に示すように、本発明の一実施の形態に係る注視点推定システム10は、使用者の視線が向けられた注視点(使用者がどこを見ているのか)を推定するウェアラブル型デバイス(眼鏡型)であり、使用者の前方に配置され、使用者の目11を撮像する目撮像用カメラ(目画像撮像手段の一例)12と、使用者の視線が向けられる対象物(例えば、ディスプレイ)13を撮像するシーン撮像用カメラ(シーン画像撮像手段の一例)14と、目撮像用カメラ12で撮像された目画像から、シーン撮像用カメラ14で撮像されたシーン画像中の注視点を推定するコンピュータ(推定処理手段の一例)15とを有している。以下、詳しく説明する。
図1(A)、(B)、図2に示すように、本発明の一実施の形態に係る注視点推定システム10は、使用者の視線が向けられた注視点(使用者がどこを見ているのか)を推定するウェアラブル型デバイス(眼鏡型)であり、使用者の前方に配置され、使用者の目11を撮像する目撮像用カメラ(目画像撮像手段の一例)12と、使用者の視線が向けられる対象物(例えば、ディスプレイ)13を撮像するシーン撮像用カメラ(シーン画像撮像手段の一例)14と、目撮像用カメラ12で撮像された目画像から、シーン撮像用カメラ14で撮像されたシーン画像中の注視点を推定するコンピュータ(推定処理手段の一例)15とを有している。以下、詳しく説明する。
図1(A)、(B)に示すように、目撮像用カメラ12の裏面側には、シーン撮像用カメラ14が一体的に設けられ、その位置関係が固定された状態で、眼鏡フレーム(図示しない)に取り付けられている。ここで、目撮像用カメラ12とシーン撮像用カメラ14の眼鏡フレームへの取り付けは、取り付け取り外し可能にすることもでき、また、取り外しができないように取り付ける(眼鏡フレームと一体化する)こともできる。
なお、目撮像用カメラ12とシーン撮像用カメラ14は、目撮像用カメラ12が使用者(片方の目)の前方に配置されれば、例えば、帽子やヘッドバンド等に取り付けることもできる。
なお、目撮像用カメラ12とシーン撮像用カメラ14は、目撮像用カメラ12が使用者(片方の目)の前方に配置されれば、例えば、帽子やヘッドバンド等に取り付けることもできる。
目撮像用カメラ12とシーン撮像用カメラ14は、各レンズの中心を通りレンズ面に垂直な直線である光軸(主軸)が、図1(B)に示すように、平面視して同一直線上に位置するように、表裏一体となって設けられている。更に、一体となった目撮像用カメラ12とシーン撮像用カメラ14は、垂直軸回り及び水平軸回りに回動可能に(2つの回動軸を介して)眼鏡フレームに取り付けられている。なお、光軸方向における目撮像用カメラ12とシーン撮像用カメラ14のレンズの先端間距離は、平面視して10cm(好ましくは5cm、更には3cm)以下である。
これにより、例えば、使用者が、目撮像用カメラ12及びシーン撮像用カメラ14のいずれか一方を動かしたり、また、その向きを調整したりすると、目撮像用カメラ12とシーン撮像用カメラ14が一緒に動くことになる(目撮像用カメラ12とシーン撮像用カメラ14の位置関係が変わることはない)。
これにより、例えば、使用者が、目撮像用カメラ12及びシーン撮像用カメラ14のいずれか一方を動かしたり、また、その向きを調整したりすると、目撮像用カメラ12とシーン撮像用カメラ14が一緒に動くことになる(目撮像用カメラ12とシーン撮像用カメラ14の位置関係が変わることはない)。
この目撮像用カメラ12と目11との水平距離s(cm)、目撮像用カメラ12の光軸の水平線に対する傾斜角度、シーン撮像用カメラ14の光軸の水平線に対する傾斜角度は、以下の条件下でそれぞれ変更できる。即ち、以下に示す条件を満足すれば、一体となった目撮像用カメラ12とシーン撮像用カメラ14を眼鏡フレームに対して、上記した垂直軸回り及び/又は水平軸回りに動かすことで、目撮像用カメラ12とシーン撮像用カメラ14の位置を目11に対して移動させることができる。
なお、シーン撮像用カメラ14の対象物13に対する距離も任意(使用者の視線が向けれる対象物13の位置に応じて変動)であり、特に限定されるものではないため、ここではd(cm)と記載している。
なお、シーン撮像用カメラ14の対象物13に対する距離も任意(使用者の視線が向けれる対象物13の位置に応じて変動)であり、特に限定されるものではないため、ここではd(cm)と記載している。
目撮像用カメラ12は、目11の全体を撮像できる位置で(顔全体を撮像する必要はない)、かつ、対象物13を視ている目11の視界を遮らない位置に配置する。具体的には、目撮像用カメラ12の性能に応じて、水平距離sを、例えば、3〜10cm(ここでは5cm)とし、目撮像用カメラ12が目11を斜め下方から見上げるように配置する(目11を斜め上方から見下ろすように配置することもできる)。
シーン撮像用カメラ14は、対象物13を視ている目11の視界を遮らないように、具体的には、シーン撮像用カメラ14が対象物13を斜め下方から見上げるように配置する(対象物13を斜め上方から見下ろすように配置することもできる)。
ここでは、目撮像用カメラ12とシーン撮像用カメラ14が、使用者の目11と対象物13との間に位置し、かつ、目撮像用カメラ12とシーン撮像用カメラ14の前記した光軸と、使用者の目11と対象物13を結ぶ線とが、平面視して同一直線上に位置するように(多少ずれてもよい)、目撮像用カメラ12とシーン撮像用カメラ14を配置している。
シーン撮像用カメラ14は、対象物13を視ている目11の視界を遮らないように、具体的には、シーン撮像用カメラ14が対象物13を斜め下方から見上げるように配置する(対象物13を斜め上方から見下ろすように配置することもできる)。
ここでは、目撮像用カメラ12とシーン撮像用カメラ14が、使用者の目11と対象物13との間に位置し、かつ、目撮像用カメラ12とシーン撮像用カメラ14の前記した光軸と、使用者の目11と対象物13を結ぶ線とが、平面視して同一直線上に位置するように(多少ずれてもよい)、目撮像用カメラ12とシーン撮像用カメラ14を配置している。
目撮像用カメラ12は、目11の全体をカラーで撮像できるカメラであり、従来公知のCMOSカメラ、例えば、カラーフィルタを施すことでカラー化させるもの等を使用できる。なお、カメラには従来公知のCCDカメラ、例えば、1枚のセンサにRGBの各色を作り込む単板方式や、光学的にRGBの各色を分離したものをそれぞれのセンサで撮影する多板(3板)方式のもの等も使用できる。
これにより、得られる目画像もカラーとなる。
シーン撮像用カメラ14も上記した目撮像用カメラ12と同様、対象物13の全体をカラーで撮像できるCMOSカメラであるが、白黒で撮像するCMOSカメラ等でもよい。
このように、目撮像用カメラ12に目11をカラーで撮像できるCMOSカメラを用いることで、従来のような赤外線LEDや赤外線カメラが不要となり、軽量化が図れる。
これにより、得られる目画像もカラーとなる。
シーン撮像用カメラ14も上記した目撮像用カメラ12と同様、対象物13の全体をカラーで撮像できるCMOSカメラであるが、白黒で撮像するCMOSカメラ等でもよい。
このように、目撮像用カメラ12に目11をカラーで撮像できるCMOSカメラを用いることで、従来のような赤外線LEDや赤外線カメラが不要となり、軽量化が図れる。
目撮像用カメラ12とシーン撮像用カメラ14で撮影される目画像とシーン画像は、同時に撮影されてコンピュータ15に送信され保存される(画像保存)。なお、目撮像用カメラ12及びシーン撮像用カメラ14とコンピュータ15とは、有線により接続されているが、無線であってもよい。また、目画像とシーン画像の同時撮影は、予めコンピュータ15に搭載したプログラムにより行うことができるが、使用者が行ってもよい。
このコンピュータ15は、RAM、CPU、ROM、I/O、及び、これらの要素を接続するバスを備えた従来公知のものであるが、これに限定されるものではない。
このコンピュータ15は、RAM、CPU、ROM、I/O、及び、これらの要素を接続するバスを備えた従来公知のものであるが、これに限定されるものではない。
コンピュータ15では、予め得られた目画像の目中心点(瞳孔中心点)とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習が行われ、しかも、機械学習に深層学習の一種である畳込みニューラルネットワーク(以下、CNNとも記載)を複数用いている。この畳込みニューラルネットワークを用いて機械学習が行われるモデルは、注視推定モデル(以下、GE(Gaze Estimation)モデルとも記載)と特徴抽出モデル(以下、FD(Feature Detection)モデルとも記載)の2つのモデルで構成されている。
以下、図3を参照しながら説明する。
以下、図3を参照しながら説明する。
注視推定モデル(GEモデル)は、予め得られた目画像とシーン画像の注視点座標を用いて、使用者の視線が向けられるシーン画像中の注視点座標を推定するend−to−endの畳込みニューラルネットワークモデルである。本実施の形態では、GEモデルとして、従来公知の二つの代表的なCNNモデルであるInception−v3(Inception V3とも記載)とVGG−19のいずれかを用いているが、これらに限定されるものではなく、注視点推定システムの使用用途に応じて適宜選択できる。
GEモデルは、目撮像用カメラ12とシーン撮像用カメラ14で撮影された予め得られた目画像と注視点座標を用いて学習する。ここで、損失関数lossGEは下式で定義する。
lossGE=|(gx−gx´)2+(gy−gy´)2|2
この関数は推定された注視点座標g=(gx,gy)と正解注視点座標g´=(gx´,gy´)との間の距離である。
GEモデルは、目撮像用カメラ12とシーン撮像用カメラ14で撮影された予め得られた目画像と注視点座標を用いて学習する。ここで、損失関数lossGEは下式で定義する。
lossGE=|(gx−gx´)2+(gy−gy´)2|2
この関数は推定された注視点座標g=(gx,gy)と正解注視点座標g´=(gx´,gy´)との間の距離である。
特徴抽出モデル(FDモデル)は、予め得られた目画像を用い、注視情報である目画像の視線ベクトルθ=(θx,θy,θz)と目画像の目(瞳孔)中心座標P=(Px,Py)を求めるモデルである。このモデルには上記したInception−v3を用いるが、これらに限定されるものではなく、注視点推定システムの使用用途に応じて適宜選択できる。
このモデルは複数のモジュールから構成されており、各モジュールは多くの畳み込み層を持つ。十分な学習データがある場合、Inception−v3は他のモデルに比べて高いパフォーマンスを得る。
FDモデルの入力データと出力データはそれぞれカラーの目画像と注視情報であり、FDモデルを学習するために、大規模な目画像と注視情報を用意することは困難である。そこで、本実施の形態では、従来公知のUnityEyesを用いて数十万の目画像と注視情報のデータを生成する。
このモデルは複数のモジュールから構成されており、各モジュールは多くの畳み込み層を持つ。十分な学習データがある場合、Inception−v3は他のモデルに比べて高いパフォーマンスを得る。
FDモデルの入力データと出力データはそれぞれカラーの目画像と注視情報であり、FDモデルを学習するために、大規模な目画像と注視情報を用意することは困難である。そこで、本実施の形態では、従来公知のUnityEyesを用いて数十万の目画像と注視情報のデータを生成する。
UnityEyesは、3Dの目モデルを使用して目画像を生成するためのものであり、このUnityEyesには、目画像の視線ベクトル(注視ベクトル)や目中心座標(瞳孔中心座標)などの重要な情報が含まれている。
FDモデルに関して、推定された注視情報と正解値の注視情報のユークリッド距離を損失関数lossFDとして定義する。
lossFD=|(θx−θx´)2+(θy−θy´)2+(θz−θz´)2+(Px−Px´)2+(Py−Py´)2|2
ただし、θ´=(θx´,θy´,θz´)は真(正解)の視線ベクトルであり、P´=(Px´,Py´)は目画像中の真(正解)の目中心座標である。
FDモデルに関して、推定された注視情報と正解値の注視情報のユークリッド距離を損失関数lossFDとして定義する。
lossFD=|(θx−θx´)2+(θy−θy´)2+(θz−θz´)2+(Px−Px´)2+(Py−Py´)2|2
ただし、θ´=(θx´,θy´,θz´)は真(正解)の視線ベクトルであり、P´=(Px´,Py´)は目画像中の真(正解)の目中心座標である。
上記したように、機械学習のモデルは、GEモデルとFDモデルの2モデルから構成されている。この2つのモデルは並列構造であり、その後続構造は2つのモデルの組み合わせである。
即ち、GEモデルの中間層(pre−logit層)とFDモデルの出力層とを連結させた後、この二つの全結合層を通る(注視点推定部で処理する)ことで、使用者の視線が向けられた推定した注視点G=(Gx,Gy)が出力されることになる。
なお、学習処理は、GEモデルとFDモデルを別々に学習した後、図3に示すように、GEモデルと全結合層を再学習する。この処理の損失関数lossOは、下式で定義される。
lossO=|(Gx−Gx´)2+(Gy−Gy´)2|2
即ち、GEモデルの中間層(pre−logit層)とFDモデルの出力層とを連結させた後、この二つの全結合層を通る(注視点推定部で処理する)ことで、使用者の視線が向けられた推定した注視点G=(Gx,Gy)が出力されることになる。
なお、学習処理は、GEモデルとFDモデルを別々に学習した後、図3に示すように、GEモデルと全結合層を再学習する。この処理の損失関数lossOは、下式で定義される。
lossO=|(Gx−Gx´)2+(Gy−Gy´)2|2
前述のように、GEモデルとして、Inception−v3とVGG−19のいずれかのCNNモデルを使用し、FDモデルとして、Inception−v3のCNNモデルを使用した。
ここで、FDモデルの出力層のユニット数は5であり、一方、GEモデルのpre−logit層のユニット数は、Inception−v3で2048、VGG−19で4096である。このため、上記した二つの結合層のユニット数はGEモデルのユニット数によって異なることになる。
ここで、FDモデルの出力層のユニット数は5であり、一方、GEモデルのpre−logit層のユニット数は、Inception−v3で2048、VGG−19で4096である。このため、上記した二つの結合層のユニット数はGEモデルのユニット数によって異なることになる。
従って、使用者が注視点推定システム10を使用して対象物13に視線を向けた場合、目撮像用カメラ12とシーン撮像用カメラ14で目画像とシーン画像が同時に撮影され、この撮像された目画像から、シーン画像中の注視点を推定できる。なお、目画像とシーン画像の撮像は、予めコンピュータに設定したプログラムによって自動的に行うことができるが、使用者が行ってもよい。
続いて、本発明の一実施の形態に係る注視点推定方法について、図3〜図9を参照しながら説明する。
本実施の形態に係る注視点推定方法は、注視点推定システム10を用いて、使用者の視線が向けられた注視点を推定する方法であり、データセットを構築する準備工程と、目撮像用カメラ12により使用者11の目をカラーで撮像する目画像撮像工程と、シーン撮像用カメラ14により使用者の視線が向けられる対象物13を撮像するシーン画像撮像工程と、コンピュータ15により、目撮像用カメラ12で撮像された目画像から、シーン撮像用カメラ14で撮像されたシーン画像中の上記した注視点を推定する推定処理工程とを有している。
本実施の形態に係る注視点推定方法は、注視点推定システム10を用いて、使用者の視線が向けられた注視点を推定する方法であり、データセットを構築する準備工程と、目撮像用カメラ12により使用者11の目をカラーで撮像する目画像撮像工程と、シーン撮像用カメラ14により使用者の視線が向けられる対象物13を撮像するシーン画像撮像工程と、コンピュータ15により、目撮像用カメラ12で撮像された目画像から、シーン撮像用カメラ14で撮像されたシーン画像中の上記した注視点を推定する推定処理工程とを有している。
(準備工程)
本発明の注視点推定方法は、CNNモデルを学習するために大規模なデータセットを必要とする。更に、高い推定精度を達成するためには正確な教師データが必要である。
注視点推定タスクの有名なデータセットの一つに、MPIIGazeデータセットがある。このデータセットには、手作業で顔特徴点情報が付与された10848個の顔画像が含まれている。
このデータセットは、被験者15名から収集した顔全体が写る顔画像であるが、本実施の形態に係る方法に必要な画像は、顔画像ではなく目画像であるため、本発明では独自にデータセットを構築する。具体的には、被験者13名から合計5万枚以上の目画像を収集した。
本発明の注視点推定方法は、CNNモデルを学習するために大規模なデータセットを必要とする。更に、高い推定精度を達成するためには正確な教師データが必要である。
注視点推定タスクの有名なデータセットの一つに、MPIIGazeデータセットがある。このデータセットには、手作業で顔特徴点情報が付与された10848個の顔画像が含まれている。
このデータセットは、被験者15名から収集した顔全体が写る顔画像であるが、本実施の形態に係る方法に必要な画像は、顔画像ではなく目画像であるため、本発明では独自にデータセットを構築する。具体的には、被験者13名から合計5万枚以上の目画像を収集した。
キャリブレーションフリーで注視点を推定する場合、データセットには様々なカメラアングルが含まれている必要がある。独自に構築したデータセットの収集手順は、以下の通りである。
1)データ収集には、34インチのワイドスクリーンディスプレイ(対象物13)を使用した。シーン撮像用カメラ14(被験者)とディスプレイの距離はd=90cmに設定した。データ収集場所は、例えば、大学の研究室であり、十分な光源環境下で行った。
2)様々な目画像を効率的に収集するためのキャプチャプログラムを開発した。
3)キャプチャプログラムでは、ディスプレイを7×7の49セクションに分割する。キャプチャプログラムは、ランダムに選択された一つのセクションにマーカを表示する(図4のS11(ステップ11))。ここで、マーカの中央には、図5に示すように、4方向のいずれかの向き(上、下、左、右)の矢印が描かれている。
1)データ収集には、34インチのワイドスクリーンディスプレイ(対象物13)を使用した。シーン撮像用カメラ14(被験者)とディスプレイの距離はd=90cmに設定した。データ収集場所は、例えば、大学の研究室であり、十分な光源環境下で行った。
2)様々な目画像を効率的に収集するためのキャプチャプログラムを開発した。
3)キャプチャプログラムでは、ディスプレイを7×7の49セクションに分割する。キャプチャプログラムは、ランダムに選択された一つのセクションにマーカを表示する(図4のS11(ステップ11))。ここで、マーカの中央には、図5に示すように、4方向のいずれかの向き(上、下、左、右)の矢印が描かれている。
4)最初に、キャプチャプログラムは、被験者が位置を予測することを避けるため、マーカの表示順序をランダムにする。被験者は頭を動かさずにマーカを注視する。
5)被験者はマーカの矢印に対応する方向キーを押す(図4のS12(ステップ12))。このとき、キャプチャプログラムは、被験者が方向キーを押したときの目画像とシーン画像を保存する(図4のS13(ステップ13))。両画像が保存された後、マーカは自動的に次の位置にマーカを表示する。この作業を49セクション分、即ち、49回実施する。
6)使用者が機器を動かすことを想定して、様々なカメラアングルの目画像を収集する必要がある。そこで、被験者は、最初に標準的な鼻パッドの位置を基準位置として注視点推定システム10を移動させる。具体的には、49組の目画像とシーン画像を収集した後、被験者は注視点推定システム10の位置を基準位置から1cm移動させる。次に、被験者は同じ処理を再度行う。
この処理を9回繰り返し、合計49×9=441組の画像を収集する。この処理を1セットと定義する。
5)被験者はマーカの矢印に対応する方向キーを押す(図4のS12(ステップ12))。このとき、キャプチャプログラムは、被験者が方向キーを押したときの目画像とシーン画像を保存する(図4のS13(ステップ13))。両画像が保存された後、マーカは自動的に次の位置にマーカを表示する。この作業を49セクション分、即ち、49回実施する。
6)使用者が機器を動かすことを想定して、様々なカメラアングルの目画像を収集する必要がある。そこで、被験者は、最初に標準的な鼻パッドの位置を基準位置として注視点推定システム10を移動させる。具体的には、49組の目画像とシーン画像を収集した後、被験者は注視点推定システム10の位置を基準位置から1cm移動させる。次に、被験者は同じ処理を再度行う。
この処理を9回繰り返し、合計49×9=441組の画像を収集する。この処理を1セットと定義する。
7)各被験者は、異なる日時に9セットを収集する。各被験者からの合計441×9=3969組を収集する。
以上に示したように、収集作業は被験者13名に協力しもらい、合計51597組を収集した。
以上の方法により、全ての目画像とシーン画像を収集した後、被験者が目を閉じている目画像を削除した。残った画像数は50591であった。
次に、注釈付与を行った。正解注視点g´の準備に関しては、被験者は収集作業でマーカ中心の矢印を注視しているため、シーン画像から自動的にマーカ中心を検出する。具体的には、以下の通りである。
以上に示したように、収集作業は被験者13名に協力しもらい、合計51597組を収集した。
以上の方法により、全ての目画像とシーン画像を収集した後、被験者が目を閉じている目画像を削除した。残った画像数は50591であった。
次に、注釈付与を行った。正解注視点g´の準備に関しては、被験者は収集作業でマーカ中心の矢印を注視しているため、シーン画像から自動的にマーカ中心を検出する。具体的には、以下の通りである。
まず、シーン画像をRGB色空間からHSV色空間に変換し、しきい値法を適用してマーカの中心色である緑色領域を抽出し、その領域中心をマーカ中心点として検出する。最後に、マーカ中心点が全てのシーン画像に対し正しく検出されていることを、2名で目視により確認した。一方、目画像の正解目中心点P´については目視により検出した。
収集したデータセットの目画像とシーン画像のサンプルを図6に示す。
被験者13名の内、(a)〜(e)は眼鏡をかけていない男性5名、(f)〜(j)は眼鏡をかけている男性5名、(k)〜(m)はコンタクトレンズを装着している女性3名である。
収集したデータセットの目画像とシーン画像のサンプルを図6に示す。
被験者13名の内、(a)〜(e)は眼鏡をかけていない男性5名、(f)〜(j)は眼鏡をかけている男性5名、(k)〜(m)はコンタクトレンズを装着している女性3名である。
ここで、表1に、シーン撮像用カメラ画像における正解注視点位置g´の分布を示す。
この分布より、収集したデータセットが操作領域内で良好な分布を有していることを確認できる。なお、表1において、各欄の数値とその合計の数値との間に誤差が生じているのは、小数点以下の数値の切り上げ切り下げに伴うものである。
この分布より、収集したデータセットが操作領域内で良好な分布を有していることを確認できる。なお、表1において、各欄の数値とその合計の数値との間に誤差が生じているのは、小数点以下の数値の切り上げ切り下げに伴うものである。
また、FDモデルを学習するために、UnityEyesデータセットを使用した。
ここでは、目のモデルとカメラ位置との距離を、図7に示すように遠距離、中間位置、及び、近距離の3種類に設定した。
次に、独自に作成したプログラムを用いて、様々な目画像をランダムに生成した。作製した目画像は640297枚であった。
ここでは、目のモデルとカメラ位置との距離を、図7に示すように遠距離、中間位置、及び、近距離の3種類に設定した。
次に、独自に作成したプログラムを用いて、様々な目画像をランダムに生成した。作製した目画像は640297枚であった。
FDモデルの学習処理に関しては、ImageNetデータセットの事前学習モデルを使用した。ここで、Dropout率を50%に設定した。
次に、過学習を避けるためにfine−tuningを適用してモデルを学習した。
ここで、UnityEyesデータセットから目画像を生成し、最適化する手法としてAdam法を適用した。また学習時のバッチサイズを20に設定した。更に、検出精度を向上させるためにData Augmentation法(データ拡張法:以下、単にDA法とも記載)を適用した。
次に、過学習を避けるためにfine−tuningを適用してモデルを学習した。
ここで、UnityEyesデータセットから目画像を生成し、最適化する手法としてAdam法を適用した。また学習時のバッチサイズを20に設定した。更に、検出精度を向上させるためにData Augmentation法(データ拡張法:以下、単にDA法とも記載)を適用した。
前記した目撮像用カメラ12で撮影された目画像と、UnityEyesの目画像には違いがあるため、HSV色空間における色相を−0.5〜0.5の範囲、彩度を0.2〜1.2の範囲、明度を−0.4〜0.4の範囲、コントラストを0.2〜1.2の範囲で、それぞれランダムに調整した。
評価に関しては、UnityEyesのデータセットから約61000の目画像をランダムに選択した。そして、これらの画像をFDモデルに入力し、その精度を検証した。
評価に関しては、UnityEyesのデータセットから約61000の目画像をランダムに選択した。そして、これらの画像をFDモデルに入力し、その精度を検証した。
その結果、上記したDA法を適用することで、視線ベクトルと目中心座標の各平均誤差は、θx(deg.)が7.28から2.84へ、θy(deg.)が8.33から3.47へ、θz(deg.)が5.88から2.07へ、Px(pixel)が2.21から0.69へ、Py(pixel)が2.70から1.01へ、それぞれ低下し、精度が向上した。
なお、図8に、推定した視線ベクトルθと目中心点Pを示す。この図8中の瞳孔の中心に位置する点が目中心点を示し、この目中心点から延びる線が視線ベクトルを示している。
なお、図8に、推定した視線ベクトルθと目中心点Pを示す。この図8中の瞳孔の中心に位置する点が目中心点を示し、この目中心点から延びる線が視線ベクトルを示している。
(目画像撮像工程とシーン画像撮像工程)
上記した被験者数13名のうち3名を、視線が向けられた注視点を推定する評価用データに用いる。即ち、評価用データの3名について、目画像撮像工程とシーン画像撮像工程が行われ、目画像が取得されることになる(図9のS21(ステップ21))。
(推定処理工程)
上記したように、被験者数13名のうち評価用データに3名を選んだため、残りの10名を学習データに用いた(機械学習を行う)。即ち、本実験では不特定人物問題を扱う。
なお、本発明は、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、機械学習に複数の畳込みニューラルネットワーク、即ち、GEモデルとFDモデルを用いる。そして、取得された目画像を、上記したCNNモデルに入力し、出力として推定した注視点座標を取得する(図9のS21(ステップ22))。
一方、比較例手法としては、従来公知の有名なCNNモデルである、AlexNet、Inception−v3、VGG−11、VGG−19、ResNet−101、及び、ResNet−200を、それぞれ単独で用いた。
各手法を適用して推定した注視点gと正解注視点g´の平均誤差距離を、図10に示す。
上記した被験者数13名のうち3名を、視線が向けられた注視点を推定する評価用データに用いる。即ち、評価用データの3名について、目画像撮像工程とシーン画像撮像工程が行われ、目画像が取得されることになる(図9のS21(ステップ21))。
(推定処理工程)
上記したように、被験者数13名のうち評価用データに3名を選んだため、残りの10名を学習データに用いた(機械学習を行う)。即ち、本実験では不特定人物問題を扱う。
なお、本発明は、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、機械学習に複数の畳込みニューラルネットワーク、即ち、GEモデルとFDモデルを用いる。そして、取得された目画像を、上記したCNNモデルに入力し、出力として推定した注視点座標を取得する(図9のS21(ステップ22))。
一方、比較例手法としては、従来公知の有名なCNNモデルである、AlexNet、Inception−v3、VGG−11、VGG−19、ResNet−101、及び、ResNet−200を、それぞれ単独で用いた。
各手法を適用して推定した注視点gと正解注視点g´の平均誤差距離を、図10に示す。
一つのCNNモデルから構成される六つの比較手法のうち、VGG−11とVGG−19は、平均誤差が約7cmの高い推定精度を得た。
これらの結果より、本発明のGEモデルとしてInception−v3とVGG−19を採用した。更に本発明では、これにFDモデルを統合することで推定精度を向上させた。
ここで、FDモデルとしてInception−v3を用いた実施例1では、2つのモデルを統合することで平均誤差を9.25cmから7.17cmに低減できた。また、FDモデルとしてVGG−19を用いた実施例2では、平均誤差が1.62cmとなり、高い推定精度を得た。
これらの結果より、本発明のGEモデルとしてInception−v3とVGG−19を採用した。更に本発明では、これにFDモデルを統合することで推定精度を向上させた。
ここで、FDモデルとしてInception−v3を用いた実施例1では、2つのモデルを統合することで平均誤差を9.25cmから7.17cmに低減できた。また、FDモデルとしてVGG−19を用いた実施例2では、平均誤差が1.62cmとなり、高い推定精度を得た。
更に、図11に、横軸を誤差距離、縦軸を成功率とする性能曲線を示す。
この性能曲線は、全テスト画像数に対する、誤差がしきい値未満のときの成功画像数の比率である。これらの曲線から、実施例1、2は他の手法と比較して高い精度が得られ、特に実施例2は更に高い精度が得られることを確認できた。
この性能曲線は、全テスト画像数に対する、誤差がしきい値未満のときの成功画像数の比率である。これらの曲線から、実施例1、2は他の手法と比較して高い精度が得られ、特に実施例2は更に高い精度が得られることを確認できた。
なお、本発明は、以下の処理を実行することによっても実現される。
即ち、上記した実施の形態の機能を実現する注視点推定プログラム(ソフトウェア)を、ネットワーク又は各種記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して、目画像撮像工程、シーン画像撮像工程、及び、推定処理工程を実行する(目撮像用カメラ12、シーン撮像用カメラ14、及び、コンピュータ15を動作させる)。
このプログラムが記録されたコンピュータが読み取り可能な情報記録媒体である場合も、本発明に含まれる。なお、情報記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
即ち、上記した実施の形態の機能を実現する注視点推定プログラム(ソフトウェア)を、ネットワーク又は各種記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して、目画像撮像工程、シーン画像撮像工程、及び、推定処理工程を実行する(目撮像用カメラ12、シーン撮像用カメラ14、及び、コンピュータ15を動作させる)。
このプログラムが記録されたコンピュータが読み取り可能な情報記録媒体である場合も、本発明に含まれる。なお、情報記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
次に、本発明の作用効果を確認するために行った実施例について説明する。
ここでは、本発明の注視点推定システム10である発明機器と、市販機器である2つの比較機器をそれぞれ使用し、注視点の推定精度を比較した。なお、市販機器には、EMR−9((株)ナックイメージテクノロジー製)と眼球運動解析システム((株)ガゾウ製)を用いた。
まず、発明機器と2つの比較機器を、以下の手順(前記した注視点推定方法と同様の方法)で操作した。
ここでは、本発明の注視点推定システム10である発明機器と、市販機器である2つの比較機器をそれぞれ使用し、注視点の推定精度を比較した。なお、市販機器には、EMR−9((株)ナックイメージテクノロジー製)と眼球運動解析システム((株)ガゾウ製)を用いた。
まず、発明機器と2つの比較機器を、以下の手順(前記した注視点推定方法と同様の方法)で操作した。
(1)被験者が機器を装着する。
(2)ディスプレイ上の任意の位置にマーカが自動的に表示される。
(3)被験者はマーカの矢印を確認して該当する方向キーを押す。
(4)上記した手順(2)及び(3)を49回行う。
(5)被験者は機器の位置を少しずらし、上記した手順(2)〜(4)までの処理を9回繰り返し行う。即ち、被験者は441回の試行を行い、そのときの各機器の平均誤差を求めた。
(2)ディスプレイ上の任意の位置にマーカが自動的に表示される。
(3)被験者はマーカの矢印を確認して該当する方向キーを押す。
(4)上記した手順(2)及び(3)を49回行う。
(5)被験者は機器の位置を少しずらし、上記した手順(2)〜(4)までの処理を9回繰り返し行う。即ち、被験者は441回の試行を行い、そのときの各機器の平均誤差を求めた。
比較機器を標準装着位置から動かすことなく試験を行った場合の平均誤差は、EMR−9で4.13cmであり、眼球運動解析システムで3.24cmであり、約4cmであることが確認された。一方、比較機器を標準装着位置から動かして試験を行った場合の平均誤差は、EMR−9で8.60cmであり、眼球運動解析システムで10.48cmであり、大幅に増加した。
このため、比較機器を実際に使用する場合は、使用者が再度キャリブレーション作業を行う必要があることが分かった。
一方、発明機器は、キャリブレーションフリーで設計されているため、標準装着位置から動かして試験を行った場合の平均誤差が、実施例1で7.17cmとなり比較機器よりも小さく、更に実施例2では1.62cmまで低減できることを確認できた。
このため、比較機器を実際に使用する場合は、使用者が再度キャリブレーション作業を行う必要があることが分かった。
一方、発明機器は、キャリブレーションフリーで設計されているため、標準装着位置から動かして試験を行った場合の平均誤差が、実施例1で7.17cmとなり比較機器よりも小さく、更に実施例2では1.62cmまで低減できることを確認できた。
上記した実験の結果から、発明機器はキャリブレーション処理を行わなくても注視点の推定精度が高いことを確認できた。
しかし、これまでの実験では、操作面(対象物の一例)とシーン撮像用カメラとの距離dは90cmに設定していた。そこで追加実験として、d=90(cm)でモデルを学習し、テストデータとしてdが80cmと100cmのときの注視点推定実験を実施した。
この結果、実施例1の平均誤差は、90cmの場合に7.17cmであったが、80cmの場合に7.52cm、100cmの場合に7.23cmとなり、また、実施例2の平均誤差は、90cmの場合に1.62cmであったが、80cmの場合に4.35cm、100cmの場合に4.85cmとなった。
このように、テストデータの距離dは、上記した学習データとは異なるため、注視点推定精度が低下したが、この精度は、前記した市販機器の誤差とほぼ同等であった。
しかし、これまでの実験では、操作面(対象物の一例)とシーン撮像用カメラとの距離dは90cmに設定していた。そこで追加実験として、d=90(cm)でモデルを学習し、テストデータとしてdが80cmと100cmのときの注視点推定実験を実施した。
この結果、実施例1の平均誤差は、90cmの場合に7.17cmであったが、80cmの場合に7.52cm、100cmの場合に7.23cmとなり、また、実施例2の平均誤差は、90cmの場合に1.62cmであったが、80cmの場合に4.35cm、100cmの場合に4.85cmとなった。
このように、テストデータの距離dは、上記した学習データとは異なるため、注視点推定精度が低下したが、この精度は、前記した市販機器の誤差とほぼ同等であった。
次に、実施例2についてシーン画像上の注視点推定誤差の分布を調べた。
シーン画像を10×10セクションに分割し、各セクションの平均誤差を計算した。その結果を表2に示す。
シーン画像を10×10セクションに分割し、各セクションの平均誤差を計算した。その結果を表2に示す。
表2の分布から、上側に位置するセクションの誤差は下側に位置するセクションの誤差よりも小さいことがわかる。
これは、ユーザが下側を見るとき、上瞼が瞳孔を隠すため、瞳孔中心を検出することが困難なためと推測する。一方、ユーザが上側を見るときは、瞳孔が鮮明に写り、注視点を検出し易くなる。
これは、ユーザが下側を見るとき、上瞼が瞳孔を隠すため、瞳孔中心を検出することが困難なためと推測する。一方、ユーザが上側を見るときは、瞳孔が鮮明に写り、注視点を検出し易くなる。
なお、収集したデータセットには、眼鏡なし、眼鏡あり、コンタクトレンズ付きの3種類の目画像が含まれている。そこで、目画像の種類による推定精度の違いについて検討した。3種類において、それぞれ被験者3名を選びテストデータとした。なお、使用した目画像は、眼鏡なしの場合が11729枚、眼鏡ありの場合が11579枚、コンタクトレンズ付きの場合が11522枚、である。
それぞれの平均誤差は、眼鏡なしの場合、実施例1で7.17cm、実施例2で1.62cm、眼鏡ありの場合、実施例1で15.28cm、実施例2で9.47cm、コンタクトレンズ付きの場合、実施例1で5.62cm、実施例2で1.84cm、であった。
それぞれの平均誤差は、眼鏡なしの場合、実施例1で7.17cm、実施例2で1.62cm、眼鏡ありの場合、実施例1で15.28cm、実施例2で9.47cm、コンタクトレンズ付きの場合、実施例1で5.62cm、実施例2で1.84cm、であった。
この結果より、眼鏡なしとコンタクトレンズ付きの場合は、推定精度を高くできることを確認できた。
一方、眼鏡ありの場合は推定精度が低かった。これは、眼鏡ありの目画像は、レンズの歪みが強く影響するため、瞳孔中心の検出が難しいという問題による。また、眼鏡ありの目画像の学習データが眼鏡なしの学習データより少ないことも理由の要因と推測されるため、学習データを多くできれば、推定精度を高くできると考えられる。
一方、眼鏡ありの場合は推定精度が低かった。これは、眼鏡ありの目画像は、レンズの歪みが強く影響するため、瞳孔中心の検出が難しいという問題による。また、眼鏡ありの目画像の学習データが眼鏡なしの学習データより少ないことも理由の要因と推測されるため、学習データを多くできれば、推定精度を高くできると考えられる。
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、前記したそれぞれの実施の形態や変形例の一部又は全部を組合せて本発明の注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体を構成する場合も本発明の権利範囲に含まれる。
前記実施の形態においては、1つのシーン撮像用カメラと一体となった1つの目撮像用カメラを用いて、使用者の片方の目を撮像した場合について説明したが、一体となった目撮像用カメラとシーン撮像用カメラを2つ用いて(注視点推定システムは2組の目撮像用カメラとシーン撮像用カメラを有する)、使用者の両方の目を同時に撮像することもできる。この場合、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に2組得られることになる。
また、2組の目撮像用カメラとシーン撮像用カメラを用いて、使用者の片方の目を斜め下方と斜め上方のそれぞれから撮像することもできる。この場合も、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に2組得られることになる。
更に、4組の目撮像用カメラとシーン撮像用カメラを用いて、使用者の両方の目をそれぞれ、斜め下方と斜め上方から撮像することもできる。この場合、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に4組得られることになる。
前記実施の形態においては、1つのシーン撮像用カメラと一体となった1つの目撮像用カメラを用いて、使用者の片方の目を撮像した場合について説明したが、一体となった目撮像用カメラとシーン撮像用カメラを2つ用いて(注視点推定システムは2組の目撮像用カメラとシーン撮像用カメラを有する)、使用者の両方の目を同時に撮像することもできる。この場合、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に2組得られることになる。
また、2組の目撮像用カメラとシーン撮像用カメラを用いて、使用者の片方の目を斜め下方と斜め上方のそれぞれから撮像することもできる。この場合も、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に2組得られることになる。
更に、4組の目撮像用カメラとシーン撮像用カメラを用いて、使用者の両方の目をそれぞれ、斜め下方と斜め上方から撮像することもできる。この場合、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に4組得られることになる。
本発明に係る注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体は、キャリブレーション処理が不要で、装置構成の簡略化と製造コストの低減が図れる。これにより、例えば、肢体不自由者のための文字入力システムや運転支援システム、読み上げ中の文理解能力の分析等、様々な分野に有効に利用できる。
10:注視点推定システム、11:目、12:目撮像用カメラ(目画像撮像手段)、13:対象物、14:シーン撮像用カメラ(シーン画像撮像手段)、15:コンピュータ(推定処理手段)
Claims (7)
- 使用者の視線が向けられた注視点を推定する注視点推定システムにおいて、
前記使用者の前方に配置され、該使用者の目をカラーで撮像する目画像撮像手段と、
前記目画像撮像手段の裏面側に一体的に設けられ、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像手段と、
前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理手段とを有し、
前記推定処理手段では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習が行われ、しかも、該機械学習に複数の畳込みニューラルネットワークが用いられることを特徴とする注視点推定システム。 - 請求項1記載の注視点推定システムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルでは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標が推定され、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標が求められることを特徴とする注視点推定システム。 - 使用者の視線が向けられた注視点を推定する注視点推定方法において、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用いることを特徴とする注視点推定方法。 - 請求項3記載の注視点推定方法において、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることを特徴とする注視点推定方法。 - 使用者の視線が向けられた注視点を推定する注視点推定プログラムにおいて、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用い、
前記目画像撮像工程、前記シーン画像撮像工程、及び、前記推定処理工程の各処理をコンピュータに実行させることを特徴とする注視点推定プログラム。 - 請求項5記載の注視点推定プログラムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることを特徴とする注視点推定プログラム。 - 請求項5又は6記載の注視点推定プログラムが記録されたことを特徴とする情報記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019037630A JP2020140630A (ja) | 2019-03-01 | 2019-03-01 | 注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019037630A JP2020140630A (ja) | 2019-03-01 | 2019-03-01 | 注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020140630A true JP2020140630A (ja) | 2020-09-03 |
Family
ID=72264983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019037630A Pending JP2020140630A (ja) | 2019-03-01 | 2019-03-01 | 注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020140630A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020184143A (ja) * | 2019-05-07 | 2020-11-12 | 公立大学法人広島市立大学 | 注視点推定方法 |
CN113325956A (zh) * | 2021-06-29 | 2021-08-31 | 华南理工大学 | 一种基于神经网络的眼动控制系统及实现方法 |
CN113807251A (zh) * | 2021-09-17 | 2021-12-17 | 哈尔滨理工大学 | 一种基于外观的视线估计方法 |
JP2022115480A (ja) * | 2021-01-28 | 2022-08-09 | 独立行政法人国立高等専門学校機構 | 視線入力装置、および視線入力方法 |
-
2019
- 2019-03-01 JP JP2019037630A patent/JP2020140630A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020184143A (ja) * | 2019-05-07 | 2020-11-12 | 公立大学法人広島市立大学 | 注視点推定方法 |
JP2022115480A (ja) * | 2021-01-28 | 2022-08-09 | 独立行政法人国立高等専門学校機構 | 視線入力装置、および視線入力方法 |
JP7296069B2 (ja) | 2021-01-28 | 2023-06-22 | 独立行政法人国立高等専門学校機構 | 視線入力装置、および視線入力方法 |
CN113325956A (zh) * | 2021-06-29 | 2021-08-31 | 华南理工大学 | 一种基于神经网络的眼动控制系统及实现方法 |
CN113807251A (zh) * | 2021-09-17 | 2021-12-17 | 哈尔滨理工大学 | 一种基于外观的视线估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427503B (zh) | 人眼追踪方法及人眼追踪装置 | |
CN107193383B (zh) | 一种基于人脸朝向约束的二级视线追踪方法 | |
US10496163B2 (en) | Eye and head tracking | |
JP2020140630A (ja) | 注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体 | |
Itoh et al. | Interaction-free calibration for optical see-through head-mounted displays based on 3d eye localization | |
WO2020042345A1 (zh) | 一种单相机采集人眼视线方向的方法及系统 | |
KR102056333B1 (ko) | 안경 렌즈 에지의 표시를 설정하기 위한 방법 및 장치 및 컴퓨터 프로그램 | |
CN105243386B (zh) | 人脸活体判断方法以及系统 | |
JP4692526B2 (ja) | 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム | |
CN113808160B (zh) | 视线方向追踪方法和装置 | |
WO2020020022A1 (zh) | 视觉识别方法及其系统 | |
WO2020042542A1 (zh) | 眼动控制校准数据获取方法和装置 | |
CN111933275A (zh) | 一种基于眼动与面部表情的抑郁评估系统 | |
JP4936491B2 (ja) | 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム | |
JP2020526735A (ja) | 瞳孔距離測定方法、装着型眼用機器及び記憶媒体 | |
Hyder et al. | Real-time non-intrusive eye-gaze tracking based wheelchair control for the physically challenged | |
JP4682372B2 (ja) | 視線方向の検出装置、視線方向の検出方法およびコンピュータに当該視線方向の検出方法を実行させるためのプログラム | |
CN106461982B (zh) | 用于确定至少一个行为参数的方法 | |
KR102444768B1 (ko) | 안경 렌즈의 국부적 굴절력 및/또는 굴절력 분포를 측정하기 위한 방법 및 장치 | |
Parada et al. | ExpertEyes: Open-source, high-definition eyetracking | |
CN108596161A (zh) | 一种便携式拍照眼镜及拍照方法 | |
Carrato et al. | Computer vision for the blind: a dataset for experiments on face detection and recognition | |
Hong et al. | Lightweight, low-cost, side-mounted mobile eye tracking system | |
KR20110111830A (ko) | 안경형 마우스 시스템 | |
KR20210080108A (ko) | 홍채 이미지를 사용하여 스트레스 지수를 판별하는 방법 |