JP2020140630A

JP2020140630A - 注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体

Info

Publication number: JP2020140630A
Application number: JP2019037630A
Authority: JP
Inventors: 剛史齊藤; Takashi Saito; チンサティワラポン; Chinsatitf Warapon
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-09-03

Abstract

【課題】キャリブレーション処理が不要で、装置構成の簡略化と製造コストの低減が可能な注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体を提供する。【解決手段】使用者の前方に配置された目画像撮像手段１２により、使用者の目１１をカラーで撮像する目画像撮像工程と、目画像撮像手段１２の裏面側に一体的に設けられたシーン画像撮像手段１４により、使用者の視線が向けられる対象物１３を撮像するシーン画像撮像工程と、推定処理手段１５により、目画像撮像手段１２で撮像された目画像から、シーン画像撮像手段１４で撮像されたシーン画像中の、使用者の視線が向けられた注視点を推定する推定処理工程を有し、推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、この機械学習に複数の畳込みニューラルネットワークを用いる。【選択図】図１

Description

本発明は、使用者がどこを見ているのかを推定するウェアラブル型の（ｗｅａｒａｂｌｅ：身体に装着して利用可能な）注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体に関する。

注視点推定技術は、人がどこを見ているのかを推定する技術であり、人の意図や興味の推定などにおいて重要である。
この注視点推定技術を実装するデバイスは、据え置き型デバイスとウェアラブル型デバイスに大別される。なお、前者は非接触型であるが注視点推定範囲はスクリーン内に限定され、後者は接触型であるが注視点推定範囲に制限はない。
ウェアラブル型デバイスには、使用者の目を撮像するアイカメラ（目画像撮像手段）と、使用者の視線が向けられる対象物を撮像するシーンカメラ（シーン画像撮像手段）とを備えた注視点推定システム（ＧＥＳ）があり、様々な用途への適用が期待されている。

しかし、市販の一般的な注視点推定システムはいずれも、使用者の注視点推定を行う前に、最初にアイカメラ画像の目（瞳孔）中心点とシーンカメラ画像の注視点との間の関係を求めるキャリブレーション処理を行う必要があり、操作性が悪かった。
また、一度キャリブレーション処理を行ったとしても、例えば、使用者が長時間利用したり、激しく動いたりした場合には、ウェアラブル型デバイスが動いてアイカメラと目の位置関係が変化するため、再度キャリブレーション処理を行う必要があった。
そこで、キャリブレーション処理を行わない技術が提案されている。

例えば、特許文献１には、据え置き型デバイスであって、キャリブレーション処理を行うことなく、赤外カメラと角膜反射を利用して、視線方向を検出できる視線検出用コンピュータプログラム、視線検出装置及び視線検出方法が開示されている。
特許文献２には、据え置き型デバイスであって、ユーザ毎にキャリブレーションを行うことなく、赤外線と角膜反射を利用して視線の位置を精度よく検知することができる情報処理装置、画像形成装置及びプログラムが開示されている。
特許文献３には、事前のキャリブレーションなしに、画面に表示された文書をユーザが読む際の視線の動きに基づいて、ユーザが読んだ範囲の特定精度を向上可能な読書範囲検出装置、読書範囲検出方法及び読書範囲検出用コンピュータプログラムが開示されている。
特許文献４には、キャリブレーションを必要とせずに、近赤外線と角膜反射を利用して、対象者の左眼又は右眼の片眼の画像のみを解析して対象者の視線方向を検出する視線検出装置及び視線入力システムが開示されている。
特許文献５には、キャリブレーションを要することなく、赤外線を用いて被検者の視線を検出する視線検出による信号発信装置が開示されている。
特許文献６には、キャリブレーションを行うことなく、角膜表面反射画像と環境画像をマッチングすることにより注視点を推測する角膜表面反射画像を利用した視線計測方法及びその装置が開示されている。

特開２０１８−１２０２９９号公報特開２０１８−０４９５２７号公報特開２０１７−１１１５５０号公報特開２０１６−０３５６５４号公報特開２０１５−２３１４５８号公報特開２０１５−１２３２６２号公報

前記した特許文献１、２、４、５に開示の技術は、赤外線を用いることで、瞳孔中心を検出しており、処理は容易になるが製造コストがかかっていた。なお、特許文献２の技術は、ユーザ毎にキャリブレーションを行わなくてもよいと記載しているが、事前にキャリブレーションを行う必要があった。
特許文献３の開示の技術は、キャリブレーションのための操作をユーザにさせることはないが、キャリブレーションそのものを実行する必要はあった。
特許文献６に開示の技術は、角膜表面反射画像と環境画像をマッチングさせることで、注視点を推測するため、推測精度の向上には多くのデータが必要であった。

本発明はかかる事情に鑑みてなされたもので、キャリブレーション処理が不要で、装置構成の簡略化と製造コストの低減が可能な注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体を提供することを目的とする。

前記目的に沿う本発明に係る注視点推定システムは、使用者の視線が向けられた注視点を推定する注視点推定システムにおいて、
前記使用者の前方に配置され、該使用者の目をカラーで撮像する目画像撮像手段と、
前記目画像撮像手段の裏面側に一体的に設けられ、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像手段と、
前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理手段とを有し、
前記推定処理手段では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習が行われ、しかも、該機械学習に複数の畳込みニューラルネットワークが用いられる。

本発明に係る注視点推定システムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルでは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標が推定され、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標が求められることが好ましい。

前記目的に沿う本発明に係る注視点推定方法は、使用者の視線が向けられた注視点を推定する注視点推定方法において、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用いる。

本発明に係る注視点推定方法において、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることが好ましい。

前記目的に沿う本発明に係る注視点推定プログラムは、使用者の視線が向けられた注視点を推定する注視点推定プログラムにおいて、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用い、
前記目画像撮像工程、前記シーン画像撮像工程、及び、前記推定処理工程の各処理をコンピュータに実行させる。

本発明に係る注視点推定プログラムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることが好ましい。

前記目的に沿う本発明に係る情報記録媒体は、本発明に係る注視点推定プログラムが記録されている。

本発明に係る注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体は、使用者の目を目画像撮像手段によりカラーで撮像するので、従来のように、赤外線を用いることなく、目画像の目中心点を推定し易くなる。
また、使用者の視線が向けられた注視点の推定処理で、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、機械学習に複数の畳込みニューラルネットワークを用いるので、注視点の推定精度を向上できる。
従って、従来のようなキャリブレーション処理が不要となり、装置構成の簡略化と製造コストの低減も図れる。

（Ａ）、（Ｂ）はそれぞれ本発明の一実施の形態に係る注視点推定システムの使用状態を示す側面図、平面図である。同注視点推定システムの概略構成の説明図である。本発明の一実施の形態に係る注視点推定方法の説明図である。同注視点推定方法の準備工程のフロー図である。同注視点推定方法の機械学習に用いるマーカの説明図である。同注視点推定方法の機械学習に用いる目画像とこれに対応するシーン画像の説明図である。同注視点推定方法の機械学習に用いる目画像の説明図である。同注視点推定方法の機械学習に用いる目画像で推定した視線ベクトルと目中心点を示す説明図である。同注視点推定方法のフロー図である。ＣＮＮモデルの手法ごとの注視点推定結果を示すグラフである。ＣＮＮモデルの手法ごとの性能曲線を示すグラフである。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図１（Ａ）、（Ｂ）、図２に示すように、本発明の一実施の形態に係る注視点推定システム１０は、使用者の視線が向けられた注視点（使用者がどこを見ているのか）を推定するウェアラブル型デバイス（眼鏡型）であり、使用者の前方に配置され、使用者の目１１を撮像する目撮像用カメラ（目画像撮像手段の一例）１２と、使用者の視線が向けられる対象物（例えば、ディスプレイ）１３を撮像するシーン撮像用カメラ（シーン画像撮像手段の一例）１４と、目撮像用カメラ１２で撮像された目画像から、シーン撮像用カメラ１４で撮像されたシーン画像中の注視点を推定するコンピュータ（推定処理手段の一例）１５とを有している。以下、詳しく説明する。

図１（Ａ）、（Ｂ）に示すように、目撮像用カメラ１２の裏面側には、シーン撮像用カメラ１４が一体的に設けられ、その位置関係が固定された状態で、眼鏡フレーム（図示しない）に取り付けられている。ここで、目撮像用カメラ１２とシーン撮像用カメラ１４の眼鏡フレームへの取り付けは、取り付け取り外し可能にすることもでき、また、取り外しができないように取り付ける（眼鏡フレームと一体化する）こともできる。
なお、目撮像用カメラ１２とシーン撮像用カメラ１４は、目撮像用カメラ１２が使用者（片方の目）の前方に配置されれば、例えば、帽子やヘッドバンド等に取り付けることもできる。

目撮像用カメラ１２とシーン撮像用カメラ１４は、各レンズの中心を通りレンズ面に垂直な直線である光軸（主軸）が、図１（Ｂ）に示すように、平面視して同一直線上に位置するように、表裏一体となって設けられている。更に、一体となった目撮像用カメラ１２とシーン撮像用カメラ１４は、垂直軸回り及び水平軸回りに回動可能に（２つの回動軸を介して）眼鏡フレームに取り付けられている。なお、光軸方向における目撮像用カメラ１２とシーン撮像用カメラ１４のレンズの先端間距離は、平面視して１０ｃｍ（好ましくは５ｃｍ、更には３ｃｍ）以下である。
これにより、例えば、使用者が、目撮像用カメラ１２及びシーン撮像用カメラ１４のいずれか一方を動かしたり、また、その向きを調整したりすると、目撮像用カメラ１２とシーン撮像用カメラ１４が一緒に動くことになる（目撮像用カメラ１２とシーン撮像用カメラ１４の位置関係が変わることはない）。

この目撮像用カメラ１２と目１１との水平距離ｓ（ｃｍ）、目撮像用カメラ１２の光軸の水平線に対する傾斜角度、シーン撮像用カメラ１４の光軸の水平線に対する傾斜角度は、以下の条件下でそれぞれ変更できる。即ち、以下に示す条件を満足すれば、一体となった目撮像用カメラ１２とシーン撮像用カメラ１４を眼鏡フレームに対して、上記した垂直軸回り及び／又は水平軸回りに動かすことで、目撮像用カメラ１２とシーン撮像用カメラ１４の位置を目１１に対して移動させることができる。
なお、シーン撮像用カメラ１４の対象物１３に対する距離も任意（使用者の視線が向けれる対象物１３の位置に応じて変動）であり、特に限定されるものではないため、ここではｄ（ｃｍ）と記載している。

目撮像用カメラ１２は、目１１の全体を撮像できる位置で（顔全体を撮像する必要はない）、かつ、対象物１３を視ている目１１の視界を遮らない位置に配置する。具体的には、目撮像用カメラ１２の性能に応じて、水平距離ｓを、例えば、３〜１０ｃｍ（ここでは５ｃｍ）とし、目撮像用カメラ１２が目１１を斜め下方から見上げるように配置する（目１１を斜め上方から見下ろすように配置することもできる）。
シーン撮像用カメラ１４は、対象物１３を視ている目１１の視界を遮らないように、具体的には、シーン撮像用カメラ１４が対象物１３を斜め下方から見上げるように配置する（対象物１３を斜め上方から見下ろすように配置することもできる）。
ここでは、目撮像用カメラ１２とシーン撮像用カメラ１４が、使用者の目１１と対象物１３との間に位置し、かつ、目撮像用カメラ１２とシーン撮像用カメラ１４の前記した光軸と、使用者の目１１と対象物１３を結ぶ線とが、平面視して同一直線上に位置するように（多少ずれてもよい）、目撮像用カメラ１２とシーン撮像用カメラ１４を配置している。

目撮像用カメラ１２は、目１１の全体をカラーで撮像できるカメラであり、従来公知のＣＭＯＳカメラ、例えば、カラーフィルタを施すことでカラー化させるもの等を使用できる。なお、カメラには従来公知のＣＣＤカメラ、例えば、１枚のセンサにＲＧＢの各色を作り込む単板方式や、光学的にＲＧＢの各色を分離したものをそれぞれのセンサで撮影する多板（３板）方式のもの等も使用できる。
これにより、得られる目画像もカラーとなる。
シーン撮像用カメラ１４も上記した目撮像用カメラ１２と同様、対象物１３の全体をカラーで撮像できるＣＭＯＳカメラであるが、白黒で撮像するＣＭＯＳカメラ等でもよい。
このように、目撮像用カメラ１２に目１１をカラーで撮像できるＣＭＯＳカメラを用いることで、従来のような赤外線ＬＥＤや赤外線カメラが不要となり、軽量化が図れる。

目撮像用カメラ１２とシーン撮像用カメラ１４で撮影される目画像とシーン画像は、同時に撮影されてコンピュータ１５に送信され保存される（画像保存）。なお、目撮像用カメラ１２及びシーン撮像用カメラ１４とコンピュータ１５とは、有線により接続されているが、無線であってもよい。また、目画像とシーン画像の同時撮影は、予めコンピュータ１５に搭載したプログラムにより行うことができるが、使用者が行ってもよい。
このコンピュータ１５は、ＲＡＭ、ＣＰＵ、ＲＯＭ、Ｉ／Ｏ、及び、これらの要素を接続するバスを備えた従来公知のものであるが、これに限定されるものではない。

コンピュータ１５では、予め得られた目画像の目中心点（瞳孔中心点）とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習が行われ、しかも、機械学習に深層学習の一種である畳込みニューラルネットワーク（以下、ＣＮＮとも記載）を複数用いている。この畳込みニューラルネットワークを用いて機械学習が行われるモデルは、注視推定モデル（以下、ＧＥ（ＧａｚｅＥｓｔｉｍａｔｉｏｎ）モデルとも記載）と特徴抽出モデル（以下、ＦＤ（ＦｅａｔｕｒｅＤｅｔｅｃｔｉｏｎ）モデルとも記載）の２つのモデルで構成されている。
以下、図３を参照しながら説明する。

注視推定モデル（ＧＥモデル）は、予め得られた目画像とシーン画像の注視点座標を用いて、使用者の視線が向けられるシーン画像中の注視点座標を推定するｅｎｄ−ｔｏ−ｅｎｄの畳込みニューラルネットワークモデルである。本実施の形態では、ＧＥモデルとして、従来公知の二つの代表的なＣＮＮモデルであるＩｎｃｅｐｔｉｏｎ−ｖ３（ＩｎｃｅｐｔｉｏｎＶ３とも記載）とＶＧＧ−１９のいずれかを用いているが、これらに限定されるものではなく、注視点推定システムの使用用途に応じて適宜選択できる。
ＧＥモデルは、目撮像用カメラ１２とシーン撮像用カメラ１４で撮影された予め得られた目画像と注視点座標を用いて学習する。ここで、損失関数ｌｏｓｓ_ＧＥは下式で定義する。
ｌｏｓｓ_ＧＥ＝｜（ｇ_ｘ−ｇ_ｘ´）^２＋（ｇ_ｙ−ｇ_ｙ´）^２｜_２
この関数は推定された注視点座標ｇ＝（ｇ_ｘ,ｇ_ｙ）と正解注視点座標ｇ´＝（ｇ_ｘ´,ｇ_ｙ´）との間の距離である。

特徴抽出モデル（ＦＤモデル）は、予め得られた目画像を用い、注視情報である目画像の視線ベクトルθ＝（θ_ｘ,θ_ｙ,θ_ｚ）と目画像の目（瞳孔）中心座標Ｐ＝（Ｐ_ｘ,Ｐ_ｙ）を求めるモデルである。このモデルには上記したＩｎｃｅｐｔｉｏｎ−ｖ３を用いるが、これらに限定されるものではなく、注視点推定システムの使用用途に応じて適宜選択できる。
このモデルは複数のモジュールから構成されており、各モジュールは多くの畳み込み層を持つ。十分な学習データがある場合、Ｉｎｃｅｐｔｉｏｎ−ｖ３は他のモデルに比べて高いパフォーマンスを得る。
ＦＤモデルの入力データと出力データはそれぞれカラーの目画像と注視情報であり、ＦＤモデルを学習するために、大規模な目画像と注視情報を用意することは困難である。そこで、本実施の形態では、従来公知のＵｎｉｔｙＥｙｅｓを用いて数十万の目画像と注視情報のデータを生成する。

ＵｎｉｔｙＥｙｅｓは、３Ｄの目モデルを使用して目画像を生成するためのものであり、このＵｎｉｔｙＥｙｅｓには、目画像の視線ベクトル（注視ベクトル）や目中心座標（瞳孔中心座標）などの重要な情報が含まれている。
ＦＤモデルに関して、推定された注視情報と正解値の注視情報のユークリッド距離を損失関数ｌｏｓｓ_ＦＤとして定義する。
ｌｏｓｓ_ＦＤ＝｜（θ_ｘ−θ_ｘ´）^２＋（θ_ｙ−θ_ｙ´）^２＋（θ_ｚ−θ_ｚ´）^２＋（Ｐ_ｘ−Ｐ_ｘ´）^２＋（Ｐ_ｙ−Ｐ_ｙ´）^２｜_２
ただし、θ´＝（θ_ｘ´,θ_ｙ´,θ_ｚ´）は真（正解）の視線ベクトルであり、Ｐ´＝（Ｐ_ｘ´,Ｐ_ｙ´）は目画像中の真（正解）の目中心座標である。

上記したように、機械学習のモデルは、ＧＥモデルとＦＤモデルの２モデルから構成されている。この２つのモデルは並列構造であり、その後続構造は２つのモデルの組み合わせである。
即ち、ＧＥモデルの中間層（ｐｒｅ−ｌｏｇｉｔ層）とＦＤモデルの出力層とを連結させた後、この二つの全結合層を通る（注視点推定部で処理する）ことで、使用者の視線が向けられた推定した注視点Ｇ＝（Ｇ_ｘ,Ｇ_ｙ）が出力されることになる。
なお、学習処理は、ＧＥモデルとＦＤモデルを別々に学習した後、図３に示すように、ＧＥモデルと全結合層を再学習する。この処理の損失関数ｌｏｓｓ_Ｏは、下式で定義される。
ｌｏｓｓ_Ｏ＝｜（Ｇ_ｘ−Ｇ_ｘ´）^２＋（Ｇ_ｙ−Ｇ_ｙ´）^２｜_２

前述のように、ＧＥモデルとして、Ｉｎｃｅｐｔｉｏｎ−ｖ３とＶＧＧ−１９のいずれかのＣＮＮモデルを使用し、ＦＤモデルとして、Ｉｎｃｅｐｔｉｏｎ−ｖ３のＣＮＮモデルを使用した。
ここで、ＦＤモデルの出力層のユニット数は５であり、一方、ＧＥモデルのｐｒｅ−ｌｏｇｉｔ層のユニット数は、Ｉｎｃｅｐｔｉｏｎ−ｖ３で２０４８、ＶＧＧ−１９で４０９６である。このため、上記した二つの結合層のユニット数はＧＥモデルのユニット数によって異なることになる。

従って、使用者が注視点推定システム１０を使用して対象物１３に視線を向けた場合、目撮像用カメラ１２とシーン撮像用カメラ１４で目画像とシーン画像が同時に撮影され、この撮像された目画像から、シーン画像中の注視点を推定できる。なお、目画像とシーン画像の撮像は、予めコンピュータに設定したプログラムによって自動的に行うことができるが、使用者が行ってもよい。

続いて、本発明の一実施の形態に係る注視点推定方法について、図３〜図９を参照しながら説明する。
本実施の形態に係る注視点推定方法は、注視点推定システム１０を用いて、使用者の視線が向けられた注視点を推定する方法であり、データセットを構築する準備工程と、目撮像用カメラ１２により使用者１１の目をカラーで撮像する目画像撮像工程と、シーン撮像用カメラ１４により使用者の視線が向けられる対象物１３を撮像するシーン画像撮像工程と、コンピュータ１５により、目撮像用カメラ１２で撮像された目画像から、シーン撮像用カメラ１４で撮像されたシーン画像中の上記した注視点を推定する推定処理工程とを有している。

（準備工程）
本発明の注視点推定方法は、ＣＮＮモデルを学習するために大規模なデータセットを必要とする。更に、高い推定精度を達成するためには正確な教師データが必要である。
注視点推定タスクの有名なデータセットの一つに、ＭＰＩＩＧａｚｅデータセットがある。このデータセットには、手作業で顔特徴点情報が付与された１０８４８個の顔画像が含まれている。
このデータセットは、被験者１５名から収集した顔全体が写る顔画像であるが、本実施の形態に係る方法に必要な画像は、顔画像ではなく目画像であるため、本発明では独自にデータセットを構築する。具体的には、被験者１３名から合計５万枚以上の目画像を収集した。

キャリブレーションフリーで注視点を推定する場合、データセットには様々なカメラアングルが含まれている必要がある。独自に構築したデータセットの収集手順は、以下の通りである。
１）データ収集には、３４インチのワイドスクリーンディスプレイ（対象物１３）を使用した。シーン撮像用カメラ１４（被験者）とディスプレイの距離はｄ＝９０ｃｍに設定した。データ収集場所は、例えば、大学の研究室であり、十分な光源環境下で行った。
２）様々な目画像を効率的に収集するためのキャプチャプログラムを開発した。
３）キャプチャプログラムでは、ディスプレイを７×７の４９セクションに分割する。キャプチャプログラムは、ランダムに選択された一つのセクションにマーカを表示する（図４のＳ１１（ステップ１１））。ここで、マーカの中央には、図５に示すように、４方向のいずれかの向き（上、下、左、右）の矢印が描かれている。

４）最初に、キャプチャプログラムは、被験者が位置を予測することを避けるため、マーカの表示順序をランダムにする。被験者は頭を動かさずにマーカを注視する。
５）被験者はマーカの矢印に対応する方向キーを押す（図４のＳ１２（ステップ１２））。このとき、キャプチャプログラムは、被験者が方向キーを押したときの目画像とシーン画像を保存する（図４のＳ１３（ステップ１３））。両画像が保存された後、マーカは自動的に次の位置にマーカを表示する。この作業を４９セクション分、即ち、４９回実施する。
６）使用者が機器を動かすことを想定して、様々なカメラアングルの目画像を収集する必要がある。そこで、被験者は、最初に標準的な鼻パッドの位置を基準位置として注視点推定システム１０を移動させる。具体的には、４９組の目画像とシーン画像を収集した後、被験者は注視点推定システム１０の位置を基準位置から１ｃｍ移動させる。次に、被験者は同じ処理を再度行う。
この処理を９回繰り返し、合計４９×９＝４４１組の画像を収集する。この処理を１セットと定義する。

７）各被験者は、異なる日時に９セットを収集する。各被験者からの合計４４１×９＝３９６９組を収集する。
以上に示したように、収集作業は被験者１３名に協力しもらい、合計５１５９７組を収集した。
以上の方法により、全ての目画像とシーン画像を収集した後、被験者が目を閉じている目画像を削除した。残った画像数は５０５９１であった。
次に、注釈付与を行った。正解注視点ｇ´の準備に関しては、被験者は収集作業でマーカ中心の矢印を注視しているため、シーン画像から自動的にマーカ中心を検出する。具体的には、以下の通りである。

まず、シーン画像をＲＧＢ色空間からＨＳＶ色空間に変換し、しきい値法を適用してマーカの中心色である緑色領域を抽出し、その領域中心をマーカ中心点として検出する。最後に、マーカ中心点が全てのシーン画像に対し正しく検出されていることを、２名で目視により確認した。一方、目画像の正解目中心点Ｐ´については目視により検出した。
収集したデータセットの目画像とシーン画像のサンプルを図６に示す。
被験者１３名の内、（ａ）〜（ｅ）は眼鏡をかけていない男性５名、（ｆ）〜（ｊ）は眼鏡をかけている男性５名、（ｋ）〜（ｍ）はコンタクトレンズを装着している女性３名である。

ここで、表１に、シーン撮像用カメラ画像における正解注視点位置ｇ´の分布を示す。
この分布より、収集したデータセットが操作領域内で良好な分布を有していることを確認できる。なお、表１において、各欄の数値とその合計の数値との間に誤差が生じているのは、小数点以下の数値の切り上げ切り下げに伴うものである。

また、ＦＤモデルを学習するために、ＵｎｉｔｙＥｙｅｓデータセットを使用した。
ここでは、目のモデルとカメラ位置との距離を、図７に示すように遠距離、中間位置、及び、近距離の３種類に設定した。
次に、独自に作成したプログラムを用いて、様々な目画像をランダムに生成した。作製した目画像は６４０２９７枚であった。

ＦＤモデルの学習処理に関しては、ＩｍａｇｅＮｅｔデータセットの事前学習モデルを使用した。ここで、Ｄｒｏｐｏｕｔ率を５０％に設定した。
次に、過学習を避けるためにｆｉｎｅ−ｔｕｎｉｎｇを適用してモデルを学習した。
ここで、ＵｎｉｔｙＥｙｅｓデータセットから目画像を生成し、最適化する手法としてＡｄａｍ法を適用した。また学習時のバッチサイズを２０に設定した。更に、検出精度を向上させるためにＤａｔａＡｕｇｍｅｎｔａｔｉｏｎ法（データ拡張法：以下、単にＤＡ法とも記載）を適用した。

前記した目撮像用カメラ１２で撮影された目画像と、ＵｎｉｔｙＥｙｅｓの目画像には違いがあるため、ＨＳＶ色空間における色相を−０．５〜０．５の範囲、彩度を０．２〜１．２の範囲、明度を−０．４〜０．４の範囲、コントラストを０．２〜１．２の範囲で、それぞれランダムに調整した。
評価に関しては、ＵｎｉｔｙＥｙｅｓのデータセットから約６１０００の目画像をランダムに選択した。そして、これらの画像をＦＤモデルに入力し、その精度を検証した。

その結果、上記したＤＡ法を適用することで、視線ベクトルと目中心座標の各平均誤差は、θ_ｘ（ｄｅｇ．）が７．２８から２．８４へ、θ_ｙ（ｄｅｇ．）が８．３３から３．４７へ、θ_ｚ（ｄｅｇ．）が５．８８から２．０７へ、Ｐ_ｘ（ｐｉｘｅｌ）が２．２１から０．６９へ、Ｐ_ｙ（ｐｉｘｅｌ）が２．７０から１．０１へ、それぞれ低下し、精度が向上した。
なお、図８に、推定した視線ベクトルθと目中心点Ｐを示す。この図８中の瞳孔の中心に位置する点が目中心点を示し、この目中心点から延びる線が視線ベクトルを示している。

（目画像撮像工程とシーン画像撮像工程）
上記した被験者数１３名のうち３名を、視線が向けられた注視点を推定する評価用データに用いる。即ち、評価用データの３名について、目画像撮像工程とシーン画像撮像工程が行われ、目画像が取得されることになる（図９のＳ２１（ステップ２１））。
（推定処理工程）
上記したように、被験者数１３名のうち評価用データに３名を選んだため、残りの１０名を学習データに用いた（機械学習を行う）。即ち、本実験では不特定人物問題を扱う。
なお、本発明は、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、機械学習に複数の畳込みニューラルネットワーク、即ち、ＧＥモデルとＦＤモデルを用いる。そして、取得された目画像を、上記したＣＮＮモデルに入力し、出力として推定した注視点座標を取得する（図９のＳ２１（ステップ２２））。
一方、比較例手法としては、従来公知の有名なＣＮＮモデルである、ＡｌｅｘＮｅｔ、Ｉｎｃｅｐｔｉｏｎ−ｖ３、ＶＧＧ−１１、ＶＧＧ−１９、ＲｅｓＮｅｔ−１０１、及び、ＲｅｓＮｅｔ−２００を、それぞれ単独で用いた。
各手法を適用して推定した注視点ｇと正解注視点ｇ´の平均誤差距離を、図１０に示す。

一つのＣＮＮモデルから構成される六つの比較手法のうち、ＶＧＧ−１１とＶＧＧ−１９は、平均誤差が約７ｃｍの高い推定精度を得た。
これらの結果より、本発明のＧＥモデルとしてＩｎｃｅｐｔｉｏｎ−ｖ３とＶＧＧ−１９を採用した。更に本発明では、これにＦＤモデルを統合することで推定精度を向上させた。
ここで、ＦＤモデルとしてＩｎｃｅｐｔｉｏｎ−ｖ３を用いた実施例１では、２つのモデルを統合することで平均誤差を９．２５ｃｍから７．１７ｃｍに低減できた。また、ＦＤモデルとしてＶＧＧ−１９を用いた実施例２では、平均誤差が１．６２ｃｍとなり、高い推定精度を得た。

更に、図１１に、横軸を誤差距離、縦軸を成功率とする性能曲線を示す。
この性能曲線は、全テスト画像数に対する、誤差がしきい値未満のときの成功画像数の比率である。これらの曲線から、実施例１、２は他の手法と比較して高い精度が得られ、特に実施例２は更に高い精度が得られることを確認できた。

なお、本発明は、以下の処理を実行することによっても実現される。
即ち、上記した実施の形態の機能を実現する注視点推定プログラム（ソフトウェア）を、ネットワーク又は各種記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して、目画像撮像工程、シーン画像撮像工程、及び、推定処理工程を実行する（目撮像用カメラ１２、シーン撮像用カメラ１４、及び、コンピュータ１５を動作させる）。
このプログラムが記録されたコンピュータが読み取り可能な情報記録媒体である場合も、本発明に含まれる。なお、情報記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。

次に、本発明の作用効果を確認するために行った実施例について説明する。
ここでは、本発明の注視点推定システム１０である発明機器と、市販機器である２つの比較機器をそれぞれ使用し、注視点の推定精度を比較した。なお、市販機器には、ＥＭＲ−９（（株）ナックイメージテクノロジー製）と眼球運動解析システム（（株）ガゾウ製）を用いた。
まず、発明機器と２つの比較機器を、以下の手順（前記した注視点推定方法と同様の方法）で操作した。

（１）被験者が機器を装着する。
（２）ディスプレイ上の任意の位置にマーカが自動的に表示される。
（３）被験者はマーカの矢印を確認して該当する方向キーを押す。
（４）上記した手順（２）及び（３）を４９回行う。
（５）被験者は機器の位置を少しずらし、上記した手順（２）〜（４）までの処理を９回繰り返し行う。即ち、被験者は４４１回の試行を行い、そのときの各機器の平均誤差を求めた。

比較機器を標準装着位置から動かすことなく試験を行った場合の平均誤差は、ＥＭＲ−９で４．１３ｃｍであり、眼球運動解析システムで３．２４ｃｍであり、約４ｃｍであることが確認された。一方、比較機器を標準装着位置から動かして試験を行った場合の平均誤差は、ＥＭＲ−９で８．６０ｃｍであり、眼球運動解析システムで１０．４８ｃｍであり、大幅に増加した。
このため、比較機器を実際に使用する場合は、使用者が再度キャリブレーション作業を行う必要があることが分かった。
一方、発明機器は、キャリブレーションフリーで設計されているため、標準装着位置から動かして試験を行った場合の平均誤差が、実施例１で７．１７ｃｍとなり比較機器よりも小さく、更に実施例２では１．６２ｃｍまで低減できることを確認できた。

上記した実験の結果から、発明機器はキャリブレーション処理を行わなくても注視点の推定精度が高いことを確認できた。
しかし、これまでの実験では、操作面（対象物の一例）とシーン撮像用カメラとの距離ｄは９０ｃｍに設定していた。そこで追加実験として、ｄ＝９０（ｃｍ）でモデルを学習し、テストデータとしてｄが８０ｃｍと１００ｃｍのときの注視点推定実験を実施した。
この結果、実施例１の平均誤差は、９０ｃｍの場合に７．１７ｃｍであったが、８０ｃｍの場合に７．５２ｃｍ、１００ｃｍの場合に７．２３ｃｍとなり、また、実施例２の平均誤差は、９０ｃｍの場合に１．６２ｃｍであったが、８０ｃｍの場合に４．３５ｃｍ、１００ｃｍの場合に４．８５ｃｍとなった。
このように、テストデータの距離ｄは、上記した学習データとは異なるため、注視点推定精度が低下したが、この精度は、前記した市販機器の誤差とほぼ同等であった。

次に、実施例２についてシーン画像上の注視点推定誤差の分布を調べた。
シーン画像を１０×１０セクションに分割し、各セクションの平均誤差を計算した。その結果を表２に示す。

表２の分布から、上側に位置するセクションの誤差は下側に位置するセクションの誤差よりも小さいことがわかる。
これは、ユーザが下側を見るとき、上瞼が瞳孔を隠すため、瞳孔中心を検出することが困難なためと推測する。一方、ユーザが上側を見るときは、瞳孔が鮮明に写り、注視点を検出し易くなる。

なお、収集したデータセットには、眼鏡なし、眼鏡あり、コンタクトレンズ付きの３種類の目画像が含まれている。そこで、目画像の種類による推定精度の違いについて検討した。３種類において、それぞれ被験者３名を選びテストデータとした。なお、使用した目画像は、眼鏡なしの場合が１１７２９枚、眼鏡ありの場合が１１５７９枚、コンタクトレンズ付きの場合が１１５２２枚、である。
それぞれの平均誤差は、眼鏡なしの場合、実施例１で７．１７ｃｍ、実施例２で１．６２ｃｍ、眼鏡ありの場合、実施例１で１５．２８ｃｍ、実施例２で９．４７ｃｍ、コンタクトレンズ付きの場合、実施例１で５．６２ｃｍ、実施例２で１．８４ｃｍ、であった。

この結果より、眼鏡なしとコンタクトレンズ付きの場合は、推定精度を高くできることを確認できた。
一方、眼鏡ありの場合は推定精度が低かった。これは、眼鏡ありの目画像は、レンズの歪みが強く影響するため、瞳孔中心の検出が難しいという問題による。また、眼鏡ありの目画像の学習データが眼鏡なしの学習データより少ないことも理由の要因と推測されるため、学習データを多くできれば、推定精度を高くできると考えられる。

以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、前記したそれぞれの実施の形態や変形例の一部又は全部を組合せて本発明の注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体を構成する場合も本発明の権利範囲に含まれる。
前記実施の形態においては、１つのシーン撮像用カメラと一体となった１つの目撮像用カメラを用いて、使用者の片方の目を撮像した場合について説明したが、一体となった目撮像用カメラとシーン撮像用カメラを２つ用いて（注視点推定システムは２組の目撮像用カメラとシーン撮像用カメラを有する）、使用者の両方の目を同時に撮像することもできる。この場合、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に２組得られることになる。
また、２組の目撮像用カメラとシーン撮像用カメラを用いて、使用者の片方の目を斜め下方と斜め上方のそれぞれから撮像することもできる。この場合も、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に２組得られることになる。
更に、４組の目撮像用カメラとシーン撮像用カメラを用いて、使用者の両方の目をそれぞれ、斜め下方と斜め上方から撮像することもできる。この場合、目画像の目中心点とシーン画像の注視点とが対応付けられたデータが、同時に４組得られることになる。

本発明に係る注視点推定システム、注視点推定方法、注視点推定プログラム、及び、これが記録された情報記録媒体は、キャリブレーション処理が不要で、装置構成の簡略化と製造コストの低減が図れる。これにより、例えば、肢体不自由者のための文字入力システムや運転支援システム、読み上げ中の文理解能力の分析等、様々な分野に有効に利用できる。

１０：注視点推定システム、１１：目、１２：目撮像用カメラ（目画像撮像手段）、１３：対象物、１４：シーン撮像用カメラ（シーン画像撮像手段）、１５：コンピュータ（推定処理手段）

Claims

使用者の視線が向けられた注視点を推定する注視点推定システムにおいて、
前記使用者の前方に配置され、該使用者の目をカラーで撮像する目画像撮像手段と、
前記目画像撮像手段の裏面側に一体的に設けられ、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像手段と、
前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理手段とを有し、
前記推定処理手段では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習が行われ、しかも、該機械学習に複数の畳込みニューラルネットワークが用いられることを特徴とする注視点推定システム。
請求項１記載の注視点推定システムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルでは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標が推定され、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標が求められることを特徴とする注視点推定システム。
使用者の視線が向けられた注視点を推定する注視点推定方法において、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用いることを特徴とする注視点推定方法。
請求項３記載の注視点推定方法において、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることを特徴とする注視点推定方法。
使用者の視線が向けられた注視点を推定する注視点推定プログラムにおいて、
前記使用者の前方に配置された目画像撮像手段により、該使用者の目をカラーで撮像する目画像撮像工程と、
前記目画像撮像手段の裏面側に一体的に設けられたシーン画像撮像手段により、前記使用者の視線が向けられる対象物を撮像するシーン画像撮像工程と、
推定処理手段により、前記目画像撮像手段で撮像された目画像から、前記シーン画像撮像手段で撮像されたシーン画像中の前記注視点を推定する推定処理工程とを有し、
前記推定処理工程では、予め得られた目画像の目中心点とシーン画像の注視点とが対応付けられた多数のデータを使った機械学習を行い、しかも、該機械学習に複数の畳込みニューラルネットワークを用い、
前記目画像撮像工程、前記シーン画像撮像工程、及び、前記推定処理工程の各処理をコンピュータに実行させることを特徴とする注視点推定プログラム。
請求項５記載の注視点推定プログラムにおいて、前記畳込みニューラルネットワークを用いて前記機械学習が行われるモデルは、注視推定モデルと特徴抽出モデルであり、
前記注視推定モデルは、前記予め得られた目画像とシーン画像の注視点座標を用いて、前記使用者の視線が向けられる注視点座標を推定し、
前記特徴抽出モデルでは、前記予め得られた目画像を用いて、該目画像の視線ベクトルと目中心座標を求めることを特徴とする注視点推定プログラム。
請求項５又は６記載の注視点推定プログラムが記録されたことを特徴とする情報記録媒体。