JP2022527818A

JP2022527818A - ユーザの眼に関連する幾何学的変数を推定する方法及びシステム

Info

Publication number: JP2022527818A
Application number: JP2021558986A
Authority: JP
Inventors: フネス・モラ・ケネス・アルベルト; オドベス・ジャン－マルク; リウ・ガン; ユ・ユ
Original assignee: アイウェア・テク・ソシエテ・アノニム
Priority date: 2019-04-10
Filing date: 2020-04-06
Publication date: 2022-06-06
Also published as: US20220148333A1; WO2020208494A1; CN113939851A; EP3953859A1

Abstract

【課題】より正確に視線方向を推定する方法及びシステムを提供する。【解決手段】本発明は、ユーザの眼に関連する幾何学的変数を推定する方法であって、以下のステップを備える。ａ特徴的な眼の領域を含むユーザの眼の画像に相当する少なくとも１つの入力画像観察を検索する。ｂ複数の特徴的な眼領域の少なくとも１つにおける入力画像観察の各画素を分類するために、１つ又は複数の画像区分けマップを計算する学習装置を使用する。ｃ一連の幾何学的変数を介して、ユーザの眼の画像幾何学的モデルを生成する。ｄ画像の幾何学的モデルを少なくとも１つの画像区分けマップと比較する。ｅこの比較に基づいて、前記少なくとも１つの入力画像観察がユーザの眼の幾何学的モデルに相当するかどうかを示すモデル相当値を計算する。ｆステップｃからステップｅまでを繰り返すステップｆであって、ステップｅで計算された値が最適値を下回っている場合は、モデル相当値が最適値に達するまで、ステップｃからステップｅまでの各反復で新しい画像幾何学的モデルを生成すべく、幾何学的変数のセットの少なくとも１つの変数がステップｃで変更される。ｇ生成されたユーザの眼の最新の画像幾何学的モデルから、眼関連の幾何学的変数を取得する。

Description

本発明は、ユーザの眼に関連する幾何学的変数を推定する方法及びシステム、特に、視線の推定、すなわち視線の方向の推定に関する。具体的には、人間と機械との間の入出力部（インタフェース）用、仮想現実用、ヘルスケア用の視線の推定に関し、移動性適用（モバイルアプリケーション）向きの視線の推定に関する。

ユーザの視線の方向のような眼に関連する幾何学的変数は、人間の行動の重要な手がかりを提供する。人間の行動の視線の方向と動きは、視覚的注意の指標であるだけでなく、そこにある人々の思考と精神状態の指標でもある。

したがって、視線推定は、人間とロボットの相互作用（ＨＲＩ）、仮想現実（ＶＲ）、社会的相互作用の分析、ヘルスケアなどの事業領域を支援する。携帯電話での検知機能の開発があることで、視線推定はさらに、移動性シナリオでの幅広い適用に支援を提供できる。

視線推定は、２つの主要なクラス、すなわち幾何学的方法と外観に基づく方法に分類できる。幾何学的方法は、眼の幾何学的モデルに依存していて、このモデルの変数は、眼の画像から抽出された瞳孔中心及び角膜反射又はＰＣＣＲ法と呼ばれる一般的な方法によって、通常は幾何学的特徴から変数が推定される。これらのモデルは非常に正確であるが、ロバストな特徴抽出に依存するため、眼の高解像度画像が必要になることが多く、ユーザの移動は限定されそのような方法の適用が限られる。

ＧｕｅｓｔｒｉｎとＥｉｚｅｎｍａｎの研究（非特許文献１）（ＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎｂｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ５３（６）、１１２４－１１３３、２００６年６月）には、瞳孔の中心と角膜反射のストラテジーに基づいて眼の幾何学的変数を推定する理論について詳しく記載されている。著者らは、較正ストラテジーの必要性の観点で、頭の動きの不変性やより良い特性につながる可能性がある複数の光源と複数のカメラのさまざまな構成について言及している。

外観に基づく方法は、その一方で、眼の画像を視線方向に直接マッピングする。そして近年、大規模なデータセットのデータ収集と深層学習が大きな進歩を遂げている。このことにかかわらず、これらの方法は低解像度の画像をより適切に処理可能であるのであるが、明示的な眼球モデルなしには、特定のユーザにモデルを適合させるのが困難になって非常に正確な結果は得られない場合もある。

Ｋ．Ａ．ＦｕｎｅｓＭｏｒａとＪ．－ＭＯｄｏｂｅｚによる非特許文献２「リモートｒｇｂ－ｄカメラの幾何学的な生成的視線推定（ｇ３ｅ）」（ＣＶＰＲ、ｐｐ１７７３－１７８０、２０１４年）は、これら２つの（前述のクラスの方法での）取り組みのセットを調整しようとした。それは、眼球変数の所与の幾何学的構成から色付きの眼の画像を生成可能な幾何学的生成モデルに依存していた。そのようなモデルの推論プロセスは、既知の観点で拡張され得る眼の画像サンプルの観察に基づいて幾何学的変数を検索可能である。推論プロセスは、各画素について、虹彩、強膜、又はまぶたの皮膚領域のいずれかに属する可能性を含む可能性マップに依存する。尤度マップは、画素の色に適用され、手動で初期化されたガウス混合モデルから取得された。尤度マップは、眼の画像の色駆動区分け（セグメンテーション）としても理解できる。しかし、そのような色モデルは、低い画像解像度及び複雑な影のパターンを生成する眼領域が本来くぼんでいるために、眼の画像の動画への適用は困難である。この研究はまた、特許文献１（ＷＯ２０１５／１９２８７９）に開示された本発明の一実施形態である。

ＰｒｏｅｎｃａＨｕｇｏらの非特許文献３「テクスチャ／形状情報と幾何学的制約によって供給される階層的グラフィカルモデルを使用した眼周囲領域の区分け」（ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＢｉｏｍｅｔｒｉｃｓ、ＩＥＥＥ、２０１４、１頁から７頁、ＸＰ０３２７１４７９１）は、次の２段階１）と２）で構成されているモデルに従って７つの構成要素（虹彩、強膜、まつげ、眉毛、髪、肌、メガネ）を区別する眼周囲領域の画像ラベリングアルゴリズムを開示している。
１）いくつかのニューラルネットワークを使用して、トレーニングセットから各画像の位置と関心のあるクラスの事後確率を推測する。各ニューラルネットワークは、１つの構成要素を検出し、入力データからローカル統計（テクスチャ及び形状記述子）を受信するように構成されている。
２）データの局所的な外観に基づく事後確率は、幾何学的制約及び構成要素の隣接事前確率と組み合わされて、画素と構成要素層で構成される階層的なマルコフランダムファイル（ＭＲＦ）に供給する。

特に高解像度と低画像の両方の解像度に適合した、ユーザの眼に関連する幾何学的変数のより正確な取得には、改善の余地がある。

国際出願第２０１５／１９２８７９号

Ｇｕｅｓｔｒｉｎ、Ｅｉｚｅｎｍａｎ、ＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎｂｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ５３（６）、１１２４－１１３３、２００６年６月Ｋ．Ａ．ＦｕｎｅｓＭｏｒａ、Ｊ．－ＭＯｄｏｂｅｚ、「リモートｒｇｂ－ｄカメラの幾何学的な生成的視線推定（ｇ３ｅ）」、ＣＶＰＲ、ｐｐ１７７３－１７８０、２０１４年ＰｒｏｅｎｃａＨｕｇｏら、「テクスチャ／形状情報と幾何学的制約によって供給される階層的グラフィカルモデルを使用した眼周囲領域の区分け」、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＢｉｏｍｅｔｒｉｃｓ、ＩＥＥＥ、２０１４、１頁から７頁、ＸＰ０３２７１４７９１

本発明の課題は、したがって、ユーザの眼に関連する幾何学的変数、例えば、より正確に視線方向を推定する方法及びシステムを提供することである。

本発明の別の課題は、ユーザの眼に関連する幾何学的変数、例えば、ユーザの眼の画質が悪い場合でも視線方向をロバストに推定する方法及びシステムを提供することである。

本発明のさらなる課題は、画像の分類及び区分け（セグメンテーション）において改善された性能を備えた方法及びシステムを提供することである。

本発明によれば、これらの課題は、以下のステップａからステップｇを備える、ユーザの眼に関連する幾何学的変数を推定する方法によって達成される。
ａ特徴的な眼の領域を含むユーザの眼の画像に相当する少なくとも１つの入力画像観察を検索する。
ｂ複数の特徴的な眼領域の少なくとも１つにおける前記入力画像観察の各画素を分類するために、１つ又は複数の画像区分けマップを計算する学習装置を使用する。
ｃ一連の幾何学的変数を介して、ユーザの眼の画像幾何学的モデルを生成する。
ｄ画像の幾何学的モデルを少なくとも１つの画像区分けマップと比較する。
ｅこの比較に基づいて、前記少なくとも１つの入力画像観察がユーザの眼の幾何学的モデルに相当するかどうかを示すモデル相当値を計算する。
ｆステップｃからステップｅまでを繰り返すステップｆであって、ステップｅで計算された値が最適値を下回っている場合は、モデル相当値が最適値に達するまで、ステップｃからステップｅまでの各反復で新しい画像幾何学的モデルを生成すべく、幾何学的変数のセットの少なくとも１つの変数がステップｃで変更される。
ｇ生成されたユーザの眼の最新の画像幾何学的モデルから、眼関連の幾何学的変数を取得する。

一実施形態では、少なくとも１つの入力画像観察は、教師あり、半教師あり、又は教師なしの較正手順から得られたデータを提供することによって拡張される。

有利な実施形態では、前記眼に関連する幾何学的変数は、ユーザの視線方向に相当し、ここでは
・ステップｃでのユーザの目の画像幾何学的モデルは、ある特定の方向を見つめるユーザの視線に相当していて、
・幾何学的変数のセットの少なくとも１つの変数は、モデル対応値が前記最適値に達するまでステップｃからステップｅの各反復で、別の方向を見つめているユーザの眼の新しい画像幾何学的モデルを生成すべく、ステップｃの下で変更され、
・視線方向が、最新の画像幾何学モデルからステップｇの下で取得される。

一実施形態では、少なくとも１つのパラメトリック区分けマップが、ユーザの眼の前記画像幾何学的モデルから計算される。パラメトリック区分けマップの各画素は、複数の特徴的な眼領域のうちの少なくとも１つに分類される。

パラメトリック区分けマップの各画素は、例えば、この画素が少なくとも１つの特徴的な眼の領域に属するという少なくとも１つの確率、対数確率、又はスコアを示すことがある。

複数のパラメトリック区分けマップは、画像の幾何学的モデルから計算してもよい。各パラメトリック区分けマップは、例えば、画像幾何学モデルの投影の各画素がどの特徴的な眼領域に属するか、あるいは画素が１つの特徴的な眼の領域に属している画像幾何学モデルの投影の各画素に関連する確率、対数確率又はスコアを示すことがある。

一実施形態では、ステップｄは、少なくとも１つの画像区分けマップの各画素に割り当てられた確率、対数確率、又はスコアを、同じ座標を有する少なくとも１つのパラメトリック区分けマップの画素の値と比較することを備える。

一実施形態では、ユーザの眼に関連する幾何学的変数を推定する方法は、以下を備えてよい。
・少なくとも１つのパラメトリック区分けマップから、画像の幾何学的モデルに従って各画素が属すると思われる特徴的な領域を決定すること。
・ステップｄの一部として、少なくとも１つの画像区分けマップから、前記特徴的な領域に相当する画素相当値であり、この画素がその特徴的な領域に属する確率、対数確率又はスコアを示す画素相当値を決定すること。
・ステップｅの一部として、前記画素相当値を加算して、前記モデル相当値を提供すること。

一実施形態では、画像幾何学的モデルの少なくとも１つのソフトパラメトリック区分けマップが、ユーザの眼の画像幾何学的モデルから計算される。ソフトパラメトリック区分けマップの各画素には、少なくとも２つの値、好ましくは少なくとも３つの値が割り当てられる。これらの値は、各画素が画像の幾何学的モデルの特徴的な眼の領域のそれぞれに相当する確率、対数確率、又はスコアを表す。

画像区分けマップの各画素に、少なくとも２つの値、好ましくは少なくとも３つの値を割り当て可能である。少なくとも３つの値は、各画素が少なくとも１つの入力画像観察の特徴的な眼領域のそれぞれに相当する確率、対数確率、又はスコアを表す。

一実施形態では、ソフトパラメトリックマップ及び画像区分けマップは、パラメトリック区分けマップの各画素に割り当てられた少なくとも３つの値のそれぞれを、同じ座標の画像区分けマップの各画素に割り当てられた相当する少なくとも３つの値のそれぞれで乗算することによって、いっしょに合わせられる。乗算された値は、モデル相当値を提供すべく、区分けマップの各画素に追加される。

確率、対数確率、又はスコアの加重和は、画像区分けマップの相当する画素相当値に関連する確率で、各画像区分けマップの各画素に対して計算されることがある。

一実施形態では、特徴的な眼の領域は、好ましくは、角膜、瞳孔、虹彩、強膜、及びまぶたを含む群から選択される３つの特徴的な眼の領域である。

一実施形態では、画像区分けマップは、画素が１つの特徴的な眼領域に属する各画素に関連する確率又は対数確率を示す画像確率マップである。

一実施形態では、画像区分けマップは、この画素が１つの特徴的な眼の領域に属する各画素に関連するスコアを示す画像スコアマップである。

一実施形態では、学習機械は、少なくとも１つの入力画像観測に基づいて画像区分けマップを生成するように構成された区分けニューラルネットワークを備える。

区分けニューラルネットワークは、例えば、入力用の画像区分けマップを生成するように構成された複数の層を備えることがある。

区分けニューラルネットワークは、例えば、画像区分けが入力と同じ解像度であるように、又は少なくとも画像区分けマップと入力の間の画素の相当関係を確立できるように、入力の変換を達成するように構成されたエンコーディング－デコーディング又は砂時計層の１つの層又は一連の層を備えてよい。

一実施形態では、幾何学的変数のセットは、少なくとも、眼球回転中心、視軸オフセット、眼球半径、角膜半径、輪部半径、瞳孔半径、まぶたの開口又は形状、左眼及び／又は右眼端の中から、複数の変数を備える。

一実施形態では、特徴的な眼領域を有するユーザの眼の画像に相当する少なくとも１つの入力画像観察を検索するステップは、画像フレームから画像を前処理することを備える。画像の前処理は、明るさ調整、コントラスト調整、ホワイトバランス調整、頭の姿勢の調整、ノイズ除去、スケーリング、及び／又はトリミングの間の１つ又は複数の画像調整又は補正を備えてよい。

本発明の別の態様は、眼に関連する幾何学的変数を推定する装置に関し、この装置は以下を備える。
・ユーザの顔をとらえるカメラ。
・ユーザ固有の眼と顔の幾何学的変数を格納するデータベース。
・上記の方法を実行するように構成されたコンピュータプログラムを格納するメモリを備える、計算システム。

本発明のさらなる態様は、コンピュータプログラムを格納するコンピュータ可読記憶媒体に関する。コンピュータプログラムは、上記の方法を実行するように構成されたアルゴリズムのセットを含む。

本発明は、例として与えられ、図によって示されるいくつかの実施形態の説明の助けを借りて、よりよく理解されるであろう。

図１は、本発明の実施形態による、ユーザの視線方向を追跡する方法のフローチャートを示す。図２は、本発明の実施形態による方法の詳細なフローチャートを示している。図３は、ユーザの眼の幾何学的モデルのパラメトリック区分けプロセスを概略的に示す。図４は、区分けニューラルネットワークを使用したユーザの眼の画像の区分けプロセスを概略的に示す。図５は、ユーザの視線方向の評価プロセスを概略的に示す。図６は、眼の形状を概略的に示す。図７は、本発明の一実施形態による、ユーザの視線方向を推定する装置を概略的に示す。

図１は、ユーザの眼に関連する幾何学的変数θを推定する方法の一般的な概念のフローチャートを示す。ユーザの眼に関連する幾何学的変数は、図示されている方法の主なステップａからステップｇを通じて推定される。本発明による方法は、ユーザの視線方向の推定に特に適合されているが、しかしながら、まぶたの開放度などの、眼に関連する他の幾何学的変数の推定に使用され得る。

ステップａの下で、ユーザの眼の画像又は一連のユーザの眼の画像がまず初めに捉えられる。眼の画像は、例えば、色画像、赤外線画像、振幅画像、画像データの前処理されたバージョンのグレースケール画像、及び／又はこれらの画像の任意の組み合わせであり得る。眼の画像は、画像のトリミング、スケーリング、色、コントラスト、ホワイトバランス、及び／又は明るさの調整、ノイズの除去、シャープネスの向上などの前処理ステップを使用して前処理されてよい。一実施形態では、前処理は、頭の回転角及び位置と、カメラの視点又は眼のスケールを修正する頭の姿勢の修正とを含む。前処理は、ステレオカメラ、構造化光カメラ、飛行時間型カメラ、又はその他の深度検知装置からの深度測定によっても支援されることがある。一実施形態では、頭位補正は、顔領域の三次元（３Ｄ）モデルと、顔領域周辺の深さ測定との少なくとも一方に基づいて推定される。捉えられて、場合によって前処理された画像を、ここ以降では、入力画像観察１０という。

捉えられたユーザの眼の画像又はユーザの眼の一連の画像は、眼球の半径、頭の位置など（図６と組み合わせて図３及び図５を参照。）の基礎となるユーザ固有の幾何形状を取得することによって、視点などのグラウンドトゥルースデータ（入力データと出力データ）を提供することによって拡張可能である。この情報は、入力された眼の画像のサブセットに対してのみ利用可能なことがあり、明示的又は暗黙的な較正手順から取得されることがある。例えば、ユーザは空間の特定点を注視するように指示される。代替的に、おおよその視点の取得、又は観察された内容などの文脈情報の取得をできるように、所与の行動が観察されるか誘発される。注目点は、その場合、単一の点ではなく確率分布として表されることがある。

一実施形態では、入力画像観察は、眼の領域を超えて捕捉されることがあり、全身、顔全体、又は両方の眼を同時に含む領域を含み得る。

入力画像観察１０の各画素は、次に、有限数の特徴的な眼領域、例えば、まぶた、角膜、又は強膜などの２つ又は３つの特徴的な眼領域のうちの１つに分類される。角膜領域は、瞳孔、虹彩、輪部をいっしょに備える領域として理解可能である。適用によっては、より特徴的な眼の領域が必要になる場合がある。例えば、入力画像観察１０の各画素は、第４の特徴的な領域のうちの１つ、すなわち、瞳孔測定用途のための瞳孔のみのための上記の３つの特徴的な眼領域及び追加の特徴的な領域に分類され得る。分類は、好ましくは、ニューラルネットワーク１２などの学習機械を使用して実行され、図２及び図４に示されているステップｂの一部として、複数の画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３をもたらす。各画像区分けマップは、１つの特徴的な眼領域に関連付けられ、例えば、入力画像観察１０の各画素が相当する特徴的な眼の領域に属する確率、対数確率、又はスコアを示す確率マップからなるものとしてよい。

ステップｃの下で、画像幾何学的モデルは、図１に示される特定の幾何学的構成、例えば、図２に示される１つの特定の方向を見つめるユーザの眼の変数のセットに基づいて、独立して生成される。図６を参照すると、これらの変数は、例えば、眼球半径Ｒｅ、角膜半径Ｒｃ、左及び／又は右眼角などの眼の変数、及び視線方向に関連する他の変数、あるいは例えば眼球回転ｐｃ、視軸線ずれ量ｋ、節点Ｐｃからの距離（ｄ）などの他の変数を含むか、あるいは左記変数の任意の組み合わせであり得る。さらに、最適化プロセス中に、変数のセットを固定しておいて、他の変数はそれらの最適値を発見すべく改変されることがある。所与の母集団の眼球サイズの標準偏差などの統計又は情報も、特許文献１と同様の方法で、事前項又は正則化項として、モデル相当値計算の一部として使用できる。

画像の幾何学的モデルは、サイズ、位置、視軸線、及びその他の幾何学的値に関する特定の幾何学的構成、そして１つの特定の方向への視線、並びに、まぶたの形状と開口部の二次元（２Ｄ）又は三次元（３Ｄ）表現を備えた、眼の３Ｄ又は数学モデルである場合がある。これは、そのモデルを投影面、例えばカメラの指向方向又は頭部座標系に対して予め定めた位置から指向している平面に垂直な面に投影することにより、２Ｄ画像として表される。

一実施形態では、画像幾何学的モデルは、例えば較正セッション中に、既知の方向を見つめているユーザの眼の画像のセットから計算されて、視線方向から独立しているユーザの眼の変数を決定可能である。較正は、教師あり、教師なし、又は部分的に教師ありの場合がある。ユーザの眼の幾何学的モデルの変数のサブセットは、ユーザの眼の画像なしで取得可能である。例えば、ユーザに依存しないモデル、例えば、異なるユーザからの複数の眼の画像から生成されたモデルを最初に使用してよい。一実施形態では、幾何学的モデルは、性別、民族性、年齢などのいくつかの共通の特徴をユーザと共有する異なるユーザからのモデルを補間することによって生成される。一実施形態では、幾何学的モデルの固定変数は、ユーザに依存せず、幾何学的統計のセットによって定義可能であり、これは、先行の研究から、又はユーザのセットのトレーニングデータから取得可能である。

次に、最初に想定された幾何学的構成の下でのユーザの画像幾何学的モデルが、学習機によって提供された区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３と比較される（ステップｄ）。発見すべき幾何学的構成が視線方向である場合、この方法が一連のフレームにおける眼の方向を追跡するために使用される場合、第１視線方向は、例えば、以前に決定された視線方向であり得る。視線方向は、幾何学的モデルの可変な変数の最初のセット（眼球回転ｐｃ、視軸線ずれ量ｋ、節点Ｐｃからの距離Ｐｃ（ｄ））を決定する。

第１の幾何学的構成変数はまた、特定の人口統計学的グループにわたって計算された眼球幾何学の統計などの事前知識情報から取得され得る。

この比較は、入力画像観察１０が、選択された特定の方向を注視するユーザの眼の幾何学的モデルに相当するか否かを示すモデル相当値をもたらす。

ステップｃからステップｅが繰り返され、ステップｃからステップｅの各反復でユーザの眼の新しい画像幾何学的モデルを生成すべく幾何学的変数のセットがステップｃの下で変更される。これは、モデル相当値を最適値に達するまで増加させる目的を伴う。ほとんどの最適化アルゴリズムと同様に、最適値に近づくために、１つ又はそれより多い幾何学的変数に小さな変更が繰り返し適用される。例えば、前記１つ又はそれより多い変数の値は、最適値に到達するために増加されたり又は減少されたりする。

最適値に到達するために、幾何学的変数のセット内の可変な変数は、画像観察モデルによる幾何学的変数のセットの事後分布を考慮して変更され得る。事後分布の分析的な導出は困難であるため、変分ベイズ定式化を近似推論手法として使用して、適切な光学幾何学的構成を発見してよい。

グリッド検索ストラテジー、マルコフ連鎖モンテカルロ（ＭＣＭＣ）のようなサンプリングアプローチ、ニュートン法、勾配降下法、確率的勾配降下法、又は最適な幾何学的構成を迅速に見つけるのに役立つその他のストラテジーなど、代替の最適化ストラテジーを使用してよい。

画像観察モデルが画像幾何学的モデルにどの程度相当するかを示すモデル相当値が最適値に達すると、ステップｇの下で、ユーザの眼の視線方向又は任意の着目する他の眼の幾何学的変数が、生成された最新の画像幾何学モデルから取得される。

以下で詳細に説明するように、入力画像観察１０が画像幾何学的モデルにどの程度相当するかを決定する様々な方法論が存在する。

有利な実施形態では、図２、図４、及び図５を参照して、入力画像観察１０の特徴的な眼領域を区別すべく、入力画像観察１０は、区分けニューラルネットワーク１２を通過する。本発明の内容において、入力画像観察１０の区分けは、角膜／虹彩領域、強膜領域、瞳孔領域、及びまぶた領域を含む領域のグループの間で複数の意味領域の区別を可能にする。意味領域を使用すると、注視プロセスとユーザの眼の形状を周囲条件又は検知条件から切り離せる。

区分けの結果、複数の画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３が得られる。各画像区分けマップは、１つの入力画像観測の画素が１つの意味領域、つまり、例えば虹彩、強膜、瞳孔又はまぶたのような異なる眼領域に属する画素の確率を示す。

一実施形態では、区分けマップは確率的解釈を持たない場合があるが、それでも、画素が別個の領域のいずれかに属する確率がどの程度であるかを表す値を提供する。このような非確率的測定値を、ここではスコアということとする。

好ましい実施形態では、各画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３は、この画素が相当する特有の眼の領域に属する各画素での確率を示す確率マップである。例えば、図４に示されるように、第１画像区分けマップＮＳ^１がまぶたに対して確立されることがあり、入力画像観察１０の各画素がまぶたに属する確率、対数確率又はスコアを示す。第２区分けマップＮＳ^２が瞳孔／角膜に対して確立されることがあり、入力画像観察１０の各画素が瞳孔／角膜に属する確率を示す。第３区分けマップＮＳ^３が強膜に対して確立されることがあり、入力画像観察１０の各画素が強膜などに属する確率を示す。

区分けニューラルネットワーク１２を介した入力画像観察１０の区分けプロセスとは独立して、画像幾何学的モデルの特徴的な眼領域を区別すべく、画像幾何学的モデルの母数による（パラメトリック）区分けＰＳが変数θのセットから計算されて、１つ又は複数のパラメトリック区分けマップが得られる。

より具体的には、パラメトリック区分けＰＳは、他の２つのパラメトリック区分けマップに属する単一の特徴的な眼領域とは異なる、幾何学的モデルのそれぞれの単一の特徴的な眼領域を含むパラメトリック区分けマップのセットの結果となる。例えば、図３に示されるように、どの画素がこれらの眼の領域のそれぞれに属するかを決定するため、第１パラメトリック区分けマップＰＳ^１、第２パラメトリック区分けマップＰＳ^２、第３パラメトリック区分けマップＰＳ^３は、まぶた領域２０ａ、虹彩／角膜領域２０ｂ、及び強膜領域２０ｃにそれぞれ相当する幾何学的モデルの各部分を含む。

例えば、第１パラメトリック区分けマップＰＳ^１の画素１がまぶた領域２０ａに属している場合、この画素は、第２区分けマップＰＳ^２及び第３区分けマップＰＳ^３が何を含むのかに関係なく、まぶた領域に割り当てられる。画素が、画素２、画素３のようにまぶた領域２０ａにない場合、またその画素が虹彩／角膜領域内にあるならば、その画素は虹彩／角膜領域２０ｂに割り当てられる。それ以外の場合は、強膜領域２０ｃに割り当てられる。したがって、各パラメトリック区分けマップＰＳ^１、ＰＳ^２、ＰＳ^３の各画素は、幾何学的変数θのセットの直接かつ決定的関数を通じて、同じ座標を有する画像幾何学的モデル１０の相当する特徴的な眼領域に割り当てられる。

区分けニューラルネットワーク１２は、３つの画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３を生成する。各画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３は、確率、対数確率、又はスコア離散値を各画素に割り当てて、入力画像観測の特徴的な眼の領域に属す１０。換言すると、各画像区分けマップは、その画素のそれぞれ及び同じ座標を有する入力画像観察１０の相当する画素が同じ特有の眼の領域に属する可能性についての推定を提供する確率モデルとして見てよい。第１画像区分けマップＮＳ^１、第２画像区分けマップＮＳ^２、及び第３画像区分けマップＮＳ^３は、例えば、入力画像観察１０の角膜領域、強膜領域、及びまぶた領域について、それぞれ上で説明したように確率モデルである。各画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３の各画素には、同じ座標を持つ入力画像観測の画素と同じ特徴的な眼の領域に属する確率又は対数確率離散値が割り当てられる。入力画像観察の各画素の分類（確率割り当て）は、学習機械によって、例えばニューラルネットワークによって実行され、そして例えば、その色、明るさ、空間コンテキスト、領域間の関係、及び位置に依存する場合がある。

図５に示すように、ユーザの視線方向の評価過程において、相当するパラメトリック区分けマップＰＳ^１、ＰＳ^２、ＰＳ^３のまぶた領域２０ａ、虹彩／角膜領域２０ｂ及び強膜領域２０ｃの各画素は、同じ座標を持ち相当する画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３の画素と比較して、入力画像観察１０が画像幾何学的モデルに相当する確率を決定する。より具体的には、各画像区分けマップＮＳ^１、ＮＳ^２、ＮＳ^３の各画素の確率又は対数確率離散値は、前記それぞれの推定された特徴的な眼領域（すなわち、角膜／虹彩領域、強膜領域及びまぶた領域）の場合にのみ選択される。画素は、相当するパラメトリック区分けマップＰＳ^１、ＰＳ^２、ＰＳ^３と同じ座標を持つ、相当する画素に割り当てられた特徴的な眼の領域（すなわち、角膜／虹彩領域、強膜領域、まぶた領域）に相当する。

選択された確率又は対数確率の離散値が加算されて、入力画像観察が特定の方向を注視しているユーザの眼の幾何学的モデルに相当する確率を示す値が、提供される。その値が最適値を下回っている場合、適切な光学的幾何学的構成を見つけるべくその値が最適値に達するまで、選択した最適化ステップを使用して１つ又はそれより多い新しい画像幾何学モデルが生成される。

別の有利な実施形態では、画像幾何学的モデルの特徴的な眼領域ごとのハードパラメトリック区分けマップの生成に替えて、画像幾何学的モデルの単一のソフトパラメトリック区分けマップが計算される。

ソフトパラメトリック区分けマップの各画素には、３つの離散値が割り当てられる。これらの離散値は、ソフトパラメトリック区分けマップの各画素が画像幾何学的モデルの３つの特徴的な眼の領域の１つに相当する確率又は対数確率をそれぞれ表す。３つの特徴的な眼の領域は、好ましくは、角膜／虹彩領域と、強膜領域と、まぶた領域である。

並行して、区分けニューラルネットワーク１２は、入力画像観察１０の単一のソフト画像区分けマップを生成する。ソフト画像区分けマップの各画素には、少なくとも３つの離散値が割り当てられる。これらの離散値は、ソフト画像区分けマップの各画素が、入力画像観察１０の少なくとも３つの相当する特徴的な眼領域のうちの１つに相当する確率又は対数確率をそれぞれ表す。３つの特徴的な眼の領域は、好ましくは、角膜／虹彩領域と、強膜領域と、まぶた領域である。

次に、ソフトパラメトリックマップと画像区分けマップは、パラメトリック区分けマップの各画素に割り当てられた上記の３つの個別の値のそれぞれに、同じ座標を持つソフト画像区分けマップの各画素に割り当てられている相当する３つの値のそれぞれを乗算することによって合わされる。区分けマップの各画素の乗算された値の合計は、モデル相当値が画像の幾何学的モデルに相当する確率がどの程度かを示す。画素ごとに、これはソフト画像区分けマップによって与えられた確率の加重和として見られる。ここで、重みはソフトパラメトリック区分けマップによって与えられる。

画素単位の乗算ステップの前に、ソフトイメージ区分けマップと、パラメトリック区分けマップとの少なくとも一方は、対数、ロバスト推定量などの関数を介して変換してよい。さらに、変換は、乗算がもはや必要ではなく、その代わりに加算又は減算が実行されるようなものであり得る。

この実施形態によるユーザの視線方向及び他の眼に関連する幾何学的変数の推定は、ソフトパラメトリック及び画像区分けマップを使用することにより、特徴的な眼領域の隣り合う境界部に位置する画素をよりよく識別できるので、より良い結果精度を達成できる。

一実施形態では、この方法は、期待される幾何学に関する事前の知識のみに基づいて、画像データとは無関係に、所与の幾何学的構成（θ）の類似性がどの程度なのかを計算するステップを含む。期待される幾何形状に関する事前の知識は、特許文献１で説明されていて、その内容は参照により本明細書に組み込まれ、画像区分けマップ及びパラメトリック区分けマップによって与えられる推定値とさらに加算的又は乗算的に組み合わせられる。

区分けニューラルネットワーク１２は、入力用の画像区分けマップを生成するように構成された複数の層を含む。ニューラルネットワークは、画像の区分けが入力と同じ解像度になるように、あるいは少なくとも画像区分けマップと入力の間の画素の相当関係を確立可能であるように、入力の変換を実現する１つ又は一連のエンコード／デコード又は砂時計層で構成できる。

ニューラルネットワークは、例えば、最小限の前処理で画素画像から視覚パターンを直接認識するように設計された標準の畳み込みニューラルネットワーク（ＣＮＮ）で使用される畳み込み層を含む場合がある。（ニューラル）ネットワークは、画像区分けプロセスのパフォーマンスを向上させるべく勾配消失なくネットワークをより深められる残余ニューラルネットワーク（ＲｅｓＮＥＴ）アーキテクチャで、有利に強化されよう。

ＣＮＮは、例えば、エンコーダ、ＲｅｓＮＥＴ構築ブロック、及びデコーダの３つの部分で構成される。エンコーダは、コンテキスト情報を抽出して機能マップに圧縮するように構成されていて、３つの畳み込み層を備える。各畳み込み層では、画像を拡大するために反射パディングが実行されるため、畳み込み演算子の下でサイズは同じままである。ストライドは、画像を縮小するために第２畳み込み層と第３畳み込み層で使用される。

区分けニューラルネットワーク１２は、例えば、６つのＲｅｓＮＥＴ構築ブロックを備えることがある。各構築ブロックには２つの畳み込み層があり、各畳み込み層の後にバッチ正規化と正規化線形ユニット（ＲｅＬＵ）が続く。最終ＲｅＬＵの出力は、構築ブロックの入力特徴マップに加えられる。６つのＲｅｓｔＮＥＴ構築ブロックが１つずつ連結されている。ブロック内ではプーリングやストライドが行われないため、特徴マップのサイズは同じままである。

ＲｅｓＮＥＴ構築ブロックに従うデコーダは、機能マップを拡張し、画素カテゴリを推測するように適合されている。これは、ストライドのある２つの畳み込み層を持つ。両方のデコンボリューション層の後に、バッチ正規化ユニットとＲｅＬＵユニットが続く。デコーダは、客観的な情報を推測して回復するように構成されている。ＲｅｓＮＥＴ構築ブロックは、機能マップを改良すべくエンコーダを拡張する。

区分けニューラルネットワークは、以前にＵｎｉｔｙＥＹＥでトレーニングされていた場合がある。ＵｎｉｔｙＥＹＥは、さまざまな肌、さまざまな眼の形、さまざまな虹彩の位置でさまざまな年齢の画像を合成できるツールである。一部のデータはトレーニングに使用できるが、他のデータは検証又はテストに使用できる。合成データ生成のための他のツールを使用できる。

区分けニューラルネットワークトレーニングは、ＲＧＢ、赤外線、ＳＷＩＲ、又はその他の変形などの複数のモダリティからのトレーニングデータを使用して拡張可能でもある。ただし、サンプルで画素クラスの注釈を使用できる場合に限る。

区分けニューラルネットワークも、まず複雑なアーキテクチャでトレーニング可能であるが、その知識は抽出ストラテジーを通じてよりコンパクトなネットワークに転送される。

図７は、ユーザの視線方向を推定する装置を概略的に示す。装置は、例えば、パーソナルコンピュータ、サーバ、スマートフォン、ウェアラブルコンピュータ、又はグーグルグラス（登録商標）などの光学ヘッドマウントディスプレイなどの計算システム３０を備えてよい。カメラのような画像捕捉要素３２は、ユーザの顔の画像を検索するために、計算システム３０に接続又は統合されている。データベース３４は、ユーザ固有の変数を格納する計算システム３０の一部として使用される。計算システム３０は、区分けニューラルネットワークのアルゴリズムのセットを備えるコンピュータプログラムを格納する、コンピュータ可読記憶媒体３６をさらに備える。

実施形態に応じて、本発明による方法の特定のステップは、異なる順序で実行されてもよいか、あるいは連続的ではなく同時に実行されてもよいことに留意されたい。

本発明の記載された実施形態に対する様々な修正及び変形は、添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、当業者には明らかであろう。例えば、入力画像観察１０が画像幾何学的モデルに相当する確率を決定する他の方法論を実装してよい。

Claims

ユーザの眼に関連する幾何学的変数（θ）を推定する方法であって、
ａ特徴的な目の領域を含むユーザの目の画像に対応する少なくとも１つの入力画像観察（１０）を取得するステップａと、
ｂ学習機械を使用して、１つ又は複数の画像区分けマップ（ＮＳ^１、ＮＳ^２、ＮＳ^３）を計算し、前記入力画像観察の各画素を、複数の特徴的な眼の領域のうちの少なくとも１つに分類するステップｂと、
ｃ一連の幾何学的変数を介して、ユーザの眼の画像幾何学的モデルを生成するステップｃと、
ｄ画像の幾何学的モデルを少なくとも１つの画像区分けマップと比較するステップｄと、
ｅ前記比較に基づいて、少なくとも１つの入力画像観察（１０）がユーザの目の幾何学的モデルに相当するかどうかを示すモデル相当値を計算するステップｅと、
ｆステップｃからステップｅまでを繰り返すステップｆであって、ステップｅで計算された値が最適値を下回っている場合は、モデル対応値が最適値に達するまで、ステップｃからステップｅまでの各反復で新しい画像幾何学的モデルを生成すべく、幾何学的変数（θ）のセットの少なくとも１つの変数がステップｃで変更される、ステップｃからステップｅまでを繰り返すステップｆと、
ｇ生成されたユーザの目の最新の画像幾何学的モデルから眼に関連する幾何学的変数（θ）を取得するステップｇと
を備える、ユーザの眼に関連する幾何学的変数（θ）を推定する方法。
前記少なくとも１つの入力画像観察（１０）は、教師あり、半教師あり、又は教師なしの較正手順から取得したデータを提供することによって拡張される、請求項１に記載の方法。
前記眼に関連する幾何学的変数（θ）は、ユーザの視線方向に相当していて、
ステップｃでのユーザの目の画像幾何学的モデルは、ある特定の方向を見つめるユーザの視線に相当していて、
幾何学的変数（θ）のセットの前記少なくとも１つの変数は、前記モデル対応値が前記最適値に達するまでステップｃからステップｅの各反復で、別の方向を見つめているユーザの眼の新しい画像幾何学的モデルを生成すべく、ステップｃの下で変更され、
視線方向が、最新の画像幾何学モデルからステップｇで取得される、請求項１又は２に記載の方法。
少なくとも１つのパラメトリック区分けマップ（ＰＳ）は、ユーザの眼の前記画像幾何学的モデルから計算され、前記パラメトリック区分けマップの各画素は、複数の特徴的な眼の領域（２０ａ、２０ｂ、２０ｃ）のうちの少なくとも１つに分類される、請求項１から３のいずれか一項に記載の方法。
パラメトリック区分けマップ（ＰＳ）の各画素は、この画素が少なくとも１つの特徴的な眼の領域（２０ａ、２０ｂ、２０ｃ）に属する少なくとも１つの確率、対数確率、又はスコアを示す、請求項４に記載の方法。
複数のパラメトリック区分けマップ（ＰＳ^１、ＰＳ^２、ＰＳ^３）が前記画像幾何学的モデルから計算され、各前記パラメトリック区分けマップは、前記画像幾何学的モデルの投影の各画素がどの特徴的な眼領域（２０ａ、２０ｂ、２０ｃ）に属するか、又は確率、対数確率、又はこの画素が１つの特徴的な眼領域に属する前記画像幾何学的モデルの投影の各画素に関連するスコアを示す、請求項５に記載の方法。
ステップｄは、少なくとも１つの画像区分けマップ（ＮＳ^１、ＮＳ^２、ＮＳ^３）の各画素に割り当てられた確率、対数確率、又はスコアを、同じ座標を有する少なくとも１つのパラメトリック区分けマップ（ＰＳ）の画素の値と比較することを備える、請求項５又は６に記載の方法。
少なくとも１つのパラメトリック区分けマップ（ＰＳ）から、画像の幾何学的モデルに従って各画素が属すると推測される特徴的な領域（２０ａ、２０ｂ、２０ｃ）を決定することと、
ステップｄの一部として、少なくとも１つの画像区分けマップ（ＮＳ^１、ＮＳ^２、ＮＳ^３）から、その特徴的な領域に相当する画素相当値であり、この画素がその特徴的な領域に属する確率、対数確率又はスコアを示す画素相当値を決定することと、
ステップｅの一部として、前記画素相当値を一緒に加算して、前記モデル相当値を提供することとを備える、請求項５から７のいずれか一項に記載の方法。
画像幾何学的モデルの少なくとも１つのソフトパラメトリック区分けマップは、ユーザの眼の前記画像幾何学的モデルから計算され、少なくとも２つの値、好ましくは少なくとも３つの値が、前記ソフトパラメトリック区分けマップの各画素に割り当てられ、前記値は各画素が前記画像幾何学的モデルの前記特徴的な眼の領域のそれぞれに相当する確率、対数確率又はスコアを表す、請求項１から８のいずれか一項に記載の方法。
少なくとも２つの値、好ましくは少なくとも３つの値が、前記画像区分けマップの各画素に割り当てられ、前記少なくとも３つの値は、各画素が少なくとも１つの入力画像観察（１０）の前記特徴的な眼領域のそれぞれに相当する、確率、対数確率又はスコアを表す、請求項９に記載の方法。
前記ソフトパラメトリックマップと前記画像区分けマップは、モデル相当値を提供すべく、パラメトリック区分けマップの各画素に割り当てられた少なくとも３つの値のそれぞれに、同じ座標を持つ画像区分けマップの各画素に割り当てられた対応する少なくとも３つの値のそれぞれを乗算することによって、そして前記区分けマップの各画素の乗算された値を加算することによって、合わせられる、請求項１０に記載の方法。
各画素について、各画像区分けマップの確率又は対数確率又はスコアの加重和を、画像区分けマップの相当する画素相当値に関連付けられた確率で計算するステップを備える、請求項１１に記載の方法。
前記特徴的な眼の領域は、好ましくは、角膜と、瞳孔と、虹彩と、強膜と、まぶたとを含む群から選択される３つの特徴的な眼の領域である、請求項１から１２のいずれか一項に記載の方法。
前記画像区分けマップは、画素が１つの特徴的な眼の領域に属する各画素に関連する確率又は対数確率を示す画像確率マップである、請求項１から１３のいずれか一項に記載の方法。
前記画像区分けマップが、この画素が１つの特徴的な目の領域に属する各画素に関連付けられたスコアを示す画像スコアマップである、請求項１から１３のいずれか一項に記載の方法。
学習機械は、少なくとも１つの入力画像観察（１０）に基づいて前記画像区分けマップ（ＮＳ^１、ＮＳ^２、ＮＳ^３）を生成するように構成された区分けニューラルネットワーク（１２）を備える、請求項１から１５のいずれか一項に記載の方法。
区分けニューラルネットワークは、入力用の画像区分けマップを生成するように構成された複数の層を備える、請求項１６に記載の方法。
区分けニューラルネットワークは、画像区分けマップが前記入力と同じ解像度であるように、あるいは少なくとも画像区分けマップ及び前記入力間の画素の相当関係を確立可能に、入力の変換を達成するように構成されたエンコーディング－デコーディング又は砂時計層の１つ又は一連を備える、請求項１７に記載の方法。
幾何学的変数の前記セットが、少なくとも、眼球回転中心と、視軸線ずれと、眼球半径、角膜半径と、輪部半径と、瞳孔半径と、まぶたの開口部又は形状と、左及び／又は右眼角との中から、複数の変数を備える、請求項１から１８のいずれか一項に記載の方法。
前記ステップａは、画像フレームからの画像を前処理することを備え、前記前処理が、明るさ調整と、コントラスト調整と、ホワイトバランス調整と、ノイズ除去と、スケーリングと、トリミングとの少なくともいずれか１つを備える、請求項１から１９のいずれか一項に記載の方法。
前記ステップａは、画像フレームからの画像を前処理することを備え、前記前処理が、頭の姿勢の調整を備える、請求項１から２０のいずれか一項に記載の方法。
ユーザの顔を捉えるカメラ（３２）と、
ユーザ固有の眼及び顔の幾何学的変数を格納するデータベース（３４）と、
請求項１から２１のいずれか一項に記載の方法を実施するコンピュータプログラムを格納するメモリ（３６）を備える、計算システム（３０）と
を備える、眼に関連する幾何学的変数（θ）を推定する装置。
請求項１から２１のいずれか一項に記載の方法を実施すべく構成されているアルゴリズムの任意のセットを備えるコンピュータプログラムを格納する、コンピュータに可読な記憶媒体。