JP2017523487A

JP2017523487A - 適応ホモグラフィ写像に基づく視線追跡

Info

Publication number: JP2017523487A
Application number: JP2016552536A
Authority: JP
Inventors: チャン，ツェンヨウ; ツァイ，チン; リウ，ジチェン; ファン，ジャ−ビン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-03-26
Filing date: 2015-03-12
Publication date: 2017-08-17
Anticipated expiration: 2035-03-12
Also published as: US20150278599A1; JP6502370B2; ES2680825T3; CN106133648A; CA2940241A1; RU2016137779A; AU2015264699B2; WO2015179008A1; CN106133648B; US9684827B2; KR20160138062A; RU2685020C2; KR102334139B1; RU2016137779A3; AU2015264699A1; EP3123283B1; MX2016012193A; EP3123283A1; CA2940241C

Abstract

【課題】ＣＲベースおよびその他の視線追跡器のための改善された技術を提供することである。【解決手段】本主題の開示は、適応ホモグラフィ写像モデルと併せた複数のカメラおよび／または光源に基づく視線検出に関する。モデルの学習は、空間的に変化する視線誤差および頭部姿勢依存誤差を統一的枠組み内で同時に補償することを含む。様々な頭部位置における模擬データを用いて適応ホモグラフィのモデルをオフラインで訓練することを含む諸態様。【選択図】図２

Description

[0001] モバイルデバイス、ハンドヘルドデバイス、およびディスプレイなどの関連技術を含むコンピュータが進化したことに伴い、人間による入力機構も同様に進歩した。音声認識、頭部および骨格追跡ならびにジェスチャ検出に基づくものなどのナチュラルユーザインタフェースが、キーボード、ポインティングデバイス（マウスもしくはスタイラス）、および／または認識記号／手書き入力を補うか、または場合によってはそれらに取って代わるように、より普及しつつある。視線検出（視標追跡）は新たなナチュラルユーザインタフェース技術である。

[0002] １つの種類の視標追跡技術は、複比（cross-ratio、CR）ベースの視標追跡と呼ばれる。この技術は、未校正の配置内における単一のカメラを用いた対象者の遠隔視線推定を可能にするために、平面射影の不変性を利用する。一般的に、赤外光がユーザに向けて投射され、ユーザの眼からの角膜反射（輝点）がカメラによって感知され、視線を追跡するために処理される。

[0003] この発明の概要は、発明を実施するための形態においてさらに後述される代表概念の選択を、単純化された形態で伝えるために提供される。この発明の概要は、クレームされている主題の主要な特徴または本質的な特徴を特定することを意図されておらず、また、クレームされている主題の範囲を限定することになるいかなる様態で用いられることも意図されていない。

[0004] 単純化の仮定の結果、対象者が最初の（固定の）校正位置から動いて離れると、周知のＣＲベースの視線追跡器の性能は大幅に衰える。同時に、現実の使用時に生じる多くのあり得るｘ、ｙおよびｚ頭部位置の各々において対象者が視標追跡を校正する必要があるシステムを実装することは実際的でない。それゆえ、ＣＲベース、およびその他の視線追跡器のための改善された技術が望まれている。

[0005] 手短に言えば、本明細書において説明されている主題の様々な態様は、視線検出を達成するための適応ホモグラフィ写像に関する。１つ以上の態様では、少なくとも４つの光源が対象者の眼からの輝点としての角膜反射を発生させ、カメラが、輝点を包含する現在の画像を取り込むように構成される。校正位置に対する頭部ロケーション、および／または視線方向を表す変数を含む、変数を介して学習された適応ホモグラフィ写像モデルは、輝点に対応する特徴データ、瞳孔関連データおよび／または視線データを整合させ、対象者の眼が現在どこを注視しているのかを指示する視線情報を出力するように構成される。

[0006] １つ以上の態様は、適応ホモグラフィ写像モデルを視線検出のために用いることであって、適応ホモグラフィ写像モデルは、空間的に変化する視線誤差、および校正位置に対する頭部姿勢依存誤差を補償するように訓練される、用いることに関する。現在の輝点データおよび瞳孔関連データが画像内に取り込まれ、画像から、適応ホモグラフィ写像モデルに提供される特徴として処理される。現在の視線情報に対応する特徴に基づいて適応ホモグラフィ写像モデルからデータが受信される。

[0007] １つ以上の態様は、輝点データおよび瞳孔関連データが特徴として抽出される対象者の眼を含む画像を取り込むことと、視線方向を決定するために特徴を適応ホモグラフィ写像モデルへの入力として用いることと、に関する。適応ホモグラフィ写像モデルは、異なる頭部位置における予測偏り補正値に対応する少なくともいくらかの模擬データを用いることによって学習されてもよい。適応ホモグラフィ写像モデルは、相対頭部位置に対応する動きベクトルを含む第１の予測変数を得ること、および視線方向に対応する第２の予測変数を得ることによって学習されてもよい。学習は、複数の頭部位置および視線方向に対応するデータに基づいて目的関数を最小化することを含んでもよい。概して、適応ホモグラフィ写像モデルは、予測のためにスケーリングおよび平行移動を用い、補正のためにホモグラフィを用いる。

[0008] その他の利点は、以下の発明を実施するための形態を図面と併せて読むことによって明らかになるであろう。

[0009] 本発明は例として示されており、添付の図において限定されるものではない。図において、同様の参照符号は類似の要素を指示する。

[0010]１つ以上の例示的実装形態に係る、視線検出において用いられてもよい学習された適応ホモグラフィ写像モデルを含む例示的な構成要素を示すブロック図である。 [0011]１つ以上の例示的実装形態に係る、輝点が、視線検出における使用のために、視線検出のための学習された適応ホモグラフィ写像モデルへの特徴として用いるためにどのように取り込まれるのかについての図である。 [0012]１つ以上の例示的実装形態に係る、輝点および瞳孔関連データ（例えば、瞳孔中心）が、学習された適応ホモグラフィ写像モデルから視線情報を得るためにどのように用いられるのかについての図である。 [0013]１つ以上の例示的実装形態に係る、複比ベースの変換が、適応ホモグラフィ写像モデルを訓練するためにどのように用いられ得るのかについての図である。 [0014]１つ以上の例示的実装形態に係る、様々な頭部位置における適応ホモグラフィ写像モデルの訓練の図である。 [0015]１つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。１つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。１つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。１つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。 [0016]１つ以上の例示的実装形態に係る、学習された適応ホモグラフィ写像モデルから視線情報を得るために行われ得る例示的なステップを示すフロー図である。 [0017]本明細書において説明されている様々な実施形態の１つ以上の態様を内部に実装することができる、モバイルおよび／またはハンドヘルドコンピューティングおよび／または通信デバイスの形態の、例示的な非限定的コンピューティングシステムまたは動作環境を表すブロック図である。

[0018] 本明細書において説明されている技術の様々な態様は概して、校正位置におけるより高い精度、および頭部の移動のもとにおけるより高いロバスト性を有する視線予測を達成するための適応ホモグラフィ写像に関する。これは、空間的に変化する視線誤差および頭部姿勢依存誤差を統一的枠組み内で同時に補償するための学習ベースの技術を用いて達成される。１つ以上の態様では、適応ホモグラフィのモデルは、模擬データを用いてオフラインで訓練されてもよく、データ収集における時間および労力を大幅に節約する。換言すれば、対象者は、多くの様々なあり得る頭部位置において校正を遂行することを要求される必要がない。例えば、ｘ、ｙについてのスケーリング項および平行移動項は実際に滑らかに変化し、それゆえ、模擬データは、偏り補正ホモグラフィが新しい頭部位置においてどのように変化するのかに関する予測を、グランドトゥルースデータ（少なくともその一部）として用いるために含んでもよい。

[0019] 理解されることになるように、適応ホモグラフィ写像は、校正位置に対する頭部移動、およびスクリーン上の注視の位置を取り込んだ予測変数に基づく。適応ホモグラフィ写像を訓練するためのグランドトゥルースデータは、様々な頭部位置における、それらの位置における模擬／模擬データを用いることを含む、一連の対象者依存校正を通じて収集されてもよい。

[0020] オンライン動作の間に、訓練されたモデルは、空間的に変化する視線誤差および頭部姿勢依存誤差から生じる偏りを適応的に補正するために用いられる。実際に、この実時間演算は他の周知の視点技術よりも正確であり、頭部移動に対するロバスト性が高い。

[0021] この目的を達成するために、学習ベースの適応手法は、輝点変換を用いることによって、空間的に変化する誤差、および頭部移動から生じる誤差を同時に補償する。例えば、輝点パターン間の幾何変換を考慮することによって、輝点間の距離および／または輝点パターンのサイズ変化を補償する。結果として生ずるモデルは、対象者の深度変化を補償するだけでなく、スクリーン面と平行な移動も補償する。適応機能は、模擬データに基づいて訓練される学習プロセスを通じて得られてもよいが、システム配置についての任意の予備的知識（利用可能な場合）をシステム内に容易に組み込むことができることに留意されたい。

[0022] 本明細書における例はいずれも非限定的なものであることを理解されたい。例えば、４つの光源およびカメラが例示されているが、（好適な輝点パターンを提供する）任意の数のカメラおよび光源が任意の数の様態で位置付けられてもよい。さらに、視線を検出するために用いられるアルゴリズムおよび同様のものは単なる例にすぎず、本明細書において説明されている技術は、いずれの特定のものからも独立し、それに限定されず、さらに、新しいアルゴリズムが開発されることに応じて適応させることができる。それゆえ、本発明は、本明細書において説明されているいずれの特定の実施形態、態様、概念、構造、機能性または実施例にも限定されない。むしろ、本明細書において説明されている実施形態、態様、概念、構造、機能性または実施例はいずれも非限定的なものであり、本発明は、視線検出全般における利益および利点を提供する様々な仕方で用いられてもよい。

[0023] 図１は、視線検出を遂行するために用いられてもよい例示的な構成要素を示す一般ブロック図である。図１に、コンピューティングデバイス１０２およびディスプレイ１０４が示されている。ディスプレイ１０４は、コンピューティングデバイスに結合された外部ディスプレイ、またはコンピュータデバイス、例えば、その筐体内に組み込まれたディスプレイであってもよい。

[0024] 図１に示されるように、複数のＩＲ光源１０６（１）〜１０６（ｍ）が、１つ以上のＩＲ光感知カメラ１０８（１）〜１０８（ｎ）とともに示されている。複比ベースの視線検出のためには、単一のカメラで通例十分であるが、存在する場合には、複数のカメラからの画像が処理され、ノイズの効果を低減するなどするために何らかの仕方で組み合わせられてもよい（例えば、平均化される）ことに留意されたい。

[0025] 光源は、レーザ発光ダイオード（light emitting diode、LED）などの個々の光源、および／または光を回折させる／反射する光学要素を通して投射し、それにより、複数の光源を提供するＬＥＤもしくは同様のものであってもよい。ＩＲ光感知カメラのうちの任意のものまたは全ては可視光カメラと組み合わせられてもよいことに留意されたい。カメラ（もしくはカメラ群）は、デバイスに取り付けられてもよい、例えば、縁部内に埋め込まれるか（例えば、円で囲まれたＸによって表された図２のカメラ２０８）、もしくはデバイスに物理的に結合されてもよいか、またはデバイスの外部にあってもよいか（例えば、図４のカメラ４０８）、あるいはその両方の組み合わせであってもよいことにさらに留意されたい。

[0026] 複比ベースの視標追跡において理解されているように、ホモグラフィを計算するための輝点を提供するためには少なくとも４つの光源が必要とされ、これらの光源は、それらのうちの任意のものと他のものとの間に少なくとも３つの異なる方向が存在し、四辺形を提供するように配置される。例えば、図２のとおりの光源２２２〜２２５の長方形パターンが典型的な配置である。それにもかかわらず、より多くの光源を含む他の配置も実現可能であり、例えば、他の輝点のうちの１つが検出されない場合に、少なくとも４つの輝点を提供するなどの利益をもたらし得る。

[0027] ＩＲ光源１０６（１）〜１０６（ｍ）および／またはＩＲ光感知カメラ１０８（１）〜１０８（ｎ）の動作を制御するためにコントローラ１１０が用いられてもよい。ただし、１つ以上の実装形態では、光源およびカメラは「常時オン」であってもよく、これによって、オン／オフ機能をおそらく有する電源以外の「コントローラ」は必要ない。ＩＲ光が用いられるのは、それが人間の目に見えないためであるが、対象者の眼が、用いられている特定の可視光波長を遮断するコンタクトレンズを装着している状況など、一部の状況においては、可視光を用いることが望ましい場合があることに留意されたい。それゆえ、本明細書で使用するとき、「光源」はＩＲ波長に限定されない。
概して、１つ以上のカメラ１０８（１）〜１０８（ｎ）は、頭部位置視線偏り補正器１１６に結合されるか、またはそれを組み込む、視線検出器１１４を含む、画像処理構成要素１１２に送り込まれる画像を取り込む。本明細書において説明されているように、偏り補正器は、訓練された適応ホモグラフィ写像構成要素を含む。画像処理構成要素１１２は、ユーザが、処理されている所与のフレームまたは同様のものの内部のどこを現在注視しているのかを表す注視座標などの、視線検出出力１１８を提供する。このような出力１１８は、他の入力（例えば、マウスクリックまたはジェスチャ）と共に用いるなどするために、バッファされてもよく、オペレーティングシステムによって（例えば、カーソルを動かすために）消費されてもよく、アプリケーションおよび／または同様のものによって（例えば、メニュー項目を強調するために）用いられてもよい。概して、現在の視線情報は、ユーザインタフェースの状態を変更することに関するアクションをとるために用いられてもよい。視線検出は、他の状態変更のために、例えば、ディスプレイを待機状態もしくはオフ状態からアクティブ状態へオンにするために、（またはその逆のために、）場合により、眼の瞬きのパターンなどの他の（例えば、ジェスチャ）検出と組み合わせて用いられてもよい。

[0028] 視線検出器１１４に関しては、任意の既存の技法または今後開発される技法（複比技術など）が、感知された輝点、瞳孔データおよび任意のその他の取り込まれた特徴を視線情報出力１１８に変換するために利用されてもよい。技法としての１つ以上の決定が、最終出力を作るために組み合わせられてもよい（例えば、平均される）。本明細書において説明されているように、頭部位置視線偏り補正器１１６は、他の偏り補正技法よりも正確でロバスト性が高い偏り補正を行う視線検出アルゴリズム１１４を提供する。

[0029] 概して、遠隔視線追跡システムは、赤外光源を用いて、対象者の眼の画像の一部として取り込まれる、輝点と呼ばれる、角膜反射を発生させるように動作する。取り込まれた画像は、瞳孔中心、角膜反射（例えば、眼球の位置を指示する）および／または角膜縁の輪郭などの、照明および視点に対して不変である情報特徴を抽出するために処理される。

[0030] 図２では、ユーザがスクリーン上の現在の注視ロケーション２２６を見ている間に、ＩＲ光源２２５から反射される輝点の概念がカメラ２０８によって取り込まれるように示されていることに留意されたい。容易に理解することができるように、他の光源２２２〜２２４からの輝点も同様に同時に取り込まれる（ただし、図２には、このような、眼に向かう矢印／カメラへ反射される矢印のセットは１つしか示されていない）。

[0031] 理解されるように、対象者２２８の頭部位置、および注視ロケーション２２６は、取り込まれる輝点ｇ₁〜ｇ₄の位置およびサイズに影響を及ぼす。この情報は、瞳孔中心ｕ_pなどの他の情報と共に、学習された頭部位置視線偏り補正器１１６に送り込まれる、画像３０２から抽出された特徴データ３０４に対応する。そこから、スクリーン座標などの視線情報３１０が得られ、プログラム３１２に提供される。

[0032] 本明細書において説明されているように、視線推定偏り補正のためのホモグラフィベースの方法は、状況によっては、視線推定の精度および／またはロバスト性を高めることができる。偏り補正のためのホモグラフィベースの方法は偏り補正ホモグラフィ変換を実施することができる。偏り補正ホモグラフィ変換は、校正訓練段階の間に、基本的な複比方法によって予測される注視点からスクリーン上のグランドトゥルース目標への点群位置合わせ問題を解くことによって計算することができる。

[0033] 概して、ホモグラフベースの方法は、図４に一般的に示されているように、光軸オフセットおよび視軸オフセットを効果的にモデル化するため、校正位置においては大抵うまくいく。しかし、瞳孔中心、および輝点によって形成される平面に関する平面性の仮定に由来するモデル誤差のゆえに、空間的に変化する誤差が生じる。正確な予測のために、偏り補正ホモグラフィ写像は対象者の視線方向に依存する必要がある。

[0034] 最適な偏り補正ホモグラフィは頭部位置の関数であるため、対象者が校正位置から動いて離れると、ホモグラフィベースの方法の性能は大幅に劣化する。本明細書において説明されている１つ以上の態様は適応ホモグラフィ写像に関する。適応ホモグラフィ写像は、偏り補正ホモグラフィが新しい頭部位置においてどのように変化するのかを「予測し」、それにより、視線追跡器の性能が、あたかもそれがその新しい頭部位置において校正されたかのようになるようにすることに向けられている。説明されるのは、現在の頭部位置と校正位置との間の相対変化、および現在の視線方向に基づいて、校正位置において計算された偏り補正ホモグラフィの変化を予測するための方策である。

[0035] ホモグラフィベースの偏り補正を行うホモグラフィ写像の複比に関して、図４に一般的に示されるように、Ｌ_iを、４つのスクリーン角部に配置された点光源として表し（１≦ｉ≦４）、Ｇ_iを、対応する角膜反射として表し、ｇ_iをＧ_iの画像として表す。Ｐは３Ｄにおける瞳孔中心であり、ｐは画像内におけるその射影である。４つの点光源がスクリーンの角部に示されているが、必要に応じて多くの異なる構造、数、配置の複数の光源が用いられてもよく、ここでは例示目的のために４つの角部の光が示されている。複比方法は、群（Ｌ_i，Ｇ_i，ｇ_i）の各々は、平面、Π_L、Π_G、Π_gとそれぞれ表される、同一平面上にあると仮定する。平面Π_L、Π_G、Π_gの間の変換はホモグラフィを通じて記述され得る。瞳孔中心ＰはΠ_G内にあるとの仮定の下で、注視点予測は次式によって与えられる：
ＰｏＲ_CR＝Ｈ_GL（Ｈ_gG（ｐ））＝Ｈ_CR（ｐ）（１）
ここで、Ｈ_gGは平面Π_gを平面Π_Gに写像し、Ｈ_GLは平面Π_Gを平面Π_Lに写像し、Ｈ_CRはＨ_GLとＨ_gGとの合成変換である。しかし、これらの単純化の仮定は実際には妥当でないため、大きな視線推定の偏りが観察される。

[0036] ホモグラフィベースの技法は、この視線推定の偏りを補正するために別のホモグラフィ変換を採用する。１つの技法では、画像内の輝点はまず、正規化空間（例えば、単位正方形Π_N）上に写像され、正規化空間内の推定注視点をスクリーン空間Π_L内の予想注視点に写像するために、偏り補正ホモグラフィが使用される。ホモグラフィベースの予測による注視点予測は次式によって与えられる：

ここで、

は画像空間を正規化空間に写像し、Ｈ_NLは正規化空間をスクリーン空間に写像する。ｖをスクリーン上の目標位置のための添字として表し、Ｖを目標の添字の集合として表し、ｔ_vをスクリーン空間内の目標の位置として表すと、対象者依存校正の目的は、再射影誤差を最小化する最適な偏り補正ホモグラフィ

を見いだすことである：

ここでｐ_vは、目標ｖを注視しているときの画像内における２Ｄ瞳孔中心位置である。

[0037] 本明細書において説明されるのは、別のホモグラフィ写像Ｈ_Aを用いて偏り補正ホモグラフィＨ_NLの変化をモデル化する、適応ホモグラフィ写像である。適応ホモグラフィによる注視点は次式によって与えられる：
ＰｏＲ_AH＝Ｈ_NL（Ｈ_A（Ｈ_CR（ｐ）））（４）
式（４）において、偏り補正ホモグラフィＨ_NLは、校正時に式（３）における同じ最小化プロセスによって計算され、同じ対象者について不変のままであることに留意されたい。対照的に、適応ホモグラフィ写像Ｈ_Aは、校正位置に対する現在の頭部位置、および視線方向に対して適応的に変化する必要がある。１つ以上の態様では、適応ホモグラフィは本明細書において回帰問題として説明される。すなわち、相対頭部位置および視線方向を記述する予測変数が与えられると、システムは、Ｈ_A内の値を予測することを求める。

[0038] 限定するものではないが、移動（頭部位置に対応する）および視線方向、ｘ＝［ｘ_m，ｘ_g］^Tを含む、異なる種類の予測変数が用いられてもよい。まず、校正位置において記憶された輝点の四辺形と現在の輝点の四辺形との間の幾何変換を用いて、校正位置に対する頭部移動が取り込まれる。実際には、アフィン変換または相似変換が、相対移動を符号化するために用いられてもよい。例えば、対象者が校正後にスクリーンに向かって動くと、変換のスケール項は１よりも大きくなる。ホモグラヒ（homograhy）変換は、偏り補正全般に関して一般的に上述された別の好適な技法である。

[0039] 第１の種類の予測変数ｘ_mは、動きパラメータをベクトル化することによって得られる。アフィン変換を用いる場合には、ｘ_mについての６次元ベクトルが存在するか、または相似変換を用いる場合には、ｘ_mについての４次元ベクトルが存在する。さらに、視線方向を、空間的に変化する写像のために符号化するために、瞳孔関連データ、例えば、正規化空間内における瞳孔中心位置ｘ_g＝Ｈ_CR（ｐ−ｐ₀）が特徴の１つとして用いられる。ここで、ｐ₀は、スクリーンの中心を注視されたときの瞳孔中心位置である。

[0040] これらの予測変数を用いて、適応ホモグラフィは２次の多項式回帰（すなわち、２次回帰）としてモデル化されてもよい：
Ｈ_A,x＝ｆ（ｘ，β）（５）
２次回帰では、適応ホモグラフィの値は、定数項、線形項、２次項、および相互作用項を包含する、予測変数に対して線形である。

[0041] 深度変化についての誤差補償は、校正位置および現在の位置における輝点四辺形の相対サイズを用いて平行移動補正ベクトルを適応的にスケーリングすることによって達成されてもよい。１つ以上の実装形態では、本明細書において説明されている技術は、予測のためにスケーリングよりも豊富な変換のセットを考慮し、補正のためにホモグラフィを（平行移動のみの代わりに）用いる。最適な偏り補正ホモグラフィの値は頭部の移動に依存する。

[0042] 対象者に各々のあり得る頭部位置において視線を校正させる代わりに、１つ以上の実装形態では、誤差補償は、まず、模擬データを通じて適応を学習し、その後、適応を学習するためのその模擬訓練データを用いて現在の平行移動ベクトルを予測することによって、達成することができることに留意されたい。この方法論を用いることで、対象者の校正時間および労力を大幅に節約するとともに、計算速度を改善することができる。加えて、模擬の使用によって、単に予測のための平行移動よりも複雑なモデルを用いることが可能になる。

[0043] 図５は、一実装形態の全プロセスをまとめている。訓練の際に、頭部位置Ｈ₀〜Ｈ_nについての様々な変換（例えば、アフィン変換Ａ）の各々、および注視位置は既知であり、Ｘ＝｛（Ａ₁，ｇ₁），（Ａ₂，ｇ₂），・・・，（Ａ_n，ｇ_n）｝と表すことができる。図５においてＨ₀〜Ｈ_nとして示される、対応する頭部位置は訓練の際に既知であり、それにより、Ｙが学習されることができる。

グランドトゥルース訓練データは、少なくとも一部、模擬データであってもよいことに留意されたい。

[0044] それゆえ、上述されたように、訓練動作は、回帰関数ｆ：Ｘ−＞Ｙ（２次の多項式）を学習するために用いられるデータを得る。訓練されたデータに基づく、これらの学習された頭部位置および／または回帰関数は、ローカルストレージおよび／またはクラウドストレージ内に記憶されるなど、任意の適切な仕方で記憶され、図１の視線追跡システムがアクセス可能であってもよい。

[0045] アプリケーション、オンライン環境内、コンピューティングデバイスの基本オペレーティングシステム内などにおいてあり得る現在のユーザによる使用の間に、取り込まれた輝点位置に対応する現在の輝点群のアフィン位置合わせＡが、画像の取り込みを通じて得られる。これが視線方向ｇと共に得られると、回帰：ｙ＝ｆ（ｘ）、ただしｘ＝（Ａ，ｇ）、を用いることで、偏り補正ホモグラフィ：Ｈ＝Ｈ₀ｙがもたらされる。

[0046] ホモグラフィ適応を学習することに関して、ｕを３次元における頭部位置として表し、Ｕをサンプリングされた頭部位置の集合として表す。好適な目的関数は次式のように定義される：

ここで、Ｈ_A,x＝ｆ（ｘ，β）（式（５））は適応ホモグラフィのための２次回帰モデルである。適応ホモグラフィの学習の目的は、模擬対象者が、サンプリングされる頭部位置に位置するときの、スクリーン上における予測注視位置とグランドトゥルースのものとの間の２乗誤差を合計することによって再射影誤差を最小化する係数行列を見いだすことである。

[0047] 式（６）において定義された目的関数を最小化するために、２ステップ手法が用いられてもよい。第１に、代数誤差を最小化することによって予測関数が推定されてもよい。各頭部位置ｕにおいて、位置ｕにおける対象者依存校正を遂行することによって、最適な偏り補正ホモグラフィ

を計算する。理想的にはスケールファクタまで、

である。それゆえ、プロセスは、予測Ｈ_A,x＝ｆ（ｘ_u,v，β）と、偏り補正ホモグラフィの差

（最後の要素は１に正規化される）との間の代数誤差を最小化することができる。ここで、

は、デフォルト校正位置において計算される偏り補正ホモグラフィである。それゆえ、代数誤差の最小化は次式のように定式化することができる：

ここで、βαは、代数誤差を最小化した後の推定係数行列である。

[0048] 第２に、式（６）における再射影誤差を最小化するために、処理は、βαを用いた初期解から開始し、Ｌｅｖｅｎｂｅｒｇ−Ｍａｒｑｕａｒｄｔアルゴリズムを用いて非線形最小二乗最適化を遂行してもよい。

[0049] 校正プロセスの実装形態の一例を参照すると、一群の訓練対象者が用いられ、スクリーン上に均等に分布した規則的なｎ×ｎ，ｎ∈｛２，３，４，５｝の格子パターンを注視するように各々要求される。１つの訓練シナリオでは、スクリーン上に均等に分布した５×５格子が用いられた。訓練データの収集のために、ワールド座標系において、スクリーン面をｘ−ｙ平面と定義し、スクリーンからの深度をｚ軸と定義する。−２００ｍｍ〜２００ｍｍの範囲を有し、位置［０，０，６００］ｍｍに中心を有する５×５×５格子を用いて、スクリーンの前方の典型的な作業空間がサンプリングされてもよい。各頭部位置ｕにおいて、例えば、スクリーン上のｎ×ｎ（例えば、５×５）校正パターンを用いて、式（３）における対象者依存校正を遂行する。異なる眼パラメータを有する対象者を予期するために、典型的な眼パラメータの平均、およびパラメータの値の１０パーセントの標準偏差を有するガウス分布を用いて、ある人数（例えば、５０人）の仮想対象者をランダムにサンプリングする。例えば、角膜半径の典型的なサイズは７．８ｍｍである。次に、プロセスは、平均７．８および標準偏差０．７８を有するガウス分布を用いてランダムサンプルを抽出する。

[0050] 例えば、典型的な眼パラメータ（角膜半径Ｒ_c＝７．８ｍｍ、角膜中心から瞳孔中心までの距離Ｋ＝４．２ｍｍ、水平角偏位および鉛直角偏位は５．０度および１．５度、から開始して、プロセスは各眼パラメータの値を元の値の［−３０，３０］％をもって変化させる。

[0051] 対象者の実際のデータの代わりに、またはそれに加えて、模擬データが用いられてもよい。例えば、図６Ａおよび図６Ｂは、ｘ、ｙ上のスケーリングについての、深度軸に沿った異なる頭部位置において計算された最適な偏り補正ホモグラフィの値のプロットを示す。図７Ａおよび図７Ｂは、ｘ、ｙ上の平行移動についての同様のプロットを示す。各ホモグラフィの最後の要素は１に正規化されることに留意されたい。図から見られるように、プロットは滑らかである。それゆえ、グランドトゥルースのための模擬データとして最適値が予測され得る。

[0052] 対象者についての実際の校正データの代わりに模擬データを用いることは、複比技術に限定されないことに留意されたい。モデルベースの方法（３Ｄ視線ベクトルを推定し、３Ｄ光線を２Ｄスクリーン面と交差させることによって２Ｄ注目点を計算する）などの、他の視線検出解決策が、同様に、校正のために模擬を用いてもよい。

[0053] 図８は、学習された適応ホモグラフィモデルの実際の使用における例示的なステップを示す一般化されたフロー図である。ステップ８０２は画像を取り込み、画像は、特徴として用いる（ステップ８０８）ための輝点データおよび瞳孔関連データに処理される（ステップ８０４）。訓練されたモデルは、特徴データを用いて、補正視線情報、例えば、対象者の眼がスクリーンを注視している座標（または一般的格子識別子）、を計算するために用いられる頭部位置補正データを決定する。補正視線情報は、アプリケーション、オンライン環境、オペレーティングシステム等などの、視線追跡システムの動作環境による消費のためにバッファまたは同様のものへ出力されてもよい。視線情報の結果は、ナチュラルユーザインタフェースインタラクション、ユーザ興味の解釈のための注目判定などのために用いることを含む、多くの異なるシナリオで用いることができる。ステップ８１０は、別のフレームのためにプロセスを繰り返す。過度の飛び回りを防止するためのフレームレートまたは何らかの平滑化動作が用いられてもよい。変化注視座標に応じて、視線追跡システムは、ユーザの視線の変化に依存した視線追跡システムの別のアクションまたは応答をトリガしてもよく、例えば、異なるナチュラルユーザインタフェースインタラクションをトリガまたは停止または開始する、ユーザ興味解釈のための異なる注目判定を指示するなどしてもよい。

[0054] 上述された方法論において説明されたものなどの、適応ホモグラフィは、既知のホモグラフィベースの方法を上回る精度を提供する。なぜなら、頭部移動からの偏りを補正することに加えて、適応ホモグラフィは、正規化空間内における瞳孔位置ｘ_gによって予測される、空間的に変化する視線誤差も予期するからである。

[0055] 上述の技術は他の視線追跡技術と組み合わせられてもよい。例えば、本明細書において説明されている技術は、本出願と同時に出願された、「ＥＹＥＧＡＺＥＴＲＡＣＫＩＮＧＵＳＩＮＧＢＩＮＯＣＵＬＡＲＦＩＸＡＴＩＯＮＣＯＮＳＴＲＡＩＮＴＳ」と題する同時係属中の米国特許出願、弁護士整理番号３４０８３４．０１、に記載されているものなどの、２つの眼に基づく別の技術を用いたシステムに組み込まれてもよい。

[0056] 図から見られるように、少なくとも４つの光源とカメラとを備えるシステムであって、光源は、対象者の眼からの輝点としての角膜反射を発生させるように構成され、カメラは、輝点を包含する現在の画像を取り込むように構成される、システムが提供される。校正位置に対する頭部ロケーション、および／または視線方向を表す変数を含む、変数を介して学習された適応ホモグラフィ写像モデルは、輝点に対応する特徴データ、瞳孔関連データおよび／または視線データを整合させ、対象者の眼が現在どこを注視しているのかを指示する視線情報を出力するように構成される。

[0057] １つ以上の態様では、校正位置に対する頭部ロケーション、および注視位置を表す変数は模擬データに少なくとも一部基づいてもよい。模擬データは、様々な頭部位置における予測変数を得るべく校正を通じて適応ホモグラフィ写像を訓練するためのグランドトゥルースデータを表すために用いられてもよい。グランドトゥルースデータは適応ホモグラフィを多項式回帰としてモデル化する。

[0058] １つ以上の態様では、校正位置に対する頭部ロケーションを表す変数は、アフィン変換、相似変換またはホモグラフィ変換によって符号化された様々な頭部位置の間での相対頭部移動に対応する。視線方向を表す変数は瞳孔関連データによって符号化される。

[0059] １つ以上の態様は、適応ホモグラフィ写像モデルを視線検出のために用いることであって、適応ホモグラフィ写像モデルは、空間的に変化する視線誤差、および校正位置に対する頭部姿勢依存誤差を補償するように訓練される、用いることに関する。現在の輝点データおよび瞳孔関連データが画像内に取り込まれ、画像から、適応ホモグラフィ写像モデルに提供される特徴として処理される。現在の視線情報に対応する特徴に基づいて適応ホモグラフィ写像モデルからデータが受信される。

[0060] １つ以上の態様は、位置データおよび瞳孔関連データの複数のセットを、適応ホモグラフィを２次回帰としてモデル化する予測変数として用いることを含む、適応ホモグラフィ写像モデルの学習に関する。位置データおよび瞳孔位置データの複数のセットを用いることは、例えば、異なる頭部位置スケーリングおよび／または平行移動における偏り補正値を予測することによって、少なくともいくらかの模擬データを用いることを含んでもよい。

[0061] １つ以上の態様は、輝点データおよび瞳孔関連データが特徴として抽出される対象者の眼を含む画像を取り込むことと、視線方向を決定するために特徴を適応ホモグラフィ写像モデルへの入力として用いることと、に関する。適応ホモグラフィ写像モデルは、異なる頭部位置における予測偏り補正値に対応する少なくともいくらかの模擬データを用いることによって学習されてもよい。適応ホモグラフィ写像モデルは、相対頭部位置に対応する動きベクトルを含む第１の予測変数を得ること、および視線方向に対応する第２の予測変数を得ることによって学習されてもよい。学習は、複数の頭部位置および視線方向に対応するデータに基づいて目的関数を最小化することを含んでもよい。概して、適応ホモグラフィ写像モデルは、予測のためにスケーリングおよび平行移動を用い、補正のためにホモグラフィを用いる。

例示的な動作環境
[0062] 図９は、本明細書において説明されている主題の諸態様が実装されてもよい好適なモバイルデバイス９００の一例を示す。モバイルデバイス９００はデバイスのほんの一例にすぎず、本明細書において説明されている主題の諸態様の使用または機能性の範囲に関するいかなる限定を示唆することも意図されていない。また、モバイルデバイス９００は、例示的なモバイルデバイス９００内に示されている構成要素のうちの任意のものまたはそれらの組み合わせに関連する任意の依存性または要求を有すると解釈されてもならない。モバイルデバイスは、スマートフォン、タブレット、ラップトップ等などのハンドヘルドデバイスを含んでもよい。パーソナルコンピュータが、例えば、ディスプレイに搭載されたカメラおよび光源とともに代替的に用いられてもよい。

[0063] 例示的なモバイルデバイス９００は眼鏡、ゴーグルまたは帽子上に装着されてもよいか、あるいは外部コンピュータを含む、腕時計型デバイスなどのその他のウェアラブルデバイスも全て好適な環境である。眼鏡および帽子は頭部上に着用されるが、それらは、頭部に対して異なる位置において着用される場合があり、それゆえ、頭部位置偏り補正が妥当になり得ることに留意されたい。

[0064] 図９を参照すると、本明細書において説明されている主題の諸態様を実装するための例示的なデバイスは、モバイルデバイス９００を含む。いくつかの実施形態では、モバイルデバイス９００は、携帯電話、他者との音声通信を可能にするハンドヘルドデバイス、何らかの他の音声通信デバイス、または同様のものを含む。これらの実施形態では、モバイルデバイス９００は、写真を撮影するためのカメラを備えてもよい。ただし、他の実施形態では、これは必要でなくてもよい。他の実施形態では、モバイルデバイス９００は、パーソナルデジタルアシスタント（personal digital assistant、PDA）、ハンドヘルドゲームデバイス、ノートブックコンピュータ、プリンタ、セットトップ、メディアセンター、もしくはその他の電化製品を含む電化製品、その他のモバイルデバイス、または同様のものを含んでもよい。さらに他の実施形態では、モバイルデバイス９００は、パーソナルコンピュータ、サーバ、または同様のものなどの非モバイル型と一般的に見なされるデバイスを含んでもよい。

[0065] モバイルデバイス９００の構成要素は、限定するものではないが、処理ユニット９０５、システムメモリ９１０、およびシステムメモリ９１０を含む様々なシステム構成要素を処理ユニット９０５に結合するバス９１５を含んでもよい。バス９１５は、メモリバス、メモリコントローラ、周辺バス、および種々のバスアーキテクチャのうちの任意のものを用いたローカルバス、ならびに同様のものを含む、いくつかの種類のバス構造のうちの任意のものを含んでもよい。バス９１５は、データがモバイルデバイス９００の様々な構成要素間で送信されることを可能にする。

[0066] モバイルデバイス９００は、種々のコンピュータ可読／機械可読媒体を含んでもよい。このような媒体は、モバイルデバイス９００によってアクセスされることができる任意の利用可能な媒体であることができ、揮発性および不揮発性媒体、ならびに着脱式および非着脱式媒体の両方を含む。限定ではなく、例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報の記憶のための任意の方法または技術で実装される、揮発性および不揮発性、着脱式および非着脱式媒体を含む。コンピュータ記憶媒体は、限定するものではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（digital versatile disk、DVD）またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは所望の情報を記憶するために用いることができ、モバイルデバイス９００によってアクセスされることができる任意のその他の媒体を含む。

[0067] 通信媒体は通例、搬送波またはその他の輸送機構などの変調データ信号でコンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを具現し、任意の情報送達媒体を含む。用語「変調データ信号」は、信号であって、その特性セットの１つ以上を有するか、または情報を信号内に符号化するような仕方で変更される、信号を意味する。限定ではなく、例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、ならびに音響、ＲＦ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、無線ＵＳＢ、赤外線、Ｗｉ−Ｆｉ、ＷｉＭＡＸ、およびその他の無線媒体などの無線媒体を含む。上述のもののうちの任意のものの組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

[0068] システムメモリ９１０は、揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含み、リードオンリーメモリ（read only memory、ROM）およびランダムアクセスメモリ（random access memory、RAM）を含んでもよい。携帯電話などのモバイルデバイス上においては、時として、オペレーティングシステムコード９２０がＲＯＭ内に含まれる。ただし、他の実施形態では、これは必要ではない。同様に、アプリケーションプログラム９２５がＲＡＭ内にしばしば配置される。ただし、この場合も先と同様に、他の実施形態では、アプリケーションプログラムは、ＲＯＭ内、またはその他のコンピュータ可読メモリ内に配置されてもよい。ヒープ９３０は、オペレーティングシステム９２０およびアプリケーションプログラム９２５に関連付けられる状態のためのメモリを提供する。例えば、オペレーティングシステム９２０およびアプリケーションプログラム９２５は、それらの動作中に変数およびデータ構造をヒープ９３０内に記憶してもよい。

[0069] モバイルデバイス９００はまた、他の着脱式／非着脱式、揮発性／不揮発性メモリを含んでもよい。例として、図９は、フラッシュカード９３５、ハードディスクドライブ９３６、およびメモリスティック９３７を示す。ハードディスクドライブ９３６は、例えば、メモリスロット内にはまるように小型化されてもよい。モバイルデバイス９００は、着脱式メモリインタフェース９３１を介してこれらの種類の不揮発性着脱式メモリとインタフェースをとってもよいか、あるいはユニバーサルシリアルバス（universal serial bus、USB）、ＩＥＥＥ９３９４、有線ポート９４０のうちの１つ以上、またはアンテナ９６５を介して接続されてもよい。これらの実施形態では、着脱式メモリデバイス９３５〜９３７は通信モジュール９３２を介してモバイルデバイスとインタフェースをとってもよい。いくつかの実施形態では、これらの種類のメモリの全てが単一のモバイルデバイス上に含まれなくてもよい。他の実施形態では、これらおよび他の種類の着脱式メモリのうちの１つ以上が単一のモバイルデバイス上に含まれてもよい。

[0070] いくつかの実施形態では、ハードディスクドライブ９３６は、モバイルデバイス９００に、より永久的に取り付けられるような様態で接続されてもよい。例えば、ハードディスクドライブ９３６は、バス９１５に接続されてもよい、パラレル・アドバンスドテクノロジーアタッチメント（parallel advanced technology attachment、PATA）、シリアル・アドバンスドテクノロジーアタッチメント（serial advanced technology attachment、SATA）または別様のものなどのインタフェースに接続されてもよい。このような実施形態では、ハードドライブを取り外すことは、モバイルデバイス９００のカバーを取り外し、ハードドライブ９３６をモバイルデバイス９００内の支持構造物に接続しているねじまたはその他の締結具を取り外すことを含んでもよい。

[0071] 以上において説明され、図９に示されている、着脱式メモリデバイス９３５〜９３７およびそれらの関連コンピュータ記憶媒体は、コンピュータ可読命令、プログラムモジュール、データ構造、およびその他のデータの記憶をモバイルデバイス９００に提供する。例えば、着脱式メモリデバイスまたはデバイス９３５〜９３７は、モバイルデバイス９００によって撮影された画像、音声記録、連絡先情報、プログラム、プログラムのためのデータなどを記憶してもよい。

[0072] ユーザは、キーパッド９４１およびマイクロフォン９４２などの入力デバイスを通じてコマンドおよび情報をモバイルデバイス９００に入力してもよい。いくつかの実施形態では、ディスプレイ９４３はタッチ感知スクリーンであってもよく、ユーザがコマンドおよび情報をその上に入力することを可能にしてもよい。キーパッド９４１およびディスプレイ９４３は、バス９１５に結合されたユーザ入力インタフェース９５０を経由して処理ユニット９０５に接続されてもよいが、また、通信モジュール９３２および有線ポート９４０などの、他のインタフェースおよびバス構造によって接続されてもよい。デバイス９００を用いて行われたジェスチャを判定するために、動き検出９５２を用いることができる。

[0073] 本明細書において説明されているように、眼の輝点およびその他の眼関連データが取り込まれ、入力のために処理されてもよい。処理は、ソフトウェアで、ハードウェア論理で、あるいはソフトウェアおよびハードウェア論理の組み合わせで遂行されてもよい。

[0074] ユーザは、例えば、マイクロフォン９４２に向かって話すことを通じて、およびキーパッド９４１またはタッチ感知ディスプレイ９４３上に入力されるテキストメッセージを通じて他のユーザと通信してもよい。オーディオユニット９５５は、スピーカ９４４を駆動するための電気信号を提供するとともに、マイクロフォン９４２からオーディオ信号を受信し、受信されたオーディオ信号をデジタル化してもよい。

[0075] モバイルデバイス９００は、カメラ９６１を駆動するための信号を提供する映像ユニット９６０を含んでもよい。映像ユニット９６０はまた、カメラ９６１によって得られた画像を受信し、これらの画像を、モバイルデバイス９００上に含まれる処理ユニット９０５および／またはメモリに提供してもよい。カメラ９６１によって得られる画像は、映像、映像を形成しない１つ以上の画像、またはこれらの何らかの組み合わせを含んでもよい。

[0076] 通信モジュール９３２は、１つ以上のアンテナ９６５へ信号を提供し、それから信号を受信する。アンテナ９６５のうちの１つは携帯電話ネットワークのためのメッセージを送信および受信してもよい。別のアンテナは、Ｂｌｕｅｔｏｏｔｈ（登録商標）メッセージを送信および受信してもよい。さらに別のアンテナ（または共有アンテナ）は無線イーサネットネットワーク規格を介してネットワークメッセージを送信および受信してもよい。

[0077] なおさらに、アンテナが、ロケーションベースの情報、例えば、ＧＰＳ信号をＧＰＳインタフェースおよび機構９７２に提供する。次に、ＧＰＳ機構９７２は、対応するＧＰＳデータ（例えば、時間および座標）を処理のために利用できるようにする。

[0078] いくつかの実施形態では、１つを超える種類のネットワークのためのメッセージを送信および／または受信するために、単一のアンテナが用いられてもよい。例えば、単一のアンテナが音声メッセージおよびパケットメッセージを送信および受信してもよい。

[0079] ネットワーク化された環境内で動作させると、モバイルデバイス９００は１つ以上のリモートデバイスに接続してもよい。リモートデバイスは、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、携帯電話、メディア再生デバイス、ピアデバイスまたはその他の共通ネットワークノードを含んでもよく、通例、モバイルデバイス９００に関連して上述された要素の多くまたは全てを含む。

[0080] 本明細書において説明されている主題の諸態様は、数多くの他の汎用または専用コンピューティングシステム環境または構成と共に使用可能である。本明細書において説明されている主題の諸態様と共に使用するために好適になり得る周知のコンピューティングシステム、環境、および／または構成の例としては、限定するものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドもしくはラップトップデバイス、多重プロセッサシステム、マイクロコントローラベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上述のシステムもしくはデバイスのうちの任意のものを含む分散コンピューティング環境、および同様のものが挙げられる。

[0081] 本明細書において説明されている主題の諸態様は、プログラムモジュールなどのコンピュータ実行可能命令がモバイルデバイスによって実行されるという一般的状況で説明されてもよい。概して、プログラムモジュールは、特定のタスクを遂行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。本明細書において説明されている主題の諸態様はまた、タスクが、通信ネットワークを通じてリンクされたリモート処理デバイスによって遂行される分散コンピューティング環境内で実施されてもよい。分散コンピューティング環境内において、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートコンピュータ記憶媒体の両方の内部に配置されてもよい。

[0082] さらに、本明細書において、用語、サーバが用いられている場合があるが、この用語はまた、クライアント、１つ以上のコンピュータ、１つ以上の独立型記憶デバイス、１つ以上の他のデバイスのセット、上述のものの１つ以上の組み合わせの上に分散した１つ以上のプロセスのセット、および同様のものを包含してもよいことが認識されるであろう。

結び
[0083] 本発明は様々な変更および代替構成の余地があるが、その特定の例示された実施形態が図面に示され、以上において詳細に説明された。しかし、本発明を、開示されている特定の形態に限定する意図はなく、逆に、意図は、本発明の趣旨および範囲に含まれる全ての変更、代替構成、および同等物を包括することであることを理解されたい。

[0084] 本明細書において説明されている様々な実施形態に加えて、他の同様の実施形態を用いることができるか、あるいは上述の実施形態に対して、対応する実施形態の同じまたは同等の機能を遂行するために、それから逸脱することなく変更および追加を行うことができることを理解されたい。なおさらに、複数の処理チップまたは複数のデバイスが、本明細書において説明されている１つ以上の機能の遂行を共有することができ、同様に、記憶は複数のデバイスにわたって行われることができる。したがって、本発明はいかなる単一の実施形態にも限定されるべきでなく、むしろ、添付の請求項に係る広さ、趣旨および範囲内で解釈されるべきである。

Claims

対象者の眼からの輝点としての角膜反射を発生させるように構成される少なくとも４つの光源と、
前記輝点を包含する現在の画像を取り込むように構成されるカメラと、
視線頭部位置偏り補正器を組み込むか、または前記視線頭部位置偏り補正器に結合される視線検出器であって、前記視線検出器は、前記輝点を包含する前記現在の画像を受信し、前記対象者の眼の視線を推定するように構成され、前記視線頭部位置偏り補正器は、前記対象者の眼の前記視線の前記推定を受信し、前記輝点に対応する特徴データ、および前記対象者の瞳孔関連データを整合させることによって、前記推定された視線における偏りを補正し、前記対象者の眼が現在どこを注視しているのかを指示する補正された視線情報を出力するように構成され、前記視線偏り補正器は、校正位置に対する頭部ロケーションを表す１つ以上の変数を含む１つ以上の変数を介して学習された適応ホモグラフィ写像を用いる、視線検出器と、
を備えるシステム。
校正位置に対する頭部ロケーション、および注視位置を表す前記変数が、模擬データに少なくとも一部基づく、請求項１に記載のシステム。
前記模擬データが、様々な頭部位置における前記予測変数を得るべく校正を通じて前記適応ホモグラフィ写像を訓練するためのグランドトゥルースデータを収集するように構成される、請求項２に記載のシステム。
校正位置に対する頭部ロケーションを表す前記変数が、アフィン変換、相似変換および／またはホモグラフィ変換によって少なくとも一部符号化された前記様々な頭部位置の間での相対頭部移動に対応する、請求項１に記載のシステム。
偏り補正のために適応ホモグラフィ写像を用いることを含む、視線を推定することを含む方法であって、前記適応ホモグラフィ写像は、空間的に変化する視線誤差、または校正位置に対する頭部姿勢依存誤差、あるいはその両方に基づいて訓練され、前記推定することは、複数の光源とカメラとを用いて現在の輝点データおよび瞳孔関連データを画像内に取り込むことと、前記画像から処理された前記現在の輝点データおよび瞳孔関連データを、前記学習された適応ホモグラフィ写像に基づいて、現在の視線情報を決定するために用いられる、頭部姿勢依存データを得るための特徴として提供することと、を含む、方法。
位置データおよび瞳孔位置データの前記複数のセットを用いることが、異なる頭部位置スケーリングおよび／または異なる頭部位置平行移動における偏り補正値を予測することを含む少なくともいくらかの模擬データを用いることを含む、請求項５に記載の方法。
前記現在の視線情報を出力することと、
ユーザインタフェースの状態を変更することに関するアクションをとるために前記現在の視線情報を用いることと、
をさらに含む、請求項５に記載の方法。
前記適応ホモグラフィ写像モデルを学習することが、アフィン変換によって、相似変換またはホモグラフィ変換によって、相対頭部移動を符号化することを含む、請求項５に記載の方法。
前記適応ホモグラフィ写像モデルを学習することが、１つ以上の特徴としての視線方向を表す瞳孔関連データを符号化することを含む、請求項５に記載の方法。
実行可能命令を有する１つ以上の機械可読記憶媒体またはハードウェア論理であって、前記実行可能命令は、実行されると、
輝点データおよび瞳孔関連データが特徴として抽出される対象者の眼を含む画像を取り込むステップであって、前記輝点データおよび瞳孔関連データは、複数の光源によって発生させられた対象者の眼からの角膜反射に基づく、ステップと、
適応ホモグラフィ写像に対応する頭部位置の偏り補正に基づいて視線方向を決定するために前記特徴を前記適応ホモグラフィ写像に用いるステップと、
を含むステップを遂行する、機械可読記憶媒体またはハードウェア論理。