JP2017523487A - 適応ホモグラフィ写像に基づく視線追跡 - Google Patents

適応ホモグラフィ写像に基づく視線追跡 Download PDF

Info

Publication number
JP2017523487A
JP2017523487A JP2016552536A JP2016552536A JP2017523487A JP 2017523487 A JP2017523487 A JP 2017523487A JP 2016552536 A JP2016552536 A JP 2016552536A JP 2016552536 A JP2016552536 A JP 2016552536A JP 2017523487 A JP2017523487 A JP 2017523487A
Authority
JP
Japan
Prior art keywords
data
gaze
head
homography
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016552536A
Other languages
English (en)
Other versions
JP6502370B2 (ja
JP2017523487A5 (ja
Inventor
チャン,ツェンヨウ
ツァイ,チン
リウ,ジチェン
ファン,ジャ−ビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017523487A publication Critical patent/JP2017523487A/ja
Publication of JP2017523487A5 publication Critical patent/JP2017523487A5/ja
Application granted granted Critical
Publication of JP6502370B2 publication Critical patent/JP6502370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Multimedia (AREA)
  • Eye Examination Apparatus (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

【課題】 CRベースおよびその他の視線追跡器のための改善された技術を提供することである。【解決手段】 本主題の開示は、適応ホモグラフィ写像モデルと併せた複数のカメラおよび/または光源に基づく視線検出に関する。モデルの学習は、空間的に変化する視線誤差および頭部姿勢依存誤差を統一的枠組み内で同時に補償することを含む。様々な頭部位置における模擬データを用いて適応ホモグラフィのモデルをオフラインで訓練することを含む諸態様。【選択図】 図2

Description

[0001] モバイルデバイス、ハンドヘルドデバイス、およびディスプレイなどの関連技術を含むコンピュータが進化したことに伴い、人間による入力機構も同様に進歩した。音声認識、頭部および骨格追跡ならびにジェスチャ検出に基づくものなどのナチュラルユーザインタフェースが、キーボード、ポインティングデバイス(マウスもしくはスタイラス)、および/または認識記号/手書き入力を補うか、または場合によってはそれらに取って代わるように、より普及しつつある。視線検出(視標追跡)は新たなナチュラルユーザインタフェース技術である。
[0002] 1つの種類の視標追跡技術は、複比(cross-ratio、CR)ベースの視標追跡と呼ばれる。この技術は、未校正の配置内における単一のカメラを用いた対象者の遠隔視線推定を可能にするために、平面射影の不変性を利用する。一般的に、赤外光がユーザに向けて投射され、ユーザの眼からの角膜反射(輝点)がカメラによって感知され、視線を追跡するために処理される。
[0003] この発明の概要は、発明を実施するための形態においてさらに後述される代表概念の選択を、単純化された形態で伝えるために提供される。この発明の概要は、クレームされている主題の主要な特徴または本質的な特徴を特定することを意図されておらず、また、クレームされている主題の範囲を限定することになるいかなる様態で用いられることも意図されていない。
[0004] 単純化の仮定の結果、対象者が最初の(固定の)校正位置から動いて離れると、周知のCRベースの視線追跡器の性能は大幅に衰える。同時に、現実の使用時に生じる多くのあり得るx、yおよびz頭部位置の各々において対象者が視標追跡を校正する必要があるシステムを実装することは実際的でない。それゆえ、CRベース、およびその他の視線追跡器のための改善された技術が望まれている。
[0005] 手短に言えば、本明細書において説明されている主題の様々な態様は、視線検出を達成するための適応ホモグラフィ写像に関する。1つ以上の態様では、少なくとも4つの光源が対象者の眼からの輝点としての角膜反射を発生させ、カメラが、輝点を包含する現在の画像を取り込むように構成される。校正位置に対する頭部ロケーション、および/または視線方向を表す変数を含む、変数を介して学習された適応ホモグラフィ写像モデルは、輝点に対応する特徴データ、瞳孔関連データおよび/または視線データを整合させ、対象者の眼が現在どこを注視しているのかを指示する視線情報を出力するように構成される。
[0006] 1つ以上の態様は、適応ホモグラフィ写像モデルを視線検出のために用いることであって、適応ホモグラフィ写像モデルは、空間的に変化する視線誤差、および校正位置に対する頭部姿勢依存誤差を補償するように訓練される、用いることに関する。現在の輝点データおよび瞳孔関連データが画像内に取り込まれ、画像から、適応ホモグラフィ写像モデルに提供される特徴として処理される。現在の視線情報に対応する特徴に基づいて適応ホモグラフィ写像モデルからデータが受信される。
[0007] 1つ以上の態様は、輝点データおよび瞳孔関連データが特徴として抽出される対象者の眼を含む画像を取り込むことと、視線方向を決定するために特徴を適応ホモグラフィ写像モデルへの入力として用いることと、に関する。適応ホモグラフィ写像モデルは、異なる頭部位置における予測偏り補正値に対応する少なくともいくらかの模擬データを用いることによって学習されてもよい。適応ホモグラフィ写像モデルは、相対頭部位置に対応する動きベクトルを含む第1の予測変数を得ること、および視線方向に対応する第2の予測変数を得ることによって学習されてもよい。学習は、複数の頭部位置および視線方向に対応するデータに基づいて目的関数を最小化することを含んでもよい。概して、適応ホモグラフィ写像モデルは、予測のためにスケーリングおよび平行移動を用い、補正のためにホモグラフィを用いる。
[0008] その他の利点は、以下の発明を実施するための形態を図面と併せて読むことによって明らかになるであろう。
[0009] 本発明は例として示されており、添付の図において限定されるものではない。図において、同様の参照符号は類似の要素を指示する。
[0010]1つ以上の例示的実装形態に係る、視線検出において用いられてもよい学習された適応ホモグラフィ写像モデルを含む例示的な構成要素を示すブロック図である。 [0011]1つ以上の例示的実装形態に係る、輝点が、視線検出における使用のために、視線検出のための学習された適応ホモグラフィ写像モデルへの特徴として用いるためにどのように取り込まれるのかについての図である。 [0012]1つ以上の例示的実装形態に係る、輝点および瞳孔関連データ(例えば、瞳孔中心)が、学習された適応ホモグラフィ写像モデルから視線情報を得るためにどのように用いられるのかについての図である。 [0013]1つ以上の例示的実装形態に係る、複比ベースの変換が、適応ホモグラフィ写像モデルを訓練するためにどのように用いられ得るのかについての図である。 [0014]1つ以上の例示的実装形態に係る、様々な頭部位置における適応ホモグラフィ写像モデルの訓練の図である。 [0015]1つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。 1つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。 1つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。 1つ以上の例示的実装形態に係る、模擬訓練データが、頭部移動による滑らかなスケーリングおよび平行移動の変化にどのように基づき得るのかについての例示的な図である。 [0016]1つ以上の例示的実装形態に係る、学習された適応ホモグラフィ写像モデルから視線情報を得るために行われ得る例示的なステップを示すフロー図である。 [0017]本明細書において説明されている様々な実施形態の1つ以上の態様を内部に実装することができる、モバイルおよび/またはハンドヘルドコンピューティングおよび/または通信デバイスの形態の、例示的な非限定的コンピューティングシステムまたは動作環境を表すブロック図である。
[0018] 本明細書において説明されている技術の様々な態様は概して、校正位置におけるより高い精度、および頭部の移動のもとにおけるより高いロバスト性を有する視線予測を達成するための適応ホモグラフィ写像に関する。これは、空間的に変化する視線誤差および頭部姿勢依存誤差を統一的枠組み内で同時に補償するための学習ベースの技術を用いて達成される。1つ以上の態様では、適応ホモグラフィのモデルは、模擬データを用いてオフラインで訓練されてもよく、データ収集における時間および労力を大幅に節約する。換言すれば、対象者は、多くの様々なあり得る頭部位置において校正を遂行することを要求される必要がない。例えば、x、yについてのスケーリング項および平行移動項は実際に滑らかに変化し、それゆえ、模擬データは、偏り補正ホモグラフィが新しい頭部位置においてどのように変化するのかに関する予測を、グランドトゥルースデータ(少なくともその一部)として用いるために含んでもよい。
[0019] 理解されることになるように、適応ホモグラフィ写像は、校正位置に対する頭部移動、およびスクリーン上の注視の位置を取り込んだ予測変数に基づく。適応ホモグラフィ写像を訓練するためのグランドトゥルースデータは、様々な頭部位置における、それらの位置における模擬/模擬データを用いることを含む、一連の対象者依存校正を通じて収集されてもよい。
[0020] オンライン動作の間に、訓練されたモデルは、空間的に変化する視線誤差および頭部姿勢依存誤差から生じる偏りを適応的に補正するために用いられる。実際に、この実時間演算は他の周知の視点技術よりも正確であり、頭部移動に対するロバスト性が高い。
[0021] この目的を達成するために、学習ベースの適応手法は、輝点変換を用いることによって、空間的に変化する誤差、および頭部移動から生じる誤差を同時に補償する。例えば、輝点パターン間の幾何変換を考慮することによって、輝点間の距離および/または輝点パターンのサイズ変化を補償する。結果として生ずるモデルは、対象者の深度変化を補償するだけでなく、スクリーン面と平行な移動も補償する。適応機能は、模擬データに基づいて訓練される学習プロセスを通じて得られてもよいが、システム配置についての任意の予備的知識(利用可能な場合)をシステム内に容易に組み込むことができることに留意されたい。
[0022] 本明細書における例はいずれも非限定的なものであることを理解されたい。例えば、4つの光源およびカメラが例示されているが、(好適な輝点パターンを提供する)任意の数のカメラおよび光源が任意の数の様態で位置付けられてもよい。さらに、視線を検出するために用いられるアルゴリズムおよび同様のものは単なる例にすぎず、本明細書において説明されている技術は、いずれの特定のものからも独立し、それに限定されず、さらに、新しいアルゴリズムが開発されることに応じて適応させることができる。それゆえ、本発明は、本明細書において説明されているいずれの特定の実施形態、態様、概念、構造、機能性または実施例にも限定されない。むしろ、本明細書において説明されている実施形態、態様、概念、構造、機能性または実施例はいずれも非限定的なものであり、本発明は、視線検出全般における利益および利点を提供する様々な仕方で用いられてもよい。
[0023] 図1は、視線検出を遂行するために用いられてもよい例示的な構成要素を示す一般ブロック図である。図1に、コンピューティングデバイス102およびディスプレイ104が示されている。ディスプレイ104は、コンピューティングデバイスに結合された外部ディスプレイ、またはコンピュータデバイス、例えば、その筐体内に組み込まれたディスプレイであってもよい。
[0024] 図1に示されるように、複数のIR光源106(1)〜106(m)が、1つ以上のIR光感知カメラ108(1)〜108(n)とともに示されている。複比ベースの視線検出のためには、単一のカメラで通例十分であるが、存在する場合には、複数のカメラからの画像が処理され、ノイズの効果を低減するなどするために何らかの仕方で組み合わせられてもよい(例えば、平均化される)ことに留意されたい。
[0025] 光源は、レーザ発光ダイオード(light emitting diode、LED)などの個々の光源、および/または光を回折させる/反射する光学要素を通して投射し、それにより、複数の光源を提供するLEDもしくは同様のものであってもよい。IR光感知カメラのうちの任意のものまたは全ては可視光カメラと組み合わせられてもよいことに留意されたい。カメラ(もしくはカメラ群)は、デバイスに取り付けられてもよい、例えば、縁部内に埋め込まれるか(例えば、円で囲まれたXによって表された図2のカメラ208)、もしくはデバイスに物理的に結合されてもよいか、またはデバイスの外部にあってもよいか(例えば、図4のカメラ408)、あるいはその両方の組み合わせであってもよいことにさらに留意されたい。
[0026] 複比ベースの視標追跡において理解されているように、ホモグラフィを計算するための輝点を提供するためには少なくとも4つの光源が必要とされ、これらの光源は、それらのうちの任意のものと他のものとの間に少なくとも3つの異なる方向が存在し、四辺形を提供するように配置される。例えば、図2のとおりの光源222〜225の長方形パターンが典型的な配置である。それにもかかわらず、より多くの光源を含む他の配置も実現可能であり、例えば、他の輝点のうちの1つが検出されない場合に、少なくとも4つの輝点を提供するなどの利益をもたらし得る。
[0027] IR光源106(1)〜106(m)および/またはIR光感知カメラ108(1)〜108(n)の動作を制御するためにコントローラ110が用いられてもよい。ただし、1つ以上の実装形態では、光源およびカメラは「常時オン」であってもよく、これによって、オン/オフ機能をおそらく有する電源以外の「コントローラ」は必要ない。IR光が用いられるのは、それが人間の目に見えないためであるが、対象者の眼が、用いられている特定の可視光波長を遮断するコンタクトレンズを装着している状況など、一部の状況においては、可視光を用いることが望ましい場合があることに留意されたい。それゆえ、本明細書で使用するとき、「光源」はIR波長に限定されない。
概して、1つ以上のカメラ108(1)〜108(n)は、頭部位置視線偏り補正器116に結合されるか、またはそれを組み込む、視線検出器114を含む、画像処理構成要素112に送り込まれる画像を取り込む。本明細書において説明されているように、偏り補正器は、訓練された適応ホモグラフィ写像構成要素を含む。画像処理構成要素112は、ユーザが、処理されている所与のフレームまたは同様のものの内部のどこを現在注視しているのかを表す注視座標などの、視線検出出力118を提供する。このような出力118は、他の入力(例えば、マウスクリックまたはジェスチャ)と共に用いるなどするために、バッファされてもよく、オペレーティングシステムによって(例えば、カーソルを動かすために)消費されてもよく、アプリケーションおよび/または同様のものによって(例えば、メニュー項目を強調するために)用いられてもよい。概して、現在の視線情報は、ユーザインタフェースの状態を変更することに関するアクションをとるために用いられてもよい。視線検出は、他の状態変更のために、例えば、ディスプレイを待機状態もしくはオフ状態からアクティブ状態へオンにするために、(またはその逆のために、)場合により、眼の瞬きのパターンなどの他の(例えば、ジェスチャ)検出と組み合わせて用いられてもよい。
[0028] 視線検出器114に関しては、任意の既存の技法または今後開発される技法(複比技術など)が、感知された輝点、瞳孔データおよび任意のその他の取り込まれた特徴を視線情報出力118に変換するために利用されてもよい。技法としての1つ以上の決定が、最終出力を作るために組み合わせられてもよい(例えば、平均される)。本明細書において説明されているように、頭部位置視線偏り補正器116は、他の偏り補正技法よりも正確でロバスト性が高い偏り補正を行う視線検出アルゴリズム114を提供する。
[0029] 概して、遠隔視線追跡システムは、赤外光源を用いて、対象者の眼の画像の一部として取り込まれる、輝点と呼ばれる、角膜反射を発生させるように動作する。取り込まれた画像は、瞳孔中心、角膜反射(例えば、眼球の位置を指示する)および/または角膜縁の輪郭などの、照明および視点に対して不変である情報特徴を抽出するために処理される。
[0030] 図2では、ユーザがスクリーン上の現在の注視ロケーション226を見ている間に、IR光源225から反射される輝点の概念がカメラ208によって取り込まれるように示されていることに留意されたい。容易に理解することができるように、他の光源222〜224からの輝点も同様に同時に取り込まれる(ただし、図2には、このような、眼に向かう矢印/カメラへ反射される矢印のセットは1つしか示されていない)。
[0031] 理解されるように、対象者228の頭部位置、および注視ロケーション226は、取り込まれる輝点g1〜g4の位置およびサイズに影響を及ぼす。この情報は、瞳孔中心upなどの他の情報と共に、学習された頭部位置視線偏り補正器116に送り込まれる、画像302から抽出された特徴データ304に対応する。そこから、スクリーン座標などの視線情報310が得られ、プログラム312に提供される。
[0032] 本明細書において説明されているように、視線推定偏り補正のためのホモグラフィベースの方法は、状況によっては、視線推定の精度および/またはロバスト性を高めることができる。偏り補正のためのホモグラフィベースの方法は偏り補正ホモグラフィ変換を実施することができる。偏り補正ホモグラフィ変換は、校正訓練段階の間に、基本的な複比方法によって予測される注視点からスクリーン上のグランドトゥルース目標への点群位置合わせ問題を解くことによって計算することができる。
[0033] 概して、ホモグラフベースの方法は、図4に一般的に示されているように、光軸オフセットおよび視軸オフセットを効果的にモデル化するため、校正位置においては大抵うまくいく。しかし、瞳孔中心、および輝点によって形成される平面に関する平面性の仮定に由来するモデル誤差のゆえに、空間的に変化する誤差が生じる。正確な予測のために、偏り補正ホモグラフィ写像は対象者の視線方向に依存する必要がある。
[0034] 最適な偏り補正ホモグラフィは頭部位置の関数であるため、対象者が校正位置から動いて離れると、ホモグラフィベースの方法の性能は大幅に劣化する。本明細書において説明されている1つ以上の態様は適応ホモグラフィ写像に関する。適応ホモグラフィ写像は、偏り補正ホモグラフィが新しい頭部位置においてどのように変化するのかを「予測し」、それにより、視線追跡器の性能が、あたかもそれがその新しい頭部位置において校正されたかのようになるようにすることに向けられている。説明されるのは、現在の頭部位置と校正位置との間の相対変化、および現在の視線方向に基づいて、校正位置において計算された偏り補正ホモグラフィの変化を予測するための方策である。
[0035] ホモグラフィベースの偏り補正を行うホモグラフィ写像の複比に関して、図4に一般的に示されるように、Liを、4つのスクリーン角部に配置された点光源として表し(1≦i≦4)、Giを、対応する角膜反射として表し、giをGiの画像として表す。Pは3Dにおける瞳孔中心であり、pは画像内におけるその射影である。4つの点光源がスクリーンの角部に示されているが、必要に応じて多くの異なる構造、数、配置の複数の光源が用いられてもよく、ここでは例示目的のために4つの角部の光が示されている。複比方法は、群(Li,Gi,gi)の各々は、平面、ΠL、ΠG、Πgとそれぞれ表される、同一平面上にあると仮定する。平面ΠL、ΠG、Πgの間の変換はホモグラフィを通じて記述され得る。瞳孔中心PはΠG内にあるとの仮定の下で、注視点予測は次式によって与えられる:
PoRCR=HGL(HgG(p))=HCR(p) (1)
ここで、HgGは平面Πgを平面ΠGに写像し、HGLは平面ΠGを平面ΠLに写像し、HCRはHGLとHgGとの合成変換である。しかし、これらの単純化の仮定は実際には妥当でないため、大きな視線推定の偏りが観察される。
[0036] ホモグラフィベースの技法は、この視線推定の偏りを補正するために別のホモグラフィ変換を採用する。1つの技法では、画像内の輝点はまず、正規化空間(例えば、単位正方形ΠN)上に写像され、正規化空間内の推定注視点をスクリーン空間ΠL内の予想注視点に写像するために、偏り補正ホモグラフィが使用される。ホモグラフィベースの予測による注視点予測は次式によって与えられる:
Figure 2017523487
ここで、
Figure 2017523487
は画像空間を正規化空間に写像し、HNLは正規化空間をスクリーン空間に写像する。vをスクリーン上の目標位置のための添字として表し、Vを目標の添字の集合として表し、tvをスクリーン空間内の目標の位置として表すと、対象者依存校正の目的は、再射影誤差を最小化する最適な偏り補正ホモグラフィ
Figure 2017523487
を見いだすことである:
Figure 2017523487
ここでpvは、目標vを注視しているときの画像内における2D瞳孔中心位置である。
[0037] 本明細書において説明されるのは、別のホモグラフィ写像HAを用いて偏り補正ホモグラフィHNLの変化をモデル化する、適応ホモグラフィ写像である。適応ホモグラフィによる注視点は次式によって与えられる:
PoRAH=HNL(HA(HCR(p))) (4)
式(4)において、偏り補正ホモグラフィHNLは、校正時に式(3)における同じ最小化プロセスによって計算され、同じ対象者について不変のままであることに留意されたい。対照的に、適応ホモグラフィ写像HAは、校正位置に対する現在の頭部位置、および視線方向に対して適応的に変化する必要がある。1つ以上の態様では、適応ホモグラフィは本明細書において回帰問題として説明される。すなわち、相対頭部位置および視線方向を記述する予測変数が与えられると、システムは、HA内の値を予測することを求める。
[0038] 限定するものではないが、移動(頭部位置に対応する)および視線方向、x=[xm,xgTを含む、異なる種類の予測変数が用いられてもよい。まず、校正位置において記憶された輝点の四辺形と現在の輝点の四辺形との間の幾何変換を用いて、校正位置に対する頭部移動が取り込まれる。実際には、アフィン変換または相似変換が、相対移動を符号化するために用いられてもよい。例えば、対象者が校正後にスクリーンに向かって動くと、変換のスケール項は1よりも大きくなる。ホモグラヒ(homograhy)変換は、偏り補正全般に関して一般的に上述された別の好適な技法である。
[0039] 第1の種類の予測変数xmは、動きパラメータをベクトル化することによって得られる。アフィン変換を用いる場合には、xmについての6次元ベクトルが存在するか、または相似変換を用いる場合には、xmについての4次元ベクトルが存在する。さらに、視線方向を、空間的に変化する写像のために符号化するために、瞳孔関連データ、例えば、正規化空間内における瞳孔中心位置xg=HCR(p−p0)が特徴の1つとして用いられる。ここで、p0は、スクリーンの中心を注視されたときの瞳孔中心位置である。
[0040] これらの予測変数を用いて、適応ホモグラフィは2次の多項式回帰(すなわち、2次回帰)としてモデル化されてもよい:
A,x=f(x,β) (5)
2次回帰では、適応ホモグラフィの値は、定数項、線形項、2次項、および相互作用項を包含する、予測変数に対して線形である。
[0041] 深度変化についての誤差補償は、校正位置および現在の位置における輝点四辺形の相対サイズを用いて平行移動補正ベクトルを適応的にスケーリングすることによって達成されてもよい。1つ以上の実装形態では、本明細書において説明されている技術は、予測のためにスケーリングよりも豊富な変換のセットを考慮し、補正のためにホモグラフィを(平行移動のみの代わりに)用いる。最適な偏り補正ホモグラフィの値は頭部の移動に依存する。
[0042] 対象者に各々のあり得る頭部位置において視線を校正させる代わりに、1つ以上の実装形態では、誤差補償は、まず、模擬データを通じて適応を学習し、その後、適応を学習するためのその模擬訓練データを用いて現在の平行移動ベクトルを予測することによって、達成することができることに留意されたい。この方法論を用いることで、対象者の校正時間および労力を大幅に節約するとともに、計算速度を改善することができる。加えて、模擬の使用によって、単に予測のための平行移動よりも複雑なモデルを用いることが可能になる。
[0043] 図5は、一実装形態の全プロセスをまとめている。訓練の際に、頭部位置H0〜Hnについての様々な変換(例えば、アフィン変換A)の各々、および注視位置は既知であり、X={(A1,g1),(A2,g2),・・・,(An,gn)}と表すことができる。図5においてH0〜Hnとして示される、対応する頭部位置は訓練の際に既知であり、それにより、Yが学習されることができる。
Figure 2017523487
グランドトゥルース訓練データは、少なくとも一部、模擬データであってもよいことに留意されたい。
[0044] それゆえ、上述されたように、訓練動作は、回帰関数f:X−>Y(2次の多項式)を学習するために用いられるデータを得る。訓練されたデータに基づく、これらの学習された頭部位置および/または回帰関数は、ローカルストレージおよび/またはクラウドストレージ内に記憶されるなど、任意の適切な仕方で記憶され、図1の視線追跡システムがアクセス可能であってもよい。
[0045] アプリケーション、オンライン環境内、コンピューティングデバイスの基本オペレーティングシステム内などにおいてあり得る現在のユーザによる使用の間に、取り込まれた輝点位置に対応する現在の輝点群のアフィン位置合わせAが、画像の取り込みを通じて得られる。これが視線方向gと共に得られると、回帰:y=f(x)、ただしx=(A,g)、を用いることで、偏り補正ホモグラフィ:H=H0yがもたらされる。
[0046] ホモグラフィ適応を学習することに関して、uを3次元における頭部位置として表し、Uをサンプリングされた頭部位置の集合として表す。好適な目的関数は次式のように定義される:
Figure 2017523487
ここで、HA,x=f(x,β)(式(5))は適応ホモグラフィのための2次回帰モデルである。適応ホモグラフィの学習の目的は、模擬対象者が、サンプリングされる頭部位置に位置するときの、スクリーン上における予測注視位置とグランドトゥルースのものとの間の2乗誤差を合計することによって再射影誤差を最小化する係数行列を見いだすことである。
[0047] 式(6)において定義された目的関数を最小化するために、2ステップ手法が用いられてもよい。第1に、代数誤差を最小化することによって予測関数が推定されてもよい。各頭部位置uにおいて、位置uにおける対象者依存校正を遂行することによって、最適な偏り補正ホモグラフィ
Figure 2017523487
を計算する。理想的にはスケールファクタまで、
Figure 2017523487
である。それゆえ、プロセスは、予測HA,x=f(xu,v,β)と、偏り補正ホモグラフィの差
Figure 2017523487
(最後の要素は1に正規化される)との間の代数誤差を最小化することができる。ここで、
Figure 2017523487
は、デフォルト校正位置において計算される偏り補正ホモグラフィである。それゆえ、代数誤差の最小化は次式のように定式化することができる:
Figure 2017523487
ここで、βαは、代数誤差を最小化した後の推定係数行列である。
[0048] 第2に、式(6)における再射影誤差を最小化するために、処理は、βαを用いた初期解から開始し、Levenberg−Marquardtアルゴリズムを用いて非線形最小二乗最適化を遂行してもよい。
[0049] 校正プロセスの実装形態の一例を参照すると、一群の訓練対象者が用いられ、スクリーン上に均等に分布した規則的なn×n,n∈{2,3,4,5}の格子パターンを注視するように各々要求される。1つの訓練シナリオでは、スクリーン上に均等に分布した5×5格子が用いられた。訓練データの収集のために、ワールド座標系において、スクリーン面をx−y平面と定義し、スクリーンからの深度をz軸と定義する。−200mm〜200mmの範囲を有し、位置[0,0,600]mmに中心を有する5×5×5格子を用いて、スクリーンの前方の典型的な作業空間がサンプリングされてもよい。各頭部位置uにおいて、例えば、スクリーン上のn×n(例えば、5×5)校正パターンを用いて、式(3)における対象者依存校正を遂行する。異なる眼パラメータを有する対象者を予期するために、典型的な眼パラメータの平均、およびパラメータの値の10パーセントの標準偏差を有するガウス分布を用いて、ある人数(例えば、50人)の仮想対象者をランダムにサンプリングする。例えば、角膜半径の典型的なサイズは7.8mmである。次に、プロセスは、平均7.8および標準偏差0.78を有するガウス分布を用いてランダムサンプルを抽出する。
[0050] 例えば、典型的な眼パラメータ(角膜半径Rc=7.8mm、角膜中心から瞳孔中心までの距離K=4.2mm、水平角偏位および鉛直角偏位は5.0度および1.5度、から開始して、プロセスは各眼パラメータの値を元の値の[−30,30]%をもって変化させる。
[0051] 対象者の実際のデータの代わりに、またはそれに加えて、模擬データが用いられてもよい。例えば、図6Aおよび図6Bは、x、y上のスケーリングについての、深度軸に沿った異なる頭部位置において計算された最適な偏り補正ホモグラフィの値のプロットを示す。図7Aおよび図7Bは、x、y上の平行移動についての同様のプロットを示す。各ホモグラフィの最後の要素は1に正規化されることに留意されたい。図から見られるように、プロットは滑らかである。それゆえ、グランドトゥルースのための模擬データとして最適値が予測され得る。
[0052] 対象者についての実際の校正データの代わりに模擬データを用いることは、複比技術に限定されないことに留意されたい。モデルベースの方法(3D視線ベクトルを推定し、3D光線を2Dスクリーン面と交差させることによって2D注目点を計算する)などの、他の視線検出解決策が、同様に、校正のために模擬を用いてもよい。
[0053] 図8は、学習された適応ホモグラフィモデルの実際の使用における例示的なステップを示す一般化されたフロー図である。ステップ802は画像を取り込み、画像は、特徴として用いる(ステップ808)ための輝点データおよび瞳孔関連データに処理される(ステップ804)。訓練されたモデルは、特徴データを用いて、補正視線情報、例えば、対象者の眼がスクリーンを注視している座標(または一般的格子識別子)、を計算するために用いられる頭部位置補正データを決定する。補正視線情報は、アプリケーション、オンライン環境、オペレーティングシステム等などの、視線追跡システムの動作環境による消費のためにバッファまたは同様のものへ出力されてもよい。視線情報の結果は、ナチュラルユーザインタフェースインタラクション、ユーザ興味の解釈のための注目判定などのために用いることを含む、多くの異なるシナリオで用いることができる。ステップ810は、別のフレームのためにプロセスを繰り返す。過度の飛び回りを防止するためのフレームレートまたは何らかの平滑化動作が用いられてもよい。変化注視座標に応じて、視線追跡システムは、ユーザの視線の変化に依存した視線追跡システムの別のアクションまたは応答をトリガしてもよく、例えば、異なるナチュラルユーザインタフェースインタラクションをトリガまたは停止または開始する、ユーザ興味解釈のための異なる注目判定を指示するなどしてもよい。
[0054] 上述された方法論において説明されたものなどの、適応ホモグラフィは、既知のホモグラフィベースの方法を上回る精度を提供する。なぜなら、頭部移動からの偏りを補正することに加えて、適応ホモグラフィは、正規化空間内における瞳孔位置xgによって予測される、空間的に変化する視線誤差も予期するからである。
[0055] 上述の技術は他の視線追跡技術と組み合わせられてもよい。例えば、本明細書において説明されている技術は、本出願と同時に出願された、「EYE GAZE TRACKING USING BINOCULAR FIXATION CONSTRAINTS」と題する同時係属中の米国特許出願、弁護士整理番号340834.01、に記載されているものなどの、2つの眼に基づく別の技術を用いたシステムに組み込まれてもよい。
[0056] 図から見られるように、少なくとも4つの光源とカメラとを備えるシステムであって、光源は、対象者の眼からの輝点としての角膜反射を発生させるように構成され、カメラは、輝点を包含する現在の画像を取り込むように構成される、システムが提供される。校正位置に対する頭部ロケーション、および/または視線方向を表す変数を含む、変数を介して学習された適応ホモグラフィ写像モデルは、輝点に対応する特徴データ、瞳孔関連データおよび/または視線データを整合させ、対象者の眼が現在どこを注視しているのかを指示する視線情報を出力するように構成される。
[0057] 1つ以上の態様では、校正位置に対する頭部ロケーション、および注視位置を表す変数は模擬データに少なくとも一部基づいてもよい。模擬データは、様々な頭部位置における予測変数を得るべく校正を通じて適応ホモグラフィ写像を訓練するためのグランドトゥルースデータを表すために用いられてもよい。グランドトゥルースデータは適応ホモグラフィを多項式回帰としてモデル化する。
[0058] 1つ以上の態様では、校正位置に対する頭部ロケーションを表す変数は、アフィン変換、相似変換またはホモグラフィ変換によって符号化された様々な頭部位置の間での相対頭部移動に対応する。視線方向を表す変数は瞳孔関連データによって符号化される。
[0059] 1つ以上の態様は、適応ホモグラフィ写像モデルを視線検出のために用いることであって、適応ホモグラフィ写像モデルは、空間的に変化する視線誤差、および校正位置に対する頭部姿勢依存誤差を補償するように訓練される、用いることに関する。現在の輝点データおよび瞳孔関連データが画像内に取り込まれ、画像から、適応ホモグラフィ写像モデルに提供される特徴として処理される。現在の視線情報に対応する特徴に基づいて適応ホモグラフィ写像モデルからデータが受信される。
[0060] 1つ以上の態様は、位置データおよび瞳孔関連データの複数のセットを、適応ホモグラフィを2次回帰としてモデル化する予測変数として用いることを含む、適応ホモグラフィ写像モデルの学習に関する。位置データおよび瞳孔位置データの複数のセットを用いることは、例えば、異なる頭部位置スケーリングおよび/または平行移動における偏り補正値を予測することによって、少なくともいくらかの模擬データを用いることを含んでもよい。
[0061] 1つ以上の態様は、輝点データおよび瞳孔関連データが特徴として抽出される対象者の眼を含む画像を取り込むことと、視線方向を決定するために特徴を適応ホモグラフィ写像モデルへの入力として用いることと、に関する。適応ホモグラフィ写像モデルは、異なる頭部位置における予測偏り補正値に対応する少なくともいくらかの模擬データを用いることによって学習されてもよい。適応ホモグラフィ写像モデルは、相対頭部位置に対応する動きベクトルを含む第1の予測変数を得ること、および視線方向に対応する第2の予測変数を得ることによって学習されてもよい。学習は、複数の頭部位置および視線方向に対応するデータに基づいて目的関数を最小化することを含んでもよい。概して、適応ホモグラフィ写像モデルは、予測のためにスケーリングおよび平行移動を用い、補正のためにホモグラフィを用いる。
例示的な動作環境
[0062] 図9は、本明細書において説明されている主題の諸態様が実装されてもよい好適なモバイルデバイス900の一例を示す。モバイルデバイス900はデバイスのほんの一例にすぎず、本明細書において説明されている主題の諸態様の使用または機能性の範囲に関するいかなる限定を示唆することも意図されていない。また、モバイルデバイス900は、例示的なモバイルデバイス900内に示されている構成要素のうちの任意のものまたはそれらの組み合わせに関連する任意の依存性または要求を有すると解釈されてもならない。モバイルデバイスは、スマートフォン、タブレット、ラップトップ等などのハンドヘルドデバイスを含んでもよい。パーソナルコンピュータが、例えば、ディスプレイに搭載されたカメラおよび光源とともに代替的に用いられてもよい。
[0063] 例示的なモバイルデバイス900は眼鏡、ゴーグルまたは帽子上に装着されてもよいか、あるいは外部コンピュータを含む、腕時計型デバイスなどのその他のウェアラブルデバイスも全て好適な環境である。眼鏡および帽子は頭部上に着用されるが、それらは、頭部に対して異なる位置において着用される場合があり、それゆえ、頭部位置偏り補正が妥当になり得ることに留意されたい。
[0064] 図9を参照すると、本明細書において説明されている主題の諸態様を実装するための例示的なデバイスは、モバイルデバイス900を含む。いくつかの実施形態では、モバイルデバイス900は、携帯電話、他者との音声通信を可能にするハンドヘルドデバイス、何らかの他の音声通信デバイス、または同様のものを含む。これらの実施形態では、モバイルデバイス900は、写真を撮影するためのカメラを備えてもよい。ただし、他の実施形態では、これは必要でなくてもよい。他の実施形態では、モバイルデバイス900は、パーソナルデジタルアシスタント(personal digital assistant、PDA)、ハンドヘルドゲームデバイス、ノートブックコンピュータ、プリンタ、セットトップ、メディアセンター、もしくはその他の電化製品を含む電化製品、その他のモバイルデバイス、または同様のものを含んでもよい。さらに他の実施形態では、モバイルデバイス900は、パーソナルコンピュータ、サーバ、または同様のものなどの非モバイル型と一般的に見なされるデバイスを含んでもよい。
[0065] モバイルデバイス900の構成要素は、限定するものではないが、処理ユニット905、システムメモリ910、およびシステムメモリ910を含む様々なシステム構成要素を処理ユニット905に結合するバス915を含んでもよい。バス915は、メモリバス、メモリコントローラ、周辺バス、および種々のバスアーキテクチャのうちの任意のものを用いたローカルバス、ならびに同様のものを含む、いくつかの種類のバス構造のうちの任意のものを含んでもよい。バス915は、データがモバイルデバイス900の様々な構成要素間で送信されることを可能にする。
[0066] モバイルデバイス900は、種々のコンピュータ可読/機械可読媒体を含んでもよい。このような媒体は、モバイルデバイス900によってアクセスされることができる任意の利用可能な媒体であることができ、揮発性および不揮発性媒体、ならびに着脱式および非着脱式媒体の両方を含む。限定ではなく、例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報の記憶のための任意の方法または技術で実装される、揮発性および不揮発性、着脱式および非着脱式媒体を含む。コンピュータ記憶媒体は、限定するものではないが、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(digital versatile disk、DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは所望の情報を記憶するために用いることができ、モバイルデバイス900によってアクセスされることができる任意のその他の媒体を含む。
[0067] 通信媒体は通例、搬送波またはその他の輸送機構などの変調データ信号でコンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを具現し、任意の情報送達媒体を含む。用語「変調データ信号」は、信号であって、その特性セットの1つ以上を有するか、または情報を信号内に符号化するような仕方で変更される、信号を意味する。限定ではなく、例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、ならびに音響、RF、Bluetooth(登録商標)、無線USB、赤外線、Wi−Fi、WiMAX、およびその他の無線媒体などの無線媒体を含む。上述のもののうちの任意のものの組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
[0068] システムメモリ910は、揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含み、リードオンリーメモリ(read only memory、ROM)およびランダムアクセスメモリ(random access memory、RAM)を含んでもよい。携帯電話などのモバイルデバイス上においては、時として、オペレーティングシステムコード920がROM内に含まれる。ただし、他の実施形態では、これは必要ではない。同様に、アプリケーションプログラム925がRAM内にしばしば配置される。ただし、この場合も先と同様に、他の実施形態では、アプリケーションプログラムは、ROM内、またはその他のコンピュータ可読メモリ内に配置されてもよい。ヒープ930は、オペレーティングシステム920およびアプリケーションプログラム925に関連付けられる状態のためのメモリを提供する。例えば、オペレーティングシステム920およびアプリケーションプログラム925は、それらの動作中に変数およびデータ構造をヒープ930内に記憶してもよい。
[0069] モバイルデバイス900はまた、他の着脱式/非着脱式、揮発性/不揮発性メモリを含んでもよい。例として、図9は、フラッシュカード935、ハードディスクドライブ936、およびメモリスティック937を示す。ハードディスクドライブ936は、例えば、メモリスロット内にはまるように小型化されてもよい。モバイルデバイス900は、着脱式メモリインタフェース931を介してこれらの種類の不揮発性着脱式メモリとインタフェースをとってもよいか、あるいはユニバーサルシリアルバス(universal serial bus、USB)、IEEE 9394、有線ポート940のうちの1つ以上、またはアンテナ965を介して接続されてもよい。これらの実施形態では、着脱式メモリデバイス935〜937は通信モジュール932を介してモバイルデバイスとインタフェースをとってもよい。いくつかの実施形態では、これらの種類のメモリの全てが単一のモバイルデバイス上に含まれなくてもよい。他の実施形態では、これらおよび他の種類の着脱式メモリのうちの1つ以上が単一のモバイルデバイス上に含まれてもよい。
[0070] いくつかの実施形態では、ハードディスクドライブ936は、モバイルデバイス900に、より永久的に取り付けられるような様態で接続されてもよい。例えば、ハードディスクドライブ936は、バス915に接続されてもよい、パラレル・アドバンスドテクノロジーアタッチメント(parallel advanced technology attachment、PATA)、シリアル・アドバンスドテクノロジーアタッチメント(serial advanced technology attachment、SATA)または別様のものなどのインタフェースに接続されてもよい。このような実施形態では、ハードドライブを取り外すことは、モバイルデバイス900のカバーを取り外し、ハードドライブ936をモバイルデバイス900内の支持構造物に接続しているねじまたはその他の締結具を取り外すことを含んでもよい。
[0071] 以上において説明され、図9に示されている、着脱式メモリデバイス935〜937およびそれらの関連コンピュータ記憶媒体は、コンピュータ可読命令、プログラムモジュール、データ構造、およびその他のデータの記憶をモバイルデバイス900に提供する。例えば、着脱式メモリデバイスまたはデバイス935〜937は、モバイルデバイス900によって撮影された画像、音声記録、連絡先情報、プログラム、プログラムのためのデータなどを記憶してもよい。
[0072] ユーザは、キーパッド941およびマイクロフォン942などの入力デバイスを通じてコマンドおよび情報をモバイルデバイス900に入力してもよい。いくつかの実施形態では、ディスプレイ943はタッチ感知スクリーンであってもよく、ユーザがコマンドおよび情報をその上に入力することを可能にしてもよい。キーパッド941およびディスプレイ943は、バス915に結合されたユーザ入力インタフェース950を経由して処理ユニット905に接続されてもよいが、また、通信モジュール932および有線ポート940などの、他のインタフェースおよびバス構造によって接続されてもよい。デバイス900を用いて行われたジェスチャを判定するために、動き検出952を用いることができる。
[0073] 本明細書において説明されているように、眼の輝点およびその他の眼関連データが取り込まれ、入力のために処理されてもよい。処理は、ソフトウェアで、ハードウェア論理で、あるいはソフトウェアおよびハードウェア論理の組み合わせで遂行されてもよい。
[0074] ユーザは、例えば、マイクロフォン942に向かって話すことを通じて、およびキーパッド941またはタッチ感知ディスプレイ943上に入力されるテキストメッセージを通じて他のユーザと通信してもよい。オーディオユニット955は、スピーカ944を駆動するための電気信号を提供するとともに、マイクロフォン942からオーディオ信号を受信し、受信されたオーディオ信号をデジタル化してもよい。
[0075] モバイルデバイス900は、カメラ961を駆動するための信号を提供する映像ユニット960を含んでもよい。映像ユニット960はまた、カメラ961によって得られた画像を受信し、これらの画像を、モバイルデバイス900上に含まれる処理ユニット905および/またはメモリに提供してもよい。カメラ961によって得られる画像は、映像、映像を形成しない1つ以上の画像、またはこれらの何らかの組み合わせを含んでもよい。
[0076] 通信モジュール932は、1つ以上のアンテナ965へ信号を提供し、それから信号を受信する。アンテナ965のうちの1つは携帯電話ネットワークのためのメッセージを送信および受信してもよい。別のアンテナは、Bluetooth(登録商標)メッセージを送信および受信してもよい。さらに別のアンテナ(または共有アンテナ)は無線イーサネットネットワーク規格を介してネットワークメッセージを送信および受信してもよい。
[0077] なおさらに、アンテナが、ロケーションベースの情報、例えば、GPS信号をGPSインタフェースおよび機構972に提供する。次に、GPS機構972は、対応するGPSデータ(例えば、時間および座標)を処理のために利用できるようにする。
[0078] いくつかの実施形態では、1つを超える種類のネットワークのためのメッセージを送信および/または受信するために、単一のアンテナが用いられてもよい。例えば、単一のアンテナが音声メッセージおよびパケットメッセージを送信および受信してもよい。
[0079] ネットワーク化された環境内で動作させると、モバイルデバイス900は1つ以上のリモートデバイスに接続してもよい。リモートデバイスは、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、携帯電話、メディア再生デバイス、ピアデバイスまたはその他の共通ネットワークノードを含んでもよく、通例、モバイルデバイス900に関連して上述された要素の多くまたは全てを含む。
[0080] 本明細書において説明されている主題の諸態様は、数多くの他の汎用または専用コンピューティングシステム環境または構成と共に使用可能である。本明細書において説明されている主題の諸態様と共に使用するために好適になり得る周知のコンピューティングシステム、環境、および/または構成の例としては、限定するものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドもしくはラップトップデバイス、多重プロセッサシステム、マイクロコントローラベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上述のシステムもしくはデバイスのうちの任意のものを含む分散コンピューティング環境、および同様のものが挙げられる。
[0081] 本明細書において説明されている主題の諸態様は、プログラムモジュールなどのコンピュータ実行可能命令がモバイルデバイスによって実行されるという一般的状況で説明されてもよい。概して、プログラムモジュールは、特定のタスクを遂行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。本明細書において説明されている主題の諸態様はまた、タスクが、通信ネットワークを通じてリンクされたリモート処理デバイスによって遂行される分散コンピューティング環境内で実施されてもよい。分散コンピューティング環境内において、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートコンピュータ記憶媒体の両方の内部に配置されてもよい。
[0082] さらに、本明細書において、用語、サーバが用いられている場合があるが、この用語はまた、クライアント、1つ以上のコンピュータ、1つ以上の独立型記憶デバイス、1つ以上の他のデバイスのセット、上述のものの1つ以上の組み合わせの上に分散した1つ以上のプロセスのセット、および同様のものを包含してもよいことが認識されるであろう。
結び
[0083] 本発明は様々な変更および代替構成の余地があるが、その特定の例示された実施形態が図面に示され、以上において詳細に説明された。しかし、本発明を、開示されている特定の形態に限定する意図はなく、逆に、意図は、本発明の趣旨および範囲に含まれる全ての変更、代替構成、および同等物を包括することであることを理解されたい。
[0084] 本明細書において説明されている様々な実施形態に加えて、他の同様の実施形態を用いることができるか、あるいは上述の実施形態に対して、対応する実施形態の同じまたは同等の機能を遂行するために、それから逸脱することなく変更および追加を行うことができることを理解されたい。なおさらに、複数の処理チップまたは複数のデバイスが、本明細書において説明されている1つ以上の機能の遂行を共有することができ、同様に、記憶は複数のデバイスにわたって行われることができる。したがって、本発明はいかなる単一の実施形態にも限定されるべきでなく、むしろ、添付の請求項に係る広さ、趣旨および範囲内で解釈されるべきである。

Claims (10)

  1. 対象者の眼からの輝点としての角膜反射を発生させるように構成される少なくとも4つの光源と、
    前記輝点を包含する現在の画像を取り込むように構成されるカメラと、
    視線頭部位置偏り補正器を組み込むか、または前記視線頭部位置偏り補正器に結合される視線検出器であって、前記視線検出器は、前記輝点を包含する前記現在の画像を受信し、前記対象者の眼の視線を推定するように構成され、前記視線頭部位置偏り補正器は、前記対象者の眼の前記視線の前記推定を受信し、前記輝点に対応する特徴データ、および前記対象者の瞳孔関連データを整合させることによって、前記推定された視線における偏りを補正し、前記対象者の眼が現在どこを注視しているのかを指示する補正された視線情報を出力するように構成され、前記視線偏り補正器は、校正位置に対する頭部ロケーションを表す1つ以上の変数を含む1つ以上の変数を介して学習された適応ホモグラフィ写像を用いる、視線検出器と、
    を備えるシステム。
  2. 校正位置に対する頭部ロケーション、および注視位置を表す前記変数が、模擬データに少なくとも一部基づく、請求項1に記載のシステム。
  3. 前記模擬データが、様々な頭部位置における前記予測変数を得るべく校正を通じて前記適応ホモグラフィ写像を訓練するためのグランドトゥルースデータを収集するように構成される、請求項2に記載のシステム。
  4. 校正位置に対する頭部ロケーションを表す前記変数が、アフィン変換、相似変換および/またはホモグラフィ変換によって少なくとも一部符号化された前記様々な頭部位置の間での相対頭部移動に対応する、請求項1に記載のシステム。
  5. 偏り補正のために適応ホモグラフィ写像を用いることを含む、視線を推定することを含む方法であって、前記適応ホモグラフィ写像は、空間的に変化する視線誤差、または校正位置に対する頭部姿勢依存誤差、あるいはその両方に基づいて訓練され、前記推定することは、複数の光源とカメラとを用いて現在の輝点データおよび瞳孔関連データを画像内に取り込むことと、前記画像から処理された前記現在の輝点データおよび瞳孔関連データを、前記学習された適応ホモグラフィ写像に基づいて、現在の視線情報を決定するために用いられる、頭部姿勢依存データを得るための特徴として提供することと、を含む、方法。
  6. 位置データおよび瞳孔位置データの前記複数のセットを用いることが、異なる頭部位置スケーリングおよび/または異なる頭部位置平行移動における偏り補正値を予測することを含む少なくともいくらかの模擬データを用いることを含む、請求項5に記載の方法。
  7. 前記現在の視線情報を出力することと、
    ユーザインタフェースの状態を変更することに関するアクションをとるために前記現在の視線情報を用いることと、
    をさらに含む、請求項5に記載の方法。
  8. 前記適応ホモグラフィ写像モデルを学習することが、アフィン変換によって、相似変換またはホモグラフィ変換によって、相対頭部移動を符号化することを含む、請求項5に記載の方法。
  9. 前記適応ホモグラフィ写像モデルを学習することが、1つ以上の特徴としての視線方向を表す瞳孔関連データを符号化することを含む、請求項5に記載の方法。
  10. 実行可能命令を有する1つ以上の機械可読記憶媒体またはハードウェア論理であって、前記実行可能命令は、実行されると、
    輝点データおよび瞳孔関連データが特徴として抽出される対象者の眼を含む画像を取り込むステップであって、前記輝点データおよび瞳孔関連データは、複数の光源によって発生させられた対象者の眼からの角膜反射に基づく、ステップと、
    適応ホモグラフィ写像に対応する頭部位置の偏り補正に基づいて視線方向を決定するために前記特徴を前記適応ホモグラフィ写像に用いるステップと、
    を含むステップを遂行する、機械可読記憶媒体またはハードウェア論理。
JP2016552536A 2014-03-26 2015-03-12 適応ホモグラフィ写像に基づく視線追跡 Active JP6502370B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/226,467 US9684827B2 (en) 2014-03-26 2014-03-26 Eye gaze tracking based upon adaptive homography mapping
US14/226,467 2014-03-26
PCT/US2015/020178 WO2015179008A1 (en) 2014-03-26 2015-03-12 Eye gaze tracking based upon adaptive homography mapping

Publications (3)

Publication Number Publication Date
JP2017523487A true JP2017523487A (ja) 2017-08-17
JP2017523487A5 JP2017523487A5 (ja) 2018-03-22
JP6502370B2 JP6502370B2 (ja) 2019-04-17

Family

ID=54066176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016552536A Active JP6502370B2 (ja) 2014-03-26 2015-03-12 適応ホモグラフィ写像に基づく視線追跡

Country Status (11)

Country Link
US (1) US9684827B2 (ja)
EP (1) EP3123283B1 (ja)
JP (1) JP6502370B2 (ja)
KR (1) KR102334139B1 (ja)
CN (1) CN106133648B (ja)
AU (1) AU2015264699B2 (ja)
CA (1) CA2940241C (ja)
ES (1) ES2680825T3 (ja)
MX (1) MX2016012193A (ja)
RU (1) RU2685020C2 (ja)
WO (1) WO2015179008A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
US9465444B1 (en) * 2014-06-30 2016-10-11 Amazon Technologies, Inc. Object recognition for gesture tracking
JP6547268B2 (ja) * 2014-10-02 2019-07-24 富士通株式会社 視線位置検出装置、視線位置検出方法及び視線位置検出プログラム
RU2596062C1 (ru) * 2015-03-20 2016-08-27 Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" Способ коррекции изображения глаз с использованием машинного обучения и способ машинного обучения
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US10423830B2 (en) 2016-04-22 2019-09-24 Intel Corporation Eye contact correction in real time using neural network based machine learning
US10664949B2 (en) * 2016-04-22 2020-05-26 Intel Corporation Eye contact correction in real time using machine learning
US10178948B2 (en) * 2016-05-11 2019-01-15 Miraco Light Inc. Self operatable ophthalmic device
JP2017211430A (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
DE102016210288A1 (de) 2016-06-10 2017-12-14 Volkswagen Aktiengesellschaft Bedienvorrichtung mit Eyetrackereinheit und Verfahren zum Kalibrieren einer Eyetrackereinheit einer Bedienvorrichtung
US11042984B2 (en) * 2016-11-10 2021-06-22 Movea Systems and methods for providing image depth information
KR20180061956A (ko) * 2016-11-30 2018-06-08 삼성전자주식회사 눈 위치 예측 방법 및 장치
US10152822B2 (en) * 2017-04-01 2018-12-11 Intel Corporation Motion biased foveated renderer
US10319064B2 (en) 2017-04-10 2019-06-11 Intel Corporation Graphics anti-aliasing resolve with stencil mask
WO2018222897A1 (en) * 2017-06-01 2018-12-06 University Of Washington Smartphone-based digital pupillometer
US10810773B2 (en) * 2017-06-14 2020-10-20 Dell Products, L.P. Headset display control based upon a user's pupil state
CN107357429B (zh) * 2017-07-10 2020-04-07 京东方科技集团股份有限公司 用于确定视线的方法、设备和计算机可读存储介质
WO2019054598A1 (ko) * 2017-09-13 2019-03-21 주식회사 비주얼캠프 시선 추적 방법 및 이를 수행하기 위한 사용자 단말
US11181977B2 (en) 2017-11-17 2021-11-23 Dolby Laboratories Licensing Corporation Slippage compensation in eye tracking
EP3540574B1 (en) * 2018-03-15 2021-08-11 HTC Corporation Eye tracking method, electronic device, and non-transitory computer readable storage medium
KR102094953B1 (ko) * 2018-03-28 2020-03-30 주식회사 비주얼캠프 시선 추적 방법 및 이를 수행하기 위한 단말
JP7118697B2 (ja) 2018-03-30 2022-08-16 株式会社Preferred Networks 注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル
SE1851597A1 (en) * 2018-12-17 2020-06-02 Tobii Ab Gaze tracking via tracing of light paths
US11113842B2 (en) 2018-12-24 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus with gaze estimation
US11221671B2 (en) 2019-01-31 2022-01-11 Toyota Research Institute, Inc. Opengaze: gaze-tracking in the wild
CN112183160A (zh) * 2019-07-04 2021-01-05 北京七鑫易维科技有限公司 视线估计方法及装置
CN110647800B (zh) * 2019-08-06 2022-06-03 广东工业大学 一种基于深度学习的眼神交流检测方法
GB2596541B (en) * 2020-06-30 2023-09-13 Sony Interactive Entertainment Inc Video processing
CN113057860B (zh) * 2021-03-17 2023-06-27 上海海洋大学 一种基于物联网的眼部肌肉锻炼装置及使用方法
US11816260B2 (en) 2022-04-06 2023-11-14 Inseye Inc. System and method for continuous calibration of eye tracking systems used in VR/AR HMD units

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040174496A1 (en) * 2003-03-06 2004-09-09 Qiang Ji Calibration-free gaze tracking under natural head movement
US20040227693A1 (en) * 2003-05-14 2004-11-18 Darwin Rambo Integral eye-path alignment on telephony and computer video devices using two or more image sensing devices
US7742623B1 (en) * 2008-08-04 2010-06-22 Videomining Corporation Method and system for estimating gaze target, gaze sequence, and gaze map from video
US20110182472A1 (en) * 2008-07-08 2011-07-28 Dan Witzner Hansen Eye gaze tracking

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6578962B1 (en) * 2001-04-27 2003-06-17 International Business Machines Corporation Calibration-free eye gaze tracking
US7515173B2 (en) * 2002-05-23 2009-04-07 Microsoft Corporation Head pose tracking system
US8159519B2 (en) * 2007-05-31 2012-04-17 Eastman Kodak Company Personal controls for personal video communications
CN102063624A (zh) * 2010-11-13 2011-05-18 天津大学 基于单应性约束的立体图像匹配方法
RU2455676C2 (ru) * 2011-07-04 2012-07-10 Общество с ограниченной ответственностью "ТРИДИВИ" Способ управления устройством с помощью жестов и 3d-сенсор для его осуществления
CN102567989A (zh) * 2011-11-30 2012-07-11 重庆大学 基于双目立体视觉的空间定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040174496A1 (en) * 2003-03-06 2004-09-09 Qiang Ji Calibration-free gaze tracking under natural head movement
US20040227693A1 (en) * 2003-05-14 2004-11-18 Darwin Rambo Integral eye-path alignment on telephony and computer video devices using two or more image sensing devices
US20110182472A1 (en) * 2008-07-08 2011-07-28 Dan Witzner Hansen Eye gaze tracking
US7742623B1 (en) * 2008-08-04 2010-06-22 Videomining Corporation Method and system for estimating gaze target, gaze sequence, and gaze map from video

Also Published As

Publication number Publication date
US20150278599A1 (en) 2015-10-01
JP6502370B2 (ja) 2019-04-17
ES2680825T3 (es) 2018-09-11
CN106133648A (zh) 2016-11-16
CA2940241A1 (en) 2015-11-26
RU2016137779A (ru) 2018-03-23
AU2015264699B2 (en) 2019-11-14
WO2015179008A1 (en) 2015-11-26
CN106133648B (zh) 2019-05-31
US9684827B2 (en) 2017-06-20
KR20160138062A (ko) 2016-12-02
RU2685020C2 (ru) 2019-04-16
KR102334139B1 (ko) 2021-12-03
RU2016137779A3 (ja) 2018-10-02
AU2015264699A1 (en) 2016-09-08
EP3123283B1 (en) 2018-04-25
MX2016012193A (es) 2017-01-05
EP3123283A1 (en) 2017-02-01
CA2940241C (en) 2023-01-17

Similar Documents

Publication Publication Date Title
JP6502370B2 (ja) 適応ホモグラフィ写像に基づく視線追跡
CN106133649B (zh) 使用双目注视约束的眼睛凝视跟踪
US10943402B2 (en) Method and system for mixed reality interaction with peripheral device
CN108229284B (zh) 视线追踪及训练方法和装置、系统、电子设备和存储介质
US9202280B2 (en) Position estimation based rotation of switched off light source
KR101722654B1 (ko) 점 특징 및 선 특징을 사용한 강력한 추적
US20200380784A1 (en) Concealing loss of distributed simultaneous localization and mapping (slam) data in edge cloud architectures
US9430040B2 (en) Eye gaze detection with multiple light sources and sensors
WO2020228643A1 (zh) 交互控制方法、装置、电子设备及存储介质
KR101320683B1 (ko) 증강현실 기반의 디스플레이 보정 방법 및 모듈, 이를 이용한 객체정보 디스플레이 방법 및 시스템
CN107852447A (zh) 基于设备运动和场景距离使电子设备处的曝光和增益平衡
US20210256733A1 (en) Resolving region-of-interest (roi) overlaps for distributed simultaneous localization and mapping (slam) in edge cloud architectures
US10937192B2 (en) Resolving incorrect distributed simultaneous localization and mapping (SLAM) data in edge cloud architectures
KR20210070175A (ko) 깊이 카메라를 이용한 동적 멀티 카메라 조정을 위한 장치 및 방법
CN116261706A (zh) 用于使用融合数据进行对象跟踪的系统和方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190320

R150 Certificate of patent or registration of utility model

Ref document number: 6502370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250