JP2016515242A - 校正不要な注視点推定の方法と装置 - Google Patents
校正不要な注視点推定の方法と装置 Download PDFInfo
- Publication number
- JP2016515242A JP2016515242A JP2015559469A JP2015559469A JP2016515242A JP 2016515242 A JP2016515242 A JP 2016515242A JP 2015559469 A JP2015559469 A JP 2015559469A JP 2015559469 A JP2015559469 A JP 2015559469A JP 2016515242 A JP2016515242 A JP 2016515242A
- Authority
- JP
- Japan
- Prior art keywords
- eye
- gazing point
- viewer
- gaze
- point position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000009826 distribution Methods 0.000 claims abstract description 27
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 239000002245 particle Substances 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 210000001508 eye Anatomy 0.000 description 104
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000004424 eye movement Effects 0.000 description 6
- 210000003128 head Anatomy 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 210000005252 bulbus oculi Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 230000004434 saccadic eye movement Effects 0.000 description 2
- VWVRASTUFJRTHW-UHFFFAOYSA-N 2-[3-(azetidin-3-yloxy)-4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]pyrazol-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound O=C(CN1C=C(C(OC2CNC2)=N1)C1=CN=C(NC2CC3=C(C2)C=CC=C3)N=C1)N1CCC2=C(C1)N=NN2 VWVRASTUFJRTHW-UHFFFAOYSA-N 0.000 description 1
- VPSXHKGJZJCWLV-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-3-(1-ethylpiperidin-4-yl)oxypyrazol-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(=O)N1CC2=C(CC1)NN=N2)OC1CCN(CC1)CC VPSXHKGJZJCWLV-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 206010053694 Saccadic eye movement Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 230000005686 electrostatic field Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000001028 reflection method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20061—Hough transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- Image Analysis (AREA)
- Eye Examination Apparatus (AREA)
- Position Input By Displaying (AREA)
Abstract
本発明は注視点推定方法に関する。注視点を決定するのに用いるシステムを校正せずに注視点位置を決定するため、該方法は、スクリーンに表示された少なくとも1つのビデオ画像を見ているビュアーの少なくとも1つの眼画像の少なくとも1つの眼の少なくとも1つの中心ロケーションを検出するステップ(103)と、前記少なくとも1つの眼の少なくとも1つの検出された中心ロケーションと、人の注視点分布の中心バイアス特性に基づくマッピング関数とを用いて、前記スクリーンにおける前記ビュアーの少なくとも1つの第1注視点位置を決定するステップ(105)と、を有する。本発明は、注視点を推定するように構成される装置にも関する。
Description
本発明は、ビュアーにより見られる画像シーケンスに関する肉眼注視点推定の分野に関する。
人間はすべての生活分野においてもっとも中心となる要因である。視覚は人類の最も基本的な感覚である。人間の脳の約80−90%のニューロンは視覚に関係していると考えられている。注視(eye gaze)は、人間の心から有用かつ動かしえない情報を明らかにできる重要なキューと考えられる。注視は、ある視覚的状況におけるある人の注意、行動及び何らかの形で感情を反映すると考えられる。実際、注視の解釈プロセスは、注視ベースインターラクティブユーザインタフェース、アダプティブかつインターラクティブなコンテンツプレゼンテーション、仮想現実、人間行動研究、及び診断アプリケーションなど、ヒューマンコンピュータインターラクション(HCI)の様々なアプリケーションに関わる。それゆえ、注視点推定(eye gaze estimation)は、ここ数年の間、活発な研究領域となり、問題に異なる困難な側面があるため、挑戦しがいのあるトピックとなっている。注視点追跡機は、一般的に、機器が被験者と接触する方法により、イントルーシブ(intrusive)システムとリモート(remote)システムの2つのカテゴリーに分類できる。最初期のイントルーシブ注視点追跡機(intrusive gaze tracker)の1つは、特殊なコンタクトレンズを眼に固定して、その位置を検出できるようにするものである。これらのコンタクトレンズは、光を反射したり、高周波電磁場における眼の位置を測定したりするのに用いられるセンサ(ミラーや誘導コイル)を含む。この方法は、精度は高いが、不快かつ押しつけがましい方法であるため、医療研究や認知研究くらいにしか適しない。電気眼球図記録(EOG)ベースの方法は、眼球が回る時に静電場が生じるという事実を利用するものである。(電極で)眼の周りの皮膚領域の電位差を測定することにより、眼の位置を推定できる。EOG法により、(ビデオ眼球図記録が利用できない)暗い環境における記録を可能とし、かつ眼を開けていなくても良い、単純な構成で信頼性が高い測定ができる。主要な問題は、EOG信号が、(特に、長時間の記録実験では)顔の筋肉のまばたきをする動きやEOGの電位ドリフトにより、ノイズがのることである。ビデオ眼球図記録法も、ヘッドマウントシステムで用いられる場合、イントルーシブ法に分類できる。一般的に、イントルーシブ法は、精度が高く、頭部の動きが自由であるが、主な欠点はユーザに密着しなければならないことであり、実験室における実験のみに制約される。
日常的なアプリケーションとしては、非イントルーシブ(すなわちリモート)法の方がずっと好ましい。このカテゴリーの場合、ビデオベース法が最も広く使われている。(ジオメトリック)モデルベース法と外観ベース法の2つの方法グループを区別できる。前者は眼の3次元ジオメトリックモデルを用いて注視点(gaze)を推定する。注視点(point of regard)は、(光軸及び視軸よりなる)3次元注視方向とスクリーン平面との間の交わりとして決定される。モデルベース法の大部分は、一般的には赤外光である光源を用いて眼を照らす角膜反射法に基づく。主要なアイデアは、瞳中心と、反射による眼の最も明るい光スポットであるグリント(glint)との間の相対的な位置から注視点を推定することである。
対照的に、外観ベース法は、注視点推定を、眼の画像特徴と、スクリーン上の注視位置との間の2次元マッピング問題と考える。マッピング関数は、マルチレイヤニューラルネットワーク又はガウシアンプロセス回帰のような回帰モデルをトレーニングすることにより、又は局所線形埋込(Locally Linear Embedding)などの非線形多様体埋込法(non−linear manifold embedding technique)を用いて、高次元肉眼像を2次元に下げ、低次元空間における線形結合により注視点を求めることにより、求めることができる。
ジオメトリックモデルベースアプローチは、一般的に、精度がより高く(1°未満である)、市販の眼追跡機(eye tracker)で広く用いられている。しかし、高解像度カメラと追加的光源とを必要とする。現在の外観ベース法は精度があまり高くない(精度が数度である)ことが知られている。精度がより高い外観ベース法が知られている。これは、例えば、非特許文献1に開示されているように、多数の校正点を用いることを代償として1°未満の精度を達成できる。
現在のほとんどすべての追跡法は、(ジオメトリックベース法の場合)人に依存した視覚パラメータ(eye parameter)を推定したり、(外観ベース法の場合)眼の動きとスクリーンとの間の対応マッピング関数を回帰(regress)したりするため、校正プロセスを必要とする。かかるプロセスを行うのは面倒であり、不快であり、困難である。さらに、インターラクティブゲームインタフェースやアダプティブコンテンツ選択インタフェースなどの幾つかのコンシューマホーム機器では、アイトラッキング(eye tracking)はユーザに対してトランスパレントであることを要し、アクティブな校正はほとんど不可能である。明示的な校正を要しない肉眼注視点推定法がある。しかし、そのモデルベース法は複数のカメラと赤外光源(IR light sources)を必要とする。
他のアプローチは、視覚的特徴を注視点の確率分布の事前情報として用いることにフォーカスしていた。非特許文献2は、眼の連続的外観があまり変化しなければ、ユーザが同じ凝視点に注目していることが明らかであるということを提案している。すべてのトレーニングビデオをクラスター化及び平均化することにより、「凝視グループ」のセットが得られる。各固定グループは、平均化注視点確率マップと、それに対応する平均化眼画像(eye image)よりなる。これらのデータは、ガウシアンプロセス回帰(GPR)を学習するために提供される。注視点(gaze points)の「真の」位置は分からないので(注視点確率(gaze probability)しか分からないので)、GPRのトレーニングプロセスはモンテカルロ近似により行われる(すなわち、平均化された注視点確率マップによりサンプルが生成される)。しかし、このアプローチには幾つかの限界がある。第1に、動作モードに行くため、システムは、オフラインになり、時間がかかるトレーニング(すなわち、10分のテストに対して10分のトレーニング)を事前に必要とする。第2に、この方法は経験的に決定される多くのパラメータを用いる。第3に、モンテカルロ近似が所望の精度に到達するために、計算コストが大幅に増加することを代償として、多くのサンプルが必要である。それにもかかわらず、この方法では、必ずしも信頼性が高くない特徴情報に全面的に基づくため、6°という低い精度しか達成できない。
非特許文献3は、注視点推定システムの性能を改善するための事後処理段階における特徴マップ(saliency maps)の利用を開示している。眼窩のある領域(foveated region)が、推定された凝視点の周りのガウシアンカーネルとしてモデル化される。次に、特徴マップを計算する。凝視点で初期化された平均シフトウィンドウを用いて、特徴マップにおける最近最大点を見つけ、これを補正された新しい注視点と考える。注視点追跡機における誤差は同一かつアフィン変換的(identical and affine)である(例えば、シフトやスケール)と仮定することにより、推定注視点と補正注視点との間の加重最小二乗最小化を適用することにより、補正行列を求められる。
既存の肉眼注視点検知システムは、主要な2つの理由により、コンシューマホームアプリケーションで広く利用されているとは言い難い。かかるシステムのコストは依然として高く、ほとんどのシステムは面倒で時間がかかる校正手順を必要とする。
K. H. Tan, D. J. Kriegman, and N. Ahuja, "Appearance−based eye gaze estimation", Proceedings of the Sixth IEEE Workshop on Applications of Computer Vision (WACV), pages 191−195, 2002
Y. Sugano, Y. Matsushita, and Y. Sato, "Calibration−free gaze sensing using saliency maps", In Proc. of the 23rd IEEE Conference on Computer, Vision and Pattern Recognition (CVPR), June 2010
R. Valenti, N. Sebe, and T. Gevers, "What are you looking at? improving visual gaze estimation by saliency", International Journal of Computer Vision, 2012
本発明の目的は、こうした先行技術の少なくとも1つの欠点を解消することである。
より具体的に、本発明の目的は、ビュアーが見ているスクリーン上のビュアーの注視点のロケーションを、校正せずに決定することである。
本発明は、注視点推定方法に関し、
− スクリーンに表示された少なくとも1つのビデオ画像を見ているビュアーの少なくとも1つの眼画像の少なくとも1つの眼の少なくとも1つの中心ロケーションを検出するステップと、
− 前記少なくとも1つの眼の少なくとも1つの検出された中心ロケーションと、人の注視点分布の中心バイアス特性に基づくマッピング関数とを用いて、前記スクリーンにおける前記ビュアーの少なくとも1つの第1注視点位置を決定するステップと、を有する。
− スクリーンに表示された少なくとも1つのビデオ画像を見ているビュアーの少なくとも1つの眼画像の少なくとも1つの眼の少なくとも1つの中心ロケーションを検出するステップと、
− 前記少なくとも1つの眼の少なくとも1つの検出された中心ロケーションと、人の注視点分布の中心バイアス特性に基づくマッピング関数とを用いて、前記スクリーンにおける前記ビュアーの少なくとも1つの第1注視点位置を決定するステップと、を有する。
具体的な一特徴によると、前記検出するステップは、
− 前記少なくとも1つの眼画像を少なくとも1つのヒートマップに変換するステップと、
− 前記少なくとも1つのヒートマップの、所定の第1閾値より大きい値を有する第1のピクセルを決定するステップと、
− 所定の第2閾値より大きい値を有する、前記第1ピクセルの近傍にある第2ピクセルを決定するステップと、
− 前記少なくとも1つの眼の少なくとも1つの中心ロケーションを、決定された前記第1及び第2ピクセルのロケーションの加重平均に対応するものとして計算するステップとを有する。
− 前記少なくとも1つの眼画像を少なくとも1つのヒートマップに変換するステップと、
− 前記少なくとも1つのヒートマップの、所定の第1閾値より大きい値を有する第1のピクセルを決定するステップと、
− 所定の第2閾値より大きい値を有する、前記第1ピクセルの近傍にある第2ピクセルを決定するステップと、
− 前記少なくとも1つの眼の少なくとも1つの中心ロケーションを、決定された前記第1及び第2ピクセルのロケーションの加重平均に対応するものとして計算するステップとを有する。
有利にも、前記少なくとも1つのヒートマップは、前記変換の出力として、色空間YCbCrで表される。
具体的な一特徴によると、前記検出するステップは、さらに、前記少なくとも1つのヒートマップのガウシアンフィルタリングを含み、前記第1及び第2ピクセルは前記ガウシアンフィルタリング後に決定される。
有利にも、本方法は、さらに、
− 前記少なくとも1つのビデオ画像に関連する少なくとも1つの特徴マップにより、前記スクリーンにおける前記ビュアーの少なくとも1つの第2注視点位置を決定するステップと、
− 前記スクリーンにおける前記ビュアーの少なくとも1つの第3注視点位置を決定するステップであって、前記少なくとも1つの第3注視点位置は、前記少なくとも1つの第1注視点位置と前記少なくとも1つの第2注視点位置との融合に対応する、ステップとを有する。
− 前記少なくとも1つのビデオ画像に関連する少なくとも1つの特徴マップにより、前記スクリーンにおける前記ビュアーの少なくとも1つの第2注視点位置を決定するステップと、
− 前記スクリーンにおける前記ビュアーの少なくとも1つの第3注視点位置を決定するステップであって、前記少なくとも1つの第3注視点位置は、前記少なくとも1つの第1注視点位置と前記少なくとも1つの第2注視点位置との融合に対応する、ステップとを有する。
他の一特徴によると、前記少なくとも1つの第1注視点位置は、前記パーティクルフィルタリング法と、時間的観点で前に決定された少なくとも1つの他の第1注視点位置とを用いて決定される。
有利にも、前記少なくとも1つの第3注視点位置は、時間的観点で前に決定された少なくとも1つの他の第1注視点位置と少なくとも1つの他の第2の注視点位置とともに前記パーティクルフィルタリング法を用いて決定される。
具体的な一特徴によると、前記ビュアーの前記少なくとも1つの第1注視点位置は、前記ビュアーの頭の動きを考慮して決定される。
本発明は、ビュアーの注視点を決定するように構成された装置にも関する。該装置は、少なくとも1つのプロセッサを有し、前記プロセッサは、
− スクリーンに表示された少なくとも1つのビデオ画像を見ているビュアーの少なくとも1つの眼画像における少なくとも1つの眼の中心ロケーションを検出し、前記少なくとも1つの眼画像は前記少なくとも1つの眼の表示を含み、
− 前記少なくとも1つの眼の少なくとも1つの検出された中心ロケーションと、人の注視点分布の中心バイアス特性に基づくマッピング関数とを用いて、前記スクリーンにおける前記ビュアーの少なくとも1つの第1注視点位置を決定するように構成される。
− スクリーンに表示された少なくとも1つのビデオ画像を見ているビュアーの少なくとも1つの眼画像における少なくとも1つの眼の中心ロケーションを検出し、前記少なくとも1つの眼画像は前記少なくとも1つの眼の表示を含み、
− 前記少なくとも1つの眼の少なくとも1つの検出された中心ロケーションと、人の注視点分布の中心バイアス特性に基づくマッピング関数とを用いて、前記スクリーンにおける前記ビュアーの少なくとも1つの第1注視点位置を決定するように構成される。
前記少なくとも1つのプロセッサは、さらに、
− 前記少なくとも1つの眼画像を少なくとも1つのヒートマップに変換し、
− 前記少なくとも1つのヒートマップの、所定の第1閾値より大きい値を有する第1のピクセルを決定し、
− 所定の第2閾値より大きい値を有する、前記第1ピクセルの近傍にある第2ピクセルを決定し、
− 前記少なくとも1つの眼の少なくとも1つの中心ロケーションを、決定された前記第1及び第2ピクセルのロケーションの加重平均に対応するものとして計算するように構成される。
− 前記少なくとも1つの眼画像を少なくとも1つのヒートマップに変換し、
− 前記少なくとも1つのヒートマップの、所定の第1閾値より大きい値を有する第1のピクセルを決定し、
− 所定の第2閾値より大きい値を有する、前記第1ピクセルの近傍にある第2ピクセルを決定し、
− 前記少なくとも1つの眼の少なくとも1つの中心ロケーションを、決定された前記第1及び第2ピクセルのロケーションの加重平均に対応するものとして計算するように構成される。
具体的な一特徴によると、前記少なくとも1つのプロセッサは、さらに、前記少なくとも1つのヒートマップをガウシアンフィルタでフィルタリングするように構成される。
他の一特徴によると、前記少なくとも1つのプロセッサは、さらに、
− 前記少なくとも1つのビデオ画像に関連する少なくとも1つの特徴マップにより、前記スクリーンにおける前記ビュアーの少なくとも1つの第2注視点位置を決定し、
− 前記スクリーンにおける前記ビュアーの少なくとも1つの第3注視点位置を決定し、前記少なくとも1つの第3注視点位置は、前記少なくとも1つの第1注視点位置と前記少なくとも1つの第2注視点位置との融合に対応する、ように構成される。
− 前記少なくとも1つのビデオ画像に関連する少なくとも1つの特徴マップにより、前記スクリーンにおける前記ビュアーの少なくとも1つの第2注視点位置を決定し、
− 前記スクリーンにおける前記ビュアーの少なくとも1つの第3注視点位置を決定し、前記少なくとも1つの第3注視点位置は、前記少なくとも1つの第1注視点位置と前記少なくとも1つの第2注視点位置との融合に対応する、ように構成される。
有利にも、前記少なくとも1つのプロセッサは、さらに、パーティクルフィルタリング法を実行するように構成される。
他の一特徴によると、前記少なくとも1つのプロセッサは、前記ビュアーの頭の動きを検出するようにされる。
本発明は、コンピュータプログラムプロダクトにも関する。該プロダクトは、少なくとも1つのプロセッサにより実行され、プログラムがコンピュータにより実行されたとき、注視点推定方法を実行するプログラムコード命令を含む。
添付図面を参照した以下の説明を読めば、本発明をよく理解でき、その他の具体的な特徴と利点がはっきりするであろう。
本発明の一実施形態による、ビュアーの注視点の位置を推定する方法を示す図である。
本発明の一実施形態による、関連ヒートマップとともにビュアーの眼の画像を示す図である。
本発明の一実施形態による、ビュアーが見ている異なるタイプのビデオコンテンツによる注視点位置の平均空間ヒストグラムを示す図である。
本発明の一実施形態による、図1のビュアーの注視点位置推定に適用されるパーティクルフィルタリングフレームワークを示す図である。
本発明の一実施形態による、注視位置推定方法に関するグラフィカルユーザインタフェースを示す図である。
本発明の一実施形態による、注視点位置推定方法を実施する装置を図式的に示す図である。
本発明の一実施形態による、注視点位置推定方法を示す図である。
スクリーンに表示された一以上のビデオ画像を見ているビュアーの注視点位置の推定方法の一実施形態を参照して、本発明を説明する。その目的のため、ビュアーの片眼または両眼の中心の位置を、ビュアーの片眼または両眼の表示を含むビュアーの少なくとも一部の一以上の画像を分析することにより検出する。分析される画像は、有利にも、ビュアーが一ビデオ画像を見ている間の、そのビュアーの画像に対応する。眼の外観及びスクリーンにおける注視点位置との間のマッピングを表し、人間の注視点分布のセンターバイアス特性に基づくマッピング関数を用いて、スクリーンにおけるビュアーの注視点の位置を決定する。
人間の注視点分布のセンターバイアス特性に基づくマッピング関数を用いることにより、そのマッピング関数の校正を回避でき、すなわち(例えば、テストビデオ画像と、そのテストビデオ画像を見ているビュアーの関連眼画像とを用いて行われる)眼の外観とスクリーンにおける注視点位置との間のマッピング関数の回帰を回避できる。
図1は、本発明の具体的かつ非限定的な一実施形態による、ビュアーの注視点の位置を推定する方法を示す図である。プロセスの入力10は、一又は複数のビデオ画像101を表すデータと、一又は複数の眼画像(eye image)102を表すデータとを含む。眼画像102は、有利にも、ビデオ画像101を見ているビュアーの片眼または両眼の画像に対応し、より一般的には、眼の画像を表すデータを抽出できるビュアーの顔の画像に対応する。有利な方法では、眼画像102はウェブカム(webcam)などのカメラにより収集される。カメラは、例えば、ビデオ画像が表示されるスクリーンの上に配置される。つまり、カメラはスクリーンに組み込まれていない装置であり、有線又は無線でスクリーンに接続される。一変形例によると、カメラはスクリーンに組み込まれている。1つの眼画像102は、有利にも、1つのビデオ画像101に関連する。つまり、その関連ビデオ画像101を表示している間に、1つの眼画像102を撮る。ビデオ画像101は、例えば、画像シーケンス(例えば、映画)、写真、ウェブページなどの画像に対応する。
第1のステップ103において、片眼の中心または各眼の中心が眼画像102から検出される。ビュアーの顔は、顔検出アルゴリズム(例えば、文献P. Viola and M. Jones著「Robust real−time object detection」IJCV, vol. 57, no. 2, pp. 137−154, 2002に記載されたboosted cascade face detectorなど)を用いて検出できる。眼領域のおおまかな位置は、身体計測関係式に基づき検出された顔から決定される。経験的に、眼の中心は、常に、検出された顔領域の、左眼の20%×30%から右眼の60%×30%までの、検出された顔領域の25%×20%の大きさの、2つの領域内に含まれることが分かっている。
一変形例によると、眼の中心を検出するには、ハフ変換(Hough Transform、HT)法を用いる。HT法は、投票ベースアルゴリズムを用いてパラメータ空間中の円(及び線)を検出するものである。HT法は、例えば、米国特許第3,069,654に記載されている。
有利な一方法では、眼の中心は、眼画像102にある色情報を利用する方法を用いて検出される。この方法によると、
1. RGB色空間で収集された眼画像は最初にYCbCr空間に変換される。
2. 瞳領域の画素は通常ではCb成分の値が高く、YおよびCr成分の値が低いとの経験的所見に基づき、眼中心ヒートマップ(HM)を次の通り決定できる:
1. RGB色空間で収集された眼画像は最初にYCbCr空間に変換される。
2. 瞳領域の画素は通常ではCb成分の値が高く、YおよびCr成分の値が低いとの経験的所見に基づき、眼中心ヒートマップ(HM)を次の通り決定できる:
3. その後、領域拡張法(region growing method)を用いて、瞳領域である可能性のあるすべてのサブ領域(sub−regions)を抽出する。そうするため、所定閾値T1より大きい極大値をシード点として選択し、第1点(first points)212と呼ぶ。その後、値が所定閾値T2より大きいすべての画素を拡張して、各シード点の周りの4つの接続領域を構成する。これらの画素は第2画素213と呼ぶ。選択された点は、「候補点」のセットに動的に付け加えられ、プロセスは眼領域の終わりに行くまで続く。経験的に、T1とT2は例えば次の通り設定される:性能を良くするため、T1=0.98及びT2=0.85。
4. 最後に、すべての候補点の加重投票(weighted voting)により推定される。
第2のステップ104において、眼の中心のロケーションを注視点位置に変換する。フリービューイングモードでは、注視点分布はスクリーンの中心に向けたバイアスがかかっている。かかる効果は図3で見ることができる。図3は、ビュアーが3つのスクリーンビューイング動作中、すなわち映画視聴30、テレビジョン視聴31及びウェブブラウズ32中である時の、注視点追跡機(例えば、サンプリング周期が50HzのSMI RED追跡機)により記録される注視点位置の平均空間ヒストグラムである。最初の2つの動作30と31の場合、例えば、4人のオブザーバに8つのビデオシーケンス(すなわち、4本のムービークリップと4本のテレビジョンクリップ、それぞれ10分の長さ)を視聴するように依頼する。ウェブブラウズ動作の場合、ビュアーは、10分間に5つの好きなウェブサイトを自由に選べる。すべての刺激とすべての被験者について、結果を平均する。映画及びテレビジョンを見る動作の場合には、強い中心バイアス効果が観察され、注視点位置(明るい画素300と310)がスクリーンの中央にある非常に狭い領域に分布した。ウェブブラウズ動作の場合、注視点分布は中心(明るい画素320)の周りに広く分散したが、中心バイアスも目立つ。
−
[外2]
は変換された注視点位置であり、注視点の第1の位置105に対応している;
−xcとycは絶対画像座標における現在の眼中心位置である。被験者の頭は支持されて固定されているので、これらの値を眼座標の相対的位置に変換するアイカマー位置特定手法(eye comers localization technique)は必要としない;
−
[外3]
はそれぞれxcとycの平均値と標準偏差値である。これらのパラメータは、プロセス中、継続的に計算され更新される;
−AxとAyは注視点分布の「スケール」を記述するチューニング係数である。これらは、経験的に、例えば4に設定される。これは中心バイアスレベルを定量化するのに十分な大きさである。
この方法により、現在の眼中心位置がその平均値
[外4]
に等しいとき、注視点位置はスクリーンの中心になり(規格化された注視点座標において(xg,yg)=(0.5,0.5))、現在の眼中心位置がその平均値から標準偏差のAx倍(あるいはAy)偏っているとき、注視点はスクリーン境界になる(すなわち、(xg,yg)=1)。
[外4]
に等しいとき、注視点位置はスクリーンの中心になり(規格化された注視点座標において(xg,yg)=(0.5,0.5))、現在の眼中心位置がその平均値から標準偏差のAx倍(あるいはAy)偏っているとき、注視点はスクリーン境界になる(すなわち、(xg,yg)=1)。
かかる単純なマッピングモデルの利用により、特徴マップ(saliency map)とは独立に(すなわち、特徴マップ無しに)、眼画像から(性能をよくしつつ)注視点位置の粗い推定を得ることができる。
任意的な方法かつ一変形例によると、注視点位置の推定は、ビデオ画像101に関連する特徴マップ106を用いて精度を上げてもよい。第2の注視点位置107は特徴マップから得られる。第1の注視点位置105を第2の注視点位置107と融合して、第3の注視点位置109を求めてもよい。これには、第1の注視点位置105と第2の注視点位置107だけのときより、精度が上がるという利点がある。第3の注視点位置105は、有利にも、第1の注視点位置と第2の注視点位置の平均に対応する。一変形例によれば、第3の注視点位置105は、有利にも、第1の注視点位置と第2の注視点位置の加重平均に対応する。このとき、第1の注視点位置推定の信頼度が第2の注視点位置推定の信頼度より高ければ、第1の注視点位置に割り当てられる加重は、第2の注視点位置に割り当てられる加重より大きくする(又はその逆の場合もある)。他の一変形例によると、特徴マップを、チューニング係数Ax及びAyを調整するために用いる。例えば、AxとAyは、特徴マップにおけるばらつき(dispersions)により、すなわち特徴マップの分散(variance)により調整(adapt)される。
他の任意的な一変形例によれば、より精密な第3の注視点位置109を求めるため、第1の注視点位置105と第2の注視点位置107とに基づくパーティクルフィルタ(particle filter)108を実装してもよい。かかる一変形例を図4に示した。図4は、本発明の具体的かつ非限定的な実施形態による、ビュアーの注視点位置の推定に適用されるパーティクルフィルタリングフレームワーク(particle filtering framework)を示している。最も一般的な観点から、かつ本発明の具体的な一実施形態によれば、注視点検知システムは、入力として、2つの情報源、すなわちビジュアルコンテンツ(例えば、画像/ビデオ)およびビュアーの外観(例えば、頭部姿勢または眼の外観)を受け取り、最も確からしい注視点(gaze points)、すなわち第3の注視点位置(gaze position)109を出力する。(連続する異なる時刻t−1、t、及びt+1におけるビデオ画像101に対応する)刺激画像I40、41、及び42と、連続する異なる時刻t−1、t、及びt+1における注視点位置g=(x,y)43、44、45(ここで、gは2時限ベクトル、xとyはそれぞれ水平軸及び垂直軸における注視点位置である)と、(連続する異なる時刻t−1、t、及びt+1における眼画像103に対応する)眼の位置e46、47、及び48との間の確率的関係は、図4に示したように、確率的グラフィカルモデル4により示すことができる。このグラフィカルモデル4は、各時間フレームt−1、t、及びt+1のノードが、検討中の確率変数間の関係を表し、有効エッジがそれらの条件付き依存性を表すDBN(Dynamic Bayesian Network)を示している。接続されていないノードは、互いに「条件付き独立(conditionally independent)」であるという。時間フレーム間のリンクは時間的関係を反映している。このDBNに基づき、事後確率
[外5]
として注視点位置を推定する。図4から分かるように、眼の外観et47は刺激It41から完全には独立していいない。明らかに、刺激は注視点位置gt44に対して何らかのインパクトを有し、そのため、非直接的に眼の外観に影響を与える。しかし、一般性を失わずに、これらの2つの所見(observations)は「条件付き独立」(すなわち、第3の変数gtを介して従属する)であると考えられる。また、注視点位置分布は、1次マルコフ過程に従う、すなわち現在の状態は前の状態のみに依存すると仮定される。この仮定は、凝視及び円滑追跡眼球運動に対して強くあてはまる。眼球の衝動性運動においては、現在の注視点位置は、スケールが十分大きい分布によりモデル化された場合、前の注視点位置に依存するとも考え得る。ベイズの規則及び幾つかの因数分解を用いて、次式が得られる:
[外5]
として注視点位置を推定する。図4から分かるように、眼の外観et47は刺激It41から完全には独立していいない。明らかに、刺激は注視点位置gt44に対して何らかのインパクトを有し、そのため、非直接的に眼の外観に影響を与える。しかし、一般性を失わずに、これらの2つの所見(observations)は「条件付き独立」(すなわち、第3の変数gtを介して従属する)であると考えられる。また、注視点位置分布は、1次マルコフ過程に従う、すなわち現在の状態は前の状態のみに依存すると仮定される。この仮定は、凝視及び円滑追跡眼球運動に対して強くあてはまる。眼球の衝動性運動においては、現在の注視点位置は、スケールが十分大きい分布によりモデル化された場合、前の注視点位置に依存するとも考え得る。ベイズの規則及び幾つかの因数分解を用いて、次式が得られる:
[外6]
は事前確率
[外7]
(事前測定値が与えられたときの現在状態gtの予測)と尤度
[外8]
とにより推定できる。符号
[外9]
は「比例する」ことを意味する。事前確率に連鎖法則(すなわち、Chapman−Kolmogoroffの式)を適用して、次の見慣れた結果を得られる:
[外10]
(oは刺激画像Iまたは眼の外観eのどちらかである観察結果を示す)を近似する:
1. 予測:現在の状態は、前の観察結果o1:t−1から予測される
[外11]
は、その加重
[外12]
に関連するN個のパーティクルのセット
[外13]
により近似される。通常、
[外14]
からサンプルを直接取るのは不可能であるが、いわゆる「提案分布(proposal distribution)」
[外15]
から取ることは可能である。ここで、
[外16]
は幾つかの制約下で選択され得る。加重は次式により更新される:
[外17]
として、実装が簡単なブートストラップフィルタとなる提案分布が選択される。このように、加重更新は、単純に尤度の計算となる。縮退問題を回避するため、一変形例では、古いパーティクルセットを、重要な加重により、新しい等しく加重されたパーティクルセットで置き換えるため、再サンプリングを採択してもよい。
パーティクルフィルタフレームワークを適用するため、状態遷移モデル及び観察モデルを、以下に説明するようにモデル化する。
A. 状態遷移モデル
一般的に、2つのタイプの眼球運動、すなわち円滑追跡(smooth pursuit)と衝動性(saccade)とがある。前記は、人が動いている対象にフォーカスしている時に一般的に生じる緩徐な動きを指し、後者はある眼球位置から他の眼球位置への非常に速いジャンプである。凝視や両眼転導などその他のタイプの眼球運動は大まかに2つのタイプに分類できる。
A. 状態遷移モデル
一般的に、2つのタイプの眼球運動、すなわち円滑追跡(smooth pursuit)と衝動性(saccade)とがある。前記は、人が動いている対象にフォーカスしている時に一般的に生じる緩徐な動きを指し、後者はある眼球位置から他の眼球位置への非常に速いジャンプである。凝視や両眼転導などその他のタイプの眼球運動は大まかに2つのタイプに分類できる。
直感的には、円滑追跡運動は、ピークが前の注視点位置状態gt−1を中心とする分布(例えば、ガウシアン分布)によりうまくモデル化できる。そうでなければ、衝動性眼球運動(saccadic eye movement)、すなわちスクリーン上の任意の位置への動きの場合、前の注視点位置を中心とするがスケールがもっと大きい他のガウシアン分布を用いて、衝動の不確実性を記述することもできる。
よって、状態遷移は2つの密度のガウシアンミクスチャによりモデル化されるべきである。しかし、単純化のために、両方のタイプの眼球運動に対して一意的な分布を採択する:
σ2は、衝動性眼球運動をモデル化するためにディスプレイ上の注視点の可能性のあるすべての範囲をカバーするのに十分な大きさが必要である。σは、例えば、σ=スクリーンの大きさの1/3に設定される。
B. 観察モデル(Observation Model)
I1:tとe1:tは(図4で分かるように)条件付き独立であるから、合成尤度(compound likelihood)p(It,et|gt)は次式で与えられる:
[外18]
は現在の観察結果etと(パーティクル位置
[外19]
に対応する)推定された眼画像
[外20]
との間の距離尺度を示す。
校正不要(calibration−free)の場合には、
[外21]
を推定するために眼画像のトレーニングセットにはアクセスしない。よって、眼の中心のロケーションの検出によりp(gt|et)を推定する単純なモデルを提案する。この推定は、下記の2つのステップにより行う:i)眼の中心ロケーションの検出103と、ii)眼の中心の第1の注視位置への集束104。
[外21]
を推定するために眼画像のトレーニングセットにはアクセスしない。よって、眼の中心のロケーションの検出によりp(gt|et)を推定する単純なモデルを提案する。この推定は、下記の2つのステップにより行う:i)眼の中心ロケーションの検出103と、ii)眼の中心の第1の注視位置への集束104。
より正確には、観察結果etが与えられたときの尤度値p(gt|et)は、gtと、「観察された注視点位置」
[外22]
との間の距離に指数関数的に比例する。観察された注視点位置は、式(3)と式(4)により目の中心ロケーションから求められる:
[外22]
との間の距離に指数関数的に比例する。観察された注視点位置は、式(3)と式(4)により目の中心ロケーションから求められる:
[外23]
であるとき、
[外24]
(ここで、εは非常に小さい正数であり、例えば10−2または10−3である)であるように決定される。Dは可能性のある最大誤差であり、一般的にスクリーンの対角線に設定される。
図5は、本発明の具体的かつ非限定的な一実施形態による、注視点位置の推定の結果を制御するときにユーザを支援するように構成されたグラフィカルユーザインタフェース5(GUI)を示す。GUI5は、ビデオ画像(刺激画像とも呼ばれる)を見ているビュアーの顔の画像を表示する第1部分51を有する。フレーム511は、ビュアーの眼に対応するビュアーの顔の画像の一部をグラフィカルに示すように生成される。有利にも、眼の中心は、例えば赤点によりグラフィカルに特定され得る。これにより、眼の中心の検出がうまくいくことをチェックできる。ビュアーが見ているビデオ画像は、GUI5の第2部分53に表示される。第1の注視点位置は、有利にも、例えば赤い点などのグラフィカル識別子531で、ビデオ画像53上に示される。その後、ユーザは、グラフィカル識別子の位置が、ビュアーが見ているビデオ画像53の部分と一致しているか、ビュアーとチェックしてもよい。もちろん、ユーザとビュアーは同一の人物であってもよい。GUIの第3部分52は、GUI5の第2部分53に表示されるビデオ画像に対応する特徴マップを示す。最大限顕著なピークは、有利にも、例えば青い点により、この第3部分52上にグラフィカルに特定される。一変形例によれば、第2の注視点位置は、例えば、第3部分52上と同じグラフィカル識別子で、ビデオ画像53上にも特定され得る。他の一変形例によれば、第1の注視点位置と第2の注視点位置とを融合に対応する第3の注視点位置も、例えば黄色い点により、ビデオ画像53上に示されている。GUI5は、各構成(すなわち、右目の中心の検出、左目の中心の検出、第1の注視点位置の推定、第2の注視点位置の推定、及び第3の注視点位置の推定)について、(例えば、度/ミリメートル単位の)誤差の時間平均の発展を表す曲線を示す第4部分54も有する。各曲線に対して1つの色が用いられる。
GUI5により、ユーザ(及び/又はビュアー)は、システムにより実行される異なる検出と推定の結果をスクリーン上で直接見て、その結果の有効性を視覚的にチェックすることができる。
図6は、本発明の具体的かつ非限定的な一実施形態によるスクリーン上のビデオ画像を見ているビュアーの注視点を決定するように構成された装置6のハードウェア実施形態を図式に表示している。装置6は、一又は複数の画像、例えば、グラフィカルユーザインタフェース5を表す画像の表示信号を生成するようにも構成されている。装置6は、例えば、パーソナルコンピュータ(PC)、ラップトップ、タブレット、スマートフォン、ゲームコンソール、又はマルチメディア端末に対応する。
装置6は、アドレスとデータのバス65(クロック信号も運ぶ)により互いに接続された次の要素を有する:
− マイクロプロセッサ61(またはCPU)
− グラフィックスカード62。これは次の構成要素を有する:
・ 複数のグラフィックス処理ユニット(すなわちGPU)620、
・ グラフィカルランダムアクセスメモリ(GRAM)621、
− ROM(Read Only Memory)タイプの不揮発性メモリ66、
− ランダムアクセスメモリすなわちRAM67、
− 一または複数のI/O(入出力)装置64。これは例えばキーボード、マウス、ウェブカメラなどである、
− 電源68。
装置6は、アドレスとデータのバス65(クロック信号も運ぶ)により互いに接続された次の要素を有する:
− マイクロプロセッサ61(またはCPU)
− グラフィックスカード62。これは次の構成要素を有する:
・ 複数のグラフィックス処理ユニット(すなわちGPU)620、
・ グラフィカルランダムアクセスメモリ(GRAM)621、
− ROM(Read Only Memory)タイプの不揮発性メモリ66、
− ランダムアクセスメモリすなわちRAM67、
− 一または複数のI/O(入出力)装置64。これは例えばキーボード、マウス、ウェブカメラなどである、
− 電源68。
装置6は、グラフィックスカードで計算及び構成された合成画像を、例えばライブで表示するグラフィックスカード62に直接接続されたディスプレイスクリーンタイプのディスプレイ装置63も有する。ディスプレイ装置63をグラフィックスカード62に接続する専用バスの利用により、データ送信ビットレートが非常に大きくなり、グラフィックスカードにより構成された画像の表示にかかるレイテンシ時間を短縮できるという利点を提供できる。一変形例によれば、ディスプレイ装置は装置6の外部にあり、表示信号を送信するため、装置6にケーブル又は無線で接続される。装置6、例えば、グラフィックスカード62は、表示信号を外部ディスプレイ手段(例えば、LCDやプラズマスクリーン又はビデオプロジェクタなど)に送信するように構成された送信又は接続用のインタフェース(図6には図示せず)を有する。
メモリ621、66、及び67の説明で用いる用語「レジスタ」は、上記の各メモリにおける、小容量(少量のバイナリデータ)のメモリ領域、及び(プログラム全体を格納できる、または計算したデータや表示するデータを表すデータのすべて、またはその一部を格納できる)大容量のメモリ領域を言う。
スイッチが入れられると、マイクロプロセッサ61は、RAM67に格納されたプログラムの命令をロードして実行する。
ランダムアクセスメモリ67は、特に、次のものを有する:
− レジスタ670中に、装置6のスイッチオンに応じたマイクロプロセッサ61のオペレーティングプログラム、
− カメラにより収集された、又は他の装置から無線又はケーブルを解して受信した、一又は複数の眼画像を表すデータ671;
− 見られるコンテンツによる人の注視点分布の統計的特性などのマッピング関数を表すパラメータ672;
− グラフィカルユーザインタフェースを表すパラメータ673。
− レジスタ670中に、装置6のスイッチオンに応じたマイクロプロセッサ61のオペレーティングプログラム、
− カメラにより収集された、又は他の装置から無線又はケーブルを解して受信した、一又は複数の眼画像を表すデータ671;
− 見られるコンテンツによる人の注視点分布の統計的特性などのマッピング関数を表すパラメータ672;
− グラフィカルユーザインタフェースを表すパラメータ673。
本発明の、及び後で説明する方法のステップを実施するアルゴリズムは、これらのステップを実施する装置6に付随するグラフィックスカード62のメモリGRAM621に格納される。スイッチがオンになり、眼画像を表すデータ671とマッピング関数(及び任意的変形例によるGUIを表すパラメータ673)を表すパラメータ672とがRAM67にロードされると、グラフィックスカード62のグラフィックプロセッサ620は、これらのパラメータをGRAM621にロードし、例えば、HLSL(High Level Shader Language)やGLSL(OpenGL Shading Language)を用いて「shader」タイプのマイクロプログラムの形式のこれらのアルゴリズムの命令を実行する。
ランダムアクセスメモリGRAM621は、特に、次のものを有する:
− レジスタ6211中の、眼画像のデータ;
− レジスタ6212中の、眼の中心のロケーションを表すパラメータ(例えば、中心の座標);
− レジスタ6213中の、マッピング関数を表すパラメータ;
− レジスタ6214中に、第1の注視点位置を表すパラメータ(例えば、注視点位置の座標x,y);一変形例によれば、第2と第3の注視点位置を表すパラメータはレジスタ6214又はその他のレジスタに記憶される。
− レジスタ6215中の、GUIを表すパラメータ。
− レジスタ6211中の、眼画像のデータ;
− レジスタ6212中の、眼の中心のロケーションを表すパラメータ(例えば、中心の座標);
− レジスタ6213中の、マッピング関数を表すパラメータ;
− レジスタ6214中に、第1の注視点位置を表すパラメータ(例えば、注視点位置の座標x,y);一変形例によれば、第2と第3の注視点位置を表すパラメータはレジスタ6214又はその他のレジスタに記憶される。
− レジスタ6215中の、GUIを表すパラメータ。
図6に示していない一変形例によれば、GRAMは、レジスタ中に、(眼画像に関連する)ビデオ画像に関連する特徴マップを表すデータ、及び最も顕著なピークを表すパラメータ、第2の注視点位置を表すパラメータ、及び第3の注視点位置を表すパラメータも含む。
一変形例によれば、眼画像のデータ671と、マッピング関数を表すパラメータ672は、GRAM621にロードされず、CPU61により処理される。この変形例によると、眼の中心のロケーションを表すパラメータと、第1の注視点位置を表すパラメータ(及び計算されたとき、第2と第3の注視点位置を表すパラメータ)とは、GRAM621ではなくRAM67に格納される。
他の一変形例では、電源68は装置6の外部にある。
図7は、本発明の非限定的な有利な一実施形態による、装置6に実装される、ビュアーの注視点位置を推定する方法を示す。
初期化ステップ70において、装置6の異なるパラメータを更新する。
次に、ステップ71において、スクリーン上に表示されたビデオコンテンツを見ているビュアーの眼の中心のロケーションを検出する。スクリーン上に表示されるビデオコンテンツは、どんなビデオ画像やビデオ画像シーケンスでも、ウェブページやピクチャなどのテキスト及び/又はグラフィカル要素を含むどんなコンテンツでもよい。眼の中心のロケーションは、例えば、ビュアーがビデオ画像を見ている間にウェブカムで収集した、ビュアーの眼の一以上の画像を分析することにより検出される。眼の画像は、ビュアーの顔の画像であってもよく、その画像において、本技術分野の当業者により知られた任意の方法で眼を検出してもよい。眼の中心のロケーションは、例えば、Hough変換(HT)法、又はエッジ(傾斜)検出及び/又は機械学習アルゴリズムに基づく任意の方法を用いて検出される。
有利な一変形例によれば、眼の中心ロケーションは、眼画像(すなわち、ビュアーの画像の、眼を含む部分)をヒートマップに変換し、1つのヒートマップを1つの眼画像に関連付けることにより検出される。ヒートマップは、有利にも、RGB眼画像のYCbCr色空間で表現されたピクセル画像への変換に対応する。一変形例によれば、ヒートマップは、RGB眼画像のYUV色空間又はRGB色空間で表されたピクセル画像への変換に対応する。例えば、式1で計算した値は、ヒートマップの各ピクセルに関連する。ヒートマップの第1のピクセル212であって(例えば0.98と1の間の任意の値に等しい)第1の閾値T1より大きい関連値を有するものを選択する。これの座標は、例えば、RAMタイプ又はGRAMタイプのメモリに記憶される。第1のピクセルの近傍に属す第2のピクセル213を選択する。選択される第2のピクセルは、第1のピクセルの近傍のピクセルであって、(例えば、0.90と0.95の間の任意の値に等しい)第2の閾値T2より大きい関連値を有する。その座標は、例えば、RAMタイプ又はGRAMタイプのメモリに記憶される。その後、例えば、式(3)と式(4)とを用いて、眼の中心の座標を、第1と第2のピクセル座標の加重平均として決定する。カラーキューに基づくこの変形例の利点は、この方法が単純であり、この変形例により示唆される計算が速く、それにより例えばリアルタイム実装が可能となることである。
他の一変形例によれば、眼の中心ロケーションの計算に用いる第1と第2のピクセルの決定前に、眼画像の変換により求められるヒートマップを、例えばガウシアンフィルタ又は拡張カルマンフィルタでフィルタする。かかるフィルタリングにより、ヒートマップからいくらかのノイズを除去して、なめらかにできる。ガウシアンフィルタの利用には、検出結果の安定化(すなわち、例えば、まぶた、メガネ、反射などによる誤検出の防止)という利点がある。
その後、ステップ72において、ステップ71を参照してここで説明したように、検出された眼の中心ロケーションを用いて、及び人の注視点分布の中心バイアス特性に基づくマッピング関数を用いて、ビュアーの第1の注視点位置を決定する。検出された眼の中心ロケーションにかかるマッピング関数を用いると、注視点位置の決定に用いるシステムを校正する必要性を回避できる。かかる校正は、普通は、注視点決定前に(例えば、一連のテスト画像を用いて)ユーザにより行われるものである。
一変形例によれば、第1の注視点位置の決定は、その第1の注視点位置を決定する時にビュアーが見ているビデオ画像から計算される特徴マップ(saliency map)を用いて決定される第2の注視点位置を用いて精密化(refine)される。その後、第1注視点位置と第2注視点位置との合成/融合による第3の注視点位置を求める。第3の注視点位置は、例えば、第1と第2の注視点位置を平均して、又は異なる加重を割り当てた第1と第2の注視点位置を平均して計算する。他の一変形例によれば、第1の注視点位置の決定に用いる式のパラメータを調節するため、特徴マップのばらつきを用いる。第1注視点位置と第2注視点位置の「融合(fusion)」との表現は、第1注視点位置の計算に用いられるパラメータの平均化、加重平均化、又は調節を意味するものと解釈してよい。
一変形例によれば、第1注視点位置を決定するため、パーティクルフィルタリングを実装する。パーティクルフィルタリングにより、現在の第1注視点位置を計算するときに、(時間的な観点で)その前に決定された第1注視点位置の結果を考慮できる。
他の一変形例によれば、パーティクルフィルタリング法は、第1注視点位置の決定、及び第2注視点位置の決定も用いて実装される。
他の一変形例によれば、パーティクルフィルタリング法は、第1注視点位置の決定、及び第2注視点位置の決定も用いて実装される。
別の一変形例によれば、ビュアーの第1注視点位置を決定する際、ビュアーの頭の動きを考慮する。頭の動きは、例えば、現在の眼の中心ロケーションとその平均値との間の差分がかなり大きいときに検出される、例えば:
[外25]
ここで、Tは、検出されたビュアーの顔のサイズにより黙示的に求められる、ユーザとディスプレイとの間の距離に比例して設定される。
[外25]
ここで、Tは、検出されたビュアーの顔のサイズにより黙示的に求められる、ユーザとディスプレイとの間の距離に比例して設定される。
ステップ71と72は、有利にも、新しく受け取られた又は収集された各眼画像に対して繰り返される(reiterated)。
当然、本発明は上記の実施形態に限定されない。
特に、本発明は、方法に限定されず、この方法を実施する任意の装置にも拡張され、特に少なくとも1つのCPU及び/又は少なくとも1つのGPUを有する任意の装置にも拡張される。方法ステップの実装に必要な計算の実装は、shaderタイプのマイクロプログラムにおける実装に限定されず、任意のプログラムタイプ、例えばCPUタイプのマイクロプロセッサにより実行できるプログラムにおける実装にも拡張される。
本発明は、注視の尤度を推定する方法(及びそれをするように構成された装置)にも関係する。本発明は、さらに、決定された注視点位置の結果によりビュアーにより見られるビデオ画像のコンテンツを調節(adapt)する方法と、決定された中止点位置を用いて、眼でユーザインタフェースを制御する方法とに関する。
本発明は、注視の尤度を推定する方法(及びそれをするように構成された装置)にも関係する。本発明は、さらに、決定された注視点位置の結果によりビュアーにより見られるビデオ画像のコンテンツを調節(adapt)する方法と、決定された中止点位置を用いて、眼でユーザインタフェースを制御する方法とに関する。
ここで説明した実施形態は、方法またはプロセス、装置、またはソフトウェアプログラム、データストリーム、又は信号として実施できる。1つの形式の実施形態の場合で説明した(例えば、方法または装置としてのみ説明した)場合であっても、説明した機能の実施形態は他の形式(例えば、プログラム)でも実施できる。装置は例えば適切なハードウェア、ソフトウェア、及びファームウェアで実施可能である。上記の方法は、例えばプロセッサ等の装置で実施可能である。プロセッサとは、処理装置一般を指し、例えばコンピュータ、マイクロプロセッサ、集積回路、プログラマブル論理装置などを指す。プロセッサは、エンドユーザ間での情報通信を行うスマートフォン、タブレット、コンピュータ、携帯電話、ポータブル/パーソナル・デジタル・アシスタント(PDA)などの装置、及びその他の通信装置も含む。
ここに説明した様々なプロセスやフィーチャの実装は、異なる様々な機器やアプリケーションで実施してもよい。具体的には、例えば、データ符号化、データ復号、ビュー生成、テクスチャ処理、その他の画像処理、及び関係テクスチャ情報及び/又は奥行き情報に関連する機器やアプリケーションで実施してもよい。かかる装置の例には、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を供給するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、セルラー電話、PDA、その他の通信装置が含まれる。言うまでもなく、上記の機器は可動なものであってもよいし、移動体に組み込まれていてもよい。
また、上記の方法は、プロセッサによって実行される命令で実施することができる。かかる命令(及び/又は、一実施形態で生成されるデータ値)は、例えば集積回路、ソフトウェア担体その他の記憶装置、例えば、ハードディスク、コンパクトディスク(CD)、光ディスク(例えば、デジタルバーサタイルディスクやデジタルビデオディスクと呼ばれることが多いDVDなど)、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)に記憶できる。上記の命令は、プロセッサ読み取り可能媒体上に化体されたアプリケーションプログラムであってもよい。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又はこれらの組み合わせであってもよい。命令は、例えば、オペレーティングシステム、アプリケーション、又はこれらの組み合わせに見いだすことができる。それゆえ、プロセッサは、プロセスを実行するように構成された装置、及びプロセスを実行する命令を記憶したプロセッサ読み取り可能媒体(記憶装置など)を含む装置の両方として特徴付けられる。さらに、プロセッサ読み取り可能媒体は、命令に加えて、又は命令の替わりに、実施形態により生成されたデータ値を記憶することができる。
当業者には言うまでもないが、実施形態は、例えば記憶または送信され得る情報を担うようフォーマットされた種々の信号を生成することもできる。情報には、例えば、方法を実行する命令や、説明した実施形態により生成されるデータが含まれ得る。例えば、信号は、データとして、説明した実施形態のシンタックスを書き込み又は読み出しする規則を担うようにフォーマットされてもよいし、又はデータとして、説明した実施形態により書き込まれた実際のシンタックス値を担うようにフォーマットされてもよい。かかる信号は、(例えば、無線周波数のスペクトルを用いた)電磁波やベースバンド信号などとしてフォーマットし得る。フォーマット化には、例えば、データストリームの符号化、符号化したデータストリームによるキャリアの変調が含まれる。信号が担う情報は例えばアナログ情報やデジタル情報であってもよい。知られているように、信号は様々な異なる有線リンクまたは無線リンクで送信できる。信号はプロセッサ読み取り可能媒体に記憶してもよい。
実施形態を説明した。しかし、言うまでもなく様々な修正を行うことができる。例えば、別の実施形態の要素を組み合わせ、補充し、修正し、または削除して、他の実施形態を形成してもよい。また、当業者には言うまでもないが、開示した構成やプロセスを他の構成やプロセスで置き換えてもよく、その結果の実施形態が少なくとも実質的に同じ機能を果たし、少なくとも実質的に同じように、開示した実施形態と実質的に同じ結果を達成する。したがって、本願ではこれらの実施形態及びその他の実施形態を想定している。
本発明はリアルタイムアプリケーションで用いることもできる。図6を参照して説明した装置6は、キーボード、マウス、ジョイスティック、その他のコマンド導入のためのモードなどのインターラクション手段を備えている。音声認識も可能である。
Claims (15)
- 注視点推定の方法であって、
スクリーンに表示された少なくとも1つのビデオ画像を見ているビュアーの少なくとも1つの眼画像の少なくとも1つの眼の少なくとも1つの中心ロケーションを検出するステップと、
前記少なくとも1つの眼の少なくとも1つの検出された中心ロケーションと、人の注視点分布の中心バイアス特性に基づくマッピング関数とを用いて、前記スクリーンにおける前記ビュアーの少なくとも1つの第1注視点位置を決定するステップと、
を有する方法。 - 前記検出するステップは、さらに、
前記少なくとも1つの眼画像を少なくとも1つのヒートマップに変換するステップと、
前記少なくとも1つのヒートマップの、所定の第1閾値より大きい値を有する第1ピクセルを決定するステップと、
所定の第2閾値より大きい値を有する、前記第1ピクセルの近傍にある第2ピクセルを決定するステップと、
前記少なくとも1つの眼の少なくとも1つの中心ロケーションを、決定された前記第1及び第2ピクセルのロケーションの加重平均に対応するものとして計算するステップとを有する、
請求項1に記載の方法。 - 前記少なくとも1つのヒートマップは、前記変換の出力として、色空間YCbCrで表される、請求項2に記載の方法。
- 前記検出するステップは、さらに、前記少なくとも1つのヒートマップのガウシアンフィルタリングを含み、前記第1及び第2ピクセルは前記ガウシアンフィルタリング後に決定される、請求項2または3に記載の方法。
- 前記方法は、さらに、
前記少なくとも1つのビデオ画像に関連する少なくとも1つの特徴マップにより、前記スクリーンにおける前記ビュアーの少なくとも1つの第2注視点位置を決定するステップと、
前記スクリーンにおける前記ビュアーの少なくとも1つの第3注視点位置を決定するステップであって、前記少なくとも1つの第3注視点位置は、前記少なくとも1つの第1注視点位置と前記少なくとも1つの第2注視点位置との融合に対応する、ステップとを有する、
請求項1ないし4いずれか一項に記載の方法。 - 前記少なくとも1つの第1注視点位置は、パーティクルフィルタリング法と、時間的観点で前に決定された少なくとも1つの他の第1注視点位置とを用いて決定される、
請求項1ないし5いずれか一項に記載の方法。 - 前記少なくとも1つの第3注視点位置は、時間的観点で前に決定された少なくとも1つの他の第1注視点位置と少なくとも1つの他の第2の注視点位置とともにパーティクルフィルタリング法を用いて決定される、請求項5に記載の方法。
- 前記ビュアーの前記少なくとも1つの第1注視点位置は、前記ビュアーの頭の動きを考慮して決定される、請求項1ないし7いずれか一項に記載の方法。
- ビュアーの注視点を決定するように構成された装置であって、少なくとも1つのプロセッサを有し、該プロセッサは、
スクリーンに表示された少なくとも1つのビデオ画像を見ているビュアーの少なくとも1つの眼画像における少なくとも1つの眼の中心ロケーションを検出し、前記少なくとも1つの眼画像は前記少なくとも1つの眼の表示を含み、
前記少なくとも1つの眼の少なくとも1つの検出された中心ロケーションと、人の注視点分布の中心バイアス特性に基づくマッピング関数とを用いて、前記スクリーンにおける前記ビュアーの少なくとも1つの第1注視点位置を決定するように構成される、
装置。 - 前記少なくとも1つのプロセッサは、さらに、
前記少なくとも1つの眼画像を少なくとも1つのヒートマップに変換し、
前記少なくとも1つのヒートマップの、所定の第1閾値より大きい値を有する第1ピクセルを決定し、
所定の第2閾値より大きい値を有する、前記第1ピクセルの近傍にある第2ピクセルを決定し、
前記少なくとも1つの眼の少なくとも1つの中心ロケーションを、決定された前記第1及び第2ピクセルのロケーションの加重平均に対応するものとして計算するように構成される、
請求項9に記載の装置。 - 前記少なくとも1つのプロセッサは、さらに、前記少なくとも1つのヒートマップをガウシアンフィルタでフィルタリングするように構成される、
請求項9または10に記載の装置。 - 前記少なくとも1つのプロセッサは、さらに、
前記少なくとも1つのビデオ画像に関連する少なくとも1つの特徴マップにより、前記スクリーンにおける前記ビュアーの少なくとも1つの第2注視点位置を決定し、
前記スクリーンにおける前記ビュアーの少なくとも1つの第3注視点位置を決定し、前記少なくとも1つの第3注視点位置は、前記少なくとも1つの第1注視点位置と前記少なくとも1つの第2注視点位置との融合に対応する、ように構成される、
請求項9ないし11いずれか一項に記載の装置。 - 前記少なくとも1つのプロセッサは、さらに、パーティクルフィルタリング法を実行するように構成される、請求項9ないし12いずれか一項に記載の装置。
- 前記少なくとも1つのプロセッサは、前記ビュアーの頭の動きを検出するようにされる、請求項9ないし13いずれか一項に記載の装置。
- コンピュータで実行されると、前記コンピュータに、請求項1ないし8いずれか一項に記載の方法のステップを実行させるコンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13305219 | 2013-02-27 | ||
EP13305219.1 | 2013-02-27 | ||
EP13306351.1 | 2013-09-30 | ||
EP13306351 | 2013-09-30 | ||
PCT/EP2014/053349 WO2014131690A1 (en) | 2013-02-27 | 2014-02-20 | Method and device for calibration-free gaze estimation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016515242A true JP2016515242A (ja) | 2016-05-26 |
JP2016515242A5 JP2016515242A5 (ja) | 2017-03-09 |
Family
ID=50179590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015559469A Withdrawn JP2016515242A (ja) | 2013-02-27 | 2014-02-20 | 校正不要な注視点推定の方法と装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9965860B2 (ja) |
EP (1) | EP2962251A1 (ja) |
JP (1) | JP2016515242A (ja) |
KR (1) | KR20150122666A (ja) |
CN (1) | CN105027144A (ja) |
WO (1) | WO2014131690A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI662834B (zh) * | 2016-12-30 | 2019-06-11 | 瑞典商安訊士有限公司 | 凝視控制位元率 |
JP2019126425A (ja) * | 2018-01-22 | 2019-08-01 | 日本電信電話株式会社 | 推定装置、その方法、及びプログラム |
US11341680B2 (en) | 2018-03-30 | 2022-05-24 | Preferred Networks, Inc. | Gaze point estimation processing apparatus, gaze point estimation model generation apparatus, gaze point estimation processing system, and gaze point estimation processing method |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10169661B2 (en) * | 2014-03-28 | 2019-01-01 | International Business Machines Corporation | Filtering methods for visual object detection |
CN106415442A (zh) * | 2014-05-08 | 2017-02-15 | 索尼公司 | 便携式电子设备和控制便携式电子设备的方法 |
WO2016097919A1 (en) * | 2014-12-16 | 2016-06-23 | Koninklijke Philips N.V. | Gaze tracking system with calibration improvement, accuracy compensation, and gaze localization smoothing |
JP2016191845A (ja) * | 2015-03-31 | 2016-11-10 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN104834852B (zh) * | 2015-05-04 | 2018-07-13 | 惠州Tcl移动通信有限公司 | 一种移动终端基于高质量眼纹图像进行解锁的方法及系统 |
CN106293045B (zh) * | 2015-06-30 | 2019-09-10 | 北京智谷睿拓技术服务有限公司 | 显示控制方法、显示控制装置及用户设备 |
CN106293046B (zh) * | 2015-06-30 | 2020-03-17 | 北京智谷睿拓技术服务有限公司 | 信息处理方法、信息处理装置及用户设备 |
CN104951084B (zh) * | 2015-07-30 | 2017-12-29 | 京东方科技集团股份有限公司 | 视线追踪方法及装置 |
JP6918781B2 (ja) * | 2015-08-21 | 2021-08-11 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 眼ポーズ測定を用いた眼瞼形状推定 |
NZ741863A (en) | 2015-10-16 | 2019-05-31 | Magic Leap Inc | Eye pose identification using eye features |
CN106709404B (zh) * | 2015-11-16 | 2022-01-04 | 佳能株式会社 | 图像处理装置及图像处理方法 |
WO2017153355A1 (de) * | 2016-03-07 | 2017-09-14 | SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH | Verfahren und vorrichtung zum durchführen einer blickabbildung |
US10423830B2 (en) * | 2016-04-22 | 2019-09-24 | Intel Corporation | Eye contact correction in real time using neural network based machine learning |
KR102564479B1 (ko) * | 2016-11-22 | 2023-08-07 | 삼성전자주식회사 | 사용자의 눈을 위한 3d 렌더링 방법 및 장치 |
CN106598258B (zh) * | 2016-12-28 | 2019-04-16 | 北京七鑫易维信息技术有限公司 | 注视点映射函数确定方法及装置、注视点确定方法及装置 |
CN107422844B (zh) * | 2017-03-27 | 2020-07-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
JP7009882B2 (ja) * | 2017-09-26 | 2022-01-26 | 富士通株式会社 | 表示プログラム、表示方法、及び表示装置 |
US10957069B2 (en) * | 2017-09-29 | 2021-03-23 | Tobii Ab | Head pose estimation from local eye region |
CN108053444B (zh) * | 2018-01-02 | 2021-03-12 | 京东方科技集团股份有限公司 | 瞳孔定位方法及装置、设备和存储介质 |
WO2019154511A1 (en) | 2018-02-09 | 2019-08-15 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters using a neural network |
US11194161B2 (en) | 2018-02-09 | 2021-12-07 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters |
US11393251B2 (en) | 2018-02-09 | 2022-07-19 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters |
US11684305B2 (en) | 2018-06-02 | 2023-06-27 | Seyedhesam Sadeghian-Motahar | Electrode array configuration on a flexible substrate for electro-oculogram recording |
CN108932532A (zh) * | 2018-07-11 | 2018-12-04 | 杭州电子科技大学 | 一种针对视频显著性图预测所需的眼动数据数目建议方法 |
WO2020147948A1 (en) | 2019-01-16 | 2020-07-23 | Pupil Labs Gmbh | Methods for generating calibration data for head-wearable devices and eye tracking system |
US20200250736A1 (en) * | 2019-02-05 | 2020-08-06 | Adroit Worldwide Media, Inc. | Systems, method and apparatus for frictionless shopping |
US11786694B2 (en) | 2019-05-24 | 2023-10-17 | NeuroLight, Inc. | Device, method, and app for facilitating sleep |
US11676422B2 (en) | 2019-06-05 | 2023-06-13 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters |
CN112183160B (zh) * | 2019-07-04 | 2024-08-13 | 北京七鑫易维科技有限公司 | 视线估计方法及装置 |
US11169604B2 (en) | 2019-11-15 | 2021-11-09 | Tobii Ab | Determination of gaze calibration parameters |
CN110992250B (zh) * | 2019-11-29 | 2024-06-14 | 京东方科技集团股份有限公司 | 一种实现高分辨率显示的方法及装置 |
CN114630099B (zh) * | 2020-12-14 | 2024-04-05 | 京东方科技集团股份有限公司 | 显示方法、装置、系统及计算机可读存储介质 |
US11847248B2 (en) | 2020-12-16 | 2023-12-19 | Cigna Intellectual Property, Inc. | Automated viewpoint detection and screen obfuscation of secure content |
US12118825B2 (en) | 2021-05-03 | 2024-10-15 | NeuraLight Ltd. | Obtaining high-resolution oculometric parameters |
US20220391012A1 (en) * | 2021-06-08 | 2022-12-08 | Roel Vertegaal | Systems, methods, and media for eye tracking using statistically derived linear functions |
CN113408511B (zh) * | 2021-08-23 | 2021-11-12 | 南开大学 | 一种确定注视目标的方法、系统、设备及存储介质 |
US20230109171A1 (en) * | 2021-09-28 | 2023-04-06 | Honda Motor Co., Ltd. | Operator take-over prediction |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3069654A (en) | 1960-03-25 | 1962-12-18 | Paul V C Hough | Method and means for recognizing complex patterns |
JP3361980B2 (ja) * | 1997-12-12 | 2003-01-07 | 株式会社東芝 | 視線検出装置及びその方法 |
US20100208078A1 (en) * | 2009-02-17 | 2010-08-19 | Cisco Technology, Inc. | Horizontal gaze estimation for video conferencing |
KR20120118383A (ko) * | 2011-04-18 | 2012-10-26 | 삼성전자주식회사 | 이미지 보정 장치 및 이를 이용하는 이미지 처리 장치와 그 방법들 |
WO2013059940A1 (en) * | 2011-10-27 | 2013-05-02 | Tandemlaunch Technologies Inc. | System and method for calibrating eye gaze data |
CN102520796B (zh) * | 2011-12-08 | 2014-10-08 | 华南理工大学 | 一种基于逐步回归分析映射模型的视线跟踪方法 |
-
2014
- 2014-02-20 KR KR1020157023391A patent/KR20150122666A/ko not_active Application Discontinuation
- 2014-02-20 US US14/769,814 patent/US9965860B2/en not_active Expired - Fee Related
- 2014-02-20 WO PCT/EP2014/053349 patent/WO2014131690A1/en active Application Filing
- 2014-02-20 EP EP14706534.6A patent/EP2962251A1/en not_active Withdrawn
- 2014-02-20 CN CN201480010593.8A patent/CN105027144A/zh active Pending
- 2014-02-20 JP JP2015559469A patent/JP2016515242A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI662834B (zh) * | 2016-12-30 | 2019-06-11 | 瑞典商安訊士有限公司 | 凝視控制位元率 |
JP2019126425A (ja) * | 2018-01-22 | 2019-08-01 | 日本電信電話株式会社 | 推定装置、その方法、及びプログラム |
US11341680B2 (en) | 2018-03-30 | 2022-05-24 | Preferred Networks, Inc. | Gaze point estimation processing apparatus, gaze point estimation model generation apparatus, gaze point estimation processing system, and gaze point estimation processing method |
US11748904B2 (en) | 2018-03-30 | 2023-09-05 | Preferred Networks, Inc. | Gaze point estimation processing apparatus, gaze point estimation model generation apparatus, gaze point estimation processing system, and gaze point estimation processing method |
Also Published As
Publication number | Publication date |
---|---|
KR20150122666A (ko) | 2015-11-02 |
WO2014131690A1 (en) | 2014-09-04 |
US9965860B2 (en) | 2018-05-08 |
EP2962251A1 (en) | 2016-01-06 |
US20160005176A1 (en) | 2016-01-07 |
CN105027144A (zh) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016515242A (ja) | 校正不要な注視点推定の方法と装置 | |
US10109056B2 (en) | Method for calibration free gaze tracking using low cost camera | |
CN110460837B (zh) | 具有中央凹显示器和注视预测的电子设备 | |
Park et al. | Towards end-to-end video-based eye-tracking | |
CN109086726B (zh) | 一种基于ar智能眼镜的局部图像识别方法及系统 | |
Tonsen et al. | A high-level description and performance evaluation of pupil invisible | |
AU2015264699B2 (en) | Eye gaze tracking based upon adaptive homography mapping | |
Hosp et al. | RemoteEye: An open-source high-speed remote eye tracker: Implementation insights of a pupil-and glint-detection algorithm for high-speed remote eye tracking | |
US10254831B2 (en) | System and method for detecting a gaze of a viewer | |
Sun et al. | Real-time gaze estimation with online calibration | |
Toivanen et al. | Probabilistic approach to robust wearable gaze tracking | |
Wan et al. | Robust and accurate pupil detection for head-mounted eye tracking | |
Modi et al. | Real-time camera-based eye gaze tracking using convolutional neural network: a case study on social media website | |
Cao et al. | Gaze tracking on any surface with your phone | |
CN113168700A (zh) | 电子装置及其控制方法 | |
Dostal et al. | Estimating and using absolute and relative viewing distance in interactive systems | |
Yang et al. | vGaze: Implicit saliency-aware calibration for continuous gaze tracking on mobile devices | |
US9501710B2 (en) | Systems, methods, and media for identifying object characteristics based on fixation points | |
Zhang et al. | Eye gaze estimation and its applications | |
Khaleel et al. | Best low-cost methods for real-time detection of the eye and gaze tracking | |
Funes Mora et al. | Eyediap database: Data description and gaze tracking evaluation benchmarks | |
EP2685351A1 (en) | Method for calibration free gaze tracking using low cost camera | |
CN116430992A (zh) | 针对视线追踪的隐式校准方法和装置 | |
KR20190143287A (ko) | 홍채와 촬영 장치간 거리 예측 방법 및 이를 수행하기 위한 단말 | |
Elahi et al. | Webcam-based accurate eye-central localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170202 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20170323 |