JP2016515431A

JP2016515431A - 視線追跡のための方法

Info

Publication number: JP2016515431A
Application number: JP2016505925A
Authority: JP
Inventors: エリックレインダース，クリスティアーン
Original assignee: コジセンエッセエッレエッレ
Priority date: 2013-04-08
Filing date: 2014-04-08
Publication date: 2016-05-30
Anticipated expiration: 2034-04-08
Also published as: CN105247539A; CN105247539B; TW201506806A; US20140300538A1; JP6288530B2; IL241948B; US9811157B2; EP2790126B1; TWI594193B; WO2014167491A1; AU2014252252B2; AU2014252252A1; US20180032135A1; KR20150143584A; EP2790126A1; HK1214668A1

Abstract

高性能を実現するのと同時に、プロセッサの関与を制限し、かつ、電力を低減させる必要があり、それによって、特定的ではあるが広範にわたって携帯電話の使用に適合する視線追跡のための方法が記載されている。当該方法は：カメラを通して顔のデジタルビデオストリームを得るステップであって、目または瞳は空間定義域における対応するボックスにおいて識別され、そのサイズは前記カメラに対する顔の位置および向きの関数であり、ボックスのコンテンツはさらなる計算のための入力である、ステップと；ボックスのコンテンツを周波数ドメインに転送するステップと；周波数ドメインに転送されたボックスに、１つまたは複数の疎ゾーンを加えて、周波数ドメイン、および、疎ゾーンを少なくとも部分的に重ね合わせるフィルタリングカーネルに転送されたボックス内のエリアの小部分を共に包含するステップと；それぞれの疎ゾーン内の周波数データと前記カーネルとの乗算を行って、その結果を組み合わせてそれぞれの疎ゾーンの単一値にするステップと；各フレームに対して前記単一値を得る上記ステップを繰り返すステップであって、単一値の変動は時間に伴う視線方向の変化の典型である、ステップと、を含む。【選択図】図１

Description

本開示は、スマートフォン、タブレット、パーソナルコンピュータ、テレビ画面などのさまざまなデバイスにおいて、または、車両などの任意の種類の装置の動作を制御するために視線を使用することができる任意の環境において構築しやすい、視線追跡のための方法に関する。一般的に言えば、本発明の視線追跡のための方法は、対話型インターフェースおよびオペレーティングシステムに応用されることを目的とする。

本開示はまた、少なくとも、ビデオストリームを生じさせるデジタルカメラを備えるデバイスを動作させて、当該デバイスのカメラおよびプロセッサ双方を通して前記ビデオストリームにおいて顔が捕獲される時に視線追跡を得るための方法に関する。

視線パターンの分析を使用した現在の研究および製品の大部分は、制御された実験室タイプの状況で実行される。

例えば、ウェブサイトレイアウトの有効性を判断するための多くの研究、つまり、被験者によるこのような制御されたテストが行われ、それらの既知の問題点は、これらの被験者にテストを受けていることを意識させるため、彼ら被験者の行動を変化させ、かつ、実験から所望される結果のタイプに影響を及ぼすことである。

現在の視線追跡ソリューションは、ブロッブ検出などのアルゴリズムによって追跡可能な目内および目上に反射をもたらす赤外光の投射を使用して主に機能する。追加的な赤外源によってグリント数を増加させて、追跡を改善し、かつ、頭の動きに対するいくらかの許容範囲を可能にすることができる。

赤外線を使用した視線追跡は、典型的には、リモートセットアップを必要とし、この場合、カメラはユーザから離すようにして、通常は画面下に設置される。画面の四隅を見る時グリントが明確に可視である位置に赤外線照射用光源を設置する必要がある。

視線追跡のために赤外線を使用するソリューションは、カメラに対する頭の動きの合理的なボックスを有するように多数の赤外線投射を必要とする。より大きいボックスを作成する場合でも、照明条件のいずれの変更も、再較正を必要とすることを意味することになる。

赤外反射を使用しないソリューションの大部分は、いわゆるアクティブアピアランスモデルなどの方法によって、顔の特徴の認識および追随を使用した頭追跡に基づく。しかしながら、方向指示入力のために頭の向きの追跡を使用することは、頭の動きに関わらず目の方向のみの追随である視線追跡と同じことではない。

さらに、既知の方法は、視線最高位置の分類を使用して、上／下／左−右の向きで目間の差異を認識するが、このようなソリューションは、正確な視線追跡とはどこか本当に異なる、上側−下側または左−右のスクロール方向を識別するためにのみ使用可能である。

赤外線を使用しない方法は、精度を高めるために、どのような場合でも制限されたままである立体視を使用することを求めることが多いが、ハードウェアをより複雑にしている。

視線追跡のための他の非赤外線方法は、実質的に、眉毛、顎、瞳、目尻などの顔の特徴の認識に基づいている。それらの方法は、必然的に、目尻を認識する際の困難さによって精度が低くなり、光変化およびさまざまなタイプの顔に対する堅牢性が低くなる。それらの方法はまた、顔全てが可視であることを必要とする。また、このような方法によって、上側‐下側の動きの精度は低くなるが、これは、相対的な瞳の垂直の動きが小さく、まぶたの位置がそれ自体目の動きに適応することにもなるからである。

さらに、モバイルデバイスにおける赤外線ハードウェアの一体化を妨げる多数の障壁がある。赤外線を使用して視線追跡を一体化することは、費用がかさみ、追加的なバッテリの消耗を意味する。その上に、高い研究開発費によって、一般的に小型のハードウェアを作成することが要求され、現状技術のハードウェアは、特に、１赤外光源を上回るかなり強力な赤外光が必要とされるため、モバイルデバイスに一体化させるには依然大きすぎる。

立体視の追加的なビデオカメラを使用する場合も、ソフトウェアソリューションをはるかに望ましい形にするように、モバイルデバイスにハードウェアの費用および追加的なバッテリの消耗が加わるため、同様である。

赤外光への短い距離からの継続した露出によって、目が損傷してしまう可能性があるかどうかを結論付ける最も確実な研究はまだないが、あるユーザにとって１日につき数時間、赤外光に露出する時間に比例した損傷が通常考慮される時、顧客は、年少の子供達がより早くモバイルデバイスのユーザになる事実も考慮した懸念を抱いている恐れがある。

立体視などの方法を使用してこの精度を改善させるが、視線追跡の分野におけるいずれの専門家も、瞳の位置および目尻を完璧に認識しても、画素位置に左右される計算からもたらされる視線方向の精度および解像度は常に制限され過ぎて実際に使用することはできなくなり、空間定義域において、方法は本質的に緩慢になる。この種類の方法は、視線方向の変更または頭の動きによって、画面上の瞳の動きの間の差異を認識する際に苦労することになる。また、目の上−下の動きを認識することは、瞼は瞳よりも目の視像に対してかなりの影響を及ぼすため、このような方法では厄介となる。

目への赤外線投射を使用する技法の潜在的な精度はまた、目の内部および目の外部上の曲率に関する不確実係数によって制限される。この理由のため、赤外線投射を使用した方法は、いくつかの赤外線投射器および慎重な較正手順を必要とすることが多い。また、光条件は較正後安定させたままにすること、および、ユーザは画面の前で比較的小さい動きのボックスにとどまることが必要とされる。これによって、目における赤外線グリントの認識を使用する視線追跡のためのモバイルデバイスにおける赤外線の実装は、モバイルデバイス上の完全移動性の現実世界の使用にとって非実用的になる。

視線追跡のための赤外線投射の使用に関わる別の顕著な欠点を考慮すると、視線追跡のためのソフトウェアのみのソリューションも必要とされる。すなわち、カメラ赤外線フィルタは、目上の赤外線反射の捕獲を可能にするために、カメラレンズから除去されなければならない。赤外線フィルタの除去は、デバイスによって取られた写真の質を劣化させることになる。モバイルデバイスのユーザによって取られた写真の質に重点を置くことを考慮すると、このことはまた、視線追跡のための赤外線投射の適応を大きく制限させる要因である。

どのような場合でも、モバイル画面から約３０センチメートルの距離にある顔によって、画面自体のそばに設置されたカメラによって捕獲された画像の少数の画素に対応して、モバイルデバイスの小さな画面の左右に動く視線によって、瞳は画面上を移動しているだけになることを、視線追跡に関する当業者は認識する。さらに、空間定義域における画像処理に基づく方法を使用する試みでは、瞳が認識されるだけでなく目尻も明確に識別されなければならない。

しかしながら、いくつかのエラー画素を迅速にもたらすＶｉｏｌａ−Ｊｏｎｅｓなどの認識共通方法では、目尻を認識するのは難しい。

オブジェクト認識方法の大部分は、大部分がグレースケールに変えられる空間定義域における画素レベルの情報の分析を使用する。ＶｉｏｌａＪｏｎｅｓアルゴリズムによる特徴の抽出といったこのような方法は、アダブーストなどのカスケード分類器の使用を必要とする。アクティブ形状モデルなどの幾何学的特徴を抽出する他の方法は、分類された特徴点と３次元形状モデルとの間の相関に依存している。これらの方法は、本質的に、比較的多量の計算、および、最適化するための多くの作業を必要とする。

共通して使用される他の方法は、例えば、隠れマルコフモデルまたは逆伝搬神経回路網であるが、双方とも複雑である。

このような方法の全てはまた、一般的に工学技術設計および最適化が難しく、マルチコア処理またはＧＰＵ技術における進歩などの最新のハードウェア開発を追随しかつ活用するように適応させるためにかなり多くの作業を要する。

そのため、数個の画素のエラーと共に空間定義域において瞳の位置を認識することは、合計で数個の画素にしかならない目尻に対する瞳の動きを捕獲するために、いくつかのエラー画素を迅速に有することになる目尻認識と比較されなければならない。

このことは、精度に関して、頭の向きおよび頭の動きの効果を考慮さえしていない。

従って、空間定義域におけるこれらの計算は、瞳の位置と目尻の位置との間の差異からモバイルデバイス上の視線方向の計算を実際的に不可能にしてしまうことは明らかであろう。

それ故に、周波数ドメイン内の計算から得られる情報の使用による、完全ソフトウェアソリューションにおけるモバイルデバイス上で必要とされる視線の精度および解像度を得るためには、現実的な選択肢だけしかない。

現在のインターフェースおよびオペレーティングシステムは、キーボードおよびタッチ画面の使用を中心にして設計される。しかしながら、タッチを使用することは、ユーザが必要としている緩慢な多数の動作によって、ユーザからデバイスへ渡るユーザコマンドの狭帯域の情報だけが可能である。これに関連して、視線は、タッチと比較して、ユーザにとって、ずっと早く、かつ、より直観的な相互作用となる。

例として、視線制御によって、オペレーティングシステムは、ユーザがどれだけ早く画面上の情報を追随できるかによって、ユーザに対して情報の流れを適応させることを可能にすることができる。オペレーティングシステムは、情報が流される画面の方への視線の追跡に基づいて、ユーザが見たい思うものの情報の流れの速度を調節しようとする。

この種類の視線制御は、ユーザにより速いナビゲーションを与えることによって、はるかに明確なやり方でデータを示すインターフェースおよびオペレーティングシステムをもたらすことができる。

視線追跡制御を使用して、対話型画面を通して入力および出力の両方が生じるいわゆる画面技術は、例えば、人々が見ている時および場所の高解像度の画像のみを有することによって、さらに一歩先を行くことができ、その結果、画面自体によって消費されるエネルギーは少なくなり、画像出力の制御はより効率的になる。

この特徴は、例えば、３次元効果のための特別なメガネを使用する必要なく、３次元効果をもたらすこのやり方で、閲覧者が画面上を見る場合だけの３次元キューイング効果を有することによって、画面リアリズムを高めるために使用されてもよい。

例えば、ビデオゲームをしているユーザが、ユーザが見ている画面部分上の高解像度の画像を有する可能性があるゲームをする際に、画面グラフィックに対して視線方向追跡を使用することができる一方、速度を中心にしたぼやけ効果がゲームリアリズムを改善させるために追加される。

達成されるべき別の必要性は、現実世界の完全な移動の使用時のモバイル広告の有効性をリアルタイムで知ることによって表される。このようなアルゴリズムはまた、クリックによる支払いの代わりに視線による支払いなどのソリューションを可能にすることになる。

さらに、身体障害者に対する新しい安価なソリューションに対する必要性もかなりある。

視線追跡を使用するこの次の世代のオペレーティングシステムおよびデバイスについて、より高い精度を可能にするために使用されている立体視と共に、例えば、赤外線投射器、または、立体視用の追加的なカメラを一体化させる必要性を回避するために、ソフトウェアのみのソリューションはかなり好適と思われる。

このようなデバイスは、例示の目的のみを有する一覧では、スマートフォン、タブレット、対話型メガネなどのウェアラブルハードウェアとすることができるが、将来の住居および職場、または、公共の場における任意の他の対話型オブジェクトとすることもできる。これらのデバイスは、対話型テレビ、知的対話型住居、および、自動車安全システムなどの特別使用に関わる可能性がある。

このような技術の実装は、モバイルデバイスに制限されず、基本的に、任意のデバイスまたはネットワーク接続されたデバイスに拡張可能であり、この場合、これらデバイス上のアルゴリズムで再プログラム可能ハードウェアが使用され、かつ、ビデオカメラ入力を追加することができることは、理解すべきである。

できるだけ少ない処理能力を使用するためにも、視線追跡ソリューション必要性がある。これは、バッテリ寿命の節約、および、バックグラウンドで作動させる必要があり、かつ、フォアグラウンドで作動するプロセスを制限させてはならないリアルタイムの使用の両方にとって必要とされる。携帯電話における前向きカメラでさえも現在３０フィート／秒で作動し、カメラ解像度も良好になっていることを考慮すると、必要とされるアルゴリズムは、現状技術よりも良好ないくつかの命令である必要があることを意味する。また、処理能力の継続した改善を頼りにすることを受け入れることはできない。なぜなら、バッテリ電源は、例えば、処理能力の最大値の使用に合わせて調整したゲームといった、どのような場合でも、かつ、全ての応用において保存される必要があるため、バックグラウンドで作動する標準的な画像処理などのアルゴリズムの最小量を常に残しているからである。

多くのタイプのデバイスについての視線追跡ソリューションを有するために、アルゴリズムは、オペレーティングシステム内に、または、プロセッサ自体において埋め込まれなければならない。アルゴリズムは、並列プロセッサによるマルチスレッドを活用することができ、かつ、計算の一部に対してＧＰＵを使用することができる必要がある。モバイル環境の他に、ソフトウェアソリューションは、必ずしも最近の世代のオペレーティングシステムであるわけではないＦＰＧＡまたは同様の再プログラム可能ハードウェア上でプログラムされる形式が要請されている。

視線追跡アルゴリズムは、開発されるハードウェアおよび電子機器とは別個のエンティティとして見られるべきではない。むしろ、設計およびコードは、ハードウェア一体化のために具体的に設計されるべきである。現状技術のアルゴリズムは、高フレームレートで機能する高解像度カメラを有するモバイルデバイス上における使用のために意図されてはなかった。

視線追跡のための高速アルゴリズムの必要性を正当化する別の理由は、適応、学習、および、記憶によってアルゴリズムの層が増加することになる、コンピュータ視覚における将来の開発競争の原因となっていることである。実際的に、現在のコンピュータ視覚方法の全ては何の推論もなく受動的である。このような適応性のあるアルゴリズムの追加された層を有するために、唯一のソリューションは、基礎アルゴリズムをできるだけ高速にすることである。

従って、明らかに、毎日の状況で使用可能な完全移動性ソリューションである視線追跡ソリューションが必要とされている。完全移動性ソリューションは、最小較正要件も意味するものとし、さまざまなタイプの顔、化粧、ひげ、メガネ、帽子、内斜視の人を照明する際に変更できるようにすること、および、モバイル画面に対する頭の比較的速い動きを可能にすることを意味する。このことは、多くの現在の方法のような顔認識の必要性を回避することを意味する。現在の方法はまた、アジア人の目に対してや、ユーザがメガネをかけている場合に対して良好に機能しない場合が多い。

フレームレートを高くし、運動処理をより良くし、カラーハイライトをより良くし、コントラスおよび光変更により良く適応させ、解像度を高めることによる、将来のカメラ技術開発は、視線追跡のためのソフトウェアソリューションの有効性を高めるだけになる。これらのカメラ技術の最新情報の全ては、効率的なコンピュータ視覚アルゴリズムに対する産業上の必要性を大きくすることになることに留意されたい。

現在のアルゴリズムは、顔認識アルゴリズムにとって標準的なベンチマークである、顔の広範囲にわたるＦＥＲＥＴライブラリに対してテストを行うことが多い。現実世界は、動き、ぼやけなどを含意するため、このようなデータベースは制限的なものであり、現在のビデオデータベースでさえも制限的なものである。

本開示による技術的な問題は、現状技術において認識可能な上記で説明した欠点に関連する必要性を満足させやすいが、上記の技術的期待の全てを達成する視線追跡方法を提供することである。

この問題は、上記のような視線追跡のための方法によって解決される。当該方法は：
ａ．カメラを通して顔のデジタルビデオストリームを得るステップであって、目および／または瞳が認識されて前記目および／または瞳の位置を判断し、前記目および／または瞳は次いで空間定義域における対応するボックスにおいて識別され、ボックスのコンテンツはさらなる計算のための入力である、ステップと；
ｂ．プロセッサによって、ボックスのコンテンツを周波数ドメインコンテンツに変換させるステップと；
ｃ．前記ボックスの周波数ドメインコンテンツに、プロセッサによって１つまたは複数の疎ゾーンを加えて、ボックス内の周波数ドメインエリアの小部分、および、前記１つまたは複数の疎ゾーンを少なくとも部分的に重ね合わせるフィルタリングカーネルを共に包含するステップと；
ｄ．プロセッサによって、それぞれの疎ゾーン内の周波数データと前記カーネルとの乗算を行って、その結果を組み合わせて単一値にするステップと；
ｅ．前記デジタルビデオストリームの各フレームに対して前記単一値を得る上記ステップ（ａ）〜（ｄ）を繰り返すステップであって、前記単一値の変動は時間による視線方向の変化の典型である、ステップと、を含む。

方法のさらなる特徴は、さらなる利点につながり、従属請求項において定められる。

ごく狭い場所において、本開示の実施形態による視線追跡方法は、高性能を実現するのと同時に、プロセッサの関与を制限し、かつ、電力を低減させる必要があり、それによって、特定的ではあるが広範にわたって携帯電話の使用に適合する。

従って、本開示によると、ビデオストリームを生じさせやすい少なくとも１つのデジタルカメラ、および、少なくとも１つのプロセッサを備えるデバイスを動作させて、前記ビデオストリームにおいて顔が捕獲される時に視線追跡を得るための方法が記載される。当該方法は：
空間定義域における対応するボックスにおいて目または瞳を識別しかつ当該目または瞳をフレーミングするステップであって、ボックスのサイズは前記カメラに対する顔の位置および向きの関数であり、ボックスのコンテンツはさらなる計算のための入力である、ステップと；
プロセッサによって、ボックスのコンテンツを周波数ドメインコンテンツに変換させるステップと；
前記ボックスの周波数ドメインコンテンツに、プロセッサによって１つまたは複数の疎ゾーンを加えて、ボックス内の周波数ドメインエリアの小部分、および、前記１つまたは複数の疎ゾーンを少なくとも部分的に重ね合わせるフィルタリングカーネルを共に包含するステップと；
プロセッサによって、それぞれの疎ゾーン内の周波数データと前記カーネルとの乗算を行って、その結果を組み合わせてそれぞれの疎ゾーンの単一値にするステップと；
前記デジタルビデオストリームの各フレームに対して前記単一値を得る上記ステップ（ａ）〜（ｄ）を繰り返すステップであって、前記単一値の変動は時間に伴う視線方向の変化の典型である、ステップと、を含む。

従って、このような方法は、多くのさまざまな目的のために、上記の物理的特徴を有する任意の種類のものに応用可能である。

上述したように、赤外線投射または立体視にとって追加的なハードウェアの使用を必要としない視線追跡のための新しい方法が必要とされている。これらの新しい方法はまた、最新世代のモバイルデバイス上のバックグラウンドで機能するのに十分高速でなければならない。最新世代のモバイルデバイス上での使用の他に、ウェアラブルハードウェアなどの将来の傾向を見込んで、アルゴリズムは、メインパーソナルコンピュータの外部でオペレーティングシステムおよびモバイルオペレーティングシステムを機能させることができ、ひいては、プロセッサ、および、フィールドプログラマブルゲートアレイなどの再プログラム可能ハードウェア上でプログラム可能である必要がある。方法はまた、マルチコア、および、強力なグラフィック処理ユニット（ＧＰＵ）などのパーソナルコンピュータおよびモバイルデバイスについての最新のハードウェア開発を活用することができるアルゴリズムからできている必要がある。

本明細書では、周波数ドメインにおける情報の使用は、当然、その情報自体をいくつかの理由に対するこれらの必要性に応答させることに留意されたい。

１つの理由は、周波数ドメインにおいて、空間定義域における画像の画素ごとの画像処理は、周波数ドメインにおける各単一値に資することである。しかしながら、周波数ドメインは、フィルタによる乗算のようなはるかに容易な計算を可能にし、マトリックスによる他の同様の計算は空間定義域とは違ってセルごとのものであり、この場合、マトリックスの各行はマトリックスの列全てと乗算されなければならない。

周波数ドメインにおいて機能させることによって、周波数ドメインにおける疎ゾーンを使用可能にすることもでき、これによって、計算を大幅に加速させることができる。

さらに、疎周波数ゾーンで機能させることによって、計算を、複数の処理コア上のマルチスレッドによって処理されるべき並列部に容易に分割することができる。

疎ゾーンのみならず、周波数ドメインにおけるフィルタとして動作されるカーネルについて、以降説明しかつ詳述する。

周波数ドメイン変換後に画像を空間定義域に変換し直すための計算を必要とせずに、周波数ドメインにおいて完全に機能させることによって、周波数ドメインへの変換を行う数学的な算出の選択における新しい柔軟性も実現される。例えば、一種のＧｏｅｒｔｚｅｌアルゴリズムの使用は現実的な選択肢となる。

周波数ドメインへの画像の変換はまた、光変化、動き、ぼやけ、および、視線捕獲に影響を及ぼす他の効果と対照的に、本質的により堅牢であるデータをもたらす。

周波数ドメインの使用は最終的に、空間定義域におけるオブジェクト認識技法に基づく方法と比較して、視線追跡についてのより高い解像度および精度を可能にする。

本発明の方法のさらなる特徴および利点は、添付の図面を参照することによって示される、その好ましい実施形態の以下の説明によってより明らかとなろう。

瞳および目がボックス内にあり、そのボックスのサイズは、カメラに対する頭の位置および頭の向きの関数である顔画像を示す図である。本開示の実施形態による方法における視線方向計算の初期化を表すフロー図である。本開示の実施形態による方法における視線方向計算の初期化を表すフロー図である。リアルタイムで機能する視線計算と共に、図２の初期化後の視線計算を得るためのプロセスを表すフロー図である。リアルタイムで機能する視線計算と共に、図２の初期化後の視線計算を得るためのプロセスを表すフロー図である。本開示の実施形態による方法における疎視線計算を表すフロー図である。本開示の実施形態による方法における疎視線計算を表すフロー図である。図１の限られたボックスの入力画像の周波数ドメインデータ全てを表すグリッドであって、小さな長方形は選択された疎ゾーンを示す例であるグリッドを示す図である。図１の限られたボックスの入力画像の周波数ドメインデータ全てを表すグリッド、および、選択された疎ゾーンを示す例を示す図である。４行および５列に分けられている画面を有する、ランドスケープモードのスマートフォンで行われる遠隔測定出力の例を示す図である。図７に表される１チャネルを示す図である。図８の掃引の結果を表す図である。掃引から生じる範囲を使用することによってチャネルにおける雑音係数の排除を示す図である。視線方向公式のログデータを示す図である。Ｔ＝５（秒）で正規化されるチャネルによる図１１ａと同じログデータを示す図である。Ｔ＝１０（秒）で正規化されるチャネルによる図１１ａおよび図１１ｂと同じログデータを示す図である。図１１ａ、図１１ｂおよび図１１ｃにおいて捕獲された視線の動きのより大きい部分を示す図である。左から右へ視線方向を変更するカメラの前の目によるビデオ入力からの視線追跡の例を示す図である。単一フレームに対して行われる計算の実施をより詳細に示す図である。選択された視線方向に対する出力の信号対雑音比を改善するためのカーネルパラメータの調節を示す図である。それぞれの目のタイプおよび照明条件に対して、疎ゾーンおよびカーネルのさまざまな組み合わせが視線方向を捕獲する際にどのようにして要求されるのかを示す図である。本開示の実施形態による視線追跡を実行するデバイスを示す図である。

上述されるように、周波数ドメインにおいて、瞳自体ではなく、瞳の周りの周波数ドメインにおける情報の変化に従うため、視線方向のはるかに高い解像度が可能である。換言すれば、周波数ドメインにおける情報に従うことによって、それと同時に、瞳の位置、瞳の周りの白目、目尻、瞼の位置の変化全てが従い、これら全ての変化の組み合わせは、周波数ドメインにおける小さな疎ゾーンにおいて従うことができる。

周波数ドメインにおける情報によって、空間定義域画像のこのような幾何学的特性を捕獲することがはるかに容易になる。

画像を周波数ドメインに変えることは定着しており、連続的ではなく離散的な２次元フーリエ変換である。フーリエ変換は、画像分析、画像フィルタリング、画像再構成、画像圧縮、テキスト方向発見などの広範な応用において使用される。

主要変換器を離散フーリエ変換（ＤＦＴ）とすることができる。ＤＦＴは非常に多数の計算を必要とするため、プロセスの速度を上げるため使用可能である多くの他のタイプのものがある。高速フーリエ変換（ＦＦＴ）はこれらのうちの最も確立されたものであり、離散フーリエ変換（ＤＦＴ）およびその逆変換を算出するための効率的なアルゴリズムである。しかしながら、多数のＦＦＴの変動値がある。ＦＦＴはまた、画像処理においてその限度を有する。例えば、ＦＦＴに対する入力において使用される画像の側部は、２の累乗である画素の長さを有する必要があり、完全ＦＦＴを計算してからある周波数の結果をもたらすことができるようにする必要がある。これには、ＦＦＴによって、記憶されるように要求される。ＦＦＴを、疎計算に対して変えることができず、再プログラム可能ハードウェアおよびマルチコアプロセッサ上で容易に実装することはできない。取り除かれた高速フーリエ変換などの方法が存在するが、最小ゲインのための多大の複雑な符号化を必要とする。

画像の周波数ドメインにおいて、各点は、空間定義域画像に含有される特定的な周波数を表す。

周波数スペクトルは、空間周波数に対するエネルギーのプロットであり、この場合、空間周波数は、画像における強度の空間的関係に関連する。

離散フーリエ変換（ＤＦＴ）は、標本化されたフーリエ変換であり、従って、画像を形成する周波数全てではなく標本のセットのみを含有し、これは、空間定義域画像を完全に描写するには十分な大きさである。周波数の数は、空間定義域画像における画素数に対応し、すなわち、画像は、空間およびフーリエ周波数ドメインにおいて同じサイズを有する。

フーリエ変換によって、実部および虚部、または、大きさおよび位相のどちらかによる、２つの画像によって表示可能である複素数の値を持つ出力画像がもたらされる。画像処理において、空間定義域画像の幾何学的構造の情報の大部分を含有するため、しばしばフーリエ変換の大きさ（実数）のみが表示される。しかしながら、周波数ドメインにおけるいくつかの処理後にフーリエ画像を正しい空間定義域に再変換するために、フーリエ画像の大きさおよび位相の両方を再使用しなければならない。

空間定義域において、値は通常、グレースケール画素の光度であり、その光度は０〜２５５に及ぶ場合がある。フーリエドメイン画像値は、空間定義域における画像よりはるかに大きい範囲を有する。それ故に、十分正確にするために、周波数ドメインにおける値は通常、浮動小数点値として計算されかつ格納される。

最終視線出力を得るために空間定義域に戻る必要なく、周波数ドメインにおける情報を使用することによって、いくつかの利点がある。第１に、計算の速度を上げる際の追加的なステップがないことである。第２に、周波数ドメイン値が正しい空間定義域画像に戻すように変える必要がないため、疎ゾーンを使用することができる。これらの疎ゾーンはそれら自体、空間画像を再作成するのに十分な周波数ドメイン情報を必ずしも含有しないが、画像分類および視線方向情報についての十分な情報を含有する。第３に、画像を空間定義域に戻すように変える必要がないため、ＤＦＴまたはＦＦＴを除く他の方法を使用して画像を空間定義域に変える可能性が開かれる。これは、周波数ドメインにおいて完全な実数および虚数情報を有する必要がないからであるが、疎視線の計算にとっては、大きさは十分である。これによって、まばらにセットアップできる、Ｇｏｅｒｔｚｅｌアルゴリズムの２次元バージョンなどの方法を使用する可能性が開かれ、それによって、再プログラム可能プロセッサ上での使用がより柔軟になり、複数のプロセッサコア上での並列使用がより柔軟になる。

ここで、および、以下の説明で、疎ゾーンは、周波数ドメインの小部分を包含する、１つのゾーンまたはゾーンのグループ、すなわち、１つまたは複数のゾーンを意味する。それぞれのゾーンは、疎ゾーンが正方形または長方形である場合、横座標軸および縦座標軸上の間隔（図５を参照）から定められる可能性のある周波数間隔として見られるものとするが、多くの他の形状のゾーンが使用可能である、すなわち、周波数ドメインにおける閉線によって定められてよい。

疎ゾーンのアセンブリは、一部、すなわち、空間定義域の変換から生じる周波数ドメイン全体の小部分を包含する。疎ゾーンのそれぞれは、空間定義域から変換された周波数データを取り囲む。

便宜上、疎ゾーンは、局部的な解像度を高めるために、場合により、部分的に互いに重ね合わせるか、並んで設置されるように、共にグループ化されてよい。前記疎ゾーンから導出された周波数値についての計算は、疎計算として示される。

本明細書に記載される視線認識のための方法において、カメラを通して顔のデジタルビデオストリームを得る第１のステップが提供される。この場合、目または瞳は、空間定義域における画素に分けられた対応するボックスにおいて識別される。

視線追跡プロセスは、図１７において概略的に示される。ユーザは、電子デバイス２、例えば、フロントカメラ３およびプロセッサ４を備えたタブレットを扱い、特に、マイクロプロセッサは前記カメラからビデオデータストリームを受信する。

それ故に、ユーザの頭はカメラによってフレーミングされ、頭、顔のデジタルビデオストリームはそこから得られる。これに関連して、前記プロセッサ４を通して、目５および／または瞳が認識されて、前記目および／または瞳の位置を判断し、前記目および／または瞳は次いで空間定義域における対応するボックス５において識別され、ボックスのコンテンツはさらなる計算のための入力であり、そして、ボックス６のこのようなコンテンツは、プロセッサによって周波数ドメインコンテンツに変換される。

各ボックスのサイズは、前記カメラに対する顔の位置および向きの関数で判断され、前記ボックスのコンテンツはさらなる計算のための入力である。

一般的に言えば、このようなカメラは、要請された計算を行うためのマイクロプロセッサ、および、場合によって、タッチスクリーンと言われる好ましくはタッチセンサ式画面である画面を含む、この方法を実行することが意図された任意のデバイスの一部である可能性がある。

図１は、デジタルビデオストリームから生じる顔画像における瞳または目に対して、限られたボックスがどのように選択されるのかを示す。

限られたボックスのサイズおよび位置はまた、限られたボックスが視線追跡公式の入力であり、さらには、公式は、頭の位置、頭の向き、目のタイプ、および、光条件の関数であるため、目のタイプ、および、光の条件の関数である。

図１によると、視線追跡計算が瞳および目の位置の認識にどれくらい左右されるかが示されている。この認識に基づいて、限られたボックス、特にそのサイズおよび形状は、目を中心に定められる。このことは、目もしくは瞳のどちらかの既知の認識ステップ、または、それら両方の組み合わせを使用して行われ得る。この限られたボックスのコンテンツによって定められる画像は計算のための入力である。

おおよそ、限られたボックスはそれぞれの瞳に対して中央に置かれる。

例えば、Ｖｉｏｌａ−Ｊｏｎｅｓ、または、傾斜法の手段といった、画面上の瞳および目を認識するために使用することができる多数の方法がある。

視線計算中、一組の目および瞳の位置の認識は、常に追随させる必要がある。これらの位置を得ることは、瞳の位置、および、瞳間の相対的な距離を使用してカメラに対するユーザの相対的な位置を与えることになる。また、カメラに対する頭の回転の予測を行うことができる。カメラに対する頭の向きを認識することによって、斜め角度および頭の傾斜もカメラに対して予測することができる。

上記は、視線追跡を使用する間にカメラに対してユーザにとって可能とされる動きを増やすことになるが、カメラに対する所与の頭の位置および頭の向きに対して、目の動きの視線計算の精度への影響はほんのわずかである。

図２ａおよび図２ｂによると、視線方向計算が前記プロセッサによってどのように初期化されるかが示されている。

本発明の方法が実行されるデバイスのカメラから取られる画像フレームの連続的な流れによって構成されるデジタルビデオストリームから、初めに、瞳および目の位置が判断される。次いで、カメラに対する頭の位置および頭の向きの最初の予測を行うことができる。このために、瞳および目の位置情報を使用することができる。

追加された頭の傾きおよび回転情報を得るために、追加的な顔の特徴の認識に基づいた追加的な情報を加えることもできる。携帯電話上の視線追跡の使用のために、ユーザは電話に対する頭の向きの動きを小さな角度に制限する傾向が多いため、この追加的な頭の向きの情報を除外しても十分である可能性がある。

次に、目の画像を捕獲する限られたボックスが定められる（図１を参照）。ここで、重要なステップは、視線計算のためにできるだけ一貫した入力画像を有することである。このことは、限られたボックスのセンタリングおよび寸法両方における一貫性を意味する。

次のステップでは、それぞれの限られたボックス内で、それぞれの目に対して光条件のタイプ、および、ユーザの目のタイプを分類するために既知の分類器を使用する。頭の向きと組み合わせたこれらの良好な分類によって、より高い精度、および、より多くの疎周波数ゾーンによって、分類された条件に対して使用される特定の視線計算が可能になる。

ユーザの顔に対する同等でない光条件、光変化に異なって反応する左目および右目、頭の向きによるそれぞれの目の異なった視点、ならびに、全く同じ形状ではない左目および右目がある可能性があるため、計算はそれぞれの目に対して必ずしも同じであるわけではない。

視線計算のために目の１つのみを使用することもできるが、視線計算において、堅牢性が劣り、精密性が劣ることになる。

このステップでは、分類器のリアルタイムの再教育を場合により行うことができ、それによって、分類器の精度を改善させ、かつ、ユーザに対する視線計算を個人化する。

このリアルタイムの分類器を使用して、目を中心にした限られたボックスの安定性および一貫性を徹底することもできる。

次のステップでは、視線方向が較正される。このステップを、ゲインおよびオフセットの直接的な較正、もしくは、視線計算のために使用されるチャネル全ても正規化する較正、または、他の既知の較正のための方法とすることができる。該較正は、一定時間に単一値を正規化するように実施される。条件のために保存された較正によってユーザの目に対する分類器のリアルタイムの教育を組み合わせることによって、較正を保存することもできる。

このように、ユーザは分類器によって認識可能であり、ユーザの頭の位置、光および頭の向きを、再較正する必要性を回避して、先のまたは既知の較正と結び付けることができる。

較正段階はまた、最も適切な視線方法公式のさらなる選定に使用される。このことは、いくつかの既定の公式を有することによって、かつ、これらが最高の信号対雑音比を有するように較正する間に判断することによって行われ得る。

較正段階を使用して、さまざまな方向に対する視線計算間で望まない相互作用があるかどうかを判断することもできる。例えば、上側−下側の視線の動きは、左−右の動きに対して使用される疎ゾーンおよびカーネルによってわずかに捕獲される場合もある。これらの効果を較正中に捕獲することができ、このための補正係数を判断することができる。

カーネルは、上記で定められるような疎ゾーンに応用される、周波数ドメインにおける任意の種類のフィルタであることを意味する。

このようなフィルタを、エッジ検出線形フィルタ、（ガウスおよび正弦波を混合させた）ガボールフィルタ、ガウシアンフィルタ、強度増強フィルタ、低域フィルタ、ゾーベルエッジ検出フィルタ、Ｃａｎｎｙ、Ｃａｎｎｙ−Ｄｅｒｉｃｈｅ、微分ゾーベル、Ｐｒｅｗｉｔｔ、Ｒｏｂｅｒｔｓ、Ｃｒｏｓｓのような別のエッジオペレータ、Ｈａｒｒｉｓオペレータ、ＳｈｉａｎｄＴｏｍａｓｉ、Ｌｅｖｅｌｃｕｒｖｅｃｕｒｖａｔｕｒｅ、ＳＵＳＡＮ、ＦＡＳＴのようなその他多くのコーナー検出オペレータとすることができる。

以下では、例として、ガボールフィルタを採り入れる。

現時点では、瞳および目の位置と同様に、頭の位置および向きは既知の状態であり、目の領域を捕獲する限られたボックスは定められており、目のタイプは分類されており、光条件は分類されており、較正は行われているため、視線計算は初期化されている。ここで、視線計算を開始することができる。

実際面で、計算のための目のゾーンの画像の一定の入力があり、それぞれの目の視線方向にとって最も適切なカーネルおよび疎ゾーンが判断されている。

図３ａおよび図３ｂによると、図２ａおよび図２ｂに記載された初期化後、計算がリアルタイムでどれくらい進むかが示されている。

第１に、目を中心にした限られたボックスを定める状態、カメラに対する頭の位置、および、カメラに対する頭の向きは、ビデオストリームからの最終視線計算サイクルの終了後に、プロセッサによって更新される。

これによって、入力されたビデオストリームを使用して、限られたボックス内の目の更新された画像がもたらされる。目領域のこれらの入力画像は計算のための入力として使用される。

次のステップでは、分類器によって与えられる、所与の頭の向きおよび頭の位置に対する眼のタイプおよび照明のタイプを定める状態が更新される。

このステップでは次いで、それぞれの視線方向およびそれぞれの目に対して使用される疎ゾーンおよびカーネルが判断される。最終視線計算ステップの同じカーネルが使用されることになる可能性がある。しかしながら、照明、向き、またはズームに関して大きい変化がある場合、分類器は、カーネルの更新が必要であることを判断することができる。これらの分類された条件を定める状態も、次いで、それに応じて更新される。

次に、入力画像、すなわち、それぞれの目に対する前記限られたボックスのコンテンツは、それぞれの目に対して、プロセッサによって周波数ドメイン内へ転送される。離散フーリエ変換、または、高速フーリエ変換の変形といった多くの共通して使用される転送方法は、このために使用可能である。高速フーリエ変換は比較的高速でこの変換を行うことができるが、入力画像のサイズを２の累乗の長さにする必要がある。また、疎にすることができず、各周波数についての計算全てを行う必要があり、周波数のための計算前の記憶における変換のステップ全てを開始することができ、また、再プログラム可能ハードウェア上で、かつ、複数の並列コア上のマルチスレッドによって、柔軟に使用するための適応が容易ではない。

離散フーリエ変換を疎にすることができるが、コンピュータ的に非常に重い。

周波数ドメイン計算後に計算を空間定義域に変換し直す必要がないため、完全に疎とすることができ、ＦＦＴよりもさらに高速とすることができ、いずれのメモリもほとんど使用せず、再プログラム可能ハードウェア、および、複数のコア上のマルチスレッドにおける使用のために容易にコード化することができる、Ｇｏｅｒｔｚｅｌアルゴリズムの２次元における使用などの新しい代替策が可能になる。

ここで、定められた疎ゾーン内で、周波数データの乗算は、周波数ドメインにおける画像データとカーネルとの間で行われる。計算におけるゲインは、完全なゾーンに対する疎ゾーンのサイズに比例して計算を速めること、および、小さい疎ゾーンに対して、速度ゲインを非常に大きくすることができることは、周波数ドメイン計算に関する当業者には明らかであろう。

例えば、入力画像が６４ｘ６４であり、４ｘ３の疎ゾーンのみが必要とされる場合、セルごとの乗算は、完全な計算より３００倍以上速く行われることになり、これによって、プロセッサ使用に対して顕著な影響を与えずに、複数の視線方向について同じ疎ゾーンに対して行うことができる。

ここで、セルは、前記変換によって対応する空間定義域から生じる疎ゾーンの周波数値のためのものである。

オフラインの最適化段階において前もって既に作成されている可能性が最も高いカーネル、および、周波数ドメインにおいて必要なセルごとの乗算だけを行う処理速度でのこのゲインも、完全ＦＦＴを使用する時に得ることができる。

マトリックスにおける実数重量および虚数重量の形式で、入力される画像のサイズをそれぞれ設定するためのカーネルをもとから有するという選択肢があることも留意されたい。あるいは、カーネルを純粋に数学的形式にすることができ、実数重量および虚数重量マトリックスは要求される時作成される。後者の選択肢では、使用するメモリは少なく、より高い柔軟性を可能にするが、追加的な処理ステップを必要とする。

オフラインの最適化によって作成されたカーネルの場合、数学的表現はなく、そして、カーネルは、マトリックス形式でメモリに格納されて必要とされる時に使用されるべきである。

それぞれの目およびそれぞれの視線方向について、無意識の目の動きの検出を回避するが、意図的な目の動きを適正に判断するように、信号対雑音比に基づいて、解像度と検出精密度との間で最も可能性のある妥協点を実現するために、分類された条件に従って、さまざまな割り当てられたカーネルがある。

画像を周波数ドメインに変換するためのＦＦＴの代わりに、Ｇｏｅｒｔｚｅｌアルゴリズムの２次元バージョンなどの他の方法を使用することによって、第２の処理速度ゲインを得ることができる。ここでのゲインは、単に処理速度におけるものではなく、特別にプログラミングする柔軟性およびメモリ使用におけるものであることに留意されたい。

計算が非常に高速であるため、複数回行うことができる。後述されるように、向き、位相、および、波長などのカーネルパラメータの掃引を行うことによって、より堅牢な視線方向結果を得ることができる。

これらの計算はそれぞれの目およびそれぞれの視線方向に対して行われる。両目の代わりに、１つの目だけの計算を行うこともできる。カーネルパラメータの掃引を使用することなく、分類された条件によって、それぞれの目およびそれぞれの方向に対して単一カーネルのみによって計算を行うこともできる。

しかしながら、このような計算の経験があるものにとって、このような疎計算と共に、両目に対する結果を計算し、また、カーネルパラメータの掃引を行うための費用は最小であるため、さまざまなカーネルをテストしてから最高のものを判断することは明らかであろう。

それぞれの目および視線方向について、ここで、セルごとの乗算から生じる疎ゾーンにおける各周波数の結果による疎ゾーンがある。これらの結果をここで、例えば、疎ゾーン内の値の合計を取ることによって、単一値に合算することができる。これによって単一値が与えられる。

それぞれの目に対して使用されている単一チャネルの場合、それぞれの目に対するそれぞれの視線方向についての単一値があることになる。ビデオ入力の各フレームについて、プロセッサによって繰り返し計算が行われるため、これによって、フレームごとに変化する値のベクトルがもたらされる。

カーネルパラメータの掃引の場合、さらに処理される、それぞれの目、すなわち、それぞれの視線方向の値の配列があることになる。これは、掃引の帯域を取ることによって行われ、例えば、最大値は、掃引から生じる最小値を引いた掃引から生じる。これによって、視線計算の入力として使用される値として、その結果は単一値に換算されることになる。視線計算のための掃引無しで単一カーネルを使用することができる。しかしながら、このような掃引から生じる結果を使用することは、光条件の小さな変化および他のこのような効果に対して、本質的により堅牢になる。

ここで、カーネル掃引は、以下の例から明らかとなるように、カーネル定義が最高の結果を与えることを識別しやすいカーネルパラメータの変動値であること意味する。

図２ａおよび図２ｂを参照すると、較正パラメータがどのように初期化されるかが記載されている。この較正は、カメラに対する頭の位置およびその回転と組み合わせた、計算された視線パラメータの変換を定める。

頭の位置、頭の向き、光条件、および、目のタイプについての更新状態によって、較正を更新することもできるため、視線方向の精度は、ユーザによる新しい較正を必要とすることなく改善される。

この時点でも、視線信号の雑音を、スパイクといった信号における望まれない雑音に対して補正することができる。

図２ａおよび図２ｂに記載される視線計算初期化から、視線方向間の任意の望まれない相互作用効果も認識されることになった。この場合には、これらの効果に対して視線方向をクリーンにするための補正係数も判断された。ここで、視線方向信号をさらに補正するために、必要とされる場合は、これらの補正係数を実装することもできる。

図４ａおよび図４ｂにおいて、カーネルパラメータの掃引を使用する場合のための、１つの目および１つの視線方向に対して入力された単一のビデオフレームの処理について、疎計算の概要が今一度示される。

両目を使用する視線計算に対しても同じ概要を使用することができることは、当業者には明らかとなろう。

第１に、カメラに対する頭の位置および向きが判断される。次いで、目領域の画像が捕獲される。この画像はその後、光のタイプおよび目のタイプについて分類されて、その条件を前提として、視線方向にとって最も適切な公式を判断する。

周波数ドメイン計算の開始前に、例えば、フレームにおける画素の平均光度を等しくすることによって、既に入力されたビデオフレームを前処理するための選択肢がある。

所与の疎周波数ゾーンおよびカーネルによって、多数の計算をどのようにして並列に行うのかを理解することができる。この概要では、単一の目に対する視線方向についての公式は、多数のチャネルからできていることに留意されたい。各チャネルは、周波数ドメインに変換された入力画像と、カーネルとの間のセルごとの乗算によって疎ゾーン内に作成される。入力画像に対して、場合により追加的な前処理ステップ、すなわち、低域フィルタ、エッジ検出またはその他のものがあることも留意されたい。周波数ドメインにあることで、このような乗算は高速である。このような追加的なフィルタステップによって、例えば、左−右、および、上−下の視線方向チャネル間の相互作用を少なくすることができる。

掃引から共にもたらされるチャネル全ては、次いで、公式のチャネルに合算され、これらはその後、較正から保存された値を使用して、視線の方向チャネルに変換される。

図５は、例えば、疎ゾーンをカーネルとどのように組み合わせることができるのかを示す例である。２つの異なるゾーンが示され、さまざまな視線方向、さまざまな光条件のさまざまな目のタイプ、または、視線方向に対して使用されているさまざまな公式をもたらす他の分類された差異のいずれかに対してもたらされ得る。その例において、疎ゾーンは長方形であるが、定められた疎ゾーンは任意の形状を有することができ、接続された周波数点である必要は全くない。

全グリッドは、計算のための入力として使用される画像の周波数ドメイン全体、すなわち、限られたボックスによって捕獲された目を表す。ＦＦＴ変換を使用する時、このグリッドの側部は２の累乗である必要がある。ＤＦＴまたはＧｏｅｒｔｚｅｌアルゴリズムの２次元バージョンを使用する時、グリッドを任意のサイズとすることができ、これによって、当然、視線追跡ソリューションの精密性における工学技術の柔軟性がかなり高まる。

疎ゾーンの上に、カーネルの外形を見ることができる。これを、ガウスおよび正弦波フィルタの組み合わせであるガボールフィルタなどのアルゴリズムとすることができるが、必ずしもガボールフィルタとする必要はない。この目的のためにいずれのフィルタも設計することができ、周波数ドメインでこのカーネルを数学的形式で描写できることもなく、カーネルは、オフラインの最適化から生じる重量を有することができる。

周波数ドメインにおける計算を経験したものは、セルごとの乗算のみが行われる時、総体的な周波数ドメインに対する疎ゾーンによって表されるパーセンテージに比例するような、処理速度におけるゲインを再び認識することになる。図５において、示される疎ゾーンは、図の理解のために、実はかなり大きくしたものである。

図６は、限られたボックスの入力画像の周波数ドメインデータ全てを表すグリッドを再び示し、本図で、カーネルパラメータの掃引が行われる単一の疎ゾーンが示される。本図は、周波数ドメインにおける疎ゾーンをカーネルがどのように重ね合わせる場合があるかを示す。この図は、純粋に便宜的に示され、かつ、選択された疎ゾーン、さらには選択されたカーネルによって、実際の重ね合わせは非常に異なる可能性があることは、明らかとなろう。

この例では、カーネルは、選択された疎ゾーンを部分的に重ね合わせるだけである。疎ゾーンによって画像のデータが捕獲されるもののわずかな相違をもたらす、入力画像における変動値もあり得る。周波数ドメインにおいて、疎周波数ゾーン内では、周波数ドメインに変換される入力画像とカーネルとの乗算はセルごとであることを考慮すると、カーネルおよび疎ゾーンにおけるデータが重なり合う相対的なやり方では変動値があることは明らかであろう。

先に述べたように、この効果を克服するための方法は、カーネルパラメータの掃引を有することにある。例えば、これらのパラメータを、カーネル公式に従って、位相、向き、および、波長とすることができる。図６では、カーネルの位相をシフトさせる例が見られ、ここでカーネルはガボールフィルタである。この場合、周波数ドメインは、ガボールカーネルパラメータのピークの平行移動を生じさせる。このような掃引を採用することによって、その結果、変動性の一部は、正しく使用された位相が選択された動きを強調表示する可能性がより高くなるため、すでに除去されている。

疎ゾーンの上部におけるカーネルの代わりに周波数ゾーン自体をシフトさせることを選択することもできる。しかしながら、疎ゾーンは離散ステップにおいて移動しなければならないため、このようなシフトでは、カーネルのパラメータをシフトするよりも解像度および精密性ははるかに劣る可能性があることは明らかとなろう。

図７は、ランドスケープモードのスマートフォン、および、場合により画面上で４ｘ５＝２０のアイコンに対応する、４行および５列に分けられているその画面によって実現される遠隔測定出力の例を示す。このような場合、視線追跡の目的を、ユーザの目の動きによるアイコンの選定とすることができる。

従って、右−左の動きのための、および、上側−下側の動きのための２つの異なったチャネルが設けられる。

上部分において、左−右の動きを捕獲するチャネルの遠隔測定が表され、下部分において、上−下の動きを捕獲するチャネルが可視である。

図７の図において、ｘ軸（横座標）は時間Ｔ軸であり、Ｙ軸（縦座標）は計算からもたらされる周波数ドメインにおける電力である。チャネルの別個の結果は、ｙ軸でオフセットされて、図に明瞭さを加えている。このように、視線ポインティングを電話画面上に直接表し、かつ、視線ポインタとして動作させることができる。

遠隔測定の左半分において、ユーザが最初に行ごとに見ていて、左から開始し、自身の視線を右に移動させ、左に戻り、各行に対してこの動作を上の行から下へと繰り返すように見える。これを、４つの異なるピークによって上部における左−右チャネルにおいて見ることができ、同時に、行ごとの視線より下の上−下チャネルにおいて、行の高さの変化が登録されている。

遠隔測定の後半において、ユーザは列ごとに画面上を見ている。ユーザは、上部で開始し、下を見てから再び上を見る。画面の左から開始して、その後、これは、５列分繰り返される。これを、５つの異なったピークとして、上−下遠隔測定で見ることができるのと同時に、左−右チャネルは、ユーザが列ごとにわたって移動すると、左−右の動きを捕獲する。

この図では、単一チャネルを使用する。チャネルは、ゲインおよびオフセットによって、画面上の視線の動きに対して容易に較正可能であるが、電力、つまり、Ｙ軸は画像における光度に直接結びつけられるため、チャネルは光変化に対する堅牢性を有さなくなる。

視線方向に対してこのようなチャネルを直接使用することができる。しかしながら、それらチャネルは、光変化および他の変動値、ならびに、ズームおよび動きなどの雑音係数に対する堅牢性が劣ることになる。

図８では、同じタイプの視線の動きが、図７に示されるようにユーザによって行われる。簡略化のために、図７のチャネルのうちの１つのみが示される。しかしながら、ここで、カーネルのパラメータの掃引はチャネルに対して行われる。波長、位相、および、向きの変化の組み合わせは、掃引として使用可能である。掃引における各ステップが、カーネルと、周波数ドメインにおける画像との間の乗算に対して、どのようにして、わずかに異なる結果を示すのかを見ることができる。

このような掃引は、例えば、ガボールバンクに対して共通して使用されるものとは異なっている。典型的には、オブジェクト認識のために特徴を抽出するために使用されるガボールバンクにおいて、特徴の最も幅広い捕獲を行うために、パラメータをできるだけ広範に変化させ、このことは、認識のために選択された顔または他のオブジェクトを認識する際に役に立つ可能性がある。

対照的に、この実装において使用される掃引は、より高い精密性で視線の動きを捕獲するために、狭いままであろうとする。実際面で、ガボールバンクは、０、４５、９０、１３５、１８０、２２５、２７０、および、３１５度の値の向きの掃引を使用する可能性があるが、視線の動きを捕獲するための掃引は、掃引に対する入力された向きとして、１、２、３、４、５、６、７、８度を使用する場合がある。

要約すると、方法では疎ゾーン、すなわち、周波数ドメインフィールド全体の小部分のみを包含する数ゾーンを使用するため、カーネル掃引では、同じフィルタの数個の異なる変動値のみを使用する。前記種類の変動値は両方とも、視線の動きの検出を最適化して、このタスクに対して要請される最も少ない量の計算を行う、すなわち、要請されるのと同じくらい適正に動きを検出可能であることを、得られた遠隔測定の雑音シグネチャが示す時、さまざまなゾーン分析、および、カーネル掃引にも割り込むことを目的とする。

図９では、図８の掃引の結果が再びより詳細に示されている。掃引の結果の範囲が視線方向に対してどれほどの大きさであるかが示される。視線に対するこの入力の大部分がカーネルに左右されるため、光条件および雑音の変動値の効果を大幅に排除する。

図１０は、チャネルにおける雑音係数を排除するために掃引から生じる範囲をどのように使用するかを示す。遠隔測定の第１部では、ユーザはまっすぐ見ていて、例えば、限られたボックス位置の振動、すなわち、ハンドヘルドカメラおよび／または無意識の目の動きに影響を及ぼす振動によって引き起こされた、入力における大きい雑音係数がある。

ユーザが同じ方向で自身の視線を固定することで、掃引における全てのチャネルは、雑音によって同じオフセットを示すことになる。従って、掃引の幅を入力と取ることによって、全てのチャネルが等しく変化することで、幅は小さいままであるため、視線チャネルから雑音の大半を排除する。

プロットの第２部（右部）において、ユーザは視線方向の変更を開始し、カーネル掃引におけるチャネル全ては、この変更に対して素早く異なって反応する。掃引の幅はここで、視線方向のための入力と取られ得る。

図１１ａは視線方向公式のためのログデータを示し、この場合、波長、向き、および、位相の掃引が行われている。帯域の幅は視線方向の尺度である。チャネルの正規化は行われていない。

図１１ｂは、図１１ａと同じログデータを示す。しかしながら、ここで、チャネルはＴ＝５（秒）で正規化されている。帯域の幅は依然視線方向の尺度であるが、ここで、照明の変化などいずれの効果に対してもより堅牢である。

図１１ｃは、図１１ａおよび図１１ｂと同じログデータを示す。しかしながら、ここでチャネルはＴ＝１０（秒）で正規化されており、これは視線の動きの向こう側である。帯域の幅は、まさに図１１ａのように依然視線方向の尺度であり、ここで、照明の変化といった効果にとっての堅牢性はより高まる。しかしながら、視線の動きの向こう側における正規化を採用することは、異なる較正を必要とすることがわかる。

図１２は、図１１ａ、図１１ｂ、および、図１１ｃにおいて捕獲された視線の動きのより大きい部分を示す。上部には、チャネルの正規化された掃引が表されている。図の下部には、正規化された掃引の幅から計算される公式の結果が示されている。これらの視線の動きの間、未処理の掃引チャネルが続く曲線によって示されるように、光条件が変化した。しかしながら、プロットにおいて、公式の結果では、光条件の変動値の効果の大半が排除されていることを認識することができる。

以下の図において、いずれの基線チャネルも開始させる視線チャネルの技術者または設計者無しで、どのように視線方向に対してチャネルが求められる場合があるのかについてのステップの例が示されている。

図１３は、視線方向を、例えば、左から右へ変更するカメラの前の目のビデオ入力のフレームが、録画かライブかのどちらかで、どのように示されるかを示す。

動きを捕獲するための正しい疎ゾーンはまだ既知でないため、さまざまな疎ゾーンが選択される。この例において、５つのゾーンが示されるが、多くのさまざまな他の物がこのテストに対して選択可能であることは明らかになるであろう。

また、動きを際立たせるための最良のカーネルはまだ既知でないため、基準カーネルが採用され、いずれの掃引もなく一定に保たれる。

その例において、選択されたゾーンそれぞれに対して、空間定義域からの変換から導出する画像の周波数データが、周波数ドメインフィールドのそれぞれの疎ゾーン内のみでカーネルとどのように乗算されるのかが分かる。

この計算後、ビデオ入力全体がフレームごとに行われ、５つの遠隔測定ストリームが得られ、その後、最も適切な疎ゾーンが所与の目のタイプに対して選択可能である。その例において、ゾーン３番は、所与の目の左−右の動きを捕獲するには最良である可能性がある。各遠隔測定の雑音シグネチャに従ってこの判断がなされ、最高の信号対雑音比を有するものが動きを最も良く表すものとする。

図１４において、このような計算が、図１３の同じ５つのゾーンを有する単一のフレームに対してどのように行われるかを、より詳細に見ることができる。その例において、入力画像フレームおよびカーネルは両方とも、それぞれが変換後周波数ドメインにおいて６４ｘ６４のサイズを有する。カーネルの値は、周波数ドメインにおけるカーネルの計算された実成分および虚数成分による各セルに対する大きさである。周波数ドメインに変換された画像と乗算されるこれらの複素数の乗算の大きさを採用すると、共に、値のグリッドが６４ｘ６４で示される。

ゾーン３番、すなわち、目の動きを捕獲するのにより良いゾーン（上記を参照）を考慮に入れると、周波数ドメインにおける画像とカーネルとの全セルごとの乗算のこの場合、６４ｘ６４＝４０９６の計算が必要であることは、当業者には明らかとなろう。

図１４の拡大部において、疎ゾーン３番は、４ｘ３＝１２の周波数データを有する１２のセルから成る。定められた疎ゾーンにおける値のみが必要とされる場合、また、画像を空間定義域に変換し直す必要が無い場合、４０９６の代わりに、１２のセルごとの計算で十分であることを、周波数ドメイン計算の分野における専門家は認識するであろう。

図１４に示される最終ステップでは、単数に到達するためにゾーン３番における値の合計がどのように出されるかが分かる。この例において、合計が出されるが、当然ながら、さまざまな規則を定めて、開始周波数データと一貫した単一値に到達することができる。

それ故に、入力フレームは単一値を与えるより高速の疎計算につながる。単一のフレームごとにこれらの計算を繰り返して、これらの値における変動によって、疎ゾーンおよびカーネルが同様に選択されるならば、選択された視線方向に相関することになる時間に関連する遠隔測定ストリーム値が与えられることになる。

図９に示されるように、このようなカーネルパラメータの小さな掃引が行われ、出力における変動値が遠隔測定ストリームの値として取られる場合、視線方向を捕獲するために使用される出力値は、照明などの変化に対してより堅牢となる。

図１３は、選択された視線方向の動きに対する疎ゾーンを発見するために使用可能である方法を示したが、図１５は、さらなるステップにおいて、その後、カーネルパラメータが、選択された視線方向に対する出力の信号対雑音比を改善するためにどのように調節されるかを示す。

開始点は、図１３の例ではゾーン３番であった左−右の視線の動きを捕獲するために選択された疎ゾーンである。この疎ゾーンはここで一定に保たれるが、ここで、位相、波長、および、向きなどのカーネルパラメータが調節される。これは、周波数ドメインカーネルに対して使用される公式によって、他のパラメータに応用可能である。

これらのパラメータを変化させることによって、選択された視線方向を捕獲するために、信号対雑音比の改善を得ることができる。

その例では、入力において、５つの異なるカーネル、すなわち、開始カーネル公式においてもたらされた５つの異なる掃引が示される。５つのカーネル全ては、さまざまな程度に、選択された視線の動きを捕獲する。これは、図１３に示されるように、疎計算が既に、動きを捕獲する疎ゾーンにおけるものであるからである。図１５の例において、４番目のカーネルが動きを捕獲するためには最良であることが分かる。

それぞれの遠隔測定の雑音シグネチャに従って、再び、最高の信号対雑音比を有するものは、動きを最も良く表すものとするという、この判断がなされる。

このことは説明のための例に過ぎず、最初だけ、カーネルに対する多数の変動値が必要となることは、当業者には明らかとなろう。また、選択された疎ゾーンと組み合わせた視線の動きを効果的に捕獲するカーネルが発見される時、目のタイプ、照明のタイプ、カメラに対する頭の向き、および、入力画像の限られたボックスの相対的なサイズが一定のままならば、カーネルは視線方向を常に捕獲することになることは、当業者には明らかとなろう。

また、所与の目のタイプ、照明のタイプ、および、カメラに対する頭の向きに対する１つの基線設定が発見され、図１３および図１５に記載されるステップを繰り返す必要はないが、これらのステップの結果は格納可能であることは、専門家には明らかとなるであろう。図１３、図１４および図１５に示される例において、１つの目のタイプに対する疎ゾーンおよびカーネルがいかに求められているかが分かる。

ここで、このプロセスをさまざまな目のタイプおよび照明条件などに対して繰り返すことができ、かつ、それぞれのタイプに対して、最も適切な疎ゾーンおよびカーネルが保存されることは明らかである。

視線方向信号が較正されると、信号対雑音比をさらに精密にすることができることも明らかである。所与の目のタイプに対して疎ゾーンを固定させ、かつ、カーネルを固定させる代わりに、それら疎ゾーンおよびカーネルを既知の視線の動きと共にシフトさせることができる。それ故に、わずかに左を見ている目によって、視線方向の信号対雑音比をさらに精密にさせるこれらの既知の目の方向の変更に従って、カーネルおよび／または疎ゾーンをわずかに変更させることになる。

分類器が目のタイプなどを認識し、視線方向を捕獲するために、保存された疎ゾーンとカーネルとの間の最良の選択を示すことになるため、この態様は、図２ａ、図２ｂ、図３ａ、図３ｂ、図４ａ、および、図４ｂに記載される分類ステップの重要性を明確に示す。

図１３および図１５の例において、疎ゾーンおよびカーネルは、左−右の視線の動きの捕獲を最適化するように選択されることが述べられている。上−下の動きを捕獲するために、同じ原理が従う可能性があることが明らかとなろう。上側‐下側の視線の動きを捕獲するために、これらのステップは、左−右の動きに対する選択とは異なる疎ゾーンおよび異なるカーネルをもたらすことになることも明らかとなろう。

これらのステップを、オフラインのステップまたはリアルタイムのどちらかで行うことができることも、当業者には明らかとなろう。

図１６において、それぞれの目のタイプおよび照明条件について、疎ゾーンおよびカーネルのさまざまな組み合わせは、視線方向を捕獲するためにいかに要求されるかが示されている。視線方向信号の信号対雑音、および、必要とされる計算量の低減は、選択された疎ゾーンおよびカーネルによって、求められる精密性に左右されることは、当業者には明らかとなろう。

原理として、包括的なカーネルによって大きいゾーンが選択可能であるが、これは、非常に低品質の視線方向信号、および、計算速度のゲインの低下につながる可能性があると思われる。

上述した視線追跡のための方法を考慮して、４つのチャネルは、使用される（左−右、上、下）チャネルであってよいが、２つのみのチャネルであってよく、左−右に１つ、および、上／下に１つが機能してよいことは留意すべきである。

スマートフォンおよびタブレットの場合、視線方向を画面から離れた時に正確に捕獲することではなく、画面上の視線方向の小さな変化といった事の検出が重要である。

光条件および個々の目について最も適切なゾーンおよび公式を判断するために分類器を使用する代わりに、チャネルに対して準備が整っている多数の可能な選択肢を有すること、および、計算中に信号対雑音のような計算を使用して、その条件にとって最良の結果を示すものを判断することもできる。

限られたボックスの目のサイズは瞳間の距離に比例し、より安定的な限られたボックスにつながる。しかしながら、このような安定的な限られたボックスを得るためのさらなる選択肢は、例えば、瞳のサイズまたは目のサイズに関連する限られたボックスを作るように使用可能である。限られたボックスは、瞳または目のどちらかに対して固定可能である。

上記疎ゾーンは、正方形または長方形である必要はなく、固定される必要もない。

本発明の方法を使用して、周波数ドメインを通して瞳または瞼などの目ではなく、空間定義域におけるさまざまなオブジェクトを追跡することができる。空間定義域におけるこの動きは、ある周波数の波長、実数値、および、虚数値によって定められるカーネルによって、特定の周波数ゾーンにおける周波数ドメインにおいて捕獲される。当該カーネルは、位相、特定の向きの正弦波、および、一定の強度を有するガウシアンフィルタを有する。

本発明の方法は、赤外光の使用、および、赤外線投射によってもたらされたる目におけるグリントの認識を必要としない。ユーザは、カメラの前に完璧にまっすぐに座り、かつ、静止する必要はなく、ユーザは、カメラの前の小さな動きのボックスに制限されない。

さらに、この方法は、２つ以上のカメラによる立体視を必要とせず、完全なソフトウェアソリューションを可能にし、このソフトウェアソリューションは、オペレーティングシステム、または、プロセッサもしくはほかの再プログラム可能ハードウェア上に直接プログラムされるオペレーティングシステムの外部のどちらかにおける一体化が可能である。

空間定義域における顔の特徴の位置の認識は、視線方向を計算するために要請されることはなく、空間定義域において分類された目の位置の間で補間は行われない。

Claims

ａ．カメラを通して顔のデジタルビデオストリームを得るステップであって、目および／または瞳が認識されて前記目および／または瞳の位置を判断し、前記目および／または瞳は次いで空間定義域における対応するボックスにおいて識別され、前記ボックスのコンテンツはさらなる計算のための入力である、ステップと、
ｂ．プロセッサによって、前記ボックスの前記コンテンツを周波数ドメインコンテンツに変換させるステップと、
ｃ．前記ボックスの前記周波数ドメインコンテンツに、プロセッサによって１つまたは複数の疎ゾーンを加えて、ボックス内の周波数ドメインエリアの小部分、および、前記１つまたは複数の疎ゾーンを少なくとも部分的に重ね合わせるフィルタリングカーネルを共に包含するステップと、
ｄ．プロセッサによって、それぞれの疎ゾーン内の周波数データと前記カーネルとの乗算を行って、その結果を組み合わせて単一値にするステップと、
ｅ．前記デジタルビデオストリームの各フレームに対して前記単一値を得る上記ステップ（ａ）〜（ｄ）を繰り返すステップであって、前記単一値の変動は時間による視線方向の変化の典型である、ステップと、を含む、視線追跡のための方法。
プロセッサによって、頭の向き、および、場合により、前記瞳および目の前記位置からさらなる顔の特徴を予測することをさらに含む、請求項１に記載の方法。
それぞれの目に対して光条件のタイプ、および、ユーザの目のタイプを分類するために所定の分類器を使用することをさらに含む、請求項２に記載の方法。
前記ボックスはそれぞれの瞳に対して中央に置かれる、請求項１に記載の方法。
前記ボックスは１つの目に対してのみ施される、請求項１に記載の方法。
初期化における視線方向の較正をさらに含む、請求項１に記載の方法。
前記較正は、ゲインおよびオフセットの直接的な較正である、請求項６に記載の方法。
前記較正は、一定時間に前記単一値を正規化するように行われる、請求項６に記載の方法。
前記条件のために保存された較正によって前記ユーザの前記目に対する分類器のリアルタイムの教育を組み合わせることによって、較正は保存され、再較正する必要ないユーザ認識を可能にする、請求項６に記載の方法。
前記カーネルは２次元フィルタ、例えば、ガボールフィルタを含む、請求項１に記載の方法。
目を中心にした前記ボックスを定める状態、前記カメラに対する顔の位置、および、向きを、前記デジタルビデオストリームからの最終視線計算サイクルの終了後に、プロセッサによって更新することをさらに含む、請求項２に記載の方法。
前記デジタルビデオストリームからの最終視線計算サイクルの終了後に、それぞれの視線方向およびそれぞれの目に対して使用される前記疎ゾーンおよびカーネルの判断を繰り返すことをさらに含む、請求項１１に記載の方法。
ステップ（ｂ）は離散フーリエ変換を採り入れるプロセッサによって行われる、請求項１に記載の方法。
ステップ（ｂ）は高速フーリエ変換を採り入れるプロセッサによって行われる、請求項１に記載の方法。
ステップ（ｂ）はＧｏｅｒｔｚｅｌアルゴリズムを採り入れるプロセッサによって行われる、請求項１に記載の方法。
前記単一値は疎ゾーン内の値の合計である、請求項１に記載の方法。
それぞれの疎ゾーンは単一チャネルに対応し、ステップ（ｅ）はフレームごとに変化する値の単一のベクトルをもたらす、請求項１に記載の方法。
単一値へと処理される値の配列を生じさせるために、プロセッサによってカーネルパラメータを掃引することをさらに含む、請求項１７に記載の方法。
複数の所与の疎周波数ゾーンおよびカーネルの場合、プロセッサによって計算を並列に行うことをさらに含む、請求項１に記載の方法。
ビデオストリームを生じさせるように構成される少なくとも１つのデジタルカメラ、および、少なくとも１つのプロセッサを備えるデバイスを動作させて、前記ビデオストリームにおいて顔が捕獲される時に視線追跡を得るための方法であって、
ａ．空間定義域における対応するボックスにおいて目または瞳を識別しかつ前記目または瞳をフレーミングするステップであって、前記ボックスのサイズは前記カメラに対する顔の位置および向きの関数であり、前記ボックスのコンテンツはさらなる計算のための入力である、ステップと、
ｂ．プロセッサによって、前記ボックスのコンテンツを周波数ドメインコンテンツに変換させるステップと、
ｃ．前記ボックスの前記周波数ドメインコンテンツに、プロセッサによって１つまたは複数の疎ゾーンを加えて、ボックス内の周波数ドメインエリアの小部分、および、前記１つまたは複数の疎ゾーンを少なくとも部分的に重ね合わせるフィルタリングカーネルを共に包含するステップと、
ｄ．プロセッサによって、それぞれの疎ゾーン内の周波数データと前記カーネルとの乗算を行って、その結果を組み合わせてそれぞれの疎ゾーンの単一値にするステップと、
ｅ．前記デジタルビデオストリームの各フレームに対して前記単一値を得る上記ステップ（ａ）〜（ｄ）を繰り返すステップであって、前記単一値の変動は時間に伴う視線方向の変化の典型である、ステップと、を含む、方法。