JP2023531293A - 視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体 - Google Patents

視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP2023531293A
JP2023531293A JP2022580817A JP2022580817A JP2023531293A JP 2023531293 A JP2023531293 A JP 2023531293A JP 2022580817 A JP2022580817 A JP 2022580817A JP 2022580817 A JP2022580817 A JP 2022580817A JP 2023531293 A JP2023531293 A JP 2023531293A
Authority
JP
Japan
Prior art keywords
eye
neural network
user
controller
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022580817A
Other languages
English (en)
Inventor
デブルナー,トーマス
ジロー,ピエール
リー,チュンハン
エン,キーナン
Original Assignee
イニベーション・アー・ゲー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イニベーション・アー・ゲー filed Critical イニベーション・アー・ゲー
Publication of JP2023531293A publication Critical patent/JP2023531293A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/47Image sensors with pixel address output; Event-driven image sensors; Selection of pixels to be read out based on image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Position Input By Displaying (AREA)

Abstract

本発明は、視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体に関する。視線追跡デバイスは、ユーザの眼(2)から反射された放射(12)を受信し、イベント(31)の信号ストリーム(3)を作り出すように構成されるイベントベースの光センサ(1)であって、各イベント(31)は、前記光センサ(1)の1つ以上の画素における、受信された放射の時間的変化の検出に対応する、光センサ(1)と、上記光センサ(1)に接続されるコントローラ(4)であって:a)前記光センサ(1)からイベント(31)の信号ストリーム(3)を受信し、b)イベント(31)の前記ストリーム(3)の少なくとも一部分に基づいて推論フレーム(61)を生成し、c)機械学習モジュール(6)への入力として前記推論フレーム(61)を利用し、出力データを取得するために前記機械学習モジュール(6)を動作させ、e)前記出力データから、前記ユーザの前記眼(2)に関連する情報を抽出するように構成されるコントローラ(4)とを備える視線追跡デバイスであり、前記コントローラ(4)が第1の人工ニューラルネットワーク(5)を利用して前記推論フレーム(61)を生成するように構成される。

Description

本発明は、視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体に関する。
視線追跡は、一般に、ユーザと呼ばれる人間の眼の動きまたは凝視のモニタリングを指す。ただし、ユーザは、当然ながら、その眼窩において視ている方向を変化させることができる眼を有するあらゆる他の人間や動物でもよい。
ユーザの凝視を追跡する可能な一手法は、周期的に眼の画像のフルフレームまたは従来のフレームを取得する従来のビデオカメラまたは写真カメラを用いることである。その後、フレームが取り込まれた時点での瞳孔の位置を決定するために、カメラに接続されたコントローラが、それらの画像フレームのそれぞれを解析し、それによってユーザが見ている方向が推定可能になる。この方法は、コントローラが解析する眼の画像を取得する、ビデオカメラまたは写真カメラなどのフレームベースのカメラの使用が必要である。そのような従来のカメラまたはフレームベースのカメラは、低速である場合が多い。また、それらは、カメラとコントローラとの間で転送が必要な大量のデータも作り出す。
視線追跡プロセスは、イベントベースのカメラ、またはダイナミックビジョンセンサ(DVS)とも呼ばれるイベントベースのセンサを利用することによって加速され得る。EP3598274A1は、複数のカメラを備えるシステムであって、カメラのうちの1つがイベントベースのカメラまたはDVSであるシステムを説明する。しかしながら、この知られているシステムは、第2のフレームベースのカメラにも依存する。同様に、公開物「Event Based,Near Eye Gaze Tracking Beyond 10,000Hz」、Angelopoulos,Anastasios N.等、preprint arXiv:2004.03577(2020)は、視線追跡のタスクのために、イベントベースのDVSデータと併せて、従来の画像フレーム上での楕円検出を使用する。従来のコンピュータビジョンのアプローチが使用されるが、著者は、深層学習ベースの抽出方法が彼らの技術の容易な拡張となるであろうと述べている。したがって、この場合も、視線追跡プロセスは、フレームベースのカメラによって取得された従来の画像フレームに少なくとも部分的に依存する。眼の画像フレームの可用性に対する依存は、眼の位置を正確に予測できるようになる前に、視線追跡システムがフルフレームを取得することを必要とする。いくつかのシステムが将来の状態を予測するために補間を利用できるが、フルフレームを取得するためにかかる時間によって、最悪のケースの遅延が定義される。
DVSデータを使用する視線追跡システムを説明し、従来のフレームと同様に、受け取ったDVSデータを強度画像に変換する方法の概略を述べるUS10466779A1が、異なるアプローチに従っている。このアルゴリズムは、DVSストリームの数学的特性を使用する。従来のコンピュータビジョンのアプローチは、上記のようにして取得された強度画像から凝視および瞳孔の特性を予測するために使用される。
視線追跡のために、完全にイベントベースのセンサの出力の獲得を、畳み込みニューラルネットワークを使用した機械学習アプローチと組み合わせた方法が、WO2019147677A1に説明されている。WO2019147677A1では、強度画像、周波数画像、またはタイムスタンプ画像のいずれかを作り出すためにイベントカメラからのイベントを蓄積し、それらの画像が、その後、様々な凝視パラメータを予測するためにニューラルネットワークアルゴリズムに供給されるシステムが説明されている。この説明されているシステムは、イベントデータから強度画像の近似を作成する一般的でよく知られた技法である、人の手で設計された静的な蓄積レジームを使用する。このアプローチのマイナス面は、画像がノイジーであり、過去の瞳孔位置からのアーチファクトを呈する傾向があることである。WO2019147677A1に説明されるものなど、ダウンストリームフレームベースの畳み込みニューラルネットワークは、ノイジーデータと、DVSイベントを蓄積する際に避けることができないアーチファクトなどの時間的アーチファクトに取り組むことができ、そのため、より複雑なニューラルネットワークを必要とする。
欧州特許出願公開第3598274号明細書 米国特許第10466779号明細書 国際公開第2019/147677号
「Event Based,Near Eye Gaze Tracking Beyond 10,000Hz」、Angelopoulos,Anastasios N.等、preprint arXiv:2004.03577(2020)
本発明の目的は、ユーザの眼の動きをより確実に追跡するためのデバイスおよび方法を提案することである。
この目的は、請求項1の特徴を有する視線追跡デバイス、請求項14の特徴を有する視線追跡方法、および請求項15の特徴を有するコンピュータ可読媒体を提供することによって、本発明により達成される。本発明のさらなる有益な実施形態は、下位クレームの主題である。
本発明によれば、視線追跡デバイスは、イベントベースの光センサと、そのセンサに接続されたコントローラとを備える。ユーザの眼から反射された放射は、放射に応答してイベントの信号ストリームを作り出すように構成されるイベントベースの光センサによって受信される。この信号ストリームは、コントローラに送られ、コントローラは、視線追跡プロセスの結果を取得するために信号ストリームに対して様々なプロセスを行う。したがって、コントローラは、以下に説明する解析を行うために、少なくとも処理ユニットとメモリとを備え得る。以下において、イベントベースの光センサは、単にイベントセンサと呼ばれる。
センサ、特に、ダイナミックビジョンセンサは、配列に配置されたいくつかの個別の画素を備えており、各画素は、感光セルまたは感光領域を有する。その感光セルに当たっている入射光における時間的変化を検出すると、本明細書では単に「イベント」と呼ばれるイベント信号が生成される。したがって、センサによって作り出されたイベントの信号ストリームにおける各イベントは、上記光センサの1つ以上の画素における受信された放射の時間的変化の検出に対応する。各イベントは、特に、配列における対応画素の位置と、極性、また任意選択で時間的変化の大きさとその変化が発生した時刻とを示すインディケータとを含み得る。イベントは、さらなる処理のために、信号ストリームの一部としてコントローラへ送られる。
コントローラは、イベントの信号ストリームを受信し、第1の人工ニューラルネットワークを利用して機械学習モジュールへの入力として利用される推論フレームを生成し、出力データを取得するように機械学習モジュールを動作させ、出力データから、前記ユーザの眼に関連する、求められている情報を抽出するように構成される。有益には、機械学習モジュールによって生成される出力データは、瞳孔の位置/配向などの求められている情報である。
推論フレームは、第1の人工ニューラルネットワークの出力および機械学習モジュールへの入力であるフレームであると定義され得る。推論フレームという用語は、寸法の幅、高さ、チャネルの3Dテンソルを指し得る。チャネルは、データの様々な表現の集合体である。この様々な表現は、特に、対数、スケール、空間的または時間的導関数、強度および/または周波数成分の位相など、線形または非線形の強度を含み得る。
第1のニューラルネットワークは、対応する入力データおよび出力データを用いて訓練される。この入力データおよび出力データは、シミュレーションソフトウェアを使用して生成され得る。訓練データについては、ネットワークの出力である推論フレームの構成要素が標準的な画像処理技法を使用して作成される一方、イベント入力ストリームは、イベントセンサの数学的モデルを使用して計算される。表現の選択は、有益には、第2のニューラルネットワークの性能を最適化するように行われるものである。第1のニューラルネットワークは、それらの表現の実現し得る最良の近似を作成するように訓練されるのが好ましい。
第1のニューラルネットワークに全表現を直接作成させることによって、システムは、単一の学習済み表現に対して標準的な画像処理アプローチを使用することよりも良好な再構成性能を実現し得る。第2のニューラルネットワークへの入力として複数の表現を有することによって、第2のニューラルネットワークは、単一の表現のみを有するよりも、眼凝視パラメータの推定においてより良好な性能を実現し得る。
本発明は、機械学習モジュールに対して生成された推論フレームを渡す前に、第1の人工ニューラルネットワークを利用して推論フレームを生成する概念に基づく。したがって、先行技術から、イベントデータから推論フレームを作成して機械学習モジュールへ入力する一般的でよく知られた技法である、人の手で設計された静的な蓄積レジームを使用することが知られているが、本発明は、人の手で設計された蓄積スキームを利用せず、推論フレームの生成をニューラルネットワークに担わせるシステムを提案する。このアプローチを使用することによって、非常に高品質の推論フレームが実現可能であり、後段の機械学習モジュールまたはプロセスによる良好な推定につながる。さらに、本発明によれば、瞳孔位置は、従来のフレームベースのカメラによって収集される画像フレームにアクセスする必要なしに、イベントの信号ストリームのみに基づいて決定される。
機械学習モジュールが入力データを処理できるようにするために、入力データは適切な形態で提供される必要がある。第1の人工ニューラルネットワークは、イベントのストリームを推論フレームに変換すべく存在し、したがって機械学習モジュールによって扱われることが可能である。好ましくは、推論フレームは、イベントセンサと同数の画素を有する。ただし、推論フレームは、従来のカメラによって提供可能な眼の従来の画像フレームとは区別される必要がある。推論フレームは、配列に配置された複数のフレーム画素を含み、さらに眼の画像の近似であり得るが、パラメータと、使用されている第1の人工ニューラルネットワークの応答とによっては、必ずしもそのような近似として意図されない。特に、第1の人工ニューラルネットワークが提供する出力がモニタリングされている眼の近似であるように、第1の人工ニューラルネットワークが構成される必要はない。むしろ、有益には、第1の人工ニューラルネットワークは、後段の機械学習モジュールの性能を改善または最大化する形態の推論フレームを作成するように構成される。適している推論フレームは、機械学習モジュールが処理する必要な情報を含む任意の種類のフレームでもよい。適している推論フレームは、例えば、線形または非線形スケールのおおよその強度、前記のおおよその強度の1次空間導関数、および/または前記のおおよその強度の高次の空間導関数を含み得る。
有益な実施形態によれば、コントローラが、イベントのストリームの部分をスパーステンソルに変換し、スパーステンソルを第1の人工ニューラルネットワークのための入力として使用するように構成される。テンソルは特にイベントセンサの寸法、すなわち、W×H×1を有してもよく、ここでWおよびHは画素におけるセンサの幅および高さである。テンソルは、対応画素においてセンサがイベントを報告した座標x,yを除いて、全てゼロを含む。イベントが正の場合、テンソルは、座標x,yにおいて1を含み、一方負のイベントの場合は-1を含む。ここで、正と負は、イベントとして記録される光強度の変化の極性を示す。イベントセンサが極性に関してだけでなく画素の光強度変化の大きさをも通知するように構成される場合、画素の座標x,yにおけるテンソルの値は、この符号付きの大きさの値である。同一のテンソルに対応するイベントのバッチにおいて同一の画素で複数のイベントが発生した場合、最初のイベントのみが考慮される。一方、異なる画素における複数のイベントは、テンソルに別個で含まれることになる。
コントローラは、イベントのストリームを1つ、または2つ以上のイベント、特に連続したイベントの部分に分割してもよい。そのような各部分は、所定数のイベントを含み得る。もしくは、その部分は、所定の時間間隔を表していてもよく、その時間間隔、時間スロットまたは時間持続期間内で発生する全イベントを含んでもよい。スパーステンソルによる実装では、前記コントローラは、所定数のイベントに基づいて、または所定時間間隔または所定時間持続期間内で発生するイベントに基づいて、スパーステンソルを生成するように構成され得る。
有益には、第1の人工ニューラルネットワークは回帰型ニューラルネットワーク、すなわち、RNNである。RNNは、特に、例えば、最後の層、第1の層、および/または間の何らかの層において、RNNからの最後の出力が何らかのやり方でRNNにフィードバックされる、または供給されることを意味する。有益には、RNNの出力は、RNNの入力にフィードバックされる。特に、RNNアルゴリズムの1回の実行後のRNNの出力は、例えば処理対象の他のテンソルとともに、RNNアルゴリズムの連続実行中のRNNへの複数の入力のうちの1つとして利用され得る。
第1の人工ニューラルネットワークは、そのうちの1層、または2層以上の層が畳み込み層でもあり得る複数の層を含む。そのため、第1の人工ニューラルネットワークがRNNの場合、畳み込み回帰型ニューラルネットワークとも呼ばれ得る。第1の人工ニューラルネットワークは、また、ニューラルネットワークアルゴリズムの実行後の出力と、連続実行のための新規入力とを結合または連結するために、特に第1の層として連結層を含み得る。さらに、第1のニューラルネットワークは、1つまたは2つ以上の非線形活性化関数、特にレクティファイア(rectifier)および/または正規化層を備え得る。
好ましくは、第1の人工ニューラルネットワークの層のうちの1層または2層以上がメモ化層である。メモ化層は、最新のパス中、すなわち、ニューラルネットワークアルゴリズムの最新の実行中にその層の結果を記憶する。メモ化層によって実装が可能となり、全てのパス中に、入力スパーステンソル中の非ゼロのテンソル要素に応じてメモ化層の記憶された値のみが更新される。この技法は、ニューラルネットワーク推論速度を大幅に加速し、本デバイスにおいて、連続機械学習モジュールのためのより高品質な推論フレームにつながり得る。
1層または複数層のメモ化層の利用の背後にある考え方は、前の層における変化が極めて少ないとき、影響を受けたニューラルネットワークの内部値/状態を更新するのみで十分であるということである。これは、ニューラルネットワークにおける状態の更新時の処理能力を節約できる。畳み込み層に加えて、非線形活性化関数および/または正規化層もメモ化され得る。有益には、全ての畳み込み層および/または全ての非線形活性化関数は、メモ化される種類のものである。この場合、全ての層において、入力における変化の影響を直接受ける値のみが更新される。この入力は、ニューラルネットワークのスパーステンソルと、最新の結果との両方であり得る。したがって、スパースマトリクス入力による影響を直接受ける値のみが更新される。これらの値は、全ての入力が考慮に入れられて再計算される。メモ化は、任意の種類の人工ニューラルネットワークの任意の層に適用され得るが、ここでは、有益には、特にRNNであり得る第1のニューラルネットワークに適用される。
好適な実施形態によれば、機械学習モジュールが、第2の人工ニューラルネットワークを備える。換言すれば、コントローラが、第2の人工ニューラルネットワークへの入力として前記推論フレームを利用し、出力データを取得するために第2の人工ニューラルネットワークを動作させるように構成される。特に、この第2の人工ニューラルネットワークは、畳み込みニューラルネットワークなどのバックプロパゲーション訓練済みニューラルネットワークであり得る。代替の実施形態では、第2の人工ニューラルネットワークの一部は、畳み込みニューラルネットワーク、特に、詳しく後述されるように、その共通バックエンドであり得る。
有益には、第2の人工ニューラルネットワークは、ニューラルネットワークを訓練するのための知られている方法である、特に「adam」または「確率的勾配降下法(SGD)」オプティマイザを使用して既に訓練されている。この訓練は、記録され、手作業で注釈が付けられた大量の注釈付きデータを使用して行われ得る。いくつかの選択層は、デバイスのユーザによって再訓練または微調整され得る。この場合、ユーザは、例えば較正目的で、コンピュータ画面上の特定の位置を見るなどのタスクを行う必要がある場合がある。その後、デバイスは、センサからデータを収集し、ユーザの個別の特徴および振る舞いにより良好に適するように、第2の人工ニューラルネットワークの最後の層、特に最後の訓練可能層を微調整する。第1および第2の人工ニューラルネットワークは、個別に訓練され得る、または1つのシステムとして同時に訓練され得る、のいずれかである。第2のニューラルネットワークは、共通バックエンドと複数のフロントエンドとを備えるときも、好ましくは様々なフロントエンドに対して適用される様々な損失を用いて1つのニューラルネットワークとして訓練され得る。
好ましくは、畳み込みニューラルネットワークは、共通バックエンドと、1つ以上のフロントエンドとを備える。共通バックエンドは入力のバルク解析を行うが、出力を生成し、その後、その出力が、特にデバイスによって作り出されるべき特定の属性を推定するように構成および/または訓練されたフロントエンドによって解析される。これらの属性は、ユーザの凝視方向、ユーザの眼の瞳孔中心位置、ユーザの眼の瞳孔輪郭、ユーザの眼の瞳孔径、ユーザの眼の眼瞼位置、ユーザの眼の瞳孔形状、ユーザに関係する人識別情報、および/またはユーザの眼の瞳孔運動予測を含み得る。
これらは、視線追跡デバイスが獲得する際に関心があり得る重要な属性であり得る。したがって、コントローラは、有益には、機械学習方法が共通バックエンドおよび1つ以上のフロントエンドを有する畳み込みニューラルネットワークを含まない場合でも、出力データ情報からこれらの属性のうちの1つまたは複数を抽出するように構成される。有益には、このバックエンドは、完全畳み込みエンコーダ/デコーダシステムである。上述の人識別情報は、デバイスが複数のユーザによって使用される場合に有効な場合があり、その場合、決定された人識別情報は、ユーザのうちのいずれが現在そのデバイスを使用しているかを識別する際に役立ち得る。
有益な実施形態によれば、畳み込みニューラルネットワーク、または畳み込みニューラルネットワークとして実現される第2のニューラルネットワークの一部、特に共通バックエンド部は、1つまたは複数のエンコーダブロックおよび1つまたは複数のデコーダブロックを備えるエンコーダ/デコーダスキームを少なくとも部分的に用いて実現される。有益には、共通バックエンドは、2つ、4つ、または6つのエンコーダブロックおよび/または2つ、4つ、または6つのデコーダブロックを備え得る。有益には、畳み込みニューラルネットワークまたはその共通バックエンドは、完全畳み込みエンコーダ/デコーダシステムである。そのようなエンコーダ/デコーダニューラルネットワークは、特徴学習または表現学習の実装を可能とする。エンコーダブロックおよび/またはデコーダブロックのそれぞれは、特に、少なくとも2つの畳み込み層を備え得る。畳み込みニューラルネットワークは、前記エンコーダブロックと前記デコーダブロックとの間にアイデンティティスキップ(identity skip)接続をさらに備え得る。そのような残差接続とも呼ばれるスキップ接続またはショートカットは、より深層のニューラルネットワークの訓練を可能とするために、ニューラルネットワークの1つまたは複数の層をスキップするために利用され、勾配消失問題に役立つ。有益には、スキップ接続は、エンコーダ/デコーダシステムの最初のエンコーダを最後のデコーダと、および/または2番目のエンコーダを最後から2番目のデコーダと、などのように接続する。
視線追跡デバイスのイベントセンサは、光学フィルタが赤外(IR)線などの特定の波長範囲からの放射のみを検出するために、光学フィルタ、特に赤外線バンドパスフィルタが設けられ得る。眼から反射された放射が環境光であることが可能であるが、そのようなアプローチは、場合によっては低放射レベルまたは光外乱に起因する寄生信号を作りだし得るという欠点を有する。したがって、有益には、放射が眼から反射されてイベントセンサによって受信されるように、放射をユーザの眼に送るように構成される放射源が提供される。放射源がユーザを妨害しないために、放射源が作り出す放射は、可視レジーム外で良好である必要がある。好ましくは、放射源は、赤外線(IR)エミッタである。
有益には、視線追跡デバイスは、視線追跡デバイスを前記ユーザの身体、特に彼または彼女の頭部に装備するための身体装着装置、特に頭部装着装置を備える。そのようなデバイスの適用分野は、仮想現実または拡張現実を含んでもよく、フォービエイテッドレンダリングの実装をサポートし得る。
本発明のさらなる態様によれば、視線追跡方法およびコンピュータ可読媒体が提供される。視線追跡デバイスと関連して上述されたあらゆる特徴は、視線追跡方法またはコンピュータ可読媒体において、単独または適切な組み合わせで使用され得る。
本発明の実施形態のいくつかの例は、以下の記載において添付の概略図を参照してさらに詳細に説明される。
先行技術による視線追跡デバイスのセットアップの概略図である。 好適な一実施形態による視線追跡デバイスのセットアップの概略図である。 1つのイベントに基づくスパーステンソルの準備を示す図である。 2つのイベントに基づくスパーステンソルの準備を示す図である。 好適な実施形態による視線追跡デバイスの様々な処理段階を示す信号フロー図である。 好適な実施形態による第1の人工ニューラルネットワークの層構造を示す図である。 図5で説明されるニューラルネットワークの畳み込み層におけるスパース更新スキームを明確にするための概略図である。 好適な実施形態による第2の人工ニューラルネットワークの基本構造を示す図である。 図7に示される第2の人工ニューラルネットワークのバックエンドセクションの層構造を示す図である。 図7に示される第2の人工ニューラルネットワークのフロントエンドセクションの層構造を示す図である。 図7に示される第2の人工ニューラルネットワークのさらなるフロントエンドセクションの層構造を示す図である。
図1は、先行技術による視線追跡デバイスのセットアップの概略図である。放射源10は放射12を送り出し、放射12はユーザの眼2から反射され、追跡される。反射放射12は、従来のカメラ、すなわち、フレームベースのカメラ1’に入射する。フレームベースのカメラ1’は、入射放射12を検出し、映像または画像フレームのシーケンス11を生成し、シーケンス11は従来のコントローラ4’に送信される。コントローラ4’は、その映像または画像フレームを解析し、モニタリング下の眼2の様々なパラメータ、特に凝視方向を決定可能である。
本発明の好適な実施形態による視線追跡デバイスのセットアップの概略図が図2に示されている。図1に示される先行技術の場合と同様に、放射源10は放射12を送り出し、その放射12はユーザの眼2から反射される。反射された放射12は、イベントベースのセンサまたはイベントセンサ1に入射する。放射源10、イベントセンサ1、および放射を収束するための光学レンズ(不図示)が、眼鏡、仮想現実(VR)または拡張現実(AR)デバイスなどの頭部装着型デバイス(不図示)に取り付けられる。イベントセンサ1は、赤外線バンドパスフィルタが装備される。眼の動きが、ユーザの眼2から反射された放射12の光強度における変化を発生させる。これらの光強度変化または変動は、イベントセンサ1によって捕捉される。それに応答して、イベントセンサ1は、光変化イベントのストリーム3を生成し、ストリーム3が処理のためにコントローラ4へ送信される。この処理は、以下で説明するように、回帰型ニューラルネットワーク(RNN)のための適した入力を取得するためにイベントのストリーム3を前処理することと、推論フレームを取得するために前処理済みデータに対してRNNを行うことと、所望の属性を推定するために畳み込みニューラルネットワーク(CNN)を行うこととを含む。
イベントは、(p,x,y,t)として定義される4タプルであり、pは、光変化の極性(正は光強度の増加を意味し、負は光強度の減少を意味する)、または線形、対数、または他の光強度変化のスケーリングにおける符号付きの変化の大きさのいずれかである。xおよびyは、イベントの画素座標であり、tは、観察されたイベントの厳密なタイムスタンプである。そのようなイベントが図3aおよび図3bに示される。図3aおよび図3bは、イベントの受信時にコントローラ4によって実行される前処理ステップを視覚化したものである。矢印の左側に示される1つまたは複数のイベントは、蓄積されて、矢印の右側に示されるスパーステンソルまたはスパースマトリクスに変換される。図3aは、それぞれがスパーステンソルに変換される単一のイベントを示す。スパーステンソルは、値pを含む対応イベントの(x,y)座標に対応する(x,y)位置を除いて、ゼロで埋められる。対照的に、図3bは、イベントがペアでスパーステンソルに変換されることを示す。
1つのスパーステンソルに集められるより多くのイベントが存在してもよい。さらに、各スパーステンソルを所定数のイベントに基づいて作ることの代替案として、所定の時間間隔または時間持続期間内に存在するイベントに基づくことも可能である。
視線追跡デバイスの様々な処理段階およびこれらの段階間で転送されるデータの種類が図4に示される。イベントセンサ1は、イベント31のストリーム3を生成する。これらのイベント31は、コントローラ4に転送され、図3a/図3bを参照して上述されたようなにスパーステンソル51を取得するために前処理モジュール41によって処理される。テンソル51は、推論フレーム61を生成するために、ここでは回帰型ニューラルネットワーク(RNN)5である第1のニューラルネットワークのために入力として使用される。最後に、推論フレーム61は、畳み込みニューラルネットワーク(CNN)6に供給され、畳み込みニューラルネットワーク(CNN)6は、瞳孔パラメータ、特に凝視方向の推定を行う。
図5は、RNNベースのアルゴリズムの可能なセットアップの概略を示す。RNNアルゴリズムは、データの可用性に基づいてトリガされる。したがって、新規スパーステンソルが生成される度に、RNNアルゴリズムは新規推論フレームを生成するために呼び出される。最初のステップとして、DVSイベントストリームから取得されたスパーステンソルは、RNNに入力される501。RNNは、生成された最後の推論フレームの内部状態とともに、場合によっては他の中間活性化マップを維持する。RNNネットワークは、最後の状態およびスパース入力テンソルに基づいて新規状態を推定する。高性能を実現するために、入力テンソルのスパース性は、入力テンソルまたは入力マトリクスにおける影響を受けた変化である、より深層の値のみを更新するために利用される。図6は、以下でさらに説明されるこのスパース更新レジームを示す。
連結層502は、チャネル次元において、スパース入力テンソルと、RNNの前の処理中に生成された推論フレームとを結合または連結する。次いで、第1の畳み込み層503が、この連結に対して畳み込みを行う。次いで、第2の畳み込み層505が、第1の畳み込み層503の出力に対して動作する。次いで、第1の畳み込み層503の出力は、正規化される(バッチ正規化)507。RNNは、2つの非線形活性化関数504、506をさらに含む。この層構造によって、推論フレームが生成され508、連結層502のための入力のうちの1つとして使用される。
RNNの層503、504、505、506、507のそれぞれは、メモ化される。「メモ化された」層は、最新のパスの結果を記憶する。本実施形態では、全てのパスにおいて、スパース入力テンソルにおける非ゼロであるテンソル要素に依存する、RNNにおける値のみが更新される。この技法は、RNN推論速度を大幅に加速し、連続したCNNエスティメータのためにより高品質な推論フレームを利用することを可能にする。図6は、3×3畳み込みカーネルを用いたこのアプローチを示す。前の推論フレーム61およびスパース入力テンソル51、または短いスパーステンソル51は、左に示されるように連結されている。右側には、入力テンソル51のスパース性に起因して、畳み込み層における活性化の部分セット602のみが更新されることが示されている。
図7は、RNNから推論フレーム701を受信するCNNのアーキテクチャの概念の概要を示す図である。このCNNは、抽象特徴ベクトル703または抽象特徴マップを生成する共通バックエンド702を有する。この特徴ベクトルは、共通バックエンド702に続く様々なフロントエンドモジュール704のための入力として使用される。図7に示される例示的なフロントエンドは、結果として瞳孔位置704cを出力する瞳孔位置推定モジュール704aと、眼が開いているか、閉じているかに関する情報704dを出力する瞬目分類モジュール704bとを含む。フロントエンド703の他のモジュール704eは、決定対象の他の属性専用として提供され得る。
図8がバックエンドの可能な実装をより詳細に示すが、図7に示される2つのフロントエンドの可能な実装が図9および図10でより詳細に提示される。
図8の左側に示される共通バックエンドは、エンコーダ/デコーダスキームに基づいており、2つのエンコーダブロック802、803と、そのエンコーダブロックの後段の2つのデコーダブロック804、805とを備える。バックエンドの端部において、フロントエンドによってさらに処理される抽象特徴マップ808の結果を作り出す合成層806が存在する。第2のエンコーダブロック803から合成層806へつながる矢印からわかるように、抽象特徴マップ808は、第2のエンコーダブロック803および第2の/最後のデコーダブロック805の出力からの情報を含む。さらに、左側の2つの矢印によってわかるように、エンコーダ段とデコーダ段との間に2つのアイデンティティスキップ接続が存在する。これらのスキップ接続は、第1のエンコーダブロック802から第2のデコーダブロック805へ、さらに第2のエンコーダブロック803から第1のデコーダブロック804へつないでいる。
図8の右側において、エンコーダブロック802とデコーダブロック804との両方は、より詳細に示される。2つのエンコーダブロック802、803の全ては、特に、同一または非常に類似したアーキテクチャを有し得る。これは、さらに2つのデコーダブロック804、805も同様である。エンコーダブロック802は、2層の畳み込み層811、814と、2つの非線形活性化関数812、815と、バッチ正規化813、816とともに、最大値プーリング817を備える。デコーダブロック804は、アップサンプリング層821と、連結層822と、2層の畳み込み層823、826と、2つの非線形活性化関数824、827と、バッチ正規化825、828とを備える。さらに上述したように、共通バックエンドは、本明細書で示されるシステムからの異なる数のエンコーダブロックおよび/またはデコーダブロックを備え得るが、同一のアーキテクチャエンコーダブロックおよび/またはデコーダブロックを有する。例えば、2つ、4つ、または6つのエンコーダブロックおよび/または2つ、4つまたは6つのデコーダブロックが提供され得る。
図7に示される2つの例示的なフロントエンドは、図9および図10により詳細に示される。図9のフロントエンドは、瞳孔位置特定または瞳孔位置推定のためのものである。このフロントエンドは、バックエンドから特徴ベクトル901を受信し、特徴選択マスク902を適用する。その後、畳み込み層903、非線形活性化関数904、およびバッチ正規化905が続く。バッチ正規化905の後の結果が瞳孔位置907を推定するために空間ソフトマックス層906へ、さらに瞳孔径909を推定するために完全接続層908へ送られる。図10のフロントエンドは、瞬目検出のためのものである。このフロントエンドは、バックエンドから特徴ベクトル911を受信し、異なる特徴選択マスク912を適用する。このフロントエンドは、眼が開いているか、閉じているかに関する情報917を提供するために、第1の完全接続層913、非線形活性化層914、第2の完全接続層915、およびソフトマックス活性化関数916を備える。
バックエンドおよびフロントエンドを有するCNN全体は、1つのニューラルネットワークとして訓練され、異なる損失が異なるフロントエンドに適用される。1つのフロントエンドのみが取り付けられたCNNを最初に訓練し、その後、1つ以上の層をフリーズし、その後、1つ以上のフロントエンド、場合によっては全てのフロントエンドが取り付けられたCNNを訓練する他の訓練スキームも可能である。また、異なるフロントエンド間の訓練が交互に行われるスキームも可能である。推論フレーム生成のためのRNNネットワークとは異なり、CNNは非常に、より複雑であり、結果を生成するためにより処理能力を必要とする。これが、CNNがデータの可用性によってトリガされず、代わりに新規予測のためのアプリケーションの要求によってトリガされることが好ましい理由である。
1’ フレームベースのカメラ、従来のカメラ
11 映像フレームのシーケンス
10 放射源、IRエミッタ
1 イベントベースの光センサ、イベントセンサ、DVSセンサ
12 眼に入射し、眼から反射される放射
2 ユーザの眼
3 イベントの信号ストリーム
31 イベント
4’ 先行技術のコントローラ
4 コントローラ
41 入力処理モジュール
5 第1の人工ニューラルネットワーク、回帰型ニューラルネットワーク、RNN
51 スパーステンソル
6 機械学習モジュール、第2の人工ニューラルネットワーク、畳み込みニューラルネットワーク、CNN
61 推論フレーム

Claims (15)

  1. - ユーザの眼(2)から反射された放射(12)を受信し、イベント(31)の信号ストリーム(3)を作り出すように構成されるイベントベースの光センサ(1)であって、各イベント(31)は、前記光センサ(1)の1つ以上の画素における、受信された放射の時間的変化の検出に対応する、光センサ(1)と、
    - 前記光センサ(1)に接続されるコントローラ(4)であって、
    a)前記光センサ(1)からイベント(31)の信号ストリーム(3)を受信し、
    b)イベント(31)の前記ストリーム(3)の少なくとも一部分に基づいて推論フレーム(61)を生成し、
    c)機械学習モジュール(6)への入力として前記推論フレーム(61)を利用し、出力データを取得するために前記機械学習モジュール(6)を動作させ、
    e)前記出力データから、前記ユーザの前記眼(2)に関連する情報を抽出する
    ように構成されるコントローラ(4)と
    を備える視線追跡デバイスであって、
    前記コントローラ(4)が第1の人工ニューラルネットワーク(5)を利用して前記推論フレーム(61)を生成するように構成されることを特徴とする、視線追跡デバイス。
  2. 前記コントローラ(4)が、イベント(31)の前記ストリーム(3)の前記部分をスパーステンソル(51)に変換し、前記スパーステンソル(51)を前記第1の人工ニューラルネットワーク(5)のための入力として使用するように構成されることを特徴とする、請求項1に記載の視線追跡デバイス。
  3. 前記コントローラ(4)が、所定数のイベント(31)に基づいて、または所定の時間間隔または時間持続期間内で発生するイベント(31)に基づいて、スパーステンソル(51)を生成するように構成されることを特徴とする、請求項2に記載の視線追跡デバイス。
  4. 前記第1の人工ニューラルネットワーク(5)が回帰型ニューラルネットワークとなるように、前記コントローラが構成されることを特徴とする、請求項1から3のいずれか一項に記載の視線追跡デバイス。
  5. 前記コントローラが、前記第1の人工ニューラルネットワーク(5)が少なくとも1つのメモ化層を有するように構成されることを特徴とする、請求項1から4のいずれか一項に記載の視線追跡デバイス。
  6. 前記出力データ情報から、前記ユーザの凝視方向、前記ユーザの前記眼の瞳孔中心位置、前記ユーザの前記眼の瞳孔輪郭、前記ユーザの前記眼の瞳孔径、前記ユーザの前記眼の眼瞼位置、前記ユーザの前記眼の瞳孔形状、前記ユーザに関係する人識別情報、および/または前記ユーザの前記眼の瞳孔運動予測を抽出するように、前記コントローラが構成されることを特徴とする、請求項1から5のいずれか一項に記載の視線追跡デバイス。
  7. 前記コントローラが、第2の人工ニューラルネットワーク(6)への入力として前記推論フレーム(61)を利用し、前記出力データを取得するために前記第2の人工ニューラルネットワーク(6)を動作させるように構成されることを特徴とする、請求項1から6のいずれか一項に記載の視線追跡デバイス。
  8. 前記第2の人工ニューラルネットワーク(6)が共通バックエンドと、1つ以上のフロントエンドとを備えるように、前記コントローラが構成されることを特徴とする、請求項7に記載の視線追跡デバイス。
  9. 前記第2の人工ニューラルネットワーク(6)が畳み込みニューラルネットワークであることを特徴とする、請求項7または8に記載の視線追跡デバイス。
  10. 前記畳み込みニューラルネットワークが、少なくとも部分的にエンコーダ/デコーダスキームを用いて実現されるように、前記コントローラが構成され、1つまたは複数のエンコーダブロックと1つまたは複数のデコーダブロックとを備えることを特徴とする、請求項9に記載の視線追跡デバイス。
  11. 前記畳み込みニューラルネットワークが前記エンコーダブロックと前記デコーダブロックとの間にアイデンティティスキップ接続を備えるように、前記コントローラが構成されることを特徴とする、請求項10に記載の視線追跡デバイス。
  12. 前記エンコーダブロックおよび/または前記デコーダブロックのそれぞれが少なくとも2層の畳み込み層を備えるように、前記コントローラが構成されることを特徴とする、請求項10または11に記載の視線追跡デバイス。
  13. 放射(12)がユーザの眼(2)から反射され、前記イベントベースの光センサ(1)によって受信されるように、ユーザの前記眼(2)に放射(12)を送るように構成される放射源を特徴とする、請求項1から12のいずれか一項に記載の視線追跡デバイス。
  14. - ユーザの眼(2)から反射されてイベントベースの光センサ(1)によって受信された放射(12)に起因して前記イベントベースの光センサ(1)によって作り出されたイベント(31)の信号ストリーム(3)を受信するステップであって、各イベント(31)は、前記光センサ(1)の1つ以上の画素における、受信された放射の時間的変化の検出に対応する、ステップと、
    - イベント(31)の前記ストリーム(3)の少なくとも一部分に基づいて推論フレーム(61)を生成するステップと、
    - 機械学習モジュール(6)への入力として前記推論フレーム(61)を利用し、出力データを取得するために前記機械学習モジュール(6)を動作させるステップと、
    - 前記出力データから、前記ユーザの前記眼(2)に関連する情報を抽出するステップとを含む視線追跡方法であって、
    前記推論フレーム(61)を生成するために第1の人工ニューラルネットワーク(5)を利用することを特徴とする、視線追跡方法。
  15. コンピュータまたはマイクロコントローラによって実行されると、コンピュータまたはマイクロコントローラに、
    - ユーザの眼(2)から反射されてイベントベースの光センサ(1)によって受信された放射(12)に起因してイベントベースの光センサ(1)によって作り出されたイベント(31)の信号ストリーム(3)を受信するステップであって、各イベント(31)は、前記光センサ(1)の1つ以上の画素における、受信された放射の時間的変化の検出に対応する、ステップと、
    - イベント(31)の前記ストリーム(3)の少なくとも一部分に基づいて推論フレーム(61)を生成するステップと、
    - 機械学習モジュール(6)への入力として前記推論フレーム(61)を利用し、出力データを取得するために前記機械学習モジュール(6)を動作させるステップと、
    - 前記出力データから、前記ユーザの前記眼(2)に関連する情報を抽出するステップとを実行させる命令を備えるコンピュータ可読媒体であって、
    前記推論フレーム(61)を生成するために第1の人工ニューラルネットワーク(5)を利用することを特徴とする、コンピュータ可読媒体。
JP2022580817A 2020-07-03 2021-06-30 視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体 Pending JP2023531293A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20184020.4A EP3933550A1 (en) 2020-07-03 2020-07-03 Eye tracking device, eye tracking method, and computer-readable medium
EP20184020.4 2020-07-03
PCT/EP2021/067972 WO2022003013A1 (en) 2020-07-03 2021-06-30 Eye tracking device, eye tracking method, and computer-readable medium

Publications (1)

Publication Number Publication Date
JP2023531293A true JP2023531293A (ja) 2023-07-21

Family

ID=71514955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022580817A Pending JP2023531293A (ja) 2020-07-03 2021-06-30 視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体

Country Status (6)

Country Link
US (1) US20230266818A1 (ja)
EP (1) EP3933550A1 (ja)
JP (1) JP2023531293A (ja)
KR (1) KR20230017273A (ja)
CN (1) CN115777118A (ja)
WO (1) WO2022003013A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973391B (zh) * 2022-06-30 2023-03-21 北京万里红科技有限公司 应用于元宇宙的眼球跟踪方法、装置、设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10466779B1 (en) 2017-07-24 2019-11-05 Facebook Technologies, Llc Event camera for eye tracking
WO2019147677A1 (en) 2018-01-24 2019-08-01 Kaban Technologies Llc Event camera-based gaze tracking using neural networks
US10795435B2 (en) 2018-07-19 2020-10-06 Samsung Electronics Co., Ltd. System and method for hybrid eye tracker

Also Published As

Publication number Publication date
CN115777118A (zh) 2023-03-10
US20230266818A1 (en) 2023-08-24
WO2022003013A1 (en) 2022-01-06
KR20230017273A (ko) 2023-02-03
EP3933550A1 (en) 2022-01-05

Similar Documents

Publication Publication Date Title
US11923092B2 (en) Deep-learning-based fall detection based on human keypoints
US11861873B2 (en) Event camera-based gaze tracking using neural networks
Baldwin et al. Time-ordered recent event (TORE) volumes for event cameras
WO2019149061A1 (en) Gesture-and gaze-based visual data acquisition system
JP7383616B2 (ja) イベントベースセンサから信号を出力するための方法、およびそのような方法を使用するイベントベースセンサ
Rangesh et al. Driver gaze estimation in the real world: Overcoming the eyeglass challenge
US20210049349A1 (en) System And Method For Scalable Cloud-Robotics Based Face Recognition And Face Analysis
EP3925204B1 (en) Method of processing a series of events received asynchronously from an array of pixels of an event-based light sensor
CN113647095A (zh) 具有反馈回路和多个功率状态的传感器系统架构
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN116645917A (zh) Led显示屏亮度调节系统及其方法
JP2023531293A (ja) 視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体
CN109986553B (zh) 一种主动交互的机器人、系统、方法及存储装置
Zhang et al. In the blink of an eye: Event-based emotion recognition
CN112560618A (zh) 基于骨架和视频特征融合的行为分类方法
US20230239586A1 (en) Eye tracking using efficient image capture and vergence and inter-pupillary distance history
US20210377512A1 (en) Processing of signals using a recurrent state estimator
Tapu et al. Face recognition in video streams for mobile assistive devices dedicated to visually impaired
EP4113252A1 (en) Eye tracking device, eye tracking method, and computer-readable medium
EP4167199A1 (en) Method and system for tracking and quantifying visual attention on a computing device
US20230018247A1 (en) Brain-activity actuated extended-reality device
US20230368520A1 (en) Fast object detection in video via scale separation
US20230377321A1 (en) Low-power change-based neural network inference for image processing
US20230260268A1 (en) Personalized online learning for artificial reality applications
Bonazzi et al. Retina: Low-Power Eye Tracking with Event Camera and Spiking Hardware

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240508