JP2023531293A

JP2023531293A - 視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体

Info

Publication number: JP2023531293A
Application number: JP2022580817A
Authority: JP
Inventors: デブルナー，トーマス; ジロー，ピエール; リー，チュンハン; エン，キーナン
Original assignee: イニベーション・アー・ゲー
Priority date: 2020-07-03
Filing date: 2021-06-30
Publication date: 2023-07-21
Also published as: CN115777118A; US20230266818A1; WO2022003013A1; KR20230017273A; EP3933550A1

Abstract

本発明は、視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体に関する。視線追跡デバイスは、ユーザの眼（２）から反射された放射（１２）を受信し、イベント（３１）の信号ストリーム（３）を作り出すように構成されるイベントベースの光センサ（１）であって、各イベント（３１）は、前記光センサ（１）の１つ以上の画素における、受信された放射の時間的変化の検出に対応する、光センサ（１）と、上記光センサ（１）に接続されるコントローラ（４）であって：ａ）前記光センサ（１）からイベント（３１）の信号ストリーム（３）を受信し、ｂ）イベント（３１）の前記ストリーム（３）の少なくとも一部分に基づいて推論フレーム（６１）を生成し、ｃ）機械学習モジュール（６）への入力として前記推論フレーム（６１）を利用し、出力データを取得するために前記機械学習モジュール（６）を動作させ、ｅ）前記出力データから、前記ユーザの前記眼（２）に関連する情報を抽出するように構成されるコントローラ（４）とを備える視線追跡デバイスであり、前記コントローラ（４）が第１の人工ニューラルネットワーク（５）を利用して前記推論フレーム（６１）を生成するように構成される。

Description

本発明は、視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体に関する。

視線追跡は、一般に、ユーザと呼ばれる人間の眼の動きまたは凝視のモニタリングを指す。ただし、ユーザは、当然ながら、その眼窩において視ている方向を変化させることができる眼を有するあらゆる他の人間や動物でもよい。

ユーザの凝視を追跡する可能な一手法は、周期的に眼の画像のフルフレームまたは従来のフレームを取得する従来のビデオカメラまたは写真カメラを用いることである。その後、フレームが取り込まれた時点での瞳孔の位置を決定するために、カメラに接続されたコントローラが、それらの画像フレームのそれぞれを解析し、それによってユーザが見ている方向が推定可能になる。この方法は、コントローラが解析する眼の画像を取得する、ビデオカメラまたは写真カメラなどのフレームベースのカメラの使用が必要である。そのような従来のカメラまたはフレームベースのカメラは、低速である場合が多い。また、それらは、カメラとコントローラとの間で転送が必要な大量のデータも作り出す。

視線追跡プロセスは、イベントベースのカメラ、またはダイナミックビジョンセンサ（ＤＶＳ）とも呼ばれるイベントベースのセンサを利用することによって加速され得る。ＥＰ３５９８２７４Ａ１は、複数のカメラを備えるシステムであって、カメラのうちの１つがイベントベースのカメラまたはＤＶＳであるシステムを説明する。しかしながら、この知られているシステムは、第２のフレームベースのカメラにも依存する。同様に、公開物「ＥｖｅｎｔＢａｓｅｄ，ＮｅａｒＥｙｅＧａｚｅＴｒａｃｋｉｎｇＢｅｙｏｎｄ１０，０００Ｈｚ」、Ａｎｇｅｌｏｐｏｕｌｏｓ，ＡｎａｓｔａｓｉｏｓＮ．等、ｐｒｅｐｒｉｎｔａｒＸｉｖ：２００４．０３５７７（２０２０）は、視線追跡のタスクのために、イベントベースのＤＶＳデータと併せて、従来の画像フレーム上での楕円検出を使用する。従来のコンピュータビジョンのアプローチが使用されるが、著者は、深層学習ベースの抽出方法が彼らの技術の容易な拡張となるであろうと述べている。したがって、この場合も、視線追跡プロセスは、フレームベースのカメラによって取得された従来の画像フレームに少なくとも部分的に依存する。眼の画像フレームの可用性に対する依存は、眼の位置を正確に予測できるようになる前に、視線追跡システムがフルフレームを取得することを必要とする。いくつかのシステムが将来の状態を予測するために補間を利用できるが、フルフレームを取得するためにかかる時間によって、最悪のケースの遅延が定義される。

ＤＶＳデータを使用する視線追跡システムを説明し、従来のフレームと同様に、受け取ったＤＶＳデータを強度画像に変換する方法の概略を述べるＵＳ１０４６６７７９Ａ１が、異なるアプローチに従っている。このアルゴリズムは、ＤＶＳストリームの数学的特性を使用する。従来のコンピュータビジョンのアプローチは、上記のようにして取得された強度画像から凝視および瞳孔の特性を予測するために使用される。

視線追跡のために、完全にイベントベースのセンサの出力の獲得を、畳み込みニューラルネットワークを使用した機械学習アプローチと組み合わせた方法が、ＷＯ２０１９１４７６７７Ａ１に説明されている。ＷＯ２０１９１４７６７７Ａ１では、強度画像、周波数画像、またはタイムスタンプ画像のいずれかを作り出すためにイベントカメラからのイベントを蓄積し、それらの画像が、その後、様々な凝視パラメータを予測するためにニューラルネットワークアルゴリズムに供給されるシステムが説明されている。この説明されているシステムは、イベントデータから強度画像の近似を作成する一般的でよく知られた技法である、人の手で設計された静的な蓄積レジームを使用する。このアプローチのマイナス面は、画像がノイジーであり、過去の瞳孔位置からのアーチファクトを呈する傾向があることである。ＷＯ２０１９１４７６７７Ａ１に説明されるものなど、ダウンストリームフレームベースの畳み込みニューラルネットワークは、ノイジーデータと、ＤＶＳイベントを蓄積する際に避けることができないアーチファクトなどの時間的アーチファクトに取り組むことができ、そのため、より複雑なニューラルネットワークを必要とする。

欧州特許出願公開第３５９８２７４号明細書米国特許第１０４６６７７９号明細書国際公開第２０１９／１４７６７７号

「ＥｖｅｎｔＢａｓｅｄ，ＮｅａｒＥｙｅＧａｚｅＴｒａｃｋｉｎｇＢｅｙｏｎｄ１０，０００Ｈｚ」、Ａｎｇｅｌｏｐｏｕｌｏｓ，ＡｎａｓｔａｓｉｏｓＮ．等、ｐｒｅｐｒｉｎｔａｒＸｉｖ：２００４．０３５７７（２０２０）

本発明の目的は、ユーザの眼の動きをより確実に追跡するためのデバイスおよび方法を提案することである。

この目的は、請求項１の特徴を有する視線追跡デバイス、請求項１４の特徴を有する視線追跡方法、および請求項１５の特徴を有するコンピュータ可読媒体を提供することによって、本発明により達成される。本発明のさらなる有益な実施形態は、下位クレームの主題である。

本発明によれば、視線追跡デバイスは、イベントベースの光センサと、そのセンサに接続されたコントローラとを備える。ユーザの眼から反射された放射は、放射に応答してイベントの信号ストリームを作り出すように構成されるイベントベースの光センサによって受信される。この信号ストリームは、コントローラに送られ、コントローラは、視線追跡プロセスの結果を取得するために信号ストリームに対して様々なプロセスを行う。したがって、コントローラは、以下に説明する解析を行うために、少なくとも処理ユニットとメモリとを備え得る。以下において、イベントベースの光センサは、単にイベントセンサと呼ばれる。

センサ、特に、ダイナミックビジョンセンサは、配列に配置されたいくつかの個別の画素を備えており、各画素は、感光セルまたは感光領域を有する。その感光セルに当たっている入射光における時間的変化を検出すると、本明細書では単に「イベント」と呼ばれるイベント信号が生成される。したがって、センサによって作り出されたイベントの信号ストリームにおける各イベントは、上記光センサの１つ以上の画素における受信された放射の時間的変化の検出に対応する。各イベントは、特に、配列における対応画素の位置と、極性、また任意選択で時間的変化の大きさとその変化が発生した時刻とを示すインディケータとを含み得る。イベントは、さらなる処理のために、信号ストリームの一部としてコントローラへ送られる。

コントローラは、イベントの信号ストリームを受信し、第１の人工ニューラルネットワークを利用して機械学習モジュールへの入力として利用される推論フレームを生成し、出力データを取得するように機械学習モジュールを動作させ、出力データから、前記ユーザの眼に関連する、求められている情報を抽出するように構成される。有益には、機械学習モジュールによって生成される出力データは、瞳孔の位置／配向などの求められている情報である。

推論フレームは、第１の人工ニューラルネットワークの出力および機械学習モジュールへの入力であるフレームであると定義され得る。推論フレームという用語は、寸法の幅、高さ、チャネルの３Ｄテンソルを指し得る。チャネルは、データの様々な表現の集合体である。この様々な表現は、特に、対数、スケール、空間的または時間的導関数、強度および／または周波数成分の位相など、線形または非線形の強度を含み得る。

第１のニューラルネットワークは、対応する入力データおよび出力データを用いて訓練される。この入力データおよび出力データは、シミュレーションソフトウェアを使用して生成され得る。訓練データについては、ネットワークの出力である推論フレームの構成要素が標準的な画像処理技法を使用して作成される一方、イベント入力ストリームは、イベントセンサの数学的モデルを使用して計算される。表現の選択は、有益には、第２のニューラルネットワークの性能を最適化するように行われるものである。第１のニューラルネットワークは、それらの表現の実現し得る最良の近似を作成するように訓練されるのが好ましい。

第１のニューラルネットワークに全表現を直接作成させることによって、システムは、単一の学習済み表現に対して標準的な画像処理アプローチを使用することよりも良好な再構成性能を実現し得る。第２のニューラルネットワークへの入力として複数の表現を有することによって、第２のニューラルネットワークは、単一の表現のみを有するよりも、眼凝視パラメータの推定においてより良好な性能を実現し得る。

本発明は、機械学習モジュールに対して生成された推論フレームを渡す前に、第１の人工ニューラルネットワークを利用して推論フレームを生成する概念に基づく。したがって、先行技術から、イベントデータから推論フレームを作成して機械学習モジュールへ入力する一般的でよく知られた技法である、人の手で設計された静的な蓄積レジームを使用することが知られているが、本発明は、人の手で設計された蓄積スキームを利用せず、推論フレームの生成をニューラルネットワークに担わせるシステムを提案する。このアプローチを使用することによって、非常に高品質の推論フレームが実現可能であり、後段の機械学習モジュールまたはプロセスによる良好な推定につながる。さらに、本発明によれば、瞳孔位置は、従来のフレームベースのカメラによって収集される画像フレームにアクセスする必要なしに、イベントの信号ストリームのみに基づいて決定される。

機械学習モジュールが入力データを処理できるようにするために、入力データは適切な形態で提供される必要がある。第１の人工ニューラルネットワークは、イベントのストリームを推論フレームに変換すべく存在し、したがって機械学習モジュールによって扱われることが可能である。好ましくは、推論フレームは、イベントセンサと同数の画素を有する。ただし、推論フレームは、従来のカメラによって提供可能な眼の従来の画像フレームとは区別される必要がある。推論フレームは、配列に配置された複数のフレーム画素を含み、さらに眼の画像の近似であり得るが、パラメータと、使用されている第１の人工ニューラルネットワークの応答とによっては、必ずしもそのような近似として意図されない。特に、第１の人工ニューラルネットワークが提供する出力がモニタリングされている眼の近似であるように、第１の人工ニューラルネットワークが構成される必要はない。むしろ、有益には、第１の人工ニューラルネットワークは、後段の機械学習モジュールの性能を改善または最大化する形態の推論フレームを作成するように構成される。適している推論フレームは、機械学習モジュールが処理する必要な情報を含む任意の種類のフレームでもよい。適している推論フレームは、例えば、線形または非線形スケールのおおよその強度、前記のおおよその強度の１次空間導関数、および／または前記のおおよその強度の高次の空間導関数を含み得る。

有益な実施形態によれば、コントローラが、イベントのストリームの部分をスパーステンソルに変換し、スパーステンソルを第１の人工ニューラルネットワークのための入力として使用するように構成される。テンソルは特にイベントセンサの寸法、すなわち、Ｗ×Ｈ×１を有してもよく、ここでＷおよびＨは画素におけるセンサの幅および高さである。テンソルは、対応画素においてセンサがイベントを報告した座標ｘ，ｙを除いて、全てゼロを含む。イベントが正の場合、テンソルは、座標ｘ，ｙにおいて１を含み、一方負のイベントの場合は－１を含む。ここで、正と負は、イベントとして記録される光強度の変化の極性を示す。イベントセンサが極性に関してだけでなく画素の光強度変化の大きさをも通知するように構成される場合、画素の座標ｘ，ｙにおけるテンソルの値は、この符号付きの大きさの値である。同一のテンソルに対応するイベントのバッチにおいて同一の画素で複数のイベントが発生した場合、最初のイベントのみが考慮される。一方、異なる画素における複数のイベントは、テンソルに別個で含まれることになる。

コントローラは、イベントのストリームを１つ、または２つ以上のイベント、特に連続したイベントの部分に分割してもよい。そのような各部分は、所定数のイベントを含み得る。もしくは、その部分は、所定の時間間隔を表していてもよく、その時間間隔、時間スロットまたは時間持続期間内で発生する全イベントを含んでもよい。スパーステンソルによる実装では、前記コントローラは、所定数のイベントに基づいて、または所定時間間隔または所定時間持続期間内で発生するイベントに基づいて、スパーステンソルを生成するように構成され得る。

有益には、第１の人工ニューラルネットワークは回帰型ニューラルネットワーク、すなわち、ＲＮＮである。ＲＮＮは、特に、例えば、最後の層、第１の層、および／または間の何らかの層において、ＲＮＮからの最後の出力が何らかのやり方でＲＮＮにフィードバックされる、または供給されることを意味する。有益には、ＲＮＮの出力は、ＲＮＮの入力にフィードバックされる。特に、ＲＮＮアルゴリズムの１回の実行後のＲＮＮの出力は、例えば処理対象の他のテンソルとともに、ＲＮＮアルゴリズムの連続実行中のＲＮＮへの複数の入力のうちの１つとして利用され得る。

第１の人工ニューラルネットワークは、そのうちの１層、または２層以上の層が畳み込み層でもあり得る複数の層を含む。そのため、第１の人工ニューラルネットワークがＲＮＮの場合、畳み込み回帰型ニューラルネットワークとも呼ばれ得る。第１の人工ニューラルネットワークは、また、ニューラルネットワークアルゴリズムの実行後の出力と、連続実行のための新規入力とを結合または連結するために、特に第１の層として連結層を含み得る。さらに、第１のニューラルネットワークは、１つまたは２つ以上の非線形活性化関数、特にレクティファイア（ｒｅｃｔｉｆｉｅｒ）および／または正規化層を備え得る。

好ましくは、第１の人工ニューラルネットワークの層のうちの１層または２層以上がメモ化層である。メモ化層は、最新のパス中、すなわち、ニューラルネットワークアルゴリズムの最新の実行中にその層の結果を記憶する。メモ化層によって実装が可能となり、全てのパス中に、入力スパーステンソル中の非ゼロのテンソル要素に応じてメモ化層の記憶された値のみが更新される。この技法は、ニューラルネットワーク推論速度を大幅に加速し、本デバイスにおいて、連続機械学習モジュールのためのより高品質な推論フレームにつながり得る。

１層または複数層のメモ化層の利用の背後にある考え方は、前の層における変化が極めて少ないとき、影響を受けたニューラルネットワークの内部値／状態を更新するのみで十分であるということである。これは、ニューラルネットワークにおける状態の更新時の処理能力を節約できる。畳み込み層に加えて、非線形活性化関数および／または正規化層もメモ化され得る。有益には、全ての畳み込み層および／または全ての非線形活性化関数は、メモ化される種類のものである。この場合、全ての層において、入力における変化の影響を直接受ける値のみが更新される。この入力は、ニューラルネットワークのスパーステンソルと、最新の結果との両方であり得る。したがって、スパースマトリクス入力による影響を直接受ける値のみが更新される。これらの値は、全ての入力が考慮に入れられて再計算される。メモ化は、任意の種類の人工ニューラルネットワークの任意の層に適用され得るが、ここでは、有益には、特にＲＮＮであり得る第１のニューラルネットワークに適用される。

好適な実施形態によれば、機械学習モジュールが、第２の人工ニューラルネットワークを備える。換言すれば、コントローラが、第２の人工ニューラルネットワークへの入力として前記推論フレームを利用し、出力データを取得するために第２の人工ニューラルネットワークを動作させるように構成される。特に、この第２の人工ニューラルネットワークは、畳み込みニューラルネットワークなどのバックプロパゲーション訓練済みニューラルネットワークであり得る。代替の実施形態では、第２の人工ニューラルネットワークの一部は、畳み込みニューラルネットワーク、特に、詳しく後述されるように、その共通バックエンドであり得る。

有益には、第２の人工ニューラルネットワークは、ニューラルネットワークを訓練するのための知られている方法である、特に「ａｄａｍ」または「確率的勾配降下法（ＳＧＤ）」オプティマイザを使用して既に訓練されている。この訓練は、記録され、手作業で注釈が付けられた大量の注釈付きデータを使用して行われ得る。いくつかの選択層は、デバイスのユーザによって再訓練または微調整され得る。この場合、ユーザは、例えば較正目的で、コンピュータ画面上の特定の位置を見るなどのタスクを行う必要がある場合がある。その後、デバイスは、センサからデータを収集し、ユーザの個別の特徴および振る舞いにより良好に適するように、第２の人工ニューラルネットワークの最後の層、特に最後の訓練可能層を微調整する。第１および第２の人工ニューラルネットワークは、個別に訓練され得る、または１つのシステムとして同時に訓練され得る、のいずれかである。第２のニューラルネットワークは、共通バックエンドと複数のフロントエンドとを備えるときも、好ましくは様々なフロントエンドに対して適用される様々な損失を用いて１つのニューラルネットワークとして訓練され得る。

好ましくは、畳み込みニューラルネットワークは、共通バックエンドと、１つ以上のフロントエンドとを備える。共通バックエンドは入力のバルク解析を行うが、出力を生成し、その後、その出力が、特にデバイスによって作り出されるべき特定の属性を推定するように構成および／または訓練されたフロントエンドによって解析される。これらの属性は、ユーザの凝視方向、ユーザの眼の瞳孔中心位置、ユーザの眼の瞳孔輪郭、ユーザの眼の瞳孔径、ユーザの眼の眼瞼位置、ユーザの眼の瞳孔形状、ユーザに関係する人識別情報、および／またはユーザの眼の瞳孔運動予測を含み得る。

これらは、視線追跡デバイスが獲得する際に関心があり得る重要な属性であり得る。したがって、コントローラは、有益には、機械学習方法が共通バックエンドおよび１つ以上のフロントエンドを有する畳み込みニューラルネットワークを含まない場合でも、出力データ情報からこれらの属性のうちの１つまたは複数を抽出するように構成される。有益には、このバックエンドは、完全畳み込みエンコーダ／デコーダシステムである。上述の人識別情報は、デバイスが複数のユーザによって使用される場合に有効な場合があり、その場合、決定された人識別情報は、ユーザのうちのいずれが現在そのデバイスを使用しているかを識別する際に役立ち得る。

有益な実施形態によれば、畳み込みニューラルネットワーク、または畳み込みニューラルネットワークとして実現される第２のニューラルネットワークの一部、特に共通バックエンド部は、１つまたは複数のエンコーダブロックおよび１つまたは複数のデコーダブロックを備えるエンコーダ／デコーダスキームを少なくとも部分的に用いて実現される。有益には、共通バックエンドは、２つ、４つ、または６つのエンコーダブロックおよび／または２つ、４つ、または６つのデコーダブロックを備え得る。有益には、畳み込みニューラルネットワークまたはその共通バックエンドは、完全畳み込みエンコーダ／デコーダシステムである。そのようなエンコーダ／デコーダニューラルネットワークは、特徴学習または表現学習の実装を可能とする。エンコーダブロックおよび／またはデコーダブロックのそれぞれは、特に、少なくとも２つの畳み込み層を備え得る。畳み込みニューラルネットワークは、前記エンコーダブロックと前記デコーダブロックとの間にアイデンティティスキップ（ｉｄｅｎｔｉｔｙｓｋｉｐ）接続をさらに備え得る。そのような残差接続とも呼ばれるスキップ接続またはショートカットは、より深層のニューラルネットワークの訓練を可能とするために、ニューラルネットワークの１つまたは複数の層をスキップするために利用され、勾配消失問題に役立つ。有益には、スキップ接続は、エンコーダ／デコーダシステムの最初のエンコーダを最後のデコーダと、および／または２番目のエンコーダを最後から２番目のデコーダと、などのように接続する。

視線追跡デバイスのイベントセンサは、光学フィルタが赤外（ＩＲ）線などの特定の波長範囲からの放射のみを検出するために、光学フィルタ、特に赤外線バンドパスフィルタが設けられ得る。眼から反射された放射が環境光であることが可能であるが、そのようなアプローチは、場合によっては低放射レベルまたは光外乱に起因する寄生信号を作りだし得るという欠点を有する。したがって、有益には、放射が眼から反射されてイベントセンサによって受信されるように、放射をユーザの眼に送るように構成される放射源が提供される。放射源がユーザを妨害しないために、放射源が作り出す放射は、可視レジーム外で良好である必要がある。好ましくは、放射源は、赤外線（ＩＲ）エミッタである。

有益には、視線追跡デバイスは、視線追跡デバイスを前記ユーザの身体、特に彼または彼女の頭部に装備するための身体装着装置、特に頭部装着装置を備える。そのようなデバイスの適用分野は、仮想現実または拡張現実を含んでもよく、フォービエイテッドレンダリングの実装をサポートし得る。

本発明のさらなる態様によれば、視線追跡方法およびコンピュータ可読媒体が提供される。視線追跡デバイスと関連して上述されたあらゆる特徴は、視線追跡方法またはコンピュータ可読媒体において、単独または適切な組み合わせで使用され得る。

本発明の実施形態のいくつかの例は、以下の記載において添付の概略図を参照してさらに詳細に説明される。

先行技術による視線追跡デバイスのセットアップの概略図である。好適な一実施形態による視線追跡デバイスのセットアップの概略図である。１つのイベントに基づくスパーステンソルの準備を示す図である。２つのイベントに基づくスパーステンソルの準備を示す図である。好適な実施形態による視線追跡デバイスの様々な処理段階を示す信号フロー図である。好適な実施形態による第１の人工ニューラルネットワークの層構造を示す図である。図５で説明されるニューラルネットワークの畳み込み層におけるスパース更新スキームを明確にするための概略図である。好適な実施形態による第２の人工ニューラルネットワークの基本構造を示す図である。図７に示される第２の人工ニューラルネットワークのバックエンドセクションの層構造を示す図である。図７に示される第２の人工ニューラルネットワークのフロントエンドセクションの層構造を示す図である。図７に示される第２の人工ニューラルネットワークのさらなるフロントエンドセクションの層構造を示す図である。

図１は、先行技術による視線追跡デバイスのセットアップの概略図である。放射源１０は放射１２を送り出し、放射１２はユーザの眼２から反射され、追跡される。反射放射１２は、従来のカメラ、すなわち、フレームベースのカメラ１’に入射する。フレームベースのカメラ１’は、入射放射１２を検出し、映像または画像フレームのシーケンス１１を生成し、シーケンス１１は従来のコントローラ４’に送信される。コントローラ４’は、その映像または画像フレームを解析し、モニタリング下の眼２の様々なパラメータ、特に凝視方向を決定可能である。

本発明の好適な実施形態による視線追跡デバイスのセットアップの概略図が図２に示されている。図１に示される先行技術の場合と同様に、放射源１０は放射１２を送り出し、その放射１２はユーザの眼２から反射される。反射された放射１２は、イベントベースのセンサまたはイベントセンサ１に入射する。放射源１０、イベントセンサ１、および放射を収束するための光学レンズ（不図示）が、眼鏡、仮想現実（ＶＲ）または拡張現実（ＡＲ）デバイスなどの頭部装着型デバイス（不図示）に取り付けられる。イベントセンサ１は、赤外線バンドパスフィルタが装備される。眼の動きが、ユーザの眼２から反射された放射１２の光強度における変化を発生させる。これらの光強度変化または変動は、イベントセンサ１によって捕捉される。それに応答して、イベントセンサ１は、光変化イベントのストリーム３を生成し、ストリーム３が処理のためにコントローラ４へ送信される。この処理は、以下で説明するように、回帰型ニューラルネットワーク（ＲＮＮ）のための適した入力を取得するためにイベントのストリーム３を前処理することと、推論フレームを取得するために前処理済みデータに対してＲＮＮを行うことと、所望の属性を推定するために畳み込みニューラルネットワーク（ＣＮＮ）を行うこととを含む。

イベントは、（ｐ，ｘ，ｙ，ｔ）として定義される４タプルであり、ｐは、光変化の極性（正は光強度の増加を意味し、負は光強度の減少を意味する）、または線形、対数、または他の光強度変化のスケーリングにおける符号付きの変化の大きさのいずれかである。ｘおよびｙは、イベントの画素座標であり、ｔは、観察されたイベントの厳密なタイムスタンプである。そのようなイベントが図３ａおよび図３ｂに示される。図３ａおよび図３ｂは、イベントの受信時にコントローラ４によって実行される前処理ステップを視覚化したものである。矢印の左側に示される１つまたは複数のイベントは、蓄積されて、矢印の右側に示されるスパーステンソルまたはスパースマトリクスに変換される。図３ａは、それぞれがスパーステンソルに変換される単一のイベントを示す。スパーステンソルは、値ｐを含む対応イベントの（ｘ，ｙ）座標に対応する（ｘ，ｙ）位置を除いて、ゼロで埋められる。対照的に、図３ｂは、イベントがペアでスパーステンソルに変換されることを示す。

１つのスパーステンソルに集められるより多くのイベントが存在してもよい。さらに、各スパーステンソルを所定数のイベントに基づいて作ることの代替案として、所定の時間間隔または時間持続期間内に存在するイベントに基づくことも可能である。

視線追跡デバイスの様々な処理段階およびこれらの段階間で転送されるデータの種類が図４に示される。イベントセンサ１は、イベント３１のストリーム３を生成する。これらのイベント３１は、コントローラ４に転送され、図３ａ／図３ｂを参照して上述されたようなにスパーステンソル５１を取得するために前処理モジュール４１によって処理される。テンソル５１は、推論フレーム６１を生成するために、ここでは回帰型ニューラルネットワーク（ＲＮＮ）５である第１のニューラルネットワークのために入力として使用される。最後に、推論フレーム６１は、畳み込みニューラルネットワーク（ＣＮＮ）６に供給され、畳み込みニューラルネットワーク（ＣＮＮ）６は、瞳孔パラメータ、特に凝視方向の推定を行う。

図５は、ＲＮＮベースのアルゴリズムの可能なセットアップの概略を示す。ＲＮＮアルゴリズムは、データの可用性に基づいてトリガされる。したがって、新規スパーステンソルが生成される度に、ＲＮＮアルゴリズムは新規推論フレームを生成するために呼び出される。最初のステップとして、ＤＶＳイベントストリームから取得されたスパーステンソルは、ＲＮＮに入力される５０１。ＲＮＮは、生成された最後の推論フレームの内部状態とともに、場合によっては他の中間活性化マップを維持する。ＲＮＮネットワークは、最後の状態およびスパース入力テンソルに基づいて新規状態を推定する。高性能を実現するために、入力テンソルのスパース性は、入力テンソルまたは入力マトリクスにおける影響を受けた変化である、より深層の値のみを更新するために利用される。図６は、以下でさらに説明されるこのスパース更新レジームを示す。

連結層５０２は、チャネル次元において、スパース入力テンソルと、ＲＮＮの前の処理中に生成された推論フレームとを結合または連結する。次いで、第１の畳み込み層５０３が、この連結に対して畳み込みを行う。次いで、第２の畳み込み層５０５が、第１の畳み込み層５０３の出力に対して動作する。次いで、第１の畳み込み層５０３の出力は、正規化される（バッチ正規化）５０７。ＲＮＮは、２つの非線形活性化関数５０４、５０６をさらに含む。この層構造によって、推論フレームが生成され５０８、連結層５０２のための入力のうちの１つとして使用される。

ＲＮＮの層５０３、５０４、５０５、５０６、５０７のそれぞれは、メモ化される。「メモ化された」層は、最新のパスの結果を記憶する。本実施形態では、全てのパスにおいて、スパース入力テンソルにおける非ゼロであるテンソル要素に依存する、ＲＮＮにおける値のみが更新される。この技法は、ＲＮＮ推論速度を大幅に加速し、連続したＣＮＮエスティメータのためにより高品質な推論フレームを利用することを可能にする。図６は、３×３畳み込みカーネルを用いたこのアプローチを示す。前の推論フレーム６１およびスパース入力テンソル５１、または短いスパーステンソル５１は、左に示されるように連結されている。右側には、入力テンソル５１のスパース性に起因して、畳み込み層における活性化の部分セット６０２のみが更新されることが示されている。

図７は、ＲＮＮから推論フレーム７０１を受信するＣＮＮのアーキテクチャの概念の概要を示す図である。このＣＮＮは、抽象特徴ベクトル７０３または抽象特徴マップを生成する共通バックエンド７０２を有する。この特徴ベクトルは、共通バックエンド７０２に続く様々なフロントエンドモジュール７０４のための入力として使用される。図７に示される例示的なフロントエンドは、結果として瞳孔位置７０４ｃを出力する瞳孔位置推定モジュール７０４ａと、眼が開いているか、閉じているかに関する情報７０４ｄを出力する瞬目分類モジュール７０４ｂとを含む。フロントエンド７０３の他のモジュール７０４ｅは、決定対象の他の属性専用として提供され得る。

図８がバックエンドの可能な実装をより詳細に示すが、図７に示される２つのフロントエンドの可能な実装が図９および図１０でより詳細に提示される。

図８の左側に示される共通バックエンドは、エンコーダ／デコーダスキームに基づいており、２つのエンコーダブロック８０２、８０３と、そのエンコーダブロックの後段の２つのデコーダブロック８０４、８０５とを備える。バックエンドの端部において、フロントエンドによってさらに処理される抽象特徴マップ８０８の結果を作り出す合成層８０６が存在する。第２のエンコーダブロック８０３から合成層８０６へつながる矢印からわかるように、抽象特徴マップ８０８は、第２のエンコーダブロック８０３および第２の／最後のデコーダブロック８０５の出力からの情報を含む。さらに、左側の２つの矢印によってわかるように、エンコーダ段とデコーダ段との間に２つのアイデンティティスキップ接続が存在する。これらのスキップ接続は、第１のエンコーダブロック８０２から第２のデコーダブロック８０５へ、さらに第２のエンコーダブロック８０３から第１のデコーダブロック８０４へつないでいる。

図８の右側において、エンコーダブロック８０２とデコーダブロック８０４との両方は、より詳細に示される。２つのエンコーダブロック８０２、８０３の全ては、特に、同一または非常に類似したアーキテクチャを有し得る。これは、さらに２つのデコーダブロック８０４、８０５も同様である。エンコーダブロック８０２は、２層の畳み込み層８１１、８１４と、２つの非線形活性化関数８１２、８１５と、バッチ正規化８１３、８１６とともに、最大値プーリング８１７を備える。デコーダブロック８０４は、アップサンプリング層８２１と、連結層８２２と、２層の畳み込み層８２３、８２６と、２つの非線形活性化関数８２４、８２７と、バッチ正規化８２５、８２８とを備える。さらに上述したように、共通バックエンドは、本明細書で示されるシステムからの異なる数のエンコーダブロックおよび／またはデコーダブロックを備え得るが、同一のアーキテクチャエンコーダブロックおよび／またはデコーダブロックを有する。例えば、２つ、４つ、または６つのエンコーダブロックおよび／または２つ、４つまたは６つのデコーダブロックが提供され得る。

図７に示される２つの例示的なフロントエンドは、図９および図１０により詳細に示される。図９のフロントエンドは、瞳孔位置特定または瞳孔位置推定のためのものである。このフロントエンドは、バックエンドから特徴ベクトル９０１を受信し、特徴選択マスク９０２を適用する。その後、畳み込み層９０３、非線形活性化関数９０４、およびバッチ正規化９０５が続く。バッチ正規化９０５の後の結果が瞳孔位置９０７を推定するために空間ソフトマックス層９０６へ、さらに瞳孔径９０９を推定するために完全接続層９０８へ送られる。図１０のフロントエンドは、瞬目検出のためのものである。このフロントエンドは、バックエンドから特徴ベクトル９１１を受信し、異なる特徴選択マスク９１２を適用する。このフロントエンドは、眼が開いているか、閉じているかに関する情報９１７を提供するために、第１の完全接続層９１３、非線形活性化層９１４、第２の完全接続層９１５、およびソフトマックス活性化関数９１６を備える。

バックエンドおよびフロントエンドを有するＣＮＮ全体は、１つのニューラルネットワークとして訓練され、異なる損失が異なるフロントエンドに適用される。１つのフロントエンドのみが取り付けられたＣＮＮを最初に訓練し、その後、１つ以上の層をフリーズし、その後、１つ以上のフロントエンド、場合によっては全てのフロントエンドが取り付けられたＣＮＮを訓練する他の訓練スキームも可能である。また、異なるフロントエンド間の訓練が交互に行われるスキームも可能である。推論フレーム生成のためのＲＮＮネットワークとは異なり、ＣＮＮは非常に、より複雑であり、結果を生成するためにより処理能力を必要とする。これが、ＣＮＮがデータの可用性によってトリガされず、代わりに新規予測のためのアプリケーションの要求によってトリガされることが好ましい理由である。

１’ フレームベースのカメラ、従来のカメラ
１１映像フレームのシーケンス
１０放射源、ＩＲエミッタ
１イベントベースの光センサ、イベントセンサ、ＤＶＳセンサ
１２眼に入射し、眼から反射される放射
２ユーザの眼
３イベントの信号ストリーム
３１イベント
４’ 先行技術のコントローラ
４コントローラ
４１入力処理モジュール
５第１の人工ニューラルネットワーク、回帰型ニューラルネットワーク、ＲＮＮ
５１スパーステンソル
６機械学習モジュール、第２の人工ニューラルネットワーク、畳み込みニューラルネットワーク、ＣＮＮ
６１推論フレーム

Claims

－ユーザの眼（２）から反射された放射（１２）を受信し、イベント（３１）の信号ストリーム（３）を作り出すように構成されるイベントベースの光センサ（１）であって、各イベント（３１）は、前記光センサ（１）の１つ以上の画素における、受信された放射の時間的変化の検出に対応する、光センサ（１）と、
－前記光センサ（１）に接続されるコントローラ（４）であって、
ａ）前記光センサ（１）からイベント（３１）の信号ストリーム（３）を受信し、
ｂ）イベント（３１）の前記ストリーム（３）の少なくとも一部分に基づいて推論フレーム（６１）を生成し、
ｃ）機械学習モジュール（６）への入力として前記推論フレーム（６１）を利用し、出力データを取得するために前記機械学習モジュール（６）を動作させ、
ｅ）前記出力データから、前記ユーザの前記眼（２）に関連する情報を抽出する
ように構成されるコントローラ（４）と
を備える視線追跡デバイスであって、
前記コントローラ（４）が第１の人工ニューラルネットワーク（５）を利用して前記推論フレーム（６１）を生成するように構成されることを特徴とする、視線追跡デバイス。
前記コントローラ（４）が、イベント（３１）の前記ストリーム（３）の前記部分をスパーステンソル（５１）に変換し、前記スパーステンソル（５１）を前記第１の人工ニューラルネットワーク（５）のための入力として使用するように構成されることを特徴とする、請求項１に記載の視線追跡デバイス。
前記コントローラ（４）が、所定数のイベント（３１）に基づいて、または所定の時間間隔または時間持続期間内で発生するイベント（３１）に基づいて、スパーステンソル（５１）を生成するように構成されることを特徴とする、請求項２に記載の視線追跡デバイス。
前記第１の人工ニューラルネットワーク（５）が回帰型ニューラルネットワークとなるように、前記コントローラが構成されることを特徴とする、請求項１から３のいずれか一項に記載の視線追跡デバイス。
前記コントローラが、前記第１の人工ニューラルネットワーク（５）が少なくとも１つのメモ化層を有するように構成されることを特徴とする、請求項１から４のいずれか一項に記載の視線追跡デバイス。
前記出力データ情報から、前記ユーザの凝視方向、前記ユーザの前記眼の瞳孔中心位置、前記ユーザの前記眼の瞳孔輪郭、前記ユーザの前記眼の瞳孔径、前記ユーザの前記眼の眼瞼位置、前記ユーザの前記眼の瞳孔形状、前記ユーザに関係する人識別情報、および／または前記ユーザの前記眼の瞳孔運動予測を抽出するように、前記コントローラが構成されることを特徴とする、請求項１から５のいずれか一項に記載の視線追跡デバイス。
前記コントローラが、第２の人工ニューラルネットワーク（６）への入力として前記推論フレーム（６１）を利用し、前記出力データを取得するために前記第２の人工ニューラルネットワーク（６）を動作させるように構成されることを特徴とする、請求項１から６のいずれか一項に記載の視線追跡デバイス。
前記第２の人工ニューラルネットワーク（６）が共通バックエンドと、１つ以上のフロントエンドとを備えるように、前記コントローラが構成されることを特徴とする、請求項７に記載の視線追跡デバイス。
前記第２の人工ニューラルネットワーク（６）が畳み込みニューラルネットワークであることを特徴とする、請求項７または８に記載の視線追跡デバイス。
前記畳み込みニューラルネットワークが、少なくとも部分的にエンコーダ／デコーダスキームを用いて実現されるように、前記コントローラが構成され、１つまたは複数のエンコーダブロックと１つまたは複数のデコーダブロックとを備えることを特徴とする、請求項９に記載の視線追跡デバイス。
前記畳み込みニューラルネットワークが前記エンコーダブロックと前記デコーダブロックとの間にアイデンティティスキップ接続を備えるように、前記コントローラが構成されることを特徴とする、請求項１０に記載の視線追跡デバイス。
前記エンコーダブロックおよび／または前記デコーダブロックのそれぞれが少なくとも２層の畳み込み層を備えるように、前記コントローラが構成されることを特徴とする、請求項１０または１１に記載の視線追跡デバイス。
放射（１２）がユーザの眼（２）から反射され、前記イベントベースの光センサ（１）によって受信されるように、ユーザの前記眼（２）に放射（１２）を送るように構成される放射源を特徴とする、請求項１から１２のいずれか一項に記載の視線追跡デバイス。
－ユーザの眼（２）から反射されてイベントベースの光センサ（１）によって受信された放射（１２）に起因して前記イベントベースの光センサ（１）によって作り出されたイベント（３１）の信号ストリーム（３）を受信するステップであって、各イベント（３１）は、前記光センサ（１）の１つ以上の画素における、受信された放射の時間的変化の検出に対応する、ステップと、
－イベント（３１）の前記ストリーム（３）の少なくとも一部分に基づいて推論フレーム（６１）を生成するステップと、
－機械学習モジュール（６）への入力として前記推論フレーム（６１）を利用し、出力データを取得するために前記機械学習モジュール（６）を動作させるステップと、
－前記出力データから、前記ユーザの前記眼（２）に関連する情報を抽出するステップとを含む視線追跡方法であって、
前記推論フレーム（６１）を生成するために第１の人工ニューラルネットワーク（５）を利用することを特徴とする、視線追跡方法。
コンピュータまたはマイクロコントローラによって実行されると、コンピュータまたはマイクロコントローラに、
－ユーザの眼（２）から反射されてイベントベースの光センサ（１）によって受信された放射（１２）に起因してイベントベースの光センサ（１）によって作り出されたイベント（３１）の信号ストリーム（３）を受信するステップであって、各イベント（３１）は、前記光センサ（１）の１つ以上の画素における、受信された放射の時間的変化の検出に対応する、ステップと、
－イベント（３１）の前記ストリーム（３）の少なくとも一部分に基づいて推論フレーム（６１）を生成するステップと、
－機械学習モジュール（６）への入力として前記推論フレーム（６１）を利用し、出力データを取得するために前記機械学習モジュール（６）を動作させるステップと、
－前記出力データから、前記ユーザの前記眼（２）に関連する情報を抽出するステップとを実行させる命令を備えるコンピュータ可読媒体であって、
前記推論フレーム（６１）を生成するために第１の人工ニューラルネットワーク（５）を利用することを特徴とする、コンピュータ可読媒体。