JP2017522669A

JP2017522669A - シーンのキーポイントを追跡する方法

Info

Publication number: JP2017522669A
Application number: JP2017503013A
Authority: JP
Inventors: トビアスデルブリュック; クリスティアンブランドリ; マルクオスヴァルト
Original assignee: ユニヴァーシテトチューリッヒ
Priority date: 2014-07-24
Filing date: 2015-07-24
Publication date: 2017-08-10
Also published as: EP2977931A1; WO2016012624A1; KR20170036747A; EP3172699A1; US20170206422A1; US10262207B2; CN106575363A

Abstract

本発明は、光センサに対して移動する物体の画像の少なくとも１つのキーポイントの位置を追跡する方法であって、物体（１２）から反射される光が、その物体の画像を生成するように検出され、前記画像の少なくとも１つのキーポイント（Ｋｊ）の位置が、光センサの時間コントラストイベント（Ｅｖ）を用いて検出および更新される、方法に関する。本発明は、対応するコンピュータプログラムおよびデバイスにも関する。【選択図】図１

Description

本発明は、時間コントラストイベントを用いて視覚的キーポイントを追跡する方法、コンピュータプログラムおよびデバイスに関する。

特に、世界とリアルタイムの対話を行う、移動ロボット、モバイルデバイス（スマートフォンおよびタブレット）またはウェアラブルコンピュータ（例えば、スマートグラスまたはスマートウォッチ）などのモバイルプラットフォーム／モバイルデバイスにとって、低遅延および低電力消費が重要である。これらプラットフォームは、自己位置推定および地図作成（ＳＬＡＭ：ｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ）アプリケーション、モバイル拡張現実（ＡＲ：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）または深度推定のための、コンピュータビジョンシステムを備えることができる。現行のコンピュータビジョン技術は画像に基づき、そうすることで、高フレームレートによる低遅延または低フレームレートによる低電力消費のいずれかを有している。低遅延かつ低電力消費を実現するためには、処理が効率的でなければならない。イベントベースの時間コントラストセンサ（例えば、［７］（角括弧内の数字は以下の参考文献を表す）は、画素レベルで既に冗長情報を消去するので、より効率的な視覚情報処理を可能にする。こうしたセンサに関する主な課題の一つは、それらの出力が現行のフレームベースのマシンビジョンのアルゴリズムおよびシステムに対応していないことである。これらアルゴリズムの多くが、フレームの特定のキーポイントを位置特定し、識別し、マッチングすることに基づく（例えば、［８］、［５］）。キーポイントとは、エッジ、コーナーもしくはブロブなど特定の領域もしくは特徴、またはシーンに特徴的な他の特徴を表す、画像の点（例えば、ｘ，ｙ座標）である。キーポイントは、エッジ検出器、コーナー検出器またはブロブ検出器などの方法を用いて、同じシーンの異なる画像の同じスポットで確実に検出される。これらの点がそのシーンにとって特徴的なので、それらの環境を、キーポイントディスクリプタ（記述子）を用いて記述することができ、そうすることで、異なる画像の異なる組のキーポイントを比較できるようになる。このようにして、２つの画像を比較でき、特徴的な点の対応を確立することができる。ほとんどのキーポイントが２つの画像（フレームとも表される（ｄｅｎｏｔｅｓ））間で位置だけを変更し、したがって、画像全体を再評価することなくそれらの位置だけを追跡することが望ましいことになる。

この課題は請求項１の特性を有する方法によって解決される。各実施形態は下位クレームに提示するかまたは以下に記載する。

請求項１によれば、物体に対して（ｒｅｌａｔｉｖｅ）移動する光センサ（または光センサ手段）（本明細書で「ｒｅｌａｔｉｖｅ（対して）」とは、物体が静止している間に光センサが移動するか、もしくはその逆であるか、または光センサも物体も移動することを意味する）によって見られる物体の画像の少なくとも１つのキーポイントの位置を追跡する方法であって、
ａ）画像画素を備える物体の画像を生成するように、物体から反射される光を検出するステップであって、各画像画素に画素値が割り当てられ、各画素値は、それぞれの画像画素ごとに、検出された光の強度に単調に関係付けられる（物体は、光源によって供給される、好ましくは強度が一定の光によって照明することができ、その光には光源としての太陽から供給される自然光が含まれてもよい）、ステップと、
ｂ）前記画像の少なくとも１つのキーポイント（Ｋ^ｊ）の位置を検出するステップと、
ｃ）物体によって反射される光を、複数のセンサ画素を備える光センサによって検出するステップであって、各センサ画素に画素座標（ｕ，ｖ）が関連付けられ（それら座標は、具体的には、前記画像の前記画像画素の座標と位置合わせされ、例えば、対応する座標マッピングが知られているかまたは予め決められている）、各センサ画素は、それぞれのセンサ画素に当たる光の強度に比例する光電流および前記光電流に関係付けられる信号を生成し、各センサ画素は、それぞれのセンサ画素からの最後の時間コントラストイベント（Ｅｖ）以降に、それぞれのセンサ画素に当たる光によるそれぞれの信号が、第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加するかまたは第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少するときにのみ、時間コントラストイベント（Ｅｖ）を出力し、各時間コントラストイベント（Ｅｖ（ｕ，ｖ，ｔ））は、その関連付けられたセンサ画素の座標（ｕ，ｖ）、それぞれの時間コントラストイベント（Ｅｖ）が起こった時刻（ｔ）、ならびに、それぞれの時間コントラストイベント（Ｅｖ）が、前記信号が前記第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加したＯＮイベント（例えば、正の定数の極性値（例えば、＋１））であるかまたは前記信号が前記第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少したＯＦＦイベント（例えば、負の定数の極性値（例えば、−１））であるかを示す極性値を保持する、ステップと、
ｄ）前記時間コントラストイベント（Ｅｖ）を用いて少なくとも１つのキーポイント（Ｋ^ｊ）の位置を更新するステップと、
ｅ）新規画像が生成されるまでは、好ましくはステップｃ）からｄ）を繰り返すステップであって、新規画像が生成された場合は、ステップａ）からｅ）が行われ、ここでステップａ）の前記画像が前記新規画像になる、ステップと
を含む、方法。

もちろん、キーポイントＫ^ｊを複数検出することもできる。さらに、１つまたは複数の基準に従う様々な異なるキーポイントを追跡／検出することができる。本発明は、具体的には、追跡することに関する。よく知られたキーポイントの主な例は、本発明で使用してもよいＦＡＳＴコーナー検出器アルゴリズム［１０］を用いて検出できるコーナーである。キーポイントは、ＳＩＦＴ［８］もしくはＳＵＲＦ［５］で用いられるようなブロブ検出器、ＡＧＡＳＴ［９］アルゴリズムもしくはＢＲＩＳＫ［６］アルゴリズムで用いられるような他のコーナー検出器、またはキャニーエッジ検出器［４］などのエッジ検出器を用いて検出することもできる。

言い換えると、本発明は、非同期時間コントラストイベントを用いてキーポイントを追跡できるようにする方法（ならびにコンピュータプログラムおよびデバイス、以下を参照）に関する。時間コントラストイベントは、低遅延、低電力、高時間分解能で、高ダイナミックレンジにわたって発生させることができる。本発明は、キーポイントベースのマシンビジョンアプリケーションの分野でこれら特徴を活用できるようにする。本発明は、（例えば、強度）画像（非同期にサンプル抽出されるコントラストイベントから前記画像を区別するために画像フレームとも表される）のキーポイントを検出し、時間コントラストイベントを用いてそれらの位置を更新するというアイデアに基づく。読み出しモードを２つ有する光センサを用いて、または別々の２つの較正済みセンサ、すなわち、時間コントラストイベントを供給する光センサおよび全体画像を一度に供給するさらなる光センサを使用することによって、前記画像と時間コントラストイベントを位置合わせすることができる。読み出しモードを２つ有するこのようなセンサの一つは、ダイナミック・アンド・アクティブ・ピクセル・ビジョン・センサ（ＤＡＶＩＳ：ｄｙｎａｍｉｃａｎｄａｃｔｉｖｅｐｉｘｅｌｖｉｓｉｏｎｓｅｎｓｏｒ、詳細については、例えば、本明細書に援用される国際出願ＰＣＴ／ＥＰ２０１２／０７６０９３号参照）であり、そのセンサは、非同期に伝達される時間コントラストイベントを検出する画素から構成され、強度画像フレーム全体の読み出しも可能にする。このようなデュアル読み出しは、光の強度に比例する電流が時間コントラストイベントを算定するために消費されず、したがって、絶対強度を算定するためにも使用できるので可能になる（例えば、［１］、［２］）。

本発明による方法の実施形態によれば、ステップｂ）はさらに、
‐具体的には、少なくとも１つのキーポイント（Ｋ^ｊ）にディスクリプタベクトル（ｄｅｓｃｒｉｐｔｏｒｖｅｃｔｏｒ）を割り当てるステップ（具体的には、このようなディスクリプタベクトルは、少なくとも１つのキーポイントの周囲画像画素をベクトルの形態で記述し、ディスクリプタ法（ｄｅｓｃｒｉｐｔｏｒｍｅｔｈｏｄ）は、具体的には、変換された別の画像の同じキーポイントに関して同様のベクトルを送る。ディスクリプタベクトルは、具体的には、異なるキーポイントに関しては（例えば可能な限り）異なる。ある一定のタスクには、キーポイントに関してディスクリプタ（記述子）を有することが必要とされない場合があり、識別子で十分である。例えば、単眼ストラクチャ・フロム・モーション）と、
‐画像パッチを生成するステップであって、画像パッチは、少なくとも１つのキーポイントＫ^ｊの周りに配置された規定数の画像画素に、画像パッチのそれぞれの画像画素の画素値を割り当てる、ステップと、さらに、具体的には
‐画像パッチの自由度に沿った少なくとも１つの勾配パッチを算定するステップであって、前記少なくとも１つの勾配パッチは、画像パッチの各画像画素に、前記自由度に沿ったそれぞれの画像画素における画像パッチの画素値の勾配を割り当てる、ステップ（自由度とは、例えば、平行移動の自由度、つまり、ｘ、ｙ、もしくはｚ方向の自由度、または回転の自由度のうちの一つとすることができる。例えば以下を参照。このことは本発明によるコンピュータプログラムおよびデバイスにも当てはまる）と
を含む。

本発明による方法のさらなる実施形態によれば、ステップｃ）はさらに、
‐少なくとも１つのキーポイントの最新位置の周りの少なくとも１つの勾配パッチの範囲内の、Ｎ個の直近の時間コントラストイベントＢ^ｊを格納するステップと、
‐具体的には、時間コントラストパッチ内の位置（ｘ，ｙ）に従って、格納された時間コントラストイベントの重みづけされた極性値を合計することによって、時間コントラストパッチＳ_Ｅを算定するステップと、
‐具体的には、少なくとも１つの勾配パッチと時間コントラストパッチとの間の比較を算定するステップと、
‐具体的には、例えば、前記算定された比較を用いて類似性を最大化することによって、前記比較を用いて前記自由度に沿った画像の少なくとも１つのキーポイントの動きを算定するステップと
を含む。

本発明による方法のさらなる実施形態によれば、ステップｄ）はさらに、前記自由度に沿った前記動きを用いて少なくとも１つのキーポイントに関連付けられる少なくとも１つの勾配パッチの位置を更新するステップを含む。

さらに、本発明による方法の実施形態によれば、以下の時間コントラストイベントはステップｃ）で格納される。

すなわち、添え字ｊを有するキーポイントＫ^ｊに関するバッファＢ^ｊは、メトリックｄ（）を用いるキーポイントＫ^ｊからある一定の距離θ内にある最新のＮ個のイベントＥｖ（ｘ，ｙ，ｔ）を含む。

このメトリックｄ（）は空間成分および時間成分を含むことができ、したがって、キーポイント近傍の最も関係性のあるイベントだけがバッファに入れられることを保証する。

上記で既に示したように、本発明による方法の変形形態によれば、前記画像も前記光センサによってサンプル抽出され、すなわち、光センサは、前記時間コントラストイベントを生成し、かつ同時に全体画像／シーンをサンプル抽出するように設計される。あるいは、前記画像はさらなる（フレームベースの）光センサによってサンプル抽出することができ、その光センサは他方の光センサ／時間コントラストイベントと位置合わせされる。すなわち、２つのセンサ間の座標マッピングが知られているかまたは較正によって確立することができる。

さらに、本発明による方法の実施形態によれば、キーポイントＫ^ｊに関する時間コントラストパッチ（Ｓ_Ｅ）は、

に従って算定され、ここで、全イベントおよびそれに従うバッファは重み関数ｗ（）を用いて画素ｐ^ｊごとに合計される。

さらに、本方法の実施形態によれば、重み関数ｗ（）は、極性がＯＮの全イベントで＋１であり、極性がＯＦＦの全イベントで−１である。本方法の他の実施形態は、一定値または何らかの空間または時間の基準に従って重みを割り当てる（例えば、古いイベントはより小さく計上する）関数を用いることができる。最良のマッチングの代わりに最大の空間コントラストにおいて相互相関がピークに達するのを避けるために、具体的には、時間コントラストパッチの全画素から平均値が減算される（ゼロ平均相互相関）。

さらに、本発明による方法の実施形態によれば、前記動き（Δｘ）は、時間コントラストパッチと空間勾配パッチとの類似性を比較および最大化することによって算定される。本方法の実施形態によれば、前記比較は相互相関でよく、動きは、

に従って算定され、式中、＊は、少なくとも１つの勾配パッチｄＩ／ｄｘと時間コントラストパッチＳ_Ｅとの間の相互相関を表す。

もちろん、画像パッチのいくつかの自由度（例えば、画像平面に広がるｘおよびｙなど）に対応する複数の勾配パッチ（ｄＩ／ｄｘ、ｄＩ／ｄｙ、ｄＩ／ｄｚ、ｄＩ／ｄα、ｄＩ／ｄβ、ｄＩ／ｄγ、図４も参照）も算定することができ、それぞれの勾配パッチは、画像パッチＩの各画像画素に、それぞれの自由度に沿ったそれぞれの画像画素における画像パッチＩの画素値の勾配を割り当てる。

本発明による方法のさらなる実施形態によれば、前記比較は、固定量の前記動き（例えば、Δｘ）に関する最大スコアの時間コントラストパッチを事前算定することによって演算が単純化される。最も可能性の高い前記固定量の動きを判定するために、前記最大スコアの時間コントラストパッチに前記イベントバッファ（Ｂ^ｊ）を乗算する。

具体的には、前記２つの平面の平行移動の自由度ｘ、ｙに沿った勾配は、畳み込み手法を用いて、例えば、（強度）画像の２次元に関するゾーベル畳み込みカーネルの形態で、近似することができる。畳み込みカーネルは３×３の範囲を有し、以下の形態を有することができる。

ｚおよび回転自由度に沿った強度勾配は、キーポイント（座標ｘ^ｊおよびｙ^ｊを有するキーポイントＫ^ｊ）に特定的に算定することができる。

ｚの微分の場合、キーポイントのすぐ周りの値は無視することができるかまたは異なるように算定することができる。というのは、キーポイントのすぐ周りでは回転されるゾーベルカーネルが無意味だからである。

ｚの微分については、キーポイントの周りの値は無視することができる。αの微分では、同様のｙ座標に対する値、βの微分では、同様のｘ座標に対する値である。

γの微分でも、キーポイントの周りの値は無視することができる。

さらに、本発明の根底にある課題が請求項１３に記載のコンピュータプログラムによって解決される。

請求項１３によれば、光センサまたは光センサ手段に対して移動する物体の画像の少なくとも１つのキーポイントの位置を追跡するためのコンピュータプログラムは、コンピュータプログラムがコンピュータ（または本発明によるデバイスの処理ユニット）上で実行されるときに、
ａ）前記画像の少なくとも１つのキーポイントＫ^ｊの位置を検出するステップと、
ｂ）それぞれのセンサ画素からの最後の時間コントラストイベント以降に、光センサのセンサ画素に当たる光による、光電流に関係付けられる光センサの信号が、第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加するかまたは第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少するときにのみ光センサによって出力される時間コントラストイベントＥｖを用いて、少なくとも１つのキーポイントＫ^ｊの位置を更新するステップであって、各時間コントラストイベントＥｖ（ｕ，ｖ，ｔ）は、その関連付けられたセンサ画素の座標（ｕ，ｖ）、それぞれの時間コントラストイベント（Ｅｖ）が起こった時刻（ｔ）、ならびに、それぞれの時間コントラストイベントＥｖが、前記信号が前記第１のしきい値よりも大きい量だけ増加したＯＮイベントであるかまたは前記信号が前記第２のしきい値よりも大きい量だけ減少したＯＦＦイベントであるかを示す極性値を保持する、ステップと、
ｃ）新規画像が供給されるまで、具体的には、ステップａ）からｂ）を繰り返すステップであって、新規画像が供給された場合は、ステップａ）からｃ）が行われ、ここでステップａ）の前記画像が前記新規画像になる、ステップと
を行うためのプログラムコードを備える。

本発明によるコンピュータプログラムの実施形態によれば、ステップａ）はさらに、
‐具体的には、少なくとも１つのキーポイント（Ｋ^ｊ）にディスクリプタベクトルを割り当てるステップと（上記も参照）、
‐画像パッチＩを生成するステップであって、画像パッチは、少なくとも１つのキーポイント画像画素（Ｋ^ｊ）の周りに配置された規定数の画像画素に、画像パッチのそれぞれの画像画素の画素値を割り当てる、ステップと、
‐具体的には、画像パッチの自由度に沿った少なくとも１つの勾配パッチを算定するステップであって、前記少なくとも１つの勾配パッチは、画像パッチの各画像画素に、前記自由度に沿ったそれぞれの画像画素における画像パッチの画素値の勾配を割り当てる、ステップと
を含む。

本発明によるコンピュータプログラムの実施形態によれば、ステップｂ）はさらに、
‐少なくとも１つのキーポイントＫ^ｊの最新位置の周りの少なくとも１つの勾配パッチの範囲内の、Ｎ個の直近の時間コントラストイベントＢ^ｊを格納するステップと、
‐時間コントラストパッチ内の位置に従って、格納された時間コントラストイベントＢ^ｊの重みづけされた極性値を合計することによって、時間コントラストパッチＳ_Ｅを算定するステップと、
‐少なくとも１つの勾配パッチと時間コントラストパッチとの間の比較を算定するステップと、
‐前記算定された比較を用いて前記自由度に沿った画像の少なくとも１つのキーポイントＫ^ｊの動きを算定するステップと
を含む。

本発明によるコンピュータプログラムの実施形態によれば、ステップｂ）はさらに、前記自由度に沿った前記動きを用いてキーポイントに関連付けられる勾配パッチの位置を更新するステップを含む。

さらに、本発明によるコンピュータプログラムの実施形態によれば、ステップｂ）はさらに、以下の直近の時間コントラストイベント（Ｂ^ｊ）を格納するステップを含む。

さらに、本発明によるコンピュータプログラムの実施形態によれば、時間コントラストパッチＳ_Ｅは、具体的には、

に従って算定され、式中、

である。
さらに、本発明によるコンピュータプログラムの実施形態によれば、前記動きは、

に従って算定され、式中、＊は、少なくとも１つの勾配パッチと時間コントラストパッチＳ_Ｅとの間のゼロ平均相互相関を表す。

さらに、本発明によるコンピュータプログラムの実施形態によれば、画像パッチのいくつかの自由度に対応する複数の勾配パッチ（ｄＩ／ｄｘ、ｄＩ／ｄｙ、ｄＩ／ｄｚ、ｄＩ／ｄα、ｄＩ／ｄβ、ｄＩ／ｄγ）が算定され、それぞれの勾配パッチは、画像パッチの各画像画素に、それぞれの自由度に沿ったそれぞれの画像画素における画像パッチの画素値の勾配を割り当てる。

さらに、本発明によるコンピュータプログラムの実施形態によれば、前記比較はゼロ平均相互相関である。

さらに、本発明による課題は、請求項１４に記載のデバイスによって解決される。具体的には、本発明の実施形態によれば、このようなデバイスは、
‐モバイルデバイス、
‐ウェアラブルコンピュータ、
‐スマートフォン、
‐タブレットコンピュータ、
‐（例えば、スマート）グラス、
‐（例えば、スマート）ウォッチ、
‐移動ロボット、
‐（例えば、マイクロ）飛行体（例えば、ドローン）
のうちの一つとすることができる。

請求項１４によれば、光センサ手段（または光センサ）に対して移動する物体の画像の少なくとも１つのキーポイントの位置を追跡するためのデバイスは、
‐物体から反射される光を検出し画像画素を備える物体の画像を生成するように設計される、光センサ手段であって、各画像画素に画素値が割り当てられ、各画素値は、それぞれの画像画素ごとに検出された光の強度に単調に関係付けられる、光センサ手段
を備え、
‐デバイス（または、例えば、本発明によるコンピュータプログラムのようにコンピュータプログラムが実行されるデバイスの処理ユニット）は、前記画像の少なくとも１つのキーポイント（Ｋ^ｊ）の位置を検出するように設計され、
‐前記光センサ手段はさらに、物体によって反射される光を、複数のセンサ画素によって検出するように設計され、各センサ画素に画素座標（ｕ，ｖ）が関連付けられ、各センサ画素は、それぞれのセンサ画素に当たる光の強度に比例する光電流を生成し、前記光電流に関係付けられる信号を生成するように設計され、各センサ画素は、それぞれのセンサ画素からの最後の時間コントラストイベント（Ｅｖ）以降に、それぞれのセンサ画素に当たる光によるそれぞれの信号が、第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加するかまたは第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少するときにのみ、時間コントラストイベント（Ｅｖ）を出力するように設計され、各時間コントラストイベント（Ｅｖ（ｕ，ｖ，ｔ））は、その関連付けられたセンサ画素の座標（ｕ，ｖ）、それぞれの時間コントラストイベント（Ｅｖ）が起こった時刻（ｔ）、ならびに、それぞれの時間コントラストイベント（Ｅｖ）が、前記信号が前記第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加したＯＮイベントであるかまたは前記信号が前記第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少したＯＦＦイベントであるかを示す極性値を保持する。

本発明の別の態様によれば、デバイスは、本発明による方法を行うように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、前記時間コントラストイベントを用いて少なくとも１つのキーポイントＫ^ｊの位置を更新するように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイスは、少なくとも１つのキーポイント（Ｋ^ｊ）にディスクリプタベクトルまたは識別子（上記も参照）を割り当てるように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、少なくとも１つのキーポイントの周りに配置された規定数の画像画素に画像パッチのそれぞれの画像画素の画素値を割り当てる、画像パッチを生成するように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、画像パッチの自由度に沿った少なくとも１つの勾配パッチを算定するように設計され、前記少なくとも１つの勾配パッチは、画像パッチの各画像画素に、前記自由度に沿ったそれぞれの画像画素における画像パッチの画素値の勾配を割り当てる。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、少なくとも１つのキーポイントの最新位置の周りの少なくとも１つの勾配パッチの範囲内の、Ｎ個の直近の時間コントラストイベントＢ^ｊを格納するように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、時間コントラストパッチ内の位置（ｘ，ｙ）に従って、格納された時間コントラストイベントＢ^ｊの重みづけされた極性値を合計することによって、時間コントラストパッチＳ_Ｅを算定するように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、少なくとも１つの勾配パッチと時間コントラストパッチとの間の比較（例えば、相互相関）を算定し、前記算定された比較を用いて前記自由度に沿った画像の少なくとも１つのキーポイントの動きを算定するように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）はさらに、前記自由度に沿った前記動きを用いて少なくとも１つのキーポイントに関連付けられた勾配パッチの位置を更新するように設計される。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、キーポイントごとに以下の直近の時間コントラストイベント（Ｂ^ｊ）を格納するように設計される（上記も参照）。

さらに、本発明によるデバイスの実施形態によれば、光センサ手段は、時間コントラストイベントが前記画像と位置合わせされるように前記画像をサンプル抽出または生成しかつ前記時間コントラストイベントをサンプル抽出または生成するように設計される、単一の光センサとして形成される。

さらに、本発明によるデバイスの代替の実施形態によれば、センサ手段は、時間コントラストイベントが前記画像と位置合わせされるように、前記時間コントラストイベントを生成するように設計された光センサと、前記画像をサンプル抽出／生成するように設計された別個のさらなる光センサとを備え、そのさらなる光センサは光センサと位置合わせされる。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、

に従って時間コントラストパッチ（Ｓ_Ｅ）を算定するように設計され（上記も参照）、式中、

である。
さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、

に従って前記動きを算定するように設計され、式中、＊は、少なくとも１つの勾配パッチｄＩ／ｄｘと時間コントラストパッチＳ_Ｅとの間のゼロ平均相互相関を表す。

さらに、本発明によるデバイスの実施形態によれば、デバイス（例えば、前記コンピュータプログラムを実行する処理ユニットなど）は、画像パッチのいくつかの自由度に対応する複数の勾配パッチ（ｄＩ／ｄｘ、ｄＩ／ｄｙ、ｄＩ／ｄｚ、ｄＩ／ｄα、ｄＩ／ｄβ、ｄＩ／ｄγ）を算定するように設計され、それぞれの勾配パッチは、画像パッチの各画像画素に、それぞれの自由度に沿ったそれぞれの画像画素における画像パッチの画素値の勾配を割り当てる。

本発明のキーポイントを追跡する手法は低遅延かつ低電力消費であり、したがって、モバイルコンピュータ（タブレット、ラップトップなど）、モバイルフォン（スマートフォンなど）、ウェアラブルコンピュータ（スマートウォッチまたはスマートグラスなど）、自律または遠隔操作のロボット（超小型飛行体または歩行ロボットなど）を含む、環境と対話するかまたはそれらを表示するモバイルプラットフォームに非常に有用である。

以下に、図面を参照しながら本発明のさらなる利点および特性ならびに本発明の実施形態を説明する。

時間コントラストイベントに基づいてキーポイントを追跡するプロセスのフローチャートを示す。時間コントラストイベントに基づくキーポイント追跡のためのデバイス／装置の実施形態の概略的な図形描写を示す。キーポイントの１次元の動きの例示的な演算の図である。使用される座標系を示す。

本発明は、非同期時間コントラストイベントを用いて物体１２の画像のキーポイントを自動的に追跡できるようにする方法／アルゴリズム、コンピュータプログラムおよびデバイスに関する。時間コントラストイベントは、低遅延、低電力、高時間分解能で、高ダイナミックレンジにわたって発生させることができる。本発明は、キーポイントベースのマシンビジョンアプリケーションの分野でこれら特徴を活用できるようにする。具体的には、本発明は、（例えば、強度）画像フレームのキーポイントＫを検出し、時間コントラストイベントを用いてそれらの位置を更新するというアイデアに基づく。ダイナミック・アンド・アクティブ・ピクセル・ビジョン・センサ（ＤＡＶＩＳ）［１、２］など読み出しモードを２つ有する光センサを用いて、または図２に示すような別々の２つの較正済み光センサ１３、１４を使用することによって、画像フレームと時間コントラストイベントとを位置合わせすることができる。

具体的には、本発明の背後にある主な仮定は、シーンの照明が一様のままである場合、どの時間コントラストイベントも（１つまたは複数の）光センサ１３、１４に対して移動する空間コントラストによって引き起こされることである。そうなると、キーポイントの環境において時間コントラストを空間コントラストにマッチングさせると、キーポイントの動きを推測することが可能になる。

図２に示すように、本発明の第１の実施形態が、本発明によるデバイスに統合できる、分析手段、例えば、コンピュータ１５を備える。その分析手段、例えば、コンピュータ１５は、画像（強度画像または画像フレームまたは強度画像フレームとも表される）のキーポイントを追跡できるものとする。その画像は、例えば、光センサ（時間コントラストセンサとも表される）１４（または２つの光センサ１３、１４）を介して同じデバイスによってサンプル抽出され、その光センサは、分析されるシーンまたは図１および図４に示す木１２など１つもしくは複数の物体に向けられる。（時間コントラスト）センサ１４が１つだけ用いられる場合は、画像フレーム全体に関して、そのシーンの（強度）画像を取得できる可能性を有する必要がある（例えば［１］）。そうでない場合は、第２のフレームベースの光センサ（例えば、カメラ）１３を追加して使用することができる（上記を参照）。こうしたフレームベースの光センサ１３は、具体的には、２つのセンサ１３と１４との間の座標マッピングを確立できるようにして較正される。センサ１３、１４は様々な位置からシーンを観測することができる。シーンが観測される間は、太陽でよい光源１６がその強度を変えないかまたはゆっくりと（数秒よりも長いタイムスケールで）しか変えない。本発明の方法およびコンピュータプログラムは、本発明によるデバイスに統合できるコンピュータまたは前記処理ユニット１５上で実行される。前記コンピュータまたは処理ユニット１５は、具体的には、入ってくる画像およびイベントを格納および処理する手段を備える。前記処理は本発明の実行に必要な基本的な動作を含む。前記コンピュータまたは処理ユニット１５は同期して動作しても非同期に動作してもよい。前記格納手段はアナログでもデジタルでもよい。前記処理は順番に実行しても並行して実行してもよい。

図１によれば、第１のステップで（例えば、強度）画像フレームＩが取得され（ステップ１）、コンピュータ１５に送信され、そこで、必要な場合はグレースケールに変換され、正規化される。強度画像Ｉは対数圧縮でき、したがって、Ｉ＝ｌｏｇ（Ｉ）になる。これらステップは、例えばＵＳＢケーブルを通して前記コンピュータまたは処理ユニット１５に接続されたＤＡＶＩＳセンサ１４の形態の光センサを用いて行うことができる。前記コンピュータまたは処理デバイス１５は、本発明の例ではラップトップ（すなわち、ＩｎｔｅｌＣｏｒｅｉ７‐３７４０ＱＭＣＰＵおよび１６ＧＢＲＡＭを有する、ＨＰＥｌｉｔｅＢｏｏｋ８５７０ｐ）である。このステップは、強度フレーム（すなわち画像）が格納および伝達されるフォーマットの変更を伴う。

画像の特徴的な部分をマークするキーポイントＫは、キーポイントまたは特徴量の検出方法を用いて検出される（ステップ２）。キーポイントとは、シーンに特徴的なエッジ、コーナーまたはブロブなど特定の領域を表す、画像の点（例えば、ｘ，ｙ座標）である。それらは、エッジ検出器、コーナー検出器またはブロブ検出器などの方法を用いて、同じシーンの異なる画像の同じスポットで確実に検出される。これら点がそのシーンに特徴的なので、それらの環境をキーポイントディスクリプタを用いて記述することができ、そうすることで、異なる画像の異なる組のキーポイントを比較できるようになる。このようにして、２つの画像を比較することができ、特徴的な点の対応を確立することができる。このステップは、ＦＡＳＴコーナー検出器アルゴリズム［１０］を用いて行うことができる。ＳＩＦＴ［８］もしくはＳＵＲＦ［５］で用いられるようなブロブ検出器、ＡＧＡＳＴ［９］もしくはＢＲＩＳＫ［６］アルゴリズムで用いられるような他のコーナー検出器、またはキャニーエッジ検出器［４］などのエッジ検出器を用いて、キーポイントを検出することもできる。各画像ＩはキーポイントＫに関する１組のｋ座標タプルを含む。

キーポイントＫはキーポイントまたは特徴量のディスクリプタ（記述子）を用いて記述される（ステップ３）。

各キーポイントには、空間位置、ディスクリプタベクトル（または短いディスクリプタ）（ステップ３）、および勾配パッチ（ステップ４）（以下を参照）が割り当てられ、これらタプル（ｔｕｐｅｌｓ）はメモリに格納される。前記ディスクリプタベクトルはディスクリプタ法を用いて算定され、その方法は、可能な限り多くの変換（平行移動、回転、スケール、スキュー、明るさ）の下で、同じキーポイントに関して同じであるが極めて独特なディスクリプタベクトルを確実に生み出すべきである。良いキーポイントディスクリプタは、異なるキーポイントに関しては異なるディスクリプタベクトルを生み出すが、異なる画像（異なるカメラ、異なる視点など）の同じキーポイントに関しては同じディスクリプタベクトルを生み出す。前記ディスクリプタは、キーポイントの周りの空間勾配または２値画素比較を算定し、それらを回転不変法で処理し、結果を収集してベクトルにすることができる。空間位置およびディスクリプタベクトルは、他のプロセスに伝達することができ、そこで、キーポイントベースのコンピュータビジョンおよびマシンビジョンのために使用することができる。

キーポイントディスクリプタを用いたキーポイントの記述は、多くのメモリを必要とせず少ない演算量でマッチングできるＢＲＩＳＫキーポイントディスクリプタ［６］を用いて行うことができる。キーポイントを記述する他のディスクリプタには、ＳＩＦＴ［８］ディスクリプタ、ＳＵＲＦ［５］ディスクリプタおよびＢＲＩＥＦ［３］ディスクリプタが含まれる。

さらに、キーポイントＫの周りの既定サイズの画像パッチが格納される（ステップ４）。これらパッチは、コーナー検出器カーネルのサイズを有することができる。具体的には、（例えば、ＦＡＳＴコーナー検出器の場合は）このようなパッチはそのキーポイントを中央にして７×７画素の範囲を有することができる。

（強度）画像パッチ上の強度勾配が算定される（ステップ５）。強度勾配は、パッチの全ての自由度２４に沿って独立に算定することができる（図４参照）。自由度は、画像の平面内のｘ，ｙ平行移動に限定することができ、そうすると、これらの軸に沿った勾配ｄＩ／ｄｘおよびｄＩ／ｄｙだけが算定される。前記２つの平面平行移動に沿った勾配は畳み込み手法を用いることによって近似することができる。このステップは、強度画像の２次元に関して２つのゾーベル畳み込みカーネルを用いて行うことができる。畳み込みカーネルは３×３の範囲を有し、以下の形態を有することができる。

ｚおよび回転自由度に沿った強度勾配の演算を同様に算定することができる。

キーポイント１つに画像パッチが複数算定される場合は、具体的にはそれら画像パッチはいずれもそのキーポイントに割り当てられる。

具体的には、それぞれのディスクリプタベクトル３はその関連付けられるキーポイントの位置にリンクされる。具体的には、これは、同じソフトウェアオブジェクト内に維持することによって、またはメモリ内（例えば、ハードウェアソリューション内）で近接して配置することによって行われる。このようなリンクは、キーポイントおよびディスクリプタに共有されるＩＤまたはインデックスによって確立することもできる。

イベントベースのセンサが時間コントラストイベントのストリームを発生させる（ステップ７）。こうしたストリームは、光センサ１４（例えば、ＤＡＶＩＳ）によって発生し、例えば、ＵＳＢを通して、コンピュータ１５に伝達することができる。本発明によるこの光センサ１４の出力は、１組の時間コントラストイベントとして記述され、各イベントＥｖは、ｕアドレスおよびｖアドレス、タイムスタンプ、ならびに極性値（例えば、ＯＮイベントの場合は＋１の値、ＯＦＦイベントの場合は−１の値として）を保持する。

式中、Δｌｎ（Ｉｕ，ｖ）は最後のイベント以降の座標ｕ，ｖを有する画素における照明の変化を表す。Θ_ＯＮおよびΘ_ＯＦＦは、イベントを引き起こすために超えなければならないイベントしきい値を表す。これらしきい値は独立に設定でき、そうすることで、ＯＮイベントおよびＯＦＦイベントの数のバランスをとることができる。

直近のイベントは、キーポイント動き分析のためにそれらを格納することによってバッファに入れられる（ステップ８）。キーポイントの周囲にないイベントはいずれもフィルタによって除去することができる。バッファ基準は、キーポイントの最新位置の周りの勾配パッチの範囲内の、Ｎ個の最後のイベントとすることができる。Ｎは勾配パッチのコントラストの大きさに応じて変わることがある。キーポイントｊに関してバッファに入れられるイベントＢは、

と記述することができる。この式は時間的に順序づけられたリストを１組として記述する。言い換えると、Ｂだけが最新のイベントを維持すると述べることもできる。

バッファに入れられるイベントは時間コントラストパッチＳ_Ｅを算定するためにマッピングされる（ステップ９）。時間コントラストパッチは、どの領域がより明るくなり、どの領域がより暗くなったかを表す時間コントラストイベントの空間の累計である。時間コントラストパッチは、重み関数ｗ（）を用いてパッチ内の空間位置、極性および到着時刻に従ってバッファに入れられる時間コントラストイベントを合計することによって算定することができる。

式中、

時間コントラストを用いて、時間コントラストパッチを引き起こした可能性のある空間コントラストパッチの最も可能性の高い動きを推測する（ステップ１０）。パッチ２２、２３の動きは６の自由度２４に制限される。パッチは、３次元の空間に沿って平行移動しかつその周りを回転することができる。パッチは、ｚ軸に沿って移動する場合、観測者に近づくように移動し、そうなることでより大きくなる。ｘ軸およびｙ軸に沿った動きの場合、パッチは歪まない。ｚ軸の周りを回転してもパッチの歪みは起きないが、他の軸に沿って回転するとパッチは押しつぶされるかまたは引き伸ばされる。

最も可能性の高い動きは、勾配パッチと時間コントラストパッチとのゼロ平均相互相関または別の適切な比較を使用し、最大スコアの平行移動を判定することによって算定される。全ての自由度に沿った動きが独立に算定される。ｘ方向の動きΔｘおよびｙ方向の動きΔｙに関して、これは以下のようにして行うことができる。

同じようにして、ｚ方向の動きおよび回転方向の動きを推定することができる。本発明の性能を改善するために、キーポイントの変換およびそれに従う動きは離散化および事前算定することができる。前記事前演算を行うために、それぞれの画像パッチは、自由度ｘに沿って固定の量ｍ_ｘだけ移動され、画像パッチと移動された画像パッチとの差が算定される。この差は、所与の固定量ｍ_ｘに関する最高スコアの時間コントラストパッチに対応し、変換マップＭとして使用することができる。変換マップＭは、演算の効率のために、整数またはブール値として格納することができる。ｘ軸およびｙ軸に沿った平行移動については、両方の方向において１つの画素をそれぞれｍ_ｘまたはｍ_ｙとして選択することができる。次に、バッファの各新規イベントにイベント座標における変換マップの値を乗算する。変換マップごとにこれら乗算が合計され、ある変換マップがしきい値よりも良いスコアになるとすぐに、キーポイントはマップを算定するのに使用された離散量ｍ_ｘ、ｍ_ｙだけ移動され、それに従う変換マップがリセットされる。しきい値は、画像パッチのコントラストまたは変換マップの絶対値の合計に応じて変わることがある。最後の変換マップの減衰値またはパッチが移動しなかった可能性の程度を示す他の任意の測定法によって、しきい値を算定することもできる。微分を離散形に事前算定するこうした手法により、時間コントラストイベントの到着時に実行される演算を数回の乗算、加算、および比較に減らすことが可能になる。

ｘ軸に沿った例示的な強度分布１７から、ｘ軸に沿った強度勾配を算定することができる１８。任意の適切な比較測定法（例えば、ゼロ平均相互相関、ＳＳＤ（差の二乗和、ｓｕｍｏｆｓｑｕａｒｅｄｄｉｆｆｅｒｅｎｃｅｓ）、畳み込み、ユークリッド距離、またはＰＣＡ（主成分分析、ｐｒｉｎｃｉｐｌｅｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）、ＤＦＴ（離散フーリエ変換、ｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）またはＤＷＴ（離散ウェーブレット変換、ｄｉｓｃｒｅｔｅｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）など、圧縮空間の他の距離）によって、強度勾配パッチを可能な時間コントラストパッチと比較すること１９、具体的には、相互相関によって、測定Ｃの最大値を判定でき２０、それに従うΔｘは、自由度ｘに沿ったパッチおよびそれに従うキーポイントの動きを明らかにする。これは他の自由度について行うこともできる。

算定された空間コントラストパッチの動きを用いてキーポイント位置を更新し、次いで、キーポイントベースのプロセスに伝達することができる（ステップ１１）。

本発明は、視覚的シーンのキーポイントを低遅延で追跡することができる。

参考文献
［１］Ｂｅｒｎｅｒ，Ｒ．、Ｂｒａｎｄｌｉ，Ｃ．、Ｙａｎｇ，Ｍ．、Ｌｉｕ，Ｓ．−Ｃ．、Ｄｅｌｂｒｕｃｋ，Ｔ．、２０１３年。「Ａ２４０×１８０１０ｍＷ１２ｕｓＬａｔｅｎｃｙＳｐａｒｓｅ‐ＯｕｔｐｕｔＶｉｓｉｏｎＳｅｎｓｏｒｆｏｒＭｏｂｉｌｅＡｐｐｌｉｃａｔｉｏｎｓ」、２０１３ＳｙｍｐｏｓｉｕｍｏｎＶＬＳＩＣｉｒｃｕｉｔｓ（ＶＬＳＩＣ）。２０１３ＳｙｍｐｏｓｉｕｍｏｎＶＬＳＩＣｉｒｃｕｉｔｓ（ＶＬＳＩＣ）で発表、ｐ．Ｃ１８６‐Ｃ１８７。
［２］Ｂｅｒｎｅｒ，Ｒ．、Ｄｅｌｂｒｕｅｃｋ，Ｔ．、２０１２年。「Ｐｈｏｔｏａｒｒａｙ，ｐａｒｔｉｃｕｌａｒｌｙｆｏｒｃｏｍｂｉｎｉｎｇｓａｍｐｌｅｄｂｒｉｇｈｔｎｅｓｓｓｅｎｓｉｎｇｗｉｔｈａｓｙｎｃｈｒｏｎｏｕｓｄｅｔｅｃｔｉｏｎｏｆｔｉｍｅ‐ｄｅｐｅｎｄｅｎｔｉｍａｇｅｄａｔａ」。国際出願ＰＣＴ／ＥＰ２０１２／０７６０９３号。
［３］Ｃａｌｏｎｄｅｒ，Ｍ．、Ｌｅｐｅｔｉｔ，Ｖ．、Ｓｔｒｅｃｈａ，Ｃ．、Ｆｕａ，Ｐ．、２０１０年。「ＢＲＩＥＦ：ＢｉｎａｒｙＲｏｂｕｓｔＩｎｄｅｐｅｎｄｅｎｔＥｌｅｍｅｎｔａｒｙＦｅａｔｕｒｅｓ」、Ｄａｎｉｉｌｉｄｉｓ，Ｋ．、Ｍａｒａｇｏｓ，Ｐ．、Ｐａｒａｇｉｏｓ，Ｎ．（編）、ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ‐ＥＣＣＶ２０１０年、ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ。ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ、ｐ．７７８‐７９２。
［４］Ｃａｎｎｙ，Ｊ．、１９８６年。「ＡＣｏｍｐｕｔａｔｉｏｎａｌＡｐｐｒｏａｃｈｔｏＥｄｇｅＤｅｔｅｃｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、ＰＡＭＩ‐８、ｐ．６７９‐６９８。ｄｏｉ：１０．１１０９／ＴＰＡＭＩ．１９８６．４７６７８５１
［５］Ｆｕｎａｙａｍａ，Ｒ．、Ｙａｎａｇｉｈａｒａ，Ｈ．、Ｖａｎ，Ｇ．Ｌ．、Ｔｕｙｔｅｌａａｒｓ，Ｔ．、Ｂａｙ，Ｈ．、２００９年。「ＲｏｂｕｓｔＩｎｔｅｒｅｓｔＰｏｉｎｔＤｅｔｅｃｔｏｒａｎｄＤｅｓｃｒｉｐｔｏｒ」。米国特許出願公開第２００９／２３８４６０（Ａ１）号。
［６］Ｌｅｕｔｅｎｅｇｇｅｒ，Ｓ．、Ｃｈｌｉ，Ｍ．、Ｓｉｅｇｗａｒｔ，Ｒ．Ｙ．、２０１１年。「ＢＲＩＳＫ：ＢｉｎａｒｙＲｏｂｕｓｔｉｎｖａｒｉａｎｔｓｃａｌａｂｌｅｋｅｙｐｏｉｎｔｓ」、２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）。２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）で発表、ｐ．２５４８‐２５５５。ｄｏｉ：１０．１１０９／ＩＣＣＶ．２０１１．６１２６５４２
［７］Ｌｉｃｈｔｓｔｅｉｎｅｒ，Ｐ．、Ｄｅｌｂｒｕｃｋ，Ｔ．、２００８年。「ＰｈｏｔｏａｒｒａｙｆｏｒｄｅｔｅｃｔｉｎｇＴｉｍｅ‐ＤｅｐｅｎｄｅｎｔＩｍａｇｅＤａｔａ」。米国特許出願公開第２００８／１３５７３１（Ａ１）号。
［８］Ｌｏｗｅ，Ｄ．Ｇ．、２００４年。「Ｍｅｔｈｏｄａｎｄａｐｐａｒａｔｕｓｆｏｒｉｄｅｎｔｉｆｙｉｎｇｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓｉｎａｎｉｍａｇｅａｎｄｕｓｅｏｆｓａｍｅｆｏｒｌｏｃａｔｉｎｇａｎｏｂｊｅｃｔｉｎａｎｉｍａｇｅ」。米国特許第６７１１２９３（Ｂ１）号。
［９］Ｍａｉｒ，Ｅ．、Ｈａｇｅｒ，Ｇ．Ｄ．、Ｂｕｒｓｃｈｋａ，Ｄ．、Ｓｕｐｐａ，Ｍ．、Ｈｉｒｚｉｎｇｅｒ，Ｇ．、２０１０年。「ＡｄａｐｔｉｖｅａｎｄＧｅｎｅｒｉｃＣｏｒｎｅｒＤｅｔｅｃｔｉｏｎＢａｓｅｄｏｎｔｈｅＡｃｃｅｌｅｒａｔｅｄＳｅｇｍｅｎｔＴｅｓｔ」、Ｄａｎｉｉｌｉｄｉｓ，Ｋ．、Ｍａｒａｇｏｓ，Ｐ．、Ｐａｒａｇｉｏｓ，Ｎ．（編）、ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ‐ＥＣＣＶ２０１０年、ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ。ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ、ｐ．１８３‐１９６。
［１０］Ｒｏｓｔｅｎ，Ｅ．、Ｄｒｕｍｍｏｎｄ，Ｔ．、２００６年。ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＨｉｇｈ−ＳｐｅｅｄＣｏｒｎｅｒＤｅｔｅｃｔｉｏｎ：Ｌｅｏｎａｒｄｉｓ，Ａ．、Ｂｉｓｃｈｏｆ，Ｈ．、Ｐｉｎｚ，Ａ．（編）、ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ‐ＥＣＣＶ２００６、ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ。ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ、ｐ．４３０‐４４３

Claims

光センサに対して移動する物体の画像の少なくとも１つのキーポイントの位置を追跡する方法であって、
ａ）前記物体（１２）から反射される光を検出し、画像画素を備える前記物体（１２）の画像を生成するステップであって、各画像画素に画素値が割り当てられ、各画素値は、それぞれの画像画素ごとに、前記検出された光の強度に単調に関係付けられる、ステップと、
ｂ）前記画像の少なくとも１つのキーポイント（Ｋ^ｊ）の位置を検出するステップと、
ｃ）前記物体によって反射される光を、複数のセンサ画素を備える前記光センサ（１４）によって検出するステップであって、各センサ画素は、それぞれのセンサ画素に当たる光の強度に比例する光電流を生成し、前記光電流に関係付けられる信号を生成し、各センサ画素は、前記それぞれのセンサ画素からの最後の時間コントラストイベント（Ｅｖ）以降に、前記それぞれのセンサ画素に当たる前記光によるそれぞれの信号が、第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加するかまたは第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少するときにのみ、時間コントラストイベント（Ｅｖ）を出力し、各時間コントラストイベント（Ｅｖ（ｕ，ｖ，ｔ））は、その関連付けられたセンサ画素の座標（ｕ，ｖ）、それぞれの時間コントラストイベント（Ｅｖ）が起こった時刻（ｔ）、ならびに、前記それぞれの時間コントラストイベント（Ｅｖ）が、前記信号が前記第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加したＯＮイベントであるかまたは前記信号が前記第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少したＯＦＦイベントであるかを示す極性値を保持する、ステップと、
ｄ）前記時間コントラストイベント（Ｅｖ）を用いて前記少なくとも１つのキーポイント（Ｋ^ｊ）の位置を更新するステップと、
ｅ）新規画像が生成されるまでは、具体的にはステップｃ）からｄ）を繰り返すステップであって、新規画像が生成された場合は、ステップａ）からｅ）が行われる、ステップと
を含む、方法。
ステップｂ）はさらに、
‐具体的には、前記少なくとも１つのキーポイント（Ｋ^ｊ）にディスクリプタベクトルを割り当てるステップと、
‐画像パッチ（Ｉ）を生成するステップであって、前記画像パッチ（Ｉ）は、前記少なくとも１つのキーポイント（Ｋ^ｊ）の周りに配置された規定数の画像画素に、前記画像パッチ（Ｉ）の前記それぞれの画像画素の前記画素値を割り当てる、ステップと、
‐前記画像パッチ（Ｉ）の自由度（ｘ）に沿った少なくとも１つの勾配パッチ（ｄＩ／ｄｘ）を算定するステップであって、前記少なくとも１つの勾配パッチ（ｄＩ／ｄｘ）は、前記画像パッチ（Ｉ）の各画像画素に、前記自由度に沿った前記それぞれの画像画素における前記画像パッチ（Ｉ）の前記画素値の勾配を割り当てる、ステップと
を含むことを特徴とする、請求項１に記載の方法。
ステップｃ）はさらに、
‐前記少なくとも１つのキーポイント（Ｋ^ｊ）の最新位置の周りの前記少なくとも１つの勾配パッチ（ｄＩ／ｄｘ）の範囲内の、ある数（Ｎ）の直近の時間コントラストイベント（Ｂ^ｊ）を格納するステップと、
‐時間コントラストパッチ（Ｓ_Ｅ）内の位置（ｘ，ｙ）に従って、前記格納された時間コントラストイベント（Ｂ^ｊ）の重みづけされた極性値を合計することによって、前記時間コントラストパッチ（Ｓ_Ｅ）を算定するステップと、
‐前記少なくとも１つの勾配パッチ（ｄＩ／ｄｘ）と前記時間コントラストパッチ（Ｓ_Ｅ）との間の比較（Ｃ）を算定するステップと、
‐前記算定された比較（Ｃ）を用いて前記自由度に沿った前記画像の前記少なくとも１つのキーポイント（Ｋ^ｊ）の動き（Δｘ）を算定するステップと
を含むことを特徴とする、請求項２に記載の方法。
ステップｄ）はさらに、前記自由度に沿った前記動き（Δｘ）を用いて、前記少なくとも１つのキーポイント（Ｋ^ｊ）に関連付けられる前記少なくとも１つの勾配パッチ（ｄＩ／ｄｘ）の前記位置を更新するステップを含むことを特徴とする、請求項３に記載の方法。
以下の直近の時間コントラストイベント（Ｂ^ｊ）がキーポイントごとに格納されることを特徴とする、請求項３に記載の方法。
前記画像も前記光センサ（１４）を用いてサンプル抽出され、前記時間コントラストイベント（Ｅｖ）は前記画像と位置合わせされることを特徴とする、請求項１〜５のいずれか一項に記載の方法。
前記画像は、前記光センサ（１４）と位置合わせされるさらなる光センサ（１３）によってサンプル抽出されることを特徴とする、請求項１〜５のいずれか一項に記載の方法。
前記時間コントラストパッチ（Ｓ_Ｅ）は

式中、

に従って算定されることを特徴とする、請求項３に記載の方法。
前記動き（Δｘ）は、

式中、＊は、前記少なくとも１つの勾配パッチ（ｄＩ／ｄｘ）と前記時間コントラストパッチ（Ｓ_Ｅ）との間の相互相関を表す、
に従って算定されることを特徴とする、請求項３または８に記載の方法。
前記画像パッチのいくつかの自由度に対応する複数の勾配パッチ（ｄＩ／ｄｘ、ｄＩ／ｄｙ、ｄＩ／ｄｚ、ｄＩ／ｄα、ｄＩ／ｄβ、ｄＩ／ｄγ）が算定され、前記それぞれの勾配パッチは、前記画像パッチ（Ｉ）の各画像画素に、前記それぞれの自由度に沿った前記それぞれの画像画素における前記画像パッチ（Ｉ）の前記画素値の勾配を割り当てることを特徴とする、請求項２〜９のいずれか一項に記載の方法。
前記比較（Ｃ）は相互相関、具体的には、ゼロ平均相互相関であることを特徴とする、請求項３に記載の方法。
前記比較（Ｃ）および前記少なくとも１つのキーポイントの前記位置は、単一のまたは固定数の時間コントラストイベント（Ｅｖ）の取得の際に更新されることを特徴とする、請求項３に記載の方法。
光センサに対して移動する物体の画像の少なくとも１つのキーポイントの位置を追跡するためのコンピュータプログラムであって、前記コンピュータプログラムは、前記コンピュータプログラムがコンピュータ上で実行されるときに、
ａ）前記画像の少なくとも１つのキーポイント（Ｋ^ｊ）の位置を検出するステップと、
ｂ）それぞれのセンサ画素からの最後の時間コントラストイベント（Ｅｖ）以降に、光センサ（１４）の前記センサ画素に当たる光による、光電流に関係付けられる前記光センサ（１４）の信号が、第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加するかまたは第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少するときにのみ前記光センサ（１４）によって出力される時間コントラストイベント（Ｅｖ）を用いて、前記少なくとも１つのキーポイント（Ｋ^ｊ）の前記位置を更新するステップであって、各時間コントラストイベント（Ｅｖ（ｕ，ｖ，ｔ））は、その関連付けられたセンサ画素の座標（ｕ，ｖ）、それぞれの時間コントラストイベント（Ｅｖ）が起こった時刻（ｔ）、ならびに、前記それぞれの時間コントラストイベント（Ｅｖ）が、前記信号が前記第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加したＯＮイベントであるかまたは前記信号が前記第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少したＯＦＦイベントであるかを示す極性値を保持する、ステップと、
ｃ）新規画像が供給されるまで、具体的には、ステップａ）からｂ）を繰り返すステップであって、新規画像が供給された場合はステップａ）からｃ）が行われる、ステップと
を行うためのプログラムコードを備える、コンピュータプログラム。
光センサ手段に対して移動する物体の画像の少なくとも１つのキーポイントの位置を追跡するためのデバイスであって、
‐物体（１２）から反射される光を検出し、画像画素を備える前記物体（１２）の画像を生成するように設計される、光センサ手段（１４、１３）
を備え、
‐前記デバイスは、前記画像の少なくとも１つのキーポイント（Ｋ^ｊ）の位置を検出するように設計され、
‐前記光センサ手段（１４、１３）はさらに、前記物体（１２）によって反射される光を、複数のセンサ画素によって検出するように設計され、各センサ画素は、それぞれのセンサ画素に当たる前記光の強度に比例する光電流を生成し、前記光電流に関係付けられる信号を生成するように設計され、各センサ画素は、前記それぞれのセンサ画素からの最後の時間コントラストイベント（Ｅｖ）以降に、前記それぞれのセンサ画素に当たる前記光による前記それぞれの信号が、第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加するかまたは第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少するときにのみ、時間コントラストイベント（Ｅｖ）を出力するように設計され、各時間コントラストイベント（Ｅｖ（ｕ，ｖ，ｔ））は、その関連付けられたセンサ画素の座標（ｕ，ｖ）、それぞれの時間コントラストイベント（Ｅｖ）が起こった時刻（ｔ）、ならびに、前記それぞれの時間コントラストイベント（Ｅｖ）が、前記信号が前記第１のしきい値（Θ_ＯＮ）よりも大きい量だけ増加したＯＮイベントであるかまたは前記信号が前記第２のしきい値（Θ_ＯＦＦ）よりも大きい量だけ減少したＯＦＦイベントであるかを示す極性値を保持する、
デバイス。
前記光センサ手段は、前記時間コントラストイベント（Ｅｖ）が前記画像と位置合わせされるように前記画像をサンプル抽出すると共に前記時間コントラストイベント（Ｅｖ）を生成するように設計された、単一の光センサ（１４）として形成されるか、または前記光センサ手段は、前記時間コントラストイベント（Ｅｖ）が前記画像と位置合わせされるように、前記時間コントラストイベント（Ｅｖ）を生成するように設計された光センサ（１４）と、前記画像をサンプル抽出するように設計された別個のさらなる光センサ（１３）とを備え、前記さらなる光センサ（１３）が前記光センサ（１４）と位置合わせされることを特徴とする、請求項１４に記載のデバイス。