JP5940453B2

JP5940453B2 - 画像のシーケンス内のオブジェクトのリアルタイム表現のハイブリッド型追跡のための方法、コンピュータプログラム、および装置

Info

Publication number: JP5940453B2
Application number: JP2012534738A
Authority: JP
Inventors: リベ，ニコラ; パスキエ，トマ; シヤムー，ジエレミー
Original assignee: クアルコムコネクティドエクスペリエンシーズインコーポレーテッド
Priority date: 2009-10-20
Filing date: 2010-10-12
Publication date: 2016-06-29
Anticipated expiration: 2030-10-12
Also published as: JP2013508844A; HK1171851A1; US8903177B2; CN102640185A; US20120201469A1; EP2491532B1; KR101722803B1; FR2951565A1; EP2491532A1; FR2951565B1; WO2011048302A1; ES2922703T3; CN102640185B; KR20120087952A

Description

本発明は画像解析に関し、より詳細には画像のシーケンス内のオブジェクトのリアルタイム表現のハイブリッド型追跡（ｈｙｂｒｉｄｔｒａｃｋｉｎｇ）のための、具体的には拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）アプリケーションのための方法、コンピュータプログラム、および装置に関する。

拡張現実の目的は、１つまたは複数の仮想オブジェクトをビデオストリームの画像の中に挿入することである。アプリケーションのタイプに応じて、これらの仮想オブジェクトの位置および方向が、画像により表されるシーンの外部データにより、たとえばゲームシナリオから直接得られる座標により、またはこのシーンの特定の要素に関連するデータ、たとえばプレーヤの手または背景の要素などのシーン内の特定の点の座標により決定されることができる。シーンの特定の要素に関連するデータにより位置および方向が決定されたとき、カメラの動き、またはシーン内のこれらの要素自体の動きに対してそのような要素を追跡する必要があることがある。

オブジェクト認識アルゴリズム（ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍ）（またはオブジェクトインデクセーションアルゴリズム（ｏｂｊｅｃｔｉｎｄｅｘａｔｉｏｎａｌｇｏｒｉｔｈｍ））が、イメージセンサたとえばカメラから得られる画像または画像のシーケンス内に特定のオブジェクトの表現が存在することを識別することができるようにする。また、これらのアルゴリズムは、しばしばカメラの基準位置に対して認識されるオブジェクトの近似位置を決定することができる。

実例として、ＬａｕｓａｎｎｅＦｅｄｅｒａｌＰｏｌｙｔｅｃｈｎｉｃｓｃｈｏｏｌがそのようなアルゴリズムを開発した。初期化フェーズの間、記述子（ｄｅｓｃｒｉｐｔｏｒ）として知られる、オブジェクトの異なる表現の特徴的要素が、たとえば対象の点、および画像部分を形成する対象の点の近傍を含む集合が、記憶され、分類構造たとえば二分決定木に従って、またはＦＥＲＮＳタイプ決定構造としても知られる多分岐構造に従って編成される。認識フェーズの間、これらの構造は、画像内ですでに検出された対象の点の周囲で取り出される画像部分のピクセル（ＰｉｃｔｕｒｅＥｌｅｍｅｎｔ（画素）の頭字語）の強度を比較することにより、画像内に表されるオブジェクトの簡単で高速な分類を提供する。

画像内で高い値の方向勾配を有する位置を表す対象の点には、たとえばＨａｒｒｉｓ、ＦＡＳＴ、ＳＵＲＦ（Ｓｐｅｅｄ−ＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓの頭字語）、ＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍの頭字語）、ＭＳＥＲ（ＭａｘｉｍａｌｌｙＳｔａｂｌｅＥｘｔｅｒｎａｌＲｅｇｉｏｎの頭字語）、またはＹＡＰＥ（ＹｅｔＡｎｏｔｈｅｒＰｏｉｎｔＥｘｔｒａｃｔｏｒの頭字語）のタイプがある。

すでに生成された決定構造に基づき、識別された対象の点に従って、解析された画像および初期化中に使用された画像から取り出される画像部分の間で実行されるマッチングが、データベース内に存在するオブジェクトとの対応を識別することができるようにする。これらの対応は、解析された画像内に表される１つまたは複数のオブジェクトの識別を決定し、近似姿勢（ｐｏｓｅ）を取り出すために使用されることができる。

追跡アルゴリズム自体、幾何学情報が一般に利用できるオブジェクトの姿勢を、すなわち位置および方向を実際のシーンで非常に正確に見いだすために、または同等な方法で、たとえば画像解析の結果、カメラがオブジェクトを撮影するための外部の位置および方向のパラメータを見いだすために使用されることができる。

実例として、ビデオストリーム内の現画像の対象の点と、システムの初期化時に得られるキーフレーム（ｋｅｙｆｒａｍｅ）と呼ばれるキー画像（ｋｅｙｉｍａｇｅ）の対象の点との、または可視追跡の実行中に更新されるキー画像の対象の点とのマッチングに基づく可視追跡アルゴリズムがある。これらのキー画像は、システム内に記録されるオブジェクトを特徴付ける。このとき、アルゴリズムは、３次元（３Ｄ）メッシュが３Ｄモデルの形で利用できるオブジェクトの姿勢を実際のシーンの中で見いだすため、または同等の方法で、カメラがオブジェクトを撮影するための外部の位置および方向のパラメータを見いだすために使用されることができる。

現画像は、まず対象の点を検出するためにオペレータで処理される。次に、オブジェクトの姿勢を推定するために、これらの対象の点の周囲で取り出される画像部分が、記録された１つまたは複数のキー画像内ですでに検出された対象の点の周囲で取り出される画像部分と、画像のこれらの対の間の多数の対応またはマッチを見いだすために比較される。この目的のために、このとき、キー画像が３つの要素から、すなわちビデオストリームから取り込まれる画像、この画像内に出現する実際のオブジェクトの姿勢（方向および位置）、および画像を取り込むために使用されるカメラを特徴付ける固有パラメータからなる。キー画像は、追跡されるべきオブジェクトが、ポインティング装置たとえばマウスを使用する結果、手作業で置かれたビデオストリームから取り出される画像である。キー画像は、いくつかの画像内の同じオブジェクトの姿勢を特徴付けることが好ましい。キー画像は、「オフラインで」、すなわちパーマネント追跡アプリケーションモード以外で生成され、記録される。平面タイプのターゲットまたはオブジェクト、たとえば雑誌に対して、これらのキー画像は、オブジェクトの利用できる画像から、たとえばＪＰＥＧまたはビットマップのフォーマットで直接生成されることができることは注目に値する。

追跡アプリケーションの初期化中に、オフラインキー画像は、アプリケーションを起動するときに選択されるパラメータに応じて、対象の点を配置するために処理される。これらのパラメータは、アプリケーションの各タイプの用法に対して経験的に指定され、実際の環境の特徴に従ってオブジェクトの姿勢のよりよい質の推定を得るために、検出およびマッチングのアプリケーションを適合させるために使用されることができる。次に、現画像内の実際のオブジェクトの表現が、オフラインキー画像の１つの中の同じオブジェクトの表現の姿勢に近い姿勢の状態にあるとき、マッチの数は大きくなる。このとき、オブジェクトの３次元モデルを実際のオブジェクトに重ね合わせることができるようにするアフィン変換（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）を見いだすことが可能である。

そのような対応が確立されたとき、追跡アルゴリズムはパーマネントモードに切り換わる。オブジェクトの動きは、一方の画像から他方の画像まで追跡され、初期化中に選択されたオフラインキー画像に含まれる情報の結果、どんなドリフトも補償される。正確さのために、このオフラインキー画像は、前画像の推定された姿勢を使用して投影されることができることに留意されたい。したがって、この再投影は、現画像の表現に類似するオブジェクトの表現を含むキー画像を有することができるようにして、したがって、アルゴリズムが、対象の点、および回転に対してロバストではない記述子で動作することを可能にすることができる。

一般に、画像の点ｐが、実際のシーンの点Ｐの投影、ｐ〜Ｐ_Ｉ・Ｐ_Ｅ・Ｔ_ｐ→ｃ・Ｐであり、ここでＰ_Ｉはカメラの固有パラメータすなわちカメラの焦点距離、画像の中心、およびオフセットのマトリクスであり、Ｐ_Ｅはカメラの外部パラメータ、すなわち実際の空間内のカメラの位置のマトリクスであり、Ｔ_ｐ→ｃは、追跡されるオブジェクトに関連する基準点と、カメラに付属する基準点との間の移動のマトリクスである。このとき、カメラの相対位置に対するオブジェクトの相対位置だけが考慮され、このことは、実際のシーンの基準点をカメラの光学的中心に配置することを意味する。その結果、関係ｐ〜Ｐ_Ｉ・Ｔ_ｐ→ｃ・Ｐがもたらされる。マトリクスＰ_Ｉは既知であるので、したがって、追跡問題は、マトリクスＴ_ｐ→ｃ、すなわちカメラの基準点に対するオブジェクトの位置および方向を決定することにある。

これを行うために、「誤差最小化（ｅｒｒｏｒｍｉｎｉｍｉｚａｔｉｏｎ）」として知られるアルゴリズムが、幾何学的モデルでの３次元対応、ならびに現画像内およびキー画像内の２次元（２Ｄ）対応のすべてを使用して、Ｔ_ｐ→ｃを推定するための最良解を見いだすために使用される。例として、測定誤差（誤った２Ｄ／３Ｄ対応）を除去することができるようにする、ＲＡＮＳＡＣ（ＲＡＮｄｏｍＳＡｍｐｌｅＣｏｎｓｅｎｓｕｓの頭字語）またはＰＲＯＳＡＣ（ＰＲＯｇｒｅｓｓｉｖｅＳＡｍｐｌｅＣｏｎｓｅｎｓｕｓの頭字語）のタイプのアルゴリズムが、最適解に向かって急速に収束するＬｅｖｅｎｂｅｒｇ−Ｍａｒｑｕａｒｄｔタイプのアルゴリズムと組み合わせられることができ、再投影誤差を低減する。

測定誤差が大きくなりすぎるとき、すなわち現画像と現在のキー画像の間のマッチの数が少なくなりすぎるとき、追跡はアンカップリングを起こし（オブジェクトの姿勢の推定がもはや十分整合性があるわけではないことが考えられる）、新しい初期化が必要である。

画像のシーケンス内の特徴点を追跡し、時間的オプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）（オプティカルフローと呼ばれる）を、すなわち２つの連続する画像間のピクセルの動きを推定することができるようにする「ＫＬＴｆｅａｔｕｒｅＴｒａｃｋｅｒ」と呼ばれるオブジェクト追跡アルゴリズムもある。したがって、この方法は、２つの画像間のこのピクセルの動きｄを推定することにより、画像Ｉのピクセルｕに最も類似すると思われる画像Ｊ内のピクセルｖを見いだすことが意図される。換言すれば、ピクセルｖの座標がｖ＝ｕ＋ｄ＝［ｕｘ＋ｄｘ、ｕｙ＋ｄｙ］と表現されることができる。

これらの記述子の探索および追跡の一実装形態がパブリックドメインで提案され、Ｉｎｔｅｌ社により開発されたＯｐｅｎＣＶ（ＯｐｅｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎの頭字語）という名称で公知である。この実装形態は、画像内の追跡されるオブジェクトの急速な動きに対する、またはカメラの急速な動きに対する解決策のロバストさを増大させるために、サブサンプリングされ平滑化された画像のピラミッドを使用することを具体的に提案する。

より正確には、この場合、解決策は、最も類似する画像Ｊの画像部分ｐ_２を探し出すことにより、画像Ｉの画像部分ｐ_１の位置を見いだすことにある。この解決策に対して、第１の納得のゆく結果が見いだされたとき、動きの新しい推定が行われるピラミッド構造で反復が実行される。（たとえば画像センサにより得られる）初期画像が弁別されるまで、処理は繰り返される。

しかしながら、これらの認識および追跡のアルゴリズムを使用することは、計算に関して特に費用がかかり、強力なプロセッサがなければ、たとえば、携帯電話などの軽量プラットフォームなどのシステムの性能に悪影響を及ぼす。さらに、これらのアルゴリズムは、一般にノイズに、急速な動きに、および明るさの変化に対するロバストさが不十分である。したがって、これらのアルゴリズムは、装置たとえば能力の低いプロセッサおよび不十分な品質の画像センサを備える携帯電話に実装するのに適さない。

本発明は、上述の問題の少なくとも１つを解決することができるようにする。

本発明の目的が、少なくとも１つのキー画像を使用する、画像のシーケンス内の少なくとも１つのオブジェクトの表現のハイブリッド型追跡のコンピュータの方法であり、方法は、
前記少なくとも１つのオブジェクトの表現を含む画像の前記シーケンスの第１の画像および第２の画像を得るステップと、
前記少なくとも１つのオブジェクトの表現の少なくとも１つの一部を含む、前記第１の画像の少なくとも１つの第１の画像部分を識別するステップと、
前記少なくとも１つのキー画像から、前記少なくとも１つのオブジェクトの表現の少なくとも１つの一部を含む前記キー画像の少なくとも１つの第２の画像部分を取り出すステップと、
前記第１の画像の前記少なくとも１つの第１の画像部分に従って、前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の少なくとも１つの第１の画像部分の相対姿勢を推定するステップと、
前記キー画像の前記少なくとも１つの第２の画像部分に類似する、前記第１の画像または前記第２の画像の少なくとも１つの第２の画像部分を探索するステップと、
前記第１の画像部分および前記第２の画像部分の相対姿勢に従って、前記少なくとも１つのオブジェクトの相対姿勢を推定するステップと
を含む。

したがって、本発明による方法は、大きな計算資源を必要とせずに、キー画像および前画像に従って、画像のシーケンス内のオブジェクトの表現を追跡することができるようにする。したがって、方法は、軽量プラットフォームたとえば携帯電話上に実装されることができる。

特定の一実施形態によれば、前記第１の画像の前記少なくとも１つの第１の画像部分を識別する前記ステップは、前記第１の画像の前記少なくとも１つの第１の画像部分を取り出すステップを含み、前記第２の画像の前記少なくとも１つの第１の画像部分の前記相対姿勢を推定する前記ステップは、前記第２の画像内で、前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の前記少なくとも１つの第１の画像を探索するステップを含む。

したがって、本発明による方法は、画像解析によりキー画像および前画像に従って画像のシーケンス内のオブジェクトの表現を追跡することができるようにする。

有利なことに、前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の前記少なくとも１つの第１の画像部分を探索する前記ステップは、ＫＬＴタイプの探索アルゴリズムを実装する。したがって、画像部分の類似の探索は、費用のかかる再投影ステップを必要としない。

前記少なくとも１つの第２の画像部分は、すでに決定された前記キー画像の少なくとも１つの対象の点に従って、前記少なくとも１つのキー画像から取り出されることが好ましい。したがって、方法は、オブジェクト追跡品質を最適化するために特異点を使用することができるようにする。

有利なことに、方法はまた、必要とされる計算の量に関して、適切な対象の点を選択するために、前記少なくとも１つの対象の点を選択するステップを含む。有利なことに、方法はまた、結果の品質に関して、適切な対象の点を選択するために、前記少なくとも１つの選択された対象の点を検証するステップを含む。

特定の一実施形態によれば、前記キー画像の前記少なくとも１つの第２の画像部分に類似する、前記第１の画像または前記第２の画像の少なくとも１つの第２の画像部分を探索する前記ステップは、よい品質の結果を効果的に得ることができるようにするＫＬＴタイプのアルゴリズムを実装する。

さらに特定の一実施形態によれば、前記キー画像の前記少なくとも１つの第２の画像部分に類似する、前記第１の画像または前記第２の画像の少なくとも１つの第２の画像部分を探索する前記ステップは、得られる結果の品質を改善するために、前記少なくとも１つのオブジェクトの推定される姿勢に従って、前記キー画像の前記少なくとも１つの第２の画像部分を再投影するステップを含む。

さらに特定の一実施形態によれば、方法はまた、前記少なくとも１つの第２の画像内の少なくとも１つの対象の点を決定するステップを含む。

さらに特定の一実施形態によれば、前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の前記少なくとも１つの第１の画像部分を探索する前記ステップは、類似により画像部分を探索する少なくとも２つの異なるアルゴリズムを実装する。そのような実施形態は、追跡方法をよりロバストにすることができるようにする。

さらに特定の一実施形態によれば、前記第２の画像の少なくとも１つの第１の画像部分の相対姿勢を推定する前記ステップ、および／または前記第１の画像または前記第２の画像の少なくとも１つの第２の画像部分を探索する前記ステップは、前画像に対して実行された、前記少なくとも１つのオブジェクトの相対姿勢推定の少なくとも１つの結果を使用して、姿勢を予測するステップを含む。したがって、本発明による方法は、必要とされる計算の質および量に関して結果を最適化するために、画像解析と予測計算を組み合わせることができるようにする。

本発明の目的が、コンピュータ上でコンピュータプログラムが実行されたとき、上記で説明される方法のステップのそれぞれを実装するのに適した命令を含む前記コンピュータプログラムでもある。

本発明の目的が、上記で説明される方法のステップのそれぞれを実装するのに適した手段を含む装置でもある。

このコンピュータプログラムおよびこの装置により得られる有利な点は、上述の有利な点に類似する。

本発明の別の有利な点、目的、および特徴が、添付図面を参照して、限定しない例により示される以下の詳細な説明から明らかになるであろう。

本発明に従って画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの一例の特定のステップを示す図である。図１で表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの初期化フェーズの実装の一例を示す図である。図１に表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの定常状態の第１の実装形態を示す図である。図１に表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの定常状態の第１の実装形態を示す図である。図１に表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの定常状態の第２の実装形態を図式的に示す図である。前画像と現画像の要素間のアフィン変換を推定するために、図４を参照して示される実施形態で実装されるＫＬＴタイプのアルゴリズムの一例を示す図である。図１に表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの定常状態の第３の実装形態を図式的に示す図である。図１に表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの定常状態の実装のための第４の実装形態によるオブジェクト追跡アルゴリズムの一例における特定のステップを図式的に示す図である。図７に表される追跡アルゴリズムの実装形態を図式的に示す図である。図１に表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズムの使用フェーズの実装のための第４の実装形態によるオブジェクト追跡アルゴリズムの例の一変形形態における特定のステップを図式的に示す図である。本発明を実装するのに適したハードウェアアーキテクチャの一例を示す図である。

図１は、本発明に従って画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズム１００の一例における特定のステップを示す。図１は初期化フェーズ１０５および定常状態１１０を含む。

初期化フェーズ１０５の目的は、具体的には画像内のオブジェクトの１つまたは複数の表現を認識し（ステップ１１５）、これらのオブジェクトの姿勢を評価する（ステップ１２０）ことである。初期化フェーズは、図２を参照してより詳細に説明される。

定常状態１１０の間、表現が初期化中に識別されたオブジェクトが、これらのオブジェクトの姿勢を推定する（ステップ１３０）ために、画像のシーケンス内で追跡される（ステップ１２５）。定常状態は、図３ａ、図７、および図９を参照してより詳細に説明される。この場合、追跡されるオブジェクトが定常状態の間に消えたとき、すなわちシステムがアンカップリングを起こしたとき、新しい初期化フェーズが実行されることが好ましいことが認められる。

図２は、図１で表される画像のシーケンス内のオブジェクトの表現を追跡するためのハイブリッド型アルゴリズム１００の初期化フェーズ（１０５）の実装の一例を示す。

上記で示されるように、初期化フェーズは、表現が画像センサ（たとえばカメラ）から得られる画像内に見える、このセンサの視野内に位置する１つまたは複数のオブジェクトを識別し、次に、識別されたオブジェクトのそれぞれに対する姿勢をできるだけ正確に提供することができるようにする。

特定の一実施形態によれば、オブジェクトの識別およびオブジェクトの姿勢の推定は、対象の点の決定、および決定構造の使用に基づく。このとき、原理は、対象の点たとえば画像センサから得られる所与の画像内のＦＡＳＴ、ＹＡＰＥ、ＨＡＲＲＩＳ、またはＭＳＥＲのタイプの点を検出することができるようにするオペレータを適用することからなる。二分決定構造ですでに分類されたオブジェクトの点（「クラス」とも呼ばれる）とこれらの点の類似を示すことを意図し、かつ知識データベースを形成する確率リストを得るために、識別された対象の点の周囲に位置する画像部分が、使用される二分決定構造で記憶される画像部分と比較される。ロバストな結果を得て、かつ必要とされる計算資源を制限するために、ＦＥＲＮＳタイプの決定構造が有利に使用される。

このとき、初期化フェーズで使用される現画像２００は、画像センサから得られる。現画像２００は、ノイズの存在を低減するために（ノイズの存在は、二分決定構造の実行中に得られる統計結果を乱すことがある）、たとえば３×３のガウシアンフィルタを使用して平滑化される（ステップ２０５）ことが好ましい。

軽量プラットフォームたとえば携帯電話にこのフィルタを実装するのを容易にするために、フィルタは最適化される。具体的には、そのような最適化は、フィルタリングがピクセル値のコーディングをオフセットすることにより実行されるように、２のべき乗の形で表されることができる対称フィルタを使用することにある。

次のステップの目的は、現在の平滑化された画像内の対象の点を検出することである（ステップ２１０）。好ましい一実施形態によれば、検出される対象の点はＦＡＳＴタイプである。

このとき、ＦＡＳＴタイプの対象の点は、画像の各ピクセルの周囲の所定の周辺、たとえば１６ピクセルを有するＢｒｅｓｅｎｈａｍの円（Ｂｒｅｓｅｎｈａｍ’ｓｃｉｒｃｌｅ）を生成することにより決定されることが想起されるべきである。これらの点のそれぞれは、中央ピクセルの強度より大きいまたは小さい強度を有する、この円に隣接するピクセルすべての数が、所定のしきい値（たとえば９、１０、１１、または１２）よりも大きい場合、対象の点であると考えられる。また、一般に、所与の近傍内の最も適切な対象の点を選択するためだけに、後処理ステップが適用される。

現画像の対象の点を検出した後、検出されたこれらの対象の点の周囲に位置する現画像の画像部分と、決定構造２１５ですでに記憶された対象の点に関連する画像部分との間の最良の対応２２５を決定するために、使用される決定構造２１５が実行される（ステップ２２０）。このとき、標準的方法で実行される決定構造の生成中に（ステップ２３０）、いくつかのオブジェクトが、多分同じ１組の構造で一緒にグループ化されたことがあり得ることが認められる。いくつかのオブジェクトを同じグループにグループ化することは、オブジェクトのそれぞれに対するマッチングおよび識別の誤差推定ステップの数を制限しながら、マッチング方法を最適化することが意図される。その結果、単一のサブセットの利用できるオブジェクトがステップ２２０の間に実行され、最も頻繁にマッチするオブジェクトとの対応だけが保持される。

次に、最良マッチが選択される（ステップ２３５）。この目的のために、最も高い確率値で最大数のマッチを提示する、すでに選択されたグループに属するオブジェクトが選択される。

次に、オブジェクト識別誤差を推定するために、ＲＡＮＳＡＣタイプのアルゴリズムが、識別されたオブジェクトのモデルの対象の点を再投影するためにすでに選択されたマッチに対して使用される（ステップ２４０）。したがって、正しくマッチした対象の点が不足する場合、すなわち十分な数の検出された対象の点と、オブジェクトのモデルに基づく対象の点の再投影との間の誤差（ｉｎｌｉｅｒｓと呼ばれる）が、所与のしきい値Ｔよりも大きい場合（ステップ２４５）、現在のグループ内のどのオブジェクトも正しく識別されなかった。この場合、次のグループのオブジェクトに対して、前のステップが繰り返される（ステップ２２０から２４０）。能力の低いプラットフォームに関しては、最大可能数のオブジェクトを含むグループを使用することが有利である。しかしながら、理想的には、認識方法のロバストさを損なわないように、類似するテクスチャリング（ｔｅｘｔｕｒａｔｉｏｎ）を提示する２つのオブジェクトが分離されるべきであることに留意されたい。

一方、正しくマッチする点が十分ある場合、識別されたオブジェクトの正確な姿勢２５０が、たとえばＬｅｖｅｎｂｅｒｇ−Ｍａｒｑｕａｒｄｔアルゴリズムなどのアルゴリズムを使用することにより推定される（ステップ２５５）。

図２を参照して説明される、この場合、多分岐構造の実装に基づく解決策は、現画像内で検出される対象の点のロバストなマッチング、オブジェクトを識別しオブジェクトの姿勢を推定するための限定された処理時間、および同じグループの構造の下でオブジェクトを一緒にグループ化する能力（認識されるべきオブジェクトの数が大きいときに重要である）を含む、数多くの有利な点を提示する。

多分岐構造の構築は、オブジェクトのそれぞれにより占有されるメモリの量を制限することができるようにするように最適化されることが好ましい（オブジェクトを構造で表すために約１００の点を適切に使用する必要があり、これら１００の点は、典型的には約１Ｍｂを占有する）。

現画像内で１つまたは複数のオブジェクトが識別され、かつオブジェクトの推定される姿勢に整合性がある場合、すなわち十分な数のマッチが低い再投影誤差を有する場合、マッチおよびこれらの姿勢を使用してオブジェクト追跡方法を開始することができる。

第１の実施形態によれは、追跡方法は、前画像からの再帰的情報、および追跡されるオブジェクトに対応する１つまたは複数のキー画像からの情報を使用する。このとき、キー画像が、オブジェクトの３次元姿勢に関連するオブジェクトの２次元表現であると考えられることができることが想起される。いくつかのキー画像が、いくつかの視点からオブジェクトを表すために使用されることができる。キー画像をいくつかから選択することは、追跡されるオブジェクトの表現の類似に、および／またはこれらのオブジェクトの推定される姿勢に基づく。

図３ａおよび図３ｂは、この第１の実施形態を示す。図３ａは追跡アルゴリズムの特定のステップを表し、一方、図３ｂはアルゴリズムの実装形態を示す。

第１のステップ（ステップ３００）は、現画像３０５内の対象の点を検出することにある。いくつかのタイプの対象の点が使用されることができるが、ここで使用される対象の点はＦＡＳＴタイプである。したがって、対象の点は、軽量プラットフォームたとえば携帯電話に対して決定されることができる。

このとき、前画像と現画像の間の相関を確立するために、すなわち前画像と現画像の対象の点の間の対応のリストを確立するために、検出された対象の点の周囲に位置する画像部分が、前画像３１５の対象の点（これらの対象の点は、前画像の処理中、または初期化中に決定された）の周囲で取り出される画像部分と比較される（ステップ３１０）。具体的には、この相関は、ＺＮＣＣ（Ｚｅｒｏ−ｍｅａｎＮｏｒｍａｌＣｒｏｓｓＣｏｒｒｅｌａｔｉｏｎの頭字語）タイプの、画像部分の強度を比較するためのオペレータを使用して実行されてもよい。そのようにマッチした点のそれぞれが、キー画像内に対応する点を有し（再帰的に記憶される）、有利なことに、この対応する点は、方法の残りのステップのために非アクティブにされる。

このとき、前画像の対象の点とマッチしない現画像の対象の点が、現画像と使用されるキー画像３２５の間の相関を確立するために使用される（これは、具体的には、前画像に基づき推定されるオブジェクトの姿勢に従って決定されることができる）。この目的のために、キー画像のアクティブな対象の点の周囲の画像部分が（すなわち前画像内に対応する点がない）、前画像に基づき推定される姿勢に従って再投影され、次に、前画像の対象の点とマッチしない現画像の対象の点に関連する画像部分と比較される（ステップ３２０）。この場合も、この相関は、具体的には、現画像に対して再投影された点と、現画像の隣接する点との間のＺＮＣＣタイプの画像部分の強度と比較するためのオペレータを使用して実行されることができる。

次に、オブジェクトの姿勢が、現画像の対象の点の間で確立された、前画像およびキー画像の対象の点との対応を使用して推定される（ステップ３３０）。

所定のしきい値を使って、キー画像の対応する３Ｄ座標を再投影することにより得られる理論的位置と現画像内で検出されマッチした点の位置を比較することにより、推定されるオブジェクトの姿勢を使用することにより、相関誤差が除去されることが好ましい。したがって、現画像の有効な対象の点だけが、次画像を処理するために使用される。

使用されるキー画像の対象の点を使って実行される再帰的マッチの前に、前画像との再帰的マッチを実行することは、キー画像の大部分を再投影するのを避けることができるようにする。各再帰的マッチは、事実上、キー画像に対する参照を有し、すでにマッチしたキー画像の点は現画像に対して処理されない。これは、画像の再投影およびマッチングのオペレーションは計算に関して特に重荷になるので、処理時間の大きな節約をもたらす。

このとき、前画像の画像部分に類似する現画像の画像部分の相対姿勢が、上記で説明されるような画像解析により推定されることができる場合、１組の前画像内に認められる類似する画像部分の姿勢の変化に基づく予測により推定されることもできることが認められる。

この第１の実施形態は、非序に高速な処理を行うことができるようにするが、推定される姿勢は完全ではない。推定される姿勢を改善するために、ＫＬＴタイプのアルゴリズム（計算する能力に関する要件を制限するように修正されることが好ましい）を使用して、対象の点を追跡するステップを追加することが可能である。

したがって、この第２の実施形態によれば、対象の点を追跡するステップ（ステップ３１０’）が、再帰的相関ステップ（ステップ３１０）の後に追加される。ステップ３１０’の目的は、現画像において、現画像の対象の点とマッチしない前画像の対象の点の動きを決定することである。

このとき、再帰的相関（ステップ３１０）および対象の点の追跡（ステップ３１０’）に従って現画像内でマッチしないキー画像の対象の点だけが、現画像とキー画像の間の相関を決定するために再投影される（ステップ２３０）。

オブジェクトの姿勢の推定は、図３を参照して説明される推定と同様に実行される。

図４は、この追跡アルゴリズムの実装形態を図式的に示す。

この実施形態は、前の実施形態よりもよい結果を得ることができるようにする（推定される位置は、光学的不鮮明に対してより安定し、よりロバストである）。より少ない数の対象の点を使用することも可能である。それにもかかわらず、ドリフトが観測されることがある。また、再帰的マッチとＫＬＴタイプのマッチの間のパラメータの割当に基づいて実装することはより複雑である。

図５は、前画像と現画像の要素間のアフィン変換を推定するために、この実施形態で実装されるＫＬＴタイプのアルゴリズムの一例を図式的に示す。この場合、ＫＬＴアルゴリズムは、ＫＬＴアルゴリズムが軽量プラットフォームたとえば携帯電話に実装されることができるようにするように修正される。

第１のステップ（ステップ５００）の目的は、現画像に対して画像の第１のピラミッドを、前画像に対して第２のピラミッドを構築することである。この場合、これらのピラミッドのそれぞれが５つのレベルを含み、最も低いレベルが、画像センサから得られる画像に対応する。

有利なことに、画像は、サブサンプリング（画像の個々の寸法が、たとえば２分の１にされる）される前に、５×５カーネルのガウシアンフィルタで平滑化される。平滑化カーネルの係数は、実行される基本オペレーションの数を低減するために、整数、理想的には２のべき乗であることが好ましい。また、このとき、サブサンプリングは、双一次補間（ｂｉｌｉｎｅａｒｉｎｔｅｒｐｏｌａｔｉｏｎ）なしに実行され、双一次補完は、平滑化の結果、必要ない。

前画像と現画像の間で考慮中の画像部分の動きを表す変数ｄｘおよびｄｙが、ゼロに初期化される（ステップ５０５）。同様に、ピラミッドの現在のレベルを表すｌｅｖｅｌ変数が、最大値（ｎｂｌｅｖｅｌｓと呼ばれる）に、この場合は５に初期化される。このとき、変数ｄｘおよびｄｙは、サブピクセル座標を、すなわちピクセルのサイズ未満の解像度で定義することができるようにすることが認められる。しかしながら、計算を簡略化するために、計算は、整数を処理するためだけに、最も近い倍率で実行される。

次に、座標として（ｘ、ｙ）を有する、処理される対象の点を中心にする画像部分Ｐ_１が、ピラミッドのレベルｌｅｖｅｌにある前画像から取り出される（ステップ５１０）。そのような画像部分は、典型的にはサイズ５×５ピクセルまたは７×７ピクセルを有する。

次に、この画像部分のガウシアン微分係数が決定される（ステップ５１５）。この計算は、整数を使って作業するためだけに、最も近い倍率で実行されることが好ましい。

次に、座標として（ｘ＋ｄｘ、ｙ＋ｄｙ）を有する点を中心する画像部分Ｐ_２が、ピラミッドのレベルｌｅｖｅｌにある現画像から取り出される（ステップ５２０）。

次に、変数ｄｘおよびｄｙの値が、この場合Ｇａｕｓｓ−Ｎｅｗｔｏｎアルゴリズムに従って推定される（ステップ５２５）。このステップは、前画像の部分と現画像の部分の間の差を最小にする変数ｄｘおよびｄｙを推定することができるようにする。この推定は、異なるレベルの画像スケールを使用する結果、大域的最小に導く局所的最小に向かう収束を可能にするように、数回反復される。この場合も、これらの計算に整数を使用することが、大きな性能向上を可能にする。

次に、このアルゴリズムの所定の反復回数に到達したかどうか、および変数ｄｘおよびｄｙが所定の範囲内にあるかどうかを決定するためにテストが実行される（ステップ５３０）。そうではない場合、前ステップ（ステップ５２０および５２５）が繰り返される。それ以外の場合、ｌｅｖｅｌ変数が１だけ増分され（ステップ５３５）、ピラミッドのレベルすべてが処理されたかどうかを決定するために、テストが実行される（ステップ５４０）。ステップ５１０からステップ５４０は、変数ｄｘおよびｄｙが最大解像度を有する画像に対して評価されるまで繰り返される。

有利なことに、数少ない対象の点だけが、画像ピラミッドの低解像度スケールレベルで（すなわち上位レベルで）処理される。したがって、追跡されるオブジェクトの中心点だけが、最高レベル（たとえば４０×３０）で処理されることが好ましく、このオブジェクト上に一様に分散した４つの点が、直接下位レベル（たとえば８０×６０）で処理される。これらの上位スケールレベルは、２つの画像間の大きな動きを近似的に推定することができるようにする。このとき、下位スケールレベルは標準的方法で処理される。このとき、下位スケールレベルでの推定される並進（ｄｘ、ｄｙ）は、直接下位レベルに適用される。これらの下位レベルは、見いだされる点の位置を改良することができるようにする。

第３の実施形態によれば、図３を参照して説明される相関ステップ（ステップ３１０）は、図４を参照して説明されるようなＫＬＴタイプの対象の点を追跡するステップ（ステップ３１０’）により置換される。換言すれば、前画像と現画像の間で対象の点を追跡することは、ＫＬＴタイプのアルゴリズムだけを使用して実行される。

図６は、この追跡アルゴリズムの実装形態を図式的に示す。

この実施形態は、光学的不鮮明に対してもロバストで安定性のよい推定された姿勢を得ることができるようにする。より少数の対象の点を使用することも可能である。しかしながら、大きなドリフトが認められることがある。

第４の実施形態によれば、追跡方法は、現画像内の任意の対象の点を検出することを必要とせず、ＫＬＴタイプのアルゴリズムだけを実装する。この実施形態は、安定かつロバストであり、上記で説明される修正されたＫＬＴアルゴリズムを使用して、軽量プラットフォームたとえば携帯電話で、リアルタイムで実現されることができる。

図７は、この第４の実施形態によるオブジェクト追跡アルゴリズムの特定のステップを図式的に示す。

示されるように、すでに決定された点が、前画像および現画像の中に類似する画像部分を探し出すことにより再帰的に追跡される。このとき、これらの２Ｄ／３Ｄ対応の結果、姿勢が推定される（再帰的に追跡される点が、キー画像の対象の点に対する初期参照を保持することを考慮すると、３Ｄ座標はキー画像内の対象の点の位置により与えられる）。次に、新しい対象の点がキー画像内で選択され、対応する点が、次画像の処理を可能にするために、現画像内で探し出される。

より正確には、第１のステップが、初期化フェーズ（ステップ７１０）の後に、前画像で識別された点７０５、またはキー画像とマッチした点を、現画像７００内で追跡することからなる。このとき、点のこの追跡は、上記で説明される修正されたＫＬＴオペレータを使用して実行される。この追跡は、前画像内でそのように識別された点のそれぞれに対して、現画像内の対応する点得ることができるようにする。

そのように追跡された点は、一連の２Ｄ／３Ｄ対応（現画像内の点の２Ｄ位置、およびキー画像内の３Ｄ位置）を得ることができるようにする。上記で示されるように、このとき、これらの対応はサブピクセルの精度で推定される。

次に、この１組の対応は、前画像と現画像の間で追跡されるオブジェクトの動きを特徴付ける６つの自由度（位置の３つの自由度、および向きの３つの自由度）を有する状態ベクトルを評価できるようにする姿勢推定方法（ステップ７１５、７２０、および７２５）で使用される。

この目的のために、ステップの目的は、点の追跡から得られる誤ったマッチを除去する（ステップ７２０）ために使用されることができる第１の姿勢を推定する（ステップ７１５）ことである。このとき、姿勢は、前画像および現画像の点のマッチングに従って標準的方法で推定される。

点の追跡から生じる誤ったマッチを除去するために、前画像内で識別され、評価された姿勢に従って再投影される点が、その姿勢に適合することを検証するために、最大の許可された再投影しきい値が使用される（たとえばユークリッド距離４ピクセル）。この目的のために、前画像内で識別された各点の３Ｄ座標が、すでに推定された姿勢を使用して投影される。再投影誤差は再投影された２Ｄ座標と、追跡される点の追跡された２Ｄ座標の間のユークリッド距離により与えられる。

次に、現画像内の追跡されるオブジェクトの姿勢７３０が、正しくマッチした点７３５だけを使用して評価される（ステップ７２５）。

任意選択で、追跡される点と再投影される点の間の距離に基づき、誤差重み付け関数を使用して、正しいと考えられる対応のそれぞれと重み付けを関連付けることが可能である。そのような誤差重み付けは、典型的には自乗された再投影誤差（または残差）および現在のサンプルに対して自乗された再投影誤差のすべてを使って推定される中央値の関数として計算される。したがって、重み付けの関数として正しくマッチした点に基づき、追跡されるオブジェクトの姿勢を改善することが可能である。これは、Ｇａｕｓｓ−Ｎｅｗｔｏｎアルゴリズムの反復のそれぞれに対する計算に直接影響を及ぼす。このステップの間、ドリフトする傾向がある点を、ＫＬＴ追跡アルゴリズムを使って除去するために、最大の許可された再投影しきい値が（たとえばユークリッド距離１または２ピクセルまで）低減される。

追跡されるオブジェクトの姿勢を推定した後、次画像内のオブジェクトを追跡するために使用される点７６５が決定される。有利なことに、これらの点は、現画像内で正しくマッチした、前画像から生じる点（すなわち再投影ステップの間に検証された点）、およびキー画像の対象の点を一緒にグループ化する。換言すれば、次画像内で使用される点は、前画像から現画像内で正しく追跡された点と、キー画像を使用して得られる新たな点の組合せである。点のこの組合せは、オブジェクト追跡方法でのドリフト／オブジェクト追跡方法に由来するドリフトを避けることができるようにする。

使用されるべきキー画像の対象の点７５０は、現画像内の再投影によるキー画像の対象の点７４５から決定される（ステップ７４０）。キー画像の対象の点のいくつかのタイプの選択が実装されることができる。すなわち
キー画像のアクティブな対象の点を使用する（すなわち前画像に対応がない）。これは、多くの点がキー画像内で潜在的に利用できるので、最も費用のかかる解決策である。さらに、これらの対象の点が、異なるキー画像上で構築されるとき、初期化フェーズを改善するために、異なるスケールレベルで構築され、このことがキー画像上で利用できる対象の点の数をさらに増大させる。
現画像内の追跡されるオブジェクトのサイズの関数として対象の点を選択する。現画像内のオブジェクトのサイズは既知であるので（現画像内のピクセル単位の表面積）、最も適切なスケールに従って対象の点を選択することが可能である。たとえば、オブジェクトがカメラに近接しており、方法により処理される現画像が３２０×２４０ピクセルであるとき、この値（３２０×２４０）に最も近いスケールレベルに対応する対象の点を選択することが望ましいことがある。この選択は、追跡されるオブジェクトがカメラに対して接近している、または遠ざかっているとき、ロバストに追跡されることができる対象の点を識別することができるようにする。しかしながら、この方法では多くの対象の点が選択されることがあり、この方法は相当の計算量を伴うことがある。
キー画像と組み合わせられたグリッドに従って対象の点を選択する。この場合、対象の点を選択するために、サイズＮ×Ｍのグリッドがキー画像上に構築される。したがって、現画像上で見えるグリッドのセル当たり、好ましくは最も適切な対象の点を１つ選択することが可能である。たとえば、サイズ７×５のグリッドに対してキー画像の３５の対象の点が選択されることができる。オブジェクトがカメラの視野を離れるとき、点選択アルゴリズムは、一定数の追跡される点を保持するために、グリッドのセル当たりいくつかの点を選択することができる。このグリッドには、オブジェクトの表面全体に一様に分散した対象の点の選択を可能にし（具体的には最後の推定される姿勢を安定させることができるようにする）、互いに近接する対象の点（役に立たないことがある）を選択することを避けるという二重の有利な点がある。

次に、対象の点の周囲に位置する、キー画像の画像部分が、すでに推定された現在の姿勢情報に従って取り出され、再投影される（ステップ７５５）。再投影された画像部分は、一般に強度が大きく変化した現画像に非常に類似することが認められる。この再投影は、デスティネーション画像の各ピクセルに対して、サブピクセル座標が、２つの画像を連結する逆一次変換（ｒｅｖｅｒｓｅｈｏｍｏｇｒａｐｈｉｃｔｒａｎｓｆｏｒｍａｔｉｏｎ）の関数としてソース画像内に見いだされなければならないので、計算に関して費用がかかる。したがって、デスティネーション画像部分内の１つのピクセルが、ソース画像内の数ピクセルの補間に対応する。計算を最適化するために、補間は、有利なことに最近接技法（ｃｌｏｓｅｓｔａｄｊａｃｅｎｔｔｅｃｈｎｉｑｕｅ）を使用して置換されることができる。

次のステップでは、現画像の対応する部分に類似する再投影された画像部分に関連する選択された対象の点を検証するためだけに、再投影されたキー画像の部分と現画像の対応する部分の間で比較が行われる（ステップ７６０）。この検証ステップは以下のステップを含むことができる。
現在の姿勢に対して、現画像内で再投影された選択される対象の点に関連する画像部分をマッチさせるステップ。キー画像と現画像の間の比色差が大きいことがあるので、ＫＬＴ追跡方法は照明の変化に対してロバストであることが好ましい。
たとえばＺＮＣＣまたはＳＡＤ（ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅｓの頭字語）のタイプのオペレータを使用して、行われるマッチを検証するステップ。画像部分の比較による検証のこのステップは、使用されるＫＬＴ追跡オペレータに関連するいかなるドリフトも避ける上で重要である。

このように選択され検証された対象の点は、次画像内のオブジェクトを追跡するために使用される１組の再帰的点７６５に追加される。

図８は、この追跡アルゴリズムの実装形態を図式的に示す。

あるいは、特定のタイプのオブジェクト上に出現することがあるドリフトを避けるために、現画像内の追跡されるオブジェクトの姿勢が、次画像内のオブジェクトを追跡するために使用される点を選択し、検証した後に推定されることができる。これは、具体的には、オブジェクトが別個のアウトラインたとえば黒いエッジを有するときに認められることがある。ＫＬＴ追跡方法により使用される対象の点は、これらのアウトラインを追跡し、不十分な２Ｄ／３Ｄ対応（ｏｕｔｌｉｅｒｓと呼ばれる）を与える傾向があり得るためである。

図９は、第４の実施形態によるオブジェクト追跡アルゴリズムのそのような一変形形態の特定のステップを図式的に示す。

前述のように、第１のステップ（ステップ７１０’）の目的は、前画像内で識別された点７０５、または初期化フェーズ後にキー画像とマッチした点を現画像７００内で追跡することである。この場合も、このとき、点のこの追跡は、上記で説明される修正されたＫＬＴオペレータを使用して実行される。修正されたＫＬＴオペレータは、前画像内でそのように識別された点のそれぞれに対して、次画像内の対応する点を得ることができるようにする。

次のステップ（ステップ７４０’）の目的は、キー画像内の対象の点を選択することである。このステップはステップ７４０に類似する。しかしながら、選択される対象の点は、現画像内の追跡されるオブジェクトの姿勢を推定するために使用されるので、この姿勢に対してではなく、多分、前画像に従って決定された姿勢に対して再投影される。

再帰的点の追跡（ステップ７１０’）およびキー画像の点（ステップ７４０’）の追跡を改善し、簡略化するために、有利なことに、姿勢の予測のための線形モデルが使用されてもよい。したがって、前姿勢の履歴を使用して、現画像内で探し出される対象の点の位置を予測し、したがって、大きな画像のピラミッドを構築し実行する必要性を避けることが可能であり、最下位レベルの解像度はもはや必要とされない。

選択された対象の点の周囲の画像部分は、これらの対象の点を現画像の対応する点とマッチさせるために、追跡アルゴリズムに、この場合ＫＬＴアルゴリズムに従って現画像の部分と比較されるために、前画像内の追跡されたオブジェクトの姿勢に従って取り出され、再投影される（ステップ７７０）。前画像の点と現画像の点の間のマッチに関しては、前画像のこれらの点と現画像の対応する点の間のアフィン変換を決定することができるようにするので、キー画像の点と現画像の対応する点の間のこれらのマッチは、キー画像の選択された対象の点と現画像の対応する点の間のアフィン変換を決定することができるようにする。

前画像の点と現画像の対応する点の間のマッチ、およびキー画像の点と現画像の対応する点の間のマッチは、追跡されるオブジェクトの姿勢７３０’を標準的方法で決定することができるようにする（ステップ７７５）。

上述の実施形態の１つに従って実装される、本明細書で説明される方法は、具体的には制限された処理資源を有するシステムたとえば携帯電話で、非平面状のオブジェクトを追跡するのに特に適している。したがって、方法は、たとえば画像のシーケンス内で顔を追跡するために使用されることができる。

図１０は、本発明を、具体的には図１、図２、図３ａ、図５、図７、および図９を参照して説明されるアルゴリズムを実装するのに適したハードウェアアーキテクチャの一例を示す。そのような装置は、たとえば携帯電話、パーソナルアシスタント、あるいは携帯型のパーソナルコンピュータまたはネットブックのタイプである。この場合、装置１０００は、
中央処理装置またはマイクロプロセッサ１０１０（ＣＰＵ）、
本発明を実装するために必要とされるプログラムを保持することができる読み出し専用メモリ１０１５（ＲＯＭ）、
上述のプログラムの実行中に生成され修正される変数およびパラメータを記憶するのに適したレジスタを保持するランダムアクセスメモリまたはキャッシュメモリ１０２０（ＲＡＭ）、および
データを送受信するのに適した通信インタフェース１０５０
を接続する通信バス１００５を含む。

装置１０００はまた、
具体的には、入出力インタフェース（１０５５）を介してバス１００５に接続される画像センサ（１０６０）により観測されるような実際のシーンを表示することができるようにし、好ましくは仮想オブジェクトにより拡張され、キーボードおよびマウス１０３０、あるいは別のポインティング装置たとえばタッチスクリーンまたは遠隔操作を使用して本発明によるプログラムと対話することができるユーザとのグラフィックインタフェースの役割を果たすことができるスクリーン１０２５、
上述のプログラム、および本発明に従って処理されたまたは処理されるべきデータ、たとえば訂正テーブルを記憶することができるハードディスク１０３５、および
メモリカード１０４５を収容し、本発明に従って処理されたまたは処理されるべきデータを読み書きすることができるメモリカードリーダ１０４０
といった要素を有することが好ましい。

通信バスは、装置１０００に含まれる、または装置１０００に接続される異なる要素間の通信および相互運用性を提供する。バスの表現は限定的ではなく、具体的には、中央処理装置は、命令を直接または装置１０００の別の要素を通して、装置１０００の任意の要素に伝達することができる。

プログラム可能装置が本発明による処理を実装することができるようにする各プログラム用機械コードが、たとえばハードディスク１０３５または読み出し専用メモリ１０１５に記憶されることができる。

一変形形態によれば、メモリカード１０４５は、データを、具体的には検出されたイベントと呼び出されるコマンドの間のルックアップテーブル、およびさらに装置１０００により読み出されるとハードディスク１０３５に記憶される上述のプログラム用機械コードも含むことができる。

別の変形形態によれば、プログラム用機械コードは、上記で説明される方法と同一の方法で記憶されるように、少なくとも部分的にインタフェース１０５０を通して受信されることができる。

より一般的には、１つまたは複数のプログラムが、実行される前に装置１０００の記憶手段の１つの中にロードされることができる。

中央処理装置１０１０は、本発明による１つまたは複数のプログラムの命令またはソフトウェアコードの部分の実行を指令および指示し、プログラムの命令は、ハードディスク１０３５、または読み出し専用メモリ１０１５、またはその他の上述の記憶要素に記憶される。電源が投入されたとき、不揮発性メモリたとえばハードディスク１０３５または読み出し専用メモリ１０１５に記憶される１つまたは複数のプログラムが、ランダムアクセスメモリ１０２０に転送され、このとき、ランダムアクセスメモリ１０２０は１つまたは複数のプログラム用機械コードを含む。

当然、特定のニーズを満たすために、本発明の分野の当業者が上記の説明に修正を適用することができるであろう。

Claims

少なくとも１つのキー画像（ｋｅｙｉｍａｇｅ）を使用する、画像のシーケンス内の少なくとも１つのオブジェクトの表現のハイブリッド型追跡の、コンピュータのための方法であって、
前記少なくとも１つのオブジェクトの表現を含む画像の前記シーケンスの第１の画像および第２の画像を得るステップと、
前記少なくとも１つのオブジェクトの表現の少なくとも１つの一部を含む、前記第１の画像の少なくとも１つの第１の画像部分を識別するステップと、
前記少なくとも１つのキー画像から、前記少なくとも１つのオブジェクトの表現の少なくとも１つの一部を含む前記キー画像の少なくとも１つの第２の画像部分を取り出すステップと、
前記第１の画像の前記少なくとも１つの第１の画像部分に従って、前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の少なくとも１つの第１の画像部分の相対姿勢を推定するステップと、
前記キー画像の前記少なくとも１つの第２の画像部分に類似する、前記第２の画像の少なくとも１つの第２の画像部分を探索するステップ（３２０、７６０、７７０）であって、探索するステップが第２の画像の少なくとも１つの第１の画像部分の相対姿勢に従って前記キー画像の少なくとも１つの第２の画像部分を前記第２の画像に再投影するステップを含む、ステップと、
前記第１の画像部分および前記第２の画像部分の相対姿勢に従って、前記少なくとも１つのオブジェクトの相対姿勢を推定するステップ（３３０、７２５、７７５）と
を含むことを特徴とする方法。
前記第１の画像の前記少なくとも１つの第１の画像部分を識別する前記ステップが、前記第１の画像の前記少なくとも１つの第１の画像部分を取り出すステップ（５１０）を含み、前記第２の画像の前記少なくとも１つの第１の画像部分の前記相対姿勢を推定する前記ステップが、前記第２の画像内で、前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の前記少なくとも１つの第１の画像部分を探索するステップ（３１０、７１０、７１０’）を含む、請求項１に記載の方法。
前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の前記少なくとも１つの第１の画像部分を探索する前記ステップが、ＫＬＴタイプの探索アルゴリズムを実装する、請求項２に記載の方法。
前記少なくとも１つのキー画像から前記少なくとも１つの第２の画像部分を取り出す前記ステップにおいて、前記少なくとも１つの第２の画像部分が、前記キー画像の少なくとも１つの所定の対象の点に従って、前記少なくとも１つのキー画像から取り出される、請求項１から３のいずれか１項に記載の方法。
前記少なくとも１つの対象の点を選択するステップ（７４０、７４０’）をさらに含む、請求項４に記載の方法。
前記第２の画像の少なくとも１つの第２の画像部分を探索する前記ステップが、前記第２の画像に関して前記少なくとも１つの選択された対象の点を検証するステップ（７６０）を含む、請求項５に記載の方法。
前記キー画像の前記少なくとも１つの第２の画像部分に類似する、前記第２の画像の少なくとも１つの第２の画像部分を探索する前記ステップが、ＫＬＴタイプのアルゴリズムを実装する、請求項１から６のいずれか１項に記載の方法。
前記少なくとも１つの第２の画像内の少なくとも１つの対象の点を決定するステップをさらに含む、請求項１から４のいずれか１項に記載の方法。
前記第１の画像の前記少なくとも１つの第１の画像部分に類似する、前記第２の画像の前記少なくとも１つの第１の画像部分を探索する前記ステップが、類似により画像部分を探索する少なくとも２つの異なるアルゴリズムを実装する、請求項８に記載の方法。
前記第２の画像の少なくとも１つの第１の画像部分の相対姿勢を推定する前記ステップ、および／または前記第２の画像の少なくとも１つの第２の画像部分を探索する前記ステップが、シーケンス内の第１の画像および第２の画像に先立つ画像に対して実行された、前記少なくとも１つのオブジェクトの相対姿勢推定の少なくとも１つの結果を使用して、姿勢を予測するステップを含む、請求項１から９のいずれか１項に記載の方法。
コンピュータに請求項１から１０のいずれか１項に記載の方法の各ステップを実行できるようにするコンピュータプログラム。
請求項１から１０のいずれか１項に記載の方法の各ステップを実行する手段を備える装置。