JP2010238226A - 物体を追跡するための方法及びシステム - Google Patents
物体を追跡するための方法及びシステム Download PDFInfo
- Publication number
- JP2010238226A JP2010238226A JP2010027345A JP2010027345A JP2010238226A JP 2010238226 A JP2010238226 A JP 2010238226A JP 2010027345 A JP2010027345 A JP 2010027345A JP 2010027345 A JP2010027345 A JP 2010027345A JP 2010238226 A JP2010238226 A JP 2010238226A
- Authority
- JP
- Japan
- Prior art keywords
- particles
- image
- particle
- motion
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
【課題】十分に大きく動いている物体を追跡することを可能にする方法を提供する。
【解決手段】トレーニング画像から目標画像まで物体を追跡する方法及びシステムを提供する。トレーニング画像及び目標画像は画像シーケンスの要素である。トレーニング画像内の物体は物体状態によって表される。最初に、パーティクルのセットが取得され、該パーティクルのセット内の各パーティクルは重みに関連付けられ、それによって、該パーティクルが該重みに等しい確率で物体状態を表す。次に、目標画像に基づいてパーティクルのセット内の各パーティクルに回帰関数が適用されて、動いたパーティクルのセットが求められ、該動いたパーティクルのセットに従って物体状態が更新され、それによって、物体状態が目標画像内の物体を表す。
【選択図】図1
【解決手段】トレーニング画像から目標画像まで物体を追跡する方法及びシステムを提供する。トレーニング画像及び目標画像は画像シーケンスの要素である。トレーニング画像内の物体は物体状態によって表される。最初に、パーティクルのセットが取得され、該パーティクルのセット内の各パーティクルは重みに関連付けられ、それによって、該パーティクルが該重みに等しい確率で物体状態を表す。次に、目標画像に基づいてパーティクルのセット内の各パーティクルに回帰関数が適用されて、動いたパーティクルのセットが求められ、該動いたパーティクルのセットに従って物体状態が更新され、それによって、物体状態が目標画像内の物体を表す。
【選択図】図1
Description
本発明は、包括的には画像処理及びコンピュータビジョンのための方法に関し、より詳細には、物体を追跡する方法に関する。
追跡は、画像シーケンス内の物体の運動を推定するプロセスである。物体を追跡する方法は一般に、物体が或る初期画像内で検出されることを必要とする。その結果、後続の画像内で物体を追跡することができる。追跡方法は一般に、状態空間推定器、モデル整合、及び局所的カーネル検索の方法として分類することができる。
状態空間推定器の方法
状態空間推定器の方法は通常、マルコフプロセスを使用し、運動パラメータの確率密度関数(pdf:probability density function)を構築する。たとえば、カルマンフィルタリングは正規分布を使用する。しかしながら、カルマンフィルタリング法は多モード分布を記述することができない。
状態空間推定器の方法は通常、マルコフプロセスを使用し、運動パラメータの確率密度関数(pdf:probability density function)を構築する。たとえば、カルマンフィルタリングは正規分布を使用する。しかしながら、カルマンフィルタリング法は多モード分布を記述することができない。
モンテカルロ積分法、たとえばパーティクルフィルタは、物体の姿勢を含むいかなるパラメトリック変動も追跡することができる。しかしながら、これらの方法はランダムサンプリングに依存し、特により高い次元の表現に関して推定尤度を劣化させる傾向にある。その上、これらの方法の計算要件は状態変数の数と共に指数関数的に増大し、それによって、これらの方法は複雑な姿勢変化を追跡するには不適切なものとなる。
モデル整合の方法
モデル整合の方法は、物体モデルと、画像内に見える通りの物体との間の差分に基づいてコスト関数を定義する。コスト関数は、運動パラメータを最小化することによって解かれる。1つの例はオプティカルフロー推定であり、該オプティカルフロー推定では、物体モデルと画像強度との間の距離の2乗の合計が反復最小2乗問題として最小化される。この方法の主要な問題は、各反復に対する画像勾配、ヤコビ行列及びへッシアン行列の計算であり、このためこの方法は時間がかかってしまう。
モデル整合の方法は、物体モデルと、画像内に見える通りの物体との間の差分に基づいてコスト関数を定義する。コスト関数は、運動パラメータを最小化することによって解かれる。1つの例はオプティカルフロー推定であり、該オプティカルフロー推定では、物体モデルと画像強度との間の距離の2乗の合計が反復最小2乗問題として最小化される。この方法の主要な問題は、各反復に対する画像勾配、ヤコビ行列及びへッシアン行列の計算であり、このためこの方法は時間がかかってしまう。
他のモデル整合の方法は、運動とコスト関数との関係の代替的な定式化によってこの問題を克服する。いくつかの方法では、オフラインプロセスにおいて学習される画像勾配の線形関数を使用して運動が推定される。この着想は、関連ベクタマシンを使用して画像から運動への非線形マッピングを学習することに拡張される。
しかし、これらの方法は線形化を介して運動パラメータに対する加法的な更新を推定する。したがって、これらの方法は非線形運動を追跡することができない。
局所的カーネル検索
対照的に、カーネルに基づく方法は、物体を画像領域として表し、前回のロケーションを先行する確率として使用して同じ領域を検索する。この検索は、網羅的マッチングプロセス又は反復密度勾配推定として課される。カーネル法は多くの場合に、物体が連続するフレーム間で重なり合っている領域を有することを必要とする。ヒストグラム及びテンプレートのような初期の物体表現に起因して、カーネルに基づく方法は姿勢の変動を判別することができず、並進運動に限定される。
対照的に、カーネルに基づく方法は、物体を画像領域として表し、前回のロケーションを先行する確率として使用して同じ領域を検索する。この検索は、網羅的マッチングプロセス又は反復密度勾配推定として課される。カーネル法は多くの場合に、物体が連続するフレーム間で重なり合っている領域を有することを必要とする。ヒストグラム及びテンプレートのような初期の物体表現に起因して、カーネルに基づく方法は姿勢の変動を判別することができず、並進運動に限定される。
運動推定に関するリー群理論
リー代数を使用して、平均シフト演算を使用する剛体運動推定に関して、ユークリッド運動群構造を有する分布のモードを求めることができる。運動が大きい場合、平均シフト演算は失敗する可能性があることが知られている。ベクトル加法演算はリー代数において、アフィン「スネーク」(affine 'snake')の追跡のために一連のアフィン運動を積分するように規定される。
リー代数を使用して、平均シフト演算を使用する剛体運動推定に関して、ユークリッド運動群構造を有する分布のモードを求めることができる。運動が大きい場合、平均シフト演算は失敗する可能性があることが知られている。ベクトル加法演算はリー代数において、アフィン「スネーク」(affine 'snake')の追跡のために一連のアフィン運動を積分するように規定される。
テンプレート追跡のために加法的な更新がリー代数において実施される。しかしながら、この手法は行列乗算の非交換性を考慮しておらず、この推定は物体の初期変換付近でしか有効でない。
リー代数に基づく1つの追跡方法は、一次近似を測地誤差まで最小化し、特に物体の運動が大きくない場合に、非常に満足のいく姿勢追跡結果を報告する。参照により本明細書に援用される、Prikli他によって出願された「Method and System for Detecting and Tracking Objects in Images」と題する米国特許出願第11/862,554号を参照されたい。
姿勢が複雑に変化する場合であっても、パーティクルフィルタを使用して画像シーケンス内で物体を追跡することが望ましい。
本発明の目的は、物体追跡のための方法を提供することである。
本発明のさらなる目的は、十分に大きく動いている物体を追跡することを可能にする方法を提供することである。
十分に大きく動いている物体を追跡するという課題は、パーティクルフィルタを使用すると共に、各パーティクルを変換空間上に回帰させることによって解決され、ここで、マッピング関数はリー代数における回帰によって学習される。本発明の実施の形態は、回帰追跡器及びパーティクルフィルタと比較してより優れた追跡性能を実証している。
本発明の実施の形態は、パーティクルフィルタリング及びリー代数における回帰追跡の双方の利点を受け継ぐ方法を開示する。
回帰追跡とは異なり、本方法はパーティクルフィルタに起因して、物体のパラメータ変動が著しく大きい場合であっても、該変動を推定する。加えて、回帰に起因して、本方法の計算要件は最小限に留まり(リアルタイム)、それによって、アフィン変換のような複雑な姿勢変化を追跡することが可能となる。加えて、採用される低レベルの特徴(方向ヒストグラム)によって、単眼シーケンスにおける姿勢追跡が可能となる。
本発明の実施の形態は、リー代数における回帰姿勢推定を逐次重点サンプリングパーティクルフィルタ内に組み込む、物体追跡のための新規の方法を提供する。本発明の方法は、10倍のパーティクルを用いる従来のパーティクルフィルタよりも正確な結果を提供し、リー代数における従来の回帰追跡器とは異なり大きな並進運動を回復する。
図1は、本発明の実施形態による、画像Iiのシーケンス110内で動いている物体115を追跡するための方法及びシステム100を示す。画像シーケンス110をカメラによって取得することができる。代替的に、シーケンス110を持続性メモリ又は通信インタフェースから方法100に提供することができる。一般性を損なうことなく、方法100は物体115の非線形運動に関して記載される。しかしながら、本方法は任意のタイプの運動を有する物体を追跡することができる。
方法100は、当該技術分野において既知のテレビ、プロジェクタ、再生装置、カメラ、又はコンピュータのような表示装置(図示せず)に接続されるプロセッサ又はマイクロプロセッサ103において機能することができる。表示装置を使用して、システムのユーザが物体の運動を見ることができる。
コンピュータは通常、バスによって接続される、1つ又は複数の処理装置及び/又はマイクロコントローラ、メモリ、並びに入出力インタフェースを備える。メモリは、後述するような現在の画像を記憶する揮発性メモリ、たとえばRAMを含むことができる。プロセッサは、画像シーケンス110を記憶する持続性メモリ、たとえばビデオテープ及びDVDのような取り外し可能記憶媒体、並びに、セットトップボックス、ネットワークインタフェース等のような通信インタフェースにアクセスすることもできる。本方法は、画像シーケンス110がリアルタイムで取得される場合にも物体を追跡することができることを理解されたい。
本発明の方法に対する入力は、画像シーケンス110である。該画像は、動いている物体115を含む。通常、画像シーケンスはビデオの複数のフレームである。シーケンス110の最初の画像はトレーニング画像と呼ばれる。トレーニング画像117に関して、物体状態120、たとえば物体ロケーション、方向、及びスケールが分かっている。画像シーケンスからの画像Iiは、方法100の現在の反復の間に物体を検出又は追跡する必要がある場合、目標画像と呼ばれる。
1つの実施形態において、目標画像は、方法100の後続の反復に対するトレーニング画像となることに留意されたい。しかしながら、別の実施形態では、トレーニング画像117は方法100の実行全体の間に変更されない。
トレーニング画像117及び物体状態120から回帰関数135をトレーニングする(130)。回帰関数トレーニングは、下記に、及び、参照により本明細書に援用される、Prikli他によって2007年9月27日付けで出願された「Method and System for Detecting and Tracking Objects in Images」と題する米国特許出願第11/862,554号に記載されている。
上述のように、目標画像がトレーニング画像に置き換わるとき、目標画像のすべて又は一部に関して回帰関数135を再トレーニングすることができる。代替的に、方法100の実行全体にわたって回帰関数を維持することができる。
シーケンス110の各目標画像Iiをパーティクルのセット140として表す。セット140の各パーティクルの運動155を求める(150)。パーティクル140の運動155は、より詳細に後述するように、回帰関数135及び各パーティクルの特徴表現、たとえば、目標画像Iiと比較して重み付けされた方向ヒストグラムを使用して求められる。
パーティクル140は、重みに関連付けられる物体115のランダムパーティクルのセットによって、物体115の事後密度関数によって表され、該重みはパーティクルが物体115と一致する確率を記述する。1つの実施形態では、物体状態120のガウス確率密度からサンプルを取り出す。代替的に、動いたパーティクル155を、方法100の後続の反復に対するパーティクル140として使用することができる。
本発明の背景として、回帰関数135に基づく動いたパーティクル155は物体115の運動をより良好に表すことが理解されている。したがって、動いたパーティクルに関連付けられる重みを計算して組み合わせる(160)ことによって、物体115の物体状態120の新たな値がより高い精度で求められる。
より詳細に後述されるように、ステップ160は、トレーニング画像117及び物体状態120の現在の値に基づいて求められる(170)物体記述子175を利用する。
追跡メカニズムとしての回帰
本発明の実施形態を、物体115のパラメトリック運動変換A(2)に関して説明する。パラメトリック変換は、所与の変数に適用されるパラメータの関数である。該変数は、画素特徴と、領域特徴と、画素座標と、領域座標とを含む。該パラメータは、たとえば、アフィン変換と、透視運動変換と、有限数のパラメータによって表すことができる他の線形変換、非線形変換、剛体運動変換、及び非剛体運動変換とを含む。本発明は、他の運動変換、たとえば相似変換S(2)、及びユークリッド運動SE(2)と共に使用することができる。
本発明の実施形態を、物体115のパラメトリック運動変換A(2)に関して説明する。パラメトリック変換は、所与の変数に適用されるパラメータの関数である。該変数は、画素特徴と、領域特徴と、画素座標と、領域座標とを含む。該パラメータは、たとえば、アフィン変換と、透視運動変換と、有限数のパラメータによって表すことができる他の線形変換、非線形変換、剛体運動変換、及び非剛体運動変換とを含む。本発明は、他の運動変換、たとえば相似変換S(2)、及びユークリッド運動SE(2)と共に使用することができる。
2次元パラメトリック変換A(2)は3×3行列
によって与えられ、ここで、Aは、回転、スケール及びスキューを表すための正則2×2行列であり、
である。すべてのパラメトリック変換から成るセットが行列リー群構造を形成する。リー群は微分可能多様体である。該群に対する演算は平滑構造に対応する。リー群は多様体であるため、リー群に対し微分学によって演算を行うことができる。大域的なリー群を、そのリー代数として知られる局所的なもの又は線形化したものに置き換えることができる。リー代数は、リー群及び微分可能多様体のような幾何学的対象に対して演算を行うのに使用することができる代数構造である。
図2は、物体座標及び画像座標における物体115のロケーションの双方向ロケーション変換行列M及びM−1を示す。物体座標における物体115のロケーションは単位正方形201である。画像座標における物体115のロケーションは画像202の追跡領域160である。アフィン行列Mは、以下の式に従って、座標203の原点における単位正方形201を、画像内の物体を囲む追跡領域160に変換する。
ここで、下付き文字はそれぞれ物体座標(obj)及び画像座標(img)を示す。逆変換M−1もアフィン行列であり、画像座標160内の物体を物体座標201内の物体に変換する。
Iを入力画像110を示すものとし、tは時刻(フレーム)インデックスである。追跡は、時刻tまでの画像、すなわちI0...t及び初期ロケーション変換M0を所与としてロケーション変換行列Mtを推定する。初期画像内で物体を検出する方法については後述する。
ロケーション変換行列Mtは、時刻tにおける物体座標における物体115のロケーションを規定する。ロケーション変換行列を以下のようにモデル化し、
各時刻(フレーム)tにおける運動変換ΔMを推定する。運動変換ΔMは、時刻t−1からtまでの物体座標203内の物体の運動に対応する。
物体座標における画像はI(M−1)である。画素値を物体115の追跡領域160とみなし、画素を記述子175、たとえば勾配方向ヒストグラムを用いて表す。記述子(観測値)はo(M−1)∈Rmであり、ここでmは記述子175の次元である。
追跡を、行列値回帰問題として定義する。前回処理した画像Mt−1の、ロケーション変換行列によって指示される物体の前回のロケーション、すなわち追跡領域、及び現在の画像Itを所与として、回帰関数135を使用して運動変換ΔMtを推定する。
物体記述子
図3は、物体115を囲む単位正方形201の表現を示す。単位正方形は、物体座標における単位正方形201の内部の規則的な格子において求められるいくつかの勾配方向ヒストグラムを含む。スケール不変特徴変換(SIFT)記述子と同様に、各画素のヒストグラムに対する寄与は画素の勾配の大きさに比例する。単位正方形301は6×6=36個のブロック302に分割され、ヒストグラムはブロックごとに求められる。
図3は、物体115を囲む単位正方形201の表現を示す。単位正方形は、物体座標における単位正方形201の内部の規則的な格子において求められるいくつかの勾配方向ヒストグラムを含む。スケール不変特徴変換(SIFT)記述子と同様に、各画素のヒストグラムに対する寄与は画素の勾配の大きさに比例する。単位正方形301は6×6=36個のブロック302に分割され、ヒストグラムはブロックごとに求められる。
各ヒストグラム内の方向は0度と2π度との間でπ/6度刻みで量子化される。したがって、各ヒストグラムは12次元であり、物体記述子oは432次元である。追跡中に、追跡領域内の周縁画素は頻繁にバックグラウンドの影響を受ける。したがって、本発明の1つの実施形態では、追跡領域の外周付近に10%の境界を残し、単位正方形301の内部の物体の記述子を求める。
回帰関数
図4は、本発明の実施形態による、回帰関数f135をトレーニングする(130)ための方法を示す。トレーニングの結果は、回帰係数Ωの推定値である。回帰係数は、物体記述子oを、運動変換ΔMと相関させる。回帰関数がトレーニングされて画像に適用される方法は、物体追跡及び物体検出の場合と同じである。
図4は、本発明の実施形態による、回帰関数f135をトレーニングする(130)ための方法を示す。トレーニングの結果は、回帰係数Ωの推定値である。回帰係数は、物体記述子oを、運動変換ΔMと相関させる。回帰関数がトレーニングされて画像に適用される方法は、物体追跡及び物体検出の場合と同じである。
トレーニングセット
トレーニング中に、物体115の初期ロケーションが、シーケンス110の初期(トレーニング)画像I0420内の初期追跡領域160によって近似される。追跡領域160は一般に、画像座標に従って物体115のロケーションを指示する。したがって、物体座標における物体115のロケーションのロケーション変換行列M0460も分かる。物体検出に関して、物体を含むトレーニング画像がトレーニングに供給される。図4を参照されたい。
トレーニング中に、物体115の初期ロケーションが、シーケンス110の初期(トレーニング)画像I0420内の初期追跡領域160によって近似される。追跡領域160は一般に、画像座標に従って物体115のロケーションを指示する。したがって、物体座標における物体115のロケーションのロケーション変換行列M0460も分かる。物体検出に関して、物体を含むトレーニング画像がトレーニングに供給される。図4を参照されたい。
物体の初期ロケーションM0460に基づいてn個のランダムパラメトリック運動変換行列から成る集合{ΔM}i=1...nを生成する(430)。各行列は、物体115の初期ロケーションM0460からの可能な運動、たとえば、シフト、回転、スケール、スキュー及びそれらの組み合わせを記述する。ロケーションM0460における物体115は、運動変換ΔM−1 iを乗算することによって変換される。新たな記述子はoi 0=o0(ΔM−1 i.M−1 0)である。運動変換ΔMiは、物体を単位正方形201に動かす。各運動変換ΔMは、ロケーションM0460における物体115の記述子oに関連付けられる。運動変換はトレーニングセット410を決定する。トレーニングセット410は{oi 0,ΔMi}のn個のサンプルを含む。
図5は、初期トレーニングセット410の例501〜504を示す。トレーニング中の運動及び追跡中の推定される運動に対して記号ΔMを使用する。下付き文字iはトレーニングセット内のサンプルを指し、一方で時刻インデックスtは追跡中の推定される運動を指す。いくつかの実施形態では、シーケンス110の各目標画像Iiは、追跡中にトレーニングセットを更新するのに使用される。これによって、回帰関数が、外観及び照明の変化に適応するようになる。
回帰関数
はアフィン行列である。したがって、アフィン行列の構造が考慮される。
線形運動推定のための従来の方法は、運動ΔM(p)のパラメータ化、及び初期値を中心とする線形化を使用する。
従来の変換は恒等行列を中心とするため、線形化はΔM(p0)=Iにおいて実施される。従来の方法は、増分Δpを推定することによって進行する。
リー群代数を使用してトレーニングセット410から回帰関数f135をトレーニングする。運動変換ΔM150は記述子o175の線形関数としてリー代数においてモデル化される。
リー群
d次元多様体は、ユークリッド空間に局所的に類似している位相空間である。多様体上のすべての点は、
d次元多様体は、ユークリッド空間に局所的に類似している位相空間である。多様体上のすべての点は、
の近傍をマッピングする同相写像が存在する近傍を有する。
微分可能多様体は平滑性制約を満足する。したがって、多様体上の曲線の導関数を規定することが可能である。多様体上の点Mにおける導関数は、その点における接空間であるベクトル空間内に存在する。リー群は、群の演算、乗算及び逆元(inverse)が微分可能マップであるような微分可能多様体の構造を有する群Gである。群の単位元Iに対する接空間がリー代数gを形成する。
多様体上の距離は点を接続する曲線の長さによって測定され、長さが最小の曲線を「測地線」と呼ぶ。単位元Iから、ベクトルm∈gで開始する一意の測地線が存在する。指数写像exp:g→Gが、ベクトルmをこの測地線が到達する点にマッピングする。exp(m)=Mである場合、測地線の長さはρ(I,M)=||m||である。一般に、指数写像は全射(onto)ではあるが1対1ではない。したがって、逆写像対数:G→gは単位元Iの近傍付近でのみ一意に規定される。任意のM∈Gに関して、M=exp(m)であるようないくつかのm∈gが存在する場合、log(M)は最小ノルムを有するベクトルとして選択される。群要素の逆元M−1による左演算:G→Gは点MをIにマッピングし、Mにおける接空間をリー代数にマッピングし、これは同型写像である。マッピング及び測地線の定義を使用して2つの群要素間の距離は以下の式によって測定される。
アフィン運動A(2)、相似変換S(2)、及びユークリッド運動SE(2)のような本発明の実施形態において使用する変換は、3×3正則正方行列の群である一般線形群GL(3,R)の閉部分群である。行列及びその逆元の指数写像、対数写像は以下のように定義される。
一般に、指数写像は以下の恒等式を満足しない。
マッピングは、ベイカー・キャンベル・ハウスドルフの公式
を通じて以下の式によって定義される。
ここで、[m1,m2]=m1m2−m2m1はリー括弧演算である。アフィン行列の構造については上述の通りである。空間は6次元多様体である。
アフィン群のリー代数は行列
の集合であり、ここで、Uは2×2行列であり、v∈R2である。行列mは、行列Uの要素のそれぞれ及びベクトルvを正規直交基底として選択することによって、6次元ベクトルとして参照されることがある。
回帰関数トレーニング
トレーニングセット410に基づくトレーニング480中、回帰係数Ω470が推定される。回帰係数470は、物体記述子oを、運動変換ΔMと相関させる。この記載のために、回帰係数Ω470は回帰関数140と均等である。
トレーニングセット410に基づくトレーニング480中、回帰係数Ω470が推定される。回帰係数470は、物体記述子oを、運動変換ΔMと相関させる。この記載のために、回帰係数Ω470は回帰関数140と均等である。
トレーニングセット410は、上述のような記述子及び運動変換{oi 0,ΔMi}を含む。アフィン運動行列はベクトル空間上には存在せず、2つの運動の間の従来のユークリッド距離は有効な測定基準ではない。
しかしながら、アフィン運動行列は微分可能多様体上に存在する。この場合、重要な誤差関数は、回帰推定値f(oi 0)と運動変換ΔMiとの間の測地的距離の2乗の総和である。
M1及びM2を2つの運動行列とし、m1=log(M1)且つm2=log(M2)とする。式(8)のBCH公式を使用して、2つの運動行列の間の測地的距離に対する一次近似は以下の通りである。
リー代数におけるd個の正規直交基底を選択すると、2つのベクトルの間のユークリッド距離として行列ノルムを求めることができる。式(8)のBCH公式、及びリー括弧演算の定義から、該近似は変換が小さいほどより良好であり、それによって、m1及びm2がゼロに近づくか、又は均等にM1及びM2が恒等行列Iに近づく。式(11)を使用して、式(10)の誤差関数は、
を一次項まで最小化することと均等である。変換は恒等行列の小さな近傍内であるため、該近似は十分に正確である。
回帰関数を以下のように定義し、
リー代数における接線ベクトルlog(ΔM)を推定する関数
を求める。関数gを以下のような記述子の線形関数としてモデル化する。
ここで、Ωは回帰係数のm×d行列である。Xを初期記述子のn×m行列とし、Yを運動のリー代数に対するマッピングのn×d行列とする。
log(ΔM1)は、ここではd次元ベクトルの形態で参照される。
式(13)及び(14)を式(12)に代入することによって、以下の式を得る。
ここで、トレース(tr)が式(12)内の総和に置き換わっている。トレースは、主対角線上の要素の合計である。誤差関数JaをΩに関して微分すると、最小値はΩ=(XTX)−1XTYとなる。
リアルタイムの追跡の場合、記述子の数は相対的に小さく、たとえばn=200である。記述子の数は特徴空間の次元m=432よりも小さい(n<m)ため、この系は劣決定であり、XTXが階級不足となる。この場合、推定値はトレーニング誤差をゼロにする。しかしながら、該誤差は将来の予測に一般化されず、これは過剰適合と呼ばれる。
過剰適合を回避するために、回帰係数のサイズに対して、リッジ回帰である以下の追加の制約を設ける。
ここで、Tは変換演算子である。リッジ回帰は、条件が悪い線形回帰問題を解くのに有用である。
誤差関数Jrの最小値は以下の通りである。
ここで、Iはm×m恒等行列である。正規化係数λが回帰係数に対する収縮の度合いを決定する。係数λの値が大きくなるほど運動が安定化し、一方で値が小さくなるほどフレーム間のより大きな運動が可能となる。係数λの最適値は、追跡全体を通じての、トレーニングシーケンスに対するλの残りの定数との相互検証によって選択される。
第1のフレーム内の運動パラメータをランダムに生成することによってモデルをトレーニングした後、更新プロセスは単純な行列乗算しか必要としないため、連続するフレームにおいて非常に高速である。
逐次重点サンプリング
回帰追跡は、隣接する画像間で物体ウィンドウ、すなわち状態が重なり合うことを必要とする。したがって、回帰追跡は運動の変化が大きく、このような重なり合いが満足され得ない場合には失敗する。
回帰追跡は、隣接する画像間で物体ウィンドウ、すなわち状態が重なり合うことを必要とする。したがって、回帰追跡は運動の変化が大きく、このような重なり合いが満足され得ない場合には失敗する。
この問題を克服するために、本発明の実施形態は、パーティクル、すなわちサンプルのセットが大きな探索空間にわたって取り出される逐次重点サンプリング(SIS)を使用する。SISは、過去10年間にわたって開発されたほとんどの逐次的MCフィルタの基礎を成すモンテカルロ(MC)法であり、ブートストラップフィルタリング、凝縮アルゴリズム、適者生存、また最も一般的にはパーティクルフィルタとしても知られている。
主要な着想は、(たとえば静止している物体の)事後密度関数を、重みが関連付けられているランダムパーティクルのセットによって表すと共に、これらのサンプル及び重みに基づいて推定値を計算することである。しかしながら、ベイズ理論によれば、サンプルの数が大きいときにパーティクルの加重平均は物体の真の状態に集束するが、これは計算的に実行不可能である。
回帰パーティクル
本発明の実施形態による回帰パーティクルフィルタでは、各パーティクルの状態はベクトルとして表される運動パラメータに対応する。パーティクルの状態の他の表現が可能である。運動パラメータを以下のようにベクトル化する。
本発明の実施形態による回帰パーティクルフィルタでは、各パーティクルの状態はベクトルとして表される運動パラメータに対応する。パーティクルの状態の他の表現が可能である。運動パラメータを以下のようにベクトル化する。
ここで、a、b、c、d、x、及びyは運動パラメータである。時刻tにおけるi番目のパーティクルをvi tとして示し、パーティクルvi tの重みをwi tとして示す。観測値Itは時刻tにおける目標画像である。パーティクル140{vi t,i=1,2,...,n}が提案密度q(・)から生成される。代替的に、上述のように、パーティクル140を、方法100の前回の反復の動いた物体155から取得することができる。
時刻tにおける重みが以下の式によって更新される。
ここで、q(vi t|vi t−1,It)は、パーティクルvi tが生成された提案密度である。正規化重みπiが以下の式によって与えられる。
サンプル平均によって、物体状態
120が求められる。
式(20)において、p(It|vi t)は、以下の式によって与えられるi番目のパーティクルの尤度である。
ここで、Dは、vi tに対応する2D画像領域と目標画像との間の勾配加重方向ヒストグラムの相違点、たとえばバタチャリヤ距離である。p(vi t|vi t−1)は推移確率であり、物体の運動の動態(履歴)によって求められる。これはデータを通じて学習される。q(vi t|vi t−1,It)は、サンプルを生成する提案密度である。本発明の場合、最初にガウス確率密度からサンプルを取り出す。
ここで、vi t,mはvi tの中間サンプルを表し、N(0,C)はゼロ平均及び共分散行列Cを有するガウス分布である。
基礎を成す領域が物体モデルにより良好に適合するように空間内のパーティクルの位置を改善するために、回帰追跡器を適用する。ベクトルを再び行列形式にマッピングし(v→M)、以下のように計算する。
パーティクルのベクトル表現に回帰を直接適用することができる。通常、サンプルを生成する方法、すなわち式(23)及び(24)に基づいて提案密度の閉形式表現q(Mi t|Mi t−1,It)を使用する。
しかしながら、回帰追跡は特徴密度から変換空間へのマッピングである。本発明で使用した低レベル特徴である、式(24)における勾配ヒストグラムot(M−1 t,m)は、閉形式表現が導出されるのを回避する。
したがって、パーティクルを、物体の変換動態に適合するようにサンプリングする。すなわち、p(vi t|vi t−1)=q(vi t|vi t−1,It)。次いで、式(20)を以下のように通分する。
物体追跡
ステップ1:パーティクルを取得する
図1を参照すると、方法100は、シーケンス110内の目標画像ごとに反復して実行される。パーティクルのセット140を取得する。1つの実施形態では、式(23)に従ってパーティクルのセットを取得する。代替的に、方法100の前回の反復において求めた、動いたパーティクルのセット155からパーティクルのセット140を更新することができる。
ステップ1:パーティクルを取得する
図1を参照すると、方法100は、シーケンス110内の目標画像ごとに反復して実行される。パーティクルのセット140を取得する。1つの実施形態では、式(23)に従ってパーティクルのセットを取得する。代替的に、方法100の前回の反復において求めた、動いたパーティクルのセット155からパーティクルのセット140を更新することができる。
ステップ2:パーティクルごとの回帰
パーティクルのセット内のパーティクルごとに、回帰関数135を使用して運動155を求める(150)。
パーティクルのセット内のパーティクルごとに、回帰関数135を使用して運動155を求める(150)。
図6は、運動確定150のための疑似コードを示す。回帰関数f135をトレーニングする。式(4)を使用して各パーティクルの運動を求める。回帰関数fを用いて運動推定を繰り返すことによって運動確定を改善することができる。推定される運動ΔMtが単位元(identity)と等しくなるか、又は現在の推定されるロケーションにおけるパーティクルの尤度が前回のロケーションにおけるパーティクルの尤度未満になると、反復は終了する。時刻tにおいてロケーションMにあるパーティクルの尤度は以下の通りである。
ここで、前回のロケーションにおけるパーティクルの記述子が現在のロケーションにおけるパーティクルの記述子と比較される。通常、パーティクルの追跡には1つの画像あたり1回又は2回の反復で十分である。
ステップ3:物体状態を推定する
セット155内の各動いたパーティクルを再び運動状態にマッピングし、式(25)に従って動いたパーティクルの平均重みを計算する。次に、式(21)に従って物体状態120の新たな値を求める。
セット155内の各動いたパーティクルを再び運動状態にマッピングし、式(25)に従って動いたパーティクルの平均重みを計算する。次に、式(21)に従って物体状態120の新たな値を求める。
本発明において提案密度関数からパーティクルを取り出す方法と、回帰関数トレーニングのためにランダムな運動を生成する方法との間には相関関係がある。本発明の実施形態では、パーティクルフィルタは、回転及びスケールよりも、むしろ大きな平行移動を補償するように設計される。
合成シーケンス及び実世界のビデオの双方に対して広範囲にわたるテストを実施した。各テストにおいて、本発明の方法を、回帰追跡器及びパーティクルフィルタと比較した。
すべてのテストサンプルに関して、勾配方向ヒストグラム(HOG)記述子に288個の係数を適用した。SIFT記述子と同様に、各画素のヒストグラムに対する寄与はその勾配の大きさに比例する。単位正方形は6×6=36個の領域に分割され、それらのそれぞれにおいてヒストグラムが計算される。各ヒストグラムは0と2πとの間でπ/4度刻みで量子化される。各ヒストグラムのサイズは8次元であり、記述子oはm=288次元である。追跡中に、周縁画素は頻繁にバックグラウンドによって汚染される。したがって、本発明では、単位正方形の外側に10%の境界を残し、内側の矩形の内部に記述子を構築する。
物体の姿勢として2Dアフィン変換モデルの6つのパラメータを推定した。ここで、各係数が同一の重要性を有している。回帰モデルは第1のフレームにおいてのみトレーニングされ、追跡プロセス中は一定に維持される。単一の物体のランダムアフィン変換によって、200個のサンプルから成るトレーニングセットを生成した。−0.1〜0.1のランダムな値を6つの状態パラメータのそれぞれに与えることによってリー代数における運動が生成され、累乗法を介してアフィン行列にマッピングされる。
小さなランダム摂動(−0.05〜0.05)を回転及びスケールパラメータAに与え、より大きな値(−0.3〜0.3)を平行移動Tに与えることによって運動の最初の半分を割り当てると共に、大きいランダムな値をAに与え、小さい値をTに与えることによって他方の半分を割り当てることも分析した。後者の方が、著しく不規則な姿勢変化を描写しているシーケンスに対して物体を追跡する可能性が高いことが観測されている。
グランドトゥルースアフィンパラメータが利用可能な合成シーケンスに関して、各方法によって一回の追跡反復を実施し、推定値と真の値との間の測地的距離の代わりに、単純に、以下のように6つすべてのパラメータに関する平均2乗誤差(MSE)を測定した。
アフィンモデルを用いて目標を追跡するが、目標によっては平面的でないものもあることに留意されたい。したがって、アフィンモデルは目標に完全に適合することはできないが、依然として最良のアフィン近似を生成する。
比較を実施するために、従来のパーティクルフィルタと本発明の方法との双方において、提案密度関数を同じままにした。加えて、従来のパーティクルフィルタにおけるパーティクルの数は、双方の方法のCPU時間がほぼ等しくなるように経験的に選択されている。勾配情報は、パーティクルフィルタにおける尤度及び回帰追跡における領域記述子を計算するための唯一のキューとして使用されている。回帰追跡器をパーティクルフィルタ内に組み込むことによって、追跡の性能が著しく改善されることが実証されている。
なお、本発明の方法はアフィン運動には限定されず、より複雑なパラメータ運動に容易に拡張することができる。
本発明を好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適合及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することである。
Claims (12)
- トレーニング画像から目標画像まで物体を追跡するための方法であって、前記トレーニング画像及び前記目標画像は画像シーケンスの要素であり、前記トレーニング画像内の前記物体は物体状態によって表され、該方法のステップを実施するためのプロセッサを備え、該方法は、
パーティクルのセットを取得するステップであって、各該パーティクルは重みに関連付けられ、それによって、該パーティクルが該重みに等しい確率で前記物体状態を表す、取得するステップと、
前記プロセッサを使用して、目標画像に基づいて前記パーティクルのセット内の各該パーティクルに回帰関数を適用するステップであって、動いたパーティクルのセットを求める、適用するステップと、
前記動いたパーティクルのセットに従って前記物体状態を更新するステップであって、それによって、前記物体状態が前記目標画像内の前記物体を表す、更新するステップと、
を含む、方法。 - 前記適用の前に、前記物体状態に基づいて前記回帰関数をトレーニングすることをさらに含む、請求項1に記載の方法。
- 前記更新に応答して、前記物体状態に基づいて前記回帰関数をトレーニングすることをさらに含む、請求項1に記載の方法。
- 前記重みは重みのセット内の要素であり、それによって、前記パーティクルのセット内の各該パーティクルが対応する重みに関連付けられ、
前記方法は、
前記動いたパーティクルのセットに従って前記重みのセットを更新することをさらに含む、請求項1に記載の方法。 - 前記適用することは、
前記パーティクルのセット内の各該パーティクルに対する運動変換を求めることをさらに含む、請求項1に記載の方法。 - 前記更新することは、
前記動いたパーティクルのセットに基づいて平均重みを計算すること、及び
前記平均重み及び前記動いたパーティクルのセットに基づいて前記物体状態を求めること、
をさらに含む、請求項1に記載の方法。 - 前記取得することは、
前記物体状態に基づくガウス確率密度に従って前記パーティクルのセットを求めることをさらに含む、請求項1に記載の方法。 - 前記取得することは、
前記動いたパーティクルのセットに基づいて前記パーティクルのセットを求めることをさらに含む、請求項1に記載の方法。 - 前記取得することは、
前記目標画像を用いて前記トレーニング画像を更新すること、及び
前記画像シーケンス内の次の画像を用いて前記目標画像を更新すること、
をさらに含む、請求項1に記載の方法。 - トレーニング画像から目標画像まで物体を追跡するためのシステムであって、前記トレーニング画像及び前記目標画像は画像シーケンスの要素であり、前記トレーニング画像内の前記物体は物体状態によって表され、該システムはプロセッサを備え、該システムは、
パーティクルのセットを取得する手段であって、各該パーティクルは重みに関連付けられ、それによって、該パーティクルが該重みに等しい確率で前記物体状態を表す、取得する手段と、
前記プロセッサを使用して、目標画像に基づいて各前記パーティクルに回帰関数を適用する手段であって、動いたパーティクルのセットを求める、適用する手段と、
前記動いたパーティクルのセットに従って前記物体状態を更新する手段であって、それによって、前記物体状態が前記目標画像内の前記物体を表す、更新する手段と、
を備える、システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/413,628 US8401239B2 (en) | 2009-03-30 | 2009-03-30 | Object tracking with regressing particles |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010238226A true JP2010238226A (ja) | 2010-10-21 |
Family
ID=42784347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010027345A Pending JP2010238226A (ja) | 2009-03-30 | 2010-02-10 | 物体を追跡するための方法及びシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8401239B2 (ja) |
JP (1) | JP2010238226A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015531607A (ja) * | 2012-10-01 | 2015-11-05 | 三菱電機株式会社 | 3次元物体を追跡するための方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8675081B2 (en) * | 2009-06-22 | 2014-03-18 | Imint Image Intelligence Ab | Real time video stabilization |
US9268996B1 (en) * | 2011-01-20 | 2016-02-23 | Verint Systems Inc. | Evaluation of models generated from objects in video |
KR101791604B1 (ko) * | 2012-09-11 | 2017-10-30 | 삼성전자주식회사 | 헤드 포지션 추정 방법 및 장치, 컴퓨터 판독가능 저장 매체 |
CN102982556B (zh) * | 2012-11-01 | 2016-06-15 | 江苏科技大学 | 基于流形上粒子滤波算法的视频目标跟踪方法 |
KR20140108047A (ko) * | 2013-02-28 | 2014-09-05 | 삼성전자주식회사 | 물체 추적 방법, 물체의 표시 상태 판단 방법 및 물체 추적이 가능한 제어 장치 |
US20140278235A1 (en) * | 2013-03-15 | 2014-09-18 | Board Of Trustees, Southern Illinois University | Scalable message passing for ridge regression signal processing |
TWI514196B (zh) | 2013-08-05 | 2015-12-21 | Ind Tech Res Inst | 觸覺回饋裝置 |
US10445885B1 (en) | 2015-10-01 | 2019-10-15 | Intellivision Technologies Corp | Methods and systems for tracking objects in videos and images using a cost matrix |
CN106384359B (zh) * | 2016-09-23 | 2019-06-25 | 青岛海信电器股份有限公司 | 运动目标跟踪方法和电视 |
CN108073936B (zh) * | 2016-11-15 | 2024-04-19 | 北京三星通信技术研究有限公司 | 目标跟踪方法、装置及设备 |
US10565713B2 (en) * | 2016-11-15 | 2020-02-18 | Samsung Electronics Co., Ltd. | Image processing apparatus and method |
US10621737B2 (en) * | 2017-05-04 | 2020-04-14 | Mim Software Inc. | System and method for predictive fusion |
CN108073782A (zh) * | 2017-11-06 | 2018-05-25 | 哈尔滨工程大学 | 一种基于观测窗口均权重粒子滤波的数据同化方法 |
CN107818571B (zh) * | 2017-12-11 | 2018-07-20 | 珠海大横琴科技发展有限公司 | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 |
US11275037B2 (en) | 2018-12-07 | 2022-03-15 | General Electric Company | Alloy powder cleanliness inspection using computed tomography |
CN111815736A (zh) * | 2019-04-11 | 2020-10-23 | 阿里巴巴集团控股有限公司 | 飞线构建及显示方法和装置,计算机存储介质和电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134344A (en) * | 1997-06-26 | 2000-10-17 | Lucent Technologies Inc. | Method and apparatus for improving the efficiency of support vector machines |
US7526123B2 (en) * | 2004-02-12 | 2009-04-28 | Nec Laboratories America, Inc. | Estimating facial pose from a sparse representation |
US7751643B2 (en) * | 2004-08-12 | 2010-07-06 | Semiconductor Insights Inc. | Method and apparatus for removing uneven brightness in an image |
JP4889351B2 (ja) * | 2006-04-06 | 2012-03-07 | 株式会社トプコン | 画像処理装置及びその処理方法 |
JP5362189B2 (ja) * | 2006-05-10 | 2013-12-11 | 株式会社トプコン | 画像処理装置及びその処理方法 |
US7899253B2 (en) * | 2006-09-08 | 2011-03-01 | Mitsubishi Electric Research Laboratories, Inc. | Detecting moving objects in video by classifying on riemannian manifolds |
US7961952B2 (en) * | 2007-09-27 | 2011-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting and tracking objects in images |
US8311276B2 (en) * | 2008-01-07 | 2012-11-13 | JVC Kenwood Corporation | Object tracking apparatus calculating tendency of color change in image data regions |
CN101952853B (zh) * | 2008-01-16 | 2013-05-15 | 旭化成株式会社 | 脸姿势推定装置以及脸姿势推定方法 |
-
2009
- 2009-03-30 US US12/413,628 patent/US8401239B2/en not_active Expired - Fee Related
-
2010
- 2010-02-10 JP JP2010027345A patent/JP2010238226A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015531607A (ja) * | 2012-10-01 | 2015-11-05 | 三菱電機株式会社 | 3次元物体を追跡するための方法 |
Also Published As
Publication number | Publication date |
---|---|
US20100246997A1 (en) | 2010-09-30 |
US8401239B2 (en) | 2013-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010238226A (ja) | 物体を追跡するための方法及びシステム | |
JP4974975B2 (ja) | 画像において物体の位置を特定する方法及びシステム | |
CN111780763B (zh) | 一种基于视觉地图的视觉定位方法、装置 | |
JP4849464B2 (ja) | フレームシーケンス中のオブジェクトを追跡するコンピュータ化された方法 | |
CN109643368B (zh) | 检测视频数据中的对象 | |
CN107980150B (zh) | 对三维空间建模 | |
JP6506483B1 (ja) | テクスチャなし物体の姿勢を推定するシステム及び方法 | |
WO2021044122A1 (en) | Scene representation using image processing | |
CN108229347A (zh) | 用于人识别的拟吉布斯结构采样的深层置换的方法和装置 | |
CN110472585A (zh) | 一种基于惯导姿态轨迹信息辅助的vi-slam闭环检测方法 | |
Dou et al. | Robust visual tracking base on adaptively multi-feature fusion and particle filter | |
Du et al. | New iterative closest point algorithm for isotropic scaling registration of point sets with noise | |
Huang et al. | Non-local weighted regularization for optical flow estimation | |
Ait Abdelali et al. | An adaptive object tracking using Kalman filter and probability product kernel | |
Wang et al. | Robust infrared target tracking based on particle filter with embedded saliency detection | |
JP2019046334A (ja) | 分類モデル生成装置、画像データ分類装置およびそれらのプログラム | |
KR101766823B1 (ko) | 불규칙한 조도 변화에 강건한 영상 기반 주행거리 측정 시스템 및 방법 | |
CN116894876A (zh) | 基于实时图像的6-dof的定位方法 | |
Ghebreab et al. | Strings: variational deformable models of multivariate continuous boundary features | |
Du et al. | A high-precision vision-based mobile robot slope detection method in unknown environment | |
Panda et al. | Particle filter and entropy-based measure for tracking of video objects | |
Yang et al. | Level set contour extraction method based on support value filter | |
Szczuko | Genetic programming extension to APF-based monocular human body pose estimation | |
Patras et al. | Coupled prediction classification for robust visual tracking | |
Cuzzocrea et al. | Advanced pattern recognition from complex environments: a classification-based approach |