JP4974975B2

JP4974975B2 - 画像において物体の位置を特定する方法及びシステム

Info

Publication number: JP4974975B2
Application number: JP2008183867A
Authority: JP
Inventors: ファティー・エム・ポリクリ; オンセル・シー・チュゼル
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2007-09-27
Filing date: 2008-07-15
Publication date: 2012-07-11
Anticipated expiration: 2028-07-15
Also published as: CN101398934A; JP2009087326A; CN101398934B; US20090087023A1; US7961952B2

Description

本発明は、包括的には一連の画像において物体を追跡することに関し、特に、非線形に移動している物体を検出し追跡することに関する。

追跡は、一連の画像において物体の動きを推定するプロセスである。物体追跡方法では、一般に、最初に何らかの初期画像において物体を検出する必要がある。そして、後続する画像においてその物体を追跡することができる。物体検出方法の多様性は数えられないほど大きい。追跡方法を、状態・空間推定方法又はモデル整合方法として分類することができる。

状態・空間推定方法
状態・空間推定方法は、通常、マルコフ過程を使用し、動きパラメータの確率密度関数（ｐｄｆ）を構築する。たとえば、カルマンフィルタリングは正規分布を使用する。しかしながら、カルマンフィルタリング方法は、多峰（マルチモーダル）分布について述べていない。

モンテカルロ積分方法、たとえば粒子フィルタは、物体の姿勢を含む任意のパラメトリック変動を追跡することができる。しかしながら、それらの方法がランダムサンプリングに依存することによって、特に高次元表現になるほど推定尤度が劣化する傾向にある。さらに、それらの方法の計算要件は、状態変数の数によって指数関数的に増大し、それによってそれらの方法は複雑な姿勢変化を追跡するために不適当となる。

モデル整合方法
モデル整合方法は、物体モデルと画像において見られるような物体との間の差に基づいてコスト関数を定義する。コスト関数は、動きパラメータを最小化することによって解かれる。一例はオプティカルフロー推定であり、そこでは、物体モデルと画像強度との間の二乗差の和が、反復最小二乗問題として最小化される。この方法の主な問題は、各反復に対して画像勾配、ヤコビアン行列及びヘッセ行列の計算が必要であるということであり、それによって方法は低速になる。

他のモデル整合方法は、動き及びコスト関数関係の別の公式化によって問題を克服する。いくつかの方法では、動きは、オフライン過程で学習される画像勾配の線形関数を使用して推定される。その概念は、適合性ベクトルマシン（ｒｅｌｅｖａｎｃｅｖｅｃｔｏｒｍａｃｈｉｎｅ）を使用して画像から動きへの非線形マッピングを学習するように拡張される。

しかしながら、それらの方法は、線形化を介して動きパラメータへの加法的更新を推定する。このため、それらの方法は非線形の動きを追跡することができない。

動き推定のためのリー群理論
リー代数を使用して、平均値シフト演算を使用する堅固な動き推定に対し、ユークリッド運動群構造を有する分布のモードを見つけることができる。動きが大きい場合、平均値シフトは失敗する可能性があることが知られている。リー代数に対しベクトル加算演算が定義されることによって、アフィン「スネーク（ｓｎａｋｅ）」を追跡する一連のアフィン動きが組み込まれる。

加法的更新は、テンプレート追跡の場合にリー代数に対して実行される。しかしながら、その手法は、行列乗算の非交換可能性を考慮せず、推定は、物体の初期変換近くでしか有効でない。

一連の画像において非線形に移動している物体を追跡することが望まれる。また、初期画像において物体を検出することも望まれる。さらに、検出及び追跡の基礎となる方法が同じである場合、それは有益である。

本発明の実施の形態は、一連の画像において物体を検出し追跡する方法を提供する。訓練中、回帰関数ｆが確定される。回帰関数は、物体記述子（ｏｂｊｅｃｔｄｅｓｃｒｉｐｔｏｒｓ）を物体の動きに相関させる。好ましい一実施の形態では、記述子は方向ヒストグラムである。方向ヒストグラムは、ピクセル強度の変化に対して比較的影響を受けにくく、大きい物体の動きに対して正確である。物体の動きは、行列リー群構造を有する。動きは、ユークリッド運動、相似変換、アフィン動き及び平面ホモグラフィ等の最も一般的な変換を含む。

動きがユークリッド空間にないため、回帰関数は、誤差関数を最小化することによって基礎となる空間の幾何学形状を確定する。従来技術による方法は動きを線形化し、それによって、暗黙のユークリッド空間仮定を行う。これは、非線形の動きには当てはまらない。したがって、本発明は、物体の動きを記述するために行列リー群構造を使用する。

本発明は、リー代数に対し物体の動きのモデルを構築する。このモデルは、二乗測地線誤差の和に対する一次近似を最小化する。本発明はリッジ回帰を使用して物体モデルを更新し、それによって、画像の訓練セットがわずかな場合であっても物体の動きを正確に学習することが可能になる。本方法は計算効率がよく、リアルタイムで作用する。

物体を、一連の画像の初期ターゲット画像においても検出することができる。物体が検出された後、その物体を追跡することができる。本発明の実施の形態は、同じ回帰関数及びリー代数構造を使用して、物体検出と物体追跡との両方を実行する。

本発明の実施の形態による物体を検出し追跡する方法は、従来の物体追跡に比較して以下の利点を有する。

本方法は、従来の方法で使用されるピクセル強度の代りに、動きを追跡するために方向ヒストグラムを使用する。ヒストグラムは、動きが大きい場合、正確な推定を提供する。方向ヒストグラムはまた、物体の照明及び外観の変化に対しより影響を受けにくい。

本方法は、動き群のリー代数を使用し、それは、非線形の動きをよりよく推定することができる。

本方法は、リッジ回帰を使用して、リアルタイムに動きモデルを更新する。

本方法を、任意の行列リー群構造動きを伴う物体を追跡するために使用することができる。

方法概説
図１は、本発明の一実施形態による、一連の画像Ｉ_ｉ１１０において移動する物体１１５を追跡する方法及びシステム１００を示す。一連の画像１１０を、カメラ１０２によって取得することができる。別法として、一連の画像１１０を、永久メモリ又は通信インタフェースから方法１００に提供してもよい。一般性を失うことなく、方法１００を、物体１１５の非線形の動きに関して説明する。しかしながら、本方法は、いかなるタイプの動きを伴う物体をも追跡することができる。

方法１００は、当該技術分野において既知であるようなテレビ、プロジェクタ、再生装置、カメラ又はコンピュータ等の表示装置１０３に接続されるプロセッサ又はマイクロプロセッサで動作することができる。表示装置を使用して、システムのユーザが物体の動きを見ることができる。コンピュータは、通常、バスによって接続されている、１つ又は複数の処理ユニット及び／又はマイクロコントローラ、メモリ並びに入出力インタフェースを含む。メモリは、後述するように、現画像を格納する揮発性メモリ、たとえばＲＡＭを含んでもよい。プロセッサはまた、永久メモリ、たとえば、一連の画像１１０を格納するビデオテープ及びＤＶＤ等のリムーバブル記憶媒体と共に、セットトップボックス、ネットワークインタフェース等の通信インタフェースにアクセスすることも可能である。本方法は、一連の画像１１０がリアルタイムで取得される場合も物体を追跡することができる、ということが理解されるべきである。

本発明による方法に対する入力は一連の画像である。物体を含む初期画像を、訓練画像と呼ぶことができる。物体が検出されるか又は追跡される必要のある後続する画像を、ターゲット画像を呼ぶことができる。物体検出に対し、一連の画像を、訓練画像と１つのターゲット画像とに限定することができる。一連の画像１１０における各現（ターゲット）画像１２０に対し、位置１６０における物体記述子１３０を確定する（２００）。位置１６０は、前に処理した画像における物体１１５の位置に対応する。後述するように、物体の位置は、画像座標で画像において物体を包囲する追跡領域によって画定される。

次に、物体記述子１３０に回帰関数ｆ１４０を適用する（４００）。関数及び記述子が行列であるため、適用は、基本的に行列乗算である。回帰関数の適用の出力は、動きΔＭ１５０である。動きΔＭ１５０は、前の画像から現画像１２０までの物体１１５の動きに対応する。

動き１５０を使用して、現画像における追跡領域の位置を更新する（１７０）。そして、更新された位置における追跡領域を、一連の画像１１０の次の（現）画像において物体を追跡するために使用することができる。

追跡方法の公式化
本発明の実施形態を、物体１１５のパラメトリック動き変換Ａ（２）について説明する。パラメトリック変換は、所与の変数に適用されるパラメータの関数である。変数には、ピクセル特徴、領域特徴、ピクセル座標及び領域座標が含まれる。パラメータは、たとえば、アフィン、透視動き変換、並びに有限数のパラメータによって表すことができる他の線形及び非線形の、剛体運動変換及び非剛体運動変換を含む。本発明はまた、他の動き変換、たとえば相似変換Ｓ（２）及びユークリッド運動ＳＥ（２）と使用することも可能である。

２次元パラメトリック変換Ａ（２）は、３×３行列によって与えられる。

ここで、Ａは回転、スケール及びスキューを表す非特異２×２行列であり、ｂ∈Ｒ^２である。すべてのパラメトリック変換のセットは、行列リー群構造を形成する。リー群は、可微分多様体である。群に対する操作は、滑らかな構造と適合性がある。リー群は、多様体であるため、微分学で操作することができる。大域的なリー群を、そのリー代数として知られる局所又は線形化バージョンに置き換えることができる。リー代数は、リー群及び可微分多様体等の幾何学的物体に対して操作するために使用することができる代数構造である。

図２は、物体座標及び画像座標における物体１１５の位置の双方向位置変換Ｍ及びＭ^−１を示す。物体座標における物体１１５の位置は単位正方形２０１である。画像座標における物体１１５の位置は、画像２０２の追跡領域１６０である。アフィン行列Ｍは、座標２０３の原点における単位正方形２０１を、以下の式（２）によって画像における物体を囲む追跡領域１６０に変換する。

ここで、下付き文字は、それぞれ物体座標（ｏｂｊ）及び画像座標（ｉｍｇ）を示す。逆変換Ｍ^−１もまたアフィン変換であり、画像座標１６０における物体を物体座標２０１における物体に変換する。

Ｉは入力画像１１０を示し、ｔは時間（フレーム）インデックスであるものとする。追跡は、時刻ｔまでの画像、すなわちＩ_０，・・・Ｉ_ｔ及び初期位置変換Ｍ_０を考慮すると、位置変換行列Ｍ_ｔを推定する。初期画像において物体を検出する方法については後述する。

位置変換行列Ｍ_ｔは、物体座標において時刻ｔにおける追跡領域１６０の位置を定義する。ここでは、位置変換行列を

のようにモデル化し、各時刻（フレーム）ｔにおける動き変換ΔＭを推定する。動き変換ΔＭは、物体座標２０３における時刻ｔ−１から時刻ｔまでの物体の動きに対応する。

物体座標における画像はＩ（Ｍ^−１）である。ここでは、追跡領域１６０内部のピクセル値を考慮し、記述子、たとえば勾配方向ヒストグラムを用いて領域を表す。記述子（観察値）は、ｍが記述子ｏ１３０の次元である場合、ｏ（Ｍ^−１）∈Ｒ^ｍである。

ここで、追跡を、行列値回帰問題として定義する。前に処理された画像Ｍ_ｔ−１の位置変換行列によって示されるような物体の前の位置、すなわち追跡領域と、現画像Ｉ_ｔとを考慮し、以下の式（４）のように回帰関数１４０を使用して動き変換ΔＭ_ｔ１５０を推定する。

このように、追跡は、後述するように回帰関数ｆ１４０を訓練し更新することにまで簡約化される。

物体記述子
図３は、物体１１５を囲む単位正方形２０１の表現を示す。単位正方形は、物体座標における単位正方形２０１内部の規則的な格子において確定されるいくつかの勾配方向ヒストグラムを含む。スケール不変特徴変換（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ）（ＳＩＦＴ）記述子と同様に、ヒストグラムに対する各ピクセルの寄与は、ピクセルの勾配の大きさに比例する。単位正方形３０１は、６×６＝３６のブロック３０２に分割され、各ブロックに対してヒストグラムが確定される。これについては、参照により本明細書に援用される、Ｄ．Ｌｏｗｅ著、「Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅ−ｉｎｖａｒｉａｎｔＫｅｙｐｏｉｎｔｓ」（Ｉｎｔｌ．Ｊ．ｏｆＣｏｍｐ．Ｖｉｓｉｏｎ，６０（２）：９１−１１０，２００４）を参照されたい。

各ヒストグラムにおける方向は、０度と２π度との間でπ／６度で量子化される。したがって、各ヒストグラムは１２次元であり、物体記述子ｏは４３２次元である。追跡中、追跡領域における周辺ピクセルは、背景によって頻繁に影響を受ける。このため、本発明の一実施形態では、追跡領域の周辺近くに１０％境界を残し、単位正方形３０１内部において物体の記述子を確定する。

回帰関数
図４は、本発明の実施形態による、回帰関数ｆ１４０を訓練する方法を示す。訓練の結果は、回帰係数Ωの推定値である。回帰係数は、物体記述子ｏを動き変換ΔＭと相関させる。回帰関数が訓練され画像に適用される方法は、物体追跡及び物体検出の場合と同じである。

訓練セット
訓練中、物体１１５の初期位置は、一連の画像１１０の初期（訓練）画像Ｉ_０４２０における初期追跡領域１６０によって近似される。追跡領域１６０は、概して、画像座標による物体１１５の位置を示す。したがって、物体座標における物体１１５の位置の位置変換行列Ｍ_０４６０もまた既知である。物体検出のために、訓練に、物体を含む訓練画像が提供される。図７を参照されたい。

ここでは、物体Ｍ_０４６０の初期位置に基づいて、ｎ個のランダムなパラメトリック動き変換行列｛ΔＭ｝_{ｉ＝１．．．ｎ}のセットを生成する（４３０）。各行列は、初期位置Ｍ_０４６０からの物体１１５のあり得る動き、たとえばシフト、回転、スケール、スキュー及びそれらの組合せを記述する。位置Ｍ_０４６０における物体１１５は、動き変換ΔＭ_ｉ ^−１によって乗算することによって変換される。新たな記述子は、ｏ_０ ^ｉ＝ｏ_０（ΔＭ_ｉ ^−１．Ｍ_０ ^−１）である。動き変換ΔＭ_ｉは、物体を単位正方形２０１まで移動させる。各動き変換ΔＭは、位置Ｍ_０４６０における物体１１５の記述子ｏに関連する。動き変換は、訓練セット４１０を確定する。訓練セット４１０は、｛ｏ_０ ^ｉ，ΔＭ_ｉ｝のｎ個のサンプルを含む。

図５は、初期訓練セット４１０の例５０１〜５０４を示す。ここでは、訓練中の動きに対し且つ追跡中の推定動きに対し、表記ΔＭを使用する。下付き文字ｉは、訓練セットにおけるサンプルを指し、時間インデックスｔは、追跡中の推定動きを指す。実施形態によっては、現画像１２０各々を使用して、追跡中に訓練セットが更新される。これによって、回帰関数が、外観及び照明の変化に適応する。

回帰関数

はアフィン行列である。したがって、アフィン行列の構造を考慮する。

線形動き推定のための従来の方法は、動きΔＭ（ｐ）のパラメータ化と次式（５）に表す初期値周辺の線形化とを使用する。

従来の変換は単位行列周辺であるため、線形化はΔＭ（ｐ_０）＝Ｉにおいて実行される。従来の方法は、増分Δｐを推定することによって進行する。

従来の方法には２つの主な不都合がある。第１に、近似がパラメータに対するベクトル空間仮定を行う。第２に、パラメータ化は任意であり、動きの構造を考慮しない。

本発明では、リー群代数を使用して、訓練セット４１０から回帰関数ｆ１４０を訓練する。動き変換、すなわちΔＭ１５０は、記述子ｏ１３０の線形関数としてリー代数に対してモデル化される。

リー群
ｄ次元多様体は位相空間であり、局所的にユークリッド空間に類似する。多様体上のすべての点が近傍を有し、それに対して同相写像が存在し、それは近傍をＲ^ｄに写像する。

可微分多様体は、滑らかさ制約を満足させる。したがって、多様体上の曲線の導関数を定義することが可能である。多様体の点Ｍにおける導関数は、その点における正接空間であるベクトル空間にある。リー群は、群演算、乗算及び逆数が可微分写像であるように、可微分多様体の構造を有する群Ｇである。群の単位要素Ｉに対する正接空間は、リー代数ｇを形成する。ここでは、群の点を、大文字で示し、リー代数のベクトルを小文字で示す。

多様体における距離は、点を接続する曲線の長さによって測定され、最短曲線を測地線と呼ぶ。単位要素Ｉから、ベクトルｍ∈ｇで開始する一意の測地線がある。指数写像、ｅｘｐ：ｇ→Ｇは、ベクトルｍをこの測地線が達した点に写像する。ｅｘｐ（ｍ）＝Ｍである場合、測地線の長さはρ（Ｉ，Ｍ）＝‖ｍ‖である。概して、指数写像は、上への写像であるが１対１ではない。したがって、逆写像対数：Ｇ→ｇは、単位要素Ｉの近傍のあたりでのみ一意に定義される。任意のＭ∈Ｇに対し、Ｍ＝ｅｘｐ（ｍ）であるようにいくつかのｍ∈ｇがある場合、ｌｏｇ（Ｍ）が、最小ノルムを有するベクトルとして選択される。群要素Ｍ^−１の逆数による左乗算Ｇ→Ｇは、点ＭをＩに、且つＭにおける正接空間をリー代数に写像し、それは同形写像である。写像及び測地線定義を使用して、２つの群要素間の距離は、以下の式（６）によって測定される。

アフィン動きＡ（２）、相似変換Ｓ（２）及びユークリッド運動ＳＥ（２）等、本発明の実施形態で使用する変換は、３×３非特異正方行列の群である、一般線形群ＧＬ（３，Ｒ）の閉部分群である。行列の指数写像及びその逆の対数写像は以下の式（７）のように定義される。

一般に、指数写像は、恒等式ｅｘｐ（ｍ_１）ｅｘｐ（ｍ_２）＝ｅｘｐ（ｍ_１＋ｍ_２）を満足させない。写像は、以下の式（８）のベイカー・キャンベル・ハウスドルフ（Ｂａｋｅｒ−Ｃａｍｐｂｅｌｌ−Ｈａｕｓｄｏｒｆｆ）の公式を通じて、ｅｘｐ（ｍ_１）ｅｘｐ（ｍ_２）＝ｅｘｐ（ＢＣＨ（ｍ_１，ｍ_２））によって定義される。

ここで、［ｍ_１，ｍ_２］＝ｍ_１ｍ_２−ｍ_２ｍ_１はリーブラケット演算である。アフィン行列の構造は上述した。空間は６次元多様体である。

アフィン群のリー代数は、以下の式（９）の行列のセットである。

ここで、Ｕは２×２行列であり、ｖ∈Ｒ^２である。行列ｍは、正規直交に基づくものとして行列Ｕ及びベクトルｖのエントリの各々を選択することによって、６次元ベクトルと呼ばれる場合がある。

回帰関数訓練
訓練セット４１０に基づく訓練４８０中、回帰係数Ω４７０が推定される。回帰係数４７０は、物体記述子ｏを動き変換ΔＭと相関させる。これ説明するために、回帰関数Ω４７０は、回帰関数１４０に相当する。

訓練セット４１０は、上述したように、記述子と動き変換｛ｏ^ｉ _０，ΔＭ_ｉ｝を含む。アフィン動き行列はベクトル空間になく、２つの動きの間の従来のユークリッド距離は有効なメトリックではない。

しかしながら、アフィン動き行列は可微分多様体にある。この場合、意味のある誤差関数は、以下の式（１０）で表される回帰推定値ｆ（ｏ^ｉ _０）と動き変換ΔＭ_ｉとの間の二乗測地線距離の和である。

Ｍ_１及びＭ_２は２つの動き行列であるものとし、ｍ_１＝ｌｏｇ（Ｍ_１）及びｍ_２＝ｌｏｇ（Ｍ_２）であるものとする。２つの動き行列間の測地線距離に対する一次近似は、式（８）のＢＣＨ公式を使用して、以下の式（１１）の通りである。

ここで、リー代数に基づいてｄ正規直交を選択すると、行列ノルムを２つのベクトル間のユークリッド距離として確定することができる。式（８）のＢＣＨ公式と、リーブラケット演算の定義とから、近似は、変換が小さいほど優れており、そのため、ｍ_１及びｍ_２はゼロに近づき、言い換えれば、Ｍ_１及びＭ_２は単位行列Ｉに近づく。式（１１）を使用して、式（１０）の誤差関数は、以下の式（１２）を一次項まで最小化することと等価である。

変換は単位行列の小さい近傍内にあるため、近似は十分に正確である。

ここで、回帰関数を以下の式（１３）のように定義し、

リー代数に対する正接ベクトル、ｌｏｇ（ΔＭ）を推定する関数

を確定する。ここでは、関数ｇを、Ωが回帰係数のｍ×ｄ行列である場合、以下の式（１４）のように記述子の線形関数としてモデル化する。

式（１５）に示すように、Ｘは初期記述子のｎ×ｍ行列であるものとし、Ｙはリー代数に対する動きの写像のｎ×ｄ行列であるものとする。

ここでは、ｌｏｇ（ΔＭ_１）はｄ次元ベクトル形式で述べる。

式（１３）及び（１４）を式（１２）に代入すると、以下の式（１６）が得られる。

ここで、トレース（ｔｒ）は、式（１２）における和と置き換わる。トレースは、主対角上の要素の合計である。Ωに関して誤差関数Ｊ_ａを微分すると、最小値はΩ＝（Ｘ^ＴＸ）^−１Ｘ^ＴＹである。

リアルタイム追跡の場合、記述子の数は比較的少なく、たとえばｎ＝２００である。記述子の数が特徴空間の次元ｍ＝４３２より小さい、すなわちｎ＜ｍであるため、系は劣決定系であり、Ｘ^ＴＸはランク落ちになる。この場合、推定は訓練誤差をゼロにする。しかしながら、誤差は、将来の予測に対して汎化せず、これを過剰適合（過学習）と呼ぶ。

過剰適合を回避するために、以下の式（１７）のように回帰係数のサイズに対し、リッジ回帰である追加の制約を提供する。

リッジ回帰は、よく調整されていない線形回帰問題を解決する場合に有用である。

誤差関数Ｊ_ｒの最小値は、Ｉがｍ×ｍ単位行列である場合、以下の式（１８）の通りである。

正則化係数λは、回帰係数に対する収縮の度合いを確定する。係数λの値が大きいほど動きが安定化し、小さいほど、フレーム間のより大きい動きが可能になる。係数λの最適値は、訓練系列に対する交差検定によって選択され、λは追跡を通して一定のままである。

回帰関数の更新
物体１１５の外観は時間の経過によって変化する可能性がある。シーンの照明の量もまた変化する可能性がある。これは特に、自然の屋外の設定で物体を追跡する場合に当てはまる。したがって、本発明では、前に処理された画像及び追跡領域に従って訓練セット４１０を更新する（４５０）。

本実施形態では、モデル更新４５０は、回帰関数ｆ、言い換えれば回帰係数Ωを再推定することを言う。追跡ステップ中、上述したように、追跡領域１６０に対しわずかな、たとえばｋ＝２のランダム記述子を生成する。Ｘ_ｕ及びＹ_ｕは、式（１５）において記述されたような行列形式に格納された、更新された記述子及び動き変換であるものとし、Ω’は前のモデルパラメータであるものとする。追跡の各ｐフレームの後に、以下の式（１９）の誤差関数を最小化することによって回帰関数の係数を更新する。

この誤差関数は式（１７）に類似する。

回帰係数Ωに関して誤差関数Ｊ_ｕを微分する。最小値は以下の式（２０）の通りである。

パラメータγは、最後の推定から回帰パラメータに許容される変化の量を制御する。

物体追跡
図６は、本発明による物体追跡方法の擬似コードである。ここでは、回帰関数ｆ１４０を訓練する。追跡は、式（４）を使用して、画像間の物体の動き１５０を推定し、式（３）を使用して位置Ｍを更新する（１７０）。

追跡を、回帰関数ｆを用いて動き推定を繰り返すことによって向上させることができる。反復は、推定動きΔＭ_ｔが単位に等しくなるか、又は現推定位置における物体の尤度が、前の位置における物体の尤度を下回った時に終了する。時刻ｔにおいて位置Ｍにある物体の尤度は以下の式（２１）の通りである。

ここで、前の位置における物体の記述子が、現位置における物体の記述子と比較される。通常、物体を追跡するためには画像毎に１回又は２回の反復で十分である。

物体検出
図７は、本発明の実施形態による、ターゲット画像７０２において物体領域を検出する方法を示す。訓練領域７１０に物体を含む（初期）訓練画像７０１で開始する。ここでは、現実世界の座標に関して、又はターゲット画像における物体の姿勢に関して、物体の相対的な姿勢については既知ではない。ここで姿勢とは、物体の３次元位置及び３次元方向を意味する。たとえば、訓練画像における車の視点は側面からである場合があり、ターゲット画像における同じ車の視点は正面からである場合がある。姿勢が異なる可能性があるため、物体のサイズもまた２つの画像で異なる可能性がある。本発明では、訓練画像７０１から物体記述子７１５を生成し、たとえば、記述子は上述したように方向ヒストグラムである。別法として、他の記述子、たとえば外観、統計を使用することも可能である。

本発明では、変換パラメータ７３０に従って訓練領域７１０に複数のパラメトリック変換７２０を適用することによって、変換領域７４０をもたらす。通常、これらの変換は多数ある。各変換によって、物体の異なる姿勢がもたらされる。変換パラメータ７３０は、上述したようにリー代数に写像される。

各変換領域７４０に対して記述子７５１を確定する（７５０）。図４に関して上述したように、記述子７５１及びパラメータ７３０をリー代数に写像し、回帰関数（ＲＦ）７６１を訓練する（７６０）。

ターゲット画像７０２を窓７７０に分割する。ここでは、ターゲット画像における物体のサイズ及び位置が既知でないため、サイズ及び位置の異なる多くの窓がある。各窓に対し、窓記述子７８５を確定し、行列乗算によって記述子に対し回帰関数７６１を適用することによって収束窓を確定する。各収束窓７９０に対し、窓記述子７９２を確定する。

ターゲット画像７０２から取得された各窓記述子と、訓練領域７０１から取得された物体記述子との間の類似性スコアを測定する（７９５）。類似性スコアが最も高い窓が、検出物体の位置７９６に対応する。

他の次元での検出及び追跡
物体の検出及び追跡のための上記方法を、他の次元まで拡張することができる。たとえば、３次元空間において３次元物体を検出し追跡することができる。パラメトリック変換及び記述子は、対応するより高次元か又はより低次元で定義される。たとえば、３次元物体を、サーフェスマップ、ボリュームデータ又は３次元距離によって定義することができる。

本発明を好ましい実施形態の例を用いて説明したが、本発明の精神及び範囲内でさまざまな他の適応及び変更を行ってもよいということが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内にあるこうした変形及び変更のすべてを包含することである。

本発明の一実施形態による、一連の画像において物体を追跡する方法を示すフローチャートである。本発明の一実施形態による、物体座標における物体と画像座標における物体との間の双方向変換を示す概略図である。本発明の一実施形態による、方向ヒストグラムを用いた追跡領域の表現を示すブロック図である。本発明の実施形態による、回帰関数を訓練する方法を示すブロック図である。本発明の一実施形態による訓練セットの画像を含む図である。本発明の一実施形態による追跡方法の擬似コードを示すブロック図である。図４の訓練された回帰関数を使用して画像における物体を検出する方法を示すフローチャートである。

Claims

画像において物体の位置を特定する方法であって、
訓練画像における領域にパラメトリック変換のセットを適用するステップであって、変換領域のセットを確定し、前記パラメトリック変換のパラメータがリー代数に写像され、前記領域が物体を含む、適用するステップと、
各変換領域に対し物体記述子を確定するステップと、
前記パラメトリック変換のセットと前記物体記述子のセットとから回帰関数を訓練するステップと、
ターゲット画像から前記物体記述子を確定するステップと、
前記ターゲット画像における前記物体の位置を確定するために、前記ターゲット画像の前記物体記述子に対し前記回帰関数を適用するステップと、
を含む、画像において物体の位置を特定する方法。
移動する物体の一連のターゲット画像の各ターゲット画像に対し前記物体記述子を確定するステップと、
前記移動する物体の位置を確定するために、各物体記述子に対し前記回帰関数を適用するステップと、
をさらに含む、請求項１に記載の画像において物体の位置を特定する方法。
前記移動する物体の位置に従って前記領域の位置を更新するステップをさらに含む、請求項２に記載の画像において物体の位置を特定する方法。
前記パラメトリック変換はアフィンである、請求項１に記載の画像において物体の位置を特定する方法。
前記パラメトリック変換は透視である、請求項１に記載の画像において物体の位置を特定する方法。
前記画像は深度写像に対応する、請求項２に記載の画像において物体の位置を特定する方法。
各画像はボリュメトリックデータセットであり、前記位置は３次元である、請求項１に記載の画像において物体の位置を特定する方法。
前記パラメータは、行列対数演算によって前記リー代数に写像される、請求項１に記載の画像において物体の位置を特定する方法。
前記領域は、前記物体記述子を確定するように単位領域に写像される、請求項１に記載の画像において物体の位置を特定する方法。
前記物体記述子は方向ヒストグラムである、請求項１に記載の画像において物体の位置を特定する方法。
前記物体記述子は共分散行列である、請求項１に記載の画像において物体の位置を特定する方法。
前記移動する物体の位置を確定するために、各物体記述子に対し前記回帰関数を適用するステップは、前記移動する物体の画像において物体の位置を特定する位置の尤度が前記物体の前の位置の尤度を下回るまで繰り返される、請求項２に記載の画像において物体の位置を特定する方法。
前記物体記述子及び前記回帰関数は行列であり、前記ターゲット画像における前記物体の位置を確定するために、前記ターゲット画像の前記物体記述子に対し前記回帰関数を適用するステップは行列乗算である、請求項１に記載の画像において物体の位置を特定する方法。
時刻ｔにおける前記領域の位置は、位置変換行列Ｍ_ｔによって記述され、前記時刻ｔにおける前記物体の動きは、

であるように動き変換ΔＭ_ｔによって記述される、請求項２に記載の画像において物体の位置を特定する方法。
前記回帰関数はｆであり、前記物体記述子は、ｍが前記物体記述子の次元である場合、ｏ（Ｍ^−１）∈Ｒ^ｍであり、前記動き変換は、

で表される、請求項１４に記載の画像において物体の位置を特定する方法。
各ターゲット画像に対し前記回帰関数の係数を更新するステップをさらに含む、請求項２に記載の画像において物体の位置を特定する方法。
前記ターゲット画像を複数の窓に分割するステップと、
各窓に対し前記物体記述子を確定するステップと、
各窓に対し収束窓を確定するために、各窓の前記物体記述子に対し前記回帰関数を適用するステップと、
各収束窓に対し窓記述子を確定するステップと、
各収束窓に対し類似性スコアを確定するために、前記領域の前記物体記述子を各窓記述子と比較するステップと、
前記ターゲット画像における前記物体の位置として、スコアが最高である前記収束窓に関連する前記窓を選択するステップと、
を含む、請求項１に記載の画像において物体の位置を特定する方法。
画像において物体の位置を特定するシステムであって、
訓練画像における領域にパラメトリック変換のセットを適用する手段であって、変換領域のセットを確定し、前記パラメトリック変換のパラメータがリー代数に写像され、前記領域が物体を含む、適用する手段と、
各変換領域に対し物体記述子を確定する手段と、
前記リー代数に写像される前記パラメトリック変換のセットと前記物体記述子のセットとから回帰関数を訓練する手段と、
ターゲット画像から前記物体記述子を確定する手段と、
前記ターゲット画像における前記物体の位置を確定するために、前記ターゲット画像の前記物体記述子に対し前記回帰関数を適用する手段と、
を具備する、画像において物体の位置を特定するシステム。