JP4886678B2

JP4886678B2 - 検出および追跡のためのグラフオブジェクトモデル

Info

Publication number: JP4886678B2
Application number: JP2007515302A
Authority: JP
Inventors: シーガルレオニード; ツゥイン; コマニチドリン
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 2004-05-27
Filing date: 2005-05-25
Publication date: 2012-02-29
Anticipated expiration: 2025-05-25
Also published as: JP2008500640A; DE602005016546D1; EP1751717A1; US20050286738A1; WO2005119596A1; EP1751717B1; US7436980B2

Description

本出願は２００４年５月２７日に出願されたアメリカ合衆国暫定特許出願通し番号６０／５７４，７９９の優先権を主張するものであり、該アメリカ合衆国暫定特許出願の全体が参照として本願に取り込まれている。

発明の背景
１．技術分野：
本発明は画像処理に、より詳細には、画像内のオブジェクトの自動検出および追跡に関する。

２．関連技術の検討：
複数のカテゴリのオブジェクト（例えば、顔、群衆、車）を記述および認識する問題はコンピュータビジョンの使用において重要である。オブジェクトを特有の外観と空間的広がりと位置とをもつ特徴のコレクションとして表現することは、一般的である。しかしながら、必要とされる特徴が幾つであるか、またこれらの特徴をどのように検出し表現するかに関しては、大きなばらつきがある。

したがって、コンポーネント検出を実現し、空間および時間にわたる推論を行う、オブジェクト検出および追跡のシステムと方法とに対するニーズが存在している。

発明の概要
本開示の１つの実施形態によれば、コンピュータを利用したオブジェクト検出の方法は、検出すべきオブジェクトの時空間モデルを提供するステップと、前記オブジェクトを含んだ複数の画像から成るビデオを提供するステップと、前記オブジェクトを各画像内のコンポーネントのコレクションとして測定するステップを有する。この方法はさらに、前記オブジェクトが各画像内にある確率を求めるステップと、各画像についての前記確率とオブジェクト検出の閾値との比較に基づいて、前記画像のいずれかにおいて前記オブジェクトを検出するステップを有する。

検出すべきオブジェクトの時空間モデルを提供するステップは、コンポーネントのコレクションの各々に対して検出器を提供するステップを含んでいる。

前記時空間モデルは、コンポーネントのコレクションの各々とオブジェクトとに対応するノードを含んだグラフモデルである。

オブジェクトが各画像内にある確率を求めるステップは、現在画像に関連する先行画像と後続画像とから求めたコンポーネントのコレクションとしてのオブジェクトの測定値に従って、現在画像内のオブジェクトを検出するステップを含んでいる。

検出すべきオブジェクトの時空間モデルを提供するステップはさらに、複数の画像を画定する時間窓を提供するステップを含んでおり、該時間窓内で検出されたコンポーネントの測定値は現在画像内で検出されたコンポーネントに渡される。

オブジェクトが各画像内にある確率を求めるステップは、各画像内のオブジェクトの位置と大きさとに関する確率を求めるステップを含んでいる。

前記閾値は検出すべきオブジェクトに対して設けられるものであり、経験的に求められる。

Ｎ個のコンポーネントをもつ前記時空間モデルの同時確率分布は、

である。

本開示の１つの実施形態によれば、オブジェクト検出のための方法ステップを実行する機械実行可能な命令プログラムを実体的に実現した機械可読プログラムストレージデバイスが提供される。前記方法ステップは、検出すべきオブジェクトの時空間モデルを提供するステップと、前記オブジェクトを含んだ複数の画像から成るビデオを提供するステップと、前記オブジェクトを各画像内のコンポーネントのコレクションとして測定するステップを含んでいる。この方法はさらに、前記オブジェクトが各画像内にある確率を求めるステップと、各画像についての前記確率とオブジェクト検出の閾値との比較に基づいて、前記画像のいずれかにおいて前記オブジェクトを検出するステップを有する。

図面の簡単な説明
以下では、添付の図面を参照して、本発明の好ましい実施形態をより詳細に説明する。

図１は、本開示の１つの実施形態によるシステムを示しており、
図２Ａおよび２Ｂは、それぞれ本開示の１つの実施形態による歩行者と車両に関するグラフモデルを示しており、
図３は、歩行者と本開示の１つの実施形態に従って識別されたこの歩行者のコンポーネントとを示しており、
図４は、本開示の１つの実施形態によるグラフモデルにおけるメッセージの受け渡し方法のフローチャートを示しており、
図５は、本開示の１つの実施形態による方法のフローチャートを示している。

好ましい実施形態の詳細な説明
本開示の１つの実施形態によれば、画像内またはビデオ内のオブジェクトのコンポーネントに基づいた自動検出および追跡の確率論的フレームワークは、オブジェクト検出と追跡を１つの統一されたフレームワークへと結合する。追跡はオクルージョンが一時的に衰退している間の初期化および再初期化のためにオブジェクト検出を利用する。オブジェクト検出は検出の経時的な整合性を考慮する。画像ベースの、恐らくはオーバーラップしたコンポーネント配列によるオブジェクトのモデリングは、複雑に分節化したオブジェクトの検出を容易にするとともに、オブジェクトの部分的なオクルージョンや照明の局所的な変化の処理にも役立つ。

図２Ａおよび２Ｂを参照すると、オブジェクトの検出および追跡は二層グラフモデルにおける推論として定式化されている。この二層グラフモデルでは、粗い層のノードがオブジェクト全体を表し、細かい層のノードがオブジェクトの複数のコンポーネントを表している。ノード間の有向辺は、学習した確率的な時間的および空間的制約条件を表している。グラフモデル内の各ノードは、ある時点における画像内のコンポーネントまたはオブジェクト全体の位置およびスケールに対応している。また、各ノードは、局所的な画像尤度を確定するために使用される対応する適応ブースティング（Ａｄａｂｏｏｓｔ）検出器と提案プロセスも有している。一般に、尤度と依存度はガウシアンではない。各ノードにおいて２Ｄの位置およびスケールを推論するために、ノンパラメトリック信念伝播法（ＢＰ）が実施される。ノンパラメトリック信念伝播法（ＢＰ）は、一種のパーティクルフィルタリングを使用しており、ループをもつグラフに適用することができる。

本発明はハードウェア、ソフトウェア、ファームウェア、専用プロセッサ、またはこれらの組合せといった様々な形態で実施できることが理解されなければならない。１つの実施形態では、本発明はプログラムストレージデバイス上に実体的に実現されたアプリケーションプログラムとしてソフトウェア内で実施される。このアプリケーションプログラムは、任意の適切なアーキテクチャをもつマシンにダウンロードされ、このマシンによって実行される。

図１を参照すると、オブジェクトの検出および追跡方法を実施するコンピュータシステム１０１は、本開示の１つの実施形態に従って、とりわけ、中央処理ユニット（ＣＰＵ）１０２、メモリ１０３、および入力／出力（Ｉ／Ｏ）インタフェース１０４から成ることができる。コンピュータシステム１０１は一般にＩ／Ｏインタフェース１０４を介してディスプレイ１０５とマウスやキーボードのような様々な入力デバイス１０６に接続されている。補助回路は、キャッシュ、電源、クロック回路、および通信バスのような回路を含んでいてよい。メモリ１０３は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、ディスクドライブ、テープドライブなど、またはこれらの組合せを含んでいてよい。本発明はルーチン１０７として実施される。このルーチン１０７は、メモリ１０３に格納されており、信号源１０８からの信号を処理するためにＣＰＵ１０２により実行される。コンピュータシステム１０１はそれ自体としては汎用コンピュータシステムであり、本発明のルーチン１０７を実行するときに専用コンピュータシステムとなる。

コンピュータプラットフォーム１０１はまたオペレーティングシステムとマイクロ命令コードを有している。本明細書に記載されている様々なプロセスと機能は、マイクロ命令コードの一部であるか、またはオペレーティングシステムを介して実行されるアプリケーションプログラムの一部（またはこれらの組合せ）であってよい。さらに、付加的なデータストレージデバイスや印刷装置のような他の様々な周辺機器をこのコンピュータプラットフォームに接続してもよい。

添付図面に描かれたシステム構成要素と方法ステップのうちのいくつかはソフトウェアで実施されうるものであるから、システム構成要素（またはプロセスステップ）間の実際の接続は、本発明がプログラムされる仕方に応じて異なっていてよいことが理解されなければならない。本明細書で提供される本発明の教唆があれば、当業者は本発明のこれらの実施形態または構成ならびに類似の実施形態または構成を考案することができる。

グラフオブジェクトモデル；自動車（図２参照）のようなオブジェクトは、有向時空間モデルとしてモデリングされる。グラフ内の各ノードは時点ｔにおけるオブジェクトまたはオブジェクトのコンポーネントのいずれかを表している。ノードは、画像内でのコンポーネントの実数値での位置とスケールとを定める対応する状態ベクトルＸ^T＝（ｘ，ｙ，ｓ）を有している（ここで、ｘ，ｙ，ｓ∈Ｒ）。Ｎ個のコンポーネントをもつこの時空間グラフオブジェクトモデルの同時確率分布は次のように書ける：

ここで、Ｘ^O _tとＸ^Cn _tはそれぞれ時点ｔにおけるオブジェクトＯの状態とオブジェクトの第ｎコンポーネントＣ_nの状態であり（ｎ∈（１，Ｎ）、ｔ∈（１，Ｔ））、Ψ_ik（Ｘ^O _i，Ｘ^O _j）はフレームｉとｊの間のオブジェクト状態の空間的両立性であり、Ψ_ik（Ｘ^O _i，Ｘ^Ck _i）はフレームｉにおけるオブジェクトとそのコンポーネントの空間的両立性であり、Ψ_kl（Ｘ^Ck _i，Ｘ^Ci _i）はフレームｉにおけるオブジェクトコンポーネント間の空間的両立性であり、φ_i（Ｘ^O _i）とφ_i（Ｘ^Ck _i）はそれぞれオブジェクト状態とコンポーネント状態の局所的証拠を指示している。

本開示の１つの実施形態によれば、システムは以下のモジュールから成る：グラフモデルモジュール、グラフ内の各ノードの状態を推論する能力を提供する推論モジュール、局所的証拠分布（または画像尤度）モジュール、グラフモデル内のいつくかのノードまたはすべてのノードに関する提案プロセスモジュール、および、グラフの辺に対応する空間的および／または時間的制約条件の集合から成るモジュール。

グラフモデルの構築；単一フレームの場合には、オブジェクトは、例えば図２Ａおよび２Ｂに示されているように、二層空間グラフモデルを用いて表現される。細かいコンポーネント層２０１は一連の疎結合した部分、例えば２０２、を含んでいる。粗いオブジェクト層２０３はオブジェクトの外観モデルの全体に対応しており、すべてのコンポーネント、例えば２０２、と結合している。歩行者と車両の検出の場合におけるこのようなモデルの例はそれぞれ２Ａと２Ｂに示されている。両方の場合とも、オブジェクトはオーバーラップする４つの画像コンポーネントを用いてモデリングされる。車両の場合、コンポーネントは左上（ＴＬ）２０４、右上（ＴＲ）２０５、右下（ＢＲ）２０６、および左下（ＢＬ）２０７の四隅である。歩行者の画像３０１の場合、コンポーネントは頭（ＨＤ）２０８、左腕（ＬＡ）２０９、右腕（ＲＡ）２１０、および脚（ＬＧ）２０２である（図３参照）。

時間的制約条件を取り込むために、空間グラフモデルは時間の経過に従って任意の長さの時間窓にまで拡張される。結果として得られる時空間モデルは図２Ａおよび２Ｂに示されている。二層グラフモデルを有することにより、推論プロセスはオブジェクト全体、例えば２０３、に関して明確に推論をすることが可能になり、また、オブジェクトの全体的な外観を所与として、コンポーネントの、例えば２０２および２０８−２１０の、条件的独立性の仮定を認めることにより、時間の経過とともにグラフモデルの複雑性を減少させることができる。択一的に、双方向の時間的制約条件を付けて単一オブジェクト層モデルを構築してもよい。

図２Ａおよび２Ｂに見られるように、現時点のオブジェクトはＯ_tで表されており、現時点より前のモデルではＯ_t-(w-1)/2で表されており、後のモデルではＯ_t+(w-1)/2で表されている。

空間的および時間的制約条件の学習；コンポーネントｉとｊの間のそれぞれの有向辺は、ノード状態の対の間の両立性を符号化する対応するポテンシャル関数Ψ_ij（Ｘ_i，Ｘ_j）を有している。このポテンシャル関数Ψ_ij（Ｘ_i，Ｘ_j）はＭ_ij個のガウシアンの混合によってモデリングされる：

ここで、λ⁰は固定の外れ値確率であり、μ_ijとΛ_ijは外れ値のガウス過程の平均と共分散であり、Ｆ_ijm（・）とＧ_ijm（・）はそれぞれｍ番目のガウシアン混合のコンポーネントの平均、共分散である。δ_ijmは個々のコンポーネントの相対的な重みであり、

である。ここに記した実験では、Ｍ_ij＝２の混合コンポーネントを使用した。

各コンポーネントが単一の基準点に対応付けられている一連のラベル付けされた画像が与えられると、以下の形式のＦ_ijm（・）を学習するために、Ｋ平均初期化を伴った反復期待最大化（ＥＭ）法が実施される：

ここで、μ^x _ijm、μ^y _ijm、μ^s _ijmはｉに対するコンポーネントまたはオブジェクトｊの平均位置およびスケールである。Ｇ_ijm（・）は、相対的な位置とスケールを表す対角行列であると仮定する。

ＡｄａＢｏｏｓｔ画像尤度；尤度φ_i（Ｘ_i）は、ノードｉの状態Ｘ_iに依存する、画像の観察確率をモデリングする。本開示の１つの実施形態による尤度モデルはブースト分類子を使用しており、部分的なオクルージョンと、異なる多数の入力間での画像統計量の変動性とに対してロバストである。

ブースト検出器は各コンポーネントに関して訓練される。簡潔さのために、ＡｄａＢｏｏｓｔをカスケードにせずに使用してもよい。カスケードを用いて訓練すれば、システムの計算効率は改善されるだろう。検出器が出す偽陽性の数を減らすために、ブートスラップ法により、訓練された強分類子を一連の背景画像（例えば、所望のオブジェクトを含まない画像）の上で走らせることにより集められた偽陽性を繰り返し加え、古い陽性の集合と新しい拡張された陰性の集合を用いて検出器を再訓練する。

ラベル付けされたパターンの集合が与えられると、ＡｄａＢｏｏｓｔプロシージャは基底弱分類子の加重結合

を学習する。ここで、Ｉは画像パターンであり、ｈ_k（Ｉ）はｋ回目のブースティングのために選ばれた弱分類子であり、α_kは対応する重みである。ｈ_k（Ｉ）＝ｐ_k（［ｆ_k（Ｉ））^βk］^1/βk＜θ_k）として弱分類子法が実施される。ここで、ｆ_k（Ｉ）は空間テンプレートの広がりの上でパターンＩをδ関数で畳み込むことによって計算されたパターンＩの特徴であり、θ_kは閾値であり、ｐ_kは不等号の向きを表す極性であり、β_k∈｛１，２｝は対称的な両側パルス分類を可能にする。

ＡｄａＢｏｏｓｔ分類子の出力は、所与のパターンＩが所望のクラスものである信頼度ｈ_k（Ｉ）である。

ならば、オブジェクトは存在すると見なされる。この信頼度は、ｈ（Ｉ）∈［０，１］、かつ、指数関数が

となるように、α_kたちを正規化することにより、尤度関数に変換される。ここで、Ｔは尤度関数の滑らかさを制御する温度パラメータであり、Ｔの値が小さくなれば、分布のピークはより険しくなる。したがって、尤度はＴの変化のスケジュールを導出することにより焼き鈍すことができる。実用において良く機能するように、指数関数的焼き鈍しスケジュールＴ＝Ｔ₀υ^κが求められている。ここで、Ｔ₀は初期温度であり、υはυ∈（０，１）となる小数であり、κは焼き鈍しの繰り返し回数である。

オブジェクトによっては、オブジェクト層ノードに対して尤度または提案プロセスが得られる場合もあれば、得られない場合もある。例えば、オブジェクトの全体的な外観が複雑すぎて全体（例えば、任意の大きさの車両）としてモデリングできず、コンポーネントでしかモデリングできない場合、オブジェクト状態空間上に一様尤度を仮定してもよい。このような場合、オブジェクト層ノードは単純にコンポーネント情報を融合して、経時的に整合するオブジェクト状態の推定値を出す。

ノンパラメトリックＢＰ；あるフレームワークにおいてオブジェクトとそのコンポーネントの状態を推論することは、グラフモデルにおいて信念を推定することとして定義される。このタスクを処理するために、ノンパラメトリック信念伝播法の１つの形態であるＰＡＭＰＡＳ（Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition, vol.1, pp.421-428, 2004に所収の"PAMPAS: Real-valued graphical models for computer vision"においてＭ．Ｉｓａｒｄにより提案されている）が実施される。この手法はパーティクルフィルタリングの一般化であり、単純なチェーンの上での推論はなく任意のグラフの上での推論を可能にする。この一般化では、信念伝播法において使用されるメッセージは、ガウス密度の混合を通してパーティクル集合を伝播させることにより形成されるカーネル密度で近似され、標準的なパーティクルフィルタリングで使用される条件付き分布は入来するメッセージの積で置き換えられる。計算の複雑さのほとんどは、メッセージの受け渡しと信念推定に必要とされるカーネル密度の積からのサンプリングにある。この問題に対処するために、我々は効率的な逐次マルチスケール・ギブズ・サンプリングとε正確な（epsilon-exact）サンプリングを使用する。

個々のメッセージは十分にノードを制約しないこともあるが、ノードに入来するすべてのメッセージにわたる積は状態空間内に非常に密な分布を生じさせる傾向がある。例えば、車両のいずれか１つのコンポーネントでは車両の高さを信頼性をもって推定することは不可能であるが、すべてのコンポーネントからの情報がオブジェクト層ノードに取り込まれれば、オブジェクトの全体的な大きさの推定値を計算することができる。

より形式的には、メッセージｍ_ijは

と書かれる。ここで、Ａ_iはノードｉの近隣ノードの集合であり、｛Ａ_i＼ｊ｝はノードｊを除くノードｉの近隣ノードの集合であり、φ_i（Ｘ_i）はノードｉに関連した局所的証拠（または尤度）であり、Ψ_ij（Ｘ_i，Ｘ_j）はノードｉとｊの状態の間の両立性を示すポテンシャルである。信念および提案関数からの階層的サンプリングによってどのようにメッセージの更新を実行することができるかについての詳細は、図４に示されている。

図４を参照すると、グラフモデルのノード間でメッセージを受け渡しする方法は、ノードｉに関連した尤度を求めるステップ４０１と、ノードｉの状態に依存して画像を観察するステップ４０２と、ノードｉとｊ、ノードｉとｋ、ノードｉとｌの状態の間の両立性を表すポテンシャルを求めるステップ４０３を含んでいる。メッセージ４０５は近隣ノードがどのような状態となるかに関する情報４０４を伝播させるためにノード間で受け渡しされる。

画像シーケンス全体に対して定義された時空間モデル上で推論を行うことは可能であるが、多くのアプリケーションでは、長たらしいオフライン処理が必要とされるため、これは選択肢とならない。ｗフレーム窓付き平滑化アルゴリズムは、ｗが奇数≧１である場合に使用される。窓付き平滑化を行うには、オブジェクト検出を中心とした方法または追跡を中心とした方法の２つの方法がある。前者では、窓をシフトする度にすべてのノードを再初期化する。したがって、時間的統一性はサイズｗの窓の中でしか成立しない。追跡を中心とした方法では、新しいフレームに関連するノードしか初期化されないので、ｔ−（ｗ−１）／２より前からの時間的整合性を強化する傾向がある。追跡を中心とした方法はより速く収束し、経時的により整合的な結果を出す一方で、シーンに出入りするオブジェクトに対する感度もより低い。ｗ＝１の場合には、このアルゴリズムは単一フレームのコンポーネントに基づいた融合に類似する。

提案プロセス；信頼性を以てオブジェクトを検出および追跡するために、ノンパラメトリックＢＰはボトムアップ提案プロセスを利用する。このボトムアップ提案プロセスは、絶えずオブジェクトとコンポーネントの状態に関する代替的仮説を探し、提案する。提案分布は重み付けされたパーティクル集合を用いてモデリングされる。コンポーネントの提案パーティクル集合を形成するために、対応するＡｄａＢｏｏｓｔ検出器は閾値

より上のスコアを有する検出結果を出すために複数のスケールで画像上を走る。この集合は外観モデル全体にとっては処理可能であるが、専用でないコンポーネント検出器にとっては大きい（例えば、数千のロケーションは容易に見付けることができる）。大きさを減少させるために、上位Ｐ位のスコアを有する検出のみが保存される。なお、Ｐは１００〜２００のオーダーである。広範な探索を達成するため、一様分布を用いて提案からのサンプルパーティクルをインポートした。

図５を参照すると、コンピュータを利用したオブジェクト検出の方法は、オブジェクトの時空間モデル、例えば、図２Ａおよび２Ｂ参照、を提供するステップ５０１、前記オブジェクトを含んだ複数の画像から成るビデオを提供するステップ５０２、および、前記オブジェクトをビデオの各画像内のコンポーネントのコレクションとして測定するステップ５０３を含んでいる。この方法さらに、時空間モデルのノードとして表されたコンポーネントの間でのメッセージの受け渡しを利用して、前記オブジェクトが各画像内にある確率を求めるステップ５０４と、各画像についての前記確率とオブジェクト検出の閾値との比較に基づいて、前記画像のいずれかにおいてオブジェクトを検出するステップ５０５を含んでいる。

実験；単一の車載グレースケールカメラで収集した一連の画像を用いてテストを行った。５５個の連続フレームから成るシーケンスにわたる車両検出および追跡の結果を評価した。３フレーム時空間オブジェクトモデルを使用し、追跡を中心とした方法により、時間の経過とともにこのモデルをシフトさせた。ＢＰは各フレームにおいて１０回の繰り返しにわたって３０のパーティクルを用いて実行された。比較のために、単純な融合スキームも実施した。この単純な融合スキームは、各フレームにおいて車両位置とスケールの推定値を独立して求めるために、４つのコンポーネントの各々からの最良の検出結果を平均するものである。単純な融合スキームのパフォーマンスは悪く、雑音のあるコンポーネント検出器は正しい位置およびスケールにおいて大域的な最大値を有さないことがよくあることを示唆している。対照的に、時空間オブジェクトモデルはシーケンス全体を通して正確な推定値の証拠を整合的に結合する。

２つの異なるシーンにおいて、２人の歩行者に関して、単一の時間インスタンスに３フレーム時空間オブジェクトモデルを走らせた。車両検出と同様に、１０回の繰り返しにわたって３０のパーティクルを用いてＢＰを実行した。両方の実験において、尤度の温度はＴ₀＝０．２に設定される。

本開示の１つの実施形態によれば、オブジェクト検出追跡フレームはブースト分類子とノンパラメトリック信念伝播法を利用している。この手法はコンポーネントをベースにした検出を提供し、任意のサイズの時間窓にわたって時間的情報を統合する。このフレームワークのパフォーマンスは、車両と歩行者という２つのオブジェクトのクラスを用いて説明されている。両方のケースにおいて、オブジェクトとそのコンポーネントの位置およびスケールは信頼性をもって推論される。

オブジェクト検出および追跡のためのシステムと方法の実施形態を説明してきたが、当業者には上記の教唆に照らして改良および変更が可能であることを指摘しておきたい。それゆえ、開示された本発明の個々の実施形態に対して、添付した請求項により規定されるものとしての本発明の範囲および趣旨の内で、変更を為しうることが理解されなければならない。以上、特許法により要求される詳細および特定性を以て本発明を説明したが、請求および特許証による保護を求めるものは添付した請求項に示されている。

本開示の１つの実施形態によるシステムを示す。本開示の１つの実施形態による歩行者に関するグラフモデルを示す。本開示の１つの実施形態による車両に関するグラフモデルを示す。歩行者と本開示の１つの実施形態に従って識別されたこの歩行者のコンポーネントとを示す。本開示の１つの実施形態によるグラフモデルにおけるメッセージの受け渡し方法のフローチャートを示す。本開示の１つの実施形態による方法のフローチャートを示す。

Claims

コンピュータを利用したオブジェクト検出の方法において、
検出すべきオブジェクトの時空間モデルを、前記オブジェクトを構成要素の集まりの各々と前記オブジェクトとに対応するノードを含んだグラフとして提供するステップと、
前記オブジェクトを含んだ複数の画像から成るビデオを提供するステップと、
前記オブジェクトが各画像内にある確率を前記グラフからの推論により求めるステップと、ただし、前記グラフの各ノードは対応する検出器を有しており、前記確率の算出は前記オブジェクトの構成要素の各集まりに対応する前記検出器によって前記構成要素を検出することを含んでおり、
各画像についての前記確率とオブジェクト検出の閾値との比較に基づいて、前記画像のいずれかにおいて前記オブジェクトを検出するステップを有することを特徴とする、コンピュータを利用したオブジェクト検出の方法。
前記時空間モデルのノードに対応する検出器は、適応ブースティング（Ａｄａｂｏｏｓｔ）検出器である、請求項１記載の方法。
オブジェクトが各画像内にある確率を求める前記ステップは、前記ビデオの現在画像に時間的に先行する先行画像と時間的に後続する後続画像とから求めたオブジェクトの画像尤度に従って現在画像内のオブジェクトを検出するステップを含んでいる、請求項１記載の方法。
検出すべきオブジェクトの時空間モデルを提供する前記ステップはさらに、複数の画像を画定する時間窓を提供するステップを含んでおり、該時間窓内で検出されたオブジェクトの構成要素の画像尤度は現在画像内で検出された前記オブジェクトの構成要素に対応するノードに渡される、請求項１記載の方法。
オブジェクトが各画像内にある確率を求める前記ステップは、各画像内のオブジェクトの位置と大きさとに関する確率を求めるステップを含んでいる、請求項１記載の方法。
前記閾値は検出すべきオブジェクトに対して設けられるものであり、実験により求められる、請求項１記載の方法。
Ｎ個の構成要素を持つ前記時空間モデルの同時確率分布は、

であり、ここで、Ｘ_i ^OとＸ_i ^Ckは前記ビデオの第ｉフレームにおけるオブジェクトＯの状態とオブジェクトＯの第ｋ構成要素Ｃ_k（ｋ∈（１...Ｎ）の状態であり、Ψ_ij(Ｘ_i ^O，Ｘ_j ^O)は前記ビデオの第ｉフレームと第ｊフレームの間でのオブジェクトの状態の空間的両立性であり、Ψ_ik(Ｘ_i ^O，Ｘ_i ^Ck)は第ｉフレームにおけるオブジェクトとその構成要素の空間的両立性であり、Ψ_kl(Ｘ_i ^Ck，Ｘ_i ^Cl)は第ｉフレームにおける構成要素間の空間的両立性であり、φ_i(Ｘ_i ^O)とφ_i(Ｘ_i ^Ck)はそれぞれオブジェクトの状態と構成要素の状態の局所的証拠である、請求項１記載の方法。
オブジェクト検出のための方法ステップを実行する機械実行可能な命令プログラムを実体的に実現した機械可読プログラムストレージデバイスであって、前記方法ステップが、
検出すべきオブジェクトの時空間モデルを、前記オブジェクトを構成している要素の集まりの各々と前記オブジェクトとに対応するノードを含んだグラフとして提供するステップと、
前記オブジェクトを含んだ複数の画像から成るビデオを提供するステップと、
前記オブジェクトが各画像内にある確率を前記グラフからの推論により求めるステップと、ただし、前記グラフの各ノードは対応する検出器を有しており、前記確率の算出は前記オブジェクトの構成要素の各集まりに対応する前記検出器による前記構成要素の検出を含んでおり、
各画像についての前記確率とオブジェクト検出の閾値との比較に基づいて、前記画像のいずれかにおいて前記オブジェクトを検出するステップを含んでいることを特徴とする、機械可読プログラムストレージデバイス。
前記時空間モデルのノードに対応する検出器は、適応ブースティング（Ａｄａｂｏｏｓｔ）検出器である、請求項８記載の機械可読プログラムストレージデバイス。
オブジェクトが各画像内にある確率を求める前記ステップは、前記ビデオの現在画像に時間的に先行する先行画像と時間的に後続する後続画像とから求めたオブジェクトの画像尤度に従って現在画像内のオブジェクトを検出するステップを含んでいる、請求項８記載の機械可読プログラムストレージデバイス。
検出すべきオブジェクトの時空間モデルを提供する前記ステップはさらに、複数の画像を画定する時間窓を提供するステップを含んでおり、該時間窓内で検出されたオブジェクトの構成要素の画像尤度は現在画像内で検出された前記オブジェクトの構成要素に対応するノードに渡される、請求項８記載の機械可読プログラムストレージデバイス。
オブジェクトが各画像内にある確率を求める前記ステップは、各画像内のオブジェクトの位置と大きさとに関する確率を求めるステップを含んでいる、請求項８記載の機械可読プログラムストレージデバイス。
前記閾値は検出すべきオブジェクトに対して設けられるものであり、実験により求められる、請求項８記載の機械可読プログラムストレージデバイス。
Ｎ個の構成要素を持つ前記時空間モデルの同時確率分布は、

であり、ここで、Ｘ_i ^OとＸ_i ^Ckは前記ビデオの第ｉフレームにおけるオブジェクトＯの状態とオブジェクトＯの第ｋ構成要素Ｃ_k（ｋ∈（１...Ｎ）の状態であり、Ψ_ij(Ｘ_i ^O，Ｘ_j ^O)は前記ビデオの第ｉフレームと第ｊフレームの間でのオブジェクトの状態の空間的両立性であり、Ψ_ik(Ｘ_i ^O，Ｘ_i ^Ck)は第ｉフレームにおけるオブジェクトとその構成要素の空間的両立性であり、Ψ_kl(Ｘ_i ^Ck，Ｘ_i ^Cl)は第ｉフレームにおける構成要素間の空間的両立性であり、φ_i(Ｘ_i ^O)とφ_i(Ｘ_i ^Ck)はそれぞれオブジェクトの状態と構成要素の状態の局所的証拠である、請求項８記載の機械可読プログラムストレージデバイス。