JP5848341B2

JP5848341B2 - 単眼３次元ポーズ推定および検出による追跡

Info

Publication number: JP5848341B2
Application number: JP2013513717A
Authority: JP
Inventors: オスメゾウリガブリエル; 一郎阪田; シーレベルント; アンドリルカミカイロ; ロトシュテファン
Original assignee: トヨタモーターヨーロッパナームロゼフェンノートシャップ／ソシエテアノニム; テヒニシェウニベルジテートダルムシュタット
Priority date: 2010-06-12
Filing date: 2011-06-14
Publication date: 2016-01-27
Anticipated expiration: 2031-06-14
Also published as: WO2011154558A3; EP2580739A2; JP2013529801A; US20130142390A1; EP2395478A1; US8958600B2; WO2011154558A2

Description

本発明は、人間、例えば人間の姿勢（ポーズ）のような目標（オブジェクト）を検出するための画像処理装置および方法に関し、さらに、このような方法を実行する対応するコンピュータプログラムに関し、さらにこのコンピュータプログラムを格納するメモリデバイスに関し、さらに対応する集積回路に関する。

単眼画像列（シーケンス）から３次元で人間の姿勢を自動復元することは、映像インデクシング、自動車の安全性、および監視を含む多数のアプリケーションにとって困難でしかも重要なトピックである。現在の方法では、制御された環境内の一人の人間に対して３次元ポーズを復元することができるが、これらの方法は、単眼の移動可能なカメラを使用する、混雑した街路シーン、例えば乱雑なシーンにおける複数の人間、のような実世界のシナリオによって深刻な挑戦を受けている。

おそらく多関節３次元追跡で最も重要な課題は、単眼のイメージエビデンス（痕跡）からの３次元ポーズにおける本質的な曖昧性である。これは、長時間、頻繁に部分的あるいは完全に遮蔽された複数の人間を含む、混雑した実世界シナリオにおいて、特にそのとおりである。２次元ポーズ復元であっても、別の重要な課題として、人間の関節や外観の複雑さがある。さらに、リアルなシーンの複雑で動的に変化する背景は、複数のフレームに亘るデータの関連付けを複雑にする。しながら、これらの課題の多くは個々に対処されてはいるが、単眼の移動可能なカメラを使用して、それらすべてに同時に対処することは達成されていない。

信頼性の高い３次元ポーズ推定の困難さ故に、このタスクは、多くの場合、シルエットやエッジマップのようなバックグラウンド除去法および単純なイメージエビデンス法に依存したソリューションを伴う、管理された実験室設定で検討されて来た。これらのアプローチは、高次元ポーズ空間での検索を強要するために、多くの場合、複数の校正済みカメラ、複雑な動的運動事前知識（ｐｒｉｏｒｓ）、または詳細な人体モデルを使用する。その組み合わせは、商業的マーカーベースのモーションキャプチャシステムの性能においてと同様に、目覚ましい結果を達成している。しかしながら、現実的な街路シーンは、これらのシステムによって為された仮定の多くを満たしていない。同期した複数のビデオストリームを得ることが困難であるようなシーンでは、人の外観ははるかに複雑であり、頻繁に発生する完全および部分的遮蔽（オクルージョン）、混雑、およびカメラモーションによって、エビデンスをしっかり抽出することが難しい。これらの課題に対処するためには、多くの方法が人間の検出手法における最近の進歩を活用し、さらに、事前フィルタと初期化に対する検出を使用するか、または、1つの“検出による追跡（トラッキング・バイ・ディテクション）”フレームワーク内で検出、追跡およびポーズ推定を統合している。

２次元の身体部分位置から３次元ポーズを推定することが、既に提案されている。しかしながらこのアプローチは、一人の被験者に対して実験室条件でのみ評価され、複数の人間を伴うより複雑な設定に如何にうまく一般化されても、不明確なままとなる。回帰、分類、または事例データベース上で検索を使用して、画像の特徴から直接３次元ポーズ予測を行うことについて、多くの研究がなされている。これらの方法は、一般に、良好なパフォーマンスを達成するためには訓練事例の大規模なデータベースを必要とし、これは、現実的な設定では、人間の外観の大きなばらつき故に困難である。

Andriluka M 等による“People-tracking-by-detection and people-detection-by-tracking” （Computer Vision and Pattern Recognition 2008, CVPR 2008 ISBN: 978-1-4244-2242-5 978-1-4244-2242-5）によって、画像中のオブジェクトのポーズを推定しそして検出による２次元追跡を適用するための２次元ポーズ検出器を有する、画像プロセッサを提供することが知られている。

本発明は、特許請求の範囲に記載された方法および装置を提供する。本発明の幾つかの実施形態では、単眼可動カメラを用いて獲得された現実的な街路条件における人物のポーズを復元することが可能な、単眼３次元ポーズ推定および追跡が提供される。本発明の実施形態では、3段階のプロセスを提供する。本発明は上記の問題に対処するために、音声ベイジアン式を提供する。本発明は、現実的な街路条件における多関節３次元追跡を提供することができる。

本発明は、動的運動事前知識と組み合わせた、人物検出および２次元ポーズ推定のための方法および装置を提供する。本発明は、側面から見た人物のための２次元ポーズ推定を提供するのみならず、複数の視点から３次元でポーズを推定することにより、それを超える。ポーズの推定は、単眼の画像で行われ、ステレオ画像を必要としない。また本発明は、人物の特徴的なポーズの検出を必要としない。

本発明の方法では、訓練画像数を減少させそして表現をより柔軟する、身体の各部分に対する個別の外観モデルを使用して、人間の複雑な外観を表現する。

３つの連続した段階で、強固な３次元ポーズ復元を可能とするために、利用可能な２次元画像エビデンスが蓄積される。本発明は、単眼画像、検出による追跡（トラッキング・バイ・ディテクション）、および階層的ガウスプロセス潜在変数モデルに基づいた３次元動力学のモデル化からの、２次元ポーズ推定を含む。利用可能な２次元画像エビデンスが蓄積され、蓄積されたそのエビデンスから、３次元ポーズが信頼性を有して復元され且つ追跡される。第１の段階では、単一フレームから、人物の２次元関節と視点の初期推定値が取得される。第２の段階では、検出による追跡に基づいて、フレームを横断する早期のデータ関連付けを可能とする。これらの2つの段階において、利用可能な２次元画像エビデンスを、短い画像列（＝トラックレット（ｔｒａｃｋｌｅｔｓ））上での２次元リブ（四肢）位置の強固な推定として、蓄積することに成功する。最後の3段階において、３次元ポーズを高い信頼性で復元するために、これらのトリックレット・ベースの推定を、堅固な画像観察として使用する。

本発明はまた、本発明の方法のいずれかを実行するための画像処理プロセッサを有する集積回路を提供する。

（a）複数のカメラからの推定と（ｂ）バックグランド除去法への依存は、単純な背景を有するシーンや固定カメラへの適用を制限する。本発明の実施形態は、一個のカメラ（即ち単眼画像）からの３次元人物ポーズ推定の提供を可能とし、且つ、混雑したバックグランド、即ち、バックグランド除去法が可能ではないシーン、において移動カメラで作動させることが可能である。

本発明の実施形態は、既知の視点（例えば、側面）から見た人物の２次元ポーズを復元することに必ずしも限定されず、本発明に係る方法の実施形態は、任意の視点から見た人々のポーズを復元することが可能である。

３次元ポーズ推定は、２次元ポーズ推定よりもはるかに困難な問題であると認識され、且つ、単眼測定による３次元ポーズ推定は、些細な問題ではない。その困難性は、どの様な測定が利用可能であるか、その測定にどの程度の雑音があるかのような、多くの因子に依存している。制御不能な街路シーンの場合、測定は多くの雑音を含み、そして３次元ポーズ推定は困難である。

街路シーンにおける、本発明の一実施形態に係る３次元追跡結果を示す。（ａ）右、（ｂ）右後部、（ｃ）後部、（ｄ）左後部、（ｅ）左、（ｆ）左正面、（ｇ）正面、および（ｈ）右正面の、各視点に対する訓練サンプルを示す。本発明の一実施形態に係る、8視点分類器の校正出力を示す。（ａ）視点特定モデルと結合モデル間の比較、および（ｂ）"MultiviewPeople"データセット上の最先端技術に対する比較を示す。側面検出器［３］によって得られたサンプル検出（最上部）、多視点データセット上で訓練された一般的な検出器（中間）および、視点特定検出器の出力を線形ＳＶＭと組み合わせた本発明の一実施形態に係る検出器（下側）による、サンプル検出を示す。本発明の一実施形態に係る２次元追跡アルゴリズムによって見出された、単一フレーム（上）とトラックレットに基づく、人間検出を示す。異なるトラックレットが色によって識別され、推定された視点が２個の文字で示されている（下側）。最上段の行における数個の擬陽性（フォールス・ポジティブ）はフィルタリングされ、追加の往々にして部分的に遮蔽されている検出が、埋め込まれている（例えば、最も左側の画像の左側）ことに注意する必要がある。（ａ）は、本発明の一実施形態に係るモデルにおける３次元ポーズ表現を示し（パラメータ化された関節に矢印が付されている）、（ｂ）は、２次元−３次元リフト後の初期ポーズ列（上側）と、３次元ポーズ後の最適化後のポーズ列（下側）を示す。 “TUD Stadtmitte”データセット上（左）と、移動カメラ［１４］からの列上（右）での３次元ポーズ推定を示す。 “Subject S2/Camera C1”（上）および“Subject S2/Camera C２”（下）に対するHumanEva II上の３次元ポーズ推定事例を示す。本発明の任意の実施形態に係る処理システムを示す。本発明の任意の実施形態に係る方法のフローチャートを示す。

本発明を、特定の実施形態に関して幾つかの図面を参照して説明するが、本発明はそれらに限定されるものではなく、特許請求の範囲によってのみ限定される。記載された図面は、概略的且つ非限定的である。例示目的のために、図面では、要素の大きさは誇張されており、正しい尺度で描かれていない。 "含む"という用語は、本明細書および特許請求の範囲で使用される場合、それは他の要素やステップを排除するものではない。単数名詞に言及する時に不定冠詞または定冠詞が用いられる場合、他の何らかが特別に記載されていない限り、その名詞の複数形を含む。

特許請求の範囲で使用される "含む"という用語は、その後に記載される意味に限定されると解釈するべきでなく、他の要素やステップを排除しない。従って、表現“手段AとBを含むデバイス”の範囲は、構成要素AおよびBのみからなるデバイスに限定されることはない。これは、本発明に関して、そのデバイスの関連構成要素がAおよびBのみであることを意味する。

さらに、説明中および特許請求の範囲において、第１、第２、第３との用語は、類似の要素間を区別するために使用され、必ずしも順序または時間順を記述するためではない。そのように使用された用語は、適正な状況下で交換可能であること、および、此処に記載された発明の実施形態は、此処に記載され図示された順序以外での動作が可能であることを理解すべきである。

また、明細書および特許請求の範囲における用語“上部”、“下部”、“〜上”、“〜下”等は、説明目的のために使用されおり、必ずしも相対的な位置を記述するためではない。そのように使用された用語は適切な状況下で交換可能であり、此処に記載された本発明の実施形態は、此処に記載されまたは図示された以外の配置において動作可能であることを理解すべきである。

この明細書全体での"一実施形態"または "実施形態"への参照は、その実施形態に関係して記載されたある特性、構成または特徴が、少なくとも１個の本発明の実施形態に含まれていることを意味している。従って、この明細書全体の種々の場所での語句“一実施形態において”は、必ずしも全てが同じ実施形態を参照している必要はないが、そうであっても良い。さらに、その特性、構造または特徴は、当業者には明らかなように、一またはそれ以上の実施形態において、適切な方法で結合することが可能である。

同様に、本発明の例示的な実施形態の説明において、本発明の様々な特徴は、開示を簡潔化し一またはそれ以上の種々の発明態様の理解を助ける目的で、往々にして、単一の実施形態、図またはその説明にまとめられていることを理解すべきである。しかしながら、この開示方法は、請求項に係る発明が、各請求項に記載されたものよりも多くの構成要件を必要とするという意図を反映するものと解釈するべきではない。むしろ、請求の範囲において表すように、発明の態様は、開示された単一の実施形態の全ての特徴より少ない。したがって、発明の詳細な説明に続く請求の範囲は、各請求項それ自身で本発明の個別の実施形態として、発明の詳細な説明に組み込まれる。

さらに、此処に記載された幾つかの実施形態は、他の実施形態に含まれるその他の特徴ではない幾つかの特徴を含み、異なる実施形態の特徴の組み合わせは、本発明の範囲内であると意図され、当業者によって理解されるように異なる実施形態を形成する。例えば、以下の請求の範囲において、請求された実施形態の全ては如何なる組み合わせにおいても使用され得る。更に、実施形態の幾つかは、方法として、または、コンピュータシステムのプロセッサまたはその機能を実現する他の手段によって実行され得る方法の要素の組み合わせとして、此処に記載されている。このように、プロセッサは、この方法または方法の要素を実施するために必要な命令と共に、この方法または方法の要素を実行するための手段を形成する。さらに、装置の実施形態として此処に記載された要素は、本発明を実施するための要素によってなされる機能を実行するための手段の一例である。信号への言及は、あらゆる媒体における信号の任意の種類を包含することができ、従って、例えば、電気的、光学的または無線信号あるいはその他の信号を包含することができる。分析への言及は、材料に関する情報を導出するか、強化するために全ての方法で信号を処理することを包含することができる。プロセッサへの言及は、全ての形態の信号またはデータを処理するための任意の手段を包含することができ、そのため、例えば、パーソナルコンピュータ、マイクロプロセッサ、アナログ回路、特定用途向け集積回路、そのためのソフトウェアなどを包含することができる。

此処で提供される説明では、多数の具体的な詳細が記載されている。しかしながら、本発明の実施形態は、これらの具体的詳細がなくても実施できることを理解すべきである。他の事例では、周知の方法、構造および技術を詳細に示していないが、これは、この説明の理解を曖昧にしないためである。

３次元ポーズへの言及は、オブジェクトの可動部分の３次元構成を表し、身体の３次元位置および方向に限定されない。

検出による追跡への言及は、汎用または、適合オブジェクト検出器またはそれに類似のものをどの様な方法においても使用する、追跡アルゴリズムを包含することを意図している。幾つかの例では、オブジェクト検出器は、アルゴリズムのためのエビデンスモデルのコンポーネントのいずれかであり得る。

２次元ポーズから３次元ポーズへのリフトへの言及は、例えば画像の一部分である２次元データを３次元オブジェクトモデルに、全ての方法でフィッティングすることを包含するものと意図される。一事例の説明が、D. A. Forsyth, O. Arikan, L. Ikemoto, J. O’Brien, and D. Ramananによる、“Computational studies of human motion: Part 1, tracking and motion synthesis”、（Foundations and Trends in Computer Graphics and Vision, 1(2/3):77-254, July 2006）の要約およびセクション１．２に記載されている。

本発明は、全てのフレームにイメージエビデンスε_1:Mを与えて、長さMのフレーム列、即ちビデオ画像、の全てのフレームｍにおけるそれぞれの人物の３次元ポーズQｍを推定するための、方法および装置を提供する。

図９は、一実施形態に係る画像処理プロセッサ即ちプロセッサシステム１０を示す。図１０は、この実施形態または他の実施形態で実行されるステップを示す。画像プロセッサ即ちプロセッサシステム１０は、例えば、図示するそれぞれの部分に専用の回路ブロックであるハードウエアを有する１個またはそれ以上の集積回路として実現することが可能であり、あるいは、例えば、サーバ内でのように、汎用プロセッサによって順次実行されるソフトウエアモジュールとして実現することが可能である。図示する部分は、例えば単一フレームを提供する単眼カメラである画像ソース装置５から入力された、画像または画像ストリーム（例えば、リアルタイム又は非リアルタイムのビデオフレームなど）を受信するための入力インターフェース２０を含む。ビデオ列の画像やフレームを、多視点人物検出演算部４０で処理する。多視点人物検出演算部４０は、部分ベースの検出器４２、ポーズ推定器４４および多視点検出器４６を用いて、画像中の人物を決定する。演算部４０による操作の結果は、追跡および視点推定演算部５０に送信される。この部分５０は、以下に詳細に説明するように動作する、人物トラックレット抽出部５２を有している。さらに、３次元ポーズ推定演算部６０が、３次元ポーズを復元するために設けられている。画像プロセッサに対して、プロセッサのどの段階であっても、この図には示されていない他の部分がある。

ビデオデータの適切な処理を、例えば、移動オブジェクト例えば車両またはその運転者に関連する、主要オブジェクトの認識および報告のために使用することができる。興味あるオブジェクトは、任意の適切なオブジェクト、例えば、道路、歩行者、車両、障害物、交通信号灯等であり得る。ビデオデータの処理をリアルタイムで行うことができ、または、格納されたビデオデータ上で行うことができる。

したがって、本発明は、ナビゲーションシステムの強化のために使用することができる。あるいは、本発明の出力は、他のアルゴリズム、例えば歩行者検出アルゴリズムなどを訓練するために使用することができる。本発明の出力は、オブジェクト、例えば歩行者またはこれらのオブジェクトの動きを検知アするルゴリズムの精度を向上させるために、使用することができる。デバイス５５は、本発明の出力に基づいて、解釈しまたは行動をとるために設けられる。例えば、本発明を使用して画像中の歩行者のポーズを検出することを、アラームまたは警告の他の形体を作動させるため、または、ブレーキ等をかけるために用いることができる。これは、例えば、車両制御システム、ドライバー補助システム、ロボットシステム、侵入者を検出するための監視システム等で使用することができる。本発明は、自動車に限定されることはない。

図１０は、図９または他の実施形態の画像処理装置の操作におけるステップを示しており、その詳細を以下に説明する。

本発明に係る方法１００は、最初に、エビデンスを与えることによって、ポーズパラメータ上でポステリア分布が定義される。

ここで、Q_1:Mは、列全体にわたる３次元ポーズパラメータを表す。式１におけるポステリアが多くのローカルミニマ（局所最適解）を持つことを避けるため（理由：３次元ポーズの推定は、単眼画像によるため高度に曖昧である）に、本発明は、３次元ポーズ復元における曖昧性を連続して低減するための三段階アプローチを提案している。

観測尤度p（ε_1:M| Q_1:M）を定義するためには、３次元ポーズパラメータQmによって与えられた、各フレームにおけるエビデンスの条件付き独立性が存在する。この尤度は、このようにして単一フレーム尤度に因数分解される。

各フレーム内のエビデンスは、カメラに対する人物の２次元視点の推定および、２次元位置のポステリア分布および身体部分の向きによって表わされる。シングルフレームからこれらの信頼性を推定するために、ステップ１０２における第１段階４０では、差分的部分検出器４２に基づいて、部分ベース人物検出とステップ１０４の推定フレームワークを推進する。さらなる２次元画像エビデンスを蓄積するために、第２段階５０では、２次元検出による追跡アプローチ１０９を用いて連続した少しのフレームから人物トラックレットを抽出することによって、ステップ１０８において人物トラックレットを抽出することにより、追跡と視点推定ステップ１０６を実行する。第１段階４０の出力は、より強固な視点推定と同様により信頼性の高い人物の２次元検出を得るという視点において、精緻化される。次に第３段階６０において、３次元ポーズを復元するために、以前の２つの段階４０、５０において蓄積された画像エビデンスを使用する。

時間的事前知識P（Q_1:M）が、階層的ガウス過程潜在変数モデル（hGPLVM） [17]として、３次元ポーズに亘ってモデル化される。これは、隠れマルコフモデル（HMM）と組み合わされ、一度に少数のフレームのみしかカバーしない人物トラックレットをより長い３次元人物追跡に拡張することを可能とする。この３次元モデルは、２次元身体モデルからボトムアップのエビデンスを生成するものと推定され、それによってハイブリッドの生成／差分アプローチを構成していることに、注意すべきである。

本発明の実施形態において、人間のポーズ推定のための方法及び装置が提供され、これは、２次元の位置、ポーズおよび視点推定を、３次元運動事前知識を伴う３次元追跡のためのエビデンスモデルに結合し、そして、現実の街路環境において単眼画像から複数の人物の３次元ポーズを正確に推定することを可能とする。本発明の一態様は、３次元ポーズ推定を形成するブロック、例えば、複数部分ベースのモデルの組み合わせに基づいた歩行者検出手法である。複数部分ベースのモデルを組み合わせることで、大幅なパフォーマンスの向上につながり、検出における最先端レベルを向上させると共に、単眼画像における人物の視点の推定を可能とする。

単一フレームにおける多視点人物検出は、画像プロセッサ演算部４０およびステップ１０２において、本発明の一部分として実施される。２次元人物検出およびポーズ推定は、３次元ポーズ推定および追跡のためのモジュールの１つとして機能する。本発明は以下の利点の何れかを有することができる。

（１）２次元人物検出およびポーズ推定の使用は、３次元ポーズ推定および追跡のための強固な外観モデルを定義するために使用される。
（２）可能な３次元ポーズの検索スペースは、推察２次元ポーズを利用することで減少させることができる。
（３）人物を見ることができる視点は、２次元から３次元への本来的な不明確さを減少させるために、抽出することができる。

本発明の一観点によれば、人物のようなオブジェクトを表現するために図形構造（ピクトリアル構造）を使用することができる。図形構造は、N個の異なる部分Lm＝｛ｌ_m0，ｌ_m1，・・・，ｌ_mN｝の柔軟構成を含み、此処でｍは列の現在のフレームを意味する。部分ｉの状態は、Ｉ_mi＝｛ｘ_mi；ｙ_mi；θ_mi；ｓ_mi｝によって与えられ、此処でｘ_miおよびｙ_miはその画像位置、θ_miは絶対方向、およびｓ_miは部分基準（スケール）を意味する。単一フレーム画像エビデンスＤ_mによって与えられる２次元部分構造Ｌ_mのポステリア確率は、以下の式によって与えられる。

身体構造ｐ（Ｌ_m）の事前知識は、ツリー構造を有し、身体部分間の運動学的依存性を表す。これは、ルート部分（此処では胴体）に対する単項と、運動学的チェーンに沿った対項に因数分解される。

此処で、Ｋは、部分間の運動学的関係を示すエッジセットである。ｐ（ｌ_m0）は一定であると仮定され、そして対項は、隣接する部分間の関節の変形空間においてガウシアンであるとされている。尤度項は、個々の部分尤度の積に因数分解すると仮定されている。

部分尤度を定義するために、［３］に開示されているように、強化部分検出器を使用することができ、この検出器は、ＡｄａＢｏｏｓｔｂ分類器［１２］の短出力および高精度形状コンテクスト表現［５，１８］を使用する。本発明の一実施形態では、数個の部分、例えば８個の身体部分で構成されるモデルが使用される。これらの部分は、左／右下部および上部脚、胴体、頭部、左／右上部および下部腕である（さらに、側面検出器は同様に、左／右足を、性能をより向上させるために用いることができる）。複雑な現実世界のシーンにおける優れた性能はさておき、図形構造モデルは、モデルのツリー構造に基づいて推測が最適であり且つ効率的である、との利点を有している。合計積信念伝搬を、個々の身体部分の限界ポステリアを計算するために使用する。この限界ポステリアは、コンボルーションを使用することによって、効率的に計算することができる。

多視点設定に対する検出器［３］の適切性を評価するために、１４８６画像のデータセットが訓練のために収集され、２４８個が検証のために、さらに２４８個がテストのために収集された。充分に多くの人物が全ての視点から可視であるように、これらは慎重に選択された。人物の境界ボックスに加えて、データセットにおいて全ての人物の視点に注釈が付けられる。これは、数個の均等に間隔をおいた、例えば８個の均等に間隔をおいた視点、それぞれが互いに４５°離れた視点（前／後、左／右および対角前／後左／右）を仮定することによって行われる。図２は、訓練セットからの例示画像を示し、各視点に対して１個の例示画像を示している。予期され且つ図４（ａ）に示されているように、［３］に示す側面上で訓練された検出器は、我々の多視点データセット上で、控え目な性能レベルのみを示す。多視点訓練セットでモデルを再訓練することによって、かなりの性能向上が達成されるが、モノリシックで差分的ＨＯＧベースの検出器［３０］または部分によるＨＯＣベースの検出器［９］の性能レベルが得られる（図４（ｂ）参照）。しかしながら、我々は人物の検出を必要とするのみならず、さらにそれらの２次元ポーズを推定する必要があるので、このようなモノリシックまたは粗い部分ベースの検出器は、このタスクに対しては適切ではない。

この欠点に対処するために、本発明の一実施形態は、拡大多視点検出器４０を提供し、これは、検出器４６における視点検出と同様に部分４４において２次元ポーズ推定を可能とする。例えば８個の視点特定検出器４６は、視点注釈付きの多視点データを用いて訓練される。これらの視点特定検出器４６は、それらの運動学的事前知識がそれぞれの視点に対して特定であるという利点のみならず、部分検出器がそれぞれの視点に対して調整されるという利点を有する。さらに、この検出器セットは、［３］のように追加的に足を含む２個の側面検出器（性能を向上させる）と同様に、全ての視点に対して訓練された１個の汎用検出器によって、任意に増加させることができる。本発明の２つの実施形態は、検出器のこのバンクの出力を結合するための方法を提供する。

（１）異なる検出器によって決定されるように、特定の画像位置にある人物のログポステリアを加算する。
（２）線形ＳＶＭ（サポートベクタマシン）を、平均／分散正規化ベクトル出力の１１次元ベクトルを特徴として用いて、訓練する。ＳＶＭベクトルは２４８画像の検証セット上で訓練された。

図４（ａ）は、視点特定検出器４６の単純な加算的結合が、各個々の視点特定検出器からの検出性能よりも向上したことを示している。同様に、それは、［３］からのアプローチよりも性能が優れている。興味深いことに、ＳＶＭベースの検出器は、性能を向上させるばかりではなく、多視点人物検出［９，３０］における最先端レベルを凌いでいる。図４（ｂ）に示すように、検出器のバンクが［３０］からのＨｏＧベース検出器によって拡張された場合、その性能はより向上する。図４（ｃ）の幾つかの検出事例は、視点特定検出器を結合することの利点を明示している。

次のステップは、ステップ１０５で、視点検出器４６を用いて人物の視点を推定することである。なぜなら、このような視点推定は、３次元ポーズにおける不明確性を大きく減少させることができるから。上記の視点特定検出器４６のバンクが使用され、そして多くの、例えば８個の視点分類器４８、線形ＳＶＭが、検証セットの検出器出力上で訓練される。２個の訓練および評価戦略が本発明の範囲内に含まれる。

１）（ＳＶＭ）一視点からの訓練事例が陽性（ポジティブ）の事例として使用され、その他は陰性（ネガティブ）事例として使用される。
２）（ＳＶＭ−ａｄｊ）此処では、視点が例えば隣接する３個の組にグループ化され、且つ個別の分類器４８がこのような３個の組のそれぞれに対して訓練されている。

ベースラインアプローチ（Ｍａｘ）として、８個の視点特定検出器の出力上で最大値を取ることにより、ステップ１０５において視点が推定される。表１にその結果を示す。ＳＶＭ実施形態は、視点の正確な認識が要求される場合、ベースラインよりも約１１％向上させるが、ＳＶＭ−ａｄｊ実施形態も良い結果を生じる。さらに、２個の隣接する視点は正しいものとして考えられ、ＳＶＭは７０：０％の平均性能を獲得し、ＳＶＭ−ａｄｊは７６：２％の平均性能を獲得する。これは、ＳＶＭ−ａｄｊが複数の視点に亘ってより優雅に低下することを示しており、これが、ＳＶＭ−ａｄｊが好ましい実施形態である理由であって、以降に説明される。視点分類器４８のスコアは互いに直接比較可能ではないので、分類器スコアが与えられた場合、正確なラベルのポステリアを計算することによって校正され、これによってスコアは単位間隔にマップされる。ポステリアは、ポジティブおよびネガティブ事例での分類器スコアの分布から、Ｂａｙｅｓのルールを介して計算される。これらの分布はガウシアンであると推定され、且つ、それらのパラメータは、検証セット上の分類器スコアから推定される。図３は、人物が最初に“右”、そしてその後“右後方”視点から現れる４０フレーム列に対して計算された、８個全ての分類器４８の校正出力を示している。正確な視点は、列の殆どに対して最もありそうなものであり、そして推定における失敗は、往々にして隣接する視点に相当する。

本発明の方法および装置は、２次元−３次元リフト時の不明確性を可能な限り減少させるために、第３の３次元追跡段階６０に先立って、全ての利用可能な２次元画像エビデンスを累積することを目指している。以前のセクションにおいて記載されている人物検出器段階４０が、身体部分の２次元位置および単一フレームからの人物の視点を推定することが可能である一方で、第２段階５０は、ステップ１０９における検出による２次元追跡［２，３１］によって、これらの推定を向上させることを目指している。２次元にすでに存在する時間的な一貫性（時間的コヒーレンス性）を十分に利用するために、ステップ１０８において、人物の短いトラックレットをトラックレット抽出機５２を用いて抽出する。一方で、これは、各人物の２次元位置、スケールおよび視点推定の強固さを向上させる。なぜなら、それらは、トラックレット全体にわたって結合して推定されるためである。身体局在化の向上は次に、２次元ポーズ推定を支援する。一方、これは早期のデータ結合の実行を可能とする。これは、複数の人物を有する列に対して重要である。そこでは、“匿名の”単一フレーム仮説を特定の人物のトラックに関連付けることが可能である。

第１段階４０からおよびこの方法のステップ１０２から、Ｎｍ個の潜在的に重畳する境界ボックス仮説のセット、

が列の各フレームｍに対して獲得され、此処で各仮説ｈｍｉ＝ｆｈｘｍｉ；ｈｙｍｉ；ｈｓｍｉｇは特定の画像位置およびスケールにおける境界ボックスに対応している。トラックレットセットを獲得するために、適切な追跡アルゴリズム、例えば、［２］の特にセクション３．３に紹介されているＨＭＭベースの追跡手順、が使用され、この文献は参照によって組み込まれる。各フレームにおける人物仮説は状態として処理され、そしてビタビ（Ｖｉｔｅｒｂｉ）復号を適用することによって、位置、スケールおよび外観に一致する状態部分列が見出される。各状態に対する放出確率が検出スコアから導出される。状態ｈｍｉとｈｍ＿１：ｊ間の遷移確率は、１次ガウシアン動力学および外観互換性を使用してモデル化される。

此処で、Σ_pos＝ｄｉａｇ（σ_x ²、σ_y ²、σ_s ²）およびｄ_app（ｈ_mi｜ｈ_{m_1:j}）は、各仮説の外接矩形に対して計算されたＲＧＢ色ヒストグラム間のユークリッド距離である。例えば、σ_x＝σ_y＝５、σ_s＝０：１およびσ_app＝０：０５である。

トラックレットのそれぞれに対して、視点数列ω_1:N＝（ω₁、・・・、ω_N）が、例えば、単純なＨＭＭおよびビタビ復号または類似のアルゴリズムを再度使用することによって、推定される。８個の離散視点が、状態と見なされ、視点分類が単項エビデンスと見なされ、そしてガウシアン遷移確率は、人物はゆっくり回転する傾向があることを反映させるために、類似の後続の視点を強化するものと仮定される。

図５は、短い部分数列の例を示し、この数列では、抽出トラックレットを有する単一フレーム２次元検出器の検出結果間での比較が行われる。正確な２次元から３次元へのリフトを隠してしまうであろう背景におけるスプリアス偽陽性検出を、追跡がどの様にして取り除き、スケール推定における失敗を訂正するのかに注意すべきである。図５上のインデックス２２の人物に対応するトラックレットに対するそれぞれの視点に対して、単一フレーム検出スコアが図３に示されている。単一フレームからの視点推定がかなり強固であっても、それは複数の時間（フレーム４から３０に対して正確な視点は“右”であり、フレーム３１から４０に対しては“右後部”である）において失敗する可能性のあることに注意すべきである。トラックレットベースの視点推定は反対に、全４０フレーム列に対して正確な視点を与える。最後に、図５に示すように、頻繁な全あるいは部分的オクル−ジョンを伴う現実的な列の場合であっても、トラックレットは同様にデータ連合を提供する。

演算部６０を使用する方法ステップ１１０において、先ず以前の段階において抽出された２次元トラックレットを採用することによって、３次元におけるポーズが推定され且つ追跡され、そしてステップ１１２で、各フレームで推定された２次元ポーズが３次元にリフトされる（［２５］参照）が、ステップ１１２は好ましくは３次元事例セットの支援によって実行される［１９，２２］。事例の投影は、まず２次元身体部分ポステリアのもとで評価され、そして最も可能性の高い事例が、初期３次元ポーズとして選択される。この初期ポーズは、事例セット上の既知の時間的秩序を使用してトラックレットの全てのフレームに伝搬される。これは、３次元ポーズ推定に対して複数の初期値を与えること、即ち、トラックレットの各フレームに対して１個、に注意すべきである。このステップ１１２における２次元から３次元へのリフティング手順は、強固である。なぜなら、それは信頼性の高い２次元ポステリアおよび２次元トラックレットからの検出および視点推定に基づいているからである。これらの初期ポーズ列から開始して、実際のポーズ推定および追跡は、式（１）に定義されるポステリアを最大化することによって、ベイジアンフレームワークにおいて行われる。式（１）に対して、それらは強力な初期値として作用する。３次元ポーズは、Ｑ_m＝｛ｑ_m，φ_m、ｈ_m｝としてパラメータ化され、ここでｑ_mは身体関節のパラメータを示し、φ_mは世界座標における身体の回転を示し、ｈ_m＝｛ｈ_m ^x；ｈ_m ^y；ｈ_m ^scale｝は、画像に投影された人物の位置およびスケールを示す。３次元ポーズは、Ｐ＝１０の柔軟関節を有する運動学的ツリーを使用して表現され、ここで各関節は自由度２を有している。図６（ａ）に構成例を示す。フレームｍでのエビデンスは、ε_m＝｛Ｄ_m、ω_m｝で与えられ、単一フレーム画像エビデンスＤ_mとトラックレット全体から得られた２次元視点推定ω_mとを含んでいる。２次元視点の条件付き独立性と画像エビデンスが３次元ポーズを与えると仮定すると、式２の単一フレーム尤度は以下の式に因数分解される。

推定２次元視点！ｍに基づいて、３次元視点ωの視点尤度は、ｙ軸に沿った回転成分φ_mを中心とするガウシアンとしてモデル化される。

３次元ポーズｐ（Ｄ_m｜Ｑ_m）の尤度は以下の２Ｄ身体モデルによって与えられる部分ポステリアの支援によって定義される。

此処で、ｐｒｏｊ_n（Ｑ_m）は、ｎ番目の３次元身体部分の画像への投影を示す。このような３次元尤度は、通常、式５と同じように、個々の部分尤度の積として定義されるが、これは高度に多様なポステリアと困難な推定へと導く。その代わりに２次元ポステリアに依存することによって、その３次元モデルは、以前の段階からの十分な２次元画像エビデンスが存在する仮説に焦点を当てる。過度の３次元尤度計算を避けるために、各２次元部分ポステリアは、好ましくは、非パラメータ表現（助変数表示）を使用して表現される。特に、フレームｍ中の各身体部分ｎに対して、ｊ個の場所が最も高いポステリア確率

を有して見出される。この確率は、２次元の場所（画像位置および方向）に対応し、ｗ^j _nmは、その場所のポステリア密度に対応する。２次元部分ポステリアは、ガウス核ｋを有する核密度推定として近似されると仮定する。

式１における時間的事前知識は、２つの項の積として表現される。

これは、画像位置およびスケールと同様に、３次元ポーズのパラメータ上の事前知識に相当する。人物の位置およびスケールｐ（ｈ_1:M）の事前知識は、広いガウシアンとして取得され、そしてモデルは人物のスケールおよび画像中のその位置の両者についてスムーズに変化する。３次元ポーズｑ_1:Mのパラメータ上の事前知識は、階層的ガウシアンプロセス潜在変数モデル（ｈＧＰＬＶＭ［１７］または同様のもの）によってモデル化される。全フレームを通じたｉ番目のポーズパラメータの値のＭ次元ベクトルは、ｑ_1;M,iとして示される。ｈＧＰＬＶＭにおいて、オリジナルの高次元ポーズのそれぞれの次元は、共通低次元潜在空間Ｚ_1:M上で定義された独立ガウシアンプロセスとしてモデル化される。

此処で、Ｐは我々のポーズ表現におけるパラメータ数であり、Ｋ_zは、共分散関数ｋ（ｚ_i，ｚ_j）の出力によって定義される共通潜在空間Ｚ_1:Mの要素の共分散マトリックスである。この共分散関数は、この場合、２乗指数関数が取られている。共通潜在空間Ｚ_1:Mの値は、それ自身で時間Ｔ_1:Mの１次元入力を有するガウシアンプロセスの出力として扱われる。その実現には、例えば、ｄ₁＝２次元の共通潜在空間を使用する。このようなガウシアンプロセスの階層性によって、オリジナルの入力空間の異なる次元とそれらの動力学との間の両方の相互関係を効率的にモデル化することが可能となる。

ｈＧＰＬＶＭ事前知識は、２セットの補助変数Ｚ_1:MとＴ_1:Mを必要とし、これらは事後推定を最大化する間に扱われる必要がある。本発明の一実施形態はＺのみを最適化し、そしてＴの値を固定したままとする。これは、Ｔの値がほぼ２次元トラックレットを使用して容易に推定できる歩行周期内の人物の状態に相当するので、可能である。最大化された３次元ポーズパラメータ上での全ポステリアは、以下の式によって与えられる。

ポステリアは、スケーリングされた共役勾配を使用しそしてリフトされた３次元ポーズを使用する最適化を初期化することによって、最適化される。

より長い列に対する３次元ポーズ推定のために、別のモデルを使用することができる。より長い列において３次元ポーズを推定するために、先ず、より長い列の短い（Ｍ＝１０）重畳サブ列において、３次元ポーズが推定される。それぞれのサブ列に対して、ポステリア多重時間が初期化され局所的に最適化されるので、フレームのそれぞれに対して３次元ポーズ仮説の大きなプールが残され、そこから、適切なアルゴリズム、例えば隠れマルコフモデルおよびビタビ複合を用いて、最適列を見出すことができる。３次元ポーズ仮説は、各フレームにおいて、式６によって与えられる放出確率を有する不連続状態として扱われ、ｈＧＰＬＶＭを使用して状態間の遷移確率を定義する。

上記のモデルは、２個の多様性のあるシナリオにおいて評価された。その結果は、本発明の方法が、地上での正しいポーズを得ることが可能な、標準の“ＨｕｍａｎＥｖａＩＩ”ベンチマーク上で、単眼の人間ポーズ推定における最高水準を向上させていることが示された。さらに、本発明は、部分的および全オクル−ジョンを含む複数の人物を備える、２つの混雑し且つ複雑な街路列上で評価された。

３次元ポーズ推定方法の性能を定量的に評価するために、“ＨｕｍａｎＥｖａＩＩ”データセットを使用した。“ＨｕｍａｎＥｖａＩＩ”データセット［２３］は、同期された画像とモーションキャプチャデータを提供し、そして、２次元および３次元の人間ポーズ推定のための標準の評価ベンチマークである。このデータセット上で、背景サブトラクションを行わないがしかし外観と時間的情報の両者に依存している、単眼画像列におけるポーズを推定する方法に対して、比較がなされる。この実験のために、視点特定モデルが、“ＨｕｍａｎＥｖａＩＩ”データセットからのサブジェクト “Ｓ１”、“Ｓ２”、“Ｓ３”の画像上で訓練された。より多くの訓練データを追加することによって、特に下および上腕部身体部分に対する、部分検出器の性能を向上させることができる。したがって、訓練データは、“Ｐｅｏｐｌｅ”［２０］および“Ｂｕｆｆｙ”［１０］データセットからの画像と共に拡張される。２次元から３次元リフトおよびポーズ列上での時間的力学をモデル化するために使用されるｈＧＰＬＶＭの事例セットは、“ＨｕｍａｎＥｖａＩＩ”データセットのサブジェクト“Ｓ３”に対しての訓練データを使用することによって、得られた。限られた数の訓練データにも拘わらず、この事前知識は、“ＨｕｍａｎＥｖａＩＩ”データセットと同様、現実の街路シーンにおいてポーズ推定を可能とする。表２は、公式オンライン評価ツールを用いて得られた、２次元および３次元接合位置における平均誤差を示している。

両方の列に対して、その結果は［２１］によって報告されているものよりも大きく向上した。その向上は、カメラ“Ｃ２”で撮られた列に対して特に大きく、１４．１８ピクセルと比較して、１０．７２ピクセルの平均誤差が得られている。本発明の３次元ポーズ推定では、カメラ“Ｃ１”および“Ｃ２”に対して、１０７と１０１ｍｍの平均誤差が得られる。図８は、１００番目毎のフレームを可視化した、両方の列上で本発明の方法によって得られた数個の推定ポーズ事例を示している。本発明に係る方法の位置特定のより良い精度は、個別事例セットから選択するよりもむしろ、身体部分に与えられた３次元ポーズの連続した最適化に依存している。

現実の街路設定に対して本発明を評価するために、典型的な歩行者エリアにおいて取られた２００の連続するフレームを含む、新規な“ＴＵＤＳｔａｄｔｍｉｔｔｅ”データセットが使用された。この列の２００フレームに亘って、本発明の実施形態の２次元追跡アルゴリズムは、２５の２次元人物追跡を獲得し、そのいずれも偽陽性検出を含んでいなかった。図７（左側）は、列全体を通して均一に配置された例示画像を示している。それぞれのトラックに対して、本発明の視点分類アルゴリズムのみを使用して人物の視点推定が行われる。人物の動きの方向は、その推定に統合される。３次元ポーズの推定は、奥行きにおいて相当の不明確性と困難な造影条件を有する視点を含む、様々な視点上で正確である。例えば、図７（ａ）の画像の右側の人物および図７（ｈ）の画像の中央の人物に注意するべきである。運動事前知識（モーションプライオア）は、異なるセット、“ＨｕｍａｎＥｖａ”データセット、上で訓練され、それにも拘わらず、それは街路設定に対して良く汎用化された。図７（ｃ、ｆ、ｇ）に示すように、静かに立っている人物のポーズ推定も同様に正確であった。

数個の不正確な推定ポーズは、図７（ａ）に示すような不正確なスケール推定、図７（ｂ、ｆ）に示す部分的オクルージョンあるいは視点推定における失敗（例えば、図７（ｈ）の最も右側の人物）に基づいている。本発明は、さらに、移動カメラによって記録された列上で評価された。大きな背景雑音、低いフレーム速度および正面像近辺における多数の人物に原因して、この列は３次元ポーズ推定に対して大きな困難を提示する。推定３次元ポーズの幾つかの事例を、図７（右側）に示す。このような困難な条件下であっても、本発明は、多数のフレームに亘って人物、例えば図７（ｉ，ｊ）の最も右側の人物、のポーズを追跡し推定することができる。さらに、追跡および視点推定は、強い背景雑音の存在下であっても、例えば図７（ｄ，ｅ）におけるもっとも右側の人物に対して、正確な結果を生成したことに注意すべきである。

以下の参考文献は、参照によって組み込まれる。

[1] A. Agarwal and B. Triggs. Recovering 3D human pose from monocular images. PAMI, 28(1):44-58, 2006.
[2] M. Andriluka, S. Roth, and B. Schiele. People-tracking-by-detection and people-detection-by-tracking. In CVPR-08.
[3] M. Andriluka, S. Roth, and B. Schiele. Pictorial structures revisited: People detection and articulated pose estimation. In CVPR-09.
[4] A. Balan, L. Sigal, M. Black, J. Davis, and H. Haussecker. Detailed human shape and pose from images. In CVPR-07.
[5] S. Belongie, J. Malik, and J. Puzicha. Shape context: A new descriptor for shape matching and object recognition. In NIPS*00.
[6] J. Deutscher and I. Reid. Articulated body motion capture by stochastic search. IJCV, 61:185-205, Feb. 2005.
[7] M. Eichner and V. Ferrari. Better appearance models for pictorial structures. In BMVC-09.
[8] P. F. Felzenszwalb and D. P. Huttenlocher. Pictorial structures for object recognition. IJCV, 61:55-79, Jan. 2005.
[9] P. F. Felzenszwalb, D. McAllester, and D. Ramanan. A discriminatively trained, multiscale, deformable part model. In CVPR-08.
[10] V. Ferrari, M. Marin, and A. Zisserman. Progressive search space reduction for human pose estimation. In CVPR-08.
[11] A. Fossati, M. Dimitrijevic, V. Lepetit, and P. Fua. Bridging the gap between detection and tracking for 3D monocular video-based motion capture. In CVPR-07.
[12] Y. Freund and R. Schapire. A decision-theoretic generalization ofon-line learning and an application to boosting. J. of Comp. and Sys.Sc., 55(1):119-139, 1997.
[13] J. Gall, B. Rosenhahn, T. Brox, and H.-P. Seidel. Optimization and filtering for human motion capture: A multi-layer framework. IJCV,87(1-2), Mar. 2010.
[14] S. Gammeter, A. Ess, T. Jaeggli, K. Schindler, B. Leibe, and L. Gool.Articulated multi-body tracking under egomotion. In ECCV-08.
[15] N. Hasler, B. Rosenhahn, T. Thormaehlen, M. Wand, and H.-P. Seidel. Markerless motion capture with unsynchronized moving cameras. In CVPR-09.
[16] C. Ionescu, L. Bo, and C. Sminchisescu. Structural SVM for visual localization and continuous state estimation. In ICCV-09.
[17] N. D. Lawrence and A. J. Moore. Hierarchical Gaussian process latent variable models. In ICML-07.
[18] K. Mikolajczyk and C. Schmid. A performance evaluation of local descriptors. PAMI, 27(10):1615-1630, 2005.
[19] G. Mori and J. Malik. Recovering 3D human body configurations using shape contexts. PAMI, 28(7):1052-1062, 2006.
[20] D. Ramanan. Learning to parse images of articulated objects. InNIPS*06.
[21] G. Rogez, J. Rihan, S. Ramalingam, C. Orrite, and P. H. Torr. Randomized trees for human pose detection. In CVPR-08.
[22] G. Shakhnarovich, P. A. Viola, and T. Darrell. Fast pose estimation with parameter-sensitive hashing. In ICCV-03.
[23] L. Sigal and M. Black. HumanEva: Synchronized video and motion capture dataset for evaluation of articulated human motion. Technical report, Brown University, 2006.
[24] L. Sigal and M. J. Black. Measure locally, reason globally: Occlusion-sensitive articulated pose estimation. In CVPR-06.
[25] L. Sigal and M. J. Black. Predicting 3D people from 2D pictures. In AMDO 2006.
[26] Z. Tu, X. Chen, A. L. Yuille, and S.-C. Zhu. Image parsing: Unifying segmentation, detection, and recognition. IJCV, 63(2):113-140,2005.
[27] R. Urtasun and T. Darrell. Local probabilistic regression for activity independent human pose inference. In ICCV-09.
[28] R. Urtasun, D. J. Fleet, and P. Fua. 3D people tracking with Gaussian process dynamical models. In CVPR-06.
[29] M. Vondrak, L. Sigal, and O. C. Jenkins. Physical simulation for probabilistic motion tracking. In CVPR-08.
[30] C. Wojek, S. Walk, and B. Schiele. Multi-cue onboard pedestrian detection. In CVPR-09.
[31] B. Wu and R. Nevatia. Detection and tracking of multiple, partially occluded humans by Bayesian combination of edgelet based part detectors. IJCV, 75:247-266, Nov. 2007.

Claims

単眼画像列中の複数のオブジェクトそれぞれの３次元ポーズを検出し追跡するための画像プロセッサ（１０）において、前記３次元ポーズは前記オブジェクトの可動部分の３次元構成を示し、前記画像プロセッサは、
１個の画像中の複数のオブジェクトそれぞれのポーズを推定するための、１個またはそれ以上の２次元ポーズ検出器（４４）と、
２次元ポーズ検出器の出力を受信し且つ検出による２次元追跡に適用するように適応された２次元追跡および視点推定演算部（５０）であって、前記２次元追跡は時間的コヒーレンス性を利用するものである、２次元追跡および視点推定演算部（５０）と、および
前記２次元追跡および視点推定演算部の出力から画像列における複数のオブジェクトの３次元ポーズを推定し且つ追跡するための、３次元ポーズ推定演算部（６０）と、を備え、
前記画像プロセッサは更に、
前記画像中の複数のオブジェクトそれぞれの視点を推定するための、２次元視点検出器（４６）を備え、さらに
前記２次元追跡および視点推定演算部（５０）は更に前記２次元視点検出器の出力を受信し、２次元視点検出器の出力を少なくとも向上させるように適応されており、前記２次元追跡および視点推定演算部（５０）は視点追跡のために検出による２次元追跡を使用し、
前記３次元ポーズ推定演算部は、前記２次元追跡および視点推定演算部の出力に依存して３次元ポーズ画像を復元するために２次元ポーズを３次元ポーズへリフトするように適応されていることを特徴とする、画像プロセッサ。
請求項１に記載の画像プロセッサにおいて、さらに、２次元ポーズ検出器に供給するために複数のオブジェクトの部分を検出するための、１個またはそれ以上の部分ベース検出器（４２）を備える、画像プロセッサ。
請求項２に記載の画像プロセッサにおいて、前記１個またはそれ以上の部分ベース検出器は、前記オブジェクトの図形構造モデルを利用し、及び／または、前記１個またはそれ以上の部分ベース検出器は視点特定検出器である、画像プロセッサ。
請求項２または３に記載の画像プロセッサにおいて、さらにSVM検出器を備え、前記１個またはそれ以上の部分ベース検出器の出力は前記SVM検出器に供給され、またはさらに分類器（４８）を備え、前記１個またはそれ以上の部分ベース検出器の出力は前記分類器に供給される、画像プロセッサ。
請求項１〜４の何れか１項に記載の画像プロセッサにおいて、２次元追跡および視点推定演算部は、トラックレット抽出器（５２）を備える、画像プロセッサ。
請求項５に記載の画像プロセッサにおいて、さらに、前記トラックレット抽出器から得られた各トラックレットの視点の列を推定するための、視点推定器を備える、画像プロセッサ。
単眼画像列中の複数のオブジェクトそれぞれの３次元ポーズを検出するために画像プロセッサを使用する方法において、３次元ポーズはオブジェクトの可動部分の３次元構成を表し、前記方法は、
１個の画像中の複数のオブジェクトそれぞれの２次元ポーズを推定し（１０４）、
検出による２次元追跡を、前記推定された２次元ポーズに適用し（１０９）、前記２次元追跡は時間的コヒーレンス性を利用するものであり、さらに、
前記検出による２次元追跡および視点推定の出力を用いて、前記複数のオブジェクトそれぞれの３次元ポーズを推定（１１０）し、前記推定は、２次元追跡および視点推定演算部の出力に依存することにより３次元ポーズ画像を復元するために２次元ポーズを３次元ポーズへリフトするように適応されている、各ステップを備え、
前記方法は更に、
前記画像中の複数のオブジェクトそれぞれの２次元視点を推定（１０５）するステップを備え、前記検出による２次元追跡（１０９）は、前記推定された２次元視点を少なくとも向上させるために前記推定２次元視点に適用される、方法。
請求項７に記載の方法において、前記２次元ポーズの推定は前記画像中の複数のオブジェクトそれぞれの部分を検出することを含む、方法。
請求項７に記載の方法において、前記複数のオブジェクトの部分を検出することは、前記複数のオブジェクトそれぞれの図形構造モデルを利用し、及び／又は、前記複数のオブジェクトの部分を検出することは、視点特定的である、方法。
請求項７または９に記載の方法において、前記部分ベース検出ステップの後に分類ステップが続く、方法。
請求項７〜１０の何れか１項に記載の方法において、前記２次元追跡および視点の推定は、前記画像からトラックレットを抽出するステップ（１０８）を含む、方法。
請求項１１に記載の方法において、さらに、各トラックレットの視点を推定するステップを含む、方法。
請求項７〜１２の何れか１項に記載の方法において、前記３次元ポーズ推定は、２次元ポーズを３次元ポーズにリフトするステップ（１１２）を含む、方法。
コンピュータ可読媒体上のプログラムであって、コンピュータによって実行された場合に前記コンピュータに請求項７〜１３の何れか１項に記載の方法を実行させる命令を有する、プログラム。