JP5848341B2 - 単眼3次元ポーズ推定および検出による追跡 - Google Patents

単眼3次元ポーズ推定および検出による追跡 Download PDF

Info

Publication number
JP5848341B2
JP5848341B2 JP2013513717A JP2013513717A JP5848341B2 JP 5848341 B2 JP5848341 B2 JP 5848341B2 JP 2013513717 A JP2013513717 A JP 2013513717A JP 2013513717 A JP2013513717 A JP 2013513717A JP 5848341 B2 JP5848341 B2 JP 5848341B2
Authority
JP
Japan
Prior art keywords
dimensional
pose
viewpoint
tracking
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013513717A
Other languages
English (en)
Other versions
JP2013529801A (ja
Inventor
オスメゾウリ ガブリエル
オスメゾウリ ガブリエル
一郎 阪田
一郎 阪田
シーレ ベルント
シーレ ベルント
アンドリルカ ミカイロ
アンドリルカ ミカイロ
ロト シュテファン
ロト シュテファン
Original Assignee
トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム
トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム
テヒニシェ ウニベルジテート ダルムシュタット
テヒニシェ ウニベルジテート ダルムシュタット
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム, トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム, テヒニシェ ウニベルジテート ダルムシュタット, テヒニシェ ウニベルジテート ダルムシュタット filed Critical トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム
Publication of JP2013529801A publication Critical patent/JP2013529801A/ja
Application granted granted Critical
Publication of JP5848341B2 publication Critical patent/JP5848341B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本発明は、人間、例えば人間の姿勢(ポーズ)のような目標(オブジェクト)を検出するための画像処理装置および方法に関し、さらに、このような方法を実行する対応するコンピュータプログラムに関し、さらにこのコンピュータプログラムを格納するメモリデバイスに関し、さらに対応する集積回路に関する。
単眼画像列(シーケンス)から3次元で人間の姿勢を自動復元することは、映像インデクシング、自動車の安全性、および監視を含む多数のアプリケーションにとって困難でしかも重要なトピックである。現在の方法では、制御された環境内の一人の人間に対して3次元ポーズを復元することができるが、これらの方法は、単眼の移動可能なカメラを使用する、混雑した街路シーン、例えば乱雑なシーンにおける複数の人間、のような実世界のシナリオによって深刻な挑戦を受けている。
おそらく多関節3次元追跡で最も重要な課題は、単眼のイメージエビデンス(痕跡)からの3次元ポーズにおける本質的な曖昧性である。これは、長時間、頻繁に部分的あるいは完全に遮蔽された複数の人間を含む、混雑した実世界シナリオにおいて、特にそのとおりである。2次元ポーズ復元であっても、別の重要な課題として、人間の関節や外観の複雑さがある。さらに、リアルなシーンの複雑で動的に変化する背景は、複数のフレームに亘るデータの関連付けを複雑にする。しながら、これらの課題の多くは個々に対処されてはいるが、単眼の移動可能なカメラを使用して、それらすべてに同時に対処することは達成されていない。
信頼性の高い3次元ポーズ推定の困難さ故に、このタスクは、多くの場合、シルエットやエッジマップのようなバックグラウンド除去法および単純なイメージエビデンス法に依存したソリューションを伴う、管理された実験室設定で検討されて来た。これらのアプローチは、高次元ポーズ空間での検索を強要するために、多くの場合、複数の校正済みカメラ、複雑な動的運動事前知識(priors)、または詳細な人体モデルを使用する。その組み合わせは、商業的マーカーベースのモーションキャプチャシステムの性能においてと同様に、目覚ましい結果を達成している。しかしながら、現実的な街路シーンは、これらのシステムによって為された仮定の多くを満たしていない。同期した複数のビデオストリームを得ることが困難であるようなシーンでは、人の外観ははるかに複雑であり、頻繁に発生する完全および部分的遮蔽(オクルージョン)、混雑、およびカメラモーションによって、エビデンスをしっかり抽出することが難しい。これらの課題に対処するためには、多くの方法が人間の検出手法における最近の進歩を活用し、さらに、事前フィルタと初期化に対する検出を使用するか、または、1つの“検出による追跡(トラッキング・バイ・ディテクション)”フレームワーク内で検出、追跡およびポーズ推定を統合している。
2次元の身体部分位置から3次元ポーズを推定することが、既に提案されている。しかしながらこのアプローチは、一人の被験者に対して実験室条件でのみ評価され、複数の人間を伴うより複雑な設定に如何にうまく一般化されても、不明確なままとなる。回帰、分類、または事例データベース上で検索を使用して、画像の特徴から直接3次元ポーズ予測を行うことについて、多くの研究がなされている。これらの方法は、一般に、良好なパフォーマンスを達成するためには訓練事例の大規模なデータベースを必要とし、これは、現実的な設定では、人間の外観の大きなばらつき故に困難である。
Andriluka M 等による“People-tracking-by-detection and people-detection-by-tracking” (Computer Vision and Pattern Recognition 2008, CVPR 2008 ISBN: 978-1-4244-2242-5 978-1-4244-2242-5)によって、画像中のオブジェクトのポーズを推定しそして検出による2次元追跡を適用するための2次元ポーズ検出器を有する、画像プロセッサを提供することが知られている。
本発明は、特許請求の範囲に記載された方法および装置を提供する。本発明の幾つかの実施形態では、単眼可動カメラを用いて獲得された現実的な街路条件における人物のポーズを復元することが可能な、単眼3次元ポーズ推定および追跡が提供される。本発明の実施形態では、3段階のプロセスを提供する。本発明は上記の問題に対処するために、音声ベイジアン式を提供する。本発明は、現実的な街路条件における多関節3次元追跡を提供することができる。
本発明は、動的運動事前知識と組み合わせた、人物検出および2次元ポーズ推定のための方法および装置を提供する。本発明は、側面から見た人物のための2次元ポーズ推定を提供するのみならず、複数の視点から3次元でポーズを推定することにより、それを超える。ポーズの推定は、単眼の画像で行われ、ステレオ画像を必要としない。また本発明は、人物の特徴的なポーズの検出を必要としない。
本発明の方法では、訓練画像数を減少させそして表現をより柔軟する、身体の各部分に対する個別の外観モデルを使用して、人間の複雑な外観を表現する。
3つの連続した段階で、強固な3次元ポーズ復元を可能とするために、利用可能な2次元画像エビデンスが蓄積される。本発明は、単眼画像、検出による追跡(トラッキング・バイ・ディテクション)、および階層的ガウスプロセス潜在変数モデルに基づいた3次元動力学のモデル化からの、2次元ポーズ推定を含む。利用可能な2次元画像エビデンスが蓄積され、蓄積されたそのエビデンスから、3次元ポーズが信頼性を有して復元され且つ追跡される。第1の段階では、単一フレームから、人物の2次元関節と視点の初期推定値が取得される。第2の段階では、検出による追跡に基づいて、フレームを横断する早期のデータ関連付けを可能とする。これらの2つの段階において、利用可能な2次元画像エビデンスを、短い画像列(=トラックレット(tracklets))上での2次元リブ(四肢)位置の強固な推定として、蓄積することに成功する。最後の3段階において、3次元ポーズを高い信頼性で復元するために、これらのトリックレット・ベースの推定を、堅固な画像観察として使用する。
本発明はまた、本発明の方法のいずれかを実行するための画像処理プロセッサを有する集積回路を提供する。
(a)複数のカメラからの推定と(b)バックグランド除去法への依存は、単純な背景を有するシーンや固定カメラへの適用を制限する。本発明の実施形態は、一個のカメラ(即ち単眼画像)からの3次元人物ポーズ推定の提供を可能とし、且つ、混雑したバックグランド、即ち、バックグランド除去法が可能ではないシーン、において移動カメラで作動させることが可能である。
本発明の実施形態は、既知の視点(例えば、側面)から見た人物の2次元ポーズを復元することに必ずしも限定されず、本発明に係る方法の実施形態は、任意の視点から見た人々のポーズを復元することが可能である。
3次元ポーズ推定は、2次元ポーズ推定よりもはるかに困難な問題であると認識され、且つ、単眼測定による3次元ポーズ推定は、些細な問題ではない。その困難性は、どの様な測定が利用可能であるか、その測定にどの程度の雑音があるかのような、多くの因子に依存している。制御不能な街路シーンの場合、測定は多くの雑音を含み、そして3次元ポーズ推定は困難である。
街路シーンにおける、本発明の一実施形態に係る3次元追跡結果を示す。 (a)右、(b)右後部、(c)後部、(d)左後部、(e)左、(f)左正面、(g)正面、および(h)右正面の、各視点に対する訓練サンプルを示す。 本発明の一実施形態に係る、8視点分類器の校正出力を示す。 (a)視点特定モデルと結合モデル間の比較、および(b)"MultiviewPeople"データセット上の最先端技術に対する比較を示す。 側面検出器[3]によって得られたサンプル検出(最上部)、多視点データセット上で訓練された一般的な検出器(中間)および、視点特定検出器の出力を線形SVMと組み合わせた本発明の一実施形態に係る検出器(下側)による、サンプル検出を示す。 本発明の一実施形態に係る2次元追跡アルゴリズムによって見出された、単一フレーム(上)とトラックレットに基づく、人間検出を示す。異なるトラックレットが色によって識別され、推定された視点が2個の文字で示されている(下側)。最上段の行における数個の擬陽性(フォールス・ポジティブ)はフィルタリングされ、追加の往々にして部分的に遮蔽されている検出が、埋め込まれている(例えば、最も左側の画像の左側)ことに注意する必要がある。 (a)は、本発明の一実施形態に係るモデルにおける3次元ポーズ表現を示し(パラメータ化された関節に矢印が付されている)、(b)は、2次元−3次元リフト後の初期ポーズ列(上側)と、3次元ポーズ後の最適化後のポーズ列(下側)を示す。 “TUD Stadtmitte”データセット上(左)と、移動カメラ[14]からの列上(右)での3次元ポーズ推定を示す。 “Subject S2/Camera C1”(上)および“Subject S2/Camera C2”(下)に対するHumanEva II上の3次元ポーズ推定事例を示す。 本発明の任意の実施形態に係る処理システムを示す。 本発明の任意の実施形態に係る方法のフローチャートを示す。
本発明を、特定の実施形態に関して幾つかの図面を参照して説明するが、本発明はそれらに限定されるものではなく、特許請求の範囲によってのみ限定される。記載された図面は、概略的且つ非限定的である。例示目的のために、図面では、要素の大きさは誇張されており、正しい尺度で描かれていない。 "含む"という用語は、本明細書および特許請求の範囲で使用される場合、それは他の要素やステップを排除するものではない。単数名詞に言及する時に不定冠詞または定冠詞が用いられる場合、他の何らかが特別に記載されていない限り、その名詞の複数形を含む。
特許請求の範囲で使用される "含む"という用語は、その後に記載される意味に限定されると解釈するべきでなく、他の要素やステップを排除しない。従って、表現“手段AとBを含むデバイス”の範囲は、構成要素AおよびBのみからなるデバイスに限定されることはない。これは、本発明に関して、そのデバイスの関連構成要素がAおよびBのみであることを意味する。
さらに、説明中および特許請求の範囲において、第1、第2、第3との用語は、類似の要素間を区別するために使用され、必ずしも順序または時間順を記述するためではない。そのように使用された用語は、適正な状況下で交換可能であること、および、此処に記載された発明の実施形態は、此処に記載され図示された順序以外での動作が可能であることを理解すべきである。
また、明細書および特許請求の範囲における用語“上部”、“下部”、“〜上”、“〜下”等は、説明目的のために使用されおり、必ずしも相対的な位置を記述するためではない。そのように使用された用語は適切な状況下で交換可能であり、此処に記載された本発明の実施形態は、此処に記載されまたは図示された以外の配置において動作可能であることを理解すべきである。
この明細書全体での"一実施形態"または "実施形態"への参照は、その実施形態に関係して記載されたある特性、構成または特徴が、少なくとも1個の本発明の実施形態に含まれていることを意味している。従って、この明細書全体の種々の場所での語句“一実施形態において”は、必ずしも全てが同じ実施形態を参照している必要はないが、そうであっても良い。さらに、その特性、構造または特徴は、当業者には明らかなように、一またはそれ以上の実施形態において、適切な方法で結合することが可能である。
同様に、本発明の例示的な実施形態の説明において、本発明の様々な特徴は、開示を簡潔化し一またはそれ以上の種々の発明態様の理解を助ける目的で、往々にして、単一の実施形態、図またはその説明にまとめられていることを理解すべきである。しかしながら、この開示方法は、請求項に係る発明が、各請求項に記載されたものよりも多くの構成要件を必要とするという意図を反映するものと解釈するべきではない。むしろ、請求の範囲において表すように、発明の態様は、開示された単一の実施形態の全ての特徴より少ない。したがって、発明の詳細な説明に続く請求の範囲は、各請求項それ自身で本発明の個別の実施形態として、発明の詳細な説明に組み込まれる。
さらに、此処に記載された幾つかの実施形態は、他の実施形態に含まれるその他の特徴ではない幾つかの特徴を含み、異なる実施形態の特徴の組み合わせは、本発明の範囲内であると意図され、当業者によって理解されるように異なる実施形態を形成する。例えば、以下の請求の範囲において、請求された実施形態の全ては如何なる組み合わせにおいても使用され得る。更に、実施形態の幾つかは、方法として、または、コンピュータシステムのプロセッサまたはその機能を実現する他の手段によって実行され得る方法の要素の組み合わせとして、此処に記載されている。このように、プロセッサは、この方法または方法の要素を実施するために必要な命令と共に、この方法または方法の要素を実行するための手段を形成する。さらに、装置の実施形態として此処に記載された要素は、本発明を実施するための要素によってなされる機能を実行するための手段の一例である。信号への言及は、あらゆる媒体における信号の任意の種類を包含することができ、従って、例えば、電気的、光学的または無線信号あるいはその他の信号を包含することができる。分析への言及は、材料に関する情報を導出するか、強化するために全ての方法で信号を処理することを包含することができる。プロセッサへの言及は、全ての形態の信号またはデータを処理するための任意の手段を包含することができ、そのため、例えば、パーソナルコンピュータ、マイクロプロセッサ、アナログ回路、特定用途向け集積回路、そのためのソフトウェアなどを包含することができる。
此処で提供される説明では、多数の具体的な詳細が記載されている。しかしながら、本発明の実施形態は、これらの具体的詳細がなくても実施できることを理解すべきである。他の事例では、周知の方法、構造および技術を詳細に示していないが、これは、この説明の理解を曖昧にしないためである。
3次元ポーズへの言及は、オブジェクトの可動部分の3次元構成を表し、身体の3次元位置および方向に限定されない。
検出による追跡への言及は、汎用または、適合オブジェクト検出器またはそれに類似のものをどの様な方法においても使用する、追跡アルゴリズムを包含することを意図している。幾つかの例では、オブジェクト検出器は、アルゴリズムのためのエビデンスモデルのコンポーネントのいずれかであり得る。
2次元ポーズから3次元ポーズへのリフトへの言及は、例えば画像の一部分である2次元データを3次元オブジェクトモデルに、全ての方法でフィッティングすることを包含するものと意図される。一事例の説明が、D. A. Forsyth, O. Arikan, L. Ikemoto, J. O’Brien, and D. Ramananによる、“Computational studies of human motion: Part 1, tracking and motion synthesis”、(Foundations and Trends in Computer Graphics and Vision, 1(2/3):77-254, July 2006)の要約およびセクション1.2に記載されている。
本発明は、全てのフレームにイメージエビデンスε1:Mを与えて、長さMのフレーム列、即ちビデオ画像、の全てのフレームmにおけるそれぞれの人物の3次元ポーズQmを推定するための、方法および装置を提供する。
図9は、一実施形態に係る画像処理プロセッサ即ちプロセッサシステム10を示す。図10は、この実施形態または他の実施形態で実行されるステップを示す。画像プロセッサ即ちプロセッサシステム10は、例えば、図示するそれぞれの部分に専用の回路ブロックであるハードウエアを有する1個またはそれ以上の集積回路として実現することが可能であり、あるいは、例えば、サーバ内でのように、汎用プロセッサによって順次実行されるソフトウエアモジュールとして実現することが可能である。図示する部分は、例えば単一フレームを提供する単眼カメラである画像ソース装置5から入力された、画像または画像ストリーム(例えば、リアルタイム又は非リアルタイムのビデオフレームなど)を受信するための入力インターフェース20を含む。ビデオ列の画像やフレームを、多視点人物検出演算部40で処理する。多視点人物検出演算部40は、部分ベースの検出器42、ポーズ推定器44および多視点検出器46を用いて、画像中の人物を決定する。演算部40による操作の結果は、追跡および視点推定演算部50に送信される。この部分50は、以下に詳細に説明するように動作する、人物トラックレット抽出部52を有している。さらに、3次元ポーズ推定演算部60が、3次元ポーズを復元するために設けられている。画像プロセッサに対して、プロセッサのどの段階であっても、この図には示されていない他の部分がある。
ビデオデータの適切な処理を、例えば、移動オブジェクト例えば車両またはその運転者に関連する、主要オブジェクトの認識および報告のために使用することができる。興味あるオブジェクトは、任意の適切なオブジェクト、例えば、道路、歩行者、車両、障害物、交通信号灯等であり得る。ビデオデータの処理をリアルタイムで行うことができ、または、格納されたビデオデータ上で行うことができる。
したがって、本発明は、ナビゲーションシステムの強化のために使用することができる。あるいは、本発明の出力は、他のアルゴリズム、例えば歩行者検出アルゴリズムなどを訓練するために使用することができる。本発明の出力は、オブジェクト、例えば歩行者またはこれらのオブジェクトの動きを検知アするルゴリズムの精度を向上させるために、使用することができる。デバイス55は、本発明の出力に基づいて、解釈しまたは行動をとるために設けられる。例えば、本発明を使用して画像中の歩行者のポーズを検出することを、アラームまたは警告の他の形体を作動させるため、または、ブレーキ等をかけるために用いることができる。これは、例えば、車両制御システム、ドライバー補助システム、ロボットシステム、侵入者を検出するための監視システム等で使用することができる。本発明は、自動車に限定されることはない。
図10は、図9または他の実施形態の画像処理装置の操作におけるステップを示しており、その詳細を以下に説明する。
本発明に係る方法100は、最初に、エビデンスを与えることによって、ポーズパラメータ上でポステリア分布が定義される。
Figure 0005848341
ここで、Q1:Mは、列全体にわたる3次元ポーズパラメータを表す。式1におけるポステリアが多くのローカルミニマ(局所最適解)を持つことを避けるため(理由:3次元ポーズの推定は、単眼画像によるため高度に曖昧である)に、本発明は、3次元ポーズ復元における曖昧性を連続して低減するための三段階アプローチを提案している。
観測尤度p(ε1:M| Q1:M)を定義するためには、3次元ポーズパラメータQmによって与えられた、各フレームにおけるエビデンスの条件付き独立性が存在する。この尤度は、このようにして単一フレーム尤度に因数分解される。
Figure 0005848341
各フレーム内のエビデンスは、カメラに対する人物の2次元視点の推定および、2次元位置のポステリア分布および身体部分の向きによって表わされる。シングルフレームからこれらの信頼性を推定するために、ステップ102における第1段階40では、差分的部分検出器42に基づいて、部分ベース人物検出とステップ104の推定フレームワークを推進する。さらなる2次元画像エビデンスを蓄積するために、第2段階50では、2次元検出による追跡アプローチ109を用いて連続した少しのフレームから人物トラックレットを抽出することによって、ステップ108において人物トラックレットを抽出することにより、追跡と視点推定ステップ106を実行する。第1段階40の出力は、より強固な視点推定と同様により信頼性の高い人物の2次元検出を得るという視点において、精緻化される。次に第3段階60において、3次元ポーズを復元するために、以前の2つの段階40、50において蓄積された画像エビデンスを使用する。
時間的事前知識P(Q1:M)が、階層的ガウス過程潜在変数モデル(hGPLVM) [17]として、3次元ポーズに亘ってモデル化される。これは、隠れマルコフモデル(HMM)と組み合わされ、一度に少数のフレームのみしかカバーしない人物トラックレットをより長い3次元人物追跡に拡張することを可能とする。この3次元モデルは、2次元身体モデルからボトムアップのエビデンスを生成するものと推定され、それによってハイブリッドの生成/差分アプローチを構成していることに、注意すべきである。
本発明の実施形態において、人間のポーズ推定のための方法及び装置が提供され、これは、2次元の位置、ポーズおよび視点推定を、3次元運動事前知識を伴う3次元追跡のためのエビデンスモデルに結合し、そして、現実の街路環境において単眼画像から複数の人物の3次元ポーズを正確に推定することを可能とする。本発明の一態様は、3次元ポーズ推定を形成するブロック、例えば、複数部分ベースのモデルの組み合わせに基づいた歩行者検出手法である。複数部分ベースのモデルを組み合わせることで、大幅なパフォーマンスの向上につながり、検出における最先端レベルを向上させると共に、単眼画像における人物の視点の推定を可能とする。
単一フレームにおける多視点人物検出は、画像プロセッサ演算部40およびステップ102において、本発明の一部分として実施される。2次元人物検出およびポーズ推定は、3次元ポーズ推定および追跡のためのモジュールの1つとして機能する。本発明は以下の利点の何れかを有することができる。
(1)2次元人物検出およびポーズ推定の使用は、3次元ポーズ推定および追跡のための強固な外観モデルを定義するために使用される。
(2)可能な3次元ポーズの検索スペースは、推察2次元ポーズを利用することで減少させることができる。
(3)人物を見ることができる視点は、2次元から3次元への本来的な不明確さを減少させるために、抽出することができる。
本発明の一観点によれば、人物のようなオブジェクトを表現するために図形構造(ピクトリアル構造)を使用することができる。図形構造は、N個の異なる部分Lm={lm0,lm1,・・・,lmN}の柔軟構成を含み、此処でmは列の現在のフレームを意味する。部分iの状態は、Imi={xmi;ymi;θmi;smi}によって与えられ、此処でxmiおよびymiはその画像位置、θmiは絶対方向、およびsmiは部分基準(スケール)を意味する。単一フレーム画像エビデンスDmによって与えられる2次元部分構造Lmのポステリア確率は、以下の式によって与えられる。
Figure 0005848341
身体構造p(Lm)の事前知識は、ツリー構造を有し、身体部分間の運動学的依存性を表す。これは、ルート部分(此処では胴体)に対する単項と、運動学的チェーンに沿った対項に因数分解される。
Figure 0005848341
此処で、Kは、部分間の運動学的関係を示すエッジセットである。p(lm0)は一定であると仮定され、そして対項は、隣接する部分間の関節の変形空間においてガウシアンであるとされている。尤度項は、個々の部分尤度の積に因数分解すると仮定されている。
Figure 0005848341
部分尤度を定義するために、[3]に開示されているように、強化部分検出器を使用することができ、この検出器は、AdaBoostb分類器[12]の短出力および高精度形状コンテクスト表現[5,18]を使用する。本発明の一実施形態では、数個の部分、例えば8個の身体部分で構成されるモデルが使用される。これらの部分は、左/右下部および上部脚、胴体、頭部、左/右上部および下部腕である(さらに、側面検出器は同様に、左/右足を、性能をより向上させるために用いることができる)。複雑な現実世界のシーンにおける優れた性能はさておき、図形構造モデルは、モデルのツリー構造に基づいて推測が最適であり且つ効率的である、との利点を有している。合計積信念伝搬を、個々の身体部分の限界ポステリアを計算するために使用する。この限界ポステリアは、コンボルーションを使用することによって、効率的に計算することができる。
多視点設定に対する検出器[3]の適切性を評価するために、1486画像のデータセットが訓練のために収集され、248個が検証のために、さらに248個がテストのために収集された。充分に多くの人物が全ての視点から可視であるように、これらは慎重に選択された。人物の境界ボックスに加えて、データセットにおいて全ての人物の視点に注釈が付けられる。これは、数個の均等に間隔をおいた、例えば8個の均等に間隔をおいた視点、それぞれが互いに45°離れた視点(前/後、左/右および対角前/後左/右)を仮定することによって行われる。図2は、訓練セットからの例示画像を示し、各視点に対して1個の例示画像を示している。予期され且つ図4(a)に示されているように、[3]に示す側面上で訓練された検出器は、我々の多視点データセット上で、控え目な性能レベルのみを示す。多視点訓練セットでモデルを再訓練することによって、かなりの性能向上が達成されるが、モノリシックで差分的HOGベースの検出器[30]または部分によるHOCベースの検出器[9]の性能レベルが得られる(図4(b)参照)。しかしながら、我々は人物の検出を必要とするのみならず、さらにそれらの2次元ポーズを推定する必要があるので、このようなモノリシックまたは粗い部分ベースの検出器は、このタスクに対しては適切ではない。
この欠点に対処するために、本発明の一実施形態は、拡大多視点検出器40を提供し、これは、検出器46における視点検出と同様に部分44において2次元ポーズ推定を可能とする。例えば8個の視点特定検出器46は、視点注釈付きの多視点データを用いて訓練される。これらの視点特定検出器46は、それらの運動学的事前知識がそれぞれの視点に対して特定であるという利点のみならず、部分検出器がそれぞれの視点に対して調整されるという利点を有する。さらに、この検出器セットは、[3]のように追加的に足を含む2個の側面検出器(性能を向上させる)と同様に、全ての視点に対して訓練された1個の汎用検出器によって、任意に増加させることができる。本発明の2つの実施形態は、検出器のこのバンクの出力を結合するための方法を提供する。
(1)異なる検出器によって決定されるように、特定の画像位置にある人物のログポステリアを加算する。
(2)線形SVM(サポートベクタマシン)を、平均/分散正規化ベクトル出力の11次元ベクトルを特徴として用いて、訓練する。SVMベクトルは248画像の検証セット上で訓練された。
図4(a)は、視点特定検出器46の単純な加算的結合が、各個々の視点特定検出器からの検出性能よりも向上したことを示している。同様に、それは、[3]からのアプローチよりも性能が優れている。興味深いことに、SVMベースの検出器は、性能を向上させるばかりではなく、多視点人物検出[9,30]における最先端レベルを凌いでいる。図4(b)に示すように、検出器のバンクが[30]からのHoGベース検出器によって拡張された場合、その性能はより向上する。図4(c)の幾つかの検出事例は、視点特定検出器を結合することの利点を明示している。
Figure 0005848341
次のステップは、ステップ105で、視点検出器46を用いて人物の視点を推定することである。なぜなら、このような視点推定は、3次元ポーズにおける不明確性を大きく減少させることができるから。上記の視点特定検出器46のバンクが使用され、そして多くの、例えば8個の視点分類器48、線形SVMが、検証セットの検出器出力上で訓練される。2個の訓練および評価戦略が本発明の範囲内に含まれる。
1)(SVM)一視点からの訓練事例が陽性(ポジティブ)の事例として使用され、その他は陰性(ネガティブ)事例として使用される。
2)(SVM−adj)此処では、視点が例えば隣接する3個の組にグループ化され、且つ個別の分類器48がこのような3個の組のそれぞれに対して訓練されている。
ベースラインアプローチ(Max)として、8個の視点特定検出器の出力上で最大値を取ることにより、ステップ105において視点が推定される。表1にその結果を示す。SVM実施形態は、視点の正確な認識が要求される場合、ベースラインよりも約11%向上させるが、SVM−adj実施形態も良い結果を生じる。さらに、2個の隣接する視点は正しいものとして考えられ、SVMは70:0%の平均性能を獲得し、SVM−adjは76:2%の平均性能を獲得する。これは、SVM−adjが複数の視点に亘ってより優雅に低下することを示しており、これが、SVM−adjが好ましい実施形態である理由であって、以降に説明される。視点分類器48のスコアは互いに直接比較可能ではないので、分類器スコアが与えられた場合、正確なラベルのポステリアを計算することによって校正され、これによってスコアは単位間隔にマップされる。ポステリアは、ポジティブおよびネガティブ事例での分類器スコアの分布から、Bayesのルールを介して計算される。これらの分布はガウシアンであると推定され、且つ、それらのパラメータは、検証セット上の分類器スコアから推定される。図3は、人物が最初に“右”、そしてその後“右後方”視点から現れる40フレーム列に対して計算された、8個全ての分類器48の校正出力を示している。正確な視点は、列の殆どに対して最もありそうなものであり、そして推定における失敗は、往々にして隣接する視点に相当する。
本発明の方法および装置は、2次元−3次元リフト時の不明確性を可能な限り減少させるために、第3の3次元追跡段階60に先立って、全ての利用可能な2次元画像エビデンスを累積することを目指している。以前のセクションにおいて記載されている人物検出器段階40が、身体部分の2次元位置および単一フレームからの人物の視点を推定することが可能である一方で、第2段階50は、ステップ109における検出による2次元追跡[2,31]によって、これらの推定を向上させることを目指している。2次元にすでに存在する時間的な一貫性(時間的コヒーレンス性)を十分に利用するために、ステップ108において、人物の短いトラックレットをトラックレット抽出機52を用いて抽出する。一方で、これは、各人物の2次元位置、スケールおよび視点推定の強固さを向上させる。なぜなら、それらは、トラックレット全体にわたって結合して推定されるためである。身体局在化の向上は次に、2次元ポーズ推定を支援する。一方、これは早期のデータ結合の実行を可能とする。これは、複数の人物を有する列に対して重要である。そこでは、“匿名の”単一フレーム仮説を特定の人物のトラックに関連付けることが可能である。
第1段階40からおよびこの方法のステップ102から、Nm個の潜在的に重畳する境界ボックス仮説のセット、
Figure 0005848341
が列の各フレームmに対して獲得され、此処で各仮説hmi=fhxmi;hymi;hsmigは特定の画像位置およびスケールにおける境界ボックスに対応している。トラックレットセットを獲得するために、適切な追跡アルゴリズム、例えば、[2]の特にセクション3.3に紹介されているHMMベースの追跡手順、が使用され、この文献は参照によって組み込まれる。各フレームにおける人物仮説は状態として処理され、そしてビタビ(Viterbi)復号を適用することによって、位置、スケールおよび外観に一致する状態部分列が見出される。各状態に対する放出確率が検出スコアから導出される。状態hmiとhm_1:j間の遷移確率は、1次ガウシアン動力学および外観互換性を使用してモデル化される。
Figure 0005848341
此処で、Σpos=diag(σx 2、σy 2、σs 2)およびdapp(hmi|hm_1:j)は、各仮説の外接矩形に対して計算されたRGB色ヒストグラム間のユークリッド距離である。例えば、σx=σy=5、σs=0:1およびσapp=0:05である。
トラックレットのそれぞれに対して、視点数列ω1:N=(ω1、・・・、ωN)が、例えば、単純なHMMおよびビタビ復号または類似のアルゴリズムを再度使用することによって、推定される。8個の離散視点が、状態と見なされ、視点分類が単項エビデンスと見なされ、そしてガウシアン遷移確率は、人物はゆっくり回転する傾向があることを反映させるために、類似の後続の視点を強化するものと仮定される。
図5は、短い部分数列の例を示し、この数列では、抽出トラックレットを有する単一フレーム2次元検出器の検出結果間での比較が行われる。正確な2次元から3次元へのリフトを隠してしまうであろう背景におけるスプリアス偽陽性検出を、追跡がどの様にして取り除き、スケール推定における失敗を訂正するのかに注意すべきである。図5上のインデックス22の人物に対応するトラックレットに対するそれぞれの視点に対して、単一フレーム検出スコアが図3に示されている。単一フレームからの視点推定がかなり強固であっても、それは複数の時間(フレーム4から30に対して正確な視点は“右”であり、フレーム31から40に対しては“右後部”である)において失敗する可能性のあることに注意すべきである。トラックレットベースの視点推定は反対に、全40フレーム列に対して正確な視点を与える。最後に、図5に示すように、頻繁な全あるいは部分的オクル−ジョンを伴う現実的な列の場合であっても、トラックレットは同様にデータ連合を提供する。
演算部60を使用する方法ステップ110において、先ず以前の段階において抽出された2次元トラックレットを採用することによって、3次元におけるポーズが推定され且つ追跡され、そしてステップ112で、各フレームで推定された2次元ポーズが3次元にリフトされる([25]参照)が、ステップ112は好ましくは3次元事例セットの支援によって実行される[19,22]。事例の投影は、まず2次元身体部分ポステリアのもとで評価され、そして最も可能性の高い事例が、初期3次元ポーズとして選択される。この初期ポーズは、事例セット上の既知の時間的秩序を使用してトラックレットの全てのフレームに伝搬される。これは、3次元ポーズ推定に対して複数の初期値を与えること、即ち、トラックレットの各フレームに対して1個、に注意すべきである。このステップ112における2次元から3次元へのリフティング手順は、強固である。なぜなら、それは信頼性の高い2次元ポステリアおよび2次元トラックレットからの検出および視点推定に基づいているからである。これらの初期ポーズ列から開始して、実際のポーズ推定および追跡は、式(1)に定義されるポステリアを最大化することによって、ベイジアンフレームワークにおいて行われる。式(1)に対して、それらは強力な初期値として作用する。3次元ポーズは、Qm={qm,φm、hm}としてパラメータ化され、ここでqmは身体関節のパラメータを示し、φmは世界座標における身体の回転を示し、hm={hm x;hm y;hm scale}は、画像に投影された人物の位置およびスケールを示す。3次元ポーズは、P=10の柔軟関節を有する運動学的ツリーを使用して表現され、ここで各関節は自由度2を有している。図6(a)に構成例を示す。フレームmでのエビデンスは、εm={Dm、ωm}で与えられ、単一フレーム画像エビデンスDmとトラックレット全体から得られた2次元視点推定ωmとを含んでいる。2次元視点の条件付き独立性と画像エビデンスが3次元ポーズを与えると仮定すると、式2の単一フレーム尤度は以下の式に因数分解される。
Figure 0005848341
推定2次元視点!mに基づいて、3次元視点ωの視点尤度は、y軸に沿った回転成分φmを中心とするガウシアンとしてモデル化される。
Figure 0005848341
3次元ポーズp(Dm|Qm)の尤度は以下の2D身体モデルによって与えられる部分ポステリアの支援によって定義される。
Figure 0005848341
此処で、projn(Qm)は、n番目の3次元身体部分の画像への投影を示す。このような3次元尤度は、通常、式5と同じように、個々の部分尤度の積として定義されるが、これは高度に多様なポステリアと困難な推定へと導く。その代わりに2次元ポステリアに依存することによって、その3次元モデルは、以前の段階からの十分な2次元画像エビデンスが存在する仮説に焦点を当てる。過度の3次元尤度計算を避けるために、各2次元部分ポステリアは、好ましくは、非パラメータ表現(助変数表示)を使用して表現される。特に、フレームm中の各身体部分nに対して、j個の場所が最も高いポステリア確率
Figure 0005848341
を有して見出される。この確率は、2次元の場所(画像位置および方向)に対応し、wj nmは、その場所のポステリア密度に対応する。2次元部分ポステリアは、ガウス核kを有する核密度推定として近似されると仮定する。
Figure 0005848341
式1における時間的事前知識は、2つの項の積として表現される。
Figure 0005848341
これは、画像位置およびスケールと同様に、3次元ポーズのパラメータ上の事前知識に相当する。人物の位置およびスケールp(h1:M)の事前知識は、広いガウシアンとして取得され、そしてモデルは人物のスケールおよび画像中のその位置の両者についてスムーズに変化する。3次元ポーズq1:Mのパラメータ上の事前知識は、階層的ガウシアンプロセス潜在変数モデル(hGPLVM[17]または同様のもの)によってモデル化される。全フレームを通じたi番目のポーズパラメータの値のM次元ベクトルは、q1;M,iとして示される。hGPLVMにおいて、オリジナルの高次元ポーズのそれぞれの次元は、共通低次元潜在空間Z1:M上で定義された独立ガウシアンプロセスとしてモデル化される。
Figure 0005848341
此処で、Pは我々のポーズ表現におけるパラメータ数であり、Kzは、共分散関数k(zi,zj)の出力によって定義される共通潜在空間Z1:Mの要素の共分散マトリックスである。この共分散関数は、この場合、2乗指数関数が取られている。共通潜在空間Z1:Mの値は、それ自身で時間T1:Mの1次元入力を有するガウシアンプロセスの出力として扱われる。その実現には、例えば、d1=2次元の共通潜在空間を使用する。このようなガウシアンプロセスの階層性によって、オリジナルの入力空間の異なる次元とそれらの動力学との間の両方の相互関係を効率的にモデル化することが可能となる。
hGPLVM事前知識は、2セットの補助変数Z1:MとT1:Mを必要とし、これらは事後推定を最大化する間に扱われる必要がある。本発明の一実施形態はZのみを最適化し、そしてTの値を固定したままとする。これは、Tの値がほぼ2次元トラックレットを使用して容易に推定できる歩行周期内の人物の状態に相当するので、可能である。最大化された3次元ポーズパラメータ上での全ポステリアは、以下の式によって与えられる。
Figure 0005848341
ポステリアは、スケーリングされた共役勾配を使用しそしてリフトされた3次元ポーズを使用する最適化を初期化することによって、最適化される。
より長い列に対する3次元ポーズ推定のために、別のモデルを使用することができる。より長い列において3次元ポーズを推定するために、先ず、より長い列の短い(M=10)重畳サブ列において、3次元ポーズが推定される。それぞれのサブ列に対して、ポステリア多重時間が初期化され局所的に最適化されるので、フレームのそれぞれに対して3次元ポーズ仮説の大きなプールが残され、そこから、適切なアルゴリズム、例えば隠れマルコフモデルおよびビタビ複合を用いて、最適列を見出すことができる。3次元ポーズ仮説は、各フレームにおいて、式6によって与えられる放出確率を有する不連続状態として扱われ、hGPLVMを使用して状態間の遷移確率を定義する。
上記のモデルは、2個の多様性のあるシナリオにおいて評価された。その結果は、本発明の方法が、地上での正しいポーズを得ることが可能な、標準の“HumanEva II”ベンチマーク上で、単眼の人間ポーズ推定における最高水準を向上させていることが示された。さらに、本発明は、部分的および全オクル−ジョンを含む複数の人物を備える、2つの混雑し且つ複雑な街路列上で評価された。
3次元ポーズ推定方法の性能を定量的に評価するために、“HumanEva II”データセットを使用した。“HumanEva II”データセット[23]は、同期された画像とモーションキャプチャデータを提供し、そして、2次元および3次元の人間ポーズ推定のための標準の評価ベンチマークである。このデータセット上で、背景サブトラクションを行わないがしかし外観と時間的情報の両者に依存している、単眼画像列におけるポーズを推定する方法に対して、比較がなされる。この実験のために、視点特定モデルが、“HumanEva II”データセットからのサブジェクト “S1”、“S2”、“S3”の画像上で訓練された。より多くの訓練データを追加することによって、特に下および上腕部身体部分に対する、部分検出器の性能を向上させることができる。したがって、訓練データは、“People”[20]および“Buffy”[10]データセットからの画像と共に拡張される。2次元から3次元リフトおよびポーズ列上での時間的力学をモデル化するために使用されるhGPLVMの事例セットは、“HumanEva II”データセットのサブジェクト“S3”に対しての訓練データを使用することによって、得られた。限られた数の訓練データにも拘わらず、この事前知識は、“HumanEva II”データセットと同様、現実の街路シーンにおいてポーズ推定を可能とする。表2は、公式オンライン評価ツールを用いて得られた、2次元および3次元接合位置における平均誤差を示している。
Figure 0005848341
両方の列に対して、その結果は[21]によって報告されているものよりも大きく向上した。その向上は、カメラ“C2”で撮られた列に対して特に大きく、14.18ピクセルと比較して、10.72ピクセルの平均誤差が得られている。本発明の3次元ポーズ推定では、カメラ“C1”および“C2”に対して、107と101mmの平均誤差が得られる。図8は、100番目毎のフレームを可視化した、両方の列上で本発明の方法によって得られた数個の推定ポーズ事例を示している。本発明に係る方法の位置特定のより良い精度は、個別事例セットから選択するよりもむしろ、身体部分に与えられた3次元ポーズの連続した最適化に依存している。
現実の街路設定に対して本発明を評価するために、典型的な歩行者エリアにおいて取られた200の連続するフレームを含む、新規な“TUDStadtmitte”データセットが使用された。この列の200フレームに亘って、本発明の実施形態の2次元追跡アルゴリズムは、25の2次元人物追跡を獲得し、そのいずれも偽陽性検出を含んでいなかった。図7(左側)は、列全体を通して均一に配置された例示画像を示している。それぞれのトラックに対して、本発明の視点分類アルゴリズムのみを使用して人物の視点推定が行われる。人物の動きの方向は、その推定に統合される。3次元ポーズの推定は、奥行きにおいて相当の不明確性と困難な造影条件を有する視点を含む、様々な視点上で正確である。例えば、図7(a)の画像の右側の人物および図7(h)の画像の中央の人物に注意するべきである。運動事前知識(モーションプライオア)は、異なるセット、“HumanEva”データセット、上で訓練され、それにも拘わらず、それは街路設定に対して良く汎用化された。図7(c、f、g)に示すように、静かに立っている人物のポーズ推定も同様に正確であった。
数個の不正確な推定ポーズは、図7(a)に示すような不正確なスケール推定、図7(b、f)に示す部分的オクルージョンあるいは視点推定における失敗(例えば、図7(h)の最も右側の人物)に基づいている。本発明は、さらに、移動カメラによって記録された列上で評価された。大きな背景雑音、低いフレーム速度および正面像近辺における多数の人物に原因して、この列は3次元ポーズ推定に対して大きな困難を提示する。推定3次元ポーズの幾つかの事例を、図7(右側)に示す。このような困難な条件下であっても、本発明は、多数のフレームに亘って人物、例えば図7(i,j)の最も右側の人物、のポーズを追跡し推定することができる。さらに、追跡および視点推定は、強い背景雑音の存在下であっても、例えば図7(d,e)におけるもっとも右側の人物に対して、正確な結果を生成したことに注意すべきである。
以下の参考文献は、参照によって組み込まれる。
[1] A. Agarwal and B. Triggs. Recovering 3D human pose from monocular images. PAMI, 28(1):44-58, 2006.
[2] M. Andriluka, S. Roth, and B. Schiele. People-tracking-by-detection and people-detection-by-tracking. In CVPR-08.
[3] M. Andriluka, S. Roth, and B. Schiele. Pictorial structures revisited: People detection and articulated pose estimation. In CVPR-09.
[4] A. Balan, L. Sigal, M. Black, J. Davis, and H. Haussecker. Detailed human shape and pose from images. In CVPR-07.
[5] S. Belongie, J. Malik, and J. Puzicha. Shape context: A new descriptor for shape matching and object recognition. In NIPS*00.
[6] J. Deutscher and I. Reid. Articulated body motion capture by stochastic search. IJCV, 61:185-205, Feb. 2005.
[7] M. Eichner and V. Ferrari. Better appearance models for pictorial structures. In BMVC-09.
[8] P. F. Felzenszwalb and D. P. Huttenlocher. Pictorial structures for object recognition. IJCV, 61:55-79, Jan. 2005.
[9] P. F. Felzenszwalb, D. McAllester, and D. Ramanan. A discriminatively trained, multiscale, deformable part model. In CVPR-08.
[10] V. Ferrari, M. Marin, and A. Zisserman. Progressive search space reduction for human pose estimation. In CVPR-08.
[11] A. Fossati, M. Dimitrijevic, V. Lepetit, and P. Fua. Bridging the gap between detection and tracking for 3D monocular video-based motion capture. In CVPR-07.
[12] Y. Freund and R. Schapire. A decision-theoretic generalization ofon-line learning and an application to boosting. J. of Comp. and Sys.Sc., 55(1):119-139, 1997.
[13] J. Gall, B. Rosenhahn, T. Brox, and H.-P. Seidel. Optimization and filtering for human motion capture: A multi-layer framework. IJCV,87(1-2), Mar. 2010.
[14] S. Gammeter, A. Ess, T. Jaeggli, K. Schindler, B. Leibe, and L. Gool.Articulated multi-body tracking under egomotion. In ECCV-08.
[15] N. Hasler, B. Rosenhahn, T. Thormaehlen, M. Wand, and H.-P. Seidel. Markerless motion capture with unsynchronized moving cameras. In CVPR-09.
[16] C. Ionescu, L. Bo, and C. Sminchisescu. Structural SVM for visual localization and continuous state estimation. In ICCV-09.
[17] N. D. Lawrence and A. J. Moore. Hierarchical Gaussian process latent variable models. In ICML-07.
[18] K. Mikolajczyk and C. Schmid. A performance evaluation of local descriptors. PAMI, 27(10):1615-1630, 2005.
[19] G. Mori and J. Malik. Recovering 3D human body configurations using shape contexts. PAMI, 28(7):1052-1062, 2006.
[20] D. Ramanan. Learning to parse images of articulated objects. InNIPS*06.
[21] G. Rogez, J. Rihan, S. Ramalingam, C. Orrite, and P. H. Torr. Randomized trees for human pose detection. In CVPR-08.
[22] G. Shakhnarovich, P. A. Viola, and T. Darrell. Fast pose estimation with parameter-sensitive hashing. In ICCV-03.
[23] L. Sigal and M. Black. HumanEva: Synchronized video and motion capture dataset for evaluation of articulated human motion. Technical report, Brown University, 2006.
[24] L. Sigal and M. J. Black. Measure locally, reason globally: Occlusion-sensitive articulated pose estimation. In CVPR-06.
[25] L. Sigal and M. J. Black. Predicting 3D people from 2D pictures. In AMDO 2006.
[26] Z. Tu, X. Chen, A. L. Yuille, and S.-C. Zhu. Image parsing: Unifying segmentation, detection, and recognition. IJCV, 63(2):113-140,2005.
[27] R. Urtasun and T. Darrell. Local probabilistic regression for activity independent human pose inference. In ICCV-09.
[28] R. Urtasun, D. J. Fleet, and P. Fua. 3D people tracking with Gaussian process dynamical models. In CVPR-06.
[29] M. Vondrak, L. Sigal, and O. C. Jenkins. Physical simulation for probabilistic motion tracking. In CVPR-08.
[30] C. Wojek, S. Walk, and B. Schiele. Multi-cue onboard pedestrian detection. In CVPR-09.
[31] B. Wu and R. Nevatia. Detection and tracking of multiple, partially occluded humans by Bayesian combination of edgelet based part detectors. IJCV, 75:247-266, Nov. 2007.

Claims (14)

  1. 単眼画像列中の複数のオブジェクトそれぞれの3次元ポーズを検出し追跡するための画像プロセッサ(10)において、前記3次元ポーズは前記オブジェクトの可動部分の3次元構成を示し、前記画像プロセッサは、
    1個の画像中の複数のオブジェクトそれぞれのポーズを推定するための、1個またはそれ以上の2次元ポーズ検出器(44)と、
    2次元ポーズ検出器の出力を受信し且つ検出による2次元追跡に適用するように適応された2次元追跡および視点推定演算部(50)であって、前記2次元追跡は時間的コヒーレンス性を利用するものである、2次元追跡および視点推定演算部(50)と、および
    前記2次元追跡および視点推定演算部の出力から画像列における複数のオブジェクトの3次元ポーズを推定し且つ追跡するための、3次元ポーズ推定演算部(60)と、を備え、
    前記画像プロセッサは更に、
    前記画像中の複数のオブジェクトそれぞれの視点を推定するための、2次元視点検出器(46)を備え、さらに
    前記2次元追跡および視点推定演算部(50)は更に前記2次元視点検出器の出力を受信し、2次元視点検出器の出力を少なくとも向上させるように適応されており、前記2次元追跡および視点推定演算部(50)は視点追跡のために検出による2次元追跡を使用し、
    前記3次元ポーズ推定演算部は、前記2次元追跡および視点推定演算部の出力に依存して3次元ポーズ画像を復元するために2次元ポーズを3次元ポーズへリフトするように適応されていることを特徴とする、画像プロセッサ。
  2. 請求項1に記載の画像プロセッサにおいて、さらに、2次元ポーズ検出器に供給するために複数のオブジェクトの部分を検出するための、1個またはそれ以上の部分ベース検出器(42)を備える、画像プロセッサ。
  3. 請求項2に記載の画像プロセッサにおいて、前記1個またはそれ以上の部分ベース検出器は、前記オブジェクトの図形構造モデルを利用し、及び/または、前記1個またはそれ以上の部分ベース検出器は視点特定検出器である、画像プロセッサ。
  4. 請求項2または3に記載の画像プロセッサにおいて、さらにSVM検出器を備え、前記1個またはそれ以上の部分ベース検出器の出力は前記SVM検出器に供給され、またはさらに分類器(48)を備え、前記1個またはそれ以上の部分ベース検出器の出力は前記分類器に供給される、画像プロセッサ。
  5. 請求項1〜4の何れか1項に記載の画像プロセッサにおいて、2次元追跡および視点推定演算部は、トラックレット抽出器(52)を備える、画像プロセッサ。
  6. 請求項5に記載の画像プロセッサにおいて、さらに、前記トラックレット抽出器から得られた各トラックレットの視点の列を推定するための、視点推定器を備える、画像プロセッサ。
  7. 単眼画像列中の複数のオブジェクトそれぞれの3次元ポーズを検出するために画像プロセッサを使用する方法において、3次元ポーズはオブジェクトの可動部分の3次元構成を表し、前記方法は、
    1個の画像中の複数のオブジェクトそれぞれの2次元ポーズを推定し(104)、
    検出による2次元追跡を、前記推定された2次元ポーズに適用し(109)、前記2次元追跡は時間的コヒーレンス性を利用するものであり、さらに、
    前記検出による2次元追跡および視点推定の出力を用いて、前記複数のオブジェクトそれぞれの3次元ポーズを推定(110)し、前記推定は、2次元追跡および視点推定演算部の出力に依存することにより3次元ポーズ画像を復元するために2次元ポーズを3次元ポーズへリフトするように適応されている、各ステップを備え、
    前記方法は更に、
    前記画像中の複数のオブジェクトそれぞれの2次元視点を推定(105)するステップを備え、前記検出による2次元追跡(109)は、前記推定された2次元視点を少なくとも向上させるために前記推定2次元視点に適用される、方法。
  8. 請求項に記載の方法において、前記2次元ポーズの推定は前記画像中の複数のオブジェクトそれぞれの部分を検出することを含む、方法。
  9. 請求項に記載の方法において、前記複数のオブジェクトの部分を検出することは、前記複数のオブジェクトそれぞれの図形構造モデルを利用し、及び/又は、前記複数のオブジェクトの部分を検出することは、視点特定的である、方法。
  10. 請求項7または9に記載の方法において、前記部分ベース検出ステップの後に分類ステップが続く、方法。
  11. 請求項7〜10の何れか1項に記載の方法において、前記2次元追跡および視点の推定は、前記画像からトラックレットを抽出するステップ(108)を含む、方法。
  12. 請求項11に記載の方法において、さらに、各トラックレットの視点を推定するステップを含む、方法。
  13. 請求項7〜12の何れか1項に記載の方法において、前記3次元ポーズ推定は、2次元ポーズを3次元ポーズにリフトするステップ(112)を含む、方法。
  14. コンピュータ可読媒体上のプログラムであって、コンピュータによって実行された場合に前記コンピュータに請求項7〜13の何れか1項に記載の方法を実行させる命令を有する、プログラム。
JP2013513717A 2010-06-12 2011-06-14 単眼3次元ポーズ推定および検出による追跡 Expired - Fee Related JP5848341B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10165776.5 2010-06-12
EP10165776A EP2395478A1 (en) 2010-06-12 2010-06-12 Monocular 3D pose estimation and tracking by detection
PCT/EP2011/059854 WO2011154558A2 (en) 2010-06-12 2011-06-14 Monocular 3d pose estimation and tracking by detection

Publications (2)

Publication Number Publication Date
JP2013529801A JP2013529801A (ja) 2013-07-22
JP5848341B2 true JP5848341B2 (ja) 2016-01-27

Family

ID=42753474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013513717A Expired - Fee Related JP5848341B2 (ja) 2010-06-12 2011-06-14 単眼3次元ポーズ推定および検出による追跡

Country Status (4)

Country Link
US (1) US8958600B2 (ja)
EP (2) EP2395478A1 (ja)
JP (1) JP5848341B2 (ja)
WO (1) WO2011154558A2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663779A (zh) * 2012-05-03 2012-09-12 西安电子科技大学 基于随机高斯隐变量的人体运动跟踪方法
US10733798B2 (en) 2013-03-14 2020-08-04 Qualcomm Incorporated In situ creation of planar natural feature targets
US9129398B2 (en) * 2013-03-15 2015-09-08 Qualcomm Incorporated Edgel sampling for edge-based tracking
US9230159B1 (en) * 2013-12-09 2016-01-05 Google Inc. Action recognition and detection on videos
US9953243B2 (en) * 2014-04-25 2018-04-24 Google Llc Electronic device localization based on imagery
US9183459B1 (en) * 2014-05-06 2015-11-10 The Boeing Company Sensor fusion using detector confidence boosting
US9785828B2 (en) 2014-06-06 2017-10-10 Honda Motor Co., Ltd. System and method for partially occluded object detection
US9552070B2 (en) 2014-09-23 2017-01-24 Microsoft Technology Licensing, Llc Tracking hand/body pose
US20160132728A1 (en) * 2014-11-12 2016-05-12 Nec Laboratories America, Inc. Near Online Multi-Target Tracking with Aggregated Local Flow Descriptor (ALFD)
US9821813B2 (en) * 2014-11-13 2017-11-21 Nec Corporation Continuous occlusion models for road scene understanding
US9824281B2 (en) * 2015-05-15 2017-11-21 Sportlogiq Inc. System and method for tracking moving objects in videos
US20160342861A1 (en) * 2015-05-21 2016-11-24 Mitsubishi Electric Research Laboratories, Inc. Method for Training Classifiers to Detect Objects Represented in Images of Target Environments
US9600736B2 (en) * 2015-06-29 2017-03-21 International Business Machines Corporation Pose detection using depth camera
JP2017102808A (ja) * 2015-12-04 2017-06-08 ソニー株式会社 画像処理装置および方法
EP3229172A1 (en) * 2016-04-04 2017-10-11 Conti Temic microelectronic GmbH Driver assistance system with variable image resolution
JP2019531560A (ja) 2016-07-05 2019-10-31 ナウト, インコーポレイテッドNauto, Inc. 自動運転者識別システムおよび方法
US10304244B2 (en) 2016-07-08 2019-05-28 Microsoft Technology Licensing, Llc Motion capture and character synthesis
EP3497405B1 (en) 2016-08-09 2022-06-15 Nauto, Inc. System and method for precision localization and mapping
US10733460B2 (en) 2016-09-14 2020-08-04 Nauto, Inc. Systems and methods for safe route determination
US9928432B1 (en) 2016-09-14 2018-03-27 Nauto Global Limited Systems and methods for near-crash determination
US10902243B2 (en) * 2016-10-25 2021-01-26 Deep North, Inc. Vision based target tracking that distinguishes facial feature targets
US10246014B2 (en) 2016-11-07 2019-04-02 Nauto, Inc. System and method for driver distraction determination
US10963674B2 (en) * 2017-01-02 2021-03-30 NovuMind Limited Unsupervised learning of object recognition methods and systems
WO2018229548A2 (en) 2017-06-16 2018-12-20 Nauto Global Limited System and method for contextualized vehicle operation determination
WO2018229549A2 (en) 2017-06-16 2018-12-20 Nauto Global Limited System and method for digital environment reconstruction
WO2018229550A1 (en) 2017-06-16 2018-12-20 Nauto Global Limited System and method for adverse vehicle event determination
WO2019007524A1 (en) * 2017-07-06 2019-01-10 Toyota Motor Europe TRACKING OBJECTS IN DIGITAL IMAGE SEQUENCES
US10431000B2 (en) 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model
US20190026588A1 (en) * 2017-07-19 2019-01-24 GM Global Technology Operations LLC Classification methods and systems
US10929987B2 (en) * 2017-08-16 2021-02-23 Nvidia Corporation Learning rigidity of dynamic scenes for three-dimensional scene flow estimation
US10963680B2 (en) * 2018-01-12 2021-03-30 Capillary Technologies International Pte Ltd Overhead people detection and tracking system and method
US11392131B2 (en) 2018-02-27 2022-07-19 Nauto, Inc. Method for determining driving policy
JP7010778B2 (ja) * 2018-06-29 2022-01-26 国立大学法人東海国立大学機構 観測位置推定装置、その推定方法、及びプログラム
US11600047B2 (en) * 2018-07-17 2023-03-07 Disney Enterprises, Inc. Automated image augmentation using a virtual character
CN110163059B (zh) * 2018-10-30 2022-08-23 腾讯科技(深圳)有限公司 多人姿态识别方法、装置及电子设备
GB2578789A (en) 2018-11-09 2020-05-27 Sony Corp A method, apparatus and computer program for image processing
US11010592B2 (en) 2018-11-15 2021-05-18 Toyota Research Institute, Inc. System and method for lifting 3D representations from monocular images
KR102118519B1 (ko) 2018-11-22 2020-06-15 삼성전자주식회사 전자 장치 및 그 제어 방법
US10825197B2 (en) * 2018-12-26 2020-11-03 Intel Corporation Three dimensional position estimation mechanism
US11004230B2 (en) 2019-03-22 2021-05-11 Microsoft Technology Licensing, Llc Predicting three-dimensional articulated and target object pose
US11164334B2 (en) * 2019-03-29 2021-11-02 Microsoft Technology Licensing, Llc Detecting pose of 3D objects using a geometry image
EP3731185A1 (en) * 2019-04-26 2020-10-28 Tata Consultancy Services Limited Weakly supervised learning of 3d human poses from 2d poses
KR102194282B1 (ko) * 2019-05-17 2020-12-23 네이버 주식회사 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치
EP3798977A1 (en) * 2019-09-26 2021-03-31 Robert Bosch GmbH Method for managing tracklets in a particle filter estimation framework
DE102020200572A1 (de) 2019-12-18 2021-06-24 Conti Temic Microelectronic Gmbh Verfahren zur verbesserten Erkennung von Landmarken und Fußgängern
DE102020202905A1 (de) 2020-03-06 2021-09-09 Conti Temic Microelectronic Gmbh Verfahren und ein System zur verbesserten Umgebungserkennung
US20210279506A1 (en) * 2020-12-18 2021-09-09 Intel Corporation Systems, methods, and devices for head pose determination
CN112904900B (zh) * 2021-01-14 2021-12-17 吉林大学 一种基于鸟类视觉特征的多运动目标搜索与定位装置及方法
US11704829B2 (en) 2021-06-10 2023-07-18 Sony Group Corporation Pose reconstruction by tracking for video analysis
US11557041B2 (en) * 2021-06-17 2023-01-17 Sensormatic Electronics, LLC Dynamic artificial intelligence camera model update
CN114952832B (zh) * 2022-05-13 2023-06-09 清华大学 基于单目六自由度物体姿态估计的机械臂拼装方法及装置
DE102022119865A1 (de) 2022-08-08 2024-02-08 Audi Aktiengesellschaft Verfahren zum Schätzen von Positionen von Gelenkpunkten und Steuereinrichtung für ein Kraftfahrzeug

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115052A (en) * 1998-02-12 2000-09-05 Mitsubishi Electric Information Technology Center America, Inc. (Ita) System for reconstructing the 3-dimensional motions of a human figure from a monocularly-viewed image sequence
US8351647B2 (en) * 2002-07-29 2013-01-08 Videomining Corporation Automatic detection and aggregation of demographics and behavior of people
US7558762B2 (en) * 2004-08-14 2009-07-07 Hrl Laboratories, Llc Multi-view cognitive swarm for object recognition and 3D tracking
JP2007066094A (ja) * 2005-08-31 2007-03-15 Matsushita Electric Ind Co Ltd 姿勢推定装置および姿勢推定方法
US7912264B2 (en) * 2007-08-03 2011-03-22 Siemens Medical Solutions Usa, Inc. Multi-volume rendering of single mode data in medical diagnostic imaging
JP2010079639A (ja) * 2008-09-26 2010-04-08 Mazda Motor Corp 車両の歩行者検出装置

Also Published As

Publication number Publication date
WO2011154558A3 (en) 2012-03-01
EP2580739A2 (en) 2013-04-17
JP2013529801A (ja) 2013-07-22
US20130142390A1 (en) 2013-06-06
EP2395478A1 (en) 2011-12-14
US8958600B2 (en) 2015-02-17
WO2011154558A2 (en) 2011-12-15

Similar Documents

Publication Publication Date Title
JP5848341B2 (ja) 単眼3次元ポーズ推定および検出による追跡
Wang et al. Deep 3D human pose estimation: A review
Andriluka et al. Monocular 3d pose estimation and tracking by detection
Gilroy et al. Overcoming occlusion in the automotive environment—A review
Andriluka et al. People-tracking-by-detection and people-detection-by-tracking
Sridhar et al. Interactive markerless articulated hand motion tracking using RGB and depth data
Ahad Motion history images for action recognition and understanding
Choi et al. A general framework for tracking multiple people from a moving camera
Vieira et al. Stop: Space-time occupancy patterns for 3d action recognition from depth map sequences
Ahmad et al. Human action recognition using shape and CLG-motion flow from multi-view image sequences
Holte et al. Human pose estimation and activity recognition from multi-view videos: Comparative explorations of recent developments
Ji et al. Advances in view-invariant human motion analysis: A review
JP4625074B2 (ja) サインに基づく人間−機械相互作用
Vieira et al. On the improvement of human action recognition from depth map sequences using space–time occupancy patterns
Vishwakarma et al. Hybrid classifier based human activity recognition using the silhouette and cells
Del Rincón et al. Tracking human position and lower body parts using Kalman and particle filters constrained by human biomechanics
Weinland et al. Automatic discovery of action taxonomies from multiple views
Singh et al. Action recognition in cluttered dynamic scenes using pose-specific part models
Gammeter et al. Articulated multi-body tracking under egomotion
Park et al. 2D human pose estimation based on object detection using RGB-D information.
Xu et al. Integrated approach of skin-color detection and depth information for hand and face localization
López et al. Vehicle pose estimation via regression of semantic points of interest
Erbs et al. From stixels to objects—A conditional random field based approach
Shakeri et al. Detection of small moving objects using a moving camera
Dede et al. Object aspect classification and 6dof pose estimation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151126

R150 Certificate of patent or registration of utility model

Ref document number: 5848341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees