JP4295799B2

JP4295799B2 - データ駆動確率伝播を伴う人間の姿勢推定

Info

Publication number: JP4295799B2
Application number: JP2007540117A
Authority: JP
Inventors: ミン−シュアンヤン; ガンフア
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-11-05
Filing date: 2005-11-04
Publication date: 2009-07-15
Anticipated expiration: 2025-11-04
Also published as: WO2006052853A3; US20060098865A1; US7212665B2; WO2006052853A2; JP2008519357A

Description

発明者：ヤンミン−シュアン、ガンフア
［関連出願の相互参照］
本願は、発明の名称を「データ駆動確率伝播による人間の姿勢推定（Human Pose Estimation by Data Driven Belief Propagation）」といい、２００４年１１月５日に出願された米国仮特許出願第６０／６２５，４３７号、および、発明の名称を「データ駆動確率伝播を伴う人間の姿勢推定（Human Pose Estimation with Data Driven Belief Propagation）」といい、２００５年１１月３日に出願された米国特許出願第（未知）号に対する合衆国法律集第３５編第１１９条（ｅ）に基づく利益を主張するものであり、これらはその全体において参照により本明細書中に組み込まれているものとする。

［発明の分野］
本発明は、一般に、コンピュータビジョンの分野に係り、より具体的には、単一の画像から二次元的な人間の姿勢を推定することに関する。

［発明の背景］
人間の姿勢を単一の画像から推論することは、動きの分析や視覚の追跡のような応用分野の一側面であって、コンピュータビジョンにおける最も難しい問題の一つであるといってよいだろう。最近のアプローチにいくつか好ましい成果をあげたものがある。このことに関する記載は、効率的な画像構造のマッチング（Efficient Matching of Pictorial Structures）、P. FelzenszwalbおよびD. Huttenlocher共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス（IEEE Conf. on Computer Vision and Pattern Recognition）、第２巻、２０６６〜２０７３頁、２０００年や、静止画像における人体姿勢推定のための提案Ｍａｐｓ駆動ＭＣＭＣ（Proposal Maps Driven MCMC for Estimating Human Body Pose in Static Images）、M. W. LeeおよびI. Cohen共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、第２巻、３３４〜３４１頁、２００４年や、人体構成の回復：セグメント化と認識の結合（Recovering Human Body Configurations: Combining Segmentation and Recognition）、G. Mori, X. Ren, A. Efros, and J. Malik共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、第２巻、３２６〜３３３頁、２００４年、に見出すことができる。これらは、すべて、その全体において参照により本明細書中に組み込まれているものとする。

便宜上、これらのアプローチを決定論的統計学的手法に分類してもよい。決定論的手法は、決定論的最適化を応用するものであり、目的関数は、モデルと画像データとの間もしくは画像データと見本集合との間のマッチングエラーである。これらの概念の説明は、前記FelzenszwalbおよびHuttenlocher共著論文、および、単一の未較正画像から人体測定および姿勢を推定する（Estimating Anthropometry and Pose From a Single Uncalibrated Image）、C. BarrnおよびI. Kakadiaris共著、コンピュータビジョンおよび画像の理解（Computer Vision and Image Understanding）、８１（３）：２６９−２８４、２００１年３月、さらに、パラメータ−センシティブなハッシングによる高速姿勢推定（Fast Pose Estimation with Parameter- Sensitive Hashing）、G. Shakhnarovich, P. Viola, およびT. Darrell共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥ国際コンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、第２巻、７５０〜７５７頁、２００３年に見出せる。両文献は、その全体において参照により本明細書中に組み込まれているものとする。統計学的アプローチの代替的手法に、異なる身体部位の検出器を構成し、人間符号化基準（human-coded criteria）に基づいてその組み立てた構成を整列するものがある。これについての説明は、前記G. Mori, et al共著論文に記載が見出せる。

いくつかの成功例があるとはいえ、ロバストで効率的な姿勢推定を達成するためには多くの困難な課題が残されている。第一に、高次元の最適化問題を解決しなければならないので、結果的に、特定の仮定が明示的になされなければ計算が困難となる。そのような仮定には、そのアプリケーションドメインを、提案されたアルゴリズムによって管理可能とするために、背景、人間被写体（human subject）の特徴、衣類、距離等を評価するものがある。したがって、アプリケーションドメインは一般に、乱れ（clutter）のない背景、または、固定縮尺による人体に制限されていた。これらの概念についての説明は、前記BarrnおよびKakadiaris共著論文、FelzenszwalbおよびHuttenlocher共著論文、Mori, et al.共著論文に記載がある。第二に、見本集合は、満足のいく推定結果を達成するために必要なパラメータ空間を包含するに足るだけの充分な大きさがなければならない。しかし、前記Shakhnarovich著論文に記載されているように、このようにすることが、高度な計算の複雑性をもたらすことにもなる。第三に、顔を除く身体部位は衣類により生ずる外観変化が大きいため、ロバストな身体部位の検出器を構築することは困難である。このことを説明するものとして、単純な特徴の強調されたカスケードを利用した高速オブジェクト検出（Rapid Object Detection Using a Boosted Cascade of Simple Features）、P. ViolaおよびM. Jones共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、第１巻、５１１〜５１８頁、２００１年（本論文は、その全体において参照により本明細書中に組み込まれているものとする）、および、前記Mori et al.共著論文に記載が見出せる。

姿勢推定にとっての統計学的定式化のメリットは、人体部位の既存の知識（例えば、外観、形状、エッジおよび色）が利用可能であり、効率的な推論のための厳格な確率論的枠組みに統合することができることである。IoffeおよびForsyth共著論文で、身体部位のサンプルを順次引き出して、組み立てた構成を画像測定結果とマッチングさせることにより最良の予測を行うアルゴリズムが提案されている。これを説明する記載が、サンプリングによる人の探索（Finding People by Sampling）、コンピュータビジョンに関するＩＥＥＥ国際コンファレンス会議録（Proc. IEEE International Conference on Computer Vision）、１０９２〜１０９７頁、１９９９年に見出せる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。もっとも、この手法は、エッジの手がかりのみに依存するものなので、衣類を含まず、乱れ（clutter）を有する背景を含まない画像における人間の姿勢を推定する場合に最も良く適用される。Sigal et al.共著論文では、３Ｄの人間の姿勢を推定するための非パラメータ的確率伝播アルゴリズムが、人間追跡アルゴリズムの第一工程として適用された。背景の消去と複数の視点からの画像により、人間の姿勢の推定および追跡が容易となった。これらの概念の説明は、魅力的な人々：非パラメータ的確率伝播アルゴリズムを用いた四肢の柔軟なモデルの組み立て（Attractive People: Assembling Loose-Limbed Models Using Nonparametric Belief Propagation）、L. Sigal、M. Isard、B. SigelmanおよびM. Black共著、ニューラル情報処理システムの進歩１６（Advances in Neural Information Processing System 16）、ＭＩＴプレス（MIT Press）、２００４年、および、ＰＡＭＰＡＳ：コンピュータビジョンのための現実価値グラフィカルモデル（PAMPAS: Real- Valued Graphical Models for Computer Vision）、M. Isard著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、６１３〜６２０頁、２００３年、に見出せる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。

LeeおよびCohen共著論文では、単一の画像から３Ｄの人間の姿勢を推定するためにデータ駆動マルコフ連鎖モンテカルロ（ＤＤＭＣＭＣ）アルゴリズムを適用し、ＭＣＭＣアルゴリズムによって姿勢パラメータ空間をトラバースさせている。しかし、詳細な均衡条件およびマルコフ連鎖内部の収束がどのように保証されるかについては明らかではない。とりわけ、３Ｄの人体姿勢を単一の二次元（２Ｄ）画像から推論することが、奥行きの曖昧性の結果として本質的に特異問題であることが重要である。これらの概念に関する説明は、前記LeeおよびCohen共著論文、および、データ駆動マルコフ連鎖モンテカルロによる画像セグメンテーション（Image Segmentation by Data-Driven Markov Chain Monte Carlo）、Z. TuおよびS. -C. Zhu共著、パターン分析および機械知能に関するＩＥＥＥ会報（IEEE Transaction on Pattern Analysis and Machine Intelligence）、２４（５）、６５７〜６７３頁、２００２年、に見出せる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。

上記の事情に基づいて、複雑性に対処し、極端な仮定の必要性を排除するとともに、信頼できる結果を提供するよう改良された、単一の画像から人間の姿勢を推論するシステムおよび方法が必要とされている。

［発明の概要］
２Ｄ人間姿勢推定の方法は、厳密な統計学的枠組みの中で確率論的枠組みおよび推論アルゴリズムを用いる。人体姿勢は、マルコフネットワークによってモデリングされるが、そのノードは人体部位を示し、そのエッジはノード間の拘束をコード化する。各身体部位は、その形状および位置を記述する状態変数によって、マルコフネットワーク内に表現される。効率的なデータ駆動確率伝播モンテカルロアルゴリズムによって、単一の対象画像内の２Ｄ人間姿勢が推論される。このアルゴリズムは、重点サンプリング関数を含み、低レベルの視覚的手がかりから構築される。

ラベリングされた訓練画像の集合から、主成分分析によって、各身体部位の２Ｄシェイプモデルが学習される。これらのモデルは、続いて入力される対象画像内の身体部位を自動予測するための先行知識を提供する。頭部姿勢に対するデータ駆動重点サンプリングが、計算効率のよいAdaBoostに基づく顔検出器を用いて構築される。この点に関する説明は、上述のViolaおよびJones共著論文に記載を見出すことができる。

顔検出から測定された頭部の位置により拘束されて、確率論的ハフ変換によって画像内の特徴線分を抽出し、それらを集めて人間の胴に対する重点サンプリング関数を構築するための有望な候補群を形成する。この点に関する説明は、確率論的ハフ変換（A Probabilistic Hough Transform）、N. Kiryati、Y. Eldar、およびA. M. Bruckstein共著、パターン認識（Pattern Recognition）、２４（４）、３０３〜３１６頁、１９９１年、に記載を見出すことができる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。画像内の被写体に関する皮膚色モデルが、顔検出結果に基づいて構築される。そして、このモデルは、対象画像内の腕や脚などの候補身体部位を予測するサンプリング関数において利用される。身体部位に対するデータ駆動重点関数が、人間姿勢の効率的なベイズ推論のための確率伝播モンテカルロの枠組みに含まれている。予測された身体部位の動作したエッジ応答に基づいて、測定結果のモデルが構築される。

逐次的ＤＤＭＣＭＣアルゴリズムとは対照的に、本発明の方法は、推論機構を視覚的手がかりに統合する。また、本方法は、推論タスクを並列処理するとともに、それを適切な統計学的枠組み内でそれを実行する。また、身体部位のシェイプモデルは、長方形のテンプレートではなく四角形を用いて、明確に学習される。これによって、姿勢パラメータの推論が容易になる。この点についての説明は、上述のFelzenszwalbおよびHuttenlocher共著論文、IoffeおよびForsyth共著論文、およびMori, et al.共著論文に記載を見出すことができる。

乱れた背景を有する単一の画像におけるサッカー選手の姿勢を推定する場合の、本発明の方法の効果が、実験結果によって示されている。

本明細書中で記載する特徴および利点は、包括的なものではなく、とりわけ、当業者であれば、図面、明細書および請求項の記載に照らして、多くの付加的な特徴及び利点が明らかとなるであろう。また、本明細書において用いた言葉は、主に読みやすさと教育的な意図により選択したものであり、本発明の主題の輪郭を描き、その境界を定めるために選択されたものではないことに留意されたい。

本発明が備える他の利点や特徴は、以下の発明の詳細な説明および添付の特許請求の範囲を添付の図面とともに参照することで、より明確となるだろう。

［詳細な説明］
以下、本発明の複数の実施形態について詳細に説明するが、その実施例が添付図面に示されている。実際上可能な場合には、図面中で類似ないし同様の符号を用いて、類似または同様の機能を示すことがあることに留意されたい。図面は、本発明の実施形態を例示のみを目的として描写するものである。本明細書中に例示の構造や方法の代替的な実施形態が、本明細書中に記載の本発明の趣旨を逸脱することなく利用可能であることは、当業者であれば、以下の説明から容易に理解されよう。

［アーキテクチャ概観］
図１に、本発明の一実施形態によるシステム１００を示す。コンピュータシステム１１０は、入力モジュール１１２、メモリ装置１１４、記憶装置１１８、プロセッサ１２２、および出力モジュール１２４を備える。代替的実施形態において、画像プロセッサ１２０を、好ましい画像フォーマットでキャプチャしたデジタル画像として場面を知覚するために、メインプロセッサ１２２の一部として、あるいは、専用デバイスとして設けることができる。同様に、メモリ装置１１４は、スタンドアローン型メモリ装置（たとえば、ランダムアクセスメモリ（ＲＡＭ）チップ、フラッシュメモリ、など）であってもよいが、プロセッサ１２２に備わるメモリオンチップ（たとえば、キャッシュメモリ）であってもよい。記憶装置１１８としては、ハードディスクやＤＶＤ−Ｒ／ＲＷやＲＡＭ等任意の大容量記憶装置が利用できる。同様に、コンピュータシステム１１０としては、サーバ、パーソナルコンピュータ等のようなスタンドアローン型システムを用いることができる。代替的に、コンピュータシステム１１０として、より大規模なシステム、たとえばビジョンシステムを備えるロボット、の一部を利用することもできる。

本実施形態によれば、入力モジュール１１２がデータベース１４０からデジタル画像を入力する。入力モジュール１１２は、たとえば、デジタルカメラ１３０ａ（たとえば、ロボットの眼）、ビデオシステム１３０ｂ（たとえば、閉回路テレビ）、イメージスキャナ等の画像処理装置１３０から直接取り込むこともできる。あるいは、入力モジュール１１２を、たとえば、他のデータベース、他のビジョンシステム、インターネットサーバ等から情報を取り込むためのインターフェース装置として構成することもできる。ネットワークインターフェースは、ＵＳＢ、ＲＳ−２３２シリアルポート、イーサネットカード等の有線インターフェースや、たとえばブルートゥース、ＷｉＦｉ、ＩＥＥＥ８０２．１１等の無線プロトコルを用いて通信を行うよう構成された無線装置とすることができる。画像プロセッサ１２０は、入力モジュール１１２から取り込んだデジタル画像を前処理して、そのデジタル画像をプロセッサ１２２が扱う好ましいフォーマットに変換するために使用することができる。

プロセッサ１２２が処理する情報は、メモリ装置１１４に記憶されている。プロセッサ１２２が適用する１セットの命令群は、実行されると、本発明による方法を一つ以上、たとえばデータ駆動確率伝播モンテカルロアルゴリズムを実装する処理を行う。記憶装置１１４は、たとえば、そのような方法を実現するための命令群１１６のモジュールを含むものとすることができる。

プロセッサ１２２は、出力モジュール１２４を介して、たとえばネットワーク素子またはサーバ１５０ａ、ディスプレイ装置１５０ｂ、データベース１５０ｃ等の外部装置１５０に、情報を出力することができる。入力モジュールと同様、出力モジュール１２４は有線または無線とすることができる。出力モジュール１２４としては、記憶装置ドライブインターフェース（たとえば、ハードドライブまたは光学式ドライブドライバ）やネットワークインターフェース装置（たとえば、イーサネットインターフェースカード、無線ネットワークカード等）やディスプレイドライバ（たとえば、グラフィックスカード等）のような、その他の所定の情報を出力する任意の装置を用いることができる。また、出力モジュール１２４は、人間型ロボットのような自律型機械のシステムと適合的に連係動作するものとすることができる。

［ベイズ定式化およびマルコフネットワーク］
一実施形態によれば、人体構成を、図２に示すようなマルコフネットワークにより表現する。各確率変数ｘ_ｉは、身体部位ｉの姿勢パラメータ（すなわち、隠れた状態）を表す。たとえば、ｘ_ｈは頭部の姿勢を表し、ｘ_ｔは胴部の姿勢を表し、ｘ_ｒｕｌは右脚上腿部の姿勢を表す。各無向リンクは、ポテンシャル関数Ψ_ｉｊ（ｘ_ｉ，ｘ_ｊ）によって、隣接する身体部位間の拘束をモデリングする。各有向リンクは、測定尤度関数φ_ｉ（ｚ_ｉ｜ｘ_ｉ）で、身体部位ｉの画像測定結果ｚ_ｉを表す。姿勢パラメータ集合Ｘ＝｛ｘ_ｉ，ｉ∈Ｓ｝および測定結果集合Ｚ＝｛ｚ_ｉ，ｉ∈Ｓ｝（ここで、Ｓは全添え字の集合とする）がそれぞれ成り立つ。このマルコフネットワークの関節後端部分布は、

であって、Ｅは、すべての無向リンクの集合であり、νはすべての有向リンクの集合である。この点に関する説明は、上述のJordanおよびWeiss共著論文に記載を見出すことができる。結果的に、姿勢推定問題は、周縁後端部分布Ｐ（ｘ_ｉ｜Ｚ）を推定するベイズ推論問題として定式化されることとなる。

数式（１）を直接計算することは、すべてのＰ（ｘ_ｉ｜Ｚ）ごとに実数値確率変数の積分を数多行わなければならないので、困難である。代替案として、確率伝播アルゴリズムが、そのような推論問題の効率的な解法を提供する。一実施形態によって、局所的なメッセージパッシング（たとえば、ローカルコンピュテーション）により容易化された確率伝播のためのモンテカルロ法を適用する。この点についての説明は、順次確率伝播によるマルチスケールビジュアルトラッキング（Multi-scale Visual Tracking by Sequential Belief Propagation）、G. HuaおよびY. Wu共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、８２６〜８３３頁、２００４年に記載を見出すことができる。

［姿勢のパラメータ表示］
次に図３を参照すると、本発明の一実施形態による人間姿勢推定のための方法３００が図示されている。人間被写体の一つ以上の訓練画像を入力し、その身体部位をラベリングする（３０８）。画像は、たとえば、入力装置１１２によりカメラシステム１３０またはデータベース１４０から入力することができる。訓練画像は手作業でラベリングしても自動手段を介してラベリングしてもよい。利用可能な複数の訓練画像は、相互に無関係なものであってもよく、異なる被写体を描写したものであってもかまわない。各身体部位は、上述のFelzenszwalbおよびHuttenlocher共著ならびにMori et al.共著が採用している方法で四角形のシェイプでラベリングされている。しかし、入力された画像において身体部位の輪郭は通常平行線をなすわけではないので、本実施形態によれば、身体部位は必ずしも長方形や台形でモデリングされるわけではない。手作業によりラベリングされた画像のいくつかの例を図４に図示する。

次に、身体部位の２Ｄシェイプモデルを生成する（３０９）。それぞれの手作業でラベリングされた四角形ごとに、身体の外郭に沿った線を左右の線に定め、他の２本の線を上下の線に定める。四角形のシェイプの質量中心をその原点として選択することによって各身体部位の局所座標系を定義する。この局所座標系が全体画像の座標系の回転および平行移動を表すように、そのＹ軸を上線の中点から下線の中点に配置し、そのＸ軸をＹ軸に垂直に配置する。そして、それぞれのラベリングされたシェイプを、準拠枠に対して回転し、Ｘ軸Ｙ軸の両方向に正規化する。たとえば、図５に示すように、左右の線の間のＸ軸方向の幅を４０ピクセルに正規化し、上下の線の間のＹ軸方向の高さを５０ピクセルに正規化する。そして、正規化されたシェイプは、それぞれ、四つの頂点の座標を時計回りに列挙することによって、８次元ベクトルで表現される。正規化されたシェイプは、記憶装置１１８またはデータベース１５０ｃに記憶することができる。

次に、前記８次元の正規化された身体部位のシェイプの各集合に対して、次元を減らすために、確率論的主成分分析（ＰＣＡ）を適用する（３１０）。この点に関する説明は、確率論的主成分分析（Probabilistic Principle Component Analysis）、M. E. TippingおよびC. M. Bishop共著、王立統計学協会機関誌（Journal of Royal Statistical Society）、シリーズＢ、６１（３）：６１１〜６２２頁、１９９９年に記載を見出すことができる。以下、確率論的ＰＣＡで学習されたシェイプモデルを、どのように、身体部位に対する重点サンプリング関数の構築に利用するかについて説明する。形状（シェイプ）のばらつきはその９９％が上位３つの主成分で保持されていることが実験により発見されている。各身体部位ｉ∈Ｓに対し次元を減らしたシェイプ表現は、ｐｓ_ｉとして表される。したがって、身体部位ｉの２Ｄ姿勢は、ｐｓ_ｉの回転θ、スケーリングｓ_ｘ，ｓ_ｙ、およびＸとＹの両方向における並行移動ｔ_ｘ，ｔ_ｙ、たとえば、
ｘ_ｉ＝｛ｐｓ_ｉ，ｓ_ｘ，ｓ_ｙ，θ，ｔ_ｘ，ｔ_ｙ｝（２）
によって表すことができる。ここで、ｐｓ_ｉを、内部姿勢パラメータと呼び、他のパラメータを外部姿勢パラメータと呼ぶ。低次元シェイプ表現を学習することによって、もとの１３次元状態空間は、８次元に次元を減らすので、効率的なサンプリングが容易になる。低次元の正規化されたシェイプも、記憶装置１１８またはデータベース１５０ｃに記憶することができる（３１２）。図６に、右腕上膊部に対する元々のラベリングされたシェイプの例、対応する正規化されたシェイプ、および確率論的ＰＣＡから再構成された対応するシェイプを示す。再構成されたシェイプが、元のラベリングされたシェイプとよく一致することが明らかである。

［ポテンシャル関数および尤度モデル］
次に、姿勢推定のために対象画像を取得する（３１３）。そして、ポテンシャル関数Ψ_ｉｊによって、隣接する身体部位間の姿勢拘束をモデリングする（３１４）。姿勢推定のためには、隣接する身体部位に課される自然拘束は、ゆるやかに連結された性質を有するものとすべきである。この点についての説明は、上述のSigal et al.共著論文に記載を見出すことができる。したがって、ガウス分布によって、隣接する身体部位のリンクポイント間ユークリッド距離を、たとえば次のようにモデリングする。

図７に、身体部位のすべてのリンクポイントを示す。ここで、円形のポイントの対はそれぞれリンクポイント対を表している。本実施形態によれば、リンクポイントは、シェイプの下線または上線の角部のポイントまたは中点のポイントである。たとえば、左腕上膊部の胴部に連結するリンクポイントは、左腕上膊部シェイプの左線と下線との角部ポイントとして定義され、胴部の左腕上膊部に連結するリンクポイントも、胴部シェイプの左下角部の角部ポイントとして定義される。左腕上膊部の左腕下膊部に連結するリンクポイントは、左腕上膊部シェイプの上線の中点のポイントにより表され、左腕下膊部の左腕上膊部に連結するリンクポイントは、左腕下膊部シェイプの下線の中点のポイントとして定義される。

オブジェクトの概観またはテクスチャは、顔検出のようなタスクにおいては、成功裡に活用されてきたが、衣類のせいで視覚上の大幅なばらつきを生ずるため、姿勢推定の目的には、身体の輪郭情報が、利用可能な唯一のめぼしい手がかりといえるかもしれない。本実施形態により、身体部位の姿勢仮説の境界線に沿って動作したエッジ応答の平均に基づいて尤度関数φ_ｉを構築する。この点についての説明は、画像およびビデオの中の人々の統計を学習する（Learning the Statistics of People in Image and Video）、H. SidenbladhおよびM. Black共著、コンピュータビジョンの国際雑誌（International Journal of Computer Vision）、５４（１−３）：１８３〜２０９頁、２００３年の記載に見出すことができる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。たとえば、一つの線分ｌの回転角がαであり、線上のポイントの総数がＮ_ｌであるとした場合に、動作したエッジ応答の平均は、次のように表される。

ここで、ε_ｘおよびε_ｙは、ＸおよびＹ方向における動作したエッジ応答であり、ε_ｍは、動作したエッジ応答の最大値である。Sidenbladh論文の記載とは異なり、この動作したエッジ応答は、異なる尺度（scales）に従って計算されるわけではない。なぜなら、異なる尺度間で動作したエッジ応答の平均によって動作したエッジ応答が識別しにくくなってしまうことが考えられるからである。そうではなく、動作したエッジ応答は、たとえば、赤−緑−青（ＲＧＢ）の色成分チャンネルのそれぞれにおいて計算される。したがって、仮定された身体部位ｘ_ｉのそれぞれに対する赤と緑と青のチャンネルにおけるエッジ応答は、

頭部と胴部に対しては、シェイプ姿勢仮説の４本の線分すべてを用いて動作したエッジ応答の平均が計算されるが、他の身体部位に対しては、左右の線分のみに基づいて動作したエッジ応答の平均が計算される。すべての動作したエッジ応答は、０と１の間で正規化されているので、尤度関数は、たとえば、次式の、最大の動作したエッジ応答に基づいて導出される（３１５）。

本実施形態では、経験的な研究の結果に基づく、異なる色チャンネルから最大の動作したエッジ応答が用いられる。それらの研究から、平均エッジ応答よりも最大エッジ応答を用いて、より効果的な識別が実現可能となることが明らかとなっている。Gibbsの提案になる尤度モデルが試みられたが、パフォーマンスはそれほど満足のいくものではなかった。可能な説明としては、尤度推定のためのGibbsモデルを学習する前に身体の輪郭をうまく抽出できるように、背景の消去が利用されていることが考えられる。この点についての説明は、ベイズ追跡のためのGibbs尤度（Gibbs Likelihoods for Bayesian Tracking）、S. Roth、L. SigalおよびM. Black共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス（IEEE Conf. on Computer Vision and Pattern Recognition）の会議録、第１巻、８８６〜８９３頁、２００４年の記載に見出すことができる。やはり、人間姿勢が単一の画像から推定されるべきである以上、背景の消去は本実施形態では適用できない。

一実施形態にしたがって、データ駆動確率伝播モンテカルロアルゴリズム（ＤＤＢＰＭＣ）で、実数値によるグラフィカルモデルによってベイズ推論を行う。確率伝播は、局所的なメッセージパッシングプロセスを通じて、周縁後端部分布Ｐ（ｘ_ｉ｜Ｚ）を計算するための効率的なアルゴリズムであり、それによって、ｘ_ｊからｘ_ｉまでのメッセージが次式によって計算される：

この点についての説明は、グラフィカルモデル：確率論的推論、M. JordanおよびY. Weiss共著、脳理論とニューラルネットワークのハンドブック、２４３〜２６６頁、ＭＩＴプレス（MIT Press）、第２版、２００２年、および、低レベルビジョンの学習、W. T. FreemanおよびE. C. Pasztor共著、コンピュータビジョンに関するＩＥＥＥ国際コンファレンス会議録（Proc. IEEE International Conference on Computer Vision）、１１８２〜１１８９頁、１９９９年の記載に見出すことができる。両論文は、その全体において参照により本明細書中に組み込まれているものとする。

一実施形態によれば、確率伝播アルゴリズムは、連結されたノード間を受けわたされるメッセージを、それが収束するまで繰り返し更新し、ノードｘ_ｉについての周縁後端部分布Ｐ（ｘ_ｉ｜Ｚ）を次式によって効率的に計算することができる。

ポテンシャル関数Ψ_ｉｊ（ｘ_ｉ，ｘ_ｊ）および測定尤度φ_ｉ（ｚ_ｉ｜ｘ_ｉ）がともにガウス分布であるとき、数式（６）は解析的に求めることができるので、数式（７）が解析的に計算可能である。もっとも、測定尤度関数φ_ｉ（ｚ_ｉ｜ｘ_ｉ）が非ガウス分布でのみモデリングすることができるような状況が生ずる。その場合、メッセージｍ_ｉｊ（ｘ_ｉ）も非ガウス的となり、それにより計算が困難となる。

一実施形態にしたがって、この問題を解決し柔軟性を向上させるために、確率伝播定式化の中でモンテカルロ近似法を適用し、確率伝播モンテカルロ（ＢＰＭＣ）アルゴリズムとすることができる。メッセージｍ_ｉｊ（ｘ_ｉ）および周縁後端部分布（ｘ_ｉ｜Ｚ）の両方を加重サンプル集合として次式によって表すことができる。

これらの数式において、ｓおよびπは、それぞれ描かれたサンプルおよび付随する加重値を示す。すなわち、これらのサンプルは、分布Ｐ（ｘ_ｉ｜Ｚ）を近似するのに用いられる。確率伝播のための繰り返し計算を、図８に概要を示した加重サンプル集合に基づいて実行することができる。

非パラメータ的確率伝播とＰＡＭＰＡＳアルゴリズムの両方において、周縁後端部分布とともにメッセージがガウス混合でモデリングされ、マルコフ鎖モンテカルロ（ＭＣＭＣ）アルゴリズムによってメッセージパッシングプロセスが行われる。これらの概念の説明は、非パラメータ的確率伝播（Nonparametric Belief Propagation）、E. Sudderth, A. Ihler, W. FreemanおよびA. Willsky共著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、６０５〜６１２頁、２００３年、および、ＰＡＭＰＡＳ：コンピュータビジョンのための実数によるグラフィカルモデル（PAMPAS: Real- Valued Graphical Models for Computer Vision）、M. Isard著、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンファレンス会議録（Proc. IEEE Conf. on Computer Vision and Pattern Recognition）、６１３〜６２０頁、２００３年、の記載に見出すことができる。両論文は、その全体において参照により本明細書中に組み込まれているものとする。一方、ＢＰＭＣアルゴリズムは、加重サンプルでメッセージと周縁分布の両方をモデリングするので、メッセージパッシングプロセスの計算が、重点サンプリングによって描かれるサンプルに基づいて効率的に行える。ＢＰＭＣアルゴリズムにおいては、良い重要度関数を用いることにより効率的に計算し、よりよい推論結果を得ることができる。視覚的手がかりを用いて身体部位のサンプルを描くための良い重要度関数をどのように構築するかについて以下に示す。これらの概念について、計算効率のために特定の画像上の手がかりを活用することができるものとして、画像中のサッカー選手の姿勢を推定する適用例によって例示することとする。

［頭部姿勢に対する重要度関数］
人間の画像の中で顔を効率的に検出するのに、AdaBoostに基づく顔検出器が好結果をもたらすことがわかっている。この点についての説明は、上述のViolaおよびJones共著論文に記載を見出すことができる。もっとも、このビューに基づく検出器は、正立正面からのビューにおいて顔を検出する際最高のパフォーマンスを発揮するものであるが、この制約はマルチビューエクステンションを利用することにより緩和できる。図９（ａ）にAdaBoost検出器により検出された顔の例を示す。

この顔検出器では、一般に、生の検出結果があまり精確ではないという問題がある。たとえば、境界をなす長方形が、しばしば背景ピクセルを囲ってしまうとともに、正しい姿勢で顔を囲まないことも多い。皮膚色ピクセルは、顔を囲む長方形領域の大部分を占めることになるので、一実施形態にしたがって、長方形内のピクセルを皮膚クラスターと皮膚以外のクラスターにグルーピングするためにｋ平均法アルゴリズム（ｋ＝２）を適用する。そして、顔の長方形の中央を皮膚色ピクセルのクラスターの質量中心に再配置する。次に、四角形のシェイプを頭部シェイプの学習されたＰＣＡ部分空間上に投影することによって、数式（２）に定義したような、その内部姿勢パラメータを取得する。顔の長方形から抽出された外部パラメータとしての回転、拡大／縮小（scaling）、平行移動のパラメータとともに、近似された頭部姿勢Ｉｘ_ｈを取得する。それによって、頭部姿勢に対する重点サンプリングの関数が次式のように取得される（３１６）：

ここで、Ｉｘ_ｈはｘ_ｈの単位行列であり、Σ_ｈは対角共分散行列である。

［腕部と脚部の姿勢に対する重要度関数］
サッカー選手は、しばしば半袖シャツと短パンを着用するので、皮膚の色が腕の下膊部および脚の上腿部の領域を特定するための目立った手がかりとなる。一実施形態によれば、次に、前記のように取得された皮膚の色のクラスターのピクセルから皮膚の色のモデルを構築する（３２０）。皮膚の色のクラスターの正規化したＲＧＢピクセル値から２Ｄ色ヒストグラムを計算する。すべてのバリエーション（たとえば、照明や人種の要因からもたらされる差異）を説明する一般的な皮膚色モデルを開発することは困難で多くの時間を要するが、姿勢の推定のために考慮された人間被写体に固有の皮膚色モデルを構築することは比較的容易で効果的なので、皮膚色領域を閾値で効果的に抽出することができる。図９（ｂ）に学習された皮膚色ヒストグラムを用いたいくつかのセグメンテーション結果を、図９（ｃ）に小さな「ブロブ（blobs）」を除去した後に得られた最もフィットする四角形を示す。皮膚調ブロブの数は身体部位の数と必ずしも一致しないことに留意されたい。

人間の頭部位置に対する、形状、寸法、位置、向き等の幾何学的手がかりを利用して、これらの最もフィットする長方形から腕の下膊部および脚の上腿部身体部位に対する適切な姿勢仮説を生成することができる。そこでは、まず、それぞれ対応する下膊部および上腿部仮説のリンクポイントに対してシェイプを回転させることによって腕の上膊部および脚の下腿部に対する仮説を生成する。そして、それぞれの回転角度に対して、数式（４）および（５）を用いたエッジ応答に基づいて、画像の尤度を求める。上膊部および下腿部の部位に対する最も高い尤度を有する仮説を、重要度関数のために選択する。図９（ｄ）に、この上膊部および下腿部のそれぞれに対する一仮説を示す。腕部および脚部姿勢に対する重点サンプリングの関数は、これらの仮説のガウス混合によってモデリングされる（３２４）。すなわち、身体部位ｉに対するＫ個の適切な姿勢仮説Ｉｘ_ｉ ^（ｎ）（ｎ＝１，・・・，Ｋ）を取得した後で、次式の重要度関数からサンプルを描く。

ここで、Σ_ｉは対角共分散行列である。少数の（その数が小さすぎると悪影響があるかもしれないが）Ｋ個の適切な仮説によって効率的なサンプリングと推論のプロセスが容易になることが特記される。Ｋの最適な値が何かは用途によって変わってくる。一実施形態によれば、Ｋの値として８を用いる。

［胴部姿勢に対する重要度関数］
胴部は他のほとんどの身体部位と連結する部位なので、胴部領域を特定することは、人間姿勢推定における最も重要なタスクであるといえるかもしれない。しかし、胴部は通常衣類をまとっていることから外観上のばらつきが大きいため、その検出は困難である。また、胴部は、通常、検出プロセスを容易にしてくれるような目立った画像上の手がかり、たとえば、色やテクスチャがない。一実施形態によれば、確率論的ハフ変換から線分を抽出し（３２８）、胴部に対する適切なシェイプの仮説を組み立てるために利用する。この点に関する説明は、上述のKiryatiおよびEldar共著論文に記載を見出すことができる。

まず、キャニー（Canny）エッジ検出器を使用してエッジマップを構築してから、確率論的ハフ変換を実行して、実質的に水平な線分および実質的に垂直な線分を検出する。垂直な線分のペアｌ_ｖ１，ｌ_ｖ２、および、水平な線分のペアｌ_ｈ１，ｌ_ｈ２の組み合わせごとに、組み立てたシェイプの角部のポイントをそれぞれ、ｐ_{ｖ１，ｈ１}、ｐ_{ｖ１，ｈ２}、ｐ_{ｖ２，ｈ１}、ｐ_{ｖ２，ｈ２}とする。胴部の仮説は、画像の範囲内にｐ_{ｖ１，ｈ１}、ｐ_{ｖ１，ｈ２}、ｐ_{ｖ２，ｈ１}、ｐ_{ｖ２，ｈ２}が存在するという制約に従って、次のような基準によって特定される目的関数で最適化問題を解決することによって、取得される：
１．適切な胴部仮説の正規化されたシェイプは、誤差を最小とする胴部の学習されたＰＣＡ部分空間によって再構築されなければならない、
２．適切な仮説を立てた胴部はできるだけ検出した顔に近いものでなければならない、
３．２本の垂直線ｌ_ｖ１，ｌ_ｖ２は、組み立てられたシェイプの中で、できるだけ対称でなければならない。

前記最適化問題を解くことによって得られたＭ個の胴部仮説Ｉｘ_ｔ ^（ｎ）（ｎ＝１，・・・，Ｍ、通常Ｍ＜１０）のそれぞれについて、キャニー検出器により尤度β_ｔ ^（ｎ）で抽出されたエッジの応答を、数式（４）および（５）に類似する関数を用いて計算する。胴部姿勢に対する重点サンプリング関数は、たとえば次のようなガウス混合により特定される（３３２）。

ここで、Σ_ｔは、対角共分散行列である。図１０（ａ）に図９（ａ）のサッカー選手を再掲する。図１０（ｂ）には、確率論的ハフ変換に基づく、検出された実質的に水平な線分および実質的に垂直な線分の一例が示されており、図１０（ｃ）には、対応する胴部の仮説が示されている。水平線および垂直線を用いる組合せの数は大きいが、前記最適化問題を解くことで大幅に胴部仮説の数を減らす（たとえば、Ｍ＜１０）ことになるので、効率的かつ効果的な推論が容易になる。

一実施形態にしたがって、次に、身体部位に対するデータ駆動重要度関数を前記図１の確率伝播モンテカルロの枠組みに組み込む。数式（１）を、図８に概要を示したような、たとえばメッセージパッシング等の確率伝播を行う（３３６）ことによって解く。これは、たとえば、プロセッサ１２２およびプログラム１１６を用いて、局所計算により達成することができる。

本発明の方法の特定の実施形態について説明してきたが、他の実施形態が可能であることは、当業者であれば理解されよう。たとえば、頭部姿勢、腕部および脚部姿勢、および胴部に対するデータ駆動重点サンプリング（それぞれ、ステップ３１６、３２４、３３２）は、上述のように順次実行されるのではなく、並列的に実行してもよい。

［実験結果］
本発明の方法をサッカー選手の画像における姿勢推定に適用した。この方法が他の画像領域における人間姿勢の推定にも拡張可能であることは、当業者であれば理解されるだろう。上述の尤度関数の有効性を示すために、多くの左脚下腿部の仮説を、図１１（ａ）に示すように、正しくラベリングした身体部位を水平方向に平行移動させることによって、生成した。対応する尤度を図１１（ｂ）に示す。ここで、正しいラベリング位置、すなわち、水平方向平行移動がゼロの位置で、最大尤度となることが示されている。次に小さい二つのピークは、シェイプ姿勢の左右の線のうちの一方が、画像中の左脚下腿部の境界線に揃っている場合に対応する。他の身体部位に対する尤度の分布は、胴部に対する尤度モデルが正しいラベリング位置でピークとはならず（ノイズを有するエッジ応答のために）より局所的なピークを有するものとなることがあることを除けば、図１１（ｂ）と同様である。これは、ただエッジのみを手がかりに用いて胴部の尤度モデルを構築することが困難なためである。

各身体部位に対するＰＣＡ部分空間を学習するために、５０枚のサッカー選手の訓練画像を１セット集めて、人体部位の四角形のシェイプおよび姿勢を手作業でラベリングした。姿勢推定実験のために、３０枚のサッカー選手の訓練画像をもう１セット集めて、身体部位を最初に手作業で特定して「グラウンドトゥルース（ground truth）」を定めた。これらの画像は、衣類や観視角度によって生ずるオクルージョンとともに姿勢および背景におけるばらつきが大きい人間を表すものとなった。数式（１０）〜（１２）の重要度関数における対角共分散行列の値をこれらの訓練画像セットから実験的に学習した。

一実施形態による、単一の対象画像における姿勢推定の実験結果を図１２に示す。ここで、身体部位の最も良く推定されたシェイプおよび配置を四角形で示してある。本実施形態では、身体部位のそれぞれについて５００枚のサンプルを描いており、ＤＤＢＰＭＣアルゴリズムのメッセージパッシングプロセスを６回繰り返している。その結果を見ると、身体部位が異なる姿勢、背景、観視角度、照明条件のコンテクストに現れたとしても、本発明の方法がその身体部位を特定しその姿勢を適切に推定することができることがわかる。さらに、たとえば、図１２（ｅ）〜（ｆ）のようにオクルージョンが激しい姿勢であっても、この方法は、視覚的手がかりからデータ駆動重点サンプリングを行っているおかげで、その姿勢を推論することができる。たとえば、図１２（ｅ）の中の選手の左脚下腿部は、画像尤度および数式（１１）の重要度関数を利用した最高の姿勢推定の結果として特定されている。同様に、図１２（ｇ）〜（ｈ）の中のオクルージョンのある身体部位およびその姿勢が、本案のＤＤＢＰＭＣアルゴリズムを用いて推論されている。

四角形で囲んだ推定身体姿勢と、対応する四角形の対の角部ポイントに基づくグラウンドトゥルースとの間で二乗平均誤差（ＲＭＳＥ）を計算することによって求めた。３０枚のテスト画像にわたって、各身体部位の二乗平均誤差（ＲＭＳＥ）の平均を、全体的な前進姿勢推定の二乗平均誤差の平均とともに、図１３に示す。テスト画像ごとに、身体部位すべてに対するＲＭＳＥを計算した。そして、テスト画像のすべてを含む身体部位のＲＭＳＥを計算した。最初の比較において、上述のLeeおよびCohen共著論文で報告されている２０枚のテスト画像の結果に対して、テスト集合が異なるものであるとはいえ、本発明の方法のＲＭＳＥの方が大きいように見える。もっとも、LeeおよびCohenではもっぱら関節位置の精度を評価するものであったのに対し、本発明は、それぞれの身体部位ごとの４ポイントの精度を計算しているので、直接ＲＭＳＥを比較するのは妥当ではない。また、本発明の評価のポイント集合におけるポイントの数は、LeeおよびCohenが用いた数より大きい。もう一つの複雑な要因として、身体部位および姿勢をラベリングする際の衣類による被覆や被写体のバリエーションの結果として、身体部位の「グラウンドトゥルース」が何かを判定することの難しさがあげられる。最後に、３０枚のテスト画像間の全体のＲＭＳＥ分布を示すために、各画像の平均ＲＭＳＥを図１４に示す。

本発明の利点は、単一の対象画像から２Ｄの人間姿勢を推定するシステムおよび方法を含む。マルコフネットワークと、重点サンプリング関数を用いたデータ駆動モンテカルロアルゴリズムとにより、効率的な確率論的推論がもたらされる。本発明の方法は、全体的な身体構造に基づく推論機構と身体部位の細部の特徴に基づく推論機構とを統合する。このアルゴリズムでは、並列推論タスクの実行が可能である。実験結果が本発明の方法の有効性を示している。

当業者であれば、単一の画像から２Ｄの人間姿勢を推定するシステムおよび方法のためのさらなる代替的な設計を理解するであろう。従って、本発明は、本明細書中に開示した精確な構成および構成要素に限定されるものではなく、本明細書中に開示した本発明の方法および装置の配置や作用や詳細に対して、添付の特許請求の範囲に記載の本発明の趣旨および範囲を逸脱することなく、当業者にとって明らかであるような様々な修正や変更や変形を施すことができるものと理解されるべきである。

本発明の一実施形態によるシステムを示す。本発明の一実施形態によるマルコフネットワークを示す。本発明の一実施形態による人間姿勢を推定する方法を示す。本発明の一実施形態による複数の手作業でラベリングした画像を示す。本発明の一実施形態によるラベリングした画像の正規化を示す。本発明の一実施形態による右腕上膊部の原シェイプ、正規化されたシェイプ、および再構成されたシェイプを示す。本発明の一実施形態によるリンクポイント対を示す。本発明の一実施形態による確率伝播モンテカルロアルゴリズムを示す。図９（ａ）は、本発明の一実施形態によるAdaBoost顔検出器により検出された顔を示す。図９（ｂ）は、本発明の一実施形態による画像固有皮膚色セグメンテーションを示す。図９（ｃ）は、本発明の一実施形態によるフィッティングされた下膊部および上脚部の仮説表現を示す。図９（ｄ）は、本発明の一実施形態による上膊部および下脚部の仮説表現を示す。図１０（ａ）は、原画像を示す。図１０（ｂ）は、本発明の一実施形態により抽出された線分を示す。図１０（ｃ）は、本発明の一実施形態により図１０（ｂ）の線分から組み立てた胴の仮説表現を示す。図１１（ａ）は、本発明の一実施形態による左下脚部の正しい位置に対する水平方向の平行移動を示す。図１１（ｂ）は、本発明の一実施形態による正しい位置からの平行移動された左下脚部の仮説表現の尤度を示す。本発明の一実施形態に基づく人間姿勢推定の実験結果を示す。本発明の一実施形態によるテスト画像集合のそれぞれについて関連付けた全体二乗平均誤差を示す。テスト画像集合のそれぞれについて関連付けた全体二乗平均誤差を示す。

Claims

デジタル画像内の人間被写体の姿勢を推定するための方法であって、
それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力し、
前記訓練身体部位をそれぞれ四角形でラベリングし、
前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元（２Ｄ）シェイプモデルを、各シェイプモデルに関連づけされる少なくとも１つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成し、
少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力し、
前記二次元（２Ｄ）シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
前記対象デジタル画像内の少なくとも１つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する
ことを特徴とする方法。
次元数を減らすために、前記２Ｄシェイプモデルに主成分分析を適用することをさらに特徴とする請求項１の方法。
前記２Ｄシェイプモデルを記憶することをさらに特徴とする請求項１の方法。
デジタル画像内の人間被写体の姿勢を推定するための方法であって、
前記方法は、
それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力し、
前記訓練身体部位をそれぞれ四角形でラベリングし、
前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元（２Ｄ）シェイプモデルを、各シェイプモデルに関連づけされる少なくとも１つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成し、
少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力し、
前記二次元（２Ｄ）シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
前記対象デジタル画像内の少なくとも１つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する
ことを含み、
前記マルコフネットワークは、
各ノードが対象身体部位集合に属する一つの身体部位の姿勢パラメータを表す、ノードの第１集合と、
各ノードが前記対象身体部位集合に属する一つの身体部位の測定結果を表す、ノードの第２集合と、
それぞれのリンクが、ノードの前記第１集合に属する二つのノードを接続し、第１の関数に従って前記対象身体部位集合に属する隣接する二つの身体部位間の拘束をモデリングする、無向リンクの集合と、
それぞれのリンクがノードの前記第１集合に属する一つのノードからノードの前記第２集合に属する一つのノードに向かい、第２の関数に従って対応する測定結果の尤度を表す、有向リンクの集合と
を備え、
前記第２の関数は、前記第１の関数とは異なる
ことを特徴とする方法。
前記確率伝播モンテカルロアルゴリズムは、反復的に実行されるものであり、重点サンプルに基づくメッセージパッシングを含むことを特徴とする請求項４の方法。
前記第１の関数は、

であって、
ｘ_ｉおよびｘ_ｊは、ノードの前記第１集合に属する前記二つのノードを表し、
||・||は、ユークリッド距離関数であり、
expは、自然指数関数であり、
σ^２ _ｉｊは、前記ラベリングされた身体部位から学習された分散であり、

また、前記第２の関数は、

であって、
ｘ_ｉは、ノードの前記第１集合に属する前記一つのノードを表し、
ｚ_ｉは、ノードの前記第２集合に属する前記一つのノードを表し、
max(・)は、最大値関数を表し、

ことを特徴とする請求項５の方法。
前記対象人間被写体の顔部領域を検出し、
前記検出された顔領域から皮膚色モデルを構築し、
前記対象人間被写体の胴領域のエッジマップを構築し、
前記エッジマップから略水平な線分および略垂直な線分の集合を抽出する
ことをさらに特徴とする請求項６の方法。
前記重点サンプルは、頭部姿勢、腕部姿勢、脚部姿勢、および胴部姿勢に対応する重要度関数から描画され、
前記頭部姿勢は、前記顔領域を用いて導出され、
前記腕部姿勢および前記脚部姿勢は、前記皮膚色モデルを用いて導出され、
前記胴部姿勢は、前記線分を用いて導出される
ことを特徴とする請求項７の方法。
前記マルコフネットワークの関節後端部分布は、

であって、
Ｘは、すべてのｘ_ｉの集合を表し、Ｚはすべてのｚ_ｉの集合を表す
ことを特徴とする請求項８の方法。
デジタル画像内の人間被写体の姿勢を推定するための装置であって、
それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力するとともに、
少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力する
よう構成された入力モジュールと、
前記訓練身体部位をそれぞれ四角形でラベリングし、
前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元（２Ｄ）シェイプモデルを、各シェイプモデルに関連づけされる少なくとも１つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成して、
前記二次元（２Ｄ）シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
前記対象デジタル画像内の少なくとも１つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する
よう構成されたプロセッサモジュールと
を備えることを特徴とする装置。
デジタル画像内の人間被写体の姿勢を推定するための装置であって、
それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力する手段と、
前記訓練身体部位をそれぞれ四角形でラベリングする手段と、
前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元（２Ｄ）シェイプモデルを、各シェイプモデルに関連づけされる少なくとも１つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成する手段と、
少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力する手段と、
前記二次元（２Ｄ）シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
前記対象デジタル画像内の少なくとも１つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する手段と
を備えることを特徴とする装置。
デジタル画像内の人間被写体の姿勢を推定するための方法をコンピュータに実現させるプログラムであって、
前記プログラムは、
前記コンピュータに対して、
それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力し、
前記訓練身体部位をそれぞれ四角形でラベリングし、
前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元（２Ｄ）シェイプモデルを、各シェイプモデルに関連づけされる少なくとも１つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成し、
少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力し、
前記二次元（２Ｄ）シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
前記対象デジタル画像内の少なくとも１つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する処理を行わせる
ことを特徴とするプログラム。
前記確率伝播モンテカルロアルゴリズムは、
反復され、重点サンプルに基づくメッセージパッシングを含む
ことを特徴とする請求項１の方法。
前記確率伝播モンテカルロアルゴリズムは、
データ駆動重点サンプリングに基づき局部推論を並列的に行う
ことを特徴とする請求項１の方法。
前記確率伝播モンテカルロアルゴリズムは、
データ駆動重点サンプリングに基づき局部推論を並列的に行う
ことを特徴とする請求項４の方法。
前記確率伝播モンテカルロアルゴリズムは、
反復され、重点サンプルに基づくメッセージパッシングを含む
ことを特徴とする請求項１０の装置。
前記確率伝播モンテカルロアルゴリズムは、
データ駆動重点サンプリングに基づき局部推論を並列的に行う
ことを特徴とする請求項１０の装置。
前記確率伝播モンテカルロアルゴリズムは、
反復され、重点サンプルに基づくメッセージパッシングを含む
ことを特徴とする請求項１１の装置。
前記確率伝播モンテカルロアルゴリズムは、
データ駆動重点サンプリングに基づき局部推論を並列的に行う
ことを特徴とする請求項１１の装置。
前記確率伝播モンテカルロアルゴリズムは、
反復され、重点サンプルに基づくメッセージパッシングを含む
ことを特徴とする請求項１２のプログラム。
前記確率伝播モンテカルロアルゴリズムは、
データ駆動重点サンプリングに基づき局部推論を並列的に行う
ことを特徴とする請求項１２のプログラム。