JP4295799B2 - データ駆動確率伝播を伴う人間の姿勢推定 - Google Patents

データ駆動確率伝播を伴う人間の姿勢推定 Download PDF

Info

Publication number
JP4295799B2
JP4295799B2 JP2007540117A JP2007540117A JP4295799B2 JP 4295799 B2 JP4295799 B2 JP 4295799B2 JP 2007540117 A JP2007540117 A JP 2007540117A JP 2007540117 A JP2007540117 A JP 2007540117A JP 4295799 B2 JP4295799 B2 JP 4295799B2
Authority
JP
Japan
Prior art keywords
posture
target
body part
shape model
digital image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007540117A
Other languages
English (en)
Other versions
JP2008519357A (ja
JP2008519357A5 (ja
Inventor
ミン−シュアン ヤン
ガン フア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2008519357A publication Critical patent/JP2008519357A/ja
Publication of JP2008519357A5 publication Critical patent/JP2008519357A5/ja
Application granted granted Critical
Publication of JP4295799B2 publication Critical patent/JP4295799B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

発明者:ヤン ミン−シュアン、ガン フア
[関連出願の相互参照]
本願は、発明の名称を「データ駆動確率伝播による人間の姿勢推定(Human Pose Estimation by Data Driven Belief Propagation)」といい、2004年11月5日に出願された米国仮特許出願第60/625,437号、および、発明の名称を「データ駆動確率伝播を伴う人間の姿勢推定(Human Pose Estimation with Data Driven Belief Propagation)」といい、2005年11月3日に出願された米国特許出願第(未知)号に対する合衆国法律集第35編第119条(e)に基づく利益を主張するものであり、これらはその全体において参照により本明細書中に組み込まれているものとする。
[発明の分野]
本発明は、一般に、コンピュータビジョンの分野に係り、より具体的には、単一の画像から二次元的な人間の姿勢を推定することに関する。
[発明の背景]
人間の姿勢を単一の画像から推論することは、動きの分析や視覚の追跡のような応用分野の一側面であって、コンピュータビジョンにおける最も難しい問題の一つであるといってよいだろう。最近のアプローチにいくつか好ましい成果をあげたものがある。このことに関する記載は、効率的な画像構造のマッチング(Efficient Matching of Pictorial Structures)、P. FelzenszwalbおよびD. Huttenlocher共著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス(IEEE Conf. on Computer Vision and Pattern Recognition)、第2巻、2066〜2073頁、2000年や、静止画像における人体姿勢推定のための提案Maps駆動MCMC(Proposal Maps Driven MCMC for Estimating Human Body Pose in Static Images)、M. W. LeeおよびI. Cohen共著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、第2巻、334〜341頁、2004年や、人体構成の回復:セグメント化と認識の結合(Recovering Human Body Configurations: Combining Segmentation and Recognition)、G. Mori, X. Ren, A. Efros, and J. Malik共著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、第2巻、326〜333頁、2004年、に見出すことができる。これらは、すべて、その全体において参照により本明細書中に組み込まれているものとする。
便宜上、これらのアプローチを決定論的統計学的手法に分類してもよい。決定論的手法は、決定論的最適化を応用するものであり、目的関数は、モデルと画像データとの間もしくは画像データと見本集合との間のマッチングエラーである。これらの概念の説明は、前記FelzenszwalbおよびHuttenlocher共著論文、および、単一の未較正画像から人体測定および姿勢を推定する(Estimating Anthropometry and Pose From a Single Uncalibrated Image)、C. BarrnおよびI. Kakadiaris共著、コンピュータビジョンおよび画像の理解(Computer Vision and Image Understanding)、81(3):269−284、2001年3月、さらに、パラメータ−センシティブなハッシングによる高速姿勢推定(Fast Pose Estimation with Parameter- Sensitive Hashing)、G. Shakhnarovich, P. Viola, およびT. Darrell共著、コンピュータビジョンおよびパターン認識に関するIEEE国際コンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、第2巻、750〜757頁、2003年に見出せる。両文献は、その全体において参照により本明細書中に組み込まれているものとする。統計学的アプローチの代替的手法に、異なる身体部位の検出器を構成し、人間符号化基準(human-coded criteria)に基づいてその組み立てた構成を整列するものがある。これについての説明は、前記G. Mori, et al共著論文に記載が見出せる。
いくつかの成功例があるとはいえ、ロバストで効率的な姿勢推定を達成するためには多くの困難な課題が残されている。第一に、高次元の最適化問題を解決しなければならないので、結果的に、特定の仮定が明示的になされなければ計算が困難となる。そのような仮定には、そのアプリケーションドメインを、提案されたアルゴリズムによって管理可能とするために、背景、人間被写体(human subject)の特徴、衣類、距離等を評価するものがある。したがって、アプリケーションドメインは一般に、乱れ(clutter)のない背景、または、固定縮尺による人体に制限されていた。これらの概念についての説明は、前記BarrnおよびKakadiaris共著論文、FelzenszwalbおよびHuttenlocher共著論文、Mori, et al.共著論文に記載がある。第二に、見本集合は、満足のいく推定結果を達成するために必要なパラメータ空間を包含するに足るだけの充分な大きさがなければならない。しかし、前記Shakhnarovich著論文に記載されているように、このようにすることが、高度な計算の複雑性をもたらすことにもなる。第三に、顔を除く身体部位は衣類により生ずる外観変化が大きいため、ロバストな身体部位の検出器を構築することは困難である。このことを説明するものとして、単純な特徴の強調されたカスケードを利用した高速オブジェクト検出(Rapid Object Detection Using a Boosted Cascade of Simple Features)、P. ViolaおよびM. Jones共著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、第1巻、511〜518頁、2001年(本論文は、その全体において参照により本明細書中に組み込まれているものとする)、および、前記Mori et al.共著論文に記載が見出せる。
姿勢推定にとっての統計学的定式化のメリットは、人体部位の既存の知識(例えば、外観、形状、エッジおよび色)が利用可能であり、効率的な推論のための厳格な確率論的枠組みに統合することができることである。IoffeおよびForsyth共著論文で、身体部位のサンプルを順次引き出して、組み立てた構成を画像測定結果とマッチングさせることにより最良の予測を行うアルゴリズムが提案されている。これを説明する記載が、サンプリングによる人の探索(Finding People by Sampling)、コンピュータビジョンに関するIEEE国際コンファレンス会議録(Proc. IEEE International Conference on Computer Vision)、1092〜1097頁、1999年に見出せる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。もっとも、この手法は、エッジの手がかりのみに依存するものなので、衣類を含まず、乱れ(clutter)を有する背景を含まない画像における人間の姿勢を推定する場合に最も良く適用される。Sigal et al.共著論文では、3Dの人間の姿勢を推定するための非パラメータ的確率伝播アルゴリズムが、人間追跡アルゴリズムの第一工程として適用された。背景の消去と複数の視点からの画像により、人間の姿勢の推定および追跡が容易となった。これらの概念の説明は、魅力的な人々:非パラメータ的確率伝播アルゴリズムを用いた四肢の柔軟なモデルの組み立て(Attractive People: Assembling Loose-Limbed Models Using Nonparametric Belief Propagation)、L. Sigal、M. Isard、B. SigelmanおよびM. Black共著、ニューラル情報処理システムの進歩 16(Advances in Neural Information Processing System 16)、MITプレス(MIT Press)、2004年、および、PAMPAS:コンピュータビジョンのための現実価値グラフィカルモデル(PAMPAS: Real- Valued Graphical Models for Computer Vision)、M. Isard著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、613〜620頁、2003年、に見出せる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。
LeeおよびCohen共著論文では、単一の画像から3Dの人間の姿勢を推定するためにデータ駆動マルコフ連鎖モンテカルロ(DDMCMC)アルゴリズムを適用し、MCMCアルゴリズムによって姿勢パラメータ空間をトラバースさせている。しかし、詳細な均衡条件およびマルコフ連鎖内部の収束がどのように保証されるかについては明らかではない。とりわけ、3Dの人体姿勢を単一の二次元(2D)画像から推論することが、奥行きの曖昧性の結果として本質的に特異問題であることが重要である。これらの概念に関する説明は、前記LeeおよびCohen共著論文、および、データ駆動マルコフ連鎖モンテカルロによる画像セグメンテーション(Image Segmentation by Data-Driven Markov Chain Monte Carlo)、Z. TuおよびS. -C. Zhu共著、パターン分析および機械知能に関するIEEE会報(IEEE Transaction on Pattern Analysis and Machine Intelligence)、24(5)、657〜673頁、2002年、に見出せる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。
上記の事情に基づいて、複雑性に対処し、極端な仮定の必要性を排除するとともに、信頼できる結果を提供するよう改良された、単一の画像から人間の姿勢を推論するシステムおよび方法が必要とされている。
[発明の概要]
2D人間姿勢推定の方法は、厳密な統計学的枠組みの中で確率論的枠組みおよび推論アルゴリズムを用いる。人体姿勢は、マルコフネットワークによってモデリングされるが、そのノードは人体部位を示し、そのエッジはノード間の拘束をコード化する。各身体部位は、その形状および位置を記述する状態変数によって、マルコフネットワーク内に表現される。効率的なデータ駆動確率伝播モンテカルロアルゴリズムによって、単一の対象画像内の2D人間姿勢が推論される。このアルゴリズムは、重点サンプリング関数を含み、低レベルの視覚的手がかりから構築される。
ラベリングされた訓練画像の集合から、主成分分析によって、各身体部位の2Dシェイプモデルが学習される。これらのモデルは、続いて入力される対象画像内の身体部位を自動予測するための先行知識を提供する。頭部姿勢に対するデータ駆動重点サンプリングが、計算効率のよいAdaBoostに基づく顔検出器を用いて構築される。この点に関する説明は、上述のViolaおよびJones共著論文に記載を見出すことができる。
顔検出から測定された頭部の位置により拘束されて、確率論的ハフ変換によって画像内の特徴線分を抽出し、それらを集めて人間の胴に対する重点サンプリング関数を構築するための有望な候補群を形成する。この点に関する説明は、確率論的ハフ変換(A Probabilistic Hough Transform)、N. Kiryati、Y. Eldar、およびA. M. Bruckstein共著、パターン認識(Pattern Recognition)、24(4)、303〜316頁、1991年、に記載を見出すことができる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。画像内の被写体に関する皮膚色モデルが、顔検出結果に基づいて構築される。そして、このモデルは、対象画像内の腕や脚などの候補身体部位を予測するサンプリング関数において利用される。身体部位に対するデータ駆動重点関数が、人間姿勢の効率的なベイズ推論のための確率伝播モンテカルロの枠組みに含まれている。予測された身体部位の動作したエッジ応答に基づいて、測定結果のモデルが構築される。
逐次的DDMCMCアルゴリズムとは対照的に、本発明の方法は、推論機構を視覚的手がかりに統合する。また、本方法は、推論タスクを並列処理するとともに、それを適切な統計学的枠組み内でそれを実行する。また、身体部位のシェイプモデルは、長方形のテンプレートではなく四角形を用いて、明確に学習される。これによって、姿勢パラメータの推論が容易になる。この点についての説明は、上述のFelzenszwalbおよびHuttenlocher共著論文、IoffeおよびForsyth共著論文、およびMori, et al.共著論文に記載を見出すことができる。
乱れた背景を有する単一の画像におけるサッカー選手の姿勢を推定する場合の、本発明の方法の効果が、実験結果によって示されている。
本明細書中で記載する特徴および利点は、包括的なものではなく、とりわけ、当業者であれば、図面、明細書および請求項の記載に照らして、多くの付加的な特徴及び利点が明らかとなるであろう。また、本明細書において用いた言葉は、主に読みやすさと教育的な意図により選択したものであり、本発明の主題の輪郭を描き、その境界を定めるために選択されたものではないことに留意されたい。
本発明が備える他の利点や特徴は、以下の発明の詳細な説明および添付の特許請求の範囲を添付の図面とともに参照することで、より明確となるだろう。
[詳細な説明]
以下、本発明の複数の実施形態について詳細に説明するが、その実施例が添付図面に示されている。実際上可能な場合には、図面中で類似ないし同様の符号を用いて、類似または同様の機能を示すことがあることに留意されたい。図面は、本発明の実施形態を例示のみを目的として描写するものである。本明細書中に例示の構造や方法の代替的な実施形態が、本明細書中に記載の本発明の趣旨を逸脱することなく利用可能であることは、当業者であれば、以下の説明から容易に理解されよう。
[アーキテクチャ概観]
図1に、本発明の一実施形態によるシステム100を示す。コンピュータシステム110は、入力モジュール112、メモリ装置114、記憶装置118、プロセッサ122、および出力モジュール124を備える。代替的実施形態において、画像プロセッサ120を、好ましい画像フォーマットでキャプチャしたデジタル画像として場面を知覚するために、メインプロセッサ122の一部として、あるいは、専用デバイスとして設けることができる。同様に、メモリ装置114は、スタンドアローン型メモリ装置(たとえば、ランダムアクセスメモリ(RAM)チップ、フラッシュメモリ、など)であってもよいが、プロセッサ122に備わるメモリオンチップ(たとえば、キャッシュメモリ)であってもよい。記憶装置118としては、ハードディスクやDVD−R/RWやRAM等任意の大容量記憶装置が利用できる。同様に、コンピュータシステム110としては、サーバ、パーソナルコンピュータ等のようなスタンドアローン型システムを用いることができる。代替的に、コンピュータシステム110として、より大規模なシステム、たとえばビジョンシステムを備えるロボット、の一部を利用することもできる。
本実施形態によれば、入力モジュール112がデータベース140からデジタル画像を入力する。入力モジュール112は、たとえば、デジタルカメラ130a(たとえば、ロボットの眼)、ビデオシステム130b(たとえば、閉回路テレビ)、イメージスキャナ等の画像処理装置130から直接取り込むこともできる。あるいは、入力モジュール112を、たとえば、他のデータベース、他のビジョンシステム、インターネットサーバ等から情報を取り込むためのインターフェース装置として構成することもできる。ネットワークインターフェースは、USB、RS−232シリアルポート、イーサネットカード等の有線インターフェースや、たとえばブルートゥース、WiFi、IEEE802.11等の無線プロトコルを用いて通信を行うよう構成された無線装置とすることができる。画像プロセッサ120は、入力モジュール112から取り込んだデジタル画像を前処理して、そのデジタル画像をプロセッサ122が扱う好ましいフォーマットに変換するために使用することができる。
プロセッサ122が処理する情報は、メモリ装置114に記憶されている。プロセッサ122が適用する1セットの命令群は、実行されると、本発明による方法を一つ以上、たとえばデータ駆動確率伝播モンテカルロアルゴリズムを実装する処理を行う。記憶装置114は、たとえば、そのような方法を実現するための命令群116のモジュールを含むものとすることができる。
プロセッサ122は、出力モジュール124を介して、たとえばネットワーク素子またはサーバ150a、ディスプレイ装置150b、データベース150c等の外部装置150に、情報を出力することができる。入力モジュールと同様、出力モジュール124は有線または無線とすることができる。出力モジュール124としては、記憶装置ドライブインターフェース(たとえば、ハードドライブまたは光学式ドライブドライバ)やネットワークインターフェース装置(たとえば、イーサネットインターフェースカード、無線ネットワークカード等)やディスプレイドライバ(たとえば、グラフィックスカード等)のような、その他の所定の情報を出力する任意の装置を用いることができる。また、出力モジュール124は、人間型ロボットのような自律型機械のシステムと適合的に連係動作するものとすることができる。
[ベイズ定式化およびマルコフネットワーク]
一実施形態によれば、人体構成を、図2に示すようなマルコフネットワークにより表現する。各確率変数xは、身体部位iの姿勢パラメータ(すなわち、隠れた状態)を表す。たとえば、xは頭部の姿勢を表し、xは胴部の姿勢を表し、xrulは右脚上腿部の姿勢を表す。各無向リンクは、ポテンシャル関数Ψij(x,x)によって、隣接する身体部位間の拘束をモデリングする。各有向リンクは、測定尤度関数φ(z|x)で、身体部位iの画像測定結果zを表す。姿勢パラメータ集合X={x,i∈S}および測定結果集合Z={z,i∈S}(ここで、Sは全添え字の集合とする)がそれぞれ成り立つ。このマルコフネットワークの関節後端部分布は、
Figure 0004295799
であって、Eは、すべての無向リンクの集合であり、νはすべての有向リンクの集合である。この点に関する説明は、上述のJordanおよびWeiss共著論文に記載を見出すことができる。結果的に、姿勢推定問題は、周縁後端部分布P(x|Z)を推定するベイズ推論問題として定式化されることとなる。
数式(1)を直接計算することは、すべてのP(x|Z)ごとに実数値確率変数の積分を数多行わなければならないので、困難である。代替案として、確率伝播アルゴリズムが、そのような推論問題の効率的な解法を提供する。一実施形態によって、局所的なメッセージパッシング(たとえば、ローカルコンピュテーション)により容易化された確率伝播のためのモンテカルロ法を適用する。この点についての説明は、順次確率伝播によるマルチスケールビジュアルトラッキング(Multi-scale Visual Tracking by Sequential Belief Propagation)、G. HuaおよびY. Wu共著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、826〜833頁、2004年に記載を見出すことができる。
[姿勢のパラメータ表示]
次に図3を参照すると、本発明の一実施形態による人間姿勢推定のための方法300が図示されている。人間被写体の一つ以上の訓練画像を入力し、その身体部位をラベリングする(308)。画像は、たとえば、入力装置112によりカメラシステム130またはデータベース140から入力することができる。訓練画像は手作業でラベリングしても自動手段を介してラベリングしてもよい。利用可能な複数の訓練画像は、相互に無関係なものであってもよく、異なる被写体を描写したものであってもかまわない。各身体部位は、上述のFelzenszwalbおよびHuttenlocher共著ならびにMori et al.共著が採用している方法で四角形のシェイプでラベリングされている。しかし、入力された画像において身体部位の輪郭は通常平行線をなすわけではないので、本実施形態によれば、身体部位は必ずしも長方形や台形でモデリングされるわけではない。手作業によりラベリングされた画像のいくつかの例を図4に図示する。
次に、身体部位の2Dシェイプモデルを生成する(309)。それぞれの手作業でラベリングされた四角形ごとに、身体の外郭に沿った線を左右の線に定め、他の2本の線を上下の線に定める。四角形のシェイプの質量中心をその原点として選択することによって各身体部位の局所座標系を定義する。この局所座標系が全体画像の座標系の回転および平行移動を表すように、そのY軸を上線の中点から下線の中点に配置し、そのX軸をY軸に垂直に配置する。そして、それぞれのラベリングされたシェイプを、準拠枠に対して回転し、X軸Y軸の両方向に正規化する。たとえば、図5に示すように、左右の線の間のX軸方向の幅を40ピクセルに正規化し、上下の線の間のY軸方向の高さを50ピクセルに正規化する。そして、正規化されたシェイプは、それぞれ、四つの頂点の座標を時計回りに列挙することによって、8次元ベクトルで表現される。正規化されたシェイプは、記憶装置118またはデータベース150cに記憶することができる。
次に、前記8次元の正規化された身体部位のシェイプの各集合に対して、次元を減らすために、確率論的主成分分析(PCA)を適用する(310)。この点に関する説明は、確率論的主成分分析(Probabilistic Principle Component Analysis)、M. E. TippingおよびC. M. Bishop共著、王立統計学協会機関誌(Journal of Royal Statistical Society)、シリーズB、61(3):611〜622頁、1999年に記載を見出すことができる。以下、確率論的PCAで学習されたシェイプモデルを、どのように、身体部位に対する重点サンプリング関数の構築に利用するかについて説明する。形状(シェイプ)のばらつきはその99%が上位3つの主成分で保持されていることが実験により発見されている。各身体部位i∈Sに対し次元を減らしたシェイプ表現は、psとして表される。したがって、身体部位iの2D姿勢は、psの回転θ、スケーリングs,s、およびXとYの両方向における並行移動t,t、たとえば、
={ps,s,s,θ,t,t} (2)
によって表すことができる。ここで、psを、内部姿勢パラメータと呼び、他のパラメータを外部姿勢パラメータと呼ぶ。低次元シェイプ表現を学習することによって、もとの13次元状態空間は、8次元に次元を減らすので、効率的なサンプリングが容易になる。低次元の正規化されたシェイプも、記憶装置118またはデータベース150cに記憶することができる(312)。図6に、右腕上膊部に対する元々のラベリングされたシェイプの例、対応する正規化されたシェイプ、および確率論的PCAから再構成された対応するシェイプを示す。再構成されたシェイプが、元のラベリングされたシェイプとよく一致することが明らかである。
[ポテンシャル関数および尤度モデル]
次に、姿勢推定のために対象画像を取得する(313)。そして、ポテンシャル関数Ψijによって、隣接する身体部位間の姿勢拘束をモデリングする(314)。姿勢推定のためには、隣接する身体部位に課される自然拘束は、ゆるやかに連結された性質を有するものとすべきである。この点についての説明は、上述のSigal et al.共著論文に記載を見出すことができる。したがって、ガウス分布によって、隣接する身体部位のリンクポイント間ユークリッド距離を、たとえば次のようにモデリングする。
Figure 0004295799
図7に、身体部位のすべてのリンクポイントを示す。ここで、円形のポイントの対はそれぞれリンクポイント対を表している。本実施形態によれば、リンクポイントは、シェイプの下線または上線の角部のポイントまたは中点のポイントである。たとえば、左腕上膊部の胴部に連結するリンクポイントは、左腕上膊部シェイプの左線と下線との角部ポイントとして定義され、胴部の左腕上膊部に連結するリンクポイントも、胴部シェイプの左下角部の角部ポイントとして定義される。左腕上膊部の左腕下膊部に連結するリンクポイントは、左腕上膊部シェイプの上線の中点のポイントにより表され、左腕下膊部の左腕上膊部に連結するリンクポイントは、左腕下膊部シェイプの下線の中点のポイントとして定義される。
オブジェクトの概観またはテクスチャは、顔検出のようなタスクにおいては、成功裡に活用されてきたが、衣類のせいで視覚上の大幅なばらつきを生ずるため、姿勢推定の目的には、身体の輪郭情報が、利用可能な唯一のめぼしい手がかりといえるかもしれない。本実施形態により、身体部位の姿勢仮説の境界線に沿って動作したエッジ応答の平均に基づいて尤度関数φを構築する。この点についての説明は、画像およびビデオの中の人々の統計を学習する(Learning the Statistics of People in Image and Video)、H. SidenbladhおよびM. Black共著、コンピュータビジョンの国際雑誌(International Journal of Computer Vision)、54(1−3):183〜209頁、2003年の記載に見出すことができる。この論文は、その全体において参照により本明細書中に組み込まれているものとする。たとえば、一つの線分lの回転角がαであり、線上のポイントの総数がNであるとした場合に、動作したエッジ応答の平均は、次のように表される。
Figure 0004295799
ここで、εおよびεは、XおよびY方向における動作したエッジ応答であり、εは、動作したエッジ応答の最大値である。Sidenbladh論文の記載とは異なり、この動作したエッジ応答は、異なる尺度(scales)に従って計算されるわけではない。なぜなら、異なる尺度間で動作したエッジ応答の平均によって動作したエッジ応答が識別しにくくなってしまうことが考えられるからである。そうではなく、動作したエッジ応答は、たとえば、赤−緑−青(RGB)の色成分チャンネルのそれぞれにおいて計算される。したがって、仮定された身体部位xのそれぞれに対する赤と緑と青のチャンネルにおけるエッジ応答は、
Figure 0004295799
頭部と胴部に対しては、シェイプ姿勢仮説の4本の線分すべてを用いて動作したエッジ応答の平均が計算されるが、他の身体部位に対しては、左右の線分のみに基づいて動作したエッジ応答の平均が計算される。すべての動作したエッジ応答は、0と1の間で正規化されているので、尤度関数は、たとえば、次式の、最大の動作したエッジ応答に基づいて導出される(315)。
Figure 0004295799
本実施形態では、経験的な研究の結果に基づく、異なる色チャンネルから最大の動作したエッジ応答が用いられる。それらの研究から、平均エッジ応答よりも最大エッジ応答を用いて、より効果的な識別が実現可能となることが明らかとなっている。Gibbsの提案になる尤度モデルが試みられたが、パフォーマンスはそれほど満足のいくものではなかった。可能な説明としては、尤度推定のためのGibbsモデルを学習する前に身体の輪郭をうまく抽出できるように、背景の消去が利用されていることが考えられる。この点についての説明は、ベイズ追跡のためのGibbs尤度(Gibbs Likelihoods for Bayesian Tracking)、S. Roth、L. SigalおよびM. Black共著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス(IEEE Conf. on Computer Vision and Pattern Recognition)の会議録、第1巻、886〜893頁、2004年の記載に見出すことができる。やはり、人間姿勢が単一の画像から推定されるべきである以上、背景の消去は本実施形態では適用できない。
一実施形態にしたがって、データ駆動確率伝播モンテカルロアルゴリズム(DDBPMC)で、実数値によるグラフィカルモデルによってベイズ推論を行う。確率伝播は、局所的なメッセージパッシングプロセスを通じて、周縁後端部分布P(x|Z)を計算するための効率的なアルゴリズムであり、それによって、xからxまでのメッセージが次式によって計算される:
Figure 0004295799
この点についての説明は、グラフィカルモデル:確率論的推論、M. JordanおよびY. Weiss共著、脳理論とニューラルネットワークのハンドブック、243〜266頁、MITプレス(MIT Press)、第2版、2002年、および、低レベルビジョンの学習、W. T. FreemanおよびE. C. Pasztor共著、コンピュータビジョンに関するIEEE国際コンファレンス会議録(Proc. IEEE International Conference on Computer Vision)、1182〜1189頁、1999年の記載に見出すことができる。両論文は、その全体において参照により本明細書中に組み込まれているものとする。
一実施形態によれば、確率伝播アルゴリズムは、連結されたノード間を受けわたされるメッセージを、それが収束するまで繰り返し更新し、ノードxについての周縁後端部分布P(x|Z)を次式によって効率的に計算することができる。
Figure 0004295799
ポテンシャル関数Ψij(x,x)および測定尤度φ(z|x)がともにガウス分布であるとき、数式(6)は解析的に求めることができるので、数式(7)が解析的に計算可能である。もっとも、測定尤度関数φ(z|x)が非ガウス分布でのみモデリングすることができるような状況が生ずる。その場合、メッセージmij(x)も非ガウス的となり、それにより計算が困難となる。
一実施形態にしたがって、この問題を解決し柔軟性を向上させるために、確率伝播定式化の中でモンテカルロ近似法を適用し、確率伝播モンテカルロ(BPMC)アルゴリズムとすることができる。メッセージmij(x)および周縁後端部分布(x|Z)の両方を加重サンプル集合として次式によって表すことができる。
Figure 0004295799
これらの数式において、sおよびπは、それぞれ描かれたサンプルおよび付随する加重値を示す。すなわち、これらのサンプルは、分布P(x|Z)を近似するのに用いられる。確率伝播のための繰り返し計算を、図8に概要を示した加重サンプル集合に基づいて実行することができる。
非パラメータ的確率伝播とPAMPASアルゴリズムの両方において、周縁後端部分布とともにメッセージがガウス混合でモデリングされ、マルコフ鎖モンテカルロ(MCMC)アルゴリズムによってメッセージパッシングプロセスが行われる。これらの概念の説明は、非パラメータ的確率伝播(Nonparametric Belief Propagation)、E. Sudderth, A. Ihler, W. FreemanおよびA. Willsky共著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、605〜612頁、2003年、および、PAMPAS:コンピュータビジョンのための実数によるグラフィカルモデル(PAMPAS: Real- Valued Graphical Models for Computer Vision)、M. Isard著、コンピュータビジョンおよびパターン認識に関するIEEEコンファレンス会議録(Proc. IEEE Conf. on Computer Vision and Pattern Recognition)、613〜620頁、2003年、の記載に見出すことができる。両論文は、その全体において参照により本明細書中に組み込まれているものとする。一方、BPMCアルゴリズムは、加重サンプルでメッセージと周縁分布の両方をモデリングするので、メッセージパッシングプロセスの計算が、重点サンプリングによって描かれるサンプルに基づいて効率的に行える。BPMCアルゴリズムにおいては、良い重要度関数を用いることにより効率的に計算し、よりよい推論結果を得ることができる。視覚的手がかりを用いて身体部位のサンプルを描くための良い重要度関数をどのように構築するかについて以下に示す。これらの概念について、計算効率のために特定の画像上の手がかりを活用することができるものとして、画像中のサッカー選手の姿勢を推定する適用例によって例示することとする。
[頭部姿勢に対する重要度関数]
人間の画像の中で顔を効率的に検出するのに、AdaBoostに基づく顔検出器が好結果をもたらすことがわかっている。この点についての説明は、上述のViolaおよびJones共著論文に記載を見出すことができる。もっとも、このビューに基づく検出器は、正立正面からのビューにおいて顔を検出する際最高のパフォーマンスを発揮するものであるが、この制約はマルチビューエクステンションを利用することにより緩和できる。図9(a)にAdaBoost検出器により検出された顔の例を示す。
この顔検出器では、一般に、生の検出結果があまり精確ではないという問題がある。たとえば、境界をなす長方形が、しばしば背景ピクセルを囲ってしまうとともに、正しい姿勢で顔を囲まないことも多い。皮膚色ピクセルは、顔を囲む長方形領域の大部分を占めることになるので、一実施形態にしたがって、長方形内のピクセルを皮膚クラスターと皮膚以外のクラスターにグルーピングするためにk平均法アルゴリズム(k=2)を適用する。そして、顔の長方形の中央を皮膚色ピクセルのクラスターの質量中心に再配置する。次に、四角形のシェイプを頭部シェイプの学習されたPCA部分空間上に投影することによって、数式(2)に定義したような、その内部姿勢パラメータを取得する。顔の長方形から抽出された外部パラメータとしての回転、拡大/縮小(scaling)、平行移動のパラメータとともに、近似された頭部姿勢Ixを取得する。それによって、頭部姿勢に対する重点サンプリングの関数が次式のように取得される(316):
Figure 0004295799
ここで、Ixはxの単位行列であり、Σは対角共分散行列である。
[腕部と脚部の姿勢に対する重要度関数]
サッカー選手は、しばしば半袖シャツと短パンを着用するので、皮膚の色が腕の下膊部および脚の上腿部の領域を特定するための目立った手がかりとなる。一実施形態によれば、次に、前記のように取得された皮膚の色のクラスターのピクセルから皮膚の色のモデルを構築する(320)。皮膚の色のクラスターの正規化したRGBピクセル値から2D色ヒストグラムを計算する。すべてのバリエーション(たとえば、照明や人種の要因からもたらされる差異)を説明する一般的な皮膚色モデルを開発することは困難で多くの時間を要するが、姿勢の推定のために考慮された人間被写体に固有の皮膚色モデルを構築することは比較的容易で効果的なので、皮膚色領域を閾値で効果的に抽出することができる。図9(b)に学習された皮膚色ヒストグラムを用いたいくつかのセグメンテーション結果を、図9(c)に小さな「ブロブ(blobs)」を除去した後に得られた最もフィットする四角形を示す。皮膚調ブロブの数は身体部位の数と必ずしも一致しないことに留意されたい。
人間の頭部位置に対する、形状、寸法、位置、向き等の幾何学的手がかりを利用して、これらの最もフィットする長方形から腕の下膊部および脚の上腿部身体部位に対する適切な姿勢仮説を生成することができる。そこでは、まず、それぞれ対応する下膊部および上腿部仮説のリンクポイントに対してシェイプを回転させることによって腕の上膊部および脚の下腿部に対する仮説を生成する。そして、それぞれの回転角度に対して、数式(4)および(5)を用いたエッジ応答に基づいて、画像の尤度を求める。上膊部および下腿部の部位に対する最も高い尤度を有する仮説を、重要度関数のために選択する。図9(d)に、この上膊部および下腿部のそれぞれに対する一仮説を示す。腕部および脚部姿勢に対する重点サンプリングの関数は、これらの仮説のガウス混合によってモデリングされる(324)。すなわち、身体部位iに対するK個の適切な姿勢仮説Ix (n)(n=1,・・・,K)を取得した後で、次式の重要度関数からサンプルを描く。
Figure 0004295799
ここで、Σは対角共分散行列である。少数の(その数が小さすぎると悪影響があるかもしれないが)K個の適切な仮説によって効率的なサンプリングと推論のプロセスが容易になることが特記される。Kの最適な値が何かは用途によって変わってくる。一実施形態によれば、Kの値として8を用いる。
[胴部姿勢に対する重要度関数]
胴部は他のほとんどの身体部位と連結する部位なので、胴部領域を特定することは、人間姿勢推定における最も重要なタスクであるといえるかもしれない。しかし、胴部は通常衣類をまとっていることから外観上のばらつきが大きいため、その検出は困難である。また、胴部は、通常、検出プロセスを容易にしてくれるような目立った画像上の手がかり、たとえば、色やテクスチャがない。一実施形態によれば、確率論的ハフ変換から線分を抽出し(328)、胴部に対する適切なシェイプの仮説を組み立てるために利用する。この点に関する説明は、上述のKiryatiおよびEldar共著論文に記載を見出すことができる。
まず、キャニー(Canny)エッジ検出器を使用してエッジマップを構築してから、確率論的ハフ変換を実行して、実質的に水平な線分および実質的に垂直な線分を検出する。垂直な線分のペアlv1,lv2、および、水平な線分のペアlh1,lh2の組み合わせごとに、組み立てたシェイプの角部のポイントをそれぞれ、pv1,h1、pv1,h2、pv2,h1、pv2,h2とする。胴部の仮説は、画像の範囲内にpv1,h1、pv1,h2、pv2,h1、pv2,h2が存在するという制約に従って、次のような基準によって特定される目的関数で最適化問題を解決することによって、取得される:
1.適切な胴部仮説の正規化されたシェイプは、誤差を最小とする胴部の学習されたPCA部分空間によって再構築されなければならない、
2.適切な仮説を立てた胴部はできるだけ検出した顔に近いものでなければならない、
3.2本の垂直線lv1,lv2は、組み立てられたシェイプの中で、できるだけ対称でなければならない。
前記最適化問題を解くことによって得られたM個の胴部仮説Ix (n)(n=1,・・・,M、通常M<10)のそれぞれについて、キャニー検出器により尤度β (n)で抽出されたエッジの応答を、数式(4)および(5)に類似する関数を用いて計算する。胴部姿勢に対する重点サンプリング関数は、たとえば次のようなガウス混合により特定される(332)。
Figure 0004295799
ここで、Σは、対角共分散行列である。図10(a)に図9(a)のサッカー選手を再掲する。図10(b)には、確率論的ハフ変換に基づく、検出された実質的に水平な線分および実質的に垂直な線分の一例が示されており、図10(c)には、対応する胴部の仮説が示されている。水平線および垂直線を用いる組合せの数は大きいが、前記最適化問題を解くことで大幅に胴部仮説の数を減らす(たとえば、M<10)ことになるので、効率的かつ効果的な推論が容易になる。
一実施形態にしたがって、次に、身体部位に対するデータ駆動重要度関数を前記図1の確率伝播モンテカルロの枠組みに組み込む。数式(1)を、図8に概要を示したような、たとえばメッセージパッシング等の確率伝播を行う(336)ことによって解く。これは、たとえば、プロセッサ122およびプログラム116を用いて、局所計算により達成することができる。
本発明の方法の特定の実施形態について説明してきたが、他の実施形態が可能であることは、当業者であれば理解されよう。たとえば、頭部姿勢、腕部および脚部姿勢、および胴部に対するデータ駆動重点サンプリング(それぞれ、ステップ316、324、332)は、上述のように順次実行されるのではなく、並列的に実行してもよい。
[実験結果]
本発明の方法をサッカー選手の画像における姿勢推定に適用した。この方法が他の画像領域における人間姿勢の推定にも拡張可能であることは、当業者であれば理解されるだろう。上述の尤度関数の有効性を示すために、多くの左脚下腿部の仮説を、図11(a)に示すように、正しくラベリングした身体部位を水平方向に平行移動させることによって、生成した。対応する尤度を図11(b)に示す。ここで、正しいラベリング位置、すなわち、水平方向平行移動がゼロの位置で、最大尤度となることが示されている。次に小さい二つのピークは、シェイプ姿勢の左右の線のうちの一方が、画像中の左脚下腿部の境界線に揃っている場合に対応する。他の身体部位に対する尤度の分布は、胴部に対する尤度モデルが正しいラベリング位置でピークとはならず(ノイズを有するエッジ応答のために)より局所的なピークを有するものとなることがあることを除けば、図11(b)と同様である。これは、ただエッジのみを手がかりに用いて胴部の尤度モデルを構築することが困難なためである。
各身体部位に対するPCA部分空間を学習するために、50枚のサッカー選手の訓練画像を1セット集めて、人体部位の四角形のシェイプおよび姿勢を手作業でラベリングした。姿勢推定実験のために、30枚のサッカー選手の訓練画像をもう1セット集めて、身体部位を最初に手作業で特定して「グラウンドトゥルース(ground truth)」を定めた。これらの画像は、衣類や観視角度によって生ずるオクルージョンとともに姿勢および背景におけるばらつきが大きい人間を表すものとなった。数式(10)〜(12)の重要度関数における対角共分散行列の値をこれらの訓練画像セットから実験的に学習した。
一実施形態による、単一の対象画像における姿勢推定の実験結果を図12に示す。ここで、身体部位の最も良く推定されたシェイプおよび配置を四角形で示してある。本実施形態では、身体部位のそれぞれについて500枚のサンプルを描いており、DDBPMCアルゴリズムのメッセージパッシングプロセスを6回繰り返している。その結果を見ると、身体部位が異なる姿勢、背景、観視角度、照明条件のコンテクストに現れたとしても、本発明の方法がその身体部位を特定しその姿勢を適切に推定することができることがわかる。さらに、たとえば、図12(e)〜(f)のようにオクルージョンが激しい姿勢であっても、この方法は、視覚的手がかりからデータ駆動重点サンプリングを行っているおかげで、その姿勢を推論することができる。たとえば、図12(e)の中の選手の左脚下腿部は、画像尤度および数式(11)の重要度関数を利用した最高の姿勢推定の結果として特定されている。同様に、図12(g)〜(h)の中のオクルージョンのある身体部位およびその姿勢が、本案のDDBPMCアルゴリズムを用いて推論されている。
四角形で囲んだ推定身体姿勢と、対応する四角形の対の角部ポイントに基づくグラウンドトゥルースとの間で二乗平均誤差(RMSE)を計算することによって求めた。30枚のテスト画像にわたって、各身体部位の二乗平均誤差(RMSE)の平均を、全体的な前進姿勢推定の二乗平均誤差の平均とともに、図13に示す。テスト画像ごとに、身体部位すべてに対するRMSEを計算した。そして、テスト画像のすべてを含む身体部位のRMSEを計算した。最初の比較において、上述のLeeおよびCohen共著論文で報告されている20枚のテスト画像の結果に対して、テスト集合が異なるものであるとはいえ、本発明の方法のRMSEの方が大きいように見える。もっとも、LeeおよびCohenではもっぱら関節位置の精度を評価するものであったのに対し、本発明は、それぞれの身体部位ごとの4ポイントの精度を計算しているので、直接RMSEを比較するのは妥当ではない。また、本発明の評価のポイント集合におけるポイントの数は、LeeおよびCohenが用いた数より大きい。もう一つの複雑な要因として、身体部位および姿勢をラベリングする際の衣類による被覆や被写体のバリエーションの結果として、身体部位の「グラウンドトゥルース」が何かを判定することの難しさがあげられる。最後に、30枚のテスト画像間の全体のRMSE分布を示すために、各画像の平均RMSEを図14に示す。
本発明の利点は、単一の対象画像から2Dの人間姿勢を推定するシステムおよび方法を含む。マルコフネットワークと、重点サンプリング関数を用いたデータ駆動モンテカルロアルゴリズムとにより、効率的な確率論的推論がもたらされる。本発明の方法は、全体的な身体構造に基づく推論機構と身体部位の細部の特徴に基づく推論機構とを統合する。このアルゴリズムでは、並列推論タスクの実行が可能である。実験結果が本発明の方法の有効性を示している。
当業者であれば、単一の画像から2Dの人間姿勢を推定するシステムおよび方法のためのさらなる代替的な設計を理解するであろう。従って、本発明は、本明細書中に開示した精確な構成および構成要素に限定されるものではなく、本明細書中に開示した本発明の方法および装置の配置や作用や詳細に対して、添付の特許請求の範囲に記載の本発明の趣旨および範囲を逸脱することなく、当業者にとって明らかであるような様々な修正や変更や変形を施すことができるものと理解されるべきである。
本発明の一実施形態によるシステムを示す。 本発明の一実施形態によるマルコフネットワークを示す。 本発明の一実施形態による人間姿勢を推定する方法を示す。 本発明の一実施形態による複数の手作業でラベリングした画像を示す。 本発明の一実施形態によるラベリングした画像の正規化を示す。 本発明の一実施形態による右腕上膊部の原シェイプ、正規化されたシェイプ、および再構成されたシェイプを示す。 本発明の一実施形態によるリンクポイント対を示す。 本発明の一実施形態による確率伝播モンテカルロアルゴリズムを示す。 図9(a)は、本発明の一実施形態によるAdaBoost顔検出器により検出された顔を示す。 図9(b)は、本発明の一実施形態による画像固有皮膚色セグメンテーションを示す。 図9(c)は、本発明の一実施形態によるフィッティングされた下膊部および上脚部の仮説表現を示す。 図9(d)は、本発明の一実施形態による上膊部および下脚部の仮説表現を示す。 図10(a)は、原画像を示す。 図10(b)は、本発明の一実施形態により抽出された線分を示す。 図10(c)は、本発明の一実施形態により図10(b)の線分から組み立てた胴の仮説表現を示す。 図11(a)は、本発明の一実施形態による左下脚部の正しい位置に対する水平方向の平行移動を示す。 図11(b)は、本発明の一実施形態による正しい位置からの平行移動された左下脚部の仮説表現の尤度を示す。 本発明の一実施形態に基づく人間姿勢推定の実験結果を示す。 本発明の一実施形態によるテスト画像集合のそれぞれについて関連付けた全体二乗平均誤差を示す。 テスト画像集合のそれぞれについて関連付けた全体二乗平均誤差を示す。

Claims (21)

  1. デジタル画像内の人間被写体の姿勢を推定するための方法であって、
    それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力し、
    前記訓練身体部位をそれぞれ四角形でラベリングし、
    前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元(2D)シェイプモデルを、各シェイプモデルに関連づけされる少なくとも1つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成し、
    少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力し、
    前記二次元(2D)シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
    前記対象デジタル画像内の少なくとも1つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する
    ことを特徴とする方法。
  2. 次元数を減らすために、前記2Dシェイプモデルに主成分分析を適用することをさらに特徴とする請求項1の方法。
  3. 前記2Dシェイプモデルを記憶することをさらに特徴とする請求項1の方法。
  4. デジタル画像内の人間被写体の姿勢を推定するための方法であって、
    前記方法は、
    それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力し、
    前記訓練身体部位をそれぞれ四角形でラベリングし、
    前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元(2D)シェイプモデルを、各シェイプモデルに関連づけされる少なくとも1つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成し、
    少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力し、
    前記二次元(2D)シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
    前記対象デジタル画像内の少なくとも1つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する
    ことを含み、
    前記マルコフネットワークは、
    各ノードが対象身体部位集合に属する一つの身体部位の姿勢パラメータを表す、ノードの第1集合と、
    各ノードが前記対象身体部位集合に属する一つの身体部位の測定結果を表す、ノードの第2集合と、
    それぞれのリンクが、ノードの前記第1集合に属する二つのノードを接続し、第1の関数に従って前記対象身体部位集合に属する隣接する二つの身体部位間の拘束をモデリングする、無向リンクの集合と、
    それぞれのリンクがノードの前記第1集合に属する一つのノードからノードの前記第2集合に属する一つのノードに向かい、第2の関数に従って対応する測定結果の尤度を表す、有向リンクの集合と
    を備え、
    前記第2の関数は、前記第1の関数とは異なる
    ことを特徴とする方法。
  5. 前記確率伝播モンテカルロアルゴリズムは、反復的に実行されるものであり、重点サンプルに基づくメッセージパッシングを含むことを特徴とする請求項4の方法。
  6. 前記第1の関数は、
    Figure 0004295799
    であって、
    およびxは、ノードの前記第1集合に属する前記二つのノードを表し、
    ||・||は、ユークリッド距離関数であり、
    expは、自然指数関数であり、
    σ ijは、前記ラベリングされた身体部位から学習された分散であり、
    Figure 0004295799
    また、前記第2の関数は、
    Figure 0004295799
    であって、
    は、ノードの前記第1集合に属する前記一つのノードを表し、
    は、ノードの前記第2集合に属する前記一つのノードを表し、
    max(・)は、最大値関数を表し、
    Figure 0004295799
    ことを特徴とする請求項5の方法。
  7. 前記対象人間被写体の顔部領域を検出し、
    前記検出された顔領域から皮膚色モデルを構築し、
    前記対象人間被写体の胴領域のエッジマップを構築し、
    前記エッジマップから略水平な線分および略垂直な線分の集合を抽出する
    ことをさらに特徴とする請求項6の方法。
  8. 前記重点サンプルは、頭部姿勢、腕部姿勢、脚部姿勢、および胴部姿勢に対応する重要度関数から描画され、
    前記頭部姿勢は、前記顔領域を用いて導出され、
    前記腕部姿勢および前記脚部姿勢は、前記皮膚色モデルを用いて導出され、
    前記胴部姿勢は、前記線分を用いて導出される
    ことを特徴とする請求項7の方法。
  9. 前記マルコフネットワークの関節後端部分布は、
    Figure 0004295799
    であって、
    Xは、すべてのxの集合を表し、Zはすべてのzの集合を表す
    ことを特徴とする請求項8の方法。
  10. デジタル画像内の人間被写体の姿勢を推定するための装置であって、
    それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力するとともに、
    少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力する
    よう構成された入力モジュールと、
    前記訓練身体部位をそれぞれ四角形でラベリングし、
    前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元(2D)シェイプモデルを、各シェイプモデルに関連づけされる少なくとも1つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成して、
    前記二次元(2D)シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
    前記対象デジタル画像内の少なくとも1つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する
    よう構成されたプロセッサモジュールと
    を備えることを特徴とする装置。
  11. デジタル画像内の人間被写体の姿勢を推定するための装置であって、
    それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力する手段と、
    前記訓練身体部位をそれぞれ四角形でラベリングする手段と、
    前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元(2D)シェイプモデルを、各シェイプモデルに関連づけされる少なくとも1つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成する手段と、
    少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力する手段と、
    前記二次元(2D)シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
    前記対象デジタル画像内の少なくとも1つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する手段と
    を備えることを特徴とする装置。
  12. デジタル画像内の人間被写体の姿勢を推定するための方法をコンピュータに実現させるプログラムであって、
    前記プログラムは、
    前記コンピュータに対して、
    それぞれが少なくとも一つの訓練身体部位を有する複数の人間被写体を表す一つ以上の訓練デジタル画像を入力し、
    前記訓練身体部位をそれぞれ四角形でラベリングし、
    前記四角形に基づき、前記訓練身体部位のそれぞれについて、二次元(2D)シェイプモデルを、各シェイプモデルに関連づけされる少なくとも1つのリンクポイントが、隣接するシェイプモデルに関連づけされるリンクポイントと対になって、連結点を特定するように、自動生成し、
    少なくとも一つの対象身体部位を備える対象人間被写体を表す対象デジタル画像を入力し、
    前記二次元(2D)シェイプモデルに基づくマルコフネットワークに従って前記対象デジタル画像の身体姿勢を表現し、
    前記対象デジタル画像内の少なくとも1つの対象身体部位に対してデータ駆動重点サンプリング機能を実行する確率伝播モンテカルロアルゴリズムを適用し、前記マルコフネットワークにより表現される前記身体姿勢の姿勢パラメータを推定する処理を行わせる
    ことを特徴とするプログラム
  13. 前記確率伝播モンテカルロアルゴリズムは、
    反復され、重点サンプルに基づくメッセージパッシングを含む
    ことを特徴とする請求項1の方法。
  14. 前記確率伝播モンテカルロアルゴリズムは、
    データ駆動重点サンプリングに基づき局部推論を並列的に行う
    ことを特徴とする請求項1の方法。
  15. 前記確率伝播モンテカルロアルゴリズムは、
    データ駆動重点サンプリングに基づき局部推論を並列的に行う
    ことを特徴とする請求項4の方法。
  16. 前記確率伝播モンテカルロアルゴリズムは、
    反復され、重点サンプルに基づくメッセージパッシングを含む
    ことを特徴とする請求項10の装置。
  17. 前記確率伝播モンテカルロアルゴリズムは、
    データ駆動重点サンプリングに基づき局部推論を並列的に行う
    ことを特徴とする請求項10の装置。
  18. 前記確率伝播モンテカルロアルゴリズムは、
    反復され、重点サンプルに基づくメッセージパッシングを含む
    ことを特徴とする請求項11の装置。
  19. 前記確率伝播モンテカルロアルゴリズムは、
    データ駆動重点サンプリングに基づき局部推論を並列的に行う
    ことを特徴とする請求項11の装置。
  20. 前記確率伝播モンテカルロアルゴリズムは、
    反復され、重点サンプルに基づくメッセージパッシングを含む
    ことを特徴とする請求項12のプログラム
  21. 前記確率伝播モンテカルロアルゴリズムは、
    データ駆動重点サンプリングに基づき局部推論を並列的に行う
    ことを特徴とする請求項12のプログラム
JP2007540117A 2004-11-05 2005-11-04 データ駆動確率伝播を伴う人間の姿勢推定 Expired - Fee Related JP4295799B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US62543704P 2004-11-05 2004-11-05
US11/266,830 US7212665B2 (en) 2004-11-05 2005-11-03 Human pose estimation with data driven belief propagation
PCT/US2005/040225 WO2006052853A2 (en) 2004-11-05 2005-11-04 Human pose estimation with data driven belief propagation

Publications (3)

Publication Number Publication Date
JP2008519357A JP2008519357A (ja) 2008-06-05
JP2008519357A5 JP2008519357A5 (ja) 2008-12-18
JP4295799B2 true JP4295799B2 (ja) 2009-07-15

Family

ID=36316386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007540117A Expired - Fee Related JP4295799B2 (ja) 2004-11-05 2005-11-04 データ駆動確率伝播を伴う人間の姿勢推定

Country Status (3)

Country Link
US (1) US7212665B2 (ja)
JP (1) JP4295799B2 (ja)
WO (1) WO2006052853A2 (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311540B2 (en) 2003-12-12 2016-04-12 Careview Communications, Inc. System and method for predicting patient falls
US8675059B2 (en) 2010-07-29 2014-03-18 Careview Communications, Inc. System and method for using a video monitoring system to prevent and manage decubitus ulcers in patients
US7349573B2 (en) * 2004-03-26 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Image segmentation by base point selection and wavefront propagation
JP4759447B2 (ja) * 2006-06-07 2011-08-31 日本電信電話株式会社 動体追跡装置,動体追跡方法およびその方法を記述したプログラムを格納した記録媒体
JP5161435B2 (ja) * 2006-06-26 2013-03-13 株式会社ソニー・コンピュータエンタテインメント 画像処理装置、画像処理システム、コンピュータの制御方法及びプログラム
US8340387B2 (en) * 2007-04-13 2012-12-25 Three Palm Software Fast preprocessing algorithms for digital mammography CAD and workstation
US7925081B2 (en) * 2007-12-12 2011-04-12 Fuji Xerox Co., Ltd. Systems and methods for human body pose estimation
US20090154782A1 (en) * 2007-12-17 2009-06-18 Three Palm Software Dual-magnify-glass visualization for soft-copy mammography viewing
US20090164192A1 (en) * 2007-12-21 2009-06-25 General Instrument Corporation Efficient message representations for belief propagation algorithms
US9866797B2 (en) 2012-09-28 2018-01-09 Careview Communications, Inc. System and method for monitoring a fall state of a patient while minimizing false alarms
US10645346B2 (en) 2013-01-18 2020-05-05 Careview Communications, Inc. Patient video monitoring systems and methods having detection algorithm recovery from changes in illumination
US9579047B2 (en) 2013-03-15 2017-02-28 Careview Communications, Inc. Systems and methods for dynamically identifying a patient support surface and patient monitoring
US9794523B2 (en) 2011-12-19 2017-10-17 Careview Communications, Inc. Electronic patient sitter management system and method for implementing
US9959471B2 (en) 2008-05-06 2018-05-01 Careview Communications, Inc. Patient video monitoring systems and methods for thermal detection of liquids
EP2327061A4 (en) * 2008-08-15 2016-11-16 Univ Brown METHOD AND DEVICE FOR ESTIMATING BODY SHAPES
US8471899B2 (en) 2008-12-02 2013-06-25 Careview Communications, Inc. System and method for documenting patient procedures
US8773355B2 (en) * 2009-03-16 2014-07-08 Microsoft Corporation Adaptive cursor sizing
US8638985B2 (en) * 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
US8660303B2 (en) 2009-05-01 2014-02-25 Microsoft Corporation Detection of body and props
US8942428B2 (en) 2009-05-01 2015-01-27 Microsoft Corporation Isolate extraneous motions
US8744121B2 (en) * 2009-05-29 2014-06-03 Microsoft Corporation Device for identifying and tracking multiple humans over time
US9380292B2 (en) 2009-07-31 2016-06-28 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating three-dimensional (3D) images of a scene
US20110025830A1 (en) * 2009-07-31 2011-02-03 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating stereoscopic content via depth map creation
US8213680B2 (en) * 2010-03-19 2012-07-03 Microsoft Corporation Proxy training data for human body tracking
US8379919B2 (en) 2010-04-29 2013-02-19 Microsoft Corporation Multiple centroid condensation of probability distribution clouds
EP2580708A4 (en) 2010-06-10 2016-11-16 Univ Brown PARAMETRIZED 2D HUMAN MODEL WITH RACES
JP5660436B2 (ja) * 2010-09-01 2015-01-28 独立行政法人情報通信研究機構 周期的情報抽出方法
WO2012030872A1 (en) * 2010-09-02 2012-03-08 Edge3 Technologies Inc. Method and apparatus for confusion learning
US9036920B2 (en) * 2010-10-08 2015-05-19 Industrial Technology Research Institute Method of detecting feature points of an object in a system for motion detection
JP5873442B2 (ja) * 2010-12-09 2016-03-01 パナソニック株式会社 物体検出装置および物体検出方法
US8724168B2 (en) * 2010-12-16 2014-05-13 Xerox Corporation Updating a smoothness constrained cluster model for color control in a color management system
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
JP5771413B2 (ja) * 2011-03-02 2015-08-26 パナソニック株式会社 姿勢推定装置、姿勢推定システム、および姿勢推定方法
US8620113B2 (en) 2011-04-25 2013-12-31 Microsoft Corporation Laser diode modes
US8472718B2 (en) * 2011-04-27 2013-06-25 Sony Corporation Superpixel segmentation methods and systems
US8760395B2 (en) 2011-05-31 2014-06-24 Microsoft Corporation Gesture recognition techniques
US20130054377A1 (en) * 2011-08-30 2013-02-28 Nils Oliver Krahnstoever Person tracking and interactive advertising
US8635637B2 (en) 2011-12-02 2014-01-21 Microsoft Corporation User interface presenting an animated avatar performing a media reaction
US9100685B2 (en) 2011-12-09 2015-08-04 Microsoft Technology Licensing, Llc Determining audience state or interest using passive sensor data
US9135696B2 (en) * 2012-01-10 2015-09-15 Siemens Aktiengesellschaft Implant pose determination in medical imaging
KR101500711B1 (ko) * 2012-01-19 2015-03-10 한국전자통신연구원 컬러 히스토그램을 이용한 사람 추적 방법
US8898687B2 (en) 2012-04-04 2014-11-25 Microsoft Corporation Controlling a media program based on a media reaction
CA2775700C (en) 2012-05-04 2013-07-23 Microsoft Corporation Determining a future portion of a currently presented media program
US9349207B2 (en) 2012-05-31 2016-05-24 Samsung Electronics Co., Ltd. Apparatus and method for parsing human body image
KR101307984B1 (ko) 2012-09-04 2013-09-26 전남대학교산학협력단 자세인식을 위해 방향성 기술자와 기계학습을 이용하는 주요 신체부위 추정 방법
EP2804128A3 (en) * 2013-03-22 2015-04-08 MegaChips Corporation Human detection device
US9531967B2 (en) 2013-12-31 2016-12-27 Faro Technologies, Inc. Dynamic range of a line scanner having a photosensitive array that provides variable exposure
US9658061B2 (en) 2013-12-31 2017-05-23 Faro Technologies, Inc. Line scanner that uses a color image sensor to improve dynamic range
US20170154441A1 (en) * 2014-08-06 2017-06-01 Panasonic Corporation Orientation estimation method, and orientation estimation device
CN104268598B (zh) * 2014-09-26 2017-05-03 东南大学 一种基于二维扫描激光的人腿检测方法
JP6486084B2 (ja) * 2014-11-28 2019-03-20 キヤノン株式会社 画像処理方法、画像処理装置、及びプログラム
ES2765277T3 (es) 2014-12-22 2020-06-08 Reactive Reality Gmbh Método y sistema para generar datos de modelo de prenda
CN105069413B (zh) * 2015-07-27 2018-04-06 电子科技大学 一种基于深度卷积神经网络的人体姿势识别方法
CN105354539B (zh) * 2015-10-19 2016-09-07 许昌学院 一种智能显示系统和一种显示方法
US9846822B2 (en) * 2015-12-31 2017-12-19 Dropbox, Inc. Generating and utilizing normalized scores for classifying digital objects
US9996771B2 (en) 2016-02-15 2018-06-12 Nvidia Corporation System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models
US10026003B2 (en) 2016-03-08 2018-07-17 Accuware, Inc. Method and arrangement for receiving data about site traffic derived from imaging processing
US10824878B2 (en) 2016-03-08 2020-11-03 Accuware, Inc. Method and arrangement for receiving data about site traffic derived from imaging processing
CN108885683B (zh) * 2016-03-28 2020-05-22 北京市商汤科技开发有限公司 用于位姿估计的方法和系统
CN106127120B (zh) * 2016-06-16 2018-03-13 北京市商汤科技开发有限公司 姿势估计方法和装置、计算机系统
CN107644201B (zh) * 2017-08-31 2021-02-26 成都通甲优博科技有限责任公司 一种基于随机森林的骨架线提取方法及其装置
JP7147848B2 (ja) 2018-07-31 2022-10-05 株式会社ニコン 処理装置、姿勢解析システム、処理方法、及び処理プログラム
CN109068273A (zh) * 2018-09-29 2018-12-21 湘潭大学 一种基于改进mcl的无线传感器网络移动节点定位方法
EP3731185A1 (en) * 2019-04-26 2020-10-28 Tata Consultancy Services Limited Weakly supervised learning of 3d human poses from 2d poses
US10769807B1 (en) * 2019-11-25 2020-09-08 Pet3D Corp System, method, and apparatus for clothing a pet
DE102020200572A1 (de) * 2019-12-18 2021-06-24 Conti Temic Microelectronic Gmbh Verfahren zur verbesserten Erkennung von Landmarken und Fußgängern
US11417011B2 (en) * 2020-02-11 2022-08-16 Nvidia Corporation 3D human body pose estimation using a model trained from unlabeled multi-view data
CN111611874B (zh) * 2020-04-29 2023-11-03 杭州电子科技大学 基于ResNet和Canny的人脸口罩佩戴检测方法
US20220319041A1 (en) * 2021-03-31 2022-10-06 Facebook Technologies, Llc Egocentric pose estimation from human vision span
WO2023245157A1 (en) * 2022-06-16 2023-12-21 Poze Ai Inc. Pose training and evaluation system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130446B2 (en) 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7366645B2 (en) 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
US7542592B2 (en) 2004-03-29 2009-06-02 Siemesn Corporate Research, Inc. Systems and methods for face detection and recognition using infrared imaging

Also Published As

Publication number Publication date
WO2006052853A3 (en) 2006-12-14
US20060098865A1 (en) 2006-05-11
US7212665B2 (en) 2007-05-01
WO2006052853A2 (en) 2006-05-18
JP2008519357A (ja) 2008-06-05

Similar Documents

Publication Publication Date Title
JP4295799B2 (ja) データ駆動確率伝播を伴う人間の姿勢推定
Hua et al. Learning to estimate human pose with data driven belief propagation
Sarafianos et al. 3d human pose estimation: A review of the literature and analysis of covariates
Sigal et al. Combined discriminative and generative articulated pose and non-rigid shape estimation
Balan et al. An adaptive appearance model approach for model-based articulated object tracking
Porikli et al. Object detection and tracking
US20140043329A1 (en) Method of augmented makeover with 3d face modeling and landmark alignment
Zhang et al. Graph-embedding-based learning for robust object tracking
Lin et al. Learning a scene background model via classification
Rosales et al. Estimating 3D body pose using uncalibrated cameras
Salih et al. Comparison of stochastic filtering methods for 3D tracking
Raskin et al. Dimensionality reduction using a Gaussian process annealed particle filter for tracking and classification of articulated body motions
Huang et al. Tracking-by-detection of 3d human shapes: from surfaces to volumes
Chen et al. Single and sparse view 3d reconstruction by learning shape priors
Lee et al. Background subtraction using the factored 3-way restricted Boltzmann machines
Kanaujia et al. Part segmentation of visual hull for 3d human pose estimation
Guo et al. Hand gesture recognition and interaction with 3D stereo camera
Ji et al. 3d reconstruction of dynamic textures in crowd sourced data
Jaeggli et al. Multi-activity tracking in lle body pose space
Li Hand shape estimation for south african sign language
Jiang et al. Real-time multiple people hand localization in 4d point clouds
Ghedia et al. A novel approach for monocular 3d object tracking in cluttered environment
Saini et al. Human pose tracking in low-dimensional subspace using manifold learning by charting
Wu et al. Human pose estimation in vision networks via distributed local processing and nonparametric belief propagation
Wu 3D Face Reconstruction from RGB Images

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081031

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081031

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20081031

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20081125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090410

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees