JP4429370B2

JP4429370B2 - ポーズによるヒト検出

Info

Publication number: JP4429370B2
Application number: JP2008538028A
Authority: JP
Inventors: ヤン、ミン−シュエン; ビサッコ、アレッサンドロ
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2005-10-28
Filing date: 2006-10-27
Publication date: 2010-03-10
Anticipated expiration: 2026-10-27
Also published as: WO2007053470A2; US20070098254A1; US7519201B2; WO2007053470A3; JP2009514110A

Description

本出願は、米国仮特許出願第６０／７３１，４００号「ポーズによるヒト検出（Detecting Humans Via Their Pose）」、及び、米国特許出願第１１／５５３，３８８号「ポーズによるヒト検出（Detecting Humans Via Their Pose）」に基づいて優先権を主張するものであり、これらは、参照によって本明細書に一体的に組み込まれるものとする。

本出願は、コンピュータビジョンに関し、より詳細には、画像内のヒト検出及び当該ヒトのポーズ推定に関する。

単一画像からのヒト検出及び当該ヒトのポーズ推定は、画像検索、画像理解等といった幅広い用途における基礎的な問題である。ヒトは、写真に含まれる視覚情報から位置及びポーズを容易に決定することができるが、機械がこの決定を行うことができるように画像データを表すことは困難である。ヒト検出及びポーズ分類に関連した問題は、従来、研究者に対して重要な課題を提供する各問題ごとに別々にアプローチされてきた。

従来の研究は、任意のポーズをとったヒトの体を含む二次元画像の領域を特定する自動的な手順を導出することを中心としている。ヒトの画像は広い多様性を示すので、ヒト検出は、難しい問題である。衣服、照明条件、視点、体のポーズ、部分的な及び／又は自己のオクルージョン等といった妨害要因を明確にモデル化することは実行不可能であることを前提とした場合には、研究者は、ヒト／非ヒトの統計データの記述的モデルを学習することになる。それによって、問題は、従来の統計的学習技術が直接的に適用可能なバイナリ分類タスクに帰着する。したがって、ヒト検出に関する研究は、従来、好適な表現、すなわち、典型的な外観変化にほとんど左右されない表現を導出することを主に中心としており、それによって、良好な特性を標準的な分類器に提供していた。

従来、ハールウェーブレット、エッジ、勾配及び二次導関数、並びに、画像セグメンテーションの領域等といった、数多くの表現スキームがヒト検出のために利用されてきた。これらの表現を用いて、アルゴリズムは、数例を挙げると、テンプレートマッチング、サポートベクトルマシン、アダブースト（Adaboost）、グループ化等といった検出プロセスに適用されてきた。これらの技術の例は、Gavrila, D. M. and V. Philomin, "Real-time Objuct Dtection for Smart Vehicles", Proc. ICCV, pages 87-93, 1999; Ronfard, R., et al., "Learning to Parse Pictures of People", Proc. ECCV, pages 700-714, 2002; Viola, P., et al., "Detecting Pedestrians Using Patterns of Motion and Appearance", Proc. ICCV, pages 734-741, 2003; and Mori, G., et al., "Recovering Human Body Configurations: Combining Segmentation and Recognition", Proc. CVPR, pages 326-333, 2004 に記載されており、これらの文献のすべては、参照によって本明細書に一体的に組み込まれるものとする。

最近、勾配の向きに基づく局所的記述子が、ヒト検出タスクに特に成功することが証明された。主な概念は、色、明るさ（brightness）、コントラスト変化、及び、ある程度の局所的変形に左右されないようにするために、勾配の向きの分布を用いることである。しかし、従来のモデルでは、例えばポーズの変化による、より巨視的な変化を説明することは、未だにできない。

ヒトのポーズを分類する問題は、それ自身の課題を提示する。ヒトは、多くの自由度を有する多関節のオブジェクトであり、そのことが、ポーズの分類を定義することを困難な問題としている。手作業の分類を用いたとしても、二つのポーズ間の距離を判断したり、それらをクラスタ化したりすることは困難である。ポーズ推定に対する従来のアプローチのほとんどは、エッジ、形状、色や質感を用いた、又は、トレーニングデータから学習されたボディパーツ検出器に基づいている。続いて、パーツアッセンブリの最適な構成が、動的なプログラミングを用いて、又は、データ駆動マルコフ鎖モンテカルロ法（Data Driven Markov Chain Monte Carlo）、信念伝搬（Belief Propagation）又はその非ガウス拡張を用いた生成確率モデルに関する推論を実行することによって計算される。かかる事項は、Sigal, L., et al., "Attractive People: Assembling Loose-Limbed Models Using Non-Parametric Belief Propagation", NIPS, pages 1539-1546, 2003 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。

前記したアプローチは、検出、ポーズ推定といった二つの問題の一つのみに集中している。ヒト検出においては、単純なイエス／ノーといった回答が多くの場合に望まれるので、物理量に関連する潜在的変数を用いた複雑なモデルを導入する利点は、ほとんど又は全くないといえる。一方で、ポーズ推定においては、物理量を推定することが目標であり、それゆえ、包括的な生成モデルが自然なアプローチであるといえる。このように、ヒト検出及びポーズ推定は、従来、全く異なる二つのモデルを計算すること、及び、完全に独立した方法で問題を解決すること、を必要としていた。さらに、従来の技術を用いると、画像にヒトが含まれることが事前にわからない場合には、ポーズ推定問題は、アプローチすらできない。ヒト検出及びポーズ推定の両方の問題に対する解法が必要とされる場合には、従来の技術は、非効率的であり、莫大な計算コストを必要としてしまう。

導出された単一の確率モデルからヒト検出及びポーズ分類を効率的に実行する方法が必要とされている。

本明細書に記載されたシステム及び方法は、単一の確率モデルから検出及びポーズ分類を同時に実行することによって、ヒト検出及びポーズ推定といった二つの問題間のギャップを埋める。トレーニング段階において、確率モデルが導出される。この確率モデルは、ヒト画像及び非ヒト画像を含む一連のトレーニング画像に基づいて生成される。確率モデルが導出された時点で、ヒト検出は、確率モデルに基づいてテスト画像上で実行可能である。画像内でヒトが検出された場合には、ヒトのポーズは、確率モデルに基づいて分類される。

ヒストグラムに基づく記述子を用いた画像表現が用いられ、そのために確率モデルが導出される。一実施形態において、確率モデルは、教師なし手法を用いて導出される。教師なしトレーニングにおいて、トレーニング画像は手作業で分類されることはない。別の実施形態において、確率モデルは、トレーニング画像の一部が手法で分類される半教師付き手法を用いて導出される。導出された確率モデルは、ヒトの画像をクラスタ化し、当該ヒトのポーズの必須情報をエンコードする低次元表現を提供する。標準的なクラスタ化と低次元化技術との重要な相違点は、ヒト検出、ポーズ分類、マッチング等といったタスクに必要とされるように、異なるモデルを結合して比較することが可能な原則を提供するのに十分な確率的フレームワークが導出されることである。確率モデルに基づいて、本システムは、テスト画像内のヒトを検出して当該ヒトのポーズを分類することに成功している。

本明細書に記載された特徴及び利点は、全てを包括しているわけではなく、特に、多くの追加的な特徴及び利点が、図面、明細書及び特許請求の範囲を参照した当業者にとっては自明であろう。さらに、本明細書で用いられている言語は、原則として読みやすさ及び説明を目的として選択されており、本発明の構成要素を線引きして制限するために選択されたものではないことに留意すべきである。

以下、本発明の好ましい実施形態について、図面を参照して記述する。ここで、同一の参照符号は、同一又は機能的に同等な要素を示す。また、図面において、各参照符号の左端の数字は、当該参照符号が最初に用いられた図面に対応している。

本明細書における「一実施形態」又は「実施形態」という用語は、実施形態に関連して記述された特定の特徴、構造又は性質が本発明の実施形態の少なくとも一つに含まれることを意味する。本明細書の様々な場所における「一実施形態において」というフレーズの表現は、すべてが同一の実施形態を指しているとは限らない。

以下の詳細な説明のいくつかの部分は、コンピュータメモリ内におけるデータビットに関する演算のアルゴリズム表現及び記号表現の用語で表現されている。これらのアルゴリズム記述及び表現は、データ処理分野の当業者によって他の当業者に作業内容を最も効率的に伝えるために用いられる手段である。ここでは、そして一般的にも、アルゴリズムは、所望の結果を導出するステップ（命令）の自己無撞着なシーケンスであると考えられている。ステップは、物理量の物理的操作を必要とする。大抵の場合、これらの量は、記録、伝送、結合、比較及びその他の操作が可能な電気信号、磁気信号又は光学信号の形態をとるが、これらに限定されない。主に共通利用のため、時として、これらの信号を、ビット、値、要素、記号、文字、用語、数字等として扱うと便利である。さらに、時として、物理量の物理的操作を必要とするステップの任意の配列を、一般性を損失することなく、モジュール又は符号化装置として扱うと便利である。

しかし、これらの全ての用語及び同様の用語は、好適な物理量に対応するべきであり、これらの量に適用される単に便利なラベルであると思うべきである。特に他に述べられない限り、以下の議論から明らかなように、記述を通して、「処理」、「計算」、「算出」、「決定」、「表示」等のような用語を用いた議論は、コンピュータシステムのメモリ、レジスタ、他の情報記憶装置、伝送装置又は表示装置内の物理（電子）量として表されるデータを操作及び伝送するコンピュータシステム又は同様の電子計算装置の動作及び処理のことを指す。

本発明の任意の態様は、アルゴリズムの形態で本明細書に記述された処理ステップ及び命令を含む。本発明の処理ステップ及び命令は、ソフトウェア、ファームウェア又はハードウェアにおいて具現化可能であり、ソフトウェアにおいて具現化された場合には、様々なオペレーティングシステムによって用いられる異なるプラットフォームからダウンロードされて常駐及び動作可能であることに留意されたい。

また、本発明は、本明細書における動作を実行するための装置に関する。この装置は、特に所望の目的のために構成されていてもよく、コンピュータ内に記憶されたコンピュータプログラムにより選択的に作動又は再構成される汎用コンピュータを備えていてもよい。かかるコンピュータプログラムは、フロッピー（登録商標）ディスク、光学ディスク、ＣＤ−ＲＯＭ及び光磁気ディスクを含む各種ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード又は光カード、特定用途向け集積回路（ＡＳＩＣｓ）、電子的命令を記憶するのに適し、コンピュータシステムバスにより互いに結合される各種メディア等のコンピュータ読み取り可能な記憶媒体に記憶されているが、これらに限定されない。さらに、本明細書において記述されるコンピュータは、単一のプロセッサを備えていてもよく、計算能力を高めるために設計された複数のプロセッサを使用するアーキテクチャであってもよい。

本明細書で提示されるアルゴリズム及び表示は、特定のコンピュータ又は他の装置に本質的に関連するものではない。様々な汎用システムが本明細書の教示に従うプログラムとともに用いられてもよく、より特化した装置を所望の方法ステップを実行するために構成すると便利であることもわかっている。これらの多様なシステムに必要な構造は、以下の記述から明らかになるであろう。さらに、本発明は、特定のプログラム言語に関して記述されているわけではない。多様なプログラム言語が本明細書で記述された本発明の教示を実行するために使用可能であり、以下の特定の言語に対する言及は、本発明の実施可能性及びベストモードの開示のために提供されていることは明らかである。

さらに、本明細書で用いられる言語は、主として読みやすさ及び説明を目的として選択されているものであり、本発明の構成要件を線引きし限定するために選択されているわけではない。したがって、本発明の開示は、添付の特許請求の範囲に記載された本発明の範囲を説明することを意図したものであり、限定することを意図したものではない。

図１は、本発明の一実施形態に係るコンピュータシステムを示す図である。コンピュータシステム１００は、入力装置１０２と、メモリ１０４と、プロセッサ１０６と、出力装置１０８と、画像プロセッサ１１０と、を備えている。入力装置１０２は、ネットワーク１２０、データベース１３０及び撮像ユニット１４０と接続されている。出力装置１０８は、データベース１５０、ネットワーク１６０及びディスプレイ１７０と接続されている。他の実施形態において、入力装置１０２は、ネットワーク１２０、データベース１３０及び撮像ユニット１４０の一つ又は二つのみと接続されている。さらに他の実施形態において、入力装置１０２は、コンピュータシステム１００にデータを入力するように構成された任意の装置と接続されていてもよい。同様に、いくつかの実施形態において、出力装置１０８は、データベース１５０、ネットワーク１６０、ディスプレイ１７０、及び、出力されたデータを受信することが可能な任意の装置の一つ以上と接続されていてもよい。他の実施形態において、コンピュータシステム１００は、プロセッサ１０６、画像プロセッサ１１０又は他の特定のプロセッサを一つ以上備えている。

図２は、本発明の一実施形態に係る入出力図である。トレーニング段階２２０において、コンピュータシステム１００は、トレーニング画像２１０を受信し、トレーニング画像の統計データを記述する確率モデル２３０を生成する。テスト段階２５０において、コンピュータシステム１００は、テスト画像２４０を受信し、ヒトが画像内に存在するかを示す検出決定２７０を出力する。コンピュータシステム１００がヒトを検出した場合には、ポーズ分類２６０も出力される。テスト段階で行われた検出決定２７０は、確率モデル２３０の少なくとも一部に基づいている。

トレーニング画像は、例えば、様々なポーズをとったヒトの画像（ポジティブ画像）のセットと、ヒトを含まないシーンの画像（ネガティブ画像）のセットと、からなる。一実施形態において、トレーニングは、教師なし（unsupervised）トレーニングである。教師なしトレーニングにおいて、ポジティブトレーニング画像内のポーズは、手作業では分類されない。別の実施形態において、トレーニングは、半教師つき（semi-supervised）トレーニングである。半教師つきトレーニングにおいて、トレーニングセットにおける少なくとも一つのポーズは、（例えば、ヒトによる）手作業によって分類され、他のポーズは、手作業では分類されない。教師なしトレーニングに関するさらなる詳細は、Weber, M., et al., "Toward Automatic Discovery of Object Categories", Proc. CVPR, pages 2101-2108, 2000 に記載されており、当該文献は、参照によって本明細書に一体的に組み込まれるものとする。

図３は、トレーニング段階２２０の例示的な実施形態を説明する図である。コンピュータシステム１００は、トレーニング画像セット２１０内の次の画像を受信する（３１０）。トレーニング画像２１０は、ネットワーク１２０、データベース１３０、撮像ユニット１４０又は他の入力システムに対するインターフェースである入力装置１０２を介して、コンピュータシステム１００によって取得可能である。続いて、画像は、複数のピクセルからなるセルに分割される（３２０）。例えば、６４×１２８ピクセルのパッチが、８×８セルに分割可能である。各セルに関して、ヒストグラムに基づく局所的記述子が計算される（３３０）。一実施形態において、有向勾配（oriented gradient）のヒストグラムが、局所的記述子を提供する。有向勾配のヒストグラムは、勾配の向きの量子化を表す。別の実施形態において、ヒストグラムに基づく異なる記述子が、複数の画像を表すために利用可能である。

図５は、各セルに関する記述子を生成する（３３０）方法の例示的な実施形態を説明する図である。一実施形態において、有向勾配のヒストグラムは、画像に基づく検出及びマッチングのための表現として用いられる。かかる事項は、Lowe, D. G., "Object Recognition from Local Scale-Invariant Features", Proc. ICCV, pages 1150-1157, 1999; and Dalal, N., and B. Triggs, "Histograms of Oriented Gradients for Human Detection", Proc. CVPR, pages 886-893, 2005 に記載されており、これらの文献は両方とも、参照によって本明細書に一体的に組み込まれるものとする。勾配は、大きさ及び向きを備える各ピクセルに関して計算される（５１０）。ヒストグラムは、勾配を、その向き及び大きさに基づいてビン（bin）内に量子化する（５２０）ことによって生成される。各ビンは、特定の位置での勾配の強度を表し、向きの範囲及び局所的近傍（セル）によって規定される。ビンの高さは、強度及びセル内のエッジの数を示す。例示的な実施形態において、向きは、０°〜１８０°の範囲内の９つのビン内に量子化される。各ピクセルは、勾配の大きさに比例し、ビンの中心からの距離によって線形的に減少する量によって、向き及び空間の両方で、隣接するビンに寄与する。これらのセルは、重なり合う領域のブロックにグループ化され（５３０）、各ピクセルの寄与は、ガウス核によって重み付けされてもよい。例えば、セルは、２×２ブロックにグループ化されて、σ＝８であり、ブロック内に中心を有するガウス核によって重み付けされていてもよい。最終的に、一つのブロック内のセルヒストグラムのベクトルｖが、明るさ（brightness）及びコントラスト変化に関して正規化される（５４０）。例えば、ベクトルは、Ｌ_２ノルム：ｖ／（‖ｖ‖_２＋ε）に正規化されてもよい。最終的に得られた記述子は、重なり合うブロック（例えば、各セルは、４つのブロックによって共有されている。）からのヒストグラムの集合である。かかる表現の主な特徴は、局所的変形、照明変化、並びに、ヒストグラムの粗大化によるある程度の視点及びポーズの変化に対するロバスト性である。

図３に戻り、トレーニングセット２１０内にまだ画像がある場合（３４０）には、本プロセスは、全ての画像の表現が計算されるまで、次のトレーニング画像に関して繰り返される。トレーニングセット内の全ての画像が処置された時点で、確率モデル２３０が、画像特徴の生成プロセスを記述することが可能な画像表現に基づいて生成される（３５０）。確率モデル２３０は、トレーニングセットからのポーズの線形結合としてポーズを分類する。一実施形態において、潜在的ディリクレ割当法（ＬＤＡ：Latent Dirichlet Allocation）によって、確率モデル１２０が生成される。

このような特徴のクラスに関する生成モデルの導出においては、特徴は、重み付けされたヒストグラムを表すので、非負成分を有することに留意すべきである。このように、これらの記述子に関する好適な生成モデルは、非負制約を課す。例示的な実施形態において、確率モデル１２０は、ＬＤＡを適用することによって生成され（３５０）、かかる事項は、Blei, D. M., et al., "Latent Dirichlet Allocation", JMLR, 3: 993-1022, 2003 に記載されており、当該文献は、参照によって本明細書に一体的に組み込まれるものとする。
ＬＤＡは、テキスト解析コンテクストに導入されるが、オブジェクトクラスの認識問題にも適用され、かかる事項は、Fergus, R., et al., "Learning Object Categories From Google's Image Search", Proc. ICCV, pages 1816-1823, 2005; and Sivic, J., et al., "Discovering object Categories in Image Collections, Proc. ICCV, pages 734-741, 2003 に記載されており、これらの文献は、参照によって本明細書に一体的に組み込まれるものとする。

潜在的ディリクレ割当法（ＬＤＡ）は、疎で離散的な混合物（mixture）の分布に関する階層的モデルであり、基本的要素（単語）は、構成要素の分布の混合物からサンプリングされ、各構成要素は、単語のセット全体にわたる離散的な分布を規定する。かかるモデルの主な特徴は、各構成要素からの寄与が、相加的に結合することであり（各単語に関するカウントの合計が、各構成要素からのカウントの合計と等しい。）、これに対して、標準的な混合モデルでは、全ての単語が、一の構成要素に対して独占的に割り当てられる。

ＬＤＡは、ドキュメントの集合に基づいており、ここで、データの基本単位である単語ｗは、Ｗ個のユニークな要素ｗ∈｛１，・・・，Ｗ｝のディクショナリ内の値をとる。ドキュメントｗ＝（ｗ_１，ｗ_２，・・・，ｗ_Ｗ）は、単語のカウントｗ_ｊの集合である。

標準的なＬＤＡモデルは、Ｎの分布を備えておらず、そのため、以下の説明中では省略可能である。コーパスＤ＝｛ｗ_１，ｗ_２，・・・，ｗ_Ｍ｝は、Ｍ個のドキュメントの集合である。ＬＤＡモデルは、トピックと呼ばれるＫ個の潜在的変数のセットを導入する。ドキュメント内の各ワードは、トピックの一つによって生成されるものと仮定される。

図６は、ＬＤＡモデル下における、コーパス内の各ドキュメントｗの生成プロセスの例示的な実施形態を記述する図である。コンピュータシステム１００は、トピックの分布θ〜Dirichlet（α）を選択する（６１０）。すなわち、サンプルθは、パラメータαを有するディリクレ分布から選び出される。ディクショナリ内の各単語ｊ＝１，・・・，Ｗに関して、単語のカウントｗ_ｊ〜ｐ（ｗ_ｊ｜θ，β）が、θ及びβによってパラメータ化された分布ｐからサンプルｗ_ｊを選び出すことによって選択される（６２０）。ハイパーパラメータα∈Ｒ_＋ ^Ｋは、以前のトピック分布を表し、θ∈Ｒ_＋ ^Ｋは、トピックの比率であり、β∈Ｒ_＋ ^Ｗ×Ｋは、トピックが条件とされた単語の分布のパラメータである。一実施形態において、単語のカウントｗ_ｊは、トピックの比率θ：ｐ（ｗ_ｊ｜θ，β）＝β_ｊ．θが条件とされた離散的分布から選び出される。他の実施形態において、離散的分布は、多項式によって置き換えられ、かかる事項は、Buntine, W., and A. Jakulin., "Applying Discrete PCA in Data Analysis", Technical Report 2004-11, Helsinki Institute for Information Technology, 2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。さらに他の実施形態において、各構成要素からの単語θ_ｉの数は、独立ガンマサンプルであり、ｐ（ｗ_ｊ｜θ，β）は、ポアソンであり、かかる事項は、Canny, J., "GaP: a Factor Model For Descrete Data", ACM SIGIR pages 122-129,2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。

トピックの分布βは、トレーニングデータに最も適合するモデルのパラメータを推定するための決定性パラメータであると仮定する。一実施形態において、パラメータの最も可能性のある値は、以前の分布及びトレーニングデータが与えられると計算される。例えば、トピックの分布βの最も可能性のある値は、パラメータηを有する以前の値と同様に、ディリクレ分布を用いて推定可能である。全てのパラメータが学習された時点で、全てのパラメータを利用することによって、所与のテストサンプルの最もあり得るトピックを推論することが可能である。

ドキュメントｗの尤度は、

によって計算される（６３０）。

ここで、ドキュメントは、連続的な混合物の分布として表現される。標準的で離散的な混合物の分布に対する利点として、このモデルによって各ドキュメントが一以上のトピックによって生成可能であることが挙げられる。

ＬＤＡフレームワークは、ヒストグラムのビンを量子化し、ユニークな単語を各ビンに割り当てることによって画像に直接的に適用可能である。画像パッチに関して計算された向きのヒストグラムは、単語（ｗ_１，・・・，ｗ_Ｗ）のバッグとして表わされるドキュメントｗであり、ここで、単語のカウントｗ_ｊは、ビンの高さである。類推を続けると、ドキュメントは、画像に対応し、コーパスは、画像のセットに対応する。例えば、一のコーパスがポジティブ画像のセットに対応し、他のコーパスがネガティブ画像のセットに対応する。ヒストグラムは、基本的な構成要素（トピック）の混合物によって生成され、ここで、各トピックｚは、データセット内の要素のクラスに共通する一般的な構成のエッジを表わすビンに関する離散的分布ｐ（ｒ｜β_・ｚ）を備えている。各トピックからの寄与を合計することによって、ｐ（ｗ_ｊ｜θ，β）に応じて分布した、各ビンに関する合計カウントｗ_ｊが得られる。

かかる特徴形成プロセスの主な特性としては、トピックが相加的に結合されることが挙げられる。すなわち、同一のビンは、複数のトピックからの寄与を有することができ、このことは、ビンの高さが近傍におけるエッジのカウントであり、当該近傍は、異なる構成要素によって生成されたパーツを備えることができるという事実をモデル化している。ユニークな単語を各ビンに割り当てることによって、単語のアイデンティティにコード化された空間的情報がモデル化される。オブジェクトクラス認識のための同様の確率モデルを用いた従来のアプローチのほとんどは、この種の情報を利用していない。

同様に、ドキュメント解析技術に関する本明細書での言及は、前記した類推に基づいて画像解析に適用可能であることを理解すべきである。例えば、図７は、テキスト解析のための図６のステップに類似した画像モデリングのためのＬＤＡモデルの実施形態を説明する図である。最初に、ポーズの比率が、ディリクレ分布に基づいて選択され（７１０）、ポーズは、前記したトピックに対応している。続いて、ビンの高さが、画像表現における各有向勾配に関して選択される（７２０）。続いて、尤度が、式（１）と同様に、（ドキュメントに類似した）画像に関して計算される（７３０）。続いて、モデルパラメータが、後記するドキュメント解析と同様の技術を用いて計算される（７４０）。

モデルパラメータは、推論アルゴリズムを用いて、トレーニングコーパスに基づいて計算される（６４０）。トレーニングにおいて、モデルパラメータは、ヒトを含むポジティブ画像のセットと、背景シーンのみを含むネガティブ画像のセットと、に関して別々に計算される。一実施形態において、平均場又は変分推論が、モデルパラメータを抽出するために適用される。他の実施形態において、ギブスサンプリング（Gibbs sampling）が適用され、かかる事項は、Griffiths, T. L., "Finding Scientific Topics", Proc. National Academy of Science, pages 5228-5235, 2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。さらに他の実施形態において、ラオ−ブラックウェル（Rao-Blackwellised）サンプリングが適用され、かかる事項は、Buntine, W., et al., "Applying Discrete PCA in a Data Analysis", Technical Report 2004-11, Helsinki Institute for Information Technology, 2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。

図８は、ギブスサンプリング法と同様の方法によってモデルパラメータを計算する例示的な実施形態を説明する図である。各ドキュメントｗ_ｉ＝（ｗ_ｉ，１，・・・，ｗ_ｉ，Ｗ）に関して、最初に、トピックの比率θ^（ｉ）〜ｐ（θ｜ｗ_ｉ，α，β）がサンプリングされる（８１０）。ここで、αは、トピックの比率θの以前の分布のパラメータである。βは、トピックの分布β_１，・・・，β_ｋのＷ×Ｋ行列であり、要素β_ｊｋは、トピックｋにおける単語ｊの相対頻度である。このように、θ^（ｉ）は、所与のドキュメントｗ_ｉに寄与するトピックの比率を記述する。続いて、単語の分布ｖ^（ｉ） _ｊ．〜Multinomial（β_ｊ．，θ^（ｉ），ｗ_ｉ、ｊ）がサンプリングされる（８２０）。ここで、ｗ_ｉ，ｊは、単語ｊがドキュメントｉ内に現れる回数であり、ｖ^（ｉ）は、ドキュメントｉに関する単語のカウントのＷ×Ｋ行列であり、要素ｖ^（ｉ） _ｊ，ｋは、トピックｋによって生成される単語ｊがドキュメントｉ内に現れる回数である。各トピックｋに関して、トピックの分布β．ｋ〜Dirichlet（Σ_ｉｖ^（ｉ） _．ｋ＋η）がサンプリングされ、ηは、トピックの分布βに関する以前のパラメータである。かかるプロセスによって、テスト段階２５０において用いられるモデルパラメータが生成される。一実施形態において、二つのモデルが学習され、２Ｄトレーニング画像２１０のセットには、ポジティブ画像のセットに関する一のモデルと、ネガティブ画像のセットに関する一のモデルと、が含まれている。本技術は、一般的にはドキュメント解析に関する技術を用いて記述されているが、前記した類推に基づいて画像解析にも適用可能であることを再度理解すべきである。

図２に戻って参照すると、テスト段階２５０は、トレーニング段階２２０からの確率モデル２３０を適用することによって、テスト画像Ｉ_ｎｅｗ内のヒトを検出し、当該ヒトのポーズを分類する。テスト段階２５０の一実施形態が、図４に説明されている。テスト画像が、処理のために受信される（４１０）。一実施形態において、画像は、複数のピクセルからなるセル内に分解され（４２０）、ｗ（Ｉ）が、前記したトレーニング段階と同じ方法で生成される（４３０）。

確率モデル２３０に基づいて、コンピュータシステム１００は、下記式（２）を用いて、画像内でヒトが検出されたかを決定する（４４０）。

式（２）における分子は、ポジティブトレーニング画像セットから導出されたモデルパラメータを用いて、式（１）に基づいて計算可能である。式（２）における分母は、ネガティブトレーニング画像セットから導出されたモデルパラメータを用いて、式（１）に基づいて同様に計算可能である。このように、式（２）は、ヒト検出に関する尤度比Ｌを提供する。尤度比を所定の閾値と比較することによって、検出決定２７０を生成することができる。

ポーズは、ポジティブトレーニング画像セットから導出されたモデルパラメータを用いて、同一の確率モデル２３０に基づいて推定される（４５０）。テスト画像Ｉ_ｎｅｗから、トピックの比率

が、モデルパラメータに基づいて、

のように推定される。

ポーズ情報は、新たな画像Ｉ_ｎｅｗとトレーニングセット内の画像Ｉとをマッチングすることによって修復可能である。一実施形態において、マッチングスコアは、
Ｓ_ｏｐｔ（Ｉ，Ｉ_ｎｅｗ）＝Ｐ（ｗ（Ｉ_ｎｅｗ）｜ｗ（Ｉ），α，β）optsimilarity
すなわち、トレーニング画像Ｉ及びモデルパラメータα，βが与えられたテスト画像Ｉ_ｎｅｗの事後確率として最適に計算される。別の実施形態においては、異なる解法が利用可能である。学習ステップにおける各トレーニングドキュメントＩに関して、事後のトピックの比率

が、式（３）のように計算される。続いて、Ｉ_ｎｅｗとＩとの間のマッチングスコアＳが、二つのベクトル

間のドット積によって求められる。

このアプローチは、低次元の単位ベクトル

を用いることによって、巨大なデータセット内のポーズ同士をマッチングしてクラスタ化するための効率的な方法を表す。

本明細書では、本発明の特定の実施形態及び用途について説明したが、本発明は、本明細書に開示された構造及び構成要素に限定されず、添付の特許請求の範囲において定義された本発明の精神及び範囲を逸脱しない範囲で、本発明の方法及び装置の配列、動作及び詳細に関する様々な修正、改変及び変形が可能であると理解されるべきである。

本発明の方法を実行するためのコンピュータシステムの例である。本発明の一実施形態に係る入出力図である。本発明の一実施形態に係るヒト検出及びポーズ推定のための確率モデルを生成するためのトレーニング段階を説明するフローチャートである。本発明の一実施形態に係るテスト画像のヒト検出及びポーズ推定のためのテスト段階を説明するフローチャートである。本発明の一実施形態に係るヒストグラムに基づいて記述子を生成する方法を説明するフローチャートである。本発明の一実施形態に係るヒト検出及びポーズ推定において用いられる確率モデルを生成する方法を説明するフローチャートである。本発明の一実施形態に係るヒト検出及びポーズ推定において用いられる確率モデルを生成する方法を説明するフローチャートである。本発明の一実施形態に係るヒト検出及びポーズ推定において用いられる確率モデルのためのモデルパラメータを計算する方法を説明するフローチャートである。

Claims

教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するステップと、
テスト画像を表すテスト画像記述子のセットを生成するステップと、
前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を決定するステップと、
前記決定された、前記テスト画像がヒトを含む尤度を記憶するステップと、
前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類するステップと、
を含み、これらの前記ステップをコンピュータを用いて実行する
ことを特徴とするヒト検出及びポーズ分類の方法。
前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズが分類されていない教師なしトレーニング段階を含む
ことを特徴とする請求項１に記載の方法。
前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが手作業で分類され、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが分類されていない半教師付きトレーニング段階を含む
ことを特徴とする請求項１に記載の方法。
トレーニング画像のセットからトレーニング画像を受信するステップと、
前記トレーニング画像を、少なくとも一つのピクセルを有する、少なくとも一つのセルに分割するステップと、
前記少なくとも一つのセルのそれぞれに関して、特徴のヒストグラムとして前記セルを表す記述子を生成するステップと、
前記トレーニング画像のセットからの画像特徴の離散的分布の合計を含む確率モデルであって、前記トレーニング画像のセットの統計データをモデル化する確率モデルを生成するステップと、
前記トレーニング画像のセットから導出された前記確率モデルのパラメータによって特徴付けられる尤度関数をテスト画像に対して適用し、前記テスト画像内にヒトが存在するか否かを検出するステップと、
前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像に対して適用し、前記テスト画像内で検出されたヒトのポーズを分類するステップと、
を含み、これらの前記ステップをコンピュータを用いて実行する
ことを特徴とするヒト検出及びポーズ分類の方法。
前記確率モデルを生成するステップは、
ヒトの画像を有するポジティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第一のセットを計算するステップと、
背景シーンの画像を有するネガティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第二のセットを計算するステップと、
を含むことを特徴とする請求項４に記載の方法。
前記記述子は、有向勾配のヒストグラムを備えている
ことを特徴とする請求項４に記載の方法。
前記記述子を生成するステップは、
前記セル内の各ピクセルに関する勾配を計算するステップと、
前記勾配の向きに基づいて各勾配を定量化して一つ又は複数のビンにして、セルヒストグラムを生成するステップと、
前記セルの少なくとも一つを、重なり合うセルからなるブロックの少なくとも一つにグループ化するステップと、
明るさとコントラストの変化とに関して前記ブロックの少なくとも一つについての前記セルヒストグラムを正規化するステップと、
を含み、
前記記述子は、前記ブロックの少なくとも一つについての前記正規化されたセルヒストグラムを含むこと、
を特徴とする請求項４に記載の方法。
前記確率モデルを生成するステップは、潜在的ディリクレ割当法（ＬＤＡ）を前記トレーニング画像に適用するステップを含む
ことを特徴とする請求項４に記載の方法。
前記確率モデルを生成するステップは、ギブスサンプリング、ラオ−ブラックウェルサンプリング、平均場及び変分推論の少なくとも一つに基づいてモデルパラメータを学習するステップを含む
ことを特徴とする請求項４に記載の方法。
教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するステップと、
テスト画像を受信するステップと、
前記トレーニング段階において用いられるトレーニング画像記述子に基づいているテスト画像記述子によって前記テスト画像を表すステップと、
前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を表す比率を計算するステップと、
前記比率と所定の閾値とを比較するステップと、
前記比率が前記閾値よりも大きい場合にヒト検出信号を出力するステップと、
前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類するステップと、
を含み、これらの前記ステップをコンピュータを用いて実行する
ことを特徴とするヒト検出及びポーズ分類の方法。
教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信する受信手段と、
テスト画像を表すテスト画像記述子のセットを生成する生成手段と、
前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を決定する決定手段と、
前記決定された、前記テスト画像がヒトを含む尤度を記憶する記憶手段と、
前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類する分類手段と、
を備えることを特徴とするヒト検出及びポーズ分類のシステム。
前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズが分類されていない教師なしトレーニング段階を含む
ことを特徴とする請求項１１に記載のシステム。
前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが手作業で分類され、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが分類されていない半教師付きトレーニング段階を含む
ことを特徴とする請求項１１に記載のシステム。
トレーニング画像のセットからトレーニング画像を受信するトレーニング画像受信手段と、
前記トレーニング画像を、少なくとも一つのピクセルを有する、少なくとも一つのセルに分割する画像分割手段と、
前記少なくとも一つのセルのそれぞれに関して、特徴のヒストグラムとして前記セルを表す記述子を生成する記述子生成手段と、
前記トレーニング画像のセットからの画像特徴の離散的分布の合計を含む確率モデルであって、前記トレーニング画像のセットの統計データをモデル化する確率モデルを生成するモデル生成手段と、
前記トレーニング画像のセットから導出された前記確率モデルのパラメータによって特徴付けられる尤度関数をテスト画像に対して適用し、前記テスト画像内にヒトが存在するか否かを検出する検出手段と、
前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像に対して適用し、前記テスト画像内で検出されたヒトのポーズを分類する分類手段と、
を備える、
ことを特徴とするヒト検出及びポーズ分類のシステム。
前記確率モデルを生成するモデル生成手段は、
ヒトの画像を有するポジティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第一のセットを計算する第一パラメータ計算手段と、
背景シーンの画像を有するネガティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第二のセットを計算する第二パラメータ計算手段と、
を備えることを特徴とする請求項１４に記載のシステム。
前記記述子は、有向勾配のヒストグラムを備えている
ことを特徴とする請求項１４に記載のシステム。
前記記述子を生成する記述子生成手段は、
前記セル内の各ピクセルに関する勾配を計算する勾配計算手段と、
前記勾配の向きに基づいて各勾配を定量化して一つ又は複数のビンにして、セルヒストグラムを生成する量子化手段と、
前記セルの少なくとも一つを、重なり合うセルからなるブロックの少なくとも一つにグループ化するセルグループ化手段と、
明るさとコントラストの変化とに関して前記ブロックの少なくとも一つについての前記セルヒストグラムを正規化する正規化手段と、
を備え、
前記記述子は、前記ブロックの少なくとも一つについての前記正規化されたセルヒストグラムを含むこと、
を特徴とする請求項１４に記載のシステム。
前記確率モデルを生成する前記モデル生成手段は、潜在的ディリクレ割当法（ＬＤＡ）を前記トレーニング画像に適用する潜在的ディリクレ割当法手段を備える
ことを特徴とする請求項１４に記載のシステム。
前記確率モデルを生成するモデル生成手段は、ギブスサンプリング、ラオ−ブラックウェルサンプリング、平均場及び変分推論の少なくとも一つに基づいてモデルパラメータを学習するパラメータ学習手段を備える
ことを特徴とする請求項１４に記載のシステム。
教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するモデル受信手段と、
テスト画像を受信するテスト画像受信手段と、
前記トレーニング段階において用いられるトレーニング画像記述子に基づいているテスト画像記述子によって前記テスト画像を表すテスト画像記述子手段と、
前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を表す比率を計算する比率計算手段と、
前記比率と所定の閾値とを比較する比率比較手段と、
前記比率が前記閾値よりも大きい場合にヒト検出信号を出力する信号出力手段と、
前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類する分類手段と、
を備えることを特徴とするヒト検出及びポーズ分類のシステム。
ヒト検出及びポーズ分類のコンピュータ実行可能なコードを記録するコンピュータ読取可能な記録媒体であって、
前記コンピュータ実行可能なコードは、
教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するステップと、
テスト画像を表すテスト画像記述子のセットを生成するステップと、
前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を決定するステップと、
前記決定された、前記テスト画像がヒトを含む尤度を記憶するステップと、
前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類するステップと、
を実行することを特徴とするコンピュータ読取可能な記録媒体。
前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズが分類されていない教師なしトレーニング段階を含む
ことを特徴とする請求項２１に記載のコンピュータ読取可能な記録媒体。
前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが手作業で分類され、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが分類されていない半教師付きトレーニング段階を含む
ことを特徴とする請求項２２に記載のコンピュータ読取可能な記録媒体。