JP4429370B2 - ポーズによるヒト検出 - Google Patents

ポーズによるヒト検出 Download PDF

Info

Publication number
JP4429370B2
JP4429370B2 JP2008538028A JP2008538028A JP4429370B2 JP 4429370 B2 JP4429370 B2 JP 4429370B2 JP 2008538028 A JP2008538028 A JP 2008538028A JP 2008538028 A JP2008538028 A JP 2008538028A JP 4429370 B2 JP4429370 B2 JP 4429370B2
Authority
JP
Japan
Prior art keywords
test image
training
human
descriptor
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008538028A
Other languages
English (en)
Other versions
JP2009514110A (ja
JP2009514110A5 (ja
Inventor
ヤン、ミン−シュエン
ビサッコ、アレッサンドロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2009514110A publication Critical patent/JP2009514110A/ja
Publication of JP2009514110A5 publication Critical patent/JP2009514110A5/ja
Application granted granted Critical
Publication of JP4429370B2 publication Critical patent/JP4429370B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Processing (AREA)

Description

本出願は、米国仮特許出願第60/731,400号「ポーズによるヒト検出(Detecting Humans Via Their Pose)」、及び、米国特許出願第11/553,388号「ポーズによるヒト検出(Detecting Humans Via Their Pose)」に基づいて優先権を主張するものであり、これらは、参照によって本明細書に一体的に組み込まれるものとする。
本出願は、コンピュータビジョンに関し、より詳細には、画像内のヒト検出及び当該ヒトのポーズ推定に関する。
単一画像からのヒト検出及び当該ヒトのポーズ推定は、画像検索、画像理解等といった幅広い用途における基礎的な問題である。ヒトは、写真に含まれる視覚情報から位置及びポーズを容易に決定することができるが、機械がこの決定を行うことができるように画像データを表すことは困難である。ヒト検出及びポーズ分類に関連した問題は、従来、研究者に対して重要な課題を提供する各問題ごとに別々にアプローチされてきた。
従来の研究は、任意のポーズをとったヒトの体を含む二次元画像の領域を特定する自動的な手順を導出することを中心としている。ヒトの画像は広い多様性を示すので、ヒト検出は、難しい問題である。衣服、照明条件、視点、体のポーズ、部分的な及び/又は自己のオクルージョン等といった妨害要因を明確にモデル化することは実行不可能であることを前提とした場合には、研究者は、ヒト/非ヒトの統計データの記述的モデルを学習することになる。それによって、問題は、従来の統計的学習技術が直接的に適用可能なバイナリ分類タスクに帰着する。したがって、ヒト検出に関する研究は、従来、好適な表現、すなわち、典型的な外観変化にほとんど左右されない表現を導出することを主に中心としており、それによって、良好な特性を標準的な分類器に提供していた。
従来、ハールウェーブレット、エッジ、勾配及び二次導関数、並びに、画像セグメンテーションの領域等といった、数多くの表現スキームがヒト検出のために利用されてきた。これらの表現を用いて、アルゴリズムは、数例を挙げると、テンプレートマッチング、サポートベクトルマシン、アダブースト(Adaboost)、グループ化等といった検出プロセスに適用されてきた。これらの技術の例は、Gavrila, D. M. and V. Philomin, "Real-time Objuct Dtection for Smart Vehicles", Proc. ICCV, pages 87-93, 1999; Ronfard, R., et al., "Learning to Parse Pictures of People", Proc. ECCV, pages 700-714, 2002; Viola, P., et al., "Detecting Pedestrians Using Patterns of Motion and Appearance", Proc. ICCV, pages 734-741, 2003; and Mori, G., et al., "Recovering Human Body Configurations: Combining Segmentation and Recognition", Proc. CVPR, pages 326-333, 2004 に記載されており、これらの文献のすべては、参照によって本明細書に一体的に組み込まれるものとする。
最近、勾配の向きに基づく局所的記述子が、ヒト検出タスクに特に成功することが証明された。主な概念は、色、明るさ(brightness)、コントラスト変化、及び、ある程度の局所的変形に左右されないようにするために、勾配の向きの分布を用いることである。しかし、従来のモデルでは、例えばポーズの変化による、より巨視的な変化を説明することは、未だにできない。
ヒトのポーズを分類する問題は、それ自身の課題を提示する。ヒトは、多くの自由度を有する多関節のオブジェクトであり、そのことが、ポーズの分類を定義することを困難な問題としている。手作業の分類を用いたとしても、二つのポーズ間の距離を判断したり、それらをクラスタ化したりすることは困難である。ポーズ推定に対する従来のアプローチのほとんどは、エッジ、形状、色や質感を用いた、又は、トレーニングデータから学習されたボディパーツ検出器に基づいている。続いて、パーツアッセンブリの最適な構成が、動的なプログラミングを用いて、又は、データ駆動マルコフ鎖モンテカルロ法(Data Driven Markov Chain Monte Carlo)、信念伝搬(Belief Propagation)又はその非ガウス拡張を用いた生成確率モデルに関する推論を実行することによって計算される。かかる事項は、Sigal, L., et al., "Attractive People: Assembling Loose-Limbed Models Using Non-Parametric Belief Propagation", NIPS, pages 1539-1546, 2003 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。
前記したアプローチは、検出、ポーズ推定といった二つの問題の一つのみに集中している。ヒト検出においては、単純なイエス/ノーといった回答が多くの場合に望まれるので、物理量に関連する潜在的変数を用いた複雑なモデルを導入する利点は、ほとんど又は全くないといえる。一方で、ポーズ推定においては、物理量を推定することが目標であり、それゆえ、包括的な生成モデルが自然なアプローチであるといえる。このように、ヒト検出及びポーズ推定は、従来、全く異なる二つのモデルを計算すること、及び、完全に独立した方法で問題を解決すること、を必要としていた。さらに、従来の技術を用いると、画像にヒトが含まれることが事前にわからない場合には、ポーズ推定問題は、アプローチすらできない。ヒト検出及びポーズ推定の両方の問題に対する解法が必要とされる場合には、従来の技術は、非効率的であり、莫大な計算コストを必要としてしまう。
導出された単一の確率モデルからヒト検出及びポーズ分類を効率的に実行する方法が必要とされている。
本明細書に記載されたシステム及び方法は、単一の確率モデルから検出及びポーズ分類を同時に実行することによって、ヒト検出及びポーズ推定といった二つの問題間のギャップを埋める。トレーニング段階において、確率モデルが導出される。この確率モデルは、ヒト画像及び非ヒト画像を含む一連のトレーニング画像に基づいて生成される。確率モデルが導出された時点で、ヒト検出は、確率モデルに基づいてテスト画像上で実行可能である。画像内でヒトが検出された場合には、ヒトのポーズは、確率モデルに基づいて分類される。
ヒストグラムに基づく記述子を用いた画像表現が用いられ、そのために確率モデルが導出される。一実施形態において、確率モデルは、教師なし手法を用いて導出される。教師なしトレーニングにおいて、トレーニング画像は手作業で分類されることはない。別の実施形態において、確率モデルは、トレーニング画像の一部が手法で分類される半教師付き手法を用いて導出される。導出された確率モデルは、ヒトの画像をクラスタ化し、当該ヒトのポーズの必須情報をエンコードする低次元表現を提供する。標準的なクラスタ化と低次元化技術との重要な相違点は、ヒト検出、ポーズ分類、マッチング等といったタスクに必要とされるように、異なるモデルを結合して比較することが可能な原則を提供するのに十分な確率的フレームワークが導出されることである。確率モデルに基づいて、本システムは、テスト画像内のヒトを検出して当該ヒトのポーズを分類することに成功している。
本明細書に記載された特徴及び利点は、全てを包括しているわけではなく、特に、多くの追加的な特徴及び利点が、図面、明細書及び特許請求の範囲を参照した当業者にとっては自明であろう。さらに、本明細書で用いられている言語は、原則として読みやすさ及び説明を目的として選択されており、本発明の構成要素を線引きして制限するために選択されたものではないことに留意すべきである。
以下、本発明の好ましい実施形態について、図面を参照して記述する。ここで、同一の参照符号は、同一又は機能的に同等な要素を示す。また、図面において、各参照符号の左端の数字は、当該参照符号が最初に用いられた図面に対応している。
本明細書における「一実施形態」又は「実施形態」という用語は、実施形態に関連して記述された特定の特徴、構造又は性質が本発明の実施形態の少なくとも一つに含まれることを意味する。本明細書の様々な場所における「一実施形態において」というフレーズの表現は、すべてが同一の実施形態を指しているとは限らない。
以下の詳細な説明のいくつかの部分は、コンピュータメモリ内におけるデータビットに関する演算のアルゴリズム表現及び記号表現の用語で表現されている。これらのアルゴリズム記述及び表現は、データ処理分野の当業者によって他の当業者に作業内容を最も効率的に伝えるために用いられる手段である。ここでは、そして一般的にも、アルゴリズムは、所望の結果を導出するステップ(命令)の自己無撞着なシーケンスであると考えられている。ステップは、物理量の物理的操作を必要とする。大抵の場合、これらの量は、記録、伝送、結合、比較及びその他の操作が可能な電気信号、磁気信号又は光学信号の形態をとるが、これらに限定されない。主に共通利用のため、時として、これらの信号を、ビット、値、要素、記号、文字、用語、数字等として扱うと便利である。さらに、時として、物理量の物理的操作を必要とするステップの任意の配列を、一般性を損失することなく、モジュール又は符号化装置として扱うと便利である。
しかし、これらの全ての用語及び同様の用語は、好適な物理量に対応するべきであり、これらの量に適用される単に便利なラベルであると思うべきである。特に他に述べられない限り、以下の議論から明らかなように、記述を通して、「処理」、「計算」、「算出」、「決定」、「表示」等のような用語を用いた議論は、コンピュータシステムのメモリ、レジスタ、他の情報記憶装置、伝送装置又は表示装置内の物理(電子)量として表されるデータを操作及び伝送するコンピュータシステム又は同様の電子計算装置の動作及び処理のことを指す。
本発明の任意の態様は、アルゴリズムの形態で本明細書に記述された処理ステップ及び命令を含む。本発明の処理ステップ及び命令は、ソフトウェア、ファームウェア又はハードウェアにおいて具現化可能であり、ソフトウェアにおいて具現化された場合には、様々なオペレーティングシステムによって用いられる異なるプラットフォームからダウンロードされて常駐及び動作可能であることに留意されたい。
また、本発明は、本明細書における動作を実行するための装置に関する。この装置は、特に所望の目的のために構成されていてもよく、コンピュータ内に記憶されたコンピュータプログラムにより選択的に作動又は再構成される汎用コンピュータを備えていてもよい。かかるコンピュータプログラムは、フロッピー(登録商標)ディスク、光学ディスク、CD−ROM及び光磁気ディスクを含む各種ディスク、ROM、RAM、EPROM、EEPROM、磁気カード又は光カード、特定用途向け集積回路(ASICs)、電子的命令を記憶するのに適し、コンピュータシステムバスにより互いに結合される各種メディア等のコンピュータ読み取り可能な記憶媒体に記憶されているが、これらに限定されない。さらに、本明細書において記述されるコンピュータは、単一のプロセッサを備えていてもよく、計算能力を高めるために設計された複数のプロセッサを使用するアーキテクチャであってもよい。
本明細書で提示されるアルゴリズム及び表示は、特定のコンピュータ又は他の装置に本質的に関連するものではない。様々な汎用システムが本明細書の教示に従うプログラムとともに用いられてもよく、より特化した装置を所望の方法ステップを実行するために構成すると便利であることもわかっている。これらの多様なシステムに必要な構造は、以下の記述から明らかになるであろう。さらに、本発明は、特定のプログラム言語に関して記述されているわけではない。多様なプログラム言語が本明細書で記述された本発明の教示を実行するために使用可能であり、以下の特定の言語に対する言及は、本発明の実施可能性及びベストモードの開示のために提供されていることは明らかである。
さらに、本明細書で用いられる言語は、主として読みやすさ及び説明を目的として選択されているものであり、本発明の構成要件を線引きし限定するために選択されているわけではない。したがって、本発明の開示は、添付の特許請求の範囲に記載された本発明の範囲を説明することを意図したものであり、限定することを意図したものではない。
図1は、本発明の一実施形態に係るコンピュータシステムを示す図である。コンピュータシステム100は、入力装置102と、メモリ104と、プロセッサ106と、出力装置108と、画像プロセッサ110と、を備えている。入力装置102は、ネットワーク120、データベース130及び撮像ユニット140と接続されている。出力装置108は、データベース150、ネットワーク160及びディスプレイ170と接続されている。他の実施形態において、入力装置102は、ネットワーク120、データベース130及び撮像ユニット140の一つ又は二つのみと接続されている。さらに他の実施形態において、入力装置102は、コンピュータシステム100にデータを入力するように構成された任意の装置と接続されていてもよい。同様に、いくつかの実施形態において、出力装置108は、データベース150、ネットワーク160、ディスプレイ170、及び、出力されたデータを受信することが可能な任意の装置の一つ以上と接続されていてもよい。他の実施形態において、コンピュータシステム100は、プロセッサ106、画像プロセッサ110又は他の特定のプロセッサを一つ以上備えている。
図2は、本発明の一実施形態に係る入出力図である。トレーニング段階220において、コンピュータシステム100は、トレーニング画像210を受信し、トレーニング画像の統計データを記述する確率モデル230を生成する。テスト段階250において、コンピュータシステム100は、テスト画像240を受信し、ヒトが画像内に存在するかを示す検出決定270を出力する。コンピュータシステム100がヒトを検出した場合には、ポーズ分類260も出力される。テスト段階で行われた検出決定270は、確率モデル230の少なくとも一部に基づいている。
トレーニング画像は、例えば、様々なポーズをとったヒトの画像(ポジティブ画像)のセットと、ヒトを含まないシーンの画像(ネガティブ画像)のセットと、からなる。一実施形態において、トレーニングは、教師なし(unsupervised)トレーニングである。教師なしトレーニングにおいて、ポジティブトレーニング画像内のポーズは、手作業では分類されない。別の実施形態において、トレーニングは、半教師つき(semi-supervised)トレーニングである。半教師つきトレーニングにおいて、トレーニングセットにおける少なくとも一つのポーズは、(例えば、ヒトによる)手作業によって分類され、他のポーズは、手作業では分類されない。教師なしトレーニングに関するさらなる詳細は、Weber, M., et al., "Toward Automatic Discovery of Object Categories", Proc. CVPR, pages 2101-2108, 2000 に記載されており、当該文献は、参照によって本明細書に一体的に組み込まれるものとする。
図3は、トレーニング段階220の例示的な実施形態を説明する図である。コンピュータシステム100は、トレーニング画像セット210内の次の画像を受信する(310)。トレーニング画像210は、ネットワーク120、データベース130、撮像ユニット140又は他の入力システムに対するインターフェースである入力装置102を介して、コンピュータシステム100によって取得可能である。続いて、画像は、複数のピクセルからなるセルに分割される(320)。例えば、64×128ピクセルのパッチが、8×8セルに分割可能である。各セルに関して、ヒストグラムに基づく局所的記述子が計算される(330)。一実施形態において、有向勾配(oriented gradient)のヒストグラムが、局所的記述子を提供する。有向勾配のヒストグラムは、勾配の向きの量子化を表す。別の実施形態において、ヒストグラムに基づく異なる記述子が、複数の画像を表すために利用可能である。
図5は、各セルに関する記述子を生成する(330)方法の例示的な実施形態を説明する図である。一実施形態において、有向勾配のヒストグラムは、画像に基づく検出及びマッチングのための表現として用いられる。かかる事項は、Lowe, D. G., "Object Recognition from Local Scale-Invariant Features", Proc. ICCV, pages 1150-1157, 1999; and Dalal, N., and B. Triggs, "Histograms of Oriented Gradients for Human Detection", Proc. CVPR, pages 886-893, 2005 に記載されており、これらの文献は両方とも、参照によって本明細書に一体的に組み込まれるものとする。勾配は、大きさ及び向きを備える各ピクセルに関して計算される(510)。ヒストグラムは、勾配を、その向き及び大きさに基づいてビン(bin)内に量子化する(520)ことによって生成される。各ビンは、特定の位置での勾配の強度を表し、向きの範囲及び局所的近傍(セル)によって規定される。ビンの高さは、強度及びセル内のエッジの数を示す。例示的な実施形態において、向きは、0°〜180°の範囲内の9つのビン内に量子化される。各ピクセルは、勾配の大きさに比例し、ビンの中心からの距離によって線形的に減少する量によって、向き及び空間の両方で、隣接するビンに寄与する。これらのセルは、重なり合う領域のブロックにグループ化され(530)、各ピクセルの寄与は、ガウス核によって重み付けされてもよい。例えば、セルは、2×2ブロックにグループ化されて、σ=8であり、ブロック内に中心を有するガウス核によって重み付けされていてもよい。最終的に、一つのブロック内のセルヒストグラムのベクトルvが、明るさ(brightness)及びコントラスト変化に関して正規化される(540)。例えば、ベクトルは、Lノルム:v/(‖v‖+ε)に正規化されてもよい。最終的に得られた記述子は、重なり合うブロック(例えば、各セルは、4つのブロックによって共有されている。)からのヒストグラムの集合である。かかる表現の主な特徴は、局所的変形、照明変化、並びに、ヒストグラムの粗大化によるある程度の視点及びポーズの変化に対するロバスト性である。
図3に戻り、トレーニングセット210内にまだ画像がある場合(340)には、本プロセスは、全ての画像の表現が計算されるまで、次のトレーニング画像に関して繰り返される。トレーニングセット内の全ての画像が処置された時点で、確率モデル230が、画像特徴の生成プロセスを記述することが可能な画像表現に基づいて生成される(350)。確率モデル230は、トレーニングセットからのポーズの線形結合としてポーズを分類する。一実施形態において、潜在的ディリクレ割当法(LDA:Latent Dirichlet Allocation)によって、確率モデル120が生成される。
このような特徴のクラスに関する生成モデルの導出においては、特徴は、重み付けされたヒストグラムを表すので、非負成分を有することに留意すべきである。このように、これらの記述子に関する好適な生成モデルは、非負制約を課す。例示的な実施形態において、確率モデル120は、LDAを適用することによって生成され(350)、かかる事項は、Blei, D. M., et al., "Latent Dirichlet Allocation", JMLR, 3: 993-1022, 2003 に記載されており、当該文献は、参照によって本明細書に一体的に組み込まれるものとする。
LDAは、テキスト解析コンテクストに導入されるが、オブジェクトクラスの認識問題にも適用され、かかる事項は、Fergus, R., et al., "Learning Object Categories From Google's Image Search", Proc. ICCV, pages 1816-1823, 2005; and Sivic, J., et al., "Discovering object Categories in Image Collections, Proc. ICCV, pages 734-741, 2003 に記載されており、これらの文献は、参照によって本明細書に一体的に組み込まれるものとする。
潜在的ディリクレ割当法(LDA)は、疎で離散的な混合物(mixture)の分布に関する階層的モデルであり、基本的要素(単語)は、構成要素の分布の混合物からサンプリングされ、各構成要素は、単語のセット全体にわたる離散的な分布を規定する。かかるモデルの主な特徴は、各構成要素からの寄与が、相加的に結合することであり(各単語に関するカウントの合計が、各構成要素からのカウントの合計と等しい。)、これに対して、標準的な混合モデルでは、全ての単語が、一の構成要素に対して独占的に割り当てられる。
LDAは、ドキュメントの集合に基づいており、ここで、データの基本単位である単語wは、W個のユニークな要素w∈{1,・・・,W}のディクショナリ内の値をとる。ドキュメントw=(w,w,・・・,w)は、単語のカウントwの集合である。
Figure 0004429370
標準的なLDAモデルは、Nの分布を備えておらず、そのため、以下の説明中では省略可能である。コーパスD={w,w,・・・,w}は、M個のドキュメントの集合である。LDAモデルは、トピックと呼ばれるK個の潜在的変数のセットを導入する。ドキュメント内の各ワードは、トピックの一つによって生成されるものと仮定される。
図6は、LDAモデル下における、コーパス内の各ドキュメントwの生成プロセスの例示的な実施形態を記述する図である。コンピュータシステム100は、トピックの分布θ〜Dirichlet(α)を選択する(610)。すなわち、サンプルθは、パラメータαを有するディリクレ分布から選び出される。ディクショナリ内の各単語j=1,・・・,Wに関して、単語のカウントw〜p(w|θ,β)が、θ及びβによってパラメータ化された分布pからサンプルwを選び出すことによって選択される(620)。ハイパーパラメータα∈R は、以前のトピック分布を表し、θ∈R は、トピックの比率であり、β∈R W×Kは、トピックが条件とされた単語の分布のパラメータである。一実施形態において、単語のカウントwは、トピックの比率θ:p(w|θ,β)=β.θが条件とされた離散的分布から選び出される。他の実施形態において、離散的分布は、多項式によって置き換えられ、かかる事項は、Buntine, W., and A. Jakulin., "Applying Discrete PCA in Data Analysis", Technical Report 2004-11, Helsinki Institute for Information Technology, 2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。さらに他の実施形態において、各構成要素からの単語θの数は、独立ガンマサンプルであり、p(w|θ,β)は、ポアソンであり、かかる事項は、Canny, J., "GaP: a Factor Model For Descrete Data", ACM SIGIR pages 122-129,2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。
トピックの分布βは、トレーニングデータに最も適合するモデルのパラメータを推定するための決定性パラメータであると仮定する。一実施形態において、パラメータの最も可能性のある値は、以前の分布及びトレーニングデータが与えられると計算される。例えば、トピックの分布βの最も可能性のある値は、パラメータηを有する以前の値と同様に、ディリクレ分布を用いて推定可能である。全てのパラメータが学習された時点で、全てのパラメータを利用することによって、所与のテストサンプルの最もあり得るトピックを推論することが可能である。
ドキュメントwの尤度は、
Figure 0004429370
によって計算される(630)。
ここで、ドキュメントは、連続的な混合物の分布として表現される。標準的で離散的な混合物の分布に対する利点として、このモデルによって各ドキュメントが一以上のトピックによって生成可能であることが挙げられる。
LDAフレームワークは、ヒストグラムのビンを量子化し、ユニークな単語を各ビンに割り当てることによって画像に直接的に適用可能である。画像パッチに関して計算された向きのヒストグラムは、単語(w,・・・,w)のバッグとして表わされるドキュメントwであり、ここで、単語のカウントwは、ビンの高さである。類推を続けると、ドキュメントは、画像に対応し、コーパスは、画像のセットに対応する。例えば、一のコーパスがポジティブ画像のセットに対応し、他のコーパスがネガティブ画像のセットに対応する。ヒストグラムは、基本的な構成要素(トピック)の混合物によって生成され、ここで、各トピックzは、データセット内の要素のクラスに共通する一般的な構成のエッジを表わすビンに関する離散的分布p(r|β・z)を備えている。各トピックからの寄与を合計することによって、p(w|θ,β)に応じて分布した、各ビンに関する合計カウントwが得られる。
かかる特徴形成プロセスの主な特性としては、トピックが相加的に結合されることが挙げられる。すなわち、同一のビンは、複数のトピックからの寄与を有することができ、このことは、ビンの高さが近傍におけるエッジのカウントであり、当該近傍は、異なる構成要素によって生成されたパーツを備えることができるという事実をモデル化している。ユニークな単語を各ビンに割り当てることによって、単語のアイデンティティにコード化された空間的情報がモデル化される。オブジェクトクラス認識のための同様の確率モデルを用いた従来のアプローチのほとんどは、この種の情報を利用していない。
同様に、ドキュメント解析技術に関する本明細書での言及は、前記した類推に基づいて画像解析に適用可能であることを理解すべきである。例えば、図7は、テキスト解析のための図6のステップに類似した画像モデリングのためのLDAモデルの実施形態を説明する図である。最初に、ポーズの比率が、ディリクレ分布に基づいて選択され(710)、ポーズは、前記したトピックに対応している。続いて、ビンの高さが、画像表現における各有向勾配に関して選択される(720)。続いて、尤度が、式(1)と同様に、(ドキュメントに類似した)画像に関して計算される(730)。続いて、モデルパラメータが、後記するドキュメント解析と同様の技術を用いて計算される(740)。
モデルパラメータは、推論アルゴリズムを用いて、トレーニングコーパスに基づいて計算される(640)。トレーニングにおいて、モデルパラメータは、ヒトを含むポジティブ画像のセットと、背景シーンのみを含むネガティブ画像のセットと、に関して別々に計算される。一実施形態において、平均場又は変分推論が、モデルパラメータを抽出するために適用される。他の実施形態において、ギブスサンプリング(Gibbs sampling)が適用され、かかる事項は、Griffiths, T. L., "Finding Scientific Topics", Proc. National Academy of Science, pages 5228-5235, 2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。さらに他の実施形態において、ラオ−ブラックウェル(Rao-Blackwellised)サンプリングが適用され、かかる事項は、Buntine, W., et al., "Applying Discrete PCA in a Data Analysis", Technical Report 2004-11, Helsinki Institute for Information Technology, 2004 に記載されており、かかる文献は、参照によって本明細書に一体的に組み込まれるものとする。
図8は、ギブスサンプリング法と同様の方法によってモデルパラメータを計算する例示的な実施形態を説明する図である。各ドキュメントw=(wi,1,・・・,wi,W)に関して、最初に、トピックの比率θ(i)〜p(θ|w,α,β)がサンプリングされる(810)。ここで、αは、トピックの比率θの以前の分布のパラメータである。βは、トピックの分布β,・・・,βのW×K行列であり、要素βjkは、トピックkにおける単語jの相対頻度である。このように、θ(i)は、所与のドキュメントwに寄与するトピックの比率を記述する。続いて、単語の分布v(i) j.〜Multinomial(βj.,θ(i),wi、j)がサンプリングされる(820)。ここで、wi,jは、単語jがドキュメントi内に現れる回数であり、v(i)は、ドキュメントiに関する単語のカウントのW×K行列であり、要素v(i) j,kは、トピックkによって生成される単語jがドキュメントi内に現れる回数である。各トピックkに関して、トピックの分布β.k〜Dirichlet(Σ(i) .k+η)がサンプリングされ、ηは、トピックの分布βに関する以前のパラメータである。かかるプロセスによって、テスト段階250において用いられるモデルパラメータが生成される。一実施形態において、二つのモデルが学習され、2Dトレーニング画像210のセットには、ポジティブ画像のセットに関する一のモデルと、ネガティブ画像のセットに関する一のモデルと、が含まれている。本技術は、一般的にはドキュメント解析に関する技術を用いて記述されているが、前記した類推に基づいて画像解析にも適用可能であることを再度理解すべきである。
図2に戻って参照すると、テスト段階250は、トレーニング段階220からの確率モデル230を適用することによって、テスト画像Inew内のヒトを検出し、当該ヒトのポーズを分類する。テスト段階250の一実施形態が、図4に説明されている。テスト画像が、処理のために受信される(410)。一実施形態において、画像は、複数のピクセルからなるセル内に分解され(420)、w(I)が、前記したトレーニング段階と同じ方法で生成される(430)。
確率モデル230に基づいて、コンピュータシステム100は、下記式(2)を用いて、画像内でヒトが検出されたかを決定する(440)。
Figure 0004429370
式(2)における分子は、ポジティブトレーニング画像セットから導出されたモデルパラメータを用いて、式(1)に基づいて計算可能である。式(2)における分母は、ネガティブトレーニング画像セットから導出されたモデルパラメータを用いて、式(1)に基づいて同様に計算可能である。このように、式(2)は、ヒト検出に関する尤度比Lを提供する。尤度比を所定の閾値と比較することによって、検出決定270を生成することができる。
ポーズは、ポジティブトレーニング画像セットから導出されたモデルパラメータを用いて、同一の確率モデル230に基づいて推定される(450)。テスト画像Inewから、トピックの比率
Figure 0004429370
が、モデルパラメータに基づいて、
Figure 0004429370
のように推定される。
ポーズ情報は、新たな画像Inewとトレーニングセット内の画像Iとをマッチングすることによって修復可能である。一実施形態において、マッチングスコアは、
opt(I,Inew)=P(w(Inew)|w(I),α,β)optsimilarity
すなわち、トレーニング画像I及びモデルパラメータα,βが与えられたテスト画像Inewの事後確率として最適に計算される。別の実施形態においては、異なる解法が利用可能である。学習ステップにおける各トレーニングドキュメントIに関して、事後のトピックの比率
Figure 0004429370
が、式(3)のように計算される。続いて、InewとIとの間のマッチングスコアSが、二つのベクトル
Figure 0004429370
間のドット積によって求められる。
Figure 0004429370
このアプローチは、低次元の単位ベクトル
Figure 0004429370
を用いることによって、巨大なデータセット内のポーズ同士をマッチングしてクラスタ化するための効率的な方法を表す。
本明細書では、本発明の特定の実施形態及び用途について説明したが、本発明は、本明細書に開示された構造及び構成要素に限定されず、添付の特許請求の範囲において定義された本発明の精神及び範囲を逸脱しない範囲で、本発明の方法及び装置の配列、動作及び詳細に関する様々な修正、改変及び変形が可能であると理解されるべきである。
本発明の方法を実行するためのコンピュータシステムの例である。 本発明の一実施形態に係る入出力図である。 本発明の一実施形態に係るヒト検出及びポーズ推定のための確率モデルを生成するためのトレーニング段階を説明するフローチャートである。 本発明の一実施形態に係るテスト画像のヒト検出及びポーズ推定のためのテスト段階を説明するフローチャートである。 本発明の一実施形態に係るヒストグラムに基づいて記述子を生成する方法を説明するフローチャートである。 本発明の一実施形態に係るヒト検出及びポーズ推定において用いられる確率モデルを生成する方法を説明するフローチャートである。 本発明の一実施形態に係るヒト検出及びポーズ推定において用いられる確率モデルを生成する方法を説明するフローチャートである。 本発明の一実施形態に係るヒト検出及びポーズ推定において用いられる確率モデルのためのモデルパラメータを計算する方法を説明するフローチャートである。

Claims (23)

  1. 教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するステップと、
    テスト画像を表すテスト画像記述子のセットを生成するステップと、
    前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を決定するステップと、
    前記決定された、前記テスト画像がヒトを含む尤度を記憶するステップと、
    記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類するステップと、
    を含み、これらの前記ステップをコンピュータを用いて実行する
    ことを特徴とするヒト検出及びポーズ分類の方法。
  2. 前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズが分類されていない教師なしトレーニング段階を含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが手作業で分類され、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが分類されていない半教師付きトレーニング段階を含む
    ことを特徴とする請求項1に記載の方法。
  4. トレーニング画像のセットからトレーニング画像を受信するステップと、
    前記トレーニング画像を、少なくとも一つのピクセルを有する、少なくとも一つのセルに分割するステップと、
    前記少なくとも一つのセルのそれぞれに関して、特徴のヒストグラムとして前記セルを表す記述子を生成するステップと、
    前記トレーニング画像のセットからの画像特徴の離散的分布の合計を含む確率モデルであって、前記トレーニング画像のセットの統計データをモデル化する確率モデルを生成するステップと、
    前記トレーニング画像のセットから導出された前記確率モデルのパラメータによって特徴付けられる尤度関数をテスト画像に対して適用し、前記テスト画像内にヒトが存在するか否かを検出するステップと、
    前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像に対して適用し、前記テスト画像内で検出されたヒトのポーズを分類するステップと、
    を含み、これらの前記ステップをコンピュータを用いて実行する
    ことを特徴とするヒト検出及びポーズ分類の方法。
  5. 前記確率モデルを生成するステップは、
    ヒトの画像を有するポジティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第一のセットを計算するステップと、
    背景シーンの画像を有するネガティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第二のセットを計算するステップと、
    を含むことを特徴とする請求項4に記載の方法。
  6. 前記記述子は、有向勾配のヒストグラムを備えている
    ことを特徴とする請求項4に記載の方法。
  7. 前記記述子を生成するステップは、
    前記セル内の各ピクセルに関する勾配を計算するステップと、
    前記勾配の向きに基づいて各勾配を定量化して一つ又は複数のビンにして、セルヒストグラムを生成するステップと、
    前記セルの少なくとも一つを、重なり合うセルからなるブロックの少なくとも一つにグループ化するステップと、
    明るさとコントラストの変化とに関して前記ブロックの少なくとも一つについての前記セルヒストグラムを正規化するステップと、
    を含み、
    前記記述子は、前記ブロックの少なくとも一つについての前記正規化されたセルヒストグラムを含むこと、
    特徴とする請求項4に記載の方法。
  8. 前記確率モデルを生成するステップは、潜在的ディリクレ割当法(LDA)を前記トレーニング画像に適用するステップを含む
    ことを特徴とする請求項4に記載の方法。
  9. 前記確率モデルを生成するステップは、ギブスサンプリング、ラオ−ブラックウェルサンプリング、平均場及び変分推論の少なくとも一つに基づいてモデルパラメータを学習するステップを含む
    ことを特徴とする請求項4に記載の方法。
  10. 教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するステップと、
    テスト画像を受信するステップと、
    前記トレーニング段階において用いられるトレーニング画像記述子に基づいているテスト画像記述子によって前記テスト画像を表すステップと、
    前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を表す比率を計算するステップと、
    前記比率と所定の閾値とを比較するステップと、
    前記比率が前記閾値よりも大きい場合にヒト検出信号を出力するステップと、
    前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類するステップと、
    を含み、これらの前記ステップをコンピュータを用いて実行する
    ことを特徴とするヒト検出及びポーズ分類の方法。
  11. 教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信する受信手段と、
    テスト画像を表すテスト画像記述子のセットを生成する生成手段と、
    前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を決定する決定手段と、
    前記決定された、前記テスト画像がヒトを含む尤度を記憶する記憶手段と、
    記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類する分類手段と、
    を備えることを特徴とするヒト検出及びポーズ分類のシステム。
  12. 前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズが分類されていない教師なしトレーニング段階を含む
    ことを特徴とする請求項11に記載のシステム。
  13. 前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが手作業で分類され、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが分類されていない半教師付きトレーニング段階を含む
    ことを特徴とする請求項11に記載のシステム。
  14. トレーニング画像のセットからトレーニング画像を受信するトレーニング画像受信手段と、
    前記トレーニング画像を、少なくとも一つのピクセルを有する、少なくとも一つのセルに分割する画像分割手段と、
    前記少なくとも一つのセルのそれぞれに関して、特徴のヒストグラムとして前記セルを表す記述子を生成する記述子生成手段と、
    前記トレーニング画像のセットからの画像特徴の離散的分布の合計を含む確率モデルであって、前記トレーニング画像のセットの統計データをモデル化する確率モデルを生成するモデル生成手段と、
    前記トレーニング画像のセットから導出された前記確率モデルのパラメータによって特徴付けられる尤度関数をテスト画像に対して適用し、前記テスト画像内にヒトが存在するか否かを検出する検出手段と、
    前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像に対して適用し、前記テスト画像内で検出されたヒトのポーズを分類する分類手段と、
    を備える、
    ことを特徴とするヒト検出及びポーズ分類のシステム。
  15. 前記確率モデルを生成するモデル生成手段は、
    ヒトの画像を有するポジティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第一のセットを計算する第一パラメータ計算手段と、
    背景シーンの画像を有するネガティブトレーニング画像のセットの統計データをモデル化するモデルパラメータの第二のセットを計算する第二パラメータ計算手段と、
    を備えることを特徴とする請求項14に記載のシステム。
  16. 前記記述子は、有向勾配のヒストグラムを備えている
    ことを特徴とする請求項14に記載のシステム。
  17. 前記記述子を生成する記述子生成手段は、
    前記セル内の各ピクセルに関する勾配を計算する勾配計算手段と、
    前記勾配の向きに基づいて各勾配を定量化して一つ又は複数のビンにして、セルヒストグラムを生成する量子化手段と、
    前記セルの少なくとも一つを、重なり合うセルからなるブロックの少なくとも一つにグループ化するセルグループ化手段と、
    明るさとコントラストの変化とに関して前記ブロックの少なくとも一つについての前記セルヒストグラムを正規化する正規化手段と、
    を備え、
    前記記述子は、前記ブロックの少なくとも一つについての前記正規化されたセルヒストグラムを含むこと、
    特徴とする請求項14に記載のシステム。
  18. 前記確率モデルを生成する前記モデル生成手段は、潜在的ディリクレ割当法(LDA)を前記トレーニング画像に適用する潜在的ディリクレ割当法手段を備える
    ことを特徴とする請求項14に記載のシステム。
  19. 前記確率モデルを生成するモデル生成手段は、ギブスサンプリング、ラオ−ブラックウェルサンプリング、平均場及び変分推論の少なくとも一つに基づいてモデルパラメータを学習するパラメータ学習手段を備える
    ことを特徴とする請求項14に記載のシステム。
  20. 教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するモデル受信手段と、
    テスト画像を受信するテスト画像受信手段と、
    前記トレーニング段階において用いられるトレーニング画像記述子に基づいているテスト画像記述子によって前記テスト画像を表すテスト画像記述子手段と、
    前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を表す比率を計算する比率計算手段と、
    前記比率と所定の閾値とを比較する比率比較手段と、
    前記比率が前記閾値よりも大きい場合にヒト検出信号を出力する信号出力手段と、
    前記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類する分類手段と、
    を備えることを特徴とするヒト検出及びポーズ分類のシステム。
  21. ヒト検出及びポーズ分類のコンピュータ実行可能なコードを記録するコンピュータ読取可能な記録媒体であって、
    前記コンピュータ実行可能なコードは、
    教師なしトレーニング段階及び半教師付きトレーニング段階の少なくとも一つにおいて導出される確率モデルであって、トレーニング画像のセットの統計データをモデル化する確率モデルを受信するステップと、
    テスト画像を表すテスト画像記述子のセットを生成するステップと、
    前記確率モデルのパラメータによって特徴付けられる尤度関数を前記テスト画像記述子に対して適用し、前記テスト画像がヒトを含む尤度を決定するステップと、
    前記決定された、前記テスト画像がヒトを含む尤度を記憶するステップと、
    記確率モデルのパラメータによって特徴付けられる分類関数を前記テスト画像記述子に対して適用し、前記テスト画像内で検出されたヒトの体のポーズを分類するステップと、
    を実行することを特徴とするコンピュータ読取可能な記録媒体
  22. 前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズが分類されていない教師なしトレーニング段階を含む
    ことを特徴とする請求項21に記載のコンピュータ読取可能な記録媒体
  23. 前記トレーニング段階は、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが手作業で分類され、前記トレーニング画像のセット内のヒトのポーズの少なくとも一つが分類されていない半教師付きトレーニング段階を含む
    ことを特徴とする請求項22に記載のコンピュータ読取可能な記録媒体
JP2008538028A 2005-10-28 2006-10-27 ポーズによるヒト検出 Expired - Fee Related JP4429370B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US73140005P 2005-10-28 2005-10-28
US11/553,388 US7519201B2 (en) 2005-10-28 2006-10-26 Detecting humans via their pose
PCT/US2006/042089 WO2007053470A2 (en) 2005-10-28 2006-10-27 Detecting humans via their pose

Publications (3)

Publication Number Publication Date
JP2009514110A JP2009514110A (ja) 2009-04-02
JP2009514110A5 JP2009514110A5 (ja) 2009-08-20
JP4429370B2 true JP4429370B2 (ja) 2010-03-10

Family

ID=37996352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008538028A Expired - Fee Related JP4429370B2 (ja) 2005-10-28 2006-10-27 ポーズによるヒト検出

Country Status (3)

Country Link
US (1) US7519201B2 (ja)
JP (1) JP4429370B2 (ja)
WO (1) WO2007053470A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113569B2 (en) 2018-08-24 2021-09-07 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer program product
US11593621B2 (en) 2018-11-29 2023-02-28 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853072B2 (en) * 2006-07-20 2010-12-14 Sarnoff Corporation System and method for detecting still objects in images
US7822750B2 (en) * 2007-01-17 2010-10-26 Aptima, Inc Method and system to compare data entities
US7986828B2 (en) * 2007-10-10 2011-07-26 Honeywell International Inc. People detection in video and image data
WO2010008802A1 (en) * 2008-06-23 2010-01-21 Nikon Corporation Device and method for detecting whether an image is blurred
JP5581574B2 (ja) * 2008-07-09 2014-09-03 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2010092199A (ja) * 2008-10-07 2010-04-22 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US9104984B2 (en) * 2008-11-13 2015-08-11 Sony Corporation Method and device relating to information management
JP4742193B2 (ja) 2009-04-28 2011-08-10 Necソフト株式会社 年齢推定装置、年齢推定方法及びプログラム
US8213680B2 (en) 2010-03-19 2012-07-03 Microsoft Corporation Proxy training data for human body tracking
CN101976345B (zh) * 2010-09-30 2013-02-06 哈尔滨工程大学 一种噪声条件下图像尺度不变模式识别方法
US8861870B2 (en) 2011-02-25 2014-10-14 Microsoft Corporation Image labeling with global parameters
US9857868B2 (en) 2011-03-19 2018-01-02 The Board Of Trustees Of The Leland Stanford Junior University Method and system for ergonomic touch-free interface
US8760395B2 (en) 2011-05-31 2014-06-24 Microsoft Corporation Gesture recognition techniques
US9251439B2 (en) 2011-08-18 2016-02-02 Nikon Corporation Image sharpness classification system
US8635637B2 (en) 2011-12-02 2014-01-21 Microsoft Corporation User interface presenting an animated avatar performing a media reaction
US9100685B2 (en) 2011-12-09 2015-08-04 Microsoft Technology Licensing, Llc Determining audience state or interest using passive sensor data
US9336456B2 (en) 2012-01-25 2016-05-10 Bruno Delean Systems, methods and computer program products for identifying objects in video data
US20130198690A1 (en) * 2012-02-01 2013-08-01 Microsoft Corporation Visual indication of graphical user interface relationship
CA2775700C (en) 2012-05-04 2013-07-23 Microsoft Corporation Determining a future portion of a currently presented media program
KR101407070B1 (ko) 2012-09-28 2014-06-12 한국전자통신연구원 영상기반 사람 검출을 위한 특징 추출 방법 및 장치
WO2014056537A1 (en) 2012-10-11 2014-04-17 Longsand Limited Using a probabilistic model for detecting an object in visual data
US8867786B2 (en) 2012-10-31 2014-10-21 Microsoft Corporation Scenario-specific body-part tracking
CN103064941B (zh) * 2012-12-25 2016-12-28 深圳先进技术研究院 图像检索方法和装置
JP6074272B2 (ja) * 2013-01-17 2017-02-01 キヤノン株式会社 画像処理装置および画像処理方法
US9129155B2 (en) 2013-01-30 2015-09-08 Aquifi, Inc. Systems and methods for initializing motion tracking of human hands using template matching within bounded regions determined using a depth map
US9092665B2 (en) * 2013-01-30 2015-07-28 Aquifi, Inc Systems and methods for initializing motion tracking of human hands
US11373439B1 (en) * 2013-03-14 2022-06-28 Telos Corporation Touchless fingerprint matching systems and methods
US9298266B2 (en) 2013-04-02 2016-03-29 Aquifi, Inc. Systems and methods for implementing three-dimensional (3D) gesture based graphical user interfaces (GUI) that incorporate gesture reactive interface objects
US9239943B2 (en) 2014-05-29 2016-01-19 Datalogic ADC, Inc. Object recognition for exception handling in automatic machine-readable symbol reader systems
JP6365035B2 (ja) * 2014-07-10 2018-08-01 株式会社デンソー 交通オブジェクト検出装置
US9380312B2 (en) 2014-07-14 2016-06-28 Apple Inc. Encoding blocks in video frames containing text using histograms of gradients
US9396404B2 (en) 2014-08-04 2016-07-19 Datalogic ADC, Inc. Robust industrial optical character recognition
US9798948B2 (en) 2015-07-31 2017-10-24 Datalogic IP Tech, S.r.l. Optical character recognition localization tool
US9922452B2 (en) * 2015-09-17 2018-03-20 Samsung Electronics Co., Ltd. Apparatus and method for adjusting brightness of image
US10417524B2 (en) * 2017-02-16 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Deep active learning method for civil infrastructure defect detection
JP6897335B2 (ja) 2017-05-31 2021-06-30 富士通株式会社 学習プログラム、学習方法および物体検知装置
CN110163046B (zh) * 2018-06-19 2023-09-19 腾讯科技(深圳)有限公司 人体姿态识别方法、装置、服务器及存储介质
US11386636B2 (en) 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition
KR102194282B1 (ko) * 2019-05-17 2020-12-23 네이버 주식회사 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치
CN113159080A (zh) * 2020-01-22 2021-07-23 株式会社东芝 信息处理装置、信息处理方法以及存储介质
CN113743488B (zh) * 2021-08-24 2023-09-19 江门职业技术学院 基于平行车联网的车辆监控方法、装置、设备及存储介质
CN117115363B (zh) * 2023-10-24 2024-03-26 清华大学 人体胸部平面估计方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030058111A1 (en) * 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Computer vision based elderly care monitoring system
US7130446B2 (en) 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7366645B2 (en) 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
US7194114B2 (en) * 2002-10-07 2007-03-20 Carnegie Mellon University Object finder for two-dimensional images, and system for determining a set of sub-classifiers composing an object finder
US7542592B2 (en) 2004-03-29 2009-06-02 Siemesn Corporate Research, Inc. Systems and methods for face detection and recognition using infrared imaging

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113569B2 (en) 2018-08-24 2021-09-07 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer program product
US11593621B2 (en) 2018-11-29 2023-02-28 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product

Also Published As

Publication number Publication date
JP2009514110A (ja) 2009-04-02
WO2007053470A3 (en) 2008-11-27
US7519201B2 (en) 2009-04-14
WO2007053470A2 (en) 2007-05-10
US20070098254A1 (en) 2007-05-03

Similar Documents

Publication Publication Date Title
JP4429370B2 (ja) ポーズによるヒト検出
Sharma et al. Hand gesture recognition using image processing and feature extraction techniques
Kalsum et al. Emotion recognition from facial expressions using hybrid feature descriptors
Mansanet et al. Local deep neural networks for gender recognition
Huang et al. An efficient method for traffic sign recognition based on extreme learning machine
Satpathy et al. LBP-based edge-texture features for object recognition
Wu et al. Cluster boosted tree classifier for multi-view, multi-pose object detection
Trefný et al. Extended set of local binary patterns for rapid object detection
Mita et al. Discriminative feature co-occurrence selection for object detection
Cai et al. HOG-assisted deep feature learning for pedestrian gender recognition
Feng et al. Detect faces efficiently: A survey and evaluations
Arandjelovic Crowd detection from still images
Das et al. Automated Indian sign language recognition system by fusing deep and handcrafted feature
Soltanpour et al. Weighted extreme sparse classifier and local derivative pattern for 3D face recognition
Wang et al. Video object matching across multiple non-overlapping camera views based on multi-feature fusion and incremental learning
El-Sayed et al. Classification of vehicles’ types using histogram oriented gradients: comparative study and modification
Wang et al. Robust object representation by boosting-like deep learning architecture
Sumalakshmi et al. Fused deep learning based Facial Expression Recognition of students in online learning mode
Khosravi et al. Recognition of Persian/Arabic handwritten words using a combination of convolutional neural networks and autoencoder (AECNN)
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
Acevedo et al. Facial expression recognition based on static and dynamic approaches
Mahdi et al. 3D facial matching by spiral convolutional metric learning and a biometric fusion-net of demographic properties
Adeyanju et al. Development of an american sign language recognition system using canny edge and histogram of oriented gradient
Akilan Video foreground localization from traditional methods to deep learning
Suzuki et al. Illumination-invariant face identification using edge-based feature vectors in pseudo-2D Hidden Markov Models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090702

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090702

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20090702

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20090806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees