JP5984327B2 - 情報処理方法及びその装置、プログラム - Google Patents

情報処理方法及びその装置、プログラム Download PDF

Info

Publication number
JP5984327B2
JP5984327B2 JP2010166603A JP2010166603A JP5984327B2 JP 5984327 B2 JP5984327 B2 JP 5984327B2 JP 2010166603 A JP2010166603 A JP 2010166603A JP 2010166603 A JP2010166603 A JP 2010166603A JP 5984327 B2 JP5984327 B2 JP 5984327B2
Authority
JP
Japan
Prior art keywords
partial
voting
image
result
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010166603A
Other languages
English (en)
Other versions
JP2012027745A (ja
Inventor
裕人 吉井
裕人 吉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010166603A priority Critical patent/JP5984327B2/ja
Priority to US13/186,882 priority patent/US9058537B2/en
Publication of JP2012027745A publication Critical patent/JP2012027745A/ja
Application granted granted Critical
Publication of JP5984327B2 publication Critical patent/JP5984327B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は対象物の撮像画像を用いて対象物の存在位置、姿勢、および名称、種類等のカテゴリ情報を推定する情報処理方法に関するものである。ここでいう対象物とは任意の物体を表し、例えば、人、動物、自動車、カメラ、プリンター、半導体基板など何でもよい。
従来、一般化ハフ変換と呼ばれる物体検出方法があった(特許文献1参照)。この方法は、検出したい対象物体の部分的な形状を用いて対象物体の位置や姿勢を求める方法である。より具体的には、入力画像中に存在する対象物体の一部を検出し、その検出結果を元に対象物体の基準位置へ投票を行うことで、入力画像における対象物体の位置を求める方法である。
特開2003−323616号公報
しかしながら、上記従来の方法では、本来対象物体が存在しない所に物体を検出する、いわゆる誤検出が発生してしまうという問題があった。これは、入力画像中に例えば複数の平行線のような単調な模様が存在する場合に顕著である。その原因は、その平行線の領域を入力とした対象物体の一部の検出結果が、全て同じ結果になるという理由で起きることが多い。つまり、本来はバラバラな位置に向かって投票するべき所が、同じ投票が局在して投票点が集中することによって、本来対象物がない場所に対象物を検出するわけである。
そこで、本発明に係る情報処理方法は、例えば、対象物体を含む入力画像を取得する画像取得ステップと、前記入力画像中の複数の部分画像それぞれが、前記対象物体を認識するために用いられる辞書に登録された、学習画像を構成する部分学習画像のいずれに該当するかを決定する決定ステップと、前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数を取得する取得ステップと、前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数に基づいて、前記決定ステップの結果が妥当であるかを判定する判定ステップと、前記判定ステップにおいて判定された結果に基づいて、前記部分画像ごとに決定された、それぞれの部分学習画像が示す位置に投票する投票ステップと、前記投票ステップにおいて投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを有する。
また、本発明の別の側面の情報処理方法は、例えば、複数のカテゴリのいずれかに属する対象物体を含む入力画像を取得する第1の取得ステップと、前記入力画像構成する複数の部分画像を取得する第2の取得ステップと、前記部分画像から、少なくとも一つの特徴量を抽出する抽出ステップと、前記抽出ステップにおいて抽出された特徴量に基づいて、前記部分画像それぞれが、前記対象物体を認識するための辞書に登録されているいずれの部分学習画像のカテゴリに該当するかを決定する決定ステップと、前記部分学習画像ごとに、前記部分学習画像のカテゴリに該当すると決定された前記部分画像の数に基づいて、前記決定ステップで決定された結果が妥当であるかを判定する判定ステップと、前記判定ステップにおいて判定された結果に基づいて、前記部分画像ごとに決定されそれぞれの部分学習画像のカテゴリに対応するデータ空間における前記部分学習画像に対応する位置に投票する投票ステップと、前記投票ステップにおいて投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを有する。
また、本発明の別の側面の情報処理方法は、例えば、入力画像か対象物体を構成する部分領域を検出する検出ステップと、前記入力画像から検出された前記部分領域ごとの出現回数の頻度値が閾値よりも少ない場合に、前記検出ステップの検出結果を妥当であると評価する評価ステップと、前記評価ステップにおける結果に基づいて、前記検出ステップにおいて検出された結果に対応する位置に投票する投票ステップと、前記投票ステップで投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを有する。
誤検出が削減され、本来検出されるべき対象物体が検出できるようになるという効果がある。
実施形態1の処理手順を説明するフローチャートである。 実施形態の情報処理装置のハードウェア構成を表す図である。 学習フェーズを説明する図である。 部分領域の検出過程を説明する図である。 投票の様子を説明する図である。 投票の結果を説明する図である。 部分領域の検出状況を説明する図である。 投票妥当性評価ステップの詳細を説明するフローチャートである。 実施形態2の投票妥当性評価ステップの詳細を説明するフローチャートである。 対象物体の位置・種類検出ステップを説明するフローチャートである。
以下、添付図面を参照しながら本発明の実施形態を説明する。
<実施形態1>
図1は、実施形態1による情報処理方法の基本的な処理手順を説明するフローチャートである。図1を詳述する前に、本実施形態の情報処理方法が実装される装置の構成について説明する。
図2は、以下の実施形態すべてに係わる情報処理装置のハードウェア構成を示すブロック図である。なお、図2に示すのは、最も典型的な情報処理装置としてパーソナルコンピュータをモデルにした構成となっている。しかしながら、本情報処理装置として、例えば組み込みデバイス、デジタルカメラ、ハンドヘルドデバイスなどであってもよい。
CPU201は、後述するフローチャートに対応する処理手順を含む各種プログラムを実行し、装置各部の制御を行う。ROM202は、不揮発性のメモリであり、情報処理装置を初期動作させる際に必要なプログラムなどを記憶する。RAM203は、CPU201のワークエリアを提供し、2次記憶装置204から読みだされたプログラムなどを一時記憶する。2次記憶装置204は、CPU201が使用するプログラム210を記録する。なお、このプログラム210は、OS211、アプリケーション212、モジュール213、およびデータ214から構成される。
各デバイス201〜204は、バス205を通して情報をやり取りする。情報処理装置は、バス205を介して、ディスプレイ206、キーボード207、マウス208、I/Oデバイス209とつながっている。
ディスプレイ206は、ユーザに処理結果や処理の途中経過等の情報を表示するのに用いる。キーボード207とマウス208は、ユーザからの指示を入力するのに用いられ、特にマウス208は2次元や3次元の位置関係を入力するのに用いられる。I/Oデバイス209は、新規パターンや登録用パターンを取り込むために用いられる。例えば、パターンとして2次元の画像を用いる場合には、I/Oデバイス209は、対象物体を撮影するカメラとなる。また、I/Oデバイス209は、情報処理結果を他の情報処理装置へ出力することもある。
本実施形態の情報処理方法は、図1に示すステップS101〜S104の4つのステップを実行する。まず、ステップS101で、入力された画像の中から対象物体の部分領域を検出する。これは通常、事前に学習した対象物体の部分領域と入力画像とのパターンマッチングを行うことで実現する。なお、このパターンマッチング手法については、特に限定しない。公知のサポートベクターマシン、分類木、テンプレートマッチング等を用いることが出来る。
次に、ステップS102で、部分領域の検出結果を評価する投票妥当性評価を実行する。次にステップS103で、ステップS102の投票妥当性評価により妥当と判断された結果のみを用いて投票を行う。そして、最後にステップS104で、投票結果を集計して対象物体の位置、姿勢および種類(カテゴリ)を検出(識別)する。なお、従来技術として説明した通常の一般化ハフ変換では、投票妥当性を評価するステップが存在しない。本実施形態では、このステップが存在する所が特徴となる。
以下、ステップS101における部分領域検出を図3、図4を用いて詳述する。また、ステップS102における投票妥当性評価を図7、図8を用いて詳述する。そして、ステップS103における投票を図5を用いて詳述する。さらに、ステップS104における対象物体の位置・種類検出を図6を用いて詳述する。
いわゆる一般化ハフ変換と呼ばれる情報処理方法では、入力画像中に存在する対象物体の断片を検出するステップが存在する。例えば四角形のような単純な線画を検出する場合は、入力画像中に存在する線分やコーナーを検出すればよい。この場合は、線分検出ルーチンやコーナー検出ルーチンを用いることで、この検出処理を実現することが可能となる。
これに対して、対象物体が少し複雑な形状となると、線分ルーチンやコーナー検出ルーチンのような単純な検出処理では対処できなくなる。この場合、対象物体を構成する部分領域と入力画像中の部分領域とをパターンマッチすることで、対象物体の断片を検出する方法がある。基本的に、本実施形態はこのパターンマッチを用いた対象物体の部分領域検出方法を前提としており、以下その前提で説明する。但し、前述の線分検出ルーチンやコーナー検出ルーチンなどの基本的な部分図形検出ルーチンを用いた方法で本実施形態を実現してもかまわない。
部分領域検出ステップS101の処理は、学習フェーズと認識フェーズの2つに分けられる。この学習フェーズを図3を用いて説明し、認識フェーズを図4を用いて説明する。図3に示すように、学習フェーズは、部分領域抽出302、特徴量抽出304、学習306の3つの処理からなる。
学習フェーズでは、まず学習用画像301を準備する。学習用画像301の例を308に示す。学習用画像301の例308では、異なる種類の対象物体が写っているが、例えば同じ対象物体の異なる視点からの画像を用意してもよい。また、同じ対象物体の異なる大きさで写った画像を用意してもよい。なお、以下の説明において、学習用画像の種類の数はK個だとする。1つの極端な例として、学習用画像1つ1つが別種類とみなすと、Kは学習用画像の枚数と同じになる。また、もう1つの極端な例として、対象物体が写っている学習用画像と写っていない学習用画像の2種類しかないとするとK=2となる。また、1つの対象物体のK個の異なる姿勢に対応する撮影画像を学習用画像として、K種類としてもよい。
次に、部分領域抽出302で、学習用画像301から対象物体を構成する学習用部分領域303を抽出する。この抽出された部分領域303が実際に学習する画像となる。309に学習用部分領域の例を示す。この例309でいうと、各学習用画像について2つの部分領域を抽出している。この抽出する部分領域の数は、各学習用画像で異なってもよいし、同じでもよい。最終的に用意する学習用部分領域303の数は全部でN個だとする。
次に、特徴量抽出304で学習用部分領域303から特徴量を抽出する。特徴量としてはいろいろなものが考えられる。例えば、Sobelなどのフィルター処理を施してエッジを強調するものから、SIFT特徴量などの比較的計算量の多い特徴を抽出するものまである。また、特徴量抽出304で特別な処理をしない結果、画像の各ピクセルの輝度値そのものを特徴として採用してもよい。学習用部分領域303に特徴量抽出304を施して得られたデータが学習用データ305となる。この時点で学習用データ305は一般的にd次元のベクトルデータN個となる。
学習306では、この学習用データ305を用いて学習を行い、最終的に辞書307が作られる。学習306の学習アルゴリズムは、機械学習のアルゴリズムなら何でもよい。例えば、サポートベクターマシンや分類木などのアルゴリズムを用いることができる。また、一番単純なアルゴリズムとしてテンプレートマッチングのアルゴリズムを採用したとすると、学習量データ305をそのまま辞書307として保持することになる。
次に図4を用いて、ステップS101における部分領域検出の認識フェーズを詳述する。認識フェーズは、対象画像抽出402とマッチング405の2つの処理からなる。まず、対象画像抽出402で、入力画像401からパターンマッチングの対象となる対象部分画像403を抽出する。対象画像抽出402は、抽出位置を少しずつずらしながら繰り返すことで、入力画像の全ての領域から対象部分画像403が抽出されるようにする。これはいわゆるスライディング・ウィンドウの処理と呼ばれる。407が入力画像の例であり、408が入力画像中に存在する対象物体の例である。対象物体408は非常に単純な正方形だが、これは説明を簡単にするためのものである。そして、図3の308のような複雑な図形が対象物体である場合であっても、ここで説明する処理はなんら変わりない。そして、409は入力画像を走査するスライディング・ウィンドウの例である。
次に、マッチング405で、対象部分画像403と辞書404とのマッチングを行う。なお、図4の辞書404は図3の辞書307と同じものである。マッチング405で用いるモジュールは、学習フェーズで用いたアルゴリズムと対応したものを用いる。また、マッチング405は、図3の特徴量抽出304を対象部分画像403に施すモジュールも含む。結局、認識フェーズでは、それぞれの位置の対象部分画像403のマッチング結果406が得られることとなる。
図1のステップS101における部分領域検出が終了すると、ステップS102でその結果の妥当性をチェックする妥当性評価を行う。この処理を詳述する前に、図5を用いてステップS103における投票を詳述し、図6を用いてステップS104における対象物体の位置・姿勢・種類の検出を詳述する。
図5の(a)は、投票処理の様子を示した図である。入力画像501の中に対象物体502が写っている。なお、入力画像501は、入力画像という意味と同時に投票面という意味も持つ。投票面の具体的実装は後述する。この対象物体の部分領域として、4つのコーナー周辺の領域503、504、505、506をその代表として図示している。スライディング・ウィンドウを移動させながら部分領域503〜506が検出された結果、部分領域503〜506のそれぞれから対象物体の中心位置507への投票が行われる。
図5の(b)は、具体的に投票面の実装を示したものである。投票面はテーブルの形式をしており、学習用画像の種類(K個)の小さなテーブルの集まりとなる。テーブルの内容はアドレス508と投票スコア509からなる。そして、アドレス508は、学習用画像の種類番号kと入力画像501における2次元上の位置との組で構成される。小さなテーブルのサイズは対象物体の中心位置の存在範囲のサイズであり、通常は入力画像の全ピクセル数となる。結局、入力画像が横Xピクセル、縦Yピクセルだとすると、図5の(b)の全部の行数はK*X*Yとなる。
なお、対象物体の存在位置の同定精度が入力画像のピクセルより粗くてもよい場合は、存在位置を量子化することでテーブルのサイズを削減してもよい。例えば、2ピクセルx2ピクセルの正方形の部分をまとめて量子化したとすると、図5の(b)のテーブルサイズは1/4になる。図5の(a)で説明した通り、部分領域503〜506の4回の投票が行われるので、対象物体502の種類番号がk、中心位置507が(x,y)のとき、アドレス(k,x,y)のスコアが4になっている。
図5では、部分領域503〜506の4箇所のウィンドウの認識・検出結果とその投票しか示していないが、もちろんそれ以外の位置のウィンドウに関する認識・検出結果も存在する。また、図5では、1回の投票で509のスコアを1インクリメントしているが、部分画像ごとに投票の重みを変えて例えば0.5とかの値を加算してもよい。
続いて、図1のステップS104における対象物体の位置・種類の検出を説明する。図6に、図5で説明した全ての投票結果を足し合わせた得点の分布状況の例を示す。図6は、図5の(b)の小さなテーブル1つを立体図示したもので、ある学習画像の入力画像中での存在確率を表示していると見ることができる。図6の入力画像601と対象物体602は、図5の入力画像501と対象物体502にそれぞれ対応する。
図6の高さ方向は投票の結果(スコア)を示し、高いほど投票得点が高いことを意味する。投票得点の分布は603のような形になっていて、そのピークの位置604に対象物体が検出されている。図6では単峰性の投票得点分布になっているが、もちろん複数ピークがある分布になることもある。その時は、入力画像中に複数の対象物体が存在すると判断するのが妥当な場合が多いので、X、Y平面における局所的なピーク(極大値)を求めることで、この複数の対象物体存在位置を求める。
一方、投票得点の分布形状が、図6の603のような曲面である場合はそれでよいが、分布形状が不連続なギザギザな形をしている場合もある。このような時は、最も得点の高い場所に対象物体が1つ存在すると判断してもよい。最終的に、K枚のそれぞれの投票面で、図6に示したような投票ピーク位置の検出をすることによって、対象物体全種類の検出が可能となる。
図10のフローチャートは、この処理の動きを説明したものである。処理はステップS1001からS1008までの画像種類のループと、ステップS1003からS1006までのX軸、Y軸のループとの2重ループからなっている。なお、ステップS1001からS1008までの画像種類のループはK回実行する。内側のX軸、Y軸のループで、それぞれの対象物体の種類に対する最もスコアの高い点を求め、それらを集計する。具体的には、まず最大値に0をセットし(S1002)、X軸Y軸を走査しながらそれぞれの位置のスコアが最大値より大きいかどうかをチェックする(S1004)。もし当該位置のスコアが現在の最大値より大きかったら、最大値とその位置を更新する(S1005)。X軸、Y軸のループが終了したら、最大値およびその位置を当該対象物体のスコアおよびその存在位置としてテーブルに格納する(S1007)。
結局、画像種類のループが終了した時点(S1008)で、全ての種類の登録画像に対してその最も存在確率の高い位置とスコアがテーブルに格納されていることになる。そして、そのテーブルをスコアが高い順にソート(S1009)することで、存在確率の高い対象物体の種類と位置がスコア順で求まる。
最後に、図7と図8に示すフローチャートとを用いて、図1のステップS102における投票妥当性評価を説明する。図7の入力画像701は、図4の入力画像401と同じものを意味する。また、図7のスライディング・ウィンドウ702は、図4のスライディング・ウィンドウ403と同じものを意味する。図7の(b)、(c)に示した2つのグラフは、部分領域の認識結果をヒストグラムとして表したものであり、入力画像701の中をスライディング・ウィンドウ702が移動する毎にカウントされていく。2つのグラフ703と704の横軸はクラスの種類を示し、縦軸はその出現状況としての出現回数を示す。ここでクラスというのは、例えば図3の学習用部分領域302の種類を意味する。
図3の説明では、N個の学習用部分領域が存在するので、図7の(b) 、(c)に示したヒストグラムには、N個のビンが存在することになる。ビンの数は学習用画像の種類Kではないことに注意する。なお、N個の学習用部分領域をM個(M<N)の集合に束ねて、それぞれの集合の要素を同一視することで、M個のクラスに関するヒストグラムを作成してもよい。スライディング・ウィンドウ702を入力画像701の中で完全に走査した結果、最終的なクラス毎の出現回数の分布703、または704が取得できることとなる。
ここまでの処理が、図8のフローチャートに示したステップS801からS804の処理である。入力画像に対象物体が存在する場合は、対象物体を構成する部分領域のクラスの出現頻度が若干高くなるが、基本的には分布703は確率分布に従っていると近似できる。具体的には、入力画像中のスライディング・ウィンドウ走査総数をZとして、もしN>>Zの場合はポワソン分布、それ以外の場合2項分布で近似可能となる。なお、それ以外の確率分布で近似してもよい。例えば、ヒストグラムの頻度平均などの統計情報を用いて想定した確率分布のパラメータを求める。これが図8のステップS805の処理である。
そして、その得られたパラメータを用いて、例えば0.001%以下の確率でしか起こりえない出現回数を求める。これが図8のステップS806の処理である。なお、この閾値確率の値は、統計の推定で用いられるP値のように事前に決めておく。例えば、確率分布としてポワソン分布を仮定した場合、その分布関数は
Figure 0005984327
という式で表される。パラメータλは、投票のヒストグラム703または704から推定する。具体的には、平均投票回数がλとなり、例えば投票数の合計がN/10(ヒストグラムのビンの数Nの1/10)だとすれば、λは0.1となる。
この時、推定される出現回数0回が確率90%でおき、1回が確率9%でおき、2回が0.45%でおき、3回が0.015%でおきる。つまり、ほとんどのクラスの出現回数は0回で、3回同じクラスと認識・検出されたとすると、それは非常に稀な事象(確率0.015%)と判断できることになる。そして出現回数4回以上は、その起こる確率が0.001%未満となる。従ってこの例の場合は出現回数の閾値を4回とする。
例えば、ヒストグラム704では、第4番目のビンの出現回数が突出して多い。このような場合に、部分領域のクラスが第4番目だと認識・検出されたものは、妥当でないと言う評価結果となり、投票しないことになる。これに対して、ヒストグラム703の場合、評価結果として、全ての検出結果が妥当だと評価されて投票されることになる。
なお、このような非常に確率頻度の低い事象(=ヒストグラムのビンが突出する事象)が起こるケースは、入力画像中に存在する平行線などの単純な部分全域に対して、対象物体のある1種類の部分領域が検出された場合となる。どんなに単純な形状が入力画像中に存在したとしても、部分領域の種類Nは多いので、ある1種類の部分領域のみが検出されるのは不自然である。本実施形態は、このような異常な認識・検出結果を、統計的な推定を行う評価によって排除、または実質的に無効にする所が特徴となる。
最後に、ステップS807からS810のループ処理で、再度、入力画像の中のスライディング・ウィンドウの走査を行う。そのループの中で、ステップS808の判断処理において、ヒストグラム703を参照して、認識結果の出現回数がステップS806で決定した閾値を超えた場合は、投票を行わずにステップS807に戻る。もし出現回数が閾値以下だった場合は、ループの中で投票する(S809)。なお、ステップS808の判断でnoと判断された投票であっても、投票の重みを(例えば半分に)減じて投票してもかまわない。また投票をしないということは、投票の強度を0とする場合と見ることもできる。
また、この投票の重みを調整する方法の最も自然な実装は、ステップS805で推定した出現回数の生起確率を投票に乗じる方法である。なお、以上説明してきた図8のフローチャートは、図1のステップS101における部分領域検出、ステップS102における投票妥当性評価、ステップS103における投票の処理に相当する。
<実施形態2>
実施形態1では、入力画像全体に対する部分領域の認識・検出結果を集計することで、異常な認識・検出結果を判定していた。これに対して実施形態2では、局所的な部分領域の認識・検出結果を見ることで異常な認識・検出結果を判定する。
図9に処理のフローチャートを示す。ステップS901とS801、ステップS902とS802、ステップS903とS804がそれぞれ対応し、同じステップとなる。実施形態2では、ステップS905〜S907のループで、スライディング・ウィンドウの近傍領域に同じ認識・検出結果があるかどうかを判定している。例えば、当該スライディング・ウィンドウの位置が(i,j)だったとすると、i−2≦x≦i+2、j−2≦y≦j+2の範囲の5x5の近傍領域の認識・検出結果をサーチする。そして、ステップS906で、同じ認識・検出結果が予め決めた閾値以上(例えば1)存在すれば、当該スライディング・ウィンドウと同じ認識結果があると判断し、ステップS904に戻る。一方、近傍領域に同じ認識・検出結果がないと判断されると、ステップS908で、通常通り投票処理が行われる。
なお、実施形態1と同様に、ステップS906の判断で同じ認識結果があると判断された投票であっても、投票の重みを(例えば半分に)減じて投票してもかまわない。また、投票をしないということは、投票の強度を0として投票する場合と見ることもできる。また、この投票の重みを調整する方法を一般化すると、所定の関数(例えば、{1/(1+近傍での出現回数)})を投票に乗じる方法といえる。なお、この投票に乗じる所定の関数は、近傍での出現回数に関して単調減少する関数であれば何でもよい。
<他の実施形態>
以上、実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。
また、コンピュータが、コンピュータ読み取り可能なプログラムを読み出して実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどとの協働で実施形態の機能が実現されてもよい。この場合、OSなどが、実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される。

Claims (21)

  1. 対象物体を含む入力画像を取得する画像取得ステップと、
    前記入力画像中の複数の部分画像それぞれが、前記対象物体を認識するための辞書に登録された、学習画像を構成する部分学習画像のいずれに該当するかを決定する決定ステップと、
    前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数を取得する取得ステップと、
    前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数に基づいて、前記決定ステップの結果が妥当であるかを判定する判定ステップと、
    前記判定ステップにおいて判定された結果に基づいて、前記部分画像ごとに決定されたそれぞれの部分学習画像が示す位置に投票する投票ステップと、
    前記投票ステップにおいて投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを有することを特徴とする情報処理方法。
  2. 前記識別ステップでは、前記投票ステップで、前記部分画像ごとに投票された結果を集計することにより、前記対象物体のカテゴリを識別することを特徴とする請求項1に記載の情報処理方法。
  3. 前記投票ステップでは、前記妥当であると判定された判定結果のみを前記投票ステップで投票することを特徴とする請求項1または2に記載の情報処理方法。
  4. 前記投票ステップでは、前記決定ステップで決定された結果に応じた重み付けを行って投票することを特徴とする請求項1または2に記載の情報処理方法。
  5. 前記判定ステップでは、前記部分学習画像ごとに、前記部分画像が該当すると判定された数に基づいて前記判定結果が生起する確率を求め、該確率が閾値よりも小さい場合に、当該判定結果が妥当であると判定することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理方法。
  6. 前記判定ステップでは、前記入力画像中において検出された前記部分画像の近傍の部分画像が前記部分画像と同じ部分学習画像に該当すると判定される数を用いて、前記判定結果が妥当であるかを判定することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理方法。
  7. 前記判定ステップでは、前記部分学習画像に該当すると決定された部分画像の数が少ないほど、該判定の結果が妥当であると判定することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理方法。
  8. 前記決定ステップでは、予め学習したパターンとのパターンマッチングを行うことを特徴とする請求項1乃至7のいずれかに記載の情報処理方法。
  9. 対象物体を含む入力画像を取得する画像取得手段と、
    前記入力画像の複数の部分画像それぞれが、前記対象物体を認識するために用いられる辞書に登録された、学習画像を構成する部分学習画像のいずれに該当するかを決定する決定手段と、
    前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数を取得する取得手段と、
    前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数に基づいて、前記決定手段によって決定された結果が妥当であるかを判定する判定手段と、
    前記判定手段によって判定された結果に基づいて、前記部分画像ごとに決定された、それぞれの部分学習画像が示す位置に投票する投票手段と、
    前記投票手段によって投票された結果に基づいて、前記対象物体のカテゴリを識別する識別手段とを有することを特徴とする情報処理装置。
  10. コンピュータに、
    対象物体を含む入力画像を取得する画像取得ステップと、
    前記入力画像中の複数の部分画像それぞれが、前記対象物体を認識するために用いられる辞書に登録された、学習画像を構成する部分学習画像のいずれに該当するかを決定する決定ステップと、
    前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数を取得する取得ステップと、
    前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数に基づいて、前記決定ステップにおいて決定された結果が妥当であるかを判定する判定ステップと、
    前記判定ステップにおいて判定された結果に基づいて、前記部分画像ごとに決定されたそれぞれの部分学習画像が示す位置に投票する投票ステップと、
    前記投票ステップにおいて投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを実行させることを特徴とするコンピュータ読み取り可能なプログラム。
  11. 複数のカテゴリのいずれかに属する対象物体を含む入力画像を取得する第1の取得ステップと、
    前記入力画像を構成する複数の部分画像を取得する第2の取得ステップと、
    前記部分画像から、少なくとも一つの特徴量を抽出する抽出ステップと、
    前記抽出ステップにおいて抽出された特徴量に基づいて、前記部分画像それぞれが、前記対象物体を認識するための辞書に登録されているいずれの部分学習画像のカテゴリに該当するかを決定する決定ステップと、
    前記部分学習画像ごとに、前記部分学習画像のカテゴリに該当すると決定された前記部分画像の数に基づいて、前記決定ステップで決定された結果が妥当であるかを判定する判定ステップと、
    前記判定ステップにおいて判定された結果に基づいて、前記部分画像ごとに決定されたそれぞれの部分学習画像が示す位置に投票する投票ステップと、
    前記投票ステップにおいて投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを有することを特徴とする情報処理方法。
  12. 前記カテゴリは、前記対象物体の姿勢であることを特徴とする請求項11に記載の情報処理方法。
  13. 前記投票ステップで投票された結果を集計することにより、前記対象物体のカテゴリおよび位置を識別することを特徴とする請求項11または12に記載の情報処理方法。
  14. 前記判定ステップでは、前記部分学習画像のクラスごとに、前記決定された部分画像の数に基づいて、該分類結果が起こる確率を求め、該確率が閾値よりも小さい場合には、該決定結果が妥当であると判定することを特徴とする請求項11乃至13のいずれか1項に記載の情報処理方法
  15. 前記判定ステップでは、前記部分学習画像に該当すると決定された部分画像の数が少ないほど、該決定の結果が妥当であると判定することを特徴とする請求項11乃至13のいずれか1項に記載の情報処理方法。
  16. 前記投票ステップでは、前記妥当であると判定された結果のみを前記投票ステップで投票することを特徴とする請求項11乃至15のいずれか1項に記載の情報処理方法。
  17. 複数のカテゴリのいずれかに属する対象物体を含む入力画像を取得する第1の取得手段と、
    前記入力画像を構成する複数の部分画像を取得する第2の取得手段と、
    前記部分画像から、少なくとも一つの特徴量を抽出する抽出手段と、
    前記対象物体を認識するための学習画像を構成する部分学習画像のカテゴリを登録した辞書を保持する保持手段と、
    前記抽出手段で抽出された特徴量に基づいて、前記部分画像それぞれが、前記辞書に登録されているいずれの部分学習画像のカテゴリに該当するかを決定する決定ステップと、
    前記部分学習画像ごとに、該部分学習画像それぞれに対して該当すると決定された前記部分画像の数に基づいて、前記決定された結果が妥当であるかを判定する判定手段と、
    前記判定手段により判定された結果に基づいて、前記部分画像ごとに決定されたそれぞれの部分学習画像が示す位置に投票する投票手段と、
    前記投票手段により投票された結果に基づいて、前記対象物体のカテゴリを識別する識別手段とを有することを特徴とする情報処理装置。
  18. コンピュータに、
    複数のカテゴリのいずれかに属する対象物体を含む入力画像を取得する第1の取得ステップと、
    前記入力画像を構成する複数の部分画像を取得する第2の取得ステップと、
    前記部分画像から、少なくとも一つの特徴量を抽出する抽出ステップと、
    前記抽出ステップにおいて抽出された特徴量に基づいて、前記部分画像それぞれが、前記対象物体を認識するための辞書に登録されているいずれの部分学習画像のカテゴリに該当するかを決定する決定ステップと、
    前記部分学習画像ごとに、前記部分学習画像のカテゴリに該当すると決定された前記部分画像の数に基づいて、前記決定ステップで決定された結果が妥当であるかを判定する判定ステップと、
    前記判定ステップにおいて判定された結果に基づいて、前記部分画像ごとに決定されたそれぞれの部分学習画像が示す位置に投票する投票ステップと、
    前記投票ステップにおいて投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを実行させることを特徴とするコンピュータ読み取り可能なプログラム。
  19. 入力画像から対象物体を構成する部分領域を検出する検出ステップと、
    前記入力画像から検出された前記部分領域ごとの出現回数の頻度値が閾値よりも少ない場合に、前記検出ステップの検出結果を妥当であると評価する評価ステップと、
    前記評価ステップにおける結果に基づいて、前記検出ステップにおいて検出された結果に対応する位置に投票する投票ステップと、
    前記投票ステップで投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを有することを特徴とする情報処理方法。
  20. 入力画像から対象物体を構成する部分領域を検出する検出手段と、
    前記入力画像から検出された前記部分領域ごとの出現回数の頻度値が閾値よりも少ない場合に、前記検出手段の検出結果を妥当であると評価する評価手段と、
    前記評価手段による結果に基づいて、前記検出ステップにおいて検出された結果に対応する位置に投票する投票手段と、
    前記投票手段で投票された結果に基づいて、前記対象物体のカテゴリを識別する識別手段とを有することを特徴とする情報処理装置。
  21. コンピュータに、
    入力画像から対象物体を構成する部分領域を検出する検出ステップと、
    前記入力画像から検出された前記部分領域ごとの出現回数の頻度値が閾値よりも少ない場合に、前記検出ステップの検出結果を妥当であると評価する評価ステップと、
    前記評価ステップにおける結果に基づいて、前記検出ステップにおいて検出された結果に対応する位置に投票する投票ステップと、
    前記投票ステップで投票された結果に基づいて、前記対象物体のカテゴリを識別する識別ステップとを実行させることを特徴とするコンピュータ読み取り可能なプログラム。
JP2010166603A 2010-07-24 2010-07-24 情報処理方法及びその装置、プログラム Active JP5984327B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010166603A JP5984327B2 (ja) 2010-07-24 2010-07-24 情報処理方法及びその装置、プログラム
US13/186,882 US9058537B2 (en) 2010-07-24 2011-07-20 Method for estimating attribute of object, apparatus thereof, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010166603A JP5984327B2 (ja) 2010-07-24 2010-07-24 情報処理方法及びその装置、プログラム

Publications (2)

Publication Number Publication Date
JP2012027745A JP2012027745A (ja) 2012-02-09
JP5984327B2 true JP5984327B2 (ja) 2016-09-06

Family

ID=45493655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010166603A Active JP5984327B2 (ja) 2010-07-24 2010-07-24 情報処理方法及びその装置、プログラム

Country Status (2)

Country Link
US (1) US9058537B2 (ja)
JP (1) JP5984327B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514434B (zh) * 2012-06-29 2017-04-12 阿里巴巴集团控股有限公司 一种图像识别方法及装置
JP5612645B2 (ja) * 2012-09-06 2014-10-22 東芝テック株式会社 情報処理装置及びプログラム
GB2551291B (en) * 2013-05-23 2018-02-14 Linear Algebra Tech Limited Corner detection
JP6151141B2 (ja) 2013-09-18 2017-06-21 株式会社東芝 仕分装置および仕分方法
JP6674192B2 (ja) 2014-05-28 2020-04-01 ソニー株式会社 画像処理装置と画像処理方法
US10049273B2 (en) * 2015-02-24 2018-08-14 Kabushiki Kaisha Toshiba Image recognition apparatus, image recognition system, and image recognition method
KR101587186B1 (ko) 2015-10-02 2016-01-20 차경익 창문용 방풍 부재 및 이를 구비하는 창문
CN105740422B (zh) * 2016-01-29 2019-10-29 北京大学 行人检索方法及装置
US11017210B2 (en) 2016-05-19 2021-05-25 Visiana Aps Image processing apparatus and method
CN108345896A (zh) * 2017-01-23 2018-07-31 许继集团有限公司 基于部件种类和部件比例的高压设备图像识别方法及装置
CN111914622B (zh) * 2020-06-16 2024-03-26 北京工业大学 一种基于深度学习的人物交互检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393147B2 (en) * 1998-04-13 2002-05-21 Intel Corporation Color region based recognition of unidentified objects
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
US7035431B2 (en) * 2002-02-22 2006-04-25 Microsoft Corporation System and method for probabilistic exemplar-based pattern tracking
JP2003323616A (ja) 2002-02-26 2003-11-14 Nippon Telegr & Teleph Corp <Ntt> 画像処理装置及びその方法と、画像処理プログラム及びそのプログラムを記録した記録媒体
DE60238281D1 (de) * 2002-09-17 2010-12-23 Fujitsu Ltd Gerät zur aufzeichnung biologischer informationen und biologische informationen benutzendes berechtigungsgerät
US7496228B2 (en) * 2003-06-13 2009-02-24 Landwehr Val R Method and system for detecting and classifying objects in images, such as insects and other arthropods
JP2008152555A (ja) * 2006-12-18 2008-07-03 Olympus Corp 画像認識方法及び画像認識装置
JP2008282267A (ja) * 2007-05-11 2008-11-20 Seiko Epson Corp シーン識別装置、及び、シーン識別方法

Also Published As

Publication number Publication date
US20120020558A1 (en) 2012-01-26
US9058537B2 (en) 2015-06-16
JP2012027745A (ja) 2012-02-09

Similar Documents

Publication Publication Date Title
JP5984327B2 (ja) 情報処理方法及びその装置、プログラム
JP4284288B2 (ja) パターン認識装置及びその方法
JP4368767B2 (ja) 異常動作検出装置および異常動作検出方法
JP4372051B2 (ja) 手形状認識装置及びその方法
JP3863809B2 (ja) 手の画像認識による入力システム
US20120269384A1 (en) Object Detection in Depth Images
WO2012127618A1 (ja) 動体検出装置、動体検出方法、動体検出プログラム、動体追跡装置、動体追跡方法及び動体追跡プログラム
JP7049983B2 (ja) 物体認識装置および物体認識方法
Zhou et al. Histograms of categorized shapes for 3D ear detection
JP5671928B2 (ja) 学習装置、学習方法、識別装置、識別方法、およびプログラム
US20110243434A1 (en) Feature value extracting device, object identification device, and feature value extracting method
CN111626163B (zh) 一种人脸活体检测方法、装置及计算机设备
JP2015032001A (ja) 情報処理装置および情報処理手法、プログラム
JP5100688B2 (ja) 対象物検出装置及びプログラム
JP6098498B2 (ja) 情報処理装置、情報処理方法、並びにプログラム
JP4390487B2 (ja) 頭部領域抽出装置
Al-Mahadeen et al. Signature region of interest using auto cropping
JP2014010633A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
JP5010627B2 (ja) 文字認識装置及び文字認識方法
CN116580410A (zh) 票据号码识别方法、装置、电子设备及存储介质
CN109766738B (zh) 一种指纹识别方法与装置、计算机可读存储介质
JP4042602B2 (ja) 画像処理装置
WO2017179728A1 (ja) 画像認識装置、画像認識方法および画像認識プログラム
JP6350018B2 (ja) 対象物検出装置及び要素選択装置
JP2022098976A (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160802

R151 Written notification of patent or utility model registration

Ref document number: 5984327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151