JP5725918B2 - 情報処理方法及び情報処理装置 - Google Patents

情報処理方法及び情報処理装置 Download PDF

Info

Publication number
JP5725918B2
JP5725918B2 JP2011060930A JP2011060930A JP5725918B2 JP 5725918 B2 JP5725918 B2 JP 5725918B2 JP 2011060930 A JP2011060930 A JP 2011060930A JP 2011060930 A JP2011060930 A JP 2011060930A JP 5725918 B2 JP5725918 B2 JP 5725918B2
Authority
JP
Japan
Prior art keywords
learning
image
information processing
pixels
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011060930A
Other languages
English (en)
Other versions
JP2011216087A (ja
Inventor
裕人 吉井
裕人 吉井
優和 真継
優和 真継
裕輔 御手洗
裕輔 御手洗
貴之 猿田
貴之 猿田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2011060930A priority Critical patent/JP5725918B2/ja
Publication of JP2011216087A publication Critical patent/JP2011216087A/ja
Application granted granted Critical
Publication of JP5725918B2 publication Critical patent/JP5725918B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、予め学習されたパターンに基づき新規パターンを解析するパターン認識方法に関するものである。具体的な例を挙げると、パターンとして対象物を撮像した画像を用い、対象物の名称、種類、3次元上の存在位置、姿勢等の情報を推定する実装形態がある。ここでいう対象物とは任意の物体を表し、例えば、人、動物、臓器、自動車、カメラ、プリンタ、半導体基板など何でもよい。また、更に一般的な適用例としては対象とする物理現象を測定した計測値をパターンとして用いる実施形態もある。
従来、学習パターンを用いて新規パターンを解析する機械学習の技術がある。その中でも、分類木、決定木と呼ばれるパターン認識手法(非特許文献1参照)が提案され、多くのシステムで用いられてきた。この手法は木構造(ツリー構造とも呼ばれる)を用いて高速にパターンを解析できるという性質を持っており、計算機の能力の貧弱な時代にはその能力を発揮してきた。
なお、パターン認識問題をパターン識別問題として捉えたとき、識別するべきパターンの種類を“クラス”と呼び、以下の説明で“クラス”という用語はこの意味で用いる。
一方、非特許文献1にあるような古典的な分類木、決定木の欠点として、認識性能があまり高くないということが挙げられる。
この欠点を克服する技術として、例えば特許文献1にあるような分類木の集合(アンサンブル)を用いた手法が提案されている。これは分類木をL個(Lは2以上の定数であり、通常は10〜100の範囲)作成し、それら全部を用いることによって、より高い認識性能を実現する技術である。
この分類木の集合(アンサンブル)を用いた手法をコンピュータビジョンに応用した例としては非特許文献2に記載のものがある。非特許文献2では、32ピクセル×32ピクセルの画像を対象として、その輝度値を元に分類木を作成している。より具体的には、分類木の各ノードにおいてランダムに32ピクセル×32ピクセルの画像上の2点を選び、その輝度値を比較することによって枝の分岐を実現している。この処理は非常に高速にでき、かつ、認識精度も十分高いという報告が同文献の中でされている。
USP6,009,199 特許第03166905
Leo Breiman, Jerome Friedman, Charles J. Stone, and R.A. Olshen, "Classification and Regression Trees", Chapman & Hall/CRC (1984) Vincent Lepetit and Pascal Fua, "Keypoint Recognition Using Randomized Trees", IEEE Transactions on Pattern Analysis and Machine Intelligence (2006) pp.1465−pp.1479
しかしながら、例えば山積みされた部品の認識や、人ごみの中での人物認識など、背景の変動が大きい場合は、非特許文献2にある方法はそのまま使えないという問題があった。なぜならば、未知の画像の中で背景となる部分の輝度値は学習する画像と全く異なる値となるからである。具体的には、分類木の各ノードにおいて2点の輝度値を比較する際に、対象物体とは無関係な輝度値を用いる可能性が出てくる。この結果、従来の分類木を用いたパターン認識では信頼性の低い結果しか得られないという問題があった。
一方、このいわゆる背景クラッターシーンにおける物体認識問題では、従来、特許文献2にあるようなマスク画像を用いた対象物体部分のみの相関演算によるマッチングが用いられてきた。しかしながら、認識するべき問題が大規模になると、特許文献2にあるような従来の相関演算によるマッチング手法では計算時間が爆発してしまうという問題が生じる。具体的に部品認識の場合なら、判別するべき姿勢の数が面内回転を含め10,000以上になる場合がある。この場合、特許文献2にある方法は現実的な処理時間では実行不可能となる。
そこで、本発明によれば、認識対象を含む複数の学習画像をルートノードに設定し、該設定した複数の学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理方法であって、前記木構造の各ノードにおいて、前記学習画像における前記認識対象の在確率の分布に基づいて当該学習画像から複数の画素を選択する選択ステップと、前記選択された前記複数の画素から抽出される特徴量に基づいて、当該学習画像、より下位の階層のノードのいずれかに分類する分類ステップとを有する。
本発明によれば、高速かつ高精度に対象物体の認識が実現できるという効果がある。特に、山積みされた部品や、人ごみでの人物検出のように背景に対象物体と同じようなものが重なった場合にその効果が大きい。
実施形態1の学習過程を説明するフローチャートである。 実施形態のパターン認識装置のハードウェア構成を示す図である。 学習パターン・マスクパターンを説明する図である。 実施形態1のクエリー作成ステップを説明するフローチャートである。 マスクパターンの加算および積算の様子を説明する図である。 出来上がった分類木の例を示す図である。 認識過程を説明するフローチャートである。 実施形態2の学習を説明するフローチャートである。 実施形態2の認識過程を説明するフローチャートである。 実施形態3の画像認識方法を説明する模式図である。 実施形態3の画像認識方法の学習過程を説明するフローチャートである。 実施形態3の画像認識方法の認識過程を説明するフローチャートである。 実施形態4の学習サンプルを選ぶ方法を説明する図である。 実施形態4のノードにおける選択点の探索範囲を説明する図である。 実施形態5の学習サンプルを示した図である。 実施形態5のクエリー作成過程を説明するフローチャートである。 実施形態6の学習サンプルを示した図である。 実施形態6のクエリー作成過程を説明するフローチャートである。
以下、添付図面を参照しながら本発明の実施形態を説明する。
<実施形態1>
図1は、本実施形態による情報処理方法の基本的な処理手順を説明するフローチャートである。図1を詳述する前に本実施形態の情報処理方法が実現される装置構成について説明する。
図2は以下に説明する各実施形態に係わる情報処理方法が適用される情報処理装置のハードウェア構成を示すブロック図である。
本実施形態に係わる情報処理方法は、外部記憶装置201、中央処理装置(CPU)202、メモリ203、入出力装置204から構成される装置に実装される。
外部記憶装置201は、本実施形態の各種処理を実現するプログラムや、学習パターン、学習パターンを用いて作成された辞書等を保持する。また、本実施形態によって導かれた新規パターンの認識結果を保持してもよい。
中央処理装置(CPU)202は情報処理方法のプログラムを実行したり、すべての装置の制御を行なったりする。
メモリ203は中央処理装置(CPU)202が使用するプログラム、及びサブルーチンやデータを一時的に記録する。また、本実施形態によって導かれた新規パターンの認識結果を保持してもよい。
入出力装置204は、新規パターンを取り込んだり、ユーザからの指示入力を処理したりする。例えば、パターンとして2次元の画像を用いる場合は、入出力装置204は対象物体を撮影するカメラを含む。また、入出力装置204は、パターン認識結果を他の情報処理装置へ出力したりする。また、本実施形態の情報処理方法を実現するプログラム実行のトリガーを、この入出力装置を介してユーザが出す場合もある。また、ユーザが結果を見たり、プログラムのパラメータ制御をこの入出力装置を介して行うこともある。また、結果の出力先としては、人間(ユーザ)ではなく、例えばロボットを制御する装置などのマシンの場合も有り得る。
機械学習によるパターン認識手法では、多くのパターンから学習をする学習過程と新規の入力パターンを解析する認識過程の2つの過程が存在する。図1は学習過程を詳しく説明した図となる。以下、図1のフローチャートを図6に示す作成されたツリーの例を用いながら詳述する。なお、認識過程の詳細は、図7につき後述する。
学習過程は、大きく図1(a)と図1(b)の2つのルーチンに分けられる。なお、図1(b)のルーチンは再帰呼び出しされることに注意する。図1に示したフローチャートを実行することによって、学習パターンの集合が再帰的に分割されていくことになる。そして、その結果として、図6に示すような木構造の辞書(=木構造を持った判別器)が出来上がる。つまり、木構造の辞書もしくは木構造の判別器を作成することは、論理的には、学習パターンの集合を再帰的に分割することと等価となる。
最初に、ステップS101で、ルートノードに学習パターン・マスクパターンの全てを格納する。学習パターンとマスクパターンの例を図3に示す。図3の(a)が学習パターンを(b)がその学習パターンに対応するマスクパターンを示している。そして、(a)(b)それぞれ1000ピクセル×1000ピクセルの画像だとする。
図3の(a)には301に示すダルマのような形の認識対象となる対象物が写っており、その後ろに302、303のような対象物以外の物が写っている。301の対象物が存在する場所を指定するのが(b)のマスクパターンの304であり、その他の部分が305の部分となる。
図3(b)のマスクパターンは、304で示した「図」の部分のピクセルの値をある正の定数(例えば255)とし、305で示した「地」の部分のピクセル値を0とするのが通常の例である。しかしながら、「図」と「地」の部分は明確でない場合もあるため、0と255の間の値(=1〜254)が格納されたピクセルがあってもよい。あるいは、マスクパターンを対象物よりも拡張してもよい。また、マスクパターンの画素値として浮動小数点を用いてもよい。
また、図3で示した例は、パターンとして画像を用いた方法であったが、一般にN次元の特徴ベクトルをパターンとして用いてもよい。ここで次元とはこれまで述べた画像におけるピクセルに相当するものであり、1000ピクセル×1000ピクセルの画像は1000,000次元のパターンと解釈することができる。また、一般の特徴ベクトルをパターンとして扱う場合、「地」となる次元は例えば、値がわからない、いわゆる欠損特徴次元であってもよい。
図3で示した学習パターンとマスクパターンは1組だったが、学習過程において用いる学習パターンとマスクパターンはこの組が2つ以上存在することとなる。そして、それぞれの組にクラス(パターンの種類)名称が付加されているいわゆる「教師付き学習」が行われる。
次にステップS102で、ルートノードをカレントノードとして設定する。ここでルートノードとはツリーの一番根元に存在するノードのことを言い、図6の601のノードを意味する。カレントノードとは、学習過程および認識過程において現在処理しているノードを意味する。ステップS103で、図1(b)に示すカレントノードを展開するサブルーチンを呼んで、このサブルーチンから帰ってきたら学習過程は終了となる。なお、図6では601から609まで番号順にカレントノードは移動することとなる。
図1(b)は、ノードを展開するサブルーチンを説明したフローチャートである。まず、ステップS104でカレントノードがnullノードもしくはleafノードかを判断する。そして、カレントノードがnullノードもしくはleafノードであった場合、図1(b)のサブルーチンは終了する。
ここで、カレントノードに学習パターンが全く含まれない場合、そのノードはnullノードとする。また、カレントノードに残っている学習パターンの集合がある一定条件を満たした場合、そのノードをleafノードとする。ここで言うある一定条件とは、例えば“カレントノードに存在するクラスがK種類(例えばK=10)以下だった場合”という条件などが考えられる。この条件でK=1に設定した場合は、“カレントノードが純粋に1つのクラスしか含まない”という条件となる。また、カレントノードに存在する学習パターンから情報量エントロピーを計算し、その値がある閾値以下だった場合とすることもできる。なお、この条件で閾値を0とすると、上述の“カレントノードが純粋に1つのクラスしか含まない”条件と同じとなる。
図6の例では、603、605、606、609がleafノードであり、608がnullノードとなる。図1(b)のフローチャートでいうと、カレントノードに603、605、606、608、609のノードが設定された場合、ステップS104の判断はyesとなりサブルーチンが終了する。nullノードおよびleafノードは、ターミナルノードとも呼ばれ、残った学習パターンの情報が保持される。例えば、パターン認識の目的がクラス判定の場合、ターミナルノードには各クラスの存在確率が保持される。また、leafノードの条件が前述した“カレントノードが純粋に1つのクラスしか含まれない”であった場合、その残ったクラスの番号を情報として格納してもよい。一方、パターン認識の目的がいわゆる回帰の場合、ターミナルノードには、ある推定値もしくは推定ベクトルが格納される。
ステップS104の判断でnoだった場合、サブルーチンの処理が続き、カレントノードを展開する。その処理はステップS105〜S110のステップで行う。この中でステップS109が図1(b)のサブルーチンを再帰的に呼び出す格好になっていることに注意する。この処理の結果、学習パターンの集合が再帰的に分割されることとなる。
ステップS105で、カレントノードの展開に先立ち、まずそのノードで実施するクエリーを作成する。このカレントノードのクエリーは、カレントノードに残った学習パターンの集合(カレントパターン集合)を用いて作成される。これはサブルーチンとして図4につき詳しく説明する。
なお、ここで述べた“クエリー”とは、あるパターンがどの枝に属するかを判断する問い合わせのことである。C言語であれば、if文やswitch文で記述される。
ステップS106で作成されたクエリーに基づいて、カレントノードに残っている学習パターン集合を分割する。この分割の数(R)は、一般的にはカレントノードによって異なっていても良いが、通常は全てのノードで同じ値を用いる。また、分割は枝とも呼ばれる。特にR=2となる場合は、いわゆる2分木が作成され、図6のような形態の分類木となる。
ステップS105で、図3(a)に示した2点(306と307)の輝度値比較がクエリーとして作成され、ステップS106でそれに基づいて分割がなされたとする。より具体的には、座標(x1,y1)の輝度が座標(x2,y2)の輝度より大きい場合、下位の左のノード(枝)へ分かれ、それ以外の場合、下位の右のノード(枝)へ分かれるとする。
カレントノードに図3の学習パターンが含まれていたとすると、このクエリーによってこの学習パターンは左か右のノードへ移る。従来の分類木作成のアルゴリズムでは、「図」と「地」の部分に関係なく306と307の2点の輝度を比較してどちらのノードに移るか決めていた。これに対して、本実施形態の分類木作成方法では、図3(b)のマスクパターンを用いて分岐の仕方を制御する。
具体的には、図3の学習パターンにおいて、306の点は「図」の部分に位置するので、図3(a)の輝度データをそのまま用いる。これに対して、307の点は「地」の部分に位置するので、その位置の値をそのまま使用せず、例えば0というようなある定数に置換して用いる。
あるいは、「地」の部分の輝度としてある範囲(例えば0〜255)までの一様分布に基づいた確率変数を発生させて、その値を用いるなど、連続的に変化する値を用いてもよい。また、「図」の部分の輝度分布、具体的には304で示した領域の輝度分布に基づいた確率変数を発生させて、その値を用いてもよい。
また、全学習パターンの「図」の部分の輝度分布を予め集計しておいて、その輝度分布に基づいた確率変数を発生させて、その値を用いてもよい。一例としては、イラストのような線画で構成された物体が認識対象である場合、ピクセルの値としては、黒(輝度が0)と白(輝度が255)しかない。この時、全学習パターンの「図」の部分に黒い線が10%あったとする。すると、1/10の確率で0、9/10の確率で255の値をとる確率変数を用いて「地」の部分の輝度として採用することになる。
以上説明してきたのは、2点の輝度の大小を比較するクエリーであったが、例えば2つの点の輝度差がある値以上か未満かで分岐することも考えられる。また、一方の点の輝度が(もう一方の点の輝度+ある値)以上か未満かで分岐することも考えられる。また、2点ではなく3以上のn点を選択し、その輝度の総和がある値以上か未満かで分岐することもできる。より一般的には、複数の点を選択し、その複数の点の輝度の値(ベクトル)を入力とするある関数の値が、ある値以上か未満かで分岐することができる。更に、輝度以外に入力画像に所定の変換を加えて得られる特徴量(ベクトル)の中のn次元の値を比較してもよい。
ステップS107〜S110は分割毎のループで、ステップS108で分割iをカレントノードに設定し、ステップS109で図1(b)のサブルーチンを再帰呼び出しする。
次に、図4と図5を用いて、ステップS105のクエリー作成のサブルーチンを詳しく説明する。
まず、カレントノードに存在するマスクパターンを加算、または積算する(ステップS401)。そして、この結果を確率密度関数に変換する(ステップS402)。つまり、全区間の積分値が1となるように分布の関数を正規化する。そして、その確率密度関数に基づいて確率変数を生成する(ステップS403)。この値をクエリーの際に参照する点として利用する。
以下数式で説明する。カレントノードに学習パターンがZ個残っているとする。そして、i番目(1≦i≦Z )の学習パターンのマスクパターンをベクトル M=(M ,M ,・・・M )で表す。
するとマスクパターンを加算したベクトルAは
Figure 0005725918

となる。
また、マスクパターンを積算したベクトルBは
Figure 0005725918

となる。
正規化は
Figure 0005725918

と変換することを意味する。
なお、積算すると、必ずカレントノードに存在する学習パターン全ての「図」を貫く次元が選択できる。半面、積算では、0以外の値を持つ次元が加算演算に比べて少なくなる。加算するか積算するかはどちらでもよいが、積算する場合は全部の値が0となる場合があることに注意する。
また、加算、もしくは積算した後でn乗や、べき乗したりして確率密度関数を先鋭化することもできる。一般にはある変換関数を施すことで加算、もしくは積算後の関数形を修飾することができる。
図5を用いて、ステップS401の処理を具体的に説明する。図5の4つのグラフにおいて、横軸は次元(ラスタスキャン等によるマスクパターン上の位置)を示し、縦軸はマスクパターンの値を示す。次元とは特徴ベクトルの次元のことであり、例えば、図3においては全部の次元数は1000000(=1000×1000)であるが、図5においては次元の数は7と非常に少ない。なお、図5においては、説明を簡単にするために次元を7と小さくしているが、次元の数の大小は、本実施形態のクエリー作成ステップには関係ない。
説明をわかりやすくするために、ノードに学習パターンが2つ残っていると仮定する。例えば図6の604のノードに対応する。なお、ルートノードでは全学習パターンが残っており、一般的にはn個の学習パターンが残っている。以下の説明で“2つ”の学習パターンおよびマスクパターンと記述している所を“n個”の学習パターンおよびマスクパターンとすれば一般的なノードでの説明となる。
図5の(a)(b)は、ノードにある2つの学習パターンに対応するマスクパターンをグラフとして表示したものである。図5の(a)(b)において、「図」の存在確率が1〜5の5段階で表現されているとする。図5を見ればわかるように、(a)の第2次元と第6次元と(b)の第1次元と第4次元の値が0となっている。結局、(a)の第2次元と第6次元と(b)の第1次元と第4次元は「地」の部分で、それ以外の次元が「図」の部分となっていることがわかる。
この2つのマスクパターンを各次元で加算したものが(c)となり、積算したものが(d)となる。ステップS402において、(c)の関数または(d)の関数を正規化し、ステップS403においてその関数を確率密度関数として確率変数を生成する。この結果、得られた確率変数は次元の値を持つことになる。
パターンが図3のような画像の場合、図4に示したフローチャートでクエリー点が決定される。つまり、「どの点(ピクセル)を参照するか?」ということが決定される。そして、このようにクエリー点を選択することによって、より「図」の部分からクエリー点を選ぶことができるようになる。なお、図3で説明したように高い確率で「図」からの2点のクエリー点を選択するためには、確率変数を2回発生させる。
以上、説明してきた方法は、ランダムにクエリー点を選択する方法であった。しかし、何らかのクエリー効率を見ながら、それが最高になるクエリー点を選択することも可能である。ここで“クエリー効率”とは、クエリーによって学習パターン集合が分割される際のある尺度での効率を意味する。例えば、尺度としてパターンの数を指標として採用したとする。この時、あるノードに存在する学習パターン集合が例えば100個の要素からなるとする。クエリー効率が最も良い分割は2分岐の場合50個と50個に学習パターン集合を分割する場合で、最も効率の悪い分割は0個と100個に分割する場合となる。
なお、クエリーの全可能性の中から、最も効率の良いクエリー点を選択するのが困難な場合がありうる。その場合は、図4、図5を用いて説明したランダムにクエリー点を選択するステップをある程度の回数(例えば1000回)試行し、その中で最も効率がよかったものを選ぶこともできる。また、ここで説明したクエリー効率を図る尺度としては情報量エントロピーや、非特許文献1に記載されているGini係数などを採用してもよい。
なお、図4、図5で説明した方法は、ノードに存在するマスクパターン全部を無差別に利用するものであった。しかし、マスクパターンの帰属するクラスに応じて重み付けして利用してもよい。例えばノードに存在する学習パターンの中で最も数が少ない、または、多いクラスに対応するマスクパターンのみを用いる方法も考えられる。
図7は、新規の未学習パターンを図1で作成した木構造の辞書を用いて検出する過程を記述したフローチャートである。
まず、ステップS701で、カレントノードをルートノードに設定する。次にカレントノードがターミナルノード(nullノードもしくはleafノード)であるかどうかの判断を行う(ステップS702)。もしカレントノードがターミナルノードであった場合、認識結果にそのターミナルノードの情報をセットし、サブルーチンを終了する。
もしカレントノードがターミナルノードでない場合、カレントノードに格納されているクエリーに基づいて枝番号を計算する(ステップS703)。そして、計算された枝番号の子ノードをカレントノードに設定する(ステップS704)。続いて、ステップS702のカレントノードがターミナルノードかどうかの判定ステップに戻る。
この結果、図7に示したフローチャートでは、ルートノードからnullノードもしくはleafノードに到達するまでtreeをたどることになる。
ここで最も重要なのは、学習過程ではマスクパターンが重要であったのに対して、認識過程ではマスクパターンは全く必要ないということである。マスクパターンの情報は、学習過程の各ノードのクエリーを作成するステップ(ステップS105)で用いられるだけであり、認識過程では用いられない。この点が特許文献2にある従来のマスクパターンを用いるテンプレートマッチング方法と本実施形態とが決定的に異なる部分である。
<実施形態2>
図8、図9を用いて実施形態2を説明する。図8は学習過程を示したフローチャートであり、図9は認識過程を示したフローチャートである。
実施形態1では、1つの木構造の判別器を作成する方法、および、1つの木構造の判別器を用いてパターンを解析する方法を述べた。これに対して、実施形態2では、複数の木構造の判別器を生成する方法、および、複数の木構造の判別器を用いてパターンを解析する方法を述べる。
木構造の判別器の個数はL個とする。通常、Lは10〜100ぐらいの数になるが、2つ以上の任意の定数となる。Lを大きくすると辞書サイズが大きくなるが、認識率は向上する。一方、Lを小さくすると辞書はコンパクトになるが、認識率は低下する。
学習過程はtree番号が1からLのループ(ステップS801とステップS803で括られたループ)を実施する。ループの中で図1の学習過程がサブルーチンとして呼び出される(ステップS802)。ループの中でステップS802のサブルーチン呼び出しは全く独立に行われる。つまり、ステップS801〜S803のループ処理は単純にマルチスレッド、マルチタスクで行っても何の問題もない。また、複数の計算機を用いて実行することも容易である。図8で示した複数(L個)の木構造の判別器を作成する方法は、並列計算向きであり、並列度を高くすると極めて高速に実行できると言える。
次に、図9のフローチャートで認識過程を説明する。認識過程は判別器(tree)番号が1からLまでのループ(ステップS901〜S903)の後、最終的に得られたL個の判別器の結果を集計するステップ(ステップS904)がある。ループの中で図7の木構造を用いた認識過程がサブルーチンとして呼び出される(ステップS902)。
ステップS904では、L個の認識結果を集計し、最終的なパターン認識結果を得る。集計方法としては、いろいろなものが考えられる。例えばパターン認識のタスクがクラス判定タスクだったとすると、図7の判別器の結果は各クラスの存在確率ベクトルとなる。この時、ステップS904の集計としては、L個の存在確率ベクトルの相加平均や、相乗平均などが考えられる。
図9の認識過程も図8の学習過程と同様に並列処理に向いており、並列度を高くすると非常に高速に処理できる。
<実施形態3>
本実施形態は、パターンとして画像を扱う1つの例である。本実施形態の処理の流れを図10の模式図を用いて説明する。
本実施形態では、1枚の学習画像からM枚の部分画像が抽出される。これを部分画像集合と呼ぶ。この部分画像集合を構成する部分画像同士は重なりがなくても良いが、重なりがあるように網羅的に元の学習画像から抽出されることが望ましい。
例えば、学習画像のサイズが100×100ピクセルで、部分画像のサイズが50×50ピクセルだったとする。この場合、ピクセルとピクセルの中間の位置(いわゆるサブピクセル)を考慮に入れないとすると、1枚の学習画像から抽出される全部分画像は2601(=51×51)枚となる。なお、重なりのない部分画像を抽出したとすると全部で2×2=4枚の部分画像が得られる。図10(a)に示す部分画像集合は2601枚ある全部分画像中の出来るだけ多くの部分画像からなることが望ましい。最終的な学習部分画像群としては、同じクラスの学習部分画像がそれぞれM枚ずつ、全部でM×N枚の学習部分画像が得られる。
学習画像から学習部分画像を抽出したのと全く同じ方法で、学習マスク画像から学習部分マスクパターンを抽出する。そして、それを学習部分マスクパターンとする。具体的に学習部分マスクパターンとは、抽出された学習部分画像の中で対象物が存在している部分の画素値が1で、それ以外の部分の画素値が0となるようなパターン(画像)となる。図10(a)で示したN枚の登録画像(学習画像)の一枚一枚が図3で示したように学習画像(学習パターン)とマスクパターンから構成されていると考えることができる。
そして、この学習部分画像群と学習部分マスクパターン群を用いて2分木を作成していく(図10(b))。全部でL個分類木が存在するので、この分類木作成はL回行われる。分類木作成の際、各分類木のノードでは、例えば2つのピクセルを選ぶ。そして、そのピクセルの輝度比較をすることにより、学習部分画像の集合を再帰的に分割していく。
なお、本実施形態におけるクエリー作成方法は具体的には図4、図5で説明した方法と同じ方法を用いる。
この学習過程をフローチャートにしたものが図11である。ステップS1101の部分画像を取り出し学習パターン集合を作成の処理が図10(a)で説明した処理となる。そして、ステップS1102のtreeアンサンブルを作成する処理が図10(b)で説明した処理となり、具体的には図8のフローチャートをサブルーチンとして呼び出す。
なお、図10の模式図では1枚の学習(登録)画像から抽出されるM枚の部分画像を全て同一視することで、学習過程におけるクラスの数がNだとした。これに対して、M枚の部分画像を学習画像中の位置を用いて区別し、全部でM×N個(種類)のクラスがあるとすることもできる。
次に、本実施形態の認識過程を図12のフローチャートを用いて説明する。一例として、新規入力画像のサイズが1280×1024、部分画像のサイズを50×50だとする。すると、サブピクセルを考慮しなければ、新規入力画像の中に部分画像が1200225(=1231×975)個設定し得ることになる(X=1280−50+1、Y=1024−50+1)。基本的に、ステップS1201とステップS1206にはさまれたループはこの数のループとなる。但し、必ずしも1200225回繰り返しを実行する必要はなく、途中スキップして実行することによって高速化してもよい。
部分画像のループの中でtree番号のループ(ステップS1203〜S1205)が実行される。つまり、2重のループが実行される。なお、この2つのループはお互い独立なので、ループの内側外側を入れ替えても良い。ループの一番深い所でステップS1204のi番目の判別器が実行される。これは実際には図9のフローチャートがサブルーチンとして呼び出される。
最後に、ステップS1207の(X*Y*L)個の判別結果を集計する処理で最終的な認識結果が得られる。この結果、1280×1024のサイズの入力画像の中に存在する100×100のサイズの学習画像が検出されることとなる。集計方法としてそれぞれのクラスの存在確率ベクトルの相加平均、相乗平均などの処理を行うこともできる。また、前述の部分画像の学習画像中での位置を記録したオフセットを用いて、学習画像の存在位置を投票によって求めることもできる。
<実施形態4>
次に、実施形態3を更に工夫した実施形態4を説明する。
実施形態4における図10(a)で示した部分画像選択を図13を用いて説明する。なお、図13の図は図3(b)に示した対象物体の存在範囲を示した図と同じ図を用いた。図13において、丸で示した部分は選択された部分画像の中心位置で、その外側の正方形で囲まれた部分が選択された部分画像である。丸の位置は対象物体が存在している部分からランダムに選ぶ。図13では1301〜1303の3点が選ばれている。例えば、図13においては、その選ばれた部分画像の中心点を中心に50ピクセル×50ピクセルの部分画像を抽出することになる。なお、ランダムに選択する部分画像の(中心の)個数は図13では3つとしたが、実施形態3にある通り、一般にはM個となる。
このようにして選ばれたN×M枚の部分画像集合では、その中心位置に必ず対象物体が存在することになる。本実施形態では、このことを用いてクエリーで用いる参照点を選ぶ際の探索範囲を制限する。この様子を図にしたのが図14である。
図14はノードの深さに応じて探索範囲が部分画像の中心を基点に大きくなっていくことを表している。例えば、探索範囲が一辺の長さがZの正方形だとする。図14の例では、Zが深さdの関数になっている。ここで深さdとはノードの深さであり、図6の例でいうと、深さ0のノードは601、深さ1のノードは602と607、深さ2のノードは603、604、608、609、深さ3のノードは605、606となる。なお、ここで示した例では探索範囲の一辺の長さはノードの線形関数だったが、単調増加関数なら何でもよい。また、深さ0のノード(=ルートノード)においては部分画像の中心付近の狭い範囲には対象物体が必ず存在するので、d=0の時のZの値は小さい方が良い。
このようにクエリーにおける参照点の探索を予め決められた範囲に制限すると分類木の作成時間が短縮されることになる。また、部分画像の中心を対象物体の存在する部分から選択することと組み合わせることによって、非常に性能の高い分類木が作成できる。
本実施形態では、部分画像の中心を対象物体存在範囲から選び、かつ、探索範囲を拡大していく方法を示した。この限定された探索範囲の中で、実施形態1に示したマスクを用いたクエリー参照点選択アルゴリズムを実行してもよい。また、マスクを全く用いずにクエリー参照点が探索範囲に等しい確率で選ばれるようにしてもよい。また、クエリー参照点を探索範囲の中から分類木作成効率に関して最適な点を選ぶようにしてもよい。
<実施形態5>
次に、実施形態5を説明する。実施形態1及至4では、学習画像として対象物体を撮影した2次元画像を用い、マスク画像としては対象物体の存在する領域の輝度が高い画像を用いていた。これに対して、実施形態5では、対象物体の奥行情報を表現する距離画像と、その信頼度を表現する信頼度画像を用いる。
図15(a)に対象物体の距離画像の例を示し、図15(b)、図15(c)に信頼度画像の例を示す。物体の奥行き情報(いわゆるZ軸方向の位置)を画像化する場合、例えば、近ければ近いほど輝度を高くする。なお、ここで述べたZ軸とは3次元を構成する1つの軸で、視線方向と平行な軸である。対象物体以外の部分は無限遠とした場合、その距離画像は図15(a)の通り、対象物体以外の部分で0となる。図15(a)でダルマ型を構成する2つの半球が存在するとして、各半球の中心1501と1502が最も輝度が高く、そこから同心円状にグラデーションが生じることになる。以上説明したように、距離画像とは、例えば、距離がある値からある別の値までの範囲を0から255にスケール変換して画像化したもののことである。
図15(b)は、ステレオ法で距離測定をした場合の信頼度画像を示している。ステレオ法の場合、図15(a)に示したようなテクスチャのない物体では、物体表面の対応点を取るのが困難となる。その結果、物体の中心部分1504の信頼度は低くなる。これに対して、ジャンプエッジやオクルーディングエッジの存在する物体の周辺部分1505は、対応点を探索するのが容易で、距離の信頼性も高くなる。対象物体の存在しない部分1503は、上記の説明の通り無限遠として扱い、信頼度も低いとする。なお、対象物体が完全な球の形をしている場合は、ジャンプエッジ・オクルーディングエッジの位置が視線方向によって変化してしまう。その結果、対象物体が完全な球で構成されている場合は、物体の周辺部分1505の距離信頼度も低くなる。しかし、図15(a)で示した例では、球を半分に切断したもの(半球)なので、物体の周辺では尖った3次元上のエッジが存在するものとする。
一方、図15(c)に示したのが、空間コード化法やレーザー距離計を用いて距離を測定した場合の信頼度画像の例である。ステレオ法が物体周辺エッジ部分の信頼度が高いのに対して、この方法では物体の中心部分に近い場所1507の信頼度が高くなる。これは、平面性の高い部分の方がより確実な距離測定ができるためである。
以上述べた通り、距離測定の方式によって一般的には信頼度の分布は異なる。しかし、学習過程と認識過程において同一の距離測定方法を採用することによって同一傾向の信頼度分布が得られるので問題ない。また、学習過程において、実際に対象物体を距離測定して距離画像(図15(a))と信頼度画像(図15(b)または(c))を取得する例を説明した。
これに対して、CADモデルから計算される距離画像を用いて、図15(a)を代替することも可能である。この場合、図15(b)または(c)に相当する信頼度画像は、CADモデルから計算して生成することとなる。図15(b)で説明したステレオ法を想定した場合、ジャンプエッジやオクルーディングエッジからの距離が近ければ近いほど信頼度が高いような画像を生成する。これに対して図15(c)で説明した空間コード化法やレーザー距離計を用いることを想定した場合、物体表面の法線方向を計算してそれが視線方向となす角度が小さければ小さいほど信頼度が高いような画像を生成する。どちらの場合でも、もちろん、認識過程において行う距離測定の方法に準じる必要がある。
実施形態5のフローチャートは、図1で説明した実施形態1のフローチャートと基本的には同じである。異なる部分は、ステップS101で「ルートノードに学習パターン・マスクパターンを全部格納」となっている所が「ルートノードに学習パターン・信頼度パターンを全部格納」となる所である。また、ステップS109の「ノードを展開(カレントノード)」のサブルーチンも異なる。これを説明したのが図16である。
図16のサブルーチンも、図4で説明した実施形態1のサブルーチンとほぼ同じであるが、ステップS401とステップS402の「マスクパターン」の部分がステップS1601とステップS1602では「信頼度パターン」となっている点で異なっている。ステップS1601で信頼度パターンを加算または積算して集計し、ステップS1602で集計結果を正規化して確率密度関数を作成する。そして、ステップS1603でその確率分布に基づいて確率変数を生成することで、クエリーにおける参照点を決定する。結果として、図16で示したフローチャートの処理を行うことにより、より信頼度の高い部分からクエリーの参照点が取られることになる。
なお、認識過程では信頼度パターン・信頼度画像は用いないので、処理は実施形態1及至4の認識過程と全く同一となる。具体的には、図7で示したフローチャートは、実施形態5も同じとなる。また、実施形態2のように複数のツリーを学習する場合も、マスクパターンとマスク画像を信頼度パターンと信頼度画像に置き換えることで、実施形態5は実現できる。また、実施形態3及び4のように複数のサブイメージを学習する場合も、マスクパターンとマスク画像を信頼度パターンと信頼度画像に置き換えることで、実施形態5は実現できる。つまり、マスクパターンとマスク画像から部分パターンと部分画像を抽出するのではなく、信頼度パターンと信頼度画像から部分パターンと部分画像を抽出する。
<実施形態6>
次に、実施形態6を説明する。実施形態1及至4においては、学習データとしてN個の学習パターンとマスクパターンの組、もしくは、M×N個の学習部分パターンとマスク部分パターンの組を用いた。また、実施形態5においては、学習データとしてN個の距離パターンと信頼度パターンの組、もしくは、M×N個の距離部分パターンと信頼度部分パターンの組を用いた。これに対して、実施形態6では、学習データとしてN個の学習パターンとそれに対応するマスクパターンと距離パターンとそれに対応する信頼度パターンの組を使う。または、M×N個の学習部分パターンとそれに対応するマスク部分パターンと距離部分パターンとそれに対応する信頼度部分パターンの組を使う。
図17(a)−(d)に、一組の学習データの例を示す。図17(a)が学習パターン・学習画像の例であり、図17(b)が、それに対応するマスクパターン・マスク画像である。これとセットで、図17Cに示す距離パターン・距離画像と、それに対応する図17(d)に示す信頼度パターン・信頼度画像を学習過程で用いる。図17(a)と(b)は図3で説明した(a)と(b)と同じ性質のものであり、図17の(c)と(d)は図15で説明した(a)と(b)と同じ性質のものである。結局、実施形態6においては、学習データが2種類存在することになる。以下、この2種類を2チャンネルと称する。
なお、図17の(b)に示したマスクパターン・マスク画像は対象物体が存在する部分の値が高く、存在しない部分の値が低いパターン・画像となる。これは物体存在に関する信頼度パターン・信頼度画像とみなすことも可能である。以下の説明ではマスクパターン・マスク画像も信頼度パターン・信頼度画像の1種と見なして説明をする。
実施形態6では学習過程で木構造の辞書を作成する際に、各ノードにおいて(a)(b)と(c)(d)のどちらのチャンネルを用いるかを学習の過程で選択する。それを説明したのが図18に示した(a)と(b)の2つのフローチャートである。図18の(a)を構成するステップS1801からステップ1804が1つの実施形態であり、(b)を構成するステップS1805からステップS1807までが別の実施形態である。
(a)のフローチャートではまずステップS1801で注目するチャンネルを決定する。図17の例でいうと、図17の(a)及び(b)と図17の(c)及び(d)とのどちらを使うかを決定する。次に、そのチャンネルに対してステップS1802からステップS1804を実施する。これは図16で説明したステップS1601及至ステップS1603と全く同じ処理となる。
図18の(b)に示した処理の例では、使用するチャンネルを決定する前に、ステップS1805でクエリーの参照点を決定する。これは例えば実施形態4で示したように、ある領域から完全にランダムに参照する2点を選択することで実現する。次にステップS1806で選んだ参照点における信頼度の総和を求める。そして最後にステップS1807でステップS1805において決定した参照点において最も信頼度の高いチャンネルを選ぶ。なお、ステップS1806において参照点における信頼度の総和ではなく、参照点における信頼度の積を計算してもよい。一般的には参照点における信頼度の増加関数を計算し、それが最も高いチャンネルをステップS1807で選択する。
実施形態6における認識過程は入力データとして図17(a)と図17(c)で示した2種類のパターン・画像を用いる。そして、学習過程の際に木構造の各ノードにストアされているチャンネルに応じて、どちらのチャンネルを用いるか判断する。
以上、説明してきた例ではチャンネルの数は2であった。これに対して、3以上の種類(モーダル)のデータを用いてもよい。例えば、輝度画像、距離画像、表面温度画像の3種類のデータを用いて、学習、認識を行ってもよい。また、同じ撮影画像に対して異なる2種類の画像処理を施した2つの前処理後画像と距離画像の3種類のデータを用いて学習、認識を行ってもよい。
<その他の実施形態>
以上、実施形態を詳述したが、本発明は、例えば、システム、装置、方法、コンピュータ読み取り可能なプログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
更に、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどとの協働で実施形態の機能が実現されてもよい。この場合、OSなどが、実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される。

Claims (20)

  1. 認識対象を含む複数の学習画像をルートノードに設定し、該設定した複数の学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理方法であって、
    記木構造の各ノードにおいて、前記学習画像における前記認識対象の在確率の分布に基づいて当該学習画像から複数の画素を選択する選択ステップと、
    前記選択された前記複数の画素から抽出される特徴量に基づいて、当該学習画像、より下位の階層のノードのいずれかに分類する分類ステップとを有することを特徴とする情報処理方法。
  2. 前記選択ステップにおいて、前記辞書の作成効率を測る尺度に基づいて前記複数の画素を選択することを特徴とする請求項1に記載の情報処理方法。
  3. 認識対象を含む複数の学習画像をルートノードに設定し、該設定した複数の学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理方法であって、
    前記学習画像における認識対象の存在領域を示すマスク画像を参照することにより、前記学習画像から複数の画素選択する選択ステップと、
    前記選択された前記複数の画素から抽出される特徴量に基づいて、前記学習画像を、より下位の階層のノードのいずれかに分類する分類ステップとを有することを特徴とする情報処理方法。
  4. 前記選択ステップにおいて、前記認識対象が存在しない領域選択した場合該領域のデータを他の値で置換することを特徴とする請求項3に記載の情報処理方法。
  5. 前記学習画像と前記マスク画像から切り出された部分学習画像を新たに学習画像、マスク画像とすることを特徴とする請求項3または4に記載の情報処理方法。
  6. 前記部分学習画像の中心の位置を前記認識対象が存在する領域からランダムに選ぶことを特徴とする請求項5に記載の情報処理方法。
  7. 前記マスク画像の値は所定の範囲で連続的に変化する値となることを特徴とする請求項
    3乃至6のいずれか1項に記載の情報処理方法。
  8. 前記マスク画像は対象物体が存在する部分から領域を拡張して作成されることを特徴と
    する請求項3乃至7のいずれか1項に記載の情報処理方法。
  9. 前記選択ステップにおいて、前記辞書の作成効率を測る尺度に基づいて画素を選択することを特徴とする請求項3乃至8のいずれか1項に記載の情報処理方法。
  10. 認識対象を含む複数の学習画像をルートノードに設定し、該設定した複数の学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成る情報処理方法であって、
    記木構造の各ノードにおいて、前記学習画像における、前記ノードの階層に応じて、特徴量を抽出するための画素の探索範囲を設定する設定ステップと、
    前記設定された探索範囲から複数の画素を選択する選択ステップと、
    前記選択された前記複数の画素から抽出される特徴量に基づいて、当該学習画像より下位の階層のノードのいずれかに分類させる分類ステップとを有することを特徴とする情報処理方法。
  11. 認識対象を含む複数の部分学習画像をルートノードに設定し、該設定した複数の部分学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理方法であって、
    前記学習画像から部分学習画像を抽出する抽出ステップと、
    前記抽出された部分学習画像に対して、該部分学習画像が分類されたノードの階層に基づいて、特徴量を取得するための画素を選択する範囲を設定する設定ステップと、
    前記設定された範囲から、複数の画素を選択する選択ステップと、
    前記選択された前記複数の画素から抽出される特徴量に基づいて、当該部分学習画像をより下位の階層のノードのいずれかに分類させる分類ステップとを有することを特徴とする情報処理方法。
  12. 前記抽出ステップでは、前記抽出される部分学習画像の中心画素が、前記認識対象の存在する領域になるように、前記学習画像における認識対象の存在領域を示すマスク画像を参照して、前記部分学習画像を抽出することを特徴とする請求項11に記載の情報処理方法。
  13. 前記特徴量は、画素値であり、前記分類ステップでは、前記複数の画素値同士を比較し、該比較結果に基づいて、前記分類を行うことを特徴とする請求項1乃至12のいずれか1項に記載の情報処理方法。
  14. 認識対象を含む複数の学習距離画像をルートノードに設定し、該設定した複数の学習距離画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理方法であって
    前記学習距離画像の持つ各距離値に対する信頼度を表す信頼度画像を参照することにより、前記学習距離画像から複数の画素選択する選択ステップと、
    前記選択された前記複数の画素から抽出される距離値に基づいて、前記習距離画像を、より下位の階層のノードのいずれかに分類する分類ステップとを有することを特徴とする情報処理方法。
  15. 認識対象を含む複数の学習画像をルートノードに設定し、該設定した複数の学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理装置であって、
    記木構造の各ノードにおいて、前記学習画像における前記認識対象の在確率の分布に基づいて当該学習画像から複数の画素を選択する選択手段と、
    前記選択された前記複数の画素から抽出される特徴量に基づいて、当該学習画像、より下位の階層のノードのいずれかに分類する分類手段とを有することを特徴とする情報処理装置。
  16. 認識対象を含む複数の学習画像をルートノードに設定し、該設定した複数の学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理装置であって、
    前記学習画像における認識対象の存在領域を示すマスク画像を参照することにより、前記学習画像から複数の画素選択する選択手段と、
    前記選択された前記複数の画素における画素値に基づいて、前記学習画像を、より下位のノードのいずれかに分類する分類手段とを有することを特徴とする情報処理装置。
  17. 認識対象を含む複数の学習画像をルートノードに設定し、該設定した複数の学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理装置であって、
    記木構造の各ノードにおいて、前記学習画像における、前記ノードの階層に応じて索範囲から複数の画素を選択する選択手段と、
    前記選択された前記複数の画素から抽出される特徴量に基づいて、当該学習画像より下位の階層のノードのいずれかに分類させる分類手段とを有することを特徴とする情報処理装置。
  18. 認識対象を含む複数の部分学習画像をルートノードに設定し、該設定した複数の部分学習画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書を生成する情報処理装置であって、
    前記学習画像から部分学習画像を抽出する抽出手段と、
    前記抽出された部分学習画像に対して、該部分学習画像が分類されたノードの階層に基づいて、特徴量を取得するための画素を選択する範囲を設定する設定手段と、
    前記設定された範囲から、複数の画素を選択する選択手段と、
    前記選択された前記複数の画素から抽出される特徴量に基づいて、当該部分学習画像をより下位の階層のノードのいずれかに分類させる分類手段とを有することを特徴とする情報処理装置。
  19. 認識対象を含む複数の学習距離画像をルートノードに設定し、該設定した複数の学習距離画像それぞれを下位の階層の各ノードに分類することにより、木構造の辞書をを生成する情報処理装置であって、
    前記学習距離画像の持つ各距離値に対する信頼度を表す信頼度画像を参照することにより、前記学習距離画像から複数の画素選択する選択手段と、
    前記選択された前記複数の画素から抽出される距離値に基づいて、前記習距離画像を、より下位の階層のノードのいずれかに分類する分類手段とを有することを特徴とする情報処理装置。
  20. コンピュータに、請求項1乃至14のいずれか1項に記載の情報処理方法を実行させる
    ことを特徴とするコンピュータ読み取り可能なプログラム。
JP2011060930A 2010-03-19 2011-03-18 情報処理方法及び情報処理装置 Active JP5725918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011060930A JP5725918B2 (ja) 2010-03-19 2011-03-18 情報処理方法及び情報処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010064756 2010-03-19
JP2010064756 2010-03-19
JP2011060930A JP5725918B2 (ja) 2010-03-19 2011-03-18 情報処理方法及び情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015076079A Division JP6041923B2 (ja) 2010-03-19 2015-04-02 情報処理方法及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2011216087A JP2011216087A (ja) 2011-10-27
JP5725918B2 true JP5725918B2 (ja) 2015-05-27

Family

ID=44647297

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011060930A Active JP5725918B2 (ja) 2010-03-19 2011-03-18 情報処理方法及び情報処理装置
JP2015076079A Active JP6041923B2 (ja) 2010-03-19 2015-04-02 情報処理方法及び情報処理装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015076079A Active JP6041923B2 (ja) 2010-03-19 2015-04-02 情報処理方法及び情報処理装置

Country Status (2)

Country Link
US (2) US9053393B2 (ja)
JP (2) JP5725918B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5812599B2 (ja) * 2010-02-25 2015-11-17 キヤノン株式会社 情報処理方法及びその装置
JP6032930B2 (ja) * 2012-04-19 2016-11-30 キヤノン株式会社 情報処理装置、情報処理方法
JP6128910B2 (ja) 2013-03-21 2017-05-17 キヤノン株式会社 学習装置、学習方法及びプログラム
WO2014169182A2 (en) * 2013-04-12 2014-10-16 Dana Limited Vehicle and operator guidance by pattern recognition
JP2014215877A (ja) * 2013-04-26 2014-11-17 株式会社デンソー 物体検出装置
JP6226701B2 (ja) 2013-11-05 2017-11-08 キヤノン株式会社 データ処理方法及び装置、データ識別方法及び装置、プログラム
US9986225B2 (en) * 2014-02-14 2018-05-29 Autodesk, Inc. Techniques for cut-away stereo content in a stereoscopic display
US9390508B2 (en) * 2014-03-03 2016-07-12 Nokia Technologies Oy Method, apparatus and computer program product for disparity map estimation of stereo images
JP5980294B2 (ja) * 2014-10-27 2016-08-31 キヤノン株式会社 データ処理装置、撮像装置、およびデータ処理方法
JP6359985B2 (ja) * 2015-02-12 2018-07-18 株式会社デンソーアイティーラボラトリ デプス推定モデル生成装置及びデプス推定装置
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9916524B2 (en) * 2016-02-17 2018-03-13 Microsoft Technology Licensing, Llc Determining depth from structured light using trained classifiers
JP7058941B2 (ja) * 2017-01-16 2022-04-25 キヤノン株式会社 辞書生成装置、辞書生成方法、及びプログラム
EP3358844A1 (en) * 2017-02-07 2018-08-08 Koninklijke Philips N.V. Method and apparatus for processing an image property map
US10268889B2 (en) * 2017-03-31 2019-04-23 The Boeing Company System for target material detection
WO2018186398A1 (ja) * 2017-04-07 2018-10-11 日本電気株式会社 学習データ生成装置、学習データ生成方法、および記録媒体
KR102644105B1 (ko) * 2017-12-29 2024-03-06 주식회사 피제이팩토리 멀티 심도 이미지의 자동 생성 방법
KR102644097B1 (ko) * 2017-12-29 2024-03-06 주식회사 피제이팩토리 멀티 심도 이미지의 자동 변환 방법
CN108960281B (zh) * 2018-05-24 2020-05-05 浙江工业大学 一种黑色素瘤分类模型建立方法
CN111310808B (zh) * 2020-02-03 2024-03-22 平安科技(深圳)有限公司 图片识别模型的训练方法、装置、计算机系统及存储介质
EP4165521A4 (en) * 2020-06-16 2024-03-06 Microsoft Technology Licensing, LLC IMPROVE ACCESSIBILITY OF APPLICATIONS RELATED TO TOPOLOGY DIAGRAM

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6181805B1 (en) * 1993-08-11 2001-01-30 Nippon Telegraph & Telephone Corporation Object image detecting method and system
US5978497A (en) * 1994-09-20 1999-11-02 Neopath, Inc. Apparatus for the identification of free-lying cells
US5930392A (en) 1996-07-12 1999-07-27 Lucent Technologies Inc. Classification technique using random decision forests
JP3166905B2 (ja) 1997-07-02 2001-05-14 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンマッチングによる画像処理方法およびシステム
JP2006163562A (ja) * 2004-12-03 2006-06-22 Matsushita Electric Ind Co Ltd 画像処理装置、および画像処理方法
JP4668220B2 (ja) * 2007-02-20 2011-04-13 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP4636064B2 (ja) * 2007-09-18 2011-02-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP2009271890A (ja) * 2008-05-12 2009-11-19 Toshiba Corp 画像処理装置及びその方法
US20100027845A1 (en) * 2008-07-31 2010-02-04 Samsung Electronics Co., Ltd. System and method for motion detection based on object trajectory
JP4710978B2 (ja) * 2009-01-09 2011-06-29 ソニー株式会社 対象物検出装置、撮像装置、対象物検出方法およびプログラム
JP5259456B2 (ja) * 2009-03-02 2013-08-07 株式会社東芝 学習装置及び物体検出装置
US8375032B2 (en) * 2009-06-25 2013-02-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US9355337B2 (en) * 2009-08-25 2016-05-31 Xerox Corporation Consistent hierarchical labeling of image and image regions
US8335348B2 (en) * 2009-12-14 2012-12-18 Indian Institute Of Technology Bombay Visual object tracking with scale and orientation adaptation
US20110188715A1 (en) * 2010-02-01 2011-08-04 Microsoft Corporation Automatic Identification of Image Features
US8620093B2 (en) * 2010-03-15 2013-12-31 The United States Of America As Represented By The Secretary Of The Army Method and system for image registration and change detection

Also Published As

Publication number Publication date
JP2011216087A (ja) 2011-10-27
JP6041923B2 (ja) 2016-12-14
US20110229020A1 (en) 2011-09-22
US9053393B2 (en) 2015-06-09
JP2015149091A (ja) 2015-08-20
US10902285B2 (en) 2021-01-26
US20150235109A1 (en) 2015-08-20

Similar Documents

Publication Publication Date Title
JP6041923B2 (ja) 情報処理方法及び情報処理装置
US9881217B2 (en) Method for detecting crowd density, and method and apparatus for detecting interest degree of crowd in target position
Shen et al. Deepcontour: A deep convolutional feature learned by positive-sharing loss for contour detection
US9633483B1 (en) System for filtering, segmenting and recognizing objects in unconstrained environments
Zhu et al. Evaluating spatiotemporal interest point features for depth-based action recognition
Zeeshan Zia et al. Explicit occlusion modeling for 3d object class representations
JP2017016593A (ja) 画像処理装置、画像処理方法、及びプログラム
Werghi et al. Local binary patterns on triangular meshes: Concept and applications
Wang et al. SCNet: Subdivision coding network for object detection based on 3D point cloud
JP4769983B2 (ja) 異常検出装置および異常検出方法
KR101326691B1 (ko) 지역적 특징의 통계적 학습을 통한 강건한 얼굴인식방법
JP4742370B2 (ja) 異常検出装置および異常検出方法
JP2020119154A (ja) 情報処理装置、情報処理方法、及びプログラム
Kiruba et al. Hexagonal volume local binary pattern (H-VLBP) with deep stacked autoencoder for human action recognition
Anand et al. Quantum image processing
JP2014010633A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
JP5407897B2 (ja) 画像分類方法、装置、及びプログラム
Azzaoui et al. Segmentation of crescent sand dunes in high resolution satellite images using a support vector machine for allometry
CN104616302A (zh) 一种目标实时识别方法
Liu et al. Unsupervised Change Detection in Multitemporal Remote Sensing Images
Cao et al. Understanding 3D point cloud deep neural networks by visualization techniques
Palmer et al. Scale proportionate histograms of oriented gradients for object detection in co-registered visual and range data
Seemanthini et al. Small human group detection and validation using pyramidal histogram of oriented gradients and gray level run length method
Ghanta et al. Latent marked Poisson process with applications to object segmentation
CN112348816B (zh) 脑磁共振图像分割方法、存储介质及电子装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150331

R151 Written notification of patent or utility model registration

Ref document number: 5725918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151