JP2014229115A - 情報処理装置および方法、プログラム、記憶媒体 - Google Patents

情報処理装置および方法、プログラム、記憶媒体 Download PDF

Info

Publication number
JP2014229115A
JP2014229115A JP2013108951A JP2013108951A JP2014229115A JP 2014229115 A JP2014229115 A JP 2014229115A JP 2013108951 A JP2013108951 A JP 2013108951A JP 2013108951 A JP2013108951 A JP 2013108951A JP 2014229115 A JP2014229115 A JP 2014229115A
Authority
JP
Japan
Prior art keywords
image
target object
learning
dictionary
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013108951A
Other languages
English (en)
Other versions
JP6282045B2 (ja
JP2014229115A5 (ja
Inventor
裕一郎 飯尾
Yuichiro Iio
裕一郎 飯尾
裕輔 御手洗
Hirosuke Mitarai
裕輔 御手洗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013108951A priority Critical patent/JP6282045B2/ja
Publication of JP2014229115A publication Critical patent/JP2014229115A/ja
Publication of JP2014229115A5 publication Critical patent/JP2014229115A5/ja
Application granted granted Critical
Publication of JP6282045B2 publication Critical patent/JP6282045B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 学習画像を用いた学習を行う際に、対象物体がテクスチャが少なく平面領域が多い物体であるとき、識別精度が劣化する。【解決手段】 対象物体のモデル情報から生成されるCG画像を学習画像として取得する取得手段と、前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成手段と、前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成手段とを備える。【選択図】 図2

Description

本発明は、辞書を用いて対象物体を識別する情報処理方法に関する。
近年、機械学習を利用した物体認識の分野で多く用いられる方法の一つにアンサンブルツリーを用いた方法が挙げられる。アンサンブルツリーを用いた識別方法としては非特許文献1にあるようなものがある。アンサンブルツリーによる識別方法は、分類木をL本(Lは2以上の定数)作成し、L本の分類木の結果を統合することで、より高い識別性能を実現する技術である(非特許文献1)。
非特許文献1に示すアンサンブルツリーを用いた識別方法に対して、非特許文献2ではアンサンブルツリーの一種であるFernを用いてより高速な識別を実現している。Fernを用いた方法についてここで詳細に説明する。
学習過程では、最初に学習画像群が入力される。ここで入力される学習画像群とは、対象物体を含む複数の学習画像であり、例えばある対象物体について異なる視点位置から描画した画像やサイズの異なる画像が含まれる。次に、入力された各学習画像上の2か所の参照点位置を示す参照点ペアをランダムにD個生成する(以下、参照点ペア列と呼ぶ)。そして、前記参照点ペア列における画素値を比較し、その大小の結果の列を0/1のビット列で表すことにより、一つの学習画像と一つの参照点ペア列からD桁ビットのバイナリコードを算出する。全ての学習画像について、前述のようにD桁のバイナリコードを算出し、前記バイナリコードに対応する学習画像種別との確率を学習する。これが一つの分類木に相当する。一つの分類木で各学習画像は2^Dクラスに分類されることになる。このようなD桁バイナリコードによる学習を、参照点ペア列をL回変えて学習する。すなわちL個の分類木を作成し、これを検出過程における木構造辞書として用いる。
検出過程では、入力画像に対して、学習時に定めたD個の参照点ペアの位置に従って入力画像からD桁のバイナリコードを算出する。これを学習時に定めたL個の異なる参照点ペア列すべてに対して行う。得られたL個のバイナリコードに関連付けられた学習画像の確率の積をとり、最も確率の高い学習画像種別を検出結果とする。
この方法によれば、検出時の処理においては、入力画像の参照点ペアの画素値比較によるバイナリコード化、および、バイナリコードによる木構造辞書テーブル参照、という高速な手段で実施できる。そのため、古典的な分類木による認識処理に比べて非常に高速な識別が可能となり、また認識精度も十分高いという報告が非特許文献2の中でされている。
しかし、一般に非特許文献1や非特許文献2のような統計的パターン認識技術における学習では大量の学習画像が必要となるが、識別対象物体の実写画像を手作業で集めるには膨大な手間と時間がかかるため、学習に用いる画像を識別対象物体の3D−CADデータを用いてCGで生成する場合がある。
Vincent Lepetit and Pascal Fua、 "Keypoint Recognition Using Randomized Trees"、 IEEE Transactions on Pattern Analysis and Machine Intelligence (2006) pp. 1465-pp. 1479 Mustafa Ozuysal、 Michael Calonder、 Vincent Lepetit、 Pascal Fua、"Fast KeyPoint Recognition Using Random Ferns."IEEE Transactions on Pattern Analysis and Machine Intelligence、 15 Jan 2009
しかしながら、CGで作成した学習画像では、一般的に平面領域の画素値(輝度値)は一様となる。一方、実写撮影画像は、照明の加減、CADデータにない微細な凹凸、撮影系で生じるノイズなど様々な要因が影響して対象物体を撮影した画像に微小な輝度変動が生じる。
そのため、CG画像による学習で作成した木構造辞書を用いるとテクスチャが少なく平面領域が多い物体の識別で実写画像を用いた学習と比較して識別精度が劣化するという問題がある。
上記の課題に鑑みて、本発明は、テクスチャが少なく平面領域が多い対象物体の識別を、CGで描画された学習画像を用いて行う場合にも高精度に識別を行うことを目的とする。
上記の課題を解決するために、例えば、本発明に係る情報処理装置は、対象物体のモデル情報から生成されるCG画像を学習画像として取得する取得手段と、前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成手段と、前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成手段とを備える。
本発明によれば、テクスチャが少なく平面領域が多い対象物体の識別を、CGで描画された学習画像を用いて行う場合にも高精度に識別を行うことが可能となる。
本発明を実行する情報処理装置の構成を示すブロック図 第1の実施形態における情報処理装置の動作を示すブロック図 第1の実施形態における学習処理の流れを示すフローチャート 第1の実施形態におけるテスト画像への前処理を示す模式図 第1の実施形態における検出処理の流れを示すフローチャート 第1の実施形態における学習画像へのノイズ付加処理の効果を示す模式図 第2の実施形態における情報処理装置の動作を示すブロック図 第2の実施形態における学習処理の流れを示すフローチャート 第3の実施形態における情報処理装置の動作を示すブロック図 第3の実施形態における学習処理の流れを示すフローチャート 第3の実施形態におけるべき乗分布評価の処理の流れを示すフローチャート
[第1の実施形態]
本発明における第1の実施形態について説明する。本実施形態では、Fernによる分類方法を用いて入力された画像から対象物体を検出し、その位置姿勢を求めるタスクを想定する。
図1は本発明における全ての実施形態に共通な情報処理装置の構成を示すブロック図である。本発明に係わる情報処理装置は、外部記憶装置101、中央処理装置(CPU)102、メモリ103、入出力装置104から構成される。
外部記憶装置101は、本発明の実施形態を実現するプログラムや、学習画像群、学習画像群を用いて作成された辞書等を保持する。また、本発明によって導かれた入力画像の認識結果を保持してもよい。
中央処理装置(CPU)102は、対象物体の識別を行うための辞書のプログラムを実行したり、すべての装置の制御を行なったりする。
メモリ103は中央処理装置(CPU)102が使用するプログラム、及びサブルーチンやデータを一時的に記録する。また、本発明によって導かれた入力画像の認識結果を保持してもよい。
入出力装置104は、入力画像を取り込んだり(取得したり)、ユーザとのインタラクションを行ったりする。例えば、パターンとして2次元の画像を用いる場合は、入出力装置104は、対象物体を撮影するカメラとなる。また、入出力装置104は、認識結果を他の情報処理装置へ出力したりする。また、本発明の情報処理方法を実現するプログラム実行のトリガーをこの入出力装置を介してユーザが出す場合もある。また、ユーザが結果を見たり、プログラムのパラメータ制御をこの入出力装置を介して行うこともある。また、出力先としては人間(ユーザ)ではなく、例えばロボットを制御する装置などのマシンの場合も有り得る。
図2に第1の実施形態における情報処理装置の動作およびデータの流れを、図3に第1の実施形態における学習過程の処理の流れを示す。
情報処理装置は、学習装置210および検出装置220からなる。
学習装置210は、データベース211、CG画像生成部212、前処理部213、ノイズパラメータ設定部214、ノイズ付加画像生成部215、学習処理部216から成っている。データベース211は、学習に用いる学習データとして、対象物体の3D−CADデータ2101と対象物体が含まれる数枚のテスト画像2102が記憶されている。
検出装置220は、前処理部221と検出処理部222から構成されている。
まず学習装置210で行われる処理について詳細に説明する。
(ステップS301)
ステップS301では、データベース211に格納されている3D−CADデータ(モデル情報)2101を元に、CG画像生成部212がCG学習画像群2103を生成する。ここで、CG学習画像群2103は、対象物体を含む複数の学習用画像であり、例えば、ある対象物体について異なる視点位置から描画した画像や、サイズの異なる画像、あるいはそれらの部分画像が含まれる。
また、CG画像生成部212は、他にデータベース211から対象物体のテクスチャ情報や照明位置などの環境情報を受け取って画像生成に利用してもよい。あるいは、法線方向の傾きをRGBに割り当てて描画した、照明位置や対象物体のテクスチャを考慮しないCG画像でも構わない。また、生成されるCG画像(学習画像)はグレースケール画像であっても、RGB画像のようなカラー画像であっても、どちらでも構わない。本実施形態では、CG画像をグレースケール画像として説明を行う。また、本実施形態では、グレースケール画像の各画素が持つ値を画素値、カラー画像の各画素の色成分が持つ値を輝度値とする。また、本実施形態では、CG画像として、CADモデルを基に作成するが、本発明はこれに限定されず、ポリゴンモデルなどその他のモデル情報でもかまわない。
各学習画像は、画像中に含まれる対象物体の位置姿勢情報、および対象物体の平面領域情報を保持している。本発明における情報処理装置は、検出装置720の入力画像に含まれる対象物体と一致する学習画像を検出することで、入力画像中の対象物体の位置姿勢を算出する。ここで、対象物体の平面領域とは、対象物体のうちエッジ部以外の領域を指し、照明やテクスチャの影響が考慮されないCG画像上では一様な画素値となる領域である。
次に、CG学習画像群2103に付加するノイズのパラメータ(処理パラメータ)を設定する。付加するノイズは、できるだけ検出時と似た環境で実際に撮像された画像(撮像画像)における、対象物体の平面領域の画素値変動の分布に類似したノイズがよい。そこで、本実施形態ではあらかじめ対象物体が含まれる画像を数枚撮影しておき、データベース211に、テスト画像2102として記憶しておく。そして、それらのテスト画像2102を用いてノイズパラメータを設定する。ここで、テスト画像2102中の対象物体の位置姿勢は既知とする。
図4(a)にテスト画像2102の一例を示す。図4(a)における対象物体401が本実施形態における検出対象物体であり、このテスト画像には対象物体401以外に非対象物体402、非対象物体403が含まれている。
(ステップS302)
ステップS302では、前処理部213は、テスト画像2101に対して前処理を施し、前処理テスト画像2104を出力する。ここで行う前処理は、微小な画素値変動を反映するエッジ検出処理を含む画像処理とする。エッジ検出処理の既存方法としては、Laplacianフィルターを用いたエッジ検出処理などが挙げられる。図4(b)に、図4(a)に示したテスト画像に対して前処理を施した結果の一例を示す。前処理テスト画像では、エッジ領域の画素値が大きく、それ以外の領域の画素値が小さく表されている。
(ステップS303)
ステップS303ではノイズパラメータ設定部214が、設定すべきノイズパラメータを導出する。前処理テスト画像2104における平面領域の全ての画素の画素値を取得する。本実施形態ではこれらの画素値集合がノイズパラメータ2105として取り扱われる。
図4(b)に示す前処理画像は、実際に撮影されたテスト画像に対して前処理を行ったものなので、平面領域には微小な画素値の変動が存在する。また、テスト画像2102の平面領域は、対象物体のCADデータ2101および位置姿勢情報から事前に求められているものとする。
図4(c)における平面領域4011、平面領域4012、平面領域4013が、対象物体401の平面領域となる。
(ステップS304)
次に、ステップS304では、前処理部213がCG学習画像2103に対してステップS302と同様に前処理を施し、前処理学習画像群2106を生成する。ただし、CG学習画像2103とテスト画像2102で、前処理の手順やパラメータは異なっていてもよい。
(ステップS305)
ステップS305では、ノイズ付加画像生成部215は、全ての学習画像2106に対してステップS303で設定したノイズパラメータ2105を元にノイズを付加し、ノイズ付加CG学習画像群2107を生成する。具体的には、前処理学習画像群2106における対象物体の平面領域の全ての画素に対してそれぞれ、ステップS303で取得した画素値集合から任意の画素値を選択し元の画素値に加算する。これにより、平面領域の画素値を変化させる。本実施形態では、元の画素値に任意の画素値を加算したが、本発明はこれに限定されず、その他の演算(例えば、画素値の減算、積算など)でもかまわない。
(ステップS306)
最後にステップS306で、学習処理部216はステップS305で作成したノイズ付加CG学習画像群2107を入力として木構造辞書2108を作成し、出力とする。ここでの辞書作成処理は背景で述べた従来のアンサンブルツリーあるいはFernを用いた方法と同様であるため手順の詳細は省略する。
次に、本実施形態における検出装置220の処理について述べる。図5は検出装置220における処理の流れを示したものである。
(ステップS501)
まず、ステップS501で、前処理部221は検出処理の対象となる入力画像2109を受け取り、所定の前処理が施されたのち、前処理入力画像2110として出力される。ここで行う前処理は、学習時に行った前処理部213におけるテスト画像2102に対する前処理内容と同一であることが望ましい。
(ステップS502)
次に、ステップS502では、検出処理部222はステップS501で作成した前処理入力画像2110に対して、学習処理部216で作成した木構造辞書2108を用いて対象物体の検出処理を行い、検出結果2111を出力する。木構造辞書を用いた検出処理の詳細は背景で述べた従来のアンサンブルツリーあるいはFernを用いた方法と同様であるため手順の詳細は省略する。
最後に、Fernの識別における平面領域での挙動と本発明におけるノイズ付加の効果について図6を用いて説明する。
例として、図6(a)に示す対象物体600の平面領域が含まれる部分画像610と部分画像620が学習画像として入力されたときのある分類木での分類の様子について説明する。簡単のため、部分画像610と部分画像620のサイズは6×6ピクセルとする。
前述したようにFernを用いた識別のための学習では、入力された各学習画像上の2か所の参照点位置を示す参照点ペアをランダムにD個生成する。そして、前記参照点ペア列における画素値を比較し、その大小の結果の列を0/1のビット列で表すことにより、一つの学習画像と一つの参照点ペア列からD桁ビットのバイナリコードを算出する。ある分類木での参照点ペアを、図6(a)に示すように、(1、2):(3、3)、(4、2):(2、5)、(2、2):(6、1)の3組とする(D=3)。このとき、例えば1つ目の参照点ペアにおいては、部分画像610および部分画像620のそれぞれにおいて位置(1、2)における画素値と位置(3、3)における画素値を比較し、その大小関係に応じて1つ目のバイナリコードを設定する。これらの処理を2つ目、3つ目の参照点ペアについても行い、3ビットのバイナリコードを算出する。
実撮影学習画像、CG学習画像、ノイズ付加CG学習画像における部分画像610および部分画像620の画素値を表したのが図6(b)である。実撮影画像における平面領域ではいずれも微小な画素値の変動が見られるが、CG画像では、一様に画素値は0となっている。
そして、CG画像にノイズを付加したノイズ付加CG画像では、実撮影画像とは異なるが、微小な画素値変動がある。
参照点ペアにおける左の点が、右の点より大きいか同じ値の時のバイナリコードを0と定義する。そして、左の点が右の点より小さいときのバイナリコードを1と定義すると、実撮影画像、CG画像、ノイズ付加CG画像でのこの分類木におけるバイナリコードは図6(c)に示すようになる。
CG画像においては平面領域の一部である部分画像610および部分画像620のいずれでもバイナリコードは000となっているが、他の2つの場合は部分画像620において000とは異なるバイナリコードになっている。
通常、アンサンブルツリーによる分類では、部分画像610、部分画像620のような対象物体の識別の役に立たない特徴のない学習画像は異なるバイナリコードに散らばって分類される。そして、識別の決め手になるような特徴的な学習画像が特定のバイナリコードに集中することで正しい識別が行われる。
しかし、特徴のない平面領域が学習画像にある場合にCG画像の例のように全てが同じバイナリコードに分類されてしまうと検出時に誤検出が生じやすくなる。そのため、CG学習画像を用いた学習における平面領域の分類結果は実写学習画像の分類結果と一致する必要はないが、一か所に固まらずバラバラなバイナリコードに分類されている方が、識別精度が向上する。
本実施形態は、元のCG学習画像にノイズを付加した画像を学習に用いることで、学習画像の平面領域におけるFernの分類結果が1つのバイナリコードに集中するのを防ぎ、CG画像を用いた学習における識別精度の劣化を防ぐ効果がある。
なお、本実施形態ではFernを用いた分類を例に挙げて示したが、アンサンブルツリーによる分類においても同様の効果が見込まれる。
[第2の実施形態]
本発明の第二の態様に対応する第2の実施形態について説明する。第1の実施形態ではCGで生成した学習画像に対してノイズを付加することで、識別精度の劣化を軽減した。
ここで付加されるノイズの条件として、ノイズが付加された平面領域の画素値は抽出されたエッジ付近の画素値よりも小さい必要がある。また、平面領域における画素値0の点同士の比較を削減することが目的であるため、平面領域のできるだけ多くの画素にノイズが付加されている必要がある。
そのため、付加するノイズの適切なパラメータは対象物体に応じて変動する。
第1の実施形態では予め用意されたテスト画像における対象物体の平面領域のノイズ分布からCG学習画像に付加するノイズを決定した。本実施形態ではより精度の高い検出を行うために、複数パターンのノイズを生成しその中から最適なノイズパラメータを選択して辞書生成を行う。
また、第1の実施形態では前処理を行ったCG学習画像に対してノイズ付加を行った。前処理画像に対して適当なノイズを付加することで特徴の少ない領域におけるFernの誤分類結果が集中することを防ぐ効果があった。一方、前処理を行う前のCG学習画像に対して実際の撮影画像に近いノイズを付加すれば、前処理結果も実撮影画像に近いものとなり、識別精度の高い木構造辞書を作成することが可能となる。本実施形態では前処理を行う前のCG学習画像に対してノイズ付加を行う場合について説明する。
図7に第2の実施形態における情報処理装置の動作およびデータの流れを、図8に第2の実施形態における学習過程の処理の流れを示す。情報処理装置は、学習装置710および検出装置720からなる。
学習装置710は、データベース711、CG画像生成部712、ノイズパラメータ設定部713、ノイズ付加画像生成部714、前処理部715、学習処理部716、木構造辞書評価部717から成る。データベース711は、学習に用いる学習データとして対象物体の3D−CADデータ7101と対象物体が含まれる数枚のテスト画像7102が記憶されている。
検出装置720は、前処理部721と検出処理部722から成っている。
学習装置710で行われる処理について詳細に説明する。
(ステップS801)
第1の実施形態と同様に、ステップS801では、データベース711に格納されている3D−CADデータ7101を元にCG画像生成部712がCG学習画像群7103を生成する。
(ステップS802)
ステップS802では、前処理部715がデータベース711に格納されているテスト画像7102に対して前処理を施し、前処理テスト画像7105として出力する。
(ステップS803)
ステップS803では、ノイズパラメータ設定部713がN種類のノイズパラメータ7104を初期値として設定する。設定される初期ノイズパラメータ7104は、ランダムに選択する。もしくは、人間(ユーザ)が経験的に値を設定してもよい。
ノイズパラメータとは、例えばガウシアンノイズを付加する場合には分散値のことであり、この場合はN組の分散値がノイズパラメータとして設定される(複数設定される)。あるいは第一の実施形態で行ったようにテスト画像における対象物体の平面領域の画素値集合をノイズパラメータ7104として持ってもよい。
(ステップS804)
ステップS804〜S807までの処理はステップS803で設定されたN種類のノイズパラメータ7104をそれぞれ用いてN回行われる。なお、ステップS804〜S807までの処理は並列に行ってもよい。
ステップS804では、ノイズ付加画像生成部714は、CG学習画像群7103に対してステップS703で設定したノイズパラメータ7104のうちのあるパラメータp_i(1≦i≦N)のノイズを付加し、N組のノイズ付加学習画像群7106を作成する。
テスト画像7102における対象物体の平面領域の画素値集合をノイズパラメータ7104として持っている場合は、次のように処理を行う。即ち、全CG学習画像7103に対して、画像に含まれる対象物体の平面領域の各画素に対して、画素値集合の中からランダムに、N回画素値を選択し加算することで、N組のノイズ付加学習画像群7106を作成する。
(ステップS805)
ステップS805では、前処理部715はステップS804で作成したノイズ付加学習画像群7106に対してテスト画像7102と同様に前処理を施し、前処理学習画像群7107を生成する。ただし、学習画像とテスト画像で前処理の手順やパラメータは異なっていてもよい。
(ステップS806)
ステップS806では学習処理部716が、ステップS805で作成した前処理学習画像群7107を入力としてN組の木構造辞書候補7108を作成する(即ち、辞書を複数生成する)。ここでの辞書作成処理は従来のアンサンブルツリーあるいはFernを用いた方法と同様であるため省略する。
(ステップS807)
ステップS807では、木構造辞書評価部717は、作成したN個の木構造辞書候補7108を用いて、前処理テスト画像7105を入力とした検出処理を行う。ここで行う検出処理は検出装置720における検出処理部722と同様の処理を行う。
(ステップS808)
ステップS808では、木構造辞書評価部717は、N種類の木構造辞書候補7108によるそれぞれの検出結果と、既知であるテスト画像7102における対象物体の位置姿勢を比較する。
閾値Tよりも差異が小さい検出結果が存在した時には、ステップS809で木構造辞書評価部717は、木構造辞書候補7108の中で最も差異が小さかった木構造辞書を識別に用いる木構造辞書7110として出力する。
閾値Tよりも差異が小さい検出結果が存在しなかったときには、ステップS703に戻って処理を繰り返す。このとき、ノイズパラメータ設定部703は、最も差異の小さかった木構造辞書作成に用いたノイズパラメータをノイズパラメータ候補7109として初期値に用いて候補ノイズパラメータ7104を設定してもよい。
検出装置720における処理の流れについては、第一の実施形態と同様であるため説明を割愛する。
本実施形態においては、複数パターンのノイズを付加したテスト画像に対して識別を実行し識別精度がよかったノイズパラメータを用いることができるため、適切なノイズパラメータ設定が可能となる。このため、学習にCG画像を用いるときに生じる精度の劣化を軽減することができる。
[第3の実施形態]
本実施形態ではテスト画像を用いることなく、作成した木構造辞書を直接評価することで適切なノイズパラメータを選択する。
図9に第3の実施形態における情報処理装置の動作およびデータの流れを、図10に第三の実施形態における学習過程の処理の流れを示す。本実施形態における情報処理装置は、学習装置910および検出装置920からなる。学習装置910および検出装置920の構成は第二の実施形態とほぼ同様であるが、本実施形態においてはデータベース911にテスト画像が含まれていない。学習装置910で行われる処理について詳細に説明する。
(ステップS1001)
ステップS1001でCG画像生成部912が3D−CADデータ9101からCG学習画像群9103を生成する。
(ステップS1002)
ステップS1002でノイズパラメータ設定部914がN種類のノイズパラメータ9104を初期値として設定する。設定される初期ノイズパラメータ9104は、ランダムに選択する、もしくは、人が経験的に値を設定してもよい。
(ステップS1003)
ステップS1003〜S1006までの処理はステップS1002で設定されたN種類のノイズパラメータ9104をそれぞれ用いてN回行われる。なお、ステップS1003〜S1006までの処理は並列に行ってもよい。
ステップS1003では、ノイズ付加画像生成部913がCG学習画像群9103に対してステップS1002で設定したノイズパラメータ9104のうちのあるパラメータp_i(1≦i≦N)のノイズを付加し、N組のノイズ付加学習画像群9106を作成する。
(ステップS1004)
ステップS1004では、前処理部915はステップS1003で作成したノイズ付加学習画像群9106に実施形態1と同様に前処理を施し、前処理学習画像群9107を生成する。
(ステップS1005)
ステップS1005では学習処理部916が、ステップS1004で作成した前処理学習画像群9107を入力としてN組の木構造辞書候補9108を作成する。ここでの辞書作成処理は従来のアンサンブルツリーあるいはFernを用いた方法と同様であるため省略する。
(ステップS1006)
ステップS1006では、木構造辞書評価部917が、作成した木構造辞書候補9108に対して分類された学習画像の分布について調べ、適切なノイズパラメータで生成された木構造辞書候補を識別過程で用いる木構造辞書9110として定める。
ここでは、学習画像の分類結果の分布がべき乗分布に近いか否かを評価基準として用いるものとする。分布がべき乗分布に従っているかどうかの度合いを示す評価値は、回帰時の寄与率R*2を用いる。R*2は回帰モデルでデータを説明できているかどうかを示す指標であり、標本値をY、Yの平均をave(Y)、Yの推定値をest(Y)としたときに以下の式で表される。
データの分布がべき乗分布に近いほどR*2は1に近い値となる。
図11で適切な木構造辞書を選択する処理の流れについて説明する。本処理ではステップS1101〜S1103まで、分類木ごとに同様の処理を行う。例えば分類木数が10本であるときにはステップS901〜S903は10並列で実行される。
学習過程における参照点ペアの数をD個とすると、学習画像群9103は各分類木で2^Dクラスに分類されていることになる。
(ステップS1101)
まず、ステップS1101では各クラスへ分類された学習画像が多い順にクラスをソートする。
(ステップS1102)
そして、ステップS1102ではソート結果に従って累積度数を算出し、学習画像の累積度数を標本値として回帰直線を求める。
(ステップS1103)
ステップS1103では、ステップS1102で求めた標本値および回帰直線を用いてR*2を算出する。
(ステップS1104)
ステップS1104では、ステップS1103において各分類木で算出したR*2をすべて加算して加算結果を出力する。この加算結果をノイズパラメータの評価基準として用いるものとする。R*2の最大値は1であるため、加算結果の最大値はDであり、Dに近いほど、学習画像分類の分布がべき乗分布に近く、よい辞書が作成できたことになる。
(ステップS807)
ステップS807では、N種類のノイズパラメータで生成した木構造辞書に対して、ステップS806で出力された加算結果の中で最大のものが閾値Tを超えているかどうかを判定する。
閾値T以上であった時にはステップS809で加算結果が最大となった木構造辞書を識別に用いる辞書として出力する。
もし、閾値を超える辞書が存在しなかったときにはステップS802に戻って処理を繰り返す。このとき、最大の加算結果であった木構造辞書作成に用いたノイズパラメータを初期値として候補パラメータを生成してもよい。
なお、木構造辞書の評価基準は木構造辞書から推定できる基準値であれば、べき乗分布以外の評価基準でもよい。例えば、全ての参照点ペアにおける画素値の比較結果がすべて同一、すなわち全ての参照点ペアにおける画素値が0である学習画像の数が閾値未満であるか、といった判定基準が考えられる。
本実施形態では、アンサンブルツリーを用いた識別において、CG学習画像群に付加するノイズパラメータ決定手段として、学習過程で作成したアンサンブルツリーの学習画像分類の分布を基準に選択を行う。これにより、学習毎にテスト画像を用意して検出処理を実行することなく適切なパラメータ選択を行うことができる。
なお、以上の実施形態では様々な実施形態について説明したが、何れも、下記の構成の一例に過ぎず、下記の構成に基づいていれば、他の実施形態についても本発明の範疇である。
即ち、対象物体のモデル情報から生成されるCG画像を学習画像として取得する(取得手段)。前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する(前処理画像生成手段)。前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する(辞書生成手段)。
また、本発明は、例えば、システム、装置、方法、プログラム、もしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
コンピュータプログラムを供給するためのコンピュータ読み取り可能な記憶媒体としては以下が挙げられる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などである。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記憶媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布するという形態をとることもできる。この場合、所定の条件をクリアしたユーザに、インターネットを介してホームページから暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたプログラムを実行し、プログラムをコンピュータにインストールさせるようにもできる。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどとの協働で実施形態の機能が実現されてもよい。この場合、OSなどが、実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれて前述の実施形態の機能の一部或いは全てが実現されてもよい。この場合、機能拡張ボードや機能拡張ユニットにプログラムが書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行なう。

Claims (17)

  1. 対象物体のモデル情報から生成されるCG画像を学習画像として取得する取得手段と、
    前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成手段と、
    前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成手段とを備えることを特徴とする情報処理装置。
  2. 前記前処理画像生成手段において行われる処理で用いられる処理パラメータを設定する設定手段を更に備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記設定手段は、前記対象物体を撮像した撮像画像に含まれる画素に関する値の分布に基づいて、前記処理パラメータを設定することを特徴とする請求項2に記載の情報処理装置。
  4. 前記設定手段は、前記処理パラメータを複数設定し、
    前記辞書生成手段は、前記処理パラメータのうちから、少なくとも1つの処理パラメータを選択し、該選択された処理パラメータを用いて、前記辞書を少なくとも1つ生成することを特徴とする請求項2または3に記載の情報処理装置。
  5. 前記設定手段は、前記処理パラメータを複数設定し、
    前記辞書生成手段は、前記設定された複数の処理パラメータを用いて、複数の辞書を生成することを特徴とする請求項2または3に記載の情報処理装置。
  6. 前記辞書生成手段で生成された複数の辞書のうちから、前記対象物体の検出処理に用いる辞書を少なくとも1つ選択する選択手段を更に備えることを特徴とする請求項5に記載の情報処理装置。
  7. 前記選択手段は、前記辞書と前記対象物体を含む画像とを用いて前記対象物体の検出を行い、前記対象物体が検出された結果に基づいて選択することを特徴とする請求項6に記載の情報処理装置。
  8. 請求項1乃至4に記載の前記生成された辞書、または、請求項5または6に記載の前記選択された辞書と前記対象物体を含んだ画像とに基づいて、前記対象物体を含んだ画像から前記対象物体を検出する検出手段を更に備えることを特徴とする情報処理装置。
  9. 前記前処理画像生成手段は、前記学習画像に含まれる対象物体に対して、少なくともエッジ検出処理を施した画像を生成し、該生成された画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行うことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 前記前処理画像生成手段は、前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行い、該処理が行われた画像に、少なくともエッジ検出処理を施すことで前処理画像を生成することを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
  11. 前記辞書は、木構造を備えることを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
  12. 前記学習画像は、グレースケール画像であって、前記画素に関する値は、画素値であることを特徴とする請求項1乃至11のいずれか1項に記載の情報処理装置。
  13. 前記学習画像は、カラー画像であって、前記画素に関する値は、輝度値であることを特徴とする請求項1乃至11のいずれか1項に記載の情報処理装置。
  14. 対象物体のモデル情報から生成されるCG画像を学習画像として取得する取得工程と、
    前記学習画像の各画素のうち、少なくとも前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成工程と、
    前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成工程とを有することを特徴とする情報処理方法。
  15. 対象物体のモデル情報から生成されるCG画像を学習画像として取得する取得工程と、
    前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成工程と、
    前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成工程と、
    前記辞書生成工程で生成された辞書と前記対象物体を含んだ画像とに基づいて、前記対象物体を含んだ画像から前記対象物体を検出する検出工程とを有することを特徴とする情報処理方法。
  16. コンピュータに、請求項1乃至13のいずれか1項に記載の情報処理装置の各手段として機能させるプログラム。
  17. 請求項16に記載のプログラムを格納したことを特徴とするコンピュータが読み取り可能な記憶媒体。
JP2013108951A 2013-05-23 2013-05-23 情報処理装置および方法、プログラム、記憶媒体 Active JP6282045B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013108951A JP6282045B2 (ja) 2013-05-23 2013-05-23 情報処理装置および方法、プログラム、記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013108951A JP6282045B2 (ja) 2013-05-23 2013-05-23 情報処理装置および方法、プログラム、記憶媒体

Publications (3)

Publication Number Publication Date
JP2014229115A true JP2014229115A (ja) 2014-12-08
JP2014229115A5 JP2014229115A5 (ja) 2016-06-30
JP6282045B2 JP6282045B2 (ja) 2018-02-21

Family

ID=52128902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013108951A Active JP6282045B2 (ja) 2013-05-23 2013-05-23 情報処理装置および方法、プログラム、記憶媒体

Country Status (1)

Country Link
JP (1) JP6282045B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116391A (ja) * 2017-01-17 2018-07-26 みずほ情報総研株式会社 画像処理システム、画像処理方法及び画像処理プログラム
WO2019059343A1 (ja) * 2017-09-22 2019-03-28 Ntn株式会社 ワーク情報処理装置およびワークの認識方法
JP2020052513A (ja) * 2018-09-25 2020-04-02 本田技研工業株式会社 モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
JP2020107254A (ja) * 2018-12-28 2020-07-09 株式会社AI−feed 画像検査装置、学習済みモデル生成装置、画像検査システム、画像検査用プログラム、学習済みモデル生成用プログラム、および学習済みモデル
JP2020166813A (ja) * 2019-03-11 2020-10-08 キヤノン株式会社 医用画像処理装置、医用画像処理方法及びプログラム
JP2021114048A (ja) * 2020-01-16 2021-08-05 本田技研工業株式会社 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
WO2023007693A1 (ja) * 2021-07-30 2023-02-02 株式会社日立ハイテク 画像分類装置及び方法
US11922601B2 (en) 2018-10-10 2024-03-05 Canon Kabushiki Kaisha Medical image processing apparatus, medical image processing method and computer-readable medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324245A (ja) * 2001-04-26 2002-11-08 Mitsubishi Electric Corp Cgを用いた画像生成方法および装置
JP2003162716A (ja) * 2001-11-26 2003-06-06 Sharp Corp 画像処理方法、画像処理装置および画像形成装置ならびに画像判別方法、画像判別プログラムおよびコンピュータ読み取り可能な記録媒体
JP2010218051A (ja) * 2009-03-13 2010-09-30 Nec Corp 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
JP2011086259A (ja) * 2009-10-19 2011-04-28 Canon Inc 物体識別装置及び物体識別方法
JP2012043156A (ja) * 2010-08-18 2012-03-01 Canon Inc 情報処理装置、情報処理方法およびプログラム
JP2012048323A (ja) * 2010-08-24 2012-03-08 Canon Inc 情報処理装置、情報処理装置、プログラム
JP2013025329A (ja) * 2011-07-14 2013-02-04 Ntt Docomo Inc オブジェクト表示装置、オブジェクト表示方法及びオブジェクト表示プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324245A (ja) * 2001-04-26 2002-11-08 Mitsubishi Electric Corp Cgを用いた画像生成方法および装置
JP2003162716A (ja) * 2001-11-26 2003-06-06 Sharp Corp 画像処理方法、画像処理装置および画像形成装置ならびに画像判別方法、画像判別プログラムおよびコンピュータ読み取り可能な記録媒体
JP2010218051A (ja) * 2009-03-13 2010-09-30 Nec Corp 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
JP2011086259A (ja) * 2009-10-19 2011-04-28 Canon Inc 物体識別装置及び物体識別方法
JP2012043156A (ja) * 2010-08-18 2012-03-01 Canon Inc 情報処理装置、情報処理方法およびプログラム
JP2012048323A (ja) * 2010-08-24 2012-03-08 Canon Inc 情報処理装置、情報処理装置、プログラム
JP2013025329A (ja) * 2011-07-14 2013-02-04 Ntt Docomo Inc オブジェクト表示装置、オブジェクト表示方法及びオブジェクト表示プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116391A (ja) * 2017-01-17 2018-07-26 みずほ情報総研株式会社 画像処理システム、画像処理方法及び画像処理プログラム
WO2019059343A1 (ja) * 2017-09-22 2019-03-28 Ntn株式会社 ワーク情報処理装置およびワークの認識方法
JP2020052513A (ja) * 2018-09-25 2020-04-02 本田技研工業株式会社 モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
JP7079445B2 (ja) 2018-09-25 2022-06-02 本田技研工業株式会社 モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
US11922601B2 (en) 2018-10-10 2024-03-05 Canon Kabushiki Kaisha Medical image processing apparatus, medical image processing method and computer-readable medium
JP2020107254A (ja) * 2018-12-28 2020-07-09 株式会社AI−feed 画像検査装置、学習済みモデル生成装置、画像検査システム、画像検査用プログラム、学習済みモデル生成用プログラム、および学習済みモデル
JP7340806B2 (ja) 2018-12-28 2023-09-08 株式会社Ridge-i 画像検査装置、画像検査システム、および画像検査用プログラム
JP2020166813A (ja) * 2019-03-11 2020-10-08 キヤノン株式会社 医用画像処理装置、医用画像処理方法及びプログラム
JP7297628B2 (ja) 2019-03-11 2023-06-26 キヤノン株式会社 医用画像処理装置、医用画像処理方法及びプログラム
JP2021114048A (ja) * 2020-01-16 2021-08-05 本田技研工業株式会社 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
JP6992099B2 (ja) 2020-01-16 2022-01-13 本田技研工業株式会社 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
WO2023007693A1 (ja) * 2021-07-30 2023-02-02 株式会社日立ハイテク 画像分類装置及び方法

Also Published As

Publication number Publication date
JP6282045B2 (ja) 2018-02-21

Similar Documents

Publication Publication Date Title
JP6282045B2 (ja) 情報処理装置および方法、プログラム、記憶媒体
US10936911B2 (en) Logo detection
CN109583325B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
Almomani et al. An automated vision-based deep learning model for efficient detection of android malware attacks
JP2018005640A (ja) 分類器生成装置、画像検査装置、及び、プログラム
CN111753290B (zh) 软件类型的检测方法及相关设备
JP2009211179A (ja) 画像処理方法、パターン検出方法、パターン認識方法及び画像処理装置
EP2808828B1 (en) Image matching method, image matching device, model template generation method, model template generation device, and program
Rajagopal et al. Application of image quality assessment module to motion-blurred wood images for wood species identification system
CN109829306A (zh) 一种优化特征提取的恶意软件分类方法
KR102316286B1 (ko) 인공 지능을 이용한 모발 상태 분석 방법 및 이를 수행하기 위한 컴퓨팅 장치
KR102370910B1 (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
JP6039768B1 (ja) 調整装置、調整方法および調整プログラム
WO2007063705A1 (ja) パターン認識装置、パターン認識方法、およびパターン認識プログラム
Lubenko et al. Going from small to large data in steganalysis
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
KR20190040755A (ko) 파일 이미지를 이용한 악성코드 탐지 방법 및 이를 위한 장치
JP2017004123A (ja) 判定装置、判定方法および判定プログラム
CN112101386A (zh) 文本检测方法、装置、计算机设备和存储介质
JP2019220014A (ja) 画像解析装置、画像解析方法及びプログラム
JP2010176504A (ja) 画像処理装置、画像処理方法及びプログラム
US20170132413A1 (en) File clustering using filters working over file attributes
CN111191584A (zh) 一种人脸识别方法及装置
WO2012032747A1 (ja) 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
JP2018005505A (ja) 画像認識パラメータ設定装置、画像認識パラメータ設定方法、および画像認識パラメータ設定プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160513

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180123

R151 Written notification of patent or utility model registration

Ref document number: 6282045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151