JP2014229115A

JP2014229115A - 情報処理装置および方法、プログラム、記憶媒体

Info

Publication number: JP2014229115A
Application number: JP2013108951A
Authority: JP
Inventors: 裕一郎飯尾; Yuichiro Iio; 裕輔御手洗; Hirosuke Mitarai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-05-23
Filing date: 2013-05-23
Publication date: 2014-12-08
Anticipated expiration: 2033-05-23
Also published as: JP6282045B2

Abstract

【課題】学習画像を用いた学習を行う際に、対象物体がテクスチャが少なく平面領域が多い物体であるとき、識別精度が劣化する。【解決手段】対象物体のモデル情報から生成されるＣＧ画像を学習画像として取得する取得手段と、前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成手段と、前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成手段とを備える。【選択図】図２

Description

本発明は、辞書を用いて対象物体を識別する情報処理方法に関する。

近年、機械学習を利用した物体認識の分野で多く用いられる方法の一つにアンサンブルツリーを用いた方法が挙げられる。アンサンブルツリーを用いた識別方法としては非特許文献１にあるようなものがある。アンサンブルツリーによる識別方法は、分類木をＬ本（Ｌは２以上の定数）作成し、Ｌ本の分類木の結果を統合することで、より高い識別性能を実現する技術である（非特許文献１）。

非特許文献１に示すアンサンブルツリーを用いた識別方法に対して、非特許文献２ではアンサンブルツリーの一種であるＦｅｒｎを用いてより高速な識別を実現している。Ｆｅｒｎを用いた方法についてここで詳細に説明する。

学習過程では、最初に学習画像群が入力される。ここで入力される学習画像群とは、対象物体を含む複数の学習画像であり、例えばある対象物体について異なる視点位置から描画した画像やサイズの異なる画像が含まれる。次に、入力された各学習画像上の２か所の参照点位置を示す参照点ペアをランダムにＤ個生成する（以下、参照点ペア列と呼ぶ）。そして、前記参照点ペア列における画素値を比較し、その大小の結果の列を０／１のビット列で表すことにより、一つの学習画像と一つの参照点ペア列からＤ桁ビットのバイナリコードを算出する。全ての学習画像について、前述のようにＤ桁のバイナリコードを算出し、前記バイナリコードに対応する学習画像種別との確率を学習する。これが一つの分類木に相当する。一つの分類木で各学習画像は２＾Ｄクラスに分類されることになる。このようなＤ桁バイナリコードによる学習を、参照点ペア列をＬ回変えて学習する。すなわちＬ個の分類木を作成し、これを検出過程における木構造辞書として用いる。

検出過程では、入力画像に対して、学習時に定めたＤ個の参照点ペアの位置に従って入力画像からＤ桁のバイナリコードを算出する。これを学習時に定めたＬ個の異なる参照点ペア列すべてに対して行う。得られたＬ個のバイナリコードに関連付けられた学習画像の確率の積をとり、最も確率の高い学習画像種別を検出結果とする。

この方法によれば、検出時の処理においては、入力画像の参照点ペアの画素値比較によるバイナリコード化、および、バイナリコードによる木構造辞書テーブル参照、という高速な手段で実施できる。そのため、古典的な分類木による認識処理に比べて非常に高速な識別が可能となり、また認識精度も十分高いという報告が非特許文献２の中でされている。

しかし、一般に非特許文献１や非特許文献２のような統計的パターン認識技術における学習では大量の学習画像が必要となるが、識別対象物体の実写画像を手作業で集めるには膨大な手間と時間がかかるため、学習に用いる画像を識別対象物体の３Ｄ−ＣＡＤデータを用いてＣＧで生成する場合がある。

ＶｉｎｃｅｎｔＬｅｐｅｔｉｔａｎｄＰａｓｃａｌＦｕａ、 "ＫｅｙｐｏｉｎｔＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＲａｎｄｏｍｉｚｅｄＴｒｅｅｓ"、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ（２００６）ｐｐ．１４６５-ｐｐ．１４７９Ｍｕｓｔａｆａ Oｚｕｙｓａｌ、ＭｉｃｈａｅｌＣａｌｏｎｄｅｒ、ＶｉｎｃｅｎｔＬｅｐｅｔｉｔ、ＰａｓｃａｌＦｕａ、"ＦａｓｔＫｅｙＰｏｉｎｔＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＲａｎｄｏｍＦｅｒｎｓ．"ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、１５Ｊａｎ２００９

しかしながら、ＣＧで作成した学習画像では、一般的に平面領域の画素値（輝度値）は一様となる。一方、実写撮影画像は、照明の加減、ＣＡＤデータにない微細な凹凸、撮影系で生じるノイズなど様々な要因が影響して対象物体を撮影した画像に微小な輝度変動が生じる。

そのため、ＣＧ画像による学習で作成した木構造辞書を用いるとテクスチャが少なく平面領域が多い物体の識別で実写画像を用いた学習と比較して識別精度が劣化するという問題がある。

上記の課題に鑑みて、本発明は、テクスチャが少なく平面領域が多い対象物体の識別を、ＣＧで描画された学習画像を用いて行う場合にも高精度に識別を行うことを目的とする。

上記の課題を解決するために、例えば、本発明に係る情報処理装置は、対象物体のモデル情報から生成されるＣＧ画像を学習画像として取得する取得手段と、前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成手段と、前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成手段とを備える。

本発明によれば、テクスチャが少なく平面領域が多い対象物体の識別を、ＣＧで描画された学習画像を用いて行う場合にも高精度に識別を行うことが可能となる。

本発明を実行する情報処理装置の構成を示すブロック図第１の実施形態における情報処理装置の動作を示すブロック図第１の実施形態における学習処理の流れを示すフローチャート第１の実施形態におけるテスト画像への前処理を示す模式図第１の実施形態における検出処理の流れを示すフローチャート第１の実施形態における学習画像へのノイズ付加処理の効果を示す模式図第２の実施形態における情報処理装置の動作を示すブロック図第２の実施形態における学習処理の流れを示すフローチャート第３の実施形態における情報処理装置の動作を示すブロック図第３の実施形態における学習処理の流れを示すフローチャート第３の実施形態におけるべき乗分布評価の処理の流れを示すフローチャート

［第１の実施形態］
本発明における第１の実施形態について説明する。本実施形態では、Ｆｅｒｎによる分類方法を用いて入力された画像から対象物体を検出し、その位置姿勢を求めるタスクを想定する。

図１は本発明における全ての実施形態に共通な情報処理装置の構成を示すブロック図である。本発明に係わる情報処理装置は、外部記憶装置１０１、中央処理装置（ＣＰＵ）１０２、メモリ１０３、入出力装置１０４から構成される。

外部記憶装置１０１は、本発明の実施形態を実現するプログラムや、学習画像群、学習画像群を用いて作成された辞書等を保持する。また、本発明によって導かれた入力画像の認識結果を保持してもよい。

中央処理装置（ＣＰＵ）１０２は、対象物体の識別を行うための辞書のプログラムを実行したり、すべての装置の制御を行なったりする。

メモリ１０３は中央処理装置（ＣＰＵ）１０２が使用するプログラム、及びサブルーチンやデータを一時的に記録する。また、本発明によって導かれた入力画像の認識結果を保持してもよい。

入出力装置１０４は、入力画像を取り込んだり（取得したり）、ユーザとのインタラクションを行ったりする。例えば、パターンとして２次元の画像を用いる場合は、入出力装置１０４は、対象物体を撮影するカメラとなる。また、入出力装置１０４は、認識結果を他の情報処理装置へ出力したりする。また、本発明の情報処理方法を実現するプログラム実行のトリガーをこの入出力装置を介してユーザが出す場合もある。また、ユーザが結果を見たり、プログラムのパラメータ制御をこの入出力装置を介して行うこともある。また、出力先としては人間（ユーザ）ではなく、例えばロボットを制御する装置などのマシンの場合も有り得る。

図２に第１の実施形態における情報処理装置の動作およびデータの流れを、図３に第１の実施形態における学習過程の処理の流れを示す。

情報処理装置は、学習装置２１０および検出装置２２０からなる。

学習装置２１０は、データベース２１１、ＣＧ画像生成部２１２、前処理部２１３、ノイズパラメータ設定部２１４、ノイズ付加画像生成部２１５、学習処理部２１６から成っている。データベース２１１は、学習に用いる学習データとして、対象物体の３Ｄ−ＣＡＤデータ２１０１と対象物体が含まれる数枚のテスト画像２１０２が記憶されている。

検出装置２２０は、前処理部２２１と検出処理部２２２から構成されている。

まず学習装置２１０で行われる処理について詳細に説明する。

（ステップＳ３０１）
ステップＳ３０１では、データベース２１１に格納されている３Ｄ−ＣＡＤデータ（モデル情報）２１０１を元に、ＣＧ画像生成部２１２がＣＧ学習画像群２１０３を生成する。ここで、ＣＧ学習画像群２１０３は、対象物体を含む複数の学習用画像であり、例えば、ある対象物体について異なる視点位置から描画した画像や、サイズの異なる画像、あるいはそれらの部分画像が含まれる。

また、ＣＧ画像生成部２１２は、他にデータベース２１１から対象物体のテクスチャ情報や照明位置などの環境情報を受け取って画像生成に利用してもよい。あるいは、法線方向の傾きをＲＧＢに割り当てて描画した、照明位置や対象物体のテクスチャを考慮しないＣＧ画像でも構わない。また、生成されるＣＧ画像（学習画像）はグレースケール画像であっても、ＲＧＢ画像のようなカラー画像であっても、どちらでも構わない。本実施形態では、ＣＧ画像をグレースケール画像として説明を行う。また、本実施形態では、グレースケール画像の各画素が持つ値を画素値、カラー画像の各画素の色成分が持つ値を輝度値とする。また、本実施形態では、ＣＧ画像として、ＣＡＤモデルを基に作成するが、本発明はこれに限定されず、ポリゴンモデルなどその他のモデル情報でもかまわない。

各学習画像は、画像中に含まれる対象物体の位置姿勢情報、および対象物体の平面領域情報を保持している。本発明における情報処理装置は、検出装置７２０の入力画像に含まれる対象物体と一致する学習画像を検出することで、入力画像中の対象物体の位置姿勢を算出する。ここで、対象物体の平面領域とは、対象物体のうちエッジ部以外の領域を指し、照明やテクスチャの影響が考慮されないＣＧ画像上では一様な画素値となる領域である。

次に、ＣＧ学習画像群２１０３に付加するノイズのパラメータ（処理パラメータ）を設定する。付加するノイズは、できるだけ検出時と似た環境で実際に撮像された画像（撮像画像）における、対象物体の平面領域の画素値変動の分布に類似したノイズがよい。そこで、本実施形態ではあらかじめ対象物体が含まれる画像を数枚撮影しておき、データベース２１１に、テスト画像２１０２として記憶しておく。そして、それらのテスト画像２１０２を用いてノイズパラメータを設定する。ここで、テスト画像２１０２中の対象物体の位置姿勢は既知とする。

図４（ａ）にテスト画像２１０２の一例を示す。図４（ａ）における対象物体４０１が本実施形態における検出対象物体であり、このテスト画像には対象物体４０１以外に非対象物体４０２、非対象物体４０３が含まれている。

（ステップＳ３０２）
ステップＳ３０２では、前処理部２１３は、テスト画像２１０１に対して前処理を施し、前処理テスト画像２１０４を出力する。ここで行う前処理は、微小な画素値変動を反映するエッジ検出処理を含む画像処理とする。エッジ検出処理の既存方法としては、Ｌａｐｌａｃｉａｎフィルターを用いたエッジ検出処理などが挙げられる。図４（ｂ）に、図４（ａ）に示したテスト画像に対して前処理を施した結果の一例を示す。前処理テスト画像では、エッジ領域の画素値が大きく、それ以外の領域の画素値が小さく表されている。

（ステップＳ３０３）
ステップＳ３０３ではノイズパラメータ設定部２１４が、設定すべきノイズパラメータを導出する。前処理テスト画像２１０４における平面領域の全ての画素の画素値を取得する。本実施形態ではこれらの画素値集合がノイズパラメータ２１０５として取り扱われる。

図４（ｂ）に示す前処理画像は、実際に撮影されたテスト画像に対して前処理を行ったものなので、平面領域には微小な画素値の変動が存在する。また、テスト画像２１０２の平面領域は、対象物体のＣＡＤデータ２１０１および位置姿勢情報から事前に求められているものとする。

図４（ｃ）における平面領域４０１１、平面領域４０１２、平面領域４０１３が、対象物体４０１の平面領域となる。

（ステップＳ３０４）
次に、ステップＳ３０４では、前処理部２１３がＣＧ学習画像２１０３に対してステップＳ３０２と同様に前処理を施し、前処理学習画像群２１０６を生成する。ただし、ＣＧ学習画像２１０３とテスト画像２１０２で、前処理の手順やパラメータは異なっていてもよい。

（ステップＳ３０５）
ステップＳ３０５では、ノイズ付加画像生成部２１５は、全ての学習画像２１０６に対してステップＳ３０３で設定したノイズパラメータ２１０５を元にノイズを付加し、ノイズ付加ＣＧ学習画像群２１０７を生成する。具体的には、前処理学習画像群２１０６における対象物体の平面領域の全ての画素に対してそれぞれ、ステップＳ３０３で取得した画素値集合から任意の画素値を選択し元の画素値に加算する。これにより、平面領域の画素値を変化させる。本実施形態では、元の画素値に任意の画素値を加算したが、本発明はこれに限定されず、その他の演算（例えば、画素値の減算、積算など）でもかまわない。

（ステップＳ３０６）
最後にステップＳ３０６で、学習処理部２１６はステップＳ３０５で作成したノイズ付加ＣＧ学習画像群２１０７を入力として木構造辞書２１０８を作成し、出力とする。ここでの辞書作成処理は背景で述べた従来のアンサンブルツリーあるいはＦｅｒｎを用いた方法と同様であるため手順の詳細は省略する。

次に、本実施形態における検出装置２２０の処理について述べる。図５は検出装置２２０における処理の流れを示したものである。

（ステップＳ５０１）
まず、ステップＳ５０１で、前処理部２２１は検出処理の対象となる入力画像２１０９を受け取り、所定の前処理が施されたのち、前処理入力画像２１１０として出力される。ここで行う前処理は、学習時に行った前処理部２１３におけるテスト画像２１０２に対する前処理内容と同一であることが望ましい。

（ステップＳ５０２）
次に、ステップＳ５０２では、検出処理部２２２はステップＳ５０１で作成した前処理入力画像２１１０に対して、学習処理部２１６で作成した木構造辞書２１０８を用いて対象物体の検出処理を行い、検出結果２１１１を出力する。木構造辞書を用いた検出処理の詳細は背景で述べた従来のアンサンブルツリーあるいはＦｅｒｎを用いた方法と同様であるため手順の詳細は省略する。

最後に、Ｆｅｒｎの識別における平面領域での挙動と本発明におけるノイズ付加の効果について図６を用いて説明する。

例として、図６（ａ）に示す対象物体６００の平面領域が含まれる部分画像６１０と部分画像６２０が学習画像として入力されたときのある分類木での分類の様子について説明する。簡単のため、部分画像６１０と部分画像６２０のサイズは６×６ピクセルとする。

前述したようにＦｅｒｎを用いた識別のための学習では、入力された各学習画像上の２か所の参照点位置を示す参照点ペアをランダムにＤ個生成する。そして、前記参照点ペア列における画素値を比較し、その大小の結果の列を０／１のビット列で表すことにより、一つの学習画像と一つの参照点ペア列からＤ桁ビットのバイナリコードを算出する。ある分類木での参照点ペアを、図６（ａ）に示すように、（１、２）：（３、３）、（４、２）：（２、５）、（２、２）：（６、１）の３組とする（Ｄ＝３）。このとき、例えば１つ目の参照点ペアにおいては、部分画像６１０および部分画像６２０のそれぞれにおいて位置（１、２）における画素値と位置（３、３）における画素値を比較し、その大小関係に応じて１つ目のバイナリコードを設定する。これらの処理を２つ目、３つ目の参照点ペアについても行い、３ビットのバイナリコードを算出する。

実撮影学習画像、ＣＧ学習画像、ノイズ付加ＣＧ学習画像における部分画像６１０および部分画像６２０の画素値を表したのが図６（ｂ）である。実撮影画像における平面領域ではいずれも微小な画素値の変動が見られるが、ＣＧ画像では、一様に画素値は０となっている。

そして、ＣＧ画像にノイズを付加したノイズ付加ＣＧ画像では、実撮影画像とは異なるが、微小な画素値変動がある。

参照点ペアにおける左の点が、右の点より大きいか同じ値の時のバイナリコードを０と定義する。そして、左の点が右の点より小さいときのバイナリコードを１と定義すると、実撮影画像、ＣＧ画像、ノイズ付加ＣＧ画像でのこの分類木におけるバイナリコードは図６（ｃ）に示すようになる。

ＣＧ画像においては平面領域の一部である部分画像６１０および部分画像６２０のいずれでもバイナリコードは０００となっているが、他の２つの場合は部分画像６２０において０００とは異なるバイナリコードになっている。

通常、アンサンブルツリーによる分類では、部分画像６１０、部分画像６２０のような対象物体の識別の役に立たない特徴のない学習画像は異なるバイナリコードに散らばって分類される。そして、識別の決め手になるような特徴的な学習画像が特定のバイナリコードに集中することで正しい識別が行われる。

しかし、特徴のない平面領域が学習画像にある場合にＣＧ画像の例のように全てが同じバイナリコードに分類されてしまうと検出時に誤検出が生じやすくなる。そのため、ＣＧ学習画像を用いた学習における平面領域の分類結果は実写学習画像の分類結果と一致する必要はないが、一か所に固まらずバラバラなバイナリコードに分類されている方が、識別精度が向上する。

本実施形態は、元のＣＧ学習画像にノイズを付加した画像を学習に用いることで、学習画像の平面領域におけるＦｅｒｎの分類結果が１つのバイナリコードに集中するのを防ぎ、ＣＧ画像を用いた学習における識別精度の劣化を防ぐ効果がある。

なお、本実施形態ではＦｅｒｎを用いた分類を例に挙げて示したが、アンサンブルツリーによる分類においても同様の効果が見込まれる。

［第２の実施形態］
本発明の第二の態様に対応する第２の実施形態について説明する。第１の実施形態ではＣＧで生成した学習画像に対してノイズを付加することで、識別精度の劣化を軽減した。

ここで付加されるノイズの条件として、ノイズが付加された平面領域の画素値は抽出されたエッジ付近の画素値よりも小さい必要がある。また、平面領域における画素値０の点同士の比較を削減することが目的であるため、平面領域のできるだけ多くの画素にノイズが付加されている必要がある。

そのため、付加するノイズの適切なパラメータは対象物体に応じて変動する。

第１の実施形態では予め用意されたテスト画像における対象物体の平面領域のノイズ分布からＣＧ学習画像に付加するノイズを決定した。本実施形態ではより精度の高い検出を行うために、複数パターンのノイズを生成しその中から最適なノイズパラメータを選択して辞書生成を行う。

また、第１の実施形態では前処理を行ったCG学習画像に対してノイズ付加を行った。前処理画像に対して適当なノイズを付加することで特徴の少ない領域におけるＦｅｒｎの誤分類結果が集中することを防ぐ効果があった。一方、前処理を行う前のＣＧ学習画像に対して実際の撮影画像に近いノイズを付加すれば、前処理結果も実撮影画像に近いものとなり、識別精度の高い木構造辞書を作成することが可能となる。本実施形態では前処理を行う前のCG学習画像に対してノイズ付加を行う場合について説明する。

図７に第２の実施形態における情報処理装置の動作およびデータの流れを、図８に第２の実施形態における学習過程の処理の流れを示す。情報処理装置は、学習装置７１０および検出装置７２０からなる。

学習装置７１０は、データベース７１１、ＣＧ画像生成部７１２、ノイズパラメータ設定部７１３、ノイズ付加画像生成部７１４、前処理部７１５、学習処理部７１６、木構造辞書評価部７１７から成る。データベース７１１は、学習に用いる学習データとして対象物体の３Ｄ−ＣＡＤデータ７１０１と対象物体が含まれる数枚のテスト画像７１０２が記憶されている。

検出装置７２０は、前処理部７２１と検出処理部７２２から成っている。

学習装置７１０で行われる処理について詳細に説明する。

（ステップＳ８０１）
第１の実施形態と同様に、ステップＳ８０１では、データベース７１１に格納されている３Ｄ−ＣＡＤデータ７１０１を元にＣＧ画像生成部７１２がＣＧ学習画像群７１０３を生成する。

（ステップＳ８０２）
ステップＳ８０２では、前処理部７１５がデータベース７１１に格納されているテスト画像７１０２に対して前処理を施し、前処理テスト画像７１０５として出力する。

（ステップＳ８０３）
ステップＳ８０３では、ノイズパラメータ設定部７１３がＮ種類のノイズパラメータ７１０４を初期値として設定する。設定される初期ノイズパラメータ７１０４は、ランダムに選択する。もしくは、人間（ユーザ）が経験的に値を設定してもよい。

ノイズパラメータとは、例えばガウシアンノイズを付加する場合には分散値のことであり、この場合はＮ組の分散値がノイズパラメータとして設定される（複数設定される）。あるいは第一の実施形態で行ったようにテスト画像における対象物体の平面領域の画素値集合をノイズパラメータ７１０４として持ってもよい。

（ステップＳ８０４）
ステップＳ８０４〜Ｓ８０７までの処理はステップＳ８０３で設定されたＮ種類のノイズパラメータ７１０４をそれぞれ用いてＮ回行われる。なお、ステップＳ８０４〜Ｓ８０７までの処理は並列に行ってもよい。

ステップＳ８０４では、ノイズ付加画像生成部７１４は、ＣＧ学習画像群７１０３に対してステップＳ７０３で設定したノイズパラメータ７１０４のうちのあるパラメータｐ＿ｉ（１≦ｉ≦Ｎ）のノイズを付加し、Ｎ組のノイズ付加学習画像群７１０６を作成する。

テスト画像７１０２における対象物体の平面領域の画素値集合をノイズパラメータ７１０４として持っている場合は、次のように処理を行う。即ち、全ＣＧ学習画像７１０３に対して、画像に含まれる対象物体の平面領域の各画素に対して、画素値集合の中からランダムに、Ｎ回画素値を選択し加算することで、Ｎ組のノイズ付加学習画像群７１０６を作成する。

（ステップＳ８０５）
ステップＳ８０５では、前処理部７１５はステップＳ８０４で作成したノイズ付加学習画像群７１０６に対してテスト画像７１０２と同様に前処理を施し、前処理学習画像群７１０７を生成する。ただし、学習画像とテスト画像で前処理の手順やパラメータは異なっていてもよい。

（ステップＳ８０６）
ステップＳ８０６では学習処理部７１６が、ステップＳ８０５で作成した前処理学習画像群７１０７を入力としてＮ組の木構造辞書候補７１０８を作成する（即ち、辞書を複数生成する）。ここでの辞書作成処理は従来のアンサンブルツリーあるいはＦｅｒｎを用いた方法と同様であるため省略する。

（ステップＳ８０７）
ステップＳ８０７では、木構造辞書評価部７１７は、作成したＮ個の木構造辞書候補７１０８を用いて、前処理テスト画像７１０５を入力とした検出処理を行う。ここで行う検出処理は検出装置７２０における検出処理部７２２と同様の処理を行う。

（ステップＳ８０８）
ステップＳ８０８では、木構造辞書評価部７１７は、Ｎ種類の木構造辞書候補７１０８によるそれぞれの検出結果と、既知であるテスト画像７１０２における対象物体の位置姿勢を比較する。

閾値Ｔよりも差異が小さい検出結果が存在した時には、ステップＳ８０９で木構造辞書評価部７１７は、木構造辞書候補７１０８の中で最も差異が小さかった木構造辞書を識別に用いる木構造辞書７１１０として出力する。

閾値Ｔよりも差異が小さい検出結果が存在しなかったときには、ステップＳ７０３に戻って処理を繰り返す。このとき、ノイズパラメータ設定部７０３は、最も差異の小さかった木構造辞書作成に用いたノイズパラメータをノイズパラメータ候補７１０９として初期値に用いて候補ノイズパラメータ７１０４を設定してもよい。

検出装置７２０における処理の流れについては、第一の実施形態と同様であるため説明を割愛する。

本実施形態においては、複数パターンのノイズを付加したテスト画像に対して識別を実行し識別精度がよかったノイズパラメータを用いることができるため、適切なノイズパラメータ設定が可能となる。このため、学習にＣＧ画像を用いるときに生じる精度の劣化を軽減することができる。

［第３の実施形態］
本実施形態ではテスト画像を用いることなく、作成した木構造辞書を直接評価することで適切なノイズパラメータを選択する。

図９に第３の実施形態における情報処理装置の動作およびデータの流れを、図１０に第三の実施形態における学習過程の処理の流れを示す。本実施形態における情報処理装置は、学習装置９１０および検出装置９２０からなる。学習装置９１０および検出装置９２０の構成は第二の実施形態とほぼ同様であるが、本実施形態においてはデータベース９１１にテスト画像が含まれていない。学習装置９１０で行われる処理について詳細に説明する。

（ステップＳ１００１）
ステップＳ１００１でＣＧ画像生成部９１２が３Ｄ−ＣＡＤデータ９１０１からＣＧ学習画像群９１０３を生成する。

（ステップＳ１００２）
ステップＳ１００２でノイズパラメータ設定部９１４がＮ種類のノイズパラメータ９１０４を初期値として設定する。設定される初期ノイズパラメータ９１０４は、ランダムに選択する、もしくは、人が経験的に値を設定してもよい。

（ステップＳ１００３）
ステップＳ１００３〜Ｓ１００６までの処理はステップＳ１００２で設定されたＮ種類のノイズパラメータ９１０４をそれぞれ用いてＮ回行われる。なお、ステップＳ１００３〜Ｓ１００６までの処理は並列に行ってもよい。

ステップＳ１００３では、ノイズ付加画像生成部９１３がＣＧ学習画像群９１０３に対してステップＳ１００２で設定したノイズパラメータ９１０４のうちのあるパラメータｐ＿ｉ（１≦ｉ≦Ｎ）のノイズを付加し、Ｎ組のノイズ付加学習画像群９１０６を作成する。

（ステップＳ１００４）
ステップＳ１００４では、前処理部９１５はステップＳ１００３で作成したノイズ付加学習画像群９１０６に実施形態１と同様に前処理を施し、前処理学習画像群９１０７を生成する。

（ステップＳ１００５）
ステップＳ１００５では学習処理部９１６が、ステップＳ１００４で作成した前処理学習画像群９１０７を入力としてＮ組の木構造辞書候補９１０８を作成する。ここでの辞書作成処理は従来のアンサンブルツリーあるいはＦｅｒｎを用いた方法と同様であるため省略する。

（ステップＳ１００６）
ステップＳ１００６では、木構造辞書評価部９１７が、作成した木構造辞書候補９１０８に対して分類された学習画像の分布について調べ、適切なノイズパラメータで生成された木構造辞書候補を識別過程で用いる木構造辞書９１１０として定める。

ここでは、学習画像の分類結果の分布がべき乗分布に近いか否かを評価基準として用いるものとする。分布がべき乗分布に従っているかどうかの度合いを示す評価値は、回帰時の寄与率Ｒ^＊２を用いる。Ｒ^＊２は回帰モデルでデータを説明できているかどうかを示す指標であり、標本値をＹ、Ｙの平均をａｖｅ（Ｙ）、Ｙの推定値をｅｓｔ（Ｙ）としたときに以下の式で表される。

データの分布がべき乗分布に近いほどＲ^＊２は１に近い値となる。

図１１で適切な木構造辞書を選択する処理の流れについて説明する。本処理ではステップＳ１１０１〜Ｓ１１０３まで、分類木ごとに同様の処理を行う。例えば分類木数が１０本であるときにはステップＳ９０１〜Ｓ９０３は１０並列で実行される。
学習過程における参照点ペアの数をＤ個とすると、学習画像群９１０３は各分類木で２＾Ｄクラスに分類されていることになる。

（ステップＳ１１０１）
まず、ステップＳ１１０１では各クラスへ分類された学習画像が多い順にクラスをソートする。

（ステップＳ１１０２）
そして、ステップＳ１１０２ではソート結果に従って累積度数を算出し、学習画像の累積度数を標本値として回帰直線を求める。

（ステップＳ１１０３）
ステップＳ１１０３では、ステップＳ１１０２で求めた標本値および回帰直線を用いてＲ^＊２を算出する。

（ステップＳ１１０４）
ステップＳ１１０４では、ステップＳ１１０３において各分類木で算出したＲ^＊２をすべて加算して加算結果を出力する。この加算結果をノイズパラメータの評価基準として用いるものとする。Ｒ^＊２の最大値は１であるため、加算結果の最大値はＤであり、Ｄに近いほど、学習画像分類の分布がべき乗分布に近く、よい辞書が作成できたことになる。

（ステップＳ８０７）
ステップＳ８０７では、Ｎ種類のノイズパラメータで生成した木構造辞書に対して、ステップＳ８０６で出力された加算結果の中で最大のものが閾値Ｔを超えているかどうかを判定する。

閾値Ｔ以上であった時にはステップＳ８０９で加算結果が最大となった木構造辞書を識別に用いる辞書として出力する。

もし、閾値を超える辞書が存在しなかったときにはステップＳ８０２に戻って処理を繰り返す。このとき、最大の加算結果であった木構造辞書作成に用いたノイズパラメータを初期値として候補パラメータを生成してもよい。

なお、木構造辞書の評価基準は木構造辞書から推定できる基準値であれば、べき乗分布以外の評価基準でもよい。例えば、全ての参照点ペアにおける画素値の比較結果がすべて同一、すなわち全ての参照点ペアにおける画素値が０である学習画像の数が閾値未満であるか、といった判定基準が考えられる。

本実施形態では、アンサンブルツリーを用いた識別において、ＣＧ学習画像群に付加するノイズパラメータ決定手段として、学習過程で作成したアンサンブルツリーの学習画像分類の分布を基準に選択を行う。これにより、学習毎にテスト画像を用意して検出処理を実行することなく適切なパラメータ選択を行うことができる。

なお、以上の実施形態では様々な実施形態について説明したが、何れも、下記の構成の一例に過ぎず、下記の構成に基づいていれば、他の実施形態についても本発明の範疇である。

即ち、対象物体のモデル情報から生成されるＣＧ画像を学習画像として取得する（取得手段）。前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する（前処理画像生成手段）。前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する（辞書生成手段）。

また、本発明は、例えば、システム、装置、方法、プログラム、もしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

コンピュータプログラムを供給するためのコンピュータ読み取り可能な記憶媒体としては以下が挙げられる。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などである。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記憶媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布するという形態をとることもできる。この場合、所定の条件をクリアしたユーザに、インターネットを介してホームページから暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたプログラムを実行し、プログラムをコンピュータにインストールさせるようにもできる。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどとの協働で実施形態の機能が実現されてもよい。この場合、ＯＳなどが、実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれて前述の実施形態の機能の一部或いは全てが実現されてもよい。この場合、機能拡張ボードや機能拡張ユニットにプログラムが書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行なう。

Claims

対象物体のモデル情報から生成されるＣＧ画像を学習画像として取得する取得手段と、
前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成手段と、
前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成手段とを備えることを特徴とする情報処理装置。
前記前処理画像生成手段において行われる処理で用いられる処理パラメータを設定する設定手段を更に備えることを特徴とする請求項１に記載の情報処理装置。
前記設定手段は、前記対象物体を撮像した撮像画像に含まれる画素に関する値の分布に基づいて、前記処理パラメータを設定することを特徴とする請求項２に記載の情報処理装置。
前記設定手段は、前記処理パラメータを複数設定し、
前記辞書生成手段は、前記処理パラメータのうちから、少なくとも１つの処理パラメータを選択し、該選択された処理パラメータを用いて、前記辞書を少なくとも１つ生成することを特徴とする請求項２または３に記載の情報処理装置。
前記設定手段は、前記処理パラメータを複数設定し、
前記辞書生成手段は、前記設定された複数の処理パラメータを用いて、複数の辞書を生成することを特徴とする請求項２または３に記載の情報処理装置。
前記辞書生成手段で生成された複数の辞書のうちから、前記対象物体の検出処理に用いる辞書を少なくとも１つ選択する選択手段を更に備えることを特徴とする請求項５に記載の情報処理装置。
前記選択手段は、前記辞書と前記対象物体を含む画像とを用いて前記対象物体の検出を行い、前記対象物体が検出された結果に基づいて選択することを特徴とする請求項６に記載の情報処理装置。
請求項１乃至４に記載の前記生成された辞書、または、請求項５または６に記載の前記選択された辞書と前記対象物体を含んだ画像とに基づいて、前記対象物体を含んだ画像から前記対象物体を検出する検出手段を更に備えることを特徴とする情報処理装置。
前記前処理画像生成手段は、前記学習画像に含まれる対象物体に対して、少なくともエッジ検出処理を施した画像を生成し、該生成された画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行うことを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。
前記前処理画像生成手段は、前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行い、該処理が行われた画像に、少なくともエッジ検出処理を施すことで前処理画像を生成することを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。
前記辞書は、木構造を備えることを特徴とする請求項１乃至１０のいずれか１項に記載の情報処理装置。
前記学習画像は、グレースケール画像であって、前記画素に関する値は、画素値であることを特徴とする請求項１乃至１１のいずれか１項に記載の情報処理装置。
前記学習画像は、カラー画像であって、前記画素に関する値は、輝度値であることを特徴とする請求項１乃至１１のいずれか１項に記載の情報処理装置。
対象物体のモデル情報から生成されるＣＧ画像を学習画像として取得する取得工程と、
前記学習画像の各画素のうち、少なくとも前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成工程と、
前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成工程とを有することを特徴とする情報処理方法。
対象物体のモデル情報から生成されるＣＧ画像を学習画像として取得する取得工程と、
前記学習画像に含まれる対象物体の平面領域の画素に関する値を変化させる処理を行って、前処理画像を生成する前処理画像生成工程と、
前記前処理画像に基づいて、前記対象物体の検出に用いられる辞書を生成する辞書生成工程と、
前記辞書生成工程で生成された辞書と前記対象物体を含んだ画像とに基づいて、前記対象物体を含んだ画像から前記対象物体を検出する検出工程とを有することを特徴とする情報処理方法。
コンピュータに、請求項１乃至１３のいずれか１項に記載の情報処理装置の各手段として機能させるプログラム。
請求項１６に記載のプログラムを格納したことを特徴とするコンピュータが読み取り可能な記憶媒体。