JP2015032001A

JP2015032001A - 情報処理装置および情報処理手法、プログラム

Info

Publication number: JP2015032001A
Application number: JP2013159176A
Authority: JP
Inventors: 裕一郎飯尾; Yuichiro Iio; 裕輔御手洗; Hirosuke Mitarai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2015-02-16
Anticipated expiration: 2033-07-31
Also published as: JP6245880B2; US10275682B2; US20150036935A1

Abstract

【課題】複数の検出候補物体が存在するとき、対象物体の領域全体が適切に見えている物体を優先的に選択する。
【解決手段】複数の検出候補物体に対して、それぞれの検出候補物体の複数の局所領域における検出尤度を算出し、検出尤度の分布に基づきそれぞれの検出候補物体の検出信頼度を算出する。具体的には複数の検出候補物体を含む画像を入力する入力手段と、前記複数の検出候補物体に設定される計測領域ごとに、前記検出候補物体の姿勢を推定する推定手段と、前記計測領域ごとに推定される検出候補物体の姿勢に基づいて、該検出候補物体の姿勢を特定する特定手段と、前記計測領域ごとに推定される検出候補物体の姿勢と前記特定される検出候補物体の姿勢との対応に基づいて、前記複数の検出候補物体から検出するべき物体を決定する決定手段と、を備える。
【選択図】図５

Description

本発明は，入力画像中から対象物体を検出する情報処理装置、またはその方法に関する。

撮影された画像中から対象物体を検出する手法については様々な方式が提案されている。特に、画像中に複数の対象物体が存在し、その中から検出処理によって検出された１つの対象物体を提示するようなときには、オクルージョンが少なく対象物体全域が適切に見えている候補を提示することが望ましい。

例えば、部品供給や組立工程の自動化のために、産業用ロボットを用いてトレイに不規則に山積みされた物体をピッキングする場合、ピッキング時に山積みされた他の物体群の崩れを誘発することも起こりうる。

また、提示した対象物体の一部が画像外に見切れていたり、部分的に照明がうまく当たっておらず、画像上で白とびあるいは黒とびを起こしている場合には、検出処理時に対象物体の位置姿勢を誤って検出している可能性が高い。そのため、ピッキング候補としてふさわしくない場合が多い。

このように、山積みビンピッキングにおける対象物体の位置姿勢検出処理で入力画像内に検出物体候補が複数あるときには、対象物体全体が適切に見えている物体を優先的に選択することが望ましい。

特許文献１に記載された方法では、物体の全体輪郭情報を用いて検出を行って位置姿勢を同定した後に、部分輪郭情報を用いて再度物体の部分領域の検出を行うことで遮蔽領域の小さい物体を優先的にピッキングしている。

また特許文献２に記載された方法では、各部品の検出された位置姿勢の信頼度を求め、さらに検出された位置姿勢の位置関係により重なり情報を求め、信頼度と重なり関係が上位なものからピッキングしている。

特開２００４―０５０５３９０号公報特許第０３６５４０４２号

上述した特許文献においては、それぞれ以下のような問題点がある。

特許文献１に記載された方法では、設定された部分領域内の遮蔽のみから優先度を定めており、必ずしも物体全体の遮蔽について判定を行っているわけではない。また、設定した部分領域の１つに強い特徴を持つ部分領域が存在するときに、その部分領域が一致していると他の弱い特徴を含む部分領域が遮蔽されているかいないかに関わらず優先度が高く設定されてしまう場合がある。更に、検出処理を複数回実行する必要があるため、計算コストが増大するという問題もある。

特許文献２に記載された方法では、検出された全ての候補物体について三次元平面上に投影しその重なり状態を判定することで、遮蔽領域の小さい物体を選択している。そのため、検出時に未検出・誤検出となった物体が存在すると他の正しく検出された物体の重なり状態判定の信頼性が低下するという問題がある。

本発明は、このような課題に鑑みてなされたものであり、入力画像中の複数の検出候補物体の中で、適切に見えている領域が大きい物体を、検出対象物体として優先的に選択することを目的とする。

上記の課題を解決するために，本発明の情報処理装置は、例えば、複数の検出候補物体を含む画像を入力する入力手段と、前記複数の検出候補物体に設定される計測領域ごとに、前記検出候補物体の姿勢を推定する推定手段と、前記計測領域ごとに推定された検出候補物体の姿勢に基づいて、該検出候補物体の姿勢を特定する特定手段と、前記計測領域ごとに推定される検出候補物体の姿勢と前記特定される検出候補物体の姿勢との対応に基づいて、前記複数の検出候補物体から、検出するべき物体を決定する決定手段とを備える。

本発明によれば、入力画像中の複数の検出候補物体の中で、適切に見えている領域が大きい物体を、検出対象物体として優先的に選択することが可能になる。

第１の実施形態における物体検出装置の動作を示すブロック図第１の実施形態におけるＲａｎｄｏｍｉｚｅｄＴｒｅｅの学習過程の動作の一例を示す模式図第１の実施形態における候補物体検出処理の流れを示すフローチャート第１の実施形態における候補物体検出部の動作の一例を示す模式図第１の実施形態における検出尤度算出処理の流れを示すフローチャート第１の実施形態における分割部分領域情報設定の一例を示す模式図第１の実施形態における検出尤度算出処理の様子を示す模式図第２の実施形態における検出尤度算出処理の流れを示すフローチャート第２の実施形態における検出尤度算出処理の様子を示す模式図第３の実施形態における分布状態の評価の一例を示す模式図第３の実施形態における検出信頼度算出処理の流れを示すフローチャート第３の実施形態における分布基準値算出の一例を示す模式図

（第１の実施形態）
本発明における第１の実施形態について説明する。本実施形態は山積みされた物体のピッキングタスクを想定しており、本発明における情報処理装置は、山積みされた物体を撮影した画像において、次にピッキングを行う対象物体の位置姿勢を提示する。このときに、撮影された画像に映っている複数の物体のうち、適切に見えている領域が大きい検出候補物体を優先的に提示することを目的とする。

図１に本実施形態における情報処理装置１００の構成を示す。本実施形態における情報処理装置１００は、候補物体検出部１１０、検出尤度算出部１２０、検出信頼度算出部１３０を備える。

情報処理装置１００には、コンピュータが組み込まれている。コンピュータには、ＣＰＵ等の主制御手段、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の記憶手段が具備される。また、コンピュータにはその他、キーボード、マウス、ディスプレイ、ボタン又はタッチパネル等の入出力手段、等も具備される。これら各構成手段は、バス等により接続され、主制御手段が記憶手段に記憶されたプログラムを実行することで制御される。

候補物体検出部１１０は、入力された物体の山積み画像から複数の検出候補物体を検出する。

検出尤度算出部１２０は、候補物体検出部１１０によって検出された各々の検出候補物体について検出尤度の算出を行う。検出尤度は、検出候補物体上の複数の局所領域における検出処理に用いた投票先情報に基づいて算出される。

検出信頼度算出部１３０は、検出尤度算出部１２０で求めた検出尤度の分布に基づいて各々の検出候補物体の検出信頼度を算出する。

以下でそれぞれの処理の流れについて詳細に説明する。

候補物体検出部１１０は、撮像された山積み物体画像から複数の検出候補物体を検出する。本実施形態においては公知の技術であるＲａｎｄｏｍｉｚｅｄＴｒｅｅを用いて検出候補物体の位置姿勢を求める。

ＲａｎｄｏｍｉｚｅｄＴｒｅｅの学習過程では、分類木（決定木）の各ノードごとに、ランダムに２点を選択し、学習画像におけるその２点の画素値の大小関係を比較して比較結果に応じて分岐することで、その学習画像を分類木の末端ノードである各リーフに分類する。これらの分類木をＴ本（Ｔは２以上の定数）作成することで、学習画像を分類する分類木集合を作成する。

検出過程では、入力画像における複数の局所領域において学習時に作成した分類木集合を用いて分類を行い、それらの結果を統合することで、対象物体の検出を行う。

学習過程では、検出対象物体における複数の異なる姿勢画像群をあらかじめ用意しておく。姿勢画像群における各画像はそれぞれの画像内に表示されている物体の基準位置、物体の姿勢情報などを情報として保持している。

これらは任意の形式で保持することが可能であり、例えば物体の基準位置は、画像中の物体の中心位置座標で、物体の姿勢情報は、回転行列で表現される。

図２（ａ）に、用意された画像群の中の１枚である、検出対象物体が描画された画像２００を示す。画像２００は、姿勢Ａである検出対象物体が１つ描画されており、物体の基準位置座標（Ｘ，Ｙ），物体の姿勢情報Ａを持っている。

学習過程における学習画像としては、検出対象物体における複数の異なる姿勢画像群に含まれる全ての画像から抽出した複数の部分画像を用いる。ここで用いる部分画像は、抽出元の画像に含まれる検出対象物体の基準位置からのオフセット情報、および抽出元の画像に含まれる検出対象物体の姿勢情報を持っているものとする。

オフセット情報は、例えば物体の基準位置座標と、部分画像の中心位置座標との差分で表現することができる。

図２（ｂ）に画像２００から抽出した３つの部分画像２１０，２２０，２３０の例を示す。ここで、各部分画像の中心位置座標を（ｘ１、ｙ１）、（ｘ２、ｙ２）、（ｘ３、ｙ３）とすると、それぞれの部分画像が持つ検出対象物体の中心位置からのオフセット情報は（Ｘ−ｘ１、Ｙ−ｙ１）、（Ｘ−ｘ２、Ｙ−ｙ２）、（Ｘ−ｘ３、Ｙ−ｙ３）となる。

また、各部分画像は、全て画像２００に描画された姿勢Ａである検出対象物体を含む領域であるため、各部分画像が持つ姿勢情報はＡとなる。これらの学習画像を用いて分類木集合を作成する。

図２（ｃ）に、部分画像２１０、２２０、２３０が、各分類木において分類木の末端ノードである各リーフに分類されている様子を示す。分類木ｔ１においては部分画像２１０、２２０、２３０が異なるリーフ１１、１２、１３に分類されている。

また、分類木ｔ２においては、各ノードでの参照点が分類木ｔ１と異なるため、各部分画像も分類木ｔ１とは異なるリーフへ分類されており、部分画像２１０がリーフ２２へ、部分画像２２０がリーフ２３へ、部分画像２３０がリーフ２１へそれぞれ分類されている。

分類木ｔ３では、部分画像２１０と部分画像２２０が同一のリーフ３１へ分類され、部分画像２３０だけがリーフ３２に分類されている。

このように、リーフによっては複数の学習画像が格納されるリーフもあり、逆に１つも学習画像が格納されないリーフも存在する。全ての部分画像をＴ本の分類木において各リーフに分類して、分類木集合を作成する。検出に用いる学習辞書３１０２には、各々の分類木における各ノードで比較する参照点の座標情報、および各リーフに格納された学習画像集合情報が含まれる。

候補物体検出部１１０における複数の候補物体の検出処理について図３に示すフローチャートおよび図４に示す模式図を用いて説明する。

図４（ａ）に山積みされた対象物体を撮像した入力画像の一部を示す。図４（ａ）において、物体ＷＡと物体ＷＢが重なりあっており、物体ＷＡの一部が、物体ＷＢによって隠されている。また、物体ＷＢの一部は、画像外に見切れている。このときの物体ＷＡの姿勢情報をＡとし、図４（ａ）の画像からの検出候補物体の検出を例として説明する。

（ステップＳ３０１）
ステップＳ３０１では、候補物体検出部１１０は、検出対象物体が含まれる入力画像３１０１に対して、分類対象点（計測領域）を設定する。ここで設定する分類対象点は、入力画像上の全ての画素であることが望ましいが、計算量削減のためサンプリングを行ってもよい。また分類対象点は、複数の画素からなる領域であってもよい。

設定する各々の分類対象点における投票結果を用いて、検出尤度算出部１２０で、各々の局所領域における検出尤度が算出される。説明を簡単にするため、図４（ａ）に示す分類対象点４１１、および４１２についてのみ説明する。

（ステップＳ３０２）
ステップＳ３０２では、学習辞書３１０２を用いて、ステップＳ３０１で設定した全ての分類対象点を、分類木集合の各リーフに分類する。図２（ｃ）に示す分類木ｔ１、ｔ２、ｔ３における分類対象点４１１および、４１２についての分類結果を図４（ｂ）に示す。

分類対象点４１１は、図２における部分画像２１０に類似しているため、各分類木では部分画像２１０が属するリーフである、リーフ１１、リーフ２２、リーフ３１にそれぞれ分類されている。

一方、分類対象点４１２は、図２における部分画像２２０に類似しているため、分類木ｔ１では部分画像２２０が属するリーフ１２に分類されているが、分類木ｔ２では、誤って部分画像２２０が属するリーフ２３とは異なるリーフ２１に分類されている。また、分類木ｔ３では部分画像２１０と部分画像２２０が同一のリーフ３１に分類されているため、分類対象点４１２も分類対象点４１１と同じリーフへと分類されている。

（ステップＳ３０３）
ステップＳ３０３では、各分類対象点はそれぞれの分類木で分類されたリーフに含まれる学習画像が持つオフセット位置へ姿勢情報の投票を行う（推定）。

各分類木のリーフに含まれる学習画像は、自分が属する画像に含まれる検出対象物体の姿勢情報および検出対象物体の基準位置からのオフセット情報を持っている。

そのため、この投票処理により、ある姿勢の対象物体が存在する基準位置には。その姿勢の画像に含まれる部分画像からの投票が集中することが期待される。

図２（ｂ）に示す結果を受けて分類対象点４１１、４１２が投票を行う様子を図４（ｃ）に示す。

分類木ｔ１に基づく投票では、分類対象点４１１、４１２がそれぞれ部分画像２１０、２２０の持つオフセット情報と姿勢情報とに基づき、物体基準点４１３上へ姿勢情報Ａを投票している。

分類木ｔ２に基づく投票では、分類対象点４１１は、物体基準点４１３へ姿勢情報Ａを投票しているが、分類対象点４１２はリーフ２１に属する部分画像２３０の情報を参照するため、異なる点４１４へ姿勢情報Ａを投票している。

また、分類木ｔ３に基づく投票では、いずれの分類対象点もリーフ３１に属する部分画像２１０、２２０の情報を参照して投票する。そのため、分類対象点４１１は、物体基準点４１３および点４１５へ、分類対象点４１２は、物体基準点４１３および点４１６へと、それぞれの分類対象点が２か所へ姿勢情報Ａを投票する。

このように全ての分類対象点がＴ本の分類木ごとに投票処理を実行する。

（ステップＳ３０４）
ステップＳ３０４では入力画像内の各画素への投票を調べ、投票数が多い画素を検出候補物体の検出位置、投票された姿勢情報をその検出候補物体の姿勢とし、検出候補物体の位置姿勢の情報を出力する。

例えば、図４（ｃ）では、物体基準点４１３へ姿勢情報Ａが５票、点４１４、４１５、４１６へ姿勢情報Ａが１票ずつ投票されているので、投票数の多い基準点４１３の位置に姿勢Ａの物体が検出（特定）される。

なお、出力する検出候補物体の数は１つでなくともよく、出力個数は数で定めてもよいし各画素における投票数で閾値を切ってもかまわない。

これらの処理により、入力画像から複数の検出候補物体の位置姿勢を取得することができる。なお、候補物体検出部１１０における検出手法はＲａｎｄｏｍｉｚｅｄＴｒｅｅに限る必要はなく、既存の任意の検出手法を用いて検出候補物体を検出することが可能である。

次に、検出尤度算出部１２０の処理について、図５に示すフローチャート、および図７に示す模式図を用いて説明する。

候補物体検出部１１０では、各分類対象点からの投票に基づき、検出候補物体の位置姿勢を出力した。この場合、検出候補物体に部分的な遮蔽があり、その領域に含まれる分類対象点からの投票がない場合でも、他の分類対象点からの投票が多い場合は検出候補物体として検出されることが起こりうる。

本発明では、検出された検出候補物体に対して再度異なる指標で評価することで、物体の領域全体から、投票されている検出候補物体を優先的に提示する。

検出尤度算出部１２０は、候補物体検出部１１０で検出された全ての検出候補物体に対して以下のステップＳ５０１〜Ｓ５０３の処理を実行する。

ここでは、具体的な処理の一例を示すため図４（ａ）に示す入力画像３１０１において、物体ＷＡの姿勢情報をＡ、物体ＷＢの姿勢情報をＢ、その他の物体の姿勢情報をＣ，Ｄとして、物体ＷＡが検出候補物体として検出された場合について説明する。

（ステップＳ５０１）
まず、ステップＳ５０１で、検出候補物体に対して分割部分領域情報を設定する。なお、分割部分領域情報は、検出候補物体を検出した後に、それぞれの検出候補物体に対応するあらかじめ用意された姿勢画像に対して設定してもよい。また、あらかじめ用意された検出対象物体における複数の異なる姿勢画像全てに対して事前に設定しておいてもよい。

分割部分領域は、各姿勢画像における検出対象物体が存在する領域を全て網羅するように設定され、かつ、全ての姿勢の物体における分割部分領域数は同程度であることが望ましい。

図６に、あらかじめ用意された複数の姿勢画像に対して作成した分割部分領域の例を示す。図６では、姿勢の異なる物体６１０、６２０、６３０、６４０について、グリッド状の矩形領域に分割している。

なお、ここでは全ての姿勢の物体を３０前後の矩形領域に分割するように設定されており、物体６１０、６３０は３０個、物体６２０、６４０は３３個の矩形領域に分割されている。

各姿勢の物体ごとに矩形領域のサイズを変動することで、各々の姿勢の物体を、同数程度の矩形領域数に分割している。そして、各姿勢の物体ごとの分割部分領域情報には、各姿勢における分割部分領域の分割数、分割部分領域サイズ、各分割部分領域の位置座標情報が含まれる。

なお、分割部分領域の分割の仕方は、矩形領域分割に限るものではなく、各姿勢の物体の表層全域を網羅するような分割であれば任意の分割を行ってかまわない。

更に、図４（ａ）に示す入力画像３１０１において検出された検出候補物体ＷＡに、分割部分領域を設定する様子を図７（ａ）に示す。物体ＷＡの姿勢に対応する物体である物体６１０に対して設定された、分割部分領域を適用することで、物体ＷＡの分割部分領域として２×２画素の３０個の正方領域が設定される。

（ステップＳ５０２）
ステップＳ５０２では、候補物体検出部１１０における、ステップＳ３０３で行った投票結果を参照し、各分類対象点の投票先情報として、それぞれの分類対象点が投票した姿勢情報を取得する。

この姿勢情報と検出候補物体の姿勢とが一致している分類対象点は、検出候補物体の表層上の点である確率が高いと言える。

逆に姿勢情報と検出候補物体の姿勢とが異なる分類対象点は、この物体の検出に寄与しておらず、他の物体と重なっている、照明がきちんとあたっていないなど、何らかの原因で検出候補物体が適切に見えていない点である可能性が高い。

ステップＳ５０２における物体ＷＡの分割部分領域上の各分類対象点が投票した姿勢情報の取得結果の模式図を、図７（ｂ）に示す。なお、ここでは分類対象点は入力画像上のすべての画素としている。

簡単のため、入力画像３１０１の一部の領域７００における各分類対象点が投票した姿勢情報を分類対象点上に表記する。

例えば物体ＷＡ上の分類対象点７０３、７０４は、物体ＷＡの姿勢情報であるＡに正しく投票していることが分かる。同様に物体ＷＢ上の分類対象点である７０５は物体ＷＢの姿勢情報であるＢに正しく投票している。

また、分類対象点７０１、７０２は、物体ＷＡ上の点であるが、誤った姿勢情報Ｃ、Ｄへ投票してしまっている。このように、物体ＷＡの分割部分領域上の全ての分類対象点における姿勢情報を取得する。

（ステップＳ５０３）
ステップＳ５０３では、ステップＳ５０１で設定した分割部分領域ごとに、ステップＳ５０２で取得した各分類対象点における姿勢情報を参照する。そして、分割部分領域内における検出された姿勢への投票の有無に応じて、各分割部分領域の検出寄与度として、０、または１を設定する。

ステップＳ５０３において、分割部分領域内の姿勢Ａへの投票の有無に応じて、各分割部分領域の検出寄与度を設定した結果を示す模式図を、図７（ｃ）に示す。姿勢Ａへの投票が存在する分割部分領域の検出寄与度を１、Ａへの投票が１つも存在しない分割部分領域の検出寄与度を０に設定している。

例えば分割部分領域７２０の領域内に存在する４つの分類参照点は、図７（ｂ）を参照すると全てＡに投票されている。また分割部分領域７３０の領域内における４つの分類参照点は２つが正しくＡに投票しており２つは誤った姿勢情報Ｂ，Ｄへ投票している。

しかし、いずれの場合も、分割部分領域内にＡに投票した分類対象点が少なくとも１つ存在するため、分割部分領域７２０、７３０の検出寄与度は１に設定されている。

一方、分割部分領域７１０、７４０の領域内における４つの分類参照点の投票先には、Ａに投票された点が１つも存在しない。そのため、分割部分領域７１０、７４０の検出寄与度は０に設定されている。

本実施形態においては、０、１の値が設定された検出寄与度を各分割部分領域における部分領域検出尤度とする。

検出尤度算出部１２０では、既に位置姿勢が検出された対象物体に対して、各部分領域がその物体の検出に寄与しているか否かを調べている。そのため、正しい姿勢情報への投票総数は関係なく、その部分領域内部に正しい姿勢情報への投票が１つでも存在するかどうかだけを探索し、各部分領域における部分領域検出尤度を算出している。

なお、正しい姿勢情報への投票数は１つに限定する必要はなく、分割部分領域内部の正しい姿勢への投票数がある閾値以上のときの検出寄与度を１としてもよい。

最後に、検出信頼度算出部１３０の処理について説明する。検出信頼度算出部１３０は、候補物体検出部１１０で検出された全ての検出候補物体に対して、それぞれの物体の検出信頼度を算出する。

検出信頼度は、候補物体検出部１１０で検出された検出候補物体のうち物体の領域全体からまんべんなく投票されている物体を、優先的に選択するための指標である。

検出尤度算出部１２０では、物体領域を複数の部分領域に分割し各部分領域における正しい姿勢への投票の有無を検出尤度として算出した。すなわち、正しい姿勢への投票が存在する分割部分領域の数が多いほど、多くの物体領域から投票されていることになる。

そこで、本実施形態では、検出信頼度は、検出尤度算出部１２０で算出した各分割部分領域における部分領域検出尤度を加算して得られた総和に基づいて算出する。

分割部分領域の総数をＮ、分割部分領域ｉにおける部分領域検出尤度をＰｉとすると、検出信頼度Ｅの算出式は下記のように表わせる。

このとき、例えば図７に示す物体ＷＡの検出信頼度は、２２（部分領域検出尤度の総和）／３０（総分割部分領域数）＝０．７３となる。ただし、検出信頼度の算出方法は、式１に限るものではなく、他の統計的指標を用いてもよい。

更に、全ての検出候補物体に対して同様の処理を実行し、各々の検出候補物体の検出信頼度を算出する。

情報処理装置１００は、検出信頼度算出部１３０で算出した検出信頼度を用いて、検出された検出候補物体の中から検出信頼度が高い物体を優先的にピッキング対象物体として提示することができる。

本実施形態では、候補物体検出部１１０で、局所領域からの投票処理を含むＲａｎｄｏｍｉｚｅｄＴｒｅｅを利用した検出手法を用いて、検出候補物体を検出する。検出尤度算出部１２０ではこれらの投票結果を用いて、検出尤度を設定し再評価することで高速に検出信頼度の算出を行っている。

候補物体検出処理を行う際には、局所領域の情報を用いて検出を行うことで、対象物体の部分的な隠蔽や、照明方向などの要因による部分的な悪条件に対して、ロバストな検出を行うことができる。

さらに、検出尤度算出処理により検出候補のうち着目物体以外の他の物体による部分的な隠蔽や照明方向などの要因による部分的な悪条件が少ない候補物体を算出することもできる。

また、本実施形態では、分類対象点を含む部分分割領域を設定し、該部分分割設定領域ごとに検出尤度を算出（導出）したが、これに限られるものではない。例えば、部分分割設定領域を設定せずに、分類対象点に検出尤度を設定してもよい。その場合は、部分分割領域を設定する場合よりも、信頼度への局所的な投票の情報の寄与が大きくなるため、物体表面が全体的に見えているかを評価することは困難になるが、処理を簡易的に行うことができる。

なお、本実施形態では、ＲａｎｄｏｍｉｚｅｄＴｒｅｅを用いた検出について説明した。もっとも、候補物体検出部１１０における検出手法は、既存の任意の検出手法を用いて候補物体検出を行うことが可能であり、候補物体検出部１１０で用いた検出手法に応じて検出尤度算出部１２０における分割部分領域ごとの検出尤度の算出手法が選択される。

例えば、候補物体検出部１１０において、テンプレートマッチングで候補物体を検出する場合は次のように処理が行われる。

まず、検出尤度算出部１２０においては、作成した分割部分領域ごとに再度テンプレートマッチングを行い、あらかじめ用意された検出候補物体の姿勢画像と一致した分割部分領域の部分領域検出尤度を１に設定する。そして、一致しなかった分割部分領域の部分領域検出尤度を０に設定する。そして、検出信頼度算出部１３０において、部分領域検出尤度に基づいて検出信頼度を算出することができる。

以上のように本実施形態によれば、検出された複数の物体に対して物体の領域全体が適切に見えている物体を優先的に選択することが可能となる。

また、本発明は物体の検出以外にも適用可能であることは言うまでもなく、例えば撮影した画像中に複数の人物が存在するときに全身が写っている人物を優先的に検出することができる。

（第２の実施形態）
本発明における第２の実施形態について説明する。本実施形態においては、局所領域からの投票において、投票先に応じた重みづけを行うことで特徴のない領域からの投票結果を有効に利用し、検出信頼度の精度を向上させることが可能となる。

本実施形態における構成および候補物体検出部１１０における動作は第１の実施形態と同様であるため、説明を割愛する。

本実施形態における検出尤度算出部１２０の処理の流れについて、図８に示すフローチャート、および図９に示す模式図を用いて説明する。

検出尤度算出部１２０は、候補物体検出部１１０で検出された全ての検出候補物体に対して、以下のステップＳ８０１〜Ｓ８０３の処理を実行する。ここでは、具体的な処理の一例を示すため、図４（ａ）に示す入力画像３１０１において、物体ＷＡの姿勢情報をＡ、物体ＷＢの姿勢情報をＢ、その他の物体の姿勢情報をＣ、Ｄとして、物体ＷＡが検出候補物体として検出された場合について述べる。

（ステップＳ８０１）
ステップＳ８０１では、検出候補物体に対して分割部分領域情報を設定する。ここでの処理は、第１の実施形態におけるステップＳ５０１の処理と同様である。

図４（ａ）に示す画像を入力として受け取った場合、第１の実施形態で示した図７（ａ）と同様に、あらかじめ用意された姿勢Ａの物体の画像を用いて、物体ＷＡ上の領域を２×２画素の３０個の正方領域に分割し、物体ＷＡの分割部分領域として設定する。ただし、ここであらかじめ分割部分領域に対して重みづけを行っておいてもよい。

例えば、あらかじめ用意された検出対象物体における複数の異なる姿勢画像に対して、それぞれエッジ抽出処理を行い、エッジが存在する分割部分領域の部分領域検出尤度に対して部分領域重みを１に設定する。そして、エッジが存在しない分割部分領域の部分領域検出尤度に対して部分領域重みをαに設定する。

αには０＜α＜１０の任意の値を設定することができる。図７（ａ）に示す分割部分領域に対して部分領域重みを設定した結果について図９（ａ）に示す。

（ステップＳ８０２）
ステップＳ８０２の処理については、第１の実施形態におけるステップＳ５０２と同様に、検出対象物体上の各分類対象点が投票した姿勢情報を取得する。

ところで、分類対象点における投票先には、正しい姿勢情報への投票、誤った姿勢情報への投票、投票がされていない場合の３種類があり得る。

投票がされていない分類対象点としては、分類対象点が特徴のない（例えばテクスチャのない均一な平面上の）点であるため、分類されたリーフに学習画像が存在しない場合がある。

また、検出候補物体の一部が画像外に出ており、分割部分領域内の分類対象点が、入力画像上に存在しない場合なども挙げられる。本実施形態では、この投票がされていない分類対象点に着目する。

物体ＷＡ上の各分類対象点が投票した姿勢情報の取得結果の模式図を図９（ｂ）に示す。

なお、ここでは分類対象点は入力画像上のすべての画素としている。簡単のため、入力画像３１０１の一部の領域９００における各分類対象点が投票した姿勢情報を、分類対象点上に表記し、投票がなされていない分類対象点は空白としている。

例えば、分類対象点９０１、９０２などが、投票のされていない分類対象点である。このように、物体ＷＡの分割部分領域上の全ての分類対象点における姿勢情報を取得する。

（ステップＳ８０３）
ステップＳ８０３では、投票先情報に応じて各分割部分領域の部分領域検出尤度を設定する処理を行う。第１の実施形態では正しい姿勢情報へ投票した分類対象点の有無にのみ着目して部分領域検出尤度を設定した。

しかし、投票のなされていない分類対象点は、物体の検出には寄与していないものの、誤った姿勢情報に投票されている分類対象点と比較すると、検出候補物体上の点である可能性が高い。

そこで、ステップＳ８０３では、分割部分領域内に１つでも正しい姿勢情報へ投票した分類対象点が存在する場合の部分領域検出尤度を１に設定する。

そして、正しい姿勢情報への投票がなく、かつ、１つでも誤った姿勢情報への投票した分類対象点が存在する場合の部分領域検出尤度を０と設定する。

そして、部分領域内の全ての分類対象点が投票をしていない場合の部分領域検出尤度をβとし、全ての分割部分領域に部分領域検出尤度を設定する。βには０＜β＜１０の値域である任意の値を設定することができる。

更に、ステップＳ８０１で、設定した分割部分領域に事前に部分領域重みを設定した場合、それらの部分領域重みとステップＳ８０３で設定した各分割部分領域における部分領域検出尤度とを統合した結果が、各分割部分領域における部分領域検出尤度となる。

ステップＳ８０３において各分割部分領域内の投票先情報に基づいて設定された部分領域検出尤度の結果を示す模式図を図９（ｃ）に示す。

正しい姿勢情報であるＡへの投票が存在する分割部分領域９２０、９３０の部分領域検出尤度は１が設定されており、Ａへの投票が存在せず、かつ、誤った姿勢情報への投票がされている分割部分領域９４０の部分領域検出尤度には０が設定されている。

部分領域内の分類投票点がいずれも投票されていない点である分割部分領域９１０は部分領域検出尤度にβが設定されている。

図９（ｃ）で設定された部分領域検出尤度に対して、図９（ａ）で設定した部分領域重みと統合した結果を、図９（ｄ）に示す。部分領域検出尤度に対して部分領域重みをかけ合わせた結果が最終的に各々の分割部分領域に設定された部分領域検出尤度となる。

例えば、分割部分領域９１０は部分領域重みとしてα、部分領域検出尤度としてβが設定されているので、最終的に分割部分領域９１０に設定された部分領域検出尤度はα×β＝αβとなる。

検出信頼度算出部１３０は、候補物体検出部１１０で検出された全ての検出候補物体に対してそれぞれの物体の検出信頼度を算出する。本実施形態では、検出信頼度は、第１の実施形態と同様に、検出尤度算出部１２０で算出した各分割部分領域における部分領域検出尤度の総和に基づいて算出する。

例えばα＝０．８、β＝０．５とすると図９に示す物体ＷＡの検出信頼度は２２．４（部分領域検出尤度の総和）／３０（総分割部分領域数）＝０．７４７となる。

また、検出候補物体の一部が画像外に出ており、分割部分領域が、入力画像上に存在しない場合には、入力画像外にある分割部分領域は総分割部分領域に含まないようにすることもできる。これにより、信頼度を不当に低くすることを防ぐことができる。また、入力画像外にある分割部分領域に対して、重みづけ（例えば、０．５など）をすることもできる。これにより、入力画像から見切れている物体の信頼度を、表面が見えている物体の次に高くすることができるため、検出物体の優先度付けを行うことができる。

本実施形態においては、分割部分領域に対して投票先情報に応じた部分領域検出尤度の設定を行い、検出の阻害をしない分類対象点の投票結果を検出信頼度の算出に含めることで、検出信頼度の精度を高めることが可能となる。

（第３の実施形態）
本発明における第３の実施形態について説明する。

第１、第２の実施形態においては部分領域検出尤度の総和に基づいて検出信頼度を算出していた。図１０（ａ）に示す入力画像１０１０から対象ワークＷＡ、ＷＢが検出されたような場合、第１の実施形態においては他のワークが重なっている領域の面積が同一であるときには検出信頼度が等しくなる可能性が高い。しかし、実際にはワークの重なり位置によって優先的に検出したいワークが存在する。例えば、ワークの中心付近に重なりが存在するワークＷＢよりワークの端領域が隠れているワークＷＡを選択した方が、ピッキング時の崩れによる影響が小さい。

本実施形態では、正しい姿勢情報への投票が存在する分割部分領域の分布状態に基づいて検出信頼度を求め、適切な候補物体を算出する。

本実施形態における構成および候補物体検出部１１０、検出尤度算出部１２０における動作は、第１の実施形態、あるいは第２の実施形態と同様であるため、説明を割愛する。本実施形態における検出信頼度算出部１３０は、候補物体検出部１１０で検出された全ての検出候補ワークに対して、検出尤度算出部１２０から検出候補ワークにおける各分割部分領域の検出尤度を受け取る。図１０（ｂ）に、それぞれ入力画像１０１０における検出候補ワークＷＡ、ＷＢの検出尤度を示す。

本実施形態における、検出信頼度算出部１３０の処理の流れについて、図１１に示すフローチャートを用いて説明する。

検出尤度算出部１３０は、候補物体検出部１１０で検出された全ての検出候補物体に対して、以下のステップＳ１１０１〜Ｓ１１０２の処理を実行する。

（ステップＳ１１０１）
ステップＳ１１０１では、検出尤度算出部１２０で算出した各分割部分領域における投票先情報に基づき、分割部分領域の分布状態を評価する。本実施形態では、分布情報として各分割部分領域の相対座標情報と部分領域検出尤度情報を持つものとする。例えば図１０（ｂ）に示す入力画像１０１０において、分割部分領域１００１の位置をワークＷＡの基準点とすると、分割部分領域１００１は相対座標情報（０，０）と検出尤度情報１を、分割部分領域１００２は相対座標情報（３，２）と検出尤度情報０を持つ。

例えば図１０（ｂ）に示す入力画像１０１０において、分割部分領域１００１の位置をワークＷＡの基準点とすると、分割部分領域１００１は相対座標情報（０，０）と検出尤度情報１を、分割部分領域１００２は相対座標情報（３，２）と検出尤度情報０を持つ。

このときの分割部分領域分布状態の評価値として式２に示す指標Ｖを用いる。

ただし、部分領域検出尤度情報が１である分割部分領域の総数をＮ、部分領域検出尤度情報が１である分割部分領域ｉ（

）の相対座標情報を（ｘ_ｉ、ｙ_ｉ）、部分領域検出尤度情報が１である分割部分領域の平均座標を（

、

）としたとき、

である。評価値Ｖのスコアは、正解投票が存在する分割部分領域が候補ワークの中心付近に多いときに高くなる。図１０（ｃ）にワークＷＡとワークＷＢの分布状態の評価結果について示す。

なお、本実施形態では分布状態の評価に式２に示す評価値を用いたが、本発明においてはこれに限るものではなく、分布状態の評価には任意の統計量を用いることが可能である。例えば、ワークのピッキングにおいて、姿勢ごとにピッキングポイントが定められている場合には式３、式４における平均座標を定められたピッキングポイントの相対座標に変更することで、ピッキングポイント周辺の遮蔽が少ないワークを優先的に選択することができる。

（ステップＳ１１０２）
ステップＳ１１０２では、ステップＳ１００１で算出した分布情報と検出候補物体の正解分布情報とに基づき、検出信頼度を算出する。

分布基準値は、検出候補ワークの姿勢に対応するあらかじめ用意されたワークの画像に対して入力画像と同様の処理を行い算出する。具体的には、候補物体検出部１１０へあらかじめ用意されたワーク画像を入力して、ステップＳ３０１において分類対象点を設定し、ステップＳ３０２において学習辞書３１０２を用いて各分類対象点に対して分類処理を行う。次に検出尤度算出部１２０で、あらかじめ用意されたワーク画像に対して分割部分領域の設定および分割部分領域内の分類対象点が投票した姿勢情報の探索を行い、各分割部分領域の検出尤度を算出する。ここで設定される分割部分領域は入力画像において検出された検出候補ワークに設定された分割部分領域と同一の数・配置となる。図１２（ａ）にワークＷＡ、ＷＢに対応する姿勢のあらかじめ用意されたワーク画像１２１０を、図１２（ｂ）にワーク画像１２１０に対して算出した検出尤度を示す。

あらかじめ用意されたワーク画像における算出された部分領域検出尤度に基づき、検出信頼度算出部１３０におけるステップＳ１１０１において分布状態の評価を行い、算出された評価値を分布基準値として設定する。なお、分布基準値は、検出候補ワークを求めた後に、求めた検出候補ワークの姿勢に対応するワーク画像に対して算出してもよいし、あらかじめ全ての用意されたワーク画像に対して分布基準値を算出しておいてもよい。図１２（ｃ）に、ワークＷＡ、ＷＢに対応する姿勢のあらかじめ用意されたワーク画像における分布基準値を示す。

分布基準値とステップＳ１１０１で算出した検出候補ワークにおける評価値を用いて検出された全ての候補ワークの検出信頼度を算出する。分布基準値Ｖ_Ｌ、検出候補ワークの評価値Ｖとすると検出信頼度Ｅは式５で表わされる。

例えば、図１０における検出候補ワークＷＡ、ＷＢの検出信頼度Ｅ_ＷＡ、Ｅ_ＷＢはそれぞれ

となる。なお、検出信頼度は、式５の算出法に限定されず、分布基準値と検出候補ワークにおける分布状態の評価値を比較する任意の手法で算出することができる。

本実施形態においては、正しい姿勢情報への投票が存在する分割部分領域の分布状態に基づいて検出信頼度を求めることで、候補ワークの遮蔽領域の位置を考慮したワークの選択を行うことが可能となる。

（その他の実施形態）
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態
の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介し
てシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵや
ＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

複数の検出候補物体を含む画像を入力する入力手段と、
前記複数の検出候補物体に設定される計測領域ごとに、前記検出候補物体の姿勢を推定する推定手段と、
前記計測領域ごとに推定される検出候補物体の姿勢に基づいて、該検出候補物体の姿勢を特定する特定手段と、
前記計測領域ごとに推定される検出候補物体の姿勢と前記特定される検出候補物体の姿勢との対応に基づいて、前記複数の検出候補物体から検出するべき物体を決定する決定手段とを備えることを特徴とする情報処理装置。
前記決定手段は、更に、前記計測領域ごとに推定される前記検出候補物体の姿勢と前記特定される検出候補物体の姿勢との対応に基づいて、前記特定される検出候補物体の姿勢に対する信頼度を導出する導出手段とを備え、
前記導出される信頼度に基づいて、前記複数の検出候補物体から検出するべき物体を決定することを特徴とする情報処理装置。
更に、前記導出手段は、前記計測領域ごとに推定される前記検出候補物体の姿勢と前記特定される前記検出候補物体の姿勢との対応に基づいて、前記計測領域ごとに推定される前記検出候補物体の姿勢に対する尤度を前記計測領域または前記計測領域を含む領域ごとに導出し、該導出される尤度に基づいて前記信頼度を導出することを特徴とする請求項２に記載の情報処理装置。
前記導出手段は、前記計測領域または前記計測領域を含む領域ごとに導出される尤度を加算し、該加算された尤度に基づいて前記信頼度を導出することを特徴とする請求項３に記載の情報処理装置。
前記導出手段は、前記計測領域または前記計測領域を含む領域の前記物体上における位置に応じて、前記尤度の導出に重みづけを行うことを特徴とする請求項３または４のいずれか１項に記載の情報処理装置。
前記重みづけは、前記計測領域または前記計測領域を含む領域が、前記物体のエッジが存在する領域であった場合、前記物体のエッジが存在しない領域であった場合よりも重みを大きくすることにより行われることを特徴とする請求項５に記載の情報処理装置。
前記導出手段は、
更に、前記導出される尤度の分布を評価する評価手段を備え、
前記決定手段は、前記信頼度と前記尤度の分布とのうち少なくともいずれか一方に基づいて、前記複数の検出候補物体から検出するべき物体を決定することを特徴とする請求項３乃至６のいずれか１項に記載の情報処理装置。
前記推定手段は、テンプレートマッチングまたは決定木により前記検出候補物体の姿勢を推定することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記信頼度は、前記検出候補物体が遮蔽されていないことを示す指標であることを特徴とする請求項２乃至８のいずれか１項に記載の情報処理装置。
物体を含む画像を入力する入力手段と、
前記物体上の領域に複数の計測領域を設定する設定手段と、
前記設定される計測領域ごとに、前記物体の姿勢を推定する推定手段と、
前記計測領域ごとに推定される物体の姿勢に基づいて、該物体の姿勢を特定する特定手段と、
前記計測領域ごとに推定される物体の姿勢と前記特定される物体の姿勢との対応に基づいて、前記特定される物体の姿勢に対する信頼度を導出する導出手段と、
前記導出される信頼度に基づいて、検出するべき物体を決定する決定手段とを備えることを特徴とする情報処理装置。
前記導出手段は、前記信頼度を複数の物体に対して導出し、
前記決定手段は、前記複数の物体に対して導出された信頼度に基づいて、前記検出するべき物体を決定することを特徴とする請求項１０に記載の情報処理装置。
複数の検出候補物体を含む画像を入力する入力工程と、
前記複数の検出候補物体に設定される計測領域ごとに、前記検出候補物体の姿勢を推定する推定工程と、
前記計測領域ごとに推定される検出候補物体の姿勢に基づいて、該検出候補物体の姿勢を特定する特定工程と、
前記計測領域ごとに推定される検出候補物体の姿勢と前記特定される検出候補物体の姿勢との対応に基づいて、前記複数の検出候補物体から、検出するべき物体を決定する決工程とを備えることを特徴とする情報処理方法。
物体を含む画像を入力する入力工程と、
前記物体上に設定される計測領域ごとに、前記物体の姿勢を推定する推定手段と、
前記計測領域ごとに推定される物体の姿勢に基づいて、該物体の姿勢を特定する特定工程と、
前記計測領域ごとに推定される物体の姿勢と前記特定される物体の姿勢との対応に基づいて、前記特定される物体の姿勢に対する信頼度を導出する導出工程と、
前記導出される信頼度に基づいて、検出するべき物体を決定する決定工程とを備えることを特徴とする情報処理方法。
請求項１２または１３に記載された情報処理方法をコンピュータに実行させるためのプログラム。