JP2008003794A

JP2008003794A - 画像処理装置及び画像処理プログラム

Info

Publication number: JP2008003794A
Application number: JP2006171704A
Authority: JP
Inventors: Akihiro Tsukada; 明宏塚田
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2006-06-21
Filing date: 2006-06-21
Publication date: 2008-01-10

Abstract

【課題】対象物体の姿勢推定における推定精度を向上させることができる画像処理装置及び画像処理プログラムを提供する。
【解決手段】認識対象物体の姿勢を推定するにあたって、まず、物体の撮像画像から物体の領域を抽出し、物体の領域に基づいて物体の初期姿勢を設定する。続いて、初期姿勢設定手段で設定された物体の初期姿勢に対応する領域と領域抽出手段で抽出された物体の領域とを照合し、領域抽出手段で抽出された物体の領域を物体の姿勢推定に用いるかどうかを判断する。
【選択図】図３

Description

本発明は、物体の撮像画像から物体の姿勢を推定する画像処理装置及び画像処理プログラムに関するものである。

この種の画像処理装置としては、例えば非特許文献１に記載されているように、物体の輪郭を用いて姿勢を推定する方法が知られている。
Hendrik P. A. Lensch,et al. "’A Silhouette-Based Algorithm forTexture Registration and Stitching"’, Graphical Models 63.2001,pp.245-262.

ところで、撮像画像の中に物体の一部を遮蔽する遮蔽物が存在していると、撮像画像において１つの物体の領域が複数に分断され、１つの物体が分離した複数の輪郭に対応する場合がある。このような場合、上記非特許文献１に記載の技術では、複数の輪郭のうち、１つの輪郭を用いて物体の姿勢を推定することとなるので、姿勢の推定精度が低下する。

本発明の目的は、物体の姿勢推定における推定精度を向上させることができる画像処理装置及び画像処理プログラムを提供することである。

本発明の画像処理装置は、物体の撮像画像から物体の領域を抽出する領域抽出手段と、物体の領域に基づいて物体の初期姿勢を設定する初期姿勢設定手段と、初期姿勢設定手段で設定された物体の初期姿勢に対応する領域と領域抽出手段で抽出された物体の領域とを照合し、領域抽出手段で抽出された物体の領域を物体の姿勢推定に用いるかどうかを判断する判断手段とを備えることを特徴とする。

撮像画像の中に物体の一部を遮蔽する遮蔽物が存在して、１つの物体の領域が複数に分断される場合がある。その場合、本発明では、領域抽出手段が、物体に対応する分断された領域を含む複数の領域を抽出することとなる。そして、初期姿勢設定手段が、例えば、物体に対応する分断された領域のうち一つの領域に基づいて物体の初期姿勢を設定する。そして、判断手段が、初期姿勢設定手段によって設定した物体の初期姿勢に対応する領域と領域抽出手段によって抽出されると共に物体に対応する分断された領域を含む複数の領域とを照合し、物体に対応する分断された領域を含む複数の領域それぞれについて物体の姿勢推定に用いるかどうかを判断する。このとき、物体に対応する分断された領域を含む複数の領域が物体の初期姿勢に対応する領域と重なる比率が所定値以上であれば、物体に対応する分断された複数の領域を物体の姿勢推定に用いると判断することができる。すなわち、分断された領域を同一物体の領域として統合することができる。よって、物体の姿勢推定における推定精度を向上させることができる。

好ましくは、物体の撮像画像は、異なる視点から物体を撮像して取得された第１画像及び第２画像を含み、領域抽出手段は、第１画像及び第２画像から物体の領域をそれぞれ抽出し、初期姿勢設定手段は、第１画像及び第２画像の何れか一方から抽出された物体の領域に基づいて、物体の初期姿勢を設定し、判断手段は、初期姿勢設定手段で設定された物体の初期姿勢に対応する領域と第１画像及び第２画像の他方から抽出された物体の領域とを照合し、第１画像及び第２画像の他方から抽出された物体の領域を物体の姿勢推定に用いるかどうかを判断する。

この場合、一方の画像から抽出された物体の領域に基づいて設定された物体の初期姿勢に対応する領域と他方の画像から抽出された物体の領域とを照合して判断手段による上記判断を行うので、異なる視点から物体を撮像して取得された第１の画像及び第２の画像を有効活用して上記判断を行うことができる。よって、物体の姿勢推定をより高精度に行うことができる。

好ましくは、第１画像及び第２画像からそれぞれ抽出された物体の領域の信頼度を評価し、第１画像及び第２画像のうち物体の領域の信頼度が高いほうの画像を選択する選択手段を更に備え、初期姿勢設定手段は、選択手段で選択された画像から抽出された物体の領域に基づいて、物体の初期姿勢を設定する。

このように、２つの画像のうち物体の領域の信頼度が高いほうの画像から抽出された物体の領域に基づいて物体の初期姿勢を設定することにより、物体の姿勢推定をより高精度に行うことができる。例えば、２つの画像の何れか一方の画像において物体の領域が分断され、他方の画像において物体の領域が分断されていない場合には、他方の画像における物体の領域の信頼度がより高い。よって、他方の画像における物体の領域に基づいて物体の初期姿勢を設定するので、精度良く初期姿勢を設定することができる。そして、このように精度良く設定された初期姿勢に対応する領域を設定するので、より精度良く上記の照合を行うことができる。すなわち、一方の画像において物体に対応する分断された領域を含む複数の領域それぞれについて物体の姿勢推定に用いるかどうかを、的確に判断をすることができる。よって、一方の画像において分断された領域が１つの物体を示すことを的確に認識できるので、より高精度に姿勢推定を行うことができる。

また、本発明の画像処理プログラムは、物体の撮像画像から物体の領域を抽出する領域抽出ステップと、物体の領域に基づいて物体の初期姿勢を設定する初期姿勢設定ステップと、初期姿勢設定ステップにおいて設定された物体の初期姿勢に対応する領域と領域抽出ステップにおいて抽出された物体の領域とを照合し、領域抽出ステップにおいて抽出された物体の領域を物体の姿勢推定に用いるかどうかを判断する判断ステップと、をコンピュータに実行させることを特徴とする。

撮像画像の中に物体の一部を遮蔽する遮蔽物が存在して、１つの物体の領域が複数に分断される場合がある。その場合、本発明では、領域抽出ステップにおいて、物体に対応する分断された領域を含む複数の領域を抽出することとなる。そして、初期姿勢設定ステップにおいて、例えば、物体に対応する分断された領域のうち一つの領域に基づいて物体の初期姿勢を設定する。そして、判断ステップでは、初期姿勢設定ステップにおいて設定した物体の初期姿勢に対応する領域と領域抽出ステップにおいて抽出されると共に物体に対応する分断された領域を含む複数の領域とを照合し、物体に対応する分断された領域を含む複数の領域それぞれについて物体の姿勢推定に用いるかどうかを判断する。このとき、物体に対応する分断された領域を含む複数の領域が物体の初期姿勢に対応する領域と重なる比率が所定値以上であれば、物体に対応する分断された複数の領域を物体の姿勢推定に用いると判断することができる。すなわち、分断された領域を同一物体の領域として統合することができる。よって、物体の姿勢推定における推定精度を向上させることができる。

好ましくは、物体の撮像画像として、異なる視点から物体を撮像して取得された第１画像及び第２画像を用い、領域抽出ステップでは、第１画像及び第２画像から物体の領域をそれぞれ抽出し、初期姿勢設定ステップでは、第１画像及び第２画像の何れか一方から抽出された物体の領域に基づいて、物体の初期姿勢を設定し、判断ステップでは、初期姿勢設定ステップで設定された物体の初期姿勢に対応する領域と第１画像及び第２画像の他方から抽出された物体の領域とを照合し、第１画像及び第２画像の他方から抽出された物体の領域を物体の姿勢推定に用いるかどうかを判断する。

この場合、一方の画像から抽出された物体の領域に基づいて設定された物体の初期姿勢に対応する領域と他方の画像から抽出された物体の領域とを照合して判断ステップにおける上記判断を行うので、異なる視点から物体を撮像して取得された第１の画像及び第２の画像を有効活用して上記判断を行うことができる。よって、物体の姿勢推定をより高精度に行うことができる。

好ましくは、第１画像及び第２画像からそれぞれ抽出された物体の領域の信頼度を評価し、第１画像及び第２画像のうち物体の領域の信頼度が高いほうの画像を選択する選択ステップを更にコンピュータに実行させ、初期姿勢設定ステップでは、選択ステップで選択された画像から抽出された物体の領域に基づいて、物体の初期姿勢を設定する。

このように、２つの画像のうち物体の領域の信頼度が高いほうの画像から抽出された物体の領域に基づいて物体の初期姿勢を設定することにより、物体の姿勢推定をより高精度に行うことができる。例えば、２つの画像の何れか一方の画像において物体の領域が分断され、他方の画像において物体の領域が分断されていない場合には、他方の画像における物体の領域の信頼度がより高い。よって、他方の画像における物体の領域に基づいて物体の初期姿勢を設定するので精度良く初期姿勢を設定することができる。そして、このように精度良く設定された初期姿勢に対応する領域を設定するので、より精度良く上記の照合を行うことができる。すなわち、一方の画像において物体に対応する分断された領域を含む複数の領域それぞれについて物体の姿勢推定に用いるかどうかを、的確に判断をすることができる。よって、一方の画像において分断された領域が１つの物体を示すことを的確に認識できるので、より高精度に姿勢推定を行うことができる。

本発明によれば、対象物体を撮像した画像から物体の姿勢を推定する際に、推定精度を向上させることができる。

以下、本発明に係わる画像処理装置及び画像処理プログラムの好適な実施形態について、図面を参照して詳細に説明する。

図１は、本発明に係わる画像処理装置の一実施形態の構成を示すブロック図である。本実施形態の画像処理装置１は、例えば認識対象物体として急須やマグカップ等の取っ手付き容器を把持するロボット（図示せず）に搭載されるものである。

同図において、画像処理装置１は、認識対象物体を撮像するカメラ２Ａ，２Ｂと、これらのカメラ２Ａ，２Ｂによる撮像画像を入力し、所定の画像処理を行い、認識対象物体の姿勢を推定する画像処理部３と、この画像処理部３の処理結果を表示するモニタ部４と、画像処理部３による画像処理に使用されるデータベースを蓄積記憶するデータ格納部５とを備えている。

カメラ２Ａ，２Ｂは、例えばＣＣＤカメラであり、ロボットの両眼部（図示せず）に設けられている。つまり、カメラ２Ａ，２Ｂは異なる２つの視点から物体を撮像するように配置されている。

画像処理部３は、物体認識処理に特化した専用のハードウェアとして構成されていても良いし、あるいは、パーソナルコンピュータ等の汎用のコンピュータを用い、このコンピュータにソフトウェアとしての画像処理プログラムを実行させても良い。このとき、画像処理プログラムは、例えば、ＣＤ−ＲＯＭ、ＤＶＤもしくはＲＯＭ等の記憶媒体または半導体メモリによって提供される。また、画像処理プログラムは、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されるものであってもよい。

また、画像処理部３の処理結果は、把持制御処理部６に送られる。把持制御処理部６は、画像処理部３で推定された認識対象物体の姿勢に基づいて、認識対象物体を把持するようにロボットハンド（図示せず）を制御する。

図２，図３は、画像処理部３による処理手順の概略を示すフローチャートである。まず、カメラ２Ａ，２Ｂによる撮像画像を取得する（ステップ１１）。カメラ２Ａ，２Ｂによる撮像画像の一例を図４に示す。図４（ａ）は、ロボットの左眼部に配置されたカメラ２Ａによる撮像画像（左画像）の概略を示し、図４（ｂ）は、ロボットの右眼部に配置されたカメラ２Ｂによる撮像画像（右画像）の概略を示している。

続いて、ステップ１１で取得した左画像及び右画像について、濃度値が一様とみなせる物体毎の領域に分割する（ステップ１２）。また、ステップ１２の領域分割処理と並行して、２次元の左画像及び右画像から３次元画像を復元する（ステップ１３）。この３次元画像の復元は、例えば両眼視差の考え方を利用して、ある点の左画像及び右画像での位置座標とカメラ２Ａ，２Ｂ間の距離とから当該点の奥行きを計算することにより行う。

続いて、ステップ１２で領域分割された２次元画像とステップ１３で復元された３次元画像とに基づいて、エッジ検出等により物体の輪郭を抽出する（ステップ１４）。本実施形態では、認識対象物体である急須の色と同色の領域を示す輪郭を左右画像それぞれから複数抽出している。左画像（図４（ａ））においては、太線の閉曲線によって示される輪郭Ｌ２１〜Ｌ２４が抽出される。右画像（図４（ｂ））においては、太線の閉曲線によって示される輪郭Ｒ２５，Ｒ２６が抽出される。

図４に示すように、左画像の輪郭Ｌ２４が示す物体は、遮蔽物２７によって一部が遮蔽されている。また、右画像の輪郭Ｒ２５及び輪郭Ｒ２６が示す物体は同一物体であるが、遮蔽物２７によって輪郭Ｒ２５が示す領域と輪郭Ｒ２６が示す領域とに分断されている。ただし、ステップ１４の処理時には、輪郭Ｌ２４、Ｒ２５，Ｒ２６がそれぞれ同一色の領域を示すことは認識されているものの、輪郭Ｒ２５と輪郭Ｒ２６とが同一物体を示すことは認識されていない。

続いて、ステップ１４で得られた各画像の輪郭の特徴量をそれぞれ抽出する（ステップ１５）。輪郭の特徴量としては、輪郭の位置、回転及び大きさに対して不変な不変量を用いる。この不変量は、図５に示すように、輪郭Ａにおける１つの勾配（接線の傾き）Ｈから他の勾配Ｈまでの距離ｄである。また、図５に示すような勾配Ｈについての不変量の次元数は３次元となる。

続いて、ステップ１５で抽出された各画像の輪郭の特徴量を、データ格納部５にデータベースとして記憶されている特徴照合データとマッチングすることにより、各認識対象物体の特徴照合データに対する類似度を算出する（ステップ１６）。特徴照合データとしては、複数の視点に応じた認識対象物体の姿勢に関するデータが登録されている。より具体的には、複数の視点に応じた認識対象物体の輪郭を示すデータと、当該輪郭より抽出された特徴量データとが登録されている。

ステップ１６では、算出した類似度が最も高いデータに対応する輪郭が認識対象物体であると認識する。すなわち、図４（ａ）に示す画像では、輪郭Ｌ２４の示す物体の種別は急須であると識別される。なお、マッチング手法としては、例えばＤＰ（Dynamic Programming）マッチング等が採用される。

続いて、左画像の輪郭と右画像の輪郭との信頼度を評価し、左右画像のうち信頼度の高いほうの輪郭を含む画像を選択する（ステップ１７）。信頼度とは、輪郭を用いて物体の姿勢を推定するにあたって、推定の信頼性を予測するためのものである。具体的には、信頼度として輪郭の複雑度及び特徴量の類似度を用いる。

複雑度とは、輪郭の複雑性を定量化して表現したものであり、具体的には、輪郭における勾配角度毎の不変量の次元数総和である。一般に、複雑度が高い輪郭は、認識対象物体の姿勢に関してより多くの情報を有しているので、姿勢を推定するにあたってより信頼性が高い。すなわち、複雑度を用いて信頼性を評価することにより、姿勢を推定するにあたって信頼性の高い輪郭を含む画像を選択することができる。ただし、左右画像において輪郭の複雑度が同等である場合には、特徴量の類似度が高いほうの画像を選択する。なお、複雑度としては、不変量の次元数総和に代えて、輪郭の次元分布の先鋭度などを用いてもよい。

図４に示す輪郭Ｌ２４と輪郭Ｒ２５との不変量の次元数総和を比較すると、輪郭Ｌ２４が輪郭Ｒ２５より複雑度が高い。よって、左画像が基準画像として選択される。

続いて、選択された画像の輪郭（図４では輪郭Ｌ２４）の特徴量と、ステップ１６で識別された認識対象物体の種別（本実施形態では、急須。）の特徴照合データにおける各輪郭の特徴量との最大類似度を算出する（ステップ１８）。そして、特徴照合データにおいて最大類似度に対応する輪郭の形状を認識対象物体の初期姿勢に設定する（ステップ１９）。

続いて、まず基準画像の輪郭（図４では輪郭Ｌ２４）を用いて、認識対象物体の姿勢を粗推定する（ステップ２０）。粗推定とは、後段で行う詳細推定より粗く行う姿勢の推定である。ステップ２０では、基準画像における輪郭についてＤＴ（Distance Transforms）画像を作成し、データ格納部５に記憶されている輪郭形状データとＤＴマッチングすることにより、回転・並進計算を行って認識対象物体の姿勢を粗推定する。

続いて、その粗姿勢推定の妥当性を判断する（ステップ２１）。この妥当性は、例えば姿勢推定によって得られた輪郭とステップ１２で３次元復元して得られた輪郭とを重ね合わせた時の重なり程度から判断する。

ステップ２１において姿勢推定が正しくないと判断されたときは、新たな初期姿勢を設定して、再び認識対象物体の粗姿勢推定を行う。例えば、ステップ１８で算出された最大類似度の次ぎに高い類似度に対応する輪郭の形状を認識対象物体の新たな初期姿勢として設定する（ステップ２２）。そして、上記のステップ２０を再度実行する。

ステップ２１において、姿勢推定が正しいと判定されたときは、ステップ２０において粗く推定された姿勢に基づいて、基準画像ではないほうの画像に対して認識対象物体が占める領域を設定する（ステップ２３）。例えば図４に示す画像では、まず左画像の輪郭Ｌ２４を用いて粗く設定された姿勢に基づいて、図６に示されるように、認識対象物体の輪郭３４を設定する。そして、図７（ｂ）に示すように、設定した輪郭３４に基づいて、右画像に対して占める領域を示す輪郭Ｒ３４を設定し、右画像に対して重ね合わせる。すなわち、ある点の左画像及び右画像での位置座標とカメラ２Ａ，２Ｂ間の距離とに基づいて、輪郭３４から右画像に対応する輪郭Ｒ３４を算出する。なお、図７（ａ）は、輪郭３４に基づいて左画像に対して設定した輪郭Ｌ３４を左画像に重ねた様子を示す。

続いて、ステップ２３で設定した領域と重なる領域を示す輪郭が存在するかどうか検出する（ステップ２４）。例えば、ステップ２３で設定された領域に対して重なる割合が所定値以上となる領域を示す輪郭を検出する。本実施形態で示す画像では、図７（ｂ）に示されるように、輪郭Ｒ３４によって囲まれる領域と重なる領域を示す輪郭Ｒ２６が検出される。なお、ステップ２４において、重なる領域を示す輪郭が検出されなかったときは、ステップ２６へ進む。

ステップ２４において、重なる領域を示す輪郭が検出されたときは、その検出された輪郭と、基準画像で姿勢推定に用いられた輪郭に対応する輪郭とを同一物体の輪郭と判断する（ステップ２５）。図７（ｂ）に示す場合では、輪郭Ｒ２６が検出され、輪郭Ｒ２５と輪郭Ｒ２６とが同一物体の輪郭を示していると判断する。すなわち、左画像の輪郭Ｌ２４に対応する右画像の輪郭は、輪郭Ｒ２５及び輪郭Ｒ２６であることを認識することができる。

引き続き左画像及び右画像の両方を用いて、認識対象物体の姿勢を詳細に推定する（ステップ２６）。例えば、図７（ｂ）に示されるように、輪郭Ｒ２６が検出された場合は、左画像の輪郭Ｌ２４と、右画像において統合された輪郭Ｒ２５及びＲ２６とを用いて認識対象物体の姿勢を詳細に推定する。

ステップ２４における詳細姿勢推定処理では、左画像及び右画像における輪郭Ｌ２４，Ｒ２５，Ｒ２６についてＤＴ画像を作成し、データ格納部５に記憶されている輪郭形状データとＤＴマッチングすることにより回転・並進計算を行って認識対象物体の姿勢を上記の粗姿勢推定より詳細に推定する。例えば、左画像では、図８（ａ）に示されるように、物体の姿勢が輪郭Ｌ４４として推定され、右画像では図８（ｂ）に示されるように、物体の姿勢が輪郭Ｒ４５として推定される。

続いて、その詳細姿勢推定の妥当性をステップ２１と同様に判断する（ステップ２７）ステップ２１において姿勢推定が正しくないと判断されたときは、上述したステップ２２の処理を実行する。ステップ２１において、姿勢推定が正しいと判定されたときは、その推定結果を把持制御処理部６に送出すると共にモニタ部４に表示させる（ステップ２８）。このようにして、画像処理部３によって認識対象物体の姿勢が推定される。

以上において、図２に示すステップ１２〜１４は、第１画像及び第２画像から物体の領域を抽出する領域抽出手段（領域抽出ステップ）を構成する。図２に示すステップ１５〜１７は、第１画像及び第２画像からそれぞれ抽出された物体の輪郭の信頼度を評価し、第１画像及び第２画像のうち物体の領域の信頼度が高いほうの画像を選択する選択手段（選択ステップ）を構成する。図２に示すステップ１５，１６，１８及び図３に示すステップ１９は、物体の領域に基づいて物体の初期姿勢を設定する初期姿勢設定手段（初期姿勢設定ステップ）を構成する。図３に示すステップ２３〜２５は、初期姿勢設定手段で設定された物体の初期姿勢に対応する領域と領域抽出手段で抽出された物体の領域とを照合し、領域抽出手段で抽出された物体の領域を物体の姿勢推定に用いるかどうかを判断する判断手段（判断ステップ）を構成する。

以上のように本実施形態にあっては、撮像画像の中に認識対象物体の一部を遮蔽する遮蔽物が存在して、１つの認識対象物体の領域（輪郭）が複数に分断される場合（図４（ｂ）参照）、認識対象物体に対応する分断された領域を示す輪郭Ｒ２５，輪郭Ｒ２６を含む複数の領域Ｌ２１〜Ｌ２４，Ｒ２５，Ｒ２６が抽出されることとなる。そして、左右画像のうち輪郭の信頼度が高い左画像の輪郭Ｌ２４に基づいて認識対象物体の初期姿勢を設定する。そして、設定した認識対象物体の初期姿勢に対応する輪郭３４（図６参照）と右画像において物体に対応する分断された領域を示す輪郭Ｒ２５，Ｒ２６とを重ね合わせて照合し、輪郭Ｒ２５，Ｒ２６が同一物体の輪郭かどうかを判断する。そして、輪郭Ｒ２５，Ｒ２６が同一物体の輪郭であると判断されたときは、両者を認識対象物体の姿勢推定に用いることができる。そして、その分断された輪郭Ｒ２５，Ｒ２６を統合する。よって、撮像画像において認識対象物体の領域が分断されていても、色情報や距離情報等を利用することなく、物体の姿勢推定を行うことができる。従って、認識対象物体の姿勢推定における推定精度を向上させることができる。

上記実施形態においては、左右２つの視点から撮像した画像を用いる場合について説明したが、これに限られず、上下２つの視点から撮像した画像や、１又は３以上の視点から撮像した画像を用いてもよい。

１つの画像を用いて物体の姿勢を推定する場合について簡単に説明する。例えば、図４（ａ）（ｂ）に示される左右画像のうち、右画像（図４（ｂ））の画像を用いる場合について説明する。取得した画像において、ステップ１２〜１４と同様に領域を抽出し、複数の輪郭Ｒ２５，Ｒ２６を抽出する。そして、ステップ１５と同様に輪郭Ｒ２５，Ｒ２６の特徴量を抽出して、ステップ１６と同様に抽出した特徴量に基づいてマッチングを行う。その後、ステップ１８と同様に最大類似度を算出して、ステップ１９と同様に最大類似度に基づいて初期姿勢を設定する。このとき、例えば、輪郭Ｒ２５を用いて初期姿勢が設定される。

続いて、設定した初期姿勢を用いて、画像に対して物体が占める領域を設定する。そして、上段のステップで抽出した複数の輪郭Ｒ２５，Ｒ２６が示す領域のうち、粗姿勢推定結果に基づいて設定した領域と所定の割合以上重なる輪郭を検出する。例えば、図７に示すように輪郭Ｒ２６が検出される。輪郭Ｒ２６が検出されると、輪郭Ｒ２５と輪郭Ｒ２６とは、同一の物体を示す輪郭であると判断し、輪郭Ｒ２５と輪郭Ｒ２６とを統合して詳細姿勢推定を実行する。

このように入力画像が１つであっても、入力画像において１つの認識対象物体を示す分断された領域を統合することができる。よって、物体の姿勢推定における推定精度を向上させることができる。

また、上記実施形態のように物体の粗姿勢推定を行う際には、図２に示すステップ２３〜２５をステップ２０の前に実施してもよい。

さらに、上記実施形態は、物体を把持するロボットに適用されるものであるが、本発明の画像処理装置は、物体を認識して物体の姿勢を推定する他の装置やシステム等にも適用可能である。

本発明に係わる画像処理装置の一実施形態の構成を示すブロック図である。図１に示す画像処理部による処理手順の概略を示すフローチャートである。図１に示す画像処理部による処理手順の概略を示すフローチャートである。図１に示す２つのカメラで撮像して得られた左画像及び右画像の一例を示す図である。輪郭の特徴量として、物体の輪郭の各勾配間の距離を示す概念図である。粗姿勢推定結果の一例を示す図である。図６に示す粗姿勢推定によって得られた輪郭と図４に示す輪郭とを重ね合せた状態を示す図である。詳細姿勢推定結果の一例を示す図である。

符号の説明

１…画像処理装置、２Ａ，２Ｂ…カメラ、３…画像処理部（領域抽出手段、初期姿勢設定手段、判断手段、選択手段）。

Claims

物体の撮像画像から前記物体の領域を抽出する領域抽出手段と、
前記物体の領域に基づいて前記物体の初期姿勢を設定する初期姿勢設定手段と、
前記初期姿勢設定手段で設定された前記物体の初期姿勢に対応する領域と前記領域抽出手段で抽出された前記物体の領域とを照合し、前記領域抽出手段で抽出された前記物体の領域を前記物体の姿勢推定に用いるかどうかを判断する判断手段とを備えることを特徴とする画像処理装置。
前記物体の撮像画像は、異なる視点から物体を撮像して取得された第１画像及び第２画像を含み、
前記領域抽出手段は、前記第１画像及び前記第２画像から前記物体の領域をそれぞれ抽出し、
前記初期姿勢設定手段は、前記第１画像及び前記第２画像の何れか一方から抽出された前記物体の領域に基づいて、前記物体の初期姿勢を設定し、
前記判断手段は、前記初期姿勢設定手段で設定された前記物体の初期姿勢に対応する領域と前記第１画像及び前記第２画像の他方から抽出された前記物体の領域とを照合し、前記第１画像及び前記第２画像の他方から抽出された前記物体の領域を前記物体の姿勢推定に用いるかどうかを判断することを特徴とする請求項１記載の画像処理装置。
前記第１画像及び前記第２画像からそれぞれ抽出された前記物体の領域の信頼度を評価し、前記第１画像及び前記第２画像のうち前記物体の領域の信頼度が高いほうの画像を選択する選択手段を更に備え、
前記初期姿勢設定手段は、前記選択手段で選択された画像から抽出された前記物体の領域に基づいて、前記物体の初期姿勢を設定することを特徴とする請求項２記載の画像処理装置。
物体の撮像画像から前記物体の領域を抽出する領域抽出ステップと、
前記物体の領域に基づいて前記物体の初期姿勢を設定する初期姿勢設定ステップと、
前記初期姿勢設定ステップにおいて設定された前記物体の初期姿勢に対応する領域と前記領域抽出ステップにおいて抽出された前記物体の領域とを照合し、前記領域抽出ステップにおいて抽出された前記物体の領域を前記物体の姿勢推定に用いるかどうかを判断する判断ステップと、
をコンピュータに実行させることを特徴とする画像処理プログラム。
前記物体の撮像画像として、異なる視点から物体を撮像して取得された第１画像及び第２画像を用い、
前記領域抽出ステップでは、前記第１画像及び前記第２画像から前記物体の領域をそれぞれ抽出し、
前記初期姿勢設定ステップでは、前記第１画像及び前記第２画像の何れか一方から抽出された前記物体の領域に基づいて、前記物体の初期姿勢を設定し、
前記判断ステップでは、前記初期姿勢設定ステップで設定された前記物体の初期姿勢に対応する領域と前記第１画像及び前記第２画像の他方から抽出された前記物体の領域とを照合し、前記第１画像及び前記第２画像の他方から抽出された前記物体の領域を前記物体の姿勢推定に用いるかどうかを判断することを特徴とする請求項４記載の画像処理プログラム。
前記第１画像及び前記第２画像からそれぞれ抽出された前記物体の領域の信頼度を評価し、前記第１画像及び前記第２画像のうち前記物体の領域の信頼度が高いほうの画像を選択する選択ステップを更にコンピュータに実行させ、
前記初期姿勢設定ステップでは、前記選択ステップで選択された画像から抽出された前記物体の領域に基づいて、前記物体の初期姿勢を設定することを特徴とする請求項５記載の画像処理プログラム。