JP6431404B2

JP6431404B2 - 姿勢推定モデル生成装置及び姿勢推定装置

Info

Publication number: JP6431404B2
Application number: JP2015033179A
Authority: JP
Inventors: 雄介関川; 鈴木　幸一郎; 幸一郎鈴木
Original assignee: Denso IT Laboratory Inc
Current assignee: Denso IT Laboratory Inc
Priority date: 2015-02-23
Filing date: 2015-02-23
Publication date: 2018-11-28
Anticipated expiration: 2035-02-23
Also published as: JP2016157188A

Description

本発明は、撮像したＲＧＢ画像データから被写体の姿勢を推定するための、姿勢推定モデル生成装置等に関するものである。

従来、ばら積みされた部品を、ロボットアームでピッキングする、ビンピッキング等の分野において、ワーク（対象物）の姿勢を推定する手法が種々提案されている。例えば、非特許文献１に記載の技術は、ＲＧＢ画像と、デプス画像を同時に取得することができるＲＧＢ−Ｄカメラを用いてワークを撮像する。そして、対象ワーク画像におけるピクセルごとに、パーツ位置と対応付けられた３次元座標を推定し、この座標値に基づいてワークの姿勢を推定するものである。

ＥｒｉｃＢｒａｃｈｍａｎｎ他: Ｌｅａｒｎｉｎｇ６ＤＯｂｊｅｃｔＰｏｓｅＥｓｔｉｍａｔｉｏｎＵｓｉｎｇ３ＤＯｂｊｅｃｔＣｏｏｒｄｉｎａｔｅｓ, Ｓｅｐｔｅｍｂｅｒ，２０１４

しかし、非特許文献１に記載の技術は、ＲＧＢ−Ｄカメラの使用を前提とした技術であって、一般的なステレオＲＧＢカメラにそのまま適用することはできない。また、ＲＧＢ−Ｄカメラは、カメラ付近の赤外線照明を被写体に照射した場合に、被写体からの反射によって得られる輝度データに基づいてデプスを算出する。したがって、遠くの被写体や、屋外における被写体のデプスの推定に誤差が生じやすく、姿勢推定を精度よく行うことは困難である。

本発明は、上記の問題に鑑みてなされたものであり、ＲＧＢカメラを用いて、パッシブな構成で、ワークの姿勢推定を精度よく行うことができる、姿勢推定モデル生成装置及び姿勢推定装置を提供することを目的とする。

本発明の姿勢推定モデル生成装置は、平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するＲＧＢ画像取得部と、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するデプス画像生成部と、前記ＲＧＢ画像取得部にて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部とを備えた構成を有している。

ワークの各パーツは、ワークを撮像した画像において、輝度分布とデプス分布に特徴が現れる。したがって、画像におけるワークのパーツ位置を３次元座標で表現した場合、輝度分布とデプス分布の関係と、この３次元座標との関係を学習することで、撮像データからワークのパーツ位置の座標、ひいては、ワークの姿勢を推定することが可能となる。この構成によれば、ステレオカメラ等、平行等位に設置された複数の撮像デバイスによって撮像された左右の画像組における注目ピクセル周辺のＲＧＢ輝度分布及び／または仮想的なデプス画像におけるデプス値分布から、ワークの姿勢を推定することが可能なモデルを生成することができる。したがって、パッシブな構成で、姿勢推定を行うことができるモデルを生成することができる。

本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、ランダムフォレストに基づいて、前記注目ピクセルから、前記ＲＧＢ画像組を構成する画像ごとに異なる量でオフセットさせた周辺ピクセルにおける輝度値の差、または、前記デプス画像において、前記注目ピクセルから異なる量でオフセットさせた周辺ピクセルにおけるデプス値の差に応じて、前記注目ピクセルが属する部分領域の集合のノード分割を繰り返し行うことで、１以上の決定木を生成し、当該各決定木のリーフノードに、正解データとして、前記３次元座標を対応付けることで、姿勢推定モデルを生成してよい。

輝度分布及びデプス分布と、オブジェクトの3次元座標との関係を直接数式化することは困難である。したがって、この構成のように、ランダムフォレストに基づいて、注目ピクセル周辺におけるＲＧＢ画像間の輝度差及び／またはデプス値の差に基づいて、注目ピクセルが属する部分領域集合のノード分割を繰り返し行うことで、輝度分布及び／デプス値分布からオブジェクトの姿勢を推定するためのモデルを簡易に生成することができる。なお、部分領域とは、画像を所定の大きさの領域に分割した場合における、１つの単位領域を意味する。

本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、前記デプス画像内のあるピクセルにおけるデプス値をｄ（ｐ_i）、カメラβによって撮像された画像のあるピクセルにおけるＲＧＢ輝度をＩ^β（ｐ_i，γ）オフセット量をω₁、ω₂として、
ｄ_i：注目ピクセルにおけるデプス値
γ１，γ２：ＲＧＢ輝度
β：カメラＩＤ
で表されるｆ^da-d（θ，ｐ_i）またはｆ^da-agb（θ，ｐ_i，β）と、分割閾値τとの比較により、情報利得が最も大きくなるように、前記ノード分割を行ってよい。

この構成のように、注目ピクセル周辺におけるＲＧＢ画像間の輝度差または２ピクセル間のデプス差と分割閾値τとの比較によって、ノード分割後の情報利得が最も大きくなるように、ノード分割を繰り返し行うことで、輝度分布及びデプス分布から姿勢を推定するためのモデルを簡易に生成することができる。

本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するＩＤと、前記正解データとを対応付け、前記部分領域を識別するＩＤは、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたＩＤを用いてよい。

部分領域の集合をノード分割していくことで、決定木のリーフノードには、まず、各部分領域が対応付けられることになる。これに正解データとしての３次元座標を対応付けることで、姿勢を推定するためのモデルを生成することができる。この構成によれば、各リーフノードに部分領域を対応付ける際、デプス画像おける部分領域のＩＤを用いればよく、ＲＧＢ画像における部分領域にＩＤを付与する必要はない。したがって、簡易な構成で、姿勢推定モデルを生成することができる。

本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するＩＤと、前記正解データとを対応付け、前記部分領域を識別するＩＤは、各前記ＲＧＢ画像における前記部分領域に付与されたＩＤと、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたＩＤに対して、所定の重みづけ係数が設定された所定の算出式に基づいて決定されてよい。

ＲＧＢ画像と仮想デプス画像とは、相互に撮像角度が異なるため、同じ位置の部分領域に写るオブジェクトの領域が異なる。この構成によれば、各リーフノードに部分領域を対応付ける際、このような画像のずれも考慮して部分領域ＩＤが決定されるので、精度よく姿勢推定モデルを生成することができる。

本発明の姿勢推定装置は、平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するＲＧＢ画像取得部と、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するデプス画像生成部と、前記ＲＧＢ画像取得部にて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部と、所定の推定モデルに基づいて、前記ＲＧＢ画像組から、前記仮想的なデプス撮像装置によってデプス画像を撮像した場合におけるデプス値を推定するデプス推定部と、前記姿勢推定モデル生成部にて生成された姿勢推定モデルを用いて、前記ＲＧＢ画像組及び推定された前記デプス値に基づいて、前記対象物の姿勢推定を行う姿勢推定部とを備えた構成を有している。

この構成によれば、ステレオカメラ等、平行等位に設置された複数の撮像デバイスによって撮像された左右の画像組における注目ピクセル周辺のＲＧＢ輝度分布及び／または仮想的なデプス画像におけるデプス値分布から、ワークの姿勢を推定するモデルを生成し、姿勢推定を行うことができる。したがって、パッシブな構成で、姿勢推定を行うことができる。

本発明の姿勢推定装置において、前記デプス推定部は、前記対象物が、前記姿勢推定モデルの生成において学習対象となっていない場合には、推定デプス値をゼロとして出力してよい。

この構成によれば、推定デプス値ゼロの領域は、オブジェクトが存在しない領域と扱うことができ、例えば、推定デプス値ゼロの領域をマスクすることにより、姿勢推定対象領域から除外することができる。したがって、かかる構成により、高速かつ精度よく姿勢推定を行うことができる。

本発明の姿勢推定モデル生成方法は、平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するステップと、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するステップと、前記ＲＧＢ画像組を取得するステップにて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像を生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップとを備える。

本発明のプログラムは、姿勢推定モデルを生成するためのプログラムであって、コンピュータに、平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するステップと、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するデプス画像を生成するステップと、前記ＲＧＢ画像組を取得するステップにて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像を生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップとを実行させる。

本発明によれば、ＲＧＢカメラを用いて、ワークの姿勢推定を精度よく行うためのモデルを生成することができる。

本発明の実施の形態における姿勢推定装置の構成を示すブロック図本発明の実施の形態におけるデプス推定モデル生成装置の構成を示すブロック図本発明の実施の形態におけるデプス推定モデル生成装置の動作フロー図（ａ）〜（ｃ）教師画像の一例を示す図ノード分割を模式的に説明するための図本発明の実施の形態におけるデプス推定モデル生成装置によって生成された回帰木の一例を示す図本発明の実施の形態におけるデプス推定処理のフロー図本発明の実施の形態における姿勢推定モデル生成処理のフロー図本発明の実施の形態における姿勢推定モデル生成処理によって生成された決定木の構造を説明するための図本発明の実施の形態における姿勢推定モデル生成処理によって生成された決定木の一例を示す図本発明の実施の形態における姿勢推定処理のフロー図

以下、本発明の実施の形態のデプス推定装置について、図面を参照しながら説明する。

図１は、本発明の実施の形態の姿勢推定装置の構成を示す図である。図１に示すように、本発明の実施の形態の姿勢推定装置１は、ＲＧＢ画像取得部１０と、デプス画像生成部１１と、ピクセル情報取得部１２と、姿勢推定モデル生成部１３と、デプス推定部１４と、と、姿勢推定部１５と、記憶部１６とを備える。記憶部１６は、学習データ記憶部１７と、デプス推定モデル記憶部１８と、姿勢推定モデル記憶部１９とを備える。

（姿勢推定装置の構成）
ＲＧＢ画像取得部１０は、ステレオカメラによって、様々なワーク（姿勢推定対象物）を、様々な距離、角度から撮像された左右のＲＧＢ画像を取得し、学習データ記憶部１７に出力する。デプス画像生成部１１は、仮想中央カメラによって撮像された場合のデプス画像をコンピュータグラフィックによって生成し、左右のＲＧＢ画像と対応付けて学習データ記憶部１７に出力する。ここで、仮想中央カメラとは、ＲＧＢ画像取得部１０にて取得されたＲＧＢ画像を撮像したステレオカメラの左右のカメラの中央に、仮想的に設置されたカメラを意味する。すなわち、デプス画像生成部１１にて生成されるデプス画像は、ステレオカメラの左右カメラ及び仮想的な中央カメラによって、同時に撮影を行った場合において、当該仮想的中央カメラから取得されるデプス画像に対応する。したがって、デプス画像生成部１１は、ＲＧＢ画像取得部にて取得した左右のＲＧＢ画像のペアの分だけ、デプス画像を生成する。

ピクセル情報取得部１２は、デプス画像生成部１１にて生成されたデプス画像における、各ピクセル情報を取得し、ＲＧＢ画像の各ペアと対応付けて、学習データ記憶部１７に出力する。本実施の形態において、ピクセル情報とは、各ピクセルに対応付けられた、オブジェクト識別データ（ＩＤ等）及び各オブジェクトにおける位置を示す３次元座標データまたはオブジェクト外部の背景領域であることを示すデータである。なお、本実施の形態において、ピクセル情報は、ユーザにより入力されたデータを取得する。

姿勢推定モデル生成部１３は、ＲＧＢ画像と、ピクセル情報と、仮想的デプス画像を用いて、姿勢推定モデルを生成し、姿勢推定モデル記憶部１９に出力する。本実施の形態においては、左右ＲＧＢ画像の輝度分布及びデプス値分布と、オブジェクトにおける位置情報との関係を学習し、ＲＧＢ画像から、対象ワークの姿勢を推定することができるモデルを生成する。後述のように、本実施の形態において、姿勢推定モデルは、ランダムフォレストに基づいて生成される、仮想中央カメラから見たワークの３次元座標を出力する複数の決定木として生成される。

デプス推定部１４は、デプス推定モデル記憶部１８に記憶される推定モデルを用いて、上記の仮想中央カメラによって画像を撮像した場合における、当該画像のあるピクセルにおけるデプス値を推定する。後述のように、本実施の形態においては、デプス値の推定は、ＲＧＢ画像取得部１０にて取得された左右のＲＧＢ画像ペアを用いて行われる。

姿勢推定部１５は、姿勢推定モデル生成部１３にて生成され、姿勢推定モデル記憶部１９に記憶されるモデルと、デプス推定部１４にて算出された推定デプス値を用いて、ステレオカメラから取得した左右のＲＧＢ画像について、仮想中央カメラから見たワークの姿勢推定を行う。具体的には、ランダムに選択した３つのピクセルを姿勢推定モデルに当てはめて、３つのピクセルの３次元座標を求め、それら３ピクセルの位置関係に基づいて、１つの姿勢候補とする。同様に、３ピクセルのランダムサンプリングを行って、複数の姿勢候補を求め、最適化処理に基づき、１つの姿勢候補を選択し、姿勢推定結果として出力する。

なお、図１に示す姿勢推定装置１は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ＨＤＤ等を備えたコンピュータにより実現される。ＣＰＵがＲＯＭに記憶されたプログラムを読み出して実行することにより、姿勢推定モデル生成部１３等の機能が実現される。このような姿勢推定装置１を実現するためのプログラムも本発明の範囲に含まれる。

また、上述のように、ＲＧＢ画像取得部１０と、デプス画像生成部１１と、ピクセル情報取得部１２と、姿勢推定モデル生成部１３と、学習データ記憶部１７との協働により、姿勢推定モデルが生成される。したがって、これらの構成により、姿勢推定モデル生成装置としての機能が実現される。

（デプス推定モデル生成装置の構成）
ここで、本実施の形態における姿勢推定装置１のデプス推定部１４にて用いられる、デプス推定モデルを生成する、デプス推定モデル生成装置の構成について説明する。図２は、デプス推定モデル生成装置２の構成を示すブロック図である。図２に示すように、デプス推定モデル生成装置２は、ＲＧＢ画像取得部２０と、デプス画像生成部２１と、デプス推定モデル生成部２２と、記憶部２３とを備える。記憶部２３は、学習データ記憶部２４と、デプス推定モデル記憶部２５とを備える。

ＲＧＢ画像取得部２０は、ステレオカメラにて撮像された左右のＲＧＢ画像を取得し、学習データ記憶部２４に出力する。デプス画像生成部２１は、ＲＧＢ画像取得部２０にて取得された左右１組のＲＧＢ画像に対応する、仮想カメラのデプス画像をコンピュータグラフィックスによって生成し、学習データ記憶部２４に出力する。ここでも、仮想カメラとは、ＲＧＢ画像取得部２０にて取得されたＲＧＢ画像を撮像したステレオカメラの左右のカメラの中央に、仮想的に設置されたカメラを意味する。

デプス推定モデル生成部２２は、学習データ記憶部２４に記憶される、ＲＧＢ画像及びデプス画像生成部２１にて生成されたデプス画像を用いて、デプス推定モデルを生成する。被写体をステレオカメラによって、距離を様々に変えて撮像した場合、カメラからの距離（デプス）と左右カメラ画像の輝度変化との間には、確率的な関数関係が存在する。本実施の形態においては、デプスと左右画像とのこのような関係性に着目し、左右画像データからデプス値へ変換する確率的関係の逆関数を、デプス推定モデルとして学習によって取得する。

（デプス推定モデル生成フロー）
まずは、デプス推定モデル記憶部１８に記憶されるデプス推定モデルを生成する、デプス推定モデル生成装置２の動作フローについて説明する。図３は、本実施の形態におけるデプス推定モデル生成装置２の動作フロー図である。デプス推定モデル生成装置２は、まず、ＲＧＢ画像を取得し、学習データ記憶部２４に記憶する（ステップＳ１）。ステップＳ１にて取得されるＲＧＢ画像は、ステレオカメラによって、視線の方向及び／または距離を様々に変えて撮像された左右のペア画像である。続いて、デプス推定モデル生成装置２は、ステップＳ１にて取得したＲＧＢ画像の各左右画像のペアについて、仮想カメラのデプス画像を生成し、各画像ペアに対応付けて、学習データ記憶部１６に記憶する（ステップＳ２）。図４（ａ）、（ｂ）は、ステップＳ１にて取得されたＲＧＢ画像の一例、図４（ｃ）は、ステップＳ２にて生成されたデプス画像の一例を示す図である。これらのＲＧＢ画像のペア及びそれに対応するデプス画像が、１組の教師データとなる。

図３に戻り、デプス推定モデル生成装置１０は、各教師データの組について、注目領域（ＲＯＩ）のサンプリングを行う（ステップＳ３）。以下では、サンプリングされた注目領域の中心のピクセルを「注目ピクセル」と呼ぶ。デプス推定モデル生成装置２は、注目ピクセルについて、左画像についてω₁、右画像についてω₂だけオフセットし（ステップＳ４）、オフセット後の左右画像のＲＧＢ輝度の差に基づいて、デプス値集合のノード分割を行う（ステップＳ５）。具体的には、各ノードにおいて、次式で表されるオフセット後の左右画像のＲＧＢ輝度の差ｆ（ω、γ、ｐ_i）
について、分割閾値をτとし、分割後のデプス値の分散Ｅ（ｊ）
が最小となるように、上式のパラメータを決定して、ノード分割を行う。本実施の形態では、ｉ）ＲＧＢの組み合わせ（γ₁及びγ₂として、どのＲＧＢ輝度値を、単独でまたはいくつ組み合わせて用いるか）、ｉｉ）オフセット量ω₁、ω₂、ｉｉｉ）分割閾値τ、が、学習により決定するパラメータとなる。なお、ｉ）ＲＧＢの組み合わせについては、例えば、右画像はＲ輝度値のみ、左画像はＧとＢ輝度値のみ、等、左画像と右画像とで、異なる画素の輝度値を用いてもよい。

図５は、ステップＳ４及びＳ５における、ノード分割を模式的に説明するための図である。今、あるノードＪにおいて、図４（ｃ）のデプス画像の注目ピクセルｐ_iにおけるデプス値ｄ_iを２つの子ノード（ノードＫ、ノードＬ）のうちのいずれかに分類する例を考える。図５のＲＧＢ画像の左画像において、オフセット後のピクセル（ｐ_i＋ω₁）のＲ／Ｇ／Ｂの少なくとも１つの輝度値（２つ以上の輝度値を用いる場合は、その合計値）が、上式におけるＩ^L（ｐ_i＋ω₁，γ₁）であり、また、ＲＧＢ画像の右画像において、オフセット後のピクセル（ｐ_i＋ω₂）のＲ／Ｇ／Ｂの少なくとも１つの輝度値（２つ以上の輝度値を用いる場合は、その合計値）が、上式におけるＩ^R（ｐ_i＋ω₂，γ₂）である。本実施の形態においては、これらの２つの輝度値の差が入力値となる。この入力値は、図５に模式的に示すように、同じ注目領域内の注目ピクセルｐ_i周辺の２つのピクセル間の輝度差を意味する。

ｐ_iにおけるデプス値ｄ_iが、ノードＪからノードＫに分類されたとすると、ノードＫでは、注目ピクセルｐ_iからのオフセット量を変えて、ｐ_i周辺の２つのピクセル間の輝度差に基づいて、デプス値ｄ_iを２つの子ノードのいずれに分類するかが決定される。このように、1回のノード分割でデプス値と対応付けられるのは、左右画像の２つのピクセル間の輝度差である。しかし、図５から理解されるように、ステップＳ４及びＳ５の処理を繰り返してノードを順次分割していくことで、左右画像の同じ注目領域内の輝度分布と、中心ピクセルである注目ピクセルにおける仮想カメラから見たデプスとの関係を学習していくことになる。本願の発明者は、推定対象となる被写体にテクスチャが少ない場合であっても、左右画像の同じ注目領域内の画像の輝度分布は、対象物までの距離に応じて変化することを見出した。したがって、本実施の形態のように、ある注目ピクセルについて、オフセット量を変化させながら、繰り返し左右画像の輝度差とデプス値との対応付けを行う学習によって、推定対象にテクスチャが少ない場合でも、精度よくデプス値を推定することができるモデルを生成することができる。

再び図３に戻り、デプス値推定モデル生成装置１０は、ステップＳ６にて、所定の収束条件を満足したと判断されるまで、ステップＳ４及びＳ５の処理を繰り返す。なお、所定の収束条件としては、例えば、ノードが所定の深さに達することや、ノード分割後のデプス値の分散値の減少幅が所定の閾値以下になること、等を設定することができる。

所定の収束条件を満たすと判断された場合には（ステップＳ６にてＹｅｓ）、１つの回帰木の生成を終了し、所定数の回帰木が生成されるまで（ステップＳ７にてＹｅｓ）、注目領域のサンプリング（ステップＳ３）に戻り、回帰木の生成を繰り返す。

図６は、以上の処理によって生成された１つの回帰木の一例を示す図である。図６に示すように、生成された回帰木の各リーフには、デプス値のヒストグラムが対応付けられることになる。

（デプス値推定フロー）
次に、本発明の実施の形態における姿勢推定装置１において、姿勢推定モデルを用いた姿勢推定を行う際に用いられる、デプス値の推定フローについて説明する。本実施の形態において、デプス値の推定は、上述の処理によって生成された、デプス推定モデルを用いて行われる。

図７は、本実施の形態の姿勢推定装置１におけるデプス値推定処理の流れを示す図である。姿勢推定装置１は、まず、推定対象となるステレオ画像の入力を受け付ける（ステップＳ１１）。そして、入力された左右画像の各ピクセルについて、複数の回帰木である推定モデルを適用し、（ステップＳ１２）、デプス確率値の合計を算出する（ステップＳ１３）。姿勢推定装置１は、さらに、デプス方向及び空間方向に平滑化フィルタ処理を行い、デプス出力値とする（ステップＳ１４）。

なお、ステップＳ１４におけるフィルタ処理には、種々のアルゴリズムをベースとする線形フィルタまたは非線形フィルタを用いてよい。その際、例えば、空間方向にはバイラテラルフィルタ等のように、エッジを保存するような非線形フィルタを適用することもできる。

また、本実施の形態では、デプス推定モデルの生成において学習したオブジェクト以外の物が存在する領域については、デプス値をゼロとして出力する。

（姿勢推定モデル生成フロー）
次に、本発明の実施の形態における、姿勢推定モデル生成フローについて説明する。本実施の形態において、姿勢推定モデルの生成は、上述の処理にて推定されたデプス値を用いて行われる。

図８は、本実施の形態における、姿勢推定モデルの生成処理の流れを示す図である。まず、ＲＧＢ画像取得部１０はＲＧＢ画像を取得し（ステップＳ２０１）、デプス画像生成部１１はデプス画像を生成する（ステップＳ２０２）。また、ピクセル情報取得部１２は、デプス画像の各ピクセルについて、ピクセル情報を取得する（ステップＳ２０３）。次に、姿勢推定モデル生成部１３は、デプス画像において、対象ワークが映っている領域を所定の大きさの部分領域に分割し、各部分領域にラベルを付与する（ステップＳ２０４）。ここで、ラベルとは、各部分領域のＩＤを意味する。

次に、姿勢推定モデル生成部１３は、注目領域のサンプリングを行う（ステップＳ２０５）。以下では、この注目領域の中心ピクセルを「注目ピクセル」と呼ぶ。姿勢推定モデル生成部１３は、注目ピクセルについて、オフセット後の左右画像のＲＧＢ輝度の差（注目ピクセル周辺の輝度差特徴）を算出し、また、デプス画像における注目ピクセルを異なる２ピクセルにオフセットした後の、デプス差（注目ピクセル周辺のデプス差特徴）を算出する（ステップＳ２０６）。なお、輝度差特徴及びデプス差特徴を算出する際のオフセット量は、デプス画像の注目ピクセルにおけるデプス値で規格化した値を用いる。同じピクセル分だけオフセットさせても、カメラからオブジェクトまでの距離（デプス）に応じて、オフセット後のピクセルが対応するオブジェクトの位置は異なる。オフセット量をデプス値で規格化することで、モデルを用いて姿勢推定を行う際に、カメラからオブジェクトまでの距離を学習時と同一にする必要はない。注目ピクセル周辺の輝度差特徴ｆ^da-agb（θ、ｐ_i）は、具体的には、
であり、注目ピクセル周辺のデプス差特徴は、
である。

次に、ステップＳ２０６にて算出された注目ピクセル周辺の輝度差特徴及びデプス差特徴と、分割閾値τとを比較し、ノード分割を行う（ステップＳ２０７）。具体的には、輝度差特徴とデプス差特徴のうち、分割閾値τとの減算を行い、分割による情報利得がより大きくなる方を選択する。その上で、分割後の情報利得が最大となるように、上式（選択した、輝度差特徴またはデプス差特徴のいずれか）のパラメータを決定して、ノード分割を行う（ステップＳ２０７）。オブジェクトの各パーツは、オブジェクトを撮像した画像において、輝度分布とデプス分布に特徴が現れるが、オブジェクトのパーツによって、輝度分布よりもデプス分布に、より大きく特徴が現れる場合と、デプス分布よりも輝度分布に、より大きく特徴が現れる場合がある。本実施の形態は、この点に着目し、入力値をより少ない回数で（つまり、高速に）分類できるようにノード分割を行うものである。本実施の形態では、ｉ）ＲＧＢの組み合わせ（γ₁及びγ₂として、どのＲＧＢ輝度値を、単独でまたはいくつ組み合わせて用いるか）、ｉｉ）オフセット量ω₁、ω₂、ｉｉｉ）分割閾値τが、学習により決定するパラメータとなる。

ステップＳ２０８にて、所定の収束条件を満足したと判断されるまで、ステップＳ２０６及びＳ２０７の処理を繰り返す。なお、所定の収束条件としては、例えば、ノードが所定の深さに達することや、ノード分割前後の情報利得の利得差が所定の閾値以下になること、等を設定することができる。

所定の収束条件を満たすと判断された場合には（ステップＳ２０８にてＹｅｓ）、１つの回帰木の生成を終了し、所定数の回帰木が生成されるまで（ステップＳ２０９にてＹｅｓ）、注目領域のサンプリング（ステップＳ２０５）に戻り、回帰木の生成を繰り返す。

ステップＳ２０９までの処理で、図９に模式的に示すような、決定木の構造が生成される。この段階で、各リーフノードに対応付けられているのは、注目ピクセルが属する部分領域のラベルである。本実施の形態では、３次元座標を出力するためのモデルを生成することから、ステップＳ２０９に続いて、各リーフノードに、正解データとしての３次元座標の対応付けを行う。

具体的には、まず、姿勢推定モデル生成部１３は、ピクセルのランダムサンプリングを行う（ステップS２１０）。次に、姿勢推定モデル生成部１３は、学習データ記憶部１７に記憶されるピクセル情報のうち、ステップＳ２１０で選択したピクセルに対応するピクセル情報を取得し、各リーフノードにピクセル情報を対応付ける（ステップＳ２１１）。具体的には、ステップＳ２１０にて選択したピクセルについて、ステップＳ２０９までの処理で生成された木構造をたどり、到達したリーフノードに、取得したピクセル情報を対応付ける。全てのリーフノードにピクセル情報を対応付けるまで（ステップＳ２１２にてＹｅｓ）、ステップＳ２１０及びＳ２１１の処理を繰り返し、姿勢推定モデルを生成する。

図１０は、生成された１つの決定木の一例を示す図である。上述のように、ピクセル情報とは、各ピクセルが属するオブジェクトのＩＤ及び当該オブジェクトにおける３次元座標データまたは背景に属することを示すデータである。したがって、１つのリーフノードに複数の３次元座標が割り当てられ得る。本実施の形態では、ミーンシフト等のクラスタリング手法を用いて、代表座標値を割り当てる。図１０において、ｐ（ｃ｜ｌ^j）は、ｊ番目の決定木におけるリーフノードｌに分類されるピクセルが、オブジェクトｃに属する確率、ｐ（ｂｇ｜ｌ^j）は、同じリーフノードに分類されるピクセルが、背景に属する確率を示す。また、ｙ_c（ｌ^j）は、同じリーフノードに分類されるピクセルの、オブジェクトｃにおける推定３次元座標値である。

（姿勢推定フロー）
図１１は、本実施の形態における、姿勢推定処理の流れを示すフロー図である。まず、姿勢推定装置１は、推定対象となるワークを撮像したステレオＲＧＢ画像の入力を受け付ける（ステップＳ３１）。次に、デプス推定部１４は、デプス推定モデルを用いて、ステップＳ３１にて取得したＲＧＢ画像に基づき、デプス値の推定を行う（ステップＳ３２）。続いて、姿勢推定部１５は、ステップＳ３１にて取得したＲＧＢ画像及びステップＳ３２にて算出された推定デプス値に基づき、姿勢推定モデルを用いて、オブジェクトの識別と、オブジェクトにおける３次元座標値を求める（ステップＳ３３）。そして、姿勢推定部１５は、最適化処理を行い、ワーク姿勢を決定する（ステップＳ３４）。

最適化処理は、オブジェクトの３Ｄモデルを生成したうえで、３次元座標と対応する３Ｄモデルの３点をランダムサンプリングし、この３点からワーク姿勢候補を推定する。そして、ｉ）レンダリング画像とのデプス差、ｉｉ）レンダリング画像との３次元座標の差、ｉｉｉ）オブジェクト存在確率、の３つの値の和をエネルギー（コスト）として、これを最小にする姿勢を求める。

ところで、上述のように、本実施の形態において、デプス推定部１４は、デプス推定モデルの生成の際に学習したオブジェクト以外のワークについては、デプス値ゼロを出力する。デプス値がゼロであるということは、そこにオブジェクトが存在しないことと同じとみてよい。このことを利用して、本実施の形態では、ｉｉｉ）クラス存在確率について、デプス値ゼロの領域は、クラス存在確率をゼロとする。また、上記の最適化処理において、３点をランダムサンプリングする際に、デプス値ゼロの領域からランダムサンプリングが行われないようにする。これにより、不要な姿勢候補を予め除外することができ、また、エネルギー算出の負荷を軽減させることができる。すなわち、上述のデプス推定モデル生成装置にて生成されたモデルを用いて算出されたデプス推定値を姿勢推定に用いることで、高速に、精度よく、姿勢推定を行うことができる。

以上、説明したように、上記の実施の形態の姿勢推定モデル生成装置は、ランダムフォレストに基づいて、注目ピクセル周辺におけるＲＧＢ画像間の輝度差及び／またはデプス画像における２ピクセル間のデプス差に基づいて、ラベル集合のノード分割を繰り返し行い、決定木の構造を生成する。そして、各リーフノードに、正解データとしての３次元座標とオブジェクトＩＤ（または、オブジェクトの存在しない背景領域）を対応付けることで、３次元座標を推定するためのモデルを生成し、推定された３次元座標に基づいてワークの姿勢推定を行う。したがって、ＲＧＢステレオカメラを用いて、パッシブな構成でワークの姿勢推定を行うことができるモデルを生成することができる。

なお、上記の実施の形態では、デプス画像を生成し、該デプス画像に基づいて算出されたデプス値と、ＲＧＢ画像の輝度データとに基づいて、姿勢推定モデルを生成する場合について説明したが、デプス画像の生成は行わずに、代わりに、デプス推定部にて、デプス推定モデルを用いて算出される推定デプス値を用いてもよい。

また、上記の実施の形態では、生成されたデプス画像における部分領域のラベルＩＤを用いてノード分割を行う場合について説明したが、代わりに、ＲＧＢ左右画像を同様に部分領域に分割して、部分領域のラベルＩＤを用いてもよい。また、デプス画像における部分領域のラベルＩＤに加えて、左右画像における部分領域のＩＤを用いてもよく、この場合、それぞれのＩＤに所定の重みづけをした上でラベルＩＤを決定してもよい。

さらに、上記の実施の形態では、ステレオカメラによって撮影された２つの左右画像を輝度分布を求める教師データとして利用する場合について説明したが、本発明の範囲はこれに限られない。例えば、２つ以上の撮像デバイスによって撮像された、２つ以上の左右画像をセットとしてもよい。この場合、分割閾値τと比較される輝度差特徴は、そのうちの１つまたは２つのカメラによって撮像された１つまたは２つの画像間の輝度値の差
としてもよい。また、分割閾値τと比較する輝度差特徴の算出式は、上式に限られない。例えば、
等、２つ以上の画像を用いて、各画像のオフセット後の輝度値を用いた所定の演算結果を分割閾値τと比較してもよい。

また、上記の実施の形態では、ステレオカメラの中央に仮想カメラを設置した場合のデプス画像を生成する場合について説明したが、仮想カメラの設置位置は、中央でなくてもよいし、仮想カメラは１つに限られない。例えば、ＲＧＢ撮像デバイスが、等位平行に４つ設置されている場合、左端の撮像デバイスおよび右端の撮像デバイスによって取得したＲＧＢ画像に対し、左から２番目、３番目の撮像デバイスから見たデプス画像を生成してもよい。この場合、輝度差特徴の変形例として説明したように、任意の仮想カメラを組み合わせてデプス差特徴を算出してもよく、また、２つ以上のデプス画像のデプス値を用いた所定の演算結果をデプス差特徴としてもよい。

本発明は、ＲＧＢカメラを用いて、ワークの姿勢推定を精度よく行うことができる姿勢推定を行うことができるモデルを生成することができるという効果を有し、姿勢推定モデル生成装置等として有用である。

１姿勢推定装置
１０ＲＧＢ画像取得部
１１デプス画像生成部
１２ピクセル情報取得部
１３姿勢推定モデル生成部
１４デプス推定部
１５姿勢推定部
１６記憶部
１７学習データ記憶部
１８デプス推定モデル記憶部
１９姿勢推定モデル記憶部

Claims

平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するＲＧＢ画像取得部と、
前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するデプス画像生成部と、
前記ＲＧＢ画像取得部にて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部と、
を備えた姿勢推定モデル生成装置。
前記姿勢推定モデル生成部は、ランダムフォレストに基づいて、前記注目ピクセルから、前記ＲＧＢ画像組を構成する画像ごとに異なる量でオフセットさせた周辺ピクセルにおける輝度値の差、または、前記デプス画像において、前記注目ピクセルから異なる量でオフセットさせた周辺ピクセルにおけるデプス値の差に応じて、前記注目ピクセルが属する部分領域の集合のノード分割を繰り返し行うことで、１以上の決定木を生成し、当該各決定木のリーフノードに、正解データとして、前記３次元座標を対応付けることで、姿勢推定モデルを生成する、請求項１に記載の姿勢推定モデル生成装置。
前記姿勢推定モデル生成部は、前記デプス画像内のあるピクセルにおけるデプス値をｄ（ｐ_i）、カメラβによって撮像された画像のあるピクセルにおけるＲＧＢ輝度をＩ_β（ｐ_i，γ）オフセット量をω₁、ω₂として、
ｄ_i：注目ピクセルにおけるデプス値
γ１，γ２：ＲＧＢ輝度
β：カメラＩＤ
で表されるｆ^da-d（θ，ｐ_i）またはｆ^da-agb（θ，ｐ_i，β）と、分割閾値τとの比較により、情報利得が最も大きくなるように、前記ノード分割を行う請求項２に記載の姿勢推定モデル生成装置。
前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するＩＤと、前記正解データとを対応付け、
前記部分領域を識別するＩＤは、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたＩＤを用いる、請求項２に記載の姿勢推定モデル生成装置。
前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するＩＤと、前記正解データとを対応付け、
前記部分領域を識別するＩＤは、各前記ＲＧＢ画像における前記部分領域に付与されたＩＤと、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたＩＤに対して、所定の重みづけ係数が設定された所定の算出式に基づいて決定される、請求項２に記載の姿勢推定モデル生成装置。
平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するＲＧＢ画像取得部と、
前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するデプス画像生成部と、
前記ＲＧＢ画像取得部にて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部と、
所定の推定モデルに基づいて、前記ＲＧＢ画像組から、前記仮想的なデプス撮像装置によってデプス画像を撮像した場合におけるデプス値を推定するデプス推定部と、
前記姿勢推定モデル生成部にて生成された姿勢推定モデルを用いて、前記ＲＧＢ画像組及び推定された前記デプス値に基づいて、前記対象物の姿勢推定を行う姿勢推定部と
を備えた姿勢推定装置。
前記デプス推定部は、前記対象物が、前記姿勢推定モデルの生成において学習対象となっていない場合には、推定デプス値をゼロとして出力する請求項６に記載の姿勢推定装置。
平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するステップと、
前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するステップと、
前記ＲＧＢ画像組を取得するステップにて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像を生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップと
を備えた姿勢推定モデル生成方法。
姿勢推定モデルを生成するためのプログラムであって、コンピュータに、
平行等位に設置された複数の撮像デバイスによって撮像されたＲＧＢ画像組を取得するステップと、
前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記ＲＧＢ画像組に対応するデプス画像を生成するデプス画像を生成するステップと、
前記ＲＧＢ画像組を取得するステップにて取得されたＲＧＢ画像組における、同一の注目ピクセルの周辺の輝度分布及び／または、前記デプス画像を生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の３次元座標との関係を学習することで、前記対象物の複数の前記３次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップと
を実行させるプログラム。