JP6431404B2 - 姿勢推定モデル生成装置及び姿勢推定装置 - Google Patents

姿勢推定モデル生成装置及び姿勢推定装置 Download PDF

Info

Publication number
JP6431404B2
JP6431404B2 JP2015033179A JP2015033179A JP6431404B2 JP 6431404 B2 JP6431404 B2 JP 6431404B2 JP 2015033179 A JP2015033179 A JP 2015033179A JP 2015033179 A JP2015033179 A JP 2015033179A JP 6431404 B2 JP6431404 B2 JP 6431404B2
Authority
JP
Japan
Prior art keywords
depth
estimation model
image
posture estimation
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015033179A
Other languages
English (en)
Other versions
JP2016157188A (ja
Inventor
雄介 関川
雄介 関川
鈴木 幸一郎
幸一郎 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2015033179A priority Critical patent/JP6431404B2/ja
Publication of JP2016157188A publication Critical patent/JP2016157188A/ja
Application granted granted Critical
Publication of JP6431404B2 publication Critical patent/JP6431404B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、撮像したRGB画像データから被写体の姿勢を推定するための、姿勢推定モデル生成装置等に関するものである。
従来、ばら積みされた部品を、ロボットアームでピッキングする、ビンピッキング等の分野において、ワーク(対象物)の姿勢を推定する手法が種々提案されている。例えば、非特許文献1に記載の技術は、RGB画像と、デプス画像を同時に取得することができるRGB−Dカメラを用いてワークを撮像する。そして、対象ワーク画像におけるピクセルごとに、パーツ位置と対応付けられた3次元座標を推定し、この座標値に基づいてワークの姿勢を推定するものである。
Eric Brachmann他: Learning 6D Object Pose Estimation Using 3D Object Coordinates, September, 2014
しかし、非特許文献1に記載の技術は、RGB−Dカメラの使用を前提とした技術であって、一般的なステレオRGBカメラにそのまま適用することはできない。また、RGB−Dカメラは、カメラ付近の赤外線照明を被写体に照射した場合に、被写体からの反射によって得られる輝度データに基づいてデプスを算出する。したがって、遠くの被写体や、屋外における被写体のデプスの推定に誤差が生じやすく、姿勢推定を精度よく行うことは困難である。
本発明は、上記の問題に鑑みてなされたものであり、RGBカメラを用いて、パッシブな構成で、ワークの姿勢推定を精度よく行うことができる、姿勢推定モデル生成装置及び姿勢推定装置を提供することを目的とする。
本発明の姿勢推定モデル生成装置は、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するRGB画像取得部と、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像生成部と、前記RGB画像取得部にて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部とを備えた構成を有している。
ワークの各パーツは、ワークを撮像した画像において、輝度分布とデプス分布に特徴が現れる。したがって、画像におけるワークのパーツ位置を3次元座標で表現した場合、輝度分布とデプス分布の関係と、この3次元座標との関係を学習することで、撮像データからワークのパーツ位置の座標、ひいては、ワークの姿勢を推定することが可能となる。この構成によれば、ステレオカメラ等、平行等位に設置された複数の撮像デバイスによって撮像された左右の画像組における注目ピクセル周辺のRGB輝度分布及び/または仮想的なデプス画像におけるデプス値分布から、ワークの姿勢を推定することが可能なモデルを生成することができる。したがって、パッシブな構成で、姿勢推定を行うことができるモデルを生成することができる。
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、ランダムフォレストに基づいて、前記注目ピクセルから、前記RGB画像組を構成する画像ごとに異なる量でオフセットさせた周辺ピクセルにおける輝度値の差、または、前記デプス画像において、前記注目ピクセルから異なる量でオフセットさせた周辺ピクセルにおけるデプス値の差に応じて、前記注目ピクセルが属する部分領域の集合のノード分割を繰り返し行うことで、1以上の決定木を生成し、当該各決定木のリーフノードに、正解データとして、前記3次元座標を対応付けることで、姿勢推定モデルを生成してよい。
輝度分布及びデプス分布と、オブジェクトの3次元座標との関係を直接数式化することは困難である。したがって、この構成のように、ランダムフォレストに基づいて、注目ピクセル周辺におけるRGB画像間の輝度差及び/またはデプス値の差に基づいて、注目ピクセルが属する部分領域集合のノード分割を繰り返し行うことで、輝度分布及び/デプス値分布からオブジェクトの姿勢を推定するためのモデルを簡易に生成することができる。なお、部分領域とは、画像を所定の大きさの領域に分割した場合における、1つの単位領域を意味する。
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、前記デプス画像内のあるピクセルにおけるデプス値をd(pi)、カメラβによって撮像された画像のあるピクセルにおけるRGB輝度をIβ(pi,γ)オフセット量をω1、ω2として、
i:注目ピクセルにおけるデプス値
γ1,γ2:RGB輝度
β:カメラID
で表されるfda-d(θ,pi)またはfda-agb(θ,pi,β)と、分割閾値τとの比較により、情報利得が最も大きくなるように、前記ノード分割を行ってよい。
この構成のように、注目ピクセル周辺におけるRGB画像間の輝度差または2ピクセル間のデプス差と分割閾値τとの比較によって、ノード分割後の情報利得が最も大きくなるように、ノード分割を繰り返し行うことで、輝度分布及びデプス分布から姿勢を推定するためのモデルを簡易に生成することができる。
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するIDと、前記正解データとを対応付け、前記部分領域を識別するIDは、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたIDを用いてよい。
部分領域の集合をノード分割していくことで、決定木のリーフノードには、まず、各部分領域が対応付けられることになる。これに正解データとしての3次元座標を対応付けることで、姿勢を推定するためのモデルを生成することができる。この構成によれば、各リーフノードに部分領域を対応付ける際、デプス画像おける部分領域のIDを用いればよく、RGB画像における部分領域にIDを付与する必要はない。したがって、簡易な構成で、姿勢推定モデルを生成することができる。
本発明の姿勢推定モデル生成装置において、前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するIDと、前記正解データとを対応付け、前記部分領域を識別するIDは、各前記RGB画像における前記部分領域に付与されたIDと、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたIDに対して、所定の重みづけ係数が設定された所定の算出式に基づいて決定されてよい。
RGB画像と仮想デプス画像とは、相互に撮像角度が異なるため、同じ位置の部分領域に写るオブジェクトの領域が異なる。この構成によれば、各リーフノードに部分領域を対応付ける際、このような画像のずれも考慮して部分領域IDが決定されるので、精度よく姿勢推定モデルを生成することができる。
本発明の姿勢推定装置は、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するRGB画像取得部と、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像生成部と、前記RGB画像取得部にて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部と、所定の推定モデルに基づいて、前記RGB画像組から、前記仮想的なデプス撮像装置によってデプス画像を撮像した場合におけるデプス値を推定するデプス推定部と、前記姿勢推定モデル生成部にて生成された姿勢推定モデルを用いて、前記RGB画像組及び推定された前記デプス値に基づいて、前記対象物の姿勢推定を行う姿勢推定部とを備えた構成を有している。
この構成によれば、ステレオカメラ等、平行等位に設置された複数の撮像デバイスによって撮像された左右の画像組における注目ピクセル周辺のRGB輝度分布及び/または仮想的なデプス画像におけるデプス値分布から、ワークの姿勢を推定するモデルを生成し、姿勢推定を行うことができる。したがって、パッシブな構成で、姿勢推定を行うことができる。
本発明の姿勢推定装置において、前記デプス推定部は、前記対象物が、前記姿勢推定モデルの生成において学習対象となっていない場合には、推定デプス値をゼロとして出力してよい。
この構成によれば、推定デプス値ゼロの領域は、オブジェクトが存在しない領域と扱うことができ、例えば、推定デプス値ゼロの領域をマスクすることにより、姿勢推定対象領域から除外することができる。したがって、かかる構成により、高速かつ精度よく姿勢推定を行うことができる。
本発明の姿勢推定モデル生成方法は、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するステップと、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するステップと、前記RGB画像組を取得するステップにて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップとを備える。
本発明のプログラムは、姿勢推定モデルを生成するためのプログラムであって、コンピュータに、平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するステップと、前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像を生成するステップと、前記RGB画像組を取得するステップにて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップとを実行させる。
本発明によれば、RGBカメラを用いて、ワークの姿勢推定を精度よく行うためのモデルを生成することができる。
本発明の実施の形態における姿勢推定装置の構成を示すブロック図 本発明の実施の形態におけるデプス推定モデル生成装置の構成を示すブロック図 本発明の実施の形態におけるデプス推定モデル生成装置の動作フロー図 (a)〜(c) 教師画像の一例を示す図 ノード分割を模式的に説明するための図 本発明の実施の形態におけるデプス推定モデル生成装置によって生成された回帰木の一例を示す図 本発明の実施の形態におけるデプス推定処理のフロー図 本発明の実施の形態における姿勢推定モデル生成処理のフロー図 本発明の実施の形態における姿勢推定モデル生成処理によって生成された決定木の構造を説明するための図 本発明の実施の形態における姿勢推定モデル生成処理によって生成された決定木の一例を示す図 本発明の実施の形態における姿勢推定処理のフロー図
以下、本発明の実施の形態のデプス推定装置について、図面を参照しながら説明する。
図1は、本発明の実施の形態の姿勢推定装置の構成を示す図である。図1に示すように、本発明の実施の形態の姿勢推定装置1は、RGB画像取得部10と、デプス画像生成部11と、ピクセル情報取得部12と、姿勢推定モデル生成部13と、デプス推定部14と、と、姿勢推定部15と、記憶部16とを備える。記憶部16は、学習データ記憶部17と、デプス推定モデル記憶部18と、姿勢推定モデル記憶部19とを備える。
(姿勢推定装置の構成)
RGB画像取得部10は、ステレオカメラによって、様々なワーク(姿勢推定対象物)を、様々な距離、角度から撮像された左右のRGB画像を取得し、学習データ記憶部17に出力する。デプス画像生成部11は、仮想中央カメラによって撮像された場合のデプス画像をコンピュータグラフィックによって生成し、左右のRGB画像と対応付けて学習データ記憶部17に出力する。ここで、仮想中央カメラとは、RGB画像取得部10にて取得されたRGB画像を撮像したステレオカメラの左右のカメラの中央に、仮想的に設置されたカメラを意味する。すなわち、デプス画像生成部11にて生成されるデプス画像は、ステレオカメラの左右カメラ及び仮想的な中央カメラによって、同時に撮影を行った場合において、当該仮想的中央カメラから取得されるデプス画像に対応する。したがって、デプス画像生成部11は、RGB画像取得部にて取得した左右のRGB画像のペアの分だけ、デプス画像を生成する。
ピクセル情報取得部12は、デプス画像生成部11にて生成されたデプス画像における、各ピクセル情報を取得し、RGB画像の各ペアと対応付けて、学習データ記憶部17に出力する。本実施の形態において、ピクセル情報とは、各ピクセルに対応付けられた、オブジェクト識別データ(ID等)及び各オブジェクトにおける位置を示す3次元座標データまたはオブジェクト外部の背景領域であることを示すデータである。なお、本実施の形態において、ピクセル情報は、ユーザにより入力されたデータを取得する。
姿勢推定モデル生成部13は、RGB画像と、ピクセル情報と、仮想的デプス画像を用いて、姿勢推定モデルを生成し、姿勢推定モデル記憶部19に出力する。本実施の形態においては、左右RGB画像の輝度分布及びデプス値分布と、オブジェクトにおける位置情報との関係を学習し、RGB画像から、対象ワークの姿勢を推定することができるモデルを生成する。後述のように、本実施の形態において、姿勢推定モデルは、ランダムフォレストに基づいて生成される、仮想中央カメラから見たワークの3次元座標を出力する複数の決定木として生成される。
デプス推定部14は、デプス推定モデル記憶部18に記憶される推定モデルを用いて、上記の仮想中央カメラによって画像を撮像した場合における、当該画像のあるピクセルにおけるデプス値を推定する。後述のように、本実施の形態においては、デプス値の推定は、RGB画像取得部10にて取得された左右のRGB画像ペアを用いて行われる。
姿勢推定部15は、姿勢推定モデル生成部13にて生成され、姿勢推定モデル記憶部19に記憶されるモデルと、デプス推定部14にて算出された推定デプス値を用いて、ステレオカメラから取得した左右のRGB画像について、仮想中央カメラから見たワークの姿勢推定を行う。具体的には、ランダムに選択した3つのピクセルを姿勢推定モデルに当てはめて、3つのピクセルの3次元座標を求め、それら3ピクセルの位置関係に基づいて、1つの姿勢候補とする。同様に、3ピクセルのランダムサンプリングを行って、複数の姿勢候補を求め、最適化処理に基づき、1つの姿勢候補を選択し、姿勢推定結果として出力する。
なお、図1に示す姿勢推定装置1は、CPU、RAM、ROM、HDD等を備えたコンピュータにより実現される。CPUがROMに記憶されたプログラムを読み出して実行することにより、姿勢推定モデル生成部13等の機能が実現される。このような姿勢推定装置1を実現するためのプログラムも本発明の範囲に含まれる。
また、上述のように、RGB画像取得部10と、デプス画像生成部11と、ピクセル情報取得部12と、姿勢推定モデル生成部13と、学習データ記憶部17との協働により、姿勢推定モデルが生成される。したがって、これらの構成により、姿勢推定モデル生成装置としての機能が実現される。
(デプス推定モデル生成装置の構成)
ここで、本実施の形態における姿勢推定装置1のデプス推定部14にて用いられる、デプス推定モデルを生成する、デプス推定モデル生成装置の構成について説明する。図2は、デプス推定モデル生成装置2の構成を示すブロック図である。図2に示すように、デプス推定モデル生成装置2は、RGB画像取得部20と、デプス画像生成部21と、デプス推定モデル生成部22と、記憶部23とを備える。記憶部23は、学習データ記憶部24と、デプス推定モデル記憶部25とを備える。
RGB画像取得部20は、ステレオカメラにて撮像された左右のRGB画像を取得し、学習データ記憶部24に出力する。デプス画像生成部21は、RGB画像取得部20にて取得された左右1組のRGB画像に対応する、仮想カメラのデプス画像をコンピュータグラフィックスによって生成し、学習データ記憶部24に出力する。ここでも、仮想カメラとは、RGB画像取得部20にて取得されたRGB画像を撮像したステレオカメラの左右のカメラの中央に、仮想的に設置されたカメラを意味する。
デプス推定モデル生成部22は、学習データ記憶部24に記憶される、RGB画像及びデプス画像生成部21にて生成されたデプス画像を用いて、デプス推定モデルを生成する。被写体をステレオカメラによって、距離を様々に変えて撮像した場合、カメラからの距離(デプス)と左右カメラ画像の輝度変化との間には、確率的な関数関係が存在する。本実施の形態においては、デプスと左右画像とのこのような関係性に着目し、左右画像データからデプス値へ変換する確率的関係の逆関数を、デプス推定モデルとして学習によって取得する。
(デプス推定モデル生成フロー)
まずは、デプス推定モデル記憶部18に記憶されるデプス推定モデルを生成する、デプス推定モデル生成装置2の動作フローについて説明する。図3は、本実施の形態におけるデプス推定モデル生成装置2の動作フロー図である。デプス推定モデル生成装置2は、まず、RGB画像を取得し、学習データ記憶部24に記憶する(ステップS1)。ステップS1にて取得されるRGB画像は、ステレオカメラによって、視線の方向及び/または距離を様々に変えて撮像された左右のペア画像である。続いて、デプス推定モデル生成装置2は、ステップS1にて取得したRGB画像の各左右画像のペアについて、仮想カメラのデプス画像を生成し、各画像ペアに対応付けて、学習データ記憶部16に記憶する(ステップS2)。図4(a)、(b)は、ステップS1にて取得されたRGB画像の一例、図4(c)は、ステップS2にて生成されたデプス画像の一例を示す図である。これらのRGB画像のペア及びそれに対応するデプス画像が、1組の教師データとなる。
図3に戻り、デプス推定モデル生成装置10は、各教師データの組について、注目領域(ROI)のサンプリングを行う(ステップS3)。以下では、サンプリングされた注目領域の中心のピクセルを「注目ピクセル」と呼ぶ。デプス推定モデル生成装置2は、注目ピクセルについて、左画像についてω1、右画像についてω2だけオフセットし(ステップS4)、オフセット後の左右画像のRGB輝度の差に基づいて、デプス値集合のノード分割を行う(ステップS5)。具体的には、各ノードにおいて、次式で表されるオフセット後の左右画像のRGB輝度の差f(ω、γ、pi
について、分割閾値をτとし、分割後のデプス値の分散E(j)
が最小となるように、上式のパラメータを決定して、ノード分割を行う。本実施の形態では、i)RGBの組み合わせ(γ1及びγ2として、どのRGB輝度値を、単独でまたはいくつ組み合わせて用いるか)、ii)オフセット量ω1、ω2、iii)分割閾値τ、が、学習により決定するパラメータとなる。なお、i)RGBの組み合わせについては、例えば、右画像はR輝度値のみ、左画像はGとB輝度値のみ、等、左画像と右画像とで、異なる画素の輝度値を用いてもよい。
図5は、ステップS4及びS5における、ノード分割を模式的に説明するための図である。今、あるノードJにおいて、図4(c)のデプス画像の注目ピクセルpiにおけるデプス値diを2つの子ノード(ノードK、ノードL)のうちのいずれかに分類する例を考える。図5のRGB画像の左画像において、オフセット後のピクセル(pi+ω1)のR/G/Bの少なくとも1つの輝度値(2つ以上の輝度値を用いる場合は、その合計値)が、上式におけるIL(pi+ω1,γ1)であり、また、RGB画像の右画像において、オフセット後のピクセル(pi+ω2)のR/G/Bの少なくとも1つの輝度値(2つ以上の輝度値を用いる場合は、その合計値)が、上式におけるIR(pi+ω2,γ2)である。本実施の形態においては、これらの2つの輝度値の差が入力値となる。この入力値は、図5に模式的に示すように、同じ注目領域内の注目ピクセルpi周辺の2つのピクセル間の輝度差を意味する。
iにおけるデプス値diが、ノードJからノードKに分類されたとすると、ノードKでは、注目ピクセルpiからのオフセット量を変えて、pi周辺の2つのピクセル間の輝度差に基づいて、デプス値diを2つの子ノードのいずれに分類するかが決定される。このように、1回のノード分割でデプス値と対応付けられるのは、左右画像の2つのピクセル間の輝度差である。しかし、図5から理解されるように、ステップS4及びS5の処理を繰り返してノードを順次分割していくことで、左右画像の同じ注目領域内の輝度分布と、中心ピクセルである注目ピクセルにおける仮想カメラから見たデプスとの関係を学習していくことになる。本願の発明者は、推定対象となる被写体にテクスチャが少ない場合であっても、左右画像の同じ注目領域内の画像の輝度分布は、対象物までの距離に応じて変化することを見出した。したがって、本実施の形態のように、ある注目ピクセルについて、オフセット量を変化させながら、繰り返し左右画像の輝度差とデプス値との対応付けを行う学習によって、推定対象にテクスチャが少ない場合でも、精度よくデプス値を推定することができるモデルを生成することができる。
再び図3に戻り、デプス値推定モデル生成装置10は、ステップS6にて、所定の収束条件を満足したと判断されるまで、ステップS4及びS5の処理を繰り返す。なお、所定の収束条件としては、例えば、ノードが所定の深さに達することや、ノード分割後のデプス値の分散値の減少幅が所定の閾値以下になること、等を設定することができる。
所定の収束条件を満たすと判断された場合には(ステップS6にてYes)、1つの回帰木の生成を終了し、所定数の回帰木が生成されるまで(ステップS7にてYes)、注目領域のサンプリング(ステップS3)に戻り、回帰木の生成を繰り返す。
図6は、以上の処理によって生成された1つの回帰木の一例を示す図である。図6に示すように、生成された回帰木の各リーフには、デプス値のヒストグラムが対応付けられることになる。
(デプス値推定フロー)
次に、本発明の実施の形態における姿勢推定装置1において、姿勢推定モデルを用いた姿勢推定を行う際に用いられる、デプス値の推定フローについて説明する。本実施の形態において、デプス値の推定は、上述の処理によって生成された、デプス推定モデルを用いて行われる。
図7は、本実施の形態の姿勢推定装置1におけるデプス値推定処理の流れを示す図である。姿勢推定装置1は、まず、推定対象となるステレオ画像の入力を受け付ける(ステップS11)。そして、入力された左右画像の各ピクセルについて、複数の回帰木である推定モデルを適用し、(ステップS12)、デプス確率値の合計を算出する(ステップS13)。姿勢推定装置1は、さらに、デプス方向及び空間方向に平滑化フィルタ処理を行い、デプス出力値とする(ステップS14)。
なお、ステップS14におけるフィルタ処理には、種々のアルゴリズムをベースとする線形フィルタまたは非線形フィルタを用いてよい。その際、例えば、空間方向にはバイラテラルフィルタ等のように、エッジを保存するような非線形フィルタを適用することもできる。
また、本実施の形態では、デプス推定モデルの生成において学習したオブジェクト以外の物が存在する領域については、デプス値をゼロとして出力する。
(姿勢推定モデル生成フロー)
次に、本発明の実施の形態における、姿勢推定モデル生成フローについて説明する。本実施の形態において、姿勢推定モデルの生成は、上述の処理にて推定されたデプス値を用いて行われる。
図8は、本実施の形態における、姿勢推定モデルの生成処理の流れを示す図である。まず、RGB画像取得部10はRGB画像を取得し(ステップS201)、デプス画像生成部11はデプス画像を生成する(ステップS202)。また、ピクセル情報取得部12は、デプス画像の各ピクセルについて、ピクセル情報を取得する(ステップS203)。次に、姿勢推定モデル生成部13は、デプス画像において、対象ワークが映っている領域を所定の大きさの部分領域に分割し、各部分領域にラベルを付与する(ステップS204)。ここで、ラベルとは、各部分領域のIDを意味する。
次に、姿勢推定モデル生成部13は、注目領域のサンプリングを行う(ステップS205)。以下では、この注目領域の中心ピクセルを「注目ピクセル」と呼ぶ。姿勢推定モデル生成部13は、注目ピクセルについて、オフセット後の左右画像のRGB輝度の差(注目ピクセル周辺の輝度差特徴)を算出し、また、デプス画像における注目ピクセルを異なる2ピクセルにオフセットした後の、デプス差(注目ピクセル周辺のデプス差特徴)を算出する(ステップS206)。なお、輝度差特徴及びデプス差特徴を算出する際のオフセット量は、デプス画像の注目ピクセルにおけるデプス値で規格化した値を用いる。同じピクセル分だけオフセットさせても、カメラからオブジェクトまでの距離(デプス)に応じて、オフセット後のピクセルが対応するオブジェクトの位置は異なる。オフセット量をデプス値で規格化することで、モデルを用いて姿勢推定を行う際に、カメラからオブジェクトまでの距離を学習時と同一にする必要はない。注目ピクセル周辺の輝度差特徴fda-agb(θ、pi)は、具体的には、
であり、注目ピクセル周辺のデプス差特徴は、
である。
次に、ステップS206にて算出された注目ピクセル周辺の輝度差特徴及びデプス差特徴と、分割閾値τとを比較し、ノード分割を行う(ステップS207)。具体的には、輝度差特徴とデプス差特徴のうち、分割閾値τとの減算を行い、分割による情報利得がより大きくなる方を選択する。その上で、分割後の情報利得が最大となるように、上式(選択した、輝度差特徴またはデプス差特徴のいずれか)のパラメータを決定して、ノード分割を行う(ステップS207)。オブジェクトの各パーツは、オブジェクトを撮像した画像において、輝度分布とデプス分布に特徴が現れるが、オブジェクトのパーツによって、輝度分布よりもデプス分布に、より大きく特徴が現れる場合と、デプス分布よりも輝度分布に、より大きく特徴が現れる場合がある。本実施の形態は、この点に着目し、入力値をより少ない回数で(つまり、高速に)分類できるようにノード分割を行うものである。本実施の形態では、i)RGBの組み合わせ(γ1及びγ2として、どのRGB輝度値を、単独でまたはいくつ組み合わせて用いるか)、ii)オフセット量ω1、ω2、iii)分割閾値τが、学習により決定するパラメータとなる。
ステップS208にて、所定の収束条件を満足したと判断されるまで、ステップS206及びS207の処理を繰り返す。なお、所定の収束条件としては、例えば、ノードが所定の深さに達することや、ノード分割前後の情報利得の利得差が所定の閾値以下になること、等を設定することができる。
所定の収束条件を満たすと判断された場合には(ステップS208にてYes)、1つの回帰木の生成を終了し、所定数の回帰木が生成されるまで(ステップS209にてYes)、注目領域のサンプリング(ステップS205)に戻り、回帰木の生成を繰り返す。
ステップS209までの処理で、図9に模式的に示すような、決定木の構造が生成される。この段階で、各リーフノードに対応付けられているのは、注目ピクセルが属する部分領域のラベルである。本実施の形態では、3次元座標を出力するためのモデルを生成することから、ステップS209に続いて、各リーフノードに、正解データとしての3次元座標の対応付けを行う。
具体的には、まず、姿勢推定モデル生成部13は、ピクセルのランダムサンプリングを行う(ステップS210)。次に、姿勢推定モデル生成部13は、学習データ記憶部17に記憶されるピクセル情報のうち、ステップS210で選択したピクセルに対応するピクセル情報を取得し、各リーフノードにピクセル情報を対応付ける(ステップS211)。具体的には、ステップS210にて選択したピクセルについて、ステップS209までの処理で生成された木構造をたどり、到達したリーフノードに、取得したピクセル情報を対応付ける。全てのリーフノードにピクセル情報を対応付けるまで(ステップS212にてYes)、ステップS210及びS211の処理を繰り返し、姿勢推定モデルを生成する。
図10は、生成された1つの決定木の一例を示す図である。上述のように、ピクセル情報とは、各ピクセルが属するオブジェクトのID及び当該オブジェクトにおける3次元座標データまたは背景に属することを示すデータである。したがって、1つのリーフノードに複数の3次元座標が割り当てられ得る。本実施の形態では、ミーンシフト等のクラスタリング手法を用いて、代表座標値を割り当てる。図10において、p(c|lj)は、j番目の決定木におけるリーフノードlに分類されるピクセルが、オブジェクトcに属する確率、p(bg|lj)は、同じリーフノードに分類されるピクセルが、背景に属する確率を示す。また、yc(lj)は、同じリーフノードに分類されるピクセルの、オブジェクトcにおける推定3次元座標値である。
(姿勢推定フロー)
図11は、本実施の形態における、姿勢推定処理の流れを示すフロー図である。まず、姿勢推定装置1は、推定対象となるワークを撮像したステレオRGB画像の入力を受け付ける(ステップS31)。次に、デプス推定部14は、デプス推定モデルを用いて、ステップS31にて取得したRGB画像に基づき、デプス値の推定を行う(ステップS32)。続いて、姿勢推定部15は、ステップS31にて取得したRGB画像及びステップS32にて算出された推定デプス値に基づき、姿勢推定モデルを用いて、オブジェクトの識別と、オブジェクトにおける3次元座標値を求める(ステップS33)。そして、姿勢推定部15は、最適化処理を行い、ワーク姿勢を決定する(ステップS34)。
最適化処理は、オブジェクトの3Dモデルを生成したうえで、3次元座標と対応する3Dモデルの3点をランダムサンプリングし、この3点からワーク姿勢候補を推定する。そして、i)レンダリング画像とのデプス差、ii)レンダリング画像との3次元座標の差、iii)オブジェクト存在確率、の3つの値の和をエネルギー(コスト)として、これを最小にする姿勢を求める。
ところで、上述のように、本実施の形態において、デプス推定部14は、デプス推定モデルの生成の際に学習したオブジェクト以外のワークについては、デプス値ゼロを出力する。デプス値がゼロであるということは、そこにオブジェクトが存在しないことと同じとみてよい。このことを利用して、本実施の形態では、iii)クラス存在確率について、デプス値ゼロの領域は、クラス存在確率をゼロとする。また、上記の最適化処理において、3点をランダムサンプリングする際に、デプス値ゼロの領域からランダムサンプリングが行われないようにする。これにより、不要な姿勢候補を予め除外することができ、また、エネルギー算出の負荷を軽減させることができる。すなわち、上述のデプス推定モデル生成装置にて生成されたモデルを用いて算出されたデプス推定値を姿勢推定に用いることで、高速に、精度よく、姿勢推定を行うことができる。
以上、説明したように、上記の実施の形態の姿勢推定モデル生成装置は、ランダムフォレストに基づいて、注目ピクセル周辺におけるRGB画像間の輝度差及び/またはデプス画像における2ピクセル間のデプス差に基づいて、ラベル集合のノード分割を繰り返し行い、決定木の構造を生成する。そして、各リーフノードに、正解データとしての3次元座標とオブジェクトID(または、オブジェクトの存在しない背景領域)を対応付けることで、3次元座標を推定するためのモデルを生成し、推定された3次元座標に基づいてワークの姿勢推定を行う。したがって、RGBステレオカメラを用いて、パッシブな構成でワークの姿勢推定を行うことができるモデルを生成することができる。
なお、上記の実施の形態では、デプス画像を生成し、該デプス画像に基づいて算出されたデプス値と、RGB画像の輝度データとに基づいて、姿勢推定モデルを生成する場合について説明したが、デプス画像の生成は行わずに、代わりに、デプス推定部にて、デプス推定モデルを用いて算出される推定デプス値を用いてもよい。
また、上記の実施の形態では、生成されたデプス画像における部分領域のラベルIDを用いてノード分割を行う場合について説明したが、代わりに、RGB左右画像を同様に部分領域に分割して、部分領域のラベルIDを用いてもよい。また、デプス画像における部分領域のラベルIDに加えて、左右画像における部分領域のIDを用いてもよく、この場合、それぞれのIDに所定の重みづけをした上でラベルIDを決定してもよい。
さらに、上記の実施の形態では、ステレオカメラによって撮影された2つの左右画像を輝度分布を求める教師データとして利用する場合について説明したが、本発明の範囲はこれに限られない。例えば、2つ以上の撮像デバイスによって撮像された、2つ以上の左右画像をセットとしてもよい。この場合、分割閾値τと比較される輝度差特徴は、そのうちの1つまたは2つのカメラによって撮像された1つまたは2つの画像間の輝度値の差
としてもよい。また、分割閾値τと比較する輝度差特徴の算出式は、上式に限られない。例えば、
等、2つ以上の画像を用いて、各画像のオフセット後の輝度値を用いた所定の演算結果を分割閾値τと比較してもよい。
また、上記の実施の形態では、ステレオカメラの中央に仮想カメラを設置した場合のデプス画像を生成する場合について説明したが、仮想カメラの設置位置は、中央でなくてもよいし、仮想カメラは1つに限られない。例えば、RGB撮像デバイスが、等位平行に4つ設置されている場合、左端の撮像デバイスおよび右端の撮像デバイスによって取得したRGB画像に対し、左から2番目、3番目の撮像デバイスから見たデプス画像を生成してもよい。この場合、輝度差特徴の変形例として説明したように、任意の仮想カメラを組み合わせてデプス差特徴を算出してもよく、また、2つ以上のデプス画像のデプス値を用いた所定の演算結果をデプス差特徴としてもよい。
本発明は、RGBカメラを用いて、ワークの姿勢推定を精度よく行うことができる姿勢推定を行うことができるモデルを生成することができるという効果を有し、姿勢推定モデル生成装置等として有用である。
1 姿勢推定装置
10 RGB画像取得部
11 デプス画像生成部
12 ピクセル情報取得部
13 姿勢推定モデル生成部
14 デプス推定部
15 姿勢推定部
16 記憶部
17 学習データ記憶部
18 デプス推定モデル記憶部
19 姿勢推定モデル記憶部

Claims (9)

  1. 平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するRGB画像取得部と、
    前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像生成部と、
    前記RGB画像取得部にて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部と、
    を備えた姿勢推定モデル生成装置。
  2. 前記姿勢推定モデル生成部は、ランダムフォレストに基づいて、前記注目ピクセルから、前記RGB画像組を構成する画像ごとに異なる量でオフセットさせた周辺ピクセルにおける輝度値の差、または、前記デプス画像において、前記注目ピクセルから異なる量でオフセットさせた周辺ピクセルにおけるデプス値の差に応じて、前記注目ピクセルが属する部分領域の集合のノード分割を繰り返し行うことで、1以上の決定木を生成し、当該各決定木のリーフノードに、正解データとして、前記3次元座標を対応付けることで、姿勢推定モデルを生成する、請求項1に記載の姿勢推定モデル生成装置。
  3. 前記姿勢推定モデル生成部は、前記デプス画像内のあるピクセルにおけるデプス値をd(pi)、カメラβによって撮像された画像のあるピクセルにおけるRGB輝度をIβ(pi,γ)オフセット量をω1、ω2として、
    i:注目ピクセルにおけるデプス値
    γ1,γ2:RGB輝度
    β:カメラID
    で表されるfda-d(θ,pi)またはfda-agb(θ,pi,β)と、分割閾値τとの比較により、情報利得が最も大きくなるように、前記ノード分割を行う請求項2に記載の姿勢推定モデル生成装置。
  4. 前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するIDと、前記正解データとを対応付け、
    前記部分領域を識別するIDは、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたIDを用いる、請求項2に記載の姿勢推定モデル生成装置。
  5. 前記姿勢推定モデル生成部は、各前記決定木のリーフノードにおいて、前記部分領域を識別するIDと、前記正解データとを対応付け、
    前記部分領域を識別するIDは、各前記RGB画像における前記部分領域に付与されたIDと、前記デプス画像生成部にて生成されたデプス画像における前記部分領域に付与されたIDに対して、所定の重みづけ係数が設定された所定の算出式に基づいて決定される、請求項2に記載の姿勢推定モデル生成装置。
  6. 平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するRGB画像取得部と、
    前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像生成部と、
    前記RGB画像取得部にて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成部にて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデル生成部と、
    所定の推定モデルに基づいて、前記RGB画像組から、前記仮想的なデプス撮像装置によってデプス画像を撮像した場合におけるデプス値を推定するデプス推定部と、
    前記姿勢推定モデル生成部にて生成された姿勢推定モデルを用いて、前記RGB画像組及び推定された前記デプス値に基づいて、前記対象物の姿勢推定を行う姿勢推定部と
    を備えた姿勢推定装置。
  7. 前記デプス推定部は、前記対象物が、前記姿勢推定モデルの生成において学習対象となっていない場合には、推定デプス値をゼロとして出力する請求項6に記載の姿勢推定装置。
  8. 平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するステップと、
    前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するステップと、
    前記RGB画像組を取得するステップにて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップと
    を備えた姿勢推定モデル生成方法。
  9. 姿勢推定モデルを生成するためのプログラムであって、コンピュータに、
    平行等位に設置された複数の撮像デバイスによって撮像されたRGB画像組を取得するステップと、
    前記複数の撮像デバイスの中央に位置する仮想的なデプス撮像装置によって仮想的に撮像される、前記RGB画像組に対応するデプス画像を生成するデプス画像を生成するステップと、
    前記RGB画像組を取得するステップにて取得されたRGB画像組における、同一の注目ピクセルの周辺の輝度分布及び/または、前記デプス画像生成するステップにて生成されたデプス画像内の当該注目ピクセル周辺のデプス値分布と、対象物の3次元座標との関係を学習することで、前記対象物の複数の前記3次元座標に基づいて、当該対象物の姿勢を推定するための姿勢推定モデルを生成するステップと
    を実行させるプログラム。
JP2015033179A 2015-02-23 2015-02-23 姿勢推定モデル生成装置及び姿勢推定装置 Expired - Fee Related JP6431404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015033179A JP6431404B2 (ja) 2015-02-23 2015-02-23 姿勢推定モデル生成装置及び姿勢推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015033179A JP6431404B2 (ja) 2015-02-23 2015-02-23 姿勢推定モデル生成装置及び姿勢推定装置

Publications (2)

Publication Number Publication Date
JP2016157188A JP2016157188A (ja) 2016-09-01
JP6431404B2 true JP6431404B2 (ja) 2018-11-28

Family

ID=56826223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015033179A Expired - Fee Related JP6431404B2 (ja) 2015-02-23 2015-02-23 姿勢推定モデル生成装置及び姿勢推定装置

Country Status (1)

Country Link
JP (1) JP6431404B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816731B (zh) * 2017-11-21 2021-08-27 西安交通大学 一种rgb和深度信息精确配准的方法
CN111539973B (zh) * 2020-04-28 2021-10-01 北京百度网讯科技有限公司 用于检测车辆位姿的方法及装置
US11488317B2 (en) 2020-11-23 2022-11-01 Sony Group Corporation Neural network model based depth estimation
CN113674335B (zh) * 2021-08-19 2022-05-31 合肥的卢深视科技有限公司 深度成像方法、电子设备及存储介质
KR102411765B1 (ko) * 2021-12-01 2022-06-22 안수현 신경망을 이용한 바른 자세 추정 시스템 및 그 방법
CN116755409B (zh) * 2023-07-04 2024-01-12 中国矿业大学 一种基于值分布ddpg算法的燃煤发电系统协调控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001266128A (ja) * 2000-03-21 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 奥行き情報取得方法,装置および奥行き情報取得プログラムを記録した記録媒体
US7508979B2 (en) * 2003-11-21 2009-03-24 Siemens Corporate Research, Inc. System and method for detecting an occupant and head pose using stereo detectors
JP5840940B2 (ja) * 2011-12-16 2016-01-06 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 画像領域抽出装置、画像領域抽出方法、および画像領域抽出プログラム
JP6188345B2 (ja) * 2013-02-15 2017-08-30 キヤノン株式会社 情報処理装置、情報処理方法

Also Published As

Publication number Publication date
JP2016157188A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
JP6431404B2 (ja) 姿勢推定モデル生成装置及び姿勢推定装置
JP5297403B2 (ja) 位置姿勢計測装置、位置姿勢計測方法、プログラムおよび記憶媒体
JP6397379B2 (ja) 変化領域検出装置、方法、及びプログラム
JP2014096152A (ja) ポイントクラウド内の埋め戻しポイント
CN110349215B (zh) 一种相机位姿估计方法及装置
US11651581B2 (en) System and method for correspondence map determination
JP2018128897A (ja) 対象物の姿勢等を検出する検出方法、検出プログラム
JP2021163503A (ja) 2次元カメラによる3次元の姿勢推定
TW201436552A (zh) 用於使用至少一較高訊框率之影像流而增加影像流之訊框率之方法及裝置
JP6359985B2 (ja) デプス推定モデル生成装置及びデプス推定装置
JP5704909B2 (ja) 注目領域検出方法、注目領域検出装置、及びプログラム
CN111369611B (zh) 图像像素深度值优化方法及其装置、设备和存储介质
JP2017068577A (ja) 演算装置、方法及びプログラム
US10529085B2 (en) Hardware disparity evaluation for stereo matching
JP2016099318A (ja) ステレオマッチング装置とステレオマッチングプログラムとステレオマッチング方法
JP6845929B2 (ja) 三次元計測装置、および方法
JP2021163502A (ja) 複数の2次元カメラによる3次元の姿勢推定
JP2021176078A (ja) 深層学習及びベクトル場推定による特徴検出
JP2022105442A (ja) 情報処理装置、情報処理方法およびプログラム
JP6452324B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6198104B2 (ja) 3次元物体認識装置及び3次元物体認識方法
JP2019211914A (ja) 物体らしさ推定装置、方法、およびプログラム
JP7443303B2 (ja) 計測装置、計測方法及びプログラム
Joglekar et al. Area based stereo image matching technique using Hausdorff distance and texture analysis
JP2018156442A (ja) 推定器学習装置、法線方向推定装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181102

R150 Certificate of patent or registration of utility model

Ref document number: 6431404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees