JP7010778B2

JP7010778B2 - 観測位置推定装置、その推定方法、及びプログラム

Info

Publication number: JP7010778B2
Application number: JP2018125200A
Authority: JP
Inventors: 洋村瀬; 康友川西; 大輔出口; ビンニックムハマドザリフィハシム; 雄介中野; 訓成小堀
Original assignee: Toyota Motor Corp; Tokai National Higher Education and Research System NUC
Current assignee: Toyota Motor Corp; Tokai National Higher Education and Research System NUC
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2022-01-26
Anticipated expiration: 2038-06-29
Also published as: CN110660100B; US10909717B2; JP2020004260A; CN110660100A; US20200005480A1

Description

本発明は、物体の観測位置を推定する観測位置推定装置、その推定方法、及びプログラムに関する。

物体の姿勢を推定するために、該物体を複数の観測位置で観測する観測位置推定装置が知られている（例えば、特許文献１参照）。

特開２０１２－０２２４１１号公報

上記観測位置推定装置は、ランダムに設定された複数の観測位置で物体を観測しているため、その観測位置が、物体を観測する上で最適な位置とは限らない。

本発明は、このような問題点を解決するためになされたものであり、物体の最適な観測位置を推定できる観測位置推定装置、その推定方法、及びプログラムを提供することを主たる目的とする。

上記目的を達成するための本発明の一態様は、
物体の姿勢を推定するために、該物体の第１観測位置から、次に該物体を観測すべき第２観測位置を推定する観測位置推定装置であって、
前記第１観測位置において物体の画像を取得する画像取得手段と、
前記画像取得手段により取得された物体の画像から、該物体の画像の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された物体の特徴量に基づいて、前記物体の画像から推定した該物体の推定姿勢と、該推定姿勢の尤度と、の関係を示す第１尤度マップを算出する姿勢推定手段と、
前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を示す第２尤度マップを記憶する第２記憶手段と、
前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を示す第３尤度マップを記憶する第３記憶手段と、
前記姿勢推定手段により算出された第１尤度マップと、前記第２記憶手段に記憶された第２尤度マップと、前記第３記憶手段に記憶された第３尤度マップと、を乗算し積分した結果をパラメータとした評価関数の値が最大又は最小となるように、前記第２観測位置を推定する位置推定手段と、
を備える、ことを特徴とする観測位置推定装置
である。
この一態様において、前記位置推定手段は、前記姿勢推定手段により推定された第１尤度マップｐ（ξ｜I_１）と、前記第２記憶手段に記憶された第２尤度マップｐ（φ_１｜ξ）と、第３記憶手段に記憶された第３尤度マップｐ（θ｜δ_２、φ_１）と、に基づいて、下記式を用いて、前記第２観測位置δ_２（ハット）を推定してもよい。ただし、ξは前記物体の推定姿勢、I_１は前記画像取得手段が前記第１観測位置で取得した物体の画像、φ_１は前記第１観測位置、θは前記物体の姿勢、δ_２は前記第２観測位置、である。
この一態様において、前記物体の姿勢毎の特徴量を学習する第１学習手段を更に備え、前記姿勢推定手段は、前記特徴量抽出手段により抽出された物体の特徴量と、前記第１学習手段により学習された物体の姿勢毎の特徴量と、を比較して、前記第１尤度マップを算出してもよい。
この一態様において、前記第２記憶手段は、前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を学習し、前記第２尤度マップとして記憶する第２学習手段であってもよい。
この一態様において、前記第３記憶手段は、前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を学習し、前記第３尤度マップとして記憶する第３学習手段であってもよい。
この一態様において、前記評価関数は、分布の分散を算出する関数、又は、分布のエントロピーを算出する関数、であってもよい。
この一態様において、前記位置推定手段は、前記評価関数の値が閾値以上又は閾値以下となるように、前記第２観測位置を少なくとも１つ推定してもよい。
上記目的を達成するための本発明の一態様は、
物体の姿勢を推定するために、該物体の第１観測位置から、次に該物体を観測すべき第２観測位置を推定する観測位置推定装置の推定方法であって、
前記第１観測位置において物体の画像を取得するステップと、
前記取得された物体の画像から、該物体の画像の特徴量を抽出するステップと、
前記抽出された物体の特徴量に基づいて、前記物体の画像から推定した該物体の推定姿勢と、該推定姿勢の尤度と、の関係を示す第１尤度マップを算出するステップと、
該算出された第１尤度マップと、前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を示す第２尤度マップと、前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を示す第３尤度マップと、を乗算し積分した結果をパラメータとした評価関数の値が最大又は最小となるように、前記第２観測位置を推定するステップと、
を含む、ことを特徴とする観測位置推定装置の推定方法
であってもよい。
上記目的を達成するための本発明の一態様は、
物体の姿勢を推定するために、該物体の第１観測位置から、次に該物体を観測すべき第２観測位置を推定する観測位置推定装置のプログラムであって、
前記第１観測位置において物体の画像を取得する処理と、
前記取得された物体の画像から、該物体の画像の特徴量を抽出する処理と、
前記抽出された物体の特徴量に基づいて、前記物体の画像から推定した該物体の推定姿勢と、該推定姿勢の尤度と、の関係を示す第１尤度マップを算出する処理と、
該算出された第１尤度マップと、前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を示す第２尤度マップと、前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を示す第３尤度マップと、を乗算し積分した結果をパラメータとした評価関数の値が最大又は最小となるように、前記第２観測位置を推定する処理と、
をコンピュータに実行させる、ことを特徴とする観測位置推定装置のプログラム
であってもよい。

本発明は、このような問題点を解決するためになされたものであり、物体の最適な観測位置を推定できる観測位置推定装置、その推定方法、及びプログラムを提供することができる。

本発明の一実施形態に係る観測位置推定装置の概略的なシステム構成を示すブロック図である。推定姿勢尤度マップの一例を示す図である。平面上に置かれた取手のあるコップを上方から見た図である。物体の姿勢の尤度の分布を示す姿勢尤度マップの一例を示す図である。位置推定精度マップの一例を示す図である。多視点尤度マップの一例示す図である。本発明の一実施形態に係る観測位置推定装置の推定方法によるフローの一例を示すフローチャートである。本発明の実施形態に係る観測位置推定装置が搭載されたロボットの概略的なシステム構成を示すブロック図である。

以下、図面を参照して本発明の実施形態について説明する。
例えば、生活支援ロボットが物を把持して移動するために、未知物体の姿勢を推定することが重要となる。このようなロボットは、カメラ等のセンサによって、物体を複数の観測位置で観測することで、物体の姿勢を高精度に推定することができる。

しかし、ランダムに設定された複数の観測位置で物体を観測する場合、その観測位置が、物体を観測する上で最適な位置とは限らない。例えば、観測位置によっては、その物体を認識し難いため、認識時間がかかり、認識精度が低下する、などの問題が生じ得る。

これに対し、本発明の一実施形態に係る観測位置推定装置は、物体を最初に観測する第１観測位置から、次に物体を観測すべき最適な第２観測位置を推定するものである。これにより、物体の最適な観測位置を推定でき、その最適な観測位置で物体を観測することで、物体の姿勢を高精度に推定することができる。

図１は、本実施形態に係る観測位置推定装置の概略的なシステム構成を示すブロック図である。本実施形態に係る観測位置推定装置１は、画像取得部２と、第１深層学習部３と、第１及び第２統計処理部４、５と、記憶部６と、特徴量抽出部７と、姿勢推定部８と、位置推定部９と、を備えている。

なお、観測位置推定装置１は、例えば、演算処理等と行うＣＰＵ（Central Processing Unit）、ＣＰＵによって実行される演算プログラム等が記憶されたＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）からなるメモリ、外部と信号の入出力を行うインターフェイス部（Ｉ／Ｆ）、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。ＣＰＵ、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。

画像取得部２は、画像取得手段の一具体例である。画像取得部２は、第１観測位置において、物体の画像を時系列で取得する。画像取得部２は、例えば、ＲＧＢカメラ、赤外カメラなどの距離センサで構成されているが、これに限定されない。画像取得部２は、物体の画像を取得できれば、任意のセンサで構成されてもよい。画像取得部２は、第１観測位置で取得した物体の画像を特徴量抽出部７に出力する。

第１深層学習部３は、第１学習手段の一具体例である。第１及び第２統計処理部４、５は、第２及び第３学習手段の一具体例である。第１深層学習部３は、例えば、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent neural Network）などのニューラルネットワークで構成されている。このＲＮＮは、中間層にＬＳＴＭ（Long Short Term Memory）を有している。

第１深層学習部３、および、第１及び第２統計処理部４、５は、ＳＶＭ（Support Vector Machine）などの学習器で構成されてもよい。第１深層学習部３、第１及び第２統計処理部４、５、および、記憶部６は一体的に構成されていてもよい。第１深層学習部３は、複数組の物体の画像及び物体の姿勢の学習データを用いて、物体の姿勢毎の特徴量を学習し、その学習結果（姿勢テンプレート）を記憶する。

特徴量抽出部７は、特徴量抽出手段の一具体例である。特徴量抽出部７は、記憶部６に記憶されたフィルタモデルを用いて、画像取得部２により取得された物体の画像から、その物体の画像の特徴量を抽出する。フィルタモデルは、例えば、ＰＣＡ（Principal Component Analysis）、ＬＤＡ（Linear Discriminant Analysis）等による次元圧縮のための基底ベクトル、エッジ抽出用の微分フィルタ、離散コサイン変換等に局所フィルタを含む。

特徴量抽出部７は、深層学習部を用いて、画像取得部２により取得された物体の画像からその物体の特徴量を自動抽出してもよい。この場合、深層学習部は、予め、学習データを用いて、認識に有利な特徴量を学習している。特徴量抽出部７は、抽出した物体の画像の特徴量を姿勢推定部８に出力する。

姿勢推定部８は、姿勢推定手段の一具体例である。姿勢推定部８は、特徴量抽出部７により抽出された物体の特徴量と、第１深層学習部３により予め学習された物体の姿勢毎の特徴量（姿勢テンプレート）と、を比較し、物体の姿勢の尤度を算出する。そして、姿勢推定部８は、物体姿勢の３軸（ｘ軸、ｙ軸、ｚ軸）に対する推定姿勢尤度マップを算出する。なお、姿勢推定部８は、特徴量抽出部７により抽出された物体の特徴量と、記憶部６に予め記憶された物体の姿勢毎の特徴量と、を比較し、推定姿勢尤度マップを算出してもよい。

推定姿勢尤度マップは、第１尤度マップの一具体例である。推定姿勢尤度マップは、例えば、物体の推定姿勢（推定角度）ξと、その推定姿勢の尤度ｐ（ξ｜I_１）との関係を示すマップ情報である。I_１は、画像取得部２が第１観測位置で取得した物体の画像である。

図２は、推定姿勢尤度マップの一例を示す図である。図２において、横軸は物体の推定姿勢ξであり、縦軸はその推定姿勢の尤度ｐ（ξ｜I_１）である。尤度ｐ（ξ｜I_１）は、物体の画像Ｉ_１から推定した物体の推定姿勢ξの尤度分布を示す。姿勢推定部８が、例えば回帰分析を行うように構成されている場合、推定姿勢尤度マップは、図２に示す如く、１点でのみ１となり、残りは０となる分布となる。姿勢推定部８は、算出した推定姿勢尤度マップを位置推定部９に出力する。

位置推定部９は、位置推定手段の一具体例である。位置推定部９は、姿勢推定部８により算出された推定姿勢尤度マップに基づいて、画像取得部２の次の第２観測位置を推定する。

ここで、取手のあるコップを物体の一例として説明する。図３は、平面上に置かれた取手のあるコップを上方から見た図である。例えば、図３に示す如く、第１観測位置を、コップを中心として二次元座標系の回転角φ_１として表すことができる。第２観測位置を、第１観測位置からの画像取得部２の移動量（回転量）δ_２として表すことができる。コップの姿勢は、原点を中心とした取手の回転角θとして表すことができる。いずれも、反時計方向を正とする。

なお、本実施形態において、第２観測位置は、第１観測位置からの移動量として表現しているが、これに限定されない。例えば、第２観測位置は、第１観測位置φ_１と同様に、回転角φ_２として表現してもよい。

図４は、物体の姿勢の尤度の分布を示す姿勢尤度マップの一例を示す図である。図４において、横軸は物体の姿勢θであり、縦軸はその姿勢の尤度ｐ（θ｜δ_２、I_１）である。

位置推定部９は、図４に示す物体の姿勢尤度マップの良否を、評価関数ｇ（・）によって評価することで、次の第２観測位置δ_２（ハット）を推定する。例えば、位置推定部９は、姿勢尤度マップを、評価関数ｇ（・）によって評価し、姿勢尤度マップの尖度がより大きくなるような、第２観測位置δ_２を少なくとも１つ算出する。これにより、物体の姿勢の尤度がより高くなる最適な第２観測位置を推定できる。そして、推定した第２観測位置で物体を観測することで、物体の姿勢を高精度に推定できる。

評価関数ｇ（・）は、例えば、姿勢尤度マップの分散を算出する関数（１）式、姿勢尤度マップのエントロピーを算出する関数（２）式、などである。これら評価関数を用いることで、姿勢尤度マップの尖度を最適に評価できる。

なお、上記評価関数は一例であり、これに限定されず、姿勢尤度マップの尖度が評価できれば任意の関数が適用可能である。

例えば、上記（１）式、又は（２）式の評価関数ｇ（・）の値が、最小のときに、姿勢尤度マップの尖度は最大となる。したがって、位置推定部９は、以下（３）式を用いて、次の第２観測位置δ_２（ハット）を推定する。下記（３）式においてδ_２の上にハット記号を付したものをδ_２（ハット）と表記している。

位置推定部９は、上記（３）式を用いて、評価関数ｇ（ｐ（θ｜δ_２、I_１））の値が最小となり、姿勢尤度マップの尖度が最大となるような、第２観測位置δ_２（ハット）を推定する。

位置推定部９は、上記（３）式を用いて、評価関数ｇ（ｐ（θ｜δ_２、I_１））の値が閾値以下となるような、第２観測位置δ_２（ハット）を少なくとも１つ推定してもよい。これにより、物体の姿勢の尤度が高くなる、第２観測位置δ_２を少なくとも１つ推定できる。

なお、上記評価関数の符号が正負で逆になる場合、位置推定部９は、評価関数ｇ（ｐ（θ｜δ_２、I_１））の値が最大となるような、第２観測位置δ_２（ハット）を推定してもよい。さらに、位置推定部９は、評価関数の種類に応じて、評価関数ｇ（ｐ（θ｜δ_２、I_１））の値が閾値以上となるような、第２観測位置δ_２（ハット）を少なくとも１つ推定してもよい。

ここで、上記（１）式のｐ（θ｜δ_２、I_１）は、隠れ変数が導入され、下記（４）式のように、ｐ（θ｜δ_２、φ_１）と、ｐ（φ_１｜ξ）と、ｐ（ξ｜I_１）と、を乗算し積分した式に変形される。

上記（４）式におけるｐ（ξ｜I_１）は、上述の如く、姿勢推定部８から出力される推定姿勢尤度マップである。推定姿勢尤度マップは第２尤度マップの一具体例である。上記（４）式におけるｐ（φ_１｜ξ）は、物体の推定姿勢ξのときの、真の第１観測位置φ_１と、その第１観測位置の尤度ｐ（φ_１｜ξ）と、の関係を示す位置推定精度マップである。

位置推定精度マップは、同一姿勢の物体の特徴量が姿勢推定部８に入力されたときの姿勢推定部８の推定精度を示すもので、物体の姿勢毎の誤差分布を示すものである。位置推定精度マップは、様々な姿勢の物体、および、同一カテゴリ内の様々な物体に対し、第１観測位置の真値とその尤度のペアとして予め用意される。図５は、位置推定精度マップの一例を示す図である。図５において、横軸は真の第１観測位置φ_１であり、縦軸はその第１観測位置の尤度ｐ（φ_１｜ξ）である。

例えば、（１）の方向からコップを見た場合、取手の位置が特定でき、その姿勢を精度良く推定できるため、第１観測位置の尤度は高くなる。一方で、（２）の方向からコップを見た場合、取手の位置が特定できず、その姿勢を特定し難いため、第１観測位置の尤度は低くなる。

第１統計処理部４は、物体の推定姿勢ξのときの、真の第１観測位置φ_１と、その第１観測位置の尤度ｐ（φ_１｜ξ）と、の関係を学習し、位置推定精度マップとして記憶する。例えば、物体座標系において、第１観測位置φ_１ｉで、既知の画像Ｉ_ｉに対して姿勢推定が行われ、推定姿勢ξが得られる。第１統計処理部４は、このようにして得た複数組の第１観測位置φ_１ｉと推定姿勢ξのデータを用いて、第１観測位置φ_１ｉと推定姿勢ξとの対応関係を学習し、確率密度推定を行い、位置推定精度マップを生成する。

上記（４）式におけるｐ（θ｜δ_２、φ_１）は、物体を第１観測位置φ_１及び第２観測位置（移動量）δ_２で観測したときの物体の姿勢θと、その姿勢の尤度ｐ（θ｜δ_２、φ_１）との関係を示す多視点尤度マップである。多視点尤度マップは第３尤度マップの一具体例である。多視点尤度マップは、（φ_１、δ_２、θ）の３つのクォータニオンの組によって表現されてもよい。

図６は、多視点尤度マップの一例示す図である。図６において、横軸は物体の姿勢θであり、縦軸は、物体を第１観測位置φ_１及び第２観測位置δ_２で観測したときのその物体の姿勢の尤度ｐ（θ｜δ_２、φ_１）である。

第２統計処理部５は、物体を第１観測位置φ_１及び第２観測位置δ_２で観測したときの物体の姿勢θと、その姿勢の尤度ｐ（θ｜δ_２、φ_１）との関係を学習し、多視点尤度マップとして記憶する。

例えば、第２統計処理部５は、第１観測位置φ_１ｉで観測した時の真の物体の姿勢θおよび、第２観測位置（移動量）δ_２に基づいて、第２観測位置へ移動後の多視点尤度マップｐ（θ｜δ_２、φ_１）を学習する。第２統計処理部５は、ｐ（ξ｜φ_１）とｐ（ξ｜φ_１＋δ_２）とを、移動量δ_２を考慮して、ずらしながら重ね合わせることで、多視点尤度マップを算出する。

本実施形態において、物体を第１観測位置φ_１から見たとき、画像取得部２を第１観測位置φ_１からどれだけ移動させるか、すなわち、第２観測位置（移動量）δ_２を推定している。まず、第１観測位置φ_１における画像Ｉ_１で物体の姿勢ξを推定し、その推定姿勢ξを推定姿勢尤度マップｐ（ξ｜I_１）として表現している。ここで、その推定姿勢ξが正しいか分からないため、その推定姿勢がどの程度、正しいかを、位置推定精度マップｐ（φ_１｜ξ）で表現している。さらに、第１観測位置φ_１と、ある第２観測位置δ_２を与えたときの物体がどの程度正しいかを多視点尤度マップｐ（θ｜δ_２、φ_１）で表している。そして、これら尤度マップを乗算し、積分することで、あらゆるパターンを網羅して、物体の姿勢の尤度ｐ（θ｜δ_２、I_１）を表すことができる。

特に、上記（４）式の変形を行うことで、第１観測位置φ_１を導入している。第１観測位置φ_１が分からないため、尤度として表現し、第１観測位置φ_１に応じて、第２観測位置を設定し、その評価関数の値を評価して、最適な第２観測位置を求めることができる。求めた最適な第２観測位置で物体を観測することで、物体の姿勢を高精度に推定することができる。

本実施形態において、位置推定部９は、上述の如く、姿勢推定部８により算出された推定姿勢尤度マップｐ（ξ｜I_１）と、第１統計処理部４により学習された位置推定精度マップｐ（φ_１｜ξ）と、第２統計処理部５により学習された多視点尤度マップｐ（θ｜δ_２、φ_１）と、を乗算し積分した結果をパラメータとした評価関数ｇ（・）の値が最小となるように、第２観測位置δ_２（ハット）を推定する。

これにより、姿勢推定部８により算出された推定姿勢尤度マップｐ（ξ｜I_１）と、第１統計処理部４により学習された位置推定精度マップｐ（φ_１｜ξ）と、第２統計処理部５により学習された多視点尤度マップｐ（θ｜δ_２、φ_１）と、を乗算し積分した結果は、上述の如く、物体の姿勢θの尤度を示している。したがって、その評価関数ｇ（・）の値が最小、すなわち、物体の姿勢θの尤度分布の尖度が最大となるように、第２観測位置δ_２を推定することで、物体の姿勢を高精度に推定することができる。

例えば、位置推定部９は、姿勢推定部８からの推定姿勢尤度マップｐ（ξ｜I_１）と、第１統計処理部４により学習された位置推定精度マップｐ（φ_１｜ξ）と、第２統計処理部５により学習された多視点尤度マップｐ（θ｜δ_２、φ_１）と、に基づいて、下記（５）式を用いて、第２観測位置δ_２（ハット）を推定する。

位置推定精度マップｐ（φ_１｜ξ）、及び、多視点尤度マップｐ（θ｜δ_２、φ_１）は、予め記憶部６に記憶されていてもよい。この場合、位置推定部９は、姿勢推定部８からの推定姿勢尤度マップｐ（ξ｜I_１）と、記憶部６に記憶された位置推定精度マップｐ（φ_１｜ξ）および、多視点尤度マップｐ（θ｜δ_２、φ_１）に基づいて、第２観測位置δ_２（ハット）を推定する。

位置推定部９は、推定された物体の推定姿勢ξと、上記推定した第２観測位置δ_２と、の関係を示す関数ｆ（δ_２＝ｆ（ξ））を算出してもよい。この関数（マップ）ｆは、推定姿勢ξのときにｇ（ｐ（θ｜δ_２、φ_１））を最大または最小する第２観測位置δ_２を算出する。位置推定部９は、物体の推定姿勢ξに基づいて、δ_２＝ｆ（ξ）を計算し、第２観測位置δ_２を算出する。これにより、物体の推定姿勢ξに対して第２観測位置δ_２を容易に推定できる。

次に、本実施形態に係る観測位置推定装置１の推定方法について詳細に説明する。図７は、本実施形態に係る観測位置推定装置の推定方法によるフローの一例を示すフローチャートである。

本実施形態に係る観測位置推定装置１の推定方法において、まず、事前処理として、物体認識における特徴量、位置推定精度マップおよび多視点尤度マップの学習を行う学習工程が実行され、その学習結果を利用して第２観測位置を推定する推定工程が実行される。最初に学習工程について説明する。

＜学習工程＞
第１深層学習部３は、複数組の物体の画像及び物体の姿勢の学習データを用いて、物体の姿勢毎の特徴量を学習する（ステップＳ１０１）。

第１統計処理部４は、推定姿勢ξのときの、真の第１観測位置φ_１と、その第１観測位置の尤度ｐ（φ_１｜ξ）と、の関係を学習し、その学習結果を、位置推定精度マップとして記憶する（ステップＳ１０２）。

第２統計処理部５は、物体を第１観測位置φ_１及び第２観測位置δ_２で観測したときの物体の姿勢θと、その姿勢の尤度ｐ（θ｜δ_２、φ_１）との関係を学習し、その学習結果を多視点尤度マップとして記憶する（ステップＳ１０３）。

＜推定工程＞
続いて、推定工程について説明する。画像取得部２は、第１観測位置において、物体の画像を取得する（ステップＳ１０４）。画像取得部２は、取得した物体の画像を特徴量抽出部７に出力する。

特徴量抽出部７は、記憶部６に記憶されたフィルタモデルを用いて、画像取得部２からの物体の画像から、その物体の画像の特徴量を抽出する（ステップＳ１０５）。特徴量抽出部７は、抽出した物体の画像の特徴量を姿勢推定部８に出力する。

姿勢推定部８は、特徴量抽出部７により抽出された物体の特徴量と、第１深層学習部３により予め学習された物体の姿勢毎の特徴量と、を比較し、物体の姿勢の尤度を算出し、推定姿勢尤度マップを算出する（ステップＳ１０６）。姿勢推定部８は、算出した推定姿勢尤度マップを位置推定部９に出力する。

位置推定部９は、姿勢推定部８からの推定姿勢尤度マップに基づいて、推定姿勢の尤度の最大値が所定値以上であるか否かを判断する（ステップＳ１０７）。なお、所定値は、予め記憶部６などに設定されている。所定値は、例えば、求められるロボットの姿勢の推定精度に基づいて設定される。

位置推定部９は、推定姿勢の尤度の最大値が所定値以上であると判断した場合（ステップＳ１０７のＹＥＳ）、姿勢推定部８からの推定姿勢尤度マップと、第１統計処理部４により学習された位置推定精度マップと、第２統計処理部５により学習された多視点尤度マップと、に基づいて、上記（５）式を用いて、第２観測位置δ_２を推定する（ステップＳ１０８）。

位置推定部９は、推定姿勢の尤度の最大値が所定値以上でないと判断した場合（ステップＳ１０７のＮＯ）、本処理を終了する。この場合、その第１観測位置では、最適な第２観測位置を推定できないため、物体を観測し易い位置へ画像取得部２を移動させる必要がある。

本実施形態に係る観測位置推定装置１は、例えば、自律移動型のロボットなどに搭載されてもよい。図８は、本実施形態に係る観測位置推定装置１が搭載されたロボットの概略的なシステム構成を示すブロック図である。

画像取得部２は、ロボット１０の頭部などに設けられている。ロボット１０は、例えば、多関節型のヒューマノイドロボットとして構成されている。ロボット１０の各関節部には、サーボモータなどのアクチュエータ１１が夫々設けられている。制御部１２は、各関節部のアクチュエータ１１を制御し各関節部を駆動することで、画像取得部２を所望の位置に移動させることができる。

位置推定部９は、推定した第２観測位置δ_２を制御部１２に出力する。制御部１２は、位置推定部９からの第２観測位置δ_２に基づいて、各アクチュエータ１１を制御して、画像取得部２を第１観測位置φ_１から、位置推定部９により推定された第２観測位置δ_２に移動させる。画像取得部２は、移動した第２観測位置で、物体の画像を取得する。

観測位置推定装置１は、ロボット１０に搭載されない構成であってもよい。この場合、観測位置推定装置１は、ロボット１０と無線あるいは有線で接続されている。位置推定部９は、推定した第２観測位置δ_２を、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉｆｉ（登録商標）などの無線を介して、制御部１２に送信する。

以上、本実施形態において、姿勢推定部８により算出された推定姿勢尤度マップｐ（ξ｜I_１）と、第１統計処理部４により学習された位置推定精度マップｐ（φ_１｜ξ）と、第２統計処理部５により学習された多視点尤度マップｐ（θ｜δ_２、φ_１）と、を乗算し積分した結果をパラメータとした評価関数ｇ（・）の値が最大又は最小となるように、第２観測位置δ_２（ハット）を推定する。

これにより、その評価関数ｇ（・）の値が最大又は最小、すなわち、物体の姿勢θの尤度分布の尖度が最大となるように、第２観測位置δ_２を推定することで、物体の姿勢を高精度に推定することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

本発明は、例えば、図７に示す処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１観測位置推定装置、２画像取得部、３第１深層学習部、４第１統計処理部、５第２統計処理部、６記憶部、７特徴量抽出部、８姿勢推定部、９位置推定部

Claims

物体の姿勢を推定するために、該物体の第１観測位置から、次に該物体を観測すべき第２観測位置を推定する観測位置推定装置であって、
前記第１観測位置において物体の画像を取得する画像取得手段と、
前記画像取得手段により取得された物体の画像から、該物体の画像の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された物体の特徴量に基づいて、前記物体の画像から推定した該物体の推定姿勢と、該推定姿勢の尤度と、の関係を示す第１尤度マップを算出する姿勢推定手段と、
前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を示す第２尤度マップを記憶する第２記憶手段と、
前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を示す第３尤度マップを記憶する第３記憶手段と、
前記姿勢推定手段により算出された第１尤度マップと、前記第２記憶手段に記憶された第２尤度マップと、前記第３記憶手段に記憶された第３尤度マップと、を乗算し積分した結果をパラメータとした評価関数の値が最大又は最小となるように、前記第２観測位置を推定する位置推定手段と、
を備える、ことを特徴とする観測位置推定装置。
請求項１記載の観測位置推定装置であって、
前記位置推定手段は、前記姿勢推定手段により推定された第１尤度マップｐ（ξ｜I_１）と、前記第２記憶手段に記憶された第２尤度マップｐ（φ_１｜ξ）と、第３記憶手段に記憶された第３尤度マップｐ（θ｜δ_２、φ_１）と、に基づいて、下記式を用いて、前記第２観測位置δ_２（ハット）を推定する、
ことを特徴とする観測位置推定装置。

ただし、ξは前記物体の推定姿勢、I_１は前記画像取得手段が前記第１観測位置で取得した物体の画像、φ_１は前記第１観測位置、θは前記物体の姿勢、δ_２は前記第２観測位置、である。
請求項１又は２記載の観測位置推定装置であって、
前記物体の姿勢毎の特徴量を学習する第１学習手段を更に備え、
前記姿勢推定手段は、前記特徴量抽出手段により抽出された物体の特徴量と、前記第１学習手段により学習された物体の姿勢毎の特徴量と、を比較して、前記第１尤度マップを算出する、
ことを特徴とする観測位置推定装置。
請求項１乃至３のうちいずれか１項記載の観測位置推定装置であって、
前記第２記憶手段は、前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を学習し、前記第２尤度マップとして記憶する第２学習手段である、
ことを特徴とする観測位置推定装置。
請求項１乃至４のうちいずれか１項記載の観測位置推定装置であって、
前記第３記憶手段は、前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を学習し、前記第３尤度マップとして記憶する第３学習手段である、
ことを特徴とする観測位置推定装置。
請求項１乃至５のうちいずれか１項記載の観測位置推定装置であって、
前記評価関数は、分布の分散を算出する関数、又は、分布のエントロピーを算出する関数、である、
ことを特徴とする観測位置推定装置。
請求項１乃至６のうちいずれか１項記載の観測位置推定装置であって、
前記位置推定手段は、前記評価関数の値が閾値以上又は閾値以下となるように、前記第２観測位置を少なくとも１つ推定する、
ことを特徴とする観測位置推定装置。
物体の姿勢を推定するために、該物体の第１観測位置から、次に該物体を観測すべき第２観測位置を推定する観測位置推定装置の推定方法であって、
前記第１観測位置において物体の画像を取得するステップと、
前記取得された物体の画像から、該物体の画像の特徴量を抽出するステップと、
前記抽出された物体の特徴量に基づいて、前記物体の画像から推定した該物体の推定姿勢と、該推定姿勢の尤度と、の関係を示す第１尤度マップを算出するステップと、
該算出された第１尤度マップと、前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を示す第２尤度マップと、前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を示す第３尤度マップと、を乗算し積分した結果をパラメータとした評価関数の値が最大又は最小となるように、前記第２観測位置を推定するステップと、
を含む、ことを特徴とする観測位置推定装置の推定方法。
物体の姿勢を推定するために、該物体の第１観測位置から、次に該物体を観測すべき第２観測位置を推定する観測位置推定装置のプログラムであって、
前記第１観測位置において物体の画像を取得する処理と、
前記取得された物体の画像から、該物体の画像の特徴量を抽出する処理と、
前記抽出された物体の特徴量に基づいて、前記物体の画像から推定した該物体の推定姿勢と、該推定姿勢の尤度と、の関係を示す第１尤度マップを算出する処理と、
該算出された第１尤度マップと、前記推定された姿勢のときの、真の前記第１観測位置と、該第１観測位置の尤度と、の関係を示す第２尤度マップと、前記物体を前記第１観測位置及び前記第２観測位置で観測したときの、前記物体の姿勢と、該姿勢の尤度と、の関係を示す第３尤度マップと、を乗算し積分した結果をパラメータとした評価関数の値が最大又は最小となるように、前記第２観測位置を推定する処理と、
をコンピュータに実行させる、ことを特徴とする観測位置推定装置のプログラム。