JP7255709B2

JP7255709B2 - 推定方法、推定装置及びプログラム

Info

Publication number: JP7255709B2
Application number: JP2021563480A
Authority: JP
Inventors: 伸水谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-04-11
Anticipated expiration: 2039-12-10
Also published as: US20230005182A1; JPWO2021117120A1; WO2021117120A1

Description

特許法第３０条第２項適用２０１９年７月２６日に第２２回画像の認識・理解シンポジウム（ＭＩＲＵ２０１９）ＥｘｔｅｎｄｅｄＡｂｓｔｒａｃｔ集にて発表

本発明は、推定方法、推定装置及びプログラムに関する。

コンピュータビジョン（ＣＶ：Computer Vision）の分野では、３次元空間における物体の姿勢を２次元の画像から計算する方法が知られている。例えば、パラメトリック固有空間法（例えば、非特許文献１）や球関数によって姿勢を推定する方法（例えば、非特許文献２）等が知られている。これら以外にも、３次元物体の表面上の点を捉え、この点の位置を用いて３次元物体の姿勢を表す姿勢行列を計算する方法も知られている（例えば、非特許文献３）。また、画像と、姿勢を表す物理量との対データにより回帰モデルを学習させ、姿勢推定を行うことも想像できる。

村瀬洋, S. K. Nayar, "2次元照合による3次元物体認識 -パラメトリック固有空間法-", 電子情報通信学会論文誌, D-II, vol. 7, no. 11, pp. 2179-2187, Nov. 1994. 玉木徹, 天野敏之, 金田和文, "球関数による姿勢表現と姿勢推定", 画像の認識・理解シンポジウム(MIRU2008), pp.1134-1141, 2008. 西村邦裕, 下坂正倫, 谷川智洋, 中村衛, 田中雅行, 中垣好之, "機械情報工学科演習メディアインタフェース(1) カメラインタフェース", インターネット＜ＵＲＬ：http://www.cyber.t.u-tokyo.ac.jp/~kuni/enshu2010/enshu2010mi1.pdf＞

しかしながら、例えば、非特許文献１や非特許文献２に記載されている手法では、姿勢の推定に画像そのものを用いているため、照明条件等の変化によってはその推定精度が低下する場合がある。また、例えば、非特許文献３に記載されている手法では、３次元物体の表面の点を捉える必要があるため、これらの点が観測できない場合等には姿勢を推定することができない。

また、例えば、回帰モデルを用いる方法では、学習のための入出力データの具体的な選択や回帰モデルの具体的な構造、仕組み等を含めてその実現が容易ではない。例えば、入力データの一部に欠損がある場合には、一つの回帰モデルで姿勢を推定することが不可能になる。また、入力データの一部に欠損があっても姿勢の推定を可能にするために、欠損状況に応じた多数の回帰モデルを準備する必要がある。

更に、非特許文献１や非特許文献２に記載されている手法や回帰モデルを用いる方法を組み合わせても、互いに区別できない複数の物体の姿勢推定は不可能である。

本発明の一実施形態は、上記の点に鑑みてなされたもので、３次元空間における物体の位置及び姿勢を精度良く推定することを目的とする。

上記目的を達成するため、一実施形態に係る推定手順は、複数の物体が存在する三次元空間を複数の撮影装置でそれぞれ撮影した複数の画像を用いて、前記画像の画素領域の中で前記物体を表す画素領域の代表点を計算する計算手順と、前記計算手順で計算された代表点から、前記三次元空間における前記物体の位置を推定する位置推定手順と、前記物体を表す画像領域から所定の特徴量を抽出する抽出手順と、前記位置推定手順で推定された位置と、前記抽出手順で抽出された特徴量とを用いて、予め学習された回帰モデルによって前記三次元空間における前記物体の姿勢を推定する姿勢推定手順と、をコンピュータが実行することを特徴とする。

３次元空間における物体の位置及び姿勢を精度良く推定することができる。

本実施形態に係る推定装置の全体構成の一例を示す図である。複数の撮影装置による撮影の一例を説明するための図である。３Ｄ位置の射影投影過程の一例を説明するための図である。楕円の物体像の一例を説明するための図である。回帰モデルに含まれるニューラルネットワークの一例を説明するための図である。本実施形態に係る位置推定処理の流れの一例を示すフローチャートである。本実施形態に係る姿勢推定処理の流れの一例を示すフローチャートである。３Ｄ位置及び姿勢の推定結果の一例を示す図（その１）である。３Ｄ位置及び姿勢の推定結果の一例を示す図（その２）である。本実施形態に係る推定装置のハードウェア構成の一例を示す図である。

以下、本発明の一実施形態について説明する。本実施形態では、３次元物体を撮影した２次元の画像を用いて、３次元物体の位置及び姿勢を精度良く推定することができる推定装置１０について説明する。なお、以降では、２次元を「２Ｄ」、３次元を「３Ｄ」とも表記する。

ここで、本実施形態では、閉空間内で複数同種の３Ｄ物体（以下、単に「物体」とも表す。）を撮影した複数の２Ｄ画像（以下、単に「画像」とも表す。）を用いて、これらの物体の位置及び姿勢を推定するものとする。このとき、物体の総数は、画像により、容易に推測することができるものとする。すなわち、複数の画像の各々での物体像の数のうち、その最大数が物体の総数と推測することができるものとする。各物体が他の物体を遮蔽することが少ない環境での撮影ならば、この推測は正確である。なお、物体像とは、画像中に投影された物体を表す連結画素領域のことである。

物体は、一例として、三軸の長さが互いに異なる楕円体の剛体であるものとする。このような物体としては、例えば、水槽中の魚等の生物、部屋の中を飛び回る昆虫、ドローン等が想定する。なお、例えば生物は厳密には剛体ではないが、剛体と近似できるものとする。また、その三次元形状も、三軸の長さが互いに異なる楕円体で近似できるものとする。

物体の３Ｄ位置Ｐは３Ｄ絶対座標（Ｘ，Ｙ，Ｚ）で表し、物体の３Ｄ重心点等の代表点を３Ｄ位置Ｐとする。また、物体の３Ｄ姿勢は姿勢行列（又は回転行列）Ｒ∈Ｒ^３×３で表すものとする。なお、本実施形態では物体の代表点は３Ｄ重心点であり、物体は等密度であると仮定して３Ｄ重心点は容積中心点であるものとする。

＜全体構成＞
まず、本実施形態に係る推定装置１０の全体構成について、図１を参照しながら説明する。図１は、本実施形態に係る推定装置１０の全体構成の一例を示す図である。

図１に示すように、本実施形態に係る推定装置１０は、位置推定部１０１と、特徴量抽出部１０２と、姿勢推定部１０３と、記憶部１０４とを有する。

記憶部１０４には、複数の物体を各時刻で撮影した複数の画像が記憶されている。ここで、本実施形態では、一例として、－１≦Ｘ，Ｙ，Ｚ≦１で表される閉空間内の複数の物体を各時刻で３台の撮影装置によってそれぞれ撮影した画像が記憶されているものとする。例えば、図２に示すように、各時刻で、閉空間内の物体Ｏの正面にある撮影装置２０Ａと、物体Ｏの上部にある撮影装置２０Ｂと、物体Ｏの側面にある撮影装置２０Ｃとでそれぞれ撮影されるものとする。なお、図２に示す例では１つの物体Ｏのみが閉空間内に存在するが、閉空間内には複数の物体が存在する。なお、撮影装置２０Ａ～２０Ｃのカメラパラメータ（つまり、内部パラメータ及び外部パラメータ）は既知であるものとする。

図２に示す例のように、各撮影装置２０の視軸が異なれば、例えば物体数が多く、三次元的に接近しているような場合であっても、物体像の重なりのない画像が２つ以上得られる確率が増える。このため、後述する位置推定部１０１によって３Ｄ位置の計算ができる場合が増えることになる。なお、撮影装置２０が３台であることは一例であって、４台以上であってもよい。

ここで、図２に示すように、本実施形態では各物体の表面が４つの領域Ｄ_１～Ｄ_４に分けられており、各撮影装置２０は、これら４つの領域Ｄ_１～Ｄ_４のうち少なくとも１つの領域を撮影（観測）可能であるものとする。また、これら４つの領域Ｄ_１～Ｄ_４は画像上で互いに輝度が異なる画素領域として投影されるものとする。これら４つの領域Ｄ_１～Ｄ_４の分け方としては、例えば、物体（楕円体）の三軸についてその長さが大きい順に、長軸、中軸、短軸と呼ぶことにして、長軸と楕円体表面との交点（２点）の近傍をそれぞれ少なくとも含む領域をＤ_１及びＤ_２、中軸と楕円体表面との交点（２点）の近傍をそれぞれ少なくとも含む領域Ｄ_４及びＤ_４とすることが考えられる。なお、領域Ｄ_１～Ｄ_４は楕円体の表面を重複なく分けたものであり、領域Ｄ_１～Ｄ_４の面積の合計は楕円体の表面積に等しい。

位置推定部１０１は、記憶部１０４に記憶されている複数の画像を用いて、同一時刻における複数の画像上の物体の２Ｄ位置から３Ｄ位置を推定する。ここで、本実施形態では、物体の３Ｄ重心点は、画像中の物体像（２次元の連結画素領域）の２Ｄ重心点に投影されているとして、この２Ｄ重心点を物体の２Ｄ位置とする。

一例として、撮影装置２０Ａの位置をＵ_Ａ、撮影装置２０Ｂの位置Ｕ_Ｂとして、これらの撮影装置２０Ａ及び２０Ｂから見た或る物体の３Ｄ位置Ｐの射影投影過程を図３に示す。図３に示す例では、撮影装置２０Ａの投影面（画像）をＧ_Ａ、撮影装置２０Ｂの投影面（画像）をＧ_Ｂで表している。このとき、閉空間内の物体が１つである場合には、位置Ｕ_Ａ及び位置Ｕ_Ｂや撮影装置２０Ａ及び撮影装置２０Ｂの視軸の向き等は既知（つまり、カメラパラメータは既知）であるため、物体の２Ｄ位置Ｑ_Ａ及びＱ_Ｂが得られれば、当該物体の３Ｄ位置Ｐを計算することができる。

本実施形態では閉空間内には同種で個々の区別ができない複数の物体が存在するため、同一時刻の複数の画像間で２Ｄ位置の対応問題をエピ極拘束条件の下で解くことで、複数の画像間で同一物体像の２Ｄ位置の対応を得る。ここで、エピ極線Ｌ_Ａは２Ｄ位置Ｑ_Ａと撮影装置２０Ｂの視点（つまり、Ｕ_Ｂ）を投影した点（エピ極点ｅ_Ａ）とを結んだ画像Ｇ_Ａ上の直線であり、同様に、エピ極線Ｌ_Ｂは２Ｄ位置Ｑ_Ｂと撮影装置２０Ａの視点（つまり、Ｕ_Ａ）を投影した点（エピ極点ｅ_Ｂ）とを結んだ画像Ｇ_Ｂ上の直線である。つまり、エピ極線は、他の撮影装置から物体を見たときの視線を、当該撮影装置に投影させたものになっている。このため、理想的には、エピ極線上に２Ｄ位置が存在するはずであるが、誤差等の理由により、必ずしも２Ｄ位置がエピ極線上とならない場合もある。また、エピ極線上に物体の２Ｄ位置がある場合であっても、エピ極平面Ｔ上に他の物体の３Ｄ位置が存在する場合には、同一エピ極線上に複数の２Ｄ位置があり、エピ極拘束条件の下でも同一物体像の２Ｄ位置同士の対応を得ることができなくなる。なお、エピ極点やエピ極線等のエピポーラ幾何の用語等の意味については、上記の非特許文献３等を参照されたい。

そこで、本実施形態では、位置推定部１０１により、或る画像で、或るエピ極線と或る２Ｄ位置との間の距離が最も小さい２Ｄ位置同士を同一物体として対応付けることで、対応問題を解くものとする。なお、カメラの光学的特性である内部パラメータが複数の撮影装置２０間で同じ場合、どの画像の距離に基づいて対応を取っても、理想的には同じ結果となる。

すなわち、例えば、図３に示す例の場合、画像Ｇ_Ａ上のエピ極線Ｌ_Ａからの２Ｄ位置Ｑ_Ａの距離と、画像Ｇ_Ｂ上のエピ極線Ｌ_Ｂからの２Ｄ位置Ｑ_Ｂの距離との２つの距離が考えられるが、カメラの内部パラメータが２つの撮影装置２０Ａ及び２０Ｂで同じである場合、理想的には、２Ｄ位置はどちらの画像でも同じになり、どちらか片方のものに着目すればよい。距離が最も小さいエピ極線と２Ｄ位置との組を同一物体の２Ｄ位置同士の対応とする。例えば、図３に示す例の場合、画像Ｇ_Ａ上のエピ極線Ｌ_Ａからの２Ｄ位置Ｑ_Ａの距離と、画像Ｇ_Ｂ上のエピ極線Ｌ_Ｂからの２Ｄ位置Ｑ_Ｂの距離とのどちらかに着目して、３Ｄ点が射影された２Ｄ点の２Ｄ位置とそれに相当するエピ極線との距離が最も小さい２Ｄ位置の組を同一物体の２Ｄ位置同士の対応とする。これにより、同一時刻の複数の画像（ただし、少なくとも２つの画像）の各々で各物体の２Ｄ位置が得られるため、位置推定部１０１は、これらの２Ｄ位置から物体の３Ｄ位置を推定することができる。なお、３Ｄ位置は、例えば、三角測量等の既知の手法を用いればよい。

ここで、図３に示す例では、簡単のため、３Ｄ点を１点（Ｐ）のみ記載しているが、複数の物体が存在する場合は、３Ｄ点は複数点（Ｐ_１，Ｐ_２，・・・）存在する。この場合、これら複数の３Ｄ点がそれぞれの画像に射影された複数の２Ｄ点の２Ｄ位置（Ｑ_Ａ１，Ｑ_Ａ２，・・・又はＱ_Ｂ１，Ｑ_Ｂ２・・・）が存在する。例えば、２Ｄ位置Ｑ_Ａが存在する画像Ｇ_Ａには、他の撮影装置２０Ｂの視点と３Ｄ点Ｐ_１とを結ぶ３Ｄ線を射影したエピ極線Ｌ_Ａ１、同じく他の撮影装置２０Ｂの視点と３Ｄ点Ｐ_２とを結ぶ３Ｄ線を射影したエピ極線Ｌ_Ａ２等、エピ極線が３Ｄ点の数（Ｌ_Ａ１，Ｌ_Ａ２，・・・）だけ存在する。したがって、２Ｄ位置Ｑ_Ａとそれらのエピ極線の距離の最も小さい組を同一物体の２Ｄ位置の対応とする。

なお、上述したように、或る物体の３Ｄ位置を推定するためには、同一時刻で少なくとも２つの画像上で当該物体の２Ｄ位置を得る必要がある。一方で、画像上で複数の物体像（連結画素領域）が重なった場合、各々の物体の２Ｄ重心点を計算することができない。このため、図２に示したように、視軸が異なる複数の撮影装置２０で各物体を撮影することが好ましい。これにより、物体像の重なりのない画像が２つ以上得られる確率が増え、３Ｄ位置の計算ができる場合を増やすことができる。

特徴量抽出部１０２は、同一時刻における複数の画像上の各物体像からそれぞれ特徴量を抽出する。本実施形態では、この特徴量を用いて、回帰モデルにより姿勢行列を推定する。ここで、本実施形態では、三軸の長さが互いに異なる楕円体は画像上で楕円に近似的に射影投影されるものとする。すると、例えば、図４に示すように、画像上には或る物体Ｏを射影投影した物体像Ｏ´として楕円領域が含まれることになる。

図４に示す例では、Ｑが物体像Ｏ´の２Ｄ重心点であり、楕円体（つまり、物体Ｏ）の３Ｄ重心点が投影された点である。姿勢行列を推定するための特徴量として、物体像Ｏ´の長軸Ａ_１の正の向きと画像の水平方向の正の向きとが成す角度θと、物体像Ｏ´の短軸Ａ_２の正の向きと画像の水平方向の正の向きとが成す角度φと、直軸Ａ_１の長さｌ_１と短軸Ａ_２の長さｌ_２との比ｒ＝ｌ_２／ｌ_１と、ｌ_２とｌ_１との積Ｓ＝１_２×ｌ_１とを用いる。すなわち、特徴量抽出部１０２は、物体像Ｏ´毎に、その特徴量（θ，φ，ｒ，Ｓ）を抽出する。

ここで、上記の特徴量（θ，φ，ｒ，Ｓ）のうち、角度θ，φを抽出するためには、長軸Ａ_１及び短軸Ａ_２の正の向きを決める必要がある。上述したように、各物体（楕円体）は４つの領域Ｄ_１～Ｄ_４に分けられており、これら領域Ｄ_１～Ｄ_４は画像上で互いに異なる輝度の画素領域として投影される。このため、物体像Ｏ´の外周に含まれる画素のうち、任意の２画素間の距離が最も長い軸を長軸Ａ_１として、この長軸Ａ_１の端点間の輝度差により正の向きを決めればよい。同様に、物体像Ｏ´の２Ｄ重心点Ｑを通り、長軸Ａ_１に垂直な軸を短軸Ａ_２として、この短軸Ａ_２の端点間の輝度差により正の向きを決めればよい。

例えば、長軸と楕円体表面との交点のうち、領域Ｄ_１に含まれる交点を第１の交点、領域Ｄ_２に含まれる交点を第２の交点として、第２の交点から第１の交点へ向かう方向を長軸の正の方向とする。また、例えば、領域Ｄ_１が投影された画素領域の方が、領域Ｄ_２が投影された画素領域よりも輝度が高いものとする。この場合、長軸Ａ_１の正の方向は、輝度が低い方の端点から、輝度が高い方の端点への方向と決まる。短軸Ａ_２の方向についても同様に正の方向を決めることができる。

ただし、例えば、短軸Ａ_２が楕円体の短軸に該当する場合には、端点間で輝度差がないことが有り得る。この場合には、予め決められた方向を短軸Ａ_２の正の方向とすればよい。

或る３Ｄ位置・姿勢のとき、画像上の楕円領域の長軸、短軸の角度θ，φを常に定まった方向に規定することにより、上記の特徴量（θ，φ，ｒ，Ｓ）と姿勢行列との一対一関係ができる。これにより、後述するように、３Ｄ位置と特徴量（より正確には、この特徴量から得られる特徴量）とを用いて姿勢行列を計算する回帰モデルが構成可能となる。

なお、上記で説明した長軸Ａ_１及び短軸Ａ_２の正の方向を決める方法は一例であって、他の方法により長軸Ａ_１及び短軸Ａ_２の正の方向を決めてもよい。例えば、楕円体の表面と三軸の正方向との交点に特異な３Ｄ点が存在する場合には、画像上に投影された２Ｄ点（つまり、特異な３Ｄ点を画像上に投影した点）を用いて、長軸Ａ_１及び短軸Ａ_２の正の方向を決めることが可能である。

姿勢推定部１０３は、特徴量抽出部１０２により抽出された特徴量と、位置推定部１０１により推定された３Ｄ位置とを用いて、回帰モデルにより姿勢行列を計算する。これにより、３次元物体の姿勢が推定される。

ここで、特徴量抽出部１０２により抽出される特徴量は、物体の姿勢だけでなく、３Ｄ位置にも依存する。このため、回帰モデルに入力する入力データとしては、同一時刻における複数の画像（本実施形態では３枚の画像）からそれぞれ抽出した特徴量だけでなく、位置推定部１０１により推定された３Ｄ位置も用いる。また、特徴量に含まれるθ及びφはそのまま回帰モデルに入力するのではなく、ｃｏｓ及びｓｉｎの値を用いる。したがって、画像Ｇ_Ａ，Ｇ_Ｂ及びＧ_Ｃからそれぞれ抽出された特徴量を（θ_Ａ，φ_Ａ，ｒ_Ａ，Ｓ_Ａ），（θ_Ｂ，φ_Ｂ，ｒ_Ｂ，Ｓ_Ｂ）及び（θ_Ｃ，φ_Ｃ，ｒ_Ｃ，Ｓ_Ｃ）、３Ｄ位置をＰ＝（Ｘ_Ｐ，Ｙ_Ｐ，Ｚ_Ｐ）とすれば、回帰モデルへの入力データは、（ｃｏｓθ_Ａ，ｃｏｓφ_Ａ，ｓｉｎθ_Ａ，ｓｉｎφ_Ａ，ｒ_Ａ，Ｓ_Ａ，ｃｏｓθ_Ｂ，ｃｏｓφ_Ｂ，ｓｉｎθ_Ｂ，ｓｉｎφ_Ｂ，ｒ_Ｂ，Ｓ_Ｂ，ｃｏｓθ_Ｃ，ｃｏｓφ_Ｃ，ｓｉｎθ_Ｃ，ｓｉｎφ_Ｃ，ｒ_Ｃ，Ｓ_Ｃ，Ｘ_Ｐ，Ｙ_Ｐ，Ｚ_Ｐ）と表される２１次元のデータである。なお、回帰モデルからの出力データは、姿勢行列Ｒ∈Ｒ^３×３である。

ここで、回帰モデルは、２１次元のデータを入力とするニューラルネットワークと、このニューラルネットワークの出力を正規直交化する正規直交化処理部とで構成される。正規直交化処理部が必要な理由は、ニューラルネットワークの出力は、姿勢行列の条件（つまり、直行行列かつｄｅｔ｜Ｒ｜＝１）を満たさない場合があるためである。回帰モデルに含まれるニューラルネットワークの一例を図５に示す。図５に示すように、回帰モデルに含まれるニューラルネットワークは、２１次元の入力層（つまり、ユニット数が２１個の入力層）と、３２次元の中間層と、１６次元と中間層と、９次元の出力層とで構成される。また、第１層目～第４層目までの各層は全結合層であり、入力層及び出力層の活性化関数には線形変換、中間層の活性化関数にはＲｅＬＵ（Rectified Linear Unit）を用いる。なお、図５に示すニューラルネットワークは一例であって、中間層の次元（ユニット数）や中間層の層数、活性化関数等は適宜変更し得る。

上記の回帰モデルは、例えば、教師あり学習の手法により学習させればよいが、本実施形態ではその学習方法を工夫する。ここで、例えば、同一時刻における全ての画像からの特徴量を回帰モデルに入力するように構成した場合、物体像が重なり、或る画像で特徴量が得られないときに回帰モデルのへの入力データの一部が欠損し、姿勢行列が推定できなくなる。通常、物体の３Ｄ位置は物体像が重ならない画像が２つ以上あれば計算することができる。このため、３Ｄ姿勢も同様に、物体像が重ならない画像が２以上あれば計算することができると考えられる。物体像が重なった場合に対応するためには、通常、あらゆる重なりの場合に対応した、任意の２つの画像だけの特徴量を入力した回帰モデルが全て必要なる。本実施形態では、この手間を省くために、重なりが起こっても単一の回帰モデルで姿勢行列が計算できるようにするため、ニューラルネットワークの学習用のデータセットに対して以下の工夫を行う。

通常、学習用のデータセットは、物体単体を様々な３Ｄ位置かつ姿勢で複数の撮影装置によって撮影した複数の画像の各々から得られた特徴量と、３Ｄ位置とを入力データ、その姿勢を表す姿勢行列を教師データとして作成する。このとき、物体像が重なった画像の特徴量は得られないため、本実施形態では、物体像が重ならない画像から得られる特徴量の値の範囲外（つまり、上限値及び下限値の範囲外）の所定の値に固定して、物体像が重なった場合の特徴量の値とする。すなわち、本実施形態では、通常の学習用データ（複数の画像の各々から得られた特徴量と３Ｄ位置とを入力データ、姿勢行列を教師データとする学習用データ）に加えて、物体像が重なった場合を想定した学習用データ（所定の値に固定した特徴量と３Ｄ位置とを入力データ、姿勢行列を教師データとする学習用データ）も含まれるデータセットを用いて学習を行う。ニューラルネットワークが学習により獲得できる関数は多対一の写像も可能であるため、このような学習用のデータセットで学習しても回帰モデルを構成することができる。なお、実際に姿勢を推定する場合（つまり、学習済みのニューラルネットワークが含まれる回帰モデルを用いる場合）に、画像の物体像が重なったときは、当該画像の特徴量の値を上記の所定の値にして回帰モデルに入力する。

＜３Ｄ位置及び姿勢の推定＞
次に、本実施形態に係る推定装置１０により物体の位置及び姿勢を推定する場合の処理の流れについて説明する。なお、以降では、或る時刻における３枚の画像Ｇ_Ａ～Ｇ_Ｃ（つまり、撮影装置２０Ａ～２０Ｃでそれぞれ撮影された画像）を用いて物体の位置及び姿勢を推定する場合について説明する。

≪位置推定処理≫
以降では、各物体の３Ｄ位置を推定するための位置推定処理の流れについて、図６を参照しながら説明する。図６は、本実施形態に係る位置推定処理の流れの一例を示すフローチャートである。

まず、位置推定部１０１は、当該時刻における画像Ｇ_Ａ～Ｇ_Ｃを記憶部１０４から取得する（ステップＳ１０１）。

次に、位置推定部１０１は、各物体がそれぞれ射影投影された物体像を表す前景部分を各画像Ｇ_Ａ～Ｇ_Ｃから抽出する（ステップＳ１０２）。すなわち、位置推定部１０１は、各画像Ｇ_Ａ～Ｇ_Ｃから前景部分の切り出しを行う。これらの前景部分は特徴量抽出部１０２にも渡される。なお、これらの前景部分は、物体像同士の重なりがなければ、楕円領域である（ただし、物体像同士が互いに重なりあっている場合は、その画像内の連結領域の数が、他の重なっていない画像より少ないことにより、検出でき、このような場合には、重なっていない画像間で、対応問題を解けばよい。）。また、物体像同士の重なりがない場合には、どの前景部分がどの物体の物体像であるかは既知又は容易に推測可能であるものとする。

次に、位置推定部１０１は、上記のステップＳ１０２で抽出した前景部分（物体像）から、各物体の２Ｄ位置を計算する（ステップＳ１０３）。上述したように、位置推定部１０１は、各物体像の２Ｄ重心点を計算し、これらの２Ｄ重心点を２Ｄ位置として、２つの画像間でエピ極線と２Ｄ位置との間の距離が最も短い２Ｄ位置同士を同一物体像の２Ｄ位置として対応付ける。なお、上述したように、物体像が重なっている場合、その２Ｄ重心点を計算することはできない。本ステップでは、各物体像は少なくとも２つの画像で物体像が重なっておらず、少なくとも２つの画像で２Ｄ重心点（つまり、２Ｄ位置）が計算できたものとする。

最後に、位置推定部１０１は、上記のステップＳ１０３で得られた各物体の２Ｄ位置から、各物体の３Ｄ位置を推定する（ステップＳ１０４）。上述したように、３Ｄ位置の推定には、例えば、三角測量等の既知の手法を用いればよい。これらの３Ｄ位置は姿勢推定部１０３に渡される。

≪姿勢推定処理≫
以降では、各物体の姿勢を推定するための姿勢推定処理の流れについて、図７を参照しながら説明する。図７は、本実施形態に係る姿勢推定処理の流れの一例を示すフローチャートである。

まず、特徴量抽出部１０２は、位置推定部１０１から渡された前景部分を入力する（ステップＳ２０１）。

次に、特徴量抽出部１０２は、上記のステップＳ２０１で入力された各前景部分について、物体毎に、当該物体に対応する前景部分が楕円領域である場合（つまり、物体像が重なっていない場合）には当該楕円領域から特徴量を抽出する（ステップＳ２０２）。これにより、物体毎に、画像Ｇ_Ａの前景部分から抽出された第１の特徴量と、画像Ｇ_Ｂの前景部分から抽出された第２の特徴量と、画像Ｇ_Ｃの前景部分から抽出された第３の特徴量とが得られる。なお、上述したように、物体像が重なっている場合には、特徴量の値を所定の値とする。例えば、画像Ｇ_Ａの前景部分に物体像の重なりが生じている場合には、第１の特徴量の各値のそれぞれを、それぞれ所定の値とする。

最後に、姿勢推定部１０３は、物体毎に、位置推定部１０１から渡された３Ｄ位置（当該物体の３Ｄ位置）と、上記のステップＳ２０２で抽出された特徴量（当該物体の第１の特徴量～第３の特徴量）とを用いて、回帰モデルによって当該物体の姿勢を表す姿勢行列を計算する（ステップＳ２０３）。なお、上述したように、姿勢推定部１０３は、例えば、３Ｄ位置と第１の特徴量～第３の特徴量とを用いて２１次元の入力データを作成し、この２１次元の入力データを回帰モデルに入力することで姿勢行列Ｒを得る。これにより、当該物体の姿勢として、この姿勢行列Ｒにより表される姿勢が推定される。

＜推定結果の評価＞
以降では、本実施形態に係る推定装置１０によって或る時刻における各物体の３Ｄ位置及び姿勢を推定した結果の評価について説明する。なお、この評価に使用した回帰モデルに含まれるニューラルネットワークとしては、図５に示すニューラルネットワークを用いた。また、このニューラルネットワークの学習では、損失関数には平均二乗誤差（ＭＳＥ：Mean Squared Error）、最適化手法にはＡｄａｍを用いた。また、ミニバッチ数は９０、エポック数は１００とした。

このとき、本実施形態に係る推定装置１０で或る時刻における物体Ｏ_１～Ｏ_３の３Ｄ位置及び姿勢を推定した結果を図８に示す。図８は、上段が真値、下段が推定結果を表し、左から撮影装置２０Ａの投影面内での各物体の位置及び姿勢、撮影装置２０Ｂの投影面内での各物体の位置及び姿勢、撮影装置２０Ｃの投影面内での各物体の位置及び姿勢、及び３Ｄ空間内での各物体の位置及び姿勢を表している。図８に示すように、真値と推定結果とを比較すると、僅かな誤差はあるものの、３Ｄ位置及び姿勢ともに高精度で推定できていることがわかる。

また、本実施形態に係る推定装置１０で或る時刻における物体Ｏ_１～Ｏ_３の３Ｄ位置及び姿勢を推定したときに、一部の物体像に重なりが生じた場合の結果を図９に示す。図９でも、上段が真値、下段が推定結果を表し、左から撮影装置２０Ａの投影面内での各物体の位置及び姿勢、撮影装置２０Ｂの投影面内での各物体の位置及び姿勢、撮影装置２０Ｃの投影面内での各物体の位置及び姿勢、及び３Ｄ空間内での各物体の位置及び姿勢を表している。図９に示すように、撮影装置２０Ｃの投影面内で物体Ｏ_１と物体Ｏ_３とが一部重なっている。なお、例えば、この場合、撮影装置２０Ｃを含む２台の撮影装置２０を用いた場合には物体Ｏ_１及びＯ_３の２Ｄ位置は計算できないが、本実施形態のように、３台の撮影装置２０を用いることで、物体Ｏ_１及びＯ_３の２Ｄ位置を計算することができる。

図９に示すように、物体像に重なりある場合であっても、僅かな誤差はあるものの、３Ｄ位置及び姿勢ともに高精度で推定できていることがわかる。

なお、この評価では撮影装置２０Ａ～２０Ｃの３台でそれぞれ１０００時刻分の画像（合計３０００画像）を撮影したが、１つの画像で物体像の重なりが生じるが、残り２つの画像で物体像が重なっていない画像が７１時刻分得られた。したがって、この場合、３台の撮影装置２０を用いることで、２台の撮影装置２０を用いる場合と比べて全体の０．０７１だけ新たな２Ｄ位置が計算可能になったといえる。ただし、どの程度、新たな２Ｄ位置が計算可能になるかは評価に使用する動画に依存する。

このように、本実施形態に係る推定装置１０を用いることで、複数の画像を用いて、閉空間内の複数同種の区別できない３Ｄ物体の３Ｄ位置と姿勢とを高精度に推定するが可能となる。なお、本実施形態では、物体の形状は楕円体であるものとしたが、楕円体以外の近似３Ｄ形状として、物体のシルエットの画像から得られる特徴量を用いて３Ｄ姿勢を計算可能なものであれば同様に用いることが可能である。

＜ハードウェア構成＞
最後に、本実施形態に係る推定装置１０のハードウェア構成について、図１０を参照しながら説明する。図１０は、本実施形態に係る推定装置１０のハードウェア構成の一例を示す図である。

図１０に示すように、本実施形態に係る推定装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、推定装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、外部装置とのインタフェースである。外部装置には、記録媒体２０３ａ等がある。推定装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、推定装置１０が有する各機能部（位置推定部１０１、特徴量抽出部１０２及び姿勢推定部１０３）を実現する１以上のプログラムが格納されていてもよい。

なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、推定装置１０を通信ネットワークに接続するためのインタフェースである。なお、推定装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。推定装置１０が有する各機能部は、例えば、メモリ装置２０６等に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。推定装置１０が有する記憶部１０４は、例えば、メモリ装置２０６を用いて実現可能である。なお、例えば、記憶部１０４は、推定装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）を用いて実現されていてもよい。

本実施形態に係る推定装置１０は、図１０に示すハードウェア構成を有することにより、上述した位置推定処理及び姿勢推定処理を実現することができる。なお、図１０に示すハードウェア構成は一例であって、推定装置１０は、他のハードウェア構成を有していてもよい。例えば、推定装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１０推定装置
１０１位置推定部
１０２特徴量抽出部
１０３姿勢推定部
１０４記憶部
２０１入力装置
２０２表示装置
２０３外部Ｉ／Ｆ
２０３ａ記録媒体
２０４通信Ｉ／Ｆ
２０５プロセッサ
２０６メモリ装置
２０７バス

Claims

複数の物体が存在する三次元空間を複数の撮影装置でそれぞれ撮影した複数の画像を用いて、前記画像の画素領域の中で前記物体を表す画素領域の代表点を計算する計算手順と、
前記計算手順で計算された代表点から、前記三次元空間における前記物体の位置を推定する位置推定手順と、
前記物体を表す画像領域から所定の特徴量を抽出する抽出手順と、
前記位置推定手順で推定された位置と、前記抽出手順で抽出された特徴量とを用いて、予め学習された回帰モデルによって前記三次元空間における前記物体の姿勢を推定する姿勢推定手順と、
をコンピュータが実行することを特徴とする推定方法。
前記回帰モデルは、物体が存在する三次元空間を複数の撮影装置でそれぞれ撮影した複数の画像から抽出された所定の特徴量と前記三次元空間における前記物体の位置とを入力データ、前記物体の姿勢を表す姿勢行列を教師データとした第１の学習用データと、
２以上の物体間で前記画像領域が重なった場合の特徴量として所定の値を設定した特徴量と前記三次元空間における前記物体の位置とを入力データ、前記物体の姿勢を表す姿勢行列を教師データとした第２の学習用データと、を含むデータセットを用いて学習され、
前記抽出手順は、
２以上の物体間で前記物体を表す画像領域同士の少なくとも一部が重なっている場合、前記所定の値を前記特徴量とする、ことを特徴とする請求項１に記載の推定方法。
前記複数の物体は同種の互いに区別できない物体であり、
前記位置推定手順は、
前記複数の画像のうちの２つの画像間で、前記複数の物体のそれぞれを表す複数の画像領域の代表点の対応問題をエピ極拘束条件の下で解くことで、前記２つの画像で同一物体に対応する代表点の組を特定し、特定した代表点の組から前記物体の位置を推定する、ことを特徴とする請求項１又は２に記載の推定方法。
前記位置推定手順は、
前記２つの画像間でエピ極線との距離の合計が最小の代表点同士を、同一物体に対応する代表点の組と特定する、ことを特徴とする請求項３に記載の推定方法。
前記抽出手順は、
前記物体を表す画像領域が楕円領域に近似できる場合、前記楕円領域によって表される楕円の長軸の正の向きと前記画像の水平方向の正の向きとが成す第１の角度と、前記楕円の短軸の正の向きと前記画像の水平方向の正の向きとが成す第２の角度と、前記長軸の長さと前記短軸の長さとの比と、前記長軸の長さと前記短軸の長さとの積とを前記特徴量として抽出する、ことを特徴とする請求項１乃至４の何れか一項に記載の推定方法。
前記抽出手順は、
前記画像の画素領域の中で、前記物体の表面を分割する４つの領域の各々を表す画素領域の輝度の差を用いて、前記長軸の正の方向と前記短軸の正の方向とを決定する、ことを特徴とする請求項５に記載の推定方法。
複数の物体が存在する三次元空間を複数の撮影装置でそれぞれ撮影した複数の画像を用いて、前記画像の画素領域の中で前記物体を表す画素領域の代表点を計算する計算手段と、
前記計算手段で計算された代表点から、前記三次元空間における前記物体の位置を推定する位置推定手段と、
前記物体を表す画像領域から所定の特徴量を抽出する抽出手段と、
前記位置推定手段で推定された位置と、前記抽出手段で抽出された特徴量とを用いて、予め学習された回帰モデルによって前記三次元空間における前記物体の姿勢を推定する姿勢推定手段と、
を有することを特徴とする推定装置。
コンピュータに、請求項１乃至６の何れか一項に記載の推定方法における各手順を実行させるためのプログラム。