JP2017187861A

JP2017187861A - 情報処理装置およびその制御方法

Info

Publication number: JP2017187861A
Application number: JP2016074599A
Authority: JP
Inventors: 孝嗣牧田; Takatsugu Makita; 将由山▲崎▼; Masayoshi Yamazaki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-04-01
Filing date: 2016-04-01
Publication date: 2017-10-12
Anticipated expiration: 2036-04-01
Also published as: EP3236424A3; KR102169309B1; US20170289453A1; US10419673B2; CN107274450A; JP6744747B2; EP3236424A2; KR20170113122A; EP3236424B1; CN107274450B; EP3236424B8

Abstract

【課題】カメラ位置姿勢推定において不適切なカメラ画像が参照されることを防止し、カメラ位置姿勢推定の安定性を向上させる。【解決手段】情報処理装置は、撮像装置により撮影された画像を取得し、取得された画像に関して、位置姿勢推定に影響を及ぼす要因の発生を検出し、検出された要因に基づいて当該取得された画像を登録するか否かを判断し、登録すると判断された画像群を用いて、撮像装置から取得された画像からその位置姿勢を推定するための画像データベースを構築する。【選択図】図１

Description

本発明は、撮像画像から撮像装置の位置姿勢を推定するための画像データベースの生成に関する。

近年、現実空間と仮想空間を違和感なく融合させて提示する複合現実感（Mixed Reality、以下、ＭＲと記載する）技術の研究が盛んである。ＭＲ技術の中でも、現実空間に仮想空間を重ね合わせて提示する拡張現実感（Augmented Reality、以下ＡＲと記載する）技術が注目を集めている。ＭＲ技術やＡＲ技術において重要な課題の一つは、現実空間と仮想空間との間の位置合わせをいかに実時間で正確に行うかであり、この課題について多くの取り組みが行われてきた。ＭＲ、ＡＲにおける位置合わせの問題は、ビデオシースルー方式においては、シーン中における（すなわちシーン中に規定される基準座標系における）撮像装置の位置および姿勢を求める問題となる。

ビデオシースルー方式における位置合わせを実現する方法の代表例として、シーン中に形状情報の既知な人工的指標を配置し、指標を撮像装置で撮影して認識し、基準座標系における撮像装置の位置および姿勢を求めるという手法がある。基準座標系における撮像装置の位置および姿勢は、撮像装置が撮影した画像内における指標の投影位置（画像座標）と、既知の情報である指標の基準座標系における３次元座標との対応関係とから求められる。

また、ビデオシースルー方式における位置合わせを実現する方法として、人工的な指標を用いるのではなく、シーン中に元来存在する特徴（以下、自然特徴）を利用する位置合わせの研究も盛んに行われている。非特許文献１、非特許文献２では、画像中でのエッジと観察対象の３次元モデルとの対応をもとに撮像装置の位置および姿勢を求める方法が開示されている。３次元モデルに対応するエッジ（対応点）の検出に誤検出が発生すると撮像装置の位置および姿勢の精度が低いものになり、ＭＲ、ＡＲの位置合わせの精度が低下する。そこで、非特許文献１、非特許文献２では、ロバスト推定手法の一つであるＭ推定を用いて、重み付き誤差最小化を行うことにより誤検出の影響を排除している。

一方、非特許文献３、非特許文献４では、画像上でのエッジではなく、Ｈａｒｒｉｓオペレータ，Ｍｏｒａｖｅｃオペレータなどによって検出される点特徴を用いて撮像装置の位置および姿勢を求める方法が開示されている。点特徴を利用する場合でも、エッジを利用する場合と同様に、誤検出の問題が発生する。そこで非特許文献３、非特許文献４では、ＲＡＮＳＡＣ（RANdom SAmple Consensus）アルゴリズムにより誤検出された点特徴を排除している。ＲＡＮＳＡＣを用いた誤検出排除では、ランダムに選出された対応点を用いて撮像装置の位置および姿勢を推定し、その推定値に同意する対応点の数が最も多い場合の対応点の集合に含まれない対応点が誤検出として排除される。

T. Drummond and R. Cipolla: "Real-time visual tracking of complex structures", IEEE Trans. on Pattern Analysis and Machine Intelligence, vol.24, no.7, pp.932-946, 2002. A. I. Comport, E. Marchand, and F. Chaumette: "A real-time tracker for markerless augmented reality", Proc. The Second Int'l Symp. on Mixed and Augmented Reality (ISMAR03), pp.36-45, 2003. G. Simon, A. W. Fitzgibbon, and A. Zisserman: "Markerless tracking using planar structures in the scene", Proc. Int'l Symp. on Augmented Reality 2000 (ISAR2000), pp.120-128, 2000. I. Skrypnyk and D. G. Lowe: "Scene modelling, recognition and tracking with invariant features", Proc. The Third Int'l Symp. on Mixed and Augmented Reality (ISMAR04), pp.110-119,2004. 加藤博一："拡張現実感システム構築ツールＡＲＴｏｏｌＫｉｔの開発"，電子情報通信学会技術研究報告，日本，社団法人電子情報通信学会，２００２年２月１４日，第１０１巻，第６５２号，p.79-86 （実施形態で参照される）橋本正一，齊藤英雄："PSFのパラメータ分布を推定するシフトバリアントなぼけ画像の復元法"電子情報通信学会論文誌 D Vol.J77-D2 No.4 pp.719-728，1994 （実施形態で参照される）宮原孝行，玉津幸政，栗畑博幸，高橋友和，目加田慶人，井手一郎，村瀬洋："運転支援のための車載カメラ映像による状況別降雨認識"デンソーテクニカルレビュー Vol.12 No.１ pp.50-57，2007 （実施形態で参照される）

非特許文献１〜４に記載されたカメラ位置姿勢推定手法は、移動する物体がカメラ画像に写りこまない環境（以下、静止環境）を前提とした手法である。非特許文献１〜３では、フレーム間での対応点追跡によりカメラ位置姿勢推定を行うために、追跡している点が実環境内で移動した場合には、推定精度が低下してしまう。また、時刻変化に伴って位置姿勢が変化する物体（以下、動物体）によって追跡している点が隠蔽されることによって追跡可能な点数が減少したり、追跡の誤対応が増大したりすることで、推定精度が低下してしまう。

また、非特許文献４では、撮影した画像群全体から選択された一部分の画像群を画像データベースに登録しておき、現在の画像との相対位置姿勢の推定誤差が最も小さくなる画像を画像データベースから選択して利用することでカメラ位置姿勢の推定を行う。ここで、人や車などが通る、もしくは、水が流れている等の環境でデータベースを構築する場合を考える。この場合、動物体が写り込んだ画像がデータベースに登録されてしまい、画像データベースに登録された画像と現在フレームの間で、環境に存在する物体の対応付けが正しく行えなくなる。そのため、画像に動物体が写り込んでしまう動的環境では、画像データベースを参照したカメラ位置姿勢推定は困難となる。

一方、従来、画像処理技術およびカメラに搭載された加速度センサ等の利用によって、画像に写り込んだ動物体の領域推定を行う技術が開発されている。しかしながら、従来は画像に写り込んだ動物体の領域をデータベースへのカメラ画像登録判断に利用することはなかった。また、動物体の位置および姿勢を計測する機能がある場合には、その計測機能の計測結果を利用して画像上における動物体の領域を推定することが可能である。しかしながら、従来は動物体の写る領域の情報をデータベースへのカメラ画像登録判断に利用することはなかった。

本発明は上述の課題に鑑みてなされたものであり、撮像装置の位置姿勢推定において不適切な画像が参照されることを防止し、撮像装置の位置姿勢推定の安定性を向上させることを目的とする。

上記目的を達成するための本願発明の一態様による情報処理装置は以下の構成を備える。すなわち、
撮像装置により撮影された画像を取得する取得手段と、
前記取得手段により取得された画像に関して、位置姿勢推定に影響を及ぼす要因の発生を検出する検出手段と、
前記検出手段により検出された要因に基づいて、前記画像を登録するか否かを判断する判断手段と、
前記判断手段により登録すると判断された画像群を用いて、前記取得手段により取得された画像から前記撮像装置の位置姿勢を推定するための画像データベースを構築する構築手段と、を備える。

本発明によれば、撮像装置の位置姿勢推定において不適切な画像が参照されることが防止され、撮像装置の位置姿勢推定の安定性が向上する。

第１実施形態による情報処理装置１００の構成例を示すブロック図。第１実施形態による登録判断を説明する図。第１実施形態による位置姿勢計測方法の処理手順を示すフローチャート。第２実施形態による位置姿勢計測方法の処理手順を示すフローチャート。第２実施形態による登録判断を説明する図。変形例による登録判断を説明する図。変形例による登録判断を説明する図。情報処理装置１００のハードウェア構成例を示すブロック図。

以下、添付の図面を参照して本発明の好適な実施形態のいくつかを説明する。

＜第１実施形態＞
図１は、第１実施形態における情報処理装置１００の構成例を示すブロック図である。情報処理装置１００は、画像取得部１０１、検出部１０２、画像登録部１０３、画像データベース１０４、再構成部１０５、位置姿勢推定部１０６、ＭＲ画像生成部１０７を有する。観察者は撮像部１８０を保持しており、撮像部１８０により得られる画像（カメラ画像）には実環境が写っている。

第１実施形態の情報処理装置１００は、撮像部１８０（カメラ）により撮影された画像（カメラ画像）を用いて、撮像部１８０の位置姿勢を推定するための画像データベース１０４を生成する。画像データベース１０４の生成では、まず、検出部１０２が画像取得部１０１により取得された画像（カメラ画像）に関して、位置姿勢推定に影響を及ぼす要因の発生を検出する。本実施形態の検出部１０２は、上記の要因として、取得された画像に存在する所定の動物体の領域（たとえば、人の手の領域）を検出する。画像登録部１０３は、検出部１０２による要因の検出結果に基づいて、入力されたカメラ画像について画像データベース１０４に登録するか否かを判断する。これにより、位置姿勢の推定に不適切なカメラ画像の登録が回避され、位置姿勢の推定に適したカメラ画像による画像データベース１０４が生成される。また、ＭＲ画像の生成では、逐次的に入力されるカメラ画像から、位置姿勢推定部１０６が画像データベース１０４を参照して撮像部１８０の実環境に対する位置および姿勢を推定する。ＭＲ画像生成部１０７は、位置姿勢推定部１０６により推定された撮像部１８０の位置姿勢とカメラ画像とに基づいてＭＲ画像を生成する。

なお、第１実施形態では、ステレオ画像処理により推定された輝度勾配の３次元分布の投影を利用した位置合わせ手法を用いるものとする。また、第１実施形態では、上述の所定の動物体として、人の手が検出される。すなわち、検出部１０２は、観察者が保持した撮像部１８０から得られるカメラ画像に動物体として写り込んだ（観察者の）手を検出する。なお、第１実施形態では、動物体として観察者の手を用いるが、これに限られるものではない。例えば、人の足、電子機器のケーブル、または周辺に存在する他の人、などが所定の動物体として検出されてもよい。あるいは、あらかじめ決められた物体を動物体として検出することに加えて、もしくはこれに代えて、動画として逐次的に入力されるカメラ画像から実際に動いている物体を検出して、これを動物体として用いてもよい。

画像取得部１０１は、たとえば、ビデオキャプチャボード、ＩＥＥＥ１３９４インタフェースボード、ＵＳＢポートなどによって実現され、撮像部１８０からカメラ画像を取得する。画像取得部１０１において、第１画像取得部１０１ａは、撮像部１８０から、画像データベース１０４のための初期化用カメラ画像を取得し、第２画像取得部１０１ｂはＭＲアプリケーションで用いるためのカメラ画像を取得する。なお、初期化用カメラ画像とは、その画像を撮影した撮像部１８０の位置姿勢が既知の撮影画像であり、撮像部１８０から取得されてもよいし、そのような撮影画像を保持している不図示の記憶装置から取得されてもよい。また、機能構成上の観点から、第１画像取得部１０１ａ、第２画像取得部１０１ｂの２つのブロックに分けて示したが、これら機能を実現するために個別のハードウェアが用いられる必要はない。

検出部１０２は、画像取得部１０１が取得したカメラ画像から動物体を検出し、その検出結果を画像登録部１０３に供給する。第１検出部１０２ａは第１画像取得部１０１ａが取得したカメラ画像について動物体の領域（以下、動物体領域）を検出し、第２検出部１０２ｂは第２画像取得部１０１ｂが取得したカメラ画像について動物体領域を検出する。なお、機能構成上の観点から、第１検出部１０２ａ、第２検出部１０２ｂの２つのブロックに分けて示したが、これら機能を実現するために個別のハードウェアが用いられる必要はない。

画像登録部１０３は、画像選択部１２１と登録判断部１２２を含む。画像選択部１２１は、第１画像取得部１０１ａで取得されたカメラ画像から、第１検出部１０２ａによる動物体領域の検出結果に基づいて初期化用のカメラ画像を選択する（選択判断）。選択された初期化用のカメラ画像は画像データベース１０４へ登録される。登録判断部１２２は、ＭＲアプリケーションの実行中に画像取得部１０１から逐次に入力されるカメラ画像について、第２検出部１０２ｂによる動物体領域の検出結果に基づいて画像データベース１０４へ登録するか否かを判断する（登録判断）。登録すると判断されたカメラ画像は画像データベース１０４へ登録される。なお、機能構成上の観点から、画像選択部１２１と登録判断部１２２の２つのブロックに分けて示したが、これら機能を実現するために個別のハードウェアが用いられる必要はない。撮像部１８０は第１画像取得部１０１ａおよび第２画像取得部１０１ｂに接続されている。表示部１９０はＭＲ画像生成部１０７に接続されている。

以上の構成について、更に詳細に説明する。観察者は撮像部１８０を保持しており、撮像部１８０から得られるカメラ画像には実環境が写っており、場合によっては観察者の手が写り込んでいる。第１画像取得部１０１ａ、第２画像取得部１０１ｂが取得したカメラ画像は、それぞれ第１検出部１０２ａ、第２検出部１０２ｂに入力される。第１検出部１０２ａと第２検出部１０２ｂは、入力されたカメラ画像から動物体領域を検出する。

第１検出部１０２ａ、第２検出部１０２ｂは、カメラ画像に写り込んだ動き得る特定の物体の領域を動物体領域として検出する。本実施形態では、特定の物体として「手」が検出される。観察者の手は実環境の物体より手前にあるものとする。なお、本実施形態では、手の領域は、不図示の記憶部に予め設定された手の色の定義に基づいて検出されるものとする。たとえば、観察者の手を予め撮影しておき、手の色を表す色領域を設定しておき、カメラ画像中の画素の閾値処理によって手の領域を推定することができる。もちろん、手の領域の取得方法はこれに限るものではなく、手首や指に装着された位置センサの情報を基に、楕円フィッティングによって推定するなど、公知の何れの手法が用いられ得る。

画像選択部１２１は、第１画像取得部１０１ａにより取得された初期カメラ画像群から、第１検出部１０２ａが検出した動物体領域に基づいて画像データベース１０４へ登録する初期化用カメラ画像を選択する（選択判断）。なお、本実施形態では、動物体領域とは（観察者の）手の写り込んだ領域である。選択される初期化用カメラ画像は１枚でもよいし、複数枚でもよい。本実施形態では１枚の初期化用カメラ画像が選択されるものとする（複数枚の初期化用カメラ画像が選択される例は、第２実施形態で説明する）。登録判断部１２２は、初期化用カメラ画像の登録後に、第２画像取得部１０１ｂが逐次的に取得したカメラ画像について、第２検出部１０２ｂが検出した動物体領域に基づいて、画像データベース１０４へ登録するか否かの判断（登録判断）を行う。

なお、本実施形態では、画像選択部１２１の選択判断および登録判断部１２２の登録判断の判断条件として、カメラ画像から検出された動物体領域の大きさが考慮される。また、カメラ画像における輝度勾配も選択判断および登録判断の判断条件に用いられる。したがって、本実施形態の第１検出部１０２ａ、第２検出部１０２ｂはカメラ画像から輝度勾配も検出する。

再構成部１０５は、画像データベース１０４に保持されたカメラ画像群を統合し、実環境の３次元の構造を推定、再構成することにより３次元の構造データを生成する。３次元の構造データとは、点の座標位置および点の色を持つ点群データである。ここで、点の座標位置とは、実環境中のある位置・姿勢を座標系の基準として定義される３次元の座標値である。３次元の構造の推定は、画像データベース１０４に保持されたカメラ画像を統合して処理し、単一の３次元モデルを構築する方法、例えば、ＳｆＭ（Structure from Motion）法、などによって実現される。画像データベース１０４には、再構成部１０５によって生成された３次元情報（３次元の構造データ）が関連付けられたカメラ画像群が登録画像群として格納される。こうして、画像データベース１０４の登録画像群のそれぞれのカメラ画像には、撮像部１８０の位置姿勢情報（撮影位置姿勢ともいう）が関連付けられる。

位置姿勢推定部１０６は、第２画像取得部１０１ｂによって取得されたカメラ画像を画像データベース１０４に格納されている登録画像群と比較し、撮像部１８０の撮影位置姿勢を推定する。撮影位置姿勢の推定は、画像同士のマッチングにより最も類似度の高い画像の位置姿勢情報に基づいて行われる。

ＭＲ画像生成部１０７は、第２画像取得部１０１ｂで逐次的に得られるカメラ画像に対し、位置姿勢推定部１０６で得られた撮像部１８０の撮影位置姿勢の推定値に基づいて仮想物体データを描画することによりＭＲ画像を生成する。生成されたＭＲ画像は、表示部１９０に送信され、表示される。表示部１９０は、ヘッドマウントディスプレイ、ヘッドアップディスプレイ、モバイルディスプレイなどによって構成され、ＭＲ画像生成部１０７が生成したＭＲ画像を観察者に提示する。

次に、第１実施形態におけるＭＲ画像生成処理について説明する。図２は、画像登録部１０３が行う初期画像の選択やカメラ画像の登録を説明する図である。図３は、第１実施形態におけるＭＲ画像生成処理の手順を示すフローチャートである。ステップＳ３００〜Ｓ３０３は、主として画像選択部１２１による初期化動作である。ステップＳ３０４〜Ｓ３０９は、ＭＲアプリケーションの動作中に実行されるカメラ画像の登録（画像データベース１０４の更新）およびＭＲ画像の生成処理である。ステップＳ３０４〜Ｓ３０９の処理は、撮像部１８０から逐次的に入力されるカメラ画像（映像）について繰り返し実行される。以下、第１実施形態におけるＭＲ画像生成の処理手順について、図１、図２、図３を用いて説明する。

ステップＳ３００において、第１画像取得部１０１ａが初期化用のカメラ画像群を取得する。次に、ステップＳ３０１において、第１検出部１０２ａが、ステップＳ３００で取得されたカメラ画像群の各カメラ画像について動物体領域と輝度勾配の検出を行う。第１実施形態における動物体は観察者の手であるので、第１検出部１０２ａは初期化用のカメラ画像群の各画像から観察者の手の領域を動物体領域として検出する。ステップＳ３０２において、画像選択部１２１は、ステップＳ３０１で検出された動物体領域と輝度勾配に基づいて、ステップＳ３００で取得された初期化用のカメラ画像群から画像データベース１０４に登録する単一の画像を初期化用カメラ画像として選択する。本実施形態では、画像選択部１２１は、画像中に（観察者の）手の領域がなく、さらに輝度勾配が一定数以上含まれる画像を１枚選択する。

図２（ａ）は、本実施形態において初期化時にデータベースに登録する単一画像を選択する様子の例である。カメラ画像２００、カメラ画像２０１には手が写り込んでいる（動物体領域が存在する）と判断されたために単一画像として選択されない。カメラ画像５０２では、手の領域は検出されないものの、検出された輝度勾配の量が少ないために単一画像として選択されていない。カメラ画像５０３は、観察者の手の領域がなく、さらに輝度勾配が一定数以上含まれるために、単一画像として選ばれる。こうして単一画像の選択が終了すると、処理はステップＳ３０３に進む。ステップＳ３０３において、画像登録部１０３は、ステップＳ３０２で選択された単一画像を用いて画像データベース１０４を生成する。より具体的には、画像登録部１０３は、単一画像を画像データベースに登録し、登録する単一画像の撮影位置姿勢を基準の位置姿勢として登録する。

以上のようにしてステップＳ３００〜Ｓ３０３の初期化処理を終えると、処理はステップＳ３０４へ進む。ステップＳ３０４〜Ｓ３０９では、撮像部１８０から順次に取得されるカメラ画像（本実施形態では動画の各フレーム）を用いて画像データベース１０４が更新され、取得された各カメラ画像に関して撮像部１８０の位置姿勢が取得され、ＭＲ画像が生成される。

まず、ステップＳ３０４において、第２画像取得部１０１ｂは撮像部１８０からカメラ画像を取得する。次に、ステップＳ３０５において、第２検出部１０２ｂは、ステップＳ３０４で取得されたカメラ画像から動物体領域（本実施形態では手の領域）と輝度勾配を検出する。そして、ステップＳ３０６において、登録判断部１２２は、ステップＳ３０４で取得されたカメラ画像を画像データベース１０４へ登録するか否かを判断する。画像を登録すると判断された場合には処理はステップＳ３０７に進み、画像を登録しないと判断された場合には処理はステップＳ３０８に進む。

ステップＳ３０６の登録判断では、ステップＳ３０５において手の領域が検出されておらず、輝度勾配が一定数以上含まれる場合に、カメラ画像を画像データベース１０４に登録すると判断する。もちろん、登録判断のための条件はこれに限られるものではない。たとえば、カメラ画像において推定される手の領域の大きさの画像全体に対する割合が一定値未満であり、輝度勾配が一定数以上含まれる画像を画像データベース１０４に登録するようにしてもよい。なお、手の領域を含んだカメラ画像を登録する場合には、カメラ画像の各画素が手の領域であるか否かを示す情報が付与される。または、各画素が手の領域である確率の情報がカメラ画像に付与されるようにしてもよい。

さらに、初期化時に登録された画像（ステップＳ３０２で選択された画像）との類似度が高い画像を登録してしまうと、データベースの画像枚数が膨大になってしまう。したがって、類似度が非常に高い画像（類似度が所定閾値を超える画像）については登録しないようにしてもよい。

図２（ｂ）は、本実施形態における、カメラ画像を画像データベース１０４に登録するか否かの登録判断の一例を説明する図である。カメラ画像２１０は、検出された手領域が大きいために登録されない。カメラ画像２１１は、手領域が小さく、輝度勾配が一定数以上あるために登録される。カメラ画像２１２は、手領域は小さいが、輝度勾配が一定数未満であるために登録されない。カメラ画像２１３は、初期化時に登録されたカメラ画像２０３（図２（ａ））との類似度が閾値以上になるために登録されない。カメラ画像２１４は、手領域がなく、輝度勾配が一定数以上あるために登録される。このように、画像選択部１２１の選択判断のための判断条件と登録判断部１２２の登録判断のための判断条件は互いに異なっていており、初期化用カメラ画像として適した画像、画像データベースの更新に適した画像が選択、登録される。

ステップＳ３０７において、画像登録部１０３は、ステップＳ３０３で取得されたカメラ画像を画像データベース１０４に登録し、再構成部１０５を用いて画像データベース１０４を更新する。画像データベース１０４の更新では、まず、再構成部１０５が、初期化処理によって登録された画像（Ｓ３０３で登録された画像）の撮影位置姿勢を基準として、画像データベース１０４におけるその他の登録画像の撮影位置姿勢を推定する。次に、その他の登録画像について各画像の撮影位置姿勢の登録が行われる。その他の登録画像の撮影位置姿勢の推定方法では、例えば、データベース内の画像群でＳｆＭ法により画像の撮影位置姿勢の最適化計算を行い、その他の登録画像の撮影位置姿勢が推定される。

次に、ステップＳ３０８において、位置姿勢推定部１０６は、ステップＳ３０４で取得されたカメラ画像からカメラ位置姿勢を推定する。カメラ位置姿勢の推定方法は、例えば、次のとおりである。まず、位置姿勢推定部１０６は、画像データベース１０４の登録画像群から、現在フレームのカメラ画像と最も類似度が高い画像を１枚選択する。次に、位置姿勢推定部１０６は、現在フレームのカメラ画像と画像データベース１０４から選択された登録画像（現在フレームと最も類似度が高い登録画像）の２枚の画像間における画像特徴の対応付けを行い、両者の相対位置姿勢の変化量を推定する。そして、位置姿勢推定部１０６は、推定された相対位置姿勢の変化量と、選択された画像に関して登録されている撮影位置姿勢とに基づいて、撮像部１８０の位置姿勢（カメラ位置姿勢）を推定する。

ただし、現在フレームと選択された画像との間の画像特徴の対応付けにおいて、動物体の領域から抽出された画像特徴を対応づけると、推定誤差が大きくなる。そのため、画像特徴の対応付けは、動物体領域以外の領域を用いて行うようにする。本実施形態では、動物体は観察者の手であるので、手の領域以外の画像領域において抽出された画像特徴同士の対応付けによって、現在フレームと選択された画像との相対位置姿勢の変化量が推定される。なお、各画素について手の領域である確率の情報が付与されている場合には、類似度の計算に確率の情報を取り入れ、画像特徴の対応付けの評価を、確率を用いた重み付き計算によって行う。このように、データベースに登録された画像の各画素に動物体である確率を示す値を設定し、これを用いることで、位置合わせの安定性を向上させることができる。

ステップＳ３０９において、ＭＲ画像生成部１０７は、ステップＳ３０８で得られたカメラ位置姿勢の推定値に基づいて仮想物体をカメラ画像（現フレーム）に合成することによりＭＲ画像を生成する。

以上のように、第１実施形態では、画像上で動物体が存在する領域を検出し、動物体領域が画像に占める割合に基づいて、画像の登録判断を行う。そのため、撮像部１８０によって得られるカメラ画像に動物体が存在しても、高精度な画像データベースを作成し、高精度かつ安定したカメラ位置姿勢推定を行うことができる。すなわち、第１実施形態によれば、画像処理結果に基づいた画像登録判断を行うことによって、高精度な画像データベースを作成することができ、カメラ位置姿勢の高精度かつ安定した推定を行うことができる。

なお、上記実施形態では、動物体領域と輝度勾配を用いたが、輝度勾配に代えてまたはこれに加えてカメラ画像に含まれている特徴の数が用いられてもよい。例えば、検出部１０２は、カメラ画像から特徴点の検出も行い、画像登録部１０３は特徴点がある閾値以上の個数検出されることを選択判断や登録判断の判断条件の一つとして用いる。なお、特徴点の検出には、ハリスオペレータ等の画像フィルタを利用することができるが、特徴点の検出方法はこれに限るものではない。たとえば、人為的に環境に設置した目印（例えば、カラーボールなど）を色情報に基づいて検出する手法など、公知の何れの手法であってもよい。また、画像データベース１０４に登録されているカメラ画像と判断対象のカメラ画像との間で特徴点の対応付けを行い、一定数以上の対応点の組が得られることを登録判断の条件としてもよい。

＜第２実施形態＞
第２実施形態では、初期化用物体として、形状が既知である物体（既知形状物体）を用いた画像データベースの初期化と、ステレオ画像処理により推定された輝度勾配の３次元分布の投影を利用した位置合わせ手法を用いた場合について説明する。第２実施形態では、第１実施形態と同様に、観察者が保持した撮像部１８０から得られるカメラ画像に観察者の手が写り込む場合に、カメラの実環境に対する位置および姿勢を求める位置姿勢計測方法について説明する。

本実施形態の情報処理装置１００の構成は、第１実施形態（図１）と同様であるので、図１のブロック図を流用して説明する。以下、第２実施形態について、主として第１実施形態と異なる部分について説明する。

観察者は撮像部１８０を保持しており、第１画像取得部１０１ａは撮像部１８０から初期化用のカメラ画像群を取得する。カメラ画像群には動物体としての観察者の手が写り込んでいる画像や、既知形状物体が写り込んでいる画像が含まれている。情報処理装置１００において、第１検出部１０２ａは、第１画像取得部１０１ａが取得した初期化用のカメラ画像群の各カメラ画像から、動物体領域（手の領域）および既知形状物体の領域を検出する。手の領域の取得方法は第１実施形態と同様である。また、本実施形態において、既知形状物体とは２次元の平面マーカーであり、不図示の記憶部に予め設定された形状の定義に基づいて検出される。たとえば、検出部１０２は、既存のマーカー検出方法（非特許文献５の手法）を用いて、初期化用のカメラ画像群の各カメラ画像から既知形状物体の領域を推定することができる。

画像選択部１２１は、第１検出部１０２ａの検出結果に基づいて画像データベース１０４へ登録する初期化用のカメラ画像を選択する。すなわち、画像選択部１２１は、複数のカメラ画像から、動物体領域（手の写り込んだ領域）および既知形状物体の領域の分布に基づいて、画像データベース１０４へ登録するカメラ画像を１枚もしくは複数枚選択する。なお、本実施形態では、観察者の手は実環境の物体、および既知形状物体より手前にあるものとする。

ＭＲアプリケーションにおいて、第２検出部１０２ｂは、第２画像取得部１０１ｂが取得したカメラ画像からカメラ画像内の動物体領域と輝度勾配を検出する。登録判断部１２２は、第２検出部１０２ｂによる動物体領域と輝度勾配の検出結果に基づいて、カメラ画像を画像データベース１０４へ登録するか否かの判断（登録判断）を行う。以上のように、画像選択部１２１では、動物体領域（手の写り込んだ領域）および既知形状物体の領域の分布に基づいて、画像データベース１０４の初期画像として選択するか否かを判断する。たとえば、画像選択部１２１では、動物体領域の大きさが所定値以下であり、既知形状物体の領域が所定値以上であることを選択判断の判断条件に含める。他方、登録判断部１２２では、動物体領域を登録判断の判断条件に含めるが、既知形状物体の領域の大きさは判断条件に含めない。

次に、第２実施形態によるＭＲ画像生成処理の手順について説明する。図４は、第２実施形態によるＭＲ画像生成処理の手順を示すフローチャートである。ステップＳ４００〜Ｓ４０３は、主として画像選択部１２１による初期化動作である。ステップＳ４０４〜Ｓ４０９は、ＭＲアプリケーションの動作中に実行されるカメラ画像の登録（画像データベース１０４の更新）およびＭＲ画像の生成処理である。ステップＳ４０４〜Ｓ４０９の処理は、撮像部１８０から逐次的に入力されるカメラ画像（映像）について繰り返し実行される。また、図５は、第２実施形態による画像選択部１２１の選択判断および登録判断部１２２の登録判断を説明する図である。

ステップＳ４００において第１画像取得部１０１ａが初期化用カメラ画像群を取得する。次に、ステップＳ４０１において、第１検出部１０２ａは、カメラ画像上における既知形状物体の領域および動物体領域の検出を行う。本実施形態における動物体は観察者の手であるので、第１検出部１０２ａは第１画像取得部１０１ａにより取得された初期化用のカメラ画像群の各カメラ画像から観察者の手の領域を検出する。

ステップＳ４０２において、画像選択部１２１は、初期化用のカメラ画像群から画像データベース１０４に登録する初期化用のカメラ画像を選択する。ここでの選択判断の基準は、既知形状物体の領域および動物体の領域の検出結果に基づいて設定される。例えば、動物体領域が一定量以下で、かつ、既知形状物体領域と動物体領域の重複領域が一定値以下であることを選択判断の条件とする。なお、ステップＳ４０２では、１枚または複数枚のカメラ画像が初期化用のカメラ画像に選択される。

図５（ａ）、図５（ｂ）、図５（ｃ）は、第２実施形態における初期化用カメラ画像の選択判断を説明する図である。図５（ａ）に示されたカメラ画像５００，５０１，５０２、５０３は、第１画像取得部１０１ａで取得された初期化用カメラ画像群である。図５（ｂ）は、図５（ａ）に示されたカメラ画像５００、５０１、５０２、５０３から動物体の領域（手領域）および既知形状物体の領域を検出した結果である。図示の例では、カメラ画像５０１、５０２、５０３において手領域５５１および既知形状物体の領域５５２が検出されている。図５（ｃ）は図５（ａ）に示されたカメラ画像５００、５０１、５０２、５０３について選択判断を行った結果である。本例では、カメラ画像５００は既知形状物体が検出されないために初期化用カメラ画像に選択されない。カメラ画像５０１は、既知形状物体と手領域との重複領域が一定値以上であるために初期化用カメラ画像に選択されない。カメラ画像５０２とカメラ画像５０３は初期化用カメラ画像として選択される。画像データベース１０４に登録する初期化用カメラ画像の選択が終了すると、処理はステップＳ４０３に進む。

ステップＳ４０３では、画像登録部１０３が、ステップＳ４０２で画像選択部１２１が選択した初期化用カメラ画像を用いて画像データベース１０４を生成する。具体的には、画像登録部１０３は、ステップＳ４０２で選択された初期化用カメラ画像を画像データベース１０４に登録し、登録した初期化用カメラ画像の撮影位置姿勢を、基準の位置姿勢として登録する。ここで、登録された初期化用カメラ画像が１枚の場合には、該画像の撮影位置姿勢を基準の位置姿勢として登録する。また、登録された初期化用カメラ画像が２枚以上の場合には、それらの画像から１枚の画像を選択して、基準の位置姿勢として登録する。複数の初期化用カメラ画像から１枚のカメラ画像を選択する方法としては、たとえば、既知形状物体が最も大きく写っている画像を選択する、などの方法が挙げられる。もちろん、輝度勾配など、ステップＳ４０２では用いられなかった条件が用いられてもよい。画像データベース１０４が生成されると、処理はステップＳ４０４に進む。

ステップＳ４０４において、第２画像取得部１０１ｂは撮像部１８０からカメラ画像を取得する。次に、ステップＳ４０５において、第２検出部１０２ｂは、第２画像取得部１０１ｂが取得したカメラ画像から動物体領域（本実施形態では手領域）を検出する。ステップＳ４０６において、登録判断部１２２は、ステップＳ４０４で取得したカメラ画像を画像データベース１０４へ登録するか否かの登録判断を行う。登録判断は、たとえば、第２検出部１０２ｂによる動物体領域と輝度勾配の検出結果に基づいてなされる。たとえば、その登録判断の判断条件として、動物体領域が一定量以下で、かつ、輝度勾配の個数が一定値以上であることが挙げられる。図５（ｄ）は、第２実施形態における登録判断の例を示す図である。この例では、カメラ画像５１０は動物体領域が一定量より大きいため登録されない。カメラ画像５１１は動物体領域が一定量以下であり、輝度勾配の個数が一定値以上のため、登録される。カメラ画像５１２は、動物体領域は一定量以下であるが輝度勾配の個数が一定値未満のため登録されない。カメラ画像５１３は、動物体領域が一定量以下であり、輝度勾配の個数が一定値以上のため、登録される。本例の場合、登録判断の判断条件に既知形状物体の有無は含まれない。

以上述べたように、第２実施形態では、画像上における初期化用の既知形状物体、および動物体が存在する領域を検出し、それらの検出結果を基に画像登録判断を行うことによって、高精度な画像データベースを作成できる。さらにその結果、高精度かつ安定したカメラ位置姿勢推定を行うことができる。

以上のように、第１、第２実施形態によれば、カメラ画像上における動物体領域の割合を計算してカメラ画像登録判断を行うことで、動物体が大きく写り込んだカメラ画像のデータベース登録が防止され、カメラ位置姿勢推定の安定性が向上する。また、カメラ画像間の相対位置姿勢計算の精度を向上させることができるとともに、計算時間の短縮ができる。また、動物体の位置姿勢を計測する構成（手首や指に装着された位置センサ）がある場合に、その構成から得られる情報を利用することで、動物体が大きく写り込んだカメラ画像の画像データベース１０４への登録を防止できる。その結果、カメラ位置姿勢推定の安定性を向上させることができる。

＜変形例１＞
第１実施形態および第２実施形態では、画像登録部１０３における選択判断や登録判断の判断条件は動物体領域（動物体が写り込む領域）を考慮したものであった。しかしながら、画像データベース１０４の構築に悪影響を及ぼす要因という観点からは、判断条件はこれに限るものではなく、他にも有用な基準が存在する。

例えば、図６に示すように、画像のぼけ量の推定（ブラー量推定）結果に基づいて画像登録判断を行うようにしてもよい。この構成によれば、初期化時、およびＭＲアプリケーションの動作時に、カメラ画像にぼけが発生することがあるような場合においても、適切に画像データベースを構築することができ、カメラ位置姿勢推定を安定化・高精度化できる。この場合、選択判断および登録判断の条件の一つとして、たとえば、ブラー量推定の結果として得られるぼけ量の大きさが閾値以下であることを含めることができる。なお、ブラー量推定には、たとえば、非特許文献６に記載された手法など、周知の方法を用いることができる。また、ブラー量の推定は、たとえば検出部１０２において実施されるようにすればよい。

なお、カメラ画像の画像処理によって検出されるブラーの種類としては、カメラの動きによって発生するモーションブラーや、カメラのフォーカスずれによって発生するデフォーカスブラー、などがある。その他にも、カメラの物理的な運動の速度がブラー量と比例すると想定し、加速度センサや角速度センサの信号に基づくブラー量推定を利用することもできる。

図６（ａ）は、画像選択部１２１において実施される初期化用カメラ画像の選択判断を説明する図である。また、図６（ｂ）は、登録判断部１２２において実施されるカメラ画像の登録判断を説明する図である。図６（ａ）では、カメラ画像６００、６０１、６０２は、推定されたブラー量が一定値以上または動物体領域が一定量以上のため、初期化用カメラ画像に選択されない。カメラ画像６０３は、推定されたブラー量が一定値未満であり、動物体領域も検出されていないため初期化用カメラ画像に選択され、画像データベース１０４に登録される。図６（ｂ）は、動物体領域（手領域）が一定量以下あること、ブラー量が一定値未満であること、輝度勾配の個数が一定値以上であることを基準とした場合の登録判断の例である。これら全ての条件を満たすカメラ画像６１１のみが画像データベース１０４に登録され、カメラ画像６１０、６１２、６１３、６１４は登録されない。

また、降雨などが理由でレンズに液体が付着した場合にも、実環境が正しく写らないため、そのようなカメラ画像が画像データベース１０４に登録されると位置姿勢推定に悪影響が発生する。そこで、図７に示すように、レンズに付着した液体を考慮した選択判断や登録判断を行うことで、初期化時、およびアプリ動作に、レンズに液体が付着することがある場合においても、カメラ位置姿勢推定を安定化・高精度化できる。この場合、例えば、レンズの液体付着領域の分布を推定し、その推定結果である液体付着領域の大きさが閾値以下であることを、選択判断や登録判断の判断条件の一つとする。レンズの液体付着領域の分布の推定には、たとえば非特許文献７に記載された手法など、周知の技術を用いることができる。なお、レンズの液体付着領域の分布の推定は検出部１０２で実施される。

図７（ａ）は、画像選択部１２１において実施される選択判断の様子を、図７（ｂ）は、登録判断部１２２において実施される登録判断の様子をそれぞれ示す。図７（ａ）では、カメラ画像７００、７０１、７０２は推定された液体付着領域が一定値以上のため、初期化用カメラ画像として選択されず、画像データベース１０４には登録されない。他方、カメラ画像７０３は液体付着領域が一定値未満のため、画像データベース１０４に登録される。また、図７（ｂ）では、カメラ画像７１０、７１２、７１３、７１４は推定された液体付着領域が一定値以上のため、画像データベース１０４に登録されない。カメラ画像７１１は液体付着領域が一定値未満のため、画像データベース１０４に登録される。

また、鏡面反射物体は、カメラの位置姿勢が異なると、同一の物体を撮影しても、その外観が一致しないという特性があるために、画像データベース１０４の構築に悪影響を及ぼす場合がある。そこで、カメラ画像内における鏡面反射物体の領域を考慮した選択判断や登録判断を行うことで、鏡やガラス面が存在する完了においても、カメラ位置姿勢推定を安定化・高精度化できる。この場合、例えば、鏡面反射物体の領域の大きさが閾値以下であることを選択判断および登録判断の判断条件の一つとして、カメラ画像の登録を行うようにする。鏡面反射物体の領域の検出については、例えば四角形のディスプレイの場合、予め決めた色のテープを、周辺を囲むように張り付けておき、カメラ画像から矩形を検出することによって実現される。カメラ画像から矩形を検出する方法としては、矩形検出法など周知の技術を用いることができる。

以上のように、変形例１によれば、画像ぼけが発生することがある環境においても、カメラ位置姿勢推定の安定性を向上させることができる。また、カメラのレンズに液体が付着することがある環境においても、カメラ位置姿勢推定の安定性を向上させることができる。さらに、鏡面反射物体がある環境においても、カメラ位置姿勢推定の安定性を向上させることができる。なお、選択判断や登録判断の基準として、上述したブラー量やレンズの液体付着領域などを適宜組み合わせてもよいことは言うまでもない。

＜変形例２＞
第１〜第２実施形態では、画像データベース１０４にカメラ画像を登録する際には、何らかの判断基準を設けることによって、各画像を登録するか否かの判断（選択判断、登録判断）を実施しているが、これに限るものではない。たとえば、全てのカメラ画像を画像データベース１０４に登録し、登録されたカメラ画像の各画素を位置姿勢推定処理に用いるか否かの判断を実施するようにしても良い。たとえば、第１実施形態において動物体領域を含むカメラ画像が画像データベース１０４に登録されている場合、データベース更新処理（図３のＳ３０７）およびカメラ位置姿勢推定処理（Ｓ３０８）の計算対象から、動物体領域と判断された画素を除外する。これにより、初期化処理の時間が短縮可能であるとともに、データベース更新作業が効率化できる。

以上のように、変形例２によれば、カメラ位置姿勢推定を実施する際の初期化処理が高速化できるとともに、データベースに登録する画像を取得するための時間の短縮ができる。

＜第３実施形態＞
第１〜第２実施形態の情報処理装置１００（図１）を構成する各部は、その一部あるいは全ての機能がハードウェアで実現されてもよいしソフトウェアで実現されてもよい。たとえば、ハードウェアとして実装されているコンピュータに所定のソフトウェアを実行させることで、このコンピュータは上記実施形態で説明した情報処理装置１００の各部を実現し、上述した動作を行うことになる。図８は情報処理装置１００のハードウェア構成例を示すブロック図である。

ＣＰＵ８０１は、ＲＡＭ８０２やＲＯＭ８０３に格納されているプログラムやデータを用いて、コンピュータ全体の制御を行うと共に，上記各実施形態で情報処理装置１００が行うものとして説明した各処理を実行する。ＲＡＭ８０２は、外部記憶装置８０７や記憶媒体ドライブ８０８からロードされたプログラムやデータを一時的に記憶するための領域を有する。更にＲＡＭ８０２は、Ｉ／Ｆ（インターフェース）８０９を介して外部装置から受信したデータを一時的に記憶するためのエリアを有する。外部装置とは、たとえば撮像部１８０である。

更に、ＲＡＭ８０２は、ＣＰＵ８０１が各処理を実行する際に用いるワークエリアも有する。即ち、ＲＡＭ８０２は、各種エリアを適宜提供することができる。ＲＯＭ８０３には、コンピュータの設定データやブートプログラムなどが格納されている。キーボード８０４、マウス８０５は、操作入力装置の一例であり、ユーザの操作に応じた各種指示をＣＰＵ８０１に対して入力する。表示装置８０６は、ディスプレイにより構成されており，ＣＰＵ８０１による処理結果を画像や文字などで表示することができる。表示装置８０６は表示部１９０として機能してもよい。

外部記憶装置８０７は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置８０７には、ＯＳ（オペレーティングシステム）や、情報処理装置が行うものとして説明した上述の各処理をＣＰＵ８０１に実行させるためのプログラムやデータが格納されている。係るプログラムには、情報処理装置を構成するそれぞれに対応するプログラムが含まれている。また、係るデータには、上述の説明において、既知の情報として説明したものが含まれている。外部記憶装置８０７に保存されているプログラムやデータは、ＣＰＵ８０１による制御に従って適宜ＲＡＭ８０２にロードされる。ＣＰＵ８０１はこのロードされたプログラムやデータを用いて処理を実行することで、情報処理装置が行うものとして上述した各処理を実行することになる。

記憶媒体ドライブ８０８は、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどの記憶媒体に記録されたプログラムやデータを読み出したり、係る記憶媒体にプログラムやデータを書き込んだりする。なお、外部記憶装置８０７に保存されているものとして説明したプログラムやデータの一部若しくは全部をこの記憶媒体に記録しておいても良い。記憶媒体ドライブ８０８が記憶媒体から読み出したプログラムやデータは、外部記憶装置８０７やＲＡＭ８０２に対して出力される。

Ｉ／Ｆ８０９は、撮像部１８０を接続するためのアナログビデオポートあるいはＩＥＥＥ１３９４等のデジタル入出力ポート、また、合成画像を表示装置８０６に対して出力するためのＤＶＩポートなどによって構成される。Ｉ／Ｆ８０９を介して受信したデータは、ＲＡＭ８０２や外部記憶装置８０７に入力される。なお、図１に示した画像取得部１０１の機能の一部は、Ｉ／Ｆ８０９によって実現される。８１０は、上述の各部を繋ぐバスである。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：情報処理装置、１０１：画像取得部、１０２：検出部、１０３：画像登録部、１０４：画像データベース、１０５：再構成部、１０６：位置姿勢推定部、１０７：ＭＲ画像生成部、１８０：撮像部、１９０：表示部

Claims

撮像装置により撮影された画像を取得する取得手段と、
前記取得手段により取得された画像に関して、位置姿勢推定に影響を及ぼす要因の発生を検出する検出手段と、
前記検出手段により検出された要因に基づいて、前記画像を登録するか否かを判断する判断手段と、
前記判断手段により登録すると判断された画像群を用いて、前記取得手段により取得された画像から前記撮像装置の位置姿勢を推定するための画像データベースを構築する構築手段と、を備えることを特徴とする情報処理装置。
前記検出手段は、前記要因として、前記取得手段により取得された画像に存在する所定の動物体の領域を検出することを特徴とする、請求項１に記載の情報処理装置。
前記検出手段は、前記所定の動物体として、人の手、人の足、ケーブル、人の少なくとも何れかを検出することを特徴とする請求項２に記載の情報処理装置。
前記検出手段は、前記要因として、前記画像のぼけの量を検出することを特徴とする、請求項１乃至３のいずれか１項に記載の情報処理装置。
前記検出手段は、前記取得手段により取得された画像に基づいて前記ぼけの量を検出することを特徴とする請求項４に記載の情報処理装置。
前記ぼけの量は、モーションブラーまたはデフォーカスブラーの量であることを特徴とする請求項５に記載の情報処理装置。
前記ぼけの量は、前記撮像装置に設けられた加速度センサまたは角速度センサの信号に基づいて検出されるモーションブラーの量であることを特徴とする請求項４に記載の情報処理装置。
前記検出手段は、前記取得手段により取得された画像からレンズへの液体の付着を推定し、その推定結果に基づいて前記要因を検出することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記検出手段は、前記取得手段により取得された画像における鏡面反射物体の検出結果に基づいて前記要因を検出することを特徴とする、請求項１乃至８のいずれか１項に記載の情報処理装置。
前記判断手段は、前記画像データベースにおける初期化用の画像を登録するための判断条件と、前記初期化用の画像を登録した後に前記取得手段により逐次的に取得される画像を登録するための判断条件とを異ならせることを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記判断手段は、さらに、前記取得手段により取得された画像に、形状が既知である既知形状物体の領域の大きさが所定値以上であることを、画像を登録するための判断条件の一つとすることを特徴とする請求項１乃至１０のいずれか１項に記載の情報処理装置。
前記既知形状物体は２次元の平面マーカーであることを特徴とする請求項１１に記載の情報処理装置。
前記構築手段は、
前記判断手段により登録すると判断された画像群を用いて実環境の３次元の構造を再構成し、
前記画像群の各画像を、再構成された前記３次元の構造に基づく３次元情報と関連付けて前記画像データベースに格納することを特徴とする請求項１乃至１２のいずれか１項に記載の情報処理装置。
前記画像データベースに登録されている画像群と前記取得手段により取得された画像に基づいて前記撮像装置の位置姿勢を推定する推定手段と、
前記取得された画像と前記推定手段により推定された位置姿勢に基づいて、ＭＲ画像を生成する生成手段と、をさらに備えることを特徴とする請求項１乃至１３のいずれか１項に記載の情報処理装置。
撮像装置により撮影されたカメラ画像を取得する取得手段と、
前記カメラ画像に関して、位置姿勢推定に悪影響を及ぼす領域を検出する検出手段と、
前記取得手段により取得されたカメラ画像群を用いて、カメラ画像から撮像装置の位置姿勢を推定するのに用いられる画像データベースを構築する構築手段と、を備え、
前記構築手段は、前記画像データベースに登録されているカメラ画像群の前記検出手段で検出された領域を除く部分を用いて実環境の３次元の構造を再構成し、前記カメラ画像群の各カメラ画像を、前記３次元の構造に基づく３次元情報に関連付けて格納することを特徴とする情報処理装置。
前記検出手段は、前記取得手段により取得された画像に存在する所定の動物体の領域を検出することを特徴とする、請求項１５に記載の情報処理装置。
前記検出手段は、前記所定の動物体として、人の手、人の足、ケーブル、人の少なくとも何れかを検出することを特徴とする請求項１６に記載の情報処理装置。
情報処理装置の制御方法であって、
撮像装置により撮影された画像を取得する取得工程と、
前記取得工程で取得された画像に関して、位置姿勢推定に影響を及ぼす要因の発生を検出する検出工程と、
前記検出工程で検出された要因に基づいて、前記画像を登録するか否かを判断する判断工程と、
前記判断工程で登録すると判断された画像群を用いて、前記取得工程で取得された画像から前記撮像装置の位置姿勢を推定するための画像データベースを構築する構築工程と、を有することを特徴とする情報処理装置の制御方法。
情報処理装置の制御方法であって、
撮像装置により撮影されたカメラ画像を取得する取得工程と、
前記カメラ画像に関して、位置姿勢推定に悪影響を及ぼす領域を検出する検出工程と、
前記取得工程で取得されたカメラ画像群を用いて、カメラ画像から撮像装置の位置姿勢を推定するのに用いられる画像データベースを構築する構築工程と、を有し、
前記構築工程では、前記画像データベースに登録されているカメラ画像群の前記検出工程で検出された領域を除く部分を用いて実環境の３次元の構造を再構成し、前記カメラ画像群の各カメラ画像を、前記３次元の構造に基づく３次元情報に関連付けて格納することを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１乃至１７のいずれか１項に記載された情報処理装置の各手段として機能させるためのプログラム。