JP5243529B2 - 拡張リアリティイメージのためのカメラポーズ推定装置および方法 - Google Patents

拡張リアリティイメージのためのカメラポーズ推定装置および方法 Download PDF

Info

Publication number
JP5243529B2
JP5243529B2 JP2010509290A JP2010509290A JP5243529B2 JP 5243529 B2 JP5243529 B2 JP 5243529B2 JP 2010509290 A JP2010509290 A JP 2010509290A JP 2010509290 A JP2010509290 A JP 2010509290A JP 5243529 B2 JP5243529 B2 JP 5243529B2
Authority
JP
Japan
Prior art keywords
camera
camera pose
observation
detected
previous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010509290A
Other languages
English (en)
Other versions
JP2010532465A (ja
Inventor
エンゲダル,トールビョルン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Metaio GmbH
Original Assignee
Metaio GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Metaio GmbH filed Critical Metaio GmbH
Publication of JP2010532465A publication Critical patent/JP2010532465A/ja
Application granted granted Critical
Publication of JP5243529B2 publication Critical patent/JP5243529B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Description

この発明は画像の分野に関し、特に、あるシーンに関するカメラのポーズを、カメラが取り込んだシーンの画像から得た情報と、シーンの既知の特徴の既定の位置と、から判定することに関する。
1 問題
解決すべき問題は、リアルタイムに、あるいは記録された一連の画像に基づいて、物理的カメラのポーズを推定することである。このように物理的カメラのポーズを知ろうとする動機は、画像ストリームの中にバーチャルオブジェクトをリアルタイムに埋め込み、拡張リアリティ効果を得ることが可能となるためである。典型的な一式の装置としては、ユーザが身に付けるヘッド装着型のディスプレー(HMD)およびカメラであり、カメラからの画像が該カメラのポーズひいてはHMDのポーズを再構築するために利用される。このポーズは、バーチャルオブジェクトをHMDのスクリーン上に(カメラ画像の上(ビデオ・シースルー)もしくは光学的に透けて見えるスクリーン上のいずれかに)正確に整合させるために利用され、これにより、カメラで撮影された現実のシーンには実際には存在しないバーチャルオブジェクト/エレメントが、ユーザを囲む現実の中の実在のオブジェクトのように現れる。
2 従来技術
上記の問題についての従来の技術は、カメラ画像からカメラポーズをリアルタイムに判定するために用いられる方法やアルゴリズムが遅く、かつ効率的でないことから、リアルタイムの利用に適しておらず、あるいは、得られた結果の不正確性、低いリピータビリティ、ドリフト、ポーズの回復の利用不可能、ポーズ推定の非ロバスト性、といった欠点があることが知られている。
2.1 環境の既知の3Dモデルを用いたトラッキング
トラッキングもしくはフレーム・トゥ・フレーム・トラッキングについては、4.23章に述べている。一般に、フレーム・トゥ・フレーム・トラッキング法は、ドリフトおよび(実際上は)ポーズ法の回復の利用不可能という欠点がある。カメラのごく僅かな動きでは、フレーム・トゥ・フレーム・トラッキングは良好に機能するが、現実のシナリオでは、ユーザがカメラを制御するので、これは、実際に適用することができない制約となる。
実際の世界では、限界のない処理能力や限界のないフレーム速度は利用不可能であるから、フレーム・トゥ・フレーム・トラッキングは、また、ルージング・トラックという欠点があることが知られている。カメラが過度に動くと、次のフレームは、ポーズ推定を実行すべく前のフレームにおける特徴点とマッチし得る十分な特徴点を含まないものとなり得る。カメラの早い動きは、新しいフレームにおけるぼけ(動きによるぼけ)を招き、新しいフレームと信頼性をもってマッチする前のフレームの特徴点の数が減少する結果となる。もしトラッキングがそのポーズを手離してしまうと、トラッキングの再初期化のために、ポーズの回復法を実行する必要がある。種々の方法が提案されかつ発表されているが、その大部分は、ポーズの回復およびトラッキングの再初期化のために、ユーザがカメラを特定の位置や方向へと移動ないし回転させる必要があるものである。仮に適当な回復法を実行したとしても、フレーム・トゥ・フレーム・トラッキングはドリフトの欠点があることが知られている。
US 2002/0191862 A1(US 6,765,569 B1)は、ユーザが特定の方向を見るつまり特定の方向にカメラを向けることによって、システムの利用を開始し、かつこのシステムが使用中の可能な作業領域を拡張するようにした方法を開示している。この開示された方法は、フレーム・トゥ・フレーム・トラッキングに類似しているが、先の既知の3Dモデルを利用しない方法であり、つまり、特徴点の3D位置を探索するために後続のフレームにおける特徴点の位置の三角法に依存している。この方法は、使用中に特徴点の3D情報を記憶し、かつ特徴点が検出されるたびに、三角法に基づいて、3D位置を修正(refine)していく。この3D位置の修正が十分なレベルに達したら、特徴点は校正されたものとみなされる。この方法は、ドリフトの問題を多少は軽減するが、実際には、開始点から大きく動いたときに、まだ大きなドリフトが残る。新しい特徴点の正確な判定は、前の3D特徴点位置の3D位置の正確な推定に依存し、これはさらに、前のカメラポーズの正確な推定に依存している。
上記のような提案された方法においては、常に、演算/推定のたびに多少の数値的および数学的な誤差が加わる、ということがよく知られている。このことは、開始点から遠く離れた特徴点はドリフトのために大きな誤差を有する、ということを意味する。さらに、もし単一の特徴点の3D位置が「校正された」ものとみなされ、かつこの位置が実際には不良であった場合には、特徴点のその後のトラッキングおよび校正は、より大きな誤差の影響を受ける。
さらに、特徴点の3D位置の正確な推定および修正を確実に行うために、ユーザは、特定の方法で動くことを要求され、実用上は、面倒でかつ扱いが困難なシステムとなる。US 6,765,569 B1は、画像中に十分な特徴点を認識できなかった場合にポーズを回復する方法の開示を含んでいるが、この方法は、満足な推定がなされた特徴点が存在する方向をユーザに見させ、これらの点を「校正した」特徴点とみなしうるようにする、ということにまだ依存している。この方法は、カメラで観測し得るような環境の3Dモデルは使用せず、このことは、後続のフレームで三角法を実行しつつ特徴点の3D位置を演算することを意味する。
2.2 特徴点の局所的な検出およびマッチング(デテクション)
ドリフトおよびポーズの喪失という問題を除去する良いやり方は、システムの実行前に、環境/オブジェクト/シーンの特徴点に基づくシステムのトレーニングを行う方法を用いることである。3D位置とともにトレーニング/分類の情報を記憶することで、現在のフレームで検出された特徴点を、データベースに保存されたものあるいは分類装置を通して分類されたものとリアルタイムにマッチングすることができるようになる。十分な数の特徴点がマッチすれば、幾何学的計算を介して物理的カメラポーズの推定が可能である。数値最小化を通して、さらなる修正が得られる。これは、前のフレームの推定の結果に依存することなく、単一のフレームの各々ごとに実行できる。実際には、これは、「ポーズの回復」が単一のフレームの各々で実行されることを意味する。
十分な数の特徴点がキーポイントデータベースの内容に対して分類されあるいはマッチしている限りは、デテクションではドリフトおよびポーズの喪失は問題とならない。しかしながら、この種の方法は、偽デテクションの問題があることが知られており、つまり、リアルタイムに検出された特徴点が、データベースに記憶された特徴点に対し、偽の分類あるい偽のマッチとなる。カメラポーズの推定のいくつかの方法では、ある程度の数の偽マッチ(アウトライアーとも呼ばれる)を処理することができるが、いくつかのアウトライアーがあっただけでも、推定ポーズの最終的な結果は、一般にリピータビリティが低いものとなる。このようなデテクション法の通常のケースでは、少なくとも15個のアウトライアーが存在する。これでは、カメラが完全に静止している場合であっても、一般に、低いリピータビリティとなる。この問題は、拡張リアリティシステムにおいては、バーチャルオブジェクトが所定位置に維持されず、周囲でバウンドしたり震えたりするように現れる、という影響を与える。
US 2006/0233423 A1は、特徴点をリアルタイムにデータベースとマッチングする方法、および、校正/トレーニングした特徴点についての関連情報をトレーニング/記憶する方法を示唆している。上述した記載との関係では、この示唆されている方法は、デテクション法であると考えられる。
V. Lepetit、P. LaggerおよびP. Fuaによる「Randomized Trees for Real-Time Keypoint Recognition」(http://cvlab.epfl.ch/reseach/augm/detect.php)は、単一のフレーム内でオブジェクトを検出するために、上記US 2006/0233423 A1に開示されたものと類似しかつこれよりも早期の方法を開示している。データベースを用いる代わりに、「分類ツリー」(後述の4.13章を参照)を用いることが提案されている。分類ツリーは、トレーニングフェーズにおいて構築され、実行時に各キーポイントが「ドロップダウン」する複数のツリーであって、最終的にキーポイントがあるスコア(信頼度)とマッチする。この方法であっても、デテクション法の長所と短所とを示す。
2.3 記録した画像ストリーム
記録した画像ストリームに基づいて物理的カメラのポーズを推定する他の方法およびアルゴリズムが多数公開され、かつ特許されている。画像ストリームに基づく物理的カメラポーズの推定とは、「現在」のフレームのカメラポーズを算出し得るようにするために、ストリームの全てないしいくつかの画像の「早送り」および「巻き戻し」を適時になし得ることが必要であることを意味している。映画の製造においては、この種のいくつかの方法が特許されかつ公開されているが、上述したように、かかる分野においては、その方法をリアルタイムに実行するのではなく、また満足のいく結果を得るために、完全な画像ストリームに依存している。これらの使用は、リアルタイムの拡張リアリティを意図したものではなく、「ハリウッド映画」の後工程的な画像効果を意図している。
3 本発明
本発明の装置および方法は、3Dモデルを用いたフレーム・トゥ・フレーム・トラッキングの長所と局所的な特徴点の検出およびマッチングの長所とを組み合わせ、満足のいく精度で物理的カメラのポーズの推定を得るようにしたものである。ドリフトや偽マッチによるポーズの喪失ならびに震えといった問題は、デテクションの長所とトラッキングの長所とを組み合わせた革新的かつユニークな方法および装置によって解消される。デテクションとトラッキングとを組み合わせることで、リアルタイムの利用には遅すぎる解法を実行するというリスクが回避されるものであり、本発明の装置および方法では、特にマルチCPUシステムにおいて、早くかつ効率的な実行を確実なものとするために、サブタスクを複数のスレッドおよびスレッド・タスクに分割するというユニークな機会を提供する。今日のコンピュータでは、マルチCPUやデュアルコアCPUのテクノロジーが広く利用可能でかつ手頃なものとなっており、これは、本発明によって提供される解法の実行に非常に適している。本発明によって提供される解法のいくつかの重要な利点は、ステップ毎に数字を付すと、下記の通りである。
1.局所的な特徴点の検出およびマッチングを通したロバストな推定。これは、前のフレームでの推定に依存しない各フレーム毎の「ポーズの回復」を意味する。本発明により提供される解法は、2005年6月のカルフォルニア州サンディエゴでの「Conference on Computer Vision and Pattern Recognition」におけるV. Lepetit、P. LaggerおよびP. Fuaによる「Randomized Trees for Real-Time Keypoint Recognition」に開示された方法を用いることにより、有利に実行される。
2.フレーム・トゥ・フレーム・トラッキングを通した精度およびリピータビリティが、前に推定したポーズと環境の3Dモデルとの組み合わせを用いることで得られる。
本発明により提供される解法では、さらに、一般的なフレーム・トゥ・フレーム・トラッキングに新規なアイデアを導入しており、最後に正常に(successfully)算出されたポーズが記憶され、かつトラッキングに用いられる。これは、もし前のフレームにおいてカメラポーズが正常に算出されなかったとしても、本発明による解法では、最後の正常なポーズに基づいてトラッキングの実行を試みる、ということを意味する。これにより、本発明による解法では、上記ステップ1に示すデテクション法が仮に失敗した場合や直前のいくつかのフレームにおいて最終的なポーズが役に立たないような場合であっても、ポーズの推定を再初期化することができる。ただし、この新規なアイデアは、最後のポーズの推定が正常になされたところに近似した位置/向きに、ユーザが戻ることを必要とする。
3.カメラポーズの推定のための数値最小化への入力パラメータに運動モデル観測を含むことによって、精度およびリピータビリティがさらに向上する。
4.「ロバスト・エスティメータ(estimator)」を通したロバストな演算により、アウトライアーの影響が軽減する。我々はTukeyエスティメータを用いるが、他のものも使用できる。
5.比類のない速度および性能が、我々のユニークな並行処理アルゴリズムによって得られる。
コンピュータのメインループの説明図。 本発明が組み込まれた装置のブロック図。 結合モードの説明図。 分割モードの説明図。 スレッドの説明図。 本発明の実施に適合したコンピュータの説明図。 P3Pの説明図。
3.1 システムの概説
図6は、本発明の実施に適合したものとして、デュアルコアの中央処理ユニット(CPU)、ランダムアクセスメモリ(RAM)グラフィックカードおよびハードドライブ(HDD)が、マザーボード上に取り付けられてなる標準的なコンピュータを示している。さらに、カメラをコンピュータに接続するためのデータインターフェースがある。カメラは、興味のあるシーンのような現実環境の画像を取り込むために、レンズを有する。この画像は、センサ、通常はCCDセンサないしCMOSセンサ、の上でデジタル化される。通常、画像はカメラの内部メモリに一旦記憶され、次いで、接続Aを通してコンピュータに転送されるが、カメラインターフェースがこれを解釈し、かつマザーボードと通信して、システムRAMの目的に応じて配置された領域へと送る。
CPUは、典型的には、IntelのCore 2 Duoとすることができる。我々のシステムは、シングルコアCPUを用いることもできるが、その場合の性能は低下するであろう。RAMは、典型的には、標準の512MBのDDR2 SDRAMである。ハードドライブは、典型的には、標準の40GB SATA 7200 rpmのハードドライブである。データインターフェースは、典型的には、USB 2.0、FireWire IEEE 1394、ワイヤレスLAN(WLAN)等とすることができる。接続Aは、データインターフェースに応じて、有線もしくは無線となり得る。
ソフトウェアは、マシン可読コードでもってハードドライブ(HDD)に記憶されており、実行開始時にRAMに読み込まれる。画像はカメラを用いて取り込まれ、接続Aを介して、RAMのメモリ領域に転送される。次いで、このRAMに記憶した画像に対し、1つあるいは複数のCPUないしCPUコアを用いて、アルゴリズムが実行される。このアルゴリズムの結果となる物理的カメラの推定ポーズは、取り込んだ画像の上にバーチャルオブジェクトを現実環境に正しく整合した形で描くために用いられる。そして、この画像および/またはバーチャルオブジェクトは、通常はグラフィックカード内にレンダリングされ、その結果がスクリーン上に表示される。スクリーンとしては、透明スクリーン(画像がミラー、ガラス等に投影される)あるいは不透明スクリーンとすることができる。不透明スクリーンとする場合には、拡張リアリティ効果を得るために、バーチャルオブジェクトをレンダリングする前に、カメラで取り込んだ画像を背景として描く必要がある。スクリーンは、カメラを一体化したヘッド装着型ディスプレーとすることができ、カメラは該ヘッド装着型ディスプレーの前方に取り付けられる。カメラを前方に備えた他のディスプレーとしては、PDAや携帯電話ディスプレー(将来的には携帯電話の内部コンピュータを処理に利用し得る可能性もある)、タブレットPCディスプレー、等がある。
最近のパワフルなグラフィックカードは、GPU(グラフィカル処理ユニット)上で数学的機能を実行することもでき、このことは、我々のシステムにおけるタスクおよびアルゴリズムを、CPU/コアに加えてGPU上でも実行し得ることを意味している。Ageia PhysXのような物理カードであっても、我々のソフトウェアのタスクを実行するために利用し得る。
3.2 ソフトウェアの実現(implementation)
本発明の装置および方法(本章では一部、アルゴリズムと記す)は、基本的な数学的方法が利用可能なあらゆる種類のコンピュータソフトウェア環境において有利に実現することができる。もし基本的な数学的方法が利用可能でなければ、最初から開発(scratch)することができる。MATLAB、FORTRAN、C/C++、C#などが適したプログラム言語である。ソフトウェアは、Linuxオペレーティングシステム、Windows、Unix、Xbox、Playstation、Symbian等で動作するコンピュータ上で実現することができる。
必要な数学的方法としては、特に(但し、これらには限定されないが)、数値最小化と、フィルタ、エッジ検出、コーナ検出等の基本的なコンピュータビジョンアルゴリズムと、行列操作の方法(行列の反転、転置、乗算、等)と、がある。
3.3 メインループの概説
本発明を実現する例示的なシステム、例えば図1に示したようなコンピュータにおいて、そのメインループとしては、実際の画像をカメラから抽出するとともにシステムRAMの循環メモリバッファに記憶し、カメラポーズを推定し、かつ最終的に結果をスクリーン上にレンダリングする。
最初のフレームの取り込みがなされかつポーズ推定タスクが開始すると、直ちに、新しいフレームを取り込むスレッドAが開始する。最初のポーズ推定が完了すると、新フレームが既に並行して取り込まれている場合には、直ちに、新フレームにおけるカメラポーズの推定の開始が可能である。最初のレンダリングが完了すると、新フレームおよびカメラポーズがスレッドA,Bから利用可能である場合には、直ちに、新しいレンダリングが開始可能である。これは、スレッドAがスレッドB,Cと並行して働き、新規なフレームを取り出し、スレッドBが、前のタスクが完了するや否やこの新規なフレームを利用することができる、ということを意味する。スレッドBも同様であり、このスレッドBはスレッドCと並行して働き、新規なポーズ推定を行い、スレッドCは、前のレンダリングが完了するや否やこの新規なポーズ推定を利用することができる。このような方式は、複数のCPU、GPUあるいはマルチコアCPUを備えたコンピュータを利用した非常に効率的な方法を提供する。結果として、フレーム速度および実行時間が実質的に速くなる。スレッドBは、複数の並行したタスクに分割され、これにより、物理的カメラポーズの推定が非常に効率よく実現される。スレッドBについての詳細な情報は3.4章を参照されたい。
開始時に最初の画像/フレームが取り込まれかつRAMの保存先となるメモリ領域に転送された後に、このフレームにおける物理的カメラポーズの推定が可能である。ポーズ推定が達成された後に、カメラ画像およびポーズは、拡張リアリティ効果を得るべく最初の画像中にバーチャルオブジェクトをレンダリングするために利用できる。
スレッドA(TA)、スレッドB(TB)およびスレッドC(TC)は、全て、1つあるいは複数のシングルコアCPU、1つあるいは複数のマルチコアCPU、および/または、1つあるいは複数のGPU、あるいは他の特化したコンピューティングユニット、の上で動作する。これらのタスクは、特定のCPU/コア上で動作するように特に設定することもでき、また、オペレーティングシステム(OS)によってスレッドタスクを実行するCPUが自動的に定まるものであってもよい。
本発明の一実施例が組み込まれた装置の例が、図2にブロック図として模式的に描かれている。
この装置は、シーン220の2次元(2D)画像を示す画像フレームの画像データ231をフレームグラバー230から受ける入力(通常は上記画像フレームはカメラ210によって取り込まれ、かつフレームグラバーによって取得される)と、カメラデータソース240から、カメラレンズデータ、主点、等のカメラデータCを受ける入力と、シーンモデルデータソース260から3次元(3D)シーンモデルデータMを受ける入力と、シーンデータソース250から予記録シーンデータ251(例えば予め記録したシーン画像の処理により得た3D特徴点データ等)を受ける入力と、を備える。この装置は、上記の中の1つあるいは複数の入力に基づいて演算を行い、カメラによって撮像されているシーンに関するカメラの幾何学的3Dポーズの現在の推定181を出力するように構成されている。有利には、本装置の幾何学的3Dカメラポーズ・エスティメータ(estimator)は、幾何学的3Dカメラポーズ推定の「信頼性のレベル」を判定するように構成され、幾何学的3Dカメラポーズ推定が算出されたところの信頼性のレベルを示す3Dポーズスコア値を出力するように構成し得る。
この装置は、さらに、フレームグラバー230から画像データ231を受け取るとともにこれを処理するように構成された候補2Dキーポイント・デテクター110を備えており、この候補2Dキーポイント・デテクターは、3D位置が既知であると考えられるキーポイントを示す特定の画像特徴部を検出し、この検出した特定の画像特徴部を示すデータを候補2Dキーポイント111として出力するように構成されている。この特定の特徴部の例としては、オブジェクトが特異な色で出現するようなシーンの特徴部、あるいは明瞭に識別可能な単一もしくは1組の幾何学的特徴、例えばコーナやエッジ、を示すシーンの一部、である。
この装置は、さらに、候補2Dキーポイント111および予記録シーンデータ251を受け取るデテクテド・3D観測デテクター120を備えており、このデテクテド・3D観測デテクターは、予記録シーンデータ中に対応する3D特徴点を有すると考えられる候補2Dキーポイントの各々についてのデテクテド・3D観測121を出力するように構成されている。上記デテクテド・3D観測デテクターは、さらに、デテクテド・3D観測の「信頼性のレベル」を判定するように構成され、デテクテド・3D観測が判定されたところの信頼性のレベルの指標としてスコア値を出力するように構成し得る。
この装置は、さらに、デテクテド・3D観測121およびカメラデータCを受け取るデテクテド・3Dカメラポーズ・エスティメータ(estimator)130を備えており、このデテクテド・3Dカメラポーズ・エスティメータは、デテクテド・3Dカメラポーズ推定131を演算によって決定し、かつ出力するように構成されている。有利には、このデテクテド・3Dカメラポーズ・エスティメータは、デテクテド・3Dカメラポーズ推定の「信頼性のレベル」を判定するように構成され、デテクテド・3Dカメラポーズ推定が演算されたところの信頼性のレベルの指標となるポーズスコア値を出力するように構成し得る。
この装置は、さらに、グラブド・フレーム画像データ231および候補2Dキーポイント111を記憶するための第1ストレージ手段140を備えており、この第1ストレージ手段140は、シーンの2次元(2D)画像を示す画像フレームのフレームグラバー画像データを受け取るように構成されたものであって、カメラの幾何学的ポーズについての現在の推定出力181を検出し、これに応答して、前の幾何学的カメラポーズ推定が基礎としたストアド・グラブド・フレーム画像データ141およびストアド・候補2Dキーポイント142を出力するように構成されている。
この装置は、さらに、カメラの幾何学的ポーズについての前の推定161を記憶するとともに出力する第2ストレージ手段160を備えており、この前の推定は、シーンに関するカメラの幾何学的ポーズについての現在の推定の出力181よりも前に装置の出力に表されたものである。
この装置は、さらに、トラックド・3D観測デテクター150を備えており、このトラックド・3D観測デテクター150は、カメラの幾何学的ポーズについてのストアド・前推定141と、候補2Dキーポイント111と、前の幾何学的カメラポーズ推定が基礎としたストアド・グラブド・フレーム141および候補2Dキーポイント142と、カメラデータCと、3次元(3D)シーンモデルデータMと、を受け取るように構成されている。このトラックド・3D観測デテクターは、前の幾何学的カメラポーズ推定に存在する対応する3D特徴部を有するものと考えられる候補2Dキーポイントの各々についてトラックド・3D観測151を出力するように構成されている。上記トラックド・3D観測デテクターは、さらに、トラックド・3D観測の「信頼性のレベル」を判定するように構成され、トラックド・3D観測が判定されたところの信頼性のレベルの指標となるスコア値を出力するように構成し得る。
この装置は、さらに、3Dカメラポーズ推定セレクタ170を備え、この3Dカメラポーズ推定セレクタ170は、記憶した前の幾何学的3Dカメラポーズ推定161とデテクテド・3Dカメラポーズ推定131とをそれぞれ受け取る複数の入力を有するとともに、選択した3Dカメラポーズ推定171を提供する1つの出力を有する。有利には、この3Dカメラポーズ推定セレクタは、入力の各々が受け取った3Dカメラポーズ推定とともに表されたスコア値に応答して、その出力に、選択後3Dカメラポーズ推定として、入力が受け取った3Dポーズ推定の中の一方、あるいは、両者を結合したものを提供する。
この装置は、さらに、幾何学的3Dカメラポーズ・エスティメータ(estimator)180を備え、この幾何学的3Dカメラポーズ・エスティメータ180は、選択後3Dカメラポーズ推定171と、デテクテド・3D観測121と、トラックド・3D観測151と、カメラデータCと、を受け取るように構成されているとともに、現在の幾何学的3Dカメラポーズ推定181を演算によって決定し、かつ出力するように構成されている。有利には、上記幾何学的3Dカメラポーズ・エスティメータは、現在の幾何学的3Dカメラポーズ推定の「信頼性のレベル」を判定するように構成され、現在の幾何学的3Dカメラポーズ推定が演算されたところの信頼性のレベルの指標となるポーズスコア値を出力するように構成し得る。
3.4 物理的カメラポーズ推定(スレッドB)
本発明のコンピュータによる有利な実施は、下記の通りである。
本発明のコンピュータで実行する物理的カメラポーズ推定方法(ここでは物理的カメラポーズ推定アルゴリズムとも呼ぶ)は、有利には、2つのモードの中の1つとして実行されるものであり、スタートアップ時に(A)「結合」モードと(B)「分割」モードから選択される。スレッドBは、そのタスクを、別のスレッドやスレッドタスクに分配し、複数のシングルコアCPUやGPU、1つあるいは複数のマルチコアCPUやGPU、を備えてなるコンピュータにおける実行時間性能を最適化する。
上記「結合」モードでは、デテクションおよびトラッキングの一部を並行して実行し、その後、結果を結合かつ処理して、最終的な数値最適化を行う。上記「分割」モードでは、デテクションおよびトラッキングをより切り離して実行し、最終的な結果を最終カメラポーズとして分析かつ処理する。本発明における「結合」モードおよび「分割」モードの実行は、図3および図4にそれぞれ図示されている。
結合モード(A)と分割モード(B)の共通事項
3.4.1.1 回転(Rotation)および並進(Translation)のパラメータ化(外部パラメータ)
我々のPROSACの利用における再射影誤差(およびヤコビ行列)の演算および数値最小化(Levenberg-Marquardt)方法の際には、回転が、「exponential map」を用いてパラメータ化される。推定の前および後における回転行列と「exponential map」との間の相互の変換に、Rodriguesの公式が用いられる。
数値最小化の間、状態ベクトルは、6要素のベクトルであり、「exponential map」および並進ベクトルとしての回転および並進を含む。
「exponential map」における特異点を回避するために、我々は、「exponential map」(ベクトル)||w||の長さが、2πn(但し、πは3.14、nは0よりも大きい整数)に近いかどうかチェックする。もし長さが2πnに近い場合は、これを「(1−2π/||w||)w」(但し、wはexponential mapである)に置き換えることができる。(F. Sebastian Grassia「Practical parameterization of rotations using the exponential map」 Journal of Graphics Tools, 3(3):29-48, 1998年 より)
3.4.1.2 キーポイントの検出
カメラからの新鮮な生の画像に対し、可能性のある特徴点/キーポイントの検索がなされる。これらのキーポイントは、さらなるデテクションおよびトラッキングに用いるための候補点となる。添付の図に示すように、キーポイントの検出は、トラッキングおよびデテクションの双方に対し演算される。
3.4.1.3 レンズ歪曲の補償
カメラから取り込んだ画像は多少のレンズ歪曲を含む。我々のシステムにおいて、我々は、カメラおよびレンズの予校正を通して得た内部カメラパラメータにおけるラジアル方向歪曲および接線方向歪曲を補償する。
本発明の有利な実施例において内部カメラパラメータを補償しかつパラメータ化するためには、Z. Zhangによる「A flexible new technique for camera calibration」IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11):1330-1334, 2000年 に記載されている方法が用いられる。
レンズ歪曲の補償においては、入力画像の全体を歪曲除去してもよく、あるいは、検出されるキーポイントだけ歪曲除去してもよい。画像全体を歪曲除去するのは、時間が掛かるタスクであり、検出されるキーポイントを歪曲除去する方がより効率的である。
もし歪曲したカメラ画像をバーチャルグラフィックとオーバーレイするために使用したとすると、バーチャルグラフィックは背景画像と正しく整合しない。これを補償するためには、バーチャルグラフィックを内部カメラパラメータに従って歪曲させる必要がある。もし、ビデオ・シースルー式の装置としてカメラ画像を背景に用いない場合には、このことは問題とはならない。
3.4.1.4 初期ポーズの推定
このタスクは、双方のモードにおいて実行され、キーポイントとデータベースとのマッチングに基づくラフな初期ポーズの推定(デテクション)からなる。
初期ポーズの推定の間に用いられる位置および方向のパラメータ化については、3.4.1.1章を参照されたい。
初期ポーズの推定のステップは次の通りである。
1.画像中に検出したキーポイントを、2D−3D点相関関係を得るために、分類する。有利には、本発明では、分類およびトレーニングのためのアルゴリズムとして、V. Lepetit、P. LaggerおよびP. Fuaによる「Randomized Trees for Real-Time Keypoint Recognition」という刊行物に示されているアルゴリズムを用いる。これ以外の特徴点の分類/デテクション法にも適当なものがあり得る。
2.所定の閾値(例えば0.5)を超えるスコアでもってマッチするものが4つ以上存在するか否か判定し、
a.YESであれば、PROSACアルゴリズムを実行し(4.14章を参照)、
i.PROSACからの結果が満足できるものか判定して、
1.YESであれば、成功として終了し、
2.NOであれば、失敗として終了し、
b.NOであれば、失敗として終了する。
この初期のラフなポーズは、最小化アルゴリズムが包括的な最小値を確実に見つけるために、数値最小化の開始点として用いられる。間違った/悪い初期ポーズを用いると、最小化は、最終的に、局部的な最小値、換言すれば不正解な解、となる。初期ポーズを包括的な最小値の近くに得るためには、要求される再射影誤差およびラフ初期ポーズの推定におけるインライアーの最小数に、適切な制約条件を設定することが重要である。最大の再射影誤差は、5ピクセルから25ピクセルの間とすべきである。インライアーの最小数は、15〜40とすべきである。
我々の実施においては、我々はまた、インライアーの最小数を、観測の総個数(インライアーとアウトライアーの双方)のパーセンテージとして毎回演算するように、指定することができる余地を与えている。これにより、多数の観測が存在する場合に、アルゴリズムが自動的に要求に適合できるものとなる。このことの危険性は、多数のアウトライアーがある場合である。もしインライアーの最小パーセンテージが過度に高いと、PROSACアルゴリズムは、十分なインライアーでもってポーズを演算することに失敗してしまう。
3.4.1.5 数値最小化
本発明のさらなる有利な実施例においては、Levenberg-Marquardtアルゴリズムが数値最小化のために用いられるが、他の方法も利用可能である。
数値最小化の間に用いられる位置および方向のパラメータ化については、3.4.1.1を参照されたい。再射影誤差の合計が、数値最小化の間に最小化される。4.14章に記載したPROSAC法のように、数値最小化におけるアウトライアーを無視するために、ロバスト・エスティメータもまた再射影誤差の計算の間に適用することができる。有利には、本発明は、Tukeyエスティメータを用いるが、他のロバスト・エスティメータを用いることもできる。さらに、現在および前のフレームにおけるポーズの間での並進および回転の最小化のために、運動モデル観測が用いられる。
上記の記述は、モードAおよびモードB双方の数値最小化サブタスクについて該当する。
3.4.2 結合モード(A)
この章では、図3を参照して、結合モードについて説明する。
一般に、「新フレーム」は歪曲のないものと仮定され、つまり、カメラ/レンズの歪曲が補償されていることを前提とする。
2Dキーポイントのみが歪曲除去される場合には、図は多少変更する必要がある。しかし、コンピュータビジョンの技術者には、どこで2Dキーポイントの歪曲除去を適用するか認識することが可能である、と思われる。
「2D−3D相関関係の結合および予備処理」および「運動モデル観測の評価および準備」の2つのプロシージャは、互いに独立しており、さらなる性能最適化のために2つの別のスレッドにおいて、並行して実行されるように設定可能なものである。しかし、この2つのプロシージャは特に時間の掛かるものではなく、これらのタスクを別々のスレッドに分割するためのオーバヘッドは、タスクを並行に処理することにより得られる向上代と同等かそれ以上となり得る。
3.4.2.1 キーポイントの検出、デテクションおよびトラッキングのスレッドの開始
キーポイントが検出された後に、結合したスレッドA(CTA)が結合したスレッドC(CTC)と並行して開始する。
CTAは下記を実行する。
1.2D−3D点相関関係を得るために、Lepetit法を用いて、現在の画像中に検出したキーポイントを、予トレーニングした分類ツリー/データベースで分類する。
2.3.4.1.4章に記載した方法を用いて、2D−3D点相関関係に基づき初期ポーズを推定する。
CTCは、前に算出に成功したポーズ(最後の良ポーズ)が存在するのであれば、下記を実行する。
1.現在の画像中に検出したキーポイントを、「最後の良ポーズ」中に検出したキーポイントとマッチングする。
平均輝度閾値を適用することで、平均輝度の差が所定の閾値未満のキーポイント間でのみマッチングを許容するようにすることができる。低い値の設定(例えば可能性のある255の中の10)により、類似した平均輝度を有するキーポイントのみが許容される。これにより、キーポイントのマッチングの信頼性が向上する。
2.対応マッチ・スコアが所定の閾値よりも高い全てのキーポイントについて、レイ・トレーシングを実行する。このレイ・トレーシングでは、前のフレームのカメラポーズと、3Dモデルと、内部カメラパラメータと、を用いて、マッチしたキーポイントの3D位置を演算する(4章のレイ・トレーシングの説明を参照されたい)。
我々のシステムにおいて、CTAからの「デテクション観測」のみに依存する場合と、CTCからの「トラッキング観測」にも依存する場合と、をシステムに自動的に選択させるための重要な特徴は、下記の通りである。
トラッキング・スレッド(CTC)におけるキーポイントマッチングの実行においては、フレーム間の2Dキーポイント位置の最大差異を設定することが可能である。これにより、2つのフレームで互いに近接しているか否かに依存してマッチングされる、可能性のあるキーポイントを限定することができる。u方向およびv方向の最大差異を低い数値、例えば10ピクセル(但し、システムが1秒当たりに20〜30フレームを実行する場合)に設定することで、我々のシステムは、カメラが素早く動くときに、自動的に、デテクションによる観測のみに依存するようになる。カメラがゆっくりと動くようになると、直ちに、より多数のマッチングが許容されることから、フレーム・トゥ・フレーム・トラッキングからの観測が数値最小化により強く影響するようになる。このことは、我々のシステムの他の特徴と組み合わされて、システムを、速いカメラの動きに対しロバストなものとし、かつ同時に、カメラの動きが小さいときには、高いリピータビリティを有する正確なものとしている。
3.4.2.2 2D−3D相関関係の結合および予備処理
CTAおよびCTCからの2つのセットの相関関係ないし観測は、2つの異なるタイプのスコアを有する。デテクション・セット(CTA)は、予トレーニングしたデータベースに対するマッチング/分類により与えられるスコアを有するが、トラッキング・セット(CTC)は、現在のフレームにおけるキーポイントが前のフレームに対しどの程度良好にマッチするかを示す対応マッチ・スコアを有する。これらの2つのタイプの観測スコアを制御された形で確実に取り扱うために、デテクション観測(CTA)がトラッキング観測(CTC)と等しく「重要」になるように、全てのスコアが正規化される。
さらに、正規化したスコアに基づき、正規化したスコアにスカラを乗算することで、2つのタイプの観測の一方を「増進」もしくは「低下」させることが可能であり、これにより、選択されたタイプの観測がより「重要」にあるいはより「重要」ではないものとなる。
最後に、一方のセットもしくは他方のセットの観測の数の最小数および最大数を設定するフィルタリングが実行される。一般に、デテクション・セット(CTA)から最大のn個の観測を許容したり、トラッキング・セット(CTC)から最大のk個の観測を許容したりすることは、決してしないことが望ましい。これは、2つのタイプの観測の「重要性」をさらに制御するためになされる。
観測のタイプを互いに評価および制限/制御した後に、全ての観測が数値最小化に加えられる。もし、前のフレームでのポーズの演算が成功していなかった場合には、トラッキング・タスク(CTC)は実行されておらず、CTAからのデテクション観測のみが加えられる。
3.4.2.3 運動モデル観測の評価および比較
運動モデル観測が用意される。この運動モデル観測は、前のフレームにおいてポーズが推定されていた場合に、現在のフレームと前のフレームとにおけるカメラポーズのx,y,z軸に沿った並進およびこれらを中心とした回転の差からなる。これらの観測は、数値最小化が、x,y,z軸に沿った並進およびこれらを中心とした回転を最小化するように作用し、つまり、前のポーズに基づくポーズの結果を抑制しようとする。
運動モデルは、また、新フレームでの運動を予測するアドバンス型予測運動モデルともなる。
運動モデル観測の評価は、所定の値を設定し、この値は、これらの観測がどの程度数値最小化に影響するか、ということを左右する。
再射影誤差に関しては、運動モデル観測に対しやはりロバスト・エスティメータ(estimator)が用いられる。これは、例えば、2つの連続したフレームの間でのx軸に沿った非常に大きな運動がアウトライアー観測である、とみなされることを意味する。インライアー/アウトライアーを決定するための閾値は、システム全体のフレーム速度(カメラがどれくらい速く動くことが予想されるか、を含めて)に応じて設定される。
3.4.2.4 数値最小化の実行
初期の推定ポーズ(3.4.1.4章を参照)が、数値最小化の開始点として用いられ、これにより、最終結果が、確実に、実際の/正確な包括的な解となるようにしている。ピクセルにおける2D再射影誤差は、2D−3D点相関関係のために最小化され、運動モデル観測は、できるだけ最良のポーズを得るために最小化される。2D−3D点相関関係および運動モデル観測の双方に対し、ロバスト・エスティメータが実行され、アウトライアーに対し確実にロバストなものとしている。
最小化は、制限された数の繰り返しだけ実行され、あるいは、満足できる結果が得られるまで繰り返し実行される。
3.4.2.5 現在のカメラポーズ、フレーム、および2Dキーポイントの記憶保持
次のフレームへの準備を行うための後処理は下記の通りである。
インライアーの数を最小とする要求に基づいて、ポーズの推定が成功したか?
a.YESの場合
i.現在のフレーム、2Dキーポイントおよびポーズを、次のフレームのトラッキング・スレッドにおいて用いるために、「最後の良い」フレーム、2Dキーポイントおよびポーズとして、記憶し、
ii.現在のポーズを、次のフレームの運動モデル観測に用いるために、「前のカメラポーズ」として記憶する。
b.NOの場合。運動モデル観測に用いられる「前のカメラポーズ」が無効であると、マーク付けする。
3.4.3 分割モード(B)
図4を参照して、分割モードを説明する。分割モードにおいては、結合モードと同様、最初のステップは現在の画像中のキーポイントを検出することである。
次に、タスクは2つのスレッド、つまりデテクション・タスクを実行する分割スレッドA(STA)と、トラッキング・タスクを実行する分割スレッドC(STC)と、に分割される。
STAは下記を実行する。
1.2D−3D点相関関係を得るために、現在の画像中に検出したキーポイントを予トレーニングしたデータベースとマッチングする。
2.2D−3D点相関関係に基づき、初期ポーズを推定する。
3.観測を、制限し、評価し、かつ制御する。
4.デテクションに関する数値最小化に観測を加える。
5.もし、前のポーズにおいてポーズの推定が成功していれば、運動モデル観測をデテクション・最小化に加える(結合モード中として)。
6.初期ポーズを開始点として用いて数値最小化を実行し、2D再射影誤差および運動モデル観測(これが追加されていれば)を最小化する。
前のポーズにおいてポーズの推定が成功していれば、これと並行して、STCは下記を実行する。
1.現在の画像中に検出したキーポイントを、前の画像中に検出したキーポイントとマッチングする。
2.対応マッチ・スコアが所定の閾値よりも高い全てのキーポイントについて、レイ・トレーシングを実行する。マッチしたキーポイントの3D位置を、前のフレームでのカメラポーズと3Dモデルとを用いて演算する(4章のレイ・トレーシングについての説明を参照)。
3.トラッキングに関する数値最小化に観測を加える。
4.(前のポーズの推定が成功していれば)STAと同様に運動モデルをトラッキング・最小化に加える。
5.前のポーズを開始点として用いて数値最小化を実行し、2D再射影誤差および運動モデル観測(これが追加されていれば)を最小化する。
a.前のポーズを用いる代わりに、STAが初期ポーズを演算するのを待ち、この初期ポーズを前のポーズの代替として使用することも可能である。これにより、性能上、多少のオーバヘッドが生じるが、カメラの動きが速い間に、より良好な結果を導く。
各々の最小化は、最終的に別々に推定したカメラポーズとなり、各々、いくつかのインライアー観測を有するとともに、最小化からのトータルの残差を有する。2つのポーズの「良好性」を分析するためのステップが実行される。もし一方の最小化からの結果が他方に比べて顕著に良好であれば、その最良の一方が最終結果として選択される。もし、2つの最小化からの結果がほぼ同程度に良好なものであれば、これらの結果の平均が用いられる。所望であれば、最終結果を得るために、加重平均を用いることができる。
3.5 他の改良点
本発明により提供される解は、画像中に現れた特徴点、つまり高いコントラストを有するコーナやエッジ等に依存している。そのため、現実のシーンが、カメラポーズの推定のためにカメラで取り込まれるフレーム中に十分に特徴点を検出できるようなテクスチャ(質感)を含んでいることが必要である。室内において、例えば白い壁のみで塗装や他のオブジェクト/イラスト(これらは取り込まれるフレームにテクスチャおよびコントラストを与える)がない場合には、特徴点を提供する必要がある。
エッジ・デテクションを環境の3Dモデルと組み合わせて実施することにより、本システムは、このような種類の環境においても機能する。このようなアプローチを本システムに統合するために、同じ性能(毎秒のフレーム数)を確保するように、別のスレッドないしスレッド・タスクを並列に実行する必要がある。
この新しいスレッド・タスクは、別のセットの観測を生成する。これらの観測は、一般には、取り込んだフレーム中のエッジ/ラインである。そして、数値最小化によって、取り込んだ画像中に検出/測定したラインと、現在推定されているカメラポーズ(現在とは、最小化プロセスの各々の繰り返し毎のポーズ)を用いてスクリーンに射影された環境の3Dモデルにおけるラインと、の間の距離が最小化される。
結合モード(3.4.2章)において、このことは、4つのタイプの観測が存在することを意味する。
1.デテクテド・2D−3D点相関関係(2Dピクセル再射影誤差の最小化)
2.トラックド・2D−3D点相関関係(2Dピクセル再射影誤差の最小化)
3.運動モデル観測(前のフレームでポーズが推定されていれば、前のフレームに対する並進および回転の最小化)
4.新規:エッジ観測(取り込んだ画像中のエッジと、現在のカメラポーズを用いてスクリーンに射影した3Dモデルにおけるライン/エッジと、の間の距離の最小化)
これらの4つのタイプの観測を加えることによって、本システムは、テクスチャが少ないもしくは無いけれどもエッジ/ラインは存在するような環境においても、機能することができる。ライン/エッジは、典型的には、壁の間のエッジ、壁と床の間のエッジ、壁と天井との間のエッジ、ドアと壁との間のエッジ、等である。
4 本発明の開示に用いられている用語の定義
4.1 ポーズ
3D位置(x,y,z)+3D方向(x,y,z軸回りの回転)。方向は、多くの場合、回転行列、オイラー角、四元数マップもしくは「exponential map」を用いてパラメータ化される。位置は、通常、ベクトル(3次元もしくは相次(homogenous)4次元)としてパラメータ化される。
4.2 バーチャル・カメラ
内部カメラパラメータおよび外部カメラパラメータを含む物理的カメラを数学的に表したもの。
4.3 内部カメラパラメータ
焦点距離、画像中心、解像度、レンズの歪曲パラメータ(ラジアル方向歪曲、接線方向歪曲)。
4.4 外部カメラパラメータ
特定の座標系における物理的カメラのポーズ。
4.5 キーポイントないし特徴点
画像の中の関心のある点。キーポイントの検出に利用できるアルゴリズムは、いくつか存在する。特徴点とは、コーナ、コントラストの急変、エッジ、などである。画像から特徴点を抽出するために用いられるいくつかの方法が存在する。我々の方法は、コーナを検出するものであり、2005年の「Foundations and Trend in Computer Graphics and Vision」におけるVincent LepetitおよびPascal Fuaによる「Monoclular Model-based 3d Tracking of Rigid Objects」の4.4.1章の記述に基づいている。
4.6 数値最小化
数値最小化とは、変数の制約条件を受ける数学的関数の最小化を意味する。数値最小化の一例は、Levenberg-Marquardt法である。
4.7 Levenberg-Marquardt
Wikipedia.orgによれば、「Levenberg-Marquardtアルゴリズムは、一般に非線形の関数について該関数のパラメータの間隔に亘る関数の最小化の数学問題に数値解を与える。この最小化問題は、特に、最小自乗曲線フィッティングにおいて起こる。Levenberg-Marquardtアルゴリズム(LMA)は、ガウス−ニュートン法(GNA)と勾配法とを融合したものである。」とある。最小化の状態に応じて、LMAはGNAと勾配法から最良のものをとる。
4.8 2D−3Dの点相関関係
画像中の検出された点は、所定のイメージピクセル座標における2D位置を有する。同じ点が、実世界においては、3D位置を有する。最小の3つの点およびこれらの2D−3D相関関係を有していれば、画像の撮影に用いた物理的カメラのポーズの推定が可能である(例えば、P3Pアルゴリズムを通して)。
4.9 観測(Observation)
数値最小化を論ずる際に、観測の一例は、2D−3D点相関関係である。物理的カメラのポーズの推定のために、運動モデルを2D−3D点相関関係と組み合わせて用いる場合には、前回の繰り返し(iteration)/フレームから現在の繰り返し/フレームの間での3軸の1つあるいはいくつかにおける位置の変化やいずれかの軸の回りの回転変化もまた観測となり得る。
4.10 アウトライアー(Outlier)
無効な観測である。観測として2D−3D点相関関係を論ずる場合には、アウトライアーは、3D位置が2D位置に誤ってマッチングしている誤った2D−3D点相関関係である。
4.11 インライアー
インライアーとは観測である。
4.12 キーポイントデータベース
トレーニングフェーズの間に記憶されるキーポイントおよびそのプロパティのデータベースである。
4.13 分類ツリー
分類を試みるいくつかのテストを含むツリー状階層化構造であり、我々の事例では、キーポイント/特徴点を分類する。このツリーは、「さかさま」に使われ、つまり、各キーポイントが「ドロップダウン」型のツリーであり、ルートから始まって葉において終了する。各ノードにおいてテストがなされ、このテストによりキーポイントが他の1つの枝へと下方へ進む。最終的にキーポイントは1つの葉(枝の末端)に達する。この枝は、キーポイントを識別するために必要な情報を含む。キーポイントの認識のために分類ツリーをどのように用いるか、については、2005年6月のカルフォルニア州サンディエゴでの「Conference on Computer Vision and Pattern Recognition」におけるV. Lepetit、P. LaggerおよびP. Fuaによる「Randomized Trees for Real-Time Keypoint Recognition」というタイトルの開示を参照されたい。
4.14 ロバスト・エスティメータ(estimator)を備えたPROSAC
PROSACは、多数のアウトライアーデータが存在するモデルのロバストな当てはめ(fitting)のためのアルゴリズムである。我々の事例では、大まかな初期カメラポーズの推定のためにPROSACを用いるが、ここでは、多数の観測(2D−3D点相関関係)がアウトライアーである。
観測として2D−3D点相関関係のセットが与えられたときに、我々のPROSACの各ステップは次のように実行される。
1.観測をそのスコアに従ってソートし、最高スコアを最上部に一致させる。
2.観測を選ぶために、観測の配列の最上部からの観測の数であるnを、2にセットする。
3.n=n+1にセットする。
4.もしnが観測の数よりも大であれば、エラーとして中止する。最小の再射影誤差および最小のインライアーの個数とする所定の要求条件では、満足できる初期ポーズは検出されていない。
5.n個の上部の列に限定して、配列の上部から3個の観測をランダムに選択する。
6.この3個のランダムに選択した観測を入力として、P3Pを用いて、カメラポーズを演算する。特異点を回避するために、P3Pから得た回転行列を「exponential map」に変換する。「exponential map」については、3.4.1.1章を参照されたい。P3P以外のアルゴリズムも、カメラポーズの演算に適しているかもしれない。
7.配列の中の全ての観測のために、
a.現在演算されたカメラポーズを用いて、再射影誤差(4.26章を参照)を演算し、
b.アウトライアーを無視するために、ロバスト・エスティメータ(estimator)を適用する。例:Tukey…もし再射影誤差が所定の閾値(例えば15ピクセル)よりも大であれば、観測がアウトライアーであると記録する。
8.全てのインライアーの再射影誤差の和をインライアーの個数で除して、残差を算出する(残差=インライアーの再射影誤差の平均)。
9.残差が、前回の繰り返しにおいて算出された最小の残差よりも低いか否か判定し、
a.YESであれば、
i.現在のカメラポーズを最良のポーズとして記憶し、かつ対応する残差を記憶し、
ii.インライアーの数がインライアーの所定の個数(例えば20個)以上であるかチェックし、
1.NOであれば、ステップ3〜7を繰り返し、
2.YESであれば、ステップ4で演算されたポーズを初期ポーズとして許容して、処理を中止し、
b.NOであれば、ステップ3〜7を繰り返す。
PROSACについてのさらなる情報については、2005年のCVPRでのChum、Ondrej、Matas、Jiriによる「Matching with PROSAC - Progressive Sample Consensus」を参照されたい。
4.15 P3P
「Perspective-Three-Point」:幾何学的推定の1つの方法であり、例えば、内部カメラパラメータが既知のときに、最小の3つの2D−3D点相関関係に基づき、物理的カメラのポーズを推定する。包括的な解を確実に発見するためには、4つの2D−3D点相関関係が必要である。
以下のP3Pの説明について、ここで、添付した図7を参照する。
i←→miおよびMj←→mjの各対の相関関係は、(未知の)カメラ−点間の距離xi=||Mi−C||およびxj=||Mj−C||に制約条件を与える。
ij 2=xi 2+xj 2−2xijcosθij
但し、
ij=||Mi−Mj||は、MiとMjの間の(既知の)距離、
θijは、カメラ中心においてMiとMjで定まる角度である。
アルゴリズム
1.距離xiについて多項式を解く。
ij 2=xi 2+xj 2−2xijcosθij
→fij(xi,xj)=xi 2+xj 2−2xijcosθij−dij 2=0
2.点Miのカメラ座標系における位置Mi Cは演算可能である。
3.「R」および「T」は、MiからMi Cへのユークリッド変位として演算される。
最良の最小二乗回転は、四元数を用いたクローズドフォームにおいて得られる。
(1987年4月、Horn, B.K.P. 「Closed Form Solutions of Absolute Orientation Using Unit Quaternions」JOSA-A(4), No. 4、629〜642頁)
定義、図および説明は、Vincent Lepetitによる「Selected Topics in Computer Vision」の講座1からのものである。
我々が実施するP3Pは、また、2003年8月のPAMIのIEEE会報vol.25、No.8のX. S. Gao、X.-R. Hou、J. Tang、H.-F. Changによる「Complete Solution Classfication for the Perspective-Three-Point Problem」に基づいている。
4.16 レイ・トレーシング
物理的カメラのポーズおよび内部カメラパラメータが既知で、かつ現実環境の3Dモデルが与えられれば、画像中に検出したいかなる2Dキーポイントの位置も演算可能である。これは、カメラ中心を始点として画像中の2Dキーポイント座標を通りかつ現実環境の3Dモデルに衝突する3次元ベクトルを、数学的に記述することでなされる。このようなベクトルは、「光線」においても見ることができ、この光線が3Dモデルと衝突するまでトレースされるので、それ故、この処理は、「レイ・トレーシング」と呼ばれる。そして、カメラの内部パラメータおよび外部パラメータが既に演算されていることを条件として、その衝突点が、画像中の検出した2Dキーポイントの現実世界の3D座標を与えるのである。
4.17 運動モデル
運動モデルとは、オブジェクトや物理的カメラ等の物理的運動を制約および/又は予測する数学的モデルである。これは、今回推定したポーズの「正確さ(correctness)」を改善するために、今回および前回の繰り返し(iteration)/フレーム/画像からの情報を用いる。
4.18 ドリフト(Drifting)
ドリフトは、フレーム・トゥ・フレーム・トラッキングに共通の問題である。良好かつ正確なポーズを有するフレームから開始しても、いくつか後のフレームでは、正しい解から離れるようにポーズが「ドリフト」し、つまり、時間が経過する(将来のフレームが処理される)に従って、ポーズの推定結果はさらにドリフトし、正しい解からさらに離れる。
ドリフトは、この種の方法の基本が所定のフレームから開始し、この「最初のフレーム」に基づいて後続のフレームでのポーズを演算するために、生じる。新しいフレームを処理する各々のたびに、多少の数値的誤差や未知数(uncertainties)が推定したポーズに加わる。誤差は、各フレーム毎に”それ自身”の上に加わり、つまり、誤差の影響は、僅か数フレームのトラッキングの後に急激に増加する。
4.19 ロバスト性
カメラが素早く動くラフな環境の下では、カメラポーズを演算する能力は、部分的ないし完全に妨げられ、不正確な特徴点/キーポイントが推定に用いられる。
4.20 精度(Accuracy)
ポーズ推定の観点では、精度とは、精密かつ正確に物理的カメラポーズを演算する能力である。
4.21 リピータビリティ
ポーズ推定の観点では、リピータビリティとは、カメラがごく僅か動き、実際/現実のポーズが微小値だけ変化した後続のフレーム/画像において、殆ど同一の物理的カメラポーズを演算し得る能力である。
4.22 デテクションもしくはオブジェクト・デテクション
デテクションもしくはオブジェクト・デテクションとは、推定すべき前のフレームの情報を要求することなく、個々のフレームにおけるオブジェクト(あるいはオブジェクトに沿った1セットのキーポイント)を検出する処理のことである。
4.23 トラッキングもしくはフレーム・トゥ・フレーム・トラッキング
カメラのフレーム毎のトラッキングを実行し、前に推定したカメラポーズを、キーポイントのマッチングを介して、新しい/将来のフレームにおけるカメラポーズの演算に利用する処理を、トラッキングもしくはフレーム・トゥ・フレーム・トラッキングと呼ぶ。
この方法は、あるフレームにおける既知のポーズを、後続のフレームにおけるポーズの推定に用いる。最初の既知となるポーズを見つけるためには、種々の方法がある。後続のフレームにおけるポーズの推定は、下記のような手順でなされる。
1.できるだけ良い特徴点を検出し、次のフレームで使用するために、保存する。
2.次のフレームにおいて、新たなできるだけ良い特徴点を検出する。
3.前のフレームにおいてポーズが正しく推定/提供されていれば、特徴点を前のフレームとマッチングする(特徴点のマッチングについては、4.25章を参照されたい)。
4.マッチした各々の特徴点について
a.前のカメラポーズおよび内部パラメータを用いて、特徴点の3D位置を演算する。これは、前のポーズにおけるカメラ中心から、前のフレームで検出した特徴点の2D位置を通り、かつ環境の3Dモデルへと、レイ・トレーシングを実行することにより行う。
b.前のフレームを用いて見いだした3D位置を、現在のフレームにおける同じ特徴点の2D位置とともに、ポーズ推定の基礎として用いる。
5.全てのマッチした特徴点の2D−3D点相関関係を、数値最適化法例えばLevenberg-Marquardt法による物理的カメラポーズの推定のために用いる。
6.アルゴリズムが不良となるまで、ステップ2〜5を繰り返す。アルゴリズムがトラッキングから外れると不良となるが、これは、前のフレームと今回のフレームとの間で十分なマッチした特徴点を見いだせなかった場合あるいは前のフレームでのポーズが不正確な推定であったり推定されていなかった場合、に生じる。
ステップ1は、初期化ステップであり、ここでは、カメラポーズが既知であると仮定している。
ステップ2〜5は、トラッキングの要求条件が成立している限り、新しいフレーム毎に繰り返される。この要求条件は、前のフレームについてポーズが正しく推定つまり提供されていること、そして、有効なポーズを推定し得るように、4つより多い特徴点が現在のフレームと前のフレームとの間でマッチしていること、である。
4.24 残差(Residual)
「残差とは、観測不能な誤差の観測可能な推定量である。残差は観測可能であるが、誤差は観測できない。」
(http://en.wikipedia.org/wiki/Errors and residuals in statistics)
4.25 キーポイントマッチング
画像間でキーポイントをマッチングするには、いくつかのやり方がある。処理の例は、1995年のZ. Zhang、R. Deriche、O. Faugeras、Q. Luongによる「A robust technique for matching two uncalibrated images through the recovery of the unknown epipolar geometry」Artificial Intelligence、vol.78の87〜119頁に説明されている。本発明は、近接状態および輝度の相互対応関係に基づくマッチングを用いる。運動の推定のために、似た(通常は連続した)視点からの2つの画像から抽出した関心を引く点「mi」および「m'j」のセットのマッチングを行うことができる。第1の画像の各点「mi」に対して、第2の画像において「mi」の周囲で点「m'j」を探索する。この探索は、各点を中心とした局所的な画像ウィンドウの類似性に基づく。この類似性は、ゼロ正規化された相互対応関係を用いて評価され、これは、局所的な画像輝度のアフィン変化に対し不変であって、照度変化に対し処理をロバストなものとしている。より信頼できるマッチングのセットを得るために、我々は、2つの画像の立場を逆にして上記の処理を繰り返すようにしている。互いに選択された点の相関関係mi←→m'jのみが保持される。(2005年の「Foundations and Trend in Computer Graphics and Vision」におけるVincent LepetitおよびPascal Fuaによる「Monoclular Model-based 3d Tracking of Rigid Objects」の4.4.2章の方法および記述に基づく)。
4.26 再射影誤差
再射影誤差とは、特徴点の測定/検出した2D座標と、その対応する3D座標の射影2D座標と、の間の距離である。再射影誤差は下記のように記述できる。
||A[R|T]Mi−mi||2
ここで、Aは、3×3の内部カメラパラメータ行列、[R|T]は、変換行列(R:回転行列、T:並進ベクトル)、Miは特徴点の3D位置、miは特徴点の測定/検出した2D座標、である。
A:
| fx 0 cx |
| 0 fy cy |
| 0 0 1 |
但し、fx、fyは焦点距離、cx、cyは主点(画像中心)である。
4.27 再射影誤差の最小化
数値最小化の各繰り返しのたびに外部パラメータを変更し、全ての測定2Dキーポイントと射影2Dキーポイントとの間の距離の平均が最小となる外部パラメータを記憶することで、最適解が得られる。各繰り返しの際の外部パラメータの導関数は、やはり演算される。一般に、導関数によって、より小さい平均の再射影誤差を得るために次の繰り返しにおける外部パラメータを、どのように、またどの程度に、変更すべきか、が決定される。

Claims (13)

  1. シーンに対する3Dカメラポーズを、該カメラから得た2D画像フレームの2D画像データから推定する装置であって、
    (a)入力としてカメラデータソースからのカメラデータと2D画像データとを受けるとともに、候補2Dキーポイントを出力する候補2Dキーポイント・デテクターと、
    (b)入力として予記録シーンデータと候補2Dキーポイントとを受けるとともに、デテクテド・3D観測を出力するデテクテド・3D観測デテクターと、
    (c)入力としてカメラデータとデテクテド・3D観測と候補2Dキーポイントとを受けるとともに、デテクテド・3Dカメラポーズ推定を出力するデテクテド・3Dカメラポーズ・エスティメータと、
    (d)入力として検出した候補2Dキーポイントと2D画像データとを受けるとともに、制御入力として3Dカメラポーズ推定出力に関連した制御信号を受け、3Dカメラポーズ推定出力に関連する2D画像データおよび候補2Dキーポイントを記憶するとともに、前の3Dカメラポーズ推定出力に関連した前の2D画像データおよび候補2Dキーポイントを出力する、2D画像データおよび候補2Dキーポイントのストレージと、
    (e)入力として3Dカメラポーズ推定出力を受け、かつこの3Dカメラポーズ推定出力を記憶するとともに、前の3Dカメラポーズ推定出力を出力するように構成された前の3Dカメラポーズ推定のストレージと、
    (f)入力として、2D画像データと、候補2Dキーポイントと、カメラデータと、前の2D画像データおよび候補2Dキーポイントと、前の3Dカメラポーズ推定と、3Dシーンモデルデータソースからの3Dシーンモデルデータと、を受けるとともに、出力としてトラックド・3D観測を提供するトラックド・3D観測デテクターと、
    (g)入力としてデテクテド・カメラポーズ推定と前の3Dカメラポーズ推定とを受け、これらのデテクテド・3Dカメラポーズ推定と前の3Dカメラポーズ推定の一方を、選択後3Dカメラポーズ推定として出力するように構成されたポーズ推定セレクタと、
    (h)入力として、カメラデータと、デテクテド・3D観測と、トラックド・3D観測と、選択後3Dカメラポーズ推定と、を受けるとともに、出力として、3Dカメラポーズ推定出力を提供する3Dカメラポーズ・エスティメータと、
    を備えてなる装置。
  2. 上記の予記録シーンデータの受け取りは、予トレーニングした2Dキーポイント分類ツリーあるいは2Dキーポイントデータベースからなることを特徴とする請求項1に記載の装置。
  3. 上記の予トレーニングした2Dキーポイント分類ツリーあるいは2Dキーポイントデータベースは、2Dキーポイントを該2Dキーポイントの3D座標にリンクさせるように構成され、上記3D座標は3Dシーンモデルの座標系に参照されるものであることを特徴とする請求項2に記載の装置。
  4. 上記カメラデータは、カメラレンズの焦点距離およびカメラの主点を含むことを特徴とする請求項1〜3のいずれかに記載の装置。
  5. 上記デテクテド・3Dカメラポーズ・エスティメータは上記デテクテド・3Dカメラポーズ推定とともに第1の推定品質指標を出力するように構成され、上記3Dカメラポーズ・エスティメータは上記3Dカメラポーズ推定とともに第2の推定品質指標を出力するように構成され、上記ポーズ推定セレクタは、第1および第2の推定品質指標に応じて選択後3Dカメラポーズ推定を出力するように構成されていることを特徴とする請求項1〜4のいずれかに記載の装置。
  6. 上記の前の2D画像データ、前の候補2Dキーポイント、前の3Dカメラポーズ出力は、いずれも、上記2D画像データに先行する直前の2D画像フレームに関連するものであることを特徴とする請求項1〜5のいずれかに記載の装置。
  7. 上記デテクテド・3D観測デテクターおよびトラックド・3D観測デテクターは、デテクテド・3D観測についてのスコアおよびトラックド・3D観測についてのスコアを決定し、かつこれらのデテクテド・3D観測スコアおよびトラックド・3D観測スコアをそれぞれデテクテド・3D観測およびトラックド・3D観測とともに出力するように構成されていることを特徴とする請求項1〜6のいずれかに記載の装置。
  8. 上記3Dカメラポーズ・エスティメータは、
    (i)デテクテド・3D観測スコアおよびトラックド・3D観測スコアを正規化する手段と、
    (ii)これらの正規化したスコアに応じて選択した上記デテクテド・3D観測およびトラックド・3D観測の一方を提供する手段と、
    を含むことを特徴とする請求項7に記載の装置。
  9. 上記3Dカメラポーズ・エスティメータは、該3Dカメラポーズ・エスティメータに入力された選択後3Dカメラポーズ推定の有効性を判定し、入力された選択後3Dカメラポーズ推定が有効でないと判定した場合には、3Dカメラポーズ推定として前の3Dカメラポーズ推定を維持するように構成されていることを特徴とする請求項1〜8のいずれかに記載の装置。
  10. メモリを有するコンピュータ装置を、請求項1〜9のいずれかに記載の装置として構成するように機能するコンピュータプログラム製品。
  11. カメラポーズの推定に基づいてバーチャルオブジェクトをレンダリングする方法であって、
    (i)カメラによる画像を取り込むステップと、
    (ii)前記カメラによる新しい画像を取り込むとともに、請求項1〜10のいずれかに記載の装置を用いて、前記ステップ(i)で取り込んだ前記画像から第1のカメラポーズ推定を生成するステップと、
    (iii)前記カメラによる第2の新しい画像を取り込むとともに、請求項1〜10のいずれかに記載の装置を用いて、前記ステップ(ii)で取り込んだ前記画像から第2のカメラポーズ推定を生成し、かつ、前記ステップ(ii)で生成した前記第1のカメラポーズ推定を用いて、バーチャルオブジェクトをレンダリングするステップと、
    を備えてなる方法。
  12. 3つのスレッドA,B,Cをさらに備え、
    前記スレッドAが、前記カメラによる画像を取り込み、
    前記スレッドBが、前記スレッドAで取り込まれた前記画像から前記カメラポーズ推定を生成し、
    前記スレッドCが、前記スレッドBで生成された前記カメラポーズ推定を用いて前記バーチャルオブジェクトをレンダリングすることを特徴とする請求項11に記載の方法。
  13. 前記ステップ(iii)が、前記レンダリングされたバーチャルオブジェクトと、2つ前のステップで取り込んだ前記画像と、を結合することにより、拡張リアリティ効果を生成することをさらに備えることを特徴とする請求項11に記載の方法。
JP2010509290A 2007-05-22 2008-05-22 拡張リアリティイメージのためのカメラポーズ推定装置および方法 Active JP5243529B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NO20072616 2007-05-22
NO20072616A NO327279B1 (no) 2007-05-22 2007-05-22 Kamerapositurestimeringsanordning og- fremgangsmate for foroket virkelighetsavbildning
PCT/NO2008/000178 WO2008143523A1 (en) 2007-05-22 2008-05-22 Camera pose estimation apparatus and method for augmented reality imaging

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013078439A Division JP5668091B2 (ja) 2007-05-22 2013-04-04 3dカメラポーズ推定方法

Publications (2)

Publication Number Publication Date
JP2010532465A JP2010532465A (ja) 2010-10-07
JP5243529B2 true JP5243529B2 (ja) 2013-07-24

Family

ID=40032124

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010509290A Active JP5243529B2 (ja) 2007-05-22 2008-05-22 拡張リアリティイメージのためのカメラポーズ推定装置および方法
JP2013078439A Active JP5668091B2 (ja) 2007-05-22 2013-04-04 3dカメラポーズ推定方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013078439A Active JP5668091B2 (ja) 2007-05-22 2013-04-04 3dカメラポーズ推定方法

Country Status (5)

Country Link
US (2) US8452080B2 (ja)
EP (1) EP2153409B1 (ja)
JP (2) JP5243529B2 (ja)
NO (1) NO327279B1 (ja)
WO (1) WO2008143523A1 (ja)

Families Citing this family (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO327279B1 (no) * 2007-05-22 2009-06-02 Metaio Gmbh Kamerapositurestimeringsanordning og- fremgangsmate for foroket virkelighetsavbildning
US8477246B2 (en) * 2008-07-11 2013-07-02 The Board Of Trustees Of The Leland Stanford Junior University Systems, methods and devices for augmenting video content
US8270770B1 (en) * 2008-08-15 2012-09-18 Adobe Systems Incorporated Region-based dense feature correspondence
US20100119109A1 (en) * 2008-11-11 2010-05-13 Electronics And Telecommunications Research Institute Of Daejeon Multi-core multi-thread based kanade-lucas-tomasi feature tracking method and apparatus
US8436891B2 (en) * 2009-09-16 2013-05-07 Disney Enterprises, Inc. Hyperlinked 3D video inserts for interactive television
DE102009049073A1 (de) * 2009-10-12 2011-04-21 Metaio Gmbh Verfahren zur Darstellung von virtueller Information in einer Ansicht einer realen Umgebung
WO2011048497A2 (en) * 2009-10-19 2011-04-28 National University Of Singapore Computer vision based hybrid tracking for augmented reality in outdoor urban environments
DE102009049818A1 (de) * 2009-10-19 2011-04-21 Siemens Aktiengesellschaft Verfahren zur Ermittlung der Projektionsgeometrie einer Röntgenanlage
KR101487944B1 (ko) 2010-02-24 2015-01-30 아이피플렉 홀딩스 코포레이션 시각 장애인들을 지원하는 증강 현실 파노라마
GB2479537B8 (en) 2010-04-12 2017-06-14 Vitec Group Plc Camera pose correction
US9317133B2 (en) 2010-10-08 2016-04-19 Nokia Technologies Oy Method and apparatus for generating augmented reality content
JP5704885B2 (ja) * 2010-10-25 2015-04-22 オリンパスイメージング株式会社 撮影機器、撮影方法及び撮影制御プログラム
US8848970B2 (en) 2011-04-26 2014-09-30 Digimarc Corporation Salient point-based arrangements
US9342886B2 (en) 2011-04-29 2016-05-17 Qualcomm Incorporated Devices, methods, and apparatuses for homography evaluation involving a mobile device
US8913055B2 (en) 2011-05-31 2014-12-16 Honda Motor Co., Ltd. Online environment mapping
US9058687B2 (en) * 2011-06-08 2015-06-16 Empire Technology Development Llc Two-dimensional image capture for an augmented reality representation
EP2751777B1 (en) 2011-08-31 2019-08-07 Apple Inc. Method for estimating a camera motion and for determining a three-dimensional model of a real environment
US8959128B1 (en) * 2011-11-16 2015-02-17 Google Inc. General and nested Wiberg minimization
US8855366B2 (en) 2011-11-29 2014-10-07 Qualcomm Incorporated Tracking three-dimensional objects
US9881419B1 (en) 2012-02-02 2018-01-30 Bentley Systems, Incorporated Technique for providing an initial pose for a 3-D model
US8836799B2 (en) * 2012-03-30 2014-09-16 Qualcomm Incorporated Method to reject false positives detecting and tracking image objects
US8666159B1 (en) 2012-06-04 2014-03-04 Google Inc. Real time feature extraction
US20140002617A1 (en) * 2012-06-27 2014-01-02 The Board Of Trustees Of The University Of Illinois Particle tracking system and method
CN103673990B (zh) * 2012-09-13 2016-04-06 北京同步科技有限公司 获取摄像机姿态数据的装置及其方法
US9237340B2 (en) * 2012-10-10 2016-01-12 Texas Instruments Incorporated Camera pose estimation
US9684941B2 (en) 2012-10-29 2017-06-20 Digimarc Corporation Determining pose for use with digital watermarking, fingerprinting and augmented reality
US9177384B2 (en) * 2013-07-31 2015-11-03 Trimble Navigation Limited Sequential rolling bundle adjustment
JP5937977B2 (ja) * 2013-01-31 2016-06-22 日本電信電話株式会社 変換行列推定装置、変換行列推定方法、及びプログラム
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9679414B2 (en) * 2013-03-01 2017-06-13 Apple Inc. Federated mobile device positioning
US9928652B2 (en) 2013-03-01 2018-03-27 Apple Inc. Registration between actual mobile device position and environmental model
WO2014169238A1 (en) 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
US9483703B2 (en) * 2013-05-14 2016-11-01 University Of Southern California Online coupled camera pose estimation and dense reconstruction from video
JP6144826B2 (ja) * 2013-06-11 2017-06-07 クアルコム,インコーポレイテッド データベース作成のための対話型および自動的3dオブジェクト走査方法
GB201310364D0 (en) * 2013-06-11 2013-07-24 Sony Comp Entertainment Europe Head-mountable apparatus and systems
US9406137B2 (en) 2013-06-14 2016-08-02 Qualcomm Incorporated Robust tracking using point and line features
US9489765B2 (en) * 2013-11-18 2016-11-08 Nant Holdings Ip, Llc Silhouette-based object and texture alignment, systems and methods
US20150178927A1 (en) * 2013-12-23 2015-06-25 Metaio Gmbh Method and system for determining a transformation associated with a capturing device
US20150243031A1 (en) * 2014-02-21 2015-08-27 Metaio Gmbh Method and device for determining at least one object feature of an object comprised in an image
WO2015155628A1 (en) * 2014-04-07 2015-10-15 Eyeways Systems Ltd. Apparatus and method for image-based positioning, orientation and situational awareness
US9430038B2 (en) * 2014-05-01 2016-08-30 Microsoft Technology Licensing, Llc World-locked display quality feedback
DE102014106718B4 (de) 2014-05-13 2022-04-07 Immersight Gmbh System, welches eine Blickfelddarstellung in einer gegenständlichen Lage in einem veränderbaren Raumwinkelbereich darbietet
DE202014011540U1 (de) 2014-05-13 2022-02-28 Immersight Gmbh System insbesondere zur Darbietung einer Blickfelddarstellung und Videobrille
US11051000B2 (en) * 2014-07-14 2021-06-29 Mitsubishi Electric Research Laboratories, Inc. Method for calibrating cameras with non-overlapping views
US9746913B2 (en) 2014-10-31 2017-08-29 The United States Of America As Represented By The Secretary Of The Navy Secured mobile maintenance and operator system including wearable augmented reality interface, voice command interface, and visual recognition systems and related methods
US9916002B2 (en) * 2014-11-16 2018-03-13 Eonite Perception Inc. Social applications for augmented reality technologies
US10043319B2 (en) 2014-11-16 2018-08-07 Eonite Perception Inc. Optimizing head mounted displays for augmented reality
US10142596B2 (en) 2015-02-27 2018-11-27 The United States Of America, As Represented By The Secretary Of The Navy Method and apparatus of secured interactive remote maintenance assist
US9747516B2 (en) 2015-05-12 2017-08-29 Qualcomm Incorporated Keypoint detection with trackability measurements
US9836118B2 (en) 2015-06-16 2017-12-05 Wilson Steele Method and system for analyzing a movement of a person
US9588598B2 (en) 2015-06-30 2017-03-07 Ariadne's Thread (Usa), Inc. Efficient orientation estimation system using magnetic, angular rate, and gravity sensors
US10089790B2 (en) * 2015-06-30 2018-10-02 Ariadne's Thread (Usa), Inc. Predictive virtual reality display system with post rendering correction
US9588593B2 (en) 2015-06-30 2017-03-07 Ariadne's Thread (Usa), Inc. Virtual reality system with control command gestures
US9607428B2 (en) 2015-06-30 2017-03-28 Ariadne's Thread (Usa), Inc. Variable resolution virtual reality display system
JP2017062748A (ja) * 2015-09-25 2017-03-30 富士通株式会社 位置合わせ装置、位置合わせ方法および位置合わせプログラム
US9849591B2 (en) * 2015-10-02 2017-12-26 X Development Llc Localization of a robot in an environment using detected edges of a camera image from a camera of the robot and detected edges derived from a three-dimensional model of the environment
US10086955B2 (en) * 2015-10-23 2018-10-02 The Boeing Company Pattern-based camera pose estimation system
US9858669B2 (en) * 2015-10-23 2018-01-02 The Boeing Company Optimized camera pose estimation system
KR101746648B1 (ko) * 2016-02-23 2017-06-14 주식회사 언리얼파크 3차원 객체 표현을 위한 마커리스 증강현실장치 및 방법
US11232583B2 (en) * 2016-03-25 2022-01-25 Samsung Electronics Co., Ltd. Device for and method of determining a pose of a camera
NZ749449A (en) * 2016-06-30 2023-06-30 Magic Leap Inc Estimating pose in 3d space
US11017712B2 (en) 2016-08-12 2021-05-25 Intel Corporation Optimized display image rendering
WO2018045551A1 (en) * 2016-09-09 2018-03-15 Intel Corporation Training and deploying pose regressions in neural networks in autonomous machines
US9928660B1 (en) 2016-09-12 2018-03-27 Intel Corporation Hybrid rendering for a wearable display attached to a tethered computer
TWI601099B (zh) * 2016-11-16 2017-10-01 Chunghwa Telecom Co Ltd Camera attitude estimation method
US10380763B2 (en) * 2016-11-16 2019-08-13 Seiko Epson Corporation Hybrid corner and edge-based tracking
CN108447090B (zh) * 2016-12-09 2021-12-21 株式会社理光 对象姿态估计的方法、装置及电子设备
US10212428B2 (en) 2017-01-11 2019-02-19 Microsoft Technology Licensing, Llc Reprojecting holographic video to enhance streaming bandwidth/quality
GB2561368B (en) * 2017-04-11 2019-10-09 Nokia Technologies Oy Methods and apparatuses for determining positions of multi-directional image capture apparatuses
US10621737B2 (en) * 2017-05-04 2020-04-14 Mim Software Inc. System and method for predictive fusion
WO2019023076A1 (en) * 2017-07-24 2019-01-31 Visom Technology, Inc. AUGMENTED REALITY SYSTEM (RA) WITHOUT MARKER
US10282913B2 (en) 2017-07-24 2019-05-07 Visom Technology, Inc. Markerless augmented reality (AR) system
US10535160B2 (en) 2017-07-24 2020-01-14 Visom Technology, Inc. Markerless augmented reality (AR) system
CN109325978B (zh) 2017-07-31 2022-04-05 深圳市腾讯计算机系统有限公司 增强现实显示的方法、姿态信息的确定方法及装置
US10839547B2 (en) * 2017-09-28 2020-11-17 Samsung Electronics Co., Ltd. Camera pose determination and tracking
US10535155B2 (en) * 2017-10-24 2020-01-14 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for articulated pose estimation
US10970425B2 (en) * 2017-12-26 2021-04-06 Seiko Epson Corporation Object detection and tracking
US10636198B2 (en) * 2017-12-28 2020-04-28 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for monocular simultaneous localization and mapping
US10937189B2 (en) 2018-01-18 2021-03-02 Samsung Electronics Co., Ltd. Pose estimation method, method of displaying virtual object using estimated pose, and apparatuses performing the same
US10982968B2 (en) 2018-03-29 2021-04-20 Nio Usa, Inc. Sensor fusion methods for augmented reality navigation
US10679376B2 (en) * 2018-04-24 2020-06-09 Microsoft Technology Licensing, Llc Determining a pose of a handheld object
CN110555882B (zh) 2018-04-27 2022-11-15 腾讯科技(深圳)有限公司 界面显示方法、装置及存储介质
CN108682036B (zh) * 2018-04-27 2022-10-25 腾讯科技(深圳)有限公司 位姿确定方法、装置及存储介质
KR102695522B1 (ko) * 2018-10-17 2024-08-14 삼성전자주식회사 이미지 인식 모델을 트레이닝시키는 장치 및 방법과 이미지 인식 장치 및 방법
KR102149003B1 (ko) * 2018-11-16 2020-08-28 포디리플레이코리아 주식회사 입체 스트라이크 존 표시 방법 및 장치
US10573050B1 (en) 2018-11-20 2020-02-25 Sony Corporation Marker-based pose estimation
WO2020131880A1 (en) * 2018-12-17 2020-06-25 The Brigham And Women's Hospital, Inc. System and methods for a trackerless navigation system
CN111353930B (zh) * 2018-12-21 2022-05-24 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备及存储介质
US10943401B2 (en) 2019-02-01 2021-03-09 International Business Machines Corporation Active visual recognition in mobile augmented reality
US12036663B2 (en) * 2019-03-25 2024-07-16 Abb Schweiz Ag Method and control arrangement for determining a relation between a robot coordinate system and a movable apparatus coordinate system
US11024054B2 (en) 2019-05-16 2021-06-01 Here Global B.V. Method, apparatus, and system for estimating the quality of camera pose data using ground control points of known quality
CN110363179B (zh) * 2019-07-23 2022-03-25 联想(北京)有限公司 地图获取方法、装置、电子设备以及存储介质
WO2021046829A1 (zh) * 2019-09-12 2021-03-18 华为技术有限公司 定位方法、装置及系统
KR20210036574A (ko) * 2019-09-26 2021-04-05 삼성전자주식회사 자세 추정 방법 및 장치
WO2021154269A1 (en) * 2020-01-30 2021-08-05 Hewlett-Packard Development Company, L.P. Camera pose determinations with patterns
GB2593227A (en) * 2020-03-20 2021-09-22 Sony Corp Image processing method and apparatus
CN111508032B (zh) * 2020-04-17 2022-09-27 易思维(杭州)科技有限公司 相机标定过程中特征点的排序方法
US11508080B2 (en) * 2020-09-15 2022-11-22 Toyota Research Institute, Inc. Systems and methods for generic visual odometry using learned features via neural camera models
CN112348855B (zh) * 2020-11-19 2023-05-02 湖南国科微电子股份有限公司 视觉里程计特征点提取方法、系统、电子设备和存储介质
CN112950672B (zh) * 2021-03-03 2023-09-19 百度在线网络技术(北京)有限公司 确定关键点的位置的方法、装置和电子设备
US20240153031A1 (en) * 2021-03-10 2024-05-09 The Brigham And Women's Hospital, Inc. System for and method of real-time nonrigid mosaicking of laparoscopy images
US11423576B1 (en) 2021-07-23 2022-08-23 Ford Global Technologies, Llc Infrastructure node localization with respect to alternative frame of reference
CN113850221A (zh) * 2021-09-30 2021-12-28 北京航空航天大学 一种基于关键点筛选的姿态跟踪方法

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2565350B1 (fr) 1984-06-05 1986-10-10 Paris Nord Universite Moyens propres a permettre le support, le traitement, le stockage et l'analyse automatiques en continu d'echantillons biologiques
US4950455A (en) 1987-12-22 1990-08-21 Board Of Regents, University Of Texas System Apparatus for quantifying components in liquid samples
NL9500281A (nl) 1995-02-15 1996-09-02 Jan Pieter Willem Vermeiden Telkamer voor biologisch onderzoek alsmede werkwijze voor de vervaardiging van een dergelijke telkamer.
US5850469A (en) * 1996-07-09 1998-12-15 General Electric Company Real time tracking of camera pose
WO1998008931A1 (en) 1996-08-26 1998-03-05 Princeton University Reversibly sealable microstructure sorting devices
JPH10116359A (ja) * 1996-10-09 1998-05-06 Sony Corp カメラパラメータ演算装置及び画像合成装置
IL135934A0 (en) 1997-11-11 2001-05-20 Kowa Co Method and apparatus for counting leukocytes
US6571024B1 (en) * 1999-06-18 2003-05-27 Sarnoff Corporation Method and apparatus for multi-view three dimensional estimation
JP2002032741A (ja) 2000-07-13 2002-01-31 Sony Corp 3次元画像生成システムおよび3次元画像生成方法、並びにプログラム提供媒体
US6765569B2 (en) * 2001-03-07 2004-07-20 University Of Southern California Augmented-reality tool employing scene-feature autocalibration during camera motion
US7179423B2 (en) 2001-06-20 2007-02-20 Cytonome, Inc. Microfluidic system including a virtual wall fluid interface port for interfacing fluids with the microfluidic system
US20030012410A1 (en) * 2001-07-10 2003-01-16 Nassir Navab Tracking and pose estimation for augmented reality using real features
US7251352B2 (en) 2001-08-16 2007-07-31 Siemens Corporate Research, Inc. Marking 3D locations from ultrasound images
US7167519B2 (en) * 2001-12-20 2007-01-23 Siemens Corporate Research, Inc. Real-time video object generation for smart cameras
AU2003239171A1 (en) * 2002-01-31 2003-09-02 Braintech Canada, Inc. Method and apparatus for single camera 3d vision guided robotics
JP2003281504A (ja) 2002-03-22 2003-10-03 Canon Inc 撮像部位置姿勢推定装置及びその制御方法並びに複合現実感提示システム
JP3862688B2 (ja) 2003-02-21 2006-12-27 キヤノン株式会社 画像処理装置及び画像処理方法
US7203384B2 (en) 2003-02-24 2007-04-10 Electronic Scripting Products, Inc. Implement for optically inferring information from a planar jotting surface
WO2004081854A1 (en) 2003-03-06 2004-09-23 Animetrics, Inc. Viewpoint-invariant detection and identification of a three-dimensional object from two-dimensional imagery
US7391888B2 (en) * 2003-05-30 2008-06-24 Microsoft Corporation Head pose assessment methods and systems
US7336296B2 (en) * 2003-10-10 2008-02-26 International Business Machines Corporation System and method for providing position-independent pose estimation
US7110100B2 (en) 2003-11-04 2006-09-19 Electronic Scripting Products, Inc. Apparatus and method for determining an inclination of an elongate object contacting a plane surface
US7268956B2 (en) 2003-11-24 2007-09-11 Electronic Scripting Products, Inc. Solid catadioptric lens with two viewpoints
US7038846B2 (en) 2003-11-24 2006-05-02 Electronic Scripting Products, Inc. Solid catadioptric lens with a single viewpoint
US7088440B2 (en) 2003-12-22 2006-08-08 Electronic Scripting Products, Inc. Method and apparatus for determining absolute position of a tip of an elongate object on a plane surface with invariant features
US9229540B2 (en) 2004-01-30 2016-01-05 Electronic Scripting Products, Inc. Deriving input from six degrees of freedom interfaces
US8542219B2 (en) 2004-01-30 2013-09-24 Electronic Scripting Products, Inc. Processing pose data derived from the pose of an elongate object
US7826641B2 (en) 2004-01-30 2010-11-02 Electronic Scripting Products, Inc. Apparatus and method for determining an absolute pose of a manipulated object in a real three-dimensional environment with invariant features
US7729515B2 (en) 2006-03-08 2010-06-01 Electronic Scripting Products, Inc. Optical navigation apparatus using fixed beacons and a centroid sensing device
US7961909B2 (en) 2006-03-08 2011-06-14 Electronic Scripting Products, Inc. Computer interface employing a manipulated object with absolute pose detection component and a display
US7023536B2 (en) 2004-03-08 2006-04-04 Electronic Scripting Products, Inc. Apparatus and method for determining orientation parameters of an elongate object
JP4537104B2 (ja) * 2004-03-31 2010-09-01 キヤノン株式会社 マーカ検出方法、マーカ検出装置、位置姿勢推定方法、及び複合現実空間提示方法
US7161664B2 (en) 2004-04-13 2007-01-09 Electronic Scripting Products, Inc. Apparatus and method for optical determination of intermediate distances
JP2005308699A (ja) * 2004-04-26 2005-11-04 Canon Inc 位置姿勢推定方法及び装置ならびにこれに用いる計測用マーカ
US7113270B2 (en) 2004-06-18 2006-09-26 Electronics Scripting Products, Inc. Determination of an orientation parameter of an elongate object with a scan beam apparatus
JP4914038B2 (ja) * 2004-11-04 2012-04-11 キヤノン株式会社 情報処理方法および装置
US7532709B2 (en) * 2005-02-04 2009-05-12 Styers Justin R Remote garage door monitoring system
JP4667900B2 (ja) * 2005-02-17 2011-04-13 株式会社ユニメック 二次元画像からの三次元解析方法とそれを実行するシステム
US7616807B2 (en) 2005-02-24 2009-11-10 Siemens Corporate Research, Inc. System and method for using texture landmarks for improved markerless tracking in augmented reality applications
JP2006252275A (ja) 2005-03-11 2006-09-21 Japan Science & Technology Agency カメラ運動及び物体形状の復元システム
US7706603B2 (en) 2005-04-19 2010-04-27 Siemens Corporation Fast object detection for augmented reality systems
DE102005025470B4 (de) 2005-06-02 2007-12-20 Metaio Gmbh Verfahren und System zur Ermittlung der Position und Orientierung einer Kamera relativ zu einem realen Objekt
US7536030B2 (en) 2005-11-30 2009-05-19 Microsoft Corporation Real-time Bayesian 3D pose tracking
NO327279B1 (no) * 2007-05-22 2009-06-02 Metaio Gmbh Kamerapositurestimeringsanordning og- fremgangsmate for foroket virkelighetsavbildning
JP4726149B2 (ja) 2008-11-13 2011-07-20 株式会社バンダイ 組成物、及びビール掛け感を味わうプレイ方法
US8970709B2 (en) 2013-03-13 2015-03-03 Electronic Scripting Products, Inc. Reduced homography for recovery of pose parameters of an optical apparatus producing image data with structural uncertainty

Also Published As

Publication number Publication date
EP2153409A1 (en) 2010-02-17
US20100232727A1 (en) 2010-09-16
EP2153409B1 (en) 2015-07-08
JP2010532465A (ja) 2010-10-07
US20130335529A1 (en) 2013-12-19
NO20072616L (no) 2008-11-24
JP2013178252A (ja) 2013-09-09
WO2008143523A1 (en) 2008-11-27
US20170070724A9 (en) 2017-03-09
EP2153409A4 (en) 2013-04-24
NO327279B1 (no) 2009-06-02
US10033985B2 (en) 2018-07-24
JP5668091B2 (ja) 2015-02-12
US8452080B2 (en) 2013-05-28

Similar Documents

Publication Publication Date Title
JP5668091B2 (ja) 3dカメラポーズ推定方法
Baak et al. A data-driven approach for real-time full body pose reconstruction from a depth camera
EP3182373B1 (en) Improvements in determination of an ego-motion of a video apparatus in a slam type algorithm
US10088294B2 (en) Camera pose estimation device and control method
EP2751777B1 (en) Method for estimating a camera motion and for determining a three-dimensional model of a real environment
US8675972B2 (en) Method and device for determining the pose of a three-dimensional object in an image and method and device for creating at least one key image for object tracking
CN108960045A (zh) 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体
US20140092132A1 (en) Systems and methods for 3d pose estimation
US20230206565A1 (en) Providing augmented reality in a web browser
US20190333242A1 (en) Method and apparatus for three-dimensional object pose estimation, device and storage medium
US20160210761A1 (en) 3d reconstruction
CN110809785A (zh) 用于主动立体声系统的基于学习的匹配
EP3182370A1 (en) Method and device for generating binary descriptors in video frames
US20150348269A1 (en) Object orientation estimation
TWI684956B (zh) 物體辨識與追蹤系統及其方法
JP2010113530A (ja) 画像認識装置及びプログラム
CN112200917B (zh) 一种高精度增强现实方法及系统
CN110009683B (zh) 基于MaskRCNN的实时平面上物体检测方法
Lowney et al. Model based tracking for augmented reality on mobile devices
My et al. Real time face tracking and pose estimation using an adaptive correlation filter for human-robot interaction
Höll et al. Monocular lsd-slam integration within ar system
Guan et al. Recovering pose and occlusion consistencies in augmented reality systems using affine properties
Schumann et al. A matching shader technique for model-based tracking
Sanchez Tapia A Stochastic Parallel Method for Real Time Monocular SLAM Applied to Augmented Reality

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5243529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250