JP2018515825A

JP2018515825A - Ｌｉｄａｒステレオ融合実写３ｄモデルバーチャルリアリティビデオ

Info

Publication number: JP2018515825A
Application number: JP2017545687A
Authority: JP
Inventors: トランアンソニー
Original assignee: ハイプヴイアール
Priority date: 2015-02-24
Filing date: 2016-02-24
Publication date: 2018-06-14
Also published as: US9369689B1; US9877009B2; WO2016138161A1; US20170104980A1; EP3262464A4; KR20180003535A; US9872010B2; EP3262464A1; CN107407866A; US20160249039A1

Abstract

実写三次元動画をキャプチャするシステムを開示する。システムは、三次元データが導かれるステレオ画像及び三次元ＬＩＤＡＲデータを生成するためにステレオカメラ対及びＬＩＤＡＲを含む。ステレオからの深さ（ｄｅｐｔｈ−ｆｒｏｍ−ｓｔｅｒｅｏ）アルゴリズムは、ステレオ画像から三次元空間向けの三次元カメラデータを生成するために用いられ、三次元カメラデータに亘って優先する三次元ＬＩＤＡＲデータと組み合わせられ、それにより、三次元空間に対応する三次元データを生成する。【選択図】図１

Description

著作権及びトレードドレスの通知
本特許文書の開示の一部分は、著作権の保護を受ける材料を含む。本特許文書は、所有者のトレードドレスである若しくはトレードドレスとなり得る事項を示す及び／又は記載することができる。著作権及びトレードドレスの所有者は、その特許開示が米国特許商標庁の特許出願書類又は記録内にあるので、当該特許開示の誰による複製にも異議はないが、それ以外は何であれ、全ての著作権及びトレードドレス権を保有するものである。

本開示は、三次元動画キャプチャに関し、より具体的には、ボルメトリックバーチャルリアリティビデオを作成するために、実写ステレオスコピック動画をＬＩＤＡＲ三次元データと融合するためのシステムに関する。

関連技術の説明
バーチャルリアリティ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ（ＶＲ））アプリケーション用の三次元環境を生成するための従来のシステムは、２つの基本カテゴリに該当する。第１のカテゴリは、完全にレンダリングされた三次元環境である。これらの環境は、一般的に、「ゲームエンジン」ソフトウェアを用いて開発者及びアーティストによって形成し、空間内に三次元オブジェクトを形成し、それらのオブジェクトに物理的なオブジェクトの外観を与えるためにそれらのオブジェクトに芸術及び光効果を適用する。その後、ユーザは、開発者及びアーティストによって形成された三次元環境に「入る」。

これらの環境は、完全に実現された三次元空間となる利益を有する。典型的には、ユーザのアバター（又はＶＲの場合にはユーザ自身）は、このような空間内を自由に移動できる。なぜなら、それらは、完全に探索されることを目的として設計されているためである。これらの空間による課題は、それらが実際の位置を推定しているのみであり、より根本的には、開発者、アーティストによる数日又は数週間の作業、及びゲームエンジンのための開発時間を考慮する場合には、他の開発者及びアーティストが環境を作ることを可能にするソフトウェアを製作するために長い時間を必要とすることである。これらの環境形成プロセスのパーツを自動化することができるツールが存在するが、アバター又はユーザにより真実味があり、かつ完全に操縦可能に作成するためにより多くの手作業がなされる必要がある。より複雑なシステムは、いくつかの三次元データを導くために、三次元撮影の被写体となる又は被写体となっている位置の詳細な写真測量法を実行するために２つの方法を組み合わせる。そして、事後に、三次元データは、ある程度の没入動画環境を形成するために動画と組み合わせられる。時間及び作業が含まれるため、これらのシステムは、関連する三次元空間の特性を簡易に記録しながら、「実写」動画をキャプチャするためには本当に適しているわけではない。

他方のカテゴリは、「軌道上（ｏｎ−ｒａｉｌｓ）」動画又は視野の重複のあるカメラにより形成された一連の画像であり、画像の球全体は、閲覧者の周りに「バブル」を形成するためにソフトウェアによって共に「一体化」される。このカテゴリは、そのビデオフォーマットインカーネーションに加わること、又は個々の画像キャプチャ指向インカーネーションに加わることをわずかに感じ、ある固定された位置から別の位置へ移行する。「バブル」内にいる間、ユーザ又はアバターは、それらを箱に入れる画像の球の内側で「見渡す」。これらのシステムは、それらの画像が撮られた（典型的にはアウトドア空間）場所を正確に反映する非常に高品質の画像を提供される。しかし、これらの画像は、視差の問題に苦慮しており、一体化された画像は、しばしば、位置合わせが不十分である。

しかし、アバター又はユーザは、予め選択された経路又は固定された位置から逸れない場合がある。そして、画像は、如何なる三次元構成要素も有していない。なぜなら、動きは想定されず、深さ情報を有することよりも重要ではないためである。しかし、環境内に少なくともある程度の動きの自由度を有する真の三次元環境のために、「ゲームエンジン」スタイルのソフトウェアを用いて形成された完全に実現された三次元環境において利用可能なような深さ情報は、非常に望ましい。

２つのカメラによって形成される２つの対応する画像で視ることが可能な要素の三次元特徴をキャプチャするために２つのカメラを用いるステレオスコピック写真は、画像内のオブジェクトの相対的な深さを推定するために用いられている。しかし、バーチャルリアリティシステムは、完全没入型の、周囲を完全に取り囲んだ球体空間を使用することが好ましく、更に、外界が仮想的に無限遠（空）である深さを有し、長い視野（例えば、いくつかのブロックに離れた建物）を有する傾向があるため、ステレオスコピック写真の適応性は制限される。深さを算出するために、２つの対応する画像間の視認可能な視差が存在しなければならない。離れた距離では、２つの画像内のオブジェクト間の視差は、それが存在する場合、最小である。そのため、しばしば外の、オープンスペースにおいて、動画を記録するためにステレオスコピック写真を使用することは、バーチャルリアリティユーザが動くことができる周りを完全に取り囲んだ三次元球体空間を形成するために不正確かつ不十分である。

例えばＭｉｃｒｏｓｏｆｔ（登録商標）Ｋｉｎｅｃｔのような深さセンサベースのシステムは、同様の機能を可能にするが、一方向‐すなわちユーザに向けて‐かつ非常に制限された範囲‐での動作を可能にするにすぎない。したがって、これらのタイプのシステムは、アウトドア環境又は３６０°球体動画記録及び撮影された環境の三次元再構築には適していない。

同様に、ＬＩＤＡＲシステムは、以前から存在しているが、汎用的な使用のためには極めて高価である。また、ＬＩＤＡＲシステムによって生成される深さデータは、他のデータと容易に組み合わせ可能ではない又は三次元環境を再形成するために用いられるデータに容易に変換可能ではない。これは、一つには、非常に正確ではあるが、ＬＩＤＡＲデータは、与えられた環境内に非常に希薄である‐ＬＩＤＡＲデータポイントが互いに相対的に離れていることを意味する‐ためである。この希薄さは、対象となる環境の正確な三次元レンダリングを再形成するためにＬＩＤＡＲデータのみを不十分にする。

図１は、ステレオグラフィック画像及びＬＩＤＡＲの融合のためのシステムのブロック図である。図２は、コンピューティングデバイスのブロック図である。図３は、図３Ａ、３Ｂ及び３Ｃからなり、その各々が、三次元実写動画をキャプチャするための、全方向性の、ステレオグラフィックカメラリグの異なる例の構成である。図４は、ステレオグラフィック画像及びＬＩＤＡＲの融合のためのシステムのためのコントローラの機能ブロック図である。図５は、三次元データストレージシステムの機能ブロック図である。図６は、三次元データを生成するためにステレオグラフィック画像及びＬＩＤＡＲを融合するための方法のフローチャートである。図７は、ステレオスコピックカメラに対するＬＩＤＡＲの較正のための方法のフローチャートである。図８は、ＬＩＤＡＲデータをステレオスコピックカメラデータと組み合わせて、それにより三次元データを導くための方法のフローチャートである。図９は、区分内の２つの既知のＬＩＤＡＲデータポイントを有する画像の区分である。図１０は、単一の、三次元画像にステッチされるステレオグラフィック画像間のシームを融合するための方法のフローチャートである。図１１は、図１１Ａ及び図１１Ｂからなり、ステレオカメラ画像の多角形投影である。

本明細書全体にわたり、図面に現れる要素には、３桁の参照識別子が割り当てられており、最上位桁は、要素が最初に示される図面の番号であり、最下位の２桁は、要素に特有である。図面との関連で説明しない要素は、同じ参照識別子を有する、既に記載した要素と同じ特徴及び機能を有すると仮定することができる。

装置の説明
ステレオグラフィック画像及びＬＩＤＡＲの融合のためのシステム１００のブロック図である図１を参照する。システム１００は、１１０Ｌ，１１０Ｒからなる、少なくとも１つのステレオカメラ対１１０を含む（１１０Ｌが左カメラであり、１１０Ｒが右カメラである）。ステレオカメラ対１１０’、１１０’’、１１０’’’及び１１０’’’’のような１以上の追加のステレオカメラ対があってもよい。ステレオカメラ対１１０は、そこから三次元カメラデータが導かれるステレオ画像を作成するために用いられてもよい。本明細書で用いられる「三次元カメラデータ」は、ステレオカメラ対によってキャプチャされる同時画像から導かれる三次元データを意味する。

ＬＩＤＡＲ１２０は、三次元空間の深さマップを生成するために、少なくとも１つのレーザ及び当該少なくとも１つのレーザからの反射の検出に依存する深さ検知技術である。ＬＩＤＡＲの様々な実施形態がある。その一部は、視野に亘って移動する、単一のスキャニングレーザを用い、その他の実施形態は、視野の個々に亘って移動する複数の離散ビームに依存する。更に別の実施形態は、単一の離散レーザで複数の領域を同時にスキャンするためにビームスプリッタ又は同様の技術を用いる。反射したビームのための独立センサの数は、１から多数まで変化してもよい。高価ではない、現代のＬＩＤＡＲは、典型的には、反射されたビームを集め、それによりデータを導くために、複数の光学系と１つの大型センサとの組み合わせに依存する。好ましくは、ＬＩＤＡＲにより生成される三次元データは、ＬＩＤＡＲに対する、（Ｘ，Ｙ，Ｚ）ポイントフィールドの形式にある。本明細書で用いられる文言「三次元ＬＩＤＡＲデータ」は、ＬＩＤＡＲにより生成される三次元データからキャプチャ又は導かれる三次元データを意味する。

ステレオカメラ対１１０及びＬＩＤＡＲ１２０の双方は、コントローラ１３０の指示で動作する。コントローラ１３０は、汎用コンピューティングデバイス全体又はその一部であってもよい。単一のコントローラ１３０として示されるが、複数の独立したコントローラ、例えば、ＬＩＤＡＲ用の個別コントローラ及び１以上のステレオカメラ対用の別のコントローラと相互作用してもよい。コントローラ１３０は、ステレオカメラ対（例えば、ステレオカメラ対１１０）の各々とＬＩＤＡＲとの相互作用を統合する。コントローラ１３０は、後に、対象となる三次元環境を表現する三次元データを作成するために用いられるカメラ及びＬＩＤＡＲデータを単にキャプチャ及び記憶してもよい。それに替えて、コントローラ１３０は、キャプチャ、記憶、及び、その後に、対象となる三次元環境を表現する三次元データを生成するために適した計算を行うために機能してもよい。

コントローラ１３０は、ジェネレーターロッキングシステム１４０と接続してもよく、又はジェネレーターロッキングシステム１４０を含んでもよい。ジェネレーターロッキング（Ｇｅｎｅｒａｔｏｒｌｏｃｋｉｎｇ（ｇｅｎｌｏｃｋ））は、オーディオ又はビデオのような時間ベース材料のソースを動悸するために用いられるシステム又はデバイスである。ここで、複数のステレオカメラ対１１０及びＬＩＤＡＲ１２０により、各々が独立してコンテンツを生成し、ｇｅｎｌｏｃｋシステム１４０は、生成されたデータのセットの各々で単一ソースタイムスタンプを提供して、コントローラ１３０によって組み合わせられるように正確に同期される。好ましくは、ｇｅｎｌｏｃｋシステム１４０は、非常に正確な時間データのアクセス又は受信を有するグローバルポジショニングシステム（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ（ＧＰＳ））受信器であってもよい。しかし、ｇｅｎｌｏｃｋを実行する他の方法及びシステムは、従来から知られている。

本明細書で用いられる文言「三次元データ」は、三次元データを生成するために用いられるデータがキャプチャされた位置の周囲の三次元空間に対応する三次元シーンを生成するために十分な、既知の位置に対する、深さ情報を含むデータを意味する。

図１のコントローラ１３０であってもよい例示的なコンピューティングデバイス２００のブロック図である図２を参照する。図２に示されるように、コンピューティングデバイス２００は、プロセッサ２１０と、メモリ２２０と、付加的に、ユーザインターフェース２３０と、通信インターフェース２４０と、を含む。これらの要素の一部は、実装に応じて存在してもよく又は存在しなくてもよい。更に、これらの要素は、互いに独立して示されるが、各々が一部の場合に別に集積されてもよい。

プロセッサ２１０は、１以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、特定用途向け集積回路（ＡＳＩＣ）又はシステム‐オン‐チップ（ＳＯＣ）であってもよく又は含んでもよい。メモリ２２０は、リードオンリーメモリ（ＲＯＭ）、スタティック、ダイナミック、及び／又は磁気抵抗ランダムアクセスメモリ（それぞれＳＲＡＭ、ＤＲＡＭ、ＭＲＡＭ）、及びフラッシュメモリのような不揮発性書き換え可能メモリを含む揮発性及び／又は不揮発性メモリの組み合わせを含んでもよい。

メモリ２２０は、プロセッサによる実行のためのソフトウェアプログラム及びルーチンを記憶してもよい。これらの記憶されたソフトウェアプログラムは、オペレーティングシステムソフトウェアを含んでもよい。オペレーティングシステムは、プロトコルスタック、コーディング／デコーディング、圧縮／展開、及び暗号化／復号化のような通信インターフェース２４０をサポートするための機能を含んでもよい。記憶されるソフトウェアプログラムは、本明細書で説明されるプロセス及び機能の一部をコンピューティングデバイスに実行させるためのアプリケーション又は「ａｐｐ」を含んでもよい。本明細書で用いられる単語「メモリ」は、波形及び一時的な信号の伝搬を明示的に排除する。

ユーザインタフェース２３０は、存在する場合、ディスプレイと、タッチスクリーン、キーパッド、キーボード、スタイラス又は他の入力デバイスのような１以上の入力デバイスと、を含んでもよい。

ストレージ２４０は、ハードディスクドライブ、長期間の保存のために設計されたフラッシュメモリデバイス、書き換え可能メディア及び（ステレオカメラ対１１０のようなカメラとともに用いられる）写真又は動画の長期間の保存のために設計されたメディアのような専有ストレージメディア等のような不揮発性メモリであってもよく、又は不揮発性メモリを含んでもよい。

通信インターフェース２５０は、１以上の有線インターフェース（例えば、ユニバーサル・シリアル・バス（ＵＳＢ）、ハイディフィニションマルチメディアインターフェース（ＨＤＭＩ））、ハードディスクドライブ、フラッシュドライブのようなストレージデバイス用の１以上のコネクタ、又は専有ストレージソリューションを含んでもよい。通信インターフェース２５０は、また、セルラーテレフォンネットワークインターフェース、ワイヤレスローカルエリアネットワーク（ＬＡＮ）インターフェース、及び／又はワイヤレスパーソナルエリアネットワーク（ＰＡＮ）インターフェースを含んでもよい。セルラーテレフォンネットワークインターフェースは、１以上のセルラーデータプロトコルを用いてもよい。ワイヤレスＬＡＮインターフェースは、ＷｉＦｉ（登録商標）ワイヤレス通信プロトコル又は他のワイヤレスローカルエリアネットワークプロトコルを用いてもよい。ワイヤレスＰＡＮインターフェースは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉ（登録商標）、ＺｉｇＢｅｅ（登録商標）のような限定範囲ワイヤレス通信プロトコル又は一部の他の公的又は専有ワイヤレスパーソナルエリアネットワークプロトコルを用いてもよい。システム１００のように、コンピューティングデバイス２００がカメラ及びＬＩＤＡＲリグの一部として配備されるとき、ワイヤレスＰＡＮインターフェースは、アクティブ音響フィルタ装置１１０Ｌ，１１０Ｒと通信するために用いられてもよい。セルラーテレフォンネットワークインターフェース及び／又はワイヤレスＬＡＮインターフェースは、コンピューティングデバイス２００の外部のデバイスと通信するために用いられてもよい。

通信インターフェース２５０は、無線周波数回路、アナログ回路、デジタル回路、１以上のアンテナ、及び他のハードウェア、ファームウェア、並びに外部装置との通信のために必要なソフトウェアを含んでもよい。通信インターフェース２５０は、選択された通信プロトコルを用いて外部装置と通信するために必要なコーディング／デコーディング、圧縮／展開、及び暗号化／復号化のような機能を実行するために１以上の専用プロセッサを含んでもよい。通信インターフェース２５０は、全体又は一部でこれらの機能の一部又は全部を実行するためにプロセッサ２１０に依存してもよい。

上述されたように、コンピューティングデバイス２００は、ゲオ‐ロケーション（ｇｅｏ−ｌｏｃａｔｉｏｎ）、つまり、その独自の位置を決定することを行うように構成されてもよい。ゲオ‐ロケーションは、コンピューティングデバイス２００自体の構成要素によって、又はこのような目的に適した外部装置との相互作用を通じて行われてもよい。ゲオ‐ロケーションは、例えば、グローバルポジショニングシステム（ＧＰＳ）受信器を用いて又は他の方法によって行われてもよい。

ここで図３に移り、三次元実写動画をキャプチャする全方向性、ステレオグラフィックカメラリグの異なる実施例の構成の例は、図３Ａ、３Ｂ、３Ｃ及び３Ｄに示される。画像は、カメラリグでの上面斜視からのものである。図３Ａは、総計４つのステレオカメラ対（８個のカメラ）、すなわち、水平に平行に搭載された３つの上部カメラ対（この状況において「水平」とは、リグに対する閲覧者の位置に垂直な円板である）及び上に向けられた１つのカメラ対を含むリグである。これらのカメラ、及び好ましくは各リグにおける全てのカメラは、領域の最も取り得る範囲を確保するために、１１０度又はそれ以上の視野を有する。球面収差が補正された（ｒｅｃｔｉｌｉｎｅａｒ）レンズが好ましいが、広角（「魚眼」）レンズもまた用いられてもよい。

図３Ｂは、水平に平行に搭載された４つのカメラ対及び上に向けられた１つのカメラ対を有する５つのステレオカメラ対リグ（１０個のカメラ）である。図３Ｃは、水平のわずかに上に向けられた５つのカメラ対及び大まかに角度を付けて上に向けられた２つのカメラ対を有する７つのステレオカメラ対リグ（１４個のカメラ）である。最後に、図３Ｄは、水平に平行に搭載された６つのカメラ対及び大まかに上に向けられた２つのカメラ対を有する８つのステレオカメラ対リグ（１６個のカメラ）である。

事実上、ステレオカメラ対のセットの構成は、カメラがステレオスコピック対に配置される限り用いられてもよく、各カメラ対から得られる画像のセットが、画像のセットに隣接するように結合されて、まとまった全体を形成する十分な重複が存在する。７対（１４個のカメラ）又は８対（１６個のカメラ）のカメラリグが全てを覆うために好ましい。更に、ステレオカメラ対の数を含むカメラリグの較正の一部として、各カメラ対内及びカメラ対間の内因性及び外因性パラメータは、既知である又は学習されなければならない。

内因性パラメータは、ステレオカメラ対により形成される画像におけるピクセル位置と、現実世界の物体との関係を定義する。内因性パラメータは、焦点長さ（レンズと画像面との距離）、主点オフセット（画像面に垂直かつレンズを通過する線が、画像面と交差する点）、及び軸歪（軸が他の軸に向かって傾く範囲）を含む。これらの内因性パラメータを知ることにより、カメラによって形成される画像の変換を可能にし、数学的な計算が行われる測定を可能にする。

外因性パラメータは、外界とのカメラの関係を定義する。これらのパラメータは、方向の定義及び他の物体（他のカメラを含む）に対する位置等のオペレーションを可能にする。これらのパラメータは、実世界にカメラを配置し、カメラの相対的な視界を決定することを助ける（例えば、物体からの距離、又は一部の物体が、実世界のカメラの視点に応じて他の物体によって塞ぐ）。

図４は、ステレオグラフィック画像とＬＩＤＡＲとの融合のためのシステム４００のコントローラの機能ブロック図である。コントローラ４３０は、カメラ較正４３１用の機能と、ステレオ調整４３２用の機能と、ＬＩＤＡＲ較正４３３用の機能と、三次元位置計算４３４用の機能と、ポイントクラウド融合４３５用の機能と、三次元データストレージ４３６用の機能と、を含む。ｇｅｎｌｏｃｋシステム４７０は、コントローラ４３０の一部として含まれてもよく、又は（図示されるように）コントローラの外部に含まれてもよい。

（図１のコントローラ１３０のように）単一のコントローラ４３０として示されるが、システム４００の機能態様は、実際には、複数の異なる構成要素にあってもよい。例えば、カメラ較正４３１は、カメラのセット又はコントローラがそこに配置されているリグに気付くように、カメラリグに組み込まれてもよく、カメラは、それら独自の内因性及び外因性パラメータを決定するために、共に作動してもよい。同様に、三次元データストレージ４３６は、コントローラの外部にあってもよく、又は１以上のステレオカメラ内にあってもよい。簡素化のために、機能構成要素は、コントローラ４３０の内部に示されるが、様々な実施形態が想定される。

カメラ較正４３１は、システム４００が、ステレオカメラ対のセットの相対的に内因性及び外因性パラメータを決定することによるプロセスである。内因性パラメータは、比較されるべきステレオカメラ対によって形成される画像を、画像にみられる外形寸法の物理測定を導くことを可能にする。例えば、ステレオカメラ対の両眼間距離（カメラ間の距離）、焦点及び焦点長さが既知である場合、それらの対によって形成される画像は、比較的簡素な三角法及び代数を用いて、画像に現れる物体を、三次元空間の深さに変換するために用いられうる。これらの決定は、画像の両方での同一点を探すことに依存し、画像において、距離を決定した後、同一点が離れる。その差は、物体が遠くに離れていることを意味する短い距離（視差）を有する深さに変換され、一方で、物体が近くにあることを意味する長い距離（視差）を有する深さに変換されうる。しかし、これらの計算を行うために、その深さ（又は視差）を算出するために必要な内因性及び外因性パラメータは、既知である、又は較正を通じて決定されなければならない。これは、カメラ較正４３１が実行するプロセスである。

相対的に正確にこの算出を行うために１つの方法は、既知のパラメータを有する外部マーカーに頼ることである。このようなマーカーは、例えば、チェッカーボード型のマーカーを含み、チェッカーボードの正方形は、既知の幅及び高さである。対応するチェッカーボード（又はチェッカーボード内の個々のボックス）は、個人によって手動で、又はコンピュータビジョンアルゴリズムによって自動で、比較的容易に区別される。そして、ボックス又はチェッカーボード間の視差が計算され、利用可能な既知の幅及び高さにより、ステレオカメラ対の内因性及び外因性パラメータが決定されてもよい。この種の較正を行うために他の方法及び異なる種類のマーカーが従来から知られている。

ステレオ調整４３２は、ステレオカメラ対によって撮られるステレオ画像の対の様々な態様の視差を算出するために用いられるコントローラ４３０の機能的態様である。較正について上述したように、視差は、ステレオカメラ対によって形成される対応する画像からの相対的な深さを導くために用いられる。

ＬＩＤＡＲ較正４３３は、コントローラ４３０の別の機能である。ＬＩＤＡＲは、ステレオカメラ対から得られるデータが、ＬＩＤＡＲによって生成される三次元ＬＩＤＡＲデータと比較されるように、カメラに対して較正されなければならない。カメラ及びＬＩＤＡＲに対する較正プロセスは、以下により詳細に説明される。

三次元位置計算４３４は、コントローラ４３０の更に別の機能である。上述したように、この計算は、コントローラ４３０とは物理的に異なるデバイス上で行われるが、説明を容易にするために、コントローラ４３０の一部であるとして説明される。三次元位置計算４３４は、ステレオカメラ対からの視差データ及び三次元ＬＩＤＡＲデータを、カメラリグ及びＬＩＤＡＲ組み合わせがフィルムを記録する三次元空間用の三次元データに変換する。このプロセスは、図８について以下により詳細に説明される。

三次元データストレージ４３６は、三次元データを記憶するために用いられる。このデータは、例えば、動画のフレームに対するステレオ画像対、対応する時間に対する三次元ＬＩＤＡＲデータ、ｇｅｎｌｏｃｋシステム４７０によって提供されるタイムスタンプデータを含んでもよく、算出された視差及び／又はデータから導かれる深さデータに対応する二次メタデータを含んでもよい。導かれる三次元データをなす構成要素を保持することにより、後続の計算は、更により良い三次元データがそこから導かれることを可能にする同じ根本的なデータセットで行われ、より良いアルゴリズムが将来製作されるべきである。

この三次元データストレージ４３６は、ローカルであってもよく、又は一部又は全部がコントローラ４３０の外部にあってもよい。

図５は、三次元データストレージシステム５００の機能ブロック図である。システム５００は、図４の三次元データストレージ４３６であってもよく、又は図４の外部ストレージであってもよい。三次元データストレージシステム５００は、データベース５０２と、画像ストレージ５０４と、ＬＩＤＡＲストレージ５０６と、三次元データストレージ５０８と、三次元ビデオストレージ５０９と、を含む。これらの要素の各々が、システム５００の一部をなすものとして示されるが、１以上のものが存在しなくてもよい。それに替えて、１以上のものが別のものに組み込まれてもよい。

データベース５０２は、記録された画像と、ＬＩＤＡＲデータと、得られた三次元データとのの関係に関連するデータを記憶するために用いられてもよい。データベース５０２は、視差、深さ及び三次元データアルゴリズムが、ベースデータに適切に関連し、三次元データを得るために動作すると、更新される。更に、データベースは、本明細書に記載のシステム及びプロセスを通じて生成される三次元データのリーダー又はプレイヤーがリプレイ又は更なる編集のためにアクセスされることを可能にするための構造を提供する。

画像ストレージ５０４は、固定画像として動画の一連の対応するフレームを記憶するために用いられてもよい。データベース５０２は、そのように同時にキャプチャされているので、ｇｅｎｌｏｃｋシステム（例えば、図４の４７０）によって識別される画像をリンクしてもよい。このように、３６０度の球面空間をカバーするカメラリグのために、動画の１つの球面フレームを形成するために用いられる画像は、互いに対応するものとして識別されてもよい。画像ストレージ５０４は、従来の動画データ・フォーマットに依存してもよく、又はタイムスタンプデータのようなメタデータが、形成されるときに、ビデオの１以上のフレームに直接的にエンコードされるように、専用フォーマットを用いてもよい。

ＬＩＤＡＲストレージ５０６は、ＬＩＤＡＲ１２０（図１）のオペレーションの結果として形成されるＬＩＤＡＲデータを記憶するために用いられてもよい。このデータは、ｐｅｒ−ｆｒａｍｅ−ｏｆ−ｖｉｄｅｏ基準にあってもよく、例えば、ＬＩＤＡＲ１２０自体に対して三次元（ｘ，ｙ，ｚ）座標と関連付けられた深さデータのマトリックスのような、様々なフォームで記憶されてもよい。このＬＩＤＡＲストレージ５０６は、データベース５０２又はＬＩＤＡＲストレージ５０６自体に、関連付けられたタイムスタンプと共にＬＩＤＡＲデータを記憶してもよい。

三次元データストレージ５０８は、画像ストレージ５０４に記憶される画像を用いて生成される三次元データ、及びＬＩＤＡＲストレージ５０６に記憶されるＬＩＤＡＲデータを記憶するために用いられてもよい。三次元データストレージ５０８は、視差データ、深さデータ、及び画像ストレージ５０４に提示されるようなキャプチャされた動画の各フレームに対する全体三次元マップを含んでもよい。

比較において、三次元ビデオストレージ５０９は、再生装置による再生又は編集装置による編集のために１つのパッケージの実写動画及び三次元データの両方を提供するために用いられる専用三次元ビデオデータフォーマットを記憶してもよい。従来のビデオフォーマットが二次元であるので、それらは、本明細書に記載されるシステム及びプロセスにより生成される三次元データの深さ及び三次元性を提示するために不適切である。この生成される三次元動画は、三次元ビデオストレージ５０９に記憶されてもよい。

プロセスの説明
図６は、三次元データを形成するためにステレオグラフィック画像及びＬＩＤＡＲを融合する方法のフローチャートである。前記方法は、開始６０５で開始し、終了６９５に到達するまで連続的に動作する。単一のプロセスが示されるが、複数、同時プロセスが一度に行われうる。例えば、複数コア又は複数プロセッサシステムは、ビデオの個々のフレーム各々で、図６に示される同時プロセスの複数の反復が同時に行われうるように、同時に動作しうる。

先ず、カメラ対は、６１０において、較正される。カメラの内因性及び外因性パラメータは、図４を参照して上述されたチェッカーボードマーカーのような、外部マーカーを活用して算出されてもよい。各外部マーカー間の実際の距離が知られているので、このような外部マーカーは、マーカーの三次元位置と、カメラ対により形成される画像におけるマーカーの座標との間のマッピングを形成するために用いられてもよい。２つの画像間の対応に十分な量が与えられ、カメラにおける未知の内因性及び外因性パラメータは、周知の方法を用いて解決されうる。

２つのカメラ間の内因性及び外因性パラメータを解決することは、周知であるが、複数のカメラでそれを解決することは、より困難である。例えば、３つの前面カメラＡ、Ｂ及びＣがあるとする。ＡからＢ、ＢからＣのための内因性パラメータ及び外因性パラメータについて解決することができる。完璧な測定、ノイズのない世界では、ＢからＣのためのパラメータと組み合わせられるＡからＢのためのパラメータは、ＡからＣへのための良好な測定をもたらすべきである。実際には、これらの測定の各々は、不完全かつノイズを含んでいる。そのため、ＡからＢ、ＢからＣへの内因性パラメータ及び外因性パラメータは、ＡとＣとの間の大きな再投影誤差をもたらしがちである。ここで、２つのＡからＢ、ＢからＣへの簡素な組み合わせは、測定の不完全さ及び画像のノイズのため、正確になりそうにない。よって、再投影誤差は、不十分な正確さの内在するデータでの推定を基礎とすることによって導入される誤差を意味する。そのため、それに替えて、各カメラに対する内因性及び外因性パラメータの推定は、キャプチャされた画像を用いて互いに対してカメラを較正するために、シーン内の既知のベクトルと既知のピクセルとの差を最小化することによって取得される。

次に、各ステレオカメラ対は、エピ極を無限遠に押すことによって更に調整され、視差推定プロセス（以下に説明）のための特性マッチングは、演算を低減するために単一のスキャンラインに沿って行われうる。本明細書で用いられる「エピ極（ｅｐｉｐｏｌｅ）」は、ステレオカメラ対の第１のカメラが中心に置かれたステレオカメラ対の第２のカメラからの視差データにおけるポイントである。本明細書で用いられる「調整（ｒｅｃｔｉｆｉｃａｔｉｏｎ）」は、焦点面が同一平面となるまで、光学中心に沿ってカメラを実質的に回転するプロセスである。各カメラに対する内因性及び外因性パラメータの推定の調整を行うために、ステレオカメラ対が可能な限り水平であることが好ましい。これは、調整プロセスが、デジタル画像品質が回転又は他の修正により劣化するため、歪み及び解像度損失を最小化する非常にわずかな画像を回転することを可能にする。焦点面を同一平面にするために画像を回転するために無限の可能性があるので、追加制約は、サーチフィールドを制限するために導入されてもよい。例えば、新たなｘ軸は、常に基準線の方向となるように制限されてもよい。新たなｙ軸は、新たなｘ軸及び元のｙ軸に常に直交するように制限されてもよい。最後に、新たなｚ軸は、基準線及び元のｙ軸に常に直交するように制限されてもよい。

次に、６２０において、ＬＩＤＡＲは較正される。ＬＩＤＡＲ較正のプロセスは、図７を参照して開示される。当該プロセスは、ＬＩＤＡＲとカメラ対の１以上との間の外因性パラメータの算出を含む。先ず、７１０及び７２０において、外因性パラメータのためのカメラ画像及びＬＩＤＡＲデータは取得される。外部マーカーに対して、既知の半径を有する平坦表面上の円形穴が用いられてもよい。円形穴ベースの外部マーカーの使用は、カメラ画像及びＬＩＤＡＲデータの両方での真っ直ぐな特徴抽出を可能にする。なぜなら、以下に説明されるように、円は、カメラ画像及びＬＩＤＡＲデータの両方の検出にとって最も良いためである。

７３０において、マーカーの位置及び半径は、検出される。マーカーの平坦表面及び円形穴の背後の背景の色強度が十分に明確な限り、ハフ円検出（Ｈｏｕｇｈｃｉｒｃｌｅｄｅｔｅｃｔｉｏｎ）は、円形マーカーの位置及び半径の大まかな検出に適用されうる。

次に、マーカーは、７４０において、ＬＩＤＡＲデータで検出される。マーカーと背景との間の深さ不連続が存在するため、ＬＩＤＡＲは、円の輪郭をピックアップすることができる。円形穴は、また、矩形穴においても好ましい。なぜなら、ＬＩＤＡＲデータは、典型的には、水平なスキャンラインのシーケンスの形態であるためである。よって、ＬＩＤＡＲは、矩形穴の水平側を検出することができないことがある。これは、ＬＩＤＡＲにおけるポイントを対応する画像上のピクセルに一致するための十分なオプションがないＬＩＤＡＲデータを残す。しかし、円形マーカーを用いて、ポイントクラウド球面フィッティングアルゴリズムは、球面の位置及び半径を大まかに検出するために適用されうる。

次に、ＬＩＤＡＲの較正を完了するために十分なデータが有るかどうかを、例えばコントローラ４３０によって、判定される。つまり、ＬＩＤＡＲと１以上のカメラとの間の外因性パラメータを適切に導くために、十分な忠実性並びに画像（又は複数の画像）及びＬＩＤＡＲから利用可能なデータでなければならない。集められたデータが十分でない（７４５において「ｎｏ」）場合、プロセスは、７１０においてキャプチャされた追加画像、及び７２０において取得された追加ＬＩＤＡＲデータにより再度開始する。

しかし、取得されたデータが十分であるとみえる（７４５において「ｙｅｓ」）場合、プロセスは、７５０において、ＬＩＤＡＲとカメラとの間の相対的な回転及び変換の算出によって継続する。カメラとＬＩＤＡＲとの間の幾何学的変形は、純粋な変換であり、したがって、外部円形マーカーは、画像に対して使用されるカメラにできるだけ平行に配置されるべきであると仮定される。概念上、マーカーの画像は、ＲＧＢ画像の円が、楕円ではなく正確な円とすることを確認することによってＬＩＤＡＲポイントと平行に、実質的かつ手動で回転される。

ステレオカメラへのＬＩＤＡＲ較正を行うために、画像データの相対的な位置は、ＬＩＤＡＲデータと一致するためになされなければならない。一致すると、ステレオカメラに対するＬＩＤＡＲの相対的な位置及び方向（すなわち、外部パラメータ）は、算出される。相対的な位置を探すために、ステレオカメラ画像から検出された「視覚的」円形マーカーと、検出された「深さ」円形マーカーとの間の差は、異なるプロセスを用いて検出された、２つの円が可能な限り一致するように、最小化されてもよい。得られた変換及び回転は、外因性パラメータとして記憶されてもよい（又はステレオカメラ対の１以上に対する変換及び回転）。

図６に戻り、カメラ及びＬＩＤＡＲが較正されると、対応する画像のセット（６３０）及びＬＩＤＡＲデータ（６４０）がキャプチャされる。キャプチャされた画像のセットは、ステレオカメラ対によって形成される二次元画像を重畳することに基づいて３６０°球面に対応し、三次元ＬＩＤＡＲデータ６４０は、同一位置のポイント又は深さフィールドマップを含む。三次元ＬＩＤＡＲデータは、わずかであるが、非常に正確である。画像は実質的に正確であるが、そこから導くことが可能な三次元データは、ＬＩＤＡＲデータよりも正確性及び忠実性が低い。よって、２つの組み合わせは、画像及びＬＩＤＡＲデータがキャプチャされる三次元空間のより正確な三次元表現を生成するためにより適している。

画像及びＬＩＤＡＲデータが、６３０及び６４０において取得されると、三次元空間内の深さを算出するための演算要件全体を低くするために、空抽出（ｓｋｙｅｘｔｒａｃｔｉｏｎ）が行われる。アウトドアシーンは、空（又は深さの算出の目的のために空と等価なもの）を含むことが実質的に保証される。深さ算出の目的のために、空は、いくつかの特殊な特性を有する。第１に、空は、ＬＩＤＡＲ及びカメラリグに対して無限遠の深さを有する。第２に、空は、通常、大きく、一体であり、典型的には、単一色（又は勾配色の範囲）であり、目に見えるテクスチャはない。これらの特質は、深さを算出する際に特段便利とはならない。空が、有効な無限遠に離れている場合、画像又はＬＩＤＡＲを用いてその深さを「算出する」こと対してわずかなポイントがある。更に、相対的に容易に検出可能であるため、三次元空間向けに生成される三次元データ全体に逆効果なしに、深さの算出から都合良く排除されうる。

空（又は検出された空の領域）を排除することは、空のための三次元データの演算の膨大な処理を回避するという追加の利益を有する。空を排除するために、第１のエッジ検出（例えば、Ｓｏｂｅｌエッジ検出）が対象となる画像に適用される。次に、モルフォロジー・クロージング（ｍｏｒｐｈｏｌｏｇｙｃｌｏｓｉｎｇ）がエッジ検出結果をクロージングするために用いられてもよい。このように、検出された空領域の「端部」は、与えられた画像において空領域のための大まかな形状を識別するためにインテリジェントに結合される。例えばｇｒａｂｃｕｔのような精緻化アルゴリズムは、絶対的な背景‐絶対的な背景であるエッジのない領域が背景として定義され、かつ、それらが空であり、事実上無限遠深さであるので、そこで行われる深さ算出を有さないであろうことを意味する‐としてエッジのない領域を初期化することによって画像における空領域の形状を精緻化するために適用されてもよい。深さ算出は、残りの領域で行われるであろう。最後に、重み付けメディアンフィルタは、空の境界の近傍の結果を更に精緻化するために適用されてもよい。ピクセルが空として分類される場合、ピクセルの深さは、無限遠に設定され、それによって、空として分類されるそれらの領域のためのアルゴリズム計算をショートカットする。空領域の排除は、深さアルゴリズムの余りが、より迅速かつ全体に機能することを可能にし、動画フレームあたりの低いコンピュータリソースを要求することを可能にする。

次に、６５０において、画像のピクセルが、動画の最終フレームにおける画像の同一ピクセルに対して移動していたかどうかを判定する。これが動画の第１のフレームである場合、全てのピクセルは、存在しない、から存在する、へ「移動」するが、後続のフレームでは、移動の検出は、フレーム間で変化する画像の一部に対してのみ深さを計算することによって、アルゴリズムが演算負荷を更に低減することを可能にする。ピクセルが移動していない（６５０において「ｎｏ」）場合、前のフレームからのピクセル三次元位置は、６５５で用いられる。ピクセルが移動した（６５０において「ｙｅｓ」）場合、ピクセルの三次元位置は、６６０において算出される。モーションを検出するために、様々なモーション検出アルゴリズムが用いられてもよく、例えば、ＴＶ−ＬＩオプティカルフロー推定（ＴＶ−ＬＩｏｐｔｉｃａｌｆｌｏｗｅｓｔｉｍａｔｉｏｎ）等である。モーション検出は、様々な方法又はアルゴリズムによって行われてもよい。

次に、モーションにあると決定されているピクセルの三次元位置が６６０において算出される。この処理は、図８において以下に更に詳細に説明される。

次に、６７５において、別のピクセルが、三次元位置が算出されずに残っているかどうかを判定する。そうである場合（６７５において「ｙｅｓ」）、プロセスは、６５０において次のピクセルについてのモーション検出に戻る。そうでない場合（６７５において「ｎｏ」）、６８０において、画像の複数のセット（ステレオカメラ対によって形成された各セット）のための三次元及び画像データが組み合わせられる。この組み合わせは、カメラ画像のセットの各々に対する画像及び三次元データで生じる。

６８５において、当該データから、三次元空間向けの三次元データが生成される。このデータは、画像データを組み合わせ、合成された画像（図９について以下に説明）、及び三次元動画のキャプチャされたフレームに対するステレオカメラ対によってキャプチャされた画像のセットの各々における各ピクセルに対する深さを定義する三次元データに対してシーム融合を行う専用フォーマットの形態を採ってもよい。

最後に、６９０において、動画の別のフレームが存在するかどうかを判定する。存在しない（６９０において「ｎｏ」）場合、プロセスは終了する。存在する（６９０において「ｙｅｓ」）場合、プロセスは戻り、６３０において別の画像のセットをキャプチャし、６４０において三次元ＬＩＤＡＲデータをキャプチャする。一部の場合、例えば、三次元データの生成が、画像及び三次元ＬＩＤＡＲデータのキャプチャ後に良好に行われるとき、プロセスは、それに代えて、６４５において、動画の次のフレームに対応する既に存在する画像に対する空抽出に直接戻ってもよい。しかし、プロセスが、（対応する画像のセットの形態で）動画フレームが形成されるのとリアルタイムで実行するとき、動画の次のフレームは、６３０においてキャプチャされなければならず、三次元ＬＩＤＡＲデータは、プロセスが次の動画フレームに対して再び開始する前に、６４０においてキャプチャされなければならない。

図８は、ＬＩＤＡＲデータをステレオスコピックカメラデータと組み合わせ、それにより三次元データを導くために方法のフローチャートである。この方法は、図６のステップ６６０−６８５に対応し、ここで、対応する画像のセットにおける各ピクセルの三次元位置が算出され、複数の画像からのデータは、３６０°球面を形成するように組み合わせられ、三次元データは、画像及び三次元ＬＩＤＡＲデータがキャプチャされた三次元空間に対して生成される。

画像及び三次元ＬＩＤＡＲデータの対応する画像のセットに対する三次元データを生成することの第１のステップ（上記の図６を参照して説明されたキャプチャ及び前処理後）は、８１０において、画像を分割することである。分割は、各区分のサイズ（外周）及び各区分におけるカラーバリエーションを最小化するように設計される。区分をより小さくすることは、各区分内の三次元深さ全体をより正確に決定することをもたらし、単色（又は関連する色）を好むことは、単一のオブジェクト（単一のオブジェクトの一部）となりやすい画像区分をもたらす。これらの単一のオブジェクトは、同一又は同一に近い深さを有しやすい。

そのため、区分は、各画像に対して最も小さくかつ最も色が近い区分を探すようにアルゴリズム的に選択されてもよい。カラーマッチングは、例えば、勾配検出に基づいてもよく、当該範囲外の色が同一ではないと判定する一方で、同一範囲において他の色と「同一」の（例えば、サーチスペースの全範囲又は画像全体に応じた）所定の又はダイナミックレンジ内の色を検出する。更に、狭い区分（つまり、狭い色の範囲）が好ましい。なぜなら、画像データは、三次元データの生成を導くために用いられ、狭い区分は、演算の複雑さについての大きな欠点なしに正確さをより生じやすくなるためである。

分割が完了すると、プロセスは、８２０において、視差推定を行う際に使用するためにステレオ画像及び三次元ＬＩＤＡＲデータを視差データに変換する。本明細書で用いられる用語「視差」は、ステレオカメラ対の一方又は他方による２つの異なる視点から撮られる２つの対応する画像に現れる単一のオブジェクトに対する画像内における位置（ｉｎ−ｉｍａｇｅｌｏｃａｔｉｏｎ）間の差（例えば、測定された距離）を意味する。ステレオ画像対についての視差の算出のためのプロセスは良く知られている。上記で簡潔に説明されたように、同時に撮られた２つの画像は、それらの画像のおける対応するピクセルを識別するために既知の内因性及び外因性パラメータを用いて、比較される。そして、画像内（ｉｎ−ｉｍａｇｅ）（例えば、４２ピクセル又は１５マイクロメートル）又は現実内（ｉｎ−ｒｅａｌｉｔｙ）（例えば、１４５センチメートル）のいずれかの画像が算出される。

ＬＩＤＡＲデータは、同様に、関連する数学の全体の複雑さを低くするために、視差に変換される。三次元ＬＩＤＡＲデータを視差データに変換するために、データは、二次元視差データへの投影として変換される。しかし、ＬＩＤＡＲデータが非常に正確であるため、それを提供するわずかなデータポイントに対して、厳密に正しいと信頼する。対応するポイントが画像内に識別されると、導かれたＬＩＤＡＲ視差データは、絶対的に正しいとして画像データのそれらのポイントに適用される。これは、ＬＩＤＡＲ視差データが、画像ベースの視差計算に用いるために視差データを伝搬するためにシードポイントとして機能することを可能にする。

８３０において、視差は、画像ベースの視差及び各区分に対して変換されたＬＩＤＡＲデータポイントの少なくとも１つ（可能であれば）を用いて推定される。例えば、図９は、区分内に２つの既知のＬＩＤＡＲデータポイントを有する区分９１０を示す。ここで、画像区分内の２つのポイントの深さ９１２及び深さ９１４は、既知である。区分が、類似色に決定されており、色の類似性を維持しながら可能な限り小さいため、当該区分内の深さが滑らかであり、相対的に均一である見込みが非常に高い。そのため、当該区分内のＬＩＤＡＲデータポイントに基づいて深さ９１２及び深さ９１４を知ることは、そこから導かれた視差データを用いて当該区分の実際の深さの非常に正確な推定を可能にすることができる。

図８に戻り、利用できるときに、視差のためのＬＩＤＡＲデータポイントを用いて、視差を推定するために、視差推定は、先ず、探索されなければならない利用可能な深さのフィールドを狭くするために用いられる。画像が分割されると、区分内の視差は、滑らかであるべきである。区分が全体的に正しくない場合でも、これは、当該区分に対する利用可能なＬＩＤＡＲベースの視差に基づいて認められるであろう。

区分における各ピクセルに対する視差は、２つの隣接するピクセル間の差を最小化することにより平滑化される。非常に類似する配色及び相対的に小さいサイズの区分内では、各ピクセルの相対的な深さが非常に類似しやすい可能性が極めて高いので、これは、当然である。更に、この推定は、それらのピクセル深さを変えることを許さず、画像ベースの視差から導かれたもののみを変えることによって、区分を通じて既知の正確なＬＩＤＡＲ視差データを伝搬するために用いられうる。平滑化を何度も行うことは、ＬＩＤＡＲ視差データに基づいてピクセル深さを変更しないで、各区分に亘る相対的に正確な視差推定をもたらす。

８４０において、上述されたように生成された推定値に基づいて、プレーンフィッティング（ｐｌａｎｅｆｉｔｔｉｎｇ）は、より正確な視差を導くために用いられる。プレーンフィッティングは、面内に値のセットを適合しようとする実質的なアルゴリズムである。この場合、当該値は、画像データから導かれる、及びＬＩＤＡＲデータから導かれる、両方の視差データである。

ここで、区分の視差全体は、連続的かつ分散的ではない。そのため、サーチスペースは、精密な値（例えば、フローティングポイント値）を生成するために無限でありうる。これは、問題の解決を困難にする。例えば、マルチレベル凸最適化問題を用いて精密な深さ値を導くことは、サーチスペースが大きすぎるため、許容可能な解決手段ではない。

しかし、既知の視差を平面にフィッティングすることは、このような場合に正確となる傾向があり、実質的に、与えられた区分に亘る視差に対する潜在的な値を制限する。そのようにするために、平面は、平面を形成するために視差からのポイントを用いて法線でパラメータ化される。しかし、法線は、ＬＩＤＡＲデータから引かれるいくつかのポイントを除いて、未知である。そのため、垂線は、平面に対して未知又は不正確な法線を置き換えるために、ＬＩＤＡＲデータからの既知の法線に基づいて伝搬される。視差は、前面平行バイアスを回避するために用いられてもよい。具体的には、与えられた区分における全てのオブジェクトは、同一の視差を有すると仮定される。しかし、プレーンフィッティングは、「勾配した」又は湾曲した表面に関する潜在的な問題を解決する。法線及び視差の無限の取り得る組み合わせは、ランダム初期化を用いて解決されうる。ランダム初期化を用いて、一部の正確なデータは、たとえ偶然であっても、プレーンフィッティングアルゴリズムに入れられ、ＬＩＤＡＲデータは、正しいことが知られる。そこから、正しいデータは、区分に亘って伝搬されうる。

視差は、予め計算された視差推定を超える範囲内で初期化される。法線は、０．５から１の範囲で初期化される。なぜなら、極端な勾配又は角度を有するオブジェクトは、可能性が低いためである。そして、良好なサンプルは、ランダムに摂動を与えられた法線及び視差を有する区分に亘って空間的に伝搬される。

コストは、適応的なサポート重み付けを用いて演算される。空間伝搬のために、近傍ピクセルからの面パラメータを用いるコストは、元のコスト（例えば、ランダムなコスト又は事前に推定されたコスト）と比較される。元のコストが低い場合、面パラメータは、更新される。ランダム摂動を入れるために、面パラメータは、小さな分散の間でランダムに変更され、コストは、元のコストに対して再度比較される。更新されたコストが低い場合、面パラメータは、再度更新される。このプロセスは、輻輳まで繰り返される。実際には、輻輳は、比較的早い。望まれる場合には、反復は、結果を急ぐために、特定回数の反復又は総実行時間に対して意図的に制限されてもよい。他の方法が利用可能であるが、効率が低くなることがわかっている。

視差推定の次の段階は、８５０において、閉塞された領域を充填することである。左視差マップと右視差マップとで左‐右一貫性チェックが行われる。左視差マップと右視差マップとの視差の差が、０．５よりも大きく、法線ベクトルの角度間の偏向が５よりも大きい場合、領域は、閉塞（オクルージョン）としてラベル付けされる。閉塞検出のための他の方法が存在するが、閉塞検出のための方法は、画像の部分閉塞を調節しつつ、三次元データを三次元空間により良く適合するために採用されてもよい。閉塞が検出されたとき、各閉塞ピクセルは、前の段階から演算された面を延ばすことによって、最も近い非閉塞ピクセルに対応するデータに置き換えられる。

次に、重み付けメディアンフィルタを視差マップに適用することによって、後処理が行われる。重み付けメディアンフィルタは、ハードエッジ（例えば、単一ポイント以上の深さでの大きな変化だが、エッジに見える）を保ちつつ、外れ値を除くことによって、視差マップ全体を平滑化するために便利である。重み付けメディアンフィルタをデータに適用することは、一般的に良く知られている。

最後に、８７０において、視差データは、深さデータ又は三次元データに戻し変換される。上記の計算は、視差計算として完了される。なぜなら、これは、深さ計算を簡素化するためである。利用可能な三次元ＬＩＤＡＲデータを有しているが、ステレオ画像から導かれる視差は、三次元からよりも、より容易に機能する。各計算による三次元での動作ではなく、計算は、一般的に、二次元に制限される。

一旦、視差が上述されたプロセスを用いて決定されると、視差は、三次元シーンを生成する適した三次元データ、例えば動画、に再度変換される。シーンの画像は、深さデータとインテリジェントに組み合わせられ、画像に基づいて、三次元空間の、視覚的に正確な、三次元的に正確な再形成を形成する。典型的な球面「一体化」された写真ではなく、得られた三次元データ（フレーム‐バイ‐フレーム動画データを含む）は、共に一体化された両方の画像と、これらの画像内のオブジェクトの輪郭及び物理的深さを示す三次元データを含む。それと共に、これらのプロセスの結果として形成される三次元データは、バーチャルリアリティ又は拡張現実アプリケーション用の知覚可能な深さを有する正確かつ視覚的に三次元空間を再形成するために用いられる。

一旦、８７０において、データが深さ又は三次元データに再度変換されると、プロセスは、８９５において終了する。

ここで、図１０に移り、単一の三次元画像に一体化されたステレオグラフィック画像間のシームを融合するための方法のフローチャートが示される。シーム融合プロセスは、バーチャル三次元空間に取られる再投影の大きなプロセスの一部のみである。前後関係のため、全体にわたるプロセスが図１０を特に参照しながら概略的に説明されるが、図１０は、シーム融合プロセスに注目している。図１０のプロセスは、開始１００５から終了１０９５で示されるが、当該プロセスは、動画フレームの独立した部分のために複数コア又はプロセッサで同時に行われてもよく、三次元動画に対して反復的であってもよい。

一般的に、三次元位置が、各カメラによって形成された画像の各ピクセルに対して計算されると、ポイントクラウドフュージョンアルゴリズムが適用される。ポイントクラウドフュージョンアルゴリズムは、１０１０における初期パノラマ投影と、１０２０における最適シーム探索と、１０３０‐１０８０における色補正（例えば、シーム融合）と、最後に、１０９０における現在補正された色を有する補正ポイントクラウドの三次元再投影と、を含む。

第１のステップは、１０１０において、三次元ポイントクラウドのパノラマ投影である。パノラマ投影は、ステレオ画像及び三次元ＬＩＤＡＲデータ融合の結果として形成される全三次元データが、画像をキャプチャするために用いられるカメラと同様に配置される一連の有効平坦画像にダウンコンバートされることを意味する。パノラマ投影は、システムが三次元ドメインに代えて二次元ドメインでのシームを探索することを可能にすることによって、三次元ポイントクラウド間の最適なシーム探索（最終的な三次元データにおいて２つの画像を共に視覚的に融合するための位置）のプロセスを簡素化する。再び、二次元向けの数学式は、典型的にはより簡素であり、よって、要求される時間は、同様に短くなる。更に、パノラマ投影は、同様の結果を有するポアソン式を用いて、三次元ドメインに代えて二次元ドメインでの補正を可能にすることによって、シームに沿う色補正を簡素にする。

最後に、パノラマ投影を用いて、画像メッシュ化のプロセスは、マーチングキューブアルゴリズム（ｍａｒｃｈｉｎｇｃｕｂｅｓａｌｇｏｒｉｔｈｍ）又はポアソン再構築アルゴリズム（Ｐｏｉｓｓｏｎｒｅｃｏｎｓｔｒｕｃｔｉｏｎａｌｇｏｒｉｔｈｍ）を用いて複雑な三次元構造又はポイントクラウド自体を扱うよりもより簡素である。それに替えて、メッシュ化は、パノラマに基づいて比較的単純に接続される。これは、バーチャルリアリティ環境の目的のために十分良好に機能する。なぜなら、ＶＲヘッドセット内の三次元空間を閲覧する個人は、移動が制限されることによりパノラマ投影の中心に中心付けられるためである。結果として、パノラマに基づくメッシュ化は、実際には、三次元空間の三次元態様全体を維持しながら、非常に自然に見えかつ説得力がある。

多角形投影と呼ばれることもあるパノラマ投影は、図１１Ａ及び図１１Ｂからなる図１１を参照して理解される。多角形投影の形状は、ステレオ画像をキャプチャするために用いられる元のカメラリグの構成に依存する。図１１Ａ及び図１１Ｂに示される多角形投影１１００は、７つの側面（１４個のカメラ）リグに基づく。図１１Ａは、開状態でのプリズムであり、面１１１０‐１１１６が見えるが、図１１Ｂは、多角形投影に形成されたプリズムであり、面１１１０‐１１１６は、プリズムを形成する。このようなプリズムでは、多角形投影により再形成されるバーチャルリアリティ環境内の閲覧者は、多角形投影１１００の中心に実質的に配置されるであろう。図に示すように、ステレオ画像（ステレオカメラ）の１セットを表す側面の各々は、多角形投影で表される。よって、図１１Ａ及び図１１Ｂの多角形投影１１００に用いられるカメラリグは、前面カメラ対が各矩形面を表し、上面及び底面カメラ対が上面及び底面五角形面を表す五角形プリズムであった。

多角形投影１１００の非常に大きな利点は、パノラマの全ての位置で等しいサンプリングが可能なことである。なぜなら、各側面は、キャプチャするカメラに直接的に平行であるためである。一方、従来の球面投影が用いられた場合、２つのカメラでの視点間のピクセルの欠けにより、追加の穴充填が必要となるであろう。多角形投影は、従来の球面投影と比べて、少ないピクセルで同じパノラマの解像度を示す機能も有する。一様でないサンプリングにより適用される球面投影のＮ極（Ｎｏｒｔｈｐｏｌｅ）及びＳ極（Ｓｏｕｔｈｐｏｌｅ）での不要なピクセルが多数存在する。多角形投影は、全ての画像において等しいサンプリングを有する。

図１０に戻り、１０１０においてパノラマ投影が適用された後、画像シームが検出されなければならず、１０２０において、それらのシームに沿ってカットが行われる。画像シームは、２つの画像が結合されるであろう各画像におけるそれらの位置である。最適なシームカットは、隣接する視野からポイントクラウドを隔てるために必要である。カメラ較正及び三次元位置計算が完璧となることが困難であることが主な理由である。よって、異なるカメラからの同一（重複）とされるポイントは、それらの相対的な位置においていくつかの偏位を有する。多角形投影がシーム融合なしで行われるとき、これは、ゴーストアーティファクトを生じる。すなわち、同一のオブジェクトは、重複画像において２つに生じ、よって、それらの画像（及びそれらの関連する三次元データ）は、投影に現れる。これは、望ましくない。したがって、両方の画像において、及びより具体的にはポイントクラウドにおいて、これらの繰り返されたオブジェクトは、排除されなければならず、データは、リアリティを正確に表し、かつゴーストアーティファクトを排除するためにインテリジェントに接合及び融合されなければならない。シームに沿ってカットを行うために多くの手段が存在する。本プロセスは、それらのカット選択及び注入のいずれかで等しく良好に機能しうる。

しかし、理想的なカットは、低勾配領域（つまり、色及び深さが相対的に均一な領域）におけるシームにおいて行うことが好ましい。これらのシームに沿ってなされるカットが用いられる場合、視覚アーティファクトは、得られるシーン内の閲覧者によって知覚されにくくなる。シームは、シームに沿う色の変化を最小にするシームを選択することによって、相対的に同様の色及び深さに基づいて自動的に選択される。選択された画像シームは、実施に応じて、直線として選択されてもよく又は選択されなくてもよい。

カット及び接合を行うために最適なシームを選択した後、色補正が必要である。なぜなら、シームにおいて明らかな色不連続となりやすいためである。カメラセンサは、典型的には、本明細書で説明されるカメラリグで用いられる同一モデルのカメラであっても、個体差を有することが知られている。その結果、元の画像自体であっても、画像内の様々なオブジェクトに対する色のわずかな差を有する。これは、カラーバランスの後、及びホワイトバランス及びゲインが調整された後であっても生じうる。カメラの異なる位置決めは、わずかな、あるときには大きな、視点間の色の差を生じる外部光への異なる応答ももたらすであろう。様々な色補正方法が用いられてもよい。好ましくは、ポアソン融合が用いられる。なぜなら、これは、勾配ドメインにおいて色補正問題を解決することを目標とする。検出されたシームでは、常に、望まれない勾配が存在する。そのため、ポアソン融合は、シームにおける色補正を行うために良好に機能する。また、様々な方法が採用されるが、好ましくは、選択される方法は、画像シームに亘る（及び周囲の）色変化を最小にする。

適切な色補正色選択のためのサーチ領域（ドメイン）を狭くするために、色補正を行うときに、先ず、１０３０において、融合される画像の低解像度バージョンが形成される。高解像度画像に対して、輻輳前に、反復の回数が大量になりうる。したがって、複数の解像度アプローチが計算を低減するために用いられてもよい。１０２０において、シームが識別され、１０３０において、低解像度が生成され、１０４０において、融合色が選択され、低解像度画像のために融合が行われる。相対的に低い解像度において、プロセスは、迅速かつ低演算コストで生じうる。得られた融合は、保存され、高解像度画像のために線形補間される。

次に、１０４５において、当該画像の解像度が、キャプチャされた解像度と同一であるかどうかを判定する最初のパスでは、これは、勿論、該当しない（１０４５において「ｎｏ」）であるが、後のパスでは、該当する場合もある。次に、１０５０において、わずかに高い解像度の画像が形成される。低解像度で用いられ、かつ保存される融合は、１０４０において、より高い解像度（まだ低い）で新たな融合を行うために用いられ、１０４５において、キャプチャされた解像度は、低解像度画像と再び比較される。このプロセスは、元の解像度に到達するまで繰り返され、それによって、融合が完了する。

最終的に、キャプチャされた解像度が到達した（１０４５において「ｙｅｓ」）とき、融合色は、１０７０における画像の最も近い低解像度バージョンからのものを用いて選択され、シーム融合は、１０８０において、行われる。各高解像度では、色差は、新たな高解像度シームに応じて別々にバイキュービック補間（ｂｉｃｕｂｉｃｉｎｔｅｒｐｏｌａｔｉｏｎ）でアップサンプルされてもよい。これは、同一画像から分類されたそれらのピクセルのみが、高い解像度に対してアップサンプルされたとき、結果に影響を与えることを意味する。更に、分離のプロセスは、色アーティファクトがシームの近くに現れなくすることを確実にする。

最後に、１０９０において、パノラマ再投影が適用され、現在補正され、かつ色補正された、三次元データを用いて、三次元空間を再形成する。ディスプレイデバイス（例えば、対象となるバーチャルリアリティヘッドセット又は他の環境）に応じて、異なる三次元再投影アプローチが用いられてもよい。

対象となるバーチャルリアリティヘッドセットがポジショナルトラッカー（ｐｏｓｉｔｉｏｎａｌｔｒａｃｋｅｒ）を有する場合には、三次元データポイントは、三次元空間のメッシュ表現によるメッシュとして接続されてもよい。メッシュの各ピクセルに対して、（ｘ，ｙ）座標は、単に、幾何学的な意味を含まないコンテナ（容器）として機能する。各ピクセルは、三次元ポイント（Χ，Ｙ，Ζ）のセットと関連し、三次元ポイントは、（ｘ，ｙ）座標三次元ポイントに応じて「隣接する」ポイントに接続され、閉じたメッシュを形成する。広大な深さ不連続での大きなストリーキングが存在したとしても、これは、仮想的に無限の「ブラックホール」として着用者に対して表れうる広大な深さ不連続内の大きな空の空間を見るために好ましい。いずれのカメラによってもキャプチャされない深さ不連続において閉塞が存在するであろうことは避けられない。したがって、これらの閉塞を充填することは、一般的に正確に行うことが困難である。だが、必ずしも望ましくはないが、これらの大きな深さ不連続は、ヒューリスティック（ｈｅｕｒｉｓｔｉｃ）を用いて解決される。

対象となるバーチャルリアリティヘッドセット（又は他のデバイス）がポジショナルトラッカーを有していない場合、三次元データポイントは、ステレオパノラマに再投影される。これらの状況では、閲覧者は、三次元データを用いて再形成された三次元空間内の動きとは対照的に、深さを有する三次元動画を体験するであろう。なぜなら、ヘッドセットがポジショナルトラッカーを有していないので、三次元空間を完全に再形成する必要がない。ユーザは、いずれにせよ空間内で「移動」することができないであろう。そのため、データサイズ及び演算複雑性の両方は、ステレオ画像から深さを提供されるが、単一の視点からのみであるステレオパノラマへの再投影によって低下される。

ポジショナルトラッカーを有さないバーチャルリアリティヘッドセットは、あまりパワフルでないプロセッサを有している場合がしばしばある。これらのプロセッサは、しばしば、完全な三次元レンダリングを可能にする複雑なグラフィックエンジンを適切に実行することができないが、仮想的に全てのこのようなデバイスは、プレイバックするために二次元動画をデコーディングすることができる。よって、ステレオカメラは、これらのデバイスにとって完璧である。なぜなら、パノラマは、閲覧者を環境内に向けること可能にしつつ、三次元の感覚を形成するが、従来の二次元動画として示されることができるためである。

なぜなら、システムは、各ピクセルの三次元位置を知っており、ステレオパノラマは、共通の視野円への全ての接線である光線を集めることによって生成されるためである。この方法は、関連技術で知られている。しかし、既存のアプローチは、複数の画像を得るためにステレオカメラを手動又は機械的に移動し、その後、光線の密なサンプルを得るために中心列ピクセルを抽出することによって、光線を集める。三次元データポイントクラウドが、三次元ＬＩＤＡＲデータ及びステレオカメラ融合を介して再構築されるため、仮想的な視点を合成することによって共通視野円への全ての接線である複数の光線を集めることが好ましい。その結果、（制約内の）仮想的な視点は、共通視野円への全ての接線である複数の光線を自動的に集めることによって、再構築されうる。

結びのコメント
本明細書全体にわたって示す実施形態及び例は、開示又は請求する装置及び手順に対する限定ではなく典型として考慮すべきである。本明細書に提示した多くの例は、方法動作又はシステム要素の特定の組合せを含むが、これらの動作及び要素は、他の様式で組み合わせて同じ目的を達成することができることを理解されたい。フローチャートに関して、更なるステップ及びより少ないステップを取ることができ、図示するステップを組み合わせる又は更に改良して本明細書に記載の方法を達成することができる。一実施形態に関連してのみ説明した動作、要素及び特徴は、他の実施形態における同様の役割から除外することを目的としない。

本明細書で使用する「複数」とは、２つ以上を意味する。本明細書で使用する、項目の「セット」は、そのような項目の１つ以上を含むことができる。本明細書で使用する用語「備える」、「含む」、「保持する」、「有する」、「収容する」、「伴う」等は、明細書内の記載であれ、特許請求の範囲内の記載であれ無制限であり、即ち、包括的であるがそれらに限定されないことを意味する。「からなる」及び「から本質的になる」というそれぞれの移行句のみが、特許請求の範囲に対する排他的又は半排他的移行句である。特許請求の範囲の要素を修飾するための、特許請求の範囲における「第１」、「第２」、「第３」等の順序を示す用語の使用は、それ自体、方法動作を実施する別の順序若しくは時間順序に対し、ある特許請求の範囲の要素に対する優先、優先順位又は順番を何ら暗示するものではなく、特定の名称を有する１つの特許請求の範囲の要素を、同じ名称を有する別の要素から区別するための表示として単に使用し（順序を示す用語として使用するものではあるが）、特許請求の範囲の要素を区別するものである。本明細書で使用する「及び／又は」は、列挙する項目が代替形態であることを意味するが、こうした代替形態は、列挙する項目のあらゆる組合せも含む。

Claims

実写三次元動画をキャプチャするシステムであって、
ステレオカメラ対を作成する第１及び第２のカメラであって、前記ステレオカメラ対によって閲覧される三次元空間向けの三次元カメラデータを生成するために、ステレオからの深さ（ｄｅｐｔｈ−ｆｒｏｍ−ｓｔｅｒｅｏ）アルゴリズムが、前記ステレオカメラ対を用いてキャプチャされた対応する画像のセットに適用されるように、前記第１及び第２のカメラは、既知のイメージングパラメータを各々有する、第１及び第２のカメラと、
三次元ＬＩＤＡＲデータを生じるように構成され、前記ステレオカメラ対に対して既知の位置を有するＬＩＤＡＲと、
第１のタイムスタンプを前記三次元カメラデータに適用し、第２のタイムスタンプを前記三次元ＬＩＤＡＲデータに適用するタイムスタンプデバイスと、
コントローラであって、
前記ステレオからの深さ（ｄｅｐｔｈ−ｆｒｏｍ−ｓｔｅｒｅｏ）アルゴリズムを用いて、前記三次元空間向けの前記三次元カメラデータを生成し、
前記三次元カメラデータ及び前記三次元ＬＩＤＡＲデータを、前記三次元カメラデータに亘って優先する前記三次元ＬＩＤＡＲデータと組み合わせ、それにより、前記三次元空間に対応する三次元データを生成するように構成される、コントローラと、
を備えるシステム。
前記コントローラは、前記ＬＩＤＡＲと前記ステレオカメラ対との間の外因性パラメータを算出することにより前記ＬＩＤＡＲを較正し、
前記コントローラは、更に、
前記対応する画像のセット内の、ある位置での外部マーカー内の円形穴の視半径及び視覚位置を検出し、
前記三次元ＬＩＤＡＲデータ内の、前記位置での前記外部マーカー内の前記円形穴のＬＩＤＡＲ半径及びＬＩＤＡＲ位置を検出し、
第２の位置での第２の視半径、第２の視覚位置、第２のＬＩＤＡＲ半径及び第２のＬＩＤＡＲ位置の検出を繰り返し、
前記ステレオカメラ対と前記ＬＩＤＡＲとの回転及び並進を算出するように構成される、
請求項１に記載のシステム。
前記コントローラは、更に、前記三次元データを作成するために、前記対応する画像のセットにおける十分な数のピクセルの深さを算出し、
前記コントローラは、更に、
前記対応する画像のセットを用いて二次元カメラ視差データを生成し、
前記三次元ＬＩＤＡＲデータを二次元ＬＩＤＡＲ視差データに変換し、
前記二次元カメラ視差データ内の適した対応する二次元画像特徴を識別することによって、前記二次元カメラ視差データを複数の区分に分割し、
各区分内の少なくとも１つの二次元ＬＩＤＡＲ視差データポイントを識別し、
各区分内の各対応するピクセルの深さとして各二次元ＬＩＤＡＲ視差データポイントを設定し、
二次元ＬＩＤＡＲ視差データを用いてプレーンフィッティングアルゴリズムを適用して、前記二次元カメラ視差データを、前記二次元カメラ視差データ内の前記対応するピクセル以外の各ピクセルについての対応する深さデータに精緻化し、
前記深さデータを三次元データに変換する
ように構成される、請求項１に記載のシステム。
前記コントローラは、更に、前記三次元データへの変換前に、前記三次元カメラデータで閉塞されて見える各区分の一部に閉塞充填を適用し、重み付けメディアンフィルタを用いて前記深さデータを平滑化するように構成される、請求項３に記載のシステム。
前記コントローラは、更に、シーン再構築のために画像のセット及び前記三次元データを用い、
前記コントローラは、
カラーマッチング及び勾配検出のうちの一方を用いて前記画像のセットの各々の間の画像シームを検出し、
前記画像のセットの各々の低解像度バージョンを生成し、
前記画像のセットの各々の前記低解像度バージョンの画像シームでの各ピクセルについての予備融合色を選択し、
キャプチャされた解像度での前記画像のセットに対して色融合を行う際に使用するための色融合の選択に使用するためのベースラインとして前記予備融合色を提供して、それにより、前記キャプチャされた解像度での前記画像のセット間の前記画像シームに対して適切な融合色のサーチスペースを狭くし、
前記キャプチャされた解像度での前記画像のセットの各ピクセルに対する適切な融合色をサーチするための開始点として前記キャプチャされた解像度での関連するピクセルに対応する前記予備融合色を用いて前記画像シームに沿って各ピクセルに対する融合色を選択し、
各ピクセルに対して選択された融合色を用いて前記画像シームで色融合を行う、
ように構成される、請求項１に記載のシステム。
前記ステレオカメラ対、前記ＬＩＤＡＲ及び前記コントローラは、ある期間に協調して機能し、前記期間に前記三次元空間に対応する三次元動画として前記三次元データを生成する、請求項１に記載のシステム。
前記コントローラは、更に、
前記三次元動画の第１のフレームにおける特定のピクセルに対する特定のピクセルに移動が反映されたか判定するために、前記三次元動画の第２のフレーム内の各ピクセルでモーション検出を行い、
前記三次元動画内の前記特定のピクセルが、前記第１のフレームから前記第２のフレームへの移動を示すときにのみ、前記特定のピクセルの三次元位置を算出する、
ように構成される、請求項６に記載のシステム。
前記第１のタイムスタンプ及び前記第２のタイムスタンプは、前記三次元カメラデータを前記三次元ＬＩＤＡＲデータと時間相関するために用いられる、請求項６に記載のシステム。
前記コントローラは、更に、前記三次元ＬＩＤＡＲデータが空に対応する可能性が高い深さを示す前記三次元カメラデータの一部を抽出するように構成される、請求項１に記載のシステム。
複数のステレオカメラ対を更に備え、前記ステレオカメラ対の各々へ視認可能な前記三次元空間に対応する４πステラジアンの三次元データを生成するために前記ＬＩＤＡＲデータと組み合わせられる４πステラジアンの三次元カメラデータを生成するために全てが協調して動作する請求項１に記載のシステム。
前記三次元ＬＩＤＡＲデータは、特に、テクスチャがない三次元空間内の領域で前記三次元カメラデータと組み合わせられたとき、前記ステレオカメラ対からの全体又は部分的閉塞を有する、又は測光変化を有することを制御する請求項１に記載のシステム。
全地球測位システムは、前記三次元カメラデータ及び前記三次元ＬＩＤＡＲデータの時間相関での後の使用のために前記第１のタイムスタンプ及び前記第２のタイムスタンプを作成するためのジェネレーターロッキングシステムとして用いられる前記タイムスタンプデバイスである請求項１に記載のシステム。
実写三次元動画をキャプチャするシステムであって、
各々が第１のステレオカメラ及び第２のステレオカメラを作成する複数のステレオカメラ対であって、各カメラは、既知のイメージングパラメータを各々有し、前記複数のステレオカメラ対によって閲覧される三次元空間向けの三次元カメラデータを生成するために、ステレオからの深さ（ｄｅｐｔｈ−ｆｒｏｍ−ｓｔｅｒｅｏ）アルゴリズムが、前記ステレオカメラ対を用いてキャプチャされた対応する画像のセットに適用される、複数のステレオカメラ対と、
三次元ＬＩＤＡＲデータを生じるように構成される、前記ステレオカメラ対に対して既知の位置を有するＬＩＤＡＲと、
第１のタイムスタンプを前記三次元カメラデータに適用し、第２のタイムスタンプを前記三次元ＬＩＤＡＲデータに適用するタイムスタンプデバイスと、
コントローラであって、
前記ステレオからの深さ（ｄｅｐｔｈ−ｆｒｏｍ−ｓｔｅｒｅｏ）アルゴリズムを用いて、前記三次元空間向けの前記三次元カメラデータを生成し、前記三次元カメラデータ及び前記三次元ＬＩＤＡＲデータを、前記三次元カメラデータに亘って優先する前記三次元ＬＩＤＡＲデータと組み合わせ、それにより、前記三次元空間に対応する三次元データを生成するように構成される、コントローラと、
を備えるシステム。
前記コントローラは、前記ＬＩＤＡＲと前記複数のステレオカメラ対との間の外因性パラメータを算出することにより前記ＬＩＤＡＲを較正し、
前記コントローラは、更に、
前記対応する画像のセット内の、ある位置での外部マーカー内の円形穴の視半径及び視覚位置を検出し、
前記三次元ＬＩＤＡＲデータ内の、前記位置での前記外部マーカー内の前記円形穴のＬＩＤＡＲ半径及びＬＩＤＡＲ位置を検出し、
第２の位置での第２の視半径、第２の視覚位置、第２のＬＩＤＡＲ半径及び第２のＬＩＤＡＲ位置の検出を繰り返し、
前記ステレオカメラ対と前記ＬＩＤＡＲとの回転及び並進を算出する、
ように構成される、請求項１３に記載のシステム。
前記コントローラは、更に、前記三次元データを作成するために、前記対応する画像のセットにおける十分な数のピクセルの深さを算出し、
前記コントローラは、更に、
前記対応する画像のセットを用いて二次元カメラ視差データを生成し、
前記三次元ＬＩＤＡＲデータを二次元ＬＩＤＡＲ視差データに変換し、
前記二次元カメラ視差データ内の適した対応する二次元画像特徴を識別することによって、前記二次元カメラ視差データを複数の区分に分割し、
各区分内の少なくとも１つの二次元ＬＩＤＡＲ視差データポイントを識別し、
各区分内の各対応するピクセルの深さとして各二次元ＬＩＤＡＲ視差データポイントを設定し、
二次元ＬＩＤＡＲ視差データを用いてプレーンフィッティングアルゴリズムを適用して、前記二次元カメラ視差データを、前記二次元カメラ視差データ内の前記対応するピクセル以外の各ピクセルについての対応する深さデータに精緻化し、
前記深さデータを三次元データに変換する
ように構成される、請求項１３に記載のシステム。
前記コントローラは、更に、前記三次元データへの変換前に、前記三次元カメラデータで閉塞されて見える各区分の一部に閉塞充填を適用し、重み付けメディアンフィルタを用いて前記深さデータを平滑化するように構成される、請求項１５に記載のシステム。
前記コントローラは、更に、シーン再構築のために画像のセット及び前記三次元データを用い、
前記コントローラは、
カラーマッチング及び勾配検出のうちの一方を用いて前記画像のセットの各々の間の画像シームを検出し、
前記画像のセットの各々の低解像度バージョンを生成し、
前記画像のセットの各々の前記低解像度バージョンの画像シームでの各ピクセルについての予備融合色を選択し、
キャプチャされた解像度での前記画像のセットに対して色融合を行う際に使用するための融合色の選択に使用するためのベースラインとして前記予備融合色を提供して、それにより、前記キャプチャされた解像度での前記画像のセット間の前記画像シームに対して適切な融合色のサーチスペースを狭くし、
前記キャプチャされた解像度での前記画像のセットの各ピクセルに対する適切な融合色をサーチするための開始点として前記キャプチャされた解像度での関連するピクセルに対応する前記予備融合色を用いて前記画像シームに沿って各ピクセルに対する融合色を選択し、
各ピクセルに対して選択された融合色を用いて前記画像シームで色融合を行う、
ように構成される、請求項１５に記載のシステム。
前記ステレオカメラ対、前記ＬＩＤＡＲ及び前記コントローラは、ある期間に協調して機能し、前記期間に前記三次元空間に対応する三次元動画として前記三次元データを生成する、請求項１３に記載のシステム。
前記コントローラは、更に、
前記三次元動画の第１のフレームにおける特定のピクセルに対する特定のピクセルに移動が反映されたか判定するために、前記三次元動画の第２のフレーム内の各ピクセルでモーション検出を行い、
前記三次元動画内の前記特定のピクセルが、前記第１のフレームから前記第２のフレームへの移動を示すときにのみ、前記特定のピクセルの三次元位置を算出する
ように構成される、請求項１８に記載のシステム。
前記第１のタイムスタンプ及び前記第２のタイムスタンプは、前記三次元カメラデータを前記三次元ＬＩＤＡＲデータと時間相関するために用いられる、請求項１８に記載のシステム。
前記コントローラは、更に、前記三次元ＬＩＤＡＲデータが空に対応する可能性が高い深さを示す前記三次元カメラデータの一部を抽出するように構成される、請求項１３に記載のシステム。
複数のステレオカメラ対を更に備え、前記ステレオカメラ対の各々へ視認可能な前記三次元空間に対応する４πステラジアンの三次元データを生成するために前記ＬＩＤＡＲデータと組み合わせられる４πステラジアンの三次元カメラデータを生成するために全てが協調して動作する請求項１３に記載のシステム。
前記三次元ＬＩＤＡＲデータは、特に、テクスチャがない三次元空間内の領域で三次元カメラデータと組み合わせられたとき、前記ステレオカメラ対からの全体又は部分的閉塞を有する、又は測光変化を有することを制御する請求項１３に記載のシステム。
全地球測位システムは、前記三次元カメラデータ及び前記三次元ＬＩＤＡＲデータの時間相関での後の使用のために前記第１のタイムスタンプ及び前記第２のタイムスタンプを作成するためのジェネレーターロッキングシステムとして用いられる前記タイムスタンプデバイスである請求項１３に記載のシステム。
プロセッサにより実行されたときに、前記プロセッサに三次元データを生成させる命令を有するプログラムを記憶した記憶媒体を備える装置であって、
前記プログラムの前記命令は、複数のステレオカメラ対により閲覧される三次元空間向けの三次元カメラデータを生成し、
各々が第１のステレオカメラ及び第２のステレオカメラを作成し、各カメラは、既知のイメージングパラメータを各々有し、ステレオからの深さ（ｄｅｐｔｈ−ｆｒｏｍ−ｓｔｅｒｅｏ）アルゴリズムが、前記ステレオカメラ対を用いてキャプチャされた対応する画像のセットに適用され、
ＬＩＤＡＲを用いて三次元ＬＩＤＡＲデータを生成し、
第１のタイムスタンプを前記三次元カメラデータに適用し、第２のタイムスタンプを前記三次元ＬＩＤＡＲデータに適用し、
前記三次元空間向けの前記三次元カメラデータを生成するために前記ステレオからの深さ（ｄｅｐｔｈ−ｆｒｏｍ−ｓｔｅｒｅｏ）アルゴリズムを用い、
前記三次元カメラデータ及び前記三次元ＬＩＤＡＲデータを、前記三次元カメラデータに亘って優先する前記三次元ＬＩＤＡＲデータと組み合わせ、それにより、前記三次元空間に対応する三次元データを生成する、ためのものである、装置。
前記プロセッサと、
メモリと、を更に備え、
前記プロセッサ及び前記メモリは、前記記憶媒体上の前記命令を実行するための回路及びソフトウェアを備える、請求項２５に記載の方法。