JP2006012161A

JP2006012161A - 対話式視点ビデオシステムおよびプロセス

Info

Publication number: JP2006012161A
Application number: JP2005179122A
Authority: JP
Inventors: Charles Zitnick Iii; ジトニックザサードチャールズ; Matthew Uyttendaele; ウィッテンダールマシュー; Richard Szeliski; ゼリスキーリチャード; Simon Winder; ウィンダーシモン; Sing Bing Kang; ビングカンシング
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-06-28
Filing date: 2005-06-20
Publication date: 2006-01-12
Anticipated expiration: 2025-06-20
Also published as: JP4783588B2; US7286143B2; EP1612732B1; ES2619934T3; EP1612732A3; KR20060048551A; KR101203243B1; EP1612732A2; CN1717064A; US20050286759A1; US20050285875A1; CN1717064B; US7292257B2

Abstract

【課題】ユーザが、時間を操作（フリーズする、速度を遅くする、またはリバース）し、意のままに視点を変化させながら、動的なシーンを見ることができる対話式視点ビデオを生成し、次いでレンダリングし表示するためのシステムおよび方法を提供すること。
【解決手段】一般に、本対話式視点ビデオは、複数のビデオストリームをキャプチャするのに少数のカメラを用いて生成される。マルチビューの３次元再構成およびマッティング技法は、ビデオフレームのレイヤ化された表示を作成するために使用され、それにより、キャプチャされた動的なシーンの効率的な圧縮と対話式再生を共に可能にし、同時に実時間レンダリングが可能になる。
【選択図】図３

Description

本発明は、ビデオの生成およびレンダリングに関し、より詳細には、ユーザが意のままに視点を変えながら動的なシーンを見ることのできる対話式視点ビデオを生成し、またレンダリングするためのシステムおよびプロセスに関する。

ここ数年の間、テレビコマーシャルや長編映画の視聴者は、時間を停止させ、またカメラの視点を変化させる錯覚（ｉｌｌｕｓｉｏｎ）を作るために使用する「コマ止め（ｆｒｅｅｚｅｆｒａｍｅ）」効果を見ている。初期のコマーシャルでは、停止した１片の時間を介して移動する錯覚を与えるために、レールに沿って配列された異なる静止画カメラの間を速やかに切り替えるフィルムベースのシステムを使用することによって作成された。

初めてそれが出現したとき、その効果は新鮮で壮観なものであり、すぐに多くの作品で模倣された。その最も有名なものはおそらく、「マトリクス」という表題の映画に見られる「ブレットタイム（ｂｕｌｌｅｔｔｉｍｅ）」効果である。残念ながら、その効果は、一時的なものであり、事前に計画されたものである。視点の軌跡は事前に計画されており、所望の補間されたビューを作成するためには多くの工数が費やされる。それより新しいシステムでは、ビデオカメラ列に基づいているが、ソフトウェアによるビュー補間を回避するために、やはり多数のカメラを使用することに依存している。

したがって、既存のシステムでは、ユーザは動的なイメージベースのシーンを見ながら、対話式に所望する任意の視点に変更することができない。過去のイメージベースレンダリング（ＩＢＲ：ｉｍａｇｅ−ｂａｓｅｄｒｅｎｄｅｒｉｎｇ）に対する作業の大部分は、２つの最もよく知られた技法、すなわち光線空間レンダリング（ＬｉｇｈｔＦｉｅｌｄＲｅｎｄｅｒｉｎｇ）（非特許文献１２）およびルミグラフ（Ｌｕｍｉｇｒａｐｈ）（非特許文献８）を用いた静的シーンのレンダリングを含む。それらの高品質レンダリングの成功は、多数のサンプリング画像を用いることによって生じたものであり、それにより、この分野における多くの一連の作品が生まれることとなった。この革新的な作品の可能な１つの刺激的な拡張には、ビデオを見ながら視点を対話式に制御することが含まれる。ユーザがビデオの視点を対話式に制御できるようになると、ビューイング体験を大幅に高めることになり、新しい視点での即時再生など多様な用途を可能にし、ドラマ中に視点を変化させ、また「コマ止め」視覚効果を意のままに作成できるようになる。

しかし、ＩＢＲを動的なシーンに拡張することは、非常に多くのカメラの同期をとることならびに画像を取得し記憶することの困難さ（およびコスト）のため簡単なものではない。複数の視点から動的なシーンをキャプチャし、表示し、レンダリングすることを克服するのには重大なハードルがあるだけでなく、それを対話式に行えるようにするには、さらに大幅な複雑さを生むことになる。現段階では、その目的を実現する試みはまだ満足できるものではない。

対話式視点ビデオシステムのビデオベースのレンダリング側面に関して、動的なシーンをキャプチャしレンダリングする初期の試みの１つは、金出（Ｋａｎａｄｅ）他の仮想化現実システム（ＶｉｒｔｕａｌｉｚｅｄＲｅａｌｉｔｙｓｙｓｔｅｍ）（非特許文献１１）であり、それは、５メートルの測地線ドームの周りに配置した５１台のカメラを含む。各カメラの解像度は５１２×５１２であり、キャプチャレートは、３０ｆｐｓである。それによると、シーンフローの式（ｓｃｅｎｅｆｌｏｗｅｑｕａｔｉｏｎ）（非特許文献１８）に基づくボクセルカラリング（ｖｏｘｅｌｃｏｌｏｒｉｎｇ）（非特許文献１５）の形式を用いて、各時間フレームのグローバル表面表示を抽出する。残念ながら、低解像度、マッチングエラー、およびオブジェクト境界の不適切な処理のため、その結果は非現実的なものに見える。

Ｃａｒｒａｎｚａ他（非特許文献３）は、３次元で人間の動作をキャプチャするために、部屋の周りにその中心に向けて分散させ同期させた７台のカメラを使用した。各カメラは、ＣＩＦ解像度（３２０×２４０）であり、１５ｆｐｓでキャプチャする。それは、３次元人間モデルを、各時間フレームにおける３次元形状を計算するためのプライア（ｐｒｉｏｒ）として使用する。

Ｙａｎｇ他（非特許文献２１）は、動的なシーンをキャプチャするために８×８台のカメラ（各３２０×２４０）の格子を設計した。データを記憶しレンダリングするのではなく、それは、所望の仮想ビューを構成するために必要な光線を送信するだけである。そのシステムでは、カメラはゲンロックされていない。その代わりに、６台のＰＣにわたる内部クロックを利用する。カメラのキャプチャレートは１５ｆｐｓであり，対話式ビューイングレートは１８ｆｐｓである。

動的な光線空間を記憶するための概念の証明として、Ｗｉｌｂｕｒｎ他（非特許文献２０）は、６台のカメラ（３０ｆｐｓで６４０×４８０）を同期させ、すべての画像データを実時間で圧縮し記憶することが可能であることを示した。彼らはその後、１２８台のカメラを接続している。

シーンのジオメトリがまだ未知であり、あるいは大まかな近似だけが知られている場合、リアリスティックなレンダリングをするためには多くの画像が必要である。ジオメトリが正確にわかっている場合、イメージに対する要件は大幅に削減することができる（非特許文献８）。シーンのジオメトリを抽出する１つの実際的な方法は、ステレオ（ｓｔｅｒｅｏ）によるものであり、多くのステレオアルゴリズムが静的なシーンに対して提案されている（非特許文献１４）。しかし、動的なシーンにステレオ技法を使用する試みはわずかしかない。仮想化現実の研究（非特許文献１１）の部分として、Ｖｅｄｕｌａ他（非特許文献１８）は、２次元オプティカルフローおよび３次元シーン形状を用いて３次元動き（すなわち、時間に対するシーン形状間の対応関係）を抽出するためのアルゴリズムを提案した。その手法では、ボクセルカラリング（非特許文献１５）に類似した投票方式を使用し、いかに仮説を立てたボクセル位置がその３次元フローの式によく合っているかという測定基準が使用される。

ＺｈａｎｇとＫａｍｂｈａｍｅｔｔｕ（非特許文献２２）はまた、３次元シーンフローと、そのフレームワークにおける構造を統合した。その３次元アフィン動きモデルは空間正規化を用いて局所的に使用され、不連続性は、カラーセグメンテーションを用いて維持される。Ｔａｏ他（非特許文献１７）は、シーンは区分的に平面であると仮定する。さらに、動的な深さマップ推定を制限するために各平面パッチに対して一定速度であると仮定する。

より野心的な努力としては、ＣａｒｃｅｒｏｎｉとＫｕｔｕｌａｋｏｓ（非特許文献２）は、既知のライティング位置を有する非剛性動きの下で、区分的に連続のジオメトリおよび反射率を復元している（Ｐｈｏｎｇのモデル）。彼らは、空間を表面要素（「サーフェル（ｓｕｒｆｅｌｓ）」に分離し、観察されたイメージとの一致を最大化するように、位置、方向、および反射率パラメータにわたって検索を実施する。

従来の局所的なウィンドウマッチングに対する興味深い工夫では、Ｚｈａｎｇ他（非特許文献２３）は、時間と空間にまたがるウィンドウのマッチングを使用する。この方法の利点は、時間経過に対して明度が一定であることへの依存度が低いことである。

アクティブな距離測定技法も動きのあるシーンに適用されている。Ｈａｌｌ−ＨｏｌｔとＲｕｓｉｎｋｉｅｗｉｃｚ（非特許文献９）は、時間に対して変化する投影され境界符号化されたストライプパターンを用いる。イスラエルの３ＤＶＳｙｓｔｅｍｓ社によるＺＣａｍ（商標）と呼ばれる市販のコマーシャルシステムもある。それは、放送用ビデオカメラと共に使用されるアドオンのレンジセンシングビデオカメラである。しかし、それは高価なシステムで、また単一の視点深さだけを提供するものであり、複数の視点ビデオにはあまり適していない。

Buehler, C., Bosse, M., Mcmillan, L., Gortler, S. J., and Cohen, M. F. 2001. Unstructured lumigraph rendering. Proceeding of SIGGRAPH 2001(August), 425-432 Carceroni, R. L., and Kutulakos, K. N. 2001. Multi-view scene capture by surfel sampling: From video streams to non-rigid 3D motion, shape and reflectance. In Eighth International Confer-ence on Computer Vision (ICCV 2001), mol. II, 60-67 Carranza, J., Theobalt, C., Magnor, M. A., and Seidel, H.-P. 2003. Free-viewpoint video of human actors. ACM Transactions on Graphics 22, 3 (July), 569-577 Chang, C.-L., et al. 2003. Inter-view wavelet compression of light fields with disparity-compensated lifting. In Visual Communication and image Processing (VCIP 2003) Chuang, Y.Y., et al. 2001. A Bayesian approach to digital mat-ting. In conference on Computer Vision and Pattern Recognition (CVPR'2001), vol. II, 264-271 Debevevec, P. E., Taylor, C. J., and Makik, J. 1996. Modeking and rendering architecture from photographs: A hybrid geometry and image-based approach. Computer Graphics (SIGGRAPH'96) (August), 11-20 Debecec, P. E., Yu, Y., and Borshukov, G. D. 1998. Efficient view-dependent image- based rendering with projective texture-mapping. Eurographics Rendering Workshop 1998, 105-116 Gortler, S. J., Grazeszczuk, R. Szliski, R. and Cohen, M. F. 1996. The Lumigraph. In Computer Graphics (SIGGRAPH'96) Pro-ceedings, ACM SIGGRAPH, 43-54 Hall-Holt, O., and Rusinkiewicz, S. 2001. Stripe boundary codes for real-time structured-light range scanning of moving objects. In Eighth international Conference on Computer Vision (ICCV 2001), vol. II, 359-366 Heigl, B., et al. 1999. Plenoptic modeling and rendering from image sequences taken by hand-held camera. In DAGM'99, 94-101 Kanede, T., Rander, P. W., and Narayanan, P.J 1997. Virtualized reality: constructing virtual worlds from real sense. IEEE Mul-tiMedia Magazine 1,1 (Jan-March), 34-47 Levoy, M., and Hanrahan, P. 1996. Light field rendering. In Computer Graphics SSIGGRAPH'96) Proceedings, ACM SIG-GRAPH, 31-42 Pulli, K., et al. 1997. View-based rendering: Visualizing real objects from scanned range and color data. In Proceedings of the 8-th Eurographics Workshop on Rendering Scharstein, D., and Szeliski, R. 2002. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms. International Journal of Computer Vision 47, 1 (May), 7-42 Seitz, S. M., and Dyer, C. M. 1997. Photorealistic scene reconstruction by voxel coloring. In Conference on Computer Vision and Pattern Recognition (CVPR'97), 1067-1073 Shade, J., Gortler, S., He, L.-W., and Szeliskli, R. 1998. Layered depth images. In Computer Graphics (SIGGRAPH'98) Proceed-ings, ACM SIGGTAPH, Orlando, 231-242 Tao, H., Sawhney, H., and Kumar, R. 2001. A global matching framework for stereo computation. In Eighth International Con-ference on Computer Vision (ICCV 2001), vol. I, 532-598 Vedula, S., Baler, S., Seitz, S., and Kanade, T. 2000. Shape and motion carving in 6D. In Conference on Computer Vision and Pattern Recognition (CVPR'2000), vol. II, 592-539 Wexler, Y., Fitzgibbon, A., and Zisserman, A. 2002. Bayesian estimation of layers from multiple images. In Seventh European Conference on Computer Vision (ECCV 2002), vol. III, 487-501 Wiburn, B., Smulski, M., Lee, H. H. K., and Horowitz, M. 2002. The light field video camera. In SPIE Electonic Imaging: Media Processors, vol. 4674, 29-36 Yang, Jl. C., Everett, M., Buehler, C., and McMillan, L. 2002. A real-time distributed light field camera. In Eurographics Workshop on Rendering, P. Debevec and S. Gibson, Eds., 77-85 Zhang, Y., and Kambhamettu, C. 2001. On 3D scene flow and structure estimation. In Conference on Computer Vision and Pattern Recognition (CVPR'52001), vol. II, 778-785 Zhang, L., Curless, B., and Seitz, S. M. 2003. Spacetime stereo: Shape recovery for dynamic scenes. In Conference on Computer Vision and Pattern Recognition, 367-374 Zhang, Z. 2000. A flexible new technique for camera calibration. IEEE Transactions on Pattern Analysis and Machine Intelligence 22, 11, 1330-1334

しかし、ステレオおよびイメージベースのレンダリングにおけるあらゆる進歩にもかかわらず、動的なシーンの高品質、高解像度のビューを対話式にレンダリングすることはやはり非常に困難である。本発明は、コスト効率のよい方式でこの問題に取り組む。

本発明は、ユーザが、意のままに時間を操作（停止し、速度を落とし、またはリバース）し、また視点を変化させながら動的なシーンを見ることのできる対話式視点ビデオを、まず生成し、次いでレンダリングし表示するためのシステムおよびプロセスを対象とする。時空間を介して様々な軌跡をとることができるので、２つのビューイング体験が同じである必要はない。一般に、それは、シーンの複数の高品質なビデオストリームをキャプチャするのに少数のカメラを用いたシステムおよびプロセスによって達成される。それによると、様々な視点からのシーンをレンダリングするために必要なビデオストリームをキャプチャするための関連コストが既存方法に対して削減されるだけではなく、キャプチャシステムが可搬型になるのでさらに有利である。次に、マルチビュー３次元再構成およびマッティング（ｍａｔｔｉｎｇ）技法が使用されて、ビデオフレームからレイヤ化された表示を作成し、それにより、キャプチャした動的なシーンの効率的な圧縮と対話式再生を共に可能にし、同時に実時間レンダリングも可能にする。

より具体的には、対話式視点ビデオ生成システムは、複数のビデオストリームをキャプチャするためのカメラ列、およびそのビデオストリームを同期させるための同期化装置を含むビデオキャプチャサブシステムを有する。ビデオストリームは、集合的に、それぞれがシーンの異なる視点を表す同時にキャプチャされたビデオフレームの連続的なグループとして特徴付けることができる。キャプチャサブシステムはまた、処理前にビデオストリームを記憶するための記憶装置を含むことができる。

ビデオカメラは、各カメラがシーンを異なる視点から見るように並んで配置される。各カメラの視野は、任意の隣接するカメラの視野と所定量だけ重なる（例えば、２つの隣接するカメラ間の相対回転角が４〜８度で、カメラごとの水平視野を３０度とするなど）。そのシーンにおけるターゲットオブジェクトまたは領域に対する各カメラ視点の距離、高さ、水平位置は、カメラの視点を結ぶ所望の経路を形成するように設定される。その経路は、例えば、水平または垂直の弧とすることができ、あるいは一方の端部から他方の端部まで上方または外側にスイープする弧とすることもできる。その経路の重要性は、対話式視点ビデオを見ているユーザが、キャプチャされたシーンをその経路に沿った任意の場所で見るための視点を、それがカメラ位置の１つに一致しない場合であっても選択可能なことにある。

生成される対話式視点ビデオの品質が改善されるので、ビデオカメラを高解像度カメラとすることができる。さらに、そのカメラは、ビデオストリームの同期をとりやすくするためにゲンロック機能を有することができる。さらに、カメラは、生成された各ビデオフレームにメタデータを追加できる場合、ビデオストリームの処理が容易となり有利になるはずである。そのメタデータは、例えば、現在のカメラの設定、露光レベル、およびタイムスタンプなどを含む。

カメラおよび同期化装置に加えて、キャプチャサブシステムは、各ビデオストリームと関連する幾何パラメータ、測光パラメータを計算するためのカメラ較正プログラムを実行するコンピューティング装置を含む。さらに、ビデオカメラは、コンピュータによって制御可能なタイプでよい。その場合、前述のコンピューティング装置はまた、事前に設定したメニューに基づき、あるいはユーザ入力に応答して、複数のカメラを同時にオンまたはオフし、またその設定を調整するビデオキャプチャプログラムを実行するために使用することができる。

対話式視点ビデオ生成システムはまた、ビデオ生成プログラムを実行するために前述のコンピューティング装置または別のコンピューティング装置を使用する。一般に、その生成プログラムは、まず、同期化されたビデオストリームから同時に取得されたフレームの各グループ中に示されるシーンの３次元再構成を作成するのに用いられる。本生成プログラムのテストされた実施形態では、この目的のためにセグメンテーションベースの再構成技法が使用された。同時に取得されたフレームのグループごとに、得られた再構成は、そのグループ中のフレームごとに視差マップを計算するのに使用される。再構成はまた、そのグループフレーム中のすべてのカメラビューにわたる対応関係を計算するために使用することができる。次いで、その対応関係は、特に、グループ中のフレーム間の測光パラメータをバランスさせるために使用することができる。さらに、検討中のグループのフレームごとに、視差マップに基づいて、大幅な深さ不連続の領域が識別される。その領域内で、前景情報および背景情報が計算される。その情報を用いて、個々の主レイヤと境界レイヤがフレームごとに設定される。主レイヤは、所定の閾値を超える深さの不連続を示さない視差値を有するピクセルと、深さの不連続部を囲む領域からの背景情報とから構成される。境界レイヤは、閾値を超える深さの不連続部に近い領域またはそれを有する領域中の前景情報から構成される。このようにして、各フレームのレイヤ化された表示が作成される。主レイヤは、レイヤ中の各ピクセルのカラーおよび深さによって特徴付けられる。しかし、境界レイヤは、各ピクセルのカラーおよび深さによって特徴付けられるだけではなく、レイヤ中のピクセルごとの不透明度値によっても特徴付けられる。本ビデオ生成プログラムのテストされた実施形態では、境界レイヤは、閾値を超える深さの不連続を示すピクセルに隣接する所定数のピクセルを含めるように拡張されていることに留意されたい。それは、後で簡単に説明するレンダリング手順中に生ずる「クラック（ｃｒａｃｋ）」を防止するために行われたものである。

対話式視点ビデオ生成プログラムはさらに、ビデオの転送および／または記憶を容易にするために、前述のレイヤ化された表示の圧縮を行うことを含むことができる。その圧縮は、時間的または空間的圧縮技法、あるいはテストされた実施形態のように組み合わせた時間および空間圧縮手法を使用することができる。さらに、生成プログラムは、対話式視点ビデオフレームのレイヤ化された表示および前に計算された較正データを含むファイルを作成するためのファイル生成プログラムモジュールを有することができる。

ビデオ生成プログラムはまた、実際のビデオカメラからキャプチャされたフレームからではなく、コンピュータ生成ビデオストリームから、対話式視点ビデオを作成するのに使用できることに留意されたい。その場合、較正データは、生成プログラムから直接提供されることになる。

対話式視点ビデオを再生するのに使用される前述のレンダリングおよび表示システムは、ユーザの視点選択を入力し、レンダリングされた視点ビデオフレームをユーザに表示するためのユーザインターフェースサブシステムを有する。そのために、システムは、ユーザが継続して視点の選択を入力するために使用するある種の入力装置と、ユーザにレンダリングされた対話式視点ビデオフレームを表示するために使用する表示装置とを含む。さらに、ユーザインターフェースサブシステムは、ユーザが入力装置を介して視点をグラフィカルに示すことができるグラフィックユーザインターフェースを含むことができる。

レンダリングおよび表示システムはさらに、レンダリングプログラムが実行されるコンピューティング装置を含む。そのレンダリングプログラムは、対話式視点ビデオの各フレームをレンダリングするのに使用される。一般に、レンダリングされるフレームごとに、それは、まず、ユーザに指定された現在の視点を識別することを含む。再生されているビデオの現在の時間部分に関連する同時に取得されたフレームのグループから、識別された視点からの対話式視点ビデオの現在のフレームをレンダリングするために必要なフレームまたは複数のフレームが識別される。それは、一般に、現在のグループ中の各フレームに関連する視点を決定するために較正データを使用すること、ならびにユーザにより選択された現在の視点がフレーム視点のうちの１つに一致するのか、または２つのフレームの間に含まれるのかを判定することが必要である。識別された視点が、ビデオフレームのうちの１つの視点と一致するとき、そのフレームはシーンをレンダリングするのに必要なフレームとして識別される。しかし、識別された視点が２つのビデオフレームの視点の間に含まれるとき、これらのフレームは共に、シーンをレンダリングするのに必要なフレームとして識別される。

必要なフレームまたは複数のフレームが識別された後、それらのフレームに対応するレイヤ化された表示が得られる。そのためには、少なくとも必要なフレームデータを対話式視点ビデオデータから抽出することが必要である。上記のように、ビデオデータがファイル中に含まれている場合、通常、復号化される必要がある。レンダリングプログラムの選択的復号モジュールをその目的に使用することができる。さらに、レイヤ化されたフレームデータが圧縮されている場合、その復号モジュールは、所望の視点からシーンをレンダリングするために必要な特定のフレームを復元するために必要なビデオデータの部分の圧縮解除を行う。

復号化されたフレームデータは、ユーザによって現在指定されている視点からの対話式視点ビデオの次のフレームをレンダリングするために使用される。指定された視点が、復号化されたフレームに関連する視点と一致する場合、それは単純なプロセスである。しかし、所望の視点が２つのフレームの間に含まれる場合は、レンダリングプロセスがさらに必要となる。レンダリングプロセスの一実施形態では、２つの入力フレームのそれぞれに対して順番に、まず、考慮中の入力フレームの主レイヤを、ユーザに指定された現在の視点に対応する仮想ビューに投影し、次いで、考慮中の入力フレームの境界レイヤを仮想ビューに投影することが必要となる。投影された境界レイヤと主レイヤは、混合されて対話式視点ビデオの最終化（ｆｉｎａｌｉｚｅ）されたフレームを作成する。投影されたレイヤの混合は、そのレイヤに関連する視点が、ユーザ指定の現在の視点にいかに近いかに直接比例させて各レイヤに重み付けすることを含むことに留意されたい。

レンダリングプロセスはさらに、入力されレイヤ化されたフレーム表示中に存在しないオブジェクトを、レンダリングされるフレームに挿入することを含むことができることに留意されたい。そのオブジェクトは、コンピュータ生成またはイメージベースとすることができる。

ここで説明した利点に加えて、本発明の他の利点が、添付の図面と共に以下の詳細な説明を参照することにより明らかとなろう。

本発明の特有の機能、態様および利点は、以下の説明、添付の特許請求の範囲、添付の図面から理解されよう。

本発明の好ましい諸実施形態の以下の説明では、本明細書の一部を形成し、本発明が実施できる特有の実施形態を例示のため示した添付の図面への参照が行われる。他の諸実施形態を利用することも可能であり、本発明の範囲を逸脱することなく構造的な変更を実施できることを理解されたい。

１．０対話式視点ビデオ
ビデオを見ながら対話的に視点を制御できることは、イメージベースのレンダリングに対する刺激的な新しい用途である。本システムおよびプロセスは、新規なイメージベースのモデリングおよびレンダリング技法を組み合わせた複数の同期化されたビデオストリームを使用する対話式視点制御を使用し、動的なシーンをレンダリングすることによってその機能を提供する。時空間操作に対する可能性を有しており、任意の中間のビューをいつでも合成できるため、本手法は対話式視点ビデオと呼ばれている。

本対話式視点ビデオシステムおよびプロセスの主な利点は、視聴されているシーンをキャプチャするために比較的少数のカメラが用いられたとしても、可能な最高品質のビュー補間されたフレームが提供されて視聴体験を高められることである。それは簡単に達成されるものではない。光線空間レンダリングの論文（非特許文献１２）で示唆するように、１つの手法は、入力および仮想カメラの相対位置にだけ基づいて光線を再サンプリングすることである。しかし、ルミグラフ（非特許文献８）およびその後の研究で示されるように、シーンジオメトリのために３次元インポスタ（ｉｍｐｏｓｔｏｒ）またはプロキシを使用することにより、補間されたビューの品質を非常に改善することができる。他の手法は、テクスチャマップされた単一の３次元モデル（非特許文献１１）を作成することであるが、それは一般に、複数の参照ビューを用いるよりも劣った結果となる。

本システムおよびプロセスは、３次元プロキシを必要とするジオメトリ支援のイメージベースのレンダリング手法を使用する。１つの可能性は、ルミグラフおよび非構造化ルミグラフの論文（非特許文献１）におけるように、単一のグローバル多面体モデルを使用することである。他の可能性は、レイヤ化された深さイメージ（非特許文献１６）、ファサード（Ｆａｃａｄｅ）におけるオフセット深さマップ（非特許文献６）、または深さを有するスプライト（ｓｐｒｉｔｅ）（非特許文献１６）におけるようにピクセル単位の深さを使用することである。一般に、参照ビューごとに異なる局所的な幾何プロキシを使用する（非特許文献７、１０、１３）ことは、より高い品質結果が得られ、したがって、その手法を適用する。

固定された数の入力イメージに対して可能な最高品質を取得するために、ピクセルごとの深さマップを使用する。その深さマップは、後で簡単に説明する新規の３次元再構成技法で生成される。しかし、複数の深さマップであってもやはり、新規のビューを生成するとき、レンダリングアーティファクトを生ずることになる。すなわち、それは、前景から背景への急激な変化の性質によるエイリアス（ジャギー）、および混合されたピクセルによる汚染されたカラーであり、新規の背景またはオブジェクトの上に合成したときに見えるようになる。

これらの問題には、独特の２レイヤ表示を用いて対処する。その表示は、まず、深さマップｄ_i中の深さの不連続部を突き止めることにより生成される。本発明の一実施形態では、ピクセルの周囲に境界ストリップ（ｓｔｒｉｐ）を作成する。次いで、Ｂａｙｅｓｉａｎマッティングの変形（非特許文献５）が境界および主レイヤのカラー、深さ、および不透明度（ｏｐａｃｉｔｙ）（アルファ値）を推定するために使用される。データサイズを小さくするために、複数のアルファマットされた（ａｌｐｈａ−ｍａｔｔｅｄ）深さイメージを圧縮することができる。それも後で簡単に説明する。

レンダリング時に、仮想ビューに最も近い２つの参照ビューが選択される。各ビューは、関連する深さマップを使用し、境界レイヤを主レイヤの上に合成して、その２つのレイヤのそれぞれをワープさせることによって個々にレンダリングされる。次いで、２つのワープされたビューは、新規のビューに対する近接度に基づいて混合される。あるいは、各ビューからの主レイヤおよび境界レイヤが個々にレンダリングされ、次いで一緒に混合することもできる。このプロセスのより詳細な説明も後で行う。

以下のセクションは、本対話式視点ビデオシステムおよびプロセスの詳細な説明を提示する。最初に、本システムのプログラム的な部分を実施するのに適したコンピューティング環境を提示する。その後に、複数のビデオをキャプチャし同期させるために使用される対話式視点ビデオキャプチャサブシステムの説明を行う。次いで、対話式視点ビデオシステムプログラムの説明を提示する。

１．１コンピューティング環境
本発明の好ましい諸実施形態を説明する前に、本発明の部分が実装可能な適切な環境の一般的な説明を簡単に行う。図１は、適切なコンピューティングシステム環境１００の一実施例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の一実施例に過ぎないが、本発明の使用法または機能の範囲に関する何らかの制限を示唆するものではない。コンピューティング環境１００は、例示的な動作環境１００に示された構成要素のうちのいずれかまたはその組合せに関して、何らかの依存性または何らかの要件を有するものと解釈すべきではない。

本発明は、他の数多くの汎用または特殊目的コンピューティングシステム環境またはコンフィギュレーションで動作可能である。本発明で使用するのに適切であり得る周知のコンピューティングシステム、環境、および／またはコンフィギュレーションの実施例は、それに限るものではないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記システムもしくは装置のいずれかを含む分散型コンピューティング環境などを含む。

本発明は、コンピュータによって実行されるプログラムモジュールなど、コンピュータ実行可能命令の一般的なコンテキストで記述することができる。一般に、プログラムモジュールは、特定のタスクまたは特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。本発明はまた、タスクが、通信ネットワークを介してリンクされた遠隔処理装置によって実施される分散型コンピューティング環境中で実施することもできる。分散型コンピューティング環境では、プログラムモジュールは、メモリストレージ装置を含むローカルと遠隔のコンピュータ記憶媒体の両方に位置することができる。

図１を参照すると、本発明を実施するための例示的なシステムは、コンピュータ１１０の形の汎用コンピューティング装置を含む。コンピュータ１１０の構成要素は、それに限るものではないが、処置装置１２０、システムメモリ１３０、およびシステムメモリを含む様々なシステム構成要素を処理装置１２０に結合するシステムバス１２１を含むことができる。システムバス１２１は、様々なバスアーキテクチャのいずれかを用いる、メモリバスもしくはメモリコントローラ、周辺バス、およびローカルバスを含む複数のタイプのバス構造のいずれかとすることができる。例のためであり、限定するものではないが、このようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＥＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、およびＭｅｚｚａｎｉｎｅバスとしても知られるＰＣＩ（周辺コンポーネント相互接続）バスが含まれる。

コンピュータ１１０は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセス可能な任意の利用可能な媒体とすることができ、また揮発性と不揮発性媒体、取外し可能と取外し不能媒体を共に含む。例のためであり、限定するものではないが、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなどの情報を記憶するための方法または技術で実施される揮発性と不揮発性媒体、取外し可能と取外し不能媒体を共に含む。コンピュータ記憶媒体は、それに限定するものではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、もしくは他のメモリ技術、ＣＤ−ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋｓ）、もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶装置、あるいは所望の情報を記憶するのに使用することができ、コンピュータ１１０によってアクセスできる任意の他の媒体を含む。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の移送機構などの変調されたデータ信号で実施し、また任意の情報送達媒体を含む。用語「変調されたデータ信号」とは情報を信号中に符号化するように設定されたまたは変更された１つまたは複数のその特性を有する信号を意味する。例示のためであり、限定するものではないが、通信媒体は、有線ネットワークや直接有線接続などの有線媒体、および音響、高周波、赤外線、他の無線媒体などの無線媒体を含む。上記のいずれの組合せも、コンピュータ可読媒体の範囲に含まれる。

システムメモリ１３０は、ＲＯＭ（読取り専用メモリ）１３１やＲＡＭ（ランダムアクセスメモリ）１３２などの揮発性および／または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動中などに、コンピュータ１１０内のエレメント間で情報を転送できるようにする基本ルーチンを含むＢＩＯＳ（基本入出力システム）１３３が、通常、ＲＯＭ１３１に記憶されている。ＲＡＭ１３２は、通常、処理装置１２０により、すぐそれにアクセス可能であり、かつ／またはそれに対して現在操作されているデータおよび／またはプログラムモジュールを含む。例のためであり、限定するものではないが、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示す。

コンピュータ１１０はまた、他の取外し可能／取外し不能、揮発性／不揮発性コンピュータ記憶媒体を含む。例示のためだけであるが、図１は、取外し不能、不揮発性磁気媒体から読み取りまたは書き込むハードディスクドライブ１４１と、取外し可能、不揮発性磁気ディスク１５２から読み取りまたは書き込む磁気ディスクドライブ１５１と、ＣＤ−ＲＯＭまたは他の光媒体などの取外し可能、不揮発性光ディスク１５６から読み取りまたは書き込む光ディスクドライブ１５５とを示す。例示的な操作環境で使用することができる、他の取外し可能／取外し不能、揮発性／不揮発性コンピュータ記憶媒体は、それに限定するものではないが、磁気テープカセット、フラッシュメモリカード、ＤＶＤ、デジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどを含む。ハードディスクドライブ１４１は、通常、インターフェース１４０などの取外し不能メモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、通常、インターフェース１５０などの取外し可能メモリインターフェースにより、システムバス１２１に接続されている。

上記の、また図１に示すドライブおよびその関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ１１０のための他のデータのストレージを提供する。図１で、例えば、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じものであり、あるいは異なるものであり得ることに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７は、少なくとも、それは異なるコピーであることを示すために、ここでは異なる数字を与えている。ユーザは、キーボード１６２や、マウス、トラックボール、またはタッチパッドと普通呼ばれるポインティング装置１６１などの入力装置を介してコンピュータ１１０にコマンドおよび情報を入力することができる。他の入力装置（図示せず）は、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどを含むことができる。これらのおよび他の入力装置は、システムバス１２１に結合されているユーザ入力インターフェース１６０を介して処理装置１２０に接続されることが多いが、パラレルポート、ゲームポート、ＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）など、他のインターフェースおよびバス構造によって接続することもできる。モニタ１９１または他のタイプの表示装置がまた、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続されている。そのモニタに加えて、コンピュータはまた、スピーカ１９７やプリンタ１９６など他の周辺出力装置を含むことができ、それは、出力周辺装置インターフェース１９５を介して接続することができる。イメージ１９３のシーケンスをキャプチャすることができる（デジタル／電子式の静止画もしくはビデオカメラ、またはフィルム／写真スキャナなどの）カメラ１９２を、パーソナルコンピュータ１１０への入力装置としても含めることができる。さらに、１台のカメラだけが図示されているが、複数のカメラがパーソナルコンピュータ１１０への入力装置として含むこともできる。１つまたは複数のカメラからのイメージ１９３は、適切なカメラインターフェース１９４を介してコンピュータ１１０に入力される。そのインターフェース１９４は、システムバス１２１に接続され、それにより、イメージが、ＲＡＭ１３２、またはコンピュータ１１０に関連する他のデータ記憶装置の１つへ送られ、記憶され得る。しかし、イメージデータは、カメラ１９２を使用する必要なしに、任意の前述のコンピュータ可読媒体からコンピュータ１１０に入力することもできることに留意されたい。

コンピュータ１１０は、遠隔コンピュータ１８０などの１つまたは複数の遠隔コンピュータへの論理接続を用いて、ネットワーク化された環境中で動作することができる。遠隔コンピュータ１８０は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、同位（ｐｅｅｒ）装置、または他の共通ネットワークノードとすることができ、図１にメモリ記憶装置１８１だけが示されているが、通常、コンピュータ１１０に関して上記で述べたエレメントの多くまたはすべてを含む。図１に示す論理接続は、ＬＡＮ（ローカルエリアネットワーク）１７１、およびＷＡＮ（広域ネットワーク）１７３を含むが、他のネットワークも含むことができる。このようなネットワーク化環境は、オフィスや企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいて普通のものである。

ＬＡＮネットワーク化環境で使用されるとき、コンピュータ１１０は、ネットワークインターフェースもしくはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーク化環境で使用されるときは、コンピュータ１１０は、通常、インターネットなどのＷＡＮ１７３を介して通信を確立するためのモデム１７２または他の手段を含む。モデム１７２は、内部または外部のものとすることができるが、ユーザ入力インターフェース１６０、または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク化環境では、コンピュータ１１０、またはその部分に関して図示されたプログラムモジュールは、遠隔メモリ記憶装置に記憶することができる。例のためだけであり、限定するものではないが、図１は、メモリ装置１８１上に常駐する遠隔アプリケーションプログラム１８５を示す。図示されたネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立するための他の手段を使用することもできることを理解されたい。

例示的な動作環境をここで論じてきたので、この説明のセクションの残りの部分は、専ら対話式視点ビデオシステムのハードウェア、プログラムモジュールのアーキテクチャ、およびモジュールそれ自体の説明を行うものとする。

１．２対話式視点ビデオキャプチャシステム
一般に、対話式視点ビデオキャプチャシステムは、前述の複数のビデオストリームをキャプチャするのに必要なハードウェアおよびそれをサポートするソフトウェアを含む。キャプチャシステムのハードウェアは、並んで配置されたビデオカメラ列を含む。さらに、カメラは、各カメラの視野が、隣接するカメラまたは複数のカメラの視野と所定の量（例えば３０度）重なり合うようにして、それぞれが全体的に、シーン中の同じターゲットオブジェクトまたは領域の方向を指すような収束的構成を有している。ターゲットオブジェクトまたは領域に関するカメラの方向は、所望される結果に応じて変化することができる。言い換えると、各カメラの距離は、ターゲットオブジェクトまたは領域から離れており、ターゲットに対するその高さおよび／または水平の配置を変化させることができる。例えば、１つの有益な配置は、図２に示すように、カメラを水平の弧中に配置することである。そのようにすると、ユーザが、カメラを結ぶ水平の弧に沿った任意の適切な視点（ｖａｎｔａｇｅｐｏｉｎｔ）からシーンを見ることができるようになる。したがって、ユーザには、ターゲットの周りの弧中で水平に移動することが可能であるかのように見えるはずである。カメラの列が実施できる他の構成は、垂直の弧である。そのようにすると、ユーザは、ターゲットオブジェクトまたは領域の上に昇っていくように見える適切な視点からシーンを眺めることが可能になる。カメラは、すべて水平または垂直な平面に１列に並ぶ必要はない。例えば、カメラは、斜めに横切って配置することができる。すなわち、全体的に水平な構成であるが、一方の端から他方の端まで上方にスイープするものである。こうすると、見る人にオブジェクトの周りを回って移動すると共に、その上方に昇るようにオブジェクトを見ることが可能になるという印象を与えるはずである。一般に、所望の経路に沿ってカメラを並べることにより、任意のビューイング経路を作成することができる。

カメラは、適切な任意のビデオカメラとすることができるが、デジタルビデオカメラが好ましい。デジタルカメラを使用しない場合、この後のセクションで述べるさらなる処理を実施する前に、各ビデオフレームをデジタル化する必要がある。さらに、そのビデオカメラは、高解像度カメラである必要はないが、得られる対話式視点ビデオの品質は、かかるカメラを用いた場合高められる。さらに、ビデオストリームの同期化を支援するために、カメラがコンピュータを介して遠隔的に制御されスタート／ストップし、カメラの設定を調整することができるタイプのものである場合有利である。それによって、ユーザは、コンピュータを介してすべてのカメラを同時に制御することができる。さらに、ゲンロック機能付きのカメラは、そのビデオの送りを容易に同期させるので望ましい。各カメラがまた、生成された各ビデオフレームに現在のカメラ設定および露光、ならびにタイムスタンプを示すメタデータを追加する場合、今後の処理のために有利である。

図２を再度参照すると、本ビデオキャプチャリングシステムのハードウェアの例示的な構成が示されている。その実施例では、８台のカメラ２００が水平の弧に沿って配置されている。高解像度（例えば、１０２４×７６８）カラーカメラが、約３０度の水平視野となる８ｍｍレンズを使用し、１５ｆｐｓでビデオをキャプチャするのに使用されている。

本ビデオキャプチャシステムの他の主要な特徴は、カメラから同期化されたビデオストリームを実時間で取得することである。そのタスクを達成するために、カメラからの個々の送りを受信し同期させることのできる装置が、同期化されたビデオストリームデータを記憶するための装置であると有利である。図２に示す例示的な構成では、すべての入力ビデオの実時間の同期化および記憶が２つの集線ユニット２０２およびハードドライブ列２０４によって処理される。各集線装置（ｃｏｎｃｅｎｔｒａｔｏｒ）２０２は、４台のカメラからの送りを同期させ、４つの非圧縮ビデオストリームを光ファイバケーブルを介してハードドライブ列２０４にパイプ接続する。２つの集線装置２０２は、ＦｉｒｅＷｉｒｅケーブルを介して同期化され、確実に８つのビデオ送りがすべて同期するようにする。システムの代替的な実施形態においては、各カメラは、ＤＶテープ、ＶＨＳテープなどの記録装置をそれ自体に有することもできる。この場合、ビデオは、記録後ハードディスクに転送することができる。

前述のコンピュータ２０６は、複数のカメラを制御するよう設計されたビデオキャプチャプログラムを実行する。本質的には、ビデオキャプチャプログラムは、複数のビデオカメラを同時にオン／オフし、また各カメラの設定（例えば、特に、露光、ホワイトバランス、焦点）を調節することができる従来の任意のプログラムとすることができる。実際には、キャプチャセッションの前に、標準の方法を用いて適切なカメラ設定が決定され、ビデオキャプチャプログラムがその設定に合わせてすべてのカメラを調整するために使用されることになる。キャプチャプログラムはまた、事前に設定された時間に、またはスタートさせるユーザコマンド入力があるとすべてのカメラが同時にスタートする。さらに、キャプチャプログラムは、事前に設定された時間に、またはユーザコマンド入力があるとすべてのカメラを同時に停止させる。

ビデオストリームのキャプチャおよび記憶に加えて、対話式視点ビデオキャプチャシステムはまた、カメラの較正プログラムを含み、それはカメラを制御するのに使用される同じコンピュータ、または異なるコンピュータ上で動作することができる。カメラは、すべてのキャプチャセッションの前に較正されて３次元再構成のために必要なすべてのカメラ属性を取得する。その属性は、幾何パラメータ（例えば、固有のおよび外因性のカメラパラメータ）と測光パラメータ（例えば、露光、ホワイトバランス、ビネット（ｖｉｇｎｅｔｔｉｎｇ））を含む。テストされた実施形態では、幾何的なカメラパラメータは、Ｚｈａｎｇ（非特許文献２４）の較正技法を用いて取得された。その手順は、一般に、各カメラの前の平坦な表面上に設けられた較正パターンを移動させることを含む。各カメラによって生成された、較正パターンを表すビデオストリームは、次いで、前述のカメラ属性を復帰させるために分析される。そのカメラパラメータは、記憶され、ビデオストリームと共に、この後で簡単に説明する対話式視点ビデオ生成プログラムに供給される。

１．３対話式視点ビデオシステムプログラム
対話式視点ビデオシステムはまた、対話式視点ビデオを生成するためのコンピュータプログラムと、ユーザに再生するためにそれをレンダリングするためのコンピュータプログラムとを含む。そのアーキテクチャおよびその各プログラムを構成するプログラムモジュールを次に説明する。

１．３．１対話式視点ビデオ生成プログラムアーキテクチャ
図３を参照すると、前述のビデオキャプチャシステムによって生成されたビデオストリーム３１２、およびカメラ較正データ３１４が処理のために、まず３次元再構成モジュール３００に送られる。３次元再構成モジュール３００の目的は、すべてのカメラビューにわたって、高品質なフォトコンシステント（ｐｈｏｔｏ−ｃｏｎｓｉｓｔｅｎｔ）の対応関係を生成し、また同時にキャプチャされたビデオフレームの各グループ中のフレームごとに視差（ｄｉｓｐａｒｉｔｙ）マップを生成することである。さらに、再構成モジュール３００は、対応関係が分った後、各フレームグループの測光パラメータをバランスさせることができる。

生成された各視差マップは、マッティング（ｍａｔｔｉｎｇ）モジュール３０２によって処理される。一般に、マッティングモジュール３０２は、その視差マップに基づいてフレームにおける大幅な深さの不連続領域を識別することを担当する。次いで、その情報は、レイヤ化表示モジュール３０４に提供され、本システムの一実施形態では、その表示モジュール３０４は、大幅な深さの不連続を示さないフレーム中の領域に関連するピクセル、および深さの不連続部の周囲領域からの背景情報とで構成される主レイヤと、大幅な深さの不連続部を有する領域に関連するピクセルからの前景情報から構成される境界レイヤとを生成する。したがって、２レイヤ表示が、各カメラからのビデオストリームのフレームごとに作成される。

２レイヤのビデオフレーム表示は、次に任意選択的に圧縮モジュール３０６に提供される。データ圧縮は任意選択であるが、前述のカメラ列における各カメラによって生成される各フレームに対する２レイヤは、（例えば、８台のカメラで１５ｆｐｓの速度で１秒間記録した場合、非圧縮で８００ＭＢのオーダの）大量のデータを表すことになることに留意されたい。したがって、データのどんな圧縮もその伝送および／または記憶に役立つことになる。図３では、モジュールの任意選択性を、破線のボックスを使用して示す。

２レイヤビデオフレーム表示は、圧縮の有無にかかわらず、次にファイル生成モジュール３０８に渡される。さらに、前に取得したカメラ較正データ３１４がファイル生成モジュール３０８に提供される。本質的には、ファイル生成モジュール３０８は、２レイヤビデオフレーム表示および較正データを符号化して、処理のために前述の対話式視点ビデオレンダリングプログラムに直接送信する、あるいは将来レンダリングプログラムに送信するために記憶する。本発明の一実施形態では、カメラ較正データ３１４は、ビデオファイルのヘッダ中に配置される。

上記の対話式視点ビデオ生成プログラムの好ましい動作モードは、キャプチャされたシーンのイメージベース表示を用いているが、３次元コンピュータ生成画像をその代わりに使用して、本システムおよびプロセスを実施することもやはり可能であることに留意されたい。この代替の実施形態では、３次元再構成モジュールは除かれ、その代わりにコンピュータ生成ビデオフレームが３次元コンピュータ生成画像モジュール３１０を介してマッティングモジュール３０２に入力される。したがって、前に説明したキャプチャリングシステムもまた、必要がなくなる。図３で、ここでもまた、画像モジュール３１０の任意選択性を破線のボックスを使用することにより示す。

カメラでキャプチャされたフレームの代わりの合成フレーム入力は、実際のビデオストリームの説明に関して前に述べたものとすべて同じ属性をやはり表すことになる。さらに、仮想カメラパラメータ情報が、実際のカメラ較正データの代わりに、合成されたビデオストリームごとにファイル生成モジュールに入力されることになる。次いで、合成されたフレームおよびカメラパラメータのデータは、イメージベースのデータと同じように処理されるはずである。したがって、本発明の残りの説明では、レイヤ化表示モジュールに提供されるフレームデータがイメージベースであろうと合成であろうと区別を行わないものとする。さらに、カメラが実際のものであろうと仮想のものであろうと、またカメラパラメータが計算されたものであろうと合成されたものであろうと区別を行わないものとする。

１．３．１．１３次元再構成モジュール
ビュー補間に使用するためのステレオビジョンプロセスを開発する場合、正確さに対する要件は、３次元再構成に使用される標準のステレオアルゴリズムの要件とは異なる。具体的には、視差におけるエラーは、補間されたイメージに対する明度のエラーほど問題になることはない。例えば、白い壁など、低いテクスチャ領域におけるマルチピクセル視差エラーは、大幅にテクスチャ化された領域中の同じ視差エラーよりも、補間されたイメージ中の明度エラーが大幅に低減される。特に、シーン中のエッジおよび直線が正しくレンダリングされる必要がある。

従来のステレオアルゴリズムは、視差の不連続部の周囲で誤った結果を生む傾向がある。残念ながら、このようなエラーは、視差の不連続部が、通常、明度エッジと一致するので、補間されたシーン中にいくつかの最も目に付きやすいアーティファクトを作成することになる。この理由のため、ビュー補間のためのステレオアルゴリズムは、視差の不連続部を含む明度エッジの周囲にピクセルを正しくマッチさせなければならない。

最近、セグメンテーションベースのステレオと呼ばれるステレオ視への新規な手法が提案されている。その方法は、ステレオ計算の前に、類似のまたはスムーズな視差を有する可能性の高い領域にイメージを区分する。次いで、スムーズさの制約をセグメントごとに実施する。Ｔａｏ他（非特許文献１７）は、平面制約を使用し、ＺｈａｎｇとＫａｍｂｈａｍｅｔｔｕ（非特許文献２２）は局所サポートのためにセグメントを使用している。それらの方法は、視差の不連続部を正確に処理する点で非常に有望な結果を示している。

上記のセグメンテーションベースのステレオ技法を３次元再構成タスクを達成するのに使用することができるが、テストした本発明の実施形態は、新規のセグメンテーションベースの手法を使用した。その新規な手法は、本出願の発明者による、本出願の譲受人に譲渡された「Color Segmentation-Based Stereo Reconstruction System And Process」と題する同時係属出願の主題である。

１．３．１．２マッティングモジュール
ステレオ計算中は、各ピクセルが一意的な視差を有しているものと仮定する。一般に、オブジェクトの境界に沿っていくつかのピクセルが背景領域と前景領域から共に影響を受ける場合はそうではない。しかし、元の混合されたピクセルカラーがイメージベースのレンダリング中に使用された場合、視認できるアーティファクトが生ずる。

その問題を解決するために、深さの不連続部の近傍において、λピクセル（例えば、４ピクセル）より大きい視差ジャンプとして決定される小領域を識別する。より具体的には、その領域内のピクセルごとに前景と背景を見つけるためにマッティングが使用される。前景情報は、境界レイヤ内に記憶され、背景情報および深さの不連続がλピクセル以内ではないピクセルからの情報が主レイヤ中に記憶される。後に説明するレンダリング手順中にクラックを生ずるのを防ぐために、境界マットを（前景ピクセル領域の内側に向けて１ピクセル）拡張する。次いで、そのピクセルラベル情報は、レイヤ化表示モジュールに渡される。

上記のマッティングタスクは、適切な任意の従来のマッティング技法を使用して実施することができるが、テストした本発明の実施形態は新規の手法を使用した。その新規な手法は、本出願の発明者による、本出願の譲受人に譲渡された「A System And Process For Generating A Two-Layer, 3D Representation Of A Scene」と題する同時係属出願の主題である。

１．３．１．３レイヤ化表示モジュール
レイヤ化表示モジュールは、各フレームに関連するデータ、ならびにマッティングモジュールによって生成されたピクセルラベル情報を取り込み、境界マットのためのカラー、深さ、および不透明度（例えば、アルファ値）を推定する。それは、例えば、ベイジアン（Ｂａｙｅｓｉａｎ）イメージマッティング（非特許文献５）などのマッティング技法を用いて実施することができる。（非特許文献５）は、深さを推定するものではなく、カラーと不透明度だけを推定することに留意されたい。深さは、前景および背景ピクセル領域における近くの深さのアルファで重み付けされた平均を用いて推定することができる。得られた前景ピクセルデータは、処理されるフレームに対する境界レイヤとして指定される。次に、境界マット内に存在しない残りのピクセルからのピクセルデータと共に背景ピクセルデータが、フレームの主レイヤを構成するのに使用される。

したがって、レイヤ化表示モジュールの出力は、前述の各カメラからのビデオストリームのフレームごとの境界レイヤであり、それは、レイヤ中のピクセルごとに、ピクセルカラーＢ_C、深さＢ_D、不透明度αを識別する。さらに、主レイヤは、フレームごとに出力され、それは、そのレイヤ中のピクセルごとに、ピクセルのカラーＭ_C、深さＭ_Dを識別する。

上記のレイヤ化タスクは、適切な任意の従来のレイヤ化技法を用いて実施することができるが、テストした本発明の実施形態は、新規な手法を使用した。その新規な手法は、「A System And Process For Generating A Two-Layer, 3D Representation Of A Scene」と題する前述の同時係属出願の主題である。

１．３．１．４圧縮モジュール
圧縮は、本発明に関連する大量のデータセットを管理可能なサイズに削減し、かつより速い再生をサポートするために任意選択で使用することができる。従来の時間ベースの圧縮方式、例えば、ＭＰＥＧ−４（ＩＳＯ／ＩＥＣ１４４９６）は、本発明で使用することが可能であり有利である。しかし、各カメラは、同じシーンの部分をキャプチャしているので、カメラ間（すなわち、空間的な）冗長性を利用することによってデータを圧縮できる見込みがある。時間予測は、先行フレームからの動き補償予測を使用し、空間予測は、基準カメラのテクスチャ、および圧縮の基準として空間的に隣接するカメラの視点に変形される視差マップを使用する。例えば、ＭＰＥＧ−４は、隣接する視点の類似性を利用した立体視データの圧縮のための標準を含む。したがって、一般に、時間的または空間的な冗長性を利用するコーデックはこのタスクに適切である。しかし、最大の圧縮は、その２つの圧縮方式を組み合わせることによって達成することができる。

上記の組み合わせた圧縮方式は、既存の時間的および空間的技法を用いて実施することができるが、テストした本発明の実施形態は、新規の統合された手法を使用した。その新規の手法は、本出願の発明者による、本出願の譲受人に譲渡された「A System And Process For Compressing And Decompressing Multiple, Layered, Video Streams Employing Spatial And Temporal Encoding」と題する同時係属出願の主題である。

１．３．２対話式視点ビデオ生成プロセス
図４Ａ〜図４Ｂに示す本発明の一実施形態における対話式視点ビデオを生成するために、以下のプロセスを実施する上記のプログラムアーキテクチャを使用することができる。まず、同期化されたビデオストリームが前述のビデオキャプチャシステムから入力される（プロセスアクション４００）。次いで、３次元再構成が実施されて、すべてのカメラビューにわたる対応関係と、入力ビデオストリームから同時にキャプチャされたビデオフレームの各グループ中のフレームごとに視差マップとを計算する（プロセスアクション４０２）。さらに、対応関係が分った後に、各フレームグループの測光パラメータをバランスさせる（プロセスアクション４０４）。

次に、各フレームは、所定の順序で選択される（プロセスアクション４０６）。より具体的には、同時にキャプチャされたビデオフレームの着信する各グループ中のフレームを（所望の任意の順序で）それぞれ選択し、次いで、次のフレームグループに対しても同じことを実施し、以下同様に行う。選択されたフレームごとに、大幅な深さの不連続領域がその視差マップに基づいて識別される（プロセスアクション４０８）。その情報は、大幅な深さの不連続部を有する領域に関連するピクセルからの前景情報で構成される境界レイヤと、残りの情報からなる主レイヤとを生成するのに使用される（プロセスアクション４１０）。次いで、処理すべきフレームで前に未選択のままになっているものがあるかどうか判定される（プロセスアクション４１２）。残っている場合、すべてのフレームが処理されるまでプロセスアクション４０６から４１２までが繰り返される。したがって、２レイヤ表示が完全にフレームごとに作成される。選択すべきフレームが残っていない場合、生成プロセスは進み、ビデオフレームデータを任意選択で圧縮する（プロセスアクション４１４）。それは、例えば、時間的（すなわち、同時にキャプチャされたフレームのグループ間）および空間的（すなわち、同じグループのフレーム間）圧縮技法を使用して行うことができる。この最後のアクションの任意選択的な性質は、図４Ａで破線のボックスを用いて示されていることに留意されたい。フレームデータが、圧縮されようとされまいと、次のプロセスアクション４１６は、レイヤ化されたビデオフレーム表示、およびビデオキャプチャシステムから提供されたカメラ較正データを含む対話式視点ビデオファイルを生成する。

上記の対話式視点ビデオ生成プロセスにおいて、ビデオキャプチャシステムからのイメージベースビデオストリーム入力を、前に述べたようにコンピュータ生成ビデオデータと置き換えることができることに留意されたい。このような場合、カメラ較正データはまた、同種の仮想データと置き換えられるはずである。

１．３．３対話式視点ビデオレンダリングプログラムのアーキテクチャ
図５を参照すると、前述のファイル生成モジュールによって生成された対話式視点ビデオファイル５０４が、まず選択的復号モジュール５００に送られる。一般に、選択的復号モジュール５００は、ユーザがビデオを見ることにより選択された適切な視点からのビデオの現在のフレームをレンダリングするのに必要となる着信するファイルのその部分を復号化する。より具体的には、モジュール５００は、レンダリングモジュール５０２（後で簡単に説明する）によって識別されたファイルの部分を復号して、所望の視点からシーンをレンダリングするのに必要な特定のビデオフレームに関連するレイヤ化されたビデオフレームデータを復元する。したがって、可能な最小のデータ量が復号化されるはずであり、それによって、このプロセスが高速化され、実時間レンダリング機能が提供される。

復号化されレイヤ化されたフレームデータは、レンダリングモジュール５０２に送られる。一般に、そのモジュール５０２は、フレームデータを取得し、ユーザによって指定された適切な視点からユーザから見たビデオの現在の部分に対するシーンのビューをレンダリングする。それは、まず現在のユーザ入力５０６を取得し、次いで所望のビューを生成することを含む。

１．３．３．１選択的復号モジュール
選択的復号モジュールの目的は、現在のユーザが選択した適切な視点からのビデオ中でキャプチャされたシーンをレンダリングするのに必要な情報だけを復号化することである。本質的には、それは、表示されているビデオ中の現在の時間的位置に関連する同時にキャプチャされたフレームグループからのフレームまたは複数のフレームを復号する必要があり、そのフレームは、特定のユーザが選択した適切な視点からのビデオの現在の部分に表されているシーンのビューをレンダリングするのに必要なレイヤ化されたビデオフレームデータを取得するために復号化が必要となる。その適切な視点がカメラのうちの１つによってキャプチャされたシーンのビューに一致する場合、そのフレームに関連するデータだけを復号化する必要がある。しかし、所望の視点が２つのカメラビューの間のいずれかに含まれる場合、その隣接するカメラの両方に関連するフレームデータが、所望の視点からのシーンをレンダリングするために復号化されなければならない。

所望の適切な視点からシーンをレンダリングするのに必要な特定のフレームまたは複数のフレームが、（次に説明する）レンダリングモジュールによって識別される。識別された後、識別されたフレームまたは複数のフレームに関連するレイヤ化されたビデオフレームデータが、前述の圧縮およびファイル生成モジュールで使用された圧縮タイプおよび符号化方式に適用可能な適切な復号技法を用いて復号化される。前述の統合された手法がテストした本発明の諸実施形態で使用される場合では、「A System And Process For Compressing And Decompressing Multiple, Layered, Video Streams Employing Spatial And Temporal Encoding」と題する同時係属出願に記載のように実施される。

対話式視点ビデオファイルからのフレームデータの復号に加えて、復号モジュールはまた、前述のカメラ較正データも復号化する。前に示したように、そのデータはファイルのヘッダ中に、またはメタデータとして存在することができる。

１．３．３．２レンダリングモジュール
シーンをレンダリングすることが望まれる視点に関するユーザ入力をまず処理し、その所望のビューをレンダリングするために必要な、表示されているビデオの現在の時間部分に関連する同時にキャプチャされたフレームのグループからフレームまたは複数のフレームを識別することがレンダリングモジュールの仕事である。そのタスクを実施するために、レンダリングモジュールは、対話式視点ビデオファイルに含まれている前述のカメラ較正データを用いて初期化される。その較正データは、視聴されるビデオに関連するシーンをキャプチャするために使用されるビデオカメラごとの位置および視点情報を含む。この情報が与えられると、レンダリングモジュールは、カメラの視点位置を計算する。前述のように、ユーザは、カメラの視点を結ぶ経路に沿って任意の視点を指定することができる。２台の外側のカメラは、可能な視点選択の終点を表す。前に論じたように、選択された視点は、カメラのうちの１つによってキャプチャされたシーンのビュー（あるいは、代替的に、仮想カメラ位置から合成されたビュー）に一致することができる。このような場合、そのカメラに関連する「現在の」フレームだけが所望のビューをレンダリングするのに必要なものとして識別される。しかし、普通の場合は、視点は２つの隣接するカメラの視点の間に含まれる。後者の場合、レンダリングモジュールが、その隣接するカメラの両方に関連する現在のフレームを識別する。

ユーザ入力については、その情報は、ユーザによる視点の選択を入力し処理するのに用いられるある種のユーザインターフェースを介するなど、適切な任意の従来方式で取得することができる。例えば、そのインターフェースは、表示装置（例えば、特に、コンピュータモニタ、表示画面、３次元ゴーグル）上でユーザに提示されるＧＵＩ（グラフィックスユーザインターフェース）を含むことができる。そのＧＵＩは、レンダリングされるビデオの現在の部分に対するビデオ中のキャプチャされたシーンを見ることを望む可能な視点の中から、ユーザが視点を指示することが可能な何らかのグラフィック構成を含むことになる。ユーザは、さらに、ビデオの再生時に所望の視点を変更することもできる。その選択は、任意の標準の入力装置（例えば、特に、マウス、ジョイスティック、視標追跡）を有するＧＵＩを用いたユーザインターフェースによって行われる。

所望のビューをレンダリングするために必要なフレームが識別された後、レンダリングモジュールは、必要なフレームデータを復号化するよう選択的復号モジュールに指示する。選択的復号モジュールのフレームデータ出力は、提供されたフレームごとに５つのデータ平面、すなわち、主レイヤカラー、主レイヤ深さ、境界レイヤアルファマット、境界レイヤカラー、および境界レイヤ深さからなる。所望の視点がカメラ視点のうちの１つに一致する場合、そのカメラの主レイヤおよび境界レイヤデータ平面だけが、そのシーンを再構成するために使用される。しかし、所望の視点が２つのカメラ視点の間に含まれる場合はレンダリングプロセスがさらに必要となる。ユーザに指定された視点からのシーンのビューをレンダリングするために、２つのカメラ視点からのデータが必要となる本レンダリングモジュールの一実施形態では、各カメラからの主および境界レイヤデータが所望の視点に投影される。それは、従来のレンダリング方式、および対話式視点ビデオファイル中で提供されるカメラ較正データを用いて実施することができる。次いで、投影された主および境界レイヤは、最終フレームを生成するために混合される。この場合もまた、各レイヤの最終ビューへの影響度が、所望の視点からそれに関連するカメラ視点までの近さに比例して重み付けされる従来の混合方式が用いられる。言い換えると、所望の視点がカメラ視点のうちの一方に他方よりも近い場合、そのカメラの最初のものに関連する投影されたレイヤが他方のものより重要であるとして重み付けされる。

従来のビュー投影およびレンダリング技法を上記のレンダリングタスクを実施するのに使用することができるが、テストした本発明の実施形態は新しい手法を使用した。その新しい手法は、本出願の発明者による、本出願の譲受人に譲渡された「An Interactive, Real-Time Rendering System And Process For Virtual Viewpoint Video」と題する同時係属出願の主題である。前述のレンダリングプロセスは、グラフィックス処理装置、ソフトウェアレンダリング技法、またはその両方を用いて実施できることにさらに留意されたい。図６（ａ）から図６（ｃ）は、上記のレンダリングプロセスの結果の一実施例を示す。図６（ａ）および図６（ｃ）は、異なる視点に位置する２つの隣接するビデオカメラから同時にキャプチャされたフレームを示す。図６（ｂ）は、ユーザに指定された視点が図６（ａ）および図６（ｃ）の画像に関連する視点の間にあるときにレンダリングされたフレームの一実施例である。

前に示したように、上記の対話式視点ビデオ生成プログラムの好ましい動作モードは、キャプチャされたシーンのイメージベース表示を用いることである。しかし、合成されたエレメントをレンダリングされたシーンに追加的に導入することは、本発明の範囲を逸脱するものではない。したがって、レンダリングモジュールの一実施形態では（図５に示すように）、現在レンダリングされているフレーム中に組み込むために、３次元オブジェクトデータ５０８がレンダリングモジュールに入力される。一実施形態では、その入力は、動画的なオブジェクトもしくは選択された視点に対応する視点からのオブジェクトを、レンダリングするのに必要なデータと、レンダリングされるフレーム内の事前設定された位置におけるオブジェクトを組み込むための位置決め情報とを含むことになる。そのオブジェクト（または複数のオブジェクト）は、時間と共に形状を変化させる（すなわち、レンダリングされたフレームの様々なフレームで異なる外観を有するようにする）ことも、静的な外観を有することもできる。さらに、オブジェクト（または複数のオブジェクト）が組み込まれるレンダリングされたフレーム中の位置は、時間と共に変化する（すなわち、レンダリングされたフレームの様々なフレームで異なる位置を有する）ことも、各連続するレンダリングされたフレーム中の同じ場所に位置することもできる。

レンダリングプロセス中に、イメージベースのオブジェクトをシーンに挿入することもできる。例えば、図７は、本発明に従って作成された対話式視点ビデオからのフレームを示しており、そのフレームに、別のブレークダンサのコピーが挿入されている。この効果は、まず、深さ閾値を用いてダンサのマットを「抽出（ｐｕｌｌｉｎｇ）」し、次いで抽出したスプライトを元のビデオにｚバッファ法を用いて挿入することによって達成される。

１．３．４対話式視点ビデオレンダリングプロセス
図８に示すように、上記のレンダリングプログラムのアーキテクチャは、本発明の一実施形態における対話式視点ビデオをレンダリングするための以下のプロセスを実施するために使用することができる。一般に、レンダリングされるビデオのフレームごとに、まず、ユーザに指定された現在の視点が入力される（プロセスアクション８００）。しかし、ビデオの新しいフレームがレンダリングされるごとに視点を入力するのではなく、指定された視点の変化だけを入力することもできることに留意されたい。その場合、視点の変化を受信していない場合は、最後に指定された視点がなお有効であるものと仮定し、ビデオの現在のフレームをレンダリングするのにその視点を使用することになる。

ユーザに指定された視点が設定された後、次のプロセスアクション８０２で、所望のビューを生成するために必要となる、表示されているビデオの現在のフレームに関連する同時にキャプチャされた入力フレームのグループからフレームまたは複数のフレームを識別する。次いで、識別されたフレームまたは複数のフレームは復号化される（プロセスアクション８０４）。

次に、対話式視点ビデオの現在のフレームが復号化されたビデオデータを用いてレンダリングされる（プロセスアクション８０６）。そのフレームは、ユーザによって現在指定されている視点から見たビデオの現在の時間部分に関連するシーンを表すことになる。それは、所望の視点が、シーンをキャプチャするのに使用される２つの隣接するカメラの視点の間に含まれる場合、フレームを合成することが必要となる。前述のように、レンダリングプロセス中にコンピュータ生成またはイメージベースのオブジェクトをシーンに挿入するように、上記のプロセスを任意選択で変更することも可能であることに留意されたい。ただし、図８にそのアクションを示していない。

２．０可能性のある用途（ＰｏｔｅｎｔｉａｌＡｐｐｌｉｃａｔｉｏｎｓ）
対話式視点ビデオシステムおよびプロセスは、様々な興味のある用途に使用することができる。その基本的なレベルでは、ユーザは、ビデオを再生し、見ながらその視点を連続して変更することができる。したがって、対話式視点ビデオにより、ユーザが対話式３次元媒体としてビデオを体験できるようになる。それは、動的なイベントを見る方法を変更し、かつゲームの現実性を高めることに高い可能性を有する。当該動的イベントの実施例には、スポーツイベント（野球、バスケットボール、スケートボード、テニスなど）、教育用ビデオ（ゴルフのハウツービデオ、武道など）、およびパフォーマンス（シルクドゥソレイユ（ＣｉｒｑｕｅｄｅＳｏｌｅｉｌ）、バレエ、モダンダンスなど）がある。さらに、十分な帯域が利用可能な場合、そのビデオは、ブロードキャストまたはマルチキャストすることも可能であり、したがって３次元テレビジョンと呼ぶことができる視聴体験を提供することもできる。

しかし、本発明は、ビデオを見ながら視点を変化させることに限定されない。それはまた、空間／時間操作などの様々な特殊な効果を作成するのに使用することもできる。例えば、ユーザは、ビデオをフリーズし、様々な視点から表されたシーンを見ることができる。ユーザはまた、１つまたは複数の視点から表されたシーンを見ながらビデオを再生し、次いでビデオをリバースし、シーンを様々な視点から見ることもできる。さらに、所望のように視点を変えながら、ビデオを任意の速度で前後に再生することもできる。

対話式視点の上記の機能は、一般の視聴者（ｃａｓｕａｌｖｉｅｗｅｒ）にとって興味があるだけではなく、テレビジョンおよび映画業界に特に有益であろう。最も望ましいショットを撮り損なうことを恐れながら、前もって、シーンのどの部分を、どの視点からキャプチャすべきかを決定する苦労の多いプロセスの代わりに、本発明のシステムおよびプロセスを使用することができる。例えば、あるシーンをまず対話式視点ビデオとしてキャプチャする。次いで、映画制作者は、そのビデオを見て、ショットごとに（さらに細かく１フレームごとに）最終のフィルムに対して所望する視点を選択する。さらに、前述のオブジェクト挿入機能はまた、映画制作者にとって有利となり得るツールである。したがって、ここに提示した技法により、イメージベース（およびビデオベース）レンダリングを将来のメディア構築および配信を統合するコンポーネントとすることに１ステップ近づくことができる。

本発明を実施するための例示的なシステムを構成する汎用コンピューティング装置を示す図である。本発明による対話式視点ビデオキャプチャシステムのハードウェア構成の例示的な実施形態を示す図である。本発明による対話式視点ビデオ生成プログラムの一実施形態のための一般的なコンピュータプログラムモジュールのアーキテクチャを示すブロック図である。本発明による対話式視点ビデオ生成プロセスの一実施形態を図式化した流れ図である。本発明による対話式視点ビデオ生成プロセスの一実施形態を図式化した流れ図である。本発明による対話式視点ビデオレンダリングプログラムの一実施形態のための一般的なコンピュータプログラムモジュールのアーキテクチャを示すブロック図である。（ａ）は、本発明による対話式視点ビデオレンダリングプロセスの結果の一実施例を示すイメージを示す図であり、異なる視点に位置する２つの隣接するビデオカメラから、同時にキャプチャされたフレームを示す図であり、（ｂ）は、本発明による対話式視点ビデオレンダリングプロセスの結果の一実施例を示すイメージを示す図であり、ユーザに指定された視点が、図６（ａ）および図６（ｃ）のイメージに関連する視点の間に含まれるときにレンダリングされたフレームの一実施例を示す図であり、（ｃ）は、本発明による対話式視点ビデオレンダリングプロセスの結果の一実施例を示すイメージを示す図であり、異なる視点に位置する２つの隣接するビデオカメラから、同時にキャプチャされたフレームを示す図である。別のブレークダンサのコピーが挿入された、本発明に従がって作成された対話式視点ビデオからのフレームを示したイメージを示す図である。本発明による対話式視点ビデオレンダリングプロセスの一実施形態を図式化した流れ図である。

符号の説明

１２０処理装置
１２１システムバス
１３０システムメモリ
１３４オペレーティングシステム
１３５アプリケーションプログラム
１３６他のプログラムモジュール
１３７プログラムデータ
１４０取外し不能、不揮発性メモリインターフェース
１４４オペレーティングシステム
１４５アプリケーションプログラム
１４６他のプログラムモジュール
１４７プログラムデータ
１５０取外し可能、不揮発性メモリインターフェース
１６０ユーザ入力インターフェース
１６１マウス
１６２キーボード
１７０ネットワークインターフェース
１７１ローカルエリアネットワーク
１７２モデム
１７３広域ネットワーク
１８０遠隔コンピュータ
１８５遠隔アプリケーションプログラム
１９０ビデオインターフェース
１９１モニタ
１９２カメラ
１９４カメラインターフェース
１９５出力周辺装置インターフェース
１９６プリンタ
１９７スピーカ
２００カメラ
２０２集線装置
２０４ハードディスク列
２０６制御ラップトップ
３００３次元再構成モジュール
３０２マッティングモジュール
３０４レイヤ化表示モジュール
３０６圧縮モジュール
３０８ファイル生成モジュール
３１０３次元コンピュータ生成画像モジュール
３１２ビデオストリーム
３１４較正データ
５００選択的復号モジュール
５０２レンダリングモジュール
５０４ビデオファイル
５０６ユーザ入力
５０８３次元オブジェクトデータ

Claims

対話式視点ビデオを生成するためにコンピュータで実施されるプロセスであって、
それぞれが同じシーンの一部分を表す複数の同期化されたビデオストリーム、および各ビデオストリームに関連する幾何パラメータおよび測光パラメータを定義する較正データを入力するプロセスアクションと、
前記同期化されたビデオストリームから同時に取得されたフレームグループごとに、
シーンの３次元再構成を生成するプロセスアクションと、
前記再構成を用いて、前記同時に取得されたフレームグループ中のフレームごとに視差マップを計算するプロセスアクションと、
前記同時に取得されたフレームグループ中のフレームごとに、
その視差マップに基づいて大幅な深さの不連続領域を識別するプロセスアクションと、
考慮中の前記フレームに対するレイヤ化された表示を作成するために、所定の閾値を超える深さの不連続を示さないフレーム中の領域に関連するピクセル情報、および前記閾値を超える深さの不連続部を有する領域からの背景ピクセル情報を含む主レイヤ、および前記閾値を超える深さの不連続部を有する領域に関連する前景ピクセル情報を含む境界レイヤを生成するプロセスアクションと
をコンピュータを用いて実施することを含むことを特徴とするプロセス。
前記再構成を用いて、すべてのカメラビューにわたる対応関係を計算するプロセスアクションと、
前記対応関係が計算された後、各フレームグループの前記測光パラメータをバランスさせるプロセスアクションと
をさらに含むことを特徴とする請求項１に記載のプロセス。
前記ビデオの転送および／または記憶を容易にするために、前記対話式視点ビデオの前記フレームに対して生成される前記レイヤ化された表示を圧縮するプロセスアクションをさらに含むことを特徴とする請求項１に記載のプロセス。
前記レイヤ化された表示を圧縮する前記プロセスアクションは、対話式視点ビデオフレームの前記同時に取得されたグループの間で時間的な圧縮技法を使用することを含むことを特徴とする請求項３に記載のプロセス。
前記レイヤ化された表示を圧縮する前記プロセスアクションは、同じ前記同時に取得されたフレームグループにおける前記対話式視点ビデオフレーム間で空間的な圧縮技法を用いることを含むことを特徴とする請求項４に記載のプロセス。
前記レイヤ化された表示を圧縮する前記プロセスアクションは、同じ同時に取得されたフレームグループにおける前記対話式視点ビデオフレーム間で空間的な圧縮技法を用いることを含むことを特徴とする請求項３に記載のプロセス。
前記入力されたビデオストリームのフレームから生成された前記レイヤ化された表示および前記較正データを含む対話式視点ビデオファイルを生成するプロセスアクションをさらに含むことを特徴とする請求項１に記載のプロセス。
前記複数の同期化されたビデオストリームおよび較正データは、複数のビデオカメラによってキャプチャされたイメージフレームから取得されることを特徴とする請求項１に記載のプロセス。
前記複数の同期化されたビデオストリームおよび較正データは、コンピュータ生成であることを特徴とする請求項１に記載のプロセス。
前記シーンの３次元再構成を生成する前記プロセスアクションは、セグメンテーションベースの再構成技法を用いるアクションを含むことを特徴とする請求項１に記載のプロセス。
前記主レイヤを生成する前記プロセスアクションは、前記レイヤ中の各ピクセルのカラーおよび深さを設定するアクションを含み、前記境界レイヤを生成する前記プロセスアクションは、前記レイヤ中の各ピクセルのカラー、深さ、および不透明度を設定するアクションを含むことを特徴とする請求項１に記載のプロセス。
前記境界レイヤを生成する前記プロセスアクションは、前記閾値を超える深さの不連続を示す前記ピクセルに隣接する所定数のピクセルを含むように前記レイヤを拡張するアクションを含むことを特徴とする請求項１に記載のプロセス。
請求項１に記載のプロセスアクションを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
対話式視点ビデオを生成するためのシステムであって、
複数のビデオストリームをキャプチャするための複数のビデオカメラ、および
それぞれが一部の同じシーンを表している同時にキャプチャされたビデオフレームの１連のグループを作成するために前記ビデオストリームの同期をとるための同期化装置を含むビデオキャプチャサブシステムと、
１つまたは複数の汎用コンピューティング装置と、
前記１つまたは複数の汎用コンピューティング装置のうちの少なくとも１つによって実行可能なプログラムモジュールを有する第１のコンピュータプログラムであり、前記モジュールは、
各ビデオストリームに関連する幾何パラメータおよび測光パラメータを計算するためのカメラ較正モジュールを含む第１のコンピュータプログラムと、
前記１つまたは複数の汎用コンピューティング装置のうちの少なくとも１つによって実行可能なプログラムモジュールを有する第２のコンピュータプログラムであり、前記モジュールは、
前記同期化されたビデオストリームから同時に取得された各フレームグループ中に示される前記シーンの３次元再構成を生成し、また前記再構成を使用して前記同時に取得されたフレームグループ中のフレームごとに視差マップを計算する３次元再構成モジュール、
同時に取得された各フレームグループ中のフレームごとに、前記フレームの視差マップに基づいて大幅な深さの不連続領域を識別するマッティングモジュール、ならびに
考慮中の前記フレームに対してレイヤ化された表示を作成するために、同時に取得された各フレームグループにおけるフレームごとに、所定の閾値を超える深さの不連続を示さないフレーム中の領域に関連するピクセル情報、および前記閾値を超える深さの不連続部を有する領域中のピクセルからの背景ピクセル情報を含む主レイヤ、および前記閾値を超える深さの不連続部を有する領域に関連する前景ピクセル情報を含む境界レイヤを生成するレイヤ化表示モジュール
を含む第２のコンピュータプログラムと
を含むことを特徴とするシステム。
前記複数のビデオカメラは、各カメラが異なる視点からシーンを見るように並んで配置されることを特徴とする請求項１４に記載のシステム。
各カメラの視野は、任意の隣接するカメラの視野と所定量だけ重なり合うことを特徴とする請求項１５に記載のシステム。
前記シーンのターゲットオブジェクトまたは領域に対する各カメラの視点の距離、高さ、および水平位置は、前記カメラの前記視点を結ぶ所定の経路を形成するように設定されることを特徴とする請求項１５に記載のシステム。
前記所定の経路は、実質的に水平の弧であることを特徴とする請求項１７に記載のシステム。
前記所定の経路は、実質的に垂直の弧であることを特徴とする請求項１７に記載のシステム。
前記所定の経路は、一方の端から他方の端まで上方にスイープする実質的に水平の弧であることを特徴とする請求項１７に記載のシステム。
１つまたは複数の前記ビデオカメラは高解像度カメラであることを特徴とする請求項１４に記載のシステム。
前記ビデオカメラはゲンロック機能を含むことを特徴とする請求項１４に記載のシステム。
各ビデオカメラは、それが生成する各ビデオフレームに、現在のカメラ設定および前記カメラの露光レベル、およびタイムスタンプを含むメタデータを加えることを特徴とする請求項１４に記載のシステム。
前記カメラは、前記１つまたは複数のコンピューティング装置を介して遠隔制御されるタイプのものであり、前記システムがさらに、前記１つまたは複数の汎用コンピューティング装置の少なくとも１つによって実行可能なプログラムモジュールを有する第３のコンピュータプログラムを含み、前記モジュールは、前記複数のビデオカメラを同時にオン／オフし、そのカメラ設定を調整するよう制御するためのビデオキャプチャプログラムモジュールを含むことを特徴とする請求項１４に記載のシステム。
前記ビデオキャプチャサブシステムはさらに、処理の前に前記ビデオストリームを記憶するための記憶装置を含むことを特徴とする請求項１４に記載のシステム。
前記第２のコンピュータプログラムはさらに、前記ビデオの転送および／または記憶を容易にするために、前記対話式視点ビデオの前記フレームに対して生成された前記レイヤ化された表示を圧縮するための圧縮プログラムモジュールを含むことを特徴とする請求項１４に記載のシステム。
前記第２のコンピュータプログラムはさらに、前記入力されたビデオストリームのフレームから生成される前記レイヤ化された表示および較正モジュールの前記出力を含むファイルを作成するための対話式視点ビデオファイル生成プログラムモジュールを含むことを特徴とする請求項１４に記載のシステム。
それぞれが同じシーンの一部分を表している同時にキャプチャされたビデオフレームの連続的なグループから生成されたビデオフレームのレイヤ化された表示を含むデータ、および各ビデオフレームの前記キャプチャに関連する幾何パラメータを含む較正データを含むデータから、対話的な視点ビデオをレンダリングするためのコンピュータで実施されるプロセスであって、
ユーザに指定された現在の視点を識別するプロセスアクションと、
表示されている前記ビデオの現在の時間部分に対応する同時にキャプチャされたフレームグループから、前記識別された視点からそこに示された前記シーンをレンダリングするのに必要な前記フレームまたは複数のフレームを識別するプロセスアクションと、
前記識別されたビデオフレームの前記レイヤ化された表示を入力するプロセスアクションと、
前記入力されたレイヤ化フレーム表示を用いて、前記ユーザにより現在指定されている前記視点から前記対話式視点ビデオの前記フレームをレンダリングするプロセスアクションと
を、レンダリングされる前記対話式視点ビデオのフレームごとにコンピュータを用いて実施することを含むことを特徴とするプロセス。
前記ビデオフレームデータは圧縮されており、前記識別されたビデオフレームまたは複数のフレームの前記レイヤ化された表示を入力するプロセスアクションは、前記識別されたビデオフレームまたは複数のビデオフレームの前記レイヤ化された表示を取得するために必要な前記ビデオフレームデータの前記部分を復号化するアクションを含むことを特徴とする請求項２８に記載のプロセス。
表示されている前記ビデオの現在の時間部分に対応する同時にキャプチャされたフレームグループから、前記識別された視点からそこに示された前記シーンをレンダリングするために必要な前記フレームまたは複数のフレームを識別する前記プロセスアクションは、
前記較正データを使用して、前記レイヤ化された表示がそれから生成される前記ビデオフレームのそれぞれに関連する前記視点を決定するアクションと、
前記識別された視点が、前記レイヤ化された表示がそれから生成される前記ビデオフレームの視点の１つに一致するとき、前記フレームを、前記シーンをレンダリングするために必要な唯一のフレームとして識別するアクションと、
前記識別された視点が、前記レイヤ化された表示がそれから生成される２つのビデオフレームの視点の間に含まれるとき、両方のフレームを、前記シーンをレンダリングするのに必要なフレームとして識別するアクションと
を含むことを特徴とする請求項２８に記載のプロセス。
前記対話式視点ビデオの前記フレームをレンダリングする前記プロセスアクションは、前記識別された視点が前記２つの入力フレームに関連する前記視点の間に含まれるとき、それに関連する前記較正データを用いて、表示されている前記ビデオの現在の時間部分に対応する前記同時に取得されたフレームグループのうちの２つの入力フレームから対話式視点ビデオフレームを生成するアクションを含むことを特徴とする請求項２８に記載のプロセス。
各入力フレームの前記レイヤ化された表示は、所定の閾値を超える深さの不連続を示さないフレーム中の領域に関連するピクセル情報、および前記閾値を超える深さの不連続領域からの背景ピクセル情報を含む主レイヤ、および前記閾値を超える深さの不連続部を有する領域に関連する前景ピクセル情報を含む境界レイヤを含み、表示されている前記ビデオの現在の時間部分に対応する前記同時にキャプチャされたフレームグループのうちの２つの入力フレームから対話式視点ビデオフレームを生成する前記アクションは、
前記２つの入力フレームごとに順番に、
ユーザに指定された前記現在の視点に対応するビューに、考慮中の前記入力フレームの前記主レイヤを投影するアクションと、
ユーザに指定された前記現在の視点に対応する前記ビューに、考慮中の前記入力フレームの前記境界レイヤを投影するアクションと
を含み、さらに、
投影されたレイヤの前記２つの得られた組を混合して前記対話式視点ビデオの最終化フレームを作成するアクション
を含むことを特徴とする請求項３１に記載のプロセス。
投影されたレイヤの前記２つの得られた組を混合する前記プロセスアクションは、前記投影されたレイヤを作成するのに用いられる前記入力レイヤに関連する前記視点が、いかにユーザに指定された前記現在の視点に近いかに直接比例して重み付けがそれぞれ与えられるように、前記投影されたレイヤを混合するアクションを含むことを特徴とする請求項３２に記載のプロセス。
前記対話式視点ビデオの前記フレームをレンダリングする前記プロセスアクションはさらに、前記入力されたレイヤ化フレーム表示中に存在しないオブジェクトを、レンダリングされる前記フレーム中に挿入することを含むことを特徴とする請求項２８に記載のプロセス。
請求項２８に記載のプロセスアクションを実施するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
それぞれが同じシーンの一部分を示している同時にキャプチャされたビデオフレームの連続的なグループから生成されたビデオフレームのレイヤ化された表示を含むデータ、および各ビデオフレームのキャプチャに関連する幾何パラメータを定義する較正データを含むデータを用いて、対話式視点ビデオをレンダリングし表示するためのシステムであって、
ユーザの視点選択を入力し、レンダリングされた対話式視点ビデオフレームを前記ユーザに表示するためのユーザインターフェースサブシステムであり、
視点選択を入力するために前記ユーザによって使用される入力装置、および
前記ユーザに、前記レンダリングされた対話式視点ビデオフレームを表示するための表示装置を備えるユーザインターフェースサブシステムと、
汎用コンピューティング装置と、
レンダリングおよび表示すべき前記対話式視点ビデオのフレームごとに、ビデオフレームの前記レイヤ化された表示に関連する指定されたデータを復号化する選択的復号モジュール、および
レンダリングされ表示される前記対話式視点ビデオのフレームごとに、
ユーザに選択された前記現在の視点を識別し、
表示されている前記ビデオの現在の時間部分に対応する同時にキャプチャされたフレームグループから、どのフレームまたは複数のフレームが、そこに示された前記シーンを前記識別された視点からレンダリングするために必要であるかを前記選択的復号モジュールに指定し、
前記選択的復号モジュールから前記復号されたフレームデータを取得し、
前記復号されたフレームデータを用いて、前記ユーザによって現在選択されている前記視点からの前記対話式視点ビデオのフレームをレンダリングするレンダリングモジュール
を含む、前記汎用コンピューティング装置によって実行可能なプログラムモジュールを有するコンピュータプログラムと
を含むことを特徴とするシステム。
前記ユーザインターフェースサブシステムはさらに、前記ユーザが、可能な視点の中から、前記シーンをそれから見ることが望ましい前記視点をグラフィカルに指示することができるグラフィックユーザインターフェースを含むことを特徴とする請求項３６に記載のシステム。